CN111753506B - 一种文本的替换方法和装置 - Google Patents
一种文本的替换方法和装置 Download PDFInfo
- Publication number
- CN111753506B CN111753506B CN202010414616.9A CN202010414616A CN111753506B CN 111753506 B CN111753506 B CN 111753506B CN 202010414616 A CN202010414616 A CN 202010414616A CN 111753506 B CN111753506 B CN 111753506B
- Authority
- CN
- China
- Prior art keywords
- text
- replacement
- target
- model
- target text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000003062 neural network model Methods 0.000 claims abstract description 100
- 238000012549 training Methods 0.000 claims description 51
- 230000006870 function Effects 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 17
- 238000002372 labelling Methods 0.000 claims description 12
- 238000006467 substitution reaction Methods 0.000 claims description 5
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009193 crawling Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种文本的替换方法和装置,涉及自然语言处理和数据挖掘技术领域。本发明提供的文本的替换方法和装置,将已经过预先训练的神经网络模型生成的多个第一文本标签中,与经过少量的增量文本进行实时训练的条件随机场模型生成的第二文本标签相同的文本标签,确定为目标文本标签,从而根据所述目标文本标签,完成目标文本中部分文本的替换过程,由于条件随机场模型的规则较为简单,训练速度较快,且所需的训练样本较少,因此,可以利用经过实时训练的条件随机场对神经网络模型输出的文本标签进行检验,使得即使在训练样本数量有限的情况下,也能快速、即时的修正文本标签,提高了根据文本标签进行文本替换过程的准确度和实时修正的便捷。
Description
技术领域
本发明涉及自然语言处理和数据挖掘技术领域,特别是涉及一种文本的替换方法和装置。
背景技术
语音识别是人机交互里很重要的模块,从个人电脑时代到现在的移动互联时代,人机交互由鼠标键盘走向智能手机、平板等的多点触摸。到了智能硬件时代,交互则更加多元,不仅有触摸,还有基于语音、视觉的交互。
在语音识别领域,识别结果通常是纯汉字形式,但是在一些情况中需要将汉字转换成符号的形式,例如,语音识别结果为“城市的绿化率难以达到百分之八十”,需要将其中具有特殊表示方式的字符“百分之八十”替换成人类更加常用的百分比的表达方式:“80%”,目前,完成上述书写方式替换的过程,具体为:通过人工标注的训练样本对神经网络模型进行训练,使得训练后的神经网络模型可以对输入模型的语音识别结果进行文本标注,从而确定语音识别结果中需要进行表示方式替换的部分文本的起始位置、结束位置,以及替换的类型,最终根据文本标注结果,对语音识别结果进行表达方式的替换,最终得到具有特殊表示方式的语音识别结果。
但是,在目前的方案中,由于神经网络模型的规则较为复杂,需要大量的训练样本,才能提高对于文本进行文本标注的准确度,因此,在训练样本数量有限的情况下,利用神经网络模型进行文本标注的准确度较低,进而降低了根据文本标注进行文本替换过程的准确度。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种文本的替换方法和装置。
依据本发明的第一方面,提供了一种文本的替换方法,该方法包括:
获取目标文本及增量文本;
将所述目标文本输入已经过预先训练的神经网络模型,得到与所述目标文本对应的多个第一文本标签;
将所述目标文本输入所述文本替换模型,得到与所述目标文本对应的第二文本标签,所述文本替换模型为利用所述增量文本,实时训练条件随机场模型后得到的模型;
将所述多个第一文本标签中与所述第二文本标签相同的文本标签,确定为目标文本标签,所述目标文本标签中包含文本格式类型、替换起始位置和替换结束位置;
根据所述目标文本标签中的替换起始位置和替换结束位置,确定所述目标文本中的待替换文本;
根据所述文本格式类型,确定与所述待替换文本对应的替换文本,并将所述目标文本中的待替换文本替换为所述替换文本。
可选的,所述将所述目标文本输入已经过预先训练的神经网络模型,得到与所述目标文本对应的多个第一文本标签的步骤,包括:
将所述目标文本输入所述神经网络模型,得到与所述目标文本对应的多个第一文本标签,以及与所述第一文本标签对应的第一预测概率值;
所述将所述目标文本输入文本替换模型,得到与所述目标文本对应的第二文本标签的步骤,包括:
将所述目标文本输入所述文本替换模型,得到与所述目标文本对应的第二文本标签,以及与所述第二文本标签对应的第二预测概率值;
所述并将所述目标文本中的待替换文本替换为所述替换文本的步骤,具体包括:
在所述第一预测概率值和所述第二预测概率值满足预设条件的情况下,将所述目标文本中的待替换文本替换为所述替换文本。
可选的,所述预设条件为:
A×PNN+B×PCRF>λ
其中,PNN为所述第一预测概率值,A为所述第一预测概率值的权重;
PCRF为所述第二预测概率值,B为所述第二预测概率值的权重;
λ为概率值阈值。
可选的,所述将所述目标文本输入所述文本替换模型,得到与所述目标文本对应的第二文本标签,以及与所述第二文本标签对应的第二预测概率值的步骤,包括:
将所述目标文本输入所述文本替换模型,得到与所述目标文本对应的第二文本标签;
根据所述文本替换模型包含的特征函数,计算所述待替换文本中每一个字符对应的字符标签的概率值;
计算所述待替换文本中每一个字符对应的字符标签的概率值的几何平均值,将所述几何平均值确定为所述第二预测概率值。
可选的,所述将所述目标文本输入已经过预先训练的神经网络模型,得到与所述目标文本对应的多个第一文本标签的步骤,包括:
将所述目标文本输入所述神经网络模型中,根据预先设置的标签集,确定所述目标文本中每一个字符对应的字符标签;
根据所述目标文本中每一个字符对应的字符标签,生成与所述目标文本对应的多个第一文本标签。
可选的,预先训练所述神经网络模型的步骤,包括:
获取样本语料,以及所述样本语料中包含的样本文本格式类型、样本替换起始位置和样本替换结束位置;
根据所述样本文本格式类型、所述样本替换起始位置和所述样本替换结束位置,对所述样本语料进行标注,得到与所述样本语料对应的样本标签;
根据所述样本语料和所述样本标签对所述神经网络模型进行预先训练。
可选的,利用所述增量文本,实时训练所述条件随机场模型,得到所述文本替换模型的步骤,包括:
将所述增量文本输入所述条件随机场模型,所述增量文本中包含增量文本格式类型、增量文本替换起始位置和增量文本替换结束位置;
根据所述增量文本格式类型、所述增量文本替换起始位置和所述增量文本替换结束位置,对所述增量文本进行标注,得到与所述增量文本对应的样本标签;
根据所述增量文本和所述增量文本对应的样本标签,对所述条件随机场模型进行实时训练,得到所述文本替换模型和所述文本替换模型包含的特征函数。
可选的,在所述得到所述文本替换模型和所述文本替换模型包含的特征函数的步骤之后,所述方法还包括:
根据所述特征函数,对所述神经网络模型的参数进行修正。
可选的,所述目标文本标签中还包括:预设处理方式;
所述根据所述文本格式类型,确定与所述待替换文本对应的替换文本,并将所述目标文本中的待替换文本替换为所述替换文本的步骤,包括:
根据所述文本格式类型,确定与所述待替换文本对应的替换文本;
根据所述预设处理方式,对所述替换文本按照所述预设处理方式进行处理,生成目标替换文本;
将所述目标文本中的待替换文本替换为所述目标替换文本。
依据本发明的第二方面,提供了一种文本的替换装置,该装置包括:
第一获取模块,用于获取目标文本及增量文本;
第一生成模块,用于将所述目标文本输入已经过预先训练的神经网络模型,得到与所述目标文本对应的多个第一文本标签;
第二生成模块,用于将所述目标文本输入所述文本替换模型,得到与所述目标文本对应的第二文本标签,所述文本替换模型为利用所述增量文本,实时训练条件随机场模型后得到的模型;
第一确定模块,用于将所述多个第一文本标签中与所述第二文本标签相同的文本标签,确定为目标文本标签,所述目标文本标签中包含文本格式类型、替换起始位置和替换结束位置;
第二确定模块,用于根据所述目标文本标签中的替换起始位置和替换结束位置,确定所述目标文本中的待替换文本;
替换模块,用于根据所述文本格式类型,确定与所述待替换文本对应的替换文本,并将所述目标文本中的待替换文本替换为所述替换文本。
可选的,所述第一生成模块,包括:
第一生成子模块,用于将所述目标文本输入所述神经网络模型,得到与所述目标文本对应的多个第一文本标签,以及与所述第一文本标签对应的第一预测概率值;
所述第二生成模块,包括:
第二生成子模块,用于将所述目标文本输入所述文本替换模型,得到与所述目标文本对应的第二文本标签,以及与所述第二文本标签对应的第二预测概率值;
所述替换模块,具体包括:
第一替换子模块,用于在所述第一预测概率值和所述第二预测概率值满足预设条件的情况下,将所述目标文本中的待替换文本替换为所述替换文本。
可选的,所述预设条件为:
A×PNN+B×PCRF>λ
其中,PNN为所述第一预测概率值,A为所述第一预测概率值的权重;
PCRF为所述第二预测概率值,B为所述第二预测概率值的权重;
λ为概率值阈值。
可选的,所述第二生成子模块,包括:
生成单元,用于将所述目标文本输入所述文本替换模型,得到与所述目标文本对应的第二文本标签;
第一计算单元,用于根据所述文本替换模型包含的特征函数,计算所述待替换文本中每一个字符对应的字符标签的概率值;
第二计算单元,用于计算所述待替换文本中每一个字符对应的字符标签的概率值的几何平均值,将所述几何平均值确定为所述第二预测概率值。
可选的,所述第一生成模块,包括:
第一确定子模块,用于将所述目标文本输入所述神经网络模型中,根据预先设置的标签集,确定所述目标文本中每一个字符对应的字符标签;
第三生成子模块,用于根据所述目标文本中每一个字符对应的字符标签,生成与所述目标文本对应的多个第一文本标签。
可选的,所述装置还包括:
第二获取模块,用于获取样本语料,以及所述样本语料中包含的样本文本格式类型、样本替换起始位置和样本替换结束位置;
第三生成模块,用于根据所述样本文本格式类型、所述样本替换起始位置和所述样本替换结束位置,对所述样本语料进行标注,得到与所述样本语料对应的样本标签;
训练模块,用于根据所述样本语料和所述样本标签对所述神经网络模型进行预先训练。
可选的,所述第二生成模块,还包括:
输入子模块,用于将所述增量文本输入所述条件随机场模型,所述增量文本中包含增量文本格式类型、增量文本替换起始位置和增量文本替换结束位置;
第四生成子模块,用于根据所述增量文本格式类型、所述增量文本替换起始位置和所述增量文本替换结束位置,对所述增量文本进行标注,得到与所述增量文本对应的样本标签;
训练子模块,用于根据所述增量文本和所述增量文本对应的样本标签,对所述条件随机场模型进行实时训练,得到所述文本替换模型和所述文本替换模型包含的特征函数。
可选的,所述装置还包括:
修正模块,用于根据所述特征函数,对所述神经网络模型的参数进行修正。
可选的,所述目标文本标签中还包括:预设处理方式;
所述替换模块,包括:
第二确定子模块,用于根据所述文本格式类型,确定与所述待替换文本对应的替换文本;
第五生成子模块,用于根据所述预设处理方式,对所述替换文本按照所述预设处理方式进行处理,生成目标替换文本;
第二替换子模块,用于将所述目标文本中的待替换文本替换为所述目标替换文本。
本发明实施例提供的一种文本的替换方法和装置,在将目标文本中包含的待替换文本,替换为与所述待替换文本对应的,且具有文本格式类型的替换文本时,将通过已经过预先训练的神经网络模型生成的多个第一文本标签,与通过少量的增量文本进行实时训练的条件随机场模型生成的第二文本标签进行比较,将第一文本标签中与第二文本标签相同的文本标签确定为目标文本标签,从而,可以进一步根据所述目标文本标签中包含的文本格式类型、替换起始位置和替换结束位置,完成目标文本中部分文本的替换过程,由于条件随机场模型的规则较为简单,训练速度较快,且所需的训练样本较少,因此,可以利用经过实时训练的条件随机场对神经网络模型输出的文本标签进行检验,使得即时在训练样本数量有限的情况下,使用数量较少的训练样本,快速、即时的对神经网络模型输出的文本标签进行检验和修正,提高了文本标注的准确度,进而提高了根据文本标签进行文本替换过程的准确度和实时修正的便捷性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例提供的一种文本的替换方法的步骤流程图;
图2是本发明实施例提供的另一种文本的替换方法的步骤流程图;
图3是本发明实施例提供的一种文本的替换装置的框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1是本发明实施例提供的一种文本的替换方法的步骤流程图,如图1所示,该方法可以包括:
步骤101、获取目标文本及增量文本。
在该步骤中,首先可以获取目标文本及增量文本。
具体的,所述目标文本可以是在语音识别系统中,语音信息经过语音识别模块之后,生成的纯汉字形式的文本;所述增量文本可以是在需要对神经网络模型进行修正时,新增的数量较少的训练样本。
进一步的,所述目标文本中可以包括部分具有特殊文本格式类型的部分内容,所述特殊文本格式类型可以是人们日常书写时采用特殊文本格式进行撰写,而非采用纯汉字的形式进行撰写的格式类型,例如,百分比、数字、单位和时间等内容的表达。
例如,若语音识别系统识别得到的语音信息为:“城市的绿化率难以达到百分之八十”,其中,目标文本中表示百分比的“百分之八十”,在人们日常书写时,常采用“80%”的特殊文本格式进行撰写;又如,若语音识别系统识别得到的语音信息为:“小明的体重为五十二点五千克”,其中,目标文本中含有小数和单位的体重信息“五十二点五千克”,在人们日常书写时,常采用“52.5kg”的特殊文本格式进行撰写。
因此,需要将语音识别系统识别得到的纯汉字形式的目标文本中,具有特殊文本格式类型的部分内容,替换为人们日常书写时采用文本格式。
步骤102、将所述目标文本输入已经过预先训练的神经网络模型,得到与所述目标文本对应的多个第一文本标签。
在该步骤中,可以将获取到的目标文本输入已经过预先训练的神经网络模型中,以供神经网络模型对输入的目标文本进行词性、词义等相关分析,对目标文本进行标注,生成与所述目标文本对应的多个第一文本标签。
其中,所述神经网络模型(Neural Networks,NN),是预先通过大量的样本语料训练神经网络模型和条件随机场后得到的模型,所述神经网络模型可以为长短期记忆网络模型(Long Short-Term Memory,LSTM)、门控循环单元(Gated Recurrent Unit,GRU)、循环神经网络(Recurrent neural Network,RNN)和神经网络图灵机(Neural Turing Machines,NTM)等常用的神经网络模型。神经网络模型的主要优势在于其几乎超越其他所有机器学习算法的能力,但是,神经网络模型的主要缺点在于它的“黑盒子”属性,即无法知晓神经网络模型是如何以及为什么会产生一定的输出,即神经网络模型可解释性差,此外,需要大量使用的训练样本,才能得到比较准确的模型。
例如,若所述目标文本为“城市的绿化率难以达到百分之八十”,神经网络模型在检测到目标文本中存在“百分之”的字符时,可以确定所述目标文本中具有百分比类型的部分内容,将该部分内容以及与之临近的数字按照百分比类型的形式进行标注,得到的第一文本标签可以为“OOOOOOOOOOPMMME”,利用该第一文本标签对目标文本中具有百分比类型的部分内容进行替换后得到的文本内容可以为“城市的绿化率难以达到80%”。
若没有利用大量的训练样本,花费较长的时间经过预先训练得到准确度较高的神经网络模型,则神经网络模型在检测到目标文本中存在“八十”的字符时,也可能会确定所述目标文本中具有数字类型的部分内容,将该部分内容按照数字类型的形式进行标注,使得得到的第一文本标签还可以为“OOOOOOOOOOOOONE”,利用该第一文本标签对目标文本中具有数字类型的部分内容进行替换后得到的文本内容可以为“城市的绿化率难以达到百分之80”,此时,就需要对神经网络模型输出的第一文本标签进行进一步的检验,进而再对神经网络模型进行进一步的修正。
步骤103、将所述目标文本输入所述文本替换模型,得到与所述目标文本对应的第二文本标签,所述文本替换模型为利用所述增量文本,实时训练条件随机场模型后得到的模型。
在该步骤中,可以利用所述增量文本,实时训练所述条件随机场模型,即将增量文本输入条件随机场模型,进行实时训练,得到文本替换模型,从而可以利用文本替换模型对神经网络模型输出的第一文本标签进行进一步的检验。
进一步的,可以将所述目标文本输入经过实时训练的文本替换模型,得到与所述目标文本对应的第二文本标签。
其中,所述条件随机场(conditional random field,简称CRF),是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。条件随机场是条件概率分布模型P(Y|X),表示的是给定一组输入随机变量X的条件下另一组输出随机变量Y的马尔可夫随机场,也就是说条件随机场的特点是假设输出随机变量构成马尔可夫随机场。即将所述目标文本可以看作条件随机场的输入随机变量X,与所述目标文本对应的文本标签可以看作条件随机场的输出随机变量Y,条件随机场可以利用预先训练得到的多个特征函数,计算得到输入为X,输出为Y时的条件概率P(Y|X)。
需要说明的是,条件随机场一般常用的布局是链结式的架构,链结式架构不论在训练、推论、或是解码上,都存在效率较高的算法可供演算,同时,条件随机场是一个典型的判别式模型,其联合概率可以写成若干特征函数联乘的形式,即可以利用所述若干特征函数解释根据输入随机变量X生成输出随机变量Y的原理和规则。其中最常用的是线性链条件随机场,因此,利用条件随机场进行文本标注的训练速度较快、可解释性高,使得在模型后续维护过程中,可以降低维护的难度,减少维护的时间。
步骤104、将所述多个第一文本标签中与所述第二文本标签相同的文本标签,确定为目标文本标签。
在该步骤中,可以将所述多个第一文本标签与所述第二文本标签进行比较,从而将所述多个第一文本标签中与所述第二文本标签相同的文本标签,确定为目标文本标签,完成利用经过实时训练的条件随机场对神经网络模型输出的文本标签进行检验的过程,使得在训练样本数量有限的情况下,使用数量较少的训练样本,快速、即时的对神经网络模型输出的文本标签进行检验和修正。
进一步的,所述目标文本标签中包含文本格式类型、替换起始位置和替换结束位置,其中,所述文本格式类型可以表示目标文本中包含的需要采用特殊文本格式进行撰写的部分内容对应的文本格式类型,所述文本格式类型可以包括:百分比、数字、单位和时间等,所述替换起始位置可以表示所述目标文本中包含的需要采用特殊文本格式进行撰写的部分内容的起始位置,所述替换结束位置可以表示所述目标文本中包含的需要采用特殊文本格式进行撰写的部分内容的结束位置,从而可以确定目标文本中需要进行文本替换的部分文本内容的具体位置,以及这部分文本内容的具体类型,进而确定对于这部分文本内容,人们日常书写时采用文本格式,从而确定替换所述部分文本内容的具体内容。
例如,若获取的目标文本为“城市的绿化率难以达到百分之八十”,则可以确定该目标文本中需要采用特殊文本格式进行撰写的部分内容为“百分之八十”,这部分内容对应的文本格式类型为百分比,这部分需要进行替换的文本内容的起始位置为第十一个字符“百”的位置,结束位置为第十五个字符“十”的位置。
因此,所述目标文本对应的目标文本标签可以为“OOOOOOOOOOPMMME”。
其中,目标文本标签中的“O”表示不需要采用特殊文本格式进行撰写的部分内容,“P”表示目标文本中存在文本格式类型为百分比的部分内容,需要将这部分内容以百分比的形式进行替换,替换起始位置即为“P”标注的位置,替换结束位置即为“E”标注的位置,“M”为具有所述百分比的部分内容的中间部分。
在本发明实施例中,“P”可以表示目标文本中存在文本格式类型为百分比的部分内容,“T”可以表示目标文本中存在文本格式类型为时间的部分内容,“N”可以表示目标文本中存在文本格式类型为数字的部分内容。
步骤105、根据所述目标文本标签中的替换起始位置和替换结束位置,确定所述目标文本中的待替换文本。
在该步骤中,可以根据目标文本标签中的替换起始位置和替换结束位置,确定所述目标文本中的待替换文本。
具体的,将所述目标文本标签中的替换起始位置和替换结束位置之间的内容,确定为目标标签部分,并将所述目标文本中与所述目标标签部分对应的文本内容确定为待替换文本。
例如,若所述目标文本为“城市的绿化率难以达到百分之八十”,神经网络模型和条件随机场模型共同确认得到的,与所述目标文本对应的目标文本标签为“OOOOOOOOOOPMMME”,其中,替换起始位置即为“P”标注的位置,替换结束位置即为“E”标注的位置,即将目标文本标签中的“PMMME”确定为目标标签部分,将目标文本中与目标标签部分对应的文本内容“百分之八十”确定为待替换文本。
步骤106、根据所述文本格式类型,确定与所述待替换文本对应的替换文本,并将所述目标文本中的待替换文本替换为所述替换文本。
在该步骤中,可以根据所述目标文本标签中包含的文本格式类型,确定与所述待替换文本对应的替换文本,并将所述目标文本中的待替换文本替换为所述替换文本。
具体的,若所述待替换文本为“百分之八十”,目标文本标签中包含的文本格式类型为:“P”,即表示目标文本中存在文本格式类型为百分比的待替换文本,需要将待替换文本以百分比的形式进行替换,对应的替换文本为待替换文本“百分之八十”的百分比表示形式:“80%”。
进一步的,可以将目标文本“城市的绿化率难以达到百分之八十”中的待替换文本“百分之八十”,替换为替换文本“80%”,最终得到的文本为“城市的绿化率难以达到80%”。
又如,若目标文本为“上午十一点半”,将所述目标文本输入神经网络模型和条件随机场模型中,由神经网络模型和条件随机场模型共同得到目标文本对应的目标文本标签为“OOTMME”,其中,目标文本标签中的“O”表示不需要采用特殊文本格式进行撰写的部分内容,“T”表示目标文本中存在文本格式类型为时间的部分内容,需要将这部分内容以时间的形式进行替换,替换起始位置即为“T”标注的位置,替换结束位置即为“E”标注的位置,“M”为具有所述时间形式的部分内容的中间部分,则可以将目标文本“上午十一点半”中的待替换文本“十一点半”,替换为替换文本“11:30”,最终得到的文本为“上午11:30”。
综上所述,本发明实施例提供的文本的替换方法,包括:获取目标文本及增量文本;将目标文本输入已经过预先训练的神经网络模型,得到与目标文本对应的多个第一文本标签;将目标文本输入文本替换模型,得到与目标文本对应的第二文本标签,所述文本替换模型为利用所述增量文本,实时训练条件随机场模型后得到的模型;将多个第一文本标签中与第二文本标签相同的文本标签,确定为目标文本标签,目标文本标签中包含文本格式类型、替换起始位置和替换结束位置;根据目标文本标签中的替换起始位置和替换结束位置,确定目标文本中的待替换文本;根据文本格式类型,确定与待替换文本对应的替换文本,并将目标文本中的待替换文本替换为替换文本,在本发明中,在将目标文本中包含的待替换文本,替换为与所述待替换文本对应的,且具有文本格式类型的替换文本时,将通过已经过预先训练的神经网络模型生成的多个第一文本标签,与通过少量的增量文本进行实时训练的条件随机场模型生成的第二文本标签进行比较,将第一文本标签中与第二文本标签相同的文本标签确定为目标文本标签,从而,可以进一步根据所述目标文本标签中包含的文本格式类型、替换起始位置和替换结束位置,完成目标文本中部分文本的替换过程,由于条件随机场模型的规则较为简单,训练速度较快,且所需的训练样本较少,因此,可以利用经过实时训练的条件随机场对神经网络模型输出的文本标签进行检验,使得即时在训练样本数量有限的情况下,使用数量较少的训练样本,快速、即时的对神经网络模型输出的文本标签进行检验和修正,提高了文本标注的准确度,进而提高了根据文本标签进行文本替换过程的准确度和实时修正的便捷性。
图2是本发明实施例提供的另一种文本的替换方法的步骤流程图,如图2所示,该方法可以包括:
步骤201、预先训练所述神经网络模型。
在该步骤中,可以在进行目标文本的替换之前,先进行神经网络模型的预先训练。
可选的,预先训练所述文本神经网络模型的步骤,具体可以包括:
子步骤2011、获取样本语料,以及所述样本语料中包含的样本文本格式类型、样本替换起始位置和样本替换结束位置。
在该步骤中,首先可以获取样本语料,以及所述样本语料中包含的样本文本格式类型、样本替换起始位置和样本替换结束位置。
其中,所述样本文本格式类型可以表示样本语料中包含的需要采用特殊文本格式进行撰写的部分内容,对应的文本格式类型,所述样本文本格式类型可以包括:百分比、数字、单位和时间等,所述样本替换起始位置可以表示所述样本语料中包含的需要采用特殊文本格式进行撰写的部分内容的起始位置,所述样本替换结束位置可以表示所述样本语料中包含的需要采用特殊文本格式进行撰写的部分内容的结束位置。
具体的,可以通过爬虫工具爬取预设语料库中的文本,将其作为样本语料,然后人工标注每一个样本语料中包含的样本文本格式类型、样本替换起始位置和样本替换结束位置,其中,所述预设语料库中的文本可以为网络上的用户评论或留言等文本,也可以是学术论文数据库中的文本,或者专利数据库中的文本等。
所述爬虫工具可以是一种自动获取文本的程序,也可以是搜索引擎的重要组成部分,搜索引擎使用爬虫工具寻找文本,网络上的超文本标记语言(Hyper Text Mark-upLanguage,HTML)文档使用超链接连接了起来,就像织成了一张网,爬虫工具顺着这张网爬行,每到一个网页就将这个网页抓下来,再将该网页中的将文本抽取出来,同时抽取超链接,作为进一步爬行的线索,该爬虫工具可以为开源的爬虫工具、非开源的爬虫工具、单独开发或基于开源或非开源的爬虫工具进行二次开发后得到的爬虫工具。
子步骤2012、根据所述样本文本格式类型、所述样本替换起始位置和所述样本替换结束位置,对所述样本语料进行标注,得到与所述样本语料对应的样本标签。
在该步骤中,在获取样本语料,以及样本语料中包含的样本文本格式类型、所述样本替换起始位置和所述样本替换结束位置之后,可以利用所述样本文本格式类型、所述样本替换起始位置和所述样本替换结束位置,对所述样本语料进行标注,得到样本标签。
例如,若获取到的样本语料为:“城市的绿化率难以达到百分之八十”,人工阅读该该样本语料之后,确定该样本语料中存在样本文本格式类型为百分比的文本内容,样本替换起始位置为样本语料的第十一个字符“百”的位置,样本替换结束位置为样本语料的第十五个字符“十”的位置。
进一步的,对样本语料进行标注,得到与所述样本语料对应的样本标签为:“OOOOOOOOOOPMMME”。
其中,样本标签中的“O”表示不需要采用特殊文本格式进行撰写的部分内容,“P”表示样本语料中存在文本格式类型为百分比的部分内容,需要将这部分内容以百分比的形式进行替换,样本替换起始位置即为“P”标注的位置,样本替换结束位置即为“E”标注的位置,“M”为具有所述百分比的部分内容的中间部分。
子步骤2013、根据所述样本语料和所述样本标签对所述神经网络模型进行预先训练。
在该步骤中,利用上述步骤中获得的样本标签,对神经网络模型进行训练。
在本发明实施例中,可以以句为单位,将样本语料输入神经网络模型,获取神经网络模型输出的包含样本文本格式类型、所述样本替换起始位置和所述样本替换结束位置的样本标签,从而对神经网络模型进行训练,通过大量的样本语料和样本标签对神经网络模型进行训练,可以获得准确度较高的神经网络模型。
步骤202、获取目标文本及增量文本。
本步骤的实现方式与上述步骤101的实现过程类似,本申请实施例在此不再详述。
步骤203、将所述目标文本输入所述神经网络模型,得到与所述目标文本对应的多个第一文本标签,以及与所述第一文本标签对应的第一预测概率值。
在该步骤中,可以将所述目标文本输入经过预先训练的神经网络模型中,从而利用经过预先训练的神经网络模型,得到与所述目标文本对应的多个第一文本标签,以及与所述第一文本标签对应的第一预测概率值。
可选的,所述将所述目标文本输入已经过预先训练的神经网络模型,得到与所述目标文本对应的多个第一文本标签的步骤,可以包括:
子步骤2031、将所述目标文本输入所述神经网络模型中,根据预先设置的标签集,确定所述目标文本中每一个字符对应的字符标签。
在该步骤中,可以将所述目标文本输入预先训练的神经网络模型中,并根据预先设置的标签集,确定所述目标文本中每一个字符对应的字符标签。
具体的,所述标签集可以为文本格式类型与字符标签之间的对应关系,例如:
表1
如表1所示,若判断目标文本中包含文本格式类型为百分比的部分文本内容,则将该部分文本内容的替换起始位置对应的字符的字符标签为P,替换结束位置对应的字符的字符标签为E,中间位置对应的字符的字符标签为M;若判断目标文本中包含文本格式类型为数字的部分文本内容,则将该部分文本内容的替换起始位置对应的字符的字符标签为N,替换结束位置对应的字符的字符标签为E,中间位置对应的字符的字符标签为M;若判断目标文本中包含文本格式类型为时间的部分文本内容,则将该部分文本内容的替换起始位置对应的字符的字符标签为T,替换结束位置对应的字符的字符标签为E,中间位置对应的字符的字符标签为M;若判断目标文本中包含文本格式类型为重量的部分文本内容,则将该部分文本内容的替换起始位置对应的字符的字符标签为G,替换结束位置对应的字符的字符标签为E,中间位置对应的字符的字符标签为M;若判断目标文本中包含文本格式类型为温度的部分文本内容,则将该部分文本内容的替换起始位置对应的字符的字符标签为W,替换结束位置对应的字符的字符标签为E,中间位置对应的字符的字符标签为M。
此外,可以将目标文本中不需要采用特殊文本格式进行撰写的部分内容,包含的字符对应的字符标签确定为O。
子步骤2032、根据所述目标文本中每一个字符对应的字符标签,生成与所述目标文本对应的多个第一文本标签。
在该步骤中,可以根据上述步骤中确定的目标文本中每一个字符对应的字符标签,从而生成与所述目标文本对应的多个第一文本标签。
例如,若所述目标文本为“城市的绿化率难以达到百分之八十,城市今天的温度达到了三十摄氏度”,对应的第一文本标签可以为“OOOOOOOOOOPMMMEOOOOOOOOOOOWMMME”,所述第一文本标签也可以为“OOOOOOOOOOOOONEOOOOOOOOOOOWMMME”。
步骤204、利用所述增量文本,实时训练所述条件随机场模型,得到所述文本替换模型。
在该步骤中,可以利用所述增量文本,实时训练条件随机场模型,得到用于进行文本替换的文本替换模型。
可选的,步骤204具体可以包括:
子步骤2041、将所述增量文本输入所述条件随机场模型,所述增量文本中包含增量文本格式类型、增量文本替换起始位置和增量文本替换结束位置。
在该步骤中,可以将所述增量文本输入所述条件随机场模型,所述增量文本中包含增量文本格式类型、增量文本替换起始位置和增量文本替换结束位置。
其中,所述增量文本格式类型可以表示增量文本中包含的需要采用特殊文本格式进行撰写的部分内容,对应的文本格式类型,所述增量文本格式类型可以包括:百分比、数字、单位和时间等,所述增量文本替换起始位置可以表示所述增量文本中包含的需要采用特殊文本格式进行撰写的部分内容的起始位置,所述增量文本替换结束位置可以表示所述增量文本中包含的需要采用特殊文本格式进行撰写的部分内容的结束位置。
具体的,也可以通过爬虫工具爬取预设语料库中的文本,将其作为增量文本,然后人工标注每一个增量文本中包含的增量文本格式类型、增量文本替换起始位置和增量文本替换结束位置。
子步骤2042、根据所述增量文本格式类型、所述增量文本替换起始位置和所述增量文本替换结束位置,对所述增量文本进行标注,得到与所述增量文本对应的样本标签。
在该步骤中,在获取增量文本,以及增量文本中包含的增量文本格式类型、增量文本替换起始位置和增量文本替换结束位置之后,可以利用增量文本格式类型、增量文本替换起始位置和增量文本替换结束位置,对增量文本进行标注,得到与增量文本对应的样本标签。
具体的,对所述增量文本进行标注的过程,与上述对样本语料进行标注的过程的具体步骤相同,此处不再赘述。
子步骤2043、根据所述增量文本和所述增量文本对应的样本标签,对所述条件随机场模型进行实时训练,得到所述文本替换模型和所述文本替换模型包含的特征函数。
在该步骤中,利用上述步骤中获得的增量文本对应的样本标签,对条件随机场模型进行实时训练。
在本发明实施例中,可以以句为单位,将增量文本输入条件随机场模型,获取条件随机场模型输出的包含增量文本格式类型、增量文本替换起始位置和增量文本替换结束位置的样本标签,以及表征输入增量文本,生成增量文本对应的样本标签的原理和规则的特征函数,从而对条件随机场模型进行训练,由于条件随机场模型的规则较为简单,训练速度较快,且所需的训练样本较少,因此,对条件随机场进行实时训练的增量文本的数量可以较少,并且,所述实时训练过程耗时较少,从而可以快速、便捷的实现即时训练,以供利用实时训练后得到的文本替换模型对神经网络模型进行检验和修正时,需要的训练样本较少,训练时间短。
步骤205、将所述目标文本输入所述文本替换模型,得到与所述目标文本对应的第二文本标签,以及与所述第二文本标签对应的第二预测概率值。
在该步骤中,可以将所述目标文本输入经过实时训练条件随机场模型得到的文本替换模型中,从而利用经过实时训练的文本替换模型,得到与所述目标文本对应的第二文本标签,以及与所述第二文本标签对应的第二预测概率值。
可选的,步骤205具体包括:
子步骤2051、将所述目标文本输入所述文本替换模型,得到与所述目标文本对应的第二文本标签。
在该步骤中,可以将所述目标文本输入所述文本替换模型,得到与所述目标文本对应的第二文本标签。
例如,若所述目标文本为“城市的绿化率难以达到百分之八十,城市今天的温度达到了三十摄氏度”,对应的第二文本标签可以为“OOOOOOOOOOPMMMEOOOOOOOOOOOWMMME”。
子步骤2052、根据所述文本替换模型包含的特征函数,计算所述待替换文本中每一个字符对应的字符标签的概率值。
在该步骤中,可以将所述目标文本作为文本替换模型的输入序列X,将所述第二文本标签作为文本替换模型的输出序列Y,从而利用经过实时训练的文本替换模型,根据以下公式(1),计算待替换文本中每一个字符对应的字符标签的概率值:
其中:
Pr((Y|X,λ)为输入序列为X,输出序列为Y时,第r个字符标签的概率值;
fj为第j个特征函数;
λj为第j个特征函数的权重值;
yi为输出序列Y中的第i个字符标签;
yi-1为输出序列Y中的第i个字符标签的前一个字符标签;
Z(X)为归一化因子。
进一步的,为计算得到一个小于或等于1的概率值,需要对特征函数的求和值进行指数化和归一化,因此使用归一化因子Z(X),所述Z(X)为输出序列Y中所有字符标签的特征函数求和值的总和。
具体的,可以根据以下公式(2),计算所述归一化因子:
子步骤2053、计算所述待替换文本中每一个字符对应的字符标签的概率值的几何平均值,将所述几何平均值确定为所述第二预测概率值。
在该步骤中,根据上述步骤计算得到的目标文本中每一个字符对应的字符标签的概率值,进而确定目标文本中待替换文本中每一个字符对应的字符标签的概率值,再对待替换文本中每一个字符对应的字符标签的概率值求几何平均值,最终将所述几何平均值确定为所述第二预测概率值。
具体的,可以根据以下公式,计算所述第二预测概率值:
其中:
Pi为待替换文本中第i个字符标签的概率值;
S为待替换文本的起始字符;
E为待替换文本的结束字符;
P为待替换文本中每一个字符对应的字符标签的概率值的几何平均值。
例如,若所述目标文本为“城市的绿化率难以达到百分之八十”,目标文本中的待替换文本为“百分之八十”,则目标文本对应的文本标签的第二预测概率值为:
步骤206、将所述多个第一文本标签中与所述第二文本标签相同的文本标签,确定为目标文本标签。
本步骤的实现方式与上述步骤104的实现过程类似,本申请实施例在此不再详述。
步骤207、根据所述目标文本标签中的替换起始位置和替换结束位置,确定所述目标文本中的待替换文本。
本步骤的实现方式与上述步骤105的实现过程类似,本申请实施例在此不再详述。
步骤208、根据所述文本格式类型,确定与所述待替换文本对应的替换文本,在所述第一预测概率值和所述第二预测概率值满足预设条件的情况下,将所述目标文本中的待替换文本替换为所述替换文本。
在该步骤中,可以根据所述目标文本标签中包含的文本格式类型,确定与所述待替换文本对应的替换文本。
具体的,若所述待替换文本为“百分之八十”,目标文本标签中包含的文本格式类型为:“P”,即表示目标文本中存在文本格式类型为百分比的待替换文本,需要将待替换文本以百分比的形式进行替换,对应的替换文本为待替换文本“百分之八十”的百分比表示形式:“80%”。
进一步的,若所述第一预测概率值和所述第二预测概率值满足预设条件,则可以将所述目标文本中的待替换文本替换为所述替换文本。
具体的,所述预设条件可以为以下公式(4):
A×PNN+B×PCRF>λ (4)
其中,PNN为所述第一预测概率值,A为所述第一预测概率值的权重;
PCRF为所述第二预测概率值,B为所述第二预测概率值的权重;
λ为概率值阈值。
可选的,所述目标文本标签中还可以包括:预设处理方式,则所述根据所述文本格式类型,确定与所述待替换文本对应的替换文本,并将所述目标文本中的待替换文本替换为所述替换文本的步骤,可以包括:
子步骤2081、根据所述文本格式类型,确定与所述待替换文本对应的替换文本。
本步骤的实现方式与上述步骤106的实现过程类似,本申请实施例在此不再详述。
子步骤2082、根据所述预设处理方式,对所述替换文本按照所述预设处理方式进行处理,生成目标替换文本。
在该步骤中,可以根据所述预设处理方式,对所述替换文本按照所述预设处理方式进行处理,生成目标替换文本。
具体的,所述预设处理方式为根据用户的需求,预先设置的需要进一步对替换文本进行的处理,例如,若所述待替换文本为“下午十一点半”,确定的替换文本为“下午11:30”,而用户预先设置了在现实时间类型的替换文本时,采用二十四小时的计时方式,因此,对应的预设处理方式为将替换文本“下午11:30”转化为目标替换文本“23:30”。
子步骤2083、将所述目标文本中的待替换文本替换为所述目标替换文本。
在该步骤中,可以将所述目标文本中的待替换文本替换为所述目标替换文本,最终完成目标文本的替换过程。
步骤209、根据所述特征函数,对所述神经网络模型的参数进行修正。
在该步骤中,可以根据条件随机场模型中包含的特征函数,对所述神经网络模型的参数进行修正。
具体的,由于所述文本替换模型中包含的特征函数,适用于解释根据输入随机变量X生成输出随机变量Y的原理和规则,即在进行目标文本的标注时,条件随机场模型中包含的特征函数可以解释根据目标文本生成第二文本标签的原理和规则,从而可以利用所述特征函数,修正所述神经网络模型的参数,从而提高神经网络模型的准确度,避免使用数量较大的训练样本才能获得准确度较高的神经网络模型。
需要说明的是,由于条件随机场模型具有良好的可解释性,因此,系统的维护人员可以根据实时训练条件随机场模型得到的文本替换模型,实时的调整神经网络模型的参数,从而提高神经网络模型的准确度,改善了包括神经网络模型的文本替换系统的后期可维护性。
综上所述,本发明实施例提供的文本的替换方法,包括:获取目标文本及增量文本;将目标文本输入已经过预先训练的神经网络模型,得到与目标文本对应的多个第一文本标签;将目标文本输入文本替换模型,得到与目标文本对应的第二文本标签,所述文本替换模型为利用所述增量文本,实时训练条件随机场模型后得到的模型;将多个第一文本标签中与第二文本标签相同的文本标签,确定为目标文本标签,目标文本标签中包含文本格式类型、替换起始位置和替换结束位置;根据目标文本标签中的替换起始位置和替换结束位置,确定目标文本中的待替换文本;根据文本格式类型,确定与待替换文本对应的替换文本,并将目标文本中的待替换文本替换为替换文本,在本发明中,在将目标文本中包含的待替换文本,替换为与所述待替换文本对应的,且具有文本格式类型的替换文本时,将通过已经过预先训练的神经网络模型生成的多个第一文本标签,与通过少量的增量文本进行实时训练的条件随机场模型生成的第二文本标签进行比较,将第一文本标签中与第二文本标签相同的文本标签确定为目标文本标签,从而,可以进一步根据所述目标文本标签中包含的文本格式类型、替换起始位置和替换结束位置,完成目标文本中部分文本的替换过程,由于条件随机场模型的规则较为简单,训练速度较快,且所需的训练样本较少,因此,可以利用经过实时训练的条件随机场对神经网络模型输出的文本标签进行检验,使得即时在训练样本数量有限的情况下,使用数量较少的训练样本,快速、即时的对神经网络模型输出的文本标签进行检验和修正,提高了文本标注的准确度,进而提高了根据文本标签进行文本替换过程的准确度和实时修正的便捷性。
此外,在将目标文本中的待替换文本替换为替换文本时,首先判断神经网络模型生成目标文本标签的第一预测概率值,以及条件随机场生成目标文本标签的第二预测概率值是否满足预设条件,在所述第一预测概率值和所述第二预测概率值满足预设条件的情况下,再进行目标文本的替换,从而进一步提高了目标文本的标注过程和替换过程的准确度。
图3是本发明实施例提供的一种文本的替换装置的框图,如图3所示,该装置30可以包括:
第一获取模块301,用于获取目标文本及增量文本;
第一生成模块302,用于将所述目标文本输入已经过预先训练的神经网络模型,得到与所述目标文本对应的多个第一文本标签;
第二生成模块303,用于将所述目标文本输入所述文本替换模型,得到与所述目标文本对应的第二文本标签,所述文本替换模型为利用所述增量文本,实时训练条件随机场模型后得到的模型;
第一确定模块304,用于将所述多个第一文本标签中与所述第二文本标签相同的文本标签,确定为目标文本标签,所述目标文本标签中包含文本格式类型、替换起始位置和替换结束位置;
第二确定模块305,用于根据所述目标文本标签中的替换起始位置和替换结束位置,确定所述目标文本中的待替换文本;
替换模块306,用于根据所述文本格式类型,确定与所述待替换文本对应的替换文本,并将所述目标文本中的待替换文本替换为所述替换文本。
可选的,所述第一生成模块302,包括:
第一生成子模块,用于将所述目标文本输入所述神经网络模型,得到与所述目标文本对应的多个第一文本标签,以及与所述第一文本标签对应的第一预测概率值;
所述第二生成模块303,包括:
第二生成子模块,用于将所述目标文本输入所述文本替换模型,得到与所述目标文本对应的第二文本标签,以及与所述第二文本标签对应的第二预测概率值;
所述替换模块306,具体包括:
第一替换子模块,用于在所述第一预测概率值和所述第二预测概率值满足预设条件的情况下,将所述目标文本中的待替换文本替换为所述替换文本。
可选的,所述预设条件为:
A×PNN+B×PCRF>λ
其中,PNN为所述第一预测概率值,A为所述第一预测概率值的权重;
PCRF为所述第二预测概率值,B为所述第二预测概率值的权重;
λ为概率值阈值。
可选的,所述第二生成子模块,包括:
生成单元,用于将所述目标文本输入所述文本替换模型,得到与所述目标文本对应的第二文本标签;
第一计算单元,用于根据所述文本替换模型包含的特征函数,计算所述待替换文本中每一个字符对应的字符标签的概率值;
第二计算单元,用于计算所述待替换文本中每一个字符对应的字符标签的概率值的几何平均值,将所述几何平均值确定为所述第二预测概率值。
可选的,所述第一生成模块302,包括:
第一确定子模块,用于将所述目标文本输入所述神经网络模型中,根据预先设置的标签集,确定所述目标文本中每一个字符对应的字符标签;
第三生成子模块,用于根据所述目标文本中每一个字符对应的字符标签,生成与所述目标文本对应的多个第一文本标签。
可选的,所述装置还包括:
第二获取模块,用于获取样本语料,以及所述样本语料中包含的样本文本格式类型、样本替换起始位置和样本替换结束位置;
第三生成模块,用于根据所述样本文本格式类型、所述样本替换起始位置和所述样本替换结束位置,对所述样本语料进行标注,得到与所述样本语料对应的样本标签;
训练模块,用于根据所述样本语料和所述样本标签对所述神经网络模型进行预先训练。
可选的,所述第二生成模块303,包括:
输入子模块,用于将所述增量文本输入所述条件随机场模型,所述增量文本中包含增量文本格式类型、增量文本替换起始位置和增量文本替换结束位置;
第四生成子模块,用于根据所述增量文本格式类型、所述增量文本替换起始位置和所述增量文本替换结束位置,对所述增量文本进行标注,得到与所述增量文本对应的样本标签;
训练子模块,用于根据所述增量文本和所述增量文本对应的样本标签,对所述条件随机场模型进行实时训练,得到所述文本替换模型和所述文本替换模型包含的特征函数。
可选的,所述装置还包括:
修正模块,用于根据所述特征函数,对所述神经网络模型的参数进行修正。
可选的,所述目标文本标签中还包括:预设处理方式;
所述替换模块306,包括:
第二确定子模块,用于根据所述文本格式类型,确定与所述待替换文本对应的替换文本;
第五生成子模块,用于根据所述预设处理方式,对所述替换文本按照所述预设处理方式进行处理,生成目标替换文本;
第二替换子模块,用于将所述目标文本中的待替换文本替换为所述目标替换文本。
综上所述,本发明实施例提供的文本的替换装置,在将目标文本中包含的待替换文本,替换为与所述待替换文本对应的,且具有文本格式类型的替换文本时,将通过已经过预先训练的神经网络模型生成的多个第一文本标签,与通过少量的增量文本进行实时训练的条件随机场模型生成的第二文本标签进行比较,将第一文本标签中与第二文本标签相同的文本标签确定为目标文本标签,从而,可以进一步根据所述目标文本标签中包含的文本格式类型、替换起始位置和替换结束位置,完成目标文本中部分文本的替换过程,由于条件随机场模型的规则较为简单,训练速度较快,且所需的训练样本较少,因此,可以利用经过实时训练的条件随机场对神经网络模型输出的文本标签进行检验,使得即时在训练样本数量有限的情况下,使用数量较少的训练样本,快速、即时的对神经网络模型输出的文本标签进行检验和修正,提高了文本标注的准确度,进而提高了根据文本标签进行文本替换过程的准确度和实时修正的便捷性。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种文本的替换方法,其特征在于,所述方法包括:
获取目标文本及增量文本;
将所述目标文本输入已经过预先训练的神经网络模型,得到与所述目标文本对应的多个第一文本标签;
将所述目标文本输入文本替换模型,得到与所述目标文本对应的第二文本标签,所述文本替换模型为利用所述增量文本,实时训练条件随机场模型后得到的模型;
将所述多个第一文本标签中与所述第二文本标签相同的文本标签,确定为目标文本标签,所述目标文本标签中包含文本格式类型、替换起始位置和替换结束位置;
根据所述目标文本标签中的替换起始位置和替换结束位置,确定所述目标文本中的待替换文本;
根据所述文本格式类型,确定与所述待替换文本对应的替换文本,并将所述目标文本中的待替换文本替换为所述替换文本。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标文本输入已经过预先训练的神经网络模型,得到与所述目标文本对应的多个第一文本标签的步骤,包括:
将所述目标文本输入所述神经网络模型,得到与所述目标文本对应的多个第一文本标签,以及与所述第一文本标签对应的第一预测概率值;
所述将所述目标文本输入文本替换模型,得到与所述目标文本对应的第二文本标签的步骤,包括:
将所述目标文本输入所述文本替换模型,得到与所述目标文本对应的第二文本标签,以及与所述第二文本标签对应的第二预测概率值;
所述并将所述目标文本中的待替换文本替换为所述替换文本的步骤,具体包括:
在所述第一预测概率值和所述第二预测概率值满足预设条件的情况下,将所述目标文本中的待替换文本替换为所述替换文本。
3.根据权利要求2所述的方法,其特征在于,所述预设条件为:
A×PNN+B×PCRF>λ
其中,PNN为所述第一预测概率值,A为所述第一预测概率值的权重;
PCRF为所述第二预测概率值,B为所述第二预测概率值的权重;
λ为概率值阈值。
4.根据权利要求2所述的方法,其特征在于,所述将所述目标文本输入所述文本替换模型,得到与所述目标文本对应的第二文本标签,以及与所述第二文本标签对应的第二预测概率值的步骤,包括:
将所述目标文本输入所述文本替换模型,得到与所述目标文本对应的第二文本标签;
根据所述文本替换模型包含的特征函数,计算所述待替换文本中每一个字符对应的字符标签的概率值;
计算所述待替换文本中每一个字符对应的字符标签的概率值的几何平均值,将所述几何平均值确定为所述第二预测概率值。
5.根据权利要求1所述的方法,其特征在于,所述将所述目标文本输入已经过预先训练的神经网络模型,得到与所述目标文本对应的多个第一文本标签的步骤,包括:
将所述目标文本输入所述神经网络模型中,根据预先设置的标签集,确定所述目标文本中每一个字符对应的字符标签;
根据所述目标文本中每一个字符对应的字符标签,生成与所述目标文本对应的多个第一文本标签。
6.根据权利要求1所述的方法,其特征在于,预先训练所述神经网络模型的步骤,包括:
获取样本语料,以及所述样本语料中包含的样本文本格式类型、样本替换起始位置和样本替换结束位置;
根据所述样本文本格式类型、所述样本替换起始位置和所述样本替换结束位置,对所述样本语料进行标注,得到与所述样本语料对应的样本标签;
根据所述样本语料和所述样本标签对所述神经网络模型进行预先训练。
7.根据权利要求1所述的方法,其特征在于,利用所述增量文本,实时训练所述条件随机场模型,得到所述文本替换模型的步骤,包括:
将所述增量文本输入所述条件随机场模型,所述增量文本中包含增量文本格式类型、增量文本替换起始位置和增量文本替换结束位置;
根据所述增量文本格式类型、所述增量文本替换起始位置和所述增量文本替换结束位置,对所述增量文本进行标注,得到与所述增量文本对应的样本标签;
根据所述增量文本和所述增量文本对应的样本标签,对所述条件随机场模型进行实时训练,得到所述文本替换模型和所述文本替换模型包含的特征函数。
8.根据权利要求7所述的方法,其特征在于,在所述得到所述文本替换模型和所述文本替换模型包含的特征函数的步骤之后,所述方法还包括:
根据所述特征函数,对所述神经网络模型的参数进行修正。
9.根据权利要求1所述的方法,其特征在于,所述目标文本标签中还包括:预设处理方式;
所述根据所述文本格式类型,确定与所述待替换文本对应的替换文本,并将所述目标文本中的待替换文本替换为所述替换文本的步骤,包括:
根据所述文本格式类型,确定与所述待替换文本对应的替换文本;
根据所述预设处理方式,对所述替换文本按照所述预设处理方式进行处理,生成目标替换文本;
将所述目标文本中的待替换文本替换为所述目标替换文本。
10.一种文本的替换装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标文本及增量文本;
第一生成模块,用于将所述目标文本输入已经过预先训练的神经网络模型,得到与所述目标文本对应的多个第一文本标签;
第二生成模块,用于将所述目标文本输入所述文本替换模型,得到与所述目标文本对应的第二文本标签,所述文本替换模型为利用所述增量文本,实时训练条件随机场模型后得到的模型;
第一确定模块,用于将所述多个第一文本标签中与所述第二文本标签相同的文本标签,确定为目标文本标签,所述目标文本标签中包含文本格式类型、替换起始位置和替换结束位置;
第二确定模块,用于根据所述目标文本标签中的替换起始位置和替换结束位置,确定所述目标文本中的待替换文本;
替换模块,用于根据所述文本格式类型,确定与所述待替换文本对应的替换文本,并将所述目标文本中的待替换文本替换为所述替换文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010414616.9A CN111753506B (zh) | 2020-05-15 | 2020-05-15 | 一种文本的替换方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010414616.9A CN111753506B (zh) | 2020-05-15 | 2020-05-15 | 一种文本的替换方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111753506A CN111753506A (zh) | 2020-10-09 |
CN111753506B true CN111753506B (zh) | 2023-12-08 |
Family
ID=72673340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010414616.9A Active CN111753506B (zh) | 2020-05-15 | 2020-05-15 | 一种文本的替换方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111753506B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109446514A (zh) * | 2018-09-18 | 2019-03-08 | 平安科技(深圳)有限公司 | 新闻实体识别模型的构建方法、装置和计算机设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10872598B2 (en) * | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
CN107680579B (zh) * | 2017-09-29 | 2020-08-14 | 百度在线网络技术(北京)有限公司 | 文本正则化模型训练方法和装置、文本正则化方法和装置 |
-
2020
- 2020-05-15 CN CN202010414616.9A patent/CN111753506B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109446514A (zh) * | 2018-09-18 | 2019-03-08 | 平安科技(深圳)有限公司 | 新闻实体识别模型的构建方法、装置和计算机设备 |
Non-Patent Citations (1)
Title |
---|
基于MapReduce的中文词性标注CRF模型并行化训练研究;刘滔;雷霖;陈荦;熊伟;;北京大学学报(自然科学版)(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111753506A (zh) | 2020-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107590127B (zh) | 一种题库知识点自动标注方法及系统 | |
CN110276069B (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
Chormai et al. | Attacut: A fast and accurate neural thai word segmenter | |
CN112883714B (zh) | 基于依赖图卷积和迁移学习的absc任务句法约束方法 | |
JP2011118526A (ja) | 単語意味関係抽出装置 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
Singh et al. | A decision tree based word sense disambiguation system in Manipuri language | |
CN111553159B (zh) | 一种问句生成方法及系统 | |
CN114781392A (zh) | 一种基于bert改进模型的文本情感分析方法 | |
CN111222330B (zh) | 一种中文事件的检测方法和系统 | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
CN115952291A (zh) | 基于多头自注意力及lstm的金融舆情分类方法及系统 | |
CN113158678A (zh) | 一种应用于电力文本命名实体的识别方法及装置 | |
CN113505786A (zh) | 试题拍照评判方法、装置及电子设备 | |
Tarride et al. | A comparative study of information extraction strategies using an attention-based neural network | |
Touati-Hamad et al. | Arabic quran verses authentication using deep learning and word embeddings | |
CN111401012A (zh) | 文本纠错方法、电子设备及计算机可读存储介质 | |
CN111753506B (zh) | 一种文本的替换方法和装置 | |
CN113408291B (zh) | 中文实体识别模型的训练方法、装置、设备及存储介质 | |
Xu et al. | Robust learning for text classification with multi-source noise simulation and hard example mining | |
Han et al. | Chinese Grammatical Error Diagnosis Based on RoBERTa-BiLSTM-CRF Model | |
CN114896966A (zh) | 一种中文文本语法错误定位方法、系统、设备及介质 | |
Saputra et al. | Harnessing long short-term memory algorithm for enhanced di-di word error detection and correction | |
Oshin et al. | BaTEClaCor: A Novel Dataset for Bangla Text Error Classification and Correction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |