CN111046652A - 文本纠错方法、文本纠错装置、存储介质和电子设备 - Google Patents
文本纠错方法、文本纠错装置、存储介质和电子设备 Download PDFInfo
- Publication number
- CN111046652A CN111046652A CN201911261981.4A CN201911261981A CN111046652A CN 111046652 A CN111046652 A CN 111046652A CN 201911261981 A CN201911261981 A CN 201911261981A CN 111046652 A CN111046652 A CN 111046652A
- Authority
- CN
- China
- Prior art keywords
- text
- component
- corrected
- information
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000012937 correction Methods 0.000 title claims abstract description 56
- 238000012015 optical character recognition Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims description 36
- 238000004590 computer program Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 abstract description 33
- 241000282326 Felis catus Species 0.000 description 17
- 238000010586 diagram Methods 0.000 description 10
- 241000251468 Actinopterygii Species 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 239000012634 fragment Substances 0.000 description 5
- 229920001098 polystyrene-block-poly(ethylene/propylene) Polymers 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- GPXJNWSHGFTCBW-UHFFFAOYSA-N Indium phosphide Chemical compound [In]#P GPXJNWSHGFTCBW-UHFFFAOYSA-N 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种文本纠错方法、文本纠错装置、存储介质和电子设备。本发明实施例在获取待纠错的第一文本后,根据第一文本中各成分的第一评分确定至少一个待纠错成分,并获取待纠错成分对应的信息作为第一信息集合,以及去除待纠错文本中的待纠错成分获得不含待纠错成分的第二文本,进而根据第二文本获取第一信息集合中各成分对应的信息的第二评分,根据第二评分确定待纠错成分对应的目标信息,从而将目标信息填充至第二文本以进行纠错。本发明实施例的方法通过预先训练的评分模型获取第一文本中各成分的评分以及第一信息集合中各信息的评分,有效提升了根据语音识别技术、光学字符识别技术等识别获得的文本的准确性。
Description
技术领域
本发明公开涉及数据处理领域,具体涉及一种文本纠错方法、文本纠错装置、存储介质和电子设备。
背景技术
随着科技的不断发展,语音识别技术、光学字符识别技术等新兴的识别技术的得到了越来越广泛的应用,例如工业、家电、通信、医疗、家庭服务等行业。但是上述识别技术会受到不同用户的发音情况、书写情况、外界环境等的影响,准确会因此而降低,从而对用户实际想要表达的内容产生负面影响。
发明内容
有鉴于此,本发明实施例目的在于提供一种文本纠错方法、文本纠错装置、存储介质和电子设备,用于有效提升根据语音识别技术、光学字符识别技术等识别获得的文本的准确性。
第一方面,本发明实施例提供了一种文本纠错方法,所述方法包括:
由至少一个处理器获取第一文本,所述第一文本为待纠错文本;
由所述至少一个处理器根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分,所述成分为词语或字;
由所述至少一个处理器获取所述待纠错成分对应的第一信息集合,所述第一信息集合包括各所述待纠错成分对应的信息;
由所述至少一个处理器去除所述第一文本中的待纠错成分,获取第二文本;
由所述至少一个处理器基于预先训练的第一评分模型,根据所述第二文本获取所述第一信息集合中各信息的第二评分,所述第一评分模型根据第一样本集合训练获取,所述第一样本集合包括多个未纠错文本;
由所述至少一个处理器根据所述第二评分确定各所述待纠错成分对应的目标信息;
由所述至少一个处理器根据所述第二文本对所述目标信息进行填充处理以进行纠错。
第二方面,本发明实施例提供了一种文本纠错装置,所述装置包括:
第一获取单元,用于获取第一文本,所述第一文本为待纠错文本;
第一确定单元,用于根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分,所述成分为词语或字;
第二获取单元,用于获取所述待纠错成分对应的第一信息集合,所述第一信息集合包括各所述待纠错成分对应的信息;
去除单元,用于去除所述第一文本中的待纠错成分,获取第二文本;
第三获取单元,用于基于预先训练的第一评分模型,根据所述第二文本获取所述第一信息集合中各信息的第二评分,所述第一评分模型根据第一样本集合训练获取,所述第一样本集合包括多个未纠错文本;
第二确定单元,用于根据所述第二评分确定各所述待纠错成分对应的目标信息;
填充单元,用于根据所述第二文本对所述目标信息进行填充处理以进行纠错。
第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,其中,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。
第四方面,本发明实施例提供了一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机程序指令,所述一条或多条计算机程序指令被所述处理器执行以实现如下步骤:
获取第一文本,所述第一文本为待纠错文本;
根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分,所述成分为词语或字;
获取所述待纠错成分对应的第一信息集合,所述第一信息集合包括各所述待纠错成分对应的信息;
去除所述第一文本中的待纠错成分,获取第二文本;
基于预先训练的第一评分模型,根据所述第二文本获取所述第一信息集合中各信息的第二评分,所述第一评分模型根据第一样本集合训练获取,所述第一样本集合包括多个未纠错文本;
根据所述第二评分确定各所述待纠错成分对应的目标信息;
根据所述第二文本对所述目标信息进行填充处理以进行纠错。
本实施例在获取待纠错的第一文本后,根据第一文本中各成分的第一评分确定至少一个待纠错成分,并获取待纠错成分对应的信息作为第一信息集合,以及去除待纠错文本中的待纠错成分获得不含待纠错成分的第二文本,进而根据第二文本获取第一信息集合中各成分对应的信息的第二评分,根据第二评分确定待纠错成分对应的目标信息,从而将目标信息填充至第二文本以进行纠错。本实施例的方法通过预先训练的评分模型获取第一文本中各成分的评分以及第一信息集合中各信息的评分,有效提升了根据语音识别技术、光学字符识别技术等识别获得的文本的准确性。
第五方面,本发明实施例提供了一种文本纠错方法,所述方法包括:
由至少一个处理器获取第一文本,所述第一文本为待纠错文本;
由所述至少一个处理器根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分,所述成分为词语或字;
由所述至少一个处理器获取所述待纠错成分对应的相似信息集合,所述相似信息集合为与所述待纠错成分相似性满足第三条件的信息组成的集合;
由所述至少一个处理器根据所述相似信息集合中的信息替换所述纠错成分,获取多个第二文本;
由所述至少一个处理器根据各所述第二文本对应的第二评分确定所述第一文本对应的目标文本。
第六方面,本发明实施例提供了一种文本纠错装置,所述装置包括:
第一获取单元,用于获取第一文本,所述第一文本为待纠错文本;
第一确定单元,用于根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分,所述成分为词语或字;
第二获取单元,用于获取所述待纠错成分对应的相似信息集合,所述相似信息集合为与所述待纠错成分相似性满足第三条件的信息组成的集合;
替换单元,用于根据所述相似信息集合中的信息替换所述纠错成分,获取多个第二文本;
第二确定单元,用于根据各所述第二文本对应的第二评分确定所述第一文本对应的目标文本。
第七方面,本发明实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,其中,所述计算机程序指令在被处理器执行时实现如第五方面所述的方法。
第八方面,本发明实施例提供了一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机程序指令,所述一条或多条计算机程序指令被所述处理器执行以实现如下步骤:
获取第一文本,所述第一文本为待纠错文本;
根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分,所述成分为词语或字;
获取所述待纠错成分对应的相似信息集合,所述相似信息集合为与所述待纠错成分相似性满足第三条件的信息组成的集合;
根据所述相似信息集合中的信息替换所述纠错成分,获取多个第二文本;
根据各所述第二文本对应的第二评分确定所述第一文本对应的目标文本。
本实施例在获取待纠错的第一文本后,根据第一文本中各成分的第一评分确定至少一个待纠错成分,并获取与各待纠错成分相似性满足预定条件的信息组成的集合,进而将各待纠错成分分别替换为对应的相似信息集合中的各信息以获取多个第二文本,从而根据第二文本对应的第二评分确定与第一文本实际想要表达的内容最为接近的第二文本作为目标文本。本实施例的方法通过预先训练的评分模型获取第一文本中各成分的评分以及相似信息集合中各信息的评分,有效提升了根据语音识别技术、光学字符识别技术等识别获得的文本的准确性。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明第一实施例的文本纠错方法的流程图;
图2是本发明第一实施例的第一评分模型的结构示意图;
图3是本发明第一实施例的第一评分模型的特征示意图;
图4是本发明第二实施例的文本纠错方法的流程图;
图5-图6是本发明第二实施例的成分及频数的对应关系的示意图;
图7是本发明第三实施例的文本纠错装置的示意图;
图8是本发明第四实施例的文本纠错装置的示意图;
图9是本发明第五实施例的电子设备的示意图;
图10是本发明第七实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明公开进行描述,但是本发明公开并不仅仅限于这些实施例。在下文对本发明公开的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明公开。为了避免混淆本发明公开的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个申请中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明公开的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明公开的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在实际应用过程中,语音识别技术、光学字符识别技术等各种各样条件的影响,准确会因此而降低。例如,对于语音识别技术,北京地区和上海地区的用户在叙述相同的内容时,由于发音规则存在差异,或者用户在叙述时周围的环境较为嘈杂,语音识别结果可能会不同;对于光学字符识别技术,若用户在书写过程中使用了较为接近字符,例如小写字母“l”和大写字母“I”,或者用户的字体较为潦草,光学字符识别结果可能会与用户书写的内容不匹配。因此在实际应用过程中,由于现有的语音识别技术、光学字符识别技术的准确性可能不高,会对用户实际想要表达的内容的准确性产生负面影响。
图1是本发明第一实施例的文本纠错方法的流程图。如图1所示,本实施例的方法包括如下步骤:
步骤S100,获取第一文本。
第一文本为待纠错文本。可选地,第一文本可以为通过各种语音识别(VoiceRecognition)技术或者光学字符识别(Optical Character Recognition,OCR)技术获得的待纠错文本。例如,第一文本可以通过《崔天宇.基于HMM的语音识别系统的研究与实现.吉林大学.2016年硕士学位论文》中记载的语音识别系统,或者《卢畅畅,宁少文,唐德昌.光学字符识别技术(OCR)的研究于应用.中国战略新兴产业,2018年28期》中记载的模型等识别获得。可选地,第一文本也可以为任一待纠错文本,例如纯文本文件。
具体地,在本实施例中,第一文本可以为单一语言的文本,例如纯中文、纯英文文本等,也可以为多语言混合的文本,例如中英文对照文本等,本实施例不做限定。
步骤S200,根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分。
具体地,服务器可以按预定的规则将第一文本划分为多个成分,并对第一文本中的各成分进行评分,从而根据各成分的第一评分确定至少一个待纠错成分。
在本实施例中,预定的规则可以由用户设定,例如以预定长度的窗口对第一文本进行滑动分割;或者通过现有的分词方式,例如结巴分词等对第一文本进行分割,从而获得多个成分。成分也即词语或字,是构成第一文本的基本单位。例如,第一文本为“这道菜很好吃”,则划分获得的成分可以为“这道”“道菜”“菜很”“很好”“好吃”,也可以为“这道菜”“很”“好吃”等。各成分的第一评分可以通过预先训练的第一评分模型预测获得。第一评分模型可以为MLM(Masked Language Model,遮蔽语言模型)。
以BERT为例,BERT的模型结构是一种采用Transformer的编码器作为主体模型结构而构建的多层双向转换编码器,基于注意力机制来对一段文本进行建模。Transformer所使用的注意力机制的核心思想是计算一个文本中的每个成分与该文本中所有成分的相互关系,然后认为这些成分与成分之间的相互关系在一定程度上反应了该文本中不同成分之间的关联性以及重要程度,从而利用这些相互关系来调整每个成分的重要性(权重)获得每个成分新的表征。因此与单纯的词向量相比,基于BERT获得的新的表征是一个更加全局的表达方式,具有更高的准确性。这使得BERT的预测结果更加准确。
图2是本发明第一实施例的第一评分模型的结构示意图。容易理解,图2所示的特征数量以及模型的节点数量仅仅是示意性的。如图2所示,Ei(1≤i≤n)是第一文本中的多个特征,也即成分。在将第一文本作为第一评分模型的输入时,第一评分模型会通过transformer encoder(transformer中的编码器)层中的多个编码器Trm(TransformerBlock)根据各特征Ei的上下文同时进行双向处理,通过注意力机制将任意两个位置的成分的距离转换为1,从而获得各特征Ei对应的新的表征(在本实施例中,也即各成分对应的第一评分)。也就是说,BERT解决了NLP中的长期依赖问题,更易捕捉文本中各成分间的双向关系。
在第一评分模型为MLM模型时,第一评分也即第一文本中各成分出现在第一文本中对应的位置的概率。例如,第一文本为“这道菜很好吃”时,“道”对应的第一评分用于表征“道”出现在“这道菜很好吃”中当前位置的概率。在第一评分满足第一条件时,服务器可以认定对应的成分为待纠错成分。其中,第一条件可以为第一评分小于第一阈值等,本实施例不做限定。
例如,第一文本为“中园人民银行”,使用第一评分模型对第一文本逐字进行打分时,由于“园”与“中”以及“人民银行”连用的情况很少,因此“园”出现在当前位置的概率,也即第一评分模型对“园”进行打分获得的第一评分会小于第一阈值,服务器可以因此将“园”确定为待纠错成分。
容易理解,在本实施例中,还可以通过其他模型,例如树模型等确定第一文本中各成分的第一评分,从而确定第一文本中的待纠错成分,本实施例不做限定。
步骤S300,获取待纠错成分对应的第一信息集合。
第一信息集合包括各待纠错成分对应的信息。具体地,待纠错成分对应的信息可以为与待纠错成分词性相似或相同的信息,或者为预定词库中存储的任意信息。
步骤S400,去除第一文本中的待纠错成分,获取第二文本。
具体地,服务器可以将第一文本中的待纠错成分用mask(也即,被遮蔽的成分)来替代,从而获取第二文本。例如,第一文本为“中园人民银行”,“园”为第一文本中的待纠错成分,因此可以将“园”替换为mask,使得第一文本变化为第二文本,也即“中”“mask”“人”“民”“银”“行”。
应理解,为了保证第一评分模型的准确性,也即文本纠错结果的准确性,第二文本中mask的比例通常不超过成分总量的15%。
容易理解,步骤S300和步骤S400可以同时执行,也可以先后执行,不必区分执行顺序。
步骤S500,基于预先训练的第一评分模型,根据第二文本获取第一信息集合中各信息的第二评分。
具体地,服务器可以将第二文本作为第一评分模型的输出,并由第一评分模型将第二文本中各位置的token分别替换为第一信息集合中对应的任一信息,从而对替换后的第二文本进行处理并评分,以获得该信息对应的第二评分。
MLM模型的训练过程是一种无监督学习的过程,并基于第一样本集合训练获得第一评分模型。MLM模型在训练过程所使用的第一样本集合中的训练样本包括多个未经纠错的文本。
图3是本发明第一实施例的第一评分模型的特征示意图。容易理解,图3所示的特征及数量仅仅是示意性的。如图3所示,第一样本集合中的训练样本1为“My dog is cute,he likes playing(我的狗很可爱,他喜欢玩耍)”。服务器对训练样本1进行处理,获得MLM模型的输入input1:“[CLS]”“my”“dog”“is”“cute”“[SEP]”“he”“likes”“play”“##ing”“[SEP]”。其中,CLS用于表示训练样本的特殊分类嵌入(Special ClassificationEmbedding),在分类任务时使用;SEP用于表示文本的分隔符号,例如“,”“。”等。Input中的任一成分(包括CLS和SEP)均对应一个token embedding(被替换的嵌入)、segmentembedding(分割嵌入)以及transformer position embedding(也即position embedding,位置嵌入)。以“cute”为例,Ecute用于表示“cute”对应的token embedding;EA用于表示“cute”对应的segment embedding,“cute”属于训练样本1的第一部分(也即,“My dog iscute”部分),因此可以用第一部分对应的嵌入EA作为“cute”对应的segment embedding;E4用于表示“cute”在input中的位置,“cute”为input当中的第五个位置,因此确定“cute”对应的position embedding为E4。在训练过程中,MLM模型可以对训练样本1进行遮蔽处理,随机遮蔽其中15%的成分,并根据包括至少一个遮蔽成分的训练样本以及预定词库进行训练,预定词库至少包括各训练样本中被遮蔽的成分。MLM模型的训练目标是较为准确地确定各训练样本中被遮蔽的成分。具体地,MLM模型可以将token总数的15%进行处理,处理方式包括80%的可能进行遮蔽处理(也即,替换为mask),10%的可能保留原来的成分,10%的可能替换为其他的成分。
容易理解,在本发明实施例中,第一评分模型不限于MLM模型,任一训练方式与MLM模型相似的模型均可以作为第一评分模型,例如ELMO等。
在应用第一评分模型进行结果预测时,模型的输入已被处理为包括被遮蔽成分的第二文本(也即,将待纠错成分看作被遮蔽成分),因此无需第一评分模型对输入进行遮蔽处理,就能够根据第二文本确定第一信息集合中各信息对应的第二评分。
步骤S600,根据第二评分确定各待纠错成分对应的目标信息。
在一种可选的实现方式中,服务器可以将各纠错成分对应的第一类信息确定为目标信息。第一类信息是指对于各纠错成分所在的位置,第二评分排序在最大的第一位的信息。例如,第一文本为“我的锚喜欢吃鱼”,待纠错成分为“锚”,待纠错成分对应的信息包括“猫”“狗”“猪”等,其中“猫”对应的第二评分最高,也即排序在最大的第一位,因此可以确定“猫”为待纠错成分对应的第一类信息,也即目标信息。
在另一种可选的实现方式中,在第一文本中包括多个待纠错成分时,可能各待纠错成分对应的第一类信息并非全局最优的信息(也即,对于第一文本而言,第一类信息的第二评分最高,但并不是待纠错成分对应的正确信息),因此对于各待纠错成分,服务器可以根据第二评分满足第二条件的信息确定对应的候选信息集合,并根据各候选信息集合中各信息的第二评分确定第二文本对应的最优解,从而将最优解对应的信息确定为目标信息。第二条件可以为第二评分排序在最大的前n位(n为大于1的整数)、第二评分超过第二阈值、第二评分超过第二阈值且排序在最大的前n位等,本实施例不做限定。最优解也即全局最优的信息组成的解,可以使得纠错结果与实际最为接近,准确性最高。
具体地,服务器可以通过viterbi(维特比算法)、beam search(集束搜索)等方式,并基于第二文本中各成分的第一评分以及候选信息集合中各信息的第二评分来确定第二文本对应的最优解。
以beam search为例,beam search可以认为是viterbi的贪心形式,能够通过beamsize来限制每一步保留下来的可能性满足预定阈值的成分的数量。在本实施例中,可以根据各候选信息集合中信息数量的最小值确定beam size,从而找出各第二文本对应的最优解。
例如,第一信息集合为[a,b,c],beam size为2,则:1.在生成第1个成分的时候,选择概率最大的2个成分,那么当前序列就是a或b;2.生成第2个成分的时候,我们将当前序列a或b,分别与字典中的所有成分进行组合,得到新的6个序列aa ab ac ba bb bc,然后从其中选择2个概率最高的,作为当前序列,即ab或bb;3.不断重复这个过程,直到遇到结束符为止。最终输出2个概率最高的序列。
步骤S700,根据第二文本对目标信息进行填充处理以进行纠错。
具体地,服务器可以将各待纠错成分对应的目标信息分别填入其在第二文本中所在的位置,从而实现纠错。
例如,第二文本为“我的(mask)喜欢吃鱼”,待纠错成分(也即mask)对应的目标信息为“猫”,因此可以将“猫”填入待纠错成分所在的位置,将第二文本修改为“我的猫喜欢吃鱼”,从而实现纠错处理。
本实施例在获取待纠错的第一文本后,根据第一文本中各成分的第一评分确定至少一个待纠错成分,并获取待纠错成分对应的信息作为第一信息集合,以及去除待纠错文本中的待纠错成分获得不含待纠错成分的第二文本,进而根据第二文本获取第一信息集合中各成分对应的信息的第二评分,根据第二评分确定待纠错成分对应的目标信息,从而将目标信息填充至第二文本以进行纠错。本实施例的方法通过预先训练的评分模型获取第一文本中各成分的评分以及第一信息集合中各信息的评分,有效提升了根据语音识别技术、光学字符识别技术等识别获得的文本的准确性。
图4是本发明第二实施例的文本纠错方法的流程图。如图4所示,本实施例的方法包括如下步骤:
步骤S100’,获取第一文本。
在本实施例中,步骤S100’和步骤S100的实现方式相似,在此不再赘述。
步骤S200’,根据第一文本中各成分对应的第一评分确定至少一个待纠错成分。
具体地,服务器可以根据预定长度的窗口对第一文本进行分割,获取多个片段序列(片段序列包括至少一个成分),并将各片段序列输入预先训练的第二评分模型,从而获取各片段序列的共现概率。对于各成分,服务器可以根据包括该成分的片段序列的共现概率确定对应的第一评分,从而将第一评分满足第四条件的至少一个成分确定为待纠错成分。其中,预定长度可以为任意大于1的整数,本实施例不做限定。
例如,第一文本为“中园人民银行”,在窗口长度为1时,对第一文本分割后获得的片段序列包括“中”“园”“人”“民”“银”“行”;在窗口长度为2时,对第一文本分割后获得的片段序列包括“中园”“园人”“人民”“民银”“银行”。
第一文本中各片段序列的第二评分模型可以为N-Gram模型。N-Gram模型基于这样一种假设:第N个成分的出现只与前面N-1个成分相关,而与其它任何成分都不相关,整个文本的出现的概率(也即共现概率)就是各个成分出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
以Bi-Gram为例,Bi-Gram对应的窗口长度为2。在窗口长度为2时,Bi-Gram用于预测如序列片段AB中A和B的共现概率P(A,B)。通常在实际生活中,A和B出现的概率并不是完全独立的,因此P(A,B)=P(A)*P(B|A)。其中,P(A)以及P(B|A)可以通过对训练样本统计获得。Bi-Gram对应的第二样本集合包括多个已纠错序列,Bi-Gram在训练时根据各已纠错序列的频数进行统计学习。
容易理解,在片段序列中包括多个成分时,服务器也可以将各片段序列中的成分处理为特定长度的片段序列,使得Bi-Gram在训练时根据第二样本集合中各成分的频数进行统计学习。
图5-图6是本发明第二实施例的成分及频数的对应关系的示意图。已纠错序列以训练样本中共包括100个片段序列为例进行说明。如图5-图6所示,训练样本包括“猫跳”“跳上”“上椅”和“椅子”,还包括“猫”“跳”“上”“椅”和“子”。对于序列1“猫跳”,Bi-Gram可以计算共现概率P1=P(“猫”,“跳”)=P(“猫”)*P(“跳”|“猫”)=15/100*1/11=0.0136;类似地,对于序列2“椅子”,Bi-Gram可以计算共现概率P2=P(“椅”,“子”)=P(“椅”)·P(“子”|“椅”)=10/100*8/13=0.0615。
类似地,在将第一文本输入第二评分模型后,第二评分模型可以通过上述方式对第一文本中各片段序列的共现概率进行较为准确的预测。
可选地,在获取各片段序列的共现概率后,对于第一文本中的各成分,服务器可以通过计算包括该成分的至少一个片段序列的共现概率的MAD(Mean Absolute Deviation,平均绝对误差),并将MAD确定为该成分对应的第一评分。
MAD又称平均绝对离差,是所有单个观测值与算数平均值的偏差的绝对值的平均。MAD可以避免误差相互抵消的问题,因此可以较为准确地反映实际预测误差(在本实施例中,也即第一评分)的大小。MAD可以通过如下公式计算获得:
其中,n为第一文本中多个成分的总量,Xi为第i个成分的得分,m(x)为各成分的得分的平均值。其中,各成分的得分Xi可以根据包括各成分的片段序列的共现概率的平均值确定,例如,可以为平均值,也可以为平均值乘以预定系数等,本实施例不做限定。
例如,第一文本为“猫跳上椅子”,包括成分“跳”的片段序列为“猫跳”和“跳上”。其中,“猫跳”的共现概率为0.03,“跳上”的共现概率为0.1,则“跳”对应的得分可以为1/2*(0.03+0.1)=0.065。
在获取第一文本中各成分对应的第一评分后,服务器可以将第一评分满足第四条件的至少一个成分确定为待纠错成分。第一评分越小,表示测量值(包括任一成分的各片段序列的共现频率)与真实值(也即,该成分实际出现的频率)越接近,可以认为该成分出现在第一文本当前位置的概率较高;而第一评分越大,表示测量值与真实值越偏离,可以认为该成分出现在第一文本当前位置的概率较低,因此可以将第四条件确定为第一评分大于第三阈值。
容易理解,在本实施例中,还可以通过其他模型,例如树模型等确定第一文本中各成分的第一评分,从而确定第一文本中的待纠错成分,本实施例不做限定。
步骤S300’,获取待纠错成分对应的相似信息集合。
相似信息集合为与待纠错成分的相似性满足第三条件的信息组成的集合。对于通过语音识别技术获得的第一文本,待纠错成分对应的相似信息可以为与该待纠错成分的发音相同或相似(也即,重合率高于第四阈值)的信息,例如,若待纠错成分为“无”,则对应的相似信息可以为“吴”“五”“屋”“库”等;对于通过光学字符识别技术获得的第一文本,待纠错成分对应的相似信息可以为与该待纠错成分的书写方式相似(也即,重合率高于第五阈值)的信息,例如,若待纠错成分为“园”,则对应的相似信息可以为“国”“闰”“囿”等。
容易理解,对于一般的待纠错文本,其中的待纠错成分对应的相似信息可以为与该待纠错成分的发音相同或相似的信息,也可以为与该待纠错成分的书写方式相似的信息,本实施例不做限定。
步骤S400’,根据相似信息集合中的信息替换纠错成分,获取多个第二文本。
具体地,服务器可以用相似信息集合中的信息分别替换对应的替换对应的待纠错成分,从而获得多个第二文本。例如,第一文本为“我的锚爱吃鱼”,其中待纠错成分为“锚”,“锚”对应的相似信息集合中包括“猫”“喵”“瞄”。用相似信息集合中的信息替换“锚”,获得的第二文本可以为“我的猫爱吃鱼”“我的喵爱吃鱼”以及“我的瞄爱吃鱼”。
容易理解,若第一文本中存在多个待纠错成分,服务器可以将各相似信息集合中的任一信息进行组合,并对对应的待纠错成分进行替换,从而获取第二文本。
步骤S500’,根据各第二文本对应的第二评分确定第一文本对应的目标文本。
根据第一文本获得第二文本的过程相当于纠错过程,但服务器无法在多个第二文本中直接确定出纠错结果最为准确的第二文本。因此服务器可以对第二文本进行评分,从而根据各第二文本对应的第二评分将纠错结果最为准确(也即,第二评分排序在最大的第一位)的第二文本确定为第一文本对应的目标文本。
在本实施例的一种可选的实现方式中,服务器可以基于第二评分模型,确定各第二文本对应的第二评分。服务器在通过第二评分模型对第二文本进行评分时,可以通过计算整个第二文本的共现概率,并将共现概率确定为第二文本对应的第二评分。整个第二文本的共现概率p(w1,w2,…,wm)=p(w1)*p(w2|w1)*…*p(wm|wm-1)。第二文本的处理方式与第一文本相似,在此不再赘述。
在本实施例的另一种可选的实现方式中,在第一文本中包括多个待纠错成分时,共现概率排序在最大的第一位的第二文本并非全局最优的第二文本(也即,与实际正确的文本最为接近的第二文本),因此对于各待纠错成分,服务器可以通过第二评分模型对各相似信息集合中的各相似信息进行评分,确定各信息的第一评分,并根据第一评分满足第五条件的信息确定对应的候选信息集合,进而根据各候选信息集合中各信息的第一评分确定第一文本对应的最优解,从而将最优解对应的第二文本确定为目标文本。第五条件可以为第一评分排序在最大的前m位(m为大于1的整数)、第二评分超过第六阈值、第二评分超过第六阈值且排序在最大的前m位等,本实施例不做限定。相似信息集合中各信息的第一评分的确定方式与第一文本中各成分的第一评分的确定方式相似,在此不再赘述。
容易理解,在本实施例中,还可以通过其他模型,例如树模型等确定相思信息集合中各信息的第一评分,从而确定第一文本中的待纠错成分,本实施例不做限定。
具体地,服务器可以通过viterbi(维特比算法)、beam search(集束搜索)等方式,并基于第二文本中各成分的第一评分以及候选信息集合中各信息的第一评分来确定第一文本对应的最优解,也即目标文本。最优解的确定方式与步骤S600相似,在此不再赘述。
本实施例在获取待纠错的第一文本后,根据第一文本中各成分的第一评分确定至少一个待纠错成分,并获取与各待纠错成分相似性满足预定条件的信息组成的集合,进而将各待纠错成分分别替换为对应的相似信息集合中的各信息以获取多个第二文本,从而根据第二文本对应的第二评分确定与第一文本实际想要表达的内容最为接近的第二文本作为目标文本。本实施例的方法通过预先训练的评分模型获取第一文本中各成分的评分以及相似信息集合中各信息的评分,有效提升了根据语音识别技术、光学字符识别技术等识别获得的文本的准确性。
图7是本发明第三实施例的文本纠错装置的示意图。如图7所示,本实施例的装置包括第一获取单元71、第一确定单元72、第二获取单元73、去除单元74、第三获取单元75、第二确定单元76和填充单元77。
其中,第一获取单元71用于获取第一文本,所述第一文本为待纠错文本。第一确定单元72用于根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分,所述成分为词语或字。第二获取单元73用于获取所述待纠错成分对应的第一信息集合,所述第一信息集合包括各所述待纠错成分对应的信息。去除单元74用于去除所述第一文本中的待纠错成分,获取第二文本。第三获取单元75用于基于预先训练的第一评分模型,根据所述第二文本获取所述第一信息集合中各信息的第二评分,所述第一评分模型根据第一样本集合训练获取,所述第一样本集合包括多个未纠错文本。第二确定单元76用于根据所述第二评分确定各所述待纠错成分对应的目标信息。填充单元77用于根据所述第二文本对所述目标信息进行填充处理以进行纠错。
本实施例在获取待纠错的第一文本后,根据第一文本中各成分的第一评分确定至少一个待纠错成分,并获取待纠错成分对应的信息作为第一信息集合,以及去除待纠错文本中的待纠错成分获得不含待纠错成分的第二文本,进而根据第二文本获取第一信息集合中各成分对应的信息的第二评分,根据第二评分确定待纠错成分对应的目标信息,从而将目标信息填充至第二文本以进行纠错。本实施例的装置通过预先训练的评分模型获取第一文本中各成分的评分以及第一信息集合中各信息的评分,有效提升了根据语音识别技术、光学字符识别技术等识别获得的文本的准确性。
图8是本发明第四实施例的文本纠错装置的示意图。如图8所示,本实施例的装置包括第一获取单元81、第一确定单元82、第二获取单元83、替换单元84和第二确定单元85。
其中,第一获取单元81用于获取第一文本,所述第一文本为待纠错文本。第一确定单元82用于根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分,所述成分为词语或字。第二获取单元83用于获取所述待纠错成分对应的相似信息集合,所述相似信息集合为与所述待纠错成分相似性满足第三条件的信息组成的集合。替换单元84用于根据所述相似信息集合中的信息替换所述纠错成分,获取多个第二文本。第二确定单元85用于根据各所述第二文本对应的第二评分确定所述第一文本对应的目标文本。
本实施例在获取待纠错的第一文本后,根据第一文本中各成分的第一评分确定至少一个待纠错成分,并获取与各待纠错成分相似性满足预定条件的信息组成的集合,进而将各待纠错成分分别替换为对应的相似信息集合中的各信息以获取多个第二文本,从而根据第二文本对应的第二评分确定与第一文本实际想要表达的内容最为接近的第二文本作为目标文本。本实施例的装置通过预先训练的评分模型获取第一文本中各成分的评分以及相似信息集合中各信息的评分,有效提升了根据语音识别技术、光学字符识别技术等识别获得的文本的准确性。
图9是本发明第五实施例的电子设备的示意图。如图9所示,该电子设备:至少包括一个处理器901;以及,与至少一个处理器901通信连接的存储器902;以及,与扫描装置通信连接的通信组件903,通信组件903在处理器901的控制下接收和发送数据;其中,存储器902存储有可被至少一个处理器901执行的指令,指令被至少一个处理器901执行以实现:
获取第一文本,所述第一文本为待纠错文本;
根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分,所述成分为词语或字;
获取所述待纠错成分对应的第一信息集合,所述第一信息集合包括各所述待纠错成分对应的信息;
去除所述第一文本中的待纠错成分,获取第二文本;
基于预先训练的第一评分模型,根据所述第二文本获取所述第一信息集合中各信息的第二评分,所述第一评分模型根据第一样本集合训练获取,所述第一样本集合包括多个未纠错文本;
根据所述第二评分确定各所述待纠错成分对应的目标信息;
根据所述第二文本对所述目标信息进行填充处理以进行纠错。
进一步地,所述获取第一文本包括:
通过语音识别或光学字符识别获取所述第一文本。
进一步地,所述根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分包括:
基于所述第一评分模型,获取各成分的第一评分;
将第一评分满足第一条件的至少一个成分确定为所述待纠错成分。
进一步地,所述根据所述第二评分确定各所述待纠错成分对应的目标信息包括:
分别将各所述待纠错成分对应的第一类信息确定为所述目标信息,所述第一类信息为第二评分排序在最大的第一位的信息。
进一步地,所述根据所述第二评分确定各所述待纠错成分对应的目标信息包括:
对于各所述待纠错成分,分别根据对应的所述第二评分排序满足第二条件的信息确定对应的候选信息集合;
根据各所述候选信息集合中各信息的所述第二评分确定所述第二文本对应的最优解;
将所述最优解对应的信息确定为所述目标信息。
进一步地,根据各所述候选信息集合中各信息的所述第二评分确定所述第二文本对应的最优解包括:
根据所述第二文本中各成分的所述第一评分和各所述候选信息集合中各信息的所述第二评分确定所述最优解。
具体地,该电子设备包括:一个或多个处理器901以及存储器902,图9中以一个处理器901为例。处理器901、存储器902可以通过总线或者其他方式连接,图9中以通过总线连接为例。存储器902作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器901通过运行存储在存储器902中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述文本纠错方法。
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器902可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器902中,当被一个或者多个处理器901执行时,执行上述任意方法实施例中的文本纠错方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本实施例在获取待纠错的第一文本后,根据第一文本中各成分的第一评分确定至少一个待纠错成分,并获取待纠错成分对应的信息作为第一信息集合,以及去除待纠错文本中的待纠错成分获得不含待纠错成分的第二文本,进而根据第二文本获取第一信息集合中各成分对应的信息的第二评分,根据第二评分确定待纠错成分对应的目标信息,从而将目标信息填充至第二文本以进行纠错。本实施例的方法通过预先训练的评分模型获取第一文本中各成分的评分以及第一信息集合中各信息的评分,有效提升了根据语音识别技术、光学字符识别技术等识别获得的文本的准确性。
本发明的第六实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
图10是本发明第七实施例的电子设备的示意图。如图10所示,该电子设备:至少包括一个处理器1001;以及,与至少一个处理器1001通信连接的存储器1002;以及,与扫描装置通信连接的通信组件1003,通信组件1003在处理器1001的控制下接收和发送数据;其中,存储器1002存储有可被至少一个处理器1001执行的指令,指令被至少一个处理器1001执行以实现:
获取第一文本,所述第一文本为待纠错文本;
根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分,所述成分为词语或字;
获取所述待纠错成分对应的相似信息集合,所述相似信息集合为与所述待纠错成分相似性满足第三条件的信息组成的集合;
根据所述相似信息集合中的信息替换所述纠错成分,获取多个第二文本;
根据各所述第二文本对应的第二评分确定所述第一文本对应的目标文本。
进一步地,所述获取第一文本包括:
通过语音识别或光学字符识别获取所述第一文本。
进一步地,所述根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分包括:
根据预定长度的窗口对所述第一文本进行分割,获取多个片段序列,所述片段序列包括至少一个成分;
将各所述片段序列输入预先训练的第二评分模型,获取对应的共现概率,所述第二评分模型根据第二样本集合预先训练获取,所述第二样本集合包括多个已纠错序列;
对于各所述成分,根据包括所述成分的所述片段序列的共现概率确定对应的所述第一评分;
将所述第一评分满足第四条件的至少一个成分确定为所述待纠错成分。
进一步地,所述根据包括所述成分的所述片段序列的共现概率确定对应的所述第一评分包括:
将多个所述共现概率的平均绝对误差确定为所述第一评分。
进一步地,所述根据各所述第二文本对应的第二评分确定所述第一文本对应的目标文本包括:
基于预先训练的第二评分模型,确定各所述第二文本的所述第二评分,所述第二评分模型根据第二样本集合预先训练获取,所述第二样本集合包括多个已纠错序列;
将所述第二评分排序在最大的第一位的所述第二文本确定为所述目标文本。
具体地,该电子设备包括:一个或多个处理器1001以及存储器1002,图10中以一个处理器1001为例。处理器1001、存储器1002可以通过总线或者其他方式连接,图10中以通过总线连接为例。存储器1002作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器1001通过运行存储在存储器1002中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述文本纠错方法。
存储器1002可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器1002可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器1002可选包括相对于处理器1001远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器1002中,当被一个或者多个处理器1001执行时,执行上述任意方法实施例中的文本纠错方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本实施例在获取待纠错的第一文本后,根据第一文本中各成分的第一评分确定至少一个待纠错成分,并获取与各待纠错成分相似性满足预定条件的信息组成的集合,进而将各待纠错成分分别替换为对应的相似信息集合中的各信息以获取多个第二文本,从而根据第二文本对应的第二评分确定与第一文本实际想要表达的内容最为接近的第二文本作为目标文本。本实施例的装置通过预先训练的评分模型获取第一文本中各成分的评分以及相似信息集合中各信息的评分,有效提升了根据语音识别技术、光学字符识别技术等识别获得的文本的准确性。
本发明的第八实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例公开了A1、一种文本纠错方法,所述方法包括:
由具有至少一个处理器的计算机系统获取第一文本,所述第一文本为待纠错文本;
由所述计算机系统根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分,所述成分为词语或字;
由所述计算机系统获取所述待纠错成分对应的第一信息集合,所述第一信息集合包括各所述待纠错成分对应的信息;
由所述计算机系统去除所述第一文本中的待纠错成分,获取第二文本;
由所述计算机系统基于预先训练的第一评分模型,根据所述第二文本获取所述第一信息集合中各信息的第二评分,所述第一评分模型根据第一样本集合训练获取,所述第一样本集合包括多个未纠错文本;
由所述计算机系统根据所述第二评分确定各所述待纠错成分对应的目标信息;
由所述计算机系统根据所述第二文本对所述目标信息进行填充处理以进行纠错。
A2、如A1所述的方法中,所述获取第一文本包括:
通过语音识别或光学字符识别获取所述第一文本。
A3、如A1所述的方法中,所述根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分包括:
基于所述第一评分模型,获取各成分的第一评分;
将第一评分满足第一条件的至少一个成分确定为所述待纠错成分。
A4、如A1所述的方法中,所述根据所述第二评分确定各所述待纠错成分对应的目标信息包括:
分别将各所述待纠错成分对应的第一类信息确定为所述目标信息,所述第一类信息为第二评分排序在最大的第一位的信息。
A5、如A1所述的方法中,所述根据所述第二评分确定各所述待纠错成分对应的目标信息包括:
对于各所述待纠错成分,分别根据对应的所述第二评分排序满足第二条件的信息确定对应的候选信息集合;
根据各所述候选信息集合中各信息的所述第二评分确定所述第二文本对应的最优解;
将所述最优解对应的信息确定为所述目标信息。
A6、如A5所述的方法中,根据各所述候选信息集合中各信息的所述第二评分确定所述第二文本对应的最优解包括:
根据所述第二文本中各成分的所述第一评分和各所述候选信息集合中各信息的所述第二评分确定所述最优解。
本发明实施例还公开了B1、一种文本纠错方法,所述方法包括:
由具有至少一个处理器的计算机系统获取第一文本,所述第一文本为待纠错文本;
由所述计算机系统根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分,所述成分为词语或字;
由所述计算机系统获取所述待纠错成分对应的相似信息集合,所述相似信息集合为与所述待纠错成分相似性满足第三条件的信息组成的集合;
由所述计算机系统根据所述相似信息集合中的信息替换所述纠错成分,获取多个第二文本;
由所述计算机系统根据各所述第二文本对应的第二评分确定所述第一文本对应的目标文本。
B2、如B1所述的方法中,所述获取第一文本包括:
通过语音识别或光学字符识别获取所述第一文本。
B3、如B1所述的方法中,所述根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分包括:
根据预定长度的窗口对所述第一文本进行分割,获取多个片段序列,所述片段序列包括至少一个成分;
将各所述片段序列输入预先训练的第二评分模型,获取对应的共现概率,所述第二评分模型根据第二样本集合预先训练获取,所述第二样本集合包括多个已纠错序列;
对于各所述成分,根据包括所述成分的所述片段序列的共现概率确定对应的所述第一评分;
将所述第一评分满足第四条件的至少一个成分确定为所述待纠错成分。
B4、如B3所述的方法中,所述根据包括所述成分的所述片段序列的共现概率确定对应的所述第一评分包括:
将多个所述共现概率的平均绝对误差确定为所述第一评分。
B5、如B1所述的方法中,所述根据各所述第二文本对应的第二评分确定所述第一文本对应的目标文本包括:
基于预先训练的第二评分模型,确定各所述第二文本的所述第二评分,所述第二评分模型根据第二样本集合预先训练获取,所述第二样本集合包括多个已纠错序列;
将所述第二评分排序在最大的第一位的所述第二文本确定为所述目标文本。
本发明实施例还公开了C1、一种文本纠错装置,所述装置包括:
第一获取单元,用于获取第一文本,所述第一文本为待纠错文本;
第一确定单元,用于根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分,所述成分为词语或字;
第二获取单元,用于获取所述待纠错成分对应的第一信息集合,所述第一信息集合包括各所述待纠错成分对应的信息;
去除单元,用于去除所述第一文本中的待纠错成分,获取第二文本;
第三获取单元,用于基于预先训练的第一评分模型,根据所述第二文本获取所述第一信息集合中各信息的第二评分,所述第一评分模型根据第一样本集合训练获取,所述第一样本集合包括多个未纠错文本;
第二确定单元,用于根据所述第二评分确定各所述待纠错成分对应的目标信息;
填充单元,用于根据所述第二文本对所述目标信息进行填充处理以进行纠错。
本发明实施例还公开了D1、一种文本纠错装置,所述装置包括:
第一获取单元,用于获取第一文本,所述第一文本为待纠错文本;
第一确定单元,用于根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分,所述成分为词语或字;
第二获取单元,用于获取所述待纠错成分对应的相似信息集合,所述相似信息集合为与所述待纠错成分相似性满足第三条件的信息组成的集合;
替换单元,用于根据所述相似信息集合中的信息替换所述纠错成分,获取多个第二文本;
第二确定单元,用于根据各所述第二文本对应的第二评分确定所述第一文本对应的目标文本。
本发明实施例还公开了E1、一种计算机可读存储介质,其上存储计算机程序指令,其中,所述计算机程序指令在被处理器执行时实现如A1-A6中任一项所述的方法。
本发明实施例还公开了F1、一种计算机可读存储介质,其上存储计算机程序指令,其中,所述计算机程序指令在被处理器执行时实现如B1-B5中任一项所述的方法。
本发明实施例还公开了G1、一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如下步骤:
获取第一文本,所述第一文本为待纠错文本;
根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分,所述成分为词语或字;
获取所述待纠错成分对应的第一信息集合,所述第一信息集合包括各所述待纠错成分对应的信息;
去除所述第一文本中的待纠错成分,获取第二文本;
基于预先训练的第一评分模型,根据所述第二文本获取所述第一信息集合中各信息的第二评分,所述第一评分模型根据第一样本集合训练获取,所述第一样本集合包括多个未纠错文本;
根据所述第二评分确定各所述待纠错成分对应的目标信息;
根据所述第二文本对所述目标信息进行填充处理以进行纠错。
G2、如G1所述的电子设备中,所述获取第一文本包括:
通过语音识别或光学字符识别获取所述第一文本。
G3、如G1所述的电子设备中,所述根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分包括:
基于所述第一评分模型,获取各成分的第一评分;
将第一评分满足第一条件的至少一个成分确定为所述待纠错成分。
G4、如G1所述的电子设备中,所述根据所述第二评分确定各所述待纠错成分对应的目标信息包括:
分别将各所述待纠错成分对应的第一类信息确定为所述目标信息,所述第一类信息为第二评分排序在最大的第一位的信息。
G4、如G1所述的电子设备中,所述根据所述第二评分确定各所述待纠错成分对应的目标信息包括:
对于各所述待纠错成分,分别根据对应的所述第二评分排序满足第二条件的信息确定对应的候选信息集合;
根据各所述候选信息集合中各信息的所述第二评分确定所述第二文本对应的最优解;
将所述最优解对应的信息确定为所述目标信息。
G5、如G5所述的电子设备中,根据各所述候选信息集合中各信息的所述第二评分确定所述第二文本对应的最优解包括:
根据所述第二文本中各成分的所述第一评分和各所述候选信息集合中各信息的所述第二评分确定所述最优解。
本发明实施例还公开了H1、一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如下步骤:
获取第一文本,所述第一文本为待纠错文本;
根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分,所述成分为词语或字;
获取所述待纠错成分对应的相似信息集合,所述相似信息集合为与所述待纠错成分相似性满足第三条件的信息组成的集合;
根据所述相似信息集合中的信息替换所述纠错成分,获取多个第二文本;
根据各所述第二文本对应的第二评分确定所述第一文本对应的目标文本。
H2、如H1所述的电子设备中,所述获取第一文本包括:
通过语音识别或光学字符识别获取所述第一文本。
H3、如H1所述的电子设备中,所述根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分包括:
根据预定长度的窗口对所述第一文本进行分割,获取多个片段序列,所述片段序列包括至少一个成分;
将各所述片段序列输入预先训练的第二评分模型,获取对应的共现概率,所述第二评分模型根据第二样本集合预先训练获取,所述第二样本集合包括多个已纠错序列;
对于各所述成分,根据包括所述成分的所述片段序列的共现概率确定对应的所述第一评分;
将所述第一评分满足第四条件的至少一个成分确定为所述待纠错成分。
H4、如H3所述的电子设备中,所述根据包括所述成分的所述片段序列的共现概率确定对应的所述第一评分包括:
将多个所述共现概率的平均绝对误差确定为所述第一评分。
H5、如H1所述的电子设备中,所述根据各所述第二文本对应的第二评分确定所述第一文本对应的目标文本包括:
基于预先训练的第二评分模型,确定各所述第二文本的所述第二评分,所述第二评分模型根据第二样本集合预先训练获取,所述第二样本集合包括多个已纠错序列;
将所述第二评分排序在最大的第一位的所述第二文本确定为所述目标文本。
本领域的普通技术人员可以理解,上述各实施例是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
Claims (10)
1.一种文本纠错方法,其特征在于,所述方法包括:
由至少一个处理器获取第一文本,所述第一文本为待纠错文本;
由所述至少一个处理器根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分,所述成分为词语或字;
由所述至少一个处理器获取所述待纠错成分对应的第一信息集合,所述第一信息集合包括各所述待纠错成分对应的信息;
由所述至少一个处理器去除所述第一文本中的待纠错成分,获取第二文本;
由所述至少一个处理器基于预先训练的第一评分模型,根据所述第二文本获取所述第一信息集合中各信息的第二评分,所述第一评分模型根据第一样本集合训练获取,所述第一样本集合包括多个未纠错文本;
由所述至少一个处理器根据所述第二评分确定各所述待纠错成分对应的目标信息;
由所述至少一个处理器根据所述第二文本对所述目标信息进行填充处理以进行纠错。
2.根据权利要求1所述的方法,其特征在于,所述获取第一文本包括:
通过语音识别或光学字符识别获取所述第一文本。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分包括:
基于所述第一评分模型,获取各成分的第一评分;
将第一评分满足第一条件的至少一个成分确定为所述待纠错成分。
4.一种文本纠错方法,其特征在于,所述方法包括:
由至少一个处理器获取第一文本,所述第一文本为待纠错文本;
由所述至少一个处理器根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分,所述成分为词语或字;
由所述至少一个处理器获取所述待纠错成分对应的相似信息集合,所述相似信息集合为与所述待纠错成分相似性满足第三条件的信息组成的集合;
由所述至少一个处理器根据所述相似信息集合中的信息替换所述纠错成分,获取多个第二文本;
由所述至少一个处理器根据各所述第二文本对应的第二评分确定所述第一文本对应的目标文本。
5.一种文本纠错装置,其特征在于,所述装置包括:
第一获取单元,用于获取第一文本,所述第一文本为待纠错文本;
第一确定单元,用于根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分,所述成分为词语或字;
第二获取单元,用于获取所述待纠错成分对应的第一信息集合,所述第一信息集合包括各所述待纠错成分对应的信息;
去除单元,用于去除所述第一文本中的待纠错成分,获取第二文本;
第三获取单元,用于基于预先训练的第一评分模型,根据所述第二文本获取所述第一信息集合中各信息的第二评分,所述第一评分模型根据第一样本集合训练获取,所述第一样本集合包括多个未纠错文本;
第二确定单元,用于根据所述第二评分确定各所述待纠错成分对应的目标信息;
填充单元,用于根据所述第二文本对所述目标信息进行填充处理以进行纠错。
6.一种文本纠错装置,其特征在于,所述装置包括:
第一获取单元,用于获取第一文本,所述第一文本为待纠错文本;
第一确定单元,用于根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分,所述成分为词语或字;
第二获取单元,用于获取所述待纠错成分对应的相似信息集合,所述相似信息集合为与所述待纠错成分相似性满足第三条件的信息组成的集合;
替换单元,用于根据所述相似信息集合中的信息替换所述纠错成分,获取多个第二文本;
第二确定单元,用于根据各所述第二文本对应的第二评分确定所述第一文本对应的目标文本。
7.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-3中任一项所述的方法。
8.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求4所述的方法。
9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如下步骤:
获取第一文本,所述第一文本为待纠错文本;
根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分,所述成分为词语或字;
获取所述待纠错成分对应的第一信息集合,所述第一信息集合包括各所述待纠错成分对应的信息;
去除所述第一文本中的待纠错成分,获取第二文本;
基于预先训练的第一评分模型,根据所述第二文本获取所述第一信息集合中各信息的第二评分,所述第一评分模型根据第一样本集合训练获取,所述第一样本集合包括多个未纠错文本;
根据所述第二评分确定各所述待纠错成分对应的目标信息;
根据所述第二文本对所述目标信息进行填充处理以进行纠错。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如下步骤:
获取第一文本,所述第一文本为待纠错文本;
根据所述第一文本中各成分对应的第一评分确定至少一个待纠错成分,所述成分为词语或字;
获取所述待纠错成分对应的相似信息集合,所述相似信息集合为与所述待纠错成分相似性满足第三条件的信息组成的集合;
根据所述相似信息集合中的信息替换所述纠错成分,获取多个第二文本;
根据各所述第二文本对应的第二评分确定所述第一文本对应的目标文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911261981.4A CN111046652A (zh) | 2019-12-10 | 2019-12-10 | 文本纠错方法、文本纠错装置、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911261981.4A CN111046652A (zh) | 2019-12-10 | 2019-12-10 | 文本纠错方法、文本纠错装置、存储介质和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111046652A true CN111046652A (zh) | 2020-04-21 |
Family
ID=70235535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911261981.4A Pending CN111046652A (zh) | 2019-12-10 | 2019-12-10 | 文本纠错方法、文本纠错装置、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111046652A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611791A (zh) * | 2020-04-27 | 2020-09-01 | 鼎富智能科技有限公司 | 一种文本处理的方法及相关装置 |
CN111753529A (zh) * | 2020-06-03 | 2020-10-09 | 杭州云嘉云计算有限公司 | 一种基于拼音相同或相似的中文文本纠错方法 |
CN111859907A (zh) * | 2020-06-11 | 2020-10-30 | 北京百度网讯科技有限公司 | 文字纠错方法、装置、电子设备及存储介质 |
CN112084301A (zh) * | 2020-08-11 | 2020-12-15 | 网易有道信息技术(北京)有限公司 | 文本修正模型的训练方法及装置、文本修正方法及装置 |
CN112528980A (zh) * | 2020-12-16 | 2021-03-19 | 北京华宇信息技术有限公司 | Ocr识别结果纠正方法及其终端、系统 |
CN113095067A (zh) * | 2021-03-03 | 2021-07-09 | 北京邮电大学 | 一种ocr错误纠正的方法、装置、电子设备及存储介质 |
CN113468871A (zh) * | 2021-08-16 | 2021-10-01 | 北京北大方正电子有限公司 | 文本纠错方法、装置及存储介质 |
WO2021212612A1 (zh) * | 2020-04-23 | 2021-10-28 | 平安科技(深圳)有限公司 | 智能化文本纠错方法、装置、电子设备及可读存储介质 |
CN113705203A (zh) * | 2021-09-02 | 2021-11-26 | 上海极链网络科技有限公司 | 文本纠错方法、装置、电子设备及计算机可读存储介质 |
CN114492450A (zh) * | 2021-12-22 | 2022-05-13 | 马上消费金融股份有限公司 | 文本匹配方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107402945A (zh) * | 2017-03-15 | 2017-11-28 | 阿里巴巴集团控股有限公司 | 词库生成方法及装置、短文本检测方法及装置 |
CN108108349A (zh) * | 2017-11-20 | 2018-06-01 | 北京百度网讯科技有限公司 | 基于人工智能的长文本纠错方法、装置及计算机可读介质 |
CN109597796A (zh) * | 2018-10-23 | 2019-04-09 | 平安科技(深圳)有限公司 | 文件内容修改方法、装置及计算机可读存储介质 |
CN110276077A (zh) * | 2019-06-25 | 2019-09-24 | 上海应用技术大学 | 中文纠错的方法、装置及设备 |
CN110377882A (zh) * | 2019-07-17 | 2019-10-25 | 标贝(深圳)科技有限公司 | 用于确定文本的拼音的方法、装置、系统和存储介质 |
CN110442859A (zh) * | 2019-06-28 | 2019-11-12 | 中国人民解放军国防科技大学 | 标注语料生成方法、装置、设备及存储介质 |
CN110457688A (zh) * | 2019-07-23 | 2019-11-15 | 广州视源电子科技股份有限公司 | 纠错处理方法及装置、存储介质和处理器 |
-
2019
- 2019-12-10 CN CN201911261981.4A patent/CN111046652A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107402945A (zh) * | 2017-03-15 | 2017-11-28 | 阿里巴巴集团控股有限公司 | 词库生成方法及装置、短文本检测方法及装置 |
CN108108349A (zh) * | 2017-11-20 | 2018-06-01 | 北京百度网讯科技有限公司 | 基于人工智能的长文本纠错方法、装置及计算机可读介质 |
CN109597796A (zh) * | 2018-10-23 | 2019-04-09 | 平安科技(深圳)有限公司 | 文件内容修改方法、装置及计算机可读存储介质 |
CN110276077A (zh) * | 2019-06-25 | 2019-09-24 | 上海应用技术大学 | 中文纠错的方法、装置及设备 |
CN110442859A (zh) * | 2019-06-28 | 2019-11-12 | 中国人民解放军国防科技大学 | 标注语料生成方法、装置、设备及存储介质 |
CN110377882A (zh) * | 2019-07-17 | 2019-10-25 | 标贝(深圳)科技有限公司 | 用于确定文本的拼音的方法、装置、系统和存储介质 |
CN110457688A (zh) * | 2019-07-23 | 2019-11-15 | 广州视源电子科技股份有限公司 | 纠错处理方法及装置、存储介质和处理器 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021212612A1 (zh) * | 2020-04-23 | 2021-10-28 | 平安科技(深圳)有限公司 | 智能化文本纠错方法、装置、电子设备及可读存储介质 |
CN111611791A (zh) * | 2020-04-27 | 2020-09-01 | 鼎富智能科技有限公司 | 一种文本处理的方法及相关装置 |
CN111611791B (zh) * | 2020-04-27 | 2023-08-25 | 鼎富智能科技有限公司 | 一种文本处理的方法及相关装置 |
CN111753529A (zh) * | 2020-06-03 | 2020-10-09 | 杭州云嘉云计算有限公司 | 一种基于拼音相同或相似的中文文本纠错方法 |
CN111753529B (zh) * | 2020-06-03 | 2021-07-27 | 杭州云嘉云计算有限公司 | 一种基于拼音相同或相似的中文文本纠错方法 |
CN111859907A (zh) * | 2020-06-11 | 2020-10-30 | 北京百度网讯科技有限公司 | 文字纠错方法、装置、电子设备及存储介质 |
CN111859907B (zh) * | 2020-06-11 | 2023-06-23 | 北京百度网讯科技有限公司 | 文字纠错方法、装置、电子设备及存储介质 |
CN112084301A (zh) * | 2020-08-11 | 2020-12-15 | 网易有道信息技术(北京)有限公司 | 文本修正模型的训练方法及装置、文本修正方法及装置 |
CN112084301B (zh) * | 2020-08-11 | 2023-12-15 | 网易有道信息技术(北京)有限公司 | 文本修正模型的训练方法及装置、文本修正方法及装置 |
CN112528980A (zh) * | 2020-12-16 | 2021-03-19 | 北京华宇信息技术有限公司 | Ocr识别结果纠正方法及其终端、系统 |
CN113095067A (zh) * | 2021-03-03 | 2021-07-09 | 北京邮电大学 | 一种ocr错误纠正的方法、装置、电子设备及存储介质 |
CN113468871A (zh) * | 2021-08-16 | 2021-10-01 | 北京北大方正电子有限公司 | 文本纠错方法、装置及存储介质 |
CN113468871B (zh) * | 2021-08-16 | 2024-08-16 | 北京北大方正电子有限公司 | 文本纠错方法、装置及存储介质 |
CN113705203A (zh) * | 2021-09-02 | 2021-11-26 | 上海极链网络科技有限公司 | 文本纠错方法、装置、电子设备及计算机可读存储介质 |
CN114492450A (zh) * | 2021-12-22 | 2022-05-13 | 马上消费金融股份有限公司 | 文本匹配方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046652A (zh) | 文本纠错方法、文本纠错装置、存储介质和电子设备 | |
CN110852087B (zh) | 中文纠错方法和装置、存储介质及电子装置 | |
CN111310443B (zh) | 一种文本纠错方法和系统 | |
CN107025284B (zh) | 网络评论文本情感倾向的识别方法及卷积神经网络模型 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN109840287A (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN105068997B (zh) | 平行语料的构建方法及装置 | |
CN111967258B (zh) | 一种构建共指消解模型的方法、共指消解的方法和介质 | |
CN111651589B (zh) | 一种针对长文档的两阶段文本摘要生成方法 | |
CN112199945A (zh) | 一种文本纠错的方法和装置 | |
CN110232923B (zh) | 一种语音控制指令生成方法、装置及电子设备 | |
CN107870901A (zh) | 从翻译源原文生成相似文的方法、程序、装置以及系统 | |
CN113076739A (zh) | 一种实现跨领域的中文文本纠错方法和系统 | |
CN111708878B (zh) | 一种体育文本摘要提取方法、装置、存储介质及设备 | |
CN109308353A (zh) | 词嵌入模型的训练方法及装置 | |
JP2008216341A (ja) | 誤り傾向学習音声認識装置及びコンピュータプログラム | |
CN107688630B (zh) | 一种基于语义的弱监督微博多情感词典扩充方法 | |
CN111966810B (zh) | 一种用于问答系统的问答对排序方法 | |
CN109033085B (zh) | 中文分词系统及中文文本的分词方法 | |
CN116127952A (zh) | 一种多粒度中文文本纠错方法和装置 | |
CN112329482A (zh) | 机器翻译方法、装置、电子设备和可读存储介质 | |
CN113627158A (zh) | 基于多表征和多预训练模型的中文拼写纠错方法及装置 | |
CN115034218A (zh) | 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法 | |
CN112580310A (zh) | 一种缺失字/词的补全方法及电子设备 | |
CN116306600A (zh) | 一种基于MacBert的中文文本纠错方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |