CN108874174A - 一种文本纠错方法、装置以及相关设备 - Google Patents
一种文本纠错方法、装置以及相关设备 Download PDFInfo
- Publication number
- CN108874174A CN108874174A CN201810532317.8A CN201810532317A CN108874174A CN 108874174 A CN108874174 A CN 108874174A CN 201810532317 A CN201810532317 A CN 201810532317A CN 108874174 A CN108874174 A CN 108874174A
- Authority
- CN
- China
- Prior art keywords
- target
- text
- character
- vector
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种文本纠错方法、装置以及相关设备,所述方法包括:获取目标文本,将所述目标文本中的所有字符,作为目标字符;获取与每个目标字符相关联的多个辅助数据,分别提取每个辅助数据对应的辅助特征向量,并将属于同一个目标字符的多个辅助特征向量拼接处理,得到目标特征向量;一个所述辅助数据是指所述目标字符对应的一种输入来源数据;将所有目标特征向量组合为目标特征向量序列,识别所述目标特征向量序列,得到标准文本,并根据所述标准文本对所述目标文本进行纠错处理。采用本发明,可以提高对文本的纠错准确率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本纠错方法、装置以及相关设备。
背景技术
在信息技术迅猛发展的今天,人与移动终端的交互也越来越来越频繁。现在移动终端已经能够理解自然语言,但是用户在向移动终端输入自然语言的同时不可避免地会出现输入错误,这样给移动终端理解用户的语义带来很大的障碍,所以对自然语言的输入纠错就具有非常重要的意义。
用户的输入错误主要包括拼音错误(例如,将“勤劳”输入为“琴老”)、手写错误(例如将“太阳”输入为“大阳”)等,现有方法只能根据拼音纠错,即是根据拼音和汉字的对应关系以及该汉字的上下文关系,训练纠错模型,该纠错模型可以纠正拼音相同或者拼音相似但文字不同的错误输入文本,例如,可以将“琴劳的人民”纠正为“勤劳的人民”。
但用户的输入方式是多种多样的,对那些非拼音输入的错误文本(例如,笔画错误),采用单一的拼音纠错模型就不能准确识别文本中的错误以及有效地纠正该错误,进而降低对输入文本的纠错准确率。
发明内容
本发明实施例提供一种文本纠错方法、装置以及相关设备,可以提高对文本的纠错准确率。
本发明一方面提供了一种文本纠错方法,包括:
获取目标文本,将所述目标文本中的所有字符,作为目标字符;
获取与每个目标字符相关联的多个辅助数据,分别提取每个辅助数据对应的辅助特征向量,并将属于同一个目标字符的多个辅助特征向量拼接处理,得到目标特征向量;一个所述辅助数据是指所述目标字符对应的一种输入来源数据;
将所有目标特征向量组合为目标特征向量序列,识别所述目标特征向量序列,得到标准文本,并根据所述标准文本对所述目标文本进行纠错处理。
其中,所述辅助数据包括:拼音数据、笔画数据和字形数据;
所述分别提取每个辅助数据对应的辅助特征向量,包括
基于循环神经网络对所述笔画数据进行时序处理,得到所述笔画数据对应的时序特征向量;
基于卷积神经网络对所述拼音数据进行卷积处理和池化处理,得到所述拼音数据对应的空间特征向量;
基于所述卷积神经网络对所述字形数据进行卷积处理和池化处理,得到所述字形数据对应的空间特征向量;
将所述笔画数据对应的时序特征向量、所述拼音数据对应的空间特征向量和所述字形数据对应的空间特征向量均作为所述辅助特征向量。
其中,所述将所有目标特征向量组合为目标特征向量序列,识别所述目标特征向量序列,得到标准文本,包括:
根据所述目标字符在所述目标文本中的顺序,将所述每个目标字符对应的目标特征向量组合为所述目标特征向量序列;
基于第一长短期记忆网络中的隐藏层,对所述目标特征向量序列进行双向循环编码处理,得到所述目标特征向量序列对应的正向语义向量和逆向语义向量,将所述正向语义向量和所述逆向语义向量相加,得到所述目标特征向量序列对应的目标语义向量;
基于第二长短期记忆网络中的隐藏层、所述目标特征向量序列中各目标特征向量,对所述目标语义向量解码处理,得到各目标特征向量对应的目标隐藏状态向量;
识别所有目标隐藏状态向量,得到各目标隐藏状态向量对应的标准字符,并将所述所有目标隐藏状态向量对应的标准字符组合为所述标准文本。
其中,所述识别所有目标隐藏状态向量,得到各目标隐藏状态向量对应的标准字符,并将所述所有目标隐藏状态向量对应的标准字符组合为所述标准文本,包括:
基于所述第二长短期记忆网络的输出层,识别所有目标隐藏状态向量与所述第二长短期记忆网络中多个字符特征之间的匹配概率;
将所述匹配概率大于匹配阈值的字符特征对应的字符,作为标准字符,将所有目标特征向量对应的标准字符组合为至少一个待确定文本;所述待确定文本中各标准字符对应不同的目标特征向量,且所述待确定文本中的标准字符的数量和所有目标特征向量的数量相等;
将置信度大于置信阈值所对应的待确定文本作为所述标准文本;所述待确定文本对应的置信度是通过所述待确定文本中各标准字符对应的匹配概率所计算得到的。
其中,所述将所有目标特征向量对应的标准字符组合为至少一个待确定文本,包括:
将在所述目标特征向量序列中位于首位的目标特征向量所对应的标准字符作为子文本,将与所述子文本相邻的目标特征向量对应的标准字符作为待确定标准字符,并根据所述子文本中的标准字符对应的匹配概率计算所述子文本对应的置信度;
将所述待确定标准字符和所述子文本组合为待确定子文本;所述待确定子文本包括一个待确定标准字符和一个子文本;所述子文本中各标准字符对应不同的目标特征向量;
根据所述待确定标准字符对应的匹配概率和所述子文本对应的置信度,计算所述待确定子文本对应的子置信度,并将满足集束宽度条件的子置信度作为目标置信度,将所述目标置信度对应的待确定子文本作为所述子文本,并将与位于所述子文本末尾的标准字符相邻的目标特征向量对应的标准字符作为所述待确定标准字符,将所述目标置信度作为所述子文本对应的置信度,直至当所有剩余标准字符均被确定为待确定标准字符时,将最后一次迭代得到的子文本作为所述待确定文本,将所述目标置信度作为所述待确定文本对应的置信度;所述剩余标准字符是在所述目标特征向量序列中除了位于首位的目标特征向量对应的标准字符以外的标准字符。
其中,所述根据所述标准文本对所述目标文本进行纠错处理,包括:
利用所述标准文本替换所述目标文本,并输出所述标准文本。
其中,还包括:
将纠错处理后的目标文本确定为纠错标准文本;
语义理解所述纠错标准文本,得到所述纠错标准文本对应的语义信息,根据语义知识库中的先验知识和所述语义信息,对所述纠错标准文本进行纠错处理。
本发明另一方面提供了一种文本纠错装置,包括:
获取模块,用于获取目标文本,将所述目标文本中的所有字符,作为目标字符;
所述获取模块,还用于获取与每个目标字符相关联的多个辅助数据;
提取模块,用于分别提取每个辅助数据对应的辅助特征向量;一个所述辅助数据是指所述目标字符对应的一种输入来源数据;
拼接模块,用于将属于同一个目标字符的多个辅助特征向量拼接处理,得到目标特征向量;
组合模块,用于将所有目标特征向量组合为目标特征向量序列,识别所述目标特征向量序列,得到标准文本;
纠错模块,用于并根据所述标准文本对所述目标文本进行纠错处理。
其中,所述辅助数据包括:拼音数据、笔画数据和字形数据;
所述提取模块,包括:
提取单元,用于基于循环神经网络对所述笔画数据进行时序处理,得到所述笔画数据对应的时序特征向量;
所述提取单元,还用于基于卷积神经网络对所述拼音数据进行卷积处理和池化处理,得到所述拼音数据对应的空间特征向量;
所述提取单元,还用于基于所述卷积神经网络对所述字形数据进行卷积处理和池化处理,得到所述字形数据对应的空间特征向量;
确定单元,用于将所述笔画数据对应的时序特征向量、所述拼音数据对应的空间特征向量和所述字形数据对应的空间特征向量均作为所述辅助特征向量。
其中,所述组合模块,包括:
组合单元,用于根据所述目标字符在所述目标文本中的顺序,将所述每个目标字符对应的目标特征向量组合为所述目标特征向量序列;
编码单元,用于基于第一长短期记忆网络中的隐藏层,对所述目标特征向量序列进行双向循环编码处理,得到所述目标特征向量序列对应的正向语义向量和逆向语义向量,将所述正向语义向量和所述逆向语义向量相加,得到所述目标特征向量序列对应的目标语义向量;
解码单元,用于基于第二长短期记忆网络中的隐藏层、所述目标特征向量序列中各目标特征向量,对所述目标语义向量解码处理,得到各目标特征向量对应的目标隐藏状态向量;
识别单元,用于识别所有目标隐藏状态向量,得到各目标隐藏状态向量对应的标准字符,并将所述所有目标隐藏状态向量对应的标准字符组合为所述标准文本。
其中,所述识别单元,包括:
识别子单元,用于基于所述第二长短期记忆网络的输出层,识别所有目标隐藏状态向量与所述第二长短期记忆网络中多个字符特征之间的匹配概率;
所述识别子单元,还用于将所述匹配概率大于匹配阈值的字符特征对应的字符,作为标准字符;
组合子单元,用于将所有目标特征向量对应的标准字符组合为至少一个待确定文本;所述待确定文本中各标准字符对应不同的目标特征向量,且所述待确定文本中的标准字符的数量和所有目标特征向量的数量相等;
所述识别子单元,还用于将置信度大于置信阈值所对应的待确定文本作为所述标准文本;所述待确定文本对应的置信度是通过所述待确定文本中各标准字符对应的匹配概率所计算得到的。
其中,所述组合子单元,包括:
确定子单元,用于将在所述目标特征向量序列中位于首位的目标特征向量所对应的标准字符作为子文本,将与所述子文本相邻的目标特征向量对应的标准字符作为待确定标准字符,并根据所述子文本中的标准字符对应的匹配概率计算所述子文本对应的置信度;
所述确定子单元,还用于将所述待确定标准字符和所述子文本组合为待确定子文本;所述待确定子文本包括一个待确定标准字符和一个子文本;所述子文本中各标准字符对应不同的目标特征向量;
计算子单元,用于根据所述待确定标准字符对应的匹配概率和所述子文本对应的置信度,计算所述待确定子文本对应的子置信度,并将满足集束宽度条件的子置信度作为目标置信度,将所述目标置信度对应的待确定子文本作为所述子文本,并将与位于所述子文本末尾的标准字符相邻的目标特征向量对应的标准字符作为所述待确定标准字符,将所述目标置信度作为所述子文本对应的置信度,直至当所有剩余标准字符均被确定为待确定标准字符时,将最后一次迭代得到的子文本作为所述待确定文本,将所述目标置信度作为所述待确定文本对应的置信度;所述剩余标准字符是在所述目标特征向量序列中除了位于首位的目标特征向量对应的标准字符以外的标准字符。
其中,所述纠错模块,具体用于:利用所述标准文本替换所述目标文本,并输出所述标准文本。
其中,还包括:
确定模块,用于将纠错处理后的目标文本确定为纠错标准文本;
所述纠错模块,还用于语义理解所述纠错标准文本,得到所述纠错标准文本对应的语义信息,根据语义知识库中的先验知识和所述语义信息,对所述纠错标准文本进行纠错处理
本发明另一方面提供了一种电子设备,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如本发明实施例中一方面中的方法。
本发明另一方面提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如本发明实施例中一方面中的方法。
本发明实施例通过获取目标文本,将所述目标文本中的所有字符,作为目标字符;获取与每个目标字符相关联的多个辅助数据,分别提取每个辅助数据对应的辅助特征向量,并将属于同一个目标字符的多个辅助特征向量拼接处理,得到目标特征向量;将所有目标特征向量组合为目标特征向量序列,识别所述目标特征向量序列,得到标准文本,并根据所述标准文本对所述目标文本进行纠错处理。上述可知,每个目标字符的目标特征向量是由多种输入来源数据的特征信息组合而来的,也就是每个目标特征向量涵盖了多种输入特征,识别该目标特征向量就可以对各种不同输入方式的错误文本进行纠错。相比因为识别单一类型的特征信息导致纠错正确率低下,由多个特征信息组合而来的目标特征向量可以更能全面、更准确地表征目标字符的特征,进而能够准确纠正目标字符中的错误字符,提高对文本的纠错准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a-图1d是本发明实施例提供的一种文本纠错方法的场景示意图;
图2a是本发明实施例提供的一种文本纠错方法的流程示意图;
图2b是本发明实施例提供的一种提取辅助特征向量的场景示意图;
图2c是本发明实施例提供的另一种提取辅助特征向量的场景示意图;
图3a是本发明实施例提供的另一种文本纠错方法的流程示意图;
图3b是本发明实施例提供的另一种文本纠错方法的场景示意图;
图4是本发明实施例提供的一种文本纠错装置的结构示意图;
图5是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1a—图1d,是本发明实施例提供的一种文本纠错方法的场景示意图。如图1a所示,用户在移动终端的搜索页面10a中输入“北京天安们”,其中输入文本“北京天安们”中包括错误字符“们”,而用户实际的需求是在搜索页面中搜索“北京天安门”。为了验证用户输入的文本中是否存在错误字符,若存在错误字符则对该字符进行纠错,将输入文本“北京天安们”中的每个汉字进行拆分,将拆分后的每个汉字作为目标汉字,输入文本可以对应5个目标汉字分别为“北”、“京”、“天”、“安”、“们”。如图1b所示,首先对第一个目标汉字“北”进行处理,具体过程是:获取目标汉字“北”的拼音数据“Bei”、目标汉字“北”的笔画数据“丨一丿乚丿”、目标汉字“北”的图片点阵数据,基于训练好的神经网络(可以是卷积神经网络也可以是循环神经网络),提取拼音数据“Bei”的特征向量、笔画数据“丨一丿乚丿”的特征向量、图片点阵数据的特征向量,将上述输入来源不同的特征向量拼接为一个特征向量,作为目标汉字“北”的目标特征向量10b。采用相同方式,可以得到目标汉字“京”目标特征向量、目标汉字“天”目标特征向量、目标汉字“安”目标特征向量、目标汉字“们”目标特征向量10c。
如图1c所示,将t1时刻对应的目标汉字“北”的目标特征向量输入训练好的编码长短期记忆网络模型中,得到t1时刻的隐藏状态h1;将上一时刻的隐藏状态h1以及t2时刻对应的目标汉字“京”的目标特征也输入上述编码长短期记忆网络模型中,得到t2时刻的隐藏状态h2;将上一时刻的隐藏状态h2以及t3时刻对应的目标汉字“天”的目标特征输入上述编码长短期记忆网络模型中,得到t3时刻的隐藏状态h3;将上一时刻的隐藏状态h3以及t4时刻对应的目标汉字“安”的目标特征输入上述编码长短期记忆网络模型中,得到t4时刻的隐藏状态h4;将t4时刻的隐藏状态h4以及t5时刻对应的目标汉字“们”的目标特征输入上述编码长短期记忆网络模型中,得到t5时刻的隐藏状态h5。由于每个时刻的隐藏状态是不断往后传递的,因此可以直接将最后得到的隐藏状态,即是隐藏状态h5就作为整个输入文本“北京天安们”的编码向量。也可以将前述中的所有隐藏状态h1、h2、h3、h4和h5相加得到整个输入文本“北京天安们”的编码向量。上述可知,编码长短期记忆网络模型可以将整体输入文本进行编码,得到输入文本的编码向量,该编码向量包含整个输入文本的语义信息以及上下文时序关系。得到编码向量后,对该编码向量进行解码处理,解码处理是基于解码长短期记忆网络模型,其中编码长短期记忆网络模型和解码长短期记忆网络模型都是基于长短期记忆网络(Long Short-Term Memory,LSTM)训练而来的,一个用于编码一个用于解码,当然编码长短期记忆网络模型和解码长短期记忆网络模型也可以是基于循环神经网络(Recurrent Neural Networks,RNN)训练而来的,或者两个模型一个是由长短期记忆网络训练而来,一个是由循环神经网络训练而来。解码过程与编码过程是两个完全相反的过程,编码完成得到编码向量后,将编码向量输入解码长短期记忆网络模型中,同时还输入目标汉字“北”的目标特征向量,对目标汉字“北”解码,得到隐藏状态h6;将隐藏状态h6和目标汉字“京”的目标特征向量输入解码长短期记忆网络模型中,对目标汉字“京”解码,得到隐藏状态h7;将隐藏状态h7和目标汉字“天”的目标特征向量输入解码长短期记忆网络模型中,对目标汉字“天”解码,得到隐藏状态h8;将隐藏状态h8和目标汉字“天”的目标特征向量输入解码长短期记忆网络模型中,对目标汉字“天”解码,得到隐藏状态h9;将隐藏状态h9和目标汉字“们”的目标特征向量输入解码长短期记忆网络模型中,对目标汉字“们”解码,得到隐藏状态h10。基于解码长短期记忆网络模型中的输出层,该输出层即是一个分类器,分别计算隐藏状态h6、隐藏状态h7、隐藏状态h8、隐藏状态h9、隐藏状态h10对分类器中各类别的概率分布,即是计算隐藏状态和分类器中各字符特征之间匹配概率,匹配概率越高说明对应的目标特征向量与该字符特征越匹配,也说明对应的目标汉字与该字符特征对应的字符越匹配。将分类器中匹配概率最大的字符特征对应的汉字,作为该目标汉字的纠错汉字。也就是识别出与隐藏状态h6最匹配的纠错汉字是“北”、与隐藏状态h7最匹配的纠错汉字是“京”、与隐藏状态h8最匹配的纠错汉字是“天”、与隐藏状态h9最匹配的纠错汉字是“安”、与隐藏状态h10最匹配的纠错汉字是“门”,将所有纠错后的汉字组合为纠错文本“北京天安门”。当然为了适应多种场景,分类器对每个隐藏状态进行识别的时候,不是提取具有最大匹配概率的字符特征对应的汉字作为纠错汉字,而是提取多个字符特征对应的汉字作为纠错汉字(即是提取多个汉字作为纠错汉字)。如图1d所示,根据纠错文本“北京天安门”进行搜索,并在移动终端的界面10d中展示关于纠错文本“北京天安门”的搜索结果,包括:“北京天安门”图片、“北京天安门”地图、“北京天安门”旅游等,并在界面10d中显示提示消息“以下为您显示‘北京天安门’的搜索结果。仍然搜索‘北京天安们’”,用于提示用户对用户原始输入的输入文本进行了纠错处理,且显示的搜索结果是关于纠错后的纠错文本的搜索结果。
通过将每个汉字的多个特征向量组合为该汉字的目标特征向量,该目标特征向量可以全方位、多维度地表征每个汉字的特征;识别该目标特征向量,就可以对由于不同输入方式导致的错误文本进行纠正,提高文本的纠错准确率。
其中,计算每个汉字的目标特征向量、对输入文本的纠错处理的具体过程可以参见以下图2a至图3b所对应的实施例。
进一步地,请参见图2a,是本发明实施例提供的一种文本纠错方法的流程示意图。如图2a所示,所述文本纠错方法可以包括:
步骤S101,获取目标文本,将所述目标文本中的所有字符,作为目标字符。
具体的,获取待纠错的文本,作为目标文本(如图1a所对应实施例中的文本“北京天安们”即是目标文本),目标文本中的字符可以是多种语言的字符(例如字符可以是中文汉字、英语字母、拉丁文字母等),将目标文本中的所有字符进行拆分,得到的单个字符称之为目标字符,若目标文本中包括中文汉字,那么一个汉字就是一个目标字符(如图1a所对应实施例中的目标汉字“北”、“京”、“天”、“安”、“们”);若目标文本中包括英语单词,则一个英文字母是一个目标字符。举例来说,若获取的目标文本为“hello”,那么该目标文本中的每个字母就是目标字符,即是“h”、“e”、“l”、“l”、“o”均为目标字符。
步骤S102,获取与每个目标字符相关联的多个辅助数据,分别提取每个辅助数据对应的辅助特征向量,并将属于同一个目标字符的多个辅助特征向量拼接处理,得到目标特征向量。
具体的,分别获取每个目标字符的多个辅助数据,其中目标字符的一种输入来源数据就对应一个辅助数据,一个目标字符的多个辅助数据就是一个目标字符的多种输入来源数据。若目标字符是中文汉字,那么辅助数据可以包括:拼音数据、笔画数据、字形数据、音素序列等;若目标字符是字母,那么辅助数据可以包括:音标数据、字形数据等。辅助数据包括的种类越多,那么后续得到的目标字符的目标特征向量就越全面,纠错结果就越准确,这是移动终端并不知道目标文本的输入方式是什么,而获取多种辅助数据就是为了把可能的输入方式都考虑进来,能够提高对文本纠错的准确率。获取每个目标字符的多个辅助数据后,基于神经网络提取每个辅助数据的特征向量,作为辅助特征向量,一个目标字符对应辅助数据的数量与对应的辅助特征向量的数量是相等的。此处基于神经网络对辅助数据提取辅助特征向量,也可以将提取辅助特征向量的过程作为是一个自编码过程,即是用另外一种数据表现方式来表达原始数据,称之为对原始数据的编码。神经网络可以包括卷积神网络(Convolutional Neural Network,CNN)和循环神经网络,提取辅助数据的辅助特征向量时,可以是基于CNN提取的辅助特征向量也可以是基于RNN提取的辅助特征向量。为了充分利用卷积神经网络在空间维度上的优势和循环神经网络在时间维度上的优势,当辅助数据包括拼音数据、笔画数据和字形数据时,可以基于循环神经网络对笔画数据进行时序处理,得到笔画数据对应的时序特征向量,并将得到的时序特征向量作为辅助特征向量;可以基于卷积神经网络对拼音数据进行卷积处理和池化处理,得到拼音数据对应的空间特征向量,并将得到的空间特征向量作为辅助特征向量;可以基于卷积神经网络对字形数据进行卷积处理和池化处理,得到字形数据对应的空间特征向量,并将得到的空间特征向量作为辅助特征向量。获取所有目标字符的多个辅助特征向量后,将属于同一个目标字符的多个辅助特征向量拼接为一个特征向量,拼接后的特征向量称为目标特征向量(如图1b所对应实施例中的目标向量10b或目标向量10c),获取一个目标特征向量的过程可以简化为:1个目标字符对应N个辅助数据、N个辅助特征向量、1个目标特征向量,N是大于数值1的整数。举例来说,目标字符A对应的辅助数据为辅助数据A1、辅助数据A2,与辅助数据A1对应的辅助特征向量为B1、与辅助数据A2对应的辅助特征向量为B2,将上述两个辅助特征向量拼接(即是将助特征向量B1和助特征向量B2进行拼接),得到目标特征向量C,因此与目标字符A对应的目标特征向量即是目标特征向量C。
下面以卷积神经网络提取一个拼音数据(辅助数据)的空间特征向量为例,若有多个拼音数据,可以采用相同的方法基于神经网络提取多个拼音数据的空间特征向量。基于卷积神经网络中的卷积层执行卷积处理,即随机选取拼音数据中的一小部分特征向量作为样本(卷积核),将这个样本作为一个窗口依次滑过所有的拼音数据,也就是上述样本和拼音数据做卷积运算,从而获得拼音数据中的空间特征向量。卷积运算后,提取了拼音数据的空间特征向量,但上述空间特征向量的数量庞大,为了减少后续计算量,基于卷积神经网络中的池化层执行池化处理(Pooling),即是对上述空间特征向量进行聚合统计,聚合统计后的空间特征向量的数量要远远低于卷积运算提取的空间特征向量的数量,同时还会提高后续分类效果。常用的池化方法主要包括平均池化运算方法和最大池化运算方法。平均池化运算方法是在一个特征向量集合里计算出一个平均特征向量,用于代表该特征向量集合的特征;最大池化运算是在一个特征向量集合里提取出最大特征向量,用于代表该特征向量集合的特征。通过多层的卷积处理和多层的池化处理,将最后池化处理得到的特征向量确定为该拼音数据的空间特征向量。若有多个辅助数据,都可以采用上述方式,基于卷积神经网络提取每个辅助数据对应的空间特征向量,且上述卷积神经网络是提前训练好的。
下面以卷积神经网络提取一个字形数据(辅助数据)的空间特征向量为例,若有多个字形数据(辅助数据),可以采用相同的方法基于神经网络提取多个字形数据的空间特征向量。基于卷积神经网络中的卷积层执行卷积处理,即随机选取字形数据中的一小部分特征向量作为样本(卷积核),将这个样本作为一个窗口依次滑过所有的字形数据,也就是上述样本和字形数据做卷积运算,从而获得字形数据中的空间特征向量。卷积运算后,提取了字形数据的空间特征向量,但上述空间特征向量的数量庞大,为了减少后续计算量,基于卷积神经网络中的池化层执行池化处理,即是对上述空间特征向量进行聚合统计,聚合统计后的空间特征向量的数量要远远低于卷积运算提取的空间特征向量的数量,同时还会提高后续分类效果。通过多层的卷积处理和多层的池化处理,将最后池化处理得到的特征向量确定为该字形数据的空间特征向量。
请参见图2b,是本发明实施例提供的一种提取辅助特征向量的场景示意图。输入一个32*32大小的汉字点阵图片,选择20个5*5的滑动窗口,步长为1,即是20个卷积核,每个卷积核的大小为5*5,一个卷积核可以提取原始的汉字点阵图片的一种特征。一个卷积核的卷积运算完成后,可以生成一个特征图像,该特征图像的大小为28*28,由于有20个卷积核,因此可以生成20张28*28的特征图像。然后进行池化处理,将2个特征向量合并为一个特征向量,可以得到池化后的20张14*14的特征图像。再次进行卷积处理,选择50个5*5*20的滑动窗口,步长仍为1,一个卷积核的卷积运算完成后,可以生成一个特征图像,该特征图像的大小为10*10,由于有50个卷积核,因此可以生成50张10*10的特征图像。然后再进行池化处理,将2个特征向量合并为一个特征向量,可以得到池化后的50张5*5的特征图像。最后将50张5*5的特征图像全连接,拉成一个列向量,可以得到1*500的特征向量20a,该特征向量即是32*32的汉字点阵图片对应的空间特征向量。
下面以循环神经网络提取一个笔画数据(辅助数据)的时序特征向量为例,若有多个笔画数据(辅助数据),可以采用相同的方法基于循环神经网络提取多个笔画数据的时序特征向量。初始化循环神经网络中的初始隐藏状态向量h0,按照书写目标字符的笔画顺序依次输入笔画数据(按照书写笔画顺序将第一笔画的笔画数据称为第一笔画数据、第二笔画的笔画数据称为第二笔画数据,以此类推),即是首先将初始隐藏状态向量h0与第一笔画数据输入循环神经网络中,采用公式(1)计算下一时刻的隐藏状态向量h1
ht=f(Uxt-1+Wht-1+b) (1)
其中,参数U、W和b是固定常量,参数U是输入层和隐藏层之间的权重矩阵;参数W是两轮迭代之间的权重矩阵;参数b是一个偏移常量;整个循环神经网络中参数是共享的,即是在计算每一个时刻的隐藏状态向量时,上述参数都不变。从公式(1)可以看出,当前时刻的隐藏状态向量ht是由当前时刻的输入xt和上一个时刻的隐藏状态向量ht-1共同决定的。因此,将计算出来的隐藏状态向量h1和第二笔画数据输入循环神经网中,再次跟进公式(1)计算下一时刻的隐藏状态向量h2,再将计算出来的隐藏状态向量h2和第三笔画数据输入循环神经网中,再次根据公式(1)计算下一时刻的隐藏状态向量h3。不断重复上述过程,直到所有的笔画数据都输入至循环神经网络中,将最后一次计算出来的隐藏状态向量hn,作为该目标字符对应的笔画数据的时序特征向量,当然也可以将前面所有的隐藏状态向量h1、h2、...、hn相加,得到的结果作为该目标字符对应的笔画数据的时序特征向量。若有多个辅助数据,都可以采用上述方式,基于循环神经网络提取每个辅助数据对应的时序特征向量,且上述循环神经网络是提前训练好的。
请一并参见图2c,是本发明实施例提供的另一种提取辅助特征向量的场景示意图。目标字符“大”按照笔画书写顺序,可以包括第一笔画横的笔画数据、第二笔画撇的笔画数据和第三笔画捺的笔画数据。首先将第一笔画横的笔画数据和初始隐藏状态向量H0输入循环神经网络模型中,根据公式(1)得到隐藏状态向量H1;将隐藏状态向量H1和第二笔画撇的笔画数据输入循环神经网络模型中,根据公式(1)得到隐藏状态向量H2;将隐藏状态向量H2和第三笔画捺的笔画数据输入循环神经网络模型中,根据公式(1)得到隐藏状态向量H3。将循环神经网络模型最后输出的隐藏状态向量H3作为目标字符“大”的时序特征向量20b。
步骤S103,将所有目标特征向量组合为目标特征向量序列,识别所述目标特征向量序列,得到标准文本,并根据所述标准文本对所述目标文本进行纠错处理。
具体的,获取每个目标字符对应的目标特征向量后,按照目标字符在目标文本中的顺序,将每个目标字符对应的目标特征向量组合为目标特征向量序列。对目标特征向量序列进行编码处理和解码处理,执行编码处理的长短期记忆网络称为第一长短期记忆网络,执行编码处理的长短期记忆网络称为第二长短期记忆网络,第一长短期记忆网络和第二长短期记忆网络的结构相同(都包括输入层、隐藏层和输出层),但网络中的参数不同。将目标特征向量序列输入第一长短期记忆网络中的输入层,读入目标特征向量序列;基于第一长短期记忆网络中的隐藏层,对上述目标特征向量序列进行双向循环编码处理,正向循环编码处理得到的向量称为正向语义向量,逆向循环编码处理得到的向量称为逆向语义向量。将上述正向语义向量和逆向语义向量相加,得到的结果向量称为目标语义向量。该目标语义向量就包括了目标文本的语义信息、上下文时序信息等,得到了目标语义向量即是完成了对目标特征向量序列的编码处理。然后将目标语义向量进行解码处理,将目标语义向量和目标特征向量序列输入第二长短期记忆网络中的输入层,读入目标语义向量,基于第二长短期记忆网络中的隐藏层,对目标语义向量解码处理,得到各目标特征向量对应的目标隐藏状态向量,即是整个目标文本中目标字符的数量等于所有目标特征向量的数量也等于目标隐藏状态向量的数量。基于第二长短期记忆网络的输出层,该输出层即是一个分类器,识别所有目标隐藏状态向量,得到各目标隐藏状态向量对应的标准字符,并将按照目标特征向量在目标特征向量序列中的顺序,将所有的标准字符组合为文本,称为标准文本,上述标准文本即是纠错后的文本。得到纠错后的标准文本后,将标准文本覆盖原始的目标文本,并输出标准文本,后续可以根据标准文本执行对应的操作,例如,根据标准文本执行搜索操作,或者直接显示标准文本。
可选的,若目标文本涉及的领域具有明确的先验知识和专家知识,可以进一步地对纠错后的目标文本再次进行纠错处理。将纠错处理后的目标文本确定为纠错标准文本,语义理解该纠错标准文本,得到纠错标准文本对应的语义信息。在语义知识库中查询与上述语义信息相关的先验知识,根据该先验知识对对纠错标准文本进行纠错处理。例如,目标文本为“上海东方民祝”,对上述目标文本纠错后得到标准文本为“上海东方民珠”,将标准文本“上海东方民珠”确定为纠错标准文本,语义理解该纠错标准文本,在语义知识库中查询到关于城市“上海”的历史信息、地理信息、著名景点等先验知识,根据查询到的先验知识对纠错标准文本再次纠错处理,得到文本“上海东方明珠”。
本发明实施例通过获取目标文本,将所述目标文本中的所有字符,作为目标字符;获取与每个目标字符相关联的多个辅助数据,分别提取每个辅助数据对应的辅助特征向量,并将属于同一个目标字符的多个辅助特征向量拼接处理,得到目标特征向量;将所有目标特征向量组合为目标特征向量序列,识别所述目标特征向量序列,得到标准文本,并根据所述标准文本对所述目标文本进行纠错处理。上述可知,每个目标字符的目标特征向量是由多种输入来源数据的特征信息组合而来的,也就是每个目标特征向量涵盖了多种输入特征,识别该目标特征向量可以对各种不同输入方式的输入文本进行纠错。相比因为识别单一类型的特征信息导致纠错率低下,由多个特征信息组合而来的目标特征向量可以更能全面、更准确地表征目标字符的特征,进而准确纠正目标字符中的错误字符,提高对文本的纠错准确率。
请参见图3a,是本发明实施例提供的另一种文本纠错方法的流程示意图。文本纠错方法包括:
步骤S201,获取目标文本,将所述目标文本中的所有字符,作为目标字符。
步骤S202,获取与每个目标字符相关联的多个辅助数据,分别提取每个辅助数据对应的辅助特征向量,并将属于同一个目标字符的多个辅助特征向量拼接处理,得到目标特征向量。
其中,步骤S201-步骤S202的具体实现方式可以参见上述图2a所对应实施例中的步骤S101-步骤S102,此处不再赘述。
步骤S203,根据所述目标字符在所述目标文本中的顺序,将所述每个目标字符对应的目标特征向量组合为所述目标特征向量序列。
具体的,按照目标字符在目标文本中的顺序,将每个目标字符对应的目标特征向量组合为序列,称为目标特征向量序列。举例来说,目标文本为“万里长城”,目标字符“万”对应的目标特征向量为A1、目标字符“里”对应的目标特征向量为A2、目标字符“长”对应的目标特征向量为A3、目标字符“城”对应的目标特征向量为A4,将上述4个目标特征向量组合起来,得到目标特征向量序列:A1A2A3A4。
步骤S204,基于第一长短期记忆网络中的隐藏层,对所述目标特征向量序列进行双向循环编码处理,得到所述目标特征向量序列对应的正向语义向量和逆向语义向量,将所述正向语义向量和所述逆向语义向量相加,得到所述目标特征向量序列对应的目标语义向量。
具体的,对目标特征向量序列进行编码处理和解码处理,执行编码处理的长短期记忆网络称为第一长短期记忆网络,执行编码处理的长短期记忆网络称为第二长短期记忆网络,第一长短期记忆网络和第二长短期记忆网络的结构相同(都包括输入层、隐藏层和输出层),但网络中的参数不同(参数包括隐藏层之间的权重矩阵U;两轮迭代之间的权重矩阵W;偏移常量b)。首先对目标特征向量正向循环编码处理,在t11时刻,将目标特征向量序列中位于首位的目标特征向量x1输入第一长短期记忆网络的输入层,将初始化的隐藏状态向量h10输入第一长短期记忆网络中的隐藏层,根据公式(2)计算t11时刻的隐藏状态向量h11,
其中,σ(·)是σ函数,i,f,o分别表示输入门、遗忘门、输出门。所有的W表示两门之间的权重矩阵。在编码过程中,整个长短期记忆网络中的参数是共享的,即是在计算每一个时刻的隐藏状态向量时,上述参数都不变。在遗忘门中,处理器计算需要从上一刻的隐藏状态向量中去除的信息;然后在输入门中,处理器计算出在当前时刻的隐藏状态向量中需要存储的信息;最后在输出门中,更新隐藏状态向量,也就是处理器将上一刻的隐藏状态向量乘以需要去除的信息,然后再加上需要存储的信息,就得到当前时刻的隐藏状态向量。
在t12时刻,将目标特征向量序列中位于第二位的目标特征向量x2输入第一长短期记忆网络的输入层,将t11时刻的隐藏状态向量h11输入第一长短期记忆网络中的隐藏层,根据公式(2)计算t12时刻的隐藏状态向量h12;在t13时刻,将目标特征向量序列中位于第三位的目标特征向量x3输入第一长短期记忆网络的输入层,将t12时刻的隐藏状态向量h12输入第一长短期记忆网络中的隐藏层,根据公式(2)计算t13时刻的隐藏状态向量h13。换句话说,t时刻的隐藏状态向量ht是由t-1时刻的隐藏状态向量ht-1和t时刻的输入xt决定的,不断地迭代,直至最后一次迭代得到隐藏状态向量h1n,将隐藏状态向量h1n作为正向语义向量,也可以将中间过程中得到的隐藏状态向量h11、h12...、h1n相加,得到正向语义向量。
然后对目标特征向量逆向循环编码处理,在t21时刻,将目标特征向量序列中位于末位的目标特征向量xn输入第一长短期记忆网络的输入层,将初始化的隐藏状态向量h20输入第一长短期记忆网络中的隐藏层,根据公式(2)计算t21时刻的隐藏状态向量h21;在t22时刻,将目标特征向量序列中位于倒数第二位的目标特征向量xn-1输入第一长短期记忆网络的输入层,将t21时刻的隐藏状态向量h21输入第一长短期记忆网络中的隐藏层,根据公式(2)计算t22时刻的隐藏状态向量h22。和正向循环编码相同,t时刻的隐藏状态向量ht是由t-1时刻的隐藏状态向量ht-1和t时刻的输入x(n+1-t)决定的,不断地迭代,直至最后一次得到的隐藏状态向量h2n作为逆向语义向量,也可以将中间过程中得到的h21、h22、..、h2n相加,得到逆向语义向量。上述是根据LSTM计算每个目标特征向量对应的隐藏状态向量,也可以采用RNN计算每个目标特征向量对应的隐藏状态向量。正向循环编码处理和逆向循环编码处理的过程除了输入目标特征向量的顺序不同(正向循环编码是从前往后输入,逆向循环编码是从后往前输入),其余的过程都相同,这是为了保证即使目标文本中包含的目标字符非常多,目标字符的语义信息和时序信息也不会随着序列而消减。
得到正向语义向量和逆向语义向量后,直接将正向语义向量和逆向语义向量进行相加,得到的向量称为目标语义向量,得到目标语义向量表示对目标文本编码完成。一个目标特征向量对应一个目标语义向量,该目标语义向量中包含了目标文本隐藏的上下文时序信息。
步骤S205,基于第二长短期记忆网络中的隐藏层、所述目标特征向量序列中各目标特征向量,对所述目标语义向量解码处理,得到各目标特征向量对应的目标隐藏状态向量。
具体的,得到目标特征向量序列对应的目标语义向量后,对目标语义向量进行解码处理,解码处理就是编码处理的逆向过程。在t31时刻,将目标语义向量作为初始隐藏状态h30输入第二长短期记忆网络中的隐藏层,以及将位于目标特征向量序列首位的目标特征向量x1输入第二长短期记忆网络中的输入层,根据公式(2)计算t31时刻的隐藏状态向量h31,该隐藏状态向量h31就是对目标特征向量序列中第一个目标特征向量解码后的向量,也可以认为是对目标文本中第一个目标字符解码后的向量表示;在t32时刻,将上一时刻(即是t31时刻)初始隐藏状态h31输入第二长短期记忆网络中的隐藏层,以及将位于目标特征向量序列第二位的目标特征向量x2输入第一长短期记忆网络中的输入层,根据公式(2)计算t32时刻的隐藏状态向量h32,该隐藏状态向量是对目标文本中第二个目标字符解码后的向量表示。和正向循环编码、逆向循环编码相同,t时刻的隐藏状态向量ht是由t-1时刻的隐藏状态向量ht-1和t时刻的输入xt决定的,不断地迭代,直至最后一次得到的隐藏状态向量h3n。将中间过程得到的隐藏状态向量:h31、h32、h33、...、h3n,根据公式(3)分别作线性变换,可以得到每个目标特征向量对应的目标隐藏状态向量yt。
yt=f(Vht+c) (3)
其中,V是第二长短期记忆网络中隐藏层和输出层之间权重矩阵,c是一个偏移向量。解码过程中,整个第二长短期记忆网络中参数也是共享的,即是在计算每一个时刻的目标隐藏状态向量时,上述参数都不变。当然也可以每计算得到一个隐藏状态向量ht后,就对隐藏状态向量ht作线性变换,得到每个目标特向量xt对应的目标隐藏状态向量yt。换句话说位于目标特征向量序列首位的目标特征向量x1对应的目标隐藏状态向量为y1、位于目标特征向量序列第二位的目标特征向量x2对应的目标隐藏状态向量为y2、...、位于目标特征向量序列末位的目标特征向量xn对应的目标隐藏状态向量为yn。每个目标特征向量对应的目标隐藏状态向量即是目标字符的解码向量。
步骤S206,识别所有目标隐藏状态向量,得到各目标隐藏状态向量对应的标准字符,并将所述所有目标隐藏状态向量对应的标准字符组合为所述标准文本,并根据所述标准文本对所述目标文本进行纠错处理。
具体的,第二长短期记忆网络的输出层是一个分类器(分类函数),可以计算每个目标隐藏状态向量的概率分布,换句话说,就是计算每个目标隐藏状态向量与分类器中各个字符特征的匹配概率,当然匹配概率越大,说明目标隐藏状态向量与字符特征对应的字符就越匹配,也说明目标隐藏状态向量对应的目标字符与字符特征对应的字符就越匹配。分别将匹配概率大于预设的匹配阈值的字符特征对应的字符,作为标准字符。按照目标特征向量在目标特征向量序列中的顺序,将目标特征向量对应的标准字符组合为文本,称为待确定文本。待确定文本的数量可能是一个也可能是多个,每个待确定文本中标准字符都对应的不同的目标特征向量,换句换说即使同一个目标特征向量对应多个标准字符,但构建待确定文本时每一个目标特征向量只对应一个标准字符用于组合成待确定文本。同时,待确定文本中的标准字符的数量与所有的目标特征向量的数量相等,换句话说在构建待确定文本时,每个目标特征向量只对应一个标准字符,且每个目标特征向量都要对应的一个标准字符。根据待确定文本中各标准字符对应的匹配概率,计算待确定文本的置信度,将置信度大于预设的置信阈值所对应的待确定文本作为标准文本,其中计算方式可以是将待确定文本中所有标准字符的匹配概率之和作为待确定文本的置信度,计算方式也可以是将待确定文本中所有标准字符的匹配概率之积作为待确定文本的置信度。得到纠错后的标准文本后,将标准文本覆盖原始的目标文本,并输出标准文本,后续可以根据标准文本执行对应的操作,例如,根据标准文本执行搜索操作,或者直接显示标准文本。
可选的,若每个目标特征向量对应多个标准字符,那么待确定文本的数量就会呈指数级增长,例如,第一个目标特征向量对应2个标准字符,第二个目标特征向量对应4个标准字符,第三个目标特征向量对应的3个标准字符,那么一共就可以组合为2*4*3=24个待确定文本。若待确定文本的数量太多,就要消耗大量的存储空间用于存储待确定文本,以及耗费计算资源计算每个待确定文本的置信度。为了解决上述情况,可以在创建待确定文本过程中,可以将那些质量较低的组合文本(组合文本是生成待确定文本过程中的中间文本),直接放弃,不必生成待确定文本,当然也不必计算对应的置信度(上述过程是beamsearch,集束搜索的过程),可以将这个过程看做是贪心算法的过程,整个过程是在相对局部寻找最优解,作为全局最优解。首先将目标特征向量序列中位于首位的目标特征向量对应的标准字符作为子文本(子文本的数量可能是一个也可能是多个),将与子文本相邻的目标特征向量对应的标准字符作为待确定标准字符(待确定标准字符的数量也可能是一个也可能是多个),根据子文本中标准字符对应的匹配概率确定该子文本对应的置信度,由于此处子文本中只包括一个标准字符,因此直接将第一个标准字符的匹配概率作为子文本对应的置信度。将待确定标准字符和子文本组合为待确定子文本,一个待确定子文本中只包括一个待确定标准字符和一个子文本,此处,待确定子文本的数量就等于待确定标准字符数量和子文本数量之积。对每个待确定子文本来说,根据待确定子文本中的子文本对应的置信度和待确定标准字符对应的匹配概率,计算该待确定子文本对应的子置信度。在多个待确定子文本中,选择满足集束宽度条件的子置信度作为目标置信度,即是按照降序对所有子置信度进行排序,排序靠前的子置信度就是目标置信度,目标置信度的数量和集束宽度条件中集束阈值相等,例如,集束阈值为2,选择排序后的前2个子置信度作为目标置信度,或者说是最大的两个子置信度作为目标置信度。将目标置信度对应的待确定子文本作为子文本,并将与位于子文本末尾的标准字符相邻的特征向量对应的标准字符再次作为待确定标准字符,将目标置信度作为对应子文本的置信度。再次将子文本和待确定标准字符组合为待确定子文本,再次计算待确定子文本的子置信度,再次选择目标置信度,再次将目标置信度对应的待确定子文本作为子文本,不断循环,直到当所有剩余标准字符均被确定为待确定标准字符时,将最后一次迭代得到的子文本作为待确定文本,将目标置信度作为对应待确定文本的置信度,剩余标准字符是在目标特征向量序列中除了位于首位的目标特征向量对应的标准字符以外的标准字符,即位于第二位的标准字符、第三位的标准字符一直到位于最后一位的标准字符都是剩余标准字符。采用贪心算法思想,可以保证构建待确定文字过程中,中间文本的数量保持不变,且待确定文本的数量在控制范围内,不必耗费多余的存储空间用于存储大量的待确定文本。
举例来说,与位于目标特征向量序列首位的目标特征向量对应的标准字符为A1、A2;与位于目标特征向量序列第二位的目标特征向量对应的标准字符为B1、B2、B3;与位于目标特征向量序列第三位的目标特征向量对应的标准字符为C1、C2、C3。首先将A1B1、A1B2、A1B3、A2B1、A2B2、A2B3分别组合为待确定子文本。对待确定子文本A1B1来说,根据A1和B1的匹配概率之和或者A1和B1的匹配概率之积,计算A1B1的置信度;采用同样方式分别计算待确定子文本A1B2、A1B3、A2B1、A2B2、A2B3的置信度,将置信度最大的2个待确定子文本(待确定子文本A1B1和待确定子文本A2B3)作为子文本。再将C1、C2、C3分别作为待确定标准字符,将上述2个子文本和待确定标准字符组合,得到待确定子文本:A1B1C1、A1B1C2、A1B1C3和A2B3C1、A2B3C2、A2B3C3。根据子文本A1B1、A2B3的置信度和待确定标准字符的匹配概率,计算上述6个待确定子文本的置信度,仍将置信度最大的2个待确定子文本(待确定子文本A1B1C1和待确定子文本A2B3C3)作为子文本。最后一次迭代得到的子文本就是待确定文本,因此A1B1C1和A2B3C3就是待确定文本。
请一并参见图3b,是本发明实施例提供的另一种文本纠错方法的场景示意图。xt表示各目标字符对应的目标特征向量,x1表示目标特征向量序列中的第一个目标特征向量,x2表示第二个目标特征向量、...、xn表示第n个目标特征向量。首先将初始隐藏状态向量h10和目标特征向量x1输入第一长短期记忆网络,根据公式(2)计算隐藏状态向量h11;将隐藏状态向量h11和目标特征向量x2输入第一长短期记忆网络,根据公式(2)计算隐藏状态向量h12,重复上述步骤,直到计算出最后一个目标特征向量xn对应隐藏状态向量h1n。将隐藏状态向量h1n就作为目标特征向量的正向语义向量。正向编码完成后进行逆向编码,首先将初始隐藏状态向量h20和目标特征向量xn输入第一长短期记忆网络,根据公式(2)计算隐藏状态向量h21;将隐藏状态向量h21和目标特征向量xn-1输入第一长短期记忆网络,根据公式(2)计算隐藏状态向量h22,重复上述步骤,直到计算出目标特征向量x1对应隐藏状态向量h2n。将隐藏状态向量h2n就作为目标特征向量的逆向语义向量。将正向语义向量h1n和逆向语义向量h2n相加,可以得到目标语义向量。下面执行解码处理,将目标语义向量和目标特征向量x1输入第二长短期记忆网络,根据公式(2)计算隐藏状态向量h31;将隐藏状态向量h31和目标特征向量x2输入第二长短期记忆网络,根据公式(2)计算隐藏状态向量h32;重复上述步骤,直到计算出最后一个目标特征向量xn对应隐藏状态向量h3n。将解码中间过程所生成的隐藏状态向量h31、h32、...、h3n,根据公式(3)分别进行线性变换。得到每个目标特征向量对应的目标隐藏状态向量y1、y2、...、yn,且目标特征向量x1对应目标隐藏状态向量y1、目标特征向量x2对应目标隐藏状态向量y2、...、目标特征向量xn对应目标隐藏状态向量yn。基于第二长短期记忆网络中的分类器,识别目标隐藏状态向量y1,得到与目标特征向量x1对应的标准字符z1;识别目标隐藏状态向量y2,得到与目标特征向量x2对应的标准字符z2、...、识别目标隐藏状态向量yn,得到与目标特征向量xn对应的标准字符z3。将上述标准字符进行组合,得到文本z1z2、...、zn即是标准文本。
本发明实施例通过获取目标文本,将所述目标文本中的所有字符,作为目标字符;获取与每个目标字符相关联的多个辅助数据,分别提取每个辅助数据对应的辅助特征向量,并将属于同一个目标字符的多个辅助特征向量拼接处理,得到目标特征向量;将所有目标特征向量组合为目标特征向量序列,识别所述目标特征向量序列,得到标准文本,并根据所述标准文本对所述目标文本进行纠错处理。上述可知,每个目标字符的目标特征向量是由多种输入来源数据的特征信息组合而来的,也就是每个目标特征向量涵盖了多种输入特征,识别该目标特征向量可以对各种不同输入方式的输入文本进行纠错。相比因为识别单一类型的特征信息导致纠错率低下,由多个特征信息组合而来的目标特征向量可以更能全面、更准确地表征目标字符的特征,进而准确纠正目标字符中的错误字符,提高对文本的纠错准确率。
进一步的,请参见图4,是本发明实施例提供的一种文本纠错装置的结构示意图。如图4所示,文本纠错装置1可以包括:获取模块11、提取模块12、拼接模块13、组合模块14、纠错模块15;
获取模块11,用于获取目标文本,将所述目标文本中的所有字符,作为目标字符;
所述获取模块11,还用于获取与每个目标字符相关联的多个辅助数据;
提取模块12,用于分别提取每个辅助数据对应的辅助特征向量;一个所述辅助数据是指所述目标字符对应的一种输入来源数据;
具体的,提取模块12分别获取每个目标字符的多个辅助数据,其中目标字符的一种输入来源数据就对应一个辅助数据,一个目标字符的多个辅助数据就是一个目标字符的多种输入来源数据。若目标字符是中文汉字,那么辅助数据可以包括:拼音数据、笔画数据、字形数据、音素序列等;若目标字符是字母,那么辅助数据可以包括:音标数据、字形数据等。辅助数据包括的种类越多,那么后续得到的目标字符的目标特征向量就越全面,纠错结果就越准确。获取每个目标字符的多个辅助数据后,基于神经网络提取每个辅助数据的特征向量,作为辅助特征向量,一个目标字符对应辅助数据的数量与对应的辅助特征向量的数量是相等的。此处基于神经网络对辅助数据提取辅助特征向量,也可以将提取辅助特征向量的过程作为是一个自编码过程,即是用另外一种数据表现方式来表达原始数据,称之为对原始数据的编码。神经网络可以包括卷积神网络和循环神经网络,提取辅助数据的辅助特征向量时,可以是基于CNN提取的辅助特征向量也可以是基于RNN提取的辅助特征向量。为了充分利用卷积神经网络在空间维度上的优势和循环神经网络在时间维度上的优势,当辅助数据包括拼音数据、笔画数据和字形数据时,提取模块12可以基于循环神经网络对笔画数据进行时序处理,得到笔画数据对应的时序特征向量,并将得到的时序特征向量作为辅助特征向量;提取模块12可以基于卷积神经网络对拼音数据进行卷积处理和池化处理,得到拼音数据对应的空间特征向量,并将得到的空间特征向量作为辅助特征向量;提取模块12可以基于卷积神经网络对字形数据进行卷积处理和池化处理,得到字形数据对应的空间特征向量,并将得到的空间特征向量作为辅助特征向量。
拼接模块13,用于将属于同一个目标字符的多个辅助特征向量拼接处理,得到目标特征向量;
具体的,获取所有目标字符的多个辅助特征向量后,拼接模块13将属于同一个目标字符的多个辅助特征向量拼接为一个特征向量,拼接后的特征向量称为目标特征向量(如图1b所对应实施例中的目标向量10b或目标向量10c),获取一个目标特征向量的过程可以简化为:1个目标字符对应N个辅助数据、N个辅助特征向量、1个目标特征向量,N是大于数值1的整数。举例来说,目标字符A对应的辅助数据为辅助数据A1、辅助数据A2,与辅助数据A1对应的辅助特征向量为B1、与辅助数据A2对应的辅助特征向量为B2,将上述两个辅助特征向量拼接(即是将助特征向量B1和助特征向量B2进行拼接),得到目标特征向量C,因此与目标字符A对应的目标特征向量即是目标特征向量C。
组合模块14,用于将所有目标特征向量组合为目标特征向量序列,识别所述目标特征向量序列,得到标准文本;
具体的,获取每个目标字符对应的目标特征向量后,组合模块14按照目标字符在目标文本中的顺序,将每个目标字符对应的目标特征向量组合为目标特征向量序列。对目标特征向量序列进行编码处理和解码处理,执行编码处理的长短期记忆网络称为第一长短期记忆网络,执行编码处理的长短期记忆网络称为第二长短期记忆网络,第一长短期记忆网络和第二长短期记忆网络的结构相同(都包括输入层、隐藏层和输出层),但网络中的参数不同。组合模块14将目标特征向量序列输入第一长短期记忆网络中的输入层,读入目标特征向量序列;基于第一长短期记忆网络中的隐藏层,对上述目标特征向量序列进行双向循环编码处理,正向循环编码处理得到的向量称为正向语义向量,逆向循环编码处理得到的向量称为逆向语义向量。组合模块14将上述正向语义向量和逆向语义向量相加,得到的结果向量称为目标语义向量。该目标语义向量就包括了目标文本的语义信息、上下文时序信息等,得到了目标语义向量即是完成了对目标特征向量序列的编码处理。然后将目标语义向量进行解码处理,组合模块14将目标语义向量和目标特征向量序列输入第二长短期记忆网络中的输入层,读入目标语义向量,基于第二长短期记忆网络中的隐藏层,对目标语义向量解码处理,得到各目标特征向量对应的目标隐藏状态向量,即是整个目标文本中目标字符的数量等于所有目标特征向量的数量也等于目标隐藏状态向量的数量。基于第二长短期记忆网络的输出层,该输出层即是一个分类器,识别所有目标隐藏状态向量,得到各目标隐藏状态向量对应的标准字符,并将按照目标特征向量在目标特征向量序列中的顺序,将所有的标准字符组合为文本,称为标准文本,上述标准文本即是纠错后的文本。
纠错模块15,用于并根据所述标准文本对所述目标文本进行纠错处理。
纠错模块15具体用于:利用所述标准文本替换所述目标文本,并输出所述标准文本。
其中,获取模块11、提取模块12、拼接模块13、组合模块14、纠错模块15的具体功能实现方式可以参见上述图2a对应实施例中的步骤S101-步骤S103,这里不再进行赘述。
请参见图4,提取模块12可以包括:提取单元121、确定单元122。
提取单元121,用于基于循环神经网络对所述笔画数据进行时序处理,得到所述笔画数据对应的时序特征向量;
所述提取单元121,还用于基于卷积神经网络对所述拼音数据进行卷积处理和池化处理,得到所述拼音数据对应的空间特征向量;
所述提取单元121,还用于基于所述卷积神经网络对所述字形数据进行卷积处理和池化处理,得到所述字形数据对应的空间特征向量;
确定单元122,用于将所述笔画数据对应的时序特征向量、所述拼音数据对应的空间特征向量和所述字形数据对应的空间特征向量均作为所述辅助特征向量。
其中,提取单元121、确定单元122的具体功能实现方式可以参见上述图2a对应实施例中的步骤S102,这里不再进行赘述。
请参见图4,组合模块14可以包括:组合单元141、编码单元142,解码单元143、识别单元144。
组合单元141,用于根据所述目标字符在所述目标文本中的顺序,将所述每个目标字符对应的目标特征向量组合为所述目标特征向量序列;
编码单元142,用于基于第一长短期记忆网络中的隐藏层,对所述目标特征向量序列进行双向循环编码处理,得到所述目标特征向量序列对应的正向语义向量和逆向语义向量,将所述正向语义向量和所述逆向语义向量相加,得到所述目标特征向量序列对应的目标语义向量;
解码单元143,用于基于第二长短期记忆网络中的隐藏层、所述目标特征向量序列中各目标特征向量,对所述目标语义向量解码处理,得到各目标特征向量对应的目标隐藏状态向量;
识别单元144,用于识别所有目标隐藏状态向量,得到各目标隐藏状态向量对应的标准字符,并将所述所有目标隐藏状态向量对应的标准字符组合为所述标准文本。
其中,组合单元141、编码单元142,解码单元143、识别单元144的具体功能实现方式可以参见上述图3a对应实施例中的步骤S203-步骤S206,这里不再进行赘述。
请参见图4,识别单元144可以包括:识别子单元1441、组合子单元1442。
识别子单元1441,用于基于所述第二长短期记忆网络的输出层,识别所有目标隐藏状态向量与所述第二长短期记忆网络中多个字符特征之间的匹配概率;
所述识别子单元1441,还用于将所述匹配概率大于匹配阈值的字符特征对应的字符,作为标准字符;
组合子单元1442,用于将所有目标特征向量对应的标准字符组合为至少一个待确定文本;所述待确定文本中各标准字符对应不同的目标特征向量,且所述待确定文本中的标准字符的数量和所有目标特征向量的数量相等;
所述识别子单元1442,还用于将置信度大于置信阈值所对应的待确定文本作为所述标准文本;所述待确定文本对应的置信度是通过所述待确定文本中各标准字符对应的匹配概率所计算得到的。
其中,识别子单元1441、组合子单元1442的具体功能实现方式可以参见上述图3a对应实施例中的步骤S206,这里不再进行赘述。
请参见图4,组合子单元1442可以包括:确定子单元14421、计算子单元14422。
确定子单元14421,用于将在所述目标特征向量序列中位于首位的目标特征向量所对应的标准字符作为子文本,将与所述子文本相邻的目标特征向量对应的标准字符作为待确定标准字符,并根据所述子文本中的标准字符对应的匹配概率计算所述子文本对应的置信度;
所述确定子单元14421,还用于将所述待确定标准字符和所述子文本组合为待确定子文本;所述待确定子文本包括一个待确定标准字符和一个子文本;所述子文本中各标准字符对应不同的目标特征向量;
计算子单元14422,用于根据所述待确定标准字符对应的匹配概率和所述子文本对应的置信度,计算所述待确定子文本对应的子置信度,并将满足集束宽度条件的子置信度作为目标置信度,将所述目标置信度对应的待确定子文本作为所述子文本,并将与位于所述子文本末尾的标准字符相邻的目标特征向量对应的标准字符作为所述待确定标准字符,将所述目标置信度作为所述子文本对应的置信度,直至当所有剩余标准字符均被确定为待确定标准字符时,将最后一次迭代得到的子文本作为所述待确定文本,将所述目标置信度作为所述待确定文本对应的置信度;所述剩余标准字符是在所述目标特征向量序列中除了位于首位的目标特征向量对应的标准字符以外的标准字符。
其中,确定子单元14421、计算子单元14422的具体功能实现方式可以参见上述图3a对应实施例中的步骤S206,这里不再进行赘述。
如图4所示,文本纠错装置1可以包括:获取模块11、提取模块12、拼接模块13、组合模块14、纠错模块15,还可以包括确定模块16。
确定模块16,用于将纠错处理后的目标文本确定为纠错标准文本;
所述纠错模块15,还用于语义理解所述纠错标准文本,得到所述纠错标准文本对应的语义信息,根据语义知识库中的先验知识和所述语义信息,对所述纠错标准文本进行纠错处理。
其中,纠错模块15、确定模块16的具体功能实现方式可以参见上述图2a对应实施例中的步骤S103,这里不再进行赘述。
本发明实施例通过获取目标文本,将所述目标文本中的所有字符,作为目标字符;获取与每个目标字符相关联的多个辅助数据,分别提取每个辅助数据对应的辅助特征向量,并将属于同一个目标字符的多个辅助特征向量拼接处理,得到目标特征向量;将所有目标特征向量组合为目标特征向量序列,识别所述目标特征向量序列,得到标准文本,并根据所述标准文本对所述目标文本进行纠错处理。上述可知,每个目标字符的目标特征向量是由多种输入来源数据的特征信息组合而来的,也就是每个目标特征向量涵盖了多种输入特征,识别该目标特征向量可以对各种不同输入方式的输入文本进行纠错。相比因为识别单一类型的特征信息导致纠错率低下,由多个特征信息组合而来的目标特征向量可以更能全面、更准确地表征目标字符的特征,进而准确纠正目标字符中的错误字符,提高对文本的纠错准确率。
进一步地,请参见图5,是本发明实施例提供的一种电子设备的结构示意图。该电子设备可以是智能音箱、智能机器人、智能耳机、智能车载,或其他可以进行语音交互的智能设备。如图5所示,上述图5中的文本纠错装置1可以应用于所述电子设备1000,所述电子设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,所述电子设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图5所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图5所示的电子设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取目标文本,将所述目标文本中的所有字符,作为目标字符;
获取与每个目标字符相关联的多个辅助数据,分别提取每个辅助数据对应的辅助特征向量,并将属于同一个目标字符的多个辅助特征向量拼接处理,得到目标特征向量;一个所述辅助数据是指所述目标字符对应的一种输入来源数据;
将所有目标特征向量组合为目标特征向量序列,识别所述目标特征向量序列,得到标准文本,并根据所述标准文本对所述目标文本进行纠错处理。
在一个实施例中,所述辅助数据包括:拼音数据、笔画数据和字形数据;
所述处理器1001在执行分别提取每个辅助数据对应的辅助特征向量时,具体执行以下步骤:
基于循环神经网络对所述笔画数据进行时序处理,得到所述笔画数据对应的时序特征向量;
基于卷积神经网络对所述拼音数据进行卷积处理和池化处理,得到所述拼音数据对应的空间特征向量;
基于所述卷积神经网络对所述字形数据进行卷积处理和池化处理,得到所述字形数据对应的空间特征向量;
将所述笔画数据对应的时序特征向量、所述拼音数据对应的空间特征向量和所述字形数据对应的空间特征向量均作为所述辅助特征向量。
在一个实施例中,所述处理器1001在执行将所有目标特征向量组合为目标特征向量序列,识别所述目标特征向量序列,得到标准文本时,具体执行以下步骤:
根据所述目标字符在所述目标文本中的顺序,将所述每个目标字符对应的目标特征向量组合为所述目标特征向量序列;
基于第一长短期记忆网络中的隐藏层,对所述目标特征向量序列进行双向循环编码处理,得到所述目标特征向量序列对应的正向语义向量和逆向语义向量,将所述正向语义向量和所述逆向语义向量相加,得到所述目标特征向量序列对应的目标语义向量;
基于第二长短期记忆网络中的隐藏层、所述目标特征向量序列中各目标特征向量,对所述目标语义向量解码处理,得到各目标特征向量对应的目标隐藏状态向量;
识别所有目标隐藏状态向量,得到各目标隐藏状态向量对应的标准字符,并将所述所有目标隐藏状态向量对应的标准字符组合为所述标准文本。
在一个实施例中,所述处理器1001在执行识别所有目标隐藏状态向量,得到各目标隐藏状态向量对应的标准字符,并将所述所有目标隐藏状态向量对应的标准字符组合为所述标准文本时,具体执行以下步骤:
基于所述第二长短期记忆网络的输出层,识别所有目标隐藏状态向量与所述第二长短期记忆网络中多个字符特征之间的匹配概率;
将所述匹配概率大于匹配阈值的字符特征对应的字符,作为标准字符,将所有目标特征向量对应的标准字符组合为至少一个待确定文本;所述待确定文本中各标准字符对应不同的目标特征向量,且所述待确定文本中的标准字符的数量和所有目标特征向量的数量相等;
将置信度大于置信阈值所对应的待确定文本作为所述标准文本;所述待确定文本对应的置信度是通过所述待确定文本中各标准字符对应的匹配概率所计算得到的。
在一个实施例中,所述处理器1001在执行将所有目标特征向量对应的标准字符组合为至少一个待确定文本时,具体执行以下步骤:
将在所述目标特征向量序列中位于首位的目标特征向量所对应的标准字符作为子文本,将与所述子文本相邻的目标特征向量对应的标准字符作为待确定标准字符,并根据所述子文本中的标准字符对应的匹配概率计算所述子文本对应的置信度;
将所述待确定标准字符和所述子文本组合为待确定子文本;所述待确定子文本包括一个待确定标准字符和一个子文本;所述子文本中各标准字符对应不同的目标特征向量;
根据所述待确定标准字符对应的匹配概率和所述子文本对应的置信度,计算所述待确定子文本对应的子置信度,并将满足集束宽度条件的子置信度作为目标置信度,将所述目标置信度对应的待确定子文本作为所述子文本,并将与位于所述子文本末尾的标准字符相邻的目标特征向量对应的标准字符作为所述待确定标准字符,将所述目标置信度作为所述子文本对应的置信度,直至当所有剩余标准字符均被确定为待确定标准字符时,将最后一次迭代得到的子文本作为所述待确定文本,将所述目标置信度作为所述待确定文本对应的置信度;所述剩余标准字符是在所述目标特征向量序列中除了位于首位的目标特征向量对应的标准字符以外的标准字符。
在一个实施例中,所述处理器1001在执行根据所述标准文本对所述目标文本进行纠错处理时,具体执行以下步骤:
利用所述标准文本替换所述目标文本,并输出所述标准文本。
在一个实施例中,所述处理器1001还执行以下步骤:
将纠错处理后的目标文本确定为纠错标准文本;
语义理解所述纠错标准文本,得到所述纠错标准文本对应的语义信息,根据语义知识库中的先验知识和所述语义信息,对所述纠错标准文本进行纠错处理。
本发明实施例通过获取目标文本,将所述目标文本中的所有字符,作为目标字符;获取与每个目标字符相关联的多个辅助数据,分别提取每个辅助数据对应的辅助特征向量,并将属于同一个目标字符的多个辅助特征向量拼接处理,得到目标特征向量;将所有目标特征向量组合为目标特征向量序列,识别所述目标特征向量序列,得到标准文本,并根据所述标准文本对所述目标文本进行纠错处理。上述可知,每个目标字符的目标特征向量是由多种输入来源数据的特征信息组合而来的,也就是每个目标特征向量涵盖了多种输入特征,识别该目标特征向量可以对各种不同输入方式的输入文本进行纠错。相比因为识别单一类型的特征信息导致纠错率低下,由多个特征信息组合而来的目标特征向量可以更能全面、更准确地表征目标字符的特征,进而准确纠正目标字符中的错误字符,提高对文本的纠错准确率。
应当理解,本发明实施例中所描述的电子设备1000可执行前文图2a到图3b所对应实施例中对所述文本纠错方法的描述,也可执行前文图4所对应实施例中对所述文本纠错装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本发明实施例还提供了一种计算机存储介质,且所述计算机存储介质中存储有前文提及的文本纠错装置1所执行的计算机程序,且所述计算机程序包括程序指令,当所述处理器执行所述程序指令时,能够执行前文图2a到图3b所对应实施例中对所述文本纠错方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (15)
1.一种文本纠错方法,其特征在于,包括:
获取目标文本,将所述目标文本中的所有字符,作为目标字符;
获取与每个目标字符相关联的多个辅助数据,分别提取每个辅助数据对应的辅助特征向量,并将属于同一个目标字符的多个辅助特征向量拼接处理,得到目标特征向量;一个所述辅助数据是指所述目标字符对应的一种输入来源数据;
将所有目标特征向量组合为目标特征向量序列,识别所述目标特征向量序列,得到标准文本,并根据所述标准文本对所述目标文本进行纠错处理。
2.根据权利要求1所述的方法,其特征在于,所述辅助数据包括:拼音数据、笔画数据和字形数据;
所述分别提取每个辅助数据对应的辅助特征向量,包括
基于循环神经网络对所述笔画数据进行时序处理,得到所述笔画数据对应的时序特征向量;
基于卷积神经网络对所述拼音数据进行卷积处理和池化处理,得到所述拼音数据对应的空间特征向量;
基于所述卷积神经网络对所述字形数据进行卷积处理和池化处理,得到所述字形数据对应的空间特征向量;
将所述笔画数据对应的时序特征向量、所述拼音数据对应的空间特征向量和所述字形数据对应的空间特征向量均作为所述辅助特征向量。
3.根据权利要求1所述的方法,其特征在于,所述将所有目标特征向量组合为目标特征向量序列,识别所述目标特征向量序列,得到标准文本,包括:
根据所述目标字符在所述目标文本中的顺序,将所述每个目标字符对应的目标特征向量组合为所述目标特征向量序列;
基于第一长短期记忆网络中的隐藏层,对所述目标特征向量序列进行双向循环编码处理,得到所述目标特征向量序列对应的正向语义向量和逆向语义向量,将所述正向语义向量和所述逆向语义向量相加,得到所述目标特征向量序列对应的目标语义向量;
基于第二长短期记忆网络中的隐藏层、所述目标特征向量序列中各目标特征向量,对所述目标语义向量解码处理,得到各目标特征向量对应的目标隐藏状态向量;
识别所有目标隐藏状态向量,得到各目标隐藏状态向量对应的标准字符,并将所述所有目标隐藏状态向量对应的标准字符组合为所述标准文本。
4.根据权利要求3所述的方法,其特征在于,所述识别所有目标隐藏状态向量,得到各目标隐藏状态向量对应的标准字符,并将所述所有目标隐藏状态向量对应的标准字符组合为所述标准文本,包括:
基于所述第二长短期记忆网络的输出层,识别所有目标隐藏状态向量与所述第二长短期记忆网络中多个字符特征之间的匹配概率;
将所述匹配概率大于匹配阈值的字符特征对应的字符,作为标准字符,将所有目标特征向量对应的标准字符组合为至少一个待确定文本;所述待确定文本中各标准字符对应不同的目标特征向量,且所述待确定文本中的标准字符的数量和所有目标特征向量的数量相等;
将置信度大于置信阈值所对应的待确定文本作为所述标准文本;所述待确定文本对应的置信度是通过所述待确定文本中各标准字符对应的匹配概率所计算得到的。
5.根据权利要求4所述的方法,其特征在于,所述将所有目标特征向量对应的标准字符组合为至少一个待确定文本,包括:
将在所述目标特征向量序列中位于首位的目标特征向量所对应的标准字符作为子文本,将与所述子文本相邻的目标特征向量对应的标准字符作为待确定标准字符,并根据所述子文本中的标准字符对应的匹配概率计算所述子文本对应的置信度;
将所述待确定标准字符和所述子文本组合为待确定子文本;所述待确定子文本包括一个待确定标准字符和一个子文本;所述子文本中各标准字符对应不同的目标特征向量;
根据所述待确定标准字符对应的匹配概率和所述子文本对应的置信度,计算所述待确定子文本对应的子置信度,并将满足集束宽度条件的子置信度作为目标置信度,将所述目标置信度对应的待确定子文本作为所述子文本,并将与位于所述子文本末尾的标准字符相邻的目标特征向量对应的标准字符作为所述待确定标准字符,将所述目标置信度作为所述子文本对应的置信度,直至当所有剩余标准字符均被确定为待确定标准字符时,将最后一次迭代得到的子文本作为所述待确定文本,将所述目标置信度作为所述待确定文本对应的置信度;所述剩余标准字符是在所述目标特征向量序列中除了位于首位的目标特征向量对应的标准字符以外的标准字符。
6.根据权利要求1所述的方法,其特征在于,所述根据所述标准文本对所述目标文本进行纠错处理,包括:
利用所述标准文本替换所述目标文本,并输出所述标准文本。
7.根据权利要求1所述的方法,其特征在于,还包括:
将纠错处理后的目标文本确定为纠错标准文本;
语义理解所述纠错标准文本,得到所述纠错标准文本对应的语义信息,根据语义知识库中的先验知识和所述语义信息,对所述纠错标准文本进行纠错处理。
8.一种文本纠错装置,其特征在于,包括:
获取模块,用于获取目标文本,将所述目标文本中的所有字符,作为目标字符;
所述获取模块,还用于获取与每个目标字符相关联的多个辅助数据;
提取模块,用于分别提取每个辅助数据对应的辅助特征向量;一个所述辅助数据是指所述目标字符对应的一种输入来源数据;
拼接模块,用于将属于同一个目标字符的多个辅助特征向量拼接处理,得到目标特征向量;
组合模块,用于将所有目标特征向量组合为目标特征向量序列,识别所述目标特征向量序列,得到标准文本;
纠错模块,用于并根据所述标准文本对所述目标文本进行纠错处理。
9.根据权利要求8所述的装置,其特征在于,所述辅助数据包括:拼音数据、笔画数据和字形数据;
所述提取模块,包括
提取单元,用于基于循环神经网络对所述笔画数据进行时序处理,得到所述笔画数据对应的时序特征向量;
所述提取单元,还用于基于卷积神经网络对所述拼音数据进行卷积处理和池化处理,得到所述拼音数据对应的空间特征向量;
所述提取单元,还用于基于所述卷积神经网络对所述字形数据进行卷积处理和池化处理,得到所述字形数据对应的空间特征向量;
确定单元,用于将所述笔画数据对应的时序特征向量、所述拼音数据对应的空间特征向量和所述字形数据对应的空间特征向量均作为所述辅助特征向量。
10.根据权利要求8所述的装置,其特征在于,所述组合模块,包括:
组合单元,用于根据所述目标字符在所述目标文本中的顺序,将所述每个目标字符对应的目标特征向量组合为所述目标特征向量序列;
编码单元,用于基于第一长短期记忆网络中的隐藏层,对所述目标特征向量序列进行双向循环编码处理,得到所述目标特征向量序列对应的正向语义向量和逆向语义向量,将所述正向语义向量和所述逆向语义向量相加,得到所述目标特征向量序列对应的目标语义向量;
解码单元,用于基于第二长短期记忆网络中的隐藏层、所述目标特征向量序列中各目标特征向量,对所述目标语义向量解码处理,得到各目标特征向量对应的目标隐藏状态向量;
识别单元,用于识别所有目标隐藏状态向量,得到各目标隐藏状态向量对应的标准字符,并将所述所有目标隐藏状态向量对应的标准字符组合为所述标准文本。
11.根据权利要求10所述的装置,其特征在于,所述识别单元,包括:
识别子单元,用于基于所述第二长短期记忆网络的输出层,识别所有目标隐藏状态向量与所述第二长短期记忆网络中多个字符特征之间的匹配概率;
所述识别子单元,还用于将所述匹配概率大于匹配阈值的字符特征对应的字符,作为标准字符;
组合子单元,用于将所有目标特征向量对应的标准字符组合为至少一个待确定文本;所述待确定文本中各标准字符对应不同的目标特征向量,且所述待确定文本中的标准字符的数量和所有目标特征向量的数量相等;
所述识别子单元,还用于将置信度大于置信阈值所对应的待确定文本作为所述标准文本;所述待确定文本对应的置信度是通过所述待确定文本中各标准字符对应的匹配概率所计算得到的。
12.根据权利要求11所述的装置,其特征在于,所述组合子单元,包括:
确定子单元,用于将在所述目标特征向量序列中位于首位的目标特征向量所对应的标准字符作为子文本,将与所述子文本相邻的目标特征向量对应的标准字符作为待确定标准字符,并根据所述子文本中的标准字符对应的匹配概率计算所述子文本对应的置信度;
所述确定子单元,还用于将所述待确定标准字符和所述子文本组合为待确定子文本;所述待确定子文本包括一个待确定标准字符和一个子文本;所述子文本中各标准字符对应不同的目标特征向量;
计算子单元,用于根据所述待确定标准字符对应的匹配概率和所述子文本对应的置信度,计算所述待确定子文本对应的子置信度,并将满足集束宽度条件的子置信度作为目标置信度,将所述目标置信度对应的待确定子文本作为所述子文本,并将与位于所述子文本末尾的标准字符相邻的目标特征向量对应的标准字符作为所述待确定标准字符,将所述目标置信度作为所述子文本对应的置信度,直至当所有剩余标准字符均被确定为待确定标准字符时,将最后一次迭代得到的子文本作为所述待确定文本,将所述目标置信度作为所述待确定文本对应的置信度;所述剩余标准字符是在所述目标特征向量序列中除了位于首位的目标特征向量对应的标准字符以外的标准字符。
13.根据权利要求8所述的装置,其特征在于,所述纠错模块,具体用于:利用所述标准文本替换所述目标文本,并输出所述标准文本。
14.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如权利要求1-7任一项所述的方法。
15.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810532317.8A CN108874174B (zh) | 2018-05-29 | 2018-05-29 | 一种文本纠错方法、装置以及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810532317.8A CN108874174B (zh) | 2018-05-29 | 2018-05-29 | 一种文本纠错方法、装置以及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108874174A true CN108874174A (zh) | 2018-11-23 |
CN108874174B CN108874174B (zh) | 2020-04-24 |
Family
ID=64336547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810532317.8A Active CN108874174B (zh) | 2018-05-29 | 2018-05-29 | 一种文本纠错方法、装置以及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108874174B (zh) |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543022A (zh) * | 2018-12-17 | 2019-03-29 | 北京百度网讯科技有限公司 | 文本纠错方法和装置 |
CN109615006A (zh) * | 2018-12-10 | 2019-04-12 | 北京市商汤科技开发有限公司 | 文字识别方法及装置、电子设备和存储介质 |
CN109739370A (zh) * | 2019-01-10 | 2019-05-10 | 北京帝派智能科技有限公司 | 一种语言模型训练方法、汉语拼音输入方法及装置 |
CN109800440A (zh) * | 2019-02-26 | 2019-05-24 | 京东方科技集团股份有限公司 | 汉字的序列标注方法及系统、计算机设备及可读存储介质 |
CN109918681A (zh) * | 2019-03-29 | 2019-06-21 | 哈尔滨理工大学 | 一种基于汉字-拼音的融合问题语义匹配方法 |
CN110110041A (zh) * | 2019-03-15 | 2019-08-09 | 平安科技(深圳)有限公司 | 错词纠正方法、装置、计算机装置及存储介质 |
CN110188353A (zh) * | 2019-05-28 | 2019-08-30 | 百度在线网络技术(北京)有限公司 | 文本纠错方法及装置 |
CN110232129A (zh) * | 2019-06-11 | 2019-09-13 | 北京百度网讯科技有限公司 | 场景纠错方法、装置、设备和存储介质 |
CN110334196A (zh) * | 2019-06-28 | 2019-10-15 | 同济大学 | 基于笔画和自注意力机制的神经网络中文问题生成系统 |
CN110378334A (zh) * | 2019-06-14 | 2019-10-25 | 华南理工大学 | 一种基于二维特征注意力机制的自然场景文本识别方法 |
CN110647878A (zh) * | 2019-08-05 | 2020-01-03 | 紫光西部数据(南京)有限公司 | 基于截屏图片的数据处理方法 |
CN110765996A (zh) * | 2019-10-21 | 2020-02-07 | 北京百度网讯科技有限公司 | 文本信息处理方法及装置 |
WO2019137562A3 (en) * | 2019-04-25 | 2020-03-12 | Alibaba Group Holding Limited | Identifying entities in electronic medical records |
CN111048065A (zh) * | 2019-12-18 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 文本纠错数据生成方法及相关装置 |
CN111339755A (zh) * | 2018-11-30 | 2020-06-26 | 中国移动通信集团浙江有限公司 | 一种局数据自动纠错方法及装置 |
CN111435407A (zh) * | 2019-01-10 | 2020-07-21 | 北京字节跳动网络技术有限公司 | 错别字的纠正方法、装置、设备及存储介质 |
CN111523306A (zh) * | 2019-01-17 | 2020-08-11 | 阿里巴巴集团控股有限公司 | 文本的纠错方法、装置和系统 |
CN111563359A (zh) * | 2019-01-29 | 2020-08-21 | 腾讯科技(深圳)有限公司 | 时间识别方法、装置以及相关设备 |
CN111581975A (zh) * | 2020-05-09 | 2020-08-25 | 北京明朝万达科技股份有限公司 | 案件的笔录文本的处理方法、装置、存储介质和处理器 |
CN111582169A (zh) * | 2020-05-08 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 图像识别数据纠错方法、装置、计算机设备和存储介质 |
CN111753822A (zh) * | 2019-03-29 | 2020-10-09 | 北京市商汤科技开发有限公司 | 文本识别方法及装置、电子设备和存储介质 |
CN112287670A (zh) * | 2020-11-18 | 2021-01-29 | 北京明略软件系统有限公司 | 文本纠错方法、系统、计算机设备及可读存储介质 |
CN112329447A (zh) * | 2020-10-29 | 2021-02-05 | 语联网(武汉)信息技术有限公司 | 中文纠错模型的训练方法、中文纠错方法及装置 |
CN112364633A (zh) * | 2021-01-13 | 2021-02-12 | 浙江一意智能科技有限公司 | 一种文字错误获取及校对方法、装置及存储介质 |
CN112395886A (zh) * | 2021-01-19 | 2021-02-23 | 深圳壹账通智能科技有限公司 | 相似文本确定方法及相关设备 |
CN112395864A (zh) * | 2020-11-26 | 2021-02-23 | 北京世纪好未来教育科技有限公司 | 文本纠错模型训练、文本纠错方法及相关装置 |
CN112417848A (zh) * | 2019-08-19 | 2021-02-26 | 阿里巴巴集团控股有限公司 | 语料生成方法、装置及计算机设备 |
CN112509565A (zh) * | 2020-11-13 | 2021-03-16 | 中信银行股份有限公司 | 语音识别方法、装置、电子设备及可读存储介质 |
CN112528621A (zh) * | 2021-02-10 | 2021-03-19 | 腾讯科技(深圳)有限公司 | 文本处理、文本处理模型训练方法、装置和存储介质 |
CN112597753A (zh) * | 2020-12-22 | 2021-04-02 | 北京百度网讯科技有限公司 | 文本纠错处理方法、装置、电子设备和存储介质 |
CN112733529A (zh) * | 2019-10-28 | 2021-04-30 | 阿里巴巴集团控股有限公司 | 文本纠错方法和装置 |
CN113011149A (zh) * | 2021-03-04 | 2021-06-22 | 中国科学院自动化研究所 | 一种文本纠错方法及系统 |
CN113033186A (zh) * | 2021-05-31 | 2021-06-25 | 江苏联著实业股份有限公司 | 一种基于事件分析的纠错预警方法及系统 |
CN113128241A (zh) * | 2021-05-17 | 2021-07-16 | 口碑(上海)信息技术有限公司 | 文本识别方法、装置及设备 |
WO2022121172A1 (zh) * | 2020-12-10 | 2022-06-16 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及计算机可读存储介质 |
CN116401345A (zh) * | 2023-03-09 | 2023-07-07 | 北京海致星图科技有限公司 | 智能问答方法、装置、存储介质和设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250364A (zh) * | 2016-07-20 | 2016-12-21 | 科大讯飞股份有限公司 | 一种文本修正方法及装置 |
CN106569618A (zh) * | 2016-10-19 | 2017-04-19 | 武汉悦然心动网络科技股份有限公司 | 基于循环神经网络模型的滑动输入方法及系统 |
CN106570456A (zh) * | 2016-10-13 | 2017-04-19 | 华南理工大学 | 基于全卷积递归网络的手写汉字文本识别方法 |
US20180101726A1 (en) * | 2016-10-10 | 2018-04-12 | Insurance Services Office Inc. | Systems and Methods for Optical Character Recognition for Low-Resolution Documents |
US20180121731A1 (en) * | 2016-11-03 | 2018-05-03 | Nec Laboratories America, Inc. | Surveillance system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation |
-
2018
- 2018-05-29 CN CN201810532317.8A patent/CN108874174B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250364A (zh) * | 2016-07-20 | 2016-12-21 | 科大讯飞股份有限公司 | 一种文本修正方法及装置 |
US20180101726A1 (en) * | 2016-10-10 | 2018-04-12 | Insurance Services Office Inc. | Systems and Methods for Optical Character Recognition for Low-Resolution Documents |
CN106570456A (zh) * | 2016-10-13 | 2017-04-19 | 华南理工大学 | 基于全卷积递归网络的手写汉字文本识别方法 |
CN106569618A (zh) * | 2016-10-19 | 2017-04-19 | 武汉悦然心动网络科技股份有限公司 | 基于循环神经网络模型的滑动输入方法及系统 |
US20180121731A1 (en) * | 2016-11-03 | 2018-05-03 | Nec Laboratories America, Inc. | Surveillance system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation |
Cited By (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339755A (zh) * | 2018-11-30 | 2020-06-26 | 中国移动通信集团浙江有限公司 | 一种局数据自动纠错方法及装置 |
CN109615006A (zh) * | 2018-12-10 | 2019-04-12 | 北京市商汤科技开发有限公司 | 文字识别方法及装置、电子设备和存储介质 |
CN109543022B (zh) * | 2018-12-17 | 2020-10-13 | 北京百度网讯科技有限公司 | 文本纠错方法和装置 |
CN109543022A (zh) * | 2018-12-17 | 2019-03-29 | 北京百度网讯科技有限公司 | 文本纠错方法和装置 |
CN111435407A (zh) * | 2019-01-10 | 2020-07-21 | 北京字节跳动网络技术有限公司 | 错别字的纠正方法、装置、设备及存储介质 |
CN109739370A (zh) * | 2019-01-10 | 2019-05-10 | 北京帝派智能科技有限公司 | 一种语言模型训练方法、汉语拼音输入方法及装置 |
CN109739370B (zh) * | 2019-01-10 | 2019-09-03 | 北京帝派智能科技有限公司 | 一种语言模型训练方法、汉语拼音输入方法及装置 |
CN111523306A (zh) * | 2019-01-17 | 2020-08-11 | 阿里巴巴集团控股有限公司 | 文本的纠错方法、装置和系统 |
CN111563359A (zh) * | 2019-01-29 | 2020-08-21 | 腾讯科技(深圳)有限公司 | 时间识别方法、装置以及相关设备 |
CN109800440A (zh) * | 2019-02-26 | 2019-05-24 | 京东方科技集团股份有限公司 | 汉字的序列标注方法及系统、计算机设备及可读存储介质 |
CN110110041B (zh) * | 2019-03-15 | 2022-02-15 | 平安科技(深圳)有限公司 | 错词纠正方法、装置、计算机装置及存储介质 |
CN110110041A (zh) * | 2019-03-15 | 2019-08-09 | 平安科技(深圳)有限公司 | 错词纠正方法、装置、计算机装置及存储介质 |
WO2020186778A1 (zh) * | 2019-03-15 | 2020-09-24 | 平安科技(深圳)有限公司 | 错词纠正方法、装置、计算机装置及存储介质 |
CN109918681A (zh) * | 2019-03-29 | 2019-06-21 | 哈尔滨理工大学 | 一种基于汉字-拼音的融合问题语义匹配方法 |
CN111753822A (zh) * | 2019-03-29 | 2020-10-09 | 北京市商汤科技开发有限公司 | 文本识别方法及装置、电子设备和存储介质 |
US12014275B2 (en) * | 2019-03-29 | 2024-06-18 | Beijing Sensetime Technology Development Co., Ltd. | Method for text recognition, electronic device and storage medium |
US20210042474A1 (en) * | 2019-03-29 | 2021-02-11 | Beijing Sensetime Technology Development Co., Ltd. | Method for text recognition, electronic device and storage medium |
CN111753822B (zh) * | 2019-03-29 | 2024-05-24 | 北京市商汤科技开发有限公司 | 文本识别方法及装置、电子设备和存储介质 |
CN109918681B (zh) * | 2019-03-29 | 2023-01-31 | 哈尔滨理工大学 | 一种基于汉字-拼音的融合问题语义匹配方法 |
US10740561B1 (en) | 2019-04-25 | 2020-08-11 | Alibaba Group Holding Limited | Identifying entities in electronic medical records |
WO2019137562A3 (en) * | 2019-04-25 | 2020-03-12 | Alibaba Group Holding Limited | Identifying entities in electronic medical records |
CN110188353A (zh) * | 2019-05-28 | 2019-08-30 | 百度在线网络技术(北京)有限公司 | 文本纠错方法及装置 |
CN110232129A (zh) * | 2019-06-11 | 2019-09-13 | 北京百度网讯科技有限公司 | 场景纠错方法、装置、设备和存储介质 |
CN110232129B (zh) * | 2019-06-11 | 2020-09-29 | 北京百度网讯科技有限公司 | 场景纠错方法、装置、设备和存储介质 |
CN110378334A (zh) * | 2019-06-14 | 2019-10-25 | 华南理工大学 | 一种基于二维特征注意力机制的自然场景文本识别方法 |
CN110334196A (zh) * | 2019-06-28 | 2019-10-15 | 同济大学 | 基于笔画和自注意力机制的神经网络中文问题生成系统 |
CN110334196B (zh) * | 2019-06-28 | 2023-06-27 | 同济大学 | 基于笔画和自注意力机制的神经网络中文问题生成系统 |
CN110647878A (zh) * | 2019-08-05 | 2020-01-03 | 紫光西部数据(南京)有限公司 | 基于截屏图片的数据处理方法 |
CN112417848A (zh) * | 2019-08-19 | 2021-02-26 | 阿里巴巴集团控股有限公司 | 语料生成方法、装置及计算机设备 |
CN110765996A (zh) * | 2019-10-21 | 2020-02-07 | 北京百度网讯科技有限公司 | 文本信息处理方法及装置 |
CN110765996B (zh) * | 2019-10-21 | 2022-07-29 | 北京百度网讯科技有限公司 | 文本信息处理方法及装置 |
CN112733529B (zh) * | 2019-10-28 | 2023-09-29 | 阿里巴巴集团控股有限公司 | 文本纠错方法和装置 |
CN112733529A (zh) * | 2019-10-28 | 2021-04-30 | 阿里巴巴集团控股有限公司 | 文本纠错方法和装置 |
CN111048065B (zh) * | 2019-12-18 | 2024-05-28 | 腾讯科技(深圳)有限公司 | 文本纠错数据生成方法及相关装置 |
CN111048065A (zh) * | 2019-12-18 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 文本纠错数据生成方法及相关装置 |
CN111582169B (zh) * | 2020-05-08 | 2023-10-10 | 腾讯科技(深圳)有限公司 | 图像识别数据纠错方法、装置、计算机设备和存储介质 |
CN111582169A (zh) * | 2020-05-08 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 图像识别数据纠错方法、装置、计算机设备和存储介质 |
CN111581975B (zh) * | 2020-05-09 | 2023-06-20 | 北京明朝万达科技股份有限公司 | 案件的笔录文本的处理方法、装置、存储介质和处理器 |
CN111581975A (zh) * | 2020-05-09 | 2020-08-25 | 北京明朝万达科技股份有限公司 | 案件的笔录文本的处理方法、装置、存储介质和处理器 |
CN112329447A (zh) * | 2020-10-29 | 2021-02-05 | 语联网(武汉)信息技术有限公司 | 中文纠错模型的训练方法、中文纠错方法及装置 |
CN112329447B (zh) * | 2020-10-29 | 2024-03-26 | 语联网(武汉)信息技术有限公司 | 中文纠错模型的训练方法、中文纠错方法及装置 |
CN112509565A (zh) * | 2020-11-13 | 2021-03-16 | 中信银行股份有限公司 | 语音识别方法、装置、电子设备及可读存储介质 |
CN112287670A (zh) * | 2020-11-18 | 2021-01-29 | 北京明略软件系统有限公司 | 文本纠错方法、系统、计算机设备及可读存储介质 |
CN112395864A (zh) * | 2020-11-26 | 2021-02-23 | 北京世纪好未来教育科技有限公司 | 文本纠错模型训练、文本纠错方法及相关装置 |
WO2022121172A1 (zh) * | 2020-12-10 | 2022-06-16 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及计算机可读存储介质 |
CN112597753A (zh) * | 2020-12-22 | 2021-04-02 | 北京百度网讯科技有限公司 | 文本纠错处理方法、装置、电子设备和存储介质 |
CN112364633A (zh) * | 2021-01-13 | 2021-02-12 | 浙江一意智能科技有限公司 | 一种文字错误获取及校对方法、装置及存储介质 |
CN112395886B (zh) * | 2021-01-19 | 2021-04-13 | 深圳壹账通智能科技有限公司 | 相似文本确定方法及相关设备 |
CN112395886A (zh) * | 2021-01-19 | 2021-02-23 | 深圳壹账通智能科技有限公司 | 相似文本确定方法及相关设备 |
CN112528621B (zh) * | 2021-02-10 | 2021-05-14 | 腾讯科技(深圳)有限公司 | 文本处理、文本处理模型训练方法、装置和存储介质 |
CN112528621A (zh) * | 2021-02-10 | 2021-03-19 | 腾讯科技(深圳)有限公司 | 文本处理、文本处理模型训练方法、装置和存储介质 |
CN113011149B (zh) * | 2021-03-04 | 2024-05-14 | 中国科学院自动化研究所 | 一种文本纠错方法及系统 |
CN113011149A (zh) * | 2021-03-04 | 2021-06-22 | 中国科学院自动化研究所 | 一种文本纠错方法及系统 |
CN113128241A (zh) * | 2021-05-17 | 2021-07-16 | 口碑(上海)信息技术有限公司 | 文本识别方法、装置及设备 |
CN113033186A (zh) * | 2021-05-31 | 2021-06-25 | 江苏联著实业股份有限公司 | 一种基于事件分析的纠错预警方法及系统 |
CN116401345A (zh) * | 2023-03-09 | 2023-07-07 | 北京海致星图科技有限公司 | 智能问答方法、装置、存储介质和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108874174B (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108874174A (zh) | 一种文本纠错方法、装置以及相关设备 | |
EP3577650B1 (en) | Speech recognition system and method using speech recognition system | |
CN108009154B (zh) | 一种基于深度学习模型的图像中文描述方法 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
EP4073787B1 (en) | System and method for streaming end-to-end speech recognition with asynchronous decoders | |
CN108399428B (zh) | 一种基于迹比准则的三元组损失函数设计方法 | |
CN111738251B (zh) | 一种融合语言模型的光学字符识别方法、装置和电子设备 | |
CN111859912B (zh) | 基于pcnn模型的带有实体感知的远程监督关系抽取方法 | |
CN106547737A (zh) | 基于深度学习的自然语言处理中的序列标注方法 | |
CN110516253A (zh) | 中文口语语义理解方法及系统 | |
CN110114776A (zh) | 使用全卷积神经网络的字符识别的系统和方法 | |
CN108959388B (zh) | 信息生成方法及装置 | |
CN110717027B (zh) | 多轮智能问答方法、系统以及控制器和介质 | |
JP6962747B2 (ja) | データ合成装置および方法 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN110097615B (zh) | 一种联合风格化和去风格化的艺术字编辑方法和系统 | |
CN114625882A (zh) | 提高图像文本描述独特多样性的网络构建方法 | |
CN115761764A (zh) | 一种基于视觉语言联合推理的中文手写文本行识别方法 | |
CN110263631B (zh) | 一种手写化学公式识别与配平方法 | |
CN117350378A (zh) | 一种基于语义匹配和知识图谱的自然语言理解算法 | |
CN112084788A (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
US11810552B2 (en) | Artificial intelligence system for sequence-to-sequence processing with attention adapted for streaming applications | |
CN116340507A (zh) | 一种基于混合权重和双通道图卷积的方面级情感分析方法 | |
CN113592045B (zh) | 从印刷体到手写体的模型自适应文本识别方法和系统 | |
JP7261661B2 (ja) | 畳み込みニューラルネットワーク学習装置およびそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |