CN112861518A - 文本纠错方法、装置和存储介质及电子装置 - Google Patents
文本纠错方法、装置和存储介质及电子装置 Download PDFInfo
- Publication number
- CN112861518A CN112861518A CN202011608194.5A CN202011608194A CN112861518A CN 112861518 A CN112861518 A CN 112861518A CN 202011608194 A CN202011608194 A CN 202011608194A CN 112861518 A CN112861518 A CN 112861518A
- Authority
- CN
- China
- Prior art keywords
- character
- text
- error correction
- characters
- modified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 447
- 238000000034 method Methods 0.000 title claims abstract description 95
- 238000004364 calculation method Methods 0.000 claims abstract description 44
- 230000010354 integration Effects 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 92
- 238000012549 training Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 21
- 230000006399 behavior Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000003062 neural network model Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000000873 masking effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000000605 extraction Methods 0.000 description 7
- 238000012217 deletion Methods 0.000 description 6
- 230000037430 deletion Effects 0.000 description 6
- 238000005457 optimization Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种文本纠错方法、装置和存储介质及电子装置。其中,该方法包括:获取待纠错的对象文本;获取对象文本的第一特征以及第二特征,其中,第一特征用于表示对象文本中每个字符各自与预先构建的纠错语料集中的纠错字符间的字符相似度,纠错语料集中包括根据修改输入文本行为获取到的纠错字符,第二特征用于表示每个字符在对象文本中的上下文语义信息;基于所述第一特征以及所述第二特征进行整合计算,得到纠错置信度,其中,纠错置信度用于表示对象文本中每个字符各自的纠错概率;根据纠错置信度确定对对象文本纠错后的目标文本。本发明解决了文本纠错的准确性较低的技术问题。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种文本纠错方法、装置和存储介质及电子装置。
背景技术
随着社会科技的不断发展,各式各样的电子设备已在人们的生活工作中普及。输入法作为人与电子设备的交互入口,其自然方便、高效、高准确性等特点一直是用户所追求的。而在实际输入中,常常因为发音相似,按键过快,键位误触等问题导致输入内容错误,导致最终文本内容难以理解,甚至造成重大损失。拼音按键输入作为现今输入法中最重要的输入方式之一,结合拼音输入特定研究一种自动文本纠错方法具有重要意义。
而现有的文本纠错技术往往只考虑了单字构成词语的概率,例如或仅考虑一方面导致信息利用不足,或分阶段分别利用导致流程复杂且造成信息割裂,且对上下文语义信息建模不足,泛化能力弱,且需要依赖大量人工标注的平行语料,即浪费人工资源,又无法保证文本纠错的准确性。即,现有技术存在文本纠错准确性较低的技术问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本纠错方法、装置和存储介质及电子装置,以至少解决文本纠错的准确性较低的技术问题。
根据本发明实施例的一个方面,提供了一种文本纠错方法,包括:获取待纠错的对象文本;获取上述对象文本的第一特征以及第二特征,其中,上述第一特征用于表示上述对象文本中每个字符各自与预先构建的纠错语料集中的纠错字符间的字符相似度,上述纠错语料集中包括根据修改输入文本行为获取到的纠错字符,上述第二特征用于表示上述每个字符在上述对象文本中的上下文语义信息;对上述第一特征以及上述第二特征进行整合计算,得到纠错置信度,其中,上述纠错置信度用于表示上述对象文本中每个字符各自的纠错概率;根据上述纠错置信度确定对上述对象文本纠错后的目标文本。
根据本发明实施例的另一方面,还提供了一种文本纠错装置,包括:第一获取单元,用于获取待纠错的对象文本;第二获取单元,用于获取上述对象文本的第一特征以及第二特征,其中,上述第一特征用于表示上述对象文本中每个字符各自与预先构建的纠错语料集中的纠错字符间的字符相似度,上述纠错语料集中包括根据修改输入文本行为获取到的纠错字符,上述第二特征用于表示上述每个字符在上述对象文本中的上下文语义信息;第一确定单元,用于对上述第一特征以及上述第二特征进行整合计算,得到纠错置信度,其中,上述纠错置信度用于表示上述对象文本中每个字符各自的纠错概率;第二确定单元,用于根据上述纠错置信度确定对上述对象文本纠错后的目标文本。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述文本纠错方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的文本纠错方法。
在本发明实施例中,获取待纠错的对象文本;获取上述对象文本的第一特征以及第二特征,其中,上述第一特征用于表示上述对象文本中每个字符各自与预先构建的纠错语料集中的纠错字符间的字符相似度,上述纠错语料集中包括根据修改输入文本行为获取到的纠错字符,上述第二特征用于表示上述每个字符在上述对象文本中的上下文语义信息;对上述第一特征以及上述第二特征进行整合计算,得到纠错置信度,其中,上述纠错置信度用于表示上述对象文本中每个字符各自的纠错概率;根据上述纠错置信度确定对上述对象文本纠错后的目标文本,通过结合对象文本中每个字符的上下文语义信息以及与纠错字符间的字符相似度,进而达到了提高文本纠错过程中参考信息的全面性的目的,从而实现了提高文本纠错的准确性的技术效果,进而解决了文本纠错的准确性较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的文本纠错方法的应用环境的示意图;
图2是根据本发明实施例的一种可选的文本纠错方法的流程图的示意图;
图3是根据本发明实施例的一种可选的文本纠错方法的示意图;
图4是根据本发明实施例的另一种可选的文本纠错方法的示意图;
图5是根据本发明实施例的另一种可选的文本纠错方法的示意图;
图6是根据本发明实施例的另一种可选的文本纠错方法的示意图;
图7是根据本发明实施例的另一种可选的文本纠错方法的示意图;
图8是根据本发明实施例的另一种可选的文本纠错方法的示意图;
图9是根据本发明实施例的另一种可选的文本纠错方法的示意图;
图10是根据本发明实施例的一种可选的文本纠错装置的示意图;
图11是根据本发明实施例的一种可选的电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种文本纠错方法,可选地,作为一种可选的实施方式,上述文本纠错方法可以但不限于应用于如图1所示的环境中。其中,可以但不限于包括用户设备102、网络110及服务器112,其中,该用户设备102上可以但不限于包括显示器108、处理器106及存储器104,显示器108用于显示文本纠错界面,用户可在该文本纠错界面上输入或上传对应的对象文本1022(例如“天启晴朗”),并使用该文本纠错界面对应的纠错功能,以纠错该对象文本1022,以及将纠错后的目标文本1024(例如“天气晴朗”)显示在该文本纠错界面上。
具体过程可如下步骤:
步骤S102,用户设备102获取显示在文本纠错界面上的对象文本1022;
步骤S104-S106,用户设备102通过网络110将对象文本1022发送给服务器112;
步骤S108-S112,服务器112通过处理引擎116将该对象文本1022进行处理,从而获取对象文本1022对应的第一特征以及第二特征;对该第一特征以及第二特征进行整合计算,得到纠错置信度;根据该纠错置信度确定纠错信息,并基于纠错信息以及对象文本1022生成目标文本1024;
步骤S114-S116,服务器112通过网络110将目标文本1024发送给用户设备102;
步骤S118,用户设备102中的处理器106将接受到的目标文本1024处理为可显示格式,并将处理后的目标文本1024显示在显示器108中,以及将目标文本1024存储在存储器104中。
可选地,作为一种可选的实施方式,如图2所示,文本纠错方法包括:
S202,获取待纠错的对象文本;
S204,获取对象文本的第一特征以及第二特征,其中,第一特征用于表示对象文本中每个字符各自与预先构建的纠错语料集中的纠错字符间的字符相似度,纠错语料集中包括根据修改输入文本行为获取到的纠错字符,第二特征用于表示每个字符在对象文本中的上下文语义信息;
S206,基于第一特征以及第二特征进行整合计算,得到纠错置信度,其中,纠错置信度用于表示对象文本中每个字符各自的纠错概率;
S208,根据纠错置信度确定对对象文本纠错后的目标文本。
可选的,在本实施例中,上述文本纠错方法可以但不限于应用在基于拼音输入的文本纠错场景,或者说,在上述文本纠错方法中,针对的是由拼音完成撰写或输入的对象文本。此外,充分考虑了拼音输入文本场景下可能会发生的各种形式错误,并针对该各种形式错误构建了纠错语料集,进而通过结合字符各自与预先构建的纠错语料集中的纠错字符间的字符相似度以及字符在整个文本中的上下文语义信息,确定用于纠正原始文本的参考信息(即纠错置信度),相比于传统技术中的文本纠正,上述文本纠错方法中的参考信息更加全面,从而使得文本纠正的结果也更加准确。
可选的,在本实施例中,纠错语料集中可以但不限于存储有用户在实际的拼音输入文本场景下易混淆的字符对或字符集,且上述字符对或字符集可以但不限于分类存储,例如按照同音字符存储字符拼音一致的字符、按照近音字符存储字符拼音的相似度达到近音阈值的字符、按照相像字符存储字符结构的相似度达到相像阈值的字符、同键字符存储字符输入方式一致的字符、近键字符存储字符输入方式的相似度达到输入阈值的字符等。
进一步举例说明,可选的用户使用26键拼音输入方式进行文本输入的场景例如图3所示,假设当前用户想在A网站的搜索框中输入字符“子”,利用26键拼音输入方式,显示与字母“z”以及“i”对应的同音字符集(例如“自”、“子”、“字”、“资”、“姿”),可以看出的是,虽然用户明确知道要输入的是“字”,但很有可能误操作输入了其他字符,例如图3(a)所示,用户选择输入了“自”;进一步,在图3(b)所示场景下,用户又选择了对已输入的字符“自”执行回删操作,其中,该回删操作用于删除一个或多个已输入的字符;再者,用户在执行回删操作后的预设时长内,再次执行输入操作,同样的,利用26键拼音输入方式,显示与字母“z”以及“i”对应的同音字符集,并从中选中了字符“子”,进而将字符“子”显示在A网站的搜索框内,例如图3(c)所示场景。根据图3所示内容,可以明显看出的是,用户原想输入的字符是“子”,但因同音字符的干扰,导致用户混淆了“子”与“自”,进而输入了错误的字符“自”,当用户意识到字符“自”错误时,利用回删操作,删除了字符“自”,并输入了正确的字符“子”。换言之,字符“子”以及字符“自”对于该用户为易混淆字符,可选的,将字符“字”以及字符“自”按照字符拼音一致的字符类进行存储,并存储至纠错语料集中。
进一步举例说明,可选的用户使用9键拼音输入方式进行文本输入的场景例如图4所示,假设当前用户想在B网站的搜索框中输入字符“素”,利用9键拼音输入方式,显示与组合字母“pqrs”以及“tuv”对应的同键字符集(例如在组合拼音为“qu”的“去”、“区”、“取”、“娶”、“曲”等),可以看出的是,虽然用户明确知道要输入的是字符“素”,但很有可能误操作输入了其他字符,例如图4(a)所示,用户选择输入了“去”;进一步,在图4(b)所示场景下,用户又选择了对已输入的字符“去”执行回删操作,其中,该回删操作用于删除一个或多个已输入的字符;再者,用户在执行回删操作后的预设时长内,再次执行输入操作,同样的,利用9键拼音输入方式,显示与组合字母“pqrs”以及“tuv”对应的同键字符集,并从中先选中了组合拼音为“su”对应的字符集(例如“素”、“苏”、“速”、“宿”、“俗”等),再在该字符集中选中字符“素”,进而将字符“素”显示在B网站的搜索框内,例如图4(c)所示场景。根据图4所示内容,可以明显看出的是,用户原想输入的字符是“素”,但因同键字符的干扰,导致用户混淆了“素”与“去”,进而输入了错误的字符“去”,当用户意识到字符“去”错误时,利用回删操作,删除了字符“去”,并输入了正确的字符“素”。换言之,字符“素”以及字符“去”对于该用户为易混淆字符,可选的,将字符“字”以及字符“自”按照字符拼音一致的字符类进行存储,并存储至纠错语料集中。
可选的,在本实施例中,纠错置信度可以但不限用于评价对象文本的每个纠正方案,并在上述纠正方案中选择纠错置信度满足预设条件的唯一或多个纠正方案以纠正对象文本,从而确定目标文本。
进一步举例说明,可选的例如图5所示,利用上述文本纠错方法提取对象文本502(例如“天启晴朗”)的第一特征以及第二特征,并基于第一特征以及第二特征生成三个纠正方案504,其中,每个纠正方案504都携带有对应的纠错置信度;假设目标文本506的输出条件为纠正置信度大于等于60,则在三个纠正方案504中只有纠正方案504“天气晴朗”对应的纠正置信度满足该输出条件,进而将纠正方案504“天气晴朗”作为目标文本506输出。
需要说明的是,获取待纠错的对象文本;获取对象文本的第一特征以及第二特征,其中,第一特征用于表示对象文本中每个字符各自与预先构建的纠错语料集中的纠错字符间的字符相似度,纠错语料集中包括根据修改输入文本行为获取到的纠错字符,第二特征用于表示每个字符在对象文本中的上下文语义信息;基于第一特征以及第二特征进行整合计算,得到纠错置信度,其中,纠错置信度用于表示对象文本中每个字符各自的纠错概率;根据纠错置信度确定对对象文本纠错后的目标文本。
进一步举例说明,可选的上述文本纠错方法的应用场景例如图6所示,在文本纠错界面上显示有用户输入的对象文本602“天启晴朗”,例如图6(a)所示;进一步,在图6(b)所示的实施例中,显示基于对象文本602“天启晴朗”输出的纠错后的目标文本604“天气晴朗”。
通过本申请提供的实施例,获取待纠错的对象文本;获取对象文本的第一特征以及第二特征,其中,第一特征用于表示对象文本中每个字符各自与预先构建的纠错语料集中的纠错字符间的字符相似度,纠错语料集中包括根据修改输入文本行为获取到的纠错字符,第二特征用于表示每个字符在对象文本中的上下文语义信息;基于第一特征以及第二特征进行整合计算,得到纠错置信度,其中,纠错置信度用于表示对象文本中每个字符各自的纠错概率;根据纠错置信度确定对对象文本纠错后的目标文本,通过结合对象文本中每个字符的上下文语义信息以及与纠错字符间的字符相似度,进而达到了提高文本纠错过程中参考信息的全面性的目的,从而实现了提高文本纠错的准确性的技术效果。
作为一种可选的方案,获取对象文本的第一特征,包括:
S1,获取对象文本对应的第一词向量;
S2,利用目标映射函数,从对象文本中获取字符相似度达到相似度阈值的字符对应的第二词向量,其中,目标映射函数用于获取字符对应的纠错字符的词向量;
S3,基于第一词向量以及第二词向量,获取第一特征。
可选的,在本实施例中,目标映射函数可以但不限于为一个从各易混淆字符原词向量表示到新词向量表示的映射函数,其中,该映射函数可以但不限用于线性映射或非线性映射。
需要说明的是,获取对象文本对应的第一词向量;利用目标映射函数,从对象文本中获取字符相似度达到相似度阈值的字符对应的第二词向量,其中,目标映射函数用于获取字符对应的纠错字符的词向量;基于第一词向量以及第二词向量,获取第一特征。
通过本申请提供的实施例,获取对象文本对应的第一词向量;利用目标映射函数,从对象文本中获取字符相似度达到相似度阈值的字符对应的第二词向量,其中,目标映射函数用于获取字符对应的纠错字符的词向量;基于第一词向量以及第二词向量,获取第一特征,利用目标映射函数快速转换向量的方式,进而达到了快速获取第一特征的技术目的,从而实现了提高第一特征的获取效率的技术效果。
作为一种可选的方案,利用目标映射函数,从对象文本中获取字符相似度达到相似度阈值的字符对应的第二词向量,包括:
S1,获取对象文本中第一字符相似度达到第一相似度阈值的字符对应的第一子词向量;
S2,获取对象文本中第二字符相似度达到第二相似度阈值的字符对应的第二子词向量;
S3,对第一子词向量以及第二子词向量进行加权计算,获取第二词向量。
可选的,在本实施例中,第一子词向量以及第二子词向量可以但不限用于表示对象文本中的每个字符可以但不限于存在多个子向量,换言之,第一、第二在此仅为举例,并不做数量上的限定。同理,第一字符相似度与第二字符相似度也可以但不限用于表示字符相似度的类型可以但不限于存在多个,不同类型的字符相似度可以但不限于对应不同的相似度阈值。
需要说明的是,获取对象文本中第一字符相似度达到第一相似度阈值的字符对应的第一子词向量;获取对象文本中第二字符相似度达到第二相似度阈值的字符对应的第二子词向量;对第一子词向量以及第二子词向量进行加权计算,获取第二词向量。
进一步举例说明,可选的假设第一字符相似度用于表示26键场景下的字符的拼音相似度,例如在26键场景下的字符“天”的拼音为“tian”,而字符“田”的拼音也为“tian”,则确定字符“天”与字符“田”的第一字符相似度即为100(即最高程度);再假设第二字符相似度用于表示9键场景下的字符的键位相似度,例如在9键场景下的字符“天”的拼音为“tian”,对应输入的键位为“8426”,而字符“条”的拼音为“tiao”,但对应输入的键位也为“8426”,则确定字符“天”与字符“条”的第二字符相似度即为100(即最高程度)。除此之外,字符相似度还可以包括以下至少之一:26键场景下的键位相似度、26键场景下的拼音相似度、9键场景下的键位相似度、9键场景下的键位相似度、字形相似度等,在此仅为举例,不做限定。
通过本申请提供的实施例,获取对象文本中第一字符相似度达到第一相似度阈值的字符对应的第一子词向量;获取对象文本中第二字符相似度达到第二相似度阈值的字符对应的第二子词向量;对第一子词向量以及第二子词向量进行加权计算,获取第二词向量,利用结合多种类型的相似度以加权计算第二词向量的方式,进而达到了获取更为准确的第二词向量的技术目的,从而实现了提高第二词向量的准确性的技术效果。
作为一种可选的方案,获取对象文本的第二特征,包括:
S1,获取对象文本中每个字符对应的第三词向量,其中,第三词向量用于表示对象文本中每个字符之间的上下文语义关系;
S2,对每个字符对应的第三词向量进行整合计算,获取第二特征。
可选的,在本实施例中,对象文本中每个字符之间的上下文语义关系可以但不限用于表示上下文语音信息,其中,上下文语义信息可以但不限用于表示字符在文本中所表达的语义,而获取上下文语义信息的意义在于,获知对应字符在文本中所表达的语义是否正确,如果不正确,则表示该字符应由其他表达语义正确的字符替代,以完成文本的纠错。
需要说明的是,获取对象文本中每个字符对应的第三词向量,其中,第三词向量用于表示对象文本中每个字符之间的上下文语义关系;对每个字符对应的第三词向量进行整合计算,获取第二特征。
通过本申请提供的实施例,获取对象文本中每个字符对应的第三词向量,其中,第三词向量用于表示对象文本中每个字符之间的上下文语义关系;对每个字符对应的第三词向量进行整合计算,获取第二特征,进而达到了获取可以表示良好的上下文语义信息的第二特征的技术目的,从而实现了提高第二特征的表示能力的技术效果。
作为一种可选的方案,获取对象文本的第一特征以及第二特征,包括:
S1,将对象文本输入文本纠错模型,其中,文本纠错模型为利用多个第一样本文本进行训练后得到的用于纠错文本的神经网络模型;
S2,在文本纠错模型的第一网络结构中提取第一特征,其中,第一网络结构用于对对象文本和基于纠错语料集构建的相似图进行卷积计算;
S3,在文本纠错模型的第二网络结构中提取第二特征,其中,第二网络结构为利用多个第二样本文本进行训练后得到的神经网络模型,第二网络结构用于对对象文本进行上下文语义分析。
可选的,在本实施例中,第一网络结构可以但不限于为图卷积神经网络,其中,图卷积神经网络可以但不限用于特征提取,且特征提取对象为图数据。在上述文本纠错方法中,图卷积神经网络可以但不限用于建模各字符间拼音相似度信息,学习一个从各易混淆字符原词向量表示E到新表示U的映射函数,而新表示U在字符原语义信息的基础上加入了字符间拼音相似度信息。映射函数包括两个部分,一个图卷积运算和一个图组合运算,其中图组合运算为可选运算,当有多个相似图时,用于整合多个图信息,例如将上述易混淆字符集(即纠错语料集)按同音字符、近音字符、同键字符、近键字符等4个相似字符图分别建模。
具体的,例如相似字符图利用易混淆字符集构建,每个相似字符图可以但不限于都是一个NxN的二元邻接矩阵,N为混淆字符集中的字符数。(i,j)对在混淆集中,则字符i和字符j的边Aij为1,否则为0。
进一步举例说明,可选的例如图7所示,图卷积操作使用由易混淆字符集702构建的相似字符图704进行卷积运算,吸收图中拼音相似字符信息,具体计算方法如式(1)所示:
图组合运算用于组合多相似图信息,主要可通过加权实现,具体计算方法如式(2)所示:
其中,Cl表示第l层各图卷积后加权结果,表示第l层第k个图卷积结果加权系数,fk(Ak,Hl)表示第k个图卷积操作结果,Ak表示第k个相似字符图。其中加权系数可以根据实际进行设定,也可以通过网络学习,在此不做限定。
此外,为保持原有语义信息,将之前层所有输出累加作为输出,具体计算如式(3)所示:
其中,Hl+1表示第l+1层输入,即l层输出,Cl表示第l层各图卷积后加权结果。最后一层输出即为同时带有字符语义信息和字符间拼音相似度的新表示U,不在易混淆字符集702中的字符直接取词向量Ei,即下述公式(4)所示:
可选的,在本实施例中,第二网络结构可以但不限于为深度神经网络语义模型,其中,深度神经网络语义模型可以但不限于选用BERT(Bidirectional EncoderRepresentations from Transformer)及相关改进模型,通过随机遮蔽部分字符,训练模型根据上下文预测恢复原字符,在此仅为举例,不做限定。
可选的,在本实施例中,可以但不限基于预训练的第二网络结构,加入第二网络结构,使用挖掘的纠错字符所构成的纠错语料集,训练得到文本纠错模型,其中,文本纠错模型可以多拿不限于为深度神经网络纠错模型。
进一步举例说明,可选的例如图8所示,假设文本纠错模型为深度神经网络纠错模型802,第一网络结构为用于建模字符拼音相似度的图卷积模型804,第二网络结构为用于建模上下文语义信息的深度语义模型806,在以对象文本808为“今天天启晴”为例说明,其中,词向量810为输入待纠错文本(即对象文本808)对应词向量;Vi表示位置i处经过深度语义模型804计算提取的上下文语义向量;表示权重812为经过图卷积模型806建模后的带有字符间拼音相似度信息的词向量表示权重,不在易混淆字符集内字符未经过图卷积网络进行相似度建模,则直接使用原词向量;符号表示相应位置语义向量Vi与表示权重812的点乘运算,得到各字符概率,取概率最大的字符为预测的纠错字符(例如“启”与“气”),进而基于纠错字符输出目标文本814。
再者,可选的利用基于根据输入法用户提供的编辑数据,继续挖掘纠错字符并构建纠错语料集,以及输入至上述深度神经网络纠错模型802,对目标函数进行优化调整深度神经网络纠错模型802的模型参数,如采用随机梯度下降方法优化,优化结束后,得到训练好的深度神经网络纠错模型802,使得深度神经网络纠错模型802可用于后续基于拼音输入的文本纠错任务。
需要说明的是,将对象文本输入文本纠错模型,其中,文本纠错模型为利用多个第一样本文本进行训练后得到的用于纠错文本的神经网络模型;在文本纠错模型的第一网络结构中提取第一特征,其中,第一网络结构用于对对象文本和基于纠错语料集构建的相似图进行卷积计算;在文本纠错模型的第二网络结构中提取第二特征,其中,第二网络结构为利用多个第二样本文本进行训练后得到的神经网络模型,第二网络结构用于对对象文本进行上下文语义分析。
进一步举例说明,可选的例如图8所示,上述文本纠错方法可基于深度神经网络纠错模型802完成,其中,基于并行的图卷积模型806以及深度语义模型804分别提取对象文本808的第一特征以及第二特征,进而输出第一特征以及第二特征对应的目标文本814。
通过本申请提供的实施例,将对象文本输入文本纠错模型,其中,文本纠错模型为利用多个第一样本文本进行训练后得到的用于纠错文本的神经网络模型;在文本纠错模型的第一网络结构中提取第一特征,其中,第一网络结构用于对对象文本和基于纠错语料集构建的相似图进行卷积计算;在文本纠错模型的第二网络结构中提取第二特征,其中,第二网络结构为利用多个第二样本文本进行训练后得到的神经网络模型,第二网络结构用于对对象文本进行上下文语义分析,达到了自动化完成文本纠正的目的,实现了提高文本纠正的效率的效果。
作为一种可选的方案,在获取待纠错的对象文本之前,包括:
S1,在检测到初始文本字符被修改的编辑操作情况下,获取目标修改字符集,其中,目标修改字符集包括初始文本字符中被替换的第一修改字符和用于替换第一修改字符的第二修改字符;
S2,基于第一修改字符以及第二修改字符,获取初始文本字符对应的候选纠错字符;
S3,根据候选纠错字符构建纠错语料集。
可选的,在本实施例中,编辑操作可以但不限于包括删除操作、替换操作、添加操作等,以删除操作为例说明,在用户已输入字符“一”的情况下,可利用该删除操作删除已输入的字符“一”;以替换操作为例说明,在用户已输入字符“一”的情况下,可利用该替换操作,使用想要输入的字符“二”替换掉已输入的字符“一”;以添加操作为例说明,在用户已输入字符“一”的情况下,可利用该添加操作删除,在已输入的字符“一”的前置位或后置位添加想要输入的字符“二”。
需要说明的是,在检测到初始文本字符被修改的编辑操作情况下,获取目标修改字符集,其中,目标修改字符集包括初始文本字符中被替换的第一修改字符和用于替换第一修改字符的第二修改字符;基于第一修改字符以及第二修改字符,获取初始文本字符对应的候选纠错字符;根据候选纠错字符构建纠错语料集。
进一步举例说明,可选的例如在图3所示的实施例中,编辑操作即为删除操作,第一修改字符以及初始文本字符都为字符“自”,第二修改字符即为字符“子”,进而基于字符“自”以及字符“子”获取初始文本字符对应的候选纠错字符,其中,在图3所示的实施例中,候选纠错字符为用于表示字符“自”以及字符“子”的字符对。
进一步举例说明,可选的例如在图9所示,假设编辑操作为替换操作,则如步骤S902所示,执行编辑操作,以及在执行编辑操作后,将初始文本字符902中的字符“自”替换为字符“日子”,其中,字符“自”即为第一修改字符904,字符“日子”即为第二修改字符906,候选纠错字符908即包括了第一修改字符904以及第二修改字符906。
通过本申请提供的实施例,在检测到初始文本字符被修改的编辑操作情况下,获取目标修改字符集,其中,目标修改字符集包括初始文本字符中被替换的第一修改字符和用于替换第一修改字符的第二修改字符;基于第一修改字符以及第二修改字符,获取初始文本字符对应的候选纠错字符;根据候选纠错字符构建纠错语料集,达到了提高候选纠错字符与用户的编辑操作的相关度的目的,实现了提高纠错语料集中的纠错字符的准确性的效果。
作为一种可选的方案,基于第一修改字符以及第二修改字符,获取初始文本字符对应的候选纠错字符,包括:
S1,获取每个目标修改字符集中第一修改字符以及第二修改字符之间的目标相似度,其中,目标相似度与用于表示第一修改字符以及第二修改字符之间产生混淆的概率呈正相关关系;
S2,将目标相似度达到第一阈值的第一修改字符以及第二修改字符,确定为候选纠错字符。
可选的,在本实施例中,由于用户输入过程的编辑操作并不一定都是发现错误进行纠错,也有可能是输入意图发生改变,故需通过判断编辑操作前后变化的字符拼音相似性,以获取纠错字符。
需要说明的是,获取每个目标修改字符集中第一修改字符以及第二修改字符之间的目标相似度,其中,目标相似度与用于表示第一修改字符以及第二修改字符之间产生混淆的概率呈正相关关系;将目标相似度达到第一阈值的第一修改字符以及第二修改字符,确定为候选纠错字符。
通过本申请提供的实施例,获取每个目标修改字符集中第一修改字符以及第二修改字符之间的目标相似度,其中,目标相似度与用于表示第一修改字符以及第二修改字符之间产生混淆的概率呈正相关关系;将目标相似度达到第一阈值的第一修改字符以及第二修改字符,确定为候选纠错字符,达到了充分考虑用户的输入意图的目的,实现了提高纠错字符的获取准确性的效果。
作为一种可选的方案,获取每个目标修改字符集中第一修改字符以及第二修改字符之间的目标相似度,包括以下至少之一:
S1,获取第一修改字符对应的第一全拼拼音字符与第二修改字符对应的第二全拼拼音字符的第一相似度;
S2,获取第一修改字符对应的第一简拼拼音字符与第二修改字符对应的第二简拼拼音字符的第二相似度;
S3,获取第一全拼拼音字符对应的第一键位字符与第二全拼拼音字符对应的第二键位字符的第三相似度;
S4,获取第一简拼拼音字符对应的第三键位字符与第二简拼拼音字符对应的第四键位字符的第四相似度。
可选的,在本实施例中,目标相似性可以但不限于包括以下至少之一:(1)同音相似度,即回删内容拼音与修改后内容拼音相同,如“天气”和“天启”的拼音都为“tianqi”;(2)近音相似度,即回删内容拼音与修改后内容拼音相近,其中包括尾简拼(最后一个字拼音输入不完整)相同,如“主要”和“注意”的尾简拼都是“zhuy”,或完整拼音编辑距离为1,如“明天”和“民田”的拼音“mingtian”和“mintian”相差一个字母“g”;(4)同键相似度,即回删内容拼音与修改后内容拼音在9键输入下键位相同,如“希望”和“一样”在9键输入下按键序列都为“949264”;(4)近键相似度,即回删内容拼音与修改后内容拼音在9键输入下键位相近,如“问你”和“怎么”在9键输入下尾简拼按键序列都为“9366”。这些拼音相似的内容在拼音输入过程中,由于按键相同或相近且候选展示位置靠近容易误触,导致拼音输入过程中的绝大多数错误。
可选的,在本实施例中,通过比较编辑操作前后内容是否符合上述目标相似性,以获取纠错字符。例如用户首先输入上屏了“今天天启晴”,然后回删了“启”,修改为“气”,最终文本为“今天天气晴”,其中“启”与“气”符合拼音相似性中的同音,故可将该语料对作为候选纠错语料。
需要说明的是,获取第一修改字符对应的第一全拼拼音字符与第二修改字符对应的第二全拼拼音字符的第一相似度;获取第一修改字符对应的第一简拼拼音字符与第二修改字符对应的第二简拼拼音字符的第二相似度;获取第一全拼拼音字符对应的第一键位字符与第二全拼拼音字符对应的第二键位字符的第三相似度;获取第一简拼拼音字符对应的第三键位字符与第二简拼拼音字符对应的第四键位字符的第四相似度。
通过本申请提供的实施例,获取第一修改字符对应的第一全拼拼音字符与第二修改字符对应的第二全拼拼音字符的第一相似度;获取第一修改字符对应的第一简拼拼音字符与第二修改字符对应的第二简拼拼音字符的第二相似度;获取第一全拼拼音字符对应的第一键位字符与第二全拼拼音字符对应的第二键位字符的第三相似度;获取第一简拼拼音字符对应的第三键位字符与第二简拼拼音字符对应的第四键位字符的第四相似度,达到了基于更全面的相似度信息以获取纠错字符的目的,实现了提高纠错字符的获取准确性的效果。
作为一种可选的方案,根据候选纠错字符构建纠错语料集包括:
S1,获取初始文本字符对应的第一语句通顺度;
S2,获取初始文本字符修改后的目标文本字符对应的第二语句通顺度;
S3,在第二语句通顺度与第一语句通顺度之间的通顺度差值达到第二阈值的情况下,将候选纠错字符确定为纠错语料集中的纠错字符。
可选的,在本实施例中,考虑到符合目标相似性的候选纠错字符并不一定都是合适的纠错字符,如将“让他们证明一下”回删“他们”修改为“让她们证明一下”,并没有足够信息说明修改前语句存在错误。进一步,通过计算编辑操作执行前后的语句通顺度,以获取最终纠错字符,以保障纠错前语句的确存在错误,纠错后语句的正确性,纠错后语句相对于纠错前语句通顺度明显提升,以提高纠错语料质量。
可选的,在本实施例中,语句通顺度可通过语言模型计算语句概率进行度量。其中,语句通顺度可以多拿不限于是该语句是否符合人类表达习惯的体现,语句概率通过采样该语句在人类表达中的出现频率,从统计学角度反应了该语句的通顺程度。自然语言处理中一般按语句中各词的联合概率计算语句的概率,具体计算方法如式(5)所示:
其中,P(S)表示语句S的概率,w1w2…wN表示组成该语句S的词序列,N表示语句包含的词数,wi表示第i个词,p(wi|w1w2…wi-1)表示已知前i-1个词情况下第i个词的条件概率。
可选的,在本实施例中,将初始文本字符以及目标文本字符分别输入语句识别模型,其中,为利用多个样本语句进行训练后得到的用于识别语句的神经网络模型;获取语句识别模型输出的语句识别结果,其中,语句识别结果用于表示第二语句通顺度与第一语句通顺度之间的通顺度差值达到第二阈值,语句识别结果还用于指示将候选纠错字符确定为纠错语料集中的纠错字符。
可选的,在本实施例中,执行以下步骤,直至遍历初始文本字符以及目标文本字符中的每个字符:
S1,获取初始文本字符中的第i个字符在初始文本字符中的第一条件概率,其中,第一条件概率用于表示根据初始文本字符中,除第i个字符外的其他字符以确定第i个字符的概率,i大于等于1小于等于初始文本字符的最大字符数;
S2,获取目标文本字符中的第j个字符在目标文本字符中的第二条件概率,其中,第二条件概率用于表示根据目标文本字符中,除第j个字符外的其他字符以确定第j个字符的概率,j大于等于1小于等于目标文本字符的最大字符数;
S3,在获取到初始文本字符中的每个字符的第一条件概率的情况下,对每个字符的第一条件概率进行联合计算,获取第一语句通顺度;
S4,在获取到目标文本字符中的每个字符的第二条件概率的情况下,对每个字符的第二条件概率进行联合计算,获取第二语句通顺度。
进一步举例说明,可选的假设要度量“今天天启晴”与“今天天气晴”的语句通顺度,则分别计算两者的概率,即:
P(“今天天气晴”)=P(“今天”)P(“天气”|“今天”)P(“晴”|“今天天气”);
P(“今天天启晴”)=P(“今天”)P(“天启”|“今天”)P(“晴”|“今天天启”);
显然“今天”后接“天气”的概率P(“天气”|“今天”)以及“今天天气”后接“晴”的概率P(“晴”|“今天天气”)要高于“今天”后接“天启”的概率以及“今天天气”后接“晴”的概率。所以“今天天气晴”的概率明显高于“今天天气晴”,“今天天气晴”具有更好的通顺度,进而将对应的候选纠错字符确定为纠错语料集中的纠错字符。进一步,采集相同度量方式,对目标文本字符中的每个字符进行通顺序的判断计算,以获取对应的语句通顺度。
需要说明的是,获取初始文本字符对应的第一语句通顺度;获取初始文本字符修改后的目标文本字符对应的第二语句通顺度;在第二语句通顺度与第一语句通顺度之间的通顺度差值达到第二阈值的情况下,将候选纠错字符确定为纠错语料集中的纠错字符。
通过本申请提供的实施例,获取初始文本字符对应的第一语句通顺度;获取初始文本字符修改后的目标文本字符对应的第二语句通顺度;在第二语句通顺度与第一语句通顺度之间的通顺度差值达到第二阈值的情况下,将候选纠错字符确定为纠错语料集中的纠错字符,达到了基于语句通顺度对候选纠错字进行再次筛选的目的,实现了纠错语料集中的纠错字符的准确性的效果。
作为一种可选的方案,在获取待纠错的目标文本之前,包括:
S1,获取多个第二样本文本;
S2,对每个第二样本文本中的文本字符进行遮蔽处理,得到遮蔽后的多个第二样本文本,其中,每个遮蔽后的第二样本文本中包括原文本字符以及用于遮蔽原文本字符的遮蔽文本字符;
S3,将遮蔽后的多个第二样本文本输入初始第二网络结构,以训练得到第二网络结构。
可选的,在本实施例中,第二样本文本可以但不限于为任意正常文本语料。进一步举例说明,例如将第二样本文本中的文本语句进行随机遮蔽一个或多个字符,一般80%使用[mask]替换,10%使用其他字符,10%使用原字符,进而输入遮蔽处理后文本,经初始第二网络结构前向计算得到预测结果,以及根据预测结果与实际字符标签误差,反向传播调整第二网络结构的模型参数,并迭代至预测结果指定的精度达到第一训练阈值,完成训练,得到训练好的第二网络结构。
需要说明的是,获取多个第二样本文本;对每个第二样本文本中的文本字符进行遮蔽处理,得到遮蔽后的多个第二样本文本,其中,每个遮蔽后的第二样本文本中包括原文本字符以及用于遮蔽原文本字符的遮蔽文本字符;将遮蔽后的多个第二样本文本输入初始第二网络结构,以训练得到第二网络结构。
通过本申请提供的实施例,获取多个第二样本文本;对每个第二样本文本中的文本字符进行遮蔽处理,得到遮蔽后的多个第二样本文本,其中,每个遮蔽后的第二样本文本中包括原文本字符以及用于遮蔽原文本字符的遮蔽文本字符;将遮蔽后的多个第二样本文本输入初始第二网络结构,以训练得到第二网络结构,达到了训练完整的第二网络结构的目的,实现了提高第二网络结构的完整性的效果。
作为一种可选的方案,在将遮蔽后的多个第二样本文本输入初始第二网络结构,以训练得到第二网络结构之后,包括:
S1,获取多个第一样本文本;
S2,对每个第一样本文本中的文本字符进行标记处理,得到标记后的多个第一样本文本,其中,每个标记后的第一样本文本中包括携带有纠错标记的原文本字符以及用于纠错原文本字符的修改文本字符;
S3,将标记后的多个第一样本文本输入初始文本纠错模型,以训练得到文本纠错模型。
可选的,在本实施例中,使用上述文本纠错方法挖掘的纠错字符,提取其中修改前后内容,即可构成纠错语料集,如上述示例中的“启”修改为“气”,则“启”和“气”为纠错字符对,提取语料中常见纠错字符对,用于后续第二网络结构的训练。
可选的,在本实施例中,文本纠错模型的训练是基于上述训练好的第一网络结构,已具有良好的提取上下文语义信息能力,避免了纠错字符数量不足而导致的模型训练过拟合问题。
需要说明的是,获取多个第一样本文本;对每个第一样本文本中的文本字符进行标记处理,得到标记后的多个第一样本文本,其中,每个标记后的第一样本文本中包括携带有纠错标记的原文本字符以及用于纠错原文本字符的修改文本字符;将标记后的多个第一样本文本输入初始文本纠错模型,以训练得到文本纠错模型。
进一步举例说明,可选的例如将待纠错的对象文本输入文本纠错模型,即可得到各位置上下文语义向量Vi,将第二网络结构中提取的上下文语义向量Vi与第一网络结构中生成的带有字符语义信息和字符间拼音相似度的向量U,计算输出预测概率,具体计算如式(6)所示:
通过目标函数比较预测结果与真实标签差距,由优化算法迭代更新网络模型参数,如随机梯度下降算法,此处不做具体限定。迭代训练至指定条件生成最终的文本纠错模型。
可选的,在本实施例中,在训练得到文本纠错模型之后,输入待纠错文本至训练好的文本纠错模型,分别经过其中的第二网络结构部分提取上下文语义信息和第一网络结构部分提取字符语义及拼音相似度信息,结合两方面信息运算输出预测结果,包括纠错结果及其纠错置信度,可选的,对纠错置信度执行过滤,输出最终纠错结果,具体的,通过设置置信度阈值,对模型纠错结果置信度超过阈值的部分进行纠错,对纠错模型纠错结果进行过滤,控制纠错精度与纠错召回。
通过本申请提供的实施例,获取多个第一样本文本;对每个第一样本文本中的文本字符进行标记处理,得到标记后的多个第一样本文本,其中,每个标记后的第一样本文本中包括携带有纠错标记的原文本字符以及用于纠错原文本字符的修改文本字符;将标记后的多个第一样本文本输入初始文本纠错模型,以训练得到文本纠错模型,达到了训练完整的文本纠错模型的目的,实现了提高文本纠错模型的完整性的效果。
作为一种可选的方案,根据纠错置信度确定对对象文本纠错后的目标文本,包括:
S1,将达到第三阈值的纠错置信度确定为目标纠错置信度,其中,目标纠错置信度对应有对象文本中待纠错的原始字符,以及用于纠错原始字符的纠错字符;
S2,基于原始字符以及纠错字符纠错对象文本,以确定目标文本。
需要说明的是,将达到第三阈值的纠错置信度确定为目标纠错置信度,其中,目标纠错置信度对应有对象文本中待纠错的原始字符,以及用于纠错原始字符的纠错字符;基于原始字符以及纠错字符纠错对象文本,以确定目标文本。
进一步举例说明,可选的例如图5所示,假设第三阈值为60,则将纠错置信度到60的纠正方案504“天气晴朗”确定为目标文本;此外,假设第三阈值为90,则无纠错置信度到90的纠正方案504,进而选择保留原对象文本502,或者说,将原始的对象文本502作为目标文本506输出。
通过本申请提供的实施例,将达到第三阈值的纠错置信度确定为目标纠错置信度,其中,目标纠错置信度对应有对象文本中待纠错的原始字符,以及用于纠错原始字符的纠错字符;基于原始字符以及纠错字符纠错对象文本,以确定目标文本,达到了输出最优目标文本的目的,实现了提高文本纠错的效率的效果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述文本纠错方法的文本纠错装置。如图10所示,该装置包括:
第一获取单元1002,用于获取待纠错的对象文本;
第二获取单元1004,用于获取对象文本的第一特征以及第二特征,其中,第一特征用于表示对象文本中每个字符各自与预先构建的纠错语料集中的纠错字符间的字符相似度,纠错语料集中包括根据修改输入文本行为获取到的纠错字符,第二特征用于表示每个字符在对象文本中的上下文语义信息;
第一确定单元1006,用于基于第一特征以及第二特征进行整合计算,得到纠错置信度,其中,纠错置信度用于表示对象文本中每个字符各自的纠错概率;
第二确定单元1008,用于根据纠错置信度确定对对象文本纠错后的目标文本。
可选的,在本实施例中,上述文本纠错可以但不限于应用在基于拼音输入的文本纠错场景,或者说,在上述文本纠错中,针对的是由拼音完成撰写或输入的对象文本。此外,充分考虑了拼音输入文本场景下可能会发生的各种形式错误,并针对该各种形式错误构建了纠错语料集,进而通过结合字符各自与预先构建的纠错语料集中的纠错字符间的字符相似度以及字符在整个文本中的上下文语义信息,确定用于纠正原始文本的参考信息(即纠错置信度),相比于传统技术中的文本纠正,上述文本纠错中的参考信息更加全面,从而使得文本纠正的结果也更加准确。
可选的,在本实施例中,纠错语料集中可以但不限于存储有用户在实际的拼音输入文本场景下易混淆的字符对或字符集,且上述字符对或字符集可以但不限于分类存储,例如按照同音字符存储字符拼音一致的字符、按照近音字符存储字符拼音的相似度达到近音阈值的字符、按照相像字符存储字符结构的相似度达到相像阈值的字符、同键字符存储字符输入方式一致的字符、近键字符存储字符输入方式的相似度达到输入阈值的字符等。
可选的,在本实施例中,纠错置信度可以但不限用于评价对象文本的每个纠正方案,并在上述纠正方案中选择纠错置信度满足预设条件的唯一或多个纠正方案以纠正对象文本,从而确定目标文本。
具体实施例可以参考上述文本纠错中所示示例,本示例中在此不再赘述。
需要说明的是,获取待纠错的对象文本;获取对象文本的第一特征以及第二特征,其中,第一特征用于表示对象文本中每个字符各自与预先构建的纠错语料集中的纠错字符间的字符相似度,纠错语料集中包括根据修改输入文本行为获取到的纠错字符,第二特征用于表示每个字符在对象文本中的上下文语义信息;基于第一特征以及第二特征进行整合计算,得到纠错置信度,其中,纠错置信度用于表示对象文本中每个字符各自的纠错概率;根据纠错置信度确定对对象文本纠错后的目标文本。
通过本申请提供的实施例,获取待纠错的对象文本;获取对象文本的第一特征以及第二特征,其中,第一特征用于表示对象文本中每个字符各自与预先构建的纠错语料集中的纠错字符间的字符相似度,纠错语料集中包括根据修改输入文本行为获取到的纠错字符,第二特征用于表示每个字符在对象文本中的上下文语义信息;基于第一特征以及第二特征进行整合计算,得到纠错置信度,其中,纠错置信度用于表示对象文本中每个字符各自的纠错概率;根据纠错置信度确定对对象文本纠错后的目标文本,通过结合对象文本中每个字符的上下文语义信息以及与纠错字符间的字符相似度,进而达到了提高文本纠错过程中参考信息的全面性的目的,从而实现了提高文本纠错的准确性的技术效果。
作为一种可选的方案,第二获取单元1006,包括:
第一获取模块,用于获取对象文本对应的第一词向量;
第二获取模块,用于利用目标映射函数,从对象文本中获取字符相似度达到相似度阈值的字符对应的第二词向量,其中,目标映射函数用于获取字符对应的纠错字符的词向量;
第三获取模块,用于基于第一词向量以及第二词向量,获取第一特征。
具体实施例可以参考上述文本纠错方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,第二获取模块,包括:
第一获取子模块,用于获取对象文本中第一字符相似度达到第一相似度阈值的字符对应的第一子词向量;
第二获取子模块,用于获取对象文本中第二字符相似度达到第二相似度阈值的字符对应的第二子词向量;
第三获取子模块,用于对第一子词向量以及第二子词向量进行加权计算,获取第二词向量。
具体实施例可以参考上述文本纠错方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,第二获取单元1006,包括:
第四获取模块,用于获取对象文本中每个字符对应的第三词向量,其中,第三词向量用于表示对象文本中每个字符之间的上下文语义关系;
第五获取模块,用于对每个字符对应的第三词向量进行整合计算,获取第二特征。
具体实施例可以参考上述文本纠错方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,第二获取单元1006,包括:
输入模块,用于将对象文本输入文本纠错模型,其中,文本纠错模型为利用多个第一样本文本进行训练后得到的用于纠错文本的神经网络模型;
第一提取模块,用于在文本纠错模型的第一网络结构中提取第一特征,其中,第一网络结构用于对对象文本和基于纠错语料集构建的相似图进行卷积计算;
第二提取模块,用于在文本纠错模型的第二网络结构中提取第二特征,其中,第二网络结构为利用多个第二样本文本进行训练后得到的神经网络模型,第二网络结构用于对对象文本进行上下文语义分析。
具体实施例可以参考上述文本纠错方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,包括:
第三获取单元,用于在获取待纠错的对象文本之前,在检测到初始文本字符被修改的编辑操作情况下,获取目标修改字符集,其中,目标修改字符集包括初始文本字符中被替换的第一修改字符和用于替换第一修改字符的第二修改字符;
第四获取单元,用于在获取待纠错的对象文本之前,基于第一修改字符以及第二修改字符,获取初始文本字符对应的候选纠错字符;
构建单元,用于在获取待纠错的对象文本之前,根据候选纠错字符构建纠错语料集。
具体实施例可以参考上述文本纠错方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,第四获取单元,包括:
第六获取模块,用于获取每个目标修改字符集中第一修改字符以及第二修改字符之间的目标相似度,其中,目标相似度与用于表示第一修改字符以及第二修改字符之间产生混淆的概率呈正相关关系;
第一确定模块,用于将目标相似度达到第一阈值的第一修改字符以及第二修改字符,确定为候选纠错字符。
具体实施例可以参考上述文本纠错方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,第六获取模块,包括以下至少之一:
第四获取子模块,用于获取第一修改字符对应的第一全拼拼音字符与第二修改字符对应的第二全拼拼音字符的第一相似度;
第五获取子模块,用于获取第一修改字符对应的第一简拼拼音字符与第二修改字符对应的第二简拼拼音字符的第二相似度;
第六获取子模块,用于获取第一全拼拼音字符对应的第一键位字符与第二全拼拼音字符对应的第二键位字符的第三相似度;
第七获取子模块,用于获取第一简拼拼音字符对应的第三键位字符与第二简拼拼音字符对应的第四键位字符的第四相似度。
具体实施例可以参考上述文本纠错方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,构建单元,包括:
第七获取模块,用于获取初始文本字符对应的第一语句通顺度;
第八获取模块,用于获取初始文本字符修改后的目标文本字符对应的第二语句通顺度;
第二确定模块,用于在第二语句通顺度与第一语句通顺度之间的通顺度差值达到第二阈值的情况下,将候选纠错字符确定为纠错语料集中的纠错字符。
具体实施例可以参考上述文本纠错方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,包括:
执行模块,用于在将候选纠错字符确定为纠错语料集中的纠错字符之前,执行以下步骤,直至遍历初始文本字符以及目标文本字符中的每个字符:
第九获取模块,用于在将候选纠错字符确定为纠错语料集中的纠错字符之前,获取初始文本字符中的第i个字符在初始文本字符中的第一条件概率,其中,第一条件概率用于表示根据初始文本字符中,除第i个字符外的其他字符以确定第i个字符的概率,i大于等于1小于等于初始文本字符的最大字符数;
第十获取模块,用于在将候选纠错字符确定为纠错语料集中的纠错字符之前,获取目标文本字符中的第j个字符在目标文本字符中的第二条件概率,其中,第二条件概率用于表示根据目标文本字符中,除第j个字符外的其他字符以确定第j个字符的概率,j大于等于1小于等于目标文本字符的最大字符数;
第一计算模块,用于在将候选纠错字符确定为纠错语料集中的纠错字符之前,在获取到初始文本字符中的每个字符的第一条件概率的情况下,对每个字符的第一条件概率进行联合计算,获取第一语句通顺度;
第二计算模块,用于在将候选纠错字符确定为纠错语料集中的纠错字符之前,在获取到目标文本字符中的每个字符的第二条件概率的情况下,对每个字符的第二条件概率进行联合计算,获取第二语句通顺度。
具体实施例可以参考上述文本纠错方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,包括:
第十一获取模块,用于在获取待纠错的目标文本之前,获取多个第二样本文本;
遮蔽模块,用于在获取待纠错的目标文本之前,对每个第二样本文本中的文本字符进行遮蔽处理,得到遮蔽后的多个第二样本文本,其中,每个遮蔽后的第二样本文本中包括原文本字符以及用于遮蔽原文本字符的遮蔽文本字符;
第一训练模块,用于在获取待纠错的目标文本之前,将遮蔽后的多个第二样本文本输入初始第二网络结构,以训练得到第二网络结构。
具体实施例可以参考上述文本纠错方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,包括:
第十二获取模块,用于在将遮蔽后的多个第二样本文本输入初始第二网络结构,以训练得到第二网络结构之后,获取多个第一样本文本;
标记模块,用于在将遮蔽后的多个第二样本文本输入初始第二网络结构,以训练得到第二网络结构之后,对每个第一样本文本中的文本字符进行标记处理,得到标记后的多个第一样本文本,其中,每个标记后的第一样本文本中包括携带有纠错标记的原文本字符以及用于纠错原文本字符的修改文本字符;
第二训练模块,用于在将遮蔽后的多个第二样本文本输入初始第二网络结构,以训练得到第二网络结构之后,将标记后的多个第一样本文本输入初始文本纠错模型,以训练得到文本纠错模型。
具体实施例可以参考上述文本纠错方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,第二确定单元1010,包括:
第三确定模块,用于将达到第三阈值的纠错置信度确定为目标纠错置信度,其中,目标纠错置信度对应有对象文本中待纠错的原始字符,以及用于纠错原始字符的纠错字符;
第四确定模块,用于基于原始字符以及纠错字符纠错对象文本,以确定目标文本。
具体实施例可以参考上述文本纠错方法中所示示例,本示例中在此不再赘述。
根据本发明实施例的又一个方面,还提供了一种用于实施上述文本纠错方法的电子装置,如图11所示,该电子装置包括存储器1102和处理器1104,该存储器1102中存储有计算机程序,该处理器1104被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待纠错的对象文本;
S2,获取对象文本的第一特征以及第二特征,其中,第一特征用于表示对象文本中每个字符各自与预先构建的纠错语料集中的纠错字符间的字符相似度,纠错语料集中包括根据修改输入文本行为获取到的纠错字符,第二特征用于表示每个字符在对象文本中的上下文语义信息;
S3,基于第一特征以及第二特征进行整合计算,得到纠错置信度,其中,纠错置信度用于表示对象文本中每个字符各自的纠错概率;
S4,根据纠错置信度确定对对象文本纠错后的目标文本。
可选地,本领域普通技术人员可以理解,图11所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图11其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图11中所示更多或者更少的组件(如网络接口等),或者具有与图11所示不同的配置。
其中,存储器1102可用于存储软件程序以及模块,如本发明实施例中的文本纠错方法和装置对应的程序指令/模块,处理器1104通过运行存储在存储器1102内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本纠错方法。存储器1102可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1102可进一步包括相对于处理器1104远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1102具体可以但不限于用于存储对象文本、第一特征、第二特征以及目标文本等信息。作为一种示例,如图11所示,上述存储器1102中可以但不限于包括上述文本纠错装置中的第一获取单元1002、第二获取单元1004、第一确定单元1006及第二确定单元1008。此外,还可以包括但不限于上述文本纠错装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1106包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1106为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:显示器1108,用于显示上述对象文本、第一特征、第二特征以及目标文本等信息;和连接总线1110,用于连接上述电子装置中的各个模块部件。
根据本发明的实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待纠错的对象文本;
S2,获取对象文本的第一特征以及第二特征,其中,第一特征用于表示对象文本中每个字符各自与预先构建的纠错语料集中的纠错字符间的字符相似度,纠错语料集中包括根据修改输入文本行为获取到的纠错字符,第二特征用于表示每个字符在对象文本中的上下文语义信息;
S3,基于第一特征以及第二特征进行整合计算,得到纠错置信度,其中,纠错置信度用于表示对象文本中每个字符各自的纠错概率;
S4,根据纠错置信度确定对对象文本纠错后的目标文本。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (15)
1.一种文本纠错方法,其特征在于,包括:
获取待纠错的对象文本;
获取所述对象文本的第一特征以及第二特征,其中,所述第一特征用于表示所述对象文本中每个字符各自与预先构建的纠错语料集中的纠错字符间的字符相似度,所述纠错语料集中包括根据修改输入文本行为获取到的纠错字符,所述第二特征用于表示所述每个字符在所述对象文本中的上下文语义信息;
基于所述第一特征以及所述第二特征进行整合计算,得到纠错置信度,其中,所述纠错置信度用于表示所述对象文本中每个字符各自的纠错概率;
根据所述纠错置信度确定对所述对象文本纠错后的目标文本。
2.根据权利要求1所述的方法,其特征在于,所述获取所述对象文本的第一特征,包括:
获取所述对象文本对应的第一词向量;
利用目标映射函数,从所述对象文本中获取所述字符相似度达到相似度阈值的字符对应的第二词向量,其中,所述目标映射函数用于获取字符对应的纠错字符的词向量;
基于所述第一词向量以及所述第二词向量,获取所述第一特征。
3.根据权利要求2所述的方法,其特征在于,所述利用目标映射函数,从所述对象文本中获取所述字符相似度达到相似度阈值的字符对应的第二词向量,包括:
获取所述对象文本中第一字符相似度达到第一相似度阈值的字符对应的第一子词向量;
获取所述对象文本中第二字符相似度达到第二相似度阈值的字符对应的第二子词向量;
对所述第一子词向量以及所述第二子词向量进行加权计算,获取所述第二词向量。
4.根据权利要求1所述的方法,其特征在于,所述获取所述对象文本的第二特征,包括:
获取所述对象文本中每个字符对应的第三词向量,其中,所述第三词向量用于表示所述对象文本中每个字符之间的上下文语义关系;
对所述每个字符对应的第三词向量进行整合计算,获取所述第二特征。
5.根据权利要求1所述的方法,其特征在于,所述获取所述对象文本的第一特征以及第二特征,包括:
将所述对象文本输入文本纠错模型,其中,所述文本纠错模型为利用多个第一样本文本进行训练后得到的用于纠错文本的神经网络模型;
在所述文本纠错模型的第一网络结构中提取所述第一特征,其中,所述第一网络结构用于对所述对象文本和基于所述纠错语料集构建的相似图进行卷积计算;
在所述文本纠错模型的第二网络结构中提取所述第二特征,其中,所述第二网络结构为利用多个第二样本文本进行训练后得到的神经网络模型,所述第二网络结构用于对所述对象文本进行上下文语义分析。
6.根据权利要求1所述的方法,其特征在于,在所述获取待纠错的对象文本之前,包括:
在检测到初始文本字符被修改的编辑操作情况下,获取目标修改字符集,其中,所述目标修改字符集包括所述初始文本字符中被替换的第一修改字符和用于替换所述第一修改字符的第二修改字符;
基于所述第一修改字符以及所述第二修改字符,获取所述初始文本字符对应的候选纠错字符;
根据所述候选纠错字符构建所述纠错语料集。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第一修改字符以及所述第二修改字符,获取所述初始文本字符对应的候选纠错字符,包括:
获取每个所述目标修改字符集中所述第一修改字符以及所述第二修改字符之间的目标相似度,其中,所述目标相似度与用于表示所述第一修改字符以及所述第二修改字符之间产生混淆的概率呈正相关关系;
将所述目标相似度达到第一阈值的所述第一修改字符以及所述第二修改字符,确定为所述候选纠错字符。
8.根据权利要求7所述的方法,其特征在于,所述获取每个所述目标修改字符集中所述第一修改字符以及所述第二修改字符之间的目标相似度,包括以下至少之一:
获取所述第一修改字符对应的第一全拼拼音字符与所述第二修改字符对应的第二全拼拼音字符的第一相似度;
获取所述第一修改字符对应的第一简拼拼音字符与所述第二修改字符对应的第二简拼拼音字符的第二相似度;
获取所述第一全拼拼音字符对应的第一键位字符与所述第二全拼拼音字符对应的第二键位字符的第三相似度;
获取所述第一简拼拼音字符对应的第三键位字符与所述第二简拼拼音字符对应的第四键位字符的第四相似度。
9.根据权利要求6所述的方法,其特征在于,所述根据所述候选纠错字符构建所述纠错语料集,包括:
获取所述初始文本字符对应的第一语句通顺度;
获取所述初始文本字符修改后的目标文本字符对应的第二语句通顺度;
在所述第二语句通顺度与所述第一语句通顺度之间的通顺度差值达到第二阈值的情况下,将所述候选纠错字符确定为所述纠错语料集中的所述纠错字符。
10.根据权利要求5所述的方法,其特征在于,在所述获取待纠错的目标文本之前,包括:
获取所述多个第二样本文本;
对每个所述第二样本文本中的文本字符进行遮蔽处理,得到遮蔽后的所述多个第二样本文本,其中,每个遮蔽后的第二样本文本中包括原文本字符以及用于遮蔽所述原文本字符的遮蔽文本字符;
将遮蔽后的所述多个第二样本文本输入初始第二网络结构,以训练得到所述第二网络结构。
11.根据权利要求10所述的方法,其特征在于,在所述将遮蔽后的所述多个第二样本文本输入初始第二网络结构,以训练得到所述第二网络结构之后,包括:
获取所述多个第一样本文本;
对每个所述第一样本文本中的文本字符进行标记处理,得到标记后的所述多个第一样本文本,其中,每个标记后的第一样本文本中包括携带有纠错标记的原文本字符以及用于纠错所述原文本字符的修改文本字符;
将标记后的所述多个第一样本文本输入初始文本纠错模型,以训练得到所述文本纠错模型。
12.根据权利要求1至11中任一项所述的方法,其特征在于,所述根据所述纠错置信度确定对所述对象文本纠错后的目标文本,包括:
将达到第三阈值的所述纠错置信度确定为目标纠错置信度,其中,所述目标纠错置信度对应有所述对象文本中待纠错的原始字符,以及用于纠错所述原始字符的纠错字符;
基于所述原始字符以及所述纠错字符纠错所述对象文本,以确定所述目标文本。
13.一种文本纠错装置,其特征在于,包括:
第一获取单元,用于获取待纠错的对象文本;
第二获取单元,用于获取所述对象文本的第一特征以及第二特征,其中,所述第一特征用于表示所述对象文本中每个字符各自与预先构建的纠错语料集中的纠错字符间的字符相似度,所述纠错语料集中包括根据修改输入文本行为获取到的纠错字符,所述第二特征用于表示所述每个字符在所述对象文本中的上下文语义信息;
第一确定单元,用于基于所述第一特征以及所述第二特征进行整合计算,得到纠错置信度,得到纠错置信度,其中,所述纠错置信度用于表示所述对象文本中每个字符各自的纠错概率;
第二确定单元,用于根据所述纠错置信度确定对所述对象文本纠错后的目标文本。
14.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至12任一项中所述的方法。
15.一种电子装置,其特征在于,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至12任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011608194.5A CN112861518B (zh) | 2020-12-29 | 2020-12-29 | 文本纠错方法、装置和存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011608194.5A CN112861518B (zh) | 2020-12-29 | 2020-12-29 | 文本纠错方法、装置和存储介质及电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112861518A true CN112861518A (zh) | 2021-05-28 |
CN112861518B CN112861518B (zh) | 2023-12-01 |
Family
ID=75998502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011608194.5A Active CN112861518B (zh) | 2020-12-29 | 2020-12-29 | 文本纠错方法、装置和存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861518B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673228A (zh) * | 2021-09-01 | 2021-11-19 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本纠错方法、装置、计算机存储介质及计算机程序产品 |
CN113779970A (zh) * | 2021-09-24 | 2021-12-10 | 北京字跳网络技术有限公司 | 一种文本纠错方法及其相关设备 |
CN114328798A (zh) * | 2021-11-09 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 搜索文本的处理方法、装置、设备、存储介质和程序产品 |
CN114896965A (zh) * | 2022-05-17 | 2022-08-12 | 马上消费金融股份有限公司 | 文本纠正模型训练方法及装置、文本纠正方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11328317A (ja) * | 1998-05-11 | 1999-11-30 | Nippon Telegr & Teleph Corp <Ntt> | 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体 |
CN103942223A (zh) * | 2013-01-23 | 2014-07-23 | 北京百度网讯科技有限公司 | 一种对语言模型进行在线纠错的方法及系统 |
CN106959977A (zh) * | 2016-01-12 | 2017-07-18 | 广州市动景计算机科技有限公司 | 文字输入中的候选集合计算方法及装置、文字纠错方法及装置 |
WO2020211720A1 (zh) * | 2019-04-19 | 2020-10-22 | 腾讯科技(深圳)有限公司 | 数据处理方法和代词消解神经网络训练方法 |
CN111831789A (zh) * | 2020-06-17 | 2020-10-27 | 广东工业大学 | 一种基于多层语义特征提取结构的问答文本匹配方法 |
CN112016310A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、系统、设备及可读存储介质 |
CN112036162A (zh) * | 2020-11-06 | 2020-12-04 | 北京世纪好未来教育科技有限公司 | 文本纠错的适配方法、装置、电子设备及存储介质 |
-
2020
- 2020-12-29 CN CN202011608194.5A patent/CN112861518B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11328317A (ja) * | 1998-05-11 | 1999-11-30 | Nippon Telegr & Teleph Corp <Ntt> | 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体 |
CN103942223A (zh) * | 2013-01-23 | 2014-07-23 | 北京百度网讯科技有限公司 | 一种对语言模型进行在线纠错的方法及系统 |
CN106959977A (zh) * | 2016-01-12 | 2017-07-18 | 广州市动景计算机科技有限公司 | 文字输入中的候选集合计算方法及装置、文字纠错方法及装置 |
WO2020211720A1 (zh) * | 2019-04-19 | 2020-10-22 | 腾讯科技(深圳)有限公司 | 数据处理方法和代词消解神经网络训练方法 |
CN111831789A (zh) * | 2020-06-17 | 2020-10-27 | 广东工业大学 | 一种基于多层语义特征提取结构的问答文本匹配方法 |
CN112016310A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、系统、设备及可读存储介质 |
CN112036162A (zh) * | 2020-11-06 | 2020-12-04 | 北京世纪好未来教育科技有限公司 | 文本纠错的适配方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
XINGYI CHENG等: ""SpellGCN: Incorporating Phonological and Visual Similarities into Language Models for Chinese Spelling Check"", 《PROCEEDINGS OF THE 58TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
关晓龙: ""基于多源特征挖掘的查询纠错方法研究"", 《硕士电子期刊》, vol. 2016, no. 08 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673228A (zh) * | 2021-09-01 | 2021-11-19 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本纠错方法、装置、计算机存储介质及计算机程序产品 |
CN113779970A (zh) * | 2021-09-24 | 2021-12-10 | 北京字跳网络技术有限公司 | 一种文本纠错方法及其相关设备 |
CN114328798A (zh) * | 2021-11-09 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 搜索文本的处理方法、装置、设备、存储介质和程序产品 |
CN114328798B (zh) * | 2021-11-09 | 2024-02-23 | 腾讯科技(深圳)有限公司 | 搜索文本的处理方法、装置、设备、存储介质和程序产品 |
CN114896965A (zh) * | 2022-05-17 | 2022-08-12 | 马上消费金融股份有限公司 | 文本纠正模型训练方法及装置、文本纠正方法及装置 |
CN114896965B (zh) * | 2022-05-17 | 2023-09-12 | 马上消费金融股份有限公司 | 文本纠正模型训练方法及装置、文本纠正方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112861518B (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112861518B (zh) | 文本纠错方法、装置和存储介质及电子装置 | |
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN108038103B (zh) | 一种对文本序列进行分词的方法、装置和电子设备 | |
CN113254648B (zh) | 一种基于多层次图池化的文本情感分析方法 | |
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
CN110276023B (zh) | Poi变迁事件发现方法、装置、计算设备和介质 | |
CN111739514B (zh) | 一种语音识别方法、装置、设备及介质 | |
CN110598206A (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
CN107609185B (zh) | 用于poi的相似度计算的方法、装置、设备和计算机可读存储介质 | |
CN109885810A (zh) | 基于语义解析的人机问答方法、装置、设备和存储介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN111950287A (zh) | 一种基于文本的实体识别方法及相关装置 | |
CN110674255A (zh) | 文本内容审核方法及装置 | |
WO2021082086A1 (zh) | 机器阅读方法、系统、装置及存储介质 | |
CN112434131A (zh) | 基于人工智能的文本错误检测方法、装置、计算机设备 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN113076720B (zh) | 长文本的分段方法及装置、存储介质、电子装置 | |
CN114239805A (zh) | 跨模态检索神经网络及训练方法、装置、电子设备、介质 | |
CN113869458A (zh) | 文本分类模型的训练方法、文本分类方法及相关装置 | |
CN113436614A (zh) | 语音识别方法、装置、设备、系统及存储介质 | |
CN113723077A (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
CN110705279A (zh) | 一种词汇表的选择方法、装置及计算机可读存储介质 | |
CN114822519A (zh) | 中文语音识别纠错方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |