CN111310440B - 文本的纠错方法、装置和系统 - Google Patents

文本的纠错方法、装置和系统 Download PDF

Info

Publication number
CN111310440B
CN111310440B CN201811426082.0A CN201811426082A CN111310440B CN 111310440 B CN111310440 B CN 111310440B CN 201811426082 A CN201811426082 A CN 201811426082A CN 111310440 B CN111310440 B CN 111310440B
Authority
CN
China
Prior art keywords
word
candidate
target text
evaluation
candidate word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811426082.0A
Other languages
English (en)
Other versions
CN111310440A (zh
Inventor
包祖贻
李辰
徐光伟
刘恒友
李林琳
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811426082.0A priority Critical patent/CN111310440B/zh
Publication of CN111310440A publication Critical patent/CN111310440A/zh
Application granted granted Critical
Publication of CN111310440B publication Critical patent/CN111310440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种文本的纠错方法、装置和系统。其中,该方法包括:获取目标文本对应的候选词,其中,通过对目标文本中包含的词语进行变形得到候选词;然后采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值;根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词;基于用于进行纠错的至少一个候选词对目标文本进行纠错,达到了文本纠错的目的。本申请通过利用多种手段召回候选词,并使用多种评估方式对候选词进行打分,搜索排序得到用于进行纠错的至少一个候选词,进而解决了文本纠错准确度低和纠错代价高的技术问题。

Description

文本的纠错方法、装置和系统
技术领域
本发明涉及语言信息处理领域,具体而言,涉及一种文本的纠错方法、装置和系统。
背景技术
随着搜索技术的发展,各种输入法层出不穷。然而,用户在输入文本时,并不一定会对自己的输入进行检查修改,输入的单词中往往会存在拼写错误,拼写错误的单词在人与人的对话过程中,可以由人结合上下文解读其意义,相当于隐含地对文本进行了“纠正”。而对于相似度计算、搜索倒排等计算机系统来说,这样不标准的输入大大增加了输入的稀疏性,对系统性能产生不利的影响。所以一个性能良好的拼写纠错方法、系统是非常有价值的。
根据用户输入文本无法得到搜索结果的情况,现有技术提供了几种对用户输入的文本进行纠错的方法:方式1:将用户输入的文本分词与词典中的标准词进行匹配,若完全匹配,则不作处理,若未完全匹配,则查找与用户输入的文本分词相似度最高的标准词,并用该标准词进行搜索,若搜索成功则将该相似度最高的标准词反馈给用户确认,若搜索失败则不作处理。方式2:基于翻译的纠错模型,使用翻译模型对输入进行“翻译”,“翻译”为拼写正确的文本。
上述方式虽然都能在一定程度上对查询不成功的文本进行纠错,但是两种方式均存在缺陷。方式1只能对字形相似的分词进行纠错,即只有用户输入的文本分词字形较为准确的情况下才能准确的进行纠错。方式2的训练翻译模型需要大量的标注数据,训练代价非常高昂。因此,现有技术中文本的纠错方法难以满足用户需求。
针对现有技术中文本纠错准确度低和纠错代价高的技术问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本的纠错方法、装置和系统,以至少解决现有技术中文本纠错准确度低或纠错代价高的技术问题。
根据本发明实施例的一个方面,提供了一种文本的纠错方法,包括:获取目标文本对应的候选词,其中,通过对目标文本中包含的词语进行变形得到候选词;采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值;根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词;基于用于进行纠错的至少一个候选词对目标文本进行纠错。
根据本发明实施例的另一方面,还提供了一种文本的纠错装置,包括:获取模块,用于获取目标文本对应的候选词,其中,通过对目标文本中包含的词语进行变形得到候选词;评估模块,用于采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值;确定模块,用于根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词;纠错模块,用于基于用于进行纠错的至少一个候选词对目标文本进行纠错
根据本发明实施例的另一方面,还提供了一种存储介质,其中,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行如下步骤:获取目标文本对应的候选词,其中,通过对目标文本中包含的词语进行变形得到候选词;采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值;根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词;基于用于进行纠错的至少一个候选词对目标文本进行纠错。
根据本发明实施例的另一方面,还提供了一种处理器,其中,处理器用于运行程序,其中,程序运行时执行如下步骤:获取目标文本对应的候选词,其中,通过对目标文本中包含的词语进行变形得到候选词;采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值;根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词;基于用于进行纠错的至少一个候选词对目标文本进行纠错。
根据本发明实施例的另一方面,还提供了一种文本的纠错系统,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取目标文本对应的候选词,其中,通过对目标文本中包含的词语进行变形得到候选词;采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值;根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词;基于用于进行纠错的至少一个候选词对目标文本进行纠错。
在本发明实施例中,首先获取目标文本对应的候选词,其中,通过对目标文本中包含的词语进行变形得到候选词;然后采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值;再根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词;最后基于用于进行纠错的至少一个候选词对目标文本进行纠错,达到了文本纠错的目的。本申请利用多种手段召回候选词,并使用多种评估方式对候选词进行打分,搜索排序得到用于进行纠错的至少一个候选词。通过语言模型建模上下文信息,有更好的消歧能力,且方法简单开销小,与训练翻译模型相比,本申请无需或仅需非常少量的标注数据,开发成本低,也适用于快速迁移到各个领域,不仅解决了包含声调的文本的纠错问题,还解决了现有技术中文本纠错准确度低和纠错代价高的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了一种用于实现文本的纠错方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本申请实施例1的一种计算机终端(或移动设备)作为客户终端的示意图;
图3是根据本申请实施例1的一种可选的文本的纠错方法的流程图;
图4是根据本申请实施例1的一种可选的文本的纠错方法的原理图;
图5是根据本申请实施例2的一种可选的文本的纠错装置的示意图;以及
图6根据本发明实施例4的一种可选的计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
编辑距离:是指两个字串之间,由一个转换成另一个所需的最少编辑操作次数。
语言模型:是一种机器学习模型,用于建模一段连续分词序列的概率分布的模型。
实施例1
根据本发明实施例,提供了一种文本的纠错方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现文本的纠错方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的文本的纠错方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本的纠错方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
图1示出的硬件结构框图,不仅可以作为上述计算机终端10(或移动设备)的示例性框图,还可以作为服务器的示例性框图,一种可选实施例中,图2以框图示出了使用上述图1所示的计算机终端10(或移动设备)作为客户终端的一种实施例。如图2所示,计算机终端10(或移动设备)可以经由数据网络连接或电子连接到一个或多个服务器66。一种可选实施例中,上述计算机终端10(或移动设备)可以是移动计算设备等。数据网络连接可以是局域网连接、广域网连接、因特网连接,或其他类型的数据网络连接。计算机终端10(或移动设备)可以执行以连接到由一个服务器(例如安全服务器)或一组服务器执行的网络服务。网络服务器是基于网络的用户服务,诸如社交网络、云资源、电子邮件、在线支付或其他在线应用。
在上述运行环境下,本申请提供了如图3所示的文本的纠错方法。图3是根据本申请实施例1的一种可选的文本的纠错方法的流程图。如图3所示,该方法可以包括如下步骤:
步骤S31,获取目标文本对应的候选词,其中,通过对目标文本中包含的词语进行变形得到候选词。
一种可选方案中,上述目标文本可以为汉语、英语、越南语、法语、俄语等任何一种语言的文本,包括声调语言和非声调语言。上述获取候选词的方式包括词典召回、编辑距离召回、声调召回等。上述候选词包括上述目标文本的一种或多种相似变形,例如“开心”对应的候选词有“开心”、“开新”、“凯心”、“井心”等;“email”对应的候选词有“email”、“emaill”、“emeil”等;
Figure BDA0001881654340000051
对应的候选词有/>
Figure BDA0001881654340000052
“don”、/>
Figure BDA0001881654340000061
等。
上述变形可以是根据目标文本的字形、拼写、缩写、网络语等多种角度进行的变形。需要说明的是,候选词是目标文本的标准形式、缩写、错误形式、网络语等一种或多种相同词或相近词的集合,与用户的使用习惯有关。
步骤S33,采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值。
在上述步骤中,在获取目标文本对应的候选词之后,需要采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值。针对不同的语言,采用的评估方式可能不同;针对同一个候选词,多种评估方式所得到的评估值可能不同。
一种可选方案中,上述评估方式可以是编辑距离打分、词长变化打分、声调变化打分和语言模型打分等。对于非声调语言,如英语、俄语等,可以采用编辑距离打分、词长变化打分、语言模型打分等任意一种或多种结合的方式对每个候选词进行评估;对于声调语言,如汉语、越南语、法语等,可以采用编辑距离打分、词长变化打分、声调变化打分、语言模型打分等任意一种或多种结合的方式对每个候选词进行评估。
步骤S35,根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词。
在一种可选的实施例中,在得到每个候选词在多种评估方式下的评估值之后,可以对这些评估值做预处理,获得每个候选词的最终得分,然后按照最终得分由高到低的顺序,对每个候选词进行排序,最终将得分最高的候选词确定为用于进行纠错的至少一个候选词,即用于进行纠错的一个候选词。通过上述步骤,很好地克服了单一评估方式造成的纠错准确度低的问题。
在另一种可选的实施例中,在按照最终得分由高到低的顺序,对每个候选词进行排序后,还可以获得排名前N的用于进行纠错的N个候选词。
步骤S37,基于用于进行纠错的至少一个候选词对目标文本进行纠错。
在一种可选的实施例中,在用于进行纠错的候选词为一个最优候选词的情况下,直接输出由最优候选词组成的文本,完成对目标文本的纠错。在用于进行纠错的候选词为多个候选词的情况下,可以根据多个用于纠错的候选词生成多个目标文本,并将多个目标文本返回给用户,以供用户从中选择。
需要说明的是,本申请的应用场景不仅适用于各种输入法,也适用于搜索、翻译,包括商品搜索。
基于本申请上述实施例提供的方案,首先获取目标文本对应的候选词,其中,通过对目标文本中包含的词语进行变形得到候选词;然后采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值;再根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词;最后基于用于进行纠错的至少一个候选词对目标文本进行纠错,达到了文本纠错的目的。本申请利用多种手段召回候选词,并使用多种评估方式对候选词进行打分,搜索排序得到用于进行纠错的至少一个候选词。与现有技术相比,本申请不仅解决了包含声调的文本的纠错问题,还解决了文本纠错准确度低和纠错代价高的技术问题。
可选地,上述步骤S31中获取目标文本对应的候选词之前,上述方法还包括:
步骤S30,获取目标文本对应的词序列,词序列用于表示目标文本中的词语,获取目标文本对应的词序列的步骤包括:
步骤S301,对所述目标文本进行归一化处理;
步骤S302,对归一化处理得到的结果进行分词处理,得到所述目标文本对应的词序列。
一种可选方案中,上述词序列可以为目标文本中的词语按从左至右顺序排列的分词的集合。例如,目标文本“
Figure BDA0001881654340000071
tra email”可以表示的词序列为{/>
Figure BDA0001881654340000072
tra,email}。
当输入语言为汉语时,汉语不像西方语言那样使用空格表示词的边界,因此需要进行分词处理。本申请中,首先对目标文本进行归一化处理,降低输入的稀疏性,然后对归一化处理得到的结果进行分词处理,得到目标文本对应的词序列。针对上述步骤,可以使用Bigram模型获得目标文本的分词。例如,对于汉语,对目标文字进行归一化处理后,可将所有汉字统一为简体形式,以便于作为后续语言模型的输入。
可选地,上述步骤S31中获取目标文本对应的候选词,包括:
步骤S311,获取预设的词语召回词典,其中,词语召回词典包括预设词语的标准形式、预设词语的缩写和预设词语的错误形式之间的第一对应关系;
步骤S312,在词语召回词典中查找目标文本中包含的词语,得到第一查找结果;
步骤S313,确定与第一查找结果具有第一对应关系的词语为目标文本中包含的词语的候选词。
一种可选方案中,上述词语召回词典可以包括用户输入词语的标准形式、缩写和错误形式,由此构成的集合为第一对应关系。其中,用户输入词语的标准形式、缩写和错误形式的对应关系可以通过一些先验知识和无监督挖掘的方式获得,将这些信息构成一个词典。当用于输入词典中已有的缩写、错误时,系统自动将词典中储存的标准形式加入候选集。
可选地,上述步骤S31中获取目标文本对应的候选词,包括:
步骤S314,获取预设的标准词表中,标准词语的标准形式和标准词语的错误形式之间的第二对应关系,其中,通过对预设的标准词表中的标准词语进行变换,得到标准词语对应的错误形式,变换包括如下一种或多种:对标准形式的任意部分进行删除、增加和替换;
步骤S315,在第二对应关系中查找目标文本中包含的词语,得到第二查找结果;
步骤S316,确定与第二查找结果具有第二对应关系的词语为目标文本中包含的词语的候选词。
一种可选方案中,上述预设的标准词表可以为标准词语的标准形式和标准词语的各种错误形式的集合。其中,错误形式的个数与编辑距离,即由一个字串转换成另一个字串所需的最少编辑操作次数相等。具体的,对系统的标准词表中的各个单词的各个部分进行删除、增加、替换等编辑操作k次,可以得到标准词的各种错误形式,以此建立倒排。当输入需要纠错的词语时,根据倒排即可得到候选的标准词,然后将候选的标准词加入候选集。
例如,“together”经过替换、删除操作(每次改变一个字母)后,可以依次得到“tegether”、“tegather”、“tegathe”,那么,由“together”到“tegathe”的编辑距离为3,在这3次错误变换中产生的3个错误形式会与标准形式一起加入预设的标准词表中,并形成第二对应关系。当用户输入预设的标准词表中已有的某一错误形式如“tegether”时,系统自动将预设的标准词表中储存的标准形式“together”加入候选集。
需要说明的是,汉语也可以使用编辑距离召回候选词,每次改变一个汉字,例如“大汗”到“大汉”,编辑距离为1。
可选地,上述步骤S31中获取目标文本对应的候选词,包括:
步骤S317,获取预设的标准词表中,标准词语的标准形式和标准词语对应的无声调形式之间的第三对应关系,其中,通过去除标准形式的声调标识,得到标准词语的无声调形式;
步骤S318,在第三对应关系中查找目标文本中包含的词语,得到第三查找结果;
步骤S319,确定与第三查找结果具有第三对应关系的词语为目标文本中包含的词语的候选词。
一种可选方案中,上述预设的标准词表可以为标准词语的标准形式和标准词语对应的无声调形式的集合。对标准词表中带有声调的标准词,去掉声调符号可以得到该词的无声调形式,以此建立倒排。当输入需要纠错的词语时,根据倒排即可得到候选的标准词,然后将候选的标准词加入候选集。
例如,去掉标准词表中
Figure BDA0001881654340000091
的声调符号,可以得到“don”,那么,将无声调形式“don”与标准形式/>
Figure BDA0001881654340000092
一起加入预设的标准词表中,并形成第三对应关系。当用户输入预设的标准词表中已有的无声调形式“don”时,系统自动将预设的标准词表中储存的标准形式/>
Figure BDA0001881654340000093
加入候选集。
上述步骤通过词典召回、编辑距离召回和声调召回等多种方式召回候选词,避免了单一召回方式造成候选词遗漏的现象发生。对于同一个输入词,可以采用词典召回、编辑距离召回和声调召回的任意一种或多种方式进行候选词召回,从而得到多个候选词。例如,当用户采用越南语输入法输入“den”时,根据预设的标准词表中的第二对应关系,假设可以得到其标准形式“don”,根据预设的标准词表中的第三对应关系,假设可以得到其标准形式
Figure BDA0001881654340000094
那么,“den”、“don”、/>
Figure BDA0001881654340000095
都加入了“den”的候选集,从而尽可能多地召回候选词。
可选地,在评估方式为第一评估方式的情况下,上述步骤S33采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值,包括:
步骤S331,获取词语与对应的候选词之间的编辑距离,其中,编辑距离用于表示由词语的字符串转换成词语对应的候选词的字符串之间的最少编辑次数;
步骤S332,根据词语与对应的候选词之间的编辑距离确定候选词的评估值。
一种可选方案中,上述第一评估方式可以为编辑距离打分。
根据原始输入词与其候选词的各个部分进行删除、增加、替换等编辑操作的编辑距离edit_distance进行评价,编辑距离打分为-1.0*edit_distance。例如,原始输入词“tegathe”与其自身标准形式“together”的编辑距离为3,编辑距离打分为-3,编辑距离越大,打分越低,表明原始输入词与标准形式之间的差距越大。
需要说明的是,当编辑距离为0时,并不代表原始输入词输正确了,还可能是原始输入词为带有声调的词语。
可选地,在评估方式为第二评估方式的情况下,上述步骤S33采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值,包括:
步骤S333,获取词语的词长与词语对应的候选词的词长之间的差值;
步骤S334,根据差值确定候选词的评估值。
一种可选方案中,上述第二评估方式可以为词长变化打分。
根据原始输入词与其候选词的词长变化进行打分,词长不包括声调,仅针对字母数量的变化,假设原始词长为Lo,候选词长为Lc,词长变化打分为-1.0*max(0,(Lo-Lc))。例如原始输入词“giúp”到候选词“giu”,Lo为4,Lc为3,得分为-1.0;原始输入词“tegathe”到候选词“together”,Lo为7,Lc为8,得分为-1.0;词长变化越大,打分越低,表明原始输入词与标准形式之间的差距越大。
可选地,在评估方式为第三评估方式的情况下,上述步骤S33采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值,包括:
步骤S335,获取候选词在不同声调形式下出现的概率;
步骤S336,根据概率确定候选词的评估值。
一种可选方案中,上述第三评估方式可以为声调变化打分。
从大量无标记的数据中,可以统计得到各个单词不同声调(包括无声调)的出现频率f_i1,f_i2,…f_ij…,其中f_i1表示无声调词根i的第1种形式出现的频率,以此可以计算得到各个单词不同声调(包括无声调)出现的大致概率,例如无声调词根i的第1种形式出现的概率p_i1=f_i1/sigma_j(f_ij)。对候选词,其声调变化打分为–log(pc),其中pc为候选词出现概率。当pc为0时,可以使用概率平滑的方式计算。
可选地,在评估方式为第四评估方式的情况下,上述步骤S33采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值,包括:
步骤S337,通过预先获取的语言模型预测词语在目标文本中出现的概率;
步骤S338,根据概率确定候选词的评估值。
一种可选方案中,上述第四评估方式可以为语言模型打分。
上述语言模型可以应用于各种自然语言处理问题,如语音识别、机器翻译、分词、词性标注等。语言模型实际为用来计算一个文本的概率的模型。从大量无标记数据训练得到统计语言模型,对于一个候选词,语言模型可以根据其所在词序列计算得到p_c=p(c|w_-1,w_-2…w_-n),n由语言模型的阶数决定,其语言模型打分则为–log(p_c),其中,阶数表示语言模型计算时使用的前文的范围,例如,如果是5阶n-gram,表示使用当前的前5个上文的n-gram。
需要说明的是,上述语言模型也可以更换为使用LSTM等网络结构的神经网络语言模型,以得到候选词的打分情况。
可选地,上述步骤S337,通过预先获取的语言模型预测词语在目标文本中出现的概率,包括:通过预先获取的语言模型,按照由左至右的顺序预测词语在目标文本中出现的概率;和/或通过预先获取的语言模型,按照由右至左的顺序预测词语在目标文本中出现的概率。
当按照从左至右的顺序预测词语在目标文本中出现的概率时,每个词语在目标文本中出现的概率依赖于其左侧的所有词语在目标文本中出现的概率,当按照从右至左的顺序预测词语在目标文本中出现的概率时,每个词语在目标文本中出现的概率依赖于其右侧的所有词语在目标文本中出现的概率。
一种可选方案中,如果采用一种顺序预测词语在目标文本中出现的概率,则在该种打分方式下得到一个得分,即一个估计值。
另一种方案中,如果采用两种不同的顺序预测词语在目标文本中出现的概率,则在该种打分方式下得到两个得分,即两个估计值,从而既考虑了词语在目标文本中与左侧词语的依赖关系,同时兼顾了词语在目标文本中与其右侧词语的依赖关系,从而提高最终评估值的准确性。
可选地,上述步骤S35根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词,包括:
按照目标文本中词语出现的顺序,依次从词语对应的候选词中确定词语对应的用于进行纠错的至少一个候选词。
可选地,上述按照目标文本中词语出现的顺序,依次从词语对应的候选词中确定词语对应的用于进行纠错的至少一个候选词,包括:
步骤S351,获取每种评估方式对应的预设权重;
步骤S352,根据每种评估方式对应的预设权重,和候选词在每种评估方式下的评估值,确定候选词的评估值;
步骤S353,根据所述候选词的评估值确定所述用于进行纠错的至少一个候选词。
一种可选方案中,在仅获取一个用于进行纠错的候选词的情况下,获取候选词在每种评估方式下的打分值与该评估方式对应的预设权重之积,并将各个评估方式下得到的乘积相加,从而得到候选词的最终评估值,将最终评估值最高的候选词确定为用于进行纠错的至少一个候选词。
另一种可选方案中,在获取多个用于进行纠错的候选词的情况下,获取候选词在每种评估方式下的打分值与该评估方式对应的预设权重之积,并将各个评估方式下得到的乘积相加,从而得到候选词的最终评估值。将候选词根据最终的评估值按照由高至低的顺序排序,并取前N(N为大于1的整数)候选词作为用于进行纠错的候选词。
需要说明的是,声调语言例如越南语、西班牙语、法语等,由字母和声调标号组成。例如,当采用越南语输入法输入时,声调输入比较麻烦,通常需要使用组合键,导致用户在日常的对话沟通中不愿意输入声调,或者直接使用英文输入法输入越南语。同时用户在输入文本时,并不一定会对自己的输入进行检查修改,输入的单词中往往会存在拼写错误。搜索场景中,可以除了正常的倒排系统之外,将文本中的声调都去除后,新建一套倒排系统。当有输入时,输入分别进入两套倒排系统进行搜索,对两套系统返回的结果一起进行排序。这种方法的缺点明显,系统复杂度大大提升,同时由于去除声调后,词语的歧义问题变得更为严重,返回的结果质量不好。与新建多套系统相比,本申请上述方案系统简单、开销小,而且会根据语言模型建模上下文信息,有更好的消歧能力。与训练翻译模型相比,本方法无需或仅需非常少量的标注数据,开发成本低,也适用于快速迁移到各个领域。
图4是根据本申请实施例1的一种可选的文本的纠错方法的原理图。图中,用户输入一个句子,首先对输入句子进行归一化、分词等预处理,得到分词序列,然后对每个分词通过词典召回、编辑距离召回、声调召回等一种或多种方式相结合尽可能全面地召回候选词;再对每个输入词及其候选词使用编辑距离、词长变化、声调变化、语言模型等多种方式进行打分;最后按照从左至右或从右至左,两个方向对每个词及其候选词的各个打分按照不同的系数加权,按照分值进行搜索排序,并输出搜索排序的最优结果。
可选地,上述目标文本用于表示预设网站的服务对象向预设网站的智能客服发出的信息。
一种可选方案中,上述预设网站可以为购物网站,上述智能客服可以为购物网站的客服机器人。当用户向购物网站的客服机器人发出用于咨询的文本后,客服机器人先进行纠错,得到纠错后,能够表达用户真实意图语句,再根据纠错后的语句回复用户咨询的问题,从而避免了由于用户输入的文本存在错误导致的客服机器人无法识别用户的提问的情况,提高了用户体验。
可选地,上述目标文本用于表示智能家居的控制主体向智能家居发出的控制信息。
一种可选方案中,上述智能家居的控制主体可以为用户,上述控制信息可以为用户向智能家居的服务器发出的文本信息,也可以是语音信息,该语音信息可以是对智能家居的操作指令,如对智能家居执行开、关、定时、照明等各种操作。如果是语音信息,服务器先对语音信息进行识别,转换为文本信息后再进行纠错处理,排除因用户口音差别而识别不出指令或识别出错误指令的情况。
通过上述方案,首先获取目标文本对应的候选词,其中,通过对目标文本中包含的词语进行变形得到候选词;然后采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值;再根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词;最后基于用于进行纠错的至少一个候选词对目标文本进行纠错,达到了文本纠错的目的。本申请利用多种手段召回候选词,并使用多种评估方式对候选词进行打分,搜索排序得到用于进行纠错的至少一个候选词。通过语言模型建模上下文信息,有更好的消歧能力,且方法简单开销小,与训练翻译模型相比,本申请无需或仅需非常少量的标注数据,开发成本低,也适用于快速迁移到各个领域,不仅解决了包含声调的文本的纠错问题,还解决了现有技术中文本纠错准确度低和纠错代价高的技术问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种文本的纠错装置,如图5所示,该装置包括:获取模块502、评估模块504、确定模块506和纠错模块508。
其中,获取模块502,用于获取目标文本对应的候选词,其中,通过对目标文本中包含的词语进行变形得到候选词;评估模块504,用于采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值;确定模块506,用于根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词;纠错模块508,用于基于用于进行纠错的至少一个候选词对目标文本进行纠错。
可选地,上述装置还包括预处理模块,用于在获取目标文本对应的候选词之前,获取目标文本对应的词序列,词序列用于表示目标文本中的词语,获取目标文本对应的词序列包括:对目标文本进行归一化处理;对归一化处理得到的结果进行分词处理,得到目标文本对应的词序列。
可选地,上述获取模块包括词语召回词典模块,用于获取预设的词语召回词典,其中,词语召回词典包括预设词语的标准形式、预设词语的缩写和预设词语的错误形式之间的第一对应关系;在词语召回词典中查找目标文本中包含的词语,得到第一查找结果;确定与第一查找结果具有第一对应关系的词语为目标文本中包含的词语的候选词。
可选地,上述获取模块包括编辑距离召回模块,用于获取预设的标准词表中,标准词语的标准形式和标准词语的错误形式之间的第二对应关系,其中,通过对预设的标准词表中的标准词语进行变换,得到标准词语对应的错误形式,变换包括如下一种或多种:对标准形式的任意部分进行删除、增加和替换;在第二对应关系中查找目标文本中包含的词语,得到第二查找结果;确定与第二查找结果具有第二对应关系的词语为目标文本中包含的词语的候选词。
可选地,上述获取模块包括声调召回模块,用于获取预设的标准词表中,标准词语的标准形式和标准词语对应的无声调形式之间的第三对应关系,其中,通过去除标准形式的声调标识,得到标准词语的无声调形式;在第三对应关系中查找目标文本中包含的词语,得到第三查找结果;确定与第三查找结果具有第三对应关系的词语为目标文本中包含的词语的候选词。
可选地,上述评估模块包括第一评估模块,用于在评估方式为第一评估方式的情况下,获取词语与对应的候选词之间的编辑距离,其中,编辑距离用于表示由词语的字符串转换成词语对应的候选词的字符串之间的最少编辑次数;根据词语与对应的候选词之间的编辑距离确定候选词的评估值。
可选地,上述评估模块包括第二评估模块,用于在评估方式为第二评估方式的情况下,获取词语的词长与词语对应的候选词的词长之间的差值;根据差值确定候选词的评估值。
可选地,上述评估模块包括第三评估模块,用于在评估方式为第三评估方式的情况下,获取候选词在不同声调形式下出现的概率;根据概率确定候选词的评估值。
可选地,上述评估模块包括第四评估模块,用于在评估方式为第四评估方式的情况下,通过预先获取的语言模型预测词语在目标文本中出现的概率;根据概率确定候选词的评估值。
可选地,上述通过预先获取的语言模型预测词语在目标文本中出现的概率,包括通过预先获取的语言模型,按照由左至右的顺序预测词语在目标文本中出现的概率;和/或通过预先获取的语言模型,按照由右至左的顺序预测词语在目标文本中出现的概率。
可选地,上述确定模块包括用于进行纠错的至少一个候选词确定模块,用于按照目标文本中词语出现的顺序,依次从词语对应的候选词中确定词语对应的用于进行纠错的至少一个候选词。
可选地,上述按照目标文本中词语出现的顺序,依次从词语对应的候选词中确定词语对应的用于进行纠错的至少一个候选词,包括:获取每种评估方式对应的预设权重;根据每种评估方式对应的预设权重,和候选词在每种评估方式下的评估值,确定候选词的评估值;根据所述候选词的评估值确定所述用于进行纠错的至少一个候选词。
可选地,上述目标文本用于表示预设网站的服务对象向预设网站的智能客服发出的信息。
可选地,上述目标文本用于表示智能家居的控制主体向智能家居发出的控制信息。
此处需要说明的是,上述各模块对应于实施例1中的方法步骤,各模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,但不仅限于实施例1所公开的内容,在此不再赘述。
实施例3
根据本申请实施例,还提供了一种文本的纠错系统,该系统包括:
处理器;以及
存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取目标文本对应的候选词,其中,通过对目标文本中包含的词语进行变形得到候选词;采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值;根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词;基于用于进行纠错的至少一个候选词对目标文本进行纠错。
基于本申请上述实施例提供的方案,首先获取目标文本对应的候选词,其中,通过对目标文本中包含的词语进行变形得到候选词;然后采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值;再根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词;最后基于用于进行纠错的至少一个候选词对目标文本进行纠错,达到了文本纠错的目的。本申请利用多种手段召回候选词,并使用多种评估方式对候选词进行打分,搜索排序得到用于进行纠错的至少一个候选词。与现有技术相比,本申请不仅解决了包含声调的文本的纠错问题,还解决了文本纠错准确度低和纠错代价高的技术问题。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,但不仅限于实施例1所公开的内容,在此不再赘述。
实施例4
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行文本的纠错方法中以下步骤的程序代码:获取目标文本对应的候选词,其中,通过对目标文本中包含的词语进行变形得到候选词;采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值;根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词;基于用于进行纠错的至少一个候选词对目标文本进行纠错。
可选地,图6是根据本发明实施例的一种计算机终端的结构框图。如图6所示,该计算机终端A可以包括:一个或多个(图中仅示出一个)处理器102以及存储器104。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的语言的纠错方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的语言的纠错方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取目标文本对应的候选词,其中,通过对目标文本中包含的词语进行变形得到候选词;采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值;根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词;基于用于进行纠错的至少一个候选词对目标文本进行纠错。
可选的,上述处理器还可以执行如下步骤的程序代码:在获取目标文本对应的候选词之前,获取目标文本对应的词序列,词序列用于表示目标文本中的词语,获取目标文本对应的词序列包括:对目标文本进行归一化处理;对归一化处理得到的结果进行分词处理,得到目标文本对应的词序列。
可选地,上述处理器还可以执行如下步骤的程序代码:获取目标文本对应的候选词,包括:获取预设的词语召回词典,其中,词语召回词典包括预设词语的标准形式、预设词语的缩写和预设词语的错误形式之间的第一对应关系;在词语召回词典中查找目标文本中包含的词语,得到第一查找结果;确定与第一查找结果具有第一对应关系的词语为目标文本中包含的词语的候选词。
可选地,上述处理器还可以执行如下步骤的程序代码:获取目标文本对应的候选词,包括:获取预设的标准词表中,标准词语的标准形式和标准词语的错误形式之间的第二对应关系,其中,通过对预设的标准词表中的标准词语进行变换,得到标准词语对应的错误形式,变换包括如下一种或多种:对标准形式的任意部分进行删除、增加和替换;在第二对应关系中查找目标文本中包含的词语,得到第二查找结果;确定与第二查找结果具有第二对应关系的词语为目标文本中包含的词语的候选词。
上述处理器还可以执行如下步骤的程序代码:获取目标文本对应的候选词,包括:获取预设的标准词表中,标准词语的标准形式和标准词语对应的无声调形式之间的第三对应关系,其中,通过去除标准形式的声调标识,得到标准词语的无声调形式;在第三对应关系中查找目标文本中包含的词语,得到第三查找结果;确定与第三查找结果具有第三对应关系的词语为目标文本中包含的词语的候选词。
上述处理器还可以执行如下步骤的程序代码:在评估方式为第一评估方式的情况下,采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值,包括:获取词语与对应的候选词之间的编辑距离,其中,编辑距离用于表示由词语的字符串转换成词语对应的候选词的字符串之间的最少编辑次数;根据词语与对应的候选词之间的编辑距离确定候选词的评估值。
上述处理器还可以执行如下步骤的程序代码:在评估方式为第二评估方式的情况下,采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值,包括:获取词语的词长与词语对应的候选词的词长之间的差值;根据差值确定候选词的评估值。
上述处理器还可以执行如下步骤的程序代码:在评估方式为第三评估方式的情况下,采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值,包括:获取候选词在不同声调形式下出现的概率;根据概率确定候选词的评估值。
上述处理器还可以执行如下步骤的程序代码:在评估方式为第四评估方式的情况下,采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值,包括:通过预先获取的语言模型预测词语在目标文本中出现的概率;根据概率确定候选词的评估值。
上述处理器还可以执行如下步骤的程序代码:上述通过预先获取的语言模型预测词语在目标文本中出现的概率,包括通过预先获取的语言模型,按照由左至右的顺序预测词语在目标文本中出现的概率;和/或通过预先获取的语言模型,按照由右至左的顺序预测词语在目标文本中出现的概率。
上述处理器还可以执行如下步骤的程序代码:根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词,包括:按照目标文本中词语出现的顺序,依次从词语对应的候选词中确定词语对应的用于进行纠错的至少一个候选词。
上述处理器还可以执行如下步骤的程序代码:按照目标文本中词语出现的顺序,依次从词语对应的候选词中确定词语对应的用于进行纠错的至少一个候选词,包括:获取每种评估方式对应的预设权重;根据每种评估方式对应的预设权重,和候选词在每种评估方式下的评估值,确定候选词的评估值;根据所述候选词的评估值确定所述用于进行纠错的至少一个候选词。
上述处理器还可以执行如下步骤的程序代码:目标文本用于表示预设网站的服务对象向预设网站的智能客服发出的信息。
上述处理器还可以执行如下步骤的程序代码:目标文本用于表示智能家居的控制主体向智能家居发出的控制信息。
通过上述方案,首先获取目标文本对应的候选词,其中,通过对目标文本中包含的词语进行变形得到候选词;然后采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值;再根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词;最后基于用于进行纠错的至少一个候选词对目标文本进行纠错,达到了文本纠错的目的。本申请利用多种手段召回候选词,并使用多种评估方式对候选词进行打分,搜索排序得到用于进行纠错的至少一个候选词。通过语言模型建模上下文信息,有更好的消歧能力,且方法简单开销小,与训练翻译模型相比,本申请无需或仅需非常少量的标注数据,开发成本低,也适用于快速迁移到各个领域,不仅解决了包含声调的文本的纠错问题,还解决了现有技术中文本纠错准确度低和纠错代价高的技术问题。
本领域普通技术人员可以理解,图6所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图6其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图6中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图6所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例4
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的文本的纠错方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:首先获取目标文本对应的候选词,其中,通过对目标文本中包含的词语进行变形得到候选词;然后采用多种评估方式对每个候选词进行评估,得到每个候选词在多种评估方式下的评估值;再根据每个候选词对应的评估值获取用于进行纠错的至少一个候选词;最后基于用于进行纠错的至少一个候选词对目标文本进行纠错。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (17)

1.一种文本的纠错方法,包括:
获取目标文本对应的候选词,其中,通过对所述目标文本中包含的词语进行变形得到所述候选词,所述目标文本包括声调语言文本;
采用多种评估方式对每个候选词进行评估,得到所述每个候选词在所述多种评估方式下的评估值,其中,所述评估方式包括对所述候选词进行声调变化打分;
根据所述每个候选词对应的评估值获取用于进行纠错的至少一个候选词;
基于所述用于进行纠错的至少一个候选词对所述目标文本进行纠错;
其中,获取目标文本对应的候选词,包括:获取预设的标准词表中,标准词语的标准形式和所述标准词语对应的无声调形式之间的第三对应关系,其中,通过去除所述标准形式的声调标识,得到所述标准词语的无声调形式;在所述第三对应关系中查找所述目标文本中包含的词语,得到第三查找结果;确定与所述第三查找结果具有所述第三对应关系的词语为所述目标文本中包含的词语的候选词。
2.根据权利要求1所述的方法,其中,在获取目标文本对应的候选词之前,所述方法还包括:获取目标文本对应的词序列,所述词序列用于表示所述目标文本中的词语,获取目标文本对应的词序列的步骤包括:
对所述目标文本进行归一化处理;
对归一化处理得到的结果进行分词处理,得到所述目标文本对应的词序列。
3.根据权利要求1所述的方法,其中,获取目标文本对应的候选词,包括:
获取预设的词语召回词典,其中,所述词语召回词典包括预设词语的标准形式、所述预设词语的缩写和所述预设词语的错误形式之间的第一对应关系;
在所述词语召回词典中查找所述目标文本中包含的词语,得到第一查找结果;
确定与所述第一查找结果具有第一对应关系的词语为所述目标文本中包含的词语的候选词。
4.根据权利要求1所述的方法,其中,获取目标文本对应的候选词,包括:
获取预设的标准词表中,标准词语的标准形式和所述标准词语的错误形式之间的第二对应关系,其中,通过对预设的标准词表中的标准词语进行变换,得到所述标准词语对应的错误形式,所述变换包括如下一种或多种:对所述标准形式的任意部分进行删除、增加和替换;
在所述第二对应关系中查找所述目标文本中包含的词语,得到第二查找结果;
确定与所述第二查找结果具有所述第二对应关系的词语为所述目标文本中包含的词语的候选词。
5.根据权利要求1所述的方法,其中,在所述评估方式为第一评估方式的情况下,采用多种评估方式对每个候选词进行评估,得到所述每个候选词在所述多种评估方式下的评估值,包括:
获取所述词语与对应的候选词之间的编辑距离,其中,所述编辑距离用于表示由所述词语的字符串转换成所述词语对应的候选词的字符串之间的最少编辑次数;
根据所述词语与对应的候选词之间的编辑距离确定所述候选词的评估值。
6.根据权利要求1所述的方法,其中,在所述评估方式为第二评估方式的情况下,采用多种评估方式对每个候选词进行评估,得到所述每个候选词在所述多种评估方式下的评估值,包括:
获取所述词语的词长与所述词语对应的候选词的词长之间的差值;
根据所述差值确定所述候选词的评估值。
7.根据权利要求1所述的方法,其中,在所述评估方式为第三评估方式的情况下,采用多种评估方式对每个候选词进行评估,得到所述每个候选词在所述多种评估方式下的评估值,包括:
获取候选词在不同声调形式下出现的概率;
根据所述概率确定所述候选词的评估值。
8.根据权利要求1所述的方法,其中,在所述评估方式为第四评估方式的情况下,采用多种评估方式对每个候选词进行评估,得到所述每个候选词在所述多种评估方式下的评估值,包括:
通过预先获取的语言模型预测所述词语在所述目标文本中出现的概率;
根据所述概率确定所述候选词的评估值。
9.根据权利要求8所述的方法,其中,通过预先获取的语言模型预测所述词语在所述目标文本中出现的概率,包括:
通过预先获取的语言模型,按照由左至右的顺序预测所述词语在所述目标文本中出现的概率;和/或
通过预先获取的语言模型,按照由右至左的顺序预测所述词语在所述目标文本中出现的概率。
10.根据权利要求1所述的方法,其中,根据所述每个候选词对应的评估值获取用于进行纠错的至少一个候选词,包括:
按照所述目标文本中词语出现的顺序,依次从所述词语对应的候选词中确定所述词语对应的用于进行纠错的至少一个候选词。
11.根据权利要求10所述的方法,其中,按照所述目标文本中词语出现的顺序,依次从所述词语对应的候选词中确定所述词语对应的用于进行纠错的至少一个候选词,包括:
获取每种评估方式对应的预设权重;
根据所述每种评估方式对应的预设权重,和所述候选词在所述每种评估方式下的评估值,确定所述候选词的评估值;
根据所述候选词的评估值确定所述用于进行纠错的至少一个候选词。
12.根据权利要求1所述的方法,其中,所述目标文本用于表示预设网站的服务对象向所述预设网站的智能客服发出的信息。
13.根据权利要求1所述的方法,其中,所述目标文本用于表示智能家居的控制主体向所述智能家居发出的控制信息。
14.一种文本的纠错装置,包括:
获取模块,用于获取目标文本对应的候选词,其中,通过对所述目标文本中包含的词语进行变形得到所述候选词,所述目标文本包括声调语言文本;
评估模块,用于采用多种评估方式对每个候选词进行评估,得到所述每个候选词在所述多种评估方式下的评估值,其中,所述评估方式包括对所述候选词进行声调变化打分;
确定模块,用于根据所述每个候选词对应的评估值获取用于进行纠错的至少一个候选词;
纠错模块,用于基于所述用于进行纠错的至少一个候选词对所述目标文本进行纠错;
其中,所述获取模块还用于通过执行以下步骤来获取所述目标文本对应的候选词:获取预设的标准词表中,标准词语的标准形式和所述标准词语对应的无声调形式之间的第三对应关系,其中,通过去除所述标准形式的声调标识,得到所述标准词语的无声调形式;在所述第三对应关系中查找所述目标文本中包含的词语,得到第三查找结果;确定与所述第三查找结果具有所述第三对应关系的词语为所述目标文本中包含的词语的候选词。
15.一种存储介质,其中,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如下步骤:
获取目标文本对应的候选词,其中,通过对所述目标文本中包含的词语进行变形得到所述候选词,所述目标文本包括声调语言文本;
采用多种评估方式对每个候选词进行评估,得到所述每个候选词在所述多种评估方式下的评估值,其中,所述评估方式包括对所述候选词进行声调变化打分;
根据所述每个候选词对应的评估值获取用于进行纠错的至少一个候选词;
基于所述用于进行纠错的至少一个候选词对所述目标文本进行纠错;
其中,获取目标文本对应的候选词,包括:获取预设的标准词表中,标准词语的标准形式和所述标准词语对应的无声调形式之间的第三对应关系,其中,通过去除所述标准形式的声调标识,得到所述标准词语的无声调形式;在所述第三对应关系中查找所述目标文本中包含的词语,得到第三查找结果;确定与所述第三查找结果具有所述第三对应关系的词语为所述目标文本中包含的词语的候选词。
16.一种处理器,其中,所述处理器用于运行程序,其中,所述程序运行时执行如下步骤:
获取目标文本对应的候选词,其中,通过对所述目标文本中包含的词语进行变形得到所述候选词,所述目标文本包括声调语言文本;
采用多种评估方式对每个候选词进行评估,得到所述每个候选词在所述多种评估方式下的评估值,其中,所述评估方式包括对所述候选词进行声调变化打分;
根据所述每个候选词对应的评估值获取用于进行纠错的至少一个候选词;
基于所述用于进行纠错的至少一个候选词对所述目标文本进行纠错;
其中,获取目标文本对应的候选词,包括:获取预设的标准词表中,标准词语的标准形式和所述标准词语对应的无声调形式之间的第三对应关系,其中,通过去除所述标准形式的声调标识,得到所述标准词语的无声调形式;在所述第三对应关系中查找所述目标文本中包含的词语,得到第三查找结果;确定与所述第三查找结果具有所述第三对应关系的词语为所述目标文本中包含的词语的候选词。
17.一种文本的纠错系统,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
获取目标文本对应的候选词,其中,通过对所述目标文本中包含的词语进行变形得到所述候选词,所述目标文本包括声调语言文本;
采用多种评估方式对每个候选词进行评估,得到所述每个候选词在所述多种评估方式下的评估值,其中,所述评估方式包括对所述候选词进行声调变化打分;
根据所述每个候选词对应的评估值获取用于进行纠错的至少一个候选词;
基于所述用于进行纠错的至少一个候选词对所述目标文本进行纠错;
其中,获取目标文本对应的候选词,包括:获取预设的标准词表中,标准词语的标准形式和所述标准词语对应的无声调形式之间的第三对应关系,其中,通过去除所述标准形式的声调标识,得到所述标准词语的无声调形式;在所述第三对应关系中查找所述目标文本中包含的词语,得到第三查找结果;确定与所述第三查找结果具有所述第三对应关系的词语为所述目标文本中包含的词语的候选词。
CN201811426082.0A 2018-11-27 2018-11-27 文本的纠错方法、装置和系统 Active CN111310440B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811426082.0A CN111310440B (zh) 2018-11-27 2018-11-27 文本的纠错方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811426082.0A CN111310440B (zh) 2018-11-27 2018-11-27 文本的纠错方法、装置和系统

Publications (2)

Publication Number Publication Date
CN111310440A CN111310440A (zh) 2020-06-19
CN111310440B true CN111310440B (zh) 2023-05-30

Family

ID=71157867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811426082.0A Active CN111310440B (zh) 2018-11-27 2018-11-27 文本的纠错方法、装置和系统

Country Status (1)

Country Link
CN (1) CN111310440B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111913573B (zh) * 2020-07-10 2022-03-22 山东大学 用于英语单词辅助学习的人机交互方法及系统
CN111881679B (zh) * 2020-08-04 2022-12-23 医渡云(北京)技术有限公司 文本的标准化处理方法、装置、电子设备及计算机介质
CN111881680A (zh) * 2020-08-04 2020-11-03 医渡云(北京)技术有限公司 文本的标准化处理方法、装置、电子设备及计算机介质
CN112784581B (zh) * 2020-11-20 2024-02-13 网易(杭州)网络有限公司 文本纠错方法、装置、介质及电子设备
CN112395864B (zh) * 2020-11-26 2021-04-06 北京世纪好未来教育科技有限公司 文本纠错模型训练、文本纠错方法及相关装置
CN112685550B (zh) * 2021-01-12 2023-08-04 腾讯科技(深圳)有限公司 智能问答方法、装置、服务器及计算机可读存储介质
CN113553398B (zh) * 2021-07-15 2024-01-26 杭州网易云音乐科技有限公司 搜索词纠正方法、装置、电子设备及计算机存储介质
CN113791694A (zh) * 2021-08-17 2021-12-14 咪咕文化科技有限公司 数据输入方法、装置、设备及计算机可读存储介质
CN113705202A (zh) * 2021-08-31 2021-11-26 北京金堤科技有限公司 搜索输入信息纠错方法、装置以及电子设备、存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101639830A (zh) * 2009-09-08 2010-02-03 西安交通大学 一种输入过程中的中文术语自动纠错方法
US9037967B1 (en) * 2014-02-18 2015-05-19 King Fahd University Of Petroleum And Minerals Arabic spell checking technique
CN104635949A (zh) * 2015-01-07 2015-05-20 三星电子(中国)研发中心 一种汉字输入装置及方法
CN105975625A (zh) * 2016-05-26 2016-09-28 同方知网数字出版技术股份有限公司 一种面向英文搜索引擎的中式英文查询纠错方法和系统
CN106202153A (zh) * 2016-06-21 2016-12-07 广州智索信息科技有限公司 一种es搜索引擎的拼写纠错方法及系统
CN106469097A (zh) * 2016-09-02 2017-03-01 北京百度网讯科技有限公司 一种基于人工智能的召回纠错候选的方法和装置
CN106708893A (zh) * 2015-11-17 2017-05-24 华为技术有限公司 搜索查询词纠错方法和装置
CN106919681A (zh) * 2017-02-28 2017-07-04 东软集团股份有限公司 错别字的纠错方法和装置
CN107608963A (zh) * 2017-09-12 2018-01-19 马上消费金融股份有限公司 一种基于互信息的中文纠错方法、装置、设备及存储介质
CN108549493A (zh) * 2018-04-04 2018-09-18 科大讯飞股份有限公司 候选词筛选方法及相关设备
CN108628827A (zh) * 2018-04-11 2018-10-09 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140214401A1 (en) * 2013-01-29 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method and device for error correction model training and text error correction

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101639830A (zh) * 2009-09-08 2010-02-03 西安交通大学 一种输入过程中的中文术语自动纠错方法
US9037967B1 (en) * 2014-02-18 2015-05-19 King Fahd University Of Petroleum And Minerals Arabic spell checking technique
CN104635949A (zh) * 2015-01-07 2015-05-20 三星电子(中国)研发中心 一种汉字输入装置及方法
CN106708893A (zh) * 2015-11-17 2017-05-24 华为技术有限公司 搜索查询词纠错方法和装置
CN105975625A (zh) * 2016-05-26 2016-09-28 同方知网数字出版技术股份有限公司 一种面向英文搜索引擎的中式英文查询纠错方法和系统
CN106202153A (zh) * 2016-06-21 2016-12-07 广州智索信息科技有限公司 一种es搜索引擎的拼写纠错方法及系统
CN106469097A (zh) * 2016-09-02 2017-03-01 北京百度网讯科技有限公司 一种基于人工智能的召回纠错候选的方法和装置
CN106919681A (zh) * 2017-02-28 2017-07-04 东软集团股份有限公司 错别字的纠错方法和装置
CN107608963A (zh) * 2017-09-12 2018-01-19 马上消费金融股份有限公司 一种基于互信息的中文纠错方法、装置、设备及存储介质
CN108549493A (zh) * 2018-04-04 2018-09-18 科大讯飞股份有限公司 候选词筛选方法及相关设备
CN108628827A (zh) * 2018-04-11 2018-10-09 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张磊 ; 陈晶 ; 项学智 ; 贾梅梅 ; .结合关键词混淆网络的关键词检出系统.智能系统学报.2010,(第05期),全文. *

Also Published As

Publication number Publication date
CN111310440A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN111310440B (zh) 文本的纠错方法、装置和系统
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
US10311146B2 (en) Machine translation method for performing translation between languages
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
CN108287858B (zh) 自然语言的语义提取方法及装置
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN110020424B (zh) 合同信息的提取方法、装置和文本信息的提取方法
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN114580382A (zh) 文本纠错方法以及装置
CN111144120A (zh) 一种训练语句的获取方法、装置、存储介质及电子设备
CN109522397B (zh) 信息处理方法及装置
CN113158687B (zh) 语义的消歧方法及装置、存储介质、电子装置
CN111767375A (zh) 语义召回方法、装置、计算机设备及存储介质
US20180018321A1 (en) Avoiding sentiment model overfitting in a machine language model
CN113657100A (zh) 实体识别方法、装置、电子设备及存储介质
CN110874528A (zh) 文本相似度的获取方法及装置
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN116303537A (zh) 数据查询方法及装置、电子设备、存储介质
US20230205994A1 (en) Performing machine learning tasks using instruction-tuned neural networks
CN112989829B (zh) 一种命名实体识别方法、装置、设备及存储介质
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
CN110019714A (zh) 基于历史结果的多意图查询方法、装置、设备及存储介质
CN116680387A (zh) 基于检索增强的对话答复方法、装置、设备及存储介质
CN114528851B (zh) 回复语句确定方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant