CN109766538A - 一种文本纠错方法、装置、电子设备以及存储介质 - Google Patents

一种文本纠错方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN109766538A
CN109766538A CN201811392436.4A CN201811392436A CN109766538A CN 109766538 A CN109766538 A CN 109766538A CN 201811392436 A CN201811392436 A CN 201811392436A CN 109766538 A CN109766538 A CN 109766538A
Authority
CN
China
Prior art keywords
text information
error correction
text
character
modified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811392436.4A
Other languages
English (en)
Other versions
CN109766538B (zh
Inventor
殷子墨
李健
张连毅
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Original Assignee
BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP filed Critical BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Priority to CN201811392436.4A priority Critical patent/CN109766538B/zh
Publication of CN109766538A publication Critical patent/CN109766538A/zh
Application granted granted Critical
Publication of CN109766538B publication Critical patent/CN109766538B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提供了一种文本纠错方法、装置、电子设备以及存储介质,所述方法包括:获取训练语料;以所述训练语料为训练样本,对神经网络模型进行训练,以得到文本纠错模型;获取待修正的原文本信息;利用所述文本纠错模型对所述原文本信息进行修正,以得到修正后的文本信息。在对原文本信息纠正之前,利用获取到的训练语料对神经网络模型进行训练,以得到文本纠错模型,由于训练过程是由计算机执行,并且花费的时间较少,所以文本信息纠错的效率较高。

Description

一种文本纠错方法、装置、电子设备以及存储介质
技术领域
本申请涉及文本处理技术领域,特别是涉及一种文本纠错方法、装置、电子设备以及存储介质。
背景技术
随着人机交互技术的不断发展,计算机开始接受用户以文字(或语音自动转换成的文字)的方式输入指令或问题,然后由计算机执行指令或搜索问题答案。由于用户输入的文字中可能包含错误文符(如错别字、汉字输入成拼音等),导致计算机不能获得准确的指令或问题。相关技术中,提供了一种文本纠错方法来解决上述问题。首先,需要建立纠错词典,所述纠错词典包括出现概率低的原字符串和替换字符串,然后计算机利用建立好的纠错词典,直接将需要修正的文本信息中的现概率低的原字符串换为替换字符串,以完成文本信息的修正。
由于在对原文本信息进行纠错之前,需要建立纠错词典,而纠错词典是由人工定制的,在定制纠错词典时会花费大量时间和精力,导致该方法的文本信息纠错效率较低。
发明内容
为解决上述问题,本申请提供一种文本纠错方法、装置、电子设备以及存储介质。
根据本申请的第一个方面,提供一种文本纠错方法,所述方法包括:
获取训练语料;
以所述训练语料为训练样本,对神经网络模型进行训练,以得到文本纠错模型;
获取待修正的原文本信息;
利用所述文本纠错模型对所述原文本信息进行修正,以得到修正后的文本信息。
可选的,在利用所述文本纠错模型对所述原文本信息进行修正,以得到修正后的文本信息之前,所述方法还包括:
建立纠错词典,所述纠错词典包括原字符和多个替换字符;
利用所述文本纠错模型对所述原文本信息进行修正,以得到修正后的文本信息,包括:
利用所述文本纠错模型和所述纠错词典对所述原文本信息进行修正,以得到修正后的文本信息。
可选的,其特征在于,利用所述文本纠错模型和所述纠错词典对所述原文本信息进行修正,以得到修正后的文本信息,包括:
利用所述文本纠错模型对所述原文本信息进行拆分,以得到多个原字符;
将所述多个原字符中的一个原字符分别与前、后原字符组合成两个字符串,并从所述文本纠错模型中获取所述两个字符串的出现概率;
将所述两个字符串的出现概率相加求和作为该原字符的第一概率;
重复交替执行上述第二个到第三个步骤,直到所述多个原字符各自的第一概率计算完成;
将所述多个原字符按照所述第一概率由低到高的顺序进行排序,并将所述顺序确定为纠错顺序,以生成纠错顺序表,所述纠错顺序表包括所述纠错顺序;
利用所述纠错顺序表、所述文本纠错模型以及所述纠错词典对所述原文本信息进行修正,以得到修正后的文本信息。
可选的,利用所述纠错顺序表、所述文本纠错模型以及所述纠错词典对所述原文本信息进行修正,以得到修正后的文本信息,包括:
从所述纠错顺序表中获取所述原文本信息包括的多个原字符的纠错顺序;
根据所述纠错顺序,利用所述纠错词典和所述文本纠错模型对所述多个原字符进行M次修正,以得到修正后的文本信息,M为不小于1的整数。
可选的,在根据所述纠错顺序,利用所述纠错词典和所述文本纠错模型对所述多个原字符进行M次修正,以得到修正后的文本信息之前,所述方法还包括:
获取所述原文本信息包括的多个原字符的字符个数;
利用公式一计算所述原文本信息的修正次数;
所述公式一为:
其中n为第一预设阈值,第一预设阈值为大于零且小于一的数,M为修正次数,q为所述原文本信息包括的多个原字符的字符个数;
根据所述纠错顺序,利用所述纠错词典和所述文本纠错模型对所述多个原字符进行M次修正,以得到修正后的文本信息,包括:
根据所述纠错顺序和所述修正次数,利用所述纠错词典和所述文本纠错模型对所述多个原字符进行修正,以得到修正后的文本信息。
可选的,根据所述纠错顺序和所述修正次数,利用所述纠错词典和所述文本纠错模型对所述多个原字符进行修正,以得到修正后的文本信息,包括:
将所述原文本信息包括的多个原字符的第一概率相乘的积作为原文本信息的句概率,并将所述句概率记为基准值;
将所述原文本信息确定为当前待修正的文本信息;
根据所述纠错顺序,利用所述纠错词典和所述文本纠错模型将所述当前待修正的文本信息中的待修正的原字符替换为所述纠错词典中该字符的替换字符,以得到替换后的文本信息,并计算所述替换字符的第二概率;
计算所述替换后的文本信息的新的句概率,并将所述新的句概率不低于所述基准值的替换后的文本信息确定为可选文本信息;
判断所述可选文本信息的数量是否大于一;
当所述可选文本信息的数量大于一时,将已修正次数加一,并将所述新的句概率最高的第二预设阈值数量的可选文本信息确定为预选文本信息;
当所述可选文本信息的数量不大于一时,将已修正次数保持上一数值,并将所述可选文本信息确定为预选文本信息;
将所述预选文本信息作为新的当前待修正的文本信息,重复交替执行上述第三个到第七个步骤,直到已修正次数为M或所述原文本信息包括的多个原字符均完成修正,以获得多个结果文本信息;
将所述新的句概率值最高的一个结果文本信息确定为修正后的文本信息。
根据本申请的第二个方面,提供一种文本纠错装置,所述装置包括:
第一获取模块,用于获取训练语料;
模型训练模块,用于以所述训练语料为训练样本,对神经网络模型进行训练,以得到文本纠错模型;
第二获取模块,用于获取待修正的原文本信息;
修正模块,用于利用所述文本纠错模型对所述原文本信息进行修正,以得到修正后的文本信息。
可选的,所述装置还包括:
建立词典模块,用于建立纠错词典,所述纠错词典包括原字符和多个替换字符;
相应的,所述修正模块包括:
修正子模块,用于利用所述文本纠错模型和所述纠错词典对所述原文本信息进行修正,以得到修正后的文本信息。
可选的,所述修正子模块包括:
原字符拆分单元,用于利用所述文本纠错模型对所述原文本信息进行拆分,以得到多个原字符;
字符组合单元,用于将所述多个原字符中的一个原字符分别与前、后原字符组合成两个字符串,并从所述文本纠错模型中获取所述两个字符串的出现概率;
第一概率计算单元,用于将所述两个字符串的出现概率相加求和作为该原字符的第一概率;
第一循环单元,用于重复交替执行上述第二个到第三个步骤,直到所述多个原字符各自的第一概率计算完成;
纠错顺序表生成单元,用于将所述多个原字符按照所述第一概率由低到高的顺序进行排序,并将所述顺序确定为纠错顺序,以生成纠错顺序表,所述纠错顺序表包括所述纠错顺序;
修正单元,用于利用所述纠错顺序表、所述文本纠错模型以及所述纠错词典对所述原文本信息进行修正,以得到修正后的文本信息。
可选的,所述修正单元包括:
第一获取子单元,用于从所述纠错顺序表中获取所述原文本信息包括的多个原字符的纠错顺序;
修正子单元,用于根据所述纠错顺序,利用所述纠错词典和所述文本纠错模型对所述多个原字符进行M次修正,以得到修正后的文本信息,M为不小于1的整数。
可选的,所述修正单元还包括:
第二获取子单元,用于获取所述原文本信息包括的多个原字符的字符个数;
修正次数计算子单元,用于利用公式一计算所述原文本信息的修正次数;
所述公式一为:
其中n为第一预设阈值,第一预设阈值为大于零且小于一的数,M为修正次数,q为所述原文本信息包括的多个原字符的字符个数;
相应的,所述修正子单元包括:
第一修正子单元,用于根据所述纠错顺序和所述修正次数,利用所述纠错词典和所述文本纠错模型对所述多个原字符进行修正,以得到修正后的文本信息。
可选的,所述第一修正子单元包括:
第一计算子单元,用于将所述原文本信息包括的多个原字符的第一概率相乘的积作为原文本信息的句概率,并将所述句概率记为基准值;
第一确定子单元,用于将所述原文本信息确定为当前待修正的文本信息;
第二计算子单元,用于根据所述纠错顺序,利用所述纠错词典和所述文本纠错模型将所述当前待修正的文本信息中的待修正的原字符替换为所述纠错词典中该字符的替换字符,以得到替换后的文本信息,并计算所述替换字符的第二概率;
第二确定子单元,用于计算所述替换后的文本信息的新的句概率,并将所述新的句概率不低于所述基准值的替换后的文本信息确定为可选文本信息;
判断子单元,用于判断所述可选文本信息的数量是否大于一;
第三确定子单元,用于当所述可选文本信息的数量大于一时,将已修正次数加一,并将所述新的句概率最高的第二预设阈值数量的可选文本信息确定为预选文本信息;
第四确定子单元,用于当所述可选文本信息的数量不大于一时,将已修正次数保持上一数值,并将所述可选文本信息确定为预选文本信息;
第一循环子单元,用于将所述预选文本信息作为新的当前待修正的文本信息,重复交替执行上述第三个到第七个步骤,直到已修正次数为M或所述原文本信息包括的多个原字符均完成修正,以获得多个结果文本信息;
第四确定子单元,用于将所述新的句概率值最高的一个结果文本信息确定为修正后的文本信息。
根据本申请的第三个方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本申请第一方面任一所述的方法中的步骤。
根据本申请的第四个方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如本申请第一方面任一所述的方法中的步骤。
采用上述技术方案,获取训练语料;以所述训练语料为训练样本,对神经网络模型进行训练,以得到文本纠错模型;获取待修正的原文本信息;利用所述文本纠错模型对所述原文本信息进行修正,以得到修正后的文本信息。在对原文本信息纠正之前,利用获取到的训练语料对神经网络模型进行训练,以得到文本纠错模型,由于训练过程是由计算机执行,并且花费的时间较少,所以文本信息纠错的效率较高。
附图说明
为了更清楚地说明本申请各个实施例的技术方案,下面将对本申请各个实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例提供的一种文本纠错方法流程图;
图2是根据一示例性实施例提供的一种文本修正方法流程图;
图3是根据一示例性实施例提供的一种纠错词典的一部分的示意图;
图4是根据一示例性实施例提供的一种文本修正方法另一流程图;
图5是根据一示例性实施例提供的一种文本修正方法另一流程图;
图6是根据一示例性实施例提供的一种文本修正方法另一流程图;
图7是根据一示例性实施例提供的一种文本修正方法另一流程图;
图8是根据一示例性实施例提供的一种文本纠错装置框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参考图1,图1是根据一示例性实施例提供的一种文本纠错方法流程图,该方法包括以下步骤:
在步骤S11中,获取训练语料。
在步骤S12中,以所述训练语料为训练样本,对神经网络模型进行训练,以得到文本纠错模型。
在步骤S13中,获取待修正的原文本信息。
在步骤S14中,利用所述文本纠错模型对所述原文本信息进行修正,以得到修正后的文本信息。
本申请的训练语料用于训练神经网络模型,以得到文本纠错模型。根据不同的语言环境,训练语料可以不同。利用与语言环境相关的训练语料训练文本纠错模型,并得到文本纠错模型;然后利用文本纠错模型对该语言环境内的原文本信息进行修正,得到修正后的文本信息准确率较高,修正的效果较好。
本申请的文本纠错模型包括集外字符和集外字符的出现概率,并且集外字符的出现概率很低。集外字符包括拼音、不正确的英文单词等。当原文本信息中出线集外字符时,由于集外字符的出现概率比较低,导致原文本信息的句概率比较低。
本申请的错别字包括错别字、汉字输入成拼音等。
在步骤S11中,获取训练语料。用户根据自己所在的语言环境,收集相关的训练语料,然后计算机获取该训练语料,用于训练神经网络模型,得到适合语言环境的文本纠错模型。
举个例子,通常保险公司的智能客服接收用户输入的问题,然后智能客服将问题与标准问题进行匹配,以获得对应的答案;如果用户输入的问题有错别字,就需要对输入的问题进行修正。首先,需要用户收集保险说明文档、条例、资料等文本数据作为训练语料,然后计算机获取该训练语料,用于训练神经网络模型,以得到适合保险行业的语言环境的文本纠错模型。
在步骤S12中,以所述训练语料为训练样本,对神经网络模型进行训练,以得到文本纠错模型。获取到适合语言环境的训练语料后,将训练语料作为训练样本,对神经网络模型进行训练,训练完毕后,得到文本纠错模型。
举个例子,用户收集保险说明文档、条例、资料等文本数据作为训练语料,然后计算机获取该训练语料,用于训练神经网络模型,以得到适合保险行业的语言环境的文本纠错模型。利用该文本纠错模型对保险行业的文本信息进行纠错,得到的修正后的文本信息准确率较高;若将该模型应用于其他行业的语言环境,得到的修正后的文本信息准确率可能要低一些。
在步骤S13中,获取待修正的原文本信息。当计算机获取到用户输入的文本信息,会将文本信息与标准指令或者问题进行匹配,当文本信息不匹配时,就需要对文本信息进行修正,此时,获取的原文本信息就是该待修正的文本信息。
举个例子,保险公司的智能客服接收用户输入的问题:bao险有什么作用?首先,智能客服将该文本信息与标准问题进行匹配,但该文本信息与标准问题并不匹配,此时,智能客服会将该文本信息确定为待修正的文本信息,并由智能客服的文本纠错模块获取到该文本信息。
在步骤S14中,利用所述文本纠错模型对所述原文本信息进行修正,以得到修正后的文本信息。获取到待修正的文本信息后,会利用预先构建的文本纠错模型对文本信息进行修正,以得到修正后的文本信息。
举个例子,保险公司的智能客服的纠错模块获取到待修正的文本信息为:bao险有什么作用?然后纠错模块利用文本纠错模型对该文本信息进行修正,最后得到修正后的文本信息为:保险有什么作用?之后,智能客服可以将该文本信息继续与标准问题进行匹配,以搜索相关答案。
采用上述技术方案,获取训练语料;以所述训练语料为训练样本,对神经网络模型进行训练,以得到文本纠错模型;获取待修正的原文本信息;利用所述文本纠错模型对所述原文本信息进行修正,以得到修正后的文本信息。在对原文本信息纠正之前,利用获取到的训练语料对神经网络模型进行训练,以得到文本纠错模型,由于训练过程是由计算机执行,并且花费的时间较少,所以文本信息纠错的效率较高。
参考图2,图2是根据一示例性实施例提供的一种文本修正方法流程图,该方法包括以下步骤:
在步骤S21中,建立纠错词典,所述纠错词典包括原字符和多个替换字符。
在步骤S22中,利用所述文本纠错模型和所述纠错词典对所述原文本信息进行修正,以得到修正后的文本信息。
本申请的纠错词典不会有语言环境的限制,不同语言环境的纠错词典可以通用。参考图3,图3是根据一示例性实施例提供的一种纠错词典的一部分的示意图,每列的第一个字为原字符,后面的多个为替换字符。
举个例子,建立了纠错词典和构建了文本纠错模型之后,获得待修正的文本信息为:文本jiucuo算法,我们从字典中获得每个字符的替换字符,分别为文(文、温、稳、纹、蚊、问、闻)、本(奔、本、笨)、jiu(久、九、就、揪、救、旧、灸、玖、疚、究、纠、臼、舅、酒)、cuo(挫、措、搓、撮、锉、错)、算(酸、蒜)、法(罚、发、伐、阀);修正时每个替换字符分别替换原字符,得到多个替换后的文本信息,最终修正完成时,会得到多个结果文本信息,例如:文本就挫算法、文本纠错算法、文本久挫算法等,然后在多个文本信息中确定最优的一个文本信息为:文本纠错算法,将该文本信息确定为修正后的文本信息。
由于纠错词典中每一个原字符有多个候选字符,所以在对原文本信息进行修正之后,就会得到多个结果文本信息,然后在多个结果文本信息中确定一个最优的文本信息为修正后的文本信息,修正后的文本信息准确率较好,文本修正效果提升。
参考图4,图4是根据一示例性实施例提供的一种文本修正方法另一流程图,该方法包括以下步骤:
在步骤S31中,利用所述文本纠错模型对所述原文本信息进行拆分,以得到多个原字符。
在步骤S32中,将所述多个原字符中的一个原字符分别与前、后原字符组合成两个字符串,并从所述文本纠错模型中获取所述两个字符串的出现概率。
在步骤S33中,将所述两个字符串的出现概率相加求和作为该原字符的第一概率。
在步骤S34中,重复交替执行上述第二个到第三个步骤,直到所述多个原字符各自的第一概率计算完成。
在步骤S35中,将所述多个原字符按照所述第一概率由低到高的顺序进行排序,并将所述顺序确定为纠错顺序,以生成纠错顺序表,所述纠错顺序表包括所述纠错顺序。
在步骤S36中,利用所述纠错顺序表、所述文本纠错模型以及所述纠错词典对所述原文本信息进行修正,以得到修正后的文本信息。
本申请的一个原字符指一个字符、一个拼音、多个英文字母组合按照拼音可用读法分割后的一个拼音、一个英文整词或一个连续数字。
举个例子,建立了纠错词典和构建了文本纠错模型之后,获得待修正的文本信息为:文本jiucuo算法。首先将原文本信息分割成文、本、jiu、cuo、算、法六个原字符,然后利用文本纠错模型获得六个原字符的第一概率分别为:文(-11.2312)、本(-10.3234)、jiu(-15.4234)、cuo(-14.53423)、算(-9.434)、法(-11.978),根据第一概率得到纠错顺序为jiu、cuo、法、文、本、算,然后利用纠错词典和文本纠错模型按照该顺序对原文本信息进行修正,最后得到修正后的文本信息:文本纠错算法。
利用文本纠错模型将原文本信息分割成多个原字符,并得到每个原字符的第一概率,然后根据第一概率确定原字符的纠错顺序,然后按照顺序对原文本信息进行修正。通过该方法,能快速的确定待修正字符,并对最需要修正的字符进行修正,只需要较少的修正次数就能将原文本信息修正为准确率较高的文本信息,文本信息的修正效果较好。
参考图5,图5是根据一示例性实施例提供的一种文本修正方法另一流程图,该方法包括以下步骤:
在步骤S41中,从所述纠错顺序表中获取所述原文本信息包括的多个原字符的纠错顺序;
在步骤S42中,根据所述纠错顺序,利用所述纠错词典和所述文本纠错模型对所述多个原字符进行M次修正,以得到修正后的文本信息,M为不小于1的整数。
本申请的修正次数M是不小于1的整数,因为需要修正,就必然会产生一次修正。M的值不是随机的,是设定的。
举个例子,建立了纠错词典和构建了文本纠错模型之后,获得待修正的文本信息为:文本jiucuo算法,修正次数为2。根据原文本信息包括的原字符的第一概率得到纠错顺序为jiu、cuo、法、文、本、算,然后利用纠错词典和文本纠错模型按照该顺序对原文本信息进行修正,首先对jiu进行修正,然后在对cuo进行修正,两次修正后,结束修正工作,得到修正后的文本信息:文本纠错算法。
通过限制修正次数,使得在利用文本纠错模型和纠错词典对原文本信息进行修正的时候,不会对原文本信息包括的所有的原字符进行修正,也不会对较长的原文本信息进行极少次的修正,避免修正次数不当导致修正后的文本信息准确率较低的情况出现,文本信息的修正效果较好。
参考图6,图6是根据一示例性实施例提供的一种文本修正方法另一流程图,该方法包括以下步骤:
在步骤S51中,获取所述原文本信息包括的多个原字符的字符个数。
在步骤S52中,利用公式一计算所述原文本信息的修正次数。
在步骤S53中,根据所述纠错顺序和所述修正次数,利用所述纠错词典和所述文本纠错模型对所述多个原字符进行修正,以得到修正后的文本信息。
本申请的公式一为:
其中n为第一预设阈值,第一预设阈值为大于零且小于一的数,M为修正次数,q为所述原文本信息包括的多个原字符的字符个数。
本申请的第一预设阈值可以是用户根据自己的需求设置的值,也可以是根据经验获得的最优值。
举个例子,建立了纠错词典和构建了文本纠错模型之后,获得待修正的文本信息为:文本jiucuo算法,n为0.4,q为6。根据公式一求得修正次数为2,并根据原文本信息包括的原字符的第一概率得到纠错顺序为jiu、cuo、法、文、本、算,然后利用纠错词典和文本纠错模型按照该顺序对原文本信息进行修正,首先对jiu进行修正,然后在对cuo进行修正,2次修正后,结束修正工作,得到修正后的文本信息:文本纠错算法。
通过设置最优的n的值,计算出待修正文本信息的最佳修正次数,使得原文本信息的不会因为修正过度或修正未完成,得到准确率低的修正后的文本,文本信息的修正效果较好。
参考图7,图7是根据一示例性实施例提供的一种文本修正方法另一流程图,该方法包括以下步骤:
在步骤S61中,将所述原文本信息包括的多个原字符的第一概率相乘的积作为原文本信息的句概率,并将所述句概率记为基准值;
在步骤S62中,将所述原文本信息确定为当前待修正的文本信息;
在步骤S63中,根据所述纠错顺序,利用所述纠错词典和所述文本纠错模型将所述当前待修正的文本信息中的待修正的原字符替换为所述纠错词典中该字符的替换字符,以得到替换后的文本信息,并计算所述替换字符的第二概率;
在步骤S64中,计算所述替换后的文本信息的新的句概率,并将所述新的句概率不低于所述基准值的替换后的文本信息确定为可选文本信息;
在步骤S64中,判断所述可选文本信息的数量是否大于一;
在步骤S66中,当所述可选文本信息的数量大于一时,将已修正次数加一,并将所述新的句概率最高的第二预设阈值数量的可选文本信息确定为预选文本信息;
在步骤S67中,当所述可选文本信息的数量不大于一时,将已修正次数保持上一数值,并将所述可选文本信息确定为预选文本信息;
在步骤S68中,将所述预选文本信息作为新的当前待修正的文本信息,重复交替执行上述第三个到第七个步骤,直到已修正次数为M或所述原文本信息包括的多个原字符均完成修正,以获得多个结果文本信息;
在步骤S69中,将所述新的句概率值最高的一个结果文本信息确定为修正后的文本信息。
本申请第二预设阈值为用户根据自己的需求设置的值,也可以是根据经验得到的最佳值。第二预设阈值一般不为1。
举个例子,建立了纠错词典和构建了文本纠错模型之后,获得待修正的文本信息为:纹本jiucuo算发,n为0.5,q为6,第二预设阈值是2,当前已修正次数为0。根据公式一求得修正次数为3,并根据原文本信息包括的原字符的第一概率,得到纠错顺序为jiu、cuo、发、纹、本、算,然后利用纠错词典和文本纠错模型按照该顺序对原文本信息进行修正。首先计算原文本信息的句概率为-10.423,并将该句概率作为基准值,然后对jiu进行修正,将纠错字典中的jiu的替换字符(久、纠、九、就、救、旧、灸、玖、疚)分别替换原字符jiu,以得到9个替换后的文本信息,并计算替换后的文本信息的句概率,其中5个替换后的文本信息句概率不低于基准值,将这5个替换后的文本信息确定为可选文本信息,判断之后得到可选文本信息的数量大于1,将已修正次数加1,得到当前已修正1次,然后在可选文本信息中确定句概率最高的2个文本信息为预选文本信息,预选文本信息分别为:纹本久cuo算发(-9.2312)、纹本纠cuo算发(-9.4234)。然后将这2个预选文本信息作为新的当前待修正的文本信息,继续进行cuo的修正。
其中cuo的替换字符为:挫、措、搓、磋、锉、错,cuo字被替换后得到12个替换后的文本信息,其中4个替换后的文本信息的句概率值不低于基准值,将这4个替换后的文本信息确定为可选文本信息,判断之后得到可选文本信息的数量大于1,将已修正次数加1,得到当前已修正次数为2,并将句概率最高的2个可选文本信息确定为新的预选文本信息,新的预选文本信息分别为:纹本纠错算发(-9.23)、纹本久错算发(-9.3254)。将2个新的预选文本信息确定为当前待修正的文本信息,继续进行发字的修正。
其中发的替换字符为:罚、法、伐、阀,发字被替换后得到8个替换后的文本信息,其中1个替换后的文本信息的句概率不低于基准值,将这个替换后的文本信息确定为可选文本信息,判断之后得到可选文本信息的数量不大于1,得到当前已修正次数为2,并将该可选文本信息确定为新的预选文本信息,该新的预选文本信息为:纹本纠错算法(-9.2357)。将该新的预选文本信息确定为当前待修正的文本信息,继续进行纹字的修正。
其中纹的替换字符为:文、温、稳、蚊、问、闻,纹字被替换后得到6个替换后的文本信息,其中3个替换后的文本信息的句概率不低于基准值,将这3个替换后的文本信息确定为可选文本信息,判断之后得到可选文本信息的数量大于1,得到当前已修正次数为3,停止修正,并将句概率最高的2个可选文本信息确定为结果文本信息,结果文本信息为:文本纠错算法(-9.7213)、问本纠错算法(-9.987);将句概率最高的一个结果文本信息确定为修正后的文本信息,即:文本纠错算法。
每次修正确定句概率最高的文本信息为预选文本信息,保证每一次修正后的文本信息都是最优的文本信息,并将前一次修正后的文本信息作为新的当前待修正的文本信息,继续进行下一个原字符的修正,以得到句概率最高的多个结果文本信息,然后将句概率最高的一个结果文本信息确定为修正后的文本信息,修正后的文本信息是最优的一个,文本信息的修正效果较好。
参考图8,图8是根据一示例性实施例提供的一种文本纠错装置框图,该装置包括:
第一获取模块801,用于获取训练语料;
模型训练模块802,用于以所述训练语料为训练样本,对神经网络模型进行训练,以得到文本纠错模型;
第二获取模块803,用于获取待修正的原文本信息;
修正模块804,用于利用所述文本纠错模型对所述原文本信息进行修正,以得到修正后的文本信息。
可选的,在利用所述文本纠错模型对所述原文本信息进行修正,以得到修正后的文本信息之前,所述装置还包括:
建立词典模块,用于建立纠错词典,所述纠错词典包括原字符和多个替换字符;
相应的,所述修正模块包括:
修正子模块,用于利用所述文本纠错模型和所述纠错词典对所述原文本信息进行修正,以得到修正后的文本信息。
可选的,所述修正子模块包括:
原字符拆分单元,用于利用所述文本纠错模型对所述原文本信息进行拆分,以得到多个原字符;
字符组合单元,用于将所述多个原字符中的一个原字符分别与前、后原字符组合成两个字符串,并从所述文本纠错模型中获取所述两个字符串的出现概率;
第一概率计算单元,用于将所述两个字符串的出现概率相加求和作为该原字符的第一概率;
第一循环单元,用于重复交替执行上述第二个到第三个步骤,直到所述多个原字符各自的第一概率计算完成;
纠错顺序表生成单元,用于将所述多个原字符按照所述第一概率由低到高的顺序进行排序,并将所述顺序确定为纠错顺序,以生成纠错顺序表,所述纠错顺序表包括所述纠错顺序;
修正单元,用于利用所述纠错顺序表、所述文本纠错模型以及所述纠错词典对所述原文本信息进行修正,以得到修正后的文本信息。
可选的,所述修正单元包括:
第一获取子单元,用于从所述纠错顺序表中获取所述原文本信息包括的多个原字符的纠错顺序;
修正子单元,用于根据所述纠错顺序,利用所述纠错词典和所述文本纠错模型对所述多个原字符进行M次修正,以得到修正后的文本信息,M为不小于1的整数。
可选的,所述修正单元还包括:
第二获取子单元,用于获取所述原文本信息包括的多个原字符的字符个数;
修正次数计算子单元,用于利用公式一计算所述原文本信息的修正次数;
所述公式一为:
其中n为第一预设阈值,第一预设阈值为大于零且小于一的数,M为修正次数,q为所述原文本信息包括的多个原字符的字符个数;
相应的,所述修正子单元包括:
第一修正子单元,用于根据所述纠错顺序和所述修正次数,利用所述纠错词典和所述文本纠错模型对所述多个原字符进行修正,以得到修正后的文本信息。
可选的,所述第一修正子单元包括:
第一计算子单元,用于将所述原文本信息包括的多个原字符的第一概率相乘的积作为原文本信息的句概率,并将所述句概率记为基准值;
第一确定子单元,用于将所述原文本信息确定为当前待修正的文本信息;
第二计算子单元,用于根据所述纠错顺序,利用所述纠错词典和所述文本纠错模型将所述当前待修正的文本信息中的待修正的原字符替换为所述纠错词典中该字符的替换字符,以得到替换后的文本信息,并计算所述替换字符的第二概率;
第二确定子单元,用于计算所述替换后的文本信息的新的句概率,并将所述新的句概率不低于所述基准值的替换后的文本信息确定为可选文本信息;
判断子单元,用于判断所述可选文本信息的数量是否大于一;
第三确定子单元,用于当所述可选文本信息的数量大于一时,将已修正次数加一,并将所述新的句概率最高的第二预设阈值数量的可选文本信息确定为预选文本信息;
第四确定子单元,用于当所述可选文本信息的数量不大于一时,将已修正次数保持上一数值,并将所述可选文本信息确定为预选文本信息;
第一循环子单元,用于将所述预选文本信息作为新的当前待修正的文本信息,重复交替执行上述第三个到第七个步骤,直到已修正次数为M或所述原文本信息包括的多个原字符均完成修正,以获得多个结果文本信息;
第四确定子单元,用于将所述新的句概率值最高的一个结果文本信息确定为修正后的文本信息。
根据一示例性实施例,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本申请第一方面任一所述的方法中的步骤。
根据一示例性实施例,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如本申请第一方面任一所述的方法中的步骤。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所述权利要求为准。

Claims (10)

1.一种文本纠错方法,其特征在于,所述方法包括:
获取训练语料;
以所述训练语料为训练样本,对神经网络模型进行训练,以得到文本纠错模型;
获取待修正的原文本信息;
利用所述文本纠错模型对所述原文本信息进行修正,以得到修正后的文本信息。
2.如权利要求1所述的方法,其特征在于,在利用所述文本纠错模型对所述原文本信息进行修正,以得到修正后的文本信息之前,所述方法还包括:
建立纠错词典,所述纠错词典包括原字符和多个替换字符;
利用所述文本纠错模型对所述原文本信息进行修正,以得到修正后的文本信息,包括:
利用所述文本纠错模型和所述纠错词典对所述原文本信息进行修正,以得到修正后的文本信息。
3.如权利要求2所述的方法,其特征在于,利用所述文本纠错模型和所述纠错词典对所述原文本信息进行修正,以得到修正后的文本信息,包括:
利用所述文本纠错模型对所述原文本信息进行拆分,以得到多个原字符;
将所述多个原字符中的一个原字符分别与前、后原字符组合成两个字符串,并从所述文本纠错模型中获取所述两个字符串的出现概率;
将所述两个字符串的出现概率相加求和作为该原字符的第一概率;
重复交替执行上述第二个到第三个步骤,直到所述多个原字符各自的第一概率计算完成;
将所述多个原字符按照所述第一概率由低到高的顺序进行排序,并将所述顺序确定为纠错顺序,以生成纠错顺序表,所述纠错顺序表包括所述纠错顺序;
利用所述纠错顺序表、所述文本纠错模型以及所述纠错词典对所述原文本信息进行修正,以得到修正后的文本信息。
4.如权利要求3所述的方法,其特征在于,利用所述纠错顺序表、所述文本纠错模型以及所述纠错词典对所述原文本信息进行修正,以得到修正后的文本信息,包括:
从所述纠错顺序表中获取所述原文本信息包括的多个原字符的纠错顺序;
根据所述纠错顺序,利用所述纠错词典和所述文本纠错模型对所述多个原字符进行M次修正,以得到修正后的文本信息,M为不小于1的整数。
5.如权利要4所述的方法,其特征在于,在根据所述纠错顺序,利用所述纠错词典和所述文本纠错模型对所述多个原字符进行M次修正,以得到修正后的文本信息之前,所述方法还包括:
获取所述原文本信息包括的多个原字符的字符个数;
利用公式一计算所述原文本信息的修正次数;
所述公式一为:
其中n为第一预设阈值,第一预设阈值为大于零且小于一的数,M为修正次数,q为所述原文本信息包括的多个原字符的字符个数;
根据所述纠错顺序,利用所述纠错词典和所述文本纠错模型对所述多个原字符进行M次修正,以得到修正后的文本信息,包括:
根据所述纠错顺序和所述修正次数,利用所述纠错词典和所述文本纠错模型对所述多个原字符进行修正,以得到修正后的文本信息。
6.如权利要求5所述的方法,其特征在于,根据所述纠错顺序和所述修正次数,利用所述纠错词典和所述文本纠错模型对所述多个原字符进行修正,以得到修正后的文本信息,包括:
将所述原文本信息包括的多个原字符的第一概率相乘的积作为原文本信息的句概率,并将所述句概率记为基准值;
将所述原文本信息确定为当前待修正的文本信息;
根据所述纠错顺序,利用所述纠错词典和所述文本纠错模型将所述当前待修正的文本信息中的待修正的原字符替换为所述纠错词典中该字符的替换字符,以得到替换后的文本信息,并计算所述替换字符的第二概率;
计算所述替换后的文本信息的新的句概率,并将所述新的句概率不低于所述基准值的替换后的文本信息确定为可选文本信息;
判断所述可选文本信息的数量是否大于一;
当所述可选文本信息的数量大于一时,将已修正次数加一,并将所述新的句概率最高的第二预设阈值数量的可选文本信息确定为预选文本信息;
当所述可选文本信息的数量不大于一时,将已修正次数保持上一数值,并将所述可选文本信息确定为预选文本信息;
将所述预选文本信息作为新的当前待修正的文本信息,重复交替执行上述第三个到第七个步骤,直到已修正次数为M或所述原文本信息包括的多个原字符均完成修正,以获得多个结果文本信息;
将所述新的句概率值最高的一个结果文本信息确定为修正后的文本信息。
7.一种文本纠错装置,其特征在于,所述装置包括:
第一获取模块,用于获取训练语料;
模型训练模块,用于以所述训练语料为训练样本,对神经网络模型进行训练,以得到文本纠错模型;
第二获取模块,用于获取待修正的原文本信息;
修正模块,用于利用所述文本纠错模型对所述原文本信息进行修正,以得到修正后的文本信息。
8.如权利要求7所述的装置,其特征在于,所述装置还包括:
建立词典模块,用于建立纠错词典,所述纠错词典包括原字符和多个替换字符;
所述修正模块包括:
修正子模块,用于利用所述文本纠错模型和所述纠错词典对所述原文本信息进行修正,以得到修正后的文本信息。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6中任一所述的方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一所述的方法中的步骤。
CN201811392436.4A 2018-11-21 2018-11-21 一种文本纠错方法、装置、电子设备以及存储介质 Active CN109766538B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811392436.4A CN109766538B (zh) 2018-11-21 2018-11-21 一种文本纠错方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811392436.4A CN109766538B (zh) 2018-11-21 2018-11-21 一种文本纠错方法、装置、电子设备以及存储介质

Publications (2)

Publication Number Publication Date
CN109766538A true CN109766538A (zh) 2019-05-17
CN109766538B CN109766538B (zh) 2023-12-15

Family

ID=66449649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811392436.4A Active CN109766538B (zh) 2018-11-21 2018-11-21 一种文本纠错方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN109766538B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619119A (zh) * 2019-07-23 2019-12-27 平安科技(深圳)有限公司 文本智能编辑方法、装置及计算机可读存储介质
CN110674276A (zh) * 2019-09-23 2020-01-10 深圳前海微众银行股份有限公司 机器人自学习方法、机器人终端、装置及可读存储介质
CN110765996A (zh) * 2019-10-21 2020-02-07 北京百度网讯科技有限公司 文本信息处理方法及装置
CN110782885A (zh) * 2019-09-29 2020-02-11 深圳和而泰家居在线网络科技有限公司 语音文本修正方法及装置、计算机设备和计算机存储介质
CN110969012A (zh) * 2019-11-29 2020-04-07 北京字节跳动网络技术有限公司 文本纠错方法、装置、存储介质及电子设备
CN111144101A (zh) * 2019-12-26 2020-05-12 北大方正集团有限公司 错别字处理方法和装置
CN111177308A (zh) * 2019-12-05 2020-05-19 上海云洽信息技术有限公司 一种文本内容的识别情绪方法
CN111222335A (zh) * 2019-11-27 2020-06-02 上海眼控科技股份有限公司 语料修正方法、装置、计算机设备和计算机可读存储介质
WO2021139349A1 (zh) * 2020-09-07 2021-07-15 平安科技(深圳)有限公司 基于图神经网络的文本纠错方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528532A (zh) * 2016-11-07 2017-03-22 上海智臻智能网络科技股份有限公司 文本纠错方法、装置及终端
CN107122346A (zh) * 2016-12-28 2017-09-01 平安科技(深圳)有限公司 一种输入语句的纠错方法及装置
CN107357775A (zh) * 2017-06-05 2017-11-17 百度在线网络技术(北京)有限公司 基于人工智能的循环神经网络的文本纠错方法及装置
CN108052499A (zh) * 2017-11-20 2018-05-18 北京百度网讯科技有限公司 基于人工智能的文本纠错方法、装置及计算机可读介质
CN108491392A (zh) * 2018-03-29 2018-09-04 广州视源电子科技股份有限公司 文字拼写错误的修正方法、系统、计算机设备及存储介质
CN108563632A (zh) * 2018-03-29 2018-09-21 广州视源电子科技股份有限公司 文字拼写错误的修正方法、系统、计算机设备及存储介质
CN108563634A (zh) * 2018-03-29 2018-09-21 广州视源电子科技股份有限公司 文字拼写错误的识别方法、系统、计算机设备及存储介质
CN108595431A (zh) * 2018-04-28 2018-09-28 海信集团有限公司 语音交互文本纠错方法、装置、终端及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528532A (zh) * 2016-11-07 2017-03-22 上海智臻智能网络科技股份有限公司 文本纠错方法、装置及终端
CN107122346A (zh) * 2016-12-28 2017-09-01 平安科技(深圳)有限公司 一种输入语句的纠错方法及装置
CN107357775A (zh) * 2017-06-05 2017-11-17 百度在线网络技术(北京)有限公司 基于人工智能的循环神经网络的文本纠错方法及装置
CN108052499A (zh) * 2017-11-20 2018-05-18 北京百度网讯科技有限公司 基于人工智能的文本纠错方法、装置及计算机可读介质
CN108491392A (zh) * 2018-03-29 2018-09-04 广州视源电子科技股份有限公司 文字拼写错误的修正方法、系统、计算机设备及存储介质
CN108563632A (zh) * 2018-03-29 2018-09-21 广州视源电子科技股份有限公司 文字拼写错误的修正方法、系统、计算机设备及存储介质
CN108563634A (zh) * 2018-03-29 2018-09-21 广州视源电子科技股份有限公司 文字拼写错误的识别方法、系统、计算机设备及存储介质
CN108595431A (zh) * 2018-04-28 2018-09-28 海信集团有限公司 语音交互文本纠错方法、装置、终端及存储介质

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619119A (zh) * 2019-07-23 2019-12-27 平安科技(深圳)有限公司 文本智能编辑方法、装置及计算机可读存储介质
CN110619119B (zh) * 2019-07-23 2022-06-10 平安科技(深圳)有限公司 文本智能编辑方法、装置及计算机可读存储介质
CN110674276A (zh) * 2019-09-23 2020-01-10 深圳前海微众银行股份有限公司 机器人自学习方法、机器人终端、装置及可读存储介质
CN110782885B (zh) * 2019-09-29 2021-11-26 深圳数联天下智能科技有限公司 语音文本修正方法及装置、计算机设备和计算机存储介质
CN110782885A (zh) * 2019-09-29 2020-02-11 深圳和而泰家居在线网络科技有限公司 语音文本修正方法及装置、计算机设备和计算机存储介质
CN110765996A (zh) * 2019-10-21 2020-02-07 北京百度网讯科技有限公司 文本信息处理方法及装置
CN110765996B (zh) * 2019-10-21 2022-07-29 北京百度网讯科技有限公司 文本信息处理方法及装置
CN111222335A (zh) * 2019-11-27 2020-06-02 上海眼控科技股份有限公司 语料修正方法、装置、计算机设备和计算机可读存储介质
CN110969012A (zh) * 2019-11-29 2020-04-07 北京字节跳动网络技术有限公司 文本纠错方法、装置、存储介质及电子设备
CN110969012B (zh) * 2019-11-29 2023-04-07 北京字节跳动网络技术有限公司 文本纠错方法、装置、存储介质及电子设备
CN111177308A (zh) * 2019-12-05 2020-05-19 上海云洽信息技术有限公司 一种文本内容的识别情绪方法
CN111177308B (zh) * 2019-12-05 2023-07-18 上海云洽信息技术有限公司 一种文本内容的识别情绪方法
CN111144101A (zh) * 2019-12-26 2020-05-12 北大方正集团有限公司 错别字处理方法和装置
CN111144101B (zh) * 2019-12-26 2021-12-03 北大方正集团有限公司 错别字处理方法和装置
WO2021139349A1 (zh) * 2020-09-07 2021-07-15 平安科技(深圳)有限公司 基于图神经网络的文本纠错方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109766538B (zh) 2023-12-15

Similar Documents

Publication Publication Date Title
CN109766538A (zh) 一种文本纠错方法、装置、电子设备以及存储介质
US11080492B2 (en) Method and device for correcting error in text
CN111310440B (zh) 文本的纠错方法、装置和系统
CN110795938B (zh) 文本序列分词方法、装置及存储介质
CN108563632A (zh) 文字拼写错误的修正方法、系统、计算机设备及存储介质
Vaassen et al. Automatic emotion classification for interpersonal communication
CN109766407A (zh) 数据处理方法和系统
CN106528616A (zh) 一种人机交互过程中的语言纠错方法及系统
WO2020219750A1 (en) Management of annotation jobs
Atapattu et al. Automated extraction of semantic concepts from semi-structured data: Supporting computer-based education through the analysis of lecture notes
CN114896382A (zh) 人工智能问答模型生成方法、问答方法、装置及存储介质
Sun et al. From indeterminacy to determinacy: Augmenting logical reasoning capabilities with large language models
US12020593B2 (en) Automated evaluation of free-form answers and generation of actionable feedback to multidimensional reasoning questions
Kondurkar et al. Modern applications with a focus on training chatgpt and gpt models: Exploring generative ai and nlp
Moiseeva et al. Multipurpose intelligent process automation via conversational assistant
Čibej et al. Normalisation, tokenisation and sentence segmentation of Slovene tweets
Pandey et al. Generative AI-Based Text Generation Methods Using Pre-Trained GPT-2 Model
CN111859855A (zh) 一种标注任务处理方法、装置、设备及存储介质
Sohn et al. Cognitive constraints on computer problem-solving skills.
CN112084766A (zh) 文本处理方法和装置、存储介质和处理器
EP2884434A1 (en) Method and device for automatic feedback generation
Beaufort et al. Automation of dictation exercises. A working combination of CALL and NLP.
CN114239568A (zh) 基于自适应注意力机制的电网公文自动生成方法及装置
US11087097B2 (en) Automatic item generation for passage-based assessment
CN112199476A (zh) 在会话智能导师系统中部分正确答案后选择支架的自动决策

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant