CN111339758A - 基于深度学习模型的文本纠错方法及系统 - Google Patents
基于深度学习模型的文本纠错方法及系统 Download PDFInfo
- Publication number
- CN111339758A CN111339758A CN202010110922.3A CN202010110922A CN111339758A CN 111339758 A CN111339758 A CN 111339758A CN 202010110922 A CN202010110922 A CN 202010110922A CN 111339758 A CN111339758 A CN 111339758A
- Authority
- CN
- China
- Prior art keywords
- error
- word
- model
- position index
- modified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于深度学习模型的文本纠错方法及系统,其中,该方法包括步骤:利用错误定位模型判断用户输入的语句是否存在错误字,同时获取所述错误字的位置索引;将不存在错误字的语句直接输出,同时输出判断结果;或者,将存在错误字的语句输入错误纠正模型以得到修改后的语句,同时获取被修改字的位置索引,判断被修改字的位置索引与错误字的位置索引是否一致,如果一致,输出修改后的语句,如果不一致,输出修改前的语句,该方法既保证了错误定位和错误纠正的正确率,又防止因错误纠正模型未能正确识别错误字而导致的错误修改。该系统采用上述基于深度学习模型的文本纠错方法,提高了文本纠错的可靠性和正确率。
Description
技术领域
本发明人工智能自然语言处理(NLP)领域,尤其涉及基于深度学习模型的文本纠错方法及系统。
背景技术
文本纠错是一种自动化文本校正技术,包括谐音字词的校正(例如“配副眼睛”修改为“配副眼镜”)和形近字词的修改(例如“高梁”修改为“高粱”)等,电商文本纠错是针对电商类文字信息,比如商品推荐文案,客服问答等的纠正技术。
文本纠错目前会采用单模型和多模型两套不同的方式,由于多模型存在计算消耗大、语料需求大等问题,因此实际应用中单模型应用场景较为广泛。
如图1所示,现有技术中单模型文本纠错常采用的算法逻辑为:
1、错误定位:这一步常采用阈值判断来解决;
2、困惑集替换:根据所有的音近字形近字表,进行错字替换;
3、纠错:对替换后的句子进行打分,采用得分高者替换字。
但是上述的单模型方法在实际应用中存在一些不足:
1、错误定位:常使用ngram进行错误定位(常用bigram和trigram),但是该方法产生的配置文件(字符串概率字典表)将是巨大的,非常影响模型的上线和使用。除此之外,阈值的确定需要在得到字符串概率字典表后,经过多次试验取舍才能得到一个合适的阈值区间,并且针对不同领域的语料需要确定不同的阈值,以上这些体现出阈值定位错误的不可靠性和差鲁棒性。
2、困惑集替换:采用困惑集里的字符串进行替换,但是该步骤常用的问题是替换字表未必全,可能不包含正确字,或者没有该字的替换字表,造成错误不能纠正。
3、纠错:评分步骤,这一步中,可能替换前是一个常用词,替换后也是一个常用词,这样两者的得分就是相同的,或者如果包含错别字的词组频率是更高的,那么得分也就是更高的,这样就没有考虑到上下文语境,会进一步造成错误不能纠正或者正确字误纠正的情况。
发明内容
本发明的目的在于提供基于深度学习模型的文本纠错方法及系统,以提高文本纠错的可靠性和正确率。
为了实现上述目的,本发明提供如下技术方案:
一种基于深度学习模型的文本纠错方法,包括步骤:
利用错误定位模型判断用户输入的语句是否存在错误字,同时获取所述错误字的位置索引;
将不存在错误字的语句直接输出,同时输出判断结果;或者,
将存在错误字的语句输入错误纠正模型以得到修改后的语句,同时获取被修改字的位置索引,判断被修改字的位置索引与错误字的位置索引是否一致,如果一致,输出修改后的语句,如果不一致,输出修改前的语句。
优选地,所述错误定位模型采用bilstm+crf模型;
所述错误纠正模型采用seq2seq模型。
具体地,判断用户输入的语句是否存在错误字同时获取所述错误字的位置索引的方法包括:
接收用户输入的语句,并将所述语句转换为字索引;
将转换为字索引的语句输入训练完成的bilstm+crf模型;
利用bilstm+crf模型判断所述语句是否存在错误字,同时获取所述错误字的位置索引。
进一步地,所述bilstm+crf模型的训练方法包括:
构建用于训练bilstm+crf模型的第一训练语料库;
将第一训练语料库中的每条语句及其错误位置索引对应地输入至bilstm+crf模型中;
采用预设的错误查全率和错误查准率对bilstm+crf模型进行评价,直至bilstm+crf模型的错误查全率和错误查准率都达到合格阈值。
优选地,所述预设的错误查准率为错误位置判断正确的语句数量与所有判断含有错误位置的语句数量之比;
所述预设的错误查全率为所有判断含有错误的语句数量与所有实际含有错误的语句数量之比。
较佳地,如果bilstm+crf模型判断用户输入的语句存在错误字,则
将语句输入训练完成的seq2seq模型以得到修改后的语句;
对比修改后语句与用户输入语句,以获取被修改字的位置索引;
判断被修改字的位置索引与错误字的位置索引是否一致,如果一致,输出修改后的语句,如果不一致,输出修改前的语句。
具体地,训练seq2seq模型的方法包括:
构建用于训练seq2seq模型的第二训练语料库;
将第二训练语料库中的每一条待修改语句及正确语句一一对应地输入至seq2seq模型中;
采用预设的修改正确率和修改查全率对seq2seq模型进行评价,直至seq2seq模型的修改正确率和修改查全率都达到合格阈值。
进一步地,所述修改正确率为修改正确的语句数量与所有修改的语句数量之比;
所述修改查全率为所有修改的语句数量与所有含有错误的语句数量之比。
一种基于深度学习模型的文本纠错系统,包括查错模块和修正模块,所述修正模块包括修改单元和判断单元,其中,
所述查错模块利用错误定位模型判断用户输入的语句是否存在错误字,同时获取所述错误字的位置索引,并将不存在错误字的语句直接输出;
所述修正模块的修改单元用于将存在错误字的语句输入错误纠正模型以得到修改后的语句,同时获取被修改字的位置索引;
所述修正模块的判断单元用于判断被修改字的位置索引与错误字的位置索引是否一致,如果一致,输出修改后的语句,如果不一致,输出修改前的语句。
一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述任一权利要求1-8所述基于深度学习模型的文本纠错方法。
与现有技术相比,本发明提供的基于深度学习模型的文本纠错方法及系统具有以下有益效果:
本发明提供的基于深度学习模型的文本纠错方法,利用专门的错误定位模型判断用户输入的语句是否存在错误字,同时获取所述错误字的位置索引,以保证错误定位的正确率;将不存在错误字的语句直接输出,或者,将存在错误字的语句输入错误纠正模型以得到修改后的语句,同时获取被修改字的位置索引,判断被修改字的位置索引与错误字的位置索引是否一致,如果一致,输出修改后的语句,如果不一致,输出修改前的语句,以防止因错误纠正模型未能正确识别错误字而导致的错误修改,进一步提高文本纠错的可靠性和正确率。
本发明提供的基于深度学习模型的文本纠错系统,采用上述基于深度学习模型的文本纠错方法,提高了文本纠错的可靠性和正确率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为现有技术中单模型文本纠错常采用的算法逻辑;
图2为本发明实施例提供的一种基于深度学习模型的文本纠错方法流程示意图;
图3为本发明实施例中bilstm+crf模型的训练方法流程示意图;
图4为本发明实施例中seq2seq模型的训练方法流程示意图;
图5为本发明实施例中一种电子设备的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。
实施例一
请参阅图2,本发明实施例提供一种基于深度学习模型的文本纠错方法,包括步骤:
利用错误定位模型判断用户输入的语句是否存在错误字,同时获取错误字的位置索引;
将不存在错误字的语句直接输出,同时输出判断结果;或者,
将存在错误字的语句输入错误纠正模型以得到修改后的语句,同时获取被修改字的位置索引,判断被修改字的位置索引与错误字的位置索引是否一致,如果一致,输出修改后的语句,如果不一致,输出修改前的语句。
本发明实施例利用专门的错误定位模型,输出错误位置索引,提高了错误位置判断的正确率,若存在错误位置,则利用专门的错误纠正模型中得到修改后的语句,如果修改位置与判断的错误位置相同,则输出修改后的语句,如果不同,则输出原句,以防止因错误纠正模型未能正确识别错误字而导致的错误修改,进一步提高文本纠错的可靠性和正确率。
其中,错误定位模型采用bilstm+crf模型,bilstm+crf模型中,bilstm算法的双向时序结构能够考虑到当前字的上下文对当前字的影响,crf算法能够输出最符合上下文语境的当前字符,因此用来判断该字是否为错别字能达到很高的准确率,无需计算字符串概率表,也省去了字符串概率表的内存占用,解决了阈值选择的不可靠近和差鲁棒性。
错误纠正模型优先选用seq2seq模型,seq2seq模型由编码端和解码端组成,编码端里是2层bilstm结构,编码-解码过程里包含注意力机制,最后由beam search算法输出结果。编码-解码这样的网络结构可以将信息从一种形式或格式转换为另一种形式,常在NLP中用来解决翻译、字符转换等问题,而bilstm能够充分的连接上下文语义,且里面还添加了注意力机制,使得模型在纠正当前字时,更多的语义权重在当前字附近,纠正也就更准确。最后字符串的组合由beam search进行输出,beam search这种算法的优点在于,输出的不是当前位置最可能出现的字符,而是在全句中该位置最应该出现的字符。此外,因为在纠错模型seq2seq的训练中,训练语料里就包含了巨大的词表,所有词表里面的字均在可替换的范围里,因此不需要再依据音近字表和形近字表里有的组合进行替换,删去了现有的文本纠错方法中困惑集替换的环节,解决了可替换字符的局限性。
本发明实施例提供一种基于深度学习模型的文本纠错方法中,判断用户输入的语句是否存在错误字同时获取错误字的位置索引的方法包括:
接收用户输入的语句,并将语句转换为字索引;
将转换为字索引的语句输入训练完成的bilstm+crf模型;
利用bilstm+crf模型判断语句是否存在错误字,同时获取错误字的位置索引。
可以选用现有技术中为语句中的字标号的方式实现将语句转换为字索引,为后续利用训练完成的bilstm+crf模型判断语句是否存在错误字,同时获取错误字的位置索引做好基础,并且利于实现。此外,采用基于深度学习模型bilstm+crf的方法进行错误定位,解决了阈值定位的不可靠性和差鲁棒性。
请参阅图3,本发明实施例提供一种基于深度学习模型的文本纠错方法中,bilstm+crf模型的训练方法包括:
构建用于训练bilstm+crf模型的第一训练语料库;
然后将第一训练语料库中的每条语句及其错误位置索引对应地输入至bilstm+crf模型中;
采用预设的错误查全率和错误查准率对bilstm+crf模型进行评价,直至bilstm+crf模型的错误查全率和错误查准率都达到合格阈值。
其中,第一训练语料库的预料来源包括:企业提供的实际应用场景中遇到的包含错字的案例,并且由业务方标注出错误位置索引;公开的新闻、商品评价和商品推荐文案语料,数据清洗后,标注人员基于自己的生活经验,将正确语句中的一个或多个字改为常出现的错误用字;商品OCR识别结果以及公开的百科语料,数据清洗后,按照公开的音近字、形近字表,对一句话中的一个或多个正确字进行随机替换,替换为词表中任意一个对应的音近字或者形近字。
预设的错误查准率为错误位置判断正确的语句数量与所有判断含有错误位置的语句数量之比;预设的错误查全率为所有判断含有错误的语句数量与所有实际含有错误的语句数量之比。最后模型可以达到88%以上的错误查准率和90%以上的错误查全率。
采用训练完成的深度学习模型bilstm+crf进行错误定位后,省去了bigram或者trigram概率表占用的巨大内存,也解决了现有技术中人为根据概率表提取错误阈值的不可靠性,该方法能达到比阈值定位高10%左右的精度。
如果bilstm+crf模型判断用户输入的语句不存在错误字,则将不存在错误字的语句直接输出,同时输出判断结果,例如在将语句直接输出的同时,输出“UNK”;如果bilstm+crf模型判断用户输入的语句存在错误字,则将语句输入训练完成的seq2seq模型以得到修改后的语句;对比修改后语句与用户输入语句,以获取被修改字的位置索引;判断被修改字的位置索引与错误字的位置索引是否一致,如果一致,输出修改后的语句,如果不一致,输出修改前的语句。充分利用了bilstm+crf模型进行错误定位的精准性,也充分利用了深度学习模型seq2seq进行错误修改时联系上下文语义的优势,同时利用二次判断被修改字的位置索引与错误字的位置索引是否一致,防止因seq2seq模型未能正确识别错误字而导致的错误修改,进一步提高文本纠错的可靠性和正确率。
请参阅图4,本发明实施例提供一种基于深度学习模型的文本纠错方法中,训练seq2seq模型的方法包括:
构建用于训练seq2seq模型的第二训练语料库;
将第二训练语料库中的每一条待修改语句及正确语句一一对应地输入至seq2seq模型中;
采用预设的修改正确率和修改查全率对seq2seq模型进行评价,直至seq2seq模型的修改正确率和修改查全率都达到合格阈值。
为解决上下文不相关的问题,势必要采用天然包含上下文关系的网络模型,因此提出了基于深度学习模型seq2seq的方法。
首先是数据准备,数据来源包括标注人员对公开的商品评论、商品推荐文案语料,新闻语料进行标注,先写出修改后的错误语句,再写出未修改前的正确语句,中间采用#NLP#进行连接,即按照“错误句子#NLP#正确句子”格式进行语料的整理;来自于随机替换的商品OCR识别结果以及公开的百科语料,同样错误句子与正确句子之间采用#NLP#进行连接等。这里注意的是,所有输入的训练语料中,并不是所有#NLP#标识之前的句子都是错误的,也可能是正确的原句,为的是让模型学习到尽可能真实的错句特征,例如输入语料的正误比例在8:2左右,真实错误句子为8,正确句子为2。
之后将数据输入到深度学习模型中,这里采用的模型是天然包含有时序关系的seq2seq模型,里面是2层bilstm,并且为了得到最佳上下文搭配结果,采用了beam search算法进行输出,beam size为2。之后测试集检验模型学习结果。事先标注好检测句和正确句,同样其中部分检测句是正确的。将测试集输入模型中,得到输出,输出的修改正确率和修改查全率均可达到85%以上,这里的修改正确率和修改查全率定义如下:
修改正确率为修改正确的语句数量与所有修改的语句数量之比;
修改查全率为所有修改的语句数量与所有含有错误的语句数量之比。
采用深度学习方法进行文本纠错后,由于模型结构天然含有时序关系,因而能够体现上下文语义对当前字的影响,自然也解决了根据字表替换的无视上下文语境的局限性,该方法比替换字表提高了15%左右的精度。
之后,将错误定位模型bilstm+crf和错误纠正模型seq2seq结合,语句输入bilstm+crf模型,输出错误字的位置索引,若存在错误字的位置索引,则将语句输入至seq2seq模型中,得到修改后的语句,如果被修改字的位置索引与判断的错误字的位置索引相同,则输出修改后的语句,如果不同,则输出原句。
本发明实施例提供的一种基于深度学习模型的文本纠错方法,采用基于深度学习模型bilstm+crf的方法进行错误定位,解决了阈值定位的不可靠性和差鲁棒性;采用基于深度学习模型seq2seq的方法进行错误修改,解决了根据词表替换评分的不联系上下文语义的局限性和替换字符的局限性。
实施例二
一种基于深度学习模型的文本纠错系统,包括查错模块和修正模块,修正模块包括修改单元和判断单元,其中,
查错模块利用错误定位模型判断用户输入的语句是否存在错误字,同时获取错误字的位置索引,并将不存在错误字的语句直接输出;
修正模块的修改单元用于将存在错误字的语句输入错误纠正模型以得到修改后的语句,同时获取被修改字的位置索引;
修正模块的判断单元用于判断被修改字的位置索引与错误字的位置索引是否一致,如果一致,输出修改后的语句,如果不一致,输出修改前的语句。
本发明提供的基于深度学习模型的文本纠错系统,采用上述基于深度学习模型的文本纠错方法,提高了文本纠错的可靠性和正确率。与现有技术相比,本发明实施例提供的基于深度学习模型的文本纠错系统的有益效果与上述实施例一提供的基于深度学习模型的文本纠错方法的有益效果相同,且该系统中的其他技术特征与上一实施例方法公开的特征相同,在此不做赘述。
实施例三
一种电子设备,电子设备包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行前述任一权利要求1-8基于深度学习模型的文本纠错方法。
下面参考图5,其示出了适于用来实现本公开实施例的电子设备的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,电子设备可以包括处理装置(例如中央处理器、图形处理器等),其可以根据存储在只读存储器(ROM)中的程序或者从存储装置加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有电子设备操作所需的各种程序和数据。处理装置、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。
通常,以下系统可以连接至I/O接口:包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置;包括例如磁带、硬盘等的存储装置;以及通信装置。通信装置可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图中示出了具有各种系统的电子设备,但是应理解的是,并不要求实施或具备所有示出的系统。可以替代地实施或具备更多或更少的系统。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置从网络上被下载和安装,或者从存储装置被安装,或者从ROM被安装。在该计算机程序被处理装置执行时,执行本公开实施例的方法中限定的上述功能。
本发明提供的电子设备,采用上述基于深度学习模型的文本纠错方法,提高了文本纠错的可靠性和正确率。与现有技术相比,本发明实施例提供的电子设备的有益效果与上述实施例一提供的基于深度学习模型的文本纠错方法的有益效果相同,且该电子设备中的其他技术特征与上一实施例方法公开的特征相同,在此不做赘述。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、系统或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、系统或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、系统或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取至少两个网际协议地址;向节点评价设备发送包括所述至少两个网际协议地址的节点评价请求,其中,所述节点评价设备从所述至少两个网际协议地址中,选取网际协议地址并返回;接收所述节点评价设备返回的网际协议地址;其中,所获取的网际协议地址指示内容分发网络中的边缘节点。
或者,上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:接收包括至少两个网际协议地址的节点评价请求;从所述至少两个网际协议地址中,选取网际协议地址;返回选取出的网际协议地址;其中,接收到的网际协议地址指示内容分发网络中的边缘节点。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种基于深度学习模型的文本纠错方法,其特征在于,包括步骤:
利用错误定位模型判断用户输入的语句是否存在错误字,同时获取所述错误字的位置索引;
将不存在错误字的语句直接输出,同时输出判断结果;或者,
将存在错误字的语句输入错误纠正模型以得到修改后的语句,同时获取被修改字的位置索引,判断被修改字的位置索引与错误字的位置索引是否一致,如果一致,输出修改后的语句,如果不一致,输出修改前的语句。
2.根据权利要求1所述的基于深度学习模型的文本纠错方法,其特征在于,所述错误定位模型采用bilstm+crf模型;
所述错误纠正模型采用seq2seq模型。
3.根据权利要求2所述的基于深度学习模型的文本纠错方法,其特征在于,判断用户输入的语句是否存在错误字同时获取所述错误字的位置索引的方法包括:
接收用户输入的语句,并将所述语句转换为字索引;
将转换为字索引的语句输入训练完成的bilstm+crf模型;
利用bilstm+crf模型判断所述语句是否存在错误字,同时获取所述错误字的位置索引。
4.根据权利要求2或3所述的基于深度学习模型的文本纠错方法,其特征在于,所述bilstm+crf模型的训练方法包括:
构建用于训练bilstm+crf模型的第一训练语料库;
将第一训练语料库中的每条语句及其错误位置索引对应地输入至bilstm+crf模型中;
采用预设的错误查全率和错误查准率对bilstm+crf模型进行评价,直至bilstm+crf模型的错误查全率和错误查准率都达到合格阈值。
5.根据权利要求4所述的基于深度学习模型的文本纠错方法,其特征在于,所述预设的错误查准率为错误位置判断正确的语句数量与所有判断含有错误位置的语句数量之比;
所述预设的错误查全率为所有判断含有错误的语句数量与所有实际含有错误的语句数量之比。
6.根据权利要求2所述的基于深度学习模型的文本纠错方法,其特征在于,如果bilstm+crf模型判断用户输入的语句存在错误字,则
将语句输入训练完成的seq2seq模型以得到修改后的语句;
对比修改后语句与用户输入语句,以获取被修改字的位置索引;
判断被修改字的位置索引与错误字的位置索引是否一致,如果一致,输出修改后的语句,如果不一致,输出修改前的语句。
7.根据权利要求2或6所述的基于深度学习模型的文本纠错方法,其特征在于,训练seq2seq模型的方法包括:
构建用于训练seq2seq模型的第二训练语料库;
将第二训练语料库中的每一条待修改语句及正确语句一一对应地输入至seq2seq模型中;
采用预设的修改正确率和修改查全率对seq2seq模型进行评价,直至seq2seq模型的修改正确率和修改查全率都达到合格阈值。
8.根据权利要求7所述的基于深度学习模型的文本纠错方法,其特征在于,所述修改正确率为修改正确的语句数量与所有修改的语句数量之比;
所述修改查全率为所有修改的语句数量与所有含有错误的语句数量之比。
9.一种基于深度学习模型的文本纠错系统,其特征在于,包括查错模块和修正模块,所述修正模块包括修改单元和判断单元,其中,
所述查错模块利用错误定位模型判断用户输入的语句是否存在错误字,同时获取所述错误字的位置索引,并将不存在错误字的语句直接输出;
所述修正模块的修改单元用于将存在错误字的语句输入错误纠正模型以得到修改后的语句,同时获取被修改字的位置索引;
所述修正模块的判断单元用于判断被修改字的位置索引与错误字的位置索引是否一致,如果一致,输出修改后的语句,如果不一致,输出修改前的语句。
10.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述任一权利要求1-8所述基于深度学习模型的文本纠错方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010110922.3A CN111339758B (zh) | 2020-02-21 | 2020-02-21 | 基于深度学习模型的文本纠错方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010110922.3A CN111339758B (zh) | 2020-02-21 | 2020-02-21 | 基于深度学习模型的文本纠错方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111339758A true CN111339758A (zh) | 2020-06-26 |
CN111339758B CN111339758B (zh) | 2023-06-30 |
Family
ID=71183648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010110922.3A Active CN111339758B (zh) | 2020-02-21 | 2020-02-21 | 基于深度学习模型的文本纠错方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339758B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950262A (zh) * | 2020-07-17 | 2020-11-17 | 武汉联影医疗科技有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN111985213A (zh) * | 2020-09-07 | 2020-11-24 | 科大讯飞华南人工智能研究院(广州)有限公司 | 一种语音客服文本纠错的方法和装置 |
CN113268600A (zh) * | 2021-06-25 | 2021-08-17 | 沈阳美行科技有限公司 | 检索名称的错别字纠正方法、装置、电子设备和存储介质 |
CN113779970A (zh) * | 2021-09-24 | 2021-12-10 | 北京字跳网络技术有限公司 | 一种文本纠错方法及其相关设备 |
CN114664121A (zh) * | 2022-03-23 | 2022-06-24 | 合肥置顶信息技术有限公司 | 一种可智能纠错的民航气象观测制作发布系统及方法 |
CN114694420A (zh) * | 2022-03-23 | 2022-07-01 | 合肥置顶信息技术有限公司 | 一种可智能纠错的民航气象预报制作发布系统及方法 |
CN111985213B (zh) * | 2020-09-07 | 2024-05-28 | 科大讯飞华南人工智能研究院(广州)有限公司 | 一种语音客服文本纠错的方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122346A (zh) * | 2016-12-28 | 2017-09-01 | 平安科技(深圳)有限公司 | 一种输入语句的纠错方法及装置 |
CN108491392A (zh) * | 2018-03-29 | 2018-09-04 | 广州视源电子科技股份有限公司 | 文字拼写错误的修正方法、系统、计算机设备及存储介质 |
-
2020
- 2020-02-21 CN CN202010110922.3A patent/CN111339758B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122346A (zh) * | 2016-12-28 | 2017-09-01 | 平安科技(深圳)有限公司 | 一种输入语句的纠错方法及装置 |
CN108491392A (zh) * | 2018-03-29 | 2018-09-04 | 广州视源电子科技股份有限公司 | 文字拼写错误的修正方法、系统、计算机设备及存储介质 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950262A (zh) * | 2020-07-17 | 2020-11-17 | 武汉联影医疗科技有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN111985213A (zh) * | 2020-09-07 | 2020-11-24 | 科大讯飞华南人工智能研究院(广州)有限公司 | 一种语音客服文本纠错的方法和装置 |
CN111985213B (zh) * | 2020-09-07 | 2024-05-28 | 科大讯飞华南人工智能研究院(广州)有限公司 | 一种语音客服文本纠错的方法和装置 |
CN113268600A (zh) * | 2021-06-25 | 2021-08-17 | 沈阳美行科技有限公司 | 检索名称的错别字纠正方法、装置、电子设备和存储介质 |
CN113779970A (zh) * | 2021-09-24 | 2021-12-10 | 北京字跳网络技术有限公司 | 一种文本纠错方法及其相关设备 |
CN114664121A (zh) * | 2022-03-23 | 2022-06-24 | 合肥置顶信息技术有限公司 | 一种可智能纠错的民航气象观测制作发布系统及方法 |
CN114694420A (zh) * | 2022-03-23 | 2022-07-01 | 合肥置顶信息技术有限公司 | 一种可智能纠错的民航气象预报制作发布系统及方法 |
CN114664121B (zh) * | 2022-03-23 | 2024-01-09 | 合肥置顶信息技术有限公司 | 一种可智能纠错的民航气象观测制作发布系统及方法 |
CN114694420B (zh) * | 2022-03-23 | 2024-01-12 | 合肥置顶信息技术有限公司 | 一种可智能纠错的民航气象预报制作发布系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111339758B (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111339758B (zh) | 基于深度学习模型的文本纠错方法及系统 | |
CN107908635B (zh) | 建立文本分类模型以及文本分类的方法、装置 | |
WO2022042512A1 (zh) | 文本处理方法、装置、电子设备及介质 | |
KR101255402B1 (ko) | 대안들의 목록을 사용하는 오인된 단어들의 다시 받아쓰기 | |
CN110276023B (zh) | Poi变迁事件发现方法、装置、计算设备和介质 | |
CN112036162B (zh) | 文本纠错的适配方法、装置、电子设备及存储介质 | |
CN111739514B (zh) | 一种语音识别方法、装置、设备及介质 | |
CN111312209A (zh) | 文本到语音的转换处理方法、装置及电子设备 | |
CN111563390B (zh) | 文本生成方法、装置和电子设备 | |
CN109635305B (zh) | 语音翻译方法及装置、设备及存储介质 | |
WO2014048172A1 (en) | Method and system for correcting text | |
CN111382261B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN111597800B (zh) | 同义句的获取方法及装置、设备及存储介质 | |
CN112507695A (zh) | 文本纠错模型建立方法、装置、介质及电子设备 | |
CN111369980A (zh) | 语音检测方法、装置、电子设备及存储介质 | |
CN104916177A (zh) | 电子设备和电子设备的数据输出方法 | |
CN111523532A (zh) | 一种矫正ocr文字识别错误的方法及终端设备 | |
CN111400454A (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
WO2022180990A1 (ja) | 質問生成装置 | |
EP3185132B1 (en) | Method for writing a foreign language in a pseudo language phonetically resembling native language of the speaker | |
CN112509581B (zh) | 语音识别后文本的纠错方法、装置、可读介质和电子设备 | |
CN112307748A (zh) | 用于处理文本的方法和装置 | |
CN112560431A (zh) | 用于生成试题辅导信息的方法、装置、设备、存储介质以及计算机程序产品 | |
CN111951784B (zh) | 语音识别中垃圾词的生成方法及装置、介质、电子设备 | |
CN115169330B (zh) | 中文文本纠错及验证方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |