CN111401012A - 文本纠错方法、电子设备及计算机可读存储介质 - Google Patents
文本纠错方法、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111401012A CN111401012A CN202010156189.9A CN202010156189A CN111401012A CN 111401012 A CN111401012 A CN 111401012A CN 202010156189 A CN202010156189 A CN 202010156189A CN 111401012 A CN111401012 A CN 111401012A
- Authority
- CN
- China
- Prior art keywords
- text
- processed
- word
- error correction
- preset value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 56
- 238000002372 labelling Methods 0.000 claims abstract description 55
- 238000001514 detection method Methods 0.000 claims description 41
- 238000012549 training Methods 0.000 claims description 27
- 230000008451 emotion Effects 0.000 claims description 15
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 238000003786 synthesis reaction Methods 0.000 claims description 9
- 230000008909 emotion recognition Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 abstract description 6
- 230000002457 bidirectional effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种文本纠错方法、电子设备及及计算机可读存储介质,所述方法包括:在待处理文本的每两个字之间添加预设符号;将添加所述预设符号后的待处理文本输入预先训练的定位模型,得到文本标注信息,以确定所述待处理文本中的待纠错位置,所述文本标注信息中对应所述待纠错位置的值为预设值;基于所述文本标注信息对所述待处理文本进行纠错处理。本发明实施例能够提高电子设备与用户之间交互的准确性。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文本纠错方法、电子设备及及计算机可读存储介质。
背景技术
随着电子设备的普及,电子设备的功能越来越完善,人们日常生活工作中也越来越依赖电子设备。电子设备可以接收用户的输入信息,例如,用户输入的文本信息,或者,用户输入的语音信息,电子设备可以基于用户输入的文本信息或用户输入的语音信息转化成的文本信息与用户进行交互。
现有技术中,电子设备获取到的文本信息可能会出错,例如,文本信息中有错误字或者遗漏字等等,会导致电子设备与用户之间交互的准确性较低。
发明内容
本发明实施例提供一种文本纠错方法、电子设备及及计算机可读存储介质,以解决现有技术中电子设备获取到的文本信息出错导致电子设备与用户之间交互的准确性较低的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种文本纠错方法,应用于电子设备,所述方法包括:
在待处理文本的每两个字之间添加预设符号;
将添加所述预设符号后的待处理文本输入预先训练的定位模型,得到文本标注信息,以确定所述待处理文本中的待纠错位置,所述文本标注信息中对应所述待纠错位置的值为预设值;
基于所述文本标注信息对所述待处理文本进行纠错处理。
第二方面,本发明实施例提供了一种电子设备,所述电子设备包括:
添加模块,用于在待处理文本的每两个字之间添加预设符号;
输入模块,用于将添加所述预设符号后的待处理文本输入预先训练的定位模型,得到文本标注信息,以确定所述待处理文本中的待纠错位置,所述文本标注信息中对应所述待纠错位置的值为预设值;
处理模块,用于基于所述文本标注信息对所述待处理文本进行纠错处理。
第三方面,本发明实施例提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如第一方面所述的文本纠错方法中的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的文本纠错方法中的步骤。
本发明实施例中,在待处理文本的每两个字之间添加预设符号;将添加所述预设符号后的待处理文本输入预先训练的定位模型,得到文本标注信息,以确定所述待处理文本中的待纠错位置,所述文本标注信息中对应所述待纠错位置的值为预设值;基于所述文本标注信息对所述待处理文本进行纠错处理。这样,通过定位模型对待处理文本中的错误进行定位,并能够根据定位结果进行纠错,能够提高电子设备与用户之间交互的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文本纠错方法的流程图;
图2是本发明实施例提供的一种电子设备的结构示意图之一;
图3是本发明实施例提供的一种电子设备的结构示意图之二;
图4是本发明实施例提供的一种电子设备的结构示意图之三。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、移动终端、可穿戴设备、以及计步器等。
参见图1,图1是本发明实施例提供的一种文本纠错方法的流程图,所述方法应用于电子设备,包括以下步骤:
步骤101、在待处理文本的每两个字之间添加预设符号。
其中,所述预设符号可以为“#”,或者可以为“*”,或者还可以为其他符号,本发明实施例对此不进行限定。以所述待处理文本为“今天的天气阳光明媚”为例,可以在每两个字之间插入“#”,得到“今#天#的#天#气#阳#光#明#媚”。为避免待处理文本中第一个字之前存在遗漏字,或者,最后一个字之后存在遗漏字,进一步提高电子设备与用户之间交互的准确性,可以在待处理文本的每两个字之间添加预设符号,并在待处理文本中的第一字之前添加预设符号,在待处理文本中的最后一个字之后添加预设符号,以所述待处理文本为“今天的天气阳光明媚”为例,添加所述预设符号后的待处理文本可以为“#今#天#的#天#气#阳#光#明#媚#”。
步骤102、将添加所述预设符号后的待处理文本输入预先训练的定位模型,得到文本标注信息,以确定所述待处理文本中的待纠错位置,所述文本标注信息中对应所述待纠错位置的值为预设值。
其中,所述定位模型可以用于定位所述待处理文本中是否存在错误字、遗漏字或者多余字等等错误文本信息。预设值可以为0,或者可以1,或者其他值等等。所述文本标注信息可以用于确定所述待处理文本中的待纠错位置,例如,所述文本标注信息中的数字可以与所述添加所述预设符号后的待处理文本中的字和预设符号一一对应,作为一种实施方式,预设值可以为0,在文本标注信息中,可以用“1”表示待处理文本中对应的位置无错误字、遗漏字或多余字等错误文本信息,可以用“0”表示待处理文本中对应的位置存在错误字、遗漏字或多余字等错误文本信息。以添加所述预设符号后的待处理文本为“#今#天#的#天#气#阳#光#明#媚#”为例,对应的文本标注信息可以为“1111111111111111111”;以添加所述预设符号后的待处理文本为“#今#天#的#天#气#阳#明#媚#”为例,对应的文本标注信息可以为“11111111111101111”,表示“0”对应的位置存在遗漏字“光”。
另外,可以将添加所述预设符号后的待处理文本向量化后输入预先训练的定位模型,可以将添加所述预设符号后的待处理文本进行embedding向量化,为查找到待处理文本中的字,可以建立待处理文本中的字对应的索引关系。为使得定位模型的输入向量长度一致,还可以对向量化后的数据进行padding填充操作。在实际应用中,所述定位模型可以包括双向GRU神经网络,可以将向量化后的数据输入双向GRU神经网络中,可以取出每个timestep阶段的输出层节点,输入到一个具有两个神经元的全连接层中,定位模型的输出可以为带有“0”或“1”的数字串,若“0”标注在字上,则可以表示待处理文本中该字出错;若“0”标注在预设符号上,则可以表示待处理文本中该位置有遗漏字的情况。
步骤103、基于所述文本标注信息对所述待处理文本进行纠错处理。
其中,所述预设值可以包括第一预设值和/或第二预设值,若所述待处理文本中存在错误字,则所述文本标注信息中所述错误字对应的位置可以为第一预设值,可以将至少一个第一备选字中每个第一备选字替换所述错误字,将每个替换后的待处理文本进行流畅度检测,并基于流畅度检测结果对所述待处理文本进行纠错处理,所述至少一个第一备选字基于所述待处理文本中所述错误字相邻的字确定;
和/或,若所述待处理文本中任意两个相邻的字之间存在遗漏字,则所述文本标注信息中所述遗漏字对应的位置可以为第二预设值,可以将至少一个第二备选字中每个第二备选字插入所述遗漏字对应的位置,将每个插入后的待处理文本进行流畅度检测,并基于流畅度检测结果对所述待处理文本进行纠错处理,所述至少一个第二备选字基于所述待处理文本中所述遗漏字对应的位置相邻的字确定;
和/或,所述预设值还可以包括第三预设值,所述第一预设值、第二预设值及第三预设值可以全部相同,也可以部分相同,或者,还可以均不相同。若所述待处理文本中存在多余字,则所述文本标注信息中所述多余字对应的位置可以为第三预设值,可以删除待处理文本中的多余字,并对删除多余字后的待处理文本进行流畅度检测,若流畅度检测结果高于预设分值,可以将删除多余字后的待处理文本作为纠错处理后的文本。
本发明实施例中,在待处理文本的每两个字之间添加预设符号;将添加所述预设符号后的待处理文本输入预先训练的定位模型,得到文本标注信息,以确定所述待处理文本中的待纠错位置,所述文本标注信息中对应所述待纠错位置的值为预设值;基于所述文本标注信息对所述待处理文本进行纠错处理。这样,通过定位模型对待处理文本中的错误进行定位,并能够根据定位结果进行纠错,能够提高电子设备与用户之间交互的准确性。
可选的,所述预设值包括第一预设值和/或第二预设值,若所述待处理文本中存在错误字,则所述文本标注信息中所述错误字对应的位置为第一预设值,所述基于所述文本标注信息对所述待处理文本进行纠错处理,包括:
将至少一个第一备选字中每个第一备选字替换所述错误字,将每个替换后的待处理文本进行流畅度检测,并基于流畅度检测结果对所述待处理文本进行纠错处理,所述至少一个第一备选字基于所述待处理文本中所述错误字相邻的字确定;
和/或
若所述待处理文本中任意两个相邻的字之间存在遗漏字,则所述文本标注信息中所述遗漏字对应的位置为第二预设值,所述基于所述文本标注信息对所述待处理文本进行纠错处理,包括:
将至少一个第二备选字中每个第二备选字插入所述遗漏字对应的位置,将每个插入后的待处理文本进行流畅度检测,并基于流畅度检测结果对所述待处理文本进行纠错处理,所述至少一个第二备选字基于所述待处理文本中所述遗漏字对应的位置相邻的字确定。
其中,电子设备可以查询各种字的搭配字,可以获取待处理文本中错误字的前一个字或后一个字,查找到该字的搭配字作为第一备选字。在实际应用中,可以使用分词工具hanlp工具以及索引信息查找到第一预设值对应的错误字,可以计算错误字的前一个字与第一备选字中每个字的拼音的最长公共字串和编辑距离的加权分数,将加权分数低于预设分值的字从第一备选字中删除。可以将每个替换后的待处理文本输入n-gram模型中进行流畅度检测,可以将流畅度检测结果中分值最高的替换后的待处理文本作为纠错处理后的文本。在实际应用中,还可以将带有错误字的待处理文本输入n-gram模型中进行流畅度检测,避免定位模型的误判。
另外,可以获取待处理文本中遗漏字所在位置的前一个字或后一个字,查找到该字的搭配字作为第一备选字。在实际应用中,可以使用分词工具hanlp工具以及索引信息查找到第二预设值对应的预设符号,可以计算第二预设值对应的预设符号的前一个字与第二备选字中每个字的拼音的最长公共字串和编辑距离的加权分数,将加权分数低于预设分值的字从第二备选字中删除。可以将每个插入后的待处理文本输入n-gram模型中进行流畅度检测,可以将流畅度检测结果中分值最高的插入后的待处理文本作为纠错处理后的文本。在实际应用中,还可以将存在遗漏字的待处理文本输入n-gram模型中进行流畅度检测,避免定位模型的误判。
进一步的,第一预设值和第二预设值可以相同,也可以不同。在第一预设值和第二预设值相同时,例如,第一预设值和第二预设值均为“0”时,可以在文本标注信息中“0”所在的位置对应到待处理文本中的字时,表示待处理文本中存在错误字;在文本标注信息中“0”所在的位置对应到预设符号时,表示待处理文本中存在遗漏字。
该实施方式中,将至少一个第一备选字中每个第一备选字替换所述错误字,将每个替换后的待处理文本进行流畅度检测,并基于流畅度检测结果对所述待处理文本进行纠错处理,这样,可以实现对待处理文本中的错误字进行纠错处理;将至少一个第二备选字中每个第二备选字插入所述遗漏字对应的位置,将每个插入后的待处理文本进行流畅度检测,并基于流畅度检测结果对所述待处理文本进行纠错处理,这样,可以实现对待处理文本中的遗漏字进行纠错处理。
可选的,所述预先训练的定位模型的训练样本中的输入包括第一文本,所述训练样本中的输出包括第一文本对应的文本标注信息,所述第一文本为存在错误字的文本,所述第一文本对应的文本标注信息中所述错误字对应的位置为第一预设值;
和/或
所述预先训练的定位模型的训练样本中的输入包括第二文本,所述训练样本中的输出包括第二文本对应的文本标注信息,所述第二文本为任意两个相邻的字之间存在遗漏字的文本,所述第二文本对应的文本标注信息中所述遗漏字对应的位置为第二预设值。
其中,可以收集语料,并对搜集的语料进行整理获取训练样本。例如,可以搜集中文滨州树库1000000多条,1946~2003年人民日报语料库5000000多条,中文维基百科语料库980000多条,百科问答中文语料1500000多条,在线评论数据集60000多条。对搜集的语料进行切分,使每句话为10到30个字之间,并且是完成语句,可以搜集可用语料数量约2000万句左右。可以对搜集的语料进行整理得到第一文本和第二文本。所述第一文本和第二文本均可以为每两个字之间添加有预设符号的文本。
进一步的,在第一文本中的第一字之前可以添加有预设符号,在第一文本中的最后一个字之后可以添加有预设符号。例如,搜集的语料可以为“今天的天气阳光明媚”,对语料添加预设符号后,可以得到“#今#天#的#天#气#阳#光#明#媚#”,可以在该语料中选取随机位置替换随机错误字,得到“#今#天#的#天#气#阳#广#明#媚#”,可以将其作为第一文本。第一文本中“广”为错误字,在第一文本对应的文本标注信息中错误字所在的位置标注为“0”,无错误的位置标注为“1”,对应的文本标注信息可以为“111111111111101111”。
另外,在第二文本中的第一字之前可以添加有预设符号,在第二文本中的最后一个字之后可以添加有预设符号。例如,搜集的语料可以为“今天的天气阳光明媚”,可以在该语料中选取随机位置的字删除,得到“今天的天气阳明媚”,并添加预设符号,得到“#今#天#的#天#气#阳#明#媚#”,可以将其作为第二文本。第二文本中“光”为遗漏字,该字在“阳”和“媚”之间,该两个字之间的“个字号可以标注为“0”,在第二文本对应的文本标注信息中遗漏字所在的位置标注为“0”,无错误的位置标注为“1”,对应的文本标注信息可以为“111111111111101111”。
该实施方式中,所述预先训练的定位模型的训练样本中的输入包括第一文本,所述训练样本中的输出包括第一文本对应的文本标注信息,所述第一文本为存在错误字的文本,所述第一文本对应的文本标注信息中所述错误字对应的位置为第一预设值,这样,可以针对文本中存在错误字的情况对定位模型进行样本训练,便于定位模型定位文本中存在错误字的情况;所述预先训练的定位模型的训练样本中的输入包括第二文本,所述训练样本中的输出包括第二文本对应的文本标注信息,所述第二文本为任意两个相邻的字之间存在遗漏字的文本,所述第二文本对应的文本标注信息中所述遗漏字对应的位置为第二预设值这样,可以针对文本中存在遗漏字的情况对定位模型进行样本训练,便于定位模型定位文本中存在遗漏字的情况。
可选的,所述在待处理文本的每两个字之间添加预设符号之前,所述方法还包括:
基于情绪识别模型识别用户针对第一合成语音的情绪;
在用户针对第一合成语音的情绪出现异常的情况下,对所述第一合成语音进行语音识别,得到所述待处理文本;
所述基于所述文本标注信息对所述待处理文本进行纠错处理之后,所述方法还包括:
将纠错处理后的文本进行语音合成,并输出合成后的语音。
其中,所述第一合成语音可以是通过端到端TTS(Text To Speech,文本到语音)模型合成的语音。所述情绪识别模型可以基于用户的语音对用户的情绪进行识别,所述情绪识别模型可以是情绪识别分类模型,所述情绪识别分类模型可以包括双向LSTM(long-shorttermmemory,长短期记忆)模型和softmax分类函数,可以将用户的语音输入双向LSTM模型,并将双向LSTM模型的输出接入softmax分类函数进行实时分类。所述情绪识别分类模型的训练样本可以来自于中科院自动化所发布的CASIA汉语情感语料库以及采集的数据,例如,可以收集12名发音人的语音作为训练样本,分为8种情绪类别,分别为生气、高兴、疑惑、恐惧、悲伤、惊讶、厌恶和中性,共19000句,每句时长约为4~5秒。
另外,所述用户针对第一合成语音的情绪出现异常,可以是,检测到用户针对第一合成语音的的情绪为疑惑、生气、厌恶、惊吓或恐惧。可以对所述第一合成语音采用ASR(Automatic Speech Recognition,自动语音识别)技术进行语音识别,得到所述待处理文本。所述将纠错处理后的文本进行语音合成,可以是,直接对纠错后的文本采用端到端TTS模型合成语音;或者,还可以是,将第一合成语音分为第一子语音和第二子语音,所述第一子语音为错误字或遗漏字所在位置之前的文本对应的语音,所述第二子语音为错误字或遗漏字所在位置之后的文本对应的语音,通过纠错后的字获得第三子语音,例如,所述第三子语音为错误字改正后的字对应的语音,或者,第三子语音为遗漏字对应的语音,可以使用sox工具中的sox.Combiner函数对“第一子语音+第三子语音+第二子语音”的顺序进行拼接,并可以在音段间隙增加适当的静音段,拼接后的语音可以为合成后的语音。第三子语音可以从语音数据库中获取,该语音数据库可以与端到端TTS模型的训练样本的语音库音色相同。
进一步的,在将添加所述预设符号后的待处理文本输入预先训练的定位模型之前,可以对待处理文本进行流畅度检测,若流畅度检测结果低于预设分值,则可以将添加所述预设符号后的待处理文本输入预先训练的定位模型。可以将待处理文本输入n-gram模型中进行流畅度检测,例如,可以对待处理文本进行分词、断句、去标点及数字变星处理,采用n-gram模型检测分词后每个字或词的概率,将每个字或词的概率相乘,取其log值,可以得到流畅度检测结果。
该实施方式中,基于情绪识别模型识别用户针对第一合成语音的情绪,在用户针对第一合成语音的情绪出现异常的情况下,对所述第一合成语音进行语音识别,得到所述待处理文本,基于所述文本标注信息对所述待处理文本进行纠错处理之后,将纠错处理后的文本进行语音合成,并输出合成后的语音,这样,可以基于用户的反馈情绪对待处理文本进行纠错处理,智能化程度较高。
参见图2,图2是本发明实施例提供的一种电子设备的结构示意图,如图2所示,电子设备200包括:
添加模块201,用于在待处理文本的每两个字之间添加预设符号;
输入模块202,用于将添加所述预设符号后的待处理文本输入预先训练的定位模型,得到文本标注信息,以确定所述待处理文本中的待纠错位置,所述文本标注信息中对应所述待纠错位置的值为预设值;
处理模块203,用于基于所述文本标注信息对所述待处理文本进行纠错处理。
可选的,所述预设值包括第一预设值和/或第二预设值,若所述待处理文本中存在错误字,则所述文本标注信息中所述错误字对应的位置为第一预设值,所述处理模块具体用于:
将至少一个第一备选字中每个第一备选字替换所述错误字,将每个替换后的待处理文本进行流畅度检测,并基于流畅度检测结果对所述待处理文本进行纠错处理,所述至少一个第一备选字基于所述待处理文本中所述错误字相邻的字确定;
和/或
若所述待处理文本中任意两个相邻的字之间存在遗漏字,则所述文本标注信息中所述遗漏字对应的位置为第二预设值,所述处理模块具体用于:
将至少一个第二备选字中每个第二备选字插入所述遗漏字对应的位置,将每个插入后的待处理文本进行流畅度检测,并基于流畅度检测结果对所述待处理文本进行纠错处理,所述至少一个第二备选字基于所述待处理文本中所述遗漏字对应的位置相邻的字确定。
可选的,所述预先训练的定位模型的训练样本中的输入包括第一文本,所述训练样本中的输出包括第一文本对应的文本标注信息,所述第一文本为存在错误字的文本,所述第一文本对应的文本标注信息中所述错误字对应的位置为第一预设值;
和/或
所述预先训练的定位模型的训练样本中的输入包括第二文本,所述训练样本中的输出包括第二文本对应的文本标注信息,所述第二文本为任意两个相邻的字之间存在遗漏字的文本,所述第二文本对应的文本标注信息中所述遗漏字对应的位置为第二预设值。
可选的,如图3所示,所述电子设备200还包括:
第一识别模块204,用于基于情绪识别模型识别用户针对第一合成语音的情绪;
第二识别模块205,用于在用户针对第一合成语音的情绪出现异常的情况下,对所述第一合成语音进行语音识别,得到所述待处理文本;
合成模块206,用于将纠错处理后的文本进行语音合成,并输出合成后的语音。
电子设备能够实现图1的方法实施例中实现的各个过程,为避免重复,这里不再赘述。
请参见图4,图4是本发明实施例提供的另一种电子设备的结构示意图,如图4所示,电子设备300包括:存储器302、处理器301及存储在所述存储器302上并可在所述处理器301上运行的程序,其中:
所述处理器301读取存储器302中的程序,用于执行:
在待处理文本的每两个字之间添加预设符号;
将添加所述预设符号后的待处理文本输入预先训练的定位模型,得到文本标注信息,以确定所述待处理文本中的待纠错位置,所述文本标注信息中对应所述待纠错位置的值为预设值;
基于所述文本标注信息对所述待处理文本进行纠错处理。
可选的,所述预设值包括第一预设值和/或第二预设值,若所述待处理文本中存在错误字,则所述文本标注信息中所述错误字对应的位置为第一预设值,所述处理器301执行的所述基于所述文本标注信息对所述待处理文本进行纠错处理,包括:
将至少一个第一备选字中每个第一备选字替换所述错误字,将每个替换后的待处理文本进行流畅度检测,并基于流畅度检测结果对所述待处理文本进行纠错处理,所述至少一个第一备选字基于所述待处理文本中所述错误字相邻的字确定;
和/或
若所述待处理文本中任意两个相邻的字之间存在遗漏字,则所述文本标注信息中所述遗漏字对应的位置为第二预设值,所述处理器301执行的所述基于所述文本标注信息对所述待处理文本进行纠错处理,包括:
将至少一个第二备选字中每个第二备选字插入所述遗漏字对应的位置,将每个插入后的待处理文本进行流畅度检测,并基于流畅度检测结果对所述待处理文本进行纠错处理,所述至少一个第二备选字基于所述待处理文本中所述遗漏字对应的位置相邻的字确定。
可选的,所述预先训练的定位模型的训练样本中的输入包括第一文本,所述训练样本中的输出包括第一文本对应的文本标注信息,所述第一文本为存在错误字的文本,所述第一文本对应的文本标注信息中所述错误字对应的位置为第一预设值;
和/或
所述预先训练的定位模型的训练样本中的输入包括第二文本,所述训练样本中的输出包括第二文本对应的文本标注信息,所述第二文本为任意两个相邻的字之间存在遗漏字的文本,所述第二文本对应的文本标注信息中所述遗漏字对应的位置为第二预设值。
可选的,所述处理器301还用于执行:
基于情绪识别模型识别用户针对第一合成语音的情绪;
在用户针对第一合成语音的情绪出现异常的情况下,对所述第一合成语音进行语音识别,得到所述待处理文本;
所述基于所述文本标注信息对所述待处理文本进行纠错处理之后,所述方法还包括:
将纠错处理后的文本进行语音合成,并输出合成后的语音。
在图4中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器301代表的一个或多个处理器和存储器302代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。
处理器301负责管理总线架构和通常的处理,存储器302可以存储处理器301在执行操作时所使用的数据。
需要说明的是,本发明实施例方法实施例中的任意实施方式都可以被本实施例中的上述电子设备所实现,以及达到相同的有益效果,此处不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述文本纠错方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (10)
1.一种文本纠错方法,应用于电子设备,其特征在于,所述方法包括:
在待处理文本的每两个字之间添加预设符号;
将添加所述预设符号后的待处理文本输入预先训练的定位模型,得到文本标注信息,以确定所述待处理文本中的待纠错位置,所述文本标注信息中对应所述待纠错位置的值为预设值;
基于所述文本标注信息对所述待处理文本进行纠错处理。
2.根据权利要求1所述的方法,其特征在于,所述预设值包括第一预设值和/或第二预设值,若所述待处理文本中存在错误字,则所述文本标注信息中所述错误字对应的位置为第一预设值,所述基于所述文本标注信息对所述待处理文本进行纠错处理,包括:
将至少一个第一备选字中每个第一备选字替换所述错误字,将每个替换后的待处理文本进行流畅度检测,并基于流畅度检测结果对所述待处理文本进行纠错处理,所述至少一个第一备选字基于所述待处理文本中所述错误字相邻的字确定;
和/或
若所述待处理文本中任意两个相邻的字之间存在遗漏字,则所述文本标注信息中所述遗漏字对应的位置为第二预设值,所述基于所述文本标注信息对所述待处理文本进行纠错处理,包括:
将至少一个第二备选字中每个第二备选字插入所述遗漏字对应的位置,将每个插入后的待处理文本进行流畅度检测,并基于流畅度检测结果对所述待处理文本进行纠错处理,所述至少一个第二备选字基于所述待处理文本中所述遗漏字对应的位置相邻的字确定。
3.根据权利要求1所述的方法,其特征在于,所述预先训练的定位模型的训练样本中的输入包括第一文本,所述训练样本中的输出包括第一文本对应的文本标注信息,所述第一文本为存在错误字的文本,所述第一文本对应的文本标注信息中所述错误字对应的位置为第一预设值;
和/或
所述预先训练的定位模型的训练样本中的输入包括第二文本,所述训练样本中的输出包括第二文本对应的文本标注信息,所述第二文本为任意两个相邻的字之间存在遗漏字的文本,所述第二文本对应的文本标注信息中所述遗漏字对应的位置为第二预设值。
4.根据权利要求1所述的方法,其特征在于,所述在待处理文本的每两个字之间添加预设符号之前,所述方法还包括:
基于情绪识别模型识别用户针对第一合成语音的情绪;
在用户针对第一合成语音的情绪出现异常的情况下,对所述第一合成语音进行语音识别,得到所述待处理文本;
所述基于所述文本标注信息对所述待处理文本进行纠错处理之后,所述方法还包括:
将纠错处理后的文本进行语音合成,并输出合成后的语音。
5.一种电子设备,其特征在于,所述电子设备包括:
添加模块,用于在待处理文本的每两个字之间添加预设符号;
输入模块,用于将添加所述预设符号后的待处理文本输入预先训练的定位模型,得到文本标注信息,以确定所述待处理文本中的待纠错位置,所述文本标注信息中对应所述待纠错位置的值为预设值;
处理模块,用于基于所述文本标注信息对所述待处理文本进行纠错处理。
6.根据权利要求5所述的电子设备,其特征在于,所述预设值包括第一预设值和/或第二预设值,若所述待处理文本中存在错误字,则所述文本标注信息中所述错误字对应的位置为第一预设值,所述处理模块具体用于:
将至少一个第一备选字中每个第一备选字替换所述错误字,将每个替换后的待处理文本进行流畅度检测,并基于流畅度检测结果对所述待处理文本进行纠错处理,所述至少一个第一备选字基于所述待处理文本中所述错误字相邻的字确定;
和/或
若所述待处理文本中任意两个相邻的字之间存在遗漏字,则所述文本标注信息中所述遗漏字对应的位置为第二预设值,所述处理模块具体用于:
将至少一个第二备选字中每个第二备选字插入所述遗漏字对应的位置,将每个插入后的待处理文本进行流畅度检测,并基于流畅度检测结果对所述待处理文本进行纠错处理,所述至少一个第二备选字基于所述待处理文本中所述遗漏字对应的位置相邻的字确定。
7.根据权利要求5所述的电子设备,其特征在于,所述预先训练的定位模型的训练样本中的输入包括第一文本,所述训练样本中的输出包括第一文本对应的文本标注信息,所述第一文本为存在错误字的文本,所述第一文本对应的文本标注信息中所述错误字对应的位置为第一预设值;
和/或
所述预先训练的定位模型的训练样本中的输入包括第二文本,所述训练样本中的输出包括第二文本对应的文本标注信息,所述第二文本为任意两个相邻的字之间存在遗漏字的文本,所述第二文本对应的文本标注信息中所述遗漏字对应的位置为第二预设值。
8.根据权利要求5所述的电子设备,其特征在于,所述电子设备还包括:
第一识别模块,用于基于情绪识别模型识别用户针对第一合成语音的情绪;
第二识别模块,用于在用户针对第一合成语音的情绪出现异常的情况下,对所述第一合成语音进行语音识别,得到所述待处理文本;
合成模块,用于将纠错处理后的文本进行语音合成,并输出合成后的语音。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1至4中任一项所述的文本纠错方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的文本纠错方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010156189.9A CN111401012B (zh) | 2020-03-09 | 2020-03-09 | 文本纠错方法、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010156189.9A CN111401012B (zh) | 2020-03-09 | 2020-03-09 | 文本纠错方法、电子设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111401012A true CN111401012A (zh) | 2020-07-10 |
CN111401012B CN111401012B (zh) | 2023-11-21 |
Family
ID=71432307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010156189.9A Active CN111401012B (zh) | 2020-03-09 | 2020-03-09 | 文本纠错方法、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111401012B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950262A (zh) * | 2020-07-17 | 2020-11-17 | 武汉联影医疗科技有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN113191119A (zh) * | 2021-06-02 | 2021-07-30 | 云知声智能科技股份有限公司 | 文本纠错模型的训练方法、设备和存储介质 |
CN113807081A (zh) * | 2021-09-18 | 2021-12-17 | 北京云上曲率科技有限公司 | 基于上下文的聊天文本内容纠错方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030220796A1 (en) * | 2002-03-06 | 2003-11-27 | Kazumi Aoyama | Dialogue control system, dialogue control method and robotic device |
CN107430486A (zh) * | 2015-01-28 | 2017-12-01 | 摩托罗拉解决方案公司 | 用于输入手写字符的方法和装置 |
CN108304385A (zh) * | 2018-02-09 | 2018-07-20 | 叶伟 | 一种语音识别文本纠错方法及装置 |
CN110600002A (zh) * | 2019-09-18 | 2019-12-20 | 北京声智科技有限公司 | 语音合成方法、装置及电子设备 |
CN110765996A (zh) * | 2019-10-21 | 2020-02-07 | 北京百度网讯科技有限公司 | 文本信息处理方法及装置 |
CN110782881A (zh) * | 2019-10-25 | 2020-02-11 | 四川长虹电器股份有限公司 | 一种语音识别及实体识别后的影视实体纠错方法 |
-
2020
- 2020-03-09 CN CN202010156189.9A patent/CN111401012B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030220796A1 (en) * | 2002-03-06 | 2003-11-27 | Kazumi Aoyama | Dialogue control system, dialogue control method and robotic device |
CN107430486A (zh) * | 2015-01-28 | 2017-12-01 | 摩托罗拉解决方案公司 | 用于输入手写字符的方法和装置 |
CN108304385A (zh) * | 2018-02-09 | 2018-07-20 | 叶伟 | 一种语音识别文本纠错方法及装置 |
CN110600002A (zh) * | 2019-09-18 | 2019-12-20 | 北京声智科技有限公司 | 语音合成方法、装置及电子设备 |
CN110765996A (zh) * | 2019-10-21 | 2020-02-07 | 北京百度网讯科技有限公司 | 文本信息处理方法及装置 |
CN110782881A (zh) * | 2019-10-25 | 2020-02-11 | 四川长虹电器股份有限公司 | 一种语音识别及实体识别后的影视实体纠错方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950262A (zh) * | 2020-07-17 | 2020-11-17 | 武汉联影医疗科技有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN113191119A (zh) * | 2021-06-02 | 2021-07-30 | 云知声智能科技股份有限公司 | 文本纠错模型的训练方法、设备和存储介质 |
CN113807081A (zh) * | 2021-09-18 | 2021-12-17 | 北京云上曲率科技有限公司 | 基于上下文的聊天文本内容纠错方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111401012B (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489760B (zh) | 基于深度神经网络文本自动校对方法及装置 | |
US11475209B2 (en) | Device, system, and method for extracting named entities from sectioned documents | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN111177184A (zh) | 基于自然语言的结构化查询语言转换方法、及其相关设备 | |
CN113642316B (zh) | 中文文本纠错方法、装置、电子设备及存储介质 | |
CN110110334B (zh) | 一种基于自然语言处理的远程会诊记录文本纠错方法 | |
CN111401012B (zh) | 文本纠错方法、电子设备及计算机可读存储介质 | |
CN111192570B (zh) | 语言模型训练方法、系统、移动终端及存储介质 | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN114036930A (zh) | 文本纠错方法、装置、设备及计算机可读介质 | |
CN115080750B (zh) | 基于融合提示序列的弱监督文本分类方法、系统和装置 | |
CN112148862A (zh) | 一种问题意图识别方法、装置、存储介质及电子设备 | |
CN115438650A (zh) | 融合多源特征的合同文本纠错方法、系统、设备及介质 | |
KR101072460B1 (ko) | 한국어 형태소 분석 방법 | |
CN112151019A (zh) | 文本处理方法、装置及计算设备 | |
CN110750967B (zh) | 一种发音的标注方法、装置、计算机设备和存储介质 | |
CN112069816A (zh) | 中文标点符号添加方法和系统及设备 | |
JP5203324B2 (ja) | 誤字脱字対応テキスト解析装置及び方法及びプログラム | |
CN111339272A (zh) | 代码缺陷报告检索方法及装置 | |
CN110929514A (zh) | 文本校对方法、装置、计算机可读存储介质及电子设备 | |
CN109727591B (zh) | 一种语音搜索的方法及装置 | |
Mukund et al. | NE tagging for Urdu based on bootstrap POS learning | |
CN111090720B (zh) | 一种热词的添加方法和装置 | |
CN114528861A (zh) | 一种基于语料库的外语翻译训练方法及装置 | |
CN113449504A (zh) | 一种标书智能评分方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |