CN110442870B - 文本纠错方法、装置、计算机设备和存储介质 - Google Patents

文本纠错方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110442870B
CN110442870B CN201910710986.4A CN201910710986A CN110442870B CN 110442870 B CN110442870 B CN 110442870B CN 201910710986 A CN201910710986 A CN 201910710986A CN 110442870 B CN110442870 B CN 110442870B
Authority
CN
China
Prior art keywords
corrected
word
text
pinyin
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910710986.4A
Other languages
English (en)
Other versions
CN110442870A (zh
Inventor
刘凯
黄佳恒
贺国栋
范成涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhenai Jieyun Information Technology Co ltd
Original Assignee
Shenzhen Zhenai Jieyun Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhenai Jieyun Information Technology Co ltd filed Critical Shenzhen Zhenai Jieyun Information Technology Co ltd
Priority to CN201910710986.4A priority Critical patent/CN110442870B/zh
Publication of CN110442870A publication Critical patent/CN110442870A/zh
Application granted granted Critical
Publication of CN110442870B publication Critical patent/CN110442870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请涉及一种文本纠错方法、系统、计算机设备和存储介质。方法包括:获取通过语音数据转换得到的待纠正文本;通过正则表达式对待纠正文本中的词进行纠错,获取每一处被纠正的词语的置信度;通过语言模型对待纠正文本中的词进行预测纠错,获取每一处语言模型预测词语的概率值;将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取预先训练好的分类模型输出的预测值;当预测值表明预先训练好的分类模型倾向于置信度时,将置信度对应的词语作为纠正后的词语;当预测值表明预先训练好的分类模型倾向于概率值时,将概率值最高的词语作为纠正后的词语,这种方式可以稳定且大幅度的提高文本纠错的准确率。

Description

文本纠错方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本纠错方法、装置、计算机设备和存储介质。
背景技术
语音识别结果的纠错是语音理解过程中的一项重要工作。由于受限于语音识别的准确性,语音识别的结果常常会出现错误,这将对语音理解的后续工作造成障碍,增加了语音理解的难度。语音识别结果的纠错可以对一些识别的错误结果进行纠正,从而提高语音理解的准确性。
在传统技术中,普遍采用的是n-gram纠错,但N-gram仅仅是词搭配纠错,没有利用句子内部的语义信息,更没有利用句子的上下文信息,会导致纠正的准确率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高文本纠正准确率的文本纠错方法、装置、计算机设备和存储介质。
一种文本纠错方法,所述方法包括:
获取通过语音数据转换得到的待纠正文本;
通过正则表达式对所述待纠正文本中的词进行纠错,获取每一处被纠正的词语的置信度;
通过语言模型对所述待纠正文本中的词进行预测纠错,获取每一处所述语言模型预测词语的概率值;
将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取所述预先训练好的分类模型输出的预测值;
当所述预测值表明所述预先训练好的分类模型倾向于所述置信度时,将所述置信度对应的词语作为纠正后的词语;
当所述预测值表明所述预先训练好的分类模型倾向于所述概率值时,将概率值最高的词语作为纠正后的词语。
一种文本纠错装置,所述装置包括:
文本获取模块,用于获取通过语音数据转换得到的待纠正文本;
第一纠正模块,用于通过正则表达式对所述待纠正文本中的词进行纠错,获取每一处被纠正的词语的置信度;
第二纠正模块,用于通过语言模型对所述待纠正文本中的词进行预测纠错,获取每一处所述语言模型预测词语的概率值;
纠正结果确认模块,用于将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取所述预先训练好的分类模型输出的预测值;当所述预测值表明所述预先训练好的分类模型倾向于所述置信度时,将所述置信度对应的词语作为纠正后的词语;当所述预测值表明所述预先训练好的分类模型倾向于所述概率值时,将概率值最高的词语作为纠正后的词语。
一种计算机设备,包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取通过语音数据转换得到的待纠正文本;
通过正则表达式对所述待纠正文本中的词进行纠错,获取每一处被纠正的词语的置信度;
通过语言模型对所述待纠正文本中的词进行预测纠错,获取每一处所述语言模型预测词语的概率值;
将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取所述预先训练好的分类模型输出的预测值;
当所述预测值表明所述预先训练好的分类模型倾向于所述置信度时,将所述置信度对应的词语作为纠正后的词语;
当所述预测值表明所述预先训练好的分类模型倾向于所述概率值时,将概率值最高的词语作为纠正后的词语。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取通过语音数据转换得到的待纠正文本;
通过正则表达式对所述待纠正文本中的词进行纠错,获取每一处被纠正的词语的置信度;
通过语言模型对所述待纠正文本中的词进行预测纠错,获取每一处所述语言模型预测词语的概率值;
将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取所述预先训练好的分类模型输出的预测值;
当所述预测值表明所述预先训练好的分类模型倾向于所述置信度时,将所述置信度对应的词语作为纠正后的词语;
当所述预测值表明所述预先训练好的分类模型倾向于所述概率值时,将概率值最高的词语作为纠正后的词语。
上述文本纠错方法、装置、计算机设备和存储介质,通过获取通过语音数据转换得到的待纠正文本,通过正则表达式对待纠正文本中的词进行纠错,并获取到每一处被纠正的词语的置信度,还可以通过语言模型对待纠正文本中的词进行预测纠错,并获取到每一处语言模型预测词语的概率值,然后可以将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取到预先训练好的分类模型输出的预测值,根据预测值确定最终的纠错结果,当预测值表明预先训练好的分类模型倾向于置信度时,将置信度对应的词语作为纠正后的词语;当预测值表明预先训练好的分类模型倾向于概率值时,将概率值最高的词语作为纠正后的词语,通过分类模型将正则表达式与语言模型的纠错结果进行融合的方式,可以稳定且大幅度的提高文本纠错的准确率,在文本纠错的准确率提升的基础上,也可以有效的提升意图识别的准确率。
附图说明
图1为一个实施例中文本纠错方法的流程示意图;
图2为一个实施例中正则表达式的流程示意图;
图3为另一个实施例中步骤102的流程示意图;
图4为一个实施例中文本纠错装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种文本纠错方法,包括以下步骤:
步骤101,获取通过语音数据转换得到的待纠正文本。
服务器可以从数据库中获取到客服与用户通话的语音数据,获取到的语音数据可以是实时语音数据,也可以是离线语音数据。在获取到语音数据后,可以通过语音转换接口将语音数据转换成文本,可以将需要纠正的文本称之为待纠正文本。
步骤102,通过正则表达式对待纠正文本中的词进行纠错,获取每一处被纠正的词语的置信度。
正则表达式中包含有多个预先编辑好的可匹配映射的字符串。在编辑正则表达式时,为了更针对性的提高纠正准确率,可以针对特定的领域对正则表达式进行编辑。比如,当企业为珍爱网时,则特定领域为婚恋领域,那么可以对正则表达式进行针对婚恋领域的容易出错的词进行编辑。如图2所示,设置纠正后映射后的词为单身,针对可以映射为单身的词,包括“大声”、“打算”、“但是”等等。因为这些词在语音表达中,发音较为相似,那么在将语音数据转换成文本时,则存在较大可能性转换错误,但这些词对于婚恋领域来说又是比较重要的信息,因此,可以针对这些重要但又容易出错的词进行设置。如此,可以尽可能的保证这些重要的词语能够被纠正,以确保用户真正要表达的含义。
在一个实施例中,如图3所示,步骤102,包括:
步骤301,将待纠正文本转换为拼音格式,获取待纠正文本中每一个字的拼音为第一拼音。
步骤302,获取预先编辑好的正则表达式中包含的每一个目标字词的拼音为第二拼音。
步骤303,获取第一拼音与第二拼音的编辑距离。
步骤304,当编辑距离低于距离阈值时,将第一拼音对应的词纠正为编辑距离最短的第二拼音对应的目标字词。
步骤305,获取编辑距离最短的第二拼音对应的目标字词的置信度。
在通过正则表达式对待纠正文本进行纠错时,可以使用编辑距离的方式确定具体纠错的词语。具体的,在获取到待纠正文本后,可以将待纠正文本转换成拼音格式,当整个待纠正文本均从中文转换成汉语拼音后,则可以获取到待纠正文本中每一个字的拼音。为了便于描述,可以将待纠正文本中每一个字的拼音称为第一拼音。
在预先编辑好的正则表达式中也包含有多个目标字词,目标字词是指在特定领域较为重要,且容易在语音数据转成文本过程中出错的词,如“单身”,“合适”等,在语音表达中,“单身”与“但是”、“大声”等词的发音较为相似,则语音转文本过程中很有可能会将“单身”这个词翻译成“但是”、“大声”,因此可以针对这种情况进行正则表达式的编写,如图2所示。
因此,可以将正则表达式中包含的每一个目标字词也转换成拼音,为了方便与待纠正文本对应的拼音区分,可以将目标字词的拼音称之为第二拼音。也就是说,可以将待纠正文本中的“但是”对应的拼音称之为第一拼音,将正则表达式中包含的目标字词“单身”对应的拼音称之为第二拼音。然后,可以获取到第一拼音与第二拼音的编辑距离,编辑距离是指在两个单词之间,由其中一个单词转换为另一个单词所需要的最少单字符编辑操作次数。比如“但是”的拼音为“danshi”,“单身”的拼音为“danshen”,由“danshi”转换成“danshen”的最少编辑操作次数为2,则这两个拼音的编辑距离2。
可以看出,编辑距离越小的第一拼音与第二拼音的读音越相似,那么在语音数据转成文本的过程中,则越有可能出现相互转换的问题,因此,可以通过第一拼音与第二拼音之间的编辑距离确定是否需要将待纠正文本中的第一拼音对应的词纠正为正则表达式中的第二拼音对应的目标字词。此处,可以采取阈值的方式,将与第二拼音的编辑距离大于距离阈值的第一拼音进行排除,或者说,将与第一拼音的编辑距离大于距离阈值的第二拼音排除,判定此第二拼音对应的目标字词不是第一拼音对应的纠正词,即不能将第一拼音纠正为此第二拼音对应的目标字词。反之,当第一拼音与第二拼音的编辑距离低于距离阈值时,则可以将该第一拼音对应的词纠正为编辑距离最短的第二拼音对应的目标字词,同时,还可以获取到编辑距离最短的第二拼音对应的目标字词的置信度。目标字词的置信度,是根据历史数据预先技术得到的,用于表示该目标字词的纠正准确率。
在一个实施例中,上述文本纠错方法还包括:获取数据库中的历史语音数据,将历史语音数据转换为历史语音文本;通过正则表达式对历史语音文本中的词语进行纠错;获取正则表达式中每一个词语的纠正次数及纠正准确次数;将纠正准确次数与纠正次数的比值作为对应词语的置信度。
在对待纠正文本正式进行纠错之前,会先将正则表达式中包含的目标字词的置信度计算出来。服务器可以获取到数据库中的历史语音数据,并通过语音转换接口将历史语音数据转换为文本,可以称之为历史语音文本。同理,可以通过正则表达式中预先编辑好的目标字词和映射关系,对历史语音文本中的词语进行纠错。并可以检验通过正则表达式纠错的准确率。在此过程中,技术人员可以通过听语音数据,并将语音数据转换的文本与语音数据进行对比,以确定转换的历史语音文本中与语音数据中表达不一致的词语,即历史语音文本中需要纠错的词语,以及纠正后正确的词语,即历史语音数据中实际上真正表达的词语。因此,可以将人工标注的词语作为标准答案,以检验正则表达式纠错的结果是否正确。若是针对同一个历史语音文本中的同一处词语,正则表达式纠正后的词语与人工标注的词语不一样,则认为正则表达式的纠正结果错误;反之,若是正则表达式纠正后的词语与人工标注的词语一致,则认为正则表达式的纠正结果正确。
比如,针对历史语音文本text1中的词语X1,人工标注后,认为词语X1是错误的,在语音数据中实际上正确的词语为X2。当正则表达式对历史语音文本text1中的词语X1进行纠错时,若是正则表达式将词语X1纠正为X3,X4或认为X1不需要纠错,保持为X1即可等情况,均认为正则表达式的纠错结果与人工标注的结果不一致,判定正则表达式的纠正结果错误,只有当正则表达式将词语X1纠正为X2时,即可认为正则表达式的纠错结果与人工标注的结果一致,判定正则表达式的纠正结果正确,正则表达式的纠正准确次数加一。以此方式,可以确定正则表达式中每一个目标字词的纠正次数及纠正准确次数,并可以将每一个目标字词的纠正准确次数与纠正次数的比值作为该目标字词的置信度。
也就是说,通过大量的历史语音文本,可以获取到正则表达式在纠错时,将认为需要纠错的词语纠正为每一个目标字词的次数,假设正则表达式中包含有10个目标字词,分别为S1、S2、…、S10,那么在大量历史语音文本中,可以获取到正则表达式将认为需要纠错的词语分别纠正为S1、S2、…、S10的次数,为N1、N2、…、N10,同时,纠正为S1、S2、…、S10的纠正准确次数分别为M1、M2、…、M10,则目标字词S1的置信度=M1/N1,目标字词S2的置信度=M2/N2,以此类推,可确定全部目标字词的置信度。
步骤103,通过语言模型对待纠正文本中的词进行预测纠错,获取每一处语言模型预测词语的概率值。
在获取到待纠正文本后,除了通过正则表达式对待纠正文本进行纠错以外,还可以通过语言模型对待纠正文本进行纠错,这两种纠错方式既可以串行处理,也可以并行处理。语言模型可以是bert模型,Bert是基于Transformer的双向语言模型。所谓语言模型是一串词的概率分布,通过概率模型来表示文本语义。BERT本质上是一个两段式的NLP模型。第一个阶段叫做:Pre-training,跟WordEmbedding类似,利用现有无标记的语料训练一个语言模型。第二个阶段叫做:Fine-tuning,利用预训练好的语言模型,完成具体的NLP下游任务。MLM,Masked LM。对输入的单词序列,随机地掩盖15%的单词,然后对掩盖的单词做预测任务。
相比传统标准条件语言模型只能left-to-right或right-to-left单向预测目标函数,MLM可以从任意方向预测被掩盖的单词。NSP,Next Sentence Prediction。许多重要的下游任务譬如QA、NLI需要语言模型理解两个句子之间的关系,而传统的语言模型在训练的过程没有考虑句对关系的学习。NSP,预测下一句模型,增加对句子A和B关系的预测任务,50%的时间里B是A的下一句,分类标签为IsNext,另外50%的时间里B是随机挑选的句子,并不是A的下一句,分类标签为NotNext。“完形填空”的学习模式迫使模型更多依赖上下文信息预测单词,赋予了模型一定的纠错能力;Transformer模型相比LSTM模型没有长度限制问题,具备更好的能力捕获上下文信息特征;相比单向训练模式,双向训练模型捕获上下文信息会更加全面。
在一个实施例中,将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取预先训练好的分类模型输出的预测值,包括:获取同一处被纠正的词语对应的置信度、语言模型输出的预测词语和每一个预测词语的概率值,并输入至预先训练好的分类模型中;获取预先训练好的分类模型输出的预测值。
在服务器将待纠正文本输入至语言模型对待纠正文本中的词进行预测纠错时,实际上语言模型会对认为需要纠错的词语预测多个可纠正的词语,也就是说,语言模型在对待纠正文本进行纠错时,针对某一个认为需要纠正的词语,会输出多个预测词语及每一个预测词语对应的概率值。比如,针对待纠正文本text1中的词语X1,语言模型会输出针对词语X1进行纠错,对词语X1进行纠错并认为词语X1实际上对应的正确词语,即语言模型会输出多个预测词语和对应的概率值:Y1(50%)、Y2(80%)、Y3(90%)、Y4(75%),可看出,语言模型认为词语X1应被纠正为词语Y1的概率为50%,词语X1应被纠正为词语Y2的概率为80%,词语X1应被纠正为词语Y3的概率为90%,词语X1应被纠正为词语Y4的概率为75%。
步骤104,将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取预先训练好的分类模型输出的预测值。
步骤105,当预测值表明预先训练好的分类模型倾向于置信度时,将置信度对应的词语作为纠正后的词语。
步骤106,当预测值表明预先训练好的分类模型倾向于概率值时,将概率值最高的词语作为纠正后的词语。
在通过正则表达式与语言模型均对待纠正文本进行纠错后,服务器可以获取到同一处被纠正的词语对应的置信度和概率值,即通过正则表达式进行纠正后的词语对应的置信度,以及通过语言模型进行纠错得到的多个预测词语及每个预测词语对应的概率值,可以将被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,并获取到预先训练好的分类模型输出的预测值,从而可以根据分类模型的预测值确定该词语最终应该被纠正为哪一个词语。当预测值表明预先训练好的分类模型倾向于置信度时,说明分类模型判定正则表达式纠正后的词语更为准确,则可以将该置信度对应的词语作为纠正后的词语。当预测值表明预先训练好的分类模型倾向于概率值时,说明分类模型判定语言模型预测的纠正后的词语更为准确,则可以将概率值最高的词语作为纠正后的词语。
在本实施例中,实际上是使用分类模型将正则表达式的纠错结果与语言模型的纠错结果进行融合,分类模型可以通过自主学习不断调节权重参数,以确定最终判定的纠错结果更为准确。分类模型可以是逻辑斯蒂回归模型,逻辑斯蒂回归模型的损失函数是极大似然估计,可以考虑整体的一个效果。当针对纠错的领域发生变更时,也可以对逻辑斯蒂回归模型重新进行训练,以使得可以更准确的对正则表达式和语言模型的纠错结果进行更为准确的判定。
上述文本纠错方法中,通过获取通过语音数据转换得到的待纠正文本,通过正则表达式对待纠正文本中的词进行纠错,并获取到每一处被纠正的词语的置信度,还可以通过语言模型对待纠正文本中的词进行预测纠错,并获取到每一处语言模型预测词语的概率值,然后可以将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取到预先训练好的分类模型输出的预测值,根据预测值确定最终的纠错结果,当预测值表明预先训练好的分类模型倾向于置信度时,将置信度对应的词语作为纠正后的词语;当预测值表明预先训练好的分类模型倾向于概率值时,将概率值最高的词语作为纠正后的词语,通过分类模型将正则表达式与语言模型的纠错结果进行融合的方式,可以稳定且大幅度的提高文本纠错的准确率,在文本纠错的准确率提升的基础上,也可以有效的提升意图识别的准确率。
应该理解的是,虽然图1-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种文本纠错装置,包括:文本获取模块、第一纠正模块、第二纠正模块和纠正结果确认模块,其中:
文本获取模块401,用于获取通过语音数据转换得到的待纠正文本。
第一纠正模块402,用于通过正则表达式对待纠正文本中的词进行纠错,获取每一处被纠正的词语的置信度。
第二纠正模块403,用于通过语言模型对待纠正文本中的词进行预测纠错,获取每一处语言模型预测词语的概率值。
纠正结果确认模块404,用于将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取预先训练好的分类模型输出的预测值;当预测值表明预先训练好的分类模型倾向于置信度时,将置信度对应的词语作为纠正后的词语;当预测值表明预先训练好的分类模型倾向于概率值时,将概率值最高的词语作为纠正后的词语。
在一个实施例中,第一纠正模块402还用于将待纠正文本转换为拼音格式,获取待纠正文本中每一个字的拼音为第一拼音;获取预先编辑好的正则表达式中包含的每一个目标字词的拼音为第二拼音;获取第一拼音与第二拼音的编辑距离;当编辑距离低于距离阈值时,将第一拼音对应的词纠正为编辑距离最短的第二拼音对应的目标字词;获取编辑距离最短的第二拼音对应的目标字词的置信度。
在一个实施例中,第一纠正模块402还用于将待纠正文本转换为拼音格式,获取待纠正文本中每一个字的拼音为第一拼音;获取预先编辑好的正则表达式中包含的每一个目标字词的拼音为第二拼音;获取第一拼音与第二拼音的编辑距离;当编辑距离低于距离阈值时,将第一拼音对应的词纠正为编辑距离最短的第二拼音对应的目标字词;获取编辑距离最短的第二拼音对应的目标字词的置信度。
在一个实施例中,第二纠正模块403还用于将待纠正文本输入至语言模型中,通过语言模型对待纠正文本进行纠正;获取语言模型针对每一个待纠正词语输出的预测词语及每一个预测词语的概率值。
在一个实施例中,纠正结果确认模块404还用于获取同一处被纠正的词语对应的置信度、语言模型输出的预测词语和每一个预测词语的概率值,并输入至预先训练好的分类模型中;获取预先训练好的分类模型输出的预测值。
关于文本纠错装置的具体限定可以参见上文中对于文本纠错方法的限定,在此不再赘述。上述文本纠错装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音文本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本纠错方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取通过语音数据转换得到的待纠正文本;通过正则表达式对待纠正文本中的词进行纠错,获取每一处被纠正的词语的置信度;通过语言模型对待纠正文本中的词进行预测纠错,获取每一处语言模型预测词语的概率值;将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取预先训练好的分类模型输出的预测值;当预测值表明预先训练好的分类模型倾向于置信度时,将置信度对应的词语作为纠正后的词语;当预测值表明预先训练好的分类模型倾向于概率值时,将概率值最高的词语作为纠正后的词语。
在一个实施例中,通过正则表达式对待纠正文本中的词进行纠错,并获取每一处被纠正的词语的置信度,包括:将待纠正文本转换为拼音格式,获取待纠正文本中每一个字的拼音为第一拼音;获取预先编辑好的正则表达式中包含的每一个目标字词的拼音为第二拼音;获取第一拼音与第二拼音的编辑距离;当编辑距离低于距离阈值时,将第一拼音对应的词纠正为编辑距离最短的第二拼音对应的目标字词;获取编辑距离最短的第二拼音对应的目标字词的置信度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取数据库中的历史语音数据,将历史语音数据转换为历史语音文本;通过正则表达式对历史语音文本中的词语进行纠错;获取正则表达式中每一个词语的纠正次数及纠正准确次数;将纠正准确次数与纠正次数的比值作为对应词语的置信度。
在一个实施例中,通过语言模型对待纠正文本中的词进行预测纠错,获取每一处语言模型预测词语的概率值,包括:将待纠正文本输入至语言模型中,通过语言模型对待纠正文本进行纠正;获取语言模型针对每一个待纠正词语输出的预测词语及每一个预测词语的概率值。
在一个实施例中,将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取预先训练好的分类模型输出的预测值,包括:获取同一处被纠正的词语对应的置信度、语言模型输出的预测词语和每一个预测词语的概率值,并输入至预先训练好的分类模型中;获取预先训练好的分类模型输出的预测值。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取通过语音数据转换得到的待纠正文本;通过正则表达式对待纠正文本中的词进行纠错,获取每一处被纠正的词语的置信度;通过语言模型对待纠正文本中的词进行预测纠错,获取每一处语言模型预测词语的概率值;将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取预先训练好的分类模型输出的预测值;当预测值表明预先训练好的分类模型倾向于置信度时,将置信度对应的词语作为纠正后的词语;当预测值表明预先训练好的分类模型倾向于概率值时,将概率值最高的词语作为纠正后的词语。
在一个实施例中,通过正则表达式对待纠正文本中的词进行纠错,并获取每一处被纠正的词语的置信度,包括:将待纠正文本转换为拼音格式,获取待纠正文本中每一个字的拼音为第一拼音;获取预先编辑好的正则表达式中包含的每一个目标字词的拼音为第二拼音;获取第一拼音与第二拼音的编辑距离;当编辑距离低于距离阈值时,将第一拼音对应的词纠正为编辑距离最短的第二拼音对应的目标字词;获取编辑距离最短的第二拼音对应的目标字词的置信度。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取数据库中的历史语音数据,将历史语音数据转换为历史语音文本;通过正则表达式对历史语音文本中的词语进行纠错;获取正则表达式中每一个词语的纠正次数及纠正准确次数;将纠正准确次数与纠正次数的比值作为对应词语的置信度。
在一个实施例中,通过语言模型对待纠正文本中的词进行预测纠错,获取每一处语言模型预测词语的概率值,包括:将待纠正文本输入至语言模型中,通过语言模型对待纠正文本进行纠正;获取语言模型针对每一个待纠正词语输出的预测词语及每一个预测词语的概率值。
在一个实施例中,将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取预先训练好的分类模型输出的预测值,包括:获取同一处被纠正的词语对应的置信度、语言模型输出的预测词语和每一个预测词语的概率值,并输入至预先训练好的分类模型中;获取预先训练好的分类模型输出的预测值。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种文本纠错方法,所述方法包括:
获取通过语音数据转换得到的待纠正文本;
通过正则表达式对所述待纠正文本中的词进行纠错,获取每一处被纠正的词语的置信度;
通过语言模型对所述待纠正文本中的词进行预测纠错,获取每一处所述语言模型预测词语的概率值;
将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取所述预先训练好的分类模型输出的预测值;
当所述预测值表明所述预先训练好的分类模型倾向于所述置信度时,将所述置信度对应的词语作为纠正后的词语;
当所述预测值表明所述预先训练好的分类模型倾向于所述概率值时,将概率值最高的词语作为纠正后的词语;
其中,所述通过正则表达式对所述待纠正文本中的词进行纠错,并获取每一处被纠正的词语的置信度,包括:
将所述待纠正文本转换为拼音格式,获取所述待纠正文本中每一个字的拼音为第一拼音;
获取预先编辑好的正则表达式中包含的每一个目标字词的拼音为第二拼音;
获取所述第一拼音与第二拼音的编辑距离;
当所述编辑距离低于距离阈值时,将所述第一拼音对应的词纠正为编辑距离最短的第二拼音对应的目标字词;
获取所述编辑距离最短的第二拼音对应的目标字词的置信度;
其中,所述方法还包括:
获取数据库中的历史语音数据,将所述历史语音数据转换为历史语音文本;
通过正则表达式对所述历史语音文本中的词语进行纠错;
获取所述正则表达式中每一个词语的纠正次数及纠正准确次数;
将所述纠正准确次数与所述纠正次数的比值作为对应词语的置信度。
2.根据权利要求1所述的方法,其特征在于,所述通过语言模型对所述待纠正文本中的词进行预测纠错,获取每一处所述语言模型预测词语的概率值,包括:
将所述待纠正文本输入至语言模型中,通过所述语言模型对所述待纠正文本进行纠正;
获取所述语言模型针对每一个待纠正词语输出的预测词语及每一个预测词语的概率值。
3.根据权利要求2所述的方法,其特征在于,所述将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取所述预先训练好的分类模型输出的预测值,包括:
获取同一处被纠正的词语对应的置信度、所述语言模型输出的预测词语和每一个预测词语的概率值,并输入至预先训练好的分类模型中;
获取所述预先训练好的分类模型输出的预测值。
4.一种文本纠错装置,其特征在于,所述装置包括:
文本获取模块,用于获取通过语音数据转换得到的待纠正文本;
第一纠正模块,用于通过正则表达式对所述待纠正文本中的词进行纠错,获取每一处被纠正的词语的置信度;
第二纠正模块,用于通过语言模型对所述待纠正文本中的词进行预测纠错,获取每一处所述语言模型预测词语的概率值;
纠正结果确认模块,用于将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取所述预先训练好的分类模型输出的预测值;当所述预测值表明所述预先训练好的分类模型倾向于所述置信度时,将所述置信度对应的词语作为纠正后的词语;当所述预测值表明所述预先训练好的分类模型倾向于所述概率值时,将概率值最高的词语作为纠正后的词语;
其中,所述通过正则表达式对所述待纠正文本中的词进行纠错,并获取每一处被纠正的词语的置信度,所述第一纠正模块具体用于:
将所述待纠正文本转换为拼音格式,获取所述待纠正文本中每一个字的拼音为第一拼音;
获取预先编辑好的正则表达式中包含的每一个目标字词的拼音为第二拼音;
获取所述第一拼音与第二拼音的编辑距离;
当所述编辑距离低于距离阈值时,将所述第一拼音对应的词纠正为编辑距离最短的第二拼音对应的目标字词;
获取所述编辑距离最短的第二拼音对应的目标字词的置信度;
其中,所述第一纠正模块还用于:
获取数据库中的历史语音数据,将所述历史语音数据转换为历史语音文本;
通过正则表达式对所述历史语音文本中的词语进行纠错;
获取所述正则表达式中每一个词语的纠正次数及纠正准确次数;
将所述纠正准确次数与所述纠正次数的比值作为对应词语的置信度。
5.根据权利要求4所述的装置,其特征在于,所述第二纠正模块还用于将所述待纠正文本输入至语言模型中,通过所述语言模型对所述待纠正文本进行纠正;获取所述语言模型针对每一个待纠正词语输出的预测词语及每一个预测词语的概率值。
6.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。
CN201910710986.4A 2019-08-02 2019-08-02 文本纠错方法、装置、计算机设备和存储介质 Active CN110442870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910710986.4A CN110442870B (zh) 2019-08-02 2019-08-02 文本纠错方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910710986.4A CN110442870B (zh) 2019-08-02 2019-08-02 文本纠错方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN110442870A CN110442870A (zh) 2019-11-12
CN110442870B true CN110442870B (zh) 2023-06-09

Family

ID=68432871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910710986.4A Active CN110442870B (zh) 2019-08-02 2019-08-02 文本纠错方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110442870B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310441A (zh) * 2020-01-20 2020-06-19 上海眼控科技股份有限公司 基于bert的语音识别后文本修正方法、装置、终端及介质
CN111310457B (zh) * 2020-02-27 2024-02-02 河北省讯飞人工智能研究院 词语搭配不当识别方法、装置、电子设备和存储介质
CN111507094B (zh) * 2020-04-16 2023-10-10 腾讯科技(深圳)有限公司 基于深度学习的文本处理模型训练方法、装置及设备
CN111582169B (zh) * 2020-05-08 2023-10-10 腾讯科技(深圳)有限公司 图像识别数据纠错方法、装置、计算机设备和存储介质
CN112102832B (zh) * 2020-09-18 2021-12-28 广州小鹏汽车科技有限公司 语音识别方法、装置、服务器和计算机可读存储介质
CN112270184B (zh) * 2020-10-23 2023-11-14 平安科技(深圳)有限公司 自然语言处理方法、装置及存储介质
CN112395861A (zh) * 2020-11-18 2021-02-23 平安普惠企业管理有限公司 中文文本的纠错方法、装置和计算机设备
CN112800752B (zh) * 2020-12-31 2023-12-01 科大讯飞股份有限公司 纠错方法、装置、设备以及存储介质
CN112949290B (zh) * 2021-02-03 2023-11-17 深圳市优必选科技股份有限公司 文本纠错方法、装置及通信设备
CN112818086A (zh) * 2021-02-04 2021-05-18 上海畅圣计算机科技有限公司 一种机器人催收获取客户意向标签的多标签分类方法
CN113012705B (zh) * 2021-02-24 2022-12-09 海信视像科技股份有限公司 一种语音文本的纠错方法及装置
CN113035175B (zh) * 2021-03-02 2024-04-12 科大讯飞股份有限公司 一种语音文本重写模型构建方法、语音识别方法
CN113378553A (zh) * 2021-04-21 2021-09-10 广州博冠信息科技有限公司 文本处理方法、装置、电子设备和存储介质
CN113240438A (zh) * 2021-05-11 2021-08-10 京东数字科技控股股份有限公司 意图识别方法、设备、存储介质及程序产品
CN113241061B (zh) * 2021-05-17 2023-03-10 北京字跳网络技术有限公司 语音识别结果的处理方法、装置、电子设备和存储介质
CN113221558B (zh) * 2021-05-28 2023-09-19 中邮信息科技(北京)有限公司 一种快递地址纠错方法、装置、存储介质及电子设备
CN113449090A (zh) * 2021-06-23 2021-09-28 山东新一代信息产业技术研究院有限公司 一种用于智能问答的纠错方法、设备及介质
CN113642317A (zh) * 2021-08-12 2021-11-12 广域铭岛数字科技有限公司 一种基于语音识别结果的文本纠错方法及系统
CN113948065B (zh) * 2021-09-01 2022-07-08 北京数美时代科技有限公司 基于n-gram模型的错误拦截词筛选方法及系统
CN113936286A (zh) * 2021-11-29 2022-01-14 中国平安人寿保险股份有限公司 图像文本识别方法、装置、计算机设备及存储介质
CN114398952B (zh) * 2021-12-14 2023-05-05 北京百度网讯科技有限公司 训练文本生成方法、装置、电子设备及存储介质
CN115114904B (zh) * 2022-05-18 2024-02-27 腾讯科技(深圳)有限公司 语言模型的优化方法、装置以及电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4301102B2 (ja) * 2004-07-22 2009-07-22 ソニー株式会社 音声処理装置および音声処理方法、プログラム、並びに記録媒体
CN107122346B (zh) * 2016-12-28 2018-02-27 平安科技(深圳)有限公司 一种输入语句的纠错方法及装置
CN107977356B (zh) * 2017-11-21 2019-10-25 新疆科大讯飞信息科技有限责任公司 识别文本纠错方法及装置
CN109992765A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 文本纠错方法及装置、存储介质和电子设备
CN108334605B (zh) * 2018-02-01 2020-06-16 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN109243433B (zh) * 2018-11-06 2021-07-09 北京百度网讯科技有限公司 语音识别方法和装置

Also Published As

Publication number Publication date
CN110442870A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
CN110442870B (zh) 文本纠错方法、装置、计算机设备和存储介质
CN111753531B (zh) 基于人工智能的文本纠错方法、装置、设备及存储介质
US11941366B2 (en) Context-based multi-turn dialogue method and storage medium
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
WO2022142613A1 (zh) 训练语料扩充方法及装置、意图识别模型训练方法及装置
US11593571B2 (en) Machine translation method, device, and computer-readable storage medium
CN110717039A (zh) 文本分类方法和装置、电子设备、计算机可读存储介质
CN108766437A (zh) 语音识别方法、装置、计算机设备及存储介质
CN108665506B (zh) 图像处理方法、装置、计算机存储介质及服务器
US20070219798A1 (en) Training system for a speech recognition application
US8521511B2 (en) Information extraction in a natural language understanding system
CN109522550B (zh) 文本信息纠错方法、装置、计算机设备和存储介质
CN110021293B (zh) 语音识别方法及装置、可读存储介质
CN109710087B (zh) 输入法模型生成方法及装置
CN109684224B (zh) python代码与积木的转换过程的测试方法及装置
CN110569486B (zh) 基于双架构的序列标注方法、装置和计算机设备
CN110808049B (zh) 语音标注文本修正方法、计算机设备和存储介质
CN113449489B (zh) 标点符号标注方法、装置、计算机设备和存储介质
US20160232892A1 (en) Method and apparatus of expanding speech recognition database
CN113270103A (zh) 基于语义增强的智能语音对话方法、装置、设备及介质
US11869491B2 (en) Abstract generation device, method, program, and recording medium
CN112016319A (zh) 预训练模型获取、疾病实体标注方法、装置及存储介质
CN114239589A (zh) 语义理解模型的鲁棒性评估方法、装置及计算机设备
CN111627427B (zh) 特定领域的语音识别模型的构建方法
CN111951785B (zh) 语音识别方法、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant