CN111985234B

CN111985234B - 语音文本纠错方法

Info

Publication number: CN111985234B
Application number: CN202010935869.0A
Authority: CN
Inventors: 韩轶西; 刘楚雄; 唐军
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2022-02-01
Anticipated expiration: 2040-09-08
Also published as: CN111985234A

Abstract

本发明公开了一种语音文本纠错方法，包括词语的稳定度集合A，将现有文本语料全拆分为双字形式，并记录下每个字与后方各个字搭配的概率，得到unigram集合；对传入的文本利用unigram集合进行计算，得到需要被纠错的文本B并进行分词，对分词结果利用稳定度集合A来进行衡量是否稳定，对于不稳定的结果获取其拼音文本，获得其文字，得到文字混淆集C，替换文本B的原相应位置，使之构成数个序列，得到待解码序列D，计算其隐马尔科夫概率值，取最大概率所对应的文字序列组合为句子即是最终的纠错结果。本发明提升了语音控制和搜索的准确度。

Description

语音文本纠错方法

技术领域

本发明涉及自然语言处理技术领域，特别是一种语音文本纠错方法。

背景技术

在视频领域上，随人工智能技术的发展，利用语音进行控制和搜索被普遍的应用于视频设备领域，包括但不限于电视、移动设备、可穿戴设备等，但由于认知、记忆、口音、口误和语音识别设备的差异，用户所输入的语音文本既有同音错误、少字错误，又有顺序错误和语法错误，从而对视频设备的识别和搜索造成了较大影响；同时现有的文本纠错方法常常堆之以模型，造成了较大的时间花销，影响用户体验。为解决提高语音文本的正确率而时间上又不能造成过多的花销的问题，对语音识别后转译的文本进行高效率的纠错成为了提高语音识别效率的有效方法。

发明内容

为解决现有技术中存在的问题，本发明的目的是提供一种语音文本纠错方法，提升了语音控制和搜索的准确度。

为实现上述目的，本发明采用的技术方案是：一种语音文本纠错方法，包括以下步骤：

S1、对过往的语音识别结果和正确结果进行对比，并计算错误识别结果与正确识别结果的频次，得到词语的稳定度集合A；

S2、将现有文本语料全拆分为双字形式，并记录下每个字与后方各个字搭配的概率，得到unigram集合；

S3、对传入的文本利用步骤S2得到的unigram集合进行计算，对于在平滑的unigram计算数值曲线上产生断层的，或从未在步骤S2的语料中出现过的字词组合，认定为是需要被纠错的文本B；

S4、对文本B进行分词，并对分词结果利用步骤S1得到的稳定度集合A来进行衡量是否稳定，对于稳定的结果不做纠错处理，对于不稳定的结果则进入到下一步；

S5、对步骤S4不稳定的结果，获取其拼音文本，并利用语言学知识得到其易错的结果，获得混淆集合，对混淆集合得到的拼音，利用拼音-文字字典，获得其文字，得到文字混淆集C；

S6、使用与步骤S2相同的文本语料，对语料计算每个拼音下的字的概率，作为发射矩阵R，计算每个字作为开头的概率，作为初始矩阵S，计算每个字后接单一文字或多文字的概率，作为转移矩阵Q；

S7、对步骤S5得到的文字混淆集C，替换文本B的原相应位置，使之构成数个序列，得到待解码序列D；

S8、对步骤S7得到的待解码序列D，计算其隐马尔科夫概率值，取最大概率所对应的文字序列组合为句子即是最终的纠错结果。

作为一种优选的实施方式，所述步骤S8中，计算待解码序列D的隐马尔科夫概率值具体包括以下步骤：

a、对于文本的第一个字从初始矩阵S中获取其初始概率；

b、对于其他位置的字W，获取字W前所有字序列概率的最大值P(max前缀)，由发射矩阵R获取字W在字W对应拼音下的发射概率R(W)，由转移矩阵Q获取字W作为前一文字组合情况下的下一文字出现的概率Q(W)，依据公式P(max前缀)*R(W)*Q(W)得到当前文字到下一文字的概率，最终得到数个文字序列及其对应概率。

作为另一种优选的实施方式，采用分词工具jieba对文本B进行分词。

本发明的有益效果是：

本发明利用N-gram方法对句子进行错误判别，利用大量的语料文本数据建立语音词语识别的稳定度来获得错误识别字词的位置，利用语言学知识获取可能的正确字词组成的候选集，最后使用隐马尔科夫模型对众多候选集进行解码得到纠错的最终结果，从而提升语音控制和搜索的准确度。

附图说明

图1为本发明实施例的流程框图。

具体实施方式

下面结合附图对本发明的实施例进行详细说明。

实施例

如图1所示，一种语音文本纠错方法，包括以下步骤：

S1、利用人工或者程序对本方法使用的领域内的现有文本语料全拆分为双字形式，并记录下每个字与后方各个字搭配的概率，如{“西”:{“安”:0.3,“北”:0.35,“藏”:0.35}},表示“西”字后面跟着“北”的概率为0.35，跟着“安”的概率为0.3，跟着“藏”的概率为0.35，通过本步骤得到unigram集合。当文本传入到本实施例所设计的程序时，对每一个字及其后接文字进行unigram概率计算，例如“我想取席案”，其计算方式就如p(想|我)*p(取|想)*p(席|取)*p(案|席)，当出现二者组合未曾在文本语料中出现，或概率相乘后出现断层(如p(想|我)＝0.6，p(取|想)＝0.03，*p(席|取)＝0.09，概率出现大幅度变化，认为产生了断层)，则认为该句子需要被纠错。

S2、利用人工或者程序对本方法使用的领域内的过往的语音识别结果和正确结果利用分词器(例如jieba等)分词后，进行对比，并计算错误识别结果与正确识别结果的频次，记录该词汇被错误识别的频次，如{“西安”:0.642},认为西安有0.642的概率被识别正确，通过本步骤得到词语的稳定度集合A。对步骤S1得到的需要被纠错的句子，使用与前述分词器一致的分词器进行分词，对得到的词汇利用稳定度集合A进行判断，例如“我想取席案”分词后为“我想”，“取”，“席案”，设定一个阈值，假设为0.6，查稳定度集合A得知“我想”的稳定度为0.89，“取”，“席案”的稳定度分别为0.34和0.25，则认为“取”，“席案”中存在错误的字词。

S3、利用语言学知识，或从过往的语音识别结果和正确结果中得到易于被人们混淆的拼音，如：“z”和“zh”,“f”和“h”等，建立拼音混淆集，并从字典中得到以各个拼音作为发音符号的字，如“xi”：“西，席，习，夕”等，得到拼音-文字字典。对步骤S2得到的存在错误字词的“取席案”几个字获取其拼音“qu，xi，an”,利用拼音混淆集得到“qu”，“xi，shi”，“an”，再利用拼音-文字字典得到，“取，去，区”，“西，席，时，使”，“安，案”序列。

S4、利用本实施例使用的领域内的现有文本，对其每个句子拆分为双字组合，计算概率p(后一个字|前一个字)，构成转移概率矩阵Q，如{“我”：{“想”：0.3，“去”：0.2}}，表示在前一个字为“我”的情况下，后一个字为“想”的概率为0.3。记录每个句子的第一个字作为开头的概率，例如“我”：0.6，意味着“我”这个字出现时，其作为开头的概率为0.6，得到初始概率矩阵S。记录每个拼音组合下，各个文字的出现概率，如{“wo”：{“我”：0.3，“喔”：0.05}}，表示当拼音为“wo”时，这个字是“我”的概率为0.3，得到发射概率矩阵R。

S5、对步骤S3的得到的序列，结合原文字，得到序列[[“我”],[“想”],[“取，去，区”],[“西，席，时，使”],[“安，案”]]，计算从第一个字到最后一个字所有组合的隐马尔科夫概率，计算公式如下：a.对于文本第一个字从初始矩阵S中获取其初始概率。b.对于其他位置的字W，获取该字前所有字序列概率的最大值P(max前缀)，由发射矩阵R获取该字在该字对应拼音下的发射概率R(W)，由转移矩阵Q获取该字作为前一文字组合情况下的下一文字出现的概率Q(W)，依据公式得到当前的概率P(max前缀)*R(W)*Q(W)，得到当前文字到下一文字的概率，最终得到数个文字序列及其对应概率，取其最大概率所对应的文字序列组合为句子即是最终的纠错结果。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种语音文本纠错方法，其特征在于，包括以下步骤：

S8、对步骤S7得到的待解码序列D，计算其隐马尔科夫概率值，取最大概率所对应的文字序列组合为句子即是最终的纠错结果；

所述步骤S8中，计算待解码序列D的隐马尔科夫概率值具体包括以下步骤：

a、对于文本的第一个字从初始矩阵S中获取其初始概率；

2.根据权利要求1所述的语音文本纠错方法，其特征在于，所述步骤S4中，采用分词工具jieba对文本B进行分词。