CN111369996A

CN111369996A - 一种特定领域的语音识别文本纠错方法

Info

Publication number: CN111369996A
Application number: CN202010113318.6A
Authority: CN
Inventors: 刘继明; 金宁; 洪爱金; 孟亚磊; 陈浮
Original assignee: ITIBIA TECHNOLOGIES (SUZHOU) CO LTD
Current assignee: ITIBIA TECHNOLOGIES (SUZHOU) CO LTD
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2020-07-03
Anticipated expiration: 2040-02-24
Also published as: CN111369996B

Abstract

本发明涉及一种特定领域的语音识别文本纠错方法，首先，使用正确的领域语料统计得到字、词级别语言模型和拼音语言模型；然后，接收待纠错的文本序列，超过一句的进行分句处理；再使用字、词、拼音语言模型确定疑似错误的字词；继而根据语言模型词汇表与易错音字典确定疑似错误字词的候选词清单；最后将候选词代入原文本序列，结合宏观与微观评分选择最合理的句子输出。选用字、词、拼音、声韵母等不同粒度和维度的基本单元构建语言模型，降低错字导致的分词错误干扰；采用字词语言模型处理孤立的文字错乱，采用拼音语言模型辨别发音偏差导致的连续识别错误；对错误字词替换后候选句子采用宏观与微观评分综合评价，衡量替换后句子通顺程度。

Description

一种特定领域的语音识别文本纠错方法

技术领域

本发明涉及一种特定领域的语音识别文本纠错方法，属于数据处理技术领域。

背景技术

近几年技术层面的突破，语音识别的差错率得到大幅降低，目前已经拥有许多应用场景，取得了很好的市场反响。比如智能手机上的语音输入法、智能音箱的语音处理、录音设备的联网转写功能等，都离不开语音识别的助攻。对于典型的语音界面人机交互系统而言，语音识别是最前端的一个模块，经过识别后的文本才能进行自然语言理解与加工处理，从而产生对应的交互返回给用户。

但是，语音识别的结果仍存在不可避免的误差。由于环境噪声、地方口音、设备自身等干扰因素的存在，语音识别转换后的文本段落经常带有一些异常数据，比如同音词、近似音词、错别字等预期之外的错误文本。这样的差错在文本段落中影响是不容小觑的，同音词会带来语义理解的严重偏差，字级别的错误还可能造成分词切分错误，从而导致词性标注、依存关系分析等一系列错误。因此，在语音识别技术瓶颈下，文本纠错成为非常关键的一个环节，良好的纠错能极大地改善输出文本质量。

目前文本纠错的技术方案根据应用场景的不同有较大的区别，比如有些针对图像识别段落的纠错，则除了语言自身特征外，重点需要利用字形近似特征来确定疑似字词。针对语音输入法的纠错，往往可以借助用户点击行为优化易错字词排序模型。有些纯对话的智能体，也可以通过用户的语音纠正来辅助改善纠错效果。对于特定领域业务用途的智能客服系统来说，用户往往期望能一次理解真实意图，无法接受在个别字词层面的澄清询问。因此，这类只能依赖文本内容的场景主流的文本纠错主要采用词级别的概率统计方法来查错和改错。但基于词的结合概率统计会受到识别错误带来分词错误的严重影响，同时也难以处理多词连续错误的情况。另外，这类方法在候选词清单提取方面存在覆盖面低的弊端，在候选词替换后的通顺程度评价方面也不够全面，因此存在较大的改进研究空间。

发明内容

本发明的目的是克服现有技术存在的不足，提供一种特定领域的语音识别文本纠错方法，旨在解决语音识别后错误纠正效果不佳的问题。

本发明的目的通过以下技术方案来实现：

一种特定领域的语音识别文本纠错方法，特点是：包括以下步骤：

101)使用正确的领域语料统计得到字、词级别语言模型和拼音语言模型；

102)接收待纠错的文本序列，超过一句的进行分句处理；

103)使用字、词、拼音语言模型确定疑似错误的字词；

104)根据语言模型词汇表与易错音字典确定疑似错误字词的候选词清单；

105)将候选词代入原文本序列，结合宏观与微观评分选择最合理的句子输出。

进一步地，上述的一种特定领域的语音识别文本纠错方法，其中，步骤101)，基于n-gram方法、循环神经网络方法、长短时记忆网络方法或深度学习方法得到所需语言模型，获取每个基本单元的概率，语言模型的基本单元，为单个的字、词语、音节、声韵母或者整个拼音。

进一步地，上述的一种特定领域的语音识别文本纠错方法，其中，n-gram方法，n的取值为1～6，当n为1时，单字、单词为单位的语言模型；

n-gram方法，语料库中每个统计单元wi在这一特定领域中出现的概率P(wi)由公式(1)求得；

其中，V表示语料库中统计单元的总数，Count(wi)表示wi在语料库中出现的次数；

深度学习方法，首先获取每个单元的向量表示，通过多层神经网络对上下文提取特征并建模，最后一层可获得wi出现的概率P(wi)。

进一步地，上述的一种特定领域的语音识别文本纠错方法，其中，n-gram方法，首先确定要统计的长度n和单元gram，然后在语料中针对每个句子依次获取指定长度的单元作为统计对象，计算出每个统计对象的出现频次；

应用于整个语料库，则可得到每个统计单元的出现频率。

进一步地，上述的一种特定领域的语音识别文本纠错方法，其中，步骤102)，接收到文本序列后，如果文本序列包含一个以上句子休止符，以句为单位进行后续纠错步骤，否则整个序列进入后续纠错步骤。

进一步地，上述的一种特定领域的语音识别文本纠错方法，其中，步骤103)，包含如下步骤：

1)将待纠错文本序列转换为拼音序列；

采用文本到拼音的转换工具得到待纠错文本序列的拼音形式；

2)使用不同长度、粒度的拼音或文字语言模型，确定拼音序列中的罕见音节组合；

5)在连续出现的异常片段序列中，选取位置居中的片段作为疑似错误字词；

如果连续异常片段有奇数个，选取位置最中间的一个；如果连续异常片段有偶数个，选取位置居中两个片段的公共部分。

进一步地，上述的一种特定领域的语音识别文本纠错方法，其中，步骤104)，包含如下步骤：

S41)根据收集的模糊音规律构建易错音字典；

S42)根据拼音与文字形式的n-gram词汇表，建立从拼音片段到领域字词的映射表；

S43)针对每个疑似错误的字词，获取其候选清单。

进一步地，上述的一种特定领域的语音识别文本纠错方法，其中，步骤S43)，包括如下步骤：

1)利用注音工具将其转换为声韵母组合形式；

2)在易错音字典中查询，按照易错音节的可能候选确定所有疑似发音的全排列；

3)根据上一步得到的疑似发音清单，结合前面n-1个、后面n-1个字词的发音在拼音语言模型n-gram词表中查询，将前后组合均不存在的组合排除，获得候选发音清单一；

4)将候选发音清单送入n-gram语言模型词表中查询，获取对应的文字形式，即为候选清单一；

5)将该字词结合前面n-1个、后面n-1个字词在n-gram语言模型词表中查询，获得候选清单二；

6)候选清单一与候选清单二取并集，即为该字词的全部候选集合。

进一步地，上述的一种特定领域的语音识别文本纠错方法，其中，步骤105)，包含如下步骤：

1)根据每个疑似错误字词的候选集合，在句子中按照顺序做全排列，得到若干个待评分的句子集合；

2)对于每个新句子S，基于n-gram语言模型采用公式(2)计算候选词替换后的宏观得分：

其中,n表示语言模型对应统计单元的长度，L表示句子中基本单元的个数，P(wi)表示wi在语言模型中的概率；

3)对于每个新句子S，基于互信息增益采用公式(3)计算候选词替换后的微观得分：

其中，Pos是序列中疑似错误字词所在位置的索引的集合，ci表示序列中一个疑似错误字词，i表示句子S中对应的候选词，ci-1与ci+1分别是序列中前一个与后一个基本单元；M(Ci-1,ci)表示ci与ci-1的互信息，由公式(4)求得；

其中P(x)与P(y)表示x、y各自的概率，P(x，y)是xy同时出现的概率；当log的以2为底数时，互信息的单位是bit；

4)将新句子S的宏观得分Macro(S)与微观得分Micro(S)分别归一化到[0,100]范围，根据公式(5)得到总分；选择总分最高的候选句子作为输出；

Score(S)＝αNorm(Macro(S))+(1-α)Norm(Micro(S)) (公式5)

其中，α为调节因子，且0<α<1；再根据实际表现调节以获取更优的效果；Norm为归一化函数，得分由公式(6)可得；

其中x表示待归一化的当前值，maxV、minV分别为x所在集合的最大值与最小值。

本发明与现有技术相比具有显著的优点和有益效果，具体体现在以下方面：

①本发明一种特定领域的语音识别文本纠错方法，选用字、词、拼音、声韵母等不同粒度和维度的基本单元构建语言模型，降低了错字导致的分词错误的干扰，扩大了纠错的适应范围；

②采用字词语言模型处理孤立的文字错乱，采用拼音语言模型辨别发音偏差导致的连续识别错误，提高识别差错的检出率；

③对错误字词替换后的候选句子采用宏观评分与微观评分综合评价，能更全面地衡量替换后句子的通顺程度和局部搭配合理性；

④在高效纠错的同时，更严格地避免了原本正确的字词被误处理；各手段的提出与创造性结合，比目前常用方法大幅降低了语音识别后文本结果的差错，提高了自然语言理解组件的准确性；在垂直领域的语音交互系统中具有较高的应用价值。

本发明的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明具体实施方式了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书中所特别指出的结构来实现和获得。

附图说明

图1：本发明的流程示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现详细说明具体实施方案。

本发明一种特定领域的语音识别文本纠错方法，如图1所示，包括以下步骤：

S101：使用正确的领域语料统计得到字、词级别语言模型和拼音语言模型；

在进行特定文本纠错任之前，先收集一定规模的该领域的文本材料，包括法规、制度、指南、手册等各种类型的文档；用于统计的领域语料须是不含错字、错词的正确文本，也可经过人工校对以确保语言模型统计的准确性。

采用统计方法得到所需语言模型，从而获取每个基本单元的概率，统计方法是基于n-gram的方法，或者基于循环神经网络、长短时记忆网络以及深度学习方法，语言模型的基本单元，可以是单个的字、词语、音节、声韵母或者整个拼音。对n-gram方法，n的取值在1～6之间，当n为1时，是常见的单字、单词为单位的语言模型。可以选择不同取值的模型协同使用。

采用n-gram方法时，在合理假设语料库覆盖足够多的业务范围的前提下，每个统计单元wi在这一特定领域中出现的概率P(wi)由公式(1)求得；

其中，V表示语料库中统计单元的总数，Count(wi)表示wi在语料库中出现的次数。

采用深度学习方法时，首先获取每个单元的向量表示，通过多层神经网络对上下文提取特征并建模，最后一层可获得wi出现的概率P(wi)。

以n-gram方法的统计过程为，首先确定要统计的长度n和单元gram，然后在语料中针对每个句子依次获取指定长度的单元作为统计对象，计算出每个统计对象的出现频次。

例如对于语料中的一句话：“请问现在我们已经可以正常在异地使用该医保卡了吗？”

统计2-gram的词级别模型时，句子会得到如下的片段组合：

请问现在现在我们我们已经已经可以可以正常正常在在异地异地使用使用该该医保卡医保卡了了吗吗？

统计2-gram的拼音模型时，会得到如下的片段组合：

qingwen wenxian xianzai zaiwo women menyi yijing jingke keyi yizhengzhengchang changzai zaiyi yidi dishi shiyong yonggai gaiyi yibao baoka kalelema

将这一方法应用于整个语料库，则可得到每个统计单元的出现频率。

S102：接收待纠错的文本序列，超过一句的进行分句处理；

纠错系统在接收文本序列后，如果该文本序列包含一个以上句子休止符(句号、问号、感叹号等)，就以句为单位进行后续纠错步骤；否则整个序列送入后续纠错步骤。

S103：采用字、词、拼音语言模型确定疑似错误的字词，包含如下步骤：

1)将待纠错文本序列转换为拼音序列

采用文本到拼音的转换工具得到待纠错文本序列的拼音形式，例如“我妈的预报卡为什么上药店买药刷不了卡？”转换之后得到“wo ma de yu bao ka wei shen me shangyao dian mai yao shua bu liao ka”。

2)使用不同长度、粒度的拼音或文字语言模型，确定拼音序列中的罕见音节组合。

例如，使用5-gram的声韵母模型检查a)中拼音序列的合理性，其中“adeyu deyubeyubao yubaok ubaoka”几个片段的出现概率远远低于正常值以及其他片段。

采用3-gram的字级语言模型检查前述文本序列，其中“妈的预的预报预报卡报卡为”等片段的概率会显著低于正常值以及其他片段。

3)在连续出现的异常片段序列中，选取位置居中的片段作为疑似错误字词。

例如2)中使用5-gram声韵母模型检查后，eyubao为疑似错误拼音片段，对应文本序列中的“预报”被选为疑似错误字词；使用3-gram字级别语言模型检查后，选取“预报”作为一个疑似错误字词。

S104：根据语言模型词汇表与易错音字典确定疑似错误字词的候选词清单；包含如下步骤(S41与S42为准备，非每次处理纠错时的必经步骤)：

S41根据收集的模糊音规律构建易错音字典。

可以以当前普遍使用的{zh:z，sh:s，ch:c，n:l，f:h，l:r，……}为基础版本，在运行过程中根据新发现的识别错误规律动态更新模糊音字典。运行一段时间后，该字典的变动会越来越小，甚至不再变动。

S42根据拼音与文字形式的n-gram词汇表，建立从拼音片段到领域字词的映射表。

这个映射表通常在统计语言模型时建立初始版本，后续随着语料库的更新而同步更新。

S43针对每个疑似错误的字词，获取其候选清单。包括如下步骤：

1)利用注音工具将其转换为声韵母组合形式；

例如‘e y u b ao’在易错音字典中查询。假设音节e的模糊音包括ie、ue，音节y没有模糊音，音节u的模糊音包括i、v，音节b模糊音包括p，音节ao模糊音包括iao，则所有可能的情况有3×1×3×2×2种。分别为：eyubao、eyubiao、eyibao、eyibiao、eyupao、eyupiao、eyipao、eyipiao、eyvbao、eyvbiao、eyvbao、eyvbiao……等。不过这一步获取的疑似发音有些是不存在文字n-gram与之对应的，可以考虑排除。

S105：将候选词代入原文本序列，结合宏观与微观评分选择最合理的句子输出。

1)根据每个疑似错误字词的候选集合，在句子中按照顺序做全排列，得到若干个待评分的句子集合。

例如对于包含错词的句子：“我在本地暂时没有接手单位，怎么找挂号单位给我增援？”

假设‘接手’，‘挂号’，‘增援’的候选集合分别是‘接收、接受、接手’，‘挂靠，挂号，挂失’，‘增援、增员、怎样’，则代入原文本序列并经过全排列之后，可以得到3×3×3共27个待评分的句子。

其中,n表示语言模型对应统计单元的长度，L表示句子中基本单元的个数，P(wi)表示wi在语言模型中的概率。

3)对于每个新句子S，基于互信息增益使用公式(3)计算候选词替换后的微观得分：

其中，Pos是序列中疑似错误字词所在位置的索引的集合，ci表示序列中一个疑似错误字词，i表示句子S中对应的候选词，ci-1与ci+1分别是序列中前一个与后一个基本单元，M(Ci-1,ci)表示ci与ci-1的互信息，由公式(4)求得；

其中P(x)与P(y)表示x、y各自的概率，P(x，y)是xy同时出现的概率；当log的以2为底数时，互信息的单位是bit，但底数不要求必须为2。

4)将新句子S的宏观得分Macro(S)与微观得分Micro(S)分别归一化到[0,100]范围，再根据公式(5)得到总分；选择总分最高的候选句子作为输出；

Score(S)＝αNorm(Macro(S))+(1-α)Norm(Micro(S)) (公式5)

其中，α为调节因子，且0<α<1；α初始值可以为0.66，再根据实际表现调节以获取更优的效果；Norm为归一化函数，得分由公式(6)可得；

综上所述，本发明一种特定领域的语音识别文本纠错方法，选用字、词、拼音、声韵母等不同粒度和维度的基本单元构建语言模型，降低了错字导致的分词错误的干扰，扩大了纠错的适应范围；使用字词语言模型处理孤立的文字错乱，采用拼音语言模型辨别发音偏差导致的连续识别错误，提高识别差错的检出率；对错误字词替换后的候选句子采用宏观评分与微观评分综合评价，能更全面地衡量替换后句子的通顺程度和局部搭配合理性；在高效纠错的同时，更严格地避免了原本正确的字词被误处理；所用各方法的提出与创造性结合，比目前常用方法大幅降低了语音识别后文本结果的差错，提高了自然语言理解组件的准确性；在垂直领域的语音交互系统中具有较高的应用价值。

需要说明的是：以上所述仅为本发明的优选实施方式，并非用以限定本发明的权利范围；同时以上的描述，对于相关技术领域的专门人士应可明了及实施，因此其它未脱离本发明所揭示的精神下所完成的等效改变或修饰，均应包含在申请专利范围中。

Claims

1.一种特定领域的语音识别文本纠错方法，其特征在于：包括以下步骤：

102)接收待纠错的文本序列，超过一句的进行分句处理；

103)使用字、词、拼音语言模型确定疑似错误的字词；

2.根据权利要求1所述的一种特定领域的语音识别文本纠错方法，其特征在于：步骤101)，基于n-gram方法、循环神经网络方法、长短时记忆网络方法或深度学习方法得到所需语言模型，获取每个基本单元的概率，语言模型的基本单元，为单个的字、词语、音节、声韵母或者整个拼音。

3.根据权利要求2所述的一种特定领域的语音识别文本纠错方法，其特征在于：n-gram方法，n的取值为1～6，当n为1时，单字、单词为单位的语言模型；

4.根据权利要求3所述的一种特定领域的语音识别文本纠错方法，其特征在于：n-gram方法，首先确定要统计的长度n和单元gram，然后在语料中针对每个句子依次获取指定长度的单元作为统计对象，计算出每个统计对象的出现频次；

应用于整个语料库，则可得到每个统计单元的出现频率。

5.根据权利要求1所述的一种特定领域的语音识别文本纠错方法，其特征在于：步骤102)，接收到文本序列后，如果文本序列包含一个以上句子休止符，以句为单位进行后续纠错步骤，否则整个序列进入后续纠错步骤。

6.根据权利要求1所述的一种特定领域的语音识别文本纠错方法，其特征在于：步骤103)，包含如下步骤：

1)将待纠错文本序列转换为拼音序列；

3)在连续出现的异常片段序列中，选取位置居中的片段作为疑似错误字词；

7.根据权利要求1所述的一种特定领域的语音识别文本纠错方法，其特征在于：步骤104)，包含如下步骤：

S41)根据收集的模糊音规律构建易错音字典；

S43)针对每个疑似错误的字词，获取其候选清单。

8.根据权利要求7所述的一种特定领域的语音识别文本纠错方法，其特征在于：步骤S43)，包括如下步骤：

1)利用注音工具将其转换为声韵母组合形式；

9.根据权利要求1所述的一种特定领域的语音识别文本纠错方法，其特征在于：步骤105)，包含如下步骤：

Score(S)＝αNorm(Macro(S))+(1-α)Norm(Micro(S)) (公式5)