CN111354347B

CN111354347B - 一种基于自适应热词权重的语音识别方法及系统

Info

Publication number: CN111354347B
Application number: CN201811571564.5A
Authority: CN
Inventors: 黎塔; 缪浩然; 张鹏远; 高圣翔; 黄远; 沈亮; 林格平
Original assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2023-08-15
Anticipated expiration: 2038-12-21
Also published as: CN111354347A

Abstract

本发明提出了一种基于自适应热词权重的语音识别方法及系统，所述方法包括：生成热词网络并和静态解码网络一起加载到语音识别解码器中；将待识别的语音信号同步地在静态解码网络和热词网络上进行令牌传递，自适应地计算热词权重，并对静态解码网络上令牌的分数重新打分；输出解码结果。本发明的基于自适应热词权重的语音识别方法在一遍解码的过程中就能提升热词召回率，不影响解码的速度，并且自适应地计算热词权重既能有效地提高热词的召回率，不影响原先的解码速度，又能提高系统的鲁棒性。

Description

一种基于自适应热词权重的语音识别方法及系统

技术领域

本发明涉及语音识别领域，特别涉及一种基于自适应热词权重的语音识别方法及系统。

背景技术

语音识别中的热词识别是指根据用户提供的热词，使得识别结果中热词的召回率显著提升的识别方法。

由于语音识别在不同的应用场景中存在领域相关的热词，用户希望这些热词能识别正确。然而，传统的热词识别方法在很少采用一遍解码的方式提升识别结果中热词的召回率，而且很少参照系统原先语言模型的信息，对热词权重的计算不够科学。

发明内容

本发明的目的在于克服上述缺陷，提出一种基于自适应热词权重的语音识别方法，该方法接收用户自定义的热词以及对每个热词设置的权重；对热词表进行预处理；由热词表构造一个热词网络；将热词网络加载到语音识别的解码器中；解码时，根据静态解码网络和热词网络自适应地计算路径得分；解码结束时，包含热词的路径获得比原先更高的分数，与热词无关的路径得分不发生变化。

为了实现上述目的，本发明提出了一种基于自适应热词权重的语音识别方法，所述方法包括：

生成热词网络并和静态解码网络一起加载到语音识别解码器中；

将待识别的语音信号同步地在静态解码网络和热词网络上进行令牌传递，自适应地计算热词权重，并对静态解码网络上令牌的分数重新打分；输出解码结果。

作为上述方法的一种改进，所述生成热词网络的步骤包括：

步骤1)接收自定义的热词以及对每个热词设置的权重；

步骤2)对步骤1)得到的热词表进行预处理；

步骤3)基于步骤2)的热词表构造一个热词相关的加权有限状态转换机，即为热词网络。

作为上述方法的一种改进，所述自定义的热词为集内词、集外词或者短语；所述权重为浮点数，权重与该热词在识别结果中的召回率成正相关。

作为上述方法的一种改进，所述步骤2)具体为：当热词包含中文时，对该热词使用词汇表进行分词，确保每一条热词由一个或多个集内词构成；分词采用逆向最大匹配算法。

作为上述方法的一种改进，所述热词相关的加权有限状态转换机网络表示为定义在一组权重上的八元组(∑,Δ,Q,I,F,E,λ,ρ)；其中∑是输入符号的有限集合，Δ是输出符号的有限集合，Q是有限状态的集合，/>是起始状态集合，/>是终止状态集合，是有限转移边的集合，其中∈代表转移边上的输入或输出符号为空字符；λ和ρ分别表示起始权重和终止权重；

所述热词网络包括以下特性：

(1)∑和Δ均为词汇表构成的集合，包含起始符和终止符；

(2)输入字符串和输出字符串相同；

(3)I和F均只有一个状态元素；

(4)能够接受任意的以起始符开始、终止符终止的字符串，因此起始状态有唯一出边，输入和输出字符为起始符，终止状态有唯一入边，输入和输出字符为终止符；

(5)当输入字符串中包含热词表中的一个或多个词条，路径上累计的权重之和等于用户定义的热词权重之和，否则路径上累计的权重之和为零；

(6)热词为集外词或短语时，对应网络中的一条长度大于1的路径，该路径每条转移边上的权重等于用户定义热词的权重除以热词的字符串长度；

(7)当无法继续在长度大于1的热词的路径上转移时，将会通过空字符转移边实现状态转移，并减去此前累计的热词权重；

(8)λ和ρ均为零。

作为上述方法的一种改进，所述静态解码网络为加权有限状态转换机，包含声学模型、词典和语言模型信息，其输入符号集合是声学模型中HMM隐藏状态的集合，输出符号集合是词汇表；静态解码网络的输出符号集合与热词网络的输入符号集合相同。

作为上述方法的一种改进，所述同步地在静态解码网络和热词网络上进行令牌传递的步骤具体包括：

步骤S1)初始化静态解码网络上的令牌t_s，从静态解码网络的起始状态开始传递；

步骤S2)初始化热词网络上的令牌t_h，构成令牌集合T，并链接到静态解码网络上初始化的令牌t_s，t_h从热词网络的起始状态开始传递；

步骤S3)向静态解码网络输入一帧待识别语音的特征，其上的令牌t_s传递到下一个状态，记经过的转移边为e_s，输出字符s，累计路径上的得分；

步骤S4)判断是否传递到终止状态，若传递到终止状态，转入步骤S8)；否则，转入步骤S5)继续执行；

步骤S5)判断输出字符s是否为空字符；若s是空字符，转入步骤S3)；否则转入步骤S6)继续执行；

步骤S6)向热词网络输入字符s，更新t_s链接的令牌集合T：T中的每个令牌t_h传递到满足条件的一个或多个状态，记经过的转移边为e_h，分别计算路径得分的增量δ，采用公式：

公式中的W_h(e_h)和W_s(e_s)分别为e_h和e_s上的权重，有三种情况：

(1)W_h(e_h)>0，代表e_h与热词有关，W_h(e_h)等于自定义热词的权重除以热词的字符串长度，权重越高Δ越大；W_s(e_s)为语言模型中的对数概率，W_s(e_s)为负值，α是非负参数，因此热词网络输入的字符在语言模型中概率越小δ越大；

(2)W_h(e_h)<0，代表e_h为空字符转移边，无法继续在热词相关的路径上传递，需要减去先前累计的权重值W；

(3)W_h(e_h)＝0，代表e_h与热词无关，因此得分增量为零。

步骤S7)更新t_s的得分，其得分增量为令牌集合T中得分增量的最大值；更新结束后，转入步骤S3)；

步骤S8)结束令牌传递并输出字符串以及对应的分数作为解码结果。

一种基于自适应热词权重的语音识别系统，包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求上述方法的步骤。

本发明的优点在于：

本发明的基于自适应热词权重的语音识别方法在一遍解码的过程中就能提升热词召回率，不影响解码的速度，并且自适应地计算热词权重既能有效地提高热词的召回率，不影响原先的解码速度，又能提高系统的鲁棒性。

附图说明

图1为本发明的基于自适应热词权重的语音识别方法的流程图；

图2为本发明的令牌传递的过程的流程图。

具体实施方式

下面结合附图对本发明作进一步的描述。

参考图1，本发明提出的一种基于自适应权重的热词识别方法，包括以下步骤：

步骤101)接收用户自定义的热词以及对每个热词设置的权重；

用户自定义的热词包括集内词、集外词或者短语等用户期望能识别正确的字符串；热词的权重为浮点数，权重越高代表用户期望该字符串在识别结果中的召回率越高。

步骤102)对步骤101)热词表进行预处理；

所述的对热词表进行预处理包括：热词包含中文时，则需要对该热词使用语音识别系统中的词汇表分词，确保每一条热词由一个或多个集内词构成；分词可以采用逆向最大匹配算法。

步骤103)基于步骤102)的热词表构造一个热词相关的加权有限状态转换机，简称热词网络；

热词相关的加权有限状态转换机网络可以表示为定义在一组权重上的八元组(∑,Δ,Q,I,F,E,λ,ρ)；其中∑是输入符号的有限集合，Δ是输出符号的有限集合，Q是有限状态的集合，/>是起始状态集合，/>是终止状态集合，/> 是有限转移边的集合，其中∈代表转移边上的输入或输出符号为空字符；λ和ρ分别表示起始权重和终止权重，热词网络的具体性质进一步包括：

(1)∑和Δ均为词汇表构成的集合，包含起始符和终止符；

(2)转移边的输入字符与输出字符相同，因此热词网络的输入字符串和输出字符串相同；

(3)I和F均只有一个状态元素；

(4)热词网络可以接受任意的以起始符开始、终止符终止的字符串，因此起始状态有唯一出边，输入和输出字符为起始符，终止状态有唯一入边，输入和输出字符为终止符；

(8)λ和ρ均为零。

步骤104)保留解码器中的静态解码网络不变，将步骤103)的热词网络加载到语音识别的解码器中；

静态解码网络为加权有限状态转换机，包含声学模型、词典、语言模型的信息，输入符号集合是声学模型中HMM隐藏状态的集合，输出符号集合是词汇表；静态解码网络的输出符号集合与热词网络的输入符号集合相同，因此静态解码网络的输出字符串可以被热词网络接受。

步骤105)同步地在静态解码网络和热词网络上进行令牌传递，自适应地计算热词权重，并对静态解码网络上令牌的分数重新打分；

令牌传递的过程参考图2，具体实施步骤如下：

步骤105-1)、初始化静态解码网络上的令牌t_s，从静态解码网络的起始状态开始传递；

步骤105-2)、初始化热词网络上的令牌t_h，构成令牌集合T，并链接到静态解码网络上初始化的令牌t_s，t_h从热词网络的起始状态开始传递；

步骤105-3)、向静态解码网络输入一帧语音的特征，其上的令牌t_s传递到下一个状态，记经过的转移边为e_s，输出字符s，累计路径上的得分；

步骤105-4)、判断是否传递到终止状态，若传递到终止状态，转入步骤105-8)；否则，转入步骤105-5)继续执行；

步骤105-5)、判断输出字符s是否为空字符；若s是空字符，转入步骤105-3)；否则转入步骤105-6)继续执行；

步骤105-6)、向热词网络输入字符s，更新t_s链接的令牌集合T：T中的每个令牌t_h传递到满足条件的一个或多个状态，记经过的转移边为e_h，分别计算路径得分的增量δ，采用公式：

步骤105-7)、更新t_s的得分，其得分增量为令牌集合T中得分增量的最大值；更新结束后，转入步骤105-3)；

步骤105-8)、结束令牌传递并输出字符串以及对应的分数。

公式中的W_h(e_h)和W_s(e_s)分别为e_h和e_s上的权重，进一步有三种情况：

(1)W_h(e_h)>0，代表e_h与热词有关，W_h(e_h)等于用户定义热词的权重除以热词的字符串长度，用户定义的权重越高Δ越大；W_s(e_s)为语言模型中的对数概率，W_s(e_s)为负值，α是非负参数，因此热词网络输入的字符在语言模型中概率越小δ越大；

(3)W_h(e_h)＝0，代表e_h与热词无关，因此得分增量为零。

热词权重自适应体现在计算热词网络路径得分增量时参考了原始系统中语言模型的信息，能有效地增加热词的召回率。

步骤106)、解码结束后，包含热词的路径获得比原先更高的分数，不包含热词的路径分数不发生变化；

包含热词的路径与原系统相比，提升的得分来自于两部分，其中一部分来源于用户自定义的权重，反映用户对识别结果中出现热词的期望值，另一部分来源于系统中语言模型，若热词在语言模型中是稀疏的，则获得更高的权重，反之获得较低的权重。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于自适应热词权重的语音识别方法，所述方法包括：

将待识别的语音信号同步地在静态解码网络和热词网络上进行令牌传递，自适应地计算热词权重，并对静态解码网络上令牌的分数重新打分；输出解码结果；

所述生成热词网络的步骤包括：

步骤1)接收自定义的热词以及对每个热词设置的权重；

步骤2)对步骤1)得到的热词表进行预处理；

步骤3)基于步骤2)的热词表构造一个热词相关的加权有限状态转换机，即为热词网络；

所述热词相关的加权有限状态转换机网络表示为定义在一组权重上的八元组(∑,Δ,Q,I,F,E,λ,ρ)；其中∑是输入符号的有限集合，Δ是输出符号的有限集合，Q是有限状态的集合，/>是起始状态集合，/>是终止状态集合，/> 是有限转移边的集合，其中∈代表转移边上的输入或输出符号为空字符；λ和ρ分别表示起始权重和终止权重；

所述同步地在静态解码网络和热词网络上进行令牌传递的步骤具体包括：

(1)W_h(e_h)＞0，代表e_h与热词有关，W_h(e_h)等于自定义热词的权重除以热词的字符串长度，权重越高Δ越大；W_s(e_s)为语言模型中的对数概率，W_s(e_s)为负值，α是非负参数，因此热词网络输入的字符在语言模型中概率越小δ越大；

(2)W_h(e_h)＜0，代表e_h为空字符转移边，无法继续在热词相关的路径上传递，需要减去先前累计的权重值W；

(3)W_h(e_h)＝0，代表e_h与热词无关，因此得分增量为零；

2.根据权利要求1所述的基于自适应热词权重的语音识别方法，其特征在于，所述自定义的热词为集内词、集外词或者短语；所述权重为浮点数，权重与该热词在识别结果中的召回率成正相关。

3.根据权利要求2所述的基于自适应热词权重的语音识别方法，其特征在于，所述步骤2)具体为：当热词包含中文时，对该热词使用词汇表进行分词，确保每一条热词由一个或多个集内词构成；分词采用逆向最大匹配算法。

4.根据权利要求3所述的基于自适应热词权重的语音识别方法，其特征在于，

所述热词网络包括以下特性：

(1)∑和Δ均为词汇表构成的集合，包含起始符和终止符；

(2)输入字符串和输出字符串相同；

(3)I和F均只有一个状态元素；

(8)λ和ρ均为零。

5.根据权利要求4所述的基于自适应热词权重的语音识别方法，其特征在于，所述静态解码网络为加权有限状态转换机，包含声学模型、词典和语言模型信息，其输入符号集合是声学模型中HMM隐藏状态的集合，输出符号集合是词汇表；静态解码网络的输出符号集合与热词网络的输入符号集合相同。

6.一种基于自适应热词权重的语音识别系统，包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1～5之一所述方法的步骤。