CN105427870B

CN105427870B - 一种针对停顿的语音识别方法和装置

Info

Publication number: CN105427870B
Application number: CN201510982887.3A
Authority: CN
Inventors: 曹松军
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2015-12-23
Filing date: 2015-12-23
Publication date: 2019-08-30
Anticipated expiration: 2035-12-23
Also published as: CN105427870A

Abstract

本发明实施例提供了一种针对停顿的语音识别方法和装置，该方法包括：接收一帧或多帧语音信号；识别所述一帧或多帧语音信号中的静音信号；当识别成功时，去除所述静音信号；对去除静音信号的一帧或多帧语音信号进行语音识别，获得识别结果。本发明实施例减弱了静音对于语音识别的影响，增加了语音识别解码器的健壮性，提高了语音识别的准确率。

Description

一种针对停顿的语音识别方法和装置

技术领域

本发明涉及语音识别的技术领域，特别是涉及一种针对停顿的语音识别方法和一种针对停顿的语音识别装置。

背景技术

目前，移动互联网的快速发展带动了如手机、平板电脑等移动设备的广泛普及，而作为移动设备上人机交互最方便自然的方式之一，语音输入正逐渐被广大用户所接受。

基于用户行为习惯，用户在说话时，经常会出现停顿。

现有的大规模非特定人连续语音识别大多使用WFST(Weighted Finite-stateTransducer，加权有限状态转换器)构建的网络进行解码，对于包含长停顿的输入语音，基于WFST的解码器往往表现不佳，相比于不包含长停顿的语音输入来讲，识别准确率会有较大幅度的下降。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种针对停顿的语音识别方法和相应的一种针对停顿的语音识别装置。

依据本发明的一个方面，提供了一种针对停顿的语音识别方法，包括：

接收一帧或多帧语音信号；

识别所述一帧或多帧语音信号中的静音信号；

当识别成功时，去除所述静音信号；

对去除静音信号的一帧或多帧语音信号进行语音识别，获得识别结果。

可选地，所述识别所述一帧或多帧语音信号中的静音信号的步骤包括：

查找预先基于静音信号生成的声学模型；

判断所述语音信号与所述声学模型是否匹配；若是，则确定所述语音信号为静音信号。

可选地，所述声学模型表征为多个状态；

所述判断所述语音信号与声学模型是否匹配的步骤包括：

提取所述语音信号的语音特征；

计算所述语音特征属于所述状态的后验概率；

当所述后验概率大于预设的概率阈值时，确认所述语音信号与所述声学模型匹配。

可选地，所述声学模型为隐马尔可夫模型，所述隐马尔可夫模型具有5个状态；

所述计算所述语音特征属于所述状态的后验概率的步骤包括：

计算所述语音特征属于第2个状态、第3个状态和第4个状态中的至少一个状态的后验概率。

可选地，所述语音特征为滤波器组特征；

所述计算所述语音特征属于第2个状态、第3个状态和第4个状态中的至少一个状态的后验概率的步骤包括：

将所述滤波器组特征输入预设的深度神经网络模型，计算所述滤波器组特征属于第2个状态、第3个状态和第4个状态中的至少一个状态的后验概率。

根据本发明的另一方面，提供了一种针对停顿的语音识别装置，包括：

语音信号接收模块，适于接收一帧或多帧语音信号；

静音信号识别模块，适于识别所述一帧或多帧语音信号中的静音信号；

静音信号去除模块，适于在识别成功时，去除所述静音信号；

语音识别模块，适于对去除静音信号的一帧或多帧语音信号进行语音识别，获得识别结果。

可选地，所述静音信号识别模块还适于：

查找预先基于静音信号生成的声学模型；

可选地，所述声学模型表征为多个状态；

所述静音信号识别模块还适于：

提取所述语音信号的语音特征；

计算所述语音特征属于所述状态的后验概率；

所述静音信号识别模块还适于：

可选地，所述语音特征为滤波器组特征；

所述静音信号识别模块还适于：

本发明实施例去除语音信号之中的静音信号，再进行语音识别，从而减弱了静音对于语音识别的影响，增加了语音识别解码器的健壮性，提高了语音识别的准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的一种针对停顿的语音识别方法实施例的步骤流程图；

图2示出了根据本发明一个实施例的一种HMM状态的示例图；

图3示出了根据本发明一个实施例的一种语音识别的流程示例图；以及

图4示出了根据本发明一个实施例的一种针对停顿的语音识别装置实施例的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图1，示出了根据本发明一个实施例的一种针对停顿的语音识别方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，接收一帧或多帧语音信号；

在具体实现中，用户可以通过配置有麦克风等声卡设备的电子设备输入语言信号。

其中，该电子设备可以为移动设备，如手机、平板电脑、个人数字助理、穿戴设备(如眼镜、手表等)等等，也可以为固定设备，如个人电脑、智能电视、智能家居/家电(如空调、电饭煲)等等，本发明实施例对此不加以限制。

基于用户行为习惯，用户在说话时，经常会出现停顿(silience)，产生静音信号，因此，所输入的语言信号通常为包含静音信号的语音信号。

当电子设备接收到声卡设备转换的语言信号时，可以在本地去除其中的静音信号，也可以发送至服务器去除其中的静音信号，本发明实施例对此不加以限制。

步骤102，识别所述一帧或多帧语音信号中的静音信号；

在具体实现中，由停顿(silience)所产生静音信号，是无效的信号，因此，可以识别静音信号，从而提高语音识别的准确率。

在本发明的一种可选实施例中，步骤102可以包括如下子步骤：

子步骤S11，查找预先基于静音信号生成的声学模型；

应用本发明实施例，可以预先采集静音信号，作为训练样本，训练声学模型，以识别静音信号。

子步骤S12，判断所述语音信号与所述声学模型是否匹配；若是，则执行子步骤S13；

子步骤S13，确定所述语音信号为静音信号。

在本发明实施例中，对于接收的每一帧语音信号，都可以与该声学模型进行匹配，若匹配成功，则可以认为是静音信号，若匹配失败，则可以认为是包含话语的语音信号。

在本发明的一个可选实施例中，声学模型表征为多个状态(state)，在WFST中，节点(Node)即状态。

在具体实现中，该声学模型可以为隐马尔可夫模型(Hidden Markov Model，HMM)，HMM是马尔可夫链的一种，它的状态不能直接观察到，但能通过观测向量序列观察到，每个观测向量都是通过某些概率密度分布表现为各种状态，每一个观测向量是由一个具有相应概率密度分布的状态序列产生。

如图2所示，隐马尔可夫模型具有5个状态，每个状态用一个概率来表示声学向量的概率分布，并借助状态与状态间的转移概率连接成一个有序的状态序列，此状态序列是一静音信号的模型。

则在本发明实施例中，子步骤S12可以包括如下子步骤：

子步骤S121，提取所述语音信号的语音特征；

在本发明实施例中，可以提取语音信号的语音特征，即表征语音信号特征的信息。

在具体实现中，该语音特征可以为滤波器组(filter-bank，fBank)特征。

将语音信号送入一组按频率值呈对数分布的三角滤波器，再将各滤波器的输出能量值进行对数换算通过离散余弦变换将其映射成对应倒谱系数，在进行离散余弦变换前的一组特征值又称为滤波器组。

该特征在语音信号中的地位类似与像素概念对于图像处理的价值，是表征信号的基本参数。

在实际应用中，每10毫秒的语音对应于一帧特征(使用的是946维)，假设，输入有1秒的语音数据，将会产生100帧的特征。

将10毫秒的语音转化为一帧特征的过程如下：

1.将10毫秒语音28维fBank特征；

2.对28维fBank特征做两次差分，维度变为28*3；

3.加上2维的pitch特征，维度变为28*3+2；

4.使用前后五帧的窗口，维度变成了(28*3+2)*(5+5+1)。

当然，除了滤波器组特征之外，还可以提取其他语音特征，如梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)、线性预测倒谱系数(LinearPredictive Cepstral Coding，LPCC)等等，本发明实施例对此不加以限制。

子步骤S122，计算所述语音特征属于所述状态的后验概率；

子步骤S123，当所述后验概率大于预设的概率阈值时，确认所述语音信号与所述声学模型匹配。

若提取了语音特征，则可以计算语音特征属于声学模型中的状态的后验概率(Posterior probability)。

若后颜概率大于预设的概率阈值，则可以认为该语音信号属于该状态，为静音信号。

其中，后验概率是关于随机事件或者不确定性断言的条件概率，是在相关证据或者背景给定并纳入考虑之后的条件概率。

“后验”的意思是，考虑相关事件已经被检视并且能够得到一些信息。

在本发明实施例中，由于去除<sil>数据帧(即基于停顿产生的静音信号)，会导致部分识别结果前几个字的丢失，所以，保留语音开始部分的<sil>数据帧，只去除句子中间部分的<sil>数据帧。

如图2所示，若声学模型可以为隐马尔可夫模型，第1个状态为起始状态，第5个状态为终止状态，第2个状态、第3个状态和第4个状态中间状态。

因此，可以保留第1个状态和第5个状态。

计算语音特征属于第2个状态、第3个状态和第4个状态中的至少一个状态的后验概率。

进一步而言，若语音特征可以为滤波器组特征fBank，则可以将滤波器组特征fBank输入预设的深度神经网络模型(Deep Neural Networks,DNN)，计算所述滤波器组特征属于第2个状态、第3个状态和第4个状态中的至少一个状态的后验概率。

DNN的结构通常为：

输入层(1层)——隐层(可以有多层)——输出层(1层)。

假设DNN输入的一帧fBank特征是f，输出的状态为s_i(其中i表示状态的序号)。

在本发明实施例中，使用的是9层的DNN结构，包括输入层、7个隐层和输出层，其中输入层为946个节点(对应于946维的特征输入)，中间隐层有2048个节点，输出层有9377个节点(对应于9377个状态)。

DNN隐层使用的激活函数是sigmoid函数，输出层的激活函数使用的是softmax函数。

对于输入的一帧特征数据(946维)，根据DNN的前向算法，逐层向后计算。

由于DNN最后一层的激活函数是sofmax，所以，每一帧特征对应的DNN的输出是P(s_i|f)，表示状态s_i的后验概率。

DNN在计算时，对于输入的每一帧fBank特征f，首先根据DNN的后验概率进行一次判断，如果<sil>对应的三个状态sil2、sil3、sil4的任意一个后验概率较大(表征为大于预设的概率阈值，如0.3)的时候，说明该帧对应的是静音。

步骤103，当识别成功时，去除所述静音信号；

由于静音信号是无效的，因此，可以忽略该帧信号，即字之间的silience静音部分会被过滤掉，不参与WFST网络token的传递，从而减弱静音对WFST网络解码的影响。

步骤104，对去除静音信号的一帧或多帧语音信号进行语音识别，获得识别结果。

需要说明的是，可以在电子设备本地对特征语音信号进行语音识别，也可以在服务器中对特征语音信号进行语音识别，本发明实施例对此不加以限制。在具体实现中，进行语音识别的语音识别系统通常由以下几个基本模块所构成：

1、信号处理及特征提取模块；该模块的主要任务是从音频数据中提取特征，供声学模型处理。同时，它一般也包括了一些信号处理技术，以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。

2、声学模型；语音识别系统多采用基于一阶隐马尔科夫模型进行建模。

3、发音词典；发音词典包含语音识别系统所能处理的词汇集及其发音。发音词典实际提供了声学模型与语言模型的映射。

4、语言模型；语言模型对语音识别系统所针对的语言进行建模。理论上，包括正则语言，上下文无关文法在内的各种语言模型都可以作为语言模型，但目前各种系统普遍采用的还是基于统计的N元文法及其变体。

5、解码器；解码器是语音识别系统的核心之一，其任务是对输入的信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。从数学角度可以更加清楚的了解上述模块之间的关系。

在本发明实施例中，解码器使用GMM+DNN训练出的声学模型。

由于HMM模型能够很好地描述语音的时变性和短时平稳性，已被广泛应用于大词表连续语音识别系统的声学建模。

在本发明实施例中，以三段式半音节作为基本发音单元，或称音子，并以上下文相关的三音子作为声学建模单元。

每个三音子单元都用一个5状态的HMM来表示，并且第1、第5状态为非发射态，在训练和识别时不占用语音帧；第2、3、4状态为发射态，在训练和识别时至少占用一帧语音。

在初始阶段，采用GMM为状态建模，并采用基于最大似然准则的Baum-Welch算法迭代优化HMM与GMM参数。当模型参数达到收敛条件或达到预先设定的迭代次数，停止训练。并用HMM-GMM系统对语音中HMM状态的时间边界进行切分。

训练DNN时，以语音帧特征为输入，以当前语音帧对应的状态(由HMM-GMM系统切分得到)为输出，在最大化交叉熵的目标函数下，采用基于mini-batch的梯度下降算法对DNN参数进行训练。

在传统使用WFST构建的网络进行解码，对于包含长停顿的输入语音，基于WFST的解码器往往表现不佳，其识别示例如下：

语音输入	解码器识别结果
		麦克风(正常语速)	麦克风
麦(停顿1s)克(停顿1s)风	卖客疯
		可爱多(正常语速)	可爱多
可(停顿1s)爱(停顿1s)多	可i多

语音识别的WFST网络的构建包括四个方面：单音素的状态网络(H)、三音素网络(C)、发音字典网络(L)、语言模型网络(G)。

假设语音输入为包含长停顿的“麦克风”，竞争的候选路径包括：

1.“麦克风”

2.“麦<sil>克<sil>风”

3.“卖<sil>客<sil>疯”

WFST中“麦克风”这条路径的中间没有<sil>，如果要出来“麦克风”的话，需要将“麦<sil>克<sil>风”匹配成“麦克风”，体现在状态上面的话，可能出现的情况是“麦克风”这条路径对应的三音素的状态出现更多次的自旋，才能够匹配的上，也就意味着本来应该是<sil>的状态，实际上走的是“麦克风”里面三音素的状态，从而导致匹配度很低，声学得分很低。

所以在H网络，路径1会被排除。

对于路径2和路径3来讲，由于发音一样而且中间都有<sil>，所以声学得分相差不大。

在语言层面G，路径3的得分会明显高于路径2，所以路径2会被排除。

卖客疯：

p(卖|<s>)＝[2gram]7.03024e-05[-4.15303]

p(客|卖...)＝[3gram]0.0115452[-1.9376]

p(疯|客...)＝[4gram]0.791369[-0.101621]

p(</s>|疯...)＝[4gram]0.552428[-0.257724]

1sentences,3words,0OOVs

0zeroprobs,logprob＝-6.44997ppl＝40.9726ppl1＝141.251

麦克风

p(麦|<s>)＝[2gram]1.96748e-05[-4.70609]

p(克|麦...)＝[2gram]3.7493e-06[-5.42605]

p(风|克...)＝[2gram]0.00107382[-2.96907]

p(</s>|风...)＝[3gram]0.275522[-0.559844]

1sentences,3words,0OOVs

0zeroprobs,logprob＝-13.6611ppl＝2601.74ppl1＝35783.7

综上，最后的识别结果是路径3，得到错误的识别结果。

如图3所示，应用本发明实施例的语音识别方式，对于输入的f1-f10帧语音数据，可以去除属于静音数据<sil>的f3、f4、f7、f8，再输入解码器进行解码。

由于增加了去除静音的预处理，使得解码器较好地解决了包含长停顿的语音输入的识别问题，增加了语音识别解码器的健壮性，从而增加了识别的准确率。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了根据本发明一个实施例的一种针对停顿的语音识别装置实施例的结构框图，具体可以包括如下模块：

语音信号接收模块401，适于接收一帧或多帧语音信号；

静音信号识别模块402，适于识别所述一帧或多帧语音信号中的静音信号；

静音信号去除模块403，适于在识别成功时，去除所述静音信号；

语音识别模块404，适于对去除静音信号的一帧或多帧语音信号进行语音识别，获得识别结果。

在本发明的一种可选实施例中，所述静音信号识别模块402还可以适于：

查找预先基于静音信号生成的声学模型；

在本发明的一种可选实施例中，所述声学模型表征为多个状态；

所述静音信号识别模块402还可以适于：

提取所述语音信号的语音特征；

计算所述语音特征属于所述状态的后验概率；

在本发明实施例的一种可选示例中，所述声学模型为隐马尔可夫模型，所述隐马尔可夫模型具有5个状态；

所述静音信号识别模块402还可以适于：

在本发明实施例的一种可选示例中，所述语音特征为滤波器组特征；

所述静音信号识别模块402还可以适于：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的针对停顿的语音识别设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种针对停顿的语音识别方法，包括：

接收一帧或多帧语音信号；

识别所述一帧或多帧语音信号中的静音信号；

当识别成功时，去除所述静音信号；

对去除静音信号的一帧或多帧语音信号进行语音识别，获得识别结果；

所述识别所述一帧或多帧语音信号中的静音信号的步骤包括：

查找预先基于静音信号生成的声学模型；

判断所述语音信号与所述声学模型是否匹配；若是，则确定所述语音信号为静音信号；

所述声学模型表征为多个状态；

所述判断所述语音信号与声学模型是否匹配的步骤包括：

提取所述语音信号的语音特征；

计算所述语音特征属于所述状态的后验概率；

当所述后验概率大于预设的概率阈值时，确认所述语音信号与所述声学模型匹配；

所述声学模型为隐马尔可夫模型，所述隐马尔可夫模型具有5个状态；

2.如权利要求1所述的方法，其特征在于，所述语音特征为滤波器组特征；

3.一种针对停顿的语音识别装置，包括：

语音信号接收模块，适于接收一帧或多帧语音信号；

语音识别模块，适于对去除静音信号的一帧或多帧语音信号进行语音识别，获得识别结果；

所述静音信号识别模块还适于：

查找预先基于静音信号生成的声学模型；

所述声学模型表征为多个状态；

所述静音信号识别模块还适于：

提取所述语音信号的语音特征；

计算所述语音特征属于所述状态的后验概率；

所述静音信号识别模块还适于：

4.如权利要求3所述的装置，其特征在于，所述语音特征为滤波器组特征；

所述静音信号识别模块还适于：