CN111798846A

CN111798846A - 语音命令词识别方法、装置、会议终端及会议终端系统

Info

Publication number: CN111798846A
Application number: CN202010491988.1A
Authority: CN
Inventors: 方泽煌; 康元勋
Original assignee: Xiamen Yealink Network Technology Co Ltd
Current assignee: Xiamen Yealink Network Technology Co Ltd
Priority date: 2020-06-02
Filing date: 2020-06-02
Publication date: 2020-10-20

Abstract

本发明公开一种语音命令词识别方法、装置、会议终端及会议终端系统，所述方法包括：提取语音信号的MFCC特征并将所述MFCC特征输入到采用隐马尔可夫模型建立的预先训练好的声学模型，获得相应的三音素后验概率，并根据所述三音素后验概率，采用预先训练好的n‑gram语言模型构建解码网络并进行解码运算，搜索最优路径，获得期望输出的命令词识别结果；再通过对所述最优路径的权重进行累加统计，获得所述命令词识别结果的置信度，最后根据所述置信度判断所述命令词识别结果是否可信，若可信，则输出所述命令词识别结果，否则，拒识所述命令词识别结果。本发明能够在只有少量的训练数据下，依然能够获得准确的识别效果。

Description

语音命令词识别方法、装置、会议终端及会议终端系统

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音命令词识别方法、装置、会议终端及会议终端系统。

背景技术

近年来，随着语音识别技术的进步，语音交互因其天然的便利性，在日常生活中应用越来越广泛。语音命令词识别技术在车载系统、智能家居等领域里已经得到广泛的应用，同时为了更好的使用体验，会议终端同样有迫切的需求。在目前大部分的应用方案中，语音交互采用的是在线识别的方式，这就要求设备在使用时需要连接互联网，且将设备接收到的语音数据上传到服务器，服务器进行特征提取等一系列的运算，再返回识别后的结果。该方法的好处是识别在云端进行，识别的结果会很精确，但这种方法的用户体验与网络环境密切相关，无法脱机运行；同时由于需要传回数据到服务器，这就增大了会议内容泄漏的风险，因此，在线识别的方式不适用于会议终端方案。

随着深度学习技术的兴起，也有将深度学习应用于语音命令识别的方案，但是深度学习需要海量的数据进行训练否则将大大影响准确率和应用范围，而常规情况下获取大量数据是十分困难的，因此也不利于实际部署。

目前，已经出现了一些无需联网便能完成语音命令的识别的技术方案。例如，CN109065043A公开了一种命令词识别方法及计算机存储介质，其通过获取待识别语音的有效语音；获取有效语音的MFCC特征系数，将有效语音的MFCC特征系数与预设的若干MFCC特征系数依次通过DTW相似性算法进行匹配，得到若干MFCC特征系数对应的若干相似值；当某一相似值小于预设相似值时，则判断匹配成功，并提取匹配成功的MFCC特征系数对应的命令词。但是该方案仅使用简单的MFCC和DTW进行匹配，很容易因为噪声和外部人声的干扰而误判，无法适应实际的应用场景。

因此，如何设计一种仅需要少量训练数据、依然能够获得准确的语音命令词识别效果且能够在本地运行的语音命令识别方法来是亟需解决的技术问题。

发明内容

本发明的目的在于提供一种语音命令词识别的方法，以解决现有在线语音识别方案容易造成会议内容泄漏、训练数据量大的问题。在只有少量的训练数据下，本发明依然能够获得准确的识别效果且能够在本地运行。

为了解决上述技术问题，第一方面，本发明实施例提供一种语音命令词识别方法，包括：

当接收到语音信号时，提取所述语音信号的MFCC特征；

通过预先训练好的声学模型，获取所述MFCC特征对应的三音素后验概率；其中采用隐马尔可夫模型建立所述声学模型；

根据所述三音素后验概率，采用预先训练好的语言模型构建解码网络并进行解码运算，搜索最优路径，获得期望输出的命令词识别结果；其中，所述语言模型为n-gram语言模型，所述解码网络为加权优先转换机；

对所述最优路径的权重进行累加统计，获得所述命令词识别结果的置信度；

根据所述置信度判断所述命令词识别结果是否可信，若可信，则输出所述命令词识别结果，否则，拒识所述命令词识别结果。

进一步地，所述提取语音信号的MFCC特征，包括：

对所述语音信号进行预加重处理；

对预加重处理后的所述语音信号进行重新分帧；

将重新分帧后的每一帧语音信号乘以汉明窗；

在所述每一帧语音信号乘以汉明窗后，对所述每一帧语音信号进行快速傅里叶变换，获得所述每一帧语音信号的频谱；

根据所述每一帧语音信号的频谱获取所述语音信号的能量谱；

将所述语音信号的能量谱通过一组梅尔尺度的三角滤波器组，获得每个所述三角滤波器的频率响应；

根据所述语音信号的频谱和所述语音信号的能量谱计算每个所述滤波器组输出的对数能量；

对所述对数能量进行离散余弦变换，获得MFCC特征。

进一步地，所述根据所述置信度判断所述命令词识别结果是否可信，若可信，则输出所述命令词识别结果，否则，拒识所述命令词识别结果，具体为：

判断所述置信度是否大于所述命令词识别结果的预设置信度，若大于，则判定所述命令词识别结果可信，输出所述命令词识别结果，否则，判定所述期望输出的命令词识别结果不可信，拒识所述命令词识别结果。

第二方面，本发明实施例提供一种语音命令词识别装置，包括：

特征提取模块，用于当接收到语音信号时，提取所述语音信号的MFCC特征；

三音素后验概率获取模块，用于通过预先训练好的声学模型，获取所述MFCC特征对应的三音素后验概率；其中采用隐马尔可夫模型建立所述声学模型；

命令词识别结果获取模块，用于根据所述三音素后验概率，采用预先训练好的语言模型构建解码网络并进行解码运算，搜索最优路径，获得期望输出的命令词识别结果；其中，所述语言模型为n-gram语言模型，所述解码网络为加权优先转换机；

累加统计模块，用于对所述最优路径的权重进行累加统计，获得所述命令词识别结果的置信度；

判断模块，用于根据所述置信度判断所述命令词识别结果是否可信，若可信，则输出所述命令词识别结果，否则，拒识所述命令词识别结果。

进一步地，所述提取语音信号的MFCC特征，包括：

对所述语音信号进行预加重处理；

对预加重处理后的所述语音信号进行重新分帧；

将重新分帧后的每一帧语音信号乘以汉明窗；

对所述对数能量进行离散余弦变换，获得MFCC特征。

第三方面，本发明实施例提供一种会议终端，包括：

存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的语音命令词识别程序，所述语音命令词识别程序被所述处理器执行时实现如本发明所述的语音命令词识别方法的步骤。

第四方面，本发明实施例提供一种会议终端系统，包括：

声音信号采集器、信号转换器、存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的语音命令词识别程序，所述语音命令词识别程序被所述处理器执行时实现如权利要求1至3任一项所述的语音命令词识别方法的步骤。

第五方面，本发明实施例提供的另一种会议终端系统，包括：

声音信号采集器、信号转换器、处理装置、传输模块、终端；其中，所述声音信号采集器与所述信号转换器连接，所述信号转换器与所述处理装置连接，所述处理装置与所述传输模块连接，所述处理装置包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的语音命令词识别程序，所述语音命令词识别程序被所述处理器执行时实现如权利要求1至3任一项所述的语音命令词识别方法的步骤；所述终端用于根据所述处理装置输出的语音命令词识别结果执行相应的操作。

综上，本发明的有益效果在于：

本发明实施例通过提取语音信号的MFCC特征并将所述MFCC特征输入到采用隐马尔可夫模型建立的预先训练好的声学模型，获得相应的三音素后验概率，并根据所述三音素后验概率，采用预先训练好的n-gram语言模型构建解码网络(加权优先转换机)并进行解码运算，搜索最优路径，获得期望输出的命令词识别结果；再通过对所述最优路径的权重进行累加统计，获得所述命令词识别结果的置信度，最后根据所述置信度判断所述命令词识别结果是否可信，若可信，则输出所述命令词识别结果，否则，拒识所述命令词识别结果，使得只有少量的训练数据下，依然能够获得准确的识别效果，又由于本发明提供的语音命令词识别方法运算量较少，适合在在本地运行不卡顿。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1提供的语音命令词识别方法的流程示意图；

图2是本发明实施例1提供的语音命令词识别方法的流程简图。

图3是本发明实施例1提供的语音命令词识别方法中的解码流程示意图；

图4是提取语音信号的MFCC特征的流程简图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不对作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1-图4，本发明实施例提供一种语音命令词识别方法，包括步骤S1-步骤S5：

S1、当接收到语音信号时，提取所述语音信号的MFCC特征。

在本发明实施例中，当接收到语音信号时，提取语音信号的MFCC特征的步骤，具体包括步骤S11-步骤S17(请参阅图2)：

S11：预加重。将语音信号进行预加重处理，具体计算公式如下所示：

H(Z)＝1-μZ^-1

其中，μ是预加系数，μ值的取值范围为[0.9,1.0]。优选的，为了达到最佳效果，μ取0.97。预加重的目的是提升语音信号高频的部分，使各麦克风通道语音信号的频谱变得平坦，同时消除语音发生过程中由于声源个体声带和嘴唇的效应，突出语音信号高频共振峰，增加语音的高频分辨率。

S12：分帧。对预加重处理后的语音信号进行重新分帧。时域语音信号是一系列有序信号，其中将N个采样点结合成一个观测单位，称为帧。在本发明中N取400，对于16KHz的采样频率涵盖的时间为25ms。为避免相邻两帧变化过大，因此相邻两帧之间有一段重叠区域，优选的，本发明中采用10ms的重叠长度。

S14：加窗。将重新分帧后的每一帧语音信号乘以汉明窗，加窗使得语音信号有周期性，以减少语音信号FFT变换中的语音能量泄露。具体加窗的计算公式如下：

S′(n)＝S(n)×W(n)

其中，S(n)表示重新分帧后的语音信号，W(n)表示汉明窗，N为帧长大小，a为汉明窗系数，优选的，a取0.46。

S14：快速傅里叶变换(Fast Fourier Transform，FFT)。在每一帧语音信号乘以汉明窗后，对每一帧语音信号进行快速傅里叶变换，获得每一帧语音信号的频谱。由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以在乘上汉明窗后，每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行FFT变换得到语音信号每一帧的频谱，并根据每一帧语音信号的频谱获取语音信号的能量谱。具体的将语音信号的频谱取模平方得到语音信号的能量谱。傅里叶变换计算公式如下：

其中，X(k)表示变换后的频谱，x(n)为麦克风的语音时域信号,j表示虚数，

表示角频率，N1表示傅里叶变换的点数。

S15：梅尔三角滤波器。将语音信号的能量谱通过一组Mel尺度的三角形滤波器组，获得每个三角滤波器的频率响应。定义有M个三角滤波器的滤波器组，各个三角滤波器的中心频率是相等间隔的线性分布，频率互相Mel域的公式如下所示：

其中，f表示频率，fmel表示Mel频率。

梅尔三角滤波器的频率响应定义公式如下：

其中，

m＝1,2,…,表示在限定范围下的Mel频率，该频率是相等间隔的线性分布，f(m)为中心频率，H_m(k)表示三角滤波器的频响，k表示傅里叶变换的点数。

S16：对数运算。根据语音信号的频谱和语音信号的能量谱计算每个滤波器组输出的对数能量。计算公式如下：

其中，En(m)表示对数能量，H_m(k)表示三角滤波器的频响，X(k)表示变换后的频谱。因为人耳对声音的感知为非线性的，呈对数关系，这也是类似人的听觉，不能在线性范围听到响度。

S17：离散余弦变换(Discrete Cosine Transform,DCT)。对所述对数能量进行离散余弦变换，获得MFCC系数。此处应当理解的是，MFCC特征实际上就是MFCC系数。MFCC系数计算公式如下：

其中，L表示MFCC系数的阶数，同时也是MFCC的维度，M表示三角滤波器的个数，En(m)表示对数能量，n是MFCC每维特征的下标。梅尔频率倒谱系数(Mel-Frequency CepstralCoefficients，MFCCs)是组成梅尔频率倒谱的系数。梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的，它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。这样的非线性表示，可以在多个领域中使声音信号有更好的表示。

S2、通过预先训练好的声学模型，获取所述MFCC特征对应的三音素后验概率；其中采用隐马尔可夫模型建立所述声学模型。

在本发明实施例中，在提取到所述语音信号的MFCC特征后，将所述提取到的MFCC特征输入到预先训练好的声学模型，得到相应的三音素后验概率。

隐马尔可夫模型(Hidden Markov Model，HMM)是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。在正常的马尔可夫模型中，状态对于观察者来说是直接可见的。这样状态的转换概率便是全部的参数。而在隐马尔可夫模型中，状态并不是直接可见的，但受状态影响的某些变量则是可见的。每一个状态输出的符号上都有一概率分布，因此输出符号的序列能够透露出状态序列的一些信息。而在声学模型中，HMM描述了语音与音素的对应概率。音素是根据语音的发音特性划分出来的最小语音单位。

本发明中所述声学模型训练计算的具体计算方法可以采用现有的成熟的训练计算方法，例如可以使用隐马尔可夫模型工具(HTK，Hidden Markov Model Toolkit)的工具和流程，对语音进行声学模型训练计算得到对应的声学模型。此外，本发明预先训练好声学模型的训练数据由人工录制而成，具体为，使用普通麦克风，在办公室、大厅、会议室等场景录制相应的语音命令词作为训练数据。

S3、根据所述三音素后验概率，采用预先训练好的语言模型构建解码网络并进行解码运算，搜索最优路径，获得期望输出的命令词识别结果；其中，所述语言模型为n-gram语言模型，所述解码网络为加权优先转换机；

在本发明实施例中，n-gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。该模型基于这样一种假设，第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。所构建的解码网络为加权优先转换机(WFST，weighted finite state transducer)网络，是一种现有的成熟技术。此外，本发明预先训练好的语言模型的训练数据为所述声学模型的训练数据的实际标签，对所有所述训练数据的标签进行统计(即n-gram)得到语言模型。

在本发明实施例中，由于命令词之间相对独立，因此具体采用的是1-gram算法

S4、对所述最优路径的权重进行累加统计，获得所述命令词识别结果的置信度。

在本发明实施例中，需要理解的是，最优路径是由多个音素组成的路径，而相邻两个音素之间各有1个权重。

S5、根据所述置信度判断所述命令词识别结果是否可信，若可信，则输出所述命令词识别结果，否则，拒识所述命令词识别结果。

应当理解的是，所述命令词识别结果为解码结果，请参阅图3，输出解码结果可以理解为输出命令词的标识信息，例如，输出命令词编号，此处应当理解的是，此处的输出并非是直接输出到显示屏，而是输出到对应的执行模块，在执行模块在得到命令标识信息(词编号)后，输出模块根据语音命令词编号输出对应的语音命令词，或根据该语音命令词执行相应的操作。此外，输出解码结果也可以理解为，直接输出语音命令词显示到显示屏上。

在本发明实施例中，为了判断获得的语音命令词识别结果是否可信，需要预先为每个语音命令词设定置信度。

在其中一种实施例中，所述根据所述置信度判断所述命令词识别结果是否可信，若可信，则输出所述命令词识别结果，否则，拒识所述命令词识别结果，具体的：

判断所述语音命令词识别结果是否大于所述命令词识别结果的预设置信度，若大于，则判定所述命令词识别结果可信，输出所述命令词识别结果，否则，判定所述期望输出的命令词识别结果不可信，拒识所述命令词识别结果。在本发明实施例中，应当理解的是，一个语音命令词识别结果对应一个语音命令词。

综上，本发明实施例通过提取语音信号的MFCC特征并将所述MFCC特征输入到采用隐马尔可夫模型建立的预先训练好的声学模型，获得相应的三音素后验概率，并根据所述三音素后验概率，采用预先训练好的n-gram语言模型构建解码网络(加权优先转换机)并进行解码运算，搜索最优路径，获得期望输出的命令词识别结果；再通过对所述最优路径的权重进行累加统计，获得所述命令词识别结果的置信度，最后根据所述置信度判断所述命令词识别结果是否可信，若可信，则输出所述命令词识别结果，否则，拒识所述命令词识别结果，使得只有少量的训练数据下，依然能够获得准确的识别效果，又由于本发明提供的语音命令词识别方法运算量较少，适合在在本地运行不卡顿。

实施例2：

本发明实施例还提供一种语音命令词识别装置，包括：

作为本发明实施例的一种举例，所述提取语音信号的MFCC特征，包括：

对所述语音信号进行预加重处理；

对预加重处理后的所述语音信号进行重新分帧；

将重新分帧后的每一帧语音信号乘以汉明窗；

对所述对数能量进行离散余弦变换，获得MFCC特征。

作为本发明实施例的一种举例，所述根据所述置信度判断所述命令词识别结果是否可信，若可信，则输出所述命令词识别结果，否则，拒识所述命令词识别结果，具体为：

需要说明的是，本发明实施1提供的语音命令词识别方法的所有技术内容、技术效果以及对其解释、说明均适用于本发明实施例2提供的语音命令词识别装置，因此本发明实施例2在此不作过多赘述。

实施例3：

本发明实施例还提供一种会议终端，包括：

存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的语音命令词识别程序，所述语音命令词识别程序被所述处理器执行时实现本发明实施例1所述的语音命令词识别方法的步骤。

实施例4：

本发明实施例还提供一种会议终端系统，包括：

声音信号采集器、信号转换器、存储器、会议终端、所述会议终端包括处理器以及存储在所述存储器上并可在所述处理器上运行的语音命令词识别程序，所述语音命令词识别程序被所述处理器执行时实现本发明实施例1所述的语音命令词识别方法的步骤；其中，所述声音信号采集器用于采集模拟声音信号，所述声音信号采集器用于将所述模拟声音信号转换成数字声音信号。

实施例5：

本发明实施例提供的另一种会议终端系统，包括：

声音信号采集器、信号转换器、处理装置、传输模块、会议终端；其中，所述声音信号采集器与所述信号转换器连接，所述信号转换器与所述处理装置连接，所述处理装置与所述传输模块连接，所述处理装置包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的语音命令词识别程序，所述语音命令词识别程序被所述处理器执行时实现如本发明实施例1所述的语音命令词识别方法的步骤；所述终端用于根据所述处理装置输出的语音命令词识别结果执行相应的操作。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种语音命令词识别方法，其特征在于，包括：

当接收到语音信号时，提取所述语音信号的MFCC特征；

2.根据权利要求1所述的语音命令词识别方法，其特征在于，所述提取所述语音信号的MFCC特征，包括：

对所述语音信号进行预加重处理；

对预加重处理后的所述语音信号进行重新分帧；

将重新分帧后的每一帧语音信号乘以汉明窗；

对所述对数能量进行离散余弦变换，获得MFCC特征。

3.根据权利要求1所述的语音命令词识别方法，其特征在于，所述根据所述置信度判断所述命令词识别结果是否可信，若可信，则输出所述命令词识别结果，否则，拒识所述命令词识别结果，具体为：

4.一种语音命令词识别装置，其特征在于，包括：

5.根据权利要求1所述的语音命令词识别装置，其特征在于，所述提取所述语音信号的MFCC特征，包括：

对所述语音信号进行预加重处理；

对预加重处理后的所述语音信号进行重新分帧；

将重新分帧后的每一帧语音信号乘以汉明窗；

对所述对数能量进行离散余弦变换，获得MFCC特征。

6.根据权利要求1所述的语音命令词识别装置，其特征在于，所述根据所述置信度判断所述命令词识别结果是否可信，若可信，则输出所述命令词识别结果，否则，拒识所述命令词识别结果，具体为：

7.一种会议终端，其特征在于，包括：

存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的语音命令词识别程序，所述语音命令词识别程序被所述处理器执行时实现如权利要求1至3任一项所述的语音命令词识别方法的步骤。

8.一种会议终端系统，其特征在于，包括：

9.一种会议终端系统，其特征在于，包括：