CN104732972A

CN104732972A - 一种基于分组统计的hmm声纹识别签到方法及系统

Info

Publication number: CN104732972A
Application number: CN201510109362.9A
Authority: CN
Inventors: 张晶; 姚敏锋; 王金矿
Original assignee: Guangdong University of Foreign Studies
Current assignee: Guangdong University of Foreign Studies
Priority date: 2015-03-12
Filing date: 2015-03-12
Publication date: 2015-06-24
Anticipated expiration: 2035-03-12
Also published as: CN104732972B

Abstract

本发明提出一种基于分组统计的HMM声纹识别签到方法及系统，首先签到客户端采集签到者的声纹信号，对声纹信号依次进行预加重、分帧、加窗和端点检测的预处理并通过网络传输至服务器，然后签到服务器端对声纹信号进行声纹特征参数提取，生成签到者分组特征参数以及生成分组模型的分组特征参数；根据分组模型的每个分组的分组特征参数与签到者声纹的分组特征参数，判断签到者是否为某个分组的成员；最后对签到者的声纹进行判定。本发明能在签到人数量较大的情况下，实现实时、高效的声纹识别签到，减少公用设备的投入，既方便又高效，本发明系统和方法的结合实现了高识别效率、高实时性的声纹识别签到。

Description

一种基于分组统计的HMM声纹识别签到方法及系统

技术领域

本发明涉及声纹识别技术领域，更具体地，涉及一种基于分组统计的HMM声纹识别签到方法及系统。

背景技术

在嵌入式操作系统中实现声纹识别签到，通常需要对输入的声纹进行预处理，将数据传输到服务器，进而生成声纹模型，模式匹配，最后输出并记录结果。其中，声纹模型引用了隐马尔可夫模型(HMM)的两个参数(B，π)，该模型的训练采用了Baum_Welch算法。一般可以用λ＝(A，B，π)三元组来简洁的表示一个隐马尔可夫模型。隐马尔可夫模型实际上是标准马尔可夫模型的扩展，添加了可观测状态集合和这些状态与隐含状态之间的概率关系。模式匹配通常采取Viterbi算法进行模式匹配。张卫清的《语音识别算法的研究》提供了详细的Viterbi算法及隐马尔科夫模型的描述。传统模式匹配算法，需要对所有模板进行匹配，当模板数量增加时，匹配过程所消耗的时间而随之增加，也即当要识别的声纹数量较大时，识别效率和实时性较差，进而导致签到效率低下。

发明内容

本发明旨在至少在一定程度上解决上述技术问题。

本发明的首要目的是克服上述现有技术所述的识别效率和实时性较差缺陷，提供一种识别效率和实时性高的基于分组统计的HMM声纹识别签到方法。

本发明的进一步目的是提供一种识别效率和实时性高的基于分组统计的HMM声纹识别签到系统。

为解决上述技术问题，本发明的技术方案如下：

一种基于分组统计的HMM声纹识别签到方法，通过签到客户端采集声纹信号，并通过网络传输至签到服务器进行签到，所述方法包括以下步骤：

S1：采集签到者的声纹信号；

S2：对声纹信号进行预处理，其预处理过程依次包括预加重、分帧、加窗和端点检测，将预处理后的声纹信号通过网络传输至服务器；

S3：对声纹信号进行声纹特征参数提取；

S4：生成分组特征参数，包括生成签到者分组特征参数以及生成分组模型的分组特征参数；

S5：根据分组模型的每个分组的分组特征参数与签到者声纹的分组特征参数，判断签到者是否为某个分组的成员；

S6：对签到者的声纹进行判定。

在一种优选的方案中，步骤S2中，对声纹信号进行预处理具体包括以下步骤：

S2.1：预加重，在预加重过程中，

传递函数为：H(z)＝1-0.9375z^-1，

得到的信号为：

\tilde{S} (n) = S (n) - 0.9375 S (n - 1);

S2.2：分帧，以10～20ms为间隔将声纹信号分为若干帧，一帧为一个基本单位；

S2.3：加窗，采用了汉明窗函数来进行窗化，即：0≤n≤N-1，其中：0≤n≤N-1；

S2.4：端点检测，通过信号的短时过零率和短时能量两个系数来检测声纹信号的端点的，两个系数的公式如下：

短时能量：

e (i) = Σ_{n = 1}^{N} | x_{i} (n) |,

短时过零率：

ZCR (i) = Σ_{n = 1}^{N - 1} | x_{i} (n) - x_{i} (n + 1) | .

在一种优选的方案中，步骤S3中，对声纹信号进行声纹特征参数提取，具体包括以下步骤：

S3.1：对声纹信号进行快速傅里叶变换获取能量频谱；

S3.2：将能量频谱能量乘以一组N个三角带通滤波器，求得每一个滤波器输出的对数能量(Log Energy)E_k，所述的N个三角带通滤波器在梅尔频率(MelFrequency)上是平均分布的，梅尔频率mel(f)和一般频率f的关系式为：

mel(f)＝2595*log10(1+f/700)；

S3.3：将得到的N个对数能量E_k带入离散余弦转换(DCT)，求出L阶的Mel-scale Cepstrum参数，得到L个倒频谱参数，离散余弦转换公式如下：

C_m＝Ncos[m*(k-0.5)*p/N]*E_k，m＝1,2,...,L；

S3.4：提取声纹信号一个帧的对数能量，一个帧的对数能量定义为一个帧内讯号的平方和，再取以10为底的对数值，再乘以10；

S3.5：提取声纹信号的差量倒频谱参数，差量倒频谱参数表示倒频谱参数相对于时间的斜率，公式如下：

{&dtri; C}_{m} (t) = \frac{Σ_{τ = - M}^{M} τ \cdot C_{m} (t + τ)}{Σ_{τ = - M}^{M} τ^{2}} = \frac{Σ_{τ = 1}^{M} τ \cdot C_{m} (t + τ) - C_{m} (t - τ))}{2 \cdot Σ_{τ = 1}^{M} τ^{2}}, m = 1,2, . . . L

这里M的值取2或3，t代表音框的数目，C_m(t)指第t框的倒频谱参数。

在一种优选的方案中，步骤S4中，生成分组特征参数的方法具体包括以下步骤：

S4.1：分组集合的生成，包括：

(1)将每个签到人的声纹信号特征参数矩阵M_K(P,J)按列求平均值，得到一维向量，表示为V_K(J)，其中K为签到人编号，P为声纹信号特征参数的值，J为声纹特征参数的阶数；

(2)设X＝{V₁(J)，V₂(J)，...，V_n(J)}，其中n为签到人的个数，对矩阵X使用K均值聚类算法进行m次聚类，设V_K(J)在第i次聚类时，被分在第G_K(i)组，设G_K＝{G_K(1)，G_K(2)，...，G_K(m)}，其中m为聚类次数，K为签到人编码；

(3)设G_K均值为GM_K，方差为GD_K，F_K＝GM_K*GD_K，对F使用K均值进行聚类，得出分组集合GN_ij；

S4.2：分组集合的训练，使用分组统计分析算法生成分组模型，依次对每个签到人的样本参数用DTW算法匹配其与分组模型的中心距离，距离最小者为目标分组，然后检验目标分组是否包含输入特征参数所表示的词语，若包含则表示分类正确，若不包含则将该词加入目标分组；

S4.3：分组特征参数的生成，包括签到者分组特征参数的生成以及分组模型的分组特征参数的生成；

签到者声纹分组特征参数的生成：设签到者的声纹S_k的特征参数矩阵为：S_k(P，J)。对S_k(P，J)按列求平均值，得到一维向量，可表示为SV_k(J)，即为S_k的分组特征参数；

分组模型的分组特征参数的生成：设分组模型i的分组特征参数为GF_i，结合S4.1中生成的V_K(J)和GN_ij则：

{GF}_{i} = (V_{{GN}_{i, 1}} (J) + V_{{GN}_{i, 2}} (J) + . . . + V_{{GN}_{i, n}} (J)) / n .

在一种优选的方案中，步骤S5中，判断签到者是否为某个分组的成员的具体方法为：采用DTW算法计算分组模型的每个分组的分组特征参数与签到者声纹分组特征参数的欧式距离，选择距离最近的分组特征参数所在的分组作为签到者的分组判定结果，即签到者属于该分组。

在一种优选的方案中，步骤S6中，对签到者的具体身份进行判定的方法为：

S6.1：签到者的音色、音调特征参数的生成与训练，音色特征参数引用HMM模型的输出概率矩阵表示，音调特征参数引用HMM模型的状态转移概率矩阵；通过Baum-Welch(向前向后算法)算法对音色、音调特征参数进行训练；

S6.2：签到者的声纹判定，使用Viterbi算法计算签到者声纹对应的输出概率，将输出概率最大者判定为匹配结果。

一种基于分组统计的HMM声纹识别签到系统，所述系统包括签到客户端和签到服务器端，客户端和服务器端通过网络连接；

签到客户端包括：

声纹采集模块：用于采集签到者的声纹信号并输出到预处理模块；

预处理模块：包括顺次连接的预加重单元、分帧处理单元、窗化处理单元和端点检测单元，用于依次对声纹信号进行预加重、分帧、加窗和端点检测，然后将声纹信号通过网络传输到服务器端；

签到服务器端包括：

网络服务模块：用于通过网络与签到客户端进行通信；

声纹特征提取模块：用于对声纹信号提取声纹特征参数；

分组统计分析模块：用于用于根据预先生成的分组模型中每个分组的分组特征参数与签到者语音的声纹特征参数，判断签到者是否为某个分组的成员；

声纹识别模块：对签到者的声纹进行判定。

在一种优选的方案中，所述签到服务器端还包括数据持久化模块和数据库，数据持久化模块用于将签到者声纹识别结果持久化到数据库中。

在一种优选的方案中，所述签到服务器端还包括控制与反馈模块，所述签到客户端模块还包括显示面板模块，所述控制与反馈模块用于将签到者声纹识别的结果反馈给显示面板模块，显示面板模块用于显示签到者声纹识别的结果。

在一种优选的方案中，所述签到客户端采用android移动终端。

与现有技术相比，本发明技术方案的有益效果是：本发明基于分组统计的HMM声纹识别签到方法，首先签到客户端采集签到者的声纹信号，对声纹信号依次进行预加重、分帧、加窗和端点检测的预处理并通过网络传输至服务器，然后签到服务器端对声纹信号进行声纹特征参数提取，生成签到者分组特征参数以及生成分组模型的分组特征参数；根据分组模型的每个分组的分组特征参数与签到者声纹的分组特征参数，判断签到者是否为某个分组的成员；最后对签到者的声纹进行判定。本发明能在签到人数量较大的情况下，实现实时，高效的声纹识别签到，签到者无需到公用设备排队签到，从而减少公用设备的投入，既方便又高效；

本发明基于分组统计的HMM声纹识别签到系统，通过签到客户端采集到的声音信号并进行预处理，使得减少网络传输的数据量，而声纹特征提取及声纹识别模块放在服务端可降低对签到客户端的硬件要求，签到者可以把客户端装到自己的手机中，更好的节省了系统的硬件成本。本发明系统和方法的结合实现了高识别效率、高实时性的声纹识别签到。

附图说明

图1为本发明的方法流程图

图2为平滑分组算法示意图。

图3为分组判断示意图。

图4为音调、音色特征参数训练过程图。

图5为本发明的系统示意图。

图6为网络服务模块示意图。

1、声纹采集模块；2、预处理模块；21、预加重单元；22、分针处理单元；23、窗花处理单元；24、端点检测单元；3、网络；4、网络服务模块；5、声纹特征提取模块；6、分组统计分析模块；7、声纹识别模块；8、数据持久化模块；9、控制与反馈模块；10、显示面板模块。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于分组统计的HMM声纹识别签到方法，通过签到客户端采集声纹信号，并通过网络传输至签到服务器进行签到，所述方法包括以下步骤：

S1：采集签到者的声纹信号；

S3：对声纹信号进行声纹特征参数提取；

S6：对签到者的声纹进行判定。

在具体实施过程中，步骤S2中，对声纹信号进行预处理具体包括以下步骤：

S2.1：预加重，在预加重过程中，声纹信号通过滤波器搬移到合适的频段，

传递函数为：H(z)＝1-0.9375z^-1，

得到的信号为：

\tilde{S} (n) = S (n) - 0.9375 S (n - 1);

S2.2：分帧，声纹信号是瞬时变化的，但在10～20ms内是相对稳定的，所以以10～20ms为间隔将声纹信号分为若干帧，一帧为一个基本单位。

S2.3：加窗，为了避免矩形窗化时对LPC系数在端点的误差，采用了汉明窗函数来进行窗化，即：0≤n≤N-1

其中：

w (n) = 0.54 - 0.46 (\frac{2 πn}{N - 1}),

0≤n≤N-1

S2.4：端点检测，端点检测目的是检测有无声纹信号的存在，即从包含声纹的一段信号中确定出声纹的起点和终止点。有效的端点检测不仅能使处理时间减到最小，而且能排除无声段的噪声干扰，从而使识别系统具有良好的识别性能，常用方法是通过两个系数：信号的短时过零率和短时能量，来检测端点的，两个系数的公式如下：

短时能量：

e (i) = Σ_{n = 1}^{N} | x_{i} (n) |,

短时过零率：

ZCR (i) = Σ_{n = 1}^{N - 1} | x_{i} (n) - x_{i} (n + 1) | .

在具体实施过程中，步骤S3中，对声纹信号进行声纹特征参数提取，本实施例提取声纹信号的MFCC(梅尔频率倒谱系数)特征参数，具体包括以下步骤：

S3.1：对声纹信号进行快速傅里叶变换获取能量频谱；

S3.2：将能量频谱乘以一组N个三角带通滤波器，求得每一个滤波器输出的对数能量(Log Energy)Ek，所述的N个三角带通滤波器在梅尔频率(MelFrequency)上是平均分布的，梅尔频率mel(f)和一般频率f的关系式为：

mel(f)＝2595*log10(1+f/700)；

S3.3：将上述的N个对数能量Ek带入离散余弦转换(Discrete cosine transform,DCT)，求出L阶的Mel-scale Cepstrum参数，得到L个倒频谱参数，L的取值为12，离散余弦转换公式如下：

Cm＝Sk＝1Ncos[m*(k-0.5)*p/N]*Ek,m＝1,2,...,L

其中Ek是由前一个步骤计算出来的三角带通滤波器和能量频谱的内积值，这里N是三角带通滤波器的个数；

S3.4：提取声纹信号一个帧对数能量，一个帧的对数能量定义为一个帧内讯号的平方和，再取以10为底的对数值，再乘以10，一个帧的能量也是声纹的重要特征，因此再加上一个音框的对数能量，使得每一个帧基本的声纹特征就有13维，包含了1个对数能量和12个倒频谱参数；

S3.5：提取声纹信号的差量倒频谱参数(Delta cepstrum)，虽然已经求出13个特征参数，然而在实际应用于声纹辨识时，再加上差量倒频谱参数，以显示倒频谱参数对时间的变化，它的意义为倒频谱参数相对于时间的斜率，也就是代表倒频谱参数在时间上的动态变化，公式如下：

{&dtri; C}_{m} (t) = \frac{Σ_{τ = - M}^{M} τ \cdot C_{m} (t + τ)}{Σ_{τ = - M}^{M} τ^{2}} = \frac{Σ_{τ = 1}^{M} τ \cdot C_{m} (t + τ) - C_{m} (t - τ))}{2 \cdot Σ_{τ = 1}^{M} τ^{2}}, m = 1,2, . . . L

在具体实施过程中，步骤S4中，分组模型的生成方法具体包括以下步骤：

S4.1：分组集合的生成，包括：

S4.2：分组集合的训练，为了进一步提高签到人分组正确率，本文采用平滑分组的算法，图2为平滑分组算法示意图；

使用分组统计分析算法生成分组模型，依次对每个签到人的样本参数用DTW(动态时间归整)算法匹配其与分组模型的中心距离，距离最小者为目标分组，然后检验目标分组是否包含输入特征参数所表示的词语，若包含则表示分类正确，若不包含则将该词加入目标分组。这样一来，一个签到人可能属于多个分组，而不是截断与其他分组的关系，从而达到平滑签到人分组的目的。

设聚类分组数为K，签到人个数为N，第k个分组签到人初始数量为S_k,k＝(1,2,...,K)，则在进行初次分组后有定义聚类交叉分组系数的表达式由下式给出，

已知在进行初次聚类后有必须提出的一个问题是，在采用平滑分组算法对分组集合进行调整后，是否会趋于或等于K×N，即是否趋近于1，若趋近于1则说明聚类算法退化，产生假分组现象。

因为使用分组统计分析算法生成分组模型，初始的分组正确率较高，需要平滑分组的签到人较少，不存在假分组情况。同时，闭集辨认签到人的情况下，分组正确率达到了100％。

{GF}_{i} = (V_{{GN}_{i, 1}} (J) + V_{{GN}_{i, 2}} (J) + . . . + V_{{GN}_{i, n}} (J)) / n .

在具体实施过程中，如图3所示，步骤S5中，判断签到者是否为某个分组的成员的具体方法为：采用DTW算法计算分组模型的每个分组的分组特征参数与签到者声纹的分组特征参数的欧式距离，选择距离最近的分组特征参数所在的分组作为签到者的分组判定结果，即签到者属于该分组。

在具体实施过程中，步骤S6中，对签到者的具体身份进行判定的方法为：

S6.1：签到者的音色、音调特征参数的生成与训练，音色特征参数引用HMM模型的输出概率矩阵表示，音调特征参数引用HMM模型的状态转移概率矩阵；通过Baum-Welch(向前向后算法)算法对音色、音调特征参数进行训练，其流程图如图4所示；

一种基于分组统计的HMM声纹识别签到系统，如图5所示，所述系统包括签到客户端和签到服务器端，客户端和服务器端通过网络连接；

签到客户端包括：

声纹采集模块1：用于采集签到者的声纹信号并输出到预处理模块；

预处理模块2：包括顺次连接的预加重单元21、分帧处理单元22、窗化处理单元23和端点检测单元24，用于依次对声纹信号进行预加重、分帧、加窗和端点检测，然后将声纹信号通过网络3传输到服务器端；

签到服务器端包括：

网络服务模块4：用于通过网络3与签到客户端进行通信，如图6所示，网络服务模块通过新建线程接收用户的签到请求；

声纹特征提取模块5：用于对声纹信号提取声纹特征参数；

分组统计分析模块6：用于用于根据预先生成的分组模型中每个分组的分组特征参数与签到者语音的声纹特征参数，判断签到者是否为某个分组的成员；

声纹识别模块7：对签到者的声纹进行判定。

在具体实施过程中，所述签到服务器端还包括数据持久化模块8和数据库，数据持久化模块9用于将签到者声纹识别结果持久化到数据库中。

在具体实施过程中，所述签到服务器端还包括控制与反馈模块9，所述签到客户端模块还包括显示面板模块10，所述控制与反馈模块9用于将签到者声纹识别的结果反馈给显示面板模块，显示面板模块用于显示签到者声纹识别的结果。

在具体实施过程中，所述签到客户端采用android移动终端。

本发明基于分组统计的HMM声纹识别签到方法，首先签到客户端采集签到者的声纹信号，对声纹信号依次进行预加重、分帧、加窗和端点检测的预处理并通过网络传输至服务器，然后签到服务器端对声纹信号进行声纹特征参数提取，生成签到者分组特征参数以及生成分组模型的分组特征参数；根据分组模型的每个分组的分组特征参数与签到者声纹的分组特征参数，判断签到者是否为某个分组的成员；最后对签到者的声纹进行判定。本发明能在签到人数量较大的情况下，实现实时，高效的声纹识别签到，签到者无需到公用设备排队签到，从而减少公用设备的投入，既方便又高效；

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于分组统计的HMM声纹识别签到方法，其特征在于，通过签到客户端采集声纹信号，并通过网络传输至签到服务器进行签到，所述方法包括以下步骤：

S1：采集签到者的声纹信号；

S3：对声纹信号进行声纹特征参数提取；

S6：对签到者的声纹进行判定。

2.根据权利要求1所述的基于分组统计的HMM声纹识别签到方法，其特征在于，步骤S2中，对声纹信号进行预处理具体包括以下步骤：

S2.1：预加重，在预加重过程中，

传递函数为：H(z)＝1-0.9375z^-1，

得到的信号为：

\tilde{S} (n) = S (n) - 0.9375 S (n - 1);

短时能量：

e (i) = Σ_{n = 1}^{N} | x_{i} (n) |,

短时过零率：

ZCR (i) = Σ_{n = 1}^{N - 1} | x_{i} (n) - x_{i} (n + 1) | .

3.根据权利要求1所述的基于分组统计的HMM声纹识别签到方法，其特征在于，步骤S3中，对声纹信号进行声纹特征参数提取，具体包括以下步骤：

S3.1：对声纹信号进行快速傅里叶变换获取能量频谱；

S3.2：将能量频谱乘以一组N个三角带通滤波器，求得每一个滤波器输出的对数能量(Log Energy)E_k，所述的N个三角带通滤波器在梅尔频率(MelFrequency)上是平均分布的，梅尔频率mel(f)和一般频率f的关系式为：

mel(f)＝2595*log10(1+f/700)；

C_m＝Ncos[m*(k-0.5)*p/N]*E_k，m＝1,2,...,L；

&dtri; C_{m} (t) = \frac{Σ_{τ = - M}^{M} τ \cdot C_{m} (t + τ)}{Σ_{τ = - M}^{M} τ^{2}} = \frac{Σ_{τ = 1}^{M} τ \cdot C_{m} (t + τ) - C_{m} (t - τ)}{2 \cdot Σ_{τ = 1}^{M} τ^{2}}, m = 1,2, \cdot \cdot \cdot L

4.根据权利要求1所述的基于分组统计的HMM声纹识别签到方法，其特征在于，步骤S4中，生成分组特征参数的方法具体包括以下步骤：

S4.1：分组集合的生成，包括：

{GF}_{i} = (V_{{GN}_{i, 1}} (J) + V_{G N_{i, 2}} (J) + . . . + V_{G N_{i, n}} (J)) / n .

5.根据权利要求1所述的基于分组统计的HMM声纹识别签到方法，其特征在于，步骤S5中，判断签到者是否为某个分组的成员的具体方法为：采用DTW算法计算分组模型的每个分组的分组特征参数与签到者声纹分组特征参数的欧式距离，选择距离最近的分组特征参数所在的分组作为签到者的分组判定结果，即签到者属于该分组。

6.根据权利要求1所述的基于分组统计的HMM声纹识别签到方法，其特征在于，步骤S6中，对签到者的具体身份进行判定的方法为：

7.一种基于分组统计的HMM声纹识别签到系统，其特征在于，所述系统包括签到客户端和签到服务器端，客户端和服务器端通过网络连接；

签到客户端包括：

签到服务器端包括：

网络服务模块：用于通过网络与签到客户端进行通信；

声纹特征提取模块：用于对声纹信号提取声纹特征参数；

声纹识别模块：对签到者的声纹进行判定。

8.根据权利要求7所述的基于分组统计的HMM声纹识别签到系统，其特征在于，所述签到服务器端还包括数据持久化模块和数据库，数据持久化模块用于将签到者声纹识别结果持久化到数据库中。

9.根据权利要求7所述的基于分组统计的HMM声纹识别签到系统，其特征在于，所述签到服务器端还包括控制与反馈模块，所述签到客户端模块还包括显示面板模块，所述控制与反馈模块用于将签到者声纹识别的结果反馈给显示面板模块，显示面板模块用于显示签到者声纹识别的结果。

10.根据权利要求7所述的基于分组统计的HMM声纹识别签到系统，其特征在于，所述签到客户端采用android移动终端。