CN104732972A - 一种基于分组统计的hmm声纹识别签到方法及系统 - Google Patents

一种基于分组统计的hmm声纹识别签到方法及系统 Download PDF

Info

Publication number
CN104732972A
CN104732972A CN201510109362.9A CN201510109362A CN104732972A CN 104732972 A CN104732972 A CN 104732972A CN 201510109362 A CN201510109362 A CN 201510109362A CN 104732972 A CN104732972 A CN 104732972A
Authority
CN
China
Prior art keywords
registering
grouping
vocal print
person
feature parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510109362.9A
Other languages
English (en)
Other versions
CN104732972B (zh
Inventor
张晶
姚敏锋
王金矿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Foreign Studies
Original Assignee
Guangdong University of Foreign Studies
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Foreign Studies filed Critical Guangdong University of Foreign Studies
Priority to CN201510109362.9A priority Critical patent/CN104732972B/zh
Publication of CN104732972A publication Critical patent/CN104732972A/zh
Application granted granted Critical
Publication of CN104732972B publication Critical patent/CN104732972B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Collating Specific Patterns (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于分组统计的HMM声纹识别签到方法及系统,首先签到客户端采集签到者的声纹信号,对声纹信号依次进行预加重、分帧、加窗和端点检测的预处理并通过网络传输至服务器,然后签到服务器端对声纹信号进行声纹特征参数提取,生成签到者分组特征参数以及生成分组模型的分组特征参数;根据分组模型的每个分组的分组特征参数与签到者声纹的分组特征参数,判断签到者是否为某个分组的成员;最后对签到者的声纹进行判定。本发明能在签到人数量较大的情况下,实现实时、高效的声纹识别签到,减少公用设备的投入,既方便又高效,本发明系统和方法的结合实现了高识别效率、高实时性的声纹识别签到。

Description

一种基于分组统计的HMM声纹识别签到方法及系统
技术领域
本发明涉及声纹识别技术领域,更具体地,涉及一种基于分组统计的HMM声纹识别签到方法及系统。
背景技术
在嵌入式操作系统中实现声纹识别签到,通常需要对输入的声纹进行预处理,将数据传输到服务器,进而生成声纹模型,模式匹配,最后输出并记录结果。其中,声纹模型引用了隐马尔可夫模型(HMM)的两个参数(B,π),该模型的训练采用了Baum_Welch算法。一般可以用λ=(A,B,π)三元组来简洁的表示一个隐马尔可夫模型。隐马尔可夫模型实际上是标准马尔可夫模型的扩展,添加了可观测状态集合和这些状态与隐含状态之间的概率关系。模式匹配通常采取Viterbi算法进行模式匹配。张卫清的《语音识别算法的研究》提供了详细的Viterbi算法及隐马尔科夫模型的描述。传统模式匹配算法,需要对所有模板进行匹配,当模板数量增加时,匹配过程所消耗的时间而随之增加,也即当要识别的声纹数量较大时,识别效率和实时性较差,进而导致签到效率低下。
发明内容
本发明旨在至少在一定程度上解决上述技术问题。
本发明的首要目的是克服上述现有技术所述的识别效率和实时性较差缺陷,提供一种识别效率和实时性高的基于分组统计的HMM声纹识别签到方法。
本发明的进一步目的是提供一种识别效率和实时性高的基于分组统计的HMM声纹识别签到系统。
为解决上述技术问题,本发明的技术方案如下:
一种基于分组统计的HMM声纹识别签到方法,通过签到客户端采集声纹信号,并通过网络传输至签到服务器进行签到,所述方法包括以下步骤:
S1:采集签到者的声纹信号;
S2:对声纹信号进行预处理,其预处理过程依次包括预加重、分帧、加窗和端点检测,将预处理后的声纹信号通过网络传输至服务器;
S3:对声纹信号进行声纹特征参数提取;
S4:生成分组特征参数,包括生成签到者分组特征参数以及生成分组模型的分组特征参数;
S5:根据分组模型的每个分组的分组特征参数与签到者声纹的分组特征参数,判断签到者是否为某个分组的成员;
S6:对签到者的声纹进行判定。
在一种优选的方案中,步骤S2中,对声纹信号进行预处理具体包括以下步骤:
S2.1:预加重,在预加重过程中,
传递函数为:H(z)=1-0.9375z-1
得到的信号为: S ~ ( n ) = S ( n ) - 0.9375 S ( n - 1 ) ;
S2.2:分帧,以10~20ms为间隔将声纹信号分为若干帧,一帧为一个基本单位;
S2.3:加窗,采用了汉明窗函数来进行窗化,即:0≤n≤N-1,其中:0≤n≤N-1;
S2.4:端点检测,通过信号的短时过零率和短时能量两个系数来检测声纹信号的端点的,两个系数的公式如下:
短时能量: e ( i ) = Σ n = 1 N | x i ( n ) | ,
短时过零率: ZCR ( i ) = Σ n = 1 N - 1 | x i ( n ) - x i ( n + 1 ) | .
在一种优选的方案中,步骤S3中,对声纹信号进行声纹特征参数提取,具体包括以下步骤:
S3.1:对声纹信号进行快速傅里叶变换获取能量频谱;
S3.2:将能量频谱能量乘以一组N个三角带通滤波器,求得每一个滤波器输出的对数能量(Log Energy)Ek,所述的N个三角带通滤波器在梅尔频率(MelFrequency)上是平均分布的,梅尔频率mel(f)和一般频率f的关系式为:
mel(f)=2595*log10(1+f/700);
S3.3:将得到的N个对数能量Ek带入离散余弦转换(DCT),求出L阶的Mel-scale Cepstrum参数,得到L个倒频谱参数,离散余弦转换公式如下:
Cm=Ncos[m*(k-0.5)*p/N]*Ek,m=1,2,...,L;
S3.4:提取声纹信号一个帧的对数能量,一个帧的对数能量定义为一个帧内讯号的平方和,再取以10为底的对数值,再乘以10;
S3.5:提取声纹信号的差量倒频谱参数,差量倒频谱参数表示倒频谱参数相对于时间的斜率,公式如下:
▿ C m ( t ) = Σ τ = - M M τ · C m ( t + τ ) Σ τ = - M M τ 2 = Σ τ = 1 M τ · C m ( t + τ ) - C m ( t - τ ) ) 2 · Σ τ = 1 M τ 2 , m = 1,2 , . . . L
这里M的值取2或3,t代表音框的数目,Cm(t)指第t框的倒频谱参数。
在一种优选的方案中,步骤S4中,生成分组特征参数的方法具体包括以下步骤:
S4.1:分组集合的生成,包括:
(1)将每个签到人的声纹信号特征参数矩阵MK(P,J)按列求平均值,得到一维向量,表示为VK(J),其中K为签到人编号,P为声纹信号特征参数的值,J为声纹特征参数的阶数;
(2)设X={V1(J),V2(J),...,Vn(J)},其中n为签到人的个数,对矩阵X使用K均值聚类算法进行m次聚类,设VK(J)在第i次聚类时,被分在第GK(i)组,设GK={GK(1),GK(2),...,GK(m)},其中m为聚类次数,K为签到人编码;
(3)设GK均值为GMK,方差为GDK,FK=GMK*GDK,对F使用K均值进行聚类,得出分组集合GNij
S4.2:分组集合的训练,使用分组统计分析算法生成分组模型,依次对每个签到人的样本参数用DTW算法匹配其与分组模型的中心距离,距离最小者为目标分组,然后检验目标分组是否包含输入特征参数所表示的词语,若包含则表示分类正确,若不包含则将该词加入目标分组;
S4.3:分组特征参数的生成,包括签到者分组特征参数的生成以及分组模型的分组特征参数的生成;
签到者声纹分组特征参数的生成:设签到者的声纹Sk的特征参数矩阵为:Sk(P,J)。对Sk(P,J)按列求平均值,得到一维向量,可表示为SVk(J),即为Sk的分组特征参数;
分组模型的分组特征参数的生成:设分组模型i的分组特征参数为GFi,结合S4.1中生成的VK(J)和GNij则:
GF i = ( V GN i , 1 ( J ) + V GN i , 2 ( J ) + . . . + V GN i , n ( J ) ) / n .
在一种优选的方案中,步骤S5中,判断签到者是否为某个分组的成员的具体方法为:采用DTW算法计算分组模型的每个分组的分组特征参数与签到者声纹分组特征参数的欧式距离,选择距离最近的分组特征参数所在的分组作为签到者的分组判定结果,即签到者属于该分组。
在一种优选的方案中,步骤S6中,对签到者的具体身份进行判定的方法为:
S6.1:签到者的音色、音调特征参数的生成与训练,音色特征参数引用HMM模型的输出概率矩阵表示,音调特征参数引用HMM模型的状态转移概率矩阵;通过Baum-Welch(向前向后算法)算法对音色、音调特征参数进行训练;
S6.2:签到者的声纹判定,使用Viterbi算法计算签到者声纹对应的输出概率,将输出概率最大者判定为匹配结果。
一种基于分组统计的HMM声纹识别签到系统,所述系统包括签到客户端和签到服务器端,客户端和服务器端通过网络连接;
签到客户端包括:
声纹采集模块:用于采集签到者的声纹信号并输出到预处理模块;
预处理模块:包括顺次连接的预加重单元、分帧处理单元、窗化处理单元和端点检测单元,用于依次对声纹信号进行预加重、分帧、加窗和端点检测,然后将声纹信号通过网络传输到服务器端;
签到服务器端包括:
网络服务模块:用于通过网络与签到客户端进行通信;
声纹特征提取模块:用于对声纹信号提取声纹特征参数;
分组统计分析模块:用于用于根据预先生成的分组模型中每个分组的分组特征参数与签到者语音的声纹特征参数,判断签到者是否为某个分组的成员;
声纹识别模块:对签到者的声纹进行判定。
在一种优选的方案中,所述签到服务器端还包括数据持久化模块和数据库,数据持久化模块用于将签到者声纹识别结果持久化到数据库中。
在一种优选的方案中,所述签到服务器端还包括控制与反馈模块,所述签到客户端模块还包括显示面板模块,所述控制与反馈模块用于将签到者声纹识别的结果反馈给显示面板模块,显示面板模块用于显示签到者声纹识别的结果。
在一种优选的方案中,所述签到客户端采用android移动终端。
与现有技术相比,本发明技术方案的有益效果是:本发明基于分组统计的HMM声纹识别签到方法,首先签到客户端采集签到者的声纹信号,对声纹信号依次进行预加重、分帧、加窗和端点检测的预处理并通过网络传输至服务器,然后签到服务器端对声纹信号进行声纹特征参数提取,生成签到者分组特征参数以及生成分组模型的分组特征参数;根据分组模型的每个分组的分组特征参数与签到者声纹的分组特征参数,判断签到者是否为某个分组的成员;最后对签到者的声纹进行判定。本发明能在签到人数量较大的情况下,实现实时,高效的声纹识别签到,签到者无需到公用设备排队签到,从而减少公用设备的投入,既方便又高效;
本发明基于分组统计的HMM声纹识别签到系统,通过签到客户端采集到的声音信号并进行预处理,使得减少网络传输的数据量,而声纹特征提取及声纹识别模块放在服务端可降低对签到客户端的硬件要求,签到者可以把客户端装到自己的手机中,更好的节省了系统的硬件成本。本发明系统和方法的结合实现了高识别效率、高实时性的声纹识别签到。
附图说明
图1为本发明的方法流程图
图2为平滑分组算法示意图。
图3为分组判断示意图。
图4为音调、音色特征参数训练过程图。
图5为本发明的系统示意图。
图6为网络服务模块示意图。
1、声纹采集模块;2、预处理模块;21、预加重单元;22、分针处理单元;23、窗花处理单元;24、端点检测单元;3、网络;4、网络服务模块;5、声纹特征提取模块;6、分组统计分析模块;7、声纹识别模块;8、数据持久化模块;9、控制与反馈模块;10、显示面板模块。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于分组统计的HMM声纹识别签到方法,通过签到客户端采集声纹信号,并通过网络传输至签到服务器进行签到,所述方法包括以下步骤:
S1:采集签到者的声纹信号;
S2:对声纹信号进行预处理,其预处理过程依次包括预加重、分帧、加窗和端点检测,将预处理后的声纹信号通过网络传输至服务器;
S3:对声纹信号进行声纹特征参数提取;
S4:生成分组特征参数,包括生成签到者分组特征参数以及生成分组模型的分组特征参数;
S5:根据分组模型的每个分组的分组特征参数与签到者声纹的分组特征参数,判断签到者是否为某个分组的成员;
S6:对签到者的声纹进行判定。
在具体实施过程中,步骤S2中,对声纹信号进行预处理具体包括以下步骤:
S2.1:预加重,在预加重过程中,声纹信号通过滤波器搬移到合适的频段,
传递函数为:H(z)=1-0.9375z-1
得到的信号为: S ~ ( n ) = S ( n ) - 0.9375 S ( n - 1 ) ;
S2.2:分帧,声纹信号是瞬时变化的,但在10~20ms内是相对稳定的,所以以10~20ms为间隔将声纹信号分为若干帧,一帧为一个基本单位。
S2.3:加窗,为了避免矩形窗化时对LPC系数在端点的误差,采用了汉明窗函数来进行窗化,即:0≤n≤N-1
其中: w ( n ) = 0.54 - 0.46 ( 2 πn N - 1 ) , 0≤n≤N-1
S2.4:端点检测,端点检测目的是检测有无声纹信号的存在,即从包含声纹的一段信号中确定出声纹的起点和终止点。有效的端点检测不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的识别性能,常用方法是通过两个系数:信号的短时过零率和短时能量,来检测端点的,两个系数的公式如下:
短时能量: e ( i ) = Σ n = 1 N | x i ( n ) | ,
短时过零率: ZCR ( i ) = Σ n = 1 N - 1 | x i ( n ) - x i ( n + 1 ) | .
在具体实施过程中,步骤S3中,对声纹信号进行声纹特征参数提取,本实施例提取声纹信号的MFCC(梅尔频率倒谱系数)特征参数,具体包括以下步骤:
S3.1:对声纹信号进行快速傅里叶变换获取能量频谱;
S3.2:将能量频谱乘以一组N个三角带通滤波器,求得每一个滤波器输出的对数能量(Log Energy)Ek,所述的N个三角带通滤波器在梅尔频率(MelFrequency)上是平均分布的,梅尔频率mel(f)和一般频率f的关系式为:
mel(f)=2595*log10(1+f/700);
S3.3:将上述的N个对数能量Ek带入离散余弦转换(Discrete cosine transform,DCT),求出L阶的Mel-scale Cepstrum参数,得到L个倒频谱参数,L的取值为12,离散余弦转换公式如下:
Cm=Sk=1Ncos[m*(k-0.5)*p/N]*Ek,m=1,2,...,L
其中Ek是由前一个步骤计算出来的三角带通滤波器和能量频谱的内积值,这里N是三角带通滤波器的个数;
S3.4:提取声纹信号一个帧对数能量,一个帧的对数能量定义为一个帧内讯号的平方和,再取以10为底的对数值,再乘以10,一个帧的能量也是声纹的重要特征,因此再加上一个音框的对数能量,使得每一个帧基本的声纹特征就有13维,包含了1个对数能量和12个倒频谱参数;
S3.5:提取声纹信号的差量倒频谱参数(Delta cepstrum),虽然已经求出13个特征参数,然而在实际应用于声纹辨识时,再加上差量倒频谱参数,以显示倒频谱参数对时间的变化,它的意义为倒频谱参数相对于时间的斜率,也就是代表倒频谱参数在时间上的动态变化,公式如下:
▿ C m ( t ) = Σ τ = - M M τ · C m ( t + τ ) Σ τ = - M M τ 2 = Σ τ = 1 M τ · C m ( t + τ ) - C m ( t - τ ) ) 2 · Σ τ = 1 M τ 2 , m = 1,2 , . . . L
这里M的值取2或3,t代表音框的数目,Cm(t)指第t框的倒频谱参数。
在具体实施过程中,步骤S4中,分组模型的生成方法具体包括以下步骤:
S4.1:分组集合的生成,包括:
(1)将每个签到人的声纹信号特征参数矩阵MK(P,J)按列求平均值,得到一维向量,表示为VK(J),其中K为签到人编号,P为声纹信号特征参数的值,J为声纹特征参数的阶数;
(2)设X={V1(J),V2(J),...,Vn(J)},其中n为签到人的个数,对矩阵X使用K均值聚类算法进行m次聚类,设VK(J)在第i次聚类时,被分在第GK(i)组,设GK={GK(1),GK(2),...,GK(m)},其中m为聚类次数,K为签到人编码;
(3)设GK均值为GMK,方差为GDK,FK=GMK*GDK,对F使用K均值进行聚类,得出分组集合GNij
S4.2:分组集合的训练,为了进一步提高签到人分组正确率,本文采用平滑分组的算法,图2为平滑分组算法示意图;
使用分组统计分析算法生成分组模型,依次对每个签到人的样本参数用DTW(动态时间归整)算法匹配其与分组模型的中心距离,距离最小者为目标分组,然后检验目标分组是否包含输入特征参数所表示的词语,若包含则表示分类正确,若不包含则将该词加入目标分组。这样一来,一个签到人可能属于多个分组,而不是截断与其他分组的关系,从而达到平滑签到人分组的目的。
设聚类分组数为K,签到人个数为N,第k个分组签到人初始数量为Sk,k=(1,2,...,K),则在进行初次分组后有定义聚类交叉分组系数 的表达式由下式给出,
已知在进行初次聚类后有必须提出的一个问题是,在采用平滑分组算法对分组集合进行调整后,是否会趋于或等于K×N,即是否趋近于1,若趋近于1则说明聚类算法退化,产生假分组现象。
因为使用分组统计分析算法生成分组模型,初始的分组正确率较高,需要平滑分组的签到人较少,不存在假分组情况。同时,闭集辨认签到人的情况下,分组正确率达到了100%。
S4.3:分组特征参数的生成,包括签到者分组特征参数的生成以及分组模型的分组特征参数的生成;
签到者声纹分组特征参数的生成:设签到者的声纹Sk的特征参数矩阵为:Sk(P,J)。对Sk(P,J)按列求平均值,得到一维向量,可表示为SVk(J),即为Sk的分组特征参数;
分组模型的分组特征参数的生成:设分组模型i的分组特征参数为GFi,结合S4.1中生成的VK(J)和GNij则:
GF i = ( V GN i , 1 ( J ) + V GN i , 2 ( J ) + . . . + V GN i , n ( J ) ) / n .
在具体实施过程中,如图3所示,步骤S5中,判断签到者是否为某个分组的成员的具体方法为:采用DTW算法计算分组模型的每个分组的分组特征参数与签到者声纹的分组特征参数的欧式距离,选择距离最近的分组特征参数所在的分组作为签到者的分组判定结果,即签到者属于该分组。
在具体实施过程中,步骤S6中,对签到者的具体身份进行判定的方法为:
S6.1:签到者的音色、音调特征参数的生成与训练,音色特征参数引用HMM模型的输出概率矩阵表示,音调特征参数引用HMM模型的状态转移概率矩阵;通过Baum-Welch(向前向后算法)算法对音色、音调特征参数进行训练,其流程图如图4所示;
S6.2:签到者的声纹判定,使用Viterbi算法计算签到者声纹对应的输出概率,将输出概率最大者判定为匹配结果。
一种基于分组统计的HMM声纹识别签到系统,如图5所示,所述系统包括签到客户端和签到服务器端,客户端和服务器端通过网络连接;
签到客户端包括:
声纹采集模块1:用于采集签到者的声纹信号并输出到预处理模块;
预处理模块2:包括顺次连接的预加重单元21、分帧处理单元22、窗化处理单元23和端点检测单元24,用于依次对声纹信号进行预加重、分帧、加窗和端点检测,然后将声纹信号通过网络3传输到服务器端;
签到服务器端包括:
网络服务模块4:用于通过网络3与签到客户端进行通信,如图6所示,网络服务模块通过新建线程接收用户的签到请求;
声纹特征提取模块5:用于对声纹信号提取声纹特征参数;
分组统计分析模块6:用于用于根据预先生成的分组模型中每个分组的分组特征参数与签到者语音的声纹特征参数,判断签到者是否为某个分组的成员;
声纹识别模块7:对签到者的声纹进行判定。
在具体实施过程中,所述签到服务器端还包括数据持久化模块8和数据库,数据持久化模块9用于将签到者声纹识别结果持久化到数据库中。
在具体实施过程中,所述签到服务器端还包括控制与反馈模块9,所述签到客户端模块还包括显示面板模块10,所述控制与反馈模块9用于将签到者声纹识别的结果反馈给显示面板模块,显示面板模块用于显示签到者声纹识别的结果。
在具体实施过程中,所述签到客户端采用android移动终端。
本发明基于分组统计的HMM声纹识别签到方法,首先签到客户端采集签到者的声纹信号,对声纹信号依次进行预加重、分帧、加窗和端点检测的预处理并通过网络传输至服务器,然后签到服务器端对声纹信号进行声纹特征参数提取,生成签到者分组特征参数以及生成分组模型的分组特征参数;根据分组模型的每个分组的分组特征参数与签到者声纹的分组特征参数,判断签到者是否为某个分组的成员;最后对签到者的声纹进行判定。本发明能在签到人数量较大的情况下,实现实时,高效的声纹识别签到,签到者无需到公用设备排队签到,从而减少公用设备的投入,既方便又高效;
本发明基于分组统计的HMM声纹识别签到系统,通过签到客户端采集到的声音信号并进行预处理,使得减少网络传输的数据量,而声纹特征提取及声纹识别模块放在服务端可降低对签到客户端的硬件要求,签到者可以把客户端装到自己的手机中,更好的节省了系统的硬件成本。本发明系统和方法的结合实现了高识别效率、高实时性的声纹识别签到。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于分组统计的HMM声纹识别签到方法,其特征在于,通过签到客户端采集声纹信号,并通过网络传输至签到服务器进行签到,所述方法包括以下步骤:
S1:采集签到者的声纹信号;
S2:对声纹信号进行预处理,其预处理过程依次包括预加重、分帧、加窗和端点检测,将预处理后的声纹信号通过网络传输至服务器;
S3:对声纹信号进行声纹特征参数提取;
S4:生成分组特征参数,包括生成签到者分组特征参数以及生成分组模型的分组特征参数;
S5:根据分组模型的每个分组的分组特征参数与签到者声纹的分组特征参数,判断签到者是否为某个分组的成员;
S6:对签到者的声纹进行判定。
2.根据权利要求1所述的基于分组统计的HMM声纹识别签到方法,其特征在于,步骤S2中,对声纹信号进行预处理具体包括以下步骤:
S2.1:预加重,在预加重过程中,
传递函数为:H(z)=1-0.9375z-1
得到的信号为: S ~ ( n ) = S ( n ) - 0.9375 S ( n - 1 ) ;
S2.2:分帧,以10~20ms为间隔将声纹信号分为若干帧,一帧为一个基本单位;
S2.3:加窗,采用了汉明窗函数来进行窗化,即:0≤n≤N-1,其中:0≤n≤N-1;
S2.4:端点检测,通过信号的短时过零率和短时能量两个系数来检测声纹信号的端点的,两个系数的公式如下:
短时能量: e ( i ) = Σ n = 1 N | x i ( n ) | ,
短时过零率: ZCR ( i ) = Σ n = 1 N - 1 | x i ( n ) - x i ( n + 1 ) | .
3.根据权利要求1所述的基于分组统计的HMM声纹识别签到方法,其特征在于,步骤S3中,对声纹信号进行声纹特征参数提取,具体包括以下步骤:
S3.1:对声纹信号进行快速傅里叶变换获取能量频谱;
S3.2:将能量频谱乘以一组N个三角带通滤波器,求得每一个滤波器输出的对数能量(Log Energy)Ek,所述的N个三角带通滤波器在梅尔频率(MelFrequency)上是平均分布的,梅尔频率mel(f)和一般频率f的关系式为:
mel(f)=2595*log10(1+f/700);
S3.3:将得到的N个对数能量Ek带入离散余弦转换(DCT),求出L阶的Mel-scale Cepstrum参数,得到L个倒频谱参数,离散余弦转换公式如下:
Cm=Ncos[m*(k-0.5)*p/N]*Ek,m=1,2,...,L;
S3.4:提取声纹信号一个帧的对数能量,一个帧的对数能量定义为一个帧内讯号的平方和,再取以10为底的对数值,再乘以10;
S3.5:提取声纹信号的差量倒频谱参数,差量倒频谱参数表示倒频谱参数相对于时间的斜率,公式如下:
▿ C m ( t ) = Σ τ = - M M τ · C m ( t + τ ) Σ τ = - M M τ 2 = Σ τ = 1 M τ · C m ( t + τ ) - C m ( t - τ ) 2 · Σ τ = 1 M τ 2 , m = 1,2 , · · · L
这里M的值取2或3,t代表音框的数目,Cm(t)指第t框的倒频谱参数。
4.根据权利要求1所述的基于分组统计的HMM声纹识别签到方法,其特征在于,步骤S4中,生成分组特征参数的方法具体包括以下步骤:
S4.1:分组集合的生成,包括:
(1)将每个签到人的声纹信号特征参数矩阵MK(P,J)按列求平均值,得到一维向量,表示为VK(J),其中K为签到人编号,P为声纹信号特征参数的值,J为声纹特征参数的阶数;
(2)设X={V1(J),V2(J),...,Vn(J)},其中n为签到人的个数,对矩阵X使用K均值聚类算法进行m次聚类,设VK(J)在第i次聚类时,被分在第GK(i)组,设GK={GK(1),GK(2),...,GK(m)},其中m为聚类次数,K为签到人编码;
(3)设GK均值为GMK,方差为GDK,FK=GMK*GDK,对F使用K均值进行聚类,得出分组集合GNij
S4.2:分组集合的训练,使用分组统计分析算法生成分组模型,依次对每个签到人的样本参数用DTW算法匹配其与分组模型的中心距离,距离最小者为目标分组,然后检验目标分组是否包含输入特征参数所表示的词语,若包含则表示分类正确,若不包含则将该词加入目标分组;
S4.3:分组特征参数的生成,包括签到者分组特征参数的生成以及分组模型的分组特征参数的生成;
签到者声纹分组特征参数的生成:设签到者的声纹Sk的特征参数矩阵为:Sk(P,J)。对Sk(P,J)按列求平均值,得到一维向量,可表示为SVk(J),即为Sk的分组特征参数;
分组模型的分组特征参数的生成:设分组模型i的分组特征参数为GFi,结合S4.1中生成的VK(J)和GNij则:
GF i = ( V GN i , 1 ( J ) + V G N i , 2 ( J ) + . . . + V G N i , n ( J ) ) / n .
5.根据权利要求1所述的基于分组统计的HMM声纹识别签到方法,其特征在于,步骤S5中,判断签到者是否为某个分组的成员的具体方法为:采用DTW算法计算分组模型的每个分组的分组特征参数与签到者声纹分组特征参数的欧式距离,选择距离最近的分组特征参数所在的分组作为签到者的分组判定结果,即签到者属于该分组。
6.根据权利要求1所述的基于分组统计的HMM声纹识别签到方法,其特征在于,步骤S6中,对签到者的具体身份进行判定的方法为:
S6.1:签到者的音色、音调特征参数的生成与训练,音色特征参数引用HMM模型的输出概率矩阵表示,音调特征参数引用HMM模型的状态转移概率矩阵;通过Baum-Welch(向前向后算法)算法对音色、音调特征参数进行训练;
S6.2:签到者的声纹判定,使用Viterbi算法计算签到者声纹对应的输出概率,将输出概率最大者判定为匹配结果。
7.一种基于分组统计的HMM声纹识别签到系统,其特征在于,所述系统包括签到客户端和签到服务器端,客户端和服务器端通过网络连接;
签到客户端包括:
声纹采集模块:用于采集签到者的声纹信号并输出到预处理模块;
预处理模块:包括顺次连接的预加重单元、分帧处理单元、窗化处理单元和端点检测单元,用于依次对声纹信号进行预加重、分帧、加窗和端点检测,然后将声纹信号通过网络传输到服务器端;
签到服务器端包括:
网络服务模块:用于通过网络与签到客户端进行通信;
声纹特征提取模块:用于对声纹信号提取声纹特征参数;
分组统计分析模块:用于用于根据预先生成的分组模型中每个分组的分组特征参数与签到者语音的声纹特征参数,判断签到者是否为某个分组的成员;
声纹识别模块:对签到者的声纹进行判定。
8.根据权利要求7所述的基于分组统计的HMM声纹识别签到系统,其特征在于,所述签到服务器端还包括数据持久化模块和数据库,数据持久化模块用于将签到者声纹识别结果持久化到数据库中。
9.根据权利要求7所述的基于分组统计的HMM声纹识别签到系统,其特征在于,所述签到服务器端还包括控制与反馈模块,所述签到客户端模块还包括显示面板模块,所述控制与反馈模块用于将签到者声纹识别的结果反馈给显示面板模块,显示面板模块用于显示签到者声纹识别的结果。
10.根据权利要求7所述的基于分组统计的HMM声纹识别签到系统,其特征在于,所述签到客户端采用android移动终端。
CN201510109362.9A 2015-03-12 2015-03-12 一种基于分组统计的hmm声纹识别签到方法及系统 Expired - Fee Related CN104732972B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510109362.9A CN104732972B (zh) 2015-03-12 2015-03-12 一种基于分组统计的hmm声纹识别签到方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510109362.9A CN104732972B (zh) 2015-03-12 2015-03-12 一种基于分组统计的hmm声纹识别签到方法及系统

Publications (2)

Publication Number Publication Date
CN104732972A true CN104732972A (zh) 2015-06-24
CN104732972B CN104732972B (zh) 2018-02-27

Family

ID=53456811

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510109362.9A Expired - Fee Related CN104732972B (zh) 2015-03-12 2015-03-12 一种基于分组统计的hmm声纹识别签到方法及系统

Country Status (1)

Country Link
CN (1) CN104732972B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096955A (zh) * 2015-09-06 2015-11-25 广东外语外贸大学 一种基于模型生长聚类的说话人快速识别方法及系统
CN106022042A (zh) * 2016-05-20 2016-10-12 中山市厚源电子科技有限公司 一种互联网安全网技术
CN106130869A (zh) * 2016-06-03 2016-11-16 北京云知声信息技术有限公司 一种语音签到实现方法、系统及装置
CN108447489A (zh) * 2018-04-17 2018-08-24 清华大学 一种带反馈的连续声纹认证方法及系统
CN108550394A (zh) * 2018-03-12 2018-09-18 广州势必可赢网络科技有限公司 一种基于声纹识别的诊病方法及装置
CN108830063A (zh) * 2018-05-31 2018-11-16 上海大学 基于亚马逊语音助手Alexa的以声纹识别进行用户权限管理的方法
CN108922538A (zh) * 2018-05-29 2018-11-30 平安科技(深圳)有限公司 会议信息记录方法、装置、计算机设备及存储介质
CN112509587A (zh) * 2021-02-03 2021-03-16 南京大正智能科技有限公司 移动号码与声纹动态匹配及索引构建方法、装置与设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0831461B1 (en) * 1996-09-20 2003-12-03 Nippon Telegraph And Telephone Corporation Scheme for model adaptation in pattern recognition based on taylor expansion
CN1936967A (zh) * 2005-09-20 2007-03-28 吴田平 声纹考勤机
CN101740031A (zh) * 2010-01-21 2010-06-16 安徽科大讯飞信息科技股份有限公司 一种基于网络动态负载均衡的声纹识别系统及其识别方法
CN102789779A (zh) * 2012-07-12 2012-11-21 广东外语外贸大学 一种语音识别系统及其识别方法
CN102815279A (zh) * 2011-06-10 2012-12-12 沈阳君天科技股份有限公司 基于嵌入式系统的语音直接启动汽车与防盗的方法及装置
CN103035245A (zh) * 2012-12-08 2013-04-10 大连创达技术交易市场有限公司 以太网声纹识别系统
CN104410697A (zh) * 2014-12-02 2015-03-11 广东安居宝数码科技股份有限公司 考勤信息的处理方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0831461B1 (en) * 1996-09-20 2003-12-03 Nippon Telegraph And Telephone Corporation Scheme for model adaptation in pattern recognition based on taylor expansion
CN1936967A (zh) * 2005-09-20 2007-03-28 吴田平 声纹考勤机
CN101740031A (zh) * 2010-01-21 2010-06-16 安徽科大讯飞信息科技股份有限公司 一种基于网络动态负载均衡的声纹识别系统及其识别方法
CN102815279A (zh) * 2011-06-10 2012-12-12 沈阳君天科技股份有限公司 基于嵌入式系统的语音直接启动汽车与防盗的方法及装置
CN102789779A (zh) * 2012-07-12 2012-11-21 广东外语外贸大学 一种语音识别系统及其识别方法
CN103035245A (zh) * 2012-12-08 2013-04-10 大连创达技术交易市场有限公司 以太网声纹识别系统
CN104410697A (zh) * 2014-12-02 2015-03-11 广东安居宝数码科技股份有限公司 考勤信息的处理方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JING ZHANG: ""A Characteristics Grouping Algorithm in"", 《JOURNAL OF BASIC AND APPLIED PHYSICS》 *
姚敏锋 等: ""基于语音特征聚类的HMM语音识别系统研究"", 《微计算机信息》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096955A (zh) * 2015-09-06 2015-11-25 广东外语外贸大学 一种基于模型生长聚类的说话人快速识别方法及系统
CN105096955B (zh) * 2015-09-06 2019-02-01 广东外语外贸大学 一种基于模型生长聚类的说话人快速识别方法及系统
CN106022042A (zh) * 2016-05-20 2016-10-12 中山市厚源电子科技有限公司 一种互联网安全网技术
CN106130869A (zh) * 2016-06-03 2016-11-16 北京云知声信息技术有限公司 一种语音签到实现方法、系统及装置
CN108550394A (zh) * 2018-03-12 2018-09-18 广州势必可赢网络科技有限公司 一种基于声纹识别的诊病方法及装置
CN108447489A (zh) * 2018-04-17 2018-08-24 清华大学 一种带反馈的连续声纹认证方法及系统
CN108447489B (zh) * 2018-04-17 2020-05-22 清华大学 一种带反馈的连续声纹认证方法及系统
CN108922538A (zh) * 2018-05-29 2018-11-30 平安科技(深圳)有限公司 会议信息记录方法、装置、计算机设备及存储介质
CN108830063A (zh) * 2018-05-31 2018-11-16 上海大学 基于亚马逊语音助手Alexa的以声纹识别进行用户权限管理的方法
CN112509587A (zh) * 2021-02-03 2021-03-16 南京大正智能科技有限公司 移动号码与声纹动态匹配及索引构建方法、装置与设备

Also Published As

Publication number Publication date
CN104732972B (zh) 2018-02-27

Similar Documents

Publication Publication Date Title
CN104732972A (zh) 一种基于分组统计的hmm声纹识别签到方法及系统
US10629209B2 (en) Voiceprint recognition method, device, storage medium and background server
CN102968990B (zh) 说话人识别方法和系统
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
US20060053009A1 (en) Distributed speech recognition system and method
CN101980336B (zh) 一种基于隐马尔可夫模型的汽车声音识别方法
WO2020181824A1 (zh) 声纹识别方法、装置、设备以及计算机可读存储介质
CN106952643A (zh) 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法
CN102436809B (zh) 英语口语机考系统中网络语音识别方法
CN108520753B (zh) 基于卷积双向长短时记忆网络的语音测谎方法
CN101226743A (zh) 基于中性和情感声纹模型转换的说话人识别方法
CN105096955B (zh) 一种基于模型生长聚类的说话人快速识别方法及系统
CN101923855A (zh) 文本无关的声纹识别系统
CN105702263A (zh) 语音重放检测方法和装置
CN101256768B (zh) 用于语种识别的时频二维倒谱特征提取方法
CN113488058B (zh) 一种基于短语音的声纹识别方法
CN111554305B (zh) 一种基于语谱图和注意力机制的声纹识别方法
CN101751921A (zh) 一种在训练数据量极少条件下的实时语音转换方法
CN108986824A (zh) 一种回放语音检测方法
CN102789779A (zh) 一种语音识别系统及其识别方法
CN113823293B (zh) 一种基于语音增强的说话人识别方法及系统
CN109243487A (zh) 一种归一化常q倒谱特征的回放语音检测方法
CN101853661A (zh) 基于非监督学习的噪声谱估计与语音活动度检测方法
CN106373559A (zh) 一种基于对数谱信噪比加权的鲁棒特征提取方法
CN105355199A (zh) 一种基于gmm噪声估计的模型组合语音识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180227

Termination date: 20190312

CF01 Termination of patent right due to non-payment of annual fee