CN102324232A - 基于高斯混合模型的声纹识别方法及系统 - Google Patents

基于高斯混合模型的声纹识别方法及系统 Download PDF

Info

Publication number
CN102324232A
CN102324232A CN201110267690A CN201110267690A CN102324232A CN 102324232 A CN102324232 A CN 102324232A CN 201110267690 A CN201110267690 A CN 201110267690A CN 201110267690 A CN201110267690 A CN 201110267690A CN 102324232 A CN102324232 A CN 102324232A
Authority
CN
China
Prior art keywords
parameter
vector
speaker
model
gmm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201110267690A
Other languages
English (en)
Inventor
霍春宝
张健
赵立辉
刘春玲
张彩娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning University of Technology
Original Assignee
Liaoning University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning University of Technology filed Critical Liaoning University of Technology
Priority to CN201110267690A priority Critical patent/CN102324232A/zh
Publication of CN102324232A publication Critical patent/CN102324232A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

一种基于高斯混合模型的声纹识别方法及系统,步骤如下:语音信号采集;语音信号预处理;语音信号特征参数提取:采用梅尔频率倒谱系数(MFCC),MFCC的阶数通常取为12~16;模型训练:采用EM算法为说话人的语音信号特征参数训练高斯混合模型(GMM),模型的参数初始化方法选用k-means算法;声纹辨识:将采集到的待识别语音信号特征参数与已建立的说话人语音模型进行比较,并根据最大后验概法进行判断,若对应的说话人模型使得待识别的话者语音特征向量X具有最大的后验概率,则识别出说话人。该方法采用了基于概率统计的高斯混合模型,能很好的反映说话人的语音在特征空间的分布,其概率密度函数比较常见,模型中的参数易于估计和训练,而且具有良好识别性能和抗噪能力。

Description

基于高斯混合模型的声纹识别方法及系统
技术领域
本发明属于语音信号处理装置,涉及到一种用说话人的语音信号来辨识说话人身份的基于高斯混合模型的声纹识别方法及系统。
背景技术
近年来,随着信息处理与人工智能技术的广泛应用,以及人们对快速有效身份验证的迫切要求,传统密码认证的身份识别已经逐渐失去了他的地位,而在生物识别领域中,基于说话人语音的身份识别技术却受到了越来越多的人的青睐。
由于每个人的发音器官的生理差异以及后天形成的行为差异导致发音方式和说话习惯各不相同,因此用说话人的语音来识别身份成为可能。声纹识别除了具有不会遗忘、不需记忆、使用方便等优点外,还具有下列特性:首先,它的认证方式易于接受,使用的“密码”为声音,开口即得;其次,识别文本的内容可以随机,不易窃取,安全性能比较高;第三,识别使用的终端设备为麦克风或电话,成本低廉且易于和现有通信系统相结合。因此,声纹识别的应用前景非常广阔:在经济活动中,可以实现各银行的汇款、余额查询、转账等;在保密安全中,可以用指定的声音检查秘密场所的人员,其只响应特定说话人;在司法鉴定中,可以根据即时录音判断疑犯中作案者的真实身份;在生物医学中,可以使该系统只响应患者的命令,从而实现对使用者假肢的控制。
声纹识别的关键技术主要是语音信号特征参数提取和模型匹配。语音信号特征参数大体可分为两类:一类是主要体现说话人发音器官生理特性的低层特征,如根据人耳对不同频率的语音信号的敏感程度提取的梅尔频率倒谱系数(MFCC),根据语音信号的全极点模型得到的线性预测倒谱系数(LPCC)等;另一类是主要体现说话人用语习惯、发音特点的高层特征,如反映说话人语音抑扬顿挫的韵律特征(Prosodic Features)、反映说话人习惯用语中音素统计规律的音素特征(Phone Features)等。LPCC是基于语音信号的发音模型建立的,容易受到假设模型的影响,高层特征虽然有些文献中使用,但识别率并不是很高。 
针对各种语音信号特征参数而提出的模型匹配方法主要有动态时间规整(DTW)法、矢量量化(VQ)法、高斯混合模型(GMM)法、人工神经网络(ANN)法等。其中DTW模型依赖于参数的时间顺序,实时性能较差,适合基于孤立字(词)的说话人识别;在VQ模型中,聚类的矢量仅用一个中心来表示,并且各个码本对距离的贡献相等,因此在语音信号很短的情况下,识别率会急剧下降。在ANN模型中,对最佳模型拓扑结构的设计的训练算法并不一定能保证收敛,而且会存在过学习的问题。GMM是在说话人的语音信号中提取出反映说话人个性的特征参数,并以此为基础根据概率统计特性建立相应的数学模型,从而有效的反映说话人的语音信号特征参数在特征空间的分布。而且其概率密度函数比较常见,模型中的参数易于估计和训练。但是在传统基于GMM的声纹识别中,模型初始参数的选取比较随机,这严重影响了系统的识别率。
发明内容
本发明要解决的技术问题是提出一种基于高斯混合模型的声纹识别方法及系统。该方法采用了基于概率统计的高斯混合模型,能很好的反映说话人的语音在特征空间的分布,其概率密度函数比较常见,模型中的参数易于估计和训练,而且具有良好识别性能和抗噪能力。
一种基于高斯混合模型的声纹识别方法,具体步骤如下:
1、语音信号的采集:以程控交换综合实验箱的话机作为采集语音信号的终端设备,通过语音卡采集语音信号;
2、语音信号的预处理:通过计算机将提取的语音信号进行分帧加窗操作,在分帧过程中一帧包括256个采样点,帧移为128个采样点,所加的窗函数为汉明窗;端点检测,采用基于短时能量和短时过零率法相结合的端点检测法;预加重,加重系数的范围为0.90~1.00;
3、语音信号特征参数提取:采用梅尔频率倒谱系数(MFCC),MFCC的阶数通常取为12~16;
4、模型训练:采用EM算法为说话人的语音信号特征参数训练高斯混合模型(GMM),模型的参数初始化方法选用k-means算法;
5、声纹辨识:通过将采集到的待识别语音信号特征参数与库中通过上述步骤1、2、3、4已建立的说话人语音模型进行比较,并根据最大后验概法进行判断,若对应的说话人模型使得待识别的话者语音特征向量X具有最大的后验概率,则认为识别出说话人。
上述的语音信号特征参数提取步骤如下:
(1) 将预处理后的语音信号进行短时傅里叶变换(DFT)得到其频谱X(k),语音信号的DFT公式为: 
                       (1)
其中,
Figure 612053DEST_PATH_IMAGE002
为输入的以帧为单位的语音信号,N为傅里叶变换的点数,取256;
(2)求频谱
Figure 825078DEST_PATH_IMAGE003
的平方,即能量谱
Figure 157971DEST_PATH_IMAGE004
,然后通过Mel频率滤波器对语音信号的频谱进行平滑,并消除谐波,凸显原先语音的共振峰;
Mel频率滤波器是一组三角带通滤波器,中心频率为
Figure 910026DEST_PATH_IMAGE005
Figure 732489DEST_PATH_IMAGE006
=1,2,…,Q, Q为三角带通滤波器的个数,Mel滤波器表示如下:
Figure 136105DEST_PATH_IMAGE008
          (2)
(3)对滤波器组输出的Mel频谱取对数:压缩语音频谱的动态范围;将频域中噪声的乘性成分转换成加性成分,对数Mel频谱
Figure 241202DEST_PATH_IMAGE009
如下:
Figure 172249DEST_PATH_IMAGE010
                        (3)
(4)离散余弦变换(DCT)
将步骤(3)获得的对数Mel频谱
Figure 926578DEST_PATH_IMAGE009
变换到时域,其结果为Mel频率倒谱系数(MFCC),第n个系数的计算如下式:
Figure 124659DEST_PATH_IMAGE012
              (4)
 其中,L为MFCC参数的阶数,Q为Mel滤波器的个数,L通常取12~16,Q取23~26,本发明依据实验情况取L=13,Q=25;
上述的模型训练时所采用的EM算法的具体步骤描述如下:
一个具有M阶混合分量的D维高斯混合模型(GMM)表示如下:
Figure 492186DEST_PATH_IMAGE013
                             (5)
式中,
Figure 733811DEST_PATH_IMAGE014
是混合权重,
Figure 448083DEST_PATH_IMAGE015
是D维联合高斯概率分布,表示为:
Figure 91554DEST_PATH_IMAGE016
                (6)
式中
Figure 364403DEST_PATH_IMAGE017
是均值,
Figure 93325DEST_PATH_IMAGE018
是协方差矩阵,完整的GMM用
Figure 109823DEST_PATH_IMAGE019
表述为:
Figure 607800DEST_PATH_IMAGE020
一组长度为T的训练矢量序列
Figure 317130DEST_PATH_IMAGE021
的似然函数函数为
Figure 267768DEST_PATH_IMAGE022
                          (7)
为说话人建立GMM,就是通过EM算法训练模型的参数,实质上就是通过寻找一个模型参数,使
Figure 819207DEST_PATH_IMAGE025
,然后再以新的
Figure 257142DEST_PATH_IMAGE024
为当前参数进行迭代,直到模型收敛为止,收敛条件,具体步骤如下:
(1)GMM初始化:设定GMM的高斯分量的阶数M和初始模型
Figure 88012DEST_PATH_IMAGE020
(2)E步,求期望:求解
Figure 201461DEST_PATH_IMAGE027
函数
Figure 64375DEST_PATH_IMAGE027
是在X已知且给定
Figure 288683DEST_PATH_IMAGE024
的情况下,完成对数似然函数
Figure 806906DEST_PATH_IMAGE028
对i求期望,即:
Figure 91257DEST_PATH_IMAGE029
                             (8)
整理得
Figure 441467DEST_PATH_IMAGE030
   (9)
根据贝叶斯公式,求得训练数据在i的概率为: 
 
Figure 469465DEST_PATH_IMAGE031
                         (10)
M步,最大化:根据函数估计
Figure 778404DEST_PATH_IMAGE032
; 
首先计算
Figure 615910DEST_PATH_IMAGE014
,由于
Figure 618239DEST_PATH_IMAGE014
存在约束条件
Figure 919907DEST_PATH_IMAGE033
,故引入拉格朗日因子
Figure 218165DEST_PATH_IMAGE034
,并解如下方程:
Figure 605284DEST_PATH_IMAGE035
              (11)
得到:
Figure 912768DEST_PATH_IMAGE036
                      (12)
计算
Figure 803364DEST_PATH_IMAGE037
,因
Figure 538102DEST_PATH_IMAGE038
          (13)
上式中右边的第一项与参数
Figure 146937DEST_PATH_IMAGE037
无关,故只需对
Figure 759578DEST_PATH_IMAGE039
进行最大化:
Figure 707942DEST_PATH_IMAGE040
         (14)
对参数
Figure 675898DEST_PATH_IMAGE017
求偏导可得:
Figure 772030DEST_PATH_IMAGE041
              (15)
整理得到
Figure 421317DEST_PATH_IMAGE042
                           (16)
对参数
Figure 286505DEST_PATH_IMAGE018
求偏导可得
Figure 363046DEST_PATH_IMAGE043
         (17)
整理得到
Figure 946474DEST_PATH_IMAGE044
               (18)
(3)EM算法迭代GMM
用EM算法迭代估计GMM的参数,当似然函数的值达到最大时停止迭代,即当
Figure 632408DEST_PATH_IMAGE024
值相对上次迭代时的值增幅小于设定的阈值(10-4),则迭代终止,得到最终的模型参数:
混合权重:            
Figure 935847DEST_PATH_IMAGE046
                   (19)
均  值 
Figure 989254DEST_PATH_IMAGE047
:                             (20)
方  差 
Figure 247377DEST_PATH_IMAGE049
:            
Figure 539818DEST_PATH_IMAGE050
            (21)
上述在用EM算法训练GMM时,初始参数的选取采用改进的k-means算法,具体为:
设长度为N的M维特征矢量序列为:
Figure 334599DEST_PATH_IMAGE051
, 其中第
Figure 462174DEST_PATH_IMAGE052
个矢量可记为:,,它可以被看作是语音信号中某一帧参数所组成的矢量;
说话人语音信号特征矢量的分布各不相同,其中第m维矢量的方差
Figure 34417DEST_PATH_IMAGE054
为:
Figure 367310DEST_PATH_IMAGE055
                            (22)
式中,M为特征矢量的维数。
Figure 352321DEST_PATH_IMAGE056
为第n个矢量的第m维参数,
Figure 378046DEST_PATH_IMAGE057
为第n个矢量的平均值,第m维矢量的权值
Figure 582762DEST_PATH_IMAGE058
为:
Figure 719346DEST_PATH_IMAGE059
                                  (23)
相应的基于方差的加权欧氏距离公式为:   
Figure 758419DEST_PATH_IMAGE061
                        (24)
式中,
Figure 512749DEST_PATH_IMAGE056
为待分类的特征矢量
Figure 187443DEST_PATH_IMAGE062
中的第m个参数,为第K个类的聚类中心;
对于初始聚类中心的选取采用欧氏距离法,计算矢量集中矢量两两之间的距离,选择距离最大的两个矢量作为两个类的聚类中心,再从剩余的矢量集中选出到两个聚类中心距离最大的矢量作为另一个类的中心,如此反复直到选出K个聚类中心。
上述的改进的K-means聚类算法的具体步骤如下:
Figure 78356DEST_PATH_IMAGE064
 从已有的K个聚类中心出发,利用公式,计算样本集中的矢量与各个聚类中心的距离,把剩余矢量划分到离它距离最近的类中,形成初始聚类;
Figure 31323DEST_PATH_IMAGE065
 按照步骤
Figure 674794DEST_PATH_IMAGE064
的聚类,更新各个类的聚类中心;
Figure 947644DEST_PATH_IMAGE066
 以新的聚类中心为参照点不断执行步骤
Figure 676565DEST_PATH_IMAGE064
Figure 693063DEST_PATH_IMAGE065
,直到聚类中心不再变化或变化微小时停止;
Figure 191040DEST_PATH_IMAGE067
 得到初始GMM参数:
Figure 634791DEST_PATH_IMAGE068
                                      (25)
Figure 851009DEST_PATH_IMAGE069
                                 (26)
Figure 166803DEST_PATH_IMAGE070
                           (27)
其中,
Figure 519287DEST_PATH_IMAGE071
是第k个类的中心,
Figure 399518DEST_PATH_IMAGE072
是类k的第j个矢量,
Figure 837453DEST_PATH_IMAGE073
是类k中矢量总数。
上述进行离散余弦变换时,根据实验确定为L=13,Q=25。
一种基于高斯混合模型的声纹识别系统,组成如下:
语音信号采集模块、语音信号预处理模块,语音信号特征参数提取模块,语音模型训练模块和声纹识别模块。
本发明与现有技术相比的有益效果是:
采用改进的GMM作为说话人语音信号的模型,通过语音卡采集语音信号,利用语音信号处理技术对采集到的语音信号进行预处理,然后提取语音信号特征参数,利用高斯混合模型对得到的语音信号特征参数建立语音模型从而构建一个说话人识别系统。采用MFCC参数,具有良好识别性能和抗噪能力且能充分模拟人耳感知能力;采用高斯混合模型,更具有灵活性,其概率密度函数比较常见,模型中的参数易于估计和训练,而且具有良好识别性能。
附图说明
图1 是本发明的系统框图;
图2是本发明的主流程图;
图3 是EM算法训练GMM流程图;
图4 是k-means聚类算法初始GMM参数流程图;
图5是基于高斯混合模型的声纹识别人机交互界面。
具体实施方式
如附图1所示,该基于高斯混合模型的声纹识别系统,组成如下:
语音信号采集模块、语音信号预处理模块,语音信号特征参数提取模块,语音模型训练模块和声纹识别模块。
如图2-图4所示,该基于高斯混合模型的声纹识别方法的具体步骤如下: 
1、语音信号的采集
语音信号的采集是将原始的语音模拟信号转换为数字信号,设置通道号、采样频率,本发明采用杭州三汇公司生产的SHT-8B/PCI型语音卡进行语音信号的采集,通道号为2(语音卡默认通道号为2),采样频率为8KHz(语音卡默认采样频率)。识别的终端设备为程控交换综合实验箱的电话机,且程控交换实验箱的的交换方式为空分交换,话路为甲二路(共四路:甲一路,甲二路,乙一路,乙二路,本发明随机选取甲二路,对实验结果无影响)。
2、语音信号的预处理
(1) 加窗分帧
语音信号的时变特性决定对其进行处理必须在一小段语音上进行,因此要对其进行分帧处理,同时为了保证语音信号不会因为分帧而导致信息的丢失,帧与帧之间要保证一定的重叠,即帧移,帧移与帧长的比值一般在0~1/2之间。本发明中使用的帧长为256个采样点,帧移为128个采样点。窗函数
Figure 195753DEST_PATH_IMAGE074
采用平滑特性较好的汉明窗函数,如下所示:
Figure 668323DEST_PATH_IMAGE075
                          (28)  
式中N为窗口长度,本发明为256个点。
(2)端点检测
本发明采用基于短时能量和短时平均过零率相结合的端点检测法对语音信号进行端点检测,从而判断语音信号的起始点和终止点。短时能量检测浊音,过零率检测清音。假设
Figure 453876DEST_PATH_IMAGE076
为语音信号,
Figure 379107DEST_PATH_IMAGE077
为汉明窗函数,则定义短时能量
Figure 39633DEST_PATH_IMAGE078
Figure 366709DEST_PATH_IMAGE079
            (29)
式中,
Figure 588743DEST_PATH_IMAGE080
为窗函数,
Figure 1270DEST_PATH_IMAGE081
Figure 701372DEST_PATH_IMAGE078
表示语音信号的第n个点开始加窗函数时的短时能量。
短时平均过零率为:
                 (30)
式中,N是窗函数长度,
Figure 614861DEST_PATH_IMAGE084
是符号函数,
Figure 180972DEST_PATH_IMAGE085
(3)预加重
由于语音信号的平均功率谱受到声门激励和口鼻辐射的影响,高频端大约在8000Hz以上按6dB/倍程跌落,为此要进行预加重处理以提升语音信号的高频部分,使信号的频谱变得平坦。预加重用6dB/倍程的具有提升高频特性的数字滤波器来实现,它一般是一阶的数字滤波器
Figure 154744DEST_PATH_IMAGE086
,即
Figure 780897DEST_PATH_IMAGE087
                           (31)
其中u取值在0.90~1.00之间系统的识别率最高,本发明取u=0.97。
 
3、语音信号特征参数提取
语音信号特征参数提取就是从说话人的语音信号中提取出能够反映说话人个性的参数,具体过程如下:
(1)将预处理后的语音信号进行短时傅里叶变换(DFT)得到其频谱X(k)。语音信号的DFT公式为: 
Figure 168016DEST_PATH_IMAGE001
                 (32)
其中,
Figure 209922DEST_PATH_IMAGE002
为输入的以帧为单位的语音信号, N为傅里叶变换的点数,取256。
(2)求频谱
Figure 366096DEST_PATH_IMAGE003
的平方,即能量谱
Figure 100834DEST_PATH_IMAGE004
,然后将它们通过Mel滤波器,以实现对语音信号的频谱进行平滑,并消除谐波,凸显原先语音的共振峰。
Mel频率滤波器是一组三角带通滤波器,中心频率为
Figure 709670DEST_PATH_IMAGE005
Figure 319381DEST_PATH_IMAGE006
=1,2,…,Q, Q为三角带通滤波器的个数,Mel滤波器
Figure 330062DEST_PATH_IMAGE007
表示如下:
Figure 298018DEST_PATH_IMAGE008
           (33)
(3)对滤波器组的输出取对数:压缩语音频谱的动态范围;将频域中的噪声的乘性成分转换成加性成分,得到的对数Mel频谱
Figure 331833DEST_PATH_IMAGE009
如下:
Figure 777858DEST_PATH_IMAGE010
                      (34)
(4)离散余弦变换(DCT)
将步骤(3)获得的Mel频谱
Figure 846308DEST_PATH_IMAGE009
变换到时域,其结果就是Mel频率倒谱系数(MFCC)。第n个系数
Figure 985165DEST_PATH_IMAGE011
的计算如下式:
Figure 506277DEST_PATH_IMAGE012
              (35)
  其中,L为MFCC的阶数,Q 为Mel滤波器的个数,二者取值常依据实验情况来定。本发明取L=13,Q=25。
4 、模型训练
(1)基本原理
基于高斯混合模型(GMM)的声纹识别的基本原理是为说话人集合中的每一个说话人的语音信号建立一个模型,模型的参数由说话人语音信号特征参数的空间分布决定。不同说话人的语音信号特征参数的统计分布不同,因此通过比较不同的说话人的GMM,就可以判别出不同的说话人。
GMM本质上是一种多维概率密度函数的线性加权组合。一个具有M阶混合分量的D维GMM表示如下:
Figure 755992DEST_PATH_IMAGE013
                       (36)
式中,
Figure 741266DEST_PATH_IMAGE014
是混合权重,代表每个高斯分布的幅度大小,且
Figure 484313DEST_PATH_IMAGE088
Figure 555037DEST_PATH_IMAGE015
是D维的联合高斯概率分布,表示为:
Figure 546127DEST_PATH_IMAGE016
                (37)
上式中
Figure 385907DEST_PATH_IMAGE017
是均值,代表每个高斯分布的位置,
Figure 866567DEST_PATH_IMAGE018
是协方差矩阵,代表高斯分布的范围。完整的GMM用
Figure 96691DEST_PATH_IMAGE019
表述为:
Figure 953789DEST_PATH_IMAGE020
。在GMM中,协方差矩阵
Figure 585758DEST_PATH_IMAGE018
是对角矩阵。
(2)模型训练
在发明中,为说话人建立GMM,实际上就是通过EM算法训练估计模型的参数。对于一组长度为T的训练矢量序列
Figure 237320DEST_PATH_IMAGE021
,它的似然函数为
Figure 718854DEST_PATH_IMAGE022
Figure 114064DEST_PATH_IMAGE023
                      (38)
训练的目的就是找到一组模型参数
Figure 662857DEST_PATH_IMAGE024
,使
Figure 688581DEST_PATH_IMAGE025
,然后再以新的为当前参数进行迭代,直到模型收敛为止(收敛条件
Figure 826619DEST_PATH_IMAGE026
)。具体步骤如下:
1)GMM初始化:设定GMM的高斯分量的阶数M和初始模型
Figure 495497DEST_PATH_IMAGE020
2)E步,求期望:求解
Figure 692124DEST_PATH_IMAGE027
函数
Figure 180874DEST_PATH_IMAGE027
是在X已知且给定
Figure 622613DEST_PATH_IMAGE024
的情况下,完成对数似然函数
Figure 145998DEST_PATH_IMAGE028
对i求期望,即:
                         (39)
整理得
Figure 489572DEST_PATH_IMAGE030
   (40)
根据贝叶斯公式,求得训练数据在i的概率为: 
                          (41)
M步,最大化:根据
Figure 345849DEST_PATH_IMAGE027
函数估计
Figure 946595DEST_PATH_IMAGE032
; 
首先计算
Figure 347620DEST_PATH_IMAGE014
,由于
Figure 692014DEST_PATH_IMAGE014
存在约束条件
Figure 189991DEST_PATH_IMAGE033
,故引入拉格朗日因子
Figure 132277DEST_PATH_IMAGE034
,并解如下方程:
Figure 348495DEST_PATH_IMAGE035
              (42)
得到:
                      (43)
计算
Figure 521167DEST_PATH_IMAGE037
,因
Figure 135820DEST_PATH_IMAGE038
      (44)
上式中右边的第一项与参数无关,故只需对进行最大化:
Figure 404624DEST_PATH_IMAGE040
             (45)
对参数
Figure 974800DEST_PATH_IMAGE017
求偏导可得:
Figure 900030DEST_PATH_IMAGE041
              (46)
整理后得到
Figure 62021DEST_PATH_IMAGE042
                            (47)
对参数求偏导可得
Figure 673448DEST_PATH_IMAGE043
        (48)
整理后得到
Figure 758079DEST_PATH_IMAGE044
              (49)
3)EM算法迭代估计GMM
用EM算法反复迭代估计GMM的参数,当似然函数的值达到最大时迭代停止,即当
Figure 786078DEST_PATH_IMAGE024
值相对上次迭代时的
Figure 905343DEST_PATH_IMAGE019
值增幅小于设定的阈值(10-4),则迭代终止,得到最终的模型参数:
混合权重
Figure 360596DEST_PATH_IMAGE045
:                                (50)
均    值
Figure 262747DEST_PATH_IMAGE047
:            
Figure 236520DEST_PATH_IMAGE048
                  (51)
方    差:           
Figure 984213DEST_PATH_IMAGE050
           (52)
EM算法训练GMM的流程图见附图2。
在用EM算法训练GMM时,初始参数的选取本发明采用改进的k-means算法。
设长度为N的M维特征矢量序列为:
Figure 291697DEST_PATH_IMAGE051
, 其中第
Figure 385555DEST_PATH_IMAGE052
个矢量可记为:,它可以被看作是语音信号中某一帧参数所组成的矢量。
说话人语音信号特征矢量的分布各不相同,其中第m维矢量的方差
Figure 230594DEST_PATH_IMAGE054
为:
                         (53)
式中,M为特征矢量的维数。
Figure 86871DEST_PATH_IMAGE056
为第n个矢量的第m维参数,为第n个矢量的平均值,第m维矢量的权值
Figure 88642DEST_PATH_IMAGE058
为:
Figure 737930DEST_PATH_IMAGE059
                                   (54)
相应的基于方差的加权欧氏距离公式
Figure 868697DEST_PATH_IMAGE060
为:   
Figure 443772DEST_PATH_IMAGE061
                      (55)
式中,
Figure 761621DEST_PATH_IMAGE056
为待分类的特征矢量中的第m维参数,为第K个类的聚类中心。
对于初始聚类中心的选取采用欧氏距离法,计算矢量集中对象两两之间的距离,选择距离最大的两个矢量作为两个类的聚类中心,再从剩余的矢量集中选出到两个聚类中心距离最大的矢量作为另一个类的中心,如此反复直到选出K个聚类中心。
改进的K-means聚类算法的具体步骤如下:
Figure 509631DEST_PATH_IMAGE064
 从已有的K个聚类中心出发,利用公式,计算样本集中的矢量与各个聚类中心的距离,把剩余样本矢量划分到离它距离最近的类中,形成初始聚类;
Figure 305866DEST_PATH_IMAGE065
 按照步骤
Figure 83329DEST_PATH_IMAGE064
的聚类,更新各个类的聚类中心;
 以新的聚类中心为参照点不断执行步骤,直到聚类中心不再变化或变化微小时停止;
Figure 106682DEST_PATH_IMAGE067
 得到初始GMM参数:
Figure 695926DEST_PATH_IMAGE068
                                      (56)
Figure 475663DEST_PATH_IMAGE069
                                 (57)
Figure 870873DEST_PATH_IMAGE070
                           (58)
其中,
Figure 622928DEST_PATH_IMAGE071
是第k个类的中心,
Figure 445391DEST_PATH_IMAGE072
是类k的第j个矢量,
Figure 650107DEST_PATH_IMAGE073
是类k中矢量总数。
k-means 聚类算法初始化GMM参数的流程图见附图3。
5、声纹辨识
对于一个声纹识别系统,若有N个说话人,其对应的M阶的GMM分别为
Figure 849007DEST_PATH_IMAGE089
。在辨识阶段,给定一个待识别的语音样本的特征矢量序列
Figure 954104DEST_PATH_IMAGE090
,则这段语音属于第n个说话人的最大后验概率为: 
Figure 947468DEST_PATH_IMAGE091
                       (59)
式中为所有说话人条件下特征矢量序列X的概率密度,
Figure 642071DEST_PATH_IMAGE093
为特征矢量序列X是第n个人产生的条件概率,且有
Figure 165457DEST_PATH_IMAGE094
                       (60)
Figure 267405DEST_PATH_IMAGE095
为第n个人说话的先验概率,假定该语音信号出自封闭集里的每个人的可能性相等,则有:
Figure 509030DEST_PATH_IMAGE096
                             (61)
对于一个确定的观察矢量序列X,
Figure 987416DEST_PATH_IMAGE092
是一个确定的常数值,对所有的话者来说都相等,因此求取后验概率的最大值可以通过求取
Figure 365308DEST_PATH_IMAGE093
获得,识别结果为:
                               (62)
Figure 868544DEST_PATH_IMAGE098
为识别出的说话人,即判决结果。
在实际应用中,常采用对数似然函数:
Figure 212938DEST_PATH_IMAGE099
                        (63)
因此最终的识别结果为:
Figure 383019DEST_PATH_IMAGE100
                          (64)
本系统属于闭集识别,也就是说所有待识别的说话人都属于已知的说话人集合。说话人识别的人机交互界面如附图4所示。在声纹识别系统的人机交互界面中,“语音卡状态显示”列表视图显示当前语音卡可用的语音通道号及通道状态;“语音样本库”列表视图显示当前语音样本库中的说话人样本数目及说话人姓名。“声纹识别参数设置”一栏显示语音采集所要设置的参数,包括:训练时长(默认23s),测试时长(默认15s)以及候选人个数(默认 1)。
如图5所示,以下结合实例进行具体说明:假设语音样本库中预先存了100个人的语音,当张XX拨通电话时,其声音如何识别的过程。
1、若张XX不属于已知的语音样本库
(1)语音信号的采集:以程控交换综合实验箱的话机作为采集语音的终端设备,通过语音卡采集语音;
首先,设置需要采集的训练语音的“训练时长”参数(范围:10-39s),然后在姓名编辑框中添加说话人的姓名“张XX”,点击“添加说话人”按钮。添加完成后点击“确定”,然后拨通程控交换综合实验箱的电话(号码:8700),接通后,语音卡通道2(默认为通道2)的状态更新为“录音中”,此时语音卡就可以进行采集语音。采集的语音达到预定的训练时长,电话会自动挂断;
(2)语音信号的预处理:通过计算机和VC软件结合对提取的语音信号进行分帧加窗操作,在分帧过程中一帧包括256个采样点,帧移为128个采样点,所加的窗函数为汉明窗;端点检测,采用基于短时能量和短时过零率法相结合的检测法;预加重,加重系数的值为0.97;
(3)提取特征参数:利用计算机与VC软件结合提取13阶的MFCC参数;
(4)模型训练:选用k-means算法对模型参数进行初始化,然后采用EM算法为说话人的语音信号特征参数训练高斯混合模型(GMM);
(5)说话人识别
首先,设置需要采集的测试语音的“测试时长”参数(范围:5-20s),拨通程控交换综合实验箱的电话(号码:8700),利用语音卡 (通道为2)采集语音。采集的语音达到预定的测试时长,电话会自动挂断;
然后软件禁止“进行说话人辨识”按钮使用,对说话人的语音进行步骤(2)、(3)的操作,最后将提取的待测试的说话人的语音与库中的语音模型进行比较,点击 “进行说话人辨识”按钮,选择要显示的候选人数(范围1-3),若对应的说话人模型使得待识别的话者语音特征向量X具有最大的后验概率,则认为识别出说话人,同时在“说话人辨识”视图列表上显示辨识结果“张XX”和识别度。
2、若张XX属于已知的语音样本库
若张XX属于已知的语音样本库则直接进行说话人辨识:首先,设置需要采集的测试语音的“测试时长”参数(范围:5-20s),拨通程控交换综合实验箱的电话(号码:8700),利用语音卡 (通道为2)采集语音。采集的语音达到预定的测试时长,电话会自动挂断;
然后软件禁止“进行说话人辨识”按钮使用,对说话人的语音进行步骤(2)、(3)的操作,最后将提取的待测试的说话人的语音与库中的语音模型进行比较,点击 “进行说话人辨识”按钮,选择要显示的候选人数(范围1-3),若对应的说话人模型使得待识别的话者语音特征向量X具有最大的后验概率,则认为识别出说话人,同时在“说话人辨识”视图列表上显示辨识结果“张XX”和识别度。

Claims (7)

1.一种基于高斯混合模型的声纹识别方法,其特征是具体步骤如下:
(1)、语音信号的采集:以程控交换综合实验箱的话机作为采集语音信号的终端设备,通过语音卡采集语音信号;
(2)、语音信号的预处理:通过计算机将提取的语音信号进行分帧加窗操作,在分帧过程中一帧包括256个采样点,帧移为128个采样点,所加的窗函数为汉明窗;端点检测,采用基于短时能量和短时过零率法相结合的端点检测法;预加重,加重系数的范围为0.90~1.00;
(3)、语音信号特征参数提取:采用梅尔频率倒谱系数(MFCC),MFCC的阶数通常取为12~16;
(4)、模型训练:采用EM算法为说话人的语音信号特征参数训练高斯混合模型(GMM),模型的参数初始化方法选用k-means算法;
(5)、声纹辨识:通过将采集到的待识别语音信号特征参数与库中通过第1步骤1、第2步骤、第3步骤已建立的说话人语音模型进行比较,并根据最大后验概法进行判断,若对应的说话人模型使得待识别的话者语音特征向量X具有最大的后验概率,则认为识别出说话人。
2.根据权利要求1所述的基于高斯混合模型的声纹识别方法,其特征是语音信号特征参数提取步骤如下:
(1) 将预处理后的语音信号进行短时傅里叶变换(DFT)得到其频谱X(k),语音信号的DFT公式为: 
                       (1)
其中,
Figure 999463DEST_PATH_IMAGE002
为输入的以帧为单位的语音信号,N为傅里叶变换的点数,取256;
(2)求频谱
Figure 207722DEST_PATH_IMAGE003
的平方,即能量谱
Figure 756515DEST_PATH_IMAGE004
,然后通过Mel频率滤波器对语音信号的频谱进行平滑,并消除谐波,凸显原先语音的共振峰;
Mel频率滤波器是一组三角带通滤波器,中心频率为
Figure 906874DEST_PATH_IMAGE005
Figure 485491DEST_PATH_IMAGE006
=1,2,…,Q, Q为三角带通滤波器的个数,Mel滤波器
Figure 418812DEST_PATH_IMAGE007
表示如下:
Figure 87691DEST_PATH_IMAGE008
          (2)
(3)对滤波器组输出的Mel频谱取对数:压缩语音频谱的动态范围;将频域中噪声的乘性成分转换成加性成分,对数Mel频谱
Figure 408951DEST_PATH_IMAGE009
如下:
Figure 897701DEST_PATH_IMAGE010
                        (3)
(4)离散余弦变换(DCT)
将第3步骤获得的对数Mel频谱
Figure 713341DEST_PATH_IMAGE009
变换到时域,其结果为Mel频率倒谱系数(MFCC),第n个系数
Figure 236727DEST_PATH_IMAGE011
的计算如下式:
Figure 400992DEST_PATH_IMAGE012
              (4)
 其中,L为MFCC参数的阶数,Q为Mel滤波器的个数,L通常取12~16,Q取23~26,本发明依据实验情况取L=13,Q=25。
3.根据权利要求1所述的基于高斯混合模型的声纹识别方法,其特征是模型训练时所采用的EM算法的具体步骤描述如下:
一个具有M阶混合分量的D维高斯混合模型(GMM)表示如下:
Figure 704934DEST_PATH_IMAGE013
                             (5)
式中,
Figure 245637DEST_PATH_IMAGE014
是混合权重,
Figure 932183DEST_PATH_IMAGE015
是D维联合高斯概率分布,表示为:
Figure 532929DEST_PATH_IMAGE016
                (6)
式中
Figure 58588DEST_PATH_IMAGE017
是均值,
Figure 402982DEST_PATH_IMAGE018
是协方差矩阵,完整的GMM用
Figure 714009DEST_PATH_IMAGE019
表述为:
Figure 220076DEST_PATH_IMAGE020
一组长度为T的训练矢量序列的似然函数函数为
Figure 381116DEST_PATH_IMAGE022
Figure 733600DEST_PATH_IMAGE023
                          (7)
为说话人建立GMM,就是通过EM算法训练模型的参数,实质上就是通过寻找一个模型参数
Figure 722154DEST_PATH_IMAGE024
,使
Figure 160088DEST_PATH_IMAGE025
,然后再以新的
Figure 908602DEST_PATH_IMAGE024
为当前参数进行迭代,直到模型收敛为止,收敛条件
Figure 115592DEST_PATH_IMAGE026
,具体步骤如下:
第一步:GMM初始化:设定GMM的高斯分量的阶数M和初始模型
Figure 229041DEST_PATH_IMAGE020
第二步:E步,求期望:求解
Figure 967321DEST_PATH_IMAGE027
函数
Figure 191629DEST_PATH_IMAGE027
是在X已知且给定
Figure 581022DEST_PATH_IMAGE024
的情况下,完成对数似然函数
Figure 865373DEST_PATH_IMAGE028
对i求期望,即:
Figure 326835DEST_PATH_IMAGE029
                             (8)
整理得
Figure 354834DEST_PATH_IMAGE030
   (9)
根据贝叶斯公式,求得训练数据在i的概率为: 
 
Figure 536416DEST_PATH_IMAGE031
                         (10)
M步,最大化:根据
Figure 53985DEST_PATH_IMAGE027
函数估计; 
首先计算,由于
Figure 369057DEST_PATH_IMAGE014
存在约束条件
Figure 995211DEST_PATH_IMAGE033
,故引入拉格朗日因子
Figure 179067DEST_PATH_IMAGE034
,并解如下方程:
              (11)
得到:
Figure 16628DEST_PATH_IMAGE036
                      (12)
计算
Figure 813683DEST_PATH_IMAGE037
,因
Figure 422519DEST_PATH_IMAGE038
          (13)
上式中右边的第一项与参数
Figure 392749DEST_PATH_IMAGE037
无关,故只需对
Figure 403430DEST_PATH_IMAGE039
进行最大化:
Figure 184435DEST_PATH_IMAGE040
         (14)
对参数求偏导可得:
Figure 54488DEST_PATH_IMAGE041
              (15)
整理得到
Figure 185255DEST_PATH_IMAGE042
                           (16)
对参数
Figure 324113DEST_PATH_IMAGE018
求偏导可得
Figure 950616DEST_PATH_IMAGE043
         (17)
整理得到
Figure 465911DEST_PATH_IMAGE044
               (18)
第三步:EM算法迭代GMM
用EM算法迭代估计GMM的参数,当似然函数的值达到最大时停止迭代,即当
Figure 513502DEST_PATH_IMAGE024
值相对上次迭代时的
Figure 823260DEST_PATH_IMAGE019
值增幅小于设定的阈值(10-4),则迭代终止,得到最终的模型参数:
混合权重
Figure 441455DEST_PATH_IMAGE045
:            
Figure 494861DEST_PATH_IMAGE046
                   (19)
均  值 :            
Figure 877618DEST_PATH_IMAGE048
                 (20)
方  差 
Figure 435638DEST_PATH_IMAGE049
:           
Figure 338741DEST_PATH_IMAGE050
            (21)。
4.根据权利要求3所述的基于高斯混合模型的声纹识别方法,其特征是在用EM算法训练GMM时,初始参数的选取采用改进的k-means算法,具体为:
设长度为N的M维特征矢量序列为:
Figure 298607DEST_PATH_IMAGE051
, 其中第
Figure 12485DEST_PATH_IMAGE052
个矢量可记为:
Figure 792222DEST_PATH_IMAGE053
,,它可以被看作是语音信号中某一帧参数所组成的矢量;
说话人语音信号特征矢量的分布各不相同,其中第m维矢量的方差
Figure 481DEST_PATH_IMAGE054
为:
                            (22)
式中,M为特征矢量的维数
Figure 699633DEST_PATH_IMAGE056
为第n个矢量的第m维参数,
Figure 966666DEST_PATH_IMAGE057
为第n个矢量的平均值,第m维矢量的权值
Figure 480080DEST_PATH_IMAGE058
为:
                                  (23)
相应的基于方差的加权欧氏距离公式
Figure 204640DEST_PATH_IMAGE060
为:   
                        (24)
式中,
Figure 961560DEST_PATH_IMAGE056
为待分类的特征矢量
Figure 297995DEST_PATH_IMAGE062
中的第m个参数,为第K个类的聚类中心;
对于初始聚类中心的选取采用欧氏距离法,计算矢量集中矢量两两之间的距离,选择距离最大的两个矢量作为两个类的聚类中心,再从剩余的矢量集中选出到两个聚类中心距离最大的矢量作为另一个类的中心,如此反复直到选出K个聚类中心。
5.根据权利要求4所述的基于高斯混合模型的声纹识别方法,其特征是改进的K-means聚类算法的具体步骤如下:
(1) 从已有的K个聚类中心出发,利用公式
Figure 77787DEST_PATH_IMAGE061
,计算样本集中的矢量与各个聚类中心的距离,把剩余矢量划分到离它距离最近的类中,形成初始聚类;
(2) 按照步骤的聚类,更新各个类的聚类中心;
(3) 以新的聚类中心为参照点不断执行步骤
Figure 58698DEST_PATH_IMAGE064
Figure 472493DEST_PATH_IMAGE065
,直到聚类中心不再变化或变化微小时停止;
(4)得到初始GMM参数:
Figure 935835DEST_PATH_IMAGE066
                                      (25)
Figure 342546DEST_PATH_IMAGE067
                                 (26)
Figure 883599DEST_PATH_IMAGE068
                           (27)
其中,
Figure 717563DEST_PATH_IMAGE069
是第k个类的中心,
Figure 668201DEST_PATH_IMAGE070
是类k的第j个矢量,是类k中矢量总数。
6.根据权利要求2所述的基于高斯混合模型的声纹识别方法,其特征是进行离散余弦变换时, L=13,Q=25。
7.一种基于高斯混合模型的声纹识别系统,其特征是组成如下:
语音信号采集模块、语音信号预处理模块,语音信号特征参数提取模块,语音模型训练模块和声纹识别模块。
CN201110267690A 2011-09-12 2011-09-12 基于高斯混合模型的声纹识别方法及系统 Pending CN102324232A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110267690A CN102324232A (zh) 2011-09-12 2011-09-12 基于高斯混合模型的声纹识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110267690A CN102324232A (zh) 2011-09-12 2011-09-12 基于高斯混合模型的声纹识别方法及系统

Publications (1)

Publication Number Publication Date
CN102324232A true CN102324232A (zh) 2012-01-18

Family

ID=45451966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110267690A Pending CN102324232A (zh) 2011-09-12 2011-09-12 基于高斯混合模型的声纹识别方法及系统

Country Status (1)

Country Link
CN (1) CN102324232A (zh)

Cited By (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647521A (zh) * 2012-04-05 2012-08-22 福州博远无线网络科技有限公司 基于语音短命令和声纹技术解除手机锁屏的方法
CN102789779A (zh) * 2012-07-12 2012-11-21 广东外语外贸大学 一种语音识别系统及其识别方法
CN102820033A (zh) * 2012-08-17 2012-12-12 南京大学 一种声纹识别方法
CN103177722A (zh) * 2013-03-08 2013-06-26 北京理工大学 一种基于音色相似度的歌曲检索方法
CN103236260A (zh) * 2013-03-29 2013-08-07 京东方科技集团股份有限公司 语音识别系统
CN103400578A (zh) * 2013-08-22 2013-11-20 厦门大学 谱减与动态时间规整算法联合处理的抗噪声声纹识别装置
CN103714826A (zh) * 2013-12-18 2014-04-09 安徽讯飞智元信息科技有限公司 面向声纹鉴定的共振峰自动匹配方法
CN103811008A (zh) * 2012-11-08 2014-05-21 中国移动通信集团上海有限公司 一种音频内容识别方法和装置
CN103873254A (zh) * 2014-03-03 2014-06-18 杭州电子科技大学 一种人类声纹生物密钥生成方法
CN103994820A (zh) * 2014-04-21 2014-08-20 中国科学院上海微系统与信息技术研究所 一种基于微孔径麦克风阵列的运动目标识别方法
CN104240699A (zh) * 2014-09-12 2014-12-24 浙江大学 一种简单有效的短语语音识别方法
CN104537252A (zh) * 2015-01-05 2015-04-22 深圳市腾讯计算机系统有限公司 用户状态单分类模型训练方法和装置
CN104702378A (zh) * 2013-12-06 2015-06-10 华为技术有限公司 混合高斯分布的参数估计方法和装置
CN104700843A (zh) * 2015-02-05 2015-06-10 海信集团有限公司 一种年龄识别的方法及装置
CN104766612A (zh) * 2015-04-13 2015-07-08 李素平 基于乐音音色匹配的正弦模型分离方法
CN104809098A (zh) * 2014-01-27 2015-07-29 华为技术有限公司 基于期望最大确定统计模型参数的方法和装置
CN104900227A (zh) * 2014-03-03 2015-09-09 联想(北京)有限公司 语音特征信息的提取方法及电子设备
CN104900235A (zh) * 2015-05-25 2015-09-09 重庆大学 基于基音周期混合特征参数的声纹识别方法
CN104952138A (zh) * 2015-07-21 2015-09-30 金琥 一种语音交互式门禁系统及其实现方法
CN104978507A (zh) * 2014-04-14 2015-10-14 中国石油化工集团公司 一种基于声纹识别的智能测井评价专家系统身份认证方法
CN105245497A (zh) * 2015-08-31 2016-01-13 刘申宁 一种身份认证方法及装置
CN105469784A (zh) * 2014-09-10 2016-04-06 中国科学院声学研究所 概率线性鉴别分析模型生成方法和说话人聚类方法及系统
CN105590628A (zh) * 2015-12-22 2016-05-18 上海应用技术学院 基于自适应调整的高斯混合模型的人声识别方法
CN105684078A (zh) * 2013-09-30 2016-06-15 奥兰治 对音频信号进行重采样以用于低延迟编码/解码
CN105765650A (zh) * 2013-09-27 2016-07-13 亚马逊技术公司 带有多向解码的语音辨识器
CN105989842A (zh) * 2015-01-30 2016-10-05 福建星网视易信息系统有限公司 对比声纹相似度的方法、装置及其在数字娱乐点播系统中的应用
CN106209786A (zh) * 2016-06-27 2016-12-07 四川阿泰因机器人智能装备有限公司 一种大数据并行化声纹认证方法
CN106297805A (zh) * 2016-08-02 2017-01-04 电子科技大学 一种基于呼吸特征的说话人识别方法
WO2017050120A1 (zh) * 2015-09-21 2017-03-30 中兴通讯股份有限公司 儿童锁启动方法及装置
CN106653047A (zh) * 2016-12-16 2017-05-10 广州视源电子科技股份有限公司 一种音频数据的自动增益控制方法与装置
CN106782505A (zh) * 2017-02-21 2017-05-31 南京工程学院 一种基于放电声音识别高压开关柜状态的方法
CN107134277A (zh) * 2017-06-15 2017-09-05 深圳市潮流网络技术有限公司 一种基于gmm模型的语音激活检测方法
CN107240397A (zh) * 2017-08-14 2017-10-10 广东工业大学 一种基于声纹识别的智能锁及其语音识别方法和系统
CN107422643A (zh) * 2016-08-26 2017-12-01 深圳大学 基于振动检测的智能家居监控方法及系统
CN107481736A (zh) * 2017-08-14 2017-12-15 广东工业大学 一种声纹身份认证装置及其认证优化方法和系统
CN107545898A (zh) * 2017-08-07 2018-01-05 清华大学 一种区分说话人语音的处理方法及装置
CN107610707A (zh) * 2016-12-15 2018-01-19 平安科技(深圳)有限公司 一种声纹识别方法及装置
CN107610708A (zh) * 2017-06-09 2018-01-19 平安科技(深圳)有限公司 识别声纹的方法及设备
CN107919115A (zh) * 2017-11-13 2018-04-17 河海大学 一种基于非线性谱变换的特征补偿方法
CN108235181A (zh) * 2016-12-13 2018-06-29 奥迪康有限公司 在音频处理装置中降噪的方法
CN108269573A (zh) * 2017-01-03 2018-07-10 蓝盾信息安全技术有限公司 基于矢量量化和高斯混合模型的说话人识别系统
CN108417226A (zh) * 2018-01-09 2018-08-17 平安科技(深圳)有限公司 语音对比方法、终端及计算机可读存储介质
CN108417207A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 一种深度混合生成网络自适应方法及系统
WO2018149077A1 (zh) * 2017-02-16 2018-08-23 平安科技(深圳)有限公司 声纹识别方法、装置、存储介质和后台服务器
CN108593282A (zh) * 2018-07-05 2018-09-28 国网安徽省电力有限公司培训中心 一种断路器在线监测和故障诊断装置及其工作方法
CN108627241A (zh) * 2018-05-11 2018-10-09 西安理工大学 一种基于高斯混合模型的宽吻海豚click信号检测方法
CN108831487A (zh) * 2018-06-28 2018-11-16 深圳大学 声纹识别方法、电子装置及计算机可读存储介质
CN108847253A (zh) * 2018-09-05 2018-11-20 平安科技(深圳)有限公司 车辆型号识别方法、装置、计算机设备及存储介质
CN108922541A (zh) * 2018-05-25 2018-11-30 南京邮电大学 基于dtw和gmm模型的多维特征参数声纹识别方法
CN109146002A (zh) * 2018-09-30 2019-01-04 佛山科学技术学院 一种gmm识别器的快速识别方法
CN106610451B (zh) * 2016-12-23 2019-01-04 杭州电子科技大学 基于倒谱及贝叶斯决策的周期信号基频提取与匹配方法
CN109243487A (zh) * 2018-11-30 2019-01-18 宁波大学 一种归一化常q倒谱特征的回放语音检测方法
CN109545015A (zh) * 2019-01-23 2019-03-29 广东小天才科技有限公司 一种科目类型的识别方法及家教设备
CN109657706A (zh) * 2018-12-03 2019-04-19 浙江工业大学 基于高斯混合模型贝叶斯算法的柔性零件装配过程接触状态识别方法
CN109840517A (zh) * 2019-03-08 2019-06-04 兰州交通大学 一种mems陀螺噪声估计和滤波方法
CN109887510A (zh) * 2019-03-25 2019-06-14 南京工业大学 一种基于经验模态分解与mfcc的声纹识别方法及装置
CN109948481A (zh) * 2019-03-07 2019-06-28 惠州学院 一种基于窄带射频链路采样的无源人体识别方法
CN110097066A (zh) * 2018-01-31 2019-08-06 阿里巴巴集团控股有限公司 一种用户分类方法、装置及电子设备
CN110110790A (zh) * 2019-05-08 2019-08-09 中国科学技术大学 采用无监督聚类得分规整的说话人确认方法
CN110155064A (zh) * 2019-04-22 2019-08-23 江苏大学 基于声音信号的特种车辆行驶车道识别与自车变道决策系统及方法
CN110222578A (zh) * 2019-05-08 2019-09-10 腾讯科技(深圳)有限公司 对抗测试看图说话系统的方法和装置
CN110299150A (zh) * 2019-06-24 2019-10-01 中国科学院计算技术研究所 一种实时语音说话人分离方法及系统
CN110322886A (zh) * 2018-03-29 2019-10-11 北京字节跳动网络技术有限公司 一种音频指纹提取方法及装置
CN110689893A (zh) * 2019-10-12 2020-01-14 四川虹微技术有限公司 一种提高语音支付安全性的方法
CN110853652A (zh) * 2019-10-10 2020-02-28 平安科技(深圳)有限公司 身份识别方法、装置及计算机可读存储介质
CN111027453A (zh) * 2019-12-06 2020-04-17 西北工业大学 基于高斯混合模型的非合作水中目标自动识别方法
CN111429922A (zh) * 2020-03-27 2020-07-17 佛山科学技术学院 一种基于自适应语音增强的说话人识别方法及装置
CN111489763A (zh) * 2020-04-13 2020-08-04 武汉大学 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN111554273A (zh) * 2020-04-28 2020-08-18 华南理工大学 一种语音关键词识别中扩增语料的选取方法
CN111816185A (zh) * 2020-07-07 2020-10-23 广东工业大学 一种对混合语音中说话人的识别方法及装置
CN111862950A (zh) * 2020-08-03 2020-10-30 深圳作为科技有限公司 一种交互式多功能的老年护理机器人识别系统
CN111968673A (zh) * 2020-07-29 2020-11-20 厦门快商通科技股份有限公司 一种音频事件检测方法及系统
CN112164404A (zh) * 2020-10-28 2021-01-01 广西电网有限责任公司贺州供电局 一种基于声纹识别技术的远程身份认证方法及系统
CN112185411A (zh) * 2019-07-03 2021-01-05 南京人工智能高等研究院有限公司 语音分离方法、装置、介质和电子设备
CN112397074A (zh) * 2020-11-05 2021-02-23 桂林电子科技大学 基于mfcc和向量元学习的声纹识别方法
CN112530407A (zh) * 2020-11-25 2021-03-19 北京快鱼电子股份公司 一种语种识别方法及系统
CN112885358A (zh) * 2021-01-22 2021-06-01 江西师范大学 一种基于双向长短期记忆网络的说话人确认欺骗检测方法
CN113077798A (zh) * 2021-04-01 2021-07-06 山西云芯新一代信息技术研究院有限公司 一种居家老人呼救设备
CN113112999A (zh) * 2021-05-28 2021-07-13 宁夏理工学院 基于dtw和gmm的短词句语音识别方法及系统
CN113593597A (zh) * 2021-08-27 2021-11-02 中国电信股份有限公司 语音噪声过滤方法、装置、电子设备和介质
CN113643692A (zh) * 2021-03-25 2021-11-12 河南省机械设计研究院有限公司 基于机器学习的plc语音识别方法
CN113660670A (zh) * 2020-05-12 2021-11-16 哈尔滨工程大学 基于射频指纹的无线设备身份认证方法及其装置
CN113808370A (zh) * 2021-09-17 2021-12-17 国家石油天然气管网集团有限公司 一种面向滑坡的多指标耦合监测预警方法
CN114113943A (zh) * 2021-11-25 2022-03-01 广东电网有限责任公司广州供电局 基于电流和超声信号的变压器局放检测系统、方法及设备
CN114299953A (zh) * 2021-12-29 2022-04-08 湖北微模式科技发展有限公司 一种结合嘴部运动分析的话者角色区分方法与系统
CN114355289A (zh) * 2022-03-19 2022-04-15 深圳市烽火宏声科技有限公司 声源定位方法、装置、存储介质及计算机设备
CN115223576A (zh) * 2022-06-23 2022-10-21 国网江苏省电力有限公司南京供电分公司 基于mfcc的变压器声纹特征可控精度提取和识别方法与系统
CN115514690A (zh) * 2022-09-01 2022-12-23 西北工业大学 一种非合作水声网络mac协议识别方法
CN116040892A (zh) * 2023-04-03 2023-05-02 珠水(广东)生态环境研究院有限公司 一种生活垃圾污水处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1372233A (zh) * 2001-02-27 2002-10-02 张屹 新型语音识别防伪系统
CN1758332A (zh) * 2005-10-31 2006-04-12 浙江大学 基于倒谱特征线性情感补偿的说话人识别方法
US20090150146A1 (en) * 2007-12-11 2009-06-11 Electronics & Telecommunications Research Institute Microphone array based speech recognition system and target speech extracting method of the system
CN101702314A (zh) * 2009-10-13 2010-05-05 清华大学 基于语种对的鉴别式语种识别模型建立方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1372233A (zh) * 2001-02-27 2002-10-02 张屹 新型语音识别防伪系统
CN1758332A (zh) * 2005-10-31 2006-04-12 浙江大学 基于倒谱特征线性情感补偿的说话人识别方法
US20090150146A1 (en) * 2007-12-11 2009-06-11 Electronics & Telecommunications Research Institute Microphone array based speech recognition system and target speech extracting method of the system
CN101702314A (zh) * 2009-10-13 2010-05-05 清华大学 基于语种对的鉴别式语种识别模型建立方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《中国优秀硕士学位论文全文数据库 信息科技辑》 20080715 胡益平 基于GMM的说话人识别技术研究与实现 , *
《中国优秀硕士学位论文全文数据库 信息科技辑》 20081115 蒋晔 基于文本无关的说话人识别技术研究 , *
《中国医院统计》 20080331 鲁婧婧 等 欧氏距离的加权处理对K-means法聚类效果的改进 第9-12页 第15卷, 第1期 *

Cited By (131)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647521B (zh) * 2012-04-05 2013-10-09 福州博远无线网络科技有限公司 基于语音短命令和声纹技术解除手机锁屏的方法
CN102647521A (zh) * 2012-04-05 2012-08-22 福州博远无线网络科技有限公司 基于语音短命令和声纹技术解除手机锁屏的方法
CN102789779A (zh) * 2012-07-12 2012-11-21 广东外语外贸大学 一种语音识别系统及其识别方法
CN102820033A (zh) * 2012-08-17 2012-12-12 南京大学 一种声纹识别方法
CN102820033B (zh) * 2012-08-17 2013-12-04 南京大学 一种声纹识别方法
CN103811008A (zh) * 2012-11-08 2014-05-21 中国移动通信集团上海有限公司 一种音频内容识别方法和装置
CN103177722A (zh) * 2013-03-08 2013-06-26 北京理工大学 一种基于音色相似度的歌曲检索方法
CN103236260A (zh) * 2013-03-29 2013-08-07 京东方科技集团股份有限公司 语音识别系统
WO2014153800A1 (zh) * 2013-03-29 2014-10-02 京东方科技集团股份有限公司 语音识别系统
CN103400578A (zh) * 2013-08-22 2013-11-20 厦门大学 谱减与动态时间规整算法联合处理的抗噪声声纹识别装置
CN103400578B (zh) * 2013-08-22 2015-06-10 厦门大学 谱减与动态时间规整算法联合处理的抗噪声声纹识别装置
CN105765650A (zh) * 2013-09-27 2016-07-13 亚马逊技术公司 带有多向解码的语音辨识器
CN105765650B (zh) * 2013-09-27 2019-08-06 亚马逊技术公司 带有多向解码的语音辨识器
CN105684078B (zh) * 2013-09-30 2020-03-27 皇家飞利浦有限公司 音频信号重采样方法/装置以及音频信号编/解码器
CN107481726A (zh) * 2013-09-30 2017-12-15 皇家飞利浦有限公司 对音频信号进行重采样以用于低延迟编码/解码
CN105684078A (zh) * 2013-09-30 2016-06-15 奥兰治 对音频信号进行重采样以用于低延迟编码/解码
CN104702378B (zh) * 2013-12-06 2018-03-09 华为技术有限公司 混合高斯分布的参数估计方法和装置
CN104702378A (zh) * 2013-12-06 2015-06-10 华为技术有限公司 混合高斯分布的参数估计方法和装置
CN103714826A (zh) * 2013-12-18 2014-04-09 安徽讯飞智元信息科技有限公司 面向声纹鉴定的共振峰自动匹配方法
CN103714826B (zh) * 2013-12-18 2016-08-17 讯飞智元信息科技有限公司 面向声纹鉴定的共振峰自动匹配方法
CN104809098A (zh) * 2014-01-27 2015-07-29 华为技术有限公司 基于期望最大确定统计模型参数的方法和装置
CN103873254B (zh) * 2014-03-03 2017-01-25 杭州电子科技大学 一种人类声纹生物密钥生成方法
CN104900227A (zh) * 2014-03-03 2015-09-09 联想(北京)有限公司 语音特征信息的提取方法及电子设备
CN103873254A (zh) * 2014-03-03 2014-06-18 杭州电子科技大学 一种人类声纹生物密钥生成方法
CN104978507A (zh) * 2014-04-14 2015-10-14 中国石油化工集团公司 一种基于声纹识别的智能测井评价专家系统身份认证方法
CN104978507B (zh) * 2014-04-14 2019-02-01 中国石油化工集团公司 一种基于声纹识别的智能测井评价专家系统身份认证方法
CN103994820A (zh) * 2014-04-21 2014-08-20 中国科学院上海微系统与信息技术研究所 一种基于微孔径麦克风阵列的运动目标识别方法
CN103994820B (zh) * 2014-04-21 2016-05-11 中国科学院上海微系统与信息技术研究所 一种基于微孔径麦克风阵列的运动目标识别方法
CN105469784A (zh) * 2014-09-10 2016-04-06 中国科学院声学研究所 概率线性鉴别分析模型生成方法和说话人聚类方法及系统
CN105469784B (zh) * 2014-09-10 2019-01-08 中国科学院声学研究所 一种基于概率线性鉴别分析模型的说话人聚类方法及系统
CN104240699B (zh) * 2014-09-12 2017-05-10 浙江大学 一种简单有效的短语语音识别方法
CN104240699A (zh) * 2014-09-12 2014-12-24 浙江大学 一种简单有效的短语语音识别方法
CN104537252A (zh) * 2015-01-05 2015-04-22 深圳市腾讯计算机系统有限公司 用户状态单分类模型训练方法和装置
CN104537252B (zh) * 2015-01-05 2019-09-17 深圳市腾讯计算机系统有限公司 用户状态单分类模型训练方法和装置
CN105989842A (zh) * 2015-01-30 2016-10-05 福建星网视易信息系统有限公司 对比声纹相似度的方法、装置及其在数字娱乐点播系统中的应用
CN105989842B (zh) * 2015-01-30 2019-10-25 福建星网视易信息系统有限公司 对比声纹相似度的方法、装置及其在数字娱乐点播系统中的应用
CN104700843A (zh) * 2015-02-05 2015-06-10 海信集团有限公司 一种年龄识别的方法及装置
CN104766612A (zh) * 2015-04-13 2015-07-08 李素平 基于乐音音色匹配的正弦模型分离方法
CN104900235A (zh) * 2015-05-25 2015-09-09 重庆大学 基于基音周期混合特征参数的声纹识别方法
CN104952138A (zh) * 2015-07-21 2015-09-30 金琥 一种语音交互式门禁系统及其实现方法
CN105245497B (zh) * 2015-08-31 2019-01-04 刘申宁 一种身份认证方法及装置
CN105245497A (zh) * 2015-08-31 2016-01-13 刘申宁 一种身份认证方法及装置
WO2017050120A1 (zh) * 2015-09-21 2017-03-30 中兴通讯股份有限公司 儿童锁启动方法及装置
CN105590628A (zh) * 2015-12-22 2016-05-18 上海应用技术学院 基于自适应调整的高斯混合模型的人声识别方法
CN106209786A (zh) * 2016-06-27 2016-12-07 四川阿泰因机器人智能装备有限公司 一种大数据并行化声纹认证方法
CN106297805A (zh) * 2016-08-02 2017-01-04 电子科技大学 一种基于呼吸特征的说话人识别方法
CN106297805B (zh) * 2016-08-02 2019-07-05 电子科技大学 一种基于呼吸特征的说话人识别方法
CN107422643A (zh) * 2016-08-26 2017-12-01 深圳大学 基于振动检测的智能家居监控方法及系统
CN108235181B (zh) * 2016-12-13 2021-06-08 奥迪康有限公司 在音频处理装置中降噪的方法
CN108235181A (zh) * 2016-12-13 2018-06-29 奥迪康有限公司 在音频处理装置中降噪的方法
CN107610707A (zh) * 2016-12-15 2018-01-19 平安科技(深圳)有限公司 一种声纹识别方法及装置
CN106653047A (zh) * 2016-12-16 2017-05-10 广州视源电子科技股份有限公司 一种音频数据的自动增益控制方法与装置
CN106610451B (zh) * 2016-12-23 2019-01-04 杭州电子科技大学 基于倒谱及贝叶斯决策的周期信号基频提取与匹配方法
CN108269573A (zh) * 2017-01-03 2018-07-10 蓝盾信息安全技术有限公司 基于矢量量化和高斯混合模型的说话人识别系统
WO2018149077A1 (zh) * 2017-02-16 2018-08-23 平安科技(深圳)有限公司 声纹识别方法、装置、存储介质和后台服务器
US10629209B2 (en) 2017-02-16 2020-04-21 Ping An Technology (Shenzhen) Co., Ltd. Voiceprint recognition method, device, storage medium and background server
CN106782505A (zh) * 2017-02-21 2017-05-31 南京工程学院 一种基于放电声音识别高压开关柜状态的方法
WO2018223727A1 (zh) * 2017-06-09 2018-12-13 平安科技(深圳)有限公司 识别声纹的方法、装置、设备及介质
CN107610708A (zh) * 2017-06-09 2018-01-19 平安科技(深圳)有限公司 识别声纹的方法及设备
CN107134277A (zh) * 2017-06-15 2017-09-05 深圳市潮流网络技术有限公司 一种基于gmm模型的语音激活检测方法
CN107545898B (zh) * 2017-08-07 2020-07-14 清华大学 一种区分说话人语音的处理方法及装置
CN107545898A (zh) * 2017-08-07 2018-01-05 清华大学 一种区分说话人语音的处理方法及装置
CN107481736A (zh) * 2017-08-14 2017-12-15 广东工业大学 一种声纹身份认证装置及其认证优化方法和系统
CN107240397A (zh) * 2017-08-14 2017-10-10 广东工业大学 一种基于声纹识别的智能锁及其语音识别方法和系统
CN107919115A (zh) * 2017-11-13 2018-04-17 河海大学 一种基于非线性谱变换的特征补偿方法
CN107919115B (zh) * 2017-11-13 2021-07-27 河海大学 一种基于非线性谱变换的特征补偿方法
WO2019136811A1 (zh) * 2018-01-09 2019-07-18 平安科技(深圳)有限公司 语音对比方法、终端及计算机可读存储介质
CN108417226A (zh) * 2018-01-09 2018-08-17 平安科技(深圳)有限公司 语音对比方法、终端及计算机可读存储介质
CN108417207A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 一种深度混合生成网络自适应方法及系统
CN110097066B (zh) * 2018-01-31 2024-01-05 阿里巴巴集团控股有限公司 一种用户分类方法、装置及电子设备
CN110097066A (zh) * 2018-01-31 2019-08-06 阿里巴巴集团控股有限公司 一种用户分类方法、装置及电子设备
CN110322886A (zh) * 2018-03-29 2019-10-11 北京字节跳动网络技术有限公司 一种音频指纹提取方法及装置
CN108627241B (zh) * 2018-05-11 2020-07-24 西安理工大学 一种基于高斯混合模型的宽吻海豚click信号检测方法
CN108627241A (zh) * 2018-05-11 2018-10-09 西安理工大学 一种基于高斯混合模型的宽吻海豚click信号检测方法
CN108922541A (zh) * 2018-05-25 2018-11-30 南京邮电大学 基于dtw和gmm模型的多维特征参数声纹识别方法
CN108831487A (zh) * 2018-06-28 2018-11-16 深圳大学 声纹识别方法、电子装置及计算机可读存储介质
CN108593282A (zh) * 2018-07-05 2018-09-28 国网安徽省电力有限公司培训中心 一种断路器在线监测和故障诊断装置及其工作方法
CN108847253A (zh) * 2018-09-05 2018-11-20 平安科技(深圳)有限公司 车辆型号识别方法、装置、计算机设备及存储介质
CN109146002B (zh) * 2018-09-30 2021-06-01 佛山科学技术学院 一种gmm识别器的快速识别方法
CN109146002A (zh) * 2018-09-30 2019-01-04 佛山科学技术学院 一种gmm识别器的快速识别方法
CN109243487A (zh) * 2018-11-30 2019-01-18 宁波大学 一种归一化常q倒谱特征的回放语音检测方法
CN109243487B (zh) * 2018-11-30 2022-12-27 宁波大学 一种归一化常q倒谱特征的回放语音检测方法
CN109657706A (zh) * 2018-12-03 2019-04-19 浙江工业大学 基于高斯混合模型贝叶斯算法的柔性零件装配过程接触状态识别方法
CN109545015A (zh) * 2019-01-23 2019-03-29 广东小天才科技有限公司 一种科目类型的识别方法及家教设备
CN109948481A (zh) * 2019-03-07 2019-06-28 惠州学院 一种基于窄带射频链路采样的无源人体识别方法
CN109948481B (zh) * 2019-03-07 2024-02-02 惠州学院 一种基于窄带射频链路采样的无源人体识别方法
CN109840517A (zh) * 2019-03-08 2019-06-04 兰州交通大学 一种mems陀螺噪声估计和滤波方法
CN109887510A (zh) * 2019-03-25 2019-06-14 南京工业大学 一种基于经验模态分解与mfcc的声纹识别方法及装置
CN110155064B (zh) * 2019-04-22 2020-12-18 江苏大学 基于声音信号的特种车辆行驶车道识别与自车变道决策系统及方法
CN110155064A (zh) * 2019-04-22 2019-08-23 江苏大学 基于声音信号的特种车辆行驶车道识别与自车变道决策系统及方法
CN110222578A (zh) * 2019-05-08 2019-09-10 腾讯科技(深圳)有限公司 对抗测试看图说话系统的方法和装置
CN110110790A (zh) * 2019-05-08 2019-08-09 中国科学技术大学 采用无监督聚类得分规整的说话人确认方法
CN110222578B (zh) * 2019-05-08 2022-12-27 腾讯科技(深圳)有限公司 对抗测试看图说话系统的方法和装置
CN110299150A (zh) * 2019-06-24 2019-10-01 中国科学院计算技术研究所 一种实时语音说话人分离方法及系统
CN112185411A (zh) * 2019-07-03 2021-01-05 南京人工智能高等研究院有限公司 语音分离方法、装置、介质和电子设备
CN110853652A (zh) * 2019-10-10 2020-02-28 平安科技(深圳)有限公司 身份识别方法、装置及计算机可读存储介质
CN110689893A (zh) * 2019-10-12 2020-01-14 四川虹微技术有限公司 一种提高语音支付安全性的方法
CN111027453A (zh) * 2019-12-06 2020-04-17 西北工业大学 基于高斯混合模型的非合作水中目标自动识别方法
CN111027453B (zh) * 2019-12-06 2022-05-17 西北工业大学 基于高斯混合模型的非合作水中目标自动识别方法
CN111429922A (zh) * 2020-03-27 2020-07-17 佛山科学技术学院 一种基于自适应语音增强的说话人识别方法及装置
CN111489763B (zh) * 2020-04-13 2023-06-20 武汉大学 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN111489763A (zh) * 2020-04-13 2020-08-04 武汉大学 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN111554273A (zh) * 2020-04-28 2020-08-18 华南理工大学 一种语音关键词识别中扩增语料的选取方法
CN111554273B (zh) * 2020-04-28 2023-02-10 华南理工大学 一种语音关键词识别中扩增语料的选取方法
CN113660670B (zh) * 2020-05-12 2024-02-06 哈尔滨工程大学 基于射频指纹的无线设备身份认证方法及其装置
CN113660670A (zh) * 2020-05-12 2021-11-16 哈尔滨工程大学 基于射频指纹的无线设备身份认证方法及其装置
CN111816185A (zh) * 2020-07-07 2020-10-23 广东工业大学 一种对混合语音中说话人的识别方法及装置
CN111968673A (zh) * 2020-07-29 2020-11-20 厦门快商通科技股份有限公司 一种音频事件检测方法及系统
CN111862950A (zh) * 2020-08-03 2020-10-30 深圳作为科技有限公司 一种交互式多功能的老年护理机器人识别系统
CN112164404A (zh) * 2020-10-28 2021-01-01 广西电网有限责任公司贺州供电局 一种基于声纹识别技术的远程身份认证方法及系统
CN112397074A (zh) * 2020-11-05 2021-02-23 桂林电子科技大学 基于mfcc和向量元学习的声纹识别方法
CN112530407B (zh) * 2020-11-25 2021-07-23 北京快鱼电子股份公司 一种语种识别方法及系统
CN112530407A (zh) * 2020-11-25 2021-03-19 北京快鱼电子股份公司 一种语种识别方法及系统
CN112885358A (zh) * 2021-01-22 2021-06-01 江西师范大学 一种基于双向长短期记忆网络的说话人确认欺骗检测方法
CN113643692A (zh) * 2021-03-25 2021-11-12 河南省机械设计研究院有限公司 基于机器学习的plc语音识别方法
CN113643692B (zh) * 2021-03-25 2024-03-26 河南省机械设计研究院有限公司 基于机器学习的plc语音识别方法
CN113077798A (zh) * 2021-04-01 2021-07-06 山西云芯新一代信息技术研究院有限公司 一种居家老人呼救设备
CN113112999B (zh) * 2021-05-28 2022-07-12 宁夏理工学院 基于dtw和gmm的短词句语音识别方法及系统
CN113112999A (zh) * 2021-05-28 2021-07-13 宁夏理工学院 基于dtw和gmm的短词句语音识别方法及系统
CN113593597B (zh) * 2021-08-27 2024-03-19 中国电信股份有限公司 语音噪声过滤方法、装置、电子设备和介质
CN113593597A (zh) * 2021-08-27 2021-11-02 中国电信股份有限公司 语音噪声过滤方法、装置、电子设备和介质
CN113808370A (zh) * 2021-09-17 2021-12-17 国家石油天然气管网集团有限公司 一种面向滑坡的多指标耦合监测预警方法
CN114113943A (zh) * 2021-11-25 2022-03-01 广东电网有限责任公司广州供电局 基于电流和超声信号的变压器局放检测系统、方法及设备
CN114299953A (zh) * 2021-12-29 2022-04-08 湖北微模式科技发展有限公司 一种结合嘴部运动分析的话者角色区分方法与系统
CN114355289B (zh) * 2022-03-19 2022-06-10 深圳市烽火宏声科技有限公司 声源定位方法、装置、存储介质及计算机设备
CN114355289A (zh) * 2022-03-19 2022-04-15 深圳市烽火宏声科技有限公司 声源定位方法、装置、存储介质及计算机设备
CN115223576A (zh) * 2022-06-23 2022-10-21 国网江苏省电力有限公司南京供电分公司 基于mfcc的变压器声纹特征可控精度提取和识别方法与系统
CN115223576B (zh) * 2022-06-23 2024-07-12 国网江苏省电力有限公司南京供电分公司 基于mfcc的变压器声纹特征可控精度提取和识别方法与系统
CN115514690B (zh) * 2022-09-01 2023-08-22 西北工业大学 一种非合作水声网络mac协议识别方法
CN115514690A (zh) * 2022-09-01 2022-12-23 西北工业大学 一种非合作水声网络mac协议识别方法
CN116040892A (zh) * 2023-04-03 2023-05-02 珠水(广东)生态环境研究院有限公司 一种生活垃圾污水处理方法

Similar Documents

Publication Publication Date Title
CN102324232A (zh) 基于高斯混合模型的声纹识别方法及系统
CN102509547B (zh) 基于矢量量化的声纹识别方法及系统
Martinez et al. Speaker recognition using Mel frequency Cepstral Coefficients (MFCC) and Vector quantization (VQ) techniques
CN104900235B (zh) 基于基音周期混合特征参数的声纹识别方法
Reynolds An overview of automatic speaker recognition technology
Chavan et al. An overview of speech recognition using HMM
EP0822539B1 (en) Two-staged cohort selection for speaker verification system
CN102800316A (zh) 基于神经网络的声纹识别系统的最优码本设计方法
CN101540170B (zh) 一种基于仿生模式识别的声纹识别方法
CN113823293B (zh) 一种基于语音增强的说话人识别方法及系统
Todkar et al. Speaker recognition techniques: A review
CN109961794A (zh) 一种基于模型聚类的分层说话人识别方法
Abdallah et al. Text-independent speaker identification using hidden Markov model
Chauhan et al. Speech to text converter using Gaussian Mixture Model (GMM)
KR100779242B1 (ko) 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법
Goh et al. Robust computer voice recognition using improved MFCC algorithm
Thian et al. Spectral subband centroids as complementary features for speaker authentication
CN112992155A (zh) 一种基于残差神经网络的远场语音说话人识别方法及装置
Koolagudi et al. Speaker recognition in the case of emotional environment using transformation of speech features
Reynolds et al. Automatic speaker recognition
Rao et al. Robust features for automatic text-independent speaker recognition using Gaussian mixture model
Punchihewa et al. Voice command interpretation for robot control
Singh et al. Features and techniques for speaker recognition
Komlen et al. Text independent speaker recognition using LBG vector quantization
Mohamed et al. An Overview of the Development of Speaker Recognition Techniques for Various Applications.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120118