CN104157290A - 一种基于深度学习的说话人识别方法 - Google Patents

一种基于深度学习的说话人识别方法 Download PDF

Info

Publication number
CN104157290A
CN104157290A CN201410409252.XA CN201410409252A CN104157290A CN 104157290 A CN104157290 A CN 104157290A CN 201410409252 A CN201410409252 A CN 201410409252A CN 104157290 A CN104157290 A CN 104157290A
Authority
CN
China
Prior art keywords
voice
degree
sigma
short
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410409252.XA
Other languages
English (en)
Other versions
CN104157290B (zh
Inventor
陈喆
殷福亮
耿国胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201410409252.XA priority Critical patent/CN104157290B/zh
Publication of CN104157290A publication Critical patent/CN104157290A/zh
Application granted granted Critical
Publication of CN104157290B publication Critical patent/CN104157290B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的说话人识别方法,包括以下步骤:S1:对采集到的语音信号进行预加重和交叠式分帧加窗;S2:采用基于短时能量和短时过零率的双阈值端点检测法对语音信号进行端点检测,判断识别语音的开始时刻、过渡阶段、噪声段和结束时刻;S3:对语音信号进行特征提取:S4:基于受限玻尔兹曼机分层组成深度信念网络模型,采用逐层贪婪算法结合说话人语音特征参数对建立好的深度信念网络模型进行训练,在深度信念网络模型的顶层加入Softmax分类器;S5:将说话人的语音特征输入到完成训练的深度信念网络模型中,计算该模型输出与其他说话人语音特征的相似概率,取概率最大所对应的说话人作为识别结果。

Description

一种基于深度学习的说话人识别方法
技术领域
本发明涉及语音处理技术领域,尤其涉及一种基于深度学习的说话人识别方法。
背景技术
说话人识别通常被称为声纹识别,与其他生物识别技术相比,具有自然方便、用户接受度高、所需设备成本低等特点。说话人识别技术在身份验证、门禁系统、人机交互、司法鉴定、通信网络、移动终端、银行系统、国防军事等领域得到了广泛应用。说话人识别技术主要包括语音特征参数提取和说话人模式分类。语音特征提取是提取说话人的语音特征和声道特性。目前,主流的特征参数,包括MFCC、LPCC、基音周期等,都是以单个特征为主,表征说话人个性的信息不足,影响识别精度。说话人模式分类主要是根据语音特征参数,通过建立说话人特征模型,对说话人进行识别与分类。说话人模型主要有支持向量机、神经网络、高斯混合模型、隐马尔科夫模型、矢量量化模型等。这些模型利用概率统计等技术对说话人建模,具有良好的适应性和表达能力,但存在收敛速度过慢、易陷入局部极小值以及人为提取特征造成的特征空间不完备等问题。
现有技术中,Gupta等在文献Gupta A,Gupta H.Applications of MFCC andvector quantization in speaker recognition[C].IEEE International Conference onIntelligent Systems and Signal Processing,Gujarat,India,2013:170-173.中应用梅尔倒谱系数(MFCC)作为语音特征参数,并通过矢量量化模型进行说话人识别。该方法提取5维、12维、26维的梅尔倒谱系数,用8维、16维、32维、64维、128维的码书进行矢量量化,得到了较高的识别率。但是该方法在处理中具有以下缺陷:(1)在处理少量说话人时,效果尚可,但当说话人数目增多后,该方法的识别率较低;(2)仅用MFCC表征说话人的声道特征,其语音特征单一,鲁棒性差,识别效果不理想。
现有技术中:2006年,王金明等在文献:王金明,张雄伟.一种模糊高斯混合说话人识别模型[J].解放军理工大学学报(自然科学版),2006,7(3):214-219.将高斯混合模型应用到说话人识别系统中。该方法用MFCC表述语音特征,用高斯混合模型GMM对说话人特征建模,实验结果表明,该方法在开集与闭集说话人确认中,有较好的识别率。但是该方法具有如下缺陷:(1)对于纯净的说话人语音,识别效果尚可,但有噪声干扰时,识别性能明显下降,抗干扰能力弱;(2)采用高斯混合模型进行说话人识别,需要人为设定特征参数,不能自动学习出隐含的深层次特征,所以特征参数不完备。
在2011年07月20日公开的公开号为CN102129860A的中国专利中,申请人公开了一种基于无限状态隐马尔科夫模型的与文本相关的说话人识别方法。该发明通过提取线性预测倒谱系数(LPCC)作为语音特征参数,用隐马尔科夫模型(HMM)进行训练和识别,在识别阶段,计算说话人模型的似然值,将具有最大似然值所对应的说话人作为识别结果。但是该方法具有以下缺陷:(1)该方法进行说话人识别时,需要计算待测语音与所有说话人训练模型的似然度,识别计算量较大;(2)仅用LPCC表征说话人的声道特征,对于说话人辅音的表示不足,识别效果不好。
发明内容
根据现有技术中在进行说话人识别过程中大多采用的是单一语音特征,不能全面表征说话人声道特性、鲁棒性较差以及采用的说话人识别模型通常是人为设定特征参数,而不能自动学习更深层次的特征信息,识别效果不理想等问题,本发明公开了一种基于深度学习的说话人识别方法,通过对说话人的语音信号进行处理、建立基于受限玻尔兹曼机的深度信念网络模型,采用逐层贪婪算法,结合说话人语音特征参数,对建立好的深度信念网络模型进行训练,从而确定模型参数,然后再次输入语音信号,完成语音的识别过程。
本发明还具有以下有益效果:
1、本发明采用梅尔倒谱系数与Gammatone频率倒谱系数的组合特征,作为说话人的语音特征,而不是单一语音特征,提高了系统识别率。
2、本发明采用深度信念网络模型作为说话人模型,该模型具有提取语音特征深层次表示等特点,能够克服传统神经网络模型易收敛到局部极小值等问题,提高了系统的识别率。
3、在深度信念网络的顶层引入Softmax分类器,使得训练的深度信念网络具有良好的分类功能。
4、采用基于短时能量和短时过零率的双阈值端点检测法,可以精确地区分语音与噪声,有效地提高后续特征参数提取模块的准确性。
5、在进行说话人识别训练时,采用对比散度方法,提高了算法的执行效率,减少了计算复杂度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于深度学习的语音识别方法的流程图;
图2为本发明中分帧交叠示意图;
图3为本发明中双阈值的端点检测处理的流程图;
图4为本发明中语音混合特征获取过程的示意图;
图5为本发明中三层式深度信念网络示意图;
图6为本发明中受限玻尔兹曼机的结构示意图;
图7为本发明中多层RBM的级联的结构示意图;(其中底层RBM训练的输出作为下一层RBM训练的输入);
图8为本发明中图7中多层RBM的级联对应的深度信念网络的示意图;
图9为本发明中采用不同语音特征的系统识别结果绘制出折线图。
具体实施方式
为使本发明的技术方案和优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述:
如图1所示:一种基于深度学习的说话人识别方法,具体采用以下步骤:
S1:对采集到的语音信号进行预加重和交叠式分帧加窗:对语音信号进行高通滤波,对语音信号采用交叠的方式进行分帧后,采用Hamming窗对语音信号进行加窗。
预加重:语音的预加重操作是通过高通滤波器来完成,高通滤波器的传递输函数如下所示
H(z)=1-az-1    (1)
其中,预加重系数a=0.9375。
语音信号的预加重处理过程如下:
s ^ ( n ) = s ( n ) - as ( n - 1 ) - - - ( 2 )
这里,s(n)为预加重前的语音信号,为预加重后的语音信号。
分帧加窗:分帧是将语音信号分成若干段处理,每段称为一“帧”。本发明采用交叠的方式进行分帧,即前后两帧会产生交叠,交叠的部分叫做帧移,本发明选取一帧语音长度为16毫秒,帧移为帧长的一半,分帧交叠的示意图如图2所示。语音信号进行分帧处理后,频谱泄漏现象将会产生,所以分帧后需要进行加窗处理,即将语音信号与窗函数相乘,这样可以减少分帧截断处理引入的频谱泄漏问题。本发明采用Hamming窗对语音信号进行加窗,Hamming窗为:
其中,N为帧长,本发明取为256。
对每一帧预加重后的语音进行加窗后,得到x(n),从而完成语音的预处理过程。
x ( n ) = s ^ ( n ) w ( n ) , n = 1,2 , . . . , N - - - ( 4 )
S2:采用基于短时能量和短时过零率的双阈值端点检测法对语音信号进行端点检测,判断语音的开始和结束时刻:
具体方式为:如图3所示:首先通过设定短时能量和短时过零率两个阈值,来确定语音起始的位置和终止的位置。整个端点检测算法分成四个阶段:静音阶段、过渡阶段、语音阶段段和语音结束阶段。首先分别对短时能量与短时过零率设置两个初始阈值,其一是容易被越过的低阈值;其二是高阈值,只有信号强度足够大,才能被超过。当高阈值被越过时,可认为语音开始,而低阈值被越过,则认为有可能是噪声引起的。选取变量state代表当前的状态,当state为静音状态时,不论是语音信号的过零率或者语音信号的短时能量,只要有一个大于它们对应的低阈值,那么就标记此刻为语音起始的位置;在过渡阶段,不能确定此时一定是语音段,所以当短时能量与过零率的值都在低阈值以下,则认为当前状态为静音状态,如果短时能量和短时过零率这两个参数有一个超越高门限,当前状态则被认为步入语音段;当过零率与短时能量的数值在短时间内很高时,也不一定是由真正的语音引起的,实际上,突发性的噪声也会导致短时间内的数值颇高,所以为了判断更为准确,我们引入了最短时间阈值。在state为语音阶段时,如果过零率与短时能量的数值小于低阈值的时间小于最短时间阈值,则认为目前这段信号为一段噪声,继续处理后面语音;如果过零率与短时能量的数值小于低阈值的时间大于最短时间阈值,则认为语音结束,并进行下一帧数据的判断。
其中:第n帧语音信号的短时能量En满足
E n = = Σ m = 0 N - 1 [ s ^ ( n ) w ( n ) ] 2 - - - ( 5 )
其中,N为帧长,为预加重后的语音信号,w(n)为Hamming窗。
语音信号x(n)的短时过零率为:
Z n = Σ m = - ∞ + ∞ | sgn [ s ^ ( m ) ] - sgn [ s ^ ( m - 1 ) ] | w ( n - m ) = | sgn [ s ^ ( n ) ] - sgn [ s ^ ( n - 1 ) ] | w ( n ) - - - ( 6 )
这里,sgn[·]是符号函数,定义如下:
sgn [ s ^ ( n ) ] = 1 , s ^ ( n ) &GreaterEqual; 0 - 1 , s ^ ( n ) < 0 - - - ( 7 )
S3:对语音信号进行特征提取:计算每一帧语音的梅尔倒谱系数和Gammatone频率倒谱系数,将梅尔倒谱系数和Gammatone频率倒谱系数组成混合特征。如图4所示
本发明中针对每一帧语音x(n),通过计算,得到16维梅尔倒谱系数(MFCC)与16维的Gammatone频率倒谱系数(GFCC),然后将梅尔倒谱系数与Gammatone频率倒谱系数组成32维的混合特征。
梅尔倒谱系数的具体求解过程描述如下:
频谱计算
对语音x(n)做长度为N的离散傅立叶变换,得到其频谱X(k)
X ( k ) = &Sigma; n = 0 N x ( n ) exp ( - j 2 n&pi;k N ) - - - ( 8 )
Mel滤波器组
计算频谱幅度X(k)的平方,得到信号的能量谱,然后将信号的能量谱在Mel频率域做带通滤波操作。设Mel滤波器组由M个三角形带通滤波器构成,每个滤波器的中心频率设为f(m),m=1,2,…,M,当前滤波器中心频率的位置大约在下一个滤波器的旁瓣衰减位置。Mel滤波器组覆盖Nyquist频率以内的所有频带。第m个滤波器的中心频率f(m)计算如下
f ( m ) = N F s f mel - 1 ( f mel ( f l ) + m f mel ( f h ) - f mel ( f l ) M - 1 ) - - - ( 9 )
其中,FS为语音信号的采样频率,N为DFT变换的点数,fl和fh分别表示低通和高通滤波器的截止频率,单位是Hz,本发明中,M取40。具体的Mel滤波器组设计参数如表1所示。
表1 Mel滤波器组设计参数
编号 中心频率(Hz) 带宽(Hz) 编号 中心频率(Hz) 带宽(Hz)
1 50 100 21 1400 211
2 100 101 22 1520 228
3 150 102 23 1650 247
4 200 103 24 1790 268
5 250 104 25 1940 291
6 300 106 26 2100 317
7 350 109 27 2280 347
8 400 111 28 2480 382
9 460 115 29 2700 422
10 520 119 30 2950 470
11 580 123 31 3200 518
12 640 128 32 3500 570
13 710 133 33 3800 642
14 780 140 34 4150 718
15 850 146 35 4550 809
16 930 155 36 5000 914
17 1010 163 37 5480 1031
18 1100 174 38 6000 1162
19 1200 186 39 6600 1318
20 1300 198 40 7300 1508
是物理频率和Mel频率之间的反函数,即
f mel - 1 ( f ) = 700 ( e f 1127 - 1 ) - - - ( 10 )
第m个滤波器的频率响应Wm(k)为
W m ( k ) = 0 , k < f ( i - 1 ) k - f ( i - 1 ) f ( i ) - f ( i - 1 ) , f ( i - 1 ) &le; k < f ( i + 1 ) f ( i + 1 ) - k f ( i + 1 ) - f ( i - 1 ) , f ( i ) &le; k < f ( i + 1 ) 0 , k > f ( i + 1 ) - - - ( 11 )
对数能量计算
为了使上述结果有较小的波动范围,同时具有较高的稳定性,将输出的频谱能量做取对数操作,得到的s(m)如下
s ( m ) = ln [ &Sigma; k = 0 M - 1 | X ( k ) | 2 W m ( k ) ] , 0 &le; m < M - - - ( 12 )
离散余弦变换
对对数能量s(m)做离散余弦变换,将其转换到时域,得到参数c(n),这就是梅尔倒谱系数,即
c ( n ) = &Sigma; m = 0 M - 1 s ( m ) cos [ &pi;n ( m + 0.5 ) M ] , 0 &le; n < M - - - ( 13 )
Gammatone频率倒谱系数提取过程如下:
设计通道数为MCH的Gammatone(GT)滤波器组,GT滤波器冲激响应表达式为:
G i ( z ) = T s - T s a 3 ( a 1 + ( 2 - 1 ) a 2 ) z - 1 1 - 2 a 1 a 3 z - 1 + a 3 2 z - 2 &times; T s - T s a 3 ( a 1 - ( 2 - 1 ) a 2 ) z - 1 1 - 2 a 1 a 3 z - 1 + a 3 2 z - 2 &times; T s - T s a 3 ( a 1 + ( 2 + 1 ) a 2 ) z - 1 1 - 2 a 1 a 3 z - 1 + a 3 2 z - 2 &times; T s - T s a 3 ( a 1 - ( 2 + 1 ) a 2 ) z - 1 1 - 2 a 1 a 3 z - 1 + a 3 2 z - 2 = G 1 , i ( z ) &CenterDot; G 2 , i ( z ) &CenterDot; G 3 , i ( z ) &CenterDot; G 4 , i ( z ) - - - ( 14 )
其中,a1=cos(ωiTs),a2=sin(ωiTs),a3=e-bTs,Ts=1/16000为采样周期,ωi=2πfi,b=2πb1(24.7+0.108fi),其中b1为1.019,fi为每个GT滤波器的中心频率,如表2所示:
表2 Gammatone滤波器组的设计参数
将上述4个二阶传递函数分别进行Z域反变换,得到对应的4个时域信号g1,i(n),g2,i(n),g3,i(n)和g4,i(n),然后将其与输入信号进行卷积后,得到GT滤波器的输出。
yi(n)=x(n)*g1,i(n)*g2,i(n)*g3,i(n)*g4,i(n),i=0,1,…,MCH-1    (15)
其中,“*”为信号处理中的卷积操作。
对GT滤波器组的输出信号yi(n)作短时傅里叶变换,可以计算出各通道信号的频域表示Yi(k)。
Y i ( k ) = &Sigma; n = 0 N - 1 y i ( n ) w r ( n - k ) e - j&omega;n , k = 0,1 , . . . , M CH - 1 - - - ( 16 )
其中,wr(n)为矩形窗。
求频域信号的对数能量:将各个通道GT滤波器输出频域信号的能量和取对数,得到各通道的频域信号能量谱。
E ( m ) = log 10 [ &Sigma; k Y i ( k ) Y i * ( k ) ] , m = 0,1 , . . . , M CH - 1 - - - ( 17 )
对式(17)输出的各通道能量谱做离散余弦变换后,得到的语音参数即为上述的Gammatone频率倒谱系数(GFCC)。
C ( p ) ( 0 ) = 2 L &Sigma; m = 0 M CH - 1 E ( m ) , l = 0 C ( p ) ( l ) = 2 L &Sigma; m = 0 M CH - 1 E ( m ) cos ( &pi;l ( 2 m + 1 ) 2 M CH ) , 1 &le; l < L - - - ( 18 )
这里,L是GT滤波器阶数,本发明中L取32,MCH取32。
S4:基于受限玻尔兹曼机分层组成深度信念网络模型,采用逐层贪婪算法,结合说话人语音特征参数,对建立好的深度信念网络模型进行训练,通过学习确定模型的参数,在深度信念网络的顶层加入Softmax分类器,使深度信念网络模型具有分类功能。
如图5~图8所示:逐层贪婪算法具体方式是:将多个受限玻尔兹曼机由下至上进行叠加,得到多输入多输出深度信念网络,将训练的说话人语音特征从最底层进行训练,得到第一层受限玻尔兹曼机的输出,将第一层受限玻尔兹曼机输出作为第二层受限玻尔兹曼机的输入进行重新训练,得到第二层的模型参数,按照以上方式构建出深度信念网络模型。受限玻尔兹曼机是一个基于能量的生成性模型,其由一个输入层和一个隐含层构成,层内无连接,层间全连接。受限玻尔兹曼机可以表示成一个无向图的形式,如图6所示。其中v为可视层,h为隐含层。对于给定可视层单元v和隐含层单元h,给定一个能量函数E(v,h;θ),联合概率分布P(v,h;θ)可以表示为:
P ( v , h ; &theta; ) = 1 Z ( &theta; ) exp ( - E ( v , h ; &theta; ) ) - - - ( 19 )
Z ( &theta; ) = &Sigma; v &Sigma; h exp ( - E ( v , h ; &theta; ) ) - - - ( 20 )
这里Z(θ)称为分配函数;受限玻尔兹曼机的能量函数如下
E ( v , h ; &theta; ) = - v T Wh - b T v - a T h = - &Sigma; i = 1 D &Sigma; j = 1 F W ij v i h j - &Sigma; i = 1 D b i v i - &Sigma; j = 1 F a j h j - - - ( 21 )
其中,D为可视层单元个数,F为隐藏层单元个数,θ={W,b,a}为模型参数,Wij为可视层单元i与隐藏层单元j之间的权重系数;ai和bj分别为相应单元的偏置。受限玻尔兹曼机的隐藏层单元之间、可视层单元之间是相互独立的,在已知可视向量v的情况下,隐藏层单元h的概率分布可以表示为
P ( h | v ; &theta; ) = &Pi; j p ( h j | v ) - - - ( 22 )
p ( h i = 1 | v ) = sigma ( &Sigma; i W ij v ij + a j ) - - - ( 23 )
同理,给定隐含层状态时,可视层单元v的概率分布可以表示为
P ( v | h ; &theta; ) = &Pi; i p ( v i | h ) - - - ( 24 )
p ( v i = 1 | h ) = sigma ( &Sigma; j W ij h ij + b i ) - - - ( 25 )
其中,sigma(x)=1/[1+exp(-x)]为S形激活函数。为了训练受限玻尔兹曼机,对模型参数求偏导,得到
&PartialD; log P ( v ; &theta; ) &PartialD; W = E P data [ vh T ] - E P Model [ vh T ] - - - ( 26 )
&PartialD; log P ( v ; &theta; ) &PartialD; a = E P data [ h ] - E P Model [ h ] - - - ( 27 )
&PartialD; log P ( v ; &theta; ) &PartialD; b = E P data [ v ] - E P Model [ v ] - - - ( 28 )
其中,表示数据分布Pdata(h,v;θ)=P(h|v;θ)Pdata(v)的期望,表示经验分布,表示式(19)模型分布的期望。采用对比散度方法对深度信念网络模型进行训练求解模型参数,即
&Delta;W = &alpha; ( E P data [ vh T ] - E P T [ vh T ] ) - - - ( 29 )
其中,α为学习率,PT表示训练数据初始化后进行T步吉布斯(Gibbs)采样的概率分布,T设置为1。设v0为可视层初始状态,具体采样过程描述如下:
h0~p(h|v0),v1~p(v|h0)
h1~p(h,v1),v2~p(v|h1)
其中,x~p(h|v0)表示x是从概率p(h|v0)上得到的随机采样。通过以上步骤对梯度进行估计的过程称为对比散度。以上的梯度估计过程,可以使用随机梯度下降法,在训练集内迭代,选择v0进行参数的更新。
对于偏置向量b和a的更新,采用类似的过程,具体算法如下所示:输入:训练样本的混合语音特征x,RBM的权重Wi,偏置bi和ai,学习率为α
初始化RBM参数:
W←Wi,b←bi,a←ai
v0←x
h ~ 0 &LeftArrow; sigma ( b + Wv 0 )
吉布斯采样过程(对比散度过程):
h0~p(h|v0)
v1~p(v|h0)
h1←sigma(b+Wv1)
模型参数更新过程:
W i &LeftArrow; W i + &alpha; ( h ~ 0 ( v 0 ) T - h ~ 1 ( v 1 ) T )
b i &LeftArrow; b i + &alpha; ( h ~ 0 - h ~ 1 )
ai←ai+α(v0-v1)
进一步地,Softmax分类器的基础是Logistic回归(Logistic Regressior,LR)分类器,Logistic回归分类器只能实现非线性的二分类,因此Softmax分类器对Logistic回归分类器进行了扩展,使其能够同时对多个类别进行划分。
在深度信念网络的顶层加入Softmax分类器,并对这层进行训练,得到该层的参数,具体过程如下:
S i = SoftMax ( f ) = e f i &Sigma; i = 1 d e f i - - - ( 30 )
其中:fθ(x)=WdX+bd,θ={Wd,bd},X为隐藏层各神经元状态,θ为模型参数,数据分类用t=[0,1]d表示,那么当第i个模式分类为真时,ti=1;否则,ti=0;
Si的损失函数采用交叉熵形式
J ( t , S ) = - 1 d [ &Sigma; i = 1 d ( t i log S i + ( 1 - t i ) log ( 1 - S i ) ) ] - - - ( 31 )
采用使式(31)的损失函数最小,调整训练深度学习模型参数θ
θ*=arg minθJ(t,S)    (32)
采用梯度下降法迭代更新模型参数θ,使得损失函数达到最小。对深度学习模型参数θ求偏导得到
&PartialD; J ( t , S ) &PartialD; &theta; = - 1 d &Sigma; i = 1 d ( t i - S i ) &PartialD; f i &PartialD; &theta; - - - ( 33 )
从式(33)可以得到,模型参数的更新过程为
W d &prime; = W d - &eta; ( ( S - t ) T X + &lambda; W d ) b d &prime; = b d - &eta; ( S - t + &lambda; b d ) - - - ( 34 )
其中,λ为加权因子,η为学习因子。
S5:将说话人的语音特征输入到完成训练的深度信念网络模型中。计算该模型输出与其他说话人的相似概率,取概率最大所对应的说话人作为识别结果。
具体如何识别采用如下方式:
(1)识别模型底层的输出状态作为下一个隐含层的输入状态,逐层计算,最终得到DBN模型最顶层的输出状态,如式(31)所示:
XL=WL-1XL-1+bL-1    (35)
其中,L为DBN模型层数,XL为第L层的输出状态,XL-1为第L-1层的输出状态,bL-1为第L-1层的偏置项,WL-1为第L层与第L-1层的权重关系。
(2)计算Softmax回归层输出状态Y
Y=WLXL+c    (36)
其中,WL为DBN最顶层与Softmax回归层间的权重关系,c为该层的偏置项。
(3)通过式(32)得到Softmax回归层输出状态Y后,用Softmax分类器计算待测语音相似于第i个说话人的概率。
p i = e x i &Sigma; i = 1 d e x i - - - ( 37 )
其中,xi为Y的第i个分量,d为Y的维数。
(4)将pi的最大值对应的第i个说话人作为待测语音的识别结果。
实施例:
在实验中,所用的参数为:语音采样率为16kHz,采用16比特编码的PCM格式语音,帧长16毫秒,预加重系数a=0.9375;短时能量与短时过零率的阈值分别为67108864与30;选取10个说话人,每个说话人用来训练的语音长度大约10秒,用来测试的语音单元长度分别取0.4秒、0.8秒、1.2秒、1.6秒与2.0秒,语音特征参数分别选取16维的MFCC、16维的GFCC以及MFCC与GFCC组合成32维的特征向量,深度信念网络模型的隐含层层数为3层,每个隐含层上的神经元个数为50个,训练次数为500次。说话人识别结果如表3所示,然后将不同语音特征的系统识别结果绘制出折线图如图9所示。
表3 分别采用GFCC、MFCC、GFCC+MFCC特征参数的说话人识别率
测试语音单位时间(秒) 0.4 0.8 1.2 1.6 2.0
MFCC(%) 67.5 83.7 93.1 97.5 98.8
GFCC(%) 65.4 81.4 93.8 96.8 98.8
GFCC+MFCC(%) 72.4 85.4 95.2 98.0 98.8
从表3可以看出,当测试语音单位长度在0.8秒时,MFCC+GFCC方法识别率最好,其次是MFCC,最差为GFCC。当测试语音单位长度大于1.2秒时,MFCC+GFCC方法识别率达到98%以上。从图8中也可以明显看出,当测试语音单位长度大于1.2秒时,三种特征得到的系统识别率都很高,但是在测试语音单位长度小于1秒时,MFCC+GFCC的组合能够比单独使用MFCC与GFCC得到更高的系统识别率,此实验验证了本发明的有效性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种基于深度学习的说话人识别方法,其特征在于包括以下步骤:
S1:对采集到的语音信号进行预加重和交叠式分帧加窗:对语音信号进行高通滤波、对语音信号采用交叠的方式进行分帧后,采用Hamming窗对语音信号进行加窗;
S2:采用基于短时能量和短时过零率的双阈值端点检测法对语音信号进行端点检测,判断识别语音的开始时刻、过渡阶段、噪声段和结束时刻;
S3:对语音信号进行特征提取:计算每一帧语音的梅尔倒谱系数和Gammatone频率倒谱系数,将梅尔倒谱系数和Gammatone频率倒谱系数组成语音的混合特征;
S4:基于受限玻尔兹曼机分层组成深度信念网络模型,采用逐层贪婪算法结合说话人语音特征参数对建立好的深度信念网络模型进行训练,通过训练学习确定模型的参数,在深度信念网络模型的顶层加入Softmax分类器;
S5:将待识别说话人的语音特征输入到完成训练的深度信念网络模型中,该模型输出与训练过的说话人语音特征相似的概率,取概率最大所对应的说话人作为识别结果。
2.根据权利要求1所述的一种基于深度学习的说话人识别方法,其特征还在于:S2中所述端点检测具体采用如下方式,分别设置短时能量和短时过零率的低阈值和高阈值;当某一时刻语音信号的过零率和短时能量至少有一个大于对应的低阈值时,则该时刻为语音的起始时刻;在过渡阶段,如果短时能量和短时过零率都小于对应的低阈值时,则当前语音为静音状态,如果短时能量和短时过零率至少有一个大于对应的高阈值时,则当前状态进入语音阶段;
在语音阶段:设置最短时间阈值,当某时间段内短时能量和短时过零率满足都小于对应阈值,该时间段间隔小于最短时间阈值时,则该时间段为噪声段,如果某时间段内短时能量和短时过零率满足都小于低阈值,该时间段间隔大于最短时间阈值时,则认为语音结束,进行下一帧数据判断。
3.根据权利要求1所述的一种基于深度学习的说话人识别方法,其特征还在于:S4中:将多个受限玻尔兹曼机分层组合,得到多输入多输出深度信念网络,将训练的说话人语音特征从最底层进行训练,得到第一层受限玻尔兹曼机的输出,将第一层受限玻尔兹曼机输出作为第二层受限玻尔兹曼机的输入进行重新训练,得到第二层的模型参数,按照以上方式构建出深度信念网络模型。
4.根据权利要求1所述的一种基于深度学习的说话人识别方法,其特征还在于:S4中:基于受限玻尔兹曼机的分层组成深度信念网络模型采用如下方式:设深度信念网络模型的可视层为v、隐含层为h,对于可视层单元v和隐含层单元h,给定一个能量函数E(v,h;θ),联合概率分布P(v,h;θ)可以表示为:
P ( v , h ; &theta; ) = 1 Z ( &theta; ) exp ( - E ( v , h ; &theta; ) ) - - - ( 19 )
Z ( &theta; ) = &Sigma; v &Sigma; h exp ( - E ( v , h ; &theta; ) ) - - - ( 20 )
其中Z(θ)称为分配函数,受限玻尔兹曼机的能量函数如下
E ( v , h ; &theta; ) = - v T Wh - b T v - a T h = - &Sigma; i = 1 D &Sigma; j = 1 F W ij v i h j - &Sigma; i = 1 D b i v i - &Sigma; j = 1 F a j h j - - - ( 21 )
其中,D为可视层单元个数,F为隐藏层单元个数,θ={W,b,a}为模型参数,Wij为可视层单元i与隐藏层单元j之间的权重系数;ai,bj分别为相应单元的偏置,在已知可视向量v的情况下,隐藏层单元h的概率分布可以表示为
P ( h | v ; &theta; ) = &Pi; j p ( h j | v ) - - - ( 22 )
p ( h i = 1 | v ) = sigma ( &Sigma; i W ij v ij + a j ) - - - ( 23 )
同理,给定隐含层状态时,可视层单元v的概率分布可以表示为
P ( v | h ; &theta; ) = &Pi; i p ( v i | h ) - - - ( 24 )
p ( v i = 1 | h ) = sigma ( &Sigma; j W ij h ij + b i ) - - - ( 25 )
其中,sigma(x)=1/(1+exp(-x))为S形激活函数,对模型参数求偏导,得到
&PartialD; log P ( v ; &theta; ) &PartialD; W = E P data [ vh T ] - E P Model [ vh T ] - - - ( 26 )
&PartialD; log P ( v ; &theta; ) &PartialD; a = E P data [ h ] - E P Model [ h ] - - - ( 27 )
&PartialD; log P ( v ; &theta; ) &PartialD; b = E P data [ v ] - E P Model [ v ] - - - ( 28 )
其中,表示数据分布Pdata(h,v;θ)=P(h|v;θ)Pdata(v)的期望,表示经验分布,表示公式(19)模型分布的期望,采用对比散度方法对深度信念网络模型进行训练求解模型参数,即
&Delta;W = &alpha; ( E P data [ vh T ] - E P T [ vh T ] ) - - - ( 29 )
其中,α为学习率,PT表示训练数据初始化后进行T步吉布斯(Gibbs)采样的概率分布,T设置为1,设v0为可视层初始状态,具体采样过程描述如下:
h0~p(h|v0),v1~p(v|h0)
h1~p(h,v1),v2~p(v|h1)
其中,x~p(h|v0)表示x是从概率分布p(h|v0)上得到的随机采样,选择可视层v0进行参数更新,此处输入训练样本的混合语音特征为x,受限玻尔兹曼机的权重为Wi,偏置为bi和ai,学习率为α。
5.根据权利要求1所述的一种基于深度学习的说话人识别方法,其特征还在于:在深度信念网络的顶层加入Softmax分类器,并对这层进行训练,得到该层的参数,具体过程如下:
S i = SoftMax ( f ) = e f i &Sigma; i = 1 d e f i - - - ( 30 )
其中:fθ(x)=WdX+bd,θ={Wd,bd},X为隐藏层各神经元状态,θ为模型参数,数据分类用t=[0,1]d表示,那么当第i个模式分类为真时,ti=1;否则,ti=0;Si的损失函数采用交叉熵形式
J ( t , S ) = - 1 d [ &Sigma; i = 1 d ( t i log S i + ( 1 - t i ) log ( 1 - S i ) ) ] - - - ( 31 )
采用使式(31)的损失函数最小,调整训练深度学习模型参数θ
θ*=arg minθJ(t,S)    (32)
采用梯度下降法迭代更新模型参数θ,使得损失函数达到最小,对深度学习模型参数θ求偏导得到
&PartialD; J ( t , S ) &PartialD; &theta; = - 1 d &Sigma; i = 1 d ( t i - S i ) &PartialD; f i &PartialD; &theta; - - - ( 33 )
从式(33)中可以得到,模型参数θ的更新过程为
W d &prime; = W d - &eta; ( ( S - t ) T X + &lambda; W d ) b d &prime; = b d - &eta; ( S - t + &lambda; b d ) - - - ( 34 )
其中,λ为加权因子,η为学习因子。
CN201410409252.XA 2014-08-19 2014-08-19 一种基于深度学习的说话人识别方法 Expired - Fee Related CN104157290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410409252.XA CN104157290B (zh) 2014-08-19 2014-08-19 一种基于深度学习的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410409252.XA CN104157290B (zh) 2014-08-19 2014-08-19 一种基于深度学习的说话人识别方法

Publications (2)

Publication Number Publication Date
CN104157290A true CN104157290A (zh) 2014-11-19
CN104157290B CN104157290B (zh) 2017-10-24

Family

ID=51882772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410409252.XA Expired - Fee Related CN104157290B (zh) 2014-08-19 2014-08-19 一种基于深度学习的说话人识别方法

Country Status (1)

Country Link
CN (1) CN104157290B (zh)

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408692A (zh) * 2014-11-25 2015-03-11 南京信息工程大学 一种基于深度学习的图像模糊模型参数分析方法
CN104757992A (zh) * 2015-03-16 2015-07-08 广东工业大学 一种基于深度置信网络的心音诊断系统及其诊断方法
CN104900235A (zh) * 2015-05-25 2015-09-09 重庆大学 基于基音周期混合特征参数的声纹识别方法
CN105118501A (zh) * 2015-09-07 2015-12-02 徐洋 语音识别的方法及系统
CN105321525A (zh) * 2015-09-30 2016-02-10 北京邮电大学 一种降低voip通信资源开销的系统和方法
CN105654964A (zh) * 2016-01-20 2016-06-08 司法部司法鉴定科学技术研究所 录音音频设备源认定方法和装置
CN105702250A (zh) * 2016-01-06 2016-06-22 福建天晴数码有限公司 语音识别方法和装置
CN106021314A (zh) * 2016-05-05 2016-10-12 腾讯科技(深圳)有限公司 一种多媒体数据处理方法及其设备
CN106297825A (zh) * 2016-07-25 2017-01-04 华南理工大学 一种基于集成深度信念网络的语音情感识别方法
CN106328123A (zh) * 2016-08-25 2017-01-11 苏州大学 小数据库条件下正常语音流中耳语音的识别方法
CN106601269A (zh) * 2016-12-28 2017-04-26 北京小米移动软件有限公司 终端状态确定方法及装置
CN106598921A (zh) * 2016-12-12 2017-04-26 清华大学 基于lstm模型的现代文到古诗的转换方法及装置
WO2017076211A1 (zh) * 2015-11-05 2017-05-11 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
CN106683683A (zh) * 2016-12-28 2017-05-17 北京小米移动软件有限公司 终端状态确定方法及装置
CN106791245A (zh) * 2016-12-28 2017-05-31 北京小米移动软件有限公司 确定滤波器系数的方法及装置
CN106847270A (zh) * 2016-12-09 2017-06-13 华南理工大学 一种双门限地名语音端点检测方法
CN106971724A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种防干扰声纹识别方法和系统
CN107358966A (zh) * 2017-06-27 2017-11-17 北京理工大学 基于深度学习语音增强的无参考语音质量客观评估方法
CN107731233A (zh) * 2017-11-03 2018-02-23 王华锋 一种基于rnn的声纹识别方法
CN107910017A (zh) * 2017-12-19 2018-04-13 河海大学 一种带噪语音端点检测中阈值设定的方法
CN108171796A (zh) * 2017-12-25 2018-06-15 燕山大学 一种基于三维点云的巡检机器人视觉系统及控制方法
CN108198574A (zh) * 2017-12-29 2018-06-22 科大讯飞股份有限公司 变声检测方法及装置
CN108256575A (zh) * 2018-01-17 2018-07-06 广东顺德工业设计研究院(广东顺德创新设计研究院) 图像识别方法、装置、计算机设备和存储介质
CN108447495A (zh) * 2018-03-28 2018-08-24 天津大学 一种基于综合特征集的深度学习语音增强方法
CN108665889A (zh) * 2018-04-20 2018-10-16 百度在线网络技术(北京)有限公司 语音信号端点检测方法、装置、设备及存储介质
CN108701452A (zh) * 2016-02-02 2018-10-23 日本电信电话株式会社 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置、音频模型学习程序及语音识别程序
CN108717854A (zh) * 2018-05-08 2018-10-30 哈尔滨理工大学 基于优化gfcc特征参数的说话人识别方法
CN108766419A (zh) * 2018-05-04 2018-11-06 华南理工大学 一种基于深度学习的非常态语音区别方法
CN108806725A (zh) * 2018-06-04 2018-11-13 平安科技(深圳)有限公司 语音区分方法、装置、计算机设备及存储介质
CN108922561A (zh) * 2018-06-04 2018-11-30 平安科技(深圳)有限公司 语音区分方法、装置、计算机设备及存储介质
CN108922513A (zh) * 2018-06-04 2018-11-30 平安科技(深圳)有限公司 语音区分方法、装置、计算机设备及存储介质
CN109147817A (zh) * 2018-08-29 2019-01-04 昆明理工大学 一种基于变异受限玻尔兹曼机的去噪音频特征提取算法
CN109357749A (zh) * 2018-09-04 2019-02-19 南京理工大学 一种基于dnn算法的电力设备音频信号分析方法
CN109472360A (zh) * 2018-10-30 2019-03-15 北京地平线机器人技术研发有限公司 神经网络的更新方法、更新装置和电子设备
CN109545299A (zh) * 2018-11-14 2019-03-29 严洋 基于人工智能的脑血管疾病风险快速识别辅助提示系统及方法
CN109584643A (zh) * 2018-11-05 2019-04-05 深圳大学 一种语言能力训练方法及其系统
CN110000610A (zh) * 2019-04-17 2019-07-12 哈尔滨理工大学 一种基于多传感器信息融合及深度置信网络的刀具磨损监测方法
CN110188870A (zh) * 2016-04-27 2019-08-30 北京中科寒武纪科技有限公司 用于执行人工神经网络自学习运算的装置和方法
CN110322887A (zh) * 2019-04-28 2019-10-11 武汉大晟极科技有限公司 一种多类型音频信号能量特征提取方法
CN110853631A (zh) * 2018-08-02 2020-02-28 珠海格力电器股份有限公司 智能家居的语音识别方法及装置
CN110867191A (zh) * 2018-08-28 2020-03-06 洞见未来科技股份有限公司 语音处理方法、信息装置与计算机程序产品
CN110992930A (zh) * 2019-12-06 2020-04-10 广州国音智能科技有限公司 声纹特征提取方法、装置、终端及可读存储介质
WO2020073694A1 (zh) * 2018-10-10 2020-04-16 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器
CN111415447A (zh) * 2019-12-10 2020-07-14 南京工业大学 一种多重认证的门禁系统
CN112017670A (zh) * 2020-08-13 2020-12-01 北京达佳互联信息技术有限公司 一种目标账户音频的识别方法、装置、设备及介质
CN112017676A (zh) * 2019-05-31 2020-12-01 京东数字科技控股有限公司 音频处理方法、装置和计算机可读存储介质
CN112309365A (zh) * 2020-10-21 2021-02-02 北京大米科技有限公司 语音合成模型的训练方法、装置、存储介质以及电子设备
CN112820299A (zh) * 2020-12-29 2021-05-18 马上消费金融股份有限公司 声纹识别模型训练方法、装置及相关设备
CN113409819A (zh) * 2021-08-19 2021-09-17 中国空气动力研究与发展中心低速空气动力研究所 一种基于听觉谱特征提取的直升机声信号识别方法
CN113571095A (zh) * 2021-06-17 2021-10-29 南京邮电大学 基于嵌套深度神经网络的语音情感识别方法和系统
CN113705671A (zh) * 2021-08-27 2021-11-26 厦门大学 一种基于文本相关信息感知的说话人识别方法与系统
CN113823293A (zh) * 2021-09-28 2021-12-21 武汉理工大学 一种基于语音增强的说话人识别方法及系统
CN115083423A (zh) * 2022-07-21 2022-09-20 中国科学院自动化研究所 语音鉴别的数据处理方法和装置
CN115862636A (zh) * 2022-11-19 2023-03-28 杭州珍林网络技术有限公司 一种基于语音识别技术的互联网人机验证方法
CN116801456A (zh) * 2023-08-22 2023-09-22 深圳市创洺盛光电科技有限公司 Led灯具的智能化控制方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013149123A1 (en) * 2012-03-30 2013-10-03 The Ohio State University Monaural speech filter
CN103531199A (zh) * 2013-10-11 2014-01-22 福州大学 基于快速稀疏分解和深度学习的生态声音识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013149123A1 (en) * 2012-03-30 2013-10-03 The Ohio State University Monaural speech filter
CN103531199A (zh) * 2013-10-11 2014-01-22 福州大学 基于快速稀疏分解和深度学习的生态声音识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KE CHEN ETC: "Learning Speaker-Specific Characteristics with a Deep Neural Architecture", 《IEEE TRANSACTIONS ON NEURAL NETWORKS》 *
陈硕: "深度学习神经网络在语音识别中的应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
马勇 等: "基于辨别性深度信念网络的说话人分割", 《清华大学学报(自然科学版)》 *

Cited By (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408692A (zh) * 2014-11-25 2015-03-11 南京信息工程大学 一种基于深度学习的图像模糊模型参数分析方法
CN104757992A (zh) * 2015-03-16 2015-07-08 广东工业大学 一种基于深度置信网络的心音诊断系统及其诊断方法
CN104900235A (zh) * 2015-05-25 2015-09-09 重庆大学 基于基音周期混合特征参数的声纹识别方法
CN105118501B (zh) * 2015-09-07 2019-05-21 徐洋 语音识别的方法及系统
CN105118501A (zh) * 2015-09-07 2015-12-02 徐洋 语音识别的方法及系统
CN105321525A (zh) * 2015-09-30 2016-02-10 北京邮电大学 一种降低voip通信资源开销的系统和方法
CN105321525B (zh) * 2015-09-30 2019-02-22 北京邮电大学 一种降低voip通信资源开销的系统和方法
WO2017076211A1 (zh) * 2015-11-05 2017-05-11 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
CN105702250A (zh) * 2016-01-06 2016-06-22 福建天晴数码有限公司 语音识别方法和装置
CN106971724A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种防干扰声纹识别方法和系统
CN105654964A (zh) * 2016-01-20 2016-06-08 司法部司法鉴定科学技术研究所 录音音频设备源认定方法和装置
CN108701452A (zh) * 2016-02-02 2018-10-23 日本电信电话株式会社 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置、音频模型学习程序及语音识别程序
CN108701452B (zh) * 2016-02-02 2023-09-26 日本电信电话株式会社 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置及记录介质
CN110188870A (zh) * 2016-04-27 2019-08-30 北京中科寒武纪科技有限公司 用于执行人工神经网络自学习运算的装置和方法
CN110188870B (zh) * 2016-04-27 2021-10-12 中科寒武纪科技股份有限公司 用于执行人工神经网络自学习运算的装置和方法
CN106021314A (zh) * 2016-05-05 2016-10-12 腾讯科技(深圳)有限公司 一种多媒体数据处理方法及其设备
CN106021314B (zh) * 2016-05-05 2021-05-28 腾讯科技(深圳)有限公司 一种多媒体数据处理方法及其设备
CN106297825A (zh) * 2016-07-25 2017-01-04 华南理工大学 一种基于集成深度信念网络的语音情感识别方法
CN106297825B (zh) * 2016-07-25 2019-10-18 华南理工大学 一种基于集成深度信念网络的语音情感识别方法
CN106328123A (zh) * 2016-08-25 2017-01-11 苏州大学 小数据库条件下正常语音流中耳语音的识别方法
CN106328123B (zh) * 2016-08-25 2020-03-20 苏州大学 小数据库条件下正常语音流中耳语音的识别方法
CN106847270B (zh) * 2016-12-09 2020-08-18 华南理工大学 一种双门限地名语音端点检测方法
CN106847270A (zh) * 2016-12-09 2017-06-13 华南理工大学 一种双门限地名语音端点检测方法
CN106598921A (zh) * 2016-12-12 2017-04-26 清华大学 基于lstm模型的现代文到古诗的转换方法及装置
CN106791245B (zh) * 2016-12-28 2021-07-06 北京小米移动软件有限公司 确定滤波器系数的方法及装置
CN106601269A (zh) * 2016-12-28 2017-04-26 北京小米移动软件有限公司 终端状态确定方法及装置
CN106683683A (zh) * 2016-12-28 2017-05-17 北京小米移动软件有限公司 终端状态确定方法及装置
CN106791245A (zh) * 2016-12-28 2017-05-31 北京小米移动软件有限公司 确定滤波器系数的方法及装置
CN107358966B (zh) * 2017-06-27 2020-05-12 北京理工大学 基于深度学习语音增强的无参考语音质量客观评估方法
CN107358966A (zh) * 2017-06-27 2017-11-17 北京理工大学 基于深度学习语音增强的无参考语音质量客观评估方法
CN107731233A (zh) * 2017-11-03 2018-02-23 王华锋 一种基于rnn的声纹识别方法
CN107910017A (zh) * 2017-12-19 2018-04-13 河海大学 一种带噪语音端点检测中阈值设定的方法
CN108171796A (zh) * 2017-12-25 2018-06-15 燕山大学 一种基于三维点云的巡检机器人视觉系统及控制方法
CN108198574A (zh) * 2017-12-29 2018-06-22 科大讯飞股份有限公司 变声检测方法及装置
CN108198574B (zh) * 2017-12-29 2020-12-08 科大讯飞股份有限公司 变声检测方法及装置
CN108256575A (zh) * 2018-01-17 2018-07-06 广东顺德工业设计研究院(广东顺德创新设计研究院) 图像识别方法、装置、计算机设备和存储介质
CN108447495A (zh) * 2018-03-28 2018-08-24 天津大学 一种基于综合特征集的深度学习语音增强方法
CN108447495B (zh) * 2018-03-28 2020-06-09 天津大学 一种基于综合特征集的深度学习语音增强方法
CN108665889A (zh) * 2018-04-20 2018-10-16 百度在线网络技术(北京)有限公司 语音信号端点检测方法、装置、设备及存储介质
CN108665889B (zh) * 2018-04-20 2021-09-28 百度在线网络技术(北京)有限公司 语音信号端点检测方法、装置、设备及存储介质
CN108766419A (zh) * 2018-05-04 2018-11-06 华南理工大学 一种基于深度学习的非常态语音区别方法
CN108717854A (zh) * 2018-05-08 2018-10-30 哈尔滨理工大学 基于优化gfcc特征参数的说话人识别方法
CN108922561A (zh) * 2018-06-04 2018-11-30 平安科技(深圳)有限公司 语音区分方法、装置、计算机设备及存储介质
CN108922513A (zh) * 2018-06-04 2018-11-30 平安科技(深圳)有限公司 语音区分方法、装置、计算机设备及存储介质
WO2019232848A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 语音区分方法、装置、计算机设备及存储介质
CN108806725A (zh) * 2018-06-04 2018-11-13 平安科技(深圳)有限公司 语音区分方法、装置、计算机设备及存储介质
CN110853631A (zh) * 2018-08-02 2020-02-28 珠海格力电器股份有限公司 智能家居的语音识别方法及装置
CN110867191A (zh) * 2018-08-28 2020-03-06 洞见未来科技股份有限公司 语音处理方法、信息装置与计算机程序产品
CN109147817A (zh) * 2018-08-29 2019-01-04 昆明理工大学 一种基于变异受限玻尔兹曼机的去噪音频特征提取算法
CN109357749A (zh) * 2018-09-04 2019-02-19 南京理工大学 一种基于dnn算法的电力设备音频信号分析方法
WO2020073694A1 (zh) * 2018-10-10 2020-04-16 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器
US11508381B2 (en) 2018-10-10 2022-11-22 Tencent Technology (Shenzhen) Company Limited Voiceprint recognition method, model training method, and server
CN109472360B (zh) * 2018-10-30 2020-09-04 北京地平线机器人技术研发有限公司 神经网络的更新方法、更新装置和电子设备
US11328180B2 (en) 2018-10-30 2022-05-10 Beijing Horizon Robotics Technology Research And Development Co., Ltd. Method for updating neural network and electronic device
CN109472360A (zh) * 2018-10-30 2019-03-15 北京地平线机器人技术研发有限公司 神经网络的更新方法、更新装置和电子设备
CN109584643A (zh) * 2018-11-05 2019-04-05 深圳大学 一种语言能力训练方法及其系统
CN109545299A (zh) * 2018-11-14 2019-03-29 严洋 基于人工智能的脑血管疾病风险快速识别辅助提示系统及方法
CN110000610A (zh) * 2019-04-17 2019-07-12 哈尔滨理工大学 一种基于多传感器信息融合及深度置信网络的刀具磨损监测方法
CN110322887B (zh) * 2019-04-28 2021-10-15 武汉大晟极科技有限公司 一种多类型音频信号能量特征提取方法
CN110322887A (zh) * 2019-04-28 2019-10-11 武汉大晟极科技有限公司 一种多类型音频信号能量特征提取方法
CN112017676A (zh) * 2019-05-31 2020-12-01 京东数字科技控股有限公司 音频处理方法、装置和计算机可读存储介质
CN110992930A (zh) * 2019-12-06 2020-04-10 广州国音智能科技有限公司 声纹特征提取方法、装置、终端及可读存储介质
CN111415447A (zh) * 2019-12-10 2020-07-14 南京工业大学 一种多重认证的门禁系统
CN112017670A (zh) * 2020-08-13 2020-12-01 北京达佳互联信息技术有限公司 一种目标账户音频的识别方法、装置、设备及介质
CN112309365A (zh) * 2020-10-21 2021-02-02 北京大米科技有限公司 语音合成模型的训练方法、装置、存储介质以及电子设备
CN112309365B (zh) * 2020-10-21 2024-05-10 北京大米科技有限公司 语音合成模型的训练方法、装置、存储介质以及电子设备
CN112820299B (zh) * 2020-12-29 2021-09-14 马上消费金融股份有限公司 声纹识别模型训练方法、装置及相关设备
CN112820299A (zh) * 2020-12-29 2021-05-18 马上消费金融股份有限公司 声纹识别模型训练方法、装置及相关设备
CN113571095A (zh) * 2021-06-17 2021-10-29 南京邮电大学 基于嵌套深度神经网络的语音情感识别方法和系统
CN113409819B (zh) * 2021-08-19 2022-01-25 中国空气动力研究与发展中心低速空气动力研究所 一种基于听觉谱特征提取的直升机声信号识别方法
CN113409819A (zh) * 2021-08-19 2021-09-17 中国空气动力研究与发展中心低速空气动力研究所 一种基于听觉谱特征提取的直升机声信号识别方法
CN113705671B (zh) * 2021-08-27 2023-08-29 厦门大学 一种基于文本相关信息感知的说话人识别方法与系统
CN113705671A (zh) * 2021-08-27 2021-11-26 厦门大学 一种基于文本相关信息感知的说话人识别方法与系统
CN113823293A (zh) * 2021-09-28 2021-12-21 武汉理工大学 一种基于语音增强的说话人识别方法及系统
CN113823293B (zh) * 2021-09-28 2024-04-26 武汉理工大学 一种基于语音增强的说话人识别方法及系统
CN115083423A (zh) * 2022-07-21 2022-09-20 中国科学院自动化研究所 语音鉴别的数据处理方法和装置
CN115083423B (zh) * 2022-07-21 2022-11-15 中国科学院自动化研究所 语音鉴别的数据处理方法和装置
CN115862636A (zh) * 2022-11-19 2023-03-28 杭州珍林网络技术有限公司 一种基于语音识别技术的互联网人机验证方法
CN116801456A (zh) * 2023-08-22 2023-09-22 深圳市创洺盛光电科技有限公司 Led灯具的智能化控制方法

Also Published As

Publication number Publication date
CN104157290B (zh) 2017-10-24

Similar Documents

Publication Publication Date Title
CN104157290A (zh) 一种基于深度学习的说话人识别方法
CN103646649B (zh) 一种高效的语音检测方法
CN106952649A (zh) 基于卷积神经网络和频谱图的说话人识别方法
CN107146601A (zh) 一种用于说话人识别系统的后端i‑vector增强方法
CN110827837A (zh) 一种基于深度学习的鲸鱼活动音频分类方法
CN105321525B (zh) 一种降低voip通信资源开销的系统和方法
CN108231067A (zh) 基于卷积神经网络与随机森林分类的声音场景识别方法
CN111128209B (zh) 一种基于混合掩蔽学习目标的语音增强方法
CN102890930A (zh) 基于hmm/sofmnn混合模型的语音情感识别方法
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
CN106992011A (zh) 基于mf‑plpcc特征的工程机械声音识别方法
CN103456302B (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
CN110827857A (zh) 基于谱特征和elm的语音情感识别方法
CN106531174A (zh) 基于小波包分解和声谱图特征的动物声音识别方法
CN110189766A (zh) 一种基于神经网络的语音风格转移方法
CN104778948A (zh) 一种基于弯折倒谱特征的抗噪语音识别方法
Manurung et al. Speaker recognition for digital forensic audio analysis using learning vector quantization method
Fan et al. Deep attention fusion feature for speech separation with end-to-end post-filter method
Chauhan et al. Speaker recognition using fusion of features with feedforward artificial neural network and support vector machine
CN110211569A (zh) 基于语音图谱和深度学习的实时性别识别方法
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
Jin et al. Speaker verification based on single channel speech separation
Pati et al. Speaker information from subband energies of linear prediction residual
Rathor et al. Text indpendent speaker recognition using wavelet cepstral coefficient and butter worth filter
Zailan et al. Comparative analysis of LPC and MFCC for male speaker recognition in text-independent context

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171024