CN111986679A - 一种应对复杂声学环境的说话人确认方法、系统及存储介质 - Google Patents
一种应对复杂声学环境的说话人确认方法、系统及存储介质 Download PDFInfo
- Publication number
- CN111986679A CN111986679A CN202010871239.1A CN202010871239A CN111986679A CN 111986679 A CN111986679 A CN 111986679A CN 202010871239 A CN202010871239 A CN 202010871239A CN 111986679 A CN111986679 A CN 111986679A
- Authority
- CN
- China
- Prior art keywords
- speaker
- voiceprint
- module
- artificial
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012790 confirmation Methods 0.000 title abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 31
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 20
- 230000009467 reduction Effects 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 38
- 238000013528 artificial neural network Methods 0.000 claims description 34
- 238000012795 verification Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 20
- 238000003062 neural network model Methods 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 9
- 230000015654 memory Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 210000002569 neuron Anatomy 0.000 claims description 7
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 6
- 238000005311 autocorrelation function Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000007787 long-term memory Effects 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 5
- 238000012360 testing method Methods 0.000 description 8
- 230000006872 improvement Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 210000001503 joint Anatomy 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供了一种应对复杂声学环境的说话人确认方法、系统及存储介质,该说话人确认方法包括执行以下步骤:步骤1:输入说话人语音;步骤2:接收步骤1的说话人语音音频,再采用梅尔倒谱系数提取模块和线性预测提取模块提取出所接收的说话人语音音频中的人工声纹特征,最后将提取的人工声纹特征送到特征增强模块;步骤3:采用特征增强模块接收步骤2提取的人工声纹特征,并通过特征增强模块对所接收的人工声纹特征进行降噪处理,得到增强后的人工声纹特征,最后将增强后的人工声纹特征送到声纹识别模块;步骤4。本发明的有益效果是:利用梅尔倒谱特征和线性预测特征级联的方式,进行说话人声纹建模,提高了算法对目标声纹的辨识能力。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种应对复杂声学环境的说话人确认方法、系统及存储介质。
背景技术
目前,智能手机、智能音箱、对话机器人等产品中都会加入目标说话人声纹确认的功能,来提高这类电子设备对用户的专用性。但是,当具备说话人确认功能的语音产品工作在一些复杂的应用场景时,如存在各式各样背景噪音的环境、周围有其他人说话干扰的场景等,产品的声纹识别准确率较低。除此之外,当目标说话人由于感冒或其他疾病而导致自身的声音发生一些变化时,目前市面上的语音产品也难以正确地识别目标说话人的声纹。
发明内容
本发明提供了一种应对复杂声学环境的说话人确认方法,包括执行以下步骤:
步骤1:输入说话人音频;
步骤2:接收步骤1的说话人音频,再采用梅尔倒谱系数提取模块和线性预测提取模块提取出所接收的说话人音频中的人工声纹特征,最后将提取的人工声纹特征送到特征增强模块;
步骤3:采用特征增强模块接收步骤2提取的人工声纹特征,并通过特征增强模块对所接收的人工声纹特征进行降噪处理,得到增强后的人工声纹特征,最后将增强后的人工声纹特征送到声纹识别模块;
步骤4:采用声纹识别模块接收增强后的人工声纹特征,进行更深层次的抽象表示分析,再在神经网络的输出层得到新的特征表示形式,最后计算不同语句之间的相似值,输出相似度向量,并做出是否是目标说话人的判决。
作为本发明的进一步改进,在所述步骤2中,所述梅尔倒谱系数提取模块还包括依次执行以下步骤:
预处理步骤:将原始语音信号进行采样量化、预加重、加窗分帧预处理,得到每一帧语音信号的语音序列s(n);
傅里叶变换步骤:对预处理后得到的语音序列s(n)进行快速傅里叶变换,将其从时域变换到频域,得到其频谱,并求得频谱的幅度值S(k);
滤波步骤:将幅度值S(k)通过梅尔频率滤波器组Hm(k)得到的输出为Pm(m=0,1,…,M-1),参数Pm的表达公式如下:
其中,Hm(k)是梅尔频率滤波器组的传递函数,其定义表达如下式所示:
公式(2)中M为三角形滤波器的数量,即梅尔滤波器组的阶数,f(m)是三角形滤波器的中心频率;f(m-1)和f(m+1)分别表示一个三角形滤波器的上限频率与下限频率;
梅尔倒谱系数计算步骤:对参数Pm进行对数能量计算,输出得到的参数为Lm(m=0,1,…,M-1),再将参数Lm进行离散余弦变换,将得到的参数Lm转换到倒谱域中,这样就得到了梅尔倒谱系数Cmel,其具体过程如下:
Lm=ln(Pm),(m=0,1,…,M-1) (3)
上式(4)中的Cmel(k)就是所需要求取的MFCC特征参数,N表示梅尔倒谱系数的阶数,这里我们取N=40,也就是提取40维的MFCC特征。
作为本发明的进一步改进,在所述步骤2中,所述线性预测提取模块还包括依次执行以下步骤:
步骤S1:对输入的语音信号进行预加重、分帧加窗和滤波的预处理;
其中R(j)是自相关函数,拆写加权式子,便得到如下的Toeplize矩阵表达形式:
步骤S3:使用Durbin算法来求解Toeplize矩阵,即可计算出滤波器系数ai,也就是线性预测系数,进而求得线性预测系数的残差值e(n),取p=38,也就是提取38维的线性预测系数;
步骤S4:对残差信号e(n)进行快速傅里叶变换,使其从时域变换到频域,得到其频谱,将残差频谱的一阶矩、二阶矩也作为特征参数,与提取的38维线性预测系数一起组成该模块的40维线性预测特征。
作为本发明的进一步改进,在所述步骤3中,所述特征增强模块采用了前馈神经网络构建降噪模型,该模型一共由五层神经网络层构成,其中输入层输入的是人工提取的80维声纹特征,后面连接着三层隐藏层,每层隐藏层有1024个神经元,并采用ReLU非线性函数作为激活函数,输出层为线性层,采用80个神经元用来实现增强特征的重构。
作为本发明的进一步改进,在所述步骤4中,所述声纹识别模块一共由四层神经网络构成,包括一层输入层,两层长短期记忆神经网络层和一层输出层,输入层需要与特征增强模块的输出层对接,因此输入层的维度是80维;中间的两层长短期记忆网络层均为512维,并且采用ReLU激活函数进行非线性映射;最后的输出层采用的是线性层,维度为256,来实现声纹特征的进一步抽象表示,将输出层中说话人一整句话的所有帧进行累加平均,得到一个句子级的特征表示形式,如下式(10)所示:
作为本发明的进一步改进,该说话人确认方法还包括对特征增强模块的数据训练,其执行步骤依次如下:
构建训练带噪特征矩阵步骤:将每批次输入的音频都加入不同信噪比程度的噪声干扰,在经过梅尔倒谱系数提取模块和线性预测特征提取模块后,得到带噪音频的特征矩阵;
构建训练纯净特征矩阵步骤:将未受噪声干扰的与构建训练带噪特征矩阵步骤同批次的纯净音频经过特征提取模块进行特征提取,得到一个纯净音频的特征矩阵;
特征增强模块降噪步骤:对特征增强模块的神经网络进行训练,利用反向传播算法更新神经网络的参数,使特征增强模块具备了对特征进行降噪处理的能力。
作为本发明的进一步改进,在所述构建训练带噪特征矩阵步骤中,将每批次输入的500句音频都加入了-5dB到15dB不同信噪比程度的噪声干扰。
作为本发明的进一步改进,该说话人确认方法还包括对声纹识别模块的数据训练,其执行步骤如下:
步骤Y1:将不同的说话人的每一句话都表示成公式(10)中的向量形式其中n和m代表第n个说话人的第m条语句,即1≤n≤50,1≤m≤10;步骤Y2:对每一句话的输出向量进行L2正则化,得到嵌入式向量的形式如下:
再定义第n个说话人的语音质心如下:
得到一个相似矩阵,如下式(13)所示:
Sm,n,k=ω·cos(em,n,ck)+b (13)
其中,1≤n,k≤50,1≤m≤10,ω与b为神经网络中的学习参数且ω>0,ck表示第k个人的语音质心,当k=n时,式子(12)中的M取值为9;而当k≠n时,M的取值为10;
步骤Y3:将计算的相似度Sm,n,k映射成概率的形式,进一步对公式(13)进行Sigmoid函数映射,如下式(14)所示,
其中σm,n,k为Sigmoid函数映射后得到的神经网络模型的输出;
步骤Y4:由神经网络模型的输出σm,n,k计算出一个与事先构建的理想相似度矩阵同维度的相似度矩阵,并以理想相似度矩阵为目标进行反向传播调优训练,从输出层一直更新至特征增强模块的输入层,实现神经网络的整体调优。
本发明还公开了一种应对复杂声学环境的说话人确认系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的说话人确认方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的说话人确认方法的步骤。
本发明的有益效果是:1.本发明的说话人确认方法利用梅尔倒谱特征和线性预测特征级联的方式,进行说话人声纹建模,提高了算法对目标声纹的辨识能力;2.本发明的说话人确认方法利用深层神经网络模型实现端到端的说话人确认,减少了模型假设,利于提取出更具区分性的抽象声纹特征,进一步提高了算法的识别准确率;3.本发明的说话人确认方法采用神经网络模型进行声纹特征的增强处理,提高了算法在噪声干扰环境中的识别鲁棒性;4.本发明的说话人确认方法训练过程不依赖说话人文本,使算法对说话人的说话内容不敏感,目标说话人说的任何句子,都可以进行精确的声纹确认。
附图说明
图1(a)是本发明说话人确认方法训练过程原理框图;
图1(b)是本发明说话人确认方法测试应用过程原理框图;
图2是本发明说话人确认方法MFCC特征提取流程图;
图3是本发明说话人确认方法LPC及其残差特征的提取流程图;
图4是本发明每个训练批次中理想的相似矩阵形式原理框图。
具体实施方式
如图1所示,本发明公开了一种应对复杂声学环境的说话人确认方法,该说话人确认方法利用梅尔倒谱系数特征和线性预测特征进行人工声纹特征建模,并利用前馈神经网络和长短期记忆神经网络分别实现对人工特征的降噪处理和相似度判决,保证了算法在噪声干扰的应用场景中也具备较好的声纹确认准确率,该说话人确认方法包括执行以下步骤:
步骤1:输入说话人音频;
步骤2:接收步骤1的说话人音频,再采用梅尔倒谱系数提取模块和线性预测提取模块提取出所接收的说话人音频中的人工声纹特征,最后将提取的人工声纹特征送到特征增强模块;
步骤3:采用特征增强模块接收步骤2提取的人工声纹特征,并通过特征增强模块对所接收的人工声纹特征进行降噪处理,得到增强后的人工声纹特征,最后将增强后的人工声纹特征送到声纹识别模块;
步骤4:采用声纹识别模块接收增强后的人工声纹特征,进行更深层次的抽象表示分析,再在神经网络的输出层得到新的特征表示形式,最后计算不同语句之间的相似值,输出相似度向量,并做出是否是目标说话人的判决。
在所述步骤2中,梅尔倒谱系数特征提取模块,实现了对语音信号的梅尔倒谱系数特征提取,该特征是为了描述人耳的听觉感知能力对频率不同的语音信号的灵敏度存在差别的特性,而提出的一种声学特征。如图2所示,所述梅尔倒谱系数提取模块还包括依次执行以下步骤:
预处理步骤:将原始语音信号进行采样量化、预加重、加窗分帧等一系列的预处理,得到每一帧语音信号的语音序列s(n),这里采用16kHz的采样率,帧长16ms,重叠50%。每条输入语音的长度为2s,一共分成250帧;
傅里叶变换步骤:对预处理后得到的语音序列s(n)进行快速傅里叶变换(FFT),将其从时域变换到频域,得到其频谱,并求得频谱的幅度值S(k);
滤波步骤:将幅度值S(k)通过梅尔频率滤波器组Hm(k)得到的输出为Pm(m=0,1,…,M-1),参数Pm的表达公式如下:
其中,Hm(k)是梅尔频率滤波器组的传递函数,其定义表达如下式所示:
公式(2)中M为三角形滤波器的数量,即梅尔滤波器组的阶数,f(m)是三角形滤波器的中心频率;f(m-1)和f(m+1)分别表示一个三角形滤波器的上限频率与下限频率;
梅尔倒谱系数计算步骤:对参数Pm进行对数能量计算,输出得到的参数为Lm(m=0,1,…,M-1),再将参数Lm进行离散余弦变换(DCT),将得到的参数Lm转换到倒谱域中,这样就得到了梅尔倒谱系数Cmel,其具体过程如下:
Lm=ln(Pm),(m=0,1,…,M-1) (3)
上式(4)中的Cmel(k)就是所需要求取的MFCC特征参数,N表示梅尔倒谱系数的阶数,这里我们取N=40,也就是提取40维的MFCC特征。
在所述步骤2中,线性预测特征提取模块,实现了对语音的线性预测系数(LPC)及其残差特征的提取,这些线性特征序列表征了声道模型的线性时变系统特性,反映了说话人的声道特征,特别适合对人的声纹特征进行建模。如图3所示,所述线性预测提取模块还包括依次执行以下步骤:
步骤S1:对输入的语音信号进行预加重、分帧加窗和滤波的预处理,帧长16ms,重叠50%,每句话250帧,表示成语音序列s(n),n=1,2,…,250,p阶的线性预测分析就可以表示为由语音信号在某一时刻之前的p个取样值的线性组合来对这一时刻的取样值s(n)进行预测,设为相应的线性预测值,则有:
那么,线性预测值与实际取样值之间的误差(也称为残差)计算公式为:
线性预测系数ai(i=1,2,...,p)的选择应使误差的均方值E(e2(n))最小。令这个最小均方误差为Ep:
其中R(j)是自相关函数,拆写加权式子,便可以进一步得到如下的Toeplize矩阵表达形式:
步骤S3:使用Durbin算法来求解Toeplize矩阵,即可计算出滤波器系数ai,也就是线性预测系数,进而可以求得线性预测系数的残差值e(n),取p=38,也就是提取38维的线性预测系数;
步骤S4:对残差信号e(n)进行快速傅里叶变换(FFT),使其从时域变换到频域,得到其频谱,将残差频谱的一阶矩、二阶矩也作为特征参数,与提取的38维线性预测系数一起组成该模块的40维线性预测特征。
在所述步骤3中,所述特征增强模块主要对提取的人工声纹特征进行降噪处理,使算法能够在噪声干扰的情况下,依然能够正确地识别目标说话人的声纹。所述特征增强模块采用了前馈神经网络构建降噪模型,该模型一共由五层神经网络层构成,其中输入层输入的是人工提取的80维(40维MFCC和40维LPC)声纹特征,后面连接着三层隐藏层,每层隐藏层有1024个神经元,并采用ReLU非线性函数作为激活函数,输出层为线性层,采用80个神经元用来实现增强特征的重构。为了保证神经网络降噪模型良好的泛化能力,每层隐藏层均采用批归一化处理,并进行丢弃率为0.2的随机神经元失活处理。
在所述步骤4中,所述声纹识别模块将进行增强处理后的特征相似度估计,来实现说话人的声纹确认。所述声纹识别模块一共由四层神经网络构成,包括一层输入层,两层长短期记忆神经网络层和一层输出层,输入层需要与特征增强模块的输出层对接,因此输入层的维度是80维;中间的两层长短期记忆网络层均为512维,并且采用ReLU激活函数进行非线性映射;最后的输出层采用的是线性层,维度为256,来实现声纹特征的进一步抽象表示;为了捕捉说话人的句子级特征,将输出层中说话人一整句话的所有帧进行累加平均,得到一个句子级的特征表示形式,如下式(10)所示:
该说话人确认方法还包括对特征增强模块的数据训练,因为在处理过程中,特征增强模块和声纹识别模块都用到了神经网络技术,所以需要对两个模块的神经网络进行大量的数据训练,才能保证算法具备优秀的降噪和声纹确认能力。如图1(a)所示,算法进行训练时,训练集一共有20000个不同的说话人,每人10句话,一共是200000句话,每个训练批次随机输入50个说话人,每人10句话的音频数据,每句话的内容不定。为了保证一致性,输入的音频长度是定长的,每句话均不超过两秒,不足两秒的音频可以补零至两秒。所述特征增强模块的数据训练其执行步骤依次如下:
构建训练带噪特征矩阵步骤:将每批次输入的500句音频都加入了-5dB到15dB不同信噪比程度的噪声干扰,因此在经过梅尔倒谱系数提取模块和线性预测特征提取模块后,会得到一个带噪音频的特征矩阵;
构建训练纯净特征矩阵步骤:将未受噪声干扰的与构建训练带噪特征矩阵步骤同批次的500句纯净音频也会经过特征提取模块进行特征提取,会得到一个纯净音频的特征矩阵,然后对特征增强模块的神经网络进行训练,利用反向传播算法更新神经网络的参数,训练完毕以后,特征增强模块就具备了对特征进行降噪处理的能力;
特征增强模块降噪步骤:对特征增强模块的神经网络进行训练,利用反向传播算法更新神经网络的参数,使特征增强模块训练完毕以后,特征增强模块就具备了对特征进行降噪处理的能力。
为了避免特征增强模块造成的失真影响声纹识别的效果,必须和后面的声纹识别模块进行整体调优训练。该说话人确认方法还包括对声纹识别模块的数据训练,其执行步骤如下:
步骤Y1:在声纹识别模块的训练阶段,每一轮都随机抽取50个说话人,每个说话人有10句话,即以500个语句为一个处理批次,将不同的说话人的每一句话都表示成公式(10)中的向量形式其中n和m代表第n个说话人的第m条语句,即1≤n≤50,1≤m≤10;
那么可以定义第n个说话人的语音质心如下:
语音质心,即同一个说话人的多条语音的嵌入向量的中心点,多个说话人就会产生多个中心点。输入待测试的说话人语音,它与哪个语音质心的距离较近,就可以被确认为哪个说话人的声纹。
接下来,需要计算不同语句之间的相似度,得到一个相似矩阵,如下式(13)所示:
Sm,n,k=ω·cos(em,n,ck)+b (13)
其中,1≤n,k≤50,1≤m≤10,ω与b为神经网络中的学习参数且ω>0,ck表示第k个人的语音质心,当k=n时,式子(12)中的M取值为9,因为此时有一句话被用作了测试语句;而当k≠n时,M的取值为10;
步骤Y3:将计算的相似度Sm,n,k映射成概率的形式,进一步对公式(13)进行Sigmoid函数映射,如下式(14)所示,
其中σm,n,k为Sigmoid函数映射后得到的神经网络模型的输出;
步骤Y4:在声纹识别模块的训练阶段,每批次输入500条语句,由神经网络模型的输出计算出一个与事先构建的理想相似度矩阵同维度的相似度矩阵,并以理想相似度矩阵为目标进行反向传播调优训练,从输出层一直更新至特征增强模块的输入层,实现神经网络的整体调优。训练完成以后,便得到了一个具备声纹确认能力的神经网络模型。图4展示了训练时理想的相似矩阵的形式。
如图1(b)模型训练完毕以后,模型的测试应用的处理流程不变,仍然是由特征提取到特征增强,再到最后的相似度估计。当进行模型的测试应用时,不再需要输入500句的批次数据,只需要事先将所有需要进行声纹确认的说话人语音预存下来,然后一一进行相似度对比即可。例如,目标说话人有5个人,每人录制10句话存好,测试时只需要输入一句现场录制的测试语音和预存语音库中某一个说话人的10条语句到神经网络模型,求取预存语音的质心,并与测试语音进行相似度计算,得到一个相似度值。随后,与预存语音库中的每个说话人都进行对比,就会得到一个5维的相似度向量,取出向量中最大的一个元素,将其与一个预设阈值(本说话人确认方法中设置为0.95)进行比较,当元素大于该阈值时,则确认是其对应的目标说话人声纹,否则测试语音不属于任何一个目标说话人。
本发明还公开了一种应对复杂声学环境的说话人确认系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的说话人确认方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的说话人确认方法的步骤。
本发明的有益效果是:1.本发明的说话人确认方法利用梅尔倒谱特征和线性预测特征级联的方式,进行说话人声纹建模,提高了算法对目标声纹的辨识能力;2.本发明的说话人确认方法利用深层神经网络模型实现端到端的说话人确认,减少了模型假设,利于提取出更具区分性的抽象声纹特征,进一步提高了算法的识别准确率;3.本发明的说话人确认方法采用神经网络模型进行声纹特征的增强处理,提高了算法在噪声干扰环境中的识别鲁棒性;4.本发明的说话人确认方法训练过程不依赖说话人文本,使算法对说话人的说话内容不敏感,目标说话人说的任何句子,都可以进行精确的声纹确认。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (10)
1.一种应对复杂声学环境的说话人确认方法,其特征在于,包括执行以下步骤:
步骤1:输入说话人音频;
步骤2:接收步骤1的说话人音频,再采用梅尔倒谱系数提取模块和线性预测提取模块提取出所接收的说话人音频中的人工声纹特征,最后将提取的人工声纹特征送到特征增强模块;
步骤3:采用特征增强模块接收步骤2提取的人工声纹特征,并通过特征增强模块对所接收的人工声纹特征进行降噪处理,得到增强后的人工声纹特征,最后将增强后的人工声纹特征送到声纹识别模块;
步骤4:采用声纹识别模块接收增强后的人工声纹特征,进行更深层次的抽象表示分析,再在神经网络的输出层得到新的特征表示形式,最后计算不同语句之间的相似值,输出相似度向量,并做出是否是目标说话人的判决。
2.根据权利要求1所述的说话人确认方法,其特征在于,在所述步骤2中,所述梅尔倒谱系数提取模块还包括依次执行以下步骤:
预处理步骤:将原始语音信号进行采样量化、预加重、加窗分帧预处理,得到每一帧语音信号的语音序列s(n);
傅里叶变换步骤:对预处理后得到的语音序列s(n)进行快速傅里叶变换,将其从时域变换到频域,得到其频谱,并求得频谱的幅度值S(k);
滤波步骤:将幅度值S(k)通过梅尔频率滤波器组Hm(k)得到的输出为Pm(m=0,1,…,M-1),参数Pm的表达公式如下:
其中,Hm(k)是梅尔频率滤波器组的传递函数,其定义表达如下式所示:
公式(2)中M为三角形滤波器的数量,即梅尔滤波器组的阶数,f(m)是三角形滤波器的中心频率;f(m-1)和f(m+1)分别表示一个三角形滤波器的上限频率与下限频率;
梅尔倒谱系数计算步骤:对参数Pm进行对数能量计算,输出得到的参数为Lm(m=0,1,…,M-1),再将参数Lm进行离散余弦变换,将得到的参数Lm转换到倒谱域中,这样就得到了梅尔倒谱系数Cmel,其具体过程如下:
Lm=ln(Pm),(m=0,1,…,M-1) (3)
上式(4)中的Cmel(k)就是所需要求取的MFCC特征参数,N表示梅尔倒谱系数的阶数,这里我们取N=40,也就是提取40维的MFCC特征。
3.根据权利要求1所述的说话人确认方法,其特征在于,在所述步骤2中,所述线性预测提取模块还包括依次执行以下步骤:
步骤S1:对输入的语音信号进行预加重、分帧加窗和滤波的预处理;
其中R(j)是自相关函数,拆写加权式子,便得到如下的Toeplize矩阵表达形式:
步骤S3:使用Durbin算法来求解Toeplize矩阵,即可计算出滤波器系数ai,也就是线性预测系数,进而求得线性预测系数的残差值e(n),取p=38,也就是提取38维的线性预测系数;
步骤S4:对残差信号e(n)进行快速傅里叶变换,使其从时域变换到频域,得到其频谱,将残差频谱的一阶矩、二阶矩也作为特征参数,与提取的38维线性预测系数一起组成该模块的40维线性预测特征。
4.根据权利要求1所述的说话人确认方法,其特征在于,在所述步骤3中,所述特征增强模块采用了前馈神经网络构建降噪模型,该模型一共由五层神经网络层构成,其中输入层输入的是人工提取的80维声纹特征,后面连接着三层隐藏层,每层隐藏层有1024个神经元,并采用ReLU非线性函数作为激活函数,输出层为线性层,采用80个神经元用来实现增强特征的重构。
6.根据权利要求1所述的说话人确认方法,其特征在于,该说话人确认方法还包括对特征增强模块的数据训练,其执行步骤依次如下:
构建训练带噪特征矩阵步骤:将每批次输入的音频都加入不同信噪比程度的噪声干扰,在经过梅尔倒谱系数提取模块和线性预测特征提取模块后,得到带噪音频的特征矩阵;
构建训练纯净特征矩阵步骤:将未受噪声干扰的与构建训练带噪特征矩阵步骤同批次的纯净音频经特征提取模块进行特征提取,得到一个纯净音频的特征矩阵;
特征增强模块降噪步骤:对特征增强模块的神经网络进行训练,利用反向传播算法更新神经网络的参数,使特征增强模块具备了对特征进行降噪处理的能力。
7.根据权利要求6所述的说话人确认方法,其特征在于,在所述构建训练带噪特征矩阵步骤中,将每批次输入的500句音频都加入了-5dB到15dB不同信噪比程度的噪声干扰。
8.根据权利要求1所述的说话人确认方法,其特征在于,该说话人确认方法还包括对声纹识别模块的数据训练,其执行步骤如下:
再定义第n个说话人的语音质心如下:
得到一个相似矩阵,如下式(13)所示:
Sm,n,k=ω·cos(em,n,ck)+b (13)
其中,1≤n,k≤50,1≤m≤10,ω与b为神经网络中的学习参数且ω>0,ck表示第k个人的语音质心,当k=n时,式子(12)中的M取值为9;而当k≠n时,M的取值为10;
步骤Y3:将计算的相似度Sm,n,k映射成概率的形式,进一步对公式(13)进行Sigmoid函数映射,如下式(14)所示,
其中σm,n,k为Sigmoid函数映射后得到的神经网络模型的输出;
步骤Y4:由神经网络模型的输出σm,n,k计算出一个与事先构建的理想相似度矩阵同维度的相似度矩阵,并以理想相似度矩阵为目标进行反向传播调优训练,从输出层一直更新至特征增强模块的输入层,实现神经网络的整体调优。
9.一种应对复杂声学环境的说话人确认系统,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-8中任一项所述的说话人确认方法的步骤。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-8中任一项所述的说话人确认方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010871239.1A CN111986679A (zh) | 2020-08-26 | 2020-08-26 | 一种应对复杂声学环境的说话人确认方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010871239.1A CN111986679A (zh) | 2020-08-26 | 2020-08-26 | 一种应对复杂声学环境的说话人确认方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111986679A true CN111986679A (zh) | 2020-11-24 |
Family
ID=73440946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010871239.1A Pending CN111986679A (zh) | 2020-08-26 | 2020-08-26 | 一种应对复杂声学环境的说话人确认方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111986679A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112687275A (zh) * | 2020-12-25 | 2021-04-20 | 北京中科深智科技有限公司 | 一种语音过滤方法和过滤系统 |
CN113035217A (zh) * | 2021-03-01 | 2021-06-25 | 武汉大学 | 一种基于声纹嵌入的低信噪比条件下的语音增强方法 |
CN113436607A (zh) * | 2021-06-12 | 2021-09-24 | 西安工业大学 | 一种快速语音克隆方法 |
CN116612767A (zh) * | 2023-07-17 | 2023-08-18 | 国网山东省电力公司菏泽供电公司 | 基于嵌入增强的超短时说话人确认方法、设备及介质 |
CN116741180A (zh) * | 2023-08-14 | 2023-09-12 | 北京分音塔科技有限公司 | 基于声纹增强和对抗的语音识别模型训练方法及装置 |
CN117198321A (zh) * | 2023-11-08 | 2023-12-08 | 方图智能(深圳)科技集团股份有限公司 | 一种基于深度学习的复合音频实时传输方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180082692A1 (en) * | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Channel-Compensated Low-Level Features For Speaker Recognition |
CN108848507A (zh) * | 2018-05-31 | 2018-11-20 | 厦门快商通信息技术有限公司 | 一种不良电信用户信息采集方法 |
CN109712628A (zh) * | 2019-03-15 | 2019-05-03 | 哈尔滨理工大学 | 一种基于rnn的语音降噪方法及语音识别方法 |
CN109767782A (zh) * | 2018-12-28 | 2019-05-17 | 中国科学院声学研究所 | 一种提高dnn模型泛化性能的语音增强方法 |
CN111223493A (zh) * | 2020-01-08 | 2020-06-02 | 北京声加科技有限公司 | 语音信号降噪处理方法、传声器和电子设备 |
CN111341332A (zh) * | 2020-02-28 | 2020-06-26 | 重庆邮电大学 | 基于深度神经网络的语音特征增强后置滤波方法 |
-
2020
- 2020-08-26 CN CN202010871239.1A patent/CN111986679A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180082692A1 (en) * | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Channel-Compensated Low-Level Features For Speaker Recognition |
CN108848507A (zh) * | 2018-05-31 | 2018-11-20 | 厦门快商通信息技术有限公司 | 一种不良电信用户信息采集方法 |
CN109767782A (zh) * | 2018-12-28 | 2019-05-17 | 中国科学院声学研究所 | 一种提高dnn模型泛化性能的语音增强方法 |
CN109712628A (zh) * | 2019-03-15 | 2019-05-03 | 哈尔滨理工大学 | 一种基于rnn的语音降噪方法及语音识别方法 |
CN111223493A (zh) * | 2020-01-08 | 2020-06-02 | 北京声加科技有限公司 | 语音信号降噪处理方法、传声器和电子设备 |
CN111341332A (zh) * | 2020-02-28 | 2020-06-26 | 重庆邮电大学 | 基于深度神经网络的语音特征增强后置滤波方法 |
Non-Patent Citations (1)
Title |
---|
郭茗涵: "基于深度学习的声纹识别算法研究", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 08, 15 August 2020 (2020-08-15), pages 12 - 21 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112687275A (zh) * | 2020-12-25 | 2021-04-20 | 北京中科深智科技有限公司 | 一种语音过滤方法和过滤系统 |
CN113035217A (zh) * | 2021-03-01 | 2021-06-25 | 武汉大学 | 一种基于声纹嵌入的低信噪比条件下的语音增强方法 |
CN113035217B (zh) * | 2021-03-01 | 2023-11-10 | 武汉大学 | 一种基于声纹嵌入的低信噪比条件下的语音增强方法 |
CN113436607A (zh) * | 2021-06-12 | 2021-09-24 | 西安工业大学 | 一种快速语音克隆方法 |
CN113436607B (zh) * | 2021-06-12 | 2024-04-09 | 西安工业大学 | 一种快速语音克隆方法 |
CN116612767A (zh) * | 2023-07-17 | 2023-08-18 | 国网山东省电力公司菏泽供电公司 | 基于嵌入增强的超短时说话人确认方法、设备及介质 |
CN116612767B (zh) * | 2023-07-17 | 2023-10-13 | 国网山东省电力公司菏泽供电公司 | 基于嵌入增强的超短时说话人确认方法、设备及介质 |
CN116741180A (zh) * | 2023-08-14 | 2023-09-12 | 北京分音塔科技有限公司 | 基于声纹增强和对抗的语音识别模型训练方法及装置 |
CN116741180B (zh) * | 2023-08-14 | 2023-10-31 | 北京分音塔科技有限公司 | 基于声纹增强和对抗的语音识别模型训练方法及装置 |
CN117198321A (zh) * | 2023-11-08 | 2023-12-08 | 方图智能(深圳)科技集团股份有限公司 | 一种基于深度学习的复合音频实时传输方法及系统 |
CN117198321B (zh) * | 2023-11-08 | 2024-01-05 | 方图智能(深圳)科技集团股份有限公司 | 一种基于深度学习的复合音频实时传输方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021042870A1 (zh) | 语音处理的方法、装置、电子设备及计算机可读存储介质 | |
Akbari et al. | Lip2audspec: Speech reconstruction from silent lip movements video | |
KR100908121B1 (ko) | 음성 특징 벡터 변환 방법 및 장치 | |
CN111986679A (zh) | 一种应对复杂声学环境的说话人确认方法、系统及存储介质 | |
CN108520753B (zh) | 基于卷积双向长短时记忆网络的语音测谎方法 | |
Aida-Zade et al. | Investigation of combined use of MFCC and LPC features in speech recognition systems | |
TW201935464A (zh) | 基於記憶性瓶頸特徵的聲紋識別的方法及裝置 | |
Zhao et al. | Late reverberation suppression using recurrent neural networks with long short-term memory | |
KR20080078466A (ko) | 다단계 음성인식장치 및 방법 | |
CN110600014B (zh) | 一种模型训练方法、装置、存储介质及电子设备 | |
Antony et al. | Speaker identification based on combination of MFCC and UMRT based features | |
CN113488058A (zh) | 一种基于短语音的声纹识别方法 | |
CN113571095B (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
CN111798846A (zh) | 语音命令词识别方法、装置、会议终端及会议终端系统 | |
González-Salazar et al. | Enhancing speech recorded from a wearable sensor using a collection of autoencoders | |
Azam et al. | Urdu spoken digits recognition using classified MFCC and backpropgation neural network | |
CN114141256A (zh) | 基于小波神经网络的声纹特征提取模型构建方法及系统 | |
Zhipeng et al. | Voiceprint recognition based on BP Neural Network and CNN | |
Shrawankar et al. | Speech: a challenge to digital signal processing technology for human-to-computer interaction | |
CN114512133A (zh) | 发声对象识别方法、装置、服务器及存储介质 | |
CN112951270A (zh) | 语音流利度检测的方法、装置和电子设备 | |
Deriche et al. | A bilingual emotion recognition system using deep learning neural networks | |
EP3933829B1 (en) | Speech processing method and apparatus, electronic device, and computer-readable storage medium | |
Devi et al. | Automatic speaker recognition from speech signal using principal component analysis and artificial neural network | |
Pandit et al. | Automatic speech recognition of Gujarati digits using artificial neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |