CN112331216A - 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法 - Google Patents

基于复合声学特征和低秩分解tdnn的说话人识别系统及方法 Download PDF

Info

Publication number
CN112331216A
CN112331216A CN202011183292.9A CN202011183292A CN112331216A CN 112331216 A CN112331216 A CN 112331216A CN 202011183292 A CN202011183292 A CN 202011183292A CN 112331216 A CN112331216 A CN 112331216A
Authority
CN
China
Prior art keywords
speaker
voice
tdnn
frame
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011183292.9A
Other languages
English (en)
Inventor
苗冉
王以
申树藩
卫志华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202011183292.9A priority Critical patent/CN112331216A/zh
Publication of CN112331216A publication Critical patent/CN112331216A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Complex Calculations (AREA)

Abstract

基于复合声学特征和低秩分解TDNN的说话人识别系统及方法。对输入的语音信号在预处理后采用MFCC和归一化互相关函数进行声学特征提取,将两种特征复合;在说话人模块中,将复合声学特征输入低秩矩阵分解TDNN进行帧级别特征提取,再经过统计池化层后,通过两个全连接层和一个softmax层完成段级别特征提取,并得到输入语音对应的特征向量。上述方法在采用低秩矩阵分解对TDNN进行优化,能够显著减小参数规模,加快训练速度;同时在网络中采用跳层连接,以减少梯度消失的出现;相较于常规声学特征提取在MFCC特征的基础上增加了归一化互相关函数进行音高特征提取,弥补了单纯采用MFCC对高频信息的损失,增加了特征的多样性,提高说话人识别的准确性。

Description

基于复合声学特征和低秩分解TDNN的说话人识别系统及方法
技术领域
本发明属于声纹识别领域,具体地说,涉及一种基于复合声学特征和低秩矩阵分解TDNN的说话人识别方法。
背景技术
声纹识别,也称为说话人识别。对说话人辨认问题,即对于某段语音,判断是若干人中的哪一个个体,从而可以将其应用于多种应用场景下,如会议语音记录、银行信息匹配等。
声学特征提取是说话人识别中重要的一部分,对于特征参数的要求除了能将语音信号转换为计算机能处理的语音特征向量,还需要其符合类似人耳的听觉感知特性。同时,作为语音的特征参数,需要在一定程度上增强语音信号,抑制非语音信号。其中最常用到的特征参数为梅尔频率倒谱系数(MFCC)。MFCC可以准确通过语音短时功率谱的包络中显示描述声道的形状。然而MFCC更多提取低频信息,而往往忽略高频信息对声纹识别的作用。
归一化互相关函数(NCCF)可以对音频的音高特征进行有效提取,可以有效弥补上述声学特征的缺陷。
神经网络模型广泛地应用于说话人识别的模式匹配。例如,x-vector系统采用时延神经网络(TDNN),取得了很好的效果。但是,单纯的TDNN网络也存在一些欠缺可以进行优化,比如参数过多,训练时间过长等问题。
低秩矩阵分解的基本思想是,将原来大的参数矩阵分解为多个较小的矩阵,这样分解后的小矩阵计算总量小于原始矩阵。低秩矩阵分解的常见方法有SVD、CP分解、Tucker分解等等。其中奇异值分解(SVD):对于m×n阶矩阵M,存在一个分解M=U∑V*,其中U是m×n阶酉矩阵,∑是n×n阶对角矩阵,V*表示V的共轭转置,是n×n酉矩阵。该分解称为奇异值分解。对神经网络某一层的参数矩阵进行奇异值分解,可以有效降低特征维数和减少模型参数。
发明内容
本发明的目的在于公开一种基于复合声学特征和低秩矩阵分解TDNN的说话人识别方法,对于传统x-vector方法中存在的一些不足,包括声学特征提取以及TDNN网络进行优化。本发明的成果将提高说话人识别的性能与效率,尤其是应用在会议场景中将发挥很大作用。
技术方案:
一种基于复合声学特征和低秩矩阵分解TDNN的说话人识别方法,其特征在于,主要模块包括声学特征提取模块,说话人模块以及判定模块,其中说话人识别模块包括帧级别特征提取模块,池化统计层以及段级别特征提取模块。对于输入语音,通过MFCC和归一化互相关函数提取声学特征,能够兼顾高低频特征。之后的说话人模块中,用低秩矩阵分解TDNN代替经典的TDNN进行帧级别特征提取,能够明显减少神经网络的参数数量,在保证性能的同时提高效率。同时再采用跳层连接减少梯度消失,加快训练速度;使用Dropout处理避免过拟合。之后特征继续经过段级别特征提取模块中的两个全连接层与一个softmax层,完成模型训练,同时在第一个全连接层处输出该语音的特征向量。打分判决模块使用PLDA模型对注册语音和测试语音的特征向量进行相似度判定。
本发明是对x-vector说话人识别系统进行的改进,在保证原有TDNN网络处理时序信息优势的基础上,引入参数矩阵低秩分解对TDNN进行优化,显著减少参数数量,加快了模型训练速度;同时采用归一化互相关函数提取音高特征,弥补了单纯采用MFCC特征在高频区域的信息损失,为说话人识别模型提供了一种新的思路。
有益效果
1)本发明采用基于低秩矩阵分解TDNN的说话人模型,有以下几点优势:
①TDNN可以获取相关语音的时间序列特征,从而更好地利用上下文信息。由于不同的帧之间存在时序关系,多层TDNN可以使网络学习到语音信号的时序结构性信息。同时尽管输入的语音帧是不定长特征,但是TDNN可以通过池化层将其处理为固定维度的向量。
②在TDNN的基础上添加中间层,采用奇异值分解将原来的每个参数矩阵都分解为两个较小矩阵乘积的形式,其中一个矩阵约束为半正交,这有利于降低特征维数,减小参数规模,不仅加快了模型训练的速度,而且能够有效避免过拟合状态。另外采用跳层连接的方式,可以减少梯度消失,增强梯度的流动,泛化神经网络。另外进行在训练的过程中,采用Dropout处理,避免过拟合的出现。
2)本发明综合了MFCC与归一化互相关函数进行声学特征提取,弥补了MFCC在提取高频信息方面的不足。MFCC作为倒谱特征,更多被采用其低频段信息,往往忽略了高频信息对声纹识别的作用。归一化互相关函数提取得到的音高特征,可以作为高频信息的补充表达,使得模型具有更好的说话人识别能力。
附图说明
此处说明的附图仅用来提供对于本发明思路的进一步理解,构成本发明的一部分,本发明的示意性实例以及其解释文字仅用于对本发明的说明,对本发明不构成不当限定。在附图中:
图1本发明整体流程图
图2说话人模块网络结构示意图
具体实现方式
下面将配合附图以及实例来详细说明本发明的具体实现方式,同时借此对本发明如何应用技术手段来解决技术问题,并且达到技术功效的实现过程。
对输入的语音信号在预处理后采用MFCC和归一化互相关函数进行声学特征提取,将两种特征复合;在说话人模块中,将复合声学特征输入低秩矩阵分解TDNN进行帧级别特征提取,再经过统计池化层后,通过两个全连接层和一个softmax层完成段级别特征提取,并得到输入语音对应的特征向量;在测试阶段,使用PLDA模型对注册语音和测试语音的特征向量进行打分判定,最终输出识别结果。上述方法在采用低秩矩阵分解对TDNN进行优化,能够显著减小参数规模,加快训练速度;同时在网络中采用跳层连接,以减少梯度消失的出现;相较于常规声学特征提取在MFCC特征的基础上增加了归一化互相关函数进行音高特征提取,弥补了单纯采用MFCC对高频信息的损失,增加了特征的多样性,提高说话人识别的准确性。
本发明整体流程见附图说明图1。
第一部分、声学特征提取
1.1语音信号预处理
语音信号是一种非平稳的时变信号,在进行相应的语音处理中都需要提取语音中所包含的各种信息。对语音信号的预处理有利于方便有效地提取并表示语音信号所携带的信息。
实际的语音信号在进行数字处理之前,首先要将语音信号s(t)以采样周期T采样,将其离散化为s(n),采样周期的选取根据模拟语音信号的带宽来确定,以避免信号的频域混叠失真。
1)语音信号的预加重处理;预加重的目的是对语音的高频部分进行加重,增加语音的高频分辨率,一般通过传递函数H(z)=1-αz-1,α为预加重系数,z为输入的信号变量。设n时刻的语音采样值为x(n),经过预加重处理后的结果为y(n)=x(n)-αx(n-1)。经过预加重后的频谱在高频部分的幅度会得到一定的提升。
2)语音信号的加窗处理;语音信号是一种随时间而变化的信号,由于发声器官的惯性运动,可以认为语音信号具有短时平稳性。因此,可以将语音信号分为一些短段(分析帧)来进行处理。语音信号的分帧采用可移动的有限长度窗口进行加权的方式进行实现。在本发明中采用海明(Hamming)窗,窗函数如下,
Figure BDA0002750762290000041
其中N为窗函数长度,n为离散信号在信号序列中的位置,π为圆周率。
海明窗具有更平滑的低通透性,能够在较高的程度上反应短时信号的频率特性。
1.2声学特征提取
1)梅尔频率倒谱系数MFCC
首先采用MFCC进行声学特征提取,依次经过预加重、分帧加窗的预处理,快速傅里叶变换,Mel滤波,倒谱分析,得到MFCC的声学特征,但该特征只反映了语音的静态特征,再对其进行一阶或二阶差分,得到语音信号的动态特征。本发明综合了上述MFCC及其差分特征。
2)归一化互相关函数NCCF
采用归一化互相关函数(Normalized Cross Correlation Function,NCCF)算法进行音高特征的提取。对于语音信号s(n),n≤N,n∈N+,其自相关函数为:
Figure BDA0002750762290000051
N为离散语音信号序列的长度,K为选取的最大时延,s(n+k)为s(n)相邻的语音信号(时延为k),时延应当设置为基音周期的整数倍。
对上面的自相关函数做修改,得到归一化互相关函数:
Figure BDA0002750762290000052
其中N为离散语音信号序列的长度,K为选取的最大时延,给定n时刻的语音信号s(n),n≤N,n∈N+,s(n+k)为s(n)相邻的语音信号(时延为k),
Figure BDA0002750762290000053
然后求得自相关函数的最大值,此时函数的延迟值k即为估算的基音周期。
3)设置声学特征参数;帧长25ms,帧移设置为10ms,窗函数采用海明窗。
原始的20维MFCC特征和其本身一阶差分二阶差分共同组成60维声学特征参数;同时提取每帧语音的NCCF系数,共同组成61维的声学特征参数。
第二部分、说话人模块
在完成声学特征提取后,本发明基于x-vector的基础,同时对其中时延神经网络(Time-Delay Neural Network,TDNN)加以改进,采用基于低秩矩阵分解进行优化。由所得语音特征提取说话人特征得到的说话人特征向量。该部分可以分为两个模块,如附图说明图2所示。
2.1帧级别特征提取模块
第一个模块为帧级别特征提取模块,将之前预处理得到的声学特征作为TDNN神经网络的输入。由于不同的帧之间存在时序关系,多层TDNN可以使网络学习到语音信号的时序结构性信息。在原始TDNN网络的5层帧级层的基础上,依次插入5个带有半正交限制的Factorized层作为中间层,其中中间层维数低于原来的帧级层。假设原来一个帧级层的参数矩阵为M,加入中间层后需要考虑两个参数矩阵A和B,其中M=AB,且约束B为半正交矩阵。该分解可以通过奇异值分解(SVD)进行证明:
对于实矩阵M,可以通过奇异值分解得到M=U∑VT,其中U是m×n阶正交矩阵,∑是n×n阶对角矩阵,V*表示V的转置,是n×m正交矩阵。令A=U,B=∑VT,容易得到B是半正交矩阵(BBT=∑VTVT∑=E),此时有分解形式:M=AB。
上述低秩矩阵分解操作在减少模型参数的同时,依然能保持很好的建模能力。
下面解释低秩矩阵分解TDNN的参数矩阵的构造。假设M为m×n的半正交约束矩阵,那么目标是使得M满足:MMT=E(E为单位矩阵)。
定义P=MMT,Q=P-E,则需要求得最小化损失函数:
f=tr(QQT)=tr[(P-E)(PT-E)]
对其求偏导数:
Figure BDA0002750762290000071
Figure BDA0002750762290000072
Figure BDA0002750762290000073
设ν是学习率,则更新矩阵M:M←M-4vQM。
增加一个浮动因子α,将其扩展为:
Figure BDA0002750762290000074
其中浮动因子α为:
Figure BDA0002750762290000075
在添加中间层的同时,网络中增加了跳层连接(Skip Connection),跳跃一层,直接将上一层的输出添加到当前层的输出,共同作为下一层的输入传递下去。另外为了避免过拟合,网络在训练时还需要进行Dropout处理,即在神经网络中随机失活部分隐层神经元,再通过BP算法来更新没有被删除的隐层神经元的参数。
设t为当前时刻,假设输入端对于当前帧前后各时延一帧,那么对于隐藏层的每个神经元结点,将当前帧前后连续的三个时刻的特征向量作为输入,这样就实现了对于语音序列的时延操作。最终输出为帧级别的说话人特征。
2.2段级别特征提取模块
第二个模块为段级别特征提取模块。对以上TDNN提取得到的帧级别说话人特征,经过一个统计层以句子为单位计算帧级别特征的均值和标准差,实现帧级说话人特征到段级说话人特征的转变,公式如下:
Figure BDA0002750762290000076
Figure BDA0002750762290000081
其中ht表示帧级别特征,T表示语音段的帧数,μ为所有帧级别特征ht的均值;
之后连接两个全连接层和一个softmax层。从第一个全连接层中提取的特征向量作为说话人特征的特征向量。其中损失函数采用多类交叉熵损失函数:
Figure BDA0002750762290000082
其中E为损失函数值,N为训练语句个数,K为说话人个数,T为语音段的帧数,dnk表示第n个句子是否属于说话人k,是则取1,否则为0;给定第k个说话人spkrk
Figure BDA0002750762290000083
表示输入
Figure BDA0002750762290000084
属于第k个说话人的概率。
第三部分、模型测试
模型测试流程如附图说明图1所示。
3.1概率线性判别
假设训练数据语音由I个说话人的语音组成,其中每个说话人有J段自己不同的语音,则定义第i个人的第j条语音为xij。定义xij的生成模型为:
xij=μ+Fhi+Gwijij
其中μ表示数据均值,F表示说话人空间,G表示噪声空间,表示第i个说话人有关的隐含变量,即xij在说话人空间的表示,表示与第i个说话人的第j个语音有关的隐含变量,即在噪声空间的表示,εij∈N(0,∑)表示噪声协方差。该模型看成两个部分,信号部分μ+Fhi仅与说话人有关而与具体某条语音无关,反映了说话人之间的差异;噪音部分Gwijij描述了同一个说话人的不同语音之间的差异。
接下来使用期望最大化(Expectation-Maximum,EM)算法对PLDA模型的四个变量θ={μ,F,G,∑}进行估计,可以分为两个步骤。先计算隐含变量hi和wij的期望,如此重复。
经过多次迭代,最终可以得到拟合训练数据集X的参数集θ。
3.2得分处理
在测试阶段,已注册语音与测试语音采用PLDA模型进行打分,计算两条语音的似然比进行判定。公式如下:
Figure BDA0002750762290000091
上式中如果有两条测试语音,两条语音来自同一空间的假设为Hs,来自不同空间的假设为Hd,然后计算对数似然比,其实质就是两条语音属于同一个人和不属于同一个人的概率之比大小,若大于设定的阈值,可以认定两条语音来自于同一个人。
3.3模型测试与评价标准
得到一批注册说话人的特征向量之后,使用同样的方法对输入的测试数据得到特征向量,利用PLDA模型进行打分判决,进行识别。系统性能的衡量采用等错误率(EER)表征。错误拒绝率(False Rejection Rate,FRR)是在一段全部为真的语音中漏掉几个没有正确识别的语音;错误接受率(False Acceptance Rate,FAR)是在一段应该全部为假的语音中,误判几个被识别为真的语音。以FRR为x轴,FAR为y轴绘制出检测错误权衡曲线(DetectionError Tradeoff,DET),其中使得FRR=FAR的点的值就是ERR。通常认为等错误率EER越小,系统的准确率越高。
创新点
创新之一:时延神经网络的优化
使用参数矩阵的低秩分解对TDNN加以改进,在常规TDNN的基础上添加多个中间层,使得原有参数矩阵各分解为两个较小的矩阵之积的形式,能够减小参数规模,加快训练速度。同时网络中使用跳层连接,以减少梯度消失的出现,同时使用Dropout避免过拟合。
创新之二:声学特征提取的多样性
在传统的说话人识别算法中,常用的特征为MFCC。然而MFCC对于高频特征的提取能力有所欠缺,为了提高说话人识别的准确率,在MFCC特征之外,使用归一化互相关函数提取音高特征,共同组成61维的复合声学特征。音高特征作为额外的特征用于识别,能有效提高准确率。

Claims (5)

1.一种基于复合声学特征和低秩分解TDNN的说话人识别系统,特征是,包括声学特征提取模块、说话人模块和判定模块;对输入的语音信号在预处理后采用MFCC和归一化互相关函数进行声学特征提取模块,将两种特征复合;在说话人模块中,将复合声学特征输入低秩矩阵分解TDNN进行帧级别特征提取,再经过统计池化层后,通过两个全连接层和一个softmax层完成段级别特征提取,并得到输入语音对应的特征向量;在测试阶段中,判定模块使用PLDA模型对注册语音和测试语音的特征向量进行打分判定,最终输出识别结果。
2.一种基于复合声学特征和低秩分解TDNN的说话人识别方法,其特征在于,具体实现方法为:
第一部分、声学特征提取
1.1语音信号预处理
语音信号是一种非平稳的时变信号,在进行相应的语音处理中都需要提取语音中所包含的各种信息;对语音信号的预处理有利于方便有效地提取并表示语音信号所携带的信息;
实际的语音信号在进行数字处理之前,首先要将语音信号s(t)以采样周期T采样,将其离散化为s(n),采样周期的选取根据模拟语音信号的带宽来确定,以避免信号的频域混叠失真;
1)语音信号的预加重处理:预加重的目的是对语音的高频部分进行加重,增加语音的高频分辨率,一般通过传递函数H(z)=1-αz-1,α为预加重系数,z为输入的信号变量;设n时刻的语音采样值为x(n),经过预加重处理后的结果为y(n)=x(n)-αx(n-1);经过预加重后的频谱在高频部分的幅度会得到一定的提升;
2)语音信号的加窗处理:语音信号是一种随时间而变化的信号,由于发声器官的惯性运动,可以认为语音信号具有短时平稳性,因此,可以将语音信号分为一些短段(分析帧)来进行处理;语音信号的分帧采用可移动的有限长度窗口进行加权的方式进行实现;采用海明(Hamming)窗,窗函数如下,
Figure FDA0002750762280000021
其中N为窗函数长度,n为离散信号在信号序列中的位置,π为圆周率;
1.2声学特征提取
1)梅尔频率倒谱系数MFCC:首先采用MFCC进行声学特征提取,依次经过预加重、分帧加窗的预处理,快速傅里叶变换,Mel滤波,倒谱分析,得到MFCC的声学特征;再对其进行一阶或二阶差分,得到语音信号的动态特征;
2)归一化互相关函数NCCF:采用归一化互相关函数(Normalized Cross CorrelationFunction,NCCF)算法进行音高特征的提取;对于语音信号s(n),n≤N,n∈N+,其自相关函数为:
Figure FDA0002750762280000022
N为离散语音信号序列的长度,K为选取的最大时延,s(n+k)为s(n)相邻的语音信号(时延为k),时延应当设置为基音周期的整数倍;
对上面的自相关函数做修改,得到归一化互相关函数:
Figure FDA0002750762280000023
其中N为离散语音信号序列的长度,K为选取的最大时延;给定n时刻的语音信号s(n),n≤N,n∈N+,s(n+k)为s(n)相邻的语音信号(时延为k),
Figure FDA0002750762280000024
然后求得自相关函数的最大值,此时函数的延迟值k即为估算的基音周期;
3)设置声学特征参数:帧长25ms,帧移设置为10ms,窗函数采用海明窗;
原始的20维MFCC特征和其本身一阶差分二阶差分共同组成60维声学特征参数;同时提取每帧语音的NCCF系数,共同组成61维的声学特征参数;
第二部分、说话人模块
在完成声学特征提取后,基于x-vector的基础,同时对其中时延神经网络(Time-DelayNeural Network,TDNN)加以改进,采用基于低秩矩阵分解进行优化;由所得语音特征提取说话人特征得到的说话人特征向量;
2.1帧级别特征提取模块
第一个模块为帧级别特征提取模块,将之前预处理得到的声学特征作为TDNN神经网络的输入;由于不同的帧之间存在时序关系,多层TDNN可以使网络学习到语音信号的时序结构性信息;在原始TDNN网络的5层帧级层的基础上,依次插入5个带有半正交限制的Factorized层作为中间层,其中中间层维数低于原来的帧级层;
在添加中间层的同时,网络中增加了跳层连接(Skip Connection),跳跃一层,直接将上一层的输出添加到当前层的输出,共同作为下一层的输入传递下去;
设t为当前时刻,假设输入端对于当前帧前后各时延一帧,那么对于隐藏层的每个神经元结点,将当前帧前后连续的三个时刻的特征向量作为输入,这样就实现了对于语音序列的时延操作;最终输出为帧级别的说话人特征;
2.2段级别特征提取模块
第二个模块为段级别特征提取模块;对以上TDNN提取得到的帧级别说话人特征,经过一个统计层以句子为单位计算帧级别特征的均值和标准差,实现帧级说话人特征到段级说话人特征的转变,公式如下:
Figure FDA0002750762280000031
Figure FDA0002750762280000032
其中ht表示帧级别特征,T表示语音段的帧数,μ为所有帧级别特征ht的均值;
之后连接两个全连接层和一个softmax层;从第一个全连接层中提取的特征向量作为说话人特征的特征向量;其中损失函数采用多类交叉熵损失函数:
Figure FDA0002750762280000033
其中E为损失函数值,N为训练语句个数,K为说话人个数,T为语音段的帧数,dnk表示第n个句子是否属于说话人k,是则取1,否则为0;给定第k个说话人spkrk
Figure FDA0002750762280000034
表示输入
Figure FDA0002750762280000035
属于第k个说话人的概率;
第三部分、模型测试
3.1概率线性判别
假设训练数据语音由I个说话人的语音组成,其中每个说话人有J段自己不同的语音,则定义第i个人的第j条语音为xij;定义xij的生成模型为:
xij=μ+Fhi+Gwijij
其中μ表示数据均值,F表示说话人空间,G表示噪声空间,表示第i个说话人有关的隐含变量,即xij在说话人空间的表示,表示与第i个说话人的第j个语音有关的隐含变量,即在噪声空间的表示,εij∈N(0,∑)表示噪声协方差;该模型看成两个部分,信号部分μ+Fhi仅与说话人有关而与具体某条语音无关,反映了说话人之间的差异;噪音部分Gwijij描述了同一个说话人的不同语音之间的差异;
接下来使用期望最大化(Expectation-Maximum,EM)算法对PLDA模型的四个变量θ={μ,F,G,∑}进行估计,可以分为两个步骤;先计算隐含变量hi和wij的期望,如此重复;
经过多次迭代,最终可以得到拟合训练数据集X的参数集θ;
3.2得分处理
在测试阶段,已注册语音与测试语音采用PLDA模型进行打分,计算两条语音的似然比进行判定;公式如下:
Figure FDA0002750762280000041
上式中两条测试语音的特征向量分别为η1和η2,两条语音来自同一空间的假设为Hs,来自不同空间的假设为Hd,然后计算对数似然比,其实质就是两条语音属于同一个人和不属于同一个人的概率之比大小,若大于设定的阈值,可以认定两条语音来自于同一个人;
3.3模型测试与评价标准
使用步骤2方法先得到一批注册说话人的特征向量,然后对输入的测试数据得到特征向量,利用PLDA模型进行打分判决,进行识别。
3.如权利要求1所述基于复合声学特征和低秩分解TDNN的说话人识别方法,其特征在于:步骤一中,预处理包括语音信号的预加重处理和加窗处理,其中声学参数设置为:帧长25ms,帧移设置为10ms,窗函数选择海明窗。复合声学特征包括MFCC特征及其一阶和二阶差分,以及归一化互相关函数得到的音高特征。
4.如权利要求1所述基于低秩矩阵分解TDNN的说话人识别方法,其特征在于:步骤二中,原始TDNN的参数矩阵采用低秩矩阵分解进行优化。在原始TDNN网络的5层帧级层的基础上,依次插入5个带有半正交限制的中间层,其中中间层维数低于原来的帧级层。假设原来一个帧级层的参数矩阵为M,加入中间层后需要考虑两个参数矩阵A和B,其中M=AB,且限定B为半正交矩阵。
5.如权利要求1所述低秩矩阵分解TDNN的说话人识别方法,其特征在于:步骤二中,TDNN中增加了跳层连接,跳跃一层,直接将上一层的输出添加到当前层的输出,共同作为下一层的输入传递下去。另外为了避免过拟合,网络在训练时还需要进行Dropout处理。
CN202011183292.9A 2020-10-29 2020-10-29 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法 Pending CN112331216A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011183292.9A CN112331216A (zh) 2020-10-29 2020-10-29 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011183292.9A CN112331216A (zh) 2020-10-29 2020-10-29 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法

Publications (1)

Publication Number Publication Date
CN112331216A true CN112331216A (zh) 2021-02-05

Family

ID=74297461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011183292.9A Pending CN112331216A (zh) 2020-10-29 2020-10-29 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法

Country Status (1)

Country Link
CN (1) CN112331216A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112992157A (zh) * 2021-02-08 2021-06-18 贵州师范大学 一种基于残差和批量归一化的神经网络带噪声纹识别方法
CN113033318A (zh) * 2021-03-01 2021-06-25 深圳大学 人体动作的检测方法、装置及计算机可读存储介质
CN113113022A (zh) * 2021-04-15 2021-07-13 吉林大学 一种基于说话人声纹信息的自动识别身份的方法
CN113129908A (zh) * 2021-03-24 2021-07-16 中国科学院声学研究所南海研究站 基于循环帧级特征融合的端到端猕猴声纹验证方法及系统
CN113327616A (zh) * 2021-06-02 2021-08-31 广东电网有限责任公司 声纹识别方法、装置、电子设备及存储介质
CN113555023A (zh) * 2021-09-18 2021-10-26 中国科学院自动化研究所 一种语音鉴伪与说话人识别联合建模的方法
CN113689861A (zh) * 2021-08-10 2021-11-23 上海淇玥信息技术有限公司 一种单声道通话录音的智能分轨方法、装置和系统
CN113763966A (zh) * 2021-09-09 2021-12-07 武汉理工大学 一种端到端的文本无关声纹识别方法及系统
CN114091531A (zh) * 2021-11-12 2022-02-25 哈尔滨工程大学 基于多尺度的环境特征提取方法
CN114267361A (zh) * 2022-03-01 2022-04-01 江苏清微智能科技有限公司 一种高识别度的说话人识别系统
CN115116446A (zh) * 2022-06-21 2022-09-27 成都理工大学 一种噪声环境下说话人识别模型构建方法
CN116825114A (zh) * 2023-08-31 2023-09-29 深圳市声扬科技有限公司 声纹识别方法、装置、电子设备及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040260550A1 (en) * 2003-06-20 2004-12-23 Burges Chris J.C. Audio processing system and method for classifying speakers in audio data
CN108694949A (zh) * 2018-03-27 2018-10-23 佛山市顺德区中山大学研究院 基于重排序超向量和残差网络的说话人识别方法及其装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040260550A1 (en) * 2003-06-20 2004-12-23 Burges Chris J.C. Audio processing system and method for classifying speakers in audio data
CN108694949A (zh) * 2018-03-27 2018-10-23 佛山市顺德区中山大学研究院 基于重排序超向量和残差网络的说话人识别方法及其装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DANIEL POVEY ET AL.: "《Semi-Orthogonal Low-Rank Matrix Factorization for Deep Neural Networks》", 《INTERSPEECH 2018》 *
SIMON J.D.PRINCE ET AL.: "《Probabilistic Linear Discriminant Analysis for Inferences About Identity》", 《ICCV 2007》 *
YAN SHI ET AL.: "《Addressing Text-Dependent Speaker Verification Using Singing Speech》", 《APPLIED SCIENCES》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112992157A (zh) * 2021-02-08 2021-06-18 贵州师范大学 一种基于残差和批量归一化的神经网络带噪声纹识别方法
CN113033318A (zh) * 2021-03-01 2021-06-25 深圳大学 人体动作的检测方法、装置及计算机可读存储介质
CN113033318B (zh) * 2021-03-01 2023-09-26 深圳大学 人体动作的检测方法、装置及计算机可读存储介质
CN113129908B (zh) * 2021-03-24 2022-07-26 中国科学院声学研究所南海研究站 基于循环帧级特征融合的端到端猕猴声纹验证方法及系统
CN113129908A (zh) * 2021-03-24 2021-07-16 中国科学院声学研究所南海研究站 基于循环帧级特征融合的端到端猕猴声纹验证方法及系统
CN113113022A (zh) * 2021-04-15 2021-07-13 吉林大学 一种基于说话人声纹信息的自动识别身份的方法
CN113327616A (zh) * 2021-06-02 2021-08-31 广东电网有限责任公司 声纹识别方法、装置、电子设备及存储介质
CN113689861A (zh) * 2021-08-10 2021-11-23 上海淇玥信息技术有限公司 一种单声道通话录音的智能分轨方法、装置和系统
CN113689861B (zh) * 2021-08-10 2024-02-27 上海淇玥信息技术有限公司 一种单声道通话录音的智能分轨方法、装置和系统
CN113763966B (zh) * 2021-09-09 2024-03-19 武汉理工大学 一种端到端的文本无关声纹识别方法及系统
CN113763966A (zh) * 2021-09-09 2021-12-07 武汉理工大学 一种端到端的文本无关声纹识别方法及系统
CN113555023B (zh) * 2021-09-18 2022-01-11 中国科学院自动化研究所 一种语音鉴伪与说话人识别联合建模的方法
CN113555023A (zh) * 2021-09-18 2021-10-26 中国科学院自动化研究所 一种语音鉴伪与说话人识别联合建模的方法
CN114091531A (zh) * 2021-11-12 2022-02-25 哈尔滨工程大学 基于多尺度的环境特征提取方法
CN114267361A (zh) * 2022-03-01 2022-04-01 江苏清微智能科技有限公司 一种高识别度的说话人识别系统
CN115116446A (zh) * 2022-06-21 2022-09-27 成都理工大学 一种噪声环境下说话人识别模型构建方法
CN116825114A (zh) * 2023-08-31 2023-09-29 深圳市声扬科技有限公司 声纹识别方法、装置、电子设备及计算机可读存储介质
CN116825114B (zh) * 2023-08-31 2023-11-10 深圳市声扬科技有限公司 声纹识别方法、装置、电子设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN112331216A (zh) 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法
CN107146601B (zh) 一种用于说话人识别系统的后端i-vector增强方法
CN110400579B (zh) 基于方向自注意力机制和双向长短时网络的语音情感识别
KR100908121B1 (ko) 음성 특징 벡터 변환 방법 및 장치
CN112581979B (zh) 一种基于语谱图的语音情绪识别方法
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及系统
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
CN113936681B (zh) 一种基于掩膜映射和混合空洞卷积网络的语音增强方法
Todkar et al. Speaker recognition techniques: A review
CN112053694A (zh) 一种基于cnn与gru网络融合的声纹识别方法
US20050015251A1 (en) High-order entropy error functions for neural classifiers
Shi et al. End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network.
US20040204930A1 (en) Method and system for utterance verification
CN112541533A (zh) 一种基于神经网络与特征融合的改装车识别方法
CN113763965A (zh) 一种多重注意力特征融合的说话人识别方法
US5832181A (en) Speech-recognition system utilizing neural networks and method of using same
CN113571095B (zh) 基于嵌套深度神经网络的语音情感识别方法和系统
CN111081273A (zh) 一种基于声门波信号特征提取的语音情感识别方法
CN109741733B (zh) 基于一致性路由网络的语音音素识别方法
Fukuda et al. Generalized knowledge distillation from an ensemble of specialized teachers leveraging unsupervised neural clustering
KR100327486B1 (ko) 스테이트별 가중치를 적용한 음성 인식 장치 및 방법
Satla et al. Dialect Identification in Telugu Language Speech Utterance Using Modified Features with Deep Neural Network.
Zhao et al. Speaker recognition based on deep learning
Venkateswarlu et al. The performance evaluation of speech recognition by comparative approach
CN113506583B (zh) 利用残差网络的伪装语音检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210205