CN108694949B - 基于重排序超向量和残差网络的说话人识别方法及其装置 - Google Patents

基于重排序超向量和残差网络的说话人识别方法及其装置 Download PDF

Info

Publication number
CN108694949B
CN108694949B CN201810257464.9A CN201810257464A CN108694949B CN 108694949 B CN108694949 B CN 108694949B CN 201810257464 A CN201810257464 A CN 201810257464A CN 108694949 B CN108694949 B CN 108694949B
Authority
CN
China
Prior art keywords
supervectors
mean
mfcc
residual error
centered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810257464.9A
Other languages
English (en)
Other versions
CN108694949A (zh
Inventor
陈金坤
蔡丹蔚
蔡炜城
李明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Joint Research Institute
Sun Yat Sen University
SYSU CMU Shunde International Joint Research Institute
Original Assignee
Joint Research Institute
Sun Yat Sen University
SYSU CMU Shunde International Joint Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Joint Research Institute, Sun Yat Sen University, SYSU CMU Shunde International Joint Research Institute filed Critical Joint Research Institute
Priority to CN201810257464.9A priority Critical patent/CN108694949B/zh
Publication of CN108694949A publication Critical patent/CN108694949A/zh
Application granted granted Critical
Publication of CN108694949B publication Critical patent/CN108694949B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于重排序超向量和残差网络的说话人识别方法及其装置,方法包括:对语音样本进行信号检测,提取及优化MFCC特征;基于TDNN声学模型处理MFCC特征,得到均值中心化超向量;根据senone状态的相似性对均值中心化超向量进行重排序;以重排序后的均值中心化超向量作为外部神经网络的输入,对外部神经网络进行训练,其中输入端为残差网络,从其输出端获取说话人的深度编码特征;对说话人的深度编码特征进行PLDA建模,得到PLDA模型;计算语音样本的深度编码特征在PLDA模型上的似然得分,判断说话人是否为同一个人。本发明能够更好地学习超向量内部的连续性信息和局部相关性信息,有利于提升说话人识别性能。

Description

基于重排序超向量和残差网络的说话人识别方法及其装置
技术领域
本发明涉及语音识别领域,尤其是基于重排序超向量和残差网络的说话人识别方法及其装置。
背景技术
说话人识别,又称声纹识别,是一种生物识别技术。说话人识别指的是给定某个人的语音,提取语音信号中说话人的信息,利用机器学习和模式识别的相关方法,鉴定语音信号中对应的说话人身份。
目前已经研究出了多种说话人识别网络,包括一种端到端的深度神经网络识别系统,该系统一般采用全连接层作为输入层,在输入层采用平均池化的技术,以获得固定维度的输入,但在文本无关的说话人识别问题中,这并不是理想的解决办法,这是因为不同的音素状态之间存在着内部连续性和局部相关性信息,经过平均池化处理后,反而丢失了这些信息,对系统性能容易产生不利影响,并且采用全连接层作为输入层,对于这些信息的学习效果也不佳。
发明内容
为了解决上述问题,本发明的目的是提供基于重排序超向量和残差网络的说话人识别方法及其装置,通过对均值中心化超向量进行重排序,使得超向量内部的连续性信息和局部相关性信息更加明显,并且采用残差网络作为输入层,具有更好的学习效果。
为了弥补现有技术的不足,本发明采用的技术方案是:
基于重排序超向量和残差网络的说话人识别方法,包括以下步骤:
S1、对语音样本进行语音信号检测,提取及优化MFCC特征;
S2、基于TDNN声学模型处理MFCC特征,从而得到均值中心化超向量;
S3、根据senone状态的相似性对均值中心化超向量进行重排序;
S4、以重排序后的均值中心化超向量作为外部神经网络的输入,对外部神经网络进行训练,其中外部神经网络的输入端为残差网络;从外部神经网络的输出端获取说话人信息的深度编码特征;
S5、对说话人信息的深度编码特征进行PLDA建模,从而得到PLDA模型;
S6、计算多个语音样本的深度编码特征在PLDA模型上的似然得分,并比较对应的似然得分是否相同,若相同,则判定对应的说话人为同一个人,否则不为同一个人。
进一步,所述步骤S1中,对语音样本进行语音信号检测,包括:采用VAD去除语音样本中的静音与噪声部分。
进一步,所述步骤S1中,提取及处理MFCC特征,包括:提取向量维度为60的MFCC特征,采用特征均值方差归一化方法对MFCC特征进行优化。
进一步,所述步骤S2中,基于TDNN声学模型处理MFCC特征,从而得到均值中心化超向量,包括:
S21、基于TDNN声学模型提取MFCC特征中每一帧在音素层单元上的后验概率,得到:
Figure BDA0001609323880000021
Figure BDA0001609323880000031
其中,MFCC特征为{y1,y2,…,yL},L为帧数,ci是TDNN声学模型中的第i个senone状态,μi是对应第i个senone状态的均值向量,P(ci|yt)是第t帧特征yt在音素层单元上的后验概率,Ni和Fi分别是MFCC特征在第t帧下的零阶和一阶的Baum-Welch统计量。
S22、利用Ni对Fi的均值中心化向量进行权重估计,得到Fi的归一化均值中心化向量
Figure BDA0001609323880000032
Figure BDA0001609323880000033
S23、将所有帧的
Figure BDA0001609323880000034
拼接,得到均值中心化超向量
Figure BDA0001609323880000035
进一步,所述
Figure BDA0001609323880000036
为K×D矩阵,包括3个维度为
Figure BDA0001609323880000037
的子矩阵,所述3个子矩阵分别对应梅尔频率倒谱系数及其一阶、二阶导数,其中K为senone状态的个数,D为MFCC特征的向量维度。
进一步,所述步骤S3中,根据senone状态的相似性对均值中心化超向量进行重排序,包括:采用层次聚类或决策树聚类方法将相似的senone状态聚集到相同组别中,对
Figure BDA0001609323880000038
进行重排序,将
Figure BDA0001609323880000039
表示为K×D二维图像。
进一步,所述步骤S4中的残差网络表示为:
y=F(x,Wi)+x
其中,x是输入量,y是输出量,F()表示一层或多层的卷积神经网络,Wi表示残差网络内所有卷积层的参数。
进一步,所述步骤S4中,所述外部神经网络的输出端为全连接网络,通过全连接网络的瓶颈层获取说话人信息的深度编码特征。
基于重排序超向量和残差网络的说话人识别装置,包括:
提取模块,用于对语音样本进行语音信号检测,提取及优化MFCC特征;
生成模块,用于利用TDNN声学模型处理MFCC特征,从而得到均值中心化超向量;
重排序模块,用于根据senone状态的相似性对均值中心化超向量进行重排序;
训练模块,用于以重排序后的均值中心化超向量作为外部神经网络的输入,对外部神经网络进行训练并从外部神经网络的输出端获取说话人信息的深度编码特征,其中外部神经网络的输入端为残差网络;
特征建模模块,用于对说话人信息的深度编码特征进行PLDA建模,从而得到PLDA模型;
比较模块,用于计算多个语音样本的深度编码特征在PLDA模型上的似然得分,并比较对应的似然得分是否相同,若相同,则判定对应的说话人为同一个人,否则不为同一个人。
基于重排序超向量和残差网络的说话人识别装置,包括处理器和用于存储处理器可执行指令的存储器;所述处理器读取可执行指令并执行以下步骤:
对语音样本进行语音信号检测,提取及优化MFCC特征;
基于TDNN声学模型处理MFCC特征,从而得到均值中心化超向量;
根据senone状态的相似性对均值中心化超向量进行重排序;
以重排序后的均值中心化超向量作为外部神经网络的输入,对外部神经网络进行训练,其中外部神经网络的输入端为残差网络;从外部神经网络的输出端获取说话人信息的深度编码特征;
对说话人信息的深度编码特征进行PLDA建模,从而得到PLDA模型;
计算多个语音样本的深度编码特征在PLDA模型上的似然得分,并比较对应的似然得分是否相同,若相同,则判定对应的说话人为同一个人,否则不为同一个人。
本发明的有益效果是:通过对语音样本进行检测,以获取更纯粹的语音信号,进一步利用TDNN声学模型处理MFCC特征,从而得到均值中心化超向量,尤其是,通过对均值中心化超向量进行重排序,使得超向量内部的连续性信息和局部相关性信息更加明显,并且采用残差网络作为输入层,使得能够更好地学习超向量内部的连续性信息和局部相关性信息,从而有利于获取说话人信息的深度编码特征,进而提升整体的识别性能。因此,本发明能够更好地学习超向量内部的连续性信息和局部相关性信息,有利于提升说话人识别性能。
附图说明
下面结合附图给出本发明较佳实施例,以详细说明本发明的实施方案。
图1是本发明的步骤流程示意图;
图2是本发明与其它识别方法的实验数据对比图。
具体实施方式
实施例一
参照图1,本发明的基于重排序超向量和残差网络的说话人识别方法,包括以下步骤:
S1、对语音样本进行语音信号检测,提取及优化MFCC特征;
S2、基于TDNN声学模型处理MFCC特征,从而得到均值中心化超向量;
S3、根据senone状态的相似性对均值中心化超向量进行重排序;
S4、以重排序后的均值中心化超向量作为外部神经网络的输入,对外部神经网络进行训练,其中外部神经网络的输入端为残差网络;从外部神经网络的输出端获取说话人信息的深度编码特征;
S5、对说话人信息的深度编码特征进行PLDA建模,从而得到PLDA模型;
S6、计算多个语音样本的深度编码特征在PLDA模型上的似然得分,并比较对应的似然得分是否相同,若相同,则判定对应的说话人为同一个人,否则不为同一个人。
具体地,在本发明中,对以下这些技术用语稍作解释:MFCC特征即梅尔频率倒谱系数(Mel-frequencycepstral coefficients)特征;TDNN声学模型,即是时延神经网络(Timedelay neural network)声学模型;后验概率,即Phoneticposterior probability,简称PPP;PLDA,即概率线性判别分析(Probabilisticlinear discriminate analysis),是一种后端建模技术。
通过对语音样本进行检测,以获取更纯粹的语音信号,进一步利用TDNN声学模型处理MFCC特征,从而得到均值中心化超向量,尤其是,通过对均值中心化超向量进行重排序,使得超向量内部的连续性信息和局部相关性信息更加明显,并且采用残差网络作为输入层,使得能够更好地学习超向量内部的连续性信息和局部相关性信息,从而有利于获取说话人信息的深度编码特征,进而提升整体的识别性能。因此,本发明能够更好地学习超向量内部的连续性信息和局部相关性信息,有利于提升说话人识别性能。
其中,所述步骤S1中,对语音样本进行语音信号检测,包括:采用VAD去除语音样本中的静音与噪声部分;VAD是本领域一种常见静噪处理手段,在此不作赘述。
其中,所述步骤S1中,提取及处理MFCC特征,包括:提取向量维度为60的MFCC特征,采用特征均值方差归一化方法对MFCC特征进行优化;MFCC特征为矩阵表示,故对其特征均值方差进行归一化处理,使其成为标准矩阵,可使接下来的运算更加方便,由于该方法仅涉及到简单向量特征处理,因此不再赘述。
其中,所述步骤S2中,基于TDNN声学模型处理MFCC特征,从而得到均值中心化超向量,包括:
S21、基于TDNN声学模型提取MFCC特征中每一帧在音素层单元上的后验概率,得到:
Figure BDA0001609323880000071
Figure BDA0001609323880000072
其中,MFCC特征为{y1,y2,…,yL},L为帧数,ci是TDNN声学模型中的第i个senone状态,μi是对应第i个senone状态的均值向量,P(ci|yt)是第t帧特征yt在音素层单元上的后验概率,Ni和Fi分别是MFCC特征在第t帧下的零阶和一阶的Baum-Welch统计量。
S22、利用Ni对Fi的均值中心化向量进行权重估计,得到Fi的归一化均值中心化向量
Figure BDA0001609323880000081
Figure BDA0001609323880000082
S23、将所有帧的
Figure BDA0001609323880000083
拼接,得到均值中心化超向量
Figure BDA0001609323880000084
其中,所述
Figure BDA0001609323880000085
为K×D矩阵,包括3个维度为
Figure BDA0001609323880000086
的子矩阵,所述3个子矩阵分别对应梅尔频率倒谱系数及其一阶、二阶导数,其中K为senone状态的个数,即P(ci|yt)的维度为K,D为MFCC特征的向量维度。
具体地,由于不同senone状态有不同的占有概率,一般置信度高的senone状态在神经网路中能够有更高的权重,也就更有利于外部神经网络的学习,所以需要用零阶Baum-Welch统计量重新估计Fi的均值中心化向量;
在本实施例中,采用了DC fisher语料库中约1800小时的英语语料TDNN声学模型,其中senone状态数K为5515,向量维度D为60。
其中,所述步骤S3中,根据senone状态的相似性对均值中心化超向量进行重排序,包括:采用层次聚类或决策树聚类方法将相似的senone状态聚集到相同组别中,对
Figure BDA0001609323880000087
进行重排序,将
Figure BDA0001609323880000088
表示为K×D二维图像。
具体地,对于相似的senone状态,在单音素或者三音素状态的表示上具有相似性,则TDNN声学模型会输出相似的音素后验概率。在K×D的
Figure BDA0001609323880000091
矩阵中,按照对应的senone状态的相似度进行排序和分组,相似的senone状态将被聚集到相同的组别中,从而将超向量矩阵重新表示为含有更强的连续性和相关性信息的K×D二维图像;
用层次聚类方法对senone进行分组包括:首先,以K个senone状态为树的叶子节点,即K个子类,再用余弦距离或相关距离计算各个子类的均值向量μi之间的距离,即类间距离,然后根据类间距离用层次聚类方法对senone状态进行分组。
用决策树聚类方法对senone进行聚类包括:将多个三音素状态映射到一个senone状态,并且使相似的senone状态在决策树中的位置相近,状态编号也相近,因此可利用该决策树中的senone状态编号来将均值中心化超向量进行重排序;其中,决策树模型在TDNN声学模型的训练过程中也被伴随构建,是已知模型。
其中,所述步骤S4中的残差网络表示为:
y=F(x,Wi)+x
其中,x是输入量,y是输出量,F()表示一层或多层的卷积神经网络,Wi表示残差网络内所有卷积层的参数;优选地,残差网络包括4层卷积神经网络,在不同的卷积神经网络之间,采用常见的激活函数Rectified linear unit(ReLU)进行传递。
其中,所述步骤S4中,所述外部神经网络的输出端为全连接网络,通过全连接网络的瓶颈层获取说话人信息的深度编码特征,瓶颈层为全连接网络的隐藏层,瓶颈层的输出可以作为说话人信息的一种深度编码特征。
其中,优选地,所述步骤S4中,以交叉熵损失函数作为目标函数来对外部神经网络进行训练,训练起来较为简单方便,由于普适性高,适合本领域的技术人员进行使用。
实施例二
基于重排序超向量和残差网络的说话人识别装置,包括:
提取模块,用于对语音样本进行语音信号检测,提取及优化MFCC特征;
生成模块,用于利用TDNN声学模型处理MFCC特征,从而得到均值中心化超向量;
重排序模块,用于根据senone状态的相似性对均值中心化超向量进行重排序;
训练模块,用于以重排序后的均值中心化超向量作为外部神经网络的输入,对外部神经网络进行训练并从外部神经网络的输出端获取说话人信息的深度编码特征,其中外部神经网络的输入端为残差网络;
特征建模模块,用于对说话人信息的深度编码特征进行PLDA建模,从而得到PLDA模型;
比较模块,用于计算多个语音样本的深度编码特征在PLDA模型上的似然得分,并比较对应的似然得分是否相同,若相同,则判定对应的说话人为同一个人,否则不为同一个人。
实施例三
基于重排序超向量和残差网络的说话人识别装置,包括处理器和用于存储处理器可执行指令的存储器;所述处理器读取可执行指令并执行以下步骤:
对语音样本进行语音信号检测,提取及优化MFCC特征;
基于TDNN声学模型处理MFCC特征,从而得到均值中心化超向量;
根据senone状态的相似性对均值中心化超向量进行重排序;
以重排序后的均值中心化超向量作为外部神经网络的输入,对外部神经网络进行训练,其中外部神经网络的输入端为残差网络;从外部神经网络的输出端获取说话人信息的深度编码特征;
对说话人信息的深度编码特征进行PLDA建模,从而得到PLDA模型;
计算多个语音样本的深度编码特征在PLDA模型上的似然得分,并比较对应的似然得分是否相同,若相同,则判定对应的说话人为同一个人,否则不为同一个人。
以下给出本发明的实验数据结果。
其中,所述的语音样本是从NISTSRE2010核心测试集中选出的。
参照图2和表1,PLDA和Cosine为不同的算法模型,EER为等错误率,DCF10是指当误警率为10%时的漏判率,图2中4幅图像依次对应编号1、2、8和11的实验数据;其中,编号为1和2的是基于UBM和i-vector的系统,两者的区别在于UBM模型的不同,前者是混合高斯(GMM)的UBM而后者是基于深度神经网络(DNN)的UBM模型,通过数据对比,可知DNN-UBM模型的识别性能更好;编号为3的是基于全连接层网络和原始超向量的识别算法,编号为4的是基于残差网络(ResNet)和原始超向量的识别算法,编号为5、6和7的是基于残差网络和重排序超向量的识别算法,对应的重排序的方法分别是基于余弦距离的层次聚类、基于相关距离的层次聚类和决策树聚类,而编号为8、9、10和11的分别是几个识别系统在得分层上用BOSARIS工具融合得到的混合系统。
表1基于不同算法的说话人识别结果
Figure BDA0001609323880000121
以PLDA为例,通过编号3和4的实验结果对比,可以发现,以超向量作为输入时,残差网络的性能优于全连接网络,而通过对超向量进行重排序,又可以进一步提升识别算法的性能。另外,参照编号8-11的实验结果,将基于残差网络和重排序超向量的识别系统与基于UBM和i-vector的识别系统做融合,可以得到较优的混合系统,说明不同的方法具有互补性质,实际使用时不必太过于局限。
以上内容对本发明的较佳实施例和基本原理作了详细论述,但本发明并不局限于上述实施方式,熟悉本领域的技术人员应该了解在不违背本发明精神的前提下还会有各种等同变形和替换,这些等同变形和替换都落入要求保护的本发明范围内。

Claims (8)

1.基于重排序超向量和残差网络的说话人识别方法,其特征在于,包括以下步骤:
S1、对语音样本进行语音信号检测,提取及优化MFCC特征;
S2、基于TDNN声学模型处理MFCC特征,从而得到均值中心化超向量;
S3、根据senone状态的相似性对均值中心化超向量进行重排序;
S4、以重排序后的均值中心化超向量作为外部神经网络的输入,对外部神经网络进行训练,其中外部神经网络的输入端为残差网络;从外部神经网络的输出端获取说话人信息的深度编码特征;
S5、对说话人信息的深度编码特征进行PLDA建模,从而得到PLDA模型;
S6、计算多个语音样本的深度编码特征在PLDA模型上的似然得分,并比较对应的似然得分是否相同,若相同,则判定对应的说话人为同一个人,否则不为同一个人;
其中,所述步骤S2中,基于TDNN声学模型处理MFCC特征,从而得到均值中心化超向量,包括:
S21、基于TDNN声学模型提取MFCC特征中每一帧在音素层单元上的后验概率,得到:
Figure FDA0003012015110000011
Figure FDA0003012015110000012
其中,MFCC特征为{y1,y2,...,yL},L为帧数,ci是TDNN声学模型中的第i个senone状态,μi是对应第i个senone状态的均值向量,P(ci|yt)是第t帧特征yt在音素层单元上的后验概率,Ni和Fi分别是MFCC特征在第t帧下的零阶和一阶的Baum-Welch统计量。
S22、利用Ni对Fi的均值中心化向量进行权重估计,得到Fi的归一化均值中心化向量
Figure FDA0003012015110000021
Figure FDA0003012015110000022
S23、将所有帧的
Figure FDA0003012015110000023
拼接,得到均值中心化超向量
Figure FDA0003012015110000024
2.根据权利要求1所述的基于重排序超向量和残差网络的说话人识别方法,其特征在于,所述步骤S1中,对语音样本进行语音信号检测,包括:采用VAD去除语音样本中的静音与噪声部分。
3.根据权利要求1或2所述的基于重排序超向量和残差网络的说话人识别方法,其特征在于,所述步骤S1中,提取及处理MFCC特征,包括:提取向量维度为60的MFCC特征,采用特征均值方差归一化方法对MFCC特征进行优化。
4.根据权利要求1所述的基于重排序超向量和残差网络的说话人识别方法,其特征在于,所述
Figure FDA0003012015110000026
为K×D矩阵,包括3个维度为
Figure FDA0003012015110000025
的子矩阵,所述3个子矩阵分别对应梅尔频率倒谱系数及其一阶、二阶导数,其中K为senone状态的个数,D为MFCC特征的向量维度。
5.根据权利要求4所述的基于重排序超向量和残差网络的说话人识别方法,其特征在于,所述步骤S3中,根据senone状态的相似性对均值中心化超向量进行重排序,包括:采用层次聚类或决策树聚类方法将相似的senone状态聚集到相同组别中,对
Figure FDA0003012015110000027
进行重排序,将
Figure FDA0003012015110000028
表示为K×D二维图像。
6.根据权利要求1所述的基于重排序超向量和残差网络的说话人识别方法,其特征在于,所述步骤S4中的残差网络表示为:
y=F(x,Wi)+x
其中,x是输入量,y是输出量,F()表示一层或多层的卷积神经网络,Wi表示残差网络内所有卷积层的参数。
7.根据权利要求1或6所述的基于重排序超向量和残差网络的说话人识别方法,其特征在于,所述步骤S4中,所述外部神经网络的输出端为全连接网络,通过全连接网络的瓶颈层获取说话人信息的深度编码特征。
8.基于重排序超向量和残差网络的说话人识别装置,其特征在于,包括处理器和用于存储处理器可执行指令的存储器;所述处理器读取可执行指令并执行以下步骤:
对语音样本进行语音信号检测,提取及优化MFCC特征;
基于TDNN声学模型处理MFCC特征,从而得到均值中心化超向量;
根据senone状态的相似性对均值中心化超向量进行重排序;
以重排序后的均值中心化超向量作为外部神经网络的输入,对外部神经网络进行训练,其中外部神经网络的输入端为残差网络;从外部神经网络的输出端获取说话人信息的深度编码特征;
对说话人信息的深度编码特征进行PLDA建模,从而得到PLDA模型;
计算多个语音样本的深度编码特征在PLDA模型上的似然得分,并比较对应的似然得分是否相同,若相同,则判定对应的说话人为同一个人,否则不为同一个人;
其中,所述基于TDNN声学模型处理MFCC特征,从而得到均值中心化超向量,包括:
基于TDNN声学模型提取MFCC特征中每一帧在音素层单元上的后验概率,得到:
Figure FDA0003012015110000041
Figure FDA0003012015110000042
其中,MFCC特征为{y1,y2,...,yL},L为帧数,ci是TDNN声学模型中的第i个senone状态,μi是对应第i个senone状态的均值向量,P(ci|yt)是第t帧特征yt在音素层单元上的后验概率,Ni和Fi分别是MFCC特征在第t帧下的零阶和一阶的Baum-Welch统计量。
利用Ni对Fi的均值中心化向量进行权重估计,得到Fi的归一化均值中心化向量
Figure FDA0003012015110000043
Figure FDA0003012015110000044
将所有帧的
Figure FDA0003012015110000045
拼接,得到均值中心化超向量
Figure FDA0003012015110000046
CN201810257464.9A 2018-03-27 2018-03-27 基于重排序超向量和残差网络的说话人识别方法及其装置 Active CN108694949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810257464.9A CN108694949B (zh) 2018-03-27 2018-03-27 基于重排序超向量和残差网络的说话人识别方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810257464.9A CN108694949B (zh) 2018-03-27 2018-03-27 基于重排序超向量和残差网络的说话人识别方法及其装置

Publications (2)

Publication Number Publication Date
CN108694949A CN108694949A (zh) 2018-10-23
CN108694949B true CN108694949B (zh) 2021-06-22

Family

ID=63844621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810257464.9A Active CN108694949B (zh) 2018-03-27 2018-03-27 基于重排序超向量和残差网络的说话人识别方法及其装置

Country Status (1)

Country Link
CN (1) CN108694949B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517666B (zh) * 2019-01-29 2021-03-02 腾讯科技(深圳)有限公司 音频识别方法、系统、机器设备和计算机可读介质
CN110120223A (zh) * 2019-04-22 2019-08-13 南京硅基智能科技有限公司 一种基于时延神经网络tdnn的声纹识别方法
CN110232932B (zh) * 2019-05-09 2023-11-03 平安科技(深圳)有限公司 基于残差时延网络的说话人确认方法、装置、设备及介质
CN110232928B (zh) * 2019-06-13 2021-05-25 思必驰科技股份有限公司 文本无关说话人验证方法和装置
CN111028847B (zh) * 2019-12-17 2022-09-09 广东电网有限责任公司 一种基于后端模型的声纹识别优化方法和相关装置
CN111243579B (zh) * 2020-01-19 2022-10-14 清华大学 一种时域单通道多说话人语音识别方法与系统
CN111554305B (zh) * 2020-04-26 2023-06-09 兰州理工大学 一种基于语谱图和注意力机制的声纹识别方法
CN112331216A (zh) * 2020-10-29 2021-02-05 同济大学 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法
CN112992157A (zh) * 2021-02-08 2021-06-18 贵州师范大学 一种基于残差和批量归一化的神经网络带噪声纹识别方法
CN112992155B (zh) * 2021-03-02 2022-10-14 复旦大学 一种基于残差神经网络的远场语音说话人识别方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345923A (zh) * 2013-07-26 2013-10-09 电子科技大学 一种基于稀疏表示的短语音说话人识别方法
US20140029757A1 (en) * 2012-07-25 2014-01-30 International Business Machines Corporation Providing a confidence measure for speaker diarization
CN103871411A (zh) * 2014-04-03 2014-06-18 北京邮电大学 一种基于线谱频率差值的文本无关的说话人鉴别装置
CN104167208A (zh) * 2014-08-08 2014-11-26 中国科学院深圳先进技术研究院 一种说话人识别方法和装置
CN105469784A (zh) * 2014-09-10 2016-04-06 中国科学院声学研究所 概率线性鉴别分析模型生成方法和说话人聚类方法及系统
CN106448681A (zh) * 2016-09-12 2017-02-22 南京邮电大学 一种超矢量的说话人辨认方法
CN106601258A (zh) * 2016-12-12 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于改进的lsda算法进行信道补偿的说话人识别方法
CN107464568A (zh) * 2017-09-25 2017-12-12 四川长虹电器股份有限公司 基于三维卷积神经网络文本无关的说话人识别方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140029757A1 (en) * 2012-07-25 2014-01-30 International Business Machines Corporation Providing a confidence measure for speaker diarization
CN103345923A (zh) * 2013-07-26 2013-10-09 电子科技大学 一种基于稀疏表示的短语音说话人识别方法
CN103871411A (zh) * 2014-04-03 2014-06-18 北京邮电大学 一种基于线谱频率差值的文本无关的说话人鉴别装置
CN104167208A (zh) * 2014-08-08 2014-11-26 中国科学院深圳先进技术研究院 一种说话人识别方法和装置
CN105469784A (zh) * 2014-09-10 2016-04-06 中国科学院声学研究所 概率线性鉴别分析模型生成方法和说话人聚类方法及系统
CN106448681A (zh) * 2016-09-12 2017-02-22 南京邮电大学 一种超矢量的说话人辨认方法
CN106601258A (zh) * 2016-12-12 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于改进的lsda算法进行信道补偿的说话人识别方法
CN107464568A (zh) * 2017-09-25 2017-12-12 四川长虹电器股份有限公司 基于三维卷积神经网络文本无关的说话人识别方法及系统

Also Published As

Publication number Publication date
CN108694949A (zh) 2018-10-23

Similar Documents

Publication Publication Date Title
CN108694949B (zh) 基于重排序超向量和残差网络的说话人识别方法及其装置
JP5853029B2 (ja) 話者照合のためのパスフレーズ・モデリングのデバイスおよび方法、ならびに話者照合システム
JP5423670B2 (ja) 音響モデル学習装置および音声認識装置
JP4590692B2 (ja) 音響モデル作成装置及びその方法
US5822729A (en) Feature-based speech recognizer having probabilistic linguistic processor providing word matching based on the entire space of feature vectors
US7684986B2 (en) Method, medium, and apparatus recognizing speech considering similarity between the lengths of phonemes
CN108281137A (zh) 一种全音素框架下的通用语音唤醒识别方法及系统
Mao et al. Automatic training set segmentation for multi-pass speech recognition
CN105096955B (zh) 一种基于模型生长聚类的说话人快速识别方法及系统
US20130185070A1 (en) Normalization based discriminative training for continuous speech recognition
KR101618512B1 (ko) 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN110390948B (zh) 一种快速语音识别的方法及系统
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
CN111161744A (zh) 同时优化深度表征学习与说话人类别估计的说话人聚类方法
CN108877812B (zh) 一种声纹识别方法、装置及存储介质
CN110428853A (zh) 语音活性检测方法、语音活性检测装置以及电子设备
CN111508505A (zh) 一种说话人识别方法、装置、设备及存储介质
CN113628612A (zh) 语音识别方法、装置、电子设备及计算机可读存储介质
KR102406512B1 (ko) 음성인식 방법 및 그 장치
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
Ons et al. A self learning vocal interface for speech-impaired users
CN113744727A (zh) 模型训练方法、系统、终端设备及存储介质
McInnes et al. Unsupervised extraction of recurring words from infant-directed speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant