CN105575394A - 基于全局变化空间及深度学习混合建模的声纹识别方法 - Google Patents

基于全局变化空间及深度学习混合建模的声纹识别方法 Download PDF

Info

Publication number
CN105575394A
CN105575394A CN201610000675.5A CN201610000675A CN105575394A CN 105575394 A CN105575394 A CN 105575394A CN 201610000675 A CN201610000675 A CN 201610000675A CN 105575394 A CN105575394 A CN 105575394A
Authority
CN
China
Prior art keywords
vector
training
ivector
speaker
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610000675.5A
Other languages
English (en)
Inventor
徐明星
车浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Times Ruilang Technology Co Ltd
Original Assignee
Beijing Times Ruilang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Times Ruilang Technology Co Ltd filed Critical Beijing Times Ruilang Technology Co Ltd
Priority to CN201610000675.5A priority Critical patent/CN105575394A/zh
Publication of CN105575394A publication Critical patent/CN105575394A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于全局变化空间及深度学习混合建模的声纹识别方法,包括以下步骤:获取语音段训练数据,采用全局变化空间建模的方法进行身份认证矢量,获取TVM-IVECTOR;采用深度神经网络的方法进行训练,获取NN-IVECTOR;将同一个音频文件的两个向量进行融合,得到新的I-VECTOR特征提取器;对于待测试音频,将TVM-IVECTOR和NN-IVECTOR两个向量融合后,提取最终的I-VECTOR;经过信道补偿后,与模型库中的说话人模型进行打分识别,得到识别结果。本发明方法对环境不匹配、多信道变化以及噪声等环境因素的干扰具有更强的鲁棒性,能够提高声纹识别方法的性能。

Description

基于全局变化空间及深度学习混合建模的声纹识别方法
技术领域
本发明涉及一种声纹识别方法,尤其涉及一种基于全局变化空间及深度学习混合建模的声纹识别方法。
背景技术
语言是人类获得信息的主要来源之一,是人与外界交流信息最方便、最有效、最自然的工具。语音中除了包含实际发音内容的语音信息外,还包括发音者是谁的信息。声纹识别就是识别语音中包含说话人信息的生物特征识别方法,利用说话人的声音信号,和预先提取的说话人语音特征相比较,从而确定或鉴别说话人身份的一种技术。
声纹识别具有广泛的用途。在司法和公共安全领域,作为一种技术侦察手段,可以用来协助确定电话诈骗等犯罪嫌疑人;在军事安全领域,它可以作为各种通话的侦听,确定目标说话人;在银行等安全系统,它可以用于身份核查或安全检查的一种手段;在智能家居等生活领域,声纹识别可以用作为诸如门禁系统识别中的一种方式。但是,由于声纹识别在实际应用中会面临训练与测试环境不匹配,语音噪声,多信道等因素的影响,从而降低声纹识别方法的性能。
发明内容
为了解决上述技术所存在的不足之处,本发明提供了一种基于全局变化空间及深度学习混合建模的声纹识别方法。
为了解决以上技术问题,本发明采用的技术方案是:一种基于全局变化空间及深度学习混合建模的声纹识别方法,包括以下步骤:
步骤S100,通过录音的方式获取声纹识别训练的原始语音数据,提取梅尔频率倒谱系数特征,通过短时能量以及短时过零率实现端点检测,根据男女声通用背景模型分别训练,剔除原始语音中的非音频数据,获得语音段训练数据;
计算语音段训练数据的零阶、一阶、二阶的统计量,用于训练I-VECTOR提取器模块;采用全局变化空间建模的方法进行基于身份认证矢量,以下记为I-VECTOR特征提取器的训练,获取训练数据各个音频文件的基于全局变化空间模型的I-VECTOR特征提取器,以下记为TVM-IVECTOR;
步骤S200,采用相同声纹对训练数据进行识别,采用深度神经网络的方法进行训练,输入特征为各说话人的高斯混合模型的均值超矢量,输出特征为各个说话人标签;完成训练后,去除深度神经网络顶层的说话人标签,剩余即为基于深度神经网络的I-VECTOR特征提取器,以下记为NN-IVECTOR;
步骤S300,将同一个音频文件的TVM-IVECTOR和NN-IVECTOR两个向量进行融合,得到一个超矢量,作为新的深度神经网络结构的输入,将说话人标签作为深度神经网络输出特征进行训练;训练完成后,去除顶层说话人标签层,即为新的I-VECTOR特征提取器;
步骤S400,对于待测试音频,首先采用步骤S100中的全局变化空间模型建模提取器获得TVM-IVECTOR,然后采用步骤S200中的NN-IVECTOR提取器获得NN-IVECTOR;两个向量融合后,采用步骤S300中新的I-VECTOR提取器提取最终的I-VECTOR,经过信道补偿后,与模型库中的说话人模型进行打分识别,得到识别结果。
其中,男女声通用背景模型,针对训练数据的男声,采用男声通用背景模型提取各阶统计量;针对训练数据中的女声,采用女声通用背景模型提取各阶统计量。
步骤S200进一步包括:
步骤211,训练各个说话人的高斯混合模型;高斯混合模型的训练方法采用通用背景模型-最大后验概率算法的方式;将步骤s100中训练完成的男女声通用背景模型作为初始模型,获取各个说话人的语音数据作为自适应数据,采用最大后验概率算法进行自适应训练,得到各个说话人的高斯混合模型,将各个混合高斯的均值向量做连接,得到一个均值超矢量,作为深度神经网络训练的输入;
步骤S212,采用受限玻尔兹曼机进行网络预训练,将前一个受限玻尔兹曼机的输出作为后一个受限玻尔兹曼机的输入,训练后续受限玻尔兹曼机;最后将几个训练完成的受限玻尔兹曼机进行堆叠,得到深度置信网络,完成深度神经网络网络的预训练;
步骤S213,在预训练完成的深度置信网络的基础上,加上一层说话人标签层,进行深度神经网络的微调训练,采用交叉熵作为损失函数进行训练;
步骤S214,完成深度神经网络的微调训练之后,去除深度神经网络顶层的说话人标签层,剩余的网络结构作为I-VECTOR的提取器,由该提取器获得NN-IVECTOR。
步骤300进一步包括:
步骤S311,将步骤100中获取的TVM-IVECTOR与步骤200中获取的NN-IVECTOR相连接,得到一个新的I-VECTOR;
步骤S312,将步骤S311中的新I-VECTOR作为受限玻尔兹曼机预训练的输入,进行深度神经网络的预训练;
步骤S313,在预训练完成之后,在深度置信网络顶层加上说话人标签层,进行深度神经网络的微调训练;最后去除说话人顶层标签,将剩余结构作为新的I-VECTOR提取器。
步骤S400进一步包括:
步骤S411,首先获取待测试说话人的语音数据,经过梅尔频率倒谱系数特征提取,语音端点检测,然后采用步骤S100中的全局变化空间模型建模I-VECTOR提取器获得TVM-IVECTOR;
步骤S412,将步骤S411中经过语音端点检测的梅尔频率倒谱系数特征作为自适应数据,根据似然值判断待测说话人性别,由此判断采用男声通用背景模型还是女声通用背景模型作为自适应训练的初始模型;采用最大后验概率算法进行自适应训练,得到说话人的高斯混合模型的均值超矢量;
步骤S413,将步骤S412得到的均值超矢量作为I-VECTOR的特征提取器的输入,然后采用步骤S200中的提取器获得NN-IVECTOR;
步骤S414,将步骤S411得到的TVM-IVECTOR以及步骤S413得到的NN-IVECTOR进行融合,得到一个新的超向量,将新的超向量作为步骤S313得到的新的I-VECTOR提取器的输入,提取最终的I-VECTOR;经过对最终I-VECTOR进行基于概率线性鉴别分析的信道补偿;与模型库中的说话人进行似然打分,得到各个说话人分值,从中选择得分最高者为最终的识别结果。
本发明提供了一种基于全局变化空间及深度学习混合建模的声纹识别方法,使之对信道变化以及噪声等环境因素的干扰具有更强的鲁棒性,能够提高声纹识别方法的性能。具有以下有益效果:
(1)该方法总体上采用I-VECTOR的方法进行建模,能将不定长的音频文件转化为等长的低维向量,便于提取说话人的身份特征,并且可以通过分类学习,提高声纹识别方法性能。
采用基于状态传输的方法进行语音编码,发送端仅需要对识别出的状态序列和每个状态的时长进行编码传输。通过定量的分析可以确定其编码速率低于300bps,编码速率低于传统的基于参数的语音编码方法。
(2)由于采用全局变化空间模型进行建模时没有加入各个说话人的区分性信息,只考虑用I-VECTOR最大似然地表示一个音频文件,因此该方法弥补了采用全局变化空间模型进行I-VECTOR估计中没有区分性信息的不足的问题。
(3)该方法弥补了在训练数据不足情况下训练不充分的问题。单独使用深度学习进行I-VECTOR的抽取,由于网络结构较深,在训练数据不足的情况下,容易造成区分性训练不足的问题,使得模型的区分性不明显,造成系统性能下降。
(4)本发明将全局变化空间模型以及深度学习相结合,可以结合两者在建模上的优点,并且弥补不足,使信息互相补充;将两者的融合信息经过深度学习后,挖掘出更能代表身份特征的I-VECTOR。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为基于全局变化空间模型及深度学习混合建模的系统框图。
图2为图1所示系统框图中采用全局变化空间模型建模部分的系统示意框图。
图3为图1所示系统框图中采用深度神经网络方法进行基于身份认证矢量(I-VECTOR)建模的系统示意框图。
具体实施方式
如图1所示,本发明中提出了一种基于全局变化空间模型及深度学习混合建模的建模方式:包括采用全局变化空间模型建模的方法得到基于全局变化空间模型的I-VECTOR(记为TVM-IVECTOR)提取器,同时采用深度神经网络得到的基于深度神经网络的I-VECTOR(记为NN-IVECTOR)提取器进行融合建模,将两者的输出作为深度神经网络的输入,进一步学习两者融合后的隐藏互补信息,产生新的I-VECTOR提取器。本发明包括以下步骤:
步骤S100,通过录音的方式获取声纹识别训练的原始语音数据,提取梅尔频率倒谱系数特征,通过短时能量以及短时过零率实现端点检测,根据男女声通用背景模型分别训练,针对训练数据的男声,采用男声通用背景模型提取各阶统计量;针对训练数据中的女声,采用女声通用背景模型提取各阶统计量;剔除原始语音中的非音频数据,获得语音段训练数据;
计算语音段训练数据的零阶、一阶、二阶的统计量,用于训练I-VECTOR提取器模块;采用全局变化空间建模的方法进行基于身份认证矢量,以下记为I-VECTOR特征提取器的训练,获取训练数据各个音频文件的基于全局变化空间模型的I-VECTOR,以下记为TVM-IVECTOR;
步骤S200,采用相同声纹对训练数据进行识别,采用深度神经网络的方法进行训练,输入特征为各说话人的高斯混合模型(GaussianMixtureModel,GMM)的均值超矢量,输出特征为各个说话人标签;完成训练后,去除深度神经网络顶层的说话人标签,剩余即为基于深度神经网络的I-VECTOR,以下记为NN-IVECTOR;
步骤S300,将同一个音频文件的TVM-IVECTOR和NN-IVECTOR两个向量进行融合,得到一个超矢量,作为新的深度神经网络结构的输入,将说话人标签作为深度神经网络输出特征进行训练;训练完成后,去除顶层说话人标签层,即为新的I-VECTOR特征提取器(I-VECTOREXTRACTOR);
步骤S400,对于待测试音频,首先采用步骤S100中的全局变化空间模型建模提取器获得TVM-IVECTOR,然后采用步骤S200中的NN-IVECTOR提取器获得NN-IVECTOR;两个向量融合后,采用步骤S300中的新的I-VECTOR提取器提取最终的I-VECTOR,经过信道补偿后,与模型库中的说话人模型进行打分识别,得到识别结果。
步骤S200进一步包括:
步骤211,训练各个说话人的高斯混合模型;高斯混合模型的训练方法采用通用背景模型-最大后验概率算法的方式;将步骤s100中训练完成的男女声通用背景模型作为初始模型,获取各个说话人的语音数据作为自适应数据,采用最大后验概率算法进行自适应训练,得到各个说话人的高斯混合模型,将各个混合高斯的均值向量做连接,得到一个均值超矢量,作为深度神经网络训练的输入;
步骤S212,采用受限玻尔兹曼机(RestrictedBoltzmannMachine,RBM)进行网络预训练,将前一个受限玻尔兹曼机的输出作为后一个受限玻尔兹曼机的输入,训练后续受限玻尔兹曼机;最后将几个训练完成的受限玻尔兹曼机进行堆叠,得到深度置信网络(DeepBeliefNetwork,DBN),完成深度神经网络网络的预训练;
步骤S213,在预训练完成的深度置信网络的基础上,加上一层说话人标签层,进行深度神经网络的微调(fine-tuning)训练,采用交叉熵作为损失函数进行训练;
步骤S214,完成深度神经网络的微调(fine-tuning)训练之后,去除深度神经网络顶层的说话人标签层,剩余的网络结构作为I-VECTOR的提取器,由该提取器获得NN-IVECTOR。
步骤300进一步包括:
步骤S311,将步骤100中获取的TVM-IVECTOR与步骤200中获取的NN-IVECTOR相连接,得到一个新的I-VECTOR;
步骤S312,将步骤S311中的新I-VECTOR作为受限玻尔兹曼机预训练的输入,进行深度神经网络的预训练;
步骤S313,在预训练完成之后,在深度置信网络顶层加上说话人标签层,进行深度神经网络的微调(fine-tuning)训练;最后去除说话人顶层标签,将剩余结构作为新的I-VECTOR提取器。
步骤S400进一步包括:
步骤S411,首先获取待测试说话人的语音数据,经过梅尔频率倒谱系数特征提取,语音端点检测,然后采用步骤S100中的全局变化空间模型建模I-VECTOR提取器获得TVM-IVECTOR;
步骤S412,将步骤S411中经过语音端点检测的梅尔频率倒谱系数特征作为自适应数据,根据似然值判断待测说话人性别,由此判断采用男声通用背景模型还是女声通用背景模型作为自适应训练的初始模型;采用最大后验概率算法进行自适应训练,得到说话人的高斯混合模型的均值超矢量;
步骤S413,将步骤S412得到的均值超矢量作为I-VECTOR的特征提取器的输入,然后采用步骤S200中的提取器获得NN-IVECTOR;
步骤S414,将步骤S411得到的TVM-IVECTOR以及步骤S413得到的NN-IVECTOR进行融合,得到一个新的超向量,将新的超向量作为步骤S313得到的新的I-VECTOR提取器的输入,提取最终的I-VECTOR;经过对最终I-VECTOR进行基于概率线性鉴别分析(ProbabilisticLinearDiscriminantAnalysis,PLDA)的信道补偿;与模型库中的说话人进行似然打分,得到各个说话人分值,从中选择得分最高者为最终的识别结果。
下面通过实施例对各个步骤采用的方法进行详细介绍:
实施例一
步骤S100,获取原始语音,提取梅尔频率倒谱系数特征,通过短时能量以及短时过零率实现端点检测,剔除原始语音中的非音频数据,获得语音段数据。梅尔频率倒谱系数特征由19维倒谱特征加1维能量特征,以及它们的一阶二阶动态参数构成,共60维向量。
分别训练男女声通用背景模型,针对男声女声的不同特点,分别训练男声通用背景模型以及女声通用背景模型。由于采用通用背景模型来描述所有说话人数据的共性特征,因此通用背景模型的混合数目取得比较高,采用2048维,来描述所有说话人的整体分布。
计算训练数据的零阶一阶二阶统计量,用于训练I-VECTOR提取器模块。针对训练数据中的男声,采用男声通用背景模型提取各阶统计量,针对训练数据中的女声,采用女声通用背景模型提取各阶统计量。如此能根据男女声的不同声学特点,更为精准地提取统计量,从而能更准确进行提取器的训练。此处,I-VECTOR的维度设定为400维。
将所有训练数据采用上述I-VECTOR提取器提取出I-VECTOR参数,在此基础上,采用全局变化空间模型提取出TVM-IVECTOR,供后续使用。
进行基于深度学习建模的I-VECTOR提取器训练之前,首先要进行步骤S211,训练各个说话人的高斯混合模型。高斯混合模型的训练方法采用通用背景模型和最大后验概率(MaximumAPosterior,MAP)组合的方式。由于通用背景模型根据男女声做了区分,因此,在进行自适应训练中,男声采用男声的通用背景模型进行自适应训练,女声采用女声的自适应数据进行训练。相较于最大似然(MaximumLikelihood,ML)算法,最大后验概率算法引入了模型参数的先验分布,在数据量较少的情况下,对模型参数的估计更加可靠。
得到各个说话人的高斯混合模型,将各个混合高斯的均值向量做连接,得到一个均值超矢量,作为后续步骤深度神经网络训练的输入,该均值超矢量的维度为60×2048=122880维。
步骤S212,采用受限玻尔兹曼机进行网络预训练。由于高斯混合均值超矢量的维度巨大,为了更加准确地进行深度神经网络的参数估计,需要在进行基于深度置信网络的网络预训练。本例中采用全高斯受限玻尔兹曼机(输入输出皆为高斯分布)进行网络预训练,将前一个受限玻尔兹曼机的输出作为后一个受限玻尔兹曼机的输入,堆叠五个全高斯受限玻尔兹曼机,得到深度置信网络。深度置信网络的输入层维度为60×2048=122880维其他隐层为1024维,输出层为400维,与基于全局变化空间模型的I-VECTOR提取器维度保持一致。
步骤S213,进行深度神经网络的微调(fine-tuning)训练。在步骤S213完成的深度置信网络的基础上,加上一层说话人标签层,进行深度神经网络的微调(fine-tuning)训练,采用交叉熵作为损失函数进行训练。顶层的维度由参与训练的说话人个数决定,本例中采用4000人进行模型训练,因此,顶层维度为4000。
步骤S214,完成深度神经网络的微调(fine-tuning)训练之后,去除深度神经网络顶层的说话人标签层,剩余的网络结构作为I-VECTOR的提取器,由该提取器获得基于深度神经网络的I-VECTOR(记为NN-IVECTOR)。提取参与训练的各个音频数据的NN-IVECTOR供后续使用。
步骤S311,将之前获取的训练数据的TVM-IVECTOR以及NN-IVECTOR相连接,得到一个新的向量,此向量维度为400+400=800维。
步骤S312,将步骤S311中的800维度的向量作为受限玻尔兹曼机预训练的输入,进行深度神经网络的预训练,输入层维度为800维,隐层维度为1024,同样采用5个受限玻尔兹曼机进行堆叠形成深度置信网络,输出层为400维。具体过程同步骤S212。
步骤S313,在预训练完成之后,在深度置信网络顶层加上说话人标签层(4000维),进行深度神经网络的微调(fine-tuning)训练。最后去除说话人顶层标签,将剩余结构作为新的I-VECTOR提取器(I-VECTOREXTRACTOR)。
步骤S411,获取待测试说话人语音数据,经过梅尔频率倒谱系数特征提取,语音端点端点检测,采用步骤S100中的I-VECTOR提取器进行I-VECTOR提取,得到TVM-IVECTOR,该向量维度为400。
步骤S412,将步骤S411中经过端点检测检测的梅尔频率倒谱系数特征作为自适应数据。分别计算数据在男女声通用背景模型的似然值,根据似然值大小判断待测说话人性别,由此判断采用男声通用背景模型还是女声通用背景模型作为自适应训练的初始模型。采用最大后验概率算法进行自适应训练,得到说话人的高斯混合模型,即该说话人的均值超矢量,该向量维度为122880维。
步骤S413,将步骤S412中得到的均值超矢量作为步骤S214中I-VECTOR的特征提取器的输入,提取得到NN-IVECTOR,该向量维度为400。
步骤S414,将步骤S411以及步骤S413得到的TVM-IVECTOR以及NN-IVECTOR进行融合,得到一个新的超向量,作为步骤S313得到的I-VECTOR提取器的输入,提取最终的I-VECTOR。
步骤S415,对最终I-VECTOR进行基于概率线性鉴别分析的信道补偿,本例中,经过概率线性鉴别分析信道补偿后,得到的I-VECTOR依旧为400维,再与模型库中的说话人进行似然打分,得到各个说话人分值,从中选择得分最高者为最终的识别结果。
本发明获取声纹识别训练语料库,一方面通过梅尔频率倒谱系数特征提取、端点检测、通用背景模型训练、基于身份认证矢量(以下记为I-VECTOR)特征提取器训练等步骤,采用全局变化空间模型进行声学建模,获得基于采用全局变化空间模型建模的I-VECTOR(以下记为TVM-IVECTOR);另一方面,采用深度神经网络进行I-VECTOR提取器的训练,得到基于深度神经网络的I-VECTOR(以下记为NN-IVECTOR))。将两种模型得到的I-VECTOR进行融合,作为输入,进行深度神经网络训练,生成新的I-VECTOR提取器(I-VECTOREXTRACTOR),实现全局变化空间模型建模方法以及深度神经网络建模方法的互补,完成声纹识别的声学建模,提高声纹识别方法性能。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于全局变化空间及深度学习混合建模的声纹识别方法,其特征在于,包括以下步骤:
步骤S100,通过录音的方式获取声纹识别训练的原始语音数据,提取梅尔频率倒谱系数特征,通过短时能量以及短时过零率实现端点检测,根据男女声通用背景模型分别训练,剔除原始语音中的非音频数据,获得语音段训练数据;
计算语音段训练数据的零阶、一阶、二阶的统计量,用于训练I-VECTOR提取器模块;采用全局变化空间建模的方法进行基于身份认证矢量,以下记为I-VECTOR特征提取器的训练,获取训练数据各个音频文件的基于全局变化空间模型的I-VECTOR特征提取器,以下记为TVM-IVECTOR;
步骤S200,采用相同声纹对训练数据进行识别,采用深度神经网络的方法进行训练,输入特征为各说话人的高斯混合模型的均值超矢量,输出特征为各个说话人标签;完成训练后,去除深度神经网络顶层的说话人标签,剩余即为基于深度神经网络的I-VECTOR特征提取器,以下记为NN-IVECTOR;
步骤S300,将同一个音频文件的TVM-IVECTOR和NN-IVECTOR两个向量进行融合,得到一个超矢量,作为新的深度神经网络结构的输入,将说话人标签作为深度神经网络输出特征进行训练;训练完成后,去除顶层说话人标签层,即为新的I-VECTOR特征提取器;
步骤S400,对于待测试音频,首先采用步骤S100中的全局变化空间模型建模提取器获得TVM-IVECTOR,然后采用步骤S200中的NN-IVECTOR提取器获得NN-IVECTOR;两个向量融合后,采用步骤S300中新的I-VECTOR提取器提取最终的I-VECTOR,经过信道补偿后,与模型库中的说话人模型进行打分识别,得到识别结果。
2.根据权利要求1所述的基于全局变化空间及深度学习混合建模的声纹识别方法,其特征在于:所述男女声通用背景模型,针对训练数据的男声,采用男声通用背景模型提取各阶统计量;针对训练数据中的女声,采用女声通用背景模型提取各阶统计量。
3.根据权利要求1所述的基于全局变化空间及深度学习混合建模的声纹识别方法,其特征在于,所述步骤S200进一步包括:
步骤211,训练各个说话人的高斯混合模型;高斯混合模型的训练方法采用通用背景模型-最大后验概率算法的方式;将步骤s100中训练完成的男女声通用背景模型作为初始模型,获取各个说话人的语音数据作为自适应数据,采用最大后验概率算法进行自适应训练,得到各个说话人的高斯混合模型,将各个混合高斯的均值向量做连接,得到一个均值超矢量,作为深度神经网络训练的输入;
步骤S212,采用受限玻尔兹曼机进行网络预训练,将前一个受限玻尔兹曼机的输出作为后一个受限玻尔兹曼机的输入,训练后续受限玻尔兹曼机;最后将几个训练完成的受限玻尔兹曼机进行堆叠,得到深度置信网络,完成深度神经网络网络的预训练;
步骤S213,在预训练完成的深度置信网络的基础上,加上一层说话人标签层,进行深度神经网络的微调训练,采用交叉熵作为损失函数进行训练;
步骤S214,完成深度神经网络的微调训练之后,去除深度神经网络顶层的说话人标签层,剩余的网络结构作为I-VECTOR的提取器,由该提取器获得NN-IVECTOR。
4.根据权利要求1所述的基于全局变化空间及深度学习混合建模的声纹识别方法,其特征在于,所述步骤300进一步包括:
步骤S311,将步骤100中获取的TVM-IVECTOR与步骤200中获取的NN-IVECTOR相连接,得到一个新的I-VECTOR;
步骤S312,将步骤S311中的新I-VECTOR作为受限玻尔兹曼机预训练的输入,进行深度神经网络的预训练;
步骤S313,在预训练完成之后,在深度置信网络顶层加上说话人标签层,进行深度神经网络的微调训练;最后去除说话人顶层标签,将剩余结构作为新的I-VECTOR提取器。
5.根据权利要求1所述的基于全局变化空间及深度学习混合建模的声纹识别方法,其特征在于,所述步骤S400进一步包括:
步骤S411,首先获取待测试说话人的语音数据,经过梅尔频率倒谱系数特征提取,语音端点检测,然后采用步骤S100中的全局变化空间模型建模I-VECTOR提取器获得TVM-IVECTOR;
步骤S412,将步骤S411中经过语音端点检测的梅尔频率倒谱系数特征作为自适应数据,根据似然值判断待测说话人性别,由此判断采用男声通用背景模型还是女声通用背景模型作为自适应训练的初始模型;采用最大后验概率算法进行自适应训练,得到说话人的高斯混合模型的均值超矢量;
步骤S413,将步骤S412得到的均值超矢量作为I-VECTOR的特征提取器的输入,然后采用步骤S200中的提取器获得NN-IVECTOR;
步骤S414,将步骤S411得到的TVM-IVECTOR以及步骤S413得到的NN-IVECTOR进行融合,得到一个新的超向量,将新的超向量作为步骤S313得到的新的I-VECTOR提取器的输入,提取最终的I-VECTOR;经过对最终I-VECTOR进行基于概率线性鉴别分析的信道补偿;与模型库中的说话人进行似然打分,得到各个说话人分值,从中选择得分最高者为最终的识别结果。
CN201610000675.5A 2016-01-04 2016-01-04 基于全局变化空间及深度学习混合建模的声纹识别方法 Pending CN105575394A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610000675.5A CN105575394A (zh) 2016-01-04 2016-01-04 基于全局变化空间及深度学习混合建模的声纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610000675.5A CN105575394A (zh) 2016-01-04 2016-01-04 基于全局变化空间及深度学习混合建模的声纹识别方法

Publications (1)

Publication Number Publication Date
CN105575394A true CN105575394A (zh) 2016-05-11

Family

ID=55885448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610000675.5A Pending CN105575394A (zh) 2016-01-04 2016-01-04 基于全局变化空间及深度学习混合建模的声纹识别方法

Country Status (1)

Country Link
CN (1) CN105575394A (zh)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107039036A (zh) * 2017-02-17 2017-08-11 南京邮电大学 一种基于自动编码深度置信网络的高质量说话人识别方法
CN107146601A (zh) * 2017-04-07 2017-09-08 南京邮电大学 一种用于说话人识别系统的后端i‑vector增强方法
WO2017201912A1 (zh) * 2016-05-25 2017-11-30 百度在线网络技术(北京)有限公司 基于深度学习的声纹认证方法和装置
CN107545898A (zh) * 2017-08-07 2018-01-05 清华大学 一种区分说话人语音的处理方法及装置
CN107886943A (zh) * 2017-11-21 2018-04-06 广州势必可赢网络科技有限公司 一种声纹识别方法及装置
CN108172219A (zh) * 2017-11-14 2018-06-15 珠海格力电器股份有限公司 识别语音的方法和装置
CN108615525A (zh) * 2016-12-09 2018-10-02 中国移动通信有限公司研究院 一种语音识别方法及装置
CN108630209A (zh) * 2018-04-24 2018-10-09 中国科学院深海科学与工程研究所 一种基于特征融合与深度置信网络的海洋生物识别方法
CN108694954A (zh) * 2018-06-13 2018-10-23 广州势必可赢网络科技有限公司 一种性别年龄识别方法、装置、设备及可读存储介质
CN108711420A (zh) * 2017-04-10 2018-10-26 北京猎户星空科技有限公司 多语言混杂模型建立、数据获取方法及装置、电子设备
CN108777146A (zh) * 2018-05-31 2018-11-09 平安科技(深圳)有限公司 语音模型训练方法、说话人识别方法、装置、设备及介质
TWI641965B (zh) * 2017-03-13 2018-11-21 平安科技(深圳)有限公司 基於聲紋識別的身份驗證的方法及系統
CN108922560A (zh) * 2018-05-02 2018-11-30 杭州电子科技大学 一种基于混合深度神经网络模型的城市噪声识别方法
CN108922544A (zh) * 2018-06-11 2018-11-30 平安科技(深圳)有限公司 通用向量训练方法、语音聚类方法、装置、设备及介质
CN109102798A (zh) * 2018-06-29 2018-12-28 厦门快商通信息技术有限公司 一种装修事件检测方法、装置、计算机设备及介质
CN109102813A (zh) * 2017-06-21 2018-12-28 北京搜狗科技发展有限公司 声纹识别方法、装置、电子设备和存储介质
CN109102812A (zh) * 2017-06-21 2018-12-28 北京搜狗科技发展有限公司 一种声纹识别方法、系统及电子设备
CN109243467A (zh) * 2018-11-14 2019-01-18 龙马智声(珠海)科技有限公司 声纹模型构建方法、声纹识别方法及系统
CN109377984A (zh) * 2018-11-22 2019-02-22 北京中科智加科技有限公司 一种基于ArcFace的语音识别方法及装置
CN109472311A (zh) * 2018-11-13 2019-03-15 北京物灵智能科技有限公司 一种用户行为识别方法及装置
CN110047504A (zh) * 2019-04-18 2019-07-23 东华大学 身份矢量x-vector线性变换下的说话人识别方法
CN110047490A (zh) * 2019-03-12 2019-07-23 平安科技(深圳)有限公司 声纹识别方法、装置、设备以及计算机可读存储介质
CN110120223A (zh) * 2019-04-22 2019-08-13 南京硅基智能科技有限公司 一种基于时延神经网络tdnn的声纹识别方法
WO2019154107A1 (zh) * 2018-02-12 2019-08-15 阿里巴巴集团控股有限公司 基于记忆性瓶颈特征的声纹识别的方法及装置
CN110299150A (zh) * 2019-06-24 2019-10-01 中国科学院计算技术研究所 一种实时语音说话人分离方法及系统
CN110310647A (zh) * 2017-09-29 2019-10-08 腾讯科技(深圳)有限公司 一种语音身份特征提取器、分类器训练方法及相关设备
CN110364168A (zh) * 2019-07-22 2019-10-22 南京拓灵智能科技有限公司 一种基于环境感知的声纹识别方法及系统
WO2020019831A1 (zh) * 2018-07-23 2020-01-30 深圳大学 特定人群识别方法、电子装置及计算机可读存储介质
CN110853631A (zh) * 2018-08-02 2020-02-28 珠海格力电器股份有限公司 智能家居的语音识别方法及装置
CN111105803A (zh) * 2019-12-30 2020-05-05 苏州思必驰信息科技有限公司 快速识别性别的方法及装置、用于识别性别的算法模型的生成方法
WO2020155584A1 (zh) * 2019-01-31 2020-08-06 北京声智科技有限公司 声纹特征的融合方法及装置,语音识别方法,系统及存储介质
CN112504970A (zh) * 2021-02-07 2021-03-16 湖北鑫英泰系统技术股份有限公司 基于深度学习的气体光声光谱增强声纹识别方法与装置
CN112599117A (zh) * 2021-03-03 2021-04-02 北京世纪好未来教育科技有限公司 模型训练、语音识别方法及装置、电子设备及存储介质
WO2021174883A1 (zh) * 2020-09-22 2021-09-10 平安科技(深圳)有限公司 声纹核身模型训练方法、装置、介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104732978A (zh) * 2015-03-12 2015-06-24 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
CN104794534A (zh) * 2015-04-16 2015-07-22 国网山东省电力公司临沂供电公司 一种基于改进深度学习模型的电网安全态势预测方法
CN104835497A (zh) * 2015-04-14 2015-08-12 时代亿宝(北京)科技有限公司 一种基于动态口令的声纹打卡系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104732978A (zh) * 2015-03-12 2015-06-24 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
CN104835497A (zh) * 2015-04-14 2015-08-12 时代亿宝(北京)科技有限公司 一种基于动态口令的声纹打卡系统及方法
CN104794534A (zh) * 2015-04-16 2015-07-22 国网山东省电力公司临沂供电公司 一种基于改进深度学习模型的电网安全态势预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHANSHAN ZHANG等: ""An iVector Extractor Using Pre-trained Neural Networks for Speaker Verification"", 《THE 9TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING,IEEE》 *

Cited By (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017201912A1 (zh) * 2016-05-25 2017-11-30 百度在线网络技术(北京)有限公司 基于深度学习的声纹认证方法和装置
CN108615525A (zh) * 2016-12-09 2018-10-02 中国移动通信有限公司研究院 一种语音识别方法及装置
CN107039036A (zh) * 2017-02-17 2017-08-11 南京邮电大学 一种基于自动编码深度置信网络的高质量说话人识别方法
TWI641965B (zh) * 2017-03-13 2018-11-21 平安科技(深圳)有限公司 基於聲紋識別的身份驗證的方法及系統
CN107146601A (zh) * 2017-04-07 2017-09-08 南京邮电大学 一种用于说话人识别系统的后端i‑vector增强方法
CN107146601B (zh) * 2017-04-07 2020-07-24 南京邮电大学 一种用于说话人识别系统的后端i-vector增强方法
CN108711420A (zh) * 2017-04-10 2018-10-26 北京猎户星空科技有限公司 多语言混杂模型建立、数据获取方法及装置、电子设备
CN108711420B (zh) * 2017-04-10 2021-07-09 北京猎户星空科技有限公司 多语言混杂模型建立、数据获取方法及装置、电子设备
CN109102813A (zh) * 2017-06-21 2018-12-28 北京搜狗科技发展有限公司 声纹识别方法、装置、电子设备和存储介质
CN109102812A (zh) * 2017-06-21 2018-12-28 北京搜狗科技发展有限公司 一种声纹识别方法、系统及电子设备
CN109102812B (zh) * 2017-06-21 2021-08-31 北京搜狗科技发展有限公司 一种声纹识别方法、系统及电子设备
CN109102813B (zh) * 2017-06-21 2021-06-22 北京搜狗科技发展有限公司 声纹识别方法、装置、电子设备和存储介质
CN107545898B (zh) * 2017-08-07 2020-07-14 清华大学 一种区分说话人语音的处理方法及装置
CN107545898A (zh) * 2017-08-07 2018-01-05 清华大学 一种区分说话人语音的处理方法及装置
CN110310647A (zh) * 2017-09-29 2019-10-08 腾讯科技(深圳)有限公司 一种语音身份特征提取器、分类器训练方法及相关设备
CN110310647B (zh) * 2017-09-29 2022-02-25 腾讯科技(深圳)有限公司 一种语音身份特征提取器、分类器训练方法及相关设备
CN108172219B (zh) * 2017-11-14 2021-02-26 珠海格力电器股份有限公司 识别语音的方法和装置
CN108172219A (zh) * 2017-11-14 2018-06-15 珠海格力电器股份有限公司 识别语音的方法和装置
CN107886943A (zh) * 2017-11-21 2018-04-06 广州势必可赢网络科技有限公司 一种声纹识别方法及装置
WO2019154107A1 (zh) * 2018-02-12 2019-08-15 阿里巴巴集团控股有限公司 基于记忆性瓶颈特征的声纹识别的方法及装置
CN108630209B (zh) * 2018-04-24 2021-05-25 中国科学院深海科学与工程研究所 一种基于特征融合与深度置信网络的海洋生物识别方法
CN108630209A (zh) * 2018-04-24 2018-10-09 中国科学院深海科学与工程研究所 一种基于特征融合与深度置信网络的海洋生物识别方法
CN108922560A (zh) * 2018-05-02 2018-11-30 杭州电子科技大学 一种基于混合深度神经网络模型的城市噪声识别方法
CN108922560B (zh) * 2018-05-02 2022-12-02 杭州电子科技大学 一种基于混合深度神经网络模型的城市噪声识别方法
CN108777146A (zh) * 2018-05-31 2018-11-09 平安科技(深圳)有限公司 语音模型训练方法、说话人识别方法、装置、设备及介质
WO2019227586A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 语音模型训练方法、说话人识别方法、装置、设备及介质
WO2019237519A1 (zh) * 2018-06-11 2019-12-19 平安科技(深圳)有限公司 通用向量训练方法、语音聚类方法、装置、设备及介质
CN108922544A (zh) * 2018-06-11 2018-11-30 平安科技(深圳)有限公司 通用向量训练方法、语音聚类方法、装置、设备及介质
CN108694954A (zh) * 2018-06-13 2018-10-23 广州势必可赢网络科技有限公司 一种性别年龄识别方法、装置、设备及可读存储介质
CN109102798A (zh) * 2018-06-29 2018-12-28 厦门快商通信息技术有限公司 一种装修事件检测方法、装置、计算机设备及介质
WO2020019831A1 (zh) * 2018-07-23 2020-01-30 深圳大学 特定人群识别方法、电子装置及计算机可读存储介质
CN110853631A (zh) * 2018-08-02 2020-02-28 珠海格力电器股份有限公司 智能家居的语音识别方法及装置
CN109472311A (zh) * 2018-11-13 2019-03-15 北京物灵智能科技有限公司 一种用户行为识别方法及装置
CN109243467A (zh) * 2018-11-14 2019-01-18 龙马智声(珠海)科技有限公司 声纹模型构建方法、声纹识别方法及系统
CN109377984B (zh) * 2018-11-22 2022-05-03 北京中科智加科技有限公司 一种基于ArcFace的语音识别方法及装置
CN109377984A (zh) * 2018-11-22 2019-02-22 北京中科智加科技有限公司 一种基于ArcFace的语音识别方法及装置
WO2020155584A1 (zh) * 2019-01-31 2020-08-06 北京声智科技有限公司 声纹特征的融合方法及装置,语音识别方法,系统及存储介质
WO2020181824A1 (zh) * 2019-03-12 2020-09-17 平安科技(深圳)有限公司 声纹识别方法、装置、设备以及计算机可读存储介质
CN110047490A (zh) * 2019-03-12 2019-07-23 平安科技(深圳)有限公司 声纹识别方法、装置、设备以及计算机可读存储介质
CN110047504B (zh) * 2019-04-18 2021-08-20 东华大学 身份矢量x-vector线性变换下的说话人识别方法
CN110047504A (zh) * 2019-04-18 2019-07-23 东华大学 身份矢量x-vector线性变换下的说话人识别方法
CN110120223A (zh) * 2019-04-22 2019-08-13 南京硅基智能科技有限公司 一种基于时延神经网络tdnn的声纹识别方法
CN110299150A (zh) * 2019-06-24 2019-10-01 中国科学院计算技术研究所 一种实时语音说话人分离方法及系统
CN110364168B (zh) * 2019-07-22 2021-09-14 北京拓灵新声科技有限公司 一种基于环境感知的声纹识别方法及系统
CN110364168A (zh) * 2019-07-22 2019-10-22 南京拓灵智能科技有限公司 一种基于环境感知的声纹识别方法及系统
CN111105803A (zh) * 2019-12-30 2020-05-05 苏州思必驰信息科技有限公司 快速识别性别的方法及装置、用于识别性别的算法模型的生成方法
WO2021174883A1 (zh) * 2020-09-22 2021-09-10 平安科技(深圳)有限公司 声纹核身模型训练方法、装置、介质及电子设备
CN112504970B (zh) * 2021-02-07 2021-04-20 湖北鑫英泰系统技术股份有限公司 基于深度学习的气体光声光谱增强声纹识别方法与装置
CN112504970A (zh) * 2021-02-07 2021-03-16 湖北鑫英泰系统技术股份有限公司 基于深度学习的气体光声光谱增强声纹识别方法与装置
CN112599117B (zh) * 2021-03-03 2021-05-07 北京世纪好未来教育科技有限公司 模型训练、语音识别方法及装置、电子设备及存储介质
CN112599117A (zh) * 2021-03-03 2021-04-02 北京世纪好未来教育科技有限公司 模型训练、语音识别方法及装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN105575394A (zh) 基于全局变化空间及深度学习混合建模的声纹识别方法
CN105139857B (zh) 一种自动说话人识别中针对语音欺骗的对抗方法
CN102332263B (zh) 一种基于近邻原则合成情感模型的说话人识别方法
CN109754812A (zh) 一种基于卷积神经网络的防录音攻击检测的声纹认证方法
CN108269133A (zh) 一种结合人体识别和语音识别的智能广告推送方法及终端
CN112259104B (zh) 一种声纹识别模型的训练装置
CN110047504B (zh) 身份矢量x-vector线性变换下的说话人识别方法
CN109887489A (zh) 基于生成对抗网络的深度特征的语音去混响方法
CN108876951A (zh) 一种基于声音识别的教学考勤方法
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
CN109637526A (zh) 基于个人身份特征的dnn声学模型的自适应方法
CN103985381A (zh) 一种基于参数融合优化决策的音频索引方法
CN108648760A (zh) 实时声纹辨识系统与方法
CN103578481A (zh) 一种跨语言的语音情感识别方法
CN109377981A (zh) 音素对齐的方法及装置
CN104240706A (zh) 一种基于GMM Token配比相似度校正得分的说话人识别方法
CN105679323B (zh) 一种号码发现方法及系统
CN110111798A (zh) 一种识别说话人的方法及终端
CN104464738B (zh) 一种面向智能移动设备的声纹识别方法
Shon et al. MCE 2018: The 1st multi-target speaker detection and identification challenge evaluation
Jin et al. Speaker verification based on single channel speech separation
Ng et al. Teacher-student training for text-independent speaker recognition
CN116705063B (zh) 一种基于流形测度的多模型融合的语音鉴伪识别方法
CN112992155B (zh) 一种基于残差神经网络的远场语音说话人识别方法及装置
CN108694950A (zh) 一种基于深度混合模型的说话人确认方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 310000 Room 1105, 11/F, Building 4, No. 9, Jiuhuan Road, Jianggan District, Hangzhou City, Zhejiang Province

Applicant after: Limit element (Hangzhou) intelligent Polytron Technologies Inc.

Address before: 100089 Floor 1-312-316, No. 1 Building, 35 Shangdi East Road, Haidian District, Beijing

Applicant before: Limit element (Beijing) smart Polytron Technologies Inc.

Address after: 100089 Floor 1-312-316, No. 1 Building, 35 Shangdi East Road, Haidian District, Beijing

Applicant after: Limit element (Beijing) smart Polytron Technologies Inc.

Address before: 100089 Floor 1-312-316, No. 1 Building, 35 Shangdi East Road, Haidian District, Beijing

Applicant before: Limit Yuan (Beijing) Intelligent Technology Co.,Ltd.

Address after: 100089 Floor 1-312-316, No. 1 Building, 35 Shangdi East Road, Haidian District, Beijing

Applicant after: Limit Yuan (Beijing) Intelligent Technology Co.,Ltd.

Address before: 100085 Block 318, Yiquanhui Office Building, 35 Shangdi East Road, Haidian District, Beijing

Applicant before: BEIJING TIMES RUILANG TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160511