CN107146601A - 一种用于说话人识别系统的后端i‑vector增强方法 - Google Patents

一种用于说话人识别系统的后端i‑vector增强方法 Download PDF

Info

Publication number
CN107146601A
CN107146601A CN201710224925.8A CN201710224925A CN107146601A CN 107146601 A CN107146601 A CN 107146601A CN 201710224925 A CN201710224925 A CN 201710224925A CN 107146601 A CN107146601 A CN 107146601A
Authority
CN
China
Prior art keywords
mrow
vector
training
speaker
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710224925.8A
Other languages
English (en)
Other versions
CN107146601B (zh
Inventor
王昕�
张洪冉
李宗晏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201710224925.8A priority Critical patent/CN107146601B/zh
Publication of CN107146601A publication Critical patent/CN107146601A/zh
Application granted granted Critical
Publication of CN107146601B publication Critical patent/CN107146601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种用于说话人识别系统的后端i‑vector增强方法,该方法以深层神经网络为基础,结合深度神经网络在语音增强方面的应用,建立了一种用于说话人识别系统后端的i‑vector回归模型,得到一种适用于说话人识别系统的后端特征处理器。相比常规的前端语音增强算法,本发明在提高说话人识别系统的抗噪声性能的同时,又能优化说话人识别系统的结构模型,从而使说话人识别系统在噪声环境下的实用性得到有效提升。

Description

一种用于说话人识别系统的后端i-vector增强方法
技术领域
本发明属于说话人识别技术领域,特别指一种用于说话人识别系统的后端i-vector增强方法。
背景技术
说话人识别(Speaker Recognition,SR)又称声纹识别,是利用语音信号中含有的特定说话人信息来识别说话者身份的一种生物认证技术。近年来,基于因子分析的身份认证矢量(identity vector,i-vector)说话人建模方法的引入使得说话人识别系统的性能有了明显的提升。实验表明,在对说话人语音的因子分析中,通常信道子空间中会包含说话人的信息。因此,i-vector用一个低维的总变量空间来表示说话人子空间和信道子空间,并将说话人语音映射到该空间得到一个固定长度的矢量表征(即i-vector)。基于i-vector的说话人识别系统主要包括充分统计量提取、i-vector映射、似然比得分计算3个步骤。首先提取语音信号特征来训练表征语音空间的Gauss混合模型-通用背景模型(Gaussianmixture model-universal background model,GMM-UBM),利用训练好的UBM计算每帧语音特征的充分统计量,并将该充分统计量映射到总变量空间得到每条说话人语音的i-vector。最后利用概率线性鉴别式分析(probabilistic linear discriminant analysis,PLDA)模型对i-vector建模并计算似然比得分,根据设定的阈值做出最终判决。但是,在应用环境中存在背景的情况下,系统的性能会急剧下降。这也是现在说话人识别技术走向商业化的一大障碍。
近年来,随着机器学习算法性能的提升和计算机存储、计算能力的提高,深层神经网络(deep neural network,DNN)被应用到各个领域中并取得了显著的效果。DNN对非线性函数关系具有很强的拟合能力,经过训练后的DNN可以用来表示输入数据和输出数据之间的非线性映射关系。近年来,在语音增强领域,利用DNN的这种非线性结构,通过学习含噪语音特征和纯净语音特征之间的非线性映射关系,将DNN设计成一个降噪滤波器,达到语音增强的目的。该方法如果简单作为说话人识别系统的前端模块,在一定程度上提高系统性能的同时,也使系统结构复杂化,增加了对语音信号处理的计算量,因此该方法与说话人识别系统的融合成为当前技术难点。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种基于DNN的用于说话人识别系统的i-vector后端增强方法。
本发明解决该技术问题所采用的技术方案如下:一种用于说话人识别系统的i-vector后端增强方法,包括以下步骤:分为训练和识别两个阶段,训练阶段步骤如下:
A-1),对训练说话人语音信号进行预处理,包括预加重、端点检测、分帧、加窗;
A-2),利用所述MFCC提取法,提取说话人语音信号的MFCC特征;具体有:对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱,设语音信号的DFT为:
式中x(n)为输入的语音信号,N表示傅里叶变换的点数。
将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,...,M。M通常取22-26。各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽。
经离散余弦变换(DCT)得到MFCC系数:
将上述的对数能量带入离散余弦变换,求出L阶的梅尔频率倒谱参数。L阶指MFCC系数阶数,通常取12-16。这里M是三角滤波器个数。
A-3),根据A-2)提取的MFCC特征训练GMM-UBM模型来对语音声学特征进行对准,并计算得到特征的高维充分统计量;
A-4),根据A-3)得到的特征充分统计量训练i-vector特征提取器,利用该提取器提取说话人语音信号的i-vector;
A-5),根据A-4)训练得到的i-vector特征提取器,提取纯净语音和含噪语音的i-vector,其中,含噪语音的i-vector作为DNN训练数据,纯净语音的i-vector作为标签数据;
A-6),根据A-4)得到的训练数据和标签数据,使用以下所述方法对深度神经网络模型进行训练,经过训练后的神经网络模型作为i-vector后端增强模块,与i-vector/PLDA说话人识别模型融合;DNN训练步骤如下:
(A-6-1)利用CD算法逐层预训练构成DBN网络的RBM参数,采用自底向上的方法训练多个RBM,每个RBM隐含层作为下一RBM输入层,逐层累加得到多层结构;
(A-6-2)在训练好的DBN顶部添加线性输出层得到DNN结构,利用误差反向传播算法,将MMSE函数作为优化函数,通过最小化优化函数得到最优参数;
识别步骤为:
B-1),对识别语音进行预加重、端点检测、分帧、加窗,并提取识别语音的MFCC特征;
B-2),根据权利要求1中训练得到的i-vector特征提取器,提取待识别说话人每条注册语音和识别语音的i-vector,并将这些i-vector分别作为权利要求1所述的DNN模型的输入,该模型的输出为增强后的i-vector;
B-3),将待识别说话人注册语音增强后的i-vector和识别语音增强后的i-vector输入PLDA模型打分,将PLDA输出的似然比得分与设定的阈值比较,做出最终判决结果。
有益效果
本发明与传统说话人识别系统相比,将DNN与说话人识别系统模型相融合,结合DNN在语音增强领域的显著效果,本发明公开的说话人识别方法在存在背景噪声的环境下能够有效提升系统的识别性能,在降低噪声对系统性能影响、提高系统噪声鲁棒性的同时,优化系统结构,使识别实时性得到有效增强,提高相应说话人识别产品的竞争力。
附图说明
图1为基于i-vector后端增强的说话人识别系统结构图;
图2为MFCC特征提取流程图;
图3为神经网络结构图;
图4(a)为car噪声下系统DET曲线图;
图4(b)为babble噪声下系统DET曲线图。
具体实施方式
下面将结合附图对本发明具体实施方式做进一步说明:如图1所示,本发明采用的技术方案如下:一种基于DNN的用于说话人识别系统的i-vector后端增强方法包括以下步骤:分为训练和识别两个阶段,所述的训练步骤是:
第一步,对说话人语音信号进行预处理,包括预加重、端点检测、分帧、加窗。
(1)预加重
预加重处理是将语音信号通过一个高通滤波器:
H(Z)=1-μz-1
式中μ的值介于0.9-1.0之间,我们通常取0.97。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发生过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。
(2)分帧
先将N个采样点集合成一个观测单位,称为帧。通常情况下N的值为256或512,帧长约为20~30ms左右。为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3。
(3)加窗(Hamming Window)
将每一帧乘以汉明窗,以增加帧左端和右端的连续性。假设分帧后的信号为S(n),n=0,1,…,N-1,N为帧的大小,那么乘上汉明窗后S′(n)=S(n)×W(n),W(n)形式如下:
不同的a值会产生不同的汉明窗,一般情况下a取0.46。
第二步,如图2所示,利用所述MFCC提取法,提取说话人语音信号的MFCC特征,MFCC特征提取步骤如下:
(1)对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。设语音信号的DFT为:
式中x(n)为输入的语音信号,N表示傅里叶变换的点数。
(2)将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,...,M。M通常取22-26。各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽。
(3)经离散余弦变换(DCT)得到MFCC系数:
将上述的对数能量带入离散余弦变换,求出L阶的Mel-scale Cepstrum参数。L阶指MFCC系数阶数,通常取12-16。这里M是三角滤波器个数。
第三步,根据步骤二提取的MFCC特征训练GMM-UBM模型来对语音声学特征进行对准,并计算得到特征的高维充分统计量。具体地,
其中, 分别表示第k段语音段在第c个GMM高斯分量上的零阶统计量、一阶统计量和二阶统计量,表示第k段语音段的第t个时间段的语音特征表示,表示语音特征对第c个GMM混合分量的后验概率,可通过下式计算得到:
其中,C为混合高斯分量总数,μc和∑c分别对应第c个高斯分量的权重、均值和协方差。
第四步,根据步骤三得到的特征充分统计量训练i-vector特征提取器,利用该提取器提取说话人语音信号的i-vector。具体地,i-vector因子分析模型建立在GMM-UBM所表征的均值超向量空间之上。给定一段语音,其Gauss均值超矢量M可以分解为如下形式:
M=m+Tω
其中:m是说话人和信道无关分量,通常可以采用UBM的均值超矢量来代替;T是总体变化子空间矩阵;ω是包含了说话人和信道信息的变化因子,即i-vector。
第五步,根据步骤四训练得到的i-vector特征提取器,提取纯净语音和含噪语音的i-vector,其中,含噪语音的i-vector作为DNN训练数据,纯净语音的i-vector作为标签数据。
第六步,根据步骤四得到的训练数据和标签数据,使用以下所述方法对深度神经网络模型进行训练,经过训练后的神经网络模型作为i-vector后端增强模块,与i-vector/PLDA说话人识别模型融合。深层神经网络训练步骤如下:
(1)利用对比散度算法(contrastive divergence,CD)逐层预训练构成DBN网络的RBM参数,采用自底向上的方法训练多个RBM,每个RBM隐含层作为下一RBM输入层,逐层累加得到深度置信网络(deep belief network,DBN)模型。RBM是一种包含一层可见层和一层隐含层的2层无向图模型,相同层的节点之间无连接。假设v和h分别表示可见层节点和隐含层节点,定义(v,h)间的联合分布如下所示:
其中W表示可见层节点和隐含层节点间的权重矩阵,b和c分别是可见层节点和隐含层节点的偏置,Z是归一化因数。RBM的优化目标是要最大化可见层节点概率分布在训练过程中可以通过梯度下降和CD算法估计得到模型参数。
(2)如图3所示,在训练好的DBN顶部添加线性输出层得到DNN回归模型。利用误差反向传播(BP)算法,将MMSE函数作为优化函数,通过最小化优化函数得到最优参数。具体地,BP算法分为两步:(1)前向响应传播,即将输入通过各隐层获得相应,前一层响应作为后一层输出依次向前传播,直到最后一层输出预测值。每层隐层的激活函数选择为sigmoid函数,表达式为:
sigmoid函数单调递增、无限可微的非线性特性使使神经网络能够很好地拟合含噪语音i-vector和纯净语音i-vector之间的非线性映射关系。
(2)误差反向传播,即将前向传播输出的预测值与参考值之间的误差进行反向传播,误差计算公式如下:
其中,W,b分别为模型的权重和偏置参数。根据反向传播到每层的误差来更新神经网络每层的权重和偏置:
这里,σ表示学习率,为l层第i个单元的权重,当进行BP算法的迭代时,权重更新的关系表达式为:
Wn=Wn-1+Δw
即第n次迭代后的权重等于第n-1次迭代权重加上权重的更迭量。
所述的识别步骤为:
第一步,对识别语音进行预加重、端点检测、分帧、加窗,并提取识别语音的MFCC特征。
第二步,利用训练得到的i-vector特征提取器,提取待识别说话人每条注册语音和识别语音的i-vector,并将这些i-vector分别作为训练得到的DNN模型的输入,该模型的输出为增强后的i-vector。
第三步,将待识别说话人注册语音增强后的i-vector和识别语音增强后的i-vector输入PLDA模型打分,将PLDA输出的似然比得分与设定的阈值比较,做出最终判决结果。
下面结合实例来说明此发明的实际效果,给定一段测试语音,仿真混合0dB-27dB之间随机信噪比的加性babble和car噪声,提取含噪语音的i-vector之后利用本发明所述的DNN模型进行增强。分别对纯净语音、含噪语音、i-vector增强下语音进行打分测试,处理结果如图4(a),图4(b)所示。
图4(a),图4(b)分别给出了在car和babble背景噪声环境下,系统在纯净语音、含噪语音、和i-vector增强下语音的DET曲线,可以明显看出,经i-vector增强后的系统相比噪声环境下性能有了显著的提高,本发明有效的提高了系统的噪声鲁棒性。
本发明实例只是介绍其具体实施方式,不在于限制其保护范围。本行业技术人员在本实例的启发下可以做某些修改,故凡依照本发明专利范围所做的等效变化或修饰,均属于本发明专利权利要求范围内。

Claims (3)

1.一种用于说话人识别系统的i-vector后端增强方法,其特征在于,分为训练和识别两个阶段,训练阶段步骤如下:
A-1),对训练说话人语音信号进行预处理,包括预加重、端点检测、分帧、加窗;
A-2),利用所述MFCC提取法,提取说话人语音信号的MFCC特征;
A-3),根据A-2)提取的MFCC特征训练GMM-UBM模型来对语音声学特征进行对准,并计算得到特征的高维充分统计量;
A-4),根据A-3)得到的特征充分统计量训练i-vector特征提取器,利用该提取器提取说话人语音信号的i-vector;
A-5),根据A-4)训练得到的i-vector特征提取器,提取纯净语音和含噪语音的i-vector,其中,含噪语音的i-vector作为DNN训练数据,纯净语音的i-vector作为标签数据;
A-6),根据A-4)得到的训练数据和标签数据,使用以下所述方法对深度神经网络模型进行训练,经过训练后的神经网络模型作为i-vector后端增强模块,与i-vector/PLDA说话人识别模型融合。
识别步骤为:
B-1),对识别语音进行预加重、端点检测、分帧、加窗,并提取识别语音的MFCC特征;
B-2),根据权利要求1中训练得到的i-vector特征提取器,提取待识别说话人每条注册语音和识别语音的i-vector,并将这些i-vector分别作为权利要求1所述的DNN模型的输入,该模型的输出为增强后的i-vector;
B-3),将待识别说话人注册语音增强后的i-vector和识别语音增强后的i-vector输入PLDA模型打分,将PLDA输出的似然比得分与设定的阈值比较,做出最终判决结果。
2.如权利要求1所述的方法,其特征在于,在A-2)中,还包括:
对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱,设语音信号的DFT为:
<mrow> <mi>X</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mi>x</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mi>h</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>j</mi> <mn>2</mn> <mi>&amp;pi;</mi> <mi>k</mi> <mi>n</mi> <mo>/</mo> <mi>N</mi> </mrow> </msup> <mo>,</mo> <mn>1</mn> <mo>&amp;le;</mo> <mi>k</mi> <mo>&amp;le;</mo> <mi>N</mi> </mrow>
式中x(n)为输入的语音信号,N表示傅里叶变换的点数;
将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组,采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,...,M,M取22-26;各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽;
经离散余弦变换(DCT)得到MFCC系数:
<mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mi>s</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>&amp;pi;</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>-</mo> <mn>0.5</mn> <mo>)</mo> </mrow> </mrow> <mi>M</mi> </mfrac> <mo>)</mo> </mrow> <mo>,</mo> <mi>n</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>...</mo> <mo>...</mo> <mi>L</mi> </mrow>
将上述的对数能量带入离散余弦变换,求出L阶的梅尔频率倒谱参数;L阶指MFCC系数阶数,取12-16;这里M是三角滤波器个数。
3.如权利要求1所述的方法,其特征在于,在A-6)中,还包括:
深层神经网络(deep neural network,DNN)训练步骤如下:
(A-6-1)利用CD算法逐层预训练构成DBN网络的RBM参数,采用自底向上的方法训练多个RBM,每个RBM隐含层作为下一RBM输入层,逐层累加得到多层结构;
(A-6-2)在训练好的DBN顶部添加线性输出层得到DNN结构。利用误差反向传播算法,将MMSE函数作为优化函数,通过最小化优化函数得到最优参数。
CN201710224925.8A 2017-04-07 2017-04-07 一种用于说话人识别系统的后端i-vector增强方法 Active CN107146601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710224925.8A CN107146601B (zh) 2017-04-07 2017-04-07 一种用于说话人识别系统的后端i-vector增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710224925.8A CN107146601B (zh) 2017-04-07 2017-04-07 一种用于说话人识别系统的后端i-vector增强方法

Publications (2)

Publication Number Publication Date
CN107146601A true CN107146601A (zh) 2017-09-08
CN107146601B CN107146601B (zh) 2020-07-24

Family

ID=59774647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710224925.8A Active CN107146601B (zh) 2017-04-07 2017-04-07 一种用于说话人识别系统的后端i-vector增强方法

Country Status (1)

Country Link
CN (1) CN107146601B (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107452403A (zh) * 2017-09-12 2017-12-08 清华大学 一种说话人标记方法
CN107610706A (zh) * 2017-09-13 2018-01-19 百度在线网络技术(北京)有限公司 语音搜索结果的处理方法和处理装置
CN107680600A (zh) * 2017-09-11 2018-02-09 平安科技(深圳)有限公司 声纹模型训练方法、语音识别方法、装置、设备及介质
CN107886943A (zh) * 2017-11-21 2018-04-06 广州势必可赢网络科技有限公司 一种声纹识别方法及装置
CN108091339A (zh) * 2017-10-31 2018-05-29 北京声智科技有限公司 在线语音识别引擎及识别方法
CN108154239A (zh) * 2017-12-27 2018-06-12 郑州云海信息技术有限公司 一种机器学习方法及其装置
CN108346428A (zh) * 2017-09-13 2018-07-31 腾讯科技(深圳)有限公司 语音活动检测及其模型建立方法、装置、设备及存储介质
CN108615533A (zh) * 2018-03-28 2018-10-02 天津大学 一种基于深度学习的高性能语音增强方法
CN108629024A (zh) * 2018-05-09 2018-10-09 王泽普 一种基于声音识别的教学考勤方法
CN108806694A (zh) * 2018-06-13 2018-11-13 高艳艳 一种基于声音识别的教学考勤方法
CN108876951A (zh) * 2018-06-13 2018-11-23 贾成举 一种基于声音识别的教学考勤方法
CN108922544A (zh) * 2018-06-11 2018-11-30 平安科技(深圳)有限公司 通用向量训练方法、语音聚类方法、装置、设备及介质
CN109065022A (zh) * 2018-06-06 2018-12-21 平安科技(深圳)有限公司 i-vector向量提取方法、说话人识别方法、装置、设备及介质
WO2019062721A1 (zh) * 2017-09-29 2019-04-04 腾讯科技(深圳)有限公司 语音身份特征提取器、分类器训练方法及相关设备
CN109584893A (zh) * 2018-12-26 2019-04-05 南京邮电大学 非平行文本条件下基于VAE与i-vector的多对多语音转换系统
CN109637526A (zh) * 2019-01-08 2019-04-16 西安电子科技大学 基于个人身份特征的dnn声学模型的自适应方法
CN109785852A (zh) * 2018-12-14 2019-05-21 厦门快商通信息技术有限公司 一种增强说话人语音的方法及系统
WO2019134247A1 (zh) * 2018-01-03 2019-07-11 平安科技(深圳)有限公司 基于声纹识别模型的声纹注册方法、终端装置及存储介质
CN110047478A (zh) * 2018-01-16 2019-07-23 中国科学院声学研究所 基于空间特征补偿的多通道语音识别声学建模方法及装置
CN110148417A (zh) * 2019-05-24 2019-08-20 哈尔滨工业大学 基于总变化空间与分类器联合优化的说话人身份识别方法
CN110166424A (zh) * 2019-04-03 2019-08-23 西安电子科技大学 面向物联网服务隐私保护声纹识别方法及系统、移动终端
WO2019227586A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 语音模型训练方法、说话人识别方法、装置、设备及介质
WO2020019831A1 (zh) * 2018-07-23 2020-01-30 深圳大学 特定人群识别方法、电子装置及计算机可读存储介质
CN110867192A (zh) * 2019-10-23 2020-03-06 北京计算机技术及应用研究所 基于门控循环编解码网络的语音增强方法
CN111462759A (zh) * 2020-04-01 2020-07-28 科大讯飞股份有限公司 一种说话人标注方法、装置、设备及存储介质
CN112216272A (zh) * 2019-06-25 2021-01-12 南京航空航天大学 一种针对民航陆空通话领域的语种识别方法
CN112786058A (zh) * 2021-03-08 2021-05-11 北京百度网讯科技有限公司 声纹模型训练方法、装置、设备以及存储介质
CN112967726A (zh) * 2021-02-01 2021-06-15 上海海事大学 基于t分布概率线性判别的深度神经网络模型短语音说话人确认方法
CN113436606A (zh) * 2021-05-31 2021-09-24 引智科技(深圳)有限公司 一种原声语音翻译方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110265039B (zh) * 2019-06-03 2021-07-02 南京邮电大学 一种基于字典学习和低秩矩阵分解的说话人识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105575394A (zh) * 2016-01-04 2016-05-11 北京时代瑞朗科技有限公司 基于全局变化空间及深度学习混合建模的声纹识别方法
CN105590625A (zh) * 2016-03-18 2016-05-18 上海语知义信息技术有限公司 声学模型自适应方法及系统
CN106448684A (zh) * 2016-11-16 2017-02-22 北京大学深圳研究生院 基于深度置信网络特征矢量的信道鲁棒声纹识别系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105575394A (zh) * 2016-01-04 2016-05-11 北京时代瑞朗科技有限公司 基于全局变化空间及深度学习混合建模的声纹识别方法
CN105590625A (zh) * 2016-03-18 2016-05-18 上海语知义信息技术有限公司 声学模型自适应方法及系统
CN106448684A (zh) * 2016-11-16 2017-02-22 北京大学深圳研究生院 基于深度置信网络特征矢量的信道鲁棒声纹识别系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NAJIM DEHAK, PATRICK J.KENNY, ETC: "Front-End Factor Analysis for Speaker Verificaiton", <IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGRAGE PROCESSING> *
YUAN LIU, YANMIN QIAN, ETC: "Deep feature fot text-dependent speaker verification", <SPEECH COMMUNICAITON> *
王军: "《博士学位论文》", 30 December 2015 *

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019047343A1 (zh) * 2017-09-11 2019-03-14 平安科技(深圳)有限公司 声纹模型训练方法、语音识别方法、装置、设备及介质
CN107680600A (zh) * 2017-09-11 2018-02-09 平安科技(深圳)有限公司 声纹模型训练方法、语音识别方法、装置、设备及介质
CN107452403A (zh) * 2017-09-12 2017-12-08 清华大学 一种说话人标记方法
CN107452403B (zh) * 2017-09-12 2020-07-07 清华大学 一种说话人标记方法
CN108346428B (zh) * 2017-09-13 2020-10-02 腾讯科技(深圳)有限公司 语音活动检测及其模型建立方法、装置、设备及存储介质
CN108346428A (zh) * 2017-09-13 2018-07-31 腾讯科技(深圳)有限公司 语音活动检测及其模型建立方法、装置、设备及存储介质
US11393492B2 (en) 2017-09-13 2022-07-19 Tencent Technology (Shenzhen) Company Ltd Voice activity detection method, method for establishing voice activity detection model, computer device, and storage medium
CN107610706A (zh) * 2017-09-13 2018-01-19 百度在线网络技术(北京)有限公司 语音搜索结果的处理方法和处理装置
CN110310647A (zh) * 2017-09-29 2019-10-08 腾讯科技(深圳)有限公司 一种语音身份特征提取器、分类器训练方法及相关设备
CN110310647B (zh) * 2017-09-29 2022-02-25 腾讯科技(深圳)有限公司 一种语音身份特征提取器、分类器训练方法及相关设备
US11335352B2 (en) 2017-09-29 2022-05-17 Tencent Technology (Shenzhen) Company Limited Voice identity feature extractor and classifier training
WO2019062721A1 (zh) * 2017-09-29 2019-04-04 腾讯科技(深圳)有限公司 语音身份特征提取器、分类器训练方法及相关设备
CN108091339A (zh) * 2017-10-31 2018-05-29 北京声智科技有限公司 在线语音识别引擎及识别方法
CN107886943A (zh) * 2017-11-21 2018-04-06 广州势必可赢网络科技有限公司 一种声纹识别方法及装置
CN108154239A (zh) * 2017-12-27 2018-06-12 郑州云海信息技术有限公司 一种机器学习方法及其装置
WO2019134247A1 (zh) * 2018-01-03 2019-07-11 平安科技(深圳)有限公司 基于声纹识别模型的声纹注册方法、终端装置及存储介质
CN110047478B (zh) * 2018-01-16 2021-06-08 中国科学院声学研究所 基于空间特征补偿的多通道语音识别声学建模方法及装置
CN110047478A (zh) * 2018-01-16 2019-07-23 中国科学院声学研究所 基于空间特征补偿的多通道语音识别声学建模方法及装置
CN108615533A (zh) * 2018-03-28 2018-10-02 天津大学 一种基于深度学习的高性能语音增强方法
CN108629024A (zh) * 2018-05-09 2018-10-09 王泽普 一种基于声音识别的教学考勤方法
WO2019227586A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 语音模型训练方法、说话人识别方法、装置、设备及介质
CN109065022A (zh) * 2018-06-06 2018-12-21 平安科技(深圳)有限公司 i-vector向量提取方法、说话人识别方法、装置、设备及介质
CN109065022B (zh) * 2018-06-06 2022-08-09 平安科技(深圳)有限公司 i-vector向量提取方法、说话人识别方法、装置、设备及介质
CN108922544A (zh) * 2018-06-11 2018-11-30 平安科技(深圳)有限公司 通用向量训练方法、语音聚类方法、装置、设备及介质
CN108876951A (zh) * 2018-06-13 2018-11-23 贾成举 一种基于声音识别的教学考勤方法
CN108806694A (zh) * 2018-06-13 2018-11-13 高艳艳 一种基于声音识别的教学考勤方法
WO2020019831A1 (zh) * 2018-07-23 2020-01-30 深圳大学 特定人群识别方法、电子装置及计算机可读存储介质
CN109785852A (zh) * 2018-12-14 2019-05-21 厦门快商通信息技术有限公司 一种增强说话人语音的方法及系统
CN109584893B (zh) * 2018-12-26 2021-09-14 南京邮电大学 非平行文本条件下基于VAE与i-vector的多对多语音转换系统
CN109584893A (zh) * 2018-12-26 2019-04-05 南京邮电大学 非平行文本条件下基于VAE与i-vector的多对多语音转换系统
CN109637526A (zh) * 2019-01-08 2019-04-16 西安电子科技大学 基于个人身份特征的dnn声学模型的自适应方法
CN110166424A (zh) * 2019-04-03 2019-08-23 西安电子科技大学 面向物联网服务隐私保护声纹识别方法及系统、移动终端
CN110166424B (zh) * 2019-04-03 2022-03-25 西安电子科技大学 面向物联网服务隐私保护声纹识别方法及系统、移动终端
CN110148417A (zh) * 2019-05-24 2019-08-20 哈尔滨工业大学 基于总变化空间与分类器联合优化的说话人身份识别方法
CN110148417B (zh) * 2019-05-24 2021-03-23 哈尔滨工业大学 基于总变化空间与分类器联合优化的说话人身份识别方法
CN112216272A (zh) * 2019-06-25 2021-01-12 南京航空航天大学 一种针对民航陆空通话领域的语种识别方法
CN110867192A (zh) * 2019-10-23 2020-03-06 北京计算机技术及应用研究所 基于门控循环编解码网络的语音增强方法
CN111462759A (zh) * 2020-04-01 2020-07-28 科大讯飞股份有限公司 一种说话人标注方法、装置、设备及存储介质
CN111462759B (zh) * 2020-04-01 2024-02-13 科大讯飞股份有限公司 一种说话人标注方法、装置、设备及存储介质
CN112967726A (zh) * 2021-02-01 2021-06-15 上海海事大学 基于t分布概率线性判别的深度神经网络模型短语音说话人确认方法
CN112786058A (zh) * 2021-03-08 2021-05-11 北京百度网讯科技有限公司 声纹模型训练方法、装置、设备以及存储介质
CN112786058B (zh) * 2021-03-08 2024-03-29 北京百度网讯科技有限公司 声纹模型训练方法、装置、设备以及存储介质
CN113436606A (zh) * 2021-05-31 2021-09-24 引智科技(深圳)有限公司 一种原声语音翻译方法

Also Published As

Publication number Publication date
CN107146601B (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN107146601A (zh) 一种用于说话人识别系统的后端i‑vector增强方法
CN102800316B (zh) 基于神经网络的声纹识别系统的最优码本设计方法
CN110400579B (zh) 基于方向自注意力机制和双向长短时网络的语音情感识别
CN104157290B (zh) 一种基于深度学习的说话人识别方法
CN103928023B (zh) 一种语音评分方法及系统
CN103345923B (zh) 一种基于稀疏表示的短语音说话人识别方法
CN106952643A (zh) 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法
CN109637545B (zh) 基于一维卷积非对称双向长短时记忆网络的声纹识别方法
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN109119072A (zh) 基于dnn-hmm的民航陆空通话声学模型构建方法
CN108172238A (zh) 一种语音识别系统中基于多个卷积神经网络的语音增强算法
CN110459225B (zh) 一种基于cnn融合特征的说话人辨认系统
CN113129897B (zh) 一种基于注意力机制循环神经网络的声纹识别方法
CN103065629A (zh) 一种仿人机器人的语音识别系统
CN107293302A (zh) 一种用于语音测谎系统中的稀疏谱特征提取方法
CN111128209B (zh) 一种基于混合掩蔽学习目标的语音增强方法
CN106683666B (zh) 一种基于深度神经网络的领域自适应方法
CN107146615A (zh) 基于匹配模型二次识别的语音识别方法及系统
CN102664010B (zh) 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
CN103456302B (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
CN111462729A (zh) 基于音素对数似然比和稀疏表征的快速语种识别方法
CN112053694A (zh) 一种基于cnn与gru网络融合的声纹识别方法
CN105280181A (zh) 一种语种识别模型的训练方法及语种识别方法
CN102237083A (zh) 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant