CN107146601B - 一种用于说话人识别系统的后端i-vector增强方法 - Google Patents
一种用于说话人识别系统的后端i-vector增强方法 Download PDFInfo
- Publication number
- CN107146601B CN107146601B CN201710224925.8A CN201710224925A CN107146601B CN 107146601 B CN107146601 B CN 107146601B CN 201710224925 A CN201710224925 A CN 201710224925A CN 107146601 B CN107146601 B CN 107146601B
- Authority
- CN
- China
- Prior art keywords
- vector
- voice
- training
- model
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 38
- 238000001228 spectrum Methods 0.000 claims description 15
- 238000009432 framing Methods 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 230000007423 decrease Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000000556 factor analysis Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种用于说话人识别系统的后端i‑vector增强方法,该方法以深层神经网络为基础,结合深度神经网络在语音增强方面的应用,建立了一种用于说话人识别系统后端的i‑vector回归模型,得到一种适用于说话人识别系统的后端特征处理器。相比常规的前端语音增强算法,本发明在提高说话人识别系统的抗噪声性能的同时,又能优化说话人识别系统的结构模型,从而使说话人识别系统在噪声环境下的实用性得到有效提升。
Description
技术领域
本发明属于说话人识别技术领域,特别指一种用于说话人识别系统的后端i-vector增强方法。
背景技术
说话人识别(Speaker Recognition,SR)又称声纹识别,是利用语音信号中含有的特定说话人信息来识别说话者身份的一种生物认证技术。近年来,基于因子分析的身份认证矢量(identity vector,i-vector)说话人建模方法的引入使得说话人识别系统的性能有了明显的提升。实验表明,在对说话人语音的因子分析中,通常信道子空间中会包含说话人的信息。因此,i-vector用一个低维的总变量空间来表示说话人子空间和信道子空间,并将说话人语音映射到该空间得到一个固定长度的矢量表征(即i-vector)。基于i-vector的说话人识别系统主要包括充分统计量提取、i-vector映射、似然比得分计算3个步骤。首先提取语音信号特征来训练表征语音空间的Gauss混合模型-通用背景模型(Gaussianmixture model-universal background model,GMM-UBM),利用训练好的UBM计算每帧语音特征的充分统计量,并将该充分统计量映射到总变量空间得到每条说话人语音的i-vector。最后利用概率线性鉴别式分析(probabilistic linear discriminant analysis,PLDA)模型对i-vector建模并计算似然比得分,根据设定的阈值做出最终判决。但是,在应用环境中存在背景的情况下,系统的性能会急剧下降。这也是现在说话人识别技术走向商业化的一大障碍。
近年来,随着机器学习算法性能的提升和计算机存储、计算能力的提高,深层神经网络(deep neural network,DNN)被应用到各个领域中并取得了显著的效果。DNN对非线性函数关系具有很强的拟合能力,经过训练后的DNN可以用来表示输入数据和输出数据之间的非线性映射关系。近年来,在语音增强领域,利用DNN的这种非线性结构,通过学习含噪语音特征和纯净语音特征之间的非线性映射关系,将DNN设计成一个降噪滤波器,达到语音增强的目的。该方法如果简单作为说话人识别系统的前端模块,在一定程度上提高系统性能的同时,也使系统结构复杂化,增加了对语音信号处理的计算量,因此该方法与说话人识别系统的融合成为当前技术难点。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种基于DNN的用于说话人识别系统的i-vector后端增强方法。
本发明解决该技术问题所采用的技术方案如下:一种用于说话人识别系统的i-vector后端增强方法,包括以下步骤:分为训练和识别两个阶段,训练阶段步骤如下:
A-1),对训练说话人语音信号进行预处理,包括预加重、端点检测、分帧、加窗;
A-2),利用所述MFCC提取法,提取说话人语音信号的MFCC特征;具体有:对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱,设语音信号的DFT为:
式中x(n)为输入的语音信号,N表示傅里叶变换的点数。
将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,...,M。M通常取22-26。各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽。
经离散余弦变换(DCT)得到MFCC系数:
将上述的对数能量带入离散余弦变换,求出L阶的梅尔频率倒谱参数。L阶指MFCC系数阶数,通常取12-16。这里M是三角滤波器个数。
A-3),根据A-2)提取的MFCC特征训练GMM-UBM模型来对语音声学特征进行对准,并计算得到特征的高维充分统计量;
A-4),根据A-3)得到的特征充分统计量训练i-vector特征提取器,利用该提取器提取说话人语音信号的i-vector;
A-5),根据A-4)训练得到的i-vector特征提取器,提取纯净语音和含噪语音的i-vector,其中,含噪语音的i-vector作为DNN训练数据,纯净语音的i-vector作为标签数据;
A-6),根据训练数据和标签数据,使用以下所述方法对深度神经网络模型进行训练,经过训练后的神经网络模型作为i-vector后端增强模块,与i-vector/PLDA说话人识别模型融合;DNN训练步骤如下:
(A-6-1)利用对比散度CD算法逐层预训练构成DBN网络的RBM参数,采用自底向上的方法训练多个RBM,每个RBM隐含层作为下一RBM输入层,逐层累加得到多层结构;
(A-6-2)在训练好的DBN顶部添加线性输出层得到DNN结构,利用误差反向传播算法,将MMSE函数作为优化函数,通过最小化优化函数得到最优参数;
识别步骤为:
B-1),对识别语音进行预加重、端点检测、分帧、加窗,并提取识别语音的MFCC特征;
B-2),根据训练得到的i-vector特征提取器,提取待识别说话人每条注册语音和识别语音的i-vector,并将这些i-vector分别作为权利要求1所述的DNN模型的输入,该模型的输出为增强后的i-vector;
B-3),将待识别说话人注册语音增强后的i-vector和识别语音增强后的i-vector输入PLDA模型打分,将PLDA输出的似然比得分与设定的阈值比较,做出最终判决结果。
有益效果
本发明与传统说话人识别系统相比,将DNN与说话人识别系统模型相融合,结合DNN在语音增强领域的显著效果,本发明公开的说话人识别方法在存在背景噪声的环境下能够有效提升系统的识别性能,在降低噪声对系统性能影响、提高系统噪声鲁棒性的同时,优化系统结构,使识别实时性得到有效增强,提高相应说话人识别产品的竞争力。
附图说明
图1为基于i-vector后端增强的说话人识别系统结构图;
图2为神经网络结构图;
图3为MFCC特征提取流程图;
图4(a)为car噪声下系统DET曲线图;
图4(b)为babble噪声下系统DET曲线图。
具体实施方式
下面将结合附图对本发明具体实施方式做进一步说明:如图1所示,本发明采用的技术方案如下:一种基于DNN的用于说话人识别系统的i-vector后端增强方法包括以下步骤:分为训练和识别两个阶段,所述的训练步骤是:
第一步,对说话人语音信号进行预处理,包括预加重、端点检测、分帧、加窗。
(1)预加重
预加重处理是将语音信号通过一个高通滤波器:
H(Z)=1-μz-1
式中μ的值介于0.9-1.0之间,我们通常取0.97。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发生过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。
(2)分帧
先将N个采样点集合成一个观测单位,称为帧。通常情况下N的值为256或512,帧长约为20~30ms左右。为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3。
(3)加窗(Hamming Window)
将每一帧乘以汉明窗,以增加帧左端和右端的连续性。假设分帧后的信号为S(n),n=0,1,…,N-1,N为帧的大小,那么乘上汉明窗后S′(n)=S(n)×W(n),W(n)形式如下:
不同的a值会产生不同的汉明窗,一般情况下a取0.46。
第二步,如图3所示,利用所述MFCC提取法,提取说话人语音信号的MFCC特征,MFCC特征提取步骤如下:
(1)对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。设语音信号的DFT为:
式中x(n)为输入的语音信号,N表示傅里叶变换的点数。
(2)将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,...,M。M通常取22-26。各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽。
(3)经离散余弦变换(DCT)得到MFCC系数:
将上述的对数能量带入离散余弦变换,求出L阶的Mel-scale Cepstrum参数。L阶指MFCC系数阶数,通常取12-16。这里M是三角滤波器个数。
第三步,根据步骤二提取的MFCC特征训练GMM-UBM模型来对语音声学特征进行对准,并计算得到特征的高维充分统计量。具体地,
其中,和分别表示第k段语音段在第c个GMM高斯分量上的零阶统计量、一阶统计量和二阶统计量,表示第k段语音段的第t个时间段的语音特征表示,表示语音特征对第c个GMM混合分量的后验概率,可通过下式计算得到:
第四步,根据步骤三得到的特征充分统计量训练i-vector特征提取器,利用该提取器提取说话人语音信号的i-vector。具体地,i-vector因子分析模型建立在GMM-UBM所表征的均值超向量空间之上。给定一段语音,其Gauss均值超矢量M可以分解为如下形式:
M=m+Tω
其中:m是说话人和信道无关分量,通常可以采用UBM的均值超矢量来代替;T是总体变化子空间矩阵;ω是包含了说话人和信道信息的变化因子,即i-vector。
第五步,i-vector特征提取器,提取纯净语音和含噪语音的i-vector,其中,含噪语音的i-vector作为DNN训练数据,纯净语音的i-vector作为标签数据。
第六步,根据训练数据和标签数据,使用以下所述方法对深度神经网络模型进行训练,经过训练后的神经网络模型作为i-vector后端增强模块,与i-vector/PLDA说话人识别模型融合。深层神经网络训练步骤如下:
(1)利用对比散度算法(contrastive divergence,CD)逐层预训练构成DBN网络的RBM参数,采用自底向上的方法训练多个RBM,每个RBM隐含层作为下一RBM输入层,逐层累加得到深度置信网络(deep belief network,DBN)模型。RBM是一种包含一层可见层和一层隐含层的2层无向图模型,相同层的节点之间无连接。假设v和h分别表示可见层节点和隐含层节点,定义(v,h)间的联合分布如下所示:
其中W表示可见层节点和隐含层节点间的权重矩阵,b和c分别是可见层节点和隐含层节点的偏置,Z是归一化因数。RBM的优化目标是要最大化可见层节点概率分布在训练过程中可以通过梯度下降和CD算法估计得到模型参数。
(2)如图2所示,在训练好的DBN顶部添加线性输出层得到DNN回归模型。利用误差反向传播(BP)算法,将MMSE函数作为优化函数,通过最小化优化函数得到最优参数。具体地,BP算法分为两步:(1)前向响应传播,即将输入通过各隐层获得相应,前一层响应作为后一层输出依次向前传播,直到最后一层输出预测值。每层隐层的激活函数选择为sigmoid函数,表达式为:
sigmoid函数单调递增、无限可微的非线性特性使使神经网络能够很好地拟合含噪语音i-vector和纯净语音i-vector之间的非线性映射关系。
(2)误差反向传播,即将前向传播输出的预测值与参考值之间的误差进行反向传播,误差计算公式如下:
其中,W,b分别为模型的权重和偏置参数。根据反向传播到每层的误差来更新神经网络每层的权重和偏置:
Wn=Wn-1+Δw
即第n次迭代后的权重等于第n-1次迭代权重加上权重的更迭量。
所述的识别步骤为:
第一步,对识别语音进行预加重、端点检测、分帧、加窗,并提取识别语音的MFCC特征。
第二步,利用训练得到的i-vector特征提取器,提取待识别说话人每条注册语音和识别语音的i-vector,并将这些i-vector分别作为训练得到的DNN模型的输入,该模型的输出为增强后的i-vector。
第三步,将待识别说话人注册语音增强后的i-vector和识别语音增强后的i-vector输入PLDA模型打分,将PLDA输出的似然比得分与设定的阈值比较,做出最终判决结果。
下面结合实例来说明此发明的实际效果,给定一段测试语音,仿真混合0dB-27dB之间随机信噪比的加性babble和car噪声,提取含噪语音的i-vector之后利用本发明所述的DNN模型进行增强。分别对纯净语音、含噪语音、i-vector增强下语音进行打分测试,处理结果如图4(a),图4(b)所示。
图4(a),图4(b)分别给出了在car和babble背景噪声环境下,系统在纯净语音、含噪语音、和i-vector增强下语音的DET曲线,可以明显看出,经i-vector增强后的系统相比噪声环境下性能有了显著的提高,本发明有效的提高了系统的噪声鲁棒性。
本发明实例只是介绍其具体实施方式,不在于限制其保护范围。本行业技术人员在本实例的启发下可以做某些修改,故凡依照本发明专利范围所做的等效变化或修饰,均属于本发明专利权利要求范围内。
Claims (3)
1.一种用于说话人识别系统的i-vector后端增强方法,其特征在于,分为训练和识别两个阶段,训练阶段步骤如下:
A-1),对训练说话人语音信号进行预处理,包括预加重、端点检测、分帧、加窗;
A-2),MFCC提取法,提取说话人语音信号的MFCC特征;
A-3),根据A-2)提取的MFCC特征训练GMM-UBM模型来对语音声学特征进行对准,并计算得到特征的高维充分统计量;
A-4),根据A-3)得到的特征充分统计量训练i-vector特征提取器,利用该提取器提取说话人语音信号的i-vector;
A-5),i-vector特征提取器,提取纯净语音和含噪语音的i-vector,其中,含噪语音的i-vector作为DNN训练数据,纯净语音的i-vector作为标签数据;
A-6),使用以下方法对深层神经网络模型进行训练,经过训练后的深层神经网络模型作为i-vector后端增强模块,与i-vector/PLDA说话人识别模型融合;
识别步骤为:
B-1),对识别语音进行预加重、端点检测、分帧、加窗,并提取识别语音的MFCC特征;
B-2),i-vector特征提取器,提取待识别说话人每条注册语音和识别语音的i-vector,并将这些i-vector分别作为DNN模型的输入,该模型的输出为增强后的i-vector;
B-3),将待识别说话人注册语音增强后的i-vector和识别语音增强后的i-vector输入PLDA模型打分,将PLDA输出的似然比得分与设定的阈值比较,做出最终判决结果。
2.如权利要求1所述的方法,其特征在于,在A-2)中,还包括:
对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱,设语音信号的DFT为:
式中x(n)为输入的语音信号,N表示傅里叶变换的点数;
将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组,采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,...,M,M取22-26;各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽;
经离散余弦变换(DCT)得到MFCC系数:
将对数能量带入离散余弦变换,求出L阶的梅尔频率倒谱参数;L阶指MFCC系数阶数,取12-16;这里M是三角滤波器个数。
3.如权利要求1所述的方法,其特征在于,在A-6)中,还包括:
深层神经网络deep neural network即DNN模型训练步骤如下:
(A-6-1)利用对比散度CD算法逐层预训练构成DBN网络的RBM参数,采用自底向上的方法训练多个RBM,每个RBM隐含层作为下一RBM输入层,逐层累加得到多层结构;
(A-6-2)在训练好的DBN顶部添加线性输出层得到DNN结构,利用误差反向传播算法,将MMSE函数作为优化函数,通过最小化优化函数得到最优参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710224925.8A CN107146601B (zh) | 2017-04-07 | 2017-04-07 | 一种用于说话人识别系统的后端i-vector增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710224925.8A CN107146601B (zh) | 2017-04-07 | 2017-04-07 | 一种用于说话人识别系统的后端i-vector增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107146601A CN107146601A (zh) | 2017-09-08 |
CN107146601B true CN107146601B (zh) | 2020-07-24 |
Family
ID=59774647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710224925.8A Active CN107146601B (zh) | 2017-04-07 | 2017-04-07 | 一种用于说话人识别系统的后端i-vector增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107146601B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110265039A (zh) * | 2019-06-03 | 2019-09-20 | 南京邮电大学 | 一种基于字典学习和低秩矩阵分解的说话人识别方法 |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107680600B (zh) * | 2017-09-11 | 2019-03-19 | 平安科技(深圳)有限公司 | 声纹模型训练方法、语音识别方法、装置、设备及介质 |
CN107452403B (zh) * | 2017-09-12 | 2020-07-07 | 清华大学 | 一种说话人标记方法 |
CN107610706A (zh) * | 2017-09-13 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 语音搜索结果的处理方法和处理装置 |
CN108346428B (zh) | 2017-09-13 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 语音活动检测及其模型建立方法、装置、设备及存储介质 |
CN109584884B (zh) | 2017-09-29 | 2022-09-13 | 腾讯科技(深圳)有限公司 | 一种语音身份特征提取器、分类器训练方法及相关设备 |
CN108091339B (zh) * | 2017-10-31 | 2019-11-08 | 北京声智科技有限公司 | 在线语音识别引擎及识别方法 |
CN107886943A (zh) * | 2017-11-21 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种声纹识别方法及装置 |
CN108154239A (zh) * | 2017-12-27 | 2018-06-12 | 郑州云海信息技术有限公司 | 一种机器学习方法及其装置 |
CN108172230A (zh) * | 2018-01-03 | 2018-06-15 | 平安科技(深圳)有限公司 | 基于声纹识别模型的声纹注册方法、终端装置及存储介质 |
CN110047478B (zh) * | 2018-01-16 | 2021-06-08 | 中国科学院声学研究所 | 基于空间特征补偿的多通道语音识别声学建模方法及装置 |
CN108615533B (zh) * | 2018-03-28 | 2021-08-03 | 天津大学 | 一种基于深度学习的高性能语音增强方法 |
CN108629024A (zh) * | 2018-05-09 | 2018-10-09 | 王泽普 | 一种基于声音识别的教学考勤方法 |
CN108777146A (zh) * | 2018-05-31 | 2018-11-09 | 平安科技(深圳)有限公司 | 语音模型训练方法、说话人识别方法、装置、设备及介质 |
CN109065022B (zh) * | 2018-06-06 | 2022-08-09 | 平安科技(深圳)有限公司 | i-vector向量提取方法、说话人识别方法、装置、设备及介质 |
CN108922544B (zh) * | 2018-06-11 | 2022-12-30 | 平安科技(深圳)有限公司 | 通用向量训练方法、语音聚类方法、装置、设备及介质 |
CN108806694A (zh) * | 2018-06-13 | 2018-11-13 | 高艳艳 | 一种基于声音识别的教学考勤方法 |
CN108876951A (zh) * | 2018-06-13 | 2018-11-23 | 贾成举 | 一种基于声音识别的教学考勤方法 |
CN109119069B (zh) * | 2018-07-23 | 2020-08-14 | 深圳大学 | 特定人群识别方法、电子装置及计算机可读存储介质 |
CN109785852A (zh) * | 2018-12-14 | 2019-05-21 | 厦门快商通信息技术有限公司 | 一种增强说话人语音的方法及系统 |
CN109584893B (zh) * | 2018-12-26 | 2021-09-14 | 南京邮电大学 | 非平行文本条件下基于VAE与i-vector的多对多语音转换系统 |
CN109637526A (zh) * | 2019-01-08 | 2019-04-16 | 西安电子科技大学 | 基于个人身份特征的dnn声学模型的自适应方法 |
CN110166424B (zh) * | 2019-04-03 | 2022-03-25 | 西安电子科技大学 | 面向物联网服务隐私保护声纹识别方法及系统、移动终端 |
CN110148417B (zh) * | 2019-05-24 | 2021-03-23 | 哈尔滨工业大学 | 基于总变化空间与分类器联合优化的说话人身份识别方法 |
CN112216272A (zh) * | 2019-06-25 | 2021-01-12 | 南京航空航天大学 | 一种针对民航陆空通话领域的语种识别方法 |
CN110867192A (zh) * | 2019-10-23 | 2020-03-06 | 北京计算机技术及应用研究所 | 基于门控循环编解码网络的语音增强方法 |
CN111462759B (zh) * | 2020-04-01 | 2024-02-13 | 科大讯飞股份有限公司 | 一种说话人标注方法、装置、设备及存储介质 |
CN112967726A (zh) * | 2021-02-01 | 2021-06-15 | 上海海事大学 | 基于t分布概率线性判别的深度神经网络模型短语音说话人确认方法 |
CN112786058B (zh) * | 2021-03-08 | 2024-03-29 | 北京百度网讯科技有限公司 | 声纹模型训练方法、装置、设备以及存储介质 |
CN113436606B (zh) * | 2021-05-31 | 2022-03-22 | 引智科技(深圳)有限公司 | 一种原声语音翻译方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105575394A (zh) * | 2016-01-04 | 2016-05-11 | 北京时代瑞朗科技有限公司 | 基于全局变化空间及深度学习混合建模的声纹识别方法 |
CN105590625A (zh) * | 2016-03-18 | 2016-05-18 | 上海语知义信息技术有限公司 | 声学模型自适应方法及系统 |
CN106448684A (zh) * | 2016-11-16 | 2017-02-22 | 北京大学深圳研究生院 | 基于深度置信网络特征矢量的信道鲁棒声纹识别系统 |
-
2017
- 2017-04-07 CN CN201710224925.8A patent/CN107146601B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105575394A (zh) * | 2016-01-04 | 2016-05-11 | 北京时代瑞朗科技有限公司 | 基于全局变化空间及深度学习混合建模的声纹识别方法 |
CN105590625A (zh) * | 2016-03-18 | 2016-05-18 | 上海语知义信息技术有限公司 | 声学模型自适应方法及系统 |
CN106448684A (zh) * | 2016-11-16 | 2017-02-22 | 北京大学深圳研究生院 | 基于深度置信网络特征矢量的信道鲁棒声纹识别系统 |
Non-Patent Citations (2)
Title |
---|
Deep feature fot text-dependent speaker verification;Yuan Liu, Yanmin Qian, etc;<Speech Communicaiton>;20150721;全文 * |
Front-End Factor Analysis for Speaker Verificaiton;Najim Dehak, Patrick J.Kenny, etc;<IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGRAGE PROCESSING>;20110530;第19卷(第4期);全文 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110265039A (zh) * | 2019-06-03 | 2019-09-20 | 南京邮电大学 | 一种基于字典学习和低秩矩阵分解的说话人识别方法 |
CN110265039B (zh) * | 2019-06-03 | 2021-07-02 | 南京邮电大学 | 一种基于字典学习和低秩矩阵分解的说话人识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107146601A (zh) | 2017-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107146601B (zh) | 一种用于说话人识别系统的后端i-vector增强方法 | |
CN110400579B (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
Chang et al. | Robust CNN-based speech recognition with Gabor filter kernels. | |
Ghahremani et al. | Acoustic Modelling from the Signal Domain Using CNNs. | |
Sarangi et al. | Optimization of data-driven filterbank for automatic speaker verification | |
Deshwal et al. | A language identification system using hybrid features and back-propagation neural network | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN109767756B (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
CN112331216A (zh) | 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法 | |
CN108447490A (zh) | 基于记忆性瓶颈特征的声纹识别的方法及装置 | |
CN108172238A (zh) | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
CN103345923A (zh) | 一种基于稀疏表示的短语音说话人识别方法 | |
Tüske et al. | Deep hierarchical bottleneck MRASTA features for LVCSR | |
Todkar et al. | Speaker recognition techniques: A review | |
Mallidi et al. | Autoencoder based multi-stream combination for noise robust speech recognition. | |
CN111599344A (zh) | 一种基于拼接特征的语种识别方法 | |
Tu et al. | DNN training based on classic gain function for single-channel speech enhancement and recognition | |
CN113571095B (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
Fan et al. | Deep attention fusion feature for speech separation with end-to-end post-filter method | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
CN114970695B (zh) | 一种基于非参贝叶斯模型的说话人分割聚类方法 | |
Ganapathy et al. | Investigating factor analysis features for deep neural networks in noisy speech recognition. | |
CN108573698B (zh) | 一种基于性别融合信息的语音降噪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |