CN107993664A - 一种基于竞争神经网络的鲁棒说话人识别方法 - Google Patents

一种基于竞争神经网络的鲁棒说话人识别方法 Download PDF

Info

Publication number
CN107993664A
CN107993664A CN201810075745.2A CN201810075745A CN107993664A CN 107993664 A CN107993664 A CN 107993664A CN 201810075745 A CN201810075745 A CN 201810075745A CN 107993664 A CN107993664 A CN 107993664A
Authority
CN
China
Prior art keywords
network
training
coding
distinguishing
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810075745.2A
Other languages
English (en)
Other versions
CN107993664B (zh
Inventor
于泓
马占宇
司中威
郭军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201810075745.2A priority Critical patent/CN107993664B/zh
Publication of CN107993664A publication Critical patent/CN107993664A/zh
Application granted granted Critical
Publication of CN107993664B publication Critical patent/CN107993664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种基于竞争神经网络的鲁棒说话人识别方法。该方法利用竞争神经网络提取具有噪声不变性的声学特征,并利用该特征进行基于GMM‑UBM模型的说话人识别系统的训练,包括如下步骤:构建包含两个级连的编码网络与区分网络的竞争神经网络,并利用其中的编码网络提取噪声不变特征,然后利用提取的特征实现基于GMM‑UBM模型的说话人。在竞争网络训练时编码网络与区分网络分别训练,训练编码网络时所有输入采用相同的干净语音标签,训练区分网络时利用训练语音的噪声类型作为训练标签,利用本发明实施例,能够提高文本无关的说话人鉴别率,具有很大的实用价值。

Description

一种基于竞争神经网络的鲁棒说话人识别方法
本发明属于声纹识别领域着重描述了一种基于竞争神经网络的鲁棒说话人识别方法。
背景技术
说话人识别是计算机利用语音片段中所包含的能够反映说话人特征的信息来鉴定说话人身份的技术,该技术在信息安全,远程身份认证等领域具有非常重要的研究及应用价值。
在实际的应用中环境噪声的存在会极大的降低说话人识别的准确率,常用的语音增强的方法虽然能够去除语音中的噪声,但是在去噪的同时也会破坏语音中与说话人相关的信息,并不适应说话人识别的任务。因此从含有噪声的语音中直接提取一种在不同噪声环境下具有不变性的声学特征,是一种更适合说话人识别任务的方案。本发明所描述的是一种利用竞争神经网络提取具有噪声不变性声学特征并利用该特征构建说话人识别系统的方法。竞争神经网络包含编码网络与区分网络两个子网络,利用编码网络提取噪声不变性特征,利用区分网络保持提取特征的可区分性,通过对两个子网络的交替竞争训练后即可利用编码子网络提取噪声不变特征。利用该特征进行说话人识别系统的设计可以极大的提高系统在噪声环境下识别的准确率。
发明内容
为了解决环境噪声影响说话人识别准确率的问题,本发明提供了一种基于竞争神经网络的鲁棒说话人识别方法。
该方法利用竞争神经网络提取具有噪声不变性的声学特征,并利用该特征进行基于GMM-UBM模型的说话人识别系统的训练,下面将结合附图对本发明的具体实施步骤介绍如下:
一.声学特征提取竞争神经网络构建步骤:
图1为用来进行噪声不变声学特征提取的神经网络结构图。声学特征提取的竞争网络结构为:包含两个级联的子网络,下层的编码网络(EN)与上层的区分性网络(DN),编码网络的输出作为最终需要提取的瓶颈特征。如图1所示,下层编码网络包含级联的一个输入层与三个全连接隐藏层E1、E2,E3,三个隐藏层E1、E2、E3所对应的节点数分别为1024、1024、128,E1、E2的激活函数为softplus函数,即f(x)=log(ex+1),E3的激活函数为双曲正切函数,上层区分性网络包含两个级联的全连接隐藏层D1、D2与一个softmax输出层D3,D1、D2节点数分别为1024、1024,激活函数为sigmoid函数,E3的输出将作为D1的输入,D3包括N+1个节点,分别表示N种噪声类型与干净语音。
二.竞争神经网络训练步骤:
11帧连续的梅尔倒谱系数特征被用来作为神经网络的输入训练特征。用来进行网络训练时编码网络与区分性网络采用不同的目标标签进行交替训练,当训练区分性网络时输入特征中包含的噪声类型,,作为训练标签,即为[1,0,…0]、[0,1,0,…]、[0,0,1,0,…]等,不同位置的“1”表示不同的噪声类型。
当训练编码网络时所有的输入采用相同的干净语音标签,即,此时所有输入特征所对应的目标标签都为[1,0,0,…0]。编码网络的参数θE与区分网络的参数θD利用随机梯度下降法进行更新,更新θE时θD保持不变,更新θD时θE保持不变,更新参数θE与θD时所用的损失函数分别为:
其中m为训练用min-batch的大小,DN与EN分别表示编码网络与区分网络的传输函数,xi为输入11帧连续的梅尔倒谱系数特征特征。如图1所示,分别表示更新θE与θD时所用的不同训练标签,在训练过程中θE每轮都更新,每更新五次θE,更新一次θD
三、噪声不变特征提取步骤:
按照步骤二进行竞争网络训练后,提取下层的编码网络作为特征提取器,输入11帧连续的梅尔倒谱系数特征后,即可通过编码网络的输出层E3的线性输出获取128维的噪声不变特征。
四、说话人识别方法训练步骤:
采集大量的与说话人无关的背景语音,提取梅尔倒谱系数特征后,按照步骤三提取噪声不变特征,并利用这些特征训练一个包含512个成分的高斯混合模型(GMM)作为通用背景模型(UBM)。利用注册说话人的语音,提取噪声不变特征后,利用最大后验适应方法在UBM的基础上训练说话人GMM。
五、说话人识别方法测试步骤:
对测试语音按照步骤三,提取噪声不变特征后,利用测试人所宣称的说话人GMM以及UBM计算似然值的差值作为检测分数,检测分数计算公式为:
其中X=[X1,X2,…,XT]为从测试语音中提取的T帧噪声不变特征,λGMM与λUBM分别为GMM与UBM的参数。利用该分数与事先设定的阈值进行比较,大于阈值则判定测试说话人与其所宣称的说话人是否一致,否则则判定测试说话人与其所宣称的身份不符。
本发明的有益效果在于,相对于现有技术而言,本发明应用竞争神经网络提取具有噪声不变性的声学特征,并利用该特征进行经典的基于GMM-UBM说话人识别方法的训练和测试。实验结果验证了本发明的有效性与鲁棒性,可以极大的提高噪声环境下说话人识别的准确性,具有很强的实用性。
下面将结合附图对本发明具体实施方式进行详细说明。
图2是本发明的流程图,其中实线表示训练部分流程走向,虚线表示鉴别部分流程走向,包括以下步骤:
第一步:训练噪声不变特征提取器。利用含有噪声的训练数据提取梅尔倒谱系数特征后进行竞争神经网络的训练。训练完成后提取竞争网络下层的编码网络作为特征提取器用来进行噪声不变特征提取。
第二步:训练通用背景模型(UBM)。利用大量与待识别说话人无关的背景语音提取倒谱系数特征后利用第一步获取的特征提取器提取噪声不变特征,并利用该特征训练一个高斯混合模型(GMM)作为UBM。
第三步:训练说话人GMM。利用待识别说话人的注册语音提取噪声不变特征后,利用步骤2中训练获取的UBM采用最大后验自适应方法训练属于注册说话人的GMM。
第四步:说话人识别过程。利用待识别说话人的语音,提取噪声不变特征后送入第二步获取的UBM,以及第三步获取的测试语音所宣称说话人的GMM中计算似然值的差值,并利用该数值作为说话人识别的分数,若该分数大于预先设定的阈值则测试说话人与其所宣称的身份相符,否则被判定为虚假说话人。
以上结合附图对所提出的基于竞争神经网络的鲁棒说话人识别方法的具体实施方式进行了阐述。通过以上实施方式的描述,所属领域的一般技术人员可以清楚的了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现,该软件产品存储在一个存储介质中,包括若干指令用以使得一台或多台计算机设备执行本发明各个实施例所述的方法。
依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
以上所述的本发明实施方式,并不构成对发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于竞争神经网络的鲁棒说话人识别方法,其特征在于:
一.声学特征提取的竞争网络结构为:包含两个级联的子网络,下层的编码网络与上层的区分性网络,编码网络的输出作为最终需要提取的瓶颈特征;
二.竞争网络训练方法为:进行网络训练时编码网络与区分性网络采用不同的目标标签进行交替训练,当训练区分性网络时输入特征中包含的噪声类型作为训练标签,当训练编码网络时所有的输入采用相同的干净语音标签。
2.根据权利要求1所述的下层编码网络的特征在于,包含级联的一个输入层与三个全连接隐藏层E1、E2,E3,输出层的输入为11帧连续的梅尔倒谱系数特征,三个隐藏层E1、E2、E3所对应的节点数分别为1024、1024、128,E1、E2的激活函数为softplus函数,即f(x)=log(ex+1),E3的激活函数为双曲正切函数。
3.根据权利要求1所述的上层区分性网络的特征在于,包含两个级联的全连接隐藏层D1、D2与一个softmax输出层D3,D1、D2节点数分别为1024、1024,激活函数为sigmoid函数,E3的输出将作为D1的输入,D3包括N+1个节点,分别表示N种噪声类型与干净语音。
4.根据权利要求1所述的竞争网络训练方法其特征在于,利用随机梯度下降法对编码网络的参数θE与区分网络的参数θD进行更新,更新θE时θD保持不变,更新θD时θE保持不变,更新参数θE与θD时所用的损失函数分别为:
其中m为训练用min-batch的大小,DN与EN分别表示编码网络与区分网络的传输函数,xi为输入的11帧连续的梅尔倒谱系数特征,分别表示更新θE与θD时所用的不同训练标签,在训练过程中θE每轮都更新,每更新五次θE,更新一次θD
CN201810075745.2A 2018-01-26 2018-01-26 一种基于竞争神经网络的鲁棒说话人识别方法 Active CN107993664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810075745.2A CN107993664B (zh) 2018-01-26 2018-01-26 一种基于竞争神经网络的鲁棒说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810075745.2A CN107993664B (zh) 2018-01-26 2018-01-26 一种基于竞争神经网络的鲁棒说话人识别方法

Publications (2)

Publication Number Publication Date
CN107993664A true CN107993664A (zh) 2018-05-04
CN107993664B CN107993664B (zh) 2021-05-28

Family

ID=62040371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810075745.2A Active CN107993664B (zh) 2018-01-26 2018-01-26 一种基于竞争神经网络的鲁棒说话人识别方法

Country Status (1)

Country Link
CN (1) CN107993664B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108831486A (zh) * 2018-05-25 2018-11-16 南京邮电大学 基于dnn与gmm模型的说话人识别方法
CN109192199A (zh) * 2018-06-30 2019-01-11 中国人民解放军战略支援部队信息工程大学 一种结合瓶颈特征声学模型的数据处理方法
CN109346087A (zh) * 2018-09-17 2019-02-15 平安科技(深圳)有限公司 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置
CN111462759A (zh) * 2020-04-01 2020-07-28 科大讯飞股份有限公司 一种说话人标注方法、装置、设备及存储介质
CN112786050A (zh) * 2019-11-07 2021-05-11 王皓 一种语音识别的方法、装置及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824557A (zh) * 2014-02-19 2014-05-28 清华大学 一种具有自定义功能的音频检测分类方法
JP2015049398A (ja) * 2013-09-02 2015-03-16 本田技研工業株式会社 音響認識装置、音響認識方法、及び音響認識プログラム
CN106297819A (zh) * 2015-05-25 2017-01-04 国家计算机网络与信息安全管理中心 一种应用于说话人识别的噪声消除方法
CN106384588A (zh) * 2016-09-08 2017-02-08 河海大学 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法
US9721559B2 (en) * 2015-04-17 2017-08-01 International Business Machines Corporation Data augmentation method based on stochastic feature mapping for automatic speech recognition
CN107274906A (zh) * 2017-06-28 2017-10-20 百度在线网络技术(北京)有限公司 语音信息处理方法、装置、终端及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015049398A (ja) * 2013-09-02 2015-03-16 本田技研工業株式会社 音響認識装置、音響認識方法、及び音響認識プログラム
CN103824557A (zh) * 2014-02-19 2014-05-28 清华大学 一种具有自定义功能的音频检测分类方法
US9721559B2 (en) * 2015-04-17 2017-08-01 International Business Machines Corporation Data augmentation method based on stochastic feature mapping for automatic speech recognition
CN106297819A (zh) * 2015-05-25 2017-01-04 国家计算机网络与信息安全管理中心 一种应用于说话人识别的噪声消除方法
CN106384588A (zh) * 2016-09-08 2017-02-08 河海大学 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法
CN107274906A (zh) * 2017-06-28 2017-10-20 百度在线网络技术(北京)有限公司 语音信息处理方法、装置、终端及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ZHAOFENG ZHANG: "Deep neural network-based bottleneck feature and denoising autoencoder-based dereverberation for distant-talking speaker identification", 《EURASIP JOURNAL ON AUDIO, SPEECH, AND MUSIC PROCESSING》 *
ZUOQIANG LI: "Acoustic feature extraction method for robust speaker identification", 《 MULTIMEDIA TOOLS AND APPLICATIONS》 *
盖晁旭: "基于稀疏编码的鲁棒说话人识别", 《中国优秀硕士学位论文全文数据库》 *
程小伟: "噪声环境下稳健的说话人识别特征研究", 《声学技术》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108831486A (zh) * 2018-05-25 2018-11-16 南京邮电大学 基于dnn与gmm模型的说话人识别方法
CN109192199A (zh) * 2018-06-30 2019-01-11 中国人民解放军战略支援部队信息工程大学 一种结合瓶颈特征声学模型的数据处理方法
CN109346087A (zh) * 2018-09-17 2019-02-15 平安科技(深圳)有限公司 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置
CN109346087B (zh) * 2018-09-17 2023-11-10 平安科技(深圳)有限公司 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置
CN112786050A (zh) * 2019-11-07 2021-05-11 王皓 一种语音识别的方法、装置及设备
CN112786050B (zh) * 2019-11-07 2024-02-02 王皓 一种语音识别的方法、装置及设备
CN111462759A (zh) * 2020-04-01 2020-07-28 科大讯飞股份有限公司 一种说话人标注方法、装置、设备及存储介质
CN111462759B (zh) * 2020-04-01 2024-02-13 科大讯飞股份有限公司 一种说话人标注方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN107993664B (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN107993664A (zh) 一种基于竞争神经网络的鲁棒说话人识别方法
CN104732978B (zh) 基于联合深度学习的文本相关的说话人识别方法
CN106098059B (zh) 可定制语音唤醒方法及系统
Tong et al. A comparative study of robustness of deep learning approaches for VAD
CN105938716B (zh) 一种基于多精度拟合的样本复制语音自动检测方法
CN104143326B (zh) 一种语音命令识别方法和装置
CN109256135A (zh) 一种端到端说话人确认方法、装置及存储介质
CN102623009B (zh) 一种基于短时分析的异常情绪自动检测和提取方法和系统
CN106710599A (zh) 一种基于深度神经网络的特定声源检测方法与系统
CN107808659A (zh) 智能语音信号模式识别系统装置
CN107731233A (zh) 一种基于rnn的声纹识别方法
CN109346087B (zh) 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置
CN110610709A (zh) 基于声纹识别的身份辨别方法
CN108648759A (zh) 一种文本无关的声纹识别方法
CN107729468A (zh) 基于深度学习的答案抽取方法及系统
CN106611604A (zh) 一种基于深度神经网络的自动语音叠音检测方法
CN106599110A (zh) 基于人工智能的语音搜索方法及装置
CN106409298A (zh) 一种声音重录攻击的识别方法
CN105895080A (zh) 语音识别模型训练方法、说话人类型识别方法及装置
CN103578481A (zh) 一种跨语言的语音情感识别方法
CN109410956A (zh) 一种音频数据的对象识别方法、装置、设备及存储介质
CN111508480A (zh) 音频识别模型的训练方法、音频识别方法、装置及设备
Kumar et al. Significance of GMM-UBM based modelling for Indian language identification
CN105373810A (zh) 一种用于建立动作识别模型的方法及系统
CN107491729A (zh) 基于余弦相似度激活的卷积神经网络的手写数字识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant