CN106782520B - 一种复杂环境下语音特征映射方法 - Google Patents

一种复杂环境下语音特征映射方法 Download PDF

Info

Publication number
CN106782520B
CN106782520B CN201710151497.0A CN201710151497A CN106782520B CN 106782520 B CN106782520 B CN 106782520B CN 201710151497 A CN201710151497 A CN 201710151497A CN 106782520 B CN106782520 B CN 106782520B
Authority
CN
China
Prior art keywords
feature
under
complex environment
environment
voice signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710151497.0A
Other languages
English (en)
Other versions
CN106782520A (zh
Inventor
王志锋
郭天学
左明章
田元
姚璜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong Normal University
Original Assignee
Huazhong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong Normal University filed Critical Huazhong Normal University
Priority to CN201710151497.0A priority Critical patent/CN106782520B/zh
Publication of CN106782520A publication Critical patent/CN106782520A/zh
Application granted granted Critical
Publication of CN106782520B publication Critical patent/CN106782520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种复杂环境下语音特征映射方法,首先提取干净环境下的语音信号的特征;然后提取复杂环境下的语音信号的特征;接着利用特征映射方法对复杂环境下的语音信号进行特征映射,使得到的映射特征可近似视为干净环境下的语音信号特征;最后与已经训练完毕的干净环境下的语音信号模型进行模式匹配和识别。本发明利用特征映射函数对复杂环境下的语音信号进行映射,使得到的特征可以近似视为干净环境下的语音信号特征,通过映射函数的作用可使复杂环境下的语音特征的纯净度得到大幅度提升从而提升语音识别的准确度,提高语音识别系统的鲁棒性。

Description

一种复杂环境下语音特征映射方法
技术领域
本发明属于语音信号处理技术领域,特别涉及一种复杂环境下语音特征映射方法。
技术背景
随着计算机技术的深入发展,模式识别已经成为一种为人类带来巨大便利的实用技术,特别是在人机交互领域。模式识别能够为人机交互提供新的方式,为用户带来更加自然和更有沉浸感的交互体验。而语音识别是模式识别中非常重要的一个模块,在人类自然的交互中,语音交流是最为重要的一种方式,语音识别的运用使得人能够以自然的交互方式与机器进行交互,这种交互方式的便利性可大大缓解人类在人机交互中的压力,丰富了人与机器交互的方式,也使得人机交互更加的丰富和多样。近几十年语音识别已经发展的足够完美,识别率也足够高,然而这些结果都是在实验室内得出的结果,也就是说,在干净环境下,语音识别的结果是足够好的。但是在现实生活中,环境的复杂度是无法估量的,人们几乎不可能保证所身处的环境都是干净的环境,人们的周边充斥着噪音,这些噪音可能是周围自然环境所发出的噪声,也可能是其他人所发出的噪声,也可能是录音设备的噪声。也就是说,语音识别在自然的应用中是处于被噪声包围的复杂环境下的,而语音识别亟需解决的痛点就是在复杂环境下的识别率并不高,甚至是其结果是不被人们所接受的。
语音识别的结果受到周围环境的影响,在实验室环境(即干净环境下)其结果足够好,但是在现实环境(即复杂环境)中其结果是不被人们所接受的。这是亟需解决的问题。语音识别的过程包括模型训练和识别两个过程,而模型训练一般使用的都是干净环境下的语音信号,识别过程使用的是复杂环境下即真实的语音信号。要解决这个问题就需要从如何使复杂环境下的语音信号与干净环境下的语音信号进行匹配入手。在语音信号的处理过程中,有两个非常重要的环节,特征提取和建立模型,当今的解决方案大致便可以分为两种,一种是从特征入手,另一种是从模型入手。
特征映射就是从特征入手的一种解决方案。通过特征映射函数的作用,将复杂环境下的语音信号特征转换成可以近似视为干净环境下的语音信号特征。可大大提高现实应用中语音识别的准确率,提高语音识别系统的鲁棒性。
发明内容
本发明的目的在于提出一种通过特征映射来提高复杂环境下语音识别系统的鲁棒性的方法,该方法通过对复杂环境下的语音特征进行映射,使得复杂环境下的语音特征通过映射函数映射得到的语音特征具有近似干净环境下语音特征的纯净度,从而来提高语音识别系统在复杂环境下的识别率。
本发明所采用的技术方案是:一种复杂环境下语音特征映射方法,其特征在于,包括以下步骤:
步骤1:提取干净环境下的语音信号的特征;
步骤2:对复杂环境下的语音进行特征提取;
步骤3:利用特征映射方法对复杂环境下的语音特征进行映射;
步骤4:模式匹配与识别。
本发明具有以下优点和有益效果:
(1)本发明中提出的特征映射方法是一种线性的映射方法,计算简便且计算值为精确值,能够提高参数的精度;
(2)本发明提出的映射方法通过对复杂环境下的语音特征进行映射,能提高语音识别系统的识别准确率,具有较强的鲁棒性;
(3)本发明提出的映射方法还可以对干净环境下的语音进行映射,依然可以取得同样的效果;
(4)本发明为提高语音识别的准确性提出了一种广泛性的算法。
附图说明
图1本发明实施例的流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种复杂环境下语音特征映射方法,包括以下步骤:
步骤1:提取干净环境下的语音信号的特征;
具体实现包括以下子步骤:
步骤1.1:对干净环境下得到的语音信号进行预处理,包括预加重、分帧、加窗;
步骤1.2:将步骤1.1中预处理后的信号提取Mel倒谱系数特征;
步骤1.3:使用混合高斯模型对步骤1.2中得到的特征建立统计模型,得到干净环境下语音信号的模型Λ。
本实施例中对干净环境下语音的训练,高斯混合模型中的高斯数应当视实际情况而定,在训练过程中应当兼顾运行速度和准确度两个方面。
步骤2:对复杂环境下的语音进行特征提取;
具体实现包括以下子步骤:
步骤2.1:对复杂环境下得到的语音信号进行预处理,包括预加重、分帧、加窗;
本实施例中对复杂环境下的语音进行特征提取,步骤2.1中分帧的帧数n应当与步骤1.1中的帧数n保持一致,即干净环境下的语音帧数和复杂环境下的语音帧数保持一致;
步骤2.2:将步骤2.1中预处理后的信号提取Mel倒谱系数特征,记为Y=[y1,y2,...,yi,...,yn],yi表示复杂环境下第i帧的语音特征。
步骤3:利用特征映射方法对复杂环境下的语音特征进行映射;具体实现包括以下子步骤:
步骤3.1:将特征的每一帧yi都进行映射,映射形式为:
xi=A·yi+B,简记为:xi=F(yi)
其中yi为复杂环境下语音特征的第i帧语音特征,xi为通过特征映射函数后得到的第i帧特征,A为增益矩阵,B为偏移矩阵;
A为d行d列的对角矩阵,B为d行1列的矩阵(d为帧长,在分帧的步骤中设置);
步骤3.2:根据最大似然函数和已知模型Λ对F进行参数估计:
其中Λ为步骤1.3中训练的干净语音模型;
步骤3.3:根据当前Ft(当前帧的映射函数)的参数来构造辅助函数计算新的F(新的一帧的映射函数)的参数:
其中,θ表示语音信号状态序列,X表示语音信号特征,C表示所处高斯分量,m表示混合高斯模型的高斯数,n表示语音信号的帧数;
p(Cj|Λ)=ωj
ωj表示第j个高斯的权重,μj和Σj分别为第j个高斯分量的均值和方差,为方便记为:
步骤3.4:由步骤3.3可得到辅助函数为:
对各项展开可得:
其中μj,k,δj,k分别表示F的第k个参数的第j个高斯的均值和标准差,yi,k表示映射前的第i帧语音特征的第k个矢量,ak,bk分别为F中增益矩阵a和偏移矩阵b的第k个参数;
步骤3.5:对步骤3.4中的展开式分别求F关于ak,bk的偏导数:
将以上两式展开可得:
步骤3.6:为方便计算,分别将以下统计量替代步骤3.5中的统计量:
则步骤3.5中的方程式可写为:
可解上述方程组得:
步骤3.7:将解得的A,B代入步骤3.1中即可求得经过映射后的语音信号特征X(可近似视为干净环境下的语音特征)。
步骤4:模型匹配与识别;当得到复杂环境下通过特征映射之后的特征后,对得到的特征建立统计模型,采用HMM-GMM模型,然后进行模型匹配,进行语音识别/说话人识别;
将步骤3中求得的语音特征X进行建模并用最大后验概率算法与已知模型Λ进行匹配,从而得到语音识别/说话人识别结果。
本实施例中描述的复杂环境是指在现实应用中的环境下,由于现实环境中存在着各种各样的噪音,因此它是一种复杂的环境,这种环境下周围的噪声是不可估的。干净环境是指在理想的实验室中的环境,对周围环境要求较高,而无噪声环境指周围环境无明显的干扰,离干净环境的要求有一定的差距。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (3)

1.一种复杂环境下语音特征映射方法,其特征在于,包括以下步骤:
步骤1:提取干净环境下的语音信号的特征;
步骤1的具体实现包括以下子步骤:
步骤1.1:对干净环境下得到的语音信号进行预处理,包括预加重、分帧、加窗;
步骤1.2:将步骤1.1中预处理后的信号提取Mel倒谱系数特征;
步骤1.3:使用混合高斯模型对步骤1.2中得到的特征建立统计模型,得到干净环境下语音信号的模型Λ;
步骤2:对复杂环境下的语音进行特征提取;
步骤2的具体实现包括以下子步骤:
步骤2.1:对复杂环境下得到的语音信号进行预处理,包括预加重、分帧、加窗;
步骤2.2:将步骤2.1中预处理后的信号提取Mel倒谱系数特征,记为Y=[y1,y2,...,yi,...,yn],yi表示复杂环境下第i帧的语音特征;
步骤3:利用特征映射方法对复杂环境下的语音特征进行映射;
骤3的具体实现包括以下子步骤:
步骤3.1:将特征的每一帧yi都进行映射,映射形式为:
xi=A·yi+B,简记为:xi=F(yi);
其中yi为复杂环境下语音特征的第i帧语音特征,xi为通过特征映射函数后得到的第i帧特征,A为增益矩阵,B为偏移矩阵;
A为d行d列的对角矩阵,B为d行1列的矩阵;d为帧长,在分帧的步骤中设置;
步骤3.2:根据最大似然函数和已知模型Λ对F进行参数估计:
其中Λ为步骤1.3中训练的干净语音模型;
步骤3.3:根据当前Ft的参数来构造辅助函数计算新的F的参数:
其中,Ft为当前帧的映射函数,F为新的一帧的映射函数;θ表示语音信号状态序列,X表示语音信号特征,C表示所处高斯分量,m表示混合高斯模型的高斯数,n表示语音信号的帧数;
p(Cj|Λ)=ωj
其中,ωj表示第j个高斯的权重,μj和Σj分别为第j个高斯分量的均值和方差,为方便记为:
步骤3.4:由步骤3.3可得到辅助函数为:
对各项展开可得:
其中μj,k,δj,k分别表示F的第k个参数的第j个高斯的均值和标准差,yi,k表示映射前的第i帧语音特征的第k个矢量,ak,bk分别为F中增益矩阵a和偏移矩阵b的第k个参数;
步骤3.5:对步骤3.4中的展开式分别求F关于ak,bk的偏导数:
将以上两式展开可得:
步骤3.6:为方便计算,分别将以下统计量替代步骤3.5中的统计量:
则步骤3.5中的方程式可写为:
解上述方程组得:
步骤3.7:将解得的A,B代入步骤3.1中即可求得经过映射后的语音信号特征X,视为干净环境下的语音特征;
步骤4:模式匹配与识别。
2.根据权利要求1所述的复杂环境下语音特征映射方法,其特征在于:干净环境下的语音帧数和复杂环境下的语音帧数保持一致。
3.根据权利要求1或2所述的复杂环境下语音特征映射方法,其特征在于:步骤4中,当得到复杂环境下通过特征映射之后的特征后,对得到的特征建立统计模型,采用HMM-GMM模型,然后进行模型匹配,进行语音识别/说话人识别。
CN201710151497.0A 2017-03-14 2017-03-14 一种复杂环境下语音特征映射方法 Active CN106782520B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710151497.0A CN106782520B (zh) 2017-03-14 2017-03-14 一种复杂环境下语音特征映射方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710151497.0A CN106782520B (zh) 2017-03-14 2017-03-14 一种复杂环境下语音特征映射方法

Publications (2)

Publication Number Publication Date
CN106782520A CN106782520A (zh) 2017-05-31
CN106782520B true CN106782520B (zh) 2019-11-26

Family

ID=58962777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710151497.0A Active CN106782520B (zh) 2017-03-14 2017-03-14 一种复杂环境下语音特征映射方法

Country Status (1)

Country Link
CN (1) CN106782520B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766430B (zh) * 2018-06-06 2020-08-04 华中师范大学 一种基于巴氏距离的语音特征映射方法及系统
CN111816187A (zh) * 2020-07-03 2020-10-23 中国人民解放军空军预警学院 复杂环境下基于深层神经网络的语音特征映射方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413548A (zh) * 2013-08-16 2013-11-27 中国科学技术大学 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法
US9373324B2 (en) * 2013-12-06 2016-06-21 International Business Machines Corporation Applying speaker adaption techniques to correlated features

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100262423A1 (en) * 2009-04-13 2010-10-14 Microsoft Corporation Feature compensation approach to robust speech recognition
US8515758B2 (en) * 2010-04-14 2013-08-20 Microsoft Corporation Speech recognition including removal of irrelevant information
US9466292B1 (en) * 2013-05-03 2016-10-11 Google Inc. Online incremental adaptation of deep neural networks using auxiliary Gaussian mixture models in speech recognition
CN104392719B (zh) * 2014-11-26 2017-09-19 河海大学 一种用于语音识别系统的中心子带模型自适应方法
CN104900232A (zh) * 2015-04-20 2015-09-09 东南大学 一种基于双层gmm结构和vts特征补偿的孤立词识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413548A (zh) * 2013-08-16 2013-11-27 中国科学技术大学 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法
US9373324B2 (en) * 2013-12-06 2016-06-21 International Business Machines Corporation Applying speaker adaption techniques to correlated features

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Feature Adaptation Using Linear Spectro-Temporal Transform for Robust Speech Recognition";Duc Hoang Ha Nguyen等;《IEEE/ACM Transactions on Audio, Speech, and Language Processing》;20160630;第24卷(第6期);第1006-1009页 *
"INCREMENTAL ON-LINE FEATURE SPACE MLLR ADAPTATION FOR TELEPHONY SPEECH RECOGNITION";Yongxin Li等;《ISCA Archive》;20020920;全文 *

Also Published As

Publication number Publication date
CN106782520A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN110531860B (zh) 一种基于人工智能的动画形象驱动方法和装置
WO2022052481A1 (zh) 基于人工智能的vr互动方法、装置、计算机设备及介质
CN110838289A (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
CN110288077A (zh) 一种基于人工智能的合成说话表情的方法和相关装置
WO2016150001A1 (zh) 语音识别的方法、装置及计算机存储介质
CN110428808A (zh) 一种语音识别方法及装置
CN106710590A (zh) 基于虚拟现实环境的具有情感功能的语音交互系统及方法
CN110265040A (zh) 声纹模型的训练方法、装置、存储介质及电子设备
US20220392224A1 (en) Data processing method and apparatus, device, and readable storage medium
CN105895105A (zh) 语音处理方法及装置
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN110148399A (zh) 一种智能设备的控制方法、装置、设备及介质
CN107589828A (zh) 基于知识图谱的人机交互方法及系统
CN106782520B (zh) 一种复杂环境下语音特征映射方法
CN110970018A (zh) 语音识别方法和装置
CN113077537A (zh) 一种视频生成方法、存储介质及设备
CN109343695A (zh) 基于虚拟人行为标准的交互方法及系统
CN108717732A (zh) 一种基于MobileNets模型的表情追踪方法
CN110111769A (zh) 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗
CN108052250A (zh) 基于多模态交互的虚拟偶像演绎数据处理方法及系统
CN110501673A (zh) 一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法和系统
CN113873297B (zh) 一种数字人物视频的生成方法及相关装置
Chakraborty et al. Front-End Feature Compensation and Denoising for Noise Robust Speech Emotion Recognition.
CN110085236A (zh) 一种基于自适应语音帧加权的说话人识别方法
CN112420063A (zh) 一种语音增强方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20170531

Assignee: Hubei ZHENGBO Xusheng Technology Co.,Ltd.

Assignor: CENTRAL CHINA NORMAL University

Contract record no.: X2024980001275

Denomination of invention: A Speech Feature Mapping Method in Complex Environments

Granted publication date: 20191126

License type: Common License

Record date: 20240124

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20170531

Assignee: Hubei Rongzhi Youan Technology Co.,Ltd.

Assignor: CENTRAL CHINA NORMAL University

Contract record no.: X2024980001548

Denomination of invention: A Speech Feature Mapping Method in Complex Environments

Granted publication date: 20191126

License type: Common License

Record date: 20240126