CN110970044B - 一种面向语音识别的语音增强方法 - Google Patents

一种面向语音识别的语音增强方法 Download PDF

Info

Publication number
CN110970044B
CN110970044B CN201911180882.3A CN201911180882A CN110970044B CN 110970044 B CN110970044 B CN 110970044B CN 201911180882 A CN201911180882 A CN 201911180882A CN 110970044 B CN110970044 B CN 110970044B
Authority
CN
China
Prior art keywords
voice
speech
neural network
detected
estimated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911180882.3A
Other languages
English (en)
Other versions
CN110970044A (zh
Inventor
杨玉红
冯佳倩
蔡林君
涂卫平
艾浩军
高戈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201911180882.3A priority Critical patent/CN110970044B/zh
Publication of CN110970044A publication Critical patent/CN110970044A/zh
Application granted granted Critical
Publication of CN110970044B publication Critical patent/CN110970044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种面向语音识别的语音增强方法,包括:步骤1,利用近端麦克风和远端麦克风录制得到的语音,对干净语音进行估计;步骤2,将步骤1中得到的估计语音作为参考语音信号,计算参考语音和待测降噪语音的包络相关系数,构造和语音识别相关的模型优化目标函数;步骤3,构建语音增强的深度神经网络模型,训练目标为估计语音,模型优化目标函数由步骤2得到;根据优化结果实现语音增强。本发明方法利用估计语音提高语音识别性能,并保证了人耳听觉感知质量,更适用于面向语音识别的语音增强。

Description

一种面向语音识别的语音增强方法
技术领域
本发明属于声学技术领域,涉及一种语音增强方法,尤其涉及一种面向语音识别的语音增强方法。
背景技术
随着深度学习在图像领域的迅速发展,人们也开始在语音信号处理中广泛地应用深度神经网络,特别是基于神经网络的单通道语音增强。基于神经网络的语音增强方法充分利用了现有的语音数据,学习到了语音和噪声的统计特性,其对于复杂噪声环境下的鲁棒性更好,因而相比传统方法能得到更优的增强性能。
基于深度学习的语音增强将有噪声的语音映射为干净的语音。在训练阶段,常采用目标函数对模型参数进行优化。但是,改进后的语音模型优化准则与评价准则存在不一致之处。例如,在测量语言可懂度时,大多数评价度量是基于短时间客观可懂度(STOI)进行测量,而模型的优化大多是估计语音和干净语音的均方误差(MSE)。MSE通常在线性频率范围内定义,而人的听觉感知则遵循Mel-频率尺度。于是,2018年Szu-Wei Fu通过将STOI集成到模型优化中,提高了增强语音的可懂度。但在语音识别的实验中,其性能并没有提高。
在2017年,E Vincent等人在实验中指出,影响语音识别性能的可能原因是语音增强的目标。于是,E Vincent等人改进了语音增强的目标信号,不改变语音增强模型,结果发现确实提高了语音识别性能。但此时使用的模型优化目标函数仍然是MSE,没有与人耳听觉感知标准匹配。
为了在保证人耳听觉感知质量的情况下,又能同时提高语音识别性能,本发明提出了一种面向语音识别的语音增强。
发明内容
本发明在保证与人耳听觉感知标准高度匹配的情况下,又能提高语音识别性能,提出了一种面向语音识别的语音增强。
本发明所采用的技术方案是一种面向语音识别的语音增强方法,包括以下步骤:
步骤1,利用近端麦克风和远端麦克风录制得到的语音,对干净语音进行估计;
步骤2,将步骤1中得到的估计语音作为参考语音信号,计算参考语音和待测降噪语音的包络相关系数,构造和语音识别相关的模型优化目标函数;
步骤3,构建语音增强的深度神经网络模型,训练目标为估计语音,模型优化目标函数由步骤2得到;根据优化结果实现语音增强。
而且,步骤1的实现包括以下子步骤,
步骤1.1,对近端和远端麦克风录制的带噪语音分别做分帧、加窗和短时傅里叶变换,得到C(n,f)和Xi(n,f),其中n为帧索引,f为频点索引,i为远端阵列麦克风的索引;
步骤1.2,估计干净语音为Si(n,f),计算每个时频单元的残差Ri(n,f),公式如下,
Figure BDA0002291235490000021
Ri(n,f)=Xi(n,f)-Si(n,f)
其中,设定帧搜索范围l,Lmin为向前搜索参数,Lmax为向后搜索参数,Gi(l,f)表示从近端麦克风信号到远端麦克风的传输函数,由最小化总残差推出,公式如下,
Figure BDA0002291235490000022
其中,*表示对矩阵做复共轭运算,H表示对矩阵做复共轭和转置运算;
步骤1.3,将估计的干净语音Sid(n,f)做逆傅里叶变换,从频域转化到时域上,作为参考语音信号。
而且,向前搜索参数Lmin=-3,向后搜索参数Lmax=8。
而且,步骤2的实现包括以下子步骤,
步骤2.1,对参考语音和待测降噪语音分别做分帧、加窗和短时傅里叶变换,将信号从时域转换到频域;
步骤2.2,找到参考语音中能量最大的帧,去掉参考语音和待测降噪语音中低于该帧40db以下的信号,然后分别对两个信号进行频带分析;
步骤2.3,根据步骤2.2所得结果计算参考语音和待测降噪语音的短时频谱包络,并用向量表示,得到xj,m和yj,m
步骤2.4,将待测降噪语音进行归一化剪裁;
步骤2.5,计算每个时频单元的相关系数,得到xj,m和yj,m的相关系数dj,m
步骤2.6,计算所有帧对应的所有频带对应的相关系数的平均值,
Figure BDA0002291235490000031
其中,J是子带数量,M是帧的数量,d为目标函数的最终表示,范围从0到1,越靠近1,说明语音质量越好。
而且,语音增强的深度神经网络模型采用全卷积神经网络FCN。
本发明方法利用估计语音提高语音识别性能,并保证了人耳听觉感知质量,更适用于面向语音识别的语音增强。
附图说明
图1是本发明实施例的深度神经网络模型。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供的方法能够用计算机软件技术实现流程,也可以采用装置形式提供相应系统。实施例以数据集CHiME3为例对本发明的流程进行一个具体的阐述。
本发明实施例提供的一种面向语音识别的语音增强方法,包括如下流程:
步骤1:利用近端麦克风和远端麦克风录制得到的语音,对干净语音进行估计;
针对步骤1,本实施例可以采用以下步骤实现:
步骤1.1:对近端和远端麦克风录制的带噪语音分别做分帧,加窗,短时傅里叶变换,得到C(n,f)和Xi(n,f),其中n为帧索引,f为频点索引,i为远端阵列麦克风的索引,即通道索引;
其中,
C(n,f)是近端麦克风录制的带噪语音信号做完短时傅里叶变换的频域表示;
Xi(n,f)是远端麦克风录制的带噪语音信号做完短时傅里叶变换的频域表示。
实施例中,远端的麦克风是阵列麦克风,采集的信号是多通道的,i为通道索引。
步骤1.2:估计干净语音为Si(n,f),计算每个时频单元的残差Ri(n,f),公式如下:
Figure BDA0002291235490000032
Ri(n,f)=Xi(n,f)-Si(n,f)
其中设定帧搜索范围l,实施例中向前搜索参数Lmin=-3,向后搜索参数Lmax=8,Gi(l,f)表示从近端麦克风信号到远端麦克风的传输函数,由最小化总残差可推出,公式如下:
Figure BDA0002291235490000041
其中,*表示对矩阵做复共轭运算,H表示对矩阵做复共轭和转置运算。
步骤1.3:将估计的干净语音Sid(n,f)做逆傅里叶变换,从频域转化到时域上,作为参考语音信号。
步骤2:将步骤1中得到的估计语音作为参考语音信号,计算参考语音和待测降噪语音的包络相关系数,构造和语音识别相关的模型优化目标函数。
针对步骤2,本实施例可以采用以下步骤实现:
步骤2.1:对参考语音和待测降噪语音分帧,加窗,做短时傅里叶变换,将信号从时域转换到频域。
步骤2.2:找到参考语音中能量最大的帧,去掉参考语音和待测降噪语音中低于该帧40db以下的信号,然后分别对两个信号进行频带分析。其中,数值40db是按照本领域计算静音帧的习惯设置。
设j为子带索引,m为帧索引,以
Figure BDA0002291235490000042
表示参考语音的第m帧的第k个频带,对信号做频带分析,按频率划分子带以后,将第j个子带的范数称为一个时频单元,得到时频单元Xj(m)。将待测降噪语音也做同样的处理,得到对应的时频单元Yj(m)。
步骤2.3:计算参考语音和待测降噪语音的短时频谱包络,并用向量表示;
参考语音的短时频谱包络用向量表示如下:
xj,m=[Xj(m-N+1),Xj(m-N+2),...,Xj(m)]T
同理可得,待测降噪语音的短时频谱包络yj,m也可以用类似的方式表示。在本实施例中,N取裁剪之后的全部帧。
步骤2.4:将待测降噪语音进行归一化剪裁,即直接对短时频谱包络yj,m进行如下计算:
Figure BDA0002291235490000051
其中,n表示取短时的块数,n∈{1,2,...,N},相应的短时频谱包络记为xj,m(n)和yj,m(n),
Figure BDA0002291235490000052
是对短时频谱包络yj,m(n)做归一化裁剪得到的信号表示,||·||表示二范数,β为信号失真(SDR)的下界,表示如下:
Figure BDA0002291235490000053
步骤2.5:计算每个时频单元的相关系数,即xj,m和yj,m的相关系数dj,m,计算如下:
Figure BDA0002291235490000054
其中,
Figure BDA0002291235490000055
表示做完归一化裁剪的短时频谱包络向量,μ(·)为对应向量的样本均值,即
Figure BDA0002291235490000056
为对应向量
Figure BDA0002291235490000057
的样本均值,
Figure BDA0002291235490000058
为对应向量xj,m的样本均值。
步骤2.6:计算所有帧对应的所有频带对应的相关系数的平均值:
Figure BDA0002291235490000059
其中,J是子带数量,M是帧的数量。d为目标函数的最终表示,范围从0到1,越靠近1,说明语音质量越好。但是在训练过程中应当最小化目标函数,所以求其相反数作为模型优化目标函数。
步骤3:构建语音增强的深度神经网络模型,训练目标为估计语音,模型优化目标函数由步骤2得到,根据优化结果实现语音增强;
本发明通过语音增强模型将带噪语音映射成干净语音,以达到去噪效果。训练阶段需要一个目标函数优化模型参数。模型参数包括神经网络里面的一些权重参数,具体实施时可以随机初始化,然后根据梯度下降和反向传播修改优化。本实施例的网络模型优选采用的是全卷积神经网络(FCN),结构如图1所示,FCN模型有8个卷积层。除最后一层仅使用1个卷积核外,前述各层由30个卷积核组成,卷积核尺寸为55。
参见图1,其中有8个卷积层。前7个的卷积层(k=7)每层有30个卷积核(F=30),最后一层只用1个卷积核外,卷积核尺寸为55。
Noisy utterance表示输入为带噪语音;
Convolutional layer表示卷积层;
F filters表示F个卷积核或滤波器;
Batch normalization表示批归一化处理;
LeakyReLU和tanh都是神经网络中常用的激活函数;
Enhanced utterance表示输出为语音增强后的语音。
网络模型还可以采用深度神经网络DNN、卷积神经网络CNN、多层感知机MLP、循环神经网络RNN、LSTM、残差网络ResNet、支持向量机SVM中一种或者多种组合模型。
以上步骤是在CHiME3数据上实施的具体步骤,类似的可以在其他语音数据集上进行相关实验。
本发明在保证人耳感知质量的前提下,利用近端和远端麦克风估计的语音作为参考语音,提高后端语音识别的性能。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (5)

1.一种面向语音识别的语音增强方法,其特征在于,包括以下步骤:
步骤1,利用近端麦克风和远端麦克风录制得到的语音,对干净语音进行估计;
步骤2,将步骤1中得到的估计语音作为参考语音信号,计算参考语音和待测降噪语音的包络相关系数,构造和语音识别相关的模型优化目标函数;
步骤3,构建语音增强的深度神经网络模型,训练目标为估计语音,模型优化目标函数由步骤2得到;根据优化结果实现语音增强;
步骤1的实现包括以下子步骤,
步骤1.1,对近端和远端麦克风录制的带噪语音分别做分帧、加窗和短时傅里叶变换,得到C(n,f)和Xi(n,f),其中n为帧索引,f为频点索引,i为远端阵列麦克风的索引;
步骤1.2,估计干净语音为Si(n,f),计算每个时频单元的残差Ri(n,f),公式如下,
Figure FDA0003601373860000011
Ri(n,f)=Xi(n,f)-Si(n,f)
其中,设定帧搜索范围l,Lmin为向前搜索参数,Lmax为向后搜索参数,Gi(l,f)表示从近端麦克风信号到远端麦克风的传输函数,由最小化总残差推出,公式如下,
Figure FDA0003601373860000012
其中,*表示对矩阵做复共轭运算,H表示对矩阵做复共轭和转置运算;
步骤1.3,将估计的干净语音Sid(n,f)做逆傅里叶变换,从频域转化到时域上,作为参考语音信号。
2.根据权利要求1所述的面向语音识别的语音增强方法,其特征在于:向前搜索参数Lmin=-3,向后搜索参数Lmax=8。
3.根据权利要求1或2所述的面向语音识别的语音增强方法,其特征在于:步骤2的实现包括以下子步骤,
步骤2.1,对参考语音和待测降噪语音分别做分帧、加窗和短时傅里叶变换,将信号从时域转换到频域;
步骤2.2,找到参考语音中能量最大的帧,去掉参考语音和待测降噪语音中低于该帧40db以下的信号,然后分别对两个信号进行频带分析;
步骤2.3,根据步骤2.2所得结果计算参考语音和待测降噪语音的短时频谱包络,并用向量表示,得到xj,m和yj,m
步骤2.4,将待测降噪语音进行归一化剪裁;
步骤2.5,计算每个时频单元的相关系数,得到xj,m和yj,m的相关系数dj,m
步骤2.6,计算所有帧对应的所有频带对应的相关系数的平均值,
Figure FDA0003601373860000021
其中,J是子带数量,M是帧的数量,d为目标函数的最终表示,范围从0到1,越靠近1,说明语音质量越好。
4.根据权利要求1或2所述的面向语音识别的语音增强方法,其特征在于:语音增强的深度神经网络模型采用全卷积神经网络FCN。
5.根据权利要求3所述的面向语音识别的语音增强方法,其特征在于:语音增强的深度神经网络模型采用全卷积神经网络FCN。
CN201911180882.3A 2019-11-27 2019-11-27 一种面向语音识别的语音增强方法 Active CN110970044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911180882.3A CN110970044B (zh) 2019-11-27 2019-11-27 一种面向语音识别的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911180882.3A CN110970044B (zh) 2019-11-27 2019-11-27 一种面向语音识别的语音增强方法

Publications (2)

Publication Number Publication Date
CN110970044A CN110970044A (zh) 2020-04-07
CN110970044B true CN110970044B (zh) 2022-06-07

Family

ID=70031801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911180882.3A Active CN110970044B (zh) 2019-11-27 2019-11-27 一种面向语音识别的语音增强方法

Country Status (1)

Country Link
CN (1) CN110970044B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583958B (zh) * 2020-05-19 2023-10-10 北京达佳互联信息技术有限公司 音频信号处理方法、装置、电子设备及存储介质
CN113270097B (zh) * 2021-05-18 2022-05-17 成都傅立叶电子科技有限公司 无人机械控制方法、电台语音指令转换方法及装置
CN117174105A (zh) * 2023-11-03 2023-12-05 深圳市龙芯威半导体科技有限公司 一种基于改进型深度卷积网络的语音降噪与去混响方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105513605A (zh) * 2015-12-01 2016-04-20 南京师范大学 手机麦克风的语音增强系统和语音增强方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117621B (zh) * 2010-01-05 2014-09-10 吴伟 以自相关系数为判据的信号去噪方法
CN102348151B (zh) * 2011-09-10 2015-07-29 歌尔声学股份有限公司 噪声消除系统和方法、智能控制方法和装置、通信设备
WO2016098164A1 (ja) * 2014-12-15 2016-06-23 三菱電機株式会社 エコーキャンセラ装置およびエコーキャンセル方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105513605A (zh) * 2015-12-01 2016-04-20 南京师范大学 手机麦克风的语音增强系统和语音增强方法

Also Published As

Publication number Publication date
CN110970044A (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
CN110867181B (zh) 基于scnn和tcnn联合估计的多目标语音增强方法
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
US8880396B1 (en) Spectrum reconstruction for automatic speech recognition
CN110970044B (zh) 一种面向语音识别的语音增强方法
US9269368B2 (en) Speaker-identification-assisted uplink speech processing systems and methods
CN110120227A (zh) 一种深度堆叠残差网络的语音分离方法
CN112151059A (zh) 面向麦克风阵列的通道注意力加权的语音增强方法
CN110660406A (zh) 近距离交谈场景下双麦克风移动电话的实时语音降噪方法
CN105679321B (zh) 语音识别方法、装置及终端
Garg et al. A comparative study of noise reduction techniques for automatic speech recognition systems
WO2022256577A1 (en) A method of speech enhancement and a mobile computing device implementing the method
CN111312275A (zh) 一种基于子带分解的在线声源分离增强系统
Xiong et al. Spectro-Temporal SubNet for Real-Time Monaural Speech Denoising and Dereverberation.
Hou et al. Multi-task learning for end-to-end noise-robust bandwidth extension
Alam et al. Robust feature extraction for speech recognition by enhancing auditory spectrum
WO2020064089A1 (en) Determining a room response of a desired source in a reverberant environment
JP3786038B2 (ja) 入力信号処理方法および入力信号処理装置
CN109215635B (zh) 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法
CN114566179A (zh) 一种时延可控的语音降噪方法
CN114189781A (zh) 双麦神经网络降噪耳机的降噪方法及系统
CN114827363A (zh) 用于通话过程中消除回声的方法、设备和可读存储介质
Ganapathy Robust speech processing using ARMA spectrogram models
Chiluveru et al. A real-world noise removal with wavelet speech feature
EP2063420A1 (en) Method and assembly to enhance the intelligibility of speech
Kothapally et al. Monaural Speech Dereverberation Using Deformable Convolutional Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant