CN110970044B - 一种面向语音识别的语音增强方法 - Google Patents
一种面向语音识别的语音增强方法 Download PDFInfo
- Publication number
- CN110970044B CN110970044B CN201911180882.3A CN201911180882A CN110970044B CN 110970044 B CN110970044 B CN 110970044B CN 201911180882 A CN201911180882 A CN 201911180882A CN 110970044 B CN110970044 B CN 110970044B
- Authority
- CN
- China
- Prior art keywords
- voice
- speech
- neural network
- detected
- estimated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000005457 optimization Methods 0.000 claims abstract description 17
- 230000009467 reduction Effects 0.000 claims abstract description 14
- 238000003062 neural network model Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 16
- 230000008447 perception Effects 0.000 abstract description 7
- 210000005069 ears Anatomy 0.000 abstract description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000011541 reaction mixture Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000010008 shearing Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种面向语音识别的语音增强方法,包括:步骤1,利用近端麦克风和远端麦克风录制得到的语音,对干净语音进行估计;步骤2,将步骤1中得到的估计语音作为参考语音信号,计算参考语音和待测降噪语音的包络相关系数,构造和语音识别相关的模型优化目标函数;步骤3,构建语音增强的深度神经网络模型,训练目标为估计语音,模型优化目标函数由步骤2得到;根据优化结果实现语音增强。本发明方法利用估计语音提高语音识别性能,并保证了人耳听觉感知质量,更适用于面向语音识别的语音增强。
Description
技术领域
本发明属于声学技术领域,涉及一种语音增强方法,尤其涉及一种面向语音识别的语音增强方法。
背景技术
随着深度学习在图像领域的迅速发展,人们也开始在语音信号处理中广泛地应用深度神经网络,特别是基于神经网络的单通道语音增强。基于神经网络的语音增强方法充分利用了现有的语音数据,学习到了语音和噪声的统计特性,其对于复杂噪声环境下的鲁棒性更好,因而相比传统方法能得到更优的增强性能。
基于深度学习的语音增强将有噪声的语音映射为干净的语音。在训练阶段,常采用目标函数对模型参数进行优化。但是,改进后的语音模型优化准则与评价准则存在不一致之处。例如,在测量语言可懂度时,大多数评价度量是基于短时间客观可懂度(STOI)进行测量,而模型的优化大多是估计语音和干净语音的均方误差(MSE)。MSE通常在线性频率范围内定义,而人的听觉感知则遵循Mel-频率尺度。于是,2018年Szu-Wei Fu通过将STOI集成到模型优化中,提高了增强语音的可懂度。但在语音识别的实验中,其性能并没有提高。
在2017年,E Vincent等人在实验中指出,影响语音识别性能的可能原因是语音增强的目标。于是,E Vincent等人改进了语音增强的目标信号,不改变语音增强模型,结果发现确实提高了语音识别性能。但此时使用的模型优化目标函数仍然是MSE,没有与人耳听觉感知标准匹配。
为了在保证人耳听觉感知质量的情况下,又能同时提高语音识别性能,本发明提出了一种面向语音识别的语音增强。
发明内容
本发明在保证与人耳听觉感知标准高度匹配的情况下,又能提高语音识别性能,提出了一种面向语音识别的语音增强。
本发明所采用的技术方案是一种面向语音识别的语音增强方法,包括以下步骤:
步骤1,利用近端麦克风和远端麦克风录制得到的语音,对干净语音进行估计;
步骤2,将步骤1中得到的估计语音作为参考语音信号,计算参考语音和待测降噪语音的包络相关系数,构造和语音识别相关的模型优化目标函数;
步骤3,构建语音增强的深度神经网络模型,训练目标为估计语音,模型优化目标函数由步骤2得到;根据优化结果实现语音增强。
而且,步骤1的实现包括以下子步骤,
步骤1.1,对近端和远端麦克风录制的带噪语音分别做分帧、加窗和短时傅里叶变换,得到C(n,f)和Xi(n,f),其中n为帧索引,f为频点索引,i为远端阵列麦克风的索引;
步骤1.2,估计干净语音为Si(n,f),计算每个时频单元的残差Ri(n,f),公式如下,
Ri(n,f)=Xi(n,f)-Si(n,f)
其中,设定帧搜索范围l,Lmin为向前搜索参数,Lmax为向后搜索参数,Gi(l,f)表示从近端麦克风信号到远端麦克风的传输函数,由最小化总残差推出,公式如下,
其中,*表示对矩阵做复共轭运算,H表示对矩阵做复共轭和转置运算;
步骤1.3,将估计的干净语音Sid(n,f)做逆傅里叶变换,从频域转化到时域上,作为参考语音信号。
而且,向前搜索参数Lmin=-3,向后搜索参数Lmax=8。
而且,步骤2的实现包括以下子步骤,
步骤2.1,对参考语音和待测降噪语音分别做分帧、加窗和短时傅里叶变换,将信号从时域转换到频域;
步骤2.2,找到参考语音中能量最大的帧,去掉参考语音和待测降噪语音中低于该帧40db以下的信号,然后分别对两个信号进行频带分析;
步骤2.3,根据步骤2.2所得结果计算参考语音和待测降噪语音的短时频谱包络,并用向量表示,得到xj,m和yj,m;
步骤2.4,将待测降噪语音进行归一化剪裁;
步骤2.5,计算每个时频单元的相关系数,得到xj,m和yj,m的相关系数dj,m;
步骤2.6,计算所有帧对应的所有频带对应的相关系数的平均值,
其中,J是子带数量,M是帧的数量,d为目标函数的最终表示,范围从0到1,越靠近1,说明语音质量越好。
而且,语音增强的深度神经网络模型采用全卷积神经网络FCN。
本发明方法利用估计语音提高语音识别性能,并保证了人耳听觉感知质量,更适用于面向语音识别的语音增强。
附图说明
图1是本发明实施例的深度神经网络模型。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供的方法能够用计算机软件技术实现流程,也可以采用装置形式提供相应系统。实施例以数据集CHiME3为例对本发明的流程进行一个具体的阐述。
本发明实施例提供的一种面向语音识别的语音增强方法,包括如下流程:
步骤1:利用近端麦克风和远端麦克风录制得到的语音,对干净语音进行估计;
针对步骤1,本实施例可以采用以下步骤实现:
步骤1.1:对近端和远端麦克风录制的带噪语音分别做分帧,加窗,短时傅里叶变换,得到C(n,f)和Xi(n,f),其中n为帧索引,f为频点索引,i为远端阵列麦克风的索引,即通道索引;
其中,
C(n,f)是近端麦克风录制的带噪语音信号做完短时傅里叶变换的频域表示;
Xi(n,f)是远端麦克风录制的带噪语音信号做完短时傅里叶变换的频域表示。
实施例中,远端的麦克风是阵列麦克风,采集的信号是多通道的,i为通道索引。
步骤1.2:估计干净语音为Si(n,f),计算每个时频单元的残差Ri(n,f),公式如下:
Ri(n,f)=Xi(n,f)-Si(n,f)
其中设定帧搜索范围l,实施例中向前搜索参数Lmin=-3,向后搜索参数Lmax=8,Gi(l,f)表示从近端麦克风信号到远端麦克风的传输函数,由最小化总残差可推出,公式如下:
其中,*表示对矩阵做复共轭运算,H表示对矩阵做复共轭和转置运算。
步骤1.3:将估计的干净语音Sid(n,f)做逆傅里叶变换,从频域转化到时域上,作为参考语音信号。
步骤2:将步骤1中得到的估计语音作为参考语音信号,计算参考语音和待测降噪语音的包络相关系数,构造和语音识别相关的模型优化目标函数。
针对步骤2,本实施例可以采用以下步骤实现:
步骤2.1:对参考语音和待测降噪语音分帧,加窗,做短时傅里叶变换,将信号从时域转换到频域。
步骤2.2:找到参考语音中能量最大的帧,去掉参考语音和待测降噪语音中低于该帧40db以下的信号,然后分别对两个信号进行频带分析。其中,数值40db是按照本领域计算静音帧的习惯设置。
设j为子带索引,m为帧索引,以表示参考语音的第m帧的第k个频带,对信号做频带分析,按频率划分子带以后,将第j个子带的范数称为一个时频单元,得到时频单元Xj(m)。将待测降噪语音也做同样的处理,得到对应的时频单元Yj(m)。
步骤2.3:计算参考语音和待测降噪语音的短时频谱包络,并用向量表示;
参考语音的短时频谱包络用向量表示如下:
xj,m=[Xj(m-N+1),Xj(m-N+2),...,Xj(m)]T
同理可得,待测降噪语音的短时频谱包络yj,m也可以用类似的方式表示。在本实施例中,N取裁剪之后的全部帧。
步骤2.4:将待测降噪语音进行归一化剪裁,即直接对短时频谱包络yj,m进行如下计算:
其中,n表示取短时的块数,n∈{1,2,...,N},相应的短时频谱包络记为xj,m(n)和yj,m(n),是对短时频谱包络yj,m(n)做归一化裁剪得到的信号表示,||·||表示二范数,β为信号失真(SDR)的下界,表示如下:
步骤2.5:计算每个时频单元的相关系数,即xj,m和yj,m的相关系数dj,m,计算如下:
步骤2.6:计算所有帧对应的所有频带对应的相关系数的平均值:
其中,J是子带数量,M是帧的数量。d为目标函数的最终表示,范围从0到1,越靠近1,说明语音质量越好。但是在训练过程中应当最小化目标函数,所以求其相反数作为模型优化目标函数。
步骤3:构建语音增强的深度神经网络模型,训练目标为估计语音,模型优化目标函数由步骤2得到,根据优化结果实现语音增强;
本发明通过语音增强模型将带噪语音映射成干净语音,以达到去噪效果。训练阶段需要一个目标函数优化模型参数。模型参数包括神经网络里面的一些权重参数,具体实施时可以随机初始化,然后根据梯度下降和反向传播修改优化。本实施例的网络模型优选采用的是全卷积神经网络(FCN),结构如图1所示,FCN模型有8个卷积层。除最后一层仅使用1个卷积核外,前述各层由30个卷积核组成,卷积核尺寸为55。
参见图1,其中有8个卷积层。前7个的卷积层(k=7)每层有30个卷积核(F=30),最后一层只用1个卷积核外,卷积核尺寸为55。
Noisy utterance表示输入为带噪语音;
Convolutional layer表示卷积层;
F filters表示F个卷积核或滤波器;
Batch normalization表示批归一化处理;
LeakyReLU和tanh都是神经网络中常用的激活函数;
Enhanced utterance表示输出为语音增强后的语音。
网络模型还可以采用深度神经网络DNN、卷积神经网络CNN、多层感知机MLP、循环神经网络RNN、LSTM、残差网络ResNet、支持向量机SVM中一种或者多种组合模型。
以上步骤是在CHiME3数据上实施的具体步骤,类似的可以在其他语音数据集上进行相关实验。
本发明在保证人耳感知质量的前提下,利用近端和远端麦克风估计的语音作为参考语音,提高后端语音识别的性能。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (5)
1.一种面向语音识别的语音增强方法,其特征在于,包括以下步骤:
步骤1,利用近端麦克风和远端麦克风录制得到的语音,对干净语音进行估计;
步骤2,将步骤1中得到的估计语音作为参考语音信号,计算参考语音和待测降噪语音的包络相关系数,构造和语音识别相关的模型优化目标函数;
步骤3,构建语音增强的深度神经网络模型,训练目标为估计语音,模型优化目标函数由步骤2得到;根据优化结果实现语音增强;
步骤1的实现包括以下子步骤,
步骤1.1,对近端和远端麦克风录制的带噪语音分别做分帧、加窗和短时傅里叶变换,得到C(n,f)和Xi(n,f),其中n为帧索引,f为频点索引,i为远端阵列麦克风的索引;
步骤1.2,估计干净语音为Si(n,f),计算每个时频单元的残差Ri(n,f),公式如下,
Ri(n,f)=Xi(n,f)-Si(n,f)
其中,设定帧搜索范围l,Lmin为向前搜索参数,Lmax为向后搜索参数,Gi(l,f)表示从近端麦克风信号到远端麦克风的传输函数,由最小化总残差推出,公式如下,
其中,*表示对矩阵做复共轭运算,H表示对矩阵做复共轭和转置运算;
步骤1.3,将估计的干净语音Sid(n,f)做逆傅里叶变换,从频域转化到时域上,作为参考语音信号。
2.根据权利要求1所述的面向语音识别的语音增强方法,其特征在于:向前搜索参数Lmin=-3,向后搜索参数Lmax=8。
3.根据权利要求1或2所述的面向语音识别的语音增强方法,其特征在于:步骤2的实现包括以下子步骤,
步骤2.1,对参考语音和待测降噪语音分别做分帧、加窗和短时傅里叶变换,将信号从时域转换到频域;
步骤2.2,找到参考语音中能量最大的帧,去掉参考语音和待测降噪语音中低于该帧40db以下的信号,然后分别对两个信号进行频带分析;
步骤2.3,根据步骤2.2所得结果计算参考语音和待测降噪语音的短时频谱包络,并用向量表示,得到xj,m和yj,m;
步骤2.4,将待测降噪语音进行归一化剪裁;
步骤2.5,计算每个时频单元的相关系数,得到xj,m和yj,m的相关系数dj,m;
步骤2.6,计算所有帧对应的所有频带对应的相关系数的平均值,
其中,J是子带数量,M是帧的数量,d为目标函数的最终表示,范围从0到1,越靠近1,说明语音质量越好。
4.根据权利要求1或2所述的面向语音识别的语音增强方法,其特征在于:语音增强的深度神经网络模型采用全卷积神经网络FCN。
5.根据权利要求3所述的面向语音识别的语音增强方法,其特征在于:语音增强的深度神经网络模型采用全卷积神经网络FCN。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911180882.3A CN110970044B (zh) | 2019-11-27 | 2019-11-27 | 一种面向语音识别的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911180882.3A CN110970044B (zh) | 2019-11-27 | 2019-11-27 | 一种面向语音识别的语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110970044A CN110970044A (zh) | 2020-04-07 |
CN110970044B true CN110970044B (zh) | 2022-06-07 |
Family
ID=70031801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911180882.3A Active CN110970044B (zh) | 2019-11-27 | 2019-11-27 | 一种面向语音识别的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110970044B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583958B (zh) * | 2020-05-19 | 2023-10-10 | 北京达佳互联信息技术有限公司 | 音频信号处理方法、装置、电子设备及存储介质 |
CN113270097B (zh) * | 2021-05-18 | 2022-05-17 | 成都傅立叶电子科技有限公司 | 无人机械控制方法、电台语音指令转换方法及装置 |
CN117174105A (zh) * | 2023-11-03 | 2023-12-05 | 深圳市龙芯威半导体科技有限公司 | 一种基于改进型深度卷积网络的语音降噪与去混响方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105513605A (zh) * | 2015-12-01 | 2016-04-20 | 南京师范大学 | 手机麦克风的语音增强系统和语音增强方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102117621B (zh) * | 2010-01-05 | 2014-09-10 | 吴伟 | 以自相关系数为判据的信号去噪方法 |
CN102348151B (zh) * | 2011-09-10 | 2015-07-29 | 歌尔声学股份有限公司 | 噪声消除系统和方法、智能控制方法和装置、通信设备 |
WO2016098164A1 (ja) * | 2014-12-15 | 2016-06-23 | 三菱電機株式会社 | エコーキャンセラ装置およびエコーキャンセル方法 |
-
2019
- 2019-11-27 CN CN201911180882.3A patent/CN110970044B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105513605A (zh) * | 2015-12-01 | 2016-04-20 | 南京师范大学 | 手机麦克风的语音增强系统和语音增强方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110970044A (zh) | 2020-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
US8880396B1 (en) | Spectrum reconstruction for automatic speech recognition | |
CN110970044B (zh) | 一种面向语音识别的语音增强方法 | |
US9269368B2 (en) | Speaker-identification-assisted uplink speech processing systems and methods | |
CN110120227A (zh) | 一种深度堆叠残差网络的语音分离方法 | |
CN112151059A (zh) | 面向麦克风阵列的通道注意力加权的语音增强方法 | |
CN110660406A (zh) | 近距离交谈场景下双麦克风移动电话的实时语音降噪方法 | |
CN105679321B (zh) | 语音识别方法、装置及终端 | |
Garg et al. | A comparative study of noise reduction techniques for automatic speech recognition systems | |
WO2022256577A1 (en) | A method of speech enhancement and a mobile computing device implementing the method | |
CN111312275A (zh) | 一种基于子带分解的在线声源分离增强系统 | |
Xiong et al. | Spectro-Temporal SubNet for Real-Time Monaural Speech Denoising and Dereverberation. | |
Hou et al. | Multi-task learning for end-to-end noise-robust bandwidth extension | |
Alam et al. | Robust feature extraction for speech recognition by enhancing auditory spectrum | |
WO2020064089A1 (en) | Determining a room response of a desired source in a reverberant environment | |
JP3786038B2 (ja) | 入力信号処理方法および入力信号処理装置 | |
CN109215635B (zh) | 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法 | |
CN114566179A (zh) | 一种时延可控的语音降噪方法 | |
CN114189781A (zh) | 双麦神经网络降噪耳机的降噪方法及系统 | |
CN114827363A (zh) | 用于通话过程中消除回声的方法、设备和可读存储介质 | |
Ganapathy | Robust speech processing using ARMA spectrogram models | |
Chiluveru et al. | A real-world noise removal with wavelet speech feature | |
EP2063420A1 (en) | Method and assembly to enhance the intelligibility of speech | |
Kothapally et al. | Monaural Speech Dereverberation Using Deformable Convolutional Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |