CN110473564B - 一种基于深度波束形成的多通道语音增强方法 - Google Patents
一种基于深度波束形成的多通道语音增强方法 Download PDFInfo
- Publication number
- CN110473564B CN110473564B CN201910621583.2A CN201910621583A CN110473564B CN 110473564 B CN110473564 B CN 110473564B CN 201910621583 A CN201910621583 A CN 201910621583A CN 110473564 B CN110473564 B CN 110473564B
- Authority
- CN
- China
- Prior art keywords
- noise
- voice
- speech
- gev
- reverberation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Abstract
本发明涉及一种基于深度波束形成的多通道语音增强方法,首先采集多个麦克风接收到的语音信号;然后提取要处理语音的对数梅尔滤波器组特征;将每个通道的特征送入双向长短时记忆网络(BLSTM,Bidirectional Long‑Short Time Memory)得到增强后的理想比率掩膜(IRM,Ideal Ratio Mask);将得到的掩膜用于计算GEV的语音和噪声协方差矩阵,进而得到增强后的语音。相比基于MVDR波束形成器的多通道语音增强方法,本方法得到的增强语音效果更好。
Description
技术领域
本发明涉及一种多通道语音增强方法,可以对含噪含混响语音进行处理并得到很好的增强效果。
背景技术
我们生活的环境复杂多变,一些场景下需要采集到较高语音质量时,往往会遭受各种干扰,这会极大地影响语音的质量和可懂度。语音增强的目的是,从受到噪声干扰的语音信号中滤除噪声以提高语音质量和可懂度,其中噪声干扰包括加性噪声干扰以及混响干扰。近年来深度学习被引入语音增强,这种方法的增强效果与传统方法相比有明显的优点。传统的语音增强方法假设了噪声是平稳的,从而对日常生活中更为常见的非平稳噪声很难有很好的语音处理效果。另一方面,传统方法在低信噪比条件下的增强效果很差。而基于深度学习的语音增强方法可以在低信噪比条件下对加入非平稳噪声的语音实现很好的语音增强效果。
按照采集语音的麦克风数量分类,语音增强可以分为单通道语音增强方法和多通道语音增强方法。基于深度学习的单通道增强方法可以分为两个方向,分别是基于谱映射的方法和基于时频掩膜的方法。基于时频掩膜的方法描述了干净语音与背景干扰的时频关系,而基于谱映射的方法则对应于干净语音的频谱表示。虽然基于深度学习的单通道语音增强方法可以提升语音的质量以及可懂度,但是增强后的语音会有非线性的失真。
基于深度学习的多通道语音增强使用了多个麦克风采集语音信号中的信息,其中包括了声源的空间起始点的指向性信息,所以我们可以通过传感器阵列的输入确定声源的位置,然后提取出声源的方向信息。这种方法可以分为两个分支,基于空间特征提取的方法和基于时频掩膜的波束形成方法,后者也被称为深度波束形成方法。基于空间特征提取的方法是一种使用麦克风阵列作为特征提取器来提取空间特征的方法,一般用来提取双耳时间差(ITD,Interaural Time Differences)和双耳声级差(ILD,Interaural LevelDifferences)作为基于深度神经网络(DNN,Deep Neural Network)的单通道增强的输入,这种方法只能称作是对单通道增强方法的一种简单扩展。而深度波束形成方法主要是使用单通道神经网络估计单通道时频掩膜,最后将得到的语音和噪声的空间协方差矩阵用于自适应波束形成。这种方法一方面利用到空间信息,另一方面由于后端的波束形成是一种线性方法,得到的增强语音的失真较小,所以是一种更优的方法。
发明内容
本发明解决的技术问题是:常用的基于深度波束形成的方法是使用DNN或者长短时记忆网络(LSTM,Long-Short Time Memory),然后在后端使用最小方差无失真波束形成器(MVDR,Minimum Variance Distortionless Response)进行波束形成得到增强语音。我们发明的是一种基于广义特征值(GEV,Generalized Eigenvalue)波束形成器的多通道增强方法,可以对含噪含混响语音实现较好的语音增强效果。首先采集多个麦克风接收到的语音信号;然后提取要处理语音的对数梅尔滤波器组特征;将每个通道的特征送入双向长短时记忆网络(BLSTM,Bidirectional Long-Short Time Memory)得到增强后的理想比率掩膜(IRM,Ideal Ratio Mask);将得到的掩膜用于计算GEV的语音和噪声协方差矩阵,进而得到增强后的语音。相比基于MVDR波束形成器的多通道语音增强方法,本方法得到的增强语音效果更好。
本发明的技术方案是:一种基于深度波束形成的多通道语音增强方法,其特征在于,包括以下步骤:
步骤一:通过D个麦克风采集含噪含混响语音,其中每个麦克风表示一个采集通道,包括以下子步骤:
子步骤一:分别采集从声源到每个麦克风的直达声,对噪声库中的噪声进行重采样保证直达声和噪声的采样率一致;
子步骤二:将直达声与进行重采样后的噪声按照-5dB,0dB,5dB相加后得到新的噪声分量;
子步骤三:使用镜像模型产生混响的方法(Image Model)得到含混响的语音,将上一步得到的噪声分量与含混响语音相加得到含噪含混响语音;
步骤二:对含噪含混响语音信号进行预处理,包括预加重,分帧和加窗;
步骤三:提取每个通道采集到语音的100点对数梅尔滤波器组特征;
步骤四:将若干采集通道的梅尔滤波器组特征送入已经训练好的双向长短时记忆网络(BLSTM)中得到若干理想比率掩膜(IRM),其中IRM数量和采集通道数量相同;
步骤五:将步骤四中得到的若干掩膜进行融合,得到一个掩膜;
步骤六:将步骤五中得到的掩膜和步骤一得到的含噪含混响语音通过广义特征值(GEV)波束形成器,得到增强后的语音,包括以下子步骤:
子步骤一:GEV波束形成器的参数表达式为:
式中,η(t,f)和ξ(t,f)分别代表了对于语音和噪声的加权,是通过估计得到的时频掩膜确定的:
子步骤二:对于S5.1中公式的计算可以归纳为一个广义特征值问题:
其中λ是一个特征值,实际得到的wGEV(f)是最大特征值所对应的最大特征向量;子步骤三:通过选择后滤波器滤除语音失真,获得语音源方向的无失真响应:
子步骤四:最终得到的增强后的语音信号为:
式中,wGEV(f)H表示为滤波器系数的共轭转置,y(t,f)表示输入的未经处理的含噪含混响语音。
发明效果
本发明的技术效果在于:本发明与现有技术相比,有以下的优点:
1.相比于MVDR波束形成器,GEV波束形成器不需要关于语音源到麦克风的声学传递函数的性质的假设;
2.相比于基于MVDR的增强结果,基于GEV的增强结果明显更好。对于信噪比为-5dB的含噪含混响语音,同样是使用BLSTM网络,基于MVDR的增强后语音的信号失真比(SDR,Signal-to-Distortion Ratio)为0.8028dB,而基于GEV的增强结果的SDR为4.0065dB。
附图说明
图1基于深度波束形成的语音增强流程图
具体实施方式
参见图1,下面结合附图和实施实例,对本发明作进一步详细的描述。但是所描述的具体实施实例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
本发明的技术方案是:一种基于深度波束形成的语音增强方法,具体包括以下步骤:
S1:得到四个麦克风采集的含噪含混响语音。计算从声源到每个麦克风的直达声以及包含混响的语音,将直达声和噪声按相应信噪比叠加得到的噪声与只包含混响的语音相加得到含噪含混响语音;
S2:对语音信号进行预处理,包括预加重,分帧和加窗。
S3:提取每个通道采集到语音的100点对数梅尔滤波器组特征;
S4:将4个通道的特征送入已经训练好的BLSTM中得到4个IRM;
S5:将这四个掩膜进行融合得到一个掩膜;
S6;将得到的掩膜与含噪含混响语音通过GEV波束形成器得到增强后的语音。
其中S6步骤进行波束形成的具体步骤如下:
S6.1:GEV波束形成器的目标是最大化每个时频点的信噪比,它的波束形成器参数可以通过以下的公式进行计算:
S6.2:通过下面的公式确定语音和噪声协方差矩阵的估计:
S6.3:对于S5.1中公式的计算可以归纳为一个广义特征值问题:
其中λ是一个特征值,实际得到的wGEV(f)是最大特征值所对应的最大特征向量。
S6.4:由于GEV波束形成器会引入语音失真,所以我们需要使用一个后滤波器滤除语音失真。我们选择盲分析归一化(BAN,Blind Analytic Normalization)单通道后滤波器,公式如下:
通过进行BAN后滤波器的滤波,可以获得语音源方向的无失真响应。
S6.5:最终得到的增强后的语音信号计算公式为:
如图1所示,一种基于深度波束形成的语音增强方法:首先采集多个麦克风接收到的语音信号;然后提取要处理语音的对数梅尔滤波器组特征;将每个通道的特征送入双向长短时记忆网络得到增强后的理想比率掩膜;将得到的掩膜用于计算GEV的语音和噪声协方差矩阵,进而得到增强后的语音。
1:得到四个麦克风采集的含噪含混响语音。计算从声源到每个麦克风的直达声以及包含混响的语音,将直达声和噪声按相应信噪比叠加得到的噪声与只包含混响的语音相加得到含噪含混响语音;
2:对语音信号进行预处理,包括预加重,分帧和加窗。
3:提取每个通道采集到语音的100点对数梅尔滤波器组特征;
4:将4个通道的特征送入已经训练好的BLSTM中得到4个IRM;
5:将这四个掩膜进行融合得到一个掩膜;
6;将得到的掩膜与含噪含混响语音通过GEV波束形成器得到增强后的语音。
其中步骤6进行波束形成的具体步骤如下:
6.1:GEV波束形成器的目标是最大化每个时频点的信噪比,它的波束形成器参数可以通过以下的公式进行计算:
6.2:通过下面的公式确定语音和噪声协方差矩阵的估计:
6.3:对于S5.1中公式的计算可以归纳为一个广义特征值问题:
其中λ是一个特征值,实际得到的wGEV(f)是最大特征值所对应的最大特征向量。
6.4:由于GEV波束形成器会引入语音失真,所以我们需要使用一个后滤波器滤除语音失真。我们选择盲分析归一化(BAN,Blind Analytic Normalization)单通道后滤波器,公式如下:
通过进行BAN后滤波器的滤波,可以获得语音源方向的无失真响应。
6.5:最终得到的增强后的语音信号计算公式为:
本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (1)
1.一种基于深度波束形成的多通道语音增强方法,其特征在于,包括以下步骤:
步骤一:通过D个麦克风采集含噪含混响语音,其中每个麦克风表示一个采集通道,包括以下子步骤:
S1.1:分别采集从声源到每个麦克风的直达声,对噪声库中的噪声进行重采样保证直达声和噪声的采样率一致;
S1.2:将直达声与进行重采样后的噪声按照-5dB,0dB,5dB相加后得到新的噪声分量;
S1.3:使用镜像模型产生混响的方法(Image Model)得到含混响的语音,将上一步得到的噪声分量与含混响语音相加得到含噪含混响语音;
步骤二:对含噪含混响语音信号进行预处理,包括预加重,分帧和加窗;
步骤三:提取每个通道采集到语音的100点对数梅尔滤波器组特征;
步骤四:将若干采集通道的梅尔滤波器组特征送入已经训练好的双向长短时记忆网络(BLSTM)中得到若干理想比率掩膜(IRM),其中IRM数量和采集通道数量相同;
步骤五:将步骤四中得到的若干掩膜进行融合,得到一个掩膜;
步骤六:将步骤五中得到的掩膜和步骤一得到的含噪含混响语音通过广义特征值(GEV)波束形成器,得到增强后的语音,包括以下子步骤:
S6.1:GEV波束形成器的参数表达式为:
S6.2:通过下面的公式确定语音和噪声协方差矩阵的估计:
S6.3:对于S6.1中公式的计算可以归纳为一个广义特征值问题:
其中λ是一个特征值,实际得到的wGEV(f)是最大特征值所对应的最大特征向量;
S6.4:通过选择后滤波器滤除语音失真,获得语音源方向的无失真响应:
S6.5:最终得到的增强后的语音信号计算公式为:
式中,wGEV(f)H表示为滤波器系数的共轭转置,y(t,f)表示输入的未经处理的含噪含混响语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910621583.2A CN110473564B (zh) | 2019-07-10 | 2019-07-10 | 一种基于深度波束形成的多通道语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910621583.2A CN110473564B (zh) | 2019-07-10 | 2019-07-10 | 一种基于深度波束形成的多通道语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110473564A CN110473564A (zh) | 2019-11-19 |
CN110473564B true CN110473564B (zh) | 2021-09-24 |
Family
ID=68507247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910621583.2A Active CN110473564B (zh) | 2019-07-10 | 2019-07-10 | 一种基于深度波束形成的多通道语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110473564B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110970053B (zh) * | 2019-12-04 | 2022-03-15 | 西北工业大学深圳研究院 | 一种基于深度聚类的多通道与说话人无关语音分离方法 |
CN111312273A (zh) * | 2020-05-11 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 混响消除方法、装置、计算机设备和存储介质 |
CN111816200B (zh) * | 2020-07-01 | 2022-07-29 | 电子科技大学 | 一种基于时频域二值掩膜的多通道语音增强方法 |
CN112562704B (zh) * | 2020-11-17 | 2023-08-18 | 中国人民解放军陆军工程大学 | 基于blstm的分频拓谱抗噪语音转换方法 |
CN112581973B (zh) * | 2020-11-27 | 2022-04-29 | 深圳大学 | 一种语音增强方法及系统 |
CN114613383B (zh) * | 2022-03-14 | 2023-07-18 | 中国电子科技集团公司第十研究所 | 一种机载环境下多输入语音信号波束形成信息互补方法 |
CN114613384B (zh) * | 2022-03-14 | 2023-08-29 | 中国电子科技集团公司第十研究所 | 一种基于深度学习多输入语音信号波束形成信息互补方法 |
CN116778970B (zh) * | 2023-08-25 | 2023-11-24 | 长春市鸣玺科技有限公司 | 强噪声环境下的语音检测模型训练方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105679329A (zh) * | 2016-02-04 | 2016-06-15 | 厦门大学 | 可适应强烈背景噪声的麦克风阵列语音增强装置 |
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
CN109830245A (zh) * | 2019-01-02 | 2019-05-31 | 北京大学 | 一种基于波束成形的多说话者语音分离方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8972251B2 (en) * | 2011-06-07 | 2015-03-03 | Qualcomm Incorporated | Generating a masking signal on an electronic device |
US10573301B2 (en) * | 2018-05-18 | 2020-02-25 | Intel Corporation | Neural network based time-frequency mask estimation and beamforming for speech pre-processing |
-
2019
- 2019-07-10 CN CN201910621583.2A patent/CN110473564B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105679329A (zh) * | 2016-02-04 | 2016-06-15 | 厦门大学 | 可适应强烈背景噪声的麦克风阵列语音增强装置 |
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
CN109830245A (zh) * | 2019-01-02 | 2019-05-31 | 北京大学 | 一种基于波束成形的多说话者语音分离方法及系统 |
Non-Patent Citations (2)
Title |
---|
A generic neural acoustic beamforming architecture for robust multi-channel speech processing;Jahn Heymann etc;《Computer Speech & Language》;20171130;第46卷;第374-385页 * |
声学回声消除与波束成形语音增强方法研究;奚少亨;《万方数据库》;20181218;第1-46页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110473564A (zh) | 2019-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110473564B (zh) | 一种基于深度波束形成的多通道语音增强方法 | |
Van Eyndhoven et al. | EEG-informed attended speaker extraction from recorded speech mixtures with application in neuro-steered hearing prostheses | |
Hadad et al. | The binaural LCMV beamformer and its performance analysis | |
CN110970053B (zh) | 一种基于深度聚类的多通道与说话人无关语音分离方法 | |
CN109410976B (zh) | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 | |
EP2594090B1 (en) | Method of signal processing in a hearing aid system and a hearing aid system | |
WO2007028250A2 (en) | Method and device for binaural signal enhancement | |
CN108986832B (zh) | 基于语音出现概率和一致性的双耳语音去混响方法和装置 | |
CN113129918B (zh) | 联合波束形成和深度复数U-Net网络的语音去混响方法 | |
CN112885375A (zh) | 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法 | |
Kokkinis et al. | A Wiener filter approach to microphone leakage reduction in close-microphone applications | |
Marin-Hurtado et al. | Perceptually inspired noise-reduction method for binaural hearing aids | |
CN110111802A (zh) | 基于卡尔曼滤波的自适应去混响方法 | |
Lobato et al. | Worst-Case-Optimization Robust-MVDR beamformer for stereo noise reduction in hearing aids | |
CN114566179A (zh) | 一种时延可控的语音降噪方法 | |
Li et al. | Speech enhancement based on binaural sound source localization and cosh measure wiener filtering | |
CN113257270B (zh) | 一种基于参考麦克风优化的多通道语音增强方法 | |
Lei et al. | A Low-Latency Hybrid Multi-Channel Speech Enhancement System For Hearing Aids | |
CN108257607B (zh) | 一种多通道语音信号处理方法 | |
Hamacher et al. | Applications of adaptive signal processing methods in high-end hearing aids | |
Yang et al. | Boosting spatial information for deep learning based multichannel speaker-independent speech separation in reverberant environments | |
Shanmugapriya et al. | A thorough investigation on speech enhancement techniques for hearing aids | |
CN114979904B (zh) | 基于单外部无线声学传感器速率优化的双耳维纳滤波方法 | |
Woodruff et al. | Directionality-based speech enhancement for hearing aids | |
Xiang et al. | RLS-based adaptive dereverberation tracing abrupt position change of target speaker |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |