CN110473564A - 一种基于深度波束形成的多通道语音增强方法 - Google Patents
一种基于深度波束形成的多通道语音增强方法 Download PDFInfo
- Publication number
- CN110473564A CN110473564A CN201910621583.2A CN201910621583A CN110473564A CN 110473564 A CN110473564 A CN 110473564A CN 201910621583 A CN201910621583 A CN 201910621583A CN 110473564 A CN110473564 A CN 110473564A
- Authority
- CN
- China
- Prior art keywords
- voice
- noise
- sub
- gev
- microphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 239000011159 matrix material Substances 0.000 claims abstract description 12
- 230000015654 memory Effects 0.000 claims abstract description 7
- 230000004044 response Effects 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 4
- 230000017105 transposition Effects 0.000 claims description 4
- 238000012952 Resampling Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 abstract description 9
- 230000000694 effects Effects 0.000 abstract description 6
- 230000002457 bidirectional effect Effects 0.000 abstract description 2
- 239000004568 cement Substances 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000003014 reinforcing effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及一种基于深度波束形成的多通道语音增强方法,首先采集多个麦克风接收到的语音信号;然后提取要处理语音的对数梅尔滤波器组特征;将每个通道的特征送入双向长短时记忆网络(BLSTM,Bidirectional Long‑Short Time Memory)得到增强后的理想比率掩膜(IRM,Ideal Ratio Mask);将得到的掩膜用于计算GEV的语音和噪声协方差矩阵,进而得到增强后的语音。相比基于MVDR波束形成器的多通道语音增强方法,本方法得到的增强语音效果更好。
Description
技术领域
本发明涉及一种多通道语音增强方法,可以对含噪含混响语音进行处理并得到很好的增强效果。
背景技术
我们生活的环境复杂多变,一些场景下需要采集到较高语音质量时,往往会遭受各种干扰,这会极大地影响语音的质量和可懂度。语音增强的目的是,从受到噪声干扰的语音信号中滤除噪声以提高语音质量和可懂度,其中噪声干扰包括加性噪声干扰以及混响干扰。近年来深度学习被引入语音增强,这种方法的增强效果与传统方法相比有明显的优点。传统的语音增强方法假设了噪声是平稳的,从而对日常生活中更为常见的非平稳噪声很难有很好的语音处理效果。另一方面,传统方法在低信噪比条件下的增强效果很差。而基于深度学习的语音增强方法可以在低信噪比条件下对加入非平稳噪声的语音实现很好的语音增强效果。
按照采集语音的麦克风数量分类,语音增强可以分为单通道语音增强方法和多通道语音增强方法。基于深度学习的单通道增强方法可以分为两个方向,分别是基于谱映射的方法和基于时频掩膜的方法。基于时频掩膜的方法描述了干净语音与背景干扰的时频关系,而基于谱映射的方法则对应于干净语音的频谱表示。虽然基于深度学习的单通道语音增强方法可以提升语音的质量以及可懂度,但是增强后的语音会有非线性的失真。
基于深度学习的多通道语音增强使用了多个麦克风采集语音信号中的信息,其中包括了声源的空间起始点的指向性信息,所以我们可以通过传感器阵列的输入确定声源的位置,然后提取出声源的方向信息。这种方法可以分为两个分支,基于空间特征提取的方法和基于时频掩膜的波束形成方法,后者也被称为深度波束形成方法。基于空间特征提取的方法是一种使用麦克风阵列作为特征提取器来提取空间特征的方法,一般用来提取双耳时间差(ITD,Interaural Time Differences)和双耳声级差(ILD,Interaural LevelDifferences)作为基于深度神经网络(DNN,Deep Neural Network)的单通道增强的输入,这种方法只能称作是对单通道增强方法的一种简单扩展。而深度波束形成方法主要是使用单通道神经网络估计单通道时频掩膜,最后将得到的语音和噪声的空间协方差矩阵用于自适应波束形成。这种方法一方面利用到空间信息,另一方面由于后端的波束形成是一种线性方法,得到的增强语音的失真较小,所以是一种更优的方法。
发明内容
本发明解决的技术问题是:常用的基于深度波束形成的方法是使用DNN或者长短时记忆网络(LSTM,Long-Short Time Memory),然后在后端使用最小方差无失真波束形成器(MVDR,Minimum Variance Distortionless Response)进行波束形成得到增强语音。我们发明的是一种基于广义特征值(GEV,Generalized Eigenvalue)波束形成器的多通道增强方法,可以对含噪含混响语音实现较好的语音增强效果。首先采集多个麦克风接收到的语音信号;然后提取要处理语音的对数梅尔滤波器组特征;将每个通道的特征送入双向长短时记忆网络(BLSTM,Bidirectional Long-Short Time Memory)得到增强后的理想比率掩膜(IRM,Ideal Ratio Mask);将得到的掩膜用于计算GEV的语音和噪声协方差矩阵,进而得到增强后的语音。相比基于MVDR波束形成器的多通道语音增强方法,本方法得到的增强语音效果更好。
本发明的技术方案是:一种基于深度波束形成的多通道语音增强方法,其特征在于,包括以下步骤:
步骤一:通过D个麦克风采集含噪含混响语音,其中每个麦克风表示一个采集通道,包括以下子步骤:
子步骤一:分别采集从声源到每个麦克风的直达声,对噪声库中的噪声进行重采样保证直达声和噪声的采样率一致;
子步骤二:将直达声与进行重采样后的噪声按照-5dB,0dB,5dB相加后得到新的噪声分量;
子步骤三:使用镜像模型产生混响的方法(Image Model)得到含混响的语音,将上一步得到的噪声分量与含混响语音相加得到含噪含混响语音;
步骤二:对含噪含混响语音信号进行预处理,包括预加重,分帧和加窗;
步骤三:提取每个通道采集到语音的100点对数梅尔滤波器组特征;
步骤四:将若干采集通道的梅尔滤波器组特征送入已经训练好的双向长短时记忆网络(BLSTM)中得到若干理想比率掩膜(IRM),其中IRM数量和采集通道数量相同;
步骤五:将步骤四中得到的若干掩膜进行融合,得到一个掩膜;
步骤六:将步骤五中得到的掩膜和步骤一得到的含噪含混响语音通过广义特征值(GEV)波束形成器,得到增强后的语音,包括以下子步骤:
子步骤一:GEV波束形成器的参数表达式为:
和分别为语音和噪声协方差矩阵的估计,wGEV(f)为滤波器的系数;w(f)为特征向量,(.)H表示共轭转置,f为频率;
其中
式中,η(t,f)和ξ(t,f)分别代表了对于语音和噪声的加权,是通过估计得到的时频掩膜确定的:
D代表了麦克风的数量,表示对于第i个麦克风信号的估计得到的掩膜,其中i的取值范围为1到D;t表示时间;f表示频率;
子步骤二:对于S5.1中公式的计算可以归纳为一个广义特征值问题:
其中λ是一个特征值,实际得到的wGEV(f)是最大特征值所对应的最大特征向量;子步骤三:通过选择后滤波器滤除语音失真,获得语音源方向的无失真响应:
子步骤四:最终得到的增强后的语音信号为:
式中,wGEV(f)H表示为滤波器系数的共轭转置,y(t,f)表示输入的未经处理的含噪含混响语音。
发明效果
本发明的技术效果在于:本发明与现有技术相比,有以下的优点:
1.相比于MVDR波束形成器,GEV波束形成器不需要关于语音源到麦克风的声学传递函数的性质的假设;
2.相比于基于MVDR的增强结果,基于GEV的增强结果明显更好。对于信噪比为-5dB的含噪含混响语音,同样是使用BLSTM网络,基于MVDR的增强后语音的信号失真比(SDR,Signal-to-Distortion Ratio)为0.8028dB,而基于GEV的增强结果的SDR为4.0065dB。
附图说明
图1基于深度波束形成的语音增强流程图
具体实施方式
参见图1,下面结合附图和实施实例,对本发明作进一步详细的描述。但是所描述的具体实施实例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
本发明的技术方案是:一种基于深度波束形成的语音增强方法,具体包括以下步骤:
S1:得到四个麦克风采集的含噪含混响语音。计算从声源到每个麦克风的直达声以及包含混响的语音,将直达声和噪声按相应信噪比叠加得到的噪声与只包含混响的语音相加得到含噪含混响语音;
S2:对语音信号进行预处理,包括预加重,分帧和加窗。
S3:提取每个通道采集到语音的100点对数梅尔滤波器组特征;
S4:将4个通道的特征送入已经训练好的BLSTM中得到4个IRM;
S5:将这四个掩膜进行融合得到一个掩膜;
S6;将得到的掩膜与含噪含混响语音通过GEV波束形成器得到增强后的语音。
其中S6步骤进行波束形成的具体步骤如下:
S6.1:GEV波束形成器的目标是最大化每个时频点的信噪比,它的波束形成器参数可以通过以下的公式进行计算:
其中和分别为语音和噪声协方差矩阵的估计,wGEV(f)为滤波器的系数。
S6.2:通过下面的公式确定语音和噪声协方差矩阵的估计:
其中,和分别代表语音和噪声的协方差矩阵,η(t,f)和ξ(t,f)分别代表了对于语音和噪声的加权,是通过估计得到的时频掩膜确定的:
其中D代表了麦克风的数量,表示对于第i个麦克风信号的估计得到的掩膜。
S6.3:对于S5.1中公式的计算可以归纳为一个广义特征值问题:
其中λ是一个特征值,实际得到的wGEV(f)是最大特征值所对应的最大特征向量。
S6.4:由于GEV波束形成器会引入语音失真,所以我们需要使用一个后滤波器滤除语音失真。我们选择盲分析归一化(BAN,Blind Analytic Normalization)单通道后滤波器,公式如下:
通过进行BAN后滤波器的滤波,可以获得语音源方向的无失真响应。
S6.5:最终得到的增强后的语音信号计算公式为:
如图1所示,一种基于深度波束形成的语音增强方法:首先采集多个麦克风接收到的语音信号;然后提取要处理语音的对数梅尔滤波器组特征;将每个通道的特征送入双向长短时记忆网络得到增强后的理想比率掩膜;将得到的掩膜用于计算GEV的语音和噪声协方差矩阵,进而得到增强后的语音。
1:得到四个麦克风采集的含噪含混响语音。计算从声源到每个麦克风的直达声以及包含混响的语音,将直达声和噪声按相应信噪比叠加得到的噪声与只包含混响的语音相加得到含噪含混响语音;
2:对语音信号进行预处理,包括预加重,分帧和加窗。
3:提取每个通道采集到语音的100点对数梅尔滤波器组特征;
4:将4个通道的特征送入已经训练好的BLSTM中得到4个IRM;
5:将这四个掩膜进行融合得到一个掩膜;
6;将得到的掩膜与含噪含混响语音通过GEV波束形成器得到增强后的语音。
其中步骤6进行波束形成的具体步骤如下:
6.1:GEV波束形成器的目标是最大化每个时频点的信噪比,它的波束形成器参数可以通过以下的公式进行计算:
其中和分别为语音和噪声协方差矩阵的估计,wGEV(f)为滤波器的系数。
6.2:通过下面的公式确定语音和噪声协方差矩阵的估计:
其中,和分别代表语音和噪声的协方差矩阵,η(t,f)和ξ(t,f)分别代表了对于语音和噪声的加权,是通过估计得到的时频掩膜确定的:
其中D代表了麦克风的数量,表示对于第i个麦克风信号的估计得到的掩膜。
6.3:对于S5.1中公式的计算可以归纳为一个广义特征值问题:
其中λ是一个特征值,实际得到的wGEV(f)是最大特征值所对应的最大特征向量。
6.4:由于GEV波束形成器会引入语音失真,所以我们需要使用一个后滤波器滤除语音失真。我们选择盲分析归一化(BAN,Blind Analytic Normalization)单通道后滤波器,公式如下:
通过进行BAN后滤波器的滤波,可以获得语音源方向的无失真响应。
6.5:最终得到的增强后的语音信号计算公式为:
本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (1)
1.一种基于深度波束形成的多通道语音增强方法,其特征在于,包括以下步骤:
步骤一:通过D个麦克风采集含噪含混响语音,其中每个麦克风表示一个采集通道,包括以下子步骤:
子步骤一:分别采集从声源到每个麦克风的直达声,对噪声库中的噪声进行重采样保证直达声和噪声的采样率一致;
子步骤二:将直达声与进行重采样后的噪声按照-5dB,0dB,5dB相加后得到新的噪声分量;
子步骤三:使用镜像模型产生混响的方法(Image Model)得到含混响的语音,将上一步得到的噪声分量与含混响语音相加得到含噪含混响语音;
步骤二:对含噪含混响语音信号进行预处理,包括预加重,分帧和加窗;
步骤三:提取每个通道采集到语音的100点对数梅尔滤波器组特征;
步骤四:将若干采集通道的梅尔滤波器组特征送入已经训练好的双向长短时记忆网络(BLSTM)中得到若干理想比率掩膜(IRM),其中IRM数量和采集通道数量相同;
步骤五:将步骤四中得到的若干掩膜进行融合,得到一个掩膜;
步骤六:将步骤五中得到的掩膜和步骤一得到的含噪含混响语音通过广义特征值(GEV)波束形成器,得到增强后的语音,包括以下子步骤:
子步骤一:GEV波束形成器的参数表达式为:
和分别为语音和噪声协方差矩阵的估计,wGEV(f)为滤波器的系数;w(f)为特征向量,(.)H表示共轭转置,f为频率;
其中
式中,η(t,f)和ξ(t,f)分别代表了对于语音和噪声的加权,是通过估计得到的时频掩膜确定的:
D代表了麦克风的数量,表示对于第i个麦克风信号的估计得到的掩膜,其中i的取值范围为1到D;t表示时间;f表示频率;
子步骤二:对于S5.1中公式的计算可以归纳为一个广义特征值问题:
其中λ是一个特征值,实际得到的wGEV(f)是最大特征值所对应的最大特征向量;子步骤三:通过选择后滤波器滤除语音失真,获得语音源方向的无失真响应:
子步骤四:最终得到的增强后的语音信号为:
式中,wGEV(f)H表示为滤波器系数的共轭转置,y(t,f)表示输入的未经处理的含噪含混响语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910621583.2A CN110473564B (zh) | 2019-07-10 | 2019-07-10 | 一种基于深度波束形成的多通道语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910621583.2A CN110473564B (zh) | 2019-07-10 | 2019-07-10 | 一种基于深度波束形成的多通道语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110473564A true CN110473564A (zh) | 2019-11-19 |
CN110473564B CN110473564B (zh) | 2021-09-24 |
Family
ID=68507247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910621583.2A Active CN110473564B (zh) | 2019-07-10 | 2019-07-10 | 一种基于深度波束形成的多通道语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110473564B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110970053A (zh) * | 2019-12-04 | 2020-04-07 | 西北工业大学深圳研究院 | 一种基于深度聚类的多通道与说话人无关语音分离方法 |
CN111312273A (zh) * | 2020-05-11 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 混响消除方法、装置、计算机设备和存储介质 |
CN111816200A (zh) * | 2020-07-01 | 2020-10-23 | 电子科技大学 | 一种基于时频域二值掩膜的多通道语音增强方法 |
CN112562704A (zh) * | 2020-11-17 | 2021-03-26 | 中国人民解放军陆军工程大学 | 基于blstm的分频拓谱抗噪语音转换方法 |
CN112581973A (zh) * | 2020-11-27 | 2021-03-30 | 深圳大学 | 一种语音增强方法及系统 |
CN114613384A (zh) * | 2022-03-14 | 2022-06-10 | 中国电子科技集团公司第十研究所 | 一种基于深度学习多输入语音信号波束形成信息互补方法 |
CN114613383A (zh) * | 2022-03-14 | 2022-06-10 | 中国电子科技集团公司第十研究所 | 一种机载环境下多输入语音信号波束形成信息互补方法 |
CN116778970A (zh) * | 2023-08-25 | 2023-09-19 | 长春市鸣玺科技有限公司 | 强噪声环境下的语音检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120316869A1 (en) * | 2011-06-07 | 2012-12-13 | Qualcomm Incoporated | Generating a masking signal on an electronic device |
CN105679329A (zh) * | 2016-02-04 | 2016-06-15 | 厦门大学 | 可适应强烈背景噪声的麦克风阵列语音增强装置 |
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
US20190043491A1 (en) * | 2018-05-18 | 2019-02-07 | Intel Corporation | Neural network based time-frequency mask estimation and beamforming for speech pre-processing |
CN109830245A (zh) * | 2019-01-02 | 2019-05-31 | 北京大学 | 一种基于波束成形的多说话者语音分离方法及系统 |
-
2019
- 2019-07-10 CN CN201910621583.2A patent/CN110473564B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120316869A1 (en) * | 2011-06-07 | 2012-12-13 | Qualcomm Incoporated | Generating a masking signal on an electronic device |
CN105679329A (zh) * | 2016-02-04 | 2016-06-15 | 厦门大学 | 可适应强烈背景噪声的麦克风阵列语音增强装置 |
US20190043491A1 (en) * | 2018-05-18 | 2019-02-07 | Intel Corporation | Neural network based time-frequency mask estimation and beamforming for speech pre-processing |
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
CN109830245A (zh) * | 2019-01-02 | 2019-05-31 | 北京大学 | 一种基于波束成形的多说话者语音分离方法及系统 |
Non-Patent Citations (2)
Title |
---|
JAHN HEYMANN ETC: "A generic neural acoustic beamforming architecture for robust multi-channel speech processing", 《COMPUTER SPEECH & LANGUAGE》 * |
奚少亨: "声学回声消除与波束成形语音增强方法研究", 《万方数据库》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110970053B (zh) * | 2019-12-04 | 2022-03-15 | 西北工业大学深圳研究院 | 一种基于深度聚类的多通道与说话人无关语音分离方法 |
CN110970053A (zh) * | 2019-12-04 | 2020-04-07 | 西北工业大学深圳研究院 | 一种基于深度聚类的多通道与说话人无关语音分离方法 |
CN111312273A (zh) * | 2020-05-11 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 混响消除方法、装置、计算机设备和存储介质 |
CN111816200A (zh) * | 2020-07-01 | 2020-10-23 | 电子科技大学 | 一种基于时频域二值掩膜的多通道语音增强方法 |
CN111816200B (zh) * | 2020-07-01 | 2022-07-29 | 电子科技大学 | 一种基于时频域二值掩膜的多通道语音增强方法 |
CN112562704A (zh) * | 2020-11-17 | 2021-03-26 | 中国人民解放军陆军工程大学 | 基于blstm的分频拓谱抗噪语音转换方法 |
CN112562704B (zh) * | 2020-11-17 | 2023-08-18 | 中国人民解放军陆军工程大学 | 基于blstm的分频拓谱抗噪语音转换方法 |
CN112581973B (zh) * | 2020-11-27 | 2022-04-29 | 深圳大学 | 一种语音增强方法及系统 |
CN112581973A (zh) * | 2020-11-27 | 2021-03-30 | 深圳大学 | 一种语音增强方法及系统 |
CN114613384A (zh) * | 2022-03-14 | 2022-06-10 | 中国电子科技集团公司第十研究所 | 一种基于深度学习多输入语音信号波束形成信息互补方法 |
CN114613383A (zh) * | 2022-03-14 | 2022-06-10 | 中国电子科技集团公司第十研究所 | 一种机载环境下多输入语音信号波束形成信息互补方法 |
CN114613384B (zh) * | 2022-03-14 | 2023-08-29 | 中国电子科技集团公司第十研究所 | 一种基于深度学习多输入语音信号波束形成信息互补方法 |
CN116778970A (zh) * | 2023-08-25 | 2023-09-19 | 长春市鸣玺科技有限公司 | 强噪声环境下的语音检测方法 |
CN116778970B (zh) * | 2023-08-25 | 2023-11-24 | 长春市鸣玺科技有限公司 | 强噪声环境下的语音检测模型训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110473564B (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110473564A (zh) | 一种基于深度波束形成的多通道语音增强方法 | |
CN110085248B (zh) | 个人通信中降噪和回波消除时的噪声估计 | |
US7158933B2 (en) | Multi-channel speech enhancement system and method based on psychoacoustic masking effects | |
CN105869651B (zh) | 基于噪声混合相干性的双通道波束形成语音增强方法 | |
WO2016197811A1 (zh) | 一种噪声抑制方法、装置及系统 | |
WO2015196729A1 (zh) | 一种麦克风阵列语音增强方法及装置 | |
CN110728989B (zh) | 一种基于长短时记忆网络lstm的双耳语音分离方法 | |
CN110517701B (zh) | 一种麦克风阵列语音增强方法及实现装置 | |
Yousefian et al. | A coherence-based noise reduction algorithm for binaural hearing aids | |
CN108986832A (zh) | 基于语音出现概率和一致性的双耳语音去混响方法和装置 | |
CN111312275A (zh) | 一种基于子带分解的在线声源分离增强系统 | |
Spriet et al. | Stochastic gradient-based implementation of spatially preprocessed speech distortion weighted multichannel Wiener filtering for noise reduction in hearing aids | |
EP3847645B1 (en) | Determining a room response of a desired source in a reverberant environment | |
Shankar et al. | Real-time dual-channel speech enhancement by VAD assisted MVDR beamformer for hearing aid applications using smartphone | |
Li et al. | Speech enhancement algorithm based on sound source localization and scene matching for binaural digital hearing aids | |
CN114566179A (zh) | 一种时延可控的语音降噪方法 | |
Talagala et al. | Binaural localization of speech sources in the median plane using cepstral HRTF extraction | |
CN100495537C (zh) | 强鲁棒性语音分离方法 | |
Li et al. | Speech enhancement based on binaural sound source localization and cosh measure wiener filtering | |
Madhu et al. | Localisation-based, situation-adaptive mask generation for source separation | |
KR101073632B1 (ko) | 반향 환경에서의 영교차 기반 다음원 국지화 방법 및 장치 | |
Meutzner et al. | Binaural signal processing for enhanced speech recognition robustness in complex listening environments | |
CN114979904B (zh) | 基于单外部无线声学传感器速率优化的双耳维纳滤波方法 | |
Woodruff et al. | Directionality-based speech enhancement for hearing aids | |
Shanmugapriya et al. | A thorough investigation on speech enhancement techniques for hearing aids |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |