CN110473564B - 一种基于深度波束形成的多通道语音增强方法 - Google Patents

一种基于深度波束形成的多通道语音增强方法 Download PDF

Info

Publication number
CN110473564B
CN110473564B CN201910621583.2A CN201910621583A CN110473564B CN 110473564 B CN110473564 B CN 110473564B CN 201910621583 A CN201910621583 A CN 201910621583A CN 110473564 B CN110473564 B CN 110473564B
Authority
CN
China
Prior art keywords
noise
voice
speech
gev
reverberation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910621583.2A
Other languages
English (en)
Other versions
CN110473564A (zh
Inventor
张晓雷
刘书培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Shenzhen Institute of Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Shenzhen Institute of Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University, Shenzhen Institute of Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201910621583.2A priority Critical patent/CN110473564B/zh
Publication of CN110473564A publication Critical patent/CN110473564A/zh
Application granted granted Critical
Publication of CN110473564B publication Critical patent/CN110473564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

本发明涉及一种基于深度波束形成的多通道语音增强方法,首先采集多个麦克风接收到的语音信号;然后提取要处理语音的对数梅尔滤波器组特征;将每个通道的特征送入双向长短时记忆网络(BLSTM,Bidirectional Long‑Short Time Memory)得到增强后的理想比率掩膜(IRM,Ideal Ratio Mask);将得到的掩膜用于计算GEV的语音和噪声协方差矩阵,进而得到增强后的语音。相比基于MVDR波束形成器的多通道语音增强方法,本方法得到的增强语音效果更好。

Description

一种基于深度波束形成的多通道语音增强方法
技术领域
本发明涉及一种多通道语音增强方法,可以对含噪含混响语音进行处理并得到很好的增强效果。
背景技术
我们生活的环境复杂多变,一些场景下需要采集到较高语音质量时,往往会遭受各种干扰,这会极大地影响语音的质量和可懂度。语音增强的目的是,从受到噪声干扰的语音信号中滤除噪声以提高语音质量和可懂度,其中噪声干扰包括加性噪声干扰以及混响干扰。近年来深度学习被引入语音增强,这种方法的增强效果与传统方法相比有明显的优点。传统的语音增强方法假设了噪声是平稳的,从而对日常生活中更为常见的非平稳噪声很难有很好的语音处理效果。另一方面,传统方法在低信噪比条件下的增强效果很差。而基于深度学习的语音增强方法可以在低信噪比条件下对加入非平稳噪声的语音实现很好的语音增强效果。
按照采集语音的麦克风数量分类,语音增强可以分为单通道语音增强方法和多通道语音增强方法。基于深度学习的单通道增强方法可以分为两个方向,分别是基于谱映射的方法和基于时频掩膜的方法。基于时频掩膜的方法描述了干净语音与背景干扰的时频关系,而基于谱映射的方法则对应于干净语音的频谱表示。虽然基于深度学习的单通道语音增强方法可以提升语音的质量以及可懂度,但是增强后的语音会有非线性的失真。
基于深度学习的多通道语音增强使用了多个麦克风采集语音信号中的信息,其中包括了声源的空间起始点的指向性信息,所以我们可以通过传感器阵列的输入确定声源的位置,然后提取出声源的方向信息。这种方法可以分为两个分支,基于空间特征提取的方法和基于时频掩膜的波束形成方法,后者也被称为深度波束形成方法。基于空间特征提取的方法是一种使用麦克风阵列作为特征提取器来提取空间特征的方法,一般用来提取双耳时间差(ITD,Interaural Time Differences)和双耳声级差(ILD,Interaural LevelDifferences)作为基于深度神经网络(DNN,Deep Neural Network)的单通道增强的输入,这种方法只能称作是对单通道增强方法的一种简单扩展。而深度波束形成方法主要是使用单通道神经网络估计单通道时频掩膜,最后将得到的语音和噪声的空间协方差矩阵用于自适应波束形成。这种方法一方面利用到空间信息,另一方面由于后端的波束形成是一种线性方法,得到的增强语音的失真较小,所以是一种更优的方法。
发明内容
本发明解决的技术问题是:常用的基于深度波束形成的方法是使用DNN或者长短时记忆网络(LSTM,Long-Short Time Memory),然后在后端使用最小方差无失真波束形成器(MVDR,Minimum Variance Distortionless Response)进行波束形成得到增强语音。我们发明的是一种基于广义特征值(GEV,Generalized Eigenvalue)波束形成器的多通道增强方法,可以对含噪含混响语音实现较好的语音增强效果。首先采集多个麦克风接收到的语音信号;然后提取要处理语音的对数梅尔滤波器组特征;将每个通道的特征送入双向长短时记忆网络(BLSTM,Bidirectional Long-Short Time Memory)得到增强后的理想比率掩膜(IRM,Ideal Ratio Mask);将得到的掩膜用于计算GEV的语音和噪声协方差矩阵,进而得到增强后的语音。相比基于MVDR波束形成器的多通道语音增强方法,本方法得到的增强语音效果更好。
本发明的技术方案是:一种基于深度波束形成的多通道语音增强方法,其特征在于,包括以下步骤:
步骤一:通过D个麦克风采集含噪含混响语音,其中每个麦克风表示一个采集通道,包括以下子步骤:
子步骤一:分别采集从声源到每个麦克风的直达声,对噪声库中的噪声进行重采样保证直达声和噪声的采样率一致;
子步骤二:将直达声与进行重采样后的噪声按照-5dB,0dB,5dB相加后得到新的噪声分量;
子步骤三:使用镜像模型产生混响的方法(Image Model)得到含混响的语音,将上一步得到的噪声分量与含混响语音相加得到含噪含混响语音;
步骤二:对含噪含混响语音信号进行预处理,包括预加重,分帧和加窗;
步骤三:提取每个通道采集到语音的100点对数梅尔滤波器组特征;
步骤四:将若干采集通道的梅尔滤波器组特征送入已经训练好的双向长短时记忆网络(BLSTM)中得到若干理想比率掩膜(IRM),其中IRM数量和采集通道数量相同;
步骤五:将步骤四中得到的若干掩膜进行融合,得到一个掩膜;
步骤六:将步骤五中得到的掩膜和步骤一得到的含噪含混响语音通过广义特征值(GEV)波束形成器,得到增强后的语音,包括以下子步骤:
子步骤一:GEV波束形成器的参数表达式为:
Figure BDA0002125697540000031
Figure BDA0002125697540000032
Figure BDA0002125697540000033
分别为语音和噪声协方差矩阵的估计,wGEV(f)为滤波器的系数;w(f)为特征向量,(.)H表示共轭转置,f为频率;
其中
Figure BDA0002125697540000034
Figure BDA0002125697540000035
式中,η(t,f)和ξ(t,f)分别代表了对于语音和噪声的加权,是通过估计得到的时频掩膜确定的:
Figure BDA0002125697540000036
Figure BDA0002125697540000041
D代表了麦克风的数量,
Figure BDA0002125697540000042
表示对于第i个麦克风信号的估计得到的掩膜,其中i的取值范围为1到D;t表示时间;f表示频率;
子步骤二:对于S5.1中公式的计算可以归纳为一个广义特征值问题:
Figure BDA0002125697540000043
其中λ是一个特征值,实际得到的wGEV(f)是最大特征值所对应的最大特征向量;子步骤三:通过选择后滤波器滤除语音失真,获得语音源方向的无失真响应:
Figure BDA0002125697540000044
子步骤四:最终得到的增强后的语音信号为:
Figure BDA0002125697540000045
式中,wGEV(f)H表示为滤波器系数的共轭转置,y(t,f)表示输入的未经处理的含噪含混响语音。
发明效果
本发明的技术效果在于:本发明与现有技术相比,有以下的优点:
1.相比于MVDR波束形成器,GEV波束形成器不需要关于语音源到麦克风的声学传递函数的性质的假设;
2.相比于基于MVDR的增强结果,基于GEV的增强结果明显更好。对于信噪比为-5dB的含噪含混响语音,同样是使用BLSTM网络,基于MVDR的增强后语音的信号失真比(SDR,Signal-to-Distortion Ratio)为0.8028dB,而基于GEV的增强结果的SDR为4.0065dB。
附图说明
图1基于深度波束形成的语音增强流程图
具体实施方式
参见图1,下面结合附图和实施实例,对本发明作进一步详细的描述。但是所描述的具体实施实例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
本发明的技术方案是:一种基于深度波束形成的语音增强方法,具体包括以下步骤:
S1:得到四个麦克风采集的含噪含混响语音。计算从声源到每个麦克风的直达声以及包含混响的语音,将直达声和噪声按相应信噪比叠加得到的噪声与只包含混响的语音相加得到含噪含混响语音;
S2:对语音信号进行预处理,包括预加重,分帧和加窗。
S3:提取每个通道采集到语音的100点对数梅尔滤波器组特征;
S4:将4个通道的特征送入已经训练好的BLSTM中得到4个IRM;
S5:将这四个掩膜进行融合得到一个掩膜;
S6;将得到的掩膜与含噪含混响语音通过GEV波束形成器得到增强后的语音。
其中S6步骤进行波束形成的具体步骤如下:
S6.1:GEV波束形成器的目标是最大化每个时频点的信噪比,它的波束形成器参数可以通过以下的公式进行计算:
Figure BDA0002125697540000051
其中
Figure BDA0002125697540000052
Figure BDA0002125697540000053
分别为语音和噪声协方差矩阵的估计,wGEV(f)为滤波器的系数。
S6.2:通过下面的公式确定语音和噪声协方差矩阵的估计:
Figure BDA0002125697540000054
Figure BDA0002125697540000055
其中,
Figure BDA0002125697540000056
Figure BDA0002125697540000057
分别代表语音和噪声的协方差矩阵,η(t,f)和ξ(t,f)分别代表了对于语音和噪声的加权,是通过估计得到的时频掩膜确定的:
Figure BDA0002125697540000061
Figure BDA0002125697540000062
其中D代表了麦克风的数量,
Figure BDA0002125697540000063
表示对于第i个麦克风信号的估计得到的掩膜。
S6.3:对于S5.1中公式的计算可以归纳为一个广义特征值问题:
Figure BDA0002125697540000064
其中λ是一个特征值,实际得到的wGEV(f)是最大特征值所对应的最大特征向量。
S6.4:由于GEV波束形成器会引入语音失真,所以我们需要使用一个后滤波器滤除语音失真。我们选择盲分析归一化(BAN,Blind Analytic Normalization)单通道后滤波器,公式如下:
Figure BDA0002125697540000065
通过进行BAN后滤波器的滤波,可以获得语音源方向的无失真响应。
S6.5:最终得到的增强后的语音信号计算公式为:
Figure BDA0002125697540000066
如图1所示,一种基于深度波束形成的语音增强方法:首先采集多个麦克风接收到的语音信号;然后提取要处理语音的对数梅尔滤波器组特征;将每个通道的特征送入双向长短时记忆网络得到增强后的理想比率掩膜;将得到的掩膜用于计算GEV的语音和噪声协方差矩阵,进而得到增强后的语音。
1:得到四个麦克风采集的含噪含混响语音。计算从声源到每个麦克风的直达声以及包含混响的语音,将直达声和噪声按相应信噪比叠加得到的噪声与只包含混响的语音相加得到含噪含混响语音;
2:对语音信号进行预处理,包括预加重,分帧和加窗。
3:提取每个通道采集到语音的100点对数梅尔滤波器组特征;
4:将4个通道的特征送入已经训练好的BLSTM中得到4个IRM;
5:将这四个掩膜进行融合得到一个掩膜;
6;将得到的掩膜与含噪含混响语音通过GEV波束形成器得到增强后的语音。
其中步骤6进行波束形成的具体步骤如下:
6.1:GEV波束形成器的目标是最大化每个时频点的信噪比,它的波束形成器参数可以通过以下的公式进行计算:
Figure BDA0002125697540000071
其中
Figure BDA0002125697540000072
Figure BDA0002125697540000073
分别为语音和噪声协方差矩阵的估计,wGEV(f)为滤波器的系数。
6.2:通过下面的公式确定语音和噪声协方差矩阵的估计:
Figure BDA0002125697540000074
Figure BDA0002125697540000075
其中,
Figure BDA0002125697540000076
Figure BDA0002125697540000077
分别代表语音和噪声的协方差矩阵,η(t,f)和ξ(t,f)分别代表了对于语音和噪声的加权,是通过估计得到的时频掩膜确定的:
Figure BDA0002125697540000078
Figure BDA0002125697540000079
其中D代表了麦克风的数量,
Figure BDA00021256975400000710
表示对于第i个麦克风信号的估计得到的掩膜。
6.3:对于S5.1中公式的计算可以归纳为一个广义特征值问题:
Figure BDA00021256975400000711
其中λ是一个特征值,实际得到的wGEV(f)是最大特征值所对应的最大特征向量。
6.4:由于GEV波束形成器会引入语音失真,所以我们需要使用一个后滤波器滤除语音失真。我们选择盲分析归一化(BAN,Blind Analytic Normalization)单通道后滤波器,公式如下:
Figure BDA00021256975400000712
通过进行BAN后滤波器的滤波,可以获得语音源方向的无失真响应。
6.5:最终得到的增强后的语音信号计算公式为:
Figure BDA0002125697540000081
本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (1)

1.一种基于深度波束形成的多通道语音增强方法,其特征在于,包括以下步骤:
步骤一:通过D个麦克风采集含噪含混响语音,其中每个麦克风表示一个采集通道,包括以下子步骤:
S1.1:分别采集从声源到每个麦克风的直达声,对噪声库中的噪声进行重采样保证直达声和噪声的采样率一致;
S1.2:将直达声与进行重采样后的噪声按照-5dB,0dB,5dB相加后得到新的噪声分量;
S1.3:使用镜像模型产生混响的方法(Image Model)得到含混响的语音,将上一步得到的噪声分量与含混响语音相加得到含噪含混响语音;
步骤二:对含噪含混响语音信号进行预处理,包括预加重,分帧和加窗;
步骤三:提取每个通道采集到语音的100点对数梅尔滤波器组特征;
步骤四:将若干采集通道的梅尔滤波器组特征送入已经训练好的双向长短时记忆网络(BLSTM)中得到若干理想比率掩膜(IRM),其中IRM数量和采集通道数量相同;
步骤五:将步骤四中得到的若干掩膜进行融合,得到一个掩膜;
步骤六:将步骤五中得到的掩膜和步骤一得到的含噪含混响语音通过广义特征值(GEV)波束形成器,得到增强后的语音,包括以下子步骤:
S6.1:GEV波束形成器的参数表达式为:
Figure FDA0003142627260000011
Figure FDA0003142627260000012
Figure FDA0003142627260000013
分别为语音和噪声协方差矩阵的估计,wGEV(f)为滤波器的系数;w(f)为特征向量,(.)H表示共轭转置,f为频率;
S6.2:通过下面的公式确定语音和噪声协方差矩阵的估计:
Figure FDA0003142627260000014
Figure FDA0003142627260000021
其中,
Figure FDA0003142627260000022
Figure FDA0003142627260000023
分别代表语音和噪声的协方差矩阵,η(t,f)和ξ(t,f)分别代表了对于语音和噪声的加权,是通过估计得到的时频掩膜确定的:
Figure FDA0003142627260000024
Figure FDA0003142627260000025
其中D代表了麦克风的数量,
Figure FDA0003142627260000026
表示对于第i个麦克风信号的估计得到的掩膜;
S6.3:对于S6.1中公式的计算可以归纳为一个广义特征值问题:
Figure FDA0003142627260000027
其中λ是一个特征值,实际得到的wGEV(f)是最大特征值所对应的最大特征向量;
S6.4:通过选择后滤波器滤除语音失真,获得语音源方向的无失真响应:
Figure FDA0003142627260000028
S6.5:最终得到的增强后的语音信号计算公式为:
Figure FDA0003142627260000029
式中,wGEV(f)H表示为滤波器系数的共轭转置,y(t,f)表示输入的未经处理的含噪含混响语音。
CN201910621583.2A 2019-07-10 2019-07-10 一种基于深度波束形成的多通道语音增强方法 Active CN110473564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910621583.2A CN110473564B (zh) 2019-07-10 2019-07-10 一种基于深度波束形成的多通道语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910621583.2A CN110473564B (zh) 2019-07-10 2019-07-10 一种基于深度波束形成的多通道语音增强方法

Publications (2)

Publication Number Publication Date
CN110473564A CN110473564A (zh) 2019-11-19
CN110473564B true CN110473564B (zh) 2021-09-24

Family

ID=68507247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910621583.2A Active CN110473564B (zh) 2019-07-10 2019-07-10 一种基于深度波束形成的多通道语音增强方法

Country Status (1)

Country Link
CN (1) CN110473564B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110970053B (zh) * 2019-12-04 2022-03-15 西北工业大学深圳研究院 一种基于深度聚类的多通道与说话人无关语音分离方法
CN111312273A (zh) * 2020-05-11 2020-06-19 腾讯科技(深圳)有限公司 混响消除方法、装置、计算机设备和存储介质
CN111816200B (zh) * 2020-07-01 2022-07-29 电子科技大学 一种基于时频域二值掩膜的多通道语音增强方法
CN112562704B (zh) * 2020-11-17 2023-08-18 中国人民解放军陆军工程大学 基于blstm的分频拓谱抗噪语音转换方法
CN112581973B (zh) * 2020-11-27 2022-04-29 深圳大学 一种语音增强方法及系统
CN114613383B (zh) * 2022-03-14 2023-07-18 中国电子科技集团公司第十研究所 一种机载环境下多输入语音信号波束形成信息互补方法
CN114613384B (zh) * 2022-03-14 2023-08-29 中国电子科技集团公司第十研究所 一种基于深度学习多输入语音信号波束形成信息互补方法
CN116778970B (zh) * 2023-08-25 2023-11-24 长春市鸣玺科技有限公司 强噪声环境下的语音检测模型训练方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105679329A (zh) * 2016-02-04 2016-06-15 厦门大学 可适应强烈背景噪声的麦克风阵列语音增强装置
CN108831495A (zh) * 2018-06-04 2018-11-16 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法
CN109830245A (zh) * 2019-01-02 2019-05-31 北京大学 一种基于波束成形的多说话者语音分离方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8972251B2 (en) * 2011-06-07 2015-03-03 Qualcomm Incorporated Generating a masking signal on an electronic device
US10573301B2 (en) * 2018-05-18 2020-02-25 Intel Corporation Neural network based time-frequency mask estimation and beamforming for speech pre-processing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105679329A (zh) * 2016-02-04 2016-06-15 厦门大学 可适应强烈背景噪声的麦克风阵列语音增强装置
CN108831495A (zh) * 2018-06-04 2018-11-16 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法
CN109830245A (zh) * 2019-01-02 2019-05-31 北京大学 一种基于波束成形的多说话者语音分离方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A generic neural acoustic beamforming architecture for robust multi-channel speech processing;Jahn Heymann etc;《Computer Speech & Language》;20171130;第46卷;第374-385页 *
声学回声消除与波束成形语音增强方法研究;奚少亨;《万方数据库》;20181218;第1-46页 *

Also Published As

Publication number Publication date
CN110473564A (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN110473564B (zh) 一种基于深度波束形成的多通道语音增强方法
Van Eyndhoven et al. EEG-informed attended speaker extraction from recorded speech mixtures with application in neuro-steered hearing prostheses
Hadad et al. The binaural LCMV beamformer and its performance analysis
CN110970053B (zh) 一种基于深度聚类的多通道与说话人无关语音分离方法
CN109410976B (zh) 双耳助听器中基于双耳声源定位和深度学习的语音增强方法
EP2594090B1 (en) Method of signal processing in a hearing aid system and a hearing aid system
WO2007028250A2 (en) Method and device for binaural signal enhancement
CN108986832B (zh) 基于语音出现概率和一致性的双耳语音去混响方法和装置
CN113129918B (zh) 联合波束形成和深度复数U-Net网络的语音去混响方法
CN112885375A (zh) 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法
Kokkinis et al. A Wiener filter approach to microphone leakage reduction in close-microphone applications
Marin-Hurtado et al. Perceptually inspired noise-reduction method for binaural hearing aids
CN110111802A (zh) 基于卡尔曼滤波的自适应去混响方法
Lobato et al. Worst-Case-Optimization Robust-MVDR beamformer for stereo noise reduction in hearing aids
CN114566179A (zh) 一种时延可控的语音降噪方法
Li et al. Speech enhancement based on binaural sound source localization and cosh measure wiener filtering
CN113257270B (zh) 一种基于参考麦克风优化的多通道语音增强方法
Lei et al. A Low-Latency Hybrid Multi-Channel Speech Enhancement System For Hearing Aids
CN108257607B (zh) 一种多通道语音信号处理方法
Hamacher et al. Applications of adaptive signal processing methods in high-end hearing aids
Yang et al. Boosting spatial information for deep learning based multichannel speaker-independent speech separation in reverberant environments
Shanmugapriya et al. A thorough investigation on speech enhancement techniques for hearing aids
CN114979904B (zh) 基于单外部无线声学传感器速率优化的双耳维纳滤波方法
Woodruff et al. Directionality-based speech enhancement for hearing aids
Xiang et al. RLS-based adaptive dereverberation tracing abrupt position change of target speaker

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant