CN113129918A - 联合波束形成和深度复数U-Net网络的语音去混响方法 - Google Patents
联合波束形成和深度复数U-Net网络的语音去混响方法 Download PDFInfo
- Publication number
- CN113129918A CN113129918A CN202110403500.XA CN202110403500A CN113129918A CN 113129918 A CN113129918 A CN 113129918A CN 202110403500 A CN202110403500 A CN 202110403500A CN 113129918 A CN113129918 A CN 113129918A
- Authority
- CN
- China
- Prior art keywords
- output
- complex
- voice
- signal
- net network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000001228 spectrum Methods 0.000 claims abstract description 17
- 230000004044 response Effects 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000010606 normalization Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 3
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 13
- 238000012549 training Methods 0.000 description 6
- 238000004088 simulation Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000011800 void material Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明公开了一种联合波束形成和深度复数U‑Net网络的语音去混响方法。该方法包括:使用最小方差无失真响应(Minimum variance distortionless response,MVDR)波束形成器对混响语音进行预处理,抑制非目标语音方向干扰并提高信噪比;使用深度复数U‑Net网络预测期望语音的幅度和相位谱;通过短时傅里叶逆变换恢复时域的期望语音信号。本发明可用于解决会议室、教室、客厅等常见室内环境的语音去混响问题,增强智能交互设备接收到的语音信号,提高语音识别和语音唤醒的准确率。
Description
技术领域
本发明涉及语音去混响方法,尤其涉及一种联合波束形成和深度复数U-Net网络的语音去混响方法。
背景技术
语音是人类最重要、最常用的交换信息的形式之一。近年来,随着计算机科学和模式识别技术的发展,语音成为人机交互的重要手段。由于房间墙壁和其他物体的反射,麦克风在封闭环境中接收到的信号是直达波和混响的叠加。混响会破坏语音的包络和谐波等结构,导致语音质量和清晰度下降。在存在混响的情况下,自动语音识别系统的性能可能会大大降低。因此,从复杂的声学环境中提取较为纯净的目标说话人语音,发展更为稳定高效的语音交互方式显得更为迫切。
由于混响和语音之间的高度相关性,混响是增强语音的一项艰巨任务。目前,混响方法可以分为两类:混响消除和混响抑制。前者与诸如声学脉冲响应的先验数据有关,如波束成形;而后者不需要上述先验数据,如多通道线性预测和深度学习方法。多麦克风波束形成接后置滤波是最传统的去混响方法。多通道线性预测方法在声学脉冲响应等未知的情况下可以实现有效的语音去混响,但是缺陷在于计算速度缓慢,不满足实时应用的需求。波束形成方法和通道线性预测方法共有的缺点在于在低信噪比条件下,去混响的效果会大幅度下降。近年来,得益于深度学习方法的成功,语音去混响方法实现了巨大的进步。基于深度神经网络、卷积神经网络的深度学习方法在语音去混响任务上取得了突破。而如何精简模型使其满足实时应用的需求,如何更加有效的实现去混响成为了最新的问题。
发明内容
本发明针对语音去混响问题中现有深度学习方法的不足,提出一种联合波束形成和深度复数U-Net网络的语音去混响方法,联合波束形成和深度复数U-Net网络实现更高性能的去混响。
本发明的目的是通过以下技术方案来实现的:一种联合波束形成和深度复数U-Net网络的语音去混响方法,该方法包含以下步骤:
(1)使用MVDR波束形成器,对麦克风阵采集的多通道语音进行预处理,得到波束形成输出Ybf;
(2)对随机一个麦克风信号进行短时傅里叶变换,得到输出Ymic,并与波束形成输出Ybf进行拼接;
(3)将步骤2拼接得到的语音频谱特征进行归一化处理,之后分别输入三个不同空洞率的空洞卷积层进行频带特征提取,实现频带注意力机制,得到输出特征Xin;
进一步地,所述步骤(1)具体实现如下:
获得波束形成后的输出信号Ybf,公式如下:
其中X(t,f)为麦克风接收信号的频域表示,t表示时间帧。
进一步地,所述步骤(2)具体实现如下:
步骤21,使用汉宁窗将随机一个麦克风信号分成一批时间帧;
步骤22,对每一帧语音信号进行快速傅里叶变换FFT,FFT的输出为Ymic(t,f);
步骤23,将波束形成输出信号Ybf与Ymic进行拼接,输出为Yin:
Yin=[Ybf,Ymic]
进一步地,所述步骤(3)具体实现如下:
对输入的特征Yin进行归一化处理,之后分别输入三个不同空洞率的空洞卷积层进行频带特征提取,以高分辨率提取低频带,以中等的分辨率提取中频带,以最低的分辨率提取高频带;
对每一个卷积层的输出使用批量归一化进行处理,再使用非线性整流单元(ReLU)进行非线性激活;
最后将三个卷积层的输出在频率维度进行拼接,得到输出特征Xin。
进一步地,所述步骤(4)中,所述深度复数U-Net网络由一个编码器、一个解码器和镜像连接构成,输入特征为Yin;
所述编码器由五个复数卷积层构成,解码器由五个复数反卷积层和一个全连接层构成;所述解码器和编码器的镜像卷积层之间采取特征图维度的连接,即解码器每一复数反卷积层的输入特征通道数为上一复数反卷积层输出特征通道数的两倍,这是为了弥补编码器降采样过程带来的信息丢失;
复数卷积层的操作为:
Z=W*Y=(A×C-B×D)+i(B×C+A×D)
其中W=A+iB为复数卷积滤波器,Y=C+iD为复数卷积层的输入。
其中⊙表示矩阵点乘。
本发明的有益效果是:本发明联合波束形成,对多通道语音信号进行预处理,有效提高信噪比;基于复数卷积操作,对期望语音信号的相位谱实现了有效的估计,进一步提升了去混响的性能。
附图说明
图1为本发明实施例提供的联合波束形成和深度复数U-Net网络的语音去混响方法的结构图;
图2为本发明实施例中对语音频谱特征进行频带特征提取的示意图;
图3为本发明在仿真数据上的测试结果,其中,(a)混响语音的频谱,(b)本发明处理语音的频谱;
图4为本发明在浙江大学玉泉校区某房间A实验数据上的测试结果,其中,(a)混响语音的频谱,(b)本发明处理语音的频谱。
图5为本发明在浙江大学玉泉校区某房间B实验数据上的测试结果,其中,(a)混响语音的频谱,(b)本发明处理语音的频谱。
具体实施方式
下面结合附图对本发明具体实施方式做进一步说明。
如图1所示,本发明实施例提供的一种联合波束形成和深度复数U-Net网络的语音去混响方法的,具体实施方式如下:
(1)使用MVDR波束形成器,对麦克风阵采集的多通道语音进行预处理,得到波束形成输出Ybf;具体实现如下:
获得波束形成后的输出信号Ybf,公式如下:
其中X(t,f)为麦克风接收信号的频域表示,t表示时间帧。
(2)对随机一个麦克风信号xmic进行短时傅里叶变换,得到输出Ymic,并与波束形成输出Ybf进行拼接;具体实现如下:
步骤21,使用汉宁窗将随机一个麦克风信号分成一批时间帧,本实施例中使用窗长为480、窗移为160的汉宁窗;
步骤22,对每一帧语音信号进行快速傅里叶变换FFT,FFT的输出为Ymic(t,f),本实施例中采用512点的FFT;
步骤23,将波束形成输出信号Ybf与Ymic进行拼接,输出为Yin:
Yin=[Ybf,Ymic]
(3)将步骤2拼接得到的语音频谱特征进行归一化处理,之后分别输入三个不同空洞率的空洞卷积层进行频带特征提取,实现频带注意力机制,得到输出特征Xin;具体实现如下:
对输入的特征Yin进行归一化处理,之后分别输入三个不同空洞率的空洞卷积层进行频带特征提取,以高分辨率提取低频带,以中等的分辨率提取中频带,以最低的分辨率提取高频带;
对每一个卷积层的输出使用批量归一化进行处理,再使用非线性整流单元(ReLU)进行非线性激活;
最后将三个卷积层的输出在频率维度进行拼接,得到输出特征Xin;
如图2所示,本实施例中采用空洞率为1,2,4,卷积核大小为3*3,输出通道数为16的三个空洞卷积层。
具体的,所述深度复数U-Net网络由一个编码器、一个解码器和镜像连接构成,输入特征为Yin;所述编码器由五个复数卷积层构成,解码器由五个复数反卷积层和一个全连接层构成;
本实施例中各结构的超参数如表1所示,空洞卷积层以“输入通道数*卷积核尺寸*输出通道数,空洞率”的格式给出,复数卷积层和复数反卷积的超参数以“输入通道数*卷积核尺寸*输出通道数,步长”的格式给出,全连接层的超参数以“输入节点数*输出节点数”的格式给出。
表1:深度复数U-Net网络超参数表
所述解码器和编码器的镜像卷积层之间采取特征图维度的连接,即解码器每一复数反卷积层的输入特征通道数为上一复数反卷积层输出特征通道数的两倍,这是为了弥补编码器降采样过程带来的信息丢失;
复数卷积层的操作为:
Z=W*Y=(A×C-B×D)+i(B×C+A×D)
其中W=A+iB为复数卷积滤波器,Y=C+iD为复数卷积层的输入。
其中⊙表示矩阵点乘。
上述网络模型构建完成后,需要基于大量的训练数据进行模型的迭代优化。混响语音训练集使用了THCHS-30开源语料的训练子集,时长共109小时,混响时间为150-600ms,信噪比为0-30dB,采样率为16kHz。本发明提出的方法基于Pytorch 1.3.1实现,初始学习率设置为0.001,Adam优化器用于调整学习率,批大小为4。在每一批中,所有的训练样本都通过补零来保持同样的长度。最后,网络训练的步数为500,000步。
网络训练时使用尺度不变的信号失真比(scale invariant signal-to-distortion ratio,SI-SDR)作为损失函数,SI-SDR由下式表示:
申请人通过实验验证了本发明提出方法的去混响效果,为了评价去混响后语音的质量、可懂度以及失真情况,使用语音混响调制能量比(Speech-to-ReverberationModulation Energy Ratio,SRMR)、语音感知质量评估(Perceptual Evaluation ofSpeech Quality,PESQ)和短时客观可懂度(Short-Time Objective Intelligibility,STOI)来评估去混响语音。所用测试集分为两部分,一是THCHS-30数据集中的测试子集,二是在浙江大学玉泉校区信电楼A室、B室采集的混响语音数据,测试集具体参数如表2所示。
图3展示了THCHS-30测试样例的测试结果,图4展示了浙江大学玉泉校区信电楼A室的实验结果,图5展示了浙江大学玉泉校区信电楼B室的实验结果。表3-表6展示了本发明提出的方法在上述测试集上的测试结果,测试结果表明,本发明提出的方法不仅可以在仿真测试集上取得很好的语音去混响效果,在真实环境中,不同混响时间和信噪比的情况下,本发明提出的方法也可以实现较好的语音去混响,具备较好的去混响鲁棒性。另外,申请人进行主观听音时发现,该方法处理过的语音具有很好的可懂度和质量,听起来比较舒适。
表2:语音去混响测试集
表3:语音去混响仿真结果
指标 | SRMR(dB) | PESQ | STOI |
混响语音 | 5.78 | 2.41 | 0.74 |
去混响语音 | 13.62 | 3.13 | 0.89 |
表4:不同声源距离的语音去混响仿真结果
表5:不同混响时间的语音去混响仿真结果
表6:语音去混响实验结果
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的优选实施例子,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种联合波束形成和深度复数U-Net网络的语音去混响方法,其特征在于,包含以下步骤:
(1)使用MVDR波束形成器,对麦克风阵采集的多通道语音进行预处理,得到波束形成输出Ybf;
(2)对随机一个麦克风信号进行短时傅里叶变换,得到输出Ymic,并与波束形成输出Ybf进行拼接;
(3)将步骤2拼接得到的语音频谱特征进行归一化处理,之后分别输入三个不同空洞率的空洞卷积层进行频带特征提取,实现频带注意力机制,得到输出特征Xin;
3.根据权利要求1所述的联合波束形成和深度复数U-Net网络的语音去混响方法,其特征在于,所述步骤(2)具体实现如下:
步骤21,使用汉宁窗将随机一个麦克风信号分成一批时间帧;
步骤22,对每一帧语音信号进行快速傅里叶变换FFT,FFT的输出为Ymic(t,f);
步骤23,将波束形成输出信号Ybf与Ymic进行拼接,输出为Yin:
Yin=[Ybf,Ymic]
4.根据权利要求1所述的联合波束形成和深度复数U-Net网络的语音去混响方法,其特征在于,所述步骤(3)具体实现如下:
对输入的特征Yin进行归一化处理,之后分别输入三个不同空洞率的空洞卷积层进行频带特征提取,以高分辨率提取低频带,以中等的分辨率提取中频带,以最低的分辨率提取高频带;
对每一个卷积层的输出使用批量归一化进行处理,再使用非线性整流单元(ReLU)进行非线性激活;
最后将三个卷积层的输出在频率维度进行拼接,得到输出特征Xin。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110403500.XA CN113129918B (zh) | 2021-04-15 | 2021-04-15 | 联合波束形成和深度复数U-Net网络的语音去混响方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110403500.XA CN113129918B (zh) | 2021-04-15 | 2021-04-15 | 联合波束形成和深度复数U-Net网络的语音去混响方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113129918A true CN113129918A (zh) | 2021-07-16 |
CN113129918B CN113129918B (zh) | 2022-05-03 |
Family
ID=76776460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110403500.XA Active CN113129918B (zh) | 2021-04-15 | 2021-04-15 | 联合波束形成和深度复数U-Net网络的语音去混响方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113129918B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113541753A (zh) * | 2021-07-20 | 2021-10-22 | 电子科技大学 | 基于复数卷积网络的混合波束成形方法 |
CN113593590A (zh) * | 2021-07-23 | 2021-11-02 | 哈尔滨理工大学 | 一种语音中瞬态噪声的抑制方法 |
CN113689878A (zh) * | 2021-07-26 | 2021-11-23 | 浙江大华技术股份有限公司 | 回声消除方法、回声消除装置及计算机可读存储介质 |
CN113835065A (zh) * | 2021-09-01 | 2021-12-24 | 深圳壹秘科技有限公司 | 基于深度学习的声源方向确定方法、装置、设备及介质 |
CN117219107A (zh) * | 2023-11-08 | 2023-12-12 | 腾讯科技(深圳)有限公司 | 一种回声消除模型的训练方法、装置、设备及存储介质 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102290047A (zh) * | 2011-09-22 | 2011-12-21 | 哈尔滨工业大学 | 基于稀疏分解与重构的鲁棒语音特征提取方法 |
CN104900235A (zh) * | 2015-05-25 | 2015-09-09 | 重庆大学 | 基于基音周期混合特征参数的声纹识别方法 |
CN107871498A (zh) * | 2017-10-10 | 2018-04-03 | 昆明理工大学 | 一种基于Fisher准则以提高语音识别率的混合特征组合算法 |
US20190043491A1 (en) * | 2018-05-18 | 2019-02-07 | Intel Corporation | Neural network based time-frequency mask estimation and beamforming for speech pre-processing |
CN109448751A (zh) * | 2018-12-29 | 2019-03-08 | 中国科学院声学研究所 | 一种基于深度学习的双耳语音增强方法 |
CN109887489A (zh) * | 2019-02-23 | 2019-06-14 | 天津大学 | 基于生成对抗网络的深度特征的语音去混响方法 |
US20190318757A1 (en) * | 2018-04-11 | 2019-10-17 | Microsoft Technology Licensing, Llc | Multi-microphone speech separation |
CN110751957A (zh) * | 2019-09-25 | 2020-02-04 | 电子科技大学 | 一种使用堆叠多尺度模块的语音增强方法 |
EP3608903A1 (en) * | 2018-08-06 | 2020-02-12 | Spotify AB | Singing voice separation with deep u-net convulutional networks |
US20200066296A1 (en) * | 2018-08-21 | 2020-02-27 | 2Hz, Inc | Speech Enhancement And Noise Suppression Systems And Methods |
CN110867196A (zh) * | 2019-12-03 | 2020-03-06 | 桂林理工大学 | 一种基于深度学习及声音识别的机器设备状态监测系统 |
US20200184987A1 (en) * | 2020-02-10 | 2020-06-11 | Intel Corporation | Noise reduction using specific disturbance models |
CN111508504A (zh) * | 2020-04-08 | 2020-08-07 | 郑州大学 | 基于听觉中枢感知机理的说话人识别方法 |
CN111883166A (zh) * | 2020-07-17 | 2020-11-03 | 北京百度网讯科技有限公司 | 一种语音信号处理方法、装置、设备以及存储介质 |
CN111883091A (zh) * | 2020-07-09 | 2020-11-03 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频降噪方法和音频降噪模型的训练方法 |
US20210029473A1 (en) * | 2018-07-17 | 2021-01-28 | Marcos Antonio Cantu | Assistive listening device and human-computer interface using short-time target cancellation for improved speech intelligibility |
-
2021
- 2021-04-15 CN CN202110403500.XA patent/CN113129918B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102290047A (zh) * | 2011-09-22 | 2011-12-21 | 哈尔滨工业大学 | 基于稀疏分解与重构的鲁棒语音特征提取方法 |
CN104900235A (zh) * | 2015-05-25 | 2015-09-09 | 重庆大学 | 基于基音周期混合特征参数的声纹识别方法 |
CN107871498A (zh) * | 2017-10-10 | 2018-04-03 | 昆明理工大学 | 一种基于Fisher准则以提高语音识别率的混合特征组合算法 |
US20190318757A1 (en) * | 2018-04-11 | 2019-10-17 | Microsoft Technology Licensing, Llc | Multi-microphone speech separation |
US20190043491A1 (en) * | 2018-05-18 | 2019-02-07 | Intel Corporation | Neural network based time-frequency mask estimation and beamforming for speech pre-processing |
US20210029473A1 (en) * | 2018-07-17 | 2021-01-28 | Marcos Antonio Cantu | Assistive listening device and human-computer interface using short-time target cancellation for improved speech intelligibility |
EP3608903A1 (en) * | 2018-08-06 | 2020-02-12 | Spotify AB | Singing voice separation with deep u-net convulutional networks |
US20200066296A1 (en) * | 2018-08-21 | 2020-02-27 | 2Hz, Inc | Speech Enhancement And Noise Suppression Systems And Methods |
CN109448751A (zh) * | 2018-12-29 | 2019-03-08 | 中国科学院声学研究所 | 一种基于深度学习的双耳语音增强方法 |
CN109887489A (zh) * | 2019-02-23 | 2019-06-14 | 天津大学 | 基于生成对抗网络的深度特征的语音去混响方法 |
CN110751957A (zh) * | 2019-09-25 | 2020-02-04 | 电子科技大学 | 一种使用堆叠多尺度模块的语音增强方法 |
CN110867196A (zh) * | 2019-12-03 | 2020-03-06 | 桂林理工大学 | 一种基于深度学习及声音识别的机器设备状态监测系统 |
US20200184987A1 (en) * | 2020-02-10 | 2020-06-11 | Intel Corporation | Noise reduction using specific disturbance models |
CN111508504A (zh) * | 2020-04-08 | 2020-08-07 | 郑州大学 | 基于听觉中枢感知机理的说话人识别方法 |
CN111883091A (zh) * | 2020-07-09 | 2020-11-03 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频降噪方法和音频降噪模型的训练方法 |
CN111883166A (zh) * | 2020-07-17 | 2020-11-03 | 北京百度网讯科技有限公司 | 一种语音信号处理方法、装置、设备以及存储介质 |
Non-Patent Citations (2)
Title |
---|
ZHONG-QIU WANG 等: "MULTI-MICROPHONE COMPLEX SPECTRAL MAPPING FOR SPEECH DEREVERBERATION", 《百度学术》 * |
崔凌赫: "基于深度学习和波束形成的双麦克风语音增强", 《万方》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113541753A (zh) * | 2021-07-20 | 2021-10-22 | 电子科技大学 | 基于复数卷积网络的混合波束成形方法 |
CN113593590A (zh) * | 2021-07-23 | 2021-11-02 | 哈尔滨理工大学 | 一种语音中瞬态噪声的抑制方法 |
CN113689878A (zh) * | 2021-07-26 | 2021-11-23 | 浙江大华技术股份有限公司 | 回声消除方法、回声消除装置及计算机可读存储介质 |
CN113835065A (zh) * | 2021-09-01 | 2021-12-24 | 深圳壹秘科技有限公司 | 基于深度学习的声源方向确定方法、装置、设备及介质 |
CN113835065B (zh) * | 2021-09-01 | 2024-05-17 | 深圳壹秘科技有限公司 | 基于深度学习的声源方向确定方法、装置、设备及介质 |
CN117219107A (zh) * | 2023-11-08 | 2023-12-12 | 腾讯科技(深圳)有限公司 | 一种回声消除模型的训练方法、装置、设备及存储介质 |
CN117219107B (zh) * | 2023-11-08 | 2024-01-30 | 腾讯科技(深圳)有限公司 | 一种回声消除模型的训练方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113129918B (zh) | 2022-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113129918B (zh) | 联合波束形成和深度复数U-Net网络的语音去混响方法 | |
CN107452389B (zh) | 一种通用的单声道实时降噪方法 | |
CN106782590B (zh) | 基于混响环境下麦克风阵列波束形成方法 | |
CN110970053B (zh) | 一种基于深度聚类的多通道与说话人无关语音分离方法 | |
CN107919133B (zh) | 针对目标对象的语音增强系统及语音增强方法 | |
CN107479030B (zh) | 基于分频和改进的广义互相关双耳时延估计方法 | |
CN101593522B (zh) | 一种全频域数字助听方法和设备 | |
CN101460999B (zh) | 盲信号提取 | |
CN105869651A (zh) | 基于噪声混合相干性的双通道波束形成语音增强方法 | |
CN111312269B (zh) | 一种智能音箱中的快速回声消除方法 | |
CN110473564A (zh) | 一种基于深度波束形成的多通道语音增强方法 | |
Fahim et al. | PSD estimation and source separation in a noisy reverberant environment using a spherical microphone array | |
CN110660406A (zh) | 近距离交谈场景下双麦克风移动电话的实时语音降噪方法 | |
CN115424627A (zh) | 基于卷积循环网络和wpe算法的语音增强混合处理方法 | |
Kovalyov et al. | Dsenet: Directional signal extraction network for hearing improvement on edge devices | |
CN114242104A (zh) | 语音降噪的方法、装置、设备及存储介质 | |
CN110838303B (zh) | 一种利用传声器阵列的语音声源定位方法 | |
Geng et al. | A speech enhancement method based on the combination of microphone array and parabolic reflector | |
CN115713943A (zh) | 基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法 | |
Li et al. | Speech separation based on reliable binaural cues with two-stage neural network in noisy-reverberant environments | |
JP2024508821A (ja) | ニューラルネットワークを用いたビームフォーミング方法及びビームフォーミングシステム | |
Han et al. | Multi-channel speech denoising for machine ears | |
Kawase et al. | Automatic parameter switching of noise reduction for speech recognition | |
CN112269158A (zh) | 一种基于unet结构利用传声器阵列语音源定位方法 | |
CN112420068A (zh) | 一种基于Mel频率尺度分频的快速自适应波束形成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |