CN113129918A - 联合波束形成和深度复数U-Net网络的语音去混响方法 - Google Patents

联合波束形成和深度复数U-Net网络的语音去混响方法 Download PDF

Info

Publication number
CN113129918A
CN113129918A CN202110403500.XA CN202110403500A CN113129918A CN 113129918 A CN113129918 A CN 113129918A CN 202110403500 A CN202110403500 A CN 202110403500A CN 113129918 A CN113129918 A CN 113129918A
Authority
CN
China
Prior art keywords
output
complex
voice
signal
net network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110403500.XA
Other languages
English (en)
Other versions
CN113129918B (zh
Inventor
潘翔
朱训谕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110403500.XA priority Critical patent/CN113129918B/zh
Publication of CN113129918A publication Critical patent/CN113129918A/zh
Application granted granted Critical
Publication of CN113129918B publication Critical patent/CN113129918B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明公开了一种联合波束形成和深度复数U‑Net网络的语音去混响方法。该方法包括:使用最小方差无失真响应(Minimum variance distortionless response,MVDR)波束形成器对混响语音进行预处理,抑制非目标语音方向干扰并提高信噪比;使用深度复数U‑Net网络预测期望语音的幅度和相位谱;通过短时傅里叶逆变换恢复时域的期望语音信号。本发明可用于解决会议室、教室、客厅等常见室内环境的语音去混响问题,增强智能交互设备接收到的语音信号,提高语音识别和语音唤醒的准确率。

Description

联合波束形成和深度复数U-Net网络的语音去混响方法
技术领域
本发明涉及语音去混响方法,尤其涉及一种联合波束形成和深度复数U-Net网络的语音去混响方法。
背景技术
语音是人类最重要、最常用的交换信息的形式之一。近年来,随着计算机科学和模式识别技术的发展,语音成为人机交互的重要手段。由于房间墙壁和其他物体的反射,麦克风在封闭环境中接收到的信号是直达波和混响的叠加。混响会破坏语音的包络和谐波等结构,导致语音质量和清晰度下降。在存在混响的情况下,自动语音识别系统的性能可能会大大降低。因此,从复杂的声学环境中提取较为纯净的目标说话人语音,发展更为稳定高效的语音交互方式显得更为迫切。
由于混响和语音之间的高度相关性,混响是增强语音的一项艰巨任务。目前,混响方法可以分为两类:混响消除和混响抑制。前者与诸如声学脉冲响应的先验数据有关,如波束成形;而后者不需要上述先验数据,如多通道线性预测和深度学习方法。多麦克风波束形成接后置滤波是最传统的去混响方法。多通道线性预测方法在声学脉冲响应等未知的情况下可以实现有效的语音去混响,但是缺陷在于计算速度缓慢,不满足实时应用的需求。波束形成方法和通道线性预测方法共有的缺点在于在低信噪比条件下,去混响的效果会大幅度下降。近年来,得益于深度学习方法的成功,语音去混响方法实现了巨大的进步。基于深度神经网络、卷积神经网络的深度学习方法在语音去混响任务上取得了突破。而如何精简模型使其满足实时应用的需求,如何更加有效的实现去混响成为了最新的问题。
发明内容
本发明针对语音去混响问题中现有深度学习方法的不足,提出一种联合波束形成和深度复数U-Net网络的语音去混响方法,联合波束形成和深度复数U-Net网络实现更高性能的去混响。
本发明的目的是通过以下技术方案来实现的:一种联合波束形成和深度复数U-Net网络的语音去混响方法,该方法包含以下步骤:
(1)使用MVDR波束形成器,对麦克风阵采集的多通道语音进行预处理,得到波束形成输出Ybf
(2)对随机一个麦克风信号进行短时傅里叶变换,得到输出Ymic,并与波束形成输出Ybf进行拼接;
(3)将步骤2拼接得到的语音频谱特征进行归一化处理,之后分别输入三个不同空洞率的空洞卷积层进行频带特征提取,实现频带注意力机制,得到输出特征Xin
(4)基于深度复数U-Net网络和输入特征Xin预测复数值比率掩膜(Complex-valuedRatio Mask,cRM),通过复数值比率掩膜与Ymic相乘得到期望语音信号的频谱
Figure BDA0003021299230000021
(5)利用短时傅里叶逆变换处理网络的输出
Figure BDA0003021299230000022
得到期望语音信号的时域表示
Figure BDA0003021299230000023
进一步地,所述步骤(1)具体实现如下:
记MVDR波束形成器的权向量
Figure BDA0003021299230000024
的公式如下:
Figure BDA0003021299230000025
其中
Figure BDA0003021299230000026
表示麦克风接收信号的协方差矩阵,
Figure BDA0003021299230000027
表示麦克风q对应的房间冲激响应,(·)H表示转置操作,f表示频点;
获得波束形成后的输出信号Ybf,公式如下:
Figure BDA0003021299230000028
其中X(t,f)为麦克风接收信号的频域表示,t表示时间帧。
进一步地,所述步骤(2)具体实现如下:
步骤21,使用汉宁窗将随机一个麦克风信号分成一批时间帧;
步骤22,对每一帧语音信号进行快速傅里叶变换FFT,FFT的输出为Ymic(t,f);
步骤23,将波束形成输出信号Ybf与Ymic进行拼接,输出为Yin
Yin=[Ybf,Ymic]
进一步地,所述步骤(3)具体实现如下:
对输入的特征Yin进行归一化处理,之后分别输入三个不同空洞率的空洞卷积层进行频带特征提取,以高分辨率提取低频带,以中等的分辨率提取中频带,以最低的分辨率提取高频带;
对每一个卷积层的输出使用批量归一化进行处理,再使用非线性整流单元(ReLU)进行非线性激活;
最后将三个卷积层的输出在频率维度进行拼接,得到输出特征Xin
进一步地,所述步骤(4)中,所述深度复数U-Net网络由一个编码器、一个解码器和镜像连接构成,输入特征为Yin
所述编码器由五个复数卷积层构成,解码器由五个复数反卷积层和一个全连接层构成;所述解码器和编码器的镜像卷积层之间采取特征图维度的连接,即解码器每一复数反卷积层的输入特征通道数为上一复数反卷积层输出特征通道数的两倍,这是为了弥补编码器降采样过程带来的信息丢失;
复数卷积层的操作为:
Z=W*Y=(A×C-B×D)+i(B×C+A×D)
其中W=A+iB为复数卷积滤波器,Y=C+iD为复数卷积层的输入。
复数卷积层的输出使用复数批量归一化进行处理,得到输出
Figure BDA0003021299230000031
公式如下:
Figure BDA0003021299230000032
Figure BDA0003021299230000033
其中Ε表示均值计算,cov表示协方差计算,
Figure BDA0003021299230000034
Figure BDA0003021299230000035
分别表示Z的实部和虚部。
复数批量归一化的输出使用复数非线性整流单元(CReLU)进行非线性激活,得到输出
Figure BDA0003021299230000041
公式如下:
Figure BDA0003021299230000042
使用双曲正切函数(tanh)对网络输出进行非线性激活,得到估计的复数值比率掩膜
Figure BDA0003021299230000043
获得估计的期望语音信号的频谱
Figure BDA0003021299230000044
公式如下:
Figure BDA0003021299230000045
其中⊙表示矩阵点乘。
进一步地,所述步骤(5)中,利用短时傅里叶逆变换处理网络的输出
Figure BDA0003021299230000046
多帧信号进行拼接得到期望语音信号的时域表示
Figure BDA0003021299230000047
实现语音去混响。
本发明的有益效果是:本发明联合波束形成,对多通道语音信号进行预处理,有效提高信噪比;基于复数卷积操作,对期望语音信号的相位谱实现了有效的估计,进一步提升了去混响的性能。
附图说明
图1为本发明实施例提供的联合波束形成和深度复数U-Net网络的语音去混响方法的结构图;
图2为本发明实施例中对语音频谱特征进行频带特征提取的示意图;
图3为本发明在仿真数据上的测试结果,其中,(a)混响语音的频谱,(b)本发明处理语音的频谱;
图4为本发明在浙江大学玉泉校区某房间A实验数据上的测试结果,其中,(a)混响语音的频谱,(b)本发明处理语音的频谱。
图5为本发明在浙江大学玉泉校区某房间B实验数据上的测试结果,其中,(a)混响语音的频谱,(b)本发明处理语音的频谱。
具体实施方式
下面结合附图对本发明具体实施方式做进一步说明。
如图1所示,本发明实施例提供的一种联合波束形成和深度复数U-Net网络的语音去混响方法的,具体实施方式如下:
(1)使用MVDR波束形成器,对麦克风阵采集的多通道语音进行预处理,得到波束形成输出Ybf;具体实现如下:
记MVDR波束形成器的权向量
Figure BDA0003021299230000051
的公式如下:
Figure BDA0003021299230000052
其中
Figure BDA0003021299230000053
表示麦克风接收信号的协方差矩阵,
Figure BDA0003021299230000054
表示麦克风q对应的房间冲激响应,(·)H表示转置操作,f表示频点;
获得波束形成后的输出信号Ybf,公式如下:
Figure BDA0003021299230000055
其中X(t,f)为麦克风接收信号的频域表示,t表示时间帧。
(2)对随机一个麦克风信号xmic进行短时傅里叶变换,得到输出Ymic,并与波束形成输出Ybf进行拼接;具体实现如下:
步骤21,使用汉宁窗将随机一个麦克风信号分成一批时间帧,本实施例中使用窗长为480、窗移为160的汉宁窗;
步骤22,对每一帧语音信号进行快速傅里叶变换FFT,FFT的输出为Ymic(t,f),本实施例中采用512点的FFT;
步骤23,将波束形成输出信号Ybf与Ymic进行拼接,输出为Yin
Yin=[Ybf,Ymic]
(3)将步骤2拼接得到的语音频谱特征进行归一化处理,之后分别输入三个不同空洞率的空洞卷积层进行频带特征提取,实现频带注意力机制,得到输出特征Xin;具体实现如下:
对输入的特征Yin进行归一化处理,之后分别输入三个不同空洞率的空洞卷积层进行频带特征提取,以高分辨率提取低频带,以中等的分辨率提取中频带,以最低的分辨率提取高频带;
对每一个卷积层的输出使用批量归一化进行处理,再使用非线性整流单元(ReLU)进行非线性激活;
最后将三个卷积层的输出在频率维度进行拼接,得到输出特征Xin
如图2所示,本实施例中采用空洞率为1,2,4,卷积核大小为3*3,输出通道数为16的三个空洞卷积层。
(4)基于深度复数U-Net网络和输入特征Xin预测复数值比率掩膜,通过复数值比率掩膜与Ymic相乘得到期望语音信号的频谱
Figure BDA0003021299230000061
具体的,所述深度复数U-Net网络由一个编码器、一个解码器和镜像连接构成,输入特征为Yin;所述编码器由五个复数卷积层构成,解码器由五个复数反卷积层和一个全连接层构成;
本实施例中各结构的超参数如表1所示,空洞卷积层以“输入通道数*卷积核尺寸*输出通道数,空洞率”的格式给出,复数卷积层和复数反卷积的超参数以“输入通道数*卷积核尺寸*输出通道数,步长”的格式给出,全连接层的超参数以“输入节点数*输出节点数”的格式给出。
表1:深度复数U-Net网络超参数表
Figure BDA0003021299230000062
所述解码器和编码器的镜像卷积层之间采取特征图维度的连接,即解码器每一复数反卷积层的输入特征通道数为上一复数反卷积层输出特征通道数的两倍,这是为了弥补编码器降采样过程带来的信息丢失;
复数卷积层的操作为:
Z=W*Y=(A×C-B×D)+i(B×C+A×D)
其中W=A+iB为复数卷积滤波器,Y=C+iD为复数卷积层的输入。
复数卷积层的输出使用复数批量归一化进行处理,得到输出
Figure BDA0003021299230000071
公式如下:
Figure BDA0003021299230000072
Figure BDA0003021299230000073
其中Ε表示均值计算,cov表示协方差计算,
Figure BDA0003021299230000074
分别表示Z的实部和虚部。
复数批量归一化的输出使用复数非线性整流单元(CReLU)进行非线性激活,得到输出
Figure BDA0003021299230000075
公式如下:
Figure BDA0003021299230000076
使用双曲正切函数(tanh)对网络输出进行非线性激活,得到估计的复数值比率掩膜
Figure BDA0003021299230000077
获得估计的期望语音信号的频谱
Figure BDA0003021299230000078
公式如下:
Figure BDA0003021299230000079
其中⊙表示矩阵点乘。
(5)利用短时傅里叶逆变换处理网络的输出
Figure BDA00030212992300000710
多帧信号进行拼接得到期望语音信号的时域表示
Figure BDA00030212992300000711
实现语音去混响。
上述网络模型构建完成后,需要基于大量的训练数据进行模型的迭代优化。混响语音训练集使用了THCHS-30开源语料的训练子集,时长共109小时,混响时间为150-600ms,信噪比为0-30dB,采样率为16kHz。本发明提出的方法基于Pytorch 1.3.1实现,初始学习率设置为0.001,Adam优化器用于调整学习率,批大小为4。在每一批中,所有的训练样本都通过补零来保持同样的长度。最后,网络训练的步数为500,000步。
网络训练时使用尺度不变的信号失真比(scale invariant signal-to-distortion ratio,SI-SDR)作为损失函数,SI-SDR由下式表示:
Figure BDA0003021299230000081
申请人通过实验验证了本发明提出方法的去混响效果,为了评价去混响后语音的质量、可懂度以及失真情况,使用语音混响调制能量比(Speech-to-ReverberationModulation Energy Ratio,SRMR)、语音感知质量评估(Perceptual Evaluation ofSpeech Quality,PESQ)和短时客观可懂度(Short-Time Objective Intelligibility,STOI)来评估去混响语音。所用测试集分为两部分,一是THCHS-30数据集中的测试子集,二是在浙江大学玉泉校区信电楼A室、B室采集的混响语音数据,测试集具体参数如表2所示。
图3展示了THCHS-30测试样例的测试结果,图4展示了浙江大学玉泉校区信电楼A室的实验结果,图5展示了浙江大学玉泉校区信电楼B室的实验结果。表3-表6展示了本发明提出的方法在上述测试集上的测试结果,测试结果表明,本发明提出的方法不仅可以在仿真测试集上取得很好的语音去混响效果,在真实环境中,不同混响时间和信噪比的情况下,本发明提出的方法也可以实现较好的语音去混响,具备较好的去混响鲁棒性。另外,申请人进行主观听音时发现,该方法处理过的语音具有很好的可懂度和质量,听起来比较舒适。
表2:语音去混响测试集
Figure BDA0003021299230000082
表3:语音去混响仿真结果
指标 SRMR(dB) PESQ STOI
混响语音 5.78 2.41 0.74
去混响语音 13.62 3.13 0.89
表4:不同声源距离的语音去混响仿真结果
Figure BDA0003021299230000091
表5:不同混响时间的语音去混响仿真结果
Figure BDA0003021299230000092
表6:语音去混响实验结果
Figure BDA0003021299230000093
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的优选实施例子,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种联合波束形成和深度复数U-Net网络的语音去混响方法,其特征在于,包含以下步骤:
(1)使用MVDR波束形成器,对麦克风阵采集的多通道语音进行预处理,得到波束形成输出Ybf
(2)对随机一个麦克风信号进行短时傅里叶变换,得到输出Ymic,并与波束形成输出Ybf进行拼接;
(3)将步骤2拼接得到的语音频谱特征进行归一化处理,之后分别输入三个不同空洞率的空洞卷积层进行频带特征提取,实现频带注意力机制,得到输出特征Xin
(4)基于深度复数U-Net网络和输入特征Xin预测复数值比率掩膜,通过复数值比率掩膜与Ymic相乘得到期望语音信号的频谱
Figure FDA0003021299220000011
(5)利用短时傅里叶逆变换处理网络的输出
Figure FDA0003021299220000012
得到期望语音信号的时域表示
Figure FDA0003021299220000013
2.根据权利要求1所述的联合波束形成和深度复数U-Net网络的语音去混响方法,其特征在于,所述步骤(1)具体实现如下:
记MVDR波束形成器的权向量
Figure FDA0003021299220000014
的公式如下:
Figure FDA0003021299220000015
其中
Figure FDA0003021299220000016
表示麦克风接收信号的协方差矩阵,
Figure FDA0003021299220000017
表示麦克风q对应的房间冲激响应,(·)H表示转置操作,f表示频点;
获得波束形成后的输出信号Ybf,公式如下:
Figure FDA0003021299220000018
其中X(t,f)为麦克风接收信号的频域表示,t表示时间帧。
3.根据权利要求1所述的联合波束形成和深度复数U-Net网络的语音去混响方法,其特征在于,所述步骤(2)具体实现如下:
步骤21,使用汉宁窗将随机一个麦克风信号分成一批时间帧;
步骤22,对每一帧语音信号进行快速傅里叶变换FFT,FFT的输出为Ymic(t,f);
步骤23,将波束形成输出信号Ybf与Ymic进行拼接,输出为Yin
Yin=[Ybf,Ymic]
4.根据权利要求1所述的联合波束形成和深度复数U-Net网络的语音去混响方法,其特征在于,所述步骤(3)具体实现如下:
对输入的特征Yin进行归一化处理,之后分别输入三个不同空洞率的空洞卷积层进行频带特征提取,以高分辨率提取低频带,以中等的分辨率提取中频带,以最低的分辨率提取高频带;
对每一个卷积层的输出使用批量归一化进行处理,再使用非线性整流单元(ReLU)进行非线性激活;
最后将三个卷积层的输出在频率维度进行拼接,得到输出特征Xin
5.根据权利要求1所述的联合波束形成和深度复数U-Net网络的语音去混响方法,其特征在于,所述步骤(4)中,所述深度复数U-Net网络由一个编码器、一个解码器和镜像连接构成,输入特征为Yin
所述编码器由五个复数卷积层构成,解码器由五个复数反卷积层和一个全连接层构成;所述解码器和编码器的镜像卷积层之间采取特征图维度的连接;
所述复数卷积层的输出使用复数批量归一化进行处理;复数批量归一化的输出使用复数非线性整流单元(CReLU)进行非线性激活;最后使用双曲正切函数(tanh)对网络输出进行非线性激活,得到估计的复数值比率掩膜
Figure FDA0003021299220000021
获得估计的期望语音信号的频谱
Figure FDA0003021299220000022
公式如下:
Figure FDA0003021299220000023
其中⊙表示矩阵点乘。
6.根据权利要求1所述的联合波束形成和深度复数U-Net网络的语音去混响方法,其特征在于,所述步骤(5)中,利用短时傅里叶逆变换处理网络的输出
Figure FDA0003021299220000031
多帧信号进行拼接得到期望语音信号的时域表示
Figure FDA0003021299220000032
实现语音去混响。
CN202110403500.XA 2021-04-15 2021-04-15 联合波束形成和深度复数U-Net网络的语音去混响方法 Active CN113129918B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110403500.XA CN113129918B (zh) 2021-04-15 2021-04-15 联合波束形成和深度复数U-Net网络的语音去混响方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110403500.XA CN113129918B (zh) 2021-04-15 2021-04-15 联合波束形成和深度复数U-Net网络的语音去混响方法

Publications (2)

Publication Number Publication Date
CN113129918A true CN113129918A (zh) 2021-07-16
CN113129918B CN113129918B (zh) 2022-05-03

Family

ID=76776460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110403500.XA Active CN113129918B (zh) 2021-04-15 2021-04-15 联合波束形成和深度复数U-Net网络的语音去混响方法

Country Status (1)

Country Link
CN (1) CN113129918B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113541753A (zh) * 2021-07-20 2021-10-22 电子科技大学 基于复数卷积网络的混合波束成形方法
CN113593590A (zh) * 2021-07-23 2021-11-02 哈尔滨理工大学 一种语音中瞬态噪声的抑制方法
CN113689878A (zh) * 2021-07-26 2021-11-23 浙江大华技术股份有限公司 回声消除方法、回声消除装置及计算机可读存储介质
CN113835065A (zh) * 2021-09-01 2021-12-24 深圳壹秘科技有限公司 基于深度学习的声源方向确定方法、装置、设备及介质
CN117219107A (zh) * 2023-11-08 2023-12-12 腾讯科技(深圳)有限公司 一种回声消除模型的训练方法、装置、设备及存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102290047A (zh) * 2011-09-22 2011-12-21 哈尔滨工业大学 基于稀疏分解与重构的鲁棒语音特征提取方法
CN104900235A (zh) * 2015-05-25 2015-09-09 重庆大学 基于基音周期混合特征参数的声纹识别方法
CN107871498A (zh) * 2017-10-10 2018-04-03 昆明理工大学 一种基于Fisher准则以提高语音识别率的混合特征组合算法
US20190043491A1 (en) * 2018-05-18 2019-02-07 Intel Corporation Neural network based time-frequency mask estimation and beamforming for speech pre-processing
CN109448751A (zh) * 2018-12-29 2019-03-08 中国科学院声学研究所 一种基于深度学习的双耳语音增强方法
CN109887489A (zh) * 2019-02-23 2019-06-14 天津大学 基于生成对抗网络的深度特征的语音去混响方法
US20190318757A1 (en) * 2018-04-11 2019-10-17 Microsoft Technology Licensing, Llc Multi-microphone speech separation
CN110751957A (zh) * 2019-09-25 2020-02-04 电子科技大学 一种使用堆叠多尺度模块的语音增强方法
EP3608903A1 (en) * 2018-08-06 2020-02-12 Spotify AB Singing voice separation with deep u-net convulutional networks
US20200066296A1 (en) * 2018-08-21 2020-02-27 2Hz, Inc Speech Enhancement And Noise Suppression Systems And Methods
CN110867196A (zh) * 2019-12-03 2020-03-06 桂林理工大学 一种基于深度学习及声音识别的机器设备状态监测系统
US20200184987A1 (en) * 2020-02-10 2020-06-11 Intel Corporation Noise reduction using specific disturbance models
CN111508504A (zh) * 2020-04-08 2020-08-07 郑州大学 基于听觉中枢感知机理的说话人识别方法
CN111883166A (zh) * 2020-07-17 2020-11-03 北京百度网讯科技有限公司 一种语音信号处理方法、装置、设备以及存储介质
CN111883091A (zh) * 2020-07-09 2020-11-03 腾讯音乐娱乐科技(深圳)有限公司 音频降噪方法和音频降噪模型的训练方法
US20210029473A1 (en) * 2018-07-17 2021-01-28 Marcos Antonio Cantu Assistive listening device and human-computer interface using short-time target cancellation for improved speech intelligibility

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102290047A (zh) * 2011-09-22 2011-12-21 哈尔滨工业大学 基于稀疏分解与重构的鲁棒语音特征提取方法
CN104900235A (zh) * 2015-05-25 2015-09-09 重庆大学 基于基音周期混合特征参数的声纹识别方法
CN107871498A (zh) * 2017-10-10 2018-04-03 昆明理工大学 一种基于Fisher准则以提高语音识别率的混合特征组合算法
US20190318757A1 (en) * 2018-04-11 2019-10-17 Microsoft Technology Licensing, Llc Multi-microphone speech separation
US20190043491A1 (en) * 2018-05-18 2019-02-07 Intel Corporation Neural network based time-frequency mask estimation and beamforming for speech pre-processing
US20210029473A1 (en) * 2018-07-17 2021-01-28 Marcos Antonio Cantu Assistive listening device and human-computer interface using short-time target cancellation for improved speech intelligibility
EP3608903A1 (en) * 2018-08-06 2020-02-12 Spotify AB Singing voice separation with deep u-net convulutional networks
US20200066296A1 (en) * 2018-08-21 2020-02-27 2Hz, Inc Speech Enhancement And Noise Suppression Systems And Methods
CN109448751A (zh) * 2018-12-29 2019-03-08 中国科学院声学研究所 一种基于深度学习的双耳语音增强方法
CN109887489A (zh) * 2019-02-23 2019-06-14 天津大学 基于生成对抗网络的深度特征的语音去混响方法
CN110751957A (zh) * 2019-09-25 2020-02-04 电子科技大学 一种使用堆叠多尺度模块的语音增强方法
CN110867196A (zh) * 2019-12-03 2020-03-06 桂林理工大学 一种基于深度学习及声音识别的机器设备状态监测系统
US20200184987A1 (en) * 2020-02-10 2020-06-11 Intel Corporation Noise reduction using specific disturbance models
CN111508504A (zh) * 2020-04-08 2020-08-07 郑州大学 基于听觉中枢感知机理的说话人识别方法
CN111883091A (zh) * 2020-07-09 2020-11-03 腾讯音乐娱乐科技(深圳)有限公司 音频降噪方法和音频降噪模型的训练方法
CN111883166A (zh) * 2020-07-17 2020-11-03 北京百度网讯科技有限公司 一种语音信号处理方法、装置、设备以及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHONG-QIU WANG 等: "MULTI-MICROPHONE COMPLEX SPECTRAL MAPPING FOR SPEECH DEREVERBERATION", 《百度学术》 *
崔凌赫: "基于深度学习和波束形成的双麦克风语音增强", 《万方》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113541753A (zh) * 2021-07-20 2021-10-22 电子科技大学 基于复数卷积网络的混合波束成形方法
CN113593590A (zh) * 2021-07-23 2021-11-02 哈尔滨理工大学 一种语音中瞬态噪声的抑制方法
CN113689878A (zh) * 2021-07-26 2021-11-23 浙江大华技术股份有限公司 回声消除方法、回声消除装置及计算机可读存储介质
CN113835065A (zh) * 2021-09-01 2021-12-24 深圳壹秘科技有限公司 基于深度学习的声源方向确定方法、装置、设备及介质
CN113835065B (zh) * 2021-09-01 2024-05-17 深圳壹秘科技有限公司 基于深度学习的声源方向确定方法、装置、设备及介质
CN117219107A (zh) * 2023-11-08 2023-12-12 腾讯科技(深圳)有限公司 一种回声消除模型的训练方法、装置、设备及存储介质
CN117219107B (zh) * 2023-11-08 2024-01-30 腾讯科技(深圳)有限公司 一种回声消除模型的训练方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113129918B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
CN113129918B (zh) 联合波束形成和深度复数U-Net网络的语音去混响方法
CN107452389B (zh) 一种通用的单声道实时降噪方法
CN106782590B (zh) 基于混响环境下麦克风阵列波束形成方法
CN110970053B (zh) 一种基于深度聚类的多通道与说话人无关语音分离方法
CN107919133B (zh) 针对目标对象的语音增强系统及语音增强方法
CN107479030B (zh) 基于分频和改进的广义互相关双耳时延估计方法
CN101593522B (zh) 一种全频域数字助听方法和设备
CN101460999B (zh) 盲信号提取
CN105869651A (zh) 基于噪声混合相干性的双通道波束形成语音增强方法
CN111312269B (zh) 一种智能音箱中的快速回声消除方法
CN110473564A (zh) 一种基于深度波束形成的多通道语音增强方法
Fahim et al. PSD estimation and source separation in a noisy reverberant environment using a spherical microphone array
CN110660406A (zh) 近距离交谈场景下双麦克风移动电话的实时语音降噪方法
CN115424627A (zh) 基于卷积循环网络和wpe算法的语音增强混合处理方法
Kovalyov et al. Dsenet: Directional signal extraction network for hearing improvement on edge devices
CN114242104A (zh) 语音降噪的方法、装置、设备及存储介质
CN110838303B (zh) 一种利用传声器阵列的语音声源定位方法
Geng et al. A speech enhancement method based on the combination of microphone array and parabolic reflector
CN115713943A (zh) 基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法
Li et al. Speech separation based on reliable binaural cues with two-stage neural network in noisy-reverberant environments
JP2024508821A (ja) ニューラルネットワークを用いたビームフォーミング方法及びビームフォーミングシステム
Han et al. Multi-channel speech denoising for machine ears
Kawase et al. Automatic parameter switching of noise reduction for speech recognition
CN112269158A (zh) 一种基于unet结构利用传声器阵列语音源定位方法
CN112420068A (zh) 一种基于Mel频率尺度分频的快速自适应波束形成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant