CN111816200A - 一种基于时频域二值掩膜的多通道语音增强方法 - Google Patents

一种基于时频域二值掩膜的多通道语音增强方法 Download PDF

Info

Publication number
CN111816200A
CN111816200A CN202010626489.9A CN202010626489A CN111816200A CN 111816200 A CN111816200 A CN 111816200A CN 202010626489 A CN202010626489 A CN 202010626489A CN 111816200 A CN111816200 A CN 111816200A
Authority
CN
China
Prior art keywords
time
frequency domain
speech
signal
binary mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010626489.9A
Other languages
English (en)
Other versions
CN111816200B (zh
Inventor
江家麒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010626489.9A priority Critical patent/CN111816200B/zh
Publication of CN111816200A publication Critical patent/CN111816200A/zh
Application granted granted Critical
Publication of CN111816200B publication Critical patent/CN111816200B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及一种针对阵列接收语音信号的基于时频域二值掩膜的多通道语音增强方法。利用网络模型输出语音存在概率估计计算二值掩膜,通过该二值掩膜实现对信号时频域的分类及相应的波束形成参数估计,从而获得更好的语音增强效果。其实现过程是:首先利用网络模型对阵列接收信号进行时频域语音存在概率估计,然后利用该估计结果以及接收信号计算阈值,从而计算二值掩膜估计及波束形成相关参数估计从而实现多通道语音增强。相较于现有的阵列接收信号语音增强算法,本发明具有更高的输出信噪比和主观语音质量评估PESQ得分。

Description

一种基于时频域二值掩膜的多通道语音增强方法
技术领域
本发明属于波束形成技术,特别涉及时频域二值掩膜估计的多通道语言增强技术。
技术背景
随着模式识别与机器学习的研究与发展,一部分方法被借鉴至语音增强领域,出现了一系列将机器学习和多通道语音增强相结合的语音增强算法。相较于传统的多通道语音增强算法,这些算法通过机器学习模型对接收信号进行特定掩膜估计,进而对波束形成相关参数进行更准确地估计,能够避免对麦克风阵列的空间分布以及目标方向的先验假设,获得更好的语音增强性能。然而机器学习模型种类繁多,语音信号特征复杂,机器学习和多通道语音增强的结合在模型选择、特征选择以及模型输出结果的应用等方面都有待更广泛和深入的探究。因此,研究基于掩膜估计的多通道语音增强问题有重要的意义。
传统的多通道语音增强理论通常假定麦克风阵列的空间分布以及目标方向是确定的,而实际应用中阵列分布可能不确定,且目标方向往往是不确定的。针对阵列分布不确定及目标方向不确定的多通道语音增强问题,T.Higuchi,N.Ito,T.Yoshioka,etal.Robust MVDR beamforming using time-frequency masks for online/offline ASRin noise[C].IEEE International Conference on Acoustics.IEEE,2016.中公开了一种基于CGMM的(CGMM-Based)多通道语音增强算法利用复高斯混合模型(Complex GaussianMixture Model)进行信号时频域后验概率估计,以此作为掩膜估计值计算波束形成相关参数,完成语音增强。掩膜估计值计算波束形成相关参数包括MVDR波束形成器权向量和后置滤波器权系数。受限于模型复杂度,该算法无法对复杂的语音信号时频域特征进行有效的学习。
L.Pfeifenberger,M.
Figure BDA0002564975850000011
and F.Pernkopf,DNN-based speech maskestimation for eigenvector beamforming.[C]2017IEEE International Conferenceon Acoustics,Speech and Signal Processing(ICASSP),New Orleans,LA,2017,66-70.公开可一种基于深度神经网络DNN的(DNN-Based)多通道语音增强算法利用DNN(DeepNeural Network)进行信号时频域语音存在概率估计,以此作为掩膜估计值计算波束形成相关参数,完成语音增强。
步骤包括:
(1)搭建并训网络,接收语音信号,通过预处理后获得语音信号的时频域数据,利用该网络对经过预处理后的时频域数据进行接收信号时频域语音存在概率的估计;
(2)利用接收信号及语音存在概率估计结果估计导向矢量及噪声协方差矩阵;
(3)利用导向矢量及噪声协方差矩阵估计出MVDR波束形成器权向量和后置滤波器权系数,从而进行MVDR波束形成以及后置滤波处理;
(4)通过逆短时傅里叶变换将滤波结果还原为时域信号。
上述方案在接收信号信噪比持续较高或较低的情况下,该算法对波束形成相关参数的估计严重失真,使得语音增强效果下降。
发明内容
本发明所要解决的技术方案是,提供一种在接收语音信号出现信噪比持续较高或较低的情况下,尽可能消除噪声部分对波束形成的影响的一种波束形成参数估计方法。
本发明为解决上述技术问题所采用的技术方案是,一种基于时频域二值掩膜的多通道语音增强方法,包括以下步骤:
1)搭建并训练网络模型,利用阵列接收语音信号,对接收的语音信号进行预处理获得接收的语音信号的时频域数据Xi(fk);利用训练完成的网络模型对经过预处理后的时频域数据Xi(fk)进行接收信号时频域的语音存在概率
Figure BDA0002564975850000021
的估计;Xi(fk)表示第i帧频率为fk的时频域数据,
Figure BDA0002564975850000022
表示第i帧频率为fk的接收信号时频域的语音存在概率估计值;
2)利用时频域数据Xi(fk)和语音存在概率估计值
Figure BDA0002564975850000024
计算判决门限
Figure BDA0002564975850000025
Figure BDA0002564975850000026
其中,
Figure BDA0002564975850000027
表示第i帧频率为fk的接收信号,
Figure BDA0002564975850000028
M为阵元数,Tr{·}表示求迹,
Figure BDA0002564975850000029
表示在信号整个时频域求和,H表示共轭转置;
再基于判决门限
Figure BDA00025649758500000329
获得时频域二值掩膜估计
Figure BDA0002564975850000031
Figure BDA0002564975850000032
3)利用时频域二值掩膜估计
Figure BDA0002564975850000033
来计算导向矢量
Figure BDA0002564975850000034
估计值及噪声协方差矩阵估计值
Figure BDA0002564975850000035
3-1)先利用二值掩膜估计值
Figure BDA0002564975850000036
计算语音分量协方差矩阵估计值
Figure BDA0002564975850000037
Figure BDA0002564975850000038
Figure BDA0002564975850000039
不满秩,则直接进入步骤4),否则对
Figure BDA00025649758500000310
做特征分解,将特征分解后的主特征向量
Figure BDA00025649758500000311
作为导向矢量估计值
Figure BDA00025649758500000312
进入步骤3-2);
3-2)利用时频域二值掩膜估计值
Figure BDA00025649758500000313
计算噪声分量协方差估计值
Figure BDA00025649758500000314
Figure BDA00025649758500000315
Figure BDA00025649758500000316
不满秩,则直接进入步骤(4),否则以此作为噪声协方差矩阵估计值
Figure BDA00025649758500000317
再进入步骤4);其中,Γ为时域上的总帧数;
4)对MVDR波束形成器权向量和后置滤波器权系数进行估计,并完成对时频域数据Xi(fk)的滤波:
4-1)若
Figure BDA00025649758500000318
不满秩,则波束形成器权向量
Figure BDA00025649758500000319
后置滤波器权系数
Figure BDA00025649758500000320
滤波结果Zi(fk)=0;
4-2)若
Figure BDA00025649758500000321
不满秩,则波束形成器权向量
Figure BDA00025649758500000322
后置滤波器权系数
Figure BDA00025649758500000323
||。||表示求向量的模长;滤波结果
Figure BDA00025649758500000324
Figure BDA00025649758500000325
4-3)若
Figure BDA00025649758500000326
Figure BDA00025649758500000327
均满秩,则:
Figure BDA00025649758500000328
Figure BDA0002564975850000041
其中,中间量
Figure BDA0002564975850000042
Figure BDA0002564975850000043
滤波结果
Figure BDA0002564975850000044
5)通过逆短时傅里叶变换将滤波结果还原为时域信号,得到增强后的时域语音信号。
本发明利用时频域二值掩膜估计值对信号时频域是否为语音进行判断,再利用二值掩膜估计值计算语音分量协方差矩阵估计值与噪声分量协方差矩阵估计值,当语音分量协方差矩阵估计值不满秩,则认为这部分接收信号分量全为噪声,为持续低信噪比的情况,直接滤除;当噪声分量协方差矩阵估计值不满秩,则认为这部分接收信号分量全为语音,为持续高信噪比的情况;当语音分量协方差矩阵估计值与噪声分量协方差矩阵估计值均不满秩,则认为这部分接收信号分量不是持续低信噪比或持续高信噪比的情况,根据时频域二值掩膜估计值得到导向矢估计值及噪声协方差矩阵估计值,再根据导向矢估计值及噪声协方差矩阵估计值计算并设置MVDR波束形成器权向量和后置滤波器权系数。
本发明的有益效果是,能对接收信号持续低信噪比或持续高信噪比的情况进行区分,从而尽可能消除噪声部分对波束形成的影响,获得更高的语音增强效果。
附图说明
图1为本发明的流程图;
图2为本算法与CGMM-Based算法和DNN-Based算法的输出信噪比随输入信噪比变化的比较图;
图3为本算法与CGMM-Based算法和DNN-Based算法输出信号的主观语音质量评估(Perceptual evaluation of speech quality,PESQ)随输入信噪比变化的比较图。
具体实施方式
本发明的基本思想是通过构造一种基于时频域语音存在概率估计值的二值掩膜估计,创造一种新的波束形成参数估计方法,利用二值掩膜估计对信号时频分量进行分类,尽可能消除噪声部分对波束形成的影响。
实施例步骤如图1所示:
步骤1、根据语音信号数据生成卷积神经网络CNN输入特征,估计语音存在概率。
假设时频域接收信号为:
Xi(fk)=ai(fk,θ)·Si(fk)+Ni(fk)
其中Si(fk)为第i帧频率为fk的声源信号分量,ai(fk,θ)∈CM×1表示阵列对fk频率信号的导向矢量,Ni(fk)∈CM×1为零均值加性高斯白噪声在第i帧fk频率处的噪声分量,M为麦克风阵元数量。
Figure BDA0002564975850000051
表示第i帧阵列接收信号fk频率分量与自身共轭转置的乘积:
Figure BDA0002564975850000052
对其做特征分解,用主特征向量
Figure BDA0002564975850000053
对应的余弦距离序列
Figure BDA0002564975850000054
构成二维矩阵Ωi,以此作为CNN的输入:
Figure BDA0002564975850000055
其中L为信号帧数,
Figure BDA0002564975850000056
Δ为余弦距离序列长度,
Figure BDA0002564975850000057
表示
Figure BDA0002564975850000058
的主特征向量
Figure BDA0002564975850000059
与第
Figure BDA00025649758500000510
的主特征向量
Figure BDA00025649758500000511
之间的余弦距离,即:
Figure BDA00025649758500000512
CNN模型由六层卷积层与三层池化层外加一层全连接层构成,其中每两层卷积层后连接一层池化层以压缩二维数据量,重复三次后最后连接全连接层,获得一维输出语音存在概率估计
Figure BDA00025649758500000513
CNN的训练以训练集数据计算得到Ωi作为输入特征,标签(lable)为对应的时频域语音存在概率理论值序列
Figure BDA00025649758500000514
其中,语音存在概率定义为:
Figure BDA00025649758500000515
Figure BDA00025649758500000516
Figure BDA00025649758500000517
分别表示第i帧阵列接收信号fk频率语音分量与自身共轭转置的乘积和噪声分量与自身共轭转置的乘积,即:
Figure BDA00025649758500000518
Figure BDA0002564975850000061
步骤2、利用接收信号及语音存在概率估计结果计算判决门限
Figure BDA0002564975850000062
进而获得时频域二值掩膜估计
Figure BDA0002564975850000063
设置判决门限为语音分量平均功率与接收信号平均功率的比值,即:
Figure BDA0002564975850000064
其中,
Figure BDA0002564975850000065
通过整个时频域上
Figure BDA0002564975850000066
的迹的均值与阵元数之商估计,即:
Figure BDA0002564975850000067
Figure BDA0002564975850000068
根据语音存在概率定义,利用
Figure BDA0002564975850000069
Figure BDA00025649758500000610
的迹估计
Figure BDA00025649758500000611
之迹
Figure BDA00025649758500000612
通过整个时频域上
Figure BDA00025649758500000613
的迹的均值与阵元数之商估计,即:
Figure BDA00025649758500000614
其中,M为阵元数,tr{·}表示求迹,
Figure BDA00025649758500000624
表示在信号整个时频域求和。
综上,二值掩膜判决门限估计
Figure BDA00025649758500000615
为:
Figure BDA00025649758500000616
利用语音存在概率估计结果
Figure BDA00025649758500000617
基于判决门限估计值
Figure BDA00025649758500000625
获得二值掩膜估计
Figure BDA00025649758500000618
Figure BDA00025649758500000619
步骤3、利用时频域二值掩膜估计导向矢量
Figure BDA00025649758500000620
及噪声协方差矩阵
Figure BDA00025649758500000621
利用二值掩膜估计值
Figure BDA00025649758500000622
计算语音分量协方差矩阵:
Figure BDA00025649758500000623
Figure BDA0002564975850000071
不满秩,进入步骤4,否则对
Figure BDA0002564975850000072
做特征分解,将其主特征向量
Figure BDA0002564975850000073
作为导向矢量估计值
Figure BDA0002564975850000074
利用二值掩膜估计值
Figure BDA0002564975850000075
计算噪声分量协方差矩阵:
Figure BDA0002564975850000076
Figure BDA0002564975850000077
不满秩,进入步骤4,否则以此作为噪声协方差矩阵估计值
Figure BDA0002564975850000078
步骤4、利用两项参数估计结果进行MVDR波束形成以及后置滤波处理。
根据最小均方误差准则,多通道维纳滤波可分解为一个MVDR波束形成器与一个单通道后置滤波器的级联,即:
Figure BDA0002564975850000079
其中,wMVDR为MVDR波束形成器权向量,即:
Figure BDA00025649758500000710
G为后置滤波器权系数:
Figure BDA00025649758500000711
其中,
Figure BDA00025649758500000712
估计MVDR滤波器权向量
Figure BDA00025649758500000713
及后置滤波系数
Figure BDA00025649758500000714
对每个时频点上的阵列接收信号Xi(fk)进行MVDR波束形成以及后置滤波:
Figure BDA00025649758500000715
根据步骤3所得结果,若
Figure BDA00025649758500000716
不满秩,代表这部分接收信号分量几乎全为噪声,考虑直接滤除,则获得MVDR波束形成器权向量估计:
Figure BDA00025649758500000717
后置滤波器权系数估计:
Figure BDA00025649758500000718
滤波所得Zi(fk)=0。
Figure BDA00025649758500000719
不满秩,代表这部分接收信号分量几乎全为语音,则获得MVDR波束形成器权向量估计:
Figure BDA0002564975850000081
后置滤波器权系数估计:
Figure BDA0002564975850000082
滤波所得
Figure BDA0002564975850000083
Figure BDA0002564975850000084
Figure BDA0002564975850000085
均满秩,代表这部分不是持续高信噪比或低信噪比接收信号分量,则获得MVDR波束形成器权向量估计:
Figure BDA0002564975850000086
后置滤波器权系数估计:
Figure BDA0002564975850000087
其中,
Figure BDA0002564975850000088
滤波所得
Figure BDA0002564975850000089
步骤5、通过逆短时傅里叶变换将时频域滤波结果Zi(fk)还原为时域信号z(t)。
根据步骤4对接收信号时频域所有分量进行滤波可得:
Figure BDA00025649758500000810
其中Γ为该段语音的帧数,L为窄带频段数。
对Z进行逆短时傅里叶变换,即将其每帧信号进行逆傅里叶变换:
zp=[z(tp),z(tp+1),...,z(tp+L-1)]
其中tp为该帧时域信号的起始时刻,z(tp+i)为:
Figure BDA00025649758500000811
将所有zp进行拼接合并,得到增强后的时域语音信号z(t)。
如图2所示,在-5dB到10dB输入信噪比环境下,本算法所得语音增强输出信噪比始终高于CGMM-Based算法和DNN-Based算法。图3显示在同样的输入信噪比环境下,本算法所得语音增强结果相较于CGMM-Based算法和DNN-Based算法同样有明显较高的PESQ得分。图2及图3的结果显示本算法相较于两种对比算法具有较明显的语音增强性能提升。

Claims (5)

1.一种基于时频域二值掩膜的多通道语音增强方法,其特征在于,包括以下步骤:
1)搭建并训练网络模型,利用阵列接收语音信号,对接收的语音信号进行预处理获得接收的语音信号的时频域数据Xi(fk);利用训练完成的网络模型对经过预处理后的时频域数据Xi(fk)进行接收信号时频域的语音存在概率
Figure FDA0002564975840000011
的估计;Xi(fk)表示第i帧频率为fk的时频域数据,
Figure FDA0002564975840000012
表示第i帧频率为fk的接收信号时频域的语音存在概率估计值;
2)利用时频域数据Xi(fk)和语音存在概率估计值
Figure FDA0002564975840000013
得到语音信号的判决门限
Figure FDA0002564975840000014
再基于判决门限
Figure FDA00025649758400000119
获得时频域二值掩膜估计
Figure FDA0002564975840000015
Figure FDA0002564975840000016
3)利用时频域二值掩膜估计
Figure FDA0002564975840000017
来计算导向矢量
Figure FDA0002564975840000018
估计值及噪声协方差矩阵估计值
Figure FDA0002564975840000019
3-1)先利用二值掩膜估计值
Figure FDA00025649758400000110
计算语音分量协方差矩阵估计值
Figure FDA00025649758400000111
Figure FDA00025649758400000112
Figure FDA00025649758400000113
不满秩,则直接进入步骤4),否则对
Figure FDA00025649758400000114
做特征分解,将特征分解后的主特征向量
Figure FDA00025649758400000115
作为导向矢量估计值
Figure FDA00025649758400000116
进入步骤3-2);
3-2)利用时频域二值掩膜估计值
Figure FDA00025649758400000117
计算噪声分量协方差估计值
Figure FDA00025649758400000118
Figure FDA0002564975840000021
Figure FDA0002564975840000022
不满秩,则直接进入步骤(4),否则以此作为噪声协方差矩阵估计值
Figure FDA0002564975840000023
再进入步骤4);其中,Γ为时域上的总帧数;
4)对MVDR波束形成器权向量和后置滤波器权系数进行估计,并完成对时频域数据Xi(fk)的滤波:
4-1)若
Figure FDA0002564975840000024
不满秩,则设置波束形成器权向量
Figure FDA0002564975840000025
设置后置滤波器权系数
Figure FDA0002564975840000026
滤波结果Zi(fk)=0;
4-2)若
Figure FDA0002564975840000027
不满秩,则设置波束形成器权向量
Figure FDA0002564975840000028
设置后置滤波器权系数
Figure FDA0002564975840000029
滤波结果
Figure FDA00025649758400000210
4-3)若
Figure FDA00025649758400000220
Figure FDA00025649758400000212
均满秩,则利用导向矢量
Figure FDA00025649758400000213
估计值及噪声协方差矩阵估计值
Figure FDA00025649758400000214
计算波束形成器权向量
Figure FDA00025649758400000215
和后置滤波器权系数
Figure FDA00025649758400000216
滤波结果
Figure FDA00025649758400000217
5)通过逆短时傅里叶变换将滤波结果还原为时域信号,得到增强后的时域语音信号。
2.如权利要求1所述方法,其特征在于,设置判决门限
Figure FDA00025649758400000218
为语音分量平均功率与接收信号平均功率的比值。
3.如权利要求2所述方法,其特征在于,判决门限
Figure FDA00025649758400000221
的具体计算方法为:
Figure FDA00025649758400000219
其中,
Figure FDA0002564975840000031
表示第i帧频率为fk的接收信号,
Figure FDA0002564975840000032
M为阵元数,Tr{·}表示求迹,
Figure FDA0002564975840000033
表示在信号整个时频域求和,H表示共轭转置。
4.如权利要求1所述方法,其特征在于,步骤4-2)中设置波束形成器权向量
Figure FDA0002564975840000034
Figure FDA0002564975840000035
其中,||·||表示求向量的模长。
5.如权利要求1所述方法,其特征在于,4-3)中利用导向矢量
Figure FDA0002564975840000036
估计值及噪声协方差矩阵估计值
Figure FDA0002564975840000037
计算波束形成器权向量
Figure FDA0002564975840000038
和后置滤波器权系数
Figure FDA0002564975840000039
的具体方法为:
Figure FDA00025649758400000310
Figure FDA00025649758400000311
其中,中间量
Figure FDA00025649758400000312
Figure FDA00025649758400000313
其中,H表示共轭转置。
CN202010626489.9A 2020-07-01 2020-07-01 一种基于时频域二值掩膜的多通道语音增强方法 Active CN111816200B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010626489.9A CN111816200B (zh) 2020-07-01 2020-07-01 一种基于时频域二值掩膜的多通道语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010626489.9A CN111816200B (zh) 2020-07-01 2020-07-01 一种基于时频域二值掩膜的多通道语音增强方法

Publications (2)

Publication Number Publication Date
CN111816200A true CN111816200A (zh) 2020-10-23
CN111816200B CN111816200B (zh) 2022-07-29

Family

ID=72856008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010626489.9A Active CN111816200B (zh) 2020-07-01 2020-07-01 一种基于时频域二值掩膜的多通道语音增强方法

Country Status (1)

Country Link
CN (1) CN111816200B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508038A (zh) * 2020-12-03 2021-03-16 江苏科技大学 一种跨通道局部二值模式的彩色纹理分类方法
CN113030862A (zh) * 2021-03-12 2021-06-25 中国科学院声学研究所 一种多通道语音增强方法及装置
CN113658605A (zh) * 2021-10-18 2021-11-16 成都启英泰伦科技有限公司 一种基于深度学习辅助rls滤波处理的语音增强方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108831495A (zh) * 2018-06-04 2018-11-16 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法
US20190172476A1 (en) * 2017-12-04 2019-06-06 Apple Inc. Deep learning driven multi-channel filtering for speech enhancement
CN110473564A (zh) * 2019-07-10 2019-11-19 西北工业大学深圳研究院 一种基于深度波束形成的多通道语音增强方法
WO2020045313A1 (ja) * 2018-08-31 2020-03-05 日本電信電話株式会社 マスク推定装置、マスク推定方法及びマスク推定プログラム
CN110970053A (zh) * 2019-12-04 2020-04-07 西北工业大学深圳研究院 一种基于深度聚类的多通道与说话人无关语音分离方法
CN113936681A (zh) * 2021-10-13 2022-01-14 东南大学 一种基于掩膜映射和混合空洞卷积网络的语音增强方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190172476A1 (en) * 2017-12-04 2019-06-06 Apple Inc. Deep learning driven multi-channel filtering for speech enhancement
CN108831495A (zh) * 2018-06-04 2018-11-16 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法
WO2020045313A1 (ja) * 2018-08-31 2020-03-05 日本電信電話株式会社 マスク推定装置、マスク推定方法及びマスク推定プログラム
CN110473564A (zh) * 2019-07-10 2019-11-19 西北工业大学深圳研究院 一种基于深度波束形成的多通道语音增强方法
CN110970053A (zh) * 2019-12-04 2020-04-07 西北工业大学深圳研究院 一种基于深度聚类的多通道与说话人无关语音分离方法
CN113936681A (zh) * 2021-10-13 2022-01-14 东南大学 一种基于掩膜映射和混合空洞卷积网络的语音增强方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
B. LEE 等: ""Deep Neural Network-based Speech Separation Combining with MVDR Beamformer for Automatic Speech Recognition System"", 《2019 IEEE INTERNATIONAL CONFERENCE ON CONSUMER ELECTRONICS》 *
L. PFEIFENBERGER 等: ""DNN-based speech mask estimation for eigenvector beamforming"", 《ICASSP 2017》 *
MARVIN TAMMEN 等: ""DNN-Based Multi-Frame MVDR Filtering for Single-Microphone Speech Enhancement"", 《HTTPS://ARXIV.ORG/ABS/1905.08492》 *
Y. LIU 等: ""Neural Network Based Time-Frequency Masking and Steering Vector Estimation for Two-Channel Mvdr Beamforming"", 《ICASSP 2018》 *
江家麒: ""基于掩膜估计的语音增强算法研究"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *
童仁杰: ""基于信号稀疏特性的语音增强算法研究"", 《中国博士学位论文全文数据库(信息科技辑)》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508038A (zh) * 2020-12-03 2021-03-16 江苏科技大学 一种跨通道局部二值模式的彩色纹理分类方法
CN112508038B (zh) * 2020-12-03 2022-11-08 江苏科技大学 一种跨通道局部二值模式的彩色纹理分类方法
CN113030862A (zh) * 2021-03-12 2021-06-25 中国科学院声学研究所 一种多通道语音增强方法及装置
CN113658605A (zh) * 2021-10-18 2021-11-16 成都启英泰伦科技有限公司 一种基于深度学习辅助rls滤波处理的语音增强方法
CN113658605B (zh) * 2021-10-18 2021-12-17 成都启英泰伦科技有限公司 一种基于深度学习辅助rls滤波处理的语音增强方法

Also Published As

Publication number Publication date
CN111816200B (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN109841226B (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN108831495B (zh) 一种应用于噪声环境下语音识别的语音增强方法
CN111816200B (zh) 一种基于时频域二值掩膜的多通道语音增强方法
CN107452389B (zh) 一种通用的单声道实时降噪方法
Subakan et al. Generative adversarial source separation
CN111653288B (zh) 基于条件变分自编码器的目标人语音增强方法
CN110148420A (zh) 一种适用于噪声环境下的语音识别方法
CN112735460B (zh) 基于时频掩蔽值估计的波束成形方法及系统
CN112735456A (zh) 一种基于dnn-clstm网络的语音增强方法
Strauss et al. A flow-based neural network for time domain speech enhancement
WO2019014890A1 (zh) 一种通用的单声道实时降噪方法
CN111899750B (zh) 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
Geng et al. End-to-end speech enhancement based on discrete cosine transform
Nakagome et al. Mentoring-Reverse Mentoring for Unsupervised Multi-Channel Speech Source Separation.
CN115424627A (zh) 基于卷积循环网络和wpe算法的语音增强混合处理方法
Li et al. A Convolutional Neural Network with Non-Local Module for Speech Enhancement.
Niwa et al. Supervised source enhancement composed of nonnegative auto-encoders and complementarity subtraction
CN113707136B (zh) 服务型机器人语音交互的音视频混合语音前端处理方法
Fu et al. Iterative sound source localization for unknown number of sources
Chen Noise reduction of bird calls based on a combination of spectral subtraction, Wiener filtering, and Kalman filtering
Han et al. A novel single channel speech enhancement based on joint Deep Neural Network and Wiener Filter
CN108573698B (zh) 一种基于性别融合信息的语音降噪方法
CN113035217A (zh) 一种基于声纹嵌入的低信噪比条件下的语音增强方法
KR101568282B1 (ko) 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법 및 장치
Togami End to end learning for convolutive multi-channel wiener filtering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant