CN111816200A - 一种基于时频域二值掩膜的多通道语音增强方法 - Google Patents
一种基于时频域二值掩膜的多通道语音增强方法 Download PDFInfo
- Publication number
- CN111816200A CN111816200A CN202010626489.9A CN202010626489A CN111816200A CN 111816200 A CN111816200 A CN 111816200A CN 202010626489 A CN202010626489 A CN 202010626489A CN 111816200 A CN111816200 A CN 111816200A
- Authority
- CN
- China
- Prior art keywords
- time
- frequency domain
- speech
- signal
- binary mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Filters That Use Time-Delay Elements (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及一种针对阵列接收语音信号的基于时频域二值掩膜的多通道语音增强方法。利用网络模型输出语音存在概率估计计算二值掩膜,通过该二值掩膜实现对信号时频域的分类及相应的波束形成参数估计,从而获得更好的语音增强效果。其实现过程是:首先利用网络模型对阵列接收信号进行时频域语音存在概率估计,然后利用该估计结果以及接收信号计算阈值,从而计算二值掩膜估计及波束形成相关参数估计从而实现多通道语音增强。相较于现有的阵列接收信号语音增强算法,本发明具有更高的输出信噪比和主观语音质量评估PESQ得分。
Description
技术领域
本发明属于波束形成技术,特别涉及时频域二值掩膜估计的多通道语言增强技术。
技术背景
随着模式识别与机器学习的研究与发展,一部分方法被借鉴至语音增强领域,出现了一系列将机器学习和多通道语音增强相结合的语音增强算法。相较于传统的多通道语音增强算法,这些算法通过机器学习模型对接收信号进行特定掩膜估计,进而对波束形成相关参数进行更准确地估计,能够避免对麦克风阵列的空间分布以及目标方向的先验假设,获得更好的语音增强性能。然而机器学习模型种类繁多,语音信号特征复杂,机器学习和多通道语音增强的结合在模型选择、特征选择以及模型输出结果的应用等方面都有待更广泛和深入的探究。因此,研究基于掩膜估计的多通道语音增强问题有重要的意义。
传统的多通道语音增强理论通常假定麦克风阵列的空间分布以及目标方向是确定的,而实际应用中阵列分布可能不确定,且目标方向往往是不确定的。针对阵列分布不确定及目标方向不确定的多通道语音增强问题,T.Higuchi,N.Ito,T.Yoshioka,etal.Robust MVDR beamforming using time-frequency masks for online/offline ASRin noise[C].IEEE International Conference on Acoustics.IEEE,2016.中公开了一种基于CGMM的(CGMM-Based)多通道语音增强算法利用复高斯混合模型(Complex GaussianMixture Model)进行信号时频域后验概率估计,以此作为掩膜估计值计算波束形成相关参数,完成语音增强。掩膜估计值计算波束形成相关参数包括MVDR波束形成器权向量和后置滤波器权系数。受限于模型复杂度,该算法无法对复杂的语音信号时频域特征进行有效的学习。
L.Pfeifenberger,M. and F.Pernkopf,DNN-based speech maskestimation for eigenvector beamforming.[C]2017IEEE International Conferenceon Acoustics,Speech and Signal Processing(ICASSP),New Orleans,LA,2017,66-70.公开可一种基于深度神经网络DNN的(DNN-Based)多通道语音增强算法利用DNN(DeepNeural Network)进行信号时频域语音存在概率估计,以此作为掩膜估计值计算波束形成相关参数,完成语音增强。
步骤包括:
(1)搭建并训网络,接收语音信号,通过预处理后获得语音信号的时频域数据,利用该网络对经过预处理后的时频域数据进行接收信号时频域语音存在概率的估计;
(2)利用接收信号及语音存在概率估计结果估计导向矢量及噪声协方差矩阵;
(3)利用导向矢量及噪声协方差矩阵估计出MVDR波束形成器权向量和后置滤波器权系数,从而进行MVDR波束形成以及后置滤波处理;
(4)通过逆短时傅里叶变换将滤波结果还原为时域信号。
上述方案在接收信号信噪比持续较高或较低的情况下,该算法对波束形成相关参数的估计严重失真,使得语音增强效果下降。
发明内容
本发明所要解决的技术方案是,提供一种在接收语音信号出现信噪比持续较高或较低的情况下,尽可能消除噪声部分对波束形成的影响的一种波束形成参数估计方法。
本发明为解决上述技术问题所采用的技术方案是,一种基于时频域二值掩膜的多通道语音增强方法,包括以下步骤:
1)搭建并训练网络模型,利用阵列接收语音信号,对接收的语音信号进行预处理获得接收的语音信号的时频域数据Xi(fk);利用训练完成的网络模型对经过预处理后的时频域数据Xi(fk)进行接收信号时频域的语音存在概率的估计;Xi(fk)表示第i帧频率为fk的时频域数据,表示第i帧频率为fk的接收信号时频域的语音存在概率估计值;
4)对MVDR波束形成器权向量和后置滤波器权系数进行估计,并完成对时频域数据Xi(fk)的滤波:
5)通过逆短时傅里叶变换将滤波结果还原为时域信号,得到增强后的时域语音信号。
本发明利用时频域二值掩膜估计值对信号时频域是否为语音进行判断,再利用二值掩膜估计值计算语音分量协方差矩阵估计值与噪声分量协方差矩阵估计值,当语音分量协方差矩阵估计值不满秩,则认为这部分接收信号分量全为噪声,为持续低信噪比的情况,直接滤除;当噪声分量协方差矩阵估计值不满秩,则认为这部分接收信号分量全为语音,为持续高信噪比的情况;当语音分量协方差矩阵估计值与噪声分量协方差矩阵估计值均不满秩,则认为这部分接收信号分量不是持续低信噪比或持续高信噪比的情况,根据时频域二值掩膜估计值得到导向矢估计值及噪声协方差矩阵估计值,再根据导向矢估计值及噪声协方差矩阵估计值计算并设置MVDR波束形成器权向量和后置滤波器权系数。
本发明的有益效果是,能对接收信号持续低信噪比或持续高信噪比的情况进行区分,从而尽可能消除噪声部分对波束形成的影响,获得更高的语音增强效果。
附图说明
图1为本发明的流程图;
图2为本算法与CGMM-Based算法和DNN-Based算法的输出信噪比随输入信噪比变化的比较图;
图3为本算法与CGMM-Based算法和DNN-Based算法输出信号的主观语音质量评估(Perceptual evaluation of speech quality,PESQ)随输入信噪比变化的比较图。
具体实施方式
本发明的基本思想是通过构造一种基于时频域语音存在概率估计值的二值掩膜估计,创造一种新的波束形成参数估计方法,利用二值掩膜估计对信号时频分量进行分类,尽可能消除噪声部分对波束形成的影响。
实施例步骤如图1所示:
步骤1、根据语音信号数据生成卷积神经网络CNN输入特征,估计语音存在概率。
假设时频域接收信号为:
Xi(fk)=ai(fk,θ)·Si(fk)+Ni(fk)
其中Si(fk)为第i帧频率为fk的声源信号分量,ai(fk,θ)∈CM×1表示阵列对fk频率信号的导向矢量,Ni(fk)∈CM×1为零均值加性高斯白噪声在第i帧fk频率处的噪声分量,M为麦克风阵元数量。
设置判决门限为语音分量平均功率与接收信号平均功率的比值,即:
步骤4、利用两项参数估计结果进行MVDR波束形成以及后置滤波处理。
根据最小均方误差准则,多通道维纳滤波可分解为一个MVDR波束形成器与一个单通道后置滤波器的级联,即:
其中,wMVDR为MVDR波束形成器权向量,即:
G为后置滤波器权系数:
其中,
后置滤波器权系数估计:
滤波所得Zi(fk)=0。
后置滤波器权系数估计:
后置滤波器权系数估计:
其中,
步骤5、通过逆短时傅里叶变换将时频域滤波结果Zi(fk)还原为时域信号z(t)。
根据步骤4对接收信号时频域所有分量进行滤波可得:
其中Γ为该段语音的帧数,L为窄带频段数。
对Z进行逆短时傅里叶变换,即将其每帧信号进行逆傅里叶变换:
zp=[z(tp),z(tp+1),...,z(tp+L-1)]
其中tp为该帧时域信号的起始时刻,z(tp+i)为:
将所有zp进行拼接合并,得到增强后的时域语音信号z(t)。
如图2所示,在-5dB到10dB输入信噪比环境下,本算法所得语音增强输出信噪比始终高于CGMM-Based算法和DNN-Based算法。图3显示在同样的输入信噪比环境下,本算法所得语音增强结果相较于CGMM-Based算法和DNN-Based算法同样有明显较高的PESQ得分。图2及图3的结果显示本算法相较于两种对比算法具有较明显的语音增强性能提升。
Claims (5)
1.一种基于时频域二值掩膜的多通道语音增强方法,其特征在于,包括以下步骤:
1)搭建并训练网络模型,利用阵列接收语音信号,对接收的语音信号进行预处理获得接收的语音信号的时频域数据Xi(fk);利用训练完成的网络模型对经过预处理后的时频域数据Xi(fk)进行接收信号时频域的语音存在概率的估计;Xi(fk)表示第i帧频率为fk的时频域数据,表示第i帧频率为fk的接收信号时频域的语音存在概率估计值;
4)对MVDR波束形成器权向量和后置滤波器权系数进行估计,并完成对时频域数据Xi(fk)的滤波:
5)通过逆短时傅里叶变换将滤波结果还原为时域信号,得到增强后的时域语音信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010626489.9A CN111816200B (zh) | 2020-07-01 | 2020-07-01 | 一种基于时频域二值掩膜的多通道语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010626489.9A CN111816200B (zh) | 2020-07-01 | 2020-07-01 | 一种基于时频域二值掩膜的多通道语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111816200A true CN111816200A (zh) | 2020-10-23 |
CN111816200B CN111816200B (zh) | 2022-07-29 |
Family
ID=72856008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010626489.9A Active CN111816200B (zh) | 2020-07-01 | 2020-07-01 | 一种基于时频域二值掩膜的多通道语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111816200B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508038A (zh) * | 2020-12-03 | 2021-03-16 | 江苏科技大学 | 一种跨通道局部二值模式的彩色纹理分类方法 |
CN113030862A (zh) * | 2021-03-12 | 2021-06-25 | 中国科学院声学研究所 | 一种多通道语音增强方法及装置 |
CN113658605A (zh) * | 2021-10-18 | 2021-11-16 | 成都启英泰伦科技有限公司 | 一种基于深度学习辅助rls滤波处理的语音增强方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
US20190172476A1 (en) * | 2017-12-04 | 2019-06-06 | Apple Inc. | Deep learning driven multi-channel filtering for speech enhancement |
CN110473564A (zh) * | 2019-07-10 | 2019-11-19 | 西北工业大学深圳研究院 | 一种基于深度波束形成的多通道语音增强方法 |
WO2020045313A1 (ja) * | 2018-08-31 | 2020-03-05 | 日本電信電話株式会社 | マスク推定装置、マスク推定方法及びマスク推定プログラム |
CN110970053A (zh) * | 2019-12-04 | 2020-04-07 | 西北工业大学深圳研究院 | 一种基于深度聚类的多通道与说话人无关语音分离方法 |
CN113936681A (zh) * | 2021-10-13 | 2022-01-14 | 东南大学 | 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 |
-
2020
- 2020-07-01 CN CN202010626489.9A patent/CN111816200B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190172476A1 (en) * | 2017-12-04 | 2019-06-06 | Apple Inc. | Deep learning driven multi-channel filtering for speech enhancement |
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
WO2020045313A1 (ja) * | 2018-08-31 | 2020-03-05 | 日本電信電話株式会社 | マスク推定装置、マスク推定方法及びマスク推定プログラム |
CN110473564A (zh) * | 2019-07-10 | 2019-11-19 | 西北工业大学深圳研究院 | 一种基于深度波束形成的多通道语音增强方法 |
CN110970053A (zh) * | 2019-12-04 | 2020-04-07 | 西北工业大学深圳研究院 | 一种基于深度聚类的多通道与说话人无关语音分离方法 |
CN113936681A (zh) * | 2021-10-13 | 2022-01-14 | 东南大学 | 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 |
Non-Patent Citations (6)
Title |
---|
B. LEE 等: ""Deep Neural Network-based Speech Separation Combining with MVDR Beamformer for Automatic Speech Recognition System"", 《2019 IEEE INTERNATIONAL CONFERENCE ON CONSUMER ELECTRONICS》 * |
L. PFEIFENBERGER 等: ""DNN-based speech mask estimation for eigenvector beamforming"", 《ICASSP 2017》 * |
MARVIN TAMMEN 等: ""DNN-Based Multi-Frame MVDR Filtering for Single-Microphone Speech Enhancement"", 《HTTPS://ARXIV.ORG/ABS/1905.08492》 * |
Y. LIU 等: ""Neural Network Based Time-Frequency Masking and Steering Vector Estimation for Two-Channel Mvdr Beamforming"", 《ICASSP 2018》 * |
江家麒: ""基于掩膜估计的语音增强算法研究"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
童仁杰: ""基于信号稀疏特性的语音增强算法研究"", 《中国博士学位论文全文数据库(信息科技辑)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508038A (zh) * | 2020-12-03 | 2021-03-16 | 江苏科技大学 | 一种跨通道局部二值模式的彩色纹理分类方法 |
CN112508038B (zh) * | 2020-12-03 | 2022-11-08 | 江苏科技大学 | 一种跨通道局部二值模式的彩色纹理分类方法 |
CN113030862A (zh) * | 2021-03-12 | 2021-06-25 | 中国科学院声学研究所 | 一种多通道语音增强方法及装置 |
CN113658605A (zh) * | 2021-10-18 | 2021-11-16 | 成都启英泰伦科技有限公司 | 一种基于深度学习辅助rls滤波处理的语音增强方法 |
CN113658605B (zh) * | 2021-10-18 | 2021-12-17 | 成都启英泰伦科技有限公司 | 一种基于深度学习辅助rls滤波处理的语音增强方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111816200B (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN108831495B (zh) | 一种应用于噪声环境下语音识别的语音增强方法 | |
CN111816200B (zh) | 一种基于时频域二值掩膜的多通道语音增强方法 | |
CN107452389B (zh) | 一种通用的单声道实时降噪方法 | |
Subakan et al. | Generative adversarial source separation | |
CN111653288B (zh) | 基于条件变分自编码器的目标人语音增强方法 | |
CN110148420A (zh) | 一种适用于噪声环境下的语音识别方法 | |
CN112735460B (zh) | 基于时频掩蔽值估计的波束成形方法及系统 | |
CN112735456A (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
Strauss et al. | A flow-based neural network for time domain speech enhancement | |
WO2019014890A1 (zh) | 一种通用的单声道实时降噪方法 | |
CN111899750B (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
Geng et al. | End-to-end speech enhancement based on discrete cosine transform | |
Nakagome et al. | Mentoring-Reverse Mentoring for Unsupervised Multi-Channel Speech Source Separation. | |
CN115424627A (zh) | 基于卷积循环网络和wpe算法的语音增强混合处理方法 | |
Li et al. | A Convolutional Neural Network with Non-Local Module for Speech Enhancement. | |
Niwa et al. | Supervised source enhancement composed of nonnegative auto-encoders and complementarity subtraction | |
CN113707136B (zh) | 服务型机器人语音交互的音视频混合语音前端处理方法 | |
Fu et al. | Iterative sound source localization for unknown number of sources | |
Chen | Noise reduction of bird calls based on a combination of spectral subtraction, Wiener filtering, and Kalman filtering | |
Han et al. | A novel single channel speech enhancement based on joint Deep Neural Network and Wiener Filter | |
CN108573698B (zh) | 一种基于性别融合信息的语音降噪方法 | |
CN113035217A (zh) | 一种基于声纹嵌入的低信噪比条件下的语音增强方法 | |
KR101568282B1 (ko) | 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법 및 장치 | |
Togami | End to end learning for convolutive multi-channel wiener filtering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |