CN110136737A - 一种语音降噪方法及装置 - Google Patents

一种语音降噪方法及装置 Download PDF

Info

Publication number
CN110136737A
CN110136737A CN201910524862.7A CN201910524862A CN110136737A CN 110136737 A CN110136737 A CN 110136737A CN 201910524862 A CN201910524862 A CN 201910524862A CN 110136737 A CN110136737 A CN 110136737A
Authority
CN
China
Prior art keywords
voice
network model
neural network
frequency signal
masking matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910524862.7A
Other languages
English (en)
Inventor
赵月峰
袁潮
温建伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhuohe Technology Co Ltd
Original Assignee
Beijing Zhuohe Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhuohe Technology Co Ltd filed Critical Beijing Zhuohe Technology Co Ltd
Priority to CN201910524862.7A priority Critical patent/CN110136737A/zh
Publication of CN110136737A publication Critical patent/CN110136737A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明公开了一种语音智能降噪方法及装置,涉及语音降噪技术。本发明公开的语音降噪方法,包括:将待降噪语音的二维时频信号输入至神经网络模型,得到该模型输出的二值掩蔽矩阵,利用该模型输出的二值掩蔽矩阵对待降噪语音的二维时频信号,进行掩蔽计算,得到降噪后的二维时频信号,将降噪后的二维时频信号进行反时频转换,得到降噪后的语音。其中,神经网络模型,是在输入模拟的含噪语音的二维时频信号至神经网络模型后,根据输出的二值掩蔽矩阵与理想的二值掩蔽矩阵之间的差值进行一次或多次训练得到的。本申请技术方案简化了降噪算法,在保证降噪质量的基础上,提高降噪效率。

Description

一种语音降噪方法及装置
技术领域
本发明涉及语音降噪技术,特别涉及一种语音智能降噪方案。
背景技术
语音降噪是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。简单地说,就是从含噪语音中提取尽可能纯净的原始语音。根据语音接收信号的通道个数不同又分为单通道和多通道两种情况。
目前普遍采用如下方式进行语音降噪:
周期性噪声可以用滤波方法滤除,而设计的滤波器,在滤除干扰的同时应不产生影响语音可懂度的副作用。一般可以采用固定滤波器、自适应滤波器和傅里叶变换滤波器等。冲激噪声可以通过相邻的样本值,采取内插方法将其除去,或者利用非线性滤波器滤除。宽带噪声是难以消除的一种干扰,因为它与语音具有相同的频带,在消除噪声的同时将影响语音的质量,现在常用的方法有减谱法、自相关相减法、最大似然估计法、自适应抵消法,以及其它一些自适应技术。目前语音噪声的消除还是很困难的,一般是利用不同说话人有不同基音频率的特点,采用自适应技术跟踪某说话人的基音,形成梳状滤波器进行滤波。
从上述内容可以看出,相关技术处理语音降噪通常只能对周期性的干扰和高信噪比的声音信号处理效果较好。在实际应用中,即时通信发生的场景很多,比如汽车上、火车上、公共大厅、客厅、户外、咖啡馆等各种不同的场景,噪声环境非常复杂,而且经常存在信噪比较低的情况,相关技术在这些复杂的环境中往往表现不佳。
发明内容
本申请提供一种语音降噪方法及装置。
本申请公开了一种语音降噪方法,包括:
将待降噪语音进行时频转换,得到待降噪语音的二维时频信号;
将待降噪语音的二维时频信号输入至神经网络模型,得到所述神经网络模型输出的二值掩蔽矩阵,其中,所述神经网络模型,是在输入模拟的含噪语音的二维时频信号至神经网络模型后,根据输出的二值掩蔽矩阵与理想的二值掩蔽矩阵之间的差值进行一次或多次训练得到的;
利用所述神经网络模型输出的二值掩蔽矩阵对待降噪语音的二维时频信号,进行掩蔽计算,得到降噪后的二维时频信号;
将所述降噪后的二维时频信号进行反时频转换,得到降噪后的语音。
可选地,上述语音降噪方法还包括:
创建用于输出二值掩蔽矩阵的神经网络模型,对所述神经网络模型进行训练,训练过程包括:
输入模拟的含噪语音的二维时频信号至所述神经网络模型;
所述神经网络模型针对输入的二维时频信号,提取时频域上的特征点并进行分类,得到语音特征点和噪音特征点,根据所述语音特征点和噪音特征点确定二值掩蔽矩阵并输出;
将所述神经网络模型输出的二值掩蔽矩阵与理想的二值掩蔽矩阵进行比较,若比较结果不满足设定要求,则对所述神经网络模型的参数进行一次或多次的修正,直到最近一次修正后的神经网络模型输出的二值掩蔽矩阵与理想的二值掩蔽矩阵的比较结果满足设定要求,将最近一次修正的神经网络模型做为所述语音降噪方法中用于输出二值掩蔽矩阵的神经网络模型。
可选地,上述语音降噪方法中,所述神经网络模型针对输入的二维时频信号,提取时频域上的特征点并进行分类,包括:
在神经网络模型中,利用卷积神经网络提取输入的二维时频信号在时频域上的特征点,使用非线性激活函数对提取的每一个时频域的特征点进行分类,分类得到语音特征点和噪音特征点。
可选地,上述语音降噪方法中,所述将所述神经网络模型输出的二值掩蔽矩阵与理想的二值掩蔽矩阵进行比较,若比较结果不满足设定要求,则对所述神经网络模型的参数进行一次或多次的修正,包括:
计算所述神经网络模型输出的二值掩蔽矩阵与理想的二值掩蔽矩阵的方差,计算得到的方差大于设定阈值时,确定不满足设定要求,此时,根据计算得到的方差,修正所述神经网络模型中卷积神经网络层参数。
可选地,上述语音降噪方法还包括:计算理想的二值掩蔽矩阵,该过程包括:
根据模拟的含噪语音的二维时频信号,以及模拟的含噪语音对应的纯净语音的二维时频信号,计算二维时频信号的信噪比SNR(t,f);
将所述信噪比SNR(t,f)与设定信噪比阈值LC进行比较,根据比较结果得到理想的二值掩蔽矩阵IBM(t,f)。
可选地,上述语音降噪方法中,所述将所述信噪比SNR(t,f)与设定信噪比阈值LC进行比较,根据比较结果得到理想的二值掩蔽矩阵IBM(t,f)的方式如下:
可选地,上述语音降噪方法中,所述将待降噪语音进行时频转换,得到待降噪语音的二维时频信号,包括:
对待降噪语音进行分帧、归一化处理,将分帧处理后的每一帧数据进行短时傅立叶变换,得到待降噪语音的二维时频信号;
所述将所述降噪后的二维时频信号进行反时频转换,得到降噪后的语音,包括:
对降噪后的二维时频信号进行反向短时傅立叶变换,得到降噪后的语音。
本文还公开了一种语音降噪装置,包括:
时频转换模块,用于将待降噪语音进行时频转换,得到待降噪语音的二维时频信号;
掩蔽矩阵预测模块,用于将待降噪语音的二维时频信号输入至神经网络模型,得到所述神经网络模型输出的二值掩蔽矩阵,其中,所述神经网络模型,是在输入模拟的含噪语音的二维时频信号至神经网络模型后,根据输出的二值掩蔽矩阵与理想的二值掩蔽矩阵之间的差值进行一次或多次训练得到的;
掩蔽处理模块,用于利用所述神经网络模型输出的二值掩蔽矩阵对待降噪语音的二维时频信号,进行掩蔽计算,得到降噪后的二维时频信号;
逆向时频转换模块,用于将所述降噪后的二维时频信号进行反时频转换,得到降噪后的语音。
可选地,上述语音降噪装置,还包括:
模型训练单元,用于创建用于输出二值掩蔽矩阵的神经网络模型,并对所述神经网络模型进行训练,训练过程包括:
输入模拟的含噪语音的二维时频信号至所述神经网络模型;
所述神经网络模型针对输入的二维时频信号,提取时频域上的特征点并进行分类,得到语音特征点和噪音特征点,根据所述语音特征点和噪音特征点确定二值掩蔽矩阵并输出;
将所述神经网络模型输出的二值掩蔽矩阵与理想的二值掩蔽矩阵进行比较,若比较结果不满足设定要求,则对所述神经网络模型的参数进行一次或多次的修正,直到最近一次修正后的神经网络模型输出的二值掩蔽矩阵与理想的二值掩蔽矩阵的比较结果满足设定要求,将最近一次修正的神经网络模型做为所述语音降噪装置中用于输出二值掩蔽矩阵的神经网络模型。
可选地,上述语音降噪装置中,所述神经网络模型,利用卷积神经网络提取输入的模拟的含噪语音的二维时频信号在时频域上的特征点,使用非线性激活函数对提取的每一个时频域的特征点进行分类,分类得到语音特征点和噪音特征点。
可选地,上述语音降噪装置中,所述模型训练单元,将所述神经网络模型输出的二值掩蔽矩阵与理想的二值掩蔽矩阵进行比较,若比较结果不满足设定要求,则对所述神经网络模型的参数进行一次或多次的修正,包括:
计算所述神经网络模型输出的二值掩蔽矩阵与理想的二值掩蔽矩阵的方差,计算得到的方差大于设定阈值时,确定不满足设定要求,此时,根据计算得到的方差,修正所述神经网络模型中卷积神经网络层参数。
可选地,上述语音降噪装置中,所述理想的二值掩蔽矩阵指:
根据所述模拟的含噪语音的二维时频信号,以及所述模拟的含噪语音对应的纯净语音的二维时频信号,计算二维时频信号的信噪比SNR(t,f);
将所述信噪比SNR(t,f)与设定信噪比阈值LC进行比较,根据比较结果得到理想的二值掩蔽矩阵IBM(t,f)。
可选地,上述语音降噪装置中,所述将所述信噪比SNR(t,f)与设定信噪比阈值LC进行比较,根据比较结果得到理想的二值掩蔽矩阵IBM(t,f)的方式如下:
可选地,上述语音降噪装置,还包括:
预处理模块,用于对待降噪语音进行分帧、归一化处理;
此时,时频转换模块,用于将预处理模块分帧处理后的每一帧数据进行短时傅立叶变换,得到待降噪语音的二维时频信号;
逆向时频转换模块,用于对降噪后的二维时频信号进行反向短时傅立叶变换,得到降噪后的语音。
本文还公开了一种语音降噪装置,包括:
处理器;
以及存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
执行实现上述语音降噪方法的指令。
本申请技术方案提供了一种基于神经网络的语音降噪方案,其中神经网络关注于区分语音时频数据的特征点类别,从而将语音降噪问题转化为分类问题。另外,神经网络可以自动学习到针对各类型干扰信号的特征分类方法,因此使用本方案提出的方案可以简化降噪算法,在保证降噪质量的基础上,提高降噪效率。
附图说明
图1是本申请实施例中语音降噪处理原理示意图;
图2是本申请实施例中神经网络模型训练过程示意图;
图3是本申请实施例中一种语音降噪装置结构示意图;
图4是本申请实施例中一种语音降噪装置的工作流程(包括智能语音降噪和模型训练)示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文将结合附图对本发明技术方案作进一步详细说明。需要说明的是,在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
实施例1
本申请发明人发现相关技术中,针对不同场景的语音降噪问题需要使用不同的处理方法,对于不同类型的噪声也需要使用不同的算法。在即时通信应用场景下,通常需要使用2-3种算法进行语音降噪,耗时约数十甚至近百毫秒,并且通常只能处理周期性的干扰和高信噪比的声音信号。
针对这种不同类型的噪音需要差别化降噪处理的现象,本申请提出可以使用深度学习进行语音智能降噪,其原理如图1所示,先将带噪音语音转换为时频域数据,基于神经网络关注于区分语音时频数据的特征点类别,即只需要区分人声和噪音两类,不需要区分干扰信号的类别(即噪音的类型),从而将语音降噪问题转化为分类问题,从而通过神经网络模型输出的二值掩蔽矩阵进行掩蔽处理,得到降噪后的语音时频域数据。其中,神经网络可以自动学习到针对各类型干扰信号的特征分类方法,只要在神经网络模型的训练集中包含所有想要消除的干扰信号类型进行训练即可。
基于上述思想,本实施例提供一种语音降噪方法,可以基于神经网络实现,其主要包括如下操作:
步骤S10,创建用于输出二值掩蔽矩阵的神经网络模型,对该神经网络模型进行训练;
本实施例中,神经网络模型的工作过程可以包括,通过卷积神经网络提取语音信号在时频域上的特征点,再使用非线性激活函数对每一个时频域的特征点进行分类,以区分该特征点是语音特征点还是噪音特征点,最终根据所确定的语音特征点和噪音特征点形成一个二值掩蔽矩阵进行输出。
在本实施例的神经网络模型的训练过程中,可以利用模拟的含噪语音,以及根据模拟的含噪语音及其对应的纯净语音计算得到的理想的二值掩蔽矩阵,对神经网络模型进行训练。即将大量标记好的语音数据(相当于模拟的含噪语音)的二维时频信号输入神经网络模型中,之后神经网络模型输出二值掩蔽矩阵,根据输出的二值掩蔽矩阵与理想的二值掩蔽矩阵之间的差别(例如,输出的二值掩蔽矩阵和理想的二值掩蔽矩阵中每个对应元素值的差值的平方和),对神经网络模型进行反复训练,得终训练后的神经网络模型输出的二值掩蔽矩阵无限接近理想的二值掩蔽矩阵。
例如:可以选取主流报刊媒体等500个语句,尽可能包含所有的发声,再选取100位不同的人进行朗读,作为纯净语音信号(即模拟的含噪语音对应的纯净语音)。然后再选取公共场景、交通、工作场景、咖啡厅等18中生活常见噪音,与纯净语音信号进行交叉合成,得到带噪音的语音信号(相当于模拟的含噪语音)。纯净语音信号与带噪音的语音信号一一匹配作为标记好的数据。将这些数据随机打乱,并选取其中80%作为训练集进行神经网络模型训练,另外20%作为验证集用于验证神经网络模型的结果,最后将训练好的神经网络模型导出运用到实际环境中。
步骤S11,当进行语音降噪时,将待降噪的语音转换成二维时频信号;
步骤S12,将待降噪的语音转换成二维时频信号输入至训练好的神经网络模型,得到神经网络模型输出的二值掩蔽矩阵;
步骤S13,利用神经网络模型输出的二值掩蔽矩阵对待降噪语音的二维时频信号,进行掩蔽计算(即对分别出的语音的时频特征进行掩蔽操作),得到降噪后的二维时频信号;
步骤S14,将降噪后的二维时频信号进行反时频转换,得到降噪后的语音信号。
在实际应用中,将待降噪的语音转换成二维时频信息之前还可以包括一些预处理,例如可以采集带噪音的语音时域信号数据,对该时域信号数据进行分帧。之后取每帧数据进行短时傅立叶变换,获得带噪音的语音信号的二维时频数据。相应地,得到降噪后的二维时频信号后,进行反向短时傅立叶变换恢复得到降噪后的语音时域信号即可。当前采用短时傅立叶变换的方式对语音信号进行时频转换,仅为示例性说明,在其他场景中也可以采用其他方式,例如Gabor变换和Wigner-Ville分布等,本实施例对此不做特别限制。
从上述方法的描述,可以看出本申请方案的处理方式利用了神经网络模型,即神经网络模型内部的工作过程对于使用人而言是非透明的,因此只需要使用人对信号处理科学有基础的了解,利用神经网络模型输出的二值掩蔽矩阵进行掩蔽处理即可,不像传统的语音降噪处理方法需要人员对信号处理专业知识了解非常深入,从而也极大的降低了语音降噪的应用门槛。
下面以声音信号选用16KHz的采样频率为例说明通过神经网络模型处理声音信号的过程,此说明仅为示例性说明,不用于限制本方案的实施。
首先将带噪声音信号进行分帧处理,每帧可以选择256个采样点,帧移位128,得到一帧时域的声音数据x(t),对x(t)进行短时傅立叶变换,得到二维时频信号X(t,f),如公式1所示。
X(t,f)=STFT(x(t)) 公式(1)
对相应的标记好的纯净语音信号做相同的处理,对一帧时域数据x'(t)进行短时傅立叶变换,得到而二维时频信号X'(t,f),如公式2所示。
X'(t,f)=STFT(x'(t)) 公式(2)
根据纯净语音信号的二维时频信号X'(t,f)和带噪语音信号的二维时频信号X(t,f),计算二维时频信号的信噪比SNR(t,f),再计算理想的二值掩蔽矩阵IBM(t,f),如公式3所示。
其中,LC为设定信噪比阈值,可根据场景需要设置,本实施例设置为0db。
将模拟的带噪语音信号的二维时频信号送入神经网络模型h(X),对神经网络模型h(X)进行训练,训练后的神经网络模型h(X)输出的二值掩蔽矩阵如公式4所示。
在神经网络模型h(X)训练过程中还可以使用以下公式5所示的函数作为损失函数进行神经网络模型更新,以使训练后的神经网络模型输出的二值掩蔽矩阵与理想的二值掩蔽矩阵更贴近,从而使掩蔽计算的精度更高。
公式5中,i为矩阵中元素角标。
进行掩蔽计算,得到降噪后的二维时频信号如公式6所示。
最后对降噪后的二维时频信号进行反向短时傅立叶变换,得到增强后的时域信号如公式7所示。
其中,根据模拟的带噪语音信号的二维时频信号,对神经网络模型h(X)进行训练时,神经网络模型的训练过程如图2所示,执行如下操作:
S1、将模拟的带噪语音时域信号进行预处理,进行分帧、归一化等操作;
S2、对时域信号进行短时傅立叶变换,得到二维时频信号;
S3、卷积神经网络层进行二维时频域特征提取;
S4、使用非线性激活函数对每一个时频域的特征点进行分类,分类结果形成一个二值掩蔽矩阵,由神经网络模型h(X)输出;
S5、计算输出的二值掩蔽矩阵与理想二值掩蔽矩阵的方差;
S6、判断方差较大,不满足要求进入步骤7,如果方差较小满足要求,则停止训练;
S7、将方差反向传递;
S8、修正卷积神经网络层参数;
在使用修正后的参数重复S1-S8步骤,直到方差满足要求。
实施例2
本实施例提供一种语音降噪装置,包括时频转换模块、掩蔽矩阵预测模块、掩蔽处理模块和逆向时频转换模块。
时频转换模块,用于将待降噪语音进行时频转换,得到待降噪语音的二维时频信号;
掩蔽矩阵预测模块,用于将时频转换模块转换后的二维时频信号输入至训练好的神经网络模型,得到神经网络模型输出的一个二值掩蔽矩阵;
其中,训练好的神经网络模型,是针对模拟的含噪语音的二维时频信号输出的二值掩蔽矩阵,与理想的二值掩蔽矩阵之间的差值,进行一次或多次训练得到的。
掩蔽处理模块,用于利用神经网络模型输出的二值掩蔽矩阵,对待降噪语音的二维时频信号,进行掩蔽计算,得到降噪后的二维时频信号,;
逆向时频转换模块,用于将降噪后的二维时频信号进行反时频转换,得到降噪后的语音。
以上述装置的结构为基础,还可以增加预处理模块,此模块主要用于对待降噪语音信号的预处理操作,例如,对待降噪语音信号进行分帧、归一化处理。时频转换模块,可以将预处理模块分帧处理后的每一帧数据进行短时傅立叶变换,得到待降噪语音的二维时频信号。对应的,逆向时频转换模块,对降噪后的二维时频信号进行反向短时傅立叶变换,得到降噪后的语音信号。此种语音降噪装置的结构如图3所示。其中,时频转换模块还可以采用除了短时傅立叶变换以外的其他任意方式(例如Gabor变换和Wigner-Ville分布等),对待降噪语音进行时频转换。只需要时频转换模块和逆向时频转换模块采用相同的方式进行时频转换,或反时频转换即可,本实施例对此不做特别限制。
下面介绍上述各模块之间相互协作实现语音智能降噪的处理流程,该流程如图4右侧所示,执行如下操作:
首先采集带有干扰信号的语音时域信号(即待降噪语音),将语音信号送入预处理模块,预处理模块对时域信号进行分帧、归一化等处理,通常选择10到30ms为一帧,本案选择16ms为一帧。将分帧后的每一帧数据x(t)送入时频转换模块,时频转换模块对时域信号进行短时傅立叶变换(STFT),得到二维时频信号X(t,f)。将二维时频信号送入神经网络模型h(X)进行智能降噪处理。在神经网络模型中,先利用卷积神经网络提取二维时频信号在时频域上的特征点,再使用非线性激活函数对每一个时频域的特征点进行分类,以区分该特征点是语音还是噪音,形成一个二值掩蔽矩阵并进行输出。再使用神经网络模型输出的二值掩蔽矩阵对语音的时频特征进行掩蔽操作,得到语音降噪后信号的时频数据达到语音降噪的效果。最后对时频数据进行反向短时傅立叶变换(ISTFT)得到语音增强后的时域信号
而其中涉及的神经网络模型的训练过程中,如图4左侧所示,执行如下操作:
将标记好的带噪语音时域信号(相当于模拟的带噪语音时域信号)和对应的纯净语音时域信号分别进行分帧、加窗等操作;
对带噪语音时域信号和对应的纯净语音时域信号分别进行短时傅立叶变换,得到带噪语音时域信号和对应的纯净语音时域信号的二维时频信号,确定理想的二值掩蔽矩阵;
将根据带噪语音时域信号输入神经网络模型,得到神经网络模型输出的二值掩蔽矩阵(也可称为预测的二值掩蔽矩阵);
根据神经网络模型输出的二值掩蔽矩阵(即预测的二值掩蔽矩阵)和理想的二值掩蔽矩阵,对神经网络模型进行重复训练,直到训练效果通过检验(例如,对训练出的神经网络模型输出的二值掩蔽矩阵与理想的二值掩蔽矩阵计算方差,方差值小于等于设定阈值,则确定训练效果通过检验),结束训练流程,进入实际降噪处理流程。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本实施例还提供一种语音降噪装置。可以包括一个或多个处理器,以及存储器。该存储器可以用于存储可由处理器执行的指令,例如应用程序。存储器中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器被配置为执行指令,以执行上述语音降噪方法。
关于上述处理器执行指令涉及的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
从上述实施例可以看出,本申请技术方案利用神经网络模型可以针对各种类别的干扰信号进行语音降噪,且神经网络模型中一般对每帧数据的处理时间会低于帧长,因此可以做到实时降噪。且利用已训练好的神经网络模型直接输出语音降噪用的二值掩蔽矩阵,简化了语音降噪的复杂度,因此语音降噪的效率较现有技术有很大提高,在即时通信应用场景中能有效地降低时延。并且,本方案提出的方法只需要准备训练数据进行模型训练即可有效降噪,不需要非常深入的信号处理专业知识,极大的降低了对人员的要求,从而也可以降低语音降噪技术的使用成本。
本领域技术人员应明白,本发明的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质,包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质等。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
本发明是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明的意图也包含这些改动和变型在内。

Claims (15)

1.一种语音降噪方法,其特征在于,包括:
将待降噪语音进行时频转换,得到待降噪语音的二维时频信号;
将待降噪语音的二维时频信号输入至神经网络模型,得到所述神经网络模型输出的二值掩蔽矩阵,其中,所述神经网络模型,是在输入模拟的含噪语音的二维时频信号至神经网络模型后,根据输出的二值掩蔽矩阵与理想的二值掩蔽矩阵之间的差值进行一次或多次训练得到的;
利用所述神经网络模型输出的二值掩蔽矩阵对待降噪语音的二维时频信号,进行掩蔽计算,得到降噪后的二维时频信号;
将所述降噪后的二维时频信号进行反时频转换,得到降噪后的语音。
2.根据权利要求1所述的语音降噪方法,其特征在于,该方法还包括:
创建用于输出二值掩蔽矩阵的神经网络模型,对所述神经网络模型进行训练,训练过程包括:
输入模拟的含噪语音的二维时频信号至所述神经网络模型;
所述神经网络模型针对输入的二维时频信号,提取时频域上的特征点并进行分类,得到语音特征点和噪音特征点,根据所述语音特征点和噪音特征点确定二值掩蔽矩阵并输出;
将所述神经网络模型输出的二值掩蔽矩阵与理想的二值掩蔽矩阵进行比较,若比较结果不满足设定要求,则对所述神经网络模型的参数进行一次或多次的修正,直到最近一次修正后的神经网络模型输出的二值掩蔽矩阵与理想的二值掩蔽矩阵的比较结果满足设定要求,将最近一次修正的神经网络模型做为所述语音降噪方法中用于输出二值掩蔽矩阵的神经网络模型。
3.根据权利要求2所述的语音降噪方法,其特征在于,所述神经网络模型针对输入的二维时频信号,提取时频域上的特征点并进行分类,包括:
在神经网络模型中,利用卷积神经网络提取输入的二维时频信号在时频域上的特征点,使用非线性激活函数对提取的每一个时频域的特征点进行分类,分类得到语音特征点和噪音特征点。
4.根据权利要求3所述的语音降噪方法,其特征在于,
所述将所述神经网络模型输出的二值掩蔽矩阵与理想的二值掩蔽矩阵进行比较,若比较结果不满足设定要求,则对所述神经网络模型的参数进行一次或多次的修正,包括:
计算所述神经网络模型输出的二值掩蔽矩阵与理想的二值掩蔽矩阵的方差,计算得到的方差大于设定阈值时,确定不满足设定要求,此时,根据计算得到的方差,修正所述神经网络模型中卷积神经网络层参数。
5.根据权利要求1至4任一项所述的语音降噪方法,其特征在于,该方法还包括:
计算理想的二值掩蔽矩阵,该过程包括:
根据模拟的含噪语音的二维时频信号,以及模拟的含噪语音对应的纯净语音的二维时频信号,计算二维时频信号的信噪比SNR(t,f);
将所述信噪比SNR(t,f)与设定信噪比阈值LC进行比较,根据比较结果得到理想的二值掩蔽矩阵IBM(t,f)。
6.根据权利要求5所述的语音降噪方法,其特征在于,所述将所述信噪比SNR(t,f)与设定信噪比阈值LC进行比较,根据比较结果得到理想的二值掩蔽矩阵IBM(t,f)的方式如下:
7.根据权利要求5所述的语音降噪方法,其特征在于,
所述将待降噪语音进行时频转换,得到待降噪语音的二维时频信号,包括:
对待降噪语音进行分帧、归一化处理,将分帧处理后的每一帧数据进行短时傅立叶变换,得到待降噪语音的二维时频信号;
所述将所述降噪后的二维时频信号进行反时频转换,得到降噪后的语音,包括:
对降噪后的二维时频信号进行反向短时傅立叶变换,得到降噪后的语音。
8.一种语音降噪装置,其特征在于,包括:
时频转换模块,用于将待降噪语音进行时频转换,得到待降噪语音的二维时频信号;
掩蔽矩阵预测模块,用于将待降噪语音的二维时频信号输入至神经网络模型,得到所述神经网络模型输出的二值掩蔽矩阵,其中,所述神经网络模型,是在输入模拟的含噪语音的二维时频信号至神经网络模型后,根据输出的二值掩蔽矩阵与理想的二值掩蔽矩阵之间的差值进行一次或多次训练得到的;
掩蔽处理模块,用于利用所述神经网络模型输出的二值掩蔽矩阵对待降噪语音的二维时频信号,进行掩蔽计算,得到降噪后的二维时频信号;
逆向时频转换模块,用于将所述降噪后的二维时频信号进行反时频转换,得到降噪后的语音。
9.根据权利要求8所述的语音降噪装置,其特征在于,还包括:
模型训练单元,用于创建用于输出二值掩蔽矩阵的神经网络模型,并对所述神经网络模型进行训练,训练过程包括:
输入模拟的含噪语音的二维时频信号至所述神经网络模型;
所述神经网络模型针对输入的二维时频信号,提取时频域上的特征点并进行分类,得到语音特征点和噪音特征点,根据所述语音特征点和噪音特征点确定二值掩蔽矩阵并输出;
将所述神经网络模型输出的二值掩蔽矩阵与理想的二值掩蔽矩阵进行比较,若比较结果不满足设定要求,则对所述神经网络模型的参数进行一次或多次的修正,直到最近一次修正后的神经网络模型输出的二值掩蔽矩阵与理想的二值掩蔽矩阵的比较结果满足设定要求,将最近一次修正的神经网络模型做为所述语音降噪装置中用于输出二值掩蔽矩阵的神经网络模型。
10.根据权利要求9所述的语音降噪装置,其特征在于,所述神经网络模型,利用卷积神经网络提取输入的模拟的含噪语音的二维时频信号在时频域上的特征点,使用非线性激活函数对提取的每一个时频域的特征点进行分类,分类得到语音特征点和噪音特征点。
11.根据权利要求10所述的语音降噪装置,其特征在于,所述模型训练单元,将所述神经网络模型输出的二值掩蔽矩阵与理想的二值掩蔽矩阵进行比较,若比较结果不满足设定要求,则对所述神经网络模型的参数进行一次或多次的修正,包括:
计算所述神经网络模型输出的二值掩蔽矩阵与理想的二值掩蔽矩阵的方差,计算得到的方差大于设定阈值时,确定不满足设定要求,此时,根据计算得到的方差,修正所述神经网络模型中卷积神经网络层参数。
12.根据权利要求8至11任一项所述的语音降噪装置,其特征在于,所述理想的二值掩蔽矩阵指:
根据所述模拟的含噪语音的二维时频信号,以及所述模拟的含噪语音对应的纯净语音的二维时频信号,计算二维时频信号的信噪比SNR(t,f);
将所述信噪比SNR(t,f)与设定信噪比阈值LC进行比较,根据比较结果得到理想的二值掩蔽矩阵IBM(t,f)。
13.根据权利要求12所述的语音降噪装置,其特征在于,所述将所述信噪比SNR(t,f)与设定信噪比阈值LC进行比较,根据比较结果得到理想的二值掩蔽矩阵IBM(t,f)的方式如下:
14.根据权利要求12所述的语音降噪装置,其特征在于,还包括:
预处理模块,用于对待降噪语音进行分帧、归一化处理;
此时,时频转换模块,用于将预处理模块分帧处理后的每一帧数据进行短时傅立叶变换,得到待降噪语音的二维时频信号;
逆向时频转换模块,用于对降噪后的二维时频信号进行反向短时傅立叶变换,得到降噪后的语音。
15.一种语音降噪装置,其特征在于,包括:
处理器;
以及存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
执行实现所述权利要求1至7中任一项所述的语音降噪方法的指令。
CN201910524862.7A 2019-06-18 2019-06-18 一种语音降噪方法及装置 Pending CN110136737A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910524862.7A CN110136737A (zh) 2019-06-18 2019-06-18 一种语音降噪方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910524862.7A CN110136737A (zh) 2019-06-18 2019-06-18 一种语音降噪方法及装置

Publications (1)

Publication Number Publication Date
CN110136737A true CN110136737A (zh) 2019-08-16

Family

ID=67577827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910524862.7A Pending CN110136737A (zh) 2019-06-18 2019-06-18 一种语音降噪方法及装置

Country Status (1)

Country Link
CN (1) CN110136737A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110970051A (zh) * 2019-12-06 2020-04-07 广州国音智能科技有限公司 语音数据采集方法、终端及可读存储介质
CN111028857A (zh) * 2019-12-27 2020-04-17 苏州蛙声科技有限公司 基于深度学习的多通道音视频会议降噪的方法及系统
CN111105809A (zh) * 2019-12-31 2020-05-05 云知声智能科技股份有限公司 一种降噪方法及装置
CN111210835A (zh) * 2020-01-08 2020-05-29 华南理工大学 一种基于听觉模型和信源方位的多通路语音降噪方法
CN111583958A (zh) * 2020-05-19 2020-08-25 北京达佳互联信息技术有限公司 音频信号处理方法、装置、电子设备及存储介质
CN111613247A (zh) * 2020-04-14 2020-09-01 云知声智能科技股份有限公司 一种基于麦克风阵列的前景语音检测方法及装置
CN113096682A (zh) * 2021-03-20 2021-07-09 杭州知存智能科技有限公司 基于掩码时域解码器的实时语音降噪方法和装置
CN113299302A (zh) * 2021-04-22 2021-08-24 维沃移动通信(杭州)有限公司 音频降噪方法、装置及电子设备
CN113345463A (zh) * 2021-05-31 2021-09-03 平安科技(深圳)有限公司 基于卷积神经网络的语音增强方法、装置、设备及介质
CN113470688A (zh) * 2021-07-23 2021-10-01 平安科技(深圳)有限公司 语音数据的分离方法、装置、设备及存储介质
WO2022213825A1 (zh) * 2021-04-06 2022-10-13 京东科技控股股份有限公司 基于神经网络的端到端语音增强方法、装置
CN116665692A (zh) * 2023-07-27 2023-08-29 荣耀终端有限公司 语音降噪方法和终端设备
CN117133303A (zh) * 2023-10-26 2023-11-28 荣耀终端有限公司 一种语音降噪方法、电子设备及介质
CN118643279A (zh) * 2024-08-15 2024-09-13 连云港杰瑞自动化有限公司 一种ф-otdr信号去噪方法、系统及存储介质
CN118643279B (zh) * 2024-08-15 2024-11-08 连云港杰瑞自动化有限公司 一种ф-otdr信号去噪方法、系统及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107845389A (zh) * 2017-12-21 2018-03-27 北京工业大学 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
WO2019017403A1 (ja) * 2017-07-19 2019-01-24 日本電信電話株式会社 マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法
CN109410976A (zh) * 2018-11-01 2019-03-01 北京工业大学 双耳助听器中基于双耳声源定位和深度学习的语音增强方法
CN109841206A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 一种基于深度学习的回声消除方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019017403A1 (ja) * 2017-07-19 2019-01-24 日本電信電話株式会社 マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法
CN107845389A (zh) * 2017-12-21 2018-03-27 北京工业大学 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
CN109841206A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 一种基于深度学习的回声消除方法
CN109410976A (zh) * 2018-11-01 2019-03-01 北京工业大学 双耳助听器中基于双耳声源定位和深度学习的语音增强方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUXUAN WANG AND DELIANG WANG: "Towards Scaling Up Classification-Based Speech Separation", 《AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
袁文浩等: "利用深度卷积神经网络提高未知噪声下的语音增强性能", 《自动化学报》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110970051A (zh) * 2019-12-06 2020-04-07 广州国音智能科技有限公司 语音数据采集方法、终端及可读存储介质
CN111028857A (zh) * 2019-12-27 2020-04-17 苏州蛙声科技有限公司 基于深度学习的多通道音视频会议降噪的方法及系统
CN111028857B (zh) * 2019-12-27 2024-01-19 宁波蛙声科技有限公司 基于深度学习的多通道音视频会议降噪的方法及系统
CN111105809A (zh) * 2019-12-31 2020-05-05 云知声智能科技股份有限公司 一种降噪方法及装置
CN111105809B (zh) * 2019-12-31 2022-03-22 云知声智能科技股份有限公司 一种降噪方法及装置
CN111210835A (zh) * 2020-01-08 2020-05-29 华南理工大学 一种基于听觉模型和信源方位的多通路语音降噪方法
CN111210835B (zh) * 2020-01-08 2023-07-18 华南理工大学 一种基于听觉模型和信源方位的多通路语音降噪方法
CN111613247B (zh) * 2020-04-14 2023-03-21 云知声智能科技股份有限公司 一种基于麦克风阵列的前景语音检测方法及装置
CN111613247A (zh) * 2020-04-14 2020-09-01 云知声智能科技股份有限公司 一种基于麦克风阵列的前景语音检测方法及装置
CN111583958A (zh) * 2020-05-19 2020-08-25 北京达佳互联信息技术有限公司 音频信号处理方法、装置、电子设备及存储介质
CN111583958B (zh) * 2020-05-19 2023-10-10 北京达佳互联信息技术有限公司 音频信号处理方法、装置、电子设备及存储介质
CN113096682A (zh) * 2021-03-20 2021-07-09 杭州知存智能科技有限公司 基于掩码时域解码器的实时语音降噪方法和装置
CN113096682B (zh) * 2021-03-20 2023-08-29 杭州知存智能科技有限公司 基于掩码时域解码器的实时语音降噪方法和装置
WO2022213825A1 (zh) * 2021-04-06 2022-10-13 京东科技控股股份有限公司 基于神经网络的端到端语音增强方法、装置
CN113299302A (zh) * 2021-04-22 2021-08-24 维沃移动通信(杭州)有限公司 音频降噪方法、装置及电子设备
CN113345463A (zh) * 2021-05-31 2021-09-03 平安科技(深圳)有限公司 基于卷积神经网络的语音增强方法、装置、设备及介质
CN113345463B (zh) * 2021-05-31 2024-03-01 平安科技(深圳)有限公司 基于卷积神经网络的语音增强方法、装置、设备及介质
CN113470688A (zh) * 2021-07-23 2021-10-01 平安科技(深圳)有限公司 语音数据的分离方法、装置、设备及存储介质
CN113470688B (zh) * 2021-07-23 2024-01-23 平安科技(深圳)有限公司 语音数据的分离方法、装置、设备及存储介质
CN116665692A (zh) * 2023-07-27 2023-08-29 荣耀终端有限公司 语音降噪方法和终端设备
CN116665692B (zh) * 2023-07-27 2023-10-20 荣耀终端有限公司 语音降噪方法和终端设备
CN117133303A (zh) * 2023-10-26 2023-11-28 荣耀终端有限公司 一种语音降噪方法、电子设备及介质
CN117133303B (zh) * 2023-10-26 2024-03-29 荣耀终端有限公司 一种语音降噪方法、电子设备及介质
CN118643279A (zh) * 2024-08-15 2024-09-13 连云港杰瑞自动化有限公司 一种ф-otdr信号去噪方法、系统及存储介质
CN118643279B (zh) * 2024-08-15 2024-11-08 连云港杰瑞自动化有限公司 一种ф-otdr信号去噪方法、系统及存储介质

Similar Documents

Publication Publication Date Title
CN110136737A (zh) 一种语音降噪方法及装置
Yin et al. Phasen: A phase-and-harmonics-aware speech enhancement network
Venkataramani et al. End-to-end source separation with adaptive front-ends
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE69129329T2 (de) Sprachkodierungsystem
CN107845389A (zh) 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
CN110390950A (zh) 一种基于生成对抗网络的端到端语音增强方法
Xia et al. Speech enhancement with weighted denoising auto-encoder.
CN109378010A (zh) 神经网络模型的训练方法、语音去噪方法及装置
CN110503967B (zh) 一种语音增强方法、装置、介质和设备
Strauss et al. A flow-based neural network for time domain speech enhancement
Takeuchi et al. Invertible DNN-based nonlinear time-frequency transform for speech enhancement
Wang et al. Joint noise and mask aware training for DNN-based speech enhancement with sub-band features
CN111477241B (zh) 一种面向家居噪声环境的分层自适应去噪方法及系统
Hwang et al. High-Fidelity Parallel WaveGAN with Multi-Band Harmonic-Plus-Noise Model.
CN114495973A (zh) 一种基于双路径自注意力机制的特定人语音分离方法
CN108806725A (zh) 语音区分方法、装置、计算机设备及存储介质
CN107123431A (zh) 一种水声信号降噪方法
CN104240717A (zh) 基于稀疏编码和理想二进制掩膜相结合的语音增强方法
Venkataramani et al. End-to-end networks for supervised single-channel speech separation
CN107527625A (zh) 基于仿生听觉系统中耳蜗模型的海豚哨声信号听觉特征提取方法
Zhang et al. Neural noise embedding for end-to-end speech enhancement with conditional layer normalization
CN117037824A (zh) 一种声学场景分类的数据增强方法及系统
Sadhu et al. Importance of different temporal modulations of speech: a tale of two perspectives
CN116013343A (zh) 语音增强方法、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190816