CN110120225A - 一种基于gru网络的结构的音频降噪系统及方法 - Google Patents
一种基于gru网络的结构的音频降噪系统及方法 Download PDFInfo
- Publication number
- CN110120225A CN110120225A CN201910258810.XA CN201910258810A CN110120225A CN 110120225 A CN110120225 A CN 110120225A CN 201910258810 A CN201910258810 A CN 201910258810A CN 110120225 A CN110120225 A CN 110120225A
- Authority
- CN
- China
- Prior art keywords
- audio
- gru
- signal
- network
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000009467 reduction Effects 0.000 claims abstract description 43
- 238000001228 spectrum Methods 0.000 claims abstract description 32
- 230000005236 sound signal Effects 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 238000004458 analytical method Methods 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims abstract description 19
- 230000007423 decrease Effects 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims abstract description 7
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 230000000306 recurrent effect Effects 0.000 claims description 11
- 238000013459 approach Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 3
- 230000008901 benefit Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 210000004218 nerve net Anatomy 0.000 claims 1
- 238000004064 recycling Methods 0.000 claims 1
- 230000009466 transformation Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 6
- 230000006855 networking Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000005534 acoustic noise Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Noise Elimination (AREA)
Abstract
本发明属于因特网音频处理技术领域,公开了一种基于GRU网络的结构的音频降噪系统及方法,输入信号首先经过重叠窗口,重叠窗口采用Vorbis窗口,并且满足Princen‑Bradley标准;基音分析,利用基音滤波器去除谐波噪声;基音分析后,对音频进行特征提取;经过特征提取步骤后,输入信号经过特征提取后转换为包含有N*42个特征值的数据,其中N为序列长度;在进行RNN降噪时,数据经过三层GRU处理后,估计出噪声频谱,通过谱减法计算得出22项频带增益;对分割成22个频段的原始音频信号进行增益处理即可实现降噪功能。本发明在一定程度上实现了比传统音频降噪方案,如Speex更好的性能。
Description
技术领域
本发明属于因特网音频处理技术领域,尤其涉及一种基于GRU网络的结构的音频降噪系统及方法。
背景技术
目前,最接近的现有技术:目前,移动互联网技术中已经开始应用于生活的各个方面,而移动互联网通信技术则在一定程度上代替了手机功能,如微信、QQ电话等功能使我们可以在移动互联网环境下使用网络电话,达到与传统电话相同的功能,但是收费更加廉价。但是,由于移动互联网环境下网络质量难以保证,因此网络电话的通信质量往往较低,在通信过程中常有各种干扰因素存在,传统音频降噪方案往往使用谱减法对网络音频信号进行降噪,但是其效果在一定程度上并不理想。
综上所述,现有技术存在的问题是:现有音频降噪技术存在网络电话中通信质量往往噪声较多,影响通信体验,在一定程度上限制了网络电话的发展。
发明内容
针对现有技术存在的问题,本发明提供了一种基于GRU网络的结构的音频降噪系统及方法。
本发明是这样实现的,一种基于GRU网络的结构的音频降噪方法,所述基于GRU网络的结构的音频降噪方法包括:
第一步,输入信号首先经过重叠窗口,重叠窗口采用Vorbis窗口,并且满足Princen-Bradley标准;在使用重叠窗口处理输入音频的同时,对输入音频进行基音分析;进行基音分析时,输入音频按照Opus编码器编码方式被划分为22个Bark尺度相同的近似值;
第二步,基音分析,利用基音滤波器去除谐波噪声;基音滤波器基于每频段滤波系数采用启发式算法对音频进行滤波操作;
第三步,基音分析后,对音频进行特征提取;对输入信号对数谱进行离散余弦变换,得到22个Bark频谱倒谱系数;同时,对于前六个Bark频谱倒谱系数,计算得到其一阶时间导数、二阶时间导数、基音增益作为输入特征,最后结合基频周期值以及用于检测语音的频谱非平稳度量值,一共42个值作为神经网络的输入特征值;
第四步,经过特征提取步骤后,输入信号经过特征提取后转换为包含有N*42个特征值的数据,其中N为序列长度;在进行RNN降噪时,数据经过三层GRU处理后,估计出噪声频谱,通过谱减法计算得出22项频带增益;对分割成22个频段的原始音频信号进行增益处理即可实现降噪功能。
进一步,所述基于GRU网络的结构的音频降噪方法的输入信号首先经过重叠窗口,重叠窗口采用Vorbis窗口,并且满足Princen-Bradley标准;窗口函数定义如下:
其中,符号N表示窗口长度;使用的重叠窗口长度为20ms,其中包含50%重叠,即为两个相邻窗口存在10ms的重叠部分。
进一步,所述基于GRU网络的结构的音频降噪方法在频率较高时,输入音频划分方式与Bark标度一致,但是频段较低时,输入音频至少被划分为四个频段;对于22个频段,循环神经网络将会有22个区间[0,1]内的输出值;
设wb(k)为频段b在频率k处的幅度,则存在:
∑bωb(k)=1;
对于变换后的信号X(k),频带能量如下所示;
设平均每个频带的增益为gb,则gb可以表示为:
其中Es(b)为实际音频能量,而Ex(b)为输入的带噪音频能量;每个频段平均增益为则对于频段k,其内插增益表示为:
进一步,所述基于GRU网络的结构的音频降噪方法基于每频段滤波系数αb对音频进行滤波操作。;P(k)为基音延迟信号x(n-T)经过加窗操作以及DFT变换后获得的结果信号,通过计算X(k)+αbP(k)对信号进行滤波操作;滤波后对信号进行重新归一化使每个频段的信号与原始信号X(k)中对应频段信号具有相同的能量;
对于任意频段b,其基音相关性:
其中Re[·]为对运算结果取实部操作,[·]*操作为复共轭操作;
在进行滤波系数的设置时,采用启发式算法,一个频段内的基音相关性pb≥gb,则设定αb=1;当频段内不存在噪声时,设置αb=0;即当gb=1时,αb=0;同理,当pb=0时,αb=0;
在启发式算法下,滤波器过滤系数:
进一步,所述基于GRU网络的结构的音频降噪方法经过特征提取步骤后,音频将会通过基于GRU网络循环神经网络降噪;其中GRU内部使用ReLU函数作为激活函数,其表达式如下所示;
输入信号经过特征提取后转换为包含有N*42个特征值的数据,其中N为序列长度;在进行RNN降噪时,数据经过三层GRU处理后,估计出噪声频谱,通过谱减法计算得出22项频带增益;对分割成22个频段的原始音频信号进行增益处理即可实现降噪功能。
本发明的另一目的在于提供一种基于所述基于GRU网络的结构的音频降噪方法的基于GRU网络的结构的音频降噪系统,所述基于GRU网络的结构的音频降噪系统包括:
重叠窗口模块,用于在使用重叠窗口处理输入音频信号;
基音分析模块,用于将重叠窗口模块输入的音频信号进行行基音分析;
音频特征提取模块,用于对音频信号进行特征提取;对输入信号对数谱进行离散余弦变换,得到22个Bark频谱倒谱系数;
信号降噪模块,用于通过基于GRU网络循环神经网络降噪。
进一步,所述基于GRU网络的结构的音频降噪系统GRU内部RNN降噪结构中一共含有三个隐藏层,均采用GRU结构。
本发明的另一目的在于提供一种应用所述基于GRU网络的结构的音频降噪方法的因特网音频处理系统。
综上所述,本发明的优点及积极效果为:本发明提供了一种基于GRU原理的深度学习音频降噪方案,本方案实现采用了循环神经网络方案对原始音频信号进行了充分的估计,与传统降噪方案不同,本专利中提出的降噪方案将带噪音频信号划分为22个频段,分别对其特征提取,对不同的频段采用不同的降噪方案,实现了比传统音频噪声频谱估计法更为精准的降噪结果,特别是复杂噪声环境下,使用基于GRU的循环神经网络降噪方案能准确地识别人声,并滤除其他噪声,比传统Speex降噪方案降噪性能明显提升。
图6为复杂噪声环境下原始带噪音频信号,此时原始音频信号中混入了较多的噪声,若直接对其进行噪声频谱估计则将会产生较大误差,Speex降噪结果如图7所示。由图可知,此时原始音频信号中噪声有一定程度减少,但是仍有幅度较大的噪声存在,如图中1500000段,该段仍有幅度较大噪声,经过人耳试听后发现其仍在人耳识别范围内。而使用本专利中音频降噪方案,则其降噪结果如图8所示。由图可知,此时噪声幅度相比于图7中明显降低,1500000处幅度较大的噪声信号经过本专利中所述方案降噪后已经消失。在噪声较为单一环境下,如车流环境下的音频信号如图9所示,此时原始音频信号存在幅度较为单一的背景噪声。使用传统声学降噪方案Speex降噪,其结果如图10所示,此时背景噪声存在一定程度上的减少,但是在人声处,如4000000段。噪声消除结果仍不彻底,声学降噪方案难以区分人声以及背景噪声。对于同一段带噪音频信号,使用GRU网络对其进行降噪,其结果如图11所示。由图可知,此时背景噪声明显降低,并且本专利中所提出的降噪方案能一定程度上区分人声以及背景噪声,4000000段噪声也得到了一定程度的抑制。
附图说明
图1是本发明实施例提供的基于GRU网络的结构的音频降噪系统的结构示意图;
图中:
图2是本发明实施例提供的基于GRU网络的结构的音频降噪方法流程图。
图3是本发明实施例提供的降噪整体结构图。
图4是本发明实施例提供的神经网络结构示意图。
图5是本发明实施例提供的ReLU函数图形示意图。
图6是本发明实施例提供的降噪嘈杂环境原始音频信号示意图。
图7是本发明实施例提供的Speex降噪结果示意图。
图8是本发明实施例提供的GRU网络结构降噪结果示意图。
图9是本发明实施例提供的车流环境下原始音频信号示意图。
图10是本发明实施例提供的Speex对车流环境音频降噪结果示意图。
图11是本发明实施例提供的基于GRU降噪结构对车流环境音频降噪结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有音频降噪技术存在通信质量往往噪声较多,影响通信体验,在一定程度上限制了网络电话的发展的问题;本发明提供了一种基于GRU原理的深度学习音频降噪方案,在一定程度上实现了比传统音频降噪方案,如Speex更好的性能。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的基于GRU网络的结构的音频降噪系统包括:重叠窗口模块1、基音分析模块2、基音分析模块3、音频特征提取模块4、信号降噪模块5。
重叠窗口模块1,用于在使用重叠窗口处理输入音频信号;
基音分析模块2,用于将重叠窗口模块1输入的音频信号进行行基音分析;
音频特征提取模块4,用于对音频信号进行特征提取;对输入信号对数谱进行离散余弦变换,得到22个Bark频谱倒谱系数;
信号降噪模块5,用于通过基于GRU网络循环神经网络降噪。
如图2所示,本发明实施例提供的基于GRU网络的结构的音频降噪方法包括以下步骤:
S201:输入信号首先经过重叠窗口,重叠窗口采用Vorbis窗口,并且满足Princen-Bradley标准;在使用重叠窗口处理输入音频的同时,对输入音频进行基音分析;进行基音分析时,输入音频按照Opus编码器编码方式被划分为22个Bark尺度相同的近似值;
S202:基音分析,利用基音滤波器去除谐波噪声;基音滤波器基于每频段滤波系数采用启发式算法对音频进行滤波操作;
S203:基音分析后,对音频进行特征提取;对输入信号对数谱进行离散余弦变换,得到22个Bark频谱倒谱系数;同时,对于前六个Bark频谱倒谱系数,计算得到其一阶时间导数、二阶时间导数、基音增益作为输入特征,最后结合基频周期值以及用于检测语音的频谱非平稳度量值,一共42个值作为神经网络的输入特征值;
S204:经过特征提取步骤后,音频通过基于GRU网络循环神经网络降噪;
S205:输入信号经过特征提取后转换为包含有N*42个特征值的数据,其中N为序列长度;在进行RNN降噪时,数据经过三层GRU处理后,估计出噪声频谱,通过谱减法计算得出22项频带增益;对分割成22个频段的原始音频信号进行增益处理即可实现降噪功能。
下面结合附图对本发明的应用原理作进一步的描述。
如图3所示,本发明实施例提供的基于GRU网络结构的音频降噪结构模型;在RNN降噪结构中,输入信号首先经过重叠窗口,重叠窗口采用Vorbis窗口,并且满足Princen-Bradley标准。窗口函数定义如下:
其中,符号N表示窗口长度。在本发明中使用的重叠窗口长度为20ms,其中包含50%重叠,即为两个相邻窗口存在10ms的重叠部分。
在使用重叠窗口处理输入音频的同时,首先对输入音频进行基音分析。进行基音分析时,输入音频按照Opus编码器编码方式被划分为22个Bark尺度相同的近似值。在频率较高时,输入音频划分方式与Bark标度一致,但是频段较低时,输入音频至少被划分为四个频段。因此一共有22个频段。对于这22个频段,循环神经网络将会有22个区间[0,1]内的输出值。
设wb(k)为频段b在频率k处的幅度,则存在:
∑bωb(k)=1;
对于变换后的信号X(k),频带能量如下所示;
设平均每个频带的增益为gb,则gb可以表示为:
其中Es(b)为实际音频能量,而Ex(b)为输入的带噪音频能量。设理想情况下每个频段平均增益为则对于频段k,其内插增益可以表示为:
在利用Bark尺度计算增益时,无法控制频谱中的更多细节,因此难以抑制音调谐波之间的噪声。因此在进行基音分析后,可以利用基音滤波器去除谐波噪声。
由于信号的周期性在很大程度上取决于信号频率,基音滤波器基于每频段滤波系数αb对音频进行滤波操作。
设P(k)为基音延迟信号x(n-T)经过加窗操作以及DFT变换后获得的结果信号,通过计算X(k)+αbP(k)对信号进行滤波操作。滤波后对信号进行重新归一化使每个频段的信号与原始信号X(k)中对应频段信号具有相同的能量。
对于任意频段b,其基音相关性可定义为:
其中Re[·]为对运算结果取实部操作,[·]*操作为复共轭操作。
在一般情况下,计算最佳滤波系数αb十分复杂。因此在进行滤波系数的设置时,系统采用启发式算法。在信号中噪声将会导致基音相关性降低。一般情况下,一个频段内的基音相关性pb≥gb,则设定αb=1;当频段内不存在噪声时,为了不使信号失真,则设置αb=0。即当gb=1时,αb=0。同理,当pb=0时,αb=0。
在启发式算法下,滤波器过滤系数如下所示:
在基音分析后,需要对音频进行特征提取。对输入信号对数谱进行离散余弦变换,得到22个Bark频谱倒谱系数。同时,对于前六个Bark频谱倒谱系数,计算得到其一阶时间导数、二阶时间导数、基音增益作为输入特征,最后结合基频周期值以及用于检测语音的频谱非平稳度量值,一共42个值作为神经网络的输入特征值。
经过特征提取步骤后,音频将会通过基于GRU网络循环神经网络降噪,其结构如图4。
RNN降噪结构中一共含有三个隐藏层,均采用GRU结构。其中GRU内部使用ReLU函数作为激活函数,其表达式如下所示,函数图像如图5所示:
输入信号经过特征提取后转换为包含有N*42个特征值的数据,其中N为序列长度。在进行RNN降噪时,数据经过三层GRU处理后,估计出噪声频谱,通过谱减法计算得出22项频带增益。对分割成22个频段的原始音频信号进行增益处理即可实现降噪功能。
本发明通过网络下载、实地录音等相关方式录制了约120分钟的原始无噪声语音数据以及200分钟噪声数据。其噪声源主要来自街道、电视、餐厅等场景。以这些数据为数据集对RNN降噪机构进行训练。
在进行数据训练时,由于系统数据均为自己合成的语音数据,考虑到数据量可能较小造成降噪系统性能下降,本发明采用数据增强[42]的方式进行训练,使循环神经网络对不同频率的鲁棒性增强。
其中数据增强方式为使用二阶滤波器对每个训练数据独立地过滤噪声与原始语音信号实现。二阶滤波器表达式如下所示:
其中r1,r2,r3,r4分别为区间中的随机值。训练时使用Huber LossFunction作为系统损失函数,其函数表达式如下所示:
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于GRU网络的结构的音频降噪方法,其特征在于,所述基于GRU网络的结构的音频降噪方法包括:
第一步,输入信号首先经过重叠窗口,重叠窗口采用Vorbis窗口,并且满足Princen-Bradley标准;在使用重叠窗口处理输入音频的同时,对输入音频进行基音分析;进行基音分析时,输入音频按照Opus编码器编码方式被划分为22个Bark尺度相同的近似值;
第二步,基音分析,利用基音滤波器去除谐波噪声;基音滤波器基于每频段滤波系数采用启发式算法对音频进行滤波操作;
第三步,基音分析后,对音频进行特征提取;对输入信号对数谱进行离散余弦变换,得到22个Bark频谱倒谱系数;同时,对于前六个Bark频谱倒谱系数,计算得到其一阶时间导数、二阶时间导数、基音增益作为输入特征,最后结合基频周期值以及用于检测语音的频谱非平稳度量值,一共42个值作为神经网络的输入特征值;
第四步,经过特征提取步骤后,输入信号经过特征提取后转换为包含有N*42个特征值的数据,其中N为序列长度;在进行RNN降噪时,数据经过三层GRU处理后,估计出噪声频谱,通过谱减法计算得出22项频带增益;对分割成22个频段的原始音频信号进行增益处理即可实现降噪功能。
2.如权利要求1所述的基于GRU网络的结构的音频降噪方法,其特征在于,所述基于GRU网络的结构的音频降噪方法的输入信号首先经过重叠窗口,重叠窗口采用Vorbis窗口,并且满足Princen-Bradley标准;窗口函数定义如下:
其中,符号N表示窗口长度;使用的重叠窗口长度为20ms,其中包含50%重叠,即为两个相邻窗口存在10ms的重叠部分。
3.如权利要求1所述的基于GRU网络的结构的音频降噪方法,其特征在于,所述基于GRU网络的结构的音频降噪方法在频率较高时,输入音频划分方式与Bark标度一致,但是频段较低时,输入音频至少被划分为四个频段;对于22个频段,循环神经网络将会有22个区间[0,1]内的输出值;
设wb(k)为频段b在频率k处的幅度,则存在:
∑bωb(k)=1;
对于变换后的信号X(k),频带能量如下所示;
设平均每个频带的增益为gb,则gb可以表示为:
其中Es(b)为实际音频能量,而Ex(b)为输入的带噪音频能量;每个频段平均增益为则对于频段k,其内插增益表示为:
4.如权利要求1所述的基于GRU网络的结构的音频降噪方法,其特征在于,所述基于GRU网络的结构的音频降噪方法基于每频段滤波系数αb对音频进行滤波操作;P(k)为基音延迟信号x(n-T)经过加窗操作以及DFT变换后获得的结果信号,通过计算X(k)+αbP(k)对信号进行滤波操作;滤波后对信号进行重新归一化使每个频段的信号与原始信号X(k)中对应频段信号具有相同的能量;
对于任意频段b,其基音相关性:
其中Re[·]为对运算结果取实部操作,[·]*操作为复共轭操作;
在进行滤波系数的设置时,采用启发式算法,一个频段内的基音相关性pb≥gb,则设定αb=1;当频段内不存在噪声时,设置αb=0;即当gb=1时,αb=0;同理,当pb=0时,αb=0;
在启发式算法下,滤波器过滤系数:
5.如权利要求1所述的基于GRU网络的结构的音频降噪方法,其特征在于,所述基于GRU网络的结构的音频降噪方法经过特征提取步骤后,音频将会通过基于GRU网络循环神经网络降噪;其中GRU内部使用ReLU函数作为激活函数,其表达式如下所示;
输入信号经过特征提取后转换为包含有N*42个特征值的数据,其中N为序列长度;在进行RNN降噪时,数据经过三层GRU处理后,估计出噪声频谱,通过谱减法计算得出22项频带增益;对分割成22个频段的原始音频信号进行增益处理即可实现降噪功能。
6.一种基于权利要求1所述基于GRU网络的结构的音频降噪方法的基于GRU网络的结构的音频降噪系统,其特征在于,所述基于GRU网络的结构的音频降噪系统包括:
重叠窗口模块,用于在使用重叠窗口处理输入音频信号;
基音分析模块,用于将重叠窗口模块输入的音频信号进行行基音分析;
音频特征提取模块,用于对音频信号进行特征提取;对输入信号对数谱进行离散余弦变换,得到22个Bark频谱倒谱系数;
信号降噪模块,用于通过基于GRU网络循环神经网络降噪。
7.如权利要求6所述的基于GRU网络的结构的音频降噪系统,其特征在于,所述基于GRU网络的结构的音频降噪系统GRU内部RNN降噪结构中一共含有三个隐藏层,均采用GRU结构。
8.一种应用权利要求1~5任意一项所述基于GRU网络的结构的音频降噪方法的因特网音频处理系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910258810.XA CN110120225A (zh) | 2019-04-01 | 2019-04-01 | 一种基于gru网络的结构的音频降噪系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910258810.XA CN110120225A (zh) | 2019-04-01 | 2019-04-01 | 一种基于gru网络的结构的音频降噪系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110120225A true CN110120225A (zh) | 2019-08-13 |
Family
ID=67520622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910258810.XA Withdrawn CN110120225A (zh) | 2019-04-01 | 2019-04-01 | 一种基于gru网络的结构的音频降噪系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110120225A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110491407A (zh) * | 2019-08-15 | 2019-11-22 | 广州华多网络科技有限公司 | 语音降噪的方法、装置、电子设备及存储介质 |
CN111341351A (zh) * | 2020-02-25 | 2020-06-26 | 厦门亿联网络技术股份有限公司 | 基于自注意力机制的语音活动检测方法、装置及存储介质 |
CN111429932A (zh) * | 2020-06-10 | 2020-07-17 | 浙江远传信息技术股份有限公司 | 语音降噪方法、装置、设备及介质 |
CN111477239A (zh) * | 2020-03-31 | 2020-07-31 | 厦门快商通科技股份有限公司 | 一种基于gru神经网络的去除噪声方法及系统 |
CN111491245A (zh) * | 2020-03-13 | 2020-08-04 | 天津大学 | 基于循环神经网络的数字助听器声场识别算法及硬件实现方法 |
CN111508519A (zh) * | 2020-04-03 | 2020-08-07 | 北京达佳互联信息技术有限公司 | 一种音频信号人声增强的方法及装置 |
CN111986660A (zh) * | 2020-08-26 | 2020-11-24 | 深圳信息职业技术学院 | 一种神经网络子带建模的单通道语音增强方法、系统及存储介质 |
CN112634929A (zh) * | 2020-12-16 | 2021-04-09 | 普联国际有限公司 | 一种语音增强方法、装置及存储介质 |
CN112820309A (zh) * | 2020-12-31 | 2021-05-18 | 北京天润融通科技股份有限公司 | 基于rnn的降噪处理方法及系统 |
CN113516992A (zh) * | 2020-08-21 | 2021-10-19 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置、智能设备及存储介质 |
CN113782011A (zh) * | 2021-08-26 | 2021-12-10 | 清华大学苏州汽车研究院(相城) | 频带增益模型的训练方法及用于车载场景的语音降噪方法 |
CN115223583A (zh) * | 2022-07-26 | 2022-10-21 | 宸芯科技有限公司 | 一种语音增强方法、装置、设备及介质 |
CN115394310A (zh) * | 2022-08-19 | 2022-11-25 | 中邮消费金融有限公司 | 一种基于神经网络的背景人声去除方法及系统 |
CN117668597A (zh) * | 2023-11-13 | 2024-03-08 | 华南理工大学 | 一种考虑激励非平稳度的结构模态参数识别方法及系统 |
-
2019
- 2019-04-01 CN CN201910258810.XA patent/CN110120225A/zh not_active Withdrawn
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110491407A (zh) * | 2019-08-15 | 2019-11-22 | 广州华多网络科技有限公司 | 语音降噪的方法、装置、电子设备及存储介质 |
CN111341351A (zh) * | 2020-02-25 | 2020-06-26 | 厦门亿联网络技术股份有限公司 | 基于自注意力机制的语音活动检测方法、装置及存储介质 |
CN111491245B (zh) * | 2020-03-13 | 2022-03-04 | 天津大学 | 基于循环神经网络的数字助听器声场识别算法及实现方法 |
CN111491245A (zh) * | 2020-03-13 | 2020-08-04 | 天津大学 | 基于循环神经网络的数字助听器声场识别算法及硬件实现方法 |
CN111477239A (zh) * | 2020-03-31 | 2020-07-31 | 厦门快商通科技股份有限公司 | 一种基于gru神经网络的去除噪声方法及系统 |
CN111508519B (zh) * | 2020-04-03 | 2022-04-26 | 北京达佳互联信息技术有限公司 | 一种音频信号人声增强的方法及装置 |
CN111508519A (zh) * | 2020-04-03 | 2020-08-07 | 北京达佳互联信息技术有限公司 | 一种音频信号人声增强的方法及装置 |
CN111429932A (zh) * | 2020-06-10 | 2020-07-17 | 浙江远传信息技术股份有限公司 | 语音降噪方法、装置、设备及介质 |
CN113516992A (zh) * | 2020-08-21 | 2021-10-19 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置、智能设备及存储介质 |
CN111986660A (zh) * | 2020-08-26 | 2020-11-24 | 深圳信息职业技术学院 | 一种神经网络子带建模的单通道语音增强方法、系统及存储介质 |
CN112634929A (zh) * | 2020-12-16 | 2021-04-09 | 普联国际有限公司 | 一种语音增强方法、装置及存储介质 |
CN112820309A (zh) * | 2020-12-31 | 2021-05-18 | 北京天润融通科技股份有限公司 | 基于rnn的降噪处理方法及系统 |
CN113782011A (zh) * | 2021-08-26 | 2021-12-10 | 清华大学苏州汽车研究院(相城) | 频带增益模型的训练方法及用于车载场景的语音降噪方法 |
CN113782011B (zh) * | 2021-08-26 | 2024-04-09 | 清华大学苏州汽车研究院(相城) | 频带增益模型的训练方法及用于车载场景的语音降噪方法 |
CN115223583A (zh) * | 2022-07-26 | 2022-10-21 | 宸芯科技有限公司 | 一种语音增强方法、装置、设备及介质 |
CN115394310A (zh) * | 2022-08-19 | 2022-11-25 | 中邮消费金融有限公司 | 一种基于神经网络的背景人声去除方法及系统 |
CN115394310B (zh) * | 2022-08-19 | 2023-04-07 | 中邮消费金融有限公司 | 一种基于神经网络的背景人声去除方法及系统 |
CN117668597A (zh) * | 2023-11-13 | 2024-03-08 | 华南理工大学 | 一种考虑激励非平稳度的结构模态参数识别方法及系统 |
CN117668597B (zh) * | 2023-11-13 | 2024-06-11 | 华南理工大学 | 一种考虑激励非平稳度的结构模态参数识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110120225A (zh) | 一种基于gru网络的结构的音频降噪系统及方法 | |
US10504539B2 (en) | Voice activity detection systems and methods | |
EP2633519B1 (en) | Method and apparatus for voice activity detection | |
US11475907B2 (en) | Method and device of denoising voice signal | |
US9165567B2 (en) | Systems, methods, and apparatus for speech feature detection | |
US8010355B2 (en) | Low complexity noise reduction method | |
Xiao et al. | Normalization of the speech modulation spectra for robust speech recognition | |
US20100250242A1 (en) | Method and apparatus for processing audio and speech signals | |
CN112951259B (zh) | 音频降噪方法、装置、电子设备及计算机可读存储介质 | |
CN1416564A (zh) | 减噪仪器及方法 | |
CN102074246A (zh) | 基于双麦克风语音增强装置及方法 | |
CN104637489A (zh) | 声音信号处理的方法和装置 | |
CN106653004B (zh) | 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法 | |
CN108922514B (zh) | 一种基于低频对数谱的鲁棒特征提取方法 | |
CN110909827A (zh) | 一种适用于风机叶片声音信号的降噪方法 | |
CN113593599A (zh) | 一种去除语音信号中噪声信号的方法 | |
CN111968651A (zh) | 一种基于wt的声纹识别方法及系统 | |
CN105679321A (zh) | 语音识别方法、装置及终端 | |
CN114189781A (zh) | 双麦神经网络降噪耳机的降噪方法及系统 | |
Guo et al. | Underwater target detection and localization with feature map and CNN-based classification | |
CN112233657A (zh) | 一种基于低频音节识别的语音增强方法 | |
CN114220449A (zh) | 一种语音信号降噪处理方法、装置和计算机可读介质 | |
Maganti et al. | A perceptual masking approach for noise robust speech recognition | |
Lu et al. | Temporal contrast normalization and edge-preserved smoothing of temporal modulation structures of speech for robust speech recognition | |
Krishnamoorthy et al. | Modified spectral subtraction method for enhancement of noisy speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190813 |