CN109065067B - 一种基于神经网络模型的会议终端语音降噪方法 - Google Patents
一种基于神经网络模型的会议终端语音降噪方法 Download PDFInfo
- Publication number
- CN109065067B CN109065067B CN201810934162.0A CN201810934162A CN109065067B CN 109065067 B CN109065067 B CN 109065067B CN 201810934162 A CN201810934162 A CN 201810934162A CN 109065067 B CN109065067 B CN 109065067B
- Authority
- CN
- China
- Prior art keywords
- neural network
- coefficient
- order difference
- network model
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003062 neural network model Methods 0.000 title claims abstract description 45
- 230000009467 reduction Effects 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000005236 sound signal Effects 0.000 claims abstract description 37
- 238000013528 artificial neural network Methods 0.000 claims abstract description 28
- 238000001228 spectrum Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 238000009432 framing Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 10
- 210000005069 ears Anatomy 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 5
- 230000008447 perception Effects 0.000 claims description 4
- 230000000644 propagated effect Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000005764 inhibitory process Effects 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 230000002829 reductive effect Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 210000000721 basilar membrane Anatomy 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02163—Only one microphone
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种基于神经网络模型的会议终端语音降噪方法,包括1、会议终端设备对音频文件进行采集,生成时域的数字音频信号;2、将数字音频信号分帧并进行短时傅里叶变换;3、将频域的幅度谱映射到频带中,进而求其梅尔倒谱系数;4、利用梅尔倒谱系数计算一阶和二阶差分系数,在每个频带上计算出基音相关系数,再提取基音周期特征和VAD特征;5、将音频的输入特征参数作为神经网络模型的输入,离线训练神经网络,使其学习到生成降噪语音的频带增益,训练好权重固化出来;6、使用神经网络模型学习后产生频带增益,将输出的频带增益映射到频谱,加上相位信息,通过傅里叶逆变换还原成降噪后的语音信号。本发明可达到实时降噪的目的。
Description
技术领域
本发明涉及语音处理和通信技术领域,尤其涉及一种基于神经网络模型的会议终端语音降噪方法。
背景技术
语音降噪技术是指将带噪的音频信号中去掉噪声部分,拥有广泛的应用,如应用在移动终端、会议终端设备。语音降噪技术的研究,由来已久,单声道语音降噪是非常具有挑战性的课题。只用一个麦克风进行语音降噪,不仅可以降低设备成本,而且在实际的使用中更加方便。
现有技术中是以原始的幅度谱作为神经网络的输入,输入节点过多导致计算量偏大,影响实时语音通讯,需要对幅度谱进一步压缩。以幅度谱增益为神经网络的输出,输出节点越多,计算量越大,由于人耳对信号的感知特性,通过频谱分段,提取特征,减小输出节点数,然后由神经网络的输出增益差值扩展得到整个幅度谱增益。输出节点越少,计算量越小,但同时导致差值扩展时误差越大,尤其是当信噪比较低时,一些较弱的语音信号会明显抑制导致声音断续。
发明内容
本发明要解决的技术问题,在于提供一种基于神经网络模型的会议终端语音降噪方法,通过会议终端设备的单麦克风采集音频信号源,提取音频特征,通过神经网络强大的特征学习能力,生成降噪的语音信号特征,加上原始语音信号的相位信息,通过傅里叶逆变换还原成语音信号,发送给接收端,达到实时降噪的目的。
本发明的问题是这样实现的:
一种基于神经网络模型的会议终端语音降噪方法,包括如下步骤:
步骤1、会议终端设备对音频文件进行采集,生成时域的数字音频信号,该时域的数字音频信号混有语音信号和噪声信号;
步骤2、将该时域的数字音频信号分帧并进行短时傅里叶变换后由时域转到频域;
步骤3、根据人的听觉特性,将频域的幅度谱映射到频带中,进而求其梅尔倒谱系数;
步骤4、利用梅尔倒谱系数计算出一阶差分系数以及二阶差分系数,在每个频带上计算出基音相关系数,再提取时域的数字音频信号的基音周期特征和VAD特征,将梅尔倒谱系数、一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征作为音频的输入特征参数;
步骤5、将音频的输入特征参数作为神经网络模型的输入,将一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征用来离线训练神经网络,使其学习到生成降噪语音的频带增益,训练好的权重固化出来,供每次算法调用;
步骤6、使用具有长短期记忆的神经网络模型学习后产生频带增益并输出,将输出的频带增益通过线性插值的方式映射到频谱,并得到频谱上每个频点的增益,再加上时域的数字音频信号的相位信息,通过傅里叶逆变换,最终还原成降噪后的语音信号。
进一步地,所述步骤2具体为:
将该时域的数字音频信号进行分帧,设置每10ms为一帧,共N帧,N为正整数;在第1帧前面设置第0帧作为补偿帧,在第N帧后面设置第N+1帧作为补偿帧,从第1帧开始至第N帧每次处理当前帧和前一帧共20ms的数字音频信号,相邻帧之间具有10ms的重叠,从第1帧至第N帧的每一帧都进行短时傅里叶变换处理两次以加强算法的可靠性,第1帧至第N帧都处理完毕后就完成了由时域的数字音频信号到频域的数字音频信号的转变。
进一步地,所述步骤3具体为:
使用梅尔尺度模拟人耳对频带的非线性感知,从低频到高频这一段频带内按临界带宽的大小由密到稀安排一组带通滤波器,每个带通滤波器对输入的频域的数字音频信号进行滤波;将每个带通滤波器输出的信号能量作为频域的数字音频信号的基本特征,对该基本特征计算其梅尔倒谱系数。
进一步地,所述步骤4中利用梅尔倒谱系数计算出一阶差分系数以及二阶差分系数,具体为:
一阶差分系数的计算可以采用公式(1):
公式(1)中,dt表示第t个一阶差分系数;Ct表示第t个梅尔倒谱系数;Ct+1表示第t+1个梅尔倒谱系数;Ct-1表示第t-1个梅尔倒谱系数;Ct-k表示第t-k个梅尔倒谱系数;Q表示梅尔倒谱系数的阶数,取1;K表示一阶导数的时间差;k表示求和公式的一个遍历值;
二阶差分系数的计算可以采用公式(2):
公式(2)中,nt表示第t个二阶差分系数;dt表示第t个一阶差分系数;dt+1表示第t+1个一阶差分系数;dt-1表示第t-1个一阶差分系数;dt-k表示第t-k个一阶差分系数;Q表示梅尔倒谱系数的阶数,取2;K表示二阶导数的时间差;k表示求和公式的一个遍历值。
进一步地,所述步骤5中将一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征用来离线训练神经网络,使其学习到生成降噪语音的频带增益,训练好的权重固化出来,供每次算法调用具体为:
在神经网络模型的训练阶段,采用大量的语音文件和噪声文件,其中包括90个不同的人的发声的语音文件以及28个常见的噪声文件,结合一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征通过混合方式产生数千小时的训练集,通过神经网络的前向传播,输出预测值,比较预测值与正确值计算出误差,将误差反向传播调整神经网络的权重和偏置,最终神经网络达到全局最优解,神经网络模型训练完成;
在神经网络模型的测试阶段,只需把神经网络模型中的权重固化出来,每次计算的时候调用即可完成输出。
进一步地,所述步骤6之后还包括:
步骤7、对降噪后的语音信号进行VAD检测,当检测到当前信号为语音信号时,结合当前信噪比修正幅度谱增益,减小对弱语音信号的抑制,信噪比越大,幅度谱增益系数越大,信噪比即当前信号幅度与噪声幅度的比值;当检测到当前信号为非语音信号时,更新噪声幅度为:N(n)=a*N(n-1)+(1-a)*X(n),其中N(n)为噪声幅度,X(n)为当前信号幅度,a为衰减系数。
本发明的优点在于:通过神经网络模型的强大的特征学习能力,对音频特征进行学习,回归训练出降噪语音的音频特征,另外通过提取高级语义表达的音频特征,进一步减少了神经网络的计算量,保证了该算法的实时性。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明一种基于神经网络的会议终端语音降噪方法的执行流程图。
图2为本发明的神经网络模型框架图。
具体实施方式
为使得本发明更明显易懂,现以一优选实施例,并配合附图作详细说明如下。
如图1所示,本发明的一种基于神经网络模型的会议终端语音降噪方法,包括如下步骤:
步骤1、一个单麦克风的会议终端设备对音频文件进行采集,生成时域的数字音频信号,该时域的数字音频信号混有语音信号和噪声信号;
步骤2、将该时域的数字音频信号分帧并进行短时傅里叶变换后由时域转到频域;具体为:
将该时域的数字音频信号进行分帧,设置每10ms为一帧,共N帧,N为正整数;在第1帧前面设置第0帧作为补偿帧,在第N帧后面设置第N+1帧作为补偿帧,从第1帧开始至第N帧每次处理当前帧和前一帧共20ms的数字音频信号,相邻帧之间具有10ms的重叠,从第1帧至第N帧的每一帧都进行短时傅里叶变换处理两次以加强算法的可靠性,第1帧至第N帧都处理完毕后就完成了由时域的数字音频信号到频域的数字音频信号的转变;
步骤3、根据人的听觉特性,将频域的幅度谱映射到频带中,进而求其梅尔倒谱系数;具体为:
使用梅尔尺度模拟人耳对频带的非线性感知,从低频到高频这一段频带内按临界带宽的大小由密到稀安排一组带通滤波器,每个带通滤波器对输入的频域的数字音频信号进行滤波;将每个带通滤波器输出的信号能量作为频域的数字音频信号的基本特征,对该基本特征计算其梅尔倒谱系数(MFCC);上述带通滤波器一般取22个左右,但是实验过程中发现取22个频带,信噪比低下,导致部分语音信息被压制,损伤音质,据此,本发明取40个频带,采用40个带通滤波器(可选范围35-40个),40个带通滤波器产生40个梅尔倒谱系数,压缩输入信息的同时减少了对音质的影响;
在语音识别(Speech Recognition)和话者识别(SpeakerRecognition)方面,最常用到的语音特征就是梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)。根据人耳听觉机理的研究发现,人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响对大。两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象称为掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音,故一般来说,低音容易掩蔽高音,而高音掩蔽低音较困难。在低频处的声音掩蔽的临界带宽较高频要小。所以,人们从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器,对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征,对此特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质,对输入信号不做任何的假设和限制,又利用了听觉模型的研究成果。因此,这种参数比基于声道模型的LPCC相比具有更好的鲁邦性,更符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。
步骤4、利用梅尔倒谱系数计算出一阶差分系数以及二阶差分系数,在每个频带上计算出基音相关系数,并计算离散傅里叶变化,取前6个基音相关系数;再提取时域的数字音频信号的基音周期特征和VAD特征,将梅尔倒谱系数、一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征作为音频的输入特征参数;由于标准的梅尔倒谱系数MFCC只反映了语音参数的静态特性,语音的动态特性可以用这些静态特征的差分谱来描述,把动、静态特征结合起来能有效提高系统的识别性能。一阶差分系数和二阶差分系数的计算采用下面的公式,其中,一阶差分系数的计算可以采用公式(1):
公式(1)中,dt表示第t个一阶差分系数;Ct表示第t个梅尔倒谱系数;Ct+1表示第t+1个梅尔倒谱系数;Ct-1表示第t-1个梅尔倒谱系数;Ct-k表示第t-k个梅尔倒谱系数;Q表示梅尔倒谱系数的阶数,取1;K表示一阶导数的时间差;k表示求和公式的一个遍历值;
二阶差分系数的计算可以采用公式(2):
公式(2)中,nt表示第t个二阶差分系数;dt表示第t个一阶差分系数;dt+1表示第t+1个一阶差分系数;dt-1表示第t-1个一阶差分系数;dt-k表示第t-k个一阶差分系数;Q表示梅尔倒谱系数的阶数,取2;K表示二阶导数的时间差;k表示求和公式的一个遍历值;
根据人耳对频带的敏感度,选取前10个一阶差分系数和前10个二阶差分系数;
步骤5、将音频的输入特征参数作为神经网络模型的输入(将40个梅尔倒谱系数、10个一阶差分系数、10个二阶差分系数、6个基音相关系数、1个基音周期特征和1个VAD特征,总用68个输入特征参数输入到神经网络模型中),将10个一阶差分系数、10个二阶差分系数、6个基音相关系数、1个基音周期特征和1个VAD特征用来离线训练神经网络,使其学习到生成降噪语音的频带增益,训练好的权重固化出来,供每次算法调用;
在神经网络模型的训练阶段,采用大量的语音文件和噪声文件,其中包括90个不同的人的发声的语音文件以及28个常见的噪声文件,结合一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征通过混合方式产生数千小时的训练集,通过神经网络的前向传播,输出预测值,比较预测值与正确值计算出误差,将误差反向传播调整神经网络的权重和偏置,最终神经网络达到全局最优解,神经网络模型训练完成;
在神经网络模型的测试阶段,只需把神经网络模型中的权重固化出来,每次计算的时候调用即可完成输出;
步骤6、使用具有长短期记忆的神经网络模型学习后产生40个频带增益(频带增益和梅尔倒谱系数个数相同)并输出,将输出的频带增益通过线性插值的方式映射到整个频谱,并得到频谱上每个频点的增益,再加上时域的数字音频信号的相位信息,通过傅里叶逆变换,最终还原成降噪后的语音信号;
步骤7、在语音通讯中,语音的完整性比噪声更重要,当有语音时,优先保证语音完整性。对降噪后的语音信号进行VAD检测,基于VAD检测,当检测到当前信号为语音信号时,结合当前信噪比修正幅度谱增益,减小对弱语音信号的抑制,信噪比越大,幅度谱增益系数越大,信噪比即当前信号幅度与噪声幅度的比值;在实际应用中,一般噪声不会突变,可通过VAD检测,粗略计算噪声幅度,当检测到当前信号为非语音信号时,更新噪声幅度为:N(n)=a*N(n-1)+(1-a)*X(n),其中N(n)为噪声幅度,X(n)为当前信号幅度,a为衰减系数。
本发明中的神经网络模型采用的是GRU门控递归网络,该神经网络中加入了时间这一维度信息,可以有效的利用和学习过去帧中的信息,与传统的RNN相比,GRU引入了重置门和更新门,有效的缓解了训练过程中的梯度消失或是梯度爆炸的问题。具体地,GRU的计算公式如下所示:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
其中,rt为重置门,用于控制前一时刻隐藏层单元ht-1对当前输入xt的影响,如果ht-1对xt不重要,即从当前输入xt开始表述了新的意思,与上文无关,那么rt开关可以打开,使得ht-1对xt不产生影响。更新门zt:zt用于决定是否忽略当前输入xt。zt可以判断当前输入xt对整体意思的表达是否重要。当zt开关接通时,我们将忽略当前词xt,同时构成了从ht-1到ht的“短路连接”。
具体地,本发明的神经网络模型结构如图2所示,神经网络模型包括3个GRU门控递归网络层,每层的神经元个数分别如图2所示。
在神经网络模型的训练阶段,采用大量的语音文件和噪声文件,其中包括90个不同的人的发声的语音文件以及28个常见的噪声文件,结合一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征通过混合方式产生数千小时的训练集,通过神经网络的前向传播,输出预测值,比较预测值与正确值计算出误差,将误差反向传播调整神经网络的权重和偏置,最终神经网络达到全局最优解,神经网络模型训练完成;
在神经网络模型的测试阶段,只需把神经网络模型中的权重固化出来,每次计算的时候调用即可完成输出。
具体地,从带噪音频特征估计频带增益,用频带增益来达到抑制噪声,保留语音。具体步骤:从上述提取的带噪音频特征,作为神经网络模型的输入,神经网络模型学习并回归出频带增益,通过频带增益映射到频谱,加上原始的带噪语音信号的相位信息,合成降噪后的语音信号。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (6)
1.一种基于神经网络模型的会议终端语音降噪方法,其特征在于:包括如下步骤:
步骤1、会议终端设备对音频文件进行采集,生成时域的数字音频信号,该时域的数字音频信号混有语音信号和噪声信号;
步骤2、将该时域的数字音频信号分帧并进行短时傅里叶变换后由时域转到频域;
步骤3、根据人的听觉特性,将频域的幅度谱映射到频带中,进而求其梅尔倒谱系数;
步骤4、利用梅尔倒谱系数计算出一阶差分系数以及二阶差分系数,在每个频带上计算出基音相关系数,再提取时域的数字音频信号的基音周期特征和VAD特征,将梅尔倒谱系数、一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征作为音频的输入特征参数;
步骤5、将音频的输入特征参数作为神经网络模型的输入,将一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征用来离线训练神经网络,使其学习到生成降噪语音的频带增益,训练好的权重固化出来,供每次算法调用;
步骤6、使用具有长短期记忆的神经网络模型学习后产生频带增益并输出,将输出的频带增益通过线性插值的方式映射到频谱,并得到频谱上每个频点的增益,再加上时域的数字音频信号的相位信息,通过傅里叶逆变换,最终还原成降噪后的语音信号。
2.如权利要求1所述的一种基于神经网络模型的会议终端语音降噪方法,其特征在于:所述步骤2具体为:
将该时域的数字音频信号进行分帧,设置每10ms为一帧,共N帧,N为正整数;在第1帧前面设置第0帧作为补偿帧,在第N帧后面设置第N+1帧作为补偿帧,从第1帧开始至第N帧每次处理当前帧和前一帧共20ms的数字音频信号,相邻帧之间具有10ms的重叠,从第1帧至第N帧的每一帧都进行短时傅里叶变换处理两次以加强算法的可靠性,第1帧至第N帧都处理完毕后就完成了由时域的数字音频信号到频域的数字音频信号的转变。
3.如权利要求1所述的一种基于神经网络模型的会议终端语音降噪方法,其特征在于:所述步骤3具体为:
使用梅尔尺度模拟人耳对频带的非线性感知,从低频到高频这一段频带内按临界带宽的大小由密到稀安排一组带通滤波器,每个带通滤波器对输入的频域的数字音频信号进行滤波;将每个带通滤波器输出的信号能量作为频域的数字音频信号的基本特征,对该基本特征计算其梅尔倒谱系数。
4.如权利要求1所述的一种基于神经网络模型的会议终端语音降噪方法,其特征在于:所述步骤4中利用梅尔倒谱系数计算出一阶差分系数以及二阶差分系数,具体为:
一阶差分系数的计算可以采用公式(1):
公式(1)中,dt表示第t个一阶差分系数;Ct表示第t个梅尔倒谱系数;Ct+1表示第t+1个梅尔倒谱系数;Ct-1表示第t-1个梅尔倒谱系数;Ct-k表示第t-k个梅尔倒谱系数;Q表示梅尔倒谱系数的阶数,取1;K表示一阶导数的时间差;k表示求和公式的一个遍历值;
二阶差分系数的计算可以采用公式(2):
公式(2)中,nt表示第t个二阶差分系数;dt表示第t个一阶差分系数;dt+1表示第t+1个一阶差分系数;dt-1表示第t-1个一阶差分系数;dt-k表示第t-k个一阶差分系数;Q表示梅尔倒谱系数的阶数,取2;K表示二阶导数的时间差;k表示求和公式的一个遍历值。
5.如权利要求1所述的一种基于神经网络模型的会议终端语音降噪方法,其特征在于:所述步骤5中将一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征用来离线训练神经网络,使其学习到生成降噪语音的频带增益,训练好的权重固化出来,供每次算法调用具体为:
在神经网络模型的训练阶段,采用大量的语音文件和噪声文件,其中包括90个不同的人的发声的语音文件以及28个常见的噪声文件,结合一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征通过混合方式产生数千小时的训练集,通过神经网络的前向传播,输出预测值,比较预测值与正确值计算出误差,将误差反向传播调整神经网络的权重和偏置,最终神经网络达到全局最优解,神经网络模型训练完成;
在神经网络模型的测试阶段,只需把神经网络模型中的权重固化出来,每次计算的时候调用即可完成输出。
6.如权利要求1所述的一种基于神经网络模型的会议终端语音降噪方法,其特征在于:所述步骤6之后还包括:
步骤7、对降噪后的语音信号进行VAD检测,当检测到当前信号为语音信号时,结合当前信噪比修正幅度谱增益,减小对弱语音信号的抑制,信噪比越大,幅度谱增益系数越大,信噪比即当前信号幅度与噪声幅度的比值;当检测到当前信号为非语音信号时,更新噪声幅度为:N(n)=a*N(n-1)+(1-a)*X(n),其中N(n)为噪声幅度,X(n)为当前信号幅度,a为衰减系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810934162.0A CN109065067B (zh) | 2018-08-16 | 2018-08-16 | 一种基于神经网络模型的会议终端语音降噪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810934162.0A CN109065067B (zh) | 2018-08-16 | 2018-08-16 | 一种基于神经网络模型的会议终端语音降噪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109065067A CN109065067A (zh) | 2018-12-21 |
CN109065067B true CN109065067B (zh) | 2022-12-06 |
Family
ID=64687038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810934162.0A Active CN109065067B (zh) | 2018-08-16 | 2018-08-16 | 一种基于神经网络模型的会议终端语音降噪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109065067B (zh) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109767782B (zh) * | 2018-12-28 | 2020-04-14 | 中国科学院声学研究所 | 一种提高dnn模型泛化性能的语音增强方法 |
CN111863027A (zh) * | 2019-04-24 | 2020-10-30 | 北京京东尚科信息技术有限公司 | 处理音频的方法、装置和系统 |
CN110085249B (zh) * | 2019-05-09 | 2021-03-16 | 南京工程学院 | 基于注意力门控的循环神经网络的单通道语音增强方法 |
CN110197666B (zh) * | 2019-05-30 | 2022-05-10 | 广东工业大学 | 一种基于神经网络的语音识别方法、装置 |
US11848023B2 (en) * | 2019-06-10 | 2023-12-19 | Google Llc | Audio noise reduction |
CN110191397B (zh) * | 2019-06-28 | 2021-10-15 | 歌尔科技有限公司 | 一种降噪方法及蓝牙耳机 |
CN113113039B (zh) * | 2019-07-08 | 2022-03-18 | 广州欢聊网络科技有限公司 | 一种噪声抑制方法、装置和移动终端 |
CN110503940B (zh) * | 2019-07-12 | 2021-08-31 | 中国科学院自动化研究所 | 语音增强方法、装置、存储介质、电子设备 |
CN110379412B (zh) | 2019-09-05 | 2022-06-17 | 腾讯科技(深圳)有限公司 | 语音处理的方法、装置、电子设备及计算机可读存储介质 |
CN110867192A (zh) * | 2019-10-23 | 2020-03-06 | 北京计算机技术及应用研究所 | 基于门控循环编解码网络的语音增强方法 |
KR20210072384A (ko) * | 2019-12-09 | 2021-06-17 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
WO2021127978A1 (zh) * | 2019-12-24 | 2021-07-01 | 深圳市优必选科技股份有限公司 | 语音合成方法、装置、计算机设备和存储介质 |
CN111144347B (zh) * | 2019-12-30 | 2023-06-27 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、平台及存储介质 |
CN111223493B (zh) * | 2020-01-08 | 2022-08-02 | 北京声加科技有限公司 | 语音信号降噪处理方法、传声器和电子设备 |
CN111210835B (zh) * | 2020-01-08 | 2023-07-18 | 华南理工大学 | 一种基于听觉模型和信源方位的多通路语音降噪方法 |
CN111508519B (zh) * | 2020-04-03 | 2022-04-26 | 北京达佳互联信息技术有限公司 | 一种音频信号人声增强的方法及装置 |
CN111429932A (zh) * | 2020-06-10 | 2020-07-17 | 浙江远传信息技术股份有限公司 | 语音降噪方法、装置、设备及介质 |
WO2022026948A1 (en) | 2020-07-31 | 2022-02-03 | Dolby Laboratories Licensing Corporation | Noise reduction using machine learning |
CN113516992A (zh) * | 2020-08-21 | 2021-10-19 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置、智能设备及存储介质 |
CN112309417B (zh) * | 2020-10-22 | 2023-07-07 | 瓴盛科技有限公司 | 风噪抑制的音频信号处理方法、装置、系统和可读介质 |
CN112309432A (zh) * | 2020-10-27 | 2021-02-02 | 暨南大学 | 一种基于数据驱动的音符起始点检测方法 |
CN112394224B (zh) * | 2020-11-04 | 2021-08-10 | 武汉大学 | 音频文件产生时间溯源动态匹配方法及系统 |
CN113284507B (zh) * | 2021-05-14 | 2024-02-13 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN113421584B (zh) * | 2021-07-05 | 2023-06-23 | 平安科技(深圳)有限公司 | 音频降噪方法、装置、计算机设备及存储介质 |
CN113571047A (zh) * | 2021-07-20 | 2021-10-29 | 杭州海康威视数字技术股份有限公司 | 一种音频数据的处理方法、装置及设备 |
CN113838471A (zh) * | 2021-08-10 | 2021-12-24 | 北京塞宾科技有限公司 | 基于神经网络的降噪方法、系统、电子设备及存储介质 |
CN113782011B (zh) * | 2021-08-26 | 2024-04-09 | 清华大学苏州汽车研究院(相城) | 频带增益模型的训练方法及用于车载场景的语音降噪方法 |
CN113658604A (zh) * | 2021-08-27 | 2021-11-16 | 上海互问信息科技有限公司 | 一种利用数理统计和深度网络结合的语音降噪通用方法 |
CN113963713A (zh) * | 2021-10-11 | 2022-01-21 | 稿定(厦门)科技有限公司 | 音频降噪方法及装置 |
CN114242095A (zh) * | 2021-12-10 | 2022-03-25 | 上海立可芯半导体科技有限公司 | 基于采用谐波结构的omlsa框架的神经网络降噪系统和方法 |
CN114067826B (zh) * | 2022-01-18 | 2022-06-07 | 深圳市友杰智新科技有限公司 | 语音降噪方法、装置、设备及存储介质 |
CN114566152B (zh) * | 2022-04-27 | 2022-07-08 | 成都启英泰伦科技有限公司 | 一种基于深度学习的语音端点检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11327593A (ja) * | 1998-05-14 | 1999-11-26 | Denso Corp | 音声認識システム |
CN107358966A (zh) * | 2017-06-27 | 2017-11-17 | 北京理工大学 | 基于深度学习语音增强的无参考语音质量客观评估方法 |
CN107452389A (zh) * | 2017-07-20 | 2017-12-08 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030018471A1 (en) * | 1999-10-26 | 2003-01-23 | Yan Ming Cheng | Mel-frequency domain based audible noise filter and method |
-
2018
- 2018-08-16 CN CN201810934162.0A patent/CN109065067B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11327593A (ja) * | 1998-05-14 | 1999-11-26 | Denso Corp | 音声認識システム |
CN107358966A (zh) * | 2017-06-27 | 2017-11-17 | 北京理工大学 | 基于深度学习语音增强的无参考语音质量客观评估方法 |
CN107452389A (zh) * | 2017-07-20 | 2017-12-08 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109065067A (zh) | 2018-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109065067B (zh) | 一种基于神经网络模型的会议终端语音降噪方法 | |
WO2021042870A1 (zh) | 语音处理的方法、装置、电子设备及计算机可读存储介质 | |
CN111833896B (zh) | 融合反馈信号的语音增强方法、系统、装置和存储介质 | |
CN108604452B (zh) | 声音信号增强装置 | |
WO2022027423A1 (zh) | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 | |
CN111696567B (zh) | 用于远场通话的噪声估计方法及系统 | |
Yuliani et al. | Speech enhancement using deep learning methods: A review | |
EP1913591B1 (en) | Enhancement of speech intelligibility in a mobile communication device by controlling the operation of a vibrator in dependance of the background noise | |
US20220392475A1 (en) | Deep learning based noise reduction method using both bone-conduction sensor and microphone signals | |
Kumar | Comparative performance evaluation of MMSE-based speech enhancement techniques through simulation and real-time implementation | |
Tashev et al. | DNN-based causal voice activity detector | |
Barros et al. | Estimation of speech embedded in a reverberant and noisy environment by independent component analysis and wavelets | |
US11647344B2 (en) | Hearing device with end-to-end neural network | |
Yu et al. | NeuralEcho: A self-attentive recurrent neural network for unified acoustic echo suppression and speech enhancement | |
Sadjadi et al. | A comparison of front-end compensation strategies for robust LVCSR under room reverberation and increased vocal effort | |
Kawamura et al. | A noise reduction method based on linear prediction analysis | |
Junqua | Impact of the unknown communication channel on automatic speech recognition: A review | |
Schwartz et al. | RNN-based step-size estimation for the RLS algorithm with application to acoustic echo cancellation | |
Prasad et al. | Two microphone technique to improve the speech intelligibility under noisy environment | |
Kim et al. | Spectral distortion model for training phase-sensitive deep-neural networks for far-field speech recognition | |
JP2001249676A (ja) | 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法 | |
Liu et al. | Masking based Spectral Feature Enhancement for Robust Automatic Speech Recognition | |
Pacheco et al. | Spectral subtraction for reverberation reduction applied to automatic speech recognition | |
Manasa et al. | Minimization of noise in speech signal using mel-filter | |
Gishamer et al. | Audio-denoising with Neural Network Architectures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 361000 unit 1001, No.56, guanri Road, phase II, software park, Siming District, Xiamen City, Fujian Province Applicant after: Fujian Xingwang Intelligent Technology Co.,Ltd. Address before: 361000 unit 1001, No.56, guanri Road, phase II, software park, Siming District, Xiamen City, Fujian Province Applicant before: FUJIAN STAR-NET WISDOM TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |