CN107393550B - 语音处理方法及装置 - Google Patents

语音处理方法及装置 Download PDF

Info

Publication number
CN107393550B
CN107393550B CN201710578504.5A CN201710578504A CN107393550B CN 107393550 B CN107393550 B CN 107393550B CN 201710578504 A CN201710578504 A CN 201710578504A CN 107393550 B CN107393550 B CN 107393550B
Authority
CN
China
Prior art keywords
signal
spectral density
power spectral
noise
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710578504.5A
Other languages
English (en)
Other versions
CN107393550A (zh
Inventor
蔡钢林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yajin Smart Technology Co.,Ltd.
Original Assignee
Shenzhen Yonsz Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yonsz Information Technology Co ltd filed Critical Shenzhen Yonsz Information Technology Co ltd
Priority to CN201710578504.5A priority Critical patent/CN107393550B/zh
Publication of CN107393550A publication Critical patent/CN107393550A/zh
Application granted granted Critical
Publication of CN107393550B publication Critical patent/CN107393550B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Abstract

本发明提出的一种语音处理方法及装置,其方法如下:首先将声音信号转化成频域信号,通过计算频域信号的信噪比获得噪音功率谱的自适应更新步长,根据步长更新噪音功率谱密度;然后检测声音信号中是否存在语音活动,在存在语音活动的情况下,使用自适应Kalman滤波处理频域信号,获得混响功率谱密度;在确定噪音功率谱密度和混响功率谱密度之后,计算优化估算语音频谱,最后将优化估算语音频谱经傅里叶逆变换,还原出优化后的声音信号。本发明能有效地优化远讲情况下采集的声音信号质量,提高语音识别的识别率。

Description

语音处理方法及装置
技术领域
本发明涉及到语音识别领域,特别是涉及到一种语音处理方法及装置。
背景技术
近年来随着互联网技术、智能硬件的蓬勃发展,语音识别、声纹识别、声源检测等语音智能交互技术开始从实验室走向用户。由于语音识别技术是基于语音的人机交互系统最核心的技术。目前在限定条件下识别率已经达到可用的准确率。所谓限定调节通常是指用户距离麦克风较近,噪声干扰较小。而必须近距离发出语音指令这一条件限制了语音交互的便捷性。
在远讲情况下,由于语音能量会快速衰减,而噪音干扰能量大致不变,会使得识别率迅速下降。另外一个影响识别准确率的因素是,语音指令到达房间墙壁多次反射之后的混响,也会造成实际应用与语音识别训练数据集的不匹配,影响识别率。
噪音主要有两个来源:(1)麦克风信号采集系统自带的信道噪声,信道噪声因麦克风的敏感性而不同,麦克风敏感性越高,通常信道噪声越高;(2)不可忽略的环境噪声干扰,比如电视机、空调噪声等等。相比于噪声,混响由于产生条件更为复杂,更难抑制。并且,噪音和混响一般同时存在,使得混响抑制更加困难。
CN201010224307.1公开了一种语音增强的方法,该方法包括如下步骤:利用判断器判断当前帧是否为纯噪音,如果当前帧是纯噪音且该当前帧的前若干帧均为纯噪音,利用改进谱减法的语音增强算法改进频域信号,反之语音生成模型的增强算法改进频域信号;将处理后的频域信号变换到时间域,进行去加重处理并得到输出信号。该发明的语音增强的方法,大大提高了对残余噪声的衰减,保证了语音可懂度。
然而,该方法解决的是高噪音背景下的除噪问题,并不适用于室内环境远讲情形下的除噪问题。
发明内容
本发明的主要目的为提供一种语音处理方法及装置,在远讲情况下,提高室内采集声音信号的质量。
本发明提出一种语音处理方法,包括以下步骤:
将声音信号从时域变换到频域,获得频域信号,计算所述频域信号的观测信号功率谱密度,并根据所述观测信号功率谱密度估算噪音功率谱密度;
在判断出所述声音信号存在语音活动时,使用自适应Kalman滤波处理所述频域信号,获得混响功率谱密度;
根据所述噪音功率谱密度、混响功率谱密度、观测信号功率谱密度计算去除噪音和混响的频域信号,记为优化估算语音频谱;
使用逆傅里叶变换将所述优化估算语音频谱从频域恢复为时域,获得优化后的声音信号。
优选地,所述估算噪音功率谱密度的步骤,包括:
假定前LI时间帧没有语音活动,初始化噪音功率谱密度、估算语音频谱、观测信号功率谱密度、先验信噪比、后验信噪比;
从第LI+1时间帧开始做迭代计算,更新观测信号功率谱密度,具体为:
ΦY(k)=αΦ′Y(k)+(1-α)|Y(l,k)|2
其中,α为第一平滑因子,ΦY(k)为观测信号功率谱密度,Φ′Y(k)为前一帧的观测信号功率谱密度,Y(l,k)为所述频域信号;
计算先验信噪比和后验信噪比:
Figure GDA0002629808080000021
Figure GDA0002629808080000022
其中,β为第二平滑因子,γ(k)为先验信噪比,ε(k)为后验信噪比,ΦV(k)为噪音功率谱密度,
Figure GDA0002629808080000023
为估算语音频谱;
根据所述先验信噪比和后验信噪比,计算噪音功率谱的自适应更新步长:
Figure GDA0002629808080000024
根据所述自适应更新步长,更新噪音功率谱,具体为:
ΦV(k)=αV(k)Φ′V(k)+(1-αV(k))|Y(l,k)|2
优选地,所述假定前LI时间帧没有语音活动,初始化噪音功率谱密度、估算语音频谱、观测信号功率谱密度、先验信噪比、后验信噪比,具体为:
Figure GDA0002629808080000031
Figure GDA0002629808080000032
Figure GDA0002629808080000033
γ(k)=1,ε(k)=κ,k=1,1,…,K
其中,K代表频带整体的数量,κ为第一衰减因子。
优选地,所述α的取值范围为[0.95,0.98)、0.98或(0.98,0.995],所述β的取值范围为[0.6,0.75)、0.75或(0.75,0.9]。
优选地,所述判断出所述声音信号存在语音活动的步骤,包括:
构建多参量的听觉特征,所述参量与所述声音信号、先验信噪比、后验信噪比相关;
使用所述听觉特征中的参量分别与各自对应的听觉阈值比较;
若任一参量大于与其对应的听觉阈值,则判定所述声音信号存在语音活动。
优选地,所述自适应Kalman滤波是指用一个前向预测滤波器,对纯净语音频谱进行预测。
优选地,所述使用自适应Kalman滤波处理所述频域信号,获得混响功率谱密度的步骤,包括:
初始化预测误差向量,预测向量方差矩阵,预测频谱误差,具体为:
Figure GDA0002629808080000034
Figure GDA0002629808080000035
E(k)=0
其中,预测向量方差矩阵Pk为维度LG×LG的0矩阵,预测误差向量Gk为维度LG×1的0向量,E(k)为采用当前预测向量获得的预测误差;
更新预测向量方差矩阵的中间量,预测频谱误差的中间量,具体为:
Figure GDA0002629808080000036
Figure GDA0002629808080000037
其中,
Figure GDA0002629808080000038
为维度LG×LG的单位矩阵,PPre为预测向量方差矩阵的中间量,EPre为预测频谱误差的中间量;
预测频谱误差平滑,具体为:
Figure GDA0002629808080000041
Figure GDA0002629808080000042
其中,η为平滑系数;
计算Kalman增益,并更新Pk和Gk,具体为:
Figure GDA0002629808080000043
Figure GDA0002629808080000044
Gk=G′k+KGEPre
计算混响功率谱密度,具体为:
Figure GDA0002629808080000045
其中,φR(k)为混响功率谱密度,φ′R(k)为前一帧的混响功率谱密度。
优选地,所述根据所述噪音功率谱密度、混响功率谱密度、观测信号功率谱密度计算去除噪音和混响的频域信号,记为优化估算语音频谱的步骤,包括:
根据维纳滤波构建衰减因子,输出估算语音频谱,计算如下:
Figure GDA0002629808080000046
Figure GDA0002629808080000047
其中,ζ(k)为第二衰减因子,φY(k)为观测信号功率谱密度,φV(k)为噪音功率谱密度,φR(k)为混响功率谱密度,Y(l,k)为频域信号。
优选地,所述使用逆傅里叶变换将所述优化估算语音频谱从频域恢复为时域,获得优化后的声音信号,具体为:
Figure GDA0002629808080000048
本发明还提供了一种语音处理装置,包括:
第一变换模块,用于将声音信号从时域变换到频域,获得频域信号;
第一计算模块,用于计算所述频域信号的观测信号功率谱密度,并根据观测信号功率谱密度估算噪音功率谱密度;
第二计算模块,用于在判断出所述声音信号存在语音活动时,使用自适应Kalman滤波处理所述频域信号,获得混响功率谱密度;
第三计算模块,用于根据所述噪音功率谱密度、混响功率谱密度、观测信号功率谱密度计算去除噪音和混响的频域信号,记为优化估算语音频谱;
第二变换模块,使用逆傅里叶变换将所述优化估算语音频谱从频域恢复为时域,获得优化后的声音信号。
本发明提出的一种语音处理方法及装置,其方法如下:首先将声音信号转化成频域信号,通过计算频域信号的信噪比获得噪音功率谱的自适应更新步长,根据步长更新噪音功率谱密度;然后检测声音信号中是否存在语音活动,在存在语音活动的情况下,使用自适应Kalman滤波处理频域信号,获得混响功率谱密度;在确定噪音功率谱密度和混响功率谱密度之后,计算优化估算语音频谱,最后将优化估算语音频谱经傅里叶逆变换,还原出优化后的声音信号。本发明能有效地优化远讲情况下采集的声音信号质量,提高语音识别的识别率。
附图说明
图1为本发明语音处理方法一实施例的流程示意图;
图2为本发明语音处理装置一实施例的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明所指的声音信号,是指数字音频数据,即先通过声波转换电路将声波转换为模拟音频信号,再通过模拟数字转换器将上述模拟音频信号转换得到的数字音频数据。
参照图1,本发明提出一种语音处理方法,包括以下步骤:
S10、将声音信号从时域变换到频域,获得频域信号,计算所述频域信号的观测信号功率谱密度,并根据所述观测信号功率谱密度估算噪音功率谱密度;
S20、在判断出所述声音信号存在语音活动时,使用自适应Kalman滤波处理所述频域信号,获得混响功率谱密度;
S30、根据所述噪音功率谱密度、混响功率谱密度、观测信号功率谱密度计算去除噪音和混响的频域信号,记为优化估算语音频谱;
S40、使用逆傅里叶变换将所述优化估算语音频谱从频域恢复为时域,获得优化后的声音信号。
在步骤S10中,对声音信号进行傅里叶变换后,估测声音信号中的噪音值,可用常规的技术手段计算声音信号的先验信噪比、后验信噪比,并根据上述先验信噪比、后验信噪比计算噪音功率谱密度的自适应更新步长。在获得步长后,更新噪音功率谱密度。可设定在起始阶段的声音信号不存在语音活动,因而获取到的观察信号功率谱密度等于噪音功率谱密度。
在步骤S20中,在经过语音检测处理,分检出需要处理的包含语音信息的声音信号后,采用自适应Kalman滤波处理包含语音信息的声音信号。Kalman自适应增强是假定用一个长为LG的前向预测滤波器,对纯净语音频谱进行预测。由于语音信号可以用一个自回归模型来很好的表达,因此计算出来的混响功率谱密度实际上也十分接近实际值。
在步骤S30中,在计算出噪音功率谱密度和混响功率谱密度后,可根据维纳滤波构建衰减因子,然后求解出优化估算语音频谱。
在步骤S40中,当求解出优化估算语音频谱后,将上述优化估算语音频谱经逆傅里叶变换,便可获得优化后的声音信号。经处理后的声音信号,再通过语音识别引擎对声音信号包含的内容进行识别,可大幅度地提高声音识别的准确性。
以下为本发明语音优化方法具体的计算过程。
首先是背景噪音的估计,噪声能量估计的准确程度直接影响后续语音检测的效果。本发明实施例采用固定噪声估计结合噪声自适应更新的方式来保证噪音估计的稳定性和精确性。初始化及具体计算流程如下所示:
取缓冲区数据,并加窗做FFT变换,把时域信号变换到频谱域:
假设混合语音数据为y(t),其中x(t)为带混响语音信号,ν(t)为背景噪声,h(τ)为混响冲击响应信号,s(t-τ)为无混响语音信号。FFT变换(傅里叶变换)如下所示:
Figure GDA0002629808080000071
Figure GDA0002629808080000072
其中,w(t)为长度512的汉宁窗,l为时间帧坐标,k为频率坐标。
对前LI时间帧假设没有语音活动,并做如下初始化:
Figure GDA0002629808080000073
Figure GDA0002629808080000074
Figure GDA0002629808080000075
γ(k)=1,ε(k)=κ,k=1,2,…,K
其中,K代表频带整体的数量,ΦV(k)代表噪音信号的功率谱密度,ΦY(k)代表观测信号的功率谱密度,γ(k)为先验信噪比,ε(k)为后验信噪比,
Figure GDA0002629808080000078
为估算语音频谱,初始化为混合频谱的均值乘以一个衰减因子κ,衰减因子取值为0.1。
从第LT+1时间帧开始做迭代计算,计算流程如下所示:
更新观测信号功率谱密度估计值,即根据前一帧的结果,平滑得到下一帧的计算结果:
Φ′Y(k)=αΦY(k)+(1-α)|Y(l,k)|2
其中,α为平滑因子,取值范围为推荐为0.95~0.995,本实施例优选0.98作为平滑阈值。
计算先验信噪比和后验信噪比
Figure GDA0002629808080000076
Figure GDA0002629808080000077
其中,β为平滑因子,β为取值范围为0.6~0.9,本实施例优选取值为0.75。Max函数表示选择两个变量中的最大值。
以上只是先验信噪比和后验信噪比的一种优选的计算方式,任何按照上述方法进行适当的变形分解,再进行求解的方式,也应属于本发明的保护范围之内。
根据先验后验信噪比计算噪音功率谱自适应更新步长:
Figure GDA0002629808080000081
即采用固定步长加上自适应步长的方式,实现整体更新。
根据步长,更新噪音功率谱,基本原则是,如果语音越少,则噪音功率谱更新的步长越大,保证噪音估计的准确性;反之,则采用较慢的步长,以避免语音信号参与噪音功率谱的迭代更新:
ΦV(k)=αV(k)Φ′V(k)+(1-αV(k))|Y(l,k)|2
上式输出即为噪音功率谱更新结果,用以下一帧的噪音更新和作为参数参与语音检测过程。
以下为语音检测的具体过程。
在准确估算出背景噪音参数之后,便可根据背景噪音参数构建听觉特征的。在获得听觉特征之后,将当前帧的听觉特征与设定的听觉阈值比较,便可判断当前帧是否出现语音活动。
语音活动检测主要是为了检测出语音活动的区域,在非语音活动区域,停止对语音的优化处理,减少功耗;在语音活动区域,则可减少噪音干扰,提高语音优化的效果。
在提取当前帧的听觉特征之前,有一初始化过程,具体如下:
对特征缓冲矩阵,特征阈值,语音检测结果缓冲区进行初始化,特征缓冲区矩阵由LI个3维度列向量构成,以公式表示如下:
Figure GDA0002629808080000082
Figure GDA0002629808080000083
Figure GDA0002629808080000084
Q(1:LI)=0
θT(1)=FB(1,1)
θT(2)=FB(2,1)
θT(3)=FB(3,1)
其中,FB为听觉特征缓冲区,Q为语音活动检测结果缓冲区,θT为听觉特征阈值缓冲区,即分别用先验信噪比、后验信噪比和时域信号用以最终的语音活动检测。在听觉特征计算中,LW代表窗长,LT代表起始样本点,起始样本点取值范围通常在5~20之间,本实施例设定为10。
从第LT+1时间帧开始,计算当前帧听觉特征如下所示:
Figure GDA0002629808080000091
Figure GDA0002629808080000092
Figure GDA0002629808080000093
根据当前帧听觉特征计算结果,更新特征缓冲区和特征阈值,即把缓冲区内时间最久的数据踢出缓冲区,把当前帧数据放入缓冲区:
Figure GDA0002629808080000094
并求取各维度参数对应的听觉阈值:
Figure GDA0002629808080000095
当前听觉特征与听觉阈值进行对比,根据对比结果确定语音检测的结果,具体计算如下所示:
Figure GDA0002629808080000096
Figure GDA0002629808080000097
q(i)为所述听觉特征的维度参数的得分,QFrame为语音检查的判断结果,结果为1则表明当前帧存在语音,结果为0则表明当前帧不存在语音。
更新语音检测结果缓冲区,同样把缓冲区内时间最久的数据踢出缓冲区,加入当前帧判断结果,并计算缓冲区内平均的语音检测结果:
Q=[Q′(:,2:LB);QFrame]
然后,计算语音检测结果缓冲区内检测结果的统计值,在此处采用的是计算检测结果的总和,具体计算如下:
Figure GDA0002629808080000098
由于语音通常是连续出现的,对比QM与固定阈值δLI,如果小于阈值,表明当前缓冲区内语音存在帧为误检,当前缓冲区内没有语音,更新特征阈值并把语音频谱估计结果设为一个极小值,计算如下所示:
Figure GDA0002629808080000099
同时,更新估算语音频谱
Figure GDA0002629808080000101
计算如下:
Figure GDA0002629808080000102
δ取值范围为0.1~0.3,本项发明取值为0.15。若无误检,表明当前缓冲区内有语音出现,可对该声音信号继续优化处理。
Kalman自适应增强是假定用一个长为LG的前向预测滤波器,对纯净语音频谱进行预测,通常LG<LI。在本项发明中,这两个参数分别设置为LG=15,LI=25。由于语音信号可以用一个自回归模型来很好的表达,预测的误差可以理解为混响分量。基于最小均方误差准则,滤波器更新的自适应过程如下所示:
在前LI帧进行预测误差向量,预测向量方差矩阵,预测误差进行初始化,初始化过程如下所示:
Figure GDA0002629808080000103
Figure GDA0002629808080000104
E(k)=0
其中,预测向量方差矩阵Pk为维度LG×LG的0矩阵,为预测误差向量Gk为维度LG×1的0向量,E(k)为采用当前预测向量获得的预测误差。
从LI+1帧开始,如果语音检测结果表明存在语音活动执行如下自适应更新过程:
(1.1)更新预测误差,包括预测误差向量和预测频谱误差,更新过程如下所示:
Figure GDA0002629808080000105
Figure GDA0002629808080000106
其中,
Figure GDA0002629808080000107
为维度LG×LG的单位矩阵。
(1.2)预测频谱误差平滑,使得误差估计更加平滑,具体流程如下所示:
Figure GDA0002629808080000108
E(k)=η|EPre|2-(1-η)|EPre,o|2
其中,η为平滑系数取值范围在0.6~0.9之间,本项发明取值为0.75。
(1.3)Kalman增益计算,更新预测向量,更新过程如下所示:
Figure GDA0002629808080000109
Figure GDA00026298080800001010
Gk=G′k+KGEPre
(1.4)混响功率谱密度更新,更新过程如下所示:
Figure GDA00026298080800001011
该混响功率谱密度与观测信号功率谱密度采用同一个平滑系数α。φ′R(k)为前一帧的混响功率谱密度。混响功率谱密度的初始设置值为0。
(1.5)根据维纳滤波构建衰减因子,输出估算语音频谱,计算如下:
Figure GDA0002629808080000111
Figure GDA0002629808080000112
该频谱估计值既用来在下一步恢复时域信号,又用于第一步参与后验信噪比的计算。
(1.6)循环执行1.1-1.5至所有频带更新完毕,采用逆傅里叶变换恢复时域信号,计算流程如下所示:
Figure GDA0002629808080000113
恢复出时域信号之后,发送到后续应用终端,比如通讯设备或者语音识别引擎,实现噪声、混响联合抑制。
参照图2,本发明还提出了一种语音处理装置,包括:
第一变换模块101,用于将声音信号从时域变换到频域,获得频域信号;
第一计算模块201,用于计算所述频域信号的观测信号功率谱密度,并根据所述观测信号功率谱密度估算噪音功率谱密度;
第二计算模块202,用于在判断出所述声音信号存在语音活动时,使用自适应Kalman滤波处理所述频域信号,获得混响功率谱密度;
第三计算模块203,用于根据所述噪音功率谱密度、混响功率谱密度、观测信号功率谱密度计算去除噪音和混响的频域信号,记为优化估算语音频谱;
第二变换模块102,使用逆傅里叶变换将所述优化估算语音频谱从频域恢复为时域,获得优化后的声音信号。
优选地,所述第一计算模块201包括估算噪音功率谱密度单元,用于估算噪音功率谱密度。所述估算噪音功率谱密度单元执行以下流程:
假定前LI时间帧没有语音活动,初始化噪音功率谱密度、估算语音频谱、观测信号功率谱密度、先验信噪比、后验信噪比;
从第LI+1时间帧开始做迭代计算,更新观测信号功率谱密度,具体为:
ΦY(k)=αΦ′Y(k)+(1-α)|Y(l,k)|2
其中,α为第一平滑因子,ΦY(k)为观测信号功率谱密度,Φ′Y(k)为前一帧的观测信号功率谱密度,Y(l,k)为所述频域信号;
计算先验信噪比和后验信噪比:
Figure GDA0002629808080000121
Figure GDA0002629808080000122
其中,β为第二平滑因子,γ(k)为先验信噪比,ε(k)为后验信噪比,ΦV(k)为噪音功率谱密度,
Figure GDA0002629808080000123
为估算语音频谱;
根据所述先验信噪比和后验信噪比,计算噪音功率谱的自适应更新步长:
Figure GDA0002629808080000124
根据所述自适应更新步长,更新噪音功率谱,具体为:
ΦV(k)=αV(k)Φ′V(k)+(1-αV(k))|Y(l,k)|2
优选地,所述估算噪音功率谱密度单元包括初始化子单元,用于初始化噪音功率谱密度、估算语音频谱、观测信号功率谱密度、先验信噪比、后验信噪比。所述初始化子单元执行以下流程:
Figure GDA0002629808080000125
Figure GDA0002629808080000126
Figure GDA0002629808080000127
γ(k)=1,ε(k)=κ,k=1,2,…,K
其中,K代表频带整体的数量,κ为第一衰减因子。
优选地,所述α的取值范围为[0.95,0.98)、0.98或(0.98,0.995],所述β的取值范围为[0.6,0.75)、0.75或(0.75,0.9]。
优选地,还包括语音判断模块,用于判断所述声音信号是否存在语音活动,语音判断模块执行以下流程:
构建多参量的听觉特征,所述参量与所述声音信号、先验信噪比、后验信噪比相关;
使用所述听觉特征中的参量分别与各自对应的听觉阈值比较;
若任一参量大于与其对应的听觉阈值,则判定所述声音信号存在语音活动。
优选地,所述自适应Kalman滤波是指用一个长为LG的前向预测滤波器,对纯净语音频谱进行预测。
优选地,所述第二计算模块202执行以下流程:
初始化预测误差向量,预测向量方差矩阵,预测频谱误差,具体为:
Figure GDA0002629808080000131
Figure GDA0002629808080000132
E(k)=0
其中,预测向量方差矩阵Pk为维度LG×LG的0矩阵,预测误差向量Gk为维度LG×1的0向量,E(k)为采用当前预测向量获得的预测误差;
更新预测向量方差矩阵的中间量,预测频谱误差的中间量,具体为:
Figure GDA0002629808080000133
Figure GDA0002629808080000134
其中,
Figure GDA0002629808080000135
为维度LG×LG的单位矩阵,PPre为预测向量方差矩阵的中间量,EPre为预测频谱误差的中间量;
预测频谱误差平滑,具体为:
Figure GDA0002629808080000136
E(k)=η|EPre|2-(1-η)|EPre,o|2
其中,η为平滑系数;
计算Kalman增益,并更新Pk和Gk,具体为:
Figure GDA0002629808080000137
Figure GDA0002629808080000138
Gk=G′k+KGEPre
计算混响功率谱密度,具体为:
Figure GDA0002629808080000139
其中,φR(k)为混响功率谱密度,φ′R(k)为前一帧的混响功率谱密度。
优选地,所述第三计算模块203执行以下流程:
根据维纳滤波构建衰减因子,输出估算语音频谱,计算如下:
Figure GDA00026298080800001310
Figure GDA00026298080800001311
其中,ζ(k)为第二衰减因子,φY(k)为观测信号功率谱密度,φV(k)为噪音功率谱密度,φR(k)为混响功率谱密度,Y(l,k)为频域信号。
优选地,所述第二变换模块102,用于使用逆傅里叶变换将所述优化估算语音频谱从频域恢复为时域,获得优化后的声音信号。所述优化后的声音信号可通过以下公式求得:
Figure GDA0002629808080000141
本发明可以用于辅助应用于家居环境下的语音指令识别。在家居环境下,用户距离麦克风大约为1米至3米,会受到家庭噪声和墙壁混响的影响,识别率会迅速下降。本发明提出的语音处理方法与装置,可以优化语音质量。经实验证明,在距离麦克风2米左右,输入信噪比10dB左右,识别率可以从30%提高到65%,当增加噪声至20dB,识别率从10%提高至50%左右。
本发明提出的一种语音处理方法及装置,其方法如下:首先将声音信号转化成频域信号,通过计算频域信号的信噪比获得噪音功率谱的自适应更新步长,根据步长更新噪音功率谱密度;然后检测声音信号中是否存在语音活动,在存在语音活动的情况下,使用自适应Kalman滤波处理频域信号,获得混响功率谱密度;在确定噪音功率谱密度和混响功率谱密度之后,计算优化估算语音频谱,最后将优化估算语音频谱经傅里叶逆变换,还原出优化后的声音信号。本发明能有效地优化远讲情况下采集的声音信号质量,提高语音识别的识别率。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种语音处理方法,其特征在于,包括以下步骤:
将声音信号从时域变换到频域,获得频域信号,计算所述频域信号的观测信号功率谱密度,并根据所述观测信号功率谱密度估算噪音功率谱密度;
构建多参量的听觉特征,所述参量与所述声音信号、先验信噪比、后验信噪比相关,所述听觉特征包括:
Figure FDA0002919299890000011
Figure FDA0002919299890000012
Figure FDA0002919299890000013
其中,γ(k)为先验信噪比,ε(k)为后验信噪比,LW代表窗长,LT代表起始样本点,k为频率坐标,K代表频带整体的数量;
使用所述听觉特征中的参量分别与各自对应的听觉阈值比较;
若任一参量大于与其对应的听觉阈值,则判定所述声音信号存在语音活动;
在判断出所述声音信号存在语音活动时,使用自适应Kalman滤波处理所述频域信号,获得混响功率谱密度;
根据所述噪音功率谱密度、混响功率谱密度、观测信号功率谱密度计算去除噪音和混响的频域信号,记为优化估算语音频谱;
使用逆傅里叶变换将所述优化估算语音频谱从频域恢复为时域,获得优化后的声音信号。
2.根据权利要求1所述语音处理方法,其特征在于,所述估算噪音功率谱密度的步骤,包括:
假定前LI时间帧没有语音活动,初始化噪音功率谱密度、估算语音频谱、观测信号功率谱密度、先验信噪比、后验信噪比;
从第LI+1时间帧开始做迭代计算,更新观测信号功率谱密度,具体为:
ΦY(k)=αΦ′Y(k)+(1-α)|Y(l,k)|2
其中,α为第一平滑因子,ΦY(k)为观测信号功率谱密度,Φ′Y(k)为前一帧的观测信号功率谱密度,Y(l,k)为所述频域信号;l为时间帧坐标,k为频率坐标;
计算先验信噪比和后验信噪比:
Figure FDA0002919299890000021
Figure FDA0002919299890000022
其中,β为第二平滑因子,γ(k)为先验信噪比,ε(k)为后验信噪比,ΦV(k)为噪音功率谱密度,
Figure FDA0002919299890000023
为估算语音频谱;
根据所述先验信噪比和后验信噪比,计算噪音功率谱的自适应更新步长:
Figure FDA0002919299890000024
根据所述自适应更新步长,更新噪音功率谱,具体为:
ΦV(k)=αV(k)Φ′V(k)+(1-αV(k))|Y(l,k)|2
3.根据权利要求2所述语音处理方法,其特征在于,所述假定前LI时间帧没有语音活动,初始化噪音功率谱密度、估算语音频谱、观测信号功率谱密度、先验信噪比、后验信噪比的步骤,具体为:
Figure FDA0002919299890000025
Figure FDA0002919299890000026
Figure FDA0002919299890000027
γ(k)=1,ε(k)=κ,k=1,2,…,K
其中,K代表频带整体的数量,κ为第一衰减因子。
4.根据权利要求2所述语音处理方法,其特征在于,所述α的取值范围为[0.95,0.98)、0.98或(0.98,0.995],所述β的取值范围为[0.6,0.75)、0.75或(0.75,0.9]。
5.根据权利要求1所述语音处理方法,其特征在于,所述自适应Kalman滤波是指用一个前向预测滤波器,对纯净语音频谱进行预测。
6.根据权利要求3所述语音处理方法,其特征在于,所述使用自适应Kalman滤波处理所述频域信号,获得混响功率谱密度的步骤,包括:
初始化预测误差向量,预测向量方差矩阵,预测频谱误差,具体为
Figure FDA0002919299890000031
Figure FDA0002919299890000032
E(k)=0
其中,预测向量方差矩阵Pk为维度LG×LG的0矩阵,预测误差向量Gk为维度LG×1的0向量,E(k)为采用当前预测向量获得的预测误差;
更新预测向量方差矩阵的中间量,预测频谱误差的中间量,具体为:
Figure FDA0002919299890000033
其中,
Figure FDA0002919299890000034
为维度LG×LG的单位矩阵,PPre为预测向量方差矩阵的中间量,EPre为预测频谱误差的中间量;
预测频谱误差平滑,具体为:
Figure FDA0002919299890000035
E(k)=η|EPre|2-(1-η)|EPre,o|2
其中,η为平滑系数;
Figure FDA0002919299890000036
Gk=G′k+KGEPre
计算混响功率谱密度,具体为:
Figure FDA0002919299890000037
其中,φR(k)为混响功率谱密度,φ′R(k)为前一帧的混响功率谱密度。
7.根据权利要求6所述语音处理方法,其特征在于,所述根据所述噪音功率谱密度、混响功率谱密度、观测信号功率谱密度计算去除噪音和混响的频域信号,记为优化估算语音频谱的步骤,包括:
根据维纳滤波构建衰减因子,输出估算语音频谱,计算如下:
Figure FDA0002919299890000041
Figure FDA0002919299890000042
其中,ζ(k)为第二衰减因子,φY(k)为观测信号功率谱密度,φV(k)为噪音功率谱密度,φR(k)为混响功率谱密度,Y(l,k)为频域信号。
8.根据权利要求7所述语音处理方法,其特征在于,所述使用逆傅里叶变换将所述优化估算语音频谱从频域恢复为时域,获得优化后的声音信号,具体为:
Figure FDA0002919299890000043
9.一种语音处理装置,其特征在于,包括:
第一变换模块,用于将声音信号从时域变换到频域,获得频域信号;
第一计算模块,用于计算所述频域信号的观测信号功率谱密度,并根据所述观测信号功率谱密度估算噪音功率谱密度,构建多参量的听觉特征,所述参量与所述声音信号、先验信噪比、后验信噪比相关,所述听觉特征包括:
Figure FDA0002919299890000044
Figure FDA0002919299890000045
Figure FDA0002919299890000051
其中,γ(k)为先验信噪比,ε(k)为后验信噪比,LW代表窗长,LT代表起始样本点,k为频率坐标,K代表频带整体的数量;
使用所述听觉特征中的参量分别与各自对应的听觉阈值比较;若任一参量大于与其对应的听觉阈值,则判定所述声音信号存在语音活动;
第二计算模块,用于在判断出所述声音信号存在语音活动时,使用自适应Kalman滤波处理所述频域信号,获得混响功率谱密度;
第三计算模块,用于根据所述噪音功率谱密度、混响功率谱密度、观测信号功率谱密度计算去除噪音和混响的频域信号,记为优化估算语音频谱;
第二变换模块,使用逆傅里叶变换将所述优化估算语音频谱从频域恢复为时域,获得优化后的声音信号。
CN201710578504.5A 2017-07-14 2017-07-14 语音处理方法及装置 Active CN107393550B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710578504.5A CN107393550B (zh) 2017-07-14 2017-07-14 语音处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710578504.5A CN107393550B (zh) 2017-07-14 2017-07-14 语音处理方法及装置

Publications (2)

Publication Number Publication Date
CN107393550A CN107393550A (zh) 2017-11-24
CN107393550B true CN107393550B (zh) 2021-03-19

Family

ID=60339819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710578504.5A Active CN107393550B (zh) 2017-07-14 2017-07-14 语音处理方法及装置

Country Status (1)

Country Link
CN (1) CN107393550B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108172231B (zh) * 2017-12-07 2021-07-30 中国科学院声学研究所 一种基于卡尔曼滤波的去混响方法及系统
CN111742541B (zh) * 2017-12-08 2021-11-30 华为技术有限公司 声学回波抵消方法、装置、存储介质
WO2019119593A1 (zh) * 2017-12-18 2019-06-27 华为技术有限公司 语音增强方法及装置
CN110136733B (zh) * 2018-02-02 2021-05-25 腾讯科技(深圳)有限公司 一种音频信号的解混响方法和装置
CN108461081B (zh) * 2018-03-21 2020-07-31 北京金山安全软件有限公司 语音控制的方法、装置、设备和存储介质
CN109211556B (zh) * 2018-10-19 2020-11-24 深圳市正威智能有限公司 一种轨道交通工具零部件检测系统
CN112997249B (zh) * 2018-11-30 2022-06-14 深圳市欢太科技有限公司 语音处理方法、装置、存储介质及电子设备
CN109727605B (zh) * 2018-12-29 2020-06-12 苏州思必驰信息科技有限公司 处理声音信号的方法及系统
CN112201273A (zh) * 2019-07-08 2021-01-08 北京声智科技有限公司 一种噪声功率谱密度计算方法、系统、设备及介质
CN110428841B (zh) * 2019-07-16 2021-09-28 河海大学 一种基于不定长均值的声纹动态特征提取方法
CN112242145A (zh) * 2019-07-17 2021-01-19 南京人工智能高等研究院有限公司 语音滤波方法、装置、介质和电子设备
CN112116914B (zh) * 2020-08-03 2022-11-25 四川大学 基于变步长lms算法的声音处理方法及系统
CN112132719B (zh) * 2020-08-11 2023-06-09 湖南大学 用于应急救援的人员搜救方法、装置、系统及存储介质
CN113660578B (zh) * 2021-08-16 2023-11-28 世邦通信股份有限公司 拾音角度范围可调的双麦克风定向拾音方法和装置
CN113643679B (zh) * 2021-10-14 2021-12-31 中国空气动力研究与发展中心低速空气动力研究所 基于级联滤波器的旋翼和尾桨气动噪声分离方法
CN114757242B (zh) * 2022-06-16 2022-09-23 中国空气动力研究与发展中心低速空气动力研究所 基于循环维纳滤波的直升机噪声增强方法以及检测方法
CN116580723B (zh) * 2023-07-13 2023-09-08 合肥星本本网络科技有限公司 一种强噪声环境下的语音检测方法和系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102508278A (zh) * 2011-11-28 2012-06-20 北京航空航天大学 一种基于观测噪声方差阵估计的自适应滤波方法
KR20130005805A (ko) * 2011-07-07 2013-01-16 고려대학교 산학협력단 음성 잔여 반향 억제 장치 및 방법
DE102013111784A1 (de) * 2013-10-25 2015-04-30 Intel IP Corporation Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
CN104882144A (zh) * 2015-05-06 2015-09-02 福州大学 基于声谱图双特征的动物声音识别方法
CN104916292A (zh) * 2014-03-12 2015-09-16 华为技术有限公司 检测音频信号的方法和装置
CN105575406A (zh) * 2016-01-07 2016-05-11 深圳市音加密科技有限公司 一种基于似然比测试的噪声鲁棒性的检测方法
CN105741847A (zh) * 2012-05-14 2016-07-06 宏达国际电子股份有限公司 噪声消除方法
CN105788606A (zh) * 2016-04-03 2016-07-20 武汉市康利得科技有限公司 一种用于拾音器的基于递归最小追踪的噪声估计方法
CN106898359A (zh) * 2017-03-24 2017-06-27 上海智臻智能网络科技股份有限公司 音频信号处理方法、系统、音频交互装置及计算机设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101387701B (zh) * 2008-10-24 2011-01-05 西北工业大学 一种基于前向预测的被动时间反转混响抑制方法
CN101819782B (zh) * 2010-03-10 2012-04-18 重庆邮电大学 一种变步长自适应盲源分离方法及盲源分离系统
US20140233744A1 (en) * 2011-09-26 2014-08-21 Actiwave Ab Audio processing and enhancement system
US9443529B2 (en) * 2013-03-12 2016-09-13 Aawtend, Inc. Integrated sensor-array processor
CN103281054A (zh) * 2013-05-10 2013-09-04 哈尔滨工程大学 一种带噪声统计估值器的自适应滤波方法
CN106558315B (zh) * 2016-12-02 2019-10-11 深圳撒哈拉数据科技有限公司 异质麦克风自动增益校准方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130005805A (ko) * 2011-07-07 2013-01-16 고려대학교 산학협력단 음성 잔여 반향 억제 장치 및 방법
CN102508278A (zh) * 2011-11-28 2012-06-20 北京航空航天大学 一种基于观测噪声方差阵估计的自适应滤波方法
CN105741847A (zh) * 2012-05-14 2016-07-06 宏达国际电子股份有限公司 噪声消除方法
DE102013111784A1 (de) * 2013-10-25 2015-04-30 Intel IP Corporation Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
CN104916292A (zh) * 2014-03-12 2015-09-16 华为技术有限公司 检测音频信号的方法和装置
CN104882144A (zh) * 2015-05-06 2015-09-02 福州大学 基于声谱图双特征的动物声音识别方法
CN105575406A (zh) * 2016-01-07 2016-05-11 深圳市音加密科技有限公司 一种基于似然比测试的噪声鲁棒性的检测方法
CN105788606A (zh) * 2016-04-03 2016-07-20 武汉市康利得科技有限公司 一种用于拾音器的基于递归最小追踪的噪声估计方法
CN106898359A (zh) * 2017-03-24 2017-06-27 上海智臻智能网络科技股份有限公司 音频信号处理方法、系统、音频交互装置及计算机设备

Also Published As

Publication number Publication date
CN107393550A (zh) 2017-11-24

Similar Documents

Publication Publication Date Title
CN107393550B (zh) 语音处理方法及装置
CN111756942B (zh) 执行回声消除的通信设备和方法及计算机可读介质
WO2020177371A1 (zh) 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质
CN109273021B (zh) 一种基于rnn的实时会议降噪方法及装置
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及系统
CN111418012B (zh) 用于处理音频信号的方法和音频处理设备
CN111445919B (zh) 结合ai模型的语音增强方法、系统、电子设备和介质
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
CN112700786B (zh) 语音增强方法、装置、电子设备和存储介质
JP6748304B2 (ja) ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム
CN107360497B (zh) 估算混响分量的计算方法及装置
CN116013344A (zh) 一种多种噪声环境下的语音增强方法
CN107346658B (zh) 混响抑制方法及装置
CN107393553B (zh) 用于语音活动检测的听觉特征提取方法
WO2024017110A1 (zh) 语音降噪方法、模型训练方法、装置、设备、介质及产品
JP4891805B2 (ja) 残響除去装置、残響除去方法、残響除去プログラム、記録媒体
Nie et al. Deep Noise Tracking Network: A Hybrid Signal Processing/Deep Learning Approach to Speech Enhancement.
CN107393558B (zh) 语音活动检测方法及装置
CN107393559B (zh) 检校语音检测结果的方法及装置
CN113160842B (zh) 一种基于mclp的语音去混响方法及系统
CN114242095A (zh) 基于采用谐波结构的omlsa框架的神经网络降噪系统和方法
Chen Noise reduction of bird calls based on a combination of spectral subtraction, Wiener filtering, and Kalman filtering
Li et al. Joint sparse representation based cepstral-domain dereverberation for distant-talking speech recognition
Prasad et al. Two microphone technique to improve the speech intelligibility under noisy environment
Kothapally et al. Monaural Speech Dereverberation using Deformable Convolutional Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221123

Address after: 2C1, Plant 2, Baimenqian Industrial Zone, No. 215, Busha Road, Nanlong Community, Nanwan Street, Longgang District, Shenzhen, Guangdong 518000

Patentee after: Shenzhen Yajin Smart Technology Co.,Ltd.

Address before: 518000 Jinhua building, Longfeng 3rd road, Dalang street, Longhua New District, Shenzhen City, Guangdong Province

Patentee before: SHENZHEN YONSZ INFORMATION TECHNOLOGY CO.,LTD.

TR01 Transfer of patent right