CN107967918A - 一种增强语音信号清晰度的方法 - Google Patents
一种增强语音信号清晰度的方法 Download PDFInfo
- Publication number
- CN107967918A CN107967918A CN201610910433.XA CN201610910433A CN107967918A CN 107967918 A CN107967918 A CN 107967918A CN 201610910433 A CN201610910433 A CN 201610910433A CN 107967918 A CN107967918 A CN 107967918A
- Authority
- CN
- China
- Prior art keywords
- mrow
- voice
- noise
- msub
- omega
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Abstract
一种增强语音信号清晰度的方法,根据动车组司机操控信息分析系统中音频编解码格式对音频信号进行帧扩展和加窗处理,利用基于短时能量差的动态语音检测算法估算语音存在的位置,用非语音的音频信号进行噪声估计,最后用维纳滤波器进行滤波处理,滤波后的音频信号再进行帧裁剪恢复成原始帧长度,在音频实时播放的过程中进行降噪处理,为相关人员提供清晰、流畅的语音分析环境,为司机操控分析提供便利条件。本发明应用于动车组司机操控信息分析系统,能够对其中的语音信号进行增强,对噪声信号有很好的抑制效果,对语音信号的频谱、音色、音调都得到了较好的还原,并保持语音播放的连续性和实时性,以及和打点信息的相关性。
Description
技术领域
本发明属于铁路列车司机操控信息分析应用领域,具体是一种在动车组司机操控信息分析时增强其中语音信号清晰度的方法。
背景技术
随着高速铁路的迅猛发展,对动车组司机的管理难度越来越大。对动车组司机的操控信息进行分析,不仅关系到司机行为的规范,还关系到列车运行的安全。在对操控信息中的语音信号进行分析时,为了提升语音清晰度,急需要一种有效可行的语音增强技术。
在列车运行过程中,受机械运动产生的噪音以及复杂电磁环境的影响,录制的语音信号伴有很大的干扰,司机室内的语音淹没在噪声里变得很模糊,给司机操控信息分析带来不便。一般采用电路降噪滤波技术对电磁或高、低频噪音干扰有效,对和语音同频段的噪音干扰无效;采用降低增益的方法,在减少噪音的同时也降低了语音信号的增益,使语音变得十分微弱。
发明内容
本发明的目的是提供一种增强语音信号清晰度的方法,根据动车组司机操控信息分析系统中音频编解码格式对音频信号进行帧扩展和加窗处理,利用基于短时能量差的动态语音检测算法估算语音存在的位置,用非语音的音频信号进行噪声估计,最后用维纳滤波器进行滤波处理,滤波后的音频信号再进行帧裁剪恢复成原始帧长度,在音频实时播放的过程中进行降噪处理,为相关人员提供清晰、流畅的语音分析环境,为司机操控分析提供便利条件。
为实现上述目的,本发明采用以下技术方案:
一种增强语音信号清晰度的方法,它包含如下步骤:
①、根据动车组司机操控信息分析系统中音频编解码格式,对音频信号进行数据帧扩展和加窗处理并传输至语音动态检测模块;
②、语音动态检测模块基于短时能量差动态语音检测算法,估算语音信号存在的位置,用非语音的音频信号进行噪声估计,经检测后动态语音信号传输至维纳滤波器;
③、利用维纳滤波器对噪声信号进行滤波处理,并将滤波后音频信号传输至数据帧恢复处理模块;
④、数据帧恢复处理模块对滤波后的音频信号再进行数据帧裁剪,恢复成原始帧长度,然后传输至语音信号增强处理模块;
⑤、经滤波、帧长度恢复后的音频信号由语音信号增强处理模块进行音频信号增强处理,最后由播放器进行播放。
步骤1中,所述动车组司机操控信息分析系统播放前解码信息,包括打点信息和音频信息,动车组司机操控信息解码前音频数据和当前列车打点信息合为一帧数据进行编码和存储,播放时进行解码,并把该帧中音频数据和打点信息分离,分别进行播放和显示;
所述音频信号数据帧扩展,将动车组司机操控信息中解码分离出的音频数据,在每帧数据之前加入128字节的数据,其中第一帧前面补128字节的0,其它帧补的是前一帧的后128字节数据;
所述帧扩展后音频数据,进行加窗和滑动处理;所述每一个窗口,即256个字节的数据,称为一个块;
所述音频数据滑动,在音频数据加窗后,每次滑动128个采样点;所述加窗和滑动处理后数据,送入语音动态检测模块进行语音检测。
步骤2中,所述语音动态检测模块,基于短时能量差动态语音检测算法,利用当前块与平均噪声的短时能量差值来判断是否包含语音信号,从而进行动态检测语音信号;
所述当前块,指经解码分离后当前连续256个字节带噪声的音频数据;
所述动态检测语音信号,首先设定能量差的门限值,然后根据当前块接收信号能量与平均噪声能量的差值是否高于设定的门限值,实现动态的语音检测;
所属平均噪声能量,在动态无语音信号情况下,传输的噪声信号能量平均值;
所述语音信号判断,若当前块与平均噪声能量差值高于门限则判断为有语音活动可能,语音标志计数器加1,后面连续有多个块的数量超过设定上限值且当前块与平均噪声能量差值高于门限值,则判断为有语音信号;若连续有多个块的数量超过设定下限值且当前块与平均噪声能量差值低于门限值,则判断为语音信号结束,语音标志计数器清零;
当语音信号结束或者噪声标志计数器大于软件配置参数值,则重新计算平均噪声能量;
所述噪声标志,指当前块与平均噪声的能量差值低于门限值时,标记当前块数据为噪声,并设噪声标志。
步骤3中,所述维纳滤波器,对输入带噪声信号数据进行加窗处理、傅里叶变换,取功率谱方差后的一种线性滤波器;
所述维纳滤波器的表达式为:
在式中,所述N是一帧数据长度,s是不带噪声的信号,w是噪声信号,E[]是样本的期望,H是滤波器增益,可以通过H和带噪声的信号的功率谱方差求出不带噪声的信号功率谱方差,进而实现过滤噪声的目的;
在概率统计方面,定义一个后验信噪比SNRpost和一个先验信噪比SNRprto,|X(ω)|2是带噪声的信号功率谱方差,|W(ω)|2是噪声的功率谱方差,|S(ω)|2是估算的不带噪声的信号功率谱方差,于是H可以化为(4)式的形式:
在(2)式中,首先要求得带噪声的信号的功率谱方差和噪声的功率谱方差,噪声的功率谱方差求法是先默认在信号的开始端是一段纯噪音信号,近似求得噪声功率谱方差,然后利用动态语音检测方法,检测到含语音信号的部分,计算出带噪声的信号的功率谱方差,进而计算出后验信噪比;然后利用公式(5)估算出先验信噪比,其中t表示帧序列号,∧表示估算值:
首次计算|St-1(ω)|2取值可近似为噪声的功率谱方差,求出先验信噪比后,就可求出H;求出H后,利用功率谱来代替功率谱的方差,然后用H估算出不带噪声的信号功率谱值,最后利用傅立叶反变换求出纯净语音信号。
步骤4中,所述数据帧长度恢复模块,在帧扩展和维纳滤波后,将之前添加128字节信息删除掉,还原成原始字节数,从而使播放时间与当前的列车打点信息保持一致,不破坏原有的结构。
步骤5中,所述语音信号增强处理模块,通过调用语音增强动态链接库方法对音频信号数据进行增强,实现实时播放时的语音增强功能;
所述语音信号增强处理,一帧数据解码,取出音频数据,并在前面添加前一帧的后128字节数据,然后调用语音增强动态链接库进行处理,处理完的数据去掉前128字节数据,与打点信息合并编码,送播放器播放,依次循环这些步骤,实现实时播放时的语音增强功能;
所述对语音信号增强的首次处理,用最初2帧音频数据做平均噪声能量的估算,不进行语音增强处理。
采用上述技术方案的本发明,它具有以下优点:
(1)本发明应用于动车组司机操控信息分析系统,可以对其中的语音信号进行增强,对噪声信号有很好的抑制效果,而对语音信号几乎没有损坏,语音的频谱、音色、音调都得到了较好的还原,并保持语音播放的连续性和实时性,以及和打点信息的相关性。
(2)本发明应用于动车司机室内的语音信号增强,通过分析动车司机室内的音频特点,对噪声的起源、结构、特性进行了大量的研究、分析,使用了适合这种音频的特点的基于短时能量差的动态语音检测技术,能够在-20dB的噪声环境下,检测到语音的活动情况。
(3)本发明使用了适合司机室内语音增强的维纳滤波器算法,设置了适合司机室语音增强环境的参数,充分发挥了维纳滤波器的优良特性,使增强后的语音失真小,并能保留了一些车上的警报提示音,防止提示音被当作噪音去除掉,为司机操控音频信息分析提供了良好的条件。
(4)本发明对动车司机室噪声中的语音信号有很好的检测效果,能够在强噪音背景下区分语音和非语音区域,并能对平均噪声能量进行动态的更新。
附图说明
图1为本发明的组成示意图。
图2为本发明的帧的扩展结构示意图。
图3为本发明对扩展后的每帧数据进行加窗和滑动处理示意图。
图4为本发明短时能量及门限值判断示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种增强语音信号清晰度的方法,根据动车组司机操控信息分析系统中音频编解码格式对音频信号进行帧扩展和加窗处理,利用基于短时能量差的动态语音检测算法估算语音存在的位置,然后用非语音的音频信号进行噪声估计,最后用维纳滤波器进行语音噪声信号滤波处理,滤波后的音频信号再进行帧裁剪恢复成原始帧长度,在音频实时播放的过程中进行降噪处理,为相关人员提供清晰、流畅的语音分析环境,为司机操控分析提供便利条件。
一种增强语音信号清晰度的方法,它包含如下步骤:
①根据动车组司机操控信息分析系统中音频编解码格式,对音频信号进行数据帧扩展和加窗处理并传输至语音动态检测模块;
②、语音动态检测模块基于短时能量差动态语音检测算法,估算语音信号存在的位置,用非语音的音频信号进行噪声估计,经检测后动态语音信号传输至维纳滤波器;
③、利用维纳滤波器对噪声信号进行滤波处理,并将滤波后音频信号传输至数据帧恢复处理模块;
④、数据帧恢复处理模块对滤波后的音频信号再进行数据帧裁剪,恢复成原始帧长度,然后传输至语音信号增强处理模块;
⑤、经滤波、帧长度恢复后的音频信号由语音信号增强处理模块进行音频信号增强处理,最后由播放器进行播放。
步骤1中,所述动车组司机操控信息分析系统播放前解码信息,包括打点信息和音频信息,动车组司机操控信息解码前音频数据和当前列车打点信息合为一帧数据进行编码和存储,播放时进行解码,并把该帧中音频数据和打点信息分离,分别进行播放和显示;
如图2所示,所述音频信号数据帧扩展,将动车组司机操控信息中解码分离出的音频数据,在每帧数据之前加入128字节的数据,其中第一帧前面补128字节的0,其它帧补的是前一帧的后128字节数据;
所述帧扩展后音频数据,进行加窗和滑动处理;所述每一个窗口,即256个字节的数据,称为一个块;如图3所示,窗口设为256个点,先对1~256的采样点加窗,然后对129~384进行加窗,依此类推,每次滑动128个采样点;
所述音频数据滑动,在音频数据加窗后,每次滑动128个采样点,加窗和滑动处理后数据,送入语音动态检测模块进行语音检测。
步骤2中,所述语音动态检测模块,基于短时能量差动态语音检测算法,利用当前块与平均噪声的短时能量差值来判断是否包含语音信号,从而进行动态检测语音信号;
所述当前块,指经解码分离后当前连续256个字节带噪声的音频数据;
所述动态检测语音信号,首先设定能量差的门限值,然后根据当前块接收信号能量与平均噪声能量的差值是否高于设定的门限值,实现动态的语音检测;
所属平均噪声能量,在动态无语音信号情况下,传输的噪声信号能量平均值;
如图4所示,所述语音信号判断,若当前块与平均噪声能量差值高于门限则判断为有语音活动可能,语音标志计数器加1,后面连续有多个块的数量超过设定上限值且当前块与平均噪声能量差值高于门限值,则判断为有语音信号;若连续有多个块的数量超过设定下限值且当前块与平均噪声能量差值低于门限值,则判断为语音信号结束,语音标志计数器清零;当语音信号结束或者噪声标志计数器大于软件配置参数值,则重新计算平均噪声能量;
所述噪声标志,指当前块与平均噪声的能量差值低于门限值时,标记当前块数据为噪声,并设噪声标志。
步骤3中,所述维纳滤波器,对输入带噪声信号数据进行加窗处理、傅里叶变换,取功率谱方差后的一种线性滤波器;
所述维纳滤波器的表达式为:
在式中,所述N是一帧数据长度,s是不带噪声的信号,w是噪声信号,E[]是样本的期望,H是滤波器增益,可以通过H和带噪声的信号的功率谱方差求出不带噪声的信号功率谱方差,进而实现过滤噪声的目的;
在概率统计方面,定义一个后验信噪比SNRpost和一个先验信噪比SNRprto,|X(ω)|2是带噪声的信号功率谱方差,|W(ω)|2是噪声的功率谱方差,|S(ω)|2是估算的不带噪声的信号功率谱方差,于是H可以化为(4)式的形式:
在(2)式中,首先要求得带噪声的信号的功率谱方差和噪声的功率谱方差,噪声的功率谱方差求法是先默认在信号的开始端是一段纯噪音信号,近似求得噪声功率谱方差,然后利用动态语音检测方法,检测到含语音信号的部分,计算出带噪声的信号的功率谱方差,进而计算出后验信噪比;然后利用公式(5)估算出先验信噪比,其中t表示帧序列号,∧表示估算值:
首次计算|St-1(ω)|2取值可近似为噪声的功率谱方差,求出先验信噪比后,就可求出H;求出H后,利用功率谱来代替功率谱的方差,然后用H估算出不带噪声的信号功率谱值,最后利用傅立叶反变换求出纯净语音信号。
步骤4中,所述数据帧长度恢复模块,在帧扩展和维纳滤波后,将之前添加128字节信息删除掉,还原成原始字节数,从而使播放时间与当前的列车打点信息保持一致,不破坏原有的结构。
步骤5中,所述语音信号增强处理模块,通过调用语音增强动态链接库方法对音频信号数据进行增强,实现实时播放时的语音增强功能;
所述语音信号增强处理,一帧数据解码,取出音频数据,并在前面添加前一帧的后128字节数据,然后调用语音增强动态链接库进行处理,处理完的数据去掉前128字节数据,与打点信息合并编码,送播放器播放,依次循环这些步骤,实现实时播放时的语音增强功能;
所述对语音信号增强的首次处理,用最初2帧音频数据做平均噪声能量的估算,不进行语音增强处理。
本发明应用于动车组司机操控信息分析系统,可以对其中的语音信号进行增强,对噪声信号有很好的抑制效果,而对语音信号几乎没有损坏,语音的频谱、音色、音调都得到了较好的还原,并保持语音播放的连续性和实时性,以及和打点信息的相关性。
本发明应用于动车司机室内的语音信号增强,通过分析动车司机室内的音频特点,对噪声的起源、结构、特性进行了大量的研究、分析,使用了适合这种音频的特点的基于短时能量差的动态语音检测技术,能够在-20dB的噪声环境下,检测到语音的活动情况。
本发明使用了适合司机室内语音增强的维纳滤波器算法,设置了适合司机室语音增强环境的参数,充分发挥了维纳滤波器的优良特性,使增强后的语音失真小,并能保留了一些车上的警报提示音,防止提示音被当作噪音去除掉,为司机操控音频信息分析提供了良好的条件。
本发明对动车司机室噪声中的语音信号有很好的检测效果,能够在强噪音背景下区分语音和非语音区域,并能对平均噪声能量进行动态的更新。
Claims (6)
1.一种增强语音信号清晰度的方法,其特征在于,它包含如下步骤:
①、根据动车组司机操控信息分析系统中音频编解码格式,对音频信号进行数据帧扩展和加窗处理并传输至语音动态检测模块;
②、语音动态检测模块基于短时能量差动态语音检测算法,估算语音信号存在的位置,用非语音的音频信号进行噪声估计,经检测后动态语音信号传输至维纳滤波器;
③、利用维纳滤波器对噪声信号进行滤波处理,并将滤波后音频信号传输至数据帧恢复处理模块;
④、数据帧恢复处理模块对滤波后的音频信号再进行数据帧裁剪,恢复成原始帧长度,然后传输至语音信号增强处理模块;
⑤、经滤波、帧长度恢复后的音频信号,由语音信号增强处理模块进行音频信号增强处理,最后由播放器进行播放。
2.根据权利要求1所述的一种增强语音信号清晰度的方法,其特征是:步骤1中,所述动车组司机操控信息分析系统播放前解码信息,包括打点信息和音频信息,动车组司机操控信息解码前音频数据和当前列车打点信息合为一帧数据进行编码和存储,播放时进行解码,并把该帧中音频数据和打点信息分离,分别进行播放和显示;
所述音频信号数据帧扩展,将动车组司机操控信息中解码分离出的音频数据,在每帧数据之前加入128字节的数据,其中第一帧前面补128字节的0,其它帧补的是前一帧的后128字节数据;
所述帧扩展后音频数据,进行加窗和滑动处理;所述每一个窗口,即256个字节的数据,称为一个块;
所述音频数据滑动,在音频数据加窗后,每次滑动128个采样点;所述加窗和滑动处理后数据,送入语音动态检测模块进行语音检测。
3.根据权利要求1所述的一种增强语音信号清晰度的方法,其特征是:步骤2中,所述语音动态检测模块,基于短时能量差动态语音检测算法,利用当前块与平均噪声的短时能量差值来判断是否包含语音信号,从而进行动态检测语音信号;
所述当前块,指经解码分离后当前连续256个字节带噪声的音频数据;
所述动态检测语音信号,首先设定能量差的门限值,然后根据当前块接收信号能量与平均噪声能量的差值是否高于设定的门限值,实现动态的语音检测;
所属平均噪声能量,在动态无语音信号情况下,传输的噪声信号能量平均值;
所述语音信号判断,若当前块与平均噪声能量差值高于门限则判断为有语音活动可能,语音标志计数器加1,后面连续有多个块的数量超过设定上限值且当前块与平均噪声能量差值高于门限值,则判断为有语音信号;若连续有多个块的数量超过设定下限值且当前块与平均噪声能量差值低于门限值,则判断为语音信号结束,语音标志计数器清零;
当语音信号结束或者噪声标志计数器大于软件配置参数值,则重新计算平均噪声能量;
所述噪声标志,指当前块与平均噪声的能量差值低于门限值时,标记当前块数据为噪声,并设噪声标志。
4.根据权利要求1所述的一种增强语音信号清晰度的方法,其特征是:步骤3中,所述维纳滤波器,对输入带噪声信号数据进行加窗处理、傅里叶变换,取功率谱方差后的一种线性滤波器;
所述维纳滤波器的表达式为:
<mrow>
<mi>H</mi>
<mrow>
<mo>(</mo>
<mi>&omega;</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo>&lsqb;</mo>
<mfrac>
<mrow>
<mi>E</mi>
<mo>&lsqb;</mo>
<mo>|</mo>
<mi>S</mi>
<mrow>
<mo>(</mo>
<mi>&omega;</mi>
<mo>)</mo>
</mrow>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>&rsqb;</mo>
</mrow>
<mrow>
<mi>E</mi>
<mo>&lsqb;</mo>
<mo>|</mo>
<mi>S</mi>
<mrow>
<mo>(</mo>
<mi>&omega;</mi>
<mo>)</mo>
</mrow>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>&rsqb;</mo>
<mo>+</mo>
<mi>E</mi>
<mo>&lsqb;</mo>
<mo>|</mo>
<mi>W</mi>
<mrow>
<mo>(</mo>
<mi>&omega;</mi>
<mo>)</mo>
</mrow>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>&rsqb;</mo>
</mrow>
</mfrac>
<mo>&rsqb;</mo>
<mo>,</mo>
<mi>&omega;</mi>
<mo>=</mo>
<msub>
<mi>&omega;</mi>
<mn>0</mn>
</msub>
<mo>,</mo>
<msub>
<mi>&omega;</mi>
<mn>1</mn>
</msub>
<mn>...</mn>
<msub>
<mi>&omega;</mi>
<mi>N</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
在式中,所述N是一帧数据长度,s是不带噪声的信号,w是噪声信号,E[]是样本的期望,H是滤波器增益,可以通过H和带噪声的信号的功率谱方差求出不带噪声的信号功率谱方差,进而实现过滤噪声的目的;
在概率统计方面,定义一个后验信噪比SNRpost和一个先验信噪比SNRprto,|X(ω)|2是带噪声的信号功率谱方差,|W(ω)|2是噪声的功率谱方差,|S(ω)|2是估算的不带噪声的信号功率谱方差,于是H可以化为(4)式的形式:
<mrow>
<msub>
<mi>SNR</mi>
<mrow>
<mi>p</mi>
<mi>o</mi>
<mi>s</mi>
<mi>t</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>&omega;</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>E</mi>
<mo>&lsqb;</mo>
<mo>|</mo>
<mi>X</mi>
<mrow>
<mo>(</mo>
<mi>&omega;</mi>
<mo>)</mo>
</mrow>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>&rsqb;</mo>
</mrow>
<mrow>
<mi>E</mi>
<mo>&lsqb;</mo>
<mo>|</mo>
<mi>W</mi>
<mrow>
<mo>(</mo>
<mi>&omega;</mi>
<mo>)</mo>
</mrow>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>&rsqb;</mo>
</mrow>
</mfrac>
<mo>,</mo>
<mi>&omega;</mi>
<mo>=</mo>
<msub>
<mi>&omega;</mi>
<mn>0</mn>
</msub>
<mo>,</mo>
<msub>
<mi>&omega;</mi>
<mn>1</mn>
</msub>
<mn>...</mn>
<msub>
<mi>&omega;</mi>
<mi>N</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>SNR</mi>
<mrow>
<mi>p</mi>
<mi>r</mi>
<mi>i</mi>
<mi>o</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>&omega;</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>E</mi>
<mo>&lsqb;</mo>
<mo>|</mo>
<mover>
<mi>S</mi>
<mo>^</mo>
</mover>
<mrow>
<mo>(</mo>
<mi>&omega;</mi>
<mo>)</mo>
</mrow>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>&rsqb;</mo>
</mrow>
<mrow>
<mi>E</mi>
<mo>&lsqb;</mo>
<mo>|</mo>
<mi>W</mi>
<mrow>
<mo>(</mo>
<mi>&omega;</mi>
<mo>)</mo>
</mrow>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>&rsqb;</mo>
</mrow>
</mfrac>
<mo>,</mo>
<mi>&omega;</mi>
<mo>=</mo>
<msub>
<mi>&omega;</mi>
<mn>0</mn>
</msub>
<mo>,</mo>
<msub>
<mi>&omega;</mi>
<mn>1</mn>
</msub>
<mn>...</mn>
<msub>
<mi>&omega;</mi>
<mi>N</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>H</mi>
<mrow>
<mo>(</mo>
<mi>&omega;</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo>&lsqb;</mo>
<mfrac>
<mrow>
<msub>
<mi>SNR</mi>
<mrow>
<mi>p</mi>
<mi>r</mi>
<mi>i</mi>
<mi>o</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>&omega;</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>SNR</mi>
<mrow>
<mi>p</mi>
<mi>r</mi>
<mi>i</mi>
<mi>o</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>&omega;</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mn>1</mn>
</mrow>
</mfrac>
<mo>&rsqb;</mo>
<mo>,</mo>
<mi>&omega;</mi>
<mo>=</mo>
<msub>
<mi>&omega;</mi>
<mn>0</mn>
</msub>
<mo>,</mo>
<msub>
<mi>&omega;</mi>
<mn>1</mn>
</msub>
<mn>...</mn>
<msub>
<mi>&omega;</mi>
<mi>N</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
在(2)式中,首先要求得带噪声的信号的功率谱方差和噪声的功率谱方差,噪声的功率谱方差求法是先默认在信号的开始端是一段纯噪音信号,近似求得噪声功率谱方差,然后利用动态语音检测方法,检测到含语音信号的部分,计算出带噪声的信号的功率谱方差,进而计算出后验信噪比;然后利用公式(5)估算出先验信噪比,其中t表示帧序列号,∧表示估算值:
<mrow>
<msubsup>
<mover>
<mrow>
<mi>S</mi>
<mi>N</mi>
<mi>R</mi>
</mrow>
<mo>^</mo>
</mover>
<mrow>
<mi>p</mi>
<mi>r</mi>
<mi>i</mi>
<mi>o</mi>
</mrow>
<mi>t</mi>
</msubsup>
<mrow>
<mo>(</mo>
<mi>&omega;</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>&beta;</mi>
<mo>)</mo>
</mrow>
<mo>&lsqb;</mo>
<msubsup>
<mover>
<mrow>
<mi>S</mi>
<mi>N</mi>
<mi>R</mi>
</mrow>
<mo>^</mo>
</mover>
<mrow>
<mi>p</mi>
<mi>o</mi>
<mi>s</mi>
<mi>t</mi>
</mrow>
<mi>t</mi>
</msubsup>
<mrow>
<mo>(</mo>
<mi>&omega;</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mn>1</mn>
<mo>&rsqb;</mo>
<mo>+</mo>
<mi>&beta;</mi>
<mfrac>
<mrow>
<mo>|</mo>
<msup>
<mi>S</mi>
<mrow>
<mi>t</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<mrow>
<mo>(</mo>
<mi>&omega;</mi>
<mo>)</mo>
</mrow>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
<mrow>
<mo>|</mo>
<msup>
<mover>
<mi>W</mi>
<mo>^</mo>
</mover>
<mi>t</mi>
</msup>
<mrow>
<mo>(</mo>
<mi>&omega;</mi>
<mo>)</mo>
</mrow>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
</mfrac>
<mo>,</mo>
<mi>&omega;</mi>
<mo>=</mo>
<msub>
<mi>&omega;</mi>
<mn>0</mn>
</msub>
<mo>,</mo>
<msub>
<mi>&omega;</mi>
<mn>1</mn>
</msub>
<mn>...</mn>
<msub>
<mi>&omega;</mi>
<mi>N</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
首次计算|St-1(ω)|2取值可近似为噪声的功率谱方差,求出先验信噪比后,就可求出H;求出H后,利用功率谱来代替功率谱的方差,然后用H估算出不带噪声的信号功率谱值,最后利用傅立叶反变换求出纯净语音信号。
5.根据权利要求1所述的一种增强语音信号清晰度的方法,其特征是:步骤4中,所述数据帧长度恢复模块,在帧扩展和维纳滤波后,将之前添加128字节信息删除掉,还原成原始字节数,从而使播放时间与当前的列车打点信息保持一致,不破坏原有的结构。
6.根据权利要求1所述的一种增强语音信号清晰度的方法,其特征是:步骤5中,所述语音信号增强处理模块,通过调用语音增强动态链接库方法对音频信号数据进行增强,实现实时播放时的语音增强功能;
所述语音信号增强处理,一帧数据解码,取出音频数据,并在前面添加前一帧的后128字节数据,然后调用语音增强动态链接库进行处理,处理完的数据去掉前128字节数据,与打点信息合并编码,送播放器播放,依次循环这些步骤,实现实时播放时的语音增强功能;
所述对语音信号增强的首次处理,用最初2帧音频数据做平均噪声能量的估算,不进行语音增强处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610910433.XA CN107967918A (zh) | 2016-10-19 | 2016-10-19 | 一种增强语音信号清晰度的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610910433.XA CN107967918A (zh) | 2016-10-19 | 2016-10-19 | 一种增强语音信号清晰度的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107967918A true CN107967918A (zh) | 2018-04-27 |
Family
ID=61996894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610910433.XA Withdrawn CN107967918A (zh) | 2016-10-19 | 2016-10-19 | 一种增强语音信号清晰度的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107967918A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110243609A (zh) * | 2019-04-04 | 2019-09-17 | 武汉理工大学 | 一种结构路噪传递函数测试方法 |
CN110956979A (zh) * | 2019-10-22 | 2020-04-03 | 浙江合众新能源汽车有限公司 | 一种基于matlab的车内语言清晰度自动计算方法 |
CN111477243A (zh) * | 2020-04-16 | 2020-07-31 | 维沃移动通信有限公司 | 音频信号处理方法及电子设备 |
CN111986686A (zh) * | 2020-07-09 | 2020-11-24 | 厦门快商通科技股份有限公司 | 短时语音信噪比估算方法、装置、设备及存储介质 |
CN112189232A (zh) * | 2019-07-31 | 2021-01-05 | 深圳市大疆创新科技有限公司 | 音频处理方法及装置 |
CN112233679A (zh) * | 2020-10-10 | 2021-01-15 | 安徽讯呼信息科技有限公司 | 一种人工智能语音识别系统 |
CN112885366A (zh) * | 2021-01-18 | 2021-06-01 | 宇龙计算机通信科技(深圳)有限公司 | 主动降噪方法、装置、存储介质以及终端 |
CN113393852A (zh) * | 2021-08-18 | 2021-09-14 | 杭州雄迈集成电路技术股份有限公司 | 语音增强模型的构建方法及系统、语音增强方法及系统 |
CN114093380A (zh) * | 2022-01-24 | 2022-02-25 | 荣耀终端有限公司 | 一种语音增强方法、电子设备、芯片系统及可读存储介质 |
TWI818493B (zh) * | 2021-04-01 | 2023-10-11 | 大陸商深圳市韶音科技有限公司 | 語音增強方法、系統和裝置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1199710A1 (en) * | 1999-05-31 | 2002-04-24 | NEC Corporation | Device for encoding/decoding voice and for voiceless encoding, decoding method, and recorded medium on which program is recorded |
CN101169902A (zh) * | 2006-10-25 | 2008-04-30 | 上海市宝山区青少年科学技术指导站 | 智能语音系统 |
CN102568233A (zh) * | 2012-02-22 | 2012-07-11 | 毛振刚 | 公交车自动报站系统 |
CN103325270A (zh) * | 2013-06-03 | 2013-09-25 | 安徽富煌和利时科技有限公司 | 基于图像处理技术的车辆信息自动语音播报系统及方法 |
CN103532651A (zh) * | 2013-09-27 | 2014-01-22 | 株洲南车时代电气股份有限公司 | 一种高可靠性的数字化列车广播系统 |
CN104244518A (zh) * | 2014-08-29 | 2014-12-24 | 浙江生辉照明有限公司 | 智能照明装置及基于该装置的报站、位置查询系统及方法 |
-
2016
- 2016-10-19 CN CN201610910433.XA patent/CN107967918A/zh not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1199710A1 (en) * | 1999-05-31 | 2002-04-24 | NEC Corporation | Device for encoding/decoding voice and for voiceless encoding, decoding method, and recorded medium on which program is recorded |
CN101169902A (zh) * | 2006-10-25 | 2008-04-30 | 上海市宝山区青少年科学技术指导站 | 智能语音系统 |
CN102568233A (zh) * | 2012-02-22 | 2012-07-11 | 毛振刚 | 公交车自动报站系统 |
CN103325270A (zh) * | 2013-06-03 | 2013-09-25 | 安徽富煌和利时科技有限公司 | 基于图像处理技术的车辆信息自动语音播报系统及方法 |
CN103532651A (zh) * | 2013-09-27 | 2014-01-22 | 株洲南车时代电气股份有限公司 | 一种高可靠性的数字化列车广播系统 |
CN104244518A (zh) * | 2014-08-29 | 2014-12-24 | 浙江生辉照明有限公司 | 智能照明装置及基于该装置的报站、位置查询系统及方法 |
Non-Patent Citations (2)
Title |
---|
潘梁生: "列车车载语音识别系统的设计与实现", 《北京交通大学》 * |
牛刚等: "基于Mel刻度短时能量差的语音活性检测算法", 《声学与电子工程》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110243609A (zh) * | 2019-04-04 | 2019-09-17 | 武汉理工大学 | 一种结构路噪传递函数测试方法 |
WO2021016925A1 (zh) * | 2019-07-31 | 2021-02-04 | 深圳市大疆创新科技有限公司 | 音频处理方法及装置 |
CN112189232A (zh) * | 2019-07-31 | 2021-01-05 | 深圳市大疆创新科技有限公司 | 音频处理方法及装置 |
CN110956979A (zh) * | 2019-10-22 | 2020-04-03 | 浙江合众新能源汽车有限公司 | 一种基于matlab的车内语言清晰度自动计算方法 |
CN111477243A (zh) * | 2020-04-16 | 2020-07-31 | 维沃移动通信有限公司 | 音频信号处理方法及电子设备 |
CN111986686A (zh) * | 2020-07-09 | 2020-11-24 | 厦门快商通科技股份有限公司 | 短时语音信噪比估算方法、装置、设备及存储介质 |
CN111986686B (zh) * | 2020-07-09 | 2023-01-03 | 厦门快商通科技股份有限公司 | 短时语音信噪比估算方法、装置、设备及存储介质 |
CN112233679A (zh) * | 2020-10-10 | 2021-01-15 | 安徽讯呼信息科技有限公司 | 一种人工智能语音识别系统 |
CN112233679B (zh) * | 2020-10-10 | 2024-02-13 | 安徽讯呼信息科技有限公司 | 一种人工智能语音识别系统 |
CN112885366A (zh) * | 2021-01-18 | 2021-06-01 | 宇龙计算机通信科技(深圳)有限公司 | 主动降噪方法、装置、存储介质以及终端 |
TWI818493B (zh) * | 2021-04-01 | 2023-10-11 | 大陸商深圳市韶音科技有限公司 | 語音增強方法、系統和裝置 |
CN113393852A (zh) * | 2021-08-18 | 2021-09-14 | 杭州雄迈集成电路技术股份有限公司 | 语音增强模型的构建方法及系统、语音增强方法及系统 |
CN113393852B (zh) * | 2021-08-18 | 2021-11-05 | 杭州雄迈集成电路技术股份有限公司 | 语音增强模型的构建方法及系统、语音增强方法及系统 |
CN114093380A (zh) * | 2022-01-24 | 2022-02-25 | 荣耀终端有限公司 | 一种语音增强方法、电子设备、芯片系统及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107967918A (zh) | 一种增强语音信号清晰度的方法 | |
US11017799B2 (en) | Method for processing voice in interior environment of vehicle and electronic device using noise data based on input signal to noise ratio | |
CN108615535B (zh) | 语音增强方法、装置、智能语音设备和计算机设备 | |
CN107068161B (zh) | 基于人工智能的语音降噪方法、装置和计算机设备 | |
CN101149928B (zh) | 声音信号处理方法、声音信号处理设备及计算机程序 | |
CN102576562B (zh) | 自动生成用于音频占优性效果的元数据 | |
US20110153050A1 (en) | Robust Media Fingerprints | |
CN110197670A (zh) | 音频降噪方法、装置及电子设备 | |
Nandwana et al. | Robust unsupervised detection of human screams in noisy acoustic environments | |
CN101980336A (zh) | 一种基于隐马尔可夫模型的汽车声音识别方法 | |
CN110277087B (zh) | 一种广播信号预判预处理方法 | |
CN113611324B (zh) | 一种直播中环境噪声抑制的方法、装置、电子设备及存储介质 | |
CN107045867A (zh) | 自动作曲方法、装置和终端设备 | |
CN112382277A (zh) | 智能设备唤醒方法、智能设备和计算机可读存储介质 | |
CN103366758B (zh) | 一种移动通信设备的语音降噪方法和装置 | |
CN111144347B (zh) | 一种数据处理方法、装置、平台及存储介质 | |
KR20110061781A (ko) | 실시간 잡음 추정에 기반하여 잡음을 제거하는 음성 처리 장치 및 방법 | |
CN110299133B (zh) | 基于关键字判定非法广播的方法 | |
US8935159B2 (en) | Noise removing system in voice communication, apparatus and method thereof | |
CN113160796B (zh) | 一种广播音频的语种识别方法、装置、设备及存储介质 | |
JP3024447B2 (ja) | 音声圧縮装置 | |
CN201294092Y (zh) | 一种耳语音噪声消除器 | |
CN104715761A (zh) | 一种音频有效数据检测方法和系统 | |
CN117351925B (zh) | 啸叫抑制方法、装置、电子设备和存储介质 | |
CN111009259B (zh) | 一种音频处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180427 |
|
WW01 | Invention patent application withdrawn after publication |