CN107967918A

CN107967918A - 一种增强语音信号清晰度的方法

Info

Publication number: CN107967918A
Application number: CN201610910433.XA
Authority: CN
Inventors: 王星阳; 闫晓宁; 冯见伟
Original assignee: Henan Lan Xin Science And Technology Co Ltd
Current assignee: Henan Lan Xin Science And Technology Co Ltd
Priority date: 2016-10-19
Filing date: 2016-10-19
Publication date: 2018-04-27

Abstract

一种增强语音信号清晰度的方法，根据动车组司机操控信息分析系统中音频编解码格式对音频信号进行帧扩展和加窗处理，利用基于短时能量差的动态语音检测算法估算语音存在的位置，用非语音的音频信号进行噪声估计，最后用维纳滤波器进行滤波处理，滤波后的音频信号再进行帧裁剪恢复成原始帧长度，在音频实时播放的过程中进行降噪处理，为相关人员提供清晰、流畅的语音分析环境，为司机操控分析提供便利条件。本发明应用于动车组司机操控信息分析系统，能够对其中的语音信号进行增强，对噪声信号有很好的抑制效果，对语音信号的频谱、音色、音调都得到了较好的还原，并保持语音播放的连续性和实时性，以及和打点信息的相关性。

Description

一种增强语音信号清晰度的方法

技术领域

本发明属于铁路列车司机操控信息分析应用领域，具体是一种在动车组司机操控信息分析时增强其中语音信号清晰度的方法。

背景技术

随着高速铁路的迅猛发展，对动车组司机的管理难度越来越大。对动车组司机的操控信息进行分析，不仅关系到司机行为的规范，还关系到列车运行的安全。在对操控信息中的语音信号进行分析时，为了提升语音清晰度，急需要一种有效可行的语音增强技术。

在列车运行过程中，受机械运动产生的噪音以及复杂电磁环境的影响，录制的语音信号伴有很大的干扰，司机室内的语音淹没在噪声里变得很模糊，给司机操控信息分析带来不便。一般采用电路降噪滤波技术对电磁或高、低频噪音干扰有效，对和语音同频段的噪音干扰无效；采用降低增益的方法，在减少噪音的同时也降低了语音信号的增益，使语音变得十分微弱。

发明内容

本发明的目的是提供一种增强语音信号清晰度的方法，根据动车组司机操控信息分析系统中音频编解码格式对音频信号进行帧扩展和加窗处理，利用基于短时能量差的动态语音检测算法估算语音存在的位置，用非语音的音频信号进行噪声估计，最后用维纳滤波器进行滤波处理，滤波后的音频信号再进行帧裁剪恢复成原始帧长度，在音频实时播放的过程中进行降噪处理，为相关人员提供清晰、流畅的语音分析环境，为司机操控分析提供便利条件。

为实现上述目的，本发明采用以下技术方案：

一种增强语音信号清晰度的方法，它包含如下步骤：

①、根据动车组司机操控信息分析系统中音频编解码格式，对音频信号进行数据帧扩展和加窗处理并传输至语音动态检测模块；

②、语音动态检测模块基于短时能量差动态语音检测算法，估算语音信号存在的位置，用非语音的音频信号进行噪声估计，经检测后动态语音信号传输至维纳滤波器；

③、利用维纳滤波器对噪声信号进行滤波处理，并将滤波后音频信号传输至数据帧恢复处理模块；

④、数据帧恢复处理模块对滤波后的音频信号再进行数据帧裁剪，恢复成原始帧长度，然后传输至语音信号增强处理模块；

⑤、经滤波、帧长度恢复后的音频信号由语音信号增强处理模块进行音频信号增强处理，最后由播放器进行播放。

步骤1中，所述动车组司机操控信息分析系统播放前解码信息，包括打点信息和音频信息，动车组司机操控信息解码前音频数据和当前列车打点信息合为一帧数据进行编码和存储，播放时进行解码，并把该帧中音频数据和打点信息分离，分别进行播放和显示；

所述音频信号数据帧扩展，将动车组司机操控信息中解码分离出的音频数据，在每帧数据之前加入128字节的数据，其中第一帧前面补128字节的0，其它帧补的是前一帧的后128字节数据；

所述帧扩展后音频数据，进行加窗和滑动处理；所述每一个窗口，即256个字节的数据，称为一个块；

所述音频数据滑动，在音频数据加窗后，每次滑动128个采样点；所述加窗和滑动处理后数据，送入语音动态检测模块进行语音检测。

步骤2中，所述语音动态检测模块，基于短时能量差动态语音检测算法，利用当前块与平均噪声的短时能量差值来判断是否包含语音信号，从而进行动态检测语音信号；

所述当前块，指经解码分离后当前连续256个字节带噪声的音频数据；

所述动态检测语音信号，首先设定能量差的门限值，然后根据当前块接收信号能量与平均噪声能量的差值是否高于设定的门限值，实现动态的语音检测；

所属平均噪声能量，在动态无语音信号情况下，传输的噪声信号能量平均值；

所述语音信号判断，若当前块与平均噪声能量差值高于门限则判断为有语音活动可能，语音标志计数器加1，后面连续有多个块的数量超过设定上限值且当前块与平均噪声能量差值高于门限值，则判断为有语音信号；若连续有多个块的数量超过设定下限值且当前块与平均噪声能量差值低于门限值，则判断为语音信号结束，语音标志计数器清零；

当语音信号结束或者噪声标志计数器大于软件配置参数值，则重新计算平均噪声能量；

所述噪声标志，指当前块与平均噪声的能量差值低于门限值时，标记当前块数据为噪声，并设噪声标志。

步骤3中，所述维纳滤波器，对输入带噪声信号数据进行加窗处理、傅里叶变换，取功率谱方差后的一种线性滤波器；

所述维纳滤波器的表达式为：

在式中，所述N是一帧数据长度，s是不带噪声的信号，w是噪声信号，E[]是样本的期望，H是滤波器增益，可以通过H和带噪声的信号的功率谱方差求出不带噪声的信号功率谱方差，进而实现过滤噪声的目的；

在概率统计方面，定义一个后验信噪比SNR_post和一个先验信噪比SNR_prto,|X(ω)|²是带噪声的信号功率谱方差，|W(ω)|²是噪声的功率谱方差，|S(ω)|²是估算的不带噪声的信号功率谱方差，于是H可以化为(4)式的形式：

在(2)式中，首先要求得带噪声的信号的功率谱方差和噪声的功率谱方差，噪声的功率谱方差求法是先默认在信号的开始端是一段纯噪音信号，近似求得噪声功率谱方差，然后利用动态语音检测方法，检测到含语音信号的部分，计算出带噪声的信号的功率谱方差，进而计算出后验信噪比；然后利用公式(5)估算出先验信噪比,其中t表示帧序列号，∧表示估算值：

首次计算|S^t-1(ω)|²取值可近似为噪声的功率谱方差，求出先验信噪比后，就可求出H；求出H后，利用功率谱来代替功率谱的方差，然后用H估算出不带噪声的信号功率谱值，最后利用傅立叶反变换求出纯净语音信号。

步骤4中，所述数据帧长度恢复模块，在帧扩展和维纳滤波后，将之前添加128字节信息删除掉，还原成原始字节数，从而使播放时间与当前的列车打点信息保持一致，不破坏原有的结构。

步骤5中，所述语音信号增强处理模块，通过调用语音增强动态链接库方法对音频信号数据进行增强，实现实时播放时的语音增强功能；

所述语音信号增强处理，一帧数据解码，取出音频数据，并在前面添加前一帧的后128字节数据，然后调用语音增强动态链接库进行处理，处理完的数据去掉前128字节数据，与打点信息合并编码，送播放器播放，依次循环这些步骤，实现实时播放时的语音增强功能；

所述对语音信号增强的首次处理，用最初2帧音频数据做平均噪声能量的估算，不进行语音增强处理。

采用上述技术方案的本发明，它具有以下优点：

(1)本发明应用于动车组司机操控信息分析系统，可以对其中的语音信号进行增强，对噪声信号有很好的抑制效果，而对语音信号几乎没有损坏，语音的频谱、音色、音调都得到了较好的还原，并保持语音播放的连续性和实时性，以及和打点信息的相关性。

(2)本发明应用于动车司机室内的语音信号增强，通过分析动车司机室内的音频特点，对噪声的起源、结构、特性进行了大量的研究、分析，使用了适合这种音频的特点的基于短时能量差的动态语音检测技术，能够在-20dB的噪声环境下，检测到语音的活动情况。

(3)本发明使用了适合司机室内语音增强的维纳滤波器算法，设置了适合司机室语音增强环境的参数，充分发挥了维纳滤波器的优良特性，使增强后的语音失真小，并能保留了一些车上的警报提示音，防止提示音被当作噪音去除掉，为司机操控音频信息分析提供了良好的条件。

(4)本发明对动车司机室噪声中的语音信号有很好的检测效果，能够在强噪音背景下区分语音和非语音区域，并能对平均噪声能量进行动态的更新。

附图说明

图1为本发明的组成示意图。

图2为本发明的帧的扩展结构示意图。

图3为本发明对扩展后的每帧数据进行加窗和滑动处理示意图。

图4为本发明短时能量及门限值判断示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种增强语音信号清晰度的方法，根据动车组司机操控信息分析系统中音频编解码格式对音频信号进行帧扩展和加窗处理，利用基于短时能量差的动态语音检测算法估算语音存在的位置，然后用非语音的音频信号进行噪声估计，最后用维纳滤波器进行语音噪声信号滤波处理，滤波后的音频信号再进行帧裁剪恢复成原始帧长度，在音频实时播放的过程中进行降噪处理，为相关人员提供清晰、流畅的语音分析环境，为司机操控分析提供便利条件。

一种增强语音信号清晰度的方法，它包含如下步骤：

①根据动车组司机操控信息分析系统中音频编解码格式，对音频信号进行数据帧扩展和加窗处理并传输至语音动态检测模块；

如图2所示，所述音频信号数据帧扩展，将动车组司机操控信息中解码分离出的音频数据，在每帧数据之前加入128字节的数据，其中第一帧前面补128字节的0，其它帧补的是前一帧的后128字节数据；

所述帧扩展后音频数据，进行加窗和滑动处理；所述每一个窗口，即256个字节的数据，称为一个块；如图3所示，窗口设为256个点，先对1～256的采样点加窗，然后对129～384进行加窗，依此类推，每次滑动128个采样点；

所述音频数据滑动，在音频数据加窗后，每次滑动128个采样点，加窗和滑动处理后数据，送入语音动态检测模块进行语音检测。

如图4所示，所述语音信号判断，若当前块与平均噪声能量差值高于门限则判断为有语音活动可能，语音标志计数器加1，后面连续有多个块的数量超过设定上限值且当前块与平均噪声能量差值高于门限值，则判断为有语音信号；若连续有多个块的数量超过设定下限值且当前块与平均噪声能量差值低于门限值，则判断为语音信号结束，语音标志计数器清零；当语音信号结束或者噪声标志计数器大于软件配置参数值，则重新计算平均噪声能量；

所述维纳滤波器的表达式为：

本发明应用于动车组司机操控信息分析系统，可以对其中的语音信号进行增强，对噪声信号有很好的抑制效果，而对语音信号几乎没有损坏，语音的频谱、音色、音调都得到了较好的还原，并保持语音播放的连续性和实时性，以及和打点信息的相关性。

本发明应用于动车司机室内的语音信号增强，通过分析动车司机室内的音频特点，对噪声的起源、结构、特性进行了大量的研究、分析，使用了适合这种音频的特点的基于短时能量差的动态语音检测技术，能够在-20dB的噪声环境下，检测到语音的活动情况。

本发明使用了适合司机室内语音增强的维纳滤波器算法，设置了适合司机室语音增强环境的参数，充分发挥了维纳滤波器的优良特性，使增强后的语音失真小，并能保留了一些车上的警报提示音，防止提示音被当作噪音去除掉，为司机操控音频信息分析提供了良好的条件。

本发明对动车司机室噪声中的语音信号有很好的检测效果，能够在强噪音背景下区分语音和非语音区域，并能对平均噪声能量进行动态的更新。

Claims

1.一种增强语音信号清晰度的方法，其特征在于，它包含如下步骤：

⑤、经滤波、帧长度恢复后的音频信号，由语音信号增强处理模块进行音频信号增强处理，最后由播放器进行播放。

2.根据权利要求1所述的一种增强语音信号清晰度的方法，其特征是：步骤1中，所述动车组司机操控信息分析系统播放前解码信息，包括打点信息和音频信息，动车组司机操控信息解码前音频数据和当前列车打点信息合为一帧数据进行编码和存储，播放时进行解码，并把该帧中音频数据和打点信息分离，分别进行播放和显示；

3.根据权利要求1所述的一种增强语音信号清晰度的方法，其特征是：步骤2中，所述语音动态检测模块，基于短时能量差动态语音检测算法，利用当前块与平均噪声的短时能量差值来判断是否包含语音信号，从而进行动态检测语音信号；

4.根据权利要求1所述的一种增强语音信号清晰度的方法，其特征是：步骤3中，所述维纳滤波器，对输入带噪声信号数据进行加窗处理、傅里叶变换，取功率谱方差后的一种线性滤波器；

所述维纳滤波器的表达式为：

<mrow> <mi>H</mi> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>&lsqb;</mo> <mfrac> <mrow> <mi>E</mi> <mo>&lsqb;</mo> <mo>|</mo> <mi>S</mi> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>&rsqb;</mo> </mrow> <mrow> <mi>E</mi> <mo>&lsqb;</mo> <mo>|</mo> <mi>S</mi> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>&rsqb;</mo> <mo>+</mo> <mi>E</mi> <mo>&lsqb;</mo> <mo>|</mo> <mi>W</mi> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>&rsqb;</mo> </mrow> </mfrac> <mo>&rsqb;</mo> <mo>,</mo> <mi>&omega;</mi> <mo>=</mo> <msub> <mi>&omega;</mi> <mn>0</mn> </msub> <mo>,</mo> <msub> <mi>&omega;</mi> <mn>1</mn> </msub> <mn>...</mn> <msub> <mi>&omega;</mi> <mi>N</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>SNR</mi> <mrow> <mi>p</mi> <mi>o</mi> <mi>s</mi> <mi>t</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>E</mi> <mo>&lsqb;</mo> <mo>|</mo> <mi>X</mi> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>&rsqb;</mo> </mrow> <mrow> <mi>E</mi> <mo>&lsqb;</mo> <mo>|</mo> <mi>W</mi> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>&rsqb;</mo> </mrow> </mfrac> <mo>,</mo> <mi>&omega;</mi> <mo>=</mo> <msub> <mi>&omega;</mi> <mn>0</mn> </msub> <mo>,</mo> <msub> <mi>&omega;</mi> <mn>1</mn> </msub> <mn>...</mn> <msub> <mi>&omega;</mi> <mi>N</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>SNR</mi> <mrow> <mi>p</mi> <mi>r</mi> <mi>i</mi> <mi>o</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>E</mi> <mo>&lsqb;</mo> <mo>|</mo> <mover> <mi>S</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>&rsqb;</mo> </mrow> <mrow> <mi>E</mi> <mo>&lsqb;</mo> <mo>|</mo> <mi>W</mi> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>&rsqb;</mo> </mrow> </mfrac> <mo>,</mo> <mi>&omega;</mi> <mo>=</mo> <msub> <mi>&omega;</mi> <mn>0</mn> </msub> <mo>,</mo> <msub> <mi>&omega;</mi> <mn>1</mn> </msub> <mn>...</mn> <msub> <mi>&omega;</mi> <mi>N</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>H</mi> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>&lsqb;</mo> <mfrac> <mrow> <msub> <mi>SNR</mi> <mrow> <mi>p</mi> <mi>r</mi> <mi>i</mi> <mi>o</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>SNR</mi> <mrow> <mi>p</mi> <mi>r</mi> <mi>i</mi> <mi>o</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>&rsqb;</mo> <mo>,</mo> <mi>&omega;</mi> <mo>=</mo> <msub> <mi>&omega;</mi> <mn>0</mn> </msub> <mo>,</mo> <msub> <mi>&omega;</mi> <mn>1</mn> </msub> <mn>...</mn> <msub> <mi>&omega;</mi> <mi>N</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msubsup> <mover> <mrow> <mi>S</mi> <mi>N</mi> <mi>R</mi> </mrow> <mo>^</mo> </mover> <mrow> <mi>p</mi> <mi>r</mi> <mi>i</mi> <mi>o</mi> </mrow> <mi>t</mi> </msubsup> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&beta;</mi> <mo>)</mo> </mrow> <mo>&lsqb;</mo> <msubsup> <mover> <mrow> <mi>S</mi> <mi>N</mi> <mi>R</mi> </mrow> <mo>^</mo> </mover> <mrow> <mi>p</mi> <mi>o</mi> <mi>s</mi> <mi>t</mi> </mrow> <mi>t</mi> </msubsup> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mo>-</mo> <mn>1</mn> <mo>&rsqb;</mo> <mo>+</mo> <mi>&beta;</mi> <mfrac> <mrow> <mo>|</mo> <msup> <mi>S</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> <mrow> <mo>|</mo> <msup> <mover> <mi>W</mi> <mo>^</mo> </mover> <mi>t</mi> </msup> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </mfrac> <mo>,</mo> <mi>&omega;</mi> <mo>=</mo> <msub> <mi>&omega;</mi> <mn>0</mn> </msub> <mo>,</mo> <msub> <mi>&omega;</mi> <mn>1</mn> </msub> <mn>...</mn> <msub> <mi>&omega;</mi> <mi>N</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

5.根据权利要求1所述的一种增强语音信号清晰度的方法，其特征是：步骤4中，所述数据帧长度恢复模块，在帧扩展和维纳滤波后，将之前添加128字节信息删除掉，还原成原始字节数，从而使播放时间与当前的列车打点信息保持一致，不破坏原有的结构。

6.根据权利要求1所述的一种增强语音信号清晰度的方法，其特征是：步骤5中，所述语音信号增强处理模块，通过调用语音增强动态链接库方法对音频信号数据进行增强，实现实时播放时的语音增强功能；