CN104464745A

CN104464745A - 一种双通道语音增强系统及其方法

Info

Publication number: CN104464745A
Application number: CN201410785168.8A
Authority: CN
Inventors: 余世经
Original assignee: Air China (shanghai) Co Ltd
Current assignee: Air China (shanghai) Co Ltd
Priority date: 2014-12-17
Filing date: 2014-12-17
Publication date: 2015-03-25

Abstract

本发明涉及一种双通道语音增强系统及其方法，属于语音处理领域，该系统包括采集语音信息的语音输入端和语音处理器，语音输入端通过双通道采集近端目标语音信息，然后将采集到的语音信息进行时频分解、功率谱平滑、特征提取、衰减系数生成、信号重建等步骤进行语音增强处理后输送到接收语言信号的通讯设备终端。本发明中基于计算听觉场景分析的原理，采用两路送话器作为输入，在近端说话模式下，对强背景噪声的抑制具有良好的抑制和消除效果，整体降噪效果大大优于目前军用的“近讲压差式”送话器，可以有效的提高话音通讯时的信噪比，并保证较好的语音质量，解决了现有技术中军用送话器降噪效果差、影响通话质量的问题。

Description

一种双通道语音增强系统及其方法

技术领域

本发明属于语音处理领域，涉及语音增强方面，特别涉及一种双通道语音增强系统及其方法。

背景技术

装甲车、舰船、直升机等军用机械内的强背景噪声，会对话音通讯产生强烈的干扰，对于作战指挥、信息交互产生影响，进而影响作战效能。语音增强技术用于话音通讯，可以提高通话的质量。语音增强方法按输入通道(送话器)的个数可以分为单通道的语音增强和多通道的语音增强。单通道的语音增强方法主要有谱减法、维纳滤波法、最小均方误差法等，这类方法都是先估计带噪语音中的噪声幅度或能量，再将其从带噪语音谱中减去。这类方法对于平稳噪声(如白噪声)有一定的降噪效果，但是用于噪声为非平稳的环境时，则会对语音噪声严重的损伤。多通道的语音增强算法主要是波束形成技术，如延时相加、微分麦克、自适应波束形成等，这类算法一般比单通道算法的降噪效果要好，且对于各种类型的噪声都有效，但是也有一个明显的缺点，那就是具有明显的方向性，也就是说只对某些方向的噪声有效。

近年来，基于计算听觉场景分析(Computational Auditory Scene Analysis,CASA)的语音增强方法逐渐成为研究的一个热点。CASA是用计算机来模拟人耳的“听觉场景分析”能力，研究发现，人耳在异常嘈杂的环境下，如酒吧里，仍然可以听到自己感兴趣的声音，这说明人耳具有一种滤除噪声，保留目标语音的生理机制，如果能够模拟这种机制，就可以达到语音增强的目的。

目前的军用通讯耳机一般采用一路送话器，虽然在设计时，为了提高通话的质量，也会采用一定的结构和方法来提高输入话音的信噪比，但是提高的幅度并不大，强背景噪声对语音的干扰仍然十分明显。例如为歼击机地面保障人员通话配套装备而设计的A-18D1-2型头戴式抗噪声送受话器组，其送话器采用“近讲压差式”，降噪效果仅为8dB左右，相比于动辄高达100dB以上的环境噪声，降噪效果并不明显。

发明内容

为了克服现有技术中军用送话器降噪效果差不足，强背景噪声非常影响通话质量的问题，本发明提供一种双通道语音增强系统及其方法，本发明基于计算听觉场景分析的原理，采用两路送话器作为输入，在近端说话模式下，对强背景噪声的抑制针对装甲车、舰船、直升机等军用机械内的强背景噪声，都具有良好的抑制和消除效果，可以保证较高的语音质量。

本发明的技术方案是：一种双通道语音增强系统，该系统包括采集语音信息的语音输入端和语音处理器，语音处理器将接收语音输入端采集到的语音信息输送出去。所述语音输入端包括主语音输入端和从语音输入端，主语音输入端和从语音输入端分别连接语音处理器。所述语音输入端的主语音输入端和从语音输入端的安置位置不同。所述语音处理器包括数字滤波器。

一种双通道语音增强系统的方法，该方法步为：语音输入端通过双通道采集近端目标语音信息，然后将采集到的语音信息进行语音增强处理后输送到通讯设备终端。

所述语音增强处理步骤包括：步骤一、时频分解：双通道输入的信号定义为x₁(n)和x₂(n)，对信号进行时频分解，分解后的信号以帧为单元划分为若干的时频单元X_1，i(j)和X_2，i(j)，其中i为帧的编号，j＝1,2,...,N为每一帧中单元编号，N为帧长。

步骤二、功率谱平滑：对步骤一中的每一时频单元求取功率谱，对功率谱进行平滑处理；所述步骤二中的功率谱平滑处理方法为：使用一阶递归公式对功率谱进行平滑处理，公式为：σ_k,i(j)＝α|X_k,i(j)|²+(1-α)σ_k,i(j),k＝1,2，式中σ_1,i(j)和σ_2,i(j)表示时频单元X_1，i(j)和X_2，i(j)对应的功率谱。

步骤三、特征提取：提取耳间强度差的信号特征值；所述步骤三中耳间强度差值是语音输入端中主语音输入端和从语音输入端之间的声音信号能量的差值。所述耳间强度差值的定义公式为：式中IID(i,j)表示耳间强度差值，σ_1,i(j)和σ_2,i(j)表示时频单元X_1，i(j)和X_2，i(j)对应的功率谱。

步骤四、衰减系数生成：将步骤三提取的耳间强度差值映射得到衰减系数，衰减系数乘以功率谱得到增强语音的新功率谱；所述步骤四中，获得耳间强度差值后，先判定差值信号中是否含有噪声。

步骤五、信号重建：时频分解的逆过程，得到的信号即为增强后的语音信号。

本发明有如下积极效果：本发明提出了一种双通道语音增强系统及其方法，本发明基于计算听觉场景分析的原理，采用两路送话器作为输入，在近端说话模式下，对强背景噪声的抑制针对装甲车、舰船、直升机等军用机械内的强背景噪声，都具有良好的抑制和消除效果，整体降噪效果大大优于目前军用的“近讲压差式”送话器，可以有效的提高话音通讯时的信噪比，并保证较好的语音质量。

附图说明

图1是本发明中双通道语音增强系统的结构示意图；

图2是本发明中双通道语音增强系统的方法的信号处理流程示意图。

具体实施方式

下面对照附图，通过对实施例的描述，本发明的具体实施方式如所涉及的各构件的形状、构造、各部分之间的相互位置及连接关系、各部分的作用及工作原理、制造工艺及操作使用方法等，作进一步详细的说明，以帮助本领域技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。

一种双通道语音增强系统，其结构示意图如图1所示，该系统包括语音输入端和语音处理器，语音处理器连接语音输入端，系统对语音信号进行处理后，发送出去，本发明中选择通讯设备终端表示语音信号输送的接收端，语音处理器接收语音输入端采集的近端目标语音信息处理后，发送处理后的信息到通讯设备终端。

语音输入端包括主语音输入端和从语音输入端，主语音输入端和从语音输入端分别连接语音处理器，但主语音输入端和从语音输入端的安置位置不同，分别放置在目标语者的头部的不同位置，本文优选将主语音输入端放置在目标语者的嘴边，从语音输入端放置在目标语者的耳边或者头部的任何位置均可，语音输入端通常采用麦克风。系统中的语音处理器包括数字滤波器，处理器能够对采集到的语音信息进行增强处理，包括时频分解、功率谱平滑、信号特征提取、信号重建等达到增强语音信息的目的。

语音信号处理的流程示意图如图2所示，语音增强处理步骤包括：

步骤一、时频分解：双通道输入的信号定义为x₁(n)和x₂(n)，对信号进行时频分解，分解后的信号以帧为单元划分为若干的时频单元X_1，i(j)和X_2，i(j)，其中i为帧的编号，j＝1,2,...,N为每一帧中单元编号，N为帧长；采用DTFT数字滤波器组可避免信号转换到频域后发生混叠。

步骤二、功率谱平滑：对步骤一中的每一时频单元σ_1,i(j)和σ_2,i(j)求取功率谱，对功率谱进行平滑处理，本发明中优选一阶递归公式对功率谱进行平滑处理，公式为：σ_k,i(j)＝α|X_k,i(j)|²+(1-α)σ_k,i(j),k＝1,2。本发明中对信号功率谱进行平滑处理可以一定程度上修正信号采样等信号处理流程中有可能出现的明显偏差。

步骤三、特征提取，即提取耳间强度差的信号特征值。本发明中提取的信号特征是“耳间强度差”(Interaural Intensity Difference,IID)，在人耳的听觉场景分析理论中，IID指的是声音信号达到左右耳的强度间的差异，本发明中提取的IID特征值，指的则是主麦克风的声音信号能量和从麦克风的声音信号能量的差值，定义公式为：式中IID(i,j)表示耳间强度差值，σ_1,i(j)和σ_2,i(j)表示时频单元X_1，i(j)和X_2，i(j)对应的功率谱。步骤三中选择IID作为提取特征可以最大限度的辨别近端语音和远场噪声，有利于增强语言信号。

IID值是CASA理论中的重要特征，本发明的拓扑结构决定了近端目标语音信号的IID特征值会远远大于远场环境噪声的IID特征值。

步骤四、衰减系数生成：在获得IID特征后，可以根据IID的值来判定信号中是否含有噪声，并估计出信号中噪声成分占有多大的比例，根据声学掩蔽效应理论，在同一时间产生的两个声音，相对较弱的声音往往不被人耳所察觉，也即是说，强度相对较弱的声音会被强度相对较强的声音屏蔽。根据这一理论，本发明将提取的IID特征值映射为一个值在0～1之间的衰减系数ξ，将衰减系数ξ乘以功率谱得到增强语音的新功率谱，新功率谱的公式为：σ_k，i(j)′＝ξ*σ_k，i(j)，k＝1，2式中σ_k,i(j)'表示增强后的新功率谱，σ_k，i(j)表示功率谱。

步骤五、信号重建即增强语音：时频分解的逆过程，得到的信号即为增强后的语音信号。信号重建过程是时频分解的逆过程，同样通过DTFT数字滤波器组实现，最后得到的信号即为增强后的语音信号。本发明是基于计算听觉场景分析的原理，采用两路送话器作为输入，在近端说话模式下，对强背景噪声的抑制都具有良好的抑制和消除效果，可以有效的提高话音通讯时的信噪比，并保证较好的语音质量。

上面结合附图对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。

Claims

1.一种双通道语音增强系统，其特征在于，该系统包括采集语音信息的语音输入端和语音处理器，语音处理器将接收的语音输入端采集到的语音信息进行信号增强处理后输送出去。

2.根据权利要求1所述的双通道语音增强系统，其特征在于，所述语音输入端包括主语音输入端和从语音输入端，主语音输入端和从语音输入端分别连接语音处理器。

3.根据权利要求2所述的双通道语音增强系统，其特征在于，所述语音输入端的主语音输入端和从语音输入端的安置位置不同。

4.根据权利要求1所述的双通道语音增强系统，其特征在于，所述语音处理器包括数字滤波器。

5.一种双通道语音增强系统的方法，其特征在于，该方法步为：语音输入端通过双通道采集近端目标语音信息，然后将采集到的语音信息进行语音增强处理后输送到通讯设备终端。

6.根据权利要求5所述的双通道语音增强系统的方法，其特征在于，所述语音增强处理步骤包括：

步骤一、时频分解：双通道输入的信号定义为x₁(n)和x₂(n)，对信号进行时频分解，分解后的信号以帧为单元划分为若干的时频单元X_1，i(j)和X_2，i(j)，其中i为帧的编号，j＝1,2,...,N为每一帧中单元编号，N为帧长；

步骤二、功率谱平滑：对步骤一中的每一时频单元求取功率谱，对功率谱进行平滑处理；

步骤三、特征提取：提取耳间强度差的信号特征值；

步骤四、衰减系数生成：将步骤三提取的耳间强度差值映射得到衰减系数，衰减系数乘以功率谱得到增强语音的新功率谱；

7.根据权利要求6所述的双通道语音增强系统的方法，其特征在于，所述步骤二中的功率谱平滑处理方法为：使用一阶递归公式对功率谱进行平滑处理，公式为：σ_k,i(j)＝α|X_k,i(j)|²+(1-α)σ_k,i(j),k＝1,2，式中σ_1,i(j)和_σ2,i(j)表示时频单元X_1，i(j)和X_2，i(j)对应的功率谱。

8.根据权利要求6所述的双通道语音增强系统的方法，其特征在于，所述步骤三中耳间强度差值是语音输入端中主语音输入端和从语音输入端之间的声音信号能量的差值。

9.根据权利要求8所述的双通道语音增强系统的方法，其特征在于，所述耳间强度差值的定义公式为：式中IID(i,j)表示耳间强度差值，σ_1,i(j)和σ_2,i(j)表示时频单元X_1，i(j)和X_2，i(j)对应的功率谱。

10.根据权利要求6所述的双通道语音增强系统的方法，其特征在于，所述步骤四中，获得耳间强度差值后，先判定差值信号中是否含有噪声。