CN103426440A

CN103426440A - 利用能量谱熵空间信息的语音端点检测装置及其检测方法

Info

Publication number: CN103426440A
Application number: CN2013103700595A
Authority: CN
Inventors: 童峰; 李芳兰; 洪青阳; 周跃海
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2013-08-22
Filing date: 2013-08-22
Publication date: 2013-12-04

Abstract

利用能量谱熵空间信息的语音端点检测装置及其检测方法，涉及一种语音信号处理装置。所述装置设有麦克风阵列、端点检测粗判模块、可调波束形成器模块和端点检测细判模块；麦克风阵列中各通道语音信号输出端经前置放大电路和模数转换器后与端点检测粗判模块输入端连接；可调波束形成器模块信号输入端接端点检测粗判模块的粗判结果输出端，可调波束形成器模块的经时延调整后的各通道语音信号进行能量比较后输出声源方向估计结果；端点检测细判模块设有声源方向输入端和细判结果输出端，声源方向输入端接可调波束形成器模块输出端，细判结果输出端输出细判结果。方法包括：初始化；端点检测粗判；声源方向估计；端点检测细判。

Description

利用能量谱熵空间信息的语音端点检测装置及其检测方法

技术领域

本发明涉及一种语音信号处理装置，尤其是涉及一种综合利用能量谱熵空间信息的语音端点检测装置及其检测方法。

背景技术

在语音识别、声纹识别、视频会议等语音信号处理中利用语音的某种特性将有话部分和无话部分区分出来，称为语音端点检测。准确的语音端点检测将提高语音处理系统的处理效率和减少语音处理的数据量，从而达到提高语音识别系统识别性能的目的。常用的端点检测算法有基于短时能量和过零率、短时自相关、谱熵检测等，在安静的背景环境下，这些成熟的语音端点检测算法都有很好的端点检测性能，但在实际使用的带背景噪声的环境下，这些算法的检测性能往往不能令人满意。考虑到实际使用的大部分情况下采集到的语音信号是有背景噪声的，因此，研究可适应不同背景噪声情况下的语音端点检测对于提高语音信号处理系统的稳健性和实用性都起着关键的作用。

中国专利ZL 200910088491.9公开一种低信噪比条件下的语音端点检测方法及装置，该方法对分帧语音信号进行子带功率谱熵概率密度加权处理，得到每个语音帧的子带加权功率谱熵，根据阈值进行端点检测，并根据实际应用环境自适应地选择子带数目和权重因子，提高了端点检测的准确性和精确度。

中国专利ZL 200910135606.5公开一种可适应复杂噪声背景的端点检测方法及使用该方法的系统，该发明使用基频提取结合子带能量的方法对语音信号进行检测，由于语音中元音有基频，而基频拥有很强的语音特征，受噪声影响较小，使得元音的提取拥有很高的鲁棒性。并可改善不断变化的背景噪声下的端点检测性能。

中国专利200510089957.9公开一种基于能量及谐波的语音端点检测方法，该方法利用能量进行语音起点初判，然后搜索具有浊音谐波特征的信号进行语音起点的准备检测，由于谐波检测可过滤突发噪声，因此该方法可适应噪声突变对语音端点检测的影响。

但是，背景噪声除了前述几种方法所针对的非白噪声、突发噪声等非语音噪声，在大量使用移动电话、智能终端进行的人机交互语音识别、声纹识别等语音信号处理场合，除了目标说话人外，往往存在其他说话人的语音干扰。此时，与上述几种方法可结合语音信号频谱，基频、浊音谐波特性等特征改善端点检测的噪声稳健性不同，由于有用语音信号混杂的是具有同样语音特性的其他说话人语音噪声，需利用其他信息来排除语音噪声的影响，保证端点检测的性能。

麦克风阵列(L.J.Griffiths,C.W.Jim.An alternative approach to linearly constrained adaptive beamforming.IEEE Transactions on Antennas and Propagation.January,1982,vol.30,pp27-34;Sharon Gannot,Israel Cohen.Speech Enhancement Based on the General Transfer Function GSC and Post filtering.IEEE Transactions on Speech and Audio Processing.2004,vol.12,no.6;A Abad,J Hernando.Speech Enhancement and recognition by Integrating Adaptive Beamforming and Wiener Filtering.IEEE Sensor Array and Multichannel Signal Processing Workshop,SAM,Sitges,2004)由多个麦克风按照一定拓扑结构组成，其采集到的信号在时频域的基础上增加了空间域信息，从而可对采集到的多路信号进行空时分集处理，麦克风阵列可对不同方向上的信号形成不同响应，也即阵列的空间指向特性，使阵列麦克风具有声源定位和跟踪、语音提取和分离以及去噪等功能，从而提高在复杂背景下的语音信号质量，弥补孤立麦克风无法获取和利用空间信息的缺陷。目前，各类移动电话、智能终端普遍开始配置由两个或多个麦克风组成的麦克风阵列以提高语音信号处理性能，但目前的各类端点检测算法大多基于单麦克风，未采用麦克风阵列提供的声源空间信息来改善性能。

发明内容

本发明的目的在于提供一种综合利用能量谱熵空间信息的语音端点检测装置及其检测方法。

本发明所述利用能量谱熵空间信息的语音端点检测装置设有：

麦克风阵列，用于语音信号多通道采集、前置处理和模数转换；

端点检测粗判模块，用于利用能量，谱熵信息初步确定语音起止点；

可调波束形成器模块，用于通过调整各通道时延进行声源方向的估计；

端点检测细判模块，用于结合方位信息最终确定语音端点，排除语音噪声干扰；

所述麦克风阵列中各通道语音信号输出端依次经前置放大电路和模数转换器后，通过数据线直接与端点检测粗判模块的信号输入端相连接；

所述端点检测粗判模块设有信号输入端和粗判结果输出端；

所述可调波束形成器模块的信号输入端接端点检测粗判模块的粗判结果输出端，可调波束形成器模块的经时延调整后的各通道语音信号进行能量比较后输出声源方向估计结果；

所述端点检测细判模块设有声源方向输入端和细判结果输出端，声源方向输入端接可调波束形成器模块输出端，细判结果输出端输出细判结果。

所述麦克风阵列可采用由5元麦克风组成的等间距线阵。

本发明所述利用能量谱熵空间信息的语音端点检测方法，采用利用能量谱熵空间信息的语音端点检测装置，所述方法包括以下步骤：

1个初始化步骤：各模块参数初始化设置；

1个端点检测粗判步骤：根据能量信息，谱熵信息，对麦克风阵列接收各帧语音进行端点检测，输出端点粗判结果；

1个声源方向估计步骤：按照设定的声源方向调整步长，对可调波束形成器模块内的各通道信号进行时延补偿，获取声源估计方向；

1个端点检测细判步骤：比较前后两次粗判结果的声源方向值，若两者声源方向差值超过门限，则判断为来自不同方向，认为其为噪声，将噪声段舍去。

本发明要解决的问题是可抑制其他说话语音干扰的端点检测，在能量、谱熵的基础上提供一种结合方向信息的语音端点检测装置。针对说话人识别、语音识别等语音信号处理应用中其他说话人语音干扰，本发明提供将声源方向跟踪功能嵌入端点检测装置，可实现语音噪声背景下的语音信号端点检测。

本发明的技术方案是在传统能量、谱熵端点检测方法的基础上加入声源方向判断功能进行语音信号的端点检测处理。

本发明提供的综合利用能量，谱熵，空间信息的语音端点检测装置实现抑制语音噪声干扰的具体思路为：对麦克风阵列接收信号进行预处理，然后利用能量谱熵特征粗判得到语音信号的起止点，然后对语音信号内的语音段的声源方向进行判断，对不同的语音段所得方向值进行细判，滤除噪声信号。

基于上述考虑，本发明提出综合利用语音信号的能量、谱熵、空间信息以适应包括语音噪声在内的不同类型背景噪声的干扰，特别是利用麦克风阵列提供的空间信息区分来自其他说话人语音噪声的影响，从而改善语音噪声条件下的语音信号端点检测性能，以保证各类移动电话、智能终端语音应用中存在其他说话人时的语音信号处理性能。

同时，由于在语音端点检测阶段麦克风阵列获得的声源方位只用于滤除其他说话人对端点检测的干扰，无需采用复杂的高精度的声源方向估计方法，本发明采用运算量低，算法简单的基于波束指向定位方法，通过逐次调整麦克风阵列各通道时延获取声源方向信息。

与现有的语音端点检测方法相比，本发明具有以下突出优点：

第一，由于在端点检测中结合声源方向信息，通过粗判和细判两个环节的综合判断可抑制语音干扰的影响。

第二，由于抑制语音干扰所需声源方向估计精度不高，可利用简单、低复杂度的波束形成器算法进行方位估计，从而改善语音端点检测性能。

附图说明

图1为本发明所述利用能量谱熵空间信息的语音端点检测装置实施例的结构组成框图。

图2为本发明所述利用能量谱熵空间信息的语音端点检测装置实施例的5元麦克风阵列及其与微处理器连接电路图。

图3为本发明所述利用能量谱熵空间信息的语音端点检测装置实施例中各信号处理模块的数据流、控制流连接示意图。

图4为本发明所述利用能量谱熵空间信息的语音端点检测装置实施例的可调波束形成器模块结构示意图。

具体实施方式

为了使本发明的技术内容、特征、优点更加明显易懂，以下实施例将结合附图对本发明作进一步的说明。

如图1所示，所述本发明所述利用能量谱熵空间信息的语音端点检测装置实施例设有：

麦克风阵列1，用于语音信号多通道采集、前置处理和模数转换；

端点检测粗判模块2，用于利用能量，谱熵信息初步确定语音起止点；

可调波束形成器模块3，用于通过调整各通道时延进行声源方向的估计；

端点检测细判模块4，用于结合方位信息最终确定语音端点，排除语音噪声干扰；

所述麦克风阵列1中各通道语音信号输出端依次经前置放大电路和模数转换器11后，通过数据线直接与端点检测粗判模块2的信号输入端相连接；

所述端点检测粗判模块2设有信号输入端和粗判结果输出端；

所述可调波束形成器模块3的信号输入端接端点检测粗判模块2的粗判结果输出端，可调波束形成器模块3的经时延调整后的各通道语音信号进行能量比较后输出声源方向估计结果；

所述端点检测细判模块4设有声源方向输入端和细判结果输出端，声源方向输入端接可调波束形成器模块3输出端，细判结果输出端输出细判结果。

所述麦克风阵列1采用由5元麦克风组成的等间距线阵。

所述综合利用能量，谱熵，空间信息的语音端点检测装置实施例中麦克风阵列由5个等间距排列的麦克风(m0，m1，…，m4)组成麦克风线列阵，阵列中各麦克风获得的语音信号利用可调波束形成器模块进行声源方向跟踪。

麦克风阵列由麦克风及硬件电路组成，其中麦克风阵列由体积小、结构简单、电声性能好的压强式驻极体麦克风m0，…，m4，NJM2100运算放大器芯片构成的前置放大电路及MAX118模数转换芯片构成（如图2所示），在本实施例中麦克风间距d＝10cm。

可调波束形成器模块、端点检测粗判模块、端点检测细判模块等组成模块均属于数字信号处理模块，在本实施例中采用ARM9S3C2440微处理器进行软件编程实现。

麦克风阵列与微处理器的连接方式为：麦克风阵列中5个麦克风输出信号经过图2所示运算放大器构成的2级前置放大电路放大后输入多通道模数转换芯片MAX118，S3C2440微处理器通过IO口GPB2,3,4控制MAX118的输入通道端A1、A2、A3，通过定时器输出脚TOUT0、TOUT1控制MAX118的读出/写入端口WR、RD进行采样频率16ksps的模数转换，通过数据线DATA0至DATA7进行8bit模数转换结果到S3C2440微处理器的传送。

本发明实施例中多通道语音信号模数转换进入微处理器后，以软件编程形式运行的各数字信号处理模块间的数据、控制流连接方式如图3所示，具体说明如下：

本发明的可调波束形成器模块逐次调整麦克风阵列各通道输入信号x_i(n),i=0,1,2,…,4的时延补偿值τ_i(θ_j),i=0,1,2,…,4。

端点检测粗判：

在本实施例中，利用通道0接收信号能量加权谱熵（王博,郭英,韩立峰.基于熵函数的语音端点检测算法研究[J].信号处理,2009,25(3)：368-373）对各帧语音进行初步端点检测，具体原理如下所述：

对通道0接收信号x₀(n)进行分帧加窗，帧长为L个采样点，本实施例中取帧长为20ms，即L=320，求第l帧语音的时域能量E_l：

E_{l} = Σ_{n = (l - 1) L}^{lL - 1} {x_{0}}^{2} (n)

该帧语音的谱熵计算：

首先对该帧语音进行N（本实施例中N=512）点的FFT变换得：

X_{l} (k) = Σ_{n = 0}^{N - 1} H (n) \times x_{0} (n) \times \exp (- j 2 πkn / N)

式中，H(n)为汉明窗，

将每帧频带分成M（本实施例中M=32）个子带，则每个子带包含16个频域点，计算第m个子带的频域能量s_l,m：

S_{l, m} = Σ_{k = (m - 1) \times 16}^{16 m - 1} {| X_{l} (k) |}^{2}

相应的概率密度为：

p_{l, m} = \frac{S_{l, m}}{Σ_{m = 0}^{M} S_{l, m}}

则第l帧语音的熵为：

H_{l} = - Σ_{m = 0}^{M} p_{l, m} \log p_{l, m}

由此可求得能量加权谱熵的特征参数EEF（entroy and energy feature，简称为EEF)：

{EEF}_{l} = \sqrt{1 + | (E_{l} - E_{n}) \times (H_{l} - H_{n}) |}

式中E_n和H_n分别表示噪声段短时能量和谱熵估计值。

本实施例中用起始10帧（假定为“静音段”的背景噪声）信号按下式估计噪声的短时能量E_n、谱熵H_n以及能量加权谱熵EEF_n：

E_{n} = \frac{1}{10} Σ_{l = 1}^{10} E_{l}

H_{n} = \frac{1}{10} Σ_{l = 1}^{10} H_{l}

{EEF}_{n} = \frac{1}{10} Σ_{l = 1}^{10} {EEF}_{l}

利用噪声段的EEF_n参数可设置语音起止点的判决门限值T：T＝k×EEF_n，k可通过实验获取，本实施例中取k＝1.8。将通道0信号从语音起点开始逐帧计算EEF值并与判决门限T比较，当连续5帧大于门限T的值时，则确定语音段起点为这5帧的最前一帧。类似地，当语音段末端连续五帧的EEF值大于门限T时，则认为语音段终点为这五帧的最后一帧，由此可确定语音信号的端点。

声源方向估计：在本实施例中，采用实现简单的时延补偿－相加波束成形方法进行声源方向估计，其原理结合图例进行如下说明：

如图3所示，将各通道信号按照逐渐增加的方位角计算相应的各通道时延值进行补齐，对补齐后的各通道信号加权叠加，得到对准相应方位角的波束形成输出信号。设时延值为τ_i(θ_j),i=0,1,2,…,4代表实施例麦克风阵列的各通道，则经过时延补偿后的第l帧语音为：

x'_i,l(n,θ_j)＝x_i,l[n+τ_i(θ_j)]，i＝0,1,…,4

对时延补齐后的信号进行加权叠加，可得：

y_l(n，θ_j)＝W_a ^TX_l(n，θ_j)

其中权向量W_a＝[w₁,w₂,…,w₄]^T，且

X_l(n,θ_j)＝[x'_0,l(n,θ_j),x'_1,l(n,θ_j)…,x'_4,l(n,θ_j)]。

对不同方位角度对应的波束形成输出能量值进行最大值搜索，能量最大值对应的方位角即为该帧麦克风阵列接收信号的声源实际方向θ_l。

E_{l} (θ_{j}) = Σ_{n = 0}^{L^{'} - 1} y_{l} {(n)}^{2}

θ_l＝argmax(E_l(θ_j))

由此可得到入射波的声源方向。由于在本发明所述综合利用能量，谱熵，空间信息的语音端点检测装置中估计的声源方向只用于判断并抑制其他说话人的语音信号对端点检测的影响，因此声源方向估计的精度要求不高，可采用实现简单、复杂度低的波束成形方法。

端点检测细判：

根据端点检测粗判确定的信号帧起始点进行信号帧分帧，对信号帧序列中前后相邻两个语音信号帧的对应声源方向进行比较，计算其声源方向差值并与设定的门限进行比较：如超出门限则判决为干扰信号，并重新开始端点检测过程，从而可滤除其他人的语音噪声对端点检测的干扰；否则判断为正常的语音信号，输出各语音帧的起始端点。在此过程中，相邻信号帧的角度差值计算原理为：Δθ＝θ_l-θ_l-1

具体地：定义T_θ为端点细判的角度差门限值（在本实施例中根据经验设定T_θ为6度）。则：若Δθ＜T_θ，则表明仍然为来自同一方向的说话人语音，本装置输出端点检测获取的起始端点结果，以用于后续的语音信号处理；若Δθ＞T_θ，认为语音段中混入了干扰信号，将当前帧滤除，重新开始端点检测过程。

在上述工作过程中，为了进行声源方向估计，麦克风阵列各通道信号要按照逐渐增加的方位角计算相应的各通道时延值进行补齐以产生对应的波束，麦克风阵列各通道时延补偿值与对应波束对准的声源方向θ_j间的关系可结合图4进行描述：

如图4所示，在本实施例中：以5元麦克风线阵所在水平线为X轴，以线阵中间的麦克风m2位置为坐标原点建立定位坐标系，线阵各阵元间距为d，则在目标方位角为θ_j时，考虑到实施例中声源a处于远场范围，其发出的语音信号到达麦克风线阵时可以认为是平面入射波，则以本实施例线阵的中心阵元麦克风m2作为基准进行相应的时延补偿值计算，即对m2接收的语音信号不作时延补偿，对线阵中各个通道麦克风接收的语音信号x_i(n)可根据方位角θ_j进行相应的时延补偿（如图4所示）。各通道信号的时延补偿值可通过下式来确定：

τ_{i} (θ_{j}) = (2 - i) round (\frac{f_{s} \cdot d \cos θ_{j}}{C}), i = 0,1, \cdot \cdot \cdot, 4

其中i为线阵中各通道的编号，C为空气中的声速（本实施例中取340m/s），θ_j为估计的声源方向值，为了搜索到阵列前方所有方向的声源，θ_j的值设置为：j＝0,1,...,K,K为常数，K+1代表麦克风阵列正前半平面180°角度范围内用于搜索声源方向的波束个数，K值越大，估计的入射角精度越高但同时运算复杂度也越高，本实施例中取K=63（即180°角度范围内波束个数为64个）。f_s为麦克风阵列语音信号的采样频率（单位为Hz，本实施例中为16kHz），“round()”代表取整运算。各通道语音信号利用对空间不同角度值对应的时延补偿后进行加权叠加，通过波束形成输出的信号能量可实现对准当前声源方向。

本发明公开的综合利用能量，频谱，空间信息的语音端点检测装置及其方法最大的特点在于结合麦克风阵列提供的声源方向信息与能量、语音频谱信息提高端点检测算法的性能，特别是结合声源方向信息可抑制其他说话人的语音噪声干扰的影响，从而改善语音信号处理算法的性能。

Claims

1.利用能量谱熵空间信息的语音端点检测装置，其特征在于设有：

所述端点检测粗判模块设有信号输入端和粗判结果输出端；

2.如权利要求1所述利用能量谱熵空间信息的语音端点检测装置，其特征在于所述麦克风阵列采用由5元麦克风组成的等间距线阵。

3.利用能量谱熵空间信息的语音端点检测方法，其特征在于采用如权利要求1所述利用能量谱熵空间信息的语音端点检测装置，所述方法包括以下步骤：

1个初始化步骤：各模块参数初始化设置；