CN102164328B

CN102164328B - 一种用于家庭环境的基于传声器阵列的音频输入系统

Info

Publication number: CN102164328B
Application number: CN2010106228969A
Authority: CN
Inventors: 付强; 国雁萌; 应东文; 李凯; 姜开宇; 颜永红
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2010-12-29
Filing date: 2010-12-29
Publication date: 2013-12-11
Anticipated expiration: 2030-12-29
Also published as: CN102164328A

Abstract

本发明提供一种用于家庭环境的基于波束形成的传声器阵列音频输入系统，所述的输入系统采用安放在家庭客厅中的电视机所处周边位置，或者内嵌于电视机内的传声器阵列接受来自用户的音频输入，具体包含：传声器阵列，包含若干传声器阵元用于家庭客厅环境中提取多通道音频信号；波束形成模块，用于实现目标方向语音定向增强，同时抵制来自其它方向的声源；目标语音检测模块判断出目标语音段的起止端点；回波抵消模块，用于去除电视扬声器的声信号；后滤波模块，用于消除不相关的扩散背景噪声。本发明还提供一种基于盲分离的传声器阵列音频输入系统，这两个系统均基于传声器阵列输入音频信号，在家庭网络环境中应用。

Description

一种用于家庭环境的基于传声器阵列的音频输入系统

技术领域

本发明涉及一种建立在传声器(又称，麦克风)阵列基础上的可以与电视机配套的音频交互系统的输入前端处理方法，具体涉及一种用于家庭环境的基于传声器阵列的音频输入系统/。

背景技术

随着网络的宽带化和家庭网关的普及，以电视机为终端的家庭高清通信和人机交互业务在未来的几年会大量涌现。在市场上，互联网电视的概念从近两年起，已被国内外厂商广泛接受并大量推出相关产品；家庭网关产品随着三网融合的进度加快，更是方兴未艾。而与之相关的高清音频和交互业务却还未取得突破。

电视机做为家庭客厅的中心，也将成为家庭通信和交互的主要终端。而随着宽带业务的增多，如何实现简单直接的人机交互也将成为重要的问题。很显然，通过语音的交互和通信仍然是最自然的方式。人们可以坐在沙发上说话，就能进行可视电话、对电视机进行操作控制、搜索所需信息等业务，不必借助键盘等其他设备等。在语音的输入模式上，以自然的方式提供高信噪比的信号始终是追求的目标。近讲模式的方案，包括耳麦、蓝牙耳机等，虽然能满足高信噪比的输入要求，但仍不是自然的通信模式。随着传输带宽的迅速增加，视频信息的高清化已不是问题，将为视觉感受带来全新的体验。与此同时，高清语音(High Definition Voice)概念的提出，也从听觉角度提出了新的要求。要达到高清语音的效果，不仅仅是编码带宽的增加，即从300-3400Hz扩展到50-7000Hz，而且是一个端到端的概念，即从语音的输入、编码、传输到回放全程的每个环节都需要考虑信号的清晰性和真实性。

随着自动语音识别(ASR)技术的日益成熟，语音人机交互在商业活动和日常生活中的应用逐渐广泛起来。然而，在家庭环境中，ASR技术面临的主要问题之一其在背景干扰、通道失真以及房间混响等复杂环境下的鲁棒性问题还未得到有效的解决。为克服这些因素的影响，目前大多数语音识别系统的解决方案是为用户佩戴靠近嘴边的近讲(close-talk)传声器来提高信噪比。显然，对这种不自然的方式的依赖限制了语音识别技术更广泛地进入日常生活中。

基于多声学信源，如传声器阵列等，的前端处理技术，由于其“空间滤波”特性，为改善或解决这一问题提供了一个良好的途径。国际上，对此问题的研究尚属于较新的领域，大多数的应用集中于车内和房间内的抗噪问题，在研究方法上，主要以波束形成、谷点形成和盲分离为主。

发明内容

本发明的目的在于，克服了近讲(close-talk)传声器带来的不便，为家庭环境中的电视机提供了远讲模式下的高信噪比音频输入系统，即一种用于家庭环境的的基于传声器阵列的音频输入系统。

本发明提出一种基于波束形成的传声器阵列音频输入系统，该系统用于家庭网络，其特征在于，所述的输入系统采用安放在家庭客厅中的电视机所处周边位置，或者内嵌于电视机内的传声器阵列接受来自用户的音频输入，具体包含：

传声器阵列，包含若干传声器阵元用于家庭客厅环境中提取多通道音频信号；

波束形成模块，用于实现目标方向语音定向增强，同时抵制来自其它方向的声源；目标方向可以人为指定，也可以由声源定位模块自动给出；

声源定位模块，用来在噪声背景下确定目标声源的具体位置，为波束形成提供声源位置信息；

目标语音检测模块，依据传声器阵列采集的各通道信号的幅度和相位信息，分析确定目标方向的明显声源，依据确定的目标方向的明显声源信号判断出目标语音段的起止端点，从而实现对目标方向语音信号的端点检测；

回波抵消模块，用于去除电视扬声器的声信号；

后滤波模块，用于消除不相关的扩散背景噪声。

上述技术方案中，所述的波束形成模块的空间滤波包括两类方法：第一类为固定波束形成，采用一组经优化的滤波器以增强处于某特定方向的声源，同时尽可能地抵制来自其他方向的声源；第二类波束形成算法为自适应波束形成，其滤波器系数随输入数据的变化和发生改变。所述的固定波束形成算法包含：延迟相加、超指向性及差分阵列。

上述技术方案中，所述的传声器阵列采用全指向传声器或采用单指向传声器，所述的传声器阵列的拓扑结构为线性一字阵。

本发明基于传声器阵列的音频输入系统还提供了一种基于盲分离的传声器阵列音频输入系统，该系统用于家庭网络，其特征在于，所述的输入系统采用安放在家庭客厅中的电视机所处周边位置，或者内嵌于电视机内的传声器阵列接受来自用户的音频输入，具体包含：

传声器阵列，包含若干传输器阵元，用于从电视机所在的环境中提取多通道音频信号；

回波抵消模块，用于去除电视扬声器的声信号；

盲分离模块，用于在多声源情况下分离出每个声源信号；

声源定位模块，用来在噪声背景下确定目标声源的具体位置，为盲分离模块提供声源方向信息；

后滤波模块，用于消除不相关的扩散背景噪声。

上述技术方案中，所述的传声器阵列采用全指向传声器或采用单指向传声器。

上述两个基于传声器阵列的音频输入系统的技术方案中，所述的声源定位模块采用基于可控波束的定位算法，该算法包含延迟累加波束算法和自适应波束算法。所述的可控波束的定位算法步骤为：首先采用波束形成技术，调节传声器阵列的接收方向，在整个接收空间内扫描，能量最大的方位为声源的方位；然后对传声器所接收到的声源信号滤波，并加权求和来形成波束，进而通过搜索声源可能的位置来引导该波束，波束输出功率最大的点就是声源的位置。

上述两个基于传声器阵列的音频输入系统的技术方案中，所述的目标语音检测模块的工作步骤为：

首先通过自适应的能量检测初步判定语音起点T_start，

然后启动谐波检测系统，如果在T_start附近存在语音的谐波结构，则可认为T_start确为真正的语音起始点；反之则T_start不是语音起点，并继续通过能量检测搜索语音起点。

上述两个基于传声器阵列的音频输入系统的技术方案中，所述的后置滤波模块用于进一步抑制残留的扩散场噪声，采用基于维纳滤波的语音增强方法；具体步骤为：

首先将带噪语音信号在时间上分帧加窗，进行快速傅里叶变换得到当前帧的功率谱X(ω)，即语谱；通过分析语谱能量的局部最小值，采用MS(Minimum Statistics)方法得出背景噪声的估计值N(ω)；

故信噪比可估计为：

ξ (ω) = \frac{X (ω) - N (ω)}{N (ω)} - - - (1)

其中ξ(ω)表示信噪比；则增益函数G(ω)可大致计算为

G (ω) = \frac{ξ (ω)}{1 + ξ (ω)} - - - (2)

G(ω)即可用于增强带噪语音X(ω)

\hat{S} (ω) = G (ω) \cdot X (ω) - - - (3)

通过对增强结果

作反傅立叶变换和叠接相加，得到去除扩散场噪声的增强后的语音。

上述技术方案中，所述的盲分离分离模块采用频域ICA算法，该频域算法将时域的卷积混合转化成频域的瞬时混合，能在每个频点上实现独立的分离。所述的频域ICA算法存在排列和缩放模糊的问题，首先采用依据零限波束形成在干扰方向形成零限的条件，通过判断分离矩阵的方向图的最小值即零限位置应对应于干扰方向，即每一个频点的最小值都对应于同一个方位角，解决分离矩阵行行之间的排序模糊问题；然后通过分离矩阵幅度归一化解决缩放模糊的问题，将计算好的分离矩阵运用到原始的语音信号，再经过反傅里叶变换即可得到分离之后的语音信号。

在家庭客厅这样的应用场景中可能存在的噪声或干扰是多方面的。首先有计算机，空调，电扇等电器带来的宽带平稳噪声；其次，声场中还可能存在其他强度很大且为非平稳的干扰源，比如竞争说话人的声音，又如电视，音响播放的音频内容等；由于系统使用于室内，房间本身的声学特性，墙壁对声波的反射，由此而来的回声和混响也会对语音增强系统带来不小的挑战；最后我们使用的语音系统往往是信息双向流动的系统，作为一个完整的交互产品，不但要有鲁棒的语音采集机制，同时也应该有完备的声音提示和反馈机制，为使用者提供必要的信息和服务。在使用过程中，系统会播出提示音或用户指定的音频内容，这类干扰往往距离拾音设备非常近，故接收到的信号强度一般与目标语音相仿或更强，另外播放的内容对于系统来说是已知的，故可以使用特殊的方法予以去除。

本发明所描述的方法是通过提供一种建立在多通道音频信号处理上的，其核心是传声器阵列，涉及若干种信号处理技术，具体包括波束形成、盲分离、声源定位、目标语音检测和多通道回波抵消等。

本发明的优点在于，在家庭网络环境中电视的远讲模式下可获得高质量的输入信号以保证自动语音识别器表现出满意的性能，从而为如何实现简单直接的人与电视终端的交互提供更好的技术支持。

附图说明

图1一种基于波束形成的传声器阵列音频输入系统；

图2一种基于盲分离的传声器阵列音频输入系统；

图3多通道数据采集和处理硬件系统系统框图。

具体实施方式

下面结合附图和实施例对本发明进行进一步说明。

图1给出了本发明所要描述系统的基于传声器阵列的音频输入系统一种实现形式。首先，传声器阵列从环境中提取音频信号。声源定位模块用来在噪声背景下阵列拾取的信号以确定声源的具体位置，定位技术将广义互相关相位变换(GCC-PHAT)和可控波束响应相位变换(SRP-PHAT)应用于电视交互场景中，为波束形成提供声源位置信息使得系统能将波束调整到目标语音方向；波束形成模块实现的是目标方向语音定向增强，同时尽可能地抵制来自其他方向的声源，一般采用定向和自适应两种模式，考虑到语音信号的宽带特性以及为了保证良好的空域选择性，并且可以设计合适的嵌套阵使之能在每个子阵列的频率范围内运用波束形成算法。目标语音检测，目标语音检测的主要依据各通道信号的幅度和相位等信息，分析目标方向是否存在明显声源，并检测其是否包含用户语音。在此基础上，判断出目标语音段的起止端点，从而实现对目标方向语音信号的端点检测。通过对频谱特征的分析，排除用户拍手、脚步声等多种噪声的影响，从而基本检测出目标方向的声音是否包含用户语音。进一步，根据语音在时间上的连续性，可以判断出目标语音段的起止端点，从而实现对目标方向语音信号的端点检测；回波抵消模块通过对电视播放信号和传声器输入信号的处理，实时的估计系统所在环境的声学特性，以及扬声器和传声器的电声特性，从而估计出传声器输入信号中来自电视扬声器的声信号，并将其通过自适应抵消的原理去除；后滤波信号增强模块目的是为了进一步消除残余的背景噪声。至此，前端信号处理的结果送给语音应用系统进一步处理。

图2给出了本发明所要描述系统的前端信号处理另外一种实现形式。本发明利用阵列即一组传感器从环境中提取信号。拾取的信号首先经过多通道回波抵消模块去除电视扬声器的声信号，方法同一；数据被传递给盲分离模块，运用频域独立分量分析技术通过在干扰方向自适应地形成零陷波束来恢复原始语音信号，与方法一相比这种实现方式所需麦克数目更少且适用于有多声源场景。在这种实施方法中，声源定位为盲分离提供了辅助信息，方法同一所描述。分离出目标说话人语音同样经过目标语音检测之后将在识别系统中做进一步处理。

由于电视机的造型已趋于平板化和大尺寸，传声器阵列的拓扑结构以线性一字阵为宜，个数和阵元间距可以随具体的电视机的尺寸，以及所面对的输入信号的带宽而变化。传声器阵列装置本身可以嵌入在电视机体内部，远离音箱的位置，如沿屏幕上方呈水平安装。其中，传声器阵元即可以采用全指向传声器，也可以采用单指向传声器。

以上两种实施方式中，用到的各个模块的具体工作流程或算法如下所述：

1.波束形成模块

波束形成算法又被称为空间滤波，传声器阵列的空间选择性集中体现于此。本发明的波束形成模块可以包括两类方法：第一类为固定波束形成，此类算法使用一组经优化的滤波器以增强处于某特定方向的声源，而同时尽可能地抵制来自其他方向的声源，起到提高信噪比的效果。典型的固定波束成算法有延迟相加、超指向性以及差分阵列等。第二类波束形成算法被称为自适应波束形成，与固定波束形成法相比，自适应波束形成的滤波器系数随输入数据的变化和发生改变，从而能适应时变的声学环境，得到更好的结果。

2.盲分离模块

语音分离技术在过去十年中的发展主要体现在与零限波束形成技术的结合上。零限波束形成技术主要实现的是在某个干扰的方向上形成零限以滤除干扰信号，与之相对应，目前基于麦克风阵列的语音分离技术正是在输出信号的统计独立最大化准则下，形成一系列自适应零限滤波器组，每一个滤波器实现在干扰方向形成零限而保留目标方向语音的目的。这一类基于麦克风阵列的语音分离方法物理概念明确，分离后语音质量明显好于其他方法。本专利引入了频域ICA算法。首先，频域的方法可以将时域的卷积混合转化成频域的瞬时混合，可以在每个频点上实现独立的分离。假设源信号在每个频点上都是独立同分布，我们应用独立分量分析和自然梯度算法来计算分离矩阵。因为频域ICA算法是在每个频点独立的实现的，所以存在排列和缩放模糊的问题。依据零限波束形成在干扰方向形成零限的条件，可以通过判断分离矩阵的方向图的最小值即零限位置应对应于干扰方向，即每一个频点的最小值都对应于同一个方位角，这样就可以解决分离矩阵行行之间的排序问题；另一方面，缩放模糊可以通过分离矩阵幅度归一化来实现。将计算好的分离矩阵运用到原始的语音信号，再经过反傅里叶变换即可得到分离之后的语音信号。实时的盲分离算法，可以在原有算法的基础上实时更新分离矩阵来实现。

3.声源定位

主要采用基于可控波束的定位算法。该算法的基本思想是，采用波束形成技术，调节传声器阵列的接收方向，在整个接收空间内扫描，能量最大的方位为声源的方位。采用不同的波束形成器可得到不同的算法。该方法在满足最大似然准则的前提下，以搜索的方式，使传声器阵列所形成的波束对准信号源，从而获得最大输出功率。即对传声器所接收到的声源信号滤波，并加权求和来形成波束，进而通过搜索声源可能的位置来引导该波束，波束输出功率最大的点就是声源的位置。基于可控波束形成的定位算法，主要分为延迟累加波束算法和自适应波束算法。

4.目标语音检测

目标语音检测的基本过程是首先通过自适应的能量检测初步判定语音起点T_start，然后启动谐波检测系统，如果在T_start附近存在语音的谐波结构，则可认为T_start确为真正的语音起始点；反之则T_start不是语音起点，并继续通过能量检测搜索语音起点。在找到语音起点之后，通过能量检测搜索语音终点。

用能量做端点检测的优势是计算简单且可靠性强，但它很难处理突发强噪声。而谐波检测刚好弥补了这个缺陷，能够很容易的滤除突发噪声。但谐波检测对微弱噪声也比较敏感，且计算复杂度较高。所以，谐波检测的主要作用是，在信号满足能量检测的判决要求后，对判决结果进行最后的把关。具体来讲，当能量检测系统判定出现语音起点的时候，谐波检测系统通过寻找附近信号的谐波结构，判定其是否含有浊音。如果判定附近几帧信号含有浊音，那么可以认为当前信号确实是语音；如果判定附近几帧信号都不含浊音，则认为当前信号只是突发的干扰噪声。

因为谐波和基音集中了浊音的主要能量，而谐波频率是基音频率的整数倍，所以纯净浊音在频域上存在均匀分布的能量极值，且其间隔等于基音周期。浊音信号即使受到录音设备和噪声的干扰，也会在频域保持4～5个等距能量极值，这就是本发明通过谐波特征检测语音信号的主要依据。

5.后置滤波模块

波束形成模块对方向性干扰源的抑制性能较佳，而对于扩散场的背景噪声则有明显残留，因此需要后置滤波模块来进一步抑制残留的扩散场噪声。系统采用了基于维纳滤波的语音增强方法，首先将带噪语音信号在时间上分帧加窗，进行快速傅里叶变换得到当前帧的功率谱X(ω)，即语谱。通过分析语谱能量的局部最小值，采用MS(Minimum Statistics)方法得出背景噪声的估计值N(ω)。

故信噪比可估计为：

ξ (ω) = \frac{X (ω) - N (ω)}{N (ω)} - - - (1)

其中ξ(ω)表示信噪比。则增益函数G(ω)可大致计算为

G (ω) = \frac{ξ (ω)}{1 + ξ (ω)} - - - (2)

G(ω)即可用于增强带噪语音X(ω)

\hat{S} (ω) = G (ω) \cdot X (ω) - - - (3)

通过对增强结果

作反傅立叶变换和叠接相加，即为增强后的语音。

附图3给出的是用于上述多通道音频输入系统的多通道实时采集和处理硬件结构图。该系统包含：核心板、底板、音频采集子板、外接电源构成。其中，

核心板，承担主要的数据传输和处理任务，由DSP和FPGA以及DSP片外存储(SDRAM)和FPGA片外存储(SDRAM)构成；

底板，承担数据采集(MIC，A/D)通路，以及USB传输，AEC通道；

音频采集子板，主要承担音频采集以、运放及AD转换；

外接电源：5V和12V。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于盲分离的传声器阵列音频输入系统，该系统用于家庭网络，其特征在于，所述的输入系统采用安放在家庭客厅中的电视机所处周边位置，或者内嵌于电视机内的传声器阵列接受来自用户的音频输入，具体包含：

传声器阵列，包含若干传声器阵元，用于从电视机所在的环境中提取多通道音频信号；

回波抵消模块，用于去除电视扬声器的声信号；

盲分离模块，用于在多声源情况下分离出每个声源信号；

后滤波模块，用于消除不相关的扩散背景噪声；

其中，所述的盲分离模块采用频域ICA算法，该频域算法将时域的卷积混合转化成频域的瞬时混合，能在每个频点上实现独立的分离；

所述的频域ICA算法存在排列和缩放模糊的问题，首先采用依据零限波束形成在干扰方向形成零限的条件，通过判断分离矩阵的方向图的最小值即零限位置应对应于干扰方向，即每一个频点的最小值都对应于同一个方位角，解决分离矩阵行行之间的排序模糊问题；然后通过分离矩阵幅度归一化解决缩放模糊的问题，将计算好的分离矩阵运用到原始的语音信号，再经过反傅里叶变换即可得到分离之后的语音信号。

2.根据权利要求1所述的基于盲分离的传声器阵列音频输入系统，其特征在于，所述的传声器阵列采用全指向传声器或采用单指向传声器。

3.根据权利要求1所述的基于盲分离的传声器阵列音频输入系统，其特征在于，所述的声源定位模块采用基于可控波束的定位算法，该算法包含延迟累加波束算法和自适应波束算法。

4.根据权利要求3所述的基于盲分离的传声器阵列音频输入系统，其特征在于，所述的可控波束的定位算法步骤为：首先采用波束形成技术，调节传声器阵列的接收方向，在整个接收空间内扫描，能量最大的方位为声源的方位；然后对传声器所接收到的声源信号滤波，并加权求和来形成波束，进而通过搜索声源可能的位置来引导该波束，波束输出功率最大的点就是声源的位置。

5.根据权利要求1所述的基于盲分离的传声器阵列音频输入系统，其特征在于，所述的目标语音检测模块的工作步骤为：

首先通过自适应的能量检测初步判定语音起点T_start，

6.根据权利要求1所述的基于盲分离的传声器阵列音频输入系统，其特征在于，所述的后滤波模块用于进一步抑制残留的扩散场噪声，采用基于维纳滤波的语音增强方法；具体步骤为：

首先将带噪语音信号在时间上分帧加窗，进行快速傅里叶变换得到当前帧的功率谱X(ω)，即语谱；通过分析语谱能量的局部最小值，采用MS（Minimum Statistics）方法得出背景噪声的估计值N(ω)；

故信噪比可估计为：

ξ (ω) = \frac{X (ω) - N (ω)}{N (ω)}

其中ξ(ω)表示信噪比；则增益函数G(ω)为：

G (ω) = \frac{ξ (ω)}{1 + ξ (ω)}

G(ω)即可用于增强当前帧的功率谱X(ω)

\hat{S} (ω) = G (ω) \cdot (ω)

通过对增强结果