CN107017003A

CN107017003A - 一种麦克风阵列远场语音增强装置

Info

Publication number: CN107017003A
Application number: CN201710409157.3A
Authority: CN
Inventors: 童峰; 周跃海; 江伟华; 李剑汶
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2017-06-02
Filing date: 2017-06-02
Publication date: 2017-08-04
Anticipated expiration: 2037-06-02
Also published as: CN107017003B

Abstract

一种麦克风阵列远场语音增强装置，涉及一种麦克风阵列语音增强装置。首先利用本领域通用的声源定位技术估计远场声源方向，并采用麦克风阵列波束对准形成主波束对远场语音进行初步增强，针对远场条件下语音信噪比低的核心问题，本装置逐个对麦克风阵列各通道相对主波束的传输函数进行估计，并基于传输函数估计结果进行各通道接收信号中反射分量的聚焦增强，最后对主波束对准初步增强和反射聚焦增强两部分增强语音进行合并进一步提高语音信噪比，实现远场语音的麦克风阵列语音增强。

Description

一种麦克风阵列远场语音增强装置

技术领域

本发明涉及一种麦克风阵列语音增强装置，尤其是涉及一种可实现远场语音增强的麦克风阵列装置。

背景技术

与使用单个麦克风的语音系统相比，麦克风阵列技术可利用空间排列的多个麦克风进行多通道语音信号空-时综合处理，从而实现语音增强、语音分离、声源定位等功能，可极大地改善语音质量。但随着人机交互、智能家居、语音分离等领域对语音信号处理需求的迅速发展，说话人位于较远距离时(如距离5m、8m、10m，甚至更远)的远场语音场景成为一个极大的技术挑战。

中国专利ZL 2010591158.2公开一种视频定位的长距离拾音装置，该装置在以摄像机为中心的圆周安装2个指向麦克风构成高指向性声聚焦桶，并在桶侧壁外安装2个全向麦克风用于获取参考噪声，该装置随摄像头转动时操作员可根据视频图像内容进行对焦、视频定位后获取与摄像头同方向的长距离语音信号。

中国专利ZL 2012103200049公开一种带声源方向跟踪功能的麦克风阵列语音增强装置，该装置利用平行滤波器结构结合波束扫描以实现对移动声源的语音增强处理。

在远场条件下，随着距离的增加语音信号信噪比迅速降低，再考虑到环境噪声及混响等困难，采用普通的麦克风阵列语音处理技术通过波束成形、旁瓣抵消等方式进行远场语音增强的性能并不理想，在实际应用中复杂混响、背景噪声的条件下实现远场语音增强具有极大的困难，难以获得满意的远场语音增强性能。

发明内容

本发明的目的在于提供一种麦克风阵列远场语音增强装置。

本发明设有：

麦克风阵列模块，用于多通道采集语音信号、前置处理和模数转换；

声源定位模块，用于对每个麦克风阵列单元声聚焦引入的相位差进行自校正；

波束对准增强模块，用于根据目标说话人方向调整各通道时延进行声源方向对准；

传输函数估计模块，用于估计不同反射声分量相对主波束的传输函数；

多通道反射聚焦模块，用于对经不同反射路径的多径发射声分量进行聚焦增强处理；

合并增强模块，用于对波束对准和发射聚焦获得的语音进行合并增强。

所述麦克风阵列模块，用于进行各麦克风信号的采集、放大和模拟数字转换，所述麦克风阵列模块中各通道语音信号输出端依次经前置放大电路和模数转换器后，通过数据线分别和声源方位估计模块、传输函数估计模块的信号输入端相连接；

所述声源定位模块，用于获得声源方向，所述声源定位模块设有信号输入端、声源方向输出端，信号输入端接麦克风阵列输出端，声源方向输出端接波束对准增强模块的方向输入端；

所述波束对准增强模块，用于根据声源方向进行波束对准和增强处理，所述波束对准增强模块设有信号输入端、声源方向输入端和增强信号输出端，信号输入端接麦克风阵列输出端，声源方向输入端接出端接声源定位模块的声源方向输出端，增强信号输出端分别接合并增强模块的主波束信号输入端；

所述传输函数估计模块，用于根据波束对准增强信号和麦克风阵列信号进行反射分量的反射传输函数估计，所述传输函数估计模块设有主波束信号输入端、麦克风阵列信号输入端和反射响应输出端，主波束信号输入端接波束对准增强模块的增强信号输出端，麦克风阵列信号输入端接麦克风阵列模块各通道语音信号的输出；

所述多通道反射聚焦模块，用于根据估计获得的传输函数对远程语音中的直达、反射声进行聚焦处理，所述多通道反射聚焦模块设有麦克风阵列信号输入端、传输函数输入端和反射聚焦增强输出端，经过反射聚焦增强模块进行反射聚焦增强处理后，输出聚焦增强语音至合并增强模块；

所述合并增强模块，用于对波束对准增强语音、多通道反射聚焦语音两部分语音进行合并增强，所述合并增强模块设有波束增强语音输入端、多通道反射聚焦语音输入端，分别接波束对准增强模块和多通道反射聚焦模块的对应输出端，模块的输出端输出合并增强语音。

所述麦克风阵列远场语音增强装置，进行远场语音增强的步骤如下：

1个声源方位估计步骤：根据本领域通用的麦克风阵列声源定位算法对各通道麦克风阵列信号进行声源方向估计，输出声源方向；

1个波束对准增强步骤：根据声源方向利用本领域通用的麦克风阵列波束对准增强算法对准声源方向进行时延调整、语音增强，输出波束对准增强语音；

1个传输函数估计步骤：根据波束对准增强语音和麦克风阵列各通道语音进行各通道相对主波束的传输函数估计，输出传输函数估计结果；

1个多通道反射聚焦步骤：利用获得的传输函数对麦克风阵列个通道语音信号进行发射聚焦处理，达到利用反射能量增强语音的目的，输出反射聚焦增强结果；

1个合并增强步骤：对波束对准增强和反射聚焦增强进行合并增强，输出合并增强结果。

本发明首先利用本领域通用的声源定位技术估计远场声源方向，并采用本领域通用的麦克风阵列波束对准形成主波束对远场语音进行初步增强，针对远场条件下语音信噪比低的核心问题，本装置逐个对麦克风阵列各通道相对主波束的传输函数进行估计，并基于传输函数估计结果进行各通道接收信号中反射分量的聚焦增强，最后对主波束对准初步增强和反射聚焦增强两部分增强语音进行合并进一步提高语音信噪比，实现远场语音的麦克风阵列语音增强。

本发明针对远场语音信噪比低、受噪声、混响影响严重的问题，不仅采用麦克风阵列波束形成进行从声源到麦克风阵列的直达声信号的空间对准增强，而且，与传统麦克风阵列语音增强方法对反射形成的混响语音进行抑制不同，本发明提出利用经过不同反射路径形成的反射语音进行多通道混响分量聚焦来进一步实现远场微弱语音信号的增强，从而实现利用多径能量的远场语音增强处理。

与现有的麦克风阵列语音增强方法相比，本发明提出的麦克风阵列远场语音增强装置有两个突出的优点：第一，在对声源方向进行波束对准增强的同时，对远场语音中的反射声能量进行多通道聚焦增强，相对于传统麦克风阵列增强方法对非声源方向语音作为干扰进行抑制处理，有效利用远场语音中反射声部分能量可有效提高远场增强效果；第二，对波束对准增强和多通道反射聚焦增强两部分增强语音进行合并增强处理，在合并增强处理中通过对两部分增强语音进行相位对齐实现合并增强，进一步提高远场增强效果。

附图说明

图1为本发明实施例的结构组成框图。

图2为本发明实施例中的5元麦克风圆阵与微处理器电路连接图。

图3为本发明实施例的5元麦克风圆阵时延补偿波束成形原理图。

图4为本发明实施例的5元麦克风圆阵各阵元信号与主波束信号间的传输函数。

图5为本发明实施例的5元麦克风圆阵多通道反射聚焦后与主波束信号间的传输函数。

具体实施方式

为了使本发明的技术内容、特征、优点更加明显易懂，以下实施例将结合附图对本发明作进一步的说明。如图1所示，所述麦克风阵列远场语音增强装置实施例设有麦克风阵列1、声源定位模块2、波束对准增强模块3、传输函数估计模块4、多通道反射聚焦模块5、合并增强模块6。

所述带相位自校正功能的声聚焦麦克风阵列长距离拾音装置实施例中麦克风阵列由5个等间距排列的麦克风(m0，m1，…，m4)组成圆形结构麦克风阵列，阵列中各麦克风单元在圆周上等间隔分布，相邻麦克风阵元的夹角为72度，本实施例中圆周直径为20cm。

麦克风阵列由本领域通用的麦克风单元及硬件电路组成，其中麦克风阵列由体积小、结构简单、电声性能好的压强式驻极体麦克风m0，…，m4，NJM2100运算放大器芯片构成的前置放大电路及MAX118模数转换芯片构成(如图2所示)。

声源定位模块、波束对准增强模块、传输函数估计模块、多通道反射聚焦模块、合并增强模均属于数字信号处理模块，在本实施例中采用本领域通用的ARM9S3C2440微处理器进行算法编程实现。

麦克风阵列与微处理器的连接采用本领域通用的连接方式：麦克风阵列中5个麦克风输出信号经过图2所示运算放大器构成的2级前置放大电路放大后输入多通道模数转换芯片MAX118，S3C2440微处理器通过IO口GPB2,3,4控制MAX118的输入通道端A1、A2、A3，通过定时器输出脚TOUT0、TOUT1控制MAX118的读出/写入端口WR、RD进行采样频率16ksps的模数转换，通过数据线DATA0至DATA7进行8bit模数转换结果到S3C2440微处理器的传送。

所述麦克风阵列远场语音增强装置实施例中多通道语音信号模数转换进入微处理器后，以软件编程形式运行的各数字信号处理模块间的数据、控制流连接方式如图3所示，具体说明如下：

本发明实施例中声源定位采用本领域通用的相位变化(PHAT)方法(参考文献3)估计远场声源所在方向θ。

获得声源方向θ后，本发明实施实施例中采用本领域通用的时延补偿波束成形方法对准进行波束成形，通过形成对准声源方向的主波束进行远场语音的初步增强。具体过程如下：

x'_i(k)＝x_i(k')；

k'＝k+round[D_i,j],i＝1,2,3,4,5；

其中：k'为时延调整前信号采样点的时间刻度；k为时延调整后信号采样点的时间刻度；xi(k')为时延调整前的第i通道采样信号；x’i(k)为时延调整后的第i通道采样信号；i为圆阵中各圆周麦克风通道的编号，i＝1,2,3,4,5；θ为声源定位模块获得的声源方向角度；θd为圆阵第1个麦克风的固定方位角(本实施例中设置θd＝15度)；

Di代表第i个圆阵麦克风在声源角度θ下相对圆阵中心的时延值对应的采样点数；r为圆阵半径，本实施例中r＝0.1m；c为空气中的声速(本实施例中取340m/s)；fs为麦克风阵列语音信号的采样频率(单位为Hz，在本实施例中取16000Hz)；round()代表取整运算；

x_θ(k)为对应声源角度θ进行波束成形获得的初步增强信号。

由于本发明考虑的是远场条件下的语音信号，经过初步波束成形增强后的语音信噪比仍偏低，无法满足语音信号处理的要求。本发明实施例中的传输函数估计模块以波束成形获得的初步增强主波束信号作为参考信号，计算麦克风阵列各阵元与主波束信号之间的传输函数。麦克风阵列各麦克风信号与主波束信号之间的传输函数可以通过如下互相关计算获得：

其中：xθ(k)为对准声源方向θ波束成形获得的主波束信号，L为互相关计算窗长，本实施例中取L＝1800；l为互相关计算时主波束与第i个麦克风阵元信号之间的时延差，S为时延搜索范围，本实施例中取为900。

麦克风阵列各阵元与主波束信号之间的传输函数中包含了位于远场的声源到各阵元之间直达声以及不同路径反射声组成的分量，即麦克风阵列第i阵元与主波束信号之间的传输函数可近似视为由Pi个时延分别在dp，幅度分别为ap的直达及反射多径分量组成，如下式所示：

其中Pi为麦克风阵列第i通道语音传播过程中直达及反射多径分量的个数,p为各直达及多径分量的编号，p＝1,2,…,Pi，dp、ap分别为编号p的直达及反射多径分量对应的时延、幅度。

也即，各阵元接收信号xi(k)可以视为主波束信号与传输函数卷积后叠加噪声ni(k)的结果：

x_i(k)≈x_θ(k)*h_i(k)+n_i(k)

常规的麦克风阵列增强算法通常采用抑制多径反射声的方法来增强直达声信号，达到增强目的，但对于声源位于远场、语音信号信噪比极低的场合，单纯采用抑制多径反射来进行语音增强会导致性能下降。图4所示为声源位于6m距离的远场条件下，本发明实施例5元麦克风圆阵各阵元信号与对准声源方向主波束间的传输函数，从图中可以看出各阵元与主波束之间存在严重的反射分量，严重影响了对准声源方向的主波束语音的信噪比。

本发明提出的利用获得的麦克风阵列各阵元与主波束信号之间的传输函数进行多通道反射聚焦处理，具体处理过程为：首先对传输函数估计模块获取的传输函数hi(k)进行时间反转获得hi(-k)，然后对各阵元信号采用时间反转后的传输函数hi(-k)进行卷积运算，如下式所示：

x_i(k)*h_i(-k)＝x_θ(k)*h_i(k)*h_i(-k)+n_i(k)*h_i(-k)

其中的传输函数以其时间反转项的卷积可表示为：

即，传输函数hi(k)与其时间反转项hi(-k)进行卷积后得到把各反射分量的能量聚焦在起点时刻的多径聚焦项以及多径能量偏移到各个不同时刻的多径偏移项；进一步将各个阵元信号进行时间反转后叠加，则：

从上式可看出，多阵元进行时反处理后，各阵元多径能量均被从空间、时间域聚焦到传输函数中的同一时延处因而实现聚焦增强，而各阵元的多径偏移项在叠加后被随机化，可近似视为消失。

同时，各通道噪声分量时间反转后叠加形成等效噪声影响项：

因此，对多阵元接收信号进行时反处理后获得的是反射声分量的空间、时间聚焦项和等效噪声影响项mn(k)，如下式所示：

即，实现了利用麦克风阵列各阵元中的反射分量进行聚焦增强。如图5本发明实施例5元麦克风圆阵各阵元信号聚焦增强后与对准声源方向主波束间的传输函数，从图5可以看出，经过多阵元的聚焦增强后，各阵元反射分量实现了聚焦，与主波束的传输函数近似理想冲激函数，信号通过反射能量的聚焦得到明显增强。

考虑到本发明针对的远场语音场景，此时主波束语音信号信噪比低，因此在通过多通道聚焦处理增强后，本发明进一步采用自适应增强处理改善信噪比，具体自适应合并增强过程描述如下：

利用已知主波束信号x_θ(k)作为训练信号，多通道反射聚焦信号x_mf(k)作为输入信号，则适应增强的目的是构造一个L阶的增强波器系数W＝[w1w2w3w4……wL]，通过自适应算法(本实施例中L＝100，采用本领域通用的最小均方误差LMS自适应算法)以已知训练信号x_θ(k)作为目标信号进行系数W的自适应迭代学习，迭代学习的目的是使误差ek的均方最小：

W_k+1＝W_k+μ·e_k·R_k (1)

k＝1,2,...N

e_k＝x_θ(k)-x_out(k) (2)

R_k＝x_mf(k,k+1,...,k+L-1) (3)

其中u为自适应迭代的步长因子，算法收敛后的输出xout(k)为系统的最后增强语音输出。

本实施例中波束形成、传输函数估计、多通道聚焦、合并增强步骤均以软件编程的方式在处理器ARM9S3C2440中进行。

本发明公开的麦克风阵列远场语音增强置最大的特点在于，考虑远场语音的低信噪比和强烈反射，采用多通道反射聚焦处理对各麦克风阵元的反射声信号进行聚焦增强，相对于常规的麦克风阵列语音增强算法对反射声信号进行抑制处理，本发明公开的技术方案有利于充分利用反射声能量提高远场语音信噪比；在此基础上，进一步采用自适应增强对主波束信号和多阵元聚焦信号进行自适应迭代增强，进一步改善远场语音增强效果。

Claims

1.一种麦克风阵列远场语音增强装置，其特征在于设有：

合并增强模块，用于对波束对准和发射聚焦获得的语音进行合并增强；