CN101867853B

CN101867853B - 基于传声器阵列的语音信号处理方法及装置

Info

Publication number: CN101867853B
Application number: CN201010197159.9A
Authority: CN
Inventors: 何宏森; 黄志宏; 邱小军; 袁浩
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2010-06-08
Filing date: 2010-06-08
Publication date: 2014-11-05
Anticipated expiration: 2030-06-08
Also published as: CN101867853A; WO2011153904A1

Abstract

本发明公开了一种基于传声器阵列的语音信号处理方法，所述传声器阵列由两个以上的指向性传声器构成；所述方法包括：确定各指向性传声器接收的相同帧的语音信号的能量值；根据所述能量值确定所述相同帧的各语音信号的调整参数；根据各语音信号的调整参数确定语音信号中各取样点信号的权值，将各语音信号中各取样点信号与各自的权值相乘，并对各语音信号的对应取样点信号的乘积值进行累加，将累加后的取样点信号依次输出。本发明同时公开了一种基于传声器阵列的语音信号处理装置。本发明计算方式简单，不需要复杂的计算和电路，具有良好的抗混响和定向拾音功能。

Description

基于传声器阵列的语音信号处理方法及装置

技术领域

本发明涉及语音信号处理技术，尤其涉及一种基于传声器阵列的语音信号处理方法及装置。

背景技术

在会议场所，各种干扰源的存在以及混响等噪音干扰着语音信号，会使语音处理系统的性能急剧下降，因此语音增强技术颇为重要。基于传声器阵列的多通道语音增强算法融合了信号的时空域信息，利用噪声同语音的相关性差异进行消噪，近几年已经成为多媒体会议、通信、声控等系统所依赖的重要技术。音质和性能的好坏会严重影响音频会议系统的整体效果与市场竞争力，因此，针对噪声，目前常通过传声器阵列技术实现消噪，这使得音频会议系统的参与人员彻底摆脱手持传声器并定向到传声器的束缚，大大提高了音频会议系统的实用性。对语音信号处理而言，要争取使进入编码器的语音音质就比较好如低混响、低噪声等，传声器阵列就是保证语音信号的低混响、低噪声。

公开号为CN101496417A、公开日为2009年7月29日的中国专利申请公开了一种“语音会议系统”，在不同方向上的多个单向传声器拾取的语音采集信号形成多个语音采集束信号，其后，与语音到达方向相对应的语音采集束信号的信号电平变高，语音采集部分选择信号电平超过设定阈值的语音采集束信号，并将该信号送到通信部分。该技术方案中，超过阈值的语音采集束信号可能有多个，这样在小房间就会增加混响，使声音清晰度降低。

公开号为US20050195988A1、公开日为2005年9月8日的美国专利申请公开了一种“System and method for beamforming using a microphone array”，该技术方案是使用传声器阵列聚束的系统和方法，其技术方案的实质是设计了一个聚束器，该聚束器首先利用描述传声器阵列的特性和结构的参数信息来计算频域相关的权值矩阵，与一个或多个为传声器阵列周围环境自动生成或计算得到的噪声模型相结合，来对传声器阵列的最优固定波束进行设计，然后，在对传声器阵列接收的音频信号进行频域聚束处理时，利用此权值矩阵对传声器阵列中的每个传声器的输出进行频域加权。该方法需要根据阵列的特性和结构在频域计算加权矩阵，以达到形成波束的目的，增加了系统的复杂度，加大了系统的开发难度并且降低了系统的可靠性。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于传声器阵列的语音信号处理方法及装置，利用强指向性传声器阵列能将距发言人最近的语音信号进行放大，从而能动态跟踪发言人。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于传声器阵列的语音信号处理方法，所述传声器阵列由两个以上的指向性传声器构成；所述方法包括：

确定各指向性传声器接收的相同帧的语音信号的能量值；

根据所述能量值确定所述相同帧的各语音信号的调整参数；

根据各语音信号的调整参数确定语音信号中各取样点信号的权值，将各语音信号中各取样点信号与各自的权值相乘，并对各语音信号的对应取样点信号的乘积值进行累加，将累加后的取样点信号依次输出。

优选地，所述根据所述能量值确定所述相同帧的各语音信号的调整参数，为：

将所述相同帧的各语音信号的能量值分别与最大的能量值作商；

对各商值进行指数调整处理，并作为各语音信号的调整参数。

优选地，所述对各商值进行指数调整处理，并作为各语音信号的调整参数，为：

将各商值的E次方作为各语音信号的调整参数；其中，E为大于等于2小于等于10的正数。

优选地，所述根据各语音信号的调整参数确定语音信号中各取样点信号的权值，具体按下式计算：

w_i(n)＝λw_i(n-1)+(1-λ)C；其中，w_i(n)为传声器i中的当前语音信号帧中第n个取样点信号的权值，w_i(n-1)为传声器i中的当前语音信号帧中第n-1个取样点信号的权值；λ为预先设定的遗忘因子，0＜λ＜1；C为当前语音信号帧的调整参数。

优选地，所述根据各语音信号的调整参数确定语音信号中各取样点信号的权值，为：

w_i(n)＝λw_i(n-1)+(1-λ)C；其中，w_i(n)为传声器i中的当前语音信号帧中第n个取样点信号的初始权值，w_i(n-1)为传声器i中的当前语音信号帧中第n-1个取样点信号的初始权值；λ为预先设定的遗忘因子，0＜λ＜1；C为当前语音信号帧的调整参数；

按下式对w_i(n)进行处理，将作为传声器i中的当前语音信号帧中第n个取样点信号的最终权值：

其中，max()为取最大值计算。

优选地，所述传声器阵列为圆形阵列或球形阵列；所述传声器阵列中的传声器数量为4至16个。

一种基于传声器阵列的语音信号处理装置，所述传声器阵列由两个以上的指向性传声器构成；所述装置包括第一确定单元、第二确定单元、计算单元和输出单元；其中，

第一确定单元，用于确定各指向性传声器接收的相同帧的语音信号的能量值；

第二确定单元，用于根据所述能量值确定所述相同帧的各语音信号的调整参数；

计算单元，用于根据各语音信号的调整参数确定语音信号中各取样点信号的权值，将各语音信号中各取样点信号与各自的权值相乘，并对各语音信号的对应取样点信号的乘积值进行累加；

输出单元，用于将累加后的取样点信号依次输出。

优选地，所述第二确定单元进一步将所述相同帧的各语音信号的能量值分别与最大的能量值作商；并对各商值进行指数调整处理，作为各语音信号的调整参数。

优选地，所述第二确定单元进一步将各商值的E次方作为各语音信号的调整参数；其中，E为大于等于2小于等于10的正数。

优选地，所述计算单元进一步按下式计算语音信号中各取样点信号的权值：

优选地，所述计算单元进一步按下述方式计算语音信号中各取样点信号的权值：

其中，max()为取最大值计算。

优选地，所述传声器阵列为圆形阵列或球形阵列；所述传声器阵列中的传声器数量为3至16个。

本发明中，采用N个强指向性传声器构成圆形阵列，阵列的拾音覆盖360度方位；首先对强指向性传声器阵列中各传声器接收到的语音信号的能量值，通过语音信号的能量值信息，确定出各传声器接收到的当前语音帧的语音信号的调整参数，并利用该调整参数计算当前语音帧的各采样点信号的权值，将所计算出的权值与对应的采样点信号相乘，对相同位置的采样点信号的乘积进行累加，并按采样点的顺序依次输出。本发明利用传声器阵列中各传声器所接收语音信号的能量值来确定各路语音信号的调整参数，并利用遗忘因子对各采样点信号进行平滑处理，使得所输出的语音信号更连贯。本发明计算方式简单，不需要复杂的计算和电路，具有良好的抗混响和定向拾音功能。

附图说明

图1为本发明基于传声器阵列的语音信号处理方法的流程图；

图2为在混响室两个声源相互切换发声时，传声器阵列中各传声器拾取的语音信号语音帧的归一化能量变化关系的示意图；

图3为在混响室两个声源相互切换发声时，传声器阵列的输出信号中各通道语音帧所占的平均权重变化关系的示意图；

图4为在混响室两个声源同时发声时，传声器阵列中各传声器拾取的语音信号语音帧的归一化能量变化关系的示意图；

图5为在混响室两个声源同时发声时，传声器阵列的输出信号中各通道语音帧所占的平均权重变化关系的示意图；

图6为在普通房间两个声源相互切换发声时，传声器阵列中各传声器拾取的语音信号语音帧的归一化能量变化关系的示意图；

图7为在普通房间两个声源相互切换发声时，传声器阵列的输出信号中各通道语音帧所占的平均权重变化关系的示意图；

图8为在普通房间两个声源同时发声时，传声器阵列中各传声器拾取的语音信号语音帧的归一化能量变化关系的示意图；

图9为在普通房间两个声源同时发声时，传声器阵列的输出信号中各通道语音帧所占的平均权重变化关系的示意图；

图10为本发明基于传声器阵列的语音信号处理装置的组成结构示意图。

具体实施方式

本发明的基本思想为，采用N个强指向性传声器构成圆形阵列，阵列的拾音覆盖360度方位；对各传声器拾取的信号分帧计算能量，通过能量的比较，保持能量最大通道的语音信号幅度不变，而弱化其它通道的语音信号；语音信号的弱化程度受调整参数的控制；并且，为保证基于能量比较在各通道间进行切换时语音信号平稳自然无切换噪声，引入平滑机制-遗忘因子，将当前采样点和以前采样点的信号相结合来进行切换。

为使本发明的目的、技术方案和优点更加清楚明白，以下举实施例并参照附图，对本发明进一步详细说明。

本发明的方法中，传声器阵列中的传声器均为强指向性传声器，而非全向性传声器。所谓强指向性传声器，即该传声器能按指向进行语音信号的采集。强指向性传声器能有效降低进入各个传声器的混响强度；本发明正是利用强指向性传声器的指向性拾音特点，利用各传声器所拾取的相同语音帧的能量来确定各该相同语音帧中各语音信号中各采样点信号的权值，从而输出较佳的语音信号。本发明的传声器阵列采用圆周或球面布局，以对各方位的语音信号进行采集。本发明中，传声器阵列中的强指向性传声器的数量一般为3至16个，以在设定的圆周或球面上均匀分布，达到各个指向均有相应的传声器进行语音采集。圆周或球面的半径一般为3至20cm，各传声器振膜沿圆周或圆球的径向朝外。

基于传声器阵列，上述传声器阵列中第i(i＝1，2，...，N)个传声器接收的第k帧(帧长为L毫秒)采样信号如(1)式所示：

x_i(n)＝x_i((k-1)L+j)，j＝1，2，...，L (1)

图1为本发明基于传声器阵列的语音信号处理方法的流程图，如图1所示，本发明基于传声器阵列的语音信号处理方法具体包括如下步骤：

步骤101，计算第i(i＝1，2，...，N)个传声器接收的第k帧信号的能量。因正对声源的传声器所采集到的语音信号相对来说能量要强，通过语音信号的能量能进行声源方位的初步判断；所计算出的语音信号的能量值，同时也作为确定该传声器的语音信号处理的权重值的依据，将在以下步骤中对如何确定相应的权重值。第i(i＝1，2，...，N)个传声器接收的第k帧信号的能量值E_i(k)如式(2)所示：

E_{i} (k) = Σ_{j = 1}^{L} {| x_{i} ((k - 1) L + j) |}^{2} - - - (2)

本发明中，用于计算能量的各通道语音帧长度可取为400ms；通道间自适应切换的系统响应时间取为400ms。上述帧长由处理器的处理速度决定，也可以取其他的长度，如450ms或500ms等。

步骤102，以N个通道的第k帧信号的能量的最大值为基准，对式(2)所确定的能量值进行归一化处理。本步骤中，归一化处理即是将各个通道的第k帧信号的能量值转换到0至1之间的数值，以便于后续处理。归一化处理方式如式(3)所示，其中ε_i(k)为对E_i(k)的归一化处理结果。

ϵ_{i} (k) = \frac{E_{i} (k)}{\max (E_{1} (k), E_{2} (k), . . ., E_{N} (k))} - - - (3)

其中，max()为取最大值计算。

步骤103，根据第i(i＝1，2，...，N)个传声器接收的第k帧信号的归一化能量计算调整参数。确定调整参数的目的是使能量数值大的通道上的语音信号变得更大，而使能量数值小的通道上的语音信号变得更小，并依此拉大能量值较大语音信号与能量值较小语音信号之间的差异，这样可以更突出声源方向的信号，抑制其它方向的信号，使声音更清晰，混响更小。具体的，对于归一化后的能量值，对其分别进行幂运算。本步骤中，所选用的调整指数值为大于等于2小于等于10的正数。为方便运算及考虑到语音信号的差异量，调整指数一般选用4、5、6。调整参数h_i(k)的确定方式如式(4)所示：

h_i(k)＝[ε_i(k)]^α (4)

其中α称为调整指数，根据各通道语音帧的能量大小关系调整各通道信号在输出信号中所占的比重。

步骤104，计算阵列输出信号中第i(i＝1，2，...，N)个传声器采集的第n个采样点信号的权值；该权值的变化是根据每个采样点信号逐步计算得到的，具体的，第n个采样点信号的权值w_i(n)的确定方式如式(5)所示：

w_i(n)＝λw_i(n-1)+(1-λ)h_i(k) (5)

其中λ为遗忘因子，以平滑切换前后语音帧音量，避免语音信号的忽大忽小，并抑制切换时通道的语音帧能量变化太大所导致的切换噪声。λ为事先设定的参数，λ为大于0小于1的数，为保证语音信号的平滑性，λ为近于1的数，本发明中可设定λ＝0.9998；λ也可设定为其他值，如0.9996、0.9992、0.9990等值。具体取值由用户希望的平滑性来确定。

步骤105，对第i(i＝1，2，...，N)个传声器采集的信号的每个采样点的权值按其中的最大值进行归一化处理。这主要是为了使传声器阵列输出的能量最大通道的信号音量与能量最大的通道传声器采集的信号音量相等。对第i(i＝1，2，...，N)个传声器采集的信号的每个采样点信号的权值的归一化处理如式(6)所示：

{\hat{w}}_{i} (n) = \frac{w_{i} (n)}{\max (w_{1} (n), w_{2} (n), . . ., w_{N} (n))} - - - (6)

其中，max()为取最大值计算。

步骤106，计算传声器阵列的输出采样点信号，并依次输出。所输出的各采样点信号如式(7)所示：

s (n) = Σ_{i = 1}^{N} {\hat{w}}_{i} (n) x_{i} (n)

式(7)是将传声器阵列中各传声器相同帧的语音信号中的各采样点依次与所确定的对应权值进行相乘，并对各传声器的对应采样点信号进行累加，作为输出的采样点信号。

本发明中，实际工作中在进入本算法处理前的典型前端处理为，通过传声器将语音信号转化为电信号，经过放大以及模数转换进入数字信号处理器(DSP，Digital Signal Processor)处理。

以下以传声器阵列由4个传声器沿圆周均匀分布为例，说明各应用环境下语音信号处理结果。其中，圆周的半径为5cm，遗忘因子λ＝0.9998，调整指数α＝5.0。

图2为在混响室两个声源相互切换发声时，传声器阵列中各传声器拾取的语音信号语音帧的归一化能量变化关系的示意图，如图2所示，示出了在混响室两个声源相互切换发声时，采用本发明方法计算各传声器拾取的语音帧的能量后，传声器阵列中各传声器拾取的语音信号语音帧的归一化能量变化关系。

图3为在混响室两个声源相互切换发声时，传声器阵列的输出信号中各通道语音帧所占的平均权重变化关系的示意图，如图3所示，在混响室两个声源相互切换发声时，采用本发明方法计算各传声器拾取的语音帧能量后，传声器阵列的输出信号中各通道语音帧所占的平均权值变化关系，可以看出，本发明能根据各传声器拾音的语音帧能量大小而自动切换，并且切换过程自然稳定，各传声器拾取的语音信号经过本发明方法处理后，传声器阵列的输出语音信号音质流畅自然，混响大大降低。

图4为在混响室两个声源同时发声时，传声器阵列中各传声器拾取的语音信号语音帧的归一化能量变化关系的示意图，如图4所示，示出了在混响室两个声源同时发声时，采用本发明方法计算各传声器拾取的语音帧能量，传声器阵列中各传声器拾取的语音信号语音帧的归一化能量变化关系。

图5为在混响室两个声源同时发声时，传声器阵列的输出信号中各通道语音帧所占的平均权重变化关系的示意图，如图5所示，在混响室两个声源同时发声时，采用本发明方法计算各传声器拾取的语音帧能量，传声器阵列的输出信号中各通道语音帧所占的平均权重变化关系。可以看出，本发明能根据各传声器拾音的语音帧能量大小自动切换，并且切换过程自然稳定，各传声器拾取的语音信号经过本发明方法处理后，传声器阵列的输出语音信号音质流畅自然。

图6为在普通房间两个声源相互切换发声时，传声器阵列中各传声器拾取的语音信号语音帧的归一化能量变化关系的示意图，如图6所示，示出了在普通房间两个声源相互切换发声时，采用本发明方法计算各传声器拾取的语音帧能量，传声器阵列中各传声器拾取的语音信号语音帧的归一化能量变化关系。

图7为在普通房间两个声源相互切换发声时，传声器阵列的输出信号中各通道语音帧所占的平均权重变化关系的示意图，如图7所示，在普通房间两个声源相互切换发声时，采用本发明方法计算各传声器拾取的语音帧能量，传声器阵列的输出信号中各通道语音帧所占的平均权重变化关系。可以看出，本发明能根据各传声器拾音的语音帧能量大小而自动切换，并且切换过程自然稳定，各传声器拾取的语音信号经过本发明方法处理后，传声器阵列的输出语音信号音质流畅自然，混响降低。

图8为在普通房间两个声源同时发声时，传声器阵列中各传声器拾取的语音信号语音帧的归一化能量变化关系的示意图，如图8所示，在普通房间两个声源同时发声时，采用本发明计算各传声器拾取的语音帧能量，传声器阵列中各传声器拾取的语音信号语音帧的归一化能量变化关系；

图9为在普通房间两个声源同时发声时，传声器阵列的输出信号中各通道语音帧所占的平均权重变化关系的示意图，如图9所示，在普通房间两个声源同时发声时，采用本发明计算各传声器拾取的语音帧能量，传声器阵列的输出信号中各通道语音帧所占的平均权重变化关系。可以看出，本发明能根据各传声器拾音的语音帧能量大小自动切换，并且切换过程自然稳定，各传声器拾取的语音信号经过本发明的方法处理后，传声器阵列的输出语音信号音质流畅自然。

通过以上步骤处理的语音信号可以以数字信号的方式输出，也可以数模转换后模拟信号输出。

图10为本发明基于传声器阵列的语音信号处理装置的组成结构示意图，如图10所示，所述装置包括第一确定单元100、第二确定单元101、计算单元102和输出单元103；其中，

第一确定单元100，用于确定各指向性传声器接收的相同帧的语音信号的能量值；

第二确定单元101，用于根据所述能量值确定所述相同帧的各语音信号的调整参数；

计算单元102，用于根据各语音信号的调整参数确定语音信号中各取样点信号的权值，将各语音信号中各取样点信号与各自的权值相乘，并对各语音信号的对应取样点信号的乘积值进行累加；

输出单元103，用于将累加后的取样点信号依次输出。

本发明中，传声器阵列由两个以上的指向性传声器构成。

上述第二确定单元101进一步将所述相同帧的各语音信号的能量值分别与最大的能量值作商；并对各商值进行指数调整处理，作为各语音信号的调整参数。

上述第二确定单元101进一步将各商值的E次方作为各语音信号的调整参数；其中，E为大于等于2小于等于10的正数。

上述计算单元102进一步按下式计算语音信号中各取样点信号的权值：

上述计算单元102进一步按下述方式计算语音信号中各取样点信号的权值：

其中，max()为取最大值计算。

上述传声器阵列为圆形阵列或球形阵列；所述传声器阵列中的传声器数量为3至16个。

本领域技术人员应当理解，图10所示的基于传声器阵列的语音信号处理装置是为实现前述的基于传声器阵列的语音信号处理方法而设计的，图10所示装置中各处理单元的功能可参照前述方法的描述而理解，各处理单元的功能可通过运行于处理器上的程序而实现，也可通过具体的逻辑电路而实现。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种基于传声器阵列的语音信号处理方法，其特征在于，所述传声器阵列由两个以上的指向性传声器构成；所述方法包括：

确定各指向性传声器接收的相同帧的语音信号的能量值；

根据所述能量值确定所述相同帧的各语音信号的调整参数；

根据各语音信号的调整参数确定语音信号中各取样点信号的权值，将各语音信号中各取样点信号与各自的权值相乘，并对各语音信号的对应取样点信号的乘积值进行累加，将累加后的取样点信号依次输出；其中，

所述根据各语音信号的调整参数确定语音信号中各取样点信号的权值，具体按w_i(n)＝λw_i(n-1)+(1-λ)C计算；其中，w_i(n)为传声器i中的当前语音信号帧中第n个取样点信号的权值，w_i(n-1)为传声器i中的当前语音信号帧中第n-1个取样点信号的权值；λ为预先设定的遗忘因子，0<λ<1；C为当前语音信号帧的调整参数。

2.根据权利要求1所述的方法，其特征在于，所述根据所述能量值确定所述相同帧的各语音信号的调整参数，为：

3.根据权利要求2所述的方法，其特征在于，所述对各商值进行指数调整处理，并作为各语音信号的调整参数，为：

4.根据权利要求1所述的方法，其特征在于，所述根据各语音信号的调整参数确定语音信号中各取样点信号的权值，为：

w_i(n)＝λw_i(n-1)+(1-λ)C；其中，w_i(n)为传声器i中的当前语音信号帧中第n个取样点信号的初始权值，w_i(n-1)为传声器i中的当前语音信号帧中第n-1个取样点信号的初始权值；λ为预先设定的遗忘因子，0<λ<1；C为当前语音信号帧的调整参数；

按下式对w_i(n)进行处理，并将作为传声器i中的当前语音信号帧中第n个取样点信号的最终权值：

{\hat{w}}_{i} (n) = \frac{w_{i} (n)}{\max (w_{1} (n), w_{2} (n), \cdot \cdot \cdot, w_{N} (n))},

其中，max()为取最大值计算。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述传声器阵列为圆形阵列或球形阵列；所述传声器阵列中的传声器数量为3至16个。

6.一种基于传声器阵列的语音信号处理装置，其特征在于，所述传声器阵列由两个以上的指向性传声器构成；所述装置包括第一确定单元、第二确定单元、计算单元和输出单元；其中，

计算单元，用于根据各语音信号的调整参数确定语音信号中各取样点信号的权值，将各语音信号中各取样点信号与各自的权值相乘，并对各语音信号的对应取样点信号的乘积值进行累加；其中，所述所述计算单元进一步按w_i(n)＝λw_i(n-1)+(1-λ)C计算语音信号中各取样点信号的权值；其中，w_i(n)为传声器i中的当前语音信号帧中第n个取样点信号的权值，w_i(n-1)为传声器i中的当前语音信号帧中第n-1个取样点信号的权值；λ为预先设定的遗忘因子，0<λ<1；C为当前语音信号帧的调整参数；

输出单元，用于将累加后的取样点信号依次输出。

7.根据权利要求6所述的装置，其特征在于，所述第二确定单元进一步将所述相同帧的各语音信号的能量值分别与最大的能量值作商；并对各商值进行指数调整处理，作为各语音信号的调整参数。

8.根据权利要求7所述的装置，其特征在于，所述第二确定单元进一步将各商值的E次方作为各语音信号的调整参数；其中，E为大于等于2小于等于10的正数。

9.根据权利要求6所述的装置，其特征在于，所述计算单元进一步按下述方式计算语音信号中各取样点信号的权值：

{\hat{w}}_{i} (n) = \frac{w_{i} (n)}{\max (w_{1} (n), w_{2} (n), \cdot \cdot \cdot, w_{N} (n))},

其中，max()为取最大值计算。

10.根据权利要求6至9任一项所述的装置，其特征在于，所述传声器阵列为圆形阵列或球形阵列；所述传声器阵列中的传声器数量为3至16个。