CN110495185B

CN110495185B - 语音信号处理方法及装置

Info

Publication number: CN110495185B
Application number: CN201880000268.1A
Authority: CN
Inventors: 朱虎; 王鑫山; 李国梁; 杨柯; 郭红敬
Original assignee: Shenzhen Goodix Technology Co Ltd
Current assignee: Shenzhen Goodix Technology Co Ltd
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2022-07-01
Anticipated expiration: 2038-03-09
Also published as: CN110495185A; WO2019169616A1

Abstract

本发明实施例提供了一种语音信号处理方法及装置，其中，语音信号处理方法包括：获取语音信号相对于麦克风阵列的角度位置，其中，所述角度位置包括所述语音信号相对于所述麦克风阵列的方位角和俯仰角；根据所述角度位置，确定所述语音信号的声源方向的方向向量；根据所述方向向量，对所述语音信号进行卡尔曼滤波处理；根据所述卡尔曼滤波处理的处理结果，进行语音信号跟踪。本发明实施例提供的语音信号处理方案应用于移动场景中语音信号的快速处理时，可以获得较好的处理效果。

Description

语音信号处理方法及装置

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种语音信号处理方法及装置。

背景技术

随着人工智能技术的快速发展，语音信号处理作为人机交互研究中的一个重要环节，已经成为国内外科技巨头研究的热点。

在各种语音交互设备中(如数字助听器、多媒体系统、移动机器人等)，由于声源在移动过程中的物理位置会发生变化，导致麦克风阵列的波束指向偏离声源，造成降噪性能降低。为了能实时达到最佳的语音效果，需要麦克风阵列在接收语音的过程中波束始终对准目标声源，削弱非目标声源的影响，如削弱非目标说话人的语音及背景噪声。为此，一些方案，如采用运动图像跟踪的方法或基于高分辨率谱估计、基于时延估计等定位算法与粒子滤波跟踪算法相结合的方式，被应用于语音信号处理。

然而，这些方案因算法自身收敛速度较慢或计算复杂度较高的特性，无法适应移动场景中语音信号的快速处理，如快速定位和跟踪，从而使得移动场景中的语音信号处理效果欠佳。

发明内容

本发明实施例提供一种语音信号处理方法及装置，以解决现有技术的语音信号处理方案应用于移动场景中语音信号的快速处理时，处理效果较差的问题。

根据本发明实施例的一个方面，提供了一种语音信号处理方法，包括：获取语音信号相对于麦克风阵列的角度位置，其中，所述角度位置包括所述语音信号相对于所述麦克风阵列的方位角和俯仰角；根据所述角度位置，确定所述语音信号的声源方向的方向向量；根据所述方向向量，对所述语音信号进行卡尔曼滤波处理；根据所述卡尔曼滤波处理的处理结果，进行语音信号跟踪。

根据本发明实施例的另一个方面，提供了一种语音信号处理装置，包括：角度获取模块，用于获取语音信号相对于麦克风阵列的角度位置，其中，所述角度位置包括所述语音信号相对于所述麦克风阵列的方位角和俯仰角；方向确定模块，用于根据所述角度位置，确定所述语音信号的声源方向的方向向量；滤波模块，用于根据所述方向向量，对所述语音信号进行卡尔曼滤波处理；跟踪模块，用于根据所述卡尔曼滤波处理的处理结果，进行语音信号跟踪。

通过本发明实施例提供的方案，根据语音信号相对于麦克风阵列的角度位置，对语音信号进行卡尔曼滤波处理，进而根据卡尔曼滤波处理的处理结果进行语音信号跟踪。卡尔曼滤波在每次进行滤波处理时，仅以前次滤波结果和偏差进行本次的估计，无需对其它数据进行处理，因而具有较快的运行速度。卡尔曼滤波是一种线性滤波，需要根据滤波对象的位置信息和速度信息生成状态向量，但麦克风阵列接收的语音信号的位置信息和速度信息无法满足卡尔曼滤波的线性滤波要求，因此，本发明实施例中，将语音信号的角度位置转换为能够满足线性滤波要求的声源方向的方向向量，以进行卡尔曼滤波，获得移动场景中下一时刻语音信号的估计位置，以进行语音跟踪。

可见，将本发明实施例提供的语音信号处理方案应用于移动场景中语音信号的快速处理时，可以获得较好的处理效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例一的一种语音信号处理方法的步骤流程图；

图2为图1所示实施例中的一种语音信号相对于麦克风阵列的角度位置的示意图；

图3为根据本发明实施例二的一种语音信号处理方法的步骤流程图；

图4为根据本发明实施例三的一种语音信号处理方法的步骤流程图；

图5为根据本发明实施例四的一种语音信号处理装置的结构框图；

图6为根据本发明实施例五的一种语音信号处理装置的结构框图；

图7为根据本发明实施例六的一种语音信号处理系统的结构示意图。

具体实施方式

为使得本发明实施例的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明实施例一部分实施例，而非全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明实施例保护的范围。

实施例一

参照图1，示出了根据本发明实施例一的一种语音信号处理方法的步骤流程图。

步骤S102：获取语音信号相对于麦克风阵列的角度位置。

其中，所述角度位置包括语音信号相对于麦克风阵列的方位角和俯仰角。

麦克风阵列是由一定数目的声学传感器，通常为麦克风，组成的阵列结构，用来对接收到的来自空间不同方向的语音信号进行采样并处理。在语音通信中，语音信号的特征主要体现在时域和频域两方面，但麦克风阵列在时域和频域的基础上增加一个空间域，对接收到的来自空间不同方向的语音信号进行空时处理。麦克风阵列接收原始模拟语音信号并进行例如加权、时延、求和等的处理后形成空间指向性的波束，即麦克风阵列的波束。本发明实施例中，语音信号相对于麦克风阵列的角度位置可以理解为麦克风阵列的波束的指向方向。

麦克风阵列具有均匀线阵、均匀面阵、均匀圆阵、任意离散阵列等多种阵列拓扑结构，本发明实施例中，麦克风阵列可以采用均匀面阵或均匀圆阵拓扑结构。

基于该种结构，不同方向的语音信号相对于该麦克风阵列具有方位角和俯仰角。如图2所示，在三维坐标系XYZ中，设定Z轴方向为麦克风阵列的法线方向，XOY平面为麦克风阵列所在平面，语音信号的来波方向即声源方向与麦克风阵列法线方向的夹角θ为语音信号相对于麦克风阵列的俯仰角，语音信号的来波方向即声源方向在麦克风阵列所在平面内投影与X轴的夹角

为语音信号相对于麦克风阵列的方位角。

步骤S104：根据所述角度位置，确定语音信号的声源方向的方向向量。

在获取了语音信号相对于麦克风阵列的方位角和俯仰角后，即可确定语音信号相对于麦克风阵列的声源方向，为便于后续进行卡尔曼滤波处理，本步骤中，通过方向向量指示语音信号的声源方向。其中，方向向量可以采用任意适当的形式，包括但不限于方向余弦向量。

步骤S106：根据所述方向向量，对语音信号进行卡尔曼滤波处理。

卡尔曼滤波是一种线性滤波，需要根据滤波对象的位置信息和速度信息生成状态向量，但麦克风阵列接收的语音信号的角度位置和速度无法满足卡尔曼滤波的线性滤波要求，因此，需要将语音信号的角度位置转换为能够满足线性滤波要求的声源方向的方向向量，再进行卡尔曼滤波。

步骤S108：根据卡尔曼滤波处理的处理结果，进行语音信号跟踪。

通过卡尔曼滤波，可以获得移动场景中下一时刻语音信号的估计位置，以进行语音信号跟踪。卡尔曼滤波用于预估下一时刻的语音信号的位置，其中，下一时刻的具体时间根据语音信号的跟踪周期确定，跟踪周期可以由本领域技术人员根据实际情况适当设置，能够保证语音信号的短时平稳即可，例如，可以设置为10ms(毫秒)。

通过本实施例，根据语音信号相对于麦克风阵列的角度位置，对语音信号进行卡尔曼滤波处理，进而根据卡尔曼滤波处理的处理结果进行语音信号跟踪。卡尔曼滤波在每次进行滤波处理时，仅以前次滤波结果和偏差进行本次的估计，无需对其它数据进行处理，因而具有较快的运行速度。卡尔曼滤波是一种线性滤波，需要根据滤波对象的位置信息和速度信息生成状态向量，但麦克风阵列接收的语音信号的角度位置和速度信息无法满足卡尔曼滤波的线性滤波要求，因此，本发明实施例中，将语音信号的角度位置转换为能够满足线性滤波要求的声源方向的方向向量，以进行卡尔曼滤波，获得移动场景中下一时刻语音信号的估计位置，以进行语音跟踪。

可见，将本实施例提供的语音信号处理方案应用于移动场景中语音信号的快速处理时，可以获得较好的处理效果。

实施例二

参照图3，示出了根据本发明实施例二的一种语音信号处理方法的步骤流程图。

本实施例的语音信号处理方法包括以下步骤：

步骤S202：对麦克风阵列接收的音频信号进行语音信号搜索。

一个麦克风阵列通常由多个子阵构成，本实施例中，以4路子阵构成的麦克风阵列为例，对本发明实施例提供的语音信号处理方法进行说明，其它数量子阵的麦克风阵列可参照本实施例实现。如实施例一中所述，本实施例中的麦克风阵列可采用均匀面阵或均匀圆阵拓扑结构。

麦克风阵列接收的音频信号可能包含有语音信号也可能不包含语音信号(如完全为背景噪声的信号)，而对语音信号进行处理或跟踪的前提是需要搜索到语音信号。初始时，可以根据引导信息确定麦克风阵列接收的音频信号对应的搜索区域的中心波相位；从中心波相位开始进行语音信号搜索。引导信息是麦克风阵列所在设备用于确定声源的初始波束指向的信息，该引导信息中通常包含有声源的大致空间位置的信息。接收的音频信号对应的搜索区域表现为不同信号的麦克风阵列波束构成的区域。也即，中心波相位在初始时由引导信息给出，在进行语音搜索时，从中心波相位开始，先对中心波相位对应的中心波束进行语音搜索，若搜索到语音信号，则结束搜索，若未搜索到语音信号，则确定下一个波束进行语音搜索，其中，可以基于中心波束进行波位位移，以位移后的波束作为下一个进行语音搜索的波束。对中心波束的波位位移可以从上、下、左、右等多个方向进行位移，下一个波束的确定可以随机，即随机确定向左还是向右，向上还是向下进行位移。

在一种可行方式中，语音信号搜索可以通过波束能量检测的方式实现，也即，从中心波相位开始，对中心波相位对应的中心波束进行波束能量检测；若根据检测结果确定搜索到语音信号，则结束语音信号搜索；若根据检测结果确定未搜索到语音信号，则对中心波束进行波位位移，继续对位移后的波束进行波束能量检测。

其中，波束能量检测包括：针对麦克风阵列的每个子阵，获取当前波束下，当前子阵的语音信号与所有子阵的语音信号的相关度；根据所述相关度，获取当前波束对应的波束能量；根据波束能量与设定的噪声门限的关系，确定是否在当前波束搜索到语音信号。其中，噪声门限可以由本领域技术人员根据实际需求适当设定，例如，可以根据无语音仅有背景噪声时的波束能量设定。因麦克风阵列的每个子阵接收到的噪声互不相关，因此通过各个子阵之间的相关度进行各个子阵之间的互相关处理，可以提高接收的语音信号的信噪比，以实现语音信号的更为有效的检测。

步骤S204：对搜索到的语音信号进行语音捕获，根据语音捕获的结果确定语音信号相对于麦克风阵列的初始角度位置。

对搜索到的语音信号进行语音捕获可以采用任意适当的声源定位算法实现，本实施例中采用基于可控波束形成的声源定位算法。该算法基于声源位置的角度余弦在一定范围内与麦克风阵列的波束幅值差值比成线性关系来计算声源的角度余弦，从而获得声源的位置信息。但不限于此，其它声源定位算法也同样适用，如基于时延估计的声源定位算法、基于高分辨力谱估计的定位算法和SRP-PHAT(基于联合可控响应功率和相位变换)声源定位算法，等等。通过语音捕获，可以获取到语音信号相对于麦克风阵列的初始角度位置。

为确保语音捕获的有效性，可选地，可以先对搜索到的语音信号进行虚警检测，若未发生虚警，则对搜索到的语音信号进行语音捕获。由于噪声总是客观存在的，当噪声信号的幅度超过检测门限时，检测系统就会误认为发现目标，这种错误称为“虚警”。通过虚警检测，可以进一步确定搜索到的语音信号的有效性，提高后续语音捕获的有效性和准确性。

在对搜索到的语音信号进行语音捕获后，即可获取捕获到的语音信号相对于麦克风阵列的初始角度位置，即，捕获到的语音信号相对于麦克风阵列的方位角和俯仰角。

步骤S206：根据初始角度位置判断是否进行语音信号跟踪，若是，则执行步骤S208；若否，则返回步骤S204。

在捕获到语音信号并确定了其初始角度位置后，一种可行方式中，可以直接使用该初始角度位置，将其转换为声源方向的方向向量后使用卡尔曼滤波进行语音信号跟踪。但可选地，还可以根据该初始角度位置判断是否进入语音信号跟踪流程，并在确定能够进行语音信号跟踪后，进入语音信号跟踪流程，例如，根据初始角度位置，确定捕获到的语音信号的方向余弦向量；将该方向余弦向量作为卡尔曼滤波的观测向量，对捕获到的语音信号进行卡尔曼滤波处理；获取卡尔曼滤波处理的新息过程，若该新息过程小于或等于设定门限值，则确定进行语音信号跟踪。其中，新息过程是通过卡尔曼滤波获得的预测值与实际测量值之差，门限值可以由本领域技术人员根据实际需求适当设定，如根据麦克风阵列的波束宽度设定等。具体到本实施例，可以将捕获到的语音信号经卡尔曼滤波处理后的方位角的角度余弦残差和俯仰角的角度余弦残差与设定门限值进行比对，其中，设定门限值可以为1/6的麦克风阵列的波束宽度，当两个角度余弦残差均小于该设定门限值时，进行语音信号跟踪，否则可以返回继续进行前述语音捕获过程。由此，可以进一步确保进行语音信号跟踪的有效性和准确性。

步骤S208：根据初始角度位置确定麦克风阵列的波束指向，根据所述波束指向进行语音信号的跟踪定位，根据跟踪定位结果获取下一时刻语音信号相对于麦克风阵列的角度位置。

在语音信号跟踪过程中，初始时，语音信号相对于麦克风阵列的角度位置为所述初始角度位置，后续角度位置根据卡尔曼滤波处理(跟踪定位)的结果确定。也即，麦克风阵列的初始波束指向由捕获过程获得的初始角度位置确定，后续的波束指向根据卡尔曼滤波处理预测的角度位置确定。其中，下一时刻根据跟踪周期确定，跟踪周期可以由本领域技术人员根据实际情况适当设置，能够保证语音信号的短时平稳即可，例如，可以设置为10ms(毫秒)。如，当前时刻为0分0秒0毫秒，开始语音信号的跟踪，此刻使用初始角度位置确定当前波束指向，同时根据该初始角度位置进行本发明实施例中的卡尔曼滤波处理，获得0分0秒10毫秒时的角度位置。

步骤S210：根据下一时刻的所述角度位置，确定语音信号的声源方向的方向向量。

本实施例中，根据步骤S208中获取的下一时刻语音信号相对于麦克风阵列的角度位置，确定语音信号的方向余弦向量，将所述方向余弦向量确定为语音信号的声源方向的方向向量。但不限于此，其它方向向量，如方向正弦向量，或者基于其它坐标系的类似方向向量等也同样适用。

当语音信号相对于麦克风阵列的俯仰角为θ，方位角为

时，语音信号的方向余弦向量可以表示为：

步骤S212：根据所述方向向量，对语音信号进行卡尔曼滤波处理。

在获得了语音信号的方向余弦向量后，可以将该语音信号的方向余弦向量作为卡尔曼滤波的观测向量；根据所述观测向量，对语音信号进行卡尔曼滤波处理。

卡尔曼滤波用反馈控制的方式估计过程状态，其先估计过程某一时刻的状态，然后以含噪声的测量变量的方式获得反馈。卡尔曼滤波的过程分为两部分：状态模型部分和观测模型部分。其中，状态模型是反映状态变化规律的模型，通过状态方程来描写相邻时刻的状态转移变化规律；观测模型反映了实际观测量与状态变量之间的关系。卡尔曼滤波通过上述两部分得到滤波对象的状态最优估计。本发明实施例中，采用标准卡尔曼滤波，其处理过程包括：建立状态模型(状态方程)和观测模型(观测方程)；对状态模型和观测模型设定参数；使用状态模型，根据第n-1时刻的状态预测第n时刻的状态；使用观测模型，根据第n-1时刻的系统预测误差估计第n时刻的系统预测误差；计算卡尔曼滤波的新息过程；根据预测的第n时刻的状态和新息过程，计算系统最优估算值；计算系统当前时刻的系统预测误差。

具体到本步骤，在获得了语音信号的方向余弦向量后，根据该方向余弦向量以及方向余弦的变化速度，可以确定卡尔曼滤波的状态向量、状态方程及观测方程；进而，在状态预测过程中，可以根据状态方程预估下一时刻语音信号的状态向量，在观测过程中，可以通过观测方程获得语音信号方向余弦的新息过程；根据预估的状态向量和新息过程，可以获得下一语音信号的最优位置估计，即最优方向余弦向量；然后，根据该最优方向余弦向量，可确定下一时刻语言信号相对于麦克风阵列的角度位置。

步骤S214：根据卡尔曼滤波处理的处理结果，进行语音信号跟踪。

在一种可行方式中，基于所述语音信号的方向余弦向量，可以根据卡尔曼滤波处理后获得下一时刻的语音信号的方向余弦预测向量，获取语音信号相对于麦克风阵列的角度位置预测值；根据角度位置预测值进行语音信号跟踪。也即，可以根据角度位置预测值自动调整麦克风阵列的波束指向，得到下一时刻麦克风阵列的波束预测指向方向，从而完成语音信号跟踪。

在根据所述角度位置预测值进行语音信号跟踪时，一种可行方式中，可以将所述角度位置预测值作为麦克风阵列接收的下一时刻的语音信号的波束指向，返回步骤S208继续执行。也即，该种方式中，以预测的下一时刻的语音信号的角度位置为中心，进行语音信号的再次定位，以对卡尔曼滤波获得的角度位置进行校正，以校正后的更为精准的角度位置进行后续语音跟踪。通过这种方式，使得语音跟踪更为精准和高效。

在另一种可行方式中，可以将角度位置预测值直接作为下一时刻的语音信号相对于麦克风阵列的角度位置，并返回步骤S210执行。也即，该种方式中，直接使用预测的下一时刻语音信号的角度位置进行语音信号跟踪，这种方式的语音信号跟踪较为快速。

此外，在语音信号跟踪过程中，可能出现语音信号闪烁或丢失的情况，对这种情况的处理可以采用以下方式：在语音信号跟踪的过程中，若根据下一时刻语音信号相对于麦克风阵列的角度位置，跟踪语音信号失败(如卡尔曼滤波处理预测出的角度位置与实际角度位置的偏差大于设定值，其中，该设定值与本领域技术人员根据实际需求设定)，则使用对前次语音信号进行卡尔曼滤波处理的卡尔曼滤波系数，再次根据卡尔曼滤波处理的处理结果，进行语音信号跟踪。也即，当出现语音信号闪烁或丢失时，保持上一语音信号的卡尔曼滤波系数不变，基于上一语音信号的预测结果再次进行跟踪。若进行该处理N次后，仍然无法跟踪到语音信号，则确定语音信号丢失，否则，认为语音信号出现了闪烁。其中，N可以由本领域技术人员根据实际需要适当设定，本发明实施例对此不作限制。

可选地，可以根据卡尔曼滤波处理中的新息过程，确定跟踪语音信号失败。例如，当获取的新息过程超过设定阈值则判定当前的语音信号的位置为野值，当野值连续出现N次，则确定语音信号丢失，中断语音跟踪，转而进行语音信号搜索，从步骤S202开始重新执行。

通过本实施例，根据语音信号相对于麦克风阵列的角度位置，对语音信号进行卡尔曼滤波处理，进而根据卡尔曼滤波处理的处理结果进行语音信号跟踪。卡尔曼滤波在每次进行滤波处理时，仅以前次滤波结果和偏差进行本次的估计，无需对其它数据进行处理，因而具有较快的运行速度。卡尔曼滤波是一种线性滤波，需要根据滤波对象的位置信息和速度信息生成状态向量，但麦克风阵列接收的语音信号的位置信息和速度信息无法满足卡尔曼滤波的线性滤波要求，因此，本发明实施例中，将语音信号的角度位置转换为能够满足线性滤波要求的声源方向的方向向量，以进行卡尔曼滤波，获得移动场景中下一时刻语音信号的估计位置，以进行语音跟踪。

实施例三

参照图4，示出了根据本发明实施例三的一种语音信号处理方法的步骤流程图。

本实施例以一个具体实例的形式，对本发明提供的语音信号处理方案进行说明。

本实施例的语音信号处理方法包括以下步骤：

步骤S302：对麦克风阵列接收的音频信号进行预处理。

本实施例中，麦克风阵列划分为4路子阵，从嘈杂的环境中接收原始声音，转换成4路模拟音频信号。由于4个子阵的位置不同，如均匀面阵的常规子阵位置或者均匀圆阵的上下左右四个位置，声音到达每个子阵之间的时间会存在差别，所以得到4路模拟音频信号存在相位差。

将4路模拟音频信号转换为数字音频信号，例如，通过前置放大器、带通滤波器和模数转换装置，将得到的4路模拟音频信号转换成含有相位信息的4路数字音频信号。然后，对4路数字音频信号进行数据缓存、信号预加重、加窗处理。

通过对音频信号的预处理，可以提高后续语音信号搜索、定位及跟踪的效率。

步骤S304：搜索语音信号。

进行语音信号搜索时，首先需要确定当前搜索的中心位置，即中心波相位，然后再基于该中心位置，按照一定的波相位排列顺序进行不同波束的语音搜索。

具体地，麦克风阵列所在设备首次启动时，会根据引导信息进行初始化。此时，搜索的中心波相位由引导信息给出。本实施例中，基于中心波相位对应的中心波束，设置了五个波束，即：中心波相位对应的中心波束、中心波束左移半个波束宽度后的波束、中心波束右移半个波束宽度后的波束、中心波束上移半个波束宽度后的波束、和中心波束下移半个波束宽度后的波束。本实施例中，以半个波束宽度为单位进行波位位移，但不限于此，在实际应用中，本领域技术人员也可以以其它适当单位基于中心波束进行波位位移，获得不同的波束。

基于设置的五个波束，先从中心波相位对应的中心波束开始进行语音搜索，若在该波束未搜索到语音信号，则从其它四个波束中再选择一个波束(如随机选择一个，或按顺时针顺序选择一个等，本发明实施例对选择的顺序不作限制)进行语音搜索。若任一波束搜索到语音信号时，则结束语音搜索，转入步骤S306进行语音信号的捕获。若五个波束均未搜索到语音信号，则重新获取引导信息，根据重新获取的引导信息调整和确定下一个待搜索的中心波相位。此外，如果重新获取的引导信息发生了更新，则根据新的引导信息确定下一个待搜索的中心波相位；如果重新获取的引导信息没有发生更新，则可以自动调整中心波相位，扩大搜索范围。

在上述语音搜索过程中，对每个波束的语音搜索可以通过对波束的波束能量检测实现。本实施例中，对每个波束的波束能量检测包括以下过程：

(1)计算当前波束指向下，每个子阵的语音信号与麦克风阵列的所有子阵的语音信号的相关度。

以子阵1(可以为麦克风阵列的4个子阵中的任意一个)为例，则麦克风阵列的4个子阵的语音信号与子阵1的语音信号的相关度为：

其中，i表示子阵序号，本实施例中从1到4；N表示对当前语音帧的语音信号的采样个数；y_i(n)表示第i个子阵接收的带噪语音信号；y₁*(n)表示y₁(n)的共轭。以此类推，当以其它子阵为基准时，其它子阵与麦克风阵列的4个子阵的语音信号的相关度可采用与上式类似的公式实现。

可见，通过上述公式获得子阵1与麦克风阵列的4个子阵的相关度R₁₁、R₁₂、R₁₃和R₁₄。

(2)将以上4个相关度看作4个子阵的语音信号的复幅度，合成后得到麦克风阵列的当前波束接收的复幅度F_Σ，即波束能量。

F_Σ＝R₁₁+R₁₂+R₁₃+R₁₄

(3)将没有语音只有背景噪声时的复幅度作为噪声门限，即：

其中n_i(n)表示第i个子阵接收的没有语音信号的纯噪声信号；n₁*(n)表示n₁(n)的共轭。则，判断当前波束是否搜索到语音信号的条件如下：

其中，k₁为放大系数，1＜k₁≤2.5，可选地，k₁为2。

步骤S306：对搜索到的语音信号进行捕获。

本实施例中，首先对搜索到的语音信号的波束方向进行一次重复检测，以确定搜索过程是否发生虚警。若发生虚警，则返回步骤S304重新进行语音信号搜索；若未发生虚警，仍然检测出语音信号，则认为搜索到的语音信号有效，计算出该语音信号相对于麦克风阵列的角度

以进行语音信号的捕获，其中，θ为俯仰角，

为方位角。本实施例中，采用可控的波束形成算法进行语音捕获，该算法基于声源位置的角度余弦在一定范围内与麦克风阵列的波束幅值差值比成线性关系来计算声源的角度余弦，从而获得声源的位置信息。

具体地，语言信号相对于麦克风阵列的方向余弦表示为：

角度余弦坐标系下，假设检测出语音信号的中心波束，本实例中为波束5的指向为(α₅,β₅)＝(α₀,β₀)。其中，(α₀，β₀)为步骤S304搜索到的语音信号对应的波束的指向。以波束5为中心，沿α坐标方向左右各偏移该方向的半个波束宽度，形成波束1和波束2，两波束指向分别为

(α₁,β₁)＝(α₀-α_3dB/2,β₀)

(α₂,β₂)＝(α₀+α_3dB/2,β₀)

同理，波束3和波束4的指向分别为：

(α₃,β₃)＝(α₀,β₀-β_3dB/2)

(α₄,β₄)＝(α₀,β₀+β_3dB/2)

对5个波束方位分别进行接收信号合成，可以得到5个方位的和波束复幅度F_Σ1～F_Σ5。按下式求取α和β方向的误差电压，获得相应的波束之间的幅值差：

分别记α_t＝α-α₀，β_t＝β-β₀为语音信号偏离中心波束指向的角度余弦值，在一定范围内角误差信号uα与α_t、u_β与β_t近似成线性关系，即：

其中斜率k_α和k_β可以通过拟合得到，进而求解出语音信号方向的角度余弦：

根据关系

可以解出语音信号的角度位置

在获得了语音信号的角度位置

后，可以该角度位置为初始角度位置进行语音信号的跟踪。

可选地，在确定是否根据获得的语音信号进行跟踪时，可以将语音信号的角度余弦残差|α_t|和|β_t|与一新息过程门限做判决，该新息过程门限可以取1/6波束宽度，当角度余弦残差小于该新息过程门限时则进行语音信号的跟踪。否则，重新对搜索到的语音信号进行捕获。通过残差做判决，可以保证获取的语音信号的角度位置的准确度。

在系统进入稳定跟踪过程以后，则不需要再进行捕获过程，此时进行语音信号的定位。本实施例中，采用SRP-PHAT(基于联合可控响应功率和相位变换)声源定位算法，得到语音信号相对于麦克风阵列的角度。SRP-PHAT声源定位算法将可控响应功率方法固有的鲁棒性、短时分析特性与时延估计中相位变换方法对信号周围环境的不敏感性相结合，从而具有一定的抗噪性、抗混响性和鲁棒性。

步骤S308：进行语音信号跟踪。

语音信号跟踪过程中首个跟踪的语音信号的角度位置由步骤S306获得的角度位置给出，完成一次跟踪(卡尔曼滤波处理)后，下一时刻所需的语音信号的角度位置由跟踪结果(卡尔曼滤波结果)给出。即，根据步骤S306获得的角度位置确定下一时刻麦克风阵列的波束指向，然后通过声源定位算法再次获得语音信号的方向余弦向量，循环执行该过程。

具体地，在步骤S306的语音捕获完成后，系统进入稳定跟踪过程，在该过程中，将语音信号的角度位置

转换成角度余弦[X_c Y_c Z_c]^T，以角度余弦[X_c Y_c Z_c]^T为观测向量完成卡尔曼滤波处理，得到下一时刻语音信号对应的方向余弦预测值[X'_c Y'_c Z'_c]^T，然后转换为语音信号的角度位值

根据该角度位置实现下一时刻语音信号的定位和跟踪。

常规的卡尔曼滤波采用由语音信号的位置信息和速度信息组成的状态向量

但语音信号的角度位置和速度显然与观测值之间无法满足卡尔曼滤波的线性滤波的要求。为此，本发明实施例在卡尔曼滤波中用语音信号的角度余弦[X_c Y_cZ_c]^T作为观测向量，其值为：

基于该观测向量，对语音信号的卡尔曼滤波过程如下：

(1)设置卡尔曼滤波的公式和参数。

包括：将n时刻语音信号位于坐标轴上三个维度的方向余弦分别记为

和z_c(n)＝cosθ，并且其变化速度分别为

和

则卡尔曼滤波的状态变量记为

设定T为跟踪周期，当T很小的时候，可以得到卡尔曼滤波的状态方程：

x(n)＝F(n,n-1)x(n-1)+Γ(n,n-1)v₁(n-1)

其中，x(n)为n时刻的状态；F(n,n-1)为从n-1时刻到n时刻的状态转移矩阵；Γ(n,n-1)为从n-1时刻到n时刻的系统输入方程(系统状态噪声输入矩阵)；v₁(n-1)为n-1时刻的噪声；x(n-1)为n-1时刻的状态。T可以由本领域技术人员根据实际情况适当设置，能够保证语音信号的短时平稳即可，例如，T可以设置为10ms。

进一步地，通过测量获得的语音信号的角度余弦信息，确定卡尔曼滤波的观测方程为：

z(n)＝C(n)x(n)+v₂(n)

其中，Z(n)为n时刻的语音信号的角度余弦向量；C(n)为n时刻的观测矩阵；v₂(n)表示与v₁(n)相互独立均值为0的观测噪声；x(n)为n时刻的状态。

基于实测的n时刻的语音信号的角度余弦向量Z(n)，和根据n-1时刻的语音信号的角度余弦向量预测的n时刻的语音信号的角度余弦向量

可以获得卡尔曼滤波的新息过程，即：

(2)基于上述状态方程计算下一语音信号的状态，并基于新息过程对计算的下一语音信号的状态进行修正；根据修正结果确定下一语音信号的状态。

需要说明的是，在语音跟踪过程中，还必须考虑由于环境因素导致语音信号闪烁甚至跟踪丢失的问题。如果接收到的语音信号出现闪烁或丢失时，可以利用回路记忆功能外推若干周期(即，保持卡尔曼滤波的滤波系数不变，再进行多次跟踪滤波)，继续接收并跟踪先前预测的方向的语音信号。其中，若干周期可以由本领域技术人员根据实际情况适当设置，如设置为3次、6次等等，本发明实施例对此不作限制。

其中，对闪烁或者跟踪丢失的判定可以以新息过程为依据，也即，判定是否跟踪丢失以卡尔曼滤波过程中的新息过程作为判决量，当新息过程超过设定门限值则判定当前语音信号定位得到的角度位置为野值。当连续出现野值(连续出现次数与上述若干周期次数相同)，应中断当前语音跟踪，重新转入步骤S304进行语音搜索。其中，设定门限值可以由本领域技术人员根据实际情况适当设置，如，设置为1/4波束宽度，但不限于此，在实际应用中，由本领域技术人员根据实际经验设置也可。

通过本实施例，麦克风阵列所属设备在移动过程中，在物理移动之前，麦克风阵列的波束已经指向下一个位置，从而减少了由于信号处理花费的时间和对波束指向调整造成的时延。麦克风阵列的波束可以根据设备物理移动和环境的特性自适应对准声源的来波方向，抑制其他方向的干扰和噪声信号，对麦克风阵列载体的移动特性具有较好的适应性。

实施例四

参照图5，示出了根据本发明实施例四的一种语音信号处理装置的结构框图。

本实施例的语音信号处理装置包括：角度获取模块402，用于获取语音信号相对于麦克风阵列的角度位置，其中，所述角度位置包括语音信号相对于麦克风阵列的方位角和俯仰角；方向确定模块404，用于根据所述角度位置，确定语音信号的声源方向的方向向量；滤波模块406，用于根据所述方向向量，对语音信号进行卡尔曼滤波处理；跟踪模块408，用于根据卡尔曼滤波处理的处理结果，进行语音信号跟踪。

实施例五

参照图6，示出了根据本发明实施例五的一种语音信号处理装置的结构框图。

本实施例的语音信号处理装置包括：角度获取模块502，用于获取语音信号相对于麦克风阵列的角度位置，其中，所述角度位置包括语音信号相对于麦克风阵列的方位角和俯仰角；方向确定模块504，用于根据所述角度位置，确定语音信号的声源方向的方向向量；滤波模块506，用于根据所述方向向量，对语音信号进行卡尔曼滤波处理；跟踪模块508，用于根据卡尔曼滤波处理的处理结果，进行语音信号跟踪。

可选地，方向确定模块504用于根据所述角度位置，确定语音信号的方向余弦向量，将所述方向余弦向量确定为语音信号的声源方向的方向向量。

可选地，滤波模块506用于将语音信号的方向余弦向量作为卡尔曼滤波的观测向量；根据所述观测向量，对语音信号进行卡尔曼滤波处理。

可选地，跟踪模块508包括：预测模块5082，用于根据卡尔曼滤波处理后获得的语音信号的方向余弦预测向量，获取语音信号相对于麦克风阵列的角度位置预测值；预测跟踪模块5084，用于根据角度位置预测值进行语音信号跟踪。

可选地，预测跟踪模块5084用于将角度位置预测值作为麦克风阵列接收的下一时刻的语音信号的波束指向，根据所述波束指向进行语音信号的跟踪定位，根据跟踪定位结果获取下一时刻语音信号相对于麦克风阵列的角度位置，返回方向确定模块504执行；或者，将角度位置预测值直接作为下一时刻的语音信号相对于麦克风阵列的角度位置，并返回方向确定模块504执行。

可选地，本实施例的语音信号处理装置还包括：丢失处理模块510，用于在语音信号跟踪的过程中，若跟踪语音信号失败，则使用对前次语音信号进行卡尔曼滤波处理的卡尔曼滤波系数，再次根据卡尔曼滤波处理的处理结果，进行语音信号跟踪。

可选地，丢失处理模块510用于在语音信号跟踪的过程中，若根据卡尔曼滤波处理中的新息过程，确定跟踪语音信号失败，则使用对前次语音信号进行卡尔曼滤波处理的卡尔曼滤波系数，再次根据卡尔曼滤波处理的处理结果，进行语音信号跟踪。

可选地，本实施例的语音信号处理装置还包括：搜索模块512，用于在角度获取模块502获取语音信号相对于麦克风阵列的角度位置之前，对麦克风阵列接收的音频信号进行语音信号搜索；捕获模块514，用于对搜索到的语音信号进行语音捕获，根据语音捕获的结果确定语音信号相对于麦克风阵列的初始角度位置；初始跟踪模块516，用于根据初始角度位置确定进行语音信号跟踪。

可选地，初始跟踪模块516用于根据初始角度位置，确定捕获到的语音信号的方向余弦向量；将所述方向余弦向量作为卡尔曼滤波的观测向量，对捕获到的语音信号进行卡尔曼滤波处理；获取卡尔曼滤波处理的新息过程，若所述新息过程小于或等于设定门限值，则确定进行语音信号跟踪。

可选地，捕获模块514用于对搜索到的语音信号进行虚警检测，若未发生虚警，则对搜索到的语音信号进行语音捕获，根据语音捕获的结果确定语音信号相对于所述麦克风阵列的初始角度位置。

可选地，搜索模块512包括：引导模块5122，用于根据引导信息，确定麦克风阵列接收的音频信号对应的搜索区域的中心波相位；处理模块5124，用于从中心波相位开始进行语音信号搜索。

可选地，处理模块5124用于从中心波相位开始，对中心波相位对应的中心波束进行波束能量检测；若根据检测结果确定搜索到语音信号，则结束语音信号搜索；若根据检测结果确定未搜索到语音信号，则对中心波束进行波位位移，继续对位移后的波束进行波束能量检测。

可选地，处理模块5124通过以下方式进行波束能量检测：针对麦克风阵列的每个子阵，获取当前波束下，当前子阵的语音信号与所有子阵的语音信号的相关度；根据所述相关度，获取当前波束对应的波束能量；根据所述波束能量与设定的噪声门限的关系，确定是否在当前波束搜索到语音信号。

本实施例的语音信号处理装置用于实现前述多个方法实施例中相应的语音信号处理方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例六

参照图7，示出了根据本发明实施例六的一种语音信号处理系统的结构示意图。

本实施例的语音信号处理系统包括：麦克风阵列602、前置放大器604、带通滤波器606、模数转换模块608、音频信号处理模块610、噪声消除模块612、语音输出模块614、波束控制模块616。

其中，麦克风阵列602划分为4路子阵，用于从环境中接收原始声音，转换成4路模拟声音信号。由于4个子阵的位置不同，声音信号到达每个子阵之间的时间会存在差别，所以得到4路声音信号存在相位差。

前置放大器604、带通滤波器606和模数转换模块608为声音信号的前期处理过程，将得到的4路模拟声音信号转换成含有相位信息的4路数字声音信号。其中，前置放大器604用于放大模拟声音信号，带通滤波器606用于对放大后的模拟声音信号进行滤波，模数转换模块608用于将滤波后的模拟声音信号转换为数字声音信号。

本实施例中，音频信号处理模块610包括：信号预处理模块6102、语音搜索/捕获模块6104、语音定位模块6106和跟踪滤波模块6108。

其中，信号预处理模块6102用于接收来自模数转换模块608的4路数字声音信号，进行数据缓存、信号预加重、加窗处理。

语音搜索/捕获模块6104用于实现实施例五中的搜索模块512的功能；语音定位模块6106用于实现实施例五中捕获模块514的功能；跟踪滤波模块6108用于实现实施例五中的初始跟踪模块516、以及，角度获取模块502、方向确定模块504、滤波模块506、跟踪模块508和丢失处理模块510的功能。

上述语音搜索/捕获模块6104、语音定位模块6106和跟踪滤波模块6108的具体功能实现可参照实施例五及前述多个方法实施例中相关部分的描述，在此不再详述。

此外，跟踪滤波模块6108与波束控制模块616连接，将获得的语音信号的角度位置预测值输出给波束控制模块616，波束控制模块616控制麦克风阵列602的波束在下一时刻自动对准语音信号的方向。

噪声消除模块612采用单通道语音增强方法，对经信号预处理模块6102处理后的语音信号进行增强处理，并将增强处理后的语音信号传输给语音输出模块614进行输出。

例如，噪声消除模块612采用单通道语音增强方法，对于每一帧语音信号，首先将时域信号变换到频域，采用分位数噪声估计粗略计算语音信号的噪声，然后计算先验信噪比、后验信噪比和噪声出现的概率，根据噪声概率的大小更新估计的噪声，最后依据每一帧语音信号的先验信噪比，分频段的计算维纳滤波器的滤波系数，根据该滤波系数对语音信号进行维纳滤波后输出。

本实施例的语音信号处理系统，可以搜索语音信号的位置，然后捕获语音信号减小位置误差，利用声源定位和跟踪滤波预测下一时刻语音信号的波束指向，从而达到麦克风阵列波束实时跟踪声源，增强声源方向语音，抑制其他方向干扰的噪声。并且，计算量小，便于实时跟踪，跟踪速度快，适宜移动场景等。

综上，本发明实施例提供的语音信号处理方案跟踪速度快且适应性好，可广泛应用于诸如助听器、移动终端、智能音箱、视频会议、移动机器人等多种场景。此外，本发明实施例中的卡尔曼滤波以标准卡尔曼滤波为例，但本领域技术人员应当明了，其它与标准卡尔曼滤波类似的处理过程也同样适用。

最后应说明的是：以上实施例仅用以说明本发明实施例的技术方案，而非对其限制；尽管参照前述实施例对本发明实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音信号处理方法，其特征在于，用于调整麦克风阵列的波束指向以跟踪移动声源的语音信号，包括：

根据引导信息，确定所述麦克风阵列接收的音频信号对应的搜索区域的中心波相位，从所述中心波相位开始进行语音信号搜索，以搜索到当前时刻语音信号；所述引导信息用于确定初始波束指向；

对搜索到的所述当前时刻语音信号进行语音捕获，根据所述语音捕获的结果确定所述当前时刻语音信号相对于所述麦克风阵列的角度位置，其中，所述角度位置包括所述当前时刻语音信号相对于所述麦克风阵列的方位角和俯仰角；

根据所述角度位置，确定所述当前时刻语音信号的声源方向的方向余弦向量；根据所述方向余弦向量，对所述当前时刻语音信号进行卡尔曼滤波处理；根据所述卡尔曼滤波处理后获得的下一时刻语音信号的方向余弦预测向量，获取所述下一时刻语音信号相对于所述麦克风阵列的角度位置预测值；

根据所述角度位置预测值自动调整所述麦克风阵列的波束指向，得到下一时刻所述麦克风阵列的波束预测指向方向，以对所述下一时刻语音信号进行跟踪。

2.根据权利要求1所述的方法，其特征在于，所述根据所述方向余弦向量，对所述当前时刻语音信号进行卡尔曼滤波处理，包括：

将所述当前时刻语音信号的所述方向余弦向量作为卡尔曼滤波的观测向量；根据所述观测向量，对所述当前时刻语音信号进行卡尔曼滤波处理。

3.根据权利要求1所述的方法，其特征在于，所述根据所述角度位置预测值自动调整所述麦克风阵列的波束指向，得到下一时刻所述麦克风阵列的波束预测指向方向，以对所述下一时刻语音信号进行跟踪，包括：

将所述角度位置预测值作为所述麦克风阵列接收所述下一时刻语音信号的波束指向，根据所述波束指向进行所述下一时刻语音信号的跟踪定位，根据跟踪定位结果获取所述下一时刻语音信号相对于所述麦克风阵列的角度位置，返回所述根据所述角度位置，确定所述当前时刻语音信号的声源方向的方向余弦向量的步骤执行。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

在所述跟踪移动声源的语音信号的过程中，若跟踪语音信号失败，则使用对前次语音信号进行卡尔曼滤波处理的卡尔曼滤波系数，再次根据所述卡尔曼滤波处理的处理结果，进行语音信号跟踪。

5.根据权利要求4所述的方法，其特征在于，所述跟踪语音信号失败，包括：

根据所述卡尔曼滤波处理中的新息过程，确定跟踪语音信号失败。

6.根据权利要求1所述的方法，其特征在于，所述对搜索到的所述当前时刻语音信号进行语音捕获，包括：

对搜索到的所述当前时刻语音信号进行虚警检测，若未发生虚警，则对搜索到的所述当前时刻语音信号进行语音捕获。

7.根据权利要求1所述的方法，其特征在于，所述从所述中心波相位开始进行语音信号搜索，包括：

从所述中心波相位开始，对所述中心波相位对应的中心波束进行波束能量检测；

若根据检测结果确定搜索到语音信号，则结束所述语音信号搜索；

若根据检测结果确定未搜索到语音信号，则对所述中心波束进行波位位移，继续对位移后的波束进行波束能量检测。

8.根据权利要求7所述的方法，其特征在于，所述波束能量检测包括：

针对所述麦克风阵列的每个子阵，获取当前波束下，当前子阵的语音信号与所有子阵的语音信号的相关度；

根据所述相关度，获取所述当前波束对应的波束能量；

根据所述波束能量与设定的噪声门限的关系，确定是否在所述当前波束搜索到语音信号。

9.一种语音信号处理装置，其特征在于，用于调整麦克风阵列的波束指向以跟踪移动声源的语音信号，包括：

引导模块，用于根据引导信息，确定所述麦克风阵列接收的音频信号对应的搜索区域的中心波相位；所述引导信息用于确定初始波束指向；

处理模块，用于从所述中心波相位开始进行语音信号搜索，以搜索到当前时刻语音信号；

捕获模块，用于对搜索到的所述当前时刻语音信号进行语音捕获；

角度获取模块，用于根据所述语音捕获的结果确定所述当前时刻语音信号相对于所述麦克风阵列的角度位置，其中，所述角度位置包括所述当前时刻语音信号相对于所述麦克风阵列的方位角和俯仰角；

方向确定模块，用于根据所述角度位置，确定所述当前时刻语音信号的声源方向的方向余弦向量；

滤波模块，用于根据所述方向余弦向量，对所述当前时刻语音信号进行卡尔曼滤波处理；

跟踪模块，包括：预测模块，用于根据所述卡尔曼滤波处理后获得的下一时刻语音信号的方向余弦预测向量，获取所述下一时刻语音信号相对于所述麦克风阵列的角度位置预测值；预测跟踪模块，用于根据所述角度位置预测值自动调整所述麦克风阵列的波束指向，得到下一时刻所述麦克风阵列的波束预测指向方向，以对所述下一时刻语音信号进行跟踪。

10.根据权利要求9所述的装置，其特征在于，所述滤波模块，用于将所述当前时刻语音信号的所述方向余弦向量作为卡尔曼滤波的观测向量；根据所述观测向量，对所述当前时刻语音信号进行卡尔曼滤波处理。

11.根据权利要求9所述的装置，其特征在于，所述预测跟踪模块，用于将所述角度位置预测值作为所述麦克风阵列接收所述下一时刻语音信号的波束指向，根据所述波束指向进行所述下一时刻语音信号的跟踪定位，根据跟踪定位结果获取所述下一时刻语音信号相对于所述麦克风阵列的角度位置，返回所述方向确定模块执行。

12.根据权利要求9-11任一项所述的装置，其特征在于，所述装置还包括：

丢失处理模块，用于在所述跟踪移动声源的语音信号的过程中，若跟踪语音信号失败，则使用对前次语音信号进行卡尔曼滤波处理的卡尔曼滤波系数，再次根据所述卡尔曼滤波处理的处理结果，进行语音信号跟踪。

13.根据权利要求12所述的装置，其特征在于，所述丢失处理模块，用于在所述跟踪移动声源的语音信号的过程中，若根据所述卡尔曼滤波处理中的新息过程，确定跟踪语音信号失败，则使用对前次语音信号进行卡尔曼滤波处理的卡尔曼滤波系数，再次根据所述卡尔曼滤波处理的处理结果，进行语音信号跟踪。

14.根据权利要求9所述的装置，其特征在于，所述捕获模块，用于对搜索到的所述当前时刻语音信号进行虚警检测，若未发生虚警，则对搜索到的所述当前时刻语音信号进行语音捕获。

15.根据权利要求9所述的装置，其特征在于，所述处理模块，用于从所述中心波相位开始，对所述中心波相位对应的中心波束进行波束能量检测；若根据检测结果确定搜索到语音信号，则结束所述语音信号搜索；若根据检测结果确定未搜索到语音信号，则对所述中心波束进行波位位移，继续对位移后的波束进行波束能量检测。

16.根据权利要求15所述的装置，其特征在于，所述处理模块通过以下方式进行波束能量检测：

根据所述相关度，获取所述当前波束对应的波束能量；