CN112820310B

CN112820310B - 一种来波方向估计方法及装置

Info

Publication number: CN112820310B
Application number: CN201911118708.6A
Authority: CN
Inventors: 奚少亨; 冯大航; 陈孝良; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2022-09-23
Anticipated expiration: 2039-11-15
Also published as: CN112820310A

Abstract

本申请提供的一种来波方向估计方法及装置，该方法首先获取至少两个采集模块采集的声源发出的语音信号；其次依据预设规则对目标空间搜索区域进行划分得到多个来波入射角；之后，预先根据采集模块获取各个频点对应的语音存在概率；然后根据每个语音信号各个频点对应的语音存在概率计算各个来波入射角对应的估计值；最后，将各个来波入射角对应的估计值中最大值所对应的来波入射角确定为声源的来波方向。本申请通过加入各个频点对应的语音存在概率，每个频点对估计值的计算由语音存在概率决定，从而避免噪声和干扰对来波方向估计的影响，提升来波方向估计的准确率，进而提高声源定位的准确性。

Description

一种来波方向估计方法及装置

技术领域

本申请涉及无线通信技术领域，尤其涉及一种来波方向估计方法及装置。

背景技术

在语音通信中，有时候需要将讲话双方语音分别记录并保存下来，分离成完整的对话，在分离双方语音的过程中，需要先通过来波方向(DOA，Direction of Arrival)估计方法得到的来波方向来实现声源的定位，为了实现准确声源的定位，因此，提供准确的来波方向非常重要。

目前，来波方向估计方法主要利用SRP-PHAT(Steered Response Power-PhaseTransformation，基于相位变换的可控功率响应)进行来波方向的估计，具体的，需要在分布式阵列布置若干麦克风阵列节点，且在每个麦克风阵列节点设置有一个或多个采集模块(麦克风)，通过采集模块采集语音信号，并将采集的语音信号上传给信号处理单元，信号处理单元实现来波方向估计，从而实现声源的定位。

在实际嘈杂场景下，如办公室、商场、车载、餐馆或者家庭厨房等，利用SRP-PHAT进行来波方向估计时，存在一个最低混叠频率，若采集模块获取到的语音信号高于该最低混叠频率时，再利用SRP-PHAT进行来波方向估计会出现相位模糊(又叫混叠)，因此，来波方向估计容易受到噪声和干扰的影响，降低了来波方向估计的准确率，进而导致声源定位不准确。

发明内容

本申请提供了一种来波方向估计方法及装置，目的在于避免噪声和干扰对来波方向估计的影响，提升来波方向估计的准确率，进而提高声源定位的准确性。

为了实现上述目的，本申请提供了以下技术方案：

一种来波方向估计方法，包括：

获取至少两个采集模块采集的声源发出的语音信号；

依据预设规则对目标空间搜索区域进行划分得到多个来波入射角；

预先根据所述采集模块获取各个频点对应的语音存在概率，所述语音存在概率为所述采集模块在各个频点对应存在语音信号的概率；

根据每个所述语音信号和各个频点对应的所述语音存在概率计算各个所述来波入射角对应的估计值；

将各个所述来波入射角对应的估计值中最大值所对应的来波入射角确定为所述声源的来波方向。

优选的，所述目标空间搜索区域根据所述语音信号来确定的，具体为：

获取所述声源发出的第一语音信号和第二语音信号；

分别计算所述第一语音信号和所述第二语音信号对应的语音能量，得到第一语音能量和第二语音能量；

对所述第一语音能量和所述第二语音能量进行比较；

若所述第一语音能量大于所述第二语音能量，则将所述第一语音信号对应的采集模块所在的搜索区域确定为所述目标空间搜索区域；

若所述第二语音能量大于所述第一语音能量，则将所述第二语音信号对应的采集模块所在的搜索区域确定为所述目标空间搜索区域。

优选的，所述依据预设规则对目标空间搜索区域进行划分得到多个来波入射角，具体为：

选取所述采集模块中距离值最大的两个采集模块，以所述两个采集模块连线的延长线作为X轴，以所述两个采集模块连线的中点垂直线作为Y轴，构建直角坐标系；

在所述直角坐标系中，在所述目标空间搜索区域内进行来波入射角的平均划分，得到多个所述来波入射角。

优选的，所述根据每个所述语音信号和各个频点对应的所述语音存在概率计算各个所述来波入射角对应的估计值，具体为：

分别对第三语音时域信号和第四语音时域信号进行频域转换，得到对应的第三语音频域信号和第四语音频域信号；

将所述第三语音频域信号、所述第四语音频域信号和各个频点对应的所述所述语音存在概率输入至预设空间谱函数中进行计算，得到各个所述来波入射角对应的估计值。

优选的，所述预设空间谱函数为：

其中，

τ为延迟差，d为两个采集模块之间的间距，c为语音信号在空气中传播速度，θ为入射角，X₁(k)为第三语音信号对应的语音频域信号的频域表示，X₂(k)为第四语音信号对应的语音频域信号的频域表示，X₂(k)^H为X₂(k)的转置，w(k)为各个频点对应的语音存在概率，k为频率索引，m为麦克风对儿的ID，M为麦克风麦克风对儿的个数，K为频点的个数。

一种来波方向估计装置，包括：

第一处理单元，用于获取至少两个采集模块采集的声源发出的语音信号；

第二处理单元，用于依据预设规则对目标空间搜索区域进行划分得到多个来波入射角；

第三处理单元，用于预先根据所述采集模块获取各个频点对应的语音存在概率，所述语音存在概率为所述采集模块在各个频点对应存在语音信号的概率；

第四处理单元，用于根据每个所述语音信号和各个频点对应的所述语音存在概率计算各个所述来波入射角对应的估计值；

第五处理单元，用于将各个所述来波入射角对应的估计值中最大值所对应的来波入射角确定为所述声源的来波方向。

优选的，所述第二处理单元具体用于：

获取所述声源发出的第一语音信号和第二语音信号；

对所述第一语音能量和所述第二语音能量进行比较；

优选的，所述第四处理单元具体用于：

一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在的设备执行如上述所述的来波方向估计方法。

一种电子设备，所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行如上述所述的来波方向估计方法。

本申请所述的来波方向估计方法及装置，首先通过获取至少两个采集模块采集的声源发出的语音信号，然后依据预设规则对目标空间搜索区域进行划分得到多个来波入射角，从而实现对来波方向的精确划分，同时，加入语音存在概率这一权重，语音存在概率大的频点计算的估计值权重大，语音存在概率小的频点计算的估计值权重小(即噪声和干扰占主要成分的频点)，根据每个语音信号和各个频点对应的所述语音存在概率计算各个来波入射角对应的估计值，最后将各个来波入射角对应的估计值中最大值所对应的来波入射角确定为声源的来波方向。本申请通过加入各个频点对应的语音存在概率，每个频点对估计值的计算由语音存在概率决定，从而避免噪声和干扰对来波方向估计的影响，提升来波方向估计的准确率，进而提高声源定位的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种来波方向估计方法流程图；

图2为本申请实施例公开的根据所述语音信号来确定的目标空间搜索区域的方法流程图；

图3为本申请实施例公开的来波方向估计的粗估计原理示意图；

图4为本申请实施例公开的根据每个所述语音信号确定多个来波入射角对应的估计值的方法流程图；

图5为本申请实施例公开的一种来波方向估计装置结构示意图；

图6为本申请实施例公开的一种电子设备结构示意图。

具体实施方式

本申请提供一种来波方向估计方法及装置，应用于语音通信中嘈杂场景下声源分离的场景，实现声源的准确定位。

本申请的目的在于：避免噪声和干扰对来波方向估计的影响，提升来波方向估计的准确率，进而提高声源定位的准确性。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，本申请实施例提供一种来波方向估计方法流程图，该方法具体包括如下步骤：

S101：获取至少两个采集模块采集的声源发出的语音信号。

在实施该方法之前，需要预先在空间搜索区域内均匀分布式布置至少两个麦克风阵列节点，且在每个所述麦克风阵列节点设置至少一个采集模块，所述采集模块用于采集声源发出的语音信号，选取空间搜索区域内距离最大的两个采集模块采集的声源发出的语音信号，需要说明的是，采集模块可以为麦克风等语音采集装置。

S102：依据预设规则对目标空间搜索区域进行划分得到多个来波入射角。

上述目标空间搜索区域可以是空间搜索区域，也可以是根据所述语音信号来确定的目标空间搜索区域。来波入射角为对目标空间搜索区域进行划分后得到的。

如图2所述，上述根据所述语音信号来确定的目标空间搜索区域的具体包括如下步骤：

S201：获取所述声源发出的第一语音信号和第二语音信号。

语音信号为声源发出的时域信号，包含一串的数字码，如声源发出的信号为16bit的时域信号，该语音信号包含256个数字码。需要说明的是，对于声源发出的时域信号的形式可以以现有技术中多种的形式表达，属于现有技术，在此不再详细赘述。

S202：分别计算所述第一语音信号和所述第二语音信号对应的语音能量，得到第一语音能量和第二语音能量。

本申请实施例中，语音能量的计算是由语音信号中各个数字码的平方之和，取平均值得到，需要说明的是，语音能量的计算是现有技术，在此不再详细赘述。

S203：对所述第一语音能量和所述第二语音能量进行比较。

S204：若所述第一语音能量大于所述第二语音能量，则将所述第一语音信号对应的采集模块所在的搜索区域确定为所述目标空间搜索区域。

S205：若所述第二语音能量大于所述第一语音能量，则将所述第二语音信号对应的采集模块所在的搜索区域确定为所述目标空间搜索区域。

本申请实施例中，将语音信号的语音能量进行比较，得到比较结果，将语音能量较大的所对应的采集模块所在的搜索区域作为目标空间搜索区域。

通过语音信号的语音能量的比较来获取声源的大致方位，实现目标空间搜索区域的确定，比如：通过这种方式粗估计将目标空间搜索区域限定在0°-90°，如图3所示，通过这种方式先做一个目标空间搜索区域的粗估计，既增加了声源定位的准确性，又降低了计算量。

进一步的，上述所述依据预设规则对目标空间搜索区域进行划分得到多个来波入射角，具体为：

选取所述采集模块中距离值最大的两个采集模块，以所述两个采集模块连线的延长线作为X轴，以所述两个采集模块连线的中点垂直线作为Y轴，构建直角坐标系。

具体的，来波入射角的划分原理如图3所示，S1为第一采集模块、S2为第二采集模块，S为声源，θ为来波入射角。如图3所示，可知θ＝15°，则可以将目标空间搜索区域划分为6个来波入射角，即：15°、30°、45°、60°、75°以及90°，为了得到更精确的来波方向，可以对目标空间搜索区域进行更细的划分，如每10°设置来波入射角，目标空间搜索区域划分的越精细，最终得到的来波方向越精确。

S103：预先根据所述采集模块获取各个频点对应的语音存在概率，所述语音存在概率为所述采集模块在各个频点对应存在语音信号的概率。

设置在空间搜索区域的采集模块是固定的，在设置采集模块时，由于每个声源都有多个频率，因此，在本申请实施例中，在嘈杂环境下，来波方向是语音能量最大的声源对应的方向，因此，需要预先在数据库中存储有各个采集模块在各个频点对应存在语音信号的概率。需要说明的是，各个频点对应的语音存在概率的确定属于现有技术，在此不再进行详细的赘述。

S104：根据每个所述语音信号和各个频点对应的所述语音存在概率计算各个所述来波入射角对应的估计值。

如图4所示，上述所述根据每个所述语音信号和各个频点对应的所述语音存在概率计算各个所述来波入射角对应的估计值，具体包括如下步骤：

S401：分别对第三语音时域信号和第四语音时域信号进行频域转换，得到对应的第三语音频域信号和第四语音频域信号。

具体如图3所示，S3为第三采集模块和S4为第四采集模块，假设采集模块接收的语音信号的时域模型可如下表示：

x₁(t)＝s₁(t)+n₁(t)

x₂(t)＝αs₁(t+D)+n₂(t)

其中，s₁(t)是远端纯净信号，n₁(t)和n₂(t)分别是两个接收到的噪声信号，α为衰减因子，为常数，D为延迟时间。

利用两路采集数据的相关性，可以通过对获取的语音信号进行分帧、加窗函数，做DFT变换即可将时域信号变换到频域信号，语音信号的频域模型可表示为X₁(k)和X₂(k)。

S402：将所述第三语音频域信号、所述第四语音频域信号和各个频点对应的所述所述语音存在概率输入至预设空间谱函数中进行计算，得到各个所述来波入射角对应的估计值。

上述预设空间谱函数为：

其中，

S105：将各个所述来波入射角对应的估计值中最大值所对应的来波入射角确定为所述声源的来波方向。

本申请实施例提供的一种来波方向估计方法，首先通过获取至少两个采集模块采集的声源发出的语音信号，然后依据预设规则对目标空间搜索区域进行划分得到多个来波入射角，从而实现对来波方向的精确划分，同时，加入语音存在概率这一权重，语音存在概率大的频点计算的估计值权重大，语音存在概率小的频点计算的估计值权重小(即噪声和干扰占主要成分的频点)，根据每个语音信号和各个频点对应的所述语音存在概率计算各个来波入射角对应的估计值，最后将各个来波入射角对应的估计值中最大值所对应的来波入射角确定为声源的来波方向。本申请通过加入各个频点对应的语音存在概率，每个频点对估计值的计算由语音存在概率决定，从而避免噪声和干扰对来波方向估计的影响，提升来波方向估计的准确率，进而提高声源定位的准确性。

请参阅图5，基于上述实施例公开的一种来波方向估计方法，本实施例对应公开了一种来波方向估计装置，具体包括：第一处理单元501、第二处理单元502、第三处理单元503、第四处理单元504和第五处理单元505，其中：

第一处理单元501，用于获取至少两个采集模块采集的声源发出的语音信号。

第二处理单元502，用于依据预设规则对目标空间搜索区域进行划分得到多个来波入射角。

优选的，所述第二处理单元具体用于：

获取所述声源发出的第一语音信号和第二语音信号。

分别计算所述第一语音信号和所述第二语音信号对应的语音能量，得到第一语音能量和第二语音能量。

对所述第一语音能量和所述第二语音能量进行比较。

若所述第一语音能量大于所述第二语音能量，则将所述第一语音信号对应的采集模块所在的搜索区域确定为所述目标空间搜索区域。

第三处理单元503，用于预先根据所述采集模块获取各个频点对应的语音存在概率，所述语音存在概率为所述采集模块在各个频点对应存在语音信号的概率。

第四处理单元504，用于根据每个所述语音信号和各个频点对应的所述语音存在概率计算各个所述来波入射角对应的估计值。

优选的，所述第四处理单元504具体用于：

分别对第三语音时域信号和第四语音时域信号进行频域转换，得到对应的第三语音频域信号和第四语音频域信号。

假设采集模块接收的语音信号的时域模型可如下表示：

x₁(t)＝s₁(t)+n₁(t)

x₂(t)＝αs₁(t+D)+n₂(t)

将所述第一语音频域信号、所述第二语音频域信号和各个频点对应的所述所述语音存在概率输入至预设空间谱函数中进行计算，得到各个所述来波入射角对应的估计值。

上述预设空间谱函数为：

其中，

第五处理单元505，用于将各个所述来波入射角对应的估计值中最大值所对应的来波入射角确定为所述声源的来波方向。

所述用户行为数据处理装置包括处理器和存储器，上述第一处理单元、第二处理单元、第三处理单元、第四处理单元和第五处理单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过加入各个频点对应的语音存在概率，每个频点对估计值的计算由语音存在概率决定，从而避免噪声和干扰对来波方向估计的影响，提升来波方向估计的准确率，进而提高声源定位的准确性。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述来波方向估计方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述来波方向估计方法。

本发明实施例提供了一种电子设备，如图6所示，该电子设备60包括至少一个处理器601、以及与所述处理器连接的至少一个存储器602、总线603；其中，所述处理器601、所述存储器602通过所述总线603完成相互间的通信；处理器601用于调用所述存储器602中的程序指令，以执行上述的所述来波方向估计方法。

本文中的电子设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

获取至少两个采集模块采集的声源发出的语音信号；

获取所述声源发出的第一语音信号和第二语音信号；

对所述第一语音能量和所述第二语音能量进行比较；

分别对所述第三语音时域信号和所述第四语音时域信号进行频域转换，得到对应的第三语音频域信号和第四语音频域信号；

优选的，所述预设空间谱函数为：

其中，

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中，设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种来波方向估计方法，其特征在于，包括：

获取至少两个采集模块采集的声源发出的语音信号；

将各个所述来波入射角对应的估计值中最大值所对应的来波入射角确定为所述声源的来波方向；

所述根据每个所述语音信号和各个频点对应的所述语音存在概率计算各个所述来波入射角对应的估计值，具体为：

将所述第三语音频域信号、所述第四语音频域信号和各个频点对应的所述语音存在概率输入至预设空间谱函数中进行计算，得到各个所述来波入射角对应的估计值；

所述预设空间谱函数为：

其中，

τ为延迟差，d为两个采集模块之间的间距，c为语音信号在空气中传播速度，θ为入射角，X₁(k)为第三语音时域信号对应的语音频域信号的频域表示，X₂(k)为第四语音时域信号对应的语音频域信号的频域表示，X₂(k)^H为X₂(k)的转置，w(k)为各个频点对应的语音存在概率，k为频率索引，m为麦克风对儿的ID，M为麦克风对儿的个数，K为频点的个数。

2.根据权利要求1所述的方法，其特征在于，所述目标空间搜索区域根据所述语音信号来确定的，具体为：

获取所述声源发出的第一语音时域信号和第二语音时域信号；

分别计算所述第一语音时域信号和所述第二语音时域信号对应的语音能量，得到第一语音能量和第二语音能量；

对所述第一语音能量和所述第二语音能量进行比较；

若所述第一语音能量大于所述第二语音能量，则将所述第一语音时域信号对应的采集模块所在的搜索区域确定为所述目标空间搜索区域；

若所述第二语音能量大于所述第一语音能量，则将所述第二语音时域信号对应的采集模块所在的搜索区域确定为所述目标空间搜索区域。

3.根据权利要求2所述的方法，其特征在于，所述依据预设规则对目标空间搜索区域进行划分得到多个来波入射角，具体为：

4.一种来波方向估计装置，其特征在于，包括：

第五处理单元，用于将各个所述来波入射角对应的估计值中最大值所对应的来波入射角确定为所述声源的来波方向；

所述第四处理单元具体用于：

所述预设空间谱函数为：

其中，

5.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在的设备执行如权利要求1至3中任一项所述的来波方向估计方法。

6.一种电子设备，其特征在于，所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行如权利要求1至3中任一项所述的来波方向估计方法。