CN112863525B

CN112863525B - 一种语音波达方向的估计方法、装置及电子设备

Info

Publication number: CN112863525B
Application number: CN201911174054.9A
Authority: CN
Inventors: 冯大航; 陈孝良; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2023-03-21
Anticipated expiration: 2039-11-26
Also published as: CN112863525A

Abstract

本发明提供了一种语音波达方向的估计方法、装置及电子设备，获取位于不同位置的传声器采集的目标用户的语音信号，对所述语音信号进行滤波操作和组合操作，得到对应预设方向上的滤波语音，依据对应预设方向上的所述滤波语音以及预设波达方向预测模型，确定所述目标用户所在的目标方向。通过本发明，可以预估出目标用户所在的目标方向，即实现了语音波达方向估计。

Description

一种语音波达方向的估计方法、装置及电子设备

技术领域

本发明涉及语音波达方向估计领域，更具体的说，涉及一种语音波达方向的估计方法、装置及电子设备。

背景技术

传声器的应用越来越广泛，如将传声器应用在智能设备或会议系统中。

在使用传声器的过程中，需要估计出输出语音的人的方向，即进行语音波达方向估计。只有估计出语音波达方向，才能够对该方向传声器采集的语音进行增强，去除其他方向的干扰噪声。

发明内容

有鉴于此，本发明提供一种语音波达方向的估计方法、装置及电子设备，以解决需要一种语音波达方向估计方法的问题。

为解决上述技术问题，本发明采用了如下技术方案：

一种语音波达方向的估计方法，包括：

获取位于不同位置的传声器采集的目标用户的语音信号；

对所述语音信号进行滤波操作和组合操作，得到对应预设方向上的滤波语音；

依据对应预设方向上的所述滤波语音以及预设波达方向预测模型，确定所述目标用户所在的目标方向。

可选地，所述预设波达方向预测模型的生成过程包括：

获取位于不同位置的所述传声器采集的位于不同方向的用户输出的语音信号样本；

将位于不同位置的所述传声器采集的位于同一方向且输出同一语音的用户的语音信号样本作为一组语音信号样本集；

基于每组所述语音信号样本集，训练得到所述预设波达方向预测模型。

可选地，基于每组所述语音信号样本集，训练得到所述预设波达方向预测模型，包括：

对于每一所述语音信号样本集，将所述语音信号样本集中的语音信号样本在不同预设方向进行滤波和组合操作，得到多路单通道语音；其中，每一单通道语音与相应的预设方向对应；

将位于所述预设方向中的指定方向的单通道语音作为正向集，将位于所述预设方向中除指定方向之外的预设方向的单通道语音作为负向集；

对所述正向集和所述负向集进行训练，得到所述预设波达方向预测模型。

可选地，依据对应预设方向上的所述滤波语音以及预设波达方向预测模型，确定所述目标用户所在的目标方向，包括：

基于所述预设波达方向预测模型，得到所述目标用户位于每一所述预设方向的概率值；

筛选出对应的概率值最大的预设方向作为所述目标方向。

一种语音波达方向的估计装置，包括：

信号获取模块，用于获取位于不同位置的传声器采集的目标用户的语音信号；

信号处理模块，用于对所述语音信号进行滤波操作和组合操作，得到对应预设方向上的滤波语音；

方向确定模块，用于依据对应预设方向上的所述滤波语音以及预设波达方向预测模型，确定所述目标用户所在的目标方向。

可选地，还包括：

样本获取模块，用于获取位于不同位置的所述传声器采集的位于不同方向的用户输出的语音信号样本；

样本组合模块，用于将位于不同位置的所述传声器采集的位于同一方向且输出同一语音的用户的语音信号样本作为一组语音信号样本集；

样本训练模块，用于基于每组所述语音信号样本集，训练得到所述预设波达方向预测模型。

可选地，所述样本训练模块包括：

信号处理子模块，用于对于每一所述语音信号样本集，将所述语音信号样本集中的语音信号样本在不同预设方向进行滤波和组合操作，得到多路单通道语音；其中，每一单通道语音与相应的预设方向对应；

样本分类子模块，用于将位于所述预设方向中的指定方向的单通道语音作为正向集，将位于所述预设方向中除指定方向之外的预设方向的单通道语音作为负向集；

样本训练子模块，用于对所述正向集和所述负向集进行训练，得到所述预设波达方向预测模型。

可选地，所述方向确定模块用于依据不同预设方向的所述滤波语音以及预设波达方向预测模型，确定所述目标用户所在的目标方向时，具体用于：

基于所述预设波达方向预测模型，得到所述目标用户位于每一所述预设方向的概率值，筛选出对应的概率值最大的预设方向作为所述目标方向。

一种电子设备，包括：存储器和处理器；

其中，所述存储器用于存储程序；

处理器调用程序并用于：

获取位于不同位置的传声器采集的目标用户的语音信号；

相较于现有技术，本发明具有以下有益效果：

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种语音波达方向的估计方法的方法流程图；

图2为本发明实施例提供的一种语音波达方向的估计的场景示意图；

图3为本发明实施例提供的一种语音波达方向估计的估计结果图；

图4为本发明实施例提供的另一种语音波达方向估计的估计结果图；

图5为本发明实施例提供的一种预设波达方向预测模型的生成方法流程图；

图6为本发明实施例提供的一种语音波达方向的估计装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明发明人在进行语音波达方向(DOA)估计时，研究发现可以通过时延估计两步法实现。具体的，第一步先计算传声器对之间的相关函数，相关函数的极值点对应的时间就是声波到达两个传声器之间的延迟。在计算传声器间的相关函数时，在不同的频带上根据加权值的不同又可以分为多种方法，如加权函数SCOT、PHAT、Eckart和ML等方法。第二步根据计算出的传声器对之间的时间延迟，可以利用最小二乘法直接获得声源的方向。也可以通过对代价函数搜索的方法获得声源的方向，如SRP-PHAT(Steering response power-phase transform,SRP-PHAT，可控功率响应和相位变换的声源定位算法)算法，该算法具有较好的稳健性。但是该方法分辨率较差，在有房间混响或周围噪声干扰的情况下，角度估计偏差变大。

在此基础上，发明人经过创造性劳动，进一步研究出了本发明实施例中的语音波达方向的估计方法。

具体的，参照图1，语音波达方向的估计方法可以包括：

S11、获取位于不同位置的传声器采集的目标用户的语音信号。

其中，在目标用户说话的地方，如会议室，在会议室的不同位置设置传声器，如可以在目标用户四周设置四个传声器，每一传声器的位置不同。

四个传声器分别可以采集到目标用户的语音，即可以得到四个语音信号，语音信号也可以称为房间冲击响应。

S12、对所述语音信号进行滤波操作和组合操作，得到对应预设方向上的滤波语音。

依据四个传声器阵列的位置，设置多个滤波器，如可以将空间分成10份，利用超指向波束形成器的原理每间隔20度设计一组滤波器系数。即一共有10个滤波器，角度分别为：0°、20°、40°、60°、80°、100°、120°、140°、160°和180°。除了可以用超指向波束形成器利用超指向空间滤波原理设置滤波器系数，即设计波束形状外，还可以使用凸优化方式设置滤波器系数，即通过凸优化方法设计波束形状。

在设置好滤波器系数之后，就可以通过滤波器进行语音信号滤波和组合操作，具体的，将上述四个传声器采集的每一语音信号分别通过10个滤波器，即可得到每一语音信号在0°、20°、40°、60°、80°、100°、120°、140°、160°和180°的滤波语音，然后将四个语音信号在0°的滤波信号分别进行组合，将20°的滤波信号分别进行组合，然后40°、60°、80°、100°、120°、140°、160°和180°的类似处理，就可以得到0°、20°、40°、60°、80°、100°、120°、140°、160°和180°方向的滤波语音。

S13、依据对应预设方向上的所述滤波语音以及预设波达方向预测模型，确定所述目标用户所在的目标方向。

本实施例中引入了预设波达方向预测模型，预设波达方向预测模型是一神经网络模型，将得到的不同预设方向的滤波语音输入到预设波达方向预测模型中，上述介绍了有10个预设方向，即将10个滤波语音输入到预设波达方向预测模型中。

预设波达方向预测模型可以通过滤波语音分析得到所述目标用户位于每一所述预设方向的概率值，即可以得到10个概率值，找到这10个概率值中的最大值，最大值所在的方向即为目标的方向。即步骤S13具体可以包括：

在实际应用中，利用4个传声器组成的均匀线阵，传声器间距为0.035m，噪声方向为90度，声源方向为150度，则空间波束图如图2所示。利用设计好的超指向波束进行滤波，结果如下，仅以100度(图3)和160度(图4)为例，从图3和4中可以看出明显160°的输出结果语音线谱更丰富更清晰。

即通过本发明实施例避免了对空间波束图进行扫描的过程，尤其是对于混响较大的房间，且房间中含有一些稳态噪声干扰，由于混响及稳态噪声的存在空间波束图会有几个较大的峰值，对于找到正确的方向带来了麻烦。而利用该方法可以避免单纯依靠找能量最大的方法，以空间滤波后语音清晰度为依据来寻找声源的方向。

本实施例中，获取位于不同位置的传声器采集的目标用户的语音信号，对所述语音信号进行滤波操作和组合操作，得到对应预设方向上的滤波语音，依据对应预设方向上的所述滤波语音以及预设波达方向预测模型，确定所述目标用户所在的目标方向。通过本发明，可以预估出目标用户所在的目标方向，即实现了语音波达方向估计。

另外，利用超指向性波束代替传统的波束以提高空间分辨率，但是超指向性波束的白噪声增益大于1，如果用传统的能量扫描结果会有偏差，因此可以用DNN模型替换能量扫描过程，以语音线谱的清晰度为依据，得到说话人的方向。另外，将波束形成降噪(即步骤S12)和DOA估计一起做，减少计算量。

上述介绍了预设波达方向预测模型，现对其生成过程进行介绍，具体的，参照图5，所述预设波达方向预测模型的生成过程可以包括：

S21、获取位于不同位置的所述传声器采集的位于不同方向的用户输出的语音信号样本。

本实施例是为了获取神经网络模型，即预设波达方向预测模型的训练样本。利用房间冲击响应仿真软件，根据传声器阵列的位置以及说话人的方向生成多组房间冲击响应。

具体的，传声器设置位置同上，依旧是四个传声器。不同的用户在位于传声器不同方向的位置语音，通过传声器采集不同方向的语音信号，即房间冲击响应。其中，传声器的数量可以依据具体使用场景来定，并不局限于四个。

需要说明的是，用户可以在每一方向说出不同的语音，如说了一遍“我今天吃饭了”之后，再说一句“生日快乐”等等。这样可以得到传声器采集的不同语音在不同方向的语音信号。

S22、将位于不同位置的所述传声器采集的位于同一方向且输出同一语音的用户的语音信号样本作为一组语音信号样本集。

本实施例是将单通道近场语音转换成远场多通道语音，具体的，为了区分不同语音信号，将采集的方向未发生变化且说出同一语音的用户的语音信号样本作为一组语音信号样本集。

举例来说，用户在A方向说了一句“生日快乐”，则将此时四个传声器分别采集的“生日快乐”作为一组语音信号样本集。

然后，用户换到了B方向，并且说了一句“天气很晴朗”，则将此时四个传声器分别采集的“天气很晴朗”作为一组语音信号样本集。

S23、对于每一所述语音信号样本集，将所述语音信号样本集中的语音信号样本在不同预设方向进行滤波和组合操作，得到多路单通道语音。

其中，每一单通道语音与相应的预设方向对应。

具体的，对于每一所述语音信号样本集，如四个“天气很晴朗”的语音，分别经过上述的10个滤波器组，得到10个不同预设方向的单路通道语音。

S24、将位于所述预设方向中的指定方向的单通道语音作为正向集，将位于所述预设方向中除指定方向之外的预设方向的单通道语音作为负向集。

S25、对所述正向集和所述负向集进行训练，得到所述预设波达方向预测模型。

其中，指定方向可以是0°，即将经过0度空间滤波器的语音作为正向集，其他9路输出的语音作为反向集送入深度神经网络DNN进行训练，得到一个预设波达方向预测模型。

需要说明的是，步骤S23-S25是“基于每组所述语音信号样本集，训练得到所述预设波达方向预测模型”的具体实现过程，此外，还可以通过其他实现方式实现“基于每组所述语音信号样本集，训练得到所述预设波达方向预测模型”，在此不做限定。

本实施例中，给出了构建预设波达方向预测模型的过程，进而可以通过本实施例构建出预设波达方向预测模型，并用于波达方向估计。

可选的，在上述语音波达方向的估计方法的实施例的基础上，本发明的另一实施例提供了一种语音波达方向的估计装置，参照图6，可以包括：

信号获取模块101，用于获取位于不同位置的传声器采集的目标用户的语音信号；

信号处理模块102，用于对所述语音信号进行滤波操作和组合操作，得到对应预设方向上的滤波语音；

方向确定模块103，用于依据对应预设方向上的所述滤波语音以及预设波达方向预测模型，确定所述目标用户所在的目标方向。

进一步，所述方向确定模块用于依据不同预设方向的所述滤波语音以及预设波达方向预测模型，确定所述目标用户所在的目标方向时，具体用于：

需要说明的是，本实施例中的各个模块的工作过程，请参照上述实施例中的相应说明，在此不再赘述。

可选的，在上述估计装置的实施例的基础上，还包括：

进一步，所述样本训练模块包括：

需要说明的是，本实施例中的各个模块和子模块的工作过程，请参照上述实施例中的相应说明，在此不再赘述。

可选的，在上述语音波达方向的估计方法及装置的实施例的基础上，本发明的另一实施例提供了一种电子设备，包括：存储器和处理器；

其中，所述存储器用于存储程序；

处理器调用程序并用于：

获取位于不同位置的传声器采集的目标用户的语音信号；

进一步，所述预设波达方向预测模型的生成过程包括：

进一步，基于每组所述语音信号样本集，训练得到所述预设波达方向预测模型，包括：

进一步，依据对应预设方向上的所述滤波语音以及预设波达方向预测模型，确定所述目标用户所在的目标方向，包括：

筛选出对应的概率值最大的预设方向作为所述目标方向。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音波达方向的估计方法，其特征在于，包括：

获取位于不同位置的传声器采集的目标用户的语音信号；

依据对应预设方向上的所述滤波语音以及预设波达方向预测模型，确定所述目标用户所在的目标方向；

所述预设波达方向预测模型的生成过程包括：

2.根据权利要求1所述的估计方法，其特征在于，基于每组所述语音信号样本集，训练得到所述预设波达方向预测模型，包括：

3.根据权利要求1所述的估计方法，其特征在于，依据对应预设方向上的所述滤波语音以及预设波达方向预测模型，确定所述目标用户所在的目标方向，包括：

筛选出对应的概率值最大的预设方向作为所述目标方向。

4.一种语音波达方向的估计装置，其特征在于，包括：

方向确定模块，用于依据对应预设方向上的所述滤波语音以及预设波达方向预测模型，确定所述目标用户所在的目标方向；

还包括：

5.根据权利要求4所述的估计装置，其特征在于，所述样本训练模块包括：

6.根据权利要求4所述的估计装置，其特征在于，所述方向确定模块用于依据不同预设方向的所述滤波语音以及预设波达方向预测模型，确定所述目标用户所在的目标方向时，具体用于：

7.一种电子设备，其特征在于，包括：存储器和处理器；

其中，所述存储器用于存储程序；

处理器调用程序并用于：

获取位于不同位置的传声器采集的目标用户的语音信号；

所述预设波达方向预测模型的生成过程包括：