CN111596261B

CN111596261B - 一种声源定位方法及装置

Info

Publication number: CN111596261B
Application number: CN202010256529.5A
Authority: CN
Inventors: 李庆龙; 关海欣
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2022-06-14
Anticipated expiration: 2040-04-02
Also published as: CN111596261A

Abstract

本发明公开了一种声源定位方法及装置，所述方法包括：获取待估计的多通道语音；获取目标降噪模型及目标DOA估计模型；基于所述目标降噪模型及目标DOA估计模型，对所述待估计的多通道语音进行声源定位。通过本发明的技术方案，能够准确的进行声源定位。

Description

一种声源定位方法及装置

技术领域

本发明涉及定位技术领域，特别涉及一种声源定位方法及装置。

背景技术

声源定位(DOA)是麦克风阵列中的一项重要技术。其作用是在嘈杂环境下判断出目标说话人与麦克风阵列的相对方向。为后续波束形成操作提供重要且准确的信息。

传统的DOA估计方法在信噪比较高的环境中估计准确率比较理想，但在低信噪比环境下、非平稳噪声下的效果不理想。当前基于深度学习的DOA估计方法能有效提高低信噪比环境下的估计准确率，但在多人同时讲话的噪声下的估计性能依旧有待改善。目前多人同时讲话的识别方法是将多通道的语音同时送入模型，得到该时刻语音的DOA估计值，但该方法对噪声的鲁棒性需要改进，且在babble等噪声下的估计效果依旧不理想，总的来说，现有技术对带有噪音的多通道语音声源定位不准确。

发明内容

本发明提供一种声源定位方法及装置，所述技术方案如下：

根据本发明实施例的第一方面，提供了一种声源定位方法，包括：

获取待估计的多通道语音；

获取目标降噪模型及目标DOA估计模型；

基于所述目标降噪模型及目标DOA估计模型，对所述待估计的多通道语音进行声源定位，以得到估计的声源方向。

在一个实施例中，所述获取目标降噪模型，包括：

获取原始降噪模型；

获取若干条第一单通道带噪语音；

对所述若干条第一单通道带噪语音进行特征提取，以得到若干条第一语音特征；

确定所述若干条第一单通道带噪语音分别对应的纯净语音的语谱或mask；

将所述若干条第一语音特征作为所述原始降噪模型的输入，将所述若干条第一单通道带噪语音分别对应的纯净语音的语谱或mask作为所述原始降噪模型的输出来训练所述原始降噪模型，以得到所述目标降噪模型。

在一个实施例中，所述获取目标DOA估计模型，包括：

获取作为训练数据的多通道带噪语音；

将所述作为训练数据的多通道带噪语音划分为第一预设数目个第二单通道带噪语音；

对所述第一预设数目个第二单通道带噪语音进行特征提取，以得到第一预设数目个第二语音特征；

将所述第一预设数目个第二语音特征输入至所述目标降噪模型，得到所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask；

根据所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask确定所述目标DOA估计模型。

在一个实施例中，所述根据所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask确定所述目标DOA估计模型，包括：

获取原始DOA估计模型；

确定所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask分别对应的DOA标签，其中，所述DOA标签表示声源的方向。

对所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask进行特征提取，以得到所述第一预设数目个第三语音特征；

将所述第一预设数目个第三语音特征作为所述原始DOA估计模型的输入，将所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask分别对应的DOA标签作为所述原始DOA估计模型的输出来训练所述原始DOA估计模型，以得到所述目标DOA估计模型。

在一个实施例中，所述基于所述目标降噪模型及目标DOA估计模型，对所述待估计的多通道语音进行声源定位，以得到估计的声源方向，包括

将所述待估计的多通道语音划分为第二预设数目个单通道语音；

对所述第二预设数目个单通道语音进行特征提取，以得到第二预设数目个第四语音特征；

将所述第二预设数目个第四语音特征输入至所述目标降噪模型，得到第二预设数目个单通道语音分别对应的纯净语音的语谱或mask；

对所述第二预设数目个单通道语音分别对应的纯净语音的语谱或mask进行特征提取，以得到第二预设数目个第五语音特征；

将所述第二预设数目个第五语音特征输入至所述目标DOA估计模型，得到估计的声源方向，得到所述估计的声源方向。

根据本发明实施例的第二方面，提供了一种声源定位装置，包括：

第一获取模块，用于获取待估计的多通道语音；

第二获取模块，用于获取目标降噪模型及目标DOA估计模型；

声源定位模块，用于基于所述目标降噪模型及目标DOA估计模型，对所述待估计的多通道语音进行声源定位，以得到估计的声源方向。

在一个实施例中，所述第二获取模块，包括：

第一获取子模块，用于获取原始降噪模型；

第二获取子模块，用于获取若干条第一单通道带噪语音；

第一提取子模块，用于对所述若干条第一单通道带噪语音进行特征提取，以得到若干条第一语音特征；

第一确定子模块，用于确定所述若干条第一单通道带噪语音分别对应的纯净语音的语谱或mask；

第一训练子模块，用于将所述若干条第一语音特征作为所述原始降噪模型的输入，将所述若干条第一单通道带噪语音分别对应的纯净语音的语谱或mask作为所述原始降噪模型的输出来训练所述原始降噪模型，以得到所述目标降噪模型。

在一个实施例中，所述第二获取模块，包括：

第三获取子模块，用于获取作为训练数据的多通道带噪语音；

第一划分子模块，用于将所述作为训练数据的多通道带噪语音划分为第一预设数目个第二单通道带噪语音；

第二提取子模块，用于对所述第一预设数目个第二单通道带噪语音进行特征提取，以得到第一预设数目个第二语音特征；

第一输入子模块，用于将所述第一预设数目个第二语音特征输入至所述目标降噪模型，得到所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask；

第二确定子模块，用于根据所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask确定所述目标DOA估计模型。

在一个实施例中，所述第二确定子模块，包括：

获取单元，用于获取原始DOA估计模型；

确定单元，用于确定所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask分别对应的DOA标签，其中，所述DOA标签表示声源的方向。

提取单元，用于对所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask进行特征提取，以得到所述第一预设数目个第三语音特征；

输入单元，用于将所述第一预设数目个第三语音特征作为所述原始DOA估计模型的输入，将所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask分别对应的DOA标签作为所述原始DOA估计模型的输出来训练所述原始DOA估计模型，以得到所述目标DOA估计模型。

在一个实施例中，所述声源定位模块，包括

第二划分子模块，用于将所述待估计的多通道语音划分为第二预设数目个单通道语音；

第三提取子模块，用于对所述第二预设数目个单通道语音进行特征提取，以得到第二预设数目个第四语音特征；

第二输入子模块，用于将所述第二预设数目个第四语音特征输入至所述目标降噪模型，得到第二预设数目个单通道语音分别对应的纯净语音的语谱或mask；

第四提取子模块，用于对所述第二预设数目个单通道语音分别对应的纯净语音的语谱或mask进行特征提取，以得到第二预设数目个第五语音特征；

第三输入子模块，用于将所述第二预设数目个第五语音特征输入至所述目标DOA估计模型，得到估计的声源方向，得到所述估计的声源方向。

本发明的实施例提供的技术方案可以包括以下有益效果：

获取待估计的多通道语音；获取目标降噪模型及目标DOA估计模型；进而，基于目标降噪模型及目标DOA估计模型，对待估计的多通道语音进行声源定位，能够得到估计的声源方向，通过本发明技术方案，在进行声源定位时，基于目标降噪模型能够除去待估计的多通道语音中的噪音，然后，基于目标DOA估计模型能准确的进行声源定位，进而得到准确的声源方向。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明一实施例中一种声源定位方法的流程图；

图2为本发明一实施例中另一种声源定位方法的流程图；

图3为本发明一实施例中一种声源定位装置的框图；

图4为本发明一实施例中另一种声源定位方法的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1为本发明一实施例中一种声源定位方法的流程图，如图1所示，该方法可被实施为以下步骤S11-S13：

在步骤S11中，获取待估计的多通道语音；

在步骤S12中，获取目标降噪模型及目标DOA估计模型；其中，目标DOA估计模型可以是满足本发明需求的径向基(RBF)神经网络模型。

在步骤S13中，基于目标降噪模型及目标DOA估计模型，对待估计的多通道语音进行声源定位，以得到估计的声源方向。

如图2所示，在一个实施例中，上述步骤S12可被实施为以下步骤S121-S125：

在步骤S121中，获取原始降噪模型；

在步骤S122中，获取若干条第一单通道带噪语音；

在步骤S123中，对若干条第一单通道带噪语音进行特征提取，以得到若干条第一语音特征；

在步骤S124中，确定若干条第一单通道带噪语音分别对应的纯净语音的语谱或mask；其中，mask的意思为掩膜，且通过单个语音的mask，可以类似得到单个语音的一个语谱图。mask的值在0到1之间，代表的是一个频点属于语音的概率，当一个频点是语音时，其对应的mask的值会接近1，反之亦然。

在步骤S125中，将若干条第一语音特征作为原始降噪模型的输入，将若干条第一单通道带噪语音分别对应的纯净语音的语谱或mask作为原始降噪模型的输出来训练原始降噪模型，以得到目标降噪模型。其中，纯净语音指的是没有噪音的语音。

上述技术方案，将若干条第一语音特征作为原始降噪模型的输入，将若干条第一单通道带噪语音分别对应的纯净语音的语谱或mask作为原始降噪模型的输出来训练原始降噪模型，能够得到目标降噪模型，且该目标降噪模型的降噪能力强。

在一个实施例中，所述获取目标DOA估计模型，包括：

获取作为训练数据的多通道带噪语音；

通过上述技术方案，根据第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask能够确定一个声源定位准确的，减少噪声对声源信息影响的目标DOA估计模型。

获取原始DOA估计模型；

通过上述技术方案，由于mask的特征，在进行模型训练的时候，能够提高模型的性能，大大减少通过模型进行定位时噪声对声源信息的影响，并保存好有用的信息，使得目标DOA估计模型进行定位的更加简单、准确，性能也更加稳定，同时通过估计的纯净语谱提取的特征训练模型，性能也会大大提高。

通过上述技术方案，排除噪声对声源定位的影响，准确的获取到估计的声源方向。

对本发明实施例提供的上述一种声源定位方法，本发明实施例还提供了一种声源定位装置，如图3所示，该装置包括：

第一获取模块31，用于获取待估计的多通道语音；

第二获取模块32，用于获取目标降噪模型及目标DOA估计模型；

声源定位模块33，用于基于所述目标降噪模型及目标DOA估计模型，对所述待估计的多通道语音进行声源定位，以得到估计的声源方向。

在一个实施例中，所述第二获取模块32，包括：

第一获取子模块321，用于获取原始降噪模型；

第二获取子模块322，用于获取若干条第一单通道带噪语音；

第一提取子模块323，用于对所述若干条第一单通道带噪语音进行特征提取，以得到若干条第一语音特征；

第一确定子模块324，用于确定所述若干条第一单通道带噪语音分别对应的纯净语音的语谱或mask；

第一训练子模块325，用于将所述若干条第一语音特征作为所述原始降噪模型的输入，将所述若干条第一单通道带噪语音分别对应的纯净语音的语谱或mask作为所述原始降噪模型的输出来训练所述原始降噪模型，以得到所述目标降噪模型。

在一个实施例中，所述第二获取模块，包括：

在一个实施例中，所述第二确定子模块，包括：

获取单元，用于获取原始DOA估计模型；

在一个实施例中，所述声源定位模块，包括

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种声源定位方法，其特征在于，包括：

获取待估计的多通道语音；

获取目标降噪模型及目标DOA估计模型；

基于所述目标降噪模型及目标DOA估计模型，对所述待估计的多通道语音进行声源定位，以得到估计的声源方向；

所述获取目标降噪模型，包括：

获取原始降噪模型；

获取若干条第一单通道带噪语音；

2.如权利要求1所述的方法，其特征在于，所述获取目标DOA估计模型，包括：

获取作为训练数据的多通道带噪语音；

3.如权利要求2所述的方法，其特征在于，所述根据所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask确定所述目标DOA估计模型，包括：

获取原始DOA估计模型；

确定所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask分别对应的DOA标签，其中，所述DOA标签表示声源的方向；

4.如权利要求1所述的方法，其特征在于，所述基于所述目标降噪模型及目标DOA估计模型，对所述待估计的多通道语音进行声源定位，以得到估计的声源方向，包括

将所述第二预设数目个第五语音特征输入至所述目标DOA估计模型，得到所述估计的声源方向。

5.一种声源定位装置，其特征在于，包括：

第一获取模块，用于获取待估计的多通道语音；

第二获取模块，用于获取目标降噪模型及目标DOA估计模型；

声源定位模块，用于基于所述目标降噪模型及目标DOA估计模型，对所述待估计的多通道语音进行声源定位；

所述第二获取模块，包括：

第一获取子模块，用于获取原始降噪模型；

第二获取子模块，用于获取若干条第一单通道带噪语音；

6.如权利要求5所述的装置，其特征在于，所述第二获取模块，包括：

7.如权利要求6所述的装置，其特征在于，所述第二确定子模块，包括：

获取单元，用于获取原始DOA估计模型；

确定单元，用于确定所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask分别对应的DOA标签，其中，所述DOA标签表示声源的方向；

8.如权利要求5所述的装置，其特征在于，所述声源定位模块，包括

第三输入子模块，用于将所述第二预设数目个第五语音特征输入至所述目标DOA估计模型，得到所述估计的声源方向。