CN112180318B

CN112180318B - 声源波达方向估计模型训练和声源波达方向估计方法

Info

Publication number: CN112180318B
Application number: CN202011045128.1A
Authority: CN
Inventors: 刘容良; 郑能恒
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2023-06-27
Anticipated expiration: 2040-09-28
Also published as: CN112180318A

Abstract

本发明公开了一种声源波达方向估计模型训练和声源波达方向估计方法，其中声源波达方向估计模型训练方法，包括：获取基于不同声场环境下多种类型的语音特征构建的模型训练数据；将所述模型训练数据输入到目标神经网络模型，对所述目标神经网络模型进行训练，直至模型估计结果满足估计要求，得到声源波达方向估计模型，其中所述目标神经网络模型包括注意力机制模块和特征融合模块。通过使用多种不同类型的语音特征构建的模型训练数据进行模型训练，使得多种不同类型的语音特征可以进行互补，提高了特征维度，继而提高了训练得到的模型估计结果的准确性。

Description

声源波达方向估计模型训练和声源波达方向估计方法

技术领域

本发明涉及语音处理技术领域，具体涉及声源波达方向估计模型训练和声源波达方向估计方法。

背景技术

随着人工智能的快速发展，基于智能语音技术的人机交互应用场景得到极大扩展，由此带来复杂声场环境(例如，时变的噪声与混响特性、声场随声源－麦克风空间位置的改变等)中智能语音系统的鲁棒性问题。复杂声场中准确的声源方向估计是提升系统鲁棒性的关键技术之一。例如商场的服务机器人，准确的声源方位估计能够提升交互的质量，又如会议场景下，声源方位估计的准确性直接影响波束形成的性能，从而影响设备远场拾音的效果。基于麦克风阵列的波达方向(Direction of Arrival，DOA)估计是声源方位估计的经典方法，有着极其重要的地位。

常见的DOA估计方法包括：(1)基于广义互相关相位加权(GCC－PHAT)的DOA估计方法，该方法首先计算麦克风接收信号间的广义互相关函数，再通过峰值检测获得到达时间差(TDOA)的估计值，最后根据阵列的拓扑结构得到声源DOA的估计值。显然这种方法依赖于对TDOA的准确估计，但在嘈杂环境下，广义互相关函数会出现许多虚假峰，严重影响TDOA的估计性能，DOA估计准确性显著下降；(2)基于深度学习的DOA估计方法，该方法利用方法(1)提取特征，将DOA估计转化为分类问题，并采用DNN分类网络完成DOA估计任务。该方法通过大数据驱动方式，相比于传统方法，能够显著提升DOA估计性能。但在低信噪比和强混响环境下时，特征会出现许多虚假峰，而方法(1)本身存在提取特征的维度有限的问题，导致方法(2)的特征并不能很好地表征更多DOA信息，在一定程度上限制了DOA估计的性能。故亟待提出一种新的声源波达方向估计方法以提高波达方向估计的准确性。

发明内容

因此，本发明要解决的技术问题在于克服现有声源波达方向估计方法准确性差的缺陷，从而提供一种声源波达方向估计模型训练和声源波达方向估计方法。

根据第一方面，本发明实施例公开了一种声源波达方向估计模型训练方法，包括：获取基于不同声场环境下多种类型的语音特征构建的模型训练数据；将所述模型训练数据输入到目标神经网络模型，对所述目标神经网络模型进行训练，直至模型估计结果满足估计要求，得到声源波达方向估计模型，其中所述目标神经网络模型包括注意力机制模块和特征融合模块。

可选地，所述获取基于不同声场环境下多种类型的语音特征构建的模型训练数据之前，所述方法还包括：基于虚声源模型构建不同声场环境下声源到达多个拾音设备的脉冲响应；将获取到的语料库中的语音信号与所述脉冲响应进行卷积后，与预设环境噪声信号进行相加处理，得到所述多个拾音设备接收到仿真信号，基于所述仿真信号得到仿真声场数据；基于不同类型语音特征提取算法，对所述仿真声场数据进行语音特征提取，得到所述不同声场环境下多种类型的语音特征。

可选地，所述语音特征提取算法包括：基于广义互相关算法和最小均方误差准则。

可选地，基于广义互相关算法，对所述仿真声场数据进行语音特征提取，得到所述不同声场环境下多种类型的语音特征，包括：基于所述广义互相关算法，根据所述仿真声场数据提取出每两个拾音设备的广义互相关特征；获取所述多个拾音设备之间的最大间隔距离；根据所述最大间隔距离、声速以及所述拾音设备的采样频率，得到最大时延点数；基于所述最大时延点数以及所述每两个拾音设的广义互相关特征，得到基于所述广义互相关特征构建的语音特征。

可选地，基于最小均方误差准则，对所述仿真声场数据进行语音特征提取，得到所述不同声场环境下多种类型的语音特征，包括：以每两个拾音设备中任意一个拾音设备的仿真声场数据为目标数据，根据最小均方误差准则确定最优自适应滤波器，通过所述最优自适应滤波器使得作为输入信号的另一个拾音设备的仿真声场数据经过所述最优自适应滤波器后与所述目标数据的均方差最小；对所述每两个拾音设备进行最优自适应滤波器估计，得到每两个拾音设备的最小均方差特征；基于所述最大时延点数以及所述每两个拾音设备的最小均方差特征，得到基于所述最小均方差特征构建的语音特征。

可选地，所述注意力机制模块从数据输入到输出方向依次设置有平均池化层以及多个间隔设置的卷积层和激活层，所述特征融合模块包括第一线性层和第二线性层，在所述第一线性层和所述第二线性层之间设置有长短期记忆网络层，所述注意力机制模块的最后一层卷积层的输出结果经过处理后输入到所述特征融合模块的第一线性层；将所述模型训练数据输入到目标神经网络模型，对所述目标神经网络模型进行训练，包括：将不同类型的语音特征分别输入到对应的通道，每一个通道的语音特征依次通过所述池化层、卷积层和激活层处理，并将最后一层卷积层的输出结果进行归一化处理后得到相应的语音特征的注意力权重值；将每一种类型的语音特征与其对应的注意力权重值进行乘积计算，得到增强特征，将所述增强特征输入到所述特征融合模块；利用第一线性层对接收到的所述增强特征转换为一维特征向量，将所述一维特征向量依次通过所述长短期记忆网络层和第二线性层处理，根据所述第二线性层的输出结果得到所述模型估计结果。

根据第二方面，本发明实施例还公开了一种声源波达方向估计方法，包括：获取待检测语音信号；将所述待检测语音信号进行特征提取，得到待检测语音特征；将所述待检测语音特征输入到根据如第一方面或第一方面任一可选实施方式所述的声源波达方向估计模型训练方法训练得到的声源波达方向估计模型，得到所述待检测语音信号的声源波达方向。

根据第三方面，本发明实施例还公开了一种声源波达方向估计模型训练装置，包括：第一获取模块，用于获取基于不同声场环境下多种类型的语音特征构建的模型训练数据；训练模块，用于将所述模型训练数据输入到目标神经网络模型，对所述目标神经网络模型进行训练，直至模型估计结果满足估计要求，得到声源波达方向估计模型，其中所述目标神经网络模型包括注意力机制模块和特征融合模块。

根据第四方面，本发明实施例还公开了一种声源波达方向估计装置，包括：第二获取模块，用于获取待检测语音信号；提取模块，用于将所述待检测语音信号进行特征提取，得到待检测语音特征；估计模块，用于将所述待检测语音特征输入到根据如第一方面或第一方面任一可选实施方式所述的声源波达方向估计模型训练方法训练得到的声源波达方向估计模型进行方向估计，得到所述待检测语音信号的声源波达方向。

根据第五方面，本发明实施例还公开了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如第一方面或第一方面任一可选实施方式所述的声源波达方向估计模型训练方法的步骤，或者如第二方面所述的声源波达方向估计方法的步骤。

本发明技术方案，具有如下优点：

本发明提供的声源波达方向估计模型训练方法/装置，通过获取基于不同声场环境下多种类型的语音特征构建的模型训练数据，将模型训练数据输入到包含有注意力机制模块和特征融合模块的目标神经网络模型，对目标神经网络模型进行训练，直至模型估计结果满足估计要求，得到声源波达方向估计模型。相比于现有技术中，使用单一特征进行模型训练，由于单一特征本身表达能力有限或对单一特征提取过程中产生的特征误差，对模型的DOA估计的准确性造成影响；本申请通过使用多种不同类型的语音特征构建的模型训练数据进行模型训练，使得多种不同类型的语音特征可以进行互补，提高了特征维度，继而提高了训练得到的模型估计结果的准确性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中提供的一种声源波达方向估计模型训练方法的流程图；

图2为本发明实施例中提供的一种声源波达方向估计模型训练方法的具体示例图；

图3为本发明实施例中提供的一种声源波达方向估计模型训练方法的具体示例图；

图4为本发明实施例中提供的一种声源波达方向估计方法的流程图；

图5为本发明实施例中提供的一种声源波达方向估计模型训练装置的原理框图；

图6为本发明实施例中提供的一种声源波达方向估计装置的原理框图；

图7为本发明实施例中提供的一种电子设备的一个具体示例图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明实施例公开了一种声源波达方向估计模型训练方法，如图1所示，该方法包括如下步骤：

步骤101，获取基于不同声场环境下多种类型的语音特征构建的模型训练数据。

示例性地，该多不同声场环境下多种类型的语音特征可以包括语音信号的相位特征或者基于各种算法的算法特征，如基于广义互相关函数提取出的广义互相关特征等，本申请实施例对获取到的语音特征的类型不作限定，本领域技术人员可以根据实际需要确定。基于不同声场环境下多种类型的语音特征可以预先提取，在对语音特征进行提取的同时对相应的语音特征进行标签创建，通过标签创建，将对DOA估计转化为分类问题，标签创建的方式可以是以拾音设备(如麦克风)为中心，自左至右的180度范围，以方向分辨率10度为间隔，从0到180度建立19个类别，分别对应标签“1”～“19”，即标签“1”表征声源方向在拾音设备的正左边，标签“19”表征声源方向在拾音设备的正右边，以此类推其他标签的含义，在此不再赘述。本申请实施例对标签类型、数量以及表征含义不作限定，本领域技术人员可以根据实际需要确定。将提取出的语音特征以及对应的标签存储到训练数据文件夹，构建，当需要进行模型训练时，从训练数据文件夹中调取相比模型训练数据。

步骤102，将所述模型训练数据输入到目标神经网络模型，对所述目标神经网络模型进行训练，直至模型估计结果满足估计要求，得到声源波达方向估计模型，其中所述目标神经网络模型包括注意力机制模块和特征融合模块。

示例性地，该目标神经网络模型可以是任一可以经过训练后可以实现声源波达方向估计的模型，本申请实施例对该目标神经网络模型的具体结构组成不作限定。具体的，本申请实施例中该目标神经网络模型包括注意力机制模块以及特征融合模块，通过注意力机制自动学习和计算输入的不同类型的语音特征的权重，从而改善嘈杂环境下特征的表征能力，即最大化利用不同类型的语音特征的优势互补特征；通过特征融合模型对不同类型语音特征进行融合处理以进行声源波达方向分类器的训练。结合模型训练数据对目标神经网络模型进行训练，直至模型估计结果的准确率达到目标准确性或目标神经网络模型的损失函数的损失值满足损失条件，即可以认为模型估计结果满足估计要求，将模型估计结果满足估计要求的目标神经网络模型作为声源波达方向估计模型，以用于后续的实际音源的DOA估计。

本发明实施例提供的声源波达方向估计模型训练方法，通过获取基于不同声场环境下多种类型的语音特征构建的模型训练数据，将模型训练数据输入到包含有注意力机制模块和特征融合模块的目标神经网络模型，对目标神经网络模型进行训练，直至模型估计结果满足估计要求，得到声源波达方向估计模型。相比于现有技术中，使用单一特征进行模型训练，由于单一特征本身表达能力有限或对单一特征提取过程中产生的特征误差，对模型的DOA估计的准确性造成影响；本申请通过使用多种不同类型的语音特征构建的模型训练数据进行模型训练，使得多种不同类型的语音特征可以进行互补，提高了特征维度，继而提高了训练得到的模型估计结果的准确性。

作为本发明一个可选实施方式，步骤101之前，该方法还包括：

1011，基于虚声源模型构建不同声场环境下声源到达多个拾音设备的脉冲响应；

示例性地，获取对声音传输造成影响的关键因素，如声场环境大小(长、宽、高)、声场环境下的混响时长(如0.6S或0.9S)以及不同声场环境下声源到拾音设备之间的绝对位置和相对位置信息等，本申请实施例对关键因素的类型不作限定。将获取到的不同的关键因素进行混合设置得到不同声场环境，继而基于虚声源模型构建不同声场环境下声源到达多个拾音设备的脉冲响应。

1012，将获取到的语料库中的语音信号与所述脉冲响应进行卷积后，与预设环境噪声信号进行相加处理，得到所述多个拾音设备接收到仿真信号，基于所述仿真信号得到仿真声场数据；

示例性地，语料库中的语音信号可以是不包含环境噪声的语音信号，在将语料库中的语音信号与脉冲响应进行卷积之前可以对语料库中的语音信号进行静音(VAD)检测，提取出有声段的语音信号来与脉冲响应进行卷积，以减小不包含任何有效信息的无声端语音信号对模型训练造成影响。在将语料库中的语音信号与脉冲响应进行卷积操作后，加入预设环境噪声构建得到不同声源环境下可能接收到的多种仿真信号，将该仿真信号作为仿真声场数据。

为了增加模型的泛化能力，在得到仿真声场数据时可以根据多个实际使用场景需要对构建仿真声场数据的多个影响因素进行调整，从而得到复杂多变的大型仿真声场数据库以用于后续模型训练以及测试验证。

1013，基于不同类型语音特征提取算法，对所述仿真声场数据进行语音特征提取，得到所述不同声场环境下多种类型的语音特征。该语音特征提取算法可以包括：基于广义互相关算法和最小均方误差准则。

作为本发明一个可选实施方式，基于广义互相关算法，对所述仿真声场数据进行语音特征提取，得到所述不同声场环境下多种类型的语音特征，包括：

基于所述广义互相关算法，根据所述仿真声场数据提取出每两个拾音设备的广义互相关特征；获取所述多个拾音设备之间的最大间隔距离；根据所述最大间隔距离、声速以及所述拾音设备的采样频率，得到最大时延点数；基于所述最大时延点数以及所述每两个拾音设的广义互相关特征，得到基于所述广义互相关特征构建的语音特征。

示例性地，通过广义互相关函数计算拾音设备阵列中每两个麦克风之间的广义互相关(GCC)特征。以拾音设备为麦克风为例，对于拾音设备阵列中的任一两个麦克风M₁和M₂，接收到语音信号的时域表达为x₁(t)和x₂(t)，根据GCC-PHAT(广义互相关相位加权)算法，可以通过对x₁(t)和x₂(t)的加权互功率谱做傅里叶变换计算出二者之间的广义互相关函数

其中，

为互功率谱：X₁(ω)和/>

为语音信号的频域表达，*是共轭复数算子。

φ(ω)为频域相位加权因子：

通过上述公式即可提取任意两个麦克风M₁和M₂语音信号的GCC特征。由于该算法存在空间分辨率问题，提取的特征维度较固定。故为了增加GCC特征的维度，获取多个拾音设备之间的最大间隔距离，根据最大间隔距离、声速以及拾音设备的采样频率，得到最大时延点数，基于最大时延点数以及每两个拾音设的广义互相关特征，得到基于广义互相关特征构建的语音特征。

例如一个间距4cm的6麦线阵，当声源信号从0度传播至麦阵时，可求得最大时延τ_max:

其中，0.2m为麦阵的最大间距，对于线阵来说，该最大间距为首、尾两个麦克风间距，340m/s为声速。假设麦克风的采样率为16kHz，则可求得最大的时延点数n_max：

n_max＝16000*τ_max≈10

因此，包含达到时间差TDOA＝0在内的前、后各10个点构成的21个点为一组GCC特征；对于6麦线阵，以任意两个麦克风作为计算单元，总共可有

种组合方式，所以每帧信号提取的特征为15*21的矩阵特征图，该矩阵特征图即为基于广义互相关特征构建的语音特征。

作为本发明另一个可选实施方式，基于最小均方误差准则，对所述仿真声场数据进行语音特征提取，得到所述不同声场环境下多种类型的语音特征，包括：

以每两个拾音设备中任意一个拾音设备的仿真声场数据为目标数据，根据最小均方误差准则确定最优自适应滤波器，通过所述最优自适应滤波器使得作为输入信号的另一个拾音设备的仿真声场数据经过所述最优自适应滤波器后与所述目标数据的均方差最小；对所述每两个拾音设备进行最优自适应滤波器估计，得到每两个拾音设备的最小均方差特征；基于所述最大时延点数以及所述每两个拾音设备的最小均方差特征，得到基于所述最小均方差特征构建的语音特征。

示例性地，以图3所示，本实施例中目标数据为x₂(n)，输入信号为x₁(n)，h(n)为自适应滤波器，y(n)为经过h(n)后的输出信号，将y(n)与x₂(n)进行比对，通过最小均方误差准则(LMS)，让输入信号通过该最优自适应滤波器后与目标数据的均方误差e(n)最小，通过迭代更新滤波器参数得到最优滤波器h_opt(n)。

同样地，取包含时间差TDOA＝0在内的前、后各10个点构成的21个点作为一组LMS特征，对于6麦线阵，以任意两个麦克风作为计算单元，总共可有

种组合方式，所以每帧信号提取的特征为特征尺寸也为15*21的矩阵特征图。在提取完上述两种特征后，可对提取到的特征作归一化处理，降低特征间的差异性，提高模型的学习效率。进一步地，如图2所示，也可以对得到的最优滤波器h_opt()进行峰值检测，获得到达时间差(TDOA)的估计值，最后根据阵列的拓扑结构得到声源DOA的估计值。

作为本发明一个可选实施方式，结合图4所示，所述注意力机制模块从数据输入到输出方向依次设置有平均池化层3以及多个间隔设置的卷积层4、卷积层6、卷积层8和激活层5、激活层7，所述特征融合模块包括第一线性层11和第二线性层，图4中第二线性层包含线性层13和线性层14，在所述第一线性层和所述第二线性层之间设置有长短期记忆网络层12，所述注意力机制模块的最后一层卷积层8的输出结果经过处理后输入到所述特征融合模块的第一线性层11，本申请实施例对注意力机制模块以及特征融合模块包含的各个功能层的数量不作限定，本领域技术人员可以根据实际需要确定，本申请实施例中长短期记忆网络层12设置为两层。通过在特征融合模块中设置长短期记忆网络层，充分利用长短期记忆网络对时序信息记忆特征，可以进一步提升模型对嘈杂环境下的估计性能。

将所述模型训练数据输入到目标神经网络模型，对所述目标神经网络模型进行训练，包括：

将不同类型的语音特征分别输入到对应的通道，每一个通道的语音特征依次通过所述池化层、卷积层和激活层处理，并将最后一层卷积层的输出结果进行归一化处理后得到相应的语音特征的注意力权重值；将每一种类型的语音特征与其对应的注意力权重值进行乘积计算，得到增强特征，将所述增强特征输入到所述特征融合模块；利用第一线性层对接收到的所述增强特征转换为一维特征向量，将所述一维特征向量依次通过所述长短期记忆网络层和第二线性层处理，根据所述第二线性层的输出结果得到所述模型估计结果。

示例性地，结合图4，本申请实施例中的第一类语音特征1和第二类语音特征2分别为上述实施例得到的模型GCC特征图和LMS特征图，将GCC和LMS特征图，拼为双通道特征图以便注意力机制模块的学习。注意力机制模块的第一层为平均池化层3，以获得不同通道的描述特征f_c：

其中，x_c(i，j)表示第c个通道在(i，j)位置的特征值；F表示平均池化函数；H为输入特征图的长度，即麦克风的组合数(如本实施例中的15)；W为特征图的宽度，即每帧信号特征的维度(如本实施例中的21)。

为了获得每个通道的注意力权重值，将fc通过卷积层和激活层的ReLU激活函数，最后经过功能模块9中的Sigmoid函数计算后得到相应的注意力权重值wc，具体如下式所示：

w_c＝σ(Conv(δ(Conv(δ(Conv(f_c))))))

其中，σ为Sigmoid激活函数，δ为ReLU激活函数。最后，通过特征权重乘法功能模块10将输入的两种特征分别乘以对应的注意力权重值得到增强特征f′_c：

f′_c＝w_c×x_c

将两种特征乘以对应权重后输入特征融合模块，先将两个15*21的特征图展开成1*630的一维特征向量，再经过一个两层LSTM网络，最后通过2个线性层作softmax分类得到模型估计结果(即DOA分类结果)，在模型训练过程中可以引入dropout、early-stop算法等来防止模型训练过拟合。

本申请实施例的模型训练过程，通过构建大规模的仿真数据库，能够更大限度的模拟各种复杂声场环境，由之训练所得模型具备更强的泛化能力，使用场景包括但不限于智能音箱、智能手机、服务机器人以及线上的会议系统等。

本发明实施例公开了一种声源波达方向估计方法，如图4所示，该方法包括如下步骤：

步骤401，获取待检测语音信号；该待检测语音信号可以是实际需要进行声源波法方向估计的信号，也可以是在上述实施例中获取到的模型训练数据中的语音信号，以实现对训练得到的声源波达方向估计模型准确性验证或测试。本申请实施例不作限定。

步骤402，将所述待检测语音信号进行特征提取，得到待检测语音特征；具体的，特征提取方式可以根据上述模型训练实施例中使用的特征提取算法进行提取，本申请实施例不作限定。

步骤403，将所述待检测语音特征输入到根据上述实施例所述的声源波达方向估计模型训练方法训练得到的声源波达方向估计模型进行方向估计，得到所述待检测语音信号的声源波达方向。

本发明实施例还公开了一种声源波达方向估计模型训练装置，如图5所示，该装置包括：

第一获取模块501，用于获取基于不同声场环境下多种类型的语音特征构建的模型训练数据；

训练模块502，用于将所述模型训练数据输入到目标神经网络模型，对所述目标神经网络模型进行训练，直至模型估计结果满足估计要求，得到声源波达方向估计模型，其中所述目标神经网络模型包括注意力机制模块和特征融合模块。

本发明提供的基于特征融合注意力网络的声源波达方向估计装置，通过获取基于不同声场环境下多种类型的语音特征构建的模型训练数据，将模型训练数据输入到包含有注意力机制模块和特征融合模块的目标神经网络模型，对目标神经网络模型进行训练，直至模型估计结果满足估计要求，得到声源波达方向估计模型。相比于现有技术中，使用单一特征进行模型训练，由于单一特征本身表达能力有限或对单一特征提取过程中产生的特征误差，对模型的DOA估计的准确性造成影响；本申请通过使用多种不同类型的语音特征构建的模型训练数据进行模型训练，使得多种不同类型的语音特征可以进行互补，提高了特征维度，继而提高了训练得到的模型估计结果的准确性。

作为本发明一个可选实施方式，所述装置还包括：脉冲响应构建模块，用于基于虚声源模型构建不同声场环境下声源到达多个拾音设备的脉冲响应；仿真声场数据获取模块，用于将获取到的语料库中的语音信号与所述脉冲响应进行卷积后，与预设环境噪声信号进行相加处理，得到所述多个拾音设备接收到仿真信号，基于所述仿真信号得到仿真声场数据；语音特征获取模块，用于基于不同类型语音特征提取算法，对所述仿真声场数据进行语音特征提取，得到所述不同声场环境下多种类型的语音特征。

作为本发明一个可选实施方式，所述语音特征提取算法包括：基于广义互相关算法和最小均方误差准则。

作为本发明一个可选实施方式，该语音特征获取模块，包括第一语音特征获取模块，用于基于所述广义互相关算法，根据所述仿真声场数据提取出每两个拾音设备的广义互相关特征；获取所述多个拾音设备之间的最大间隔距离；根据所述最大间隔距离、声速以及所述拾音设备的采样频率，得到最大时延点数；基于所述最大时延点数以及所述每两个拾音设的广义互相关特征，得到基于所述广义互相关特征构建的语音特征。

作为本发明一个可选实施方式，该语音特征获取模块，包括第二语音特征获取模块，用于以每两个拾音设备中任意一个拾音设备的仿真声场数据为目标数据，根据最小均方误差准则确定最优自适应滤波器，通过所述最优自适应滤波器使得作为输入信号的另一个拾音设备的仿真声场数据经过所述最优自适应滤波器后与所述目标数据的均方差最小；对所述每两个拾音设备进行最优自适应滤波器估计，得到每两个拾音设备的最小均方差特征；基于所述最大时延点数以及所述每两个拾音设备的最小均方差特征，得到基于所述最小均方差特征构建的语音特征。

作为本发明一个可选实施方式，所述注意力机制模块从数据输入到输出方向依次设置有平均池化层以及多个间隔设置的卷积层和激活层，所述特征融合模块包括第一线性层和第二线性层，在所述第一线性层和所述第二线性层之间设置有长短期记忆网络层，所述注意力机制模块的最后一层卷积层的输出结果经过处理后输入到所述特征融合模块的第一线性层；该训练模块，还用于将不同类型的语音特征分别输入到对应的通道，每一个通道的语音特征依次通过所述池化层、卷积层和激活层处理，并将最后一层卷积层的输出结果进行归一化处理后得到相应的语音特征的注意力权重值；将每一种类型的语音特征与其对应的注意力权重值进行乘积计算，得到增强特征，将所述增强特征输入到所述特征融合模块；利用第一线性层对接收到的所述增强特征转换为一维特征向量，将所述一维特征向量依次通过所述长短期记忆网络层和第二线性层处理，根据所述第二线性层的输出结果得到所述模型估计结果。

本发明实施例还公开了一种声源波达方向估计装置，如图6所示，该装置包括：

第二获取模块601，用于获取待检测语音信号；

提取模块602，用于将所述待检测语音信号进行特征提取，得到待检测语音特征；

估计模块603，用于将所述待检测语音特征输入到根据上述实施例所述的声源波达方向估计模型训练方法训练得到的声源波达方向估计模型进行方向估计，得到所述待检测语音信号的声源波达方向。

本发明实施例还提供了一种电子设备，如图7所示，该电子设备可以包括处理器701和存储器702，其中处理器701和存储器702可以通过总线或者其他方式连接，图7中以通过总线连接为例。

处理器701可以为中央处理器(Central Processing Unit，CPU)。处理器701还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器702作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的声源波达方向估计模型训练方法或声源波达方向估计方法对应的程序指令/模块。处理器701通过运行存储在存储器702中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的声源波达方向估计模型训练方法或声源波达方向估计方法。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器701所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至处理器701。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器702中，当被所述处理器701执行时，执行如图1所示实施例中的声源波达方向估计模型训练方法或执行如图2所示实施例中的声源波达方向估计方法。

上述电子设备具体细节可以对应参阅图1、图2所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种声源波达方向估计模型训练方法，其特征在于，包括：

获取基于不同声场环境下多种类型的语音特征构建的模型训练数据；

将所述模型训练数据输入到目标神经网络模型，对所述目标神经网络模型进行训练，直至模型估计结果满足估计要求，得到声源波达方向估计模型，其中所述目标神经网络模型包括注意力机制模块和特征融合模块；所述获取基于不同声场环境下多种类型的语音特征构建的模型训练数据之前，所述方法还包括：

基于虚声源模型构建不同声场环境下声源到达多个拾音设备的脉冲响应；

将获取到的语料库中的语音信号与所述脉冲响应进行卷积后，与预设环境噪声信号进行相加处理，得到所述多个拾音设备接收到仿真信号，基于所述仿真信号得到仿真声场数据；

基于不同类型语音特征提取算法，对所述仿真声场数据进行语音特征提取，得到所述不同声场环境下多种类型的语音特征，所述语音特征提取算法包括：基于广义互相关算法和最小均方误差准则；

基于最小均方误差准则，对所述仿真声场数据进行语音特征提取，得到所述不同声场环境下多种类型的语音特征，包括：

以每两个拾音设备中任意一个拾音设备的仿真声场数据为目标数据，根据最小均方误差准则确定最优自适应滤波器，通过所述最优自适应滤波器使得作为输入信号的另一个拾音设备的仿真声场数据经过所述最优自适应滤波器后与所述目标数据的均方差最小；

对所述每两个拾音设备进行最优自适应滤波器估计，得到每两个拾音设备的最小均方差特征；

基于最大时延点数以及所述每两个拾音设备的最小均方差特征，得到基于所述最小均方差特征构建的语音特征，其中所述最大时延点数通过下述步骤得到：基于所述广义互相关算法，根据所述仿真声场数据提取出每两个拾音设备的广义互相关特征；获取所述多个拾音设备之间的最大间隔距离；根据所述最大间隔距离、声速以及所述拾音设备的采样频率，得到最大时延点数。

2.根据权利要求1所述的方法，其特征在于，基于广义互相关算法，对所述仿真声场数据进行语音特征提取，得到所述不同声场环境下多种类型的语音特征，包括：

基于所述最大时延点数以及所述每两个拾音设的广义互相关特征，得到基于所述广义互相关特征构建的语音特征。

3.根据权利要求1所述的方法，其特征在于，所述注意力机制模块从数据输入到输出方向依次设置有平均池化层以及多个间隔设置的卷积层和激活层，所述特征融合模块包括第一线性层和第二线性层，在所述第一线性层和所述第二线性层之间设置有长短期记忆网络层，所述注意力机制模块的最后一层卷积层的输出结果经过处理后输入到所述特征融合模块的第一线性层；

将不同类型的语音特征分别输入到对应的通道，每一个通道的语音特征依次通过所述池化层、卷积层和激活层处理，并将最后一层卷积层的输出结果进行归一化处理后得到相应的语音特征的注意力权重值；

将每一种类型的语音特征与其对应的注意力权重值进行乘积计算，得到增强特征，将所述增强特征输入到所述特征融合模块；

利用第一线性层对接收到的所述增强特征转换为一维特征向量，将所述一维特征向量依次通过所述长短期记忆网络层和第二线性层处理，根据所述第二线性层的输出结果得到所述模型估计结果。

4.一种声源波达方向估计方法，其特征在于，包括：

获取待检测语音信号；

将所述待检测语音信号进行特征提取，得到待检测语音特征；

将所述待检测语音特征输入到根据权利要求1-3中任一项所述的声源波达方向估计模型训练方法训练得到的声源波达方向估计模型进行方向估计，得到所述待检测语音信号的声源波达方向。

5.一种声源波达方向估计模型训练装置，其特征在于，包括：

第一获取模块，用于获取基于不同声场环境下多种类型的语音特征构建的模型训练数据；

训练模块，用于将所述模型训练数据输入到目标神经网络模型，对所述目标神经网络模型进行训练，直至模型估计结果满足估计要求，得到声源波达方向估计模型，其中所述目标神经网络模型包括注意力机制模块和特征融合模块；

所述装置还包括：脉冲响应构建模块，用于基于虚声源模型构建不同声场环境下声源到达多个拾音设备的脉冲响应；仿真声场数据获取模块，用于将获取到的语料库中的语音信号与所述脉冲响应进行卷积后，与预设环境噪声信号进行相加处理，得到所述多个拾音设备接收到仿真信号，基于所述仿真信号得到仿真声场数据；语音特征获取模块，用于基于不同类型语音特征提取算法，对所述仿真声场数据进行语音特征提取，得到所述不同声场环境下多种类型的语音特征，所述语音特征提取算法包括：基于广义互相关算法和最小均方误差准则；

所述语音特征获取模块，包括第二语音特征获取模块，用于以每两个拾音设备中任意一个拾音设备的仿真声场数据为目标数据，根据最小均方误差准则确定最优自适应滤波器，通过所述最优自适应滤波器使得作为输入信号的另一个拾音设备的仿真声场数据经过所述最优自适应滤波器后与所述目标数据的均方差最小；对所述每两个拾音设备进行最优自适应滤波器估计，得到每两个拾音设备的最小均方差特征；基于最大时延点数以及所述每两个拾音设备的最小均方差特征，得到基于所述最小均方差特征构建的语音特征，其中所述最大时延点数通过下述步骤得到：基于所述广义互相关算法，根据所述仿真声场数据提取出每两个拾音设备的广义互相关特征；获取所述多个拾音设备之间的最大间隔距离；根据所述最大间隔距离、声速以及所述拾音设备的采样频率，得到最大时延点数。

6.一种声源波达方向估计装置，其特征在于，包括：

第二获取模块，用于获取待检测语音信号；

提取模块，用于将所述待检测语音信号进行特征提取，得到待检测语音特征；

估计模块，用于将所述待检测语音特征输入到根据权利要求1-3中任一项所述的声源波达方向估计模型训练方法训练得到的声源波达方向估计模型进行方向估计，得到所述待检测语音信号的声源波达方向。

7.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-3中任一项所述的声源波达方向估计模型训练方法，或者如权利要求4所述的声源波达方向估计方法的步骤。