CN115421099A

CN115421099A - 一种语音波达方向估计方法及系统

Info

Publication number: CN115421099A
Application number: CN202211044030.3A
Authority: CN
Inventors: 张鹏远; 杨弋; 颜永红
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2022-12-02

Abstract

本发明公开了一种语音波达方向估计方法，包括：获取远场环境下混合语音音频；对混合语音音频进行分帧、加窗和傅里叶变换处理，得到每帧音频的频谱信号；将频谱信号输入声源位置估计神经网络模型，由声源位置估计神经网络模型输出目标说话人的帧级别的笛卡尔坐标估计；对目标说话人的帧级别的笛卡尔坐标估计在时间维度上进行平均池化操作，得到目标说话人的句子级别的笛卡尔坐标估计；对目标说话人的句子级别的笛卡尔坐标估计进行反正切运算，得到目标说话人的波达方向估计。本发明提供一种语音波达方向估计方法及系统，能够克服多说话人远场环境下，非语音帧与干扰说话人帧对波达方向估计模型的效果的影响，实现低延时的波达方向估计。

Description

一种语音波达方向估计方法及系统

技术领域

本发明涉及语音阵列信号处理领域，尤其涉及一种语音波达方向估计方法及系统。

背景技术

语音波达方向估计是语音阵列信号处理领域中的一个重要课题，它的目标是得到语音信号的产生方向。语音波达方向估计在无线通信、雷达、水下通信、智能家居等环境中具有广泛的应用。

大多数语音波达方向估计的传统算法，如“多信号分类算法”和“联合可控响应功率和相位变换算法”，均在信号处理层面上进行估计，对于不同的噪声和混响环境，这些算法的性能十分有限。

近年来，基于深度神经网络的波达方向估计模型在迅速发展，性能已远超传统方法。但在多说话人的远场环境下，波达方向估计模型的效果会受到非语音帧与干扰说话人帧的影响。目前主要有以下几种解决方法：

(1)引入语音活动估计算法去除非语音帧，并在帧级别上实施波达方向估计，这种方法在一定程度上缓解了非语音帧带来的影响，但预处理的方法会使模型计算量增加，当语音活动估计不准确时，也会为系统带来累计误差；

(2)在推断过程中使用后处理，即在帧级别估计的结果中选取K个最大值作为估计的波达方向，其中K为语音中说话人的个数。由于引入了人工选择过程，这一方法不适用于在线系统；

(3)引入预分离或预提取方法对混合语音进行分离，得到目标说话人的纯净语音，再对得到的纯净语音进行波达方向估计，但当需要波达方向估计技术为语音分离技术提供先验知识时，这种方法是不适用的。

发明内容

为解决现有技术中存在的缺陷，本发明实施例提供一种语音波达方向估计方法及系统，能够克服多说话人远场环境下，非语音帧与干扰说话人帧对波达方向估计模型的效果的影响，实现低延时的波达方向估计。

第一方面，本发明实施例中记载了一种语音波达方向估计方法，该方法包括下列步骤：

获取远场环境下混合语音音频；所述混合语音音频包括至少一个目标说话人的语音信息；

对所述混合语音音频进行分帧、加窗和傅里叶变换处理，得到每帧音频的频谱信号；

将所述每帧音频的频谱信号输入声源位置估计神经网络模型，由所述声源位置估计神经网络模型输出所述目标说话人的帧级别的笛卡尔坐标估计；所述声源位置估计神经网络模型包含自注意力模块，所述自注意力模块通过对输入的音频帧赋予不同的权重来提取所述目标说话人的音频帧；所述声源位置估计神经网络模型由训练得到；

对所述目标说话人的帧级别的笛卡尔坐标估计在时间维度上进行平均池化操作，得到所述目标说话人的句子级别的笛卡尔坐标估计；

对所述说话人的句子级别的笛卡尔坐标估计进行反正切运算，得到所述目标说话人的波达方向估计。

优选的，所述声源位置估计神经网络模型包括卷积输入模块、四层密集连接-时频维自注意力模块和一层全连接层；所述四层密集连接-时频维自注意力模块中的每一层包括密集连接卷积模块、时间维度的自注意力模块和频率维度的自注意力模块。

第二方面，本发明实施例中记载了一种声源位置估计神经网络模型的训练方法，包括：

获取远场环境下混合语音音频训练集和标签集；所述标签集用于记录所述训练集的混合语音音频中目标说话人的声源位置向量；所述混合语音音频包括至少一个目标说话人的语音信息；

对所述混合语音音频进行分帧、加窗和傅里叶变换处理，得到训练集中混合语音音频的频谱信号，所述频谱信号包括实部和虚部；

将所述频谱信号的实部和虚部拼接后的数据输入到所述声源位置估计神经网络，由所述声源位置估计神经网络模型输出所述目标说话人的帧级别的笛卡尔坐标估计；

对所述目标说话人的帧级别的笛卡尔坐标估计在时间维度上进行平均池化操作，得到所述目标说话人的句子级别的笛卡尔坐标估计；所述目标说话人的句子级别的笛卡尔坐标估计用于指示声源位置信息；

根据所述声源位置信息与所述标签集计算声源位置的均方误差；根据所述均方误差调整所述声源位置估计神经网络。

第三方面，本发明实施例中记载了一种语音波达方向估计系统，该系统包括：

信号接收装置，可以为多通道传声器阵列，用于获取远场环境下混合语音音频；所述混合语音音频包括至少一个说话人的语音信息；

信号处理模块，用于对所述混合语音音频进行分帧、加窗和傅里叶变换处理，得到每帧音频的频谱信号；

神经网络模块，用于将所述每帧音频的频谱信号输入声源位置估计网络模型，由所述声源位置估计网络模型输出所述说话人的帧级别的笛卡尔坐标估计；所述声源位置估计网络模型由训练得到；

句子级别声源位置计算模块，用于将所述说话人的帧级别的笛卡尔坐标估计在时间维度上进行平均池化操作，得到所述说话人的句子级别的笛卡尔坐标估计；所述说话人的句子级别的笛卡尔坐标估计用于指示声源位置信息；

波达方向计算模块，用于对所述说话人的句子级别的笛卡尔坐标估计进行反正切运算，得到所述说话人的波达方向估计。

第四方面，一种服务器，其特征在于，包括存储器和处理器，其中：

所述存储器存储有可执行指令；

所述处理器，用于读取并执行存储器中存储的可执行指令，以实现上述任一项所述的方法。

第五方面，一种存储介质，其特征在于，当存储介质中的指令由处理器执行时，使得能够执行上述任一项所述的方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性工作的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种语音波达方向估计方法流程图；

图2为本发明实施例提供的一种语音波达方向估计系统框图；

图3为本发明实施例提供的一种语音波达方向估计系统中神经网络模块训练流程图；

图4为本发明实施例中服务器的简要结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种语音波达方向估计方法流程图，包括下列步骤：

步骤S11，获取远场环境下混合语音音频；混合语音音频包括至少一个目标说话人的语音信息。

远场环境下的混合语音音频还包括，干扰说话人的语音信息，非语音噪声信息。

步骤S12，对混合语音音频进行分帧、加窗和傅里叶变换处理，得到每帧音频的频谱信号。

在一个可行的实施方式中，包括以下步骤S121-S123：

S121，对混合语音音频进行分帧，每帧25毫秒，帧移6.25毫秒；

S122，对每帧音频进行加窗，窗函数为汉明窗；

S123，对每帧音频做512点傅里叶变换，得到每帧音频的频谱。

步骤S13，将每帧音频的频谱信号输入声源位置估计神经网络模型，由声源位置估计神经网络模型输出目标说话人的帧级别的笛卡尔坐标估计。

根据每帧音频的频谱和声源位置估计神经网络获得估计的帧级别笛卡尔坐标

其中，

为第t帧音频的笛卡尔坐标，1≤t≤T，T表示输入语音的总帧数。

声源位置估计神经网络模型包括卷积输入模块、四层密集连接-时频维自注意力模块和一层全连接层；四层密集连接-时频维自注意力模块中的每一层包括密集连接卷积模块、时间维度的自注意力模块和频率维度的自注意力模块。

声源位置估计神经网络模型由训练得到。其包含的自注意力模块由时间维度的自注意力模块和频率维度的自注意力模块组成。对于一个特定的目标说话人，非语音帧不包含任何说话人的信息，而干扰说话人帧则会对目标说话人的波达方向估计产生干扰，使模型训练更加困难，进而对模型效果产生影响。通过训练，时间维度的自注意力模块可以根据输入音频的不同帧的重要程度将不同权重赋予各帧的高维特征向量，来提取与目标说话人相关的高维特征向量。频率维度自注意力网络模块可以对同一帧上不同频点的相关性和重要性进行评估，并根据评估结果为每一个频点赋予权重。

声源位置估计神经网络模型还可以输出理想的低时延，在提出的声源位置估计神经网络模型中，原有的延时主要来源于三点：一是步骤S12中的傅里叶变换处理中帧移的值；二是该模型中的卷积输入模块；三是该模型中的时间维度的自注意力模块。对于第二点，使用因果卷积网络替换了传统的卷积网络，这样，卷积网络不再产生时延；对于第三点，每个时间维度的自注意力模块包括三个平行的二维卷积层，用来计算自注意力网络的Q、K、V值，根据Q、K、V值可以得到时间维度的自注意力模块的输出，非因果自注意力机制的计算方法为：

A＝SoftMax(V)，

其中，d_n表示向量K的维度，A为输出。

在本发明中，对上面的式子做了如下改进操作：

Mask函数的定义为：

这一函数使当前帧t’下的笛卡尔坐标的估计，仅取决于当前帧及历史帧，因此不再产生时延。

因此，系统中时延仅来自于上述的第一点，即傅里叶变换处理中帧移的值。类似于步骤S121中提到的，帧移的长度为6.25毫秒，因此，整个系统的时延也为6.25毫秒，实现低时延处理。

在未来进一步的操作中，还可以结合说话人抽取技术对指定目标说话人的波达方向进行估计。说话人抽取技术需要提前准备指定目标说话人的注册语音，将注册语音的“频谱的实部和虚部拼接后的数据”和本发明中上述步骤S13所述的“每帧音频的频谱信号”共同作为声源位置估计神经网络模型的输入，即可输出指定目标说话人的估计的笛卡尔坐标，进而求取波达方向。

步骤S14，对目标说话人的帧级别的笛卡尔坐标估计在时间维度上进行平均池化操作，得到目标说话人的句子级别的笛卡尔坐标估计。

假设用

表示第t帧上估计的笛卡尔坐标，其中T表示语音的总帧数，则平均池化的过程可以表示为：

其中

为最终估计的句子级别的笛卡尔坐标。

步骤S15，对说话人的句子级别的笛卡尔坐标估计进行反正切运算，得到目标说话人的波达方向估计。

波达方向的计算过程为：

式中，

表示估计的目标说话人的波达方向。

图2为本发明实施例提供的一种语音波达方向估计系统框图，该系统包括：信号接收装置21、信号处理模块22、神经网络模块23、句子级别声源位置计算模块24、波达方向计算模块25。具体的：

信号接收装置21，可以为多通道传声器阵列，用于获取远场环境下混合语音音频；混合语音音频包括至少一个说话人的语音信息；

信号处理模块22，用于对混合语音音频进行分帧、加窗和傅里叶变换处理，得到每帧音频的频谱信号；

神经网络模块23，用于将每帧音频的频谱信号输入声源位置估计神经网络模型，由声源位置估计神经网络模型输出说话人的帧级别的笛卡尔坐标估计；声源位置估计神经网络模型由训练得到；

句子级别声源位置计算模块24，用于将说话人的帧级别的笛卡尔坐标估计在时间维度上进行平均池化操作，得到说话人的句子级别的笛卡尔坐标估计；说话人的句子级别的笛卡尔坐标估计用于指示声源位置信息；

波达方向计算模块25，用于对说话人的句子级别的笛卡尔坐标估计进行反正切运算，得到说话人的波达方向估计。

图3为本发明实施例提供的一种语音波达方向估计系统中神经网络模块训练流程图，在本发明实施例提出的一种语音波达方向估计系统中，神经网络模块包括声源位置估计神经网络模型。对声源位置估计神经网络模型训练的流程包括以下步骤S31-S32：

步骤S31，获取远场环境下混合语音音频训练集和标签集，确定训练语音音频及标签。

在一个实施例中，建立混合语音音频训练集，标签集中的标签用于记录该训练语音音频中目标说话人的声源位置二维向量；确定训练语音音频及标签，对训练语音音频进行分帧、加窗和傅里叶变换处理，得到训练语音频谱；训练语音频谱包括实部和虚部。

步骤S32：根据训练语音频谱和标签，训练声源位置估计神经网络。

在一个实施例中，以训练语音频谱的实部和虚部拼接后的数据为声源位置估计网络的输入，以声源位置向量估计为输出，计算声源位置的均方误差；以均方误差的值在设定的阈值以内为目标进行训练，得到训练好的声源位置估计神经网络。

可以将声源位置的均方误差记为第一损失函数。声源位置的均方误差可以根据网络输出的声源位置向量估计与标签记录的声源位置向量的均方误差计算获得。将该设定的阈值记为第一阈值。

声源位置估计神经网络的输入是训练语音音频经傅里叶变换后得到的频谱的实部和虚部的拼接。声源位置估计网络包括卷积输入模块、4层密集连接-时频维自注意力模块和1层全连接层；每层密集连接-时频维自注意力模块包括密集连接卷积模块、时间维度的自注意力模块和频率维度的自注意力模块。其中卷积输入模块包括二维卷积层、线性整流函数和批归一化处理层，二维卷积层的输出节点数为(2×m)，其中m为输入语音的通道数，卷积核大小和步幅分别为(1，1)和(1，1)。密集连接卷积模块包括5个连续的卷积模块，每个卷积模块均包含二维卷积层、参数化的线性整流函数、批归一化处理层和残差连接，二维卷积层的输出节点数为(2×m)，卷积核大小和步幅分别为(2，3)和(1，1)。每个时间维度的自注意力模块包括三个平行的二维卷积层，用来计算自注意力网络的Q、K、V值，根据Q、K、V值可以得到时间维度的自注意力模块的输出。这三个二维卷积层的卷积核大小均为(1，1)，并对输入向量在频率维度进行降采样操作。4层时间维度的自注意力模块的输入维度分别为B×256×(2×m)×T、B×64×(2×m)×T、B×16×(2×m)×T和B×4×(2×m)×T；输出维度分别为B×64×(2×m)×T、B×16×(2×m)×T、B×4×(2×m)×T和B×1×(2×m)×T。其中，B和T分别表示批数据的大小和输入数据的语音帧数。频率维度的自注意力模块结构与时间维度的自注意力模块结构相同，唯一的区别在于不对输入向量进行降采样操作。4层频率维度的自注意力模块的输入维度分别为B×(2×m)×T×64、B×(2×m)×T×16、B×(2×m)×T×4和B×(2×m)×T×1；输出维度与输入维度相同。全连接层的输出节点数为2。网络最终的输出数据的维度为B×T×2。输出数据为估计的目标说话人帧级别的声源位置向量估计。

基于同一发明构思，本发明实施例还提供一种服务器，包括存储器41和处理器42，其中：

所述存储器41，存储有可执行指令；

所述处理器42，用于读取并执行存储器中存储的可执行指令，以实现上述任一项所述的方法。

基于同一发明构思，本发明实施例还提供一种存储介质，当存储介质中的指令由处理器执行时，使得能够执行如上述任一项所述的方法。

本发明提出了一种语音波达方向估计方法。该方法使用了密集连接-时频维自注意力网络。其中，密集连接卷积网络模块可以保留较长的历史信息，并有效处理梯度消失问题；时间维度自注意力网络模块对不同语音帧的重要性进行评估，并根据评估结果对每一语音帧的高维特征向量赋予不同的权重；频率维度自注意力网络模块对同一语音帧上不同频点的相关性和重要性进行评估，并根据评估结果对不同频点上的高维特征向量赋予不同的权重。该方法实现了句子级别上的波达方向估计，解决了远场带噪环境下非语音帧和干扰说话人语音帧对估计结果产生的负面影响。

需要说明的是，在此提供的方法不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定的编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明内容，并且上面对特定语言、系统功能模块的调用所做的描述仅仅是为了披露发明的最佳实施方式。

在此处所提供的说明书中，说明了大量的具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下完成实现。在一些示例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若对本发明的这些修改和变型属于本发明权利要去及其同等技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音波达方向估计方法，其特征在于，包括：

对所述目标说话人的句子级别的笛卡尔坐标估计进行反正切运算，得到所述目标说话人的波达方向估计。

2.根据权利要求1所述的方法，其特征在于，所述声源位置估计神经网络模型包括卷积输入模块、四层密集连接-时频维自注意力模块和一层全连接层；所述四层密集连接-时频维自注意力模块中的每一层包括密集连接卷积模块、时间维度的自注意力模块和频率维度的自注意力模块。

3.一种声源位置估计神经网络模型的训练方法，包括：

4.根据权利要求3所述的方法，其特征在于，所述声源位置估计神经网络模型包括卷积输入模块、四层密集连接-时频维自注意力模块和一层全连接层；所述四层密集连接-时频维自注意力模块中的每一层包括密集连接卷积模块、时间维度的自注意力模块和频率维度的自注意力模块。

5.一种语音波达方向估计系统，其特征在于，包括：

神经网络模块，用于将所述每帧音频的频谱信号输入声源位置估计神经网络模型，由所述声源位置估计神经网络模型输出所述说话人的帧级别的笛卡尔坐标估计；所述声源位置估计神经网络模型由训练得到；

6.根据权利要求5所述的系统，其特征在于，所述声源位置估计神经网络模型包括卷积输入模块、四层密集连接-时频维自注意力模块和一层全连接层；所述四层密集连接-时频维自注意力模块中的每一层包括密集连接卷积模块、时间维度的自注意力模块和频率维度的自注意力模块。

7.一种服务器，其特征在于，包括存储器和处理器，其中：

所述存储器存储有可执行指令；

所述处理器，用于读取并执行存储器中存储的可执行指令，以实现如权利要求1-4任一项所述的方法。

8.一种存储介质，其特征在于，当存储介质中的指令由处理器执行时，使得能够执行如权利要求1-4任一项所述的方法。