CN113763965B

CN113763965B - 一种多重注意力特征融合的说话人识别方法

Info

Publication number: CN113763965B
Application number: CN202110986397.6A
Authority: CN
Inventors: 毛启容; 秦友才; 万子楷; 任庆桦
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2023-12-19
Anticipated expiration: 2041-08-26
Also published as: CN113763965A

Abstract

本发明提供了一种多重注意力特征融合的说话人识别方法，构建深度说话人表征模型，包括特征提取器和说话人分类器，Fbank特征作为深度说话人表征模型的输入，通过特征提取器将Fbank特征提取为说话人表征，在训练阶段，使用说话人分类器将说话人表征映射到说话人标签上，并构造损失函数对深度说话人表征模型进行优化；在测试阶段，采用余弦距离比较说话人表征之间的相似度，根据阈值判断是否为相同的说话人。本发明通过多重注意力特征融合对不同分支的特征进行加权融合，多重注意力特征融合包括空间注意力机制和通道注意力机制，增强了每个分支中的有效信息，获得更加鲁棒性的说话人识别性能。

Description

一种多重注意力特征融合的说话人识别方法

技术领域

本发明属于人工智能技术领域，具体涉及一种多重注意力特征融合的说话人识别方法。

背景技术

随着语音技术的发展，越来越多的设备都支持语音控制，例如智能手机、智能音箱和智能汽车。为了提高语音控制的安全性，说话人识别技术常常被加入到这些智能设备中作为前端服务，来确保仅有特定的说话人使用这些语音服务。说话人识别是一个非常热门的话题，许多的方法都被提出来解决这个问题。

说话人识别的核心步骤是从语音信号中提取说话人表征。早期，语音信号的概率密度函数被用来描述说话人的身份信息，高斯混合-通用背景模型(Gaussian MixtureModel-Universal Background Model，GMM-UBM)就是其中的代表模型，从大量说话人无关的语音学习语音信号的分布规律作为UBM，最大后验概率(Maximum A Posteriori，MAP)算法将UBM的参数调整为目标说话人的GMM参数。因GMM-UBM中的均值超矢量不仅包含说话人信息还包含噪音信息和信道信息，改进版本i-vector方法尝试将均值超矢量进行分解，并采用PLDA(Probabilistic Linear Discriminant Analysis)进行信道补偿，获得了显著的性能提升。随着深度学习被成功的运用到计算机视觉和自然语言处理，基于深度学习的说话人识别系统也被提出，其中，以d-vector和x-vector的代表深度说话人表征模型最为流行。最近，许多基于x-vector的改进方法被提出，在保持原有计算量和参数下取得了更好的性能，D-TDNN(Densely Connected Time Delay Neural Network)就是其中之一，D-TDNN通过堆叠TDNN来增加x-vector的网络深度，同时采用窄输出和密集连接来减少参数和计算量。目前，研究学者发现多分支特征能够帮助模型学习到更具区分性的说话人表征，该方法通过不同的卷积核参数将特征映射为不同的分支，每个分支单独的进行处理，最后在将每个分支的特征进行融合，在多分支特征融合时，传统方法采用相加或者拼接的方式，无法充分发挥多分支特征的特性。

发明内容

针对现有技术中存在不足，本发明提供了一种多重注意力特征融合的说话人识别方法，对不同分支的特征进行加权融合，充分发挥多分支特征的特性。

本发明是通过以下技术手段实现上述技术目的的。

一种多重注意力特征融合的说话人识别方法，具体为：

构建深度说话人表征模型，深度说话人表征模型包括特征提取器和说话人分类器，Fbank特征作为深度说话人表征模型的输入，通过特征提取器将Fbank特征提取为说话人表征，在训练阶段，使用说话人分类器将说话人表征映射到说话人标签上，并构造损失函数对深度说话人表征模型进行优化；在测试阶段，采用余弦距离比较说话人表征之间的相似度，根据阈值判断是否为相同的说话人；

所述深度说话人表征模型基于多重注意力特征融合，所述多重注意力特征包括空间注意力机制和通道注意力机制，从全局数据上学习不同分支的特征权重，对特征X₁和X₂进行相加融合，获得全局特征G，将所述G分别输入到空间注意力机制和通道注意力机制中，获得每个分支的特征权重，最终得到多重注意力特征融合的输出特征。

进一步地，所述空间注意力机制输入为全局特征G，输出为空间注意力权重和/>所述空间注意力机制由四层TDNN组成，通过所述TDNN将全局特征映射为不同分支的特征权重，每个分支的每个像素点都学习一个权重，每个分支相同位置的像素点之间使用SoftMax激活操作进行归一化；其中，T代表帧数，F代表频率维度。

更进一步地，对所述全局特征G，通过卷积核为1、空洞率为1的TDNN进行特征学习，先将频率维度F压缩为F，再将频率维度还原为原始尺寸F，其中F＜F`。

进一步地，所述通道注意力机制的输入为全局特征G，输出为通道注意力权重和/>所述通道注意力机制包括池化函数和多层全连接层，池化函数对全局特征G进行压缩，获得中间特征/>再采用全连接层提取瓶颈特征/>从瓶颈特征Z`映射出不同分支的通道权重β₁和β₂；最后采用SoftMax激活函数将不同分支的通道权重规整至(0，1)范围内。

更进一步地，所述通道注意力机制为每个分支的每个通道学习一个权重。

进一步地，所述空间注意力机制、通道注意力机制以及TDNN组成一个结构块，重复堆叠所述结构块组成深度说话人表征模型，不同的结构块之间采用密集连接。

进一步地，所述损失函数采用角加边损失函数AAM-SoftMax。

进一步地，所述Fbank特征是通过对语音信号进行短时傅里叶变换得到语谱图，语谱图再通过梅尔滤波器获得的。

本发明的有益效果为：

(1)本发明通过多重注意力特征融合对不同分支的特征进行加权融合，和传统的融合方法相比，增强每个分支中的有效信息，抑制噪音等无效信息，获取更加鲁棒性的说话人识别性能。

(2)本发明的多重注意力特征融合包括空间注意力机制和通道注意力机制，空间注意力机制为不同分支的每个特征点都学习一个权重，能够有效的学习细腻的声纹特征；通道注意力机制则为不同分支的每个通道学习一个权重，为特征图添加了全局信息并调整了不同通道之间的比例关系。

附图说明

图1为本发明所述多重注意力特征融合的说话人识别方法流程图；

图2为本发明所述多重注意力特征融合结构图；

图3为本发明所述空间注意力机制结构示意图；

图4为本发明所述通道注意力机制结构示意图。

具体实施方式

下面结合附图以及具体实施例对本发明作进一步的说明，但本发明的保护范围并不限于此。

如图1所示，本发明一种多重注意力特征融合的说话人识别方法，对语音信号进行短时傅里叶变换得到语谱图，语谱图通过梅尔滤波器获得Fbank特征，Fbank特征作为深度说话人表征模型的输入特征，深度说话人表征模型包括特征提取器和说话人分类器，通过特征提取器将Fbank特征提取为说话人表征(speaker embedding)，说话人表征代表一段语音信号中说话人的声纹信息；在深度说话人表征模型的训练阶段，使用说话人分类器将说话人表征映射到说话人标签上，并构造损失函数对深度说话人表征模型进行优化；在深度说话人表征模型的测试阶段，采用余弦距离比较说话人表征之间的相似度，根据阈值判断是否为相同的说话人。具体的做法主要分为以下几个步骤：

步骤(1)，原始语音信号是时域波形图，尺寸为T×1，其中T为采样点个数；语音信号的特性往往表现在时频域，加之语音信号具有短时稳定的特性，即在短时(30ms以下)可被认为是稳定信号，将时域信号转化为时频域信号是语音技术的通用手段。短时傅里叶变换将时域波形图变换为时频域特征图(即语谱图)，窗口长度设置为20ms，并按照10ms的间隔移动窗口；再使用梅尔滤波器将时频域特征图转化为符合人耳听觉特性的梅尔频率谱特征(Fbank特征)；Fbank特征的尺寸为T×F，其中T代表帧数，F代表频率维度。假设为第i个语音信号的Fbank特征。

步骤(2)，采用延时神经网络(TDNN)构建特征提取器，同时采用多重注意力特征融合的策略搭建深度说话人表征模型。多重注意力特征融合方法对深度说话人表征模型不同分支的特征加权融合，其结构图如图2所示，单分支特征通过不同参数的TDNN映射为特征/>和/>X₁和X₂代表不同分支的特征。多分支特征包含多尺度、多样性的说话人特征。空间注意力机制和通道注意力机制从全局数据上学习不同分支的特征权重，对特征X₁和X₂进行相加融合，获得全局特征/>将G分别输入到空间注意力机制和通道注意力机制中，获得每个分支的特征权重，最终得到多重注意力特征融合的输出特征为/>不同分支从不同的感受野中学习多样性的说话人特征，多重注意力特征融合将这些多样性特征融合到一起，提高说话人识别性能。

如图3所示，空间注意力机制输入为全局特征G，输出为空间注意力权重和/>空间注意力机制由四层TDNN组成，对全局特征G，通过卷积核为1、空洞率为1的TDNN进行特征学习，先将频率维度F压缩为F`(F＞F`)，再将频率维度还原为原始尺寸F；频率维度的缩放过程学习了瓶颈特征，瓶颈特征有利于加快模型收敛。通过TDNN将全局特征映射为不同分支的特征权重，每个分支的每个像素点都学习一个权重；每个分支相同位置的像素点之间使用SoftMax激活操作进行归一化，使不同分支相同位置的像素点权重之和为1。

空间注意力机制的具体计算流程为：

α₁，α₂＝Softmax([α₁，α₂]，dim＝1) (5)

其中：Z₁为中间层的瓶颈特征，Z₂为中间层复原特征，W₁、W₂、W₃、W₄、b₁、b₂、b₃、b₄为TDNN的参数，f₁、f₂、f₃、f₄为TDNN的映射过程，dim表示SoftMax激活函数的操作维度。

如图4所示，通道注意力机制的输入为全局特征G，输出为通道注意力权重和/>通道注意力机制由池化函数、多层全连接层组成，池化函数对全局特征G进行压缩，获得中间特征/>再采用全连接层提取瓶颈特征/>相较中间特征Z，频率维度为原始的一半，即F=2×F`，从瓶颈特征Z`映射出不同分支的通道权重β₁和β₂；最后采用SoftMax激活函数将不同分支的通道权重规整至(0，1)范围内。

通道注意力机制的具体计算流程为：

β₁，β₂＝Softmax([β₁，β₂]，dim＝1) (10)

其中：W₅、W₆、W₇、b₅、b₆、b₇为全连接层的参数，f₅、f₆、f₇为全连接层的映射过程。

通道注意力机制为每个分支的每个通道学习一个权重，和空间注意力机制不同之处在于相同通道的特征仅有一个共享特征权重。通道注意力机制自适应调整每个分支通道的权重，同时将激励压缩得到的全局信息添加到原始特征中。

空间注意力机制学习特征之间细腻的局部信息，而通道注意力机制学习特征之间的全局信息，两种注意力机制相互补充相互促进，共同提高说话人识别性能。

将相同分支的空间注意力权重和通道注意力权重相加，获得多重注意力特征融合权重γ₁和γ₂。利用权重对于每个分支的原始特征进行加权求和，获得输出特征Y。

γ₁＝α₁+β₁ (11)

γ₂＝α₂+β₂ (12)

Y＝γ₁×X₁+γ₂×X₂ (13)

空间注意力机制、通道注意力机制以及TDNN组成一个结构块，重复堆叠这些结构块组成深度说话人表征模型，不同的结构块之间采用密集连接，即前面结构块的输出被拼接到后面所有结构块的输入中。

步骤(3)，在训练阶段，为了能够使用梯度下降法更新特征提取器的参数，在特征提取器后设置说话人分类器，将说话人表征映射到说话人标签上，并利用说话人标签信息构建损失函数，本发明采用一种角加边损失函数(AAM-SoftMax)作为损失函数对特征提取器进行优化，在L2正则化之后的权重和特征的基础上，引入使得角度空间中类间的决策边界最大化。具体的公式为：

其中，N为样本数，s为比例因子，ψ(·)为加边函数，θ_i，j表示权重w_i，j和特征f_i＝f(x_i；Θ)之间的角度，x_i表示说话人分类器的第i个输入，f(x_i；Θ)为非线性变换的全连接层，Θ为全连接层的参数。

所述实施例为本发明的优选的实施方式，但本发明并不限于上述实施方式，在不背离本发明的实质内容的情况下，本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。

Claims

1.一种多重注意力特征融合的说话人识别方法，其特征在于：

所述深度说话人表征模型基于多重注意力特征融合，所述多重注意力特征包括空间注意力机制和通道注意力机制，从全局数据上学习不同分支的特征权重，对特征X₁和X₂进行相加融合，获得全局特征G，将所述G分别输入到空间注意力机制和通道注意力机制中，获得每个分支的特征权重，最终得到多重注意力特征融合的输出特征；

所述空间注意力机制输入为全局特征G，输出为空间注意力权重和/>所述空间注意力机制由四层TDNN组成；对所述全局特征G，通过卷积核为1、空洞率为1的TDNN进行特征学习，先将频率维度F压缩为F`，再将频率维度还原为原始尺寸F；频率维度的缩放过程学习了瓶颈特征，瓶颈特征有利于加快模型收敛；通过所述TDNN将全局特征映射为不同分支的特征权重，每个分支的每个像素点都学习一个权重；其中，T代表帧数，F代表频率维度，且F>F`。

2.根据权利要求1所述的多重注意力特征融合的说话人识别方法，其特征在于，每个分支相同位置的像素点之间使用SoftMax激活操作进行归一化。

3.根据权利要求1所述的多重注意力特征融合的说话人识别方法，其特征在于，所述通道注意力机制的输入为全局特征G，输出为通道注意力权重和/>所述通道注意力机制包括池化函数和多层全连接层，池化函数对全局特征G进行压缩，获得中间特征/>再采用全连接层提取瓶颈特征/>从瓶颈特征Z`映射出不同分支的通道权重β₁和β₂；最后采用SoftMax激活函数将不同分支的通道权重规整至(0，1)范围内。

4.根据权利要求3所述的多重注意力特征融合的说话人识别方法，其特征在于，所述通道注意力机制为每个分支的每个通道学习一个权重。

5.根据权利要求1所述的多重注意力特征融合的说话人识别方法，其特征在于，所述空间注意力机制、通道注意力机制以及TDNN组成一个结构块，重复堆叠所述结构块组成深度说话人表征模型，不同的结构块之间采用密集连接。

6.根据权利要求1所述的多重注意力特征融合的说话人识别方法，其特征在于，所述损失函数采用角加边损失函数AAM-SoftMax。

7.根据权利要求1所述的多重注意力特征融合的说话人识别方法，其特征在于，所述Fbank特征是通过对语音信号进行短时傅里叶变换得到语谱图，语谱图再通过梅尔滤波器获得的。