CN113643709B

CN113643709B - 一种基于mean-SAP池化模型的说话人识别方法及系统

Info

Publication number: CN113643709B
Application number: CN202110894996.5A
Authority: CN
Inventors: 邓飞; 邓力洪; 张葛祥; 杨强; 姚光乐
Original assignee: Chengdu Turing Zhiyang Information Technology Co ltd; Chengdu Univeristy of Technology
Current assignee: Chengdu Turing Zhiyang Information Technology Co ltd; Chengdu Univeristy of Technology
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2023-07-18
Anticipated expiration: 2041-08-03
Also published as: CN113643709A

Abstract

本发明公开了一种基于mean‑SAP池化模型的说话人识别方法及系统，该方法及系统通过线性注意力机制产生每帧帧级特征的重要性权重，并通过产生的重要性权重生成统计向量，然后将帧级特征和统计向量的残差与重要性权重加权平均生成话语级特征。最后将话语级特征与数据库中的说话人特征进行欧式距离比较，以确定说话人身份。本发明通过线性注意力机制及引入统计向量的方式，弥补了Self‑attention pooling(SAP)池化模型捕捉有效帧不准确生成的话语级特征鲁棒性弱的问题，提高了说话人识别的准确率。

Description

一种基于mean-SAP池化模型的说话人识别方法及系统

技术领域

本发明涉及声纹识别领域，具体的说，涉及一种基于mean-SAP池化模型的说话人识别方法及系统。

背景技术

基于卷积神经网络的端到端说话人识别系统中，一般采用平均时间池化模型(TAP)将变长的音频聚合为定长的话语级特征。TAP模型可以沿着时间轴进行简单的平均池化。然而，我们的声音有时会变化，甚至在说话时发生停顿。TAP池化模型无法捕捉到这些变化，因此聚合出的话语级特征差，识别准确率低。

近年来，一些学者对池化模型进行了研究。其中(作者)提出了Self-attentionpooling(SAP)池化模型，该方法解决了传统池化模型只能平等的聚合帧级特征的问题，它可自动计算卷积神经网络提取出的每帧帧级特征的重要性进行帧选择，再聚合为定长的话语级特征。但是该方法偶尔会表现出比TAP池化模型更低的识别准确率，说明该方法无法准确的进行帧选择，并且在有噪环境下聚合的话语级特征鲁棒性弱识别效果不理想。

发明内容

本发明针对现有技术存在的不足，提供了一种基于mean-SAP池化模型的说话人识别方法及系统，解决了现有技术中无法准确进行帧选择的问题，提取出的话语级特征鲁棒性弱，提升模型识别的准确率。通过使用本发明的方法可以实现提取出鲁棒性更强的话语级特征，取得更好的识别效果。

本发明的具体技术方案如下：

一种基于基于mean-SAP池化模型的说话人识别方法及系统，如图1所示，包括以下步骤：

步骤1：获取原始音频的线性谱图；

步骤2：使用梅尔滤波器滤波对线性谱图进行滤波得到梅尔谱图；

步骤3：将梅尔谱图放入训练网络中进行训练，提取训练网络中的最后一个卷积层的输出，得到帧级特征；

步骤4：根据帧级特征生成相应的每帧特征的重要性权重；

步骤5：通过神经网络生成与帧级特征同大小的统计向量，并训练出最优的统计向量；

步骤6：将帧级特征与重要性权重映射加权；

步骤7：将重要性权重沿着时间方向加和与统计向量加权；

步骤8：将加权后的帧级特征与加权后的统计向量的残差求和平均生成话语级特征；

步骤9：将话语级特征与数据库中的特征向量进行欧式距离计算，并与阈值比较，最终识别出说话人。

作为优选：步骤1中可以通过短时傅里叶变化获取原始音频的线性谱图，其表达式为：

式中x(m)为m时刻的信号，w(n-m)为窗函数，w为角频率的连续函数，n为关于时间的离散函数，j为大于0小于N-1的整数。

作为优选：步骤4中重要性权重根据线性注意力机制及softmax函数生成，其表达式为：

e_t＝f_SL(x_t)＝w^Tx_t+b

式中，f_SL(·)为线性注意力机制，w为线性注意力机制中的权重b为偏置，w_t为生成的重要性权重。

作为优选：步骤6中帧级特征与重要性权重映射加权得到加权后的帧级特征，其表达式为：

X_t＝w_tx_t

式中，X_t为加权后的帧级特征，x_t为帧级特征，w_t为相应的重要性权重。

作为优选：步骤7中重要性权重沿着时间方向加和与统计向量加权后得到加权的统计向量，其表达式为：

A＝wa

式中，w为沿着时间方向加和后的重要性权重，w_t为相应的重要性权重，a为统计向量，A为加权后的统计向量。

作为优选：步骤8中话语级特征由加权后的帧级特征与加权后的统计向量的残差求和平均，其表达式为：

h_t＝w_tX_t-wA

式中，h_t为残差特征，w_t为相应的重要性权重，A为加权后的统计向量，X_t为加权后的帧级特征，L为帧级特征的数量，w为沿着时间方向加和后的重要性权重，e为最终生成的话语级特征。

作为优选：步骤9中识别出说话人通过话语级特征与数据库中的特征向量进行欧式距离计算，并与阈值比较，其表达式为：

式中，x_i为提取出的话语级特征，y_i为库中已有的目标，L为话特征向量长度。

有益效果在于：

本发明可以适用于各种网络模型，能够直接嵌入到网络模型中，能够获得鲁棒性更强的话语级特征，提升识别准确率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本发明方法的总体结构图；

图2为池化模型示意图；

图3为训练损失曲线图；

图4为训练测试等错误率曲线图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定发明。

现在结合说明书附图对本发明做进一步的说明。

本发明实施例，如图1所示，本发明提供一种基于改进池化模型的说话人识别方法，包括一下步骤：

1.加载原始音频，从原始音频中提取出谱图，提取过程为：

A1：使用短时傅里叶变换得到线性谱图。其公式可表示为：

A2：将A1中得到的线性图谱通过梅尔滤波器滤波得到梅尔谱图。

A3：将梅尔谱图放入ThinResNet-34网络提取出帧级特征，其中ThinResNet-34网络结构如表1所示：

表1 ThinResNet-34网络结构表

2.将提取出的帧级特征通过池化模型聚合为定长的话语级特征，具体步骤如下：

A1：使用线性注意力机制测试生成的帧级特征每帧的重要性，并通过softmax函数生成重要性权重。其表达式为：

e_t＝f_SL(x_t)＝w^Tx_t+b (2)

A2：通过ThinResNet-34生成与帧级特征同大小的统计向量。

A3：帧级特征与重要性权重映射加权，如下公式所示：

X_t＝w_tx_t (4)

其中x_t为帧级特征，w_t为相应的重要性权重。

A3：将重要性权重沿着时间方向加和后与统计向量加权，如下公式所示：

A＝wa (6)

A4：将S6的帧级向量和S7的统计向量求和平均生成话语级特征如：

h_t＝w_tX_t-wA (7)

3.将话语级特征与说话人据库中已有的特征向量进行欧式距离计算。计算公式如下所示：

本方法使用的数据集为近年来国际通用的Voxceleb数据集。Voxceleb为一个大型的“在野外”收集的不依赖于文本的有噪语音数据集。训练集Voxceleb2数据集中共包含5994人的1092009条语音。测试集为Voxceleb1的测试集，包含40人的4874条语音，采用Voxceleb官方给出的测试列表共37720个测试对。网络模型选取ThinResNet-34网络进行帧级特征提取。训练过程中器损失曲线如图3所示，每隔五轮在验证集上进行一次测试等错误率变化曲线如图4所示。在模型训练好后，分别采用TAP池化模型、SAP池化模型、NetVLAD池化模型和mean-SAP池化模型在验证集上进行测试，结果如表2所示。使用本方法后的测试结果相对于使用SAP池化模型的准确率提高了。

表2

以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于mean-SAP池化模型的说话人识别方法，其特征在于，包括以下步骤：

S1：获取原始音频的线性谱图；

S2：根据所述步骤S1得到的线性谱图通过梅尔滤波器得到梅尔谱图；

S3：所述步骤S2得到的梅尔谱图放入训练网络中进行训练，提取训练网络中的最后一个卷积层的输出，得到帧级特征；

S4：生成每帧特征的重要性权重；

S5：通过神经网络生成与帧级特征同大小的统计向量，并训练出最优的统计向量；

S6：将步骤S3的帧级特征与步骤S4的重要性权重映射加权；

S7：将步骤S4生成的重要性权重沿着时间方向加和与所述步骤S5的统计向量加权；

S8：步骤S6得到的加权后的帧级特征与步骤S7得到的加权后的统计向量的残差求和平均生成话语级特征；

S9：将步骤8的话语级特征与数据库中的特征向量进行欧式距离计算，并与阈值比较，最终识别出说话人；

所述步骤S4中，根据线性注意力机制测试所述步骤S3中得到的帧级特征每帧的重要性，并通过下式生成重要性权重：

e_t＝f_SL(x_t)＝w^Tx_t+b

式中，f_SL(·)为线性注意力机制，w为线性注意力机制中的权重b为偏置，w_t为生成的重要性权重；

所述步骤S7中，重要性权重沿着时间方向加和后与统计向量加权，根据下式进行：

A＝wa

2.按照权利要求1所述的方法，其特征在于，所述步骤S1中，获取原始音频的线性谱图，包括根据短时傅里叶变换处理原始音频得到线性谱图。

3.按照权利要求2所述的方法，其特征在于，所述步骤S1中，

根据短时傅里叶变换得到线性谱图，其公式表示为：

式中x(m)为m时刻的信号，w(n-m)为窗函数，w为角频率的连续函数，n为关于时间的离散函数，k为大于0小于N-1的整数。

4.按照权利要求1所述的方法，其特征在于，所述步骤S6中：根据下式进行帧级特征与重要性权重映射加权：

X_t＝w_tx_t

5.按照权利要求1所述的方法，其特征在于，所述步骤S8：步骤S6得到的加权后的帧级特征与步骤S7得到的加权后的统计向量的残差求和平均生成话语级特征，按照下式进行：

h_t＝w_tX_t-wA

6.按照权利要求1所述的方法，其特征在于，所述步骤S9中，

话语级特征与说话人据库中已有的特征向量进行欧式距离计算，计算公式如下所示：

式中，x_i为提取出的话语级特征，y_i为库中已有的目标，L为话特征向量长度；

根据d与阈值的大小来判定说话人。