CN115512708A

CN115512708A - 基于区分性字典与分类器联合学习的说话人识别方法

Info

Publication number: CN115512708A
Application number: CN202211218439.2A
Authority: CN
Inventors: 陈晨; 李文文; 孙文泽; 杨海陆; 王莉莉; 陈德运
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-10-05
Filing date: 2022-10-05
Publication date: 2022-12-23
Anticipated expiration: 2042-10-05
Also published as: CN115512708B

Abstract

本发明公开了一种基于区分性字典与分类器联合学习的说话人识别方法，该方法在训练数据中增加分类器参数和正则化参数，提高了传统说话人识别系统的正确率，是在传统字典学习基础上的创新。本发明在训练阶段，首先对语音提取i‑vector，将其和One‑Hot拼接后作为稀疏分解的输入；然后初始化字典和分类器参数，获取i‑vector在字典上的稀疏表示；最后利用K均值‑奇异值分解(KSVD)算法更新字典。在识别阶段，首先利用字典与其二范数的商作为识别阶段的字典，同理得到分类器参数；然后计算测试语音在字典上的稀疏表示，分类器参数和稀疏表示的积是说话人在不同字典上的得分；最后判断得分最高说话人是否是测试说话人。本发明可以应用于说话人识别领域。

Description

基于区分性字典与分类器联合学习的说话人识别方法

技术领域

本发明涉及一种基于区分性字典与分类器联合学习的说话人识别方法，属于说话人识别技术领域。

背景技术

随着互联网经济的不断发展和人工智能技术的不断进步，以文本密码、身份证件为主的传统身份认证方法已无法满足人们对于身份认证安全性与便捷性的需求。近年来，手机、平板、个人电脑及智能音箱等智能终端设备不断普及，人们在生活中进行身份认证的场景和需求也在不断扩大。身份认证技术的可靠性问题直接影响着人民的经济利益和国家的长治久安，引发了学术界和工业界的关注。针对身份认证问题，生物特征识别已成为目前主流的一类方法。这类方法主要利用人体生物特征作为认证依据，相比于传统的身份认证方式更具安全性与便捷性，因而被广泛的推广与应用。

在各类生物特征识别方法中，说话人识别因其能够有效捕获语音中的动态特性，而具有更高的安全性。同时，语音是人类交流的最直接方式，因此发展基于语音的身份认证技术符合人类沟通的习惯，也满足人们对于便捷的要求。说话人识别能够通过对语音信号的分析处理，来识别说话人的身份。在众多说话人识别方法中，身份-向量(i-vector)方法应用范围较广。本发明在其基础上，将i-vector特征作为前端输入，提出了一种能够进行区分性字典与分类器联合学习的方法。此方法能够通过字典与分类器联合学习的方式，充分挖掘说话人的共性信息与个性信息，从而有效提升说话人识别系统的性能。

发明内容

本发明主要针对说话人识别系统性能提升的问题，提出一种基于区分性字典与分类器联合学习的说话人识别方法。

本发明为解决上述技术问题采取的技术方案是：基于区分性字典与分类器联合学习的说话人识别方法，该方法包括以下步骤：

步骤1、对数据集中所有语音进行预处理并提取其i-vector特征；

步骤2、在训练阶段，随机初始化说话人通用字典Φ₀、说话人字典Φ、分类器参数W，拼接成矩阵Ω；

步骤3、将训练数据与矩阵Ω作为输入，利用正交匹配追踪算法得到训练数据在Ω上的稀疏表示；

步骤4、在误差允许范围内，利用K均值-奇异值分解算法，分别更新说话人通用字典Φ₀、说话人字典Φ；

步骤5、对每个说话人的字典进行L2正则化得到Φ，对分类器参数进行L2正则化得到W；

步骤6、将Φ₀、Φ作为输入，计算测试语音在每个说话人字典上的稀疏表示ω_t；

步骤7、将W、ω_t作为输入，计算得分向量L；

步骤8、将L中所有元素排序，将最大值所对应字典的类别作为测试语音的类别。

附图说明

为使本发明的目的、技术方案与优点更加清楚，下面将结合附图对本发明作进一步描述，其中：

图1为基于区分性字典与分类器联合学习的说话人识别方法的过程示意图；

图2为本发明与PLDA在不同参数下的正确率对比曲线；

图3为训练轮数与正则化系数对正确率的影响对比图。

具体实施方式

下面将通过实施例并结合附图，对本发明中的技术方案进行详细清楚的描述，所描述的实施例仅是本发明的一部分实施例。

实施例：

本发明采取的技术方案是一种基于区分性字典与分类器联合学习的说话人识别方法，该方法包括以下步骤：

步骤2、在训练阶段，初始化说话人通用字典Φ₀、说话人字典Φ、分类器参数W，拼接成矩阵Ω；

步骤7、将W、ω_t作为输入，计算得分向量L；

在本实施例中，所述步骤1的具体过程为：

步骤1-1、对所有语音提取特征：

提取所有语音信号的i-vector特征，维度D为400维，并将全部i-vector特征按列存放；

步骤1-2、对提取好训练语音的特征数据进行预处理：

定义类别标签矩阵H∈R^K×M、正则化参数ν，其中K为类别数、M为训练样本总数。

在本实施例中，所述步骤2的具体过程为：

初始化说话人通用字典

说话人字典

分类器参数

P_β是字典原子数，拼接成矩阵Ω、D_k：

其中，W＝[W₁,W₂,...,W_k,...,W_K]，W_k是第k个说话人的分类器参数。

在本实施例中，所述步骤3的具体过程为：

利用正交匹配追踪，计算训练数据在矩阵Ω上的稀疏表示，计算公式如下：

其中，x_k,n是第k个说话人的第n个训练样本。

在本实施例中，所述步骤4的具体过程为：

步骤4-1、利用字典矩阵Ω和稀疏表示ω_k,n，计算训练样本矩阵x_k,n的残差E：

E＝X-Ωω_k,n (3)

步骤4-2、更新说话人通用字典Φ₀，将残差E与说话人通用字典Φ₀作为输入，通过K均值-奇异值分解(KSVD)逐列更新Φ₀损失小于阈值，则更新结束，更新说话人通用字典Φ₀的公式如下：

其中，τ是阈值，设置为0.01；

步骤4-3、将样本矩阵X与

作为输入，利用KSVD逐列更新

其中，A是X在[Φ₀ ^T,0]^T上的稀疏表示，B是X在

上的稀疏表示；

步骤4-4、将训练数据X、字典矩阵Ω与稀疏表示作为输入，计算字典更新的损失，利用损失

控制字典更新循环，损失计算公式如下：

在本实施例中，所述步骤5的具体过程为：

步骤5-1、对说话人字典Φ进行L2正则化，得到正则化后的字典Φ：

其中，

是第K个说话人字典的第P_β个列向量；

步骤5-2、对分类器参数进行L2正则化，得到正则化后的分类器参数W：

其中，

是第K个分类器参数的增广矩阵的第P_β个列向量。

在本实施例中，所述步骤6的具体过程为：

测试阶段，将说话人通用字典Φ₀和Φ拼接成一个新字典，利用正交匹配追踪计算测试数据x_t在新字典上的稀疏表示ω_t：

其中，λ是正则化系数，可选值包括但不限于{0.1,0.01,0.001}。

在本实施例中，所述步骤7的具体过程为：

计算分类器参数W与稀疏表示ω_t相乘后得到的得分向量L：

L＝[0,W]ω_t (10)

其中，L的每个元素是测试数据x_t在不同字典上的得分。

在本实施例中，所述步骤8的具体过程为：

将L中最大值所对应字典的类别，判别为测试语音所属说话人类别，计算公式如下：

其中，L_k是L的第k个元素。

实验结果：

本发明采用King-ASR-010语料库进行实验，该语料库为汉语普通话数据库。系统性能的评价指标采用正确率，数值越大表示性能越好。图2展示了本发明与PLDA在不同参数设置下，所取得的正确率。根据对比可发现：本发明的正确率在字典原子数为150时，正确率低于PLDA，在其他任一参数设置下，其正确率均高于PLDA。相较于PLDA，本发明的正确率上升更快，说话人识别任务准确率上升了2.34％。图3展示了本发明随着说话人字典训练不同轮数，准确率的变化情况。本发明中说话人识别任务达到的正确率为95.67％，由实验结果可见，本发明提出的基于区分性字典与分类器联合学习的说话人识别方法，能够有效提升说话人识别系统的性能。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。因此，凡依据本发明所揭示的原理、思路所作的等同变化，仍属于本发明的保护范围之内。