CN115512708A - 基于区分性字典与分类器联合学习的说话人识别方法 - Google Patents

基于区分性字典与分类器联合学习的说话人识别方法 Download PDF

Info

Publication number
CN115512708A
CN115512708A CN202211218439.2A CN202211218439A CN115512708A CN 115512708 A CN115512708 A CN 115512708A CN 202211218439 A CN202211218439 A CN 202211218439A CN 115512708 A CN115512708 A CN 115512708A
Authority
CN
China
Prior art keywords
dictionary
speaker
classifier
phi
omega
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211218439.2A
Other languages
English (en)
Other versions
CN115512708B (zh
Inventor
陈晨
李文文
孙文泽
杨海陆
王莉莉
陈德运
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202211218439.2A priority Critical patent/CN115512708B/zh
Publication of CN115512708A publication Critical patent/CN115512708A/zh
Application granted granted Critical
Publication of CN115512708B publication Critical patent/CN115512708B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于区分性字典与分类器联合学习的说话人识别方法,该方法在训练数据中增加分类器参数和正则化参数,提高了传统说话人识别系统的正确率,是在传统字典学习基础上的创新。本发明在训练阶段,首先对语音提取i‑vector,将其和One‑Hot拼接后作为稀疏分解的输入;然后初始化字典和分类器参数,获取i‑vector在字典上的稀疏表示;最后利用K均值‑奇异值分解(KSVD)算法更新字典。在识别阶段,首先利用字典与其二范数的商作为识别阶段的字典,同理得到分类器参数;然后计算测试语音在字典上的稀疏表示,分类器参数和稀疏表示的积是说话人在不同字典上的得分;最后判断得分最高说话人是否是测试说话人。本发明可以应用于说话人识别领域。

Description

基于区分性字典与分类器联合学习的说话人识别方法
技术领域
本发明涉及一种基于区分性字典与分类器联合学习的说话人识别方法,属于说话人识别技术领域。
背景技术
随着互联网经济的不断发展和人工智能技术的不断进步,以文本密码、身份证件为主的传统身份认证方法已无法满足人们对于身份认证安全性与便捷性的需求。近年来,手机、平板、个人电脑及智能音箱等智能终端设备不断普及,人们在生活中进行身份认证的场景和需求也在不断扩大。身份认证技术的可靠性问题直接影响着人民的经济利益和国家的长治久安,引发了学术界和工业界的关注。针对身份认证问题,生物特征识别已成为目前主流的一类方法。这类方法主要利用人体生物特征作为认证依据,相比于传统的身份认证方式更具安全性与便捷性,因而被广泛的推广与应用。
在各类生物特征识别方法中,说话人识别因其能够有效捕获语音中的动态特性,而具有更高的安全性。同时,语音是人类交流的最直接方式,因此发展基于语音的身份认证技术符合人类沟通的习惯,也满足人们对于便捷的要求。说话人识别能够通过对语音信号的分析处理,来识别说话人的身份。在众多说话人识别方法中,身份-向量(i-vector)方法应用范围较广。本发明在其基础上,将i-vector特征作为前端输入,提出了一种能够进行区分性字典与分类器联合学习的方法。此方法能够通过字典与分类器联合学习的方式,充分挖掘说话人的共性信息与个性信息,从而有效提升说话人识别系统的性能。
发明内容
本发明主要针对说话人识别系统性能提升的问题,提出一种基于区分性字典与分类器联合学习的说话人识别方法。
本发明为解决上述技术问题采取的技术方案是:基于区分性字典与分类器联合学习的说话人识别方法,该方法包括以下步骤:
步骤1、对数据集中所有语音进行预处理并提取其i-vector特征;
步骤2、在训练阶段,随机初始化说话人通用字典Φ0、说话人字典Φ、分类器参数W,拼接成矩阵Ω;
步骤3、将训练数据与矩阵Ω作为输入,利用正交匹配追踪算法得到训练数据在Ω上的稀疏表示;
步骤4、在误差允许范围内,利用K均值-奇异值分解算法,分别更新说话人通用字典Φ0、说话人字典Φ;
步骤5、对每个说话人的字典进行L2正则化得到Φ,对分类器参数进行L2正则化得到W;
步骤6、将Φ0、Φ作为输入,计算测试语音在每个说话人字典上的稀疏表示ωt
步骤7、将W、ωt作为输入,计算得分向量L;
步骤8、将L中所有元素排序,将最大值所对应字典的类别作为测试语音的类别。
附图说明
为使本发明的目的、技术方案与优点更加清楚,下面将结合附图对本发明作进一步描述,其中:
图1为基于区分性字典与分类器联合学习的说话人识别方法的过程示意图;
图2为本发明与PLDA在不同参数下的正确率对比曲线;
图3为训练轮数与正则化系数对正确率的影响对比图。
具体实施方式
下面将通过实施例并结合附图,对本发明中的技术方案进行详细清楚的描述,所描述的实施例仅是本发明的一部分实施例。
实施例:
本发明采取的技术方案是一种基于区分性字典与分类器联合学习的说话人识别方法,该方法包括以下步骤:
步骤1、对数据集中所有语音进行预处理并提取其i-vector特征;
步骤2、在训练阶段,初始化说话人通用字典Φ0、说话人字典Φ、分类器参数W,拼接成矩阵Ω;
步骤3、将训练数据与矩阵Ω作为输入,利用正交匹配追踪算法得到训练数据在Ω上的稀疏表示;
步骤4、在误差允许范围内,利用K均值-奇异值分解算法,分别更新说话人通用字典Φ0、说话人字典Φ;
步骤5、对每个说话人的字典进行L2正则化得到Φ,对分类器参数进行L2正则化得到W;
步骤6、将Φ0、Φ作为输入,计算测试语音在每个说话人字典上的稀疏表示ωt
步骤7、将W、ωt作为输入,计算得分向量L;
步骤8、将L中所有元素排序,将最大值所对应字典的类别作为测试语音的类别。
在本实施例中,所述步骤1的具体过程为:
步骤1-1、对所有语音提取特征:
提取所有语音信号的i-vector特征,维度D为400维,并将全部i-vector特征按列存放;
步骤1-2、对提取好训练语音的特征数据进行预处理:
定义类别标签矩阵H∈RK×M、正则化参数ν,其中K为类别数、M为训练样本总数。
在本实施例中,所述步骤2的具体过程为:
初始化说话人通用字典
Figure BDA0003876896410000021
说话人字典
Figure BDA0003876896410000022
分类器参数
Figure BDA0003876896410000023
Pβ是字典原子数,拼接成矩阵Ω、Dk
Figure BDA0003876896410000024
其中,W=[W1,W2,...,Wk,...,WK],Wk是第k个说话人的分类器参数。
在本实施例中,所述步骤3的具体过程为:
利用正交匹配追踪,计算训练数据在矩阵Ω上的稀疏表示,计算公式如下:
Figure BDA0003876896410000025
其中,xk,n是第k个说话人的第n个训练样本。
在本实施例中,所述步骤4的具体过程为:
步骤4-1、利用字典矩阵Ω和稀疏表示ωk,n,计算训练样本矩阵xk,n的残差E:
E=X-Ωωk,n (3)
步骤4-2、更新说话人通用字典Φ0,将残差E与说话人通用字典Φ0作为输入,通过K均值-奇异值分解(KSVD)逐列更新Φ0损失小于阈值,则更新结束,更新说话人通用字典Φ0的公式如下:
Figure BDA0003876896410000026
其中,τ是阈值,设置为0.01;
步骤4-3、将样本矩阵X与
Figure BDA0003876896410000027
作为输入,利用KSVD逐列更新
Figure BDA0003876896410000028
Figure BDA0003876896410000029
其中,A是X在[Φ0 T,0]T上的稀疏表示,B是X在
Figure BDA0003876896410000031
上的稀疏表示;
步骤4-4、将训练数据X、字典矩阵Ω与稀疏表示作为输入,计算字典更新的损失,利用损失
Figure BDA0003876896410000039
控制字典更新循环,损失计算公式如下:
Figure BDA0003876896410000032
在本实施例中,所述步骤5的具体过程为:
步骤5-1、对说话人字典Φ进行L2正则化,得到正则化后的字典Φ:
Figure BDA0003876896410000033
其中,
Figure BDA0003876896410000034
是第K个说话人字典的第Pβ个列向量;
步骤5-2、对分类器参数进行L2正则化,得到正则化后的分类器参数W:
Figure BDA0003876896410000035
其中,
Figure BDA0003876896410000036
是第K个分类器参数的增广矩阵的第Pβ个列向量。
在本实施例中,所述步骤6的具体过程为:
测试阶段,将说话人通用字典Φ0和Φ拼接成一个新字典,利用正交匹配追踪计算测试数据xt在新字典上的稀疏表示ωt
Figure BDA0003876896410000037
其中,λ是正则化系数,可选值包括但不限于{0.1,0.01,0.001}。
在本实施例中,所述步骤7的具体过程为:
计算分类器参数W与稀疏表示ωt相乘后得到的得分向量L:
L=[0,W]ωt (10)
其中,L的每个元素是测试数据xt在不同字典上的得分。
在本实施例中,所述步骤8的具体过程为:
将L中最大值所对应字典的类别,判别为测试语音所属说话人类别,计算公式如下:
Figure BDA0003876896410000038
其中,Lk是L的第k个元素。
实验结果:
本发明采用King-ASR-010语料库进行实验,该语料库为汉语普通话数据库。系统性能的评价指标采用正确率,数值越大表示性能越好。图2展示了本发明与PLDA在不同参数设置下,所取得的正确率。根据对比可发现:本发明的正确率在字典原子数为150时,正确率低于PLDA,在其他任一参数设置下,其正确率均高于PLDA。相较于PLDA,本发明的正确率上升更快,说话人识别任务准确率上升了2.34%。图3展示了本发明随着说话人字典训练不同轮数,准确率的变化情况。本发明中说话人识别任务达到的正确率为95.67%,由实验结果可见,本发明提出的基于区分性字典与分类器联合学习的说话人识别方法,能够有效提升说话人识别系统的性能。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。因此,凡依据本发明所揭示的原理、思路所作的等同变化,仍属于本发明的保护范围之内。

Claims (9)

1.基于区分性字典与分类器联合学习的说话人识别方法,其特征在于,所述方法包括如下步骤:
步骤1、对数据集中所有语音进行预处理并提取其i-vector特征;
步骤2、在训练阶段,随机初始化说话人通用字典Φ0、说话人字典Φ、分类器参数W,拼接成矩阵Ω;
步骤3、将训练数据与矩阵Ω作为输入,利用正交匹配追踪算法得到训练数据在Ω上的稀疏表示;
步骤4、在误差允许范围内,利用K均值-奇异值分解算法,分别更新说话人通用字典Φ0、说话人字典Φ;
步骤5、对每个说话人的字典进行L2正则化得到Φ,对分类器参数进行L2正则化得到W;
步骤6、将Φ0、Φ作为输入,计算测试语音在每个说话人字典上的稀疏表示ωt
步骤7、将W、ωt作为输入,计算得分向量L;
步骤8、将L中所有元素排序,将最大值所对应字典的类别作为测试语音的类别。
2.根据权利要求1所述的基于区分性字典与分类器联合学习的说话人识别方法,其特征在于,所述步骤1的具体过程为:
步骤1-1、对所有语音提取特征:
提取所有语音信号的i-vector特征,维度D为400维,并将全部i-vector特征按列存放;
步骤1-2、对提取好训练语音的特征数据进行预处理:
定义类别标签矩阵H∈RK×M、正则化参数ν,其中K为类别数、M为训练样本总数。
3.根据权利要求1所述的基于区分性字典与分类器联合学习的说话人识别方法,其特征在于,所述步骤2的具体过程为:
初始化说话人通用字典
Figure FDA0003876896400000011
说话人字典
Figure FDA0003876896400000012
分类器参数
Figure FDA0003876896400000013
Pβ是字典原子数,拼接成矩阵Ω、Dk
Figure FDA0003876896400000014
其中,W=[W1,W2,...,Wk,...,WK],Wk是第k个说话人的分类器参数。
4.根据权利要求1所述的基于区分性字典与分类器联合学习的说话人识别方法,其特征在于,所述步骤3的具体过程为:
利用正交匹配追踪,计算训练数据在矩阵Ω上的稀疏表示,计算公式如下:
Figure FDA0003876896400000015
其中,xk,n是第k个说话人的第n个训练样本。
5.根据权利要求1所述的基于区分性字典与分类器联合学习的说话人识别方法,其特征在于,所述步骤4的具体过程为:
步骤4-1、利用字典矩阵Ω和稀疏表示ωk,n,计算训练样本矩阵xk,n的残差E:
E=X-Ωωk,n (3)
步骤4-2、更新说话人通用字典Φ0,将残差E与说话人通用字典Φ0作为输入,通过KSVD逐列更新Φ0损失小于阈值,则更新结束,更新说话人通用字典Φ0的公式如下:
Figure FDA0003876896400000016
其中,τ是阈值,设置为0.01;
步骤4-3、将样本矩阵X与
Figure FDA0003876896400000021
作为输入,利用k均值-奇异值分解(KSVD)逐列更新
Figure FDA0003876896400000022
Figure FDA0003876896400000023
s.t.||αk,n||1≤τ,||βk,n||1≤τ
其中,A是X在[Φ0 T,0]T上的稀疏表示,B是X在
Figure FDA0003876896400000024
上的稀疏表示;
步骤4-4、将训练数据X、字典矩阵Ω与稀疏表示作为输入,计算字典更新的损失,利用损失
Figure FDA0003876896400000025
控制字典更新循环,损失计算公式如下:
Figure FDA0003876896400000026
6.根据权利要求1所述的基于区分性字典与分类器联合学习的说话人识别方法,其特征在于,所述步骤5的具体过程为:
步骤5-1、对说话人字典Φ进行L2正则化,得到正则化后的字典Φ:
Figure FDA0003876896400000027
其中,
Figure FDA0003876896400000028
是第K个说话人字典的第Pβ个列向量;
步骤5-2、对分类器参数进行L2正则化,得到正则化后的分类器参数W:
Figure FDA0003876896400000029
其中,
Figure FDA00038768964000000210
是第K个分类器参数的增广矩阵的第Pβ个列向量。
7.根据权利要求1所述的基于区分性字典与分类器联合学习的说话人识别方法,其特征在于,所述步骤6的具体过程为:
测试阶段,将说话人通用字典Φ0和Φ拼接成一个新字典,利用正交匹配追踪计算测试数据xt在新字典上的稀疏表示ωt
Figure FDA00038768964000000211
其中,λ是正则化系数,可选值包括但不限于{0.1,0.01,0.001}。
8.根据权利要求1所述的基于区分性字典与分类器联合学习的说话人识别方法,其特征在于,所述步骤7的具体过程为:
计算分类器参数W与稀疏表示ωt相乘后得到的得分向量L:
L=[0,W]ωt (10)
其中,L的每个元素是测试数据xt在不同字典上的得分。
9.根据权利要求1所述的基于区分性字典与分类器联合学习的说话人识别方法,其特征在于,所述步骤8的具体过程为:
将L中最大值所对应字典的类别,判别为测试语音所属说话人类别,计算公式如下:
Figure FDA0003876896400000031
其中,Lk是L的第k个元素。
CN202211218439.2A 2022-10-05 2022-10-05 基于区分性字典与分类器联合学习的说话人识别方法 Active CN115512708B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211218439.2A CN115512708B (zh) 2022-10-05 2022-10-05 基于区分性字典与分类器联合学习的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211218439.2A CN115512708B (zh) 2022-10-05 2022-10-05 基于区分性字典与分类器联合学习的说话人识别方法

Publications (2)

Publication Number Publication Date
CN115512708A true CN115512708A (zh) 2022-12-23
CN115512708B CN115512708B (zh) 2024-05-07

Family

ID=84507270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211218439.2A Active CN115512708B (zh) 2022-10-05 2022-10-05 基于区分性字典与分类器联合学习的说话人识别方法

Country Status (1)

Country Link
CN (1) CN115512708B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345923A (zh) * 2013-07-26 2013-10-09 电子科技大学 一种基于稀疏表示的短语音说话人识别方法
CN105139855A (zh) * 2014-05-29 2015-12-09 哈尔滨理工大学 一种两阶段稀疏分解的说话人识别方法与装置
CN105845142A (zh) * 2016-03-23 2016-08-10 广州势必可赢网络科技有限公司 基于稀疏表示的信道鲁棒说话人确认方法及其系统
CN110265039A (zh) * 2019-06-03 2019-09-20 南京邮电大学 一种基于字典学习和低秩矩阵分解的说话人识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345923A (zh) * 2013-07-26 2013-10-09 电子科技大学 一种基于稀疏表示的短语音说话人识别方法
CN105139855A (zh) * 2014-05-29 2015-12-09 哈尔滨理工大学 一种两阶段稀疏分解的说话人识别方法与装置
CN105845142A (zh) * 2016-03-23 2016-08-10 广州势必可赢网络科技有限公司 基于稀疏表示的信道鲁棒说话人确认方法及其系统
CN110265039A (zh) * 2019-06-03 2019-09-20 南京邮电大学 一种基于字典学习和低秩矩阵分解的说话人识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LI CHEN ETC: "Emotional speaker recognition based on i-vector through Atom Aligned Sparse Representation", 《2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING》, 31 May 2013 (2013-05-31), pages 7760 - 7764, XP032509073, DOI: 10.1109/ICASSP.2013.6639174 *
盖晁旭: "基于稀疏编码的鲁棒说话人识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 05, 15 May 2017 (2017-05-15) *

Also Published As

Publication number Publication date
CN115512708B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
CN109829430B (zh) 基于异构层次化注意机制的跨模态行人再识别方法及系统
CN109272988B (zh) 基于多路卷积神经网络的语音识别方法
CN110459225B (zh) 一种基于cnn融合特征的说话人辨认系统
WO2021056710A1 (zh) 多轮问答识别方法、装置、计算机设备及存储介质
CN111833845A (zh) 多语种语音识别模型训练方法、装置、设备及存储介质
CN111079418B (zh) 命名体识别方法、装置、电子设备和存储介质
Ji et al. Asymmetric cross-scale alignment for text-based person search
CN112053694A (zh) 一种基于cnn与gru网络融合的声纹识别方法
CN112863521B (zh) 一种基于互信息估计的说话人识别方法
CN112347761B (zh) 基于bert的药物关系抽取方法
CN112287680A (zh) 一种问诊信息的实体抽取方法、装置、设备及存储介质
CN111563373A (zh) 聚焦属性相关文本的属性级情感分类方法
CN110489551A (zh) 一种基于写作习惯的作者识别方法
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
CN116010874A (zh) 基于深度学习多模态深尺度情感特征融合的情感识别方法
CN115312033A (zh) 基于人工智能的语音情感识别方法、装置、设备及介质
CN116246279A (zh) 一种基于clip背景知识的图文特征融合方法
CN111079437A (zh) 一种实体识别方法、电子设备及存储介质
CN111506726A (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
CN113688955A (zh) 文本识别方法、装置、设备及介质
CN115512708A (zh) 基于区分性字典与分类器联合学习的说话人识别方法
CN116775873A (zh) 一种多模态对话情感识别方法
CN110807327A (zh) 一种基于语境化胶囊网络的生物医学实体识别方法
CN115455144A (zh) 用于小样本意图识别的完型填空式的数据增强方法
CN114969725A (zh) 目标命令识别方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant