CN115512708A - 基于区分性字典与分类器联合学习的说话人识别方法 - Google Patents
基于区分性字典与分类器联合学习的说话人识别方法 Download PDFInfo
- Publication number
- CN115512708A CN115512708A CN202211218439.2A CN202211218439A CN115512708A CN 115512708 A CN115512708 A CN 115512708A CN 202211218439 A CN202211218439 A CN 202211218439A CN 115512708 A CN115512708 A CN 115512708A
- Authority
- CN
- China
- Prior art keywords
- dictionary
- speaker
- classifier
- phi
- omega
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000012360 testing method Methods 0.000 claims abstract description 16
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000003190 augmentative effect Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于区分性字典与分类器联合学习的说话人识别方法,该方法在训练数据中增加分类器参数和正则化参数,提高了传统说话人识别系统的正确率,是在传统字典学习基础上的创新。本发明在训练阶段,首先对语音提取i‑vector,将其和One‑Hot拼接后作为稀疏分解的输入;然后初始化字典和分类器参数,获取i‑vector在字典上的稀疏表示;最后利用K均值‑奇异值分解(KSVD)算法更新字典。在识别阶段,首先利用字典与其二范数的商作为识别阶段的字典,同理得到分类器参数;然后计算测试语音在字典上的稀疏表示,分类器参数和稀疏表示的积是说话人在不同字典上的得分;最后判断得分最高说话人是否是测试说话人。本发明可以应用于说话人识别领域。
Description
技术领域
本发明涉及一种基于区分性字典与分类器联合学习的说话人识别方法,属于说话人识别技术领域。
背景技术
随着互联网经济的不断发展和人工智能技术的不断进步,以文本密码、身份证件为主的传统身份认证方法已无法满足人们对于身份认证安全性与便捷性的需求。近年来,手机、平板、个人电脑及智能音箱等智能终端设备不断普及,人们在生活中进行身份认证的场景和需求也在不断扩大。身份认证技术的可靠性问题直接影响着人民的经济利益和国家的长治久安,引发了学术界和工业界的关注。针对身份认证问题,生物特征识别已成为目前主流的一类方法。这类方法主要利用人体生物特征作为认证依据,相比于传统的身份认证方式更具安全性与便捷性,因而被广泛的推广与应用。
在各类生物特征识别方法中,说话人识别因其能够有效捕获语音中的动态特性,而具有更高的安全性。同时,语音是人类交流的最直接方式,因此发展基于语音的身份认证技术符合人类沟通的习惯,也满足人们对于便捷的要求。说话人识别能够通过对语音信号的分析处理,来识别说话人的身份。在众多说话人识别方法中,身份-向量(i-vector)方法应用范围较广。本发明在其基础上,将i-vector特征作为前端输入,提出了一种能够进行区分性字典与分类器联合学习的方法。此方法能够通过字典与分类器联合学习的方式,充分挖掘说话人的共性信息与个性信息,从而有效提升说话人识别系统的性能。
发明内容
本发明主要针对说话人识别系统性能提升的问题,提出一种基于区分性字典与分类器联合学习的说话人识别方法。
本发明为解决上述技术问题采取的技术方案是:基于区分性字典与分类器联合学习的说话人识别方法,该方法包括以下步骤:
步骤1、对数据集中所有语音进行预处理并提取其i-vector特征;
步骤2、在训练阶段,随机初始化说话人通用字典Φ0、说话人字典Φ、分类器参数W,拼接成矩阵Ω;
步骤3、将训练数据与矩阵Ω作为输入,利用正交匹配追踪算法得到训练数据在Ω上的稀疏表示;
步骤4、在误差允许范围内,利用K均值-奇异值分解算法,分别更新说话人通用字典Φ0、说话人字典Φ;
步骤5、对每个说话人的字典进行L2正则化得到Φ,对分类器参数进行L2正则化得到W;
步骤6、将Φ0、Φ作为输入,计算测试语音在每个说话人字典上的稀疏表示ωt;
步骤7、将W、ωt作为输入,计算得分向量L;
步骤8、将L中所有元素排序,将最大值所对应字典的类别作为测试语音的类别。
附图说明
为使本发明的目的、技术方案与优点更加清楚,下面将结合附图对本发明作进一步描述,其中:
图1为基于区分性字典与分类器联合学习的说话人识别方法的过程示意图;
图2为本发明与PLDA在不同参数下的正确率对比曲线;
图3为训练轮数与正则化系数对正确率的影响对比图。
具体实施方式
下面将通过实施例并结合附图,对本发明中的技术方案进行详细清楚的描述,所描述的实施例仅是本发明的一部分实施例。
实施例:
本发明采取的技术方案是一种基于区分性字典与分类器联合学习的说话人识别方法,该方法包括以下步骤:
步骤1、对数据集中所有语音进行预处理并提取其i-vector特征;
步骤2、在训练阶段,初始化说话人通用字典Φ0、说话人字典Φ、分类器参数W,拼接成矩阵Ω;
步骤3、将训练数据与矩阵Ω作为输入,利用正交匹配追踪算法得到训练数据在Ω上的稀疏表示;
步骤4、在误差允许范围内,利用K均值-奇异值分解算法,分别更新说话人通用字典Φ0、说话人字典Φ;
步骤5、对每个说话人的字典进行L2正则化得到Φ,对分类器参数进行L2正则化得到W;
步骤6、将Φ0、Φ作为输入,计算测试语音在每个说话人字典上的稀疏表示ωt;
步骤7、将W、ωt作为输入,计算得分向量L;
步骤8、将L中所有元素排序,将最大值所对应字典的类别作为测试语音的类别。
在本实施例中,所述步骤1的具体过程为:
步骤1-1、对所有语音提取特征:
提取所有语音信号的i-vector特征,维度D为400维,并将全部i-vector特征按列存放;
步骤1-2、对提取好训练语音的特征数据进行预处理:
定义类别标签矩阵H∈RK×M、正则化参数ν,其中K为类别数、M为训练样本总数。
在本实施例中,所述步骤2的具体过程为:
其中,W=[W1,W2,...,Wk,...,WK],Wk是第k个说话人的分类器参数。
在本实施例中,所述步骤3的具体过程为:
利用正交匹配追踪,计算训练数据在矩阵Ω上的稀疏表示,计算公式如下:
其中,xk,n是第k个说话人的第n个训练样本。
在本实施例中,所述步骤4的具体过程为:
步骤4-1、利用字典矩阵Ω和稀疏表示ωk,n,计算训练样本矩阵xk,n的残差E:
E=X-Ωωk,n (3)
步骤4-2、更新说话人通用字典Φ0,将残差E与说话人通用字典Φ0作为输入,通过K均值-奇异值分解(KSVD)逐列更新Φ0损失小于阈值,则更新结束,更新说话人通用字典Φ0的公式如下:
其中,τ是阈值,设置为0.01;
在本实施例中,所述步骤5的具体过程为:
步骤5-1、对说话人字典Φ进行L2正则化,得到正则化后的字典Φ:
步骤5-2、对分类器参数进行L2正则化,得到正则化后的分类器参数W:
在本实施例中,所述步骤6的具体过程为:
测试阶段,将说话人通用字典Φ0和Φ拼接成一个新字典,利用正交匹配追踪计算测试数据xt在新字典上的稀疏表示ωt:
其中,λ是正则化系数,可选值包括但不限于{0.1,0.01,0.001}。
在本实施例中,所述步骤7的具体过程为:
计算分类器参数W与稀疏表示ωt相乘后得到的得分向量L:
L=[0,W]ωt (10)
其中,L的每个元素是测试数据xt在不同字典上的得分。
在本实施例中,所述步骤8的具体过程为:
将L中最大值所对应字典的类别,判别为测试语音所属说话人类别,计算公式如下:
其中,Lk是L的第k个元素。
实验结果:
本发明采用King-ASR-010语料库进行实验,该语料库为汉语普通话数据库。系统性能的评价指标采用正确率,数值越大表示性能越好。图2展示了本发明与PLDA在不同参数设置下,所取得的正确率。根据对比可发现:本发明的正确率在字典原子数为150时,正确率低于PLDA,在其他任一参数设置下,其正确率均高于PLDA。相较于PLDA,本发明的正确率上升更快,说话人识别任务准确率上升了2.34%。图3展示了本发明随着说话人字典训练不同轮数,准确率的变化情况。本发明中说话人识别任务达到的正确率为95.67%,由实验结果可见,本发明提出的基于区分性字典与分类器联合学习的说话人识别方法,能够有效提升说话人识别系统的性能。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。因此,凡依据本发明所揭示的原理、思路所作的等同变化,仍属于本发明的保护范围之内。
Claims (9)
1.基于区分性字典与分类器联合学习的说话人识别方法,其特征在于,所述方法包括如下步骤:
步骤1、对数据集中所有语音进行预处理并提取其i-vector特征;
步骤2、在训练阶段,随机初始化说话人通用字典Φ0、说话人字典Φ、分类器参数W,拼接成矩阵Ω;
步骤3、将训练数据与矩阵Ω作为输入,利用正交匹配追踪算法得到训练数据在Ω上的稀疏表示;
步骤4、在误差允许范围内,利用K均值-奇异值分解算法,分别更新说话人通用字典Φ0、说话人字典Φ;
步骤5、对每个说话人的字典进行L2正则化得到Φ,对分类器参数进行L2正则化得到W;
步骤6、将Φ0、Φ作为输入,计算测试语音在每个说话人字典上的稀疏表示ωt;
步骤7、将W、ωt作为输入,计算得分向量L;
步骤8、将L中所有元素排序,将最大值所对应字典的类别作为测试语音的类别。
2.根据权利要求1所述的基于区分性字典与分类器联合学习的说话人识别方法,其特征在于,所述步骤1的具体过程为:
步骤1-1、对所有语音提取特征:
提取所有语音信号的i-vector特征,维度D为400维,并将全部i-vector特征按列存放;
步骤1-2、对提取好训练语音的特征数据进行预处理:
定义类别标签矩阵H∈RK×M、正则化参数ν,其中K为类别数、M为训练样本总数。
5.根据权利要求1所述的基于区分性字典与分类器联合学习的说话人识别方法,其特征在于,所述步骤4的具体过程为:
步骤4-1、利用字典矩阵Ω和稀疏表示ωk,n,计算训练样本矩阵xk,n的残差E:
E=X-Ωωk,n (3)
步骤4-2、更新说话人通用字典Φ0,将残差E与说话人通用字典Φ0作为输入,通过KSVD逐列更新Φ0损失小于阈值,则更新结束,更新说话人通用字典Φ0的公式如下:
其中,τ是阈值,设置为0.01;
s.t.||αk,n||1≤τ,||βk,n||1≤τ
8.根据权利要求1所述的基于区分性字典与分类器联合学习的说话人识别方法,其特征在于,所述步骤7的具体过程为:
计算分类器参数W与稀疏表示ωt相乘后得到的得分向量L:
L=[0,W]ωt (10)
其中,L的每个元素是测试数据xt在不同字典上的得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211218439.2A CN115512708B (zh) | 2022-10-05 | 2022-10-05 | 基于区分性字典与分类器联合学习的说话人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211218439.2A CN115512708B (zh) | 2022-10-05 | 2022-10-05 | 基于区分性字典与分类器联合学习的说话人识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115512708A true CN115512708A (zh) | 2022-12-23 |
CN115512708B CN115512708B (zh) | 2024-05-07 |
Family
ID=84507270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211218439.2A Active CN115512708B (zh) | 2022-10-05 | 2022-10-05 | 基于区分性字典与分类器联合学习的说话人识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115512708B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103345923A (zh) * | 2013-07-26 | 2013-10-09 | 电子科技大学 | 一种基于稀疏表示的短语音说话人识别方法 |
CN105139855A (zh) * | 2014-05-29 | 2015-12-09 | 哈尔滨理工大学 | 一种两阶段稀疏分解的说话人识别方法与装置 |
CN105845142A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 基于稀疏表示的信道鲁棒说话人确认方法及其系统 |
CN110265039A (zh) * | 2019-06-03 | 2019-09-20 | 南京邮电大学 | 一种基于字典学习和低秩矩阵分解的说话人识别方法 |
-
2022
- 2022-10-05 CN CN202211218439.2A patent/CN115512708B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103345923A (zh) * | 2013-07-26 | 2013-10-09 | 电子科技大学 | 一种基于稀疏表示的短语音说话人识别方法 |
CN105139855A (zh) * | 2014-05-29 | 2015-12-09 | 哈尔滨理工大学 | 一种两阶段稀疏分解的说话人识别方法与装置 |
CN105845142A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 基于稀疏表示的信道鲁棒说话人确认方法及其系统 |
CN110265039A (zh) * | 2019-06-03 | 2019-09-20 | 南京邮电大学 | 一种基于字典学习和低秩矩阵分解的说话人识别方法 |
Non-Patent Citations (2)
Title |
---|
LI CHEN ETC: "Emotional speaker recognition based on i-vector through Atom Aligned Sparse Representation", 《2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING》, 31 May 2013 (2013-05-31), pages 7760 - 7764, XP032509073, DOI: 10.1109/ICASSP.2013.6639174 * |
盖晁旭: "基于稀疏编码的鲁棒说话人识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 05, 15 May 2017 (2017-05-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN115512708B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829430B (zh) | 基于异构层次化注意机制的跨模态行人再识别方法及系统 | |
CN109272988B (zh) | 基于多路卷积神经网络的语音识别方法 | |
CN110459225B (zh) | 一种基于cnn融合特征的说话人辨认系统 | |
WO2021056710A1 (zh) | 多轮问答识别方法、装置、计算机设备及存储介质 | |
CN111833845A (zh) | 多语种语音识别模型训练方法、装置、设备及存储介质 | |
CN111079418B (zh) | 命名体识别方法、装置、电子设备和存储介质 | |
Ji et al. | Asymmetric cross-scale alignment for text-based person search | |
CN112053694A (zh) | 一种基于cnn与gru网络融合的声纹识别方法 | |
CN112863521B (zh) | 一种基于互信息估计的说话人识别方法 | |
CN112347761B (zh) | 基于bert的药物关系抽取方法 | |
CN112287680A (zh) | 一种问诊信息的实体抽取方法、装置、设备及存储介质 | |
CN111563373A (zh) | 聚焦属性相关文本的属性级情感分类方法 | |
CN110489551A (zh) | 一种基于写作习惯的作者识别方法 | |
CN112632248A (zh) | 问答方法、装置、计算机设备和存储介质 | |
CN116010874A (zh) | 基于深度学习多模态深尺度情感特征融合的情感识别方法 | |
CN115312033A (zh) | 基于人工智能的语音情感识别方法、装置、设备及介质 | |
CN116246279A (zh) | 一种基于clip背景知识的图文特征融合方法 | |
CN111079437A (zh) | 一种实体识别方法、电子设备及存储介质 | |
CN111506726A (zh) | 基于词性编码的短文本聚类方法、装置及计算机设备 | |
CN113688955A (zh) | 文本识别方法、装置、设备及介质 | |
CN115512708A (zh) | 基于区分性字典与分类器联合学习的说话人识别方法 | |
CN116775873A (zh) | 一种多模态对话情感识别方法 | |
CN110807327A (zh) | 一种基于语境化胶囊网络的生物医学实体识别方法 | |
CN115455144A (zh) | 用于小样本意图识别的完型填空式的数据增强方法 | |
CN114969725A (zh) | 目标命令识别方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |