CN115512708B - 基于区分性字典与分类器联合学习的说话人识别方法 - Google Patents
基于区分性字典与分类器联合学习的说话人识别方法 Download PDFInfo
- Publication number
- CN115512708B CN115512708B CN202211218439.2A CN202211218439A CN115512708B CN 115512708 B CN115512708 B CN 115512708B CN 202211218439 A CN202211218439 A CN 202211218439A CN 115512708 B CN115512708 B CN 115512708B
- Authority
- CN
- China
- Prior art keywords
- dictionary
- speaker
- classifier
- follows
- sparse representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000012360 testing method Methods 0.000 claims abstract description 16
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000003416 augmentation Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005923 long-lasting effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于区分性字典与分类器联合学习的说话人识别方法,该方法在训练数据中增加分类器参数和正则化参数,提高了传统说话人识别系统的正确率,是在传统字典学习基础上的创新。本发明在训练阶段,首先对语音提取i‑vector,将其和One‑Hot拼接后作为稀疏分解的输入;然后初始化字典和分类器参数,获取i‑vector在字典上的稀疏表示;最后利用K均值‑奇异值分解(KSVD)算法更新字典。在识别阶段,首先利用字典与其二范数的商作为识别阶段的字典,同理得到分类器参数;然后计算测试语音在字典上的稀疏表示,分类器参数和稀疏表示的积是说话人在不同字典上的得分;最后判断得分最高说话人是否是测试说话人。本发明可以应用于说话人识别领域。
Description
技术领域
本发明涉及一种基于区分性字典与分类器联合学习的说话人识别方法,属于说话人识别技术领域。
背景技术
随着互联网经济的不断发展和人工智能技术的不断进步,以文本密码、身份证件为主的传统身份认证方法已无法满足人们对于身份认证安全性与便捷性的需求。近年来,手机、平板、个人电脑及智能音箱等智能终端设备不断普及,人们在生活中进行身份认证的场景和需求也在不断扩大。身份认证技术的可靠性问题直接影响着人民的经济利益和国家的长治久安,引发了学术界和工业界的关注。针对身份认证问题,生物特征识别已成为目前主流的一类方法。这类方法主要利用人体生物特征作为认证依据,相比于传统的身份认证方式更具安全性与便捷性,因而被广泛的推广与应用。
在各类生物特征识别方法中,说话人识别因其能够有效捕获语音中的动态特性,而具有更高的安全性。同时,语音是人类交流的最直接方式,因此发展基于语音的身份认证技术符合人类沟通的习惯,也满足人们对于便捷的要求。说话人识别能够通过对语音信号的分析处理,来识别说话人的身份。在众多说话人识别方法中,身份-向量(i-vector)方法应用范围较广。本发明在其基础上,将i-vector特征作为前端输入,提出了一种能够进行区分性字典与分类器联合学习的方法。此方法能够通过字典与分类器联合学习的方式,充分挖掘说话人的共性信息与个性信息,从而有效提升说话人识别系统的性能。
发明内容
本发明主要针对说话人识别系统性能提升的问题,提出一种基于区分性字典与分类器联合学习的说话人识别方法。
本发明为解决上述技术问题采取的技术方案是:基于区分性字典与分类器联合学习的说话人识别方法,该方法包括以下步骤:
步骤1、对数据集中所有语音进行预处理并提取其i-vector特征;
步骤2、在训练阶段,随机初始化说话人通用字典Φ0、说话人字典Φ、分类器参数W,拼接成矩阵Ω;
步骤3、将训练数据与矩阵Ω作为输入,利用正交匹配追踪算法得到训练数据在Ω上的稀疏表示;
步骤4、在误差允许范围内,利用K均值-奇异值分解算法,分别更新说话人通用字典Φ0、说话人字典Φ;
步骤5、对每个说话人的字典进行L2正则化得到Φ,对分类器参数进行L2正则化得到W;
步骤6、将Φ0、Φ作为输入,计算测试语音在每个说话人字典上的稀疏表示ωt;
步骤7、将W、ωt作为输入,计算得分向量L;
步骤8、将L中所有元素排序,将最大值所对应字典的类别作为测试语音的类别。
附图说明
为使本发明的目的、技术方案与优点更加清楚,下面将结合附图对本发明作进一步描述,其中:
图1为基于区分性字典与分类器联合学习的说话人识别方法的过程示意图;
图2为本发明与PLDA在不同参数下的正确率对比曲线;
图3为训练轮数与正则化系数对正确率的影响对比图。
具体实施方式
下面将通过实施例并结合附图,对本发明中的技术方案进行详细清楚的描述,所描述的实施例仅是本发明的一部分实施例。
实施例:
本发明采取的技术方案是一种基于区分性字典与分类器联合学习的说话人识别方法,该方法包括以下步骤:
步骤1、对数据集中所有语音进行预处理并提取其i-vector特征;
步骤2、在训练阶段,初始化说话人通用字典Φ0、说话人字典Φ、分类器参数W,拼接成矩阵Ω;
步骤3、将训练数据与矩阵Ω作为输入,利用正交匹配追踪算法得到训练数据在Ω上的稀疏表示;
步骤4、在误差允许范围内,利用K均值-奇异值分解算法,分别更新说话人通用字典Φ0、说话人字典Φ;
步骤5、对每个说话人的字典进行L2正则化得到Φ,对分类器参数进行L2正则化得到W;
步骤6、将Φ0、Φ作为输入,计算测试语音在每个说话人字典上的稀疏表示ωt;
步骤7、将W、ωt作为输入,计算得分向量L;
步骤8、将L中所有元素排序,将最大值所对应字典的类别作为测试语音的类别。
在本实施例中,所述步骤1的具体过程为:
步骤1-1、对所有语音提取特征:
提取所有语音信号的i-vector特征,维度D为400维,并将全部i-vector特征按列存放;
步骤1-2、对提取好训练语音的特征数据进行预处理:
定义类别标签矩阵H∈RK×M、正则化参数ν,其中K为类别数、M为训练样本总数。
在本实施例中,所述步骤2的具体过程为:
初始化说话人通用字典说话人字典/>分类器参数Pβ是字典原子数,拼接成矩阵Ω、Dk:
其中,W=[W1,W2,...,Wk,...,WK],Wk是第k个说话人的分类器参数。
在本实施例中,所述步骤3的具体过程为:
利用正交匹配追踪,计算训练数据在矩阵Ω上的稀疏表示,计算公式如下:
其中,xk,n是第k个说话人的第n个训练样本。
在本实施例中,所述步骤4的具体过程为:
步骤4-1、利用字典矩阵Ω和稀疏表示ωk,n,计算训练样本矩阵xk,n的残差E:
E=X-Ωωk,n (3)
步骤4-2、更新说话人通用字典Φ0,将残差E与说话人通用字典Φ0作为输入,通过K均值-奇异值分解(KSVD)逐列更新Φ0损失小于阈值,则更新结束,更新说话人通用字典Φ0的公式如下:
其中,τ是阈值,设置为0.01;
步骤4-3、将样本矩阵X与作为输入,利用KSVD逐列更新/>
其中,A是X在[Φ0 T,0]T上的稀疏表示,B是X在上的稀疏表示;
步骤4-4、将训练数据X、字典矩阵Ω与稀疏表示作为输入,计算字典更新的损失,利用损失控制字典更新循环,损失计算公式如下:
在本实施例中,所述步骤5的具体过程为:
步骤5-1、对说话人字典Φ进行L2正则化,得到正则化后的字典Φ:
其中,是第K个说话人字典的第Pβ个列向量;
步骤5-2、对分类器参数进行L2正则化,得到正则化后的分类器参数W:
其中,是第K个分类器参数的增广矩阵的第Pβ个列向量。
在本实施例中,所述步骤6的具体过程为:
测试阶段,将说话人通用字典Φ0和Φ拼接成一个新字典,利用正交匹配追踪计算测试数据xt在新字典上的稀疏表示ωt:
其中,λ是正则化系数,可选值包括但不限于{0.1,0.01,0.001}。
在本实施例中,所述步骤7的具体过程为:
计算分类器参数W与稀疏表示ωt相乘后得到的得分向量L:
L=[0,W]ωt (10)
其中,L的每个元素是测试数据xt在不同字典上的得分。
在本实施例中,所述步骤8的具体过程为:
将L中最大值所对应字典的类别,判别为测试语音所属说话人类别,计算公式如下:
其中,Lk是L的第k个元素。
实验结果:
本发明采用King-ASR-010语料库进行实验,该语料库为汉语普通话数据库。系统性能的评价指标采用正确率,数值越大表示性能越好。图2展示了本发明与PLDA在不同参数设置下,所取得的正确率。根据对比可发现:本发明的正确率在字典原子数为150时,正确率低于PLDA,在其他任一参数设置下,其正确率均高于PLDA。相较于PLDA,本发明的正确率上升更快,说话人识别任务准确率上升了2.34%。图3展示了本发明随着说话人字典训练不同轮数,准确率的变化情况。本发明中说话人识别任务达到的正确率为95.67%,由实验结果可见,本发明提出的基于区分性字典与分类器联合学习的说话人识别方法,能够有效提升说话人识别系统的性能。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。因此,凡依据本发明所揭示的原理、思路所作的等同变化,仍属于本发明的保护范围之内。
Claims (3)
1.基于区分性字典与分类器联合学习的说话人识别方法,其特征在于,所述方法包括如下步骤:
步骤1、对数据集中所有语音进行预处理并提取其i-vector特征,具体过程为:
步骤1-1、对所有语音提取特征:
提取所有语音信号的i-vector特征,维度D为400维,并将全部i-vector特征按列存放;
步骤1-2、对提取好训练语音的特征数据进行预处理:
定义类别标签矩阵H∈RK×M、正则化参数ν,其中K为类别数、M为训练样本总数;
步骤2、在训练阶段,随机初始化说话人通用字典Φ0、说话人字典Φ、分类器参数拼接成矩阵Ω,具体过程为:
初始化说话人通用字典说话人字典/>分类器参数/>Pβ是字典原子数,拼接成矩阵Ω、Dk:
其中, 是第k个说话人的分类器参数;
步骤3、将训练数据与矩阵Ω作为输入,利用正交匹配追踪算法得到训练数据在Ω上的稀疏表示,具体过程为:
利用正交匹配追踪,计算训练数据在矩阵Ω上的稀疏表示,计算公式如下:
其中,xk,n是第k个说话人的第n个训练样本;
步骤4、在误差允许范围内,利用K均值-奇异值分解算法,分别更新说话人通用字典Φ0、说话人字典Φ,具体过程为:
步骤4-1、利用字典矩阵Ω和稀疏表示ωk,n,计算训练样本矩阵xk,n的残差E:
E=X-Ωωk,n (3)
步骤4-2、更新说话人通用字典Φ0,将残差E与说话人通用字典Φ0作为输入,通过KSVD逐列更新Φ0损失小于阈值,则更新结束,更新说话人通用字典Φ0的公式如下:
其中,τ是阈值,设置为0.01;
步骤4-3、将样本矩阵X与作为输入,利用k均值-奇异值分解(KSVD)逐列更新
s.t.||αk,n||1≤τ,||βk,n||1≤τ
其中,A是X在[Φ0 T,0]T上的稀疏表示,B是X在上的稀疏表示;
步骤4-4、将训练数据X、字典矩阵Ω与稀疏表示作为输入,计算字典更新的损失,利用损失控制字典更新循环,损失计算公式如下:
步骤5、对每个说话人的字典进行L2正则化得到对分类器参数进行L2正则化得到
步骤6、将Φ0、作为输入,计算测试语音在每个说话人字典上的稀疏表示/>具体过程为:
测试阶段,将说话人通用字典Φ0和拼接成一个新字典,利用正交匹配追踪计算测试数据xt在新字典上的稀疏表示/>
其中,λ是正则化系数,可选值包括但不限于{0.1,0.01,0.001};
步骤7、将作为输入,计算得分向量L,具体过程为:
计算分类器参数与稀疏表示/>相乘后得到的得分向量L:
其中,L的每个元素是测试数据xt在不同字典上的得分;步骤8、将L中所有元素排序,将最大值所对应字典的类别作为测试语音的类别。
2.根据权利要求1所述的基于区分性字典与分类器联合学习的说话人识别方法,其特征在于,所述步骤5的具体过程为:
步骤5-1、对说话人字典Φ进行L2正则化,得到正则化后的字典
其中,是第K个说话人字典的第Pβ个列向量;
步骤5-2、对分类器参数进行L2正则化,得到正则化后的分类器参数
其中,是第K个分类器参数的增广矩阵的第Pβ个列向量。
3.根据权利要求1所述的基于区分性字典与分类器联合学习的说话人识别方法,其特征在于,所述步骤8的具体过程为:
将L中最大值所对应字典的类别,判别为测试语音所属说话人类别,计算公式如下:
其中,Lk是L的第k个元素。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211218439.2A CN115512708B (zh) | 2022-10-05 | 2022-10-05 | 基于区分性字典与分类器联合学习的说话人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211218439.2A CN115512708B (zh) | 2022-10-05 | 2022-10-05 | 基于区分性字典与分类器联合学习的说话人识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115512708A CN115512708A (zh) | 2022-12-23 |
CN115512708B true CN115512708B (zh) | 2024-05-07 |
Family
ID=84507270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211218439.2A Active CN115512708B (zh) | 2022-10-05 | 2022-10-05 | 基于区分性字典与分类器联合学习的说话人识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115512708B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103345923A (zh) * | 2013-07-26 | 2013-10-09 | 电子科技大学 | 一种基于稀疏表示的短语音说话人识别方法 |
CN105139855A (zh) * | 2014-05-29 | 2015-12-09 | 哈尔滨理工大学 | 一种两阶段稀疏分解的说话人识别方法与装置 |
CN105845142A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 基于稀疏表示的信道鲁棒说话人确认方法及其系统 |
CN110265039A (zh) * | 2019-06-03 | 2019-09-20 | 南京邮电大学 | 一种基于字典学习和低秩矩阵分解的说话人识别方法 |
-
2022
- 2022-10-05 CN CN202211218439.2A patent/CN115512708B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103345923A (zh) * | 2013-07-26 | 2013-10-09 | 电子科技大学 | 一种基于稀疏表示的短语音说话人识别方法 |
CN105139855A (zh) * | 2014-05-29 | 2015-12-09 | 哈尔滨理工大学 | 一种两阶段稀疏分解的说话人识别方法与装置 |
CN105845142A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 基于稀疏表示的信道鲁棒说话人确认方法及其系统 |
CN110265039A (zh) * | 2019-06-03 | 2019-09-20 | 南京邮电大学 | 一种基于字典学习和低秩矩阵分解的说话人识别方法 |
Non-Patent Citations (2)
Title |
---|
Emotional speaker recognition based on i-vector through Atom Aligned Sparse Representation;Li Chen etc;《2013 IEEE International Conference on Acoustics, Speech and Signal Processing》;20130531;第7760-7764页 * |
基于稀疏编码的鲁棒说话人识别;盖晁旭;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170515(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115512708A (zh) | 2022-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | Speech emotion recognition based on DNN-decision tree SVM model | |
CN109272988B (zh) | 基于多路卷积神经网络的语音识别方法 | |
CN111916111B (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
CN109637545B (zh) | 基于一维卷积非对称双向长短时记忆网络的声纹识别方法 | |
CN110164452A (zh) | 一种声纹识别的方法、模型训练的方法以及服务器 | |
CN110459225B (zh) | 一种基于cnn融合特征的说话人辨认系统 | |
CN110675859B (zh) | 结合语音与文本的多情感识别方法、系统、介质及设备 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN111243602A (zh) | 基于性别、国籍和情感信息的声纹识别方法 | |
CN107316654A (zh) | 基于dis‑nv特征的情感识别方法 | |
CN111079418B (zh) | 命名体识别方法、装置、电子设备和存储介质 | |
CN114579743B (zh) | 基于注意力的文本分类方法、装置及计算机可读介质 | |
Nguyen et al. | Speech classification using SIFT features on spectrogram images | |
CN112287106A (zh) | 一种基于双通道混合神经网络的在线评论情感分类方法 | |
CN111709223A (zh) | 基于bert的句子向量生成方法、装置及电子设备 | |
CN111563373A (zh) | 聚焦属性相关文本的属性级情感分类方法 | |
CN116010874A (zh) | 基于深度学习多模态深尺度情感特征融合的情感识别方法 | |
CN115312033A (zh) | 基于人工智能的语音情感识别方法、装置、设备及介质 | |
CN109119073A (zh) | 基于多源识别的语音识别方法、系统、音箱及存储介质 | |
CN115512708B (zh) | 基于区分性字典与分类器联合学习的说话人识别方法 | |
CN116564315A (zh) | 一种声纹识别方法、装置、设备及存储介质 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
CN115827830A (zh) | 机器阅读理解装置及方法 | |
CN112860886A (zh) | 情感分析模型的训练方法及系统 | |
CN112735438A (zh) | 一种在线声纹特征更新方法及设备、存储设备和建模设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |