CN109727600A - 一种基于文本无关的短语音说话人确认方法 - Google Patents
一种基于文本无关的短语音说话人确认方法 Download PDFInfo
- Publication number
- CN109727600A CN109727600A CN201711032375.6A CN201711032375A CN109727600A CN 109727600 A CN109727600 A CN 109727600A CN 201711032375 A CN201711032375 A CN 201711032375A CN 109727600 A CN109727600 A CN 109727600A
- Authority
- CN
- China
- Prior art keywords
- model
- speaker
- score
- ubm
- gmm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及一种基于文本无关的短语音说话人确认方法,基于UBM‑CM‑MAP‑GMM模型,针对低得分高斯分量会对声纹识别系统识别性能的负面影响,将低得分高斯分量删减掉,只选择得分高的高斯分量,将这些高得分的高斯分量进行组合,从而为每个目标说话人建立自己的竞争者模型CM,然后基于每个说话人的CM模型通过MAP自适应得到说话人的声纹模型GMM。
Description
技术领域
本发明涉及人工智能、模式识别技术领域中的声纹识别技术,具体涉及一种基于文本无关的短语音说话人确认方法。
背景技术
声纹识别技术是一门将计算机、生物统计学、生物传感器等多种学科相结合的综合学科,该技术主要是通过每个人独特的先天生理特征或者后天的行为特性对人的身份进行识别的技术。声纹识别(Voiceprint Recognition)又被称为说话人识别,是一种生物识别技术,该技术主要通过人的声音中包含的特征信息对说话人身份进行自动识别的技术。
在声纹识别技术的实际应用过程中,经常会面临语音数据较短、数据量稀缺的情况。短语音问题对说话人识别的影响主要表现在:当训练语音不足时,对说话人特征参数的分布情况刻画不完整,进而影响声纹模型的准确性。
在声纹识别系统中,比较经典的声纹模型有:动态时间规整模型(DTW)、矢量量化模型(VQ)、隐马尔可夫模型(HMM)、高斯混合模型(GMM)、支持向量机模型(SVM)等。对于短语音问题,普遍采用UBM-MAP-GMM模型,该模型的基本原理如图1所示。该模型可以在一定程度上解决短时语音问题,但该模型也有其自身的缺点。在该模型中,经过自适应得到的说话人声纹模型强制服从UBM的统一分布,当语音数据进一步变短(有效语音低于10s)时,由于训练数据不充分,很多高斯分量没有得到充分的学习,自适应得到的说话人模型与UBM模型差异并不大,从而给声纹识别带来了极大的困难。
针对UBM-MAP-GMM声纹识别系统计算量大、运行速度慢的情况,目前有研究者提出了一些改进的方法,这些方法在不同程度上降低了声纹识别系统识别过程中存在的计算量。一种是高斯分量的核心挑选算法,该算法将各个UBM的高斯分量组织成树的结构,在语音测试阶段通过树形结构快速挑选出与测试语音帧相似度高的若干高斯分量,该方法降低了识别系统所需的运算量,同时由于通过高斯分量搜索未必能找到真正似然得分最高的前若干个高斯分量,因此导致系统识别性能有一定程度的降低。另一种是快速计算似然得分的方法,即针对一帧语音,首先计算该帧语音在UBM中每个高斯分量的得分,并根据高分优先的方法筛选出前C个分量进行标记,在对测试语音在个人GMM上进行计算时,只计算GMM模型中与UBM对应的C个高斯分量下的似然得分,因此该方法可以减少系统在语音测试时的计算量,尽快做出识别结果,然而,该模型在语音训练时仍然需要基于UBM为每个说话人建立高阶的声纹模型GMM,在训练模型阶段仍然需要进行大量计算。
发明内容
鉴于上述方法所存在的问题,本发明提出一种基于文本无关的短语音说话人确认方法,将从降低声纹模型GMM阶数的角度上对模型做出改进,从而降低声纹识别系统的等错误率及计算复杂度。
本发明的技术方案如下:
一种基于文本无关的短语音说话人确认方法,其特征在于包括:
(1)基于UBM-CM-MAP-GMM模型的说话人确认的个人GMM训练:对UBM模型中的高斯分量根据训练语音的得分进行高分优先的选取方法,为每个说话人建立自己的CM模型;在训练过程中,首先采用大量的不同的说话者语音进行训练得到UBM模型,使得该模型表征所有说话人声学特征分布的公共特性;然后利用目标说话人训练语音首先计算每一帧特征矢量在通用背景模型UBM中的每个高斯分量上的得分,在此基础上计算训练语音中所有语音帧在UBM模型每个高斯分量上的得分,根据得分高低选择出前若干个高得分的高斯分量并进行组合得到个人CM,将CM作为训练目标说话人声纹模型的初值;最后,利用该初值基于MAP训练方法对初始模型进行调整进而得到说话人声纹模型GMM;
(2)基于UBM-CM-MAP-GMM模型的说话人确认的语音测试:在语音测试阶段,计算测试语音在说话人声纹模型GMM上的得分与测试语音在竞争者模型CM上的似然得分;然后基于似然得分,根据系统判决规则输出识别结果。
本发明是一种基于UBM-CM-MAP-GMM的识别方法。在短语音说话人识别中,UBM-CM-MAP-GMM模型不仅缩短了系统的识别时间,而且也降低了系统的等错误率。UBM-CM-MAP-GMM模型在个人GMM混合度为通用背景模型UBM的一半时,系统性能最佳。总之,改进的说话人确认方法克服了传统UBM-MAP-GMM模型将所有说话人的声纹模型GMM服从同一模型结构的缺点,不仅减少了识别系统的计算量而且也提升了系统的识别性能。
附图说明
图1是基于UBM-MAP-GMM模型架构的说话人确认流程图;
图2是本发明基于UBM-CM-MAP-GMM模型的说话人确认基本流程图;
图3是本发明UBM-CM-MAP-GMM模型中个人GMM的训练过程示意图;
图4是本发明的说话人语音测试流程图。
具体实施方式
本发明主要针对UBM-MAP-GMM模型存在的计算量大、部分高斯分量对识别性能影响等问题,提出了基于UBM-CM-MAP-GMM的识别方法,这种方法主要是基于UBM-MAP-GMM系统中存在说话人语音训练不充分进而影响最终判决结果的情况,对UBM模型的高斯分量进行筛选,为每个说话人建立自己有针对性的低阶UBM,即竞争者模型CM,然后基于低阶UBM,利用训练语音为每个说话人建立自己的声纹模型GMM。这种识别方法的主要目的是:有效提高段语音说话人识别的性能,而且在降低CM和GMM混合度基础上,减少说话人识别在语音测试阶段的时间耗费。
UBM-CM-MAP-GMM模型的主要思想是:针对低得分高斯分量会对声纹识别系统识别性能的负面影响,将低得分高斯分量删减掉,只选择得分高的高斯分量,这些得分高的高斯分量可以理解为由接近目标说话人声纹特征信息的多个说话人的语音训练得到,将这些高得分的高斯分量进行组合,从而为每个目标说话人建立自己的竞争者模型CM(CohortModels),该模型中的各个高斯分量能更加准确的对说话人的声纹特征信息进行描述,然后基于每个说话人的CM模型通过MAP自适应得到说话人的声纹模型GMM。
在一定程度上来讲,该模型不仅保留了UBM模型的思想,同时又引进了竞争者模型的竞争思想。在UBM-CM-MAP-GMM模型中,UBM模型仍然代表了说话人语音特征分布的公共特性,同时认为高区分性高斯分量能够更加精确的表征说话人的语音特征信息,借鉴了竞争性思想,从UBM中取出高得分的高斯分量进行组合得到每个说话人的针对性UBM即CM模型,使得该针对性UBM模型与说话人的声纹模型更加逼近,最后基于针对性UBM模型即CM模型自适应得到说话人的声纹模型GMM,所以UBM-CM-MAP-GMM模型架构是在UBM-MAP-GMM模型架构的基础上结合竞争者模型进行改进优化的声纹模型。
本发明基于UBM-CM-MAP-GMM模型的说话人确认方法流程如图2所示,包括:
一、基于UBM-CM-MAP-GMM模型的说话人确认的个人GMM训练:
基于UBM-CM-MAP-GMM模型架构的声纹确认方法对声纹模型进行训练过程如图3所示,主要训练思想是对UBM模型中的高斯分量根据训练语音的得分进行高分优先的选取方法,为每个说话人建立自己的CM模型。在训练过程中,首先,采用大量的不同的说话者语音进行训练得到UBM模型,使得该模型表征所有说话人声学特征分布的公共特性;然后利用目标说话人训练语音首先计算每一帧特征矢量在通用背景模型UBM中的每个高斯分量上的得分,在此基础上计算训练语音中所有语音帧在UBM模型每个高斯分量上的得分,根据得分高低选择出前若干个高得分的高斯分量并进行组合得到个人CM,将CM作为训练目标说话人声纹模型的初值;最后,利用该初值基于MAP训练方法对初始模型进行调整进而得到说话人声纹模型GMM。
在UBM-CM-MAP-GMM模型中个人GMM的具体计算步骤如下:
1.采用大量不同说话人的语音采用EM算法训练得到通用背景模型UBM。
2.利用目标说话人训练语音首先计算每一帧特征矢量Xk在通用背景模型UBM中的每个高斯分量λui上的得分Pi(Xk|λui)。
3.然后计算训练语音中所有语音帧在UBM模型每个高斯分量λui上的得分Pi(X|λui),计算公式如下:
其中,Xk为训练语音中的第k帧特征矢量;Pi(Xk|λui)=ωibi(Xk|λi),表示第k帧特征矢量在UBM模型第i个高斯分量上的概率bi(Xk|λi)与第i个高斯分量混合权重ωi的乘积;Li(λui)表示该训练语音在通用背景模型λui中第i个高斯分量上的得分;N表示语音帧的数量。
4.比较通用背景模型λu中所有高斯分量上训练语音X的得分,选出分数最高的前Q个高斯分量,并将这Q个高斯分量进行组合形成目标说话人的竞争者模型CM。在组合CM的过程中,只需对各个高斯分量的权重进行更新即可。设则对选出的第i个高斯分量的权重进行更新,将ωi/ω作为第i个高斯分量更新后的权重,其中,i=1,2,…,q。最后将目标说话人的CM模型存入模型数据库。
5.在训练说话人声纹模型时,首先从模型数据库中查找出目标说话人的CM模型,然后基于CM模型通过MAP训练方法对CM模型参数进行调整,最终得到说话人的声纹模型GMM。
MAP自适应算法主要是通过训练语音对CM模型的均值向量进行调整。
当采用从UBM模型中挑选出的高斯分量的组合作CM模型为训练声纹模型的初始值时,随着参与训练声纹模型的高斯分量数的减少,训练语音在CM模型上的总得分也会相应降低,进而导致训练语音与CM模型中的各个高斯分量的后验概率值变大。随着后验概率值得变大,MAP训练方法中的自适应调整因子也会增大,(由于本文在MAP自适应过程中只对均值进行调整,因此,在此我们只考虑均值对应的调整因子αi m的变化),即均值自适应因子αi m变大。调整因子αi m的变大,会使得自适应训练的个人声纹模型GMM中包含的CM模型中的语音特征信息越来越少,对CM模型中均值的调整幅度增大,使得声纹模型GMM更加依赖于训练语音,与CM模型差距越来越大,同时,更逼近说话人训练语音声纹特征的分布,训练得到的声纹模型与训练语音越接近,进而准确刻画说话人的语音特征分布信息。
二、基于UBM-CM-MAP-GMM模型的说话人确认的语音测试:
在基于UBM-CM-MAP-GMM模型架构的声纹确认系统中,语音测试流程如图4所示。在语音测试阶段,需要计算测试语音在说话人声纹模型GMM上的得分与测试语音在竞争者模型CM上的似然得分。在改进的说话人确认方法中,对于每个已经建立声纹模型的说话人,个人声纹模型GMM和个人竞争者模型CM都已经被存储在了数据库中,因此,在进行语音测试时,首要任务就是将这两个模型从数据库中查找出来,然后基于似然得分,根据系统判决规则输出识别结果。
基于UBM-CM-MAP-GMM模型架构的声纹确认方法中,在测试阶段,对测试语音的具体测试流程如下:
1.对测试语音预处理并提取特征参数。
2.计算测试语音特征参数在声明说话人声纹模型GMM上的得分。
3.计算测试语音特征参数在声明说话人的竞争者模型CM上的得分。
4.计算测试语音特征参数在GMM和CM上得分的比值并取对数,作为测试语音的最终得分。
5.将测试语音的最终得分与声纹识别系统设置的阈值进行比较并作出判决,进而得出声纹识别系统最终的识别结果。
Claims (3)
1.一种基于文本无关的短语音说话人确认方法,其特征在于包括:
(1)基于UBM-CM-MAP-GMM模型的说话人确认的个人GMM训练:对UBM模型中的高斯分量根据训练语音的得分进行高分优先的选取方法,为每个说话人建立自己的CM模型;在训练过程中,首先采用大量的不同的说话者语音进行训练得到UBM模型,使得该模型表征所有说话人声学特征分布的公共特性;然后利用目标说话人训练语音首先计算每一帧特征矢量在通用背景模型UBM中的每个高斯分量上的得分,在此基础上计算训练语音中所有语音帧在UBM模型每个高斯分量上的得分,根据得分高低选择出前若干个高得分的高斯分量并进行组合得到个人CM,将CM作为训练目标说话人声纹模型的初值;最后,利用该初值基于MAP训练方法对初始模型进行调整进而得到说话人声纹模型GMM;
(2)基于UBM-CM-MAP-GMM模型的说话人确认的语音测试:在语音测试阶段,计算测试语音在说话人声纹模型GMM上的得分与测试语音在竞争者模型CM上的似然得分;然后基于似然得分,根据系统判决规则输出识别结果。
2.根据权利要求1所述的基于文本无关的短语音说话人确认方法,其特征在于:所述基于UBM-CM-MAP-GMM模型的说话人确认的个人GMM训练,具体实现方式如下:
(11)采用大量不同说话人的语音采用EM算法训练得到通用背景模型UBM;
(12)利用目标说话人训练语音首先计算每一帧特征矢量Xk在通用背景模型UBM中的每个高斯分量λui上的得分Pi(Xk|λui);
(13)然后计算训练语音中所有语音帧在UBM模型每个高斯分量λui上的得分Pi(X|λui),计算公式如下:
其中,Xk为训练语音中的第k帧特征矢量;Pi(Xk|λui)=ωibi(Xk|λi),表示第k帧特征矢量在UBM模型第i个高斯分量上的概率bi(Xk|λi)与第i个高斯分量混合权重ωi的乘积;Li(λui)表示该训练语音在通用背景模型λui中第i个高斯分量上的得分;N表示语音帧的数量;
(14)比较通用背景模型λu中所有高斯分量上训练语音X的得分,选出分数最高的前Q个高斯分量,并将这Q个高斯分量进行组合形成目标说话人的竞争者模型CM。在组合CM的过程中,只需对各个高斯分量的权重进行更新即可。设则对选出的第i个高斯分量的权重进行更新,将ωi/ω作为第i个高斯分量更新后的权重,其中,i=1,2,…,q。最后将目标说话人的CM模型存入模型数据库;
(15)在训练说话人声纹模型时,首先从模型数据库中查找出目标说话人的CM模型,然后基于CM模型通过MAP训练方法对CM模型参数进行调整,最终得到说话人的声纹模型GMM。
3.根据权利要求1所述的基于文本无关的短语音说话人确认方法,其特征在于:所述基于UBM-CM-MAP-GMM模型的说话人确认的语音测试,具体实现方式如下:
(21)对测试语音预处理并提取特征参数;
(22)计算测试语音特征参数在声明说话人声纹模型GMM上的得分;
(23)计算测试语音特征参数在声明说话人的竞争者模型CM上的得分;
(24)计算测试语音特征参数在GMM和CM上得分的比值并取对数,作为测试语音的最终得分;
(25)将测试语音的最终得分与声纹识别系统设置的阈值进行比较并作出判决,进而得出声纹识别系统最终的识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711032375.6A CN109727600A (zh) | 2017-10-26 | 2017-10-26 | 一种基于文本无关的短语音说话人确认方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711032375.6A CN109727600A (zh) | 2017-10-26 | 2017-10-26 | 一种基于文本无关的短语音说话人确认方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109727600A true CN109727600A (zh) | 2019-05-07 |
Family
ID=66292210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711032375.6A Pending CN109727600A (zh) | 2017-10-26 | 2017-10-26 | 一种基于文本无关的短语音说话人确认方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109727600A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110797030A (zh) * | 2019-10-24 | 2020-02-14 | 秒针信息技术有限公司 | 一种基于语音识别的工时统计的方法和系统 |
CN111816185A (zh) * | 2020-07-07 | 2020-10-23 | 广东工业大学 | 一种对混合语音中说话人的识别方法及装置 |
-
2017
- 2017-10-26 CN CN201711032375.6A patent/CN109727600A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110797030A (zh) * | 2019-10-24 | 2020-02-14 | 秒针信息技术有限公司 | 一种基于语音识别的工时统计的方法和系统 |
CN110797030B (zh) * | 2019-10-24 | 2022-06-07 | 上海明胜品智人工智能科技有限公司 | 一种基于语音识别的工时统计的方法和系统 |
CN111816185A (zh) * | 2020-07-07 | 2020-10-23 | 广东工业大学 | 一种对混合语音中说话人的识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104036774B (zh) | 藏语方言识别方法及系统 | |
CN111243602B (zh) | 基于性别、国籍和情感信息的声纹识别方法 | |
CN102332263B (zh) | 一种基于近邻原则合成情感模型的说话人识别方法 | |
CN104765996B (zh) | 声纹密码认证方法及系统 | |
CN107221318A (zh) | 英语口语发音评分方法和系统 | |
CN107492382A (zh) | 基于神经网络的声纹信息提取方法及装置 | |
CN109545189A (zh) | 一种基于机器学习的口语发音检错与纠正系统 | |
CN108417201B (zh) | 单信道多说话人身份识别方法及系统 | |
CN105096955B (zh) | 一种基于模型生长聚类的说话人快速识别方法及系统 | |
CN105989849B (zh) | 一种语音增强方法、语音识别方法、聚类方法及装置 | |
Liu et al. | Simultaneous utilization of spectral magnitude and phase information to extract supervectors for speaker verification anti-spoofing | |
CN102486922B (zh) | 说话人识别方法、装置和系统 | |
JPH11507443A (ja) | 話者確認システム | |
CN103578481B (zh) | 一种跨语言的语音情感识别方法 | |
CN106683661A (zh) | 基于语音的角色分离方法及装置 | |
CN1302427A (zh) | 用于说话者认证的模型自适应系统和方法 | |
JPH1083194A (ja) | 話し手照合システムのための2段階群選択方法 | |
CN103456302B (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
CN105469784A (zh) | 概率线性鉴别分析模型生成方法和说话人聚类方法及系统 | |
CN104575495A (zh) | 一种采用总变化量因子的语种识别方法及系统 | |
Li et al. | Oriental language recognition (OLR) 2020: Summary and analysis | |
CN110085236B (zh) | 一种基于自适应语音帧加权的说话人识别方法 | |
CN109727600A (zh) | 一种基于文本无关的短语音说话人确认方法 | |
CN102237089B (zh) | 一种减少文本无关说话人识别系统误识率的方法 | |
CN109409231B (zh) | 基于自适应隐马尔可夫的多特征融合手语识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190507 |
|
WD01 | Invention patent application deemed withdrawn after publication |