CN110858484A

CN110858484A - 一种基于声纹识别技术的语音识别方法

Info

Publication number: CN110858484A
Application number: CN201810957977.0A
Authority: CN
Inventors: 杨瑞瑞
Original assignee: China Changfeng Science Technology Industry Group Corp
Current assignee: China Changfeng Science Technology Industry Group Corp
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2020-03-03

Abstract

本发明涉及一种基于声纹识别技术的语音识别方法，基于UBM‑CM‑MAP‑GMM模型，针对低得分高斯分量会对声纹识别系统识别性能的负面影响，将低得分高斯分量删减掉，只选择得分高的高斯分量，将这些高得分的高斯分量进行组合，从而为每个目标说话人建立自己的竞争者模型CM，然后基于每个说话人的CM模型通过MAP自适应得到说话人的声纹模型GMM。

Description

一种基于声纹识别技术的语音识别方法

技术领域

本发明涉及人工智能、模式识别技术领域中的声纹识别技术，具体涉及一种基于声纹识别技术的语音识别方法。

背景技术

声纹识别技术是一门将计算机、生物统计学、生物传感器等多种学科相结合的综合学科，该技术主要是通过每个人独特的先天生理特征或者后天的行为特性对人的身份进行识别的技术。声纹识别(Voiceprint Recognition)又被称为说话人识别，是一种生物识别技术，该技术主要通过人的声音中包含的特征信息对说话人身份进行自动识别的技术。

在声纹识别技术的实际应用过程中，经常会面临语音数据较短、数据量稀缺的情况。短语音问题对说话人识别的影响主要表现在：当训练语音不足时，对说话人特征参数的分布情况刻画不完整，进而影响声纹模型的准确性。

在声纹识别系统中，比较经典的声纹模型有：动态时间规整模型(DTW)、矢量量化模型(VQ)、隐马尔可夫模型(HMM)、高斯混合模型(GMM)、支持向量机模型(SVM)等。对于短语音问题，普遍采用UBM-MAP-GMM模型，该模型的基本原理如图1所示。该模型可以在一定程度上解决短时语音问题，但该模型也有其自身的缺点。在该模型中，经过自适应得到的说话人声纹模型强制服从UBM的统一分布，当语音数据进一步变短(有效语音低于10s)时，由于训练数据不充分，很多高斯分量没有得到充分的学习，自适应得到的说话人模型与UBM模型差异并不大，从而给声纹识别带来了极大的困难。

针对UBM-MAP-GMM声纹识别系统计算量大、运行速度慢的情况，目前有研究者提出了一些改进的方法，这些方法在不同程度上降低了声纹识别系统识别过程中存在的计算量。一种是高斯分量的核心挑选算法，该算法将各个UBM的高斯分量组织成树的结构，在语音测试阶段通过树形结构快速挑选出与测试语音帧相似度高的若干高斯分量，该方法降低了识别系统所需的运算量，同时由于通过高斯分量搜索未必能找到真正似然得分最高的前若干个高斯分量，因此导致系统识别性能有一定程度的降低。另一种是快速计算似然得分的方法，即针对一帧语音，首先计算该帧语音在UBM中每个高斯分量的得分，并根据高分优先的方法筛选出前C个分量进行标记，在对测试语音在个人GMM上进行计算时，只计算GMM模型中与UBM对应的C个高斯分量下的似然得分，因此该方法可以减少系统在语音测试时的计算量，尽快做出识别结果，然而，该模型在语音训练时仍然需要基于UBM为每个说话人建立高阶的声纹模型GMM，在训练模型阶段仍然需要进行大量计算。

发明内容

鉴于上述方法所存在的问题，本发明提出一种基于声纹识别技术的语音识别方法，将从降低声纹模型GMM阶数的角度上对模型做出改进，从而降低声纹识别系统的等错误率及计算复杂度。

本发明的技术方案如下：

一种基于声纹识别技术的语音识别方法，其特征在于包括：

(1)基于UBM-CM-MAP-GMM模型的说话人确认的个人GMM训练：对UBM模型中的高斯分量根据训练语音的得分进行高分优先的选取方法，为每个说话人建立自己的CM模型；在训练过程中，首先采用大量的不同的说话者语音进行训练得到UBM模型，使得该模型表征所有说话人声学特征分布的公共特性；然后利用目标说话人训练语音首先计算每一帧特征矢量在通用背景模型UBM中的每个高斯分量上的得分，在此基础上计算训练语音中所有语音帧在UBM模型每个高斯分量上的得分，根据得分高低选择出前若干个高得分的高斯分量并进行组合得到个人CM，将CM作为训练目标说话人声纹模型的初值；最后，利用该初值基于MAP训练方法对初始模型进行调整进而得到说话人声纹模型GMM；

(2)基于UBM-CM-MAP-GMM模型的说话人确认的语音测试：在语音测试阶段，计算测试语音在说话人声纹模型GMM上的得分与测试语音在竞争者模型CM上的似然得分；然后基于似然得分，根据系统判决规则输出识别结果。

本发明是一种基于UBM-CM-MAP-GMM的识别方法。在短语音说话人识别中，UBM-CM-MAP-GMM模型不仅缩短了系统的识别时间，而且也降低了系统的等错误率。UBM-CM-MAP-GMM模型在个人GMM混合度为通用背景模型UBM的一半时，系统性能最佳。总之，改进的说话人确认方法克服了传统UBM-MAP-GMM模型将所有说话人的声纹模型GMM服从同一模型结构的缺点，不仅减少了识别系统的计算量而且也提升了系统的识别性能。

附图说明

图1是基于UBM-MAP-GMM模型架构的说话人确认流程图；

图2是本发明基于UBM-CM-MAP-GMM模型的说话人确认基本流程图；

图3是本发明UBM-CM-MAP-GMM模型中个人GMM的训练过程示意图；

图4是本发明的说话人语音测试流程图。

具体实施方式

本发明主要针对UBM-MAP-GMM模型存在的计算量大、部分高斯分量对识别性能影响等问题，提出了基于UBM-CM-MAP-GMM的识别方法，这种方法主要是基于UBM-MAP-GMM系统中存在说话人语音训练不充分进而影响最终判决结果的情况，对UBM模型的高斯分量进行筛选，为每个说话人建立自己有针对性的低阶UBM，即竞争者模型CM，然后基于低阶UBM，利用训练语音为每个说话人建立自己的声纹模型GMM。这种识别方法的主要目的是：有效提高段语音说话人识别的性能，而且在降低CM和GMM混合度基础上，减少说话人识别在语音测试阶段的时间耗费。

UBM-CM-MAP-GMM模型的主要思想是：针对低得分高斯分量会对声纹识别系统识别性能的负面影响，将低得分高斯分量删减掉，只选择得分高的高斯分量，这些得分高的高斯分量可以理解为由接近目标说话人声纹特征信息的多个说话人的语音训练得到，将这些高得分的高斯分量进行组合，从而为每个目标说话人建立自己的竞争者模型CM(CohortModels)，该模型中的各个高斯分量能更加准确的对说话人的声纹特征信息进行描述，然后基于每个说话人的CM模型通过MAP自适应得到说话人的声纹模型GMM。

在一定程度上来讲，该模型不仅保留了UBM模型的思想，同时又引进了竞争者模型的竞争思想。在UBM-CM-MAP-GMM模型中，UBM模型仍然代表了说话人语音特征分布的公共特性，同时认为高区分性高斯分量能够更加精确的表征说话人的语音特征信息，借鉴了竞争性思想，从UBM中取出高得分的高斯分量进行组合得到每个说话人的针对性UBM即CM模型，使得该针对性UBM模型与说话人的声纹模型更加逼近，最后基于针对性UBM模型即CM模型自适应得到说话人的声纹模型GMM，所以UBM-CM-MAP-GMM模型架构是在UBM-MAP-GMM模型架构的基础上结合竞争者模型进行改进优化的声纹模型。

本发明基于UBM-CM-MAP-GMM模型的说话人确认方法流程如图2所示，包括：

一、基于UBM-CM-MAP-GMM模型的说话人确认的个人GMM训练：

基于UBM-CM-MAP-GMM模型架构的声纹确认方法对声纹模型进行训练过程如图3所示，主要训练思想是对UBM模型中的高斯分量根据训练语音的得分进行高分优先的选取方法，为每个说话人建立自己的CM模型。在训练过程中，首先，采用大量的不同的说话者语音进行训练得到UBM模型，使得该模型表征所有说话人声学特征分布的公共特性；然后利用目标说话人训练语音首先计算每一帧特征矢量在通用背景模型UBM中的每个高斯分量上的得分，在此基础上计算训练语音中所有语音帧在UBM模型每个高斯分量上的得分，根据得分高低选择出前若干个高得分的高斯分量并进行组合得到个人CM，将CM作为训练目标说话人声纹模型的初值；最后，利用该初值基于MAP训练方法对初始模型进行调整进而得到说话人声纹模型GMM。

在UBM-CM-MAP-GMM模型中个人GMM的具体计算步骤如下：

1.采用大量不同说话人的语音采用EM算法训练得到通用背景模型UBM。

2.利用目标说话人训练语音首先计算每一帧特征矢量X_k在通用背景模型UBM中的每个高斯分量λ_ui上的得分P_i(X_k|λ_ui)。

3.然后计算训练语音中所有语音帧在UBM模型每个高斯分量λ_ui上的得分P_i(X|λ _ui )，计算公式如下：

其中，X_k为训练语音中的第k帧特征矢量；P_i(X_k|λ_ui)＝ω_ib_i(X_k|λ_i)，表示第k帧特征矢量在UBM模型第i个高斯分量上的概率b_i(X_k|λ_i)与第i个高斯分量混合权重ω_i的乘积；L_i(λ_ui)表示该训练语音在通用背景模型λ_ui中第i个高斯分量上的得分；N表示语音帧的数量。

4.比较通用背景模型λ_u中所有高斯分量上训练语音X的得分，选出分数最高的前Q个高斯分量，并将这Q个高斯分量进行组合形成目标说话人的竞争者模型CM。在组合CM的过程中，只需对各个高斯分量的权重进行更新即可。设

则对选出的第i个高斯分量的权重进行更新，将ω_i/ω作为第i个高斯分量更新后的权重，其中，i＝1,2，…,q。最后将目标说话人的CM模型存入模型数据库。

5.在训练说话人声纹模型时，首先从模型数据库中查找出目标说话人的CM模型，然后基于CM模型通过MAP训练方法对CM模型参数进行调整，最终得到说话人的声纹模型GMM。

MAP自适应算法主要是通过训练语音对CM模型的均值向量进行调整。

当采用从UBM模型中挑选出的高斯分量的组合作CM模型为训练声纹模型的初始值时，随着参与训练声纹模型的高斯分量数的减少，训练语音在CM模型上的总得分也会相应降低，进而导致训练语音与CM模型中的各个高斯分量的后验概率值变大。随着后验概率值得变大，MAP训练方法中的自适应调整因子也会增大，(由于本文在MAP自适应过程中只对均值进行调整，因此，在此我们只考虑均值对应的调整因子α_i ^m的变化)，即均值自适应因子α_i ^m变大。调整因子α_i ^m的变大，会使得自适应训练的个人声纹模型GMM中包含的CM模型中的语音特征信息越来越少，对CM模型中均值的调整幅度增大，使得声纹模型GMM更加依赖于训练语音，与CM模型差距越来越大，同时，更逼近说话人训练语音声纹特征的分布，训练得到的声纹模型与训练语音越接近，进而准确刻画说话人的语音特征分布信息。

二、基于UBM-CM-MAP-GMM模型的说话人确认的语音测试：

在基于UBM-CM-MAP-GMM模型架构的声纹确认系统中，语音测试流程如图4所示。在语音测试阶段，需要计算测试语音在说话人声纹模型GMM上的得分与测试语音在竞争者模型CM上的似然得分。在改进的说话人确认方法中，对于每个已经建立声纹模型的说话人，个人声纹模型GMM和个人竞争者模型CM都已经被存储在了数据库中，因此，在进行语音测试时，首要任务就是将这两个模型从数据库中查找出来，然后基于似然得分，根据系统判决规则输出识别结果。

基于UBM-CM-MAP-GMM模型架构的声纹确认方法中，在测试阶段，对测试语音的具体测试流程如下：

1.对测试语音预处理并提取特征参数。

2.计算测试语音特征参数在声明说话人声纹模型GMM上的得分。

3.计算测试语音特征参数在声明说话人的竞争者模型CM上的得分。

4.计算测试语音特征参数在GMM和CM上得分的比值并取对数，作为测试语音的最终得分。

5.将测试语音的最终得分与声纹识别系统设置的阈值进行比较并作出判决，进而得出声纹识别系统最终的识别结果。

Claims

1.一种基于声纹识别技术的语音识别方法，其特征在于包括：

2.根据权利要求1所述的基于声纹识别技术的语音识别方法，其特征在于：步骤(2)中所述基于UBM-CM-MAP-GMM模型的说话人确认的语音测试，具体实现方式如下：

(21)对测试语音预处理并提取特征参数；

(22)计算测试语音特征参数在声明说话人声纹模型GMM上的得分；

(23)计算测试语音特征参数在声明说话人的竞争者模型CM上的得分；

(24)计算测试语音特征参数在GMM和CM上得分的比值并取对数，作为测试语音的最终得分；

(25)将测试语音的最终得分与声纹识别系统设置的阈值进行比较并作出判决，进而得出声纹识别系统最终的识别结果。