背景技术
说话人识别技术是指利用机器自动地从待测语音信号中识别出其所属说话人身份信息的一项生物特征识别技术。该技术广泛应用于基于语音的说话人身份确认、公安刑侦、法庭物证鉴定、国家安全等领域。
常见的说话人识别系统主要包括VQ(矢量量化)、GMM-UBM(高斯混合模型-通用背景模型)、GSV-SVM(高斯均值超矢量-支持矢量机)、JFA(联合因子分析)、IVEC(身份认证矢量)等等。其中GSV-SVM系统由于其灵活性,稳健性好等方面优于其他系统,目前广泛应用于实际项目中。
目前的GSV-SVM系统建模过程中,在提取超矢量阶段,将目标说话人的语音数据和反模型数据进行特征提取,通过在通用背景模型上进行MAP自适应,分别得到说话人GMM均值超矢量和反模型的GMM均值超矢量;在建模阶段,利用SVM分类器对上述均值超矢量进行监督性训练,得到相应的说话人模型。在测试阶段,同样对测试语音进行特征提取并在通用背景模型上进行MAP自适应,得到测试语音段的GMM均值超矢量,与训练好的模型进行测试打分,从而通过分数与判决门限比较给出识别结果。
在目前的GSV-SVM说话人识别系统中,往往由于训练说话人的语音段时长较短或者测试语音段时长较短,导致自适应GMM均值超矢量的过程中,一些GMM混合度上得不到充分自适应,容易导致发生“模型空洞”的问题,从而限制了短语音下说话人识别的性能。
发明内容
本发明的目的旨在至少解决上述的技术缺陷之一。
为此,本发明的目的在于提出一种基于基状态矢量加权的短语音说话人识别方法。
为达到上述目的,本发明的实施例提出一种基于基状态矢量加权的短语音说话人识别方法,包括以下步骤:S1:采集多个带文本标注的语音数据,并对所述多个语音数据进行训练,以得到状态层聚类的隐马尔可夫模型,其中,聚类后的状态为基状态;S2:根据所述状态层聚类的隐马尔可夫模型对说话人识别中的数据进行解码,以得到数据的基状态标注;S3:根据所述数据的基状态的标注训练基状态的通用背景模型,并从MAP自适应后的模型生成基状态均值超矢量和基状态权值超矢量;S4:根据所述基状态均值超矢量和基状态权值超矢量进行说话人模型训练和测试,从而估计所述短语音说话人的身份。
本发明的一个实施例中,所述步骤S1具体包括:所述步骤S1具体包括:采集多个带文本标注的语音数据;对所述多个语音数据进行训练得到音素隐马尔科夫模型;以及根据所述音素隐马尔科夫模型进行状态层聚类,以得到所述状态层聚类的隐马尔可夫模型,其中,聚类后的状态为基状态。
本发明的一个实施例中,所述步骤S2进一步包括:通过解码算法和所述基状态层聚类的隐马尔科夫模型对所有说话人识别中的数据进行解码,以得到所述数据的基状态标注。
本发明的一个实施例中,所述步骤S4进一步包括:根据所述基状态均值超矢量和基状态权值超矢量训练说话人模型和测试,得到说话人识别的分数;以及根据所述说话人识别的分数估计说话人的身份。
本发明的一个实施例中,所述基状态模型包括13个基状态模型。
本发明的一个实施例中,所述基状态均值超矢量通过如下公式得到,所述公式为,
其中,
为第s
i个基状态高斯混合模型中的混合分量和方差加权后的均值矢量,w
i为第s
i个基状态高斯混合模型中的混合分量权重矢量,∑
i为第s
i个基状态高斯混合模型中的混合分量的方差矩阵,
为第s
i个基状态高斯混合模型均值矢量,μ为所有基状态矢量拼接后生成的最终的基状态矢量,T是对矢量进行转置运算。本发明的一个实施例中,所述基状态权值超矢量通过如下公式得到,所述公式为,
其中,
为第s
i个基状态生成的权值矢量,λ为所有基状态权值顺序拼接后生成的最终的权值矢量。
根据本发明实施例的方法,可以实现基状态层相关的精细建模,并通过有效的加权,克服传统方法会容易导致的“模型空洞”的问题,从而有效降低了建模的自由度,同时可以提高了说话人识别的性能。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
图1为根据本发明一个实施例的基于基状态矢量加权的短语音说话人识别方法的流程图。图4为根据本发明一个实施例的基于基状态矢量加权的短语音说话人识别方法的示意图。如图1所示,根据本发明实施例的基于基状态矢量加权的短语音说话人识别方法,包括以下步骤:
步骤101,采集多个带文本标注的语音数据,并对多个语音数据进行训练,以得到状态层聚类的隐马尔可夫模型,聚类后的状态称之为基状态。
具体地,采集多个带文本标注的语音数据。然后,对多个语音数据进行训练得到音素隐马尔科夫模型。之后,根据音素隐马尔科夫模型进行状态层聚类,以得到状态层聚类的隐马尔可夫模型,聚类后的状态称之为基状态。在本发明的一个实施例中,采集用于训练基状态模型的语音数据集,并对所有数据进行语音识别,得到对应的音素串,并采用Baum-Welch算法,对音素串中的每一个音素分别进行迭代训练以得到三状态的隐马尔科夫模型。对隐马尔可夫模型进行状态层聚类和迭代重估,以得到基状态模型。
步骤102,根据基状态聚类的隐马尔可夫模型对说话人识别中的数据进行解码,以得到数据的基状态标注。具体地,通过解码算法和状态层聚类的隐马尔科夫模型对所有说话人识别中的数据进行解码,以得到数据的基状态标注。
图2为根据本发明一个实施例的基状态模型训练和对说话人数据解码的示意图。如图2所示,根据训练得到的隐马尔科夫模型进行状态层聚类,并进行迭代重估训练基状态模型,该基状态模型包括13个基状态模型。采用Viterbi解码算法,对通用背景模型、反模型、说话人模型等训练和测试中所涉及到的所有数据进行解码,以得到每一条数据解码后的基状态标注。
步骤103,根据数据的基状态的标注训练基状态的通用背景模型,并从MAP自适应后的模型生成基状态均值超矢量和基状态权值超矢量。
具体地,根据基状态的标注和EM算法,用训练背景模型的数据训练每一个基状态的通用背景模型。根据基状态的标注对用于说话人系统训练说话人模型和测试中涉及到的每一条数据进行处理,包括用于训练说话人模型的正样本和负样本数据,以及所有测试数据。然后对基状态通用背景模型进行最大后验概率MAP自适应,以得到各基状态下的GMM模型。
图3为根据本发明一个实施例的基状态的超矢量提取和加权矢量计算的示意图。如图3所示,自适应方法具体如下:
假设其中一个基状态通用背景模型的参数为Λ={w
m,μ
m,Σ
m,m=1,...,M},其中,w
m、μ
m和Σ
m分别表示通用背景模型中各高斯分量的权重、均值和方差,权重满足
下标m表示高斯分量标号,共含M个高斯分量。以训练语音为例,假设语音共含T帧特征,其中,第t帧的声学层MFCC特征为o
t,则o
t属于第m个高斯分量的后验概率为:
其中,N(·)表示高斯分布的概率密度,对t=1,...,T,m=1,...,M进行循环计算,可得到每帧特征属于每个高斯分量的后验概率。
然后,计算得到第m个高斯分量的后验概率对所有帧进行累加,得到该特征的第m个高斯分量的零阶统计量:
并对通过该公式得到的后验概率与特征的乘积对所有帧进行累加,得到该特征的第m个高斯分量的一阶统计量:
对m=1,...,M进行循环,可计算得到该基状态下每个高斯分量的零阶和一阶统计量。对一阶统计量和通用背景模型的均值进行线性插值,得到自适应后的模型均值:μ
m=λ
mE
m(O)+(1-λ
m)μ
m,其中,权重和方差采用通用背景模型的权重和方差。根据各基状态下每个高斯分量的零阶统计量,计算得到每个基状态模型下各个高斯分量的权值,计算公式如下:
其中γ是一个常数因子。
在本发明的一个实施例中,假设n个基状态的排列顺序为{s
1,s
2,…s
n},对每个语音段,将各基状态下自适应得到的GMM均值超矢量按顺序逐次拼接生成高维多基状态GMM均值超矢量,计算公式如下:
其中,
为第s
i个基状态高斯混合模型中的混合分量和方差加权后的均值矢量,w
i为第s
i个基状态高斯混合模型中的混合分量权重矢量,∑
i为第s
i个基状态高斯混合模型中的混合分量的方差矩阵,
为第s
i个基状态高斯混合模型均值矢量,μ为所有基状态矢量拼接后生成的最终的基状态矢量,T是对矢量进行转置运算。再对基状态进行排序,将计算得到的n个基状态的权值超矢量,计算公式如下:
其中,
为第s
i个基状态生成的权值矢量,λ为所有基状态权值顺序拼接后生成的最终的权值矢量。
步骤104,根据基状态均值超矢量和基状态权值超矢量进行说话人模型训练和测试,从而估计短语音说话人的身份。
具体地,根据基状态均值超矢量和基状态权值超矢量训练说话人模型和测试,得到说话人识别的分数。然后根据说话人识别的分数估计说话人的身份。
在本发明的一个实施例中,对于每一个说话人测试任务(m,t),将任务中的训练语音和测试语音得到的多个基状态GMM均值高斯超矢量送入支持向量机分类器中进行模型的训练和与测试语音的匹配打分,将分数用于分类,并用训练段和测试段的基状态的权值矢量λm·λt对模型训练和测试时的核矩阵同时进行加权。通过支持向量机来完成模型建立和测试,在支持向量机训练过程中,通过利用模型训练段权值矢量和测试段权值矢量同时对线性核矩阵进行加权,通过求解二次规划问题得到说话人模型,然后在测试过程中,将测试段的基状态矢量和训练好的说话人模型进行匹配打分,得到最终的匹配分数,并将该分数通过与判决门限进行比较从而用于说话人身份的识别。
根据本发明实施例的方法,可以实现基状态层相关的精细建模,并通过有效的加权,克服传统方法易导致的“模型空洞”的问题,从而有效降低了建模的自由度,同时可以提高了说话人识别的性能。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。