CN107369440B

CN107369440B - 一种针对短语音的说话人识别模型的训练方法及装置

Info

Publication number: CN107369440B
Application number: CN201710651305.2A
Authority: CN
Inventors: 庞在虎; 张志平; 朱风云
Original assignee: Beijing Lingban Future Technology Co ltd
Current assignee: Beijing Lingban Future Technology Co ltd
Priority date: 2017-08-02
Filing date: 2017-08-02
Publication date: 2021-04-09
Anticipated expiration: 2037-08-02
Also published as: CN107369440A

Abstract

本发明公开了一种针对短语音的说话人识别模型的训练方法，包括：从训练语料的语音数据中提取声学特征；对所述训练语料的语音数据进行音素标注得到音素标注结果；利用所述声学特征和所述音素标注结果进行音素相关的GMM‑UBM模型训练，得到说话人相关且音素相关的GMM模型和UBM模型；基于所述音素相关的GMM模型和UBM模型，针对每个音素生成用于提取i‑vector特征的音素相关的i‑vector总体变化矩阵；利用所述音素相关的i‑vector总体变化矩阵，从每个说话人数据中提取音素相关的i‑vector参数，再通过降维得到说话人相关且音素相关的i‑vector特征，作为说话人模型，本发明通过对说话人建立音素相关的i‑vector模型，使模型精度更高，并提高了识别准确率。

Description

一种针对短语音的说话人识别模型的训练方法及装置

技术领域

本发明涉及说话人识别领域，具体涉及一种针对短语音的说话人识别模型的训练方法。本发明同时涉及一种使用说话人识别模型进行针对短语音的说话人识别的装置。

背景技术

作为语音处理领域的主要技术之一，说话人识别以确认说话人身份为目标，在移动交互、身份验证、音频监控等领域有着广泛的应用前景。经过数十年的发展，说话人识别技术已经得到广泛应用。

说话人识别系统通常包括说话人训练阶段和说话人识别阶段。在说话人训练阶段，系统首先对提供的若干训练语音进行静音剔除和降噪处理，尽可能得到纯净有效的语音片段，然后再对这些语音提取对应的声学特征参数，根据系统的建模算法，得到说话人的特征模型。每个说话人对应的训练语音经过训练阶段后得到一个说话人模型。说话人识别阶段就是模式匹配的过程，其主要任务是将输入的待识别说话人语音特征与训练得到的模型集合中所有模型进行匹配，根据最优的匹配结果，判定待识别语音的最优匹配说话人。

近年来，基于i-vector的说话人建模技术取得了很大的进展，使得说话人识别系统的性能得到了显著的提升。在由美国国家标准技术委员会组织的国际说话人评测中，基于i-vector的说话人识别性能明显优于之前广泛采用的高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal background Model,GMM-UBM)、高斯混合模型超矢量-支撑向量机(Gaussian mixture model super vector-Support Vector Machine,GSV-SVM)、联合音子分析(Joint Factor Analysis,JFA)等方法，已成为目前主流的说话人识别技术。

i-vector说话人识别方法是基于GMM-UBM方法发展而来的。它利用GMM-UBM的均值矢量构成反映说话人信息的多维空间，并基于该空间进行统计建模和识别。在目前的方法中，生成i-vector的GMM是由所有训练语料共同训练得到的，也就是说高斯混合模型的均值矢量并不仅仅反映语音中的说话人相关信息，同时也包含了说话人无关信息(如音素相关信息)。对长时语音而言，说话人信息相对音素信息而言更加稳定，说话人识别效果会比较理想。然而对短时语音而言，这种相对稳定性便不再明显，因此会导致说话人识别准确率低。

在现实应用中，并不能保证系统在识别时能够获得足够长时间的测试语音。而目前的说话人识别技术，包括主流的i-vector技术，在基于短语音的说话人识别任务上普遍性能较差。因此，如何能够用较短的测试语音(即短语音)来准确地判断其说话人身份就成为当前该领域亟待解决的问题。

发明内容

本发明提供一种针对短语音的说话人模型的训练方法，以解决现有技术对短语音的说话人识别准确率低的问题。

本发明提供一种针对短语音的说话人识别模型的训练方法，包括：

从训练语料的语音数据中提取声学特征；

对所述训练语料的语音数据进行音素标注得到音素标注结果；

利用所述声学特征和所述音素标注结果进行音素相关的GMM-UBM模型训练，得到说话人相关且音素相关的GMM模型和UBM模型；

基于所述音素相关的GMM模型和UBM模型，针对每个音素生成用于提取i-vector特征的音素相关的i-vector总体变化矩阵；

利用所述音素相关的i-vector总体变化矩阵，从每个说话人数据中提取音素相关的i-vector参数，再通过降维得到说话人相关且音素相关的i-vector特征，作为说话人模型。

较佳地，所述声学特征至少包括：美标度倒谱、能量以及二者的一阶时域差分和二阶时域差分。

较佳地，所述音素为浊音音素。

较佳地，所述进行音素标注至少包括：标注音素名称及各个音素开始时间和结束时间。

较佳地，所述进行音素标注，是通过人工或自动方式实现。

较佳地，所述利用所述声学特征和所述音素标注结果进行音素相关的GMM-UBM模型训练，具体包括：

利用各个音素对应的所述声学特征，训练得到音素相关说话人无关的UBM模型；

在音素相关说话人无关的所述UBM模型基础上，通过自适应方法为每个说话人训练得到一个高斯混合模型，即说话人相关且音素相关的GMM模型。

本发明还提供了一种使用上述训练方法训练的说话人识别模型进行针对短语音的说话人识别的方法，包括：

预先存储如下模型：音素识别模型、音素相关的UBM模型、音素相关的i-vector总体变化矩阵和说话人模型；所述说话人模型为说话人相关及音素相关的i-vector特征模型；

从输入语音数据中提取声学特征；

利用预先存储的所述音素识别模型和提取的所述声学特征进行音素识别，得到输入语音数据的音素标注结果；

利用所述声学特征和所述输入语音数据的音素标注结果，结合预先存储的所述音素相关的UBM模型和所述音素相关的i-vector总体变化矩阵，来提取i-vector特征；

将提取的所述i-vector特征输入至所述说话人模型进行打分，将得分最高的模型所对应的说话人作为识别结果，即目标说话人。

较佳地，所述利用得到的所述声学特征、所述输入语音的音素标注结果，结合预先存储的所述音素相关的UBM模型、所述音素相关的i-vector总体变化矩阵，来提取i-vector特征，具体包括如下步骤：

根据所述输入语音数据的音素标注结果，利用相应的声学特征自适应对应音素相关的UBM模型，进行音素相关的GMM训练得到待识别说话人音素相关的GMM模型；

将该GMM模型的均值超矢量在音素相关的i-vector总体变化矩阵上进行投影,得到i-vector参数；

对i-vector参数进行PLDA降维，得到该说话人音素相关的i-vector特征。

本发明还提供了一种针对短语音的说话人识别模型的训练装置，包括：

第一提取模块，用于从训练语料的语音数据中提取声学特征；

第一音素标注模块，用于对所述训练语料的语音数据进行音素标注，得到音素标注结果；

第一训练模块，用于利用所述声学特征和所述音素标注结果进行音素相关的GMM-UBM模型训练，得到说话人相关且音素相关的GMM模型和UBM模型；

生成模块，用于基于所述音素相关的GMM模型和UBM模型，针对每个音素生成用于提取i-vector特征的音素相关的i-vector总体变化矩阵；和，

第一处理模块，利用所述音素相关的i-vector总体变化矩阵，从每个说话人数据中提取音素相关的i-vector参数，再通过降维得到说话人相关且音素相关的i-vector特征，作为说话人模型。

较佳地，所述音素为浊音音素。

较佳地，所述第一音素标注模块具体用于标注音素名称及各个音素开始时间和结束时间。

较佳地，所述第一音素标注模块进行音素标注，是通过人工或自动方式实现。

较佳地，所述第一训练模块，具体包括：

第一训练子模块，用于利用各个音素对应的所述声学特征，训练得到音素相关说话人无关的UBM模型；和，

第二训练子模块，用于在音素相关说话人无关的所述UBM模型基础上，通过自适应方法为每个说话人训练得到一个高斯混合模型，即说话人相关且音素相关的GMM模型。

本发明还提供了一种使用上述的训练装置训练的针对短语音的说话人识别的装置，包括：

存储模块，用于预先存储如下模型：音素识别模型、音素相关的UBM模型、音素相关的i-vector总体变化矩阵和说话人模型；所述说话人模型为说话人相关及音素相关的i-vector特征模型；

第二提取模块，用于从输入语音数据中提取声学特征；

第二音素识别模块，用于利用预先存储的所述音素识别模型和提取的所述声学特征进行音素识别，得到输入语音数据的音素标注结果；

第三提取模块，用于利用所述声学特征和所述输入语音数据的音素标注结果，结合预先存储的所述音素相关的UBM模型和所述音素相关的i-vector总体变化矩阵，来提取i-vector特征；和，

第二处理模块，用于将提取的所述i-vector特征输入至所述说话人模型进行打分，将得分最高的模型所对应的说话人作为识别结果，即目标说话人。

较佳地，所述第三提取模块，具体包括：

自适应子模块，用于根据所述输入语音数据的音素标注结果，利用相应的声学特征自适应对应音素相关的UBM模型，进行音素相关的GMM训练得到待识别说话人音素相关的GMM模型；

投影子模块，用于将该GMM模型的均值超矢量在音素相关的i-vector总体变化矩阵上进行投影,得到i-vector参数；和，

降维子模块，用于对i-vector参数进行PLDA降维，得到该说话人音素相关的i-vector特征。

与现有技术相比，本发明具有以下优点:

本发明通过对说话人建立音素相关的i-vector模型，建模尺度更精细，建模精度更高。通过短语音说话人识别实验证明，与音素无关的说话人建模方法相比，本发明所提出的音素相关的说话人建模方法得到了更好的性能，将识别准确率从90％提高到92.33％，基于该音素相关i-vector模型可以开展基于短语音的说话人识别、说话人聚类等相关应用。

更进一步的，考虑到语音中的浊音成分相比清音成分能量较大，抗噪声能力较强，本发明采用浊音音素相关模型，使系统性能更稳定，更鲁棒。

附图说明

图1是本发明提供的一种基于i-vector的说话人识别系统框架的结构示意图；

图2是本发明提供的一种基于i-vector的说话人识别系统框架的识别阶段的结构示意图；

图3是本发明一实施例提供的一种针对短语音的说话人模型的训练方法的流程示意图；

图4是本发明另一实施例提供的一种使用说话人模型进行针对短语音的说话人识别方法的流程示意图；

图5是本发明另一实施例提供的一种针对短语音的说话人模型的训练装置的结构示意图；

图6是本发明另一种实施例提供的一种使用说话人模型进行针对短语音的说话人识别装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施的限制。

本发明相关的专业术语：

1、“文本相关的说话人识别”和“文本无关的说话人识别”

说话人识别根据与识别语音的文本内容是否相关分为文本相关(Text-Dependent)和文本无关(Text-Independent)两类。通常，文本相关的任务会建立一个文本集合，用户在训练阶段按照指定文本录制训练语音，用来建立精确的文本相关的说话人模型，识别准确率相对较高。同样，识别阶段，识别说话人需要按照指定的集合进行录音。文本无关的任务则无需指定文本集合，训练语音和识别语音都无需指定发音的内容，应用场景相对宽松，但识别率相对低一些。

本发明为了对短语音数据进行精细建模，采用文本相关的说话人识别建模。

2、音素

音素是根据语音的自然属性划分出来的最小语音单位，可以用国际音标来标注。

为解决现有技术对短语音的说话人识别准确率低的问题，本发明的思路是针对不同的语音内容分别构建说话人模型，识别过程中，先区分语音内容，并调用相应的说话人模型进行说话人识别，以此提高识别率。

图1所示为一种基于i-vector的说话人识别系统框架的结构示意图。该系统包括两个部分：训练阶段和识别阶段。

训练阶段包括：准备训练语料，提取声学特征，进行因素相关的GMM-UBM训练得到GMM模型和UBM模型，生成用于提取i-vector参数的音素相关的i-vector总体变化矩阵，提取说话人相关及音素相关的i-vector特征，得到说话人模型。

识别阶段包括：准备训练语料，提取声学特征，进行音素识别、音素标注，根据声学特征和UBM模型进行音素相关的GMM训练得到GMM模型，根据GMM模型、UBM模型和音素相关的i-vector总体变化矩阵，提取i-vector特征，进行说话人识别，得到识别结果。

图2所示为本发明另一实施例提供的一种基于i-vector的说话人识别系统框架的识别阶段的结构示意图。

该系统包括：准备训练语料，提取声学特征，根据音素识别模型进行音素识别、音素标注，根据声学特征和音素相关的UBM模型进行音素相关的GMM训练得到GMM模型，根据GMM模型、音素相关的UBM模型和音素相关的i-vector总体变化矩阵，提取i-vector特征，根据说话人识别模型进行说话人识别，得到识别结果。

图3所示为本发明另一实施例提供的一种针对短语音的说话人识别模型的训练方法的流程示意图。如图3所示，该训练方法具体包括如下步骤：

步骤S101：从训练语料的语音数据中提取声学特征；

所提取的声学特征至少包括：美标度倒谱(Mel-frequency cepstralcoefficients，MFCC)、能量以及二者的一阶时域差分和二阶时域差分。

较佳地，步骤S101之前还可以包括以下步骤：

准备文本相关的多说话人语音数据，作为说话人识别模型的训练语料的语音数据；

建立一个文本集合，多个待建模说话人按照指定文本录制训练语音，将多个说话人按照指定文本录制的语音数据作为训练语料的语音数据，例如每人3-5分钟。

步骤S102：对所述训练语料的语音数据进行音素标注,得到音素标注结果。

优选的，所述进行音素标注至少包括：标注音素名称及各个音素开始时间和结束时间。开始时间、结束时间一般精确到帧，通常每帧10毫秒。

优选的，所述进行音素标注，是通过人工或自动方式实现。

通常描述标注一般是人工标注，而在实际应用中较难实现，尤其是大量数据时更为困难。标注工作量大、如果多人标注会存在标注不一致的问题。

通过自动对齐或自动识别对所述训练语音数据进行自动标注，获取所述音素的起始和结束时间。

如果人工标注只做到内容标注，需要利用自动对齐技术实现开始时间、结束时间的标注。

如果做不到内容标注，需要自动识别结束实现内容的标注，同时可完成开始时间、结束时间的标注。

训练语料包含了多个说话人的语音数据，且每句话都具有对应的说话人身份标记。为进行音素相关的说话人建模，训练语音数据还需要有相应的音素标注，包括音素名称及各音素开始时间和结束时间。音素是根据语音的自然属性划分出来的最小语音单位，可以用说话人语音中的词、音节、声韵母来表示；考虑到短语音识别任务中说话人训练数据及其有限，则需要更小粒度的单元，可以选择国际音标来表示。对带有音素或拼音名称的语音数据(拼音可以转换为音素)，利用自动语音识别技术获取各音素开始时间和结束时间。对不带音素或拼音名称的语音数据，也可利用语音识别技术自动识别出音素内容及开始时间和结束时间。

另外，根据发音时声带振动与否，音素又可分为浊音和清音音素。汉语中，浊音音素包括：/a/、/e/、/i/等；清音音素包括/p/、/q/、/k/等。

对语音数据进行分帧，通常帧长20毫秒，帧移10毫秒，逐帧提取声学特征。

对于训练数据，通过对中文标注进行音节层次的注音，将音节转换为国际音标。

所述浊音音素和清音音素均是所述音素信息的一部分。国际音标根据其发音是否有声带振动，分为清音和浊音两部分。优选的，本发明所述音素为浊音音素，忽略清音音素。

步骤S103：利用步骤S101提取的声学特征和步骤S102得到的音素标注结果，进行音素相关的GMM-UBM模型训练，得到说话人相关且音素相关的GMM模型和UBM模型。

较佳地，在本步骤中，具体包括以下步骤：

步骤S1031：利用各个音素对应的所述声学特征，训练得到音素相关说话人无关的UBM模型；

步骤S1032：在音素相关说话人无关的UBM模型基础上，通过自适应方法为每个说话人训练得到一个高斯混合模型，即说话人相关且音素相关的GMM模型。

不同说话人的差异主要表现在其声学特征的差异上，可以用每个说话人的声学特征所具有的概率密度函数来衡量。高斯混合模型(Gaussian Mixture Model-Universalbackground Model,GMM)将声学特征空间分布的概率密度用多个高斯概率密度函数的加权和来拟合，可以平滑地逼近任意形状的概率密度函数。但通常在实际中每一个说话人的语音数据很少，而训练高斯混合模型又需要大量的训练数据，于是将所有说话人的数据一起用来训练一个GMM，被称为通用背景模型(Universal Background Model,UBM)。在进行UBM训练时，首先平衡说话人的性别和每个说话人语料规模的大小，然后融合所有用于训练的声学特征，通过K均值聚类和期望最大化(Expectation Maximization,EM)迭代算法训练一个与说话人无关的UBM。与传统方法中音素无关的UBM模型不同在于，本发明中的UBM模型与音素相关，每个音素的UBM模型复杂度较低，只需32或64个高斯分量即可，而传统UBM模型则需要1024或2048个高斯分量。

UBM模型本质上是一个大型的GMM，反映了所有说话人声音特征的统计平均分布特性，从而消除了个性特征。在UBM基础上可以利用某一说话人的数据，通过模型自适应方法，如最大后验概率(Maximum A Posteriori,MAP)，得到与该说话人相关的GMM模型。

更优的，考虑到浊音音素比清音音素能量更大抗噪声能力更强，可只针对浊音音素进行建模。

步骤S104：基于步骤S103得到的音素相关的GMM模型和UBM模型，针对每个音素生成用于提取i-vector特征的音素相关的i-vector总体变化矩阵。

该步骤的基本思想是，假设说话人信息以及音素信息同时处于高斯混合模型高维均值超矢量中,如公式(1)所示。

M＝m+T w (1)

其中，

M--说话人相关且音素相关的高斯混合模型均值超矢量，即步骤S102得到的说话人相关且音素相关的GMM模型中各个高斯分量的均值组成的超矢量；

m--一个与特定说话人无关的高斯混合模型均值超矢量，由步骤S102得到的说话人无关且音素相关的UBM模型给出；

T--总体变化矩阵；

w--说话人相关以及音素相关的i-vector参数，一般来说，w的维度低于M和m的维度。

提取i-vector参数需要对音素相关的i-vector总体变化矩阵T进行估计,估计方法可采用现有技术，例如因子分析方法等。

步骤S105：利用步骤S103中得到的音素相关的i-vector总体变化矩阵T，从每个说话人数据中提取音素相关的i-vector参数，再通过降维得到说话人相关且音素相关的i-vector特征，作为说话人模型。

提取i-vector的过程需再次利用公式(1)将高斯混合模型均值超矢量在音素相关的i-vector总体变化矩阵子空间上进行投影,得到i-vector参数，然后对i-vector参数进行概率线性鉴别性分析(Probabilistic Linear discriminate analysis,PLDA)。降维后的i-vector结果称为i-vector特征模型。

说话人模型指针对每个说话人的一组音素相关的i-vector特征模型，例如，说话人A的音素/a/的i-vector特征，说话人A的音素/o/的i-vector特征，及其他音素的i-vector特征；说话人B的音素/a/的i-vector特征，说话人B的音素/o/的i-vector特征，及其他音素的i-vector特征。

更进一步的，考虑到语音中的浊音成分相比清音成分能量较大，抗噪声能力较强，本发明可只针对浊音音素建立相关模型，使系统性能更稳定，更鲁棒。

本发明还提供了一种使用上一个实施例中的说话人模型进行针对短语音的说话人识别方法，图4所示为该识别方法的流程示意图。如图4所示，识别方法具体包括如下步骤：

步骤S201：预先存储如下模型：音素识别模型、说话人无关且音素相关的UBM模型、音素相关的i-vector总体变化矩阵和说话人相关且音素相关的i-vector特征模型；所述说话人模型为说话人相关及音素相关的i-vector特征模型。

其中音素识别模型可由常见的语音识别系统的训练方法得到。其他模型可由上一个实施例中的训练方法得到。

步骤S202：从输入语音数据中提取声学特征。

对语音数据进行分帧，通常帧长20毫秒，帧移10毫秒。对每帧数据提取声学特征，声学特征包括MFCC、能量以及二者的一阶时域差分和二阶时域差分。

步骤S203：利用预先存储的所述音素识别模型，以及步骤S202提取的声学特征进行音素识别，得到输入语音数据的音素标注结果。

该音素标注包括标注音素名称及各个音素开始时间和结束时间。

步骤S204：利用步骤S202得到声学特征和步骤S203得到的音素标注结果，结合步骤S201中预先存储的音素相关的UBM模型和所述音素相关的i-vector总体变化矩阵，来提取i-vector特征。具体包括：

步骤S2041：根据所述输入语音数据的音素标注结果，利用相应的声学特征自适应对应音素相关的UBM模型，进行音素相关的GMM训练得到待识别说话人音素相关的GMM模型；

步骤S2042：提取i-vector的过程需再次利用公式(1)将待识别说话人音素相关的GMM模型作为GMM均值超矢量在音素相关的i-vector总体变化矩阵上进行投影,得到i-vector参数；

步骤S2043：对i-vector参数进行PLDA降维，得到该说话人音素相关的i-vector特征。

步骤S205：将步骤S204所提取的i-vector特征输入至说话人模型中进行打分，将得分最高的模型所对应的说话人作为识别结果，即目标说话人。

打分过程即为分类判决。常用的分类器包括余弦距离打分(Cosine DistanceScoring，CDS)分类器、支撑向量机(Support Vector Machine，SVM)分类器等。

根据实验结果，基于音素无关i-vector的说话人模型识别率为90％，基于音素相关i-vector的说话人模型识别率为92.33％。可以看出，音素相关的i-vector模型性能比音素无关的i-vector模型性能绝对提高2.33％。

如图5所示，本发明实施例还提供了一种说话人识别模型的训练装置，包括：

第一提取模块11，用于从训练语料的语音数据中提取声学特征；

第一音素标注模块12，用于对所述训练语料的语音数据进行音素标注，得到音素标注结果；

第一训练模块13，用于利用所述声学特征和所述音素标注结果进行音素相关的GMM-UBM模型训练，得到说话人相关且音素相关的GMM模型和UBM模型；

生成模块14，用于基于所述音素相关的GMM模型和UBM模型，针对每个音素生成用于提取i-vector特征的音素相关的i-vector总体变化矩阵；和，

第一处理模块15，利用所述音素相关的i-vector总体变化矩阵，从每个说话人数据中提取音素相关的i-vector参数，再通过降维得到说话人相关且音素相关的i-vector特征，作为说话人模型。

优选的，所述声学特征包括美标度倒谱、能量以及二者的一阶时域差分和二阶时域差分。

优选的，所述音素为浊音音素。

优选的，所述第一音素标注模块12具体用于标注音素名称及各个音素开始时间和结束时间。

优选的，所述第一音素标注模块12进行音素标注，是通过人工或自动方式实现。

优选的，所述第一训练模块，具体包括：

第一训练子模块131，用于利用各个音素对应的所述声学特征，训练得到音素相关说话人无关的UBM模型；和，

第二训练子模块132，用于在音素相关说话人无关的所述UBM模型基础上，通过自适应方法为每个说话人训练得到一个高斯混合模型，即说话人相关且音素相关的GMM模型。

如图6所示，本发明实施例使用如上个实施例中的说话人模型进行针对短语音的说话人识别的装置，该装置包括：

存储模块21，用于预先存储如下模型：音素识别模型、音素相关的UBM模型、音素相关的i-vector总体变化矩阵和说话人模型；所述说话人模型为说话人相关及音素相关的i-vector特征模型；

第二提取模块22，用于从输入语音数据中提取声学特征；

第二音素识别模块23，用于利用预先存储的所述音素识别模型和提取的所述声学特征进行音素识别，得到输入语音数据的音素标注结果；

第三提取模块24，用于利用所述声学特征和所述输入语音数据的音素标注结果，结合预先存储的所述音素相关的UBM模型和所述音素相关的i-vector总体变化矩阵，来提取i-vector特征；和，

第二处理模块25，用于将提取的所述i-vector特征输入至所述说话人模型进行打分，将得分最高的模型所对应的说话人作为识别结果，即目标说话人。

优选的，所述第三提取模块24，具体包括：

自适应子模块241，用于根据所述输入语音数据的音素标注结果，利用相应的声学特征自适应对应音素相关的UBM模型，进行音素相关的GMM训练得到待识别说话人音素相关的GMM模型；

投影子模块242，用于将该GMM模型的均值超矢量在音素相关的i-vector总体变化矩阵上进行投影,得到i-vector参数；和，

降维子模块243，用于对i-vector参数进行PLDA降维，得到该说话人音素相关的i-vector特征。

本发明虽然以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以做出可能的变动和修改，因此本发明的保护范围应当以本发明权利要求所界定的范围为准。

Claims

1.一种针对短语音的说话人识别模型的训练方法，其特征在于，包括：

从训练语料的语音数据中提取声学特征，包括，平衡说话人的性别和每个说话人语料规模的大小，然后融合所有用于训练的声学特征；

利用所述音素相关的i-vector总体变化矩阵，从每个说话人数据中提取音素相关的i-vector参数，再通过对所述i-vector参数降维得到说话人相关且音素相关的i-vector特征，作为说话人模型。

2.如权利要求1所述的针对短语音的说话人识别模型的训练方法，其特征在于，所述声学特征至少包括：

美标度倒谱、能量以及二者的一阶时域差分和二阶时域差分。

3.如权利要求1所述的针对短语音的说话人识别模型的训练方法，其特征在于，所述音素为浊音音素。

4.如权利要求1所述的针对短语音的说话人识别模型的训练方法，其特征在于，所述进行音素标注至少包括：

标注音素名称及各个音素开始时间和结束时间。

5.如权利要求1所述的针对短语音的说话人识别模型的训练方法，其特征在于，所述进行音素标注，是通过人工或自动方式实现。

6.如权利要求1所述的针对短语音的说话人识别模型的训练方法，其特征在于，所述利用所述声学特征和所述音素标注结果进行音素相关的GMM-UBM模型训练，具体包括：

7.一种使用如权利要求1-6任一项的所述训练方法训练的说话人识别模型进行针对短语音的说话人识别的方法，其特征在于，包括：

从输入语音数据中提取声学特征；

8.如权利要求7所述的说话人识别方法，其特征在于，所述利用得到的所述声学特征、所述输入语音的音素标注结果，结合预先存储的所述音素相关的UBM模型、所述音素相关的i-vector总体变化矩阵，来提取i-vector特征，具体包括如下步骤：

9.一种针对短语音的说话人识别模型的训练装置，其特征在于，包括：

第一提取模块，用于从训练语料的语音数据中提取声学特征，包括，平衡说话人的性别和每个说话人语料规模的大小，然后融合所有用于训练的声学特征；

第一训练模块，利用所述声学特征和所述音素标注结果进行音素相关的GMM-UBM模型训练，得到说话人相关且音素相关的GMM模型和UBM模型；

第一处理模块，利用所述音素相关的i-vector总体变化矩阵，从每个说话人数据中提取音素相关的i-vector参数，再通过对所述i-vector参数降维得到说话人相关且音素相关的i-vector特征，作为说话人模型。

10.如权利要求9所述针对短语音的说话人识别模型的训练装置，其特征在于，所述声学特征至少包括：

11.如权利要求9所述针对短语音的说话人识别模型的训练装置，其特征在于，所述音素为浊音音素。

12.如权利要求9所述针对短语音的说话人识别模型的训练装置，其特征在于，所述第一音素标注模块具体用于标注音素名称及各个音素开始时间和结束时间。

13.如权利要求9所述针对短语音的说话人识别模型的训练装置，其特征在于，所述第一音素标注模块进行音素标注，是通过人工或自动方式实现。

14.如权利要求9所述针对短语音的说话人识别模型的训练装置，其特征在于，所述第一训练模块，具体包括：

15.一种使用如权利要求9-14任一项所述的训练装置训练的针对短语音的说话人识别的装置，其特征在于，包括：

第二提取模块，用于从输入语音数据中提取声学特征；

16.如权利要求15所述的装置，其特征在于，所述第三提取模块，具体包括：