CN105590625A

CN105590625A - 声学模型自适应方法及系统

Info

Publication number: CN105590625A
Application number: CN201610156697.0A
Authority: CN
Inventors: 李轶杰; 刘青松; 许东星
Original assignee: SHANGHAI YUZHIYI INFORMATION TECHNOLOGY Co Ltd
Current assignee: Unisound Shanghai Intelligent Technology Co Ltd
Priority date: 2016-03-18
Filing date: 2016-03-18
Publication date: 2016-05-18

Abstract

本发明涉及一种声学模型自适应方法及系统，该方法包括：在声学模型训练集上，对每段语音数据基于深度神经网络模型提取与说话人相关的身份认证矢量；在所述声学模型训练集上，对每段语音数据提取声学特征参数；将从所述语音数据中提取的所述身份认证矢量和所述声学特征参数拼接在一起，并作为深度神经网络模型的输入进行训练以形成声学识别模型；以及在语音识别阶段，依据所述声学识别模型进行语音识别以形成识别结果。本发明利用深度神经网络模型提取对应说话人的身份认证矢量，并利用身份认证矢量对深度神经网络模型进行重训练，使得深度神经网络模型具有较好的说话人自适应的特点，提高了语音识别的准确率。

Description

声学模型自适应方法及系统

技术领域

本发明涉及语音识别领域，特指一种声学模型自适应方法及系统。

背景技术

现有被证明效果最好的语音识别系统中，声学模型大多是在成百上千小时数据集合上训练的深度网络模型。目前训练声学模型所用的声学特征是与说话人无关的滤波器组(filter-bank，fBank)特征，因此训练出来的声学模型也是与说话人无关的。利用深度网络模型来进行语音识别，由于该模型训练时缺少说话人相关的个性特征，而使得语音识别的准确率较低，且语音识别的适应性较差。

发明内容

本发明的目的在于克服现有技术的缺陷，提供一种声学模型自适应方法及系统，解决现有技术中的深度网络模型因缺少说话人相关的个性特征而使得语音识别的准确率较低和语音识别的适应性较差的问题。

实现上述目的的技术方案是：

本发明一种声学模型自适应方法，包括：

在声学模型训练集上，对每段语音数据基于深度神经网络模型提取与说话人相关的身份认证矢量；

在所述声学模型训练集上，对每段语音数据提取声学特征参数；以及

将从所述语音数据中提取的所述身份认证矢量和所述声学特征参数拼接在一起，并作为深度神经网络模型的输入进行训练以形成声学识别模型。

本发明利用深度神经网络模型提取对应说话人的身份认证矢量，并利用身份认证矢量对深度神经网络模型进行重训练，使得深度神经网络模型具有较好的说话人自适应的特点，提高了语音识别的准确率。

本发明声学模型自适应方法的进一步改进在于，对每段语音数据基于深度神经网络模型提取与说话人相关的身份认证矢量，包括：

对所述语音数据提取出39维麦尔倒谱系数，并根据计算公式提取所述身份认证矢量，所述计算公式为：

M_[ZF×1]＝n_[ZF×1]+T_[ZF×D]i_[D×1](一)

式一中：M为说话人语音的高斯混合模型均值超矢量，n为深度神经网络模型超矢量，T为总变异空间，i为服从N(0，1)分布的身份认证矢量，Z为混合高斯模型的混合度或深度神经网络的senones个数，F为麦尔倒谱系数的维数，F＝39维，D为总变异空间的维度；

D的范围在100维至300维之间。

本发明声学模型自适应方法的进一步改进在于，对每段语音数据提取声学特征参数，包括：

对每段语音数据中的每一语音帧提取90维声学特征参数，所述90维声学特征参数组成包括：29维滤波器组特征及其一阶二阶差分，1维基频参数及其一阶二阶差分组成。

本发明声学模型自适应方法的进一步改进在于，将从所述语音数据中提取的所述身份认证矢量和所述声学特征参数拼接在一起，包括：

将所述语音数据中的当前语音帧和其前后5个语音帧的声学特征参数拼接在一起以形成990维声学特征参数；

将与所述当前语音帧的语音数据对应的身份认证矢量与990维声学特征参数拼接在一起。

本发明声学模型自适应方法的进一步改进在于，还包括在语音识别阶段，依据所述声学识别模型进行语音识别以形成识别结果，包括：

提取待识别语音的身份认证矢量以形成待识别的身份认证矢量；

提取待识别语音中当前语音帧和其前后5个语音帧的声学特征参数拼接在一起以形成待识别的声学特征参数；

将所述待识别的身份认证矢量和所述待识别的声学特征参数拼接在一起并输入所述声学识别模型，并经所述声学识别模型进行解码以得到识别结果。

本发明还提供了一种声学模型自适应系统，包括：

声学模型训练集单元，用于存储不同说话人的语音数据；

身份认证矢量提取单元，与所述声学模型训练集单元连接，用于对所述声学模型训练集单元中的每段语音数据基于深度神经网络模型提取与说话人相关的身份认证矢量；

声学特征提取单元，与所述声学模型训练集单元连接，用于对所述声学模型训练集单元中的每段语音数据提取声学特征参数；以及

训练模型单元，与所述身份认证矢量提取单元和所述声学特征提取单元连接，用于将所述身份认证矢量和所述声学特征参数拼接在一起并作为深度神经网络模型的输入对所述深度神经网络模型进行训练，以形成声学识别模型。

本发明声学模型自适应系统的进一步改进在于，所述身份认证矢量提取单元利用计算公式进行计算，所述计算公式为：

M_[ZF×1]＝n_[ZF×1]+T_[ZF×D]i_[D×1](一)

式一中：M为说话人语音的高斯混合模型均值超矢量，n为深度神经网络模型超矢量，T为总变异空间，i为服从N(0，1)分布的身份认证矢量，Z为混合高斯模型的混合度或深度神经网络的senones个数，F为麦尔倒谱系数的维数，F＝39维，D为总变异空间的维度，D的范围在100维至300维之间；

所述身份认证矢量提取单元用于对所述语音数据提取出39维麦尔倒谱系数并根据所述计算公式提取身份认证矢量。

本发明声学模型自适应系统的进一步改进在于，所述声学特征提取单元用于对每段语音数据中的每一语音帧提取90维声学特征参数，所述90维声学特征参数组成包括：29维滤波器组特征及其一阶二阶差分，1维基频参数及其一阶二阶差分。

本发明声学模型自适应系统的进一步改进在于，所述训练模型单元用于从所述声学特征提取单元中获取所述语音数据中的当前语音帧和其前后5个语音帧的声学特征参数并拼接在一起以形成990维声学特征参数，所述训练模型单元还用于从所述身份认证矢量提取单元中获取与所述当前语音帧的语音数据对应的身份认证矢量，并将所获取的身份认证矢量与990维声学特征参数拼接在一起以作为深度神经网络模型的输入。

本发明声学模型自适应系统的进一步改进在于，还包括语音识别单元，所述语音识别单元与所述身份认证矢量提取单元、所述声学特征提取单元和所述训练模型单元连接；

所述语音识别单元通过所述身份认证矢量提取单元从待识别语音中提取身份认证矢量以形成待识别的身份认证矢量；

所述语音识别单元通过所述声学特征提取单元提取待识别语音中当前语音帧和其前后5个语音帧的声学特征参数并拼接在一起以形成待识别的声学特征参数；

所述语音识别单元用于将所述待识别的身份认证矢量和所述待识别的声学特征参数拼接在一起并输入所述声学识别模型并经所述声学识别模型进行解码以得到识别结果。

附图说明

图1为本发明声学模型自适应系统的系统图。

图2为本发明声学模型自适应系统中经重训练的深度网络模型的结构示意图。

图3为本发明声学模型自适应方法的流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

本发明提供了一种声学模型自适应方法及系统，用于将说话人的身份认证矢量加入到声学模型训练中以实现说话人的自适应，提高语音识别准确率。在实际应用中，每个说话人的声音都具有其特有的个性，哪怕是发同一个音，任意两位不同说话人的语音信号中所含的声学特性都不同，即每一说话人对应有匹配的身份认证矢量。本发明将提取出的身份认证矢量和声学特征参数拼接后进行深度神经网络模型的训练，形成声学识别模型，在进行识别时，也获取待识别语音的身份认证矢量，将待识别的身份认证矢量和待识别的声学特征参数拼接在一起并输入深度神经网络模型进行识别，识别时深度网络神经模型可找到与待识别的身份认证矢量相适配的身份认证矢量，进而提高了识别的准确率，且具有自适应的特点。下面结合附图对本发明声学模型自适应方法及系统进行说明。

参阅图1，显示了本发明声学模型自适应系统的系统图。下面结合图1，对本发明声学模型自适应系统进行说明。

如图1所示，本发明声学模型自适应系统包括声学模型训练集单元11、身份认证矢量提取单元12、声学特征提取单元13、训练模型单元14、语音识别单元15、以及深度神经网络模型16，声学模型训练集单元11与声学特征提取单元13和身份认证矢量提取单元12连接，身份认证矢量提取单元12和声学特征提取单元13与训练模型单元14连接，身份认证矢量提取单元12还与深度神经网络模型16连接，训练模型单元14也与深度神经网络模型16连接，语音识别单元15与声学特征提取单元13、身份认证矢量提取单元12、训练模型单元14、以及深度神经网络模型16连接。

声学模型训练集单元11用于存储不同说话人的语音数据，在声学模型训练集单元11中存储有上千条来自不同说话人的语音数据，该语音数据用于训模型。

身份认证矢量提取单元12用于对声学模型训练集单元11中的每段语音数据基于深度神经网络模型16提取与说话人相关的身份认证矢量。对每段语音数据提取一个100维至300维的身份认证矢量(i-vector)，较佳地，提取100维的身份认证矢量。身份认证矢量为对应说话人的个性特征，现有技术中的说话人识别，一般是以混合模型-通用背景模型(GMM-UBM)为基础的说话人建模方法，而本发明的身份认证矢量提取单元12是基于深度网络模型16来提取说话人的身份认证矢量，相比于以通用背景模型，深度神经网络模型基础上提取出的身份认证矢量对进行说话人身信息捕捉的更加准确。具体地，该身份认证矢量提取单元12利用计算公式进行计算，该计算公式为：

M_[ZF×1]＝n_[ZF×1]+T_[ZF×D]i_[D×1](一)

在式一中：M为说话人语音的高斯混合模型均值超矢量，n为深度神经网络模型超矢量，T为总变异空间，i为服从N(0，1)分布的身份认证矢量，Z为混合高斯模型的混合度或深度神经网络的senones个数(为了解决模型参数过多的问题，可以使用聚类方法来减小模型中的参数数量，提高模型的可训练性。聚类后的状态就被称为senone，每个senone都是完整独立的高斯混合模型，它是解码过程中的最基本单元)，F为麦尔倒谱系数(MFCC)的维数，F＝39维，D为总变异空间的维度，D的范围在100维至300维之间，较佳地，D取值100维。

计算模块与公式存储模块连接，计算模块用于对语音数据提取出39维麦尔倒谱系数(MFCC)特征后，根据公式存储模块中存储的计算公式提取身份认证矢量。该计算模块基于计算公式(一)，用语音识别中的深度神经网络模型来计算身份认证矢量估计过程中所需的一阶统计量，进而计算得到与说话人相关的100维的身份认证矢量。此时的深度神经网络模型16是通过滤波器组(fbank)特征进行训练的，在训模型时未包括有与说话人相关的身份认证矢量。

声学特征提取单元13用于对声学模型训练集单元11中的每段语音数据提取声学特征参数(fbank)，该声学特征参数为现有技术中用于训模型的特征参数。声学特征提取单元13对每段语音数据中的每一语音帧提取90维声学特征参数，该90维声学特征参数由29维滤波器组特征及其一阶二阶差分和1维基频参数(pitch)及其一阶二阶差分组成。通过声学特征提取单元13提取每一语音帧的90维声学特征参数。

训练模型单元14用于将身份认证矢量提取单元12所提取的身份认证矢量和声学特征提取单元13所提取的声学特征参数拼接在一起，拼接后作为深度神经网络模型16的输入对该深度神经网络模型16进行重训练，以形成声学识别模型，该声学识别模型用于语音识别，能够较好的提高语音识别的准确率。具体地，训练模型单元14通过声学特征提取单元13从语音数据中获取当前语音帧和位于该当前语音帧前后的5个语音帧的声学特征参数，每一语音帧获取90维声学特征参数，将一共获取的11个语音帧的声学特征参数以语音帧的顺序进行拼接，形成了990维声学特征参数(fbank特征)，而后训练单元14通过身份认证矢量提取单元13从当前语音帧的语音数据中获取说话人的100维身份认证矢量，将该100维的身份认证矢量与990维声学特征参数拼接在一起形成了1090维特征，将该1090维特征作为深度神经网络模型16的输入进行模型训练，得到声学识别模型，该声学识别模型可以称为声学DNN模型。

语音识别单元15依据声学识别模型进行语音识别以形成识别结果，由于该声学识别模型中包括有与说话人相关的身份认证矢量，进而使得语音识别单元15的语音识别的准确率较高。语音识别单元15接收待识别语音，将该待识别语音发送给身份认证矢量提取单元12，通过身份认证矢量提取单元12从待识别语音中提取身份认证矢量以形成待识别的身份认证矢量，该待识别的身份认证矢量为100维；语音识别单元15将待识别语音发送给声学特征提取单元13，通过声学特征提取单元13提取待识别语音中当前语音帧和其前后5个语音帧的声学特征参数，每一语音帧提取90维声学特征参数形成待识别的声学特征参数，共提取了990维待识别的声学特征参数；语音识别单元15将100维待识别的身份认证矢量和990维待识别的声学特征参数拼接在一起形成1090维特征作为声学识别模型的输入，经过声学识别模型进行解码以得到识别结果。

如图2所示，经过身份认证矢量和声学特征参数训练的深度神经网络模型16(声学识别模型)的结构从下至上依次包括：输入层161、全连接隐层162、Softmax层163、以及输出层164，输入层161处输入有身份认证矢量和声学特征参数，输入节点为1090；全连接隐层162设有多层，较佳为5层全连接隐层162，每层节点为2048个。

本发明声学模型自适应系统，利用深度神经网络模型提取说话人的身份认证矢量，利用身份认证矢量对深度神经网络模型进行重训练，使得该深度神经网络模型经训练后具有较好的说话人自适应的特点，提高了语音识别的准确率。在语音识别阶段，将待识别语音的声学特征参数和身份认证矢量一并输入声学识别模型中进行解码，通过身份认证矢量在深度神经网络模型中进行匹配解码识别，使得语音识别具有个性化，较好的自适应特点，且识别的准确率高。

下面对本发明声学模型自适应方法进行说明。

如图3所示，本发明声学模型自适应方法包括：

执行步骤S21，对每段语音数据提取与说话人相关的身份认证矢量。针对声学模型训练集中的每段语音数据，基于深度神经网络模型提取与说话人相关的身份认证矢量，在声学模型训练集中包括有上千条来自不同说话人的语音数据，从每一语音数据中提取出与说话人相关的身份认证矢量，也就是说话人的个性特征，通过身份认证矢量可以鉴别说话人的身份，通过积累大量的身份认证矢量，对于语音识别准确率的提高具有较大的帮助。接着执行步骤S22。

执行步骤S22，对每段语音数据提取声学特征参数，针对声学模型训练集中的每段语音数据，提取声学特征参数(fbank声学特征)。具体地，对每段语音数据中的每一语音帧提取90维声学特征参数，该90维声学特征参数由29维滤波器组特征及其一阶二阶差分和1维基频参数及其一阶二阶差分组成。接着执行步骤S23。

执行步骤S23，将身份认证矢量和声学特征参数拼接并训练深度神经网络模型以形成声学识别模型。把从语音数据中提取的身份认证矢量和声学特征参数拼接在一起，而后作为深度神经网络模型的输入进行训练以形成声学识别模型。通过声学特征参数结合身份认证矢量一起训模型，使得深度神经网络模型具有较好的说话人自适应特点，在语音识别时，深度神经网络模型能够匹配说话人的身份认证矢量，提高语音识别的准确率。接着执行步骤S24。

执行步骤S24，依据经训练的深度神经网络模型进行语音识别，以形成识别结果。通过声学识别模型进行语音识别，由于声学识别模型在训练时加入了身份认证矢量，使得声学识别模型在语音识别时具有较好的说话人自适应特点，能够鉴别说话人的身份认证矢量，提高语音识别的准确率。

本发明声学模型自适应方法对每段语音数据基于深度神经网络模型提取与说话人相关的身份认证矢量，包括：对语音数据提取出39维麦尔倒谱系数(MFCC)特征后，并根据计算公式提取语音数据中说话人的身份认证矢量(i-vector)，计算公式为：

M_[ZF×1]＝n_[ZF×1]+T_[ZF×D]i_[D×1](一)

式一中：M为说话人语音的高斯混合模型均值超矢量，n为深度神经网络模型超矢量，T为总变异空间，i为服从N(0，1)分布的身份认证矢量，Z为混合高斯模型的混合度或深度神经网络的senones个数，F为麦尔倒谱系数的维数，D为总变异空间的维度，D的范围在100维至300维之间，较佳地，D取值100维。即提取语音数据100维身份认证矢量。

本发明声学模型自适应方法中，将从语音数据中提取的身份认证矢量和声学特征参数拼接在一起包括：将语音数据中的当前语音帧和其前后5个语音帧的声学特征参数拼接在一起，每一语音帧提取90维声学特征，形成了990维声学特征参数；将与当前语音帧的语音数据对应的身份认证矢量与990维声学特征参数拼接在一起，这样就形成了1090维特征，该1090维特征作为训练深度神经网络模型的输入。

在语音识别阶段，依据声学识别模型进行语音识别以形成识别结果，包括：提取待识别语音的身份认证矢量以形成待识别的身份认证矢量，该待识别的身份认证矢量为100维待识别的身份认证矢量，提取方法同上，再次不再赘述；提取待识别语音中当前语音帧和其前后5个语音帧的声学特征参数拼接在一起以形成待识别的声学特征参数，每一语音帧提取90维声学特征参数，待识别的声学特征参数为990维待识别的声学特征参数；将待识别的身份认证矢量和待识别的声学特征参数拼接在一起形成1090维特征并输入声学识别模型，并经声学识别模型进行解码以得到识别结果。

深度神经网络模型在语音识别中，被证明为具有最好的识别效果，由于该深度神经网络模型在训模型时采用与说话人无关的声学特征参数(fbank)，使得深度神经网络模型的说话人自适应性能差，在语音识别的准确率上有缺陷。本发明利用深度神经网络模型提取说话人的身份认证矢量，在结合身份认证矢量和声学特征参数对深度神经网络模型进行重训练，旨在提高深度神经网络模型的说话人自适应特点，提高深度神经网络模型的准确率。

将本发明的声学模型自适应方法及系统与基于深度神经网络的声学模型在多个中文语音识别测试集合上进行测试后，本发明的声学模型自适应方法及系统在语音识别词错误率上比传统的基于深度神经网络的声学模型降低了10％至15％。

以上结合附图实施例对本发明进行了详细说明，本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而，实施例中的某些细节不应构成对本发明的限定，本发明将以所附权利要求书界定的范围作为本发明的保护范围。

Claims

1.一种声学模型自适应方法，其特征在于，包括：

2.如权利要求1所述的声学模型自适应方法，其特征在于，对每段语音数据基于深度神经网络模型提取与说话人相关的身份认证矢量，包括：

M_[ZF×1]＝n_[ZF×1]+T_[ZF×D]i_[D×1](一)

式一中：M为说话人语音的高斯混合模型均值超矢量，n为深度神经网络模型超矢量，T为总变异空间，i为服从N(0，l)分布的身份认证矢量，Z为混合高斯模型的混合度或深度神经网络的senones个数，F为麦尔倒谱系数的维数，F＝39维，D为总变异空间的维度；

D的范围在100维至300维之间。

3.如权利要求1或2所述的声学模型自适应方法，其特征在于，对每段语音数据提取声学特征参数，包括：

对每段语音数据中的每一语音帧提取90维声学特征参数，所述90维声学特征参数组成包括：29维滤波器组特征及其一阶二阶差分，1维基频参数及其一阶二阶差分。

4.如权利要求3所述的声学模型自适应方法，其特征在于，将从所述语音数据中提取的所述身份认证矢量和所述声学特征参数拼接在一起，包括：

5.如权利要求1所述的声学模型自适应方法，其特征在于，还包括在语音识别阶段，依据所述声学识别模型进行语音识别以形成识别结果，包括：

6.一种声学模型自适应系统，其特征在于，包括：

声学模型训练集单元，用于存储不同说话人的语音数据；

7.如权利要求6所述的声学模型自适应系统，其特征在于，所述身份认证矢量提取单元利用计算公式进行计算，所述计算公式为：

M_[ZF×1]＝n_[ZF×1]+T_[ZF×D]i_[D×1](一)

式一中：M为说话人语音的高斯混合模型均值超矢量，n为深度神经网络模型超矢量，T为总变异空间，i为服从N(0，l)分布的身份认证矢量，Z为混合高斯模型的混合度或深度神经网络的senones个数，F为麦尔倒谱系数的维数，F＝39维，D为总变异空间的维度，D的范围在100维至300维之间；

8.如权利要求6或7所述的声学模型自适应系统，其特征在于，所述声学特征提取单元用于对每段语音数据中的每一语音帧提取90维声学特征参数，所述90维声学特征参数组成包括：29维滤波器组特征及其一阶二阶差分，1维基频参数及其一阶二阶差分。

9.如权利要求8所述的声学模型自适应系统，其特征在于，所述训练模型单元用于从所述声学特征提取单元中获取所述语音数据中的当前语音帧和其前后5个语音帧的声学特征参数并拼接在一起以形成990维声学特征参数，所述训练模型单元还用于从所述身份认证矢量提取单元中获取与所述当前语音帧的语音数据对应的身份认证矢量，并将所获取的身份认证矢量与990维声学特征参数拼接在一起以作为深度神经网络模型的输入。

10.如权利要求6所述的声学模型自适应系统，其特征在于，还包括语音识别单元，所述语音识别单元与所述身份认证矢量提取单元、所述声学特征提取单元和所述训练模型单元连接；