CN105869624A

CN105869624A - 数字语音识别中语音解码网络的构建方法及装置

Info

Publication number: CN105869624A
Application number: CN201610188168.9A
Authority: CN
Inventors: 吴富章; 钱柄桦; 李为; 李科; 吴永坚; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2016-03-29
Filing date: 2016-03-29
Publication date: 2016-08-17
Anticipated expiration: 2036-03-29
Also published as: JP6665305B2; KR102134201B1; WO2017166966A1; EP3438973A4; EP3438973A1; US20180277103A1; KR20180091903A; EP3438973B1; US10699699B2; CN105869624B; WO2017166966A9; JP2019504355A

Abstract

本发明公开了一种数字语音识别中语音解码网络的构建方法及装置，所述方法包括：获取进行数字语音录制所得到的训练数据，所述训练数据包括若干语音段；进行所述训练数据中的声学特征提取，得到每一语音段对应的特征序列；根据所述特征序列和训练数据中数字对应的音素，进行以单音素声学模型为起始的渐进训练得到声学模型；获取语言模型，通过所述语言模型和训练得到的声学模型构建语音解码网络，所述语言模型是通过对所述训练数据中数字的匹配关系建模得到的。本发明的数字语音识别中语音解码网络的构建方法及装置能够有效地提高数字语音的识别准确率。

Description

数字语音识别中语音解码网络的构建方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种数字语音识别中语音解码网络的构建方法及装置。

背景技术

数字语音识别中，现有的语音解码网络可以分为两类：一类是采用孤立词识别技术对语音中的数字进行识别；另一类是采用通用的连续语音识别技术对语音中的数字进行识别。

基于孤立词识别技术的数字语音识别中，要求输入数字语音时数字之间具有明显的间隔，如果是连续的数字输入则可能导致无法识别或者识别错误，大大降低了数字语音的识别准确率，因此，基于孤立词识别技术的数字语音识别具有明显的局限性。

由此，通用的连续语音识别技术更经常地被用于数字语音的识别。然而该技术的识别对象除了包含数字，还包含有其他的语言内容，这就导致该技术所使用的声学模型和语言模型都过于复杂，识别速度较为缓慢，而且容易将数字错误识别成其他多音字，使得数字语音的识别准确率不够高。即使将该技术中的语言模型的识别对象限制在0到9的十个数字以内，识别准确率的提高仍然有限。

可见，针对数字语音识别所构建的语音解码网络仍存在识别准确率不高的问题。

发明内容

基于此，有必要提供一种数字语音识别中语音解码网络的构建方法，所述方法能够提高数字语音的识别准确率。

此外，还有必要提供一种数字语音识别中语音解码网络的构建装置，所述装置够提高数字语音的识别准确率。

为了解决上述技术问题，本发明所采用的技术方案为：

一种数字语音识别中语音解码网络的构建方法，包括：获取进行数字语音录制所得到的训练数据，所述训练数据包括若干语音段；进行所述训练数据中的声学特征提取，得到每一语音段对应的特征序列；根据所述特征序列和训练数据中数字对应的音素，进行以单音素声学模型为起始的渐进训练得到声学模型；获取语言模型，通过所述语言模型和训练得到的声学模型构建语音解码网络，所述语言模型是通过对所述训练数据中数字的匹配关系建模得到的。

一种数字语音识别中语音解码网络的构建装置，包括：训练数据获取模块，用于获取进行数字语音录制所得到的训练数据，所述训练数据包括若干语音段；声学特征提取模块，用于进行所述训练数据中的声学特征提取，得到每一语音段对应的特征序列；声学模型获取模块，用于根据所述特征序列和训练数据中数字对应的音素，进行以单音素声学模型为起始的渐进训练得到声学模型；语言模型获取模块，用于获取语言模型，通过所述语言模型和训练得到的声学模型构建语音解码网络，所述语言模型是通过对所述训练数据中数字的匹配关系建模得到的。

与现有技术相比，本发明具有以下有益效果：

通过对训练数据中的每一语音段进行声学特征提取，以将得到的每一语音段对应的特征序列和训练数据中数字对应的音素，进行以单音素声学模型为起始的渐进训练得到声学模型，再与获取的语言模型构建语音解码网络。也就是说，通过语音解码网络中的声学模型采用渐进训练方式获取，即声学模型以单音素声学模型为训练基础，再进行二次训练得到，从而加快了声学模型训练的收敛速度，有效地提高了数字语音的识别准确率。

附图说明

图1为孤立识别技术的方法流程图；

图2为通用的连续语音识别技术的方法流程图；

图3为一实施例的数字语音识别中语音解码网络的构建方法的流程图；

图4为图3中进行训练数据中的声学特征提取的方法流程图；

图5为图3中进行单音素声学模型为起始的渐进训练得到声学模型的方法流程图；

图6为图5中根据单音素划分的状态对语音段所对应的特征序列进行声学建模和训练的方法流程图；

图7为对单音素建立GMM-HMM模型的示意图；

图8为图5中根据三音素划分的状态对语音段所对应的特征序列进行声学建模和训练的方法流程图；

图9为一实施例的数字语音识别中语音解码网络的构建装置的结构框图；

图10为图9中声学特征提取模块的结构框图；

图11为图9中声学模型获取模块的结构框图；

图12为图11中第一模型获取单元的结构框图；

图13为图11中第二模型获取单元的结构框图；

图14为本发明实施例所提供的一种服务器的结构示意图。

具体实施方式

体现本发明特征与优点的典型实施方式将在以下的说明中详细叙述。应理解的是本发明能够在不同的实施方式上具有各种的变化，其皆不脱离本发明的范围，且其中的说明及图示在本质上是当作说明之用，而非用以限制本发明。

如前所述，数字语音识别中，现有的语音解码网络可以分为两类：一类是孤立词识别技术，一类是通用的连续语音识别技术。

一方面，如图1所示，基于孤立词识别技术所构建的语音解码网络中，首先通过端点检测判断输入的数字语音的起始位置，然后将确认起始位置的数字语音分割成多个有效的语音段，再对每一个语音段进行特征提取，最后采用动态时间规整(Dynamic Time Warping，DTW)算法匹配提取得到的特征与预置的数字语音模板之间的语音相似性，最相似的数字语音模板所对应的数字即为数字语音的识别结果。

另一方面，如图2所示，基于通用的连续语音识别技术所构建的语音解码网络中，首先对输入的数字语音进行声学特征提取，然后通过解码器中的声学模型将提取到的声学特征识别成数字序列，再通过解码器中的语言模型对该数字序列出现的概率进行统计，出现概率最大的数字序列即为数字语音的识别结果。

然而，上述两类语音解码网络均存在识别准确率不高的问题，为了提高数字语音的识别准确率，特提出了一种数字语音识别中语音解码网络的构建方法。该方法可依赖于计算机程序，该计算机程序将运行在具备运算能力的计算机设备之上。

请参阅图3，在一实施例中，一种数字语音识别中语音解码网络的构建方法，包括以下步骤：

步骤110，获取进行数字语音录制所得到的训练数据。

为了构建语音解码网络，需要得到声学模型和语言模型，训练数据则是声学模型和语言模型的训练基础。通过获取大量的训练数据才能够得到较为准确的声学模型和语言模型，从而通过该声学模型和语言模型构建出适用于数字语音识别的语音解码网络，进而更加准确地进行数字语音的识别。

本实施例中，训练数据包括若干语音段，并且每一语音段均包含有多个数字对应的语音。

进一步的，训练数据所包含的若干语音段是由多个人录制所得到的，并且由多个人录制所得到的若干语音段将对应于同一个人，以保证模型训练过程中同一个人具有不同频率、不同内容、不同信道的语音段。

进一步优选的，训练数据中每一语音段只包含数字和噪声，并且训练数据中存在的数字能够构成0～9这十个数字的集合。

将包含了数字和噪声的语音段准备为可供数字语音识别中语音解码网络使用的训练数据，确保所构建的语音解码网络能够抵抗噪声等非有效语音的干扰，在数字语音的识别过程中最大程度地避免受到噪声的干扰，不仅适用于安静环境下的数字语音识别，同时对于低信噪比的语音也具有较好的识别效果，能够提高室外环境下的识别和抗噪能力。

每一语音段都是通过录制数字语音得到的，其可以是在模型训练过程中根据实际应用场景的需要实时录制得到，也可以是模型训练过程之前就预先录制好的。

步骤130，进行训练数据中的声学特征提取，得到每一语音段对应的特征序列。

由于声学模型是通过对语音的声学特征分布进行建模和训练得到的，故而，在进行声学模型建模和训练之前，需要由训练数据进行声学特征的提取。

进一步地，由于训练数据包含若干语音段，声学特征的提取将是针对训练数据中的每一语音段分别进行的，以此得到每一语音段对应的特征序列。

其中，所提取的声学特征包括梅尔频率倒谱系数特征和基频特征，以适用于数字语音识别。

步骤150，根据特征序列和训练数据中数字对应的音素，进行以单音素声学模型为起始的渐进训练得到声学模型。

根据数字的汉语发音特点，数字的声母和韵母被定义为音素。根据音素的上下文关系，音素又可以细分为单音素、双音素和三音素。其中，单音素在使用中仅考虑其本身，不考虑其前后音素的上下文关系。双音素是在使用中仅考虑其前面音素或者后面音素的上下文关系。三音素则是在使用中同时考虑其前面音素和后面音素的上下文关系。

基于此，作为建模单元的音素可以是单音素，也可以是双音素或者三音素。相应地，以单音素为建模单元构建得到的是单音素声学模型，以双音素为建模单元构建得到的是双音素声学模型，以三音素为建模单元构建得到的则是三音素声学模型。

在获取到每一语音段对应的特征序列之后，即得到了模型训练的输入。也就是说，以训练数据中数字对应的音素为建模单元，通过对每一语音段对应的特征序列进行声学建模和训练，即能够得到反映语音的声学特征分布的声学模型。

渐进训练是对每一语音段对应的特征序列进行多次声学建模和训练的渐进过程。简单地说，渐进训练的过程就是以初始模型为起始进行训练，得到较为精准的中间模型，再对中间模型进行训练，得到更为精准的最终模型。本实施例中，声学模型则是在单音素声学模型的基础上进行渐进训练得到的，使得通过渐进训练得到的声学模型更加地准确，从而有利于提高数字语音的识别准确率。

值得一提的是，由于作为建模单元的音素可以不同，因此，渐进训练的起始并非仅限于单音素声学模型。

步骤170，获取语言模型，通过语言模型和训练得到的声学模型构建语音解码网络。

语言模型是通过对语言本身的概率分布进行建模和训练得到的。在实际应用中，语音中数字的出现通常都具备一定的规律，例如，语音拨号中的电话号码所对应的数字是按照某种规则编排的，或者，活体声纹验证中随机码所对应的数字也是从预定义列表中采样抽取的。

因此，面向数字语音识别时，语言本身的概率分布将通过对训练数据中数字的匹配关系来反映。本实施例中，语言模型通过对训练数据中数字的匹配关系建模得到的。例如，训练数据中数字和电话号码编排规则的匹配关系，或者，训练数据中数字和随机码的预定义列表的匹配关系。可以理解，匹配关系越近则反映训练数据中数字出现的概率越大，进而语言模型可以通过对电话号码编排规则进行建模和训练得到，或者，通过对随机码的预定义列表进行建模和训练得到。

在获取到声学模型和语言模型之后，即构建形成实现数字语音识别的语音解码网络，由于所形成的语音解码网络中声学模型是以单音素声学模型为起始进行渐进训练而得到的，因此能够适用于连续的数字语音的识别，从而有效地提高了数字语音的识别准确率。

在一实施例中，步骤110之前，如上的方法还包括以下步骤：

按照预置条件进行包含多个数字的语音段录制得到训练数据。

可以理解，即使是同一个人录制包含相同数字的语音段，也可能有所区别，基于此，本实施例中，通过按照预置条件进行包含多个数字的语音段的录制，将有利于提高数字语音的识别准确率。

预置条件包括通过多种设备进行录制，或者，通过多个人进行录制，以此模拟同一个人在不同情境下的录制条件。换句话说，根据不同的预置条件(例如，多种设备或者多个人)录制的多个语音段，在模型训练过程中均对应于同一人，以此保证模型训练过程中同一个人具有不同频率、不同内容、不同信道的语音段，进而保证了后续使用训练数据进行模型训练的准确性。

具体地，用以进行录制的多种设备可以是智能手机、计算机、平板电脑等携带有麦克风的设备。由于各种设备所携带的麦克风的固有频段可能不同，因此，通过多种设备进行的录制，将使得训练数据中各语音段具有不同的信道。

由于每个人的语速、语调均存在差异，例如，年轻女子的语速较快，年长男子的语速较慢，因此，通过多个人录制语音段，将使得训练数据中各语音段具有不同的频率。

进一步地，预置条件还可以包括通过多种环境进行录制，例如，环境可以是安静的教室或者嘈杂的街道，从中将获取到标注有噪声的训练数据，以提高对低信噪比的数字语音的识别准确率，提高数字语音识别中的抗噪能力。

请参阅图4，在一实施例中，步骤130包括以下步骤：

步骤131，按照预设长度分割每一语音段，得到每一语音段包含的若干语音帧。

由于每一语音段的长度可能各不相同，如此将不便于声学特征的提取，因此，在进行训练数据中的声学特征提取之前，需要先将每一语音段均分割为相同长度的语音帧。

本实施例中，预设长度为25ms，每一语音段将被分割成多个25ms的语音帧。进一步地，在优选的实施例中，相邻的两个语音帧之间还存在重叠，例如，两个25ms的语音帧之间存在着10ms的重叠，以此提高按照预设长度进行语音段分割的可靠性。

步骤133，语音段包含的若干语音帧中，对每一语音帧提取梅尔频率倒谱系数特征和基频特征，并通过梅尔频率倒谱系数特征和基频特征计算得到每一语音帧的特征向量，进而组成每一语音段对应的特征序列。

可以理解，语音帧是以波形的形式存在的，波形在时域上几乎没有描述能力，因此必须对波形进行变换。

本实施例中，语音段中在得到每一语音帧之后，通过对语音帧进行梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征和基频(PITCH)特征提取及计算，把每一语音帧对应的波形转换为多维向量，即得到每一语音帧的特征向量，进而通过该特征向量组成的特征序列描述语音段所包含的数字。

语音帧的特征向量的获取过程具体如下：

1)对第i个语音段中第t个语音帧进行MFCC特征和PITCH特征提取，得到；

2)以第i个语音段为单位，计算其包含的所有T个语音帧对应的MFCC特征和PITCH特征的均值：

3)计算第t个语音帧对应的MFCC特征和PITCH特征与2)中均值的差值：通过引入该差值作为额外特征，提高声学特征提取的可靠性；

4)将第t个语音帧对应的MFCC特征和PITCH特征与其前后相邻的多个语音帧对应的MFCC特征和PITCH特征进行拼接，以进一步提高声学特征提取的可靠性，以4个为例，由此得到拼接形成的高维特征：

{\overset{&OverBar;}{O}}_{i}^{t^{'}} = [{\overset{&OverBar;}{O}}_{i}^{t - 4}, {\overset{&OverBar;}{O}}_{i}^{t - 3}, {\overset{&OverBar;}{O}}_{i}^{t - 2}, {\overset{&OverBar;}{O}}_{i}^{t - 1}, {\overset{&OverBar;}{O}}_{i}^{t}, {\overset{&OverBar;}{O}}_{i}^{t + 1}, {\overset{&OverBar;}{O}}_{i}^{t + 2}, {\overset{&OverBar;}{O}}_{i}^{t + 3}, {\overset{&OverBar;}{O}}_{i}^{t + 4}];

5)采用线性判别式分析技术(Linear Discriminant Analysis，LDA)对高维特征进行降维，以在保证提取可靠性的同时降低计算的复杂度，由此得到降维后的特征：

6)对降维后的特征作最大线性似然变换(Maximum Linear LikelihoodTransformation，MLLT)，以去除特征之间的相关性，从而最终得到第t个语音帧的特征向量：

7)将各语音帧的特征向量组合，即可得到训练数据中各语音段所对应的特征序列。

请参阅图5，在一实施例中，步骤150包括以下步骤：

步骤151，由训练数据的语音段中获取数字对应的单音素。

如前所述，单音素在使用中仅考虑其本身，而不需要考虑其前后音素的上下文关系。举例来说，数字1对应的单音素包括Y(声母)、I(韵母)。

具体地，在训练数据中，由存在于各语音段中的多个数字构建得到单音素集合，由此单音素集合即可获取得到数字对应的单音素。例如，训练数据的其中一语音段包含数字1和数字3，则由数字1和数字3构建的单音素集合为{Y、I、S、AN}。

步骤153，根据该单音素划分的状态对语音段所对应的特征序列进行声学建模和训练，得到该单音素对应的单音素声学模型。

状态是比音素更基本的语音单位，在数字语音识别过程中，若干状态组合成一个音素，若干音素组合成一个数字。相应地，声学模型的获取过程即是使得每一个数字对应于不同的状态。

进一步地，如前所述，训练数据中包含多个数字的语音段首先被分割形成若干语音帧，并以此进行声学特征提取得出语音段所对应的特征序列。基于此，声学建模即是建立状态与特征序列之间的对应关系，模型训练则是使建立的对应关系达到最优，从而在数字语音识别过程中，根据状态与特征序列的最优的对应关系，为输入的数字语音中提取得到的特征序列对应不同的状态，再通过状态组合成音素、音素组合成数字，得到数字语音的识别结果。

本实施例中，将根据单音素划分的状态对语音段所对应的特征序列进行声学建模和训练，通过声学建模将建立状态与特征序列之间的对应关系，再通过模型训练将使得所建立的对应关系最优。换而言之，通过该单音素对应的单音素声学模型，即能够知道语音段所对应的特征序列对应的状态。

步骤155，通过单音素声学模型对训练数据进行识别，得到二次训练数据。

由于通过单音素声学模型能够知道语音段所对应的特征序列对应的状态，因此，通过单音素声学模型对训练数据进行识别，将使得训练数据中语音段所对应的特征序列被识别成对应的最优的状态序列。

进一步地，通过该最优的状态序列得到对应的单音素集合，从而使得最优的状态序列被转化为对应的数字序列，该数字序列即为二次训练数据。

可以理解，该二次训练数据是经过一次未包含语言模型的语音解码网络解码得到的识别结果。通过该二次训练数据将获知语音段中每一个数字的具体时间位置，有利于为后续的模型训练提供良好的基础，从而有利于加快模型训练的收敛速度。

步骤157，根据二次训练数据中语音段包含的数字获取对应的三音素。

本实施例中，三音素是基于二次训练数据中语音段包含的数字构建的三音素集合中获取的。例如，训练数据的其中一语音段包含数字1和数字3，则由数字1和数字3构建的三音素集合为{SIL+Y-I、Y+I-S、I+S-AN、S+AN-SIL}。其中，SIL表示静音，表示数字1的前面没有其他数字，Y表示数字1的声母，I表示数字1的韵母，“+”表示连接前面音素，“-”表示连接后面音素。可以看出，三音素集合是在单音素集合的基础上考虑了上下文关系构建形成的。

步骤159，根据该三音素划分的状态对语音段所对应的特征序列进行声学建模和训练，得到该三音素对应的声学模型。

如前所述，只要知道数字所对应的究竟是哪个状态，识别结果也就能够得到了。

基于此，本实施例中，将根据三音素划分的状态对语音段所对应的特征序列进行声学建模和训练，通过声学建模将建立状态与特征序列之间的对应关系，再通过模型训练将使得所建立的对应关系最优。换而言之，通过该三音素对应的声学模型，即能够知道每一语音帧所对应的状态。

通过如上所述的方法，三音素对应的声学模型是在单音素声学模型的基础上渐进训练得到的，有利于提高数字语音的识别准确率，此外，由于三音素在使用中考虑了上下文关系，也将使得三音素对应的声学模型相较于单音素声学模型能够更加准确地进行数字语音的识别。

请参阅图6，在一实施例中，步骤153包括以下步骤：

步骤1531，通过HMM模型对单音素进行状态描述，得到单音素划分的状态。

本实施例中，HMM(Hidden Markov Model，隐马尔可夫模型)模型使用3状态带自环无跨越的拓扑结构。简单地说，通过HMM模型对单音素进行状态描述，每个单音素被划分成3个状态，如图7所示。其中，每一个状态S_i,i＝1,2,3只能跳转至其自身以及相邻的下一状态S_i+1，a_ij表示由状态S_i跳转至状态S_j的转移概率。

步骤1533，基于单音素划分的状态，采用GMM模型对特征序列建模得到GMM-HMM模型。

请继续参阅图7，在得到单音素划分的3个状态之后，对于每一个状态，将采用GMM(Gaussian Mixture Model，混合高斯模型)模型按照下述公式(1)对特征序列建模，以得到能够反映语音的声学特征分布的GMM-HMM模型：

b_{S_{i}} (o) = Σ_{m = 1}^{M} \frac{λ_{m}}{2 π^{\frac{D}{2}} {| ϵ_{m} |}^{\frac{1}{2}}} \exp [- \frac{1}{2} {(o - μ_{m})}^{T} ϵ_{M}^{- 1} (o - μ_{m})] - - - (1)

其中，表示特征序列属于状态S_i的概率，o表示特征序列，D表示特征序列o的维数，M表示混合高斯的个数，λ_m表示第m个混合高斯的权重，ε_m表示协方差，μ_m表示均值向量。

步骤1535，对GMM-HMM模型的参数进行随机初始化，并利用最大期望算法对随机初始化得到的参数进行迭代优化。

由公式(1)中可知，只要知道就知道了特征序列属于对应状态的概率。可以理解，特征序列属于某个状态的概率最大，则表示其所对应的语音帧属于该状态。

因此，为了知道就需要通过模型训练来获知公式(1)中未知参数的确定值，即GMM-HMM模型的参数的确定值。其中，GMM-HMM模型的参数包括混合高斯的权重λ_m、协方差ε_m、均值向量μ_m和转移概率a_ij等。

进一步地，本实施例中，通过最大期望算法(Expectation MaximizationAlgorithm，EM算法)对GMM-HMM模型的参数进行迭代优化，以求取GMM-HMM模型的参数的确定值。同时，在参数迭代优化的初始阶段，对GMM-HMM模型的参数进行了随机初始化，以通过随机初始化的参数作为模型训练的初始的当前训练参数。

具体地，最大期望算法的每一次迭代优化过程包括如下两个步骤：

E步骤，基于当前训练参数计算未知参数的概率分布；

M步骤，计算能够使未知参数的概率分布期望最大时所对应的参数，该参数即为优化后的参数。

当优化后的参数无法使GMM-HMM模型收敛，则以优化后的参数进行当前训练参数的更新，继续迭代优化的过程。

当优化后的参数使GMM-HMM模型收敛，则判定GMM-HMM模型为单音素声学模型。

请继续参阅图7，在得到单音素声学模型之后，通过单音素声学模型将能够反映出输入的数字语音的声学特征的分布，使得语音帧能够获知对应的状态，进而通过状态组合成音素、音素组合成数字。

请参阅图8，在一实施例中，步骤159包括以下步骤：

步骤1591，通过HMM模型对三音素进行状态描述，得到三音素划分的状态。

步骤1593，基于三音素划分的状态，采用GMM模型对特征序列建模得到GMM-HMM模型。

步骤1595，根据二次训练数据对GMM-HMM模型的参数进行参数估计，并利用最大期望算法对参数估计得到的参数进行迭代优化。

当优化后的参数使GMM-HMM模型收敛，则判定GMM-HMM模型为声学模型。

上述声学模型的构建过程与之前单音素声学模型的构建过程类似，在此不再赘述。

二者的区别在于声学模型在参数迭代优化的初始阶段并没有对未知参数进行随机初始化，而是基于二次训练数据对未知参数进行了参数估计，以通过参数估计得到的参数作为模型训练的初始的当前训练参数。

具体地，由于二次训练数据即为最优的状态序列转化形成的数字序列，根据该已知的数字序列对未知参数进行最大似然估计，即可得出未知参数相应的确定值。

在参数迭代优化的初始阶段，以该参数估计得到的参数作为当前训练参数，进行未知参数的概率分布的计算，并对该未知参数的概率分布进行期望最大化求解，直至GMM-HMM模型收敛，即得到三音素对应的声学模型。

通过如上所述的方法，有效地提高了模型训练的收敛速度，从而提高了数字语音的识别准确率，识别准确率提升至少10％。

请参阅图9，在一实施例中，一种数字语音识别中语音解码网络的构建装置，包括：

其中，训练数据获取模块410，用于获取进行数字语音录制所得到的训练数据，训练数据包括若干语音段。

声学特征提取模块430，用于进行训练数据中的声学特征提取，得到每一语音段对应的特征序列。

声学模型获取模块450，用于根据特征序列和训练数据中数字，进行以单音素声学模型为起始的渐进训练得到声学模型。

语言模型获取模块470，用于获取语言模型，通过语言模型和训练得到的声学模型构建语音解码网络，语言模型是通过对训练数据中数字的匹配关系建模得到的。

在一实施例中，如上所述的装置还包括：

训练数据录制模块，用于按照预置条件进行包含多个数字的语音段录制得到训练数据，训练数据中多个语音段均对应于同一个人。

请参阅图10，在一实施例中，声学特征提取模块430包括：

其中，语音段分割单元431，用于按照预设长度分割每一语音段，得到每一语音段包含的若干语音帧。

特征序列生成单元433，用于语音段包含的若干语音帧中，对每一语音帧提取梅尔频率倒谱系数特征和基频特征，并通过梅尔频率倒谱系数特征和基频特征计算得到每一语音帧的特征向量，进而组成每一语音段对应的特征序列。

请参阅图11，在一实施例中，声学模型获取模块450包括：

其中，单音素获取单元451，用于由训练数据的语音段中获取数字对应的单音素。

第一模型获取单元453，用于根据该单音素划分的状态对语音段所对应的特征序列进行声学建模和训练，得到该单音素对应的单音素声学模型。

识别单元455，用于通过单音素声学模型对训练数据进行识别，得到二次训练数据。

三音素获取单元457，用于根据二次训练数据中语音段包含的数字获取对应的三音素。

第二模型获取单元459，用于根据该三音素划分的状态对语音段所对应的特征序列进行声学建模和训练，得到该三音素对应的声学模型。

请参阅图12，在一实施例中，第一模型获取单元453包括：

其中，第一状态描述单元4531，用于通过HMM模型对单音素进行状态描述，得到单音素划分的状态。

第一建模单元4533，用于基于单音素划分的状态，采用GMM模型对特征序列建模得到GMM-HMM模型。

第一训练单元4535，用于对GMM-HMM模型的参数进行随机初始化，并利用最大期望算法对随机初始化得到的参数进行迭代优化。

请参阅图13，在一实施例中，第二模型获取单元459包括：

其中，第二状态描述单元4591，用于通过HMM模型对三音素进行状态描述，得到三音素划分的状态。

第二建模单元4593，用于基于三音素划分的状态，采用GMM模型对特征序列建模得到GMM-HMM模型。

第二训练单元4595，用于根据二次训练数据对GMM-HMM模型的参数进行参数估计，并利用最大期望算法对参数估计得到的参数进行迭代优化。

请参阅图14，图14是本发明实施例提供的一种计算机设备500的结构示意图。上述实施例中的由计算机设备所执行的步骤均可以基于该图中所示的计算机设备的结构。

该计算机设备500可因配置或者性能的不同而产生较大的差异，其包括：电源510、接口530、至少一存储介质550、以及至少一中央处理器(CPU，Central Processing Units)570。

具体地，电源510用于为计算机设备500上的各硬件设备提供工作电压。

接口530包括至少一有线或无线网络接口531、至少一串并转换接口533、至少一输入输出接口535以及至少一USB接口537等，用于与外部设备通信。

存储介质550作为资源存储的载体，可以是随机存储介质、磁盘或者光盘等，其上所存储的资源包括操作系统551、应用程序553及数据555等，存储方式可以是短暂存储或者永久存储。其中，操作系统551用于管理与控制计算机设备500上的各硬件设备以及应用程序553，以实现中央处理器570对海量数据555的计算与处理，其可以是Windows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等。应用程序553是基于操作系统551之上完成至少一项特定工作的计算机程序，其可以包括至少一模块(图示未示出)，每个模块都可以分别包含有对计算机设备500的一系列操作指令。数据555可以是存储于磁盘中的训练数据等等。

中央处理器570可以包括一个或多个以上的处理器，并设置为通过总线与存储介质550通信，用于计算与处理存储介质550中的海量数据555。

通过中央处理器570读取存储介质550中存储的一系列操作指令，并基于存储介质550上的操作系统551在计算机设备500上执行，进而使得上述实施例的全部或者部分步骤可以通过在计算机设备上运行相关的计算机程序来完成。

上述内容，仅为本发明的较佳实施例，并非用于限制本发明的实施方案，本领域普通技术人员根据本发明的主要构思和精神，可以十分方便地进行相应的变通或修改，故本发明的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种数字语音识别中语音解码网络的构建方法，其特征在于，包括：

获取进行数字语音录制所得到的训练数据，所述训练数据包括若干语音段；

进行所述训练数据中的声学特征提取，得到每一语音段对应的特征序列；

根据所述特征序列和训练数据中数字对应的音素，进行以单音素声学模型为起始的渐进训练得到声学模型；

获取语言模型，通过所述语言模型和训练得到的声学模型构建语音解码网络，所述语言模型是通过对所述训练数据中数字的匹配关系建模得到的。

2.根据权利要求1所述的方法，其特征在于，所述获取进行数字语音录制所得到的训练数据的步骤之前，如上所述的方法还包括：

按照预置条件进行包含多个数字的语音段录制得到训练数据，所述训练数据中多个语音段均对应于同一个人。

3.根据权利要求1所述的方法，其特征在于，所述进行所述训练数据中的声学特征提取，得到每一语音段对应的特征序列的步骤包括：

按照预设长度分割每一语音段，得到每一语音段包含的若干语音帧；

所述语音段包含的若干语音帧中，对每一语音帧提取梅尔频率倒谱系数特征和基频特征，并通过所述梅尔频率倒谱系数特征和基频特征计算得到每一语音帧的特征向量，进而组成每一语音段对应的特征序列。

4.根据权利要求1所述的方法，其特征在于，所述以所述特征序列作为模型训练的输入，并以所述训练数据中数字对应的音素为建模单位，进行单音素声学模型为起始的渐进训练得到声学模型的步骤包括：

由所述训练数据的语音段中获取数字对应的单音素；

根据该单音素划分的状态对语音段所对应的特征序列进行声学建模和训练，得到该单音素对应的单音素声学模型；

通过所述单音素声学模型对所述训练数据进行识别，得到二次训练数据；

根据所述二次训练数据中语音段包含的数字获取对应的三音素；

根据该三音素划分的状态对语音段所对应的特征序列进行声学建模和训练，得到该三音素对应的声学模型。

5.根据权利要求4所述的方法，其特征在于，所述根据该单音素划分的状态对语音段所对应的特征序列进行声学建模和训练，得到该单音素对应的单音素声学模型的步骤包括：

通过HMM模型对所述单音素进行状态描述，得到所述单音素划分的状态；

基于所述单音素划分的状态，采用GMM模型对所述特征序列建模得到GMM-HMM模型；

对所述GMM-HMM模型的参数进行随机初始化，并利用最大期望算法对随机初始化得到的参数进行迭代优化；

当优化后的参数使所述GMM-HMM模型收敛，则判定所述GMM-HMM模型为所述单音素声学模型。

6.根据权利要求4所述的方法，其特征在于，所述根据该三音素划分的状态对语音段所对应的特征序列进行声学建模和训练，得到该三音素对应的声学模型的步骤包括：

通过HMM模型对所述三音素进行状态描述，得到所述三音素划分的状态；

基于所述三音素划分的状态，采用GMM模型对所述特征序列建模得到GMM-HMM模型；

根据所述二次训练数据对所述GMM-HMM模型的参数进行参数估计，并利用最大期望算法对参数估计得到的参数进行迭代优化；

当优化后的参数使所述GMM-HMM模型收敛，则判定所述GMM-HMM模型为所述声学模型。

7.一种数字语音识别中语音解码网络的构建装置，其特征在于，包括：

训练数据获取模块，用于获取进行数字语音录制所得到的训练数据，所述训练数据包括若干语音段；

声学特征提取模块，用于进行所述训练数据中的声学特征提取，得到每一语音段对应的特征序列；

声学模型获取模块，用于根据所述特征序列和训练数据中数字对应的音素，进行以单音素声学模型为起始的渐进训练得到声学模型；

语言模型获取模块，用于获取语言模型，通过所述语言模型和训练得到的声学模型构建语音解码网络，所述语言模型是通过对所述训练数据中数字的匹配关系建模得到的。

8.如权利要求7所述的装置，其特征在于，所述装置还包括：

训练数据录制模块，用于按照预置条件进行包含多个数字的语音段录制得到训练数据，所述训练数据中多个语音段均对应于同一个人。

9.如权利要求7所述的装置，其特征在于，所述声学特征提取模块包括：

语音段分割单元，用于按照预设长度分割每一语音段，得到每一语音段包含的若干语音帧；

特征序列生成单元，用于所述语音段包含的若干语音帧中，对每一语音帧提取梅尔频率倒谱系数特征和基频特征，并通过所述梅尔频率倒谱系数特征和基频特征计算得到每一语音帧的特征向量，进而组成每一语音段对应的特征序列。

10.如权利要求7所述的装置，其特征在于，所述声学模型获取模块包括：

单音素获取单元，用于由所述训练数据的语音段中获取数字对应的单音素；

第一模型获取单元，用于根据该单音素划分的状态对语音段所对应的特征序列进行声学建模和训练，得到该单音素对应的单音素声学模型；

识别单元，用于通过所述单音素声学模型对所述训练数据进行识别，得到二次训练数据；

三音素获取单元，用于根据所述二次训练数据中语音段包含的数字获取对应的三音素；

第二模型获取单元，用于根据该三音素划分的状态对语音段所对应的特征序列进行声学建模和训练，得到该三音素对应的声学模型。

11.如权利要求10所述的装置，其特征在于，所述第一模型获取单元包括：

第一状态描述单元，用于通过HMM模型对所述单音素进行状态描述，得到所述单音素划分的状态；

第一建模单元，用于基于所述单音素划分的状态，采用GMM模型对所述特征序列建模得到GMM-HMM模型；

第一训练单元，用于对所述GMM-HMM模型的参数进行随机初始化，并利用最大期望算法对随机初始化得到的参数进行迭代优化；

12.如权利要求10所述的装置，其特征在于，所述第二模型获取单元包括：

第二状态描述单元，用于通过HMM模型对所述三音素进行状态描述，得到所述三音素划分的状态；

第二建模单元，用于基于所述三音素划分的状态，采用GMM模型对所述特征序列建模得到GMM-HMM模型；

第二训练单元，用于根据所述二次训练数据对所述GMM-HMM模型的参数进行参数估计，并利用最大期望算法对参数估计得到的参数进行迭代优化；