CN105895082A

CN105895082A - 声学模型训练方法、语音识别方法及装置

Info

Publication number: CN105895082A
Application number: CN201610371452.XA
Authority: CN
Inventors: 那兴宇
Original assignee: Leshi Zhixin Electronic Technology Tianjin Co Ltd; LeTV Holding Beijing Co Ltd
Current assignee: Leshi Zhixin Electronic Technology Tianjin Co Ltd; LeTV Holding Beijing Co Ltd
Priority date: 2016-05-30
Filing date: 2016-05-30
Publication date: 2016-08-24

Abstract

本发明实施例提供一种声学模型训练、语音识别方法及装置。包括：对训练语料对应的子带进行时域扩展得到特征矩阵；将所述特征矩阵通过预设的卷积器，获得第一向量；根据所述第一向量与预设的隐藏层权重矩阵获得N维向量；其中，N为所述声学模型的分类数目；根据所述N维向量对所述卷积器与所述隐藏层权重矩阵进行参数更新，以所述参数更新后的所述卷积器与所述隐藏层权重矩阵作为所述声学模型。改善了声学模型，提高了声学打分的正确率。

Description

声学模型训练方法、语音识别方法及装置

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种声学模型训练方法、语音识别方法及装置。

背景技术

近些年来，语音识别技术取得了显著进步，并且越来越多的从实验室走向市场，走进人们的生活。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。与机器进行语音交流，让机器明白人们的说话目的，这对于生活在机械化时代的我们而言，能够大幅提升生活质量。

目前，市场上出现了许多智能的能够通过语音进行控制的电视。一种方式是在智能手机上安装APP，然后将指令发送到特定的遥控器，遥控器再将指令转换成红外遥控信号，这种方式可以实现对普通电视的遥控。还有一种方式是在遥控器内置一个收音的设备，它可以收录用户发出的语音命令，然后将用户的语音命令发送至电视进行语义解析，然后通过语义解析的结果控制电视机的各种服务。

然而，对于在智能手机上安装APP对电视进行遥控的方法，其步骤繁琐，尤其对于不会操控智能手机的老人和孩子而言，这种方式并没有带来明显的优势；对于在遥控器内置一个收音设备对电视进行遥控的方法，就生活体验而言，很多电视用户都是遥控器随手放置，对于有儿童的家庭更是如此，小孩子也许恶作剧藏起遥控器导致遥控器，从而导致经常找不到遥控器去了哪里。对于行动不便和健忘的老人而言，通过遥控器控制电视更加显得不方便。

若是不使用遥控器，将收音设备内嵌在电视内部采集用户发出的语音命令，则由于声波信号在室内遇到墙壁易发生反射造成混响，且周围环境难免会有噪声，导致远距离讲话语音识别的正确率低，用户体验不佳。

因此，需要一种不使用遥控器的远讲语音识别功能。所谓远讲语音功能就突出的就是远，也就是可以脱离遥控器，对电视进行智能的隔空操作。语音识别系统的框架主要包括如下几个部分，首先对输入的语音进行特征提取，再根据预先训练的声学模型进行声学打分，声学打分的结果用于根据语言模型进行解码，最后是根据解码结果输出语音识别的文本。其中，声学模型和语言模型是需要用大量的训练数据进行训练的。声学模型使用语音数据训练，语言模型使用文本数据训练。声学模型用于声学打分，其输出用于基于语言模型的解码。远讲语音识别识别时，由于噪声以及其它物体对声波的反射导致远讲语音识别的正确率较低。因此，提高声学打分的准确度是提高语音识别正确率的关键，而其核心途径就是改善声学模型。

因此，综上，一种声学模型训练方法亟待提出。

发明内容

本发明实施例提供一种声学模型训练方法及装置，用以解决现有技术中远讲语音识别正确率低的缺陷，实现声学打分模型的改善以及远讲语音识别率的提升。本发明实施例提供一种声学模型训练方法，包括：

对训练语料对应的子带进行时域扩展得到特征矩阵；

将所述特征矩阵通过预设的卷积器，获得第一向量；

根据所述第一向量与预设的隐藏层权重矩阵获得N维向量；其中，N为所述声学模型的分类数目；

根据所述N维向量对所述卷积器与所述隐藏层权重矩阵进行参数更新，以所述参数更新后的所述卷积器与所述隐藏层权重矩阵作为所述声学模型。

本发明实施例提供一种语音识别方法，包括：

获得待识别语音数据对应的子带；

对所述待识别语音数据的所述子带进行时域扩展得到所述子带对应的特征矩阵；

根据所述特征矩阵，调用预先训练的卷积器获得第一向量；

根据所述第一向量与预先训练的隐藏层权重矩阵获得N维向量；

根据所述N维向量，获得所述待识别的语音信号属于第n个声学分类的概率值；其中，N为正整数，n∈[1，N]。本发明实施例提供一种声学模型训练装置，包括：

训练语料预处理模块，用于对训练语料对应的子带进行时域扩展得到特征矩阵；

计算模块，用于将所述特征矩阵通过预设的卷积器，获得第一向量；

所述计算模块还用于，根据所述第一向量与预设的隐藏层权重矩阵获得N维向量；其中，N为所述声学模型的分类数目；

参数更新模块，用于根据所述N维向量对所述卷积器与所述隐藏层权重矩阵进行参数更新，以所述参数更新后的所述卷积器与所述隐藏层权重矩阵作为所述声学模型。

本发明实施例提供一种语音识别装置，包括：

待识别语音数据预处理模块，用于获得待识别语音数据对应的子带，对所述待识别语音数据的所述子带进行时域扩展得到所述子带对应的特征矩阵；

声学打分模块，用于根据所述特征矩阵，调用预先训练的卷积器获得第一向量；根据所述第一向量与预先训练的隐藏层权重矩阵获得N维向量；根据所述N维向量，获得所述待识别的语音信号属于第n个声学分类的概率值；其中，N为正整数，n∈[1，N]。

本发明实施例提供的声学模型训练方法、语音识别方法及装置，通过对训练语料进行子带划分并采用卷积器对训练语料的每个局部特征进行提取以及训练，使声学模型学习多种复杂声学环境中的噪声语音，得到获取带噪频谱中有效语音成分的能力，对声学打分模型进行改善，与此同时实现了声学打分正确率的提升，进一步提高了远讲语音识别的正确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一的技术流程图；

图2为本申请实施例二的技术流程图；

图3为本申请实施例三的技术流程图；

图4为本申请实施例四的技术流程图；

图5为本申请实施例一对应的装置结构示意图；

图6为本申请实施例四对应的装置结构示意图；

图7为本申请应用场景实例对应的示例图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本申请实施例一的技术流程图，结合图1，本申请一种声学模型的训练方法，可以有如下的实现方式：

步骤S110：对训练语料对应的子带进行时域扩展得到特征矩阵；

本步骤中，对所述子带进行时域扩展，可以采用如下的方式，对所述训练语料进行分帧得到语音信号帧，获取所述语音信号帧的第二预设数量的前向语音信号帧、以及所述语音信号帧的第三预设数量的后向语音信号帧，从而得到所述语音信号帧对应的所述时域拓展后的所述子带；通过对每一所述子带进行时域扩展，使得多帧信号之间能够特征互补，从而进一步提高声学模型训练的稳定性。

其中，所述第二预设数量以及所述第三预设数量的值为小于所述子带宽度的经验值；其中所述时域拓展后的子带宽度为所述子带宽度与所述第二预设数量以及所述第三预设数量的和。所述第二预设数量可以相同也可以不同，本申请实施例不做限制。

例如，本实施例中，若所述子带的所述子带宽度为7，则所述第一预设数量与所述第二预设数量可以取1～7范围内的任意数字，经多次试验检测发现，所述第一预设数量以及所述第二预设数量为5的时候，声学模型的训练效果最佳，因此，本实施例中可取所述语音信号帧的5帧前向语音信号帧以及所述语音信号的5帧后向语音信号帧，实现对所述语音信号帧进行时域拓展，从而进一步实现对所述语音信号帧对应的子带的时域拓展。

假设，本步骤中，某一语音信号帧对应的子带宽度为7的8个子带，其中每个子带为一个7维向量(x₀，x₁，x₂，x₃，x₄，x₅，x₆)，则进行时域扩展之后，每一个前向语音信号帧以及每一个后向语音信号帧分别对应一个7维向量，则当前后各扩展5帧时，将得到11个7维向量，组成一个11×7的矩阵：

[\begin{matrix} x_{0 - 5}, x_{1 - 5}, x_{2 - 5}, x_{3 - 5}, x_{4 - 5}, x_{5 - 5}, x_{6 - 5} \\ x_{0 - 4}, x_{1 - 4}, x_{2 - 4}, x_{3 - 4}, x_{4 - 4}, x_{5 - 4}, x_{6 - 4} \\ x_{0 - 3}, x_{1 - 3}, x_{2 - 3}, x_{3 - 3}, x_{4 - 3}, x_{5 - 3}, x_{6 - 3} \\ x_{0 - 2}, x_{1 - 2}, x_{2 - 2}, x_{3 - 2}, x_{4 - 2}, x_{5 - 2}, x_{6 - 2} \\ x_{0 - 1}, x_{1 - 1}, x_{2 - 1}, x_{3 - 1}, x_{4 - 1}, x_{5 - 1}, x_{6 - 1} \\ x_{0}, x_{1}, x_{2}, x_{3}, x_{4}, x_{5}, x_{6} \\ x_{0 + 1}, x_{1 + 1}, x_{2 + 1}, x_{3 + 1}, x_{4 + 1}, x_{5 + 1}, x_{6 + 1} \\ x_{0 + 2}, x_{1 + 2}, x_{2 + 2}, x_{3 + 2}, x_{4 + 2}, x_{5 + 2}, x_{6 + 2} \\ x_{0 + 3}, x_{1 + 3}, x_{2 + 3}, x_{3 + 3}, x_{4 + 3}, x_{5 + 3}, x_{6 + 3} \\ x_{0 + 4}, x_{1 + 4}, x_{2 + 4}, x_{3 + 4}, x_{4 + 4}, x_{5 + 4}, x_{6 + 4} \\ x_{0 + 4}, x_{1 + 5}, x_{2 + 5}, x_{3 + 5}, x_{4 + 5}, x_{5 + 5}, x_{6 + 5} \end{matrix}]

以上所示矩阵中，x_i-j为向量x_i对应的时域扩展后的前向第j帧对应的向量，x_i+j为向量x_i对应的时域扩展后的后向第j帧对应的向量，其中，i∈[0,6]，j∈[0,5]。当语音信号帧包含8个7维子带时，此步骤中时域拓展将得到8个11×7的上述类似矩阵。

步骤S120：将所述特征矩阵通过预设的卷积器，获得第一向量；

本步骤中，所述卷积为一个矩阵组，是由一定数量的随机初始化生成的第三矩阵组成的。所述第三矩阵，即随机初始化得到的m×n的矩阵，其中m为所述时域拓展后的子带宽度，n为小于所述子带宽度的经验值；

例如，承接上述的例子，本步骤中m＝11，n＝5，可生成8的倍数个11×5的矩阵，其中所述8的倍数可以是8的128倍或者256倍。其中，128或256是较优的经验值，本申请实施例对此不做限制。

其中，获得第一向量具体为：以第四预设数量的所述卷积矩阵为一组卷积器，并使用每组所述卷积器与所述特征矩阵做卷积运算；

对所述卷积运算的结果进行采样并对所述采样结果进行归一化处理，得到所述第一向量。

本实施例采用的训练方法是基于卷积神经网络的语音模型训练方法，所述卷积神经网络，即CNNs(Convolutional Neural Networks)。

CNNs由一组或多组卷积层convolutional layer+采样层pooling layer构成。一个卷积层中包含若干个不同的卷积器，这些卷积器对语音的各个局部特征进行观察。采样层通过对卷积层的输出结点做固定窗长的采样，减少下一层的输入结点数，从而控制模型的复杂度。一般采样层采用最大采样算法(max pooling)，即对固定窗长内的结点选取最大值进行输出。

承接上述的例子，所述第四预设数量可以为8，即以每8个所述卷积矩阵为一组卷积器，分别与所述特征矩阵做卷积，得到8个3维的向量。当所述8的倍数为128倍时，本实施例的卷积层中将包含有128个卷积器，即卷积层的输出结果将包含128×8个3维的向量。

其中，所述对所述卷积运算的结果进行采样具体，从每一个3维向量中选取数值最大的，即每组卷积器输出8个一维的向量，即一个8维向量。整个采样层的输出将是128个8维向量。

将上述128个8维的向量收尾连接即可得到一个1024维的向量，并对这个1024维的向量进行归一化处理。

步骤S130：根据所述第一向量与预设的隐藏层权重矩阵获得N维向量；其中，N为所述声学模型的分类数目；

具体的，在步骤S130中，所述预设的隐藏层权重矩阵具体为：随机初始化x×N的矩阵，其中x为所述分组的组数的倍数，N为所述声学模型的分类数目。

例如，本实施例中初始化得到的所述隐藏层权重矩阵为一个1024×N的矩阵。

以所述预设的隐藏层权重矩阵与所述第一向量相乘，并对所述相乘的结果进行规整，获得所述N维向量。其中，所述规整的方法可以采用softmax函数实现，由于softmax函数是成熟的现有技术，本实施例不再赘述。

本步骤中，所述规整过程的输出为一个N维的向量，其中第n维的意义为，所述语音信号帧属于第n个声学分类的概率值，N为正整数，n∈[1，N]。

步骤S140：根据所述N维向量对所述卷积器与所述隐藏层权重矩阵进行参数更新，以所述参数更新后的所述卷积器与所述隐藏层权重矩阵作为所述声学模型。

本步骤中，所述根据所述N维向量对所述卷积器与所述隐藏层权重矩阵进行参数更新，具体可以采用基于误差反向传播算法的参数更新，更新策略可以采用在线随机梯度下降和小批量随机梯度下降法，当然本申请实施例不限制于此。经多次试验，小批量随机梯度下降法得到的参数更新效果更佳，小批量随机梯度下降法为本步骤中的优选方案。

需要说明的是，所述参数更新的过程是通过不断迭代实现的，在迭代的过程中，不断修参数更新策略的参数设置并对迭代的收敛性进行判断，直至迭代收敛则停止迭代过程。

本实施例提供的声学模型训练方法通过对训练语料进行子带划分并采用卷积器对训练语料的每个局部特征进行提取以及训练，对声学打分模型进行改善实现了声学打分正确率的提升，进一步提高了远讲语音识别的正确率。

图2是本申请实施例二的技术流程图，以下部分将结合图2，对本申请实施例一种根据所述训练语料获得对应的所述子带的实现过程：

步骤S210：对所述训练语料进行分帧，并对所述分帧得到的语音信号帧进行快速傅里叶变换；

为使所述训练语料覆盖不同复杂程度的声学环境，本实施例在获取所述训练语料之后，预先对所述训练语料进行扰动处理从而能够进一步提升声学模型的性能。具体为，将训练语音使用多种房间混响函数进行扰动，从而得到不同环境、不同噪声下的训练数据，从而训练出的声学模型更加真实且适用于多种应用环境。例如，本实施例中可将500小时训练语音按照6种不同的房间混响扰动，得到3000小时训练语音。

语音信号因为是准稳态信号，而只有稳态的信息才能进行信号处理，所以在对语音信号处理之前首先把信号分帧，每帧长度约10ms-30ms(本发明并不限制于此)，在这一区间内把语音信号看作为稳态信号。本实施例中，以5分钟语音数据为例，将5分钟语音数据，按10毫秒分一帧，则得到3万帧语音信号帧。

优选的，本步骤中在对所述训练语料进行分帧之后，还包括根据声学模型的分类数目对所述训练语料进行状态对齐，从而获得优化后的所述训练语料。

所述声学模型的分类原则是把相似的声音用同一个标示代表，中文使用的拼音可以分为声母和韵母，英文的发音可以分为元音辅音等。例如，不同人发同一个声音时声音不完全相同，但是可以用同一个声母表示。

所述状态，即比音素更细致的语音单位，通常把一个音素划分成3个状态。音素是人发音的最基本单位，例如字母x，在英语中大多数情况下发[ks]，就是[k][s]两个音素组成的。[k]、[s]还出现在别的语流当中，如salut中的s就发[s]，其前并没有[k]，而carrefour的c，就发[k]，其后也并不接一个[s]。然而，[k]或[s]无法继续划分下去了，否则将无法发音。多个字母对一个音素的例子如champ中的ch，louis中的ou。

本步骤中的所述状态对齐的具体方式可如以下例子所述，例如，“小长假”这三个字由一个说话人读出共1.5秒，以10毫秒为间隔，分为150帧，对齐的结果就是给每一帧分配对应的声学分类标记，如标记第1至5帧是静音，第5至9帧是“小”字声母[x]，第9至25帧是“小“字韵母[iao]，以此类推。

具体的，本实施例中可以采用Viterbi算法对所述训练语料进行所述状态对齐，由于Viterbi算法是成熟的现有技术，本实施例中不再赘述。

步骤S220：对所述快速傅里叶变换的结果取幅度值，采用预设的滤波器从所述幅度值中获取第一预设数量的滤波器组参数；

本步骤中，所述预设的滤波器可以是Mel滤波器组，所述第一预设数量是一个经验值，经多次实现验证，所述第一预设数量为40时，声学模型的训练效果最好，当然，本实施例并不对此数据的选择做任何限制。

假设，本步骤中，提取40维卷积器组参数，5分钟语音数据对应的3万帧语音信号帧，每一帧用一个40维的向量表示。即5分钟语音数据可以用3万个40维向量表示。

步骤S230：根据预设的子带宽度，对所述卷积器组参数进行分组，得到所述训练语料中每一语音信号帧对应的所述子带；其中，每一语音信号帧对应的所述子带的数量与所述分组的组数相同。

本步骤中，对每一所述语音信号帧对应的滤波器组参数进行分组，其分组的数量由预设的子带宽度决定，所述子带宽度，即每一所述子带对应的向量的维度。

例如，本步骤中，可将将全部训练数据(每一语音信号帧对应的40维向量)按维度分为8组。分组规则为第1-7维分为第1组，第5-11维分为第2组，第9-15维分为第3组，第14-20维分为第4组，第19-25维分为第5组，第24-30维分为第6组，第29-35维分为第7组，第34-40维分为第8组。每组都是一个7维的向量。从而，获得了每一所述语音信号帧对应的宽度为7的所述子带。当然，上述分组仅供举例使用，并不对本申请实施例构成任何限制。

获得所述训练语料对应的所述子带之后，需对所述子带进行时域扩展。所述时域扩展的具体方法如实施例一中所述，此处不再赘述。

本实施例中，对语音训练数据进行子带划分以及语音信号帧的时域扩展，由此多帧语音信号之间可以特征互补，进一步提升了声学模型的性能，间接提升了语音识别的正确率。

图3是本申请实施例三的技术流程图，结合图3，本申请实施一种，对所述卷积器与所述第二向量进行参数更新，具体可以采用如下的更新步骤：

步骤S310：以所述卷积矩器与所述隐藏层权重矩阵组成矩阵组；

步骤S320：根据预设的第一迭代次数以及预设的参数更新策略，对所述矩阵组进行参数迭代更新；

以全部数据更新一次称为一个迭代，将所述卷积矩阵与所述隐藏层权重矩阵的参数进行更新，所述第一迭代次数是经验值，经过多次试验。当所述第一迭代次数为4时，将所述卷积矩阵与所述隐藏层权重矩阵更新进行4个迭代能达到最佳效果，当然本申请实施例对此不作限制。

步骤S330：在所述卷积器之后添加新的隐藏层权重矩阵与预设的非线性函数从而更新所述矩阵组，并根据所述预设的第二迭代次数以及所述预设的参数更新策略对所述矩阵组进行参数更新。

本步骤中，在所述卷积器与所述隐藏层权重矩阵之间插入所述新的隐藏层权重矩阵以及所述预设的非线性函数之后，迭代次数可以调整，例如可以减半，所述第二迭代次数可以为2。

优选的，当所述训练语料的数量较大时，本申请实施例还包括如下的步骤：

重复执行步骤c，即不断在所述卷积器之后添加新的隐藏层权重矩阵与预设的非线性函数，更新所述矩阵组之后，继续进行训练。

本步骤中，对所述卷积器以及所述隐藏层权重矩阵进行参数更新时，需要进一步结合预先得到的N维向量以及预先得到的训练语料的所述状态对齐的结果。所述N维向量相当于对声学模型做出的预测，所述状态对齐后的的训练语料相当于声学模型训练过程中的参考答案，两者之差就是当前声学模型对于当前语料的预测误差，以此误差，使用线随机梯度下降和小批量随机梯度下降法，就可以对所述卷积器以及所述隐藏层权重矩阵进行参数更新。

当所述第二迭代次数达到预设的阈值，保持所述卷积器的参数不变，修改所述参数更新的设置，并对所述矩阵组中除所述卷积器之外的其他矩阵进行所述参数更新。其中，所述修改所述参数更新的设置，具体指，当参数更新的策略为在线随机梯度下降和小批量随机梯度下降法时，可以修改梯度下降的学习率，例如学习率逐次减半，并在不断减半的过程中监测迭代是否收敛，当判定迭代收敛时，停止迭代过程。其中，迭代收敛的判断为本领域人员的公知常识，本实施例不再赘述。

本实施例中，所述隐藏层权重矩阵与所述卷积器是预先随机初始化得到的，其对应的参数并不一定是最佳参数，因此，通过对所述隐藏层权重矩阵与所述卷积器组成矩阵组不断迭代训练实现参数更新，能够找到使声学模型的性能达到最佳的所述隐藏层权重矩阵与所述卷积器的相关参数。

图4是本申请实施例四的技术流程图，结合图4，一种语音识别的方法主要包括如下的步骤：

步骤S410：获得待识别语音数据对应的子带；

本步骤中，具体的，首先对待识别语音数据进行分帧，并对所述分帧得到的语音信号帧进行快速傅里叶变换；

其次对所述快速傅里叶变换的结果取幅度值，采用预设的滤波器从所述幅度值中获取第一预设数量的滤波器组参数；

根据预设的子带宽度，对所述滤波器组参数进行分组，得到所述待识别语音数据中每一语音信号帧对应的所述子带；其中，每一语音信号帧对应的所述子带的数量与所述分组的组数相同。

步骤S420：对所述待识别语音数据的所述子带进行时域扩展得到所述子带对应的特征矩阵；

本步骤中，具体的，获取所述语音信号帧的第二预设数量的前向语音信号帧、以及所述语音信号帧的第三预设数量的后向语音信号帧，从而得到所述语音信号帧对应的所述时域拓展后的所述子带；每个所述子带对应一个多维向量，则时域扩展后，每个所述子带对应多个多维向量组成的矩阵，即所述特征矩阵。

其中，所述第二预设数量以及所述第三预设数量的值为小于所述子带宽度的经验值；其中所述时域拓展后的子带宽度为所述子带宽度与所述第二预设数量以及所述第三预设数量的和。

步骤S430：根据所述特征矩阵，调用预先训练的卷积器获得第一向量；

具体的，调用预先训练的所述卷积器，并使用每组所述卷积器与所述特征矩阵做卷积运算；对所述卷积运算的结果进行采样并对所述采样结果进行归一化处理，得到所述第一向量。

步骤S440：根据所述第一向量与预先训练的隐藏层权重矩阵获得N维向量；

具体的，以所述预先训练的隐藏层权重矩阵与所述第一向量相乘，并对所述相乘的结果进行规整，获得所述N维向量。

步骤S450：根据所述N维向量，获得所述待识别的语音信号属于第n个声学分类的概率值；其中，N为正整数，n∈[1，N]。

根据所述N维向量，获得所述待识别的语音信号属于第n个声学分类的概率值；其中，N为正整数，n∈[1，N]。

图5是本申请实施例一的装置结构示意图，结合图5，本申请实施例一种声学模型训练装置，包括：

训练语料预处理模块51，用于对训练语料对应的子带进行时域扩展得到特征矩阵；

计算模块52，用于将所述特征矩阵通过预设的卷积器，获得第一向量；

所述计算模块52还用于，根据所述第一向量与预设的隐藏层权重矩阵获得N维向量；其中，N为所述声学模型的分类数目；

参数更新模块53，用于根据所述N维向量对所述卷积器与所述隐藏层权重矩阵进行参数更新，以所述参数更新后的所述卷积器与所述隐藏层权重矩阵作为所述声学模型。

其中，所述训练语料预处理模块51还用于，执行如下步骤获得所述训练语料对应的所述子带：对所述训练语料进行分帧，并对所述分帧得到的语音信号帧进行快速傅里叶变换；对所述快速傅里叶变换的结果取幅度值，采用预设的滤波器从所述幅度值中获取第一预设数量的滤波器组参数；

根据预设的子带宽度，对所述滤波器组参数进行分组，得到所述训练语料中每一语音信号帧对应的所述子带；其中，每一语音信号帧对应的所述子带的数量与所述分组的组数相同。

其中，所述训练语料预处理模块51用于：获取所述语音信号帧的第二预设数量的前向语音信号帧、以及所述语音信号帧的第三预设数量的后向语音信号帧，从而得到所述语音信号帧对应的所述时域拓展后的所述子带；

其中，所述卷积器由预设的卷积矩阵组成，所述卷积矩阵具体为：随机初始化得到m×n的矩阵，其中m为所述时域拓展后的子带宽度，n为小于所述子带宽度的经验值；所述预设的隐藏层权重矩阵，具体为：随机初始化x×N的矩阵，其中x为所述分组的组数的倍数，N为所述声学模型的分类数目。

其中，所述计算模块52用于：以第四预设数量的所述卷积矩阵为一组卷积器，并使用每组所述卷积器与所述特征矩阵做卷积运算；对所述卷积运算的结果进行采样并对所述采样结果进行归一化处理，得到所述第一向量。

其中，所述计算模块52用于：以所述预设的隐藏层权重矩阵与所述第一向量相乘，并对所述相乘的结果进行规整，获得所述N维向量。

其中，所述参数更新模块53用于执行如下步骤：

步骤a：以所述卷积矩器与所述隐藏层权重矩阵组成矩阵组；

步骤b：根据预设的第一迭代次数以及预设的参数更新策略，对所述矩阵组进行参数迭代更新；

步骤c：在所述卷积器之后添加新的隐藏层权重矩阵与预设的非线性函数从而更新所述矩阵组，并根据所述预设的第二迭代次数以及所述预设的参数更新策略对所述矩阵组进行参数更新。

其中，所述参数更新模块53还用于：重复执行步骤c；其中，所述重复执行的次数由所述训练语料的数量决定。

其中，所述参数更新模块53还用于：当所述第二迭代次数达到预设的阈值，保持所述卷积矩阵的参数不变，修改所述参数更新的设置，并对所述矩阵组中除所述卷积矩阵之外的其他矩阵进行所述参数更新。

其中，所述训练语料预处理模块51还用于，对训练语料对应的子带进行时域扩展之前，根据所述声学模型的分类对所述训练语料进行状态对齐，从而获得优化后的所述训练语料。

图5所述装置可执行图1～图3对应的方法，其执行步骤及技术效果参考图1～图3所述实施例，此处不赘述。

图6是本申请实施例三的装置结构示意图，结合图6，本申请实施例一种语音识别装置，包括：

待识别语音数据预处理模块61，用于获得待识别语音数据对应的子带，对所述待识别语音数据的所述子带进行时域扩展得到所述子带对应的特征矩阵；

声学打分模块62，用于根据所述特征矩阵，调用预先训练的卷积器获得第一向量；根据所述第一向量与预先训练的隐藏层权重矩阵获得N维向量；根据所述N维向量，获得所述待识别的语音信号属于第n个声学分类的概率值；其中，N为正整数，n∈[1，N]。

其中，所述待识别语音数据预处理模块61用于：对待识别语音数据进行分帧，并对所述分帧得到的语音信号帧进行快速傅里叶变换；对所述快速傅里叶变换的结果取幅度值，采用预设的滤波器从所述幅度值中获取第一预设数量的滤波器组参数；根据预设的子带宽度，对所述滤波器组参数进行分组，得到所述待识别语音数据中每一语音信号帧对应的所述子带；其中，每一语音信号帧对应的所述子带的数量与所述分组的组数相同。

其中，所述待识别语音数据预处理模块61用于：获取所述语音信号帧的第二预设数量的前向语音信号帧、以及所述语音信号帧的第三预设数量的后向语音信号帧，从而得到所述语音信号帧对应的所述时域拓展后的所述子带；其中，所述第二预设数量以及所述第三预设数量的值为小于所述子带宽度的经验值；其中所述时域拓展后的子带宽度为所述子带宽度与所述第二预设数量以及所述第三预设数量的和。

其中，所述打分模块62用于：调用预先训练的所述卷积器，并使用每组所述卷积器与所述特征矩阵做卷积运算；对所述卷积运算的结果进行采样并对所述采样结果进行归一化处理，得到所述第一向量。

其中，所述打分模块62用于：以所述预先训练的隐藏层权重矩阵与所述第一向量相乘，并对所述相乘的结果进行规整，获得所述N维向量。

图6所述装置可执行图4对应的方法，其执行步骤及技术效果参考图4所述实施例，此处不赘述。

应用实例

以下部分将结合图7，以一个实际的例子对本申请实施例的技术方案进行进一步阐述：

1、收集语料并确定声学模型目标分类数目，此处将声学模型的目标分类数目记为N；

2、将训练语料使用用多种房间混响函数进行扰动，以得到更加真实、更加全面的声音训练样本。

3、将训练语料样本分帧，进行快速傅里叶变换，取幅度。

将5分钟语音数据，按10毫秒分一帧，分为3万语音信号帧，使用Mel滤波器组提取40维滤波器组参数，每一帧用一个40维的向量表示。即5分钟语音数据可以用3万个40维向量表示。

4、根据声学模型的目标分类，使用Viterbi算法对训练语料进行状态对齐。

5、获得每一语音信号帧的子带，具体将3万个40维向量中的每一个40维向量按维度分为8组。分组规则为第1-7维分为第1组，第5-11维分为第2组，第9-15维分为第3组，第14-20维分为第4组，第19-25维分为第5组，第24-30维分为第6组，第29-35维分为第7组，第34-40维分为第8组。每组都是一个7维的向量。即，语音信号帧的每一子带对应一个7维向量，每一语音信号帧对应8个子带。如图7示的，(a0,a1,a2,...a6)(b0,b1,b2,...b6)(h0,h1,h2,...h6)。

6、对每帧的8个7维向量进行时域扩展，向前取5帧，向后取5帧，得到8个11×7的矩阵。

7、随机初始化1024(128×8)个11×5维的矩阵M。如图7所示，在卷积层以每8个矩阵M为一组卷积器，分别对第6步得到的8个矩阵做矩阵卷积，卷积层的输出为8个3维的向量。

在采样层中，根据最大采样法对卷积层的输出结果进行采样，即在每个3维向量中，取值最大的作为代表，每组卷积器的输出是8个一维向量，即一个8维向量，则128个卷积器对应的该步骤的输出为128个8维向量(A,B,C,D,E,F,G,H)。将128向量首尾拼接成一个1024维的向量，并归一化。

8、随机初始化一个1024×N的矩阵P，与第7步输出的1024维向量相乘，并使用一个Softmax函数对输出规整，得到一个N维向量，其中，第n维的意义是该帧属于第n个声学分类的概率。

9、根据第8步的输出和第2步的对齐结果，进行基于误差反向传播算法的参数更新，更新第7步和第8步随机初始化的矩阵M(一组矩阵)和P。使用小批量随机梯度下降法作为参数更新的更新策略。

10、以全部数据更新一次称为一个迭代，将第9步的参数更新进行4个迭代。在矩阵M和矩阵P之间插入一个矩阵Q和Sigmoid非线性函数。再更新两个迭代。

11、在第10步基础上，在矩阵M和矩阵Q之间插入一个矩阵R和Sigmoid非线性函数，再更新两个迭代。

12、固定矩阵组M的参数不变，将梯度下降的学习率减半，仅更新Q、R、P矩阵。持续修改学习率迭代直至收敛。

13、训练结束得到参数更新后的一组矩阵M以及矩阵P组成的声学模型用于语音识别中的声学打分。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种声学模型训练方法，其特征在于，包括：

对训练语料对应的子带进行时域扩展得到特征矩阵；

将所述特征矩阵通过预设的卷积器，获得第一向量；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括，采用如下方法获得所述训练语料对应的所述子带：

对所述训练语料进行分帧，并对所述分帧得到的语音信号帧进行快速傅里叶变换；

对所述快速傅里叶变换的结果取幅度值，采用预设的滤波器从所述幅度值中获取第一预设数量的滤波器组参数；

3.根据权利要求2所述的方法，其特征在于，所述时域拓展，包括：

获取所述语音信号帧的第二预设数量的前向语音信号帧、以及所述语音信号帧的第三预设数量的后向语音信号帧，从而得到所述语音信号帧对应的所述时域拓展后的所述子带；

4.根据权利要求3所述的方法，其特征在于，

所述卷积器由预设的卷积矩阵组成，所述卷积矩阵具体为：随机初始化得到m×n的矩阵，其中m为所述时域拓展后的子带宽度，n为小于所述子带宽度的经验值；

所述预设的隐藏层权重矩阵，具体为：随机初始化x×N的矩阵，其中x为所述分组的组数的倍数，N为所述声学模型的分类数目。

5.根据权利要求4所述的方法，其特征在于，所述获得第一向量，包括：

以第四预设数量的所述卷积矩阵为一组卷积器，并使用每组所述卷积器与所述特征矩阵做卷积运算；

6.根据权利要求1所述的方法，其特征在于，根据所述第一向量与预设的隐藏层权重矩阵获得N维向量，包括：

以所述预设的隐藏层权重矩阵与所述第一向量相乘，并对所述相乘的结果进行规整，获得所述N维向量。

7.根据权利要求1所述的方法，其特征在于，对所述卷积器与所述第二向量进行参数更新，包括：

步骤a：以所述卷积矩器与所述隐藏层权重矩阵组成矩阵组；

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

重复执行步骤c；其中，所述重复执行的次数由所述训练语料的数量决定。

9.根据权利要求7或8所述的方法，其特征在于，所述方法还包括：

当所述第二迭代次数达到预设的阈值，保持所述卷积矩阵的参数不变，修改所述参数更新的设置，并对所述矩阵组中除所述卷积矩阵之外的其他矩阵进行所述参数更新。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括，对训练语料对应的子带进行时域扩展之前，所述方法还包括：

根据所述声学模型的分类对所述训练语料进行状态对齐，从而获得优化后的所述训练语料。

11.一种语音识别方法，其特征在于，包括：

获得待识别语音数据对应的子带；

根据所述特征矩阵，调用预先训练的卷积器获得第一向量；

12.根据权利要求11所述的方法，其特征在于，获得待识别语音数据对应的子带，包括：

对待识别语音数据进行分帧，并对所述分帧得到的语音信号帧进行快速傅里叶变换；

13.根据权利要求12所述的方法，其特征在于，对所述待识别语音数据的所述子带进行时域扩展，包括：

14.根据权利要求11所述的方法，其特征在于，调用预先训练的卷积器获得第一向量，包括：

调用预先训练的所述卷积器，并使用每组所述卷积器与所述特征矩阵做卷积运算；

15.根据权利要求11所述的方法，其特征在于，根据所述第一向量与预设的隐藏层权重矩阵获得N维向量，包括：

以所述预先训练的隐藏层权重矩阵与所述第一向量相乘，并对所述相乘的结果进行规整，获得所述N维向量。

16.一种声学模型训练装置，其特征在于，包括：

17.根据权利要求16所述的装置，其特征在于，所述训练语料预处理模块还用于，执行如下步骤获得所述训练语料对应的所述子带：

18.根据权利要求17所述的装置，其特征在于，所述训练语料预处理模块用于：

19.根据权利要求18所述的装置，其特征在于，

20.根据权利要求19所述的装置，其特征在于，所述计算模块用于：

21.根据权利要求16所述的装置，其特征在于，所述计算模块用于：

22.根据权利要求15所述的装置，其特征在于，所述参数更新模块用于执行如下步骤：

步骤a：以所述卷积矩器与所述隐藏层权重矩阵组成矩阵组；

23.根据权利要求22所述的装置，其特征在于，所述参数更新模块还用于：

24.根据权利要求22或23所述的装置，其特征在于，所述参数更新模块还用于：

25.根据权利要求16所述的装置，其特征在于，所述训练语料预处理模块还用于，

对训练语料对应的子带进行时域扩展之前，根据所述声学模型的分类对所述训练语料进行状态对齐，从而获得优化后的所述训练语料。

26.一种语音识别装置，其特征在于，包括：

27.根据权利要求26所述的装置，其特征在于，所述待识别语音数据预处理模块用于：

28.根据权利要求27所述的装置，其特征在于，所述待识别语音数据预处理模块用于：

29.根据权利要求26所述的装置，其特征在于，所述打分模块用于：

30.根据权利要求26所述的装置，其特征在于，所述打分模块用于：