CN107871496B

CN107871496B - 语音识别方法和装置

Info

Publication number: CN107871496B
Application number: CN201610847841.5A
Authority: CN
Inventors: 刘孟竹; 唐青松; 张祥德
Original assignee: Beijing Eyecool Technology Co Ltd
Current assignee: Beijing Eyecool Technology Co Ltd
Priority date: 2016-09-23
Filing date: 2016-09-23
Publication date: 2021-02-12
Anticipated expiration: 2036-09-23
Also published as: CN107871496A

Abstract

本发明公开了一种语音识别方法和装置。该方法包括：确定训练语音信号；确定与训练语音信号对应的声源标签，其中，声源标签用于作为语音识别模型提取训练语音信号的语调特征的参照目标；确定与训练语音信号对应的语义标签，其中，语义标签用于作为语音识别模型提取训练语音信号的语义特征的参照目标；根据训练语音信号、声源标签和语义标签训练语音识别模型；通过语音识别模型识别目标语音信号。通过本发明，解决了相关技术中的语音识别技术识别准确率低的问题。

Description

语音识别方法和装置

技术领域

本发明涉及语音识别领域，具体而言，涉及一种语音识别方法和装置。

背景技术

语音识别技术可以将人类语音中的声学信息转换为计算机可读的输入，例如按键、二进制编码或者字符序列。近年来，基于深度学习(Deep Learning)的语音识别系统得到了广泛的应用，这种语音识别系统可以模仿大脑学习、识别语音信号的模式，大幅度地提高了语音识别系统识别的准确性。

将Deep Learning用于语音识别，目前己经获得了长足的进步。以下介绍几种深度网络(Deep Networks)：

(1)递归神经网络(Recurrent Neural Network，简称RNN)与联结时间分类(Connectionist Temporal Classification，简称CTC)结合。

RNN的分布式隐藏状态能有效存储之前的信息，并且作为非线性动态系统能够使其隐含层单元以一种复杂的方式更新，结合了这两种特性，使它能够通过递归层识别潜在的时间依赖关系，之后通过CTC进行网络输出与文字序列的对齐来处理连续语音识别的任务。

(2)编码-解码(Encoding-Decoding)模型。这个模型采用编码(Encoding)网络将声音信号编码为中间层的表征，再采用解码(Decoding)网络将中间层的表征解码为文字序列。其中，Encoding、Decoding模型一般采用RNN，但也可采用深度神经网络(Deep NeuralNetwork，简称DNN)、卷积神经网络(Convolutional Neural Network，简称CNN)等任何深度网络。

现有的语音识别技术，无论是RNN与CTC结合的模型还是Encoding-Decoding模型，在进行语音识别任务时只考虑声学信息而不考虑说话人信息，例如，说话人的口音特征。由于不同说话人发音的语气、语调、说话的风格等差异很大，忽视说话人信息会引起语音识别系统对同音字的音调判断不准确的情况，从而导致识别准确率的下降。

针对相关技术中的语音识别技术识别准确率低的问题，目前尚未提出有效的解决方案。

发明内容

本发明的主要目的在于提供一种语音识别方法和装置，以解决相关技术中的语音识别技术识别准确率低的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种语音识别方法。该方法包括：确定训练语音信号；确定与训练语音信号对应的声源标签，其中，声源标签用于作为语音识别模型提取训练语音信号的语调特征的参照目标；确定与训练语音信号对应的语义标签，其中，语义标签用于作为语音识别模型提取训练语音信号的语义特征的参照目标；根据训练语音信号、声源标签和语义标签训练语音识别模型；通过语音识别模型识别目标语音信号。

进一步地，根据训练语音信号、声源标签和语义标签训练语音识别模型包括：按照时间维度对训练语音信号进行分帧，得到多帧语音信号；依次将多帧语音信号输入第一神经网络模型，其中，第一神经网络模型用于提取每帧语音信号的语调特征；根据多帧语音信号和与多帧语音信号对应的声源标签训练第一神经网络模型的目标参数的参数值；依次将多帧语音信号输入第二神经网络模型，其中，第二神经网络模型用于提取每帧语音信号的语义特征；根据多帧语音信号和与多帧语音信号对应的语义标签训练第二神经网络模型的目标参数的参数值；根据训练后的第一神经网络模型和第二神经网络模型确定语音识别模型。

进一步地，多帧语音信号包括第一帧语音信号和第二帧语音信号，其中，第一帧语音信号为第二帧语音信号在时间维度上的前一帧语音信号，依次将多帧语音信号输入第一神经网络模型包括：将第一帧语音信号输入第一神经网络模型，得到第一帧语音信号的语调特征；将第二帧语音信号输入第一神经网络模型，依次将多帧语音信号输入第二神经网络模型包括：将第二帧语音信号和第一帧语音信号的语调特征输入第二神经网络模型。

进一步地，根据训练语音信号、声源标签和语义标签训练语音识别模型包括：确定第一帧语音信号的语调特征所表示的声源和声源标签所表示的声源之间的声源误差；在将第二帧语音信号和第一帧语音信号的语调特征输入第二神经网络模型之后，通过对齐网络模型对齐第二神经网络模型的输出信号和语义标签；确定第二神经网络模型的输出信号所表示的语义和语义标签所表示的语义之间的对齐误差；根据对齐误差和声源误差调整第一神经网络模型的目标参数的参数值和第二神经网络模型的目标参数的参数值。

进一步地，对齐网络模型为CTC对齐网络模型。

进一步地，确定第二神经网络模型的输出信号所表示的语义和语义标签所表示的语义之间的对齐误差包括：通过forward-backward算法确定CTC前向变量和CTC后向变量；根据CTC前向变量确定第二神经网络模型的输出信号所表示的语义为语义标签所表示的语义的概率函数，根据对齐误差和声源误差调整第一神经网络模型的目标参数的参数值和第二神经网络模型的目标参数的参数值包括：根据对齐误差和声源误差进行反向传播以调整第一神经网络模型的目标参数的参数值，根据CTC前向变量、CTC后向变量和概率函数对对齐误差进行反向传播以调整第二神经网络模型的目标参数的参数值。

进一步地，第一神经网络模型和/或第二神经网络模型为LSTM网络模型。

为了实现上述目的，根据本发明的一个方面，提供了一种语音识别装置。该装置包括：第一确定单元，用于确定训练语音信号；第二确定单元，用于确定与训练语音信号对应的声源标签，其中，声源标签用于作为语音识别模型提取训练语音信号的语调特征的参照目标；第三确定单元，用于确定与训练语音信号对应的语义标签，其中，语义标签用于作为语音识别模型提取训练语音信号的语义特征的参照目标；训练单元，用于根据训练语音信号、声源标签和语义标签训练语音识别模型；识别单元，用于通过语音识别模型识别目标语音信号。

进一步地，训练单元包括：分帧模块，用于按照时间维度对训练语音信号进行分帧，得到多帧语音信号；第一输入模块，用于依次将多帧语音信号输入第一神经网络模型，其中，第一神经网络模型用于提取每帧语音信号的语调特征；第一训练模块，用于根据多帧语音信号和与多帧语音信号对应的声源标签训练第一神经网络模型的目标参数的参数值；第二输入模块，用于依次将多帧语音信号输入第二神经网络模型，其中，第二神经网络模型用于提取每帧语音信号的语义特征；第二训练模块，用于根据多帧语音信号和与多帧语音信号对应的语义标签训练第二神经网络模型的目标参数的参数值；确定模块，用于根据训练后的第一神经网络模型和第二神经网络模型确定语音识别模型。

进一步地，多帧语音信号包括第一帧语音信号和第二帧语音信号，其中，第一帧语音信号为第二帧语音信号在时间维度上的前一帧语音信号，第一输入模块还用于将第一帧语音信号输入第一神经网络模型，得到第一帧语音信号的语调特征；将第二帧语音信号输入第一神经网络模型，第二输入模块还用于将第二帧语音信号和第一帧语音信号的语调特征输入第二神经网络模型。

本发明通过确定训练语音信号；确定与训练语音信号对应的声源标签，其中，声源标签用于作为语音识别模型提取训练语音信号的语调特征的参照目标；确定与训练语音信号对应的语义标签，其中，语义标签用于作为语音识别模型提取训练语音信号的语义特征的参照目标；根据训练语音信号、声源标签和语义标签训练语音识别模型；通过语音识别模型识别目标语音信号，解决了相关技术中的语音识别技术识别准确率低的问题，进而达到了更准确地识别语音信号代表的语义的效果。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明第一实施例的语音识别方法的流程图；

图2是根据本发明第二实施例的语音识别方法的示意图；

图3是根据本发明实施例的CTC网络结构的示意图；以及

图4是根据本发明实施例的语音识别装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，对本申请中的缩略语解释如下：

1.RNN(Recurrent Neural Network)：递归神经网络，是一种序列模型，RNN在神经网络的基础上，考虑相邻语音帧的隐含层单元之间的连接关系，通过按时间反向传播误差调整网络参数训练网络。

2.LSTM(Long Short-Term Memory)：LSTM模型是对传统RNN的改进，在RNN的基础上，LSTM采用三个阀门来控制信息的流动：输入阀门、忘记阀门、输出阀门。

3.CTC(Connectionist Temporal Classification)：是一种将深度网络输出与序列标签文本对齐的网络，可以计算所有可能路径的概率和整个序列的概率。

4.LPC(Linear Prediction Coding)：通过使线性预测的采样在最小均方误差意义上去逼近实际语音采样，可以求取出一组唯一的预测系数，也即，LPC参数。

5.MFCC(Mel-scale Frequency Cepstral Coefficients)：利用Mel频率与Hz频率的非线性对应关系，计算得到的Hz频谱特征。MFCC已经广泛地应用在语音识别领域。

6.GRU(Gated Recurrent Unit)：LSTM的一种简单化变体模型。

本发明的实施例提供了一种语音识别方法。

图1是根据本发明实施例的语音识别方法的流程图。如图1所示，该方法包括以下步骤：

步骤S101，确定训练语音信号。

步骤S102，确定与训练语音信号对应的声源标签。

声源标签用于作为语音识别模型提取训练语音信号的语调特征的参照目标，其中，语音识别模型可以提取训练语音信号的语调特征。

步骤S103，确定与训练语音信号对应的语义标签。

语义标签用于作为语音识别模型提取训练语音信号的语义特征的参照目标，其中，语音识别模型还可以提取训练语音信号的语义特征。

步骤S104，根据训练语音信号、声源标签和语义标签训练语音识别模型。

步骤S105，通过语音识别模型识别目标语音信号。

语音识别方法是通过向语音识别模型输入语音信号后输出该语音信号表示的语义的方法，可以将语音转变为相应的文本。语音识别模型中包括待定的参数，本发明中所述的目标参数即指模型中待定的参数。语音识别模型需要训练，对语音识别模型进行训练的过程即是通过训练样本对语音识别模型的待定参数进行不断调整、优化以使语音识别模型识别率更高的过程。在训练结束后，可以使用训练好的语音识别模型识别目标语音信号以确定目标语音信号的语义。

在该实施例提供的语音识别方法中，训练样本包括训练语音信号、与训练语音信号对应的声源标签和与训练语音信号对应的语义标签。例如，训练样本包括n个训练语音信号S1，S2，……，Sn，相应地，与训练语音信号对应的声源标签为Y1，Y2，……，Yn，与训练语音信号对应的语义标签为X1，X2，……，Xn。训练的目标为通过多个训练样本对语音识别模型中的目标参数进行多次训练，调整目标参数的参数值以使语音识别模型对训练语音信号识别得到的语义与训练语音信号对应的语义标签所表示的语义的误差最小。

该实施例提供的语音识别方法，首先通过确定训练语音信号；确定与训练语音信号对应的声源标签，其中，声源标签用于作为语音识别模型提取训练语音信号的语调特征的参照目标；确定与训练语音信号对应的语义标签，其中，语义标签用于作为语音识别模型提取训练语音信号的语义特征的参照目标，在确定训练语音信号、声源标签和语义标签之后也即确定出训练样本。声源标签可以是声源标签所对应的训练语音信号的说话人(发声人)的标签，例如，训练语音信号S1的说话人为Emma，则S1所对应的声源标签Y1为Emma，训练语音信号S2对应的说话人为Leo，则S2对应的声源标签Y2的说话人为Leo，可选地，声源标签的内容也可以为编号，每个编号对应一个说话人。通过声源标签标记训练语音信号，可以在训练的过程中通过模型提取出训练语音信号携带的说话人的语调特征，其中，语调特征可以包括语气、口音、说话风格等多种特征信息。由于在训练语音识别模型的过程中是根据训练语音信号、声源标签和语义标签训练语音识别模型，在训练的过程中考虑到语调的信息，可以使得训练出的模型识别语义的准确率更高。

该实施例提供的语音识别方法，通过确定训练语音信号；确定与训练语音信号对应的声源标签，其中，声源标签用于作为语音识别模型提取训练语音信号的语调特征的参照目标；确定与训练语音信号对应的语义标签，其中，语义标签用于作为语音识别模型提取训练语音信号的语义特征的参照目标；根据训练语音信号、语调特征和语义特征训练语音识别模型；通过语音识别模型识别目标语音信号，解决了相关技术中的语音识别技术识别准确率低的问题，进而达到了更准确地识别语音信号代表的语义的效果。

优选地，在根据训练语音信号、声源标签和语义标签训练语音识别模型时，可以先按照时间维度对训练语音信号进行分帧，得到多帧语音信号。通过分帧操作对训练语音信号进行预处理，可以将训练语音信号划分为更小的单位，使训练过程更快地收敛，语音识别模型在识别目标语音信号时，对较短的语音信号也可以更准确地识别。

在得到多帧语音信号之后，依次将多帧语音信号输入第一神经网络模型，根据多帧语音信号和与多帧语音信号对应的声源标签训练第一神经网络模型的目标参数的参数值，其中，第一神经网络模型用于提取每帧语音信号的语调特征，在第一神经网络模型提取每帧语音信号的语调特征之后，可以根据每帧语音信号对应的声源标签和第一神经网络模型提取出的语调特征所表示的声源标签之间的误差优化第一神经网络模型的目标参数的参数值。依次将多帧语音信号输入第二神经网络模型，根据多帧语音信号和与多帧语音信号对应的语义标签训练第二神经网络模型的目标参数的参数值，其中，第二神经网络模型用于提取每帧语音信号的语义特征，在第二神经网络模型提取每帧语音信号的语义特征之后，可以根据每帧语音信号对应的语义标签和第二神经网络模型提取出的语义特征所表示的语义标签之间的误差优化第二神经网络模型的目标参数的参数值。最后，根据训练后的第一神经网络模型和第二神经网络模型确定语音识别模型。

在训练过程中，第一神经网络模型提取每帧语音信号的语调特征和第二神经网络模型提取每帧语义信号的语义特征是互相独立的。

可选地，可以将每帧语音信号同步地输入第一神经网络模型和第二神经网络模型，优选地，可以将第一神经网络模型提取上一帧语音信号的语调特征的结果作为第二神经网络模型提取当前帧语音信号的语义特征时的附加输入。

通过附加的语调特征作为输入，可以使第二神经网络模型在提取语义特征时考虑到语调特征，使训练算法更快地收敛，也可以使语音识别模型识别目标语音信号时得到更准确地结果。

以多帧语音信号包括第一帧语音信号和第二帧语音信号为例，依次将多帧语音信号输入第一神经网络模型的步骤包括：将第一帧语音信号输入第一神经网络模型，得到第一帧语音信号的语调特征；将第二帧语音信号输入第一神经网络模型，依次将多帧语音信号输入第二神经网络模型的步骤包括：将第二帧语音信号和第一帧语音信号的语调特征输入第二神经网络模型，其中，第一帧语音信号为第二帧语音信号在时间维度上的前一帧语音信号。

或者，将多帧语音信号输入语音识别模型的顺序也可以是采用如下方式：

在将第一帧语音信号输入第二神经网络模型以提前第一帧语音信号的语义特征时，将第一帧语音信号的语调特征作为第二神经网络模型的附加特征输入，其中，第一帧语音信号的语调特征是第一神经网络模型已经提取好的语调特征，同时，在将第一帧语音信号输入第二神经网络模型以提前第一帧语音信号的语义特征时，同步地将第二帧语音信号输入第一神经网络模型以提取第二帧语音信号的语调特征。

在将第二帧语音信号输入第二神经网络模型以提前第二帧语音信号的语义特征时，将第二帧语音信号的语调特征作为第二神经网络模型的附加特征输入，同时，在将第二帧语音信号输入第二神经网络模型以提前第二帧语音信号的语义特征时，同步地将第三帧语音信号输入第一神经网络模型以提取第三帧语音信号的语调特征，依次类推。

通过上述步骤，可以将每帧语音信号的语调特征作为该帧语音信号提取语义特征时的附加特征输入。

上述实施方式为可选的实施例，在实际应用中，可以根据情况选择采用何种顺序作为多帧语音信号的输入方式，本发明对此不作具体限定。

优选地，根据训练语音信号、语调特征和语义特征训练语音识别模型包括：确定第一帧语音信号的语调特征所表示的声源和声源标签所表示的声源之间的声源误差；在将第二帧语音信号和第一帧语音信号的语调特征输入第二神经网络模型之后，通过对齐网络模型对齐第二神经网络模型的输出信号和语义标签；确定第二神经网络模型的输出信号所表示的语义和语义标签所表示的语义之间的对齐误差；根据对齐误差和声源误差调整第一神经网络模型的目标参数的参数值和第二神经网络模型的目标参数的参数值。

优选地，对齐网络模型为CTC对齐网络模型。

优选地，确定第二神经网络模型的输出信号所表示的语义和语义标签所表示的语义之间的对齐误差包括：通过forward-backward算法确定CTC前向变量和CTC后向变量；根据CTC前向变量确定第二神经网络模型的输出信号所表示的语义为语义标签所表示的语义的概率函数，根据对齐误差和声源误差调整第一神经网络模型的目标参数的参数值和第二神经网络模型的目标参数的参数值包括：根据对齐误差和声源误差进行反向传播以调整第一神经网络模型的目标参数的参数值，根据CTC前向变量、CTC后向变量和概率函数对对齐误差进行反向传播以调整第二神经网络模型的目标参数的参数值。

优选地，第一神经网络模型和/或第二神经网络模型为LSTM网络模型。

图2是根据本发明第二实施例的语音识别方法的示意图。该实施例可以作为上述第一实施例的优选实施方式，如图2所示，该方法的流程可以分为三个模块：预处理、训练和测试。

预处理是将训练样本进行预处理的过程。训练样本包括训练语音信号、与训练语音信号对应的声源标签和与训练语音信号对应的语义标签。预处理包括对训练样本中的训练语音信号进行预处理的过程，对训练语音信号的预处理包括分帧、预加重、去噪等，该实施例仅进行分帧处理，例如，对于采样频率为8000Hz的语音信号，采用的帧长为20ms，帧移为10ms，其中，帧长为分帧时采用的窗口的长度，帧移为窗口移动的长度，通过帧移可以确保每两帧语音信号之间有重叠的信号，保证语音的连续性。分帧处理采用的具体方式可以根据情况选择，本发明对此不作具体限定。可选地，预处理还可以提取每帧语音信号的LPC或MFCC特征。

训练包括训练两个网络：根据训练语音信号和与训练语音信号对应的声源标签训练语调网络，以及根据训练语音信号、与训练语音信号对应的语义标签和说话人网络的输出信号训练语义网络。语调网络用于提取训练语音信号中包含的由于说话人不同导致的语调不同的语调特征，语义网络用于提取由于训练语音信号的内容不同导致的声音不同的语义特征。

语调网络和语义网络均可以采用LSTM模型，LSTM模型是对传统RNN的改进。LSTM采用三个阀门来控制信息的流动：(1)输入阀门，用于判断信息是否传入网络，(2)忘记阀门，用于判断是否忘记过去的信息，(3)输出阀门，用于判断信息是否输出。通过采用一个深度LSTM提取高层声学语义特征，同时采用另一个深度LSTM提取说话人的音色、语气、语调特征，并且将这些特征加入到语义网络中，可以实现对同音字音调的准确判定。可选地，语调网络和语义网络均可以采用简化的GRU模型代替LSTM模型。

语调网络和语义网络不同的是，语调网络将当前帧语音信号和与当前帧语音信号对应的声源标签作为输入，语义网络则是将当前帧语音信号、与当前帧语音信号对应的语义标签和上一帧语调网络的输出信号作为输入。通过将上一帧语调网络的输出信号作为语义网络的附加输入，可以使得语义网络提取的特征不仅包括声学语义知识，还包括说话人的语气、口音、语调等知识。

具体而言，在对训练语音信号进行分帧处理之后，可以得到多帧语音信号，下面以多帧语音信号中包括初始帧语音信号、第二帧语音信号和第三帧语音信号为例讲解训练的过程，其中，该实施例中所述的初始帧语音信号为在时间维度上对训练语音信号进行分帧之后，输入模型的第一帧语音信号。

1)根据初始帧语音信号进行训练：将初始帧语音信号和与初始帧语音信号对应的声源标签输入语调网络，语调网络可以是LSTM网络，通过语调网络训练语调特征。将初始帧语音信号和与初始帧语音信号对应的语义标签输入语义网络，语义网络可以是LSTM网络，通过语义网络训练声学语义特征。

2)根据第二帧语音信号进行训练：将第二帧语音信号和与第二帧语音信号对应的声源标签输入语调网络，通过语调网络训练语调特征，将第二帧语音信号、语调网络根据输入初始帧语音信号得到的输出信号和与第二帧语音信号对应的语义标签输入语义网络，通过语义网络训练声学语义特征。

3)根据第三帧语音信号进行训练：将第三帧语音信号和与第三帧语音信号对应的声源标签输入语调网络，通过语调网络训练语调特征，将第三帧语音信号、语调网络根据输入第二帧语音信号得到的输出信号和与第三帧语音信号对应的语义标签输入语义网络，通过语义网络训练声学语义特征。

多帧语音信号还可以包括第四帧语音信号、第五帧语音信号等等，对每帧语音信号的训练过程依次类推，在此不再赘述。

语调网络的计算方法如下：

x＝(x₁,x₂,...,x_T)为长度为T的输入序列，其中x_t代表第t帧语音向量，语调网络对第t帧语音信号的输出的计算方法如下：

其中，i^s,f^s,o^s分别表示说话人网络的输入阀门、忘记阀门、输出阀门。f代表sigmoid激活函数，使得阀门的值在[0,1]区间内，0表示门关，1表示门开。c^s表示中间cell的状态值，h^s表示输出。W代表连接的权重，b代表偏置，W、b是待训练的目标参数。将最后得到的

作为第t+1帧语义网络的附加输入，使得语义网络提取的特征不仅包括语义知识，还包含说话人的语气、语调等知识。而声源标签实现了对语调网络参数的调节以及对语义网络的监督。

语义网络的计算方法如下：

对于第t帧语音信号，LSTM模型的输入是原始的语音信号x_t以及附加输入

语义网络对第t帧语音信号的输出的计算方法如下：

式中，W_as表示附加输入

的权重，语义网络其它参数所表示的意义与语调网络相同，在此不再赘述。

在根据每一帧语音信号进行训练之后，通过CTC网络与语义标签进行对齐。具体地，在预处理过程可以对语义标签进行处理得到语义标签序列，将语义网络根据每一帧语音信号进行训练得到输出信号作为CTC网络的输入信号，将CTC网络的输入信号与语义标签序列对齐，从而得到语义标签序列的概率。

图3是根据本发明实施例的CTC网络结构的示意图。CTC是一种对齐网络，网络的结构如图3所示。图3中白色的圆圈代表“空白(blank)”，黑色的圆圈代表字符，横向代表时间维度，即t，纵向代表标签序列y'的维度，即s。这里标签序列y'是语音标签序列y在开始和结尾加入空格(空格表示没有输出，用b表示)，然后在每对标签字符之间加入空格得到的。

首先，将语义网络的输出

使用softmax函数规范化。如公式(11)所示：

在使用softmax函数规范化之后，可以对声源识别，进行说话人判定。

在每帧语音信号输入语义网络之后，确定当前帧信号的概率分布，通过CTC对齐句子，也即，语义标签序列，与语义网络的输出，得到概率最大的序列。具体地，使用forward-backward算法计算得到标签序列y'的概率：

按照公式(12)计算CTC前向变量：

按照公式(13)计算CTC后向变量：

将前向变量、后向变量规范化：

目标函数为

式中，S为训练样本集，(x,y)为训练样本集中的一个训练样本，p(y/x)为CTC网络的输出是标签序列y'的概率。

然后采用BP算法进行误差反向传播，通过CTC-forward-backward算法计算误差并反向传播，可以训练整个网络模型的目标参数。对每个训练样本，时间从T递减到1，其中，T为语音序列的长度。目标函数对声学网络输出的导数为公式(15)，进行误差反向传播并调整目标参数W、b。

其中，

为偏导数运算符号。

测试是将测试样本输入整个网络中，在测试时，允许测试样本包含与训练样本中不同的说话人发出的语音信号，语调网络可以提取出与其最相似的说话人的语调特征，加入到语义网络中，从而实现对同音字音调的准确判定。

在对目标语音信号进行识别时，可以采用语调网络和语义网络结合来进行语音识别任务。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明的实施例还提供了一种语音识别装置。需要说明的是，本发明实施例的语音识别装置可以用于执行本发明的语音识别方法。

图4是根据本发明实施例的语音识别装置的示意图。如图4所示，该装置包括第一确定单元10，第二确定单元20，第三确定单元30，训练单元40和识别单元50。

第一确定单元10可以确定训练语音信号；第二确定单元，用于确定与训练语音信号对应的声源标签，其中，声源标签用于作为语音识别模型提取训练语音信号的语调特征的参照目标；第三确定单元，用于确定与训练语音信号对应的语义标签，其中，语义标签用于作为语音识别模型提取训练语音信号的语义特征的参照目标；训练单元，可以根据训练语音信号、声源标签和语义标签训练语音识别模型；识别单元，可以通过语音识别模型识别目标语音信号。

作为上述实施例的一个优选实施例，训练单元可以包括：分帧模块，用于按照时间维度对训练语音信号进行分帧，得到多帧语音信号；第一输入模块，用于依次将多帧语音信号输入第一神经网络模型，其中，第一神经网络模型用于提取每帧语音信号的语调特征；第一训练模块，用于根据多帧语音信号和与多帧语音信号对应的声源标签训练第一神经网络模型的目标参数的参数值；第二输入模块，用于依次将多帧语音信号输入第二神经网络模型，其中，第二神经网络模型用于提取每帧语音信号的语义特征；第二训练模块，用于根据多帧语音信号和与多帧语音信号对应的语义标签训练第二神经网络模型的目标参数的参数值；确定模块，用于根据训练后的第一神经网络模型和第二神经网络模型确定语音识别模型。

多帧语音信号包括第一帧语音信号和第二帧语音信号，其中，第一帧语音信号为第二帧语音信号在时间维度上的前一帧语音信号，优选地，第一输入模块还用于将第一帧语音信号输入第一神经网络模型，得到第一帧语音信号的语调特征；将第二帧语音信号输入第一神经网络模型，第二输入模块还用于将第二帧语音信号和第一帧语音信号的语调特征输入第二神经网络模型。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，包括：

确定训练语音信号；

确定与所述训练语音信号对应的声源标签，其中，所述声源标签用于作为语音识别模型提取所述训练语音信号的语调特征的参照目标；

确定与所述训练语音信号对应的语义标签，其中，所述语义标签用于作为所述语音识别模型提取所述训练语音信号的语义特征的参照目标；

根据所述训练语音信号、所述声源标签和所述语义标签训练所述语音识别模型；

通过所述语音识别模型识别目标语音信号；

根据所述训练语音信号、所述声源标签和所述语义标签训练语音识别模型包括：

按照时间维度对所述训练语音信号进行分帧，得到多帧语音信号；

依次将所述多帧语音信号输入第一神经网络模型，其中，所述第一神经网络模型用于提取每帧语音信号的语调特征；

根据所述多帧语音信号和与所述多帧语音信号对应的所述声源标签训练所述第一神经网络模型的目标参数的参数值；

依次将所述多帧语音信号输入第二神经网络模型，其中，所述第二神经网络模型用于提取每帧语音信号的语义特征；

根据所述多帧语音信号和与所述多帧语音信号对应的所述语义标签训练所述第二神经网络模型的目标参数的参数值；

根据训练后的所述第一神经网络模型和所述第二神经网络模型确定所述语音识别模型；

所述多帧语音信号包括第一帧语音信号和第二帧语音信号，其中，所述第一帧语音信号为所述第二帧语音信号在时间维度上的前一帧语音信号，

依次将所述多帧语音信号输入第一神经网络模型包括：将所述第一帧语音信号输入所述第一神经网络模型，得到所述第一帧语音信号的语调特征；将所述第二帧语音信号输入所述第一神经网络模型，

依次将所述多帧语音信号输入第二神经网络模型包括：将所述第二帧语音信号和所述第一帧语音信号的语调特征输入所述第二神经网络模型。

2.根据权利要求1所述的方法，其特征在于，根据所述训练语音信号、所述声源标签和所述语义标签训练语音识别模型包括：

确定所述第一帧语音信号的语调特征所表示的声源和所述声源标签所表示的声源之间的声源误差；

在将所述第二帧语音信号和所述第一帧语音信号的语调特征输入所述第二神经网络模型之后，通过对齐网络模型对齐所述第二神经网络模型的输出信号和所述语义标签；

确定所述第二神经网络模型的输出信号所表示的语义和所述语义标签所表示的语义之间的对齐误差；

根据所述对齐误差和所述声源误差调整所述第一神经网络模型的目标参数的参数值和所述第二神经网络模型的目标参数的参数值。

3.根据权利要求2所述的方法，其特征在于，所述对齐网络模型为CTC对齐网络模型。

4.根据权利要求3所述的方法，其特征在于，

确定所述第二神经网络模型的输出信号所表示的语义和所述语义标签所表示的语义之间的对齐误差包括：通过forward-backward算法确定CTC前向变量和CTC后向变量；根据所述CTC前向变量确定所述第二神经网络模型的输出信号所表示的语义为所述语义标签所表示的语义的概率函数，

根据所述对齐误差和所述声源误差调整所述第一神经网络模型的目标参数的参数值和所述第二神经网络模型的目标参数的参数值包括：根据所述对齐误差和所述声源误差进行反向传播以调整所述第一神经网络模型的目标参数的参数值，根据所述CTC前向变量、所述CTC后向变量和所述概率函数对所述对齐误差进行反向传播以调整所述第二神经网络模型的目标参数的参数值。

5.根据权利要求1所述的方法，其特征在于，所述第一神经网络模型和/或所述第二神经网络模型为LSTM网络模型。

6.一种语音识别装置，其特征在于，包括：

第一确定单元，用于确定训练语音信号；

第二确定单元，用于确定与所述训练语音信号对应的声源标签，其中，所述声源标签用于作为语音识别模型提取所述训练语音信号的语调特征的参照目标；

第三确定单元，用于确定与所述训练语音信号对应的语义标签，其中，所述语义标签用于作为所述语音识别模型提取所述训练语音信号的语义特征的参照目标；

训练单元，用于根据所述训练语音信号、所述声源标签和所述语义标签训练语音识别模型；

识别单元，用于通过所述语音识别模型识别目标语音信号；

分帧模块，用于按照时间维度对所述训练语音信号进行分帧，得到多帧语音信号；

第一输入模块，用于依次将所述多帧语音信号输入第一神经网络模型，其中，所述第一神经网络模型用于提取每帧语音信号的语调特征；

第一训练模块，用于根据所述多帧语音信号和与所述多帧语音信号对应的所述声源标签训练所述第一神经网络模型的目标参数的参数值；

第二输入模块，用于依次将所述多帧语音信号输入第二神经网络模型，其中，所述第二神经网络模型用于提取每帧语音信号的语义特征；

第二训练模块，用于根据所述多帧语音信号和与所述多帧语音信号对应的所述语义标签训练所述第二神经网络模型的目标参数的参数值；

确定模块，用于根据训练后的所述第一神经网络模型和所述第二神经网络模型确定所述语音识别模型；

所述第一输入模块还用于将所述第一帧语音信号输入所述第一神经网络模型，得到所述第一帧语音信号的语调特征；将所述第二帧语音信号输入所述第一神经网络模型，

所述第二输入模块还用于将所述第二帧语音信号和所述第一帧语音信号的语调特征输入所述第二神经网络模型。