CN105551483A

CN105551483A - 语音识别的建模方法和装置

Info

Publication number: CN105551483A
Application number: CN201510920809.0A
Authority: CN
Inventors: 白锦峰; 苏丹; 胡娜; 贾磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-12-11
Filing date: 2015-12-11
Publication date: 2016-05-04
Anticipated expiration: 2035-12-11
Also published as: CN105551483B

Abstract

本发明提出一种语音识别的建模方法和装置，上述语音识别的建模方法包括：将语音信号转化成特征向量序列，以及将所述语音信号对应的标注文本转化成建模单元序列，所述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元；在所述建模单元序列中的任意建模单元的前面或后面添加空白标签；基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练，建立语音识别模型。本发明基于CTC的深度循环神经网络的声韵母建模，提高了建立的语音识别模型的识别速度和识别准确率。

Description

语音识别的建模方法和装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别的建模方法和装置。

背景技术

现有的大词汇量汉语语音识别方法主要基于混合方法，例如：高斯混合模型(GaussianMixtureModel；以下简称：GMM)+隐马尔科夫模型(HiddenMarkovModel；以下简称：HMM)、深度神经网络(DeepNeuralNetwork；以下简称：DNN)+HMM等。具体而言，在基于统计的混合方法建模的语音识别中，用于估计隐马尔可夫模型的状态后验概率的方法有：高斯混合模型、深度神经网络(特指深度多层感知机)、深度卷积神经网络和深度循环神经网络等以及几者的组合模型。

语音信号是典型的时序信号，具有短时平稳特点，但因为背景噪声、信道、说话人(即性别、年龄、语速和/或口音等)等因素导致语音信号非常复杂。

但是，现有的语音识别方法都是基于混合方法，而且语音识别中的建模单元都是基于传统的状态建模单元，状态建模极大的束缚了现有所有的建模方法，使用上述状态建模单元建立的语音识别模型对语音识别的识别性能较差。

发明内容

本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种语音识别的建模方法。该方法基于连接时序分类(ConnectionistTemporalClassification；以下简称：CTC)的深度循环神经网络，建立语音识别模型，提高了语音识别模型的识别速度和准确率。

本发明的第二个目的在于提出一种语音识别的建模装置。

为了实现上述目的，本发明第一方面实施例的语音识别的建模方法，包括：将语音信号转化成特征向量序列，以及将所述语音信号对应的标注文本转化成建模单元序列，所述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元；在所述建模单元序列中的任意建模单元的前面或后面添加空白标签；基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练，建立语音识别模型。

本发明实施例的语音识别的建模方法，在将语音信号转化成特征向量序列，以及将上述语音信号对应的标注文本转化成建模单元序列之后，在上述建模单元序列中的任意建模单元的前面或后面添加空白标签，然后基于CTC对上述特征向量序列和添加上述空白标签后的建模单元序列进行训练，建立语音识别模型，其中，上述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元，从而可以实现基于CTC的深度循环神经网络的声韵母建模，提高了建立的语音识别模型的识别速度和识别准确率。

为了实现上述目的，本发明第二方面实施例的语音识别的建模装置，包括：转化模块，用于将语音信号转化成特征向量序列，以及将所述语音信号对应的标注文本转化成建模单元序列，所述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元；添加模块，用于在所述建模单元序列中的任意建模单元的前面或后面添加空白标签；训练模块，用于基于连接时序分类对所述转化模块转化的特征向量序列和所述添加模块添加所述空白标签后的建模单元序列进行训练，建立语音识别模型。

本发明实施例的语音识别的建模装置，在转化模块将语音信号转化成特征向量序列，以及将上述语音信号对应的标注文本转化成建模单元序列之后，添加模块在上述建模单元序列中的任意建模单元的前面或后面添加空白标签，然后训练模块基于CTC对上述特征向量序列和添加上述空白标签后的建模单元序列进行训练，建立语音识别模型，其中，上述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元，从而可以实现基于CTC的深度循环神经网络的声韵母建模，提高了建立的语音识别模型的识别速度和识别准确率。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明语音识别的建模方法一个实施例的流程图；

图2为本发明语音识别的建模方法中提取特征向量一个实施例的示意图；

图3为本发明语音识别的建模方法中两个发音单元中间识别混淆一个实施例的示意图；

图4为本发明语音识别的建模方法另一个实施例的流程图；

图5为本发明语音识别的建模装置一个实施例的结构示意图；

图6为本发明语音识别的建模装置另一个实施例的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1为本发明语音识别的建模方法一个实施例的流程图，如图1所示，上述语音识别的建模方法可以包括：

步骤101，将语音信号转化成特征向量序列，以及将上述语音信号对应的标注文本转化成建模单元序列，上述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元。

具体地，将语音信号转化成特征向量序列可以为：按照预定的窗长和预定的步长将上述语音信号转化为固定维数的特征向量序列。

其中，上述预定的窗长、预定的步长和上述固定维数，可以在具体实现时根据实现需求和/或系统性能等自行设定，本实施例对上述预定的窗长、预定的步长和上述固定维数的大小不作限定。

参见图2，图2为本发明语音识别的建模方法中将语音信号转化为特征向量序列一个实施例的示意图，图2中方框框住的部分即为从语音信号中提取的一个特征向量。图2中，将语音信号转化为特征向量序列的方法是以25毫秒窗长、10毫秒步长提取固定维数(比如40维)的特征向量序列。

步骤102，在上述建模单元序列中的任意建模单元的前面或后面添加空白(blank)标签。

具体地，可以在上述建模单元序列中的任意建模单元的前面或后面添加预定数量的空白标签。

其中，上述预定数量可以在具体实现时自行设定，本实施例对上述预定数量不作限定，举例来说，上述预定数量可以为0个或至少一个。

举例来说，对于图2所示的语音信号对应的标注文本“祝一切都好”来说，转化的建模单元序列可以为{zh，u，y，i，q，ie，d，ou，h，ao}，添加blank标签后的建模单元序列可以为{(blank)zh(blank)u(blank)y(blank)i(blank)q(blank)ie(blank)d(blank)ou(blank)h(blank)ao(blank)}

另外，需要说明的是，本实施例对添加的blank标签的个数不作限定，可以在具体实现时，根据实现需求和/或系统性能等自行设定。

本实施例中，在上述建模单元序列中的任意建模单元的前面或后面添加blank标签较好地解决了两个建模单元中间混淆处的帧分类问题，传统的“强制对齐”对两个发音单元中间混淆处一般分类为左边标签、右边标签或者短停顿，这样容易导致对两个发音单元中间混淆处的识别不准确，出现混淆，如图3中方框框住的部分所示，图3为本发明语音识别的建模方法中两个发音单元中间识别混淆一个实施例的示意图，从图3中可以看出，采用传统的“强制对齐”的方式，在对两个发音单元的中间处进行语音识别时，容易出现混淆，而采用添加blank标签的方式则不会出现混淆，可以提高语音识别的准确率。

并且通过添加blank标签，将传统的轨迹建模转化为差异性建模，建立的语音识别模型更加关注一个发音单元与其他发音单元的差异性，缓减了传统模型需要完整地描述发音单元全部信息的建模负担，并且天然地解决了语音与非语音的区分性问题。

步骤103，基于CTC对上述特征向量序列和添加上述空白标签后的建模单元序列进行训练，建立语音识别模型。

具体地，基于CTC对上述特征向量序列和添加上述空白标签后的建模单元序列进行训练，建立语音识别模型可以为：通过对深度循环神经网络采用固定边界的交叉熵(CrossEntropy；以下简称：CE)训练，获得初始模型；在上述初始模型的基础上，基于CTC对上述特征向量序列和添加上述blank标签后的建模单元序列进行训练，建立语音识别模型。

其中，上述深度循环神经网络可以包括普通的循环神经网络(SimpleRecurrentNeuralNetwork；以下简称：SimpleRNN)、长短时记忆循环神经网络(LongShortTermMemory；以下简称：LSTM)、带门的循环神经网络(GatedrecurrentUnit；以下简称：GRU)、时钟化的循环神经网络(ClockworkRecurrentNeuralNetwork；以下简称：ClockworkRNN)等及其变种以及组合。

本实施例中，基于CTC对上述特征向量序列和添加上述空白标签后的建模单元序列进行训练，需要和能够进行轨迹建模的方法结合，例如：循环神经网络(RecurrentNeuralNetwork；以下简称：RNN)或LSTM等，并且在训练时采用整句训练方式，综合考虑全句的上下文信息，力求全局最优。其中，在训练时采用整句训练方式，是指在添加blank标签时，在对一句话的语音信号识别完整之后，再在建模单元之间添加空白标签。

进一步地，还可以在基于CTC对上述特征向量序列和添加上述空白标签后的建模单元序列进行训练的过程中，进行区分度训练，以强化建立的语音识别模型对正确标注文本和最大可能错误的候选文本之间的区分能力。

其中，进行区分度训练即为将正确的标注文本和最大可能错误的候选文本之间的距离尽量拉开，在具体实现时，可以在训练时，每次将正确的候选文本的概率得分奖励得多一些，将最大可能错误的候选文本的概率得分惩罚得多一些。

图4为本发明语音识别的建模方法另一个实施例的流程图，如图4所示，步骤103之后，还可以包括：

步骤401，通过上述语音识别模型对待识别的语音信号进行识别。

上述语音识别的建模方法中，在将语音信号转化成特征向量序列，以及将上述语音信号对应的标注文本转化成建模单元序列之后，在上述建模单元序列中的任意建模单元的前面或后面添加空白标签，然后基于CTC对上述特征向量序列和添加上述空白标签后的建模单元序列进行训练，建立语音识别模型，其中，上述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元，从而可以实现基于CTC的深度循环神经网络的声韵母建模，提高了建立的语音识别模型的识别速度和识别准确率。

本实施例提出的语音识别的建模方法是在近万小时的产品训练数据条件下进行了大量的产品应用研究，在大数据和产品能接受的大模型条件下，详细的研究和分析了汉语状态建模、声韵母整体半音节建模、音节整体建模等多种汉语建模单元，并深入探索了不同建模单元的CTC训练的价值和作用。

本实施例提出的语音识别的建模方法采用声韵母整体建模条件下的单向深度循环神经网络建模，先对深度循环神经网络采用固定边界的CE训练，然后以这个模型为初始值，进行CTC训练，最后在CTC训练的模型基础上继续采用区分度训练，从而可以比传统的状态建模的产品得到15％以上的错误率下降。

本实施例提出的语音识别的建模方法在建模方法上区别于已有的方法，同时结合了语音识别中的很多技术，比如CE训练的模型作为初始化，区分度训练等，使得最终获得的语音识别模型的综合性能获得了大幅提升。

另外，本实施例提出的基于CTC的单向深度循环神经网络的语音识别的建模方法的价值是尤为显著的，一个可能的解释是，CTC的空白吸收机制和动态边界尖峰学习能力，可以动态自适应的形成“目标延迟(targetdelay)”,从而可以解决单向LSTM模型的右边信息不完整的问题。值得提及的是，采用CTC模型的语音识别器具有非常快的解码速度，这个对于语音识别产品而言，弥足珍贵；同时基于CTC的语音识别模型在噪音和口音稳定性上，也强于传统的深度学习模型。

图5为本发明语音识别的建模装置一个实施例的结构示意图，本实施例中的语音识别的建模装置可以实现本发明图1和图4所示实施例的流程，如图5所示，上述语音识别的建模装置可以包括：转化模块51、添加模块52和训练模块53；

其中，转化模块51，用于将语音信号转化成特征向量序列，以及将上述语音信号对应的标注文本转化成建模单元序列，上述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元；本实施例中，转化模块51，具体用于按照预定的窗长和预定的步长将上述语音信号转化为固定维数的特征向量序列。

参见图2，图2中方框框住的部分即为从语音信号中提取的一个特征向量。图2中，将语音信号转化为特征向量序列的方法是以25毫秒窗长、10毫秒步长提取固定维数(比如40维)的特征向量序列。

添加模块52，用于在上述建模单元序列中的任意建模单元的前面或后面添加blank标签；

具体地，添加模块52可以在上述建模单元序列中的任意建模单元的前面或后面添加预定数量的空白标签。

本实施例中，添加模块52在上述建模单元序列中的任意建模单元的前面或后面添加blank标签较好地解决了两个建模单元中间混淆处的帧分类问题，传统的“强制对齐”对两个发音单元中间混淆处一般分类为左边标签、右边标签或者短停顿，这样容易导致对两个发音单元中间混淆处的识别不准确，出现混淆，如图3中方框框住的部分所示，从图3中可以看出，采用传统的“强制对齐”的方式，在对两个发音单元的中间处进行语音识别时，容易出现混淆，而采用添加blank标签的方式则不会出现混淆，可以提高语音识别的准确率。

训练模块53，用于基于CTC对转化模块51转化的特征向量序列和添加模块52添加上述blank标签后的建模单元序列进行训练，建立语音识别模型。

本实施例中，训练模块53，具体用于通过对深度循环神经网络采用固定边界的CE训练，获得初始模型；在上述初始模型的基础上，基于CTC对上述特征向量序列和添加上述空白标签后的建模单元序列进行训练，建立语音识别模型。

其中，上述深度循环神经网络可以包括普通的循环神经网络(SimpleRNN)、LSTM、GRU、时钟化的循环神经网络(ClockworkRNN)等及其变种以及组合。

本实施例中，基于CTC对上述特征向量序列和添加上述空白标签后的建模单元序列进行训练，需要和能够进行轨迹建模的方法结合，例如：RNN或LSTM等，并且在训练时采用整句训练方式，综合考虑全句的上下文信息，力求全局最优。其中，在训练时采用整句训练方式，是指在添加blank标签时，在对一句话的语音信号识别完整之后，再在建模单元之间添加空白标签。

进一步地，训练模块53，还用于在基于CTC对上述特征向量序列和添加上述空白标签后的建模单元序列进行训练的过程中，进行区分度训练，以强化建立的语音识别模型对正确标注文本和最大可能错误的候选文本之间的区分能力。

其中，训练模块53进行区分度训练即为将正确的标注文本和最大可能错误的候选文本之间的距离尽量拉开，在具体实现时，训练模块53可以在训练时，每次将正确的候选文本的概率得分奖励得多一些，将最大可能错误的候选文本的概率得分惩罚得多一些。

图6为本发明语音识别的建模装置另一个实施例的结构示意图，与图5所示的语音识别的建模装置相比，不同之处在于，本实施例中的语音识别的建模装置还可以包括：

识别模块54，用于通过训练模块53建立的语音识别模型对待识别的语音信号进行识别。

上述语音识别的建模装置中，在转化模块51将语音信号转化成特征向量序列，以及将上述语音信号对应的标注文本转化成建模单元序列之后，添加模块52在上述建模单元序列中的任意建模单元的前面或后面添加空白标签，然后训练模块53基于CTC对上述特征向量序列和添加上述空白标签后的建模单元序列进行训练，建立语音识别模型，其中，上述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元，从而可以实现基于CTC的深度循环神经网络的声韵母建模，提高了建立的语音识别模型的识别速度和识别准确率。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(ProgrammableGateArray；以下简称：PGA)，现场可编程门阵列(FieldProgrammableGateArray；以下简称：FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音识别的建模方法，其特征在于，包括：

将语音信号转化成特征向量序列，以及将所述语音信号对应的标注文本转化成建模单元序列，所述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元；

在所述建模单元序列中的任意建模单元的前面或后面添加空白标签；

基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练，建立语音识别模型。

2.根据权利要求1所述的方法，其特征在于，所述基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练，建立语音识别模型包括：

通过对深度循环神经网络采用固定边界的交叉熵训练，获得初始模型；

在所述初始模型的基础上，基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练，建立语音识别模型。

3.根据权利要求1或2所述的方法，其特征在于，还包括：

在基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练的过程中，进行区分度训练，以强化建立的语音识别模型对正确标注文本和最大可能错误的候选文本之间的区分能力。

4.根据权利要求1所述的方法，其特征在于，所述将语音信号转化成特征向量序列包括：

按照预定的窗长和预定的步长将所述语音信号转化为固定维数的特征向量序列。

5.根据权利要求1所述的方法，其特征在于，所述基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练，建立语音识别模型之后，还包括：

通过所述语音识别模型对待识别的语音信号进行识别。

6.一种语音识别的建模装置，其特征在于，包括：

转化模块，用于将语音信号转化成特征向量序列，以及将所述语音信号对应的标注文本转化成建模单元序列，所述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元；

添加模块，用于在所述建模单元序列中的任意建模单元的前面或后面添加空白标签；

训练模块，用于基于连接时序分类对所述转化模块转化的特征向量序列和所述添加模块添加所述空白标签后的建模单元序列进行训练，建立语音识别模型。

7.根据权利要求6所述的装置，其特征在于，

所述训练模块，具体用于通过对深度循环神经网络采用固定边界的交叉熵训练，获得初始模型；在所述初始模型的基础上，基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练，建立语音识别模型。

8.根据权利要求6或7所述的装置，其特征在于，

所述训练模块，还用于在基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练的过程中，进行区分度训练，以强化建立的语音识别模型对正确标注文本和最大可能错误的候选文本之间的区分能力。

9.根据权利要求6所述的装置，其特征在于，

所述转化模块，具体用于按照预定的窗长和预定的步长将所述语音信号转化为固定维数的特征向量序列。

10.根据权利要求6所述的装置，其特征在于，还包括：

识别模块，用于通过所述训练模块建立的语音识别模型对待识别的语音信号进行识别。