CN110189748A

CN110189748A - 模型构建方法和装置

Info

Publication number: CN110189748A
Application number: CN201910466779.9A
Authority: CN
Inventors: 孙建伟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2019-08-30
Anticipated expiration: 2039-05-31
Also published as: CN110189748B

Abstract

本发明实施例提出一种模型构建方法和装置，方法包括：利用训练样本对第一连接时序分类CTC声学模型进行训练，得到优化的第二CTC声学模型；将第二CTC声学模型作为编码层，与第一流式截断的多层注意力SMLTA声学模型的注意力层和解码层结合，构建初始的第二SMLTA声学模型。本发明实施例由于将预先利用训练样本优化后的第二CTC声学模型作为预构建模型的编码层，将第一SMLTA声学模型的注意力层和解码层作为预构建模型的注意力层和解码层，因此使得构建的初始的第二SMLTA声学模型的模型性能得到提高，进而提高模型训练收敛速度，并且能够与训练样本的适配性更好。

Description

模型构建方法和装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种模型构建方法和装置。

背景技术

在SMLTA模型训练时，通常是基于大量的训练样本对初始模型从头开始训练，以得到最终训练好的SMLTA模型。但是该方式需要训练样本充足。然而在一些线上匹配数据较少的领域或场景中，从头开始对SMLTA模型进行训练的方式并不适用。如果将其他领域已经训练好的SMLTA模型直接作为初始训练模型进行使用，又不能很好的与训练样本适配，进而导致模型训练的收敛速度不能达到预期效果。

发明内容

本发明实施例提供一种模型构建方法和装置，以解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种模型构建方法，包括：

利用训练样本对第一连接时序分类CTC声学模型进行训练，得到优化的第二CTC声学模型；

将第二CTC声学模型作为编码层，与第一流式截断的多层注意力SMLTA声学模型的注意力层和解码层结合，构建初始的第二SMLTA声学模型。

在一种实施方式中，还包括：

利用所述训练样本对第二SMLTA声学模型进行训练，得到第三SMLTA声学模型。

在一种实施方式中，还包括：

利用测试数据对所述第三SMLTA声学模型进行测试；

根据测试结果调整所述第三SMLTA声学模型，得到第四SMLTA声学模型。

在一种实施方式中，还包括：

对音频数据进行梅尔标度滤波器组fbank特征提取；

对所述fbank特征进行梅尔频率倒谱系数mfcc特征提取；

基于所述mfcc特征，利用预设模型生成所述训练样本。

在一种实施方式中，所述第二CTC声学模型至少包括卷积神经网络、长短期记忆网络以及CTC损失函数。

在一种实施方式中，所述第二SMLTA声学模型的注意力层至少包括多层注意力网络；所述第二SMLTA声学模型的解码层至少包括长短期记忆网络。

第二方面，本发明实施例提供了一种模型构建装置，包括：

优化模块，用于利用训练样本对第一连接时序分类CTC声学模型进行训练，得到优化的第二CTC声学模型；

构建模块，用于将第二CTC声学模型作为编码层，与第一流式截断的多层注意力SMLTA声学模型的注意力层和解码层结合，构建初始的第二SMLTA声学模型。

在一种实施方式中，还包括：

训练模块，用于利用所述训练样本对第二SMLTA声学模型进行训练，得到第三SMLTA声学模型。

在一种实施方式中，还包括：

测试模块，用于利用测试数据对所述第三SMLTA声学模型进行测试；

调整模块，用于根据测试结果调整所述第三SMLTA声学模型，得到第四SMLTA声学模型。

在一种实施方式中，还包括：

第一特征提取模块，用于对音频数据进行梅尔标度滤波器组fbank特征提取；

第二特征提取模块，用于对所述fbank特征进行梅尔频率倒谱系数mfcc特征提取；

生成模块，用于基于所述mfcc特征，利用预设模型生成所述训练样本。

第三方面，本发明实施例提供了一种模型构建终端，所述模型构建终端的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，所述模型构建终端的结构中包括处理器和存储器，所述存储器用于存储支持所述模型构建终端执行上述模型构建方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述模型构建终端还可以包括通信接口，用于与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储模型构建终端所用的计算机软件指令，其包括用于执行上述模型构建方法所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：本发明实施例由于将预先利用训练样本优化后的第二CTC声学模型作为预构建模型的编码层，将第一SMLTA声学模型的注意力层和解码层作为预构建模型的注意力层和解码层，因此使得构建的初始的第二SMLTA声学模型的模型性能得到提高，进而提高模型训练收敛速度，并且能够与训练样本的适配性更好。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示出根据本发明实施例的模型构建方法的流程图。

图2示出根据本发明另一实施例的模型构建方法的流程图。

图3示出根据本发明另一实施例的模型构建方法的流程图。

图4示出根据本发明另一实施例的模型构建方法的流程图。

图5示出根据本发明实施例的模型构建装置的结构框图。

图6示出根据本发明另一实施例的模型构建装置的结构框图。

图7示出根据本发明另一实施例的模型构建装置的结构框图。

图8示出根据本发明另一实施例的模型构建装置的结构框图。

图9示出根据本发明实施例的模型构建终端的结构示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1示出根据本发明实施例的模型构建方法的流程图。如图1所示，该模型构建方法包括：

S100：利用训练样本对第一CTC(Connectionist Temporal Classification，连接时序分类)声学模型进行训练，得到优化的第二CTC声学模型。

第一CTC声学模型可以从目前已有的多种CTC声学模型中进行选择。训练样本可以包括所需应用环境中能够获取到的真是数据。通过训练样本对第一CTC声学模型进行训练，能够使得模型参数得到优化，从而得到能够更加适配所需应用环境的第二CTC模型。

在一个示例中，第一CTC声学模型可以采用与训练样本所属应用环境相近似的环境中训练好的CTC声学模型。

S200：将第二CTC声学模型作为编码层(ENCODER)，与第一SMLTA(Streamingtruncated multi-layer attention，流式截断的多层注意力)声学模型的注意力层(ATTENTION)和解码层(DECODER)结合，构建初始的第二SMLTA声学模型。

第一SMLTA声学模型可以从目前已有的多种训练好的SMLTA声学模型中进行选择。构建完成的第二SMLTA声学模型的编码层包括第二CTC声学模型的网络结构和参数。构建完成的第二SMLTA声学模型的注意力层包括第一SMLTA声学模型的注意力层的网络结构和参数。构建完成的第二SMLTA声学模型的解码层包括第一SMLTA声学模型的解码层的网络结构和参数。除此之外，第二SMLTA声学模型的结构中还可以包括已有SMLTA声学模型具有的其他结构。

需要说明的是，第二CTC模型、第一SMLTA声学模型的注意力层以及第一SMLTA声学模型的解码层的具体网络结构和参数在此不做具体限定，可根据第二SMLTA声学模型的应用环境，在构建第二SMLTA声学模型之前进行选择。

本发明实施例由于将预先利用所需训练样本优化后的第二CTC声学模型作为预构建模型的编码层，因此使得第二CTC声学模型的编码层能够基于训练样本输出更加准确的尖峰信息(spike)，进一步使得第二CTC声学模型基于更加准确的尖峰信息可以预测出更加准确的截断，截断用于将训练样本截断为多个语音小片段。采用这样的截断可以使得注意力层学到更加准确的信息。

在一种实施方式中，当需要构建应用于手机助手环境中的SMLTA声学模型时，需要先从手机助手环境中获取线上真实数据。线上真实数据可以包括用户使用手机助手过程中产生的交互语音数据。例如，“小度小度，请帮我查看今天的天气”、“请帮我给小明打电话”等。第一SMLTA声学模型采用应用于输入法环境的SMLTA声学模型。第一CTC声学模型采用应用于中英互译环境的CTC声学模型。具体模型构建方法包括：

利用通过手机助手环境的线上真实数据得到的训练样本，对应用于中英互译环境的CTC声学模型进行训练，得到适配手机助手环境的第二CTC声学模型；

将第二CTC声学模型作为预构建模型的编码层结构，将应用于输入法环境的SMLTA声学模型的注意力层结构作为预构建模型的注意力层结构，将应用于输入法环境的SMLTA声学模型的解码层结构作为预构建模型的解码层结构，从而完成构建初始的第二SMLTA声学模型。

在一种实施方式中，如图2所示，模型构建方法还包括：

S300：利用训练样本对第二SMLTA声学模型进行训练，得到第三SMLTA声学模型。利用训练样本对第二SMLTA声学模型进行训练的具体方式，可采用现有的模型训练方式。得到的第三SMLTA声学模型可以理解为对第二SMLTA声学模型的网络结构和/或参数进行优化后得到的SMLTA声学模型。

在一个示例中，为了保证得到的第三SMLTA声学模型经过了充分的训练，可以利用训练样本对模型进行多轮迭代训练。

在一种实施方式中，如图3所示，模型构建方法还包括：

S400：利用测试数据对第三SMLTA声学模型进行测试。测试数据可以包括来自于所需应用环境中的且不包含在训练样本中的数据。

S500：根据测试结果调整第三SMLTA声学模型，得到第四SMLTA声学模型。得到的第四SMLTA声学模型可以理解为对第三SMLTA声学模型的网络结构和/或参数进行优化后得到的SMLTA声学模型。第四SMLTA声学模型可以作为最终训练完成的模型进行使用。

在一个示例中，测试数据的数量可控制在几千个作用，采用人工进行文本标注后整理训练集，然后使用该训练集对第三SMLTA声学模型进行遍历测试，从而得到相对第三SMLTA声学模型更优的第四SMLTA声学模型。

在一种实施方式中，如图4所示，模型构建方法还包括训练样本准备的过程，具体包括：

S600：对音频数据进行fbank(Mel-scale Filter Bank，梅尔标度滤波器组)特征提取。

S700：对fbank特征进行mfcc(Mel Frequency Cepstral Coefficient，梅尔频率倒谱系数)特征提取。

S800：基于mfcc特征，利用预设模型生成训练样本。预设模型可以采用gmm模型(Gaussian Mixture Model，高斯混合模型)、hmm模型(Hidden Markov Model，隐马尔可夫模型)、DNN模型(Deep Neural Network，深度神经网络)等。

在一个示例中，基于mfcc特征，利用预设模型生成训练样本，包括：利用mfcc特征和标注文本进行gmm训练得到特征的转移状态ID，利用该状态ID得到训练特征的标签。将训练标签按上述特征的分类情况一一对应得到按类别分组的训练标签。转移状态ID与mfcc特征具有映射关系。

在一种实施方式中，第二CTC声学模型至少包括卷积神经网络、长短期记忆网络以及CTC损失函数。

在另一种实施方式中，第二CTC声学模型至少包括循环神经网络和CTC损失函数。

在一种实施方式中，第二SMLTA声学模型的注意力层至少包括多层注意力网络。每层注意力网络可以包括一个注意力模型的网络结构。第二SMLTA声学模型的解码层至少包括长短期记忆网络。

图5示出根据本发明实施例的模型构建装置的结构框图。如图5所示，该模型构建装置包括：

优化模块10，用于利用训练样本对第一连接时序分类CTC声学模型进行训练，得到优化的第二CTC声学模型。

构建模块20，用于将第二CTC声学模型作为编码层，与第一流式截断的多层注意力SMLTA声学模型的注意力层和解码层结合，构建初始的第二SMLTA声学模型。

在一种实施方式中，如图6所示，模型构建装置还包括：

训练模块30，用于利用训练样本对第二SMLTA声学模型进行训练，得到第三SMLTA声学模型。

在一种实施方式中，如图7所示，模型构建装置还包括：

测试模块40，用于利用测试数据对第三SMLTA声学模型进行测试。

调整模块50，用于根据测试结果调整第三SMLTA声学模型，得到第四SMLTA声学模型。

在一种实施方式中，如图8所示，模型构建装置还包括：

第一特征提取模块60，用于对音频数据进行梅尔标度滤波器组fbank特征提取。

第二特征提取模块70，用于对fbank特征进行梅尔频率倒谱系数mfcc特征提取。

生成模块80，用于基于mfcc特征，利用预设模型生成训练样本。

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

图9示出根据本发明实施例的模型构建终端的结构框图。如图9所示，该终端包括：存储器910和处理器920，存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的模型构建方法。所述存储器910和处理器920的数量可以为一个或多个。

该终端还包括：

通信接口930，用于与外界设备进行通信，进行数据模型构建传输。

存储器910可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器910、处理器920和通信接口930独立实现，则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA，Extended IndustryStandard Architecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器910、处理器920及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述实施例中任一所述方法。

本发明实施例由于将预先利用训练样本优化后的第二CTC声学模型作为预构建模型的编码层，将第一SMLTA声学模型的注意力层和解码层作为预构建模型的注意力层和解码层，因此使得构建的初始的第二SMLTA声学模型的模型性能得到提高，进而提高模型训练收敛速度，并且能够与训练样本的适配性更好。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种模型构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

利用测试数据对所述第三SMLTA声学模型进行测试；

4.根据权利要求1所述的方法，其特征在于，还包括：

对音频数据进行梅尔标度滤波器组fbank特征提取；

对所述fbank特征进行梅尔频率倒谱系数mfcc特征提取；

基于所述mfcc特征，利用预设模型生成所述训练样本。

5.根据权利要求1所述的方法，其特征在于，所述第二CTC声学模型至少包括卷积神经网络、长短期记忆网络以及CTC损失函数。

6.根据权利要求1所述的方法，其特征在于，所述第二SMLTA声学模型的注意力层至少包括多层注意力网络；所述第二SMLTA声学模型的解码层至少包括长短期记忆网络。

7.一种模型构建装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，还包括：

9.根据权利要求8所述的装置，其特征在于，还包括：

10.根据权利要求7所述的装置，其特征在于，还包括：

11.一种模型构建终端，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至6中任一项所述方法。

12.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至6中任一项所述方法。