CN109978141B

CN109978141B - 神经网络模型训练方法和装置、自然语言处理方法和装置

Info

Publication number: CN109978141B
Application number: CN201910245096.0A
Authority: CN
Inventors: 刘乐茂; 李冠林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2022-11-25
Anticipated expiration: 2039-03-28
Also published as: CN109978141A

Abstract

本公开提供了一种用于自然语言处理的神经网络模型的训练方法、装置、自然语言处理方法、装置、电子设备和计算机可读存储介质。神经网络模型至少包括编码和解码单元，编码单元用于将输入符号序列编码映射为编码的符号序列，解码单元解码并生成输出符号序列，解码单元包括级联的多个解码子单元层，训练方法包括：基于第一损失函数，训练随机初始化的神经网络模型，获得第一神经网络模型；以及利用训练数据，基于第二损失函数训练第一神经网络模型，获得第二神经网络模型，其中，第二损失函数与级联的多个解码子单元层的层级相关。通过为各中间层引入额外的损失函数执行训练，提升各中间层的特征迁移能力，实现神经网络模型性能的整体提升。

Description

神经网络模型训练方法和装置、自然语言处理方法和装置

技术领域

本公开涉及自然语言处理领域，更具体地，本公开涉及一种用于自然语言处理的神经网络模型的训练方法、训练装置、自然语言处理方法、自然语言处理装置、电子设备和计算机可读存储介质。

背景技术

神经网络是一种大规模、多参数优化的工具。依靠大量的训练数据，神经网络能够学习出数据中难以总结的隐藏特征，从而完成多项复杂的任务，如自然语言处理、图像语义分割、物体检测、动作追踪等。神经网络已被人工智能界广泛应用。

目前，在利用神经网络模型执行的诸如机器翻译的自然语言处理任务中，通常采用堆叠式的神经网络模型结构。也就是说，从神经网络模型的输入端起，对源语言数据通过一系列级联的多层特征提取和变换，最终得到顶层的向量表示，并基于顶层的表示构建词表示空间上的多类分类器，用于目标语言在输出端的输出翻译预测。对于这种多层神经网络模型的训练，通常只通过专注于顶层表示来执行训练，而缺少对于多层神经网络模型的各中间层，根据实际应用场景有针对性地提供训练任务，从而通过提高各中间层的特征迁移能力来提升整体神经网络模型的性能。

发明内容

鉴于上述问题而提出了本公开。本公开提供了一种用于自然语言处理的神经网络模型的训练方法、训练装置、自然语言处理方法、自然语言处理装置、电子设备和计算机可读存储介质。

根据本公开的一个方面，提供了一种用于自然语言处理的神经网络模型的训练方法，所述神经网络模型至少包括编码单元和解码单元，所述编码单元用于将输入符号序列编码映射为编码的符号序列，所述解码单元基于所述编码的符号序列，解码并生成输出符号序列，所述解码单元包括级联的多个解码子单元层，所述训练方法包括：利用标注有输入和输出序列对的训练数据，基于第一损失函数，训练随机初始化的神经网络模型，获得第一神经网络模型；以及利用所述训练数据，基于第二损失函数训练所述第一神经网络模型，获得第二神经网络模型，其中，所述第二损失函数与所述级联的多个解码子单元层的层级相关。

此外，根据本公开一个方面的训练方法，其中，所述第二损失函数包括逐层正则损失函数和层间正则损失函数，其中，所述逐层正则损失函数用于使得训练后的所述多个解码子单元层中的每一层具有相应的特征表示能力，并且越接近所述解码单元输出端，所述解码子单元层具有越强的所述特征表示能力；所述层间正则损失函数用于使得训练后的所述多个解码子单元层的相应的特征表示能力具有一致性。

此外，根据本公开一个方面的训练方法，还包括：对所述训练数据中的目标语言数据执行层次聚类，获得目标语言的层次聚类树；基于所述层次聚类树构造与层次相关的预测任务；选择所述与层次相关的预测任务为所述多个解码子单元层构造所述第二损失函数。

此外，根据本公开一个方面的训练方法，其中，所述第一损失函数是最大似然估计损失函数，并且训练所述第一神经网络模型还包括：基于所述最大似然估计损失函数、所述逐层正则损失函数和所述层间正则损失函数，训练所述第一神经网络模型，获得第二神经网络模型。

根据本公开的另一个方面，提供了一种自然语言处理方法，包括：执行训练，获取用于自然语言处理的神经网络模型，所述神经网络模型至少包括编码单元和解码单元，所述解码单元包括级联的多个解码子单元层；接收输入符号序列，通过所述编码单元将其编码映射为编码的符号序列；基于所述编码的符号序列，通过所述解码单元解码生成输出符号序列，其中，所述执行训练，获取用于自然语言处理的神经网络模型包括：利用标注有输入和输出序列对的训练数据，基于第一损失函数，训练随机初始化的神经网络模型，获得第一神经网络模型；利用所述训练数据，基于第二损失函数，训练所述第一神经网络模型，获得第二神经网络模型，其中，所述第二损失函数与所述级联的多个解码子单元层的层级相关。

根据本公开的又一个方面，提供了一种用于自然语言处理的神经网络模型的训练装置，所述神经网络模型至少包括编码单元和解码单元，所述编码单元用于将输入符号序列编码映射为编码的符号序列，所述解码单元基于所述编码的符号序列，解码生成输出符号序列，所述解码单元包括级联的多个解码子单元层，所述训练装置包括：第一训练单元，用于利用标注有输入和输出序列对的训练数据，基于第一损失函数，训练随机初始化的神经网络模型，获得第一神经网络模型；第二训练单元，用于利用所述训练数据，基于第二损失函数，训练所述第一神经网络模型，获得第二神经网络模型，其中，所述第二损失函数与所述级联的多个解码子单元层的层级相关。

此外，根据本公开又一个方面的训练装置，其中，所述第二损失函数包括逐层正则损失函数和层间正则损失函数，其中，所述逐层正则损失函数用于使得训练后的所述多个解码子单元层中的每一层具有相应的特征表示能力，并且越接近所述解码单元输出端，所述解码子单元层具有越强的所述特征表示能力；所述层间正则损失函数用于使得训练后的所述多个解码子单元层的相应的特征表示能力具有一致性。

此外，根据本公开又一个方面的训练装置，还包括：损失函数构造单元，用于对所述训练数据中的目标语言数据执行层次聚类，获得目标语言的层次聚类树；基于所述层次聚类树构造与层次相关的预测任务；并且选择所述与层次相关的预测任务为所述多个解码子单元层构造所述第二损失函数。

此外，根据本公开又一个方面的训练装置，其中，所述第一损失函数是最大似然估计损失函数，所述第二训练单元基于所述最大似然估计损失函数、所述逐层正则损失函数和所述层间正则损失函数，训练所述第一神经网络模型，获得第二神经网络模型。

根据本公开的又一个方面，提供了一种自然语言处理装置，包括：训练模块，用于执行训练，获取用于自然语言处理的神经网络模块；所述神经网络模块至少包括：编码单元，用于接收输入符号序列，通过所述编码单元将其编码映射为编码的符号序列；以及解码单元，包括级联的多个解码子单元层，用于基于所述编码的符号序列，通过所述解码单元解码生成输出符号序列，其中，所述训练模块包括：第一训练单元，用于利用标注有输入和输出序列对的训练数据，基于第一损失函数，训练随机初始化的神经网络模型，获得第一神经网络模型；第二训练单元，用于利用所述训练数据，基于第二损失函数，训练所述第一神经网络模型，获得第二神经网络模型作为所述神经网络模块，其中，所述第二损失函数与所述级联的多个解码子单元层的层级相关。

根据本公开的再一个方面，提供了一种电子设备，包括：处理器；以及存储器，用于存储计算机程序指令；其中，当所述计算机程序指令由所述处理器加载并运行时，所述处理器执行如上所述的训练方法或自然语言处理方法。

根据本公开的再一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序指令，其中，所述计算机程序指令被处理器加载并运行时，所述处理器执行如上所述的训练方法或自然语言处理方法。

如以下将详细描述的，根据本公开实施例的用于自然语言处理的神经网络模型的训练方法、训练装置、自然语言处理方法、自然语言处理装置、电子设备和计算机可读存储介质，通过为神经网络模型的各中间层引入额外的损失函数执行训练，使得训练后各中间层具有渐进复杂的特征表示能力，并且各层之间的特征表示能力具有一致性，从而在加速训练收敛的同时，提升各中间层的特征迁移能力，实现神经网络模型性能的整体提升。

要理解的是，前面的一般描述和下面的详细描述两者都是示例性的，并且意图在于提供要求保护的技术的进一步说明。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是概述根据本公开实施例的神经网络模型的应用场景的示意图；

图2A到2C是图示根据本公开实施例的神经网络模型的示意图；

图3是进一步图示根据本公开实施例的神经网络模型中解码单元的示意图；

图4是图示根据本公开实施例的神经网络模型的训练方法的流程图；

图5是进一步图示根据本公开实施例的神经网络模型的训练方法中损失函数构造过程的流程图；

图6A和6B是进一步图示根据本公开实施例的训练方法中构造用于中间层的训练任务的示意图；

图7是图示根据本公开实施例的训练方法中间层之间特征表示能力一致性的示意图；

图8是进一步图示应用根据本公开实施例的训练方法的解码单元的示意图；

图9是图示根据本公开实施例的训练探测分类器执行分类器精度测试的流程图；

图10是图示根据本公开实施例的自然语言处理方法的流程图；

图11是图示根据本公开实施例的神经网络模型的训练装置的功能框图；

图12是图示根据本公开实施例的自然语言处理装置的功能框图；

图13是图示根据本公开实施例的电子设备的硬件框图；以及

图14是图示根据本公开的实施例的计算机可读存储介质的示意图。

具体实施方式

为了使得本公开的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

首先，参照图1概述根据本公开实施例的神经网络模型的应用场景的示意图。

如图1所示，根据本公开实施例的训练方法可以应用于自然语言处理系统10。自然语言处理系统10配置有服务器100。服务器100经由通信网络103与用户101a-101c各自的用户设备102a-102c执行数据通信。

在本公开的一个实施例中，服务器100可以配置有神经网络模型，用于执行的诸如机器翻译的自然语言处理任务。用户101a-101c经由各自的用户设备102a-102c输入源语言数据，通过通信网络103将输入的源语言数据传输到服务器100。服务器100利用神经网络模型对输入源语言数据执行诸如机器翻译的自然语言处理，将作为自然语言处理结果的目标语言数据通过通信网络103返回给用户101a-101c各自的用户设备102a-102c，并且在用户设备102a-102c的用户界面上给用户提供源语言数据和目标语言数据的可视化呈现。

可替代地，在本公开的另一个实施例中，用户101a-101c各自的用户设备102a-102c本身可以配置有神经网络模型，用于执行的诸如机器翻译的自然语言处理任务。用户101a-101c经由用户设备102a-102c的用户界面输入目标语言数据，用户设备102a-102c利用神经网络模型对输入源语言数据执行诸如机器翻译的自然语言处理，再将作为自然语言处理结果的目标语言数据经由用户设备102a-102c的用户界面进行可视化呈现。

需要理解的是，服务器100包括但不限于配置有大数据处理能力和大容量数据存储能力的服务器装置，诸如搜索引擎服务器、内容提供服务器等。用户设备102a-102c包括但不限于笔记本计算机、台式计算机、智能电话、平板电脑等具有数据处理能力的移动终端或者固定终端。通信网络103包括但不限于遵循诸如传输控制协议和互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)和/或文件传输协议(FTP)配置的互联网、IPTV网络、无线保真(Wi-Fi)网络、无线局域网(WLAN)、局域网(LAN)和/或城域网(MAN)等。

如参照图1所示，在服务器100和/或用户设备102a-102c中配置有用于执行的诸如机器翻译的自然语言处理任务的神经网络模型。图2A到2C是图示根据本公开实施例的神经网络模型的示意图。

如图2A所示，根据本公开实施例的神经网络模型20可以至少包括编码单元201和解码单元202。所述编码单元201用于将输入符号序列(例如，“知识就是力量</s>”)编码映射为编码的符号序列，所述解码单元202基于所述编码的符号序列，解码并生成输出符号序列(例如，“Knowledge is power</s>”)。也就是说，根据本公开实施例的神经网络模型20采用源语言序列到目标语言序列的模型，通过编码单元201对源语言数据进行编码(即，特征映射)，并且针对目标语言进行逐词的翻译。

进一步地，如图2B所示，根据本公开实施例的神经网络模型20可以是基于注意力机制的序列到序列神经网络模型。也就是说，除了编码单元201和解码单元202外，神经网络模型20还包括注意力单元203。所述编码单元201对输入符号序列(例如，“知识就是力量<\s>”)执行编码映射，得到5个源位置的隐含表示。此后，所述解码单元202借助于注意力单元203，开始依次预测4个时间步(即，t＝0、t＝1、t＝2和t＝3)处的输出分别为“Knowledge”、“is”、“power”直到t＝3处的句子终结符“<\s>”为止。

更进一步地，如图2C所示，编码单元201包括多头注意力模块212和前馈模块213；解码单元202包括掩码多头注意力模块223、多头注意力模块224和前馈模块225。图2C示出了基于输入210预测t时刻输出228的过程。

在编码单元201端，作为源语言数据的输入210转换为表示空间内的输入词嵌入表示211，再通过多头注意力模块212和前馈模块213进行编码映射。

在解码单元202端，之前0到t-1时刻的输出221转换为表示空间内的输出词嵌入表示222后，自注意力模块223、与源端注意力模块224和前馈模块225执行解码预测，此后通过归一化模块226获得归一化的输出预测概率227，最终根据该输出预测概率转换为t时刻的输出228。

需要注意的是，如图2A到2C所示，编码单元201和解码单元202都是包括N个层叠的子单元，图2A到2C仅示出其中一个子单元的示例性结构。

图3是进一步图示根据本公开实施例的神经网络模型中解码单元的示意图。如图3所示，解码单元202示例性地包括6个级联的解码子单元层，即第一层301到第六层306，其中每个解码子单元层都具有自注意力模块、与源端注意力模块和前馈模块的结构。如下将详细描述的，在根据本公开实施例的用于自然语言处理的神经网络模型的训练方法中，不光以解码单元202中级联的解码子单元层的最顶层(即，图3中的第六层306)的预测能力进行训练，还针对各中间层(即，图3中的第一层301到第五层305)配置相应的训练任务，以便改进各中间层的特征表示和迁移能力。

以下，将参照图4到图8描述根据本公开实施例的神经网络模型的训练方法。图4是图示根据本公开实施例的神经网络模型的训练方法的流程图。

如前所述，根据本公开实施例的神经网络模型至少包括编码单元和解码单元，所述编码单元用于将输入符号序列编码映射为编码的符号序列，所述解码单元基于所述编码的符号序列，解码并生成输出符号序列，所述解码单元包括级联的多个解码子单元层。如图4所示，根据本公开实施例的神经网络模型的训练方法具体包括以下步骤。

在步骤S401中，利用标注有输入和输出序列对的训练数据，基于第一损失函数，训练随机初始化的神经网络模型，获得第一神经网络模型。

在本公开的一个实施例中，所述第一损失函数是最大似然估计损失函数。如此基于最大似然估计损失函数是针对神经网络模型的编码单元的最顶层预测结果进行训练的损失函数。更具体地，所述第一损失函数例如可以表示为：

l_mle＝-∑_tlogP(y_t|y_＜t,x) 表达式(1)

其中，x表示输入序列，y表示由神经网络模型的解码单元预测的输出序列，y_t表示解码单元t时刻的预测词。也就是说，在步骤S401中训练获得的第一神经网络模型是针对顶层表示来执行训练所获得的。

在步骤S402中，利用所述训练数据，基于第二损失函数训练所述第一神经网络模型，获得第二神经网络模型。

在本公开的一个实施例中，所述第二损失函数与神经网络模型的解码单元级联的多个解码子单元层的层级相关。更具体地，所述第二损失函数包括逐层正则损失函数和层间正则损失函数，其中，所述逐层正则损失函数用于使得训练后的所述多个解码子单元层中的每一层具有相应的特征表示能力，并且越接近所述解码单元输出端，所述解码子单元层具有越强的所述特征表示能力；所述层间正则损失函数用于使得训练后的所述多个解码子单元层的相应的特征表示能力具有一致性。

在本公开的一个实施例中，训练所述第一神经网络模型可以是基于所述最大似然估计损失函数、所述逐层正则损失函数和所述层间正则损失函数，训练所述第一神经网络模型，获得第二神经网络模型。

为了获得与神经网络模型的解码单元级联的多个解码子单元层的层级相关的第二损失函数，根据本公开实施例的神经网络模型的训练方法从目标语言的布朗层次聚类树得到用于多个解码子单元层(即，中间层)的训练任务和相应的第二损失函数。以下，将进一步描述如何构造所述第二损失函数。

图5是进一步图示根据本公开实施例的神经网络模型的训练方法中损失函数构造过程的流程图。图6A和6B是进一步图示根据本公开实施例的训练方法中构造用于中间层的训练任务的示意图。

在步骤S501中，对所述训练数据中的目标语言数据执行层次聚类，获得目标语言的层次聚类树。

参照图6A，示出了目标语言数据执行层次聚类获得目标语言的层次聚类树的一个示例。在该示例中，假设目标语言的词表为{cat,dog,jump,run,is}五个词，那么对于该目标语言语料其布朗聚类树为图6A所示，该布朗聚类树即为该目标语言的层次聚类树。布朗聚类树的每一叶子节点均为词表中某些词的聚类；而该布朗聚类树的不同树高，决定了不同的词的聚类粒度。树高越高，词聚类的粒度越精细，聚类簇的个数越多。由于并非所有叶子节点均具有相同的树高，可以通过向左延伸子树的方法，将低于最大树高的叶子节点移动到最大树高的位置。

返回参照图5。在步骤S502中，基于层次聚类树构造与层次相关的预测任务。

具体地，可以将预测某词的聚类簇的预测问题作为一个预测任务，那么不同树高就表示不同粒度的任务，即与层次相关的预测任务。图6B示出了基于图6A中的布朗聚类树构造的3个与层次相关的预测任务。将最细粒度的任务，即“以单个词作为聚类簇的预测任务”放置于最高的布朗聚类树；该最细粒度任务与神经网络模型的目标任务等价。将树高k构造的预测任务记为Y^k，对于给定的目标词y_t，其所对应的属于任务Y^k的聚类簇为Y^k(y_t)。

返回参照图5。在步骤S503中，选择所述与层次相关的预测任务为所述多个解码子单元层构造所述第二损失函数。

如前所述，多个解码子单元层具有相似的特征变换结构，其中较低层倾向于提取粗粒度的特征表示，而较高层倾向于提取细粒度的特征表示。参照图6A和图6B描述的基于布朗聚类树构造的与层次相关的预测任务同样地具有不同的粒度。因此，选择与层次相关的预测任务为训练多个解码子单元层构造第二损失函数。

具体地，用较粗粒度的层次相关的预测任务去训练多个解码子单元层中较低的层，用较细粒度的层次相关的预测任务去训练多个解码子单元层中较高的层。则如图8所示，构造逐层正则损失函数802，其可以表示为：

其中，x表示输入序列，y表示由神经网络模型的解码单元预测的输出序列，y_t表示解码单元t时刻的预测词，l是多个解码子单元层的层号，Y表示预测词y_t在层次相关的预测任务中的标签，θ是预测层次相关的预测任务的分类器(即，后面将描述的探测分类器)参数。如图8所示，构造的逐层正则损失函数802包括

到

分别用于中间层(第二层302到第五层305)的训练。

更进一步，仅利用逐层正则损失函数802训练可能导致不同中间层间的预测结果与层次聚类树不一致的情况，即不满足蕴含关系：

其中，l₁＜l₂。

因此，进一步引入层间正则损失函数用于使得训练后的所述多个解码子单元层的相应的特征表示能力具有一致性。如图8所示的层间正则损失函数803可以表示为：

层间正则损失函数803额外引入了KL距离正则项。

图7是图示根据本公开实施例的训练方法中间层之间特征表示能力一致性的示意图。如图7所示，通过PROJ(投影)操作将l+1层的聚类簇上的分布列投影到l层的较粗粒度的任务上，两层之间的KL损失项KL(·||·)。

如此，通过基于布朗聚类树，选择所述与层次相关的预测任务为所述多个解码子单元层构造所述第二损失函数表示为：

如图8所示，基于所述最大似然估计损失函数801、所述逐层正则损失函数802和所述层间正则损失函数803执行训练。通过为神经网络模型的各中间层引入额外的损失函数(即，所述逐层正则损失函数802和所述层间正则损失函数803)执行训练，使得训练后各中间层具有渐进复杂的特征表示能力，并且各层之间的特征表示能力具有一致性，从而在加速训练收敛的同时，提升各中间层的特征迁移能力，实现神经网络模型性能的整体提升。

以上，描述了利用训练数据中的目标语言数据执行层次聚类，获得目标语言的层次聚类树，再基于层次聚类树构造与层次相关的预测任务，选择与层次相关的预测任务为多个解码子单元层构造额外的损失函数来执行训练。在本公开的另一个实施例中，可以基于与层次相关的预测任务额外训练探测分类器，在利用探测分类器在测试数据上的表现来判断神经网络模型的各中间层是否具有粗粒度到细粒度和一致性的特征表示能力。

图9是图示根据本公开实施例的训练探测分类器执行分类器精度测试的流程图。

在步骤S901中，利用标注有输入和输出序列对的训练数据，基于损失函数，训练随机初始化的神经网络模型，获得神经网络模型。在该步骤中，损失函数可以是如上所述的第一损失函数，也可以是如上所述的第一损失函数和第二损失函数两者。

在步骤S902中，对训练数据中的目标语言数据执行层次聚类，获得目标语言的层次聚类树。步骤S902执行与步骤S501相同的层次聚类树获取处理。

在步骤S903中，基于层次聚类树构造与层次相关的预测任务。步骤S903执行与步骤S502相同的预测任务构造处理。

在步骤S904中，利用与层次相关的预测任务，训练探测分类器模型。在该训练步骤中，在步骤S901中训练好的神经网络模型的参数固定不变。

在步骤S905中，利用训练好的探测分类器模型对测试数据执行分类器精度测试。如果在步骤S901就利用考虑中间层的损失函数执行神经网络模型的训练，则在步骤S905中测试将显示该神经网络模型具有良好的粗粒度到细粒度和一致性的中间层特征表示能力。相反，如果在步骤S901仅基于最高层的最大似然估计损失函数执行神经网络模型的训练，则在步骤S905中测试将显示该神经网络模型不具有粗粒度到细粒度和一致性的中间层特征表示能力。

以上，描述了根据本公开实施例的神经网络模型的训练方法。以下，将描述根据本公开实施例的自然语言处理方法。

图10是图示根据本公开实施例的自然语言处理方法的流程图。

在步骤S1001中，执行训练，获取用于自然语言处理的神经网络模型。在本公开的实施例中，所述神经网络模型至少包括编码单元和解码单元，所述解码单元包括级联的多个解码子单元层。可以采用参照图4和图5描述的训练方法，执行步骤S1001。

在步骤S1002中，接收输入符号序列，通过所述编码单元将其编码映射为编码的符号序列。在本公开的实施例中，步骤S1002的处理可以是参照图2A-2C描述的编码单元201所执行的处理。

在步骤S1003中，基于所述编码的符号序列，通过所述解码单元解码生成输出符号序列。在本公开的实施例中，步骤S1003的处理可以是参照图2A-2C描述的解码单元202所执行的处理。

图11是图示根据本公开实施例的神经网络模型的训练装置的功能框图。根据本公开实施例的训练装置1100包括第一训练单元1101、第二训练单元1102、以及损失函数构造单元1103。上述各模块可以分别执行如上参照图4到图8描述的根据本公开的实施例的神经网络模型的训练方法的各个步骤。本领域的技术人员理解：这些单元模块可以单独由硬件、单独由软件或者由其组合以各种方式实现，并且本公开不限于它们的任何一个。

第一训练单元1101用于利用标注有输入和输出序列对的训练数据，基于第一损失函数，训练随机初始化的神经网络模型，获得第一神经网络模型。

第二训练单元1102用于利用所述训练数据，基于第二损失函数，训练所述第一神经网络模型，获得第二神经网络模型，其中，所述第二损失函数与所述级联的多个解码子单元层的层级相关。

损失函数构造单元1103用于对所述训练数据中的目标语言数据执行层次聚类，获得目标语言的层次聚类树；基于所述层次聚类树构造与层次相关的预测任务；并且选择所述与层次相关的预测任务为所述多个解码子单元层构造所述第二损失函数。所述第二损失函数包括上述逐层正则损失函数和层间正则损失函数，其中，所述逐层正则损失函数用于使得训练后的所述多个解码子单元层中的每一层具有相应的特征表示能力，并且越接近所述解码单元输出端，所述解码子单元层具有越强的所述特征表示能力。所述层间正则损失函数用于使得训练后的所述多个解码子单元层的相应的特征表示能力具有一致性。损失函数构造单元1103构造的损失函数具体可以是以上表达式(1)-(5)，在此将省略其重复描述。

根据本公开实施例的神经网络模型的训练装置1100通过为神经网络模型的各中间层引入额外的损失函数执行训练，使得训练后各中间层具有渐进复杂的特征表示能力，并且各层之间的特征表示能力具有一致性，从而在加速训练收敛的同时，提升各中间层的特征迁移能力，实现神经网络模型性能的整体提升。

图12是图示根据本公开实施例的自然语言处理装置的功能框图。根据本公开实施例的自然语言处理装置1200包括训练模块1210以及神经网络模块1220。上述各模块可以分别执行如上参照图10描述的根据本公开的实施例的自然语言处理方法的各个步骤。本领域的技术人员理解：这些单元模块可以单独由硬件、单独由软件或者由其组合以各种方式实现，并且本公开不限于它们的任何一个。

训练模块1210用于执行训练，获取用于自然语言处理的神经网络模块1220。

训练模块1210进一步包括第一训练单元1211、第二训练单元1212、以及损失函数构造单元1213，其分别与图11中的第一训练单元1101、第二训练单元1102、以及损失函数构造单元1103相同。

神经网络模块1220至少包括编码单元1221和解码单元1222。编码单元1221用于接收输入符号序列，通过所述编码单元将其编码映射为编码的符号序列。解码单元1222包括级联的多个解码子单元层，用于基于所述编码的符号序列，通过所述解码单元解码生成输出符号序列。

通过执行根据本公开实施例的神经网络模型的训练方法的训练模块1210训练后的训练模块1210，其各中间层具有渐进复杂的特征表示能力，并且各层之间的特征表示能力具有一致性，从而在加速训练收敛的同时，提升各中间层的特征迁移能力，实现神经网络模块1220性能的整体提升。

图13是图示根据本公开实施例的电子设备1300的硬件框图。根据本公开实施例的电子设备至少包括处理器；以及存储器，用于存储计算机程序指令。当计算机程序指令由处理器加载并运行时，所述处理器执行如上所述的神经网络模型的训练方法和自然语言处理方法。

图13所示的电子设备1300具体地包括：中央处理单元(CPU)1301、图形处理单元(GPU)1302和主存储器1303。这些单元通过总线1304互相连接。中央处理单元(CPU)1301和/或图形处理单元(GPU)1302可以用作上述处理器，主存储器1303可以用作上述存储计算机程序指令的存储器。此外，电子设备1300还可以包括通信单元1305、存储单元1306、输出单元1307、输入单元1308和外部设备1309，这些单元也连接到总线1304。

图14是图示根据本公开的实施例的计算机可读存储介质的示意图。如图14所示，根据本公开实施例的计算机可读存储介质1400其上存储有计算机程序指令1401。当所述计算机程序指令1401由处理器运行时，执行参照以上附图描述的根据本公开实施例的神经网络模型的训练方法和自然语言处理方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存、光盘、磁盘等。

以上，参照附图描述了根据本公开实施例的用于图像语义分割的神经网络模型的训练方法、训练装置、电子设备和计算机可读存储介质，通过为神经网络模型的各中间层引入额外的损失函数执行训练，使得训练后各中间层具有渐进复杂的特征表示能力，并且各层之间的特征表示能力具有一致性，从而在加速训练收敛的同时，提升各中间层的特征迁移能力，实现神经网络模型性能的整体提升。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

另外，如在此使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“A、B或C的至少一个”的列举意味着A或B或C，或AB或AC或BC，或ABC(即A和B和C)。此外，措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

还需要指出的是，在本公开的系统和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外，本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种用于自然语言处理的神经网络模型的训练方法，所述神经网络模型至少包括编码单元和解码单元，所述编码单元用于将输入符号序列编码映射为编码的符号序列，所述解码单元基于所述编码的符号序列，解码并生成输出符号序列，所述解码单元包括级联的多个解码子单元层，所述训练方法包括：

利用标注有输入和输出序列对的训练数据，基于第一损失函数，训练随机初始化的神经网络模型，获得第一神经网络模型；

对所述训练数据中的目标语言数据执行层次聚类，获得目标语言的层次聚类树；

基于所述层次聚类树构造与层级相关的预测任务；

选择所述与层级相关的预测任务为所述多个解码子单元层构造第二损失函数；以及

利用所述训练数据，基于第二损失函数训练所述第一神经网络模型，获得第二神经网络模型，

其中，所述第二损失函数与所述级联的多个解码子单元层的层级相关，所述第二损失函数包括逐层正则损失函数和层间正则损失函数。

2.如权利要求1所述的训练方法，其中，所述逐层正则损失函数用于使得训练后的所述多个解码子单元层中的每一层具有相应的特征表示能力，并且越接近所述解码单元输出端，所述解码子单元层具有越强的所述特征表示能力；

所述层间正则损失函数用于使得训练后的所述多个解码子单元层的相应的特征表示能力具有一致性。

3.如权利要求2所述的训练方法，其中，所述第一损失函数是最大似然估计损失函数，并且训练所述第一神经网络模型还包括：

基于所述最大似然估计损失函数、所述逐层正则损失函数和所述层间正则损失函数，训练所述第一神经网络模型，获得第二神经网络模型。

4.一种自然语言处理方法，包括：

执行训练，获取用于自然语言处理的神经网络模型，所述神经网络模型至少包括编码单元和解码单元，所述解码单元包括级联的多个解码子单元层；

接收输入符号序列，通过所述编码单元将其编码映射为编码的符号序列；

基于所述编码的符号序列，通过所述解码单元解码生成输出符号序列，

其中，所述执行训练，获取用于自然语言处理的神经网络模型包括：

基于所述层次聚类树构造与层级相关的预测任务；

选择所述与层级相关的预测任务为所述多个解码子单元层构造第二损失函数；

利用所述训练数据，基于第二损失函数，训练所述第一神经网络模型，获得第二神经网络模型，

5.一种用于自然语言处理的神经网络模型的训练装置，所述神经网络模型至少包括编码单元和解码单元，所述编码单元用于将输入符号序列编码映射为编码的符号序列，所述解码单元基于所述编码的符号序列，解码生成输出符号序列，所述解码单元包括级联的多个解码子单元层，所述训练装置包括：

第一训练单元，用于利用标注有输入和输出序列对的训练数据，基于第一损失函数，训练随机初始化的神经网络模型，获得第一神经网络模型；

第二训练单元，用于利用所述训练数据，基于第二损失函数，训练所述第一神经网络模型，获得第二神经网络模型，

损失函数构造单元，用于对所述训练数据中的目标语言数据执行层次聚类，获得目标语言的层次聚类树；基于所述层次聚类树构造与层级相关的预测任务；并且选择所述与层级相关的预测任务为所述多个解码子单元层构造所述第二损失函数，

6.如权利要求5所述的训练装置，其中，所述逐层正则损失函数用于使得训练后的所述多个解码子单元层中的每一层具有相应的特征表示能力，并且越接近所述解码单元输出端，所述解码子单元层具有越强的所述特征表示能力；

7.如权利要求6所述的训练装置，其中，所述第一损失函数是最大似然估计损失函数，所述第二训练单元基于所述最大似然估计损失函数、所述逐层正则损失函数和所述层间正则损失函数，训练所述第一神经网络模型，获得第二神经网络模型。

8.一种自然语言处理装置，包括：

训练模块，用于执行训练，获取用于自然语言处理的神经网络模块；

所述神经网络模块至少包括：

编码单元，用于接收输入符号序列，通过所述编码单元将其编码映射为编码的符号序列；以及

解码单元，包括级联的多个解码子单元层，用于基于所述编码的符号序列，通过所述解码单元解码生成输出符号序列，

其中，所述训练模块包括：

第二训练单元，用于利用所述训练数据，基于第二损失函数，训练所述第一神经网络模型，获得第二神经网络模型作为所述神经网络模块，

9.一种电子设备，包括：

处理器；以及

存储器，用于存储计算机程序指令；

其中，当所述计算机程序指令由所述处理器加载并运行时，所述处理器执行如权利要求1到3的任一项所述的训练方法或如权利要求4所述的自然语言处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序指令，其中，所述计算机程序指令被处理器加载并运行时，所述处理器执行如权利要求1到3的任一项所述的训练方法或如权利要求4所述的自然语言处理方法。