CN111339302A

CN111339302A - 训练要素分类模型的方法和装置

Info

Publication number: CN111339302A
Application number: CN202010149598.6A
Authority: CN
Inventors: 张�杰
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-06-26

Abstract

本说明书实施例提供一种训练要素分类模型的方法和装置，要素分类模型用于针对句子进行要素识别，方法包括：获取样本集合中的样本句子及对应的要素分类标签；利用已训练的教师语言模型，预测样本句子在各要素分类上的第一概率分布，教师语言模型的层数为N；利用待训练的要素分类模型，预测样本句子在各要素分类上的第二概率分布，要素分类模型的层数为M，M<N；根据第二概率分布和第一概率分布，得到第一预测损失；根据第二概率分布和要素分类标签，得到第二预测损失；将第一预测损失与第二预测损失进行组合，得到总损失；以总损失最小为训练目标，对要素分类模型进行训练。能够提高要素识别的准确率。

Description

训练要素分类模型的方法和装置

技术领域

本说明书一个或多个实施例涉及计算机领域，尤其涉及训练要素分类模型的方法和装置。

背景技术

人工智能(artificial intelligence，AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。深度学习(deep learning)是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。当前，在机器人客服代替人工客服解答用户问题的过程中，常常要针对用户问句进行要素识别，要素识别即对用户文本提取出业务和诉求等相关词作为对话中的要素，用于对用户表达内容的粗粒度理解。

发明内容

本说明书一个或多个实施例描述了一种训练要素分类模型的方法和装置，能够在要素分类模型结构简单的情况下，提高要素识别的准确率。

第一方面，提供了一种训练要素分类模型的方法，所述要素分类模型用于针对句子进行要素识别，方法包括：

获取样本集合中的样本句子以及所述样本句子对应的要素分类标签；

利用已训练的教师语言模型，预测所述样本句子在各个要素分类上的第一概率分布，其中所述教师语言模型的层数为N；利用待训练的要素分类模型，预测所述样本句子在各个要素分类上的第二概率分布，其中，所述要素分类模型的层数为M，M<N；

根据所述第二概率分布和所述第一概率分布，得到第一预测损失；

根据所述第二概率分布和所述样本句子对应的要素分类标签，得到第二预测损失；

将所述第一预测损失与所述第二预测损失进行组合，得到总损失；

以所述总损失最小为训练目标，对所述要素分类模型进行训练，得到训练后的要素分类模型。

在一种可能的实施方式中，所述要素分类模型用于针对第一领域的句子进行要素识别；所述教师语言模型通过以下方式预先训练：

将从第二领域中获取的句子以及该句子对应的要素分类标签作为一组训练样本，对所述教师语言模型进行训练，得到所述已训练的教师语言模型。

在一种可能的实施方式中，所述根据所述第二概率分布和所述第一概率分布，得到第一预测损失，包括：

将所述第二概率分布除以预定参数后，经过归一化处理，得到所述样本句子的第一输出分布；

根据所述样本句子的第一输出分布和所述第一概率分布，得到第一预测损失；所述第一概率分布为除以所述预定参数，并经过归一化处理后得到的。

在一种可能的实施方式中，所述根据所述第二概率分布和所述样本句子对应的要素分类标签，得到第二预测损失，包括：

将所述第二概率分布经过归一化处理，得到所述样本句子的第二输出分布；

根据所述样本句子的第二输出分布和所述样本句子的要素分类标签，得到第二预测损失。

在一种可能的实施方式中，所述将所述第一预测损失与所述第二预测损失进行组合，得到总损失，包括：

将所述第一预测损失乘以第一权重，将所述第二预测损失乘以第二权重，对二者求和，得到所述总损失。

进一步地，所述总损失为第一总损失或第二总损失，当所述第一权重大于所述第二权重时，得到所述第一总损失，当所述第一权重小于所述第二权重时，得到所述第二总损失；所述以所述总损失最小为训练目标，对所述要素分类模型进行训练，包括：

在训练的第一阶段，以所述第一总损失最小为训练目标，对所述要素分类模型进行训练；

在训练的第二阶段，以所述第二总损失最小为训练目标，对所述要素分类模型进行训练。

在一种可能的实施方式中，所述样本句子为用户与机器人客服对话中的用户问句。

进一步地，所述用户与机器人客服对话属于交互式语音应答(interactive voiceresponse，IVR)。

在一种可能的实施方式中，所述方法还包括：

将目标用户问句输入训练后的要素分类模型，通过所述要素分类模型输出目标要素；

根据所述目标要素，输出反问问句；

获取用户针对所述反问问句的补充信息；

根据所述补充信息，确定所述目标用户问句对应的标准问句。

第二方面，提供了一种训练要素分类模型的装置，所述要素分类模型用于针对句子进行要素识别，装置包括：

获取单元，用于获取样本集合中的样本句子以及所述样本句子对应的要素分类标签；

预测单元，用于利用已训练的教师语言模型，预测所述获取单元获取的样本句子在各个要素分类上的第一概率分布，其中所述教师语言模型的层数为N；利用待训练的要素分类模型，预测所述样本句子在各个要素分类上的第二概率分布，其中，所述要素分类模型的层数为M，M<N；

第一损失确定单元，用于根据所述预测单元预测的所述第二概率分布和所述第一概率分布，得到第一预测损失；

第二损失确定单元，用于根据所述预测单元预测的所述第二概率分布和所述获取单元获取的所述样本句子对应的要素分类标签，得到第二预测损失；

总损失确定单元，用于将所述第一损失确定单元得到的第一预测损失与所述第二损失确定单元得到的第二预测损失进行组合，得到总损失；

训练单元，用于以所述总损失确定单元得到的总损失最小为训练目标，对所述要素分类模型进行训练，得到训练后的要素分类模型。

第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

通过本说明书实施例提供的方法和装置，与通常的训练要素分类模型的方式不同，在对要素分类模型进行训练时，利用了已训练的教师语言模型的预测结果，其中，教师语言模型相对于要素分类模型来说，结构复杂，通过引入教师语言模型的预测结果，诱导要素分类模型的训练，实现知识迁移，从而使得要素分类模型能够在满足时效性要求的基础上，提高要素识别的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2示出根据一个实施例的训练要素分类模型的方法流程图；

图3示出根据一个实施例的训练要素分类模型的装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及训练要素分类模型。可以理解的是，要素分类模型用于从句子中识别出该句子的要素。通常地，可以先利用标注数据对要素分类模型进行训练，再利用训练后的要素分类模型针对句子进行要素识别。由于要素分类为实时任务，对时效性要求高，因此要素分类模型通常为结构简单的小模型，从而利用训练后的要素分类模型进行要素识别的准确率低。

本说明书实施例，针对要素分类模型进行要素识别的准确率低的问题，提出了解决方案，将知识蒸馏的思想引入对要素分类模型的训练过程中，从而使用训练后的要素分类模型兼具高准确率和快速推断能力。

知识蒸馏，也称为蒸馏学习，可用于模型压缩，在教师网络-学生网络(teacher-student)框架中，将复杂、学习能力强的网络学到的特征表示“知识”蒸馏出来，传递给参数量小、学习能力弱的网络。蒸馏可以提供学生网络在独热(one-shot)标签上学不到的软标签(soft label)信息，这些软标签信息里面包含了类别间信息，以及学生网络学不到而教师网络可以学到的特征表示“知识”，所以可以提高学生网络的精度。知识蒸馏，通过引入与教师网络相关的软目标(soft target)作为总损失函数(total loss)的一部分，以诱导学生网络的训练，实现知识迁移。其中，教师网络复杂、但推理性能优越；学生网络精简、低复杂度。本说明书实施例中，涉及两个模型教师语言模型和要素分类模型，其中，教师语言模型对应于上述教师网络，要素分类模型对应于上述学生网络。

如图1所示，左边部分示出利用已训练好的大模型进行蒸馏学习，对小模型的训练过程，右边部分示出小模型在要素识别过程中的预测(inference)流程。整个模型训练分为两部分，第一部分为大模型的训练过程，通过使用结构复杂、参数多的大模型预训练，学习训练数据的深层特征；第二部分为大模型到小模型的蒸馏过程，小模型不仅会学习大模型的泛化能力，并且通过结合训练数据的浅层特征和大模型输出的深层特征，有助于提升小模型的泛化能力。通过蒸馏学习，不仅能获得大模型的泛化能力，也能获得小模型在上线使用中快速响应性能。

教师网络(即大模型)的预测输出除以预设参数T(divided by T)之后、再做归一化处理(例如softmax变换)，可以获得软化的概率分布(即软目标)，例如，si[0.1,0.6,…，0.1]，预设参数T数值介于0～1之间，取值分布较为缓和。预设参数T数值越大，分布越缓和；而预设参数T数值过小，可能会放大错误分类的概率，引入不必要的噪声。硬目标(hardtarget)则是样本的真实标注，可以用one-hot矢量表示,例如yi[0,1,…，0]。总损失函数(total loss)设计为软目标与硬目标所对应的交叉熵的加权平均，其中软目标交叉熵的加权系数λ越大，表明迁移诱导越依赖教师网络的贡献，这对训练初期阶段是很有必要的，有助于让学生网络更轻松的鉴别简单样本，但训练后期需要适当减小软目标的比重，让真实标注帮助鉴别困难样本。另外，教师网络的推理性能通常要优于学生网络，而模型容量则无具体限制，且教师网络推理精度越高，越有利于学生网络的学习。

本说明书实施例，通过知识迁移，从而通过训练好的大模型得到更加适合推理的小模型。使用训练好的小模型就可以对用户问句进行要素识别了，也就是说预测(prediction)用户问句的要素类别。可以理解的是，模型的输入可以为用户问句的向量(vector)。

图2示出根据一个实施例的训练要素分类模型的方法流程图，所述要素分类模型用于针对句子进行要素识别，该方法可以基于图1所示的实施场景。如图2所示，该实施例中训练要素分类模型的方法包括以下步骤：

首先在步骤21，获取样本集合中的样本句子以及所述样本句子对应的要素分类标签。可以理解的是，其中，样本句子可以为用户与机器人客服对话中的用户问句，要素分类标签可以为业务或诉求等相关词，一个样本句子可以对应一个或多个要素分类标签。

在一个示例中，用户与机器人客服对话属于交互式语音应答(interactive voiceresponse，IVR)。交互式语音应答，是一种功能强大的电话自动服务系统。它用预先录制或文本转语音(text to speech，TTS)技术合成的语音进行自动应答的系统，提供一种为客户进行菜单导航的功能，主要应用呼叫中心系统中。

接着在步骤22，利用已训练的教师语言模型，预测所述样本句子在各个要素分类上的第一概率分布，其中所述教师语言模型的层数为N；利用待训练的要素分类模型，预测所述样本句子在各个要素分类上的第二概率分布，其中，所述要素分类模型的层数为M，M<N。可以理解的是，该教师语言模型可以理解为图1所示应用场景中的大模型，该第一概率分布可以对应于图1所示应用场景中的软目标。该要素分类模型可以理解为图1所示应用场景中的小模型，该第二概率分布可以理解为待训练的要素分类模型的预测结果，由于要素分类模型还未经过训练，因此第二概率分布相对于第一概率分布来讲不够准确。

在一个示例中，教师语言模型使用完整的基于转换器的双向编码器表征(bidirectional encoder representations from transformers，BERT)模型。

BERT模型通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示，所谓自监督学习是指在没有人工标注的数据上运行的监督学习。在特定的自然语言处理任务中，可以直接使用BERT模型的特征表示作为该任务的词嵌入特征。BERT模型提供的是一个供其它任务迁移学习的模型，该模型可以根据任务微调或者固定之后作为特征提取器。

在一个示例中，所述要素分类模型用于针对第一领域的句子进行要素识别；所述教师语言模型通过以下方式预先训练：

基于该示例，在预先训练教师语言模型时，可以采用与要素分类模型应用领域不同的领域的语料进行训练，因此可以运用在标注数据较少的场景。

在一个示例中，所述待训练的要素分类模型为经过预训练的上下文全向预测模型，例如BERT模型，所述要素分类模型的预训练任务包括完形填空与上下句判断两个任务。举例来说，所述要素分类模型的层数为2，例如2层的BERT模型，其对于计算资源的消耗，约是完整的BERT模型的六分之一。

然后在步骤23，根据所述第二概率分布和所述第一概率分布，得到第一预测损失。可以理解的是，第一预测损失可以基于第一损失函数确定，上述第一损失函数可以但不限于采用交叉熵损失函数(cross entropy loss)。

在一个示例中，所述根据所述第二概率分布和所述第一概率分布，得到第一预测损失，包括：

再在步骤24，根据所述第二概率分布和所述样本句子对应的要素分类标签，得到第二预测损失。可以理解的是，第二预测损失可以基于第二损失函数确定，上述第二损失函数可以但不限于采用交叉熵损失函数。

在一个示例中，所述根据所述第二概率分布和所述样本句子对应的要素分类标签，得到第二预测损失，包括：

再在步骤25，将所述第一预测损失与所述第二预测损失进行组合，得到总损失。可以理解的是，总损失可以基于总损失函数确定，组合的方式可以但不限于采用加权求和的方式。

在一个示例中，所述将所述第一预测损失与所述第二预测损失进行组合，得到总损失，包括：

最后在步骤26，以所述总损失最小为训练目标，对所述要素分类模型进行训练，得到训练后的要素分类模型。可以理解的是，训练要素分类模型的过程即为调整模型参数的过程。

在一个示例中，所述总损失为第一总损失或第二总损失，当所述第一权重大于所述第二权重时，得到所述第一总损失，当所述第一权重小于所述第二权重时，得到所述第二总损失；所述以所述总损失最小为训练目标，对所述要素分类模型进行训练，包括：

可以理解的是，总损失函数设计为软目标与硬目标所对应的交叉熵的加权平均，其中软目标交叉熵的加权系数越大，表明迁移诱导越依赖教师网络的贡献，这对训练初期阶段是很有必要的，有助于让学生网络更轻松的鉴别简单样本，但训练后期需要适当减小软目标的比重，让分类标签帮助鉴别困难样本。

在一个示例中，所述方法还包括：

根据所述目标要素，输出反问问句；

获取用户针对所述反问问句的补充信息；

该示例中，将训练后的要素分类模型用于提取用户问句中的要素，并基于该要素最终确定用户问句对应的标准问句。引入要素识别，通过先对用户的问题主题进行粗粒度分类，并进行相关反问引导，不仅能提升用户体验，更能为问题识别获取更多用户问题信息，从而提高问题识别的准确率。

根据另一方面的实施例，还提供一种训练要素分类模型的装置，所述要素分类模型用于针对句子进行要素识别，该装置用于执行本说明书实施例提供的训练要素分类模型的方法。图3示出根据一个实施例的训练要素分类模型的装置的示意性框图。如图3所示，该装置300包括：

获取单元31，用于获取样本集合中的样本句子以及所述样本句子对应的要素分类标签；

预测单元32，用于利用已训练的教师语言模型，预测所述获取单元31获取的样本句子在各个要素分类上的第一概率分布，其中所述教师语言模型的层数为N；利用待训练的要素分类模型，预测所述样本句子在各个要素分类上的第二概率分布，其中，所述要素分类模型的层数为M，M<N；

第一损失确定单元33，用于根据所述预测单元32预测的所述第二概率分布和所述第一概率分布，得到第一预测损失；

第二损失确定单元34，用于根据所述预测单元32预测的所述第二概率分布和所述获取单元31获取的所述样本句子对应的要素分类标签，得到第二预测损失；

总损失确定单元35，用于将所述第一损失确定单元33得到的第一预测损失与所述第二损失确定单元34得到的第二预测损失进行组合，得到总损失；

训练单元36，用于以所述总损失确定单元35得到的总损失最小为训练目标，对所述要素分类模型进行训练，得到训练后的要素分类模型。

可选地，作为一个实施例，所述要素分类模型用于针对第一领域的句子进行要素识别；所述教师语言模型通过以下方式预先训练：

可选地，作为一个实施例，所述第一损失确定单元33，具体用于：

可选地，作为一个实施例，所述第二损失确定单元34，具体用于：

可选地，作为一个实施例，所述总损失确定单元35，具体用于将所述第一预测损失乘以第一权重，将所述第二预测损失乘以第二权重，对二者求和，得到所述总损失。

进一步地，所述总损失为第一总损失或第二总损失，当所述第一权重大于所述第二权重时，所述总损失确定单元35得到所述第一总损失，当所述第一权重小于所述第二权重时，所述总损失确定单元35得到所述第二总损失；所述训练单元36，具体用于：

可选地，作为一个实施例，所述样本句子为用户与机器人客服对话中的用户问句。

进一步地，所述用户与机器人客服对话属于交互式语音应答IVR。

可选地，作为一个实施例，所述装置还包括：

标问确定单元，用于：

将目标用户问句输入所述训练单元36得到的训练后的要素分类模型，通过所述要素分类模型输出目标要素；

根据所述目标要素，输出反问问句；

获取用户针对所述反问问句的补充信息；

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种训练要素分类模型的方法，所述要素分类模型用于针对句子进行要素识别，所述方法包括：

2.如权利要求1所述的方法，其中，所述要素分类模型用于针对第一领域的句子进行要素识别；所述教师语言模型通过以下方式预先训练：

3.如权利要求1所述的方法，其中，所述根据所述第二概率分布和所述第一概率分布，得到第一预测损失，包括：

4.如权利要求1所述的方法，其中，所述根据所述第二概率分布和所述样本句子对应的要素分类标签，得到第二预测损失，包括：

5.如权利要求1所述的方法，其中，所述将所述第一预测损失与所述第二预测损失进行组合，得到总损失，包括：

6.如权利要求5所述的方法，其中，所述总损失为第一总损失或第二总损失，当所述第一权重大于所述第二权重时，得到所述第一总损失，当所述第一权重小于所述第二权重时，得到所述第二总损失；所述以所述总损失最小为训练目标，对所述要素分类模型进行训练，包括：

7.如权利要求1所述的方法，其中，所述样本句子为用户与机器人客服对话中的用户问句。

8.如权利要求7所述的方法，其中，所述用户与机器人客服对话属于交互式语音应答IVR。

9.如权利要求1所述的方法，其中，所述方法还包括：

根据所述目标要素，输出反问问句；

获取用户针对所述反问问句的补充信息；

10.一种训练要素分类模型的装置，所述要素分类模型用于针对句子进行要素识别，所述装置包括：

11.如权利要求10所述的装置，其中，所述要素分类模型用于针对第一领域的句子进行要素识别；所述教师语言模型通过以下方式预先训练：

12.如权利要求10所述的装置，其中，所述第一损失确定单元，具体用于：

13.如权利要求10所述的装置，其中，所述第二损失确定单元，具体用于：

14.如权利要求10所述的装置，其中，所述总损失确定单元，具体用于将所述第一预测损失乘以第一权重，将所述第二预测损失乘以第二权重，对二者求和，得到所述总损失。

15.如权利要求14所述的装置，其中，所述总损失为第一总损失或第二总损失，当所述第一权重大于所述第二权重时，所述总损失确定单元得到所述第一总损失，当所述第一权重小于所述第二权重时，所述总损失确定单元得到所述第二总损失；所述训练单元，具体用于：

16.如权利要求10所述的装置，其中，所述样本句子为用户与机器人客服对话中的用户问句。

17.如权利要求16所述的装置，其中，所述用户与机器人客服对话属于交互式语音应答IVR。

18.如权利要求10所述的装置，其中，所述装置还包括：

标问确定单元，用于：

将目标用户问句输入所述训练单元得到的训练后的要素分类模型，通过所述要素分类模型输出目标要素；

根据所述目标要素，输出反问问句；

获取用户针对所述反问问句的补充信息；

19.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-9中任一项的所述的方法。

20.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-9中任一项的所述的方法。