CN112507099B

CN112507099B - 对话理解模型的训练方法、装置、设备和存储介质

Info

Publication number: CN112507099B
Application number: CN202011503354.XA
Authority: CN
Inventors: 王硕寰; 庞超; 孙宇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-12-24
Anticipated expiration: 2040-12-18
Also published as: CN112507099A; US20220198327A1; JP7283009B2; JP2022097396A

Abstract

本公开公开了一种对话理解及模型的训练方法、装置、设备和存储介质，涉及计算机技术领域，具体涉及自然语言处理、深度学习等人工智能技术领域。对话理解模型的训练方法包括：获取对话理解训练数据；采用所述对话理解训练数据，进行对话理解预训练任务和通用预训练任务的联合训练，以得到对话理解模型。本公开可以训练得到专门适配对话理解任务的模型。

Description

对话理解模型的训练方法、装置、设备和存储介质

技术领域

本公开涉及计算机技术领域，具体涉及自然语言处理、深度学习等人工智能技术领域，尤其涉及一种对话理解及模型的训练方法、装置、设备和存储介质。

背景技术

自然语言处理(Natural Language Processing，NLP)是涉及计算机科学、人工智能(Artificial Intelligence，AI)和语言学的交叉技术，目的是让计算机处理或“理解”自然语言，以执行诸如语言翻译和问题回答等任务。随着语音接口和聊天机器人的兴起，NLP成为了信息时代最重要的技术之一，是人工智能的重要组成部分。

自然语言理解(Natural Language Understanding，NLU)是NLP的重要组成部分，NLU的核心任务是将自然语言转化为机器可处理的形式化语言，建立自然语言与资源和服务的连接。NLU可以拆解为两个任务，即，意图(intent)分类和槽位(slot)标注。NLU一般是基于预训练的语义理解模型实现意图分类和槽位标注。

相关技术中，采用的语义理解模型一般是通用语义理解模型，该通用语义理解模型采用通用训练数据，基于通用预训练任务得到。

发明内容

本公开提供了一种对话理解及模型的训练方法、装置、设备、存储介质和程序产品。

根据本公开的一方面，提供了一种对话理解模型的训练方法，包括：获取对话理解训练数据；采用所述对话理解训练数据，进行对话理解预训练任务和通用预训练任务的联合训练，以得到对话理解模型。

根据本公开的另一方面，提供了一种对话理解模型的训练装置，包括：第一获取单元，用于获取对话理解训练数据；第一训练单元，用于采用所述对话理解训练数据，进行对话理解预训练任务和通用预训练任务的联合训练，以得到对话理解模型。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。

根据本公开的技术方案，通过采用对话理解训练数据，以及在任务训练时进行对话理解预训练任务的训练，可以训练得到专门适配对话理解任务的模型。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是根据本公开第四实施例的示意图；

图5是根据本公开第五实施例的示意图；

图6是根据本公开第六实施例的示意图；

图7是根据本公开第七实施例的示意图；

图8是根据本公开第八实施例的示意图；

图9是根据本公开第九实施例的示意图；

图10是根据本公开第十实施例的示意图；

图11是用来实现本公开实施例的对话理解模型的训练方法、对话理解方法中任一方法的电子设备的示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

随着AI技术的快速发展，智能客服、智能助手、车载导航、智能家居等越来越多的产品和应用开始尝试引入对话式的人机交互方式。但在实际工作中对话系统的研发对于大多数开发者是一个很困难的工作，其中的一个主要技术难点就是搜索词(Query)理解，即自然语言理解。Query理解的核心任务是将自然语言转化至机器可处理的形式化语言，建立自然语言与资源和服务的连接。

Query理解的过程可分为：意图分类和槽位标注，形式化为：意图分类是指针对某个Query，机器给出该Query的意图；槽位标注是指机器给出该意图下对应的参数值。例如Query＝“帮我订张从北京到天津的火车票”，Query＝“我想坐火车从北京到天津”，这两个Query都表达了用户想“订火车票”，起始地是“北京”，目的地是“天津”。即，意图分类是“订火车票”，槽位标注包括：“起始地＝北京”和“目的地＝天津”。

相关技术中，可以基于预训练的语义理解模型进行意图分类和槽位标注。上述的语义理解模型可以基于已有的预训练模型实现，已有的预训练模型比如为双向Transformer的Encoder(Bidirectional Encoder Representations from Transformers，BERT)模型、知识增强语义表示(Enhanced Representation from kNowledgeIntEgration，ERNIE)模型等预训练模型。基于BERT、ERNIE为代表的预训练模型，采用预训练(Pre-training)+微调(Fine-tuning)的方式可以大幅提升NLP技术水平。

相关技术中，通用语义理解模型也可以基于BERT、ERNIE等预训练模型实现，其一般使用BERT的[CLS]位置顶层表示对领域(Domain)或者意图(Intent)进行分类，然后使用每个字的位置进行分类做槽位(Slot)标注。但是，通用语义理解模型使用通用的语料(例如百科、新闻等数据)，其语料和模型结构没有专门适配。同时掩码预测任务等通用预训练任务目标与对话理解的目标(意图分类和槽位标注)不匹配，限制了预训练技术的应用效果，降低了对话理解的效果。

为了解决上述技术存在的不适配对话理解任务，对话理解效果差的问题上，本公开提供如下一些实施例，以专门适配对话理解任务，提升对话理解效果。

图1是根据本公开第一实施例的示意图。该实施例提供一种对话理解模型的训练方法，包括：

101、获取对话理解训练数据。

102、采用所述对话理解训练数据，进行对话理解预训练任务和通用预训练任务的联合训练，以得到对话理解模型。

对应101说明如下：

相关技术中，通用语义理解模型是基于通用语料(比如百科、新闻等数据)训练得到，采用的训练任务也是通用任务(比如BERT模型的掩码预测任务)，因此，不能很好地适配对话理解任务，降低了对话理解效果。

而本公开实施例中，会专门配置一些适配于对话理解任务的对话理解训练数据，以训练得到专门适配对话理解任务的模型。

对话理解预训练任务可以包括：意图预训练任务，和/或，槽位预训练任务。依据对话理解预训练任务的不同，可以获取不同来源的对话理解训练数据。比如，针对意图预训练任务，可以基于搜索引擎数据获取对话理解训练数据，针对槽位预训练任务，可以基于知识图谱获取对话理解训练数据。

对话理解训练数据可以包括：语料数据和标签数据。

具体的，在所述对话理解预训练任务包括意图预训练任务时，所述语料数据包括第一搜索词；所述标签数据包括：与所述第一搜索词对应的用户点击的网站名；和/或，在所述对话理解预训练任务包括槽位预训练任务时，所述语料数据包括第二搜索词；所述标签数据包括：所述第二搜索词中每个字在知识图谱中对应的上位词。

搜索引擎数据是指基于搜索引擎产生的数据，包括搜索词和与所述搜索词对应的用户点击的网站名。

用户在搜索引擎中输入搜索词(Query)，搜索引擎向用户返回搜索结果，搜索结果比如是网站链接。用户可以基于搜索引擎返回的搜索结果查看自己需要的结果，比如，用户点击想要查看的网站链接。搜索引擎每天可以产生亿级别个用户搜索的Query。这些Query一般在查找特定的网站链接，其语言形态和专有领域的Query形态相似，都是对特定的资源或者服务的请求。Query特别是移动端的Query一般口语化严重，适合作为对话理解的对话理解训练数据。另外，用户的点击行为具有很强的意图指向性，还可以基于这些Query的点击行为，作为弱监督的标注数据。表1示出了几种Query与网站名的对应关系，因此，搜索引擎数据比如包括如表1所示的搜索词及其对应的网站名。

表1

因此，收集到大量搜索引擎数据后，可以选择TopN(N是常数，比如为20000)的网站名，并获取与选择的网站名对应的搜索词。相应的，在训练阶段，对应的意图预训练任务可以包括：以搜索词为模型输入，采用对话理解模型预测搜索词对应的网站名。其中，意图预测时使用CLS位预测。通过对意图预训练任务进行训练，使得对话理解模型在预训练阶段具有意图理解能力。

知识图谱(Knowledge Graph)，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

知识图谱以三元组的形式，存储了大量知识，其中一个典型的三元组知识就是上下位关系(isA)，这些数据会标明一个词的上位词。比如苹果的上位词是水果，红楼梦的上位词包括小说、电视剧、电影等。相同上位的词可以认为是同一个类别。上位词的信息和对话理解中的槽位具有很强的相关性。例如“北京”、“上海”上位词是“地点”。对于订火车票的智能客服，“地点”很可能是“出发地”和“目的地”的槽位。对于查天气的智能音箱，“地点”很可能是“查询城市”的槽位。

因此，在训练阶段，获取到搜索词后，对应的槽位预训练任务可以包括：以搜索词为模型输入，采用对话理解模型预测搜索词中每个字在知识图谱中对应的上位词。比如，搜索词的一个字是“北”，在知识图谱中，“北”所在下位词比如是“北京”，且“北京”的上位词是“地点”，则可以对应“北”字标注“地点”这个标签。若一个字有多个上位词，则对应这个字标注所有的上位词作为标签。对应的槽位预训练任务可以包括：以搜索词为模型输入，采用对话理解模型预测搜索词中每个字在知识图谱中对应的上位词。其中，槽位预测时，使用多个(对应字的个数)二分类预测。通过对槽位预训练任务进行训练，使得对话理解模型在预训练阶段具有槽位解析能力。

可以理解的是，为了区分，意图预训练任务对应的搜索词可以称为第一搜索词，槽位预训练任务对应的搜索词可以称为第二搜索词，第一搜索词和第二搜索词可以相同或不同，即对应不同的对话理解预训练任务可以采用相同或不同的搜索词样本。当然，若对话理解预训练任务同时包括了意图预训练任务和槽位预训练任务，则一般采用相同的搜索词样本作为输入，以同时训练多个对话理解预训练任务。

一些实施例中，通过基于搜索引擎数据和/或知识图谱获取对话理解训练数据，可以基于搜索引擎的用户行为以及知识图谱的结构化知识增强对话理解模型的效果。

对应102说明如下：

目前，为了降低模型训练的工作量和成本，一般是在已有的预训练模型基础上进行优化调整，得到自身所需的模型，比如，采用预训练(pre-training)+微调(fine-tuning)方式得到自身需要的模型。

本公开实施例中，也可以在已有的预训练模型的基础上进一步训练得到对话理解模型。相应的，对话理解模型包括通用预训练层，该通用预训练层为已有的预训练模型(或称为通用预训练模型)，通用预训练模型比如为BERT模型，或者ERNIE模型等。

通用预训练模型(或称为通用预训练层)会有自身的通用预训练任务，比如，BERT模型的掩码预测任务等。而本实施例中，为了适配对话理解任务，在训练时，训练任务还包括对话理解预训练任务。因此，在训练时，采用多任务训练方式进行，多任务包括上述的通用预训练任务和专门适配对话理解任务的对话理解预训练任务。

一些实施例中，通过采用对话理解训练数据，以及在任务训练时进行对话理解预训练任务的训练，可以训练得到专门适配对话理解任务的模型。

为了方便说明，将对话理解训练数据分为：语料数据和所述语料数据对应的标签数据。比如，在所述对话理解预训练任务包括意图预训练任务时，所述语料数据包括第一搜索词；所述标签数据包括：与所述第一搜索词对应的用户点击的网站名；和/或，在所述对话理解预训练任务包括槽位预训练任务时，所述语料数据包括第二搜索词；所述标签数据包括：所述第二搜索词中每个字在知识图谱中对应的上位词。

如图2所示，为对话理解模型的结构示意图。参见图2，对话理解模型包括：输入层201、通用预训练层202和输出层203，通用预训练层202的输入连接输入层201，通用预训练层202的输出连接输出层203。通用预训练层202采用通用预训练模型结构，比如，图2中以ERNIE模型为例。输入层201用于将输入数据转换为输入向量，通用预训练层202对输入向量进行处理，比如，ERNIE模型基于Transformer结构进行处理，比如，进行多头注意力(Multi-Head Attention)和前向反馈(Feed Forward)处理。通用预训练层202的输出为隐层输出向量，如图2中分别用H₀～H₆表示。输出层203对隐层输出向量进行处理得到输出数据。依据任务的不同，输出数据的类型不同。比如，本公开实施例中，任务为对话理解任务，因此，输出数据是与对话理解任务相关的数据，比如，参见图2，输出数据包括意图(Intent)数据和槽位(Slot)数据。

如图3所示，所述对话理解模型包括：输入层、通用预训练层和输出层，采用所述对话理解训练数据，进行对话理解预训练任务和通用预训练任务的联合训练，以得到对话理解模型的流程可以包括：

301、采用所述输入层，将所述语料数据转换为输入向量。

302、采用所述通用预训练层，对所述输入向量进行处理，以得到隐层输出向量。

其中，通用预训练层可以进行通用处理，比如上述的多头注意力(Multi-HeadAttention)和前向反馈(Feed Forward)处理。

303、采用所述输出层，对所述隐层输出向量进行处理，以得到预测数据。

304、根据所述预测数据和对应的标签数据，计算所述对话理解预训练任务的损失函数，以及所述通用预训练任务的损失函数；根据所述对话理解预训练的损失函数以及所述通用预训练任务的损失函数计算总损失函数，并在所述总损失函数满足预设收敛条件时，完成所述对话理解模型的训练。

其中，各个任务的损失函数可以采用相关技术中的损失函数，计算总损失函数时，可以将各个任务的损失函数直接相加或者加权相加得到，预设收敛条件可以根据需要设定或者采用相关技术中的收敛条件。在总损失函数不满足收敛条件时，更新模型参数，直至满足收敛条件；在满足收敛条件时，则将此时的模型参数作为最终的模型参数，完成对话理解模型的训练。

本实施例中，基于语料数据和标签数据，可以进行对话理解预训练任务的训练，从而优化模型参数。

对应301说明如下：

相关技术中，输入层一般包括字向量(embedding)层和位置向量(embedding)层。

而本实施例，为了提高对话理解模型的适配性以及提高对话理解能力，在输入层中还包括：词性向量层；和/或，命名实体向量层。

如图2所示，在输入层中增加了词性向量(embedding)层和命名实体向量(embedding)层为例。其中，图2中的搜索词假设为“我要看红楼梦”，则词性向量层的R(代词)、V(副词)、W(动词)、N(名词)代表不同的词性标签，命名实体向量层的B是命名实体标签，O表示不是命名实体。

一些实施例中，通过增加词性向量层和/或命名实体向量层，可以显式地建模了词性、命名实体等有利于对话理解的标签，可以在训练时引入更多的先验知识，提高对话理解能力。

对应303说明如下：

如上分析，对话理解任务可分为多个(意图预训练任务和槽位预训练任务)，各个对话理解任务可以对应不同的相互独立的输出层模型，比如，意图预训练任务对应第一输出层模型，槽位预训练任务对应第二输出层模型，第一输出层模型用于输入意图数据，第二输出层数据用于输出槽位数据，第一输出层模型和第二输出层模型相互独立，即第一输出层模型和第二输出层模型不存在共享关系。但是，相互独立的模型可能会存在整体任务性能较差的问题，比如，在第一输出层模型性能较优时，第二输出层模型性能较差。

为了同步实现对意图分类和槽位标注的优化，一些实施例中，可以采用共享的输出层。即，参见图2，输出层203为所述意图预训练任务和槽位预训练任务的共享层，该输出层203的输出数据包括意图数据和槽位数据。具体的，参见图2，意图数据对应隐层输出向量H₀，槽位数据对应其他的隐层输出向量，如图2中的H₁～H₆。其中，输出层使用[CLS]位做意图分类，其他隐层输出向量(H₁～H₆)进行条件随机场(Conditional Random Field，CRF)处理后做槽位标注。依据模型的不同阶段，输出数据是不同类型的数据，比如，在训练阶段，输出数据是预测数据(比如意图预测数据或者槽位预测数据)，在应用阶段，是任务处理结果(比如意图分类结果或槽位标注结果)。

一些实施例中，通过多个对话理解预训练任务共享输出层，可以实现读个对话理解预训练任务的同步训练，优化对话理解模型的效果。

本实施例中，通过采用对话理解训练数据，以及在任务训练时进行对话理解预训练任务的训练，可以训练得到专门适配对话理解任务的模型。通过增加词性向量层和/或命名实体向量层，可以显式地建模了词性、命名实体等有利于对话理解的标签，可以在训练时引入更多的先验知识，提高对话理解能力。通过基于搜索引擎数据和/或知识图谱获取对话理解训练数据，可以基于搜索引擎的用户行为以及知识图谱的结构化知识增强对话理解模型的效果。通过多个对话理解预训练任务共享输出层，可以实现同步训练对话理解预训练任务，优化对话理解模型的效果。

对话理解可以分为不同的领域，比如智能客服领域、智能助手领域、车载导航领域、智能家居领域等。可以理解的是，上述领域划分方式只是作为一种示例，也可以采用其他的领域划分方式，比如，分为天气领域、音乐领域、电影领域等。

通过上述实施例训练得到对话理解模型后，基于预训练(Pre-training)+微调(Fine-tuning)的思想，还可以将上述的对话理解模型作为预训练模型(此时上述的对话理解模型可以称为通用对话理解模型)进行微调，得到各个领域的对话理解模型。

图4是根据本公开第四实施例的示意图。本实施例提供一种对话理解模型的训练方法，包括：

401、获取对话理解训练数据。

402、采用所述对话理解训练数据，进行对话理解预训练任务和通用预训练任务的联合训练，以得到对话理解模型。

403、获取对话理解的至少一个领域的各个领域的对话理解训练数据。

404、采用所述各个领域的对话理解训练数据，对所述对话理解模型进行微调，以得到所述各个领域的对话理解模型。

比如，对应智能客服领域，采用智能客服领域的对话理解训练数据对上述的对话理解模型进行微调，得到智能客服领域的对话理解模型，对应车载导航领域，采用车载导航领域的对话理解训练数据对上述的对话理解模型进行微调，得到车载导航领域的对话理解模型等。

一些实施例中，在得到上述的对话理解模型后，可以将其作为通用对话理解模型，在后续任务中，可以依据对话理解的各个领域的对话理解训练数据，对通用对话理解模型再次进行训练，得到各个领域的对话理解模型。本公开实施例中，基于通用预训练模型(pre-training)训练得到通用对话理解模型的训练过程可以称为后训练(post-training)，基于通用对话理解模型训练得到各个领域的对话理解模型的训练过程可以称为微调(fine-tuning)。因此，本公开一些实施例可以提供一个整体的训练过程包括：pre-training->post-training->fine-tuning。

相关技术中，在训练各个领域的对话理解模型时，是直接基于通用语义理解模型训练得到，但是，由于难以收集本领域内数据，往往需要大量的人工标注，成本大，难以构建；另外，构建得到一个领域的对话理解模型后，若需要另一个领域的对话理解模型，则需要重新基于通用语义理解模型进行训练，通用性差。

而本公开实施例中，参见图5，该方法包括：501、基于通用语义理解模型(比如BERT模型)训练得到通用对话理解模型。502、基于通用对话理解模型训练得到各个领域的对话理解模型。

本实施例中，通过基于通用对话理解模型训练得到各个领域的对话理解模型，可以降低构建成本，提高通用性。

图6是根据本公开第六实施例的示意图。本实施例提供一种对话理解方法，包括：

601、接收搜索词。

602、采用预训练的对话理解模型，确定所述搜索词对应的意图分类结果和槽位标注结果；所述对话理解模型采用如上述任一训练方法得到。

比如，用户与对话理解系统交互，用户输入搜索词“我要看红楼梦”，假设这里红楼梦指的是小说，则对话理解系统接收到该搜索词后基于之前训练得到的对话理解模型对其进行对话理解，得到意图分类结果是“搜索小说”，槽位标注结果包括：“我”、“要”、“看”、“红”、“楼”、“梦”依次会标注为“O”、“O”、“O”、“B-Book”，“I-Book”,“I-Book”。“O”代表该字不是任何槽位，“B-Book”代表该字为槽位“小说”的开始，“I-Book”代表该字是槽位“小说”的其他成分。

上述流程中，用户与对话理解系统之间可以采用文本、语音等形式进行交互，比如，用户采用语音或文本输入搜索词，本公开对此不作限定。

对话理解系统可以基于客户端-服务器端的形式实现，客户端部署在用户终端上；服务器端可以设置在对话理解服务提供方的服务器上，服务器可以是普通服务器或者云端服务器；或者，服务器端也可以设置在用户终端本地以实现离线对话理解服务。本公开对此不作限定。用户终端的实例本公开也不作限定，比如可以是手机、平板型电脑、数字助理等。客户端的实例本公开也不作限定，比如可以是APP、网页、程序等。

本实施例中，通过采用对话理解模型进行对话理解，且对话理解采用上述的训练方式得到，可以提高对话理解效果。

图7是本公开第七实施例的示意图。如图7所示，该实施例提供一种对话理解模型的训练装置700，包括：第一获取单元701和第一训练单元702。第一获取单元701用于获取对话理解训练数据；第一训练单元702用于采用所述对话理解训练数据，进行对话理解预训练任务和通用预训练任务的联合训练，以得到对话理解模型。

一些实施例中，参见图8，提供一种对话理解模型的训练装置800，包括：第一获取单元801和第一训练单元802。第一获取单元801用于获取对话理解训练数据。第一训练单元802用于采用所述对话理解训练数据，进行对话理解预训练任务和通用预训练任务的联合训练，以得到对话理解模型。其中，所述对话理解模型包括：输入层、通用预训练层和输出层，所述对话理解训练数据包括：语料数据和所述语料数据对应的标签数据，第一训练单元802包括输入模块8021、隐层模型8022、输出模块8023和收敛模块8024。输入模块8021用于采用所述输入层，将所述语料数据转换为输入向量；隐层模块8022用于采用所述通用预训练层，对所述输入向量进行处理，以得到隐层输出向量；输出模块8023用于采用所述输出层，对所述隐层输出向量进行处理，以得到预测数据；收敛模块8024用于根据所述预测数据和对应的标签数据，计算所述对话理解预训练任务的损失函数，以及所述通用预训练任务的损失函数；根据所述对话理解预训练的损失函数以及所述通用预训练任务的损失函数计算总损失函数，并在所述总损失函数满足预设收敛条件时，完成所述对话理解模型的训练。

一些实施例中，所述对话理解预训练任务包括：意图预训练任务；和/或，槽位预训练任务。

一些实施例中，在所述对话理解预训练任务包括意图预训练任务时，所述语料数据包括第一搜索词；所述标签数据包括：与所述第一搜索词对应的用户点击的网站名；和/或，在所述对话理解预训练任务包括槽位预训练任务时，所述语料数据包括第二搜索词；所述标签数据包括：所述第二搜索词中每个字在知识图谱中对应的上位词。

一些实施例中，在所述对话理解预训练任务包括意图预训练任务和槽位预训练任务时，所述输出层为所述意图预训练任务和所述槽位预训练任务的共享层，所述输出层的输出数据包括意图数据和槽位数据。

一些实施例中，所述输入层包括：词性向量层；和/或，命名实体向量层。

一些实施例中，参见图9，提供一种对话理解模型的训练装置900，包括：第一获取单元901和第一训练单元902，还包括：第二获取单元903和第二训练单元904。第二获取单元903用于获取对话理解的至少一个领域的各个领域的对话理解训练数据；第二训练单元904用于采用所述各个领域的对话理解训练数据，对所述对话理解模型进行微调，以得到所述各个领域的对话理解模型。

本实施例中，通过采用对话理解训练数据，以及在任务训练时进行对话理解预训练任务的训练，可以训练得到专门适配对话理解任务的模型。通过增加词性向量层和/或命名实体向量层，可以显式地建模了词性、命名实体等有利于对话理解的标签，可以在训练时引入更多的先验知识，提高对话理解能力。通过基于搜索引擎数据和/或知识图谱获取对话理解训练数据，可以基于搜索引擎的用户行为以及知识图谱的结构化知识增强对话理解模型的效果。通过多个对话理解预训练任务共享输出层，可以实现同步训练对话理解预训练任务，优化对话理解模型的效果。通过基于通用对话理解模型训练得到各个领域的对话理解模型，可以降低构建成本，提高通用性。

图10是根据本公开第十实施例的示意图。如图10所示，本实施例提供一种对话理解装置，包括接收单元1001和对话理解单元1002。接收单元1001用于接收搜索词；对话理解单元1002用于采用预训练的对话理解模型，确定所述搜索词对应的意图分类结果和槽位标注结果；所述对话理解模型采用上述任一训练方法得到。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM1102以及RAM1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如对话理解模型的训练方法或者对话理解方法。例如，在一些实施例中，对话理解模型的训练方法或者对话理解方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM1103并由计算单元1101执行时，可以执行上文描述的对话理解模型的训练方法或者对话理解方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行对话理解模型的训练方法或者对话理解方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种对话理解模型的训练方法，包括：

获取对话理解训练数据，所述对话理解训练数据基于搜索引擎数据和/或知识图谱获取，所述搜索引擎数据包括搜索词对应的用户点击的网站名；

采用所述对话理解训练数据，进行对话理解预训练任务和通用预训练任务的联合训练，以得到对话理解模型；

所述对话理解模型包括输入层，所述输入层包括：

词性向量层；和/或，

命名实体向量层；

所述联合训练包括：基于总损失函数进行训练，所述总损失函数基于所述对话理解预训任务获得的损失函数，以及所述通用预训练任务获得的损失函数计算得到。

2.根据权利要求1所述的方法，其中，所述对话理解模型还包括：通用预训练层和输出层，所述对话理解训练数据包括：语料数据和所述语料数据对应的标签数据，所述采用所述对话理解训练数据，进行对话理解预训练任务和通用预训练任务的联合训练，以得到对话理解模型，包括：

采用所述输入层，将所述语料数据转换为输入向量；

采用所述通用预训练层，对所述输入向量进行处理，以得到隐层输出向量；

采用所述输出层，对所述隐层输出向量进行处理，以得到预测数据；

根据所述预测数据和对应的标签数据，计算所述对话理解预训练任务的损失函数，以及所述通用预训练任务的损失函数；根据所述对话理解预训练的损失函数以及所述通用预训练任务的损失函数计算总损失函数，并在所述总损失函数满足预设收敛条件时，完成所述对话理解模型的训练。

3.根据权利要求2所述的方法，其中，

在所述对话理解预训练任务包括意图预训练任务时，所述语料数据包括第一搜索词；所述标签数据包括：与所述第一搜索词对应的用户点击的网站名；和/或，

在所述对话理解预训练任务包括槽位预训练任务时，所述语料数据包括第二搜索词；所述标签数据包括：所述第二搜索词中每个字在知识图谱中对应的上位词。

4.根据权利要求2所述的方法，其中，

在所述对话理解预训练任务包括意图预训练任务和槽位预训练任务时，所述输出层为所述意图预训练任务和所述槽位预训练任务的共享层，所述输出层的输出数据包括意图数据和槽位数据。

5.根据权利要求1-4任一项所述的方法，其中，还包括：

获取对话理解的至少一个领域的各个领域的对话理解训练数据；

采用所述各个领域的对话理解训练数据，对所述对话理解模型进行微调，以得到所述各个领域的对话理解模型。

6.一种对话理解模型的训练装置，包括：

第一获取单元，用于获取对话理解训练数据，所述对话理解训练数据基于搜索引擎数据和/或知识图谱获取，所述搜索引擎数据包括搜索词对应的用户点击的网站名；

第一训练单元，用于采用所述对话理解训练数据，进行对话理解预训练任务和通用预训练任务的联合训练，以得到对话理解模型；

所述对话理解模型包括输入层，所述输入层包括：

词性向量层；和/或，

命名实体向量层；

7.根据权利要求6所述的装置，其中，所述对话理解模型包括：输入层、通用预训练层和输出层，所述对话理解训练数据包括：语料数据和所述语料数据对应的标签数据，所述第一训练单元包括：

输入模块，用于采用所述输入层，将所述语料数据转换为输入向量；

隐层模块，用于采用所述通用预训练层，对所述输入向量进行处理，以得到隐层输出向量；

输出模块，用于采用所述输出层，对所述隐层输出向量进行处理，以得到预测数据；

收敛模块，用于根据所述预测数据和对应的标签数据，计算所述对话理解预训练任务的损失函数，以及所述通用预训练任务的损失函数；根据所述对话理解预训练的损失函数以及所述通用预训练任务的损失函数计算总损失函数，并在所述总损失函数满足预设收敛条件时，完成所述对话理解模型的训练。

8.根据权利要求7所述的装置，其中，

9.根据权利要求7所述的装置，其中，

10.根据权利要求6-9任一项所述的装置，其中，还包括：

第二获取单元，用于获取对话理解的至少一个领域的各个领域的对话理解训练数据；

第二训练单元，用于采用所述各个领域的对话理解训练数据，对所述对话理解模型进行微调，得到所述各个领域的对话理解模型。

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的对话理解模型的训练方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的对话理解模型的训练方法。