CN113590798A

CN113590798A - 对话意图识别、用于识别对话意图的模型的训练方法

Info

Publication number: CN113590798A
Application number: CN202110909637.2A
Authority: CN
Inventors: 聂礼强; 刘萌; 张昊宇; 高赞; 王英龙; 雷小强; 李岩
Original assignee: Shandong University; Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Shandong University; Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2021-11-02
Anticipated expiration: 2041-08-09
Also published as: CN113590798B

Abstract

本公开关于一种对话意图识别、用于识别对话意图的模型的训练方法，所述方法包括：获取与用户账户之间的历史对话语句，并提取各历史对话语句对应的话语特征；分别将各话语特征作为节点，并对各节点进行两两连接，得到话语节点全连接图；将话语节点全连接图输入至预训练的图神经网络模型，得到话语节点关系图；话语节点关系图为预训练的图神经网络模型对话语节点全连接图中的各节点对应的上下文信息和各节点间的连接关系进行调整后得到的；话语节点关系图中相连接的两个节点所对应的历史对话语句具有上下文关联关系；根据话语节点关系图，确定用户账户在本次对话中的目标对话意图。采用本公开可以准确地识别出用户账户在人机对话中的对话意图。

Description

对话意图识别、用于识别对话意图的模型的训练方法

技术领域

本公开涉及互联网技术领域，尤其涉及一种对话意图识别、用于识别对话意图的模型的训练方法、装置、电子设备及存储介质。

背景技术

人机对话是指让机器理解和运用自然语言实现人机通信的技术，通过人机对话交互，用户可以在与机器进行对话的过程中，控制机器执行对应的内容查询、内容推荐等操作。

但是，在多模态人机对话环境中，由于对话上下文往往较长，传统技术中的机器往往难以捕捉到各个对话之间的上下文关系，这使得传统技术中的机器对用户对话意图的理解往往不精准，导致无法准确地对用户输入的对话作出准确地响应或答复。

因此，相关技术中存在对在人机对话的用户意图识别准确率较低的问题。

发明内容

本公开提供一种对话意图识别方法、装置、服务器及存储介质，以至少解决相关技术中在人机对话中对用户对话意图识别准确率较低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种对话意图识别方法，包括

获取与用户账户之间的历史对话语句，并提取各所述历史对话语句对应的话语特征；

分别将各所述话语特征作为节点，并对各所述节点进行两两连接，得到话语节点全连接图；

将所述话语节点全连接图输入至预训练的图神经网络模型，得到话语节点关系图；所述话语节点关系图为所述预训练的图神经网络模型对所述话语节点全连接图中的各节点对应的上下文信息和各节点间的连接关系进行调整后得到的；所述话语节点关系图中相连接的两个节点所对应的历史对话语句具有上下文关联关系；所述预训练的图神经网络模型为采用样本对话语句和对应的答复内容，对待训练的图神经网络模型进行训练得到的；

根据所述话语节点关系图，确定所述用户账户在本次对话中的目标对话意图。

在一种可能实现方式，若所述历史对话语句包括文本，所述提取各所述历史对话语句对应的话语特征，包括：

将所述文本输入至预训练的文本编码器，得到所述文本的文本向量表示；

将所述文本向量表示确定为所述历史对话语句对应的话语特征；

若所述历史对话语句包括图像，所述提取各所述历史对话语句对应的话语特征，包括：

将所述图像输入至预训练的视觉编码器，得到所述图像的视觉向量表示；

将所述视觉向量表示确定为所述历史对话语句对应的话语特征。

在一种可能实现方式，若所述历史对话语句包括文本和图像，所述提取各所述历史对话语句对应的话语特征，包括：

将所述文本输入至预训练的文本编码器，得到所述文本的文本向量表示，以及，将所述图像输入至预训练的视觉编码器，得到所述图像的视觉向量表示；

对所述文本向量表示和所述视觉向量表示进行融合处理，得到融合向量表示；

将所述融合向量表示确定为所述历史对话语句对应的话语特征。

在一种可能实现方式，所述将所述文本输入至预训练的文本编码器，得到所述文本的文本向量表示，包括：

获取所述文本中每个词的原始词向量表示；

将各所述原始词向量表示输入至所述预训练的文本编码器中的第一注意力机制层，得到各所述词的加权后词向量表示；所述第一注意力机制层，用于基于各所述词与预设词属性之间的相关程度，确定各所述词的属性权重，并按照各所述词的属性权重，对各所述词的原始词向量表示进行加权，得到各所述词的加权后词向量表示；

分别对各所述词的加权后词向量表示和原始词向量表示进行融合处理，得到各所述词的融合后词向量表示；

将各所述融合后词向量表示输入至所述预训练的文本编码器中的文本表示模型，得到所述文本的文本向量表示。

在一种可能实现方式，若所述历史对话语句包括文本和图像，所述将所述图像输入至预训练的视觉编码器，得到所述图像的视觉向量表示，包括：

将所述图像输入至所述预训练的视觉编码器中的图像特征提取层，得到所述图像的特征图；

将所述特征图输入至所述预训练的视觉编码器中的第二注意力机制层，得到所述视觉向量表示；所述第二注意力机制层，用于根据所述文本向量表示，确定所述图像的用户关注区域，并按照所述用户关注区域对所述特征图进行加权，得到所述图像的视觉向量表示。

在一种可能实现方式，所述根据所述话语节点关系图，确定所述用户账户在本次对话中的目标对话意图，包括：

获取所述话语节点关系图中目标对话节点的第一节点向量表示，以及，所述话语节点全连接图中目标对话节点的第二节点向量表示；所述目标对话节点为所述用户账户当前发送的对话语句对应的节点；

对所述第一节点向量表示和所述第二节点向量表示进行融合处理，得到用于表征所述目标对话意图的意图向量表示。

在一种可能实现方式，所述历史对话语句包括所述用户账户当前发送的对话语句；所述根据所述话语节点关系图，确定所述用户账户在本次对话中的目标对话意图的步骤之后，所述方法还包括：

获取与所述目标对话意图相匹配的目标答复内容；

发送包含有所述目标答复内容的答复语句至所述用户账户，以响应所述对话语句。

在一种可能实现方式，所述获取与所述目标对话意图相匹配的目标答复内容，包括：

获取候选答复内容的内容向量表示，以及，所述目标对话意图的意图向量表示；

分别计算所述意图向量表示与各所述内容向量表示间的相似度；

将所述相似度最大的内容向量表示所对应的候选答复内容，确定为所述目标答复内容。

根据本公开实施例的第二方面，提供一种对话意图识别装置，包括：

获取单元，被配置为执行获取与用户账户之间的历史对话语句，并提取各所述历史对话语句对应的话语特征；

连接单元，被配置为执行分别将各所述话语特征作为节点，并对各所述节点进行两两连接，得到话语节点全连接图；

调整单元，被配置为执行将所述话语节点全连接图输入至预训练的图神经网络模型，得到话语节点关系图；所述话语节点关系图为所述预训练的图神经网络模型对所述话语节点全连接图中的各节点对应的上下文信息和各节点间的连接关系进行调整后得到的；所述话语节点关系图中相连接的两个节点所对应的历史对话语句具有上下文关联关系；所述预训练的图神经网络模型为采用样本对话语句和对应的答复内容，对待训练的图神经网络模型进行训练得到的；

识别单元，被配置为执行根据所述话语节点关系图，确定所述用户账户在本次对话中的目标对话意图。

在一示例性实施例中，若所述历史对话语句包括文本，所述获取单元，具体被配置为执行将所述文本输入至预训练的文本编码器，得到所述文本的文本向量表示；将所述文本向量表示确定为所述历史对话语句对应的话语特征；若所述历史对话语句包括图像，所述提取各所述历史对话语句对应的话语特征，包括：将所述图像输入至预训练的视觉编码器，得到所述图像的视觉向量表示；将所述视觉向量表示确定为所述历史对话语句对应的话语特征。

在一示例性实施例中，若所述历史对话语句包括文本和图像，所述获取单元，具体被配置为执行将所述文本输入至预训练的文本编码器，得到所述文本的文本向量表示，以及，将所述图像输入至预训练的视觉编码器，得到所述图像的视觉向量表示；对所述文本向量表示和所述视觉向量表示进行融合处理，得到融合向量表示；将所述融合向量表示确定为所述历史对话语句对应的话语特征。

在一示例性实施例中，所述获取单元，具体被配置为执行获取所述文本中每个词的原始词向量表示；将各所述原始词向量表示输入至所述预训练的文本编码器中的第一注意力机制层，得到各所述词的加权后词向量表示；所述第一注意力机制层，用于基于各所述词与预设词属性之间的相关程度，确定各所述词的属性权重，并按照各所述词的属性权重，对各所述词的原始词向量表示进行加权，得到各所述词的加权后词向量表示；分别对各所述词的加权后词向量表示和原始词向量表示进行融合处理，得到各所述词的融合后词向量表示；将各所述融合后词向量表示输入至所述预训练的文本编码器中的文本表示模型，得到所述文本的文本向量表示。

在一示例性实施例中，若所述历史对话语句包括文本和图像，所述获取单元，具体被配置为执行将所述图像输入至所述预训练的视觉编码器中的图像特征提取层，得到所述图像的特征图；将所述特征图输入至所述预训练的视觉编码器中的第二注意力机制层，得到所述视觉向量表示；所述第二注意力机制层，用于根据所述文本向量表示，确定所述图像的用户关注区域，并按照所述用户关注区域对所述特征图进行加权，得到所述图像的视觉向量表示。

在一示例性实施例中，所述识别单元，具体被配置为执行获取所述话语节点关系图中目标对话节点的第一节点向量表示，以及，所述话语节点全连接图中目标对话节点的第二节点向量表示；所述目标对话节点为所述用户账户当前发送的对话语句对应的节点；对所述第一节点向量表示和所述第二节点向量表示进行融合处理，得到用于表征所述目标对话意图的意图向量表示。

在一示例性实施例中，所述历史对话语句包括所述用户账户当前发送的对话语句；所述装置还包括：匹配单元，被配置为执行获取与所述目标对话意图相匹配的目标答复内容；发送单元被配置为执行发送包含有所述目标答复内容的答复语句至所述用户账户，以响应所述对话语句。

在一示例性实施例中，所述匹配单元，具体被配置为执行获取候选答复内容的内容向量表示，以及，所述目标对话意图的意图向量表示；分别计算所述意图向量表示与各所述内容向量表示间的相似度；将所述相似度最大的内容向量表示所对应的候选答复内容，确定为所述目标答复内容。

根据本公开实施例的第三方面，提供一种用于识别对话意图的模型的训练方法，包括：

获取训练样本数据；所述训练样本数据包括样本对话语句和对应的答复内容；

提取各所述样本对话语句对应的样本话语特征；

分别将各所述样本话语特征作为节点，并对各所述节点进行两两连接，得到样本话语节点全连接图；

将所述样本话语节点全连接图输入至待训练的图神经网络模型，得到样本话语节点关系图；所述样本话语节点关系图为所述待训练的图神经网络模型对所述样本话语节点全连接图中的各节点对应的上下文信息和各节点间的连接关系进行调整后得到的；所述样本话语节点关系图中相连接的两个节点所对应的样本对话语句具有上下文关联关系；

根据所述话语节点关系图，确定所述样本对话语句的预测对话意图，并获取与所述预测对话意图相匹配的预测答复内容；

基于所述样本对话语句对应的答复内容与所述预测答复内容间的差异，对所述待训练的图神经网络模型的模型参数进行调整，直至调整后的所述待训练的图神经网络模型符合预设训练结束条件，得到预训练的图神经网络模型。

在一示例性实施例中，所述获取与所述预测对话意图相匹配的预测答复内容，包括：

将所述预测对话意图输入待训练的答复内容生成模型，得到所述预测答复内容；

其中，所述待训练的答复内容生成模型用于获取候选答复内容的内容向量表示，以及，所述预测对话意图的意图向量表示，并分别计算所述意图向量表示与各所述内容向量表示间的相似度，将所述相似度最大的内容向量表示所对应的候选答复内容，确定为所述预测答复内容；

在所述获取与所述预测对话意图相匹配的预测答复内容的步骤之后，所述方法还包括：

基于所述样本对话语句对应的答复内容与所述预测答复内容间的差异，对所述待训练的答复内容生成模型的模型参数进行调整，直至调整后的所述待训练的答复内容生成模型符合预设训练结束条件，得到预训练的答复内容生成模型。

根据本公开实施例的第四方面，提供一种用于识别对话意图的模型的训练装置，包括：

样本获取单元，被配置为执行获取训练样本数据；所述训练样本数据包括样本对话语句和对应的答复内容；

提取单元，被配置为执行提取各所述样本对话语句对应的样本话语特征；

生成单元，被配置为执行分别将各所述样本话语特征作为节点，并对各所述节点进行两两连接，得到样本话语节点全连接图；

输入单元，被配置为执行将所述样本话语节点全连接图输入至待训练的图神经网络模型，得到样本话语节点关系图；所述样本话语节点关系图为所述待训练的图神经网络模型对所述样本话语节点全连接图中的各节点对应的上下文信息和各节点间的连接关系进行调整后得到的；所述样本话语节点关系图中相连接的两个节点所对应的样本对话语句具有上下文关联关系；

输出单元，被配置为执行根据所述话语节点关系图，确定所述样本对话语句的预测对话意图，并获取与所述预测对话意图相匹配的预测答复内容；

训练单元，被配置为执行基于所述样本对话语句对应的答复内容与所述预测答复内容间的差异，对所述待训练的图神经网络模型的模型参数进行调整，直至调整后的所述待训练的图神经网络模型符合预设训练结束条件，得到预训练的图神经网络模型。

在一示例性实施例中，所述输出单元，具体被配置为执行将所述预测对话意图输入待训练的答复内容生成模型，得到所述预测答复内容；其中，所述待训练的答复内容生成模型用于获取候选答复内容的内容向量表示，以及，所述预测对话意图的意图向量表示，并分别计算所述意图向量表示与各所述内容向量表示间的相似度，将所述相似度最大的内容向量表示所对应的候选答复内容，确定为所述预测答复内容；

所述用于识别对话意图的模型的训练装置还包括：参数调整单元，被配置为执行基于所述样本对话语句对应的答复内容与所述预测答复内容间的差异，对所述待训练的答复内容生成模型的模型参数进行调整，直至调整后的所述待训练的答复内容生成模型符合预设训练结束条件，得到预训练的答复内容生成模型。

根据本公开实施例的第五方面，提供一种服务器，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如第一方面或第一方面的任一种可能实现方式所述的对话意图识别方法，和/或，如第三方面或第三方面的任一种可能实现方式所述的用于识别对话意图的模型的训练方法。

根据本公开实施例的第六方面，提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面或第一方面的任一种可能实现方式所述的对话意图识别方法，和/或，如第三方面或第三方面的任一种可能实现方式所述的用于识别对话意图的模型的训练方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面的任一种可能实现方式所述的对话意图识别方法，和/或，如第三方面或第三方面的任一种可能实现方式所述的用于识别对话意图的模型的训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：通过获取与用户账户之间的历史对话语句，并提取各历史对话语句对应的话语特征，并分别将各话语特征作为节点，并对各节点进行两两连接，得到话语节点全连接图，再将话语节点全连接图输入至预训练的图神经网络模型，得到话语节点关系图；话语节点关系图为预训练的图神经网络模型对话语节点全连接图中的各节点的向量表示和各节点间的连接关系进行调整后得到的；话语节点关系图中相连接的两个节点所对应的历史对话语句具有上下文关联关系；最后，再根据话语节点关系图，确定用户账户在本次对话中的目标对话意图；如此，实现将人机对话中的每个话语视为一个节点，通过图神经网络去动态地捕捉每个节点的关系上下文，以加强每个节点的全局表示，可以基于该话语节点关系图准确地确定出用户在本次人机对话中的整体意图，便于后续对该用户账户发送的对话语句进行准确地对话响应并进行回复。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种对话意图识别方法的应用环境图。

图2是根据一示例性实施例示出的一种对话意图识别方法的流程图。

图3是根据一示例性实施例示出的一种话语节点全连接图的示意图。

图4是根据一示例性实施例示出的一种话语节点关系图的示意图。

图5是根据一示例性实施例示出的一种语句特征提取模型的框架图。

图6是根据另一示例性实施例示出的一种对话意图识别方法的流程图。

图7是根据一示例性实施例示出的一种对话生成方法的流程图。

图8是根据一示例性实施例示出的一种对话意图识别装置的框图。

图9是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

还需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本公开所提供的对话意图识别方法，可以应用于如图1所示的应用环境中。其中，终端110通过网络与服务器120进行交互。服务器120服务器获取与用户账户所在的终端110之间的历史对话语句，并提取各历史对话语句对应的话语特征；服务器120分别将各话语特征作为节点，并对各节点进行两两连接，得到话语节点全连接图；服务器120将话语节点全连接图输入至预训练的图神经网络模型，得到话语节点关系图；话语节点关系图为预训练的图神经网络模型对话语节点全连接图中的各节点对应的上下文信息和各节点间的连接关系进行调整后得到的；话语节点关系图中相连接的两个节点所对应的历史对话语句具有上下文关联关系；服务器120根据话语节点关系图，确定用户账户在本次对话中的目标对话意图。实际应用中，可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器130可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图2是根据一示例性实施例示出的一种对话意图识别方法的流程图，如图2所示，该对话意图识别方法用于服务器中，包括以下步骤。

在步骤S210中，获取与用户账户之间的历史对话语句，并提取各历史对话语句对应的话语特征。

其中，历史对话语句可以是指与用户账户在本次人机对话中已经发生的对话语句。

实际应用中，历史对话语句包括服务器在本次人机对话中生成的对话语句，以及，用户账户在本次人机对话中通过终端输入的对话语句。

在一种可能的实现方式中，服务器将生成的第一对话语句发送至用户账户所在的终端。用户账户在通过该终端接收到第一对话语句后，通过终端输入第二对话语句，终端则将第二对话语句发送至服务器，实现用户账户与服务器之间的人机对话。其中，历史对话语句包括第一对话语句和第二对话语句。

其中，话语特征可以是指用于表征出对应的历史对话语句的语义信息的特征。

具体实现中，服务器获取与用户账户之间的历史对话语句；然后，服务器提取各历史对话语句对应的话语特征。实际应用中，服务器可以将该历史对话语句输入至预训练的语句特征提取模型，通过该预训练的语句特征提取模型对历史对话语句进行特征提取处理，得到该历史对话语句对应的话语特征。

在步骤S220中，分别将各话语特征作为节点，并对各节点进行两两连接，得到话语节点全连接图。

具体实现中，服务器在提取出各个历史对话语句对应的话语特征后，服务器则将各个历史对话语句对应的话语特征作为图网络中的其中一个节点，并初始化为全连接图，即对各节点进行两两连接，得到话语节点全连接图。为了便于本领域技术人员的理解，图3实例性地提供了一种话语节点全连接图的示意图。其中，X_t表示话语节点全连接图中第t个节点对应的节点向量表示。

需要说明的是，由于服务器将将各个历史对话语句对应的话语特征作为图网络中的其中一个节点；因而，上文中的预训练的语句特征提取模型也可以命名为节点初始化模块。

在步骤S230中，将话语节点全连接图输入至预训练的图神经网络模型，得到话语节点关系图；话语节点关系图为预训练的图神经网络模型对话语节点全连接图中的各节点对应的上下文信息和各节点间的连接关系进行调整后得到的；话语节点关系图中相连接的两个节点所对应的历史对话语句具有上下文关联关系。

其中，图神经网络模型可以是指用于对图网络进行处理的神经网络模型。实际应用中，图神经网络模型可以是一种图注意力网络模型。实际应用中，预训练的图神经网络模型为采用样本对话语句和对应的答复内容，对待训练的图神经网络模型进行训练得到的。

具体实现中，服务器在生成本次对话的话语节点全连接图后，服务器则将该话语节点全连接图输入至预训练的图神经网络模型，进而使预训练的图神经网络模型对话语节点全连接图进行调整，其中。预训练的图神经网络模型可以对话语节点全连接图中的各节点的向量表示和各节点间的连接关系进行调整，得到调整后的话语节点全连接图即话语节点关系图。为了便于本领域技术人员的理解，图4实例性地提供了一种话语节点关系图的示意图。其中，

表示话语节点关系图中第t个节点对应的节点向量表示。

具体来说，由于话语节点全连接的的连接关系过于稠密，会影响节点间特征的传播。服务器可以利用稀疏邻接矩阵更新方式来扩展基本的图神经网络模型，即即在更新过程中动态地删除一些连接边，以确保每个节点只连接到与之密切相关的节点。在每一次迭代时，根据注意力系数仅保留前k个邻居节点的连接边。k值的选取公式如下：

其中，t表示第t个节点的索引号，[·]表示取整函数。

本公开用

来表示第t个节点的前k个邻居节点集，因此，本公开的稀疏GAT更新过程如下述公式所示：

其中γ_l和

分别是第l层的可训练参数向量和矩阵，φ和Φ分别是LeakyReLU和ELU激活函数，K_b表示注意力头的数目，

表示x₁到x_K向量的级联，

是第l层中第k个注意力头计算的归一化系数，

表示第l+1层中第t个节点更新后的节点表示。经过L层传播后，本公开可以得到每个节点的最终表示

在步骤S240中，根据话语节点关系图，确定用户账户在本次对话中的目标对话意图。

具体实现中，服务器在获取到话语节点关系图后，服务器可以根据话语节点关系图，确定用户账户在本次对话中的目标对话意图。具体来说，服务器可以对话语节点关系图中各节点对应的向量表示进行融合，得到用于表征用户账户在本次对话中的目标对话意图的向量表示。

上述的对话意图识别方法，通过获取与用户账户之间的历史对话语句，并提取各历史对话语句对应的话语特征，并分别将各话语特征作为节点，并对各节点进行两两连接，得到话语节点全连接图，再将话语节点全连接图输入至预训练的图神经网络模型，得到话语节点关系图；话语节点关系图为预训练的图神经网络模型对话语节点全连接图中的各节点的向量表示和各节点间的连接关系进行调整后得到的；话语节点关系图中相连接的两个节点所对应的历史对话语句具有上下文关联关系；最后，再根据话语节点关系图，确定用户账户在本次对话中的目标对话意图；如此，实现将人机对话中的每个话语视为一个节点，通过图神经网络去动态地捕捉每个节点的关系上下文，以加强每个节点的全局表示，可以基于该话语节点关系图准确地确定出用户在本次人机对话中的整体意图，便于后续对该用户账户发送的对话语句进行准确地对话响应并进行回复。

在一示例性实施例中，若历史对话语句包括文本，提取各历史对话语句对应的话语特征，包括：将文本输入至预训练的文本编码器，得到文本的文本向量表示；将文本向量表示确定为历史对话语句对应的话语特征；若历史对话语句包括图像，提取各历史对话语句对应的话语特征，包括：将图像输入至预训练的视觉编码器，得到图像的视觉向量表示；将视觉向量表示确定为历史对话语句对应的话语特征。

具体实现中，服务器在提取各历史对话语句对应的话语特征的过程中，若服务器确定历史对话语句包括文本，服务器则将历史对话语句中的文本输入至预训练的文本编码器，得到文本的文本向量表示，并将该文本向量表示确定为历史对话语句对应的话语特征。实际应用中，预训练的文本编码器可以是一种预训练的文本向量模型，该文本向量模型可以将输入的文本转化为文本向量表示。

若服务器确定历史对话语句包括图像，服务器则将历史对话语句中的图像输入至预训练的视觉编码器，得到图像的视觉向量表示，并将该视觉向量表示确定为历史对话语句对应的话语特征。实际应用中，预训练的视觉编码器可以是一种预训练的图像特征提取模型，该图像特征提取模型可以将输入的图像进行特征提取，得到用于表征图像的图像特征的视觉向量表示。

本实施例的技术方案，若历史对话语句包括文本，则将文本输入至预训练的文本编码器，得到文本的文本向量表示；若历史对话语句包括图像，则将图像输入至预训练的视觉编码器，得到图像的视觉向量表示；如此，可以基于历史对话语句的类型，适应性地对历史对话语句进行特征提取，实现准确地提取各历史对话语句对应的话语特征。

在一示例性实施例中，若历史对话语句包括文本和图像，提取各历史对话语句对应的话语特征，包括：将文本输入至预训练的文本编码器，得到文本的文本向量表示，以及，将图像输入至预训练的视觉编码器，得到图像的视觉向量表示；对文本向量表示和视觉向量表示进行融合处理，得到融合向量表示；将融合向量表示确定为历史对话语句对应的话语特征。

具体实现中，若历史对话语句包括文本和图像，服务器在提取各历史对话语句对应的话语特征的过程中，服务器可以将文本输入至预训练的文本编码器，得到文本的文本向量表示，以及，服务器可以将图像输入至预训练的视觉编码器，得到图像的视觉向量表示。然后，服务器再将文本向量表示和视觉向量表示进行融合处理，得到融合向量表示，并将该融合向量表示确定为历史对话语句对应的话语特征。实际应用中，服务器可以将文本向量表示

和视觉向量表示

进行连接操作，得到第t个话语的跨模态表示X_t。

其中，

由于融合向量表示携带有文本向量表示中的文本信息和视觉向量表示中的视觉信息。因此，本领域技术人员也可以将融合向量表示命名为跨模态表示。

本实施例的技术方案，若历史对话语句包括文本和图像，通过将历史对话语句中的文本输入至预训练的文本编码器，得到文本的文本向量表示，以及，将历史对话语句中的图像输入至预训练的视觉编码器，得到图像的视觉向量表示，并对文本向量表示和视觉向量表示进行连接操作，使得得到的话语特征可以有效地表征各个历史对话语句中的文本信息和图像信息。

在一示例性实施例中，将文本输入至预训练的文本编码器，得到文本的文本向量表示，包括：获取文本中每个词的原始词向量表示；将各原始词向量表示输入至预训练的文本编码器中的第一注意力机制层，得到各词的加权后词向量表示；分别对各词的加权后词向量表示和原始词向量表示进行融合处理，得到各词的融合后词向量表示；将各融合后词向量表示输入至预训练的文本编码器中的文本表示模型，得到文本的文本向量表示。

其中，第一注意力机制层，用于基于各词与预设词属性之间的相关程度，确定各词的属性权重，并按照各词的属性权重，对各词的原始词向量表示进行加权，得到各词的加权后词向量表示。

其中，预设词属性可以是常用属性，包括“颜色”、“性别”、“材料”、“风格”和“类型”等等。

具体实现中，服务器在将文本输入至预训练的文本编码器，得到文本的文本向量表示的过程中，服务器可以获取文本中每个词的原始词向量表示，并将各原始词向量表示输入至预训练的文本编码器中的第一注意力机制层；服务器，通过该第一注意力机制层，基于各词与预设词属性之间的相关程度，确定各词的属性权重，并按照各词的属性权重，对各词的原始词向量表示进行加权，得到各词的加权后词向量表示。服务器可以分别对各词的加权后词向量表示和原始词向量表示进行融合处理，得到各词的融合后词向量表示。最后，服务器再将各融合后词向量表示输入至预训练的文本编码器中的文本表示模型，得到文本的文本向量表示。

举例来说，服务器可以预训练的GloVe模型(一种词向量提取模型)来提取词向量(即原始词向量表示)

其中w_i表示第i个词的词向量，K表示句子中词汇的数目，D_w表示词向量的维度。为了突出文本中的关键词，本公开设计了一种多属性注意力机制。为属性集

(本公开选用了五种常用属性，包括“颜色”、“性别”、“材料”、“风格”和“类型”)中的每一种属性建立了一个属性矩阵

来存储该属性下属性值的词向量，其中A表示属性的数目，K_a表示第a种属性的属性值数目，

是第a种属性中第j个属性值的词向量。

对于文本中的每个词，本公开计算其与所有属性中每个属性值的相关性分数，并基于上述注意力权重，创建了所有属性值的加权组合，从而得到第a种属性增强的词表示

相关计算公式如下：

其中，

表示第i个词与第a种属性中第j个属性值的相关性分数，

表示归一化后的注意力权重。

之后对于文本中的每个词，本公开都获得了A种特定属性的词表示

本公开采用注意力网络来聚合上述词表示，计算公式如下：

其中，

表示第i个词与第a种属性增强后的第i个词的相关性分数，

表示归一化后的注意力权重，

是多种属性增强后的第i个词表示向量(即加权后词向量表示)。

然后，本公开利用直连机制来融合

和w_i，得到最终增强后的词表示(即融合后词向量表示)。接下来这些融合后词向量表示被送入LSTM网络(一种预训练的文本编码器中的文本表示模型)，并将其最终的隐藏状态视为第t个话语的文本表示

即文本的文本向量表示。

本实施例的技术方案，通过获取文本中每个词的原始词向量表示；将各原始词向量表示输入至预训练的文本编码器中的第一注意力机制层，利用该第一注意力机制层，基于各词与预设词属性之间的相关程度，确定各词的属性权重，并按照各词的属性权重，对各词的原始词向量表示进行加权，得到各词的加权后词向量表示，并分别对各词的加权后词向量表示和原始词向量表示进行融合处理，得到各词的融合后词向量表示；将各融合后词向量表示输入至预训练的文本编码器中的文本表示模型，得到文本的文本向量表示。如此，通过将属性矩阵作为指导信息，可以实现增强每个话语的局部表示，使得模型自适应地关注到与属性相关的关键字，进而理解每个话语的局部用户意图。

在一示例性实施例中，若历史对话语句包括文本和图像，将图像输入至预训练的视觉编码器，得到图像的视觉向量表示，包括：将图像输入至预训练的视觉编码器中的图像特征提取层，得到图像的特征图；将特征图输入至预训练的视觉编码器中的第二注意力机制层，得到视觉向量表示。

其中，第二注意力机制层，用于根据文本向量表示，确定图像的用户关注区域，并按照用户关注区域对特征图进行加权，得到图像的视觉向量表示。

具体实现中，若历史对话语句包括文本和图像，服务器在将图像输入至预训练的视觉编码器，得到图像的视觉向量表示的过程中，服务器可以将图像输入至预训练的视觉编码器中的图像特征提取层，得到图像的特征图；将特征图输入至预训练的视觉编码器中的第二注意力机制层，通过该第二注意力机制层，根据文本向量表示，确定图像的用户关注区域，并按照用户关注区域对特征图进行加权，得到图像的视觉向量表示。

举例来说，服务器可以将图像输入至去除最终全连接层的预训练ResNet-18网络(即预训练的视觉编码器中的图像特征提取层)，得到R×512维的特征图，其中R表示特征图中像素的数目。之后可根据从上文的文本编码器输出文本向量表示，获得的用户偏好表示

计算每个视觉区域v_i与用户偏好之间的对齐分数，公式如下：

其中，f_att表示由1层感知机构成的注意力网络，e_i表示第i个视觉区域与用户偏好表示的对齐分数，s_i表示归一化后的注意力权重。

在获得这些偏好感知的注意力权重后，第t个话语的最终视觉表示

可计算如下：

本实施例的技术方案，若历史对话语句包括文本和图像，通过将图像输入至预训练的视觉编码器中的图像特征提取层，得到图像的特征图；将特征图输入至预训练的视觉编码器中的第二注意力机制层，通过该第二注意力机制层，根据文本向量表示，确定图像的用户关注区域，并按照用户关注区域对特征图进行加权，使得得到图像的视觉向量表示可以更有效地表征出用户感兴趣的视觉区域。

为了便于本领域技术人员的理解，图5实例性地提供了一种语句特征提取模型的框架图。请参见图5，已知历史对话语句包括文本A“我想要给自己买一双TPR绒面革制的凉鞋，和这张图片一样。”和图像510。服务器则将历史对话语句中的文本A获取文本中每个词的原始词向量表示；将各原始词向量表示输入至预训练的文本编码器中的第一注意力机制层，通过第一注意力机制层，采用多属性矩阵M，对各词的原始词向量表示进行加权，得到各词的加权后词向量表示得到各词的加权后词向量表示；分别对各词的加权后词向量表示和原始词向量表示进行融合处理，得到各词的融合后词向量表示；将各融合后词向量表示输入至预训练的文本编码器中的文本表示模型(例如，LSTM(Long Short-TermMemory，长短期记忆网络)模型)，得到文本的文本向量表示。同时，服务器则将历史对话语句中的图像510输入至预训练的视觉编码器中的图像特征提取层(如，ResNET，一种图像特征提取模型)，得到图像的特征图；将特征图输入至预训练的视觉编码器中的第二注意力机制层，得到视觉向量表示。其中，第二注意力机制层，用于根据文本向量表示，确定图像的用户关注区域，并按照用户关注区域对特征图进行加权，得到图像的视觉向量表示。再然后，服务器通过融合层，对文本向量表示和视觉向量表示进行融合处理，得到融合向量表示；将融合向量表示确定为历史对话语句对应的话语特征X_t。

在一示例性实施例中，根据话语节点关系图，确定用户账户在本次对话中的目标询问意图，包括：获取所述话语节点关系图中目标对话节点的第一节点向量表示，以及，所述话语节点全连接图中目标对话节点的第二节点向量表示；目标对话节点为用户账户当前发送的对话语句对应的节点；对第一节点向量表示和第二节点向量表示进行融合处理，得到用于表征目标对话意图的意图向量表示。

其中，目标对话节点的第一节点向量表示也可以命名为更新前的问题向量表示；目标对话节点的第二节点向量表示也可以命名为更新后的问题向量表示

具体实现中，服务器在根据话语节点关系图，确定用户账户在本次对话中的目标询问意图的过程中，服务器可以获取话语节点关系图中目标对话节点的第一节点向量表示，以及，话语节点全连接图中目标对话节点的第二节点向量表示；目标对话节点为用户账户当前发送的对话语句对应的节点；然后，服务器对第一节点向量表示和第二节点向量表示进行融合处理，得到用于表征目标对话意图的意图向量表示。

举例来说，服务器可以获取话语节点关系图中各节点的第一节点向量表示X_N，以及，话语节点全连接图中各节点的第二节点向量表示

然后，服务器将第一节点向量表示X_N和第二节点向量表示

送入全连接层，实现对第一节点向量表示X_N和第二节点向量表示

进行融合处理，得到用于表征目标对话意图的意图向量表示。

本实施例的技术方案，通过获取所述话语节点关系图中目标对话节点的第一节点向量表示，以及，所述话语节点全连接图中目标对话节点的第二节点向量表示；目标对话节点为用户账户当前发送的对话语句对应的节点；并对第一节点向量表示和第二节点向量表示进行融合处理，从而可以准确得到用于表征最终涵盖用户需求的目标对话意图的意图向量表示。

在一示例性实施例中，历史对话语句包括用户账户当前发送的对话语句；根据话语节点关系图，确定用户账户在本次对话中的目标对话意图的步骤之后，方法还包括：获取与目标对话意图相匹配的目标答复内容；发送包含有目标答复内容的答复语句至用户账户，以响应对话语句。

具体实现中，服务器在根据话语节点关系图，确定用户账户在本次对话中的目标对话意图之后，服务器则对获取与目标对话意图相匹配的目标答复内容，并发送包含有目标答复内容的答复语句至用户账户，以响应对话语句。具体来说，服务器可以在目标对话意图对应的意图向量表示，在候选答复内容中确定出与该目标对话意图相匹配的候选答复内容作为上述的目标答复内容。服务器基于该目标答复内容，生成针对用户账户当前发送的对话语句的答复语句。服务器再将该答复语句发送至用户账户所在的终端，实现与用户账户的人机对话。

本实施例的技术方案，通过获取与目标对话意图相匹配的答复内容；发送包含有答复内容的答复语句至用户账户以响应对话语句，进而可以实现基于用户账户在本次对话中的全局对话意图，参考不同话语之间的信息补充关系来自然地与该用户账户实现多模态对话任务，准确性大幅度提高。

在一示例性实施例中，提供了一种用于识别对话意图的模型的训练方法，包括：获取训练样本数据；训练样本数据包括样本对话语句和对应的答复内容；提取各样本对话语句对应的样本话语特征；分别将各样本话语特征作为节点，并对各节点进行两两连接，得到样本话语节点全连接图；将样本话语节点全连接图输入至待训练的图神经网络模型，得到样本话语节点关系图；样本话语节点关系图为待训练的图神经网络模型对样本话语节点全连接图中的各节点对应的上下文信息和各节点间的连接关系进行调整后得到的；样本话语节点关系图中相连接的两个节点所对应的样本对话语句具有上下文关联关系；根据话语节点关系图，确定样本对话语句的预测对话意图，并获取与预测对话意图相匹配的预测答复内容。

需要说明的是，上述步骤的数据处理过程的原理与上文一种对话意图识别方法的步骤的数据处理过程的原理相同，上述步骤的具体限定可以参见上文对一种对话意图识别方法的具体限定，在此不再赘述。

具体实现中，服务器再基于样本对话语句对应的答复内容与预测答复内容间的差异，对待训练的图神经网络模型的模型参数进行调整，直至调整后的待训练的图神经网络模型符合预设训练结束条件，得到上述的预训练的图神经网络模型。具体来说，服务器可以将样本对话语句对应的答复内容与预测答复内容输入至预设的损失函数，得到对应的损失函数值。然后，服务器可以采用反向传播算法和梯度下降方法，利用损失函数值对待训练的图神经网络模型的模型参数进行调整，直至调整后的待训练的图神经网络模型符合预设训练结束条件，得到预训练的图神经网络模型。

在一示例性实施例中，获取与目标对话意图相匹配的目标答复内容，包括：获取候选答复内容的内容向量表示，以及，目标对话意图的意图向量表示；分别计算意图向量表示与各内容向量表示间的相似度；将相似度最大的内容向量表示所对应的候选答复内容，确定为目标答复内容。

其中，上述候选答复内容包括各种基于网络推荐的内容，比如，候选答复内容包括电影、音乐、书籍、商品、新闻、广告等等。本申请实施例对候选答复内容的内容形式不做限定。

具体实现中，服务器在获取与目标对话意图相匹配的答复内容的过程中，服务器可以获取候选答复内容的内容向量表示，以及，目标对话意图的意图向量表示。然后，服务器分别计算出意图向量表示与各内容向量表示间的相似度；最后，服务器将相似度最大的内容向量表示所对应的候选答复内容，确定为目标答复内容。

实际应用中，服务器获取候选答复内容的内容向量表示与服务器获取历史对话语句对应的话语特征(话语向量表示)所采用的方法相同，在此不再赘述。以候选答复内容为某种商品为例，考虑到产品属性信息可以描述产品的特征，服务器可以将某种商品的文本信息(例如，商品描述文本)与视觉信息(例如，商品图片)同时送入节点初始化模块，进而得到该候选推荐商品的向量表示。然后，服务器计算问题向量c(即意图向量表示)和候选推荐商品的向量表示之间的余弦相似度。最后，将相似度分数较高的候选推荐商品对应的图像作为目标答复内容进行响应返回。需要说明的是，上述步骤可以采用图像响应生成器(一种预训练的神经网络模型)。其中，该图像响应生成器的模型损失函数可以为最大边际损失函数。

实际应用中，上述的响应生成器也可以命名为答复内容生成模型。

在一示例性实施例中，获取与预测对话意图相匹配的预测答复内容，包括：将预测对话意图输入待训练的答复内容生成模型，得到预测答复内容；其中，待训练的答复内容生成模型用于获取候选答复内容的内容向量表示，以及，预测对话意图的意图向量表示，并分别计算意图向量表示与各内容向量表示间的相似度，将相似度最大的内容向量表示所对应的候选答复内容，确定为预测答复内容；在获取与预测对话意图相匹配的预测答复内容的步骤之后，方法还包括：基于样本对话语句对应的答复内容与预测答复内容间的差异，对待训练的答复内容生成模型的模型参数进行调整，直至调整后的待训练的答复内容生成模型符合预设训练结束条件，得到预训练的答复内容生成模型。

其中，该模型损失函数公式为：loss＝max(0，1-cos(c，y_pos)+cos(c，y_neg))，其中y_pos和y_neg分别表示正例和负例产品表示，函数cos(x，y)指的是x和y之间的余弦相似度。

需要说明的是，上述的图像响应生成器也可被文本响应生成器所替代。上述实施例中的技术方案不仅可应用于生成图像响应，也可应用于生成文本响应。

本实施例的技术方案，在获取与目标对话意图相匹配的答复内容的过程中，通过获取候选答复内容的内容向量表示，以及，目标对话意图的意图向量表示，并分别计算意图向量表示与各内容向量表示间的相似度；再将相似度最大的内容向量表示所对应的候选答复内容，确定为答复内容，如此，可以实现在候选答复内容中准确地确定出与目标对话意图相匹配的候选答复内容，作为向用户账户发送的对话语句进行响应的答复内容。

图6是根据一示例性实施例示出的另一种对话意图识别方法的流程图，如图6所示，该方法用于图1中的服务器中，包括以下步骤。在步骤S602中，获取与用户账户之间的历史对话语句；所述历史对话语句包括文本和图像；所述历史对话语句包括所述用户账户当前发送的对话语句。在步骤S604中，获取所述文本中每个词的原始词向量表示。在步骤S606中，将各所述原始词向量表示输入至所述预训练的文本编码器中的第一注意力机制层，得到各所述词的加权后词向量表示。在步骤S608中，分别对各所述词的加权后词向量表示和原始词向量表示进行融合处理，得到各所述词的融合后词向量表示。在步骤S610中，将各所述融合后词向量表示输入至所述预训练的文本编码器中的文本表示模型，得到所述文本的文本向量表示。在步骤S612中，将所述图像输入至所述预训练的视觉编码器中的图像特征提取层，得到所述图像的特征图。在步骤S614中，将所述特征图输入至所述预训练的视觉编码器中的第二注意力机制层，得到所述视觉向量表示。在步骤S616中，对所述文本向量表示和所述视觉向量表示进行融合处理，得到融合向量表示，作为所述历史对话语句对应的话语特征。在步骤S618中，分别将各所述话语特征作为节点，并对各所述节点进行两两连接，得到话语节点全连接图。在步骤S620中，将所述话语节点全连接图输入至预训练的图神经网络模型，得到话语节点关系图。在步骤S622中，根据所述话语节点关系图，确定所述用户账户在本次对话中的目标对话意图。在步骤S624中，获取候选答复内容的内容向量表示，以及，所述目标对话意图的意图向量表示。在步骤S626中，分别计算所述意图向量表示与各所述内容向量表示间的相似度。在步骤S628中，将所述相似度最大的内容向量表示所对应的候选答复内容，确定为目标答复内容。在步骤S630中，发送包含有所述目标答复内容的答复语句至所述用户账户，以响应所述对话语句。需要说明的是，上述步骤的具体限定可以参见上文对一种对话意图识别方法的具体限定，在此不再赘述。

为了便于本领域技术人员的理解，图7提供了一种对话生成方法的流程图。参见图7，在用户账户通过终端与服务器进行人机对话的过程中，当用户账户输入的当前语句“我不喜欢第二个结果，可以给我看一些类似于第四个结果的裙裤吗？”，服务器获取与用户账户之间的历史对话语句(例如，图7中的话语1至话语5)，并通过节点初始化模块，分别提取出各所述历史对话语句对应的话语特征。然后，服务器分别将各所述话语特征作为节点，并对各所述节点进行两两连接，得到话语节点全连接图；再然后，将所述话语节点全连接图输入至预训练的图神经网络模型，得到话语节点关系图；所述话语节点关系图为所述预训练的图神经网络模型对所述话语节点全连接图中的各节点的向量表示和各节点间的连接关系进行调整后得到的；所述话语节点关系图中相连接的两个节点所对应的历史对话语句具有上下文关联关系。然后，根据所述话语节点关系图，确定所述用户账户在本次对话中的目标对话意图即问题表示C。再然后，服务器将问题表示C输入至响应生成器。以该响应生成器为内容推荐响应生成器为例，通过该内容推荐响应生成器，获取候选答复内容的内容向量表示，以及，目标对话意图的意图向量表示；分别计算意图向量表示与各内容向量表示间的相似度；将相似度最大的内容向量表示所对应的候选答复内容，确定为目标答复内容。最后，服务器发送包含有目标答复内容的答复语句至用户账户，以响应对话语句。

应该理解的是，虽然图2和图6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2和图6中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

可以理解的是，本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见，每个实施例重点说明的是与其他实施例的不同之处，相关之处参见其他方法实施例的说明即可。

图8是根据一示例性实施例示出的一种对话意图识别装置框图。参照图8，该装置包括：

获取单元810，被配置为执行获取与用户账户之间的历史对话语句，并提取各所述历史对话语句对应的话语特征；

连接单元820，被配置为执行分别将各所述话语特征作为节点，并对各所述节点进行两两连接，得到话语节点全连接图；

调整单元830，被配置为执行将所述话语节点全连接图输入至预训练的图神经网络模型，得到话语节点关系图；所述话语节点关系图为所述预训练的图神经网络模型对所述话语节点全连接图中的各节点的向量表示和各节点间的连接关系进行调整后得到的；所述话语节点关系图中相连接的两个节点所对应的历史对话语句具有上下文关联关系；

识别单元840，被配置为执行根据所述话语节点关系图，确定所述用户账户在本次对话中的目标对话意图。

在一示例性实施例中，若所述历史对话语句包括文本，所述获取单元810，具体被配置为执行将所述文本输入至预训练的文本编码器，得到所述文本的文本向量表示；将所述文本向量表示确定为所述历史对话语句对应的话语特征；若所述历史对话语句包括图像，所述提取各所述历史对话语句对应的话语特征，包括：将所述图像输入至预训练的视觉编码器，得到所述图像的视觉向量表示；将所述视觉向量表示确定为所述历史对话语句对应的话语特征。

在一示例性实施例中，若所述历史对话语句包括文本和图像，所述获取单元810，具体被配置为执行将所述文本输入至预训练的文本编码器，得到所述文本的文本向量表示，以及，将所述图像输入至预训练的视觉编码器，得到所述图像的视觉向量表示；对所述文本向量表示和所述视觉向量表示进行融合处理，得到融合向量表示；将所述融合向量表示确定为所述历史对话语句对应的话语特征。

在一示例性实施例中，所述获取单元810，具体被配置为执行获取所述文本中每个词的原始词向量表示；将各所述原始词向量表示输入至所述预训练的文本编码器中的第一注意力机制层，得到各所述词的加权后词向量表示；所述第一注意力机制层，用于基于各所述词与预设词属性之间的相关程度，确定各所述词的属性权重，并按照各所述词的属性权重，对各所述词的原始词向量表示进行加权，得到各所述词的加权后词向量表示；分别对各所述词的加权后词向量表示和原始词向量表示进行融合处理，得到各所述词的融合后词向量表示；将各所述融合后词向量表示输入至所述预训练的文本编码器中的文本表示模型，得到所述文本的文本向量表示。

在一示例性实施例中，若所述历史对话语句包括文本和图像，所述获取单元810，具体被配置为执行将所述图像输入至所述预训练的视觉编码器中的图像特征提取层，得到所述图像的特征图；将所述特征图输入至所述预训练的视觉编码器中的第二注意力机制层，得到所述视觉向量表示；所述第二注意力机制层，用于根据所述文本向量表示，确定所述图像的用户关注区域，并按照所述用户关注区域对所述特征图进行加权，得到所述图像的视觉向量表示。

在一示例性实施例中，所述识别单元840，具体被配置为执行获取所述话语节点关系图中目标对话节点的第一节点向量表示，以及，所述话语节点全连接图中目标对话节点的第二节点向量表示；所述目标对话节点为所述用户账户当前发送的对话语句对应的节点；对所述第一节点向量表示和所述第二节点向量表示进行融合处理，得到用于表征所述目标对话意图的意图向量表示。

在一示例性实施例中，还提供了一种用于识别对话意图的模型的训练装置，包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9是根据一示例性实施例示出的一种用于执行上述对话意图识别方法的电子设备900的框图。例如，电子设备900可以为服务器。参照图9，电子设备900包括处理组件920，其进一步包括一个或多个处理器，以及由存储器922所代表的存储器资源，用于存储可由处理组件920的执行的指令，例如应用程序。存储器922中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件920被配置为执行指令，以执行上述方法。

电子设备900还可以包括：电源组件924被配置为执行电子设备900的电源管理，有线或无线网络接口926被配置为将电子设备900连接到网络，和输入输出(I/O)接口928。电子设备900可以操作基于存储在存储器922的操作系统，例如Windows Server，Mac OS X，Unix，Linux，FreeBSD或类似。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器922，上述指令可由电子设备900的处理器执行以完成上述方法。存储介质可以是计算机可读存储介质，例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，所述计算机程序产品中包括指令，上述指令可由电子设备900的处理器执行以完成上述方法。

需要说明的，上述的装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种对话意图识别方法，其特征在于，包括：

2.根据权利要求1所述的对话意图识别方法，其特征在于，若所述历史对话语句包括文本和图像，所述提取各所述历史对话语句对应的话语特征，包括：

3.根据权利要求2所述的对话意图识别方法，其特征在于，所述将所述文本输入至预训练的文本编码器，得到所述文本的文本向量表示，包括：

获取所述文本中每个词的原始词向量表示；

4.根据权利要求1所述的对话意图识别方法，其特征在于，所述根据所述话语节点关系图，确定所述用户账户在本次对话中的目标对话意图，包括：

5.一种用于识别对话意图的模型的训练方法，其特征在于，包括：

提取各所述样本对话语句对应的样本话语特征；

6.一种对话意图识别装置，其特征在于，包括：

调整单元，被配置为执行将所述话语节点全连接图输入至预训练的图神经网络模型，得到话语节点关系图；所述话语节点关系图为所述预训练的图神经网络模型对所述话语节点全连接图中的各节点的向量表示和各节点间的连接关系进行调整后得到的；所述话语节点关系图中相连接的两个节点所对应的历史对话语句具有上下文关联关系；

7.一种用于识别对话意图的模型的训练装置，其特征在于，包括：

8.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至4中任一项所述的对话意图识别方法，和/或，如权利要求5所述的用于识别对话意图的模型的训练方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行如权利要求1至4中任一项所述的对话意图识别方法，和/或，如权利要求5所述的用于识别对话意图的模型的训练方法。

10.一种计算机程序产品，所述计算机程序产品中包括指令，其特征在于，所述指令被服务器的处理器执行时，使得所述服务器能够执行如权利要求1至4中任一项所述的对话意图识别方法，和/或，如权利要求5所述的用于识别对话意图的模型的训练方法。