CN114065047A

CN114065047A - 一种基于多级注意力机制的知识增强对话推荐方法

Info

Publication number: CN114065047A
Application number: CN202111410022.1A
Authority: CN
Inventors: 彭敦陆; 郭晓哲
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-02-18

Abstract

本发明涉及一种基于多级注意力机制的知识增强对话推荐方法，该方法包括：话题预测：基于历史对话上下文、历史话题序列、用户偏好档案预测下一个话题；物品推荐：基于历史对话上下文、历史交互序列、用户偏好档案推荐用户感兴趣的物品；对话生成：基于预测的话题生成贴合话题的回复或基于推荐的物品回复推荐物品的理由。与现有技术相比，本发明能够进行话题的切换并逐步引导到推荐场景上，实现良好的推荐效果。

Description

一种基于多级注意力机制的知识增强对话推荐方法

技术领域

本发明涉及人工智能下的自然语言处理技术领域，尤其是涉及一种基于多级注意力机制的知识增强对话推荐方法。

背景技术

随着深度学习在阅读理解、关系抽取以及问答系统等多个自然语言处理任务上的深度应用取得了不错的效果，实现一个智能的人机对话系统成为了可能，具有很高的研究价值，特别是近几年，基于对话去进行推荐的对话推荐系统成为了非常热门的研究方向。

对话推荐系统将开放式聊天系统和任务型聊天系统结合起来，希望能够完成这样一种情景——机器与用户从日常闲聊开始，然后在聊天的过程中由机器引导逐步转移聊天的话题并收集用户的偏好信息，最终到达对用户的推荐场景，向用户推荐他可能感兴趣的物品。基于上面的描述，对话推荐系统与普通对话系统的区别在于它在对话系统中融入了推荐任务，因此对话推荐系统主要可以分为三个子模块：话题预测模块基于对话上下文和历史话题序列预测下一阶段的聊天话题；推荐模块基于对话上下文和输入中的用户偏好信息选择出要向用户进行推荐的物品；对话生成模块基于对话上下文以及预测的话题或推荐的物品来生成对应的回复。

现有的对话推荐系统，有的采用的是任务型对话系统的做法，通过预定义一些关键信息插槽，然后通过问答的形式与用户进行交互获取关键信息并填充插槽，进而实现推荐任务，但这种方式没法实现自然地与用户进行交互，不贴合现实生活中的情景；有的尝试以开放式聊天的方式去与用户进行交互并获取用户偏好信息，然后进行推荐，这种方式能够生成自然的回复，整个对话过程更流畅、更真实，但能提取到的信息相对有限，导致推荐效果不太理想；有的在对话推荐系统中融入外部知识库，利用其包含的丰富信息来增强生成回复的信息性和多样性，这种方式能够捕捉到更丰富的语义信息，是一种不错的解决方案。但上面这些模型都没有使用对话过程中的话题序列信息，而话题序列信息对推荐模块和对话生成模块都是很有用的，不可忽略的。因此，需要有一种更加智能的对话推荐方法来解决上述问题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于多级注意力机制的知识增强对话推荐方法。

本发明的目的可以通过以下技术方案来实现：

一种基于多级注意力机制的知识增强对话推荐方法，该方法包括：

话题预测：基于历史对话上下文、历史话题序列、用户偏好档案预测下一个话题；

物品推荐：基于历史对话上下文、历史交互序列、用户偏好档案推荐用户感兴趣的物品；

对话生成：基于预测的话题生成贴合话题的回复或基于推荐的物品回复推荐物品的理由。

优选地，所述的话题预测具体包括：

S11、对历史对话上下文、历史话题序列、用户偏好档案分别进行编码得到三个不同的语义向量；

S12、在外部知识图谱中查询与当前时刻话题直接相连的实体所构成的单跳子图，对单跳子图进行编码得到当前时刻话题的知识图谱语义向量；

S13、对历史对话上下文、历史话题序列、用户偏好档案以及话题知识图图谱的语义向量进行融合得到话题预测语义融合向量；

S14、将话题预测语义融合向量与各个候选话题向量进行计算得分，得到的候选话题概率，将概率最高的候选话题作为预测得到的话题。

优选地，所述的物品推荐具体包括：

S21、对历史对话上下文、历史交互序列、用户偏好档案分别进行编码得到三个不同的语义向量；

S22、在外部知识图谱中查询与历史交互物品直接相连的实体所构成的单跳子图，对单跳子图进行编码得到历史交互物品的知识图谱语义向量；

S23、对历史对话上下文、历史交互序列、用户偏好档案以及交互物品知识图图谱的语义向量进行融合得到物品推荐语义融合向量；

S24、将物品推荐语义融合向量与各个候选物品向量进行计算得分，得到的候选物品概率，将概率最高的候选物品作为推荐的物品。

优选地，所述的对话生成具体包括：

S31、基于当前是对话场景还是推荐场景，选择预测的话题或推荐的物品，结合历史对话上下文以及外部知识图谱作为对话生成模型的输入；

S32、采用对话生成模型进行编码解码得到基于预测的话题生成贴合话题的回复或基于推荐的物品回复推荐物品的理由。

优选地，进行话题预测时，所述的历史对话上下文、历史交互序列、用户偏好档案分别通过BERT模型进行编码。

优选地，获取当前时刻话题的知识图谱语义向量时采用图注意力网络的局部注意力机制对相应的单跳子图进行编码。

优选地，进行物品推荐时，所述的历史对话上下文、用户偏好档案分别通过BERT模型进行编码，所述的历史交互序列通过自注意力序列化推荐模型SASREC进行编码。

优选地，获取历史交互物品的知识图谱语义向量时采用图注意力网络的局部注意力机制对相应的单跳子图进行编码。

优选地，对多个不同的语义向量进行融合时采用全局注意力机制进行融合。

优选地，所述的对话生成模型包括GPT-2模型。

与现有技术相比，本发明具有如下优点：

本发明实现在对话场景下，机器与用户从日常闲聊开始，然后在聊天的过程中由机器引导逐步转移聊天的话题并收集用户的偏好信息，最终到达对用户的推荐场景，向用户推荐他可能感兴趣的物品，实现良好的推荐效果。

附图说明

图1为本发明一种基于多级注意力机制的知识增强对话推荐方法的模型结构图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。注意，以下的实施方式的说明只是实质上的例示，本发明并不意在对其适用物或其用途进行限定，且本发明并不限定于以下的实施方式。

实施例

本发明提供一种基于多级注意力机制的知识增强对话推荐方法。该方法实现在对话场景下，机器与用户从日常闲聊开始，然后在聊天的过程中由机器引导逐步转移聊天的话题并收集用户的偏好信息，最终到达对用户的推荐场景，向用户推荐他可能感兴趣的物品(这里所述的物品如物品、歌曲、电子产品等)。

该方法包括话题预测、物品推荐以及对话生成这三个主要模块，以下针对三个主要模块进行具体说明：

(1)话题预测模块

话题预测模块旨在根据历史对话上下文{s₁，...，s_k-1}，历史话题序列{t₁，...，t_k-1}，用户偏好档案P_u等信息去预测下一个话题t_k，然后对话生成模型就可以基于t_k去生成合适的回复且逐渐引导话题到推荐场景上。

该步骤具体包括：

(1.1)输入编码

BERT是一个从大型语料库中训练得到的预训练语言模型，由多个Transformer的encoder(编码器)堆叠而成，在刚提出的时候就在11个NLP任务上取得了state of the art的效果。BERT能够获得如此成功，很大程度上要归功于Transformer的self-attention机制。这里先简单介绍一下最开始的attention机制，然后介绍一下self-attention机制以及它为什么这么有效。

在最开始的Encoder-Decoder(编解码器)模型中，Decoder端用来解码的语义向量是将Encoder编码得到的所有信息直接融合得到的，其中可能会包含对当前解码阶段无用的信息，且信息量太大，模型不知道该关注哪部分信息，针对此问题提出了attention机制：

e_ij＝a(s_i-1，h_j)，

其中，c_i为时刻i的语义向量，α_ij为计算得到的注意力分数(权重)，h_j为Encoder端时刻j的隐层向量，e_ij表示时刻i的输出和时刻j的输入之间的相关程度，s_i-1为时刻i-1的输出。

采用上述的attention机制就可以使模型更关注于对当前解码阶段更重要的信息，而忽略次要的信息，进而达到更好的编码解码效果。但这种注意力机制更多的是捕捉到输入和输出之间的相关关系，没法捕捉到输入内部本身的相关信息，针对此问题提出了Transformer的self-attention机制：

首先，让输入X与三个不同的可训练参数矩阵相乘，得到Q，K，V三个矩阵：

Q＝W_QX，

K＝W_KX，

V＝W_VX，

然后，让Q矩阵和K矩阵中的向量进行交互并且经过softmax函数得到self-attention score：

其中d_k为K矩阵中向量的维度。

最后，将self-attention score和V矩阵进行相乘得到最终的语义向量Z：

Z＝score·V，

上述过程汇总得到self-attention的计算公式：

采用这种让输入内部去进行自我交互计算self-attention的方式，可以让模型捕捉到输入内部更重要的信息，忽略次要信息。

本模型首先利用三种不同的BERT来对多个维度的信息进行编码，BERT_conv用来编码历史对话上下文，BERT_topic用来编码历史话题序列，BERT_profile用来编码用户偏好档案：

v_conv＝BERT_conv({s₁，...，s_k-1})，

v_topic＝BERT_topic({t₁，...，t_k-1})，

v_profile＝BERT_profile(P_u)，

其中v_conv，v_topic，v_profile分别为历史对话上下文、历史话题序列以及用户偏好档案编码后得到的语义向量，由于BERT中的注意力机制可以从微观的角度捕捉到在三种信息内部哪些信息更重要，且BERT拥有从大型语料库训练后得到的强大的编码信息的能力，因此得到的三种语义向量能很好地表示三个维度的丰富信息。

(1.2)知识图谱嵌入

除此之外，本发明认为外部知识图谱中与当前话题相关的信息对话题预测也是非常重要的，因此除了以上三个维度的信息外，还在本发明中融入了ConceptNet知识图谱的信息。首先，基于当前时刻的话题t_k-1在ConceptNet中查询出与t_k-1直接相连的实体所构成的单跳子图，然后采用图注意力网络对该子图进行编码，图注意力网络用来对图结构的数据进行编码，它结合了图卷积网络和图注意力机制，通过图注意力机制可以从微观的角度捕捉到子图中的哪些实体更重要，而不是给所有实体一样的权重去编码，并且由于不同的话题对应的子图的结构和大小是不同的，采用图注意力机制正好可以解决子图节点个数不一致的问题。假设子图中的节点为X＝{x₁，...，x_n}，其中n为子图中节点的个数，则编码过程如下：

其中W是可学习的参数，

为与

直接相连的邻居节点，α可以为任意一种注意力机制，e_ij为节点

和节点

之间的注意力分数，之后经过softmax函数将其归一化：

其中N_i表示节点

的邻居节点集合。

则最终得到当前话题节点的编码表示：

其中σ为sigmoid函数。

(1.3)全局注意力机制

上述方法通过局部注意力机制可以从各个输入内部捕捉到重要的信息，忽略次要的信息，除此之外，还采用全局注意力机制对上述得到的多个语义向量进行融合，使模型进一步在全局上去捕捉多个输入之间的关系：

v_topic＝MLP(Attention(v¹，v²，v³，v⁴))，

其中，v¹，v²，v³，v⁴分别为经过BERT或GATs编码后得到的历史对话上下文、历史话题序列、用户偏好档案以及外部知识图谱的语义向量。假设e_i为候选话题编码后得到的向量，则该候选话题为最终预测话题的概率为：

P_topic(i)＝softmax(e_i ^T·v_topic)，

则可以根据各个候选话题的概率进行排名，取排名最高的作为最终预测的话题，接下来就可以基于该话题进行下一轮回复的生成。

表1发明的话题预测模块在TG-ReDial对话推荐数据集上与其它基线模型的实验对比结果，如表1示：

Conversation-BERT和Topic-BERT的实验结果比MGCG好，说明BERT这种大型预训练模型以及其中的注意力机制在编码话题信息时非常有效。其次，在三种BERT中，只用了用户偏好档案的Profile-BERT的表现是最差的，说明只有用户偏好信息是不够的，历史对话上下文和话题序列中蕴含的信息对于话题预测更加重要。此外，融合了历史对话上下文、话题序列以及用户偏好档案的MULTI-BERT模型比上述模型表现更好，说明编码多个维度的信息有助于模型更好地进行话题建模。最后，本发明比其它所有基线模型表现更优异，说明外部知识图谱中的信息对话题建模也是很有用的，且全局注意力机制能够帮助模型更好地编码多个维度的信息。

表1

综上，话题预测模块首先利用BERT和图注意力网络的局部注意力机制，对历史对话上下文、历史话题序列、用户偏好档案以及知识图谱等来自多个维度的信息进行编码，捕捉其内部语义信息，然后采用全局注意力机制来最大化保留有价值的信息，去除冗余的语义信息。

(2)物品推荐模块

物品推荐模块旨在根据历史对话上下文{s₁，...，s_k-1}，历史交互序列I_u，用户偏好档案P_u等信息去推荐用户最可能感兴趣的物品m，然后对话生成模型就可以基于推荐的物品m去生成一个强力的推荐理由并向用户做出推荐。

本实施例以推荐电影为例说明该步骤的具体执行过程：

(2.1)输入编码，利用两种不同的BERT以及一个自注意力序列化推荐模型SASREC来对多个维度的信息进行编码，BERT_conv用来编码历史对话上下文，SASREC用来编码历史交互序列，BERT_profile用来编码用户偏好档案，得到三个不同的语义向量：

v_conv＝BERT_conv({s₁，..，s_k-1})，

v_film＝SARREC({m₁，...，m_k-1})，

v_profile＝BERT_profile(P_u)，

其中v_conv，v_film，v_profile分别为历史对话上下文、历史交互序列以及用户偏好档案编码后得到的语义向量；

(2.2)知识图谱嵌入，基于用户交互过的电影m_k在ConceptNet中查询出与m_k直接相连的实体所构成的单跳子图，然后采用图注意力网络对该子图进行编码，得到电影m_k的知识图谱表示：

其中W是可学习的参数，

为与

和节点

之间的注意力分数，N_i表示节点

的邻居节点集合，σ为sigmoid函数；

(2.3)采用全局注意力机制对上述得到的来自多个维度的语义向量进行融合，使模型进一步在全局上去解析多个输入之间的关系，捕捉重要的信息，得到语义融合表示：

v_film＝MLP(Attention(v¹，v²，v³，v⁴))，

其中，v¹，v²，v³，v⁴分别为经过BERT、SRSREC以及GATs编码后得到的历史对话上下文、历史交互序列、用户偏好档案以及外部知识图谱的语义向量；

2.4)经过上述步骤后得到最终的语义向量表示v_film，则将该语义向量与各个候选电影向量e_i进行计算得分，得到的候选电影概率为：

P_film(i)＝softmax(e_i ^T·v_film)，

则可以根据各个候选电影的概率进行排名，取排名最高的作为最终推荐的电影，接下来就可以基于该电影进行推荐理由的生成。

由于物品推荐和话题预测在原理上是相似的，都是基于已有的实体序列(话题或物品)去预测下一个实体，本工作针对物品推荐采用的是跟话题预测一样的模型结构，只是将输入中用BERT编码的历史话题序列信息换成了用一个自注意力序列化推荐模型SASREC编码的历史交互序列信息。因此，该步骤具体执行过程不再赘述。

表2本发明的物品推荐模块在TG-ReDial对话推荐数据集上与其它基线模型的实验对比结果，如表2示：

KBRD比Popularity和ReDial表现都要好，说明在推荐任务上引入外部知识图谱能够使模型捕捉到更丰富的语义信息。然后BERT和SASRec比GRU4Rec等模型表现更好，说明自注意力机制能够很好地捕捉到输入内部的重要信息。此外，MULTI-BERT、BERT和TextCNN等编码了历史对话上下文的模型表现比其它没有使用历史对话上下文的模型更好，说明历史对话上下文对推荐任务是很有用的，并且MULTI-BERT比后两个模型结果更好，说明同时编码历史对话上下文以及历史交互序列的信息能够帮助模型实现更精确的推荐。最后，本发明比其它所有基线模型表现在所有指标上表现都更好，说明除了历史对话上下文、历史交互序列，外部知识图谱中包含的信息也很有用，且全局注意力机制也能够捕捉到对物品推荐更重要的信息。

表2

综合以上，物品推荐模块首先利用BERT、SASREC和图注意力网络的局部注意力机制，对历史对话上下文、历史交互序列、用户偏好档案以及知识图谱等来自多个维度的信息进行编码，捕捉其内部语义信息，然后采用全局注意力机制来最大化保留有价值的信息，去除冗余的语义信息。

(3)对话生成模块

对话生成模块旨在根据话题预测模型预测的话题t_k或物品推荐模型推荐的物品m，去生成贴合话题t_k的回复或推荐物品m的强力的理由。

具体地：

(3.1)基于当前是对话场景还是推荐场景，选择预测的话题或推荐的物品，结合历史对话上下文以及外部知识图谱作为对话生成模型的输入；

(3.2)采用对话生成模型进行编码解码得到基于预测的话题生成贴合话题的回复或基于推荐的物品回复推荐物品的理由。

本实施例中采用的对话生成模型为GPT-2模型。GPT-2是一个大型预训练语言模型，它采用的训练数据具有以下特点：经过质量筛选的高质量数据、来自各个领域的更宽泛的数据以及更大规模的数据，并且它的参数规模十分庞大，因此需要极高的算力，但得到的模型编码解码能力也极强，在多个微调任务上都获得了state of the art(当时最优)的效果。本工作采用GPT-2作为对话生成模型，对历史对话上下文、外部知识图谱以及话题/物品信息进行编码解码，进而生成多样的、有意义的回复。

表3是本发明的对话生成模块在TG-ReDial对话推荐数据集上与其它基线模型的实验对比结果，如表3所示：

ReDial的表现最差，这可能是因为ReDial中使用的RNN并不擅于捕捉长句子中的信息。其次，KBRD的PPL比ReDial低得多，说明在对话生成任务中引入外部知识图谱能够提升生成回复的质量。此外，Transformer和GPT-2比上面两种模型的表现都要好，说明Transformer的自注意力机制能够有效地捕捉输入中包含的多重信息，进而生成更流畅、更多样的回复。除此之外，MULTI-BERT模型比其它模型表现好，说明在模型中引入话题信息或物品信息能够提升生成回复的质量。最后，本发明在大多数指标上比上述模型表现更好，进一步说明知识图谱在对话生成任务中的有效性，很适合用在对话推荐这样的任务上。

表3

综合以上，对话生成模块基于GPT-2大型预训练模型，对历史对话上下文、预测的话题/推荐的物品以及知识图谱进行编码解码，利用其强大的语义编解码能力来生成最终的回复，使得生成的回复流畅自然的同时贴合话题、符合语境。

上述实施方式仅为例举，不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施，且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。

Claims

1.一种基于多级注意力机制的知识增强对话推荐方法，其特征在于，该方法包括：

2.根据权利要求1所述的一种基于多级注意力机制的知识增强对话推荐方法，其特征在于，所述的话题预测具体包括：

3.根据权利要求1所述的一种基于多级注意力机制的知识增强对话推荐方法，其特征在于，所述的物品推荐具体包括：

4.根据权利要求1所述的一种基于多级注意力机制的知识增强对话推荐方法，其特征在于，所述的对话生成具体包括：

5.根据权利要求2所述的一种基于多级注意力机制的知识增强对话推荐方法，其特征在于，进行话题预测时，所述的历史对话上下文、历史交互序列、用户偏好档案分别通过BERT模型进行编码。

6.根据权利要求2所述的一种基于多级注意力机制的知识增强对话推荐方法，其特征在于，获取当前时刻话题的知识图谱语义向量时采用图注意力网络的局部注意力机制对相应的单跳子图进行编码。

7.根据权利要求3所述的一种基于多级注意力机制的知识增强对话推荐方法，其特征在于，进行物品推荐时，所述的历史对话上下文、用户偏好档案分别通过BERT模型进行编码，所述的历史交互序列通过自注意力序列化推荐模型SASREC进行编码。

8.根据权利要求3所述的一种基于多级注意力机制的知识增强对话推荐方法，其特征在于，获取历史交互物品的知识图谱语义向量时采用图注意力网络的局部注意力机制对相应的单跳子图进行编码。

9.根据权利要求2或3所述的一种基于多级注意力机制的知识增强对话推荐方法，其特征在于，对多个不同的语义向量进行融合时采用全局注意力机制进行融合。

10.根据权利要求4所述的一种基于多级注意力机制的知识增强对话推荐方法，其特征在于，所述的对话生成模型包括GPT-2模型。