CN112883170A

CN112883170A - 一种用户反馈引导的自适应对话推荐方法和系统

Info

Publication number: CN112883170A
Application number: CN202110073633.5A
Authority: CN
Inventors: 徐君; 鲁宇婧; 许珂瑞; 文继荣
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2021-06-01
Anticipated expiration: 2041-01-20
Also published as: CN112883170B

Abstract

本发明涉及一种用户反馈引导的自适应对话推荐方法和系统，其特征在于包括以下步骤：1)获取日志数据，包括日志数据中收集的历史用户活动以及物品和属性之间的关系；2)基于获取的日志数据以及用户的在线反馈，构建反馈引导的偏好适应网络模型；其中，用户的在线反馈包括属性级反馈和物品级反馈；3)基于当前对话状态以及反馈引导的偏好适应网络模型与用户进行交互，交互内容包括选择询问某个属性或作出推荐，并基于用户的在线反馈确定对话结束或进入下一轮对话。本发明可以广泛应用对话推荐系统。

Description

一种用户反馈引导的自适应对话推荐方法和系统

技术领域

本发明涉及一种用户反馈引导的自适应对话推荐方法和系统，属于对话推荐系统领域。

背景技术

在如今信息化的时代，推荐系统发挥着越来越重要的作用。传统的推荐系统大多通过离线历史数据来构建模型，而用户的偏好是多样的，易随时间变化，仅根据历史数据难以得知用户此时的确切意图。

对话推荐系统可以通过自然语言的方式与用户进行交互，快速捕获用户意图，并推荐合适的物品。具体来讲，对话推荐系统是通过与用户的多轮对话来获取用户的当前偏好。它不仅基于过去的用户物品交互历史，还通过收集用户的在线反馈，实现可靠地估计用户当前意图。

虽然对话推荐系统已有了一些研究成果，但在其模型设计方面仍存在一些不足。例如，对话推荐系统中现有的用户偏好模型通常将用户的在线反馈信息作为独立的特征或训练实例，这忽略了在多轮对话推荐系统场景下，细粒度的属性级反馈和粗粒度的物品级反馈之间的层次关系。用户拒绝推荐的某个物品的原因并非不喜欢该物品的所有属性，可能只是不喜欢其中的某些属性，但直接将用户反馈作为训练实例将降低与该物品关联的所有属性的得分。

发明内容

针对上述问题，本发明的目的是提供一种用户反馈引导的自适应对话推荐方法和系统，针对多轮对话推荐系统提出一种新的用户偏好预测模型，称为反馈引导的偏好自适应网络(FPAN)。在FPAN中，根据在线属性级别的反馈，设计了两个门控模块，分别用于修改用户的嵌入和物品级别的反馈。门控模块利用细粒度的属性级别反馈来修改粗粒度的物品级别反馈和用户嵌入，通过考虑层次关系来更精确地识别触发用户拒绝物品的原因，从而实现更准确的用户偏好预测，以提升推荐的成功率。

为实现上述目的，本发明采取以下技术方案：

本发明的第一个方面，是提供一种用户反馈引导的自适应对话推荐方法，其包括以下步骤：

1)获取日志数据，包括日志数据中收集的历史用户活动以及物品和属性之间的关系；

2)基于获取的日志数据以及用户的在线反馈，构建反馈引导的偏好适应网络模型；其中，用户的在线反馈包括属性级反馈和物品级反馈；

3)基于当前对话状态以及反馈引导的偏好适应网络模型与用户进行交互，交互内容包括选择询问某个属性或作出推荐，并基于用户的在线反馈确定对话结束或进入下一轮对话。

进一步，所述步骤2)中，构建反馈引导的偏好适应网络模型的方法，包括以下步骤：

2.1)基于日志数据中收集的历史用户活动以及物品和属性之间的关系，得到用户、物品和属性的嵌入表示；

2.2)基于步骤2.1)中用户、物品和属性的初始节点表示以及当前对话中的用户在线反馈信息进行自适应学习，得到不同的反馈信号；

2.3)对步骤2.2)中得到的不同的反馈信号进行聚合，得到用户偏好表示，将其分别与物品嵌入和属性嵌入进行点积，得到反馈引导的偏好适应网络模型；

2.4)确定损失函数，并对步骤2.3)中聚合得到的反馈引导的偏好适应网络模型进行训练，得到模型参数。

进一步，所述步骤2.1)中，用户、物品和属性的嵌入表示的获得方法，包括以下步骤：

2.1.1)基于利用用户活动以及物品和属性之间的关系，构造一个无向的异质三部图；其中，该异质三部图包括用户、物品和属性三类节点集合以及用户和物品的交互、物品和属性的关系两种类型的边；

2.1.2)将步骤2.1.1)构造的异质三部图，输入GraphSAGE图神经网络，通过学习节点表示，得到用户、物品和属性的嵌入表示。

进一步，所述步骤2.1.2)中，得到用户、物品和属性的初始节点表示的方法，包括以下步骤：

2.1.2.1)进行当前节点表示，为每个用户、物品或属性节点分配一个唯一的节点索引，并将该节点索引通过节点嵌入矩阵转换为一个d维的向量表示；

2.1.2.2)进行邻居节点表示，为每个邻居节点，生成一个邻居嵌入矩阵；

2.1.2.3)用一个聚合函数将当前节点表示和邻居节点表示结合起来，得到节点的初始表示，如下式所示：

其中，

为节点v的第k+1、k层表示；σ为LeakyReLU激活函数；W₁ ^k、

为训练参数，且

N(v)为节点v的邻居节点集合；v'是节点v的邻居节点，

是邻居节点v'的第k层表示；

2.1.2.4)通过聚合不同层生成的节点表示，得到最终的节点的嵌入表示：

其中，e_v是节点v的嵌入表示；

为节点v的第j层表示；L表示总层数。

进一步，所述步骤2.2)中，得到不同的反馈信号的方法，包括以下步骤：

2.2.1)从当前对话中获取用户反馈信息，该用户反馈信息包括一组正面属性反馈

一组负面属性反馈

和一组拒绝物品

2.2.2)对用户u及其在当前对话中提供的正面属性反馈

进行聚合，得到表示属性级别上的正反馈信号

2.2.3)对于每个拒绝物品，将该拒绝物品的初始嵌入、属性级别上的正反馈信号

以及该拒绝物品与属性级别上的正反馈信号

的相似度输入第一门控模块，并最终聚合得到表示物品级别上的负反馈信号

2.2.4)对用户u及其在当前对话中提供的负面属性反馈

进行聚合，得到表示属性级别上的负反馈信号

2.2.5)基于得到的表示属性级别上的负反馈信号

表示用户一般兴趣的用户嵌入e_u以及第二门控模块，使得用户初始嵌入适应于属性级别上的负反馈信号，得到自适应的用户嵌入信号e_u′。

进一步，所述步骤2.3)中，对不同的反馈信号进行聚合的方法为：

首先，对不同的反馈信号进行聚合，得到联合用户偏好表示，如下式所示：

其中，“-”表示负反馈信息；

其次，基于联合用户偏好表示，得到任一用户和物品之前以及任一用户和属性之间的关联分数：

式中，

表示任一用户和物品之间的关联分数；

表示任一用户和属性之间的关联分数；e_i为物品的嵌入表示；e_a为属性的嵌入表示。

进一步，所述步骤2.4)中，对步骤2.3)中得到的反馈引导的偏好适应网络模型中的参数进行训练时，训练目标为：

其中，‖Θ‖²是避免过拟合的正则化项，λ是正则化参数；

为物品偏好预测损失；

为属性偏好预测损失。

进一步，所述物品偏好预测损失

为：

式中，

分别为在训练集

和

上进行训练的损失函数，且：

式中，

为用于训练的物品对；σ为sigmoid函数；

为用于训练的物品对；

所述属性偏好预测损失

为：

式中，

为用于训练的属性对集合。

本发明的第二个方面，是提供一种用户反馈引导的自适应对话推荐系统，其包括：

历史数据获取模块、FPAN模块和对话模块；

所述历史数据获取模块用于获取日志数据中的历史用户活动以及物品和属性之间的关系；

所述FPAN模块用于基于获取的历史数据以及在线用户的反馈，构建反馈引导的偏好适应网络模型；

所述对话模块用于基于构建的反馈引导的偏好适应网络模型以及当前对话状态，与用户进行交互，交互内容包括选择询问某个属性或作出推荐，同时将用户的在线反馈返回FPAN模块，并基于用户的在线反馈确定对话结束或进入下一轮对话。

进一步，所述FPAN模块包括离线表示学习模块、在线用户偏好自适应模块以及模型构建模块；

所述离线表示学习模块用于根据日志数据中收集的历史用户活动以及物品和属性之间的关系来学习用户、物品和属性的嵌入表示；

所述在线用户偏好自适应模块用于根据用户、物品和属性的嵌入表示以及与用户的在线交互，对用户偏好进行自适应学习，得到不同的反馈信号；

所述模型构建模块用于对不同的反馈信号进行聚合，并对得到的聚合结果进行模型训练，得到反馈引导的偏好适应网络模型。

本发明由于采取以上技术方案，其具有以下优点：本发明针对对话推荐系统中将用户的在线反馈直接作为训练实例，忽略属性级反馈和物品级反馈之间的层次关系的问题，提出了一种在多轮对话推荐场景下，用户偏好与在线反馈相适应的新模型FPAN。模型利用GNN学习离线表示，利用两个门控模块结合反馈信号之间的层次关系对在线反馈信息进行聚合，从而或者自适应的用户偏好表示。实验表明我们的方法具有更高的属性预测和物品预测准确率，同时对话轮数更短，推荐成功率更高。

附图说明

图1是本发明一实施例公开的用户反馈引导的自适应对话推荐方法的流程图；

图2是本发明一实施例公开的FPAN的工作流程图。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

如图1、图2所示，本发明提供的一种用户反馈引导的自适应对话推荐系统，包括历史数据获取模块、FPAN模块(反馈引导的偏好适应网络模块)和对话模块。历史数据获取模块用于获取日志数据中的历史用户活动以及物品和属性之间的关系；FPAN模块用于基于获取的历史数据以及在线用户的反馈(包括属性级反馈和物品级反馈)，构建反馈引导的偏好适应网络模型；对话模块用于基于构建的反馈引导的偏好适应网络模型以及当前对话状态，包括对话历史，来自FPAN模块的用户偏好预测结果等，与用户进行交互，交互内容包括选择询问某个属性或作出推荐等，同时将用户的在线反馈返回FPAN模块，并基于用户的在线反馈确定对话结束或进入下一轮对话。

多轮对话推荐系统一般从用户指定一个偏好的属性开始对话。在每一轮，多轮对话推荐系统会选择一个动作：询问属性或进行推荐。若多轮对话推荐系统选择询问属性，即用户是否喜欢某一个属性，用户将会用“是”或“否”来做出反馈，进而得到属性级反馈。如果多轮对话推荐系统选择进行推荐，即推荐给用户一个候选物品列表，用户会检查该候选物品列表中是否包含他想要的物品，进而得到物品级反馈。如果用户接受了多轮对话推荐系统的推荐或者时间太长而离开对话，则整个对话过程到此结束。

进一步，FPAN模块包括离线表示学习模块、在线用户偏好自适应模块以及模型构建模块。其中，离线表示学习模块用于根据日志数据中收集的历史用户活动以及物品和属性之间的关系来学习用户、物品和属性的嵌入表示；在线用户偏好自适应模块用于根据用户、物品和属性的嵌入表示以及与用户的在线交互，对用户偏好进行自适应学习，得到不同的反馈信号；模型构建模块用于对不同的反馈信号进行聚合，并对得到的聚合结果进行模型训练，得到反馈引导的偏好适应网络模型。

针对现有的对话推荐系统忽略属性级反馈和物品级反馈之间的层次关系的问题，本发明提供了一种新的用户偏好预测模型——反馈引导的偏好适应网络(FPAN)。FPAN首先将用户，物品和属性表示为异构图中的节点，然后应用图神经网络(GNN)来学习节点嵌入。为了捕获物品级反馈和属性级反馈之间的层次关系，FPAN设计了一个门控模块，根据用户已告知的偏好属性修改拒绝物品的嵌入，从而获得具有用户当前不喜欢的属性的物品级表示。类似地，在FPAN中设计了另一个门控模块，根据用户告知的不喜欢属性来修改用户嵌入，从而获得具有其当前偏好的用户表示。再通过新的用户和物品表示来预测用户对属性和物品的偏好。

具体的，本发明提供的一种用户反馈引导的自适应对话推荐方法，包括以下步骤：

1)获取日志数据，包括日志数据中收集的历史用户活动以及物品和属性之间的关系。

2)在线用户偏好自适应：基于获取的历史日志数据以及用户的在线反馈(包括属性级反馈和物品级反馈)，得到反馈引导的偏好适应网络模型。

具体的，包括以下步骤：

2.1)离线表示学习：基于日志数据中收集的历史用户活动以及物品和属性之间的关系来学习用户、物品和属性的节点表示，得到用户、物品和属性的初始节点表示。

具体的，包括以下步骤：

2.1.1)基于历史用户活动以及物品和属性之间的关系，构造一个无向的异质三部图。其中，该异质三部图包括用户、物品和属性三类节点集合以及用户和物品的交互、物品和属性的关系两种类型的边。

如图2所示，令

表示构造的异质三部图，其中，

为节点集，其内节点采用v表示，

为用户集、

为物品集，

为属性集；ε为边，包含两种类型的边：用户-物品边(u、i)和物品-属性边(i，a)。

具体的，包括以下步骤：

2.1.2.1)进行当前节点表示，即为每个用户、物品或属性节点分配一个唯一的节点索引，并将该节点索引通过节点嵌入矩阵转换为一个d维的向量表示。

2.1.2.2)进行邻居节点表示，即为每个邻居节点，生成一个邻居嵌入矩阵；

其中，

为节点v的第k+1、k层表示；σ为LeakyReLU激活函数；W₁ ^k、

为训练参数，且

N(v)为节点v的邻居节点集合；v'是节点v的邻居节点，

是邻居节点v'的第k层表示。

2.1.2.4)为了在不同层捕获不同的语义信息，且避免在最后一层嵌入过平滑，通过聚合不同层生成的节点表示得到最终的节点表示，如下式所示：

式中，e_v是节点v的嵌入表示；

为节点v的第j层表示；L表示总层数。

2.2)在线用户偏好自适应：基于步骤2.1)中用户、物品和属性的初始节点表示以及当前对话中的用户在线反馈信息进行自适应学习，得到不同的反馈信号。

具体的，包括以下步骤：

一组负面属性反馈

和一组拒绝物品

对于在线交互，假设用户开始了对话，则当前对话中的用户反馈信息包括一组正面属性

一组负面属性

和一组拒绝物品

它们对应的用户嵌入记为e_u，

和

其中，

为正面属性a⁺的嵌入表示，

为负面属性a^-的嵌入表示，

为被拒绝物品i^-的嵌入表示。

2.2.2)对用户u及其在当前对话中提供的正面属性反馈

进行聚合，得到表示属性级别上的正反馈信号

由于用户拒绝某个物品往往只是由于它的部分属性，直接利用拒绝物品

作为训练实例会影响所有关联的属性。这不可避免地会损害推荐的效果，因为被拒绝的物品还与目标物品共享某些属性。幸运的是，本发明已经观察到在物品级反馈

和属性级反馈

之间存在层次关系，可以用来缓解上述问题。例如，用户拒绝了推荐的“红色iPhone”，且用户在先前的回合中明确表达了对“红色”的偏好，则触发拒绝的真正原因可能是“苹果品牌”属性。

因此本发明使用门控机制对物品级反馈和属性级反馈之间的层次关系进行建模，以得到自适应的拒绝物品表示。具体来说，给定用户u和他在当前对话中提供的正面属性反馈

这些属性的嵌入被聚合成一个向量：

其中，

为属性级别上的正反馈信号，AGGREGATE代表MEAN函数。

以及该拒绝物品与属性级别上的正反馈信号

具体的，首先，应用第一门控模块使得每个拒绝物品的初始嵌入

适应于属性级别上的正反馈信号，得到自适应的物品嵌入

其中，

表示自适应的物品嵌入；⊙表示按元素乘，

表示拒绝物品的初始嵌入；

表示门向量(门向量是门控函数的输出)，且其定义如下：

其中，Concat表示连接所有的输入向量；σ是sigmoid函数；W₃为权重矩阵，且

b₃为偏差向量，且

为在属性级别上的正反馈信号；

为拒绝物品的初始嵌入；

为物品与属性级别上的正反馈信号的相似度。第一门控模块将拒绝物品的初始嵌入

属性级别的正反馈信号以及拒绝物品在属性级别上的相似度作为输入，以控制来自拒绝物品的信息传递。本发明中，第一门控模块采用一层全连接层作为门控函数。

其次，将得到的自适应的物品嵌入

聚合成向量

用于表示物品级别上的负反馈信号。如下式所示：

其中，

为物品级别上的负反馈信号；i^-为被拒绝物品；

为拒绝物品集合；

为被拒绝物品的自适应嵌入。

2.2.4)对用户u及其在当前对话中提供的负面属性反馈

进行聚合，得到表示属性级别上的负反馈信号

在多轮对话推荐系统中，用户在当前对话中的反馈反映了用户的当前意图(即短期偏好)，而用户的长期偏好通常来自于历史数据。因此平衡用户的短期偏好和长期偏好对于对话推荐系统有重要意义。

在多轮对话推荐系统中，用户在属性级别的负反馈可以被用于平衡用户的长期偏好和短期偏好。例如，从用户的历史交互中，系统得出“红色iphone”是用户的一般兴趣。但是，如果用户在当前对话中表示不喜欢“苹果品牌”属性，则应将一般兴趣调整为“红色手机”。因此，本发明基于门控机制使用户的一般兴趣e_u适应于负面属性反馈

同理，给定用户u和当前对话中提供的负面属性反馈

这些属性的嵌入被平均聚合为一个向量

即

其中，

为属性级别上的负反馈信号。

2.2.5)基于得到的表示属性级别上的负反馈信号

表示用户一般兴趣的用户嵌入e_u以及第二门控模块，使得用户初始嵌入适应于属性级别上的负反馈信号，得到自适应的用户嵌入e_u′。

基于门控机制得到自适应的用户嵌入e_u′为：

e′_u＝e_u⊙g_u (8)

其中，门控向量g_u被定义为

其中，W₄为权重矩阵，且

b₄为偏差向量，且

2.3)用户偏好预测：对步骤2.2)中得到的不同的反馈信号进行聚合，得到用户偏好表示，将其分别与物品嵌入和属性嵌入进行点积，即可得到用户与物品之间、用户与属性之间的关联分数表达式，也即反馈引导的偏好适应网络模型。

本发明通过聚合不同的反馈信号得到用户的偏好表示，其中包括基于门控机制生成的表示以及用户明确表达的偏好属性，如下式所示：

其中，“-”表示负反馈信息。

给定任一物品i，用户u和物品i之间的关联分数可以被估计为物品的嵌入e_i和联合用户偏好表示e^all的点积：

类似地，给定任一属性a，用户u和属性a之间的关联分数可以被估计为属性的嵌入e_a和联合用户偏好表示e^all的点积：

2.4)模型训练：确定损失函数，并对步骤2.3)中得到的反馈引导的偏好适应网络模型中的参数进行训练，得到训练参数。

本发明采用成对的贝叶斯个性化排序方法训练模型。为了学习用户在物品和属性上的偏好，训练目标包括两个损失函数：物品偏好预测损失

和属性偏好预测损失

给定一个对话

目标物品i⁺被认为是正例，并从未交互物品中采样出负例，损失函数定义如下：

其中，

表示在训练集

上进行训练的损失函数；

表示用于训练的物品对，σ是sigmoid函数；u为用户；

分别为用户u的正面属性、负面属性和拒绝物品；i⁺为用户u偏好的物品，即目标物品；i^-为用户u非偏好物品，其从用户的未交互物品集合中采样得到，记作

其中，

是用户u的历史交互物品集合；

为物品集合。

除了直接将非交互物品作为用户不喜欢的物品采样之外，我们同时考虑用户对属性的反馈，可以得到更多非偏好物品用于训练：

其中，

为用于训练的物品对，考虑将候选集中用户的未交互物品作为负例；

为物品候选集。

物品偏好预测的最终损失函数为：

对于属性偏好预测，模型需要将目标物品的属性

排序高于其他属性。因此对于给定对话

属性偏好预测的损失函数定义为

其中，

表示用于训练的属性对集合。偏好属性a⁺是目标物品除去已知的偏好属性的其他属性，非偏好属性a^-则从与目标物品无关的属性中采样得到。

为了同时优化物品偏好和属性偏好的损失函数，本发明通过多任务训练来优化参数Θ，训练目标是：

其中，‖Θ‖²是避免过拟合的正则化项，λ是正则化参数。具体地说，用

和

对模型进行迭代优化。为了加快训练过程，应用动态负采样(DNS)自适应地挑选排序最高的负样本。这是因为DNS被认为是BPR损失最有效的采样器之一。

模型的训练流程如下：

3)用户偏好预测：基于当前对话状态以及反馈引导的偏好适应网络模型，与用户进行交互，交互内容包括选择询问某个属性或作出推荐等，并基于用户的在线反馈确定对话结束或进入下一轮对话。

上述各实施例仅用于说明本发明，其中各部件的结构、连接方式和制作工艺等都是可以有所变化的，凡是在本发明技术方案的基础上进行的等同变换和改进，均不应排除在本发明的保护范围之外。

Claims

1.一种用户反馈引导的自适应对话推荐方法，其特征在于包括以下步骤：

2.如权利要求1所述的一种用户反馈引导的自适应对话推荐方法，其特征在于：所述步骤2)中，构建反馈引导的偏好适应网络模型的方法，包括以下步骤：

3.如权利要求2所述的一种用户反馈引导的自适应对话推荐方法，其特征在于：所述步骤2.1)中，用户、物品和属性的嵌入表示的获得方法，包括以下步骤：

4.如权利要求3所述的一种用户反馈引导的自适应对话推荐方法，其特征在于：所述步骤2.1.2)中，得到用户、物品和属性的初始节点表示的方法，包括以下步骤：

其中，

为节点v的第k+1、k层表示；σ为LeakyReLU激活函数；W₁ ^k、

为训练参数，且

N(v)为节点v的邻居节点集合；v'是节点v的邻居节点，

是邻居节点v'的第k层表示；

其中，e_v是节点v的嵌入表示；

为节点v的第j层表示；L表示总层数。

5.如权利要求3所述的一种用户反馈引导的自适应对话推荐方法，其特征在于：所述步骤2.2)中，得到不同的反馈信号的方法，包括以下步骤：

一组负面属性反馈

和一组拒绝物品

2.2.2)对用户u及其在当前对话中提供的正面属性反馈

进行聚合，得到表示属性级别上的正反馈信号

以及该拒绝物品与属性级别上的正反馈信号

2.2.4)对用户u及其在当前对话中提供的负面属性反馈

进行聚合，得到表示属性级别上的负反馈信号

2.2.5)基于得到的表示属性级别上的负反馈信号

表示用户一般兴趣的用户嵌入e_u以及第二门控模块，使得用户初始嵌入适应于属性级别上的负反馈信号，得到自适应的用户嵌入信号e′_u。

6.如权利要求3所述的一种用户反馈引导的自适应对话推荐方法，其特征在于：所述步骤2.3)中，对不同的反馈信号进行聚合的方法为：

其中，“-”表示负反馈信息；

式中，

表示任一用户和物品之间的关联分数；

7.如权利要求2所述的一种用户反馈引导的自适应对话推荐方法，其特征在于：所述步骤2.4)中，对步骤2.3)中得到的反馈引导的偏好适应网络模型中的参数进行训练时，训练目标为：

其中，‖Θ‖²是避免过拟合的正则化项，λ是正则化参数；

为物品偏好预测损失；

为属性偏好预测损失。

8.如权利要求7所述的一种用户反馈引导的自适应对话推荐方法，其特征在于：所述物品偏好预测损失

为：

式中，

分别为在训练集

和

上进行训练的损失函数，且：

式中，

为用于训练的物品对；σ为sigmoid函数；

为用于训练的物品对；

所述属性偏好预测损失

为：

式中，

为用于训练的属性对集合。

9.一种用户反馈引导的自适应对话推荐系统，其特征在于，包括：

历史数据获取模块、FPAN模块和对话模块；

10.如权利要求9所述的一种用户反馈引导的自适应对话推荐系统，其特征在于：所述FPAN模块包括离线表示学习模块、在线用户偏好自适应模块以及模型构建模块；