CN112883170A - 一种用户反馈引导的自适应对话推荐方法和系统 - Google Patents

一种用户反馈引导的自适应对话推荐方法和系统 Download PDF

Info

Publication number
CN112883170A
CN112883170A CN202110073633.5A CN202110073633A CN112883170A CN 112883170 A CN112883170 A CN 112883170A CN 202110073633 A CN202110073633 A CN 202110073633A CN 112883170 A CN112883170 A CN 112883170A
Authority
CN
China
Prior art keywords
user
feedback
attribute
representation
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110073633.5A
Other languages
English (en)
Other versions
CN112883170B (zh
Inventor
徐君
鲁宇婧
许珂瑞
文继荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin University of China
Original Assignee
Renmin University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renmin University of China filed Critical Renmin University of China
Priority to CN202110073633.5A priority Critical patent/CN112883170B/zh
Publication of CN112883170A publication Critical patent/CN112883170A/zh
Application granted granted Critical
Publication of CN112883170B publication Critical patent/CN112883170B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种用户反馈引导的自适应对话推荐方法和系统,其特征在于包括以下步骤:1)获取日志数据,包括日志数据中收集的历史用户活动以及物品和属性之间的关系;2)基于获取的日志数据以及用户的在线反馈,构建反馈引导的偏好适应网络模型;其中,用户的在线反馈包括属性级反馈和物品级反馈;3)基于当前对话状态以及反馈引导的偏好适应网络模型与用户进行交互,交互内容包括选择询问某个属性或作出推荐,并基于用户的在线反馈确定对话结束或进入下一轮对话。本发明可以广泛应用对话推荐系统。

Description

一种用户反馈引导的自适应对话推荐方法和系统
技术领域
本发明涉及一种用户反馈引导的自适应对话推荐方法和系统,属于对话推荐系统领域。
背景技术
在如今信息化的时代,推荐系统发挥着越来越重要的作用。传统的推荐系统大多通过离线历史数据来构建模型,而用户的偏好是多样的,易随时间变化,仅根据历史数据难以得知用户此时的确切意图。
对话推荐系统可以通过自然语言的方式与用户进行交互,快速捕获用户意图,并推荐合适的物品。具体来讲,对话推荐系统是通过与用户的多轮对话来获取用户的当前偏好。它不仅基于过去的用户物品交互历史,还通过收集用户的在线反馈,实现可靠地估计用户当前意图。
虽然对话推荐系统已有了一些研究成果,但在其模型设计方面仍存在一些不足。例如,对话推荐系统中现有的用户偏好模型通常将用户的在线反馈信息作为独立的特征或训练实例,这忽略了在多轮对话推荐系统场景下,细粒度的属性级反馈和粗粒度的物品级反馈之间的层次关系。用户拒绝推荐的某个物品的原因并非不喜欢该物品的所有属性,可能只是不喜欢其中的某些属性,但直接将用户反馈作为训练实例将降低与该物品关联的所有属性的得分。
发明内容
针对上述问题,本发明的目的是提供一种用户反馈引导的自适应对话推荐方法和系统,针对多轮对话推荐系统提出一种新的用户偏好预测模型,称为反馈引导的偏好自适应网络(FPAN)。在FPAN中,根据在线属性级别的反馈,设计了两个门控模块,分别用于修改用户的嵌入和物品级别的反馈。门控模块利用细粒度的属性级别反馈来修改粗粒度的物品级别反馈和用户嵌入,通过考虑层次关系来更精确地识别触发用户拒绝物品的原因,从而实现更准确的用户偏好预测,以提升推荐的成功率。
为实现上述目的,本发明采取以下技术方案:
本发明的第一个方面,是提供一种用户反馈引导的自适应对话推荐方法,其包括以下步骤:
1)获取日志数据,包括日志数据中收集的历史用户活动以及物品和属性之间的关系;
2)基于获取的日志数据以及用户的在线反馈,构建反馈引导的偏好适应网络模型;其中,用户的在线反馈包括属性级反馈和物品级反馈;
3)基于当前对话状态以及反馈引导的偏好适应网络模型与用户进行交互,交互内容包括选择询问某个属性或作出推荐,并基于用户的在线反馈确定对话结束或进入下一轮对话。
进一步,所述步骤2)中,构建反馈引导的偏好适应网络模型的方法,包括以下步骤:
2.1)基于日志数据中收集的历史用户活动以及物品和属性之间的关系,得到用户、物品和属性的嵌入表示;
2.2)基于步骤2.1)中用户、物品和属性的初始节点表示以及当前对话中的用户在线反馈信息进行自适应学习,得到不同的反馈信号;
2.3)对步骤2.2)中得到的不同的反馈信号进行聚合,得到用户偏好表示,将其分别与物品嵌入和属性嵌入进行点积,得到反馈引导的偏好适应网络模型;
2.4)确定损失函数,并对步骤2.3)中聚合得到的反馈引导的偏好适应网络模型进行训练,得到模型参数。
进一步,所述步骤2.1)中,用户、物品和属性的嵌入表示的获得方法,包括以下步骤:
2.1.1)基于利用用户活动以及物品和属性之间的关系,构造一个无向的异质三部图;其中,该异质三部图包括用户、物品和属性三类节点集合以及用户和物品的交互、物品和属性的关系两种类型的边;
2.1.2)将步骤2.1.1)构造的异质三部图,输入GraphSAGE图神经网络,通过学习节点表示,得到用户、物品和属性的嵌入表示。
进一步,所述步骤2.1.2)中,得到用户、物品和属性的初始节点表示的方法,包括以下步骤:
2.1.2.1)进行当前节点表示,为每个用户、物品或属性节点分配一个唯一的节点索引,并将该节点索引通过节点嵌入矩阵转换为一个d维的向量表示;
2.1.2.2)进行邻居节点表示,为每个邻居节点,生成一个邻居嵌入矩阵;
2.1.2.3)用一个聚合函数将当前节点表示和邻居节点表示结合起来,得到节点的初始表示,如下式所示:
Figure BDA0002906786970000021
其中,
Figure BDA0002906786970000022
为节点v的第k+1、k层表示;σ为LeakyReLU激活函数;W1 k
Figure BDA0002906786970000023
为训练参数,且
Figure BDA0002906786970000024
N(v)为节点v的邻居节点集合;v'是节点v的邻居节点,
Figure BDA0002906786970000031
是邻居节点v'的第k层表示;
2.1.2.4)通过聚合不同层生成的节点表示,得到最终的节点的嵌入表示:
Figure BDA0002906786970000032
其中,ev是节点v的嵌入表示;
Figure BDA0002906786970000033
为节点v的第j层表示;L表示总层数。
进一步,所述步骤2.2)中,得到不同的反馈信号的方法,包括以下步骤:
2.2.1)从当前对话中获取用户反馈信息,该用户反馈信息包括一组正面属性反馈
Figure BDA0002906786970000034
一组负面属性反馈
Figure BDA0002906786970000035
和一组拒绝物品
Figure BDA0002906786970000036
2.2.2)对用户u及其在当前对话中提供的正面属性反馈
Figure BDA0002906786970000037
进行聚合,得到表示属性级别上的正反馈信号
Figure BDA0002906786970000038
2.2.3)对于每个拒绝物品,将该拒绝物品的初始嵌入、属性级别上的正反馈信号
Figure BDA0002906786970000039
以及该拒绝物品与属性级别上的正反馈信号
Figure BDA00029067869700000310
的相似度输入第一门控模块,并最终聚合得到表示物品级别上的负反馈信号
Figure BDA00029067869700000311
2.2.4)对用户u及其在当前对话中提供的负面属性反馈
Figure BDA00029067869700000312
进行聚合,得到表示属性级别上的负反馈信号
Figure BDA00029067869700000313
2.2.5)基于得到的表示属性级别上的负反馈信号
Figure BDA00029067869700000314
表示用户一般兴趣的用户嵌入eu以及第二门控模块,使得用户初始嵌入适应于属性级别上的负反馈信号,得到自适应的用户嵌入信号eu′。
进一步,所述步骤2.3)中,对不同的反馈信号进行聚合的方法为:
首先,对不同的反馈信号进行聚合,得到联合用户偏好表示,如下式所示:
Figure BDA00029067869700000315
其中,“-”表示负反馈信息;
其次,基于联合用户偏好表示,得到任一用户和物品之前以及任一用户和属性之间的关联分数:
Figure BDA00029067869700000316
Figure BDA00029067869700000317
式中,
Figure BDA00029067869700000318
表示任一用户和物品之间的关联分数;
Figure BDA00029067869700000319
表示任一用户和属性之间的关联分数;ei为物品的嵌入表示;ea为属性的嵌入表示。
进一步,所述步骤2.4)中,对步骤2.3)中得到的反馈引导的偏好适应网络模型中的参数进行训练时,训练目标为:
Figure BDA00029067869700000320
其中,‖Θ‖2是避免过拟合的正则化项,λ是正则化参数;
Figure BDA0002906786970000041
为物品偏好预测损失;
Figure BDA0002906786970000042
为属性偏好预测损失。
进一步,所述物品偏好预测损失
Figure BDA0002906786970000043
为:
Figure BDA0002906786970000044
式中,
Figure BDA0002906786970000045
分别为在训练集
Figure BDA0002906786970000046
Figure BDA0002906786970000047
上进行训练的损失函数,且:
Figure BDA0002906786970000048
Figure BDA0002906786970000049
式中,
Figure BDA00029067869700000410
为用于训练的物品对;σ为sigmoid函数;
Figure BDA00029067869700000411
为用于训练的物品对;
所述属性偏好预测损失
Figure BDA00029067869700000412
为:
Figure BDA00029067869700000413
式中,
Figure BDA00029067869700000414
为用于训练的属性对集合。
本发明的第二个方面,是提供一种用户反馈引导的自适应对话推荐系统,其包括:
历史数据获取模块、FPAN模块和对话模块;
所述历史数据获取模块用于获取日志数据中的历史用户活动以及物品和属性之间的关系;
所述FPAN模块用于基于获取的历史数据以及在线用户的反馈,构建反馈引导的偏好适应网络模型;
所述对话模块用于基于构建的反馈引导的偏好适应网络模型以及当前对话状态,与用户进行交互,交互内容包括选择询问某个属性或作出推荐,同时将用户的在线反馈返回FPAN模块,并基于用户的在线反馈确定对话结束或进入下一轮对话。
进一步,所述FPAN模块包括离线表示学习模块、在线用户偏好自适应模块以及模型构建模块;
所述离线表示学习模块用于根据日志数据中收集的历史用户活动以及物品和属性之间的关系来学习用户、物品和属性的嵌入表示;
所述在线用户偏好自适应模块用于根据用户、物品和属性的嵌入表示以及与用户的在线交互,对用户偏好进行自适应学习,得到不同的反馈信号;
所述模型构建模块用于对不同的反馈信号进行聚合,并对得到的聚合结果进行模型训练,得到反馈引导的偏好适应网络模型。
本发明由于采取以上技术方案,其具有以下优点:本发明针对对话推荐系统中将用户的在线反馈直接作为训练实例,忽略属性级反馈和物品级反馈之间的层次关系的问题,提出了一种在多轮对话推荐场景下,用户偏好与在线反馈相适应的新模型FPAN。模型利用GNN学习离线表示,利用两个门控模块结合反馈信号之间的层次关系对在线反馈信息进行聚合,从而或者自适应的用户偏好表示。实验表明我们的方法具有更高的属性预测和物品预测准确率,同时对话轮数更短,推荐成功率更高。
附图说明
图1是本发明一实施例公开的用户反馈引导的自适应对话推荐方法的流程图;
图2是本发明一实施例公开的FPAN的工作流程图。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
如图1、图2所示,本发明提供的一种用户反馈引导的自适应对话推荐系统,包括历史数据获取模块、FPAN模块(反馈引导的偏好适应网络模块)和对话模块。历史数据获取模块用于获取日志数据中的历史用户活动以及物品和属性之间的关系;FPAN模块用于基于获取的历史数据以及在线用户的反馈(包括属性级反馈和物品级反馈),构建反馈引导的偏好适应网络模型;对话模块用于基于构建的反馈引导的偏好适应网络模型以及当前对话状态,包括对话历史,来自FPAN模块的用户偏好预测结果等,与用户进行交互,交互内容包括选择询问某个属性或作出推荐等,同时将用户的在线反馈返回FPAN模块,并基于用户的在线反馈确定对话结束或进入下一轮对话。
多轮对话推荐系统一般从用户指定一个偏好的属性开始对话。在每一轮,多轮对话推荐系统会选择一个动作:询问属性或进行推荐。若多轮对话推荐系统选择询问属性,即用户是否喜欢某一个属性,用户将会用“是”或“否”来做出反馈,进而得到属性级反馈。如果多轮对话推荐系统选择进行推荐,即推荐给用户一个候选物品列表,用户会检查该候选物品列表中是否包含他想要的物品,进而得到物品级反馈。如果用户接受了多轮对话推荐系统的推荐或者时间太长而离开对话,则整个对话过程到此结束。
进一步,FPAN模块包括离线表示学习模块、在线用户偏好自适应模块以及模型构建模块。其中,离线表示学习模块用于根据日志数据中收集的历史用户活动以及物品和属性之间的关系来学习用户、物品和属性的嵌入表示;在线用户偏好自适应模块用于根据用户、物品和属性的嵌入表示以及与用户的在线交互,对用户偏好进行自适应学习,得到不同的反馈信号;模型构建模块用于对不同的反馈信号进行聚合,并对得到的聚合结果进行模型训练,得到反馈引导的偏好适应网络模型。
针对现有的对话推荐系统忽略属性级反馈和物品级反馈之间的层次关系的问题,本发明提供了一种新的用户偏好预测模型——反馈引导的偏好适应网络(FPAN)。FPAN首先将用户,物品和属性表示为异构图中的节点,然后应用图神经网络(GNN)来学习节点嵌入。为了捕获物品级反馈和属性级反馈之间的层次关系,FPAN设计了一个门控模块,根据用户已告知的偏好属性修改拒绝物品的嵌入,从而获得具有用户当前不喜欢的属性的物品级表示。类似地,在FPAN中设计了另一个门控模块,根据用户告知的不喜欢属性来修改用户嵌入,从而获得具有其当前偏好的用户表示。再通过新的用户和物品表示来预测用户对属性和物品的偏好。
具体的,本发明提供的一种用户反馈引导的自适应对话推荐方法,包括以下步骤:
1)获取日志数据,包括日志数据中收集的历史用户活动以及物品和属性之间的关系。
2)在线用户偏好自适应:基于获取的历史日志数据以及用户的在线反馈(包括属性级反馈和物品级反馈),得到反馈引导的偏好适应网络模型。
具体的,包括以下步骤:
2.1)离线表示学习:基于日志数据中收集的历史用户活动以及物品和属性之间的关系来学习用户、物品和属性的节点表示,得到用户、物品和属性的初始节点表示。
具体的,包括以下步骤:
2.1.1)基于历史用户活动以及物品和属性之间的关系,构造一个无向的异质三部图。其中,该异质三部图包括用户、物品和属性三类节点集合以及用户和物品的交互、物品和属性的关系两种类型的边。
如图2所示,令
Figure BDA0002906786970000061
表示构造的异质三部图,其中,
Figure BDA0002906786970000062
Figure BDA0002906786970000063
为节点集,其内节点采用v表示,
Figure BDA0002906786970000064
为用户集、
Figure BDA0002906786970000065
为物品集,
Figure BDA0002906786970000066
为属性集;ε为边,包含两种类型的边:用户-物品边(u、i)和物品-属性边(i,a)。
2.1.2)将步骤2.1.1)构造的异质三部图,输入GraphSAGE图神经网络,通过学习节点表示,得到用户、物品和属性的嵌入表示。
具体的,包括以下步骤:
2.1.2.1)进行当前节点表示,即为每个用户、物品或属性节点分配一个唯一的节点索引,并将该节点索引通过节点嵌入矩阵转换为一个d维的向量表示。
2.1.2.2)进行邻居节点表示,即为每个邻居节点,生成一个邻居嵌入矩阵;
2.1.2.3)用一个聚合函数将当前节点表示和邻居节点表示结合起来,得到节点的初始表示,如下式所示:
Figure BDA0002906786970000067
其中,
Figure BDA0002906786970000068
为节点v的第k+1、k层表示;σ为LeakyReLU激活函数;W1 k
Figure BDA0002906786970000071
为训练参数,且
Figure BDA0002906786970000072
N(v)为节点v的邻居节点集合;v'是节点v的邻居节点,
Figure BDA0002906786970000073
是邻居节点v'的第k层表示。
2.1.2.4)为了在不同层捕获不同的语义信息,且避免在最后一层嵌入过平滑,通过聚合不同层生成的节点表示得到最终的节点表示,如下式所示:
Figure BDA0002906786970000074
式中,ev是节点v的嵌入表示;
Figure BDA0002906786970000075
为节点v的第j层表示;L表示总层数。
2.2)在线用户偏好自适应:基于步骤2.1)中用户、物品和属性的初始节点表示以及当前对话中的用户在线反馈信息进行自适应学习,得到不同的反馈信号。
具体的,包括以下步骤:
2.2.1)从当前对话中获取用户反馈信息,该用户反馈信息包括一组正面属性反馈
Figure BDA0002906786970000076
一组负面属性反馈
Figure BDA0002906786970000077
和一组拒绝物品
Figure BDA0002906786970000078
对于在线交互,假设用户开始了对话,则当前对话中的用户反馈信息包括一组正面属性
Figure BDA0002906786970000079
一组负面属性
Figure BDA00029067869700000710
和一组拒绝物品
Figure BDA00029067869700000711
它们对应的用户嵌入记为eu
Figure BDA00029067869700000712
Figure BDA00029067869700000713
其中,
Figure BDA00029067869700000714
为正面属性a+的嵌入表示,
Figure BDA00029067869700000715
为负面属性a-的嵌入表示,
Figure BDA00029067869700000716
为被拒绝物品i-的嵌入表示。
2.2.2)对用户u及其在当前对话中提供的正面属性反馈
Figure BDA00029067869700000717
进行聚合,得到表示属性级别上的正反馈信号
Figure BDA00029067869700000718
由于用户拒绝某个物品往往只是由于它的部分属性,直接利用拒绝物品
Figure BDA00029067869700000719
作为训练实例会影响所有关联的属性。这不可避免地会损害推荐的效果,因为被拒绝的物品还与目标物品共享某些属性。幸运的是,本发明已经观察到在物品级反馈
Figure BDA00029067869700000720
和属性级反馈
Figure BDA00029067869700000721
之间存在层次关系,可以用来缓解上述问题。例如,用户拒绝了推荐的“红色iPhone”,且用户在先前的回合中明确表达了对“红色”的偏好,则触发拒绝的真正原因可能是“苹果品牌”属性。
因此本发明使用门控机制对物品级反馈和属性级反馈之间的层次关系进行建模,以得到自适应的拒绝物品表示。具体来说,给定用户u和他在当前对话中提供的正面属性反馈
Figure BDA00029067869700000722
这些属性的嵌入被聚合成一个向量:
Figure BDA00029067869700000723
其中,
Figure BDA00029067869700000724
为属性级别上的正反馈信号,AGGREGATE代表MEAN函数。
2.2.3)对于每个拒绝物品,将该拒绝物品的初始嵌入、属性级别上的正反馈信号
Figure BDA00029067869700000725
以及该拒绝物品与属性级别上的正反馈信号
Figure BDA00029067869700000726
的相似度输入第一门控模块,并最终聚合得到表示物品级别上的负反馈信号
Figure BDA0002906786970000081
具体的,首先,应用第一门控模块使得每个拒绝物品的初始嵌入
Figure BDA0002906786970000082
适应于属性级别上的正反馈信号,得到自适应的物品嵌入
Figure BDA0002906786970000083
Figure BDA0002906786970000084
其中,
Figure BDA0002906786970000085
表示自适应的物品嵌入;⊙表示按元素乘,
Figure BDA0002906786970000086
表示拒绝物品的初始嵌入;
Figure BDA0002906786970000087
表示门向量(门向量是门控函数的输出),且其定义如下:
Figure BDA0002906786970000088
其中,Concat表示连接所有的输入向量;σ是sigmoid函数;W3为权重矩阵,且
Figure BDA0002906786970000089
b3为偏差向量,且
Figure BDA00029067869700000810
Figure BDA00029067869700000811
为在属性级别上的正反馈信号;
Figure BDA00029067869700000826
为拒绝物品的初始嵌入;
Figure BDA00029067869700000813
为物品与属性级别上的正反馈信号的相似度。第一门控模块将拒绝物品的初始嵌入
Figure BDA00029067869700000814
属性级别的正反馈信号以及拒绝物品在属性级别上的相似度作为输入,以控制来自拒绝物品的信息传递。本发明中,第一门控模块采用一层全连接层作为门控函数。
其次,将得到的自适应的物品嵌入
Figure BDA00029067869700000815
聚合成向量
Figure BDA00029067869700000816
用于表示物品级别上的负反馈信号。如下式所示:
Figure BDA00029067869700000817
其中,
Figure BDA00029067869700000818
为物品级别上的负反馈信号;i-为被拒绝物品;
Figure BDA00029067869700000819
为拒绝物品集合;
Figure BDA00029067869700000820
为被拒绝物品的自适应嵌入。
2.2.4)对用户u及其在当前对话中提供的负面属性反馈
Figure BDA00029067869700000821
进行聚合,得到表示属性级别上的负反馈信号
Figure BDA00029067869700000822
在多轮对话推荐系统中,用户在当前对话中的反馈反映了用户的当前意图(即短期偏好),而用户的长期偏好通常来自于历史数据。因此平衡用户的短期偏好和长期偏好对于对话推荐系统有重要意义。
在多轮对话推荐系统中,用户在属性级别的负反馈可以被用于平衡用户的长期偏好和短期偏好。例如,从用户的历史交互中,系统得出“红色iphone”是用户的一般兴趣。但是,如果用户在当前对话中表示不喜欢“苹果品牌”属性,则应将一般兴趣调整为“红色手机”。因此,本发明基于门控机制使用户的一般兴趣eu适应于负面属性反馈
Figure BDA00029067869700000823
同理,给定用户u和当前对话中提供的负面属性反馈
Figure BDA00029067869700000824
这些属性的嵌入被平均聚合为一个向量
Figure BDA00029067869700000825
Figure BDA0002906786970000091
其中,
Figure BDA0002906786970000092
为属性级别上的负反馈信号。
2.2.5)基于得到的表示属性级别上的负反馈信号
Figure BDA0002906786970000093
表示用户一般兴趣的用户嵌入eu以及第二门控模块,使得用户初始嵌入适应于属性级别上的负反馈信号,得到自适应的用户嵌入eu′。
基于门控机制得到自适应的用户嵌入eu′为:
e′u=eu⊙gu (8)
其中,门控向量gu被定义为
Figure BDA0002906786970000094
其中,W4为权重矩阵,且
Figure BDA0002906786970000095
b4为偏差向量,且
Figure BDA0002906786970000096
2.3)用户偏好预测:对步骤2.2)中得到的不同的反馈信号进行聚合,得到用户偏好表示,将其分别与物品嵌入和属性嵌入进行点积,即可得到用户与物品之间、用户与属性之间的关联分数表达式,也即反馈引导的偏好适应网络模型。
本发明通过聚合不同的反馈信号得到用户的偏好表示,其中包括基于门控机制生成的表示以及用户明确表达的偏好属性,如下式所示:
Figure BDA0002906786970000097
其中,“-”表示负反馈信息。
给定任一物品i,用户u和物品i之间的关联分数可以被估计为物品的嵌入ei和联合用户偏好表示eall的点积:
Figure BDA0002906786970000098
类似地,给定任一属性a,用户u和属性a之间的关联分数可以被估计为属性的嵌入ea和联合用户偏好表示eall的点积:
Figure BDA0002906786970000099
2.4)模型训练:确定损失函数,并对步骤2.3)中得到的反馈引导的偏好适应网络模型中的参数进行训练,得到训练参数。
本发明采用成对的贝叶斯个性化排序方法训练模型。为了学习用户在物品和属性上的偏好,训练目标包括两个损失函数:物品偏好预测损失
Figure BDA00029067869700000910
和属性偏好预测损失
Figure BDA00029067869700000911
给定一个对话
Figure BDA00029067869700000912
目标物品i+被认为是正例,并从未交互物品中采样出负例,损失函数定义如下:
Figure BDA0002906786970000101
其中,
Figure BDA0002906786970000102
表示在训练集
Figure BDA00029067869700001020
上进行训练的损失函数;
Figure BDA0002906786970000103
表示用于训练的物品对,σ是sigmoid函数;u为用户;
Figure BDA0002906786970000104
分别为用户u的正面属性、负面属性和拒绝物品;i+为用户u偏好的物品,即目标物品;i-为用户u非偏好物品,其从用户的未交互物品集合中采样得到,记作
Figure BDA0002906786970000105
其中,
Figure BDA0002906786970000106
是用户u的历史交互物品集合;
Figure BDA0002906786970000107
为物品集合。
除了直接将非交互物品作为用户不喜欢的物品采样之外,我们同时考虑用户对属性的反馈,可以得到更多非偏好物品用于训练:
Figure BDA0002906786970000108
其中,
Figure BDA0002906786970000109
为用于训练的物品对,考虑将候选集中用户的未交互物品作为负例;
Figure BDA00029067869700001010
为物品候选集。
物品偏好预测的最终损失函数为:
Figure BDA00029067869700001011
对于属性偏好预测,模型需要将目标物品的属性
Figure BDA00029067869700001012
排序高于其他属性。因此对于给定对话
Figure BDA00029067869700001013
属性偏好预测的损失函数定义为
Figure BDA00029067869700001014
其中,
Figure BDA00029067869700001015
表示用于训练的属性对集合。偏好属性a+是目标物品除去已知的偏好属性的其他属性,非偏好属性a-则从与目标物品无关的属性中采样得到。
为了同时优化物品偏好和属性偏好的损失函数,本发明通过多任务训练来优化参数Θ,训练目标是:
Figure BDA00029067869700001016
其中,‖Θ‖2是避免过拟合的正则化项,λ是正则化参数。具体地说,用
Figure BDA00029067869700001017
Figure BDA00029067869700001018
对模型进行迭代优化。为了加快训练过程,应用动态负采样(DNS)自适应地挑选排序最高的负样本。这是因为DNS被认为是BPR损失最有效的采样器之一。
模型的训练流程如下:
Figure BDA00029067869700001019
Figure BDA0002906786970000111
3)用户偏好预测:基于当前对话状态以及反馈引导的偏好适应网络模型,与用户进行交互,交互内容包括选择询问某个属性或作出推荐等,并基于用户的在线反馈确定对话结束或进入下一轮对话。
上述各实施例仅用于说明本发明,其中各部件的结构、连接方式和制作工艺等都是可以有所变化的,凡是在本发明技术方案的基础上进行的等同变换和改进,均不应排除在本发明的保护范围之外。

Claims (10)

1.一种用户反馈引导的自适应对话推荐方法,其特征在于包括以下步骤:
1)获取日志数据,包括日志数据中收集的历史用户活动以及物品和属性之间的关系;
2)基于获取的日志数据以及用户的在线反馈,构建反馈引导的偏好适应网络模型;其中,用户的在线反馈包括属性级反馈和物品级反馈;
3)基于当前对话状态以及反馈引导的偏好适应网络模型与用户进行交互,交互内容包括选择询问某个属性或作出推荐,并基于用户的在线反馈确定对话结束或进入下一轮对话。
2.如权利要求1所述的一种用户反馈引导的自适应对话推荐方法,其特征在于:所述步骤2)中,构建反馈引导的偏好适应网络模型的方法,包括以下步骤:
2.1)基于日志数据中收集的历史用户活动以及物品和属性之间的关系,得到用户、物品和属性的嵌入表示;
2.2)基于步骤2.1)中用户、物品和属性的初始节点表示以及当前对话中的用户在线反馈信息进行自适应学习,得到不同的反馈信号;
2.3)对步骤2.2)中得到的不同的反馈信号进行聚合,得到用户偏好表示,将其分别与物品嵌入和属性嵌入进行点积,得到反馈引导的偏好适应网络模型;
2.4)确定损失函数,并对步骤2.3)中聚合得到的反馈引导的偏好适应网络模型进行训练,得到模型参数。
3.如权利要求2所述的一种用户反馈引导的自适应对话推荐方法,其特征在于:所述步骤2.1)中,用户、物品和属性的嵌入表示的获得方法,包括以下步骤:
2.1.1)基于利用用户活动以及物品和属性之间的关系,构造一个无向的异质三部图;其中,该异质三部图包括用户、物品和属性三类节点集合以及用户和物品的交互、物品和属性的关系两种类型的边;
2.1.2)将步骤2.1.1)构造的异质三部图,输入GraphSAGE图神经网络,通过学习节点表示,得到用户、物品和属性的嵌入表示。
4.如权利要求3所述的一种用户反馈引导的自适应对话推荐方法,其特征在于:所述步骤2.1.2)中,得到用户、物品和属性的初始节点表示的方法,包括以下步骤:
2.1.2.1)进行当前节点表示,为每个用户、物品或属性节点分配一个唯一的节点索引,并将该节点索引通过节点嵌入矩阵转换为一个d维的向量表示;
2.1.2.2)进行邻居节点表示,为每个邻居节点,生成一个邻居嵌入矩阵;
2.1.2.3)用一个聚合函数将当前节点表示和邻居节点表示结合起来,得到节点的初始表示,如下式所示:
Figure FDA0002906786960000021
其中,
Figure FDA0002906786960000022
为节点v的第k+1、k层表示;σ为LeakyReLU激活函数;W1 k
Figure FDA0002906786960000023
为训练参数,且
Figure FDA0002906786960000024
N(v)为节点v的邻居节点集合;v'是节点v的邻居节点,
Figure FDA0002906786960000025
是邻居节点v'的第k层表示;
2.1.2.4)通过聚合不同层生成的节点表示,得到最终的节点的嵌入表示:
Figure FDA0002906786960000026
其中,ev是节点v的嵌入表示;
Figure FDA00029067869600000221
为节点v的第j层表示;L表示总层数。
5.如权利要求3所述的一种用户反馈引导的自适应对话推荐方法,其特征在于:所述步骤2.2)中,得到不同的反馈信号的方法,包括以下步骤:
2.2.1)从当前对话中获取用户反馈信息,该用户反馈信息包括一组正面属性反馈
Figure FDA0002906786960000027
一组负面属性反馈
Figure FDA0002906786960000028
和一组拒绝物品
Figure FDA0002906786960000029
2.2.2)对用户u及其在当前对话中提供的正面属性反馈
Figure FDA00029067869600000210
进行聚合,得到表示属性级别上的正反馈信号
Figure FDA00029067869600000211
2.2.3)对于每个拒绝物品,将该拒绝物品的初始嵌入、属性级别上的正反馈信号
Figure FDA00029067869600000220
以及该拒绝物品与属性级别上的正反馈信号
Figure FDA00029067869600000213
的相似度输入第一门控模块,并最终聚合得到表示物品级别上的负反馈信号
Figure FDA00029067869600000214
2.2.4)对用户u及其在当前对话中提供的负面属性反馈
Figure FDA00029067869600000215
进行聚合,得到表示属性级别上的负反馈信号
Figure FDA00029067869600000216
2.2.5)基于得到的表示属性级别上的负反馈信号
Figure FDA00029067869600000217
表示用户一般兴趣的用户嵌入eu以及第二门控模块,使得用户初始嵌入适应于属性级别上的负反馈信号,得到自适应的用户嵌入信号e′u
6.如权利要求3所述的一种用户反馈引导的自适应对话推荐方法,其特征在于:所述步骤2.3)中,对不同的反馈信号进行聚合的方法为:
首先,对不同的反馈信号进行聚合,得到联合用户偏好表示,如下式所示:
Figure FDA00029067869600000218
其中,“-”表示负反馈信息;
其次,基于联合用户偏好表示,得到任一用户和物品之前以及任一用户和属性之间的关联分数:
Figure FDA00029067869600000219
Figure FDA0002906786960000031
式中,
Figure FDA0002906786960000032
表示任一用户和物品之间的关联分数;
Figure FDA0002906786960000033
表示任一用户和属性之间的关联分数;ei为物品的嵌入表示;ea为属性的嵌入表示。
7.如权利要求2所述的一种用户反馈引导的自适应对话推荐方法,其特征在于:所述步骤2.4)中,对步骤2.3)中得到的反馈引导的偏好适应网络模型中的参数进行训练时,训练目标为:
Figure FDA0002906786960000034
其中,‖Θ‖2是避免过拟合的正则化项,λ是正则化参数;
Figure FDA0002906786960000035
为物品偏好预测损失;
Figure FDA0002906786960000036
为属性偏好预测损失。
8.如权利要求7所述的一种用户反馈引导的自适应对话推荐方法,其特征在于:所述物品偏好预测损失
Figure FDA0002906786960000037
为:
Figure FDA0002906786960000038
式中,
Figure FDA0002906786960000039
分别为在训练集
Figure FDA00029067869600000310
Figure FDA00029067869600000311
上进行训练的损失函数,且:
Figure FDA00029067869600000312
Figure FDA00029067869600000313
式中,
Figure FDA00029067869600000314
为用于训练的物品对;σ为sigmoid函数;
Figure FDA00029067869600000315
为用于训练的物品对;
所述属性偏好预测损失
Figure FDA00029067869600000316
为:
Figure FDA00029067869600000317
式中,
Figure FDA00029067869600000318
为用于训练的属性对集合。
9.一种用户反馈引导的自适应对话推荐系统,其特征在于,包括:
历史数据获取模块、FPAN模块和对话模块;
所述历史数据获取模块用于获取日志数据中的历史用户活动以及物品和属性之间的关系;
所述FPAN模块用于基于获取的历史数据以及在线用户的反馈,构建反馈引导的偏好适应网络模型;
所述对话模块用于基于构建的反馈引导的偏好适应网络模型以及当前对话状态,与用户进行交互,交互内容包括选择询问某个属性或作出推荐,同时将用户的在线反馈返回FPAN模块,并基于用户的在线反馈确定对话结束或进入下一轮对话。
10.如权利要求9所述的一种用户反馈引导的自适应对话推荐系统,其特征在于:所述FPAN模块包括离线表示学习模块、在线用户偏好自适应模块以及模型构建模块;
所述离线表示学习模块用于根据日志数据中收集的历史用户活动以及物品和属性之间的关系来学习用户、物品和属性的嵌入表示;
所述在线用户偏好自适应模块用于根据用户、物品和属性的嵌入表示以及与用户的在线交互,对用户偏好进行自适应学习,得到不同的反馈信号;
所述模型构建模块用于对不同的反馈信号进行聚合,并对得到的聚合结果进行模型训练,得到反馈引导的偏好适应网络模型。
CN202110073633.5A 2021-01-20 2021-01-20 一种用户反馈引导的自适应对话推荐方法和系统 Active CN112883170B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110073633.5A CN112883170B (zh) 2021-01-20 2021-01-20 一种用户反馈引导的自适应对话推荐方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110073633.5A CN112883170B (zh) 2021-01-20 2021-01-20 一种用户反馈引导的自适应对话推荐方法和系统

Publications (2)

Publication Number Publication Date
CN112883170A true CN112883170A (zh) 2021-06-01
CN112883170B CN112883170B (zh) 2023-08-18

Family

ID=76050333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110073633.5A Active CN112883170B (zh) 2021-01-20 2021-01-20 一种用户反馈引导的自适应对话推荐方法和系统

Country Status (1)

Country Link
CN (1) CN112883170B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113487379A (zh) * 2021-06-24 2021-10-08 上海淇馥信息技术有限公司 一种基于对话式的产品推荐方法、装置和电子设备
CN113869992A (zh) * 2021-12-03 2021-12-31 平安科技(深圳)有限公司 基于人工智能的产品推荐方法、装置、电子设备及介质
CN114445043A (zh) * 2022-01-26 2022-05-06 安徽大学 基于开放生态化云erp异质图用户需求精准发现方法及系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105409197A (zh) * 2013-03-15 2016-03-16 趣普科技公司 用于提供持久伙伴装置的设备和方法
US20180004729A1 (en) * 2016-06-29 2018-01-04 Shenzhen Gowild Robotics Co., Ltd. State machine based context-sensitive system for managing multi-round dialog
US20190188585A1 (en) * 2017-12-15 2019-06-20 Shanghai Xiaoi Robot Technology Co., Ltd. Multi-round questioning and answering methods, methods for generating a multi-round questioning and answering system, and methods for modifying the system
CN110175227A (zh) * 2019-05-10 2019-08-27 神思电子技术股份有限公司 一种基于组队学习和层级推理的对话辅助系统
CN110298770A (zh) * 2019-06-25 2019-10-01 四川长虹电器股份有限公司 一种食谱推荐系统
CN110543586A (zh) * 2019-09-04 2019-12-06 北京百度网讯科技有限公司 多重用户身份融合方法、装置、设备及存储介质
CN110910218A (zh) * 2019-11-21 2020-03-24 南京邮电大学 一种基于深度学习的多行为迁移推荐方法
US20200099790A1 (en) * 2018-09-25 2020-03-26 International Business Machines Corporation Live agent recommendation for a human-robot symbiosis conversation system
CN111026932A (zh) * 2019-12-20 2020-04-17 北京百度网讯科技有限公司 人机对话交互方法、装置、电子设备和存储介质
CN111222054A (zh) * 2020-01-03 2020-06-02 中国计量大学 一种基于上下文邻居关系建模的会话社交推荐方法
CN111625688A (zh) * 2019-11-28 2020-09-04 京东数字科技控股有限公司 一种基于异构网络的特征聚合方法、装置、设备和存储介质
CN112037539A (zh) * 2020-07-31 2020-12-04 银江股份有限公司 一种用于饱和城市交通网络的信控方案推荐方法及系统
CN112069398A (zh) * 2020-08-24 2020-12-11 腾讯科技(深圳)有限公司 一种基于图网络的信息推送方法及装置
CN112236766A (zh) * 2018-04-20 2021-01-15 脸谱公司 用个性化和上下文的通信内容帮助用户

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105409197A (zh) * 2013-03-15 2016-03-16 趣普科技公司 用于提供持久伙伴装置的设备和方法
US20180004729A1 (en) * 2016-06-29 2018-01-04 Shenzhen Gowild Robotics Co., Ltd. State machine based context-sensitive system for managing multi-round dialog
US20190188585A1 (en) * 2017-12-15 2019-06-20 Shanghai Xiaoi Robot Technology Co., Ltd. Multi-round questioning and answering methods, methods for generating a multi-round questioning and answering system, and methods for modifying the system
CN112236766A (zh) * 2018-04-20 2021-01-15 脸谱公司 用个性化和上下文的通信内容帮助用户
US20200099790A1 (en) * 2018-09-25 2020-03-26 International Business Machines Corporation Live agent recommendation for a human-robot symbiosis conversation system
CN110175227A (zh) * 2019-05-10 2019-08-27 神思电子技术股份有限公司 一种基于组队学习和层级推理的对话辅助系统
CN110298770A (zh) * 2019-06-25 2019-10-01 四川长虹电器股份有限公司 一种食谱推荐系统
CN110543586A (zh) * 2019-09-04 2019-12-06 北京百度网讯科技有限公司 多重用户身份融合方法、装置、设备及存储介质
CN110910218A (zh) * 2019-11-21 2020-03-24 南京邮电大学 一种基于深度学习的多行为迁移推荐方法
CN111625688A (zh) * 2019-11-28 2020-09-04 京东数字科技控股有限公司 一种基于异构网络的特征聚合方法、装置、设备和存储介质
CN111026932A (zh) * 2019-12-20 2020-04-17 北京百度网讯科技有限公司 人机对话交互方法、装置、电子设备和存储介质
CN111222054A (zh) * 2020-01-03 2020-06-02 中国计量大学 一种基于上下文邻居关系建模的会话社交推荐方法
CN112037539A (zh) * 2020-07-31 2020-12-04 银江股份有限公司 一种用于饱和城市交通网络的信控方案推荐方法及系统
CN112069398A (zh) * 2020-08-24 2020-12-11 腾讯科技(深圳)有限公司 一种基于图网络的信息推送方法及装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
KERUI XU 等: "Adapting User Preference to Online Feedback in Multi-round Conversational Recommendation", 《WSDM \'21: PROCEEDINGS OF THE 14TH ACM INTERNATIONAL CONFERENCE ON WEB SEARCH AND DATA MINING》, pages 364 - 372 *
WENQIANG LEI 等: "Estimation–Action–Reflection: Towards Deep Interaction Between Conversational and Recommender Systems", 《WSDM \'20: PROCEEDINGS OF THE 13TH INTERNATIONAL CONFERENCE ON WEB SEARCH AND DATA MINING》, pages 304 - 312 *
WILLIAM L. HAMILTON 等: "Inductive Representation Learning on Large Graphs", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 30 (NIPS 2017)》, pages 1 - 11 *
YINWEI WEI 等: "MMGCN: Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video", 《MM \'19: PROCEEDINGS OF THE 27TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》, pages 1437 - 1445 *
吴国栋: "基于深度学习的个性化物品推荐研究", 《中国博士学位论文全文数据库 信息科技辑》, no. 01, pages 138 - 326 *
谭俏俏: "基于用户偏好和影响力的推荐算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 08, pages 138 - 837 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113487379A (zh) * 2021-06-24 2021-10-08 上海淇馥信息技术有限公司 一种基于对话式的产品推荐方法、装置和电子设备
CN113487379B (zh) * 2021-06-24 2023-01-13 上海淇馥信息技术有限公司 一种基于对话式的产品推荐方法、装置和电子设备
CN113869992A (zh) * 2021-12-03 2021-12-31 平安科技(深圳)有限公司 基于人工智能的产品推荐方法、装置、电子设备及介质
CN114445043A (zh) * 2022-01-26 2022-05-06 安徽大学 基于开放生态化云erp异质图用户需求精准发现方法及系统

Also Published As

Publication number Publication date
CN112883170B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN112883170A (zh) 一种用户反馈引导的自适应对话推荐方法和系统
CN110532471B (zh) 基于门控循环单元神经网络的主动学习协同过滤方法
CN109544306B (zh) 一种基于用户行为序列特征的跨领域推荐方法及装置
CN108876044B (zh) 一种基于知识增强神经网络的线上内容流行度预测方法
CN108509573A (zh) 基于矩阵分解协同过滤算法的图书推荐方法及系统
CN107507054A (zh) 一种基于循环神经网络的推荐算法
CN114693397A (zh) 一种基于注意力神经网络的多视角多模态商品推荐方法
CN111723285A (zh) 一种基于评分的深度谱卷积协同过滤推荐方法
Gui et al. Mention recommendation in twitter with cooperative multi-agent reinforcement learning
CN116842258A (zh) 一种基于元路径的上下文进行特征增强的群组推荐方法
CN113590976A (zh) 一种空间自适应图卷积网络的推荐方法
CN113590965B (zh) 一种融合知识图谱与情感分析的视频推荐方法
CN116362836A (zh) 基于用户行为序列的农产品推荐算法
CN112486467B (zh) 一种双重交互关系和注意力机制的交互式服务推荐方法
CN113259163B (zh) 一种基于网络拓扑感知的Web服务质量预测方法及系统
Li et al. Tell me where to go next: Improving poi recommendation via conversation
CN112364245A (zh) 基于异构信息网络嵌入的Top-K电影推荐方法
CN116403608A (zh) 基于多标签纠正和时空协同融合的语音情感识别方法
CN115730248A (zh) 一种机器账号检测方法、系统、设备及存储介质
CN114117229A (zh) 一种基于有向和无向结构信息的图神经网络的项目推荐方法
Korotaev et al. Method for the Development of Recommendation Systems, Customizable to Domains, with Deep GRU Network.
CN114764469A (zh) 一种内容推荐方法、装置、计算机设备和存储介质
CN112084415A (zh) 一种基于用户和项目长短期时间耦合关系分析的推荐方法
CN117874351B (zh) 一种基于情境感知的战场态势信息个性化推荐方法及系统
CN117556149B (zh) 资源推送方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant