CN114817508A - 融合稀疏图和多跳注意力的会话推荐系统 - Google Patents
融合稀疏图和多跳注意力的会话推荐系统 Download PDFInfo
- Publication number
- CN114817508A CN114817508A CN202210592414.2A CN202210592414A CN114817508A CN 114817508 A CN114817508 A CN 114817508A CN 202210592414 A CN202210592414 A CN 202210592414A CN 114817508 A CN114817508 A CN 114817508A
- Authority
- CN
- China
- Prior art keywords
- representing
- word
- attention
- hop
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种融合稀疏图和多跳注意力的会话推荐系统,包括:对话状态跟踪模块:采用基于多跳注意力网络的编码器来对对话上下文进行编码,再利用TopicRNN模型捕捉文档中的全局语义信息;推荐模块:利用稀疏图注意力网络SGAT对知识图谱进行特征捕捉并正则化稀疏图,根据图生成的项目嵌入,以计算与对话上下文匹配的分数;最后,得到物品的概率;整合机制模块:根据对话上下文,通过对话状态跟踪模块预测下一个单词,并利用基于SGAT的推荐模型获得推荐项。本发明能够降低稀疏图的计算复杂度,并捕获局部语义依赖关系和全局语义依赖关系。
Description
技术领域
本发明涉及推荐技术领域,特别是涉及一种融合稀疏图和多跳注意力的会话推荐系统。
背景技术
会话推荐系统是一种通过对话向用户推荐物品的系统。图神经网络是知识图谱表示框架。然而,与对话相对应的知识图谱不仅规模大,且存在噪声节点,它会影响主节点与相邻节点的聚合。此外,尽管递归神经网络可以对单词序列进行编码,但可能难以记住单词序列间的长期依赖关系。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种融合稀疏图和多跳注意力的会话推荐系统。
为了实现本发明的上述目的,本发明提供了一种融合稀疏图和多跳注意力的会话推荐系统,包括:对话状态跟踪模块、推荐模块、整合机制模块,对话状态跟踪模块的数据输出端与推荐模块的数据输入端相连,推荐模块的数据输出端与整合机制模块的数据输入端相连;
对话状态跟踪模块:采用基于多跳注意力网络的编码器来对对话上下文进行编码,该网络可以快速地对长对话序列进行编码,以捕获长期依赖关系。再利用TopicRNN模型捕捉文档中的全局语义信息;因为语言中的大量长期依赖源于语义连贯。在多轮多主题对话中,子主题的捕获将影响对话生成的质量。
推荐模块:利用稀疏图注意力网络SGAT对知识图谱进行特征捕捉并正则化稀疏图,根据图生成的项目嵌入,以计算与对话上下文匹配的分数;最后,得到物品的概率;稀疏图注意力网络不仅能避免图神经网络出现过拟合,还能捕捉各个属性的显式和潜在关系。
整合机制模块:根据对话上下文,通过对话状态跟踪模块预测下一个单词,并利用基于SGAT的推荐模型获得推荐项。
进一步地,所述采用基于多跳注意力网络的编码器来对对话上下文进行编码包括:
将Uh={Wh,1,Wh,2,...,Wh,Mh}中每个单词Wh,j映射到单词向量θh,j,将对话D编码为高阶表示β={β1,β2,...,βN},其中Uh表示对话D中的第h句话,βN表示对话D中第N句话的张量形式,β被称为记忆张量,Wh,j表示Uh中的第j个单词,j=1,2,...,Mh;
然后,将查询向量Q作为读取的头部,以跳数l进行迭代,并计算记忆张量第l跳的注意力权重,计算公式为:
Ql+1=Ql+Ol
Ql+1表示第l+1跳的查询向量Q;
Ql表示第l跳的查询向量Q;
Ol表示第l跳的记忆向量;
·T表示转置;
Softmax(·)为Softmax激活函数;
再采用以下公式用于衡量记忆内容和查询向量Ql之间的关联度:
该值介于0和1之间,记忆分数越接近1,关联度越大。
其中e表示自然底数;
zk表示数组z中第k个位置的元素;
zu表示数组z中第u个位置的元素;
进一步地,所述TopicRNN模型包括:
输入全局语义信息,全局语义信息包括用户输入U和上下文C,用户输入U为一句话,上下文C为之前的对话;
数据处理:S-1,将数据输入分层递归编码-解码模型HRED,得到h=HRED(U,C),h表示隐藏状态;
S-2,然后从用户输入U和上下文C得到一个主题向量φ,φ服从正态分布;
S-3,再初始化解码器,即将h赋值给H0,H0为解码器初始化状态;
S-4,C中包含T=(t1,t2,...,tn-1),其中T代表C中的一个单词序列,t1表示第1个单词,t2表示第2个单词,tn-1表示第n-1个单词,
S-5,为计算单词tn进入循环:计算解码器的隐藏状态Hn=fw(Hn-1,T),其中fw()为解码器,Hn-1为解码器第n-1轮的隐藏状态;
S-6,从上下文C中得到一个停止词指示器ln,ln~Bernoulli(sigmoid(WTHn-1)),Bernoulli()表示伯努利分布(01分布),sigmoid()为sigmoid激活函数,WT为权重矩阵的转置,ln即对应图1中的ln,s,表示第n轮第s步的停用词指示器;
S-7,最后得到tn~p(tn|Hn,φ,ln,B),此时 其中B即Bernoulli(sigmoid(WTHn-1)),~表示服从,Hn为即解码器第n轮的隐藏状态,φ为主题向量,ln为停止词指示器,B表示伯努利分布,wj表示第j个单词,表示wj的转置;
S-8,输出预测标记tn,tn表示第n个单词。
进一步地,所述稀疏注意网络SGAT包括:
采用了多层卷积模块聚集一阶邻域节点的特征信息,得到一个包含知识图信息的项目的高阶表示。目的是学习如何有选择性地过滤出需要参与聚合操作的节点,以及如何聚合邻域信息。
给每条边eij分配一个二进制门bij∈{0,1}来识别每个将参与聚合操作的边,并剪裁与任务无关的边,其中eij表示连接节点i、j的边,bij表示边eij的二进制门;SGAT模型中的二进制门实现了边裁剪。
如果bij等于1,则该边参与聚合操作;如果bij等于0,则该边不参与聚合操作,这相当于将一组二进制掩码加到邻接矩阵A:
B表示二进制掩码;
⊙表示拼接操作;
N是图G中的边数;
{0,1}N表示二进制掩码的集合,一共有N个;
由于我们希望在半监督节点分类中使用尽可能少的边,以达到减少计算资源消耗,降低图的稀疏度的效果,则通过最小化L0范数化,与经验风险的和来训练模型参数P和二进制掩码B,过程如下:
其中R(P,B)表示模型风险;
n表示训练样本的个数;
L(·)表示经验风险;
fi(·,·,·)表示第i个节点的预测值;即对第i个节点进行二分类。
X表示节点特征矩阵;
A表示邻接矩阵;
B表示二进制掩码;
||·||0表示L0范数;
P表示模型训练参数;
yi表示第i个样本的标签;
λ是一个正则化的超参数;用来平衡数据损失和边缘稀疏性。
||B||0表示二进制掩码B的l0范数,即B中非零元素的个数;
zij表示二进制掩码B第i行j列的元素;
对于求取预测值的编码器函数f(X,A⊙B,P),则将基于注意力系数的聚合函数定义为:
σ(·)为Softmax激活函数;
Ni表示节点i的邻居节点集合;
aij是边eij的注意力系数,eij表示连接节点i、j的边;
w(l)表示第l层的权重;
注意力系数aij的计算公式如下:
Aij表示邻接矩阵第i行第j列的元素;
bij表示二进制掩码矩阵第i行第j列的元素;
Ni表示节点i的邻居节点集合;
进一步地,增加了与GAT类似的多头注意力,用于增强SGAT模型的能力,多头SGAT层定义为:
||表示连接;
其中O是头的数量;
σ(·)为Softmax激活函数;
aij是边eij的注意力系数;
多头指的是多个自注意力层的堆叠。
进一步地,所述整合机制模块包括:
在第n轮的第s步解码中,GRU将先前生成的单词和先前生成的隐藏状态作为输入,以生成新的隐藏状态,模型生成一个单词和一个隐藏状态后,再将生成的这些的数据送入模型生成下一个。
其中hn,s表示第n轮的第s步得到的隐藏状态;
GRU(·,·)表示门控循环单元;
hn,s-1表示第n轮的第s-1步得到的隐藏状态;
在获得新的隐藏状态hn,s之后,它被传递给两个分支,然后生成下一个单词,并获得排名靠前的项目名称,具体步骤如下:
在一个分支中,hn,s用作对话状态跟踪模块的输入,以生成下一个单词,生成下一个单词的概率计算如下:
∝为正比例符号;
exp(·)是高等数学里以自然常数e为底的指数函数;
W表示模型参数;
·T表示转置;
hn,s表示第n轮的第s步得到的隐藏状态;
ln,s表示第n轮第s步的停用词指示器;
B表示二进制掩码;
φ表示主题向量;
在另一个分支中,hn,s传递给基于SGAT的推荐器,预测项目的概率计算如下:
R表示经过稀疏图注意力机制得到的隐藏状态。
整合机制即将hn,s分别送入两个分支,一个做单词预测,一个做实体预测,最后通过Gate选择下一个词是实体or普通单词。
进一步地,所述系统的会话推荐方法包括以下步骤:
S1,首先使用基于GRU和对话状态跟踪模块的基于多跳注意力网络的编码器分别对文本进行单词级别和上下文级别的编码,分别得到token-embedding对应图1中的和context-embedding即记忆向量Ol,对应图1中的hn,s-1,然后通过GRU得到隐藏状态hn,s;
S2,对话状态跟踪模块的TopicRNN通过对话文本得到去除停止词后的语义信息M;
S3,将外部知识图谱通过推荐模块的稀疏图注意力网络得到nodes-embeddingin,对应图1的Location Emnedding,Location Emnedding因节点根据项目的不同可能是地点或其他元素;然后将它与隐藏状态ht结合通过推荐模块整合机制中的softmax层后得到物品的概率;
所述外部知识图谱为不同的项目具有其对应的外部知识图谱。
S5,将物品插入到语句中的对应槽点得到机器的应答。对应推荐模块的整合机制。
进一步地,所述解码器为LSTM或GRU。
综上所述,由于采用了上述技术方案,本发明能够降低稀疏图的计算复杂度,并捕获局部语义依赖关系和全局语义依赖关系。
具体来说,我们设计了一个多跳注意力网络来编码对话上下文,它可以快速捕获对话序列的长期依赖关系,此外,我们还开发了一个基于稀疏图注意力机制的推荐模型来将物品与对话进行匹配,从而降低了图计算的复杂性和噪声节点的干扰。在旅游、电影对话数据集上进行的大量实验表明,我们提出的模型在推荐质量和对话生成方质量均比现有的方法有了显著的提升。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明的系统框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
会话推荐系统(Conversational recommender systems,CRS)已经成为一个新兴的研究课题,旨在通过自然语言交互为用户提供高质量的推荐。与传统的推荐系统不同,CRS利用对话数据完成推荐任务。CRS通常由对话模块和推荐模块组成。大多数现有的CRS都专注于自然语言处理或为对话系统提供语义丰富的搜索解决方案。传统上的CRS主要槽填充方式来获取用户的偏好,以提出建议。或者利用自然语言与用户互动来实现物品推荐。最近,一种流行趋势是将知识或强化学习融入用户建模与对话交互,以提高CRS的性能。例如,面向任务的对话系统(例如Mem2Seq)使用基于多跳注意力的存储网络,将知识和用户输入结合起来。此外,为了满足多主题的需要,深度会话推荐模型(DCR)利用图卷积网络(GCN)来捕捉不同场地之间的关系以及匹配场地与对话上下文。然而,这些方法存在两个问题。首先,基于GCN的深度会话推荐模型不能充分捕获空间信息,因为利用图卷积网络模型的会话推荐系统给邻居节点分配完全相同的权重,除此之外,图中存在大量的噪声,这可能导致基于GCN的会话推荐模型过拟合。此外,基于RNN的深度会话推荐模型在生成会话主题时存在捕获长期依赖性困难问题。在此基础上,采用基于RNN的层次递归编码器(HRED)解决自然语言处理任务中的长依赖问题。但是,这种方法仍然难以生成语义正确、连贯的句子。特别是同一句话中的两个词相距甚远时,模型无法准确捕捉到两个词之间的依存关系问题,影响了句子的整体结构,这会给用户与代理之间的顺畅沟通造成障碍。为了解决这两个问题,我们发现稀疏图注意力网络(SGAT)可以有效地去除图中与任务无关的的边。SGAT利用分配给每个边的二进制掩码来过滤噪声节点。另外,不同的注意力分数可以解决一阶相同权重带来的空间局限性。此外,我们还注意到记忆网络和Mem2Seq中的多跳注意力的结合增强了捕获长期依赖关系的能力。其原因是嵌入向量存储在外部存储器中,查询向量可以方便地访问“存储器”。受已有的图注意力网络和存储网络的启发,我们提出了一种稀疏多跳会话推荐系统(SMCR)。模型主要的思想是将增强型记忆网络和稀疏图注意力网络集成到会话推荐系统中。具体来说,我们通过融合多跳注意力机制的编码器编码对话文本,以获得文本的高阶表示。此外,推荐模块还利用SGAT匹配候选项和用户偏好。综上所述,本文的主要贡献如下:我们提出了一种基于稀疏图注意力机制的推荐模型,将项目与对话上下文匹配,从而准确识别知识图谱中的重要边,降低图计算的复杂度和噪声节点的干扰。我们设计了一个多跳注意力编码器,通过将基于多跳注意力机制的编码器和基于RNN的编码器结合起来,对上下文进行编码,从而快速编码长对话序列,以捕获长期依赖性。我们在MultiWOZ、Redial数据集上进行了大量的实验来进行模型对比评估,实验表明我们的方法优于现有方法。
1.相关工作
对话系统。根据不同的应用场景,对话系统分为三类:面向任务的对话系统(例如Cortana和Siri)、聊天对话系统(例如小冰)和问答对话系统(例如在线商店助理)。传统的对话系统通常基于规则或模板。例如,Weizenbaum等人开发了Eliza系统,模拟心理治疗师对精神病人的治疗。随后,Wallace等人开发了基于AIML和XML语言的Alice系统,以创建刺激响应聊天机器人。然而,这些方法依赖于大量的人工标签。为了解决这个问题,DeBayser等人设计了基于机器学习和规则的多方对话系统,利用支持向量机进行决策。此外,得益于深度学习和自然语言技术的快速发展,越来越多的研究者将目光投向基于深度学习的对话系统。例如,Dhinga等人结合强化学习和知识图,开发知识库InfoBot模型,它是一个对话代理,通过交互查询功能,为用户提供知识库中的实体。Lipton等人提出BBQ网络,该网络在对话系统中加入强化学习。这些对话系统的研究可以实现非常顺利的人机交互,但是我们认为通过对话发现用户兴趣,引导用户完成购买、订阅和其他行为,具有更大的商业价值。因此,构建一个基于对话的推荐制度尤为重要。
会话推荐系统。近年来,随着深度学习的迅速发展,交互推荐系统越来越受到研究者的关注。例如,Christakopoulu等人提出了一种新颖的观点,认为推荐是一个互动过程。Greco等人利用层次强化学习将CRS目标建模为目标特定表示模块。孙晓明等人提出了整合推荐系统和对话系统的统一框架,构建智能对话推荐系统。由于缺乏公开的大规模对话数据集,李亚杰等人提供了真实对话数据集Redial。为实现机器与人之间的问答,张永峰等人不仅引入了会话搜索和推荐的system ask user response(SAUR)范式,还设计了电子商务产品搜索和推荐的统一实施框架。虽然这些研究取得了一定的成功,但它们只使用对话信息来建模,导致缺乏足够的上下文来表达用户偏好。总体而言,构建一个基于对话的推荐系统至关重要。为了解决这些问题,许多研究者都集中在基于知识的会话推荐系统上,它可以提供外部知识,缩小对话系统与推荐系统之间的差距,以提高推荐者模型的性能。
基于知识的会话推荐系统。知识图(KG)能够表示实体间的结构化关系,并已成功地应用于会话推荐系统中。Chen等人提出了一个新的端到端框架,并引入了关于用户偏好的知识信息。Moon等人提出了一种DialKG Walker模型,它将对话上下文中的单词转换为对KG结构的遍历,给定先前对话上下文的基础上,通过一个基于注意力的图形路径解码器预测自然实体。Liao等人将序列到序列模型与神经潜在主题分量和图卷积网络相结合,在旅游领域推荐。雷文强等人利用图形解决多轮对话推荐问题,提出了会话路径推理框架,将对话与基于图的路径推理同步。该模型使属性的使用更加明确,极大地提高了会话建议的解释能力。周志刚等人采用互信息最大化方法,将词级和实体级语义空间对齐,弥合自然语义间隙。
总之,这些工作利用知识图的路径来模拟对话过程或利用知识图来建模。然而,在现实世界中,对话具有多层次、多轮、多主题的特点,对话中的子对话之间存在着复杂的依赖关系。此外,对话中涉及许多项,每个项都有许多属性,这将为建模添加大量计算。因此,我们认为,从知识图是复杂而稀疏的,在提取和聚合图信息的过程中一直存在一些噪声节点,这些噪声节点对聚合结果没有贡献。有效区分噪声节点和重要节点将提高聚合效率并节省计算空间。基于这些假设,我们开发了一个稀疏图注意力网络的推荐模型来匹配项目与对话上下文,以降低图计算的复杂性和噪声节点的干扰。此外,我们还设计了一个多跳注意力网络来对对话上下文进行编码,该网络可以快速地对长对话序列进行编码,以捕获长期依赖关系。
2.提出的模型
我们提出的会话推荐方法(SMCR),它结合了推荐系统和会话系统。我们将说明基于多跳注意力的编码器如何把会话信息映射到向量,以及它如何将外部知识引入上下文。SMCR方法由两部分组成:对话状态跟踪模块和基于SGAT的推荐模块。模型的详细结构如图1所示。
2.1对话状态跟踪模块
采用分层循环编码-解码器(HRED)建模对话状态跟踪。首先,我们使用HRED构建了一个基于句子级和单词级RNN的编码器即图1中的TopicRNN,分别对上下文和单词进行编码;然后使用基于LSTM或GRU的解码器对其进行解码。其中HRED对应编码过程中融合多跳注意力和TopicRNN。
2.1.1多跳编码器
在对话生成建模中,使用基于RNN的编码器很难解决长期依赖的问题。受Sukhbatar等人提出的端到端记忆网络的启发,我们开发了一个基于多跳注意力的编码器来编码对话上下文,基于一个事实,即在编码阶段使用注意力机制有助于处理长期依赖关系。除了外部记忆外,记忆网络还能增强记忆的持久性。具体而言,我们认为对话D是n句话D={U1,U2,U3,...,Un}的序列,Un表示第n句话。每个Un∈D为一个含有Mn个单词的序列,即Un={Wn,1,Wn,2,...,Wn,Mn},其中Wn,Mn是一个随机变量,取值于单词表V中,代表在D中第n句话第M个位置的单词。
Uh∈D,编码器将对话Uh={Wh,1,Wh,2,...,Wh,Mh}中每个单词Wh,j映射到单词向量θh,j。照此下去,编码器将对话D编码为高阶表示β={β1,β2,...,βN},βN表示对话D中第N句话的张量形式,
β被称为记忆张量。然后,我们将查询向量Q作为读取的头部。该模型以跳数l进行迭代,并计算记忆张量第l跳的注意力权重。计算公式为,
Ql+1=Ql+Ol
Ql+1表示第l+1跳的查询向量Q;
Ql表示第l跳的查询向量Q;
Ol表示第l跳的记忆向量;
采用以下公式用于衡量记忆内容和查询向量Ql之间的关联度。
该值介于0和1之间,记忆分数越接近1,关联度越大。其中e表示自然底数,zk表示数组z中第k个位置的元素,zu表示数组z中第u个位置的元素;
结果就是记忆向量Ol,它将成为解码器的输入之一,对应图1中的hn,s-1。
2.1.2 TopicRNN学习
尽管RNN模型能够很好地捕捉句子的局部关系,但它缺乏捕捉长序列中单词的依赖关系,而TopicRNN模型能够很好地捕捉文档中的全局语义信息。因为语言中的大量长期依赖源于语义连贯。在多轮多主题对话中,子主题的捕获将影响对话生成的质量。TopicRNN模型的生成学习过程可以描述为算法1。
解码器的输出受主题向量φ的影响,其输出被视为偏差,从而使我们能够将全局语义与局部动态语义分离。停止词指示符ln确定主题向量φ如何影响输出结果。具体来说,如果指示符ln等于1,则表示该字是一个停止字,输出将不受影响。此外,这意味着这个词属于主题φ。引入权重以增加输出中属于主题φ的单词的比例,以及更好地模拟停止词和非停止词。权重由偏置bj和主题向量φ的转置的点积获得。可以看出,主题向量φ捕获了对输出有直接影响的远程语义信息,并进行相加。其中token(令牌)代表单词,文中ln对应图1中的ln,s。
2.2基于SGAT的推荐模块
2.2.1 SGAT推荐器
通常,一个项目具有许多属性。例如,当新的访客查询酒店时,酒店有地址、区域、网络、名称、免费停车位等,非常适合利用图结构数据对项目进行建模。当用户发送一个他想要一家中餐餐厅的请求时,用户会清楚地向系统提供“中式”和“餐厅”两个约束条件。因此,系统不仅能准确捕捉到它们,而且考虑到位置和营业时间等潜在的限制,因为用户更愿意考虑酒店附近的餐馆。为了捕捉这些地方之间的显式和潜在关系,我们使用稀疏图注意机制。与图卷积网络不同,它可以为图中顶点的邻域节点分配不同的权重,增强模型的空间信息。然而,在现实世界中,图是庞大而复杂的,最重要的是图是稀疏和充斥有噪声。因此,如果不适当地正则化,图注意力容易出现过度拟合的现象。而稀疏图注意机制是图注意力机制的一种,正则化技术用在图注意力之中,SGAT可以在保持高分类精度的同时,从图中删除至少20%的无用边。另外,SGAT模型中的二进制门巧妙地实现了边裁剪。我们定义一个无向图G=(V,E),节点集合V={v1,v2,..,vw}和边集合来连接这些节点,其中vw表示第w个节点。稠密矩阵表示节点特征,矩阵的一行表示一个节点的特征向量。我们用A表示邻接矩阵,并对每个节点增加一个自循环,以保存节点自身的信息。具体来说,将1添加到邻接矩阵的对角线上。A′=A+Iw表示带有自连接的邻接矩阵,其中是一个单位矩阵。其中表示w×w维的实数。
给定这样的一个图G=(V,E),我们生成项目嵌入,以计算与对话上下文匹配的分数。最后,我们得到了推荐的项目。一般来说,为了聚集一阶邻域节点的特征信息,我们采用了多层卷积模块。因此,我们得到了一个包含大量知识图信息的项目的高阶表示。目的是学习如何有选择性地过滤出需要参与聚合操作的节点,以及如何聚合邻域信息。我们给每条边eij分配一个二进制门bij∈{0,1}来识别每个将参与聚合操作的边,并剪裁与任务无关的边。其中eij表示连接节点i、j的边,bij表示边eij的二进制门。
简而言之,如果bij等于1,则意味着该边参与聚合操作。如果bij等于0,则表示该边不参与聚合操作。这相当于将一组二进制掩码加到邻接矩阵A:
其中B表示二进制掩码,N是图G中的边数,{0,1}N表示二进制掩码的集合。由于我们希望在半监督节点分类中使用尽可能少的边,我们通过最小化L0范数化与经验风险的和来训练模型参数P和二进制掩码B,优化过程如下:
其中R(P,B)表示模型风险,n表示训练样本的个数,yi表示样本的标签,L(·)表示经验风险,A表示邻接矩阵,P表示模型训练参数,B表示二进制掩码,X表示节点特征矩阵,||B||0表示二进制掩码B的L0范数,即B中非零元素的个数,是一个指示器,满足条件为1,否则为0,λ是一个正则化的超参数,用来平衡数据损失和边缘稀疏性。对于编码器函数f(X,A⊙B,P),我们将以下基于注意力的聚合函数定义为:
σ(·)为Softmax激活函数;
j∈Ni表示j属于i节点的邻居节点集合;
w(l)表示第l层的权重;
这里aij是边eij的注意力系数。SGAT为l层边eij指定一个单独的注意力系数,其中l为卷积层数。
我们通过按行标准化A⊙B来计算标准化的注意力系数,
Aij表示邻接矩阵第i行第j列的元素;
bij表示二进制掩码矩阵第i行第j列的元素;
Ni表示节点i的邻居节点集合;
为了增强SGAT模型的能力,我们增加了与GAT类似的多头注意力。因此,我们将多头SGAT层定义为:
2.2.2整合机制
给定对话的上下文,我们可以通过对话状态跟踪模块预测下一个话语,并利用基于SGAT的推荐模型获得推荐项。我们采用集成机制来实现上述两项任务。门控循环单元(GRU)广泛应用于端到端对话系统中。具体地说,在第n轮的第s步解码中,GRU将先前生成的单词和先前生成的隐藏状态作为输入,以生成新的隐藏状态,
其中hn,s表示第n轮的第s步得到的隐藏状态;
n此处代表第n轮;
在获得新的隐藏状态hn,s之后,它被传递给两个分支。我们分别说明如何生成下一个单词,并获得排名靠前的项目名称。
在一个分支中,hn,s用作对话状态跟踪模块的输入,以生成下一个单词,生成下一个单词的概率计算如下:
∝为正比例符号;
exp(·)是高等数学里以自然常数e为底的指数函数;
W表示模型参数;
B表示二进制掩码;
φ表示主题向量;
·T表示转置;
在另一个分支中,hn,s传递给基于SGAT的推荐器。预测项目的概率计算如下:
R表示经过稀疏图注意力机制得到的隐藏状态。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (8)
1.一种融合稀疏图和多跳注意力的会话推荐系统,其特征在于,包括:对话状态跟踪模块、推荐模块、整合机制模块,对话状态跟踪模块的数据输出端与推荐模块的数据输入端相连,推荐模块的数据输出端与整合机制模块的数据输入端相连;
对话状态跟踪模块:采用基于多跳注意力网络的编码器来对对话上下文进行编码,再利用TopicRNN模型捕捉文档中的全局语义信息;
推荐模块:利用稀疏图注意力网络SGAT对知识图谱进行特征捕捉并正则化稀疏图,根据图生成的项目嵌入,以计算与对话上下文匹配的分数;最后,得到物品的概率;
整合机制模块:根据对话上下文,通过对话状态跟踪模块预测下一个单词,并利用基于SGAT的推荐模型获得推荐项。
2.根据权利要求1所述的一种融合稀疏图和多跳注意力的会话推荐系统,其特征在于,所述采用基于多跳注意力网络的编码器来对对话上下文进行编码包括:
将Uh={Wh,1,Wh,2,...,Wh,Mh}中每个单词Wh,j映射到单词向量θh,j,将对话D编码为高阶表示β={β1,β2,...,βN},其中Uh表示对话D中的第h句话,βN表示对话D中第N句话的张量形式,β被称为记忆张量,Wh,j表示Uh中的第j个单词,j=1,2,...,Mh;
然后,将查询向量Q作为读取的头部,以跳数l进行迭代,并计算记忆张量第l跳的注意力权重,计算公式为:
Ql+1=Ql+Ol
Ql+1表示第l+1跳的查询向量Q;
Ql表示第l跳的查询向量Q;
Ol表示第l跳的记忆向量;
·T表示转置;
Softmax(·)为Softmax激活函数;
再采用以下公式用于衡量记忆内容和查询向量Ql之间的关联度:
其中e表示自然底数;
zk表示数组z中第k个位置的元素;
zu表示数组z中第u个位置的元素;
3.根据权利要求1所述的一种融合稀疏图和多跳注意力的会话推荐系统,其特征在于,所述TopicRNN模型包括:
输入全局语义信息,全局语义信息包括用户输入U和上下文C,用户输入U为一句话,上下文C为之前的对话;
数据处理:S-1,将数据输入分层递归编码-解码模型HRED,得到h=HRED(U,C),h表示隐藏状态;
S-2,然后从用户输入U和上下文C得到一个主题向量φ,φ服从正态分布;
S-3,再初始化解码器,即将h赋值给H0,H0为解码器初始化状态;
S-4,C中包含T=(t1,t2,...,tn-1),其中T代表C中的一个单词序列,t1表示第1个单词,t2表示第2个单词,tn-1表示第n-1个单词,
S-5,为计算单词tn进入循环:计算解码器的隐藏状态Hn=fw(Hn-1,T),其中fw()为解码器,Hn-1为解码器第n-1轮的隐藏状态;
S-6,从上下文C中得到一个停止词指示器ln,ln~Bernoulli(sigmoid(WTHn-1)),Bernoulli()表示伯努利分布,sigmoid()为sigmoid激活函数,WT为权重矩阵的转置,ln即ln,s,表示第n轮第s步的停用词指示器;
S-7,最后得到tn~p(tn|Hn,φ,ln,B),此时 其中B即Bernoulli(sigmoid(WTHn-1)),~表示服从,Hn为即解码器第n轮的隐藏状态,φ为主题向量,ln为停止词指示器,B表示伯努利分布,wj表示第j个单词,表示wj的转置;
S-8,输出预测标记tn,tn表示第n个单词。
4.根据权利要求1所述的一种融合稀疏图和多跳注意力的会话推荐系统,其特征在于,所述稀疏注意网络SGAT包括:
采用了多层卷积模块聚集一阶邻域节点的特征信息,得到一个包含知识图信息的项目的高阶表示;
然后给每条边eij分配一个二进制门bij∈{0,1}来识别每个将参与聚合操作的边,并剪裁与任务无关的边,其中eij表示连接节点i、j的边,bij表示边eij的二进制门;
如果bij等于1,则该边参与聚合操作;如果bij等于0,则该边不参与聚合操作,这相当于将一组二进制掩码加到邻接矩阵A:
B表示二进制掩码;
⊙表示拼接操作;
N是图G中的边数;
{0,1}N表示二进制掩码的集合,一共有N个;
通过最小化L0范数化与经验风险的和来训练模型参数P和二进制掩码B,过程如下:
其中R(P,B)表示模型风险;
n表示训练样本的个数;
L(·)表示经验风险;
fi(·,·,·)表示第i个节点的预测值;
X表示节点特征矩阵;
A表示邻接矩阵;
B表示二进制掩码;
||·||0表示L0范数;
P表示模型训练参数;
yi表示第i个样本的标签;
λ是一个正则化的超参数;
||B||0表示二进制掩码B的l0范数,即B中非零元素的个数;
zij表示二进制掩码B第i行j列的元素;
对于求取预测值的编码器函数f(X,A⊙B,P),则将基于注意力系数的聚合函数定义为:
σ(·)为Softmax激活函数;
Ni表示节点i的邻居节点集合;
aij是边eij的注意力系数,eij表示连接节点i、j的边;
w(l)表示第l层的权重;
注意力系数aij的计算公式如下:
Aij表示邻接矩阵第i行第j列的元素;
bij表示二进制掩码矩阵第i行第j列的元素;
Ni表示节点i的邻居节点集合。
6.根据权利要求1所述的一种融合稀疏图和多跳注意力的会话推荐系统,其特征在于,所述整合机制模块包括:
在第n轮的第s步解码中,GRU将先前生成的单词和先前生成的隐藏状态作为输入,以生成新的隐藏状态,
其中hn,s表示第n轮的第s步得到的隐藏状态;
GRU(·,·)表示门控循环单元;
hn,s-1表示第n轮的第s-1步得到的隐藏状态;
在获得新的隐藏状态hn,s之后,它被传递给两个分支,然后生成下一个单词,并获得排名靠前的项目名称,具体步骤如下:
在一个分支中,hn,s用作对话状态跟踪模块的输入,以生成下一个单词,生成下一个单词的概率计算如下:
∝为正比例符号;
exp(·)是高等数学里以自然常数e为底的指数函数;
W表示模型参数;
·T表示转置;
hn,s表示第n轮的第s步得到的隐藏状态;
ln,s表示第n轮第s步的停用词指示器;
B表示二进制掩码;
φ表示主题向量;
在另一个分支中,hn,s传递给基于SGAT的推荐器,预测项目的概率计算如下:
R表示经过稀疏图注意力机制得到的隐藏状态。
7.根据权利要求1所述的一种融合稀疏图和多跳注意力的会话推荐系统,其特征在于,所述系统的会话推荐方法包括以下步骤:
S1,首先使用基于GRU和基于多跳注意力网络的编码器分别对文本进行单词级别和上下文级别的编码,分别得到和hn,s-1,然后通过GRU得到隐藏状态hn,s;其中表示在第n轮的第s-1步解码生成的单词的张量表示,hn,s-1表示第n轮的第s-1步得到的隐藏状态,hn,s表示第n轮的第s步得到的隐藏状态;
S2,TopicRNN通过对话文本得到去除停止词后的语义信息M;
S3,将外部知识图谱通过稀疏图注意力网络得到点嵌入in,然后将它与隐藏状态ht结合通过softmax层后得到物品的概率;
S5,将物品插入到语句中的对应槽点得到机器的应答。
8.根据权利要求7所述的一种融合稀疏图和多跳注意力的会话推荐系统,其特征在于,所述解码器为LSTM或GRU。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210592414.2A CN114817508A (zh) | 2022-05-27 | 2022-05-27 | 融合稀疏图和多跳注意力的会话推荐系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210592414.2A CN114817508A (zh) | 2022-05-27 | 2022-05-27 | 融合稀疏图和多跳注意力的会话推荐系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114817508A true CN114817508A (zh) | 2022-07-29 |
Family
ID=82519388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210592414.2A Pending CN114817508A (zh) | 2022-05-27 | 2022-05-27 | 融合稀疏图和多跳注意力的会话推荐系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114817508A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115659003A (zh) * | 2022-09-06 | 2023-01-31 | 淮阴工学院 | 基于动态多任务图卷积的冷链多温混配推荐方法及装置 |
CN116776840A (zh) * | 2023-08-21 | 2023-09-19 | 北京中科汇联科技股份有限公司 | 一种基于文本生成的智能填单方法 |
CN116932686A (zh) * | 2023-09-19 | 2023-10-24 | 苏州元脑智能科技有限公司 | 主题挖掘方法、装置、电子设备及存储介质 |
-
2022
- 2022-05-27 CN CN202210592414.2A patent/CN114817508A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115659003A (zh) * | 2022-09-06 | 2023-01-31 | 淮阴工学院 | 基于动态多任务图卷积的冷链多温混配推荐方法及装置 |
CN116776840A (zh) * | 2023-08-21 | 2023-09-19 | 北京中科汇联科技股份有限公司 | 一种基于文本生成的智能填单方法 |
CN116776840B (zh) * | 2023-08-21 | 2023-10-20 | 北京中科汇联科技股份有限公司 | 一种基于文本生成的智能填单方法 |
CN116932686A (zh) * | 2023-09-19 | 2023-10-24 | 苏州元脑智能科技有限公司 | 主题挖掘方法、装置、电子设备及存储介质 |
CN116932686B (zh) * | 2023-09-19 | 2024-01-23 | 苏州元脑智能科技有限公司 | 主题挖掘方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ren et al. | Crsal: Conversational recommender systems with adversarial learning | |
Ziegler et al. | Encoder-agnostic adaptation for conditional language generation | |
CN114817508A (zh) | 融合稀疏图和多跳注意力的会话推荐系统 | |
Chen et al. | DialogVED: A pre-trained latent variable encoder-decoder model for dialog response generation | |
Tezgider et al. | Text classification using improved bidirectional transformer | |
CN109189862A (zh) | 一种面向科技情报分析的知识库构建方法 | |
Tang et al. | Modelling student behavior using granular large scale action data from a MOOC | |
CN112667818A (zh) | 融合gcn与多粒度注意力的用户评论情感分析方法及系统 | |
CN115510226B (zh) | 一种基于图神经网络的情感分类方法 | |
US20230169271A1 (en) | System and methods for neural topic modeling using topic attention networks | |
CN110263343A (zh) | 基于短语向量的关键词抽取方法及系统 | |
Zhao et al. | Multi-task learning with graph attention networks for multi-domain task-oriented dialogue systems | |
CN114692605A (zh) | 一种融合句法结构信息的关键词生成方法及装置 | |
Wang et al. | Generative text convolutional neural network for hierarchical document representation learning | |
CN116910190A (zh) | 多任务感知模型获取方法、装置、设备及可读存储介质 | |
CN116150334A (zh) | 基于UniLM模型和Copy机制的中文共情语句训练方法及系统 | |
Li et al. | Convolutional transformer with sentiment-aware attention for sentiment analysis | |
Li et al. | ANN: a heuristic search algorithm based on artificial neural networks | |
Song | Distilling knowledge from user information for document level sentiment classification | |
Zhou et al. | What happens next? Combining enhanced multilevel script learning and dual fusion strategies for script event prediction | |
Cvejoski et al. | Recurrent point review models | |
Li et al. | Recommendation with Dynamic Natural Language Explanations | |
Ahmed | Combining neural networks with knowledge for spoken dialogue systems | |
Yu et al. | PLM-PGHC: A novel de-biasing framework for robust question answering | |
Zhou et al. | Increasing naturalness of human–machine dialogue: The users’ choices inference of options in machine-raised questions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |