CN113987366A - 一种融合搜索行为与好友网络的个性化搜索方法与系统 - Google Patents
一种融合搜索行为与好友网络的个性化搜索方法与系统 Download PDFInfo
- Publication number
- CN113987366A CN113987366A CN202111253279.0A CN202111253279A CN113987366A CN 113987366 A CN113987366 A CN 113987366A CN 202111253279 A CN202111253279 A CN 202111253279A CN 113987366 A CN113987366 A CN 113987366A
- Authority
- CN
- China
- Prior art keywords
- friend
- behavior
- user
- search
- circle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明通过人工智能处理领域的方法,实现了一种融合搜索行为与好友网络的个性化搜索方法与应用该方法的系统。方法提出了一个基于组的个性化搜索模型,该模型整合了搜索行为和好友网络,利用短期历史和长期历史来完善用户画像,并通过将朋友关系和搜索行为结合起来,将用户的搜索行为与好友网络结合起来构建基于组的用户画像,并通过神经网络强化相似的用户的影响。在基于关系和基于行为的好友圈的交互作用下,同时出现在两种类型的好友圈中的用户得到了进一步强化,从而建立基于组的用户画像。该模型结合基于当前查询构建的个人画像和组画像来个性化搜索结果。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种融合搜索行为与好友网络的个性化搜索方法与系统。
背景技术
个性化搜索是提升用户搜索体验的有效手段之一,现有的个性化算法是主要基于文本分析来建立用户画像,而后比较用户画像与候选文档的相似度来对结果进行重排。早期建立用户画像的方法主要是基于特征工程,它们通过收集用户历史行为中的点击特征以及主题特征来刻画用户兴趣。深度学习的出现使模型能够在语义层面建模用户兴趣,现有的模型结构主要包括循环神经网络,对抗神经网络,记忆网络,强化学习等。然而,历史行为的缺失会使这些个性化搜索算法失效,为了解决这个问题,基于组的个性化搜索算法被提出,这类方法通过融合相似用户的行为来拓展用户画像。它们通过对用户历史行为之间相似性的分析来找出相似用户,而后在个性化排序时同时考虑这些用户的画像。还有一些研究提出了动态分组的概念,根据查询的不同,动态地为当前用户寻找不同的相似用户,并取得了一定成效。社交关系在一些特定的系统中也被用来提高检索质量,例如微博系统,现有的方法通过对用户社交关系的分析对用户进行分组,进而在排序时考虑社交网络中距离更近的用户的画像。
现有的基于组的个性化搜索技术虽然取得了一定成果,但它们存在两个问题。第一,这些研究主要基于历史查询和点击文档的词法或主题相似性来寻找相似用户,这种方法过于简单,不可避免地会引入很多噪声用户。第二,由于现有的寻找相似用户的方法依然依赖于用户的历史行为,那么当用户的历史行为有限时,这种方法不足以确保找到的相似用户的可靠性。当面对一个全新领域的查询时,这种方法的缺陷尤为明显。
发明内容
为此,本发明首先提出一种融合搜索行为与好友网络的个性化搜索方法,首先通过使用transformer结构利用短期历史建模用户当前查询意图,之后使用另一个transformer结构利用长期历史动态建立个人画像,从而进行建模构造个人画像,然后为了构建基于组的用户画像,将朋友关系和搜索行为结合起来以形成基于关系的好友圈区分出核心的好友圈输出核心节点,通过基于行为的好友圈区分输出核心行为,之后利用两种好友圈的输出,通过构建好友圈的图注意力网络、计算关系与行为的交叉注意力、构建查询感知的注意力机制三个步骤,构建基于组的用户画像,进而通过个性化得分和相关度得分的计算,对结果进行重排,并对模型进行训练和优化,构成可以输出个性化排序结果的方法。
所述动态建立个人画像方法为:设计另一个transformer来模拟历史行为之间的长期依存关系,历史中的交互表示Hu={h1,...,hn}构成了transformer的输入:
之后计算:
所述核心节点输出方法为:输入包括用户的好友网络G,设置包括当前用户的所有好友的候选节点集合N并从中找到k个核心结点并形成对应的好友圈,每一轮选取与当前用户的共同好友最多的朋友作为核心节点,好友网络上与其相关的节点和边构成一个子图,代表一个好友圈,为了保证不同好友圈之间的差异性,将此好友圈中包含的边从G中删除,并重复上述步骤,最终输出kr个基于关系的好友圈以及对应的核心朋友。
所述核心行为点输出方法为:在好友网络G的节点中,根据历史中是否包含相同的搜索行为来构建边,同时我们将当前用户的所有行为加入到这个图中,而后每一轮我们选取连接用户最多的用户行为,将该行为作为核心结点,与相连的用户共同构成基于行为的好友圈,该算法输入是基于行为的好友网络,以及由当前用户历史行为构成的候选节点集合,最终找到kb个基于行为的好友圈 以及对应的核心行为。
所述好友圈的图注意力网络构建的构建方法为:使用图注意力网络得到该好友圈的表示,对于好友圈中的用户g,他的个人画像被表示为具体计算为:假设对于好友圈ci,核心节点的表示为fi,图注意力网络的聚合函数为: 其中被看作好友圈ci的表示,W是模型参数,αig是好友权重用户g的权重,基于关系和基于行为的好友圈分别被表示为Cr,f和Cb,f。
所述关系与行为的交叉注意力的计算方法为:将两种好友圈的表示Cr,f和Cb,f连接,然后输入到masked transformer中:Cf=Transformermasked([Cr,f,Cb,f])交叉注意力层的输出表示融合关系与行为强化后的好友圈的表示。
所述查询感知的注意力机制的构建方法为:针对用户当前的查询意图学习不同的圈子上的注意力权重,给定每个好友圈的表示我们使用查询感知的注意力机制根据qs计算基于组的用户画像每个好友圈的权重表示为αi,计算方式为:得到基于组的用户画像
所述训练和优化方法为:采用LambdaRank排序算法训练模型,在pairwise的基础上,根据交换文档对顺序后最终结果MAP的变化,为每个文档对增加了相应的权重Δ,选取相关文档集中的文档di和不相关文档集中的文档dj作为一对数据来训练模型,损失函数为预测值与实际值之间的交叉熵,定义如下:
Loss(LambdaRank)=ΔLoss(RankNet)
最后再通过AdamOptimizer优化器逐步优化模型,对最终得到的分数排序后即为个性化排序结果。
本发明所要实现的技术效果在于:
(1)借助神经网络的优势,从语义层面来强化相似用户的影响,进而实现更好的基于组的个性化搜索算法。
(2)为了克服现有方法对历史行为的过度依赖,将用户的好友网络引入个性化搜索。好友网络往往能够反映用户真实世界中的朋友关系,因此能够提供有效的个性化信息。
(3)为了更准确地寻找相似用户,融合搜索行为相似性与好友关系的紧密性来衡量用户之间的相似性。
(4)根据搜索行为和好友关系,将当前用户分组到不同的好友圈子,从而细粒度地建模用户基于组的画像。
附图说明
图1融合搜索行为与好友网络的基于组的个性化搜索方法框架;
图2好友圈算法逻辑;
具体实施方式
以下是本发明的优选实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于此实施例。
本发明提出了一种融合搜索行为与好友网络的个性化搜索方法及使用该方法的系统。
融合搜索行为与好友网络的基于组的个性化搜索方法建立在基于组的个性化算法和基于好友网络的个性化搜索算法基础上。
基于组的个性化算法:基于组的搜索旨在借助相似用户的查询日志来改善搜索结果。现有的提取相似用户的方法可以分为两类:基于搜索行为或社交关系。第一种方法主要寻找具有相似搜索行为的前K位用户,然后根据这些用户对结果进行个性化排序。第二种方法主要基于社交关系对用户偏好进行建模。他们将用户,查询,文档构建成一个包含社交关系的图,而后应用图优化算法迭代计算出查询和文档的相似度。
基于好友网络的个性化搜索:当用户缺乏历史活动时,参考相似用户的用户画像来个性化结果可以提高排名质量。为了解决现存问题,我们提出了好友增强的个性化搜索模型,通过神经网络强化语义空间中的相似用户。它集成了好友网络来解决历史数据稀疏性问题。具体地,为了以细粒度的方式构造基于组的用户画像,我们基于用户的搜索行为和好友关系将用户划分到多个好友圈。在下文中,它们被称为基于行为的好友圈和基于关系的好友圈。在他们的互补作用下,更加相似的用户在构建用户画像时发挥了更大的作用。
假设对于一个用户u,其历史数据包含长期历史和短期历史前者包括之前会话中的交互行为其中n代表之前会话中包含的查询数量,后者包含当前会话中的一系列查询和候选文档 t是当前时间戳。用户的好友网络可以被表示为一个图,G={V,E},V是包含了当前用户和他好友的节点集合,E代表这些用户之间的好友关系。当给定一个新的查询q和其候选文档集D={d1,d2,…},我们的任务是对D中每个候选文档进行评分,最终得分表示为p(d|q,H,G),由两部分组成:
融合搜索行为与好友网络的个性化搜索方法:
在此基础上,融合搜索行为与好友网络的个性化搜索方法的输入内容包括用户的好友网络,历史搜索行为和当前查询。首先,为了构造个人画像,我们使用两个transformer结构分别对长期和短期历史进行建模。然后为了构建基于组的用户画像,我们将朋友关系和搜索行为结合起来以形成多个好友圈。在两种类型的好友圈的交互作用下,核心的好友圈将被考虑得更多。接下来我们将详细介绍个性化得分的计算过程。
1、建模个人画像
个性化搜索的关键是如何根据用户的历史搜索行为对用户兴趣进行建模。受先前研究的启发,我们分别对用户的长期和短期历史搜索行为进行建模。前者描述了更长期的用户特征,后者通常代表了用户的近期兴趣或临时信息需求。由于Transformer具有强大的长期依赖能力,因此我们尝试通过以下两个步骤将其应用于个人画像的建模。
(2)动态建立个人画像:长期搜索行为通常反映了用户的背景和稳定的兴趣。例如,经常提交与“pytorch”相关的查询的用户更有可能是程序员。为了建模用户的长期兴趣,我们设计了另一个transformer来模拟历史行为之间的长期依存关系。与短期历史类似,历史中的交互表示Hu={h1,...,hn}构成了transformer的输入:
其中αi是基于当前查询意图下oi对应的权重。它的计算方式是将oi和qs输入到多层感知机,并经过softmax函数归一化。
最后,我们得到了用户个人画像以及当前查询意图,然而,当用户历史数据有限时,用户个人画像不足以完整地刻画用户兴趣,为了解决这个问题,接下来基于组的用户画像被构建。
2、好友圈形成
在现实生活中,通常可以将用户分为不同的好友圈,例如同事,亲戚,同学等。每个好友圈都可以反映出用户特征的一个方面。在本节中,我们尝试形成用户的多个好友圈,以细粒度方式捕获基于组的用户画像。朋友关系可以为我们提供一种在没有任何行为的情况下衡量用户之间的亲密关系的方法。基于此考虑,我们分别根据关系和行为将用户分为多个好友圈。前者倾向于将背景相似的用户分组为一个圈子,而后者则侧重于相似的信息需求。从两个角度进行形成好友圈的细节如下。
(1)基于关系的好友圈:这种方法基于用户的好友关系形成好友圈。由于现实生活中友谊的建立通常是基于共有的经历,因此在基于关系的同一个好友圈中的用户可能会有相同的背景。通常每个圈子中有些朋友与当前用户更为较近。根据这些更紧密的朋友建立好友圈可以更准确地反映用户的群组信息。为了找到亲密朋友,我们以共同朋友的数量为指标来衡量用户之间的亲密程度。形成好友圈的算法如图2所示。
算法的输入包括用户的好友网络G,我们设置候选节点集合N并从中找到k个核心结点并形成对应的好友圈。这里候选节点集合包括当前用户的所有好友。每一轮我们选取与当前用户的共同好友最多的朋友作为核心节点,好友网络上与其相关的节点和边构成一个子图,代表一个好友圈。为了保证不同好友圈之间的差异性,我们将此好友圈中包含的边从G中删除,并重复上述步骤。算法的输出则是kr个基于关系的好友圈以及对应的核心朋友。
(2)基于行为的好友圈:好友圈的形成不仅基于相同的背景,而且还可以建立在相似的兴趣之上,例如体育,电影明星等。历史搜索行为可以在一定程度上反映用户的兴趣。在这一部分中,我们尝试根据用户的历史搜索行为对用户进行分组。同一基于行为的好友圈中的用户可能表现出相似的兴趣。有些搜索行为通常可以反映群体兴趣。基于这些行为形成的好友圈对于建立基于组的用户画像更为可靠。
在好友网络G的节点中,我们根据历史中是否包含相同的搜索行为来构建边,同时我们将当前用户的所有行为加入到这个图中,而后每一轮我们选取连接用户最多的用户行为,将该行为作为核心结点,与相连的用户共同构成基于行为的好友圈,该算法输入是基于行为的好友网络,以及由当前用户历史行为构成的候选节点集合,最终我们可以找到kb个基于行为的好友圈以及对应的核心行为。
3、建模基于组的用户画像
这一节我们将介绍如何利用划分好的两种好友圈构建基于组的用户画像。主要包含以下三个步骤:
步骤一,好友圈的图注意力网络:上述步骤计算得到的每个好友圈可以被看作一个图,为了学习该图上每个节点的重要性,我们使用图注意力网络(GAT)来得到该好友圈的表示。对于好友圈中的用户g,他的个人画像被表示为具体计算为:
假设对于好友圈ci,核心节点的表示为fi,图注意力网络的聚合函数为:
步骤二,关系与行为的交叉注意力:如上所述,基于关系的好友圈倾向于挖掘出背景信息,而基于行为的好友圈则抓住了用户的兴趣。我们认为同时出现在两种类型的圈子中的朋友对用户画像的贡献更大。换句话说,如果一个基于关系的好友圈和一个基于行为的好友圈包含很多公共用户,我们应该通过这两个圈子的互动来更多地关注这些用户。为了实现这样一种交互,我们使用masked transformer,只保留不同圈子之间的连接。具体地,我们将两种好友圈的表示Cr,f和Cb,f连接,然后输入到masked transformer中:
Cf=Transformermasked([Cr,f,Cb,f])
步骤三,查询感知的注意力机制:从直观上讲,当用户提出新查询时,并非所有的好友圈都有所帮助。为了调整每个好友圈的权重,我们针对用户当前的查询意图学习不同的圈子上的注意力权重。给定每个好友圈的表示 我们使用查询感知的注意力机制根据qs计算基于组的用户画像每个好友圈的权重表示为αi,计算方式为:
4、搜索结果重排
在这部分我们分别介绍每一部分的计算方式。
(1)对于个性化得分我们同时考虑文档与个人画像和基于组的用户画像的匹配,我们认为,这二者在个性化中都会发挥作用,最终,我们使用多层感知机来自动调整不同部分的权重。我们选择余弦相似度(cossim)来计算文档与画像的匹配程度。
(2)对于相关度得分p(d|q),我们考虑了原始查询和文档的语义相似度,此外我们提取了每个文档有关点击和主题的特征Fq,d,通过多层感知机计算相关度得分。相关度得分计算方式如下:
5、训练和优化
在我们采用LambdaRank排序算法训练模型。在pairwise的基础上,根据交换文档对顺序后最终结果MAP的变化,为每个文档对增加了相应的权重Δ,从而使最终排序结果的平均准确度更高。我们选取相关文档集中的文档di和不相关文档集中的文档dj作为一对数据来训练模型,损失函数为预测值与实际值之间的交叉熵,定义如下:
Loss(LambdaRank)=ΔLoss(RankNet)
最后再通过AdamOptimizer优化器逐步优化模型,对最终得到的分数排序后即为个性化排序结果。
Claims (9)
1.一种融合搜索行为与好友网络的个性化搜索方法,其特征在于:首先通过使用transformer结构利用短期历史建模用户当前查询意图,之后使用另一个transformer结构利用长期历史动态建立个人画像,从而进行建模构造个人画像,然后为了构建基于组的用户画像,将朋友关系和搜索行为结合起来以形成基于关系的好友圈区分出核心的好友圈输出核心节点,通过基于行为的好友圈区分输出核心行为,之后利用两种好友圈的输出,通过构建好友圈的图注意力网络、计算关系与行为的交叉注意力、构建查询感知的注意力机制三个步骤,构建基于组的用户画像,进而通过个性化得分和相关度得分的计算,对结果进行重排,并对模型进行训练和优化,构成可以输出个性化排序结果的方法。
3.如权利要求2所述一种融合搜索行为与好友网络的个性化搜索方法,其特征在于:所述核心节点输出方法为:输入包括用户的好友网络G,设置包括当前用户的所有好友的候选节点集合N并从中找到k个核心结点并形成对应的好友圈,每一轮选取与当前用户的共同好友最多的朋友作为核心节点,好友网络上与其相关的节点和边构成一个子图,代表一个好友圈,为了保证不同好友圈之间的差异性,将此好友圈中包含的边从G中删除,并重复上述步骤,最终输出kr个基于关系的好友圈以及对应的核心朋友;
8.如权利要求7所述一种融合搜索行为与好友网络的个性化搜索方法,其特征在于:所述训练和优化方法为:采用LambdaRank排序算法训练模型,在pairwise的基础上,根据交换文档对顺序后最终结果MAP的变化,为每个文档对增加了相应的权重Δ,选取相关文档集中的文档di和不相关文档集中的文档dj作为一对数据来训练模型,损失函数为预测值与实际值之间的交叉熵,定义如下:
Loss(LambdaRank)=ΔLoss(RankNet)
最后再通过AdamOptimizer优化器逐步优化模型,对最终得到的分数排序后即为个性化排序结果。
9.一种融合搜索行为与好友网络的个性化搜索系统,其特征在于:应用如权利要求1-8中任一所述的一种融合搜索行为与好友网络的个性化搜索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111253279.0A CN113987366A (zh) | 2021-10-27 | 2021-10-27 | 一种融合搜索行为与好友网络的个性化搜索方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111253279.0A CN113987366A (zh) | 2021-10-27 | 2021-10-27 | 一种融合搜索行为与好友网络的个性化搜索方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113987366A true CN113987366A (zh) | 2022-01-28 |
Family
ID=79742253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111253279.0A Pending CN113987366A (zh) | 2021-10-27 | 2021-10-27 | 一种融合搜索行为与好友网络的个性化搜索方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113987366A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114491150A (zh) * | 2022-03-28 | 2022-05-13 | 苏州浪潮智能科技有限公司 | 一种视频推荐方法、系统、设备及计算机可读存储介质 |
-
2021
- 2021-10-27 CN CN202111253279.0A patent/CN113987366A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114491150A (zh) * | 2022-03-28 | 2022-05-13 | 苏州浪潮智能科技有限公司 | 一种视频推荐方法、系统、设备及计算机可读存储介质 |
CN114491150B (zh) * | 2022-03-28 | 2022-07-15 | 苏州浪潮智能科技有限公司 | 一种视频推荐方法、系统、设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931062B (zh) | 一种信息推荐模型的训练方法和相关装置 | |
US9940402B2 (en) | Creating groups of users in a social networking system | |
CN107330798B (zh) | 一种基于种子节点传播的社交网络间用户身份识别方法 | |
CN107767279A (zh) | 一种基于lda的加权平均的个性化好友推荐方法 | |
CN111143684B (zh) | 基于人工智能的泛化模型的训练方法及装置 | |
CN112084373B (zh) | 一种基于图嵌入的多源异构网络用户对齐方法 | |
KR20150033768A (ko) | 동적 사용자 프로필 및 소셜 네트워크 신뢰성을 이용한 전문가 검색 시스템 및 방법 | |
CN113761383A (zh) | 一种基于统一用户行为建模的搜索和推荐融合系统 | |
CN116010681A (zh) | 一种召回模型的训练及检索方法、装置及电子设备 | |
CN116383519A (zh) | 基于双加权的自注意力的群组推荐方法 | |
Wu et al. | Toward predicting active participants in tweet streams: A case study on two civil rights events | |
CN113987366A (zh) | 一种融合搜索行为与好友网络的个性化搜索方法与系统 | |
US20170109411A1 (en) | Assisted creation of a search query | |
CN110543601B (zh) | 一种基于中智集的上下文感知兴趣点推荐方法及系统 | |
CN116956183A (zh) | 多媒体资源推荐方法、模型训练方法、装置及存储介质 | |
CN112749332A (zh) | 数据处理方法、装置以及计算机可读介质 | |
CN112257517A (zh) | 一种基于景点聚类和群体情感识别的旅游景点推荐系统 | |
CN110134881A (zh) | 一种基于多信息源图嵌入的好友推荐方法及系统 | |
CN112749246A (zh) | 搜索短语的评估方法、装置、服务器及存储介质 | |
Parida et al. | Use of social network for recommending job by applying machine learning techniques | |
CN117951282B (zh) | 一种融合多元信息的图神经网络会话推荐方法 | |
CN118013023B (zh) | 科技文献推荐方法、装置、电子设备及存储介质 | |
Bhuvaneswari et al. | Fuzzy Search with Multi-Keyword Security and Improved Service Quality | |
Revathi | Quality Assessment Approaches in Popularity Prediction of Social Media Using Big Data Analytics | |
BOUKANOUN et al. | Deep Learning Context-aware Technique for Citation Recommendation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |