CN116738035B - 一种基于窗口滑动的推荐重排方法 - Google Patents

一种基于窗口滑动的推荐重排方法 Download PDF

Info

Publication number
CN116738035B
CN116738035B CN202310051409.5A CN202310051409A CN116738035B CN 116738035 B CN116738035 B CN 116738035B CN 202310051409 A CN202310051409 A CN 202310051409A CN 116738035 B CN116738035 B CN 116738035B
Authority
CN
China
Prior art keywords
search data
commodity
user
data
piece
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310051409.5A
Other languages
English (en)
Other versions
CN116738035A (zh
Inventor
呼天阔
梁杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quantum Digital Technology Co ltd
Original Assignee
Quantum Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quantum Digital Technology Co ltd filed Critical Quantum Digital Technology Co ltd
Priority to CN202310051409.5A priority Critical patent/CN116738035B/zh
Publication of CN116738035A publication Critical patent/CN116738035A/zh
Application granted granted Critical
Publication of CN116738035B publication Critical patent/CN116738035B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,提出了一种基于窗口滑动的推荐重排方法,包括:获取用户的历史行为数据及当前行为数据并得到相应搜索数据;获取搜索数据的用户类关键词,获取三级类目的商品类关键词组合,根据用户类关键词与商品类关键词组合的第一相似程度构建二分图得到初始边权值;根据各搜索数据的用户类关键词之间的第二相似程度获取任意两条搜索数据之间的第三相似程度,得到每条搜索数据的若干参考搜索数据,根据参考搜索数据获取二分图中的边权值调整系数;获取第一边权值并进行二分图KM匹配,得到用户的意图得分;获取最终的重排推荐列表。本发明旨在解决滑动窗口法重排未考虑用户意图且容易造成末尾同类型扎堆的问题。

Description

一种基于窗口滑动的推荐重排方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于窗口滑动的推荐重排方法。
背景技术
随着互联网技术的发展,当前正处在信息爆炸的时代,随着信息量的指数式增大,人们获取有价值的信息愈发困难,因此逐渐出现不同场景下的推荐系统,其中尤以电商平台使用推荐系统较为广泛;在推荐系统中,重排模块距离最终的推荐排序最近,因此对于推荐系统十分重要;重排模块中,通过不同候选商品之间的相互关系进行打散重新排序,进而保证用户的购物体验。
在重排过程中基于规则进行打散的主要方法为滑动窗口法,通过设定一定大小的滑动窗口,当同种类型的候选商品连续出现一定次数后,就与后续中满足条件的候选商品进行位置交换,进而对原排序序列实现打散;然而传统的滑动窗口法由于其交换规则,会在序列的末尾出现同种类型的候选商品扎堆的情况,同时没有考虑用户对不同商品的意图对重排的影响,若仅根据候选商品的类型进行重排,无法根据用户需求意图重排,仍会导致用户购物体验较差。
发明内容
本发明提供一种基于窗口滑动的推荐重排方法,以解决现有的滑动窗口法重排未考虑用户意图且容易造成末尾同类型扎堆的问题,所采用的技术方案具体如下:
本发明一个实施例提供了一种基于窗口滑动的推荐重排方法,该方法包括以下步骤:
获取用户的若干历史行为数据及当前行为数据,得到其中的搜索数据,并得到每条历史行为数据对应的浏览数据、商品数据以及商品库;将当前行为数据中的搜索数据记为当前搜索数据,将历史行为数据中的搜索数据记为历史搜索数据;
获取搜索数据的用户类关键词,获取商品库中三级类目的商品类关键词,将同一三级类目的所有商品类关键词作为三级类目的商品类关键词组合,将所有关键词进行词向量转换,根据词向量获取用户类关键词与商品类关键词之间的初始相似程度,将任意一个用户类关键词与同一商品类关键词组合中所有关键词的初始相似程度均值作为该用户类关键词与该商品类关键词组合的第一相似程度;
获取任意一条搜索数据,将用户类关键词作为用户类节点,根据若干商品类关键词组合对应的三级类目获取待选三级类目,将待选三级类目对应的商品类关键词组合作为商品类节点,将第一相似程度作为节点之间的边值构建该条搜索数据的二分图,将二分图中节点之间的边值归一化结果作为初始边权值;
根据词向量获取同一用户的不同搜索数据的用户类关键词之间的第二相似程度,将任意一条搜索数据中所有用户类关键词与另一条搜索数据中所有用户类关键词之间的第二相似程度的均值作为该两条搜索数据之间的第三相似程度,根据第三相似程度获取每条搜索数据的若干参考搜索数据,根据每条参考搜索数据对应的历史行为数据及商品数据与浏览数据,获取每条搜索数据的二分图中每个初始边权值对应的边权值调整系数;
根据边权值调整系数调整初始边权值得到第一边权值,根据第一边权值进行二分图最优匹配,根据当前搜索数据的每条参考行为数据及最优匹配结果,获取用户的长期、中期及实时意图得分;
根据不同的意图得分按照一定规则对候选推荐列表进行穿插打散,得到最终的重排推荐列表。
可选的,所述根据词向量获取用户类关键词与商品类关键词之间的初始相似程度,包括的具体方法为:
将用户类关键词的词向量与商品类关键词的词向量之间的余弦相似度作为用户类关键词与商品类关键词之间的初始相似程度。
可选的,所述根据若干商品类关键词组合对应的三级类目获取待选三级类目,包括的具体方法为:
分别将任意一条搜索数据中每个用户类关键词与若干个商品类关键词组合的第一相似程度降序排列,得到每个用户类关键词的第一相似序列,提取每个第一相似序列中前预设数量的第一相似程度对应的三级类目,获取所有用户类关键词分别对应的前预设数量的三级类目中的有重复出现的三级类目,记为待选三级类目;所述重复出现即任意两个或以上的三级类目对应的商品类关键词组合完全相同。
可选的,所述根据词向量获取同一用户的不同搜索数据的用户类关键词之间的第二相似程度,包括的具体方法为:
将不同搜索数据中任意两个用户类关键词的词向量之间的余弦相似度作为两个用户类关键词之间的第二相似程度。
可选的,所述根据第三相似程度获取每条搜索数据的若干参考搜索数据,包括的具体方法为:
获取任意一条搜索数据,将与该条搜索数据的第三相似程度大于第一预设阈值的历史搜索数据作为参考搜索数据,得到该条搜索数据的若干参考搜索数据。
可选的,所述获取每条搜索数据的二分图中每个初始边权值对应的边权值调整系数,包括的具体方法为:
其中,τ(i,j)表示任意一条搜索数据的二分图中,第i个用户类节点与第j个商品类节点之间的边权值调整程度;Uj表示任意一条搜索数据的若干参考行为数据中,对应参考三级类目与该条搜索数据的二分图中第j个商品类节点对应的待选三级类目相同的参考行为数据的数量;Tu,j表示其中第u条参考行为数据对应的参考浏览时间,Du,j表示第u条参考行为数据对应的参考点击次数,Zu,i表示第u条参考行为数据与该条搜索数据的二分图中第i个用户类节点之间的第四相似权值;所述参考浏览时间及参考点击次数均是将Uj个相同参考三级类目的参考行为数据对应的浏览时间及点击次数,分别通过线性归一化得到的结果;
所述第四相似权值的获取方法为:获取任意一条搜索数据及对应的任意一条参考搜索数据,计算该条搜索数据中任意一个用户类关键词与该条参考搜索数据中所有用户类关键词的第二相似程度均值,将所有用户类关键词得到的若干第二相似程度均值进行归一化处理,得到的归一化结果记为该条搜索数据中每个用户类关键词与该条参考搜索数据的第四相似权值;
获取该条搜索数据的二分图中所有左右节点之间的边权值调整程度,将所有调整程度进行归一化处理,得到的归一化结果记为每个初始边权值对应的边权值调整系数。
可选的,所述根据边权值调整系数调整初始边权值得到第一边权值,包括的具体方法为:
δ′(i,j)=[1+λ(i,j)]×δ(i,j)
其中,δ′(i,j)表示任意一条搜索数据的二分图中,第i个用户类节点与第j个商品类节点之间的第一边权值,λ(i,j)表示任意一条搜索数据的二分图中第i个用户类节点与第j个商品类节点之间的边权值调整系数,δ(i,j)表示该两节点之间的初始边权值。
可选的,所述根据第一边权值进行二分图最优匹配,包括的具体方法为:
获取任意一条搜索数据的二分图,根据更改为第一边权值的二分图,获取用户类节点的数量与商品类节点的数量,以两者中较小值作为组合划分标准,将两者中较大值对应的节点不断以组合划分标准进行组合计算,得到该条搜索数据的若干二分图组合;对不同的二分图组合分别进行KM匹配,对每个二分图组合中的剩余节点计算该节点对应的若干第一边权值中的最大边权值,将任意一个二分图组合的KM匹配后的匹配边权值之和与对应的剩余节点的最大边权值相加,得到的结果记为该二分图组合的匹配程度,将该条搜索数据的若干二分图组合中,匹配程度最大的二分图组合作为该条搜索数据的最优匹配结果。
可选的,所述获取用户的长期、中期及实时意图得分,包括的具体方法为:
其中,P1j表示当前搜索数据的二分图中第j个商品类节点对应的待选三级类目的长期意图得分;Vj表示当前搜索数据的若干参考行为数据中,对应参考三级类目与当前搜索数据的二分图中第j个商品类节点对应的待选三级类目相同的参考行为数据的数量;wv,j表示其中第v条参考行为数据的二分图中,对应待选三级类目与当前搜索数据的二分图中第j个商品类节点对应的待选三级类目相同的商品类节点的最优匹配结果下的第一边权值;rank(v,j)表示所述第一边权值在第v条参考行为数据的二分图的最优匹配结果下的第一边权值的降序排序中的序数值;datediff(v)表示第v条参考行为数据与当前行为数据的天数差值;G为一个超参数;
其中,P2j表示当前搜索数据的二分图中第j个商品类节点对应的待选三级类目的中期意图得分;Yj表示当前搜索数据的近预设天数内的参考行为数据中,对应参考三级类目与当前搜索数据的二分图中第j个商品类节点对应的待选三级类目相同的参考行为数据的数量;ωy,j表示其中第y条参考行为数据的二分图中,对应待选三级类目与当前搜索数据的二分图中第j个商品类节点对应的待选三级类目相同的商品类节点的最优匹配结果下的第一边权值;rank′(y,j)表示所述第一边权值在第y条参考行为数据的二分图的最优匹配结果下的第一边权值的降序排序中的序数值;datediff′(y)表示第y条参考行为数据与当前行为数据的天数差值;其中,P3j表示当前搜索数据的二分图中第j个商品类节点对应的待选三级类目的实时意图得分;/>表示当前搜索数据的二分图中,第j个商品类节点的最优匹配结果下的第一边权值;rank(j)表示所述第一边权值在当前搜索数据的二分图的最优匹配结果下的第一边权值的降序排序中的序数值。
本发明的有益效果是:根据用户的搜索数据的关键词特征,以及对应商品的三级类目的关键词特征,自适应构建二分图,并获取二分图中用户类节点与商品类节点之间的边权值;为之后进行二分图的最佳匹配提供计算基础,进而获取量化意图时的不同待选三级类目的权重值,使得计算得到的意图得分更加准确;为了获取精准的用户长期、中期及实时意图得分,在根据二分图进行KM匹配获取用户长期、中期、实时意图得分过程中,通过历史行为数据量化用户对不同待选三级类目的反馈信息,避免了商家故意增加许多非当前商品的关键词来丰富商品类别多样性的问题,使得用户对不同待选三级类目的意图得分计算会更加准确;根据不同的意图得分及意图标签结合滑动窗口法获取最终的重排推荐列表,当用户进行商品搜索时,可以获取最佳的依据三级类目的商品推荐列表,提升用户的购物体验以及点击转化率,使得用户更精准、快速地获取想要购买的商品相关信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的一种基于窗口滑动的推荐重排方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例所提供的一种基于窗口滑动的推荐重排方法流程图,该方法包括以下步骤:
步骤S001、获取用户的若干历史行为数据及当前行为数据,并得到每条历史行为数据对应的浏览数据、商品数据以及商品库。
本实施例的目的是根据用户的当前行为数据及历史行为数据,对推荐系统自动生成的候选推荐列表进行重新排序,以提高用户的购物体验,因此需要获取用户的当前行为数据及若干历史行为数据;所述行为数据包括用户进行购物时的搜索数据及支付数据,将当前行为数据中的搜索数据记为当前搜索数据,将历史行为数据中的搜索数据记为历史搜索数据;每条历史行为数据都分别对应了一件商品,可以从支付数据中获取得到;对于任意一条历史行为数据,浏览数据包括该条历史行为数据中浏览对应商品的浏览时间以及点击次数。
通过互联网采集用户的历史行为数据及当前行为数据,以及相应的浏览数据、商品数据及商品库,所述商品库中包括若干商品,本实施例中采集用户近100天的行为数据作为历史行为数据进行计算。
步骤S002、获取搜索数据的用户类关键词,获取商品库中三级类目的商品类关键词组合,根据用户类关键词与商品类关键词组合的第一相似程度构建二分图,获取二分图中节点之间的初始边权值。
需要说明的是,在商品库中不同商品对应的三级类目存在差异,其中商品的类目表示商品的类别属性,分为一级类目、二级类目及三级类目等,随着类目级数增大,商品的类别描述更加详细,本实施例中以商品的三级类目进行分析;用户在进行心仪商品的搜索过程中,通过输入一些有关商品的关键词,并根据关键词与三级类目的关键词之间的第一相似程度,来表征用户当前行为对该三级类目商品的需求意图;因此可以通过二分图的构建来量化用户类关键词与商品类关键词组合之间的匹配关系。
具体的,获取用户当前行为数据或历史行为数据中任意一条搜索数据,搜索数据由于用户输入的内容中不包含上下文信息,仅是对心仪商品进行搜索时的一种文字描述,因此无需考虑语义信息,通过关键词提取即可表征当前搜索数据;本实施例中采用Jieba分词方法对搜索数据进行分词,将每个分词作为搜索数据的关键词,记为用户类关键词;其中Jieba分词方法为现有技术,本实施例不再赘述需要说明的是,每个用户类关键词即对应一个获取到的关键词,每条搜索数据中有若干用户类关键词。
进一步的,获取商品库中若干商品对应的若干三级类目,三级类目通常为描述商品类别的内容,同样无需考虑语义信息,采用Jieba分词方法同样获取每个三级类目的若干关键词,记为商品类关键词;由于每个三级类目分别包含多个关键词,因此利用关键词组合来表征一个商品的三级类目,用于后续进行与用户类关键词之间的第一相似程度的计算;将每个三级类目对应的多个商品类关键词分别作为每个三级类目的关键词组合,记为商品类关键词组合。
进一步需要说明的是,要获取第一相似程度及构建二分图,则需要可以量化关键词之间的相似程度的计算方法,可以通过将关键词转换为词向量的方式进行相似程度的计算。
具体的,本实施例通过Word2vec模型对所有得到的关键词进行词向量转换;其中Word2vec模型采用现有的模型结构,并通过现有的语料库进行训练,本实施例不再赘述;通过关键词对应的词向量之间的余弦相似度来表示关键词之间的相似程度,计算每个用户类关键词与每个商品类关键词之间的相似程度,记为初始相似程度;将任意一个用户类关键词与同一商品类关键词组合中所有关键词的初始相似程度均值作为该用户类关键词与该商品类关键词组合的相似程度,记为第一相似程度,表示用户类关键词与三级类目之间的相似性;以任意一条搜索数据为例,分别将每个用户类关键词与若干个商品类关键词组合的第一相似程度降序排列,得到每个用户类关键词的第一相似序列,提取每个第一相似序列中前N个第一相似程度对应的三级类目,本实施例采用N=30进行计算;获取所有用户类关键词分别对应的前30个三级类目中的有重复出现的三级类目,记为待选三级类目,重复出现即任意两个或以上的三级类目对应的商品类关键词组合完全相同;需要说明的是,若提取到的待选三级类目的数量小于则选取非重复三级类目中第一相似程度最大的三级类目进行补充,直至待选三级类目数量不再小于/>
进一步的,以任意一条搜索数据为例,将其中每个用户类关键词作为二分图的左节点,将每个待选三级类目作为二分图的右节点构建二分图,左节点记为用户类节点,右节点记为商品类节点,二分图中任意两个左右节点之间的边值由左节点对应的用户类关键词与右节点对应的待选三级类目之间的第一相似程度表示,将二分图中所有边值通过softmax函数进行归一化处理,边值的归一化结果作为对应的初始边权值,则得到了二分图的左右节点及左右节点之间的初始边权值;按照上述方法对每条历史行为数据及当前行为数据分别根据相应的搜索数据构建二分图。
至此,完成了二分图的构建,用于后续量化计算用户类关键词与商品类关键词组合,即待选三级类目之间的匹配关系。
步骤S003、根据各搜索数据的用户类关键词之间的第二相似程度获取任意两条搜索数据之间的第三相似程度,根据第三相似程度获取每条搜索数据的若干参考搜索数据,获取每条参考搜索数据对应的历史行为数据及商品数据与浏览数据,以此得到二分图中节点之间的边权值调整系数。
需要说明的是,在根据二分图进行KM匹配的过程中,存在商家故意增加许多非当前商品的关键词来丰富商品类别多样性的问题,若仅根据第一相似程度得到的边权值来进行KM匹配,使得用户对不同商品类别的意图得分量化会产生较大的误差;本实施例根据历史行为数据以及商品数据与浏览数据,量化用户对不同三级类目商品的反馈信息,并根据反馈信息对二分图的节点之间进行边权值调整系数的计算,以此来使得二分图的KM匹配结果更加准确。
具体的,首先计算任意一个用户的所有搜索数据中任意两个不属于同一条搜索数据的用户类关键词的词向量之间的余弦相似度,记为两个用户类关键词之间的第二相似程度,将任意一条搜索数据中所有用户类关键词与另一条搜索数据中所有用户类关键词之间的第二相似程度的均值作为该两条搜索数据之间的第三相似程度,给出第一预设阈值用于判断搜索数据的可参考性,本实施例第一预设阈值采用0.65进行计算;以任意一条搜索数据为例,将与该条搜索数据的第三相似程度大于第一预设阈值的历史搜索数据作为参考搜索数据,得到该条搜索数据的若干参考搜索数据;获取每条参考搜索数据对应的历史行为数据,记为参考行为数据,并得到每条参考行为数据对应的商品数据及浏览数据,其中商品数据即为参考行为数据对应的一件商品的相关信息,将其中商品所属的三级类目记为参考行为数据对应的参考三级类目;浏览数据包括参考行为数据与对应商品之间的浏览时间及点击次数。
进一步的,以任意一条搜索数据的任意一条参考搜索数据为例,计算该条搜索数据中任意一个用户类关键词与该条参考搜索数据中所有用户类关键词的第二相似程度均值,将所有用户类关键词得到的若干第二相似程度均值通过softmax函数进行归一化处理,得到的归一化结果记为该条搜索数据中每个用户类关键词与该条参考搜索数据的第四相似权值;由于用户类关键词与二分图中的左节点,即用户类节点一一对应,则该条搜索数据的二分图中每个用户类节点与每条参考搜索数据之间都存在第四相似权值。
进一步的,获取任意一条搜索数据的二分图,以其中第i个用户类节点与第j个商品类节点为例,获取该两节点之间的边权值调整程度τ(i,j)的具体计算方法为:
其中,Uj表示任意一条搜索数据的若干参考行为数据中,对应参考三级类目与该条搜索数据的二分图中第j个商品类节点对应的待选三级类目相同的参考行为数据的数量;Tu,j表示其中第u条参考行为数据对应的参考浏览时间,Du,j表示第u条参考行为数据对应的参考点击次数,Zu,i表示第u条参考行为数据与该条搜索数据的二分图中第i个用户类节点之间的第四相似权值;需要说明的是,判断待选三级类目相同的具体方法为两个待选三级类目对应的商品类关键词组合完全相同,所述参考浏览时间及参考点击次数均是将Uj个相同参考三级类目的参考行为数据对应的浏览时间及点击次数,分别通过线性归一化得到的结果;参考浏览时间越长,参考点击次数越多,参考行为数据及对应的参考三级类目对于待选三级类目,即商品类节点的反馈越好,商家可能增加的非当前商品的关键词越少,该初始边权值需尽量增大而获取KM匹配中的成为最佳匹配的概率,需要越大的调整程度;第四相似权值越大,该条参考行为数据对该用户类节点的参考性越大,可以更好地调整该用户类节点的相关初始边权值,使得调整程度越大。
按照上述方法获取该条搜索数据的二分图中所有左右节点之间的边权值调整程度,将所有调整程度通过softmax函数进行归一化处理,得到的归一化结果记为每个初始边权值对应的边权值调整系数,第i个用户类节点与第j个商品类节点之间的边权值调整系数记为λ(i,j);按照上述方法获取若干历史行为数据及当前行为数据中每条搜索数据对应的二分图中,每个初始边权值对应的边权值调整系数。
至此,通过历史行为数据及商品数据与浏览数据,得到了二分图中每个初始边权值对应的边权值调整系数,避免了商家故意增加许多非当前商品的关键词来丰富商品类别多样性的问题,可以使后续计算意图得分的结果更加准确。
步骤S004、根据边权值调整系数调整初始边权值得到第一边权值,根据第一边权值进行二分图KM匹配,根据当前搜索数据的每条参考行为数据及最优匹配结果,获取用户的长期、中期及实时意图得分。
需要说明的是,得到边权值调整系数后调整初始边权值得到第一边权值,根据第一边权值进行二分图KM匹配可以得到更加准确的匹配关系,根据匹配结果及历史行为数据完成对用户的长期、中期及实时意图的量化,用于后续参与重排及穿插,以此来提高用户的购物体验。
具体的,获取任意一条搜索数据的二分图,以第i个用户类节点与第j个商品类节点为例,得到该两节点之间的第一边权值δ′(i,j)的具体计算方法为:
δ′(i,j)=[1+λ(i,j)]×δ(i,j)
其中,λ(i,j)表示任意一条搜索数据的二分图中第i个用户类节点与第j个商品类节点之间的边权值调整系数,δ(i,j)表示该两节点之间的初始边权值;按照上述方法获取所有二分图中左右节点之间的第一边权值。
进一步需要说明的是,由于二分图中左右两侧节点的数量存在差异,而KM匹配方法要求二分图中两侧节点数量一致,因此需要采用二分图组合的方式,获取最优的匹配组合。
具体的,以任意一条搜索数据的二分图为例,根据更改为第一边权值的二分图,获取用户类节点的数量与商品类节点的数量,以两者中较小值作为组合划分标准,即同一组合中同一类节点的数量为两者中较小值;将两者中较大值对应的节点不断以组合划分标准进行组合计算,得到该条搜索数据的若干二分图组合;对不同的二分图组合分别进行KM匹配,对每个二分图组合中的剩余节点计算该节点对应的若干第一边权值中的最大边权值,将任意一个二分图组合的KM匹配后的匹配边权值之和与对应的剩余节点的最大边权值相加,得到的结果记为该二分图组合的匹配程度,将该条搜索数据的若干二分图组合中,匹配程度最大的二分图组合作为该条搜索数据的最优匹配结果;例如某个二分图中用户类节点有三个节点A1、A2及A3,商品类节点有四个节点C1、C2、C3及C4,则生成的二分图组合为[A1,A2,A3,C1,C2,C3]、[A1,A2,A3,C1,C2,C4]、[A1,A2,A3,C2,C3,C4],以第一个二分图组合为例,该组合的匹配程度为KM匹配后的匹配边权值之和及C4与用户类节点中最大的第一边权值的和。
进一步的,根据当前搜索数据的若干参考行为数据,以及参考行为数据对应的参考搜索数据的最优匹配结果,来计算不同的意图得分。
具体的,对于长期意图得分,采用当前搜索数据的所有参考行为数据来进行计算,以当前搜索数据的二分图中第j个商品类节点为例,获取当前搜索数据中该商品类节点对应的待选三级类目的长期意图得分P1j的具体计算方法为:
其中,Vj表示当前搜索数据的若干参考行为数据中,对应参考三级类目与当前搜索数据的二分图中第j个商品类节点对应的待选三级类目相同的参考行为数据的数量;wv,j表示其中第v条参考行为数据的二分图中,对应待选三级类目与当前搜索数据的二分图中第j个商品类节点对应的待选三级类目相同的商品类节点的最优匹配结果下的第一边权值;rank(v,j)表示所述第一边权值在第v条参考行为数据的二分图的最优匹配结果下的第一边权值的降序排序中的序数值;datediff(v)表示第v条参考行为数据与当前行为数据的天数差值;G为一个超参数,本实施例采用G=0.2进行计算;wv,i表征了第j个商品类节点对应的待选三级类目在第v条参考行为数据中最相近的意图匹配结果,该值越大,该意图匹配结果的可参考性越大,长期意图得分越高;rank(v,j)对应的排序越靠前,即排序越小,意图匹配结果越接近,长期意图得分越高;天数差值越小,参考行为数据与当前行为数据越接近,可参考性越大,长期意图得分越高。
进一步的,对于中期意图得分,本实施例采用当前搜索数据的近40天内的参考行为数据进行计算,以当前搜索数据的二分图中第j个商品类节点为例,获取当前搜索数据中该商品类节点对应的待选三级类目的中期意图得分P2j的具体计算方法为:
其中,Yj表示当前搜索数据的近40天内的参考行为数据中,对应参考三级类目与当前搜索数据的二分图中第j个商品类节点对应的待选三级类目相同的参考行为数据的数量;ωy,j表示其中第y条参考行为数据的二分图中,对应待选三级类目与当前搜索数据的二分图中第j个商品类节点对应的待选三级类目相同的商品类节点的最优匹配结果下的第一边权值;rank′(y,j)表示所述第一边权值在第y条参考行为数据的二分图的最优匹配结果下的第一边权值的降序排序中的序数值;datediff′(y)表示第y条参考行为数据与当前行为数据的天数差值;G为一个超参数,本实施例采用G=0.2进行计算;ωy,j表征了第j个商品类节点对应的待选三级类目在第y条参考行为数据中最相近的意图匹配结果,该值越大,该意图匹配结果的可参考性越大,中期意图得分越高;rank′(y,j)对应的排序越靠前,即排序越小,意图匹配结果越接近,中期意图得分越高;天数差值越小,参考行为数据与当前行为数据越接近,可参考性越大,中期意图得分越高。
进一步的,以当前搜索数据的二分图中第j个商品类节点为例,获取当前搜索数据中该商品类节点对应的待选三级类目的实时意图得分P3j的具体计算方法为:
其中,/>表示当前搜索数据的二分图中,第j个商品类节点的最优匹配结果下的第一边权值;rank(j)表示所述第一边权值在当前搜索数据的二分图的最优匹配结果下的第一边权值的降序排序中的序数值;G为一个超参数,本实施例采用G=0.2进行计算;/>越大,第j个商品类节点对应的待选三级类目越符合用户的实时意图;排序越靠前,排序越小,越符合用户的实时意图。
按照上述方法获取当前搜索数据的二分图中每个商品类节点对应的待选三级类目的长期、中期及实时意图得分。
至此,根据当前搜索数据的若干参考行为数据及相应的最优匹配结果,获取根据当前搜索数据对于不同待选三级类目的长期、中期及实时意图得分。
步骤S005、根据不同的意图得分按照一定规则对候选推荐列表进行穿插打散,得到最终的重排推荐列表。
需要说明的是,传统的滑动窗口法由于其交换规则,会在序列的末尾出现同种类型的候选商品扎堆的情况,且未考虑用户对不同商品的意图对重排的影响,若仅根据候选商品的类型进行重排,无法保证用户的购物体验且达不到推荐的目的;而三种意图得分都可以较好地反映用户的需求意图,根据意图得分对自动生成的候选推荐列表进行穿插打散,可以提高用户的购物体验;同时结合用户的行为数据中的浏览数据,提取与当前搜索数据相关的购物车商品及未支付商品,插入到推荐列表中,进一步提高用户的购物体验。
具体的,将实时意图得分最大的待选三级类目作为用户的实时意图类目,该类目即为用户当前产生的最新意图;将若干待选三级类目的中期意图得分降序排列,将其中前十位中期意图得分最大的待选三级类目作为用户的中期意图类目,且中期意图类目不能与实时意图类目相同将若干待选三级类目的长期意图得分降序排列,将其中前十位长期意图得分最大的待选三级类目作为用户的长期意图类目,长期意图类目不能与中期意图类目及实时意图类目相同;需要说明的是,本实施例选择中期意图得分及长期意图得分的前十位进行提取,具体实施过程可视情况选择提取数量;若出现相同类目,则在相应序列中顺延提取之后的中期意图类目或长期意图类目。
进一步的,根据用户的当前行为数据及历史行为数据中的浏览数据,提取用户下单未支付的商品及购物车中的商品,将这些商品中对应的三级类目属于商品类节点对应三级类目的商品进行提取,将满足条件的未支付商品打上未支付意图标签,将满足条件的购物车商品打上购物车意图标签。
进一步的,根据用户的当前搜索数据获取推荐系统自动生成的候选推荐列表,结合不同意图得分及意图标签,在基于滑动窗口方法的基础上并按照一定规则对候选推荐列表进行穿插打散,得到最终的重排推荐列表,本实施例设置的一定规则具体为:
(1)每十个商品作为一组重排推荐列表,获取候选推荐列表中五件连续排列的商品,首位固定插入一件实时意图类目对应的商品,第二位插入打上未支付意图标签或购物车意图标签的一件商品,第二位同样为固定位,中期意图类目及长期意图类目的商品分别在第三位至第十位中的位置随机插入一件,与第二位的商品不同意图标签的商品在第三位及第十位中的位置随机插入意见,其余位置则将获取到的五件商品按照打散规则进行穿插。
(2)打散规则具体为:在同一重排推荐列表中,用户的实时、中期及长期意图类目以及未支付与购物车意图标签的插入商品中,同品牌的商品总数不能超过两个,若超过则需要更换插入商品以提升用户的购物体验,避免过度同一品牌出现而降低购物体验;对于重排推荐列表中的第三位至第十位,以连续三个位置为一个滑动窗口,在同一滑动窗口中如果出现两个或以上属于同一三级类目的商品,则通过现有的滑动窗口发进行打散;本实施例中同品牌的商品总数及同一三级类目的商品数量均采用两个进行计算,具体实施过程可视情况进行调整。
至此,通过对候选推荐列表的穿插及打散,得到最终的重排推荐列表;在用户进行商品搜索时,可以获取最佳的依据三级类目的商品推荐列表,进而提升用户的购物体验。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于窗口滑动的推荐重排方法,其特征在于,该方法包括以下步骤:
获取用户的若干历史行为数据及当前行为数据,得到其中的搜索数据,并得到每条历史行为数据对应的浏览数据、商品数据以及商品库;将当前行为数据中的搜索数据记为当前搜索数据,将历史行为数据中的搜索数据记为历史搜索数据;
获取搜索数据的用户类关键词,获取商品库中三级类目的商品类关键词,将同一三级类目的所有商品类关键词作为三级类目的商品类关键词组合,将所有关键词进行词向量转换,根据词向量获取用户类关键词与商品类关键词之间的初始相似程度,将任意一个用户类关键词与同一商品类关键词组合中所有关键词的初始相似程度均值作为该用户类关键词与该商品类关键词组合的第一相似程度;
获取任意一条搜索数据,将用户类关键词作为用户类节点,根据若干商品类关键词组合对应的三级类目获取待选三级类目,将待选三级类目对应的商品类关键词组合作为商品类节点,将第一相似程度作为节点之间的边值构建该条搜索数据的二分图,将二分图中节点之间的边值归一化结果作为初始边权值;
根据词向量获取同一用户的不同搜索数据的用户类关键词之间的第二相似程度,将任意一条搜索数据中所有用户类关键词与另一条搜索数据中所有用户类关键词之间的第二相似程度的均值作为该两条搜索数据之间的第三相似程度,根据第三相似程度获取每条搜索数据的若干参考搜索数据,根据每条参考搜索数据对应的历史行为数据及商品数据与浏览数据,获取每条搜索数据的二分图中每个初始边权值对应的边权值调整系数;
根据边权值调整系数调整初始边权值得到第一边权值,根据第一边权值进行二分图最优匹配,根据当前搜索数据的每条参考行为数据及最优匹配结果,获取用户的长期、中期及实时意图得分;
根据不同的意图得分按照一定规则对候选推荐列表进行穿插打散,得到最终的重排推荐列表;
根据第一边权值进行二分图最优匹配,包括的具体方法为:
获取任意一条搜索数据的二分图,根据更改为第一边权值的二分图,获取用户类节点的数量与商品类节点的数量,以两者中较小值作为组合划分标准,将两者中较大值对应的节点不断以组合划分标准进行组合计算,得到该条搜索数据的若干二分图组合;对不同的二分图组合分别进行KM匹配,对每个二分图组合中的剩余节点计算该节点对应的若干第一边权值中的最大边权值,将任意一个二分图组合的KM匹配后的匹配边权值之和与对应的剩余节点的最大边权值相加,得到的结果记为该二分图组合的匹配程度,将该条搜索数据的若干二分图组合中,匹配程度最大的二分图组合作为该条搜索数据的最优匹配结果;
所述获取用户的长期、中期及实时意图得分,包括的具体方法为:
其中,P1j表示当前搜索数据的二分图中第j个商品类节点对应的待选三级类目的长期意图得分;Vj表示当前搜索数据的若干参考行为数据中,对应参考三级类目与当前搜索数据的二分图中第j个商品类节点对应的待选三级类目相同的参考行为数据的数量;wv,j表示其中第v条参考行为数据的二分图中,对应待选三级类目与当前搜索数据的二分图中第j个商品类节点对应的待选三级类目相同的商品类节点的最优匹配结果下的第一边权值;rank(v,j)表示所述第一边权值在第v条参考行为数据的二分图的最优匹配结果下的第一边权值的降序排序中的序数值;datediff(v)表示第v条参考行为数据与当前行为数据的天数差值;G为一个超参数;
其中,P2j表示当前搜索数据的二分图中第j个商品类节点对应的待选三级类目的中期意图得分;Yj表示当前搜索数据的近预设天数内的参考行为数据中,对应参考三级类目与当前搜索数据的二分图中第j个商品类节点对应的待选三级类目相同的参考行为数据的数量;ωy,j表示其中第y条参考行为数据的二分图中,对应待选三级类目与当前搜索数据的二分图中第j个商品类节点对应的待选三级类目相同的商品类节点的最优匹配结果下的第一边权值;rank'(y,j)表示所述第一边权值在第y条参考行为数据的二分图的最优匹配结果下的第一边权值的降序排序中的序数值;datediff'(y)表示第y条参考行为数据与当前行为数据的天数差值;
其中,P3j表示当前搜索数据的二分图中第j个商品类节点对应的待选三级类目的实时意图得分;/>表示当前搜索数据的二分图中,第j个商品类节点的最优匹配结果下的第一边权值;rank(j)表示所述第一边权值在当前搜索数据的二分图的最优匹配结果下的第一边权值的降序排序中的序数值。
2.根据权利要求1所述的一种基于窗口滑动的推荐重排方法,其特征在于,所述根据词向量获取用户类关键词与商品类关键词之间的初始相似程度,包括的具体方法为:
将用户类关键词的词向量与商品类关键词的词向量之间的余弦相似度作为用户类关键词与商品类关键词之间的初始相似程度。
3.根据权利要求1所述的一种基于窗口滑动的推荐重排方法,其特征在于,所述根据若干商品类关键词组合对应的三级类目获取待选三级类目,包括的具体方法为:
分别将任意一条搜索数据中每个用户类关键词与若干个商品类关键词组合的第一相似程度降序排列,得到每个用户类关键词的第一相似序列,提取每个第一相似序列中前预设数量的第一相似程度对应的三级类目,获取所有用户类关键词分别对应的前预设数量的三级类目中的有重复出现的三级类目,记为待选三级类目;所述重复出现即任意两个或以上的三级类目对应的商品类关键词组合完全相同。
4.根据权利要求1所述的一种基于窗口滑动的推荐重排方法,其特征在于,所述根据词向量获取同一用户的不同搜索数据的用户类关键词之间的第二相似程度,包括的具体方法为:
将不同搜索数据中任意两个用户类关键词的词向量之间的余弦相似度作为两个用户类关键词之间的第二相似程度。
5.根据权利要求1所述的一种基于窗口滑动的推荐重排方法,其特征在于,所述根据第三相似程度获取每条搜索数据的若干参考搜索数据,包括的具体方法为:
获取任意一条搜索数据,将与该条搜索数据的第三相似程度大于第一预设阈值的历史搜索数据作为参考搜索数据,得到该条搜索数据的若干参考搜索数据。
6.根据权利要求1所述的一种基于窗口滑动的推荐重排方法,其特征在于,所述获取每条搜索数据的二分图中每个初始边权值对应的边权值调整系数,包括的具体方法为:
其中,τ(i,j)表示任意一条搜索数据的二分图中,第i个用户类节点与第j个商品类节点之间的边权值调整程度;Uj表示任意一条搜索数据的若干参考行为数据中,对应参考三级类目与该条搜索数据的二分图中第j个商品类节点对应的待选三级类目相同的参考行为数据的数量;Tu,j表示其中第u条参考行为数据对应的参考浏览时间,Du,j表示第u条参考行为数据对应的参考点击次数,Zu,i表示第u条参考行为数据与该条搜索数据的二分图中第i个用户类节点之间的第四相似权值;所述参考浏览时间及参考点击次数均是将Uj个相同参考三级类目的参考行为数据对应的浏览时间及点击次数,分别通过线性归一化得到的结果;
所述第四相似权值的获取方法为:获取任意一条搜索数据及对应的任意一条参考搜索数据,计算该条搜索数据中任意一个用户类关键词与该条参考搜索数据中所有用户类关键词的第二相似程度均值,将所有用户类关键词得到的若干第二相似程度均值进行归一化处理,得到的归一化结果记为该条搜索数据中每个用户类关键词与该条参考搜索数据的第四相似权值;
获取该条搜索数据的二分图中所有左右节点之间的边权值调整程度,将所有调整程度进行归一化处理,得到的归一化结果记为每个初始边权值对应的边权值调整系数。
7.根据权利要求1所述的一种基于窗口滑动的推荐重排方法,其特征在于,所述根据边权值调整系数调整初始边权值得到第一边权值,包括的具体方法为:
δ′(i,j)=[1+λ(i,j)]×δ(i,j)
其中,δ'(i,j)表示任意一条搜索数据的二分图中,第i个用户类节点与第j个商品类节点之间的第一边权值,λ(i,j)表示任意一条搜索数据的二分图中第i个用户类节点与第j个商品类节点之间的边权值调整系数,δ(i,j)表示该两节点之间的初始边权值。
CN202310051409.5A 2023-02-02 2023-02-02 一种基于窗口滑动的推荐重排方法 Active CN116738035B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310051409.5A CN116738035B (zh) 2023-02-02 2023-02-02 一种基于窗口滑动的推荐重排方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310051409.5A CN116738035B (zh) 2023-02-02 2023-02-02 一种基于窗口滑动的推荐重排方法

Publications (2)

Publication Number Publication Date
CN116738035A CN116738035A (zh) 2023-09-12
CN116738035B true CN116738035B (zh) 2024-05-28

Family

ID=87913908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310051409.5A Active CN116738035B (zh) 2023-02-02 2023-02-02 一种基于窗口滑动的推荐重排方法

Country Status (1)

Country Link
CN (1) CN116738035B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011103020A (ja) * 2009-11-10 2011-05-26 Nippon Telegr & Teleph Corp <Ntt> 検索条件推薦装置、検索条件推薦方法および検索条件推薦プログラム
CN103116639A (zh) * 2013-02-20 2013-05-22 新浪网技术(中国)有限公司 基于用户-物品二分图模型的物品推荐方法及系统
JP2013156876A (ja) * 2012-01-31 2013-08-15 Nippon Telegr & Teleph Corp <Ntt> 推薦クエリ抽出装置及び方法及びプログラム
CN106445989A (zh) * 2016-06-03 2017-02-22 新乡学院 基于查询点击图的检索推荐模型优化
CN111444304A (zh) * 2019-01-17 2020-07-24 北京京东尚科信息技术有限公司 搜索排序的方法和装置
CN115358809A (zh) * 2022-07-19 2022-11-18 华南理工大学 一种基于图对比学习的多意图推荐方法及装置
CN115375382A (zh) * 2021-05-18 2022-11-22 京东科技控股股份有限公司 一种商品推荐方法、装置及相关设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170206276A1 (en) * 2016-01-14 2017-07-20 Iddo Gill Large Scale Recommendation Engine Based on User Tastes
US11645695B2 (en) * 2020-03-12 2023-05-09 Intuit Inc. Computing personalized recommendations by modeling interactions as a bipartite graph

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011103020A (ja) * 2009-11-10 2011-05-26 Nippon Telegr & Teleph Corp <Ntt> 検索条件推薦装置、検索条件推薦方法および検索条件推薦プログラム
JP2013156876A (ja) * 2012-01-31 2013-08-15 Nippon Telegr & Teleph Corp <Ntt> 推薦クエリ抽出装置及び方法及びプログラム
CN103116639A (zh) * 2013-02-20 2013-05-22 新浪网技术(中国)有限公司 基于用户-物品二分图模型的物品推荐方法及系统
CN106445989A (zh) * 2016-06-03 2017-02-22 新乡学院 基于查询点击图的检索推荐模型优化
CN111444304A (zh) * 2019-01-17 2020-07-24 北京京东尚科信息技术有限公司 搜索排序的方法和装置
CN115375382A (zh) * 2021-05-18 2022-11-22 京东科技控股股份有限公司 一种商品推荐方法、装置及相关设备
CN115358809A (zh) * 2022-07-19 2022-11-18 华南理工大学 一种基于图对比学习的多意图推荐方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于二分网络嵌入的深度推荐算法的研究;刘越;《中国优秀硕士学位论文全文数据库 信息科技辑》;20210915;全文 *

Also Published As

Publication number Publication date
CN116738035A (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
Zheng et al. Joint deep modeling of users and items using reviews for recommendation
CN108073568B (zh) 关键词提取方法和装置
CN109087178B (zh) 商品推荐方法和装置
CN109064285B (zh) 一种获得商品推荐序列及商品推荐方法
CN107357793B (zh) 信息推荐方法和装置
CN109840833B (zh) 贝叶斯协同过滤推荐方法
Zhang et al. A deep joint network for session-based news recommendations with contextual augmentation
CN103679462A (zh) 一种评论数据处理方法和装置、一种搜索方法和系统
CN111966810B (zh) 一种用于问答系统的问答对排序方法
CN111930931B (zh) 一种摘要评价方法及装置
CN115688024A (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
Angelovska et al. Siamese neural networks for detecting complementary products
CN114077661A (zh) 信息处理装置、信息处理方法和计算机可读介质
CN116185332A (zh) 用于对检索结果进行排序的文献评价方法、存储介质及终端
CN111209469A (zh) 一种个性化推荐方法、装置、计算机设备及存储介质
CN104572915B (zh) 一种基于内容环境增强的用户事件相关度计算方法
CN116541607A (zh) 基于商品检索数据分析的智能推荐方法
CN113988951A (zh) 基于张量分解和协同过滤的商品推荐学习模型构建方法
CN113449200B (zh) 物品推荐方法、装置及计算机存储介质
CN113516094A (zh) 一种用于为文档匹配评议专家的系统以及方法
CN111382265B (zh) 搜索方法、装置、设备和介质
CN116738035B (zh) 一种基于窗口滑动的推荐重排方法
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN115730139A (zh) 基于异质多兴趣建模的短视频推荐方法及装置
CN115481236A (zh) 一种基于用户兴趣建模的新闻推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant