CN115544242B - 基于大数据的同类商品选型推荐方法 - Google Patents

基于大数据的同类商品选型推荐方法 Download PDF

Info

Publication number
CN115544242B
CN115544242B CN202211523415.8A CN202211523415A CN115544242B CN 115544242 B CN115544242 B CN 115544242B CN 202211523415 A CN202211523415 A CN 202211523415A CN 115544242 B CN115544242 B CN 115544242B
Authority
CN
China
Prior art keywords
commodity
candidate
acquiring
anchor
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211523415.8A
Other languages
English (en)
Other versions
CN115544242A (zh
Inventor
赵壮壮
邱丽容
方清香
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhijia Yunqi Technology Co ltd
Original Assignee
Shenzhen Zhijia Yunqi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhijia Yunqi Technology Co ltd filed Critical Shenzhen Zhijia Yunqi Technology Co ltd
Priority to CN202211523415.8A priority Critical patent/CN115544242B/zh
Publication of CN115544242A publication Critical patent/CN115544242A/zh
Application granted granted Critical
Publication of CN115544242B publication Critical patent/CN115544242B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的同类商品选型推荐方法,涉及数据处理技术领域,包括根据用户输入的关键词文本获取每个关键词的目标分词;根据目标分词获取多个候选商品;获取每个关键词的长尾度;获取锚定商品与每个候选商品的相似度,并根据每个候选商品的销售量获取每个候选商品的热门度;获取锚定商品的浏览兴趣度;获取每个候选商品的重要程度;根据每个候选商品的重要程度获取每个候选商品与锚定商品的关联性;获取每个候选商品的推荐分数,并将排列后的候选商品展示在所述锚定商品所在的页面中;本发明解决了现有技术中,在进行商品推荐时产生大量的无效推送信息的技术问题。

Description

基于大数据的同类商品选型推荐方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于大数据的同类商品选型推荐方法。
背景技术
在大数据时代的网购生活中,网购用户能够选择的商品数量与日俱增,商品之间的类型关系也变得错综复杂。网购用户在通过文本描述搜索商品时,由于用户描述关键词不准确、商品推荐算法考虑不周等问题,用户在数以亿计的商品中难以搜索到自己心里描述的商品,同类商品推荐方法成为了解决这一问题的重要手段。
现有技术所推荐的商品虽然具有一定的命中率,即成功引导用户产生相应的购物行为的商品推送信息数量占到了商品推送信息总量的一定比例,但是存在其固有缺陷:现有技术向用户推荐的是用户已经购买过的商品的同类商品,用户很可能因为已经购买的商品而不再考虑所推荐的商品。因而现有技术在进行商品推荐时会产生大量的无效推送信息,无法实现对商品的精准推荐,而且浪费网络及计算机资源。
发明内容
为了解决现有技术中在进行商品推荐时产生大量的无效推送信息,以及浪费网络及计算机资源的技术问题,本发明提供了一种基于大数据的同类商品选型推荐方法,该方法通过获取用户输入的每个关键词的目标分词,目标分词获取多个候选商品,进一步地,获取每个候选商品的推荐分数,并根据所述推荐分数将每个候选商品进行排列,最后将排列后的候选商品推荐给用户,提升了对用户进行商品推荐的准确性;有鉴于此,本发明通过以下技术方案予以实现。
一种基于大数据的同类商品选型推荐方法,包括以下步骤:
获取用户在客户端搜索框输入的关键词文本,根据所述关键词文本获取每个关键词的目标分词;根据所述目标分词获取多个候选商品;
根据每个关键词中目标分词对应的候选商品的数量获取每个关键词的长尾度;
从多个候选商品中点击任一候选商品作为锚定商品;
获取所述锚定商品与其余候选商品的相似性;根据每个候选商品的销售量获取每个候选商品的热门度;根据所述锚定商品的浏览时长,以及对所述锚定商品的处置行为获取所述锚定商品的浏览兴趣度;
根据所述锚定商品与每个候选商品的相似度、每个关键词的长尾度和每个候选商品的热门度,以及所述锚定商品的浏览时长,获取每个候选商品的重要程度;根据每个候选商品的重要程度获取每个候选商品与所述锚定商品的关联性;
根据每个候选商品与所述锚定商品的关联性获取每个候选商品的推荐分,根据所述推荐分对每个候选商品进行排列,并将排列后的候选商品展示在所述锚定商品所在的页面中。
进一步地,根据所述关键词文本获取每个关键词的目标分词的过程中,还包括获取所述关键词文本中每个关键词出现的时间点;获取每个关键词的多个分词,并根据每个关键词出现的时间点获取每两个分词之间的时间间隔,根据所述时间间隔获取每个关键词的目标分词;对每个目标分词进行商品推荐,获得多个候选商品。
进一步地,所述获取每个关键词的长尾度的过程为:
获取每个关键词中目标分词对应的候选商品的数量;
获取与每个候选商品有关联的商品数量的平均值;
通过将所述平均值与所述候选商品的数量进行求差获得每个关键词的长尾度。
进一步地,所述候选商品的销售量包括周销售量、月销售量和年销售量。
进一步地,所述获取候选商品的热门度的过程中,还包括设定每个商品年销量的权重值、月销量的权重值和周销量的权重值,并根据年销量的权重值、月销量的权重值和周销量的权重值,以及年销量、月销量和周销量获取每个候选商品的热门度;所述候选商品的热门度通过下式确定:
Figure 590392DEST_PATH_IMAGE001
式中,
Figure 344590DEST_PATH_IMAGE002
为候选商品的热门度;
Figure 111689DEST_PATH_IMAGE003
为候选商品周销售量的权重值;
Figure 29966DEST_PATH_IMAGE004
为候选商品的周销售量;
Figure 55560DEST_PATH_IMAGE005
为候选商品月销售量的权重值;
Figure 211735DEST_PATH_IMAGE006
为候选商品的月销售量;
Figure 415314DEST_PATH_IMAGE007
为候选商品年销售量的权重值;
Figure 555308DEST_PATH_IMAGE008
为候选商品的年销售量。
进一步地,所述根据锚定商品的浏览时长,以及对锚定商品的处置行为获取所述锚定商品的浏览兴趣度的过程中,所述处置行为包括收藏行为,加入购物车行为和购买行为;所述锚定商品的浏览兴趣度通过下式确定:
Figure 181331DEST_PATH_IMAGE009
式中,
Figure 598537DEST_PATH_IMAGE010
为锚定商品的浏览兴趣度;
Figure 97651DEST_PATH_IMAGE011
为浏览商品的时长;
Figure 849575DEST_PATH_IMAGE012
表示收藏行为,有收藏行为时
Figure 92338DEST_PATH_IMAGE012
的值为1,无收藏行为时
Figure 364050DEST_PATH_IMAGE012
的值为0;
Figure 768487DEST_PATH_IMAGE013
表示购物行为,有加入购物车的行为时
Figure 7707DEST_PATH_IMAGE013
的值为1,无加入购物车的行为时
Figure 788581DEST_PATH_IMAGE013
的值为0;
Figure 180380DEST_PATH_IMAGE014
表示购买行为,有购买行为时
Figure 21297DEST_PATH_IMAGE014
的值为1,无购买行为时,
Figure 747813DEST_PATH_IMAGE014
的值为0;
Figure 332378DEST_PATH_IMAGE015
表示向下取最接近的整数。
进一步地,还包括根据候选商品和锚定商品构建知识图谱;获取所述锚定商品与每个候选商品在知识图谱中的距离;根据所述锚定商品与每个候选商品在知识图谱中的距离确定所述锚定商品与每个候选商品的相似度。
进一步地,所述候选商品的重要程度获取每个候选商品与所述锚定商品的关联性的获取过程为:构建图神经网络,图神经网络包括输入层、卷积层、全连接层和输出层;在输入层输入所述锚定商品与每个候选商品的相似度、每个关键词的长尾度和每个候选商品的热门度,以及所述锚定商品的浏览时长,获取每个候选商品的重要程度;
在卷积层根据每个候选商品的标签向量进行卷积操作,在知识图谱中选择任一个节点,并将与选定的节点相邻的所有的节点作为邻域,根据所有邻域内节点的重要程度获取重要程度的聚合权重;依次获取每一节点对应所有邻域内节点的重要程度获取重要程度的聚合权重,并对所有节点进行分类;输出层输出每个候选商品与锚定商品的关联性。
进一步地,所述候选商品的重要程度通过下式确定:
Figure 578683DEST_PATH_IMAGE016
式中,
Figure 89036DEST_PATH_IMAGE017
表示候选商品的重要程度,
Figure 834007DEST_PATH_IMAGE018
为候选商品对应关键词的长尾度;
Figure 97630DEST_PATH_IMAGE019
为锚定商品与候选商品的相似度;
Figure 323075DEST_PATH_IMAGE002
为候选商品的热门度;
Figure 630428DEST_PATH_IMAGE010
为锚定商品的浏览兴趣度。
进一步地,还包括对每个候选商品进行更新,并获取多次更新后的候选商品的推荐分;所述候选商品的推荐分通过下式确定:
Figure 206903DEST_PATH_IMAGE020
式中,
Figure 867691DEST_PATH_IMAGE021
为第
Figure 947643DEST_PATH_IMAGE022
个候选商品在
Figure 691477DEST_PATH_IMAGE023
次更新后的推荐分;
Figure 161772DEST_PATH_IMAGE024
为第
Figure 891831DEST_PATH_IMAGE022
个候选商品在
Figure 950923DEST_PATH_IMAGE023
次更新后的探索分数;
Figure 741024DEST_PATH_IMAGE025
为第
Figure 636299DEST_PATH_IMAGE022
个候选商品在
Figure 904469DEST_PATH_IMAGE023
次更新后卡尔曼增益系数;
Figure 83647DEST_PATH_IMAGE026
为第
Figure 44649DEST_PATH_IMAGE022
个候选商品的估计分数。
与现有技术相比,本发明的有益效果是:
本发明提供了一种基于大数据的同类商品选型推荐方法,该方法通过获取用户输入的每个关键词的目标分词,目标分词获取多个候选商品,由此可根据用户在输入框输入的关键词确定多个候选商品;进一步地,根据每个关键词对应的候选商品构建知识图谱;根据每个关键词中目标分词对应的候选商品的数量获取每个关键词的长尾度;进一步地,获取锚定商品与每个候选商品的相似度,并根据每个候选商品的年销售量、月销售量和周销售量获取每个候选商品的热门度;获取锚定商品的浏览兴趣度;进一步地,获取每个候选商品与锚定商品的关联性;获取每个候选商品的推荐分数,然后将全部候选商品根据推荐分数的大小进行排列,并将排列后的候选商品展示在所述锚定商品所在的页面中,由此可实现根据用户输入的关键词进行同类商品的推荐;本发明解决了现有技术中,在进行商品推荐时产生大量的无效推送信息,以及浪费网络及计算机资源的技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的实施例提供的商品推荐方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供了一种基于大数据的同类商品选型推荐方法,如图1所示,方法包括:
S101,获取用户在搜索框输入的关键词文本,获取关键词文本中每个关键词出现的时间点;获取每个关键词的多个分词;根据每个关键词出现的时间点获取多个分词中每两个分词之间的时间间隔;根据时间间隔获取每个关键词的目标分词;对每个目标分词进行商品推荐,获得多个候选商品;
需要说明的是,本实施例中通过构建数据处理服务器,根据数据处理服务器完成了对用户数的采集,服务器采用Flink大数据框架,Flink控制台控制着多个数据库和服务器,包括用户库、商品库、店铺库以及装载本方法的算法服务器,并且调用Flink的机器学习(FlinkML)和图分析(Gelly)组件;当用户点开客户端上的搜索框后,开始获取用户的数据流,进行在线分析;实际上,在电商平台的商品搜索过程中,搜索结果的数量是庞大的,而且无法全部展示,同时后台运算着许多推荐算法进行筛选,因此,可以认为搜索和推荐是等价的;当展示初次推荐的结果后,如果用户点击了一个商品,那么本实施例会在商品展示页面的客户端窗口看不到的后续页面中生成与刚才点击的商品同类型的商品;在这一过程中,算法会分析出用户输入的关键词中的具体商品类别信息,最终实现提升用户选购的效率,提升用户购买的可能性,提高商品的点击率和转化率;本实施例中将用户点击的商品称为锚定商品;
S102,根据每个关键词对应的候选商品构建知识图谱;根据每个关键词中目标分词对应的候选商品的数量获取每个关键词的长尾度;获取锚定商品与每个候选商品的相似度,并根据每个候选商品的年销售量、月销售量和周销售量获取每个候选商品的热门度;获取锚定商品的浏览兴趣度;获取每个候选商品与候选商品对应点关键词的匹配程度,根据匹配程度获取每个候选商品的估计分数;
需要说明的是,本实施例中是根据每个关键词对应的候选商品构建知识图谱的;在电商领域中,知识图谱是由节点和边组成,节点包括商品的名词和概念,例如皮包、耐磨;两个节点之间的边代表两个节点之间的关系;例如,当商品标题中出现 “短裤”这个词汇时,通过使用<短裤,品类是一种品类,裤子>这一条常识知识,知道该商品是“裤子”;当商品标题中出现“亚麻”这个词汇时,通过使用<亚麻,材质等义材质,麻布>这一条常识知识,知道这个商品的材质是“麻布”;然后获得候选商品的列表,按照店铺分为多个模块;对每一个候选商品进行Embedding操作,能够使属性相近的标签词语在空间中尽量靠近,即向量的数值大小尽量相近,接下来每一个候选商品都有属性向量
Figure 427220DEST_PATH_IMAGE027
根据每个关键词中目标分词对应的候选商品的数量获取每个关键词的长尾度的过程为,获取每个关键词中目标分词对应的候选商品的数量;获取与每个候选商品有关联的商品数量的平均值;每个关键词的长尾度为每个候选商品有关联的商品数量的平均值与每个关键词中目标分词对应的候选商品的数量的差值;
获取锚定商品与每个候选商品的相似度的过程为,获取锚定商品与每个候选商品在知识图谱中的距离;根据锚定商品与每个候选商品在知识图谱中的距离确定锚定商品与每个候选商品的相似度;锚定商品与每个候选商品的相似度通过下式确定:
Figure 420453DEST_PATH_IMAGE028
式中,
Figure 595082DEST_PATH_IMAGE029
为锚定商品与候选商品的相似度;
Figure 336774DEST_PATH_IMAGE030
表示知识图谱中锚定商品与候选商品之间第
Figure 800116DEST_PATH_IMAGE022
条间接路线的距离;
Figure 331460DEST_PATH_IMAGE031
为锚定商品与候选商品之间全部的间接路线;
根据每个候选商品的年销售量、月销售量和周销售量获取每个候选商品的热门度的过程中,还包括设定每个商品年销售量的权重值、月销售量的权重值和周销售量的权重值,并根据年销售量的权重值、月销售量的权重值和周销售量的权重值,以及年销售量、月销售量和周销售量获取每个候选商品的热门度;候选商品的热门度通过下式确定:
Figure 360596DEST_PATH_IMAGE001
式中,
Figure 7609DEST_PATH_IMAGE002
为候选商品的热门度;
Figure 20565DEST_PATH_IMAGE003
为候选商品周销售量的权重值;
Figure 293283DEST_PATH_IMAGE004
为候选商品的周销售量;
Figure 176925DEST_PATH_IMAGE005
为候选商品月销售量的权重值;
Figure 525998DEST_PATH_IMAGE006
为候选商品的月销售量;
Figure 495091DEST_PATH_IMAGE007
为候选商品年销售量的权重值;
Figure 571501DEST_PATH_IMAGE008
为候选商品的年销售量;
需要说明的是,本实施例中根据实施条件设定候选商品周销售量的权重值
Figure 512912DEST_PATH_IMAGE003
为0.7;候选商品月销售量的权重值
Figure 813312DEST_PATH_IMAGE005
为0.2;候选商品年销售量的权重值
Figure 145067DEST_PATH_IMAGE007
为0.1;实施者可根据具体实施条件设定其他的值为候选商品周销售量的权重值
Figure 900534DEST_PATH_IMAGE003
、候选商品月销售量的权重值
Figure 86664DEST_PATH_IMAGE005
和候选商品年销售量的权重值
Figure 846983DEST_PATH_IMAGE007
锚定商品的浏览兴趣度通过下式确定:
Figure 666034DEST_PATH_IMAGE032
式中,
Figure 959612DEST_PATH_IMAGE010
为锚定商品的浏览兴趣度;
Figure 796987DEST_PATH_IMAGE011
为浏览商品的时长;
Figure 783398DEST_PATH_IMAGE012
表示收藏行为,有收藏行为时
Figure 824166DEST_PATH_IMAGE012
的值为1,无收藏行为时
Figure 921435DEST_PATH_IMAGE012
的值为0;
Figure 613316DEST_PATH_IMAGE013
表示购物行为,有加入购物车的行为时
Figure 770628DEST_PATH_IMAGE013
的值为1,无加入购物车的行为时
Figure 875856DEST_PATH_IMAGE013
的值为0;
Figure 511237DEST_PATH_IMAGE014
表示购买行为,有购买行为时
Figure 73936DEST_PATH_IMAGE014
的值为1,无购买行为时,
Figure 323521DEST_PATH_IMAGE014
的值为0;
Figure 666778DEST_PATH_IMAGE015
表示向下取最接近的整数。
获取每个候选商品与候选商品对应点关键词的匹配程度,根据匹配程度获取每个候选商品的估计分数的过程为,构建标题Transformer,其中使用
Figure 43532DEST_PATH_IMAGE033
注意力机制得到注意力分数;输入为搜索关键词和所有候选商品的标题,输出为每一个候选商品的关键词匹配度
Figure 585372DEST_PATH_IMAGE034
,候选商品的关键词匹配度
Figure 209120DEST_PATH_IMAGE034
是一个
Figure 836411DEST_PATH_IMAGE035
之间的概率值,代表语义的相似性;
需要说明的是,求关键词匹配度
Figure 688960DEST_PATH_IMAGE034
本质上是电商Query类目预测问题,用于召回相似的标题关键词,以此衡量标题相关性,候选商品最终得到估计分数
Figure 85307DEST_PATH_IMAGE036
,估计分数和探索分数在一开始各为50,关键词匹配度
Figure 879956DEST_PATH_IMAGE034
,代表此候选商品越可能是关键词代表的商品,因此估计分数越高;
S103,构建图神经网络,图神经网络包括输入层、卷积层、全连接层和输出层;在输入层根据锚定商品与任一候选商品的相似度、候选商品的热门度、锚定商品的浏览兴趣度,以及候选商品对应关键词的长尾度,获取候选商品对应知识图谱中节点的重要程度;依次获取每个候选商品对应知识图谱中节点的重要程度;
在卷积层根据每个候选商品的标签向量进行卷积操作,在知识图谱中选择任一个节点,并将与选定的节点相邻的所有的节点作为邻域,根据所有邻域内节点的重要程度获取重要程度的聚合权重;依次获取每一节点对应所有邻域内节点的重要程度获取重要程度的聚合权重;在全连接层交换所有节点对应所有邻域内节点的重要程度获取重要程度的聚合权重,并对所有节点进行分类;输出层输出每个候选商品与锚定商品的关联性;
获取每个候选商品对应知识图谱中节点的重要程度的过程为,训练关键词语义分析网络,人为对数据集的候选商品的相似性进行标注,80%作为训练集,20%作为测试集,使用BPR损失函数,优化器使用Adam,经过训练最终得到生成效果良好的神经网络推荐系统中使用广泛的 BPR损失;该损失基于贝叶斯排序,考虑到了可观察到和不可观察到的用户与物品交互的相对顺序,认为观察到的交互项的重要程度比不可观察到的交互项的重要程度更高;
在图神经网络输入层根据锚定商品与任一候选商品的相似度、候选商品的热门度、锚定商品的浏览兴趣度,以及候选商品对应关键词的长尾度,获取候选商品对应知识图谱中节点的重要程度;锚定商品在知识网络中表示为节点,因此知识网络中节点的重要程度通过下式确定:
Figure 994543DEST_PATH_IMAGE037
式中,
Figure 650783DEST_PATH_IMAGE017
表示候选商品对应的节点的重要程度,
Figure 167215DEST_PATH_IMAGE018
为候选商品对应关键词的长尾度;
Figure 132766DEST_PATH_IMAGE019
为锚定商品与候选商品的相似度;
Figure 406752DEST_PATH_IMAGE002
为候选商品的热门度;
在卷积层根据每个候选商品的标签向量进行卷积操作,在知识图谱中选择任一个节点,并将与选定的节点相邻的所有的节点作为邻域,根据所有邻域内节点的重要程度获取重要程度的聚合权重;依次获取每一节点对应所有邻域内节点的重要程度获取重要程度的聚合权重;要程度的聚合权重通过下式确定:
Figure 991318DEST_PATH_IMAGE038
式中,
Figure 486890DEST_PATH_IMAGE039
是归一化激活函数,
Figure 498708DEST_PATH_IMAGE040
为余弦相似度,即两个向量进行点乘,因为进行了Embedding,所以两个商品越是相似,余弦相似度越大;
Figure 197674DEST_PATH_IMAGE027
表示第
Figure 585930DEST_PATH_IMAGE022
个候选商品的标签向量;
Figure 670429DEST_PATH_IMAGE041
表示第
Figure 853149DEST_PATH_IMAGE022
个候选商品对应的节点的重要程度;
在后续的聚合中,每个节点使用最新的向量值,总共聚合3次,以保证每个节点充分感知周围节点的信息,得到最终更新完成的特征向量;最终经过全连接层交换所有节点的信息,实现分类效果,在输出层输出每个候选商品与锚定商品的关联性
Figure 304990DEST_PATH_IMAGE042
,进一步地得到每个候选商品经历了第n次更新后的探索分通过下式确定:
Figure 152729DEST_PATH_IMAGE043
式中,
Figure 232681DEST_PATH_IMAGE024
为第
Figure 727247DEST_PATH_IMAGE022
个候选商品经历了第n次更新后的探索分;
Figure 525439DEST_PATH_IMAGE042
为候选商品与锚定商品的关联性;
Figure 114552DEST_PATH_IMAGE044
为第
Figure 314589DEST_PATH_IMAGE022
个候选商品经历了第n-1次更新后的探索分;
需要说明的是,探索分是一个累加的过程,每探索一次给用户可能感兴趣的商品提高探索分,设定所有候选商品的初始探索分为
Figure 980057DEST_PATH_IMAGE045
S104,根据关联性获取每个节点在进行多次更新后的探索分数,根据探索分数和估计分数获取每个节点在进行多次更新后的推荐分,根据推荐分将多个候选商品进行排列,并将排列后的候选商品推荐给用户端;用户根据推荐信息选择符合自己购买意向的候选商品;
本实施例中,首先,获取购买了某一商品的所有用户数据,追溯他们的搜索关键词,得到逻辑树状图,即可对每一次点击结果进行标注;然后训练神经网络;将80%的标注数据作为训练集,将20%标注数据作为测试集,使用BPR损失函数,优化器使用Adam,经过训练最终得到生成效果良好的神经网络;设训练过后,第一神经网络的识别准确率为
Figure 999965DEST_PATH_IMAGE046
,即
Figure 658349DEST_PATH_IMAGE047
进行数据更新,更新候选商品的推荐分数;推荐分数为估计分数和探索分数的融合,具体数据融合技术为卡尔曼滤波,在用户第n次点击后得到第i个候选商品的数据融合后的推荐分数通过下式确定:
Figure 447313DEST_PATH_IMAGE020
式中,
Figure 18103DEST_PATH_IMAGE021
为第n次点击后得到第i个候选商品的推荐分数,
Figure 790887DEST_PATH_IMAGE024
为第
Figure 987382DEST_PATH_IMAGE022
个候选商品经历了第n次更新后的探索分;
Figure 427591DEST_PATH_IMAGE025
为第i个候选商品第n次点击后的卡尔曼增益系数;
Figure 480866DEST_PATH_IMAGE026
为每个候选商品的推荐分;
需要说明的是,本实施例中第n次点击后的卡尔曼增益系数
Figure 475367DEST_PATH_IMAGE025
与前一次点击之后的估计误差
Figure 226285DEST_PATH_IMAGE048
相关;其中第n次点击后的卡尔曼增益系数
Figure 255421DEST_PATH_IMAGE025
通过下式确定:
Figure 151702DEST_PATH_IMAGE049
式中,
Figure 899078DEST_PATH_IMAGE025
为第i个候选商品第n次点击后的卡尔曼增益系数;
Figure 188108DEST_PATH_IMAGE048
为n次点击后的估计分与n-1次点击后估计分的差值;
Figure 71750DEST_PATH_IMAGE050
为为点击误差;其中
Figure 404512DEST_PATH_IMAGE051
Figure 373605DEST_PATH_IMAGE052
Figure 263063DEST_PATH_IMAGE053
为第i个候选商品第n次点击后的推荐分;
Figure 125846DEST_PATH_IMAGE025
为第i个候选商品第n次点击后的卡尔曼增益系数;
Figure 770454DEST_PATH_IMAGE048
为n次点击后的估计分与n-1次点击后估计分的差值;
Figure 102209DEST_PATH_IMAGE018
为候选商品对应关键词的长尾度;
Figure 857676DEST_PATH_IMAGE054
表示向下取整;
Figure 574965DEST_PATH_IMAGE055
表示第i个候选商品的推荐分,
Figure 390474DEST_PATH_IMAGE056
表示初始值;第i个候选商品第n次点击后的推荐分
Figure 740684DEST_PATH_IMAGE053
通过第i个候选商品的推荐分
Figure 424475DEST_PATH_IMAGE055
迭代获得;
依次获得第n次点击后得到每个候选商品的数据融合后的推荐分数;根据推荐分将多个候选商品由大到小进行排列,并将排列后的候选商品展示在所述锚定商品所在的页面中;
需要说明的是,在每一次点击后将根据候选商品的推荐分数将候选商品推荐给用户,从而达到越浏览,越是推荐用户想要的商品;本实施例结合互联网的词条和数据进行数据库的更新, 用户在浏览一件商品时是需要花时间的,这时候足够在分布式服务器上运行本算法,从而在后续的页面中展示推荐的同类型商品;大数据系统不承担神经网络的训练任务,仅用来运行训练完成的模型,因此测试过程的显存占用量反映了真实的大数据平台配置需求,本实施例在测试过程中占用显存相比于原算法增加不明显,因此能够运行于一般的电商平台服务器;
综上,本实施例提供了一种基于大数据的同类商品选型推荐方法,通过该方法通过获取用户输入的每个关键词的目标分词,目标分词获取多个候选商品,由此可根据用户在输入框输入的关键词确定多个候选商品;根据每个关键词对应的候选商品构建知识图谱;根据每个关键词中目标分词对应的候选商品的数量获取每个关键词的长尾度;获取锚定商品与每个候选商品的相似度,并根据每个候选商品的年销售量、月销售量和周销售量获取每个候选商品的热门度;获取锚定商品的浏览兴趣度;通过构建图神经网络可获得每个候选商品与锚定商品的关联性;获取每个候选商品的推荐分数,然后将全部候选商品根据推荐分数的大小进行排列,并将排列后的候选商品展示在所述锚定商品所在的页面中,由此可实现根据用户输入的关键词进行同类商品的推荐;本实施例解决了现有技术中,在进行商品推荐时产生大量的无效推送信息,以及浪费网络及计算机资源的技术问题。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于大数据的同类商品选型推荐方法,其特征在于,包括以下步骤:
获取用户在客户端搜索框输入的关键词文本,根据所述关键词文本获取每个关键词的目标分词;根据所述目标分词获取多个候选商品;
根据每个关键词中目标分词对应的候选商品的数量获取每个关键词的长尾度;
所述获取每个关键词的长尾度的过程为:
获取每个关键词中目标分词对应的候选商品的数量;
获取与每个候选商品有关联的商品数量的平均值;
通过将所述平均值与所述候选商品的数量进行求差获得每个关键词的长尾度;
从多个候选商品中点击任一候选商品作为锚定商品;
获取所述锚定商品与其余候选商品的相似性;
所述锚定商品与其余候选商品的相似性按照如下方法获取:根据候选商品和锚定商品构建知识图谱;获取所述锚定商品与每个候选商品在知识图谱中的距离;根据所述锚定商品与每个候选商品在知识图谱中的距离确定所述锚定商品与每个候选商品的相似度;
根据每个候选商品的销售量获取每个候选商品的热门度;
其中,所述候选商品的销售量包括周销售量、月销售量和年销售量;
所述获取候选商品的热门度的过程中,还包括设定每个商品年销量的权重值、月销量的权重值和周销量的权重值,并根据年销量的权重值、月销量的权重值和周销量的权重值,以及年销量、月销量和周销量获取每个候选商品的热门度;所述候选商品的热门度通过下式确定:
Figure QLYQS_1
式中,
Figure QLYQS_2
为候选商品的热门度;
Figure QLYQS_3
为候选商品周销售量的权重值;
Figure QLYQS_4
为候选商品的周销售量;
Figure QLYQS_5
为候选商品月销售量的权重值;
Figure QLYQS_6
为候选商品的月销售量;
Figure QLYQS_7
为候选商品年销售量的权重值;
Figure QLYQS_8
为候选商品的年销售量;
根据所述锚定商品的浏览时长,以及对所述锚定商品的处置行为获取所述锚定商品的浏览兴趣度;
所述根据锚定商品的浏览时长,以及对锚定商品的处置行为获取所述锚定商品的浏览兴趣度的过程中,所述处置行为包括收藏行为,加入购物车行为和购买行为;所述锚定商品的浏览兴趣度通过下式确定:
Figure QLYQS_9
式中,
Figure QLYQS_12
为锚定商品的浏览兴趣度;
Figure QLYQS_15
为浏览商品的时长;
Figure QLYQS_17
表示收藏行为,有收藏行为时
Figure QLYQS_11
的值为1,无收藏行为时
Figure QLYQS_14
的值为0;
Figure QLYQS_18
表示购物行为,有加入购物车的行为时
Figure QLYQS_20
的值为1,无加入购物车的行为时
Figure QLYQS_10
的值为0;
Figure QLYQS_13
表示购买行为,有购买行为时
Figure QLYQS_16
的值为1,无购买行为时,
Figure QLYQS_19
的值为0;
根据所述锚定商品与每个候选商品的相似度、每个关键词的长尾度和每个候选商品的热门度,以及所述锚定商品的浏览时长,获取每个候选商品的重要程度;
所述候选商品的重要程度通过下式确定:
Figure QLYQS_21
式中,
Figure QLYQS_24
表示第
Figure QLYQS_25
个候选商品的重要程度,
Figure QLYQS_27
为第
Figure QLYQS_23
个候选商品对应关键词的长尾度;
Figure QLYQS_26
为锚定商品与第
Figure QLYQS_28
个候选商品的相似度;
Figure QLYQS_29
为第
Figure QLYQS_22
个候选商品的热门度;
根据每个候选商品的重要程度获取每个候选商品与所述锚定商品的关联性;
所述候选商品的重要程度获取每个候选商品与所述锚定商品的关联性的获取过程为:构建图神经网络,图神经网络包括输入层、卷积层、全连接层和输出层;在输入层输入所述锚定商品与每个候选商品的相似度、每个关键词的长尾度和每个候选商品的热门度,以及所述锚定商品的浏览时长,获取每个候选商品的重要程度;
在卷积层根据每个候选商品的标签向量进行卷积操作,在知识图谱中选择任一个节点,并将与选定的节点相邻的所有的节点作为邻域,根据所有邻域内节点的重要程度获取重要程度的聚合权重;依次获取每一节点对应所有邻域内节点的重要程度获取重要程度的聚合权重,并对所有节点进行分类;输出层输出每个候选商品与锚定商品的关联性;
根据每个候选商品与所述锚定商品的关联性获取每个候选商品的推荐分;
所述每个候选商品的推荐分按照如下方式获取:对每个候选商品进行更新,并获取多次更新后的候选商品的推荐分;所述候选商品的推荐分通过下式确定:
Figure QLYQS_30
式中,
Figure QLYQS_32
为第
Figure QLYQS_34
个候选商品在
Figure QLYQS_37
次更新后的推荐分;
Figure QLYQS_33
为第
Figure QLYQS_35
个候选商品在
Figure QLYQS_38
次更新后的探索分数;
Figure QLYQS_40
为第
Figure QLYQS_31
个候选商品在
Figure QLYQS_36
次更新后卡尔曼增益系数;
Figure QLYQS_39
为第
Figure QLYQS_41
个候选商品的估计分数;
根据所述推荐分对每个候选商品进行排列,并将排列后的候选商品展示在所述锚定商品所在的页面中。
2.根据权利要求1所述的基于大数据的同类商品选型推荐方法,其特征在于,根据所述关键词文本获取每个关键词的目标分词的过程中,还包括获取所述关键词文本中每个关键词出现的时间点;获取每个关键词的多个分词,并根据每个关键词出现的时间点获取每两个分词之间的时间间隔,根据所述时间间隔获取每个关键词的目标分词;对每个目标分词进行商品推荐,获得多个候选商品。
CN202211523415.8A 2022-12-01 2022-12-01 基于大数据的同类商品选型推荐方法 Active CN115544242B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211523415.8A CN115544242B (zh) 2022-12-01 2022-12-01 基于大数据的同类商品选型推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211523415.8A CN115544242B (zh) 2022-12-01 2022-12-01 基于大数据的同类商品选型推荐方法

Publications (2)

Publication Number Publication Date
CN115544242A CN115544242A (zh) 2022-12-30
CN115544242B true CN115544242B (zh) 2023-04-18

Family

ID=84721606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211523415.8A Active CN115544242B (zh) 2022-12-01 2022-12-01 基于大数据的同类商品选型推荐方法

Country Status (1)

Country Link
CN (1) CN115544242B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116342329B (zh) * 2023-05-25 2023-08-18 成都爱找我科技有限公司 一种应用于婚礼策划的一站式服务平台
CN116861323B (zh) * 2023-07-24 2024-02-23 深圳丰享信息技术有限公司 一种在推荐中解决长尾效应的方法和装置
CN117314591B (zh) * 2023-11-29 2024-02-20 武汉商学院 一种农产品直播销售主播匹配推荐方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111724235A (zh) * 2020-06-09 2020-09-29 清华大学深圳国际研究生院 一种基于用户新奇度的在线商品推荐方法
CN114764479A (zh) * 2022-03-24 2022-07-19 中山大学 一种基于新闻场景下用户行为的个性化新闻推荐方法
JP2022173084A (ja) * 2021-05-06 2022-11-17 ネイバー コーポレーション 埋め込み類似度に基づく商品検索方法、コンピュータ装置、およびコンピュータプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960897A (zh) * 2018-06-08 2018-12-07 成都信息工程大学 一种结合关联规则的多维度用户协同过滤推荐方法
CN108898459B (zh) * 2018-06-25 2020-12-01 中国联合网络通信集团有限公司 一种商品推荐方法及装置
CN110727862B (zh) * 2019-09-24 2022-11-08 苏宁云计算有限公司 一种商品搜索的查询策略的生成方法及装置
CN115129994A (zh) * 2022-07-05 2022-09-30 多点(深圳)数字科技有限公司 商品推荐方法、装置、电子设备及可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111724235A (zh) * 2020-06-09 2020-09-29 清华大学深圳国际研究生院 一种基于用户新奇度的在线商品推荐方法
JP2022173084A (ja) * 2021-05-06 2022-11-17 ネイバー コーポレーション 埋め込み類似度に基づく商品検索方法、コンピュータ装置、およびコンピュータプログラム
CN114764479A (zh) * 2022-03-24 2022-07-19 中山大学 一种基于新闻场景下用户行为的个性化新闻推荐方法

Also Published As

Publication number Publication date
CN115544242A (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
CN115544242B (zh) 基于大数据的同类商品选型推荐方法
US10095782B2 (en) Summarization of short comments
CN111709812A (zh) 基于用户动态分类的电商平台商品推荐方法及系统
CN108182621A (zh) 商品推荐方法及商品推荐装置、设备和存储介质
CN112200601B (zh) 物品推荐方法、装置及可读存储介质
CN109389442A (zh) 商品推荐方法及装置、存储介质及电子终端
EP2860672A2 (en) Scalable cross domain recommendation system
Liu et al. Large-scale recommender system with compact latent factor model
CN114254201A (zh) 一种科技项目评审专家的推荐方法
CN113837842A (zh) 一种基于用户行为数据的商品推荐方法及设备
Hillard et al. The sum of its parts: reducing sparsity in click estimation with query segments
JP2019215778A (ja) サービス提供システム、広告関連サービス提供システム、ユーザ側設備及びユーザ側広告設備
Subramanya et al. Enhanced feature mining and classifier models to predict customer churn for an E-retailer
CN117455621A (zh) 个性化推荐方法、装置、存储介质及计算机设备
Huang et al. Feature extraction of search product based on multi-feature fusion-oriented to Chinese online reviews
CN109146606B (zh) 一种品牌推荐方法、电子设备、存储介质及系统
US20150142782A1 (en) Method for associating metadata with images
Joppi et al. POP: mining POtential Performance of new fashion products via webly cross-modal query expansion
Mitra et al. Recommendation system based on product purchase analysis
Bharathi et al. Click Stream Analysis in E-Commerce Websites-a Framework
Janhavi et al. Sentiment Analysis of Customer Reviews on Laptop Products for Flipkart
Acharjee et al. Decision Support System for Online Product Recommendation Service based on Consumer Behavior
Diqi Deeprec: Efficient product recommendation model for e-commerce using cnn
Senarath E-commerce Product Recommendation based on User Ratings and Reviews
Devaki et al. Sentiment Analysis and Recommendation of Book Reviews

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant