CN113744011A - 物品搭配方法和物品搭配装置 - Google Patents
物品搭配方法和物品搭配装置 Download PDFInfo
- Publication number
- CN113744011A CN113744011A CN202010555182.4A CN202010555182A CN113744011A CN 113744011 A CN113744011 A CN 113744011A CN 202010555182 A CN202010555182 A CN 202010555182A CN 113744011 A CN113744011 A CN 113744011A
- Authority
- CN
- China
- Prior art keywords
- article
- scene
- seed
- target
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 103
- 239000013598 vector Substances 0.000 claims abstract description 243
- 230000011218 segmentation Effects 0.000 claims description 71
- 230000006399 behavior Effects 0.000 claims description 56
- 238000004422 calculation algorithm Methods 0.000 claims description 38
- 238000001914 filtration Methods 0.000 claims description 37
- 238000012163 sequencing technique Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000010354 integration Effects 0.000 claims description 9
- 238000005065 mining Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 6
- 230000001174 ascending effect Effects 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims 2
- 230000000875 corresponding effect Effects 0.000 description 160
- 238000010586 diagram Methods 0.000 description 24
- 238000004891 communication Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 8
- 235000020095 red wine Nutrition 0.000 description 8
- 241000555745 Sciuridae Species 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 239000008256 whipped cream Substances 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 235000011888 snacks Nutrition 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 235000013405 beer Nutrition 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 239000006071 cream Substances 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 235000021178 picnic Nutrition 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了物品搭配方法和物品搭配装置,涉及计算机技术领域。该方法的一具体实施方式包括:根据用户行为数据和物品属性数据,生成种子场景集合,确定种子场景集合的场景向量;获取目标物品,基于种子场景集合的场景向量,为目标物品标记所属的目标种子场景标签;根据目标种子场景标签,获取与目标物品搭配的目标搭配物品。该实施方式能够对用户行为数据和物品属性数据进行分析,生成种子场景集合,提升用户体验和搭配准确率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种物品搭配方法和物品搭配装置。
背景技术
电子商务平台逐步优化物品推荐等业务,在发现用户对某物品感兴趣之后,向用户推荐与该物品搭配的候选物品,最大化的提升用户体验,因此物品搭配组合属于物品推荐的重要手段之一。现有的物品搭配技术主要分为三种方式:一、人工整理并维护物品搭配清单;二、基于关联规则分析挖掘物品搭配关系;三、基于机器学习和深度学习技术挖掘物品搭配关系。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:一、基于人工整理并维护物品搭配清单的方法,需要耗费巨大的人力、物力,而且搭配组合数量有限,无法满足日益增长的用户需求;二、基于关联规则分析挖掘物品搭配关系的方法,获得的物品搭配关系可解释性较差,容易引发用户投诉,且得到的物品搭配关系数量较少;三、基于机器学习和深度学习技术挖掘物品搭配关系的方法,适用的场景有限,得到的物品搭配关系数量较少。
发明内容
有鉴于此,本发明实施例提供一种物品搭配方法和物品搭配装置,能够提升用户体验和搭配准确率。
为实现上述目的,根据本发明实施例的第一方面,提供了一种物品搭配方法。
本发明实施例的一种物品搭配方法,包括:根据用户行为数据和物品属性数据,生成种子场景集合,确定所述种子场景集合的场景向量;获取目标物品,基于所述种子场景集合的场景向量,为所述目标物品标记所属的目标种子场景标签;根据所述目标种子场景标签,获取与所述目标物品搭配的目标搭配物品。
可选地,所述根据用户行为数据和物品属性数据,生成种子场景集合,包括:获取用户订单数据、用户搜索数据、用户浏览数据和物品属性数据;挖掘所述用户订单数据对应的物品搭配对,生成所述用户订单数据对应的第一种子场景;确定所述用户搜索数据对应的点击数据,生成所述用户搜索数据对应的第二种子场景;融合所述用户浏览数据对应的相似浏览序列,生成所述用户浏览数据对应的第三种子场景;基于型号搭配和物品主适搭配,根据所述物品属性数据,生成第四种子场景;其中,所述第一种子场景、所述第二种子场景、所述第三种子场景和所述第四种子场景构成所述种子场景集合。
可选地,所述挖掘所述用户订单数据对应的物品搭配对,生成所述用户订单数据对应的第一种子场景,包括:获取所述用户订单数据对应的订单物品,对所述订单物品进行组合,生成候选物品搭配对;基于关联规则,计算所述候选物品搭配对的置信度和支持度,然后结合预设关联阈值,从所述候选物品搭配对中选择所述用户订单数据对应的物品搭配对;将选择的所述物品搭配对上升为核心词搭配对,然后利用物品库对所述核心词搭配对进行扩展,得到最终物品搭配对;基于聚类算法对所述最终物品搭配对进行聚类整合,生成所述第一种子场景。
可选地,所述确定所述用户搜索数据对应的点击数据,生成所述用户搜索数据对应的第二种子场景,包括:对所述用户搜索数据对应的搜索词进行筛选,获得候选搜索词集合;基于词袋向量,计算所述候选搜索词集合中候选搜索词之间的相似度,然后结合预设相似度阈值,确定相似搜索词集合;获取所述相似搜索词集合对应的点击物品数据;对所述点击物品数据进行过滤,利用过滤后的所述点击物品数据生成所述第二种子场景。
可选地,所述融合所述用户浏览数据对应的相似浏览序列,生成所述用户浏览数据对应的第三种子场景,包括:获取所述用户浏览数据对应的用户浏览序列;基于序列长度规则和序列类目规则对所述用户浏览数据对应的用户浏览序列进行过滤,获得第一用户浏览序列;利用所述第一用户浏览序列训练点击率预估模型,基于所述点击率预估模型对所述第一用户浏览序列进行过滤,获得第二用户浏览序列;确定所述第二用户浏览序列对应的向量信息,然后结合聚类算法对所述第二用户浏览序列进行聚类整合,获得所述相似浏览序列;根据所述相似浏览序列对应的物品,生成所述第三种子场景。
可选地,所述基于型号搭配和物品主适搭配,根据所述物品属性数据,生成第四种子场景,包括:根据物品类目数据,获取主类目物品和配件类目物品,然后根据所述主类目物品的型号属性数据,从所述配件类目物品中选择与所述主类目物品搭配的物品,以生成第五种子场景;获取物品库对应的主核心词,根据物品库中的物品标题信息选择所述主核心词对应的适用物品,然后建立所述主核心词对应的主物品和所述适用物品的对应关系,以生成第六种子场景;其中,所述第五种子场景和所述第六种子场景构成所述第四种子场景。
可选地,所述确定所述种子场景集合的场景向量,包括:针对所述种子场景集合中的每个种子场景,按照如下方法确定所述每个种子场景的场景向量:对所述每个种子场景下的物品标题进行分词处理,获得所述每个种子场景的场景分词;计算所述场景分词的分值,然后按照预设关键词选取条件,根据所述场景分词的分值,从所述场景分词中选择所述每个种子场景的场景关键词;从分词向量库中,获取所述场景关键词的关键词向量,根据所述关键词向量计算所述每个种子场景的全局向量;获取所述每个种子场景的物品向量和所述每个种子场景的全局向量,计算所述每个种子场景的场景向量。
可选地,所述基于所述种子场景集合的场景向量,为所述目标物品标记所属的目标种子场景标签,包括;从物品向量库中,获取所述目标物品的物品向量,计算所述目标物品的物品向量与所述每个种子场景的场景向量的向量距离;基于预设向量距离阈值,根据所述向量距离,从所述种子场景集合中选择所述目标物品对应的目标种子场景;将所述目标种子场景标记为所述目标物品所属的目标种子场景标签。
可选地,所述方法还包括:对物品库中的物品标题进行分词处理,获取物品标题分词;基于无监督词向量算法,对所述物品标题分词进行向量化处理,获得所述物品标题分词的分词向量,以构建所述分词向量库;针对物品库中每个物品,获取所述每个物品对应的分词向量,计算所述每个物品对应的分词向量权重,根据所述每个物品对应的分词向量和所述每个物品对应的分词向量权重,计算所述每个物品的物品向量,以构建所述物品向量库。
可选地,所述根据所述目标种子场景标签,获取与所述目标物品搭配的目标搭配物品,包括:从物品库中获取属于所述目标种子场景标签的物品,确定获取的所述物品为第一候选搭配物品;按照预设属性过滤规则,从所述第一候选搭配物品中选择与所述目标物品属性相同的第二候选搭配物品;基于训练的搭配关系识别模型,从所述第二候选搭配物品中选择与所述目标物品存在搭配关系的所述目标搭配物品。
可选地,在基于训练的搭配关系识别模型,从所述第二候选搭配物品中选择与所述目标物品存在搭配关系的所述目标搭配物品之前,所述方法还包括:获取用户订单数据和所述用户订单数据对应的再次行为数据;利用学习算法,根据所述用户订单数据和所述再次行为数据,训练搭配关系识别模型;以及在从所述第二候选搭配物品中选择与所述目标物品存在搭配关系的所述目标搭配物品之后,所述方法还包括:设置物品排序规则,按照所述物品排序规则对所述目标搭配物品进行排序。
为实现上述目的,根据本发明实施例的第二方面,提供了一种物品搭配装置。
本发明实施例的一种物品搭配装置,包括:生成模块,用于根据用户行为数据和物品属性数据,生成种子场景集合,确定所述种子场景集合的场景向量;标记模块,用于获取目标物品,基于所述种子场景集合的场景向量,为所述目标物品标记所属的目标种子场景标签;获取模块,用于根据所述目标种子场景标签,获取与所述目标物品搭配的目标搭配物品。
可选地,所述生成模块还用于:获取用户订单数据、用户搜索数据、用户浏览数据和物品属性数据;挖掘所述用户订单数据对应的物品搭配对,生成所述用户订单数据对应的第一种子场景;确定所述用户搜索数据对应的点击数据,生成所述用户搜索数据对应的第二种子场景;融合所述用户浏览数据对应的相似浏览序列,生成所述用户浏览数据对应的第三种子场景;基于型号搭配和物品主适搭配,根据所述物品属性数据,生成第四种子场景;其中,所述第一种子场景、所述第二种子场景、所述第三种子场景和所述第四种子场景构成所述种子场景集合。
可选地,所述生成模块还用于:获取所述用户订单数据对应的订单物品,对所述订单物品进行组合,生成候选物品搭配对;基于关联规则,计算所述候选物品搭配对的置信度和支持度,然后结合预设关联阈值,从所述候选物品搭配对中选择所述用户订单数据对应的物品搭配对;将选择的所述物品搭配对上升为核心词搭配对,然后利用物品库对所述核心词搭配对进行扩展,得到最终物品搭配对;基于聚类算法对所述最终物品搭配对进行聚类整合,生成所述第一种子场景。
可选地,所述生成模块还用于:对所述用户搜索数据对应的搜索词进行筛选,获得候选搜索词集合;基于词袋向量,计算所述候选搜索词集合中候选搜索词之间的相似度,然后结合预设相似度阈值,确定相似搜索词集合;获取所述相似搜索词集合对应的点击物品数据;对所述点击物品数据进行过滤,利用过滤后的所述点击物品数据生成所述第二种子场景。
可选地,所述生成模块还用于:获取所述用户浏览数据对应的用户浏览序列;基于序列长度规则和序列类目规则对所述用户浏览数据对应的用户浏览序列进行过滤,获得第一用户浏览序列;利用所述第一用户浏览序列训练点击率预估模型,基于所述点击率预估模型对所述第一用户浏览序列进行过滤,获得第二用户浏览序列;确定所述第二用户浏览序列对应的向量信息,然后结合聚类算法对所述第二用户浏览序列进行聚类整合,获得所述相似浏览序列;根据所述相似浏览序列对应的物品,生成所述第三种子场景。
可选地,所述生成模块还用于:根据物品类目数据,获取主类目物品和配件类目物品,然后根据所述主类目物品的型号属性数据,从所述配件类目物品中选择与所述主类目物品搭配的物品,以生成第五种子场景;获取物品库对应的主核心词,根据物品库中的物品标题信息选择所述主核心词对应的适用物品,然后建立所述主核心词对应的主物品和所述适用物品的对应关系,以生成第六种子场景;其中,所述第五种子场景和所述第六种子场景构成所述第四种子场景。
可选地,所述生成模块还用于:针对所述种子场景集合中的每个种子场景,按照如下方法确定所述每个种子场景的场景向量:对所述每个种子场景下的物品标题进行分词处理,获得所述每个种子场景的场景分词;计算所述场景分词的分值,然后按照预设关键词选取条件,根据所述场景分词的分值,从所述场景分词中选择所述每个种子场景的场景关键词;从分词向量库中,获取所述场景关键词的关键词向量,根据所述关键词向量计算所述每个种子场景的全局向量;获取所述每个种子场景的物品向量和所述每个种子场景的全局向量,计算所述每个种子场景的场景向量。
可选地,所述标记模块还用于;从物品向量库中,获取所述目标物品的物品向量,计算所述目标物品的物品向量与所述每个种子场景的场景向量的向量距离;基于预设向量距离阈值,根据所述向量距离,从所述种子场景集合中选择所述目标物品对应的目标种子场景;将所述目标种子场景标记为所述目标物品所属的目标种子场景标签。
可选地,所述装置还包括构建模块,用于:对物品库中的物品标题进行分词处理,获取物品标题分词;基于无监督词向量算法,对所述物品标题分词进行向量化处理,获得所述物品标题分词的分词向量,以构建所述分词向量库;针对物品库中每个物品,获取所述每个物品对应的分词向量,计算所述每个物品对应的分词向量权重,根据所述每个物品对应的分词向量和所述每个物品对应的分词向量权重,计算所述每个物品的物品向量,以构建所述物品向量库。
可选地,所述获取模块还用于:从物品库中获取属于所述目标种子场景标签的物品,确定获取的所述物品为第一候选搭配物品;按照预设属性过滤规则,从所述第一候选搭配物品中选择与所述目标物品属性相同的第二候选搭配物品;基于训练的搭配关系识别模型,从所述第二候选搭配物品中选择与所述目标物品存在搭配关系的所述目标搭配物品。
可选地,所述获取模块还用于:获取用户订单数据和所述用户订单数据对应的再次行为数据;利用学习算法,根据所述用户订单数据和所述再次行为数据,训练搭配关系识别模型;以及设置物品排序规则,按照所述物品排序规则对所述目标搭配物品进行排序。
为实现上述目的,根据本发明实施例的第三方面,提供了一种电子设备。
本发明实施例的一种电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现本发明实施例的物品搭配方法。
为实现上述目的,根据本发明实施例的第四方面,提供了一种计算机可读介质。
本发明实施例的一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现本发明实施例的物品搭配方法。
上述发明中的一个实施例具有如下优点或有益效果:能够对用户行为数据和物品属性数据进行分析,生成种子场景集合,从而可以尽可能多的覆盖种子场景下的物品搭配组合,解决了现有技术中不能充分利用物品内容信息和用户行为信息的问题,还解决了物品搭配组合数量少、覆盖品类不足的问题,提升用户体验和搭配准确率。此外,本发明实施例中,还可以确定场景向量,相当于是为每一个物品搭配组合通过提取关键字,作为物品搭配组合的名称,从而可以增加了物品搭配的可解释性,解决了物品搭配组合可解释性的问题,这对于实际落地电子商务平台有着重大的意义。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的物品搭配方法的主要步骤的示意图;
图2是根据本发明实施例的基于聚类算法对最终物品搭配对进行聚类整合生成第一种子场景的示意图;
图3是根据本发明实施例的得到相似搜索词集合的示意图;
图4是根据本发明实施例的根据用户行为数据和物品属性数据生成种子场景集合的方法的主要步骤的示意图;
图5是根据本发明实施例的确定一个种子场景的场景向量的方法的主要流程的示意图;
图6是根据本发明实施例的获取与目标物品搭配的目标搭配物品的方法的主要流程的示意图;
图7是根据本发明实施例的物品搭配装置的主要模块的示意图;
图8是本发明实施例可以应用于其中的示例性系统架构图;
图9是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本发明的主要应用场景是电子商务领域的物品搭配。在电子商务领域,电子商务平台为了在提升物品点击率以及点击转化率的同时提升用户体验,通常会对物品推荐结果进行优化,其中物品搭配组合属于物品推荐的重要手段之一。在电子商务发展初期,基于平台自身的历史记录以及专业领域知识,人工整理并维护了一大批的物品搭配关系。该方法虽然可以提供较为准确的物品搭配组合,但是需要耗费巨大的人力物力,且提供的物品搭配组合有限。为了提供更加精准、数量更加多的物品搭配关系,电子商务平台开始探索如何自动化、准确地挖掘尽可能多的物品搭配组合。其中最常见的方式是基于关联规则分析技术挖掘出物品搭配组合,在此基础上添加其他相关度度量来提升准确率。这种方法遇到的挑战也很多,一方面得到的物品搭配组合可解释性较差,另一方面仅适用于用户订单记录,无法在用户的其他行为上适用,包括但不限于浏览、加购、搜索等行为,同时也忽视了平台为物品本身提供的内容信息,导致得到的物品搭配组合有限。随着机器学习和深度学习的发展,电子商务平台开始探索基于机器学习和深度学习的方法识别物品搭配关系,进而得到物品搭配组合。与关联规则分析技术不同,基于机器学习和深度学习的方法更加注重物品本身提供的内容信息,包括物品标题、属性、图像,而忽视了用户行为信息,导致识别精度较差,同时未充分利用到用户行为信息,也会导致识别到的物品搭配组合数量有限。
为了解决上述问题,本发明实施例提出了一种在电子商务场景下物品搭配方法和物品搭配装置,可以基于用户行为数据和物品属性数据挖掘可能存在的物品搭配组合,解决了现有技术中没有充分利用物品属性数据和用户行为数据的问题,还解决了现有技术中物品搭配组合数量少、覆盖品类不足的问题。图1是根据本发明实施例的物品搭配方法的主要步骤的示意图。如图1所示,物品搭配方法的主要步骤可以包括:
步骤S101,根据用户行为数据和物品属性数据,生成种子场景集合,确定种子场景集合的场景向量;
步骤S102,获取目标物品,基于种子场景集合的场景向量,为目标物品标记所属的目标种子场景标签;
步骤S103,根据目标种子场景标签,获取与目标物品搭配的目标搭配物品。
其中,种子场景集合由种子场景构成,种子场景可以定义为两种及两种以上的物品种类组成的组合,该组合中的任意两个物品都存在搭配关系;搭配关系可以定义为存在某一类人群,在特定的时间或地点可能同时使用,例如,鱼钩和鱼饵、帐篷和野餐垫、以及泳衣和泳镜互为搭配关系。用户行为数据是指用户在电子商务平台上的行为数据,可以包括:用户订单数据、用户浏览数据和用户搜索数据,用户订单数据可以看作是用户购买物品的订单数据或者是用户加购物品的订单数据,用户浏览数据就是指用户浏览物品的数据,用户搜索数据是指用户在平台上进行物品搜索的数据。本发明实施例中,可以对用户订单数据、用户浏览数据和用户搜索数据进行分析,生成与用户行为相关的种子场景,即根据用户行为数据生成对应的物品搭配组合,解决了现有技术中没有充分利用用户行为数据而导致的物品搭配组合数量较少的问题。物品属性数据是指物品的属性信息数据,比如物品的标题信息数据、物品的型号数据等。本发明实施例中,可以对物品的属性数据进行分析,生成与物品属性相关的种子场景,即根据物品属性数据生成对应的物品搭配组合,解决了现有技术中适用场景有限及得到的物品搭配关系可解释性较差的问题。
此外,在生成种子场景集合后,可以确定种子场景集合的场景向量,即确定种子场景集合中每个种子场景的场景向量。场景向量相当于种子场景的关键字,也就是说,本发明实施例中可以为每一个物品搭配组合设置关键字,且设置的关键字可以作为物品搭配组合的名称,从而可以增加物品搭配组合的可解释性,这对于实际落地电子商务平台有重大意义。
在步骤S101中,分别基于用户行为数据和物品属性数据,生成种子场景集合,但是由于电子商务平台上的物品日益增多且电子商务平台的用户数量有限,得到的种子场景不可能覆盖所有物品。为了解决这一现象,本发明实施例在获取到目标物品后,可以为目标物品标记其所属的目标种子场景标签,从而实现将任意物品归类到现有的种子场景中,大大提升种子场景的覆盖率。其中,目标物品可以看作是需要获取与其有搭配关系的物品,即本发明实施例的目的是获取可以与目标物品搭配的物品,目标种子场景是选择出来的目标物品对应的种子场景,且目标种子场景属于种子场景集合中的场景。目标物品可以是来自用户行为数据的物品,比如,目标物品可以是用户浏览的某图书,目的是为用户推荐与该图书可以搭配的图书;目标物品也可以是在电子商务平台上设定物品套餐组合时需要搭配建议的物品,比如,平台上设定手机和手机壳是物品套餐组合,目标物品可以看作是某型号的手机,目的是搭配适用于该型号手机的手机壳。
目标搭配物品是指可以与目标物品搭配的物品,目标物品与目标搭配物品构成物品搭配关系。通过步骤S102可以为目标物品标记其所属的目标种子场景标签,也就是可以确定出目标种子场景。因此在步骤S103中,可以获取到目标种子场景对应的物品,这样就可以从获取到的物品中,选择出可以与目标物品搭配的目标搭配物品。
本发明实施例的物品搭配技术方案,能够对用户行为数据和物品属性数据进行分析,生成种子场景集合,从而可以尽可能多的覆盖种子场景下的物品搭配组合,解决了现有技术的不能充分利用物品内容信息和用户行为信息的问题,还解决了物品搭配组合数量少、覆盖品类不足的问题,提升用户体验和搭配准确率。此外,本发明实施例中,还可以确定场景向量,相当于是为每一个物品搭配组合通过提取关键字,作为物品搭配组合的名称,从而可以增加了物品搭配的可解释性,解决了物品搭配组合可解释性的问题,这对于实际落地电子商务平台有着重大的意义。
种子场景集合的生成是本发明实施例的重要组成部分。本发明实施例中,可以根据用户行为数据和物品属性数据生成对应的种子场景。其中,用户行为数据可以包括用户订单数据、用户搜索数据和用户浏览数据,针对不同类型的数据,生成其对应的种子场景,然后利用生成的种子场景构成种子场景集合。作为本发明的可参考实施例,根据用户行为数据和物品属性数据,生成种子场景集合,可以包括:
步骤S1011,获取用户订单数据、用户搜索数据、用户浏览数据和物品属性数据;
步骤S1012,挖掘用户订单数据对应的物品搭配对,生成用户订单数据对应的第一种子场景;
步骤S1013,确定用户搜索数据对应的点击数据,生成用户搜索数据对应的第二种子场景;
步骤S1014,融合用户浏览数据对应的相似浏览序列,生成用户浏览数据对应的第三种子场景;
步骤S1015,基于型号搭配和物品主适搭配,根据物品属性数据,生成第四种子场景。
在步骤S1011中,获取用户订单数据、用户浏览数据、用户搜索数据和物品属性数据,在上文步骤S101中已经详细解释过,此处不再累述。步骤S1012至步骤S1014用于对用户行为数据进行分析,挖掘潜在的物品搭配组合,即生成不同用户行为数据对应的种子场景,从而可以为后续给目标物品提供场景标签。可以看出在本发明实施例中,分别针对用户的订单、搜索、浏览数据,提出三种不同的种子场景生成方法。
(一)针对用户订单数据
本发明的可参考实施例中,挖掘用户订单数据对应的物品搭配对,生成用户订单数据对应的第一种子场景,可以包括步骤S10121至步骤S10124。
步骤S10121:获取用户订单数据对应的订单物品,对订单物品进行组合,生成候选物品搭配对。
需要注意的是,步骤S10121中的订单物品是对用户订单数据进行清洗之后得到的物品。考虑到实际情况中,平台为了增加用户购买或加购的概率,通常会通过礼品赠送、免运费等方式对用户进行补贴,这些物品会对后续的物品搭配关系造成干扰,因此为了保持用户订单数据更加符合常识,首先需要基于物品的属性中“是否为赠品”和“是否为特殊物品”两个属性进行过滤,得到清洗后的用户订单数据。“是否为赠品”和“是否为特殊物品”可以由平台自行标识;赠品是指免费赠送的另一件可能与物品无关的物品,例如平台上送手机贴纸,此处的手机贴纸即为赠品;特殊物品可以是运费、保修等无法交易的服务。
在对用户订单数据进行清洗过滤后,可以获取用户订单数据对应的订单物品,对订单物品进行组合,生成候选物品搭配对。具体的,获取同一订单下所有物品,并通过两两组合整合成候选物品搭配对。本步骤基于的假设是通常在同一订单下的物品更可能互为搭配关系。例如,用户在同一订单下购买了如表1所示三个物品,那么根据该订单,得到的候选物品搭配对为:(5615776,3369356)、(5615776,2856105)、(3369356,2856105)。
表1
步骤S10122:基于关联规则,计算候选物品搭配对的置信度和支持度,然后结合预设关联阈值,从候选物品搭配对中选择用户订单数据对应的物品搭配对。
本步骤的目的是基于关联规则分析,通过计算候选物品搭配对之间的置信度和支持度,然后通过经验阈值进行过滤,得到最终符合要求的物品搭配对。其中,关联规则是从统计上发现数据间的潜在联系;置信度也称为可靠度,或置信水平、置信系数,即在抽样对总体参数进行估计时,由于样本的随机性,其结论总是不确定的,因此,采用一种概率的陈述方法,也就是数理统计中的区间估计法,即估计值与总体参数在一定允许的误差范围以内,其相应的概率有多大,这个相应的概率称作置信度;支持度是支持的程度,表示前项与后项在一个数据集中同时出现的频率。本发明实施例中,置信度confidence(X→Y)是指订单中出现物品X,同时出现物品Y的概率,计算公式如下:
支持度是指订单中同时出现物品X和物品Y的概率,计算公式如下:
通过以上两个公式,对步骤S10121中得到的每一对候选物品搭配对计算对应的置信度和支持度,然后通过经验阈值过滤掉低支持度、低置信度的物品搭配对,从而得到物品搭配对。
步骤S10123:将选择的物品搭配对上升为核心词搭配对,然后利用物品库对核心词搭配对进行扩展,得到最终物品搭配对。
本步骤的主要目的是增加物品搭配对的数量,在步骤S10122中可以得到符合置信度、支持度的物品搭配对,例如从步骤S10122得到符合要求的物品搭配对为:(5615776,3369356)、(5615776,2856105),根据物品与核心词的映射表,抽取物品的核心词,如表2所示。其中,利用物品与核心词的映射表,能够识别任意一个物品的核心词,且识别物品的核心词属于现有成熟技术,本发明实施例中不提供具体解释。
表2
从表2中可以得到物品编号为5615776的核心词为淡奶油,编号为3369356的核心词为打蛋器,编号为2856105的核心词为刮刀,那么在本步骤中可以得到核心词粒度核心词搭配对:(淡奶油,打蛋器)、(淡奶油,刮刀)。然后,从核心词粒度映射到物品粒度,得到最终物品搭配对。针对电子商务平台的物品库,基于物品与核心词的映射表得到任意一个物品的核心词,然后得到的核心词层面的搭配对,将所有属于核心词搭配对的物品全部整合到物品搭配对中,从而得到数据量更多的物品搭配对。比如,得到核心词搭配对(淡奶油,打蛋器),那么从电子商务平台的物品库中,取出所有核心词为淡奶油和打蛋器的物品,并以(淡奶油,打蛋器)的方式组合成物品搭配对,从而得到更多的物品搭配对。本步骤的优点在于可以在步骤S10122的基础之上,获取尽可能多的物品搭配对。
步骤S10124:基于聚类算法对最终物品搭配对进行聚类整合,生成第一种子场景。
本步骤的目的是把获取的所有物品搭配对进行整合,构建种子场景。在本步骤中,以每个物品搭配对为边,建立节点为物品,边为搭配关系的图,然后通过聚类算法得到多个存在搭配关系的组合,从而得到多个种子场景。其中,聚类算法包括但不限于连通子图聚类算法、K-Means聚类算法等。图2是根据本发明实施例的基于聚类算法对最终物品搭配对进行聚类整合生成第一种子场景的示意图,如图2所示,每个节点为物品,节点的文本格式为“物品编号:核心词”,每条边标识两个节点之间存在搭配关系,在本步骤中,由于图中四个物品节点都存在搭配关系,那么可以得到(5615776:淡奶油,3369356:打蛋器,2856105:刮刀,12045358561:裱花袋)为一个种子场景。
(二)针对用户搜索数据
本发明的可参考实施例中,确定用户搜索数据对应的点击数据,生成用户搜索数据对应的第二种子场景,可以包括步骤S10131至步骤S10134。
步骤S10131:对用户搜索数据对应的搜索词进行筛选,获得候选搜索词集合。
本步骤的主要目的是找出可能存在物品搭配关系的搜索词。常见的搜索词大致可以分为两类:一、意图明确的搜索词,比如,某品牌手机、洗衣机等;二、意图不清晰的搜索词,比如,户外野营、生日礼物等。其中,意图不清晰的搜索词中含有大量的存在潜在物品搭配关系的搜索词,但是这类搜索词还存在一些意图过于模糊的搜索词,比如,平台自营、满100包邮、一元秒杀等。本步骤的主要目的是找出意图不清晰的搜索词,主要方法如下:(1)识别意图明确的搜索词,从用户一段时间(可以但不限于2个月)的搜索日志中获取所有的候选搜索词,然后利用物品与核心词的映射表得到物品库中任意物品的核心词,将物品库中所有的核心词提取并整理为核心词列表,接着使用候选搜索词与核心词列表匹配,如果候选搜索词中存在核心词列表中的词,那么就认为该搜索词为意图明确搜索词,可以将该搜索词过滤;(2)识别意图过于模糊的搜索词,本步骤需要人工整理一批无意义的搜索词名单,比如,包邮、十元秒杀、平台自营、海外购等,通过该名单与候选搜索词进行匹配,如果匹配成功,则认为该搜索词为意图过于模糊的搜索词,然后将该搜索词过滤。经过步骤(1)和步骤(2),得到最终的候选搜索词集合。
步骤S10132:基于词袋向量,计算候选搜索词集合中候选搜索词之间的相似度,然后结合预设相似度阈值,确定相似搜索词集合。
由于同一搜索意图可以用不同的短语表达,因此存在多个搜索词只表达一种意图的现象,本步骤的目的是合并搜索意图相似的搜索词,并将搜索意图相似的搜索词下的所有点击均认为是共同点击。具体方法为:使用常见的分词工具对搜索词切词,通过词袋向量的方式将搜索词映射为向量,然后计算任意两个搜索词向量的向量距离,通过经验阈值得到相似的搜索词并进行合并。其中,分词工具包括但不限于jieba切词、哈工大LTP等,比如,存在候选搜索词“XX松鼠零食”、“XX松鼠”、“XX松鼠旗舰店”,它们的分词结果分别为:(“XX松鼠”,“零食”)、(“XX松鼠”)、(“XX松鼠”,“旗舰店”),基于分词结果将所有分词整合为词袋:(“XX松鼠”,“零食”,“旗舰店”),那么三个搜索词对应的词袋向量为:[1,1,0]、[1,0,0]、[1,0,1],通过计算向量间的距离来得到是否相似搜索词,此处以欧式距离为例:“XX松鼠零食”与“XX松鼠”的欧式距离为1,根据经验阈值判断这两个搜索词相似。
步骤S10133:获取相似搜索词集合对应的点击物品数据。
步骤S10132中,得到任意两个候选搜索词是否存在相似关系,从而得到一张节点为搜索词,边为是否相似的关系图,基于常见的连通子图聚类算法,找出相似搜索词集合。根据用户搜索数据,能够得到每个候选搜索词下的点击物品数据,在本步骤中,相似搜索词集合中每个搜索词对应的点击物品数据均可以认为是该相似搜索词集合下面的点击物品数据。图3是根据本发明实施例的得到相似搜索词集合的示意图,如图3所示,图中节点为搜索词以及搜索词下面的点击物品序列,边表示节点之间存在相似关系,图中三个节点存在相似关系,可以认为是拥有同样搜索意图的不同搜索词,因此通过连通子图聚类的方法得到图中三个节点同属于一个相似搜索词集合,该集合下面的点击序列均可以认为是属于同一搜索意图的,也即:物品编号序列[2,3,4,7,8]为该相似搜索词集合下的点击物品数据。
步骤S10134:对点击物品数据进行过滤,利用过滤后的点击物品数据生成第二种子场景。
按照种子场景的定义,每个种子场景中候选的物品种类不得低于两种,为了防止部分搜索词下虽然存在很多点击物品数据,但基本上都是同一种物品的现象,本步骤基于物品与核心词的映射表,将每个搜索词下点击的物品映射为核心词,然后去重计数,将核心词序列长度低于2的搜索词过滤,从而得到搜索词下的种子场景序列。比如,搜索词“某型号的手机”对应的点击物品序列为:[3133857,10673889493,57004994625],该物品序列对应的核心词序列为:[手机,手机,手机],经过去重并计数,搜索词“某型号的手机”被过滤掉,该搜索词对应的点击物品数据过滤掉,然后利用过滤掉的点击物品数据生成第二种子场景。
(三)针对用户浏览数据
本发明的可参考实施例中,融合用户浏览数据对应的相似浏览序列,生成用户浏览数据对应的第三种子场景,可以包括步骤S10141至步骤S10145。
步骤S10141:获取用户浏览数据对应的用户浏览序列。
本发明实施例中,可以设置预设会话时间(可以但不限于为3小时),以预设会话时间内的用户浏览数据为一个会话,对用户近期(可以但不限于1个月)的浏览数据按照时间间隔进行切分,从而为每个用户生成若干个浏览会话序列。比如,用户A浏览序列为:[sku1:2019-11-12 17:33,sku2:2019-11-12 18:20,sku3:2019-11-12 19:56,sku4:2019-11-1221:00,sku5:2019-11-12 21:59],预设会话时间为3小时,那么可以得到以下浏览会话序列:[sku1,sku2,sku3]、[sku2,sku3,sku4]、[sku3,sku4,sku5]、[sku4,sku5]、[sku5]。需要注意的是,针对浏览的每一个物品均对应一个会话,该会话的时间范围为浏览该物品的时间至预设会话时间范围内的浏览物品序列,比如,预设会话时间为3小时,假设浏览物品A是从13:00开始,那么接下来3小时浏览的物品都应该放在一个第一个元素为A的序列中,浏览物品B是从13:30分开始的,那么接下来的3小时内所有物品都应该放在第一个元素为B的序列中。
步骤S10142:基于序列长度规则和序列类目规则对用户浏览数据对应的用户浏览序列进行过滤,获得第一用户浏览序列。
如步骤S10141所述,每个用户都存在若干个浏览会话序列,每个会话序列的持续时间为预设会话时间。由于电子商务平台的用户数量庞大且点击数据较为杂乱,因此需要将劣质用户会话序列进行过滤。在本步骤中,用户浏览序列过滤的维度可以为:(1)浏览序列长度过滤,根据经验值选取合适的用户浏览序列长度的上限值和下限值;(2)浏览序列中类目粒度的序列长度过滤,基于已有的浏览物品序列,将该序列转换为一级类目粒度,保证用户浏览物品序列中的所有物品均来自同一个一级类目,其中,一级类目为物品所属的类目信息,是指电子商务平台预先设定好的物品类目,比如,物品编号为3133857,标题为“某品牌手机、128G、黑色、移动联通电信4G手机”,所属的一级类目为“手机通讯”。本发明实施例中,将过滤后的序列,命名为第一用户浏览序列。
步骤S10143:利用第一用户浏览序列训练点击率预估模型,基于点击率预估模型对第一用户浏览序列进行过滤,获得第二用户浏览序列。
本步骤的主要目的基于第一用户浏览序列训练点击率预估模型,从而实现对用户浏览序列的建模。模型的主要目的是在已知用户在浏览多个物品的情况下,预估用户点击下一个物品的概率。模型训练数据来自第一用户浏览序列,将每个序列中前n-1个物品作为用户的浏览序列,预测用户在第n个物品上的点击概率。其中,模型的架构可以为常见的深度学习模型,包括但不限于视频推荐模型、新闻推荐模型等。然后,基于第一用户浏览序列,利用得到的点击率预估模型,对每个用户的任意用户序列进行预测,选取预估点击率大于经验阈值以上的用户浏览序列作为该用户的高质量浏览序列。本发明实施例中,将利用模型过滤得到的序列,命名为第二用户浏览序列。
步骤S10144:确定第二用户浏览序列对应的向量信息,然后结合聚类算法对第二用户浏览序列进行聚类整合,获得相似浏览序列。
基于步骤S10143得到的点击率预估模型,为第一用户浏览序列进行点击率预估,并且可以提取模型结构中全连接层的向量信息作为用户浏览序列的向量信息。然后通过聚类算法获取向量距离符合经验阈值之上的相似用户浏览序列集合,其中聚类算法包括但不限于KMeans聚类算法、局部敏感哈希算法、Annoy算法等。
步骤S10145:根据相似浏览序列对应的物品,生成第三种子场景。
在步骤S10144中可以得到相似浏览序列,基于该相似浏览序列,融合浏览序列中的所有物品,使得每一个相似浏览序列对应一组物品序列,从而得到最终的种子场景,其中每一个相似浏览序列都认为是一个独立的种子场景。
步骤S1012至步骤S1014用于对用户行为数据进行分析,挖掘潜在的物品搭配组合,即生成不同用户行为数据对应的种子场景,从而可以为后续给目标物品提供场景标签。步骤S1015用于基于型号搭配和物品主适搭配,根据物品属性数据,生成第四种子场景。步骤S1015的主要目的是充分利用物品属性数据,包括但不限于物品标题、物品型号等信息,从而生成更加准确、种类更加丰富的场景。在本步骤中,主要挖掘两类搭配关系:一是同型号搭配关系挖掘,主要的方法是通过物品型号属性进行互相关联,从而得到更加符合常识、更加精确搭配关系;二是适用物品挖掘,主要的方法是通过物品标题进行匹配,得到某种物品相对应的适用物品。
本发明的可参考实施例中,基于型号搭配和物品主适搭配,根据物品属性数据,生成第四种子场景,可以包括:步骤S10151和步骤S10152。
步骤S10151:根据物品类目数据,获取主类目物品和配件类目物品,然后根据主类目物品的型号属性数据,从配件类目物品中选择与主类目物品搭配的物品,以生成第五种子场景。
本步骤的主要目的是挖掘符合常识、可解释性较强的种子场景。同型号搭配有强烈的应用需要,本步骤充分利用平台为物品提供的型号属性,挖掘同型号间可能存在的所有搭配关系。该步骤仅限于有型号属性的物品,通常为3c类别的物品。具体实现可以为:
(一)基于一级类目选取主类目物品和配件类目物品,从而构建一个主类目物品为键,配件类目物品为值的key-value形式的推荐词表。主要方法是基于电子商务平台提供的一级类目信息,将一级类目划分为主物品类别和配件物品类别,主物品可以包括电脑整机、手机、笔记本等物品,而配件物品可以包括电脑相关配件、手机相关配件、笔记本相关配件等物品。二者的关系是当用户浏览、购买主物品的时候,可以通过该词表找出与主物品相互搭配的配件物品。例如当用户购买了某型号手机,则可以通过该词表得到适用于该型号手机的手机膜、保护壳等。
(二)将型号属性相同的物品归为一类并作为单独的场景,基于上述划分的主类目物品和配件类目物品,对于主类目物品,提取物品的型号属性,在配件类目物品中,提取物品的适用型号属性。将主物品的型号属性和配件物品的适用型号属性一致的物品划分为一个集合,同时以主物品为键、配件物品为值,整合成一个key-value形式的词表,该词表的每一条记录都可以认为是一个种子场景。
步骤S10152:获取物品库对应的主核心词,根据物品库中的物品标题信息选择主核心词对应的适用物品,然后建立主核心词对应的主物品和适用物品的对应关系,以生成第六种子场景。
本步骤的主要目的是挖掘适用某一物品的适用商品,例如对于物品红酒,本步骤的主要目的是挖掘所有适用于红酒的适用物品,包括红酒塞子、冰块、红酒柜等适用商品。具体实现可以为:
(一)获取物品库对应的主核心词。基于物品与核心词的映射表确定物品库的每一个物品的核心词,在此基础之上,统计覆盖物品数量总和超过物品库总量的一定比例(可以但不限于80%)的核心词,并将其整合为核心词列表作为主核心词。
(二)在物品库中,匹配物品标题信息中包含主核心词但是核心词不是主核心词的物品。本步骤的主要目的是识别适用主核心词的适用物品,比如,红酒为主核心词,从物品库中匹配标题中包含红酒,但是该物品的核心词并不是红酒的物品,表3是针对红酒找出的适用物品。
表3
(三)整合主核心词对应的主物品和适用物品。本步骤的主要目的是生成key-value格式的词表,其中key为主核心词对应的主物品,value为上述挖掘得到的与主核心词互为搭配的适用物品。该词表的每一条记录都可以认为是一个种子场景,示例如表4所示。
表4
图4是根据本发明实施例的根据用户行为数据和物品属性数据生成种子场景集合的方法的主要步骤的示意图。如图4所示,根据用户行为数据和物品属性数据,生成种子场景集合的方法的主要步骤可以包括:
步骤S401,获取用户订单数据、用户搜索数据、用户浏览数据和物品属性数据;
步骤S402,获取用户订单数据对应的订单物品,对订单物品进行组合,生成候选物品搭配对;
步骤S403,基于关联规则,计算候选物品搭配对的置信度和支持度,然后结合预设关联阈值,从候选物品搭配对中选择用户订单数据对应的物品搭配对;
步骤S404,将选择的物品搭配对上升为核心词搭配对,然后利用物品库对核心词搭配对进行扩展,得到最终物品搭配对;
步骤S405,基于聚类算法对最终物品搭配对进行聚类整合,生成第一种子场景;
步骤S406,对用户搜索数据对应的搜索词进行筛选,获得候选搜索词集合;
步骤S407,基于词袋向量,计算候选搜索词集合中候选搜索词之间的相似度,然后结合预设相似度阈值,确定相似搜索词集合;
步骤S408,获取相似搜索词集合对应的点击物品数据;
步骤S409,对点击物品数据进行过滤,利用过滤后的点击物品数据生成第二种子场景;
步骤S410,获取用户浏览数据对应的用户浏览序列;
步骤S411,基于序列长度规则和序列类目规则对用户浏览数据对应的用户浏览序列进行过滤,获得第一用户浏览序列;
步骤S412,利用第一用户浏览序列训练点击率预估模型,基于点击率预估模型对第一用户浏览序列进行过滤,获得第二用户浏览序列;
步骤S413,确定第二用户浏览序列对应的向量信息,然后结合聚类算法对第二用户浏览序列进行聚类整合,获得相似浏览序列;
步骤S414,根据相似浏览序列对应的物品,生成第三种子场景;
步骤S415,根据物品类目数据,获取主类目物品和配件类目物品,然后根据主类目物品的型号属性数据,从配件类目物品中选择与主类目物品搭配的物品,以生成第五种子场景;
步骤S416,获取物品库对应的主核心词,根据物品库中的物品标题信息选择主核心词对应的适用物品,然后建立主核心词对应的主物品和适用物品的对应关系,以生成第六种子场景;
步骤S417,利用第五种子场景和第六种子场景构成第四种子场景;
步骤S418,利用第一种子场景、第二种子场景、第三种子场景和第四种子场景构成种子场景集合。
需要注意的是,步骤S415和步骤S416的执行顺序可以根据实际情况调整,可以同时执行,也可以先执行步骤S416,再执行步骤S415。本发明实施例生成种子场景集合的方法中,可以分别对用户订单数据、用户搜索数据、用户浏览数据和物品属性数据进行分析,生成对应的种子场景,然后利用生成的种子场景构成种子场景集合,能够对用户行为数据和物品属性数据进行分析,生成种子场景集合,从而可以尽可能多的覆盖种子场景下的物品搭配组合,解决了现有技术的不能充分利用物品内容信息和用户行为信息的问题,还解决了物品搭配组合数量少、覆盖品类不足的问题。
现有技术的物品推荐方法中,存在可解释性较差的问题,一个经典的例子是:某商城曾经基于用户共同购买记录使用关联规则分析挖掘物品搭配组合,有个例子就是啤酒和尿布这两个物品互为搭配关系,这种无法解释的搭配组合案例在关联规则分析技术中经常出现,然而在电子商务平台上,无法解释的物品搭配推荐非常容易引发用户的投诉,因此该方法无法直接用于电子商务平台。为了解决这个问题,本发明实施例中,还可以确定种子场景集合中每个种子场景的场景向量,相当于是为每一个物品搭配组合通过提取关键字,作为物品搭配组合的名称,从而可以增加了物品搭配的可解释性,这对于实际落地电子商务平台有着重大的意义。
考虑到确定种子场景的场景向量的方法中,需要结合分词向量库和物品向量库获取具体的向量,因此首先说明分词向量库和物品向量库的构建方法。其中,分词向量库是对物品库中物品标题进行分词,然后计算每个分词的向量,进而生成分词向量库;物品向量库是计算物品库中每个物品的向量,接着生成的物品向量库。
本发明的可参考实施例中,物品搭配方法还可以包括:对物品库中的物品标题进行分词处理,获取物品标题分词;基于无监督词向量算法,对物品标题分词进行向量化处理,获得物品标题分词的分词向量,以构建分词向量库;针对物品库中每个物品,获取每个物品对应的分词向量,计算每个物品对应的分词向量权重,根据每个物品对应的分词向量和每个物品对应的分词向量权重,计算每个物品的物品向量,以构建物品向量库。
本步骤主要目的是将物品库中的所有物品通过向量化的方式进行表示,以及所有物品的分词也通过向量化的方式进行表示。主要方法可以为:首先通过常用的分词工具对物品库的每一个物品的物品标题进行分词,将物品标题的分词结果整理为分词序列,然后使用常用的无监督词向量工具对物品库中所有的物品对应的物品标题分词进行向量化,这样每个分词都有着属于自己的向量,从而可以构建分词向量库。然后,针对每个物品的物品标题的每个分词获取其对应的向量,以每个分词出现的频次归一化值作为权重,计算物品标题的向量,从而得到每个物品的向量表征,详细举例如表5所示。其中,分词工具包括但不限于jieba分词、哈工大LTP等工具;无监督词向量工具包括但不限于word2vec、fasttext等工具。
表5
本发明的可参考实施例中,确定种子场景集合的场景向量,可以包括:针对种子场景集合中的每个种子场景,按照如下方法确定每个种子场景的场景向量:对每个种子场景下的物品标题进行分词处理,获得每个种子场景的场景分词;计算场景分词的分值,然后按照预设关键词选取条件,根据场景分词的分值,从场景分词中选择每个种子场景的场景关键词;从分词向量库中,获取场景关键词的关键词向量,根据关键词向量计算每个种子场景的全局向量;获取每个种子场景的物品向量和每个种子场景的全局向量,计算每个种子场景的场景向量。
本步骤的目的是在种子场景维度下,计算每个种子场景的关键词,一方面可以用作场景解释,另一方面将关键词向量化,进而可以得到种子场景的全局向量。首先通过为每一个种子场景下的每一个物品标题的分词计算其得分,取分值最大的N个分词作为该种子场景的关键词,具体计算方法为:
(1)首先计算在某个种子场景S的前提下,某个物品标题分词W出现的条件概率,公式如下:
其中,n(物品标题分词W,种子场景S)表示在种子场景S下,标题分词W出现的频次,n(种子场景S)表示种子场景S下所有的分词数量。
(2)然后计算在某个物品标题分词W出现的前提下,某个种子场景S出现的条件概率,公式如下:
其中,n(物品标题分词W)标识分词W在整个物品库中出现的次数。
(3)最后计算每个分词在每个场景下的得分,公式如下,该分词的分值越大,越可以代表整个种子场景的关键字:
score(物品标题分词W)=
P(物品标题分词W|种子场景S)*P(种子场景S|物品标题分词W)
综上,可以得到每个种子场景下每个标题分词的分值,按照从大到小取前N个分词作为该种子场景的关键词,一方面可以为种子场景给出语义层面的解释,另一方面可以利用构建的分词向量库,将种子场景的关键词映射为关键词向量,然后关键词向量加权得到种子场景的全局向量,具体公式如下:
利用构建的物品向量库得到种子场景中包含的物品向量,然后利用得到的种子场景的物品向量和计算得到的种子场景的全局向量,二者分别代表了种子场景的物品信息和种子场景的全局信息,通过将两种向量信息进行加权平均,从而得到最终的种子场景的场景向量,具体公式如下:
以上公式中,n(物品|种子场景S)表示种子场景S下的物品总数,整个公式表示将种子场景S下所有的物品向量加权平均,然后叠加上全局的种子场景向量,最终加权平均得到种子场景的场景向量。
图5是根据本发明实施例的确定一个种子场景的场景向量的方法的主要流程的示意图。如图5所示,确定一个种子场景集合的场景向量的方法的主要流程可以包括:
步骤S501,对物品库中的物品标题进行分词处理,获取物品标题分词;
步骤S502,基于无监督词向量算法,对物品标题分词进行向量化处理,获得物品标题分词的分词向量,以构建分词向量库;
步骤S503,针对物品库中每个物品,获取每个物品对应的分词向量,计算每个物品对应的分词向量权重,根据每个物品对应的分词向量和每个物品对应的分词向量权重,计算每个物品的物品向量,以构建物品向量库;
步骤S504,对种子场景下的物品标题进行分词处理,获得种子场景的场景分词;
步骤S505,计算场景分词的分值,然后按照预设关键词选取条件,根据场景分词的分值,从场景分词中选择每个种子场景的场景关键词;
步骤S506,从分词向量库中,获取场景关键词的关键词向量,根据关键词向量计算种子场景的全局向量;
步骤S507,获取种子场景的物品向量和种子场景的全局向量,计算种子场景的场景向量。
需要注意的是,步骤S501至步骤S503用于构建分词向量库和物品向量库,在步骤S505之前执行就可以。在获取到每个种子场景的场景向量之后,就可以得到种子场景集合的场景向量,这样就可以利用种子场景集合的场景向量,选择目标物品对应的目标种子场景,进而可以为目标物品标记所属的目标种子场景标签。因此,本发明的可参考实施例中,基于种子场景集合的场景向量,为目标物品标记所属的目标种子场景标签,可以包括:步骤S1021,从物品向量库中,获取目标物品的物品向量,计算目标物品的物品向量与每个种子场景的场景向量的向量距离;步骤S1022,基于预设向量距离阈值,根据向量距离,从种子场景集合中选择目标物品对应的目标种子场景;步骤S1023,将目标种子场景标记为目标物品所属的目标种子场景标签。
获取目标物品后,可以利用构建的物品向量库,获取到该目标物品对应的物品向量,然后结合每个种子场景的场景向量,计算目标物品与每个种子场景的向量距离,该向量距离可以包括但不限于余弦距离、欧式距离。在计算得到目标物品与每个种子场景的向量距离后,可以通过预设向量距离阈值,将将所有符合预设向量距离阈值的种子场景标记为该目标物品的种子场景标签,从而可以为任意物品的标记相应的种子场景标签的效果。此外,可以看出一个物品可以对应多个种子场景标签。
本发明实施例中,可以基于用户行为数据和物品属性数据,生成种子场景集合和种子场景集合的场景向量,但是由于电子商务平台上的物品日益增多且电子商务平台的用户数量有限,挖掘得到的种子场景不可能覆盖所有的物品,因此本发明实施例中可以通过种子场景的场景向量和物品的物品向量,为物品标记种子场景标签,实现了将任意物品归类到现有的种子场景中,大大提升种子场景的覆盖率。并且,本发明实施例中提出了获取种子场景的关键词的具体方法,从而实现了种子场景可解释化,这对于电子商务平台上的推荐应用有着重要的意义。
在为目标物品标记目标种子场景标签后,即确定目标物品对应的目标种子场景后,可以获取到与目标物品搭配的目标搭配物品,从而增加用户的点击,提升用户体验。本发明的可参考实施例中,根据目标种子场景标签,获取与目标物品搭配的目标搭配物品,可以包括:步骤S1031,从物品库中获取属于目标种子场景标签的物品,确定获取的物品为第一候选搭配物品;步骤S1032,按照预设属性过滤规则,从第一候选搭配物品中选择与目标物品属性相同的第二候选搭配物品;步骤S1033,基于训练的搭配关系识别模型,从第二候选搭配物品中选择与目标物品存在搭配关系的目标搭配物品。
主要目的是针对给定的目标物品,为目标物品产出符合目标物品特点的搭配物品,该目标物品可以是来自用户浏览、加购、购买的物品序列,也可以是在电子商务平台上设定物品套餐组合时需要搭配建议的物品序列。需要注意的是,物品序列中的物品必须是电子商务平台的物品库中已经存在的物品。在获取目标物品对应的目标种子场景后,可以在电子商务平台的物品库中获取所有属于该目标种子场景下的物品,从而作为目标物品对应的存在搭配关系的第一候选搭配物品。
在获取到第一候选搭配物品后,可以按照预设属性过滤规则,从第一候选搭配物品中选择与目标物品属性相同的第二候选搭配物品。首先获取到物品的属性信息,其中属性信息包括物品的适用年龄段、适用性别、适用型号、适用季节、适用场景、商品产地、是否商用、款式、材质、样式、功能等属性信息,举例说明如表6所示。
表6
在获取到物品的属性信息后,可以按照预设属性过滤规则,基于目标物品的物品属性,对目标物品对应的目标种子场景标签下的第一候选搭配物品进行过滤。预设属性过滤规则可以包括但不限与:目标物品和第一候选搭配物品必须适用同一年龄段、目标物品和第一候选搭配物品必须适用同一性别、目标物品和第一候选搭配物品必须有相同或者相似的风格等。
本发明实施例中,还可以基于训练的搭配关系识别模型,从第二候选搭配物品中选择与目标物品存在搭配关系的目标搭配物品。搭配关系识别模型是指识别任意两个物品直接是否存在搭配关系的模型,因此可以用于对第二候选搭配物品进行过滤,得到最终的目标搭配物品。
作为本发明的可参考实施例,在基于训练的搭配关系识别模型,从第二候选搭配物品中选择与目标物品存在搭配关系的目标搭配物品之前,物品搭配方法还可以包括:获取用户订单数据和用户订单数据对应的再次行为数据;利用学习算法,根据用户订单数据和再次行为数据,训练搭配关系识别模型。其中,用户订单数据对应的再次行为数据是指在提交用户订单数据之后,用户再次发生的行为数据,比如用户订单数据是用户购买行为,那么再次行为数据可以是用户购买物品之后,用户的行为数据。
具体搭配关系识别模型的训练方法可以为:首先获取用户订单数据对应的再次行为数据,也就说获取用户订单数据之后的行为信息,比如用户购买后行为信息,该行为信息可以包括加购和浏览等行为信息。该信息可以从电子商务平台中记录的用户行为信息中获取。已知用户订单数据中包括A,在用户提交该订单数据之后,浏览了物品B、C、D,加购了物品B、E,则可以将该数据整理为训练集合,该模型基于的假设是当用户提交了包括物品A的订单数据后,浏览或者加购了物品B,则物品A和物品B属于搭配关系。通过用户提交订单数据后的浏览信息和用户提交订单数据后的加购信息进行大规模训练,则可以得到一个搭配关系识别模型,该搭配关系识别模型为分类模型,可以基于常见的机器学习算法和深度学习算法,包括但不限于GBDT模型、逻辑回归模型、深度学习分类模型等。
在训练得到搭配关系识别模型后,能够基于该搭配关系识别模型对第二候选搭配物品进行过滤,保留所有预测为实际搭配关系的目标物品和目标搭配物品,从而得到最终的目标物品对应的与其具有准确搭配关系的目标搭配物品,最终产出示例如表7所示。
表7
此外,本发明的可参考实施例中,在从第二候选搭配物品中选择与目标物品存在搭配关系的目标搭配物品之后,物品搭配方法还可以包括:设置物品排序规则,按照物品排序规则对目标搭配物品进行排序。
本步骤的主要目的是对获取的目标搭配物品进行排序,将搭配关系更强的物品排在序列的前面。而排序依据可由需求方提供,例如需求方需要提升线上业务的点击率,则可以依据物品的历史点击情况对物品序列进行排序,从而得到符合需求方的搭配商品序列。具体实现方法可以为:(1)首先基于不同的业务获取相关的排序依据。本步骤的主要目的是获取排序依据,一方面在模型和规则的保证下,目标物品的目标搭配物品的搭配关系均符合要求,保证了用户体验,另一方面结合需求方的排序依据对目标搭配物品的序列重新排序,可以保证产出的物品序列更加符合需求方的业务特性,从而提升业务点击、转化指标。其中,排序依据可以包括但不限于物品的历史点击信息、物品的历史评价信息、物品的历史购买信息等。(2)排序并产出最终的搭配序列。根据步骤(1)中提供的排序依据,对得到的目标搭配物品进行排序,从而得到最终的目标搭配物品的排序序列。以物品的历史点击率进行排序为例,得到如表8所示目标搭配物品序列。
表8
图6是根据本发明实施例的获取与目标物品搭配的目标搭配物品的方法的主要流程的示意图。如图6所示,获取与目标物品搭配的目标搭配物品的方法的主要流程可以包括:
步骤S601,获取用户订单数据和用户订单数据对应的再次行为数据;
步骤S602,利用学习算法,根据用户订单数据和再次行为数据,训练搭配关系识别模型;
步骤S603,从物品库中获取属于目标种子场景标签的物品,确定获取的物品为第一候选搭配物品;
步骤S604,按照预设属性过滤规则,从第一候选搭配物品中选择与目标物品属性相同的第二候选搭配物品;
步骤S605,基于训练的搭配关系识别模型,从第二候选搭配物品中选择与目标物品存在搭配关系的目标搭配物品;
步骤S606,设置物品排序规则,按照物品排序规则对目标搭配物品进行排序。
本发明实施例的获取与目标物品搭配的目标搭配物品的方法中,利用预设属性过滤规则和训练的搭配关系识别模型,对首先获取的搭配物品进行过滤筛选,得到目标搭配物品,且根据具体需求设置目标搭配物品的排序规则,从而提升用户体验和搭配准确率,解决了物品搭配组合准确度不足的问题。
图7是根据本发明实施例的物品搭配装置的主要模块的示意图。如图7所示,物品搭配装置700的主要模块可以包括:生成模块701、标记模块702和获取模块703。
其中,生成模块701可用于:根据用户行为数据和物品属性数据,生成种子场景集合,确定种子场景集合的场景向量;标记模块702可用于:获取目标物品,基于种子场景集合的场景向量,为目标物品标记所属的目标种子场景标签;获取模块703可用于:根据目标种子场景标签,获取与目标物品搭配的目标搭配物品。
本发明实施例中,生成模块701还可用于:获取用户订单数据、用户搜索数据、用户浏览数据和物品属性数据;挖掘用户订单数据对应的物品搭配对,生成用户订单数据对应的第一种子场景;确定用户搜索数据对应的点击数据,生成用户搜索数据对应的第二种子场景;融合用户浏览数据对应的相似浏览序列,生成用户浏览数据对应的第三种子场景;基于型号搭配和物品主适搭配,根据物品属性数据,生成第四种子场景。其中,第一种子场景、第二种子场景、第三种子场景和第四种子场景构成种子场景集合。
本发明实施例中,生成模块701还可用于:获取用户订单数据对应的订单物品,对订单物品进行组合,生成候选物品搭配对;基于关联规则,计算候选物品搭配对的置信度和支持度,然后结合预设关联阈值,从候选物品搭配对中选择用户订单数据对应的物品搭配对;将选择的物品搭配对上升为核心词搭配对,然后利用物品库对核心词搭配对进行扩展,得到最终物品搭配对;基于聚类算法对最终物品搭配对进行聚类整合,生成第一种子场景。
本发明实施例中,生成模块701还可用于:对用户搜索数据对应的搜索词进行筛选,获得候选搜索词集合;基于词袋向量,计算候选搜索词集合中候选搜索词之间的相似度,然后结合预设相似度阈值,确定相似搜索词集合;获取相似搜索词集合对应的点击物品数据;对点击物品数据进行过滤,利用过滤后的点击物品数据生成第二种子场景。
本发明实施例中,生成模块701还可用于:获取用户浏览数据对应的用户浏览序列;基于序列长度规则和序列类目规则对用户浏览数据对应的用户浏览序列进行过滤,获得第一用户浏览序列;利用第一用户浏览序列训练点击率预估模型,基于点击率预估模型对第一用户浏览序列进行过滤,获得第二用户浏览序列;确定第二用户浏览序列对应的向量信息,然后结合聚类算法对第二用户浏览序列进行聚类整合,获得相似浏览序列;根据相似浏览序列对应的物品,生成第三种子场景。
本发明实施例中,生成模块701还可用于:根据物品类目数据,获取主类目物品和配件类目物品,然后根据主类目物品的型号属性数据,从配件类目物品中选择与主类目物品搭配的物品,以生成第五种子场景;获取物品库对应的主核心词,根据物品库中的物品标题信息选择主核心词对应的适用物品,然后建立主核心词对应的主物品和适用物品的对应关系,以生成第六种子场景。其中,第五种子场景和第六种子场景构成第四种子场景。
本发明实施例中,生成模块701还可用于:针对种子场景集合中的每个种子场景,按照如下方法确定每个种子场景的场景向量:对每个种子场景下的物品标题进行分词处理,获得每个种子场景的场景分词;计算场景分词的分值,然后按照预设关键词选取条件,根据场景分词的分值,从场景分词中选择每个种子场景的场景关键词;从分词向量库中,获取场景关键词的关键词向量,根据关键词向量计算每个种子场景的全局向量;获取每个种子场景的物品向量和每个种子场景的全局向量,计算每个种子场景的场景向量。
本发明实施例中,标记模块702还可用于;从物品向量库中,获取目标物品的物品向量,计算目标物品的物品向量与每个种子场景的场景向量的向量距离;基于预设向量距离阈值,根据向量距离,从种子场景集合中选择目标物品对应的目标种子场景;将目标种子场景标记为目标物品所属的目标种子场景标签。
本发明实施例中,物品搭配装置还可以包括构建模块(图中未示出)。该构建模块可用于:对物品库中的物品标题进行分词处理,获取物品标题分词;基于无监督词向量算法,对物品标题分词进行向量化处理,获得物品标题分词的分词向量,以构建分词向量库;针对物品库中每个物品,获取每个物品对应的分词向量,计算每个物品对应的分词向量权重,根据每个物品对应的分词向量和每个物品对应的分词向量权重,计算每个物品的物品向量,以构建物品向量库。
本发明实施例中,获取模块703还可用于:从物品库中获取属于目标种子场景标签的物品,确定获取的物品为第一候选搭配物品;按照预设属性过滤规则,从第一候选搭配物品中选择与目标物品属性相同的第二候选搭配物品;基于训练的搭配关系识别模型,从第二候选搭配物品中选择与目标物品存在搭配关系的目标搭配物品。
本发明实施例中,获取模块703还可用于:获取用户订单数据和用户订单数据对应的再次行为数据;利用学习算法,根据用户订单数据和再次行为数据,训练搭配关系识别模型;以及设置物品排序规则,按照物品排序规则对目标搭配物品进行排序。
从以上描述可以看出,本发明实施例的物品搭配装置能够对用户行为数据和物品属性数据进行分析,生成种子场景集合,从而可以尽可能多的覆盖种子场景下的物品搭配组合,解决了现有技术的不能充分利用物品内容信息和用户行为信息的问题,还解决了物品搭配组合数量少、覆盖品类不足的问题,提升用户体验和搭配准确率。此外,本发明实施例中,还可以确定场景向量,相当于是为每一个物品搭配组合通过提取关键字,作为物品搭配组合的名称,从而可以增加了物品搭配的可解释性,解决了物品搭配组合可解释性的问题,这对于实际落地电子商务平台有着重大的意义。
图8示出了可以应用本发明实施例的物品搭配方法或物品搭配装置的示例性系统架构800。
如图8所示,系统架构800可以包括终端设备801、802、803,网络804和服务器805。网络804用以在终端设备801、802、803和服务器805之间提供通信链路的介质。网络804可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备801、802、803通过网络804与服务器805交互,以接收或发送消息等。终端设备801、802、803上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备801、802、803可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器805可以是提供各种服务的服务器,例如对用户利用终端设备801、802、803所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的物品搭配方法一般由服务器805执行,相应地,物品搭配装置一般设置于服务器805中。
应该理解,图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图9,其示出了适于用来实现本发明实施例的终端设备的计算机系统900的结构示意图。图9示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,计算机系统900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有系统900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括生成模块、标记模块和获取模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,生成模块还可以被描述为“根据用户行为数据和物品属性数据,生成种子场景集合,确定种子场景集合的场景向量的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:根据用户行为数据和物品属性数据,生成种子场景集合,确定种子场景集合的场景向量;获取目标物品,基于种子场景集合的场景向量,为目标物品标记所属的目标种子场景标签;根据目标种子场景标签,获取与目标物品搭配的目标搭配物品。
根据本发明实施例的技术方案,能够对用户行为数据和物品属性数据进行分析,生成种子场景集合,从而可以尽可能多的覆盖种子场景下的物品搭配组合,解决了现有技术的不能充分利用物品内容信息和用户行为信息的问题,还解决了物品搭配组合数量少、覆盖品类不足的问题,提升用户体验和搭配准确率。此外,本发明实施例中,还可以确定场景向量,相当于是为每一个物品搭配组合通过提取关键字,作为物品搭配组合的名称,从而可以增加了物品搭配的可解释性,解决了物品搭配组合可解释性的问题,这对于实际落地电子商务平台有着重大的意义。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (14)
1.一种物品搭配方法,其特征在于,包括:
根据用户行为数据和物品属性数据,生成种子场景集合,确定所述种子场景集合的场景向量;
获取目标物品,基于所述种子场景集合的场景向量,为所述目标物品标记所属的目标种子场景标签;
根据所述目标种子场景标签,获取与所述目标物品搭配的目标搭配物品。
2.根据权利要求1所述的方法,其特征在于,所述根据用户行为数据和物品属性数据,生成种子场景集合,包括:
获取用户订单数据、用户搜索数据、用户浏览数据和物品属性数据;
挖掘所述用户订单数据对应的物品搭配对,生成所述用户订单数据对应的第一种子场景;
确定所述用户搜索数据对应的点击数据,生成所述用户搜索数据对应的第二种子场景;
融合所述用户浏览数据对应的相似浏览序列,生成所述用户浏览数据对应的第三种子场景;
基于型号搭配和物品主适搭配,根据所述物品属性数据,生成第四种子场景;其中,
所述第一种子场景、所述第二种子场景、所述第三种子场景和所述第四种子场景构成所述种子场景集合。
3.根据权利要求2所述的方法,其特征在于,所述挖掘所述用户订单数据对应的物品搭配对,生成所述用户订单数据对应的第一种子场景,包括:
获取所述用户订单数据对应的订单物品,对所述订单物品进行组合,生成候选物品搭配对;
基于关联规则,计算所述候选物品搭配对的置信度和支持度,然后结合预设关联阈值,从所述候选物品搭配对中选择所述用户订单数据对应的物品搭配对;
将选择的所述物品搭配对上升为核心词搭配对,然后利用物品库对所述核心词搭配对进行扩展,得到最终物品搭配对;
基于聚类算法对所述最终物品搭配对进行聚类整合,生成所述第一种子场景。
4.根据权利要求2所述的方法,其特征在于,所述确定所述用户搜索数据对应的点击数据,生成所述用户搜索数据对应的第二种子场景,包括:
对所述用户搜索数据对应的搜索词进行筛选,获得候选搜索词集合;
基于词袋向量,计算所述候选搜索词集合中候选搜索词之间的相似度,然后结合预设相似度阈值,确定相似搜索词集合;
获取所述相似搜索词集合对应的点击物品数据;
对所述点击物品数据进行过滤,利用过滤后的所述点击物品数据生成所述第二种子场景。
5.根据权利要求2所述的方法,其特征在于,所述融合所述用户浏览数据对应的相似浏览序列,生成所述用户浏览数据对应的第三种子场景,包括:
获取所述用户浏览数据对应的用户浏览序列;
基于序列长度规则和序列类目规则对所述用户浏览数据对应的用户浏览序列进行过滤,获得第一用户浏览序列;
利用所述第一用户浏览序列训练点击率预估模型,基于所述点击率预估模型对所述第一用户浏览序列进行过滤,获得第二用户浏览序列;
确定所述第二用户浏览序列对应的向量信息,然后结合聚类算法对所述第二用户浏览序列进行聚类整合,获得所述相似浏览序列;
根据所述相似浏览序列对应的物品,生成所述第三种子场景。
6.根据权利要求2所述的方法,其特征在于,所述基于型号搭配和物品主适搭配,根据所述物品属性数据,生成第四种子场景,包括:
根据物品类目数据,获取主类目物品和配件类目物品,然后根据所述主类目物品的型号属性数据,从所述配件类目物品中选择与所述主类目物品搭配的物品,以生成第五种子场景;
获取物品库对应的主核心词,根据物品库中的物品标题信息选择所述主核心词对应的适用物品,然后建立所述主核心词对应的主物品和所述适用物品的对应关系,以生成第六种子场景;其中,
所述第五种子场景和所述第六种子场景构成所述第四种子场景。
7.根据权利要求1所述的方法,其特征在于,所述确定所述种子场景集合的场景向量,包括:
针对所述种子场景集合中的每个种子场景,按照如下方法确定所述每个种子场景的场景向量:
对所述每个种子场景下的物品标题进行分词处理,获得所述每个种子场景的场景分词;
计算所述场景分词的分值,然后按照预设关键词选取条件,根据所述场景分词的分值,从所述场景分词中选择所述每个种子场景的场景关键词;
从分词向量库中,获取所述场景关键词的关键词向量,根据所述关键词向量计算所述每个种子场景的全局向量;
获取所述每个种子场景的物品向量和所述每个种子场景的全局向量,计算所述每个种子场景的场景向量。
8.根据权利要求7所述的方法,其特征在于,所述基于所述种子场景集合的场景向量,为所述目标物品标记所属的目标种子场景标签,包括;
从物品向量库中,获取所述目标物品的物品向量,计算所述目标物品的物品向量与所述每个种子场景的场景向量的向量距离;
基于预设向量距离阈值,根据所述向量距离,从所述种子场景集合中选择所述目标物品对应的目标种子场景;
将所述目标种子场景标记为所述目标物品所属的目标种子场景标签。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
对物品库中的物品标题进行分词处理,获取物品标题分词;
基于无监督词向量算法,对所述物品标题分词进行向量化处理,获得所述物品标题分词的分词向量,以构建所述分词向量库;
针对物品库中每个物品,获取所述每个物品对应的分词向量,计算所述每个物品对应的分词向量权重,根据所述每个物品对应的分词向量和所述每个物品对应的分词向量权重,计算所述每个物品的物品向量,以构建所述物品向量库。
10.根据权利要求1所述的方法,其特征在于,所述根据所述目标种子场景标签,获取与所述目标物品搭配的目标搭配物品,包括:
从物品库中获取属于所述目标种子场景标签的物品,确定获取的所述物品为第一候选搭配物品;
按照预设属性过滤规则,从所述第一候选搭配物品中选择与所述目标物品属性相同的第二候选搭配物品;
基于训练的搭配关系识别模型,从所述第二候选搭配物品中选择与所述目标物品存在搭配关系的所述目标搭配物品。
11.根据权利要求10所述的方法,其特征在于,在基于训练的搭配关系识别模型,从所述第二候选搭配物品中选择与所述目标物品存在搭配关系的所述目标搭配物品之前,所述方法还包括:
获取用户订单数据和所述用户订单数据对应的再次行为数据;
利用学习算法,根据所述用户订单数据和所述再次行为数据,训练搭配关系识别模型;以及
在从所述第二候选搭配物品中选择与所述目标物品存在搭配关系的所述目标搭配物品之后,所述方法还包括:
设置物品排序规则,按照所述物品排序规则对所述目标搭配物品进行排序。
12.一种物品搭配装置,其特征在于,包括:
生成模块,用于根据用户行为数据和物品属性数据,生成种子场景集合,确定所述种子场景集合的场景向量;
标记模块,用于获取目标物品,基于所述种子场景集合的场景向量,为所述目标物品标记所属的目标种子场景标签;
获取模块,用于根据所述目标种子场景标签,获取与所述目标物品搭配的目标搭配物品。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-11中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-11中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010555182.4A CN113744011A (zh) | 2020-06-17 | 2020-06-17 | 物品搭配方法和物品搭配装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010555182.4A CN113744011A (zh) | 2020-06-17 | 2020-06-17 | 物品搭配方法和物品搭配装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113744011A true CN113744011A (zh) | 2021-12-03 |
Family
ID=78728067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010555182.4A Pending CN113744011A (zh) | 2020-06-17 | 2020-06-17 | 物品搭配方法和物品搭配装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113744011A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023142448A1 (zh) * | 2022-01-26 | 2023-08-03 | 北京沃东天骏信息技术有限公司 | 热点信息的处理方法、装置、服务器和可读存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105100164A (zh) * | 2014-05-20 | 2015-11-25 | 深圳市腾讯计算机系统有限公司 | 网络服务推荐方法和装置 |
CN105608650A (zh) * | 2016-03-22 | 2016-05-25 | 广州聚数信息科技有限公司 | 一种菜品搭配推荐方法及其系统 |
CN106919577A (zh) * | 2015-12-24 | 2017-07-04 | 北京奇虎科技有限公司 | 基于搜索词进行搜索推荐的方法、装置和搜索引擎 |
CN107247798A (zh) * | 2017-06-27 | 2017-10-13 | 北京京东尚科信息技术有限公司 | 构建搜索词库的方法和装置 |
WO2018149237A1 (zh) * | 2017-02-20 | 2018-08-23 | 北京京东尚科信息技术有限公司 | 物品数据处理方法、装置和计算机可读存储介质 |
CN109658027A (zh) * | 2018-12-17 | 2019-04-19 | 北京极智嘉科技有限公司 | 一种订单任务的处理方法、装置、服务器和介质 |
CN110264291A (zh) * | 2018-03-12 | 2019-09-20 | 北京京东尚科信息技术有限公司 | 信息推荐方法和装置 |
CN111259263A (zh) * | 2020-01-15 | 2020-06-09 | 腾讯云计算(北京)有限责任公司 | 一种物品推荐方法、装置、计算机设备及存储介质 |
CN111259222A (zh) * | 2020-01-22 | 2020-06-09 | 北京百度网讯科技有限公司 | 物品推荐方法、系统、电子设备及存储介质 |
-
2020
- 2020-06-17 CN CN202010555182.4A patent/CN113744011A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105100164A (zh) * | 2014-05-20 | 2015-11-25 | 深圳市腾讯计算机系统有限公司 | 网络服务推荐方法和装置 |
CN106919577A (zh) * | 2015-12-24 | 2017-07-04 | 北京奇虎科技有限公司 | 基于搜索词进行搜索推荐的方法、装置和搜索引擎 |
CN105608650A (zh) * | 2016-03-22 | 2016-05-25 | 广州聚数信息科技有限公司 | 一种菜品搭配推荐方法及其系统 |
WO2018149237A1 (zh) * | 2017-02-20 | 2018-08-23 | 北京京东尚科信息技术有限公司 | 物品数据处理方法、装置和计算机可读存储介质 |
CN107247798A (zh) * | 2017-06-27 | 2017-10-13 | 北京京东尚科信息技术有限公司 | 构建搜索词库的方法和装置 |
CN110264291A (zh) * | 2018-03-12 | 2019-09-20 | 北京京东尚科信息技术有限公司 | 信息推荐方法和装置 |
CN109658027A (zh) * | 2018-12-17 | 2019-04-19 | 北京极智嘉科技有限公司 | 一种订单任务的处理方法、装置、服务器和介质 |
CN111259263A (zh) * | 2020-01-15 | 2020-06-09 | 腾讯云计算(北京)有限责任公司 | 一种物品推荐方法、装置、计算机设备及存储介质 |
CN111259222A (zh) * | 2020-01-22 | 2020-06-09 | 北京百度网讯科技有限公司 | 物品推荐方法、系统、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
姚静天等: "基于联合物品搭配度的推荐算法框架", 上海理工大学学报, vol. 39, no. 01, pages 2 * |
肖倩: "基于用户行为特征的水果搭配混合推荐方法设计与实现", 中国优秀硕士学位论文全文数据库信息科技辑, no. 02, pages 1 - 2 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023142448A1 (zh) * | 2022-01-26 | 2023-08-03 | 北京沃东天骏信息技术有限公司 | 热点信息的处理方法、装置、服务器和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107330752B (zh) | 识别品牌词的方法和装置 | |
CN108153901A (zh) | 基于知识图谱的信息推送方法和装置 | |
US11361030B2 (en) | Positive/negative facet identification in similar documents to search context | |
CN107832338B (zh) | 一种识别核心产品词的方法和系统 | |
US20230214895A1 (en) | Methods and systems for product discovery in user generated content | |
CN103577549A (zh) | 一种基于微博标签的人群画像系统和方法 | |
CN107729336A (zh) | 数据处理方法、设备及系统 | |
US20200226168A1 (en) | Methods and systems for optimizing display of user content | |
US11436446B2 (en) | Image analysis enhanced related item decision | |
CN111444304A (zh) | 搜索排序的方法和装置 | |
CN110069698A (zh) | 信息推送方法和装置 | |
CN110111167A (zh) | 一种确定推荐对象的方法和装置 | |
US20240143684A1 (en) | Information presentation method and apparatus, and device and medium | |
US20130346385A1 (en) | System and method for a purposeful sharing environment | |
CN116049379A (zh) | 知识推荐方法、装置、电子设备和存储介质 | |
CN110059172B (zh) | 基于自然语言理解的推荐答案的方法和装置 | |
CN110516033A (zh) | 一种计算用户偏好的方法和装置 | |
tong et al. | Mining and analyzing user feedback from app reviews: An econometric approach | |
CN113744011A (zh) | 物品搭配方法和物品搭配装置 | |
US11410418B2 (en) | Methods and systems for tagged image generation | |
CN108875014B (zh) | 基于大数据与人工智能的精准项目推荐方法和机器人系统 | |
CN111782850A (zh) | 一种基于手绘图的物品搜索方法和装置 | |
CN114862480A (zh) | 广告投放定向方法及其装置、设备、介质、产品 | |
CN113821718A (zh) | 一种物品信息推送方法和装置 | |
CN113743973A (zh) | 分析市场热点趋势的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |