CN111708945A - 产品的推荐方法及装置、电子设备、计算机存储介质 - Google Patents

产品的推荐方法及装置、电子设备、计算机存储介质 Download PDF

Info

Publication number
CN111708945A
CN111708945A CN202010558810.4A CN202010558810A CN111708945A CN 111708945 A CN111708945 A CN 111708945A CN 202010558810 A CN202010558810 A CN 202010558810A CN 111708945 A CN111708945 A CN 111708945A
Authority
CN
China
Prior art keywords
user
sequence
combined
sample
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010558810.4A
Other languages
English (en)
Inventor
刘志煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010558810.4A priority Critical patent/CN111708945A/zh
Publication of CN111708945A publication Critical patent/CN111708945A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种产品的推荐方法及装置、电子设备、计算机存储介质,上述方法中,将用户针对目标产品产生用户行为序列与挖掘得到的该用户的目标序列模式匹配,并根据匹配结果配置用户和目标产品的组合样本的样本权重。然后利用组合样本的样本权重,对基于用户特征和产品特征的组合特征构建的组合特征向量加权,得到组合特征向量的加权组合特征向量,并利用该加权组合特征向量,计算得到组合样本所属的类簇,该类簇通过多个聚类样本的加权组合特征向量进行聚类得到,最后将目标产品推荐给组合样本所属的类簇中的聚类样本对应的用户,从而结合序列模式挖掘和聚类算法实现将产品推荐给用户。

Description

产品的推荐方法及装置、电子设备、计算机存储介质
技术领域
本申请涉及产品推荐技术领域,特别涉及一种产品的推荐方法及装置、电子设备、计算机存储介质。
背景技术
个性化推荐在电商平台、视频软件、广告投放等领域具有重要的意义和广泛的应用场景。目前,主流的业务个性化推荐方法主要有基于人口统计学的推荐、基于内容的推荐以及协调过滤算法推荐。
基于人口统计学的推荐的方法主要是将与目标用户在人口统计学特征上相似的用户都喜好产品推荐给目标用户。基于内容的推荐则是将与目标用户喜好的产品在产品特征上相似的产品推荐给目标用户。协调过滤算法推荐主要通过关联算法、聚类算法、分类算法、回归算法、矩阵分解、图模型等来完成协同过滤,具体可以分为基于用户的协同和基于物品的协同。其中,基于用户的协同方法是将从历史偏好数据上计算分析出与目标用户喜好相似的用户,并将相似用户的喜好产品推荐该目标用户;物品的协同则是对比目标用户和多个用户的历史偏好数据,基于目标用户和多个具有共同喜好产品的用户,预测符合目标用户喜好的产品,并推荐给用户。
但是这些方式主要都是针对目标用户,向目标用户推荐可能符合目标用户喜好的产品,而无法针对目标产品,准确地将目标产品推荐给最有可能喜好或需要该产品的用户。
发明内容
基于上述现有技术的不足,本申请提供了一种产品的推荐方法及装置、电子设备、计算机存储介质,以解决准确地将目标产品推荐给最有可能喜好或需要该产品的用户的问题。
为了实现上述目的,本申请提供了以下技术方案:
本申请第一方面提供了一种产品的推荐方法,包括:
获取目标产品的产品特征和用户的用户特征、用户行为序列;其中,所述用户针对所述目标产品产生所述用户行为序列指代的用户行为;
基于所述用户行为序列与确定出的各个目标序列模式的匹配结果,配置得到所述用户和所述目标产品的组合样本的样本权重;其中,所述匹配结果说明所述用户行为序列与所述目标序列模式相匹配时,所述组合样本的样本权重较高;所述目标序列模式为对所述用户转化多个产品时产生的用户行为序列进行序列模式挖掘,得到的频繁序列模式;
利用所述组合样本的样本权重,对基于所述用户特征和所述产品特征的组合特征构建的组合特征向量进行加权,得到所述组合特征向量的加权组合特征向量;
利用所述组合特征向量的加权组合特征向量,计算得到所述组合样本所属的类簇;其中,所述类簇通过多个聚类样本的加权组合特征向量进行聚类得到,每个所述聚类样本的加权组合特征向量由所述聚类样本的组合特征向量与所述聚类样本的样本权重加权得到;一个所述聚类样本对应一个用户以及所述用户转化的一个产品;
将所述目标产品推荐给所述组合样本所属的类簇中的所述聚类样本对应的用户。
可选地,在上述的产品的推荐方法中,所述利用所述组合特征向量的加权组合特征向量,计算得到所述组合样本所属的类簇,包括:
利用多个所述聚类样本的加权组合特征向量进行聚类,得到多个类簇;
利用所述组合特征向量的加权组合特征向量,计算得到所述组合样本与每个所述类簇的聚类中心的距离;
将与所述组合样本的距离最短的所述聚类中心对应的所述类簇,确定为所述组合样本所属的类簇;
或者,利用所述组合特征向量的加权组合特征向量以及多个所述聚类样本的加权组合特征向量共同进行聚类,得到多个类簇,并从多个类簇筛选出所述组合样本所属的类簇。
可选地,在上述的产品的推荐方法中,所述利用所述组合特征向量的加权组合特征向量,计算得到所述组合样本所属的类簇之后,还包括:
计算所述组合样本所属的所述类簇中的每个所述聚类样本对应的用户的转化率占比;
其中,所述将所述目标产品推荐给所述组合样本所属的类簇中的所述聚类样本对应的用户,包括:
将所述目标产品推荐给转化率占比最高的所述用户。
可选地,在上述的产品的推荐方法中,所述组合特征向量的构建方法,包括:
对所述用户的用户特征以及所述目标产品的产品特征进行多项预处理;其中,所述预处理包括过滤处理、填充处理以及衍生处理;
将进行预处理后的所述用户的用户特征与所述目标产品的产品特征进行拼接组合,得到所述用户特征和所述产品特征的组合特征;
对所述组合特征进行特征处理,得到所述组合特征的组合特征向量。
可选地,在上述的产品的推荐方法中,所述基于所述用户行为序列与各个目标序列模式的匹配结果,配置得到所述用户和所述目标产品的组合样本的样本权重,包括:
若所述匹配结果说明所述用户行为序列中包含有所述目标序列模式,则将所述用户行为序列中包含的最长的所述目标序列模式的支持率,配置为组合样本权重;
若所述匹配结果说明所述用户行为序列中不包含有任意一个所述目标序列模式,则将所述组合样本权重配置为挖掘序列模式时设置的最小支持率,或配置为所述用户行为序列在所述用户对应的各个所述转化行为序列中的支持率。
可选地,在上述的产品的推荐方法中,所述各个目标序列模式的确定方法,包括:
从预先挖掘得到的多个用户的频繁序列模式中,查找出所述用户的各个频繁序列模式,并将所述用户的各个频繁序列模式确定为所述目标序列模式;
或者,对所述用户转化到多个产品时产生的行为序列进行序列模式挖掘,得到所述用户的频繁序列模式,并将所述用户的频繁序列模式确定为所述目标序列模式。
可选地,在上述的产品的推荐方法中,所述对所述用户转化到多个所述样本产品时产生的行为序列进行序列模式挖掘,得到所述用户的频繁序列模式,包括:
分别获取所述用户转化到各个产品时产生的行为序列,并将各个所述行为序列组成行为序列集;其中,每个所述行为序列由多个行为编码;一个所述行为编码指代一种用户行为;
将所述行为序列集中的每一个支持度大于或等于支持度阈值的行为编码,均确定为1级序列模式,并将所述序列级别N设定为2;
获得每一个N-1级序列模式对应的投影行为序列集;其中,所述N-1级序列模式对应的投影行为序列集,包括从所述行为序列集中的每个所述行为序列中取得的所述N-1级的后缀;
将每一个在对应的所述投影行为序列集中的支持度大于或等于所述支持度阈值的行为编码和所述投影行为序列集对应的N-1级序列模式组合为N级序列模式,并将N递增1后返回执行获得每一个N-1级序列模式对应的投影行为序列集,直至不存在在对应的投影行为序列集中的支持度大于或等于所述支持度阈值的行为编码为止;
将获得的每一级序列模式确定为所述用户的频繁序列模式。
本申请第二方面提供了一种产品的推荐装置,包括:
第一获取单元,用于获取目标产品的产品特征和用户的用户特征、用户行为序列;其中,所述用户针对所述目标产品产生所述用户行为序列指代的用户行为;
配置单元,用于基于所述用户行为序列与确定出的各个目标序列模式的匹配结果,配置得到所述用户和所述目标产品的组合样本的样本权重;其中,所述匹配结果说明所述用户行为序列与所述目标序列模式相匹配时,所述组合样本的样本权重较高;所述目标序列模式为对所述用户转化多个产品时产生的用户行为序列进行序列模式挖掘,得到的频繁序列模式;
加权单元,用于利用所述组合样本的样本权重,对基于所述用户特征和所述产品特征的组合特征构建的组合特征向量进行加权,得到所述组合特征向量的加权组合特征向量;
第一计算单元,用于利用所述组合特征向量的加权组合特征向量,计算得到所述组合样本所属的类簇;其中,所述类簇通过多个聚类样本的加权组合特征向量进行聚类得到,每个所述聚类样本的加权组合特征向量由所述聚类样本的组合特征向量与所述聚类样本的样本权重加权得到;一个所述聚类样本对应一个用户以及所述用户转化的一个产品;
推荐单元,用于将所述目标产品推荐给所述组合样本所属的类簇中的所述聚类样本对应的用户。
可选地,在上述的产品的推荐装置中,所述第一计算单元,包括:
第一聚类单元,用于利用多个所述聚类样本的加权组合特征向量进行聚类,得到多个类簇;
距离计算单元,用于利用所述组合特征向量的加权组合特征向量,计算得到所述组合样本与每个所述类簇的聚类中心的距离;
确定单元将与所述组合样本的距离最短的所述聚类中心对应的所述类簇,确定为所述组合样本所属的类簇;
或者,所述第一计算单元,包括:第一计算子单元,用于利用所述组合特征向量的加权组合特征向量以及多个所述聚类样本的加权组合特征向量共同进行聚类,得到多个类簇,并从多个类簇筛选出所述组合样本所属的类簇。
可选地,在上述的产品的推荐装置中,还包括:
第二计算单元,用于计算所述组合样本所属的所述类簇中的每个所述聚类样本对应的用户的转化率占比;
其中,所述推荐单元执行所述将所述目标产品推荐给所述组合样本所属的类簇中的所述聚类样本对应的用户时,用于:
将所述目标产品推荐给转化率占比最高的所述用户。
可选地,在上述的产品的推荐装置中,还包括特征向量构建单元,所述特征向量构建单元,包括:
预处理单元,用于对所述用户的用户特征以及所述目标产品的产品特征进行多项预处理;其中,所述预处理包括过滤处理、填充处理以及衍生处理;
组合单元,用于将进行预处理后的所述用户的用户特征与所述目标产品的产品特征进行拼接组合,得到所述用户特征和所述产品特征的组合特征;
特征处理单元,用于对所述组合特征进行特征处理,得到所述组合特征的组合特征向量。
可选地,在上述的产品的推荐装置中,所述配置单元,在所述匹配结果说明所述用户行为序列中包含有所述目标序列模式时,用于将所述用户行为序列中包含的最长的所述目标序列模式的支持率,配置为组合样本权重;在所述匹配结果说明所述用户行为序列中不包含有任意一个所述目标序列模式时,用于将所述组合样本权重配置为挖掘序列模式时设置的最小支持率,或配置为所述用户行为序列在所述用户对应的各个所述转化行为序列中的支持率。
可选地,在上述的产品的推荐装置中,还包括:目标序列模式确定单元,所述目标序列模式确定单元,包括:
查找单元,从预先挖掘得到的多个用户的频繁序列模式中,查找出所述用户的各个频繁序列模式,并将所述用户的各个频繁序列模式确定为所述目标序列模式;
或者,所述目标序列模式确定单元,包括:挖掘单元,用于对所述用户转化到多个产品时产生的行为序列进行序列模式挖掘,得到所述用户的频繁序列模式,并将所述用户的频繁序列模式确定为所述目标序列模式。
可选地,在上述的产品的推荐装置中,所述挖掘单元,包括:
第二获取单元,用于分别获取所述用户转化到各个产品时产生的行为序列,并将各个所述行为序列组成行为序列集;其中,每个所述行为序列由多个行为编码;一个所述行为编码指代一种用户行为;
一级序列模式挖掘单元,用于将所述行为序列集中的每一个支持度大于或等于支持度阈值的行为编码,均确定为1级序列模式,并将所述序列级别N设定为2;
第三获取单元,用于获得每一个N-1级序列模式对应的投影行为序列集;其中,所述N-1级序列模式对应的投影行为序列集,包括从所述行为序列集中的每个所述行为序列中取得的所述N-1级的后缀;
序列模式挖掘单元,用于将每一个在对应的所述投影行为序列集中的支持度大于或等于所述支持度阈值的行为编码和所述投影行为序列集对应的N-1级序列模式组合为N级序列模式,并将N递增1后返回执行获得每一个N-1级序列模式对应的投影行为序列集,直至不存在在对应的投影行为序列集中的支持度大于或等于所述支持度阈值的行为编码为止;
序列模式确定单元,用于将获得的每一级序列模式确定为所述用户的频繁序列模式。
本申请第三方面提供了一种计算机存储介质,用于存储计算机程序,所述计算机程序被执行时,用于实现如上述任意一项所述的产品的推荐方法。
本申请第四方面公开了一种电子设备,包括存储器和处理器;
其中,所述存储器用于存储程序;
所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如上述第一方面中任意一项所述的产品的推荐方法。
本申请提供的一种产品的推荐方法,针对目标产品,获取目标产品的产品特征、用户的用户特征以及该用户针对目标产品产生的用户行为序列。然后,基于用户行为序列与确定出的各个目标序列模式的匹配结果,配置得到用户和所述目标产品的组合样本的样本权重,并利用组合样本的样本权重,对基于用户特征和产品特征的组合特征构建的组合特征向量进行加权,得到组合特征向量的加权组合特征向量,最后利用加权组合特征向量,计算得到组合样本所属的类簇,并将目标产品推荐给组合样本所属的类簇中的聚类样本对应的用户。由于目标序列模式为预先的通过挖掘用户转化到多个产品的行为序列得到的频繁序列,因此本申请是通过反应用户的转化产品的历史行为共性对样本配置样本权重,并且匹配结果说明用户行为序列与目标序列模式相匹配时,组合样本的样本权重较高,所以通过利用样本权重对组合特征向量得到的加权组合特征向量进行聚类时,着重考虑了用户的行为共性。并且,由于组合特征向量利用产品特征以及用户特征共同构建得到,所以还考虑到了产品以及用户之间的相关性。因此所以将目标产品推荐给组合样本所属的类簇中的聚类样本对应的用户,可以准确地将目标产品推荐给最有可能喜好或需要该产品的用户。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种加权组合特征向量的构建方法的流程示意图;
图2为本申请实施例提供的一种组合特征向量的构建方法的流程示意图;
图3为本申请实施例提供的一种频繁序列模式的挖掘方法的流程示意图;
图4为本申请另一实施例提供的一种产品的推荐方法的流程示意图;
图5为本申请另一实施例提供的一种组合样本的组合特征向量的构建方法的流程示意图;
图6为本申请另一实施例计算组合样本所属类簇的方法的流程示意图;
图7为本申请另一实施例提供的一种产品的推荐装置的结构示意图;
图8为本申请另一实施例提供的一种特征向量构建单元的结构示意图;
图9为本申请另一实施例提供的一种挖掘单元的结构示意图;
图10为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
产品可以理解为生产出来提供给人们使用和消费,并能满足人们某种需求的任何东西。产品具体可以包括有型的东西,例如生活用品、食物等,也包括无形的东西,例如服务、广告、视频、网络小说等,当然也包括了这两者的组合。为了能达到期望的收益,在许多领域中都通过个性化推荐系统,来保证提供给用户的产品能符合用户的喜好或者需求。由于产品所属的范围相对较广,为了便于更清晰地说明本申请提供的产品推荐方法,因此本申请主要针对电商平台的产品推荐为例进行说明,但是本申请任意一个实施例所提供的方法既适用于电商平台的产品,也适用于其他的产品,例如视频、音乐、广告等产品。
为了实现将某个产品推荐给最有可能喜好该产品或者需要该产品的用户,本申请提供了一种产品的推荐方法。由于,在实现本申请提供的产品的推荐方法时,需要用到多个聚类样本的加权组合特征向量,因此本申请实施例提供的了一种加权组合特征向量的构建方法,请参见图1,该方法可以包括如下步骤:
S101、获取多个用户的用户特征以及多个产品的产品特征。
其中,用户特征可以包括用户的个人信息以及用户的行为信息等用于体现用户的特征的信息。例如,在电商平台中,获取的用户特征可以包括用户的基础属性特征,如年龄、性别、学历、所处城市等个人基础属性特征,以及包括用户的消费特征,如支付总笔数、总金额、指定时间段内支付笔数分布、支付金额分布、每笔平均金额等,还可以包括用户行为特征,如浏览时长、网页点击次数等特征。需要说明的是,在不同领域中,由于产品的不同,消费产品的方式不相同,所以所获取的用户特征可以根据实际的应用场景进行选择。
产品特征则可以包括产品基础属性信息,如电影的类型、音乐的时长、商品的品牌等,还可以包括产品的消费特征,如电影的评论、音乐的播放次数、商品的购买次数等。例如,在电商平台中,获取的产品特征包括的基础属性可以有产品类别、产品价格、产品品牌、产品购买评论等,而获取的产品特征包括的产品消费特征可以包括有产品的被购买次数、被点击浏览次数、添加购物车次数、以及同类物品被购买次数等特征。
S102、利用用户的用户特征及产品的产品特征,构建得到多个聚类样本的组合特征向量。
其中,一个聚类样本的组合特征向量由一个用户的用户特征及其转化的一个产品的产品特征共同构建得到。也就说,一个用户和该用户转换的一个产品的组合对应一个聚类样本。并且,一个用户可以与多个被该用户转化的产品组合,即一个用户可以对应有多个聚类样本。同样,一个产品可以与多个转化该产品的用户进行组合,即一个产品也可以对应有多个聚类样本。
需要说明的是,用户转化产品指的是用户针对产品产生了产品提供者期望的行为,例如,在电商平台中,产品提供者通常期望的行为为用户购买了所提供的产品,所以当用户购买所提供的产品后,则认为该用户实现了对该产品的转化。对于电影或音乐等产品,通常当用户点播了所提供的电影或音乐,则确定用户转化了所点播的产品。
具体的,分别针对每个用户,将该用户的用户特征分别与其所转化的每个产品的产品特征进行评价组合,即将两部分别特征进行组合,得到多个组合特征,并对组合特征进行特征处理得到多维的组合特征向量。
请参见图2,步骤S102的一种具体实施方式,具体包括如下步骤:
S201、对获取的用户特征以及产品特征进行多项预处理,预处理包括过滤处理、填充处理以及衍生处理。
其中,过滤处理可以包括舍弃缺失值过多的特征以及异常值处理。具体的,对于舍弃缺失值过多的特征的处理,可以设定缺失值过滤阈值,当某个特征的数据缺失的数量超过设定的缺失值过滤阈值时,将所有的该特征的数据删除,并且还可以进一步删除单值特征。其中,设定的缺失值过滤阈值可以等于样本总量与设定的过滤比例的乘积。对于异常值处理,则可以根据特征分布,舍弃特征数值太大的特征、排在前n%的异常值,其中,n根据特征值分布设定。
填充处理可以理解为对缺失值相对较少的特征的缺失值进行填充处理。具体的,对于连续型特征的缺失值可以采用均值进行填充,对于离散型特征则可以采用常数填充作为单独的类别。
特征衍生处理可以通过特征变换、平方、加减等手段进行特征组合和衍生。
S202、分别针对每个用户,将进行预处理后的该用户的用户特征与其所转化的各个产品的产品特征进行拼接组合,得到该用户与其所转化的各个产品对应的聚类样本的组合特征。
S203、分别对各个聚类样本的组合特征进行特征处理,得到各个聚类样本的组合特征的组合特征向量。
可选地,对于连续型特征可以采用分箱离散化的方式进行处理,对于离散型特征则可以进行独热编码。
S103、分别针对每个用户,分别获取该用户转化到各个产品时产生的转化行为序列,并对该用户转化到各个产品时产生的转化行为序列进行序列模式挖掘,得到该用户的频繁序列模式。
其中,用户转化到产品是产生的转换行为序列主要指的由用户最终转化产品的行为以及转化产品前的多个行为更具时间顺序组合的行为序列。例如,用户转化到物品1的过程为:在A页面点击了a按键进入到B页面,然后浏览一段时间后有点击b按键进入到C页面,并在C页面点击c按键购买了物品1,则该用户转化到物品1时产生的转化行为序列可以记为AaBbCc。
序列模式挖掘则指的是挖掘相对时间或其他模式出现频率高的模式,在本申请中即为针对每个用户,挖掘该用户转化产品过程中的出现频率高的行为序列,从而得到该用户的频繁序列模式。
可选地,可以分别基于prefixspan算法实现对各个用户转化到各个样本产品时产生的转化行为序列进行序列模式挖掘。由于是分别针对每个用户进行序列模式挖掘,并且针对每个用户进行序列模式挖掘的方式相同,因此只针对一个用户挖掘的过程进行说明。
具体的,基于prefixspan算法对一个用户进行序列模式挖掘的过程,请参见图3,包括如下步骤:
S301、分别获取用户转化到各个产品时产生的转化行为序列,并将各个转化行为序列组成行为序列集,每个转化行为序列由多个行为编码,一个行为编码指代一种用户行为。
需要说明的是,由于对于计算而言,无法直接对文字表达的行为序列进行处理,因此本申请实施例中,通过一个行为编码来指代一种用户行为,从而通过多个相应的行为编码指代转化行为序列,以便于进行计算。例如,用户转行到物品1的过程为:进入电商平台,然后进行注册和登录,并在页面浏览一段时间后点击进入查看物品详情页,浏览一段时间后点击收藏按钮收藏物品,然后点击添加购物车购买物品。请参见表1,用户行为与行为编码的对应关系如下:
表1
用户行为 行为编码
购买行为 h
添加购物车行为 g
收藏行为 f
评论行为 e
搜索行为 d
登陆行为 c
注册行为 b
因此,根据表1的用户行为与行为表达的关系。该用户转化到物品1的转化行为序列表示为:bcafgh。
S302、将行为序列集中的每一个支持度大于或等于支持度阈值的行为编码,均确定为1级序列模式,并将序列级别N设定为2。
其中,支持度可以理解为出现该行为编码的行为序列的数量。具体的,支持度阈值可以设置为转化行为序列的总量与设定的最小支持率的乘积。
本实施例中,一个序列模式的级别,等于这个序列模式的长度。换言之,若一个序列模式是N级序列模式,则这个序列模式就包含N个行为编码。因此,每个1级序列模式则只包含一个行为编码,并且支持度大于或等于支持度阈值。
例如,同样引用步骤S301的说明中的例子,用户转化到物品1的转化行为序列表示为:bcafgh,若用户转化到物品2的转化行为序列为:bcdaghf。假设支持度阈值设置为2。则在两个转化行为序列中,包含了6个行为编码:h、g、f、d、c、b。由于f仅出现在一个转化行为序列中,所以满足支持度阈值的行为编码仅为:h、g、d、c、b,因此1级序列模式为:h、g、d、c、b。
S303、获得每一个N-1级序列模式对应的投影行为序列集,N-1级序列模式对应的投影行为序列集,包括从行为序列集中的每个转化行为序列中取得的N-1级的后缀。
需要说明的是,所得到的N级序列模式为转换行为序列的N项前缀,所以N-1级序列模式对应的投影行为序列集,即为各个N-1项前缀所对应的后缀的集合。
例如,基于步骤S302中的例子,所挖掘得到1级序列模式为:h、g、d、c、b,则1项前缀为:h、g、d、c、b。参见表2,各个1项前缀的后缀如下:
表2
Figure BDA0002545515700000131
因此,1级序列模式对应的投影行为序列集为:cafgh、cdaghf、afgh、daghf、fgh、ghf、h、hf、f。
可以理解的,在本实施例中,首次执行步骤S203时,N等于2,此时执行步骤S203获得的是过滤后的训练语料集中的每一个1级序列模式的投影语料集。之后,由于执行步骤S206使得N递增1,第二次执行步骤S203时,N等于3,步骤S203获得的是过滤后的训练语料集中的每一个2级序列模式的投影语料集,第三次执行时则变为3级序列模式的投影语料集,以此类推。
S304、将每一个在对应的投影行为序列集中的支持度大于或等于支持度阈值的行为编码、和投影行为序列集对应的N-1级序列模式组合为N级序列模式,并将N递增1后返回执行步骤S303、获得每一个N-1级序列模式对应的投影行为序列集,直至不存在在对应的投影行为序列集中的支持度大于或等于支持度阈值的行为编码为止。
具体的,只有在挖掘1级序列模式时,是以获得到的原始的各个转换行为序列组成的行为序列集为挖掘目标,在挖掘N大于1的N级序列模式时,则以N-1级序列模式的投影行为序列集作为挖掘目标。所以,每级序列模式挖掘的方式是相同的,仅是所挖掘的目标不同。
需要说明的是,由于N-1级序列模式的支持度大于或等于支持度阈值,因此每一个在对应的投影行为序列集中的支持度大于或等于支持度阈值的行为编码和投影行为序列集对应的N-1级序列模式的组合的支持度同样大于或等于支持度阈值。因此,也可以理解为将每一个在对应的投影行为序列集中的行为编码与对应的N-1级序列模式组合,并将支持度大于或等于支持度阈值的组合确定为N级序列模式。然后,将N递增1后返回执行获得每一个N-1级序列模式对应的投影行为序列集,直至不存在在对应的投影行为序列集中的支持度大于或等于支持度阈值的行为编码为止。
例如,同样在步骤S303的说明中的例子挖掘到1级序列模式为:h、g、d、c、b时,在1级序列模式的投影行为序列集的基础上挖掘得到2级序列模式,并获得2级序列模式的投影行为序列集,如表3所示。
表3
Figure BDA0002545515700000141
同样,从2级序列模式的投影行为序列集中挖掘得到3级序列模式,并获得3级序列模式的投影行为序列集,如表4所示。
表4
Figure BDA0002545515700000151
同理,采用相同的方式,不断地就行挖掘,直至挖掘到5级序列模式后,所获得的5级序列模式对应的投影行为序列集仅剩一个投影行为序列,不再能满足等于或大于支持度的要求,因此序列模式挖掘结束。
S305、将获得的每一级序列模式确定为用户的频繁序列模式。
S104、分别针对每个聚类样本,基于聚类样本对应的转化行为序列与聚类样本对应的用户的频繁序列模式的匹配结果,配置聚类样本的样本权重。
需要说明的是,一个聚类样本对应的转换行为序列指的是该聚类样本对应用户转化该聚类样本对应产品时产生的转化行为序列。
配置聚类样本的样本权重是为了在后续进行聚类学习时,算法能更加地关注到符合用户的行为习惯的聚类样本,即更加地关注到对应的用户的转化行为序列包含有相对应的频繁序列模式的聚类样本。所以,聚类样本对应的转化行为序列与聚类样本对应的用户的频繁序列模式的相匹配时,所配置的聚类样本的样本权重,比不匹配时配置的样本权重大。需要说明的是,转化行为序列中包含某个频繁序列模式时,则说明转化行为序列与该频繁序列模式相匹配。
可选地,本申请实施例中,若转化行为序列中包含频繁序列模式,则将样本权重配置为转化行为序列中包含的最长的频繁序列模式的支持率。其中,一个频繁序列模式的支持率等于相应的用户的频繁序列模式中出现该频繁序列模式的转换行为序列的数量与总的转换行为序列的数量的比值。从而对包含由于相同的最长的频繁序列模式的转化行为序列所对应的聚类样本配置相同的样本权重。并且,由于频繁序列模式越长,通常其支持率越小,所以包含的最长的频繁序列模式的长度越近的转化行为序列所对应的聚类样本配置的样本权重越相近。而所包含的最长的频繁序列模式的长度越近的转化行为序列越相似,因此能将具有越高行为共性的聚类样本聚为一类。
可选地,若转化行为序列中不包含频繁序列模式中的任意一个,则将样本权重配置为挖掘序列模式时设定的最小支持率,或者配置为该转化行为序列在该聚类样本对应的用户的各个转化行为序列中的支持率。
需要说明的是,若一个用户对应的转换行为序列与该用户对应的其他转化行为序列所共有的行为序列都不满足设定的支持度阈值时,则该转化行为序列中不包含频繁序列模式中的任意一个。
由于,挖掘的频繁序列模式都是大于或等于设定的支持度阈值,因此都大于设定的最小支持率。因此,不包含频繁序列模式中的任意一个时,配置的样本权重,不小于不包含频繁序列模式时配置的样本权重。而该转化行为序列在该聚类样本对应的用户的各个转化行为序列中的支持率,即为用户的各个转化行为序列中包含该转换行为序列的转化行为序列数量,与用户的各个转化行为序列的总量的比值,显然该比值通常比最小支持率还小,因此能满足不大于匹配时配置的样本权重的要求。
还需要说明的是,上述仅是其中一种可选的配置聚类样本的样本权重的方式,可以采用其他的配置方式,例如在匹配时配置都统一配置同样的第一预设样本权重,或者根据匹配的频繁序列模式的数量配置样本权重。同理,在不匹配时,也可以都统一配置同样的第一预设权重,并且第一预设权重大于第二预设样本权重。
S105、针对每个聚类样本,利用聚类样本的样本权重对聚类样本的组合特征向量进行加权,得到聚类样本的加权组合特征向量。
需要说明的是,步骤S101~步骤S102为构建聚类样本的组合特征向量的步骤,而步骤S103~步骤S104为获取聚类样本的样本权重的步骤,可见两者是相互独立的,可以分别执行。因此步骤S103~步骤S104,并不仅限于在步骤S105后执行。
基于上述实施例提供的聚类样本的加权组合特征向量,本申请另一实施例提供的了一种产品的推荐方法,请参见图3,该方法包括如下步骤:
S401、获取目标产品的产品特征和用户的用户特征、用户行为序列,该用户针对目标产品产生用户行为序列指代的用户行为。
需要说明的是,由于新产品更需求及时的推荐给用户,因此本申请实施例中,目标产品主要指的还未被该用户转化的产品,即可以理解为目标产品可以是一个新的产品。同样,获取的用户行为序列可以为该用户针对该产品产生的未包含转化行为的行为序列。可选地,若用户产生的用户行为序列中说明了该用户接触到了该目标产品,例如包括了用户浏览了目标产品的购买页面等行为时,则可以确定该行为序列是针对目标产品产生的。
S402、基于用户行为序列与确定出的各个目标序列模式的匹配结果,配置得到用户和目标产品的组合样本的样本权重。
其中,匹配结果说明用户行为序列与目标序列模式相匹配时,所述组合样本的样本权重较高。需要说明的是,同上述实施例一样,当用户行为序列中包含有某个目标序列模式,则说明用户行为序列与该目标序列模式相匹配,此时所配置的样本权重大于用户行为序列不与任意一个目标序列模式匹配时配置的样本权重。
需要说明的是,组合样本的样本权重配置方法需要与聚类样本的样本权重的配置方法相同。因此,同样可选地,若匹配结果说明用户行为序列中包含有目标序列模式,则将用户行为序列中包含的最长的目标序列模式的支持率,配置为组合样本权重。例如,各个目标序列模式为:a、ab、abe、abeh,而用户行为序列为:abde,则与用户行为序列匹配的目标序列模式包括:a、ab、abe,而用户行为序列中包含的最长的目标序列模式为abe,若abe的支持率为0.6,则将组合样本的样本权重配置为0.6。若匹配结果说明用户行为序列中不包含有任意一个目标序列模式,则并将组合样本权重配置为挖掘序列模式时设置的最小支持率,或配置为用户行为序列在用户对应的各个所述转化行为序列中的支持率。根据的配置方法,可参考上述实施例中的步骤S104,此处不再赘述。
目标序列模式为对该用户转化多个产品时产生的用户行为序列进行序列模式挖掘,得到的频繁序列模式。具体的,可以从预设挖掘得到的多个用户的频繁序列模式中查找出,该用户的各个频繁序列模式,即从上述实施例所挖掘得到的各个用户的频繁序列模式中,查找出该用户的各个频繁序列模式并将用户的各个频繁序列模式确定为目标序列模式,从而不需要再额外针对该用户进行序列模式挖掘。当在预先挖掘的各个用户的频繁序列模式中不包含该用户的频繁序列时,再对该用户转化到多个产品时产生的行为序列进行序列模式挖掘,得到用户的频繁序列模式,并将用户的频繁序列模式确定为所述目标序列模式。
其中,对该用户转化到多个产品时产生的行为序列进行序列模式挖掘,得到用户的频繁序列模式的方式与聚类样本的加权组合特征向量构建的过程中进行的序列模式挖掘的方式相同,因此对该用户转化到多个产品时产生的行为序列进行序列模式挖掘,得到用户的频繁序列模式为:分别获取该用户转化到各个产品时产生的行为序列,并将各个行为序列组成行为序列集;将行为序列集中的每一个支持度大于或等于支持度阈值的行为编码,均确定为1级序列模式,并将序列级别N设定为2;获得每一个N-1级序列模式对应的投影行为序列集;将每一个在对应的投影行为序列集中的支持度大于或等于支持度阈值的行为编码和投影行为序列集对应的N-1级序列模式组合为N级序列模式,并将N递增1后返回执行获得每一个N-1级序列模式对应的投影行为序列集,直至不存在在对应的投影行为序列集中的支持度大于或等于支持度阈值的行为编码为止;获得的每一级序列模式确定为该用户的频繁序列模式。更具体的序列挖掘过程,可相应地参考上述实施例中的步骤S301~步骤S305,此处不再赘述。
还需要说明的是,可以每间隔一段时间则重新对各个用户的新的转化行为序列进行序列模式进行挖掘,从而不断更新用户的频繁序列模式。
S403、利用组合样本的样本权重,对基于用户特征和所述产品特征的组合特征构建的组合特征向量进行加权,得到组合特征向量的加权组合特征向量。
具体的,向利用获取的该用户的用户特征和目标产品的产品特征构建组合特征向量,则将组合特征向量与组合样本的样本权重相乘,得到组合特征向量的加权组合特征向量。
请参见图5,构建用户特征和产品特征的组合特征组合特征向量的构建方法,具体包括如下步骤:
S501、对用户的用户特征以及目标产品的产品特征进行多项预处理。
其中,预处理包括过滤处理、填充处理以及衍生处理。
需要说明的是,进行过滤时过滤的特征需要与对聚类样本的特征进行过滤时,过滤的特征相同,同样填充处理以及衍生处理的处理方式以及对象也需要与对聚类样本的特征进行预处理时相同。步骤S501的具体实施方式,可相应地参考上述方法实施例中的步骤S201,此处不再赘述。
S502、将进行预处理后的该用户的用户特征与目标产品的产品特征进行拼接组合,得到用户特征和产品特征的组合特征。
具体的,可以是在用户特征后直接拼接产品特征,从而得到用户特征和产品特征的组合特征。
S503、对组合特征进行特征处理,得到组合特征的组合特征向量。
需要说明的是,对组合样本的组合特征进行特征处理的方式与对聚类样本的组合特征进行特征处理的方法相同,所以可相应地参考上述实施例中的步骤S203,此处不再赘述。
S404、利用组合特征向量的加权组合特征向量,计算得到组合样本所属的类簇。
其中,通过多个上述实施例中构建的聚类样本的加权组合特征向量进行聚类得到多个类簇。每个聚类样本的加权组合特征向量由聚类样本的组合特征向量与聚类样本的样本权重加权得到。一个聚类样本对应一个用户以及该用户转化的一个产品。
可选地,可以直接利用组合特征向量的加权组合特征向量以及多个聚类样本的加权组合特征向量共同进行聚类,从而得到多个类簇,并从多个类簇筛选出组合样本所属的类簇。
或者,请参见图6,通过以下方式利用组合特征向量的加权组合特征向量,计算得到组合样本所属的类簇,该方法具体包括:
S601、利用多个聚类样本的加权组合特征向量进行聚类,得到多个类簇。
可选地,可以采用K-means聚类算法进行聚类,当然也可以采用其他的聚类算法,例如EM算法等。
对于,采用K-means聚类算法进行聚类,在当准则函数收敛时结束聚类。其中,准则函数的公式为
Figure BDA0002545515700000191
其中,J为凝聚度,用来衡量聚类效果,k为类簇的总数目,
Figure BDA0002545515700000201
是类簇i中第j个样本;
Figure BDA0002545515700000202
为类簇i的中心向量,其计算公式为:
Figure BDA0002545515700000203
mi为类簇i中的样本的总数,可见现有技术在聚类过程中对于各个样本是同等对待。
Figure BDA0002545515700000204
为样本
Figure BDA0002545515700000205
与类簇i的中心向量
Figure BDA0002545515700000206
的相似度。对于相似度可以采用向量夹角的余弦进行计算。
需要说明的是,本申请实施例中,是考虑了样本权重进行聚类,此时聚类的准则函数计算公式同样为:
Figure BDA0002545515700000207
但是,公式中的
Figure BDA0002545515700000208
为聚类样本加权后的类簇i的中心向量,因此其计算公式为:
Figure BDA0002545515700000209
其中,wj为聚类样本j的权重,不再是乘以
Figure BDA00025455157000002010
由于。其他参数的含义与上述的第一个准则函数的公式中的各个参数的含义相同,因此不再赘述。
S602、利用组合特征向量的加权组合特征向量,计算得到组合样本与每个类簇的聚类中心的距离。
可选地,可以采用向量夹角的余弦进行计算组合特征向量的加权组合特征向量与每个类簇的聚类中心的向量的距离。
S603、将与组合样本的距离最短的聚类中心对应的所述类簇,确定为组合样本所属的类簇。
S405、将目标产品推荐给组合样本所属的类簇中的聚类样本对应的用户。
由于,样本权重的影响,使得聚类过程中更加着重考虑了用户的行为共性。并且,由于组合特征向量利用产品特征以及用户特征共同构建得到,所以聚类过程也充分还考虑到了产品以及用户之间的相关性。因此所以将目标产品推荐给组合样本所属的类簇中的聚类样本对应的用户,可以准确地将目标产品推荐给最有可能转化该产品的用户,从而可以有效地提高目标产品的转换率。
可选地,在计算得到组合样本所属的类簇之后,在执行步骤S405之前,还可以进一步包括:
计算组合样本所属的类簇中的每个聚类样本对应的用户的转化率占比。
需要说明的是,用户的转化率占比越高说明,用户针对产品产生行为序列后,并最终购买产品的比率较高,因此若将目标产品推荐给该用户,该用户最有可能购买该产品,因此步骤S405的具体实施方式为:将目标产品推荐给转化率占比最高的用户。
也就是说,不是将目标产品推荐给组合样本所属的类簇中的每个聚类样本对应的用户。为了能保证将目标产品推荐给其他用户,则可以分别针对该目标产品构建多个的组合样本,即分别针对将目标产品与针对目标产品产生用户行为序列的各个用户,分别执行本申请提供的方法,从而实现将目标产品推荐个每次确定出的转化率占比最高的用户。
本申请另一实施例提供了一种产品的推荐装置,参见图7,该装置包括:
第一获取单元701,用于获取目标产品的产品特征和用户的用户特征、用户行为序列。
其中,用户针对目标产品产生用户行为序列指代的用户行为。
配置单元702,用于基于用户行为序列与确定出的各个目标序列模式的匹配结果,配置得到用户和目标产品的组合样本的样本权重。
其中,匹配结果说明用户行为序列与目标序列模式相匹配时,组合样本的样本权重较高;目标序列模式为对用户转化多个产品时产生的用户行为序列进行序列模式挖掘,得到的频繁序列模式。
加权单元703,用于利用组合样本的样本权重,对基于用户特征和产品特征的组合特征构建的组合特征向量进行加权,得到组合特征向量的加权组合特征向量。
第一计算单元704,用于利用组合特征向量的加权组合特征向量,计算得到组合样本所属的类簇。
其中,该类簇通过多个聚类样本的加权组合特征向量进行聚类得到,每个聚类样本的加权组合特征向量由聚类样本的组合特征向量与聚类样本的样本权重加权得到。一个聚类样本对应一个用户以及用户转化的一个产品。
推荐单元705,用于将目标产品推荐给组合样本所属类簇中的聚类样本对应的用户。
可选地,在本申请另一实施提供的产品的推荐装置中,第一计算单元704,包括:第一聚类单元、距离计算单元以及确定单元。
第一聚类单元,用于利用多个聚类样本的加权组合特征向量进行聚类,得到多个类簇。
距离计算单元,用于利用组合特征向量的加权组合特征向量,计算得到组合样本与每个类簇的聚类中心的距离。
确定单元将与组合样本的距离最短的聚类中心对应的类簇,确定为组合样本所属的类簇;
可选地,在本申请另一实施提供的产品的推荐装置中,第一计算单元704,包括:第一计算子单元,用于利用组合特征向量的加权组合特征向量以及多个聚类样本的加权组合特征向量共同进行聚类,得到多个类簇,并从多个类簇筛选出组合样本所属的类簇。
可选地,在本申请另一实施提供的产品的推荐装置中,还包括:
第二计算单元,用于计算组合样本所属的类簇中的每个聚类样本对应的用户的转化率占比。
其中,在本申请实施例中推荐单元执行将目标产品推荐给组合样本所属的类簇中的聚类样本对应的用户时,用于:将目标产品推荐给转化率占比最高的用户。
可选地,在本申请另一实施提供的产品的推荐装置中,还包括特征向量构建单元。请参见图8,特征向量构建单元,包括如下单元:
预处理单元801,用于对用户的用户特征以及目标产品的产品特征进行多项预处理。其中,预处理包括过滤处理、填充处理以及衍生处理。
组合单元802,用于将进行预处理后的该用户的用户特征与目标产品的产品特征进行拼接组合,得到用户特征和产品特征的组合特征。
特征处理单元803,用于对组合特征进行特征处理,得到组合特征的组合特征向量。
可选地,在本申请另一实施提供的产品的推荐装置中,配置单元702,在匹配结果说明用户行为序列中包含有目标序列模式时,用于将用户行为序列中包含的最长的目标序列模式的支持率,配置为组合样本权重;在匹配结果说明用户行为序列中不包含有任意一个目标序列模式时,用于将组合样本权重配置为挖掘序列模式时设置的最小支持率,或配置为用户行为序列在用户对应的各个转化行为序列中的支持率。
可选地,在本申请另一实施提供的产品的推荐装置中,还可以进一步包括:目标序列模式确定单元。
其中,目标序列模式确定单元,可以包括:查找单元,从预先挖掘得到的多个用户的频繁序列模式中,查找出用户的各个频繁序列模式,并将用户的各个频繁序列模式确定为目标序列模式。
或者,目标序列模式确定单元也可以是包括:挖掘单元,用于对用户转化到多个产品时产生的行为序列进行序列模式挖掘,得到用户的频繁序列模式,并将用户的频繁序列模式确定为目标序列模式。
可选地,在本申请另一实施提供的产品的推荐装置中,请参见图9,挖掘单元包括:
第二获取单元901,用于分别获取用户转化到各个产品时产生的行为序列,并将各个行为序列组成行为序列集。其中,每个行为序列由多个行为编码;一个行为编码指代一种用户行为。
一级序列模式挖掘单元902,用于将行为序列集中的每一个支持度大于或等于支持度阈值的行为编码,均确定为1级序列模式,并将序列级别N设定为2。
第三获取单元903,用于获得每一个N-1级序列模式对应的投影行为序列集。
其中,N-1级序列模式对应的投影行为序列集,包括从行为序列集中的每个行为序列中取得的N-1级的后缀。
序列模式挖掘单元904,用于将每一个在对应的投影行为序列集中的支持度大于或等于支持度阈值的行为编码和投影行为序列集对应的N-1级序列模式组合为N级序列模式,并将N递增1后返回执行获得每一个N-1级序列模式对应的投影行为序列集,直至不存在在对应的投影行为序列集中的支持度大于或等于支持度阈值的行为编码为止。
序列模式确定单元905,用于将获得的每一级序列模式确定为用户的频繁序列模式。
需要说明的是,上述的各个实施例中所提供的产品的推荐装置中的各个单元的具体工作过程可相应地参考上述方法实施例中的步骤的具体实施过程,此处不再赘述。
本申请另一实施例提供了一种计算机存储介质,用于存储计算机程序,计算机程序被执行时,用于实现如上述任意一个实施例提供的产品的推荐方法。
本申请实施例还提供一种电子设备,如图10所示,该电子设备包括存储器1001和处理器1002。
其中,存储器1001用于存储计算机程序;
处理器1002用于执行上述计算机程序,具体用于实现本申请任一实施例所提供的产品的推荐方法。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种产品的推荐方法,其特征在于,包括:
获取目标产品的产品特征和用户的用户特征、用户行为序列;其中,所述用户针对所述目标产品产生所述用户行为序列指代的用户行为;
基于所述用户行为序列与确定出的各个目标序列模式的匹配结果,配置得到所述用户和所述目标产品的组合样本的样本权重;其中,所述匹配结果说明所述用户行为序列与所述目标序列模式相匹配时,所述组合样本的样本权重较高;所述目标序列模式为对所述用户转化多个产品时产生的用户行为序列进行序列模式挖掘,得到的频繁序列模式;
利用所述组合样本的样本权重,对基于所述用户特征和所述产品特征的组合特征构建的组合特征向量进行加权,得到所述组合特征向量的加权组合特征向量;
利用所述组合特征向量的加权组合特征向量,计算得到所述组合样本所属的类簇;其中,所述类簇通过多个聚类样本的加权组合特征向量进行聚类得到,每个所述聚类样本的加权组合特征向量由所述聚类样本的组合特征向量与所述聚类样本的样本权重加权得到;一个所述聚类样本对应一个用户以及所述用户转化的一个产品;
将所述目标产品推荐给所述组合样本所属的类簇中的所述聚类样本对应的用户。
2.根据权利要求1所述的方法,其特征在于,所述利用所述组合特征向量的加权组合特征向量,计算得到所述组合样本所属的类簇,包括:
利用多个所述聚类样本的加权组合特征向量进行聚类,得到多个类簇;
利用所述组合特征向量的加权组合特征向量,计算得到所述组合样本与每个所述类簇的聚类中心的距离;
将与所述组合样本的距离最短的所述聚类中心对应的所述类簇,确定为所述组合样本所属的类簇;
或者,利用所述组合特征向量的加权组合特征向量以及多个所述聚类样本的加权组合特征向量共同进行聚类,得到多个类簇,并从多个类簇筛选出所述组合样本所属的类簇。
3.根据权利要求1所述的方法,其特征在于,所述利用所述组合特征向量的加权组合特征向量,计算得到所述组合样本所属的类簇之后,还包括:
计算所述组合样本所属的所述类簇中的每个所述聚类样本对应的用户的转化率占比;
其中,所述将所述目标产品推荐给所述组合样本所属的类簇中的所述聚类样本对应的用户,包括:
将所述目标产品推荐给转化率占比最高的所述用户。
4.根据权利要求1所述的方法,其特征在于,所述组合特征向量的构建方法,包括:
对所述用户的用户特征以及所述目标产品的产品特征进行多项预处理;其中,所述预处理包括过滤处理、填充处理以及衍生处理;
将进行预处理后的所述用户的用户特征与所述目标产品的产品特征进行拼接组合,得到所述用户特征和所述产品特征的组合特征;
对所述组合特征进行特征处理,得到所述组合特征的组合特征向量。
5.根据权利要求2所述的方法,其特征在于,所述基于所述用户行为序列与各个目标序列模式的匹配结果,配置得到所述用户和所述目标产品的组合样本的样本权重,包括:
若所述匹配结果说明所述用户行为序列中包含有所述目标序列模式,则将所述用户行为序列中包含的最长的所述目标序列模式的支持率,配置为组合样本权重;
若所述匹配结果说明所述用户行为序列中不包含有任意一个所述目标序列模式,则将所述组合样本权重配置为挖掘序列模式时设置的最小支持率,或配置为所述用户行为序列在所述用户对应的各个所述转化行为序列中的支持率。
6.根据权利要求1所述的方法,其特征在于,所述各个目标序列模式的确定方法,包括:
从预先挖掘得到的多个用户的频繁序列模式中,查找出所述用户的各个频繁序列模式,并将所述用户的各个频繁序列模式确定为所述目标序列模式;
或者,对所述用户转化到多个产品时产生的行为序列进行序列模式挖掘,得到所述用户的频繁序列模式,并将所述用户的频繁序列模式确定为所述目标序列模式。
7.根据权利要求6所述的方法,其特征在于,所述对所述用户转化到多个所述样本产品时产生的行为序列进行序列模式挖掘,得到所述用户的频繁序列模式,包括:
分别获取所述用户转化到各个产品时产生的行为序列,并将各个所述行为序列组成行为序列集;其中,每个所述行为序列由多个行为编码;一个所述行为编码指代一种用户行为;
将所述行为序列集中的每一个支持度大于或等于支持度阈值的行为编码,均确定为1级序列模式,并将所述序列级别N设定为2;
获得每一个N-1级序列模式对应的投影行为序列集;其中,所述N-1级序列模式对应的投影行为序列集,包括从所述行为序列集中的每个所述行为序列中取得的所述N-1级的后缀;
将每一个在对应的所述投影行为序列集中的支持度大于或等于所述支持度阈值的行为编码、和所述投影行为序列集对应的N-1级序列模式组合为N级序列模式,并将N递增1后返回执行获得每一个N-1级序列模式对应的投影行为序列集,直至不存在在对应的投影行为序列集中的支持度大于或等于所述支持度阈值的行为编码为止;
将获得的每一级序列模式确定为所述用户的频繁序列模式。
8.一种产品的推荐装置,其特征在于,包括:
第一获取单元,用于获取目标产品的产品特征和用户的用户特征、用户行为序列;其中,所述用户针对所述目标产品产生所述用户行为序列指代的用户行为;
配置单元,用于基于所述用户行为序列与确定出的各个目标序列模式的匹配结果,配置得到所述用户和所述目标产品的组合样本的样本权重;其中,所述匹配结果说明所述用户行为序列与所述目标序列模式相匹配时,所述组合样本的样本权重较高;所述目标序列模式为对所述用户转化多个产品时产生的用户行为序列进行序列模式挖掘,得到的频繁序列模式;
加权单元,用于利用所述组合样本的样本权重,对基于所述用户特征和所述产品特征的组合特征构建的组合特征向量进行加权,得到所述组合特征向量的加权组合特征向量;
第一计算单元,用于利用所述组合特征向量的加权组合特征向量,计算得到所述组合样本所属的类簇;其中,所述类簇通过多个聚类样本的加权组合特征向量进行聚类得到,每个所述聚类样本的加权组合特征向量由所述聚类样本的组合特征向量与所述聚类样本的样本权重加权得到;一个所述聚类样本对应一个用户以及所述用户转化的一个产品;
推荐单元,用于将所述目标产品推荐给所述组合样本所属的类簇中的所述聚类样本对应的用户。
9.一种计算机存储介质,其特征在于,用于存储计算机程序,所述计算机程序被执行时,用于实现如权利要求1至7任意一项所述的产品的推荐方法。
10.一种电子设备,其特征在于,包括存储器和处理器;
其中,所述存储器用于存储程序;
所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如权利要求1至7任意一项所述的产品的推荐方法。
CN202010558810.4A 2020-06-18 2020-06-18 产品的推荐方法及装置、电子设备、计算机存储介质 Pending CN111708945A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010558810.4A CN111708945A (zh) 2020-06-18 2020-06-18 产品的推荐方法及装置、电子设备、计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010558810.4A CN111708945A (zh) 2020-06-18 2020-06-18 产品的推荐方法及装置、电子设备、计算机存储介质

Publications (1)

Publication Number Publication Date
CN111708945A true CN111708945A (zh) 2020-09-25

Family

ID=72541520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010558810.4A Pending CN111708945A (zh) 2020-06-18 2020-06-18 产品的推荐方法及装置、电子设备、计算机存储介质

Country Status (1)

Country Link
CN (1) CN111708945A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113496432A (zh) * 2021-07-06 2021-10-12 北京爱笔科技有限公司 待推荐实体的挖掘方法、装置、设备及存储介质
CN114820111A (zh) * 2022-04-02 2022-07-29 常州机电职业技术学院 基于大数据分析的荐酒及酒量智能控制算法及服务器

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113496432A (zh) * 2021-07-06 2021-10-12 北京爱笔科技有限公司 待推荐实体的挖掘方法、装置、设备及存储介质
CN114820111A (zh) * 2022-04-02 2022-07-29 常州机电职业技术学院 基于大数据分析的荐酒及酒量智能控制算法及服务器

Similar Documents

Publication Publication Date Title
Koohi et al. A new method to find neighbor users that improves the performance of collaborative filtering
Ning et al. A comprehensive survey of neighborhood-based recommendation methods
US10095771B1 (en) Clustering and recommending items based upon keyword analysis
Panniello et al. Incorporating context into recommender systems: an empirical comparison of context-based approaches
Choi et al. A hybrid online-product recommendation system: Combining implicit rating-based collaborative filtering and sequential pattern analysis
Choi et al. A new similarity function for selecting neighbors for each target item in collaborative filtering
US20120185481A1 (en) Method and Apparatus for Executing a Recommendation
US20100325126A1 (en) Recommendation based on low-rank approximation
US11216518B2 (en) Systems and methods of providing recommendations of content items
Hwang et al. An algorithm for movie classification and recommendation using genre correlation
Stephen et al. Measures of similarity in memory-based collaborative filtering recommender system: A comparison
CN111708945A (zh) 产品的推荐方法及装置、电子设备、计算机存储介质
Valdiviezo-Díaz et al. A hybrid approach of recommendation via extended matrix based on collaborative filtering with demographics information
KR20130033506A (ko) 아이템 추천 방법 및 장치
Choi et al. Extended collaborative filtering technique for mitigating the sparsity problem
Ryngksai et al. Recommender systems: types of filtering techniques
Edi Surya et al. Recommendation System with Content-Based Filtering in NFT Marketplace
He et al. An empirical study on user-topic rating based collaborative filtering methods
WO2017095371A1 (en) Product recommendations based on selected user and product attributes
ur Rehman et al. Frequency-based similarity measure for multimedia recommender systems
El Alami et al. Improving Neighborhood-Based Collaborative Filtering by a Heuristic Approach and an Adjusted Similarity Measure.
Premchaiswadi et al. Hybrid profiling for hybrid multicriteria recommendation based on implicit multicriteria information
US20210056437A1 (en) Systems and methods for matching users and entities
Raghavendra et al. Analysis of Prediction Accuracies for Memory Based and Model-Based Collaborative Filtering Models
Lu et al. Profile Inference from Heterogeneous Data: Fundamentals and New Trends

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination