CN110827044A - 提取用户兴趣模式的方法和装置 - Google Patents
提取用户兴趣模式的方法和装置 Download PDFInfo
- Publication number
- CN110827044A CN110827044A CN201810891298.8A CN201810891298A CN110827044A CN 110827044 A CN110827044 A CN 110827044A CN 201810891298 A CN201810891298 A CN 201810891298A CN 110827044 A CN110827044 A CN 110827044A
- Authority
- CN
- China
- Prior art keywords
- user
- category
- item
- users
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012545 processing Methods 0.000 claims abstract description 36
- 230000014759 maintenance of location Effects 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 59
- 239000013598 vector Substances 0.000 claims description 58
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 238000005065 mining Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 15
- 230000000875 corresponding effect Effects 0.000 description 11
- 101100385576 Caenorhabditis elegans ctg-1 gene Proteins 0.000 description 9
- 230000006399 behavior Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Abstract
本发明公开了提取用户兴趣模式的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:基于物品的分类信息,将用户的点击流数据分别处理成用户的物品类别访问序列、物品类别访问频率和物品类别停留时间;根据每个用户的物品类别访问序列、物品类别访问频率和物品类别停留时间计算用户间的相似度;根据用户间的相似度对用户进行聚类;分别对每个类别的用户提取用户兴趣模式。该实施方式降低了挖掘用户兴趣不准确性,进而快速有效地基于点击流数据提取电子商务用户多个兴趣模式。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种提取用户兴趣模式的方法和装置。
背景技术
对于希望为目标市场提供个性化服务的在线零售商来说,了解用户的兴趣已经变得越来越重要。为了吸引更多的客户,电子商务公司正在不断多元化他们的产品,并增加相应的品类。大型电子商务网站通常每天有超过一百万用户登录,这些潜在客户每天都会访问成千上万的物品和品类。因此,这些电子商务公司面临着一个特殊的挑战,即如何通过有效地管理越来越多的类别和物品来发现网站用户的兴趣并促进销售。
用于衡量消费者兴趣的现有技术分为以下几种:
1、依靠顾客评级,即用户对物品的评分表示是否在某种程度上对它感兴趣,评分值大小代表了用户喜欢目标物品的程度;
2、为了衡量用户的兴趣,检查用户行为的几个特征,例如用户访问每个物品网页的次数、物品评级、购买记录,来简单地定义用户兴趣。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:物品评级是综合用户对价格、服务和物流的最终综合评分,并非只对物品本身的评分。新客户的评分不足以供参考,而经验丰富的客户可能不愿意在每次使用网站时都给予评分。这些因素使得仅仅根据评分来发现用户的真正兴趣变得更加困难。此外,根据用户的购买行为来简单地定义用户兴趣,会忽略其他重要因素,诸如在每个页面上停留的时间和访问顺序,进而导致挖掘用户兴趣不准确。
发明内容
有鉴于此,本发明实施例提供一种提取用户兴趣模式的方法和装置,能够快速有效地基于点击流数据提取电子商务用户多个兴趣模式,提取的兴趣模式可用于场景化营销,或进行物品推荐,从而促进用户消费,提升销售指标。
根据本发明实施例的一个方面,提供了一种提取用户兴趣模式的方法。
一种提取用户兴趣模式的方法,包括:基于物品的分类信息,将用户的点击流数据分别处理成用户的物品类别访问序列、物品类别访问频率和物品类别停留时间;根据每个用户的物品类别访问序列、物品类别访问频率和物品类别停留时间计算用户间的相似度;根据所述用户间的相似度对用户进行聚类;分别对每个类别的用户提取用户兴趣模式。
可选地,将用户的点击流数据处理成用户的物品类别访问序列包括:生成用户在一个会话期间的访问路径,其中,用户的访问路径是能够映射到物品分类拓扑中的;根据所述用户的访问路径生成所述用户的物品类别访问序列。
可选地,将用户的点击流数据处理成用户的物品类别访问频率包括:统计用户对某物品类别的点击次数,其中,点击次数包括对所述物品类别的访问次数以及对属于所述物品类别的物品的访问次数;根据所述点击次数得到用户对所述物品类别的访问频率,其中,访问频率被定义为点击次数与用户的物品类别访问序列的长度的比率。
可选地,将用户的点击流数据处理成用户的物品类别停留时间包括:根据用户在物品类别上的停留时间以及用户在属于所述物品类别的所有物品上的停留时间得到用户的物品类别停留时间。
可选地,根据每个用户的物品类别访问序列、物品类别访问频率和物品类别停留时间计算用户间的相似度包括:根据每个用户的物品类别访问序列、物品类别访问频率和物品类别停留时间为每个用户生成固定维度的向量表示;根据每个用户对应的固定维度的向量表示计算用户间的相似度。
可选地,根据每个用户的物品类别访问序列、物品类别访问频率和物品类别停留时间为每个用户生成固定维度的向量表示包括:根据用户的物品类别访问序列生成基于物品类别访问序列特征的用户-物品类别关联向量;根据用户的物品类别访问频率生成基于物品类别访问频率特征的用户-物品类别关联矩阵,其中,矩阵的行数是用户总数并且矩阵的列数是物品类别总数,且针对任一用户所生成的固定维度的向量为矩阵中的其中一个行向量;根据用户的物品类别停留时间生成基于物品类别停留时间特征的用户-物品类别关联矩阵,其中,矩阵的行数是用户总数并且矩阵的列数是物品类别总数,且针对任一用户所生成的固定维度的向量为矩阵中的其中一个行向量。
可选地,计算用户间的相似度包括:计算用户p和q的访问序列相似度,其中,所述访问序列相似度被定义为用户p和q的物品类别访问序列中的最长公共子序列长度除以最大序列长度,在公共子序列中,两个用户以相同的顺序访问相同的物品类别;计算用户p和q的访问频率相似度,其中,所述访问频率相似度被定义为来自基于物品类别访问频率特征的用户-物品类别关联矩阵中的分别代表用户p和q的两个行向量之间的相似度;计算用户p和q的停留时间相似度,其中,所述停留时间相似度被定义为来自基于物品类别停留时间特征的用户-物品类别关联矩阵中的分别代表用户p和q的两个行向量之间的相似度;基于上述三种相似度,计算用户p和q之间的总体相似度,其中,以总和为1的三个权重分别对上述三种相似度进行加权,并对加权后的三种相似度进行求和以得到用户p和q之间的总体相似度。
可选地,所述访问频率相似度和所述停留时间相似度均为余弦相似度。
可选地,以采用指定相似度阈值的流式聚类法对用户进行聚类。
可选地,所述流式聚类法包括如下步骤:1)将当前类别集合G初始化为空,将相似度阈值记为Th;2)依次扫描用户数据集中每一个元素,其中,所述用户数据集由用户之间的总体相似度构成;3)获取元素;4)若数据集中的元素已全部被扫描,则算法结束;否则执行5);5)计算当前元素与当前类别集合G中每个类别聚类中心的相似度,将其中最大的相似度记为d,相应的类别记为g;6)若d>Th并且G不为空,则执行7);否则执行8);7)将当前元素归类到类别g,并更新类别g的聚类中心,返回3);8)新建一个类别h,将当前元素归类到类别h,并更新类别h的聚类中心,将该类别归入G中;返回3)。
可选地,分别对每个类别的用户提取用户兴趣模式包括:计算每个类别的用户所访问的物品类别的出现频率,将出现频率满足预设阈值的物品类别集合作为所述类别的用户的用户兴趣模式。
根据本发明实施例的另一个方面,提供了一种提取用户兴趣模式的装置。
一种提取用户兴趣模式的装置,包括:处理模块,用于基于物品的分类信息,将用户的点击流数据分别处理成用户的物品类别访问序列、物品类别访问频率和物品类别停留时间;相似计算模块,用于根据每个用户的物品类别访问序列、物品类别访问频率和物品类别停留时间计算用户间的相似度;聚类模块,用于根据所述用户间的相似度对用户进行聚类;提取模块,用于分别对每个类别的用户提取用户兴趣模式。
可选地,所述处理模块还用于:生成用户在一个会话期间的访问路径,其中,用户的访问路径是能够映射到物品分类拓扑中的;根据所述用户的访问路径生成所述用户的物品类别访问序列。
可选地,所述处理模块还用于:统计用户对某物品类别的点击次数,其中,点击次数包括对所述物品类别的访问次数以及对属于所述物品类别的物品的访问次数;根据所述点击次数得到用户对所述物品类别的访问频率,其中,访问频率被定义为点击次数与用户的物品类别访问序列的长度的比率。
可选地,所述处理模块还用于:根据用户在物品类别上的停留时间以及用户在属于所述物品类别的所有物品上的停留时间得到用户的物品类别停留时间。
可选地,所述相似计算模块还用于:根据每个用户的物品类别访问序列、物品类别访问频率和物品类别停留时间为每个用户生成固定维度的向量表示;根据每个用户对应的固定维度的向量表示计算用户间的相似度。
可选地,所述相似计算模块还用于:根据用户的物品类别访问序列生成基于物品类别访问序列特征的用户-物品类别关联向量;根据用户的物品类别访问频率生成基于物品类别访问频率特征的用户-物品类别关联矩阵,其中,矩阵的行数是用户总数并且矩阵的列数是物品类别总数,且针对任一用户所生成的固定维度的向量为矩阵中的其中一个行向量;根据用户的物品类别停留时间生成基于物品类别停留时间特征的用户-物品类别关联矩阵,其中,矩阵的行数是用户总数并且矩阵的列数是物品类别总数,且针对任一用户所生成的固定维度的向量为矩阵中的其中一个行向量。
可选地,所述相似计算模块还用于:计算用户p和q的访问序列相似度,其中,所述访问序列相似度被定义为用户p和q的物品类别访问序列中的最长公共子序列长度除以最大序列长度,在公共子序列中,两个用户以相同的顺序访问相同的物品类别;计算用户p和q的访问频率相似度,其中,所述访问频率相似度被定义为来自基于物品类别访问频率特征的用户-物品类别关联矩阵中的分别代表用户p和q的两个行向量之间的相似度;计算用户p和q的停留时间相似度,其中,所述停留时间相似度被定义为来自基于物品类别停留时间特征的用户-物品类别关联矩阵中的分别代表用户p和q的两个行向量之间的相似度;基于上述三种相似度,计算用户p和q之间的总体相似度,其中,以总和为1的三个权重分别对上述三种相似度进行加权,并对加权后的三种相似度进行求和以得到用户p和q之间的总体相似度。
可选地,所述访问频率相似度和所述停留时间相似度均为余弦相似度。
可选地,以采用指定相似度阈值的流式聚类法对用户进行聚类。
可选地,所述流式聚类法包括如下步骤:1)将当前类别集合G初始化为空,将相似度阈值记为Th;2)依次扫描用户数据集中每一个元素,其中,所述用户数据集由用户之间的总体相似度构成;3)获取元素;4)若数据集中的元素已全部被扫描,则算法结束;否则执行5);5)计算当前元素与当前类别集合G中每个类别聚类中心的相似度,将其中最大的相似度记为d,相应的类别记为g;6)若d>Th并且G不为空,则执行7);否则执行8);7)将当前元素归类到类别g,并更新类别g的聚类中心,返回3);8)新建一个类别h,将当前元素归类到类别h,并更新类别h的聚类中心,将该类别归入G中;返回3)。
可选地,所述提取模块还用于:计算每个类别的用户所访问的物品类别的出现频率,将出现频率满足预设阈值的物品类别集合作为所述类别的用户的用户兴趣模式。
根据本发明实施例的又一个方面,提供了一种电子设备。
一种提取用户兴趣模式的电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现本发明实施例提供的提取用户兴趣模式的方法。
根据本发明实施例的再一个方面,提供了一种计算机可读介质。
一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例提供的提取用户兴趣模式的方法。
上述发明中的一个实施例具有如下优点或有益效果:因为采用了如下技术手段,即,将点击流数据处理成用户在不同物品类别上的访问序列、访问频率和停留时间并基于此数据计算用户间的相似度以及对用户进行聚类,所以克服了挖掘用户兴趣不准确的技术问题,进而可以快速有效地基于点击流数据提取电子商务用户多个兴趣模式,提取的兴趣模式可用于场景化营销或进行物品推荐,从而促进用户消费、提升销售指标。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的提取用户兴趣模式的方法的主要流程的示意图;
图2是本发明实施例的物品分类拓扑结构示意图;
图3是本发明实施例的流式聚类法的主要流程的示意图;
图4是根据本发明实施例的提取用户兴趣模式的装置的主要模块的示意图;
图5是本发明实施例可以应用于其中的示例性系统架构图;
图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
一般而言,用户在电商网站或手机app上的浏览行为是对他们兴趣的全面反映。具有不同兴趣的用户会访问多个不同的物品类别以及相应的各种物品,对于不同类型的用户,他们的浏览顺序和路径、页面访问频率以及在每个类别所花费的时间都差异很大。基于这些考虑,本发明提出了一种通过记录在电子商务网站上的点击流数据进行挖掘从而发现消费者兴趣模式的新方法,并进行了系统的研究。点击流数据是用户在互联网上的活动的电子记录。与用户对物品评分的方法相比,该方法利用更详细的信息可以更准确地描述用户的兴趣。
本发明的基本思想是基于电子商务用户的点击流数据来挖掘用户兴趣模式。首先基于物品的分类信息,将用户的点击流数据处理成用户在不同物品类别上的访问序列、访问频率和停留时长,并基于此数据对每个用户生成固定维度的向量表示;然后可计算用户间的相似度,再采用指定相似度阈值的流式聚类方法对用户进行聚类,认为包含用户数较多的类别中存在可能的兴趣模式;最后计算各较大用户类别中的物品类别出现频率,将出现频率高的物品类别集合作为一种用户兴趣模式,通过此方法实现提取用户兴趣模式。
首先,关于用户兴趣的度量,应满足以下假设:
每个用户访问一个网站时都有一个偏好,用户通常只访问感兴趣的产品,具有相似兴趣的用户具有相似的访问行为;
访问物品页面的频率与用户对该物品的兴趣正相关;
用户停留在物品网页上的持续时间与用户对该物品的兴趣正相关;
访问物品的顺序与用户的兴趣正相关,用户将首先选择他们最感兴趣的产品。
基于上述假设,用户的兴趣可以被定义为用户已经访问的一组物品类别。为了统一度量单位,简化计算,本发明只评估用户对物品类别的兴趣。访问顺序,访问频率和在物品页面上的停留时间被用作衡量用户兴趣的三个主要指标。
图1是根据本发明实施例的提取用户兴趣模式的方法的主要流程的示意图。如图1所示,根据本发明实施例的提取用户兴趣模式的方法主要包括步骤S101至步骤S104。
步骤S101:基于物品的分类信息,将用户的点击流数据分别处理成用户的物品类别访问序列、物品类别访问频率和物品类别停留时间。
根据本发明的一个实施例,将用户的点击流数据处理成用户的物品类别访问序列包括:
生成用户在一个会话期间的访问路径,其中,用户的访问路径是能够映射到物品分类拓扑中的;
根据用户的访问路径生成该用户的物品类别访问序列。
访问路径Pi{url1,url2,url3,……,urln}是用户useri在一个会话期间访问的网页序列,其中,i=1,2,…,n,n是自然数。用户的访问路径可以被映射到物品分类拓扑中,该物品分类拓扑示例性地参见图2。图2是本发明实施例的物品分类拓扑结构示意图。例如,访问路径P1{ctg1;item11;ctg1;item12;item21}表示user1首先访问类别ctg1,然后访问属于ctg1的item11,之后返回ctg1并访问item12,最后访问属于类别ctg2的item21。
类别访问序列:类别访问序列CtgPi{ctg1,ctg2,ctg3,...,ctgm}是在给定会话期间由useri访问的一系列类别。CtgPi的长度是m,其中m<=n,m和n是自然数。例如,根据用户的访问路径P1{ctg1;item11;ctg1;item12;item21},可生成该用户的类别访问路径为CtgP1{ctg1,ctg2}。
根据本发明的一个实施例,将用户的点击流数据处理成用户的物品类别访问频率包括:
统计用户对某物品类别的点击次数,其中,点击次数包括对物品类别的访问次数以及对属于该物品类别的物品的访问次数;
根据点击次数得到用户对该物品类别的访问频率,其中,访问频率被定义为点击次数与用户的物品类别访问序列的长度的比率。
其中,i、j、k、l为自然数。count(user,ctg)表示用户user在会话期间访问物品类别ctg的访问次数,属于ctgj,且l<=len(Pi),也就是说l小于等于Pi的长度。例如,根据user1的访问路径可以得到且
根据本发明的另一个实施例,将用户的点击流数据处理成用户的物品类别停留时间包括:根据用户在物品类别上的停留时间以及用户在属于所述物品类别的所有物品上的停留时间得到用户的物品类别停留时间。其中,用户可以反复访问某个物品类别的页面和属于该物品类别的物品的页面。表示用户在会话中访问物品类别ctgj的总时间,访问每个物品项目的时间将累积到其父节点(相应的类别)。用户可以反复访问某个类别或物品页面。因此,每次访问同一类别的时间将加在一起(见下公式)。
其中,time(user,ctg,s)表示用户user在会话中在物品类别ctg上的停留时间,属于ctgj且l<=len(Pi),而time(user,item,t)表示用户user在会话中在某一物品上的停留时间。
步骤S102:根据每个用户的物品类别访问序列、物品类别访问频率和物品类别停留时间计算用户间的相似度。
根据本发明的一个实施例,步骤S102在执行时具体可以包括:
步骤S1021:根据每个用户的物品类别访问序列、物品类别访问频率和物品类别停留时间为每个用户生成固定维度的向量表示;
步骤S1022:根据每个用户对应的固定维度的向量表示计算用户间的相似度。
其中,步骤S1021具体可以包括:
根据用户的物品类别访问序列生成基于物品类别访问序列特征的用户-物品类别关联向量;
根据用户的物品类别访问频率生成基于物品类别访问频率特征的用户-物品类别关联矩阵,其中,矩阵的行数是用户总数并且矩阵的列数是物品类别总数,且针对任一用户所生成的固定维度的向量为矩阵中的其中一个行向量;
根据用户的物品类别停留时间生成基于物品类别停留时间特征的用户-物品类别关联矩阵,其中,矩阵的行数是用户总数并且矩阵的列数是物品类别总数,且针对任一用户所生成的固定维度的向量为矩阵中的其中一个行向量。
根据之前提到的假设,具有相似兴趣的用户显示出类似的访问行为。给定用户访问行为的指标,即类别访问路径、访问频率和停留时间,则可以对用户行为的相似性进行定量评估。基于用户间相似度可以进一步地对用户进行聚类。
在本发明的实施例中,生成的向量表示是高维的,有三个不同的指标:物品类别访问序列、物品类别访问频率和物品类别停留时间。在计算用户之间的相似度时,首先,定义一个序列相似度来评估两个用户的访问序列的相似性;然后,利用余弦函数从访问频率和停留时间的角度评估两个用户间的相似度;最后,将这三个相似度整合为总体相似度。
访问序列相似度:两个用户p和q之间的访问序列相似度simpq(path)被定义为最长公共子序列长度除以p和q中的最大序列的长度。在这个共同的序列中,两个用户以相同的顺序访问相同的类别。如果两个用户之间存在多条公共子序列,则将最长公共子序列用于序列相似度的计算。访问序列相似度的计算公式如下:
其中,0≤simpq(path)≤1。
sinpq(freq)=COS(Rfreq[p,·],Rfreq[q,·]);
其中,0≤simpq(freq)≤1。
停留时间相似度:类似地,两个用户p和q之间的停留时间相似度定义如下:
simpq(time)=cos(Rtime[p,·],Rtime[q,·]);
其中,0≤simpq(time)≤1。
基于上述三种相似度,两个用户p和q之间的总体相似度定义如下:
simpq=α×simpq(seq)+β×simpq(freq)+γ×simpq(time);
其中,α,β,γ用于调整访问序列、访问频率和停留时间三个相似度指标的权重。另外,α+β+γ=1,0≤simpq≤1。
步骤S103:根据用户间的相似度对用户进行聚类。
根据本发明的实施例,采用指定相似度阈值的流式聚类法对用户进行聚类。
对于一个数据集合,同一个类别中数据之间的距离,即类内距离,较小(相似度较大);不同类别的数据之间距离,即类间距离,较大(相似度较小)。故考虑设定一个距离阈值Th,若两个数据点之间的距离小于该阈值,则将这两个数据点归为一类。公式表示如下:
即对于类别G中的每一个数据点Sj,若Si与Sj之间的距离都小于一定的距离阈值Th,则将Si归为类别G中的数据点。
类似地,给定相似度阈值Th,便可对用户数据集进行聚类,使得数据点之间的相似度大于相似度阈值的元素归为一类。由于算法只需扫描一遍数据便可完成聚类,故属于流式聚类。
图3是本发明实施例的流式聚类法的主要流程的示意图。参见图3,算法基本步骤如下:
(1)将当前类别集合G初始化为空,将相似度阈值记为Th;
(2)依次扫描用户数据集中每一个元素,其中,用户数据集由用户之间的总体相似度构成;
(3)获取元素;
(4)若数据集合中的元素已扫描结束,则算法结束;否则执行(5);
(5)计算当前元素与当前类别集合G中每个类别聚类中心的相似度,将其中最大的相似度记为d,相应的类别记为g;
(6)若d>Th并且G不为空,则执行(7);否则执行(8);
(7)将当前元素归类到类别g,并更新类别g的聚类中心;返回(3);
(8)新建一个类别h,将当前元素归类到类别h,并更新类别h的聚类中心,将该类别归入G中;返回(3)。
设输入数据集合的数据量为n,该算法的时间复杂度为O(nlogn),其中,n为记录数,logn为通常情况下聚类之后的类别个数。该聚类算法无需事先给定聚类个数,也无需人为确定初始聚类中心,基于该算法的聚类结果使得大的类别包含较多的用户数,从而可进一步从中提取共性。
步骤S104:分别对每个类别的用户提取用户兴趣模式。
根据本发明的技术方案,计算每个类别的用户所访问的物品类别的出现频率,将出现频率满足预设阈值的物品类别集合作为该类别的用户的用户兴趣模式。
通过使用聚类方法,可生成多个用户类别。其中包含用户较多的类别中会存在可能的兴趣模式,再计算各较大用户类别中的物品类别出现频率,将出现频率高的物品类别集合作为一种用户兴趣模式,对于多个较大的用户类别可提取多种兴趣模式。包含用户较少的类别中在提取用户兴趣模式时,可能由于用户所访问的物品类别较少,或者物品类别的出现频率较低等多种原因,而无法提取用户兴趣模式。
在一个实施例中,假设测试数据集中的10000个用户被分为734个独立的用户类别。在这些用户类别中,包含的用户数排名前三的用户类别分别包含300多个成员。每个类别中涉及的物品类别也包括多个,且每个物品类别都对应有该组用户访问该类别的百分比,且可以根据访问人数按降序排列。
假设某个包含了402个用户的最大用户类别,其中用户访问最多的物品类别分别是连衣裙、T恤、衬衫等等,故而这些物品类别即成为该用户类别的用户兴趣模式。又如,假设某个包含了300个用户的用户类别,其中用户访问最多的物品类别分别是电子产品和电脑,故而这些物品类别即成为该用户类别的用户兴趣模式。
在实际使用中,商业网站可以根据用户兴趣模式重组类别和项目。例如,除了传统的类别导航栏之外,针对不同的用户群(如女性、男性和儿童)构建多个分组,在每个分组中,最常见的类别经常被显示和更新。通过参考本发明中的结果,可以根据各种用户兴趣模式(如“时尚女性”、“3C达人”和“家庭主妇最爱”)更精确地分割用户群体,帮助改善页面导航结构,并更准确地触达目标用户。
在提取用户兴趣模式中,根据现有技术,从借助聚类法生成的多个用户类别中计算出各较大用户类别中的物品类别出现频率,将出现频率高的物品类别集合作为一种用户兴趣模式,对于多个较大的用户类别可提取多种兴趣模式。总之,在提取用户兴趣模式这一步骤中,可以应用目前现有技术中的各种方法,并不局限与本发明实施例中所介绍的内容。
根据本发明实施例的另一个方面,提供了一种提取用户兴趣模式的装置。
图4是根据本发明实施例的提取用户兴趣模式的装置的主要模块的示意图。如图4所示,根据本发明实施例的提取用户兴趣模式的装置400,主要包括:处理模块401、相似计算模块402、聚类模块403和提取模块404。
处理模块401用于基于物品的分类信息,将用户的点击流数据分别处理成用户的物品类别访问序列、物品类别访问频率和物品类别停留时间;
相似计算模块402用于根据每个用户的物品类别访问序列、物品类别访问频率和物品类别停留时间计算用户间的相似度;
聚类模块403用于根据用户间的相似度对用户进行聚类;
提取模块404用于分别对每个类别的用户提取用户兴趣模式。
根据本发明的一个实施例,处理模块401还可以用于:
生成用户在一个会话期间的访问路径,其中,用户的访问路径是能够映射到物品分类拓扑中的;
根据所述用户的访问路径生成所述用户的物品类别访问序列。
根据本发明的另一个实施例,处理模块401还可以用于:
统计用户对某物品类别的点击次数,其中,点击次数包括对所述物品类别的访问次数以及对属于所述物品类别的物品的访问次数;
根据所述点击次数得到用户对所述物品类别的访问频率,其中,访问频率被定义为点击次数与用户的物品类别访问序列的长度的比率。
根据本发明的又一个实施例,处理模块401还可以用于:
根据用户在物品类别上的停留时间以及用户在属于所述物品类别的所有物品上的停留时间得到用户的物品类别停留时间。
根据本发明的实施例,相似计算模块402还可以用于:
根据每个用户的物品类别访问序列、物品类别访问频率和物品类别停留时间为每个用户生成固定维度的向量表示;
根据每个用户对应的固定维度的向量表示计算用户间的相似度。
根据本发明的一个实施例,相似计算模块402还可以用于:
根据用户的物品类别访问序列生成基于物品类别访问序列特征的用户-物品类别关联向量;
根据用户的物品类别访问频率生成基于物品类别访问频率特征的用户-物品类别关联矩阵,其中,矩阵的行数是用户总数并且矩阵的列数是物品类别总数,且针对任一用户所生成的固定维度的向量为矩阵中的其中一个行向量;
根据用户的物品类别停留时间生成基于物品类别停留时间特征的用户-物品类别关联矩阵,其中,矩阵的行数是用户总数并且矩阵的列数是物品类别总数,且针对任一用户所生成的固定维度的向量为矩阵中的其中一个行向量。
进一步地,根据本发明的一个实施例,相似计算模块402还可以用于:
计算用户p和q的访问序列相似度,其中,所述访问序列相似度被定义为用户p和q的物品类别访问序列中的最长公共子序列长度除以最大序列长度,在公共子序列中,两个用户以相同的顺序访问相同的物品类别;
计算用户p和q的访问频率相似度,其中,所述访问频率相似度被定义为来自基于物品类别访问频率特征的用户-物品类别关联矩阵中的分别代表用户p和q的两个行向量之间的相似度;
计算用户p和q的停留时间相似度,其中,所述停留时间相似度被定义为来自基于物品类别停留时间特征的用户-物品类别关联矩阵中的分别代表用户p和q的两个行向量之间的相似度;
基于上述三种相似度,计算用户p和q之间的总体相似度,其中,以总和为1的三个权重分别对上述三种相似度进行加权,并对加权后的三种相似度进行求和以得到用户p和q之间的总体相似度。
在本发明的实施例中,访问频率相似度和停留时间相似度均为余弦相似度。
根据本发明的一个实施例,以采用指定相似度阈值的流式聚类法对用户进行聚类。
具体地,流式聚类法主要包括如下步骤:
1)将当前类别集合G初始化为空,将相似度阈值记为Th;
2)依次扫描用户数据集中每一个元素,其中,所述用户数据集由用户之间的总体相似度构成;
3)获取元素;
4)若数据集中的元素已全部被扫描,则算法结束;否则执行5);
5)计算当前元素与当前类别集合G中每个类别聚类中心的相似度,将其中最大的相似度记为d,相应的类别记为g;
6)若d>Th并且G不为空,则执行7);否则执行8);
7)将当前元素归类到类别g,并更新类别g的聚类中心,返回3);
8)新建一个类别h,将当前元素归类到类别h,并更新类别h的聚类中心,将该类别归入G中;返回3)。
根据本发明的再一个实施例,提取模块404还可以用于:
计算每个类别的用户所访问的物品类别的出现频率,将出现频率满足预设阈值的物品类别集合作为该类别的用户的用户兴趣模式。
根据本发明实施例的技术方案,因为采用了如下技术手段,即,将点击流数据处理成用户在不同物品类别上的访问序列、访问频率和停留时间并基于此数据计算用户间的相似度以及对用户进行聚类,所以克服了挖掘用户兴趣不准确的技术问题,进而可以快速有效地基于点击流数据提取电子商务用户多个兴趣模式,提取的兴趣模式可用于场景化营销或进行物品推荐,从而促进用户消费、提升销售指标。
图5示出了可以应用本发明实施例的提取用户兴趣模式的方法或提取用户兴趣模式的装置的示例性系统架构500。
如图5所示,系统架构500可以包括终端设备501、502、503,网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备501、502、503通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器505可以是提供各种服务的服务器,例如对用户利用终端设备501、502、503所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果例如目标推送信息、产品信息反馈给终端设备。
需要说明的是,本发明实施例所提供的提取用户兴趣模式的方法一般由服务器505执行,相应地,提取用户兴趣模式的装置一般设置于服务器505中。
应该理解,图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图6,其示出了适于用来实现本申请实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本发明公开的实施例,上文参考流程图(图1)描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行所述流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图或框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括处理模块、相似计算模块、聚类模块以及提取模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。例如:处理模块还可以被描述为“用于基于物品的分类信息,将用户的点击流数据分别处理成用户的物品类别访问序列、物品类别访问频率和物品类别停留时间的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:基于物品的分类信息,将用户的点击流数据分别处理成用户的物品类别访问序列、物品类别访问频率和物品类别停留时间;根据每个用户的物品类别访问序列、物品类别访问频率和物品类别停留时间计算用户间的相似度;根据所述用户间的相似度对用户进行聚类;分别对每个类别的用户提取用户兴趣模式。
根据本发明实施例的技术方案,因为采用了如下技术手段,即,将点击流数据处理成用户在不同物品类别上的访问序列、访问频率和停留时间并基于此数据计算用户间的相似度以及对用户进行聚类,所以克服了挖掘用户兴趣不准确的技术问题,进而可以快速有效地基于点击流数据提取电子商务用户多个兴趣模式,提取的兴趣模式可用于场景化营销或进行物品推荐,从而促进用户消费、提升销售指标。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (24)
1.一种提取用户兴趣模式的方法,其特征在于,包括:
基于物品的分类信息,将用户的点击流数据分别处理成用户的物品类别访问序列、物品类别访问频率和物品类别停留时间;
根据每个用户的物品类别访问序列、物品类别访问频率和物品类别停留时间计算用户间的相似度;
根据所述用户间的相似度对用户进行聚类;
分别对每个类别的用户提取用户兴趣模式。
2.根据权利要求1所述的方法,其特征在于,将用户的点击流数据处理成用户的物品类别访问序列包括:
生成用户在一个会话期间的访问路径,其中,用户的访问路径是能够映射到物品分类拓扑中的;
根据所述用户的访问路径生成所述用户的物品类别访问序列。
3.根据权利要求1所述的方法,其特征在于,将用户的点击流数据处理成用户的物品类别访问频率包括:
统计用户对某物品类别的点击次数,其中,点击次数包括对所述物品类别的访问次数以及对属于所述物品类别的物品的访问次数;
根据所述点击次数得到用户对所述物品类别的访问频率,其中,访问频率被定义为点击次数与用户的物品类别访问序列的长度的比率。
4.根据权利要求1所述的方法,其特征在于,将用户的点击流数据处理成用户的物品类别停留时间包括:
根据用户在物品类别上的停留时间以及用户在属于所述物品类别的所有物品上的停留时间得到用户的物品类别停留时间。
5.根据权利要求1所述的方法,其特征在于,根据每个用户的物品类别访问序列、物品类别访问频率和物品类别停留时间计算用户间的相似度包括:
根据每个用户的物品类别访问序列、物品类别访问频率和物品类别停留时间为每个用户生成固定维度的向量表示;
根据每个用户对应的固定维度的向量表示计算用户间的相似度。
6.根据权利要求5所述的方法,其特征在于,根据每个用户的物品类别访问序列、物品类别访问频率和物品类别停留时间为每个用户生成固定维度的向量表示包括:
根据用户的物品类别访问序列生成基于物品类别访问序列特征的用户-物品类别关联向量;
根据用户的物品类别访问频率生成基于物品类别访问频率特征的用户-物品类别关联矩阵,其中,矩阵的行数是用户总数并且矩阵的列数是物品类别总数,且针对任一用户所生成的固定维度的向量为矩阵中的其中一个行向量;
根据用户的物品类别停留时间生成基于物品类别停留时间特征的用户-物品类别关联矩阵,其中,矩阵的行数是用户总数并且矩阵的列数是物品类别总数,且针对任一用户所生成的固定维度的向量为矩阵中的其中一个行向量。
7.根据权利要求6所述的方法,其特征在于,计算用户间的相似度包括:
计算用户p和q的访问序列相似度,其中,所述访问序列相似度被定义为用户p和q的物品类别访问序列中的最长公共子序列长度除以最大序列长度,在公共子序列中,两个用户以相同的顺序访问相同的物品类别;
计算用户p和q的访问频率相似度,其中,所述访问频率相似度被定义为来自基于物品类别访问频率特征的用户-物品类别关联矩阵中的分别代表用户p和q的两个行向量之间的相似度;
计算用户p和q的停留时间相似度,其中,所述停留时间相似度被定义为来自基于物品类别停留时间特征的用户-物品类别关联矩阵中的分别代表用户p和q的两个行向量之间的相似度;
基于上述三种相似度,计算用户p和q之间的总体相似度,其中,以总和为1的三个权重分别对上述三种相似度进行加权,并对加权后的三种相似度进行求和以得到用户p和q之间的总体相似度。
8.根据权利要求7所述的方法,其特征在于,所述访问频率相似度和所述停留时间相似度均为余弦相似度。
9.根据权利要求1所述的方法,其特征在于,以采用指定相似度阈值的流式聚类法对用户进行聚类。
10.根据权利要求9所述的方法,其特征在于,所述流式聚类法包括如下步骤:
1)将当前类别集合G初始化为空,将相似度阈值记为Th;
2)依次扫描用户数据集中每一个元素,其中,所述用户数据集由用户之间的总体相似度构成;
3)获取元素;
4)若数据集中的元素已全部被扫描,则算法结束;否则执行5);
5)计算当前元素与当前类别集合G中每个类别聚类中心的相似度,将其中最大的相似度记为d,相应的类别记为g;
6)若d>Th并且G不为空,则执行7);否则执行8);
7)将当前元素归类到类别g,并更新类别g的聚类中心,返回3);
8)新建一个类别h,将当前元素归类到类别h,并更新类别h的聚类中心,将该类别归入G中;返回3)。
11.根据权利要求1所述的方法,其特征在于,分别对每个类别的用户提取用户兴趣模式包括:
计算每个类别的用户所访问的物品类别的出现频率,将出现频率满足预设阈值的物品类别集合作为所述类别的用户的用户兴趣模式。
12.一种提取用户兴趣模式的装置,其特征在于,包括:
处理模块,用于基于物品的分类信息,将用户的点击流数据分别处理成用户的物品类别访问序列、物品类别访问频率和物品类别停留时间;
相似计算模块,用于根据每个用户的物品类别访问序列、物品类别访问频率和物品类别停留时间计算用户间的相似度;
聚类模块,用于根据所述用户间的相似度对用户进行聚类;
提取模块,用于分别对每个类别的用户提取用户兴趣模式。
13.根据权利要求12所述的装置,其特征在于,所述处理模块还用于:
生成用户在一个会话期间的访问路径,其中,用户的访问路径是能够映射到物品分类拓扑中的;
根据所述用户的访问路径生成所述用户的物品类别访问序列。
14.根据权利要求12所述的装置,其特征在于,所述处理模块还用于:
统计用户对某物品类别的点击次数,其中,点击次数包括对所述物品类别的访问次数以及对属于所述物品类别的物品的访问次数;
根据所述点击次数得到用户对所述物品类别的访问频率,其中,访问频率被定义为点击次数与用户的物品类别访问序列的长度的比率。
15.根据权利要求12所述的装置,其特征在于,所述处理模块还用于:
根据用户在物品类别上的停留时间以及用户在属于所述物品类别的所有物品上的停留时间得到用户的物品类别停留时间。
16.根据权利要求12所述的装置,其特征在于,所述相似计算模块还用于:
根据每个用户的物品类别访问序列、物品类别访问频率和物品类别停留时间为每个用户生成固定维度的向量表示;
根据每个用户对应的固定维度的向量表示计算用户间的相似度。
17.根据权利要求16所述的装置,其特征在于,所述相似计算模块还用于:
根据用户的物品类别访问序列生成基于物品类别访问序列特征的用户-物品类别关联向量;
根据用户的物品类别访问频率生成基于物品类别访问频率特征的用户-物品类别关联矩阵,其中,矩阵的行数是用户总数并且矩阵的列数是物品类别总数,且针对任一用户所生成的固定维度的向量为矩阵中的其中一个行向量;
根据用户的物品类别停留时间生成基于物品类别停留时间特征的用户-物品类别关联矩阵,其中,矩阵的行数是用户总数并且矩阵的列数是物品类别总数,且针对任一用户所生成的固定维度的向量为矩阵中的其中一个行向量。
18.根据权利要求17所述的装置,其特征在于,所述相似计算模块还用于:
计算用户p和q的访问序列相似度,其中,所述访问序列相似度被定义为用户p和q的物品类别访问序列中的最长公共子序列长度除以最大序列长度,在公共子序列中,两个用户以相同的顺序访问相同的物品类别;
计算用户p和q的访问频率相似度,其中,所述访问频率相似度被定义为来自基于物品类别访问频率特征的用户-物品类别关联矩阵中的分别代表用户p和q的两个行向量之间的相似度;
计算用户p和q的停留时间相似度,其中,所述停留时间相似度被定义为来自基于物品类别停留时间特征的用户-物品类别关联矩阵中的分别代表用户p和q的两个行向量之间的相似度;
基于上述三种相似度,计算用户p和q之间的总体相似度,其中,以总和为1的三个权重分别对上述三种相似度进行加权,并对加权后的三种相似度进行求和以得到用户p和q之间的总体相似度。
19.根据权利要求18所述的装置,其特征在于,所述访问频率相似度和所述停留时间相似度均为余弦相似度。
20.根据权利要求12所述的装置,其特征在于,以采用指定相似度阈值的流式聚类法对用户进行聚类。
21.根据权利要求20所述的装置,其特征在于,所述流式聚类法包括如下步骤:
1)将当前类别集合G初始化为空,将相似度阈值记为Th;
2)依次扫描用户数据集中每一个元素,其中,所述用户数据集由用户之间的总体相似度构成;
3)获取元素;
4)若数据集中的元素已全部被扫描,则算法结束;否则执行5);
5)计算当前元素与当前类别集合G中每个类别聚类中心的相似度,将其中最大的相似度记为d,相应的类别记为g;
6)若d>Th并且G不为空,则执行7);否则执行8);
7)将当前元素归类到类别g,并更新类别g的聚类中心,返回3);
8)新建一个类别h,将当前元素归类到类别h,并更新类别h的聚类中心,将该类别归入G中;返回3)。
22.根据权利要求12所述的装置,其特征在于,所述提取模块还用于:
计算每个类别的用户所访问的物品类别的出现频率,将出现频率满足预设阈值的物品类别集合作为所述类别的用户的用户兴趣模式。
23.一种提取用户兴趣模式的电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-11中任一所述的方法。
24.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-11中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810891298.8A CN110827044A (zh) | 2018-08-07 | 2018-08-07 | 提取用户兴趣模式的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810891298.8A CN110827044A (zh) | 2018-08-07 | 2018-08-07 | 提取用户兴趣模式的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110827044A true CN110827044A (zh) | 2020-02-21 |
Family
ID=69533666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810891298.8A Pending CN110827044A (zh) | 2018-08-07 | 2018-08-07 | 提取用户兴趣模式的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110827044A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460300A (zh) * | 2020-03-31 | 2020-07-28 | 腾讯云计算(北京)有限责任公司 | 网络内容推送方法、装置及存储介质 |
CN113327145A (zh) * | 2020-02-28 | 2021-08-31 | 北京沃东天骏信息技术有限公司 | 一种物品推荐方法和装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198418A (zh) * | 2013-03-15 | 2013-07-10 | 北京亿赞普网络技术有限公司 | 一种应用推荐方法和系统 |
CN104063801A (zh) * | 2014-06-23 | 2014-09-24 | 广州优蜜信息科技有限公司 | 一种基于聚类的移动广告推荐方法 |
CN104462156A (zh) * | 2013-09-25 | 2015-03-25 | 阿里巴巴集团控股有限公司 | 一种基于用户行为的特征提取、个性化推荐方法和系统 |
CN105023041A (zh) * | 2015-08-11 | 2015-11-04 | 东南大学 | 数据聚类方法及b2b平台客户偏好获取方法、装置 |
CN105227445A (zh) * | 2015-10-23 | 2016-01-06 | 中国联合网络通信集团有限公司 | 应用推荐方法和应用推荐平台 |
CN105589905A (zh) * | 2014-12-26 | 2016-05-18 | 中国银联股份有限公司 | 用户兴趣数据分析和收集系统及其方法 |
CN106155678A (zh) * | 2015-04-28 | 2016-11-23 | 天脉聚源(北京)科技有限公司 | 一种用户行为预约提醒方法及系统 |
CN107305677A (zh) * | 2016-04-25 | 2017-10-31 | 北京京东尚科信息技术有限公司 | 产品信息推送方法和装置 |
CN107729489A (zh) * | 2017-10-17 | 2018-02-23 | 北京京东尚科信息技术有限公司 | 广告文本识别方法和装置 |
-
2018
- 2018-08-07 CN CN201810891298.8A patent/CN110827044A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198418A (zh) * | 2013-03-15 | 2013-07-10 | 北京亿赞普网络技术有限公司 | 一种应用推荐方法和系统 |
CN104462156A (zh) * | 2013-09-25 | 2015-03-25 | 阿里巴巴集团控股有限公司 | 一种基于用户行为的特征提取、个性化推荐方法和系统 |
CN104063801A (zh) * | 2014-06-23 | 2014-09-24 | 广州优蜜信息科技有限公司 | 一种基于聚类的移动广告推荐方法 |
CN105589905A (zh) * | 2014-12-26 | 2016-05-18 | 中国银联股份有限公司 | 用户兴趣数据分析和收集系统及其方法 |
CN106155678A (zh) * | 2015-04-28 | 2016-11-23 | 天脉聚源(北京)科技有限公司 | 一种用户行为预约提醒方法及系统 |
CN105023041A (zh) * | 2015-08-11 | 2015-11-04 | 东南大学 | 数据聚类方法及b2b平台客户偏好获取方法、装置 |
CN105227445A (zh) * | 2015-10-23 | 2016-01-06 | 中国联合网络通信集团有限公司 | 应用推荐方法和应用推荐平台 |
CN107305677A (zh) * | 2016-04-25 | 2017-10-31 | 北京京东尚科信息技术有限公司 | 产品信息推送方法和装置 |
CN107729489A (zh) * | 2017-10-17 | 2018-02-23 | 北京京东尚科信息技术有限公司 | 广告文本识别方法和装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113327145A (zh) * | 2020-02-28 | 2021-08-31 | 北京沃东天骏信息技术有限公司 | 一种物品推荐方法和装置 |
CN111460300A (zh) * | 2020-03-31 | 2020-07-28 | 腾讯云计算(北京)有限责任公司 | 网络内容推送方法、装置及存储介质 |
CN111460300B (zh) * | 2020-03-31 | 2023-04-25 | 腾讯云计算(北京)有限责任公司 | 网络内容推送方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111523976B (zh) | 商品推荐方法、装置、电子设备及存储介质 | |
CN108885624B (zh) | 信息推荐系统及方法 | |
CN108664513B (zh) | 用于推送关键词的方法、装置以及设备 | |
CN109145280A (zh) | 信息推送的方法和装置 | |
CN104217030B (zh) | 一种根据服务器搜索日志数据进行用户分类的方法和装置 | |
CN108805598B (zh) | 相似度信息确定方法、服务器及计算机可读存储介质 | |
US9727906B1 (en) | Generating item clusters based on aggregated search history data | |
US11127063B2 (en) | Product and content association | |
Verma et al. | An intelligent approach to Big Data analytics for sustainable retail environment using Apriori-MapReduce framework | |
CN107908616B (zh) | 预测趋势词的方法和装置 | |
US20210248643A1 (en) | Method and system for sponsored search results placement in a search results page | |
CN109241403A (zh) | 项目推荐方法、装置、机器设备和计算机可读存储介质 | |
JP6976207B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN110363604A (zh) | 页面生成方法和装置 | |
CN111967914A (zh) | 基于用户画像的推荐方法、装置、计算机设备和存储介质 | |
CN113837842A (zh) | 一种基于用户行为数据的商品推荐方法及设备 | |
US20160196579A1 (en) | Dynamic deep links based on user activity of a particular user | |
CN110111167A (zh) | 一种确定推荐对象的方法和装置 | |
CN109165975A (zh) | 标签推荐方法、装置、计算机设备及存储介质 | |
KR20200025431A (ko) | 오픈마켓 통합 관리 시스템 및 방법 | |
CN113032668A (zh) | 基于用户画像的产品推荐方法、装置、设备及存储介质 | |
CN109190027A (zh) | 多源推荐方法、终端、服务器、计算机设备、可读介质 | |
CN112116426A (zh) | 一种推送物品信息的方法和装置 | |
CN110264277B (zh) | 由计算设备执行的数据处理方法及装置、介质和计算设备 | |
CN110827044A (zh) | 提取用户兴趣模式的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |