CN112667899A - 基于用户兴趣迁移的冷启动推荐方法、装置及存储设备 - Google Patents
基于用户兴趣迁移的冷启动推荐方法、装置及存储设备 Download PDFInfo
- Publication number
- CN112667899A CN112667899A CN202011613270.1A CN202011613270A CN112667899A CN 112667899 A CN112667899 A CN 112667899A CN 202011613270 A CN202011613270 A CN 202011613270A CN 112667899 A CN112667899 A CN 112667899A
- Authority
- CN
- China
- Prior art keywords
- user
- group
- users
- commodity
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明所要解决的技术问题是针对现有技术的缺陷,利用电商新用户在内容平台的历史行为信息,提取用户兴趣偏好完成个性化的用户冷启动推荐。为实现以上目的,本发明基于用户兴趣迁移的冷启动推荐方法、装置及存储设备,利用新用户在其他平台的行为足迹,构建用户的群体属性。然后基于人以群分的理论,根据用户兴趣特征,进行聚类,将用户划分成多个子集,然后根据各子集用户的历史行为计算得到商品偏好,作为该类用户的候选集。采用了所述的技术方案,能更准确地预测到新用户可能喜欢的商品,使得新用户可以更快地找到可能感兴趣的商品,并且更快速找到合适自身的社交圈子,使得新用户在新平台上获得更友好的使用体验,从而提升新用户的留存率。
Description
技术领域
本申请涉及信息处理技术领域,尤其涉及一种基于用户兴趣迁移的用户冷启动推荐方法,所述冷启动推荐方法涉及的装置以及存储设备。
背景技术
随着电子商务规模的不断扩大,各电商平台的品类和商品快速增长,顾客需要花费大量的时间才能找到自己想买的商品,而这种浏览大量无关的商品行为,不仅大幅度地提升用户购物时间成本,还会造成消费者耗尽耐心后流失,从而造成商家利益受损。因此,如何让用户在商品库中迅速找到自身所需商品,如何让商家实现商品的曝光利益最大化,由此推荐系统应运而生。
推荐系统作为一个信息过滤系统,能根据用户的历史行为记录,学习到用户的兴趣偏好,然后尽可能推荐用户喜爱的物品。但是对于没有历史记录可循的新注册用户,缺失历史行为可用于预测其兴趣,此时个性化推荐失效,就会导致用户冷启动问题。然而初期的使用体验几乎决定了新用户的去留,因此用户冷启动又是推荐系统中非常重要的部分。
在业界常规的解决方式中,主要有以下几类:1.热销榜单推荐2.基于注册信息进行粗颗粒个性化推荐3.利用搜集的一些辅助信息进行推荐。但是以上方式利用的用户信息都相对有限,很难为冷启动用户提供全面且相对准确的个性化推荐服务。
而现有技术中专利公开号为CN111814032A的发明专利《冷启动推荐方法、装置及电子设备》中就公开了一种冷启动推荐方法、装置及电子设备,其中冷启动推荐方法包括:根据新用户通过使用第三方应用产生的用户数据,获得所述新用户对于设定用户特征的用户特征值;获取产品集合中每一产品按照所述用户特征分类所得到的分类特征值;根据所述用户特征值和每一产品的所述分类特征值,获得所述新用户与每一产品之间的匹配度;至少根据所述新用户与每一产品之间的匹配度,获得所述新用户的产品推荐列表。
该专利有效利用了第三方的用户数据,但是他涉及的用户数据基本为人口统计学特征,而在实际操作过程中该类特征并不能准确地预测用户兴趣。同时在候选集的排序上,该专利采用单一的因子进行排序,推送的准确性有待加强。
因此,我们需要找到一种采用基于用户兴趣迁移的冷启动推荐技术,利用新用户在其他平台的行为足迹,挖掘用户的兴趣偏好,完成用户在新平台的个性化冷启动推荐,帮助新用户更快更精准地找到所需物品,从而提升新用户对平台的初步感知,提升整个冷启动算法的推荐效果。
发明内容
本发明所要解决的技术问题是针对现有技术的上述缺陷,提供一种基于用户兴趣迁移技术解决冷启动的方法、装置及存储设备,利用电商新用户在内容平台的历史行为信息,提取用户兴趣偏好完成个性化的用户冷启动推荐。
为实现以上目的,本发明通过以下技术方案予以实现:基于用户兴趣迁移的冷启动推荐方法,包括:
构建一个同时具备电商、内容属性的用户集合,获取该部分用户在内容平台的历史行为日志以及内容标签数据;
构建表征该集合用户的用户特征,利用k-means++模型对用户进行聚类,计算各个群体内用户的商品偏好,将其作为该群体的商品推荐列表,
对于电商新用户,根据用户近期在内容平台的访问日志,同理构造得到用户特征向量,选取距离公式计算该用户与各群体质心之间的距离,将距离最小值所在群体作为适配该用户的群体,并向所述用户推荐该群体的商品推荐列表。
此处所述的内容平台可以是其它开发商的现有平台,例如抖音、微信等带有社交属性的内容平台,也可以是和新平台相互关联的同一开发商的内容平台。但是无论哪种情况下,在获取这些内容平台内容信息时需要告知用户并获得用户的授权许可。
优选的,其中利用k-means++模型对用户进行聚类的步骤具体包括:
根据用户在内容平台的访问日志,利用LDA构建用户主题模型,得到各用户在主题上的概率分布,作为用户特征向量;
将用户特征向量作为k-means++模型的输入,对用户进行聚类,得到最终表征群体的质心以及用户分类标签;
统计各个群体内若干最热门商品集合,作为该群体用户的推荐榜单。
LDA(Latent Dirichlet Allocation)为文档主题生成模型。
优选的,所述利用LDA构建用户主题模型,得到各用户在主题上的概率分布,作为用户特征向量的具体步骤包括:
利用用户在内容平台的访问日志,构建用户-词语矩阵,基于用户-词语矩阵,利用LDA构建用户主题模型,得到用户-主题向量作为用户特征向量。
优选的,所述用户-词语矩阵;具体包括:
剔除日志数据中的噪声数据,包括不具备标签信息的内容、以及用户行为数量过少的用户数据;
根据内容-标签字典,将用户历史浏览日志中的内容映射成标签,获得用户内容标签文档;
对用户内容标签文档进行分词、去停词,获得文档的向量化表示;计算每个词在每个文档的出现次数,获得由特征词出现次数组成的用户-词语向量,以及由全用户-词语向量构成的用户-词语矩阵。
优选的,基于用户-词语矩阵,利用LDA构建用户主题模型,得到用户-主题向量作为用户特征向量,包括:
根据经验确定主题个数k的范围,遍历k训练LDA用户主题模型,观测不同k值训练模型下的topic情况,确定合适的主题参数k;
基于最佳主题个数k,训练得到用户在每个主题上的分布,作为用户特征向量。
优选的,将用户特征向量作为k-means++模型的输入,对用户进行聚类,得到最终表征群体的质心以及用户分类标签具体包括:
对用户特征向量,进行标准化处理,
根据经验选取合适的聚类个数K,基于初始的聚类中心最大化的原则,确定K个初始聚类中心;
通过标准k-means进行聚类,确定最终群体质心以及用户分类标签。
优选的,其中计算各个群体内若干最热门商品集合,作为该群体用户的推荐榜单具体包括:
对于各个群体用户:
获取该群体用户一段时间内的行为日志,包括浏览、搜索、加购、下单等关键行为;
对每个商品依次执行:
(2)基于组合赋权法对各个行为进行赋权wi,其中∑wi=1
(3)采用加权求和计算得到,统计周期t下该商品的综合得分score(t)
(4)考虑历史数据的时效性,通过时间衰减系数对历史得分进行降权,得到商品最终得分:
其中,f(t-t0)为时间衰减函数,形式如下:
根据商品的最终得分排序,筛选得分的最高的若干项作为各群体用户的候选推荐榜单。得分的最高的若干项产品在页面中随机分布而不是依次分布。
优选的,其中对于电商新用户,根据用户近期在内容平台的访问日志,构造得到用户特征向量,选取距离公式计算该用户与各群体质心之间的距离,将距离最小值所在群体作为适配该用户的群体,并向所述用户推荐该群体的商品推荐列表,包括:
根据用户近期在内容平台的访问日志,构造新用户的特征向量;
通过距离公式计算新用户与各个质心的距离,确定用户所属群体;
输出推荐列表。
这样的方式脱离了传统的贴标签的模式,而是通过综合兴趣特征来确定用户群体的属性,定位更为准确。
本发明还包括一种电子设备,所述电子设备包括:存储器和处理器,所述存储器用于存储计算机指令,所述处理器用于从所述存储器中调用所述计算机指令,并在所述计算机指令的控制下执行基于用户兴趣迁移的冷启动推荐方法。
本发明还包括一种计算机可读存储介质,所述存储介质存储有计算机指令,当所述存储介质中的计算机指令由处理器执行时,实现基于用户兴趣迁移的冷启动推荐方法。
现有技术中,业界常用的冷启动推荐算法是通过构造与用户特征同形式的商品特征,筛选出符合用户人口统计学特征的商品集合,作为用户的候选集。而本发明则是利用新用户在其他平台的行为足迹,构建用户的群体属性。然后基于人以群分的理论,根据用户兴趣特征,进行聚类,将用户划分成多个子集,然后根据各子集用户的历史行为计算得到商品偏好,作为该类用户的候选集。采用多行为因子,并基于组合赋权法确定合理权重,构造综合指标进行排序以给新用户推荐和他有相同喜好的人所喜欢的东西。如此实施的冷启动策略,能更准确地预测到新用户可能喜欢的商品,使得新用户可以更快地找到可能感兴趣的商品,并且更快速找到合适自身的社交圈子,使得新用户在新平台上获得更友好的使用体验,从而提升新用户的留存率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施方式基于用户兴趣迁移的冷启动推荐方法的流程图。
图2是本发明实施方式获取用户特征方法的流程图。
图3是本发明实施方式计算群体用户热门商品榜单的流程。
图4是本发明实施方式计算电商新用户推荐列表的流程图。
具体实施方式:
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施。
本发明涉及K-means++算法,原始K-means算法最开始随机选取数据集中K个点作为聚类中心,而K-means++按照如下的思想选取K个聚类中心:假设已经选取了n个初始聚类中心(0<n<K),则在选取第n+1个聚类中心时:距离当前n个聚类中心越远的点会有更高的概率被选为第n+1个聚类中心。在选取第一个聚类中心(n=1)时同样通过随机的方法。该算法验证了K-means的改进思想:即离当前已有聚类中心较远的点有更大的概率被选为下一个聚类中心。
本发明公开了一种基于用户兴趣迁移的冷启动推荐方法,如图1所示,包括:
S1.构建一个同时具备电商、内容属性的用户集合,获取该部分用户在内容平台的历史行为日志以及内容标签数据;
S2.构建表征该集合用户的用户特征,利用k-means++模型对用户进行聚类。计算各个群体内用户的商品偏好,将其作为该群体的商品推荐列表,包括:
S21.根据用户在内容平台的访问日志,利用LDA构建用户主题模型,得到各用户在主题上的概率分布,作为用户特征向量;
S22.将用户特征向量作为k-means++模型的输入,对用户进行聚类,得到最终表征群体的质心以及用户分类标签;
S23.统计各个群体内热门TopN商品,即最热门的若干商品的集合,作为该群体用户的推荐榜单;
S3.对于电商新用户,根据用户近期在内容平台的访问日志,仿照步骤S2同理构造得到用户特征向量。选取距离公式计算该用户与各群体质心之间的距离,将距离最小值所在群体作为适配该用户的群体,并向所述用户推荐该群体的商品推荐列表。
步骤S1是构建一个同时具备电商、内容属性的用户集合,获取该部分用户在内容平台的历史行为日志以及内容标签数据。其中,同时具备电商、内容属性,指用户既是内容的用户,也是电商的用户。用户在内容平台的历史行为日志数据可来源于各个平台,例如APP、微信小程序、抖音等。对于自研平台,可直接从数据库中读取用户日志数据;对于第三方平台,则可以通过API接口获取到用户在第三方平台上的行为数据。在满足内容具有相同标准的标签条件下,内容可不局限于文章、视频等形式。内容标签则一般通过内容创建时人工打标、模型自动打标签的方式建立,使用时可直接从数据库中获取。但是无论以哪种方式获取,均需要主动告知用户并获取用户的授权许可。
如图2所示,为实施例1:
步骤S21基于用户-主题概率分布作为用户特征特征,包括以下步骤:
步骤S211.利用用户访问日志,构建用户-词语矩阵,包括:
步骤S2111.剔除日志数据中的噪声数据,包括不具备标签信息的内容、以及用户行为数量过少的日志数据。其中,不具备标签信息的内容,是指在内容标签库中无法匹配到对应标签,出于降低计算成本的考虑,直接进行过滤;另外,对于行为数量过少的日志,容易对LDA用户主题模型造成一定干扰。一般地,可以根据用户访问次数分布情况确定一个阈值(例如10,20等),将不满足阈值的用户日志直接过滤。由此,对每个用户u,可获得用户行为向量[a1,a2…as],其中ai代表内容。
步骤S2112.根据内容-标签字典,将用户历史浏览日志中的内容映射成标签,获得用户内容标签文档。由于不同内容之间具有不同的形式,根据模型需要,需要将内容映射到标签维度。一般地,每个内容存在多个标签,包括类别、关键词等。在从数据库中获取到内容标签词典后,将用户行为向量中的内容全部映射为内容标签,拼接后可获得用户内容标签文档。
步骤S2113.对用户内容标签文档进行分词、去停词,获得文档的向量化表示;计算每个词在每个文档的出现次数,获得由特征词出现次数组成的用户-词语向量,以及由全用户-词语向量构成的用户-词语矩阵。对于用户内容标签文档,大部分都是由短语或者短句构成的,因此仍然需要分词处理。值得注意的是,现有的分词工具自带的字典主要是基于人民日报语料等资源训练得出来的,对于专业领域的相关名词识别度不高,需要自定义词典提高识别专有名词的准确度。另外,对于分词后的词语进行去停用词处理,用于过滤一些无意义的词语、符号。例如,对于以下表格所示的内容标签向量:
经过处理后可得到输入用户/文档-词语矩阵,如下所示:
步骤S212.基于用户-词语矩阵,利用LDA构建用户主题模型,得到用户-主题向量作为用户特征向量,包括以下步骤:
步骤S2121.根据经验确定主题个数k的范围,遍历k训练LDA用户主题模型,观测得到的topic情况,确定合适的主题参数k。LDA作为一种无监督模型,在训练时需要给定主题个数k。根据对平台内容基础框架的了解,凭借经验可确定k的一个范围。遍历k,训练得到多个LDA用户主题模型,通过观测主题-词的分布情况,确定合适的k值。或者,也可以通过构造困惑度指标,绘制主题数与困惑度的变化曲线,认为曲线拐点为用户属于主题的不确定性和主题个数收益最大化的平衡点,作为模型的k值。
步骤S2122.基于最佳主题个数k,训练得到用户在每个主题上的分布,作为用户的特征向量。利用LDA对用户标签文本进行迭代采样,得到用户在主题上的概率向量,即Ui={P(zi|u1),P(zi|u2)…P(zi|uj)}。其中P(zi|uj)代表用户uj在主题zj下的概率值,作为用户的特征向量。
实施例2:与实施例1相似的情况下采用embedding的方法作为用户的特征向量,与LDA模型不同,该方法只需要利用用户访问足迹。通过item2vec方式把内容这个ID特征映射到另一个低维空间,获得内容的向量化表达。然后根据用户近期访问内容记录,通过加权平均获得用户的向量化表达。其主要步骤如下:将用户的访问内容列表,切分为多个session片段。具体地,对用户行为列表按照时间排序,计算前后两次行为的时间间隔,若间隔大于某个阈值(例如,30s、60s等),则进行切分。此时,用户的行为序列转换成会话序列。基于会话序列,采用word2vec的训练方法skip-gram,得到内容的向量化表示。根据用户最近N次访问内容日志,通过加权平均的方式获得用户的向量化表达,作为用户特征向量。其中,加权系数为时间衰减因子,用于刻画用户兴趣随时间衰减的变化,示例性的时间衰减公式如下:
其中λ为冷却系数,t-t0为行为时间距今的时间间隔
步骤S22中将用户特征向量作为k-means++模型的输入,对用户进行聚类,得到最终表征群体的质心和用户分类,包括:
S221.获取用户的特征向量,进行标准化处理。为防止量纲差异导致样本距离度量失效的问题,对特征进行Z-score标准化,公式如下:
S222.根据经验选取合适的聚类个数K,基于初始的聚类中心最大化的原则,确定K个初始聚类中心。在确定初始聚类中心时,先随机选出一个聚类中心m1,计算剩余样本与聚类中心m1的距离,选取距离最大化的样本作为下一个聚类中心m2,重复该过程K-1次,选出所有的初始聚类中心。
S223.通过标准k-means,计算得到最终的聚类中心以及样本分类,记录各个群体的质心向量和用户分类标签。
步骤S23中统计各个群体内热门TopN商品集合,作为该群体用户的推荐榜单。在对新用户的首单商品进行热度分析时,我们发现新用户大多数都选择了热度比较高的商品。对于热度的定义方式,从指标层面,可以有销量、点击率、转化率等等;从数据统计周期,有离线、实时之分。而在本次计算各个群体热门商品榜单时,是利用离线用户关键行为数据构造一个综合指标,作为群体用户对商品的喜爱程度的评价指标。如图3所示,其主要步骤如下:
对于各个群体用户:
步骤S231.获取该群体用户一段时间内的行为日志,包括浏览、搜索、加购物车、购买等关键行为。
步骤S232.对每个商品:
步骤S2321.以周为维度统计商品的各行为次数,对各个指标进行最大最小归一化处理,其形式如下:
步骤S2322.基于组合赋权法对各个行为进行赋权wi,其中∑wi=1其中,本文采用的组合赋权结合层次分析法、熵权法进行综合评估,其主要步骤如下:
(1)分析用户行为建立行为层次,利用层次分析法建立判断矩阵,对判断矩阵赋值。对于抽取的关键行为浏览、搜索、加购物车、购买,可定义一个4维判断矩阵,并根据经验对其进行赋值:
其中,dij代表行为i比行为j的重要程度;i=j时,dij=1;根据矩阵定义,有dji=1/dij
(2)对判断矩阵进行最大最小归一化处理,公式如下:
(3)计算行为重要程度指标的信息熵,信息熵公式如下:
(4)量化表示用户各自行为的权重,公式如下所示:
(5)矩阵一致性检验,检验层次划分是否合理,包括:
1)计算判断矩阵的最大特征根λmax
2)计算一致性检验指标CR,其公式如下:
通过计算得到的CR一致性指标,若CR<0.1,则认为人为定义的判断矩阵合理,基于该判断矩阵计算得到的行为权重是可以衡量得到不同行为之间的差异的。由此,通过一致性检验后,此时行为权重可记为[w1,w2,w3,w4]。
步骤S2323.采用加权求和计算得到,统计周期t下该商品的综合得分score(t)
步骤S2324.考虑历史数据的有效性,通过时间衰减系数对历史得分进行降权,得到商品最终得分:
步骤S233.根据商品的最终得分排序,筛选TopN作为各群体用户的推荐榜单商品,具体的TopN个数需要根据组件情况进行配置。
S3.对于电商新用户,根据用户近期在内容平台的访问日志,仿照步骤S2同理构造得到用户特征向量。选取距离公式计算该用户与各群体质心之间的距离,将距离最小值所在群体作为适配该用户的群体,并向所述用户推荐该群体的商品推荐列表,参见图4,具体如下所示:
步骤S31.对于电商新用户,根据用户近期在内容平台的访问日志,根据步骤S2同理构造用户的特征向量。
步骤S32.利用距离公式计算该用户与各群体质心之间的距离,确定用户所属群体。采用与k-means++模型中一致的距离度量公式,计算新用户与群体质心的距离,选取距离最小值所在群体作为该用户的群组。常用的一种距离度量公式如下所示:
其中,xi为向量X的第i个元素,yi为向量Y的第i个元素
步骤S33.输出推荐列表。获取用户所属群体的热度榜单,基于用户的其他信息进行再次过滤筛选,作为该电商新用户的推荐列表。其中,用户的其他信息指注册时搜集到的一些用户信息,包括用户宝宝月龄、宝宝性别、用户定位地址等等。根据每个特征维度,结合用户购买的特征表现,对其热度榜单可再次过滤。例如,对于一个6月龄的宝妈,推荐列表中可过滤低于适用于5月龄以下宝宝的商品。
这里需要说明的是,此处基于用户的其他信息进行再次过滤筛选中所采用的信息和本发明主题中的兴趣偏好信息不同。本发明中的兴趣偏好是带有元素的产品集合。例如一个妈妈在最近一周内看了许多做果泥、纸尿裤的内容,在现有技术中往往会认为辅食、纸尿裤为用户最近的兴趣标签。而在本发明的技术方案中,会发现进一步地发现对于用户而言,苹果及草莓口味的辅食,以及带有可爱卡通图形的纸尿裤才是用户真正的兴趣所在。如果推荐其他口味的辅食,并不会引起此用户的关注,这样就浪费了大量的信息资源。
本发明在这个信息基础上进行基于商品的向量化表示,可将用户标签转化为向量特征,准确地代表用户兴趣偏好。
此外,为了确保本发明的运行,还包括:
一种电子设备,所述电子设备包括:存储器和处理器,所述存储器用于存储计算机指令,所述处理器用于从所述存储器中调用所述计算机指令,并在所述计算机指令的控制下执行基于用户兴趣迁移的冷启动推荐方法。
以及一种计算机可读存储介质,所述存储介质存储有计算机指令,当所述存储介质中的计算机指令由处理器执行时,实现基于用户兴趣迁移的冷启动推荐方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.基于用户兴趣迁移的冷启动推荐方法,其特征在于:包括:
构建一个同时具备电商、内容属性的用户集合,获取该部分用户在内容平台的历史行为日志以及内容标签数据;
构建表征该集合用户的用户特征,利用k-means++模型对用户进行聚类,计算各个群体内用户的商品偏好,将其作为该群体的商品推荐列表,
对于电商新用户,根据用户近期在内容平台的访问日志,同理构造得到用户特征向量,选取距离公式计算该用户与各群体质心之间的距离,将距离最小值所在群体作为适配该用户的群体,并向所述用户推荐该群体的商品推荐列表。
2.如权利要求1所述的基于用户兴趣迁移的冷启动推荐方法,其特征在于:其中利用k-means++模型对用户进行聚类的步骤具体包括:
根据用户在内容平台的访问日志,利用LDA构建用户主题模型,得到各用户在主题上的概率分布,作为用户特征向量;
将用户特征向量作为k-means++模型的输入,对用户进行聚类,得到最终表征群体的质心以及用户分类标签;
统计各个群体内若干最热门商品集合,作为该群体用户的推荐榜单。
3.如权利要求2所述的基于用户兴趣迁移的冷启动推荐方法,其特征在于:
所述利用LDA构建用户主题模型,得到各用户在主题上的概率分布,作为用户特征向量的具体步骤包括:
利用用户在内容平台的访问日志,构建用户-词语矩阵,基于用户-词语矩阵,利用LDA构建用户主题模型,得到用户-主题向量作为用户特征向量。
4.如权利要求3所述的基于用户兴趣迁移的冷启动推荐方法,其特征在于:
所述用户-词语矩阵;具体包括:
剔除日志数据中的噪声数据,包括不具备标签信息的内容、以及用户行为数量过少的用户数据;
根据内容-标签字典,将用户历史浏览日志中的内容映射成标签,获得用户内容标签文档;
对用户内容标签文档进行分词、去停词,获得文档的向量化表示;计算每个词在每个文档的出现次数,获得由特征词出现次数组成的用户-词语向量,以及由全用户-词语向量构成的用户-词语矩阵。
5.如权利要求3所述的基于用户兴趣迁移的冷启动推荐方法,其特征在于:
基于用户-词语矩阵,利用LDA构建用户主题模型,得到用户-主题向量作为用户特征向量,包括:
根据经验确定主题个数k的范围,遍历k训练LDA用户主题模型,观测不同k值训练模型下的topic情况,确定合适的主题参数k;
基于最佳主题个数k,训练得到用户在每个主题上的分布,作为用户特征向量。
6.如权利要求2所述基于用户兴趣迁移的冷启动推荐方法,其特征在于:其中将用户特征向量作为k-means++模型的输入,对用户进行聚类,得到最终表征群体的质心以及用户分类标签具体包括:
对用户特征向量,进行标准化处理,
根据经验选取合适的聚类个数K,基于初始的聚类中心最大化的原则,确定K个初始聚类中心;
通过标准k-means进行聚类,确定最终群体质心以及用户分类标签。
7.如权利要求1所述基于用户兴趣迁移的冷启动推荐方法,其特征在于:其中计算各个群体内若干最热门商品集合,作为该群体用户的推荐榜单具体包括:
对于各个群体用户:
获取该群体用户一段时间内的行为日志,包括浏览、搜索、加购、下单等关键行为;
对每个商品依次执行:
(2)基于组合赋权法对各个行为进行赋权wi,其中∑wi=1
(3)采用加权求和计算得到,统计周期t下该商品的综合得分score(t)
(4)考虑历史数据的时效性,通过时间衰减系数对历史得分进行降权,得到商品最终得分:
其中,f(t-t0)为时间衰减函数,形式如下:
根据商品的最终得分排序,筛选得分的最高的若干项作为各群体用户的候选推荐榜单。
8.如权利要求1所述基于用户兴趣迁移的冷启动推荐方法,其特征在于:其中对于电商新用户,根据用户近期在内容平台的访问日志,构造得到用户特征向量,选取距离公式计算该用户与各群体质心之间的距离,将距离最小值所在群体作为适配该用户的群体,并向所述用户推荐该群体的商品推荐列表,包括:
根据用户近期在内容平台的访问日志,构造新用户的特征向量;
通过距离公式计算新用户与各个质心的距离,确定用户所属群体;
输出推荐列表。
9.一种电子设备,其特征在于:所述电子设备包括:存储器和处理器,所述存储器用于存储计算机指令,所述处理器用于从所述存储器中调用所述计算机指令,并在所述计算机指令的控制下执行如权利要求1-8任一项所述的基于用户兴趣迁移的冷启动推荐方法。
10.一种计算机可读存储介质,所述存储介质存储有计算机指令,当所述存储介质中的计算机指令由处理器执行时,实现如权利要求1-8任一项所述的基于用户兴趣迁移的冷启动推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011613270.1A CN112667899A (zh) | 2020-12-30 | 2020-12-30 | 基于用户兴趣迁移的冷启动推荐方法、装置及存储设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011613270.1A CN112667899A (zh) | 2020-12-30 | 2020-12-30 | 基于用户兴趣迁移的冷启动推荐方法、装置及存储设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112667899A true CN112667899A (zh) | 2021-04-16 |
Family
ID=75411195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011613270.1A Pending CN112667899A (zh) | 2020-12-30 | 2020-12-30 | 基于用户兴趣迁移的冷启动推荐方法、装置及存储设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112667899A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989208A (zh) * | 2021-04-30 | 2021-06-18 | 武汉卓尔数字传媒科技有限公司 | 一种信息推荐方法、装置、电子设备及存储介质 |
CN113360753A (zh) * | 2021-05-26 | 2021-09-07 | 平安国际智慧城市科技股份有限公司 | 基于用户历史行为的信息推荐方法、装置、设备及介质 |
CN113360780A (zh) * | 2021-08-10 | 2021-09-07 | 北京黑马企服科技有限公司 | 一种基于大数据的信息推荐方法及系统 |
CN113378071A (zh) * | 2021-08-16 | 2021-09-10 | 武汉卓尔数字传媒科技有限公司 | 广告推荐方法及装置、电子设备、存储介质 |
CN113409122A (zh) * | 2021-06-30 | 2021-09-17 | 汇通达网络股份有限公司 | 一种商品推荐系统的冷启动方法 |
CN113793180A (zh) * | 2021-09-15 | 2021-12-14 | 北京沃东天骏信息技术有限公司 | 一种用户偏好分析方法、装置、设备和计算机存储介质 |
CN114048389A (zh) * | 2022-01-11 | 2022-02-15 | 山东捷瑞数字科技股份有限公司 | 一种面向工程机械行业的内容推荐方法及系统 |
CN114117240A (zh) * | 2021-12-09 | 2022-03-01 | 诸暨黑石大数据技术有限公司 | 基于大数据需求分析的互联网内容推送方法及ai系统 |
CN114331536A (zh) * | 2021-12-29 | 2022-04-12 | 北京羽乐创新科技有限公司 | 营销管控方法及装置 |
CN114528484A (zh) * | 2022-01-26 | 2022-05-24 | 北京金堤科技有限公司 | 偏好挖掘方法、装置、存储介质及电子设备 |
CN114648391A (zh) * | 2022-05-18 | 2022-06-21 | 湖南工商大学 | 一种网购信息推荐方法 |
CN116562960A (zh) * | 2023-04-19 | 2023-08-08 | 上海聚灵兽科技有限公司 | 一种商品推荐方法、设备和存储介质 |
CN117422528A (zh) * | 2023-11-24 | 2024-01-19 | 久睦本(海南)科技股份有限公司 | 一种基于小程序的商品销售管理方法及系统 |
-
2020
- 2020-12-30 CN CN202011613270.1A patent/CN112667899A/zh active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989208A (zh) * | 2021-04-30 | 2021-06-18 | 武汉卓尔数字传媒科技有限公司 | 一种信息推荐方法、装置、电子设备及存储介质 |
CN112989208B (zh) * | 2021-04-30 | 2021-08-06 | 武汉卓尔数字传媒科技有限公司 | 一种信息推荐方法、装置、电子设备及存储介质 |
CN113360753A (zh) * | 2021-05-26 | 2021-09-07 | 平安国际智慧城市科技股份有限公司 | 基于用户历史行为的信息推荐方法、装置、设备及介质 |
CN113409122A (zh) * | 2021-06-30 | 2021-09-17 | 汇通达网络股份有限公司 | 一种商品推荐系统的冷启动方法 |
CN113409122B (zh) * | 2021-06-30 | 2024-02-13 | 汇通达网络股份有限公司 | 一种商品推荐系统的冷启动方法 |
CN113360780A (zh) * | 2021-08-10 | 2021-09-07 | 北京黑马企服科技有限公司 | 一种基于大数据的信息推荐方法及系统 |
CN113378071A (zh) * | 2021-08-16 | 2021-09-10 | 武汉卓尔数字传媒科技有限公司 | 广告推荐方法及装置、电子设备、存储介质 |
CN113793180A (zh) * | 2021-09-15 | 2021-12-14 | 北京沃东天骏信息技术有限公司 | 一种用户偏好分析方法、装置、设备和计算机存储介质 |
CN114117240A (zh) * | 2021-12-09 | 2022-03-01 | 诸暨黑石大数据技术有限公司 | 基于大数据需求分析的互联网内容推送方法及ai系统 |
CN114331536A (zh) * | 2021-12-29 | 2022-04-12 | 北京羽乐创新科技有限公司 | 营销管控方法及装置 |
CN114048389B (zh) * | 2022-01-11 | 2022-04-19 | 山东捷瑞数字科技股份有限公司 | 一种面向工程机械行业的内容推荐方法及系统 |
CN114048389A (zh) * | 2022-01-11 | 2022-02-15 | 山东捷瑞数字科技股份有限公司 | 一种面向工程机械行业的内容推荐方法及系统 |
CN114528484A (zh) * | 2022-01-26 | 2022-05-24 | 北京金堤科技有限公司 | 偏好挖掘方法、装置、存储介质及电子设备 |
CN114648391A (zh) * | 2022-05-18 | 2022-06-21 | 湖南工商大学 | 一种网购信息推荐方法 |
CN116562960A (zh) * | 2023-04-19 | 2023-08-08 | 上海聚灵兽科技有限公司 | 一种商品推荐方法、设备和存储介质 |
CN117422528A (zh) * | 2023-11-24 | 2024-01-19 | 久睦本(海南)科技股份有限公司 | 一种基于小程序的商品销售管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112667899A (zh) | 基于用户兴趣迁移的冷启动推荐方法、装置及存储设备 | |
Liu et al. | Modeling and predicting the helpfulness of online reviews | |
Zhang et al. | Dynamic topic modeling for monitoring market competition from online text and image data | |
CN110532479A (zh) | 一种信息推荐方法、装置及设备 | |
Raghavan et al. | Review quality aware collaborative filtering | |
CN110334356B (zh) | 文章质量的确定方法、文章筛选方法、以及相应的装置 | |
CN108763362A (zh) | 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法 | |
CN108334592B (zh) | 一种基于内容与协同过滤相结合的个性化推荐方法 | |
Tewari et al. | Sequencing of items in personalized recommendations using multiple recommendation techniques | |
CN111177538B (zh) | 一种基于无监督权值计算的用户兴趣标签构建方法 | |
KR20210047229A (ko) | 구매 우선순위와 상품 리뷰 감성분석을 반영한 상품 추천 시스템 및 방법 | |
Sharma et al. | An artificial neural network based approach for sentiment analysis of opinionated text | |
CN108596637B (zh) | 一种电商服务问题自动发现系统 | |
CN111339439A (zh) | 一种融合评论文本与时序效应的协同过滤推荐方法和装置 | |
Hossain et al. | Machine learning based class level prediction of restaurant reviews | |
Huang et al. | A novel topic-based framework for recommending long tail products | |
Wang et al. | Research on hybrid collaborative filtering recommendation algorithm based on the time effect and sentiment analysis | |
Bakir | Collaborative filtering with temporal dynamics with using singular value decomposition | |
CN113326432A (zh) | 一种基于决策树与推荐方法的模型优选方法 | |
Berbatova | Overview on NLP techniques for content-based recommender systems for books | |
Wang et al. | Towards computational assessment of idea novelty | |
CN107133811A (zh) | 一种目标用户的识别方法和装置 | |
Zhang et al. | Measuring similarity between brands using followers' post in social media | |
Chaurasiya et al. | Improving performance of product recommendations using user reviews | |
CN117474631A (zh) | 基于电商平台评论的数据挖掘与情感分析的推荐算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |