CN106874509B

CN106874509B - 基于中粒度用户分组的资源推荐方法及装置

Info

Publication number: CN106874509B
Application number: CN201710117445.1A
Authority: CN
Inventors: 王国军; 王峰; 邢萧飞; 谢冬青
Original assignee: Guangzhou University
Current assignee: China Southern Power Grid Internet Service Co ltd; Ourchem Information Consulting Co ltd
Priority date: 2017-03-01
Filing date: 2017-03-01
Publication date: 2020-02-07
Anticipated expiration: 2037-03-01
Also published as: CN106874509A

Abstract

本发明公开了一种基于用户分组的资源推荐方法及装置。所述基于用户分组的资源推荐方法包括：采集N个用户的在线或/和离线资源使用数据；根据每个所述资源使用数据及每个所述用户的相关属性获得每个所述用户的影响力；根据每个所述影响力，将所述N个用户中的K个用户分别设置为K个分组的标准用户，并将所述N个用户中的其余N‑K个用户设置为待分组用户；根据每个所述资源使用数据，获得每个所述待分组用户与每个所述标准用户之间的关注主题相似度；根据每个所述关注主题相似度对所述待分组用户进行分组；向每个所述分组中的每个用户推荐其所在分组中的标准用户的推荐资源。采用本发明，能够提高向用户推荐资源的准确度和速度。

Description

基于中粒度用户分组的资源推荐方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于中粒度用户分组的资源推荐方法及装置。

背景技术

随着信息技术和互联网的飞速发展，电子商务、在线教育学习、电子政务、及时通信、网络新闻等等在线商务、学习、通信以及公共事务已经成为了我们日常生活的一部分。根据《2016年第38次中国互联网络发展状况统计报告》显示，中国网民有大约6亿用户使用网络新闻以获取信息，有大约4.5亿用户进行网络购物，在新型网络服务中，中国网上外卖和在线教育的用户规模已经达到2亿。根据WeAreSocial的最新报告，2016年，全球互联网用户数量相比去年增长了10％，拥有达到超过34亿的用户规模。社交媒体使用同样增长了10％，而通过移动设备访问社交媒体的人数增长了17％。巨大的用户规模，伴随而来的是如洪水般爆发的互联网信息和资源，包括购物网站、在线社交网络、视频网站、网上新闻等等应用，我们已经进入一个信息过载的时代。在这样一个时代，用户遇到了前所未有的挑战，即如何获取适合自己的信息，爆炸式的资源和信息极大地降低了它们的利用率。从用户的角度来看，信息过载问题使得他们无法有效地满足自己的资源和信息需求；站在应用提供商的角度，如何从海量信息中选取出最适合的一部分给用户成为困扰他们的问题。

个性化推荐系统则是解决这一挑战的重要利器。它通过挖掘分析用户的属性和兴趣偏好信息，从而能高效地找到用户感兴趣的资源和信息，以实现个性化推荐。因此，个性化推荐系统受到研究者和企业的广泛关注。推荐系统是解决新时代信息获取和数据关联问题的一个强有力的工具，它可以根据用户的特征和需求，将用户所感兴趣的产品或信息主动推送给用户。相比搜索引擎被动地搜索相关信息，推荐系统更加地主动和智能，能够针对用户挖掘获得与之相符的价值信息。近些年，推荐系统已经成功运用到了电影、音乐和商品等领域的推荐上，并取得了实际的收益。例如，运用于电影推荐的NetFlix，运用于音乐推荐的豆瓣，以及运用于商品推荐的淘宝、京东和Amazon等。推荐系统所创造的价值吸引了越来越多的公司开发自己的推荐引擎，同时使得推荐系统成为了工业界和学术界的研究热点。该项发明技术能够使得用户与海量数据信息进行更加合适的关联。从用户的角度看，他们能够更加省时省力地发现有价值的信息；从数据信息生产者角度看，他们能够将自己所生产的数据信息准确快速地送至消费群体，从而使得用户与生产者双方共赢。

而在实际推荐系统运行过程中，如何对用户进行分类一直是系统中的核心问题。如果粒度过细会使得算法复杂度过高，使分析变成不可能完成的任务；同时如果粒度太大，对资源推荐的后续工作帮助太小，所以把握好用户特征的颗粒度大小非常重要。

发明内容

本发明提出一种基于用户分组的资源推荐方法及装置，提供一种采用了中粒度用户分类技术的推荐方法，能够提高向用户推荐资源的准确度和速度。

本发明提供的一种基于用户分组的资源推荐方法，具体包括：

采集N个用户的资源使用数据；其中，所述资源使用数据包括在线使用数据和离线使用数据；N>1；

根据每个所述资源使用数据，获得每个所述用户的影响力；

根据每个所述影响力，将所述N个用户中的K个用户分别设置为K个分组的标准用户，并将所述N个用户中的其余N-K个用户设置为待分组用户；其中，0<K≤N；

根据每个所述资源使用数据，获得每个所述待分组用户与每个所述标准用户之间的关注主题相似度；

将每个所述待分组用户分别分入与其之间的所述关注主题相似度最高的标准用户所对应的分组；

向每个所述分组中的每个用户推荐其所在分组中的标准用户的推荐资源。

进一步地，每个所述资源使用数据包括在线使用数据I₁，I₂，I₃，…，I_n以及离线使用数据I'；其中，I₁，I₂，I₃，…，I_n为从n个在线网络中采集获得的使用数据；

则所述根据每个所述资源使用数据，获得每个所述用户的影响力，具体包括：

将每个所述资源使用数据分别代入公式I＝I₁*w₁+I₂*w₂+I₃*w₃+…+I_n*w_n+I'*w'，计算获得相应的所示影响力I；其中，w₁，w₂，w₃，…，w_n，w'为各使用数据的权重。

进一步地，所述根据每个所述资源使用数据，获得每个所述待分组用户与每个所述标准用户之间的关注主题相似度，具体包括：

根据每个所述资源使用数据，采用主题模型分析法计算获得每个所述用户的关注主题分布数据；

分别将每个所述待分组用户的所述关注主题分布数据与每个所述标准用户的所述关注主题分布数据进行比较，计算获得相应的所述关注主题相似度。

进一步地，所述K个用户为所述N个用户中所述影响力排名前K的用户。

进一步地，所述资源使用数据中包括资源描述数据及用户描述数据；其中，所述用户描述数据中包括对应的用户的关注主题数据。

相应地，本发明还提供了一种基于用户分组的资源推荐装置，具体包括：

资源使用数据获得模块，用于采集N个用户的资源使用数据；其中，所述资源使用数据包括在线使用数据和离线使用数据；N>1；

用户影响力获得模块，用于根据每个所述资源使用数据，获得每个所述用户的影响力；

用户身份设置模块，用于根据每个所述影响力，将所述N个用户中的K个用户分别设置为K个分组的标准用户，并将所述N个用户中的其余N-K个用户设置为待分组用户；其中，0<K≤N；

关注主题相似度获得模块，用于根据每个所述资源使用数据，获得每个所述待分组用户与每个所述标准用户之间的关注主题相似度；

用户分组模块，用于将每个所述待分组用户分别分入与其之间的所述关注主题相似度最高的标准用户所对应的分组；以及，

资源推荐模块，用于向每个所述分组中的每个用户推荐其所在分组中的标准用户的推荐资源。

则所述用户影响力获得模块，具体包括：

影响力计算获得单元，用于将每个所述资源使用数据分别代入公式I＝I₁*w₁+I₂*w₂+I₃*w₃+…+I_n*w_n+I'*w'，计算获得相应的所示影响力I；其中，w₁，w₂，w₃，…，w_n，w'为各使用数据的权重。

进一步地，所述关注主题相似度获得模块，具体包括：

关注主题分布数据获得单元，用于根据每个所述资源使用数据，采用主题模型分析法计算获得每个所述用户的关注主题分布数据；以及，

主题相似度计算获得单元，用于分别将每个所述待分组用户的所述关注主题分布数据与每个所述标准用户的所述关注主题分布数据进行比较，计算获得相应的所述关注主题相似度。

实施本发明，具有如下有益效果：

本发明提供的基于用户分组的资源推荐方法及装置，通过从网络中获取用户在线或/和离线的资源使用数据，获得用户的影响力和用户的关注主题，并根据用户的影响力和用户的关注主题对用户进行分组，从而可以获得粒度适中的用户分组，使得推荐过程的运算数据量降低，但同时能够保证推荐所依据的样本数据量充足，为后续的推荐过程奠定基础，提高向用户推荐资源的准确度和速度。

附图说明

图1是本发明提供的基于中粒度用户分组的资源推荐方法的一个优选的实施例的流程示意图；

图2是本发明提供的基于中粒度用户分组的资源推荐方法的一个优选的实施例中的一种用户描述数据的示意图；

图3是本发明提供的基于中粒度用户分组的资源推荐方法的一个优选的实施例中的一种资源描述数据的示意图；

图4是本发明提供的基于中粒度用户分组的资源推荐装置的一个优选的实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明根据用户的影响力以及用户的关注主题对用户进行分类，获得若干中粒度的用户分组，并按照所获得的用户分组向相应的用户推荐资源，能够提高向用户推荐资源的准确度和速度。

如图1所示，为本发明提供的基于中粒度用户分组的资源推荐方法的一个优选的实施例的流程示意图，包括步骤S11至S16，具体如下：

S11：采集N个用户的资源使用数据；其中，所述资源使用数据包括在线使用数据和离线使用数据；N>1；

S12：根据每个所述资源使用数据，获得每个所述用户的影响力；

S13：根据每个所述影响力，将所述N个用户中的K个用户分别设置为K个分组的标准用户，并将所述N个用户中的其余N-K个用户设置为待分组用户；其中，0<K≤N；

S14：根据每个所述资源使用数据，获得每个所述待分组用户与每个所述标准用户之间的关注主题相似度；

S15：将每个所述待分组用户分别分入与其之间的所述关注主题相似度最高的标准用户所对应的分组；

S16：向每个所述分组中的每个用户推荐其所在分组中的标准用户的推荐资源。

需要说明的是，用户在使用资源之后会产生相应的资源使用数据，该资源使用数据中包括用户的关注主题数据等。系统采集N个用户在使用了M个资源之后所产生的资源使用数据，并根据该资源使用数据计算获得该N个用户中每个用户的影响力。其中，M>0。随后，系统根据每个用户的影响力，在该N个用户中选中K个用户，并将该K个用户分别设置为K个分组的标准用户，其中，该K个标准用户与该K个分组具有一一对应关系。与此同时，系统将该N个用户中的剩余用户设置为待分组用户。在完成用户身份的设置之后，系统将每个待分组用户的关注主题数据与每个标准用户的关注主题数据分别一一进行比较，从而获得每个待分组用户与每个标准用户之间的关注主题相似度。最后，比较每个待分组用户所对应的所有关注主题相似度，并将该带分组用户分入其中最高关注主题相似度所对应的标准用户所在的分组。例如，某一待分组用户D与标准用户A、B、C之间的关注主题相似度分别为10％、30％、90％，则将该待分组用户D分入标准用户C所在的分组。在完成用户分组之后，即可向各个分组中的用户推荐相应的资源，一般地，向属于同一分组中的所有用户推荐所在的分组中的标准用户的喜欢的、常用的或者感兴趣的资源。

可以理解的是，上述资源可以为教学资源、医疗方案、精品文本、优秀视频、热门音频等。

需要进一步说明的是，上述资源使用数据中包括在线使用数据和离线使用数据。其中，在线数据包括了搜索引擎可得数据、在线社交网络中的用户产生数据(UGC)等互联网中可以搜集到的数据。离线数据指的是用户主动贡献出来的暗网(深网，不可见网，隐藏网)数据、生活中相关统计数据等。其中，暗网数据指的是指那些存储在网络数据库里、但不能通过超链接访问而需要通过动态网页技术访问的资源集合，不属于那些可以被标准搜索引擎索引的表面网络。

通过从网络中获取用户在线或/和离线的资源使用数据，获得用户的影响力和用户的关注主题，并根据用户的影响力和用户的关注主题对用户进行分组，从而可以获得粒度适中的用户分组，使得推荐过程的运算数据量降低，但同时能够保证推荐所依据的样本数据量充足，为后续的推荐过程奠定基础，因此能够提高向用户推荐资源的准确度和速度。

在另一个优选的实施例中，在上述优选的实施例的基础之上，每个所述资源使用数据包括在线使用数据I₁，I₂，I₃，…，I_n以及离线使用数据I'；其中，I₁，I₂，I₃，…，I_n为从n个在线网络中采集获得的使用数据；

需要说明的是，系统是根据所采集的包括在线使用数据或/和离线使用数据的资源使用数据来计算获得用户的影响力的。其中，公式中的各使用数据的权重的值可以根据使用数据的来源网络的重要性或具体的数据情况来决定。

通过结合在线及离线两个维度的数据计算用户的影响力，从而能够大大提高数据的全面性、可靠性，进一步提高向用户推荐资源的准确度。

在又一个优选的实施例中，在上述优选的实施例的基础之上，所述根据每个所述资源使用数据，获得每个所述待分组用户与每个所述标准用户之间的关注主题相似度，具体包括：

需要说明的是，所采用的主题模型分析法可以为LDA(Latent DirichletAllocation，文档主题生成模型)方法。系统采用该主题模型分析法对用户的资源使用数据进行解析，从而计算获得用户的关注主题分布数据。其中，关注主题分布数据为用户对各个主题的感兴趣程度或者关注程度的分布数据。系统在获得每个用户的关注主题分布数据之后，根据所获得的关注主题分布数据计算每个待分组用户与每个标准用户之间的关注主题的相似度，从而根据所获得的关注主题相似度对各个用户进行分组。

更优选地，所述K个用户为所述N个用户中所述影响力排名前K的用户。

需要说明的是，系统在采集获得各个用户的资源使用数据之后，对该资源使用数据进行分析，获得各个用户所贡献的资源传播情况(如，传播范围、深度、速度等)，即计算获得各个用户的影响力。在计算获得各个用户的影响力之后，对每个用户的影响力按照数值从高到低进行排序，并将排名前K的影响力所对应的用户分别对应设置为K个分组的标准用户。

更优选地，所述资源使用数据中包括资源描述数据及用户描述数据；其中，所述用户描述数据中包括对应的用户的关注主题数据。

需要说明的是，资源使用数据中包括资源描述数据及用户描述数据。其中，资源描述数据及用户描述数据均随着用户的对资源的使用情况变化而不断变化。

用户描述数据包括用户所贡献的资源数据、对资源的历史使用数据和历史评价数据等。其中，历史使用数据中记录了用户对资源的历次使用情况(如，使用持续时间、跳转率等)；历史评价数据中记录了用户在系统中的反馈信息(如，评分值、点击量等)。如图2所示，为一种用户描述数据的示意图。

资源描述数据包括资源的特征信息、资源来源信息、所属主题信息、所适用用户信息、用户使用次数数据、历史评价数据和可扩展项数据等。其中，资源来源信息指的是系统中贡献该资源的某注册用户的信息；所属主题信息是用户提供的关键词或主题模型分析得出的关键词信息；所适用用户信息可以是用户提供或者是综合使用记录后的总结得出的可以适用的用户的信息；用户使用次数数据主要是指用户对资源的有效使用总次数；历史评价数据指的是资源被用户评价的历史记录数据；可扩展项数据是根据系统和算法优化的需要而预留的数据。如图3所示，为一种资源描述数据的示意图。

可以理解的是，在用户首次进入系统之后，系统为该用户分配唯一的用户标识，并建立相应的用户描述数据。系统为系统中的每个资源分配唯一的资源标识，并根据每个资源的特征，添加相应的资源描述数据。

本发明实施例提供的基于中粒度用户分组的资源推荐方法，通过从网络中获取用户在线或/和离线的资源使用数据，获得用户的影响力和用户的关注主题，并根据用户的影响力和用户的关注主题对用户进行分组，从而可以获得粒度适中的用户分组，使得推荐过程的运算数据量降低，但同时能够保证推荐所依据的样本数据量充足，为后续的推荐过程奠定基础，因此能够提高向用户推荐资源的准确度和速度。另外，通过结合在线及离线两个维度的数据计算用户的影响力，从而能够大大提高数据的全面性、可靠性，进一步提高向用户推荐资源的准确度。

相应地，基于中粒度用户分组的资源推荐装置，能够实现上述实施例中的基于中粒度用户分组的资源推荐方法的所有流程。

如图4所示，为本发明提供的基于中粒度用户分组的资源推荐装置的一个优选的实施例的结构示意图，具体如下：

资源使用数据获得模块41，用于采集N个用户的资源使用数据；其中，所述资源使用数据包括在线使用数据和离线使用数据；N>1；

用户影响力获得模块42，用于根据每个所述资源使用数据，获得每个所述用户的影响力；

用户身份设置模块43，用于根据每个所述影响力，将所述N个用户中的K个用户分别设置为K个分组的标准用户，并将所述N个用户中的其余N-K个用户设置为待分组用户；其中，0<K≤N；

关注主题相似度获得模块44，用于根据每个所述资源使用数据，获得每个所述待分组用户与每个所述标准用户之间的关注主题相似度；

用户分组模块45，用于将每个所述待分组用户分别分入与其之间的所述关注主题相似度最高的标准用户所对应的分组；以及，

资源推荐模块46，用于向每个所述分组中的每个用户推荐其所在分组中的标准用户的推荐资源。

则所述用户影响力获得模块42，具体包括：

在又一个优选的实施例中，在上述优选的实施例的基础之上，所述关注主题相似度获得模块44，具体包括：

本发明实施例提供的基于中粒度用户分组的资源推荐装置，通过从网络中获取用户在线或/和离线的资源使用数据，获得用户的影响力和用户的关注主题，并根据用户的影响力和用户的关注主题对用户进行分组，从而可以获得粒度适中的用户分组，使得推荐过程的运算数据量降低，但同时能够保证推荐所依据的样本数据量充足，为后续的推荐过程奠定基础，因此能够提高向用户推荐资源的准确度和速度。另外，通过结合在线及离线两个维度的数据计算用户的影响力，从而能够大大提高数据的全面性、可靠性，进一步提高向用户推荐资源的准确度。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于用户分组的资源推荐方法，其特征在于，包括：

根据每个所述资源使用数据，获得每个所述用户的影响力；

2.如权利要求1所述的基于用户分组的资源推荐方法，其特征在于，每个所述资源使用数据包括在线使用数据I₁，I₂，I₃，…，I_n以及离线使用数据I'；其中，I₁，I₂，I₃，…，I_n为从n个在线网络中采集获得的使用数据；

3.如权利要求1所述的基于用户分组的资源推荐方法，其特征在于，所述根据每个所述资源使用数据，获得每个所述待分组用户与每个所述标准用户之间的关注主题相似度，具体包括：

4.如权利要求1至3中任一项所述的基于用户分组的资源推荐方法，其特征在于，所述K个用户为所述N个用户中所述影响力排名前K的用户。

5.如权利要求1至3中任一项所述的基于用户分组的资源推荐方法，其特征在于，所述资源使用数据中包括资源描述数据及用户描述数据；其中，所述用户描述数据中包括对应的用户的关注主题数据。

6.一种基于用户分组的资源推荐装置，其特征在于，包括：

7.如权利要求6所述的基于用户分组的资源推荐装置，其特征在于，每个所述资源使用数据包括在线使用数据I₁，I₂，I₃，…，I_n以及离线使用数据I'；其中，I₁，I₂，I₃，…，I_n为从n个在线网络中采集获得的使用数据；

则所述用户影响力获得模块，具体包括：

8.如权利要求6所述的基于用户分组的资源推荐装置，其特征在于，所述关注主题相似度获得模块，具体包括：

9.如权利要求6至8中任一项所述的基于用户分组的资源推荐装置，其特征在于，所述K个用户为所述N个用户中所述影响力排名前K的用户。

10.如权利要求6至8中任一项所述的基于用户分组的资源推荐装置，其特征在于，所述资源使用数据中包括资源描述数据及用户描述数据；其中，所述用户描述数据中包括对应的用户的关注主题数据。