CN103870541B

CN103870541B - 社交网络用户兴趣挖掘方法和系统

Info

Publication number: CN103870541B
Application number: CN201410062761.XA
Authority: CN
Inventors: 何秋菊; 高辉
Original assignee: Weimeng Chuangke Network Technology China Co Ltd
Current assignee: Weimeng Chuangke Network Technology China Co Ltd
Priority date: 2014-02-24
Filing date: 2014-02-24
Publication date: 2017-05-31
Anticipated expiration: 2034-02-24
Also published as: CN103870541A

Abstract

本发明公开了一种社交网络用户兴趣挖掘方法，其特征在于，包括：将社交网络中的各用户针对各自关注的对象所划分的用户组进行排重处理后，得到所述社交网络中的各用户组；对于预先设置的每个兴趣类别，选取一个用户组作为与该兴趣类别相对应的兴趣核心组；针对选取出的每个兴趣核心组，计算其它用户组与该兴趣核心组的相似度，将相似度高于设定阈值的用户组作为该兴趣核心组下的兴趣广义组；对于所述社交网络中的每个用户，根据包含该用户的兴趣广义组所对应的兴趣类别确定该用户的兴趣挖掘结果。应用本发明，可以提高兴趣挖掘的准确度。

Description

社交网络用户兴趣挖掘方法和系统

技术领域

本发明涉及互联网技术，尤其涉及一种社交网络用户兴趣挖掘方法和装置。

背景技术

随着互联网技术的发展，互联网上的海量信息与用户对信息的有效获取能力形成了强烈的反差。为了提高用户查找信息的满意度，在社交网络SNS（Social NetworkService，社交网络服务）中，根据用户的兴趣而有针对性地提供信息的个性化信息服务应运而生，而个性化信息服务的基础是用户兴趣的挖掘。

实际应用中，在社交网络用户的行为一般是主动进行的，例如，自行定义或选择标签，浏览页面，使用站内产品或第三方APP，发表博文或对其他博文内容的点赞或收藏，关注其他用户并将其关注的对象划分到自行设置的各用户组内等。而上述这些社交网络用户的行为能够在一定程度上反映出用户的兴趣。因此，社交网络中，可以根据用户的这些网络行为来进行用户的兴趣挖掘。

目前，对于社交网络用户的兴趣挖掘，一般可以采用基于用户博文的兴趣挖掘方法。具体地，由于用户博文具体可以是用户发表的，也可以是用户点赞或收藏的，能够在一定程度上反映出用户的兴趣，因此，可以通过对用户博文进行语义解析，以此提取用户的兴趣。然而，事实上，用户博文的形式复杂，歧义较多，因此，对其进行内容分析难度大，且语义解析量大，导致基于用户博文的兴趣挖掘方法的算法复杂且解析结果的准确度不高；而且，对于一些主动行为较少的浏览型用户，可能会存在没有博文的情况，导致采用现有的这种基于用户博文的兴趣挖掘方法无法挖掘出这些浏览型用户的兴趣。

现有技术中，还存在基于用户标签的兴趣挖掘方法。具体地，可以根据标签的具体内容，将标签归类到相应的兴趣类别后，再根据用户的自定义标签及其所属的兴趣类别，分析出用户的兴趣。然而，自定义标签是由用户生成或选择的，实际应用中，存在部分标签太泛化导致无法归类到兴趣类别的问题，还存在用户未打标签或随意打标签的情况。因此，若采用基于用户标签的兴趣挖掘方法，仅根据用户的自定义标签来挖掘出用户兴趣，其准确度不高。而且，对于主动行为较少的浏览型用户，可能会出现没有自定义标签的情况，导致采用基于用户标签的兴趣挖掘方法也无法挖掘出这些浏览型用户的兴趣。

综上所述，现有的社交网络用户兴趣挖掘方法，兴趣挖掘的准确度不高，尤其对于主动行为较少的浏览型用户的兴趣则无法进行挖掘。

发明内容

本发明实施例提供了一种社交网络用户兴趣挖掘方法和系统，用以提高兴趣挖掘的准确度。

根据本发明的一个方面，提供了一种社交网络用户兴趣挖掘方法，包括：

将社交网络中的各用户针对各自关注的对象所划分的用户组进行排重处理后，得到所述社交网络中的各用户组；

对于预先设置的每个兴趣类别，选取一个用户组作为与该兴趣类别相对应的兴趣核心组；

针对选取出的每个兴趣核心组，计算其它用户组与该兴趣核心组的相似度，将相似度高于设定阈值的用户组作为该兴趣核心组下的兴趣广义组；

对于所述社交网络中的每个用户，根据包含该用户的兴趣广义组所对应的兴趣类别确定该用户的兴趣挖掘结果。

较佳地，在所述针对选取出的每个兴趣核心组，计算其它用户组与该兴趣核心组的相似度，将相似度高于设定阈值的用户组作为该兴趣核心组下的兴趣广义组之后，还包括：

对于所述社交网络中的每个用户，统计出包含该用户的兴趣广义组的个数，作为该用户的被广义分组次数；

针对每个兴趣广义组，计算出该兴趣广义组内的所有用户的被广义分组次数之和，作为该兴趣广义组的分组次数和值；

对于该兴趣广义组内的每个用户，根据该用户的被广义分组次数和该兴趣广义组的分组次数和值，计算出该用户的广义组内权重；以及

所述根据包含该用户的兴趣广义组所对应的兴趣类别确定该用户的兴趣挖掘结果，具体包括：

选取该用户的广义组内权重最大的兴趣广义组，将选取的兴趣广义组所属的兴趣核心组所对应的兴趣类别作为该用户的兴趣挖掘结果。

较佳地，所述针对选取出的每个兴趣核心组，计算其它用户组与该兴趣核心组的相似度，具体包括：

对于所述社交网络中的每个用户，统计出包含该用户的用户组的个数，作为该用户的被分组次数；

针对所述社交网络中的每个用户组，计算出该用户组内的所有用户的被分组次数之和，作为该用户组的分组次数和值；并对于该用户组内的每个用户，根据该用户的被分组次数和该用户组的分组次数和值，计算出该用户在该用户组内的组内权重；

针对选取出的每个兴趣核心组，对于除该兴趣核心组之外的其它用户组中的一个用户组，将其作为涉及相似度计算的用户组a、将该兴趣核心组作为涉及相似度计算的用户组b，根据如下公式1计算出用户组a与b之间的相似度x：

其中，w_aj为用户组a与用户组b之间的第j个重合用户在用户组a中的组内权重，w_bj为用户组a与用户组b之间的第j个重合用户在用户组b中的组内权重，n为a与b之间的重合用户的总数，j取值为1～n的自然数；

其中，用户组a与用户组b之间的重合用户指的是用户组a与用户组b共同包含的用户。

较佳地，所述选取一个用户组作为与该兴趣类别相对应的兴趣核心组，具体包括：

对于预先设置的每个兴趣类别，将组名与该兴趣类别的名称相同的用户组作为与该兴趣类别相对应的兴趣核心组。

较佳地，在所述根据包含该用户的兴趣广义组所对应的兴趣类别确定该用户的兴趣挖掘结果后，还包括：

将该兴趣挖掘结果作为该用户的基于被分组信息的兴趣挖掘结果后，还根据该用户的至少一种网络行为信息，分别确定基于各网络行为信息的兴趣挖掘结果；所述网络行为信息包括：用户自定义的标签、用户对社交网络的站内产品以及第三方应用的使用频次、用户站外网页浏览的反向链接、用户的博文；

根据该用户的基于被分组信息的兴趣挖掘结果，以及基于各网络行为信息的兴趣挖掘结果，确定出该用户最终的兴趣类别。

较佳地，所述根据该用户的基于被分组信息的兴趣挖掘结果，以及基于各网络行为信息的兴趣挖掘结果，确定出该用户最终的兴趣类别，具体包括：

将用户的基于被分组信息的兴趣挖掘结果，以及基于各网络行为信息的兴趣挖掘结果，作为该用户所涉及的各兴趣类别后，针对该用户所涉及的每个兴趣类别，统计出该兴趣类别在该用户的兴趣挖掘结果中出现的次数；将统计出的次数与该用户的兴趣挖掘结果总数的比值，确定为该用户的该兴趣类别的兴趣重合率；

针对该用户所涉及的每个兴趣类别，统计出该兴趣类别在该用户所关注的对象的兴趣挖掘结果中所占的比例，作为该兴趣类别的兴趣占比数；

针对该用户所涉及的每个兴趣类别，根据该兴趣类别的兴趣重合率以及兴趣占比数，对该用户的该兴趣类别进行评分；

选取评分最高的兴趣类别作为该用户最终的兴趣类别。

根据本发明的另一个方面，还提供了一种社交网络用户兴趣挖掘系统，包括：

用户组确定模块，用于将社交网络中的各用户针对各自关注的对象所划分的用户组进行排重处理后，得到所述社交网络中的各用户组；

核心组选取模块，用于对于预先设置的每个兴趣类别，从所述用户组确定模块得到的各用户组中，选取一个用户组作为与该兴趣类别相对应的兴趣核心组；

广义组确定模块，用于针对由所述核心组选取模块选取出的每个兴趣核心组，计算各用户组与该兴趣核心组的相似度，将相似度高于设定阈值的用户组作为该兴趣核心组下的兴趣广义组；

第一兴趣挖掘模块，用于对于社交网络中的每个用户，根据包含该用户的兴趣广义组所对应的兴趣类别确定该用户的兴趣挖掘结果。

较佳地，所述社交网络用户兴趣挖掘系统还包括：

广义组内权重计算模块，用于对于每个用户，统计出包含该用户的兴趣广义组的个数，作为该用户的被广义分组次数；针对每个兴趣广义组，计算出该兴趣广义组内的所有用户的被广义分组次数之和，作为该兴趣广义组的分组次数和值；对于该兴趣广义组内的每个用户，根据该用户的被广义分组次数和该兴趣广义组的分组次数和值，计算出该用户的广义组内权重；以及

所述第一兴趣挖掘模块具体用于对于社交网络中的每个用户，选取该用户的广义组内权重最大的兴趣广义组，将选取的兴趣广义组所属的兴趣核心组所对应的兴趣类别作为该用户的兴趣挖掘结果进行输出。

较佳地，所述社交网络用户兴趣挖掘系统还包括：

第二兴趣挖掘模块，用于根据所述社交网络中的用户的至少一种网络行为信息，分别确定基于各网络行为信息的兴趣挖掘结果；所述网络行为信息包括：用户自定义的标签、用户对社交网络的站内产品以及第三方应用的使用频次、用户站外网页浏览的反向链接、用户的博文；

兴趣类别确定模块，用于对于所述社交网络中的用户，将第一兴趣挖掘模块输出的该用户的兴趣挖掘结果作为该用户的基于被分组信息的兴趣挖掘结果，并还根据所述第二兴趣挖掘模块输出的该用户的基于各网络行为信息的兴趣挖掘结果，确定出该用户最终的兴趣类别。

较佳地，所述第二兴趣挖掘模块具体包括以下至少一个单元：

基于标签的兴趣挖掘单元，用于根据所述社交网络中的用户自定义的标签，确定出该用户的基于标签的兴趣挖掘结果；

基于博文的兴趣挖掘单元，用于根据所述社交网络中的用户对站内产品或第三方应用的使用频次，确定出该用户的基于博文的兴趣挖掘结果；

基于产品应用的兴趣挖掘单元，用于根据所述社交网络中的用户对社交网络的站内产品以及第三方应用的使用频次，确定出该用户的基于产品应用的兴趣挖掘结果；

基于网页浏览的兴趣挖掘单元，用于根据所述社交网络中的用户站外网页浏览的反向链接，确定出该用户的基于网页浏览的兴趣挖掘结果。

本发明实施例的技术方案中，通过可以根据社交网络中的用户对其他用户的分组情况，确定出社交网络中的各用户组，再结合与社交网络的兴趣类别相对应的兴趣核心组，确定出社交网络用户的兴趣类别。这样，对于主动行为较少的浏览型用户，也可以通过别的用户对浏览型用户的分组情况，来挖掘出浏览型用户的兴趣类别，避免了浏览型用户的兴趣挖掘数据的缺失，提高了社交网络用户兴趣挖掘的准确度。进一步地，结合根据基于被分组信息的兴趣挖掘结果，以及基于各用户网络行为信息的兴趣挖掘结果，增加了进行用户兴趣挖掘的源数据，可降低数据冷启动的概率。而且，通过对确定出的用户所涉及的每个兴趣类别进行评分排序，根据更全面的用户信息来确定用户的兴趣类别，大大提高了兴趣挖掘的准确度。

附图说明

图1a为本发明实施例的社交网络用户兴趣挖掘方法流程图；

图1b为本发明实施例的另一种社交网络用户兴趣挖掘方法流程图；

图2为本发明实施例的社交网络用户兴趣挖掘系统的内部结构示意图；

图3为本发明实施例的兴趣类别确定模块的内部结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举出优选实施例，对本发明进一步详细说明。然而，需要说明的是，说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解，即便没有这些特定的细节也可以实现本发明的这些方面。

本申请使用的“模块”、“系统”等术语旨在包括与计算机相关的实体，例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如，模块可以是，但并不仅限于：处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说，计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内。

本发明的发明人考虑到，对于社交网络的每个用户，可以根据其他用户对该用户的了解来挖掘出该用户的兴趣。例如，可以根据关注了该用户的其他用户对该用户的分组情况，来挖掘该用户的兴趣。这样，对于主动行为较少的浏览型用户，即使在缺失博文或自定义标签的情况下，仍然可以挖掘该用户的兴趣，从而提高社交网络用户兴趣挖掘的准确度。

本发明的发明人进一步考虑到，还可以在获取基于被分组信息的兴趣挖掘结果的同时，还可以根据该用户的至少一种网络行为信息，确定出的基于各网络行为信息的兴趣挖掘结果。并综合考虑基于被分组信息的兴趣挖掘结果以及基于各网络行为信息的兴趣挖掘结果，确定出社交网络用户最终的兴趣类别，以更进一步提高社交网络用户兴趣挖掘的准确度。

下面结合附图详细说明本发明的技术方案。

事实上，社交网络中的用户（简称为社交网络用户）往往会根据自己对其所关注的用户的了解，将被关注的用户进行用户组划分。这样，对于同一个用户，其可能会被其他用户划分到不同的用户组内，导致社交网络用户自行设置的分组情况非常复杂。例如，用户a自行设置有歌手组、演员组、棒球组、吃货组、美食组等初始用户组，且根据自己对其关注的用户c的了解，将用户c划分到歌手组；而用户b则可能将用户c划分到其设置的艺人组。

基于上述考虑，本发明实施例提供了一种社交网络用户兴趣挖掘方法，具体流程如图1a所示，包括如下步骤：

S101：将社交网络中的各用户针对各自关注的对象所划分的用户组进行排重处理后，得到社交网络中的各用户组。

具体地，可以针对社交网络中的每个用户，获取该用户针对其所关注的对象自行划分的用户组，其中，该用户为其自行划分的用户组，设置有组名，每个划分的用户组内包含其在社交网络中关注的用户。

进而，将获取到的社交网络中的每个用户所划分的用户组进行排重处理，包括：组名排重处理，以及组内用户排重处理。

在进行组名排重处理时，可以将具有相同组名的用户组进行合并，成为社交网络中的一个大的用户组；同时，将没有与之同名的用户组直接作为社交网络中的一个用户组。

之后，可以进行组内用户排重处理：对于社交网络中的各用户组，将该用户组内具有相同用户名的用户进行合并。这样，即可将经过排重处理后得到的用户组，作为社交网络中的各用户组。

经过排重处理后得到的社交网络中的各用户组中，不存在两个具有相同组名的用户组；在任意一个用户组内，不存在两个具有相同用户名的用户。这样，既维持了社交网络中的各用户组的真实性及唯一性，保证了兴趣挖掘的准确度，也便于简化对确定出的用户组的处理，减小用户兴趣挖掘算法的复杂度。

S102：对于预先设置的每个兴趣类别，选取一个用户组作为与该兴趣类别相对应的兴趣核心组。

具体地，可以在预先设置若干个社交网络的兴趣类别后，针对每个兴趣类别，选取社交网络中的一个用户组作为与该兴趣类别相对应的兴趣核心组。例如，可以将社交网络中组名与该兴趣类别的名称相同的用户组，确定为与该兴趣类别相对应的兴趣核心组。

其中，社交网络的兴趣类别可以通过人工梳理的方式预先设置，例如，从门户频道名称及业内导航网站分类中，梳理出设定数量的社交网络的兴趣类别的名称；也可以根据确定出社交网络的中各用户组的规模大小，按照小类归并到大类、大类无歧义的原则，对社交网络中的所有用户组的组名进行归类处理，得到设定数量的归类核心组名，并将得到的归类核心组名分别设置为不同的兴趣类别的名称。

S103：针对选取出的每个兴趣核心组，计算各用户组与该兴趣核心组的相似度，将相似度高于设定阈值的用户组作为该兴趣核心组下的兴趣广义组。

具体地，可以针对每个用户组，对于该用户组内的每个用户，计算出该用户在该用户组内的组内权重；针对选取出的每个兴趣核心组，对于除该兴趣核心组之外的其它用户组中的一个用户组，将其作为涉及相似度计算的用户组a、将该兴趣核心组作为涉及相似度计算的用户组b，根据如下公式1计算出用户组a与b之间的相似度x：

其中，w_aj为用户组a与用户组b之间的第j个重合用户在用户组a中的组内权重，w_bj为用户组a与用户组b之间的第j个重合用户在用户组b中的组内权重，n为a与b之间的重合用户的总数，j取值为1～n的自然数。其中，用户组a与用户组b之间的重合用户指的是用户组a与用户组b共同包含的用户。

针对选取出的每个兴趣核心组，将相似度高于设定阈值的用户组作为该兴趣核心组下的兴趣广义组。实际应用中，兴趣广义组需满足的相似度的设定阈值是由本领域技术人员根据经验设置的，例如，可以将设定阈值设置为50%。这样，针对每个兴趣核心组，该兴趣核心组下的兴趣广义组与该兴趣核心组的相似度需不低于50%。事实上，通常与社交网络的兴趣类别相关性较高的用户组，就是与对应该兴趣类别的兴趣核心组具有高相似度的兴趣广义组。因此，通过设置的设定条件，可以将与社交网络的兴趣类别的相关性较低的用户组筛选出，也就是把一些对判断用户兴趣类别影响不大的（包括完全与兴趣判断无关的）用户组筛选出。这样，可以得到与预先设置的社交网络的兴趣类别相关性较高的兴趣广义组，从而保证后续根据确定出的兴趣广义组挖掘出用户的兴趣的准确度。

实际应用中，当社交网络中的一个用户组与该兴趣核心组的相似度为1（或100%）时，则说明该用户组与该兴趣核心组各自包含的用户完全相同，也就是说，该用户组与该兴趣核心组完全一样。而当一个用户组与该兴趣核心组的相似度为0时，则说明该用户组与该兴趣核心组之间没有一个重合用户，也就是说，该用户组与该兴趣核心组完全没有重合性。

其中，计算用户在用户组内的组内权重的具体方法为：对于社交网络中的每个用户，可以统计出包含该用户的用户组的个数，作为该用户的被分组次数。继而，针对社交网络中的每个用户组，计算出该用户组内的所有用户的被分组次数之和，作为该用户组的分组次数和值；并对于该用户组内的每个用户，根据该用户的被分组次数和该用户组的分组次数和值，计算出该用户在该用户组内的组内权重。例如，可以将该用户的被用户组次数与该用户组的用户组次数和值的比值作为该用户在该用户组内的组内权重。这样，对于任意一个用户组，该用户组内各用户的组内权重之和为1。当然，也可以将该用户组内每个用户的组内权重以百分比的形式表示，相应地，该用户组内所有用户的组内权重之和为100%。

作为一种更优地实施方式，针对每个兴趣核心组，计算出社交网络中的每个用户组与该兴趣核心组的相似度之后，还可以根据每个用户组与该兴趣核心组之间的重合用户，确定出每个用户组与该兴趣核心组的用户重合率。

具体地，针对每个兴趣核心组，对于社交网络中的每个用户组，将该用户组与该兴趣核心组之间的重合用户的总数与该用户组内的用户总数的比值作为该用户组与该兴趣核心组的用户重合率。相应地，将与该兴趣核心组的相似度、用户重合率均满足设定条件的用户组作为该兴趣核心组下的兴趣广义组。例如，可以将设定条件设置为：（x-0.2）×（y-0.2）≥1/25。这样，确定出的该兴趣核心组下的兴趣广义组与该兴趣核心组的相似度x、用户重合率y一定满足：（x-0.2）×（y-0.2）≥1/25。这样，可以筛选出该兴趣核心组下与该兴趣核心组具有高重合度及高相似度的兴趣广义组，从而保证后续根据确定出的兴趣广义组挖掘出用户的兴趣的准确度。

S104：对于社交网络中的每个用户，根据包含该用户的兴趣广义组所对应的兴趣类别确定该用户的兴趣挖掘结果。

具体地，可以对于社交网络中的每个用户，根据包含该用户的兴趣广义组所对应的兴趣类别，从中选取一个兴趣类别作为该用户的兴趣挖掘结果。例如，当包含该用户的兴趣广义组只有一个时，可以直接将该兴趣广义组所对应的兴趣类别确定为该用户的兴趣挖掘结果。

更优地，对于社交网络中的每个用户，当包含该用户的兴趣广义组具有多个时，可以统计出包含该用户的兴趣广义组的个数，作为该用户的被广义分组次数。继而，针对每个兴趣广义组，计算出该兴趣广义组内的所有用户的被广义分组次数之和，作为该兴趣广义组的分组次数和值；并对于该兴趣广义组内的每个用户，根据该用户的被广义分组次数和该兴趣广义组的分组次数和值，计算出该用户的广义组内权重。例如，可以将该用户的被广义分组次数与该兴趣广义组的分组次数和值的比值，作为该用户的广义组内权重。这样，可以选取该用户的广义组内权重最大的兴趣广义组，并将选取的兴趣广义组所属的兴趣核心组所对应的兴趣类别作为该用户的兴趣挖掘结果。

本发明实施例的技术方案中，针对社交网络中的每个用户，可以通过其他用户对该用户的分组情况，挖掘出该用户的兴趣，对于主动行为较少的浏览型用户的兴趣也可以进行挖掘，提高了社交网络用户兴趣挖掘的准确度。

为更进一步提高社交网络用户兴趣挖掘的准确度，更优地，在将根据包含社交网络用户的兴趣广义组所对应的兴趣类别确定该用户的兴趣挖掘结果后，将该兴趣挖掘结果作为该用户的基于被分组信息的兴趣挖掘结果（本文中也称为第一兴趣挖掘结果），还可根据用户的其他网络行为信息进行用户兴趣挖掘，得到基于各网络行为信息的兴趣挖掘结果，并综合考虑各兴趣挖掘结果确定出社交网络用户最终的兴趣类别，具体方法还包括如下步骤：

S105：根据该用户的至少一种网络行为信息，分别确定基于各网络行为信息的兴趣挖掘结果。

其中，该用户的网络行为信息具体可以包括：用户自定义标签、用户对社交网络的站内产品以及第三方应用的使用频次、用户站外网页浏览的反向链接、以及用户的博文。

例如，可以根据社交网络中的用户的自定义标签，确定出该用户的基于标签的兴趣挖掘结果（本文中也称为第二兴趣挖掘结果）。具体地，可以根据预先设置的社交网络的兴趣类别，采用本领域技术人员所公知的基于用户标签的兴趣挖掘方法，确定出该用户的第二兴趣挖掘结果。

实际应用中，由于社交网络的站内产品以及第三方应用的属性都可以在一定程度上反映出使用者的兴趣爱好。例如，站内产品微游戏，其本身的属性是游戏，因此，微游戏的用户具有一定程度上的游戏兴趣；经常使用虾米音乐、音乐电台等第三方应用的用户，其具有一定程度上的音乐兴趣。因此，可以根据社交网络中的用户对社交网络的站内产品以及第三方应用的使用频次，确定出该用户的基于产品应用的兴趣挖掘结果（本文中也称为第三兴趣挖掘结果）。具体地，可以根据预先设置的社交网络的兴趣类别，对站内产品以及第三方应用的属性进行兴趣类别的划分；然后，根据该用户对站内产品或第三方应用的使用频次，可以将使用频次最高的站内产品或第三方应用的属性所属的兴趣类别确定为该用户的第三兴趣挖掘结果。

同样，用户经常浏览的网站也可以在一定程度上反映出用户的兴趣爱好，因此，在本发明的技术方案中，可以根据社交网络中的用户站外网页浏览的反向链接，确定出该用户的基于网页浏览的兴趣挖掘结果（本文中也称为第四兴趣挖掘结果）。具体地，预先收集社交网络用户之前的站外浏览网页的数据，例如，网页的名称、类型、属性及访问人群等；然后根据预先设置的社交网络的兴趣类别以及收集的数据，对站外浏览网页进行兴趣类别定位。继而，可以根据该用户浏览界面的反向链接确定出该用户的浏览习惯路径后，根据该用户的浏览习惯路径所涉及的网页的兴趣类别定位，确定出该用户的第四兴趣挖掘结果。

同样，用户的博文能够在一定程度上反映出用户的兴趣，因此，可以根据社交网络用户的博文，确定出该用户的基于博文的兴趣挖掘结果（本文中也称为第五兴趣挖掘结果）。具体地，根据预先设置的社交网络的兴趣类别，可以采用本领域技术人员所公知的基于用户博文的兴趣挖掘方法，确定出该用户的第五兴趣挖掘结果。

实际应用中，上述基于被分组信息的兴趣挖掘结果与基于网络行为信息所确定出的用户的兴趣挖掘结果可能相同，也可能不相同。因此，为了提高用户兴趣挖掘的准确度，在步骤S105之后，还需对基于被分组信息的兴趣挖掘结果、以及基于网络行为信息所确定出的兴趣挖掘结果进行整理，从中选取准确度更高的兴趣挖掘结果作为该用户的兴趣类别。

S106：根据用户的基于被分组信息的兴趣挖掘结果，以及基于各网络行为信息的兴趣挖掘结果，确定出该用户最终的兴趣类别。

具体地，可以将社交网络用户的基于被分组信息的兴趣挖掘结果，以及基于各网络行为信息的兴趣挖掘结果，作为目前得到的该用户所涉及的各兴趣类别；针对该用户所涉及的每个兴趣类别，计算出该兴趣类别的兴趣重合率；统计出该兴趣类别在该用户所关注的对象的兴趣挖掘结果中所占的比例，作为该兴趣类别的兴趣占比数。继而，针对该用户所涉及的每个兴趣类别，根据该兴趣类别的兴趣重合率以及兴趣占比数，对该用户的该兴趣类别进行评分；选取评分最高的兴趣类别作为该用户最终的兴趣类别。这样，通过该用户所涉及的各种兴趣类别的评分排序，即可挖掘出该社交网络用户最强烈的兴趣，提高了兴趣挖掘的准确度。

其中，可以针对社交网络用户所涉及的每个兴趣类别，统计出该兴趣类别在该用户的兴趣挖掘结果中出现的次数后，将统计出的次数与该用户的兴趣挖掘结果总数的比值，确定为该用户的该兴趣类别的兴趣重合率。

例如，对于用户a，由步骤S101-S105确定出的兴趣挖掘结果包括：兴趣类别A、兴趣类别B、兴趣类别A、兴趣类别C、兴趣类别B。这样，可以统计出用户a所涉及的各兴趣类别包括：兴趣类别A、兴趣类别B、兴趣类别C，且兴趣类别A的出现次数为2，兴趣类别B的出现次数为2，兴趣类别C的出现次数为1。所以，兴趣类别A的兴趣重合率为2/5，兴趣类别B的兴趣重合率为2/5，兴趣类别C的兴趣重合率为1/5。

其中，可以针对该用户所涉及的每个兴趣类别，统计出在该用户所关注的对象的兴趣挖掘结果中包含了该兴趣类别的兴趣挖掘结果总数，作为该兴趣类别在该用户所关注的对象的兴趣挖掘结果中的出现总数。继而，计算出该用户所关注的各对象的兴趣挖掘结果的个数之和，作为该用户所关注的对象的兴趣挖掘结果总数。最后，将该兴趣类别在该用户所关注的对象的兴趣挖掘结果中的出现总数与该用户所关注的对象的兴趣挖掘结果总数的比值，确定为该兴趣类别在该用户所关注的对象的兴趣挖掘结果中的兴趣占比数。

例如，假设用户a所关注的对象包括：用户b、用户c、用户d、用户e；且用户a所涉及的兴趣类别A在用户b的兴趣挖掘结果中的出现次数为3，在用户c的兴趣挖掘结果中的出现次数为1，在用户d的兴趣挖掘结果中的出现次数为2，而在用户e的兴趣挖掘结果中的出现次数为2。这样，用户a所涉及的兴趣类别A在所关注的对象的兴趣挖掘结果中的出现总数为8。进一步，假设用户a所关注的对象的兴趣挖掘结果总数12。那么用户a所涉及的兴趣类别A在用户a所关注的对象的兴趣挖掘结果中的兴趣占比数为8/12。

关于上述针对该用户所涉及的每个兴趣类别，根据该兴趣类别的兴趣重合率以及兴趣占比数，对该用户的该兴趣类别进行评分。具体地，可以按照预先设置的兴趣重合率权重和兴趣占比数权重，根据计算出的该兴趣类别的兴趣重合率以及兴趣占比数，对该用户的该兴趣类别进行评分。例如，可以将兴趣重合率权重与该兴趣类别的兴趣重合率的乘积，累加到兴趣占比数权重与该兴趣类别的兴趣占比数乘积上，得到该用户的该兴趣类别的评分。

实际应用中，无论是基于用户博文的兴趣挖掘方法，还是基于用户标签的兴趣挖掘方法，都需要用到足够的数据源，例如大量的用户博文，或大量的用户自定义标签。这样，在数据源匮乏时，例如在社交网络初期用户较少，用户信息较少时，若采用上述两种现有的兴趣挖掘方法，则出现数据冷启动的概率非常大。因此，为减少数据冷启动的概率，本发明提供的技术方案中，根据用户的多种网络行为，运用多种方式分别确定出用户的兴趣挖掘结果，然后对确定出的兴趣挖掘结果进行评分排序，从中将用户最强烈的兴趣类别作为社交网络用户的兴趣类别。这样，就可以增加用户兴趣挖掘的数据源，实现降低数据冷启动的概率的同时，根据更全面的用户信息来确定用户的兴趣，大大提高了社交网络用户兴趣挖掘的准确度。

更优地，在对该用户所涉及的每个兴趣类别进行评分之前，还可以将兴趣重合率低于设定阈值、且在该用户所关注的对象的兴趣挖掘结果中的兴趣占比数低于设定比例值的兴趣类别删除。

其中，兴趣重合率的设定阈值，以及兴趣占比数的设定比例值具体是由本领域技术人员预先进行设置的。例如，兴趣重合率的设定阈值为0.4，兴趣占比数的设定比例值为10%。若用户a的兴趣类别-美食的兴趣重合率仅为0.2，兴趣类别-美食在该用户所关注的用户的所有兴趣挖掘结果中的兴趣占比数仅为2%，因此，可以认为用户a的美食兴趣不强烈，将兴趣类别-美食从用户a的兴趣类别中删除。

相应地，在将兴趣重合率低于设定阈值、且在该用户所关注的用户的所有兴趣挖掘结果中的兴趣占比数低于设定比例值的兴趣类别删除之后，可以根据预先设置的兴趣重合率权重和兴趣占比数权重，对剩余的该用户所涉及的每个兴趣类别进行评分。其中，剩余的每个兴趣类别是指兴趣重合率不低于设定阈值的兴趣挖掘结果、或兴趣占比数不低于设定比例值的兴趣类别。这样，可以将兴趣不强烈的兴趣类别进行排除，使得最终确定的社交网络用户兴趣的准确度更高。

基于上述社交网络用户兴趣挖掘方法，本发明实施例还提供了一种社交网络用户兴趣挖掘系统，如图2所示，具体包括：用户组确定模块201、核心组选取模块202、广义组确定模块203、第一兴趣挖掘模块204。

其中，用户组确定模块201用于将社交网络中的各用户针对各自关注的对象所划分的用户组进行排重处理后，得到所述社交网络中的各用户组。

核心组选取模块202用于对于预先设置的每个兴趣类别，从所述用户组确定模块得到的各用户组中，选取一个用户组作为与该兴趣类别相对应的兴趣核心组。

广义组确定模块203用于针对由所述核心组选取模块选取出的每个兴趣核心组，计算各用户组与该兴趣核心组的相似度，将相似度高于设定阈值的用户组作为该兴趣核心组下的兴趣广义组。

第一兴趣挖掘模块204用于对于社交网络中的每个用户，根据包含该用户的兴趣广义组所对应的兴趣类别确定该用户的兴趣挖掘结果。

更优地，本发明实施例中，社交网络用户兴趣挖掘系统还包括：广义组内权重计算模块205。

其中，广义组内权重计算模块205用于对于每个用户，统计出包含该用户的兴趣广义组的个数，作为社交网络中的用户的被广义分组次数；针对每个兴趣广义组，计算出该兴趣广义组内的所有用户的被广义分组次数之和，作为该兴趣广义组的分组次数和值；对于该兴趣广义组内的每个用户，根据该用户的被广义分组次数和该兴趣广义组的分组次数和值，计算出该用户的广义组内权重。

相应地，第一兴趣挖掘模块204具体用于对于社交网络中的每个用户，选取该用户的广义组内权重最大的兴趣广义组，将选取的兴趣广义组所属的兴趣核心组所对应的兴趣类别作为该用户的兴趣挖掘结果进行输出。

作为一种更优的实施方式，社交网络用户兴趣挖掘系统系统，还可以包括：第二兴趣挖掘模块206、兴趣类别确定模块207。

其中，第二兴趣挖掘模块206用于根据社交网络中的用户的至少一种网络行为信息，分别确定基于各网络行为信息的兴趣挖掘结果。而用户的网络行为信息可以包括：用户自定义的标签、用户对社交网络的站内产品以及第三方应用的使用频次、用户站外网页浏览的反向链接、用户的博文。

兴趣类别确定模块207用于对于社交网络中的用户，将第一兴趣挖掘模块204输出的该用户的兴趣挖掘结果作为该用户的基于被分组信息的兴趣挖掘结果，并还根据第二兴趣挖掘模块206输出的该用户的基于各网络行为信息的兴趣挖掘结果，确定出该用户最终的兴趣类别。

本发明实施例中，第二兴趣挖掘模块206可以包括以下至少一个单元：基于标签的兴趣挖掘单元、基于博文的兴趣挖掘单元302、基于产品应用的兴趣挖掘单元、基于网页浏览的兴趣挖掘单元。

其中，基于标签的兴趣挖掘单元用于根据社交网络中的用户自定义的标签，确定出该用户的基于标签的兴趣挖掘结果；

基于博文的兴趣挖掘单元用于根据社交网络中的用户对站内产品或第三方应用的使用频次，确定出该用户的基于博文的兴趣挖掘结果；

基于产品应用的兴趣挖掘单元用于根据社交网络中的用户对社交网络的站内产品以及第三方应用的使用频次，确定出该用户的基于产品应用的兴趣挖掘结果；

基于网页浏览的兴趣挖掘单元用于根据社交网络中的用户站外网页浏览的反向链接，确定出该用户的基于网页浏览的兴趣挖掘结果。

本发明实施例中，兴趣类别确定模块207的内部结构，如图3所示，具体包括：重合率确定单元301、占比数确定单元302、兴趣评分确定单元303。

其中，重合率确定单元301用于根据第一兴趣挖掘模块204确定出的基于被分组信息的兴趣挖掘结果，以及第二兴趣挖掘模块206确定出的基于各网络行为信息的兴趣挖掘结果，统计出社交网络中的用户所涉及的各兴趣类别；针对该用户所涉及的每个兴趣类别，统计出该兴趣类别在该用户的兴趣挖掘结果中出现的次数；将统计出的次数与该用户的兴趣挖掘结果总数的比值，确定为该用户的该兴趣类别的兴趣重合率。

占比数确定单元302用于针对社交网络中的用户所涉及的每个兴趣类别，统计出该兴趣类别在该用户所关注的对象的兴趣挖掘结果中所占的比例，作为该兴趣类别的兴趣占比数。

兴趣评分确定单元303用于针对社交网络中的用户所涉及的每个兴趣类别，根据该兴趣类别的兴趣重合率以及兴趣占比数，对该用户的该兴趣类别进行评分；选取评分最高的兴趣类别作为该用户最终的兴趣类别。

本发明的技术方案中，可以根据社交网络的用户对其他用户的分组情况，确定出社交网络中的各用户组，再结合与社交网络的兴趣类别相对应的兴趣核心组，确定出社交网络用户的兴趣类别。这样，对于主动行为较少的浏览型用户，也可以通过别的用户对浏览型用户的分组情况，来挖掘出浏览型用户的兴趣类别，避免了浏览型用户的兴趣挖掘数据的缺失，提高了社交网络用户兴趣挖掘的准确度。进一步地，结合根据基于被分组信息的兴趣挖掘结果，以及基于各用户网络行为信息的兴趣挖掘结果，增加了进行用户兴趣挖掘的源数据，可降低数据冷启动的概率。而且，通过对确定出的用户所涉及的每个兴趣类别进行评分排序，根据更全面的用户信息来确定用户的兴趣类别，大大提高了兴趣挖掘的准确度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读取存储介质中，如：ROM/RAM、磁碟、光盘等。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种社交网络用户兴趣挖掘方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，在所述针对选取出的每个兴趣核心组，计算其它用户组与该兴趣核心组的相似度，将相似度高于设定阈值的用户组作为该兴趣核心组下的兴趣广义组之后，还包括：

3.如权利要求1或2所述的方法，其特征在于，所述针对选取出的每个兴趣核心组，计算其它用户组与该兴趣核心组的相似度，具体包括：

x = Σ_{j = 1}^{n} \sqrt{w_{aj} \times w_{bj}} - - - (1)

4.如权利要求1或2所述的方法，其特征在于，所述选取一个用户组作为与该兴趣类别相对应的兴趣核心组，具体包括：

5.如权利要求1或2所述的方法，其特征在于，在所述根据包含该用户的兴趣广义组所对应的兴趣类别确定该用户的兴趣挖掘结果后，还包括：

6.如权利要求5所述的方法，其特征在于，所述根据该用户的基于被分组信息的兴趣挖掘结果，以及基于各网络行为信息的兴趣挖掘结果，确定出该用户最终的兴趣类别，具体包括：

选取评分最高的兴趣类别作为该用户最终的兴趣类别。

7.一种社交网络用户兴趣挖掘系统，其特征在于，包括：

8.如权利要求7所述的系统，其特征在于，还包括：

9.如权利要求8所述的系统，其特征在于，还包括：

10.如权利要求9所述的系统，其特征在于，所述第二兴趣挖掘模块具体包括以下至少一个单元：