CN108876644B

CN108876644B - 一种基于社交网络的相似账号计算方法及装置

Info

Publication number: CN108876644B
Application number: CN201810505770.XA
Authority: CN
Inventors: 汤小东; 崔建兴; 张婷婷
Original assignee: Weimeng Chuangke Network Technology China Co Ltd
Current assignee: Weimeng Chuangke Network Technology China Co Ltd
Priority date: 2018-05-24
Filing date: 2018-05-24
Publication date: 2022-02-22
Anticipated expiration: 2038-05-24
Also published as: CN108876644A

Abstract

本发明实施例提供一种基于社交网络的相似账号计算方法及装置，本发明的实施例通过基于用户的协同过滤的方法，计算社交网络上用户(账号)相似度。该方法以用户的粉丝数据和用户关注数据作为用户的特征构建/定义用户的粉丝特征向量和关注特征向量，以两个账号之间粉丝特征向量的余弦值作为其粉丝相似性的度量，以两个账号之间关注特征向量的余弦值作为其关注相似性的度量，分别计算用户的粉丝相似度和关注相似度，再根据该粉丝相似度和该关注相似度获得用户相似度。该技术方案通过大数据处理方式分析社交网络中的关注数据，充分利用了社交网络中的结构化数据，有助于扩充用户特征。

Description

一种基于社交网络的相似账号计算方法及装置

技术领域

本发明涉及互联网社交网络，具体涉及一种基于社交网络的相似账号计算方法及装置。

背景技术

当今社会上，社交媒体作为最有价值的信息资源，一直倍受关注。社交媒体具有其独特的属性：传播性强，内容丰富多彩，网络结构复杂多样。其中的用户信息主要包括用户的背景信息(比如地域、教育、职业、兴趣、设备类型等属性)，发表的信息(比如原创、转发、评论、分享等互动行为)和基于关注或者好友关系构建的社交网络。设备类型例如：iPhone7、HUAWEI Mate 10、vivo X21、weibo.com等等表明手机的类型或者来自网页。

相似账号是指在社交媒体上具有若干共同属性的用户群。目前已有的相似账号计算方法大多是基于协同过滤的推荐算法。协同过滤的推荐算法是通过对用户历史行为数据的挖掘发现用户的兴趣偏好，基于不同的兴趣偏好对用户进行分类并推荐品味相似的商品。主要分为两类，分别是基于用户的协同过滤算法，和基于物品的协同过滤算法。基于用户的协同过滤算法是通过计算用户的历史行为数据，发现用户对商品的兴趣偏好，并根据这种兴趣偏好的程度计算用户之间的相似程度；基于物品的协同过滤算法是通过分析用户的行为来计算商品之间的相似度。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

在社交媒体中，用户之间构建的社交网络也是一种非常重要的用户信息。目前社交媒体中主要是基于用户属性和互动行为来计算用户的相似度，很少基于社交网络来分析用户之间的相似度。

发明内容

本发明实施例提供一种基于社交网络的相似账号计算方法及装置，基于社交网络来分析用户之间的相似度。

第一方面，本发明实施例提供了一种基于社交网络的相似账号计算方法，其包括：

获得具有多条关注记录的关注数据集，所述关注记录用于记录用户账号之间的关注关系，每条关注记录包括：粉丝账号、及其对应的关注账号；

根据所述关注数据集分别获得第一账号集合、以及第二账号集合的粉丝列表和关注列表，并确定所述第一账号集合的粉丝数和关注数、以及所述第二账号集合的粉丝数的关注数；

获得所述第一账号集合与所述第二账号集合之间的共有粉丝列表和共有关注列表、以及共有粉丝数和共有关注数；

根据所述第一账号集合和所述第二账号集合各自的粉丝数以及共有粉丝数，确定所述第一账号集合与所述第二账号集合中用户账号两两之间的粉丝相似度；以及，根据所述第一账号集合和所述第二账号集合各自的关注数以及共有关注数，确定所述第一账号集合与所述第二账号集合中用户账号两两之间的关注相似度；

根据所述粉丝相似度和所述关注相似度，确定所述第一账号集合与所述第二账号集合中用户账号两两之间的相似度。

可选地，所述的根据所述关注数据集分别获得第一账号集合、以及第二账号集合的粉丝列表和关注列表，并确定所述第一账号集合的粉丝数和关注数、以及所述第二账号集合的粉丝数和关注数，包括：

针对任一账号集合，分别执行如下操作：

将当前账号集合中的所有用户账号存入布隆过滤器中；

遍历所述关注数据集，查看所述关注数据集的每条记录中的关注账号uid是否已存在所述布隆过滤器中，如果是，则将该条记录中的粉丝账号fans_uid标记为当前关注账号uid的粉丝账号；在遍历完所述关注数据集后，汇总所有被标记的粉丝账号获得当前账号集合的粉丝列表，根据当前账号集合的粉丝列表获得当前账号集合的粉丝数；

遍历所述关注数据集，查看所述关注数据集的每条记录中的粉丝账号fans_uid是否已存在所述布隆过滤器中，如果是，则将该条记录中的关注账号uid标记为当前粉丝账号fans_uid的关注账号；在遍历完所述关注数据集后，汇总所有被标记的关注账号获得当前账号集合的关注列表，根据当前账号集合的关注列表获得当前账号集合的关注数。

可选地，所述的根据所述第一账号集合和所述第二账号集合各自的粉丝数以及共有粉丝数，确定所述第一账号集合与所述第二账号集合中用户账号两两之间的粉丝相似度，包括：

用户账号之间的粉丝相似度计算方法如下：

fans_s，fans_t分别表示用户账号s和用户账号t的粉丝特征向量；fansnum_st表示用户账号s和用户账号t的共有粉丝数；fansnum_s，fansnum_t分别表示用户账号s和用户账号t的粉丝数。

可选地，所述的根据所述第一账号集合和所述第二账号集合各自的关注数以及共有关注数，确定所述第一账号集合与所述第二账号集合中用户账号两两之间的关注相似度，包括：

用户账号之间的关注相似度计算方法如下：

follow_s，follow_t分别表示用户账号s和用户账号t的关注特征向量；follownum_st表示用户账号s和用户账号t的共有关注数；follownum_s，follownum_t分别表示用户账号s和用户账号t的关注数。

可选地，所述的根据所述粉丝相似度和所述关注相似度，确定所述第一账号集合与所述第二账号集合中用户账号两两之间的相似度，包括：

用户账号之间的相似度定义如下：

similar_st＝α*fanssim_st+β*followsim_st

其中α+β＝1，α、β分别为用户账号s和用户账号t之间的粉丝相似度、以及用户关注相似度的权重。

第二方面，本发明的实施例提供一种基于社交网络的相似账号计算装置，其包括：

关注数据集获取单元，用于获得具有多条关注记录的关注数据集，所述关注记录用于记录用户账号之间的关注关系，每条关注记录包括：粉丝账号、及其对应的关注账号；

粉丝数据和关注数据获取单元，用于根据所述关注数据集分别获得第一账号集合、以及第二账号集合的粉丝列表和关注列表，并确定所述第一账号集合的粉丝数和关注数、以及所述第二账号集合的粉丝数和关注数；

共有粉丝数据和共有关注数据获取单元，用于获得所述第一账号集合与所述第二账号集合之间的共有粉丝列表和共有关注列表、以及共有粉丝数和共有关注数；

粉丝相似度和关注相似度确定单元，用于根据所述第一账号集合和所述第二账号集合各自的粉丝数以及共有粉丝数，确定所述第一账号集合与所述第二账号集合中用户账号两两之间的粉丝相似度；以及，根据所述第一账号集合和所述第二账号集合各自的关注数以及共有关注数，确定所述第一账号集合与所述第二账号集合中用户账号两两之间的关注相似度；

账号相似度确定单元，用于根据所述粉丝相似度和所述关注相似度，确定所述第一账号集合与所述第二账号集合中用户账号两两之间的相似度。

可选地，所述的粉丝数据和关注数据获取单元，具体包括：

存储模块，用于针对任一账号集合，将当前账号集合中的所有用户账号存入布隆过滤器中；

粉丝数据获取模块，用于遍历所述关注数据集，查看所述关注数据集的每条记录中的关注账号uid是否已存在所述布隆过滤器中，如果是，则将该条记录中的粉丝账号fans_uid标记为当前关注账号uid的粉丝账号；在遍历完所述关注数据集后，汇总所有被标记的粉丝账号获得当前账号集合的粉丝列表，根据当前账号集合的粉丝列表获得当前账号集合的粉丝数；

关注数据获取模块，用于遍历所述关注数据集，查看所述关注数据集的每条记录中的粉丝账号fans_uid是否已存在所述布隆过滤器中，如果是，则将该条记录中的关注账号uid标记为当前粉丝账号fans_uid的关注账号；在遍历完所述关注数据集后，汇总所有被标记的关注账号获得当前账号集合的关注列表，根据当前账号集合的关注列表获得当前账号集合的关注数。

可选地，所述的粉丝相似度和关注相似度确定单元，具体包括：

粉丝相似度确定模块，用于根据下式计算用户账号之间的粉丝相似度：

可选地，所述的粉丝相似度和关注相似度确定单元，还包括：

关注相似度确定模块，用于根据下式计算用户账号之间的关注相似度：

可选地，所述的账号相似度确定单元，具体用于：根据下式计算用户账号之间的相似度：

similar_st＝α*fanssim_st+β*followsim_st

第三方面，本发明的实施例提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如上所述的任意一种所述的基于社交网络的相似账号计算方法。

第四方面，本发明的实施例提供一种计算机设备，其包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上所述的任一种所述的基于社交网络的相似账号计算方法。

上述技术方案具有如下有益效果：本发明的实施例通过基于用户的协同过滤的方法，计算社交网络上用户(账号)相似度。该方法以用户的粉丝数据和用户关注数据作为用户的特征构建/定义用户的粉丝特征向量和关注特征向量，以两个账号之间粉丝特征向量的余弦值作为其粉丝相似性的度量，以两个账号之间关注特征向量的余弦值作为其关注相似性的度量，分别计算用户的粉丝相似度和关注相似度，再根据该粉丝相似度和该关注相似度获得用户相似度。该技术方案通过大数据处理方式分析社交网络中的关注数据，充分利用了社交网络中的结构化数据，有助于扩充用户特征。本技术方案采用协同过滤的方法,充分利用了社交网络中的结构化数据，提供一种计算账号相似度的方案。采用大数据的处理方式，应用了布隆过滤器和特殊的数据结构，极大的减少计算耗时，降低了成本，使该方法应用于大批量的数据之间的数据计算成为可能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的实施例的一种基于社交网络的相似账号计算方法的整体流程图；

图2是本发明的实施例的一种基于社交网络的相似账号计算方法的具体流程图；

图3是本发明的实施例的用户账号存储格式示意图；

图4是本发明的实施例的一种基于社交网络的相似账号计算装置的逻辑功能框图；

图5是本发明的实施例的另一种基于社交网络的相似账号计算装置的逻辑功能框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中没有引入用户之间关注和被关注建立的社交网络信息，来分析用户之间的相似度。社交网络中的关注关系(或者好友关系)让很多用户在网络中形成了类似于现实的社交圈子，这类社交圈子有一个共性就是在相同社交圈内粉丝数据(好友数据)重合度较高。本发明的实施例通过大数据处理方式分析社交网络中的关注数据，提供一种基于社交网络来计算用户相似度的方法，即一种基于社交网络的相似账号计算方法。

如图1所示，本发明实施例提供了一种基于社交网络的相似账号计算方法，其包括：

步骤110：获得具有多条关注记录的关注数据集，所述关注记录用于记录用户账号之间的关注关系，每条关注记录包括：粉丝账号、及其对应的关注账号。

关注行为是账号之间建立强社交关系的一种互动行为，关注数据集记录着全网的关注行为。社交网络可理解为在全网用户之间由关注行为建立的网络。关注数据集中存储着所有账号的关注记录。比如一条记录：用户账号a关注了用户账号b，那么a是粉丝账号id，b是被关注账号id。

步骤120：根据所述关注数据集分别获得第一账号集合、以及第二账号集合的粉丝列表和关注列表，并确定所述第一账号集合的粉丝数和关注数、以及所述第二账号集合的粉丝数和关注数。

步骤130：获得所述第一账号集合与所述第二账号集合之间的共有粉丝列表和共有关注列表、以及共有粉丝数和共有关注数。

其中，获得所述第一账号集合与所述第二账号集合之间共有的粉丝列表及共有的粉丝数，例如可以通过关注列表来查找共有粉丝数据，举例说明如下：比如找到账号a的关注列表，其中a关注的账号有账号b，c，d，那么a即是bc，cd，bd的共有粉丝。遍历全网账号，即可以统计到bc的所有共有粉丝。

步骤140：根据所述第一账号集合和所述第二账号集合各自的粉丝数以及共有粉丝数，确定所述第一账号集合与所述第二账号集合中用户账号两两之间的粉丝相似度；以及，根据所述第一账号集合和所述第二账号集合各自的关注数以及共有关注数，确定所述第一账号集合与所述第二账号集合中用户账号两两之间的关注相似度。

粉丝相似度是通过分别计算两个账号的粉丝数和共有粉丝数来计算的，而粉丝数和共有粉丝数需要统计粉丝列表和共有粉丝列表。关注相似度是通过分别计算两个账号的关注数和共有关注数来计算的，而关注数和共有关注数需要统计关注列表和共有关注列表。

步骤150：根据所述粉丝相似度和所述关注相似度，获得所述第一账号集合与所述第二账号集合中用户账号两两之间的相似度。

根据该账号相似度计算结果可获得第一账号集合中的账号对应的在第二账号集合中的一个或多个相似账号。是否属于相似账号的判断标准有多种，包括但不限于：根据经验选择一个相似度阈值，高于该相似度阈值的属于相似账号；或者按相似度的值降序排列，取排序前几名的账号作为其相似账号；或者使用kmeans进行聚类来得到其相似账号；或者取所有账号之间相似度的均值作为阈值来判断相似账号等。

可选地，步骤120中所述的根据所述关注数据集分别获得第一账号集合、以及第二账号集合的粉丝列表和关注列表，并确定所述第一账号集合的粉丝数和关注数、以及所述第二账号集合的粉丝数和关注数，可以包括：

针对任一账号集合，分别执行如下操作：

将当前账号集合中的所有用户账号存入布隆过滤器中；

可选地，步骤140中的根据所述第一账号集合和所述第二账号集合各自的粉丝数以及共有的粉丝数，确定所述第一账号集合和所述第二账号集合中用户账号两两之间的粉丝相似度，可以包括：

用户账号之间的粉丝相似度计算方法如下：

可选地，步骤140中的根据所述第一账号集合和所述第二账号集合各自的关注数以及共有关注数，确定所述第一账号集合与所述第二账号集合中用户账号两两之间的关注相似度，可以包括：

用户账号之间的关注相似度计算方法如下：

用户账号之间的相似度定义如下：

similar_st＝α*fanssim_st+β*followsim_st

本发明的实施例通过基于用户的协同过滤的方法，计算社交网络上用户(账号)相似度。该方法以用户的粉丝数据和用户关注数据作为用户的特征构建/定义用户的粉丝特征向量(粉丝特征向量是对粉丝列表的数学表达或描述方式)和关注特征向量，以两个账号之间粉丝特征向量的余弦值作为其粉丝相似性的度量，以两个账号之间关注特征向量的余弦值作为其关注相似性的度量，分别计算用户的粉丝相似度和关注相似度，再根据该粉丝相似度和该关注相似度获得用户相似度。其中，向量之间的余弦值可以衡量两个向量之间的差异程度，但不限于采用余弦值，可以被替代。使用余弦值计算简单且高效。

本发明的实施例采用微博的账号数据作为例子进行更加详细地说明，但不限于微博。为了使计算结果更具有针对性，本发明的实施例提供一种计算账号集合A和账号集合B内账号之间的相似度的方法，从而可以从账号集合B中查找账号集合A中的相似账号。

如图2所示，本发明的实施例的相似账号的计算方法包括如下步骤：

由于数据量巨大，以下方法都较佳地通过mapreduce(一种编程模型)方式实现，但不以此为限。

(1)数据准备：该步骤基于关注数据集，该关注数据集是本方法的数据依据，其中每条关注记录在Hdfs(Hadoop Distributed File System，Hadoop分布式文件系统)中保存格式为：

fans_uid(Long):粉丝账号id

uid(Long):被关注账号id

账号集合A为一批账号id的集合，账号集合B为另一批账号id的集合，其中账号集合A和账号集合B中账号id彼此不重复。

关注数据集中记录着每一条关注记录，比如用户在手机APP上的每一次操作，在该APP的后台服务器上都是以类似这样的数据格式存储的。

(2)获取粉丝数据：

计算出账号集合A的粉丝列表，并计算其粉丝数。该步骤的计算通过一个Hadoopjob实现。通过布隆过滤器，提取关注数据集中的被关注账号id出现在账号集合A中的关注记录，该关注记录保存在关注数据集中。并统计每个被关注账号id的粉丝账号id集合，将其作为被关注账号id的粉丝列表，并计算其粉丝数。数据保存格式为：

{uid(Long),fansnum(int)}

其中uid为被关注账号id，fansnum为其粉丝数。

布隆过滤器是一种基于空间的概率数据结构，它利用位数组很简洁地表示一个集合，并能快速地判断一个元素是否在集合中。布隆过滤器是作为一个优选的实施方式，但不限于布隆过滤器，还可以采用其他过滤器。关于布隆过滤的原理举例如下：比如当需要将一个数据集A:{1,2,3,4,5}存起来以便以后使用，A里面有5个整数，简单的方法就是将这个数据集直接存下，一个整数占32b空间，所以总共需要160b空间。布隆过滤器可以将其哈希到一个5b的空间，第一个b标示1，…，第5个b标示5。然后只需要5b就可以存储集合A，从而存储上大大减少了。

可通过相同的方法计算出账号集合B的粉丝列表，并计算其粉丝数，格式与上述相同。

步骤(2)进一步举例如下：

例如：计算账号集合A中的每个账号id的粉丝，由于账号集合A中的账号id数量巨大，不能将其中每个账号id去关注数据集中匹配，这样性能太差了，所以本实施例预先将这批账号id存入布隆过滤器中，然后遍历一遍关注数据集，去查看每条关注记录中的被关注账号id(uid)是否已存在该布隆过滤器中。如果是则将该条记录中fans_uid记为uid的一个粉丝。这样遍历完关注数据集，即可得到账号集合A中每个账号的粉丝列表及其粉丝数。

(3)获取关注数据：

计算出账号集合A的关注列表，并计算其关注数。本步骤处理方法同步骤(2)，该步骤的计算通过一个Hadoop job实现。关注数据集中存储着所有账号的关注记录，通过布隆过滤器的方法，提取关注数据集中粉丝账号id出现在账号集合A中所对应的关注记录，并统计每个粉丝账号id的被关注账号uid集合。将其作为每个粉丝的关注列表，并计算其关注数。数据保存格式为：

{fans_uid(Long),follownum(int)}

其中fans_uid为粉丝账号id，follownum为其关注数。

可通过相同的方法计算出账号集合B的关注列表，并计算其关注数，格式与上述相同。

步骤(3)和步骤(2)原理类似。步骤(2)是通过被关注账号找到粉丝账号集合，即得到其粉丝列表；步骤(3)是通过粉丝账号找到关注账号集合，即得到其关注列表。

(4)计算共有粉丝数据：该步骤的计算通过两个Hadoop job实现。

job1:通过建立两个布隆过滤器来保存账号集合A和账号集合B，由于用户账号属于Long数据类型可以用8个字节byte来描述，本实施例建立一个9个byte的数据(定义为follow)。用前8个byte存储用户账号，最后一个byte用来标识该账号属于账号集合A还是账号集合B，格式如图3所示。

遍历关注数据集，提取出所有的粉丝的关注列表。该粉丝的关注列表中只包含属于账号集合A和账号集合B的账号。

数据保存格式为：

{fans_uid(Long),follow₁|follow₂|…|follow_n}

其中fans_uid为粉丝账号id。

job2：通过分析job1的粉丝的关注列表，根据follow的标志位分离出账号集合A和账号集合B中各账号之间共有的粉丝列表，并统计共有粉丝数。标志位用于定义该账号属于账号集合A还是账号集合B,比如用0和1区分，0属于账号集合A，否则属于账号集合B。

数据保存格式为：

{key,fans_num(int)}

其中key为16个byte的数据，前8个byte存储账号集合A中的账号id，后8个byte存储账号集合B中的账号id，fans_num为共有粉丝数。

本步骤查找共有粉丝数据的方法举例说明：比如找到账号a的关注列表，其中a关注的账号有账号b,c,d.那么a即是bc，cd，bd的共有粉丝。那么遍历全网账号，即可以统计到bc的所有共有粉丝。

(5)计算共有关注数据：本步骤方法同步骤(4)，通过两个Hadoop job实现。

job1:通过建立两个布隆过滤器来分别保存账号集合A和账号集合B，遍历关注数据集，提取出被关注账号的粉丝列表，该粉丝列表中只包含属于账号集合A和账号集合B的账号id。

数据保存格式为：

{uid(Long),fans₁|fans₂|…|fans_n}

其中uid为被关注账号id,fans_{i:i＝1,2,…,n},格式同follow,用前8个byte存储用户账号，最后一个byte用来标识该账号属于账号集合A还是账号集合B，格式如图2所示。

job2：通过分析job1的粉丝列表，根据fans的标志位分离出账号集合A和账号集合B中各账号之间共有的关注列表，并统计共有关注数。格式为：

{key,follow_num(int)}

其中key为16个byte的数据，前8个byte存储账号集合A中的账号id，后8个byte存储账号集合B中的账号id，follow_num为共有关注数。

(6)计算粉丝相似度和关注相似度：基于账号集合A和账号集合B的粉丝数以及其共有粉丝数，根据公式一可获得账号集合A和账号集合B的账号两两之间的粉丝相似度。基于账号集合A和账号集合B的关注数以及其共有关注数，根据公式二可获得账号集合A和账号集合B的账号两两之间的关注相似度。

其中用户账号之间的粉丝相似度计算公式如下：

用户账号之间的关注相似度计算公式如下：

(7)计算相似度并排序：根据公式三可获得账号集合A和账号集合B的账号两两之间的相似度。

其中用户账号之间的相似度定义如下：

similar_st＝α*fanssim_st+β*followsim_st (公式三)

其中参数α,β的取值目前采用经验值的方法，各为0.5来计算。然后对结果按照相似性排序，通过经验选择一个阈值来作为判断是否相似账号的标准。举例如下：根据经验选择一个阈值，目前没有一个统一的标准，实际工程上的应用有取排序前10的账号作为其相似账号；或者使用kmeans进行聚类来得到其相似账号；或者取所有账号之间相似度的均值作为阈值来判断相似账号等。

本发明的实施例通过大数据处理方式分析社交网络中的关注数据，提供一种基于社交网络来计算用户相似度的方法。该方法充分利用了社交网络中的结构化数据，有助于扩充用户特征。从意义上讲，该方法不仅是社交网络上的度量，在一定程度上也衡量了用户之间的兴趣相似程度；直观上讲，两个账号共有的粉丝数越多，共有的关注数越多，则他们的兴趣程度越大。

如图4所示，本发明的实施例提供一种基于社交网络的相似账号计算装置，其包括：

关注数据集获取单元410，用于获得具有多条关注记录的关注数据集，所述关注记录用于记录用户账号之间的关注关系，每条关注记录包括：粉丝账号、及其对应的关注账号；

粉丝数据和关注数据获取单元420，用于根据所述关注数据集分别获得第一账号集合、以及第二账号集合的粉丝列表和关注列表，并确定所述第一账号集合的粉丝数和关注数、以及所述第二账号集合的粉丝数和关注数；

共有粉丝数据和共有关注数据获取单元430，用于获得所述第一账号集合与所述第二账号集合之间的共有粉丝列表和共有关注列表、以及共有粉丝数和共有关注数；

粉丝相似度和关注相似度确定单元440，用于根据所述第一账号集合和所述第二账号集合各自的粉丝数以及共有粉丝数，确定所述第一账号集合与所述第二账号集合中用户账号两两之间的粉丝相似度；以及，根据所述第一账号集合和所述第二账号集合各自的关注数以及共有关注数，确定所述第一账号集合与所述第二账号集合中用户账号两两之间的关注相似度；

账号相似度确定单元450，用于根据所述粉丝相似度和所述关注相似度，确定所述第一账号集合与所述第二账号集合中用户账号两两之间的相似度。

如图5所示，可选地，粉丝数据和关注数据获取单元420，具体可以包括：

存储模块421，用于针对任一账号集合，将当前账号集合中的所有用户账号存入布隆过滤器中；

粉丝数据获取模块422，用于遍历所述关注数据集，查看所述关注数据集的每条记录中的关注账号uid是否已存在所述布隆过滤器中，如果是，则将该条记录中的粉丝账号fans_uid标记为当前关注账号uid的粉丝账号；在遍历完所述关注数据集后，汇总所有被标记的粉丝账号获得当前账号集合的粉丝列表，根据当前账号集合的粉丝列表获得当前账号集合的粉丝数；

关注数据获取模块423，用于遍历所述关注数据集，查看所述关注数据集的每条记录中的粉丝账号fans_uid是否已存在所述布隆过滤器中，如果是，则将该条记录中的关注账号uid标记为当前粉丝账号fans_uid的关注账号；在遍历完所述关注数据集后，汇总所有被标记的关注账号获得当前账号集合的关注列表，根据当前账号集合的关注列表获得当前账号集合的关注数。

如图5所示，可选地，粉丝相似度和关注相似度确定单元440，具体可以包括：粉丝相似度确定模块441，用于根据下式计算用户账号之间的粉丝相似度：

如图5所示，可选地，粉丝相似度和关注相似度确定单元440，具体还可以包括：关注相似度确定模块442，用于根据下式计算用户账号之间的关注相似度：

可选地，账号相似度确定单元490，具体可以用于：根据下式计算用户账号之间的相似度：

similar_st＝α*fanssim_st+β*followsim_st

该装置的具体工作原理和工作过程请参阅前面的方法实施例部分，在此不再赘述。

此外，本发明的实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如上所述的任意一种所述的基于社交网络的相似账号计算方法。

此外，本发明的实施例还提供一种计算机设备，其包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上所述的任一种所述的基于社交网络的相似账号计算方法。

该技术方案采用协同过滤的方法,充分利用了社交网络中的结构化数据，提供一种计算账号相似度的方案。采用大数据的处理方式，应用了布隆过滤器和特殊的数据结构，极大的减少计算耗时，降低了成本，使该方案应用于大批量的数据之间的数据计算成为可能。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block)，单元，和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability)，上述的各种说明性部件(illustrative components)，单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于用户终端中。可选地，处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中，本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现，这些功能可以存储与电脑可读的媒介上，或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如，这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置，或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外，任何连接都可以被适当地定义为电脑可读媒介，例如，如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘，磁盘通常以磁性复制数据，而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于社交网络的相似账号计算方法，其特征在于，包括：

根据所述关注数据集分别获得第一账号集合、以及第二账号集合的粉丝列表和关注列表，并确定所述第一账号集合的粉丝数和关注数、以及所述第二账号集合的粉丝数和关注数；

根据所述粉丝相似度和所述关注相似度，确定所述第一账号集合与所述第二账号集合中用户账号两两之间的相似度；

所述的根据所述第一账号集合和所述第二账号集合各自的粉丝数以及共有粉丝数，确定所述第一账号集合与所述第二账号集合中用户账号两两之间的粉丝相似度，包括：

用户账号之间的粉丝相似度计算方法如下：

fans_s，fans_t分别表示用户账号s和用户账号t的粉丝特征向量；fansnum_st表示用户账号s和用户账号t的共有粉丝数；fansnum_s，fansnum_t分别表示用户账号s和用户账号t的粉丝数；

所述的根据所述第一账号集合和所述第二账号集合各自的关注数以及共有关注数，确定所述第一账号集合与所述第二账号集合中用户账号两两之间的关注相似度，包括：

用户账号之间的关注相似度计算方法如下：

2.根据权利要求1所述的方法，其特征在于，所述的根据所述关注数据集分别获得第一账号集合、以及第二账号集合的粉丝列表和关注列表，并确定所述第一账号集合的粉丝数和关注数、以及所述第二账号集合的粉丝数和关注数，包括：

针对任一账号集合，分别执行如下操作：

将当前账号集合中的所有用户账号存入布隆过滤器中；

3.根据权利要求1所述的方法，其特征在于，所述的根据所述粉丝相似度和所述关注相似度，确定所述第一账号集合与所述第二账号集合中用户账号两两之间的相似度，包括：

用户账号之间的相似度定义如下：

similar_st＝α*fanssim_st+β*followsim_st

4.一种基于社交网络的相似账号计算装置，其特征在于，包括：

账号相似度确定单元，用于根据所述粉丝相似度和所述关注相似度，确定所述第一账号集合与所述第二账号集合中用户账号两两之间的相似度；

所述的粉丝相似度和关注相似度确定单元，具体包括：

5.根据权利要求4所述的装置，其特征在于，所述的粉丝数据和关注数据获取单元，具体包括：

6.根据权利要求4所述的装置，其特征在于，所述的账号相似度确定单元，具体用于：

根据下式计算用户账号之间的相似度：

similar_st＝α*fanssim_st+β*followsim_st

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-3中任意一项所述的基于社交网络的相似账号计算方法。

8.一种计算机设备，其特征在于，其包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-3中任一所述的基于社交网络的相似账号计算方法。