CN103631949B

CN103631949B - 一种社交网络数据采集方法及系统

Info

Publication number: CN103631949B
Application number: CN201310674521.0A
Authority: CN
Inventors: 程学旗; 王元卓; 刘强; 李静远; 邢国亮
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2013-12-11
Filing date: 2013-12-11
Publication date: 2016-01-27
Anticipated expiration: 2033-12-11
Also published as: CN103631949A

Abstract

本发明提供一种社交网络数据采集方法和系统，所述方法包括根据用户资料和用户过去一段时间的数据更新信息，将该用户归于预先设定的多个用户组中的一个，得到该用户组的数据更新分布向量。其中，每个用户组中用户的用户资料和数据更新信息相似，用户组的数据更新分布向量体现该用户组中所有用户在一个时间区间内所有时间片段的数据更新行为。所述方法还包括根据所述用户组的数据更新分布向量，制定该用户在一个时间区间内不同时间片段的数据采集策略。本发明可针对不同的用户制定不同的实时数据采集策略，提高了社交网络数据采集的实时性和效率。

Description

一种社交网络数据采集方法及系统

技术领域

本发明涉及数据挖掘领域，具体涉及一种社交网络数据采集方法及系统。

背景技术

社交网络服务（SNS，socialnetworkservice），简称社交网络，其概念最先起源于社会网络研究者提出的“六度理论”，其主要作用是为一群拥有相同兴趣与活动的人建立线上社区。此类服务往往基于网络，为用户提供聊天、交流的各种交互通路，如电子邮件、即时消息服务等。大部分社交网络会向使用者提供多种互动方式，如聊天、寄信、影音、档案分享、部落格，以及讨论群组等。

目前，社交网络正在迅速发展，作为社交网络的典型代表，Facebook拥有9.55亿月活跃用户，每天上传的照片总量3亿张，每天产生12亿个喜好（like），在美国，每5个页面的访问量就有一个来自Facebook。此外，Twitter平台拥有用户数量也已超过5亿，每天微博发布数目超过3亿，每天接受的查询数据已经高达16亿。在中国本土，诸如新浪微博、腾讯微博等微博平台也快速崛起。其中，仅新浪微博用户数量就突破3亿。如今，社交网络的发展速度仍在急速增长。

社交网络中的数据还有着普通网络数据所不具备的特点：1）数据量巨大，据Facebook2012年公布的数据，Facebook每天收集的数据已经超过500TB，并且随着时间的推移，社交网络的数据量越来越大；2）质量高，与普通的网页数据相比，社交网络数据多为专而深的内容，是进行商业信息挖掘、人际关系学习，以及博弈论研究的高质量数据；3）便于处理，虽然社交网络的数据量非常大，但是网页的格式通常是标准的，且一般不含有附件等其它文本，可以根据其编码格式进行统一化处理。

然而，目前的信息检索主要着眼于普通网页的数据采集，现有的搜索引擎并不能很好地采集社交网络数据。此外，当前鲜有的社交网络数据采集也只是在某一种网络中对ajax进行处理，缺少数据采集的实时性和高效性。

发明内容

针对这个问题，本发明提供一种社交网络的数据采集方法及系统。所述方法包括：

步骤1）、根据用户资料和用户过去一段时间的数据更新信息，将该用户归于预先设定的多个用户组中的一个，得到该用户组的数据更新分布向量；其中，每个用户组中用户的用户资料和数据更新信息相似，用户组的数据更新分布向量体现该用户组中所有用户在一个时间区间内所有时间片段的数据更新行为；

步骤2）根据所述用户组的数据更新分布向量，制定该用户在一个时间区间内不同时间片段的数据采集策略。

在一个实施例中，在步骤1）中，计算所述用户的用户资料和过去一段时间的数据更新信息与每个用户组中所有用户的用户资料的加权平均值和过去一段时间的数据更新信息的加权平均值的相似度，将所述用户归入最大相似度对应的用户组。

在一个实施例中，步骤2）包括：

在所述用户组的数据更新分布向量中得到在待采集时间片段的数据更新次数；

当该数据更新次数为0时，在待采集时间片段不对所述用户进行数据采集；

当该数据更新次数小于等于1时，在待采集时间片段对所述用户以该数据更新次数为概率进行数据采集；

当该数据更新次数大于1时，在待采集时间片段对所述用户以该数据更新次数作为采集次数进行采集。

在一个实施例中，步骤1）之前还包括：

步骤0）、通过计算社交网络中多个用户在其用户资料和过去一段时间的数据更新信息上的相似度来聚类这些用户形成用户组，并且计算每个用户组的数据更新分布向量。

在一个实施例中，步骤0）包括：

步骤i）、采集社交网络中多个用户的用户资料和过去一段时间的数据更新信息，获得每个用户的用户资料向量，通过计算用户间用户资料向量的相似度对用户进行聚类，得到多个用户组；

步骤ii）、在每个用户组中对所有用户的数据更新分布向量进行拟合，得到每个用户组的数据更新分布向量；其中用户的数据更新分布向量体现该用户在一个时间区间内所有时间片段的数据更新次数。

在进一步的实施例中，步骤ii）之前还包括：

根据用户过去一段时间的数据更新信息得到该用户在一个或多个时间区间内所有时间片段的数据更新次数，对所述一个或多个时间区间内每个时间片段的数据更新次数进行加权求和得到该用户的数据更新分布向量。

在一个实施例中，所述用户资料向量包括用户性别、年龄、地址、职业、好友数量、好友、喜好、关注、用户发布消息主题、信息完整度中的一个或多个。

在一个实施例中，在步骤i）中，计算用户间用户资料向量的相似度包括：

步骤a）、计算所述用户资料向量中每一维数据的相似度；

步骤b）、对每一维数据的相似度进行加权求和，得到用户间用户资料向量的相似度。

在一个实施例中，所述时间区间为一天。

根据本发明的一个实施例，还提供一种社交网络数据采集系统，包括：

归类装置，用于根据用户资料和用户过去一段时间的数据更新信息，将该用户归于预先设定的多个用户组中的一个，得到该用户组的数据更新分布向量；其中，每个用户组中用户的用户资料和数据更新信息相似，用户组的数据更新分布向量体现该用户组中所有用户在一个时间区间内所有时间片段的数据更新行为；以及

策略制定装置，用于根据所述用户组的数据更新分布向量，制定该用户在一个时间区间内不同时间片段的数据采集策略。

采用本发明可以达到如下的有益效果：

本发明根据用户资料向量对用户进行聚类得到用户组，根据用户与用户组的相似度选择一个用户组的数据更新分布向量来制定该用户的实时数据采集策略，参考用户组的数据更新分布向量使得数据采集的准确性较高，从而提高了社交网络中数据采集的效率。此外，针对一天中不同的时间片段可制定实时的数据采集策略，提高了数据采集的实时性。

附图说明

图1是根据本发明一个实施例的社交网络数据采集方法的流程图；

图2是根据本发明一个实施例的构建社交网络数据更新模型的方法的流程图；以及

图3是根据本发明一个实施例的制定数据采集策略的方法的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明加以说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

根据本发明的一个实施例，提供一种社交网络数据采集方法。参考图1且简要而言，该方法首先根据社交网络用户的用户资料和用户数据更新信息构建社交网络数据更新模型；然后依据该社交网络数据更新模型，针对不同用户制定不同的数据采集策略。

继续参考图1，具体描述本发明提供的社交网络数据采集方法的步骤：

第一步、根据用户资料和用户数据更新信息构建社交网络数据更新模型

在一个实施例中，可首先采集社交网络用户的用户资料和用户过去一段时间/最近一段时间的数据更新信息（简称用户数据更新信息），接着根据这些信息对用户进行聚类得到不同的用户组，并且得到聚类后每个用户组的数据更新分布向量，根据每个用户组的数据更新分布向量构建社交网络数据更新模型。根据本发明的一个实施例，如图2所示，这一过程包括以下步骤：

1、采集社交网络用户的用户资料和过去一段时间的数据更新信息

用户资料是用于描述用户的身份、特征、爱好等的数据，在社交网络中，用户资料可包括性别、年龄等信息。用户过去一段时间的数据更新信息体现该用户的数据更新行为，其可包括与用户在过去一段时间内发起或转发的信息、评论的信息以及用户个人资料更新信息等相关的信息。

在一个实施例中，用户资料可被划分为三种不同类型的数据。第一种数据为定性数据，如性别（s）、年龄（a）、地址（ad）、职业（p）、好友数量（f）等，这些数据均为定值且是不会发生强烈变化的单一数值；第二种数据是可变数据，如喜好（L）、关注（A）、好友（F）等，这些数据均是不确定且可变的，可采用集合的形式来表示；第三种数据是测评性数据，如信息完整度（d），该数据是对用户个人信息的完整性进行评估所得到的数据，可根据整个用户资料统计得出，是单一的数值，其取值分布在0-1之间。表1给出了部分Facebook用户的用户资料的例子，其中仅示出性别（s）、年龄（a）、地址（ad）、职业（p）、爱好（L）和信息完整度（d）。

表1

在一个实施例中，用户数据更新信息可包括在过去一段时间内用户发布的信息内容和发布时间等。表2给出了部分Facebook用户的用户数据更新信息的例子，包括发布的消息内容和发布的时间。如上文所述，用户数据更新信息可以包括一段时间内与用户发起、转发、评论的信息以及用户个人资料更新信息等相关的信息。

表2

2、对用户进行聚类

根据所采集的社交网络用户的用户资料和用户过去一段时间的数据更新信息来构建用户资料向量，并且基于用户资料向量对用户进行聚类，在一个实施例中，可包括以下子步骤：

①、根据用户资料和过去一段时间的用户数据更新信息来构建用户资料向量，例如表示为向量P<s,a,ad,p,f,F,L,A,C,d>。

如上文所述，s为用户性别、a为年龄、ad为地址、p为职业、f为好友数量、F为好友、L为喜好、A为关注、C为用户发布消息主题，d为信息完整度。应理解，用户资料向量还可以包括其他用户资料或用户数据更新信息。要构建用户资料向量，首先需要对所采集的用户资料和用户数据更新信息进行规整（即处理为可用于计算的数据）。这里的性别（s）、年龄（a）、地址（ad）、职位（p）、好友数量（f）等定性数据可以从用户资料中直接提取，得到的数据为单一数值。但是可能存在信息未填充的用户，对于这些用户，在一个实施例中，相应的未填充数据可用NULL代替。对于好友（F）、喜好（L）、关注（A）等可变数据也可以从用户资料中直接提取，然而使用集合来表示。

在一个实施例中，对于用集合表示的用户发布消息主题（C）可从用户数据更新信息（例如“说说”和评论）中聚合得到。在一个实施例中，可使用优化的LDA模型来计算得出主题。首先，从用户数据更新信息中取出用户所有的说说和评论，将这些信息表示为doc<w₁,w₂,w₃,…,w_n>，其中，doc可以看作单词的序列，其包括n个单词，w_i表示第i个单词。将所有的doc（该用户所有的“说说”和评论）合并，从而得到一个文档集合D，该文档集合D涉及由不同单词组成的大集合VOC，根据事先定义好的主题集合TH<th₁,th₂,th₃,th₄,…,th_k>，将doc对应到不同主题的概率为其中，表示doc对应TH中第i个主题的概率。在一个实施例中，可以使用以下公式计算

p_{{th}_{i}} = \frac{n_{{th}_{i}}}{n} - - - (1)

其中，表示doc中对应TH中第i个主题的单词的数目，n是doc中所有单词的总数。对于TH中的每个主题th，生成VOC中不同单词的概率为(表示主题th生成VOC中第i个单词的概率，可使用下式来计算

p_{w_{i}} = \frac{N_{w_{i}}}{N} - - - (2)

其中，表示对应主题th的VOC第i个单词的数目，N表示对应所有主题th的单词总数。重复计算下式：

p(w|doc)=p(w|th)*p(th|doc)（3）

最终收敛的结果即得出主题关键词项，对所有词项求并集，取出前k个，便可获取用户发布消息主题（C）。应理解，除了上述聚合方法，也可以采用其他现有技术来获得用户发布消息主题。

研究表明，用户信息完整度可以在一个侧面反映用户对该社交网络的依赖性（依赖性越强，数据更新越频繁）。在一个实施例中，计算信息完整度（d），可以是根据所有信息计算用户个人填写完成度。

②、根据用户资料向量对用户进行聚类

在构建好每个用户的用户资料向量后，可根据得到的用户资料向量对用户进行聚类，将相似的用户划分到同一个用户组。这样做是因为根据多个相似用户的信息在社交网络中进行数据采集可使误差降低，做到更准确和实时。在一些实施例中，可以采用划分方法来计算相似度，如k-means、k-medoids等。在一些实施例中，可采用层次方法计算相似度，如BIRCH、CURE等。在其他实施例中，还可以采用网格方法（如STING），或者采用神经网络等方法来计算相似度。

在一个实施例中，针对用户资料中不同的两类数据分别计算相似度，一类是单一数值，如性别（s），年龄（a）等，这类数据可采用k-means方法。k-means方法的优点在于可通过人工调整参数来获取用户组数，可有效调整分组多少，使计算简单、有效。k-means的计算结果是聚类结果，由于需要的是两个数值之间的相似度，可以采用不同的k，多次进行k-means聚类，相似度可定义为出现在同一组的次数比上所有分组次数。

另一类是向量数据，如喜好（L），用户发布消息主题（C）等，需要进行集合相似计算。例如，可以采用jaccard系数方法，即对于集合A和B，其相似系数：

J (A, B) = \frac{| A \cap B |}{| A \cup B |} - - - (4)

也可以使用DICE系数：

D (A, B) = \frac{2 | A \cap B |}{| A | + | B |} - - - (5)

使用这两种方法计算集合相似度比较简单和有效。

在其他实施例中，计算集合之间的相似度还可以采用minhash算法，该算法的步骤为：首先使用哈希函数h(x)将元素x映射成一个整数，hmin(S)是指集合S中的元素经过h(x)哈希后，具有最小哈希值的元素，那么对于集合A、B，hmin(A)=hmin(B)成立的条件是A∪B中具有最小哈希值的元素也在A∩B中。可以通过计算A和B经过hash后最小哈希值相等概率来计算集合A和B的相似度。对于本发明来说，计算集合之间的相似度可以对每一个集合求一次哈希，然后取K个最小的元素，计算集合A中最小的K个元素与集合B中最小的K个元素的交集个数与并集个数的比例，从而得到集合A和B的相似度，该方法可以有效降低计算量。

由于在实际生活中对某一种物品的描述可能有多种情况，例如对于足球，美国人常用football表示，而英国人使用soccer来描述。因此，在计算喜好（L）和关注（A）等的相似度之前，可以先进行聚类，从而能够有效降低维数。对于好友（F），可以通过计算共同好友与所有好友的比例来计算相似度，但是可能由于用户过多，造成矩阵过于稀疏。在一个实施例中，对于好友关系图G，先求取G²降低矩阵的稀疏程度，然后计算图G²中共同好友数目与好友数目的比例，从而得到相似度。

此外，可以对不同类型数据的相似度计算结果给予不同权重，通过加权求和来获得综合的相似度结果。在一个实施例中，可对用户资料向量的每一维数据设置不同权重，保证所有权重的和为1。对于上文中描述的用户资料向量示例，下式给出了一种计算用户相似度的公式：

SIM=λ₁sim(s)+λ₂sim(a)+λ₃sim(ad)+λ₄sim(p)+λ₅sim(f)+λ₆sim(L)+

λ₇sim(F)+λ₈sim(C)+λ₉sim(A)+λ₁₀sim(d)（6）

其中，权重λ₁+λ₂+λ₃+λ₄+λ₅+λ₆+λ₇+λ₈+λ₉+λ₁₀=1。在进一步的实施例中，可基于人工评测的训练集，使用最大熵算法来确定权重λ_i的大小。例如，给定条件为α，结论为β的概率为：

p (β | α) = \frac{\exp (Σ_{i = 1}^{n} λ_{i} f_{i} (α, β))}{Z} - - - (7)

则给定条件α，最优β可以表示为：

\hat{β} = \arg \max (β | α) = \arg \max \frac{\exp (Σ_{i = 1}^{n} λ_{i} f_{i} (α, β))}{Z} - - - (8)

= \arg \max (Σ_{i = 1}^{n} λ_{i} f_{i} (α, β))

可以看出，要得到这组参数λ_i，那么对于给定条件α对所有结论β取最优值即可。

3、得到用户数据更新分布向量

依据所采集的用户过去一段时间的数据更新信息，获取该用户分别在（过去一段时间覆盖的）多个时间区间（例如1天）上的数据更新分布向量。每个时间区间上的用户数据更新分布向量体现了用户在该时间区间内的不同时间片段的数据更新次数，可通过对用户在过去一段时间的所有时间区间的用户数据更新分布向量进行加权求和来得到该用户的数据更新分布向量，步骤如下：

①、现有研究表明，由于社交网络用户的行为具有以天为单位的周期性，可将一天作为一个时间区间来构建用户数据更新分布向量。用户在一天中不同时间片段（例如不同小时）的数据更新行为（例如更新频率或数据更新次数）是不同的，据统计，用户在16：00—23：00的数据更新最为频繁，而在其他时段的更新频率则比较低。在一个实施例中，每天的用户数据更新分布向量可表示为T<t₁,t₂,t₃,…,t_n>，其中，t_i表示用户在一天中第i个时间片段内更新数据的次数。时间片段的长度可以选择30分钟、1小时、几个小时等。实验证明，以小时划分的效果最好。

②、可采集用户在过去多天中每一天的数据更新分布向量T_i（i=1、2、3…），i表示第i天。然后，对这些数据更新分布向量进行加权求和。在一个实施例中，可通过取平均值的方法进行加权求和，即计算：

\frac{1}{n} Σ_{i = 1}^{n} T_{i} - - - (9)

这种方法将用户过去一段时间的所有的数据视为同等重要。在另一个实施例中，可采用最近最优算法来进行加权求和，即认为用户最近一天的数据最具有代表性：

\frac{2}{n \cdot (n + 1) \cdot k} Σ_{i = 1}^{n} (k \cdot i) \cdot T_{i} - - - (10)

其中，可以根据最近最优程度来调整系数k的大小。在另一个实施例中，也可以采用下式来加权求和：

\frac{k - 1}{k^{n} - 1} Σ_{i = 1}^{n} i^{k} \cdot T_{i} - - - (11)

其中，可以根据最近最优程度调整系数k。加权求和的结果即该用户的用户数据更新分布向量。

4、构建社交网络数据更新模型

本步骤的意义在于：由于仅使用单个用户的数据更新分布向量可能导致数据采集误差过大，从而不能准确预测用户将来的数据更新。而将每个用户组内所有相似用户的用户数据更新分布向量进行拟合后，可以获取关于每个组的、误差低且准确性高的数据更新分布向量。

在一个实施例中，可采用多元线性回归方法对每个用户组中所有用户数据更新分布向量进行拟合（或者称加权平均）。其中，横坐标轴是时间，纵坐标是数据更新次数，将同组所有用户的数据更新分步向量进行拟合可得到每一个用户组的数据更新分布向量，其体现用户组中所有用户在一个时间区间内的数据更新行为。

由所得到的每个用户组数据更新分布向量构成该社交网络的数据更新模型。

第二步、依据社交网络数据更新模型，针对不同用户制定不同的数据采集策略

要采集某个社交网络用户将来一段时间的更新数据，可根据已构建的社交网络数据更新模型来预测该用户的数据更新行为。参考图3，包括以下步骤：

1、获取该用户的用户资料和过去一段时间的用户数据更新信息，计算其用户资料向量P，这一过程与上文中描述的获取用户资料向量的过程相同。基于该用户的用户资料向量，通过相似度计算将该用户归入之前经过聚类得到的用户组中。在一个实施例中，可将每个用户组中所有用户的用户资料向量进行加权平均，得到每个用户组的用户资料向量，计算该用户的用户资料向量与用户组的用户资料向量的相似度，将该用户归入最大相似度对应的那个用户组。根据社交网络数据更新模型得到该用户组的数据更新分布向量得到该用户的数据更新分布向量，即T<t₁,t₂,t₃,…t_n>。

2、根据该用户的数据更新分布向量T，制定实时数据采集策略。在一个实施例中，在一天中的时间片段i对用户进行数据采集的策略为：

1）、当T中的t_i为0时，则认定在第i个时间片段，用户不会更新数据，则不进行数据采集；

2）、当t_i小于等于1时，可以用t_i的值作为采集概率，在该时间片段以t_i的概率进行数据采集；

3）、当t_i大于1时，可以采用该值作为采集次数，在时间片段i内平均进行t_i次采集。例如，在时间片段为1小时的情况下，可每隔60/t_i分钟进行一次数据采集。

根据本发明的一个实施例，还提供一种社交网络数据采集系统，包括归类装置和策略指定装置。

其中归类装置用于根据用户的用户资料向量P将该用户归于预先设定的多个用户组中的一个，其中该用户组中所有用户的用户资料向量的加权平均值与该用户的用户资料的相似度最高。从而得到该用户组的数据更新分布向量，用户组的数据更新分布向量体现该用户组中所有用户在一个时间区间内所有时间片段的数据更新行为。

策略制定装置用于根据用户组的数据更新分布向量，制定该用户在一个时间区间内不同时间片段的数据采集策略。

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims

1.一种社交网络数据采集方法，包括：

步骤1)、根据用户资料和用户过去一段时间的数据更新信息，将该用户归于预先设定的多个用户组中的一个，得到该用户组的数据更新分布向量；其中，每个用户组中用户的用户资料和数据更新信息相似，数据更新信息包括用户更新的内容和更新时间，用户组的数据更新分布向量体现该用户组中所有用户在一个时间区间内所有时间片段的数据更新行为；

步骤2)根据所述用户组的数据更新分布向量，制定该用户在一个时间区间内不同时间片段的数据采集策略。

2.根据权利要求1所述的方法，在步骤1)中，计算所述用户的用户资料向量与每个用户组中所有用户的用户资料向量的加权平均值的相似度，将所述用户归入最大相似度对应的用户组；其中所述用户资料向量包括用户资料和用户过去一段时间的数据更新信息。

3.根据权利要求1或2所述的方法，其中，步骤2)包括：

4.根据权利要求1或2所述的方法，其中，步骤1)之前还包括：

步骤0)、通过计算社交网络中多个用户在其用户资料和过去一段时间的数据更新信息上的相似度来聚类这些用户形成用户组，并且计算每个用户组的数据更新分布向量。

5.根据权利要求4所述的方法，其中步骤0)包括：

步骤i)、采集社交网络中多个用户的用户资料和过去一段时间的数据更新信息，获得每个用户的用户资料向量，通过计算用户间用户资料向量的相似度对用户进行聚类，得到多个用户组，其中所述用户资料向量包括用户资料和用户过去一段时间的数据更新信息；

步骤ii)、在每个用户组中对所有用户的数据更新分布向量进行拟合，得到每个用户组的数据更新分布向量；其中用户的数据更新分布向量体现该用户在一个时间区间内所有时间片段的数据更新次数。

6.根据权利要求5所述的方法，其中，步骤ii)之前还包括：

根据用户过去一段时间的数据更新信息得到该用户在一个或多个时间区间内所有时间片段的数据更新次数，对所述一个或多个时间区间内每个时间片段的数据更新次数取平均值得到该用户的数据更新分布向量。

7.根据权利要求5或6所述的方法，其中，所述用户资料向量包括用户性别、年龄、地址、职业、好友数量、好友、喜好、关注、用户发布消息主题、信息完整度中的一个或多个。

8.根据权利要求7所述的方法，在步骤i)中，计算用户间用户资料向量的相似度包括：

步骤a)、计算所述用户资料向量中每一维数据的相似度；

步骤b)、对每一维数据的相似度进行加权求和，得到用户间用户资料向量的相似度。

9.根据权利要求1或2所述的方法，其中所述时间区间为一天。

10.一种社交网络数据采集系统，包括：

归类装置，用于根据用户资料和用户过去一段时间的数据更新信息，将该用户归于预先设定的多个用户组中的一个，得到该用户组的数据更新分布向量；其中，每个用户组中用户的用户资料和数据更新信息相似，数据更新信息包括用户更新的内容和更新时间，用户组的数据更新分布向量体现该用户组中所有用户在一个时间区间内所有时间片段的数据更新行为；以及