CN103631949B - 一种社交网络数据采集方法及系统 - Google Patents

一种社交网络数据采集方法及系统 Download PDF

Info

Publication number
CN103631949B
CN103631949B CN201310674521.0A CN201310674521A CN103631949B CN 103631949 B CN103631949 B CN 103631949B CN 201310674521 A CN201310674521 A CN 201310674521A CN 103631949 B CN103631949 B CN 103631949B
Authority
CN
China
Prior art keywords
user
data
data update
group
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310674521.0A
Other languages
English (en)
Other versions
CN103631949A (zh
Inventor
程学旗
王元卓
刘强
李静远
邢国亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201310674521.0A priority Critical patent/CN103631949B/zh
Publication of CN103631949A publication Critical patent/CN103631949A/zh
Application granted granted Critical
Publication of CN103631949B publication Critical patent/CN103631949B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying

Abstract

本发明提供一种社交网络数据采集方法和系统,所述方法包括根据用户资料和用户过去一段时间的数据更新信息,将该用户归于预先设定的多个用户组中的一个,得到该用户组的数据更新分布向量。其中,每个用户组中用户的用户资料和数据更新信息相似,用户组的数据更新分布向量体现该用户组中所有用户在一个时间区间内所有时间片段的数据更新行为。所述方法还包括根据所述用户组的数据更新分布向量,制定该用户在一个时间区间内不同时间片段的数据采集策略。本发明可针对不同的用户制定不同的实时数据采集策略,提高了社交网络数据采集的实时性和效率。

Description

一种社交网络数据采集方法及系统
技术领域
本发明涉及数据挖掘领域,具体涉及一种社交网络数据采集方法及系统。
背景技术
社交网络服务(SNS,socialnetworkservice),简称社交网络,其概念最先起源于社会网络研究者提出的“六度理论”,其主要作用是为一群拥有相同兴趣与活动的人建立线上社区。此类服务往往基于网络,为用户提供聊天、交流的各种交互通路,如电子邮件、即时消息服务等。大部分社交网络会向使用者提供多种互动方式,如聊天、寄信、影音、档案分享、部落格,以及讨论群组等。
目前,社交网络正在迅速发展,作为社交网络的典型代表,Facebook拥有9.55亿月活跃用户,每天上传的照片总量3亿张,每天产生12亿个喜好(like),在美国,每5个页面的访问量就有一个来自Facebook。此外,Twitter平台拥有用户数量也已超过5亿,每天微博发布数目超过3亿,每天接受的查询数据已经高达16亿。在中国本土,诸如新浪微博、腾讯微博等微博平台也快速崛起。其中,仅新浪微博用户数量就突破3亿。如今,社交网络的发展速度仍在急速增长。
社交网络中的数据还有着普通网络数据所不具备的特点:1)数据量巨大,据Facebook2012年公布的数据,Facebook每天收集的数据已经超过500TB,并且随着时间的推移,社交网络的数据量越来越大;2)质量高,与普通的网页数据相比,社交网络数据多为专而深的内容,是进行商业信息挖掘、人际关系学习,以及博弈论研究的高质量数据;3)便于处理,虽然社交网络的数据量非常大,但是网页的格式通常是标准的,且一般不含有附件等其它文本,可以根据其编码格式进行统一化处理。
然而,目前的信息检索主要着眼于普通网页的数据采集,现有的搜索引擎并不能很好地采集社交网络数据。此外,当前鲜有的社交网络数据采集也只是在某一种网络中对ajax进行处理,缺少数据采集的实时性和高效性。
发明内容
针对这个问题,本发明提供一种社交网络的数据采集方法及系统。所述方法包括:
步骤1)、根据用户资料和用户过去一段时间的数据更新信息,将该用户归于预先设定的多个用户组中的一个,得到该用户组的数据更新分布向量;其中,每个用户组中用户的用户资料和数据更新信息相似,用户组的数据更新分布向量体现该用户组中所有用户在一个时间区间内所有时间片段的数据更新行为;
步骤2)根据所述用户组的数据更新分布向量,制定该用户在一个时间区间内不同时间片段的数据采集策略。
在一个实施例中,在步骤1)中,计算所述用户的用户资料和过去一段时间的数据更新信息与每个用户组中所有用户的用户资料的加权平均值和过去一段时间的数据更新信息的加权平均值的相似度,将所述用户归入最大相似度对应的用户组。
在一个实施例中,步骤2)包括:
在所述用户组的数据更新分布向量中得到在待采集时间片段的数据更新次数;
当该数据更新次数为0时,在待采集时间片段不对所述用户进行数据采集;
当该数据更新次数小于等于1时,在待采集时间片段对所述用户以该数据更新次数为概率进行数据采集;
当该数据更新次数大于1时,在待采集时间片段对所述用户以该数据更新次数作为采集次数进行采集。
在一个实施例中,步骤1)之前还包括:
步骤0)、通过计算社交网络中多个用户在其用户资料和过去一段时间的数据更新信息上的相似度来聚类这些用户形成用户组,并且计算每个用户组的数据更新分布向量。
在一个实施例中,步骤0)包括:
步骤i)、采集社交网络中多个用户的用户资料和过去一段时间的数据更新信息,获得每个用户的用户资料向量,通过计算用户间用户资料向量的相似度对用户进行聚类,得到多个用户组;
步骤ii)、在每个用户组中对所有用户的数据更新分布向量进行拟合,得到每个用户组的数据更新分布向量;其中用户的数据更新分布向量体现该用户在一个时间区间内所有时间片段的数据更新次数。
在进一步的实施例中,步骤ii)之前还包括:
根据用户过去一段时间的数据更新信息得到该用户在一个或多个时间区间内所有时间片段的数据更新次数,对所述一个或多个时间区间内每个时间片段的数据更新次数进行加权求和得到该用户的数据更新分布向量。
在一个实施例中,所述用户资料向量包括用户性别、年龄、地址、职业、好友数量、好友、喜好、关注、用户发布消息主题、信息完整度中的一个或多个。
在一个实施例中,在步骤i)中,计算用户间用户资料向量的相似度包括:
步骤a)、计算所述用户资料向量中每一维数据的相似度;
步骤b)、对每一维数据的相似度进行加权求和,得到用户间用户资料向量的相似度。
在一个实施例中,所述时间区间为一天。
根据本发明的一个实施例,还提供一种社交网络数据采集系统,包括:
归类装置,用于根据用户资料和用户过去一段时间的数据更新信息,将该用户归于预先设定的多个用户组中的一个,得到该用户组的数据更新分布向量;其中,每个用户组中用户的用户资料和数据更新信息相似,用户组的数据更新分布向量体现该用户组中所有用户在一个时间区间内所有时间片段的数据更新行为;以及
策略制定装置,用于根据所述用户组的数据更新分布向量,制定该用户在一个时间区间内不同时间片段的数据采集策略。
采用本发明可以达到如下的有益效果:
本发明根据用户资料向量对用户进行聚类得到用户组,根据用户与用户组的相似度选择一个用户组的数据更新分布向量来制定该用户的实时数据采集策略,参考用户组的数据更新分布向量使得数据采集的准确性较高,从而提高了社交网络中数据采集的效率。此外,针对一天中不同的时间片段可制定实时的数据采集策略,提高了数据采集的实时性。
附图说明
图1是根据本发明一个实施例的社交网络数据采集方法的流程图;
图2是根据本发明一个实施例的构建社交网络数据更新模型的方法的流程图;以及
图3是根据本发明一个实施例的制定数据采集策略的方法的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明加以说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
根据本发明的一个实施例,提供一种社交网络数据采集方法。参考图1且简要而言,该方法首先根据社交网络用户的用户资料和用户数据更新信息构建社交网络数据更新模型;然后依据该社交网络数据更新模型,针对不同用户制定不同的数据采集策略。
继续参考图1,具体描述本发明提供的社交网络数据采集方法的步骤:
第一步、根据用户资料和用户数据更新信息构建社交网络数据更新模型
在一个实施例中,可首先采集社交网络用户的用户资料和用户过去一段时间/最近一段时间的数据更新信息(简称用户数据更新信息),接着根据这些信息对用户进行聚类得到不同的用户组,并且得到聚类后每个用户组的数据更新分布向量,根据每个用户组的数据更新分布向量构建社交网络数据更新模型。根据本发明的一个实施例,如图2所示,这一过程包括以下步骤:
1、采集社交网络用户的用户资料和过去一段时间的数据更新信息
用户资料是用于描述用户的身份、特征、爱好等的数据,在社交网络中,用户资料可包括性别、年龄等信息。用户过去一段时间的数据更新信息体现该用户的数据更新行为,其可包括与用户在过去一段时间内发起或转发的信息、评论的信息以及用户个人资料更新信息等相关的信息。
在一个实施例中,用户资料可被划分为三种不同类型的数据。第一种数据为定性数据,如性别(s)、年龄(a)、地址(ad)、职业(p)、好友数量(f)等,这些数据均为定值且是不会发生强烈变化的单一数值;第二种数据是可变数据,如喜好(L)、关注(A)、好友(F)等,这些数据均是不确定且可变的,可采用集合的形式来表示;第三种数据是测评性数据,如信息完整度(d),该数据是对用户个人信息的完整性进行评估所得到的数据,可根据整个用户资料统计得出,是单一的数值,其取值分布在0-1之间。表1给出了部分Facebook用户的用户资料的例子,其中仅示出性别(s)、年龄(a)、地址(ad)、职业(p)、爱好(L)和信息完整度(d)。
表1
在一个实施例中,用户数据更新信息可包括在过去一段时间内用户发布的信息内容和发布时间等。表2给出了部分Facebook用户的用户数据更新信息的例子,包括发布的消息内容和发布的时间。如上文所述,用户数据更新信息可以包括一段时间内与用户发起、转发、评论的信息以及用户个人资料更新信息等相关的信息。
表2
2、对用户进行聚类
根据所采集的社交网络用户的用户资料和用户过去一段时间的数据更新信息来构建用户资料向量,并且基于用户资料向量对用户进行聚类,在一个实施例中,可包括以下子步骤:
①、根据用户资料和过去一段时间的用户数据更新信息来构建用户资料向量,例如表示为向量P<s,a,ad,p,f,F,L,A,C,d>。
如上文所述,s为用户性别、a为年龄、ad为地址、p为职业、f为好友数量、F为好友、L为喜好、A为关注、C为用户发布消息主题,d为信息完整度。应理解,用户资料向量还可以包括其他用户资料或用户数据更新信息。要构建用户资料向量,首先需要对所采集的用户资料和用户数据更新信息进行规整(即处理为可用于计算的数据)。这里的性别(s)、年龄(a)、地址(ad)、职位(p)、好友数量(f)等定性数据可以从用户资料中直接提取,得到的数据为单一数值。但是可能存在信息未填充的用户,对于这些用户,在一个实施例中,相应的未填充数据可用NULL代替。对于好友(F)、喜好(L)、关注(A)等可变数据也可以从用户资料中直接提取,然而使用集合来表示。
在一个实施例中,对于用集合表示的用户发布消息主题(C)可从用户数据更新信息(例如“说说”和评论)中聚合得到。在一个实施例中,可使用优化的LDA模型来计算得出主题。首先,从用户数据更新信息中取出用户所有的说说和评论,将这些信息表示为doc<w1,w2,w3,…,wn>,其中,doc可以看作单词的序列,其包括n个单词,wi表示第i个单词。将所有的doc(该用户所有的“说说”和评论)合并,从而得到一个文档集合D,该文档集合D涉及由不同单词组成的大集合VOC,根据事先定义好的主题集合TH<th1,th2,th3,th4,…,thk>,将doc对应到不同主题的概率为其中,表示doc对应TH中第i个主题的概率。在一个实施例中,可以使用以下公式计算
p th i = n th i n - - - ( 1 )
其中,表示doc中对应TH中第i个主题的单词的数目,n是doc中所有单词的总数。对于TH中的每个主题th,生成VOC中不同单词的概率为(表示主题th生成VOC中第i个单词的概率,可使用下式来计算
p w i = N w i N - - - ( 2 )
其中,表示对应主题th的VOC第i个单词的数目,N表示对应所有主题th的单词总数。重复计算下式:
p(w|doc)=p(w|th)*p(th|doc)(3)
最终收敛的结果即得出主题关键词项,对所有词项求并集,取出前k个,便可获取用户发布消息主题(C)。应理解,除了上述聚合方法,也可以采用其他现有技术来获得用户发布消息主题。
研究表明,用户信息完整度可以在一个侧面反映用户对该社交网络的依赖性(依赖性越强,数据更新越频繁)。在一个实施例中,计算信息完整度(d),可以是根据所有信息计算用户个人填写完成度。
②、根据用户资料向量对用户进行聚类
在构建好每个用户的用户资料向量后,可根据得到的用户资料向量对用户进行聚类,将相似的用户划分到同一个用户组。这样做是因为根据多个相似用户的信息在社交网络中进行数据采集可使误差降低,做到更准确和实时。在一些实施例中,可以采用划分方法来计算相似度,如k-means、k-medoids等。在一些实施例中,可采用层次方法计算相似度,如BIRCH、CURE等。在其他实施例中,还可以采用网格方法(如STING),或者采用神经网络等方法来计算相似度。
在一个实施例中,针对用户资料中不同的两类数据分别计算相似度,一类是单一数值,如性别(s),年龄(a)等,这类数据可采用k-means方法。k-means方法的优点在于可通过人工调整参数来获取用户组数,可有效调整分组多少,使计算简单、有效。k-means的计算结果是聚类结果,由于需要的是两个数值之间的相似度,可以采用不同的k,多次进行k-means聚类,相似度可定义为出现在同一组的次数比上所有分组次数。
另一类是向量数据,如喜好(L),用户发布消息主题(C)等,需要进行集合相似计算。例如,可以采用jaccard系数方法,即对于集合A和B,其相似系数:
J ( A , B ) = | A &cap; B | | A &cup; B | - - - ( 4 )
也可以使用DICE系数:
D ( A , B ) = 2 | A &cap; B | | A | + | B | - - - ( 5 )
使用这两种方法计算集合相似度比较简单和有效。
在其他实施例中,计算集合之间的相似度还可以采用minhash算法,该算法的步骤为:首先使用哈希函数h(x)将元素x映射成一个整数,hmin(S)是指集合S中的元素经过h(x)哈希后,具有最小哈希值的元素,那么对于集合A、B,hmin(A)=hmin(B)成立的条件是A∪B中具有最小哈希值的元素也在A∩B中。可以通过计算A和B经过hash后最小哈希值相等概率来计算集合A和B的相似度。对于本发明来说,计算集合之间的相似度可以对每一个集合求一次哈希,然后取K个最小的元素,计算集合A中最小的K个元素与集合B中最小的K个元素的交集个数与并集个数的比例,从而得到集合A和B的相似度,该方法可以有效降低计算量。
由于在实际生活中对某一种物品的描述可能有多种情况,例如对于足球,美国人常用football表示,而英国人使用soccer来描述。因此,在计算喜好(L)和关注(A)等的相似度之前,可以先进行聚类,从而能够有效降低维数。对于好友(F),可以通过计算共同好友与所有好友的比例来计算相似度,但是可能由于用户过多,造成矩阵过于稀疏。在一个实施例中,对于好友关系图G,先求取G2降低矩阵的稀疏程度,然后计算图G2中共同好友数目与好友数目的比例,从而得到相似度。
此外,可以对不同类型数据的相似度计算结果给予不同权重,通过加权求和来获得综合的相似度结果。在一个实施例中,可对用户资料向量的每一维数据设置不同权重,保证所有权重的和为1。对于上文中描述的用户资料向量示例,下式给出了一种计算用户相似度的公式:
SIM=λ1sim(s)+λ2sim(a)+λ3sim(ad)+λ4sim(p)+λ5sim(f)+λ6sim(L)+
λ7sim(F)+λ8sim(C)+λ9sim(A)+λ10sim(d)(6)
其中,权重λ12345678910=1。在进一步的实施例中,可基于人工评测的训练集,使用最大熵算法来确定权重λi的大小。例如,给定条件为α,结论为β的概率为:
p ( &beta; | &alpha; ) = exp ( &Sigma; i = 1 n &lambda; i f i ( &alpha; , &beta; ) ) Z - - - ( 7 )
则给定条件α,最优β可以表示为:
&beta; ^ = arg max ( &beta; | &alpha; ) = arg max exp ( &Sigma; i = 1 n &lambda; i f i ( &alpha; , &beta; ) ) Z - - - ( 8 )
= arg max ( &Sigma; i = 1 n &lambda; i f i ( &alpha; , &beta; ) )
可以看出,要得到这组参数λi,那么对于给定条件α对所有结论β取最优值即可。
3、得到用户数据更新分布向量
依据所采集的用户过去一段时间的数据更新信息,获取该用户分别在(过去一段时间覆盖的)多个时间区间(例如1天)上的数据更新分布向量。每个时间区间上的用户数据更新分布向量体现了用户在该时间区间内的不同时间片段的数据更新次数,可通过对用户在过去一段时间的所有时间区间的用户数据更新分布向量进行加权求和来得到该用户的数据更新分布向量,步骤如下:
①、现有研究表明,由于社交网络用户的行为具有以天为单位的周期性,可将一天作为一个时间区间来构建用户数据更新分布向量。用户在一天中不同时间片段(例如不同小时)的数据更新行为(例如更新频率或数据更新次数)是不同的,据统计,用户在16:00—23:00的数据更新最为频繁,而在其他时段的更新频率则比较低。在一个实施例中,每天的用户数据更新分布向量可表示为T<t1,t2,t3,…,tn>,其中,ti表示用户在一天中第i个时间片段内更新数据的次数。时间片段的长度可以选择30分钟、1小时、几个小时等。实验证明,以小时划分的效果最好。
②、可采集用户在过去多天中每一天的数据更新分布向量Ti(i=1、2、3…),i表示第i天。然后,对这些数据更新分布向量进行加权求和。在一个实施例中,可通过取平均值的方法进行加权求和,即计算:
1 n &Sigma; i = 1 n T i - - - ( 9 )
这种方法将用户过去一段时间的所有的数据视为同等重要。在另一个实施例中,可采用最近最优算法来进行加权求和,即认为用户最近一天的数据最具有代表性:
2 n &CenterDot; ( n + 1 ) &CenterDot; k &Sigma; i = 1 n ( k &CenterDot; i ) &CenterDot; T i - - - ( 10 )
其中,可以根据最近最优程度来调整系数k的大小。在另一个实施例中,也可以采用下式来加权求和:
k - 1 k n - 1 &Sigma; i = 1 n i k &CenterDot; T i - - - ( 11 )
其中,可以根据最近最优程度调整系数k。加权求和的结果即该用户的用户数据更新分布向量。
4、构建社交网络数据更新模型
本步骤的意义在于:由于仅使用单个用户的数据更新分布向量可能导致数据采集误差过大,从而不能准确预测用户将来的数据更新。而将每个用户组内所有相似用户的用户数据更新分布向量进行拟合后,可以获取关于每个组的、误差低且准确性高的数据更新分布向量。
在一个实施例中,可采用多元线性回归方法对每个用户组中所有用户数据更新分布向量进行拟合(或者称加权平均)。其中,横坐标轴是时间,纵坐标是数据更新次数,将同组所有用户的数据更新分步向量进行拟合可得到每一个用户组的数据更新分布向量,其体现用户组中所有用户在一个时间区间内的数据更新行为。
由所得到的每个用户组数据更新分布向量构成该社交网络的数据更新模型。
第二步、依据社交网络数据更新模型,针对不同用户制定不同的数据采集策略
要采集某个社交网络用户将来一段时间的更新数据,可根据已构建的社交网络数据更新模型来预测该用户的数据更新行为。参考图3,包括以下步骤:
1、获取该用户的用户资料和过去一段时间的用户数据更新信息,计算其用户资料向量P,这一过程与上文中描述的获取用户资料向量的过程相同。基于该用户的用户资料向量,通过相似度计算将该用户归入之前经过聚类得到的用户组中。在一个实施例中,可将每个用户组中所有用户的用户资料向量进行加权平均,得到每个用户组的用户资料向量,计算该用户的用户资料向量与用户组的用户资料向量的相似度,将该用户归入最大相似度对应的那个用户组。根据社交网络数据更新模型得到该用户组的数据更新分布向量得到该用户的数据更新分布向量,即T<t1,t2,t3,…tn>。
2、根据该用户的数据更新分布向量T,制定实时数据采集策略。在一个实施例中,在一天中的时间片段i对用户进行数据采集的策略为:
1)、当T中的ti为0时,则认定在第i个时间片段,用户不会更新数据,则不进行数据采集;
2)、当ti小于等于1时,可以用ti的值作为采集概率,在该时间片段以ti的概率进行数据采集;
3)、当ti大于1时,可以采用该值作为采集次数,在时间片段i内平均进行ti次采集。例如,在时间片段为1小时的情况下,可每隔60/ti分钟进行一次数据采集。
根据本发明的一个实施例,还提供一种社交网络数据采集系统,包括归类装置和策略指定装置。
其中归类装置用于根据用户的用户资料向量P将该用户归于预先设定的多个用户组中的一个,其中该用户组中所有用户的用户资料向量的加权平均值与该用户的用户资料的相似度最高。从而得到该用户组的数据更新分布向量,用户组的数据更新分布向量体现该用户组中所有用户在一个时间区间内所有时间片段的数据更新行为。
策略制定装置用于根据用户组的数据更新分布向量,制定该用户在一个时间区间内不同时间片段的数据采集策略。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims (10)

1.一种社交网络数据采集方法,包括:
步骤1)、根据用户资料和用户过去一段时间的数据更新信息,将该用户归于预先设定的多个用户组中的一个,得到该用户组的数据更新分布向量;其中,每个用户组中用户的用户资料和数据更新信息相似,数据更新信息包括用户更新的内容和更新时间,用户组的数据更新分布向量体现该用户组中所有用户在一个时间区间内所有时间片段的数据更新行为;
步骤2)根据所述用户组的数据更新分布向量,制定该用户在一个时间区间内不同时间片段的数据采集策略。
2.根据权利要求1所述的方法,在步骤1)中,计算所述用户的用户资料向量与每个用户组中所有用户的用户资料向量的加权平均值的相似度,将所述用户归入最大相似度对应的用户组;其中所述用户资料向量包括用户资料和用户过去一段时间的数据更新信息。
3.根据权利要求1或2所述的方法,其中,步骤2)包括:
在所述用户组的数据更新分布向量中得到在待采集时间片段的数据更新次数;
当该数据更新次数为0时,在待采集时间片段不对所述用户进行数据采集;
当该数据更新次数小于等于1时,在待采集时间片段对所述用户以该数据更新次数为概率进行数据采集;
当该数据更新次数大于1时,在待采集时间片段对所述用户以该数据更新次数作为采集次数进行采集。
4.根据权利要求1或2所述的方法,其中,步骤1)之前还包括:
步骤0)、通过计算社交网络中多个用户在其用户资料和过去一段时间的数据更新信息上的相似度来聚类这些用户形成用户组,并且计算每个用户组的数据更新分布向量。
5.根据权利要求4所述的方法,其中步骤0)包括:
步骤i)、采集社交网络中多个用户的用户资料和过去一段时间的数据更新信息,获得每个用户的用户资料向量,通过计算用户间用户资料向量的相似度对用户进行聚类,得到多个用户组,其中所述用户资料向量包括用户资料和用户过去一段时间的数据更新信息;
步骤ii)、在每个用户组中对所有用户的数据更新分布向量进行拟合,得到每个用户组的数据更新分布向量;其中用户的数据更新分布向量体现该用户在一个时间区间内所有时间片段的数据更新次数。
6.根据权利要求5所述的方法,其中,步骤ii)之前还包括:
根据用户过去一段时间的数据更新信息得到该用户在一个或多个时间区间内所有时间片段的数据更新次数,对所述一个或多个时间区间内每个时间片段的数据更新次数取平均值得到该用户的数据更新分布向量。
7.根据权利要求5或6所述的方法,其中,所述用户资料向量包括用户性别、年龄、地址、职业、好友数量、好友、喜好、关注、用户发布消息主题、信息完整度中的一个或多个。
8.根据权利要求7所述的方法,在步骤i)中,计算用户间用户资料向量的相似度包括:
步骤a)、计算所述用户资料向量中每一维数据的相似度;
步骤b)、对每一维数据的相似度进行加权求和,得到用户间用户资料向量的相似度。
9.根据权利要求1或2所述的方法,其中所述时间区间为一天。
10.一种社交网络数据采集系统,包括:
归类装置,用于根据用户资料和用户过去一段时间的数据更新信息,将该用户归于预先设定的多个用户组中的一个,得到该用户组的数据更新分布向量;其中,每个用户组中用户的用户资料和数据更新信息相似,数据更新信息包括用户更新的内容和更新时间,用户组的数据更新分布向量体现该用户组中所有用户在一个时间区间内所有时间片段的数据更新行为;以及
策略制定装置,用于根据所述用户组的数据更新分布向量,制定该用户在一个时间区间内不同时间片段的数据采集策略。
CN201310674521.0A 2013-12-11 2013-12-11 一种社交网络数据采集方法及系统 Active CN103631949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310674521.0A CN103631949B (zh) 2013-12-11 2013-12-11 一种社交网络数据采集方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310674521.0A CN103631949B (zh) 2013-12-11 2013-12-11 一种社交网络数据采集方法及系统

Publications (2)

Publication Number Publication Date
CN103631949A CN103631949A (zh) 2014-03-12
CN103631949B true CN103631949B (zh) 2016-01-27

Family

ID=50212990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310674521.0A Active CN103631949B (zh) 2013-12-11 2013-12-11 一种社交网络数据采集方法及系统

Country Status (1)

Country Link
CN (1) CN103631949B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106033586B (zh) * 2015-03-17 2020-05-05 北京国双科技有限公司 基于社交平台的分组方法和装置
CN107240029B (zh) * 2017-05-11 2023-03-31 腾讯科技(深圳)有限公司 一种数据处理方法及装置
CN107358534A (zh) * 2017-06-29 2017-11-17 浙江理工大学 社交网络的无偏数据采集系统及采集方法
CN108334651B (zh) * 2018-02-08 2021-10-01 北京小米移动软件有限公司 收集用户端数据实现预设需求的方法、装置及存储介质
CN109271806A (zh) * 2018-08-14 2019-01-25 同济大学 基于用户行为的隐私保护机制研究
CN109828997A (zh) * 2019-01-03 2019-05-31 温州医科大学 一种大学生行为数据分析及学业预警方法
CN111737590B (zh) * 2020-05-22 2023-09-12 国家计算机网络与信息安全管理中心 社交关系挖掘方法、装置、电子设备以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101202966A (zh) * 2007-11-29 2008-06-18 华为软件技术有限公司 一种用户信息的收集方法、系统及设备
CN101316246A (zh) * 2008-07-18 2008-12-03 北京大学 一种基于分类器动态更新的垃圾邮件检测方法及系统
CN102609460A (zh) * 2012-01-13 2012-07-25 中国科学院计算技术研究所 微博客数据采集方法及系统
CN102867016A (zh) * 2012-07-18 2013-01-09 北京开心人信息技术有限公司 一种基于标签的社交网络用户兴趣挖掘方法与装置
CN103150336A (zh) * 2013-02-04 2013-06-12 浙江大学 一种基于用户聚类的sky line在线计算方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101202966A (zh) * 2007-11-29 2008-06-18 华为软件技术有限公司 一种用户信息的收集方法、系统及设备
CN101316246A (zh) * 2008-07-18 2008-12-03 北京大学 一种基于分类器动态更新的垃圾邮件检测方法及系统
CN102609460A (zh) * 2012-01-13 2012-07-25 中国科学院计算技术研究所 微博客数据采集方法及系统
CN102867016A (zh) * 2012-07-18 2013-01-09 北京开心人信息技术有限公司 一种基于标签的社交网络用户兴趣挖掘方法与装置
CN103150336A (zh) * 2013-02-04 2013-06-12 浙江大学 一种基于用户聚类的sky line在线计算方法

Also Published As

Publication number Publication date
CN103631949A (zh) 2014-03-12

Similar Documents

Publication Publication Date Title
CN103631949B (zh) 一种社交网络数据采集方法及系统
CN105701216B (zh) 一种信息推送方法及装置
CN103049440B (zh) 一种相关文章的推荐处理方法和处理系统
US20170235788A1 (en) Machine learned query generation on inverted indices
CN104966125B (zh) 一种社交网络的物品评分及推荐方法
CN104050258B (zh) 一种基于兴趣群组的群体推荐方法
CN103793489B (zh) 一种在线社交网络中社群话题的发现方法
CN105320719B (zh) 一种基于项目标签和图形关系的众筹网站项目推荐方法
CN108509551A (zh) 一种基于Spark环境下的微博网络关键用户挖掘系统及方法
CN103218436B (zh) 一种融合用户类别标签的相似问题检索方法及装置
CN107679239B (zh) 一种基于用户行为的个性化社区推荐方法
CN105281925B (zh) 网络业务用户群组划分的方法和装置
Li et al. Novel user influence measurement based on user interaction in microblog
CN111125453A (zh) 基于子图同构的社交网络中意见领袖角色识别方法及存储介质
CN107562947A (zh) 一种移动时空感知下动态即时推荐服务模型建立方法
CN103823888A (zh) 一种基于节点亲密度的社交网站好友推荐方法
CN109522475A (zh) 一种基于用户历史消费数据的商家推荐方法
CN104133897A (zh) 一种基于话题影响力的微博话题溯源方法
CN105095476A (zh) 基于Jaccard均衡距离的协同过滤推荐方法
CN105678590A (zh) 一种面向社交网络基于云模型的topN推荐方法
CN104035987A (zh) 一种微博网络用户影响力排名方法
Otay et al. A novel pythagorean fuzzy AHP and TOPSIS method for the wind power farm location selection problem
CN103198432A (zh) 在线社会网络中网络群体的检测方法及系统
CN107358534A (zh) 社交网络的无偏数据采集系统及采集方法
Zhao et al. A short-term trend prediction model of topic over Sina Weibo dataset

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20140312

Assignee: Branch DNT data Polytron Technologies Inc

Assignor: Institute of Computing Technology, Chinese Academy of Sciences

Contract record no.: 2018110000033

Denomination of invention: Data acquisition method and system for social network

Granted publication date: 20160127

License type: Common License

Record date: 20180807

EE01 Entry into force of recordation of patent licensing contract