CN107358534A - 社交网络的无偏数据采集系统及采集方法 - Google Patents
社交网络的无偏数据采集系统及采集方法 Download PDFInfo
- Publication number
- CN107358534A CN107358534A CN201710517255.9A CN201710517255A CN107358534A CN 107358534 A CN107358534 A CN 107358534A CN 201710517255 A CN201710517255 A CN 201710517255A CN 107358534 A CN107358534 A CN 107358534A
- Authority
- CN
- China
- Prior art keywords
- user
- mrow
- msub
- good friend
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000005516 engineering process Methods 0.000 claims abstract description 14
- 230000006855 networking Effects 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000005295 random walk Methods 0.000 claims abstract description 5
- 241000270322 Lepidosauria Species 0.000 claims description 17
- 238000003745 diagnosis Methods 0.000 claims description 12
- 238000013461 design Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 5
- 230000002688 persistence Effects 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 5
- 230000000452 restraining effect Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 2
- 230000001934 delay Effects 0.000 claims 1
- 238000013508 migration Methods 0.000 claims 1
- 230000005012 migration Effects 0.000 claims 1
- 238000005070 sampling Methods 0.000 abstract description 6
- 238000009826 distribution Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 2
- 244000046052 Phaseolus vulgaris Species 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种社交网络的无偏数据采集系统及采集方法,其包括用户信息抓取模块、用户节点选择模块和社交网络数据存储模块,其采用延迟接受技术的马尔科夫链随机游走采样方案,可以从社交网络上获得可靠的无偏数据。其解决了一般的社交网络系统处理重复用户信息耗费时间长、空间资源多、获取信息不均匀的技术问题。
Description
技术领域
本发明涉及社交网络数据采集技术领域,具体涉及一种社交网络的无偏数据采集系统及采集方法。
背景技术
社交网络(social network)指人与人之间、组织与组织之间为达到特定的目的进行信息交流而形成的关系网。由于互联网的兴起与发展,Twitter、Facebook、微博等具有代表性的提供社交网络服务的平台得到了飞速发展。随着用户群体的迅速增长,用户与用户之间进行信息交流形成的社交网络结构也变得更加复杂,这些变化自然引起了国内外学者的广泛关注,使得社交网络成为了一个新的研究领域。
社交网络通常会模型化为社交图进行研究分析。研究者直接面临的问题就是社交网络的数据量太过庞大。首先,想要得到完整的数据集是不切实际的,因为抓取到如此庞大的社交图要耗费难以想象的时间,有些时候也是不可能的。与此同时,处理如此庞大的社交图,即使利用高性能计算机集群也需要大量的时间进行计算。其次,出于商业机密以及用户的私有设置,社交网络的完整数据也并不可获得。最后,社交网络的用户数量增长迅速并且用户间的关系会随时间改变,因此经典的大型网络并不能完全爬取。所以,如何在大型网络中抓取适量的样本,并保持原始网络的网络属性就成了社交网络研究的基础问题。
目前常用的网络抽样技术,普遍上应用广度优先搜索算法进行数据抽样。广度优先搜索算法虽然可以快速获取大量用户数据。然而在实际的生产中需要消耗大量资源设计去重队列,这样会大大减少数据的抽取效率。同时广度优先搜索算法是典型的网络的遍历算法,其算法抽取的数据会偏向高度的节点,从而该方法不能获取可靠的用户数据。
发明内容
为了解决现有社交网络数据抽取方案不能获取无偏数据以及需要设计去重队列的不足,本发明提供一种社交网络的数据采集系统及方法,从而可以获取更加可靠的无偏数据,具体技术方案如下:
一种社交网络的无偏数据采集系统,其包括用户信息抓取模块、用户节点选择模块和社交网络数据存储模块,其中,所述用户信息抓取模块通过网页解析技术或请求第三方API的方式从社交网络服务商获取用户数据,所述的获取的用户数据是根据需要抽样的网络决定的;
所述用户节点选择模块包括待爬用户缓存区及下一用户选择子模块,所述待爬用户缓存区采用Redis高速缓存数据库设计的数据结构实时存储被探索用户的用户ID,以及该用户ID被探索的次数;所述的下一用户选择子模块通过带有延迟接受技术的马尔科夫链随机游走算法,从当前用户的好友中选择下一个爬虫用户,并采用Geweke诊断算法检测单个马尔科夫链的数据收敛情况;
所述社交网络数据存储模块将爬虫过程中抽取到的用户信息持久化保存到数据库中,并保持用户数据的更新及对重复爬取的数据做删除处理。
进一步的,所述待爬用户缓存区采用Redis高速缓存数据库设计数据结构,所述数据结构采用字典嵌套列表的形式,将具有相同好友数量的用户ID放入同一个数据块中,并记录每一个用户ID的被访问次数,每当新的用户u需要压入缓存区时,会执行以下步骤:
步骤一:根据好友数量及用户ID查询缓存区是否已经存在用户u,若不存在,增加用户u的用户ID,并置该用户的被访问次数N为1;若存在,执行步骤二;
步骤二:更新用户u的被访问次数,使被访问次数N自加1。
更进一步的,所述下一用户选择子模块的用户采用如下选择策略:
步骤一:在当前用户的好友列表中等概率的随机选择一定数量的好友,一般取5~10个好友,将他们的用户ID及好友数量存入待爬用户缓存区中;
步骤二:随机在当前用户的好友列表中选择一个用户u;
步骤三:当用户u的好友数量/当前用户好友数量>=随机小数[0,1]时,直接将用户u作为下一个待爬取的用户;当用户u的好友数量/当前用户好友数量<随机小数[0,1]时,以80%的概率从待爬用户缓存区中选择被访问次数最少的同时与用户u具有相同用户数量的用户ID作为下一个待爬取用户,以20%的概率直接将用户u作为下一个待爬取的用户;
更进一步的,采用Geweke诊断算法检测单个马尔科夫链的数据收敛情况的步骤具体如下:
令数列X为爬虫过程中按时间顺序排列的用户好友数量,Geweke诊断将X分为两个子数列Xa和Xb,计算数值z:
其中,Xa为用户好友数量的前10%,Xb为用户好友数量的后50%,E(Xa)为Xa的平均值,E(Xb)为Xb的平均值,x为X中某个样本值,即某个具体用户的好友数量,n为样本数量,即X数列中元素的个数;
若从某个数据量开始,z的值都在[-1,1]这个区间,则诊断为收敛。
上述社交网络的无偏数据采集系统采用如下的数据采集方法:
步骤一,从社交网络中随机选择一个当前用户v,并通过网页解析技术或请求第三方API的方式从社交网络服务商获取该用户数据,所述的获取的用户数据是根据需要抽样的网络决定的;
步骤二,采用通过带有延迟接受技术的马尔科夫链随机游走算法,从当前用户的好友中选择下一个爬虫用户,采用Redis高速缓存数据库设计的数据结构实时存储被探索用户的用户ID,并采用Geweke诊断算法检测单个马尔科夫链的数据收敛情况;
步骤三,将爬虫过程中抽取到的用户信息持久化保存到数据库中,并保持用户数据的更新及对重复爬取的数据做删除处理。
进一步的,其中所述的Redis高速缓存数据库设计的数据结构采用字典嵌套列表的形式,将具有相同好友数量的用户ID放入同一个数据块中,并记录每一个用户ID的被访问次数,每当新的用户u需要压入缓存区时,会执行以下步骤:
步骤一:根据好友数量及用户ID查询缓存区是否已经存在用户u,若不存在,增加用户u的用户ID,并置该用户的被访问次数N为1;若存在,执行步骤二;
步骤二:更新用户u的被访问次数,使被访问次数N自加1。
更进一步的,所述下一爬虫用户的选择采用如下选择策略:
步骤一:在当前用户的好友列表中等概率的随机选择一定数量的好友,一般取5~10个,将他们的用户ID及好友数量存入待爬用户缓存区中;
步骤二:随机在当前用户的好友列表中选择一个用户u;
步骤三:当用户u的好友数量/当前用户好友数量>=随机小数[0,1]时,直接将用户u作为下一个待爬取的用户;当用户u的好友数量/当前用户好友数量<随机小数[0,1]时,以80%的概率从待爬用户缓存区中选择被访问次数最少的同时与用户u具有相同用户数量的用户ID作为下一个待爬取用户,以20%的概率直接将用户u作为下一个待爬取的用户;
更进一步的,所述采用Geweke诊断算法检测单个马尔科夫链的数据收敛情况的步骤具体如下:
令数列X为爬虫过程中按时间顺序排列的用户好友数量,Geweke诊断将X分为两个子数列Xa和Xb,计算数值z:
其中,
其中,Xa为用户好友数量的前10%,Xb为用户好友数量的后50%,E(Xa)为Xa的平均值,E(Xb)为Xb的平均值,x为X中某个样本值,即某个具体用户的好友数量,n为样本数量,即X数列中元素的个数;
若从某个数据量开始,z的值都在[-1,1]这个区间,则诊断为收敛。
本发明的有益效果是,可以从社交网络中爬取无偏的数据,这样采集的用户信息的度分布与原始网络相同,即,网络中的每个用户被等概率的抓取,有效解决了一般抽样方法的信息偏移问题,并且该方法可以克服一般的社交网络系统需要耗费大量时间空间资源去处理重复用户信息的缺点。
附图说明
图1为社交网络数据的无偏采集系统结构图;
图2为社交网络用户信息抓取模块图;
图3为社交网络的无偏数据采集系统中下一用户选择流程图;
图4为待爬用户缓存区数据结构示意图;
图5为用户数据抽样的收敛性判断过程。
具体实施方式
下面结合附图对社交网络的无偏数据采集系统及采集方法作进一步的说明。
如图1所示,本发明的社交网络的的无偏数据采集系统包括用户信息抓取模块、用户节点选择模块和社交网络数据存储模块。其中用户信息抓取模块通过网页解析技术或请求第三方API的方式从社交网络服务商获取用户数据,获取的用户数据通常根据需要抽样的网络决定,主要包括年龄,性别,地区,昵称,关注者列表,粉丝列表等。
如图2所示,用户信息抓取模块可以通过网页获取数据,或者调用企业API的方法获得相应的用户信息数据。其中,
通过网页解析技术从社交网络服务商获取用户数据的步骤如下:
1)用户登录认证,采用cookies伪装认证;
2)获取用户信息页面的URL链接地址;
3)从社交网络上下载用户页面的html源码;
4)用Xpath或正则表达式从下载的源码中抽取用户信息。
通过第三方API从社交网络服务商获取用户数据的步骤如下:
1)使用Oauth2.0进行得到Access Token;
2)获取希望抽取的用户ID;
3)调用API接口,获取相应XML或JSON文件;
4)解析XML或JSON文件,得到用户信息数据。
本发明所提取用户信息是根据具体需要抽样的网络进行设计的,以微博为例子,但不限于一种社交网络。更具体的说需要提取的用户信息可以有:1)用户ID:采用“用户ID”作为唯一标识;2)用户的好友数量Num_frients(若为有向社交网络,需要附加粉丝数量Num_Fans,关注数量Num_Follows;3)出生日期Birthday;4)所在城市City;5)微博的个人首页URL等。
用户节点选择模块包括待爬用户缓存区及下一用户选择子模块,待爬用户缓存区采用Redis高速缓存数据库设计的数据结构,如图4所示,实时存储被探索用户的用户ID,以及该用户ID被探索的次数,所述数据结构采用字典嵌套列表的形式,将具有相同好友数量的用户ID放入同一个数据块中,并记录每一个用户ID的被访问次数,每当新的用户u需要压入缓存区时,会执行以下步骤:
步骤一:根据好友数量及用户ID查询缓存区是否已经存在用户u,若不存在,增加用户u的用户ID,并置该用户的被访问次数N为1;若存在,执行步骤二;
步骤二:更新用户u的被访问次数,使被访问次数N自加1。
下一用户选择子模块通过带有延迟接受技术的马尔科夫链随机游走算法,从当前用户的好友(如关注者列表和分析列表)中选择下一个爬虫用户,其中下一用户选择子模块的用户采用如下选择策略,具体如图3所示:
步骤一:在当前用户的好友列表中等概率的随机选择一定数量的好友,一般取5~10个好友,将他们的用户ID及好友数量存入待爬用户缓存区中;
步骤二:随机在当前用户的好友列表中选择一个用户u;
步骤三:当用户u的好友数量/当前用户好友数量>=随机小数[0,1]时,直接将用户u作为下一个待爬取的用户;当用户u的好友数量/当前用户好友数量<随机小数[0,1]时,以80%的概率从待爬用户缓存区中选择被访问次数最少的同时与用户u具有相同用户数量的用户ID作为下一个待爬取用户,以20%的概率直接将用户u作为下一个待爬取的用户;
使用马尔科夫建模可以证明,以上的抽样策略可以等概率的获取网络中的用户信息,而不会偏向于采集社交网络中影响力大的用户信息(即,好友数量很多的用户)。
数据采集系统运行时,需要给出单次采集的最小收集数据量,用以保证收集到的数据是足够可靠的,也就是保证采集到的用户数据的网络度分布较真实网络而言是一致的。如图五,展示了执行一次无偏爬虫方案所获得的用户数据的收敛判断过程。更详细的有以下步骤:
第一步:从保存用户数据的数据库中,提取前10%的用户的好友数量,并按数据库中的顺序合成向量Xa;同样的,提取后50%的用户的好友数量,并合成向量Xb。
第二步:计算Xa和Xb的样本均值E(Xa)和E(Xb)。
第三步:计算Xa和Xb的样本方差Var(Xa)和Var(Xb),更具体的说:
其中,n为样本数量(即,Xa的维度),x为具体的样本值(即,具体某个用户的好友数量
第四步:计算数值若-1≤Z≤1,判断采集到的用户数据已经收敛,即采样数据的度分布已经具有无偏性;否则,判断为还未收敛,数据采集不够充分。
社交网络数据存储模块将爬虫过程中抽取到的用户信息持久化保存到数据库中,并保持用户数据的更新及对重复爬取的数据做删除处理。
Claims (8)
1.一种社交网络的无偏数据采集系统,其包括用户信息抓取模块、用户节点选择模块和社交网络数据存储模块,其中,所述用户信息抓取模块通过网页解析技术或请求第三方API的方式从社交网络服务商获取用户数据,所述的获取的用户数据是根据需要抽样的网络决定的;
所述用户节点选择模块包括待爬用户缓存区及下一用户选择子模块,所述待爬用户缓存区采用Redis高速缓存数据库设计的数据结构实时存储被探索用户的用户ID,以及该用户ID被探索的次数;所述的下一用户选择子模块通过带有延迟接受技术的马尔科夫链随机游走算法,从当前用户的好友中选择下一个爬虫用户,并采用Geweke诊断算法检测单个马尔科夫链的数据收敛情况。
所述社交网络数据存储模块将爬虫过程中抽取到的用户信息持久化保存到数据库中,并保持用户数据的更新及对重复爬取的数据做删除处理。
2.根据权利要求1所述的社交网络的无偏数据采集系统,所述待爬用户缓存区采用Redis高速缓存数据库设计数据结构,所述数据结构采用字典嵌套列表的形式,将具有相同好友数量的用户ID放入同一个数据块中,并记录每一个用户ID的被访问次数,每当新的用户u需要压入缓存区时,会执行以下步骤:
步骤一:根据好友数量及用户ID查询缓存区是否已经存在用户u,若不存在,增加用户u的用户ID,并置该用户的被访问次数N为1;若存在,执行步骤二;
步骤二:更新用户u的被访问次数,使被访问次数N自加1。
3.根据权利要求1或2所述的社交网络的无偏数据采集系统,所述下一用户选择子模块的用户采用如下选择策略:
步骤一:在当前用户的好友列表中等概率的随机选择一定数量的好友,将他们的用户ID及好友数量存入待爬用户缓存区中;
步骤二:随机在当前用户的好友列表中选择一个用户u;
步骤三:当用户u的好友数量/当前用户好友数量>=随机小数[0,1]时,直接将用户u作为下一个待爬取的用户;当用户u的好友数量/当前用户好友数量<随机小数[0,1]时,以80%的概率从待爬用户缓存区中选择被访问次数最少的同时与用户u具有相同用户数量的用户ID作为下一个待爬取用户,以20%的概率直接将用户u作为下一个待爬取的用户。
4.根据权利要求3所述的社交网络的无偏数据采集系统,采用Geweke诊断算法检测单个马尔科夫链的数据收敛情况的步骤具体如下:
令数列X为爬虫过程中按时间顺序排列的用户好友数量,Geweke诊断将X分为两个子数列Xa和Xb,计算数值z:
<mrow>
<mi>z</mi>
<mo>=</mo>
<mfrac>
<mrow>
<mi>E</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>X</mi>
<mi>a</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mi>E</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>X</mi>
<mi>b</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<msqrt>
<mrow>
<mi>V</mi>
<mi>a</mi>
<mi>r</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>X</mi>
<mi>a</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>V</mi>
<mi>a</mi>
<mi>r</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>X</mi>
<mi>b</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</msqrt>
</mfrac>
</mrow>
<mrow>
<mi>V</mi>
<mi>a</mi>
<mi>r</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>X</mi>
<mi>a</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>&Sigma;</mi>
<msup>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>-</mo>
<mi>E</mi>
<mo>(</mo>
<msub>
<mi>X</mi>
<mi>a</mi>
</msub>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
<mrow>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</mfrac>
</mrow>
<mrow>
<mi>V</mi>
<mi>a</mi>
<mi>r</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>X</mi>
<mi>b</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>&Sigma;</mi>
<msup>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>-</mo>
<mi>E</mi>
<mo>(</mo>
<msub>
<mi>X</mi>
<mi>b</mi>
</msub>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
<mrow>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</mfrac>
</mrow>
其中,Xa为用户好友数量的前10%,Xb为用户好友数量的后50%,E(Xa)为Xa的平均值,E(Xb)为Xb的平均值,x为X中某个样本值,即某个具体用户的好友数量,n为样本数量,即X数列中元素的个数;
若从某个数据量开始,z的值都在[-1,1]这个区间,则诊断为收敛。
5.一种采用权利要求1所述的社交网络的无偏数据采集系统的采集方法,其包括如下步骤:
步骤一,从社交网络中随机选择一个当前用户v,并通过网页解析技术或请求第三方API的方式从社交网络服务商获取该用户数据,所述的获取的用户数据是根据需要抽样的网络决定的;
步骤二,采用通过带有延迟接受技术的马尔科夫链随机游走算法,从当前用户的好友中选择下一个爬虫用户,采用Redis高速缓存数据库设计的数据结构实时存储被探索用户的用户ID,并采用Geweke诊断算法检测单个马尔科夫链的数据收敛情况;
步骤三,将爬虫过程中抽取到的用户信息持久化保存到数据库中,并保持用户数据的更新及对重复爬取的数据做删除处理。
6.根据权利要求5所述的采集方法,其中所述的Redis高速缓存数据库设计的数据结构采用字典嵌套列表的形式,将具有相同好友数量的用户ID放入同一个数据块中,并记录每一个用户ID的被访问次数,每当新的用户u需要压入缓存区时,会执行以下步骤:
步骤一:根据好友数量及用户ID查询缓存区是否已经存在用户u,若不存在,增加用户u的用户ID,并置该用户的被访问次数N为1;若存在,执行步骤二;
步骤二:更新用户u的被访问次数,使被访问次数N自加1。
7.根据权利要求5或6所述的采集方法,所述下一爬虫用户的选择采用如下选择策略:
步骤一:在当前用户的好友列表中等概率的随机选择一定数量的好友,将他们的用户ID及好友数量存入待爬用户缓存区中;
步骤二:随机在当前用户的好友列表中选择一个用户u;
步骤三:当用户u的好友数量/当前用户好友数量>=随机小数[0,1]时,直接将用户u作为下一个待爬取的用户;当用户u的好友数量/当前用户好友数量<随机小数[0,1]时,以80%的概率从待爬用户缓存区中选择被访问次数最少的同时与用户u具有相同用户数量的用户ID作为下一个待爬取用户,以20%的概率直接将用户u作为下一个待爬取的用户。
8.根据权利要求7所述的采集方法,所述采用Geweke诊断算法检测单个马尔科夫链的数据收敛情况的步骤具体如下:
令数列X为爬虫过程中按时间顺序排列的用户好友数量,Geweke诊断将X分为两个子数列Xa和Xb,计算数值z:
<mrow>
<mi>z</mi>
<mo>=</mo>
<mfrac>
<mrow>
<mi>E</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>X</mi>
<mi>a</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mi>E</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>X</mi>
<mi>b</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<msqrt>
<mrow>
<mi>V</mi>
<mi>a</mi>
<mi>r</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>X</mi>
<mi>a</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>V</mi>
<mi>a</mi>
<mi>r</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>X</mi>
<mi>b</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</msqrt>
</mfrac>
</mrow>
<mrow>
<mi>V</mi>
<mi>a</mi>
<mi>r</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>X</mi>
<mi>a</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>&Sigma;</mi>
<msup>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>-</mo>
<mi>E</mi>
<mo>(</mo>
<msub>
<mi>X</mi>
<mi>a</mi>
</msub>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
<mrow>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</mfrac>
</mrow>
<mrow>
<mi>V</mi>
<mi>a</mi>
<mi>r</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>X</mi>
<mi>b</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>&Sigma;</mi>
<msup>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>-</mo>
<mi>E</mi>
<mo>(</mo>
<msub>
<mi>X</mi>
<mi>b</mi>
</msub>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
<mrow>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</mfrac>
</mrow>
其中,Xa为用户好友数量的前10%,Xb为用户好友数量的后50%,E(Xa)为Xa的平均值,E(Xb)为Xb的平均值,x为X中某个样本值,即某个具体用户的好友数量,n为样本数量,即X数列中元素的个数;
若从某个数据量开始,z的值都在[-1,1]这个区间,则诊断为收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710517255.9A CN107358534A (zh) | 2017-06-29 | 2017-06-29 | 社交网络的无偏数据采集系统及采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710517255.9A CN107358534A (zh) | 2017-06-29 | 2017-06-29 | 社交网络的无偏数据采集系统及采集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107358534A true CN107358534A (zh) | 2017-11-17 |
Family
ID=60272605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710517255.9A Pending CN107358534A (zh) | 2017-06-29 | 2017-06-29 | 社交网络的无偏数据采集系统及采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107358534A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948846A (zh) * | 2019-03-15 | 2019-06-28 | 山东大学 | 基于时间和成本自适应的在线社交网络数据存储方法及装置 |
CN111585818A (zh) * | 2020-05-11 | 2020-08-25 | 苏州乐米凡电气科技有限公司 | 一种基于服务质量的用户信息分配系数的系统及方法 |
CN113392306A (zh) * | 2021-05-20 | 2021-09-14 | 卓尔智联(武汉)研究院有限公司 | 信息交互方法、信息交互装置、终端及存储介质 |
CN114461930A (zh) * | 2022-04-13 | 2022-05-10 | 四川大学 | 社交网络数据采集方法、装置及储存介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103631949A (zh) * | 2013-12-11 | 2014-03-12 | 中国科学院计算技术研究所 | 一种社交网络数据采集方法及系统 |
CN104462374A (zh) * | 2014-12-09 | 2015-03-25 | 深圳大学 | 一种广义最大度随机游走图抽样算法 |
CN105376243A (zh) * | 2015-11-27 | 2016-03-02 | 中国人民解放军国防科学技术大学 | 基于分层随机图的在线社会网络差分隐私保护方法 |
CN105809554A (zh) * | 2016-02-07 | 2016-07-27 | 重庆邮电大学 | 一种社交网络中用户参与热点话题的预测方法 |
CN106126607A (zh) * | 2016-06-21 | 2016-11-16 | 重庆邮电大学 | 一种面向社交网络的用户关系分析方法 |
-
2017
- 2017-06-29 CN CN201710517255.9A patent/CN107358534A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103631949A (zh) * | 2013-12-11 | 2014-03-12 | 中国科学院计算技术研究所 | 一种社交网络数据采集方法及系统 |
CN104462374A (zh) * | 2014-12-09 | 2015-03-25 | 深圳大学 | 一种广义最大度随机游走图抽样算法 |
CN105376243A (zh) * | 2015-11-27 | 2016-03-02 | 中国人民解放军国防科学技术大学 | 基于分层随机图的在线社会网络差分隐私保护方法 |
CN105809554A (zh) * | 2016-02-07 | 2016-07-27 | 重庆邮电大学 | 一种社交网络中用户参与热点话题的预测方法 |
CN106126607A (zh) * | 2016-06-21 | 2016-11-16 | 重庆邮电大学 | 一种面向社交网络的用户关系分析方法 |
Non-Patent Citations (4)
Title |
---|
BRUNO RIBEIRO 等: "On the estimation accuracy of degree distributions from gragh sampling", 《2012 IEEE 51ST IEEE CONFERENCE ON DECISION AND CONTROL(CDC)》 * |
MINA GJOKA 等: "Walking in facebook:A case study of unbiased sampling of osns", 《2010 PROCEEDINGS IEEE INFOCOM》 * |
SHEN LIYI 等: "Bi-graph Random Walk Sampling of Directed Online Social Network", 《第三十四届中国控制会议论文集(C卷)》 * |
李立耀 等: "社交网络研究综述", 《计算机科学》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948846A (zh) * | 2019-03-15 | 2019-06-28 | 山东大学 | 基于时间和成本自适应的在线社交网络数据存储方法及装置 |
CN111585818A (zh) * | 2020-05-11 | 2020-08-25 | 苏州乐米凡电气科技有限公司 | 一种基于服务质量的用户信息分配系数的系统及方法 |
CN113392306A (zh) * | 2021-05-20 | 2021-09-14 | 卓尔智联(武汉)研究院有限公司 | 信息交互方法、信息交互装置、终端及存储介质 |
CN114461930A (zh) * | 2022-04-13 | 2022-05-10 | 四川大学 | 社交网络数据采集方法、装置及储存介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104881424B (zh) | 一种基于正则表达式的电力大数据采集、存储及分析方法 | |
CN107358534A (zh) | 社交网络的无偏数据采集系统及采集方法 | |
CN102426610B (zh) | 微博搜索排名方法及微博搜索引擎 | |
CN106776768B (zh) | 一种分布式爬虫引擎的url抓取方法及系统 | |
Zhang et al. | Extracting the information backbone in online system | |
CN110362692A (zh) | 一种基于知识图谱的学术圈构建方法 | |
CN106202569A (zh) | 一种基于大数据量的清洗方法 | |
CN103631949B (zh) | 一种社交网络数据采集方法及系统 | |
CN107103032A (zh) | 一种分布式环境下避免全局排序的海量数据分页查询方法 | |
CN102682046A (zh) | 社交网络的节点搜索和分析方法及搜索系统 | |
CN105302876A (zh) | 基于正则表达式的url过滤方法 | |
Zhuang et al. | User spread influence measurement in microblog | |
Leydesdorff et al. | Mapping the Chinese Science Citation Database in terms of aggregated journal–journal citation relations | |
CN105512301A (zh) | 基于社交内容的用户分组方法 | |
Jiang et al. | Message clustering based matrix factorization model for retweeting behavior prediction | |
CN102663083A (zh) | 基于分布式计算的大规模社交网络信息抽取方法 | |
CN108681577A (zh) | 一种新型的库结构数据索引方法 | |
CN117556369B (zh) | 一种动态生成的残差图卷积神经网络的窃电检测方法及系统 | |
Cointet et al. | Uncovering the structure of the French media ecosystem | |
CN107679097B (zh) | 一种分布式数据处理方法、系统和存储介质 | |
CN103761298B (zh) | 一种基于分布式架构的实体匹配方法 | |
Tovilla‐Sierra et al. | The spatial analysis of biological interactions: morphological variation responding to the co‐occurrence of competitors and resources | |
CN104794237B (zh) | 网页信息处理方法及装置 | |
JP2011154466A (ja) | 検索結果順位付け方法および検索結果順位付けシステム | |
CN106294456B (zh) | 机器学习的方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20210101 |
|
AD01 | Patent right deemed abandoned |