CN104866586B - 用于计算社会媒体中信息传播节点重要性的方法及系统 - Google Patents
用于计算社会媒体中信息传播节点重要性的方法及系统 Download PDFInfo
- Publication number
- CN104866586B CN104866586B CN201510282850.XA CN201510282850A CN104866586B CN 104866586 B CN104866586 B CN 104866586B CN 201510282850 A CN201510282850 A CN 201510282850A CN 104866586 B CN104866586 B CN 104866586B
- Authority
- CN
- China
- Prior art keywords
- information
- node
- propagation
- social media
- dissemination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000000644 propagated effect Effects 0.000 title claims abstract description 9
- 230000005540 biological transmission Effects 0.000 claims abstract description 43
- 230000008859 change Effects 0.000 claims description 16
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 244000097202 Rathbunia alamosensis Species 0.000 description 5
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 5
- 230000010365 information processing Effects 0.000 description 4
- 230000000977 initiatory effect Effects 0.000 description 4
- 230000007480 spreading Effects 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 241000700605 Viruses Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供一种用于计算社会媒体中信息传播节点重要性的方法及系统,所述方法包括:计算信息传播节点对其在所属的信息传播树中每个后代信息传播节点的影响力;以及根据计算得到的影响力,获得所述信息传播节点的重要性。本发明提供的方法和系统能够对不同社会媒体信息发布平台中的信息传播节点进行重要性评价,从而可以发现关键的信息传播节点,以便进一步识别关键言论和关键用户,并且对商业舆情、危机公关和舆论安全有着重要价值。
Description
技术领域
本发明涉及互联网应用领域,以及更具体地,涉及社会媒体信息传播技术。
背景技术
目前,社会媒体信息发布平台依托互联网的飞速发展已深入人们的生活。在这些平台中,用户数量巨大、用户可以便捷互动并且信息传播迅速。因此,在社会媒体信息发布平台中,信息容易形成“病毒式”、“爆炸式”传播,所以对信息的传播范围和传播速度的关注更为迫切,具体体现在对信息传播影响的度量上。
现有的相关研究主要分为两个方面:一方面是对信息影响力的度量,如信息的传播范围;另一方面是对信息传播的用户影响力进行度量,如影响力用户发现。但是,对于一条信息的传播过程(简称一条信息传播)中参与传播的节点(即信息传播节点)的重要性却少有研究。发现关键的信息传播节点可以识别关键言论、关键用户,对商业舆情、危机公关和舆论安全等有着重要价值。
一条信息传播涉及一个信息初始节点以及零个或一至多个信息参与节点(即可能没有信息参与节点),这些节点统称为信息传播节点。其中,信息初始节点指的是在信息传播过程中初始发布的信息;而信息参与节点指的是在信息传播过程中,用户针对该信息传播过程中传播的(如初始发布、转发、回复、分享的)信息所发布(如转发、回复、分享)的信息。例如,微博平台中的一个信息初始节点可以为一条微博,信息参与节点为该微博的转发微博;贴吧平台中的一个信息初始节点可以为一个帖子,信息参与节点可以为该帖子的回复信息;新闻网站平台中的一个信息初始节点可以为原始新闻,信息参与节点可以为该新闻的转载或转发新闻。信息传播节点之间通过一定的关系进行信息传播,如转发、回复、分享等,这些关系可以将一条信息传播中的所有信息传播节点连接成一个拓扑,并得到信息传播树。其中,树的根节点为信息初始节点,中间节点和叶子节点为信息参与节点,边表示节点间的关系。这种由信息传播形成的拓扑与一般的拓扑存在以下区别:首先,信息传播节点之间有先后顺序,一个节点只可能受到自己先前节点的影响;其次,从一个节点传播到另外一个节点也需要一定的时间(即一个节点到另一节点的传播速度可能不同);再次,信息传播节点的传播深度是有限的。针对这种拓扑,如何来度量社会媒体中信息传播节点的重要性,是目前亟待解决的问题。
发明内容
针对上述问题,本发明提供一种用于计算社会媒体中信息传播节点重要性的方法。其中,所述信息传播节点用于表示一条信息传播中涉及的用户发布信息,分为该信息传播中的初始发布信息和用户针对该信息传播中传播的信息所发布的信息,一条信息传播中的所有信息传播节点及其相互关系构成信息传播树,所述方法包括:
步骤1)、计算信息传播节点对其在所属的信息传播树中每个后代信息传播节点的影响力,其中,影响力用于表示一个信息传播节点吸引另一个信息传播节点参与信息传播的能力;
步骤2)、根据计算得到的影响力,获得所述信息传播节点的重要性。
上述方法中,步骤1)包括:根据信息传播节点到其后代信息传播节点的传播速度、距离以及其所属社会媒体信息发布平台的节点影响力随距离变化的函数,计算所述信息传播节点对该后代信息传播节点的影响力。
上述方法中,可根据下式计算信息传播节点对其后代信息传播节点的影响力:
其中,i表示信息传播节点,j表示i的后代信息传播节点,v(i,j)表示信息传播节点i到后代信息传播节点j的传播速度,d(i,j)表示信息传播节点i到后代信息传播节点j的距离,f(.)表示信息传播节点i所属社会媒体信息发布平台的节点影响力随距离变化的函数。
上述方法中,步骤2)包括:将所述信息传播节点对其所有后代信息传播节点的影响力求和,得到所述信息传播节点的重要性。
上述方法中,步骤1)之前还包括:更新信息传播节点所属的社会媒体信息发布平台的节点影响力随距离变化的函数。
上述方法中,按下列步骤获得社会媒体信息发布平台的节点影响力随距离变化的函数:
步骤i)、根据下式计算所述社会媒体信息发布平台的节点影响深度:
其中,a表示所述社会媒体信息发布平台的信息统计比,CDF(j)表示所述社会媒体信息发布平台的信息传播参考集合中传播深度不超过j的信息传播占该集合所有信息传播的比例,n表示该集合中信息传播的最大传播深度,传播深度表示一条信息传播中从信息初始节点到信息参与节点的最大距离,其中信息初始节点是该信息传播中的初始发布信息,信息参与节点是用户针对该信息传播中传播的信息所发布的信息;
步骤ii)、在所述社会媒体信息发布平台的信息传播参考集合中,根据所述节点影响深度和信息传播的传播深度来选择信息传播;例如,选择传播深度与所述节点影响深度的差值不超过预定阈值的信息传播;
步骤iii)、对于所选择的每条信息传播的信息传播树,计算每层的信息传播节点数与该树所有信息传播节点数的比值,得到该信息传播树在每层的比值;
步骤iv)、对于每一层,将所选择的所有信息传播的信息传播树在该层的比值求均值;
步骤v)、根据每一层对应的均值进行拟合操作,获得所述社会媒体信息发布平台的节点影响力随距离变化的函数。
上述方法中,步骤1)之前还包括:从社会媒体信息发布平台中采集与信息传播相关的数据;从该信息传播的相关数据中解析出信息传播节点;以及,对于解析出的每个信息传播节点,执行步骤1)和步骤2)。
上述方法中,从社会媒体信息发布平台中采集与信息传播相关的数据包括:
从所述社会媒体信息发布平台中采集该信息传播的信息初始节点的相关数据,其中,信息初始节点是该信息传播中的初始发布信息;
采集所述社会媒体信息发布平台中该信息初始节点的相关数据之后的信息;
根据该信息初始节点的相关数据之后的信息,得到信息参与节点的相关数据,其中,信息参与节点是用户针对该信息传播中传播的信息所发布的信息,并且所述信息初始节点和所述信息参与节点构成该信息传播的信息传播节点。
根据本发明的一个实施例,还提供一种用于计算社会媒体中信息传播节点重要性的分析设备,其中,所述信息传播节点用于表示一条信息传播中涉及的用户发布信息,分为该信息传播中的初始发布信息和用户针对该信息传播中传播的信息所发布的信息,一条信息传播中的所有信息传播节点及其相互关系构成信息传播树,所述分析设备包括:
用于计算信息传播节点对其在所属的信息传播树中每个后代信息传播节点的影响力的装置,其中,影响力用于表示一个信息传播节点吸引另一个信息传播节点参与信息传播的能力;以及
用于根据计算得到的影响力,获得所述信息传播节点的重要性的装置。
根据本发明的一个实施例,还提供一种社会媒体信息传播节点重要性计算设备,包括:
采集设备,用于从社会媒体信息发布平台中采集与信息传播相关的数据;以及
上文所述的分析设备,用于对所述采集设备采集的数据进行分析。
上述社会媒体信息传播节点重要性计算设备还可以包括:
数据库,用于存储所述分析设备的分析结果;
Web服务器,用于从所述数据库中读取分析结果并向用户提供服务;以及
内网交换机,用于连接所述分析设备、采集设备、数据库和Web服务器。
根据本发明的一个实施例,还提供一种用于计算社会媒体中信息传播节点重要性的系统,包括:
社会媒体信息发布平台;
上文所述的社会媒体信息传播节点重要性计算设备,用于通过互联网从所述社会媒体信息发布平台采集数据并进行分析;
公网接入路由器,用于将所述社会媒体信息传播节点重要性计算设备接入互联网;以及
访问系统的设备,用于通过互联网访问所述社会媒体信息传播节点重要性计算设备。
本发明提供的方法和系统能够对不同社会媒体信息发布平台中的信息传播节点进行重要性评价,从而可以发现关键的信息传播节点,以便进一步识别关键言论和关键用户,并且对商业舆情、危机公关和舆论安全有着重要价值。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1是根据本发明一个实施例的用于计算社会媒体中信息传播节点重要性的系统框图;
图2是根据本发明一个实施例的社会媒体信息传播节点重要性计算设备的框图;
图3是根据本发明一个实施例的采集子设备的框图;
图4是根据本发明一个实施例的针对“显式传播”的信息采集方法的流程图;
图5是根据本发明一个实施例的针对“隐式传播”的信息采集方法的流程图;
图6是根据本发明一个实施例的分析子设备的框图;
图7是根据本发明一个实施例的信息传播节点重要性计算逻辑控制单元的执行流程图;
图8是根据本发明一个实施例的Web服务器的框图;
图9示出了采用本发明提供的方法与仅考虑一层转发节点数量的方法的结果对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
根据本发明的一个实施例,提供一种用于计算社会媒体中信息传播节点重要性的方法。该方法结合信息传播形成的拓扑和传播速度来度量信息传播节点的重要性,包括以下步骤:
第一步:对于要度量的信息传播节点所属的社会媒体信息发布平台,得到节点影响力随距离变化的函数
分为如下两个子步骤:
1)、估计社会媒体信息发布平台的节点影响深度
下面以微博平台为例描述本子步骤。
本领域技术人员应理解,在一条信息传播中,从信息初始节点(如原始微博)到信息参与节点(如转发微博)的最大距离称为传播深度。经统计发现,在微博平台中,约有90%的信息初始节点的传播深度不超过3。本文称这个累计概率(即90%)为信息统计比,信息统计比越大则表示涵盖的统计信息越全面。然而,如果传播深度为某一个值的微博数量很少,则该值为累计概率的贡献就很少,此时如果为了追求涵盖信息的全面性而增大信息统计比的话,则会造成所估计的节点影响深度偏差较大。例如,如果有90%的微博的传播深度不超过3,且93%的微博传播深度不超过4,则说明传播深度为4的微博很少(3%)。这时,如果将信息统计比设为94%,就会导致估计的节点影响深度增大,从而与实际不符。
公式(1)给出了一种根据信息统计比来估计社会媒体信息发布平台的节点影响深度的方式:
其中,D表示估计的节点影响深度,a表示该社会媒体信息发布平台的信息统计比,j表示传播深度,n表示该类信息传播(其中,不同社会媒体信息发布平台中的信息传播属于不同的类别)中最大的传播深度,CDF(j)为累计概率分布函数,表示传播深度不超过j的信息传播占该类信息传播的比例。优选地,a=90%。
在一个实施例中,可从社会媒体信息发布平台中选择部分信息传播作为信息传播参考集合,在计算CDF(j)时,计算该集合内传播深度不超过j的信息传播数与该集合内包含的信息传播总数的比(其中n为该集合中的最大的传播深度)。进一步地,还可以对该信息传播参考集合不断进行更新。
2)、得到节点影响力随距离变化的函数f(d)
如上文所述,信息传播形成树形拓扑(信息传播树)。一般来说,树中每一层节点的数量在一定程度上体现了信息初始节点在该层的影响力大小,因此本发明采用每层节点数与该信息传播树的总体节点数之比来表示信息初始节点在该层的影响力大小。
在一个实施例中,可按如下流程来得到f(d):
21)、在上述的社会媒体信息发布平台中(或者在上述信息传播参考集合中),选择传播深度接近该平台的节点影响深度D的信息传播。例如,选择传播深度与D的差值小于预定阈值的信息传播。
22)、统计所选的信息传播的每层节点数与该信息传播的总体节点数之比的均值。
其中,对于所选的每条信息传播,统计其每层节点数与总体节点数之比,得到每条信息传播在每层的一个比值;接着,将所选的所有信息传播在相同层的比值求均值。
23)、对得到的均值进行拟合(例如通过Matlab等工具),得到该平台中,度量节点影响力随距离变化的函数f(d),其中d表示距离。
以新浪微博为例,其中信息统计比设置为a=0.9,根据新浪微博的历史信息传播,由公式(1)可计算出节点影响深度D=3;接着,选择传播深度分别为2、3、4、5的微博信息传播,计算所选择的每条微博信息传播对应的信息传播树中的每一层节点与该树节点总数之比;然后,计算得到第1-5层的节点数与对应信息传播树节点总数之比的均值分别为0.590,0.327,0.065,0.024,0.012;最后,对这5个均值进行拟合,即d=[1,2,3,4,5],y=[0.590,0.327,0.065,0.024,0.012],y=f(d)。其中在matlab中通过线性、二次多项式、指数、高斯、幂律等函数进行拟合。其中高斯函数的拟合效果最好,结果如下:
通用模型 高斯1:
f(x)=a1*exp(-((x-b1)/c1)^2)
系数(置信度为95%):
a1= 0.5953(0.4986,0.692)
b1= 0.8707(0.06009,1.681)
c1= 1.456(0.6708,2.241)
拟合优度:
SSE:0.0004881
拟合系数:0.9981
调整后的拟合系数:0.9961
RMSE:0.01562
根据以上结果,新浪微博中节点影响力随距离变化的函数为:可见,信息传播节点的影响力随着距离的增加而衰减。
第二步:计算信息传播节点对其后代节点(子孙节点)的影响力
本文中,信息传播节点对后代节点的影响力表示该信息传播节点吸引后代节点参与信息传播的能力。
根据对新浪微博的数据统计发现,约有40%的转发连边在50分钟内形成,这说明新浪微博平台中信息传播节点之间的传播速度可能会很快。如果一个信息传播节点可以在短时间传播信息至另外一个信息传播节点,则说明前者能够在短时间内引发后者的参与,则该信息传播节点对该信息传播的推动作用较大。因此,计算信息传播节点在信息传播中的重要性也应该考虑引发其他传播节点参与的速度,并且结合所属平台的节点影响力随距离变化的函数。
在一个实施例中,信息传播节点i对其任意后代信息传播节点j的影响力可以表示如下:
其中,为节点i传播到节点j的速度,d(i,j)为i到j的距离,t(i,j)为i到j的信息传播时间,f(.)为该平台中节点影响力随距离变化的函数。
第三步:计算信息传播节点的重要性
每个信息传播节点在信息传播过程中的重要性表示为它对后代信息传播节点的影响力之和,也可称之为该信息传播节点的源点中心性,如公式(3)所示:
根据公式(3)可见,由后代节点的数量、与信息传播节点的距离和传播速度来度量该信息传播节点对信息传播的重要性,更符合信息传播的性质。发明人通过对新浪微博中的某条微博的信息传播节点进行分析,发现源点中心性能够挖掘节点更深层次的影响,而且可以有效度量节点的传播速度。
上文以固定的步骤描述了本发明提供的用于计算社会媒体中信息传播节点重要性的方法。然而,本领域技术人员应理解,也可以事先计算好每个社会媒体信息发布平台的节点影响力随距离变化的函数并进行存储。这样,无需在每次计算信息传播节点的重要性时才进行该函数的拟合。此外,可以在计算信息传播节点的重要性之前对已有的节点影响力随距离变化的函数进行更新,例如,周期性地更新或者以其他方式进行更新。
另外,在一个实施例中,对于指定的一条信息传播,首先需要从社会媒体信息发布平台中采集该信息传播的相关数据(采集过程参见下文),并且解析出信息传播节点。接着,可按上述方法对解析出的每个信息传播节点计算重要性。
根据本发明的一个实施例,还提供一种用于计算社会媒体中信息传播节点重要性的系统。
参考图1且概括而言,该系统包含:1)、社会媒体信息发布平台1001,如微博、论坛、贴吧、博客等,该平台1001是信息产生和传播的环境,也是该系统的数据来源;2)、社会媒体信息传播节点重要性计算设备2001,该设备通过公网接入路由器3001接入互联网5001,一方面从社会媒体信息发布平台1001采集数据并在本地进行分析,另一方面被互联网用户使用公网地址进行访问;3)、公网接入路由器3001,将社会媒体信息传播节点重要性计算设备2001接入互联网5001;4)、访问系统的设备4001(简称访问设备),包括手机、平板电脑、移动笔记本、PC机等,用户可通过这些访问设备来访问社会媒体信息传播节点重要性计算设备2001,并且可以配置和读取分析的信息;5)、互联网5001,其是数据传输的媒介。
在该系统中,社会媒体信息传播节点重要性计算设备2001可处于一个局域网中,图2示出了该设备的一种简易部署方式。应理解,可以在图2的基础上进一步扩展。参见图2,设备2001包括采集子设备2100、分析子设备2101、数据库2102、Web服务器2103和内网交换机2104。概括来说,采集子设备2100负责采集社会媒体信息发布平台1001的数据,分析子设备2101负责对采集到的数据进行分析,数据库2102负责存储采集后处理得到的数据和分析结果(如信息传播节点的重要性),Web服务器2103从数据库2102中读取分析结果并向用户提供服务,内网交换机2104连接上述四个子设备。整个设备2001通过公网接入路由器3001接入互联网5001。
下文中,将分别对社会媒体信息传播节点重要性计算设备2001中的采集子设备2100、分析子设备2101和Web服务器2103进行详细描述。
采集子设备2100
采集子设备2100从不同的社会媒体信息发布平台1001中采集数据,其结构如图3所示,包括配置文档2110、社会媒体信息发布平台访问信息表2111、任务文档2112和采集子设备逻辑控制单元2113。
1)、配置文档2110中记录分析子设备2101的访问地址。
2)、社会媒体信息发布平台访问信息表2111包括采集子设备2100访问不同社会媒体信息发布平台1001所需的信息(例如网址)。此外,如果某一平台需要登录,则还需要记录登录账号信息,其结构如表1所示:
表1
社会媒体信息发布平台的访问网址 | 是否需要登录 | 该平台的登录账号列表 |
3)、任务文档2112是采集子设备2100将要获取的信息传播的相关数据(或称信息传播记录),包括信息传播的标识和信息传播所在的社会媒体信息发布平台1001。该任务文档2112可以手工配置,其结构如表2所示。
表2
信息传播标识 | 信息传播所在社会媒体信息发布平台 |
4)、采集子设备逻辑控制单元2113负责读取任务文档2112中的任务信息并执行采集。
采集的方式有两种:一种是根据URL(Uniform/Universal Resource Locator,统一资源定位符)爬取网页并解析内容,爬取可采用如HttpClient、curl等工具,该方式可以应用于论坛、贴吧、新闻网站等;一种针对提供开放API(Application Program Interface,应用程序接口)的社会媒体信息发布平台1001,如新浪微博,可以通过API请求获取微博相关数据,这样得到的数据有确定字段并且更干净。
如上文所述,每条信息传播由一个信息初始节点、零个或一至多个信息参与节点组成。针对微博、论坛、贴吧这样的社会媒体信息发布平台1001,从信息初始节点可以直接找到其对应的信息参与节点,如微博的转发列表、论坛的回复列表,称之为“显式传播”;而新闻网站类的社会媒体信息发布平台1001,需要从获取到的网页集合中判断转载或转发关系,称之为“隐式传播”。
对于“显式传播”,图4示出了采集子设备逻辑控制单元2113的采集工作流程的一个示例,步骤如下:
S1001:开始。
S1002:从任务文档2112中读取一个要采集的信息传播记录,包括某一条信息传播的信息传播标识和该信息传播所属的社会媒体信息发布平台1001。
S1003:从该社会媒体信息发布平台1001采集该信息传播的原始内容,即该信息传播的信息初始节点的相关数据。
S1004:判断该信息传播是否存在信息参与节点(即是否被传播开),如果是,则执行S1100,否则执行S1005。
S1100:从该社会媒体信息发布平台1001采集该信息传播的信息参与节点的内容。
采集的内容例如包括:用户信息、时间、具体内容、来自哪个信息传播、父节点是谁等,其形式可以是网页或API得到的数据。
S1005:结束。
对于“隐式传播”,图5示出了采集子设备逻辑控制单元2113的采集工作流程,步骤如下:
S2001:开始。
S2002:从任务文档2112中读取一个要采集的信息传播记录,包括某一条信息传播的信息传播标识和信息传播所在的社会媒体信息发布平台。
S2003:采集该信息传播的信息初始节点的内容,作为原始内容。
S2004:采集相应的社会媒体信息发布平台1001中该原始内容之后的其他信息。例如原始内容为2015年1月1日0时0分0秒的一条网易新闻,则本步骤采集新闻网站(如腾讯新闻、新浪新闻、搜狐新闻等)中2015年1月1日0时0分0秒之后的新闻信息。
S2100:逐一判断采集到的其他信息,如果判断完毕,则转到S2005;否则,转到S2110;
S2110:判断该信息是否为原始内容的转载或转发信息,例如根据新闻网页中有“信息来源”、“原标题”等字段进行判断。如果是,则转到S2111;否则,转到S2100;
S2111:该信息为该条信息传播的信息参与节点,转到S2100;
S2005:结束。
分析子设备2101
分析子设备2101的结构如图6所示,包括配置文档2210、数据传输单元2211、计算模型的参数信息表2212、信息初始节点存储表2213、信息参与节点存储表2214、信息传播树传播深度存储表2215、信息传播树每层节点数存储表2216、信息传播节点重要性计算逻辑控制单元2217。
1)、配置文档2210中记录数据库2102的访问信息、采集子设备2100的访问信息,如表3所示:
表3
数据库的访问地址 | |
数据库的访问端口 | |
数据库名 | |
采集子设备的访问地址 | |
采集子设备的访问端口 |
2)、数据传输单元2211负责分析子设备2101与外部的数据传输,读取采集子设备2100采集到的信息。
3)、计算模型的参数信息表2212记录了与不同社会媒体信息发布平台1001的节点影响力随距离变化的函数f(d)相关的信息,包括该函数的更新频率和平台的信息统计比,如表4所示:
表4
社会媒体信息发布平台名称 | 该平台的函数更新频率 | 该平台的信息统计比 |
4)、信息初始节点存储表2213用于记录不同信息传播的信息初始节点相关参数。
如上文所述,一个信息传播由一个信息初始节点和零个或一至多个信息参与节点组成。信息传播可以由所包含的信息初始节点来唯一标识,其在一个社会媒体信息发布平台1001内传播且具有一定的传播深度。因此,信息初始节点存储表2213中每条记录由信息初始节点标识为主键,除了记录信息初始节点自身的发布时间、用户标识、节点内容、节点重要性,同时还记录该条信息传播所属的社会媒体信息发布平台1001及传播深度,如表5所示:
表5
5)、信息参与节点存储表2214用于记录不同信息传播的信息参与节点相关参数。
首先,每个信息参与节点有自身的标识可以唯一识别当前节点,还有节点的发布时间、用户标识、节点内容、节点重要性等信息;其次,一个信息参与节点有唯一的父节点,即当前信息参与节点转发/评论/回复/转载的直接对象,其是一个信息初始节点或信息参与节点,父节点可通过节点标识唯一识别;最后,每个信息参与节点唯一属于一条信息传播,而一条信息传播可以由一个信息初始节点唯一标识,所以可由该信息参与节点所属的信息传播的信息初始节点来标识。存储表2214的结构如表6所示:
表6
6)、信息传播树的传播深度存储表2215记录了不同社会媒体信息发布平台1001的信息传播数量在传播深度上的分布,除了标识字段(即平台标识),每一项表示该平台1001(或该平台的一个信息传播参考集合)中传播深度为某一整数的信息传播数,如表7所示:
表7
社会媒体信息发布平台 | 传播深度为1的信息传播数C(1) | … | 传播深度为n的信息传播数C(n) |
7)、信息传播树的每层节点数存储表2216记录了信息传播树中的每层节点数,每条记录由信息初始节点唯一标识,如表8所示:
表8
信息初始节点标识 | 所在信息传播树的第1层节点数 | … | 所在信息传播树的第n层节点数 |
8)、信息传播节点重要性计算逻辑控制单元2217是分析子设备的核心,用于执行信息处理、特征分析、节点影响力随距离变化函数的自调整、信息传播节点重要性计算等功能,概括描述如下:
A)、信息处理:对数据传输单元2211从采集子设备2100读取到的信息传播进行处理,包括:解析信息传播节点并判断信息传播节点之间的关系。对于采集子设备2100中以网页方式获取的信息,可以通过jsoup等解析网页包来获取所需字段,如帖子内容、发布用户标识、发布时间、回复内容等;对于采集子设备2100中以API方式获取的信息,直接提取所需字段即可。对于非信息初始节点,记录其父节点标识。解析出来信息初始节点的字段存入表5,解析出来的信息参与节点的字段存入表6。
B)、特征分析:对信息处理得到的信息进行特征分析。根据信息处理所得的信息初始节点和信息参与节点构建信息传播树,记录该树的传播深度和每层节点数,以此来更新表7和表8。
C)、函数的自调整:通过维护一个系统时钟来计时,按照计算模型的参数信息表(表4)中的更新频率定时调整该函数。其中,根据系统中的历史数据特征得到节点影响力随距离变化的函数,为信息传播节点重要性计算做准备。
D)、信息传播节点重要性计算:根据节点影响力随距离变化的函数和节点间传播速度及距离,对信息传播节点的重要性进行计算。
图7示出了该信息传播节点重要性计算逻辑控制单元2217的执行流程图的示例,步骤如下:
S3001:开始;
S3002:从采集子设备2100中获取采集到的一条信息传播的相关数据及其所属的社会媒体信息发布平台P;
S3003:解析出信息初始节点、信息参与节点等数据;
S3100:判断解析结果中是否有信息参与节点,如果有,则转到S3101;否则,转到S3004;
S3101:根据解析结果构建信息传播树,记录传播深度和每层的节点数;
S3102:更新表7中平台P对应的信息传播树的传播深度分布,并且向表8中添加该信息传播树的每层节点数信息;
S3103:获取系统当前时间;
S3110:与系统时钟进行比较,判断是否到达调整平台P对应的节点影响力随距离变化的函数的时间,如果到达,则转到S3111;否则,转到S3105;
S3111:从表4中读取平台P对应的信息统计比a;
S3112:从表7中读取平台P对应的信息传播数关于传播深度的分布C;
S3113:对于C,计算其信息传播数总和Sum;
S3114:对于C,按照传播深度从小到大的顺序对信息传播数进行累加;选择累加和与Sum之比不小于信息统计比a的最小传播深度,作为P对应的节点影响深度D;
S3115:从表5中选择传播深度接近D并且社会媒体信息发布平台为P的记录的集合S1;
S3116:根据S1中每一项记录的信息初始节点标识,从表8中读取对应的信息传播树的每层节点数记录,构成集合S2;
S3117:对S2中的每一项记录,计算每一层节点数与该记录的节点总数之比;
S3118:对S3117中每项记录的计算结果针对不同的层求均值;
S3119:对S3118得到的均值进行拟合,其中变量为层数,得到节点影响力随距离变化的函数f(d);
S3104:根据f(d)计算解析结果中每个信息传播节点对其每个后代信息传播节点的影响力;
S3105:把解析结果中每个信息传播节点对其所有后代传播节点的影响力累加,累加之和作为该信息传播节点的重要性,并存入表5和表6;
S3004:结束。
Web服务器2103
Web服务器2103为外界提供访问接口,其结构如图8所示。包括配置文档2310、数据传输单元2311和Web服务逻辑控制单元2312。
配置文档2310记录了数据库访问信息,包含的信息项如表9所示。数据传输单元2311用于与外界进行数据交互,包括接受用户访问和从数据库读取数据;Web服务逻辑控制单元2312用于控制用户的登录和访问请求的处理。
表9
数据库的访问地址 | |
数据库的访问端口 | |
数据库名 |
下面以一条新浪微博的传播为例,说明本发明提供的方法和系统的有效性,其中该信息传播中有16758个信息参与节点。
图9给出了采用本发明提供的用于计算社会媒体中信息传播节点重要性的方法与仅考虑一层转发节点数的计算结果的对比。从图9中可见,仅考虑一层转发节点数的方法相当于在信息传播树中只计算某一信息传播节点的直接孩子节点的数量,而没有考虑更大距离的传播,并且也没有考虑节点间的传播速度。图9中分别示出5个节点对,每个节点对中的两个节点具有相同的第一层转发节点数,其中横轴表示传播时间,纵轴表示在不同传播时间该节点引发的新的信息传播节点数量。曲线越陡峭,说明传播速度越快。从图9可以看出,虽然信息传播节点直接引发的新的信息传播节点的数量可能相同,但引发的更大距离的传播节点数量差异较大,而且传播的速度也有差距。因此,与仅考虑一层转发数的方法相比,本发明提供的方法不仅能够挖掘更大距离的信息传播,而且能够衡量出信息传播节点引发的传播速度的大小,更有助于发现关键的信息传播节点。
应当理解,虽然本说明书是按照各个实施例描述的,但并非每个实施例仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
以上所述仅为本发明示意性的具体实施方式,并非用以限定本发明的范围。任何本领域的技术人员,在不脱离本发明的构思和原则的前提下所作的等同变化、修改与结合,均应属于本发明保护的范围。
Claims (12)
1.一种用于计算社会媒体中信息传播节点重要性的方法,其中,所述信息传播节点用于表示一条信息传播中涉及的用户发布信息,分为该信息传播中的初始发布信息和用户针对该信息传播中传播的信息所发布的信息,一条信息传播中的所有信息传播节点及其相互关系构成信息传播树,所述方法包括:
步骤1)、根据信息传播节点到其后代信息传播节点的传播速度、距离以及其所属社会媒体信息发布平台的节点影响力随距离变化的函数计算信息传播节点对其在所属的信息传播树中每个后代信息传播节点的影响力,其中,影响力用于表示一个信息传播节点吸引另一个信息传播节点参与信息传播的能力;
步骤2)、根据计算得到的影响力,获得所述信息传播节点的重要性;
其中,在步骤1)中,按下列子步骤获得社会媒体信息发布平台的节点影响力随距离变化的函数:
步骤i)、根据下式计算所述社会媒体信息发布平台的节点影响深度:
其中,a表示所述社会媒体信息发布平台的信息统计比,CDF(j)表示所述社会媒体信息发布平台的信息传播参考集合中传播深度不超过j的信息传播占该集合所有信息传播的比例,n表示该集合中信息传播的最大传播深度,传播深度表示一条信息传播中从信息初始节点到信息参与节点的最大距离,其中信息初始节点是该信息传播中的初始发布信息,信息参与节点是用户针对该信息传播中传播的信息所发布的信息;
步骤ii)、在所述社会媒体信息发布平台的信息传播参考集合中,根据所述节点影响深度和信息传播的传播深度来选择信息传播;
步骤iii)、对于所选择的每条信息传播的信息传播树,计算每层的信息传播节点数与该树所有信息传播节点数的比值,得到该信息传播树在每层的比值;
步骤iv)、对于每一层,将所选择的所有信息传播的信息传播树在该层的比值求均值;
步骤v)、根据每一层对应的均值进行拟合操作,获得所述社会媒体信息发布平台的节点影响力随距离变化的函数。
2.根据权利要求1所述的方法,其中,根据下式计算信息传播节点对其后代信息传播节点的影响力:
其中,i表示信息传播节点,j表示i的后代信息传播节点,v(i,j)表示信息传播节点i到后代信息传播节点j的传播速度,d(i,j)表示信息传播节点i到后代信息传播节点j的距离,f(.)表示信息传播节点i所属社会媒体信息发布平台的节点影响力随距离变化的函数。
3.根据权利要求1-2中任何一个所述的方法,其中,步骤2)包括:
将所述信息传播节点对其所有后代信息传播节点的影响力求和,得到所述信息传播节点的重要性。
4.根据权利要求1或2所述的方法,其中,步骤1)之前还包括:
更新信息传播节点所属的社会媒体信息发布平台的节点影响力随距离变化的函数。
5.根据权利要求4所述的方法,其中,步骤ii)包括:
选择传播深度与所述节点影响深度的差值不超过预定阈值的信息传播。
6.根据权利要求1-2中任何一个所述的方法,其中,步骤1)之前还包括:
从社会媒体信息发布平台中采集与信息传播相关的数据;
从该信息传播的相关数据中解析出信息传播节点;以及
对于解析出的每个信息传播节点,执行步骤1)和步骤2)。
7.根据权利要求6所述的方法,还包括:
将该信息传播加入所述社会媒体信息发布平台的信息传播参考集合。
8.根据权利要求6所述的方法,其中,从社会媒体信息发布平台中采集与信息传播相关的数据包括:
从所述社会媒体信息发布平台中采集该信息传播的信息初始节点的相关数据,其中,信息初始节点是该信息传播中的初始发布信息;
采集所述社会媒体信息发布平台中该信息初始节点的相关数据之后的信息;
根据该信息初始节点的相关数据之后的信息,得到信息参与节点的相关数据,其中,信息参与节点是用户针对该信息传播中传播的信息所发布的信息,并且所述信息初始节点和所述信息参与节点构成该信息传播的信息传播节点。
9.一种用于计算社会媒体中信息传播节点重要性的分析设备,其中,所述信息传播节点用于表示一条信息传播中涉及的用户发布信息,分为该信息传播中的初始发布信息和用户针对该信息传播中传播的信息所发布的信息,一条信息传播中的所有信息传播节点及其相互关系构成信息传播树,所述分析设备包括:
用于根据信息传播节点到其后代信息传播节点的传播速度、距离以及其所属社会媒体信息发布平台的节点影响力随距离变化的函数计算信息传播节点对其在所属的信息传播树中每个后代信息传播节点的影响力的装置,其中,影响力用于表示一个信息传播节点吸引另一个信息传播节点参与信息传播的能力;以及
用于根据计算得到的影响力,获得所述信息传播节点的重要性的装置;
其中,按下列步骤获得社会媒体信息发布平台的节点影响力随距离变化的函数:
步骤i)、根据下式计算所述社会媒体信息发布平台的节点影响深度:
其中,a表示所述社会媒体信息发布平台的信息统计比,CDF(j)表示所述社会媒体信息发布平台的信息传播参考集合中传播深度不超过j的信息传播占该集合所有信息传播的比例,n表示该集合中信息传播的最大传播深度,传播深度表示一条信息传播中从信息初始节点到信息参与节点的最大距离,其中信息初始节点是该信息传播中的初始发布信息,信息参与节点是用户针对该信息传播中传播的信息所发布的信息;
步骤ii)、在所述社会媒体信息发布平台的信息传播参考集合中,根据所述节点影响深度和信息传播的传播深度来选择信息传播;
步骤iii)、对于所选择的每条信息传播的信息传播树,计算每层的信息传播节点数与该树所有信息传播节点数的比值,得到该信息传播树在每层的比值;
步骤iv)、对于每一层,将所选择的所有信息传播的信息传播树在该层的比值求均值;
步骤v)、根据每一层对应的均值进行拟合操作,获得所述社会媒体信息发布平台的节点影响力随距离变化的函数。
10.一种社会媒体信息传播节点重要性计算设备,包括:
采集设备,用于从社会媒体信息发布平台中采集与信息传播相关的数据;以及
如权利要求9所述的分析设备,用于对所述采集设备采集的数据进行分析。
11.根据权利要求10所述的社会媒体信息传播节点重要性计算设备,还包括:
数据库,用于存储所述分析设备的分析结果;
Web服务器,用于从所述数据库中读取分析结果并向用户提供服务;以及
内网交换机,用于连接所述分析设备、采集设备、数据库和Web服务器。
12.一种用于计算社会媒体中信息传播节点重要性的系统,包括:
社会媒体信息发布平台;
如权利要求10或11所述的社会媒体信息传播节点重要性计算设备,用于通过互联网从所述社会媒体信息发布平台采集数据并进行分析;
公网接入路由器,用于将所述社会媒体信息传播节点重要性计算设备接入互联网;以及
访问系统的设备,用于通过互联网访问所述社会媒体信息传播节点重要性计算设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510282850.XA CN104866586B (zh) | 2015-05-28 | 2015-05-28 | 用于计算社会媒体中信息传播节点重要性的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510282850.XA CN104866586B (zh) | 2015-05-28 | 2015-05-28 | 用于计算社会媒体中信息传播节点重要性的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104866586A CN104866586A (zh) | 2015-08-26 |
CN104866586B true CN104866586B (zh) | 2019-02-01 |
Family
ID=53912412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510282850.XA Expired - Fee Related CN104866586B (zh) | 2015-05-28 | 2015-05-28 | 用于计算社会媒体中信息传播节点重要性的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104866586B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956925B (zh) * | 2016-04-23 | 2021-07-02 | 时趣互动(北京)科技有限公司 | 一种基于传播网络的重要用户发现方法及装置 |
CN106126740A (zh) * | 2016-06-30 | 2016-11-16 | 杭州师范大学 | 一种事件传播过程中的用户挖掘方法和装置 |
CN106228452B (zh) * | 2016-07-08 | 2020-09-18 | 清华大学 | 基于因果推断的社交网络信息传播历史排序方法 |
CN108153797A (zh) * | 2016-12-02 | 2018-06-12 | 北京国双科技有限公司 | 目标对象的识别方法和装置 |
CN107273488B (zh) * | 2017-06-13 | 2019-08-20 | 武汉大学 | 一种现实空间活动与网络空间行为时空联动作用评价方法 |
CN110020069B (zh) * | 2017-09-27 | 2022-03-18 | 北京国双科技有限公司 | 访问量计算的方法及装置 |
CN108564479B (zh) * | 2017-12-20 | 2022-02-11 | 重庆邮电大学 | 一种基于隐链接分析热点话题传播趋势的系统及方法 |
CN109508415B (zh) * | 2018-06-27 | 2021-01-05 | 北京理工大学 | 基于社交网络层级结构的影响最大化种子集建立方法 |
CN109657906B (zh) * | 2018-11-12 | 2023-09-05 | 平安科技(深圳)有限公司 | 谣言传播风险的分析方法及装置、存储介质、计算机设备 |
CN110110974B (zh) * | 2019-04-17 | 2022-03-29 | 福建天泉教育科技有限公司 | 关键意见领袖的识别方法及计算机可读存储介质 |
CN112270174B (zh) * | 2020-11-10 | 2022-04-29 | 清华大学深圳国际研究生院 | 一种谣言检测方法及计算机可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102262681A (zh) * | 2011-08-19 | 2011-11-30 | 南京大学 | 一种博客信息传播中识别关键博客集的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002230039A (ja) * | 2001-01-31 | 2002-08-16 | Nec Corp | 情報提供システム及び情報提供方法 |
-
2015
- 2015-05-28 CN CN201510282850.XA patent/CN104866586B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102262681A (zh) * | 2011-08-19 | 2011-11-30 | 南京大学 | 一种博客信息传播中识别关键博客集的方法 |
Non-Patent Citations (1)
Title |
---|
"微博个体信息传播影响力评价模型研究";林琛;《情报分析与研究》;20140228(第2期);摘要,第80页第3.1节,第81页第3.2节,图3-5 * |
Also Published As
Publication number | Publication date |
---|---|
CN104866586A (zh) | 2015-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104866586B (zh) | 用于计算社会媒体中信息传播节点重要性的方法及系统 | |
Zannettou et al. | On the origins of memes by means of fringe web communities | |
CN105357054B (zh) | 网站流量分析方法、装置和电子设备 | |
Myers et al. | Information diffusion and external influence in networks | |
KR101297271B1 (ko) | 소셜 네트워크 분석 서비스 방법 및 장치 | |
Parekh et al. | Studying jihadists on social media: A critique of data collection methodologies | |
CN103176983B (zh) | 一种基于互联网信息的事件预警方法 | |
Zhaoyun et al. | Mining topical influencers based on the multi-relational network in micro-blogging sites | |
Barbier et al. | Provenance data in social media | |
Lim et al. | Finding twitter communities with common interests using following links of celebrities | |
KR100952391B1 (ko) | 인터넷 네트워크에서 콘텐츠의 평가에 따른 가치 분석시스템, 방법 및 이를 구현할 수 있는 컴퓨터로 읽을 수있는 기록 매체 | |
CN103198161A (zh) | 微博水军识别方法与设备 | |
CN107436877B (zh) | 热点话题推送方法和装置 | |
Uddin et al. | On diversifying source selection in social sensing | |
US20130204658A1 (en) | System and method for improving effectiveness of internet marketing | |
CN103136331A (zh) | 微博网络意见领袖识别方法 | |
WO2015027223A1 (en) | Page reporting and content performance analytics | |
CN109885656B (zh) | 基于量化热度的微博转发预测方法及装置 | |
CN103179198A (zh) | 基于多关系网络的话题影响力个体挖掘方法 | |
Cao et al. | Collusion-aware detection of review spammers in location based social networks | |
Fu et al. | Leveraging careful microblog users for spammer detection | |
Rajapaksha et al. | Scrutinizing news media cooperation in facebook and twitter | |
CN111382345B (zh) | 话题筛选和发布的方法、装置和服务器 | |
Wang et al. | A study on influential user identification in online social networks | |
Zhu et al. | Path prediction of information diffusion based on a topic-oriented relationship strength network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190201 |