CN107818514A - 一种控制在线社交网络信息传播的方法、装置及终端 - Google Patents
一种控制在线社交网络信息传播的方法、装置及终端 Download PDFInfo
- Publication number
- CN107818514A CN107818514A CN201610817264.5A CN201610817264A CN107818514A CN 107818514 A CN107818514 A CN 107818514A CN 201610817264 A CN201610817264 A CN 201610817264A CN 107818514 A CN107818514 A CN 107818514A
- Authority
- CN
- China
- Prior art keywords
- information
- node
- feature
- network
- online social
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000001902 propagating effect Effects 0.000 claims abstract description 81
- 230000007480 spreading Effects 0.000 claims abstract description 45
- 238000003892 spreading Methods 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000008859 change Effects 0.000 claims abstract description 16
- 238000010801 machine learning Methods 0.000 claims abstract description 13
- 238000004891 communication Methods 0.000 claims description 48
- 230000000644 propagated effect Effects 0.000 claims description 23
- 238000002474 experimental method Methods 0.000 claims description 19
- 230000006399 behavior Effects 0.000 claims description 17
- 230000003542 behavioural effect Effects 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 abstract description 10
- 238000011156 evaluation Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 2
- 244000046052 Phaseolus vulgaris Species 0.000 description 2
- 238000011217 control strategy Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 230000008713 feedback mechanism Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000037361 pathway Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 208000001613 Gambling Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提出了一种控制在线社交网络信息传播的方法、装置及终端,包括:构建信息传播网络,计算节点的离线特征,从离线特征中抽取训练样本,通过机器学习训练预先构建的节点传播影响力预测模型,计算节点的在线特征,向节点传播影响力预测模型提供作为输入的离线特征和在线特征,节点传播影响力预测模型进行预测并输出节点传播影响力预测值;结合当前节点的节点传播影响力预测值和指定时间窗口大小内的其他节点的信息,判定是否对当前节点进行控制。本发明能够适应动态变化的信息传播网络,全方位地评估用户对于当前信息的传播影响力,解决了在线社交网络中信息传播控制选取节点不准确的问题。
Description
技术领域
本发明涉及网络技术,具体涉及一种控制在线社交网络信息传播的方法、装置及终端。
背景技术
在线社交网络中的信息传播控制以控制非法不实信息如谣言、黄赌毒等在社交网络中的传播、为用户提供良好的网络环境为目的,依据用户所在社交网络的拓扑特征和用户的历史信息传播行为等信息,评估用户在信息传播中的重要性。从而在非法不实信息爆发之前,通过对具有高影响力的用户进行信息免疫控制,避免信息的大规模传播。
现有技术中的信息传播控制方案大部分是根据用户所在社交网络,以某一静态的网络拓扑特征作为节点影响力的评估指标,评估节点在整个网络中的重要性,再通过仿真系统来评估节点的控制效果。
在实际的信息传播网络中,信息往往来源于局部用户,节点与节点之间的信息流动往往不是一成不变的,信息传播的网络也处于不断变化之中,因此采用现有的信息传播控制方案会存在节点选取不准确的问题,其主要原因和表现如下:一是节点影响力评估指标单一,没有综合利用全局信息和局部信息,因此无法根据信息传播的局部信息选择合适的节点进行控制;二是忽略了节点的行为特征,因此仅仅凭借静态的网络拓扑特征无法准确地评估节点在信息传播中的作用;三是缺乏自学习机制,节点传播影响力预测模型不能根据仿真系统输出的评估结果更新和调整,因此不能适用于动态变化的信息传播网络。
发明内容
本发明旨在解决在线社交网络信息传播控制中节点选取不准确的问题。
为了解决上述技术问题,本发明提供了一种控制在线社交网络信息传播的方法,包括:
构建信息传播网络,所述信息传播网络包括节点、信息流通方向和信息传播概率;
基于所述信息传播网络,计算所述节点的离线特征,从所述离线特征中抽取训练样本,通过机器学习训练预先构建的节点传播影响力预测模型;
基于所述信息传播网络,计算所述节点的在线特征,向所述节点传播影响力预测模型提供作为输入的所述离线特征和所述在线特征,所述节点传播影响力预测模型进行预测并输出节点传播影响力预测值;
结合当前节点的所述节点传播影响力预测值和指定时间窗口大小内的其他节点的信息,判定是否对所述当前节点进行控制。
优选地,所述信息传播网络是基于在线社交网络的用户关系链和用户历史信息传播行为构建的。
优选地,所述节点的离线特征包括节点特征、信息源特征和信息特征,
所述节点特征包括用户画像、用户行为特征和用户的网络拓扑特征,
所述信息源特征包括公众号画像、公众号行为特征以及公众号的网络拓扑特征,
所述信息特征为用户与文章的交互特征,所述信息特征包括当前时刻特定文章的阅读用户数、转发用户数和评论用户数。
优选地,所述在线特征为信息传播中的动态变化的特征,包括信息的热度和信息传播的拓扑特征。
优选地,在所述结合当前节点的所述节点传播影响力预测值和指定时间窗口大小内的其他节点的信息,判定是否对所述当前节点进行控制之前,还包括,将所述节点传播影响力预测值输出到在线实验系统进行验证和反馈,基于所述在线实验系统的反馈信息,更新所述节点传播影响力预测模型。
优选地,在所述构建信息传播网络之前,还包括,进行数据采集存储,获取原始数据。
优选地,在所述构建信息传播网络之前,还包括,根据设定的清洗规则,将所述原始数据中的噪音数据过滤掉,并将合格的所述原始数据转换成中间结果数据,所述原始数据包括用户行为日志,所述噪音数据包括非正常用户的行为数据,所述中间结果数据包括用户行为的统计数据。
本发明还提供了一种控制在线社交网络信息传播的装置,包括:
信息传播网络构建模块,用于构建信息传播网络,所述信息传播网络包括节点、信息流通方向和信息传播概率;
离线学习模块,用于基于所述信息传播网络,计算所述节点的离线特征,从所述离线特征中抽取训练样本,通过机器学习训练预先构建的节点传播影响力预测模型;
在线预测模块,用于基于所述信息传播网络,计算所述节点的在线特征,向所述节点传播影响力预测模型提供作为输入的所述离线特征和所述在线特征,所述节点传播影响力预测模型进行预测并输出节点传播影响力预测值;
在线实验模块,用于结合当前节点的所述节点传播影响力预测值和指定时间窗口大小内的其他节点的信息,判定是否对所述当前节点进行控制。
优选地,所述信息传播网络构建模块基于在线社交网络的用户关系链和用户历史信息传播行为构建所述信息传播网络。
优选地,所述节点的离线特征包括节点特征、信息源特征和信息特征,
所述节点特征包括用户画像、用户行为特征和用户的网络拓扑特征,
所述信息源特征包括公众号画像、公众号行为特征以及公众号的网络拓扑特征,
所述信息特征为用户与文章的交互特征,所述信息特征包括当前时刻特定文章的阅读用户数、转发用户数和评论用户数。
优选地,所述在线特征为信息传播中的动态变化的特征,包括信息的热度和信息传播的拓扑特征。
优选地,还包括在线模型更新模块,用于将所述节点传播影响力预测值输出到在线实验系统进行验证和反馈,基于所述在线实验系统的反馈信息,更新所述节点传播影响力预测模型。
优选地,还包括数据采集存储模块,用于获取原始数据。
优选地,还包括数据清洗模块,用于根据设定的清洗规则,将所述原始数据中的噪音数据过滤掉,并将合格的原始数据转换成中间结果数据,所述原始数据包括用户行为日志,所述噪音数据包括非正常用户的行为数据,所述中间结果数据包括用户行为的统计数据。
实施本发明具有以下有益效果:
1、本发明基于在线社交网络的用户关系链和用户历史信息传播行为构建信息传播网络,所述信息传播网络包括节点、信息流通方向和信息传播概率,综合考虑了全局信息和局部信息,有利于全方位地评估用户对于当前信息的传播影响力;
2、本发明通过对用户历史行为数据进行离线学习,确定节点传播影响力预测模型,且将节点的离线特征和在线特征均作为用于节点传播影响力预测模型进行预测的影响因素,控制节点选取更准确,能够实现用户特征的最优组合;
3、本发明设有反馈机制,在线实验系统将反馈信息反馈给算法系统,实现算法的自动学习,并更新所述节点传播影响力预测模型使其适用于动态变化的信息传播网络。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是实施例一提供的一种控制在线社交网络信息传播的方法的流程示意图;
图2是现有技术中的信息传播网络示意图;
图3是本发明提供的局部信息传播网络示意图;
图4是本发明提供的信息的实时传播情况示意图;
图5是实施例二提供的一种控制在线社交网络信息传播的装置的结构框图;
图6是实施例三提供的一种控制在线社交网络信息传播的方法的流程示意图;
图7是实施例四提供的一种控制在线社交网络信息传播的装置的结构框图;
图8是实施例五提供的一种控制在线社交网络信息传播的终端的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
一种控制在线社交网络信息传播的方法,如图1所示,包括:
步骤S101,构建信息传播网络,所述信息传播网络包括节点、信息流通方向和信息传播概率;
所述信息传播网络基于在线社交网络的用户关系链和用户历史信息传播行为构建,包括节点、信息流通方向和信息传播概率;
如图2所示,现有技术中的信息传播控制方案主要根据用户所在的社交网络计算用户的拓扑特征,并以此为度量标准,选取排名靠前的用户作为免疫控制用户,没有考虑节点与节点的差异,也没有节点之间信息流通方向、频率的不同。
如图3所示,本实施例的局部信息传播网络示意图中采用不同形状的图形表示传播网络中不同类型的节点,例如分别采用五边形、正方形、圆形表示用户、群组、公众号等;边的方向表示信息流通的方向,例如用户A从用户B处转发了文章,则构建一条从用户B指向用户A的有向边;边上的数据为有向边上的权重,有向边上的权重定义为历史上用户A从用户B处转发的文章数量和质量的加权组合,用于表示信息传播概率,其计算公式为
其中
wi代表每篇文章的权重,cnt表示每篇文章的转发量,即:A从B处转发了越热门的文章,文章的权重wi就越高,相应地,从B指向A的有向边的权重也就越高,说明B为A提供了越多的有用信息。
步骤S102,基于所述信息传播网络,计算所述节点的离线特征,从所述离线特征中抽取训练样本,通过机器学习训练预先构建的节点传播影响力预测模型;
所述节点的离线特征包括节点特征、信息源特征和信息特征:
所述节点特征包括用户画像、用户行为特征和用户的网络拓扑特征,主要包括年龄、性别、文章转发次数、文章阅读次数、好友数、LeaderRank值等评价指标;
所述信息源特征包括公众号画像、公众号行为特征以及公众号的网络拓扑特征,主要包括公众号类型、文章发表次数、粉丝数等评价指标;
所述信息特征为用户与文章的交互特征,所述信息特征包括当前时刻特定文章的阅读用户数、转发用户数和评论用户数等评价指标。
对于信息传播途径中的每个节点,根据离线特征计算出的节点特征featuresnode,信息源featuressource,信息特征featuresmsg,
组合成训练样本sample(featuresnode,featuressource,featuresmsg),预测每个节点对于特定信息的传播能力Y,即:
f(sample(featuresnode,featuressource,featuresmsg))→Y
利用从所述离线特征中抽取的训练样本,通过机器学习训练预先构建的节点传播影响力预测模型的具体过程如下:
将公众号文章在7天内的传播用户序列作为训练样本,还原文章的传播路径,计算传播路径上的每个节点的子节点的数量,即节点的出度,并根据出度排序,取top20%的节点,定义为正样本,同时将叶子节点定义为负样本。利用分类器进行二分类模型学习。将每个样本的被分为正样本的概率定义为该样本的传播影响力。所述正样本即为关键节点,所述负样本即为非关键节点,所述节点被判断为正样本的概率的计算公式为
X={x1,x2,x3,…,xi,…,xn}
其中,P(Y=1|X)表示对于给定的样本X,逻辑回归模型将样本X判定为正例的概率;
xi表示每个样本的特征,
wi表示相应特征的权重,
b为常数项。
步骤S103,基于所述信息传播网络,计算所述节点的在线特征,向所述节点传播影响力预测模型提供作为输入的所述离线特征和所述在线特征,所述节点传播影响力预测模型进行预测并输出节点传播影响力预测值。
所述在线特征为信息传播中的动态变化的特征,用于反映信息传播的实时情况。不同信息在不同传播阶段可以表现不同的传播特征,如当前信息的传播速度可以反映信息的热度、信息传播的拓扑特征等。
如图4所示,信息的实时传播情况中,深色节点表示被信息感染的节点,浅色节点表示未被信息感染的节点,有向边代表信息的传播方向,无向边表示节点之间可以传递信息。由图4可知,节点A的邻居节点都已经感染,而此时再去控制节点A已经没有意义了。相反,此时节点B的邻居节点还没有被感染,因此,应该对节点B进行信息控制。
通过计算得到所述节点的在线特征后,向所述节点传播影响力预测模型提供作为输入的所述离线特征和所述在线特征,所述节点传播影响力预测模型为经过离线学习训练好的模型,所述节点传播影响力预测模型对当前节点对于当前信息的传播能力进行预测,并输出节点传播影响力预测值;
步骤S104,结合当前节点的所述节点传播影响力预测值和指定时间窗口大小内的其他节点的信息,判定是否对所述当前节点进行控制,以及采用哪种控制策略。
在所述构建信息传播网络之前,还包括,进行数据采集存储,获取原始数据;根据设定的清洗规则,将所述原始数据中的噪音数据过滤掉,并将合格的所述原始数据转换成中间结果数据,所述数据采集存储采用TDW、HDFS和MySQL对数据进行存储和管理,所述TDW的英文全称为Tencent distributed Data Warehouse,中文全称为腾讯分布式数据仓库,是腾讯基于开源软件研发的大数据处理平台;所述HDFS为Hadoop分布式文件系统;所述MySQL为关系型数据库管理系统;所述原始数据包括用户行为日志;所述噪音数据包括非正常用户的行为数据;所述中间结果数据包括用户行为的统计数据。
本实施例基于在线社交网络的用户关系链和用户历史信息传播行为构建信息传播网络,综合考虑了全局信息和局部信息,有利于全方位地评估用户对于当前信息的传播影响力,通过对用户历史行为数据进行离线学习,确定节点传播影响力预测模型,且将节点的离线特征和在线特征均作为用于节点传播影响力预测模型进行预测的影响因素,控制节点选取更准确,能够实现用户特征的最优组合。
实施例二
一种控制在线社交网络信息传播的装置,如图5所示,包括:
装置的总体架构如图5所示,包括数据采集应用、数据清洗和数据应用三个部分,该装置的核心是数据应用部分,可细分为信息传播网络构建模块203、离线学习模块204、在线预测模块205和在线实验模块206。
信息传播网络构建模块203,用于构建信息传播网络,所述信息传播网络包括节点、信息流通方向和信息传播概率;
离线学习模块204包括离线特征计算子模块和离线模型学习子模块。
所述离线特征计算子模块主要利用用户关系链、用户历史信息传播行为构建信息传播网络,然后基于此网络,根据关键节点的定义,计算用户的传播影响力。如图3所示,根据用户的历史信息传播行为信息构建的局部信息传播示意图中,不同形状的图形代表传播网络中不同类型的节点,如用户、群组、公众号等。边的方向代表信息流通的方向,边上的数据则是根据节点的历史信息传播行为计算出来的信息传播概率。
离线模型学习子模块利用离线特征计算子模块输出的节点特征、信息源特征、信息特征组合成训练样本,用于机器学习模型的训练和预测。
利用从所述离线特征中抽取的训练样本,通过机器学习训练预先构建的节点传播影响力预测模型。
在线预测模块205,用于基于所述信息传播网络,计算信息传播中的动态变化的特征,以反映信息传播的实时情况并获取节点的在线特征。向所述节点传播影响力预测模型提供作为输入的所述离线特征和所述在线特征,所述节点传播影响力预测模型进行预测并输出节点传播影响力预测值;
在线实验模块206,用于结合当前节点的所述节点传播影响力预测值和指定时间窗口大小内的其他节点的信息,判定是否对所述当前节点进行控制。
优选地,所述信息传播网络构建模块203基于在线社交网络的用户关系链和用户历史信息传播行为构建所述信息传播网络。
优选地,所述节点的离线特征包括节点特征、信息源特征和信息特征,
所述节点特征包括用户画像、用户行为特征和用户的网络拓扑特征,
所述信息源特征包括公众号画像、公众号行为特征以及公众号的网络拓扑特征,
所述信息特征为用户与文章的交互特征,所述信息特征包括当前时刻特定文章的阅读用户数、转发用户数和评论用户数。
优选地,所述在线特征为信息传播中的动态变化的特征,包括信息的热度和信息传播的拓扑特征。
优选地,还包括数据采集存储模块201,用于获取原始数据。
优选地,还包括数据清洗模块202,用于根据设定的清洗规则,将所述原始数据中的噪音数据过滤掉,并将合格的原始数据转换成中间结果数据,所述原始数据包括用户行为日志,所述噪音数据包括非正常用户的行为数据,所述中间结果数据包括用户行为的统计数据。
本实施例基于在线社交网络的用户关系链和用户历史信息传播行为构建信息传播网络,综合考虑了全局信息和局部信息,有利于全方位地评估用户对于当前信息的传播影响力,同时将节点的离线特征和在线特征均作为影响因素考虑到节点传播影响力预测模型中,考虑了信息传播中的动态变化的特征,能够实现用户特征的最优组合。
实施例三
一种控制在线社交网络信息传播的方法,如图6所示,包括:
步骤S301,构建信息传播网络,所述信息传播网络包括节点、信息流通方向和信息传播概率;
所述信息传播网络基于在线社交网络的用户关系链和用户历史信息传播行为构建,包括节点、信息流通方向和信息传播概率;
如图2所示,现有技术中的信息传播控制方案主要根据用户所在的社交网络计算用户的拓扑特征,并以此为度量标准,选取排名靠前的用户作为免疫控制用户,没有考虑节点与节点的差异,也没有节点之间信息流通方向、频率的不同。
如图3所示,本实施例的局部信息传播网络示意图中采用不同形状的图形表示传播网络中不同类型的节点,例如分别采用五边形、正方形、圆形表示用户、群组、公众号等;边的方向表示信息流通的方向,例如用户A从用户B处转发了文章,则构建一条从用户B指向用户A的有向边;边上的数据为有向边上的权重,有向边上的权重定义为历史上用户A从用户B处转发的文章数量和质量的加权组合,用于表示信息传播概率,其计算公式为
其中
wi代表每篇文章的权重,cnt表示每篇文章的转发量,即:A从B处转发了越热门的文章,文章的权重wi就越高,相应地,从B指向A的有向边的权重也就越高,说明B为A提供了越多的有用信息。
步骤S302,基于所述信息传播网络,计算所述节点的离线特征,从所述离线特征中抽取训练样本,通过机器学习训练预先构建的节点传播影响力预测模型;
所述节点的离线特征包括节点特征、信息源特征和信息特征:
所述节点特征包括用户画像、用户行为特征和用户的网络拓扑特征,主要包括年龄、性别、文章转发次数、文章阅读次数、好友数、LeaderRank值等评价指标;
所述信息源特征包括公众号画像、公众号行为特征以及公众号的网络拓扑特征,主要包括公众号类型、文章发表次数、粉丝数等评价指标;
所述信息特征为用户与文章的交互特征,所述信息特征包括当前时刻特定文章的阅读用户数、转发用户数和评论用户数等评价指标。
对于信息传播途径中的每个节点,根据离线特征计算出的节点特征featuresnode,信息源featuressource,信息特征featuresmsg,
组合成训练样本sample(featuresnode,featuressource,featuresmsg),预测每个节点对于特定信息的传播能力Y,即:
f(sample(featuresnode,featuressource,featuresmsg))→Y
利用从所述离线特征中抽取的训练样本,通过机器学习训练预先构建的节点传播影响力预测模型的具体过程如下:
将公众号文章在7天内的传播用户序列作为训练样本,还原文章的传播路径,计算传播路径上的每个节点的子节点的数量,即节点的出度,并根据出度排序,取top20%的节点,定义为正样本,同时将叶子节点定义为负样本。利用分类器进行二分类模型学习。将每个样本的被分为正样本的概率定义为该样本的传播影响力。所述正样本即为关键节点,所述负样本即为非关键节点,所述节点被判断为正样本的概率的计算公式为
X={x1,x2,x3,…,xi,…,xn}
其中,P(Y=1|X)表示对于给定的样本X,逻辑回归模型将样本X判定为正例的概率;
xi表示每个样本的特征,
wi表示相应特征的权重,
b为常数项。
步骤S303,基于所述信息传播网络,计算所述节点的在线特征,向所述节点传播影响力预测模型提供作为输入的所述离线特征和所述在线特征,所述节点传播影响力预测模型进行预测并输出节点传播影响力预测值。
所述在线特征为信息传播中的动态变化的特征,用于反映信息传播的实时情况。不同信息在不同传播阶段可以表现不同的传播特征,如当前信息的传播速度可以反映信息的热度、信息传播的拓扑特征等。
如图4所示的信息的实时传播情况中,深色节点表示被信息感染的节点,浅色节点表示未被信息感染的节点,有向边代表信息的传播方向,无向边表示节点之间可以传递信息。由图4可知,节点A的邻居节点都已经感染,而此时再去控制节点A已经没有意义了。相反,此时节点B的邻居节点还没有被感染,因此,应该对节点B进行信息控制。
通过计算得到所述节点的在线特征后,向所述节点传播影响力预测模型提供作为输入的所述离线特征和所述在线特征,所述节点传播影响力预测模型为经过离线学习训练好的模型,所述节点传播影响力预测模型对当前节点对于当前信息的传播能力进行预测,并输出节点传播影响力预测值;
步骤S304,将所述节点传播影响力预测值输出到在线实验系统进行验证和反馈,基于所述在线实验系统的反馈信息,更新所述节点传播影响力预测模型;
步骤S305,结合当前节点的所述节点传播影响力预测值和指定时间窗口大小内的其他节点的信息,判定是否对所述当前节点进行控制,以及采用哪种控制策略。
在所述构建信息传播网络之前,还包括,进行数据采集存储,获取原始数据;根据设定的清洗规则,将所述原始数据中的噪音数据过滤掉,并将合格的所述原始数据转换成中间结果数据,所述原始数据包括用户行为日志,所述噪音数据包括非正常用户的行为数据。
优选地,在所述构建信息传播网络之前,还包括,进行数据采集存储,获取原始数据。根据设定的清洗规则,将所述原始数据中的噪音数据过滤掉,并将合格的所述原始数据转换成中间结果数据,所述数据采集存储采用TDW、HDFS和MySQL对数据进行存储和管理,所述TDW的英文全称为Tencent distributed Data Warehouse,中文全称为腾讯分布式数据仓库,是腾讯基于开源软件研发的大数据处理平台;所述HDFS为Hadoop分布式文件系统;所述MySQL为关系型数据库管理系统;所述原始数据包括用户行为日志;所述噪音数据包括非正常用户的行为数据;所述中间结果数据包括用户行为的统计数据。
本实施例在实施例一的基础上增加了反馈机制,由所述节点传播影响力预测模型将节点传播影响力预测值输出到在线实验系统进行验证,再将在线试验系统的反馈信息反馈给算法系统,通过算法对在线特征的自动学习,更新所述节点传播影响力预测模型,使得该系统能够适应动态变化的信息传播网络。
实施例四
一种控制在线社交网络信息传播的装置,如图7所示,包括:
信息传播网络构建模块403,用于构建信息传播网络,所述信息传播网络包括节点、信息流通方向和信息传播概率;
离线学习模块404,用于基于所述信息传播网络,计算所述节点的离线特征,从所述离线特征中抽取训练样本,通过机器学习训练预先构建的节点传播影响力预测模型;
在线预测模块405,用于基于所述信息传播网络,计算所述节点的在线特征,向所述节点传播影响力预测模型提供作为输入的所述离线特征和所述在线特征,所述节点传播影响力预测模型进行预测并输出节点传播影响力预测值;
在线实验模块407,用于结合当前节点的所述节点传播影响力预测值和指定时间窗口大小内的其他节点的信息,判定是否对所述当前节点进行控制。
优选地,所述信息传播网络构建模块403基于在线社交网络的用户关系链和用户历史信息传播行为构建所述信息传播网络。
优选地,所述节点的离线特征包括节点特征、信息源特征和信息特征,
所述节点特征包括用户画像、用户行为特征和用户的网络拓扑特征,
所述信息源特征包括公众号画像、公众号行为特征以及公众号的网络拓扑特征,
所述信息特征为用户与文章的交互特征,所述信息特征包括当前时刻特定文章的阅读用户数、转发用户数和评论用户数。
优选地,所述在线特征为信息传播中的动态变化的特征,包括信息的热度和信息传播的拓扑特征。
优选地,还包括在线模型更新模块406,用于将所述节点传播影响力预测值输出到在线实验系统进行验证和反馈,基于所述在线实验系统的反馈信息,更新所述节点传播影响力预测模型。
优选地,还包括数据采集存储模块401,用于获取原始数据。
优选地,还包括数据清洗模块402,用于根据设定的清洗规则,将所述原始数据中的噪音数据过滤掉,并将合格的原始数据转换成中间结果数据,所述原始数据包括用户行为日志,所述噪音数据包括非正常用户的行为数据,所述中间结果数据包括用户行为的统计数据。
本实施例在实施例二的基础上增加了在线模型更新模块406,能够实现装置的在线学习,适应动态变化的信息传播网络。
实施例五
一种控制在线社交网络信息传播的终端,如图8所示,所述终端包括控制在线社交网络信息传播的装置,该终端可以是移动终端等终端设备。可选地,在本实施例中,该终端也可以是计算机终端,还可以替换为计算机终端群中的任意一个计算机终端设备。
可选地,在本实施例中,上述计算机终端或移动终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,图8是根据本发明实施例的终端的结构框图。如图8所示,该终端可以包括:一个或多个(图中仅示出一个)处理器、存储器、以及传输装置。
其中,存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端或移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置包括一个网络适配器,其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置为射频模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器存储用于控制在线社交网络信息传播的程序。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:
可选的,上述处理器还可以执行如下步骤的程序代码:
第一步,构建信息传播网络,所述信息传播网络包括节点、信息流通方向和信息传播概率;
第二步,基于所述信息传播网络,计算所述节点的离线特征,从所述离线特征中抽取训练样本,通过机器学习训练预先构建的节点传播影响力预测模型;
第三步,基于所述信息传播网络,计算所述节点的在线特征,向所述节点传播影响力预测模型提供作为输入的所述离线特征和所述在线特征,所述节点传播影响力预测模型进行预测并输出节点传播影响力预测值;
第四步,将所述节点传播影响力预测值输出到在线实验系统进行验证和反馈,基于所述在线实验系统的反馈信息,更新所述节点传播影响力预测模型;
第五步,结合当前节点的所述节点传播影响力预测值和指定时间窗口大小内的其他节点的信息,判定是否对所述当前节点进行控制。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台移动终端或计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的终端,可通过其它的方式实现。其中,以上所描述的系统实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (15)
1.一种控制在线社交网络信息传播的方法,其特征在于,包括:
构建信息传播网络,所述信息传播网络包括节点、信息流通方向和信息传播概率;
基于所述信息传播网络,计算所述节点的离线特征,从所述离线特征中抽取训练样本,通过机器学习训练预先构建的节点传播影响力预测模型;
基于所述信息传播网络,计算所述节点的在线特征,向所述节点传播影响力预测模型提供作为输入的所述离线特征和所述在线特征,所述节点传播影响力预测模型进行预测并输出节点传播影响力预测值;
结合当前节点的所述节点传播影响力预测值和指定时间窗口大小内的其他节点的信息,判定是否对所述当前节点进行控制。
2.根据权利要求1所述的一种控制在线社交网络信息传播的方法,其特征在于,所述信息传播网络是基于在线社交网络的用户关系链和用户历史信息传播行为构建的。
3.根据权利要求2所述的一种控制在线社交网络信息传播的方法,其特征在于,所述节点的离线特征包括节点特征、信息源特征和信息特征,
所述节点特征包括用户画像、用户行为特征和用户的网络拓扑特征,
所述信息源特征包括公众号画像、公众号行为特征以及公众号的网络拓扑特征,
所述信息特征为用户与文章的交互特征,所述信息特征包括当前时刻特定文章的阅读用户数、转发用户数和评论用户数。
4.根据权利要求2所述的一种控制在线社交网络信息传播的方法,其特征在于,所述在线特征为信息传播中的动态变化的特征,包括信息的热度和信息传播的拓扑特征。
5.根据权利要求1所述的一种控制在线社交网络信息传播的方法,其特征在于,在所述结合当前节点的所述节点传播影响力预测值和指定时间窗口大小内的其他节点的信息,判定是否对所述当前节点进行控制之前,还包括,将所述节点传播影响力预测值输出到在线实验系统进行验证和反馈,基于所述在线实验系统的反馈信息,更新所述节点传播影响力预测模型。
6.根据权利要求1所述的一种控制在线社交网络信息传播的方法,其特征在于,在所述构建信息传播网络之前,还包括,进行数据采集存储,获取原始数据。
7.根据权利要求6所述的一种控制在线社交网络信息传播的方法,其特征在于,在所述构建信息传播网络之前,还包括,根据设定的清洗规则,将所述原始数据中的噪音数据过滤掉。
8.一种控制在线社交网络信息传播的装置,其特征在于,包括:
信息传播网络构建模块,用于构建信息传播网络,所述信息传播网络包括节点、信息流通方向和信息传播概率;
离线学习模块,用于基于所述信息传播网络,计算所述节点的离线特征,从所述离线特征中抽取训练样本,通过机器学习训练预先构建的节点传播影响力预测模型;
在线预测模块,用于基于所述信息传播网络,计算所述节点的在线特征,向所述节点传播影响力预测模型提供作为输入的所述离线特征和所述在线特征,所述节点传播影响力预测模型进行预测并输出节点传播影响力预测值;
在线实验模块,用于结合当前节点的所述节点传播影响力预测值和指定时间窗口大小内的其他节点的信息,判定是否对所述当前节点进行控制。
9.根据权利要求8所述的一种控制在线社交网络信息传播的装置,其特征在于,所述信息传播网络构建模块基于在线社交网络的用户关系链和用户历史信息传播行为构建所述信息传播网络。
10.根据权利要求9所述的一种控制在线社交网络信息传播的装置,其特征在于,所述节点的离线特征包括节点特征、信息源特征和信息特征,
所述节点特征包括用户画像、用户行为特征和用户的网络拓扑特征,
所述信息源特征包括公众号画像、公众号行为特征以及公众号的网络拓扑特征,
所述信息特征为用户与文章的交互特征,所述信息特征包括当前时刻特定文章的阅读用户数、转发用户数和评论用户数。
11.根据权利要求9所述的一种控制在线社交网络信息传播的装置,其特征在于,所述在线特征为信息传播中的动态变化的特征,包括信息的热度和信息传播的拓扑特征。
12.根据权利要求8所述的一种控制在线社交网络信息传播的装置,其特征在于,还包括在线模型更新模块,用于将所述节点传播影响力预测值输出到在线实验系统进行验证和反馈,基于所述在线实验系统的反馈信息,更新所述节点传播影响力预测模型。
13.根据权利要求8所述的一种控制在线社交网络信息传播的装置,其特征在于,还包括数据采集存储模块,用于获取原始数据。
14.根据权利要求13所述的一种控制在线社交网络信息传播的装置,其特征在于,还包括数据清洗模块,用于根据设定的清洗规则,将所述原始数据中的噪音数据过滤掉。
15.一种控制在线社交网络信息传播的终端,其特征在于,所述终端包括权利要求8-14中任意一项所述的控制在线社交网络信息传播的装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610817264.5A CN107818514B (zh) | 2016-09-12 | 2016-09-12 | 一种控制在线社交网络信息传播的方法、装置及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610817264.5A CN107818514B (zh) | 2016-09-12 | 2016-09-12 | 一种控制在线社交网络信息传播的方法、装置及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107818514A true CN107818514A (zh) | 2018-03-20 |
CN107818514B CN107818514B (zh) | 2022-01-14 |
Family
ID=61600641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610817264.5A Active CN107818514B (zh) | 2016-09-12 | 2016-09-12 | 一种控制在线社交网络信息传播的方法、装置及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107818514B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108809946A (zh) * | 2018-05-18 | 2018-11-13 | 哈尔滨工业大学深圳研究生院 | 基于节点影响力的车载网恶意软件传播抑制 |
CN109242710A (zh) * | 2018-08-16 | 2019-01-18 | 北京交通大学 | 社交网络节点影响力排序方法及系统 |
CN109558540A (zh) * | 2018-11-30 | 2019-04-02 | 咪咕文化科技有限公司 | 一种确定用户影响力的方法及装置、设备、存储介质 |
CN110661696A (zh) * | 2019-08-30 | 2020-01-07 | 浙江工业大学 | 一种基于梯度信息的消息传播控制方法 |
CN110781411A (zh) * | 2019-11-05 | 2020-02-11 | 重庆邮电大学 | 一种基于辟谣消息的谣言传播控制方法 |
CN111737870A (zh) * | 2020-06-23 | 2020-10-02 | 吉林大学 | 一种线上线下双层网络信息传播模式的分析方法 |
CN113536144A (zh) * | 2021-06-17 | 2021-10-22 | 中国人民解放军国防科技大学 | 一种社交网络信息的传播规模预测方法、装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064917A (zh) * | 2012-12-20 | 2013-04-24 | 中国科学院深圳先进技术研究院 | 一种面向微博的特定倾向的高影响力用户群发现方法 |
CN104123352A (zh) * | 2014-07-10 | 2014-10-29 | 西安理工大学 | 面向微博的话题层次用户影响力度量方法 |
CN104182457A (zh) * | 2014-07-14 | 2014-12-03 | 上海交通大学 | 在社交网络中基于泊松过程模型的事件流行度预测方法 |
CN104954360A (zh) * | 2015-04-17 | 2015-09-30 | 腾讯科技(深圳)有限公司 | 分享内容屏蔽方法及装置 |
-
2016
- 2016-09-12 CN CN201610817264.5A patent/CN107818514B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064917A (zh) * | 2012-12-20 | 2013-04-24 | 中国科学院深圳先进技术研究院 | 一种面向微博的特定倾向的高影响力用户群发现方法 |
CN104123352A (zh) * | 2014-07-10 | 2014-10-29 | 西安理工大学 | 面向微博的话题层次用户影响力度量方法 |
CN104182457A (zh) * | 2014-07-14 | 2014-12-03 | 上海交通大学 | 在社交网络中基于泊松过程模型的事件流行度预测方法 |
CN104954360A (zh) * | 2015-04-17 | 2015-09-30 | 腾讯科技(深圳)有限公司 | 分享内容屏蔽方法及装置 |
Non-Patent Citations (3)
Title |
---|
唐竹发: "基于微博信息扩散质量的WSD_Rank传播影响力算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
李超: "基于多维属性的社会网络信息传播模型研究", 《中国优秀博士学位论文全文数据库信息科技辑》 * |
王乐等: "社交网络中信息传播预测的研究综述", 《信息网络安全》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108809946A (zh) * | 2018-05-18 | 2018-11-13 | 哈尔滨工业大学深圳研究生院 | 基于节点影响力的车载网恶意软件传播抑制 |
CN108809946B (zh) * | 2018-05-18 | 2021-02-09 | 哈尔滨工业大学深圳研究生院 | 基于节点影响力的车载网恶意软件传播抑制 |
CN109242710A (zh) * | 2018-08-16 | 2019-01-18 | 北京交通大学 | 社交网络节点影响力排序方法及系统 |
CN109558540A (zh) * | 2018-11-30 | 2019-04-02 | 咪咕文化科技有限公司 | 一种确定用户影响力的方法及装置、设备、存储介质 |
CN110661696A (zh) * | 2019-08-30 | 2020-01-07 | 浙江工业大学 | 一种基于梯度信息的消息传播控制方法 |
CN110781411A (zh) * | 2019-11-05 | 2020-02-11 | 重庆邮电大学 | 一种基于辟谣消息的谣言传播控制方法 |
CN110781411B (zh) * | 2019-11-05 | 2022-06-28 | 重庆邮电大学 | 一种基于辟谣消息的谣言传播控制方法 |
CN111737870A (zh) * | 2020-06-23 | 2020-10-02 | 吉林大学 | 一种线上线下双层网络信息传播模式的分析方法 |
CN113536144A (zh) * | 2021-06-17 | 2021-10-22 | 中国人民解放军国防科技大学 | 一种社交网络信息的传播规模预测方法、装置 |
CN113536144B (zh) * | 2021-06-17 | 2022-04-19 | 中国人民解放军国防科技大学 | 一种社交网络信息的传播规模预测方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107818514B (zh) | 2022-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107818514A (zh) | 一种控制在线社交网络信息传播的方法、装置及终端 | |
Chang et al. | Game theoretic modelling of infectious disease dynamics and intervention methods: a review | |
Alyasseri et al. | Variants of the flower pollination algorithm: a review | |
Sharma et al. | Latin hypercube sampling-based NSGA-III optimization model for multimode resource constrained time–cost–quality–safety trade-off in construction projects | |
Chiang | Networked life: 20 questions and answers | |
US8775332B1 (en) | Adaptive user interfaces | |
CN104123284B (zh) | 一种推荐的方法及服务器 | |
CN105654388B (zh) | 一种动态社会网络信息传播模型的建模方法 | |
CN107562875A (zh) | 一种模型的更新方法、装置及系统 | |
CN104182457B (zh) | 在社交网络中基于泊松过程模型的事件流行度预测方法 | |
CN108259546A (zh) | 消息推送方法、设备及可编程设备 | |
CN107657034A (zh) | 一种社交信息增强的事件社交网络推荐算法 | |
Mao et al. | Learning multi-agent communication under limited-bandwidth restriction for internet packet routing | |
CN112669084B (zh) | 策略确定方法、设备及计算机可读存储介质 | |
Chakraborty et al. | Multi-objective optimization problem under fuzzy rule constraints using particle swarm optimization | |
Reina et al. | A multi-objective optimization of data dissemination in delay tolerant networks | |
US8914505B2 (en) | Methods and apparatus for tuning a network for optimal performance | |
Lin et al. | Evolutionary game-based data aggregation model for wireless sensor networks | |
Zhang et al. | Collective behavior of artificial intelligence population: transition from optimization to game | |
CN111445291A (zh) | 一种为社交网络影响力最大化问题提供动态决策的方法 | |
AU2021102006A4 (en) | A system and method for identifying online rumors based on propagation influence | |
Ho et al. | An enhanced ant colony optimization metaheuristic for the minimum dominating set problem | |
CN107644042A (zh) | 软件程序点击率预估排序方法及服务器 | |
Le et al. | Predictable and adaptive goal-oriented dialog policy generation | |
Efstathiou et al. | Efficient multi-objective optimisation of service compositions in mobile ad hoc networks using lightweight surrogate models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |