CN105095419B - 一种面向微博特定类型用户的信息影响力最大化方法 - Google Patents

一种面向微博特定类型用户的信息影响力最大化方法 Download PDF

Info

Publication number
CN105095419B
CN105095419B CN201510412716.7A CN201510412716A CN105095419B CN 105095419 B CN105095419 B CN 105095419B CN 201510412716 A CN201510412716 A CN 201510412716A CN 105095419 B CN105095419 B CN 105095419B
Authority
CN
China
Prior art keywords
user
information
initial
network
microblogging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510412716.7A
Other languages
English (en)
Other versions
CN105095419A (zh
Inventor
杨武
于淼
王巍
苘大鹏
玄世昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201510412716.7A priority Critical patent/CN105095419B/zh
Publication of CN105095419A publication Critical patent/CN105095419A/zh
Application granted granted Critical
Publication of CN105095419B publication Critical patent/CN105095419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向微博特定类型用户的信息影响力最大化方法。包括:数据采集,即从微博网络采集用户的粉丝,交互信息以及用户的配置信息;数据处理,即从微博网络中提取用户的粉丝关关系、关注关系、交互关系以及用户的属性信息;用户分类,即根据给定的用户类型信息进行匹配用户对用户进行分类,删除无效节点;初始候选集合选取,即根据用户的交互信息以及用户属性等信息对用户进行初始降序排序,并选取前n个用户形成初始候选集合;初始激活集合生成,即根据候选集合节点建立网络子图,并通过信息传播模型选取初始的激活集合。本发明能够有效的解决微博特定类型用户的影响力最大化问题。

Description

一种面向微博特定类型用户的信息影响力最大化方法
技术领域
本发明属于无线感知技术领域,尤其涉及一种面向微博特定类型用户的信息影响力最大化方法。
背景技术
随着社会网络的飞速发展,社会媒体的多样化,以及社会网络用户的迅速增长,加速了社会网络的大数据时代的来临。近年来,社会网络的研究一直是研究人员重视的方向,社会网络的研究涉及到计算机科学,社会心理学,社会学等诸多领域。社会影响力最大化问题一直是社会网络研究的热点。
早前的影响力最大化算法的研究,主要是针对传统的社会媒体,并且聚焦在如何扩大影响数量以及降低时间复杂度等方面上。然而,近年来随着微博网络的兴起,带给了传统社会网络的巨大冲击,国外知名的微博twitter,以及国内的新浪腾讯等博受到了广大网络用户的追捧。截止到2014年7月,我国的微博用户已经达到了2亿。因此,针对微博网络的影响力最大化能够使得商家更加有效的定点投放广告,同时也可以针对影响力最大化的节点进行监控防止微博谣言的传播。所以针对微博的影响力最大化算法的研究更应该受到广大研究人员的重视。然而,面对如此巨大的用户群体,许多有效的微博网络影响力最大化算法并不适用于微博网络。基于传播模型的方法在小规模网络中可以得很好的效果,然而不适合大规模网络。启发式的算法由于在微博网络中存在大量的僵尸用户和机器人用户对这类启发式的算法也产生了巨大的干扰。因此传统的算法无法有效的针对微博等大规模社会网络获得很好的影响效果。
同时在商业领域以及网络舆情领域更希望关注特定类型的用户的激活问题。例如,在商业领域中,一个女性用品的商家更希望他们所发的微博广告被更多的女性用户所接受。但是现有的影响力最大化算法并没有考虑激活怎样类型的用户。
发明内容
本发明的目的是提供一种能够有效计算影响力最大化方法的,面向微博特定类型用户的信息影响力最大化方法。
一种面向微博特定类型用户的信息影响力最大化方法,包括以下步骤,
步骤一:在微博网络中获取用户的粉丝、关注列表和配置信息,同时获取微博用户在T时间段内的所有交互行为数据;
步骤二:根据提取的用户粉丝、关注列表构建用户关注关系并生成用户关注关系图G<U,E>其中U为微博用户集合,E为边的集合,
根据提取的用户交互行为数据,构建用户行为关系并形成用户行为关系图G′<U,E,W>其中W表示边的权重;
根据提取的用户配置信息生成用户属性向量ui={a1,a2,…an};
步骤三:根据给定的用户类型信息进行匹配用户对用户进行分类,删除用户行为关系图中的无效用户,形成简化后的用户行为关系图G″<U′,E′,W′>;
给定用户类型向量x={x1,x2,…xn},进行用户类型匹配计算:
对于匹配结果sim(ui,x)不等于1的用户,如果该用户没有粉丝或者该用户没有活跃度,将该用户删除;
步骤四:使用BiasRank启发式的排序方法对简化后的用户行为关系图中的用户进行降序排序,选取排序的前n个用户生成初始候选集合;
步骤五:根据生成的初始候选集合建立简化的社会网络关系图,在简化的社会网络关系图上仿真模拟信息传播得到激活节点集合,计算激活节点集合的累积影响力值,选取累积影响力值最大激活节点集合对应的m个初始用户集合,将m个初始用户集合作为初始激活集合。
本发明一种面向微博特定类型用户的信息影响力最大化方法,还可以包括:
1、使用BiasRank启发式的排序方法对简化后的用户行为关系图中的用户进行降序排序的方法为:
对用户u求取影响力值:
其中A(v)表示用户v的的活跃度,W(v,u)为用户v对用户u在T时间段内的转发数,对所有用户根据其影响力值进行降序排序。
2、激活节点集合的累积影响力值为
Iu=BiasRank(u)
A激活节点集合,Iu表示通过BiasRank启发式启发式算法计算的影响力值。
有益效果:
本发明针对现有的影响力最大化问题的不足,重点考虑如何针对特定类型的微博用户的激活作为目标来进行研究,提出了一种基于用户行为和用户属性的用户影响力最大化算法。该算法能够有效的解决微博特定类型用户的影响力最大化问题。
本发明提出一种面向微博特定类型用户的信息影响力最大化方法,该技术主要考虑微博网络中的用户多样性问题,来对传统的影响力最大化问题进行改进。并取得了良好的影响效果。
本发明能够有效的针对微博类的大规模社会网络,具有较高的传播效果,可以用于微博网络的信息传播引导。
本发明采用BiasRank启发式的排序方法对简化后的用户行为关系图中的用户进行降序排序,考虑到微博中的活跃度和行为偏好,涉及更加符合微博用户的影响力计算方法,使得本发明能够有效、快速地找到微博中影响力最大的m个初始用户集合。
本发明通过选取的初始候选集合建立简化的社会网络关系图,使得本发明的方法计算复杂度低。
附图说明
图1是本发明的微博特定类型用户影响力最大化的总体流程图。
图2是本发明提供的社会网络图映射的具体示意图。
具体实施方式
下面将结合附图对本发明做进一步详细说明。
本发明实施提供一种面向微博特定类型用户的信息影响力最大化方法,利用从微博网络上获取的用户粉丝关系以及用户属性信息,通过初始排序用户并对用户信息进行仿真信息传播来选取初始的激活用户从而实现对微博网络信息的影响力最大化。
为实现上诉发明目的,本发明提供一种面向微博特定类型用户的信息影响力最大化方法实现包括以下阶段:
A1数据采集;
A2数据处理;
A3用户分类;
A4初始候选集合选取;
A5初始激活集合生成。
所述步骤A1中,其所述数据采集的步骤包括:
步骤A11:在微博网络中获取用户的粉丝和关注列表;
步骤A12:获取微博用户在T时间段内的所有交互行为数据;
步骤A13:获取微博用户的配置信息。
步骤A21:根据用户的粉丝列表以及关注列表构建用户关注关系并生成用户关注关系图;
步骤A22:根据用户的交互行为数据,构建用户行为关系并形成用户行为关系图;
步骤A23:根据用户属性生成用户属性向量。
所述步骤A3中,其所述用户分类的步骤为:
步骤A31:根据给定的用户类型将用户分类;
步骤A32:对网络图中的无效用户节点进行删除,无效节点包括:僵尸用户,非给定类型用户并且为叶子节点的用户。
所述步骤A4中,其所述的初始候选集合选取步骤为:
步骤A41:使用BiasRank启发式的排序方法对网络中的用户进行降序排序;
步骤A42:选取排序的前n个用户生成初始候选集合。
所述步骤A5中,其所述的初始激活集合生成步骤为:
步骤A51:根据生成的初始候选集合建立简化的社会网络关系图。
步骤A52:在简化的社会网络关系图上仿真模拟信息传播并计算节点的累积影响力值,选取累积影响力值最大的m个用户集合生成初始激活集合。
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
图1是本发明第一实施例提供的微博特定类型用户的影响力最大化的总体流程图,该方法详述如下:
在步骤101,数据采集是指从微博网络中获取用户的粉丝列表、关注列表以及配置信息,同时提取用户页面的交互信息。
在步骤102中,数据处理是指从微博网络中提取用户的粉丝关关系、关注关系、交互关系以及用户的属性信息。
根据所提取的粉丝列表以及关注列表建立用户关注关系图G<U,E>其中U表示微博用户集合,E表示边的集合;
根据用户的属性生成用户属性向量ui={a1,a2,…an};
根据用户的交互信息建立用户交互关系图G’<U,E,W>其中W表示边的权重。
在步骤103中,用户分类是指根据给定的用户类型信息进行匹配用户对用户进行分类,删除无效节点。
为了能够有效的激活特定的微博用户,需要对选定用户类型进行设置,选定用户类型向量x={x1,x2,…xn}。通过使用公式1进行用户类型匹配:
对于sim(ui,x)不等于1的用户,如果该用户没有任何的粉丝或者该用户没有任何的活跃度,那么将该用户删除。
在步骤104中,初始候选集合选取,是指根据用户的交互信息以及用户属性等信息对用户进行初始降序排序,并选取前n个用户形成初始候选集合。
在传统的PageRank算法的基础上,本文针对现在的社会网络提出一种对PageRank算法的部分改进方法,提出基于用户活跃度和用户行为偏好的排序方法BiasRank算法。
其中A(v)表示v节点的的活跃度,W(v,u)表示v对u节点的行为权重,在微博中可以考虑将W(v,u)表示为v用户对u用户在T时间段内的转发数。并且针对1w节点的腾讯网络数据集结果在权重独立级联模型上的效果明显的比传统的PageRank要好,因此在真实的有向带权网络中本文采取的初始节点选取算法为本文提出的BiasRank算法。
在步骤105中,初始激活集合生成,是指根据候选集合节点建立网络子图,并通过信息传播模型选取初始的激活集合。
通过使用现有的启发式的算法对网络中的算法选取出初始节点的候选集合U,将整个数据网络看做一个图表示其中网络图G<V,E,W>,通过使用启发式算法选取初始节点集合,通过图映射的方法将图G映射为图2.
在对社会网络结构图进行化简后,生成由初始节点候选集合表示的网络结构图,图中的每个节点采用三元组表示,<Uid,R,I>,其中Uid表示节点的编号,R表示节点在初选候选集合中的排序,I表示通过启发式算法计算的节点影响力。针对本文影响力传播叠加的思想对传统的社会网络影响力最大化的。
传统的影响力最大化算法的贪心阶段,主要是考虑如何影响最多的节点数,本文的贪心阶段对于传统的贪心算法进行改进主要考虑如何使得激活的用户影响力最大。主要的思想是考虑如何找到能够影响有影响力的节点的节点。因此本文将算法最后的贪心阶段求解公式如公式所示
本发明公开了一种面向微博特定类型用户的信息影响力最大化方法。所述技术过程包括:数据采集,即从微博网络采集用户的粉丝,交互信息以及用户的配置信息;数据处理,即从微博网络中提取用户的粉丝关关系、关注关系、交互关系以及用户的属性信息;用户分类,即根据给定的用户类型信息进行匹配用户对用户进行分类,删除无效节点;初始候选集合选取,即根据用户的交互信息以及用户属性等信息对用户进行初始降序排序,并选取前n个用户形成初始候选集合;初始激活集合生成,即根据候选集合节点建立网络子图,并通过信息传播模型选取初始的激活集合。

Claims (2)

1.一种面向微博特定类型用户的信息影响力最大化方法,其特征在于:包括以下步骤,
步骤一:在微博网络中获取用户的粉丝、关注列表和配置信息,同时获取微博用户在T时间段内的所有交互行为数据;
步骤二:根据提取的用户粉丝、关注列表构建用户关注关系并生成用户关注关系图G<U,E>其中U为微博用户集合,E为边的集合,
根据提取的用户交互行为数据,构建用户行为关系并形成用户行为关系图G′<U,E,W>其中W表示边的权重;
根据提取的用户配置信息生成用户属性向量ui={a1,a2,…an};
步骤三:根据给定的用户类型信息进行匹配用户对用户进行分类,删除用户行为关系图中的无效用户,形成简化后的用户行为关系图G″<U′,E′,W′>;
给定用户类型向量x={x1,x2,…xn},进行用户类型匹配计算:
ui表示用户属性向量,对于匹配结果sim(ui,x)不等于1的用户,如果该用户没有粉丝或者该用户没有活跃度,将该用户删除;
步骤四:使用BiasRank启发式的排序方法对简化后的用户行为关系图中的用户进行降序排序,选取排序的前n个用户生成初始候选集合;
步骤五:根据生成的初始候选集合建立简化的社会网络关系图,在简化的社会网络关系图上仿真模拟信息传播得到激活节点集合,计算激活节点集合的累积影响力值,选取累积影响力值最大激活节点集合对应的m个初始用户集合,将m个初始用户集合作为初始激活集合;
所述的使用BiasRank启发式的排序方法对简化后的用户行为关系图中的用户进行降序排序的方法为:
对用户u求取影响力值:
其中A(v)表示用户v的的活跃度,W(v,u)为用户v对用户u在T时间段内的转发数,
对所有用户根据其影响力值进行降序排序。
2.根据权利要求1所述的一种面向微博特定类型用户的信息影响力最大化方法,其特征在于:所述的激活节点集合的累积影响力值为
Iu=BiasRank(u)
A激活节点集合,Iu表示通过BiasRank启发式启发式算法计算的影响力值。
CN201510412716.7A 2015-07-15 2015-07-15 一种面向微博特定类型用户的信息影响力最大化方法 Active CN105095419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510412716.7A CN105095419B (zh) 2015-07-15 2015-07-15 一种面向微博特定类型用户的信息影响力最大化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510412716.7A CN105095419B (zh) 2015-07-15 2015-07-15 一种面向微博特定类型用户的信息影响力最大化方法

Publications (2)

Publication Number Publication Date
CN105095419A CN105095419A (zh) 2015-11-25
CN105095419B true CN105095419B (zh) 2018-08-31

Family

ID=54575856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510412716.7A Active CN105095419B (zh) 2015-07-15 2015-07-15 一种面向微博特定类型用户的信息影响力最大化方法

Country Status (1)

Country Link
CN (1) CN105095419B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294405A (zh) * 2015-05-22 2017-01-04 国家计算机网络与信息安全管理中心 一种微博子话题演化分析方法及装置
CN106022821A (zh) * 2016-05-13 2016-10-12 东南大学 一种基于成本效益的影响最大化方法
CN106067139A (zh) * 2016-05-31 2016-11-02 北京红马传媒文化发展有限公司 一种构建特征数据库的方法、系统和装置
CN106408424A (zh) * 2016-08-31 2017-02-15 北京奇艺世纪科技有限公司 一种生成用户组合的方法和装置
CN106713034A (zh) * 2016-12-23 2017-05-24 广州帷策智能科技有限公司 微信公众号制定用户群活跃度监测方法及装置
CN107240042A (zh) * 2017-06-28 2017-10-10 梧州市兴能农业科技有限公司 一种高效的社区管理系统
CN109828998B (zh) * 2019-01-14 2021-05-25 中国传媒大学 基于核心群体挖掘和意见领袖识别结果的分群方法及系统
CN110784862A (zh) * 2019-10-24 2020-02-11 国家计算机网络与信息安全管理中心 一种基于用户通联数据的移动用户影响力评估方法和系统
CN111294620A (zh) * 2020-01-22 2020-06-16 北京达佳互联信息技术有限公司 视频的推荐方法及装置
CN113556368A (zh) * 2020-04-23 2021-10-26 北京达佳互联信息技术有限公司 用户识别方法、装置、服务器及存储介质
CN113326437B (zh) * 2021-06-22 2022-06-21 哈尔滨工程大学 一种基于双引擎网络和drqn的微博早期谣言检测方法
CN115659007B (zh) * 2022-09-21 2023-11-14 浙江大学 一种基于多样性的动态影响力传播种子最小化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770487A (zh) * 2008-12-26 2010-07-07 聚友空间网络技术有限公司 社交网络中用户影响力的计算方法和系统
CN101859315A (zh) * 2010-04-30 2010-10-13 西北工业大学 基于度启发式的社交网络影响力最大化求解方法
CN102262681A (zh) * 2011-08-19 2011-11-30 南京大学 一种博客信息传播中识别关键博客集的方法
CN104166726A (zh) * 2014-08-26 2014-11-26 哈尔滨工程大学 一种面向微博文本流的突发关键词检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090030932A1 (en) * 2007-07-27 2009-01-29 Ralph Harik Methods for detecting and remedying missed opportunities in a social network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770487A (zh) * 2008-12-26 2010-07-07 聚友空间网络技术有限公司 社交网络中用户影响力的计算方法和系统
CN101859315A (zh) * 2010-04-30 2010-10-13 西北工业大学 基于度启发式的社交网络影响力最大化求解方法
CN102262681A (zh) * 2011-08-19 2011-11-30 南京大学 一种博客信息传播中识别关键博客集的方法
CN104166726A (zh) * 2014-08-26 2014-11-26 哈尔滨工程大学 一种面向微博文本流的突发关键词检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Measuring user influence in twitter:The million follower fallacy;M.Cha等;《In 4th International AAAI Conferenceon Weblogs and Social Media》;20101231;第10-17页 *
Modelling influence in a social network:Metrics and evaluation;B.Hajian等;《IEEE》;20111231;第497-500页 *
Twitterrank:finding topic-sensitive influential twitterers;J.Weng等;《ACM》;20101231;第261-270页 *
一种微博用户影响力的计算方法;张昊等;《计算机应用与软件》;20150331;第41-44页 *
微博消息影响力评估及最大化算法研究;于淼;《万方数据》;20140417;第1-71页 *
微博用户影响力度量及影响力最大化的研究;陈文龙;《万方数据》;20131129;第1-127页 *

Also Published As

Publication number Publication date
CN105095419A (zh) 2015-11-25

Similar Documents

Publication Publication Date Title
CN105095419B (zh) 一种面向微博特定类型用户的信息影响力最大化方法
CN106980692B (zh) 一种基于微博特定事件的影响力计算方法
Zhao et al. Identification of influential nodes in social networks with community structure based on label propagation
CN105260474B (zh) 一种基于信息交互网络的微博用户影响力计算方法
CN103325061B (zh) 一种社区发现方法和系统
CN106940732A (zh) 一种面向微博的疑似水军发现方法
CN104239373B (zh) 为文档添加标签的方法及装置
CN106104512A (zh) 用于主动获取社交数据的系统和方法
CN106959966A (zh) 一种信息推荐方法及系统
CN108090607A (zh) 一种基于多模型堆栈融合的社交媒体用户人口属性预测方法
CN110674407A (zh) 基于图卷积神经网络的混合推荐方法
CN109472027A (zh) 一种基于博文相似性的社交机器人检测系统及方法
CN104268271A (zh) 一种兴趣和网络结构双内聚的社交网络社区发现方法
Chen et al. Influence maximization on signed social networks with integrated pagerank
CN104317904B (zh) 一种带权重社会网络的泛化方法
CN110347897B (zh) 基于事件检测的微博网络情感社区识别方法
CN106780073A (zh) 一种考虑用户行为和情感的社会网络影响力最大化初始节点选取方法
CN108460153A (zh) 一种混合博文与用户关系的社交媒体好友推荐方法
CN111523831A (zh) 风险团伙的识别方法、装置、存储介质和计算机设备
CN108009220A (zh) 一种网络热点舆情事件中检测和定位异常用户的方法
CN102521420B (zh) 基于偏好模型的社会化过滤方法
CN103838804A (zh) 一种基于社团划分的社交网络用户兴趣关联规则挖掘方法
CN110197404A (zh) 可降低流行度偏差的个性化长尾商品推荐方法和系统
CN111191099A (zh) 一种基于社交媒体的用户活动类型识别方法
CN104462061B (zh) 词语提取方法及提取装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant