CN107123055A - 一种基于PageRank的社交大数据信息最大化方法 - Google Patents

一种基于PageRank的社交大数据信息最大化方法 Download PDF

Info

Publication number
CN107123055A
CN107123055A CN201710122722.8A CN201710122722A CN107123055A CN 107123055 A CN107123055 A CN 107123055A CN 201710122722 A CN201710122722 A CN 201710122722A CN 107123055 A CN107123055 A CN 107123055A
Authority
CN
China
Prior art keywords
pagerank
hostile
node
adjacency matrix
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710122722.8A
Other languages
English (en)
Inventor
何克晶
陈书波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201710122722.8A priority Critical patent/CN107123055A/zh
Publication of CN107123055A publication Critical patent/CN107123055A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于PageRank的社交大数据信息最大化方法,所述方法首先提取社交大数据中的友好关系和敌对关系,然后对得到的友好关系和敌对关系邻接矩阵分别使用PageRank算法,最后选出种子节点。该方法主要针对既有友好关系又有敌对关系的社交网络,考虑了敌对关系对信息传播的影响,结合PageRank算法分别友好关系和敌对关系的PR值的差来度量用户的影响力,选择出有效的种子节点集合,使得信息通过在线社交网络中的友好关系和敌对关系得到最大化的传播。

Description

一种基于PageRank的社交大数据信息最大化方法
技术领域
本发明涉及一种信息最大化技术,特别涉及一种在既有友好关系又有敌对关系的社交网络信息最大化的方法。
背景技术
随着互联网的发展和移动终端的普及,在线社交网络得到飞速的发展与关注。社交网络信息最大化的研究具有很实际的现实意义,利用社交大数据中的友好关系与特征来进行口碑营销和“病毒式传播”越来越成为研究的重点,它在市场营销、广告发布等方面有十分重要的应用。现有的社交网络信息最大化技术主要是考虑了社交网络中的友好关系,而没有考虑到社交网络中也存在敌对的关系,比如Epinions和Slashdot社交网络中就有敌对关系。目前对社交网络信息最大化的研究以及相关的影响传播模型都是基于友好关系的,实际的应用中敌对的关系也可能对影响的传播产生比较大的影响。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于PageRank的社交大数据信息最大化方法,分别提取社交大数据中的友好关系和敌对关系,再分别利用PageRank进行计算,然后整合每个节点的结果计算影响力进行排序选择其中影响力最靠前K个节点作为种子节点来进行信息的传播。有的社交网络中不仅有友好关系,也有敌对关系,充分挖掘社交网络的特性对信息的最大化有很重要的意义。
本发明的目的通过以下的技术方案实现:一种基于PageRank社交大数据信息最大化方法,具体包括如下步骤:
S1、预处理:提取社交网络中的友好关系和敌对关系,并构成邻接矩阵;
S2、对步骤S1中的邻接矩阵中的友好关系和敌对关系分别用两个矩阵表示来,得到友好邻接矩阵和敌对邻接矩阵;
S3、对步骤S2中得到的友好关系和敌对关系邻接矩阵分别使用PageRank算法,计算得到相应的PR值;
S4、选出种子节点。
优选的,步骤S1中提取社交大数据中的友好关系和敌对关系:一般数据集中用户的签到数据是以文本方式给出,同时具有一些我们不需要的信息。首先进行预处理,根据所给出的社交网络数据集的信息,对所有用户之间的邻接关系进行处理,其中1代表两人之间的友好关系,-1代表两人之间的敌对关系,0代表两人之间没有联系来得到整个数据集的邻接矩阵。
优选的,步骤S2中,对步骤S1中的邻接矩阵分别提取里面的1和-1代表的友好关系和敌对关系代表的邻接矩阵,其中敌对邻接矩阵中的-1全部置为1。
优选的,步骤S3中PageRank算法:PageRank让链接来"投票",一个页面的“得票数”由所有链向它的页面的重要性来决定,到一个页面的超链接相当于对该页投一票;一个页面的PageRank是由所有链向“链入页面”的重要性经过递归算法得到的,一个有较多链入的页面会有较高的等级,相反如果一个页面没有任何链入页面,那么它没有等级,这里用它来计算一个用户节点的重要性。
优选的,步骤S3中利用PageRank算法,将每个节点的PR值初始设定为1,然后每个节点将自己的PR值平均贡献给自己的链出节点,计算每个节点从它的邻居节点获得的贡献值,不断地迭代得到节点的最终的PR值。好友邻接矩阵和敌对邻接矩阵得到的值分别表示为PR+和PR-,分别代表了节点在友好关系和敌对关系中的重要性。
优选的,步骤S4中,用节点在友好关系中的PR值与节点在敌对关系中的PR值之差表示节点的影响力,影响力=PR+-PR-;根据步骤S3得到的结果,对每个节点进行计算;然后对所有节点的影响力进行降序排序,选择排在前面的K个节点作为种子节点去进行信息的扩散。
优选的,社交网络在信息传播过程中敌对关系的影响,若两者之间是敌对关系,一个被激活后,对另一个会产生消极的影响。
优选的,PageRank算法来进行影响力的度量,借鉴了网页投票的思想。
优选的,利用PageRank分别在好友邻接矩阵和敌对邻接矩阵中进行了应用,利用二者的差来度量影响力。
优选的,在模拟社交网络中信息的传播模型是改进的经典的投票模型,使其适用于既有友好关系又有敌对关系的在线社交网络。
本发明相对于现有技术具有如下的优点及效果:
1、本发明实现了利用PageRank在社交网络中信息最大化的启发式方法,本方法主要是在研究社交网络信息最大化的时候考虑了社交大数据中的敌对关系,充分利用社交大数据中的可用信息,利用了特殊社交网络中的特点。
2、本发明在计算用户的影响力时选择了结合PageRank算法来度量,选择种子节点是一次性选择了所有的种子节点,属于启发式的算法,时间上比较有效率,同时考虑了敌对关系和友好关系,所选择的种子节点在信息的传播过程中的重要性也是不言而喻的。对于既有友好关系又有敌对关系的社交网络信息最大化。
3、本发明方法在选择种子节点的时间上以及种子节点质量上具有一定的优势。
附图说明
图1为本发明方法的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
图1描述的是本方法的流程图。此实施例的数据集是SNAP(Stanford NetworkAnalysis Platform)提供的既有友好关系又有敌对关系的社交网络数据集Epinions。
提取社交大数据中的友好关系和敌对关系:一般数据集中用户的签到数据是以文本方式给出,同时具有一些我们不需要的信息。首先进行预处理,根据所给出的社交网络数据集的信息,对所有用户之间的邻接关系进行处理,得到整个数据集的邻接矩阵,其中1代表两人之间的友好关系,-1代表两人之间的敌对关系,0代表两人之间没有联系。然后分别提取里面的1和-1代表的友好关系和敌对关系代表的邻接矩阵,其中敌对邻接矩阵中的-1全部置为1。
对得到的友好关系和敌对关系邻接矩阵分别使用PageRank算法:PageRank让链接来"投票",一个页面的“得票数”由所有链向它的页面的重要性来决定,到一个页面的超链接相当于对该页投一票。一个页面的PageRank是由所有链向它的页面(“链入页面”)的重要性经过递归算法得到的。一个有较多链入的页面会有较高的等级,相反如果一个页面没有任何链入页面,那么它没有等级。这里用它来计算一个用户节点的重要性,友好关系代表用户会积极的影响朋友,而敌对关系会消极的影响朋友,所以利用PageRank算法分别在两种邻接矩阵中进行计算。
选出种子节点:本方法利用用户在友好邻接矩阵和敌对邻接矩阵中的PR值得差来代表它的影响力。计算每个用户的影响力,然后按照降序排序,选择排在前面的K个节点作为种子节点。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于PageRank的社交大数据信息最大化方法,其特征在于,针对既有友好关系又有敌对关系的社交网络,考虑了敌对关系对信息传播的影响,结合PageRank算法分别得到友好关系和敌对关系的PR值,两者的差值来度量用户的影响力,选择出有效的种子节点集合,使得信息通过在线社交网络中的友好关系和敌对关系得到最大化的传播;具体步骤如下:
S1、预处理:提取社交网络中的友好关系和敌对关系,并构成邻接矩阵;
S2、对步骤S1中的邻接矩阵中的友好关系和敌对关系分别用两个矩阵表示来,得到友好邻接矩阵和敌对邻接矩阵;
S3、对步骤S2中得到的友好关系和敌对关系邻接矩阵分别使用PageRank算法,计算得到相应的PR值;
S4、选出种子节点。
2.根据权利要求1所述,一种基于PageRank的社交大数据信息最大化方法,其特征在于,步骤S1中,提取社交大数据中的友好关系和敌对关系,并构成邻接矩阵的具体方法为:首先进行预处理,根据所给出的社交网络数据集的信息,对所有用户之间的邻接关系进行处理,其中1代表两人之间的友好关系,-1代表两人之间的敌对关系,0代表两人之间没有联系来得到整个数据集的邻接矩阵。
3.根据权利要求1所述,一种基于PageRank的社交大数据信息最大化方法,其特征在于,步骤S2中,对步骤S1中的邻接矩阵分别提取里面的1和-1代表的友好关系和敌对关系代表的邻接矩阵,其中敌对邻接矩阵中的-1全部置为1。
4.根据权利要求1所述,一种基于PageRank的社交大数据信息最大化方法,其特征在于,步骤S3中PageRank算法:PageRank让链接来"投票",一个页面的“得票数”由所有链向它的页面的重要性来决定,到一个页面的超链接相当于对该页投一票;一个页面的PageRank是由所有链向“链入页面”的重要性经过递归算法得到的,一个有较多链入的页面会有较高的等级,相反如果一个页面没有任何链入页面,那么它没有等级,这里用它来计算一个用户节点的重要性。
5.根据权利要求1或4所述,一种基于PageRank的社交大数据信息最大化方法,其特征在于,步骤S3中利用PageRank算法,将每个节点的PR值初始设定为1,然后每个节点将自己的PR值平均贡献给自己的链出节点,计算每个节点从它的邻居节点获得的贡献值,不断地迭代得到节点的最终的PR值。好友邻接矩阵和敌对邻接矩阵得到的值分别表示为PR+和PR-,分别代表了节点在友好关系和敌对关系中的重要性。
6.根据权利要求1所述,一种基于PageRank的社交大数据信息最大化方法,其特征在于,步骤S4中,用节点在友好关系中的PR值与节点在敌对关系中的PR值之差表示节点的影响力,影响力=PR+-PR-;根据步骤S3得到的结果,对每个节点的影响力进行计算;然后对所有节点的影响力进行降序排序,选择排在前面的K个节点作为种子节点去进行信息的扩散。
7.根据权利要求1所述,一种基于PageRank的社交大数据信息最大化方法,其特征在于,考虑了社交网络在信息传播过程中敌对关系的影响,若两者之间是敌对关系,一个被激活后,对另一个会产生消极的影响。
8.根据权利要求1所述,一种基于PageRank的社交大数据信息最大化方法,其特征在于,PageRank算法来进行影响力的度量,借鉴了网页投票的思想。
9.根据权利要求6所述,一种基于PageRank的社交大数据信息最大化方法,其特征在于,利用PageRank分别在好友邻接矩阵和敌对邻接矩阵中进行了应用,利用二者的差来度量影响力。
10.根据权利要求1所述,一种基于PageRank的社交大数据信息最大化方法,其特征在于,在模拟社交网络中信息的传播模型是改进的经典的投票模型,使其适用于既有友好关系又有敌对关系的在线社交网络。
CN201710122722.8A 2017-03-03 2017-03-03 一种基于PageRank的社交大数据信息最大化方法 Pending CN107123055A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710122722.8A CN107123055A (zh) 2017-03-03 2017-03-03 一种基于PageRank的社交大数据信息最大化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710122722.8A CN107123055A (zh) 2017-03-03 2017-03-03 一种基于PageRank的社交大数据信息最大化方法

Publications (1)

Publication Number Publication Date
CN107123055A true CN107123055A (zh) 2017-09-01

Family

ID=59717385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710122722.8A Pending CN107123055A (zh) 2017-03-03 2017-03-03 一种基于PageRank的社交大数据信息最大化方法

Country Status (1)

Country Link
CN (1) CN107123055A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537569A (zh) * 2018-03-07 2018-09-14 西北大学 在线社交网络中人际关系感知的广告推送方法
CN109410078A (zh) * 2018-09-12 2019-03-01 河南理工大学 一种适用于面向文件共享的移动社交网络的信息传播预测方法
CN109741198A (zh) * 2018-11-28 2019-05-10 中国科学院计算技术研究所 网络信息传播影响力度量方法、系统及影响力最大化方法
CN110020087A (zh) * 2017-12-29 2019-07-16 中国科学院声学研究所 一种基于相似度估计的分布式PageRank加速方法
CN110728136A (zh) * 2019-10-14 2020-01-24 延安大学 一种融合多因素的textrank关键词提取算法
CN112508725A (zh) * 2020-12-04 2021-03-16 首都师范大学 一种基于社区结构的位置感知影响力最大化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799671A (zh) * 2012-07-17 2012-11-28 西安电子科技大学 基于PageRank算法的网络个性化推荐方法
CN105306540A (zh) * 2015-09-24 2016-02-03 华东师范大学 一种获得社交网络中影响力最大的前k个节点的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799671A (zh) * 2012-07-17 2012-11-28 西安电子科技大学 基于PageRank算法的网络个性化推荐方法
CN105306540A (zh) * 2015-09-24 2016-02-03 华东师范大学 一种获得社交网络中影响力最大的前k个节点的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHUBO CHEN 等: "Influence Maximization on Signed Social Networks with Integrated PageRank", 《2015 IEEE INTERNATIONAL CONFERENCE ON SMART CITY》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020087A (zh) * 2017-12-29 2019-07-16 中国科学院声学研究所 一种基于相似度估计的分布式PageRank加速方法
CN108537569A (zh) * 2018-03-07 2018-09-14 西北大学 在线社交网络中人际关系感知的广告推送方法
CN108537569B (zh) * 2018-03-07 2022-03-29 西北大学 在线社交网络中人际关系感知的广告推送方法
CN109410078A (zh) * 2018-09-12 2019-03-01 河南理工大学 一种适用于面向文件共享的移动社交网络的信息传播预测方法
CN109410078B (zh) * 2018-09-12 2021-09-28 河南理工大学 一种适用于面向文件共享的移动社交网络的信息传播预测方法
CN109741198A (zh) * 2018-11-28 2019-05-10 中国科学院计算技术研究所 网络信息传播影响力度量方法、系统及影响力最大化方法
CN110728136A (zh) * 2019-10-14 2020-01-24 延安大学 一种融合多因素的textrank关键词提取算法
CN112508725A (zh) * 2020-12-04 2021-03-16 首都师范大学 一种基于社区结构的位置感知影响力最大化方法
CN112508725B (zh) * 2020-12-04 2023-02-17 首都师范大学 一种基于社区结构的位置感知影响力最大化方法

Similar Documents

Publication Publication Date Title
CN107123055A (zh) 一种基于PageRank的社交大数据信息最大化方法
CN103678613B (zh) 一种计算影响力数据的方法与装置
CN107341270B (zh) 面向社交平台的用户情感影响力分析方法
CN103064917B (zh) 一种面向微博的特定倾向的高影响力用户群发现方法
Ackland et al. Online collective identity: The case of the environmental movement
CN110825948B (zh) 基于促谣-辟谣消息和表示学习的谣言传播控制方法
CN102929918B (zh) 虚假网络舆情识别方法
CN109598563A (zh) 刷单检测方法、装置、存储介质和电子设备
CN107123056B (zh) 一种基于位置的社交大数据信息最大化方法
CN103136267B (zh) 一种基于社区的专家挖掘方法与装置
CN106372072A (zh) 一种基于位置的移动社会网络用户关系的识别方法
CN106354845A (zh) 基于传播结构的微博谣言识别方法和系统
CN101986298A (zh) 用于在线论坛的信息实时推荐方法
CN105956184A (zh) 一种微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法
CN106126700A (zh) 一种微博谣言传播的分析方法
CN107451923A (zh) 一种基于转发网络层次分析的在线社交网络谣言预测方法
CN104035987B (zh) 一种微博网络用户影响力排名方法
CN107273396A (zh) 一种社交网络信息传播检测节点的选择方法
CN104156447A (zh) 一种智能社交平台广告预警及处理方法
CN109741198A (zh) 网络信息传播影响力度量方法、系统及影响力最大化方法
CN107908645A (zh) 一种基于渗流分析的在线社交平台谣言传播的免疫方法
CN109949174A (zh) 一种异构社交网络用户实体锚链接识别方法
CN108230169A (zh) 基于社交影响力的信息传播模型及态势感知系统及方法
CN108846043A (zh) 基于互联网大数据的网络痕迹挖掘分析方法及系统
CN110851684B (zh) 一种基于三元关联图的社交话题影响力识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170901