CN104504637A - 基于行为时间序列的社交网络因果关系发现算法 - Google Patents

基于行为时间序列的社交网络因果关系发现算法 Download PDF

Info

Publication number
CN104504637A
CN104504637A CN201410795360.5A CN201410795360A CN104504637A CN 104504637 A CN104504637 A CN 104504637A CN 201410795360 A CN201410795360 A CN 201410795360A CN 104504637 A CN104504637 A CN 104504637A
Authority
CN
China
Prior art keywords
cause
causation
effect relationship
causal
effect
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410795360.5A
Other languages
English (en)
Inventor
蔡瑞初
袁畅
郝志峰
谢伟浩
谢蔚涛
温雯
王丽娟
洪英汉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201410795360.5A priority Critical patent/CN104504637A/zh
Publication of CN104504637A publication Critical patent/CN104504637A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公布了基于行为时间序列的社交网络因果关系发现算法。该算法包括构建全局因果关系图、确定因果影响滞后期、优化因果关系图结构这三个阶段。在构建全局因果关系图阶段,基于行为时间序列数据发现行为时间序列变量间的因果关系,构建全局因果关系图;在确定因果影响的滞后期阶段,基于最小描述长度准则确定存在因果关系的行为时间序列变量间间的影响滞后期,更新全局因果关系图对应边的权值;在优化因果关系图结构阶段,基于全局因果图检查全局因果关系图中所有边及其滞后期,剔除冗余的因果关系以及缩短因果影响中冗余的滞后期,最终实现行为时间序列数据上的可靠因果关系发现。

Description

基于行为时间序列的社交网络因果关系发现算法
技术领域
本发明涉及数据挖掘领域,主要涉及一种基于行为时间序列的社交网络因果关系发现的算法。
背景技术
社交网络作为一个重要的信息发布和分享平台,在我们的生活中的地位和作用日益重要,截至2014年6月,中国社交网站用户规模为2.57亿。目前社交网络已成为涉及社会学、心理学、新闻传播学等多领域的研究热点,越来越多的研究揭示了社交网络在公众舆论、社会动员、公民民主、危机传播,市场营销,信息传播,人才招聘、推荐系统、链路预测、病毒式营销、公共健康、专家发现、突发事件检测、广告投放、用户社会影响力分析、用户交互行为预测等方面的作用的重大。
近几年来,国内外学者们研究重点主要集中在研究用户影响力,因为高影响力用户在社交网络上起到主导性作用。Page等人[1]在1999年提出了基于网页链接关系计算网页重要度的计算方法PageRank,该方法基于马尔科夫随机游走的思想通过迭代计算节点间影响力的传播来计算网页的排名,后来被研究者推广到社交网络上。在PageRank算法的基础上,Tunkelang等人[2]在2009年提出了TunkRank算法进行用户影响力度量,该方法根据粉丝的影响力作为个体影响力衡量的主要因素,随后Weng等人[3]在2010年提出了TwitterRank,该算法也是在PageRank算法上进行拓展,基于用户间主题相似性及用户声明的好友关系网络,通过用户所发布的微博数量及其粉丝接受信息的多少来决定衡量用户的影响力。Cha等人[4]在2010年提出的方法是基于用户声明的好友关系网络并通过入度,转发和提及三个因素来分析Twitter上用户的影响力。
对于上述所提到的社交网络中用户影响力的度量方法,它们之间有一个共同点:都是基于用户已经声明的好友关系网络。然而事实证明用户显式声明的好友关系并不一定真实的存在相互的影响关系,G.Ver Steeg等人[5]在2012年提出的用information transfer度量用户影响力的方法证明了这一说法。G.Ver Steeg提出的方法虽能发现用户间潜在的因果关系网络,但是其找到的因果关系网络并不是一个最优的因果关系网络。根据Nicholas等人[6]提出的“三度影响力原则”可知,影响力在社会网络上的传播遵循一定的规律,我们所做或所说的任何事情,都会在网络上会受三度以内朋友的影响。结合因果马尔可夫假设可知,给定一个节点的直接原因,该节点条件独立于所有那些不是它的直接或间接结果的节点,因此在给定用户“一度”朋友的情况下,他与他的“二度朋友”,“三度朋友”条件独立。所以G.Ver Steeg的方法只考虑任意两个用户间是否存在因果关系,无法进一步区分直接因果关系与间接因果关系,其构造出来的因果关系图将包含大量的冗余边。
另外,基于行为时间序列的分析用户影响力的方法都只考虑了前一个时刻产生的影响,然而根据Granger因果关系[7]的基本观念,两个相互之间存在影响的对象在时间上有先导滞后的关系。要得出“A是B的原因”这样的结论,必须全面考虑宇宙中所有的事件,否则往往就会发生误解。因此如果我们要探讨用户A是否对用户B在T时刻产生的行为有因果影响,那么需考虑用户A发生在T时刻之前的所有行为,判断其是否对用户B在T时刻的行为有显著的影响。不过这样将导致模型的空间复杂度和时间复杂度大大增加,我们知道,随着时间的推移,用户过去历史行为对于现在的行为影响力会随时间衰减,影响力存在一个滞后期,过长的滞后长度会使得我们的模型复杂度增加,相反,过短的复杂度会导致我们模型的拟合度下降,根据Ri ssanen[8]在1978年提出的最小描述准则,我们可在重构目标因果网络结构的拓扑简单性与对实际的因果影响拟合度之间的做一个权衡,使得我们可以在时间复杂度和空间复杂度较小的情况下构建出用户间潜在的因果关系网络。
文献列表
[1]Page L,Brin S,Motwani R,et al.The PageRank citation ranking:Bringing order to the web[J].1999.
[2]Tunkelang,D.:A Twitter Analog to PageRank,
http://thenoisychannel.com/2009/01/13/a-twitter-analog-to-pagerank/
[3]Weng J,Lim E P,Jiang J,et al.Twitterrank:finding topic-sensitive influential twitterers[C]//Proceedingsof the third ACM international conference on Web search and data mining.ACM,2010:261-270.
[4]Cha M,Haddadi H,Benevenuto F,et al.Measuring User Influence in Twitter:The Million Follower Fal-lacy[J].ICWSM,2010,10:10-17.
[5]Ver Steeg G,Galstyan A.Information transfer in social media[C]//Proceedings of the 21st internationalconference on World Wide Web.ACM,2012:509-518.
[6]Walker S K.Connected:The Surprising Power of Our Social Networks and How They Shape Our Lives[J].Journal of Family Theory&Review,2011,3(3):220-224.
[7]Granger,C.W.J.Investigating causal relations by econometric models and crossspectral methods.Eco-nometrica.1969,(37):424-438.
[8]Rissanen J.Modeling by shortest data description[J].Automatica,1978,14(5):465-471.
发明内容
为了解决因果关系模型构建上存在冗余边以及基于行为时间序列的数据上未考虑影响产生滞后期的问题,本发明建立了一个从局部到整体有效结合的自底向上构建的可行框架。在该框架通过局部结构推导出全局结构,又从全局结构反向优化局部结构,使得本算法具有较好的因果关系识别表达能力,同时充分考虑行为时间序列上影响产生的滞后期问题,使得因果关系分析更准确。此外本发明还结合最小描述长度准则,在模型复杂度与拟合度之间做取舍,使得模型可应用于大规模的社交数据。
该算法包括构建全局因果关系图、确定因果影响滞后期、优化因果关系图结构这三个阶段。在构建全局因果关系图阶段,基于行为时间序列数据发现行为时间序列变量间的因果关系,构建全局因果关系图;在确定因果影响的滞后期阶段,基于最小描述长度准则确定存在因果关系的行为时间序列变量间间的影响滞后期,更新全局因果关系图对应边的权值;在优化因果关系图结构阶段,基于全局因果图检查全局因果关系图中所有边及其滞后期,剔除冗余的因果关系以及缩短因果影响中冗余的滞后期,最终实现行为时间序列数据上的可靠因果关系发现。
一些成熟的行为时间序列因果学习方法在行为时间序列数据的因果关系推断上有较好的表现,第一部分的构建全局因果关系图学习中应用了这种因果学习方法。第二部分根据最小描述长度准则在模型复杂度与拟合度做取舍,基于第一部分学习得到的全局因果图遍历搜索图中的有向边,进一步的发现影响产生的滞后期。第三部分优化因果关系图结构,基于第二部分学习到的带权重的全局因果图检查图中所有边及其滞后期,剔除冗余的因果关系以及缩短因果影响中冗余的滞后期,最终实现行为时间序列数据上的可靠因果关系发现。
附图说明
图1为本发明的算法架构图。
具体实施方案
相应于上述算法的三个阶段,本发明由三个模块顺序组成。第一模块“构建全局因果关系图”:设计和构建非冗余全局因果关系图结构模型。第二模块“确定因果影响滞后期”:设计和分析行为时间序列变量间影响滞后期的最大范围的算法。第三部分“优化因果关系图结构”:基于全局因果图检查图中所有边及其滞后期,剔除因果结构中冗余边以及缩短因果影响中冗余的滞后期。三个层面的工作相互交替,迭代进行,不断完善。这三个模块的具体功能和实施步骤详述如下。
1.构建全局因果关系图
输入:样本集合D,变量集合V,阈值α,当前时刻t,时间长度tmax,最长滞后期lagmax,原因候选节点集S。
输出:全局因果关系图(其中Gij=1表示存在vj→vi)。
1)初始化全局因果关系图G的每个元素为0
2)对V中每个变量vi初始化原因候选节点集S为
3)计算vi从时刻t到tmax-lagmax-1时刻的状态与其他变量vj从t-1时刻到tmax-lagmax时刻的状态,给定原因候选节点集S的情况的因果传递熵
4)在第3)基础上,采用洗牌算法对vj从t-1时刻到tmax-lagmax时刻的状态进行重排序,计算洗牌后的循环100次,得到一个关于C7的分布。
5)在第4)基础上,根据阈值α以及C7的分布求出C的置信区间,若则G(i, j)=1,并将vjt-1加到原因候选节点集S中,否则进行下一步。
6)对vi迭代完成第3)步到第5)步,得到变量vi与其他节点的局部的因果关系。
7)对V中所有变量迭代完成第2)步到第5)步,得到全局因果关系图G。
2.确定因果影响滞后期
输入:样本集合D,变量集合V,全局因果关系图G,阈值α,当前时刻t,时间长度tmax,最长滞后期lagmax,原因候选节点集S。
输出:带权全局因果关系图G。
1)对V中每个变量vi初始化原因集Pi,Pi={Vj|Gij≠0}。
2)对Pi中每个变量vj初始化时延lag为2
3)计算vi从时刻t到tmax-lagmax-1时刻的状态与原因集Pi中的变量vj从t-lag时刻到tmax-lagmax-lag时刻的状态,给定原因候选节点集Si的情况的因果传递熵
4)在第3)基础上,采用洗牌算法对vj从t-lag时刻到tmax-lagmax-lag时刻的状态进行重排序,计算洗牌后的循环100次,得到一个关于C7的分布。
5)在第4)基础上,根据阈值α以及C7的分布求出C的置信区间,若则G《i, j》=lag,并将vjt-lag加到原因候选节点集Si中,否则跳到第2)步。
6)时延lag增加1,若lag>lagmax,跳到第2)步,否则继续迭代完成第3)步到第6)步
7)对V中所有变量迭代完成第1)步到第6)步,得到带权全局因果关系图G。
3.优化因果关系图结构
输入:样本集合D,变量集合V,带权全局因果关系图G,阈值α,当前时刻t,时间长度tmax,最长滞后期lagmax,原因候选节点集S。
输出:最优全局因果关系图G。
1)对V中每个变量vi初始化原因集Pi,Pi={Vj|Gij≠0}。
2)对Pi中每个变量vj构建原因集Sij,Sij={vjt-1,…,vjt-lag|lag=Gij}。
3)计算vit与原因集Pi中的变量vj,给定其他原因候选节点集S的情况的因果传递熵
4)在第3)基础上,采用洗牌算法对Sij的状态进行重排序,计算洗牌后的C7=Sij→vi|(S-Sij),循环100次,得到一个关于C7的分布。
5)在第4)基础上,根据阈值α以及C7的分布求出C的置信区间,若则G《i, j》=lag,并将vjt-lag加到原因候选节点集Si中,否则G《i,j》=0,从S中移除Sij,从Pi中移除vj,跳到第3)步。
6)lag=Gij,计算Sij中的vjt-lag与vit,给定其他原因候选节点集S的情况的因果传递熵 C v jt - lag → v i = v jt - lag → v i | ( S - v jt - lag )
7)在第6)基础上,采用洗牌算法对Sij中的vjt-lag的状态进行重排序,计算洗牌后的C7=vjt-lag→vi|(S-vjt-lag),循环100次,得到一个关于C7的分布。
8)在第7)基础上,根据阈值α以及C7的分布求出C的置信区间,若跳到第3)步,否则G《i,j》=G《i,j》-1,从Sij中移除vjt-lag,若Sij为空,从S中移除Sij,从P中移除vj,跳到第3)步,否则跳到第6)步。
9)对V中所有变量迭代完成第1)步到第8)步,得到最优的带权值的全局因果关系图G。

Claims (6)

1.一种基于行为时间序列的社交网络因果关系发现算法,其包括:构建全局因果关系图,基于行为时间序列数据发现行为时间序列变量间的因果关系,构建全局因果关系图;确定因果影响滞后期,基于最小描述长度准则确定因果关系影响产生的滞后期,更新全局因果关系图中对应的边权值;优化因果关系图结构,基于全局因果图检查全局因果关系图中所有边及其滞后期,剔除冗余的因果关系以及缩短因果影响中冗余的滞后期,最终实现行为时间序列数据上的可靠因果关系发现。
2.如权利要求1所述的基于行为时间序列的社交网络因果关系发现算法,其特征在于基于行为时间序列数据的“构建全局因果关系图-确定因果影响的滞后期-优化因果网络图结构”三阶段因果关系发现方法。
3.如权利要求1所述的构建全局因果关系图算法,其特征在于对行为时间序列问题上的因果关系发现,其因果关系判断标准描述为:
其中为行为时间序列变量间Q和P在给定行为时间序列变量间集情况下的因果关系强度,t表示当前时刻,t-1表示当前时刻的前一个时刻。
4.如权利要求1所述的确定因果影响滞后期算法,其特征在于基于最小描述长度准则遍历全局因果关系图中的所有边,确定影响力产生滞后期。
5.如权利要求4所述的满足最小描述长度准则权衡模型复杂度与拟合度,其特征在于结合random shuffle算法和区间估计判断某一时刻状态是否对当前时刻具备显著影响性。
6.如权利要求1所述的优化因果网络图结构,其特征在于通过检查全局因果关系图中所有边及其滞后期,剔除冗余的因果关系以及缩短因果影响中冗余的滞后期。
CN201410795360.5A 2014-12-11 2014-12-11 基于行为时间序列的社交网络因果关系发现算法 Pending CN104504637A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410795360.5A CN104504637A (zh) 2014-12-11 2014-12-11 基于行为时间序列的社交网络因果关系发现算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410795360.5A CN104504637A (zh) 2014-12-11 2014-12-11 基于行为时间序列的社交网络因果关系发现算法

Publications (1)

Publication Number Publication Date
CN104504637A true CN104504637A (zh) 2015-04-08

Family

ID=52946031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410795360.5A Pending CN104504637A (zh) 2014-12-11 2014-12-11 基于行为时间序列的社交网络因果关系发现算法

Country Status (1)

Country Link
CN (1) CN104504637A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650189A (zh) * 2015-10-30 2017-05-10 日本电气株式会社 一种用于因果关系挖掘的方法和设备
CN108171142A (zh) * 2017-12-26 2018-06-15 中南大学 一种确定复杂工业过程中关键变量因果关系的方法
CN109271488A (zh) * 2018-10-08 2019-01-25 广东工业大学 一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统
CN111445674A (zh) * 2020-04-08 2020-07-24 浙江浙能技术研究院有限公司 一种面向百万千瓦超超临界机组制粉系统报警管理的因果网络构建方法
CN113420917A (zh) * 2021-06-18 2021-09-21 广东工业大学 对业务系统未来故障预测的方法、计算机设备及存储介质
CN113779237A (zh) * 2020-06-09 2021-12-10 奇安信科技集团股份有限公司 构建社交行为序列图的方法、系统、移动终端及可读存储介质
CN113822188A (zh) * 2021-09-13 2021-12-21 合肥工业大学 一种时间因果诱导的斗殴行为的识别方法
CN115184993A (zh) * 2022-09-14 2022-10-14 煤炭科学研究总院有限公司 基于多层主动传递熵的微震数据的分析与判识方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650189A (zh) * 2015-10-30 2017-05-10 日本电气株式会社 一种用于因果关系挖掘的方法和设备
CN108171142A (zh) * 2017-12-26 2018-06-15 中南大学 一种确定复杂工业过程中关键变量因果关系的方法
CN109271488A (zh) * 2018-10-08 2019-01-25 广东工业大学 一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统
CN109271488B (zh) * 2018-10-08 2021-08-27 广东工业大学 一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统
CN111445674A (zh) * 2020-04-08 2020-07-24 浙江浙能技术研究院有限公司 一种面向百万千瓦超超临界机组制粉系统报警管理的因果网络构建方法
CN111445674B (zh) * 2020-04-08 2021-09-14 浙江浙能技术研究院有限公司 一种面向百万千瓦超超临界机组制粉系统报警管理的因果网络构建方法
CN113779237B (zh) * 2020-06-09 2023-12-26 奇安信科技集团股份有限公司 构建社交行为序列图的方法、系统、移动终端及可读存储介质
CN113779237A (zh) * 2020-06-09 2021-12-10 奇安信科技集团股份有限公司 构建社交行为序列图的方法、系统、移动终端及可读存储介质
CN113420917A (zh) * 2021-06-18 2021-09-21 广东工业大学 对业务系统未来故障预测的方法、计算机设备及存储介质
CN113420917B (zh) * 2021-06-18 2023-10-27 广东工业大学 对业务系统未来故障预测的方法、计算机设备及存储介质
CN113822188A (zh) * 2021-09-13 2021-12-21 合肥工业大学 一种时间因果诱导的斗殴行为的识别方法
CN113822188B (zh) * 2021-09-13 2024-06-11 合肥工业大学 一种时间因果诱导的斗殴行为的识别方法
CN115184993A (zh) * 2022-09-14 2022-10-14 煤炭科学研究总院有限公司 基于多层主动传递熵的微震数据的分析与判识方法

Similar Documents

Publication Publication Date Title
CN104504637A (zh) 基于行为时间序列的社交网络因果关系发现算法
CN111368074B (zh) 一种基于网络结构和文本信息的链路预测方法
Jiang et al. Two-stage structural damage detection using fuzzy neural networks and data fusion techniques
Zhang et al. A Traffic Prediction Method of Bicycle-sharing based on Long and Short term Memory Network.
CN113783874A (zh) 基于安全知识图谱的网络安全态势评估方法及系统
CN105760649A (zh) 一种面向大数据的可信度量方法
CN115577294B (zh) 一种基于兴趣点空间分布和语义信息的城市区域分类方法
CN115221396A (zh) 基于人工智能的信息推荐方法、装置及电子设备
CN114896519A (zh) 一种基于立场特征的早期谣言检测方法与装置
Feng et al. Modeling multi-targets sentiment classification via graph convolutional networks and auxiliary relation
Segev Context ontology for humanitarian assistance in crisis response
CN103530421A (zh) 基于微博的事件相似性度量方法及系统
Roy et al. Air quality index forecasting using hybrid neural network model with LSTM on AQI sequences
CN115409122A (zh) 一种变电设备并发故障分析方法、系统、设备及介质
Hao et al. Multi-stage dynamic disinformation detection with graph entropy guidance
Mengüç et al. Feature selection by machine learning models to identify the public’s changing priorities during the COVID-19 pandemic
Chen Fault diagnosis of high power grid wind turbine based on particle swarm optimization BP neural network during COVID-19 epidemic period
CN113761337A (zh) 基于事件隐式要素与显式联系的事件预测方法和装置
Ye et al. Semantic similarity calculation method in ontology mapping
Xu et al. Importance analysis of system related fault based on improved decision-making trial and evaluation laboratory
Ebrahimian-Ghajari et al. Modeling of seismic vulnerability of urban buildings in geographic information system environment: A case study in Babol, Iran
CN104504207A (zh) 基于主体的景区游客行为仿真建模方法
CN115759350B (zh) 一种数据稀疏区域的人口流动预测方法及装置
CN116485501B (zh) 一种基于图嵌入与注意力机制的图神经网络会话推荐方法
CN117133116B (zh) 一种基于时空关联网络的交通流预测方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150408