CN114693464A - 一种自适应的信息传播源头检测方法 - Google Patents

一种自适应的信息传播源头检测方法 Download PDF

Info

Publication number
CN114693464A
CN114693464A CN202210232464.XA CN202210232464A CN114693464A CN 114693464 A CN114693464 A CN 114693464A CN 202210232464 A CN202210232464 A CN 202210232464A CN 114693464 A CN114693464 A CN 114693464A
Authority
CN
China
Prior art keywords
user
node
information
users
propagation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210232464.XA
Other languages
English (en)
Other versions
CN114693464B (zh
Inventor
汪冉冉
张引
万文超
姜钰婕
沈倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210232464.XA priority Critical patent/CN114693464B/zh
Publication of CN114693464A publication Critical patent/CN114693464A/zh
Application granted granted Critical
Publication of CN114693464B publication Critical patent/CN114693464B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种自适应的信息传播源头检测方法,可应用于社交网络舆情控制。为解决社交网络中因信息种类、不实信息传播的模式、用户间的信息交换方式复杂多变,使得检测传播信息传播源头的任务格外困难的问题。本发明首先考虑到用户间朋友、转发、评论等多种信息交流方式构建了一个可学习的逻辑关系图以适应用户间复杂的关系。本发明还设计了一个可以耦合进深度学习模型进行参数学习的不实信息中心性度量方法以自适应的计算不实信息传播网络中各个节点的网络中心性。为了能够灵活处理社交网络中的噪音,本发明还提出了一个基于聚类的噪音消除机制。

Description

一种自适应的信息传播源头检测方法
技术领域
本发明属于社交网络领域,特别涉及一种自适应的信息传播源头检测方法。
背景技术
社交平台使用户可以更加自由地分享和传播内容,对用户有很强的吸引力。此外各种各样丰富多彩的图文视频等信息也使得人们在日常生活中愈加离不开社交媒体。基于庞大的用户数量,信息的曝光度和传播度也更高。作为信息传播平台,其高效、快速、广播的特性也为不实信息的产生和传播提供了条件,并且微博、推特等社交平台往往缺乏合格的审核机制来判断用户所发布信息的真实性。社交网络的便捷性意味着编造和传播不实信息的成本低、速度快,尤其在重大社会公共事件发生后,不实信息对公众心理和行为的影响不容小觑,别有用心者甚至可以通过编造、发布和传播虚假信息达到煽动情绪、制造混乱的目的,破坏绿色健康的网络舆论环境,严重影响了社会秩序。
在检测不实信息的源头任务中,研究不实信息的传播模式是非常重要的环节。目前在不实信息检测领域常用的传播模型可以分为传染病模型和影响模型两大类。在传染病模型中,节点有三种不同的状态,分别为感染者S、患病者I以及康复者R。根据节点的状态之间的转化过程,传染病模型可以分为以下四种:易感-感染SI、易感-感染-易感SIS、易感-感染-恢复SIR以及易感-感染-恢复-易感 SIRS。SI模型中节点只有S和I两种状态,易感节点以概率p被感染为感染节点;在SIS模型中,感染节点在一段时间后以概率q恢复为易感状态;在SIR模型中,感染节点以概率r转化为康复节点。传染病模型最早是用来描述病毒传播的模式,由于病毒和社交网络中的不实信息存在高度的一致性,传染病模型已经被广泛应用于描述不实信息在社交网络中的传播。
信息传播源头检测简而言之就是根据某个时间点社交网络中信息传播的状态逆向推理在信息传播的初始阶段是哪些用户散播了不实信息也就是“感染”节点。实际上在整个问题中,信息的传播模式是非常重要的一部分。因此,自从 D.Shah and T.Zaman.“Detecting sources of computer viruses in networks:Theory and experiment,”inProc.ACM SIGMETRICS,June 2010,pp.203–214.假定不实信息的传播模型为susceptible-infected(SI)model,并提出了一种基于不实信息中心性的检测信息传播源头的方法后,陆续出现了一系列基于传染病的研究。目前的不实信息传播源头检测方法主要有以下几个方面:
(1)单源头检测的方法:Choi J,Moon S,Shin J,et al.Estimating the rumorsource with anti-rumor in social networks[C]//IEEE International Conferenceon Network Protocols.IEEE,2016.提出一种基于SI模型的变体传播模型,在这种传播模型下利用MLE学习距离分布参数,然后通过MAPE检测不实信息传播源头。然而不实信息在社交网络中的传播往往是有单个或者多个源头的。
(2)多源头检测的方法:Zang W,Zhang P,Zhou C,et al.Discovering multiplediffusion source nodes in social networks[J].Procedia Computer Science,2014,29:443-452.使用社区集群算法将多源头定位问题转化为多个单源头定位问题,然后将具有最大似然估计的节点识别为受感染集群上的源节点,但这种方法仅针对于SIR模型。
但是目前的这些方法存在一些问题:
(1)现实社交网络中不实信息的传播模式未知,现实世界中的不实信息种类多种多样,其传播模式并不能提前预知,然而目前大多不实信息传播源头检测方法都需要提前指定底层传播模式。
(2)社交网络中用户之间的关系是错综复杂的,不实信息的传播途径多种多样。目前的信息传播源头检测方法主要通过假定不实信息是通过用户的朋友关系传播的,实际上不实信息在用户间的扩散途径不仅仅是简单的朋友关系,转发、评论都会造成不实信息的进一步扩散。
(3)通过网络中心性度量节点不实信息传播能力的方式虽然符合直觉,但是一方面很难预知应该选定哪种中心性度量方式,另一方面目前已有的中心性度量方法通常需要耗费巨大的算力,在规模巨大的现实社交网络中已有的中心性度量方法大多是不可取的。
(4)社交网络本身是复杂的,我们很难从众多的节点中挑选出可能是源头的那一批节点,现有的方法很少关注如何消除社交网络中与不实信息检测无关的噪音。
发明内容
本发明所要解决的技术问题是,提供一个不需要指定底层传播模型的,同时泛化能力更强的自适应信息传播源头检测方法。
现有的检测方法大多只能对已知底层传播模型的社交网络进行信息传播源头检测,但是在实际生活中,网络的结构往往是难以确定的;一些学者提出利用网络中心性去描述节点传播不实信息的可能性,然而在规模庞大的社交网络,使用中心性算法将会耗费巨大的算力;社交网络中往往充斥着各种各样的信息,其本身的嘈杂性会在一定程度上影响信息传播源头的检测,根据申请人的调研,目前大多数研究都忽略了这一点。
本发明为解决上述技术问题所采用的技术方案是,一种基于神经网络的自适应信息传播源头检测方法,包括步骤:
S1、获取用户间的逻辑关系W,再由真实用户节点V和用户间的逻辑关系W构成用户关系逻辑图G=(V,W);计算用户关系逻辑图G对应的拉普拉斯矩阵A;
根据用户群体中所有节点当前的感染状态S,并根据用户群体中所有节点当前的感染状态S表示出用户群体中所用户节点特征X;
S2将拉普拉斯矩阵A与用户群体中所用户节点特征X输入拓扑自适应图卷积网络TAGCN得到用户节点的高阶表示H;通过求内积的方式计算用户间当前信息传播事件的逆向传播概率P:P=H⊙H,⊙表示求内积运算;
S3、利用感知机获取用户群体中所用户节点中心性分数Cen,再对各节点中心性分数进行归一化处理得到归一化后的当前信息传播事件中各节点的中心性分数;
根据用户节点的高阶表示H对用户群体的用户进行聚类,计算各聚类的中心性分数
Figure RE-GDA0003629115130000031
计算,
Figure RE-GDA0003629115130000032
表示归一化后的当前信息传播事件中聚类集合c中第j节点的中心性分数;
S4、将中心性分数最高的两个聚类作为候选的信息传播源头类,其他的聚类作为与当前信息传播事件无关的用户群;候选的信息传播源头类中的节点组成与当前信息传播事件相关的集合Ru,当前信息传播事件无关的用户群组成集合Q;
S6、对于各个节点是否是信息传播源头的预测
Figure RE-GDA0003629115130000033
如下:
Figure RE-GDA0003629115130000041
其中,f(.)表示求softmax并找到第i个节点vi的是否是信息传播源头的分类结果;mask(.)表示遮掩模型对来自集合Q的节点预测的处理;Outputi为多层感知机MLP输出初步预测Output中第i个节点的初步预测,
Figure RE-GDA0003629115130000042
Figure RE-GDA0003629115130000043
MLP为多层感知机函数,Norm(.)表示标准化过程,
Figure RE-GDA0003629115130000044
为由表示当前信息传播事件的节点感染状态S再复制一维得到的矩阵。
S1、获取用户间的逻辑关系W,再由真实用户节点V和用户间的逻辑关系W构成用户关系逻辑图G=(V,W);计算用户关系逻辑图G对应的拉普拉斯矩阵A;
根据用户群体中所有节点当前的感染状态S,并根据用户群体中所有节点当前的感染状态S表示出用户群体中所用户节点特征X;
S2将拉普拉斯矩阵A与用户群体中所用户节点特征X输入拓扑自适应图卷积网络TAGCN得到用户节点的高阶表示H;通过求内积的方式计算用户间当前信息传播事件的逆向传播概率P:P=H⊙H,⊙表示求内积运算;
S3、利用感知机获取用户群体中所用户节点中心性分数Cen,再对各节点中心性分数进行归一化处理得到归一化后的当前信息传播事件中各节点的中心性分数;
根据用户节点的高阶表示H对用户群体的用户进行聚类,计算各聚类的中心性分数
Figure RE-GDA0003629115130000045
计算,
Figure RE-GDA0003629115130000046
表示归一化后的当前信息传播事件中聚类集合c中第j节点的中心性分数;
S4、将中心性分数最高的两个聚类作为候选的信息传播源头类,其他的聚类作为与当前信息传播事件无关的用户群;候选的信息传播源头类中的节点组成与当前信息传播事件相关的集合Ru,当前信息传播事件无关的用户群组成集合Q;
S6、对于各个节点是否是信息传播源头的预测
Figure RE-GDA0003629115130000047
如下:
Figure RE-GDA0003629115130000048
其中,f(.)表示求softmax并找到第i个节点vi的是否是信息传播源头的分类结果;mask(.)表示遮掩模型对来自集合Q的节点预测的处理;Outputi为多层感知机MLP输出初步预测Output中第i个节点的初步预测,
Figure RE-GDA0003629115130000049
Figure RE-GDA0003629115130000051
MLP为多层感知机函数,Norm(.)表示标准化过程,
Figure RE-GDA0003629115130000052
为由表示当前信息传播事件的节点感染状态S再复制一维得到的矩阵。
具体的,用户群体中所用户节点特征X由其静态社交属性Xs与其状态编码Xa拼接而成X=concat(Xs,Xa)。静态属性Xs包括用户的粉丝数、朋友数、推文数和被转发次数;群体中所有节点与当前信息事件对应的状态编码
Figure RE-GDA0003629115130000054
Xc 0表示节点收敛状态特征Xc中的第一个状态值;节点收敛状态特征Xc以及对应的收敛状态编码
Figure RE-GDA0003629115130000053
是根据用户群体中所有节点当前的感染状态S得到。
本发明提出一种无需指定底层传播模式的信息传播源头检测方法,利用用户之间的各种关系构建了一个能自适应信息事件、表征用户间信息传播关系逻辑关系图;并使用TAGCN模拟信息的逆向传播过程;然后提出了一个基于神经网络的中心性度量模块动态估计网络中各个部分的中心性;最后我们受利用社团检测估计信息传播源头的思想启发设计了一种可以消除与不实信息传播无关节点影响的模块实现信息传播源头的估计。
本发明的有益效果是:
1、本发明提出了一个不需要指定底层传播模型自适应的信息传播源头检测方法。据我们所知,目前已有的信息传播源头检测方法大部分都需要指定底层传播模型。
2.本发明通过构建一个动态的用户关系逻辑图来重构社交网络用户之间的消息传播关系,从而丰富用户间不实信息传播路径。
3.本发明提出了一种利用神经网络来估计社交网络的中心性的方法。据我们所知,目前我们是首个将社交网络的中心性度量耦合进深度学习模型中的。
4.本发明通过利用基于神经网络的聚类模块设计了一种消除社交网络中与信息传播源头检测无关噪音的新方法。
附图说明
图1为本发明实施例提供的场景示意图;
图2为本发明实施例提供的自适应信息传播源头检测算法框架。
具体实施方式
本发明应用的场景如图1所示。在微博、微信、QQ等社交平台中,用户通常能够自由的分享和传播各种信息,其高效、快速、广播的特性也为谣言这类不实信息的产生和传播提供了条件。为了创造一个良好、健康、可信的社交网络环境,实施例基于神经网络设计了一个自适应的信息传播源头检测方法以方便社交平台快速的定位到散布不实信息的源头用户。本发明的自适应体现在以下几个方面:
1.用户间信息传播关系:社交网络用户之间的关系多种多样,他们之间的信任程度、沟通方式都决定了不实信息是否在其中扩散。为了能够使模型自动适应这种复杂的关系,本发明构建了一个用户间的逻辑关系图。
2.不实信息中心性计算:以往的网络中心性计算方法如Degree、Closeness、Betweenness、Jordan、Eigenvector等等中心性,主要依靠衡量拓扑结构中节点的影响力来衡量节点的不实信息中心性,这些中心性的衡量通常与传播不实信息的节点本身的特性无关。为了找到网络中真实的与当前不实信息强相关的源头用户,本发明用神经网络结构来模拟社交网络节点的中心性估计过程,从而实现对传播不实信息的用户本身特性的适应。
3.社交网络中噪音处理:不同不实信息事件涉及到的用户群体是不同的,如何使模型自动的消除嘈杂的社交网络中与当前不实信息传播无关的用户,从而更快的定位散布不实信息的用户是本发明的自适应模型考虑的另一个方面。
4.信息传播源头数量:实际上,不实信息的源头数量很难提前确定。在以往的信息传播源头检测方法中,如何利用统一的模型来检测单源头和多源头模型一直是研究者探索的。本发明所提的自适应的信息传播源头检测并不受源头数目的限制。
如图2所示为实施例方法的框架,包括:用户关联关系获取与特征处理、节点表示学习、基于神经网络的中心性计算与信息传播源头检测的四个过程。下面将详细说明上述步骤:
1、用户关联关系获取与特征表示。
(1)在社交网络中,用户之间的关联关系是复杂多样的。在以往的信息传播源头检测研究中,主要利用了用户的朋友关系作为不实信息传播的基础。但是实际上,不实信息在用户中的传播并不仅仅依赖朋友关系。比如对陌生人所发推文的转发、评论也都有可能造成不实信息的进一步扩散。为此我们首先利用同一用户群体的评论关系矩阵
Figure RE-GDA0003629115130000061
转发关系矩阵
Figure RE-GDA0003629115130000062
朋友关系矩阵
Figure RE-GDA0003629115130000063
通过下列公式获取用户间的逻辑关系W:
W=σ(W1Com+W2Ret+W3Fri)
其中,W1,W2,
Figure RE-GDA0003629115130000071
是三种用户关系的权重系数,是模型可以学习的参数,|V|为该用户群体中的用户数,σ为非线性激活函数。最终由真实用户节点V和通过上述方法获取到的W构成用户关系逻辑图G=(V,W)。
(2)整合用户的静态属性如用户的粉丝数、朋友数、推文数、被转发次数将用户的这部分静态社交特征表示为
Figure RE-GDA0003629115130000072
其中d表示用户的特征维度。用户个人的粉丝数、朋友数、个人信息的完善情况可以反映其影响力、信誉度等等。而这些因素实际上与不实信息的散布密切相关。
(3)另外用户是否传播不实信息(是否成为infected node)是随时间变化的而且在不同的不实信息事件中用户的情况是不同的。为了让最终学习到的节点表示更接近不实信息传播的初始环境下的情况,本发明使用标签传播算法节点收敛的状态:
S*=(1-α)(I-αA)-1S
其中,S*表示网络的收敛状态,α∈(0,1)是控制邻居影响力的系数,S表示当前不实信息事件在某个时间点捕获的节点感染状态,Si=1表示节点传播不实信息即被感染,Si=0表示节点未传播不实信息,即未被感染,A表示用户关系逻辑图G对应的拉普拉斯矩阵,其计算方式如下:
A=D-1/2WD-1/2
上式实际上是对所获取的逻辑关系正则化的过程,其中D是W的度矩阵。
获取节点在当前时间下的收敛状态特征
Figure RE-GDA0003629115130000074
计算方式如下:
Figure RE-GDA0003629115130000075
其中Xc,i 0表示Xc中第i个节点vi对应的行中的第一个状态编码值,类似的Xc,i 1,Xc,i 2分别对应第二个、第三个。利用上式,我们可以获取对当前节点感染状态的三维编码。当前节点感染状态Si=1表示节点vi传播了不实信息,否则表示节点vi未不实信息。其中Xc的每列对应了当前采样到的snapshot 下对所有节点的不同编码。我们对Xc使用节点收敛公式可以获得各个用户节
点的收敛状态编码即:
Figure RE-GDA0003629115130000081
Figure RE-GDA0003629115130000082
Figure RE-GDA0003629115130000083
随后,我们将节点的收敛状态编码
Figure RE-GDA0003629115130000084
与节点在某个时间点上对网络状态的采样snapshot中的状态编码Xc 0进行拼接得到节点与当前不实信息事件对应的状态编码
Figure RE-GDA0003629115130000085
Xa能够使得模型能够适应用户在不同不实信息事件中的表现。
网络中所有节点的特征表示矩阵X最终由其静态社交属性Xs与其状态编码Xa拼接而成,即X=concat(Xs,Xa)。
2、图卷积神经网络GCN通过利用卷积核获取邻近节点的局部特征,但是其对卷积核进行切比雪夫多项式运算后取了近似值,为了避免近似过程中不能完整、充分的获取图信息,本发明通过向拓扑自适应图卷积网络TAGCN模型输入 A和X模拟出不实信息的逆向传播过程,TAGCN模型通过计算K个卷积核所提取的特征值来获取并输出网络中所有节点的高阶表示
Figure RE-GDA0003629115130000086
其中 hidden表示TAGCN输出的特征维数。
TAGCN是一种已有的定义在顶点域的新型图卷积网络,可以对图结构数据的非线性表示进行学习。TAGCN在图结构数据上提取特征,进行线性组合,得到X中分别位于第l和第l+1个隐藏层的输入经过f个卷积核后的关系:
Figure RE-GDA0003629115130000087
其中
Figure RE-GDA0003629115130000088
Figure RE-GDA0003629115130000089
表示第c个特征的所有顶点上的第l隐藏层的输入经f个卷积核后的关系逻辑,
Figure RE-GDA00036291151300000810
表示位于第c个特征的所有顶点上的第l隐藏层的输入经f个卷积核时第k个多项式系数,K为多项式总项数;Ak表示归一化邻接矩阵A的第k项,
Figure RE-GDA0003629115130000091
Cl为第l个隐藏层上图的每个顶点的输入特征图的特征数量,
Figure RE-GDA0003629115130000092
为X中第c个特征的所有顶点上的第l个隐藏层的输入数据,可由G的顶点索引得到。
Figure RE-GDA0003629115130000093
是第l个隐藏层第f个卷积核的可学习的偏置项,
Figure RE-GDA0003629115130000094
是一个Nl维的全1向量是偏置参数,σ(·)是一个ReLU激活函数。TAGCN每一层使用K个图卷积核分别提取不同尺寸的局部特征,能够充分完整地提取图信息的缺陷,进一步提高了模型的表达能力。
本发明通过TAGCN学习用户的高阶表示H从而获取节点之间的传播关系。
获取到节点的高阶表示H后,本发明通过求内积的方式计算各个用户间不实信息的逆向传播概率P:
P=H⊙H
其中⊙表示求内积运算,
Figure RE-GDA0003629115130000095
表示用户间不实信息传播概率。
3、以往的不实信息中心性算法并不能快速、准确的估计用户在不同不实信息传播事件中的中心性差别。为此本发明设计了一种参数可学习的中心性度量方法。具体的首先为了加快模型的收敛,我们先对表示学习的结果进行了标准化处理,然后利用一个感知机来获取节点的中心性。由于感知机能够表示复杂的函数功能,而且计算复杂度较低所以我们利用其来计算节点的中心性,具体过程如下:
Cen=Norm(H)·W4+b4
其中,感知机网络系数
Figure RE-GDA0003629115130000096
偏置项
Figure RE-GDA0003629115130000097
Norm(.)表示标准化的过程。最终获取到的
Figure RE-GDA0003629115130000098
由于获取节点中心性的目的是为了比较各个节点的不实信息传播能力,所以我们对所获取的中心性进行了下列 softmax计算:
Figure RE-GDA0003629115130000099
其中
Figure RE-GDA00036291151300000910
表示归一化后的当前不实信息传播事件中第i节点的中心性分数, Ceni表示第i个节点的中心性估计分数,Cenj表示用户群体V中第j个节点的中心性估计分数,j∈V。与以往只考虑网络拓扑结构的中心性计算方法相比,本发明的方法使用了上文对网络拓扑结构和节点特征的高阶嵌入,因此所计算的中心性更符合不实信息传播的实际情况。
4、社交网络中涵盖的信息十分庞大繁杂,如何消除其中的与不实信息无关的信息也就是Non-rumor是十分值得考虑的事情。本发明主要通过一个嵌入所提模型的聚类模块来实现。受信息传播源头检测领域社团检测模型的影响,我们认为如果我们能将信息传播源头锁定在某些特定的社团,这样一方面可以减小 Non-rumor社团的影响,另一方面可以减小我们检测源头的计算量。具体的,本发明使用了一个单层TAGCN实现这个聚类过程,聚类的总数量表示为cn,最终获取到所有节点的聚类结果Cluster,其每个值c∈{0,1,2,…,cn-1}。我们利用这个聚类结果以及上文所获取的节点中心性获取各个聚类的中心性分数:
Figure RE-GDA0003629115130000101
其中c表示第c个聚类集合,j表示聚类c中的一个节点。
5、利用步骤4获取的各个聚类的不实信息中心性对各个社团排序,并将分数最高的两个聚类作为候选的信息传播源头类,这两个聚类中的节点作为与不实信息相关的候选节点;其他的类作为与当前不实信息无关的用户群。将与不实信息相关的候选节点表示为集合Ru,其他的与不实信息无关的用户节点表示为集合 Q;
6、利用步骤5获取的不实信息无关用户集合遮掩最终对用户是否是源头的预测。具体的,在获取了节点表示以后我们通过一个多层感知机MLP输出节点是否是信息传播源头的预测:
Figure RE-GDA0003629115130000102
其中MLP(.)为两层感知机,Norm(.)表示标准化过程,P为不实信息的逆向传播概率,
Figure RE-GDA0003629115130000103
表示当前网络中不实信息的传播状态矩阵,为了之后的2分类处理由S复制一维得到,即
Figure RE-GDA0003629115130000104
表示在没有消除社交网络噪音社交网络噪音的情况下,模型对于各个节点是否是信息传播源头的预测。
7、最终模型对于各个节点i是否是信息传播源头的预测
Figure RE-GDA0003629115130000105
如下:
Figure RE-GDA0003629115130000106
其中,f(.)表示求softmax并找到当前节点vi具体属于哪一类。mask(.)表示遮掩模型对来自集合Q节点预测的处理,mask消除了视为社交网络噪音的无关用户。最终
Figure RE-GDA0003629115130000111
表示模型对于当前节点是否是信息传播源头的预测。
8、最终模型的损失计算采用交叉熵损失,并利用SGD学习模型中相关的参数。
9、利用在多个不实信息传播事件样本训练上述模型。
10、将该模型用于新的不实信息传播事件的源头检测。
通过上述实施例可以看出,为了帮助社交媒体进行有效的舆情控制,本发明针对信息传播源头检测这一非常有挑战性的任务设计了一个不需要指定底层传播模型、自适应的信息传播源头检测方法。为了从错综复杂的社交网络中获取有效的不实信息传播关系,本发明将用户之间的关联关系构建为参数可学习的逻辑图。然后,为了获取网络节点更符合节点本身传播特性的中心性,本发明提出了一种利用神经网络来灵活估计社交网络的中心性的方法。最后为了从嘈杂的社交网络中进行有效的学习,本发明基于神经网络设计了一种消除社交网络中与信息传播源头检测无关噪音的新方法。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (4)

1.一种自适应的信息传播源头检测方法,其特征在于,包括:
S1、获取用户间的逻辑关系W,再由真实用户节点V和用户间的逻辑关系W构成用户关系逻辑图G=(V,W);计算用户关系逻辑图G对应的拉普拉斯矩阵A;
根据用户群体中所有节点当前的感染状态S,并根据用户群体中所有节点当前的感染状态S表示出用户群体中所用户节点特征X;
S2将拉普拉斯矩阵A与用户群体中用户节点特征X输入拓扑自适应图卷积网络TAGCN得到用户节点的高阶表示H;通过求内积的方式计算用户间当前信息传播事件的逆向传播概率P:P=H⊙H,⊙表示求内积运算;
S3、利用感知机获取用户群体中所用户节点中心性分数Cen,再对各节点中心性分数进行归一化处理得到归一化后的当前信息传播事件中各节点的中心性分数;
根据用户节点的高阶表示H对用户群体的用户进行聚类,计算各聚类的中心性分数
Figure FDA0003536396550000011
计算,
Figure FDA0003536396550000012
友示归一化后的当前信息传播事件中聚类集合c中第j节点的中心性分数;
S4、将中心性分数最高的两个聚类作为候选的信息传播源头类,其他的聚类作为与当前信息传播事件无关的用户群;候选的信息传播源头类中的节点组成与当前信息传播事件相关的集合Ru,当前信息传播事件无关的用户群组成集合Q;
S6、对于各个节点是否是信息传播源头的预测
Figure FDA0003536396550000013
如下:
Figure FDA0003536396550000014
其中,f(.)表示求softmax并找到第i个节点vi的是否是信息传播源头的分类结果;mask(.)表示遮掩模型对来自集合Q的节点进行噪音消除的处理;Outputi为多层感知机MLP输出初步预测Output中第i个节点vi的初步预测,
Figure FDA0003536396550000015
MLP为多层感知机函数,Norm(.)表示标准化过程,
Figure FDA0003536396550000016
为由表示当前信息传播事件的节点感染状态S再复制一维得到的矩阵。
2.如权利要求1所述方法,其特征在于,步骤S1具体包括:
利用同一用户群体的评论关系矩阵、转发关系矩阵和朋友关系矩阵获取用户间的逻辑关系W,再由真实用户节点V和用户间的逻辑关系W构成用户关系逻辑图G=(V,W);
整合各用户的静态属性Xs;静态属性包括用户的粉丝数、朋友数、推文数和被转发次数;
计算用户关系逻辑图G对应的拉普拉斯矩阵A;
根据用户群体中所有节点当前的感染状态S得到节点收敛状态特征Xc以及对应的收敛状态编码
Figure FDA0003536396550000021
再得到群体中所有节点与当前信息事件对应的状态编码
Figure FDA0003536396550000022
Xc 0表示节点收敛状态特征Xc中的第一个状态值;所有用户节点特征X由其静态社交属性Xs与其状态编码Xa拼接而成X=concat(Xs,Xa)。
3.如权利要求1所述方法,其特征在于,利用同一用户群体的评论关系矩阵、转发关系矩阵和朋友关系矩阵获取用户间的逻辑关系W的具体方法为:
W=σ(W1Com+W2Ret+W3Fri)
其中,Com为评论关系矩阵,Ret为转发关系矩阵,Fri为朋友关系矩阵,W1,W2,W3是三种用户关系的权重系数,σ为非线性激活函数。
4.如权利要求1所述方法,其特征在于,利用感知机获取用户群体中所用户节点中心性分数Cen=Norm(H)·W4+b4,其中,W4为感知机网络系数,b4为感知机网络的偏置项。
CN202210232464.XA 2022-03-08 2022-03-08 一种自适应的信息传播源头检测方法 Active CN114693464B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210232464.XA CN114693464B (zh) 2022-03-08 2022-03-08 一种自适应的信息传播源头检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210232464.XA CN114693464B (zh) 2022-03-08 2022-03-08 一种自适应的信息传播源头检测方法

Publications (2)

Publication Number Publication Date
CN114693464A true CN114693464A (zh) 2022-07-01
CN114693464B CN114693464B (zh) 2023-04-07

Family

ID=82138687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210232464.XA Active CN114693464B (zh) 2022-03-08 2022-03-08 一种自适应的信息传播源头检测方法

Country Status (1)

Country Link
CN (1) CN114693464B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104092598A (zh) * 2014-07-03 2014-10-08 厦门欣欣信息有限公司 一种消息传播路径提取方法及其系统
CN105915399A (zh) * 2016-06-27 2016-08-31 华侨大学 一种基于反向传播的网络风险源头追溯方法
CN111222029A (zh) * 2020-01-16 2020-06-02 西安交通大学 一种网络舆情信息传播中关键节点选择方法
CN112395511A (zh) * 2020-11-04 2021-02-23 北京大学 一种基于移动应用内消息传播路径的谣言检测与存证系统
US11095601B1 (en) * 2020-07-08 2021-08-17 International Business Machines Corporation Connection tier structure defining for control of multi-tier propagation of social network content
CN113449853A (zh) * 2021-08-06 2021-09-28 南京邮电大学 一种图卷积神经网络模型及其训练方法
CN113469261A (zh) * 2021-07-12 2021-10-01 上海交通大学 基于感染图卷积网络的源识别方法及系统
CN113590976A (zh) * 2021-07-17 2021-11-02 郑州大学 一种空间自适应图卷积网络的推荐方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104092598A (zh) * 2014-07-03 2014-10-08 厦门欣欣信息有限公司 一种消息传播路径提取方法及其系统
CN105915399A (zh) * 2016-06-27 2016-08-31 华侨大学 一种基于反向传播的网络风险源头追溯方法
CN111222029A (zh) * 2020-01-16 2020-06-02 西安交通大学 一种网络舆情信息传播中关键节点选择方法
US11095601B1 (en) * 2020-07-08 2021-08-17 International Business Machines Corporation Connection tier structure defining for control of multi-tier propagation of social network content
CN112395511A (zh) * 2020-11-04 2021-02-23 北京大学 一种基于移动应用内消息传播路径的谣言检测与存证系统
CN113469261A (zh) * 2021-07-12 2021-10-01 上海交通大学 基于感染图卷积网络的源识别方法及系统
CN113590976A (zh) * 2021-07-17 2021-11-02 郑州大学 一种空间自适应图卷积网络的推荐方法
CN113449853A (zh) * 2021-08-06 2021-09-28 南京邮电大学 一种图卷积神经网络模型及其训练方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ANISH KHOBRAGADE 等: "Tracing Rumor Source in Large Scale Social Network Using Onion Model", 《2019 5TH INTERNATIONAL CONFERENCE ON COMPUTING COMMUNICATION CONTROL AND AUTOMATION》 *
MING DONG 等: "Multiple Rumor Source Dete ction with Graph Convolutional Networks", 《CIKM ’19》 *
NA BAI 等: "Rumour Detection Based on Graph Convolutional Neural Net", 《IEEE ACCESS》 *
李晨曦: "基于知识增强和双向图卷积网络的社交媒体谣言检测", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
杨秋帆: "基于表示学习的网络谣言传播分析与预测", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Also Published As

Publication number Publication date
CN114693464B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
Abdul Salam et al. COVID-19 detection using federated machine learning
Chandra et al. Graph-based modeling of online communities for fake news detection
CN110851491B (zh) 基于多重邻居节点的多重语义影响的网络链接预测方法
CN106651030A (zh) 一种改进的rbf神经网络热点话题用户参与行为预测方法
US11755602B2 (en) Correlating parallelized data from disparate data sources to aggregate graph data portions to predictively identify entity data
CN108229731B (zh) 一种热点话题下多消息互影响的用户行为预测系统及方法
CN112256981A (zh) 一种基于线性和非线性传播的谣言检测方法
Voznica et al. Deep learning from phylogenies to uncover the epidemiological dynamics of outbreaks
CN113177626B (zh) 数据驱动的复杂系统机理自动学习方法、系统及设备
CN112417314A (zh) 一种社交网络自杀意念检测方法及系统
Liu et al. Information propagation prediction based on spatial–temporal attention and heterogeneous graph convolutional networks
CN112667920A (zh) 基于文本感知的社交影响力预测方法、装置及设备
CN116340793A (zh) 一种数据处理方法、装置、设备以及可读存储介质
Kong et al. Multi-feature representation based COVID-19 risk stage evaluation with transfer learning
CN114693464B (zh) 一种自适应的信息传播源头检测方法
CN113128667A (zh) 一种跨域自适应的图卷积平衡迁移学习方法与系统
CN113850446B (zh) 融合时空注意力和异构图卷积网络的信息扩散预测方法
CN113191144B (zh) 一种基于传播影响力的网络谣言识别系统及方法
Bharambe et al. Techniques and approaches for disease outbreak prediction: A survey
Wang et al. Multiscale information diffusion prediction with minimal substitution neural network
CN114169433A (zh) 一种基于联邦学习+图学习+cnn的工业故障预测方法
Gupta et al. Predicting and monitoring COVID-19 epidemic trends in India using sequence-to-sequence model and an adaptive SEIR model
Zhang et al. The Establishment and Optimization of Public Emotion Network Communication Model using Deep Learning
Chuang et al. Reconstructing networks via discrete state dynamical data: A mini-review
Gupta et al. A deep-SIQRV epidemic model for COVID-19 to access the impact of prevention and control measures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant