CN112035669A - 基于传播异质图建模的社交媒体多模态谣言检测方法 - Google Patents

基于传播异质图建模的社交媒体多模态谣言检测方法 Download PDF

Info

Publication number
CN112035669A
CN112035669A CN202010940942.3A CN202010940942A CN112035669A CN 112035669 A CN112035669 A CN 112035669A CN 202010940942 A CN202010940942 A CN 202010940942A CN 112035669 A CN112035669 A CN 112035669A
Authority
CN
China
Prior art keywords
information
nodes
node
text
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010940942.3A
Other languages
English (en)
Other versions
CN112035669B (zh
Inventor
毛震东
张勇东
陈鑫
王鹏辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202010940942.3A priority Critical patent/CN112035669B/zh
Publication of CN112035669A publication Critical patent/CN112035669A/zh
Application granted granted Critical
Publication of CN112035669B publication Critical patent/CN112035669B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Abstract

本发明公开了一种基于传播异质图建模的社交媒体多模态谣言检测方法,在特征提取阶段,采用预训练模型提取文本和图像信息以及基于深度学习的图卷积神经网络模型抓取社交媒体的结构信息,该方法能够针对社交媒体的传播特性允许信息通过构造的图网络进行传播,从而获取到更丰富的信息,并且该方法可以充分利用有限的标记数据和大量未标记的数据,减少人工标记的资源浪费。在谣言检测阶段,利用网络结构信息和多模态信息融合后的特征,使用softmax分类器进行谣言检测。通过本专利提出的方法,可以自动快速准确的实现谣言检测,从而减少虚假信息、不实言论的传播及其造成的恶劣影响。

Description

基于传播异质图建模的社交媒体多模态谣言检测方法
技术领域
本发明涉及网络空间安全技术领域,尤其涉及一种基于传播异质图建模的社交媒体多模态谣言检测方法。
背景技术
随着社会的发展,传统社交媒体成为用户分享信息的重要来源,社交媒体在信息传播方面有着不可忽视的影响力。但是随之而来的是各种虚假信息的病毒式传播,谣言消息的泛滥引发公众恐慌,扰乱社会秩序,影响社会舆论,操控大众焦点,成为社会极大的不稳定因素。因此,提出一个行之有效的自动检测虚假谣言信息的方法,对于维持社会生活稳定和网络空间安全具有重要的意义。
为了抑制社交媒体谣言信息泛滥的问题,学术界提出了基于手工特征和机器学习的识别技术。基于手工特征的识别技术一般由专业人员判断同时需要用户参与,由于消息的正确性完全由人工判断,所以非常依赖鉴定者的能力和知识,而且谣言检测周期长等弊端非常明显,所以这种方法随着信息传播爆炸式增速,谣言规模指数式增长,逐渐的不能满足检测需求。随着人工智能技术的发展,基于机器学习的识别技术被提出。这种技术弥补了人工识别方法的缺点,提高识别的正确性,减轻人工审核造成的人力资源浪费。这类方法首先运用特征工程抽取信息特征,针对不同的谣言检测对象分析更适合的特征,或者从不同角度发现更具有代表性的特征,之后再构建分类器将事件分类为谣言和非谣言。但是这类方法依然存在缺陷,需要在特征的创建过程中引入相关专业领域知识,并且抽取过程复杂,实现成本较高。
另外,谣言的传播过程具有一定的社交网络特性,比如群体性、相似性等,目前存在的大部分方法都是从谣言数据本身的内容出发,并没有充分考虑到社交网络的拓扑结构特性以及信息传播特性。同时基于内容进行的谣言检测方法大多数仅仅通过文本内容判断社交媒体信息是否属于谣言信息,社交媒体中图片现在已经成为表达态度、传递信息的又一重要载体,此外,用户相关的社交媒体平台的信息(如点赞数,转发数等)也对判断谣言提供重要依据。但是,目前的检测方案都没有考虑这些因素,因此,检测准确度有待提升。
发明内容
本发明的目的是提供一种基于传播异质图建模的社交媒体多模态谣言检测方法,可以自动快速准确的实现谣言检测,从而减少虚假信息、不实言论的传播及其造成的恶劣影响。
本发明的目的是通过以下技术方案实现的:
一种基于传播异质图建模的社交媒体多模态谣言检测方法,包括:
获取包含文本、图像以及社交信息的待检测事件;
基于预训练模型进行从文本与图像中各自提取文本特征与图像特征,并对社交信息进行特征编码,获得社交信息特征;
基于文本特征、图像特征以及社交信息特征构建社交媒体异质信息网络图结构,通过节点级别的注意力机制来捕获不同的节点邻居的重要性,通过信息聚合,实现将不同类型节点的信息通过注意力分数聚合到一起,实现特征的融合;
将融合的特征输入至分类器,获得检测结果。
由上述本发明提供的技术方案可以看出,充分挖掘社交网络上内容丰富的文本信息和图像信息,结合基于社交网络平台的社交信息,利用多模态的信息实现社交网络谣言检测。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于传播异质图建模的社交媒体多模态谣言检测方法的网络模型示意图;
图2为本发明实施例提供的社交媒体异质信息网络图的结构示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种基于传播异质图建模的社交媒体多模态谣言检测方法,图1示出了实现该方法的网络模型及主要检测流程。该方法通过构建异质信息网络,利用图注意力网络进行信息传播和结构信息学习,在充分挖掘社交媒体结构信息之外,还结合了社交媒体上内容丰富的文本信息和图像信息,利用多模态的信息实现社交媒体谣言检测。在特征提取阶段,采用预训练模型提取文本和图像信息以及基于深度学习的图卷积神经网络模型抓取社交媒体的结构信息,该方法能够针对社交媒体的传播特性允许信息通过构造的图网络进行传播,从而获取到更丰富的信息,并且该方法可以充分利用有限的标记数据和大量未标记的数据,减少人工标记的资源浪费。在谣言检测阶段,利用网络结构信息和多模态信息融合后的特征,使用softmax分类器进行谣言检测。通过本专利提出的方法,可以自动快速准确的实现谣言检测,从而减少虚假信息、不实言论的传播及其造成的恶劣影响。
在实际应用中,可以将社交媒体上的消息输入到该模型方法中,在经过多模态信息处理之后,进行社交媒体异质图信息网络建模,然后通过异质图注意力卷积神经网络处理,最后该框架可以自动给出该消息是否为谣言消息的结果。在实施上,可以运行在如微博之类的社交媒体平台的后台,检测社交媒体平台上的各类消息,方便高效地进行谣言的检测以及后续处理。
如图1所示,该方案主要包括如下步骤:
1、获取包含文本、图像以及社交信息的待检测事件。
本发明实施例中,待检测事件可以是社交平台上的帖子、消息等。
2、基于预训练模型进行从文本与图像中各自提取文本特征与图像特征,并对社交信息进行特征编码,获得社交信息特征。
1)基于预训练模型Bert进行中文文本特征提取。
Bert模型是目前效果优异的通用语言表达模型,为不同的自然语言处理任务提供支持。在实际使用时,只需要根据具体任务额外加入一个输出层进行微调即可,而不用为特定任务来修改模型结果,这是预训练的Bert模型的主要优点。而且传统的句向量采用wordembedding取加权平均,无法理解上下文的语义,Bert生成的句向量的优点在于可以理解聚义,并且排除词向量加权引起的误差。
本发明实施例中,首先,进行文本预处理:对文本进行数据清洗,去除非文本内容,并对清洗后的文本进行分词,以及引入停用词表,去除文本中无效词语;然后,将预处理后的文本输入至预训练模型Bert,得到文本特征;所述文本特征可以为1024维度的文本特征向量,使用倒数第二层的输出作为文本特征向量,序列的最大长度设置为1024,从而保证每个文本特征向量输出维度相同。
ftext=Bert(text)
上式中,text表示预处理后的文本;ftext表示文本特征。
2)基于卷积神经网络进行图像特征提取。
本发明实施例选择ResNeSt模型。ResNeSt模型是一种在Imagenet分类任务上的CNN(卷积神经网络)预训练模型,它相比较传统的模型有着更高的准确率且不增加参数复杂度。本发明实施例中,去除卷积神经网络ResNeSt中顶部全连接层,输入预处理后的图像,将网络中最后一个池化层的输出作为提取到的图像特征。
fimage=ResNeSt(image)
上式中,image表示预处理后的图像,fimage为图像特征,维度为2048。
3)社交信息特征编码。
所述社交信息包括:数字特征与类别特征。其中,数字特征包括:待检测事件的转发数目、点赞数目与发布时间、以及相应用户的关注对象数目、粉丝数目以及发帖数目;类别特征包括:用户ID、用户类型、发布平台及事件内容是否为原创。
对于数字特征,进行Z-Sore归一化,表示为:
fnumerical=Z_Score[fretweet,fpraise,ffollower,ftime,ffollowing,ftweet]
其中,f表示特征,retweet表示转发数目,praise表示点赞数目,following表示用户的关注对象数目,time表示发布时间,follower表示用户的粉丝数目,tweet表示用户的发帖数目;
对于类别特征采用One-Hot编码(独热编码)。由于用户特征和发布平台的One-Hot编码的特征维度太大并且数据稀疏,因此,采用truncatedSVD进行降维处理,在保留大多数信息的同时大幅度降低特征维度,表示为:
fcategorical=[tsvd(fuid),tsvd(fplatform),foriginal,fusr-type]
其中,uid表示用户id,platform表示用户发表该推文的工具,original表示用户发表内容是否为原创,user-type表示用户类型,tsvd(.)表示采用truncatedSVD对特征进行降维处理;
再将fnumerical与fcategorical拼接,作为社交信息特征(维度为128),表示为:
fsocial=Concat[fcategorical,fnumerical]。
3、基于文本特征、图像特征以及社交信息特征构建社交媒体异质信息网络图结构,通过节点级别的注意力机制来捕获不同的节点邻居的重要性,通过信息聚合,实现将不同类型节点的信息通过注意力分数聚合到一起,实现特征的融合。
本步骤优选实施方式包括如下两个部分:
1)构建社交媒体异质信息网络图结构。
社交媒体异质信息网络图可以灵活地集成任何附加信息并对其丰富的关系进行建模,本发明实施例设计的社交媒体异质信息网络图如图2所示。
图结构表示为G=(V,E),E是节点间连接的边的集合,V是图结构中的节点的集合,包括文本内容节点Text={c1,c2,...,cm}、用户社交信息节点User={u1,u2,...,un}、主题节点Topic={t1,t2...,tk}、以及图像内容节点Image={i1,i2,...,iw};在初始时刻,利用若干标注好的节点构成基础图,构建社交媒体异质信息网络图结构,相当于在基础图的基础上添加新的节点和边,对于每一阶段得到的事件,都是利用得到的事件对应的节点来更新上一阶段的社交媒体异质信息网络图;对于当前阶段的待检测事件:
将之前提取的文本特征、图像特征以及社交信息特征各自对应的作为文本内容节点、图像内容节点以及用户社交信息节点,相应特征的向量表示作为对应节点的向量表示;主题节点通过文档主题生成模型从文本中提取,并构建主题节点与文本内容节点之间的边。文档主题生成模型LDA可以挖掘社交媒体事件(例如,帖子)的潜在主题,这样可以丰富社交媒体中帖子内容的语义信息,因此若将该条帖子分配了一个主题,则可以构建帖子文本内容c和主题t之间的边。
根据发布以及转发待检测事件的用户信息,构建文本内容节点和相关用户社交信息节点之间的边。为了进一步丰富消息的结构信息,促进信息的传播,还考虑了用户信息之间的关系。具体的,对于用户社交信息节点,如果两个用户社交信息节点的相似度(例如余弦相似度)得分高于阈值,则建立两个用户社交信息节点的边;这样,通过构造不同用户之间的边,就建模了谣言传播中的用户群落结构,不同用户发表的不同消息便可由此联系起来。
最后,根据图像与文本所属的社交媒体帖子,建立相应图像内容节点与文本内容节点的边。
上述社交媒体异质信息网络图中,对于单个事件,初始时刻对应的用户社交信息节点为一个,此后,如果某个用户转发了该事件,则构建相关用户社交信息节点与对应文本内容节点的边。具体应用中,一个用户社交信息节点与文本内容节点的边的个数可以是一个或多个,由具体情况来确定。对于单个事件,图像内容节点的数目与图像数目相同,主题节点的数目也取决于文本内容的主题数目,最终由LDA技术决定。
以上方式,通过结合主题、文本内容、图像内容和用户社交信息的关系,构建了一个内容丰富的社交媒体异质信息网络图,从而大大有利于后续的分类任务。
2)基于异质图注意力卷积神经网络的特征表示学习。
本发明实施例中,通过节点级别的注意力机制来捕获不同的节点邻居的重要性,通过信息聚合,实现将不同类型节点的信息通过注意力分数聚合到目标节点,实现特征的融合。主要过程如下:
对于类型为τ的节点v,如果v有一个类型为τ′的邻居节点v′∈Nv,Nv表示节点v的邻居节点集合,则v′的注意分数为bvv′表示为:
bvv′=σ(VT·[hv||hv′])
其中,V为注意力向量,hv、hv′各自表示节点v、节点v′的嵌入向量,||表示节点嵌入的拼接,σ(·)表示激活函数Leaky ReLU;使用softmax函数对节点级注意力分数进行归一化:
Figure BDA0002673611150000061
本发明实施例中,提出了异构图卷积神经网络算法,该算法考虑到多模态信息的差异和信息在社交媒体框架中的传播特性,采用分层传播规则,将节点级别的注意力机制纳入到图结构的卷积操作中:
Figure BDA0002673611150000062
其中,T表示节点类型集合,
Figure BDA0002673611150000063
Wτ (l)各自表示类型为τ的第l层节点的隐藏表示、变换矩阵;βτ表示注意力矩阵,其第v行v′列的元素为βvv′
通过上式可知,节点的隐藏表示H(l+1)是利用不同的变换矩阵,将其不同类型的邻居节点
Figure BDA0002673611150000071
的特征进行信息聚合得到,充分考虑了不同模态特征空间的差异,将其投射到公共隐空间。通过图结构中多层的卷积操作,例如,总层数设为L(即更新次数),最终得到的融合特征H(L)中融合了多模态和多节点信息的嵌入向量。
通常来说,层的概念可以理解为整个网络更新的次数,也就是每一层的卷积操作中都会把目前构建的图结构中各个节点更新一次。类比卷积神经网络,在建立图结构时确定了节点,每个层包含的节点数量都是相同的,只是节点的特征向量在更新。
4、谣言判断。
融合特征H(L)将被送到一个softmax分类器进行分类操作:
Z=softmax(H(L))
以上是本发明实施例上述方法的主要检测原理;该方法构成的网络模型需要预先进行训练,训练过程采用交叉熵损失函数:
Figure BDA0002673611150000072
其中,C是类别数,Dtrain为训练数据集;Y为对应的标签矩阵,Z为分类结果构成的矩阵;Θ为模型参数,μ为正则化参数。对于模型优化,可以采用梯度下降算法。
与现有方法相比,而本发明上述方法能够提取多种模态特征并实现融合,包括图像特征,文本特征和用户社交信息特征;此外,该方法能够通过构建社交媒体异质信息网络图实现不同模态间的关联以及利用信息传播得到信息的最终表示。本发明能够更为细致精确地刻画网络信息,从而捕获到能够有效区分谣言与非谣言的潜在信息,提升谣言检测的效果,在保证检测精度的同时,能够更加快速的实现检测结果,即在谣言出现的早期就能很好的实现对谣言的检测,从而将谣言扼杀在传播扩大影响之前,能很好的控制谣言造成的恶劣后果。
为了分析本发明所提取的特征对社交媒体谣言检测任务的有效性,对特征在数据集上的对谣言和非谣言的区分能力进行了实验分析。使用WeiboRumorSet作为社交媒体谣言检测研究的数据集。该数据集真假信息数量平衡,分别有4779条已被证实的真实信息和5381张真实图像,4748条谣言信息和7954张谣言图像。实验的数据集划分情况为,数据集中75%作为训练集,10%作为验证集,15%作为测试集。通过大量的实验证明,社交媒体异质图的建模效果使得最终的谣言检测结果得到明显提升。因为图的建模优化了谣言与非谣言信息的表示,从而能够更准确地进行社交媒体谣言检测。因此,本发明的实验效果优异,能够较好的完成社交媒体上的谣言检测任务。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (7)

1.一种基于传播异质图建模的社交媒体多模态谣言检测方法,其特征在于,包括:
获取包含文本、图像以及社交信息的待检测事件;
基于预训练模型进行从文本与图像中各自提取文本特征与图像特征,并对社交信息进行特征编码,获得社交信息特征;
基于文本特征、图像特征以及社交信息特征构建社交媒体异质信息网络图结构,通过节点级别的注意力机制来捕获不同的节点邻居的重要性,通过信息聚合,实现将不同类型节点的信息通过注意力分数聚合到一起,实现特征的融合;
将融合的特征输入至分类器,获得检测结果。
2.根据权利要求1所述的一种基于传播异质图建模的社交媒体多模态谣言检测方法,其特征在于,基于预训练模型Bert进行中文文本特征提取,步骤包括:
首先,进行文本预处理:对文本进行数据清洗,去除非文本内容,并对清洗后的文本进行分词,以及引入停用词表,去除文本中无效词语;
然后,将预处理后的文本输入至预训练模型Bert,得到文本特征。
3.根据权利要求1所述的一种基于传播异质图建模的社交媒体多模态谣言检测方法,其特征在于,基于预训练的卷积神经网络进行图像特征的提取;所述卷积神经网络为去除卷积神经网络ResNeSt中顶部全连接层后的网络,网络中最后一个池化层的输出即为提取到的图像特征。
4.根据权利要求1所述的一种基于传播异质图建模的社交媒体多模态谣言检测方法,其特征在于,所述社交信息包括:数字特征与类别特征;其中,数字特征包括:待检测事件的转发数目、点赞数目与发布时间、以及相应用户的关注对象数目、粉丝数目以及发帖数目;类别特征包括:用户ID、用户类型、发布平台及事件内容是否为原创;
对于数字特征,进行Z-Sore归一化,表示为:
fnumerical=Z_Score[fretweet,fpraise,ffollower,ftime,ffollowing,ftweet]
其中,f表示特征,retweet表示转发数目,praise表示点赞数目,following表示用户的关注对象数目,time表示发布时间,follower表示用户的粉丝数目,tweet表示用户的发帖数目;
对于类别特征采用One-Hot编码,并采用truncatedSVD进行降维处理,表示为:
fcategorical=[tsvd(fuid),tsvd(fplatform),foriginal,fusr-type]
其中,uid表示用户id,platform表示用户发表该推文的工具,original表示用户发表内容是否为原创,user-type表示用户类型,tsvd(.)表示采用truncatedSVD对特征进行降维处理;
再将fnumerical与fcategorical拼接,作为社交信息特征,表示为:
fsocial=Concat[fcategorical,fnumerical]。
5.根据权利要求1所述的一种基于传播异质图建模的社交媒体多模态谣言检测方法,其特征在于,所述社交媒体异质信息网络图结构表示为G=(V,E),E是节点间连接的边的集合,V是图结构中的节点的集合,包括文本内容节点、用户社交信息节点、主题节点、以及图像内容节点;在初始时刻,利用若干标注好的节点构成基础图,构建社交媒体异质信息网络图结构,也即在基础图的基础上添加新的节点和边,对于每一阶段得到的事件,都是利用得到的事件对应的节点来更新上一阶段的社交媒体异质信息网络图;对于当前阶段的待检测事件:
将提取到的文本特征、图像特征以及社交信息特征各自对应的作为文本内容节点、图像内容节点以及用户社交信息节点,相应特征的向量表示作为对应节点的向量表示;主题节点通过文档主题生成模型从文本中提取,并构建主题节点与文本内容节点之间的边;
根据发布以及转发待检测事件的用户信息,构建文本内容节点和相关用户社交信息节点之间的边;对于用户社交信息节点,如果两个用户社交信息节点的相似度得分高于阈值,则建立两个用户社交信息节点的边;
最后,根据图像与文本所属的事件,建立相应图像内容节点与文本内容节点的边。
6.根据权利要求5所述的一种基于传播异质图建模的社交媒体多模态谣言检测方法,其特征在于,通过节点级别的注意力机制来捕获不同的节点邻居的重要性,通过信息聚合,实现将不同类型节点的信息通过注意力分数聚合到一起,实现特征的融合的过程如下:
对于类型为τ的节点v,如果v有一个类型为τ′的邻居节点v′∈Nv,Nv表示节点v的邻居节点集合,则v′的注意分数为bvv′表示为:
bvv′=σ(VT·[hv||hv′])其中,V为注意力向量,hv、hv′各自表示节点v、节点v′的嵌入向量,||表示节点嵌入的拼接,σ(·)表示激活函数;使用softmax函数对节点级注意力分数进行归一化:
Figure FDA0002673611140000031
采用分层传播规则,将节点级别的注意力机制纳入到图结构的卷积操作中:
Figure FDA0002673611140000032
其中,T表示节点类型集合,
Figure FDA0002673611140000033
各自表示类型为τ的第l层节点的隐藏表示、变换矩阵;βτ表示注意力矩阵,其第v行v′列的元素为βvv′
每一层的卷积操作是针对图结构中的所有节点,通过图结构中多层的卷积操作,最终得到融合后的特征。
7.根据权利要求1所述的一种基于传播异质图建模的社交媒体多模态谣言检测方法,其特征在于,该方法构成的网络模型需要预先进行训练,训练过程采用交叉熵损失函数:
Figure FDA0002673611140000034
其中,C是类别数,Dtrain为训练数据集,Y为对应的标签矩阵,Z为分类结果构成的矩阵;Θ为模型参数,μ为正则化参数。
CN202010940942.3A 2020-09-09 2020-09-09 基于传播异质图建模的社交媒体多模态谣言检测方法 Active CN112035669B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010940942.3A CN112035669B (zh) 2020-09-09 2020-09-09 基于传播异质图建模的社交媒体多模态谣言检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010940942.3A CN112035669B (zh) 2020-09-09 2020-09-09 基于传播异质图建模的社交媒体多模态谣言检测方法

Publications (2)

Publication Number Publication Date
CN112035669A true CN112035669A (zh) 2020-12-04
CN112035669B CN112035669B (zh) 2021-05-14

Family

ID=73585093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010940942.3A Active CN112035669B (zh) 2020-09-09 2020-09-09 基于传播异质图建模的社交媒体多模态谣言检测方法

Country Status (1)

Country Link
CN (1) CN112035669B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699949A (zh) * 2021-01-05 2021-04-23 百威投资(中国)有限公司 一种基于社交平台数据的潜在用户识别方法及装置
CN112699662A (zh) * 2020-12-31 2021-04-23 太原理工大学 一种基于文本结构算法的虚假信息早期检测方法
CN112733533A (zh) * 2020-12-31 2021-04-30 浙大城市学院 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法
CN113033194A (zh) * 2021-03-09 2021-06-25 北京百度网讯科技有限公司 语义表示图模型的训练方法、装置、设备和存储介质
CN113051927A (zh) * 2021-03-11 2021-06-29 天津大学 基于多模态图卷积神经网络的社交网络突发事件检测方法
CN113204659A (zh) * 2021-03-26 2021-08-03 北京达佳互联信息技术有限公司 多媒体资源的标签分类方法、装置、电子设备及存储介质
CN113254803A (zh) * 2021-06-24 2021-08-13 暨南大学 一种基于多特征异质图神经网络的社交推荐方法
CN113254741A (zh) * 2021-06-16 2021-08-13 苏州大学 基于融合模态内和模态间关系的数据处理方法及系统
CN113268675A (zh) * 2021-05-19 2021-08-17 湖南大学 一种基于图注意力网络的社交媒体谣言检测方法和系统
CN113378514A (zh) * 2021-08-12 2021-09-10 华东交通大学 多标记数据特征选择处理方法及装置
CN113392196A (zh) * 2021-06-04 2021-09-14 北京师范大学 一种基于多模态交叉比较的题目检索方法和系统
CN113434684A (zh) * 2021-07-01 2021-09-24 北京中科研究院 自监督学习的谣言检测方法、系统、设备及存储介质
CN113761872A (zh) * 2021-09-07 2021-12-07 上海明略人工智能(集团)有限公司 一种数据检测方法、系统、电子设备及介质
CN113822224A (zh) * 2021-10-12 2021-12-21 中国人民解放军国防科技大学 融合多模态学习与多粒度结构学习的谣言检测方法及装置
CN114444516A (zh) * 2022-04-08 2022-05-06 四川大学 一种基于深度语义感知图卷积网络的粤语谣言检测方法
CN114928548A (zh) * 2022-04-26 2022-08-19 苏州大学 一种社交网络信息传播规模预测方法及装置
CN114969405A (zh) * 2022-04-30 2022-08-30 苏州浪潮智能科技有限公司 一种跨模态图文互检方法
CN115062208A (zh) * 2022-05-30 2022-09-16 苏州浪潮智能科技有限公司 数据处理方法、系统及计算机设备
CN115809327A (zh) * 2023-02-08 2023-03-17 四川大学 一种多模融合和话题的实时社交网络谣言检测方法
CN116611514A (zh) * 2023-07-19 2023-08-18 中国科学技术大学 一种基于数据驱动的价值取向评估体系构建方法
WO2023159755A1 (zh) * 2022-02-22 2023-08-31 平安科技(深圳)有限公司 虚假新闻检测方法、装置、设备及存储介质

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102457729A (zh) * 2010-10-15 2012-05-16 索尼公司 编码器、编码方法、和程序
CN102982110A (zh) * 2012-11-08 2013-03-20 中国科学院自动化研究所 在物理空间上提取网络空间热点事件信息的方法
CN105024853A (zh) * 2015-07-01 2015-11-04 中国科学院信息工程研究所 基于谣言传播机制的sdn资源匹配和服务路径发现方法
CN105045857A (zh) * 2015-07-09 2015-11-11 中国科学院计算技术研究所 一种社交网络谣言识别方法及系统
US20160127641A1 (en) * 2014-11-03 2016-05-05 Robert John Gove Autonomous media capturing
US20180082193A1 (en) * 2016-09-21 2018-03-22 Scianta Analytics, LLC Cognitive modeling apparatus for defuzzification of multiple qualitative signals into human-centric threat notifications
CN109615167A (zh) * 2018-11-06 2019-04-12 阿里巴巴集团控股有限公司 确定疑似批量风险交易事件的方法、装置和电子设备
CN109783629A (zh) * 2019-01-16 2019-05-21 福州大学 一种融合全局事件关系信息的微博客事件谣言检测方法
US20190355058A1 (en) * 2017-04-14 2019-11-21 Tencent Technology (Shenzhen) Company Ltd Method and apparatus for processing credit score real-time adjustment, and processing server
US20200065292A1 (en) * 2018-08-24 2020-02-27 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for improved anomaly detection in attributed networks
CN110866190A (zh) * 2019-11-18 2020-03-06 支付宝(杭州)信息技术有限公司 训练用于表征知识图谱的图神经网络模型的方法及装置
CN111008337A (zh) * 2019-11-06 2020-04-14 武汉大学 一种基于三元特征的深度注意力谣言鉴别方法及装置
CN111079444A (zh) * 2019-12-25 2020-04-28 北京中科研究院 一种基于多模态关系的网络谣言检测方法
CN111159569A (zh) * 2019-12-13 2020-05-15 西安交通大学 一种基于用户个性化特征的社交网络用户行为预测方法
CN111159395A (zh) * 2019-11-22 2020-05-15 国家计算机网络与信息安全管理中心 基于图神经网络的谣言立场检测方法、装置和电子设备
CN111325258A (zh) * 2020-02-14 2020-06-23 腾讯科技(深圳)有限公司 特征信息获取方法、装置、设备及存储介质
CN111400560A (zh) * 2020-03-10 2020-07-10 支付宝(杭州)信息技术有限公司 一种基于异构图神经网络模型进行预测的方法和系统
CN111506794A (zh) * 2020-04-17 2020-08-07 腾讯科技(武汉)有限公司 一种基于机器学习的谣言管理方法和装置

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102457729A (zh) * 2010-10-15 2012-05-16 索尼公司 编码器、编码方法、和程序
CN102982110A (zh) * 2012-11-08 2013-03-20 中国科学院自动化研究所 在物理空间上提取网络空间热点事件信息的方法
US20160127641A1 (en) * 2014-11-03 2016-05-05 Robert John Gove Autonomous media capturing
CN105024853A (zh) * 2015-07-01 2015-11-04 中国科学院信息工程研究所 基于谣言传播机制的sdn资源匹配和服务路径发现方法
CN105045857A (zh) * 2015-07-09 2015-11-11 中国科学院计算技术研究所 一种社交网络谣言识别方法及系统
US20180082193A1 (en) * 2016-09-21 2018-03-22 Scianta Analytics, LLC Cognitive modeling apparatus for defuzzification of multiple qualitative signals into human-centric threat notifications
US20190355058A1 (en) * 2017-04-14 2019-11-21 Tencent Technology (Shenzhen) Company Ltd Method and apparatus for processing credit score real-time adjustment, and processing server
US20200065292A1 (en) * 2018-08-24 2020-02-27 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for improved anomaly detection in attributed networks
CN109615167A (zh) * 2018-11-06 2019-04-12 阿里巴巴集团控股有限公司 确定疑似批量风险交易事件的方法、装置和电子设备
CN109783629A (zh) * 2019-01-16 2019-05-21 福州大学 一种融合全局事件关系信息的微博客事件谣言检测方法
CN111008337A (zh) * 2019-11-06 2020-04-14 武汉大学 一种基于三元特征的深度注意力谣言鉴别方法及装置
CN110866190A (zh) * 2019-11-18 2020-03-06 支付宝(杭州)信息技术有限公司 训练用于表征知识图谱的图神经网络模型的方法及装置
CN111159395A (zh) * 2019-11-22 2020-05-15 国家计算机网络与信息安全管理中心 基于图神经网络的谣言立场检测方法、装置和电子设备
CN111159569A (zh) * 2019-12-13 2020-05-15 西安交通大学 一种基于用户个性化特征的社交网络用户行为预测方法
CN111079444A (zh) * 2019-12-25 2020-04-28 北京中科研究院 一种基于多模态关系的网络谣言检测方法
CN111325258A (zh) * 2020-02-14 2020-06-23 腾讯科技(深圳)有限公司 特征信息获取方法、装置、设备及存储介质
CN111400560A (zh) * 2020-03-10 2020-07-10 支付宝(杭州)信息技术有限公司 一种基于异构图神经网络模型进行预测的方法和系统
CN111506794A (zh) * 2020-04-17 2020-08-07 腾讯科技(武汉)有限公司 一种基于机器学习的谣言管理方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
不务正业的土豆: "HAN-heterogeneous Graph Attention Network 异构图注意力网络", 《HTTPS://BLOG.CSDN.NET/YYL424525/ARTICLE/DETAILS/103804574》 *
张勇东 等: "基于深度学习的网络入侵检测研究综述", 《广州大学学报(自然科学版)》 *
郑春东 等: "虚假网络评论对消费者在线搜索与购买决策的影响", 《大连海事大学学报(社会科学版)》 *
陈燕方 等: "在线社会网络谣言检测综述", 《计算机学报》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699662A (zh) * 2020-12-31 2021-04-23 太原理工大学 一种基于文本结构算法的虚假信息早期检测方法
CN112733533A (zh) * 2020-12-31 2021-04-30 浙大城市学院 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法
CN112733533B (zh) * 2020-12-31 2023-11-07 浙大城市学院 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法
CN112699662B (zh) * 2020-12-31 2022-08-16 太原理工大学 一种基于文本结构算法的虚假信息早期检测方法
CN112699949A (zh) * 2021-01-05 2021-04-23 百威投资(中国)有限公司 一种基于社交平台数据的潜在用户识别方法及装置
CN113033194A (zh) * 2021-03-09 2021-06-25 北京百度网讯科技有限公司 语义表示图模型的训练方法、装置、设备和存储介质
CN113033194B (zh) * 2021-03-09 2023-10-24 北京百度网讯科技有限公司 语义表示图模型的训练方法、装置、设备和存储介质
CN113051927A (zh) * 2021-03-11 2021-06-29 天津大学 基于多模态图卷积神经网络的社交网络突发事件检测方法
CN113204659A (zh) * 2021-03-26 2021-08-03 北京达佳互联信息技术有限公司 多媒体资源的标签分类方法、装置、电子设备及存储介质
CN113204659B (zh) * 2021-03-26 2024-01-19 北京达佳互联信息技术有限公司 多媒体资源的标签分类方法、装置、电子设备及存储介质
CN113268675B (zh) * 2021-05-19 2022-07-08 湖南大学 一种基于图注意力网络的社交媒体谣言检测方法和系统
CN113268675A (zh) * 2021-05-19 2021-08-17 湖南大学 一种基于图注意力网络的社交媒体谣言检测方法和系统
CN113392196B (zh) * 2021-06-04 2023-04-21 北京师范大学 一种基于多模态交叉比较的题目检索方法和系统
CN113392196A (zh) * 2021-06-04 2021-09-14 北京师范大学 一种基于多模态交叉比较的题目检索方法和系统
CN113254741A (zh) * 2021-06-16 2021-08-13 苏州大学 基于融合模态内和模态间关系的数据处理方法及系统
CN113254803A (zh) * 2021-06-24 2021-08-13 暨南大学 一种基于多特征异质图神经网络的社交推荐方法
CN113434684A (zh) * 2021-07-01 2021-09-24 北京中科研究院 自监督学习的谣言检测方法、系统、设备及存储介质
CN113378514A (zh) * 2021-08-12 2021-09-10 华东交通大学 多标记数据特征选择处理方法及装置
CN113761872A (zh) * 2021-09-07 2021-12-07 上海明略人工智能(集团)有限公司 一种数据检测方法、系统、电子设备及介质
CN113822224A (zh) * 2021-10-12 2021-12-21 中国人民解放军国防科技大学 融合多模态学习与多粒度结构学习的谣言检测方法及装置
WO2023159755A1 (zh) * 2022-02-22 2023-08-31 平安科技(深圳)有限公司 虚假新闻检测方法、装置、设备及存储介质
CN114444516B (zh) * 2022-04-08 2022-07-05 四川大学 一种基于深度语义感知图卷积网络的粤语谣言检测方法
CN114444516A (zh) * 2022-04-08 2022-05-06 四川大学 一种基于深度语义感知图卷积网络的粤语谣言检测方法
CN114928548A (zh) * 2022-04-26 2022-08-19 苏州大学 一种社交网络信息传播规模预测方法及装置
CN114969405A (zh) * 2022-04-30 2022-08-30 苏州浪潮智能科技有限公司 一种跨模态图文互检方法
CN114969405B (zh) * 2022-04-30 2024-01-26 苏州浪潮智能科技有限公司 一种跨模态图文互检方法
CN115062208B (zh) * 2022-05-30 2024-01-23 苏州浪潮智能科技有限公司 数据处理方法、系统及计算机设备
CN115062208A (zh) * 2022-05-30 2022-09-16 苏州浪潮智能科技有限公司 数据处理方法、系统及计算机设备
CN115809327A (zh) * 2023-02-08 2023-03-17 四川大学 一种多模融合和话题的实时社交网络谣言检测方法
CN115809327B (zh) * 2023-02-08 2023-05-05 四川大学 一种多模融合和话题的实时社交网络谣言检测方法
CN116611514B (zh) * 2023-07-19 2023-10-10 中国科学技术大学 一种基于数据驱动的价值取向评估体系构建方法
CN116611514A (zh) * 2023-07-19 2023-08-18 中国科学技术大学 一种基于数据驱动的价值取向评估体系构建方法

Also Published As

Publication number Publication date
CN112035669B (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN112035669B (zh) 基于传播异质图建模的社交媒体多模态谣言检测方法
CN111079444B (zh) 一种基于多模态关系的网络谣言检测方法
CN114064918B (zh) 一种多模态事件知识图谱构建方法
CN109670039B (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN111460247B (zh) 网络图片敏感文字自动检测方法
CN111160452A (zh) 一种基于预训练语言模型的多模态网络谣言检测方法
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN111814454A (zh) 一种社交网络上的多模态网络欺凌检测模型
CN113254652B (zh) 一种基于超图注意力网络的社交媒体贴文真实性检测方法
CN108763211A (zh) 融合蕴含知识的自动文摘方法及系统
CN112667813A (zh) 用于裁判文书的敏感身份信息的识别方法
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
Kazhuparambil et al. Classification of malayalam-english mix-code comments using current state of art
CN116501877A (zh) 一种基于因果图谱的多模态注意力谣言检测方法
CN112035670B (zh) 基于图像情感倾向的多模态谣言检测方法
CN114065749A (zh) 一种面向文本的粤语识别模型及系统的训练、识别方法
Li Disaster tweet text and image analysis using deep learning approaches
Zhan et al. Mitigating the inconsistency between word saliency and model confidence with pathological contrastive training
CN112200268A (zh) 一种基于编码器-解码器框架的图像描述方法
Bide et al. Cross event detection and topic evolution analysis in cross events for man-made disasters in social media streams
CN112686052B (zh) 试题推荐及相关模型的训练方法、电子设备、存储装置
CN116704423B (zh) 层级式视频人物社交互动识别方法、系统、设备及介质
Cao et al. Recognizing characters and relationships from videos via spatial-temporal and multimodal cues

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant