CN116304032A - 动态图卷积和情感特征融合的虚假信息检测方法及系统 - Google Patents

动态图卷积和情感特征融合的虚假信息检测方法及系统 Download PDF

Info

Publication number
CN116304032A
CN116304032A CN202310163625.9A CN202310163625A CN116304032A CN 116304032 A CN116304032 A CN 116304032A CN 202310163625 A CN202310163625 A CN 202310163625A CN 116304032 A CN116304032 A CN 116304032A
Authority
CN
China
Prior art keywords
propagation
information
event
emotion
posts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310163625.9A
Other languages
English (en)
Inventor
王亦楷
林文水
张国栋
胡鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202310163625.9A priority Critical patent/CN116304032A/zh
Publication of CN116304032A publication Critical patent/CN116304032A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于动态图卷积和情感特征融合的虚假信息检测方法及系统。该方法包括:根据事件中帖子发布时间以及帖子之间转发评论关系构建多个阶段的双向传播图;对每一阶段的双向传播图分别使用深层图卷积网络提取正向传播图的传播结构信息以及反向传播图的传播结构信息,并使用自注意力机制获取动态传播结构信息;提取事件中每一帖子的文本内容中隐含的情感特征信息,生成事件的情感特征信息;融合动态传播结构信息以及事件的情感特征信息,并将融合后的信息输入至虚假信息检测模型的全连接层进行分类,生成事件的类别标签;类别标签包括真虚假信息、假虚假信息、未经证实的虚假信息以及非虚假信息。本发明能够提高虚假信息检测准确度。

Description

动态图卷积和情感特征融合的虚假信息检测方法及系统
技术领域
本发明涉及虚假信息检测领域,特别是涉及一种基于动态图卷积和情感特征融合的虚假信息检测方法及系统。
背景技术
社交平台目前已经成为公众交流的主要渠道之一,能够提供及时的社会热点信息,为信息传播提供了便利。然而,社交平台的快速发展同时也加速了虚假信息的传播与扩散。在各种社交平台上,虚假信息传播的速度很快,其包含的煽动性和虚假的信息会对社会造成大规模的负面影响。因此,虚假信息检测技术对营造绿色的上网环境和维护网络公共秩序等方面有着重要意义。
虚假信息检测任务的目的是学习一个分类器,将每个事件映射成一个类别标签,即输出该事件是否为虚假信息。在社交平台的数据中,帖子与帖子之间存在重要的非结构化传播特征。很多研究使用图神经网络在非欧空间中提取这种传播特征。现有基于传播结构的虚假信息检测方法大多数应用浅层的图卷积网络,而浅层图卷积网络只能提取低阶邻域信息,无法获取图的长距离信息。Tian等人提出一种浅层双向图卷积模型,处理自顶向下和自底向上两个传播过程。深层图卷积可以捕获远距离节点的信息聚合到自身节点上,但是存在过平滑现象,也就是当网络足够深时,图中的节点表示倾向于收敛到某一值,使得节点学习到的表示都差不多,变得难以区分。由于过平滑问题的存在,图卷积网络层数越深,性能反而越差。Chen等人通过引入初始残差连接和恒等映射来处理这一问题。本发明引入初始残差连接和恒等映射技术来构建双向深层图卷积模型,以此处理过平滑问题并提取更高级的特征表示。
现有的虚假信息检测方法大多都没有充分利用数据中包含的信息,如传播结构信息、情感信息、时间信息等。Choi等人提出动态图卷积来捕获事件的传播结构信息和时间信息。然而,上述研究忽略了事件中帖子包含的情感信息。情感特征的提取是虚假信息检测过程中重要的一环,目前的研究大部分都集中在帖子的文本内容和传播结构上,而忽略了表达个体意见的情感信息。
发明内容
本发明的目的是提供一种基于动态图卷积和情感特征融合的虚假信息检测方法及系统,以解决现有虚假信息检测方法中使用的浅层图卷积无法捕获高级的图特征表示和数据利用不充分的问题。
为实现上述目的,本发明提供了如下方案:
一种基于动态图卷积和情感特征融合的虚假信息检测方法,包括:
根据事件中帖子发布时间以及帖子之间转发评论关系构建多个阶段的双向传播图;所述双向传播图包括自顶向下的正向传播图以及自底向上的反向传播图;
对每一阶段的所述双向传播图分别使用深层图卷积网络提取所述正向传播图的传播结构信息以及所述反向传播图的传播结构信息,并使用自注意力机制获取动态传播结构信息;
提取所述事件中每一帖子的文本内容中隐含的情感特征信息,生成所述事件的情感特征信息;所述情感特征信息包括所述事件中源帖子的情感特征与所述源帖子对应的响应帖子的情感特征;
融合所述动态传播结构信息以及所述事件的情感特征信息,并将融合后的信息输入至虚假信息检测模型的全连接层进行分类,生成所述事件的类别标签;所述类别标签包括真虚假信息、假虚假信息、未经证实的虚假信息以及非虚假信息。
可选的,根据事件中帖子发布时间以及帖子之间转发评论关系构建多个阶段的双向传播图,具体包括:
根据所述帖子之间转发评论关系确定所述源帖子的响应帖子;
根据所述源帖子的发布时间以及最后一个响应帖子的发布时间确定时间间隔;
按照所述时间间隔将所述事件分为多个阶段;
对所述事件中所有帖子的文本内容进行预处理,生成预处理后的文本内容;所述预处理包括删除超链接、删除@符号、删除用户ID、删除#符号、删除话题以及过滤停用词;
将所述预处理后的文本内容输入至BERT模型中,将所述事件中所有帖子的文本内容转换成对应的向量表示,构建多个阶段的双向传播图。
可选的,对每一阶段的所述双向传播图分别使用深层图卷积网络提取所述正向传播图的传播结构信息以及所述反向传播图的传播结构信息,并使用自注意力机制获取动态传播结构信息,具体包括:
对于每一阶段的所述双向传播图,引入初始残差连接和恒等映射,分别使用深层图卷积网络提取所述正向传播图的隐藏特征向量以及所述反向传播图的隐藏特征向量;
对于所述正向传播图的图卷积模块,拼接第k+1层每个节点的隐藏特征向量与第k层的根节点的隐藏特征向量,生成自顶向下的传播特征向量;
对于所述反向传播图的图卷积模块,拼接第k+1层每个节点的隐藏特征向量与第k层的根节点的隐藏特征向量,生成自底向上的传播特征向量;
拼接所述自顶向下的传播特征向量以及所述自底向上的传播特征向量生成对应阶段的事件传播特征向量;
对所述事件传播特征向量进行平均池化操作,将节点表示转换为图表示,生成最终的传播图特征;
利用自注意力机制对所述最终的传播图特征进行处理,获取动态传播结构信息。
可选的,提取所述事件中每一帖子的文本内容中隐含的情感特征信息,生成所述事件的情感特征信息,具体包括:
提取所述事件中每一帖子的文本内容中隐含的情感特征信息;
对所述情感特征信息进行平均池化处理,生成平均池化后的所述源帖子的情感特征以及平均池化后的响应帖子的情感特征;
结合所述平均池化后的所述源帖子的情感特征以及所述平均池化后的响应帖子的情感特征,生成所述事件的情感特征信息。
可选的,提取所述事件中每一帖子的文本内容中隐含的情感特征信息,生成所述事件的情感特征信息,具体包括:
对所述事件中每一帖子的文本内容进行分词操作,生成分词后的文本内容;
基于所述分词后的文本内容,利用情感分类器提取每一帖子中包含的情感类特征;
引入文本的粗粒度情感分数代表整个所述文本内容的情感倾向,并使用工具包提取所述情感倾向特征;
结合所述情感类特征以及所述情感倾向特征,生成所述源帖子的最终情感特征或响应帖子的最终情感特征;
结合所述源帖子的最终情感特征以及所述响应帖子的最终情感特征,生成所述事件的情感特征信息。
可选的,融合所述动态传播结构信息以及所述事件的情感特征信息,并将融合后的信息输入至虚假信息检测模型的全连接层进行分类,生成所述事件的类别标签,具体包括:
拼接所述动态传播结构信息以及所述事件的情感特征信息,生成拼接信息;
将所述拼接信息输入至虚假信息检测模型的全连接层,并结合Softmax函数进行分类,生成所述虚假信息检测模型的预测结果;
根据所述虚假信息检测模型的预测结果生成所述事件的类别标签。
一种基于动态图卷积和情感特征融合的虚假信息检测系统,包括:
双向传播图构建模块,用于根据事件中帖子发布时间以及帖子之间转发评论关系构建多个阶段的双向传播图;所述双向传播图包括自顶向下的正向传播图以及自底向上的反向传播图;
动态传播结构信息获取模块,用于对每一阶段的所述双向传播图分别使用深层图卷积网络提取所述正向传播图的传播结构信息以及所述反向传播图的传播结构信息,并使用自注意力机制获取动态传播结构信息;
事件的情感特征信息生成模块,用于提取所述事件中每一帖子的文本内容中隐含的情感特征信息,生成所述事件的情感特征信息;所述情感特征信息包括所述事件中源帖子的情感特征与所述源帖子对应的响应帖子的情感特征;
事件的类别标签生成模块,用于融合所述动态传播结构信息以及所述事件的情感特征信息,并将融合后的信息输入至虚假信息检测模型的全连接层进行分类,生成所述事件的类别标签;所述类别标签包括真虚假信息、假虚假信息、未经证实的虚假信息以及非虚假信息。
可选的,双向传播图构建模块,具体包括:
响应帖子确定单元,用于根据所述帖子之间转发评论关系确定所述源帖子的响应帖子;
时间间隔确定单元,用于根据所述源帖子的发布时间以及最后一个响应帖子的发布时间确定时间间隔;
分阶段单元,用于按照所述时间间隔将所述事件分为多个阶段;
预处理单元,用于对所述事件中所有帖子的文本内容进行预处理,生成预处理后的文本内容;所述预处理包括删除超链接、删除@符号、删除用户ID、删除#符号、删除话题以及过滤停用词;
双向传播图构建单元,用于将所述预处理后的文本内容输入至BERT模型中,将所述事件中所有帖子的文本内容转换成对应的向量表示,构建多个阶段的双向传播图。
一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述基于动态图卷积和情感特征融合的虚假信息检测方法。
一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现上述基于动态图卷积和情感特征融合的虚假信息检测方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供了一种基于动态图卷积和情感特征融合的虚假信息检测方法及系统,利用双向深层图卷积网络捕获了自顶向下和自底向上两个视图中更为高级的图特征表示。本发明充分利用数据中包含的传播结构信息、情感信息和时间信息来增强事件的特征表示,进一步提高虚假信息检测模型的分类性能,从而提高了虚假信息检测的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的基于动态图卷积和情感特征融合的虚假信息检测方法流程示意图;
图2为本发明所提供的整体模型框架结构图;
图3为本发明所提供的深层图卷积模块架构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于动态图卷积和情感特征融合的虚假信息检测方法及系统,能够提取高级的图特征表示,并充分利用数据中包含的传播结构信息、情感信息和时间信息,提高检测准确度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供了一种基于动态图卷积和情感特征融合的虚假信息检测方法,包括:
步骤101:根据事件中帖子发布时间以及帖子之间转发评论关系构建多个阶段的双向传播图;所述双向传播图包括自顶向下的正向传播图以及自底向上的反向传播图。
在实际应用中,步骤101具体包括:根据所述帖子之间转发评论关系确定所述源帖子的响应帖子;根据所述源帖子的发布时间以及最后一个响应帖子的发布时间确定时间间隔;按照所述时间间隔将所述事件分为多个阶段;对所述事件中所有帖子的文本内容进行预处理,生成预处理后的文本内容;所述预处理包括删除超链接、删除@符号、删除用户ID、删除#符号、删除话题以及过滤停用词;将所述预处理后的文本内容输入至BERT模型中,将所述事件中所有帖子的文本内容转换成对应的向量表示,构建多个阶段的双向传播图。
作为本发明可选的一种实施方式,将事件以相同的时间间隔r平均分为T个阶段,时间间隔r以每个事件的源帖子发布时间t0和该事件中最后一个响应帖子的发布时间t(m-1)为界限,除以设置的时间步长T。其中,m为事件的帖子数目,
Figure SMS_1
第t个阶段包含时间步0至时间步t中所有的帖子。
对于事件中第t个时间步,自顶向下的传播图结构图的邻接矩阵
Figure SMS_2
数字化定义为:
Figure SMS_3
自底向上的传播结构图相对应的邻接矩阵
Figure SMS_4
表示为/>
Figure SMS_5
的转置,/>
Figure SMS_6
事件的每一阶段都有与之对于的邻接矩阵和传播图。自顶向下视图中的邻接矩阵和传播图分别为
Figure SMS_7
与/>
Figure SMS_8
Figure SMS_9
同理,自底向上视图中的邻接矩阵和传播图分别为/>
Figure SMS_10
Figure SMS_11
Figure SMS_12
对事件中的所有文本内容,包括源帖子与相对应的响应帖子,进行数据预处理操作。数据预处理包含对文本进行删除超链接URL、@符号与用户ID、#符号与话题以及停用词过滤等操作。之后使用预训练好的BERT模型来将事件中的所有帖子文本转换成对应的向量表示,用作传播图中的初始节点特征。
步骤102:对每一阶段的所述双向传播图分别使用深层图卷积网络提取所述正向传播图的传播结构信息以及所述反向传播图的传播结构信息,并使用自注意力机制获取动态传播结构信息。
在实际应用中,步骤102具体包括:对于每一阶段的所述双向传播图,引入初始残差连接和恒等映射,分别使用深层图卷积网络提取所述正向传播图的隐藏特征向量以及所述反向传播图的隐藏特征向量;对于所述正向传播图的图卷积模块,拼接第k+1层每个节点的隐藏特征向量与第k层的根节点的隐藏特征向量,生成自顶向下的传播特征向量;对于所述反向传播图的图卷积模块,拼接第k+1层每个节点的隐藏特征向量与第k层的根节点的隐藏特征向量,生成自底向上的传播特征向量;拼接所述自顶向下的传播特征向量以及所述自底向上的传播特征向量生成对应阶段的事件传播特征向量;对所述事件传播特征向量进行平均池化操作,将节点表示转换为图表示,生成最终的传播图特征;利用自注意力机制对所述最终的传播图特征进行处理,获取动态传播结构信息。
作为本发明可选的一种实施方式,引入初始残差连接和恒等映射,分别对正向传播图和反向传播图使用深层图卷积模型提取两个视图的传播结构。在深层图卷积模型中,为了提高源帖子在事件传播过程中的影响力,网络的每一层中,都将源帖子的特征拼接到传播图中的每一个节点上。为方便公式书写,用
Figure SMS_13
表示自顶向下的传播图隐藏特征,用/>
Figure SMS_14
表示自底向上的传播图隐藏特征:
Figure SMS_15
Figure SMS_16
其中,
Figure SMS_17
和/>
Figure SMS_18
是超参数。/>
Figure SMS_19
是对称归一化之后的邻接矩阵,/>
Figure SMS_20
是加了自环后的邻接矩阵,/>
Figure SMS_21
是度矩阵,H(0)是初始特征矩阵,In是单位矩阵,/>
Figure SMS_22
是第k层的参数矩阵。参数说明此处以自顶向下的传播公式为例,自底向上的传播公式同理。
对于自顶向下和自底向上两个视图的图卷积模块,第k+1层每个节点的隐藏特征向量与来自第k层的根节点的隐藏特征向量相拼接,以增强源帖子特征的表达并构成新的特征矩阵:
Figure SMS_23
Figure SMS_24
以上步骤获得了事件自顶向下的传播特征向量
Figure SMS_25
和自底向上的传播特征向量
Figure SMS_26
将二者拼接得到该阶段事件的完整表示/>
Figure SMS_27
Figure SMS_28
Figure SMS_29
进行平均池化操作将节点表示转换为图表示,得到最终的传播图特征ht
Figure SMS_30
其中,K是图卷积模块的最后一层。
为了获取动态传播信息,使用自注意力机制,计算过程如下:
Figure SMS_31
其中,Q、K、V分别是查询向量、键向量和值向量,除以
Figure SMS_32
进行缩放是为了防止梯度过小。
应用注意力权重的T个阶段的元素平均值作为该事件的图嵌入向量表示:
Figure SMS_33
步骤103:提取所述事件中每一帖子的文本内容中隐含的情感特征信息,生成所述事件的情感特征信息;所述情感特征信息包括所述事件中源帖子的情感特征与所述源帖子对应的响应帖子的情感特征。
在实际应用中,步骤103具体包括:提取所述事件中每一帖子的文本内容中隐含的情感特征信息;对所述情感特征信息进行平均池化处理,生成平均池化后的所述源帖子的情感特征以及平均池化后的响应帖子的情感特征;结合所述平均池化后的所述源帖子的情感特征以及所述平均池化后的响应帖子的情感特征,生成所述事件的情感特征信息。
在实际应用中,步骤103具体包括:对所述事件中每一帖子的文本内容进行分词操作,生成分词后的文本内容;基于所述分词后的文本内容,利用情感分类器提取每一帖子中包含的情感类特征;引入文本的粗粒度情感分数代表整个所述文本内容的情感倾向,并使用工具包提取所述情感倾向特征;结合所述情感类特征以及所述情感倾向特征,生成所述源帖子的最终情感特征或响应帖子的最终情感特征;结合所述源帖子的最终情感特征以及所述响应帖子的最终情感特征,生成所述事件的情感特征信息。
作为本发明可选的一种实施方式,使用公开情感分类器提取事件中每一帖子内容中隐含的情感特征。情感特征分为源帖情感和响应帖情感,分别表示源帖子中隐含的情感及其对应的响应帖子中包含的情感。其中,一个事件中包含多个响应帖子,因此需要将情感分类器作用在每一个响应帖子上以得到每一个响应帖子的情感特征,随后将这些响应帖子的情感特征进行平均池化以获得所有响应帖子的平均情感特征。将源帖情感和响应帖子情感组合起来作为该事件的情感特征。
具体的,对数据预处理之后的文本进行分词操作。
使用英伟达(NVIDIA)公开的情感分类器来获取每一帖子中包含的情感类别特征ec,如“生气”情绪、“开心”情绪、“害怕”情绪等。情感类别特征
Figure SMS_34
dc是情感类别特征输出维度。
引入文本的粗粒度情感分数代表整个文本的情感倾向(如文本整体情感是正面的或者是负面的),使用公开工具包来提取文本的情感倾向特征et。情感倾向特征
Figure SMS_35
dt是情感倾向特征输出维度。
将情感类别特征ec与情感倾向特征et相结合得到源帖子或评论帖子文本的最终情感特征
Figure SMS_36
步骤104:融合所述动态传播结构信息以及所述事件的情感特征信息,并将融合后的信息输入至虚假信息检测模型的全连接层进行分类,生成所述事件的类别标签;所述类别标签包括真虚假信息、假虚假信息、未经证实的虚假信息以及非虚假信息。
在实际应用中,步骤104具体包括:拼接所述动态传播结构信息以及所述事件的情感特征信息,生成拼接信息;将所述拼接信息输入至虚假信息检测模型的全连接层,并结合Softmax函数进行分类,生成所述虚假信息检测模型的预测结果;根据所述虚假信息检测模型的预测结果生成所述事件的类别标签。
作为本发明可选的一种是实施方式,将传播图表示向量hG与情感特征向量e进行拼接操作,之后将拼接的结果输入至全连接层,并结合Softmax函数进行分类得到模型的预测结果
Figure SMS_37
Figure SMS_38
其中,FC代表全连接层,Softmax函数用于将神经元的输出映射至(0,1)之间,concat函数用于将传播图表示向量hG与情感特征向量e拼接。
Figure SMS_39
代表模型的预测结果,作用于接下来的损失函数中。class={T,F,U,N}是虚假信息检测任务的标签,分别表示真虚假信息、假虚假信息、未经证实的虚假信息和非虚假信息。
传播模型用最小化预测标签和真实标签的交叉熵损失来训练,计算过程如下:
Figure SMS_40
其中,yi表示样本i的标签。
如图2所示,本发明的整体模型框架主要分为两部分,分别是传播模块(propagation module)和情感模块(emotion module)。输入为某一事件的数据,包含该事件的传播图、特征矩阵和其中每一帖子的发布时间和内容。以图2为例,在传播模块中,该事件的传播图依照帖子发布时间被分为三个阶段。每一阶段都会构建自顶向下和自底向上两个不同视图的传播图,之后在两个传播图上分别使用深层图卷积(即为图2中的深层图卷积网络(Graph Convolutional Network,GCN))提取特征,再经过池化层(Pooling)得到两个视图的图特征。将同一阶段中两个视图的图特征拼接作为该阶段的传播图特征。之后将所有阶段的传播图特征通过一个注意力层(Attention)得到最终的动态传播结构特征。在情感模块,使用公开情感分类器提取事件的情感特征。其中,一个事件包含一个源帖子和多个响应帖子(响应帖子1,…,响应帖子(m-1)),因此需要将情感分类器作用在源帖子和每一个响应帖子上,随后将这些响应帖子的情感特征进行平均池化以获得所有响应帖子的平均情感特征。将源帖情感和响应帖子情感拼接起来作为该事件的情感特征。最终将动态传播结构特征与该事件的情感特征拼接输入至全连接层进行分类得到结果。
在图3中,输入为事件的特征矩阵
Figure SMS_41
首先经过线性层转换维度,维度转换之后的特征矩阵为/>
Figure SMS_42
之后经过多个图卷积块(GCN-Block),每个图卷积块都包含图卷积层、激活层Relu和用于缓解过拟合问题的Dropout层三个部分。从第二个图卷积块开始,每一个图卷积块中都会使用根节点增强(Root Enhancement)模块来增强源帖子的表达。最后经过线性层转换维度,得到输出/>
Figure SMS_43
实施例二
为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供一种基于动态图卷积和情感特征融合的虚假信息检测系统。
一种基于动态图卷积和情感特征融合的虚假信息检测系统,包括:
双向传播图构建模块,用于根据事件中帖子发布时间以及帖子之间转发评论关系构建多个阶段的双向传播图;所述双向传播图包括自顶向下的正向传播图以及自底向上的反向传播图。
在实际应用中,双向传播图构建模块,具体包括:响应帖子确定单元,用于根据所述帖子之间转发评论关系确定所述源帖子的响应帖子;时间间隔确定单元,用于根据所述源帖子的发布时间以及最后一个响应帖子的发布时间确定时间间隔;分阶段单元,用于按照所述时间间隔将所述事件分为多个阶段;预处理单元,用于对所述事件中所有帖子的文本内容进行预处理,生成预处理后的文本内容;所述预处理包括删除超链接、删除@符号、删除用户ID、删除#符号、删除话题以及过滤停用词;双向传播图构建单元,用于将所述预处理后的文本内容输入至BERT模型中,将所述事件中所有帖子的文本内容转换成对应的向量表示,构建多个阶段的双向传播图。
动态传播结构信息获取模块,用于对每一阶段的所述双向传播图分别使用深层图卷积网络提取所述正向传播图的传播结构信息以及所述反向传播图的传播结构信息,并使用自注意力机制获取动态传播结构信息。
事件的情感特征信息生成模块,用于提取所述事件中每一帖子的文本内容中隐含的情感特征信息,生成所述事件的情感特征信息;所述情感特征信息包括所述事件中源帖子的情感特征与所述源帖子对应的响应帖子的情感特征。
事件的类别标签生成模块,用于融合所述动态传播结构信息以及所述事件的情感特征信息,并将融合后的信息输入至虚假信息检测模型的全连接层进行分类,生成所述事件的类别标签;所述类别标签包括真虚假信息、假虚假信息、未经证实的虚假信息以及非虚假信息。
实施例三
本发明实施例提供一种电子设备包括存储器及处理器,该存储器用于存储计算机程序,该处理器运行计算机程序以使电子设备执行实施例一提供的基于动态图卷积和情感特征融合的虚假信息检测方法。
在实际应用中,上述电子设备可以是服务器。
在实际应用中,电子设备包括:至少一个处理器(processor)、存储器(memory)、总线及通信接口(Communications Interface)。
其中:处理器、通信接口、以及存储器通过通信总线完成相互间的通信。
通信接口,用于与其它设备进行通信。
处理器,用于执行程序,具体可以执行上述实施例所述的方法。
具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。
处理器可能是中央处理器CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器,用于存放程序。存储器可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
基于以上实施例的描述,本申请实施例提供一种存储介质,其上存储有计算机程序指令,计算机程序指令可被处理器执行以实现任意实施例所述的方法
本申请实施例提供的基于动态图卷积和情感特征融合的虚假信息检测系统以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供语音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网性能。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据交互功能的电子设备。
至此,已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。本领域内的技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、
数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带、磁盘存储或其他磁性存储设备
或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于动态图卷积和情感特征融合的虚假信息检测方法,其特征在于,包括:
根据事件中帖子发布时间以及帖子之间转发评论关系构建多个阶段的双向传播图;所述双向传播图包括自顶向下的正向传播图以及自底向上的反向传播图;
对每一阶段的所述双向传播图分别使用深层图卷积网络提取所述正向传播图的传播结构信息以及所述反向传播图的传播结构信息,并使用自注意力机制获取动态传播结构信息;
提取所述事件中每一帖子的文本内容中隐含的情感特征信息,生成所述事件的情感特征信息;所述情感特征信息包括所述事件中源帖子的情感特征与所述源帖子对应的响应帖子的情感特征;
融合所述动态传播结构信息以及所述事件的情感特征信息,并将融合后的信息输入至虚假信息检测模型的全连接层进行分类,生成所述事件的类别标签;所述类别标签包括真虚假信息、假虚假信息、未经证实的虚假信息以及非虚假信息。
2.根据权利要求1所述的基于动态图卷积和情感特征融合的虚假信息检测方法,其特征在于,根据事件中帖子发布时间以及帖子之间转发评论关系构建多个阶段的双向传播图,具体包括:
根据所述帖子之间转发评论关系确定所述源帖子的响应帖子;
根据所述源帖子的发布时间以及最后一个响应帖子的发布时间确定时间间隔;
按照所述时间间隔将所述事件分为多个阶段;
对所述事件中所有帖子的文本内容进行预处理,生成预处理后的文本内容;所述预处理包括删除超链接、删除@符号、删除用户ID、删除#符号、删除话题以及过滤停用词;
将所述预处理后的文本内容输入至BERT模型中,将所述事件中所有帖子的文本内容转换成对应的向量表示,构建多个阶段的双向传播图。
3.根据权利要求1所述的基于动态图卷积和情感特征融合的虚假信息检测方法,其特征在于,对每一阶段的所述双向传播图分别使用深层图卷积网络提取所述正向传播图的传播结构信息以及所述反向传播图的传播结构信息,并使用自注意力机制获取动态传播结构信息,具体包括:
对于每一阶段的所述双向传播图,引入初始残差连接和恒等映射,分别使用深层图卷积网络提取所述正向传播图的隐藏特征向量以及所述反向传播图的隐藏特征向量;
对于所述正向传播图的图卷积模块,拼接第k+1层每个节点的隐藏特征向量与第k层的根节点的隐藏特征向量,生成自顶向下的传播特征向量;
对于所述反向传播图的图卷积模块,拼接第k+1层每个节点的隐藏特征向量与第k层的根节点的隐藏特征向量,生成自底向上的传播特征向量;
拼接所述自顶向下的传播特征向量以及所述自底向上的传播特征向量生成对应阶段的事件传播特征向量;
对所述事件传播特征向量进行平均池化操作,将节点表示转换为图表示,生成最终的传播图特征;
利用自注意力机制对所述最终的传播图特征进行处理,获取动态传播结构信息。
4.根据权利要求1所述的基于动态图卷积和情感特征融合的虚假信息检测方法,其特征在于,提取所述事件中每一帖子的文本内容中隐含的情感特征信息,生成所述事件的情感特征信息,具体包括:
提取所述事件中每一帖子的文本内容中隐含的情感特征信息;
对所述情感特征信息进行平均池化处理,生成平均池化后的所述源帖子的情感特征以及平均池化后的响应帖子的情感特征;
结合所述平均池化后的所述源帖子的情感特征以及所述平均池化后的响应帖子的情感特征,生成所述事件的情感特征信息。
5.根据权利要求1所述的基于动态图卷积和情感特征融合的虚假信息检测方法,其特征在于,提取所述事件中每一帖子的文本内容中隐含的情感特征信息,生成所述事件的情感特征信息,具体包括:
对所述事件中每一帖子的文本内容进行分词操作,生成分词后的文本内容;
基于所述分词后的文本内容,利用情感分类器提取每一帖子中包含的情感类特征;
引入文本的粗粒度情感分数代表整个所述文本内容的情感倾向,并使用工具包提取所述情感倾向特征;
结合所述情感类特征以及所述情感倾向特征,生成所述源帖子的最终情感特征或响应帖子的最终情感特征;
结合所述源帖子的最终情感特征以及所述响应帖子的最终情感特征,生成所述事件的情感特征信息。
6.根据权利要求1所述的基于动态图卷积和情感特征融合的虚假信息检测方法,其特征在于,融合所述动态传播结构信息以及所述事件的情感特征信息,并将融合后的信息输入至虚假信息检测模型的全连接层进行分类,生成所述事件的类别标签,具体包括:
拼接所述动态传播结构信息以及所述事件的情感特征信息,生成拼接信息;
将所述拼接信息输入至虚假信息检测模型的全连接层,并结合Softmax函数进行分类,生成所述虚假信息检测模型的预测结果;
根据所述虚假信息检测模型的预测结果生成所述事件的类别标签。
7.一种基于动态图卷积和情感特征融合的虚假信息检测系统,其特征在于,包括:
双向传播图构建模块,用于根据事件中帖子发布时间以及帖子之间转发评论关系构建多个阶段的双向传播图;所述双向传播图包括自顶向下的正向传播图以及自底向上的反向传播图;
动态传播结构信息获取模块,用于对每一阶段的所述双向传播图分别使用深层图卷积网络提取所述正向传播图的传播结构信息以及所述反向传播图的传播结构信息,并使用自注意力机制获取动态传播结构信息;
事件的情感特征信息生成模块,用于提取所述事件中每一帖子的文本内容中隐含的情感特征信息,生成所述事件的情感特征信息;所述情感特征信息包括所述事件中源帖子的情感特征与所述源帖子对应的响应帖子的情感特征;
事件的类别标签生成模块,用于融合所述动态传播结构信息以及所述事件的情感特征信息,并将融合后的信息输入至虚假信息检测模型的全连接层进行分类,生成所述事件的类别标签;所述类别标签包括真虚假信息、假虚假信息、未经证实的虚假信息以及非虚假信息。
8.根据权利要求7所述的基于动态图卷积和情感特征融合的虚假信息检测系统,其特征在于,双向传播图构建模块,具体包括:
响应帖子确定单元,用于根据所述帖子之间转发评论关系确定所述源帖子的响应帖子;
时间间隔确定单元,用于根据所述源帖子的发布时间以及最后一个响应帖子的发布时间确定时间间隔;
分阶段单元,用于按照所述时间间隔将所述事件分为多个阶段;
预处理单元,用于对所述事件中所有帖子的文本内容进行预处理,生成预处理后的文本内容;所述预处理包括删除超链接、删除@符号、删除用户ID、删除#符号、删除话题以及过滤停用词;
双向传播图构建单元,用于将所述预处理后的文本内容输入至BERT模型中,将所述事件中所有帖子的文本内容转换成对应的向量表示,构建多个阶段的双向传播图。
9.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行如权利要求1-6中任一项所述的基于动态图卷积和情感特征融合的虚假信息检测方法。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的基于动态图卷积和情感特征融合的虚假信息检测方法。
CN202310163625.9A 2023-02-24 2023-02-24 动态图卷积和情感特征融合的虚假信息检测方法及系统 Pending CN116304032A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310163625.9A CN116304032A (zh) 2023-02-24 2023-02-24 动态图卷积和情感特征融合的虚假信息检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310163625.9A CN116304032A (zh) 2023-02-24 2023-02-24 动态图卷积和情感特征融合的虚假信息检测方法及系统

Publications (1)

Publication Number Publication Date
CN116304032A true CN116304032A (zh) 2023-06-23

Family

ID=86789903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310163625.9A Pending CN116304032A (zh) 2023-02-24 2023-02-24 动态图卷积和情感特征融合的虚假信息检测方法及系统

Country Status (1)

Country Link
CN (1) CN116304032A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758567A (zh) * 2023-08-11 2023-09-15 浪潮电子信息产业股份有限公司 不实信息检测方法、装置、电子设备及计算机可读存储介质
CN117076812B (zh) * 2023-10-13 2023-12-12 西安康奈网络科技有限公司 一种网络信息发布传播平台智能监测管理系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758567A (zh) * 2023-08-11 2023-09-15 浪潮电子信息产业股份有限公司 不实信息检测方法、装置、电子设备及计算机可读存储介质
CN117076812B (zh) * 2023-10-13 2023-12-12 西安康奈网络科技有限公司 一种网络信息发布传播平台智能监测管理系统

Similar Documents

Publication Publication Date Title
CN113762322B (zh) 基于多模态表示的视频分类方法、装置和设备及存储介质
CN116304032A (zh) 动态图卷积和情感特征融合的虚假信息检测方法及系统
WO2022022421A1 (zh) 语言表示模型系统、预训练方法、装置、设备及介质
US20230386238A1 (en) Data processing method and apparatus, computer device, and storage medium
CN113128557B (zh) 基于胶囊网络融合模型的新闻文本分类方法、系统及介质
CN110727769B (zh) 语料库生成方法及装置、人机交互处理方法及装置
CN112860758A (zh) 搜索方法、装置、电子设备及计算机存储介质
CN116821781A (zh) 分类模型的训练方法、文本分析方法及相关设备
CN116662482A (zh) 多模态情感分析方法、装置及电子设备
CN114880489B (zh) 数据处理方法、装置及设备
CN116757224A (zh) 意图理解方法、装置、设备和介质
CN116662495A (zh) 问答处理方法、训练问答处理模型的方法及装置
CN111783429A (zh) 信息处理方法、装置、电子设备以及存储介质
CN117456028A (zh) 基于文本进行图像生成的方法及装置
CN113535912B (zh) 基于图卷积网络和注意力机制的文本关联方法及相关设备
CN113139110B (zh) 区域特征处理方法、装置、设备、存储介质和程序产品
CN117473056A (zh) 一种问答方法、装置、电子设备及存储介质
WO2023168997A1 (zh) 一种跨模态搜索方法及相关设备
CN116186220A (zh) 信息检索方法、问答处理方法、信息检索装置及系统
CN113988201B (zh) 一种基于神经网络的多模态情感分类方法
CN116957006A (zh) 预测模型的训练方法、装置、设备、介质及程序产品
CN114676701B (zh) 文本向量的处理方法、装置、介质以及电子设备
CN112559727B (zh) 用于输出信息的方法、装置、设备、存储介质和程序
CN110852043B (zh) 一种文本转写方法、装置、设备及存储介质
CN114385903B (zh) 应用账号的识别方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination