CN117609864A - 一种基于双通道图对比学习的虚假信息检测方法及系统 - Google Patents
一种基于双通道图对比学习的虚假信息检测方法及系统 Download PDFInfo
- Publication number
- CN117609864A CN117609864A CN202311634116.6A CN202311634116A CN117609864A CN 117609864 A CN117609864 A CN 117609864A CN 202311634116 A CN202311634116 A CN 202311634116A CN 117609864 A CN117609864 A CN 117609864A
- Authority
- CN
- China
- Prior art keywords
- graph
- false information
- encoder
- propagation
- characterization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 45
- 238000012512 characterization method Methods 0.000 claims abstract description 73
- 239000013598 vector Substances 0.000 claims abstract description 73
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000010586 diagram Methods 0.000 claims abstract description 28
- 238000011176 pooling Methods 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 40
- 239000011159 matrix material Substances 0.000 claims description 35
- 238000004590 computer program Methods 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 4
- 230000002708 enhancing effect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
一种基于双通道图对比学习的虚假信息检测方法及系统,包括:构建虚假信息传播图;将虚假信息传播图中的节点聚合为簇,并将簇通过池化操作转化为超节点,得到简化后的虚假信息传播图;通过图编码器对不同超节点进行图级别表征提取;对虚假信息传播图进行图‑图对比学习,以及采用简化后的虚假信息传播图进行节点‑图对比学习,以训练图编码器;将编码器输出的表征和原帖的表征向量进行拼接得到表征向量,通过全连接层基于表征向量计算虚假信息检测概率。本发明同时双通道图对比学习在进行数据增强的同时能够有效保留传播网络的物理含义,保证了预训练效果,具有适应性强,泛化能力强,性能稳健的优点。
Description
技术领域
本发明涉及虚假信息检测领域,具体涉及一种基于双通道图对比学习的虚假信息检测方法及系统。
背景技术
随着信息在社交媒体上传播,越来越多的用户会与该帖产生转发、评论、点赞等交互行为,从而形成信息的传播网络。现有研究表明,通过分析此类信息传播网络,可有效地针对网络虚假信息进行检测,识别虚假信息的独特传播范式。然而,这些方法往往基于大量的带标签数据,通过有监督策略甄别虚假信息,需要耗费较多的人力物力进行数据标注,代价较为昂贵。为克服对标签数据的依赖,现有部分检测方法,通过数据增强的方式构造正负样本进行对比学习,融合少量有标签样本实现虚假信息的检测。然而此类方法中对信息传播网络增减节点或者边的数据增强操作可能会导致信息传播网络原本包含的物理含义遭到改变。此外,目前大部分方法在学习图级别表征时仍然采用传统的先学习节点表征,后全局池化的方式,难以自适应学习图中不同子结构的重要性。
现有技术1提出了基于动态信息传播演化模式的虚假信息检测方法,来对动态传播中的信息进行检测,其主要包括:首先利用RNN网络和注意力机制提炼待检测推文的文本特征;基于当前该推文各反馈推文的发布时间对推文的传播过程进行多阶段划分,分别构建多阶段的信息传播树和信息传播序列;基于信息传播树进行交互建模,基于信息传播序列进行时序建模,分别获取信息传播树的交互特征表示和时序特征表示;根据多阶段的信息表示,构建模型,捕捉信息传播的多阶段演化模式,并融合各阶段的信息表示,进行虚假信息检测。
现有技术2提出了一种基于传播重构的虚假信息检测方法,方法主要包括:获取社交网络中博文的传播数据;基于所述传播数据,构建信息传播图;利用深度图卷积网络聚合所述信息传播图中的节点邻域特征,得到所述信息传播图的节点表示V;根据所述节点表示V,估计所述信息传播图中节点之间的潜在传播交互,以生成多个潜在传播图;利用深度图卷积网络聚合每一潜在传播图的节点邻域特征之后,综合所有更新后潜在传播图的更新节点表示,得到重构节点表示Z;基于所述节点表示V和所述重构节点表示Z执行任务分类,得到所述博文的虚假信息检测结果。
上述基于传播网络的虚假信息检测方法,均基于有监督学习范式,过于依赖标注数据来训练模型和更新分类器,训练代价较为高昂。同时,以上方法难以自适应地学习图中不同子结构,不能充分提取图级别的节点特征。
发明内容
本发明的目的在于提供一种基于双通道图对比学习的虚假信息检测方法及系统,以解决现有方法难以自适应地学习图中不同子结构,不能充分提取图级别的节点特征的问题。
为实现上述目的,本发明采用以下技术方案:
第一方面,本发明提供一种基于双通道图对比学习的虚假信息检测方法,包括:
采集网络虚假信息及其传播拓扑,将虚假信息文本作为图节点及其特征,传播拓扑作为图的边结构,构建虚假信息传播图;
将虚假信息传播图中的节点聚合为簇,并将簇通过池化操作转化为超节点,得到简化后的虚假信息传播图;
通过图编码器对不同超节点进行图级别表征提取;
对虚假信息传播图进行图-图对比学习,以及采用简化后的虚假信息传播图进行节点-图对比学习,以训练图编码器;
将编码器输出的表征和原帖的表征向量进行拼接得到表征向量,通过全连接层基于表征向量计算虚假信息检测概率。
可选的,采集网络虚假信息及其传播拓扑,将虚假信息文本作为图节点及其特征,传播拓扑作为图的边结构,构建虚假信息传播图:
通过采集虚假信息文本及其传播拓扑,与网络拓扑结构相结合,将虚假信息文本作为图节点及其特征,即节点集合将虚假信息传播拓扑作为图的边结构,即边集合/>构建虚假信息传播图G。
可选的,将虚假信息传播图中的节点聚合为簇,并将簇通过池化操作转化为超节点,得到简化后的虚假信息传播图:
通过软聚类方法将原图G中的节点聚合为簇,并将簇通过池化操作转化为超节点;具体地,使用两个不同的GNN模块:一个为节点特征编码器通过编码得到d′维的节点表征,另一个为池化层/> 其中c是简化图中簇的数目;图G的节点表征矩阵/>通过节点特征编码器获得:
通过带有Softmax函数的池化层得到每个节点分配到不同簇中的概率分配矩阵SG:
基于上述所获得的节点表征矩阵和概率分配矩阵SG,得到简化图中超节点对应的特征矩阵:
可选的,通过图编码器对不同超节点进行图级别表征提取:
首先使用多头注意力机制将不同超节点所代表的子结构信息聚集到全局标记,随后,通过带有残差连接的前馈网络将拼接后的多头输出映射为低维的嵌入向量,最后,使用前馈神经网络更新隐层表征矩阵。
可选的,具体的:
在Transformer编码器中设置一个可学习的全局标记并将其对应的输出层表示向量作为整个简化图的表征向量;Transformer编码器的输入矩阵/>表示为:
其中,是可学习的参数,初始化为/>hG,i是/>的第i行;
将输入一个L层的Transformer编码器中进行表征学习;在Transformer编码器的第l层中(1≤l≤L),首先使用多头注意力机制将不同超节点所代表的子结构信息聚集到其中第i个自注意力头的计算方式如下式所示:
其中为三个可学习的参数矩阵,将前一个隐藏层的表征分别映射为/>随后,通过一个带有残差连接的前馈网络将拼接后的多头输出映射为一个低维的嵌入向量/>
其中,是映射层的权重矩阵;LN(·)是层归一化函数;q为自注意力头的个数;使用一个前馈神经网络更新隐层表征矩阵,前馈神经网络由两个全连接层和带有层归一化函数的残差连接构成,如下式:
其中,为全连接层中的权重;σ(•)为激活函数。
可选的,对虚假信息传播图进行图-图对比学习,以及采用简化后的虚假信息传播图进行节点-图对比学习,以训练图编码器:
使用多粒度的对比方式,同时进行图-图和节点-图之间的对比,具体公式如下:
对于每个输入图G,使用一个双通道的Transformer编码器获得输入图所对应的两种表征向量:
其中,是图编码器最后一层输出/>的第i行,该向量对应可学习参数/>的输出,/>的输出/>作为一种图级别表征;MLP(·)是一个全连接层神经网络;最后,基于同一个图的两个图级别表示zG和z′ G,构建图-图对比损失函数/>
其中,函数衡量zG和z′ G之间的相似度,/>是超参数;
对于每个输入图G,采用简化图中的超节点-图对比学习范式以取代原始图中的节点-图对比学习范式;损失函数如下:
其中,代表表征矩阵/>的第i行,sim(·,·)表示相似度函数。
可选的,将编码器输出的表征和原帖的表征向量进行拼接得到表征向量,通过全连接层基于表征向量计算虚假信息检测概率:
在训练分类器的过程中将编码器输出的表征zG和原帖的表征向量进行拼接得到表征向量z′:
z′=Concat(zG,zroot)
其中,zroot为原帖表征向量;随后通过两层全连接神经网络和Softmax(·)函数将z′映射为对应的标签概率嵌入向量z:
第二方面,本发明提供一种基于双通道图对比学习的虚假信息检测系统,包括:
数据采集模块,用于采集网络虚假信息及其传播拓扑,将虚假信息文本作为图节点及其特征,传播拓扑作为图的边结构,构建虚假信息传播图;
简化模块,用于将虚假信息传播图中的节点聚合为簇,并将簇通过池化操作转化为超节点,得到简化后的虚假信息传播图;
表征提取模块,用于通过图编码器对不同超节点进行图级别表征提取;
对比学习模块,用于对虚假信息传播图进行图-图对比学习,以及采用简化后的虚假信息传播图进行节点-图对比学习,以训练图编码器;
检测概率输出模块,用于将编码器输出的表征和原帖的表征向量进行拼接得到表征向量,通过全连接层基于表征向量计算虚假信息检测概率。
第三方面,本发明提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现一种基于双通道图对比学习的虚假信息检测方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现一种基于双通道图对比学习的虚假信息检测方法的步骤。
与现有技术相比,本发明有以下技术效果:
本发明通过图-图和节点-图双通道进行对比学习,并用少量标注数据微调模型,最终得到虚假信息检测结果。首先,根据网络虚假信息及其传播拓扑构建虚假信息传播图G,并通过软聚类方法将传播图处理为简化图;然后,使用基于Transformer的图编码器对简化图进行编码以获得图级别的表征;接着利用双通道图对比学习训练图编码器;最后,利用少量标注数据微调模型,并获得分类结果。本发明有效缓解了虚假信息检测方法对标注数据的依赖问题,同时双通道图对比学习在进行数据增强的同时能够有效保留传播网络的物理含义,保证了预训练效果,具有适应性强,泛化能力强,性能稳健等优点,使得本发明和其他的虚假信息方法相比,具有明显的优势。
附图说明
图1是本发明流程图。
图2是本发明基于双通道图对比学习的虚假信息检测方法逻辑框图。
图3是简化事件图网络的流程图。
图4是图级别特征提取的流程图。
图5是双通道图对比训练过程流程图。
图6是模型微调的流程图。
具体实施方式
以下结合附图及实施例对本发明的实施方式进行详细说明。需要说明的是,此处描述的实施例只用以解释本发明,并不用于限定本发明。此外,在不冲突的情况下,本发明中的实施例涉及的技术特征可以相互结合。
请参阅图1至图6,一种基于双通道图对比学习的虚假信息检测方法,包括:
采集网络虚假信息及其传播拓扑,将虚假信息文本作为图节点及其特征,传播拓扑作为图的边结构,构建虚假信息传播图;
将虚假信息传播图中的节点聚合为簇,并将簇通过池化操作转化为超节点,得到简化后的虚假信息传播图;
通过图编码器对不同超节点进行图级别表征提取;
对虚假信息传播图进行图-图对比学习,以及采用简化后的虚假信息传播图进行节点-图对比学习,以训练图编码器;
将编码器输出的表征和原帖的表征向量进行拼接得到表征向量,通过全连接层基于表征向量计算虚假信息检测概率。
具体包括:
步骤1,构建虚假信息传播图,通过采集网络虚假信息及其传播拓扑,将虚假信息文本作为图节点及其特征,将虚假信息传播结构作为图的边结构,构建虚假信息传播图G。
步骤2,简化事件图网络:通过一个软聚类模块将原图G中的节点聚合为簇,并将簇通过池化操作转化为超节点,即通过软聚类方法将原图G处理为简化图。即使用两个不同的GNN模块:一个为节点特征编码器通过编码得到d′维的节点表征,另一个为池化层/>其中c是简化图中簇的数目。图G的节点表征矩阵/>通过节点特征编码器获得:
通过带有Softmax函数的池化层得到每个节点分配到不同簇中的概率分配矩阵SG:
基于上述所获得的节点表征矩阵和概率分配矩阵SG,得到简化图中超节点对应的特征矩阵:
步骤3,图级别表征提取:在Transformer编码器中设置一个可学习的全局标记并将其对应的输出层表示向量作为整个简化图的表征向量。因此,Transformer编码器的输入矩阵/>表示为:
其中,是可学习的参数,初始化为/>hG,i是/>的第i行。将/>输入一个L层的Transformer编码器中进行表征学习。
在Transformer编码器的第l层中(1≤l≤L),首先使用多头注意力机制将不同超节点所代表的子结构信息聚集到其中第i个自注意力头的计算方式如下式所示:
其中为三个可学习的参数矩阵,将前一个隐藏层的表征分别映射为/>随后,通过一个带有残差连接的前馈网络将拼接后的多头输出映射为一个低维的嵌入向量:
其中,是映射层的权重矩阵;LN(·)是层归一化函数;q为自注意力头个数。随后,使用一个前馈神经网络更新隐层表征矩阵,前馈神经网络由两个全连接层和带有层归一化函数的残差连接构成,如下式:
其中,为全连接层中的权重;σ(·)为激活函数。
步骤4,双通道图对比学习:使用多粒度的对比方式,即同时进行图-图和节点-图的之间的对比,具体公式如下:
对于每个输入图G,使用一个双通道的Transformer编码器获得输入图所对应的两种表征向量:
其中,是图编码器最后一层输出/>的第i行,该向量对应可学习参数/>的输出,由于/>通过自注意力机制聚合了简化图中所有节点的特征信息,因此其输出/>可以作为一种图级别表征;MLP(·)是一个全连接层神经网络,需要注意的是,后续的微调过程中,将MLP的输出作为图级别表征。z′ G由简化图中所有节点输出通过平均池化得到,这种全局平均池化操作是图表示学习领域由节点表征得到图级别表征的通用方式,因此,z′ G可以作为另一种图级别表征。最后,基于同一个图的两个图级别表示zG和z′ G,构建图-图对比损失函数/>
其中,函数衡量zG和z′ G之间的相似度,/>是超参数。
对于每个输入图G,采用简化图中的超节点-图对比学习范式以取代原始图中的节点-图对比学习范式。损失函数如下:
其中,代表表征矩阵/>的第i行,sim(·,·)表示相似度函数。
步骤5,模型微调:为了能够更好地利用原帖中信息进行虚假信息检测,本发明提出了一种原帖信息增强的方式,即在训练分类器的过程中将编码器输出的表征zG和原帖的表征向量进行拼接得到表征向量z′:
z′=Concat(zG,zroot)
其中,zroot为原帖表征向量。随后通过两层全连接神经网络和Softmax(·)函数将z′映射为对应的标签概率嵌入向量z:
最后,根据标签概率嵌入向量z预测信息是否为虚假信息。
实施例:
本发明的具体实施过程包括构建虚假信息传播图、简化事件图网络、图级别特征提取、双通道图对比学习、模型微调。
图1是本发明基于双通道图对比学习的虚假信息检测方法框图。
1.构建虚假信息传播图
通过爬虫技术等从网络上爬取虚假信息及其传播拓扑,或从已有数据集中提取虚假信息文本及其拓扑结构,将虚假信息文本作为图节点及其特征,将虚假信息传播结构作为图的边结构,构建虚假信息传播图G。
2.简化事件图网络
假设原图有64个节点,128维节点表征。首先将原图输入到两个具体的GNN模块,一个为节点特征编码器通过编码得到64个节点的128维的节点表征,另一个为池化层/>其中32是简化图中簇的数目,简化图中簇的数目设定为数据集中图的平均节点数目的0.5倍,节点级别的编码器fnode和fpool均为两层图卷积神经网络。图G的节点表征矩阵/>通过节点特征编码器获得:
通过带有Softmax函数的池化层得到每个节点分配到不同簇中的概率分配矩阵SG:
基于上述所获得的节点表征矩阵和概率分配矩阵SG,得到简化图中超节点对应的特征矩阵:
该过程的流程图如图2所示。此后,便获得简化图中超节点对应的特征矩阵
3.图级别表征提取
首先,在Transformer编码器中设置一个可学习的全局标记并将其对应的输出层表示向量作为整个简化图的表征向量。Transformer编码器的输入矩阵/>表示为:
其中,是可学习的参数,初始化为/>hG,i是/>的第i行。
这里将输入一个3层的Transformer编码器中进行表征学习。在Transformer编码器的第l层中(1≤l≤3),使用多头注意力机制将不同超节点所代表的子结构信息聚集到中。这里,自注意力机制选用4头,其中第i个自注意力头的计算方式如下式所示:
其中为三个可学习的参数矩阵,可将前一个隐藏层的表征/>分别映射为/>随后,通过一个带有残差连接的前馈网络将拼接后的多头输出映射为一个低维的嵌入向量/>
其中,是映射层的权重矩阵;LN(·)是层归一化函数。随后,使用前馈神经网络更新隐层表征矩阵,前馈神经网络由两个全连接层和带有层归一化函数的残差连接构成,如下式:
其中,为全连接层中的权重;σ(·)为激活函数。
该过程的流程图如图3所示。此后,便获得更新后的隐层表征向量GG。
4.双通道图对比学习
这里使用多粒度的对比方式,即同时进行图-图和节点-图之间的对比,具体公式如下:
在不同数据集上可在[0,2]范围内选择λ,本实例选用1.2。对于输入图G,使用一个双通道的Transformer编码器获得输入图所对应的两种表征向量:
其中,是图编码器最后一层输出/>的第i行,该向量对应可学习参数/>的输出;MLP(·)是一个全连接层神经网络。最后,基于该图的两个图级别表示zG和z′ G来构建图-图对比损失函数/>
其中,函数衡量zG和z′ G之间的相似度,/>是超参数。
对于输入图G,损失函数如下:
其中,代表表征矩阵/>的第i行,sim(·,·)表示相似度函数。这里的相似度函数采用余弦相似度。
该过程的流程图如图4所示。
5.模型微调
在训练分类器的过程中将编码器输出的表征zG和原帖的表征向量进行拼接得到表征向量z′:
z′=Concat(zG,zroot)
通过两层全连接神经网络和Softmax(·)函数将z′映射为对应的标签概率嵌入向量:
根据编码器输出的图表征(z1,z2,…,zN),类别标签集合为Y={y1,y2,...,yM},损失函数采用交叉熵损失。交叉熵损失函数定义如下:
该过程的流程图如图5所示。
完成训练后,在测试集ctest上进行模型分类效果测试。统计获得被模型正确分类为正样本的样本数TP,被模型正确分类为负样本的样本数TN,被模型错误分类为正样本的样本数FP,被模型错误分类为负样本的样本数FN,通过计算获得召回率Recall、精确率Precision、准确率Acc和F1:
本发明再一实施例中,提供一种基于双通道图对比学习的虚假信息检测系统,能够用于实现上述的一种基于双通道图对比学习的虚假信息检测方法,具体的,该系统包括:
数据采集模块,用于采集网络虚假信息及其传播拓扑,将虚假信息文本作为图节点及其特征,传播拓扑作为图的边结构,构建虚假信息传播图;
简化模块,用于将虚假信息传播图中的节点聚合为簇,并将簇通过池化操作转化为超节点,得到简化后的虚假信息传播图;
表征提取模块,用于通过图编码器对不同超节点进行图级别表征提取;
对比学习模块,用于对虚假信息传播图进行图-图对比学习,以及采用简化后的虚假信息传播图进行节点-图对比学习,以训练图编码器;
检测概率输出模块,用于将编码器输出的表征和原帖的表征向量进行拼接得到表征向量,通过全连接层基于表征向量计算虚假信息检测概率。
本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本发明各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
本发明再一个实施例中,提供了一种计算机设备,该计算机设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于一种基于双通道图对比学习的虚假信息检测方法的操作。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关一种基于双通道图对比学习的虚假信息检测方法的相应步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.一种基于双通道图对比学习的虚假信息检测方法,其特征在于,包括:
采集网络虚假信息及其传播拓扑,将虚假信息文本作为图节点及其特征,传播拓扑作为图的边结构,构建虚假信息传播图;
将虚假信息传播图中的节点聚合为簇,并将簇通过池化操作转化为超节点,得到简化后的虚假信息传播图;
通过图编码器对不同超节点进行图级别表征提取;
对虚假信息传播图进行图-图对比学习,以及采用简化后的虚假信息传播图进行节点-图对比学习,以训练图编码器;
将编码器输出的表征和原帖的表征向量进行拼接得到表征向量,通过全连接层基于表征向量计算虚假信息检测概率。
2.根据权利要求1所述的一种基于双通道图对比学习的虚假信息检测方法,其特征在于,采集网络虚假信息及其传播拓扑,将虚假信息文本作为图节点及其特征,传播拓扑作为图的边结构,构建虚假信息传播图:
通过采集虚假信息文本及其传播拓扑,与网络拓扑结构相结合,将虚假信息文本作为图节点及其特征,即节点集合将虚假信息传播拓扑作为图的边结构,即边集合/>构建虚假信息传播图G。
3.根据权利要求2所述的一种基于双通道图对比学习的虚假信息检测方法,其特征在于,将虚假信息传播图中的节点聚合为簇,并将簇通过池化操作转化为超节点,得到简化后的虚假信息传播图:
通过软聚类方法将原图G中的节点聚合为簇,并将簇通过池化操作转化为超节点;具体地,使用两个不同的GNN模块:一个为节点特征编码器fnode:通过编码得到d′维的节点表征,另一个为池化层fpool:/> 其中c是简化图中簇的数目;图G的节点表征矩阵通过节点特征编码器获得:
通过带有Softmax函数的池化层得到每个节点分配到不同簇中的概率分配矩阵SG:
基于上述所获得的节点表征矩阵和概率分配矩阵SG,得到简化图中超节点对应的特征矩阵:
4.根据权利要求1所述的一种基于双通道图对比学习的虚假信息检测方法,其特征在于,通过图编码器对不同超节点进行图级别表征提取:
首先使用多头注意力机制将不同超节点所代表的子结构信息聚集到全局标记,随后,通过带有残差连接的前馈网络将拼接后的多头输出映射为低维的嵌入向量,最后,使用前馈神经网络更新隐层表征矩阵。
5.根据权利要求4所述的一种基于双通道图对比学习的虚假信息检测方法,其特征在于,具体的:
在Transformer编码器中设置一个可学习的全局标记并将其对应的输出层表示向量作为整个简化图的表征向量;Transformer编码器的输入矩阵/>表示为:
其中,是可学习的参数,初始化为/>hG,i是/>的第i行;
将输入一个L层的Transformer编码器中进行表征学习;在Transformer编码器的第l层中(1≤l≤L),首先使用多头注意力机制将不同超节点所代表的子结构信息聚集到其中第i个自注意力头的计算方式如下式所示:
其中为三个可学习的参数矩阵,将前一个隐藏层的表征/>分别映射为/>随后,通过一个带有残差连接的前馈网络将拼接后的多头输出映射为一个低维的嵌入向量/>
其中,是映射层的权重矩阵;LN(·)是层归一化函数;q为自注意力头的个数;使用一个前馈神经网络更新隐层表征矩阵,前馈神经网络由两个全连接层和带有层归一化函数的残差连接构成,如下式:
其中,为全连接层中的权重;σ(·)为激活函数。
6.根据权利要求1所述的一种基于双通道图对比学习的虚假信息检测方法,其特征在于,对虚假信息传播图进行图-图对比学习,以及采用简化后的虚假信息传播图进行节点-图对比学习,以训练图编码器:
使用多粒度的对比方式,同时进行图-图和节点-图之间的对比,具体公式如下:
对于每个输入图G,使用一个双通道的Transformer编码器获得输入图所对应的两种表征向量:
其中,是图编码器最后一层输出/>的第i行,该向量对应可学习参数/>的输出,的输出/>作为一种图级别表征;MLP(·)是一个全连接层神经网络;最后,基于同一个图的两个图级别表示zG和z′ G,构建图-图对比损失函数/>
其中,函数衡量zG和z′ G之间的相似度,/>是超参数;
对于每个输入图G,采用简化图中的超节点-图对比学习范式以取代原始图中的节点-图对比学习范式;损失函数如下:
其中,代表表征矩阵/>的第i行,sim(·,·)表示相似度函数。
7.根据权利要求1所述的一种基于双通道图对比学习的虚假信息检测方法,其特征在于,将编码器输出的表征和原帖的表征向量进行拼接得到表征向量,通过全连接层基于表征向量计算虚假信息检测概率:
在训练分类器的过程中将编码器输出的表征zG和原帖的表征向量进行拼接得到表征向量z′:
z′=Concat(zG,zroot)
其中,zroot为原帖表征向量;随后通过两层全连接神经网络和Softmax(·)函数将z′映射为对应的标签概率嵌入向量z:
8.一种基于双通道图对比学习的虚假信息检测系统,其特征在于,包括:
数据采集模块,用于采集网络虚假信息及其传播拓扑,将虚假信息文本作为图节点及其特征,传播拓扑作为图的边结构,构建虚假信息传播图;
简化模块,用于将虚假信息传播图中的节点聚合为簇,并将簇通过池化操作转化为超节点,得到简化后的虚假信息传播图;
表征提取模块,用于通过图编码器对不同超节点进行图级别表征提取;
对比学习模块,用于对虚假信息传播图进行图-图对比学习,以及采用简化后的虚假信息传播图进行节点-图对比学习,以训练图编码器;
检测概率输出模块,用于将编码器输出的表征和原帖的表征向量进行拼接得到表征向量,通过全连接层基于表征向量计算虚假信息检测概率。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述一种基于双通道图对比学习的虚假信息检测方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述一种基于双通道图对比学习的虚假信息检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311634116.6A CN117609864A (zh) | 2023-11-30 | 2023-11-30 | 一种基于双通道图对比学习的虚假信息检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311634116.6A CN117609864A (zh) | 2023-11-30 | 2023-11-30 | 一种基于双通道图对比学习的虚假信息检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117609864A true CN117609864A (zh) | 2024-02-27 |
Family
ID=89947860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311634116.6A Pending CN117609864A (zh) | 2023-11-30 | 2023-11-30 | 一种基于双通道图对比学习的虚假信息检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117609864A (zh) |
-
2023
- 2023-11-30 CN CN202311634116.6A patent/CN117609864A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102570278B1 (ko) | 교사 모델로부터 학생 모델을 트레이닝하는데 사용되는 학습 데이터를 생성하는 장치 및 방법 | |
WO2021063171A1 (zh) | 决策树模型的训练方法、系统、存储介质及预测方法 | |
CN109816032B (zh) | 基于生成式对抗网络的无偏映射零样本分类方法和装置 | |
CN104331442A (zh) | 视频分类方法和装置 | |
CN111027576B (zh) | 基于协同显著性生成式对抗网络的协同显著性检测方法 | |
CN112464717B (zh) | 一种遥感图像目标检测方法、系统、电子设备和存储介质 | |
CN111597374B (zh) | 图像分类方法、装置及电子设备 | |
CN111242358A (zh) | 一种双层结构的企业情报流失预测方法 | |
CN110598620A (zh) | 模型训练方法和装置、目标检测方法和装置 | |
CN116205482A (zh) | 重点人员风险等级评估方法及相关设备 | |
CN117893839B (zh) | 一种基于图注意力机制的多标记分类方法及系统 | |
CN113987188A (zh) | 一种短文本分类方法、装置及电子设备 | |
Bi et al. | Critical direction projection networks for few-shot learning | |
CN113704534A (zh) | 图像处理方法、装置及计算机设备 | |
CN115049852B (zh) | 一种轴承故障诊断方法、装置、存储介质及电子设备 | |
CN117609864A (zh) | 一种基于双通道图对比学习的虚假信息检测方法及系统 | |
CN115438658A (zh) | 一种实体识别方法、识别模型的训练方法和相关装置 | |
CN117011219A (zh) | 物品质量检测方法、装置、设备、存储介质和程序产品 | |
CN112433952B (zh) | 深度神经网络模型公平性测试方法、系统、设备及介质 | |
CN117523218A (zh) | 标签生成、图像分类模型的训练、图像分类方法及装置 | |
CN115359296A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN114595751A (zh) | 节点分类方法、系统、可读存储介质及计算机设备 | |
CN116051155B (zh) | 用户识别方法、装置、设备、存储介质和程序产品 | |
CN114898339B (zh) | 驾驶行为预测模型的训练方法、装置、设备、存储介质 | |
CN114708467B (zh) | 基于知识蒸馏的不良场景识别方法及系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |