CN113434684A - 自监督学习的谣言检测方法、系统、设备及存储介质 - Google Patents

自监督学习的谣言检测方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN113434684A
CN113434684A CN202110744485.5A CN202110744485A CN113434684A CN 113434684 A CN113434684 A CN 113434684A CN 202110744485 A CN202110744485 A CN 202110744485A CN 113434684 A CN113434684 A CN 113434684A
Authority
CN
China
Prior art keywords
representation
text
propagation
message
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110744485.5A
Other languages
English (en)
Other versions
CN113434684B (zh
Inventor
何向南
高远
王翔
封化民
张勇东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Research Institute
Original Assignee
Beijing Zhongke Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Research Institute filed Critical Beijing Zhongke Research Institute
Priority to CN202110744485.5A priority Critical patent/CN113434684B/zh
Publication of CN113434684A publication Critical patent/CN113434684A/zh
Application granted granted Critical
Publication of CN113434684B publication Critical patent/CN113434684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种自监督学习的谣言检测方法、系统、设备及存储介质,相关方法包括:将消息的传播过程建模为传播树,采用图编码器编码传播树的图结构信息,获得传播表征;采用文本编码器编码消息的文本内容信息,获得文本表征;基于自监督学习的方式,提升相同消息的传播表征与文本表征之间的相似度,并降低不同消息的传播表征与文本表征之间的相似度;利用基于自监督学习的方式得到的消息表征进行谣言检测。上述方案利用自监督学习综合多个来源的信息,得到消息的更加全面的表达,从而提高下游的自动谣言检测任务的准确度和稳定性。

Description

自监督学习的谣言检测方法、系统、设备及存储介质
技术领域
本发明涉及谣言检测技术领域,尤其涉及一种自监督学习的谣言检测方法、系统、设备及存储介质。
背景技术
随着互联网的发展,社交媒体平台已经成为当今用户获得信息的主要来源之一。在带来方便的同时,也为谣言提供了传播的沃土,对社会和公共安全造成严重威胁。在信息爆炸的时代,网络消息铺天盖地,人工筛查谣言会耗费大量人力物力,在此背景下,自动谣言检测应运而生。
针对社交平台上的谣言检测问题,目前存在以下几类方法:
基于内容的方法(Content-based)。这类方法直接从消息文本中抽取词性、词义、情感、观点等信息。这类方法比较直观,并且由于自然语言处理领域的蓬勃发展,很多成熟的工具都可以用来抽取信息。然而,由于谣言与正常消息的写作风格越来越相像,语义的描述性正在逐渐降低。另外,社交平台的文字相对较短,因此仅仅考虑内容的方法的模型有效性和稳定性都有限。
基于上下文的方法(Context-based)。这类方法把社交网络建模成图结构,获取消息周围的相关信息从而判断该消息的可信度。这类方法可进一步细分为两类技术:一类是基于用户的方法,通过分析用户评论、点赞、转发的消息性质判断用户的可信度,在此基础上根据用户与消息之间的交互记录给消息的可信度打分。另一类是基于网络的方法,从更宏观的角度考虑网络中消息的传播结构、扩散模式、图密度、聚类系数等指标来检测可疑消息。这类方法的数据会涉及到用户隐私,很难获取;并且模型性能在稀疏的网络中表现会大打折扣,很大程度上依赖于图数据的数量和质量。
基于时间序列的方法(Sequence-based)。这类方法将消息的传播过程建模为一个时间序列。在消息的传播周期中,每一个时刻都对应着不同用户的交互。这类方法希望通过捕捉消息交互的爆发期及衰减期的不同行为特征来筛选可疑消息。然而,当消息的传播周期较长时,时序模型在后期的学习过程会遗忘先前学到的知识。另外,对时序特征的依赖使得序列模型很难做到在消息发布的早期就做出判断。
总而言之,这些方法都在自动谣言检测任务上取得了较好的效果,但单薄的特征很难在所有的场景中都得到很好的性能,因此,检测性能还有待提升。
发明内容
本发明的目的是提供一种自监督学习的谣言检测方法、系统、设备及存储介质,利用自监督学习综合多个来源的信息,得到消息的更加全面的表达,从而提高下游的自动谣言检测任务的准确度和稳定性。
本发明的目的是通过以下技术方案实现的:
一种自监督学习的谣言检测方法,包括:
将消息的传播过程建模为传播树,采用图编码器编码传播树的图结构信息,获得传播表征;采用文本编码器编码消息的文本内容信息,获得文本表征;将传播表征与文本表征拼接结果、传播表征、或者文本表征输入至分类模型进行谣言检测;同时,对于传播表征与文本表征,基于自监督学习的方式,提升相同消息的传播表征与文本表征之间的一致性,以及不同消息的传播表征与文本表征之间的差异;综合分类模型的损失函数与基于自监督学习目标函数训练所述分类模型、图编码器与文本编码器;
通过训练后的图编码器得到待检测消息的传播表征、或者通过训练后的文本编码器得到待检测消息的文本表征、或者通过训练后的图编码器与文本编码器得到待检测消息的传播表征与文本表征后进行拼接,再输入至训练得到的分类模型进行谣言检测。
一种自监督学习的谣言检测系统,该系统包括:
编码单元,用于将消息的传播过程建模为传播树,采用图编码器编码传播树的图结构信息,获得传播表征;采用文本编码器编码消息的文本内容信息,获得文本表征;
自监督学习单元,用于基于自监督学习的方式,提升相同消息的传播表征与文本表征之间的一致性,并提升不同消息的传播表征与文本表征之间的差异;
分类模型,用于利用传播表征与文本表征拼接结果、传播表征、或者文本表征进行谣言检测;
其中,综合分类模型的损失函数与基于自监督学习目标函数训练所述分类模型、图编码器与文本编码器。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,1)能够在消息发布的早期判断其是否可疑,从而方便在消息接触到大众前阻断;2)由于自监督学习的优势,节省了给数据打标签的大量人力物力;3)利用的信息更加丰富(消息传播的结构信息与消息的文本信息),能够更加全面的描述消息的特征,更好的消息表示有助于得到的更好的分类结果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种自监督学习的谣言检测方法的流程图;
图2为本发明实施例提供的将消息传播过程建模为传播树及传播树对应邻接矩阵的示意图;
图3为本发明实施例提供的基于实例判别的自监督学习的原理图;
图4为本发明实施例提供的基于聚类的对比自监督学习的原理图;
图5为本发明实施例提供的不同检测模型的性能对比示意图;
图6为本发明实施例提供的两个真实案例的示意图;
图7为本发明实施例提供的一种自监督学习的谣言检测系统的示意图;
图8为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“和/或”是表示两者任一或两者同时均可实现,例如,X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
下面对本发明所提供的一种自监督学习的谣言检测方法进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。如图1所示,该方法主要包括训练与测试两个部分,各部分主要包括:
1、训练阶段。
将消息的传播过程建模为传播树,采用图编码器编码传播树的图结构信息,获得传播表征;采用文本编码器编码消息的文本内容信息,获得文本表征;将传播表征与文本表征拼接结果、传播表征、或者文本表征输入至分类模型进行谣言检测;同时,对于传播表征与文本表征,基于自监督学习的方式,提升相同消息的传播表征与文本表征之间的一致性,以及不同消息的传播表征与文本表征之间的差异;综合分类模型的损失函数与基于自监督学习目标函数训练所述分类模型、图编码器与文本编码器。
2、测试阶段。
通过训练后的图编码器得到待检测消息的传播表征、或者通过训练后的文本编码器得到待检测消息的文本表征、或者通过训练后的图编码器与文本编码器得到待检测消息的传播表征与文本表征后进行拼接,再输入至训练得到的分类模型进行谣言检测。
本发明实施例上述方案可以应用于在线社交平台和新闻发布平台等需要进行谣言检测的平台,只要获取消息的文本内容及传播数据即可提取传播表征和/或文本表征,从而进行谣言检测。
为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的一种自监督学习的谣言检测方法进行详细描述。
一、利用编码器编码不同数据信息。
本发明实施例考虑多种数据信息,一种是消息在传播过程中所涉及的结构信息,另一种为消息的文本内容,编码的优选方式如下:
1、将社交网络建模为传播树,利用图编码器编码传播树的图结构信息。
获取消息及其相关的传播数据后,将消息的传播过程建模为传播树。传播树表示<V,ε>,其中,v表示节点集合,ε表示边集合;将原消息作为根节点,记为M0,其余节点为原消息的相关回复(来自传播数据);若第j个节点Mj为第i个节点Mi的回复,则节点Mi和Mj之间存在一条边。在向量空间中传播树可以表示为邻接矩阵A的形式:A是一个二维方阵,两个维度均为传播树的节点总个数。若两个节点Mi和Mj之间存在一条边,则A[i][j]=1,反之A[i][j]=0。如图2所示,左侧为传播树,右侧为邻接矩阵A。
在之前的研究中表明,谣言与真相的传播模式有很大差异。参考切比雪夫谱域卷积神经网络(ChebNet),可以使用其一阶估计来聚合根节点自身及其周围邻居的信息,以识别消息的传播模式。在本发明实施例中,使用图卷积神经网络作为图编码器,具体的使用L层的图卷积神经网络编码传播树的图结构信息,第l层的图卷积神经网络的函数表示为:
Figure BDA0003143949500000051
其中,l=1,...,L,σ(·)是sigmoid激活函数,D是传播树的度矩阵,
Figure BDA0003143949500000052
为传播树的邻接矩阵A中添加自连接(即对角线为1)后的矩阵;Wl为第l层的图卷积神经网络的参数,H(l)为第l层的图卷积神经网络输出隐层表示;H0是节点的特征矩阵,第L层的图卷积神经网络输出隐层表示H(L)即为传播表征。
示例性的,每一个节点对应的文本可以通过TF-IDF统计结果得到的独热编码向量表示,由所有节点对应的独热编码向量表示构成的特征矩阵即为H0
2、利用文本编码器编码消息的文本内容信息。
本发明实施例中,文本编码器包括:卷积神经网络与多头注意力机制框架(自注意力机制)。
所述卷积神经网络可以通过不同滤波器设置不同大小的窗口,能够在不同的n元语法(ngram)中提取多层次的信息,其中,一个h元语法对应的滤波器表示为:
vk=σ(w·zk:k+h-1+b)
其中,n与h均为整数,h≤n,σ(·)是sigmoid激活函数,z为文本内容信息中词汇对应的特征预训练向量(例如,word2vec,GloVe等)构成的矩阵,矩阵的每一行为一个词汇的特征预训练向量,矩阵行数为文本内容信息的词汇数N,角标k:k+h-1表示滤波器的感受野,k=0,...,N-h-1,w、b各自为可训练的权重、偏置参数。
但传统的卷积神经网络会受到文本距离的限制,即只有同窗口的词汇能看到彼此的信息,通过引入多头注意力机制框架使得每个词都能够得到其他所有词的信息,每个词都会由该词最接近的词语来表示。因此,在原消息的文本内容信息输入卷积神经网络前,先利用多头注意力机制模块提取全局的文本信息,可以使得模型获得更好的长距离依赖能力。
二、自监督学习。
本发明实施例提供两种自监督学习方案,一种为基于实例判别的自监督学习,另一种为基于聚类的对比自监督学习;通过自监督学习来提升相同消息的传播表征与文本表征之间的一致性,并提升不同消息的传播表征与文本表征之间的差异;两种自监督学习方案的优选方式如下:
1、基于实例判别的自监督学习。
如之前的第一部分中,提取了两类表征,每一类表征对应一类视图,也即消息有两个不同视图,传播视图g和内容视图t。如图3所示,将相同消息传播表征gi与文本表征ti作为正例对,不同消息传播表征gi与文本表征tj作为负例对,正例对迫使来自相同消息的不同视图表示一致(即最大化二者的相似度),负例对则鼓励来自不同消息的不同视图出现差异(即最小化二者的相似度)。
基于实例判别的自监督学习的方式训练图编码器与文本编码器,目标函数表示为:
Figure BDA0003143949500000061
其中,s(·)是相似度函数(如内积,cosine相似度),C是消息集合;τ是超参数,称做温度系数,对负采样(即采样负例对)的策略有影响,一个合适的温度系数有助于获得困难的负样本对。
2、基于聚类的对比自监督学习。
从群体的角度上说,一个合理的假设是相似的消息有着相似的视图,因此可以通过聚类的方法来产生伪标签(pseudo-label)作为自监督信号,同时,引入两个分类器分别对文本表征与传播表征进行分类,再利用自监督信号来优化两个分类器和图编码器与文本编码器,如图4所示,主要包括:
步骤1、使用聚类算法(例如,KNN等聚类算法)计算聚类结果a1与a2,目标函数为:
Figure BDA0003143949500000071
其中,S1与S2是聚类算法的质心矩阵,共有K行,其中K为预先设定的类别数目。a1和a2是独热编码向量,代表了分配的聚类类别(只有对应类别的值为1,其余值均为0),也即伪标签;C是消息集合,c表示一条消息,.g为消息c对应的图结构信息,t为消息c对应的文本内容信息。
质心矩阵S*与伪标签a*(*=1,2)的具体含义如下:S1是与传播表征相关的质心矩阵,S2是与文本表征相关的质心矩阵,同样的,a1是与传播表征相关的聚类结果,a2是与文本表征相关的聚类结果,两个质心矩阵的每一行都是对应类别的特征向量,因此S*a*可以把对应类别的特征向量取出来;a*对应第几行为1,则样本就被分到了相应类别。
本步骤可以分为两个阶段:
a)固定S1与S2矩阵,找到最优的聚类结果a1和a2
b)根据最优聚类结果,分别指导矩阵S1与S2的优化。
步骤2、将聚类结果a1与a2作为自监督信息训练编码器与分类器,目标函数表示为:
Figure BDA0003143949500000072
其中,l(·)为损失函数,如负最大似然估计(NLL loss);f1与f2均为分类器,本发明选用的是线性分类器。E1与E2为图编码器与文本编码器。
从上述目标函数
Figure BDA0003143949500000073
可知,将两类表征进行了交叉,即将与传播表征相关的聚类结果a1作为文本表征分类的伪标签,将与文本表征相关的聚类结果a2作为传播表征分类的伪标签。
三、谣言检测。
在自监督学习的基础上,最终可以学到消息的表征(由于自监督学习中,两类表征已经做过交叉,因此使用文本表征和传播表征拼接,或使用任一单一表征均可),直接利用消息的表征进行谣言检测。
本发明实施例中,谣言检测作为下游任务,可以使用任意分类模型(例如,线性回归二分类模型)对输入的消息的表征进行可信度打分,将可信度打分结果与设定阈值比较,即可得到谣言检测结果。
将本发明实施例整个方案作为一个谣言检测模型,采用多任务学习的策略做联合优化,训练阶段,对于每一消息及其传播数据,依照前文介绍的方案提取文本表征与传播表征,后续分为两类任务,一类是主任务,即谣言检测任务,将文本表征或者传播表征,或者二者拼接结果输入至分类模型,进行谣言检测;另一类是辅助任务,即自监督任务,将文本表征与传播表征通过前述任一种自监督学习的方式来训练图编码器与文本编码器。
两类任务是联合训练的,最终训练阶段的目标函数为:
Figure BDA0003143949500000081
其中,
Figure BDA0003143949500000082
为主任务的损失函数,由针对消息表征进行谣言检测时所使用的分类模型决定;λ为超参数,
Figure BDA0003143949500000083
为基于实例判别的自监督学习的目标函数(即
Figure BDA0003143949500000084
)或者基于聚类的对比自监督学习的目标函数(即
Figure BDA0003143949500000085
)。
以上主要针对训练过程进行了介绍,测试过程与训练过程类似,但是只需执行主任务(即谣言检测任务)。如之前所述,在自监督学习时,两类表征已经做过交叉并训练了图编码器与文本编码器,因此,测试阶段,可以只提取单一表征输入至分类模型进行谣言检测,或者提取两类表征拼接后输入至分类模型进行谣言检测。
本发明实施例上述方案主要获得如下有益效果:(1)能够在消息发布的早期判断其是否可疑,从而方便在消息接触到大众前阻断;(2)由于自监督学习的优势,节省了给数据打标签的大量人力物力;(3)利用的信息更加丰富,能够更加全面的描述消息的特征,更好的消息表示有助于得到的更好的分类结果。具体原因阐述如下:
(1)本发明使用的特征是文本内容和传播模式。其中文本内容在消息发布时即可获得,此时模型的性能可以由词汇中提取的多层次信息保证;随着传播的开始,图结构数据逐渐完善,自监督学习开始起作用,模型性能进一步提升。具体结果如图5所示,SSRD是本发明的结果,DTC,RvNN和Bi-GCN为选用的具有代表性的基准模型。
(2)本发明采用自监督学习的结构提升学习表征的质量,从而提高下游谣言检测任务的质量,不依赖标注数据,因此极大的降低了标注数据过程的人力物力;此外,在基于聚类的方法中,如果选用的聚类算法能够产生高质量的伪标签,也可以作为监督学习(supervised learning)的信号。
(3)本发明同时采用了文本内容特征和传播模式,可以适应各种不同的场景,如文本很短或传播模式比较接近的情况下,来自不同来源的不同视图数据可以互为补充。因此模型的稳定性能够得到保证。
为了验证本发明的有效性,进行了如下实验:
实验在推特(Twitter),微博(Weibo)以及菲墨(PHEME)这三个个真实数据集上进行了实验。Twitter和PHEME数据集为四分类:非谣言(Non-Rumor),真实谣言(True-Rumor),虚假谣言(False-Rumor),未验证(Unverified)。而Weibo为二分类:真实谣言和虚假谣言。为了保证实验的有效性,采用了5折验证(5-fold cross validation)方法,将数据集分为5份。总共进行5次实验:在每次实验中,选取一份数据作为验证集,其余数据为训练集,5次验证集指标求平均得到最终结果。将目前最先进的方法Bi-GCN与RvNN作为对比方案,本发明上述方案命名为SRD,将使用基于实例判别的自监督学习的方案命名为SRD-PSID,将使用基于聚类的对比自监督学习的方案命名为SRD-PSCD;实验以准确率(Acc),F1-score做指标,对于这两个指标,均为值越大越好,实验结果如表1所示。
Figure BDA0003143949500000091
表1本发明与其他方法的对比结果
从表1所示的结果来看,在三个数据集上本发明提出的SRD-PSID与SRD-PSCD在所有指标上都超越了目前两种最先进的方法Bi-GCN与RvNN。这得益于本发明在检测谣言时,不仅仅考虑了单一的文本内容特征或传播结构,而是二者的全面结合,从而对于消息的表征学习更加准确。此外可以看出,SRD-PSID一般情况下优于SRD-PSCD,这是因为引入负采样和正例负例对能够给与模型更多的信息。
基于此实验的检测结果,为了进一步验证本发明中各个部分的有效性,在推特数据集上进行了额外的消融分析实验,四组实验设置如下:(1)只保留文本信息(SRD-TEXT);(2)只保留传播信息(SRD-GRAPH);(3)同时使用文本信息和传播信息,但是不做处理直接将二者的结果拼接(SRD-CONCAT);(4)应用基于实例判别的自监督学习(SSRD-PSID)。结果如表2所示,不同于表1,四个类别的F1-score全部列出。
Methods Acc NF1 FF1 TF1 UF1
SSRD-TEXT 0.803 0.772 0.768 0.885 0.783
SSRD-GRAPH 0.880 0.825 0.901 0.924 0.877
SSRD-CONCAT 0.888 0.826 0.910 0.940 0.860
SSRD-PSID 0.903 0.857 0.906 0.953 0.909
表2消融实验结果
从表2所示结果可见,仅仅使用文本内容特征效果很差,可以归因于社交平台的消息短小;拼接结果优于任意的单一特征方法,这说明全面而丰富的特征能够提高模型性能,而本发明提出的基于实例判别的自监督学习可以更好的利用异质信息,为下游任务提供质量更高的特征表示。
为了进一步探究丰富的特征为何可以更好的表示消息,在Twitter上取了两个真实案例做个案分析(case study),如图6所示,右侧英文表示案例1与案例2的文本内容,左侧为两个案例对应的传播树结果。从图6左侧可见这两个案例有着相同的传播结构,但是从图6右侧可见,两个案例有着不同的标签(案例1为True,案例2为Unverified)。结果如表3所示,数据代表的是数据被分到各个类的概率,表3中的NP、TP、FP、UP为前述提到的四分类的简写,例如,NP为Non-rumor Probability的简写。
Figure BDA0003143949500000101
表3案例分析结果
从表3所示结果可见,Bi-GCN更加注重于传播结构,在此情况下容易做出错误的判断,而SRD可以根据文本来区分这两个案例,得到更为准确的结果。所以使用更多的特征可以应对更多的场景。
本发明另一实施例还提供一种自监督学习的谣言检测系统,其主要用于实现前述实施例提供的方法,如图7所示,该系统主要包括:
编码单元,用于将消息的传播过程建模为传播树,采用图编码器编码传播树的图结构信息,获得传播表征;采用文本编码器编码消息的文本内容信息,获得文本表征;
自监督学习单元,用于基于自监督学习的方式,提升相同消息的传播表征与文本表征之间的一致性,并提升不同消息的传播表征与文本表征之间的差异;
分类模型,用于利用传播表征与文本表征拼接结果、传播表征、或者文本表征进行谣言检测;
其中,综合分类模型的损失函数与基于自监督学习目标函数训练所述分类模型、图编码器与文本编码器。
本发明另一实施例还提供一种处理设备,如图8所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
本发明另一实施例还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (10)

1.一种自监督学习的谣言检测方法,其特征在于,包括:
将消息的传播过程建模为传播树,采用图编码器编码传播树的图结构信息,获得传播表征;采用文本编码器编码消息的文本内容信息,获得文本表征;将传播表征与文本表征拼接结果、传播表征、或者文本表征输入至分类模型进行谣言检测;同时,对于传播表征与文本表征,基于自监督学习的方式,提升相同消息的传播表征与文本表征之间的一致性,以及不同消息的传播表征与文本表征之间的差异;综合分类模型的损失函数与基于自监督学习目标函数训练所述分类模型、图编码器与文本编码器;
通过训练后的图编码器得到待检测消息的传播表征、或者通过训练后的文本编码器得到待检测消息的文本表征、或者通过训练后的图编码器与文本编码器得到待检测消息的传播表征与文本表征后进行拼接,再输入至训练得到的分类模型进行谣言检测。
2.根据权利要求1所述的一种自监督学习的谣言检测方法,其特征在于,所述将消息的传播过程建模为传播树包括:
将传播树表示<V,ε>,其中,ν表示节点集合,ε表示边集合;将原消息作为根节点,记为M0,其余节点为原消息的相关回复;若第j个节点Mj为第i个节点Mi的回复,则节点Mi和Mj之间存在一条边。
3.根据权利要求1或2所述的一种自监督学习的谣言检测方法,其特征在于,所述图编码器包括:图卷积神经网络;
使用L层的图卷积神经网络编码传播树的图结构信息,第l层的图卷积神经网络的函数表示为:
Figure FDA0003143949490000011
其中,l=1,...,L,σ(·)是sigmoid激活函数,D是传播树的度矩阵,
Figure FDA0003143949490000012
为传播树的邻接矩阵A中添加自连接后的矩阵;Wl为第l层的图卷积神经网络的参数,H(l)为第l层的图卷积神经网络输出隐层表示;H0是节点的特征矩阵,每一行为一个节点对应文本的独热编码向量;第L层的图卷积神经网络输出隐层表示H(L)即为传播表征。
4.根据权利要求1所述的一种自监督学习的谣言检测方法,其特征在于,文本编码器包括:卷积神经网络与多头注意力机制框架;
将消息的文本内容信息通过多头注意力机制框架提取全局的文本信息,再输入至卷积神经网络进行编码;
通过多头注意力机制框架每个词都能够得到其他所有词的信息;
所述卷积神经网络通过不同滤波器设置不同大小的窗口,能够在不同的n元语法中提取多层次的信息,其中,一个h元语法对应的滤波器表示为:
vk=σ(w·zk:k+h-1+b)
其中,n与h均为整数,h≤n,σ(·)是sigmoid激活函数,z为文本内容信息中词汇对应的特征预训练向量构成的矩阵,矩阵的每一行为一个词汇的特征预训练向量,矩阵行数为文本内容信息的词汇数N,角标k:k+h-1表示滤波器的感受野,k=0,...,N-h-1,w、b各自为权重、偏置参数。
5.根据权利要求1所述的一种自监督学习的谣言检测方法,其特征在于,所述基于自监督学习的方式包括:基于实例判别的自监督学习的方式;
将相同消息传播表征gi与文本表征ti作为正例对,不同消息传播表征gi与文本表征tj作为负例对,基于实例判别的自监督学习的方式训练图编码器与文本编码器,目标函数表示为:
Figure FDA0003143949490000021
其中,s(·)是相似度函数,C是消息集合,τ是超参数。
6.根据权利要求1所述的一种自监督学习的谣言检测方法,其特征在于,所述基于自监督学习的方式包括:基于聚类的对比自监督学习方式;通过的聚类方式产生伪标签作为自监督信号,同时,引入两个分类器分别对文本表征与传播表征进行分类,再利用自监督信号来优化两个分类器和图编码器与文本编码器,步骤包括:
使用聚类算法计算聚类结果a1与a2,目标函数为:
Figure FDA0003143949490000022
其中,S1是与传播表征相关的质心矩阵,S2是与文本表征相关的质心矩阵,质心矩阵的每一行都是对应类别的特征向量;a1是与传播表征相关的聚类结果,a2是与文本表征相关的聚类结果,代表了分配的聚类类别,也即伪标签;C是消息集合,c表示一条消息,g为消息c对应的图结构信息,t为消息c对应的文本内容信息;
将聚类结果a1与a2作为自监督信息训练编码器与分类器,目标函数表示为:
Figure FDA0003143949490000023
其中,l(·)为损失函数,f1与f2均为分类器,E1与E2为图编码器与文本编码器。
7.根据权利要求1或5或6所述的一种自监督学习的谣言检测方法,其特征在于,训练阶段的目标函数为:
Figure FDA0003143949490000031
其中,
Figure FDA0003143949490000032
为主任务的损失函数,由分类模型决定;λ为超参数,
Figure FDA0003143949490000033
为基于自监督学习的目标函数。
8.一种自监督学习的谣言检测系统,其特征在于,该系统包括:
编码单元,用于将消息的传播过程建模为传播树,采用图编码器编码传播树的图结构信息,获得传播表征;采用文本编码器编码消息的文本内容信息,获得文本表征;
自监督学习单元,用于基于自监督学习的方式,提升相同消息的传播表征与文本表征之间的一致性,并提升不同消息的传播表征与文本表征之间的差异;
分类模型,用于利用传播表征与文本表征拼接结果、传播表征、或者文本表征进行谣言检测;
其中,综合分类模型的损失函数与基于自监督学习目标函数训练所述分类模型、图编码器与文本编码器。
9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。
10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。
CN202110744485.5A 2021-07-01 2021-07-01 自监督学习的谣言检测方法、系统、设备及存储介质 Active CN113434684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110744485.5A CN113434684B (zh) 2021-07-01 2021-07-01 自监督学习的谣言检测方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110744485.5A CN113434684B (zh) 2021-07-01 2021-07-01 自监督学习的谣言检测方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113434684A true CN113434684A (zh) 2021-09-24
CN113434684B CN113434684B (zh) 2022-03-08

Family

ID=77758608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110744485.5A Active CN113434684B (zh) 2021-07-01 2021-07-01 自监督学习的谣言检测方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113434684B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080749A (zh) * 2022-08-16 2022-09-20 之江实验室 一种基于自监督训练的弱监督文本分类方法、系统和装置
WO2023137906A1 (zh) * 2022-01-21 2023-07-27 平安科技(深圳)有限公司 文档标题生成方法、装置、设备及存储介质
CN117633635A (zh) * 2024-01-23 2024-03-01 南京信息工程大学 一种基于时空传播图的动态谣言检测方法

Citations (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010024184A1 (ja) * 2008-08-26 2010-03-04 日本電気株式会社 風評情報検出システム、風評情報検出方法及びプログラム
CN103631901A (zh) * 2013-11-20 2014-03-12 清华大学 一种基于用户信任网络最大生成树的谣言控制方法
CN103902621A (zh) * 2012-12-28 2014-07-02 深圳先进技术研究院 一种鉴定网络谣言的方法和装置
CN105786798A (zh) * 2016-02-25 2016-07-20 上海交通大学 一种人机交互中自然语言意图理解方法
CN106354845A (zh) * 2016-08-31 2017-01-25 上海交通大学 基于传播结构的微博谣言识别方法和系统
CN108228853A (zh) * 2018-01-11 2018-06-29 北京信息科技大学 一种微博谣言识别方法及系统
CN108804608A (zh) * 2018-05-30 2018-11-13 武汉烽火普天信息技术有限公司 一种基于层次attention的微博谣言立场检测方法
CN109949300A (zh) * 2018-06-03 2019-06-28 北京昆仑医云科技有限公司 解剖树结构分析的方法、系统和计算机可读介质
CN110362818A (zh) * 2019-06-06 2019-10-22 中国科学院信息工程研究所 基于用户关系结构特征的微博谣言检测方法和系统
CN111079444A (zh) * 2019-12-25 2020-04-28 北京中科研究院 一种基于多模态关系的网络谣言检测方法
US10643259B2 (en) * 2007-03-22 2020-05-05 Sophos Limited Systems and methods for dynamic vendor and vendor outlet classification
CN111343147A (zh) * 2020-02-05 2020-06-26 北京中科研究院 一种基于深度学习的网络攻击检测装置及方法
US10747837B2 (en) * 2013-03-11 2020-08-18 Creopoint, Inc. Containing disinformation spread using customizable intelligence channels
CN111581534A (zh) * 2020-05-22 2020-08-25 哈尔滨工程大学 一种基于立场一致的谣言传播树结构优化方法
US20200342314A1 (en) * 2019-04-26 2020-10-29 Harbin Institute Of Technology (shenzhen) Method and System for Detecting Fake News Based on Multi-Task Learning Model
CN112035669A (zh) * 2020-09-09 2020-12-04 中国科学技术大学 基于传播异质图建模的社交媒体多模态谣言检测方法
CN112069397A (zh) * 2020-08-21 2020-12-11 三峡大学 自注意力机制与生成对抗网络相结合的谣言检测方法
CN108833382B (zh) * 2018-05-31 2020-12-15 腾讯科技(深圳)有限公司 网络信息检测方法、装置、存储介质和计算机设备
CN112199608A (zh) * 2020-11-03 2021-01-08 北京中科研究院 基于网络信息传播图建模的社交媒体谣言检测方法
CN112256861A (zh) * 2020-09-07 2021-01-22 中国科学院信息工程研究所 一种基于搜索引擎返回结果的谣言检测方法及电子装置
US10902208B2 (en) * 2018-09-28 2021-01-26 International Business Machines Corporation Personalized interactive semantic parsing using a graph-to-sequence model
CN112329444A (zh) * 2020-11-10 2021-02-05 南开大学 融合文本和传播结构的早期谣言检测方法
CN112599213A (zh) * 2021-03-04 2021-04-02 联仁健康医疗大数据科技股份有限公司 一种分类编码确定方法、装置、设备及存储介质
CN112685541A (zh) * 2021-03-11 2021-04-20 中南大学 一种基于多任务学习的社交媒体谣言检测方法
CN112732906A (zh) * 2020-12-21 2021-04-30 中国人民解放军国防科技大学 一种基于传播图神经网络的互联网谣言检测方法

Patent Citations (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10643259B2 (en) * 2007-03-22 2020-05-05 Sophos Limited Systems and methods for dynamic vendor and vendor outlet classification
WO2010024184A1 (ja) * 2008-08-26 2010-03-04 日本電気株式会社 風評情報検出システム、風評情報検出方法及びプログラム
CN103902621A (zh) * 2012-12-28 2014-07-02 深圳先进技术研究院 一种鉴定网络谣言的方法和装置
US10747837B2 (en) * 2013-03-11 2020-08-18 Creopoint, Inc. Containing disinformation spread using customizable intelligence channels
CN103631901A (zh) * 2013-11-20 2014-03-12 清华大学 一种基于用户信任网络最大生成树的谣言控制方法
CN105786798A (zh) * 2016-02-25 2016-07-20 上海交通大学 一种人机交互中自然语言意图理解方法
CN106354845A (zh) * 2016-08-31 2017-01-25 上海交通大学 基于传播结构的微博谣言识别方法和系统
CN108228853A (zh) * 2018-01-11 2018-06-29 北京信息科技大学 一种微博谣言识别方法及系统
CN108804608A (zh) * 2018-05-30 2018-11-13 武汉烽火普天信息技术有限公司 一种基于层次attention的微博谣言立场检测方法
CN108833382B (zh) * 2018-05-31 2020-12-15 腾讯科技(深圳)有限公司 网络信息检测方法、装置、存储介质和计算机设备
CN109949300A (zh) * 2018-06-03 2019-06-28 北京昆仑医云科技有限公司 解剖树结构分析的方法、系统和计算机可读介质
US10902208B2 (en) * 2018-09-28 2021-01-26 International Business Machines Corporation Personalized interactive semantic parsing using a graph-to-sequence model
US20200342314A1 (en) * 2019-04-26 2020-10-29 Harbin Institute Of Technology (shenzhen) Method and System for Detecting Fake News Based on Multi-Task Learning Model
CN110362818A (zh) * 2019-06-06 2019-10-22 中国科学院信息工程研究所 基于用户关系结构特征的微博谣言检测方法和系统
CN111079444A (zh) * 2019-12-25 2020-04-28 北京中科研究院 一种基于多模态关系的网络谣言检测方法
CN111343147A (zh) * 2020-02-05 2020-06-26 北京中科研究院 一种基于深度学习的网络攻击检测装置及方法
CN111581534A (zh) * 2020-05-22 2020-08-25 哈尔滨工程大学 一种基于立场一致的谣言传播树结构优化方法
CN112069397A (zh) * 2020-08-21 2020-12-11 三峡大学 自注意力机制与生成对抗网络相结合的谣言检测方法
CN112256861A (zh) * 2020-09-07 2021-01-22 中国科学院信息工程研究所 一种基于搜索引擎返回结果的谣言检测方法及电子装置
CN112035669A (zh) * 2020-09-09 2020-12-04 中国科学技术大学 基于传播异质图建模的社交媒体多模态谣言检测方法
CN112199608A (zh) * 2020-11-03 2021-01-08 北京中科研究院 基于网络信息传播图建模的社交媒体谣言检测方法
CN112329444A (zh) * 2020-11-10 2021-02-05 南开大学 融合文本和传播结构的早期谣言检测方法
CN112732906A (zh) * 2020-12-21 2021-04-30 中国人民解放军国防科技大学 一种基于传播图神经网络的互联网谣言检测方法
CN112599213A (zh) * 2021-03-04 2021-04-02 联仁健康医疗大数据科技股份有限公司 一种分类编码确定方法、装置、设备及存储介质
CN112685541A (zh) * 2021-03-11 2021-04-20 中南大学 一种基于多任务学习的社交媒体谣言检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
KE ZUNWANG: "Rumor Detection on Social Media via Fused Semantic Information and a Propagation Heterogeneous Graph", 《SYMMETRY》 *
孙朋: "基于传播结构的微博谣言检测研究", 《中国优秀硕士学位论文全文数据库电子期刊》 *
廖祥文等: "基于分层注意力网络的社交媒体谣言检测", 《中国科学:信息科学》 *
蔡国永等: "基于标记信息级联传播树特征的谣言检测新方法", 《计算机工程与科学》 *
高玉君: "社会网络谣言检测综述", 《电子学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023137906A1 (zh) * 2022-01-21 2023-07-27 平安科技(深圳)有限公司 文档标题生成方法、装置、设备及存储介质
CN115080749A (zh) * 2022-08-16 2022-09-20 之江实验室 一种基于自监督训练的弱监督文本分类方法、系统和装置
CN115080749B (zh) * 2022-08-16 2022-11-08 之江实验室 一种基于自监督训练的弱监督文本分类方法、系统和装置
CN117633635A (zh) * 2024-01-23 2024-03-01 南京信息工程大学 一种基于时空传播图的动态谣言检测方法
CN117633635B (zh) * 2024-01-23 2024-04-16 南京信息工程大学 一种基于时空传播图的动态谣言检测方法

Also Published As

Publication number Publication date
CN113434684B (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN113434684B (zh) 自监督学习的谣言检测方法、系统、设备及存储介质
CN105975573B (zh) 一种基于knn的文本分类方法
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN111159395A (zh) 基于图神经网络的谣言立场检测方法、装置和电子设备
CN112966074A (zh) 一种情感分析方法、装置、电子设备以及存储介质
CN109829478B (zh) 一种基于变分自编码器的问题分类方法和装置
CN111753044A (zh) 一种基于正则化的去社会偏见的语言模型及应用
CN106202206A (zh) 一种基于软件聚类的源码功能搜索方法
CN115688024A (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
CN114998602A (zh) 基于低置信度样本对比损失的域适应学习方法及系统
CN115309860B (zh) 基于伪孪生网络的虚假新闻检测方法
Jin et al. Image credibility analysis with effective domain transferred deep networks
CN115577357A (zh) 一种基于堆叠集成技术的Android恶意软件检测方法
CN111709225A (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN108596205B (zh) 基于地域相关因子与稀疏表示的微博转发行为预测方法
CN111786999B (zh) 一种入侵行为的检测方法、装置、设备和存储介质
CN113179276A (zh) 基于显式和隐含特征学习的智能入侵检测方法和系统
CN117009613A (zh) 一种图数据分类方法、系统、装置及介质
CN113610080B (zh) 基于跨模态感知的敏感图像识别方法、装置、设备及介质
CN116956171A (zh) 基于ai模型的分类方法、装置、设备及存储介质
CN111695117B (zh) 一种webshell脚本检测方法及装置
CN114036289A (zh) 一种意图识别方法、装置、设备及介质
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统
CN113158577A (zh) 基于层次化耦合关系的离散数据表征学习方法及系统
CN112463964A (zh) 文本分类及模型训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant