CN114896519A - 一种基于立场特征的早期谣言检测方法与装置 - Google Patents

一种基于立场特征的早期谣言检测方法与装置 Download PDF

Info

Publication number
CN114896519A
CN114896519A CN202210588702.0A CN202210588702A CN114896519A CN 114896519 A CN114896519 A CN 114896519A CN 202210588702 A CN202210588702 A CN 202210588702A CN 114896519 A CN114896519 A CN 114896519A
Authority
CN
China
Prior art keywords
rumor
comment
module
sub
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210588702.0A
Other languages
English (en)
Inventor
杨鹏
冷俊成
赵翰林
李文军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Youhui Xin'an Technology Co ltd
Original Assignee
Nanjing Youhui Xin'an Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Youhui Xin'an Technology Co ltd filed Critical Nanjing Youhui Xin'an Technology Co ltd
Priority to CN202210588702.0A priority Critical patent/CN114896519A/zh
Publication of CN114896519A publication Critical patent/CN114896519A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3341Query execution using boolean model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于立场特征的早期谣言检测方法与装置,能够及时且精确地识别出谣言。本发明分成立场感知模块、谣言分类模块和强化决策模块。立场感知模块能够从评论中抽取立场特征。谣言分类模块被用来对谣言事件进行识别,将谣言传播过程划分成一系列子评论结构,然后强化决策模块根据谣言动态传播的特点,依次对子评论结构的编码选取合适的动作,即是否补充后续评论数据,从而达到及时检测的目的。谣言分类模块和强化决策模块都融入了立场特征,用来提升每个模块抽取特征的能力。本发明根据谣言动态传播的特点,能够在谣言传播的早期对其进行识别,从而及时地阻止谣言的传播。

Description

一种基于立场特征的早期谣言检测方法与装置
技术领域
本发明涉及一种基于立场特征的早期谣言检测方法与装置,属于信息安全与人工智能技术领域。
背景技术
随着计算机信息通信技术的发展,互联网逐渐深入到人们日常的生产和生活中,极大地促进了人类社会的发展。其中社交媒体作为互联网时代变革下的产物,例如微博,Twitter、Facebook等,已经成为了人类社会生活中重要的信息交流媒介,用户可以随时通过手机、电脑在其上面发表观点、交流经验及与他人互动。
社交媒体平台的迅速发展简化了人与人之间沟通的方式,同时也为人们收集信息和新闻提供了极为便利的途径,但随之产生的社交媒体谣言也不容小觑。近年来,越来越多的国内外学者投入到谣言检测的研究中,提出了许多新的检测模型和理论方法。传统的谣言检测方法以人为抽取的特征作为输入,采用支持向量机、决策树和随机森林等一些机器学习的方法来对谣言进行判断。此类方法在特征工程阶段繁琐且耗时,同时人为构建的特征主观性较强、缺乏高阶的特征表示,故不能有效地抽取谣言深层次的特征。随着深度学习模型在各大领域的成功应用,以RNN,CNN为主的深度学习模型也逐步应用到谣言检测领域,依靠其反向传播算法提取谣言深层次的特征。Ma等人通过对事件中微博之间的时序关系建模,提出了基于递归神经网络(RNN)的谣言检测方法。刘政等人依据微博之间的联系提出了基于卷积神经网络的谣言检测方法。但是这些方法忽略了评论之间的结构(评论结构)关系,不能捕获到谣言的传播特征。TreeLSTM、GNN等结构网络模型的出现为精确地预测谣言提供了新的解决方案,这类方法对谣言传播过程中评论之间的结构关系建模,有效地获取了谣言的传播结构特征。Ma等人对谣言传播路径进行建模,提出了基于树结构的谣言检测方法RvNN。Huang等人综合考虑了谣言检测的内容、用户和传播三个方面,提出了基于图卷积神经网络的谣言检测方法。Tian等人提出一种基于双向图卷积网络结构(Bi-GCN)的谣言检测方法,该方法探究了社交媒体文本的向上传播和向下传播模式,并结合源文本中关键性特征,提高了谣言检测的准确率。
然而,现有的谣言检测方法虽然取得一些研究进展,但依旧存在不足。针对谣言传播速度快和影响范围广的特点,能够及时快速地鉴别出谣言对保持网络生态健康和维持社会稳定有十分重要的意义。现有以图结构为基础的谣言检测方法在评论结构演化过程中虽然能够抽取到谣言的传播结构特征,但是没有考虑到谣言动态传播的特点,因而难以及时阻止谣言的传播,因此在早期谣言检测方向上还有很大的发展空间。
发明内容
针对现有技术中存在的问题,本发明提出一种基于立场特征的早期谣言检测方法与装置,能够在谣言传播过程中及时地检测出谣言。本发明方法涵盖社交媒体谣言检测的全过程,主要包括数据集构建及特征处理、构建立场感知模块、构建谣言分类模块、构建强化决策模块、对未知的帖子进行预测等过程,以便在谣言传播的早期对其进行识别,从而及时地阻止谣言的传播。
本发明分成立场感知、谣言分类和强化决策三个模块。首先,立场感知模块能够从评论中抽取立场特征。接着,谣言分类模块根据传播过程将谣言划分成一系列以图结构为基础的子评论结构,利用图卷积网络对每个子结构编码并联合立场特征输入到LSTM神经网络中从而对谣言事件进行识别。然后,强化决策模块根据谣言动态传播的特点,整合立场特征为早期检测效果提供动作方案,即是否补充后续评论数据,从而及时地检测出谣言。最后,谣言分类模块根据要采取的行动完成最终的预测,进而避免谣言的扩大传播。
为了达到上述目的,本发明提供如下技术方案:
一种基于立场特征的早期谣言检测方法,包括如下步骤:
步骤1,数据集构建及特征处理,收集并整理谣言数据集,并对数据进行特征工程分析且特征处理;
步骤2,构建立场感知模块,在已有的立场数据集上进行立场检测任务,从而得到特征抽取模型,能够从评论中抽取立场特征;
步骤3,构建谣言分类模块,将谣言传播过程划分成一系列以图结构为基础的子评论结构,根据谣言动态传播的特点,对子评论结构的编码进行谣言分类;
步骤4,构建强化决策模块,通过整合立场特征为早期检测效果提供动作方案,即是否补充后续评论数据,从而及时地检测出谣言;
步骤5,采集待检测的社交媒体帖子并进行预测。
进一步的,所述步骤1具体包括如下过程:
首先收集并整理典型谣言检测数据集,包括Twitter15、Twitter16和Weibo;然后使用TF-IDF词向量模型从词频角度选取数据中频率较高的5000个单词来对每个帖子进行编码并将其作为初始特征向量;最后对于每个谣言事件,构造以图结构为基础的评论结构。
进一步的,所述步骤2具体包括如下过程:
本发明设计的立场感知模块使用RoBERTa模型进行立场检测任务,从而得到特征抽取模型,其中RoBERTa中“<CLS>”位置输出的向量表示作为整个方法需要融合的立场特征。鉴于本发明对Weibo和Twitter两种数据集进行实验测试,因此立场感知模块的输入有两种类型。针对Weibo数据集,输入是目标话题(#Topic)和微博文本(Raw Text),而对于Twitter数据集,输入则是源帖子(source)、评论文本1(comment1)和对评论文本1回复的评论文本2(comment2)。接着立场感知模块对输入文本Tokenizer化,即将输入的句子采用“<CLS>”和“<SEP>”标识符进行分隔开,其中“<CLS>”需放在第一个句子首位,“<SEP>”是句子之间的分隔符。因此输入的信息会以[<CLS>,A,<SEP>,B,<SEP>...]形式出现,其中A,B分别表示第一个和第二个句子。将句子中每个token逐条输入到Pre-trained RoBERTa模型,经过多个Transformer层编码后,从而得到每个token深层次表示,计算公式为:
E=RoBERTa([<CLS>,A,<SEP>,B,<SEP>...])
从RoBERTa编码后的特征表示E中取出“<CLS>”位置上的向量Ecls作为抽取的立场特征并进行立场分类,计算公式为:
Figure BDA0003666797560000031
本发明采用两个全连接层
Figure BDA0003666797560000032
对立场特征Ecls进行编码并将编码后的数据输入到softmax(·)分类器,从而得到一个三元组数值
Figure BDA0003666797560000033
分别表示赞成、中立和反对对应的概率。使用交叉熵损失函数对立场感知模块进行优化,计算公式为:
Figure BDA0003666797560000034
其中Nstance是样本的数量,cstance是立场类别的数量,
Figure BDA0003666797560000035
Figure BDA0003666797560000036
分别表示第i个样本的第j类真实和预测的概率。
进一步的,所述步骤3具体包括如下子步骤:
子步骤3-1,图评论结构划分,根据谣言动态传播的特点,对图评论结构S按照评论发布的时间进行划分,从以图结构为基础的子评论结构S(1)开始,每次增加一个评论内容形成下一个子评论结构,直到评论数量达到n-1时构成最后一个子结构,其中n-1是评论的数量。最终,事件c的评论结构S被表示为{S(1),S(2),...,S(T)},对于每一个子评论结构S(t),可以记作
Figure BDA0003666797560000037
其中n(t)-1是S(t)中评论的数量;
子步骤3-2,图评论结构编码及预测,使用图卷积神经网络(GCN)来挖掘子评论结构的全局性特征,本发明使用两层图卷积层对图节点的特征进行卷积操作,并对最后一个图卷积层的输出向量平均化mean(·)从而得到全局性特征
Figure BDA0003666797560000041
然后谣言分类模块融合立场感知模块提取的立场特征
Figure BDA0003666797560000042
加强子评论结构的特征表示,计算公式为:
Figure BDA0003666797560000043
Figure BDA0003666797560000044
其中WG和Wcls是可学习的参数矩阵,用于统一
Figure BDA0003666797560000045
Figure BDA0003666797560000046
维度的大小,bG是偏移项。因此子评论结构S(t)经过组合后将得到特征表示H(t),进而得到整个评论结构S的特征表示H,计算公式为:
H=concat([H(1),H(2),...,H(t′)])
其中t′表示强化决策模块选择动作为“停止”时的时刻。由于各个以图结构为基础的子评论结构之间在时间尺度上具有相互依赖关系,使用LSTM网络对各个子评论结构进行进一步编码,计算公式为:
ht=LSTM(H)
其中ht是LSTM网络在t时刻的输出向量,表示子评论结构S(t)最终的编码特征表示。强化决策模块在没有做出“停止”行动之前,LSTM网络任何时刻的输出向量都会被作为特征向量进行谣言预测。本发明使用softmax(·)激活函数对谣言分类,计算公式为:
Figure BDA0003666797560000047
其中Wp是训练矩阵,bp是偏移项,
Figure BDA0003666797560000048
是预测各类别谣言的概率;
子步骤3-3,谣言分类损失函数,本发明采用交叉熵损失函数优化谣言分类模块,计算公式为:
Figure BDA0003666797560000049
其中Nrumor是谣言数据集中样本的数量,crumor是谣言类别的数量,
Figure BDA00036667975600000410
Figure BDA00036667975600000411
分别表示第i个样本的第j类真实和预测的概率。
进一步的,所述步骤4具体包括如下子步骤:
子步骤4-1,设置状态,强化决策模块融合立场特征与当前子评论结构抽取的特征表示作为该模块的状态
Figure BDA00036667975600000412
计算公式为:
Figure BDA00036667975600000413
其中ht是子评论结构S(t)编码后的特征表示,
Figure BDA00036667975600000414
是立场特征,由立场感知模块抽取得到,Wstance是可学习的参数矩阵,bstate是偏移项;
子步骤4-2,设置动作,记A={a1,a2,...}是动作集合,其中at∈{0,1}。在早期谣言检测中,本发明设置两个动作,分别是继续补充后续评论数据(continue)和停止补充去检测(stop)。当at=0时,强化决策模块会继续输入下一个子评论结构的编码,而当at=1时,模块不会再输入下一时刻的编码,无论选择哪个动作,谣言分类模块都会对事件进行预测,计算公式为:
Figure BDA0003666797560000051
子步骤4-3,设置奖励,记R={r1,r2,...}表示强化决策模块的交互性奖励,其中每个状态的奖励值rt由奖励函数
Figure BDA0003666797560000052
得到。为了能够提升谣言检测的准确率,本发明利用谣言检测的结果来对强化决策模块给予相应的奖励或惩罚,因此奖励函数共包括三种可能的情况,分别是“continue”、“stop_correct”和“stop_incorrect”。其中“continue”表示at=0,即继续补充后续评论数据,此时模块需要进行分类预测,同时也要输入下一个时刻子评论结构的编码表示;“stop_correct”是指at=1且预测的结果是正确的;“stop_incorrect”是指at=1但预测的结果是错误的。对于“continue”情况,表明强化决策模块不能及时阻止谣言的传播,则会被给予轻微的惩罚-ε;对于“stop_correct”情况,强化决策模块将会赋予较大的奖励值来驱动方法向正确的方向发展;而对于“stop_incorrect”,则会给出较大的惩罚值,惩罚其判断错误。考虑到评论的数量可能影响谣言检测的效果,比如评论数量过少不足以谣言分类模块进行谣言分类,因此本发明设计了评论系数λ(t)用来平衡奖励函数,计算公式为:
Figure BDA0003666797560000053
其中n是以图结构为基础的评论结构中文本(包括源帖子和评论)总数,n(t)表示子评论结构S(t)中文本的数量。结合评论系数,完整的奖励函数如下所示:
Figure BDA0003666797560000054
其中M和P都是正常量值;
子步骤4-4,强化学习损失函数,采用Actor-Critic算法对早期谣言检测进行决策。Actor-Critic由两个神经网络组成,包括Actor网络和Critic网络。Actor网络和Critic网络生成动作和价值的计算步骤如下:
Figure BDA0003666797560000055
Figure BDA0003666797560000056
本发明使用两层全连接网络
Figure BDA0003666797560000061
Figure BDA0003666797560000062
抽取状态
Figure BDA0003666797560000063
的特征,从而得到动作的概率
Figure BDA0003666797560000064
和状态下选取动作的价值
Figure BDA0003666797560000065
其中σ是激活函数,一般使用sigmoid函数。Critic网络学习状态值函数
Figure BDA0003666797560000066
通过时间差分误差TD(t)进行优化。TD(t)由当前时间状态的价值、下一时刻状态的价值以及选择动作后反馈的奖励值得到,计算公式为:
Figure BDA0003666797560000067
其中,ε是衰减因子,表示下一时刻状态价值的衰减权重。Critic网络使用TD(t)的平方值作为损失函数进行参数w的梯度更新,计算公式为:
Losscritic=(TD(t))2
Actor网络则是直接学习动作策略,利用TD(t)加权的交叉熵作为损失函数来优化参数,计算公式为:
Figure BDA0003666797560000068
进一步的,所述步骤5具体包括如下过程:
对于待检测的帖子,本发明通过官方提供的API接口对该帖子相关信息进行采集,包括源帖子以及下方评论信息;接着使用TF-IDF词向量模型对每个文本内容进行编码,获取其向量化表示;然后依赖于评论之间的结构关系,将所有文本建模成以图结构为基础的数据结构,从而作为模型的输入;最后使用训练好的早期谣言检测模型对其进行预测,并反馈结果。
本发明还提供了一种基于立场特征的早期谣言检测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述基于立场特征的早期谣言检测方法。
与现有技术相比,本发明具有如下优点和有益效果:
1.本发明相比较于其他以图神经网络为主体的谣言检测方法,在能捕获谣言传播结构特征基础上,考虑到谣言动态传播特点,从而对谣言的识别准确率更高。且在早期谣言检测及时性方面进行实验对比,本发明能够对超过80%数量的事件在它们传播之后的6h内进行谣言判定,其识别谣言速度较快,从而及时阻止谣言的传播。
2.本发明对谣言传播过程中评论之间的关系建模,符合谣言动态传播特点,且方法中融合了立场特征,能够显著反应用户对帖子的情感导向,在检测的及时性和准确率方面均有提升。
3.本发明设计的谣言分类模块,通过使用图卷积网络能够深入挖掘以图结构为基础的谣言文本的全局化特征。并结合立场特征作为LSTM网络的输入,有利于捕获谣言的传播特征,该特性有效地凸显谣言的传播规律,大大增强谣言检测的性能。
附图说明
图1为本发明提供的一种基于立场特征的早期谣言检测方法总体框架图;
图2为本发明实施例涉及的立场感知模块框架;
图3为本发明实施例涉及的Actor网络和Critic网络的更新过程。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
实施例1:一种基于立场特征的早期谣言检测方法,其整体框架如图1所示,方法包括如下步骤:
步骤1,数据集构建及特征处理。首先收集并整理典型谣言检测数据集,包括Twitter15、Twitter16和Weibo;然后使用TF-IDF词向量模型从词频角度选取数据中频率较高的5000个单词来对每个帖子进行编码并将其作为初始特征向量;最后对于每个谣言事件,构造以图结构为基础的评论结构。
步骤2,构建立场感知模块。该模块在已有的立场数据集上进行立场检测任务,从而得到特征抽取模型,能够从评论中抽取立场特征。本发明设计的立场感知模块使用RoBERTa模型进行立场检测任务,从而得到特征抽取模型,其中RoBERTa中“<CLS>”位置输出的向量表示作为整个方法需要融合的立场特征,图2展示了立场感知模块的框架。鉴于本发明对Weibo和Twitter两种数据集进行实验测试,因此立场感知模块的输入有两种类型。针对Weibo数据集,输入是目标话题(#Topic)和微博文本(Raw Text),而对于Twitter数据集,输入则是源帖子(source)、评论文本1(comment1)和对评论文本1回复的评论文本2(comment2)。接着立场感知模块对输入文本Tokenizer化,即将输入的句子采用“<CLS>”和“<SEP>”标识符进行分隔开,其中“<CLS>”需放在第一个句子首位,“<SEP>”是句子之间的分隔符。因此输入的信息会以[<CLS>,A,<SEP>,B,<SEP>...]形式出现,其中A,B分别表示第一个和第二个句子。将句子中每个token逐条输入到Pre-trained RoBERTa模型,经过多个Transformer层编码后,从而得到每个token深层次表示,计算公式为:
E=RoBERTa([<CLS>,A,<SEP>,B,<SEP>...])
从RoBERTa编码后的特征表示E中取出“<CLS>”位置上的向量Ecls作为抽取的立场特征并进行立场分类,计算公式为:
Figure BDA0003666797560000081
本发明采用两个全连接层
Figure BDA0003666797560000082
对立场特征Ecls进行编码并将编码后的数据输入到softmax(·)分类器,从而得到一个三元组数值
Figure BDA0003666797560000083
分别表示赞成、中立和反对对应的概率。使用交叉熵损失函数对立场感知模块进行优化,计算公式为:
Figure BDA0003666797560000084
其中Nstance是样本的数量,cstance是立场类别的数量,
Figure BDA0003666797560000085
Figure BDA0003666797560000086
分别表示第i个样本的第j类真实和预测的概率。
步骤3,构建谣言分类模块,将谣言传播过程划分成一系列以图结构为基础的子评论结构,根据谣言动态传播的特点,对子评论结构的编码进行谣言分类。本步骤实施过程分为3个子步骤:
子步骤3-1,图评论结构划分,根据谣言动态传播的特点,对图评论结构S按照评论发布的时间进行划分,从以图结构为基础的子评论结构S(1)开始,每次增加一个评论内容形成下一个子评论结构,直到评论数量达到n-1时构成最后一个子结构,其中n-1是评论的数量。最终,事件c的评论结构S被表示为{S(1),S(2),...,S(T)},对于每一个子评论结构S(t),可以记作
Figure BDA0003666797560000087
其中n(t)-1是S(t)中评论的数量;
子步骤3-2,图评论结构编码及预测,使用图卷积神经网络(GCN)来挖掘子评论结构的全局性特征,本发明使用两层图卷积层对图节点的特征进行卷积操作,并对最后一个图卷积层的输出向量平均化mean(·)从而得到全局性特征
Figure BDA0003666797560000088
然后谣言分类模块融合立场感知模块提取的立场特征
Figure BDA0003666797560000089
加强子评论结构的特征表示,计算公式为:
Figure BDA00036667975600000810
Figure BDA00036667975600000811
其中WG和Wcls是可学习的参数矩阵,用于统一
Figure BDA00036667975600000812
Figure BDA00036667975600000813
维度的大小,bG是偏移项。因此子评论结构S(t)经过组合后将得到特征表示H(t),进而得到整个评论结构S的特征表示H,计算公式为:
H=concat([H(1),H(2),...,H(t′)])
其中t′表示强化决策模块选择动作为“停止”时的时刻。由于各个以图结构为基础的子评论结构之间在时间尺度上具有相互依赖关系,使用LSTM网络对各个子评论结构进行进一步编码,计算公式为:
ht=LSTM(H)
其中ht是LSTM网络在t时刻的输出向量,表示子评论结构S(t)最终的编码特征表示。强化决策模块在没有做出“停止”行动之前,LSTM网络任何时刻的输出向量都会被作为特征向量进行谣言预测。本发明使用softmax(·)激活函数对谣言分类,计算公式为:
Figure BDA0003666797560000091
其中Wp是训练矩阵,bp是偏移项,
Figure BDA0003666797560000092
是预测各类别谣言的概率;
子步骤3-3,谣言分类损失函数,本发明采用交叉熵损失函数优化谣言分类模块,计算公式为:
Figure BDA0003666797560000093
其中Nrumor是谣言数据集中样本的数量,crumor是谣言类别的数量,
Figure BDA0003666797560000094
Figure BDA0003666797560000095
分别表示第i个样本的第j类真实和预测的概率。
步骤4,构建强化决策模块,通过整合立场特征为早期检测效果提供动作方案,即是否补充后续评论数据,从而及时地检测出谣言。本步骤实施过程分为4个子步骤:
子步骤4-1,设置状态,强化决策模块融合立场特征与当前子评论结构抽取的特征表示作为该模块的状态
Figure BDA0003666797560000096
计算公式为:
Figure BDA0003666797560000097
其中ht是子评论结构S(t)编码后的特征表示,
Figure BDA0003666797560000098
是立场特征,由立场感知模块抽取得到,Wstance是可学习的参数矩阵,bstate是偏移项;
子步骤4-2,设置动作,记A={a1,a2,...}是动作集合,其中at∈{0,1}。在早期谣言检测中,本发明设置两个动作,分别是继续补充后续评论数据(continue)和停止补充去检测(stop)。当at=0时,强化决策模块会继续输入下一个子评论结构的编码,而当at=1时,模块不会再输入下一时刻的编码,无论选择哪个动作,谣言分类模块都会对事件进行预测,计算公式为:
Figure BDA0003666797560000099
子步骤4-3,设置奖励,记R={r1,r2,...}表示强化决策模块的交互性奖励,其中每个状态的奖励值rt由奖励函数
Figure BDA0003666797560000101
得到。为了能够提升谣言检测的准确率,本发明利用谣言检测的结果来对强化决策模块给予相应的奖励或惩罚,因此奖励函数共包括三种可能的情况,分别是“continue”、“stop_correct”和“stop_incorrect”。其中“continue”表示at=0,即继续补充后续评论数据,此时模块需要进行分类预测,同时也要输入下一个时刻子评论结构的编码表示;“stop_correct”是指at=1且预测的结果是正确的;“stop_incorrect”是指at=1但预测的结果是错误的。对于“continue”情况,表明强化决策模块不能及时阻止谣言的传播,则会被给予轻微的惩罚-ε;对于“stop_correct”情况,强化决策模块将会赋予较大的奖励值来驱动方法向正确的方向发展;而对于“stop_incorrect”,则会给出较大的惩罚值,惩罚其判断错误。考虑到评论的数量可能影响谣言检测的效果,比如评论数量过少不足以谣言分类模块进行谣言分类,因此本发明设计了评论系数λ(t)用来平衡奖励函数,计算公式为:
Figure BDA0003666797560000102
其中n是以图结构为基础的评论结构中文本(包括源帖子和评论)总数,n(t)表示子评论结构S(t)中文本的数量。结合评论系数,完整的奖励函数如下所示:
Figure BDA0003666797560000103
其中M和P都是正常量值;
子步骤4-4,强化学习损失函数,采用Actor-Critic算法对早期谣言检测进行决策。Actor-Critic由两个神经网络组成,包括Actor网络和Critic网络。图3展示了两个网络的更新过程,Actor网络和Critic网络生成动作和价值的计算步骤如下:
Figure BDA0003666797560000104
Figure BDA0003666797560000105
本发明使用两层全连接网络
Figure BDA0003666797560000106
Figure BDA0003666797560000107
抽取状态
Figure BDA0003666797560000108
的特征,从而得到动作的概率
Figure BDA0003666797560000109
和状态下选取动作的价值
Figure BDA00036667975600001010
其中σ是激活函数,一般使用sigmoid函数。Critic网络学习状态值函数
Figure BDA00036667975600001011
通过时间差分误差TD(t)进行优化。TD(t)由当前时间状态的价值、下一时刻状态的价值以及选择动作后反馈的奖励值得到,计算公式为:
Figure BDA00036667975600001012
其中,ε是衰减因子,表示下一时刻状态价值的衰减权重。Critic网络使用TD(t)的平方值作为损失函数进行参数w的梯度更新,计算公式为:
Losscritic=(TD(t))2
Actor网络则是直接学习动作策略,利用TD(t)加权的交叉熵作为损失函数来优化参数,计算公式为:
Figure BDA0003666797560000111
步骤5,采集待检测的社交媒体帖子并进行预测。对于待检测的帖子,本发明通过官方提供的API接口对该帖子相关信息进行采集,包括源帖子以及下方评论信息;接着使用TF-IDF词向量模型对每个文本内容进行编码,获取其向量化表示;然后依赖于评论之间的结构关系,将所有文本建模成以图结构为基础的数据结构,从而作为模型的输入;最后使用训练好的早期谣言检测模型对其进行预测,并反馈结果。
综上,本发明包括三个部分:立场感知模块、谣言分类模块和立场感知模块。首先,设计基于RoBERTa模型的立场感知模块,能够从评论中抽取立场特征。接着,基于评论之间的结构关系,设计谣言分类模块,将谣言传播过程划分成一系列以图结构为基础的子评论结构,使用图卷积网络进行编码并融合立场特征输入到LSTM网络中从而对谣言事件进行识别。然后,基于Actor-Crtic强化学习算法,设计强化决策模块。该模块根据谣言动态传播的特点,融合立场特征为早期检测效果提供行动解决方案,即是否补充后续评论数据,从而及时地检测出谣言。最后,谣言分类模块根据行动结果完成最终的预测。
实施例2的发明构思,本发明实施例公开的一种基于立场特征的早期谣言检测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述基于立场特征的早期谣言检测方法。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (7)

1.一种基于立场特征的早期谣言检测方法,其特征在于,所述方法包括如下步骤:
步骤1,数据集构建及特征处理,收集并整理谣言数据集,并对数据进行特征工程分析且特征处理;
步骤2,构建立场感知模块,在已有的立场数据集上进行立场检测任务,从而得到特征抽取模型,能够从评论中抽取立场特征;
步骤3,构建谣言分类模块,将谣言传播过程划分成一系列以图结构为基础的子评论结构,根据谣言动态传播的特点,对子评论结构的编码进行谣言分类;
步骤4,构建强化决策模块,通过整合立场特征为早期检测效果提供动作方案,即是否补充后续评论数据,从而及时地检测出谣言;
步骤5,采集待检测的社交媒体帖子并进行预测。
2.根据权利要求1所述的基于立场特征的早期谣言检测方法,其特征在于,所述步骤1具体包括如下过程:
首先收集并整理典型谣言检测数据集,包括Twitter15、Twitter16和Weibo;然后使用TF-IDF词向量模型从词频角度选取数据中频率最高的5000个单词来对每个帖子进行编码并将其作为初始特征向量;最后对于每个谣言事件,构造以图结构为基础的评论结构。
3.根据权利要求1所述的基于立场特征的早期谣言检测方法,其特征在于,所述步骤2具体包括如下过程:
立场感知模块使用RoBERTa模型进行立场检测任务,从而得到特征抽取模型,其中RoBERTa中“<CLS>”位置输出的向量表示作为整个方法需要融合的立场特征,鉴于对Weibo和Twitter两种数据集进行实验测试,因此立场感知模块的输入有两种类型,针对Weibo数据集,输入是目标话题(#Topic)和微博文本(Raw Text),而对于Twitter数据集,输入则是源帖子(source)、评论文本1(comment1)和对评论文本1回复的评论文本2(comment2),接着立场感知模块对输入文本Tokenizer化,即将输入的句子采用“<CLS>”和“<SEP>”标识符进行分隔开,其中“<CLS>”需放在第一个句子首位,“<SEP>”是句子之间的分隔符,因此输入的信息会以[<CLS>,A,<SEP>,B,<SEP>...]形式出现,其中A,B分别表示第一个和第二个句子,将句子中每个token逐条输入到Pre-trained RoBERTa模型,经过多个Transformer层编码后,从而得到每个token深层次表示,计算公式为:
E=RoBERTa([<CLS>,A,<SEP>,B,<SEP>...])
从RoBERTa编码后的特征表示E中取出“<CLS>”位置上的向量Ecls作为抽取的立场特征并进行立场分类,计算公式为:
Figure FDA0003666797550000021
采用两个全连接层
Figure FDA0003666797550000022
对立场特征Ecls进行编码并将编码后的数据输入到softmax(·)分类器,从而得到一个三元组数值
Figure FDA0003666797550000023
分别表示赞成、中立和反对对应的概率,使用交叉熵损失函数对立场感知模块进行优化,计算公式为:
Figure FDA0003666797550000024
其中Nstance是样本的数量,cstance是立场类别的数量,
Figure FDA0003666797550000025
Figure FDA0003666797550000026
分别表示第i个样本的第j类真实和预测的概率。
4.根据权利要求1所述的基于立场特征的早期谣言检测方法,其特征在于,所述步骤3具体包括如下子步骤:
子步骤3-1,图评论结构划分,根据谣言动态传播的特点,对图评论结构S按照评论发布的时间进行划分,从以图结构为基础的子评论结构S(1)开始,每次增加一个评论内容形成下一个子评论结构,直到评论数量达到n-1时构成最后一个子结构,其中n-1是评论的数量,最终,事件c的评论结构S被表示为{S(1),S(2),...,S(T)},对于每一个子评论结构S(t),记作
Figure FDA00036667975500000214
其中n(t)-1是S(t)中评论的数量;
子步骤3-2,图评论结构编码及预测,使用图卷积神经网络(GCN)来挖掘子评论结构的全局性特征,使用两层图卷积层对图节点的特征进行卷积操作,并对最后一个图卷积层的输出向量平均化mean(·)从而得到全局性特征
Figure FDA0003666797550000027
然后谣言分类模块融合立场感知模块提取的立场特征
Figure FDA0003666797550000028
加强子评论结构的特征表示,计算公式为:
Figure FDA0003666797550000029
Figure FDA00036667975500000210
其中WG和Wcls是可学习的参数矩阵,用于统一
Figure FDA00036667975500000211
Figure FDA00036667975500000212
维度的大小,bG是偏移项,因此子评论结构S(t)经过组合后将得到特征表示H(t),进而得到整个评论结构S的特征表示H,计算公式为:
H=concat([H(1),H(2),...,H(t′)])
其中t′表示强化决策模块选择动作为“停止”时的时刻,由于各个以图结构为基础的子评论结构之间在时间尺度上具有相互依赖关系,使用LSTM网络对各个子评论结构进行进一步编码,计算公式为:
ht=LSTM(H)
其中ht是LSTM网络在t时刻的输出向量,表示子评论结构S(t)最终的编码特征表示,强化决策模块在没有做出“停止”行动之前,LSTM网络任何时刻的输出向量都会被作为特征向量进行谣言预测,使用softmax(·)激活函数对谣言分类,计算公式为:
Figure FDA0003666797550000031
其中Wp是训练矩阵,bp是偏移项,
Figure FDA0003666797550000032
是预测各类别谣言的概率;
子步骤3-3,谣言分类损失函数,采用交叉熵损失函数优化谣言分类模块,计算公式为:
Figure FDA0003666797550000033
其中Nrumor是谣言数据集中样本的数量,crumor是谣言类别的数量,
Figure FDA0003666797550000034
Figure FDA0003666797550000035
分别表示第i个样本的第j类真实和预测的概率。
5.根据权利要求1所述的基于立场特征的早期谣言检测方法,其特征在于,所述步骤4具体包括如下子步骤:
子步骤4-1,设置状态,强化决策模块融合立场特征与当前子评论结构抽取的特征表示作为该模块的状态
Figure FDA0003666797550000036
计算公式为:
Figure FDA0003666797550000037
其中ht是子评论结构S(t)编码后的特征表示,
Figure FDA0003666797550000038
是立场特征,由立场感知模块抽取得到,Wstance是可学习的参数矩阵,bstate是偏移项;
子步骤4-2,设置动作,记A={a1,a2,...}是动作集合,其中at∈{0,1},在早期谣言检测中,设置两个动作,分别是继续补充后续评论数据(continue)和停止补充去检测(stop),当at=0时,强化决策模块会继续输入下一个子评论结构的编码,而当at=1时,模块不会再输入下一时刻的编码,无论选择哪个动作,谣言分类模块都会对事件进行预测,计算公式为:
Figure FDA0003666797550000041
子步骤4-3,设置奖励,记R={r1,r2,...}表示强化决策模块的交互性奖励,其中每个状态的奖励值rt由奖励函数
Figure FDA0003666797550000042
得到,利用谣言检测的结果来对强化决策模块给予相应的奖励或惩罚,因此奖励函数共包括三种可能的情况,分别是“continue”、“stop_correct”和“stop_incorrect”,其中“continue”表示at=0,即继续补充后续评论数据,此时模块需要进行分类预测,同时也要输入下一个时刻子评论结构的编码表示;“stop_correct”是指at=1且预测的结果是正确的;“stop_incorrect”是指at=1但预测的结果是错误的,对于“continue”情况,表明强化决策模块不能及时阻止谣言的传播,则会被给予轻微的惩罚-ε;对于“stop_correct”情况,强化决策模块将会赋予较大的奖励值来驱动方法向正确的方向发展;而对于“stop_incorrect”,则会给出较大的惩罚值,惩罚其判断错误,设计评论系数λ(t)用来平衡奖励函数,计算公式为:
Figure FDA0003666797550000043
其中n是以图结构为基础的评论结构中文本(包括源帖子和评论)总数,n(t)表示子评论结构S(t)中文本的数量,结合评论系数,完整的奖励函数如下所示:
Figure FDA0003666797550000044
其中M和P都是正常量值;
子步骤4-4,强化学习损失函数,采用Actor-Critic算法对早期谣言检测进行决策,Actor-Critic由两个神经网络组成,包括Actor网络和Critic网络,Actor网络和Critic网络生成动作和价值的计算步骤如下:
Figure FDA0003666797550000045
Figure FDA0003666797550000046
使用两层全连接网络
Figure FDA0003666797550000047
Figure FDA0003666797550000048
抽取状态
Figure FDA0003666797550000049
的特征,从而得到动作的概率
Figure FDA00036667975500000410
和状态下选取动作的价值
Figure FDA00036667975500000411
其中σ是激活函数,一般使用sigmoid函数,Critic网络学习状态值函数
Figure FDA0003666797550000051
通过时间差分误差TD(t)进行优化,TD(t)由当前时间状态的价值、下一时刻状态的价值以及选择动作后反馈的奖励值得到,计算公式为:
Figure FDA0003666797550000052
其中,ε是衰减因子,表示下一时刻状态价值的衰减权重,Critic网络使用TD(t)的平方值作为损失函数进行参数w的梯度更新,计算公式为:
Losscritic=(TD(t))2
Actor网络则是直接学习动作策略,利用TD(t)加权的交叉熵作为损失函数来优化参数,计算公式为:
Figure FDA0003666797550000053
6.根据权利要求1所述的基于立场特征的早期谣言检测方法,其特征在于,所述步骤5具体包括如下过程:
对于待检测的帖子,通过官方提供的API接口对该帖子相关信息进行采集,包括源帖子以及下方评论信息;接着使用TF-IDF词向量模型对每个文本内容进行编码,获取其向量化表示;然后依赖于评论之间的结构关系,将所有文本建模成以图结构为基础的数据结构,从而作为模型的输入;最后使用训练好的早期谣言检测模型对其进行预测,并反馈结果。
7.一种基于立场特征的早期谣言检测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,该计算机程序被加载至处理器时实现权利要求1-6中任意一项所述的基于立场特征的早期谣言检测方法。
CN202210588702.0A 2022-05-27 2022-05-27 一种基于立场特征的早期谣言检测方法与装置 Pending CN114896519A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210588702.0A CN114896519A (zh) 2022-05-27 2022-05-27 一种基于立场特征的早期谣言检测方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210588702.0A CN114896519A (zh) 2022-05-27 2022-05-27 一种基于立场特征的早期谣言检测方法与装置

Publications (1)

Publication Number Publication Date
CN114896519A true CN114896519A (zh) 2022-08-12

Family

ID=82725418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210588702.0A Pending CN114896519A (zh) 2022-05-27 2022-05-27 一种基于立场特征的早期谣言检测方法与装置

Country Status (1)

Country Link
CN (1) CN114896519A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116542257A (zh) * 2023-07-07 2023-08-04 长沙市智为信息技术有限公司 一种基于会话语境感知的谣言检测方法
CN117076911A (zh) * 2023-10-17 2023-11-17 南京航空航天大学 一种基于传播结构动态保持的网络谣言检测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116542257A (zh) * 2023-07-07 2023-08-04 长沙市智为信息技术有限公司 一种基于会话语境感知的谣言检测方法
CN116542257B (zh) * 2023-07-07 2023-09-22 长沙市智为信息技术有限公司 一种基于会话语境感知的谣言检测方法
CN117076911A (zh) * 2023-10-17 2023-11-17 南京航空航天大学 一种基于传播结构动态保持的网络谣言检测方法
CN117076911B (zh) * 2023-10-17 2024-01-26 南京航空航天大学 一种基于传播结构动态保持的网络谣言检测方法

Similar Documents

Publication Publication Date Title
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN107992904B (zh) 基于多源信息融合的林业生态环境人机交互方法
CN114896519A (zh) 一种基于立场特征的早期谣言检测方法与装置
CN105975573A (zh) 一种基于knn的文本分类方法
CN114780831A (zh) 基于Transformer的序列推荐方法及系统
CN114627282B (zh) 目标检测模型的建立方法、应用方法、设备、装置及介质
CN116975776B (zh) 一种基于张量和互信息的多模态数据融合方法和设备
CN110532398A (zh) 基于多任务联合神经网络模型的家族图谱自动构建方法
CN115114409B (zh) 一种基于软参数共享的民航不安全事件联合抽取方法
CN114429122B (zh) 一种基于循环注意力的方面级情感分析系统和方法
CN113239143B (zh) 融合电网故障案例库的输变电设备故障处理方法及系统
CN112819024B (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
CN112215001A (zh) 一种谣言识别方法及系统
CN113255360A (zh) 基于层次化自注意力网络的文档评级方法和装置
CN110852066A (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN113887836B (zh) 一种融合事件环境信息的叙述性事件预测方法
Shan Social Network Text Sentiment Analysis Method Based on CNN‐BiGRU in Big Data Environment
CN113741759A (zh) 评论信息的展示方法、装置、计算机设备和存储介质
CN117235261A (zh) 一种多模态方面级情感分析方法、装置、设备及存储介质
CN114298011B (zh) 神经网络、训练方法、方面级情感分析方法、装置及存储介质
CN114357160B (zh) 基于生成传播结构特征的早期谣言检测方法及装置
CN117034222A (zh) 用户账号处理方法、装置、电子设备、介质和程序产品
CN116468030A (zh) 一种基于多任务神经网络的端到端方面级情感分析方法
CN118568568B (zh) 内容分类模型的训练方法以及相关设备
CN118228035B (zh) 内容标签的确定方法以及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination