CN114896519A - 一种基于立场特征的早期谣言检测方法与装置 - Google Patents
一种基于立场特征的早期谣言检测方法与装置 Download PDFInfo
- Publication number
- CN114896519A CN114896519A CN202210588702.0A CN202210588702A CN114896519A CN 114896519 A CN114896519 A CN 114896519A CN 202210588702 A CN202210588702 A CN 202210588702A CN 114896519 A CN114896519 A CN 114896519A
- Authority
- CN
- China
- Prior art keywords
- rumor
- comment
- module
- sub
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 63
- 230000009471 action Effects 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000008447 perception Effects 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 37
- 238000004364 calculation method Methods 0.000 claims description 36
- 239000013598 vector Substances 0.000 claims description 27
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000002787 reinforcement Effects 0.000 claims description 9
- 239000013589 supplement Substances 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000012552 review Methods 0.000 claims description 5
- 238000013461 design Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 238000005728 strengthening Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 2
- 230000003190 augmentative effect Effects 0.000 claims 1
- 238000006386 neutralization reaction Methods 0.000 claims 1
- 238000010276 construction Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 239000000047 product Substances 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3341—Query execution using boolean model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于立场特征的早期谣言检测方法与装置,能够及时且精确地识别出谣言。本发明分成立场感知模块、谣言分类模块和强化决策模块。立场感知模块能够从评论中抽取立场特征。谣言分类模块被用来对谣言事件进行识别,将谣言传播过程划分成一系列子评论结构,然后强化决策模块根据谣言动态传播的特点,依次对子评论结构的编码选取合适的动作,即是否补充后续评论数据,从而达到及时检测的目的。谣言分类模块和强化决策模块都融入了立场特征,用来提升每个模块抽取特征的能力。本发明根据谣言动态传播的特点,能够在谣言传播的早期对其进行识别,从而及时地阻止谣言的传播。
Description
技术领域
本发明涉及一种基于立场特征的早期谣言检测方法与装置,属于信息安全与人工智能技术领域。
背景技术
随着计算机信息通信技术的发展,互联网逐渐深入到人们日常的生产和生活中,极大地促进了人类社会的发展。其中社交媒体作为互联网时代变革下的产物,例如微博,Twitter、Facebook等,已经成为了人类社会生活中重要的信息交流媒介,用户可以随时通过手机、电脑在其上面发表观点、交流经验及与他人互动。
社交媒体平台的迅速发展简化了人与人之间沟通的方式,同时也为人们收集信息和新闻提供了极为便利的途径,但随之产生的社交媒体谣言也不容小觑。近年来,越来越多的国内外学者投入到谣言检测的研究中,提出了许多新的检测模型和理论方法。传统的谣言检测方法以人为抽取的特征作为输入,采用支持向量机、决策树和随机森林等一些机器学习的方法来对谣言进行判断。此类方法在特征工程阶段繁琐且耗时,同时人为构建的特征主观性较强、缺乏高阶的特征表示,故不能有效地抽取谣言深层次的特征。随着深度学习模型在各大领域的成功应用,以RNN,CNN为主的深度学习模型也逐步应用到谣言检测领域,依靠其反向传播算法提取谣言深层次的特征。Ma等人通过对事件中微博之间的时序关系建模,提出了基于递归神经网络(RNN)的谣言检测方法。刘政等人依据微博之间的联系提出了基于卷积神经网络的谣言检测方法。但是这些方法忽略了评论之间的结构(评论结构)关系,不能捕获到谣言的传播特征。TreeLSTM、GNN等结构网络模型的出现为精确地预测谣言提供了新的解决方案,这类方法对谣言传播过程中评论之间的结构关系建模,有效地获取了谣言的传播结构特征。Ma等人对谣言传播路径进行建模,提出了基于树结构的谣言检测方法RvNN。Huang等人综合考虑了谣言检测的内容、用户和传播三个方面,提出了基于图卷积神经网络的谣言检测方法。Tian等人提出一种基于双向图卷积网络结构(Bi-GCN)的谣言检测方法,该方法探究了社交媒体文本的向上传播和向下传播模式,并结合源文本中关键性特征,提高了谣言检测的准确率。
然而,现有的谣言检测方法虽然取得一些研究进展,但依旧存在不足。针对谣言传播速度快和影响范围广的特点,能够及时快速地鉴别出谣言对保持网络生态健康和维持社会稳定有十分重要的意义。现有以图结构为基础的谣言检测方法在评论结构演化过程中虽然能够抽取到谣言的传播结构特征,但是没有考虑到谣言动态传播的特点,因而难以及时阻止谣言的传播,因此在早期谣言检测方向上还有很大的发展空间。
发明内容
针对现有技术中存在的问题,本发明提出一种基于立场特征的早期谣言检测方法与装置,能够在谣言传播过程中及时地检测出谣言。本发明方法涵盖社交媒体谣言检测的全过程,主要包括数据集构建及特征处理、构建立场感知模块、构建谣言分类模块、构建强化决策模块、对未知的帖子进行预测等过程,以便在谣言传播的早期对其进行识别,从而及时地阻止谣言的传播。
本发明分成立场感知、谣言分类和强化决策三个模块。首先,立场感知模块能够从评论中抽取立场特征。接着,谣言分类模块根据传播过程将谣言划分成一系列以图结构为基础的子评论结构,利用图卷积网络对每个子结构编码并联合立场特征输入到LSTM神经网络中从而对谣言事件进行识别。然后,强化决策模块根据谣言动态传播的特点,整合立场特征为早期检测效果提供动作方案,即是否补充后续评论数据,从而及时地检测出谣言。最后,谣言分类模块根据要采取的行动完成最终的预测,进而避免谣言的扩大传播。
为了达到上述目的,本发明提供如下技术方案:
一种基于立场特征的早期谣言检测方法,包括如下步骤:
步骤1,数据集构建及特征处理,收集并整理谣言数据集,并对数据进行特征工程分析且特征处理;
步骤2,构建立场感知模块,在已有的立场数据集上进行立场检测任务,从而得到特征抽取模型,能够从评论中抽取立场特征;
步骤3,构建谣言分类模块,将谣言传播过程划分成一系列以图结构为基础的子评论结构,根据谣言动态传播的特点,对子评论结构的编码进行谣言分类;
步骤4,构建强化决策模块,通过整合立场特征为早期检测效果提供动作方案,即是否补充后续评论数据,从而及时地检测出谣言;
步骤5,采集待检测的社交媒体帖子并进行预测。
进一步的,所述步骤1具体包括如下过程:
首先收集并整理典型谣言检测数据集,包括Twitter15、Twitter16和Weibo;然后使用TF-IDF词向量模型从词频角度选取数据中频率较高的5000个单词来对每个帖子进行编码并将其作为初始特征向量;最后对于每个谣言事件,构造以图结构为基础的评论结构。
进一步的,所述步骤2具体包括如下过程:
本发明设计的立场感知模块使用RoBERTa模型进行立场检测任务,从而得到特征抽取模型,其中RoBERTa中“<CLS>”位置输出的向量表示作为整个方法需要融合的立场特征。鉴于本发明对Weibo和Twitter两种数据集进行实验测试,因此立场感知模块的输入有两种类型。针对Weibo数据集,输入是目标话题(#Topic)和微博文本(Raw Text),而对于Twitter数据集,输入则是源帖子(source)、评论文本1(comment1)和对评论文本1回复的评论文本2(comment2)。接着立场感知模块对输入文本Tokenizer化,即将输入的句子采用“<CLS>”和“<SEP>”标识符进行分隔开,其中“<CLS>”需放在第一个句子首位,“<SEP>”是句子之间的分隔符。因此输入的信息会以[<CLS>,A,<SEP>,B,<SEP>...]形式出现,其中A,B分别表示第一个和第二个句子。将句子中每个token逐条输入到Pre-trained RoBERTa模型,经过多个Transformer层编码后,从而得到每个token深层次表示,计算公式为:
E=RoBERTa([<CLS>,A,<SEP>,B,<SEP>...])
从RoBERTa编码后的特征表示E中取出“<CLS>”位置上的向量Ecls作为抽取的立场特征并进行立场分类,计算公式为:
本发明采用两个全连接层对立场特征Ecls进行编码并将编码后的数据输入到softmax(·)分类器,从而得到一个三元组数值分别表示赞成、中立和反对对应的概率。使用交叉熵损失函数对立场感知模块进行优化,计算公式为:
进一步的,所述步骤3具体包括如下子步骤:
子步骤3-1,图评论结构划分,根据谣言动态传播的特点,对图评论结构S按照评论发布的时间进行划分,从以图结构为基础的子评论结构S(1)开始,每次增加一个评论内容形成下一个子评论结构,直到评论数量达到n-1时构成最后一个子结构,其中n-1是评论的数量。最终,事件c的评论结构S被表示为{S(1),S(2),...,S(T)},对于每一个子评论结构S(t),可以记作其中n(t)-1是S(t)中评论的数量;
子步骤3-2,图评论结构编码及预测,使用图卷积神经网络(GCN)来挖掘子评论结构的全局性特征,本发明使用两层图卷积层对图节点的特征进行卷积操作,并对最后一个图卷积层的输出向量平均化mean(·)从而得到全局性特征然后谣言分类模块融合立场感知模块提取的立场特征加强子评论结构的特征表示,计算公式为:
H=concat([H(1),H(2),...,H(t′)])
其中t′表示强化决策模块选择动作为“停止”时的时刻。由于各个以图结构为基础的子评论结构之间在时间尺度上具有相互依赖关系,使用LSTM网络对各个子评论结构进行进一步编码,计算公式为:
ht=LSTM(H)
其中ht是LSTM网络在t时刻的输出向量,表示子评论结构S(t)最终的编码特征表示。强化决策模块在没有做出“停止”行动之前,LSTM网络任何时刻的输出向量都会被作为特征向量进行谣言预测。本发明使用softmax(·)激活函数对谣言分类,计算公式为:
子步骤3-3,谣言分类损失函数,本发明采用交叉熵损失函数优化谣言分类模块,计算公式为:
进一步的,所述步骤4具体包括如下子步骤:
子步骤4-2,设置动作,记A={a1,a2,...}是动作集合,其中at∈{0,1}。在早期谣言检测中,本发明设置两个动作,分别是继续补充后续评论数据(continue)和停止补充去检测(stop)。当at=0时,强化决策模块会继续输入下一个子评论结构的编码,而当at=1时,模块不会再输入下一时刻的编码,无论选择哪个动作,谣言分类模块都会对事件进行预测,计算公式为:
子步骤4-3,设置奖励,记R={r1,r2,...}表示强化决策模块的交互性奖励,其中每个状态的奖励值rt由奖励函数得到。为了能够提升谣言检测的准确率,本发明利用谣言检测的结果来对强化决策模块给予相应的奖励或惩罚,因此奖励函数共包括三种可能的情况,分别是“continue”、“stop_correct”和“stop_incorrect”。其中“continue”表示at=0,即继续补充后续评论数据,此时模块需要进行分类预测,同时也要输入下一个时刻子评论结构的编码表示;“stop_correct”是指at=1且预测的结果是正确的;“stop_incorrect”是指at=1但预测的结果是错误的。对于“continue”情况,表明强化决策模块不能及时阻止谣言的传播,则会被给予轻微的惩罚-ε;对于“stop_correct”情况,强化决策模块将会赋予较大的奖励值来驱动方法向正确的方向发展;而对于“stop_incorrect”,则会给出较大的惩罚值,惩罚其判断错误。考虑到评论的数量可能影响谣言检测的效果,比如评论数量过少不足以谣言分类模块进行谣言分类,因此本发明设计了评论系数λ(t)用来平衡奖励函数,计算公式为:
其中n是以图结构为基础的评论结构中文本(包括源帖子和评论)总数,n(t)表示子评论结构S(t)中文本的数量。结合评论系数,完整的奖励函数如下所示:
其中M和P都是正常量值;
子步骤4-4,强化学习损失函数,采用Actor-Critic算法对早期谣言检测进行决策。Actor-Critic由两个神经网络组成,包括Actor网络和Critic网络。Actor网络和Critic网络生成动作和价值的计算步骤如下:
本发明使用两层全连接网络和抽取状态的特征,从而得到动作的概率和状态下选取动作的价值其中σ是激活函数,一般使用sigmoid函数。Critic网络学习状态值函数通过时间差分误差TD(t)进行优化。TD(t)由当前时间状态的价值、下一时刻状态的价值以及选择动作后反馈的奖励值得到,计算公式为:
其中,ε是衰减因子,表示下一时刻状态价值的衰减权重。Critic网络使用TD(t)的平方值作为损失函数进行参数w的梯度更新,计算公式为:
Losscritic=(TD(t))2
Actor网络则是直接学习动作策略,利用TD(t)加权的交叉熵作为损失函数来优化参数,计算公式为:
进一步的,所述步骤5具体包括如下过程:
对于待检测的帖子,本发明通过官方提供的API接口对该帖子相关信息进行采集,包括源帖子以及下方评论信息;接着使用TF-IDF词向量模型对每个文本内容进行编码,获取其向量化表示;然后依赖于评论之间的结构关系,将所有文本建模成以图结构为基础的数据结构,从而作为模型的输入;最后使用训练好的早期谣言检测模型对其进行预测,并反馈结果。
本发明还提供了一种基于立场特征的早期谣言检测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述基于立场特征的早期谣言检测方法。
与现有技术相比,本发明具有如下优点和有益效果:
1.本发明相比较于其他以图神经网络为主体的谣言检测方法,在能捕获谣言传播结构特征基础上,考虑到谣言动态传播特点,从而对谣言的识别准确率更高。且在早期谣言检测及时性方面进行实验对比,本发明能够对超过80%数量的事件在它们传播之后的6h内进行谣言判定,其识别谣言速度较快,从而及时阻止谣言的传播。
2.本发明对谣言传播过程中评论之间的关系建模,符合谣言动态传播特点,且方法中融合了立场特征,能够显著反应用户对帖子的情感导向,在检测的及时性和准确率方面均有提升。
3.本发明设计的谣言分类模块,通过使用图卷积网络能够深入挖掘以图结构为基础的谣言文本的全局化特征。并结合立场特征作为LSTM网络的输入,有利于捕获谣言的传播特征,该特性有效地凸显谣言的传播规律,大大增强谣言检测的性能。
附图说明
图1为本发明提供的一种基于立场特征的早期谣言检测方法总体框架图;
图2为本发明实施例涉及的立场感知模块框架;
图3为本发明实施例涉及的Actor网络和Critic网络的更新过程。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
实施例1:一种基于立场特征的早期谣言检测方法,其整体框架如图1所示,方法包括如下步骤:
步骤1,数据集构建及特征处理。首先收集并整理典型谣言检测数据集,包括Twitter15、Twitter16和Weibo;然后使用TF-IDF词向量模型从词频角度选取数据中频率较高的5000个单词来对每个帖子进行编码并将其作为初始特征向量;最后对于每个谣言事件,构造以图结构为基础的评论结构。
步骤2,构建立场感知模块。该模块在已有的立场数据集上进行立场检测任务,从而得到特征抽取模型,能够从评论中抽取立场特征。本发明设计的立场感知模块使用RoBERTa模型进行立场检测任务,从而得到特征抽取模型,其中RoBERTa中“<CLS>”位置输出的向量表示作为整个方法需要融合的立场特征,图2展示了立场感知模块的框架。鉴于本发明对Weibo和Twitter两种数据集进行实验测试,因此立场感知模块的输入有两种类型。针对Weibo数据集,输入是目标话题(#Topic)和微博文本(Raw Text),而对于Twitter数据集,输入则是源帖子(source)、评论文本1(comment1)和对评论文本1回复的评论文本2(comment2)。接着立场感知模块对输入文本Tokenizer化,即将输入的句子采用“<CLS>”和“<SEP>”标识符进行分隔开,其中“<CLS>”需放在第一个句子首位,“<SEP>”是句子之间的分隔符。因此输入的信息会以[<CLS>,A,<SEP>,B,<SEP>...]形式出现,其中A,B分别表示第一个和第二个句子。将句子中每个token逐条输入到Pre-trained RoBERTa模型,经过多个Transformer层编码后,从而得到每个token深层次表示,计算公式为:
E=RoBERTa([<CLS>,A,<SEP>,B,<SEP>...])
从RoBERTa编码后的特征表示E中取出“<CLS>”位置上的向量Ecls作为抽取的立场特征并进行立场分类,计算公式为:
本发明采用两个全连接层对立场特征Ecls进行编码并将编码后的数据输入到softmax(·)分类器,从而得到一个三元组数值分别表示赞成、中立和反对对应的概率。使用交叉熵损失函数对立场感知模块进行优化,计算公式为:
步骤3,构建谣言分类模块,将谣言传播过程划分成一系列以图结构为基础的子评论结构,根据谣言动态传播的特点,对子评论结构的编码进行谣言分类。本步骤实施过程分为3个子步骤:
子步骤3-1,图评论结构划分,根据谣言动态传播的特点,对图评论结构S按照评论发布的时间进行划分,从以图结构为基础的子评论结构S(1)开始,每次增加一个评论内容形成下一个子评论结构,直到评论数量达到n-1时构成最后一个子结构,其中n-1是评论的数量。最终,事件c的评论结构S被表示为{S(1),S(2),...,S(T)},对于每一个子评论结构S(t),可以记作其中n(t)-1是S(t)中评论的数量;
子步骤3-2,图评论结构编码及预测,使用图卷积神经网络(GCN)来挖掘子评论结构的全局性特征,本发明使用两层图卷积层对图节点的特征进行卷积操作,并对最后一个图卷积层的输出向量平均化mean(·)从而得到全局性特征然后谣言分类模块融合立场感知模块提取的立场特征加强子评论结构的特征表示,计算公式为:
H=concat([H(1),H(2),...,H(t′)])
其中t′表示强化决策模块选择动作为“停止”时的时刻。由于各个以图结构为基础的子评论结构之间在时间尺度上具有相互依赖关系,使用LSTM网络对各个子评论结构进行进一步编码,计算公式为:
ht=LSTM(H)
其中ht是LSTM网络在t时刻的输出向量,表示子评论结构S(t)最终的编码特征表示。强化决策模块在没有做出“停止”行动之前,LSTM网络任何时刻的输出向量都会被作为特征向量进行谣言预测。本发明使用softmax(·)激活函数对谣言分类,计算公式为:
子步骤3-3,谣言分类损失函数,本发明采用交叉熵损失函数优化谣言分类模块,计算公式为:
步骤4,构建强化决策模块,通过整合立场特征为早期检测效果提供动作方案,即是否补充后续评论数据,从而及时地检测出谣言。本步骤实施过程分为4个子步骤:
子步骤4-2,设置动作,记A={a1,a2,...}是动作集合,其中at∈{0,1}。在早期谣言检测中,本发明设置两个动作,分别是继续补充后续评论数据(continue)和停止补充去检测(stop)。当at=0时,强化决策模块会继续输入下一个子评论结构的编码,而当at=1时,模块不会再输入下一时刻的编码,无论选择哪个动作,谣言分类模块都会对事件进行预测,计算公式为:
子步骤4-3,设置奖励,记R={r1,r2,...}表示强化决策模块的交互性奖励,其中每个状态的奖励值rt由奖励函数得到。为了能够提升谣言检测的准确率,本发明利用谣言检测的结果来对强化决策模块给予相应的奖励或惩罚,因此奖励函数共包括三种可能的情况,分别是“continue”、“stop_correct”和“stop_incorrect”。其中“continue”表示at=0,即继续补充后续评论数据,此时模块需要进行分类预测,同时也要输入下一个时刻子评论结构的编码表示;“stop_correct”是指at=1且预测的结果是正确的;“stop_incorrect”是指at=1但预测的结果是错误的。对于“continue”情况,表明强化决策模块不能及时阻止谣言的传播,则会被给予轻微的惩罚-ε;对于“stop_correct”情况,强化决策模块将会赋予较大的奖励值来驱动方法向正确的方向发展;而对于“stop_incorrect”,则会给出较大的惩罚值,惩罚其判断错误。考虑到评论的数量可能影响谣言检测的效果,比如评论数量过少不足以谣言分类模块进行谣言分类,因此本发明设计了评论系数λ(t)用来平衡奖励函数,计算公式为:
其中n是以图结构为基础的评论结构中文本(包括源帖子和评论)总数,n(t)表示子评论结构S(t)中文本的数量。结合评论系数,完整的奖励函数如下所示:
其中M和P都是正常量值;
子步骤4-4,强化学习损失函数,采用Actor-Critic算法对早期谣言检测进行决策。Actor-Critic由两个神经网络组成,包括Actor网络和Critic网络。图3展示了两个网络的更新过程,Actor网络和Critic网络生成动作和价值的计算步骤如下:
本发明使用两层全连接网络和抽取状态的特征,从而得到动作的概率和状态下选取动作的价值其中σ是激活函数,一般使用sigmoid函数。Critic网络学习状态值函数通过时间差分误差TD(t)进行优化。TD(t)由当前时间状态的价值、下一时刻状态的价值以及选择动作后反馈的奖励值得到,计算公式为:
其中,ε是衰减因子,表示下一时刻状态价值的衰减权重。Critic网络使用TD(t)的平方值作为损失函数进行参数w的梯度更新,计算公式为:
Losscritic=(TD(t))2
Actor网络则是直接学习动作策略,利用TD(t)加权的交叉熵作为损失函数来优化参数,计算公式为:
步骤5,采集待检测的社交媒体帖子并进行预测。对于待检测的帖子,本发明通过官方提供的API接口对该帖子相关信息进行采集,包括源帖子以及下方评论信息;接着使用TF-IDF词向量模型对每个文本内容进行编码,获取其向量化表示;然后依赖于评论之间的结构关系,将所有文本建模成以图结构为基础的数据结构,从而作为模型的输入;最后使用训练好的早期谣言检测模型对其进行预测,并反馈结果。
综上,本发明包括三个部分:立场感知模块、谣言分类模块和立场感知模块。首先,设计基于RoBERTa模型的立场感知模块,能够从评论中抽取立场特征。接着,基于评论之间的结构关系,设计谣言分类模块,将谣言传播过程划分成一系列以图结构为基础的子评论结构,使用图卷积网络进行编码并融合立场特征输入到LSTM网络中从而对谣言事件进行识别。然后,基于Actor-Crtic强化学习算法,设计强化决策模块。该模块根据谣言动态传播的特点,融合立场特征为早期检测效果提供行动解决方案,即是否补充后续评论数据,从而及时地检测出谣言。最后,谣言分类模块根据行动结果完成最终的预测。
实施例2的发明构思,本发明实施例公开的一种基于立场特征的早期谣言检测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述基于立场特征的早期谣言检测方法。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (7)
1.一种基于立场特征的早期谣言检测方法,其特征在于,所述方法包括如下步骤:
步骤1,数据集构建及特征处理,收集并整理谣言数据集,并对数据进行特征工程分析且特征处理;
步骤2,构建立场感知模块,在已有的立场数据集上进行立场检测任务,从而得到特征抽取模型,能够从评论中抽取立场特征;
步骤3,构建谣言分类模块,将谣言传播过程划分成一系列以图结构为基础的子评论结构,根据谣言动态传播的特点,对子评论结构的编码进行谣言分类;
步骤4,构建强化决策模块,通过整合立场特征为早期检测效果提供动作方案,即是否补充后续评论数据,从而及时地检测出谣言;
步骤5,采集待检测的社交媒体帖子并进行预测。
2.根据权利要求1所述的基于立场特征的早期谣言检测方法,其特征在于,所述步骤1具体包括如下过程:
首先收集并整理典型谣言检测数据集,包括Twitter15、Twitter16和Weibo;然后使用TF-IDF词向量模型从词频角度选取数据中频率最高的5000个单词来对每个帖子进行编码并将其作为初始特征向量;最后对于每个谣言事件,构造以图结构为基础的评论结构。
3.根据权利要求1所述的基于立场特征的早期谣言检测方法,其特征在于,所述步骤2具体包括如下过程:
立场感知模块使用RoBERTa模型进行立场检测任务,从而得到特征抽取模型,其中RoBERTa中“<CLS>”位置输出的向量表示作为整个方法需要融合的立场特征,鉴于对Weibo和Twitter两种数据集进行实验测试,因此立场感知模块的输入有两种类型,针对Weibo数据集,输入是目标话题(#Topic)和微博文本(Raw Text),而对于Twitter数据集,输入则是源帖子(source)、评论文本1(comment1)和对评论文本1回复的评论文本2(comment2),接着立场感知模块对输入文本Tokenizer化,即将输入的句子采用“<CLS>”和“<SEP>”标识符进行分隔开,其中“<CLS>”需放在第一个句子首位,“<SEP>”是句子之间的分隔符,因此输入的信息会以[<CLS>,A,<SEP>,B,<SEP>...]形式出现,其中A,B分别表示第一个和第二个句子,将句子中每个token逐条输入到Pre-trained RoBERTa模型,经过多个Transformer层编码后,从而得到每个token深层次表示,计算公式为:
E=RoBERTa([<CLS>,A,<SEP>,B,<SEP>...])
从RoBERTa编码后的特征表示E中取出“<CLS>”位置上的向量Ecls作为抽取的立场特征并进行立场分类,计算公式为:
采用两个全连接层对立场特征Ecls进行编码并将编码后的数据输入到softmax(·)分类器,从而得到一个三元组数值分别表示赞成、中立和反对对应的概率,使用交叉熵损失函数对立场感知模块进行优化,计算公式为:
4.根据权利要求1所述的基于立场特征的早期谣言检测方法,其特征在于,所述步骤3具体包括如下子步骤:
子步骤3-1,图评论结构划分,根据谣言动态传播的特点,对图评论结构S按照评论发布的时间进行划分,从以图结构为基础的子评论结构S(1)开始,每次增加一个评论内容形成下一个子评论结构,直到评论数量达到n-1时构成最后一个子结构,其中n-1是评论的数量,最终,事件c的评论结构S被表示为{S(1),S(2),...,S(T)},对于每一个子评论结构S(t),记作其中n(t)-1是S(t)中评论的数量;
子步骤3-2,图评论结构编码及预测,使用图卷积神经网络(GCN)来挖掘子评论结构的全局性特征,使用两层图卷积层对图节点的特征进行卷积操作,并对最后一个图卷积层的输出向量平均化mean(·)从而得到全局性特征然后谣言分类模块融合立场感知模块提取的立场特征加强子评论结构的特征表示,计算公式为:
H=concat([H(1),H(2),...,H(t′)])
其中t′表示强化决策模块选择动作为“停止”时的时刻,由于各个以图结构为基础的子评论结构之间在时间尺度上具有相互依赖关系,使用LSTM网络对各个子评论结构进行进一步编码,计算公式为:
ht=LSTM(H)
其中ht是LSTM网络在t时刻的输出向量,表示子评论结构S(t)最终的编码特征表示,强化决策模块在没有做出“停止”行动之前,LSTM网络任何时刻的输出向量都会被作为特征向量进行谣言预测,使用softmax(·)激活函数对谣言分类,计算公式为:
子步骤3-3,谣言分类损失函数,采用交叉熵损失函数优化谣言分类模块,计算公式为:
5.根据权利要求1所述的基于立场特征的早期谣言检测方法,其特征在于,所述步骤4具体包括如下子步骤:
子步骤4-2,设置动作,记A={a1,a2,...}是动作集合,其中at∈{0,1},在早期谣言检测中,设置两个动作,分别是继续补充后续评论数据(continue)和停止补充去检测(stop),当at=0时,强化决策模块会继续输入下一个子评论结构的编码,而当at=1时,模块不会再输入下一时刻的编码,无论选择哪个动作,谣言分类模块都会对事件进行预测,计算公式为:
子步骤4-3,设置奖励,记R={r1,r2,...}表示强化决策模块的交互性奖励,其中每个状态的奖励值rt由奖励函数得到,利用谣言检测的结果来对强化决策模块给予相应的奖励或惩罚,因此奖励函数共包括三种可能的情况,分别是“continue”、“stop_correct”和“stop_incorrect”,其中“continue”表示at=0,即继续补充后续评论数据,此时模块需要进行分类预测,同时也要输入下一个时刻子评论结构的编码表示;“stop_correct”是指at=1且预测的结果是正确的;“stop_incorrect”是指at=1但预测的结果是错误的,对于“continue”情况,表明强化决策模块不能及时阻止谣言的传播,则会被给予轻微的惩罚-ε;对于“stop_correct”情况,强化决策模块将会赋予较大的奖励值来驱动方法向正确的方向发展;而对于“stop_incorrect”,则会给出较大的惩罚值,惩罚其判断错误,设计评论系数λ(t)用来平衡奖励函数,计算公式为:
其中n是以图结构为基础的评论结构中文本(包括源帖子和评论)总数,n(t)表示子评论结构S(t)中文本的数量,结合评论系数,完整的奖励函数如下所示:
其中M和P都是正常量值;
子步骤4-4,强化学习损失函数,采用Actor-Critic算法对早期谣言检测进行决策,Actor-Critic由两个神经网络组成,包括Actor网络和Critic网络,Actor网络和Critic网络生成动作和价值的计算步骤如下:
使用两层全连接网络和抽取状态的特征,从而得到动作的概率和状态下选取动作的价值其中σ是激活函数,一般使用sigmoid函数,Critic网络学习状态值函数通过时间差分误差TD(t)进行优化,TD(t)由当前时间状态的价值、下一时刻状态的价值以及选择动作后反馈的奖励值得到,计算公式为:
其中,ε是衰减因子,表示下一时刻状态价值的衰减权重,Critic网络使用TD(t)的平方值作为损失函数进行参数w的梯度更新,计算公式为:
Losscritic=(TD(t))2
Actor网络则是直接学习动作策略,利用TD(t)加权的交叉熵作为损失函数来优化参数,计算公式为:
6.根据权利要求1所述的基于立场特征的早期谣言检测方法,其特征在于,所述步骤5具体包括如下过程:
对于待检测的帖子,通过官方提供的API接口对该帖子相关信息进行采集,包括源帖子以及下方评论信息;接着使用TF-IDF词向量模型对每个文本内容进行编码,获取其向量化表示;然后依赖于评论之间的结构关系,将所有文本建模成以图结构为基础的数据结构,从而作为模型的输入;最后使用训练好的早期谣言检测模型对其进行预测,并反馈结果。
7.一种基于立场特征的早期谣言检测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,该计算机程序被加载至处理器时实现权利要求1-6中任意一项所述的基于立场特征的早期谣言检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210588702.0A CN114896519A (zh) | 2022-05-27 | 2022-05-27 | 一种基于立场特征的早期谣言检测方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210588702.0A CN114896519A (zh) | 2022-05-27 | 2022-05-27 | 一种基于立场特征的早期谣言检测方法与装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114896519A true CN114896519A (zh) | 2022-08-12 |
Family
ID=82725418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210588702.0A Pending CN114896519A (zh) | 2022-05-27 | 2022-05-27 | 一种基于立场特征的早期谣言检测方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114896519A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116542257A (zh) * | 2023-07-07 | 2023-08-04 | 长沙市智为信息技术有限公司 | 一种基于会话语境感知的谣言检测方法 |
CN117076911A (zh) * | 2023-10-17 | 2023-11-17 | 南京航空航天大学 | 一种基于传播结构动态保持的网络谣言检测方法 |
-
2022
- 2022-05-27 CN CN202210588702.0A patent/CN114896519A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116542257A (zh) * | 2023-07-07 | 2023-08-04 | 长沙市智为信息技术有限公司 | 一种基于会话语境感知的谣言检测方法 |
CN116542257B (zh) * | 2023-07-07 | 2023-09-22 | 长沙市智为信息技术有限公司 | 一种基于会话语境感知的谣言检测方法 |
CN117076911A (zh) * | 2023-10-17 | 2023-11-17 | 南京航空航天大学 | 一种基于传播结构动态保持的网络谣言检测方法 |
CN117076911B (zh) * | 2023-10-17 | 2024-01-26 | 南京航空航天大学 | 一种基于传播结构动态保持的网络谣言检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN107992904B (zh) | 基于多源信息融合的林业生态环境人机交互方法 | |
CN114896519A (zh) | 一种基于立场特征的早期谣言检测方法与装置 | |
CN105975573A (zh) | 一种基于knn的文本分类方法 | |
CN114780831A (zh) | 基于Transformer的序列推荐方法及系统 | |
CN114627282B (zh) | 目标检测模型的建立方法、应用方法、设备、装置及介质 | |
CN116975776B (zh) | 一种基于张量和互信息的多模态数据融合方法和设备 | |
CN110532398A (zh) | 基于多任务联合神经网络模型的家族图谱自动构建方法 | |
CN115114409B (zh) | 一种基于软参数共享的民航不安全事件联合抽取方法 | |
CN114429122B (zh) | 一种基于循环注意力的方面级情感分析系统和方法 | |
CN113239143B (zh) | 融合电网故障案例库的输变电设备故障处理方法及系统 | |
CN112819024B (zh) | 模型处理方法、用户数据处理方法及装置、计算机设备 | |
CN112215001A (zh) | 一种谣言识别方法及系统 | |
CN113255360A (zh) | 基于层次化自注意力网络的文档评级方法和装置 | |
CN110852066A (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN113887836B (zh) | 一种融合事件环境信息的叙述性事件预测方法 | |
Shan | Social Network Text Sentiment Analysis Method Based on CNN‐BiGRU in Big Data Environment | |
CN113741759A (zh) | 评论信息的展示方法、装置、计算机设备和存储介质 | |
CN117235261A (zh) | 一种多模态方面级情感分析方法、装置、设备及存储介质 | |
CN114298011B (zh) | 神经网络、训练方法、方面级情感分析方法、装置及存储介质 | |
CN114357160B (zh) | 基于生成传播结构特征的早期谣言检测方法及装置 | |
CN117034222A (zh) | 用户账号处理方法、装置、电子设备、介质和程序产品 | |
CN116468030A (zh) | 一种基于多任务神经网络的端到端方面级情感分析方法 | |
CN118568568B (zh) | 内容分类模型的训练方法以及相关设备 | |
CN118228035B (zh) | 内容标签的确定方法以及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |