CN117076911B - 一种基于传播结构动态保持的网络谣言检测方法 - Google Patents
一种基于传播结构动态保持的网络谣言检测方法 Download PDFInfo
- Publication number
- CN117076911B CN117076911B CN202311339162.3A CN202311339162A CN117076911B CN 117076911 B CN117076911 B CN 117076911B CN 202311339162 A CN202311339162 A CN 202311339162A CN 117076911 B CN117076911 B CN 117076911B
- Authority
- CN
- China
- Prior art keywords
- propagation
- information
- tree
- network
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 41
- 238000012423 maintenance Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 29
- 230000007480 spreading Effects 0.000 claims abstract description 17
- 238000003892 spreading Methods 0.000 claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims description 24
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 230000001902 propagating effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 claims description 2
- 230000009193 crawling Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000012935 Averaging Methods 0.000 claims 1
- 230000007787 long-term memory Effects 0.000 claims 1
- 230000006403 short-term memory Effects 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 abstract description 8
- 238000006243 chemical reaction Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000855 fermentation Methods 0.000 description 1
- 230000004151 fermentation Effects 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于传播结构动态保持的网络谣言检测方法,其包括如下步骤:获取包含信息传播树和传播内容流的信息传播事件;设定时间间隔将信息传播事件划分为多个传播阶段;抽取每个信息传播阶段的内容特征和整体结构特征;基于时间序列方法建模连续的传播阶段;基于神经网络二分类方式训练网络谣言检测模型;利用训练好的模型判断任意信息传播事件的初始信息是否为网络谣言。本发明在对信息传播事件进行阶段划分的基础上,针对每一阶段的原始传播树进行结构无损的标准化转换,以元树路径为媒介学习全局传播结构特征,并兼顾原始传播树的局部传播结构特征,在不同传播阶段均可保持谣言的传播结构,能够有效检测具有阶段性传播特点的网络谣言。
Description
技术领域
本发明属于网络谣言检测领域,涉及一种基于传播结构动态保持的网络谣言检测方法。
背景技术
与传统的信息媒介相比,网络媒体上的信息流通具有门槛低、规模大、传播迅速、实时性强、覆盖面广等特点,这使得网络谣言的形成与发酵异常容易。因此,准确、高效地检测网络谣言对于营造良好网络空间至关重要。
一方面,网络谣言具有明确的发展和演变机理,在酝酿期、爆发期、蔓延期和平息期等不同阶段均对应不同的传播特点。为了准确刻画网络谣言的演化机理,捕捉网络谣言的传播模式,应当针对谣言自形成到平息所处的各个阶段分别建模并挖掘相邻阶段的动态演进特征,而非直接针对整个谣言传播事件进行建模,忽略不同传播阶段所呈现的不同发展状态。另一方面,网络谣言检测一般考虑信息内容和传播拓扑两个方面的特征。
然而,随着众包等在线协作方式的兴起,网络谣言相比以前更具隐蔽性,发布者和传播者会对内容本身进行针对性修改,使得信息真假难辨从而规避传统的检测方案。此外,由于不同的网络谣言在传播拓扑上差异较大,现有基于传播树统计特征(如树的广度与深度)的方案难以准确刻画谣言传播树的局部特征与全局特征,检测效果并不理想。
归结起来,现有网络谣言检测方案存在三个方面不足:1.现有方案一般针对网络谣言的整个传播事件(即初始信息及其评论、转发信息)进行建模,忽略了谣言在不同传播阶段具有的内容和结构特征;2.现有方案针对谣言的传播拓扑,主要提取传播树的统计特征(如树的广度与深度),然而不同的网络谣言在传播拓扑上差异较大,这种浅层的统计特征难以真正刻画网络谣言的传播结构;3.现有方案一般直接利用图神经网络学习谣言传播树的节点特征,这种方式仅能学习到节点及其邻居所具有的局部特征,难以学习到谣言传播树的全局特征。
综上所述,现有实现方案没有针对网络谣言传播事件进行分阶段动态建模,难以兼顾谣言传播树的局部与全局结构特征,针对网络谣言的检测性能并不理想。
发明内容
本发明的目的在于提出一种基于传播结构动态保持的网络谣言检测方法,该方法能够针对网络谣言传播事件进行分阶段动态建模,同时能够兼顾谣言传播树的局部与全局结构特征,以提高具有阶段性传播特点的网络谣言的检测性能。
本发明为了实现上述目的,采用如下技术方案:
一种基于传播结构动态保持的网络谣言检测方法,包括如下步骤:
步骤1. 获取包含信息传播树和传播内容流的信息传播事件;
步骤2. 设定时间间隔将得到的信息传播事件划分为多个传播阶段;
步骤3. 针对每个传播阶段,分别抽取该传播阶段的内容特征和整体结构特征;
步骤4. 将每个传播阶段的内容特征和整体结构特征进行拼接,获得每个传播阶段的整体特征,再将连续传播阶段的整体特征序列视作时间序列,并基于时间序列建模方法构建最终的网络谣言检测模型;
步骤5. 基于神经网络二分类方式训练网络谣言检测模型;
步骤6. 对于给定的来自网络空间的任意信息传播事件,利用训练好的网络谣言检测模型判断信息传播事件的初始信息是否为网络谣言。
本发明具有如下优点:
如上所述,本发明述及了一种基于传播结构动态保持的网络谣言检测方法,该方法一方面将网络空间中的信息传播事件按时间划分为不同的演化阶段,考虑内容特征和结构特征对信息传播事件进行动态建模;另一方面,针对每一传播阶段的原始传播树进行结构无损的标准化转换,以解决网络谣言传播结构差异大的问题,并通过元树路径学习标准化二叉树的全局传播结构特征,同时兼顾传播过程的全局结构特征和局部结构特征,在不同传播阶段均可保持谣言的传播结构,因而,本发明能够有效检测具有阶段性传播特点的网络谣言。
附图说明
图1为本发明实施例中基于传播树结构动态保持的网络谣言检测方法流程图。
图2为本发明实施例中信息传播树和传播内容流示意图。
图3为本发明实施例中网络谣言检测模型结构图。
图4为本发明实施例中结构无损的传播树标准化转换过程示意图。
图5为本发明实施例中深度d≤3的元树集合示意图。
图6为本发明实施例中针对二叉树构造元树路径的示意图。
图7为本发明实施例中基于CNN的全局传播结构特征学习示意图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
本发明针对具有阶段性传播特点的网络谣言,设计了一种基于传播树结构动态保持的网络谣言检测方法,该方法在对信息传播事件进行阶段划分的基础上,首先建模不同传播阶段的内容与传播特征,在传播特征建模上兼顾信息传播树的局部与全局结构特征,随后将各传播阶段视作时间序列,利用时序神经网络捕捉相邻传播阶段的时序依赖关系,最后利用汇总的多阶段建模结果对传播事件进行二分类,判断传播事件的初始信息是网络谣言或真实信息。
基于以上发明构思,下面对基于传播树结构动态保持的网络谣言检测方法进行详细说明。如图1所示,基于传播树结构动态保持的网络谣言检测方法,包括如下步骤:
步骤1. 获取包含信息传播树和传播内容流的信息传播事件。
针对网络谣言传播事件,通过爬虫程序获取网络谣言的初始信息链接后,爬取网络谣言的初始信息以及相关的转发与评论信息;针对真实信息传播事件,通过爬虫程序直接爬取真实信息的初始信息以及相关的转发与评论信息。
以新浪微博这一中文在线社交网络为例,具体阐述如何获取包含传播树和内容流的信息传播事件集合(包含网络谣言和真实信息)。
针对网络谣言传播事件,新浪微博社区管理中心页面展示了经由用户举报且官方判定为不实信息的网络谣言,并在公示页面中给出了初始信息的访问链接。
对于任一网络谣言,通过 Scrapy 爬虫程序获取初始信息链接后,爬取初始信息以及相关的转发与评论信息(仅爬取被微博社区管理中心标记为网络谣言时间点之前的信息)。
针对真实信息传播事件,则通过 Scrapy 爬虫程序直接从新浪微博认证的官方账号中爬取,对于任一真实信息,爬取初始信息以及相关的转发与评论信息。
本发明实施例中收集网络空间中某用户发布的初始信息及其转发、评论信息来构建网络谣言检测模型,因此,原则上能针对任意社交网络实现谣言检测。
数据爬取阶段,网络谣言传播事件集合与真实信息传播事件集合的规模大小相当,此处的规模大小相当,例如可以是规模大小相同或相近。
例如,两类信息传播事件集合均爬取10000个传播事件。
对于爬取的每一类信息传播事件中的每个样本,将初始信息以及相关的转发与评论信息按时间先后顺序分别形成信息传播树和传播内容流。
以上两类信息传播事件集合用于有监督训练所述网络谣言检测模型。
步骤2. 设定时间间隔将得到的信息传播事件划分为多个传播阶段。
针对每一类信息传播事件中的每个样本,选取时间间隔Δt(在实施例中,Δt例如为2小时),将信息传播树和传播内容流划分为s个传播阶段。
其中位置相对靠后的传播阶段完全覆盖位置相对靠前的传播阶段。
如图2所示,例如将图中的信息传播事件划分为3个传播阶段,即S 1、S 2和S 3。
其中,传播阶段S 1与传播阶段S 2相比,传播阶段S 2位置相对靠后;而传播阶段S 2与传播阶段S 3相比,传播阶段S 3位置相对靠后。
因此,传播阶段S 2包含传播阶段S 1,而传播阶段S 3包含传播阶段S 2。
当然,以上仅仅为示例性的,本实施例中并不局限于划分上述3个传播阶段。
步骤3. 针对每个传播阶段,分别抽取该传播阶段的内容特征和整体结构特征。
如图3所示,针对内容特征,利用双向长短时记忆网络Bi-LSTM学习每一条信息的嵌入表示,即对于任意一条信息m i ,通过Bi-LSTM将其映射为l维向量表示x i ∈R l 。
定义第i个传播阶段为S i ,将传播阶段S i 的内容流(即按时间先后顺序排列的若干信息)视作时间序列,再次利用Bi-LSTM将传播阶段S i 的内容流映射为l维向量表示∈R l 。
针对整体结构特征,首先利用图注意力网络GAT学习原始传播树的节点表示。
设传播阶段S i 的原始传播树为G(S i ),设第n层节点的嵌入表示矩阵为h n ,则第n+1层节点的嵌入表示矩阵按如下公式获得:h n+1=GAT(h n ,G(S i ))。
当n=0时,令h 0为随机初始化的N×l维矩阵,N表示原始传播树G(S i )的节点数量。
通过此方式能够学习原始传播树中每个节点所处的局部结构,求得每个节点的嵌入表示。
为了保证计算效率,取n=2时所对应的嵌入表示矩阵h 3作为原始传播树G(S i )的节点表示。此时,对于第j个节点,其嵌入表示zj可直接从嵌入表示矩阵h 3的第j行获得。
其次,为了克服不同网络谣言在传播拓扑上差异较大的问题,对传播阶段S i 的原始传播树G(S i )进行结构无损的标准化操作,即将原始传播树通过定位、移除和旋转操作转换为标准的二叉树,过程如图4所示。其中图4(a)表示原始传播树,图4(b)、图4 (c)、图4(d)依次展示了通过定位操作、移除操作和旋转操作转换为标准的二叉树的过程。
特别地,定位操作是在所有节点的兄弟节点之间加一条连线,移除操作是对树中的每个节点,只保留它与第一个孩子节点之间的连线并删除它与其它孩子节点之间的连线,旋转操作是以树的根节点为轴心,将整棵树顺时针旋转一定角度,使之结构层次分明。
为了刻画二叉树自顶向下的全局结构,本发明使用元树路径(Meta-tree path)对二叉树的全局结构进行表达。其中,元树是一种彼此异构的树形结构,例如图5中深度d≤3的元树共有25个,分别为T 1、T 2、…、T 25,且任意两个元树之间均异构。
为了保证计算效率,利用深度d≤3的元树构造元树路径。特别地,在构造元树路径时,采用广度优先遍历,首先访问二叉树的根节点,然后依次访问其左孩子节点和右孩子节点,依次类推,直到所有节点均被访问。对于每一次访问,均抽取一个深度d≤3的元树,抽取优先级为d=3>d=2>d=1,即优先抽取深度为3的元树,如无深度为3的元树,则抽取深度为2的元树,依次类推。通过该方式,对于节点个数为N的二叉树,可以抽取N个元树,按照遍历顺序可构造一条长度为N的元树路径。
图6展示了针对给定的二叉树构造元树路径的过程。依据广度优先遍历思想,首先,访问图6所示二叉树的根节点,并抽取一个深度d=3的元树T 7;其次,访问根节点的左孩子节点,并抽取一个深度d=3的元树T 22;然后,访问根节点左孩子节点的左孩子节点,抽取一个深度d=3的元树T 9;再次,访问根节点左孩子节点的右孩子节点,抽取一个深度d=3的元树T 14;依次类推,直到二叉树所有节点均被访问。对于每次访问,如果不存在深度d=3的元树,则抽取d=2的元树;如果不存在深度d=2的元树,则抽取d=1的元树。
为了学习信息传播的全局结构特征,通过独热编码One-hot为构造的元树路径按照广度优先遍历进行编码,获得元树路径编码矩阵,随后利用卷积神经网络CNN对编码矩阵进行卷积操作,自上而下抽取编码矩阵的结构特征,获得编码矩阵的全局结构特征。
为了更广泛地学习编码矩阵的全局结构特征,在CNN中设置k个卷积核,每个卷积核各自独立地运行,设k个卷积核学习到的全局结构特征分别为q 1、q 2、…、q k 。
如图7示出了基于CNN的全局传播结构特征学习示意图。对于抽取到的元树路径T 7 →T 22→T 9→T 14→T 3→T 1→T 6→T 1→T 3→T 1。
首先,对每个单元进行独热编码One-hot。由于每个单元对应的元树至多含有7个节点,因此可以基于广度优先遍历思想采用7个二进制位来表示每一个元树。
比如1000000表示仅有根节点的元树T 1,1100000表示仅有根节点和左孩子节点的元树T 2 ,1010000表示仅有根节点和右孩子节点的元树T 3,1110000表示有根节点和左、右孩子节点的元树T 4,依次类推。通过这种方式可以获得元树路径中每个单元的二进制编码,将编码按顺序组合可获得编码矩阵,即图7所示的矩阵。
其次,使用卷积神经网络CNN作用于编码矩阵,抽取编码矩阵的全局结构特征。
由于在卷积神经网络CNN中设置了k个卷积核,每个卷积核都能抽取到独一无二的全局结构特征,因此这一步骤能抽取到q 1、q 2、…、q k 个全局结构特征。
其中,每个全局结构特征q i均为l维向量q i ∈R l 。
为了刻画传播阶段S i 全局结构特征与局部特征之间的联系,通过如下方式计算全局结构特征q i 对于原始传播树中任意节点z j 的影响概率p(z j |q i ):
。
其中,z j 表示原始传播树中节点z j 的嵌入表示,w i 表示在全局结构特征q i 下待学习的权重向量,w i T 表示权重向量的转置,σ(·)表示sigmoid激活函数,⊕表示向量拼接操作。
基于计算获得的影响概率p(z j |q i ),通过线性加权的方式获得全局结构特征q i 影响下原始传播树中全体节点加权求和得到的结构特征f i :
。
由于CNN中采用k个卷积核,存在k个全局结构特征,因此将k个全局结构特征下的传播结构特征进行聚合;采用向量拼接的方式进行特征聚合。
获得传播阶段S i 的整体结构特征:/>=f 1⊕f 2⊕…⊕f k。
步骤4. 将每个传播阶段的内容特征和整体结构特征进行拼接,获得每个传播阶段的整体特征,再将连续传播阶段的整体特征序列视作时间序列,并基于时间序列建模方法构建最终的网络谣言检测模型。
基于步骤3获得的传播阶段S i 的内容特征和整体结构特征/>,将二者进行向量拼接获得代表传播阶段S i 的整体特征/>=/>⊕/>。
本发明将连续传播阶段S 1、S 2…、S s 的整体特征视作时间序列,从而能够基于时间序列方法建模连续的传播阶段。具体的,利用Bi-LSTM建模时间序列,将对应的Bi-LSTM隐藏层向量记作/>。
步骤5. 基于神经网络二分类方式训练网络谣言检测模型。
基于步骤4获取的隐藏层向量,首先通过平均池化(Averagepooling)操作计算隐藏层向量的平均值/>,随后将/>输入带有Softmax分类器的全连接神经网络进行二分类;类别标签分别为代表网络谣言的C 1 =1和代表真实信息的C 2 =1。
Softmax分类器本质上是一种神经元输出的概率分布形式。
Softmax分类器的最后一个输出层的节点个数与类别数量一致,在网络谣言检测背景下,输出层的节点个数为2,依次表示网络谣言和真实信息。
全连接神经网络按如下公式计算类别C i的概率:p m(C i)=softmax(δ(W·+b))。
其中,p m(C i)表示传播事件m的初始信息被判定属于类别C i的概率,δ(·)表示激活函数,W和b分别表示神经网络的隐藏层权重矩阵和偏置向量。
采取有监督方式训练网络谣言检测模型,将步骤1获取的网络谣言传播事件集合和真实信息传播事件集合作为训练数据集,使用二项交叉熵损失Loss作为优化目标函数,并且利用反向传播算法回传梯度以最小化目标函数,目标函数的计算方式为:
。
其中,M表示训练数据集中的样本总数,y m 表示传播事件m对应的真实标签。
对目标函数Loss进行最小化,即获得训练好的网络谣言检测模型。
步骤6. 对于给定的来自网络空间的任意信息传播事件,利用训练好的网络谣言检测模型判断信息传播事件的初始信息是否为网络谣言。
基于步骤5训练得到的网络谣言检测模型,对于给定的来自网络空间的任意信息传播事件a,对信息传播事件a的初始信息所属类别进行分类,具体过程为:
步骤6.1. 依据步骤1获得信息传播事件a的信息传播树和传播内容流;
步骤6.2. 依据步骤2选择时间间隔Δt将信息传播事件a划分为多个传播阶段;
步骤6.3. 依据步骤3建模信息传播事件a每个传播阶段S i 的内容特征和整体结构特征;
步骤6.4. 依据步骤4建模信息传播事件a的连续传播阶段;
步骤6.5. 依据步骤5训练得到的网络谣言检测模型计算信息传播事件a的初始信息属于网络谣言或真实信息的概率,取较大概率值对应的类别作为信息传播事件a的初始信息所属类别。
当然,以上说明仅仅为本发明的较佳实施例,本发明并不限于列举上述实施例,应当说明的是,任何熟悉本领域的技术人员在本说明书的教导下,所做出的所有等同替代、明显变形形式,均落在本说明书的实质范围之内,理应受到本发明的保护。
Claims (8)
1.一种基于传播结构动态保持的网络谣言检测方法,其特征在于,包括如下步骤:
步骤1.获取包含信息传播树和传播内容流的信息传播事件;
步骤2.设定时间间隔将得到的信息传播事件划分为多个传播阶段;
步骤3.针对每个传播阶段,分别抽取该传播阶段的内容特征和整体结构特征;
所述步骤3具体为:
针对内容特征,利用双向长短时记忆网络Bi-LSTM学习每一条信息的嵌入表示,即对于任意一条信息mi,通过Bi-LSTM将其映射为l维向量表示xi∈Rl;
定义第i个传播阶段为Si,将传播阶段Si的内容流视作时间序列,再次利用Bi-LSTM将传播阶段Si的内容流映射为l维向量表示
针对整体结构特征,首先利用图注意力网络GAT学习原始传播树的节点表示;
设传播阶段Si的原始传播树为G(Si),设第n层节点的嵌入表示矩阵为hn,则第n+1层节点的嵌入表示矩阵按如下公式获得:hn+1=GAT(hn,G(Si));
当n=0时,令h0为随机初始化的N×l维矩阵,N表示原始传播树G(Si)的节点数量;
对传播阶段Si的原始传播树G(Si)进行结构无损的标准化操作,即将原始传播树G(Si)通过定位、移除和旋转操作转换为标准的二叉树;
使用元树路径对二叉树的全局结构进行表达,利用深度d≤3的元树构造元树路径;
通过独热编码为构造的元树路径按照广度优先遍历进行编码,获得元树路径编码矩阵,随后利用卷积神经网络CNN对编码矩阵进行卷积操作,自上而下抽取编码矩阵的结构特征,获得编码矩阵的全局结构特征;在CNN中设置k个卷积核,每个卷积核各自独立地运行,设k个卷积核学习到的全局结构特征分别为q1、q2、…、qk;
通过如下方式计算全局结构特征qi对于原始传播树中任意节点zj的影响概率p(zj|qi):
其中,zj表示原始传播树中节点zj的嵌入表示,wi表示在全局结构特征qi下待学习的权重向量,wi T表示权重向量的转置,σ(·)表示sigmoid激活函数,表示向量拼接操作;
基于计算获得的影响概率p(zj|qi),通过线性加权的方式获得全局结构特征qi影响下原始传播树中全体节点加权求和得到的结构特征fi:
由于CNN中采用k个卷积核,存在k个全局结构特征,因此将k个全局结构特征下的传播结构特征进行聚合;采用向量拼接的方式进行特征聚合;
获得传播阶段Si的整体结构特征
步骤4.将每个传播阶段的内容特征和整体结构特征进行拼接,获得每个传播阶段的整体特征,再将连续传播阶段的整体特征序列视作时间序列,并基于时间序列建模方法构建最终的网络谣言检测模型;
步骤5.基于神经网络二分类方式训练网络谣言检测模型;
步骤6.对于给定的来自网络空间的任意信息传播事件,利用训练好的网络谣言检测模型判断信息传播事件的初始信息是否为网络谣言。
2.根据权利要求1所述的基于传播结构动态保持的网络谣言检测方法,其特征在于,
所述步骤1具体为:
针对网络谣言传播事件,通过爬虫程序获取网络谣言的初始信息链接后,爬取网络谣言的初始信息以及相关的转发与评论信息;针对真实信息传播事件,通过爬虫程序直接爬取真实信息的初始信息以及相关的转发与评论信息;对于每一类信息传播事件中的每个样本,将初始信息以及相关的转发与评论信息按时间先后顺序分别形成信息传播树和传播内容流。
3.根据权利要求1所述的基于传播结构动态保持的网络谣言检测方法,其特征在于,
所述步骤2具体为:
针对每一类信息传播事件中的每个样本,选取时间间隔Δt,将信息传播树和传播内容流划分为s个传播阶段,其中位置相对靠后的传播阶段完全覆盖位置相对靠前的传播阶段。
4.根据权利要求1所述的基于传播结构动态保持的网络谣言检测方法,其特征在于,
在构造元树路径时,采用广度优先遍历,首先访问二叉树的根节点,然后依次访问其左孩子节点和右孩子节点,直到所有节点均被访问;
对于每一次访问,均抽取一个深度d≤3的元树,抽取优先级为d=3>d=2>d=1。
5.根据权利要求1所述的基于传播结构动态保持的网络谣言检测方法,其特征在于,
所述步骤4具体为:
基于步骤3获得的传播阶段Si的内容特征和整体结构特征/>将二者进行向量拼接获得代表传播阶段Si的整体特征/>
将连续传播阶段S1、S2…、Ss的整体特征视作时间序列,从而基于时间序列方法建模连续的传播阶段;利用Bi-LSTM建模时间序列/>将对应的Bi-LSTM隐藏层向量记作/>
6.根据权利要求5所述的基于传播结构动态保持的网络谣言检测方法,其特征在于,
所述步骤5具体为:
基于步骤4获取的隐藏层向量首先通过平均池化操作计算隐藏层向量的平均值/>随后将/>输入带有Softmax分类器的全连接神经网络进行二分类;
全连接神经网络按如下公式计算类别Ci的概率:
其中,pm(Ci)表示传播事件m的初始信息被判定属于类别Ci的概率,δ(·)表示激活函数,W和b分别表示神经网络的隐藏层权重矩阵和偏置向量;
采取有监督方式训练网络谣言检测模型,将步骤1获取的网络谣言传播事件集合和真实信息传播事件集合作为训练数据集,使用二项交叉熵损失Loss作为优化目标函数,并且利用反向传播算法回传梯度以最小化目标函数,目标函数的计算方式为:
其中,M表示训练数据集中的样本总数,ym表示传播事件m对应的真实标签;
对目标函数Loss进行最小化,即获得训练好的网络谣言检测模型。
7.根据权利要求1所述的基于传播结构动态保持的网络谣言检测方法,其特征在于,
所述步骤6具体为:
基于步骤5训练得到的网络谣言检测模型,对于给定的来自网络空间的任意信息传播事件a,对信息传播事件a的初始信息所属类别进行分类。
8.根据权利要求7所述的基于传播结构动态保持的网络谣言检测方法,其特征在于,
所述步骤6中,对信息传播事件a的初始信息所属类别进行分类的具体过程为:
步骤6.1.依据步骤1获得信息传播事件a的信息传播树和传播内容流;
步骤6.2.依据步骤2选择时间间隔Δt将信息传播事件a划分为多个传播阶段;
步骤6.3.依据步骤3建模信息传播事件a每个传播阶段Si的内容特征和整体结构特征;
步骤6.4.依据步骤4建模信息传播事件a的连续传播阶段;
步骤6.5.依据步骤5训练得到的网络谣言检测模型计算信息传播事件a的初始信息属于网络谣言或真实信息的概率,取较大概率值对应的类别作为信息传播事件a的初始信息所属类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311339162.3A CN117076911B (zh) | 2023-10-17 | 2023-10-17 | 一种基于传播结构动态保持的网络谣言检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311339162.3A CN117076911B (zh) | 2023-10-17 | 2023-10-17 | 一种基于传播结构动态保持的网络谣言检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117076911A CN117076911A (zh) | 2023-11-17 |
CN117076911B true CN117076911B (zh) | 2024-01-26 |
Family
ID=88717666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311339162.3A Active CN117076911B (zh) | 2023-10-17 | 2023-10-17 | 一种基于传播结构动态保持的网络谣言检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117076911B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108833382A (zh) * | 2018-05-31 | 2018-11-16 | 腾讯科技(深圳)有限公司 | 网络信息检测方法、装置、存储介质和计算机设备 |
CN112329444A (zh) * | 2020-11-10 | 2021-02-05 | 南开大学 | 融合文本和传播结构的早期谣言检测方法 |
CN114896519A (zh) * | 2022-05-27 | 2022-08-12 | 南京优慧信安科技有限公司 | 一种基于立场特征的早期谣言检测方法与装置 |
CN116401602A (zh) * | 2023-04-10 | 2023-07-07 | 平安科技(深圳)有限公司 | 事件检测方法、装置、设备及计算机可读介质 |
-
2023
- 2023-10-17 CN CN202311339162.3A patent/CN117076911B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108833382A (zh) * | 2018-05-31 | 2018-11-16 | 腾讯科技(深圳)有限公司 | 网络信息检测方法、装置、存储介质和计算机设备 |
CN112329444A (zh) * | 2020-11-10 | 2021-02-05 | 南开大学 | 融合文本和传播结构的早期谣言检测方法 |
CN114896519A (zh) * | 2022-05-27 | 2022-08-12 | 南京优慧信安科技有限公司 | 一种基于立场特征的早期谣言检测方法与装置 |
CN116401602A (zh) * | 2023-04-10 | 2023-07-07 | 平安科技(深圳)有限公司 | 事件检测方法、装置、设备及计算机可读介质 |
Non-Patent Citations (1)
Title |
---|
系统理论视野下的突发事件信息传播与干预机制分析;闫育周;《西北工业大学学报》;第第332卷卷(第第2 期期);第21-23页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117076911A (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108805200B (zh) | 基于深度孪生残差网络的光学遥感场景分类方法及装置 | |
CN105512289B (zh) | 基于深度学习和哈希的图像检索方法 | |
CN113190699B (zh) | 一种基于类别级语义哈希的遥感图像检索方法及装置 | |
CN109685153B (zh) | 一种基于特征聚合的社交网络谣言鉴别方法 | |
CN111966823B (zh) | 一种面向标签噪声的图节点分类方法 | |
CN113468803B (zh) | 一种基于改进的woa-gru洪水流量预测方法及系统 | |
CN105787501B (zh) | 输电线路走廊区域自动选择特征的植被分类方法 | |
CN111008337B (zh) | 一种基于三元特征的深度注意力谣言鉴别方法及装置 | |
CN107203810A (zh) | 一种基于深度网络的降水量预测方法 | |
CN112231562A (zh) | 一种网络谣言识别方法及系统 | |
CN111353153A (zh) | 一种基于gep-cnn的电网恶意数据注入检测方法 | |
Tang et al. | Medium-and long-term precipitation forecasting method based on data augmentation and machine learning algorithms | |
CN102495919A (zh) | 一种生态系统碳交换影响因素提取方法及系统 | |
CN105760649A (zh) | 一种面向大数据的可信度量方法 | |
CN114792158A (zh) | 基于时空融合图神经网络的多风电场短期功率预测方法 | |
CN115859620A (zh) | 一种基于多头注意力机制和图神经网络的径流重建方法 | |
Wang et al. | Air pollution prediction via graph attention network and gated recurrent unit | |
Song et al. | Graph attention convolutional network: Spatiotemporal modeling for urban traffic prediction | |
Zheng et al. | Dynamically Route Hierarchical Structure Representation to Attentive Capsule for Text Classification. | |
Londhe et al. | Genetic programming: A novel computing approach in modeling water flows | |
CN117076911B (zh) | 一种基于传播结构动态保持的网络谣言检测方法 | |
CN109472712A (zh) | 一种基于结构特征强化的高效马尔可夫随机场社团发现方法 | |
Molokwu et al. | Spatial event prediction via multivariate time series analysis of neighboring social units using deep neural networks | |
CN117272195A (zh) | 基于图卷积注意力网络的区块链异常节点检测方法及系统 | |
CN114818681B (zh) | 一种实体识别方法及系统、计算机可读存储介质及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |