CN109685153A - 一种基于特征聚合的社交网络谣言鉴别方法 - Google Patents
一种基于特征聚合的社交网络谣言鉴别方法 Download PDFInfo
- Publication number
- CN109685153A CN109685153A CN201811634045.9A CN201811634045A CN109685153A CN 109685153 A CN109685153 A CN 109685153A CN 201811634045 A CN201811634045 A CN 201811634045A CN 109685153 A CN109685153 A CN 109685153A
- Authority
- CN
- China
- Prior art keywords
- feature
- event
- layer
- rumour
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012850 discrimination method Methods 0.000 title claims abstract description 15
- 230000002776 aggregation Effects 0.000 title claims abstract description 14
- 238000004220 aggregation Methods 0.000 title claims abstract description 14
- 230000006854 communication Effects 0.000 claims abstract description 27
- 238000004891 communication Methods 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 238000001514 detection method Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 7
- 230000001902 propagating effect Effects 0.000 claims description 7
- 238000011049 filling Methods 0.000 claims description 6
- 230000000644 propagated effect Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 239000011248 coating agent Substances 0.000 claims description 3
- 238000000576 coating method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 230000002441 reversible effect Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 2
- 230000008447 perception Effects 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000007423 decrease Effects 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 206010013654 Drug abuse Diseases 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 208000011117 substance-related disease Diseases 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于特征聚合的社交网络谣言鉴别方法,通过设计深度神经网络可接受的时序传播模式特征和时间的时序文本特征,利用特征聚合技术,构造谣言检测模型,进行谣言的终期检测和早期检测。本发明解决了社交网络事件传播的传播模式特征难以作为机器学习模型输入的问题,传播模式特征不依赖于特征工程和领域知识,是实际传播过程中各类因素影响的综合体现,能有效应用于不同的谣言鉴别场景;避免因不同样本中含的消息数量巨大差异导致特征数据质量下降的缺陷,解决了传统机器学习方法中单一模型难以应对异构信息的问题,与以往谣言鉴别方法相比具有明显的准确率提升。
Description
技术领域
本发明属于人工智能领域,尤其涉及社交网络谣言信息特征建模及检测方法。
背景技术
随着社交网络的发展,信息量急剧增长。然而,信息的质量并不能得到保障,以谣言信息为代表的虚假信息几乎渗透到了社交网络的各个角落。因此,如何实现自动化的信息可信度评估,以及预测社交媒体信息的真实性具有很高的实用意义。
未知谣言鉴别是信息可信度评估和信息内容安全的迫切要求之一,社会心理学将谣言定义为真实性未经证实或故意虚假声明的消息。谣言的传播有害于民众的生活和社会的稳定,并有可能对民众和社会造成意想不到的损失,对公共安全造成极大影响。例如2015年8月一则关于“韦拉克鲁斯附近出现吸毒团伙的枪击和孩童绑架事件”的谣言在美国社交网络中传播,其引发的骚动导致部分民众将车辆留在马路中间,冲向学校去接自己的孩子,从而造成了26起车祸。
现有的自动化谣言鉴别方法是将鉴别过程视为一个有监督的二分类学习任务。传统的基于统计学习的方法对特征工程依赖性极大,数据驱动的特征选择方法和基于领域知识的人工提取特征方法都非常耗时,并且存在难以避免的偏差,难以适应复杂多变的现代社交网络场景。另一方面,深度学习方法在网络空间安全中起到了重要作用,然而近年来出现的基于深度神经网络的端到端的学习方法面向数据特征单一,不能有效地将文本之外的内容丰富而易于获取的特征信息加以利用,一定程度上限制了模型的效果。因此,弥补现有两大类谣言鉴别方法的缺陷,发明既不依赖特征工程,也能聚合多类不同形式的特征信息加以充分利用的模型构建方法,具有非常重要的应用价值。
基于传统机器学习的社交网络谣言检测方法基本分为特征提取和模型训练两个步骤,其中特征的优劣直接影响了检测的效果。特征提取是一个利用统计等方式获取样本分布特性的过程,不同场景下的敏感特征类型存在差异,因此传统机器学习方法对于特征工程的依赖极大,不适合复杂多变的社交网络。其次,传统方法的特征提取过程同样需要丰富的领域知识,包括谣言的属性,当前网络环境结构等,但由于存在人为的干扰,不可避免的造成偏差。
传播模式是信息在社交网络的传播过程中反映在扩散速度、影响范围上的信息,传播模式受到了信息内容、社会环境、政治背景等多方面因素的影响,是各种内外界因素的共同作用的最终体现。利用传播模式特征能够避免人工特征提取的耗时,不精确等缺陷。
端到端模型是基于深度神经网络构建的学习模型,深度神经网络能够根据输入样本的分布特性,自动化的提取中间特征,因此进一步减少了人工干预造成的不利影响。此外,深度神经网络对于具有时序性的输入敏感度更高。然而,不同类型深度神经网络具有对应敏感的数据类型,例如,卷积神经网络(CNN)适合处理矩阵结构的输入,循环神经网络(RNN)更适合处理时序类型输入。
特征聚合是针对上述问题的一种有效方案,根据不同类型的特征分别构建对应子模型,并聚合各子模型的中间特征进行结果预测。特征聚合方案能够将具有独立且丰富知识的异构特征进行融合,进而克服模型受单一特征主导的问题,提高模型的预测能力。
发明内容
本发明针对现有技术的不足,提供一种社交网络中自动化谣言鉴别方法。
本发明的技术方案为一种基于特征聚合的社交网络谣言鉴别方法,包含以下步骤:
步骤1,根据所需的检测时效性要求,将数据集中的各个样本进行分割;将社交网络中的消息传播描述为事件的集合E={Ei},事件集合中的任意一个事件是一系列与事件相关的消息的集合Ei={(mij,pij,tij,lij)},每一条消息都有一个表明其发布时间的时间戳tij以及其消息来源pij,即消息mij转发自消息pij,在传播图拓扑结构中,pij是mij的父节点,lij是节点mij所在层次;设置谣言检测时效性指标h,为整型常数,表示在事件发生后h小时对事件进行谣言鉴别;每一个事件发生时的时间点为0,保留事件样本从0时刻起,到h小时之间的转发关系,并根据转发关系构建传播图;传播图中,根节点为原始事件的传播者,该条信息的转发者以及类似信息转发者作为根节点的子节点,以此类推构建事件的传播拓扑结构图;
步骤2,根据步骤1所得的数据集,提取每一个事件传播样本的时序传播模式特征;
步骤3,将步骤2中的传播模式特征作为训练输入,构建基于二维卷积神经网络的端到端子模型,其中,二维卷积神经网络模型架构中由下至上可依次划分为2个子层:
子层一、样本数据结构化层:该层将各个样本中所有相关消息按所在传播图中的4个拓扑层级和发布的时间戳映射到对数时间区间,区间数为N,顺序统计个区间中消息数量,各个样本被转化为行数为4列数为N的特征矩阵;
子层二、特征提取层:包括两组卷积层、池化层和Sigmoid激活层,处理特征矩阵使用的二维卷积神经网络的两组卷积层为二维卷积核,2组间感知野大小不同,池化层对特征图各行进行最大池化;
步骤4,根据步骤1所得的数据集,提取每一个事件传播样本的文本内容特征,具体是将样本中消息按发表时间次序均分为W组,W默认为20,每组中消息数量之差不超过1;此后将各组分别视为一个文档,计算各组中出现词在所有样本的所有分组语境下的TF-IDF值,每个分组中选取TF-IDF值前K大的词作为代表本组文本数据的关键特征词;
步骤5,根据步骤4中的样本关键词,构建RNN子模型;针对文本特征的RNN模型从下至上分为2个子层:
子层一、样本数据结构化层:在本子层中,同一个事件中的W个消息文档中的K个关键词首先进入嵌入层(embedding layer),并得到K个关键词的对应词向量,词向量的长度固定为100;计算K个词向量的均值作为当前文档的特征向量,词向量参与模型的权值更新;
子层二、特征提取层:采用双向门限RNN模型(Gated Recurrent Unit,GRU),输入由K个长度为100的特征向量组成的向量流构成,每个向量流对应一个迭代单元
步骤6,根据步骤3和步骤5中的2个子模型,构建特征聚合的谣言鉴别模型,具体是将2个子模型顶层全连接层移除,将子模型全连接层之前的一维中间特征向量进行横向拼接,得到新的一维中间特征向量,并将其重新接入全连接层;模型的输出层为一个神经元,输出值使用sigmoid函数作为激活函数,将预测值映射至0~1间的实数,表示分类置信度;模型在逆向传播时,采用二类交叉熵(Binary Cross Entropy,BCE)作为损失函数。
在上述的一种基于特征聚合的社交网络谣言鉴别方法,所述步骤2的具体实现方法是:记事件Ei的最早的消息发布时间为TimeFirsti,当前时效范围内最晚的消息发布时间为TimeLasti,将事件Ei的传播周期划分为N个等长时间间隔区间;对时间段按底数为10的对数划分,将各节点时间戳映射到对数空间,使得在传播周期中靠后的区间的时间间隔更长,如式(1)和式(2)所示:
其中,Interval(·)表示事件被划分为N个等长时间区间的长度,N默认值为100,可根据实际样本长度调整,TimeStamp(·)表示消息所在的时间区间索引;
将传播拓扑图中前4层节点新增数量的时序体量作为传播模式特征,即事件Ei的传播模式特征表示为:
SeriesTop(Ei)=(STi 1,STi 2,STi 3,STi 4) (3)
其中,SeriesTop(·)表示事件的传播模式特征,STL表示第L层上的时序体量,n为特征长度,默认为100。
在上述的一种基于特征聚合的社交网络谣言鉴别方法,所述步骤3特征提取层中,第1组卷积层中包含8个大小为2×3的卷积核,并且在特征矩阵的各行进行长度为1的零填充,各列不进行填充,因此在大小为4×N的特征矩阵上进行卷积操作后得到8个大小为3×N的特征图,经过第1层最大池化操作后转化为8个长度为行数为3,列数为N/2的特征图;第2组卷积层共有16个大小为3×3的卷积核,并且在在特征矩阵的各行进行长度为1的零填充,各列不进行填充,由上层特征图生成16个长度为行数为1,列数为N/2的特征图,经过第2层最大池化操作后转化为16个长度为N/4的一维特征图.最终的特征图拼接后生成一长度为4N的一维中间特征向量。
因此,本发明具有如下优点:1、本发明设计了谣言信息传播模式的时序特征结构化方案,解决了社交网络事件传播的传播模式特征难以作为机器学习模型输入的问题,传播模式特征不依赖于特征工程和领域知识,是实际传播过程中各类因素影响的综合体现,能有效应用于不同的谣言鉴别场景;2、本发明设计了一种基于词向量的谣言内容特征结构化方法,在对时序文本数据充分利用的基础上,避免因不同样本中含的消息数量巨大差异导致特征数据质量下降的缺陷;3、本发明设计了一种传播模式特征与文本信息特征的聚合模型,将异构的传播模式与文本内容特征相结合,运用深度神经网络进行异构特征提取与分类,充分利用了不同类型特征中的丰富信息,解决了传统机器学习方法中单一模型难以应对异构信息的问题,与以往谣言鉴别方法相比具有明显的准确率提升。
附图说明
图1是本发明实施例的谣言检测模型的流程图。
图2是本发明实施例的传播模式特征子模型结构图。
图3是本发明实施例的时序文本特征结构图。
图4是本发明实施例的基于特征聚合的社交网络谣言鉴别方法结构图。
具体实施方式
本发明主要基于深度学习技术,通过对谣言事件的传播模式和文本内容进行建模,利用深度神经网络的自动提取深层特征能力,提出的一种基于特征聚合的端到端谣言鉴别模型。本方法充分利用了异构特征各自包含的丰富且独立的知识,通过合理的特征结构化方法提取谣言信息的内容以及传播模式,摆脱传统机器学习方法对于特征工程和领域知识的依赖,能够更准确地识别社交网络中的谣言信息。
本发明提供的谣言检测模型构建流程参见图1,实施例以消息发出后72小时的微博谣言信息检测为例对本发明的流程进行一个具体的阐述,如下:
步骤1,首先收集历史数据构建训练集,将以往微博中已经被证实的谣言信息在前72小时内的传播数据进行统计,微博中每一个用户作为一个单独的节点。将社交网络中的消息传播描述为事件的集合E={Ei},事件集合中的任意一个事件是一系列与事件相关的消息(例如微博、tweet等)的集合Ei={(mij,pij,tij,lij)},每一条消息都有一个表明其发布时间的时间戳tij以及其消息来源pij,即消息mij转发自消息pij,在传播图拓扑结构中,pij是mij的父节点,lij是节点mij所在层次。此外,以相同的方式收集数量接近的非谣言样本作为训练集中的反例。
步骤2,对信息传播模式特征进行建模。首先根据数据转发的关系构建事件的传播图。传播图为树形结构,其中,根节点为原始事件的传播者,该条信息的转发者以及类似信息转发者(浏览过原始事件信息,并发出类似信息的用户)作为根节点的子节点,以此类推构建事件的传播拓扑结构图。
根据当前样本事件的传播图拓扑结构,构造传播模式特征。记事件Ei的最早的消息发布时间为TimeFirsti,当前时效范围内最晚的消息发布时间为TimeLasti,将事件Ei的传播周期划分为100个等长时间间隔区间。对时间段按底数为10的对数划分,将各节点时间戳映射到对数空间,使得在传播周期中靠后的区间的时间间隔更长,如式(1)和式(2)所示:
其中,Interval(·)表示事件被划分为100个等长时间区间的长度TimeStamp(·)表示消息所在的时间区间索引。将传播拓扑图中前4层节点新增数量的时序体量作为传播模式特征,即事件Ei的传播模式特征表示为:
其中,SeriesTop(·)表示事件的传播模式特征,STL表示第L层上的时序体量,特征长度n为100;
步骤3,将步骤2中的传播模式特征作为训练输入,构建基于二维卷积神经网络的端到端子模型,参加图2。处理传播模式特征的卷积神经网络模型包括2组卷积层、池化层和Sigmoid激活层,处理特征矩阵使用的二维卷积神经网络的2组卷积层为二维卷积核,池化层对特征图各行进行最大池化。
第1组卷积层中包含8个大小为2×3的卷积核,并且在特征矩阵的各行进行长度为1的零填充,各列不进行填充,因此在大小为4×100的特征矩阵上进行卷积操作后得到8个大小为3×100的特征图,经过第1层最大池化操作后转化为8个长度为行数为3,列数为50的特征图;第2组卷积层共有16个大小为3×3的卷积核,并且在在特征矩阵的各行进行长度为1的零填充,各列不进行填充,由上层特征图生成16个长度为行数为1,列数为50的特征图,经过第2层最大池化操作后转化为16个长度为25的一维特征图.最终的特征图拼接后生成一长度为400的一维中间特征向量。
步骤4,根据步骤1所得的数据集,提取每一个事件传播样本的文本内容特征。将样本中消息按发表时间次序均分为20组,每组中消息数量之差不超过1。此后将各组分别视为一个文档,计算各组中出现词在所有样本的所有分组语境下的TF-IDF值,每个分组中选取TF-IDF值前K大的词作为代表本组文本数据的关键特征词。TF-IDF的计算方式如式(6)所示:
其中,i表示当前需要计算TF-IDF值的词,tfi,j表示词ti在文档j中的出现频率,ni,j表示词ti在当前文档j中的出现次数,idfi表示ti的逆向文件频率,|D|表示语料库中的文件总数,dj表示文档j,|{j:ti∈dj}|表示包含词ti的文档数量。
根据TF-IDF值对当前文档中此进行排序,保留TF-IDF值排名前10的词作为当前文档的关键词,因此,一个样本事件中包含了200个关键词。
步骤5,根据步骤4中的样本关键词,构建RNN模型,参加图3。RNN模型采用双向门限循环神经网络结构,时间步长(time step)为20。在RNN模型的第一层设置一个嵌入层对样本事件中的关键词进行嵌入,以构建词向量:将数据集中清理好的文本单词进行热编码(one-hot encoding),向量空间的大小固定为100,并以小的随机数进行初始化。嵌入层采用反向传播算法进行监督更新。
样本事件中的关键词经过嵌入层产生10个长度为100的词向量,然后取词向量的均值作为一个循环单元的输入,因此RNN模型的输入实质上为20个长度为100的向量组成的向量流。
步骤6,根据步骤3和步骤5中的2个子模型,构建特征聚合的谣言鉴别模型,模型的结构参见图4。分别将2个子模型顶层全连接层移除,将子模型全连接层之前的一维中间特征向量进行横向拼接,得到新的一维中间特征向量,并将其重新接入全连接层。模型的输出层为一个神经元,输出值使用sigmoid函数作为激活函数,将预测值映射至0~1间的实数,表示分类置信度。模型在逆向传播时,采用二类交叉熵(Binary Cross Entropy,BCE)作为损失函数。
步骤7,对已经传播72小时的待检测时间进行预测,判断是否为谣言事件。将待检测事件的信息根据步骤1,步骤2和步骤4中的方法进行特征建模,构建对应的传播模式特征和时序文本内容特征,并分别输入到基于CNN的子模型和基于RNN的子模型中。检测模型将输出0~1之间的实数,表示分类的置信度,即当前事件为谣言事件的概率大小。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (3)
1.一种基于特征聚合的社交网络谣言鉴别方法,其特征在于,包含以下步骤:
步骤1,根据所需的检测时效性要求,将数据集中的各个样本进行分割;将社交网络中的消息传播描述为事件的集合E={Ei},事件集合中的任意一个事件是一系列与事件相关的消息的集合Ei={(mij,pij,tij,lij)},每一条消息都有一个表明其发布时间的时间戳tij以及其消息来源pij,即消息mij转发自消息pij,在传播图拓扑结构中,pij是mij的父节点,lij是节点mij所在层次;设置谣言检测时效性指标h,为整型常数,表示在事件发生后h小时对事件进行谣言鉴别;每一个事件发生时的时间点为0,保留事件样本从0时刻起,到h小时之间的转发关系,并根据转发关系构建传播图;传播图中,根节点为原始事件的传播者,该条信息的转发者以及类似信息转发者作为根节点的子节点,以此类推构建事件的传播拓扑结构图;
步骤2,根据步骤1所得的数据集,提取每一个事件传播样本的时序传播模式特征;
步骤3,将步骤2中的传播模式特征作为训练输入,构建基于二维卷积神经网络的端到端子模型,其中,二维卷积神经网络模型架构中由下至上可依次划分为2个子层:
子层一、样本数据结构化层:该层将各个样本中所有相关消息按所在传播图中的4个拓扑层级和发布的时间戳映射到对数时间区间,区间数为N,顺序统计个区间中消息数量,各个样本被转化为行数为4列数为N的特征矩阵;
子层二、特征提取层:包括两组卷积层、池化层和Sigmoid激活层,处理特征矩阵使用的二维卷积神经网络的两组卷积层为二维卷积核,2组间感知野大小不同,池化层对特征图各行进行最大池化;
步骤4,根据步骤1所得的数据集,提取每一个事件传播样本的文本内容特征,具体是将样本中消息按发表时间次序均分为W组,W默认为20,每组中消息数量之差不超过1;此后将各组分别视为一个文档,计算各组中出现词在所有样本的所有分组语境下的TF-IDF值,每个分组中选取TF-IDF值前K大的词作为代表本组文本数据的关键特征词;
步骤5,根据步骤4中的样本关键词,构建RNN子模型;针对文本特征的RNN模型从下至上分为2个子层:
子层一、样本数据结构化层:在本子层中,同一个事件中的W个消息文档中的K个关键词首先进入嵌入层(embedding layer),并得到K个关键词的对应词向量,词向量的长度固定为100;计算K个词向量的均值作为当前文档的特征向量,词向量参与模型的权值更新;
子层二、特征提取层:采用双向门限RNN模型(Gated Recurrent Unit,GRU),输入由K个长度为100的特征向量组成的向量流构成,每个向量流对应一个迭代单元
步骤6,根据步骤3和步骤5中的2个子模型,构建特征聚合的谣言鉴别模型,具体是将2个子模型顶层全连接层移除,将子模型全连接层之前的一维中间特征向量进行横向拼接,得到新的一维中间特征向量,并将其重新接入全连接层;模型的输出层为一个神经元,输出值使用sigmoid函数作为激活函数,将预测值映射至0~1间的实数,表示分类置信度;模型在逆向传播时,采用二类交叉熵(Binary Cross Entropy,BCE)作为损失函数。
2.根据权利要求1所述的一种基于特征聚合的社交网络谣言鉴别方法,其特征在于,所述步骤2的具体实现方法是:记事件Ei的最早的消息发布时间为TimeFirsti,当前时效范围内最晚的消息发布时间为TimeLasti,将事件Ei的传播周期划分为N个等长时间间隔区间;对时间段按底数为10的对数划分,将各节点时间戳映射到对数空间,使得在传播周期中靠后的区间的时间间隔更长,如式(1)和式(2)所示:
其中,Interval(·)表示事件被划分为N个等长时间区间的长度,N默认值为100,可根据实际样本长度调整,TimeStamp(·)表示消息所在的时间区间索引;
将传播拓扑图中前4层节点新增数量的时序体量作为传播模式特征,即事件Ei的传播模式特征表示为:
SeriesTop(Ei)=(STi 1,STi 2,STi 3,STi 4) (3)
其中,SeriesTop(·)表示事件的传播模式特征,STL表示第L层上的时序体量,n为特征长度,默认为100。
3.根据权利要求1所述的一种基于特征聚合的社交网络谣言鉴别方法,其特征在于,所述步骤3特征提取层中,第1组卷积层中包含8个大小为2×3的卷积核,并且在特征矩阵的各行进行长度为1的零填充,各列不进行填充,因此在大小为4×N的特征矩阵上进行卷积操作后得到8个大小为3×N的特征图,经过第1层最大池化操作后转化为8个长度为行数为3,列数为N/2的特征图;第2组卷积层共有16个大小为3×3的卷积核,并且在在特征矩阵的各行进行长度为1的零填充,各列不进行填充,由上层特征图生成16个长度为行数为1,列数为N/2的特征图,经过第2层最大池化操作后转化为16个长度为N/4的一维特征图.最终的特征图拼接后生成一长度为4N的一维中间特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811634045.9A CN109685153B (zh) | 2018-12-29 | 2018-12-29 | 一种基于特征聚合的社交网络谣言鉴别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811634045.9A CN109685153B (zh) | 2018-12-29 | 2018-12-29 | 一种基于特征聚合的社交网络谣言鉴别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109685153A true CN109685153A (zh) | 2019-04-26 |
CN109685153B CN109685153B (zh) | 2022-07-05 |
Family
ID=66191141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811634045.9A Active CN109685153B (zh) | 2018-12-29 | 2018-12-29 | 一种基于特征聚合的社交网络谣言鉴别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109685153B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909125A (zh) * | 2019-10-30 | 2020-03-24 | 中山大学 | 推文级社会媒体谣言检测方法 |
CN111008337A (zh) * | 2019-11-06 | 2020-04-14 | 武汉大学 | 一种基于三元特征的深度注意力谣言鉴别方法及装置 |
CN111858928A (zh) * | 2020-06-17 | 2020-10-30 | 北京邮电大学 | 一种基于图结构对抗学习的社交媒体谣言检测方法及装置 |
CN112711664A (zh) * | 2020-12-31 | 2021-04-27 | 山西三友和智慧信息技术股份有限公司 | 一种基于tcn+lstm的文本情感分类方法 |
CN112819645A (zh) * | 2021-03-23 | 2021-05-18 | 大连民族大学 | 基于模体度的社交网络虚假信息传播检测方法 |
CN113191144A (zh) * | 2021-03-19 | 2021-07-30 | 北京工商大学 | 一种基于传播影响力的网络谣言识别系统及方法 |
CN113298546A (zh) * | 2020-05-29 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 销量预测方法及装置、商品处理方法及装置 |
CN113946680A (zh) * | 2021-10-20 | 2022-01-18 | 河南师范大学 | 一种基于图嵌入及信息流分析的线上网络谣言鉴别方法 |
CN113971400A (zh) * | 2020-07-24 | 2022-01-25 | 北京字节跳动网络技术有限公司 | 一种文本检测方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008165284A (ja) * | 2006-12-27 | 2008-07-17 | Nec Corp | 風説監視システム、風説監視方法及びプログラム |
CN105975504A (zh) * | 2016-04-28 | 2016-09-28 | 中国科学院计算技术研究所 | 一种基于循环神经网络的社交网络消息爆发检测方法及系统 |
CN108491480A (zh) * | 2018-03-12 | 2018-09-04 | 义语智能科技(上海)有限公司 | 谣言检测方法及设备 |
CN108833382A (zh) * | 2018-05-31 | 2018-11-16 | 腾讯科技(深圳)有限公司 | 网络信息检测方法、装置、存储介质和计算机设备 |
-
2018
- 2018-12-29 CN CN201811634045.9A patent/CN109685153B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008165284A (ja) * | 2006-12-27 | 2008-07-17 | Nec Corp | 風説監視システム、風説監視方法及びプログラム |
CN105975504A (zh) * | 2016-04-28 | 2016-09-28 | 中国科学院计算技术研究所 | 一种基于循环神经网络的社交网络消息爆发检测方法及系统 |
CN108491480A (zh) * | 2018-03-12 | 2018-09-04 | 义语智能科技(上海)有限公司 | 谣言检测方法及设备 |
CN108833382A (zh) * | 2018-05-31 | 2018-11-16 | 腾讯科技(深圳)有限公司 | 网络信息检测方法、装置、存储介质和计算机设备 |
Non-Patent Citations (2)
Title |
---|
GAURAV B ET AL: "《Combining Neutral,Statistical and External Features for Fake News Stance Identification》", 《ACM》 * |
任文静: "《面向微博谣言的检测方法研究》", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909125A (zh) * | 2019-10-30 | 2020-03-24 | 中山大学 | 推文级社会媒体谣言检测方法 |
CN111008337A (zh) * | 2019-11-06 | 2020-04-14 | 武汉大学 | 一种基于三元特征的深度注意力谣言鉴别方法及装置 |
CN111008337B (zh) * | 2019-11-06 | 2022-04-15 | 武汉大学 | 一种基于三元特征的深度注意力谣言鉴别方法及装置 |
CN113298546A (zh) * | 2020-05-29 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 销量预测方法及装置、商品处理方法及装置 |
CN111858928A (zh) * | 2020-06-17 | 2020-10-30 | 北京邮电大学 | 一种基于图结构对抗学习的社交媒体谣言检测方法及装置 |
CN113971400B (zh) * | 2020-07-24 | 2023-07-25 | 抖音视界有限公司 | 一种文本检测方法、装置、电子设备及存储介质 |
CN113971400A (zh) * | 2020-07-24 | 2022-01-25 | 北京字节跳动网络技术有限公司 | 一种文本检测方法、装置、电子设备及存储介质 |
WO2022017299A1 (zh) * | 2020-07-24 | 2022-01-27 | 北京字节跳动网络技术有限公司 | 一种文本检测方法、装置、电子设备及存储介质 |
CN112711664B (zh) * | 2020-12-31 | 2022-09-20 | 山西三友和智慧信息技术股份有限公司 | 一种基于tcn+lstm的文本情感分类方法 |
CN112711664A (zh) * | 2020-12-31 | 2021-04-27 | 山西三友和智慧信息技术股份有限公司 | 一种基于tcn+lstm的文本情感分类方法 |
CN113191144A (zh) * | 2021-03-19 | 2021-07-30 | 北京工商大学 | 一种基于传播影响力的网络谣言识别系统及方法 |
CN113191144B (zh) * | 2021-03-19 | 2024-04-09 | 北京工商大学 | 一种基于传播影响力的网络谣言识别系统及方法 |
CN112819645A (zh) * | 2021-03-23 | 2021-05-18 | 大连民族大学 | 基于模体度的社交网络虚假信息传播检测方法 |
CN112819645B (zh) * | 2021-03-23 | 2024-03-29 | 大连民族大学 | 基于模体度的社交网络虚假信息传播检测方法 |
CN113946680A (zh) * | 2021-10-20 | 2022-01-18 | 河南师范大学 | 一种基于图嵌入及信息流分析的线上网络谣言鉴别方法 |
CN113946680B (zh) * | 2021-10-20 | 2024-04-16 | 河南师范大学 | 一种基于图嵌入及信息流分析的线上网络谣言鉴别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109685153B (zh) | 2022-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109685153A (zh) | 一种基于特征聚合的社交网络谣言鉴别方法 | |
Yu et al. | A Convolutional Approach for Misinformation Identification. | |
CN112487203B (zh) | 一种融入动态词向量的关系抽取系统 | |
CN110263324B (zh) | 文本处理方法、模型训练方法和装置 | |
CN111159395B (zh) | 基于图神经网络的谣言立场检测方法、装置和电子设备 | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN107578292B (zh) | 一种用户画像构建系统 | |
CN111666502A (zh) | 一种基于深度学习的异常用户识别方法、装置及存储介质 | |
CN106021508A (zh) | 基于社交媒体的突发事件应急信息挖掘方法 | |
CN104216954A (zh) | 突发事件话题状态的预测装置及预测方法 | |
CN111008337B (zh) | 一种基于三元特征的深度注意力谣言鉴别方法及装置 | |
CN104142995A (zh) | 基于视觉属性的社会事件识别方法 | |
CN113010705B (zh) | 标签预测方法、装置、设备及存储介质 | |
CN113254652B (zh) | 一种基于超图注意力网络的社交媒体贴文真实性检测方法 | |
CN110188195A (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN107679135A (zh) | 面向网络文本大数据的话题检测与跟踪方法、装置 | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN116776889A (zh) | 一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法 | |
Asgari-Chenaghlu et al. | Topicbert: A transformer transfer learning based memory-graph approach for multimodal streaming social media topic detection | |
Wang et al. | Enhancing rumor detection in social media using dynamic propagation structures | |
Li et al. | Mistr: A multiview structural-temporal learning framework for rumor detection | |
CN115248855A (zh) | 文本处理方法及装置、电子设备、计算机可读存储介质 | |
CN107908749A (zh) | 一种基于搜索引擎的人物检索系统及方法 | |
CN113609294B (zh) | 一种基于情感分析的生鲜冷链监管方法及系统 | |
Lingyu et al. | SMAM: Detecting rumors from microblogs with stance mining assisting task |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |