CN109685153A

CN109685153A - 一种基于特征聚合的社交网络谣言鉴别方法

Info

Publication number: CN109685153A
Application number: CN201811634045.9A
Authority: CN
Inventors: 王丽娜; 唐奔宵; 汪润; 王丹磊
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-04-26
Anticipated expiration: 2038-12-29
Also published as: CN109685153B

Abstract

本发明公开了一种基于特征聚合的社交网络谣言鉴别方法，通过设计深度神经网络可接受的时序传播模式特征和时间的时序文本特征，利用特征聚合技术，构造谣言检测模型，进行谣言的终期检测和早期检测。本发明解决了社交网络事件传播的传播模式特征难以作为机器学习模型输入的问题，传播模式特征不依赖于特征工程和领域知识，是实际传播过程中各类因素影响的综合体现，能有效应用于不同的谣言鉴别场景；避免因不同样本中含的消息数量巨大差异导致特征数据质量下降的缺陷,解决了传统机器学习方法中单一模型难以应对异构信息的问题，与以往谣言鉴别方法相比具有明显的准确率提升。

Description

一种基于特征聚合的社交网络谣言鉴别方法

技术领域

本发明属于人工智能领域，尤其涉及社交网络谣言信息特征建模及检测方法。

背景技术

随着社交网络的发展，信息量急剧增长。然而，信息的质量并不能得到保障，以谣言信息为代表的虚假信息几乎渗透到了社交网络的各个角落。因此，如何实现自动化的信息可信度评估，以及预测社交媒体信息的真实性具有很高的实用意义。

未知谣言鉴别是信息可信度评估和信息内容安全的迫切要求之一，社会心理学将谣言定义为真实性未经证实或故意虚假声明的消息。谣言的传播有害于民众的生活和社会的稳定，并有可能对民众和社会造成意想不到的损失，对公共安全造成极大影响。例如2015年8月一则关于“韦拉克鲁斯附近出现吸毒团伙的枪击和孩童绑架事件”的谣言在美国社交网络中传播，其引发的骚动导致部分民众将车辆留在马路中间，冲向学校去接自己的孩子，从而造成了26起车祸。

现有的自动化谣言鉴别方法是将鉴别过程视为一个有监督的二分类学习任务。传统的基于统计学习的方法对特征工程依赖性极大，数据驱动的特征选择方法和基于领域知识的人工提取特征方法都非常耗时，并且存在难以避免的偏差，难以适应复杂多变的现代社交网络场景。另一方面，深度学习方法在网络空间安全中起到了重要作用，然而近年来出现的基于深度神经网络的端到端的学习方法面向数据特征单一，不能有效地将文本之外的内容丰富而易于获取的特征信息加以利用，一定程度上限制了模型的效果。因此，弥补现有两大类谣言鉴别方法的缺陷，发明既不依赖特征工程，也能聚合多类不同形式的特征信息加以充分利用的模型构建方法，具有非常重要的应用价值。

基于传统机器学习的社交网络谣言检测方法基本分为特征提取和模型训练两个步骤，其中特征的优劣直接影响了检测的效果。特征提取是一个利用统计等方式获取样本分布特性的过程，不同场景下的敏感特征类型存在差异，因此传统机器学习方法对于特征工程的依赖极大，不适合复杂多变的社交网络。其次，传统方法的特征提取过程同样需要丰富的领域知识，包括谣言的属性，当前网络环境结构等，但由于存在人为的干扰，不可避免的造成偏差。

传播模式是信息在社交网络的传播过程中反映在扩散速度、影响范围上的信息，传播模式受到了信息内容、社会环境、政治背景等多方面因素的影响，是各种内外界因素的共同作用的最终体现。利用传播模式特征能够避免人工特征提取的耗时，不精确等缺陷。

端到端模型是基于深度神经网络构建的学习模型，深度神经网络能够根据输入样本的分布特性，自动化的提取中间特征，因此进一步减少了人工干预造成的不利影响。此外，深度神经网络对于具有时序性的输入敏感度更高。然而，不同类型深度神经网络具有对应敏感的数据类型，例如，卷积神经网络(CNN)适合处理矩阵结构的输入，循环神经网络(RNN)更适合处理时序类型输入。

特征聚合是针对上述问题的一种有效方案，根据不同类型的特征分别构建对应子模型，并聚合各子模型的中间特征进行结果预测。特征聚合方案能够将具有独立且丰富知识的异构特征进行融合，进而克服模型受单一特征主导的问题，提高模型的预测能力。

发明内容

本发明针对现有技术的不足，提供一种社交网络中自动化谣言鉴别方法。

本发明的技术方案为一种基于特征聚合的社交网络谣言鉴别方法，包含以下步骤：

步骤1，根据所需的检测时效性要求，将数据集中的各个样本进行分割；将社交网络中的消息传播描述为事件的集合E＝{E_i}，事件集合中的任意一个事件是一系列与事件相关的消息的集合Ei＝{(m_ij,p_ij,t_ij,l_ij)}，每一条消息都有一个表明其发布时间的时间戳t_ij以及其消息来源p_ij，即消息m_ij转发自消息p_ij，在传播图拓扑结构中，p_ij是m_ij的父节点，l_ij是节点m_ij所在层次；设置谣言检测时效性指标h，为整型常数，表示在事件发生后h小时对事件进行谣言鉴别；每一个事件发生时的时间点为0，保留事件样本从0时刻起，到h小时之间的转发关系，并根据转发关系构建传播图；传播图中，根节点为原始事件的传播者，该条信息的转发者以及类似信息转发者作为根节点的子节点，以此类推构建事件的传播拓扑结构图；

步骤2，根据步骤1所得的数据集，提取每一个事件传播样本的时序传播模式特征；

步骤3，将步骤2中的传播模式特征作为训练输入，构建基于二维卷积神经网络的端到端子模型，其中，二维卷积神经网络模型架构中由下至上可依次划分为2个子层：

子层一、样本数据结构化层：该层将各个样本中所有相关消息按所在传播图中的4个拓扑层级和发布的时间戳映射到对数时间区间，区间数为N，顺序统计个区间中消息数量，各个样本被转化为行数为4列数为N的特征矩阵；

子层二、特征提取层：包括两组卷积层、池化层和Sigmoid激活层,处理特征矩阵使用的二维卷积神经网络的两组卷积层为二维卷积核，2组间感知野大小不同，池化层对特征图各行进行最大池化；

步骤4，根据步骤1所得的数据集，提取每一个事件传播样本的文本内容特征，具体是将样本中消息按发表时间次序均分为W组，W默认为20，每组中消息数量之差不超过1；此后将各组分别视为一个文档，计算各组中出现词在所有样本的所有分组语境下的TF-IDF值，每个分组中选取TF-IDF值前K大的词作为代表本组文本数据的关键特征词；

步骤5，根据步骤4中的样本关键词，构建RNN子模型；针对文本特征的RNN模型从下至上分为2个子层：

子层一、样本数据结构化层：在本子层中，同一个事件中的W个消息文档中的K个关键词首先进入嵌入层(embedding layer)，并得到K个关键词的对应词向量，词向量的长度固定为100；计算K个词向量的均值作为当前文档的特征向量，词向量参与模型的权值更新；

子层二、特征提取层：采用双向门限RNN模型(Gated Recurrent Unit，GRU)，输入由K个长度为100的特征向量组成的向量流构成，每个向量流对应一个迭代单元

步骤6，根据步骤3和步骤5中的2个子模型，构建特征聚合的谣言鉴别模型，具体是将2个子模型顶层全连接层移除，将子模型全连接层之前的一维中间特征向量进行横向拼接，得到新的一维中间特征向量，并将其重新接入全连接层；模型的输出层为一个神经元，输出值使用sigmoid函数作为激活函数，将预测值映射至0～1间的实数，表示分类置信度；模型在逆向传播时，采用二类交叉熵(Binary Cross Entropy，BCE)作为损失函数。

在上述的一种基于特征聚合的社交网络谣言鉴别方法，所述步骤2的具体实现方法是：记事件E_i的最早的消息发布时间为TimeFirst_i，当前时效范围内最晚的消息发布时间为TimeLast_i，将事件E_i的传播周期划分为N个等长时间间隔区间；对时间段按底数为10的对数划分，将各节点时间戳映射到对数空间，使得在传播周期中靠后的区间的时间间隔更长，如式(1)和式(2)所示：

其中，Interval(·)表示事件被划分为N个等长时间区间的长度，N默认值为100，可根据实际样本长度调整，TimeStamp(·)表示消息所在的时间区间索引；

将传播拓扑图中前4层节点新增数量的时序体量作为传播模式特征，即事件E_i的传播模式特征表示为：

SeriesTop(E_i)＝(ST_i ¹,ST_i ²,ST_i ³,ST_i ⁴) (3)

其中，SeriesTop(·)表示事件的传播模式特征，ST^L表示第L层上的时序体量，n为特征长度，默认为100。

在上述的一种基于特征聚合的社交网络谣言鉴别方法，所述步骤3特征提取层中，第1组卷积层中包含8个大小为2×3的卷积核，并且在特征矩阵的各行进行长度为1的零填充，各列不进行填充，因此在大小为4×N的特征矩阵上进行卷积操作后得到8个大小为3×N的特征图，经过第1层最大池化操作后转化为8个长度为行数为3，列数为N/2的特征图；第2组卷积层共有16个大小为3×3的卷积核，并且在在特征矩阵的各行进行长度为1的零填充，各列不进行填充，由上层特征图生成16个长度为行数为1，列数为N/2的特征图，经过第2层最大池化操作后转化为16个长度为N/4的一维特征图.最终的特征图拼接后生成一长度为4N的一维中间特征向量。

因此，本发明具有如下优点：1、本发明设计了谣言信息传播模式的时序特征结构化方案，解决了社交网络事件传播的传播模式特征难以作为机器学习模型输入的问题，传播模式特征不依赖于特征工程和领域知识，是实际传播过程中各类因素影响的综合体现，能有效应用于不同的谣言鉴别场景；2、本发明设计了一种基于词向量的谣言内容特征结构化方法，在对时序文本数据充分利用的基础上，避免因不同样本中含的消息数量巨大差异导致特征数据质量下降的缺陷；3、本发明设计了一种传播模式特征与文本信息特征的聚合模型，将异构的传播模式与文本内容特征相结合，运用深度神经网络进行异构特征提取与分类，充分利用了不同类型特征中的丰富信息，解决了传统机器学习方法中单一模型难以应对异构信息的问题，与以往谣言鉴别方法相比具有明显的准确率提升。

附图说明

图1是本发明实施例的谣言检测模型的流程图。

图2是本发明实施例的传播模式特征子模型结构图。

图3是本发明实施例的时序文本特征结构图。

图4是本发明实施例的基于特征聚合的社交网络谣言鉴别方法结构图。

具体实施方式

本发明主要基于深度学习技术，通过对谣言事件的传播模式和文本内容进行建模，利用深度神经网络的自动提取深层特征能力，提出的一种基于特征聚合的端到端谣言鉴别模型。本方法充分利用了异构特征各自包含的丰富且独立的知识，通过合理的特征结构化方法提取谣言信息的内容以及传播模式，摆脱传统机器学习方法对于特征工程和领域知识的依赖，能够更准确地识别社交网络中的谣言信息。

本发明提供的谣言检测模型构建流程参见图1，实施例以消息发出后72小时的微博谣言信息检测为例对本发明的流程进行一个具体的阐述，如下：

步骤1，首先收集历史数据构建训练集，将以往微博中已经被证实的谣言信息在前72小时内的传播数据进行统计，微博中每一个用户作为一个单独的节点。将社交网络中的消息传播描述为事件的集合E＝{E_i}，事件集合中的任意一个事件是一系列与事件相关的消息(例如微博、tweet等)的集合Ei＝{(m_ij,p_ij,t_ij,l_ij)}，每一条消息都有一个表明其发布时间的时间戳t_ij以及其消息来源p_ij，即消息m_ij转发自消息p_ij，在传播图拓扑结构中，p_ij是m_ij的父节点，l_ij是节点m_ij所在层次。此外，以相同的方式收集数量接近的非谣言样本作为训练集中的反例。

步骤2，对信息传播模式特征进行建模。首先根据数据转发的关系构建事件的传播图。传播图为树形结构，其中，根节点为原始事件的传播者，该条信息的转发者以及类似信息转发者(浏览过原始事件信息，并发出类似信息的用户)作为根节点的子节点，以此类推构建事件的传播拓扑结构图。

根据当前样本事件的传播图拓扑结构，构造传播模式特征。记事件E_i的最早的消息发布时间为TimeFirst_i，当前时效范围内最晚的消息发布时间为TimeLast_i，将事件E_i的传播周期划分为100个等长时间间隔区间。对时间段按底数为10的对数划分，将各节点时间戳映射到对数空间，使得在传播周期中靠后的区间的时间间隔更长，如式(1)和式(2)所示：

其中，Interval(·)表示事件被划分为100个等长时间区间的长度TimeStamp(·)表示消息所在的时间区间索引。将传播拓扑图中前4层节点新增数量的时序体量作为传播模式特征，即事件E_i的传播模式特征表示为：

其中，SeriesTop(·)表示事件的传播模式特征，ST^L表示第L层上的时序体量，特征长度n为100；

步骤3，将步骤2中的传播模式特征作为训练输入，构建基于二维卷积神经网络的端到端子模型，参加图2。处理传播模式特征的卷积神经网络模型包括2组卷积层、池化层和Sigmoid激活层，处理特征矩阵使用的二维卷积神经网络的2组卷积层为二维卷积核，池化层对特征图各行进行最大池化。

第1组卷积层中包含8个大小为2×3的卷积核，并且在特征矩阵的各行进行长度为1的零填充，各列不进行填充，因此在大小为4×100的特征矩阵上进行卷积操作后得到8个大小为3×100的特征图，经过第1层最大池化操作后转化为8个长度为行数为3，列数为50的特征图；第2组卷积层共有16个大小为3×3的卷积核，并且在在特征矩阵的各行进行长度为1的零填充，各列不进行填充，由上层特征图生成16个长度为行数为1，列数为50的特征图，经过第2层最大池化操作后转化为16个长度为25的一维特征图.最终的特征图拼接后生成一长度为400的一维中间特征向量。

步骤4，根据步骤1所得的数据集，提取每一个事件传播样本的文本内容特征。将样本中消息按发表时间次序均分为20组，每组中消息数量之差不超过1。此后将各组分别视为一个文档，计算各组中出现词在所有样本的所有分组语境下的TF-IDF值，每个分组中选取TF-IDF值前K大的词作为代表本组文本数据的关键特征词。TF-IDF的计算方式如式(6)所示：

其中，i表示当前需要计算TF-IDF值的词，tf_i,j表示词t_i在文档j中的出现频率，n_i,j表示词t_i在当前文档j中的出现次数，idf_i表示t_i的逆向文件频率，|D|表示语料库中的文件总数，d_j表示文档j，|{j:t_i∈d_j}|表示包含词t_i的文档数量。

根据TF-IDF值对当前文档中此进行排序，保留TF-IDF值排名前10的词作为当前文档的关键词，因此，一个样本事件中包含了200个关键词。

步骤5，根据步骤4中的样本关键词，构建RNN模型，参加图3。RNN模型采用双向门限循环神经网络结构，时间步长(time step)为20。在RNN模型的第一层设置一个嵌入层对样本事件中的关键词进行嵌入，以构建词向量：将数据集中清理好的文本单词进行热编码(one-hot encoding)，向量空间的大小固定为100，并以小的随机数进行初始化。嵌入层采用反向传播算法进行监督更新。

样本事件中的关键词经过嵌入层产生10个长度为100的词向量，然后取词向量的均值作为一个循环单元的输入，因此RNN模型的输入实质上为20个长度为100的向量组成的向量流。

步骤6，根据步骤3和步骤5中的2个子模型，构建特征聚合的谣言鉴别模型，模型的结构参见图4。分别将2个子模型顶层全连接层移除，将子模型全连接层之前的一维中间特征向量进行横向拼接，得到新的一维中间特征向量，并将其重新接入全连接层。模型的输出层为一个神经元，输出值使用sigmoid函数作为激活函数，将预测值映射至0～1间的实数，表示分类置信度。模型在逆向传播时，采用二类交叉熵(Binary Cross Entropy，BCE)作为损失函数。

步骤7，对已经传播72小时的待检测时间进行预测，判断是否为谣言事件。将待检测事件的信息根据步骤1，步骤2和步骤4中的方法进行特征建模，构建对应的传播模式特征和时序文本内容特征，并分别输入到基于CNN的子模型和基于RNN的子模型中。检测模型将输出0～1之间的实数，表示分类的置信度，即当前事件为谣言事件的概率大小。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于特征聚合的社交网络谣言鉴别方法，其特征在于，包含以下步骤：

2.根据权利要求1所述的一种基于特征聚合的社交网络谣言鉴别方法，其特征在于，所述步骤2的具体实现方法是：记事件E_i的最早的消息发布时间为TimeFirst_i，当前时效范围内最晚的消息发布时间为TimeLast_i，将事件E_i的传播周期划分为N个等长时间间隔区间；对时间段按底数为10的对数划分，将各节点时间戳映射到对数空间，使得在传播周期中靠后的区间的时间间隔更长，如式(1)和式(2)所示：

SeriesTop(E_i)＝(ST_i ¹,ST_i ²,ST_i ³,ST_i ⁴) (3)

3.根据权利要求1所述的一种基于特征聚合的社交网络谣言鉴别方法，其特征在于，所述步骤3特征提取层中，第1组卷积层中包含8个大小为2×3的卷积核，并且在特征矩阵的各行进行长度为1的零填充，各列不进行填充，因此在大小为4×N的特征矩阵上进行卷积操作后得到8个大小为3×N的特征图，经过第1层最大池化操作后转化为8个长度为行数为3，列数为N/2的特征图；第2组卷积层共有16个大小为3×3的卷积核，并且在在特征矩阵的各行进行长度为1的零填充，各列不进行填充，由上层特征图生成16个长度为行数为1，列数为N/2的特征图，经过第2层最大池化操作后转化为16个长度为N/4的一维特征图.最终的特征图拼接后生成一长度为4N的一维中间特征向量。