CN109918648A

CN109918648A - 一种基于动态滑动窗口特征评分的谣言深度检测方法

Info

Publication number: CN109918648A
Application number: CN201910095308.1A
Authority: CN
Inventors: 许志伟; 郭美城; 刘利民; 邢红梅
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2019-06-21
Anticipated expiration: 2039-01-31
Also published as: CN109918648B

Abstract

本发明提供一种基于动态滑动窗口特征评分的谣言深度检测方法，该方法包括一种基于滑动窗口的特征提取机制，对输入语句的相邻词进行迭代，获取输入语句的显著全局和局部特征，准确地表示文本语义结构；该方法包括特征评分机制，根据输入语句矩阵各列的综合得分，删除与谣言检测几乎没有影响的特征相关的词列，保留关键特征相关的词列；该方法包括基于卷积神经网络的深度谣言检测模型，将动态滑动窗口评分机制得到的文本语义特征作为输入层的输入数据，经卷积计算，提取最大特征值，进行分类，最终提高了谣言检测的准确性。

Description

一种基于动态滑动窗口特征评分的谣言深度检测方法

技术领域

本发明属于大数据分析与应用技术领域，涉及在线谣言检测，特别涉及一种基于动态滑动窗口特征评分的谣言深度检测方法。

背景技术

随着移动互联网技术的快速发展，在线社交网络(OSN)—一种新的信息发布和共享服务平台，已逐渐成为人们日常生活中不可或缺的一部分。由于每个人都可以在OSN平台上自由发表意见与交流消息，这些社交网络平台通常会携带大量未经证实和不确定的信息，因此OSN平台成为了谣言传播的主要方式。谣言的广泛传播给OSN平台带来了网络安全的威胁。

除了潜在的安全问题，网络谣言从国家层面讲也会危害国家的安定团结，影响国家的繁荣和发展；从社会层面讲，搅乱社会秩序，影响人们的生产生活；从个人层面讲，影响未成年人的思维方式和对事物的认知态度。综合看，OSN平台在面对谣言时的脆弱性已经成为一个需要解决的严重社会问题。

然而，在现有的谣言检测方法中，有的需要手工标注特征，这样造成大量人力和时间上的浪费，而且存在主观因素的影响；有的忽略了文本语义特征，很难找到谣言的关键语义特征，从而区分谣言和常规信息；有的没有筛选并删除噪声特征，噪声特征作为深度神经网络模型的输入，将影响谣言检测方法的准确性。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于动态滑动窗口特征评分的谣言深度检测方法，大大提高了谣言检测的准确性，且计算开销小，易于实际部署。

为了实现上述目的，本发明采用的技术方案是：

一种基于动态滑动窗口特征评分的谣言深度检测方法，包括：

基于滑动窗口进行特征提取：对输入语句的相邻词进行迭代，获取输入语句的显著全局和局部特征，准确地表示文本语义结构；

特征评分：根据输入语句矩阵各列的综合得分，删除与谣言检测没有影响的特征相关的词列，保留关键特征相关的词列；

建立基于卷积神经网络的深度谣言检测模型，将得到的关键特征相关的词列作为输入层的输入数据，经卷积计算，提取最大特征值，进行分类，最终提高谣言检测的准确性。

所述特征提取的对象为包含不同长度单词的文本特征，通过对输入语句相邻词不同长度的迭代来捕获，从而找到输入语句的语义结构，并将其纳入谣言深度检测模型。

所述对输入语句相邻词不同长度的迭代来捕获的方法为：设定一定的窗口数目n，n等于最大句子长度，句子长度用单词数表示，通过不同大小的窗口框住不同长度的词，在窗口向后滑动的过程中，增量提取文本语义特征。

所述特征评分输入语句矩阵各列的综合得分的获取步骤如下：

步骤1)计算每个特征的TF-IDF值，筛选关键特征；

步骤2)应用卡方检验来查验关键特征与类别之间的相关性，所述类别包括谣言类和常规信息类；

步骤3)计算每列综合得分。

所述方法用于筛选在进行文本向量化表示过程中对检测贡献度较大的特征，并且与动态滑动窗口结合，能够在不破坏句子本身结构的前提下，从特征提取方面进一步改善了谣言深度检测的效率与准确率。

所述步骤1)是利用TF-IDF值寻找文本中的关键特征，其是一种统计方法，用以评估一字词对于文本的重要程度，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降，TF-IDF值的计算公式如下：

其中，是包含第i列特征的TF-IDF得分，是以i列为中心的k大小窗口的数目，k是窗口大小，是包含第i列特征的k大小的第j个特征的TF-IDF得分；当输入的句子数为m时，输入的句子用大小为m×n的矩阵表示，该矩阵可在输入的句子上构造。如果句子的长度小于n，用数字0填充，使其扩展到相同的长度；

根据上述TF-IDF值的计算公式，增量的计算出每个特征的TF-IDF均值，利用均值筛选关键特征，特征的TF-IDF均值越大，表明该特征在文本中的重要程度越大，从而筛选出文本的关键特征；

所述步骤2)是利用卡方检验来检验关键特征与谣言信息类和常规信息类之间的相关性；卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度决定卡方值的大小，值越大，实际观测值与理论推断值偏离程度越大，越不符合；值越小，实际观测值与理论推断值偏离程度越低，越符合，若两个值完全相等时，卡方值就为0，表明理论值完全符合；检验公式如下：

其中，是包含第i列特征的卡方分数，是包含第i列特征的k大小的第j个特征的卡方分数，其计算公式如下：

其中C_regular是常规信息内容组，C_rumor是谣言信息内容组，是包含i列的k大小第j个特征的单词，χ²表示表示卡方检验；

所述步骤3)中，第i列的综合得分S_i通过以下公式得出：

S_i＝w_t×ST_i+w_x×SX_i

其中，w_t是的权重，w_x是的权重，w_t和w_x是根据基于梯度下降的算法的结果确定的，w_t是的权重，w_x是的权重，每列的综合得分越高，则与关键特征越相关，取得分高于设定阈值的词列，作为关键特征相关的词列。

所述基于卷积神经网络的深度谣言检测模型中进行如下处理：

步骤1)在输入层输入关键特征相关的词列，即将动态滑动窗口评分机制得到的文本语义特征作为输入层的输入数据；

步骤2)在卷积层进行卷积运算，得到特征映射；即将输入层的向量传到卷积层后，被卷积成若干的特征映射；

步骤3)在池化层提取最大特征值；即，在池化层中利用Max-Pooling方法提取最大特征值。简单来说，就是从之前卷积得到的一维特征值中提取出最大的值，最大值代表着最为显著的特征。这里的池化思想与样本代替总体的统计学思想相类似。池化层最大的优点就是它可以解决句子长短不一的问题，因为无论这些不同的句子映射为多少不同的特征向量，经过池化操作都提取了其中的最大值。

步骤4)在Softmax层进行一维向量全连接，将池化层输出的一维向量经过全连接后得到一个Softmax层的雏形，以获得输入的文本是否为谣言的概率分布，概率越大，其为谣言的可能性越大。

本发明通过如下方法对深度谣言检测模型进行评估：

步骤1)选择基线方案评估深度谣言检测模型的有效性；

步骤2)选择评估指标评估所提出的检测方案和基线方案的有效性；

步骤3)精度评价。

所述基线方案为超深卷积神经网络、字符集卷积神经网络或区域卷积神经网络，所述评估指标为准确度(A)、精确率(P)、召回率(R)、F1值和准确度增益(α)，所述步骤3)使用准确度增益来评估模型检测精度的改善趋势。

与现有技术相比，本发明通过动态滑动窗口特征评分机制，能够从大量数据中捕获包含不同长度单词的文本特征，并筛选出与关键特征相关的词列。基于此，搭建基于CNN的谣言深度检测模型，将关键特征代替噪声特征作为谣言深度检测模型的输入数据，通过对模型的训练，有效地提高了谣言检测的准确性。采用该方法在保证提高谣言检测的准确性的前提下，避免手工标注特征，节约成本，计算开销小，易于实际部署。

附图说明

图1为基于动态滑动窗口特征评分的谣言深度检测方法流程图。

图2为基于CNN的谣言深度检测模型框架图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1给出了根据本发明一个实施例的基于动态滑动窗口特征评分的谣言深度检测方法流程图。概括来讲，该方法包括：步骤1)滑动窗口捕获特征；步骤2)计算TF-IDF值，筛选关键特征；步骤3)应用卡方检验获取特征相关词列；步骤4)搭建谣言深度检测模型；步骤5)评估方法有效性。

更具体地，在步骤1)滑动窗口捕获特征。使用该特征提取机制，通过对输入语句相邻词不同长度的迭代来捕获包含不同长度单词的文本特征，从而找到输入语句的语义结构并将其纳入谣言深度检测模型。

当k是窗口大小时，是以i列为中心的k大小窗口的数目。

在步骤2)计算每个特征的TF-IDF值，筛选关键特征。是利用TF-IDF值寻找文本中的关键特征，其是一种统计方法，用以评估一字词对于文本的重要程度。公式如下：

其中，是包含第i列特征的TF-IDF得分，是包含第i列的k大小的第j个特征的TF-IDF得分。

在步骤3)应用卡方检验获取特征相关词列。利用卡方检验来查验特征和类别(即谣言和常规消息)之间的相关性。公式如下：

其中，是包含第i列的特征的卡方分数，是包含第i列的k大小的j特征的卡方分数，其计算公式如下：

其中C_regular是常规信息内容组，C_rumor是谣言信息内容组，是包含i列的k大小j特征的单词。

输入数据每列的综合得分。得分越高，与关键特征越相关，反之亦然。第i列的综合得分S_i可通过以下公式得出：

S_i＝w_t×ST_i+w_x×SX_i (5)

其中，S_i是综合得分中的权重，w_x是的权重，w_t和w_x是根据基于梯度下降的算法的结果确定的。

在步骤4)搭建了一种谣言深度检测模型。参考图2，将动态滑动窗口评分机制得到的文本语义特征作为输入层的输入数据。假设所有句子中，最长的句子有n个词，句子的数量为k，那么这个矩阵的大小就是n×k的(在CNN模型中，文本的特征表示，词向量矩阵也可被看做是高度为，k宽度，n为的图像)。

将输入层的向量传到卷积层后，被卷积成若干的特征映射。卷积窗口的大小拟设定为h×k，其中h表示卷积窗口内的行数，k表示词向量的维数。通过一系列的卷积后，便可得到若干列数为1的特征映射。

在池化层中利用Max-Pooling方法提取最大特征值。简单来说，就是从之前卷积得到的一维特征值中提取出最大的值，最大值代表着最为显著的特征。

将池化层输出得到的一维向量经过全连接后得到一个Softmax层的雏形，Softmax层通常根据任务的需要而设定，其反映着最终类别的概率分布。这一层的功能主要是用来进行分类，得到输入的文本是否为谣言的分析结果。

在步骤5)评估方法有效性。首先选择三个基线方案来评估深度谣言检测模型的有效性，分别为VD-CNN、Char-CNN和RCNN。所有这些方案都是在TensorFlow上实现的，并作为基线方案来评估模型的有效性。VD-CNN是一个基于CNN的模型，用于谣言检测和其他文本分类应用，对输入的小范围单词执行卷积操作。模型的深度越大，方案的精度越高；Char-CNN使用字符级卷积网络来实现与VD-CNN相同的目标；RCNN应用循环结构来捕获句子的上下文特征，以实现准确的文本分类。

其次，选择评估指标来评估所提出的检测方案和基线方案的有效性。利用评价指标来评估所提出的检测方案和基线方案的有效性。其中，选择准确度A、精确率P(正确分类特征与实际特征的比率)、召回率(正确分类特征与应归为谣言评论的比率)、F1值(精确率与召回率的调和平均值)和准确度增益α(评估所提出的方案相对于基线的准确度增量)来评估所提出的谣言深度检测模型和基线方案的有效性。

最后，使用准确度增益来评估模型检测精度的改善趋势。

在本发明的一个具体实施例中，在Twitter上收集了谣言和常规消息数据集，其中包括3,830条常规消息和1,972条与五个著名事件有关的谣言：渥太华射击，查理周刊，德国之翼崩溃，悉尼围攻和弗格森。另外两个数据集包括4544个常规评论和4163个虚假评论，分别针对20个最受欢迎的芝加哥酒店，这些评论在Trip-Advisor和Yelp上发布。由于所有这些数据集都包含非文本信息，因此我们对它们执行预处理操作。具体来说，我们只使用这些数据集上的文本信息，并使用相同类型的标签系统识别这些文本。从外观上看，第一个数据集中的谣言和常规消息的比率显示出数据不平衡现象。对不平衡数据集的模型训练将影响机器学习的准确性。为了保证模型训练过程的准确性，我们删除了与重点五个事件无关的一些消息，以平衡第一个数据集中的谣言和常规消息。通过这种方式，我们完成了对上述两个数据集的预处理操作，并分别获得了两个精化数据集，即DS1和DS2。

步骤1)对于每一个句子，将单词数作为这个句子的长度。最大句子长度用n表示，当输入的句子数为m时，输入的句子用大小为m×n的矩阵表示，该矩阵可在输入的句子上构造。如果句子的长度小于n，我们将用数字0填充，使其扩展到相同的长度。

在实现输入语句的节省空间的矢量表示后，使用可变长度的滑动窗口来捕捉不同尺度的特征，根据句子语义结构，窗口数目最小值设为3，最大值由具体输入决定。

步骤2)计算每个滑动窗口内特征的TF-IDF。文本内的高词语频率，以及该词语在整个文本集合中的低频率，对该词语赋予较高权重。TF-IDF过滤掉常见的词语，保留重要的词语，从而筛选出文本中关键特征。

步骤3)应用卡方检验获取特征相关词列。上一步骤筛选出的关键特征，利用卡方统计，查验特征和类别之间的相关性。将特征分为常规信息内容组和谣言信息内容组。计算每列的综合得分，得分增加与关键特征成正相关。

通过上述步骤，既得出了文本的关键特征，也得出了与关键特征的相关词列，将得到的数据以矩阵的形式表示。

步骤4)搭建谣言深度检测模型。采用卷积神经网络模型在TensorFlow框架下对数据集中的谣言数据进行建模。将筛选到的有效谣言特征作为输入，在神经网络的第一层把向量直接映射到低维；第二层根据句子最基本的主谓宾三要素设定filter的大小为(3，4，5)之后进行卷积操作；第三层使用max-pooling的方法将第二层卷积得到的结果max化，并连接成一个长的特征向量；第四层对连接过的向量使用dropout操作规避过拟合问题，之后传到softmax进行分类，得到分类结果。

步骤5)评估方法的有效性。用谣言深度检测模型对测试数据进行检测，得到检测结果。下面用准确率、准确度增益作为检测结果的评价指标，与三个基线方案作对比，其中1、2、3、4分别代表VD-CNN、Char-CNN、RCNN和本发明提出的深度谣言检测模型，对比结果如表1、表2所示：

表1准确率对比结果

训练达到8次后，准确率趋于稳定。谣言深度检测模型的最大准确率为86.46％，最小准确率为79.07％。与Char-CNN相比，准确率提高了2％，与RCNN和VD-CNN相比，准确率分别提高了5％和8％。

表2准确度增益结果

当迭代次数大于8时，SWFE-CNN相对于Char-CNN和RCNN的精度增益值趋于稳定，在1-1.2之间波动。虽然SWFE-CNN相对于VD-CNN的准确率增益值波动较大，但除了前7个训练时段的值外，其余的准确率增益均高于1.13。

与现有的方法相比，本发明可以避免手工标注特征，分析文本的语义结构，筛选谣言关键特征，提高谣言检测的准确性。

虽然本发明已经通过优选实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。

Claims

1.一种基于动态滑动窗口特征评分的谣言深度检测方法，其特征在于，包括：

2.根据权利要求1所述基于动态滑动窗口特征评分的谣言深度检测方法，其特征在于，所述特征提取的对象为包含不同长度单词的文本特征，通过对输入语句相邻词不同长度的迭代来捕获，从而找到输入语句的语义结构。

3.根据权利要求2所述基于动态滑动窗口特征评分的谣言深度检测方法，其特征在于，所述对输入语句相邻词不同长度的迭代来捕获的方法为：设定一定的窗口数目n，n等于最大句子长度，句子长度用单词数表示，通过不同大小的窗口框住不同长度的词，在窗口向后滑动的过程中，增量提取文本语义特征。

4.根据权利要求1所述基于动态滑动窗口特征评分的谣言深度检测方法，其特征在于，所述特征评分输入语句矩阵各列的综合得分的获取步骤如下：

步骤1)计算每个特征的TF-IDF值，筛选关键特征；

步骤3)计算每列综合得分。

5.根据权利要求4所述基于动态滑动窗口特征评分的谣言深度检测方法，其特征在于，所述步骤1)是利用TF-IDF值寻找文本中的关键特征，其是一种统计方法，用以评估一字词对于文本的重要程度，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降，TF-IDF值的计算公式如下：

其中，是包含第i列特征的TF-IDF得分，是以i列为中心的k大小窗口的数目，k是窗口大小，是包含第i列特征的k大小的第j个特征的TF-IDF得分；

其中C_regular是常规信息内容组，C_rumor是谣言信息内容组，是包含i列的k大小第j个特征的单词，x²表示表示卡方检验；

所述步骤3)中，第i列的综合得分S_i通过以下公式得出：

S_i＝w_t×ST_i+w_x×SX_i

其中，w_t是ST_i ^(k)的权重，w_x是的权重，w_t和w_x是根据基于梯度下降的算法的结果确定的，w_t是ST_i ^(k)的权重，w_x是的权重，每列的综合得分越高，则与关键特征越相关，取得分高于设定阈值的词列，作为关键特征相关的词列。

6.根据权利要求1所述基于动态滑动窗口特征评分的谣言深度检测方法，其特征在于，所述基于卷积神经网络的深度谣言检测模型中进行如下处理：

步骤1)在输入层输入关键特征相关的词列；

步骤2)在卷积层进行卷积运算，得到特征映射；

步骤3)在池化层提取最大特征值；

步骤4)在Softmax层进行一维向量全连接。

7.根据权利要求6所述基于动态滑动窗口特征评分的谣言深度检测方法，其特征在于，所述步骤3)中，在池化层利用Max-Pooling方法提取最大特征值；所述步骤4)中，将池化层输出的一维向量经过全连接后得到一个Softmax层的雏形，以获得输入的文本是否为谣言的概率分布，概率越大，其为谣言的可能性越大。

8.根据权利要求1所述基于动态滑动窗口特征评分的谣言深度检测方法，其特征在于，通过如下方法对深度谣言检测模型进行评估：

步骤1)选择基线方案评估深度谣言检测模型的有效性；

步骤3)精度评价。

9.根据权利要求1所述基于动态滑动窗口特征评分的谣言深度检测方法，其特征在于，所述基线方案为超深卷积神经网络、字符集卷积神经网络或区域卷积神经网络，所述评估指标为准确度(A)、精确率(P)、召回率(R)、F1值和准确度增益(α)，所述步骤3)使用准确度增益来评估模型检测精度的改善趋势。