CN109885796B

CN109885796B - 一种基于深度学习的网络新闻配图匹配性检测方法

Info

Publication number: CN109885796B
Application number: CN201910075520.1A
Authority: CN
Inventors: 云静; 尚俊峰; 刘利民; 许志伟
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2020-01-03
Anticipated expiration: 2039-01-25
Also published as: CN109885796A

Abstract

本发明提供一种基于深度学习的网络新闻配图匹配性检测方法，该方法包括基于深度学习的新闻配图多描述生成；以及生成新闻配图描述的文字内容与新闻文字内容进行对比评分；对于生成新闻配图描述部分，采用卷积神经网络对新闻配图特征的提取，然后利用自然语言模型生成新闻配图的相关描述；对于评分体系部分，由于生成的图片描述和新闻文字内容长度和表达方式上的差异性，本发明提出解决方案，与改进的BLEU算法形成评分体系。评分体系对生成的图片描述和新闻文字内容进行对比评分，通过评分来判断图片与新闻内容是否相符。因此，可以更快速、更准确地发现图文不符的虚假信息，减少人工审核的时间，节省人力物力，净化网络环境。

Description

一种基于深度学习的网络新闻配图匹配性检测方法

技术领域

本发明属于信息检测技术领域，涉及虚假信息检测，特别涉及一种基于深度学习的网络新闻配图匹配性检测方法。

背景技术

以互联网为代表的数字技术与当今社会各领域深度融合、以智能手机为代表的移动设备大规模普及为手机新闻客户端的诞生和发展奠定了坚实基础。而大量新闻网站以及手机客户端为了吸引阅读量编辑了大量垃圾新闻，如标题党，图文不匹配等，从而导致虚假信息泛滥，误导群众思想。

图文不匹配属于虚假信息范畴，目前采用人工举报审核制度来降低网站图文不匹配文章的占有率。各大网站比如百度云的图像审核，网易的易盾图像检测，检测方向也仅仅基于违法图片检测，并不涉及图文是否相关方向。

就检测图文不匹配而言，目前已有的发明主要利用各大网站识图技术生成关键词，然后在文章里搜索生成的关键词，其没有对图片进行完整描述，导致准确率极低。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于深度学习的网络新闻配图匹配性检测方法，通过深度学习技术对新闻配图生成描述，然后与新闻文字内容进行比对，来判断插图与新闻文字内容是否相符，从而解决虚假信息中图文不匹配的情况，去除虚假信息，有效净化网络环境。

为了实现上述目的，本发明采用的技术方案是：

一种基于深度学习的网络新闻配图匹配性检测方法，包括如下步骤：

步骤1，提取新闻网页上的配图与文字内容，将提取的文字内容形成规范文档；

步骤2，将提取的图片输入到神经网络模型中，对图片进行物体识别和场景识别，然后利用自然语言模型对图片中所有物体和场景生成若干相应的描述；

步骤3，利用BLEU算法将生成的图片的多描述与新闻的文字内容进行比对，从而判断是否图片与新闻内容匹配。

所述步骤1中的规范文档指的是符合语言规范的单句。

所述步骤2中，神经网络模型包括一个卷积神经网络，一个密集定位层，一个识别网络层以及一个自然语言模型，其物体识别和场景识别过程如下：

步骤2.1，将提取的图片输入到卷积神经网络进行特征提取并生成特征矩阵；

步骤2.2，将卷积神经网络提取的特征向量再输入到密集定位层基于多目标识别技术对图片中的区域进行识别预测，生成初步的识别区域称为候选区域，数量为B；

步骤2.3，将候选区域传输到识别网络层，将来自密集定位层的每个候选区域的特征变换为一个向量，并将其传送至识别网络的两个全连接层，对每一个候选区域生成一个长度统一的一维向量，将所有一维向量存储起来，组合成一个矩阵；

步骤2.4，将得到的矩阵输入到基于LSTM的语言模型中，最终生成关于图片每一部分的具体描述。

所述步骤2.2中，密集定位层收到所述特征矩阵，识别候选区域并且从每一个区域平滑地提取一个固定尺寸的表示，然后采用边界回归方法，利用Fast R-CNN的参数得到锚点到候选区域的回归，即利用锚点的中心坐标和候选区域的长宽，以及预测出的四个标量来计算候选区域的中心和长宽，接着对候选区域进行二次抽样以减小代价，得到具有不同大小和宽高比的矩形框形式的候选区域，最后采用双线性插值法，从不同大小尺寸的候选区域中提取出固定尺寸的特征表示。

所述步骤2.2中，借助一系列具有平移不变性的锚点(anchors)来识别候选区域的位置和大小，具体方法是：对于大小为W'×H'的特征图谱来说，将图谱中的每一个像素点都做为一个锚点(anchor)，锚点数量为W'×H'个，将该点反向映射回原始图像W*H中，然后基于该锚点，画出不同宽高比和大小的若干个“锚框”(anchor box)，该“锚框”即候选区域，其具有固定尺寸的表示。

目标检测算法通常会在输入图像中采样大量的区域，然后判断这些区域中是否包含感兴趣的目标，并调整区域边缘从而更准确地预测目标的真实边界框。不同的模型使用的区域采样方法可能不同，本发明中，以每个像素为中心生成多个大小和宽高比(aspectratio)不同的边界框。

平移不变的锚点是指：如果选择图像中的连续范围作为池化区域，并且只是池化相同(重复)的隐藏单元产生的特征，那么，这些池化单元就具有平移不变性。这就意味着即使图像经历了一个小的平移之后，依然会产生相同的(池化的)特征。即，在物体检测中，具有平移不变性的特征，即使图像经过了平移，样例(图像)的标记仍然保持不变。

所述预测出的四个标量是线性回归中锚框的四个位移参数，所述二次抽样是基于每个候选区域的置信分数进行区域采样，保留置信分数最高的候选区域。

所述步骤2.3中，使用RELU激活函数和Dropout优化原则，将来自密集定位层的每个候选区域的特征变换为一个向量，并将其传送至两个全连接层，对每一个候选区域都会生成一个长度为D＝4096的一维向量，最终生成B个长度为D的一维向量，组合形成一个B×D形状的矩阵。

所述BLEU算法中，采用词频的对比方法，计算生成的配图描述的文字内容与新闻的文字内容的对比评分，高于设定阈值即为图文匹配，低于设定阈值即为图文不匹配。

与现有技术相比，本发明的有益效果为：

1、基于生成图片描述和新闻文字内容的长度差异性进行对比

由于生成描述的文字长度的新闻文字内容长度的差异性，所以基于差异性提出相应对比方案，将生成的描述文字和新闻文字内容分别拆分为单句，然后每个单句依次进行比，对保留得分排名靠前的单句，最后求得平均值，即为最终的得分。

2、基于单句描述和新闻文字内容差异性进行打分

由于生成描述和新闻内容表达上差异性，使用原有BLEU算法打分准确率低。因此本发明提出适应性方案，调整参数，采用词频的对比方法确定最终得分。

3、将图像描述技术和BLEU算法融合检测网络新闻配图匹配性

首先对新闻网站进行图文的提取，文字内容形成规范文档，利用深度学习技术对图片进行多描述生成，生成的图片描述与新闻文字内容利用改进的BLEU算法进行对比打分，根据打分结果判断配图与新闻内容是否匹配。

综上，本发明利用图片多描述生成机制，能够让图片描述变得更详细，将图片内容完整的表示出来，同时融合BLEU算法体系，对图片表示结果同新闻文字内容的进行对比评分，判断是否为虚假信息。由于对图片进行了完整的描述，因此大大提升了准确性。本发明可用于各大网站审核文章，在初期进行筛选过滤，从而大量节省人力物力。

附图说明

图1为本发明的整体技术流程图。

图2为使用VGG-16结构的特征提取示意图。

图3为基于Faster-RCNN的目标检测模型构建图。

图4为适应本发明的BLEU应用方案。

图5是本发明实施例中的新闻配图。

图6是本发明实施例中的新闻配图。

图7是对图5生成的多描述。

图8是对图6生成的多描述。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

参考图1，本发明简单工作流程如下；

1.提取新闻网站的图片和新闻文字内容，新闻内容形成规范文档：即规范单句。

2.设置图像描述生成的网络结构和模型参数。

(1)卷积网络结构设置：

使用VGG-16的网络结构，包含13层卷积核为3×3的卷积层和4层池化核为2×2的最大池化层。对于大小为3×W’×H’的图片，经过卷积网络后，输出结果是C×W'×H'的特征矩阵。

(2)全卷积定位层设置：

1)输入和输出

输入：来自卷积网络的特征矩阵。

输出：输出B个候选区域的向量(定长)，每个特征向量都包含下面三个关键信息：

候选区域的坐标：输出形式是一个的矩阵，每行代表一个候选区域的坐标

候选区域的置信分数：一个长度为D的一维列向量，向量内每个元素都给出了候选区域的得分。得分越高说明越可能是真实区域

候选区域的特征：输出形式为的特征集合，这里B代表区域个数，表示特征向量的大小，代表特征的维度。

2)卷积锚点的设置

大小为W’×H’的特征图谱来说，特征图谱中的每一个像素点都做为一个锚点(anchor)(锚点数量设置为W’×H’个)，将该点反向映射到原始图像W×H中，然后基于该锚点，画出不同宽高比和大小的若干个“锚框”。

3)边框回归设置

利用线性回归得到关于“锚框”边框的四个位移参数(t_x,t_y,t_w,t_h)，然后通过下面的式子对候选区域的中点位置(x,y)和尺寸大小(w,h)进行更新

x＝x_a+t_xw_a y＝y_a+t_yh_a

w＝w_aexp(t_w) h＝h_aexp(h_w)

4)边框采样参数设置

图像大小为W×H，锚框数量为k，候选区域个数即为：

为了提升速率，取这些候选区域的子集来参与测试过程，具体选取原则如下：

基于每个候选区域的置信分数，采用非极大抑制选取B＝300个置信分数最高的候选区域。

最终可以得到关于这B个候选区域的位置坐标和置信分数。

5)双线性插值计算方式设置

为了将候选区域转换成固定大小的特征向量，具体来说，就是对于任意的特征图谱U(C’×W’×H’)和候选区域，要将其放缩成大小为(C’×X×Y)的特征图谱V，具体过程按照下面步骤进行：

a)计算V到U的反向投影坐标值，例如对于特征图谱V中的任意一点坐标

投影到中的坐标值为：

b)按照双线性插值法，得到U中坐标点

的像素值，该像素值就是V中对应点的像素值V_c，i，j，计算公式如下:

其中：

c)利用上面的方法，计算V中所有像素点的坐标值，得到C×X×Y的特征图谱。

(3)损失函数以及权重设置：

定位层的边框位置回归损失函数设置为smooth L1loss，置信分数设置为binarylogistic loss。

识别网络中边框位置和置信分数两个损失函数，还有语言模型的损失函数，设置为交叉熵损失函数。

将后续区域边框的初始权重设为0.1，将图片描述的置信权重设为1.0。

3.生成的图片描述与新闻文字内容进行对比。

(1)进行拆分单句比对，计算BLEU得分，步骤如下：

步骤3.1，进行拆分单句比对，获取BLEU得分

1)计算各阶n-gram的精度

首先计算各阶n-gram在原文中可能出现的最大次数Count_clip：

Count_clip＝min(Count,Max_Ref_count)

Count是n-gram在生成的图片描述句子中的出现次数，Max_Ref_Count是该n-gram在一个原文句子中最大的出现次数，最终统计结果取两者中的较小值；

计算各阶n-gram的精度，其中n＝1：

将整个要处理的将生成图片描述句子表示为c_i，原文句子表示为S_i＝s_i1,...,s_ij,...,s_im，m表示有m个参考答案；h_k(c_i)表示w_k生成图片描述的句子c_i中出现的次数，h_k(s_ij)表示w_k在原文句子s_ij中出现的次数，以n-grams表示n个单词长度的词组集合，则w_k为第k个n-gram，max_j∈mh_k(s_ij)表示某n-gram在多条标准答案中出现最多的次数，∑_i∑_kmin(h_k(c_i)，max_j∈mh_k(s_ij))表示取n-gram在生成描述的句子和原文句子中出现的最小次数；

2)加权求和

取权重：W_n＝1/n

加权求和：

w_n为n-gram的权重(n＝1则每句话一个单词对应也就是1元词组的匹配度，n＝2则为2元词组的匹配度)，P_n指n-gram的精度；

3)求BP

l_c表示生成描述单句的长度，l_s表示原文单句的长度；

4)求BLEU得分

步骤3.2，获得单句描述与新闻的文字内容每个单句的BLEU得分n₁….n_t，将排名前q的单句得分求平均值即为最终单句得分x：

步骤3.3，再依次求其他单句描述的最终得分x1…xt，求最终平均值y：

若y小于设定阈值即为图文不匹配。

以下是本发明的一个具体实施例。

1.数据采集。

随机选择某网站单篇文章，对图片和内容进行提取，生成规范文档。

采集的数据具体为：

新闻摘要：A man was violently removed from a United Airlines flight byaviation police officials at Chicago's O'Hare international airport onSunday,in an incident captured on video by several other passengers.

新闻配图如图5和图6所示。

2.对图片进行描述生成。

权重设置：

后续区域边框的初始权重设为0.1，将图片描述的置信权重设为1.0。

图片输入：

参考图7，输入图5后，输出候选区域为10个。

参考图8，输入图6后，输出候选区域为11个。

3.生成描述与新闻文字内容对比

图5中：排名前10的单句得分情况为别为：

x1＝0.65,x2＝0.61,x3＝0.61,x4＝0.60,x5＝0.59,x6＝0.59,x7＝0.56,x8＝0.55,x9＝0.53,x10＝0.49。

最终得分:

y1＝(x1+…+x10)/10＝(0.65+0.61+0.61+0.60+0.59+0.59+0.56+0.55+0.53+0.49)＝0.588

图6中：排名前10的单句得分情况为：

x1＝0.52,x2＝0.49,x3＝0.49,x4＝0.48,x5＝0.44,x6＝0.43,x7＝0.41,x8＝0.40,x9＝0.39,x10＝0.38。

最终得分:

y2＝(x1+…+x10)/10＝(0.52+0.49+0.49+0.48+0.44+0.43+0.41+0.40+0.39+0.38)＝0.443。

最终判定结果：y1＝0.558>0.5，认为图5与新闻文字内容相符。y2＝0.4<0.5，认为图6为虚假信息。

因此，本发明通过深度学习技术对图片进行多描述生成，能够让图片描述变得更详细，将图片内容完整的展示出来，为图文检测奠定了坚实的基础。同时融合BLEU算法体系，构成一个完整的图文匹配检测方法。本发明准确性高，易于部署，同时节省新闻网站人工审核时间。

Claims

1.一种基于深度学习的网络新闻配图匹配性检测方法，其特征在于，包括如下步骤：

步骤1，提取新闻网页上的配图与文字内容，将提取的文字内容形成规范文档，规范文档指的是符合语言规范的单句；

步骤3，利用BLEU算法将生成的图片的多描述与新闻的文字内容进行比对，从而判断是否图片与新闻内容匹配；

其中，所述神经网络模型包括一个卷积神经网络，一个密集定位层，一个识别网络层以及一个自然语言模型，其物体识别和场景识别过程如下：

步骤2.2，将卷积神经网络提取的特征矩阵再输入到密集定位层基于多目标识别技术对图片中的区域进行识别预测，生成初步的识别区域称为候选区域，数量为B；

步骤2.3，将候选区域传输到识别网络层，使用RELU激活函数和Dropout优化原则，将来自密集定位层的每个候选区域的特征变换为一个向量，并将其传送至识别网络的两个全连接层，对每一个候选区域生成一个长度为D＝4096的一维向量，将所有一维向量存储起来，最终生成B个长度为D的一维向量，组合形成一个B×D形状的矩阵；

步骤2.4，将得到的矩阵输入到基于LSTM的语言模型中，最终生成关于图片每一部分的具体描述；

所述BLEU算法中，采用词频的对比方法，计算生成的配图描述的文字内容与新闻的文字内容的对比评分，高于设定阈值即为图文匹配，低于设定阈值即为图文不匹配，所述对比评分的步骤如下：

步骤3.1，进行拆分单句比对，获取BLEU得分

1)计算各阶n-gram的精度

首先计算各阶n-gram在原文中可能出现的最大次数Count_clip：

Count_clip＝min(Count,Max_Ref_count)

计算各阶n-gram的精度，其中n＝1：

将整个要处理的将生成图片描述句子表示为c_i，原文句子表示为S_i＝s_i1,...,s_ij,...,s_im，m表示有m个参考答案；h_k(c_i)表示w_k生成图片描述的句子c_i中出现的次数，h_k(s_ij)表示w_k在原文句子s_ij中出现的次数，以n-grams表示n个单词长度的词组集合，则w_k为第k个n-gram，max_j∈mh_k(s_ij)表示某n-gram在多条标准答案中出现最多的次数，∑_i∑_kmin(h_k(c_i),max_j∈mh_k(s_ij))表示取n-gram在生成描述的句子和原文句子中出现的最小次数；

2)加权求和

取权重：W_n＝1/n

加权求和：

w_n为n-gram的权重，P_n指各阶n-gram的精度；

3)求BP

l_c表示生成描述单句的长度，l_s表示原文单句的长度；

4)求BLEU得分

若y小于设定阈值即为图文不匹配。

2.根据权利要求1所述基于深度学习的网络新闻配图匹配性检测方法，其特征在于，所述步骤2.2中，密集定位层收到所述特征矩阵，识别候选区域并且从每一个区域平滑地提取一个固定尺寸的表示，然后采用边界回归方法，利用Fast R-CNN的参数得到锚点到候选区域的回归，即利用锚点的中心坐标和候选区域的长宽，以及预测出的四个标量来计算候选区域的中心和长宽，接着对候选区域进行二次抽样以减小代价，得到具有不同大小和宽高比的矩形框形式的候选区域，最后采用双线性插值法，从不同大小尺寸的候选区域中提取出固定尺寸的特征表示。

3.根据权利要求2所述基于深度学习的网络新闻配图匹配性检测方法，其特征在于，所述步骤2.2中，借助一系列具有平移不变性的锚点来识别候选区域的位置和大小，具体方法是：对于大小为W'×H'的特征向量来说，将图谱中的每一个像素点都做为一个锚点，锚点数量为W'×H'个，将该点反向映射回原始图像W*H中，然后基于该锚点，画出不同宽高比和大小的若干个“锚框”，该“锚框”即候选区域，其具有固定尺寸的表示。

4.根据权利要求2所述基于深度学习的网络新闻配图匹配性检测方法，其特征在于，所述预测出的四个标量是线性回归中锚框的四个位移参数，所述二次抽样是基于每个候选区域的置信分数进行区域采样，保留置信分数最高的候选区域。