CN108510483B

CN108510483B - 一种采用vlad编码和svm的计算生成彩色图像篡改检测方法

Info

Publication number: CN108510483B
Application number: CN201810245183.1A
Authority: CN
Inventors: 甘健侯; 杨泽; 周菊香; 郭园方; 操晓春
Original assignee: Yunnan Normal University
Current assignee: Yunnan Normal University
Priority date: 2018-03-23
Filing date: 2018-03-23
Publication date: 2020-10-20
Anticipated expiration: 2038-03-23
Also published as: CN108510483A

Abstract

本发明涉及一种采用VLAD编码和SVM的计算生成彩色图像篡改检测方法，属于数字图像取证技术领域。本发明包括步骤：首先用深度学习训练好的ResNet网络对伪造图像数据集进行分类；挑选自然图像数据集和伪造图像数据集上的图像颜色特征作为图像特征；再对自然图像数据集和伪造图像数据集分别提取图像特征；然后对提取的图像特征进行VLAD编码；最后利用SVM对编码后的图像特征进行训练，并通过训练好的模型对伪造图像进行篡改检测。本发明有效地解决了多种类型图像构成的数量巨大的图像数据集检测困难的问题，伪造检测准确率高。

Description

一种采用VLAD编码和SVM的计算生成彩色图像篡改检测方法

技术领域

本发明涉及一种采用VLAD编码和SVM的计算生成彩色图像篡改检测方法，属于数字图像取证技术领域。

背景技术

随着信息时代的高速发展，图像已成为最重要的媒介之一。由于交流过程中图像能够方便快捷地传递丰富的信息，作为一种感知事物，图像已经成了人们直观了解外界新鲜事物的途径之一。图像在文化、政治、军事、医学、法律等方面有广泛的应用。图像记录了一件事情发生的真实情况，可以作为真实的数字凭证和信息传递的载体，图像作为更直观便捷的方式被应用到了我们生活的各个方面。信息时代各种信息传播的迅捷，数字图像在给人们带来方便的同时，也给人们带来了困扰的一面。随着数字图像编辑软件的日益增多，各种图像处理软件被广泛应用，利用计算机数字图像处理技术再加上例如像Photoshop这样完善的图像编辑软件使得图像编辑功能更加丰富，随之而来的便是图像的伪造也变得越来越简单，因此图像的真实性受到了越来越多的质疑，特别当篡改图像作为呈堂证物时，会给法律公正带来一定的消极影响。

近年来随着深度学习技术在图像处理领域的深入研究和应用，利用深度学习对图像进行篡改而生成的伪造图像与真实图像真假难辨，这给伪造图像篡改检测技术带了很大的挑战，快速有效的伪造图像篡改检测技术亟待提出。本发明针对利用深度学习算法伪造的图像，提出一种有效的图像篡改检测方法，能够准确地检测出图像是否被伪造和篡改，相比传统的篡改检测算法具有显著的优越性。本发明所提出的方法具有较高的理论基础和实用价值。

发明内容

本发明提供一种采用VLAD编码和SVM的计算生成彩色图像篡改检测方法，以用于解决多种类型图像构成的数量巨大的图像数据集伪造检测困难、且准确率不高的问题。

本发明主要是对计算生成彩色伪造图像进行篡改检测，以ImageNet数据集为例，用R.zhang提出的深度学习方法构造伪造图像数据集，针对此类伪造图像，本发明提供一种基于VLAD编码和SVM的伪造图像检测方法，具体内容如下：

本发明的技术方案是：一种采用VLAD编码和SVM的计算生成彩色图像篡改检测方法，首先用深度学习训练好的ResNet网络对伪造图像数据集进行分类；挑选自然图像数据集和伪造图像数据集上的图像颜色特征作为图像特征；再对自然图像数据集和伪造图像数据集分别提取图像特征；然后对提取的图像特征进行VLAD编码；最后利用SVM对编码后的图像特征进行训练，并通过训练好的模型对伪造图像进行篡改检测。

所述方法的具体步骤如下：

Step1、利用深度学习图像着色方法构造伪造图像数据集；具体的是通过R.zhang等人提出的“Colorful Image Colorization”深度学习图像着色方法，对灰度图像进行自动着色，从而构造伪造图像数据集；

Step2、由于多类图像混合在一起，其颜色特征不能够得到很好的表达，从而影响后续的检测结果，针对此问题，采用深度学习算法来训练ResNet网络并通过训练好的深度学习ResNet网络模型对伪造图像数据集进行分类；

Step3、选取图像特征：考虑到伪造图像数据集是基于颜色进行篡改的，因此图像颜色特征成为区分真实图像和伪造图像的最重要的特征。本发明对图像的多种颜色通道进行了大量的统计。为了消除亮度的干扰，亮度通道被去除，然后分别统计计算机视觉中常见的颜色通道在自然图像数据集和伪造图像数据集出现的概率，并根据统计结果，从中挑选出在两个数据集上差异比较大的几组颜色通道作为图像颜色特征，最终我们将RGB、ab、R-G、G-B、R-B、CB、CR和HS等通道的作为图像颜色特征，把挑选出的图像颜色特征作为图像特征。

所述图像特征还包括自然图像数据集和伪造图像数据集提取的暗通道先验和亮通道先验特征。

暗通道先验是一种无雾图像统计。在提取暗通道的过程中，一个或多个颜色通道的强度非常低且接近于零，首先，在RGB空间中对图像进行分解，并在局部块中执行最小操作，即求r，g，b通道中的最小分量。然后，我们使用算法进行局部最小值的最小分量值滤波处理，所述提取暗通道先验特征的表达式为：

其中，J^dark是暗通道像素，c是RGB颜色通道中的一个通道，y是以x为中心的一个局部区域，x是图像中的像素位置，J^c(y)是图像J中y区域的颜色通道，Ω(x)表示以x为中心的一个局部块。

与暗通道先验相似，亮通道先验是基于在大多数自然场景中观察到的，其中至少一个颜色通道具有很高强度的像素。所述提取亮通道先验特征的表达式为：

其中，I^dark是亮通道像素，c是RGB颜色通道中的一个通道，y是以x为中心的一个局部区域，x是图像中的像素位置，I^c(y)是图像I中y区域的颜色通道，Ω(x)表示以x为中心的一个局部块。

Step4、再对自然图像数据集和伪造图像数据集分别提取图像颜色特征；

Step5、对提取的图像特征进行VLAD编码；首先用k-means对图像特征进行聚类来获得视觉词典，包括码本和聚类中心；然后使用kd-tree快速向量量化技术将软分配转化到硬分配，即为颜色特征矩阵中每一个向量分配一个与其距离最近中心的索引，得到每一幅图像编码后的特征；

其中，具体方式如下所示：使用k-means对图像特征进行聚类，得到码本和聚类中心，然后将每个局部描述符x_j分配给最接近的码本的聚类中心，然后得到量化的索引：NN(x_j)＝argmin||x_j-c_i，j||，然后将描述符分配给一个中心C，向量v是通过这些描述符及其中心之间的差异求和得到的，具体计算公式如下：

V_i，j＝∑_{xsuchthatNN(x)＝ci}x_j-c_i，j

其中x是每个图像的特征点，每个局部描述符x关联到它最近的可视词ci＝NN(x)，v_i，j为代表描述符；

Step6、分别将自然图像数据集和伪造图像数据集编码后的特征作为SVM的输入进行模型训练；再通过交叉验证的方法来得到SVM最佳的惩罚系数参数G和RBF核函数的gamma参数g，最终在训练好的模型上对待检测图像进行伪造检测。

本发明的有益效果是：

1、本发明基于VLAD编码能解决训练图像颜色特征维度过高的问题，对数据的描述更符合实际，能加强对图像颜色特征表达的强大优势；

2、本发明加入了亮通道先验和暗通道先验，很好地弥补了亮度对检测的影响，提高了伪造检测准确率；

3、本发明能很好的进行伪造检测，在篡改检测中取得了较好的性能，具有一定的实际应用价值。

附图说明

图1是本发明真实图像数据集样例(第一行)和伪造图像数据集样例(第二行)；

图2是本发明伪造图像检测算法框架图；

图3是本发明残差网络模块示意图；

图4是本发明实施例中a通道在自然图像数据集和伪造图像数据集上出现的概率分布；

图5是本发明实施例中b通道在自然图像数据集和伪造图像数据集上出现的概率分布；

图6是本发明实施例中RGB通道在自然图像数据集上出现的概率分布；

图7是本发明实施例中RGB通道在伪造图像数据集上出现的概率分布。

具体实施方式

实施例1：如图1-7所示，一种采用VLAD编码和SVM的计算生成彩色图像篡改检测方法，所述方法的具体步骤如下：

Step1、首先在ImageNet数据集上随机挑选13000(10类，每类1300幅)幅图像作为自然图像数据集，并将所有图像的大小缩放至256*256。利用R.zhang等人提出的“ColorfulImage Colorization”深度学习图像着色方法对自然图像数据集进行重新上色，从而构成相应的伪造图像数据集；如图1所示；

Step2、采用深度学习算法来训练ResNet网络并通过训练好的深度学习ResNet网络模型对伪造图像数据集进行分类，分成十类；从每一类分类正确的结果中随机选出100幅作为训练图像、100幅作为测试集；如图3所示为本发明残差网络模块示意图；通过分类的方式首先将训练集进行分类，然后对每一类分别提取特征，能够保证在每一类中对于基本特定的几种颜色特征能够更好的学习表达；

Step3、选取图像特征：统计常见的若干颜色通道在自然图像数据集和伪造图像数据集上出现的概率分布，如图4-7所示，并根据统计结果，挑选出每种通道在两个数据集上概率分布差异最大的RGB、R-G、G-B、R-B、CB、CR和HS通道作为图像颜色特征；通过统计计算机视觉中常见的几种颜色通道出现的概率，并选出差异比较大的作为图像的颜色特征，有效的提高了最终的检测准确率；

Step4、提取自然图像数据集和伪造图像数据集的暗通道先验和亮通道先验特征，结合上述步骤的图像颜色特征作为最终的图像特征；除了确定了几种颜色通道之外，还加入了亮通道先验和暗通道先验，很好地弥补了亮度对检测的影响；

其中提取暗通道先验和亮通道先验特征的方式如下所示：

所述暗通道为：

所述亮通道为：

Step5、再对自然图像数据集和伪造图像数据集分别提取图像颜色特征；

Step6、对提取的图像特征进行VLAD编码；首先用k-means聚类来获得视觉词典，包括码本和聚类中心；然后使用kd-tree快速向量量化技术将软分配转化到硬分配，即为颜色特征矩阵中每一个向量分配一个与其距离最近中心的索引，得到每一幅图像编码后的特征；

Step7、分别将自然图像数据集和伪造图像数据集编码后的特征作为SVM的输入进行模型训练；并通过交叉验证的方法来得到SVM最佳的参数G(惩罚系数)和g(RBF核函数的gamma参数)，最终在训练好的模型上对待检测图像进行伪造检测。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种采用VLAD编码和SVM的计算生成彩色图像篡改检测方法，其特征在于：首先用深度学习训练好的ResNet网络对伪造图像数据集进行分类；挑选自然图像数据集和伪造图像数据集上的图像颜色特征作为图像特征；再对自然图像数据集和伪造图像数据集分别提取图像特征；然后对提取的图像特征进行VLAD编码；最后利用SVM对编码后的图像特征进行训练，并通过训练好的模型对伪造图像进行篡改检测；

所述方法的具体步骤如下：

Step1、利用深度学习图像着色方法构造伪造图像数据集；

Step2、采用深度学习算法来训练ResNet网络并通过训练好的深度学习ResNet网络模型对伪造图像数据集进行分类；

Step3、选取图像特征：统计常见的若干颜色通道在自然图像数据集和伪造图像数据集上出现的概率分布，并根据统计结果，从中挑选出两个数据集上差异大的颜色通道作为图像颜色特征，该图像颜色特征作为图像特征；

Step5、对提取的图像特征进行VLAD编码；

Step6、分别将自然图像数据集和伪造图像数据集编码后的特征作为SVM的输入进行模型训练；最终在训练好的模型上对待检测图像进行伪造检测；

所述步骤Step3中，挑选出两个数据集上概率分布差异最大的RGB、R-G、G-B、R-B、CB、CR和HS通道作为图像颜色特征；

所述图像特征还包括自然图像数据集和伪造图像数据集提取的暗通道先验和亮通道先验特征；

所述提取暗通道先验特征的表达式为：

其中，J^dark是暗通道像素，c是RGB颜色通道中的一个通道，y是以x为中心的一个局部区域，x是图像中的像素位置，J^c(y)是图像J中y区域的颜色通道，Ω(x)表示以x为中心的一个局部块；

所述提取亮通道先验特征的表达式为：

2.根据权利要求1所述的采用VLAD编码和SVM的计算生成彩色图像篡改检测方法，其特征在于：所述步骤Step5的具体步骤为：

首先用k-means聚类来获得视觉词典，包括码本和聚类中心；然后使用kd-tree快速向量量化技术将软分配转化到硬分配，即为颜色特征矩阵中每一个向量分配一个与其距离最近中心的索引，得到每一幅图像编码后的特征。

3.根据权利要求1所述的采用VLAD编码和SVM的计算生成彩色图像篡改检测方法，其特征在于：通过交叉验证的方法来得到SVM最佳的惩罚系数参数G和RBF核函数的gamma参数g。