CN102194124B

CN102194124B - 一种基于图像搜索的合成图像检测方法

Info

Publication number: CN102194124B
Application number: CN2010102831961A
Authority: CN
Inventors: 操晓春; 张晓婧; 李原
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2010-09-16
Filing date: 2010-09-16
Publication date: 2012-09-19
Anticipated expiration: 2030-09-16
Also published as: CN102194124A

Abstract

本发明属于图像检测技术领域，涉及一种基于图像搜索的合成图像检测方法，该方法包括下列步骤：将待检测是否为合成图像的图像，输入到基于内容的图像检索系统中进行搜索，从检索出的与其相匹配的图像中，选择匹配度最高的图像；将待检测图像和检索到的匹配度最高的图像调整到相同大小后相减，并做如下的判断：a.如果相减后的图像有大面积的黑色部分或者小面积的连续的黑色部分出现，并且同时有大面积的连续的白色区域出现，则可以证明两张图像中至少有一张是经过处理的；b.如果相减后的图像存在大面积的白色区域，黑色区域很少且分布零散，则可判断两幅图像联系很小，即图像没有经过处理。本发明的检测方法具有简单，直观，时间复杂度低，易于应用的优点。

Description

一种基于图像搜索的合成图像检测方法

技术领域

本发明属于图像检测技术领域，具体涉及基于内容的图像内容可信度度量领域。

背景技术

随着各种图像处理技术的快速发展，图像辨伪也逐渐成为图形图像领域的重要问题。以往辨别合成图像经常使用的一个办法，就是取色比较法，该方法主要是查看颜色信息，可以把图像用专门软件扩大，分析其中有可能或者看起来令人怀疑的颜色区域，分析颜色的真实程度，缺点是时间花费较大，且没有可行的系统可以应用。

发明内容

本发明的目的是克服现有技术的上述不足，提供一种简单易行的合成图像检测方法。为此，本发明采用如下的技术方案：

一种基于图像搜索的合成图像检测方法，在已经建立了基于内容的图像检索系统图的基础上进行，该图像检索系统的图像数据库已经存储有充分多图像，能够搜索到与待检测是否为合成图像的图像相同或者相似的图像，该方法包括下列步骤：

步骤一：图像搜索

将待检测是否为合成图像的图像，输入到基于内容的图像检索系统中进行搜索，从检索出的与其相匹配的图像中，选择匹配度最高的图像；

步骤二：图像相减

将上一步骤中的输入的待检测图像和检索到的匹配度最高的图像调整到相同大小后，以矩阵的方式分别读入并进行相减，将相减后的图像然后转换成灰度图像显示出来，观察相减后的图像，根据图像中黑白区域的分布做判断：

a.如果相减后的图像有大面积的黑色部分或者小面积的连续的黑色部分出现，并且同时有大面积的连续的白色区域出现，则可以证明两张图像中至少有一张是经过处理的。

b.如果相减后的图像存在大面积的白色区域，黑色区域很少且分布零散，则可判断两幅图像联系很小，即图像没有经过处理。

本发明首先建立了一种基于内容的检索系统，该系统通过提取图像的SIFT特征，并对特征进行聚类得到视觉关键字，然后利用基于文本搜索的相关方法，根据Bag of words模型对图像按照视觉关键字进行索引，从而达到高效而准确的查找结果。与传统的基于文本搜索的方法比较的优点是：

1.图像是对客观对象的一种相似性的、生动性的描述，它包含了被描述对象的直观信息，它是人们最主要的信息源。据统计，一个人获取的信息大约有75%来自视觉。基于内容的检索可以查找到一个人对所查找图像中物体的直观印象的相似对象，而基于文本的搜索只能查找到对物体的描述的相似对象，缺乏直观性。

2.基于文本的搜索需要将对象的特征用文字描述出来，在用于查询数量众多的对象时，描述不够全面，基于不同的描述会产生不同的查询结果；而基于内容的检索则会综合考虑图像的局部特征，同一张图像检索返回相同的查询结果。

本发明在基于图像检索系统的基础上，进行图像的搜索与检测，方法简单，直观，时间复杂度低，易于应用。

附图说明

图1（a）（b）（c）（d）分别为经过人物脸部替换、部分人物替换、将原图像中所有人物都覆盖、在原图中加人物进去四种处理后的四组图像匹配结果。每组图像的左图为输入的图像（原图像），中图为与其匹配度最高的图像，右图为两个图像相减后得到的图像。

图2未经过处理的图像两个图像的相减后的结果。左图和中图为两个相似的图像，右图为两个图像相减后得到的图像。

具体实施方式

本发明提供了一种在基于内容检索系统简单的合成图像检测方法：先将所要鉴别的图像输入到检索系统，搜索到特征相似的许多图像，然后利用图像的矩阵表示技术将所输入的图像与搜索到的图像相减，根据相减图像零值的分布，判断图像是否经过合成处理。

下面首先介绍一下本发明采用的图像检索系统。

随着数字图像应用领域的飞速发展，准确高效的图像检索技术越来越受到重视。对于目前的搜索引擎系统，通常是用户提交文本，然后系统返回与该文本相关的图像；而对基于内容的图像检索系统，用户提交的是图像，而系统返回在数据库中与该图像内容近似的图像，即“视觉近似”，因此能够完成一些文本搜索不能满足的需求。

基于内容的图像检索是一项非常困难的任务，其中有很多原因。首先，表示图像内容的特征信息往往维数很高，数目众多，给特征的存储和匹配速度带来了很大的挑战，如何降低特征的维度同时又保持较高的区分度是基于内容的图像检索领域的一大难点;其次，在检索系统中，随着图像数量的不断增加，如何组织图像的索引和查询系统使其能够在海量图像库中快速的检索出与目标内容相似的图像，也是一个不小的难题。本发明所采用的基于内容的检索系统中，通过提取图像的SIFT特征，并对特征进行聚类得到视觉关键字，然后利用基于文本搜索的相关方法，根据Bag of words模型，对图像按照视觉关键字进行索引，从而达到高效而准确的查找。具体检索方法分为下面的四个步骤：

步骤一：提取图像的特征

图像的特征在一定程度上反映了图像的内容，对于基于内容的图像搜索系统，特征的提取至关重要。在本发明中，采用Scale-invariant feature transform(简称SIFT)算法提取图像特征，SIFT算法由David.G.Lowe于1999年提出，2004年完善总结。SIFT特征是图像的局部特征，其对旋转、尺度缩放、亮度变化保持不变性，对视角变化、仿射变换、噪声也保持一定程度的稳定性。因而基于SIFT特征的图像内容匹配具有较高的准确性和可靠性。本发明中采用128维SIFT特征向量。

步骤二：对图像的特征进行聚类得到视觉关键字

类似于文本索引，我们要按照关键字对数据库中的图像进行索引。由于提取出的图像特征具有很高的区分度，如果直接以特征作为关键字建立索引，则造成倒排索引链表的平均长度很短，失去了图像匹配的意义。在本发明中，采用K-Means方法对图像的特征进行聚类，并以聚类最后得到的各个中心作为视觉关键字。

步骤三：通过视觉关键字对特征进行量化，利用bag of words模型索引图像

得到视觉关键字后,将图像的特征量化为视觉关键字，忽略特征间的空间位置上的关系，则图像可以看作为视觉关键字的集合，对应于文本搜索中的bag of words模型。借鉴文本搜索成熟的技术，根据视觉关键字为图像建立倒排索引，可有效的对图像数据库进行内容检索。同时，为了弥补图像特征量化为视觉关键字在区分度上的损失，在倒排索引中对每个视觉关键字附属64维的汉明码作为区分度的补偿，定义汉明距离为两个汉明码之间不同的位数，则汉明距离超出阈值的特征认定为不匹配。汉明码的生成过程如下，

1)生成随机正定矩阵，维数为128*64

2)对于属于同一视觉关键字的特征，通过随机正定矩阵映射为64维特征

3)计算生成的64维特征集合每一维上的中位数

4)对于图像的64维特征，若大于等于该维的中位数，则对应位设为1，否则设为0，由此得到64维汉明码。

采用汉明码的优点是既不会给空间上带来过多的负担，同时又极大提高了检索的精确度。

步骤四：查询

对于用户提交的图像，查询过程如下

1.提取图像的SIFT特征

2.将图像特征量化为视觉关键字，并计算其汉明码

3.利用倒排索引对数据库进行检索，并按照关键字的权重对库中的图像进行加权积分。此处不同于文本搜索的是，对于一个视觉关键字，在同一张图像中只进行一次加分，即相似于图像匹配中特征一对一的对应关系，经实验，这种加权方法极大地提高了查询的准确率。

4.按图像积分对图像进行相关度排序，作为返回结果。

下面在采用上述方法建立的图像搜索系统的基础上，对本发明的检测方法进行说明：

步骤一：图像搜索

得到一张图像，需要判断其是否做过处理，将其输入到基于内容的图像检索系统中，进行搜索，系统会将与其所匹配的图像进行打分，并按照分数从高到低显示出来，排在第一位的图像即为匹配度最高的图像，将其进行存储，为下一步做准备。

在这里有一个大前提，在图像数据库充分大的前提下，所输入的图像一定能找到前景或者背景相同的图像。因为当得到一张图像，需要对其进行真假检测时，那么这张图像一定有其利用价值，所以进行搜索时，一定能搜索到其相同或者相似的图像。

步骤二：图像相减

利用软件，将上一步骤中的输入图像和存储的匹配度最高的图像调整到相同大小后，以矩阵的方式读入并进行相减，然后转换成灰度图像显示出来，观察相减后的图像，根据图像中黑白区域的分布做判断：

1.如果相减后的图像有大面积的黑色部分或者小面积的连续的黑色部分出现，并且同时有大面积的连续的白色区域出现，则可以证明两张图像中至少有一张是经过处理的。

2.如果矩阵中的非零值大量出现且充满整个矩阵，即图像上大面积都是白色区域，黑色区域很少且分布零散，则可判断两幅图像联系很小，即图像没有经过处理。

下面通过验证实验来说明本发明的方法的可行性。

实验的基础工作：本发明是在基于图像的检索系统上进行的实验，为了让效果更具说服力，选取一些具有代表性的图像，运用软件将所提取图像进行合成处理，最后选择50张作为测试集。

对图像分别作了四种不同方式的处理，并将做了处理的多张图输入检索系统中（这里没有列出各个原图像和经过处理后的各个相应图像）：

1.将原图中人物的脸部做替换

2.将原图像中的部分人物替换

3.将原图像中所有人物都覆盖

4.在原图中加人物进去

步骤一，图像搜索：将测试集中的图像输入到检索系统中，然后将匹配度最好的图像进行存储。

步骤二，图像相减：运用软件，将输入的图像与检索结果中匹配度最高的图像相减。

说明：

1.相减的前提是要求两张图像的尺寸相同，如不相同，可先统一尺寸，再进行相减。对图像尺寸进行变换时，由于放大或者压缩会影响图像的像素质量，所以相减后的图像效果会不如预想的结果好，但是影响不大。

2.相减后的图像白色为两张图像像素值不相等的部分，黑色为像素值相等的部分。

下面给出没有经过处理和经过处理的两种类型图像的结果：

1.图1为经过处理的图像的结果（顺序与上面介绍的四种处理情况相对应）：

说明：框框部分为经过处理的地方。

2．图2是未经过处理的图像的结果

说明：左图和中图两张图像是把相机固定，连续拍摄的，不通过技术手段很难分辨出两张图像的区别，然而，经过相减之后发现，两张图像相同的地方很少，这是由于光的照射发生了变化，图像每一点的像素值都发生了变化的缘故。

当得到一张图像，将其输入到基于图像检索的系统中，在图像库中的图像足够多的前提下，应该可以得到背景或者前景相同，或者极其相似的图像，利用上面介绍的方法，通过软件就可作出初步的判断：

Claims

1.一种基于图像搜索的合成图像检测方法，在已经建立了基于内容的图像检索系统的基础上进行，该图像检索系统的图像数据库已经存储有充分多图像，能够搜索到与待检测是否为合成图像的图像相同或者相似的图像，该方法包括下列步骤：

步骤一：图像搜索

步骤二：图像相减

将上一步骤中的输入的待检测图像和检索到的匹配度最高的图像调整到相同大小后，以矩阵的方式分别读入并进行相减，将相减后的图像转换成灰度图像显示出来，观察相减后的图像，然后根据图像中黑白区域的分布做判断：

a.如果相减后的图像有大面积的黑色部分或者小面积的连续的黑色部分出现，并且同时有大面积的连续的白色区域出现，则可以证明两张图像中至少有一张是经过处理的；