CN112465700A

CN112465700A - 一种基于深度聚类的图像拼接定位装置及方法

Info

Publication number: CN112465700A
Application number: CN202011352178.4A
Authority: CN
Inventors: 郭园方; 卫晋杰; 王蕴红
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-03-09
Anticipated expiration: 2040-11-26
Also published as: CN112465700B

Abstract

本发明公开了一种基于深度聚类的图像拼接定位装置，包括非对称双流网络模块以及对应的特征对齐模块，用于将大尺寸的图像输入神经网络并同时保留全局信息和局部高频信号，使不同空间的特征在后续能够进行特征融合；表征自适应模块，用于自适应的对拼接图像的区域进行分割；语义引导的特征融合模块，用于利用图像的低频语义信息对高频信息生成的结果进一步细化。本发明针对图像拼接任务设计了端到端的图像拼接定位装置，能够更有效的应对图像拼接检测任务，提高图像造假的难度。

Description

一种基于深度聚类的图像拼接定位装置及方法

技术领域

本发明属于图像处理技术领域，尤其涉及一种基于深度聚类的图像拼接定位装置及方法。

背景技术

图像拼接简单的来说就是将不同图像的区域拼接到同一张图上，通俗来讲就是P图。随着图像编辑软件的进步，图像的伪造变得越来越容易，特别是图像拼接，对图像中的信息造成了极大的扭曲。互联网上出现了越来越多的虚假图像，虚假信息的泛滥，给国家的政治、安全都造成了极大的影响。

目前，针对包括复制移动、拼接、图像修补在内传统的图像伪造方式，存在一系列伪造图像检测方法。在过去，大多数图像拼接检测和定位技术都是基于建模的方法，这些方法大多数是基于手工特征开发的，这些特征旨在建模数字图像在获取、存储过程中留下的特有痕迹，包括镜头失真、CFA伪影、传感器噪声、压缩伪影等，在过去的几年中，深度学习在许多图像处理和分析任务包括图像去噪、目标检测等中都被证明比手工特征更加有效。然而，由于图像尺寸过大、篡改信号微弱等一系列的问题，很难设计一个端到端的图像拼接定位网络。

发明内容

为了解决上述已有技术存在的不足，本发明提出一种基于深度聚类的图像拼接定位装置及方法，首先对图像的局部高频信号和全局的语义信号进行建模，输出其对应的特征；并使用双线性插值采样的方式对相应位置进行采样；然后利用基于期望最大化算法设计的表征自适应模块，将局部高频信号的特征动态的聚为两类；最后利用采样后的全局语义特征来引导细化初步的分类结果，产生最后的定位结果。本发明的具体技术方案如下：

一种基于深度聚类的图像拼接定位装置，其特征在于，包括：非对称双流网络特征提取模块、特征采样模块、表征自适应模块和特征融合模块，其中，

所述非对称双流网络特征提取模块包括局部高频信息特征构建模块和全局语义信息特征构建模块，用于将高清及以上的图像有效输入到所述装置中，并同时保留图像的局部高频信号信息和全局语义信息；

所述局部高频信息特征构建模块，采用图像块的输入方式，利用预先构建的高通滤波器，提取图像块的高频信号，使用相机源分类数据对主干网络进行预训练，保留图像的局部高频信息特征；

所述全局语义信息特征构建模块，利用语义分割的数据对主干网络进行预训练用于建模当前像素与相邻像素之间的相关关系；

所述特征采样模块用于融合所述全局语义信息特征构建模块中提取的特征；

所述表征自适应模块，基于期望最大化算法的表征自适应模块用于将所述局部高频信息特征构建模块提取出的局部高频信息特征动态的聚类为两个部分；

所述特征融合模块，用于利用所述全局语义信息特征构建模块提取的特征对所述局部高频信息特征构建模块提取的特征进行细化，并给出最后的定位结果。

进一步地，所述局部高频信息特征构建模块为和全局语义信息特征构建模块均使用全卷积神经网络。

进一步地，所述全局语义信息特征构建模块输出维度为8个通道，所述特征采样模块为基于双线性插值的特征采样模块。

进一步地，所述非对称双流网络特征提取模块中的高清图像为720P即1280x720像素。

一种基于深度聚类的图像拼接定位方法，其特征在于，包括如下步骤：

S1:构建训练数据集；

S1-1：构建利用PS或贴图技术生成的拼接图像数据集，具有像素级的标注，1表示篡改区域，0表示真实区域；

S1-2：构建相机源分类图像数据集，只需图像级别的标注，每张图像需标注拍摄相机的型号；

S2:将步骤S1-1得到的图像随机切块，记录切块的位置信息，使用预设的高通滤波器提取图像块的高频信号，输入局部高频信息特征构建网络中，获取图像块的局部高频信息特征，并对得到的特征进行二范式归一化，输出特征的大小为C_N*H_N*W_N，C_N、H_N、W_N分别为输出的通道数，长与宽；

S3:将步骤S1-1的整张图像进行缩放，输入到全局语义信息特征构建网络中，获取图像的全局语义特征，输出维度为M个通道，用于建模当前像素与相邻像素之间的相关关系，输出特征的大小为M*H_F*W_F，其中，H_F、W_F分别为输出的长与宽；

S4:根据步骤S2获得的局部高频信息特征进行深度迭代聚类，获得聚类中心和每个像素属于聚类中心的概率；

S5:利用步骤S2记录的位置信息对步骤S3获得的全局语义特征进行采样，通过插值缩放到与步骤S4输出的局部高频信息特征相同的长和宽，即将其大小缩放为M*H_N*W_N；

S6:利用步骤S5获得的采样特征对步骤S4获得的结果通过卷积空间传播网络进一步细化输出最终结果；

S7：重复步骤S2-步骤S6，直到损失函数收敛，完成训练，最终固定步骤S2中的局部高频信息特征构建网络和步骤S3中的全局语义信息特征构建网络中的所有参数；

S8：图像检测；

S8-1：对于任意图像，依次提取所有图像块，利用步骤S7最终固定的局部高频信息特征构建网络的所有参数，重复执行步骤S2，得到每个图像块的高频信号特征；

S8-2：将步骤S8-1得到的所有特征拼接成完整的特征；

S8-3：利用步骤S7最终固定的全局语义信息特征构建网络中的所有参数，依次执行步骤S3至步骤S4；

S8-4：将步骤S8-3获得的全局语义特征通过双线性插值变换到与步骤S8-2拼接得到的完整的高频信号特征相同的长宽；

S8-5：将步骤S8-4的结果执行步骤S6即得到最终的检测结果。

进一步地，所述步骤S2中的局部高频信息特征构建网络为具有22层空洞卷积网络作为主干网络的全卷积神经网络中，所述步骤S3中的全局语义信息特征构建网络为具有56层空洞卷积网络作为主干网络的全卷积神经网络。

进一步地，所述步骤S4中基于期望最大化算法构建能够进行反向传播的聚类算法，通过余弦相似度估计样本之间的距离。

进一步地，所述步骤S4中的优化目标函数J为：

其中，z_nk代表观测数据f_n属于第k类的概率，f_n表示从步骤S2中提取的高频信号特征，μ_k为第k个聚类中心，

为μ_k的转置，n为输出像素特征的编号，N＝H_N*W_N为输出的特征的个数，k为聚类中心的编号，k＝1……K，K为总的聚类中心的个数；

聚类过程为：

S4-1:使用高斯分布对聚类中心向量U＝{μ₁；μ₂；...；μ_k；...μ_K}进行随机初始化，其中

通过重复的迭代步骤S4-2和步骤S4-3优化聚类中心μ_k，并计算相应的隐变量z_nk；

S4-2:计算每个样本点属于每个聚类中心的期望出z_nk:

其中，λ为控制多项式分布的超参数，l为输出特征的像素的索引，f_l为步骤S2输出的特征中第l个像素的特征；

S4-3:重新更新U，U通过最大化目标函数获得，通过代入步骤S4-2计算出的z_nk并计算目标函数的偏导数并使其为0，更新公式为：

S4-4:重复步骤S4-2至步骤S4-3直到目标函数收敛或者到达最大迭代次数。

进一步地，所述步骤S6中的细化过程为：

其中，

其中，

代表由高频信号网络生成的聚类结果，H_i,j,t为聚类结果(i,j)位置第t轮迭代结果的值，

是从全局语义网络获得的转化矩阵，

为转换矩阵a,b位置的值，κ_i,j(a,b)为归一化后的转换矩阵(a,b)位置的值，κ_i,j(0,0)为计算出的转换矩阵中心位置的加权，⊙代表元素级别的乘法操作，a,b和i,j均为特征图上的像素坐标索引，t为迭代的轮数，p为卷积核的大小。

进一步地，所述步骤S7中损失函数为针对聚类设计的二元交叉熵损失函数，具体为：

其中，

y_i∈{0,1}，

定义为：

其中，

为步骤S6的输出结果，Y为步骤S1-1获得的图像的像素级别的标注，

Y＝{y₁；y₂；…y_n}，n为输出像素特征的编号,y_n表示第n个预测结果，

表示第n个像素级标注。

本发明的有益效果在于：

1.本发明的非对称的双流网络可以解决高清图像难以输入神经网络的问题。

2.本发明设计的表征自适应模块可以将聚类过程引入神经网络并进行端到端的优化，实现了对拼接图像端到端的检测；

3.本发明可以对拼接图像的拼接位置进行定位。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他的附图。其中：

图1是本发明的基于深度聚类的图像拼接定位装置结构图；

图2是本发明的基于深度聚类的图像拼接定位方法的训练过程示意图；

图3是本发明中高通滤波器所采用的参数；

图4是本发明的基于深度聚类的图像拼接定位方法的测试过程示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

如图1所示，一种基于深度聚类的图像拼接定位装置，包括：非对称双流网络特征提取模块、特征采样模块、表征自适应模块和特征融合模块，其中，

所述全局语义信息特征构建模块，利用语义分割的数据对主干网络进行预训练，用于建模当前像素与相邻像素之间的相关关系；

所述特征采样模块用于融合所述全局语义信息特征构建模块中提取的特征

较佳地，所述全局语义信息特征构建模块输出维度为8个通道，所述特征采样模块为基于双线性插值的特征采样模块。

较佳地，所述局部高频信息特征构建模块为和全局语义信息特征构建模块均使用全卷积神经网络。

较佳地，所述非对称双流网络特征提取模块中的高清图像为720P即1280x720像素。

如图2所示，一种基于深度聚类的图像拼接定位方法，包括如下步骤：

S1:构建训练数据集；

S2:将步骤S1-1得到的图像随机切块，记录切块的位置信息，使用预设的高通滤波器(如图3所示)提取图像块的高频信号，输入局部高频信息特征构建网络中，获取图像块的局部高频信息特征，并对得到的特征进行二范式归一化，输出特征的大小为C_N*H_N*W_N，C_N、H_N、W_N分别为输出的通道数，长与宽；

S5:利用步骤S2记录的位置信息对步骤S3获得的全局语义特征进行采样，通过插值缩放到与步骤S4输出的局部高频信息特征相同的长和宽，即将其大小缩放为8*H_N*W_N；

S8：图像检测；如图4所示；

S8-2：将步骤S8-1得到的所有特征拼接成完整的特征；

S8-5：将步骤S8-4的结果执行步骤S6即得到最终的检测结果。

在一些实施方式中，所述步骤S2中的局部高频信息特征构建网络为具有22层空洞卷积网络作为主干网络的全卷积神经网络中，所述步骤S3中的全局语义信息特征构建网络为具有56层空洞卷积网络作为主干网络的全卷积神经网络。

在一些实施方式中，所述步骤S4中基于期望最大化算法构建能够进行反向传播的聚类算法，通过余弦相似度估计样本之间的距离。

在一些实施方式中，所述步骤S4中的优化目标函数J为：

聚类过程为：

S4-1:使用高斯分布对聚类中心向量U＝{μ₁；μ₂；…；μ_k；…μ_K}进行随机初始化，其中

S4-2:计算每个样本点属于每个聚类中心的期望出z_nk:

在一些实施方式中，所述步骤S6中的细化过程为：

其中，

其中，

是从全局语义网络获得的转化矩阵，

在一些实施方式中，所述步骤S7中损失函数为针对聚类设计的二元交叉熵损失函数，具体为：

其中，

y_i∈{0,1}，

定义为：

其中，

表示第n个像素级标注。

较佳地，所述步骤S6中迭代的轮数t设置为10，卷积核的大小p设置为3。

较佳地，所述步骤S4-4中的最大迭代次数设置为10。

为了验证本发明的有效性和实用性，以MFC18作为训练数据集(1875张)，依照步骤S1-步骤S7训练模型，使用Adam作为模型的优化器，学习率设定为0.001，使用训练数据的90％训练模型，10％用作验证模型，共训练100次迭代，每20次迭代学习率衰减为原来的1/10，最终保存验证集评测指标最好的模型作为最终结果。

使用Columbia和DSO-1数据集进行模型评估，评估数据集分别包含100和220张拼接伪造图像，利用训练好的模型按照上述步骤S8进行评估，并与真实标签进行比较，其中Columbia数据集的F1指数为0.88，MCC指数为0.89，DSO-1数据集的F1指数为0.63，MCC指数为0.45，属于较好的结果，说明本发明有效可行。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。