CN112465700A - 一种基于深度聚类的图像拼接定位装置及方法 - Google Patents

一种基于深度聚类的图像拼接定位装置及方法 Download PDF

Info

Publication number
CN112465700A
CN112465700A CN202011352178.4A CN202011352178A CN112465700A CN 112465700 A CN112465700 A CN 112465700A CN 202011352178 A CN202011352178 A CN 202011352178A CN 112465700 A CN112465700 A CN 112465700A
Authority
CN
China
Prior art keywords
image
network
feature
module
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011352178.4A
Other languages
English (en)
Other versions
CN112465700B (zh
Inventor
郭园方
卫晋杰
王蕴红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202011352178.4A priority Critical patent/CN112465700B/zh
Publication of CN112465700A publication Critical patent/CN112465700A/zh
Application granted granted Critical
Publication of CN112465700B publication Critical patent/CN112465700B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/32Indexing scheme for image data processing or generation, in general involving image mosaicing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度聚类的图像拼接定位装置,包括非对称双流网络模块以及对应的特征对齐模块,用于将大尺寸的图像输入神经网络并同时保留全局信息和局部高频信号,使不同空间的特征在后续能够进行特征融合;表征自适应模块,用于自适应的对拼接图像的区域进行分割;语义引导的特征融合模块,用于利用图像的低频语义信息对高频信息生成的结果进一步细化。本发明针对图像拼接任务设计了端到端的图像拼接定位装置,能够更有效的应对图像拼接检测任务,提高图像造假的难度。

Description

一种基于深度聚类的图像拼接定位装置及方法
技术领域
本发明属于图像处理技术领域,尤其涉及一种基于深度聚类的图像拼接定位装置及方法。
背景技术
图像拼接简单的来说就是将不同图像的区域拼接到同一张图上,通俗来讲就是P图。随着图像编辑软件的进步,图像的伪造变得越来越容易,特别是图像拼接,对图像中的信息造成了极大的扭曲。互联网上出现了越来越多的虚假图像,虚假信息的泛滥,给国家的政治、安全都造成了极大的影响。
目前,针对包括复制移动、拼接、图像修补在内传统的图像伪造方式,存在一系列伪造图像检测方法。在过去,大多数图像拼接检测和定位技术都是基于建模的方法,这些方法大多数是基于手工特征开发的,这些特征旨在建模数字图像在获取、存储过程中留下的特有痕迹,包括镜头失真、CFA伪影、传感器噪声、压缩伪影等,在过去的几年中,深度学习在许多图像处理和分析任务包括图像去噪、目标检测等中都被证明比手工特征更加有效。然而,由于图像尺寸过大、篡改信号微弱等一系列的问题,很难设计一个端到端的图像拼接定位网络。
发明内容
为了解决上述已有技术存在的不足,本发明提出一种基于深度聚类的图像拼接定位装置及方法,首先对图像的局部高频信号和全局的语义信号进行建模,输出其对应的特征;并使用双线性插值采样的方式对相应位置进行采样;然后利用基于期望最大化算法设计的表征自适应模块,将局部高频信号的特征动态的聚为两类;最后利用采样后的全局语义特征来引导细化初步的分类结果,产生最后的定位结果。本发明的具体技术方案如下:
一种基于深度聚类的图像拼接定位装置,其特征在于,包括:非对称双流网络特征提取模块、特征采样模块、表征自适应模块和特征融合模块,其中,
所述非对称双流网络特征提取模块包括局部高频信息特征构建模块和全局语义信息特征构建模块,用于将高清及以上的图像有效输入到所述装置中,并同时保留图像的局部高频信号信息和全局语义信息;
所述局部高频信息特征构建模块,采用图像块的输入方式,利用预先构建的高通滤波器,提取图像块的高频信号,使用相机源分类数据对主干网络进行预训练,保留图像的局部高频信息特征;
所述全局语义信息特征构建模块,利用语义分割的数据对主干网络进行预训练用于建模当前像素与相邻像素之间的相关关系;
所述特征采样模块用于融合所述全局语义信息特征构建模块中提取的特征;
所述表征自适应模块,基于期望最大化算法的表征自适应模块用于将所述局部高频信息特征构建模块提取出的局部高频信息特征动态的聚类为两个部分;
所述特征融合模块,用于利用所述全局语义信息特征构建模块提取的特征对所述局部高频信息特征构建模块提取的特征进行细化,并给出最后的定位结果。
进一步地,所述局部高频信息特征构建模块为和全局语义信息特征构建模块均使用全卷积神经网络。
进一步地,所述全局语义信息特征构建模块输出维度为8个通道,所述特征采样模块为基于双线性插值的特征采样模块。
进一步地,所述非对称双流网络特征提取模块中的高清图像为720P即1280x720像素。
一种基于深度聚类的图像拼接定位方法,其特征在于,包括如下步骤:
S1:构建训练数据集;
S1-1:构建利用PS或贴图技术生成的拼接图像数据集,具有像素级的标注,1表示篡改区域,0表示真实区域;
S1-2:构建相机源分类图像数据集,只需图像级别的标注,每张图像需标注拍摄相机的型号;
S2:将步骤S1-1得到的图像随机切块,记录切块的位置信息,使用预设的高通滤波器提取图像块的高频信号,输入局部高频信息特征构建网络中,获取图像块的局部高频信息特征,并对得到的特征进行二范式归一化,输出特征的大小为CN*HN*WN,CN、HN、WN分别为输出的通道数,长与宽;
S3:将步骤S1-1的整张图像进行缩放,输入到全局语义信息特征构建网络中,获取图像的全局语义特征,输出维度为M个通道,用于建模当前像素与相邻像素之间的相关关系,输出特征的大小为M*HF*WF,其中,HF、WF分别为输出的长与宽;
S4:根据步骤S2获得的局部高频信息特征进行深度迭代聚类,获得聚类中心和每个像素属于聚类中心的概率;
S5:利用步骤S2记录的位置信息对步骤S3获得的全局语义特征进行采样,通过插值缩放到与步骤S4输出的局部高频信息特征相同的长和宽,即将其大小缩放为M*HN*WN
S6:利用步骤S5获得的采样特征对步骤S4获得的结果通过卷积空间传播网络进一步细化输出最终结果;
S7:重复步骤S2-步骤S6,直到损失函数收敛,完成训练,最终固定步骤S2中的局部高频信息特征构建网络和步骤S3中的全局语义信息特征构建网络中的所有参数;
S8:图像检测;
S8-1:对于任意图像,依次提取所有图像块,利用步骤S7最终固定的局部高频信息特征构建网络的所有参数,重复执行步骤S2,得到每个图像块的高频信号特征;
S8-2:将步骤S8-1得到的所有特征拼接成完整的特征;
S8-3:利用步骤S7最终固定的全局语义信息特征构建网络中的所有参数,依次执行步骤S3至步骤S4;
S8-4:将步骤S8-3获得的全局语义特征通过双线性插值变换到与步骤S8-2拼接得到的完整的高频信号特征相同的长宽;
S8-5:将步骤S8-4的结果执行步骤S6即得到最终的检测结果。
进一步地,所述步骤S2中的局部高频信息特征构建网络为具有22层空洞卷积网络作为主干网络的全卷积神经网络中,所述步骤S3中的全局语义信息特征构建网络为具有56层空洞卷积网络作为主干网络的全卷积神经网络。
进一步地,所述步骤S4中基于期望最大化算法构建能够进行反向传播的聚类算法,通过余弦相似度估计样本之间的距离。
进一步地,所述步骤S4中的优化目标函数J为:
Figure BDA0002801622610000031
其中,znk代表观测数据fn属于第k类的概率,fn表示从步骤S2中提取的高频信号特征,μk为第k个聚类中心,
Figure BDA0002801622610000032
为μk的转置,n为输出像素特征的编号,N=HN*WN为输出的特征的个数,k为聚类中心的编号,k=1……K,K为总的聚类中心的个数;
聚类过程为:
S4-1:使用高斯分布对聚类中心向量U={μ1;μ2;...;μk;...μK}进行随机初始化,其中
Figure BDA0002801622610000041
通过重复的迭代步骤S4-2和步骤S4-3优化聚类中心μk,并计算相应的隐变量znk
S4-2:计算每个样本点属于每个聚类中心的期望出znk:
Figure BDA0002801622610000042
其中,λ为控制多项式分布的超参数,l为输出特征的像素的索引,fl为步骤S2输出的特征中第l个像素的特征;
S4-3:重新更新U,U通过最大化目标函数获得,通过代入步骤S4-2计算出的znk并计算目标函数的偏导数并使其为0,更新公式为:
Figure BDA0002801622610000043
S4-4:重复步骤S4-2至步骤S4-3直到目标函数收敛或者到达最大迭代次数。
进一步地,所述步骤S6中的细化过程为:
Figure BDA0002801622610000044
其中,
Figure BDA0002801622610000045
Figure BDA0002801622610000046
其中,
Figure BDA0002801622610000047
代表由高频信号网络生成的聚类结果,Hi,j,t为聚类结果(i,j)位置第t轮迭代结果的值,
Figure BDA0002801622610000048
是从全局语义网络获得的转化矩阵,
Figure BDA0002801622610000049
为转换矩阵a,b位置的值,κi,j(a,b)为归一化后的转换矩阵(a,b)位置的值,κi,j(0,0)为计算出的转换矩阵中心位置的加权,⊙代表元素级别的乘法操作,a,b和i,j均为特征图上的像素坐标索引,t为迭代的轮数,p为卷积核的大小。
进一步地,所述步骤S7中损失函数为针对聚类设计的二元交叉熵损失函数,具体为:
Figure BDA0002801622610000051
其中,
Figure BDA0002801622610000052
yi∈{0,1},
Figure BDA0002801622610000053
定义为:
Figure BDA0002801622610000054
其中,
Figure BDA0002801622610000055
为步骤S6的输出结果,Y为步骤S1-1获得的图像的像素级别的标注,
Figure BDA0002801622610000056
Y={y1;y2;…yn},n为输出像素特征的编号,yn表示第n个预测结果,
Figure BDA0002801622610000057
表示第n个像素级标注。
本发明的有益效果在于:
1.本发明的非对称的双流网络可以解决高清图像难以输入神经网络的问题。
2.本发明设计的表征自适应模块可以将聚类过程引入神经网络并进行端到端的优化,实现了对拼接图像端到端的检测;
3.本发明可以对拼接图像的拼接位置进行定位。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。其中:
图1是本发明的基于深度聚类的图像拼接定位装置结构图;
图2是本发明的基于深度聚类的图像拼接定位方法的训练过程示意图;
图3是本发明中高通滤波器所采用的参数;
图4是本发明的基于深度聚类的图像拼接定位方法的测试过程示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
如图1所示,一种基于深度聚类的图像拼接定位装置,包括:非对称双流网络特征提取模块、特征采样模块、表征自适应模块和特征融合模块,其中,
所述非对称双流网络特征提取模块包括局部高频信息特征构建模块和全局语义信息特征构建模块,用于将高清及以上的图像有效输入到所述装置中,并同时保留图像的局部高频信号信息和全局语义信息;
所述局部高频信息特征构建模块,采用图像块的输入方式,利用预先构建的高通滤波器,提取图像块的高频信号,使用相机源分类数据对主干网络进行预训练,保留图像的局部高频信息特征;
所述全局语义信息特征构建模块,利用语义分割的数据对主干网络进行预训练,用于建模当前像素与相邻像素之间的相关关系;
所述特征采样模块用于融合所述全局语义信息特征构建模块中提取的特征
所述表征自适应模块,基于期望最大化算法的表征自适应模块用于将所述局部高频信息特征构建模块提取出的局部高频信息特征动态的聚类为两个部分;
所述特征融合模块,用于利用所述全局语义信息特征构建模块提取的特征对所述局部高频信息特征构建模块提取的特征进行细化,并给出最后的定位结果。
较佳地,所述全局语义信息特征构建模块输出维度为8个通道,所述特征采样模块为基于双线性插值的特征采样模块。
较佳地,所述局部高频信息特征构建模块为和全局语义信息特征构建模块均使用全卷积神经网络。
较佳地,所述非对称双流网络特征提取模块中的高清图像为720P即1280x720像素。
如图2所示,一种基于深度聚类的图像拼接定位方法,包括如下步骤:
S1:构建训练数据集;
S1-1:构建利用PS或贴图技术生成的拼接图像数据集,具有像素级的标注,1表示篡改区域,0表示真实区域;
S1-2:构建相机源分类图像数据集,只需图像级别的标注,每张图像需标注拍摄相机的型号;
S2:将步骤S1-1得到的图像随机切块,记录切块的位置信息,使用预设的高通滤波器(如图3所示)提取图像块的高频信号,输入局部高频信息特征构建网络中,获取图像块的局部高频信息特征,并对得到的特征进行二范式归一化,输出特征的大小为CN*HN*WN,CN、HN、WN分别为输出的通道数,长与宽;
S3:将步骤S1-1的整张图像进行缩放,输入到全局语义信息特征构建网络中,获取图像的全局语义特征,输出维度为M个通道,用于建模当前像素与相邻像素之间的相关关系,输出特征的大小为M*HF*WF,其中,HF、WF分别为输出的长与宽;
S4:根据步骤S2获得的局部高频信息特征进行深度迭代聚类,获得聚类中心和每个像素属于聚类中心的概率;
S5:利用步骤S2记录的位置信息对步骤S3获得的全局语义特征进行采样,通过插值缩放到与步骤S4输出的局部高频信息特征相同的长和宽,即将其大小缩放为8*HN*WN
S6:利用步骤S5获得的采样特征对步骤S4获得的结果通过卷积空间传播网络进一步细化输出最终结果;
S7:重复步骤S2-步骤S6,直到损失函数收敛,完成训练,最终固定步骤S2中的局部高频信息特征构建网络和步骤S3中的全局语义信息特征构建网络中的所有参数;
S8:图像检测;如图4所示;
S8-1:对于任意图像,依次提取所有图像块,利用步骤S7最终固定的局部高频信息特征构建网络的所有参数,重复执行步骤S2,得到每个图像块的高频信号特征;
S8-2:将步骤S8-1得到的所有特征拼接成完整的特征;
S8-3:利用步骤S7最终固定的全局语义信息特征构建网络中的所有参数,依次执行步骤S3至步骤S4;
S8-4:将步骤S8-3获得的全局语义特征通过双线性插值变换到与步骤S8-2拼接得到的完整的高频信号特征相同的长宽;
S8-5:将步骤S8-4的结果执行步骤S6即得到最终的检测结果。
在一些实施方式中,所述步骤S2中的局部高频信息特征构建网络为具有22层空洞卷积网络作为主干网络的全卷积神经网络中,所述步骤S3中的全局语义信息特征构建网络为具有56层空洞卷积网络作为主干网络的全卷积神经网络。
在一些实施方式中,所述步骤S4中基于期望最大化算法构建能够进行反向传播的聚类算法,通过余弦相似度估计样本之间的距离。
在一些实施方式中,所述步骤S4中的优化目标函数J为:
Figure BDA0002801622610000081
其中,znk代表观测数据fn属于第k类的概率,fn表示从步骤S2中提取的高频信号特征,μk为第k个聚类中心,
Figure BDA0002801622610000082
为μk的转置,n为输出像素特征的编号,N=HN*WN为输出的特征的个数,k为聚类中心的编号,k=1……K,K为总的聚类中心的个数;
聚类过程为:
S4-1:使用高斯分布对聚类中心向量U={μ1;μ2;…;μk;…μK}进行随机初始化,其中
Figure BDA0002801622610000083
通过重复的迭代步骤S4-2和步骤S4-3优化聚类中心μk,并计算相应的隐变量znk
S4-2:计算每个样本点属于每个聚类中心的期望出znk:
Figure BDA0002801622610000084
其中,λ为控制多项式分布的超参数,l为输出特征的像素的索引,fl为步骤S2输出的特征中第l个像素的特征;
S4-3:重新更新U,U通过最大化目标函数获得,通过代入步骤S4-2计算出的znk并计算目标函数的偏导数并使其为0,更新公式为:
Figure BDA0002801622610000085
S4-4:重复步骤S4-2至步骤S4-3直到目标函数收敛或者到达最大迭代次数。
在一些实施方式中,所述步骤S6中的细化过程为:
Figure BDA0002801622610000086
其中,
Figure BDA0002801622610000087
Figure BDA0002801622610000088
其中,
Figure BDA0002801622610000089
代表由高频信号网络生成的聚类结果,Hi,j,t为聚类结果(i,j)位置第t轮迭代结果的值,
Figure BDA0002801622610000091
是从全局语义网络获得的转化矩阵,
Figure BDA0002801622610000092
为转换矩阵a,b位置的值,κi,j(a,b)为归一化后的转换矩阵(a,b)位置的值,κi,j(0,0)为计算出的转换矩阵中心位置的加权,⊙代表元素级别的乘法操作,a,b和i,j均为特征图上的像素坐标索引,t为迭代的轮数,p为卷积核的大小。
在一些实施方式中,所述步骤S7中损失函数为针对聚类设计的二元交叉熵损失函数,具体为:
Figure BDA0002801622610000093
其中,
Figure BDA0002801622610000094
yi∈{0,1},
Figure BDA0002801622610000095
定义为:
Figure BDA0002801622610000096
其中,
Figure BDA0002801622610000097
为步骤S6的输出结果,Y为步骤S1-1获得的图像的像素级别的标注,
Figure BDA0002801622610000098
Y={y1;y2;…yn},n为输出像素特征的编号,yn表示第n个预测结果,
Figure BDA0002801622610000099
表示第n个像素级标注。
较佳地,所述步骤S6中迭代的轮数t设置为10,卷积核的大小p设置为3。
较佳地,所述步骤S4-4中的最大迭代次数设置为10。
为了验证本发明的有效性和实用性,以MFC18作为训练数据集(1875张),依照步骤S1-步骤S7训练模型,使用Adam作为模型的优化器,学习率设定为0.001,使用训练数据的90%训练模型,10%用作验证模型,共训练100次迭代,每20次迭代学习率衰减为原来的1/10,最终保存验证集评测指标最好的模型作为最终结果。
使用Columbia和DSO-1数据集进行模型评估,评估数据集分别包含100和220张拼接伪造图像,利用训练好的模型按照上述步骤S8进行评估,并与真实标签进行比较,其中Columbia数据集的F1指数为0.88,MCC指数为0.89,DSO-1数据集的F1指数为0.63,MCC指数为0.45,属于较好的结果,说明本发明有效可行。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于深度聚类的图像拼接定位装置,其特征在于,包括:非对称双流网络特征提取模块、特征采样模块、表征自适应模块和特征融合模块,其中,
所述非对称双流网络特征提取模块包括局部高频信息特征构建模块和全局语义信息特征构建模块,用于将高清及以上的图像有效输入到所述装置中,并同时保留图像的局部高频信号信息和全局语义信息;
所述局部高频信息特征构建模块,采用图像块的输入方式,利用预先构建的高通滤波器,提取图像块的高频信号,使用相机源分类数据对主干网络进行预训练,保留图像的局部高频信息特征;
所述全局语义信息特征构建模块,利用语义分割的数据对主干网络进行预训练用于建模当前像素与相邻像素之间的相关关系;
所述特征采样模块用于融合所述全局语义信息特征构建模块中提取的特征;
所述表征自适应模块,基于期望最大化算法的表征自适应模块用于将所述局部高频信息特征构建模块提取出的局部高频信息特征动态的聚类为两个部分;
所述特征融合模块,用于利用所述全局语义信息特征构建模块提取的特征对所述局部高频信息特征构建模块提取的特征进行细化,并给出最后的定位结果。
2.根据权利要求1所述的一种基于深度聚类的图像拼接定位装置,其特征在于,所述局部高频信息特征构建模块为和全局语义信息特征构建模块均使用全卷积神经网络。
3.根据权利要求1或2所述的一种基于深度聚类的图像拼接定位装置,其特征在于,所述全局语义信息特征构建模块输出维度为8个通道,所述特征采样模块为基于双线性插值的特征采样模块。
4.根据权利要求1或2所述的一种基于深度聚类的图像拼接定位装置,其特征在于,所述非对称双流网络特征提取模块中的高清图像为720P即1280x720像素。
5.一种基于深度聚类的图像拼接定位方法,其特征在于,包括如下步骤:
S1:构建训练数据集;
S1-1:构建利用PS或贴图技术生成的拼接图像数据集,具有像素级的标注,1表示篡改区域,0表示真实区域;
S1-2:构建相机源分类图像数据集,只需图像级别的标注,每张图像需标注拍摄相机的型号;
S2:将步骤S1-1得到的图像随机切块,记录切块的位置信息,使用预设的高通滤波器提取图像块的高频信号,输入局部高频信息特征构建网络中,获取图像块的局部高频信息特征,并对得到的特征进行二范式归一化,输出特征的大小为CN*HN*WN,CN、HN、WN分别为输出的通道数,长与宽;
S3:将步骤S1-1的整张图像进行缩放,输入到全局语义信息特征构建网络中,获取图像的全局语义特征,输出维度为M个通道,用于建模当前像素与相邻像素之间的相关关系,输出特征的大小为M*HF*WF,其中,HF、WF分别为输出的长与宽;
S4:根据步骤S2获得的局部高频信息特征进行深度迭代聚类,获得聚类中心和每个像素属于聚类中心的概率;
S5:利用步骤S2记录的位置信息对步骤S3获得的全局语义特征进行采样,通过插值缩放到与步骤S4输出的局部高频信息特征相同的长和宽,即将其大小缩放为M*HN*WN
S6:利用步骤S5获得的采样特征对步骤S4获得的结果通过卷积空间传播网络进一步细化输出最终结果;
S7:重复步骤S2-步骤S6,直到损失函数收敛,完成训练,最终固定步骤S2中的局部高频信息特征构建网络和步骤S3中的全局语义信息特征构建网络中的所有参数;
S8:图像检测;
S8-1:对于任意图像,依次提取所有图像块,利用步骤S7最终固定的局部高频信息特征构建网络的所有参数,重复执行步骤S2,得到每个图像块的高频信号特征;
S8-2:将步骤S8-1得到的所有特征拼接成完整的特征;
S8-3:利用步骤S7最终固定的全局语义信息特征构建网络中的所有参数,依次执行步骤S3至步骤S4;
S8-4:将步骤S8-3获得的全局语义特征通过双线性插值变换到与步骤S8-2拼接得到的完整的高频信号特征相同的长宽;
S8-5:将步骤S8-4的结果执行步骤S6即得到最终的检测结果。
6.根据权利要求5所述的一种基于深度聚类的图像拼接定位方法,其特征在于,所述步骤S2中的局部高频信息特征构建网络为具有22层空洞卷积网络作为主干网络的全卷积神经网络中,所述步骤S3中的全局语义信息特征构建网络为具有56层空洞卷积网络作为主干网络的全卷积神经网络。
7.根据权利要求5所述的一种基于深度聚类的图像拼接定位方法,其特征在于,所述步骤S4中基于期望最大化算法构建能够进行反向传播的聚类算法,通过余弦相似度估计样本之间的距离。
8.根据权利要求5或6所述的一种基于深度聚类的图像拼接定位方法,其特征在于,所述步骤S4中的优化目标函数J为:
Figure FDA0002801622600000031
其中,znk代表观测数据fn属于第k类的概率,fn表示从步骤S2中提取的高频信号特征,μk为第k个聚类中心,
Figure FDA0002801622600000032
为μk的转置,n为输出像素特征的编号,N=HN*WN为输出的特征的个数,k为聚类中心的编号,k=1......K,K为总的聚类中心的个数;
聚类过程为:
S4-1:使用高斯分布对聚类中心向量U={μ1;μ2;…;μk;…μK}进行随机初始化,其中
Figure FDA0002801622600000033
Figure FDA0002801622600000034
通过重复的迭代步骤S4-2和步骤S4-3优化聚类中心μk,并计算相应的隐变量znk
S4-2:计算每个样本点属于每个聚类中心的期望出znk
Figure FDA0002801622600000035
其中,λ为控制多项式分布的超参数,l为输出特征的像素的索引,fl为步骤S2输出的特征中第l个像素的特征;
S4-3:重新更新U,U通过最大化目标函数获得,通过代入步骤S4-2计算出的znk并计算目标函数的偏导数并使其为0,更新公式为:
Figure FDA0002801622600000036
S4-4:重复步骤S4-2至步骤S4-3直到目标函数收敛或者到达最大迭代次数。
9.根据权利要求5所述的一种基于深度聚类的图像拼接定位方法,其特征在于,所述步骤S6中的细化过程为:
Figure FDA0002801622600000037
其中,
Figure FDA0002801622600000038
Figure FDA0002801622600000039
其中,
Figure FDA00028016226000000310
代表由高频信号网络生成的聚类结果,Hi,j,t为聚类结果(i,j)位置第t轮迭代结果的值,
Figure FDA00028016226000000311
是从全局语义网络获得的转化矩阵,
Figure FDA00028016226000000312
为转换矩阵a,b位置的值,κi,j(a,b)为归一化后的转换矩阵(a,b)位置的值,κi,j(0,0)为计算出的转换矩阵中心位置的加权,⊙代表元素级别的乘法操作,a,b和i,j均为特征图上的像素坐标索引,t为迭代的轮数,p为卷积核的大小。
10.根据权利要求5所述的一种基于深度聚类的图像拼接定位方法,其特征在于,所述步骤S7中损失函数为针对聚类设计的二元交叉熵损失函数,具体为:
Figure FDA0002801622600000041
其中,
Figure FDA0002801622600000042
yi∈{0,1},
Figure FDA0002801622600000043
定义为:
Figure FDA0002801622600000044
其中,
Figure FDA0002801622600000045
为步骤S6的输出结果,Y为步骤S1-1获得的图像的像素级别的标注,
Figure FDA0002801622600000046
Figure FDA0002801622600000047
Y={y1;y2;…yn},n为输出像素特征的编号,yn表示第n个预测结果,
Figure FDA0002801622600000048
表示第n个像素级标注。
CN202011352178.4A 2020-11-26 2020-11-26 一种基于深度聚类的图像拼接定位装置及方法 Active CN112465700B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011352178.4A CN112465700B (zh) 2020-11-26 2020-11-26 一种基于深度聚类的图像拼接定位装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011352178.4A CN112465700B (zh) 2020-11-26 2020-11-26 一种基于深度聚类的图像拼接定位装置及方法

Publications (2)

Publication Number Publication Date
CN112465700A true CN112465700A (zh) 2021-03-09
CN112465700B CN112465700B (zh) 2022-04-26

Family

ID=74808018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011352178.4A Active CN112465700B (zh) 2020-11-26 2020-11-26 一种基于深度聚类的图像拼接定位装置及方法

Country Status (1)

Country Link
CN (1) CN112465700B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113112518A (zh) * 2021-04-19 2021-07-13 深圳思谋信息科技有限公司 基于拼接图像的特征提取器生成方法、装置和计算机设备
WO2023109709A1 (zh) * 2021-12-15 2023-06-22 深圳先进技术研究院 一种基于注意力机制的图像拼接定位检测方法
CN116469132A (zh) * 2023-06-20 2023-07-21 济南瑞泉电子有限公司 基于双流特征提取的跌倒检测方法、系统、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157319A (zh) * 2016-07-28 2016-11-23 哈尔滨工业大学 基于卷积神经网络的区域和像素级融合的显著性检测方法
CN109086777A (zh) * 2018-07-09 2018-12-25 南京师范大学 一种基于全局像素特征的显著图精细化方法
CN109902748A (zh) * 2019-03-04 2019-06-18 中国计量大学 一种基于多层信息融合全卷积神经网络的图像语义分割方法
US20200242153A1 (en) * 2019-01-29 2020-07-30 Samsung Electronics Co., Ltd. Method, apparatus, electronic device and computer readable storage medium for image searching
CN111882002A (zh) * 2020-08-06 2020-11-03 桂林电子科技大学 一种基于msf-am的低照度目标检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157319A (zh) * 2016-07-28 2016-11-23 哈尔滨工业大学 基于卷积神经网络的区域和像素级融合的显著性检测方法
CN109086777A (zh) * 2018-07-09 2018-12-25 南京师范大学 一种基于全局像素特征的显著图精细化方法
US20200242153A1 (en) * 2019-01-29 2020-07-30 Samsung Electronics Co., Ltd. Method, apparatus, electronic device and computer readable storage medium for image searching
CN109902748A (zh) * 2019-03-04 2019-06-18 中国计量大学 一种基于多层信息融合全卷积神经网络的图像语义分割方法
CN111882002A (zh) * 2020-08-06 2020-11-03 桂林电子科技大学 一种基于msf-am的低照度目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李晓龙 等: "深度学习在航拍场景分类中的应用", 《计算机科学与探索》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113112518A (zh) * 2021-04-19 2021-07-13 深圳思谋信息科技有限公司 基于拼接图像的特征提取器生成方法、装置和计算机设备
CN113112518B (zh) * 2021-04-19 2024-03-26 深圳思谋信息科技有限公司 基于拼接图像的特征提取器生成方法、装置和计算机设备
WO2023109709A1 (zh) * 2021-12-15 2023-06-22 深圳先进技术研究院 一种基于注意力机制的图像拼接定位检测方法
CN116469132A (zh) * 2023-06-20 2023-07-21 济南瑞泉电子有限公司 基于双流特征提取的跌倒检测方法、系统、设备及介质
CN116469132B (zh) * 2023-06-20 2023-09-05 济南瑞泉电子有限公司 基于双流特征提取的跌倒检测方法、系统、设备及介质

Also Published As

Publication number Publication date
CN112465700B (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
CN112465700B (zh) 一种基于深度聚类的图像拼接定位装置及方法
CN115063373A (zh) 基于多尺度特征智能感知的社交网络图像篡改定位方法
Yin et al. Attention-guided siamese networks for change detection in high resolution remote sensing images
CN112434599B (zh) 一种基于噪声通道的随机遮挡恢复的行人重识别方法
CN107909560A (zh) 一种基于SiR的多聚焦图像融合方法及系统
Liu et al. D-unet: a dual-encoder u-net for image splicing forgery detection and localization
CN116342601B (zh) 基于边缘引导和多层级搜索的图像篡改检测方法
CN116958782A (zh) 一种红外与可见光特征融合的弱小目标检测方法及装置
CN115063786A (zh) 一种高位远景模糊车牌检测方法
CN115019039A (zh) 一种结合自监督和全局信息增强的实例分割方法及系统
CN116524189A (zh) 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法
CN115170933A (zh) 基于双流深度神经网络的数字图像伪造区域定位方法
Liu et al. Image forgery localization based on fully convolutional network with noise feature
CN115222750A (zh) 基于多尺度融合注意力的遥感图像分割方法及系统
CN115393698A (zh) 一种基于改进dpn网络的数字图像篡改检测方法
CN114359102A (zh) 一种基于注意力机制与边缘引导的图像深度修复取证方法
CN111612803B (zh) 一种基于图像清晰度的车辆图像语义分割方法
CN113496221A (zh) 基于深度双边滤波的点监督遥感图像语义分割方法及系统
Charitidis et al. Operation-wise attention network for tampering localization fusion
CN115512428B (zh) 一种人脸活体判别方法、系统、装置和存储介质
Dai et al. DS‐Net: Dual supervision neural network for image manipulation localization
Hao et al. EC-Net: General image tampering localization network based on edge distribution guidance and contrastive learning
Shao et al. An Adversarial sample defense method based on multi-scale GAN
CN108364256A (zh) 一种基于四元数小波变换的图像拼接检测方法
Atamna et al. Improving Generalization in Facial Manipulation Detection Using Image Noise Residuals and Temporal Features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant