CN112465700A - 一种基于深度聚类的图像拼接定位装置及方法 - Google Patents
一种基于深度聚类的图像拼接定位装置及方法 Download PDFInfo
- Publication number
- CN112465700A CN112465700A CN202011352178.4A CN202011352178A CN112465700A CN 112465700 A CN112465700 A CN 112465700A CN 202011352178 A CN202011352178 A CN 202011352178A CN 112465700 A CN112465700 A CN 112465700A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- feature
- module
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000008569 process Effects 0.000 claims abstract description 10
- 238000012512 characterization method Methods 0.000 claims abstract description 9
- 238000001514 detection method Methods 0.000 claims abstract description 8
- 230000004927 fusion Effects 0.000 claims abstract description 8
- 238000007670 refining Methods 0.000 claims abstract description 7
- 238000013528 artificial neural network Methods 0.000 claims abstract description 6
- 238000010276 construction Methods 0.000 claims description 43
- 238000005070 sampling Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 4
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度聚类的图像拼接定位装置,包括非对称双流网络模块以及对应的特征对齐模块,用于将大尺寸的图像输入神经网络并同时保留全局信息和局部高频信号,使不同空间的特征在后续能够进行特征融合;表征自适应模块,用于自适应的对拼接图像的区域进行分割;语义引导的特征融合模块,用于利用图像的低频语义信息对高频信息生成的结果进一步细化。本发明针对图像拼接任务设计了端到端的图像拼接定位装置,能够更有效的应对图像拼接检测任务,提高图像造假的难度。
Description
技术领域
本发明属于图像处理技术领域,尤其涉及一种基于深度聚类的图像拼接定位装置及方法。
背景技术
图像拼接简单的来说就是将不同图像的区域拼接到同一张图上,通俗来讲就是P图。随着图像编辑软件的进步,图像的伪造变得越来越容易,特别是图像拼接,对图像中的信息造成了极大的扭曲。互联网上出现了越来越多的虚假图像,虚假信息的泛滥,给国家的政治、安全都造成了极大的影响。
目前,针对包括复制移动、拼接、图像修补在内传统的图像伪造方式,存在一系列伪造图像检测方法。在过去,大多数图像拼接检测和定位技术都是基于建模的方法,这些方法大多数是基于手工特征开发的,这些特征旨在建模数字图像在获取、存储过程中留下的特有痕迹,包括镜头失真、CFA伪影、传感器噪声、压缩伪影等,在过去的几年中,深度学习在许多图像处理和分析任务包括图像去噪、目标检测等中都被证明比手工特征更加有效。然而,由于图像尺寸过大、篡改信号微弱等一系列的问题,很难设计一个端到端的图像拼接定位网络。
发明内容
为了解决上述已有技术存在的不足,本发明提出一种基于深度聚类的图像拼接定位装置及方法,首先对图像的局部高频信号和全局的语义信号进行建模,输出其对应的特征;并使用双线性插值采样的方式对相应位置进行采样;然后利用基于期望最大化算法设计的表征自适应模块,将局部高频信号的特征动态的聚为两类;最后利用采样后的全局语义特征来引导细化初步的分类结果,产生最后的定位结果。本发明的具体技术方案如下:
一种基于深度聚类的图像拼接定位装置,其特征在于,包括:非对称双流网络特征提取模块、特征采样模块、表征自适应模块和特征融合模块,其中,
所述非对称双流网络特征提取模块包括局部高频信息特征构建模块和全局语义信息特征构建模块,用于将高清及以上的图像有效输入到所述装置中,并同时保留图像的局部高频信号信息和全局语义信息;
所述局部高频信息特征构建模块,采用图像块的输入方式,利用预先构建的高通滤波器,提取图像块的高频信号,使用相机源分类数据对主干网络进行预训练,保留图像的局部高频信息特征;
所述全局语义信息特征构建模块,利用语义分割的数据对主干网络进行预训练用于建模当前像素与相邻像素之间的相关关系;
所述特征采样模块用于融合所述全局语义信息特征构建模块中提取的特征;
所述表征自适应模块,基于期望最大化算法的表征自适应模块用于将所述局部高频信息特征构建模块提取出的局部高频信息特征动态的聚类为两个部分;
所述特征融合模块,用于利用所述全局语义信息特征构建模块提取的特征对所述局部高频信息特征构建模块提取的特征进行细化,并给出最后的定位结果。
进一步地,所述局部高频信息特征构建模块为和全局语义信息特征构建模块均使用全卷积神经网络。
进一步地,所述全局语义信息特征构建模块输出维度为8个通道,所述特征采样模块为基于双线性插值的特征采样模块。
进一步地,所述非对称双流网络特征提取模块中的高清图像为720P即1280x720像素。
一种基于深度聚类的图像拼接定位方法,其特征在于,包括如下步骤:
S1:构建训练数据集;
S1-1:构建利用PS或贴图技术生成的拼接图像数据集,具有像素级的标注,1表示篡改区域,0表示真实区域;
S1-2:构建相机源分类图像数据集,只需图像级别的标注,每张图像需标注拍摄相机的型号;
S2:将步骤S1-1得到的图像随机切块,记录切块的位置信息,使用预设的高通滤波器提取图像块的高频信号,输入局部高频信息特征构建网络中,获取图像块的局部高频信息特征,并对得到的特征进行二范式归一化,输出特征的大小为CN*HN*WN,CN、HN、WN分别为输出的通道数,长与宽;
S3:将步骤S1-1的整张图像进行缩放,输入到全局语义信息特征构建网络中,获取图像的全局语义特征,输出维度为M个通道,用于建模当前像素与相邻像素之间的相关关系,输出特征的大小为M*HF*WF,其中,HF、WF分别为输出的长与宽;
S4:根据步骤S2获得的局部高频信息特征进行深度迭代聚类,获得聚类中心和每个像素属于聚类中心的概率;
S5:利用步骤S2记录的位置信息对步骤S3获得的全局语义特征进行采样,通过插值缩放到与步骤S4输出的局部高频信息特征相同的长和宽,即将其大小缩放为M*HN*WN;
S6:利用步骤S5获得的采样特征对步骤S4获得的结果通过卷积空间传播网络进一步细化输出最终结果;
S7:重复步骤S2-步骤S6,直到损失函数收敛,完成训练,最终固定步骤S2中的局部高频信息特征构建网络和步骤S3中的全局语义信息特征构建网络中的所有参数;
S8:图像检测;
S8-1:对于任意图像,依次提取所有图像块,利用步骤S7最终固定的局部高频信息特征构建网络的所有参数,重复执行步骤S2,得到每个图像块的高频信号特征;
S8-2:将步骤S8-1得到的所有特征拼接成完整的特征;
S8-3:利用步骤S7最终固定的全局语义信息特征构建网络中的所有参数,依次执行步骤S3至步骤S4;
S8-4:将步骤S8-3获得的全局语义特征通过双线性插值变换到与步骤S8-2拼接得到的完整的高频信号特征相同的长宽;
S8-5:将步骤S8-4的结果执行步骤S6即得到最终的检测结果。
进一步地,所述步骤S2中的局部高频信息特征构建网络为具有22层空洞卷积网络作为主干网络的全卷积神经网络中,所述步骤S3中的全局语义信息特征构建网络为具有56层空洞卷积网络作为主干网络的全卷积神经网络。
进一步地,所述步骤S4中基于期望最大化算法构建能够进行反向传播的聚类算法,通过余弦相似度估计样本之间的距离。
进一步地,所述步骤S4中的优化目标函数J为:
其中,znk代表观测数据fn属于第k类的概率,fn表示从步骤S2中提取的高频信号特征,μk为第k个聚类中心,为μk的转置,n为输出像素特征的编号,N=HN*WN为输出的特征的个数,k为聚类中心的编号,k=1……K,K为总的聚类中心的个数;
聚类过程为:
S4-2:计算每个样本点属于每个聚类中心的期望出znk:
其中,λ为控制多项式分布的超参数,l为输出特征的像素的索引,fl为步骤S2输出的特征中第l个像素的特征;
S4-3:重新更新U,U通过最大化目标函数获得,通过代入步骤S4-2计算出的znk并计算目标函数的偏导数并使其为0,更新公式为:
S4-4:重复步骤S4-2至步骤S4-3直到目标函数收敛或者到达最大迭代次数。
进一步地,所述步骤S6中的细化过程为:
其中,
其中,代表由高频信号网络生成的聚类结果,Hi,j,t为聚类结果(i,j)位置第t轮迭代结果的值,是从全局语义网络获得的转化矩阵,为转换矩阵a,b位置的值,κi,j(a,b)为归一化后的转换矩阵(a,b)位置的值,κi,j(0,0)为计算出的转换矩阵中心位置的加权,⊙代表元素级别的乘法操作,a,b和i,j均为特征图上的像素坐标索引,t为迭代的轮数,p为卷积核的大小。
进一步地,所述步骤S7中损失函数为针对聚类设计的二元交叉熵损失函数,具体为:
本发明的有益效果在于:
1.本发明的非对称的双流网络可以解决高清图像难以输入神经网络的问题。
2.本发明设计的表征自适应模块可以将聚类过程引入神经网络并进行端到端的优化,实现了对拼接图像端到端的检测;
3.本发明可以对拼接图像的拼接位置进行定位。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。其中:
图1是本发明的基于深度聚类的图像拼接定位装置结构图;
图2是本发明的基于深度聚类的图像拼接定位方法的训练过程示意图;
图3是本发明中高通滤波器所采用的参数;
图4是本发明的基于深度聚类的图像拼接定位方法的测试过程示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
如图1所示,一种基于深度聚类的图像拼接定位装置,包括:非对称双流网络特征提取模块、特征采样模块、表征自适应模块和特征融合模块,其中,
所述非对称双流网络特征提取模块包括局部高频信息特征构建模块和全局语义信息特征构建模块,用于将高清及以上的图像有效输入到所述装置中,并同时保留图像的局部高频信号信息和全局语义信息;
所述局部高频信息特征构建模块,采用图像块的输入方式,利用预先构建的高通滤波器,提取图像块的高频信号,使用相机源分类数据对主干网络进行预训练,保留图像的局部高频信息特征;
所述全局语义信息特征构建模块,利用语义分割的数据对主干网络进行预训练,用于建模当前像素与相邻像素之间的相关关系;
所述特征采样模块用于融合所述全局语义信息特征构建模块中提取的特征
所述表征自适应模块,基于期望最大化算法的表征自适应模块用于将所述局部高频信息特征构建模块提取出的局部高频信息特征动态的聚类为两个部分;
所述特征融合模块,用于利用所述全局语义信息特征构建模块提取的特征对所述局部高频信息特征构建模块提取的特征进行细化,并给出最后的定位结果。
较佳地,所述全局语义信息特征构建模块输出维度为8个通道,所述特征采样模块为基于双线性插值的特征采样模块。
较佳地,所述局部高频信息特征构建模块为和全局语义信息特征构建模块均使用全卷积神经网络。
较佳地,所述非对称双流网络特征提取模块中的高清图像为720P即1280x720像素。
如图2所示,一种基于深度聚类的图像拼接定位方法,包括如下步骤:
S1:构建训练数据集;
S1-1:构建利用PS或贴图技术生成的拼接图像数据集,具有像素级的标注,1表示篡改区域,0表示真实区域;
S1-2:构建相机源分类图像数据集,只需图像级别的标注,每张图像需标注拍摄相机的型号;
S2:将步骤S1-1得到的图像随机切块,记录切块的位置信息,使用预设的高通滤波器(如图3所示)提取图像块的高频信号,输入局部高频信息特征构建网络中,获取图像块的局部高频信息特征,并对得到的特征进行二范式归一化,输出特征的大小为CN*HN*WN,CN、HN、WN分别为输出的通道数,长与宽;
S3:将步骤S1-1的整张图像进行缩放,输入到全局语义信息特征构建网络中,获取图像的全局语义特征,输出维度为M个通道,用于建模当前像素与相邻像素之间的相关关系,输出特征的大小为M*HF*WF,其中,HF、WF分别为输出的长与宽;
S4:根据步骤S2获得的局部高频信息特征进行深度迭代聚类,获得聚类中心和每个像素属于聚类中心的概率;
S5:利用步骤S2记录的位置信息对步骤S3获得的全局语义特征进行采样,通过插值缩放到与步骤S4输出的局部高频信息特征相同的长和宽,即将其大小缩放为8*HN*WN;
S6:利用步骤S5获得的采样特征对步骤S4获得的结果通过卷积空间传播网络进一步细化输出最终结果;
S7:重复步骤S2-步骤S6,直到损失函数收敛,完成训练,最终固定步骤S2中的局部高频信息特征构建网络和步骤S3中的全局语义信息特征构建网络中的所有参数;
S8:图像检测;如图4所示;
S8-1:对于任意图像,依次提取所有图像块,利用步骤S7最终固定的局部高频信息特征构建网络的所有参数,重复执行步骤S2,得到每个图像块的高频信号特征;
S8-2:将步骤S8-1得到的所有特征拼接成完整的特征;
S8-3:利用步骤S7最终固定的全局语义信息特征构建网络中的所有参数,依次执行步骤S3至步骤S4;
S8-4:将步骤S8-3获得的全局语义特征通过双线性插值变换到与步骤S8-2拼接得到的完整的高频信号特征相同的长宽;
S8-5:将步骤S8-4的结果执行步骤S6即得到最终的检测结果。
在一些实施方式中,所述步骤S2中的局部高频信息特征构建网络为具有22层空洞卷积网络作为主干网络的全卷积神经网络中,所述步骤S3中的全局语义信息特征构建网络为具有56层空洞卷积网络作为主干网络的全卷积神经网络。
在一些实施方式中,所述步骤S4中基于期望最大化算法构建能够进行反向传播的聚类算法,通过余弦相似度估计样本之间的距离。
在一些实施方式中,所述步骤S4中的优化目标函数J为:
其中,znk代表观测数据fn属于第k类的概率,fn表示从步骤S2中提取的高频信号特征,μk为第k个聚类中心,为μk的转置,n为输出像素特征的编号,N=HN*WN为输出的特征的个数,k为聚类中心的编号,k=1……K,K为总的聚类中心的个数;
聚类过程为:
S4-2:计算每个样本点属于每个聚类中心的期望出znk:
其中,λ为控制多项式分布的超参数,l为输出特征的像素的索引,fl为步骤S2输出的特征中第l个像素的特征;
S4-3:重新更新U,U通过最大化目标函数获得,通过代入步骤S4-2计算出的znk并计算目标函数的偏导数并使其为0,更新公式为:
S4-4:重复步骤S4-2至步骤S4-3直到目标函数收敛或者到达最大迭代次数。
在一些实施方式中,所述步骤S6中的细化过程为:
其中,
其中,代表由高频信号网络生成的聚类结果,Hi,j,t为聚类结果(i,j)位置第t轮迭代结果的值,是从全局语义网络获得的转化矩阵,为转换矩阵a,b位置的值,κi,j(a,b)为归一化后的转换矩阵(a,b)位置的值,κi,j(0,0)为计算出的转换矩阵中心位置的加权,⊙代表元素级别的乘法操作,a,b和i,j均为特征图上的像素坐标索引,t为迭代的轮数,p为卷积核的大小。
在一些实施方式中,所述步骤S7中损失函数为针对聚类设计的二元交叉熵损失函数,具体为:
较佳地,所述步骤S6中迭代的轮数t设置为10,卷积核的大小p设置为3。
较佳地,所述步骤S4-4中的最大迭代次数设置为10。
为了验证本发明的有效性和实用性,以MFC18作为训练数据集(1875张),依照步骤S1-步骤S7训练模型,使用Adam作为模型的优化器,学习率设定为0.001,使用训练数据的90%训练模型,10%用作验证模型,共训练100次迭代,每20次迭代学习率衰减为原来的1/10,最终保存验证集评测指标最好的模型作为最终结果。
使用Columbia和DSO-1数据集进行模型评估,评估数据集分别包含100和220张拼接伪造图像,利用训练好的模型按照上述步骤S8进行评估,并与真实标签进行比较,其中Columbia数据集的F1指数为0.88,MCC指数为0.89,DSO-1数据集的F1指数为0.63,MCC指数为0.45,属于较好的结果,说明本发明有效可行。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于深度聚类的图像拼接定位装置,其特征在于,包括:非对称双流网络特征提取模块、特征采样模块、表征自适应模块和特征融合模块,其中,
所述非对称双流网络特征提取模块包括局部高频信息特征构建模块和全局语义信息特征构建模块,用于将高清及以上的图像有效输入到所述装置中,并同时保留图像的局部高频信号信息和全局语义信息;
所述局部高频信息特征构建模块,采用图像块的输入方式,利用预先构建的高通滤波器,提取图像块的高频信号,使用相机源分类数据对主干网络进行预训练,保留图像的局部高频信息特征;
所述全局语义信息特征构建模块,利用语义分割的数据对主干网络进行预训练用于建模当前像素与相邻像素之间的相关关系;
所述特征采样模块用于融合所述全局语义信息特征构建模块中提取的特征;
所述表征自适应模块,基于期望最大化算法的表征自适应模块用于将所述局部高频信息特征构建模块提取出的局部高频信息特征动态的聚类为两个部分;
所述特征融合模块,用于利用所述全局语义信息特征构建模块提取的特征对所述局部高频信息特征构建模块提取的特征进行细化,并给出最后的定位结果。
2.根据权利要求1所述的一种基于深度聚类的图像拼接定位装置,其特征在于,所述局部高频信息特征构建模块为和全局语义信息特征构建模块均使用全卷积神经网络。
3.根据权利要求1或2所述的一种基于深度聚类的图像拼接定位装置,其特征在于,所述全局语义信息特征构建模块输出维度为8个通道,所述特征采样模块为基于双线性插值的特征采样模块。
4.根据权利要求1或2所述的一种基于深度聚类的图像拼接定位装置,其特征在于,所述非对称双流网络特征提取模块中的高清图像为720P即1280x720像素。
5.一种基于深度聚类的图像拼接定位方法,其特征在于,包括如下步骤:
S1:构建训练数据集;
S1-1:构建利用PS或贴图技术生成的拼接图像数据集,具有像素级的标注,1表示篡改区域,0表示真实区域;
S1-2:构建相机源分类图像数据集,只需图像级别的标注,每张图像需标注拍摄相机的型号;
S2:将步骤S1-1得到的图像随机切块,记录切块的位置信息,使用预设的高通滤波器提取图像块的高频信号,输入局部高频信息特征构建网络中,获取图像块的局部高频信息特征,并对得到的特征进行二范式归一化,输出特征的大小为CN*HN*WN,CN、HN、WN分别为输出的通道数,长与宽;
S3:将步骤S1-1的整张图像进行缩放,输入到全局语义信息特征构建网络中,获取图像的全局语义特征,输出维度为M个通道,用于建模当前像素与相邻像素之间的相关关系,输出特征的大小为M*HF*WF,其中,HF、WF分别为输出的长与宽;
S4:根据步骤S2获得的局部高频信息特征进行深度迭代聚类,获得聚类中心和每个像素属于聚类中心的概率;
S5:利用步骤S2记录的位置信息对步骤S3获得的全局语义特征进行采样,通过插值缩放到与步骤S4输出的局部高频信息特征相同的长和宽,即将其大小缩放为M*HN*WN;
S6:利用步骤S5获得的采样特征对步骤S4获得的结果通过卷积空间传播网络进一步细化输出最终结果;
S7:重复步骤S2-步骤S6,直到损失函数收敛,完成训练,最终固定步骤S2中的局部高频信息特征构建网络和步骤S3中的全局语义信息特征构建网络中的所有参数;
S8:图像检测;
S8-1:对于任意图像,依次提取所有图像块,利用步骤S7最终固定的局部高频信息特征构建网络的所有参数,重复执行步骤S2,得到每个图像块的高频信号特征;
S8-2:将步骤S8-1得到的所有特征拼接成完整的特征;
S8-3:利用步骤S7最终固定的全局语义信息特征构建网络中的所有参数,依次执行步骤S3至步骤S4;
S8-4:将步骤S8-3获得的全局语义特征通过双线性插值变换到与步骤S8-2拼接得到的完整的高频信号特征相同的长宽;
S8-5:将步骤S8-4的结果执行步骤S6即得到最终的检测结果。
6.根据权利要求5所述的一种基于深度聚类的图像拼接定位方法,其特征在于,所述步骤S2中的局部高频信息特征构建网络为具有22层空洞卷积网络作为主干网络的全卷积神经网络中,所述步骤S3中的全局语义信息特征构建网络为具有56层空洞卷积网络作为主干网络的全卷积神经网络。
7.根据权利要求5所述的一种基于深度聚类的图像拼接定位方法,其特征在于,所述步骤S4中基于期望最大化算法构建能够进行反向传播的聚类算法,通过余弦相似度估计样本之间的距离。
8.根据权利要求5或6所述的一种基于深度聚类的图像拼接定位方法,其特征在于,所述步骤S4中的优化目标函数J为:
其中,znk代表观测数据fn属于第k类的概率,fn表示从步骤S2中提取的高频信号特征,μk为第k个聚类中心,为μk的转置,n为输出像素特征的编号,N=HN*WN为输出的特征的个数,k为聚类中心的编号,k=1......K,K为总的聚类中心的个数;
聚类过程为:
S4-2:计算每个样本点属于每个聚类中心的期望出znk:
其中,λ为控制多项式分布的超参数,l为输出特征的像素的索引,fl为步骤S2输出的特征中第l个像素的特征;
S4-3:重新更新U,U通过最大化目标函数获得,通过代入步骤S4-2计算出的znk并计算目标函数的偏导数并使其为0,更新公式为:
S4-4:重复步骤S4-2至步骤S4-3直到目标函数收敛或者到达最大迭代次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011352178.4A CN112465700B (zh) | 2020-11-26 | 2020-11-26 | 一种基于深度聚类的图像拼接定位装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011352178.4A CN112465700B (zh) | 2020-11-26 | 2020-11-26 | 一种基于深度聚类的图像拼接定位装置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112465700A true CN112465700A (zh) | 2021-03-09 |
CN112465700B CN112465700B (zh) | 2022-04-26 |
Family
ID=74808018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011352178.4A Active CN112465700B (zh) | 2020-11-26 | 2020-11-26 | 一种基于深度聚类的图像拼接定位装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112465700B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113112518A (zh) * | 2021-04-19 | 2021-07-13 | 深圳思谋信息科技有限公司 | 基于拼接图像的特征提取器生成方法、装置和计算机设备 |
WO2023109709A1 (zh) * | 2021-12-15 | 2023-06-22 | 深圳先进技术研究院 | 一种基于注意力机制的图像拼接定位检测方法 |
CN116469132A (zh) * | 2023-06-20 | 2023-07-21 | 济南瑞泉电子有限公司 | 基于双流特征提取的跌倒检测方法、系统、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106157319A (zh) * | 2016-07-28 | 2016-11-23 | 哈尔滨工业大学 | 基于卷积神经网络的区域和像素级融合的显著性检测方法 |
CN109086777A (zh) * | 2018-07-09 | 2018-12-25 | 南京师范大学 | 一种基于全局像素特征的显著图精细化方法 |
CN109902748A (zh) * | 2019-03-04 | 2019-06-18 | 中国计量大学 | 一种基于多层信息融合全卷积神经网络的图像语义分割方法 |
US20200242153A1 (en) * | 2019-01-29 | 2020-07-30 | Samsung Electronics Co., Ltd. | Method, apparatus, electronic device and computer readable storage medium for image searching |
CN111882002A (zh) * | 2020-08-06 | 2020-11-03 | 桂林电子科技大学 | 一种基于msf-am的低照度目标检测方法 |
-
2020
- 2020-11-26 CN CN202011352178.4A patent/CN112465700B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106157319A (zh) * | 2016-07-28 | 2016-11-23 | 哈尔滨工业大学 | 基于卷积神经网络的区域和像素级融合的显著性检测方法 |
CN109086777A (zh) * | 2018-07-09 | 2018-12-25 | 南京师范大学 | 一种基于全局像素特征的显著图精细化方法 |
US20200242153A1 (en) * | 2019-01-29 | 2020-07-30 | Samsung Electronics Co., Ltd. | Method, apparatus, electronic device and computer readable storage medium for image searching |
CN109902748A (zh) * | 2019-03-04 | 2019-06-18 | 中国计量大学 | 一种基于多层信息融合全卷积神经网络的图像语义分割方法 |
CN111882002A (zh) * | 2020-08-06 | 2020-11-03 | 桂林电子科技大学 | 一种基于msf-am的低照度目标检测方法 |
Non-Patent Citations (1)
Title |
---|
李晓龙 等: "深度学习在航拍场景分类中的应用", 《计算机科学与探索》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113112518A (zh) * | 2021-04-19 | 2021-07-13 | 深圳思谋信息科技有限公司 | 基于拼接图像的特征提取器生成方法、装置和计算机设备 |
CN113112518B (zh) * | 2021-04-19 | 2024-03-26 | 深圳思谋信息科技有限公司 | 基于拼接图像的特征提取器生成方法、装置和计算机设备 |
WO2023109709A1 (zh) * | 2021-12-15 | 2023-06-22 | 深圳先进技术研究院 | 一种基于注意力机制的图像拼接定位检测方法 |
CN116469132A (zh) * | 2023-06-20 | 2023-07-21 | 济南瑞泉电子有限公司 | 基于双流特征提取的跌倒检测方法、系统、设备及介质 |
CN116469132B (zh) * | 2023-06-20 | 2023-09-05 | 济南瑞泉电子有限公司 | 基于双流特征提取的跌倒检测方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112465700B (zh) | 2022-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112465700B (zh) | 一种基于深度聚类的图像拼接定位装置及方法 | |
CN115063373A (zh) | 基于多尺度特征智能感知的社交网络图像篡改定位方法 | |
Yin et al. | Attention-guided siamese networks for change detection in high resolution remote sensing images | |
CN112434599B (zh) | 一种基于噪声通道的随机遮挡恢复的行人重识别方法 | |
CN107909560A (zh) | 一种基于SiR的多聚焦图像融合方法及系统 | |
Liu et al. | D-unet: a dual-encoder u-net for image splicing forgery detection and localization | |
CN116342601B (zh) | 基于边缘引导和多层级搜索的图像篡改检测方法 | |
CN116958782A (zh) | 一种红外与可见光特征融合的弱小目标检测方法及装置 | |
CN115063786A (zh) | 一种高位远景模糊车牌检测方法 | |
CN115019039A (zh) | 一种结合自监督和全局信息增强的实例分割方法及系统 | |
CN116524189A (zh) | 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法 | |
CN115170933A (zh) | 基于双流深度神经网络的数字图像伪造区域定位方法 | |
Liu et al. | Image forgery localization based on fully convolutional network with noise feature | |
CN115222750A (zh) | 基于多尺度融合注意力的遥感图像分割方法及系统 | |
CN115393698A (zh) | 一种基于改进dpn网络的数字图像篡改检测方法 | |
CN114359102A (zh) | 一种基于注意力机制与边缘引导的图像深度修复取证方法 | |
CN111612803B (zh) | 一种基于图像清晰度的车辆图像语义分割方法 | |
CN113496221A (zh) | 基于深度双边滤波的点监督遥感图像语义分割方法及系统 | |
Charitidis et al. | Operation-wise attention network for tampering localization fusion | |
CN115512428B (zh) | 一种人脸活体判别方法、系统、装置和存储介质 | |
Dai et al. | DS‐Net: Dual supervision neural network for image manipulation localization | |
Hao et al. | EC-Net: General image tampering localization network based on edge distribution guidance and contrastive learning | |
Shao et al. | An Adversarial sample defense method based on multi-scale GAN | |
CN108364256A (zh) | 一种基于四元数小波变换的图像拼接检测方法 | |
Atamna et al. | Improving Generalization in Facial Manipulation Detection Using Image Noise Residuals and Temporal Features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |