CN117351294A - 一种基于双功能鉴别器的图像检测方法及装置 - Google Patents

一种基于双功能鉴别器的图像检测方法及装置 Download PDF

Info

Publication number
CN117351294A
CN117351294A CN202311657998.8A CN202311657998A CN117351294A CN 117351294 A CN117351294 A CN 117351294A CN 202311657998 A CN202311657998 A CN 202311657998A CN 117351294 A CN117351294 A CN 117351294A
Authority
CN
China
Prior art keywords
image
function
network
dual
discriminator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311657998.8A
Other languages
English (en)
Other versions
CN117351294B (zh
Inventor
蔡波
柯爱华
罗剑
于耀翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202311657998.8A priority Critical patent/CN117351294B/zh
Publication of CN117351294A publication Critical patent/CN117351294A/zh
Application granted granted Critical
Publication of CN117351294B publication Critical patent/CN117351294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双功能鉴别器的图像检测方法及装置,其中的方法包括如下步骤:对待检测的图像对进行预处理;将预处理后的图像对输入到预先构建的双功能鉴别器网络中,通过多尺度放缩模块利用2D平均池化层将输入的图像对下采样到不同尺度的图像对,得到放缩的图像金字塔数据;通过特征提取模块从放缩的金字塔数据中提取出深层特征;通过双功能鉴别器中的全卷积网络进行图像对的真假检测,多分类网络进行图像对的相似度检测。本发明采用双功能鉴别器网络能适用于图像的快速检测,能够高效准确的检测出两张图像的真假和相似度,从而能够在实际任务发挥重要的作用,在实际应用中得到推广。

Description

一种基于双功能鉴别器的图像检测方法及装置
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于双功能鉴别器的图像检测方法及装置。
背景技术
计算机视觉作为人工智能领域的一个重要分支,旨在研究如何使计算机能够理解和解释图像和视频。其技术范畴涵盖图像处理、图像分析、模式识别等领域。在图像处理的过程中,特征提取是一项至关重要的技术,它可以从图像中提取出关键信息,从而减少计算量。本质上来说,图像检测方法是通过将提取出的特征向量进行相关的对比运算,从而检测出两张原图像的真假或相似度。在现实生活中,这种检测方法有着广泛的应用,比如人脸识别、签名比对、车牌比对、目标跟踪、行人重识别等。
传统图像检测方法已经经过长时间的发展和研究,因此其算法和模型在许多领域已经非常成熟,具有相对较高的精度。此外,设计出的算法通常会借助人类专家的先验知识,使得算法的结果更具可解释性,并有利于深入研究算法和性能。相比于深度学习图像检测方法,传统图像检测方法的可拓展性较窄,且需要的计算资源和运行时间较少。然而,对于数据量较大、复杂性较高的任务,传统检测方法的效率和精度会有所下降。此外该类方法的泛化能力也不足,难以应对一些复杂的图像检测。
相比于传统的图像检测方法,深度学习图像检测方法的可拓展性和泛化能力更强,从而能够适应更多大数据且复杂场景下的图像检测任务。随着深度学习技术的发展和应用场景需求的增加,深度学习图像检测方法对于实现高精准度和多功能性的期望日益上涨。然而,现有技术中的深度学习图像检测方法,检测精度不够。
发明内容
本发明提供了一种基于双功能鉴别器的图像检测方法及装置,用以解决或者至少部分解决现有技术中存在的检测精度不够的技术问题。
为了解决上述技术问题,本发明第一方面提供了一种基于双功能鉴别器的图像检测方法,包括:
对待检测的图像对进行预处理;
将预处理后的图像对输入到预先构建的双功能鉴别器网络中,预先构建的双功能鉴别器网络包括多尺度缩放模块、特征提取模块以及双功能鉴别器,双功能鉴别器包括具有图像真假检测判别功能的全卷积网络和具有图像相似度检测分割功能的多分类网络;
通过多尺度放缩模块利用2D平均池化层将输入的图像对下采样到不同尺度的图像对,得到放缩的图像金字塔数据;
通过特征提取模块从放缩的金字塔数据中提取出深层特征;
通过双功能鉴别器中的全卷积网络进行图像对的真假检测,多分类网络进行图像对的相似度检测。
在一种实施方式中,对待检测的图像对进行预处理,包括:
对待检测的图像对进行图像读取与RGB格式转换,公式如下:
对进行图像读取与RGB格式转换后的图像对进行数据增强处理,包括缩放、随机水平翻转、Tensor格式转换,公式如下:
对进行数据增强后的图像对进行归一化处理,公式如下:
表示待检测图像对中的第/>个原始图像,字符/>、/>、/>和/>分别代表实数、通道数、长度和宽度,/>函数表示读取指定路径/>下的图像数据,/>函数表示将读取的图像数据从/>模式转换为/>模式,函数表示将待处理的图像放缩到指定的/>大小,函数表示以/>的概率随机水平翻转图像,函数表示将图像数据转换为张量,/>函数表示利用给定的均值/>和标准差/>对张量数据进行归一化处理。
在一种实施方式中,多尺度放缩模块利用2D平均池化层将输入的图像对下采样到不同尺度的图像对的公式为:
其中,为放缩的总次数,/>表示第/>次放缩的图像对,/>函数表示对输入张量数据进行二维平均池化操作,/>为池化窗口的大小,/>为池化窗口的步幅/>表示在宽和高上的填充大小。
在一种实施方式中,特征提取模块特征提取模块为CNN特征提取网络,采用PatchGAN结构,PatchGAN结构由5个卷积块组成,PatchGAN网络提取出的深层特征为,/>分别表示从第/>次放缩的图像对/>中提取出的特征,/>为放缩的总次数。
在一种实施方式中,通过双功能鉴别器中的全卷积网络进行图像对的真假检测,多分类网络进行图像对的相似度检测,包括:
将提取出的特征输入到全卷积网络,其中,输入全卷积网络的特征首先通过一个卷积核大小为/>,步长为/>的二维全卷积层进行卷积处理,然后利用一个压缩层在/>的维度上进行降维以获得概率矩阵/>,公式表达如下:
其中,矩阵和矩阵/>是概率矩阵/>集合中的两个同类型元素,矩阵/>中每个像素点对应原始输入图像/>中的一个Patch区域,Patch区域表示原始输入图像的一个局部矩阵区域;
将提取出的深层特征输入到多分类网络,先利用上采样层将特征/>的分辨率恢复到在/>尺度下原始输入图像/>的分辨率大小,然后通过一个全卷积层获得包含/>个类别通道的预测图/>,最后将不同尺度下的预测图进行相加融合得到最终的预测图/>, 公式表达如下:
其中,表示图像中语义类的数量,/>、/>为最终的预测图/>中的通道特征映射的二维实数矩阵的长度和宽度,/>表示上采样层操作,/>参数用于指定输入的深层特征/>需要放大的倍数,/>表示全卷积层操作,由一个卷积核大小为3,步长为1的二维卷积构成。
在一种实施方式中,全卷积网络中,使用对抗损失函数计算损失并训练网络:
其中,对数的底数为自然底数/>,/>为样本数,/>表示待检测的图像样本/>在第/>个尺度下的所获得的概率矩阵,即图像样本/>在第/>个尺度下的整体判定值;/>表示图像样本/>的标签,真实图像样本的标签为1,虚假图像样本的标签为0,训练过程中,目标为最小化使网络判断准确,/>表示对任意样本的所有尺度下计算得到的交叉熵损失/>取平均值;
多分类网络中,损失计算使用加权交叉熵损失函数:
其中,表示数学期望,符号/>是累加求和公式/>的下标变量,符号/>分别表示分辨率为/>的预测图像中横向和纵向坐标变量,/>为类平衡权值/>
在一种实施方式中,通过双功能鉴别器中的全卷积网络进行图像对的真假检测中,准确率计算公式如下:
其中,表示经过全卷积网络最终输出的概率矩阵,首先利用Sigmoid激活函数将其映射到0,1之间获得输出结果/>,然后,将/>中像素值大于或等于阈值/>的标记为1,其余标记为0,/>函数用于统计矩阵中满足条件的像素点的总个数,/>为/>与/>对应位置相等的像素点个数,/>为/>标签矩阵中总的像素点个数,/>表示第/>尺度下的待检测图像对所算的真假准确率,/>为放缩的总次数,/>为真假检测准确率;
多分类网络进行图像对的相似度检测中,准确率计算公式如下:
其中,表示经过多分类网络最终输出的预测图,先计算/>之间的欧式距离得到/>,然后将其大于或等于/>的标记为1,其余标记为0;相似度检测准确率/>的计算是通过统计/>与/>在每个类别上对应位置值相等的个数比上/>中的总个数。
基于同样的发明构思,本发明第二方面提供了一种基于双功能鉴别器的图像检测装置,包括:
预处理模块,用于对待检测的图像对进行预处理;
输入模块,用于将预处理后的图像对输入到预先构建的双功能鉴别器网络中,预先构建的双功能鉴别器网络包括多尺度缩放模块、特征提取模块以及双功能鉴别器,双功能鉴别器包括具有图像真假检测判别功能的全卷积网络和具有图像相似度检测分割功能的多分类网络;
多尺度放缩模块,用于利用2D平均池化层将输入的图像对下采样到不同尺度的图像对,得到放缩的图像金字塔数据;
特征提取模块,用于从放缩的金字塔数据中提取出深层特征;
检测模块,用于通过双功能鉴别器中的全卷积网络进行图像对的真假检测,多分类网络进行图像对的相似度检测。
基于同样的发明构思,本发明第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现第一方面所述的方法。
基于同样的发明构思,本发明第四方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
相对于现有技术,本发明的优点和有益的技术效果如下:
本发明提出了一种基于双功能鉴别器的图像检测方法及装置,采用了双功能鉴别器网络结构,通过对待检测的图像进行预处理、多尺度缩放、特征提取和特征分析,从而提高了训练的效率,并提高了模型的检测精度和准确率。最终的测试结果显示本发明的方法实现了97.63%的准确率和51.8毫秒/次的推理速度。综上所述,采用双功能鉴别器网络能适用于图像的快速检测,不仅能够能实现精准检测两张图像的真假,还能实现快速检测两张图像是否相似,从而能够在实际任务发挥重要的作用,在实际应用中得到推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于双功能鉴别器的图像检测方法的流程示意图;
图2为本发明实施例中图像金字塔示意图;
图3为本发明实施例中概率矩阵示意图;
图4为本发明实施例中预测图融合;
图5为本发明实施例中语义类所包含的图像数量分布示意图。
具体实施方式
图像检测方法的应用范围非常广泛,并且随着方法的突破,其应用范围也将不断扩大。现有的图像检测大体上可归纳为传统方法和深度学习方法两大类。相比于传统的图像检测方法,深度学习图像检测方法的可拓展性和泛化能力更强,从而能够适应更多大数据且复杂场景下的图像检测任务。随着深度学习技术的发展和应用场景需求的增加,深度学习图像检测方法对于实现高精准度和多功能性的期望日益上涨。为此,本发明提供了一种基于双功能鉴别器的图像检测方法,其能够高效准确地同时检测出两张图像的真假和相似度,从而能够在实际应用发挥更加重要的作用,可以解决现有技术中的检测方法检测功能、检测速度和精确率不足的问题。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种基于双功能鉴别器的图像检测方法,请参见图1,该方法包括:
对待检测的图像对进行预处理;
将预处理后的图像对输入到预先构建的双功能鉴别器网络中,预先构建的双功能鉴别器网络包括多尺度缩放模块、特征提取模块以及双功能鉴别器,双功能鉴别器包括具有图像真假检测判别功能的全卷积网络和具有图像相似度检测分割功能的多分类网络;
通过多尺度放缩模块利用2D平均池化层将输入的图像对下采样到不同尺度的图像对,得到放缩的图像金字塔数据;
通过特征提取模块从放缩的金字塔数据中提取出深层特征;
通过双功能鉴别器中的全卷积网络进行图像对的真假检测,多分类网络进行图像对的相似度检测。
具体来说,本发明提出的图像检测方法,首先对待检测的图像对进行预处理,然后输入预先构建好的双功能鉴别器网络中,通过多尺度放缩模块对图像对进行下采样,并通过特征提取模块进行深层特征的提取,最后通过双功能鉴别器实现真假检测与相似度检测,根据双功能鉴别器的输出,得到最终的检测结果。
在一种实施方式中,对待检测的图像对进行预处理,包括:
对待检测的图像对进行图像读取与RGB格式转换,公式如下:
对进行图像读取与RGB格式转换后的图像对进行数据增强处理,包括缩放、随机水平翻转、Tensor格式转换,公式如下:
对进行数据增强后的图像对进行归一化处理,公式如下:
表示待检测图像对中的第/>个原始图像,字符/>、/>、/>和/>分别代表实数、通道数、长度和宽度,/>函数表示读取指定路径/>下的图像数据,/>函数表示将读取的图像数据从/>模式转换为/>模式,函数表示将待处理的图像放缩到指定的/>大小,函数表示以/>的概率随机水平翻转图像,函数表示将图像数据转换为张量,/>函数表示利用给定的均值/>和标准差/>对张量数据进行归一化处理。
具体实施过程中,对于待检测的图像对路径ImagePath1、ImagePath2, 在输入网络前,先利用Open和Convert进行图像读取和RGB格式转换, 然后使用Bicubic算法缩放、随机水平翻转、Tensor格式转换的数据增强处理,用于增强双功能鉴别器网络的泛化能力,最后通过Z-Score归一化算法进行处理。为了统一待检测图像的分辨率,本实施方式利用函数将待处理的图像放缩到指定的/>大小。函数表示以/>的概率随机水平翻转图像,可以有效提升网络训练的检测精准度。/>函数旨在将图像数据转换为张量,以便于提高网络处理多维数据。
在一种实施方式中,多尺度放缩模块利用2D平均池化层将输入的图像对下采样到不同尺度的图像对的公式为:
其中,为放缩的总次数,/>表示第/>次放缩的图像对,/>函数表示对输入张量数据进行二维平均池化操作,/>为池化窗口的大小,/>为池化窗口的步幅/>表示在宽和高上的填充大小。
具体实施例过程中,考虑到便捷性,如图2所示,多尺度放缩模块利用2D平均池化(Average Pooling,AvgPool2d)层将原始输入的图像对下采样到不同尺度的图像对,得到放缩的图像金字塔数据。、/>、/>为二维平均池化操作的参数,表示在宽和高上的填充大小均为1。通过上式建立了/>和/>的转化关系。相比于原尺度的图像数据,使用多个尺度的图像(也称为图像金字塔)输入网络能够提取到不同感受野的特征。
在一种实施方式中,特征提取模块特征提取模块为CNN特征提取网络,采用PatchGAN结构,PatchGAN结构由5个卷积块组成,PatchGAN网络提取出的深层特征为,/>分别表示从第/>次放缩的图像对/>中提取出的特征,/>为放缩的总次数。
具体来说,PatchGAN为马尔可夫判别器,其结构如表1所示。
表1PatchGAN结构
PatchGAN结构由5个卷积块(ConvBlock)组成, 且网络参数总量为4.1MB,PatchGAN网络提取出深层特征。提取出的特征中蕴含更多全局粗粒度信息。
在一种实施方式中,通过双功能鉴别器中的全卷积网络进行图像对的真假检测,多分类网络进行图像对的相似度检测,包括:
将提取出的特征输入到全卷积网络,其中,输入全卷积网络的特征首先通过一个卷积核大小为/>,步长为/>的二维全卷积层进行卷积处理,然后利用一个压缩层在/>的维度上进行降维以获得概率矩阵/>,公式表达如下:
其中,矩阵和矩阵/>是概率矩阵/>集合中的两个同类型元素,矩阵/>中每个像素点对应原始输入图像/>中的一个Patch区域,Patch区域表示原始输入图像的一个局部矩阵区域;
将提取出的深层特征输入到多分类网络,先利用上采样层将特征/>的分辨率恢复到在/>尺度下原始输入图像/>的分辨率大小,然后通过一个全卷积层获得包含/>个类别通道的预测图/>,最后将不同尺度下的预测图进行相加融合得到最终的预测图/>, 公式表达如下:
其中,表示图像中语义类的数量,/>、/>为最终的预测图/>中的通道特征映射的二维实数矩阵的长度和宽度,/>表示上采样层操作,/>参数用于指定输入的深层特征/>需要放大的倍数,/>表示全卷积层操作,由一个卷积核大小为3,步长为1的二维卷积构成。
具体来说,双功能鉴别器包括具有图像真假检测判别功能的全卷积网络和具有图像相似度检测分割功能的多分类网络。利用提取到的特征实现了两种图像检测的功能。
请参见图3,矩阵中每个像素点都对应着原输入的待检测图像/>中的一个比较大的Patch区域,也是该Patch区域被判定为真的概率值。依据马尔可夫判别器(PatchGAN)的定义可知,Patch区域实则代表着原输入的检测图像/>的一个局部矩阵区域。此外,Patch区域的最终映射是概率矩阵/>中一个像素点。
请参见图4,为本发明实施例中预测图融合示意图。多分类网络进行相似度检测时,表示图像中语义类的数量,也表示多分类预测图中通道数,预测图/>中的/>个通道特征映射都是长度/>宽度/>的二维实数(/>)矩阵。
在一种实施方式中,全卷积网络中,使用对抗损失函数计算损失并训练网络:
其中,对数的底数为自然底数/>,/>为样本数,/>表示待检测的图像样本/>在第/>个尺度下的所获得的概率矩阵,即图像样本/>在第/>个尺度下的整体判定值;/>表示图像样本/>的标签,真实图像样本的标签为1,虚假图像样本的标签为0,训练过程中,目标为最小化使网络判断准确,/>表示对任意样本的所有尺度下计算得到的交叉熵损失/>取平均值;
多分类网络中,损失计算使用加权交叉熵损失函数:
其中,表示数学期望,符号/>是累加求和公式/>的下标变量,符号/>分别表示分辨率为/>的预测图像中横向和纵向坐标变量,/>为类平衡权值/>
具体来说,多分类网络的损失函数中,上限值表示多分类预测图中通道数。符号分别表示分辨率为/>的预测图像中横向和纵向坐标变量。考虑到图像中/>个语义类通常是不平衡的,如图5所示,因此将类平衡权值/>作为每个像素类频率的倒数,以降低网络过拟合的风险。
数据集是一些数据量丰富且清晰的图像,实验所使用的三个常用数据集来自开源的官方数据库,具体分别是: Cityscapes数据集、ADE20K数据集和COCO-Stuff数据集。每个数据集所包含的语义类数、训练集总数和测试集总数的统计数据见表2。此外,图5显示了数据集中每个类别所包含的图像数量分布,这也是实验方案设定的一个重要依据点。
表2数据集统计
为了提升鉴别网络在测试过程中能够适应不同分辨率的图像输入,训练的三个数据集将采用不同的分辨率大小,并且考虑到每个数据集所包含的数据量是均衡的,因此将训练的总代数进行调整以便节省寻找网络最优解所需要的运算成本。关于这部分的具体设置如表3:
表3数据集训练设定
对于双功能鉴别器网络的训练,采用Adam优化器并将衰减系数beta1和beta2 分别设置为0和0.9。网络的学习率被定义为,其初始值为0.0002。为了更加快速且准确地寻找到全局最优解,在训练过程中的学习率被动态地表示为:/>
其中是总的训练总代数, 并且/>。从上式可以看出,在经过/>代的训练之后,学习率将会线性衰减到0。对于不同的数据集,训练总代数的设置是不同的,从表3中数据可知Cityscapes数据集和ADE20K数据集都训练200代。由于COCO-Stuff数据集的数据量比较大,故其训练的总代数被设定为100。由于双功能鉴别器网络的参数量比较小,因此其训练过程和测试过程都是在单块RTX 3090Ti GPU上完成的。
在一种实施方式中,通过双功能鉴别器中的全卷积网络进行图像对的真假检测中,准确率计算公式如下:
其中,表示经过全卷积网络最终输出的概率矩阵,首先利用Sigmoid激活函数将其映射到0,1之间获得输出结果/>,然后,将/>中像素值大于或等于阈值/>的标记为1,其余标记为0,/>函数用于统计矩阵中满足条件的像素点的总个数,/>为/>与/>对应位置相等的像素点个数,/>为/>标签矩阵中总的像素点个数,/>表示第/>尺度下的待检测图像对所算的真假准确率,/>为放缩的总次数,/>为真假检测准确率;
多分类网络进行图像对的相似度检测中,准确率计算公式如下:
其中,表示经过多分类网络最终输出的预测图,先计算/>之间的欧式距离得到/>,然后将其大于或等于/>的标记为1,其余标记为0;相似度检测准确率/>的计算是通过统计/>与/>在每个类别上对应位置值相等的个数比上/>中的总个数。
具体来说,在全卷积网络进行图像对的真假检测中,对于阈值的选择通常是取/>的平均值。任意尺度的准确率的计算是通过统计/>与/>对应位置相等的像素点个数,并比上等大的/>标签矩阵中总的像素点个数,对所有尺度下的准确度进行平均值运算即是最终的真假检测准确率。
深度学习图像检测方法可以从原始图像数据中自动学习并提取出重要的深层特征,因此能够解决更加复杂图像检测任务,并减少了人工特征提取和分析的繁琐过程。同时,深度学习方法还具有良好的可迁移性,也能够实现网络的并行计算。基于深度学习的检测方法通常是采用卷积神经网络模型,这一模型的内部结构往往比较复杂,导致其输出结果难以被解释和理解。对于网络的训练通常需要大量的数据才能收敛到一个比较满意的结果。
下面通过对比实验,对本发明提出的方法与现有技术中的方法的效果进行比较。
对比
本实施例采用了一种基于双功能鉴别器的图像检测方法,故将双功能鉴别器和其他鉴别器在检测准确率和推理速度(FLOPS)上进行了对比。其中,对比的其他鉴别器具体包括二分类鉴别器、马歇尔鉴别器(也称为PatchGAN鉴别器)、Multiscale鉴别器、FPSE鉴别器和OASIS鉴别器。鉴别器的推理速度是通过计算网络在运行环境中每秒钟能够执行的浮点运算次数,并用于衡量网络处理图像数据快慢的评价指标。对于鉴别器的运行环境,所有测试的工作都是在本地进行的,使用英伟达RTX 4090 Ti显卡,网络构建使用PyTorch深度学习框架。
鉴别器网络的检测准确率和推理速度对比结果如表4所示。我们可以明显地观察到,双功能鉴别器相比于其他鉴别器可以获得更高的真假检测准确率和相似度检测准确率。此外,双功能鉴别器网络在相同的运行环境下也能实现更快地推理速度。因此,基于双功能鉴别器的图像检测方法是优于其他深度学习图像检测方法(具体涉及了二分类鉴别器、PatchGAN鉴别器、Multiscale鉴别器、FPSE鉴别器和OASIS鉴别器等深度网络)。
表4 鉴别器网络的检测准确率和推理速度对比
除了本发明所使用的基于双功能判别器的图像检测方法,本实施方式做了一些对比实验,这些对比实验大致可以分为传统图像检测的方法对比和深度学习图像检测方法对比这两类。传统图像检测采用的方法是传统图像处理算法,包括:向量角度比率的检测法、OpponentSIFT算法、全局哈希法、余弦相似度法和直方图法。而基于深度学习图像检测采用的鉴别器网络常见的有二分类鉴别器、马歇尔鉴别器(也称为PatchGAN鉴别器)、Multiscale鉴别器、FPSE鉴别器、OASIS鉴别器,对于两类对比方法的各个特点,如表5所示:
表5 图像检测方法
通过如上方法进行对比,最后发现本发明基于双功能鉴别器的图像检测方法不仅能够实现图像真假检测,还能进行图像相似度检测。在测试过程中,传统图像检测方法通常虽然具有较快的推理速度,但由于算法本身限制使得检测功能通常比较单一。基于鉴别器的图像检测方法凭借着卷积神经网络强大的特征提取能力和突出的学习性能,使得该方法的推理速度和泛化能力都明显优于传统图像检测方法。
综上所述,上表中的传统图像检测方法,包括向量角度比率的检测法、OpponentSIFT算法、全局哈希法、余弦相似度法和直方图法,相比于基于深度学习的鉴别器方法而言,其作用和泛化能力较低,但是推理速度较快。然而,在实际应用中通常利用GPU加速神经网络的训练和推理,因此利用深度网络进行推理的速度可以被有效地提升。
实施例二
基于同样的发明构思,本实施例公开了一种基于双功能鉴别器的图像检测装置,包括:
预处理模块,用于对待检测的图像对进行预处理;
输入模块,用于将预处理后的图像对输入到预先构建的双功能鉴别器网络中,预先构建的双功能鉴别器网络包括多尺度缩放模块、特征提取模块以及双功能鉴别器,双功能鉴别器包括具有图像真假检测判别功能的全卷积网络和具有图像相似度检测分割功能的多分类网络;
多尺度放缩模块,用于利用2D平均池化层将输入的图像对下采样到不同尺度的图像对,得到放缩的图像金字塔数据;
特征提取模块,用于从放缩的金字塔数据中提取出深层特征;
检测模块,用于通过双功能鉴别器中的全卷积网络进行图像对的真假检测,多分类网络进行图像对的相似度检测。
由于本发明实施例二所介绍的装置为实施本发明实施例一中基于双功能鉴别器的图像检测方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的装置都属于本发明所欲保护的范围。
实施例三
基于同一发明构思,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现如实施例一中所述的方法。
由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中基于双功能鉴别器的图像检测方法所采用的计算机可读存储介质,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。
实施例四
基于同一发明构思,本申请还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述程序时实现实施例一中的方法。
由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中基于双功能鉴别器的图像检测方法所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于双功能鉴别器的图像检测方法,其特征在于,包括:
对待检测的图像对进行预处理;
将预处理后的图像对输入到预先构建的双功能鉴别器网络中,预先构建的双功能鉴别器网络包括多尺度缩放模块、特征提取模块以及双功能鉴别器,双功能鉴别器包括具有图像真假检测判别功能的全卷积网络和具有图像相似度检测分割功能的多分类网络;
通过多尺度放缩模块利用2D平均池化层将输入的图像对下采样到不同尺度的图像对,得到放缩的图像金字塔数据;
通过特征提取模块从放缩的金字塔数据中提取出深层特征;
通过双功能鉴别器中的全卷积网络进行图像对的真假检测,多分类网络进行图像对的相似度检测。
2.如权利要求1所述的基于双功能鉴别器的图像检测方法,其特征在于,对待检测的图像对进行预处理,包括:
对待检测的图像对进行图像读取与RGB格式转换,公式如下:
对进行图像读取与RGB格式转换后的图像对进行数据增强处理,包括缩放、随机水平翻转、Tensor格式转换,公式如下:
对进行数据增强后的图像对进行归一化处理,公式如下:
表示待检测图像对中的第/>个原始图像,字符/>、/>、/>和/>分别代表实数、通道数、长度和宽度,/>函数表示读取指定路径/>下的图像数据,/>函数表示将读取的图像数据从/>模式转换为/>模式,函数表示将待处理的图像放缩到指定的/>大小,函数表示以 />的概率随机水平翻转图像,函数表示将图像数据转换为张量,/>函数表示利用给定的均值/>和标准差/>对张量数据进行归一化处理。
3.如权利要求1所述的基于双功能鉴别器的图像检测方法,其特征在于,多尺度放缩模块利用2D平均池化层将输入的图像对下采样到不同尺度的图像对的公式为:
其中,为放缩的总次数,/>表示第/>次放缩的图像对,/>函数表示对输入张量数据进行二维平均池化操作,/>为池化窗口的大小,/>为池化窗口的步幅/>表示在宽和高上的填充大小。
4.如权利要求1所述的基于双功能鉴别器的图像检测方法,其特征在于,特征提取模块为CNN特征提取网络,采用PatchGAN结构,PatchGAN结构由5个卷积块组成,PatchGAN网络提取出的深层特征为,/>分别表示从第/>次放缩的图像对/>中提取出的特征,/>为放缩的总次数。
5.如权利要求1所述的基于双功能鉴别器的图像检测方法,其特征在于,通过双功能鉴别器中的全卷积网络进行图像对的真假检测,多分类网络进行图像对的相似度检测,包括:
将提取出的特征输入到全卷积网络,其中,输入全卷积网络的特征/>首先通过一个卷积核大小为/>,步长为/>的二维全卷积层进行卷积处理,然后利用一个压缩层在/>的维度上进行降维以获得概率矩阵/>,公式表达如下:
其中,矩阵和矩阵/>是概率矩阵/>集合中的两个同类型元素,矩阵/>中每个像素点对应原始输入图像/>中的一个Patch区域,Patch区域表示原始输入图像/>的一个局部矩阵区域;
将提取出的深层特征输入到多分类网络,先利用上采样层将特征/>的分辨率恢复到在/>尺度下原始输入图像/>的分辨率大小,然后通过一个全卷积层获得包含/>个类别通道的预测图/>,最后将不同尺度下的预测图进行相加融合得到最终的预测图/>, 公式表达如下:
其中, 表示图像中语义类的数量,/>、/>为最终的预测图/>中的通道特征映射的二维实数矩阵的长度和宽度,/>表示上采样层操作,/>参数用于指定输入的深层特征/>需要放大的倍数,/>表示全卷积层操作,由一个卷积核大小为3,步长为1的二维卷积构成。
6.如权利要求5基于双功能鉴别器的图像检测方法,其特征在于,全卷积网络中,使用对抗损失函数计算损失并训练网络:
其中,对数的底数为自然底数/>, />为样本数,/>表示待检测的图像样本/>在第/>个尺度下的所获得的概率矩阵,即图像样本/>在第/>个尺度下的整体判定值; />表示图像样本/>的标签,真实图像样本的标签为1,虚假图像样本的标签为0,训练过程中,目标为最小化使网络判断准确,/>表示对任意样本的所有尺度下计算得到的交叉熵损失/>取平均值;
多分类网络中,损失计算使用加权交叉熵损失函数:
其中,表示数学期望,符号/>是累加求和公式/>的下标变量,符号/>分别表示分辨率为的预测图像中横向和纵向坐标变量,/>为类平衡权值/>
7.如权利要求1所述的基于双功能鉴别器的图像检测方法,其特征在于,通过双功能鉴别器中的全卷积网络进行图像对的真假检测中,准确率计算公式如下:
其中,表示经过全卷积网络最终输出的概率矩阵,首先利用Sigmoid激活函数将其映射到0,1之间获得输出结果/>,然后,将/>中像素值大于或等于阈值/>的标记为1,其余标记为0,/>函数用于统计矩阵中满足条件的像素点的总个数,/>为/>与/>对应位置相等的像素点个数,/>为/>标签矩阵中总的像素点个数,/>表示第/>尺度下的待检测图像对所算的真假准确率,/>为放缩的总次数,/>为真假检测准确率;
多分类网络进行图像对的相似度检测中,准确率计算公式如下:
其中,表示经过多分类网络最终输出的预测图,先计算/>和/>之间的欧式距离得到/>,然后将其大于或等于/>的标记为1,其余标记为0;相似度检测准确率/>的计算是通过统计/>与/>在每个类别上对应位置值相等的个数比上/>中的总个数。
8.一种基于双功能鉴别器的图像检测装置,其特征在于,包括:
预处理模块,用于对待检测的图像对进行预处理;
输入模块,用于将预处理后的图像对输入到预先构建的双功能鉴别器网络中,预先构建的双功能鉴别器网络包括多尺度缩放模块、特征提取模块以及双功能鉴别器,双功能鉴别器包括具有图像真假检测判别功能的全卷积网络和具有图像相似度检测分割功能的多分类网络;
多尺度放缩模块,用于利用2D平均池化层将输入的图像对下采样到不同尺度的图像对,得到放缩的图像金字塔数据;
特征提取模块,用于从放缩的金字塔数据中提取出深层特征;
检测模块,用于通过双功能鉴别器中的全卷积网络进行图像对的真假检测,多分类网络进行图像对的相似度检测。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被执行时实现如权利要求1至7中任一项权利要求所述的方法。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任一项权利要求所述的方法。
CN202311657998.8A 2023-12-06 2023-12-06 一种基于双功能鉴别器的图像检测方法及装置 Active CN117351294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311657998.8A CN117351294B (zh) 2023-12-06 2023-12-06 一种基于双功能鉴别器的图像检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311657998.8A CN117351294B (zh) 2023-12-06 2023-12-06 一种基于双功能鉴别器的图像检测方法及装置

Publications (2)

Publication Number Publication Date
CN117351294A true CN117351294A (zh) 2024-01-05
CN117351294B CN117351294B (zh) 2024-02-20

Family

ID=89356140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311657998.8A Active CN117351294B (zh) 2023-12-06 2023-12-06 一种基于双功能鉴别器的图像检测方法及装置

Country Status (1)

Country Link
CN (1) CN117351294B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110043604A1 (en) * 2007-03-15 2011-02-24 Yissum Research Development Company Of The Hebrew University Of Jerusalem Method and system for forming a panoramic image of a scene having minimal aspect distortion
US20150324630A1 (en) * 2014-05-08 2015-11-12 Shutterfly, Inc. Grouping face images using statistic distribution estimate
CN108805188A (zh) * 2018-05-29 2018-11-13 徐州工程学院 一种基于特征重标定生成对抗网络的图像分类方法
CN110276252A (zh) * 2019-05-15 2019-09-24 北京大学 一种基于生成式对抗网络的抗表情干扰的人脸识别方法
CN112163511A (zh) * 2020-09-25 2021-01-01 天津大学 一种图像真伪鉴别方法
CN113936217A (zh) * 2021-10-25 2022-01-14 华中师范大学 先验语义知识引导的高分辨率遥感影像弱监督建筑物变化检测方法
CN115564756A (zh) * 2022-10-24 2023-01-03 广州医科大学附属肿瘤医院 医学图像病灶定位显示方法与系统
CN115578404A (zh) * 2022-11-14 2023-01-06 南昌航空大学 一种基于深度学习的肝脏肿瘤图像增强和分割的方法
CN115601843A (zh) * 2022-10-20 2023-01-13 重庆西部笔迹大数据研究院(Cn) 基于双流网络的多模态签名笔迹鉴别系统及方法
CN115810196A (zh) * 2021-09-14 2023-03-17 中国移动通信有限公司研究院 一种印章鉴别方法、装置及存储介质
CN116740794A (zh) * 2023-08-15 2023-09-12 中国科学技术大学 人脸伪造图像鉴别方法、系统、设备及存储介质
CN116863218A (zh) * 2023-07-03 2023-10-10 西安建筑科技大学 一种基于关键鉴定部位的商品真伪鉴定方法及系统
CN116958637A (zh) * 2023-04-26 2023-10-27 腾讯科技(深圳)有限公司 图像检测模型的训练方法、装置、设备及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110043604A1 (en) * 2007-03-15 2011-02-24 Yissum Research Development Company Of The Hebrew University Of Jerusalem Method and system for forming a panoramic image of a scene having minimal aspect distortion
US20150324630A1 (en) * 2014-05-08 2015-11-12 Shutterfly, Inc. Grouping face images using statistic distribution estimate
CN108805188A (zh) * 2018-05-29 2018-11-13 徐州工程学院 一种基于特征重标定生成对抗网络的图像分类方法
CN110276252A (zh) * 2019-05-15 2019-09-24 北京大学 一种基于生成式对抗网络的抗表情干扰的人脸识别方法
CN112163511A (zh) * 2020-09-25 2021-01-01 天津大学 一种图像真伪鉴别方法
CN115810196A (zh) * 2021-09-14 2023-03-17 中国移动通信有限公司研究院 一种印章鉴别方法、装置及存储介质
CN113936217A (zh) * 2021-10-25 2022-01-14 华中师范大学 先验语义知识引导的高分辨率遥感影像弱监督建筑物变化检测方法
CN115601843A (zh) * 2022-10-20 2023-01-13 重庆西部笔迹大数据研究院(Cn) 基于双流网络的多模态签名笔迹鉴别系统及方法
CN115564756A (zh) * 2022-10-24 2023-01-03 广州医科大学附属肿瘤医院 医学图像病灶定位显示方法与系统
CN115578404A (zh) * 2022-11-14 2023-01-06 南昌航空大学 一种基于深度学习的肝脏肿瘤图像增强和分割的方法
CN116958637A (zh) * 2023-04-26 2023-10-27 腾讯科技(深圳)有限公司 图像检测模型的训练方法、装置、设备及存储介质
CN116863218A (zh) * 2023-07-03 2023-10-10 西安建筑科技大学 一种基于关键鉴定部位的商品真伪鉴定方法及系统
CN116740794A (zh) * 2023-08-15 2023-09-12 中国科学技术大学 人脸伪造图像鉴别方法、系统、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHANG, YULAN 等: "CNN-Transformer Based Generative Adversarial Network for Copy-Move Source/ Target Distinguishment", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》, vol. 33, no. 5, XP011939920, DOI: 10.1109/TCSVT.2022.3220630 *
罗小杰: "多聚焦彩色图像融合算法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 12 *

Also Published As

Publication number Publication date
CN117351294B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
Zhang et al. A dense u-net with cross-layer intersection for detection and localization of image forgery
CN111353544B (zh) 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
WO2023116632A1 (zh) 基于时空记忆信息的视频实例分割方法和分割装置
CN114202743A (zh) 自动驾驶场景下基于改进faster-RCNN的小目标检测方法
CN111325237B (zh) 一种基于注意力交互机制的图像识别方法
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN112733942A (zh) 一种基于多级特征自适应融合的变尺度目标检测方法
US9081800B2 (en) Object detection via visual search
Fan et al. A novel sonar target detection and classification algorithm
CN116563285B (zh) 一种基于全神经网络的病灶特征识别与分割方法及系统
WO2024027347A1 (zh) 内容识别方法、装置、设备、存储介质及计算机程序产品
CN112614108A (zh) 基于深度学习检测甲状腺超声图像中结节的方法和装置
Mu et al. Finding autofocus region in low contrast surveillance images using CNN-based saliency algorithm
CN114078132A (zh) 一种基于自相关特征金字塔网络的图像复制-粘贴篡改检测算法
CN117351294B (zh) 一种基于双功能鉴别器的图像检测方法及装置
CN116597275A (zh) 一种基于数据增强的高速移动目标识别方法
Ke et al. Scale-aware dimension-wise attention network for small ship instance segmentation in synthetic aperture radar images
CN114332493A (zh) 一种跨维度交互式显著检测模型及其检测方法
CN111582057B (zh) 一种基于局部感受野的人脸验证方法
Pei et al. FGO-Net: Feature and Gaussian Optimization Network for visual saliency prediction
CN114283336A (zh) 一种基于混合注意力的无锚框遥感图像小目标检测方法
CN114463732A (zh) 一种基于知识蒸馏的场景文本检测方法及装置
CN108154107B (zh) 一种确定遥感图像归属的场景类别的方法
Xiang et al. An object detection algorithm combining FPN structure with DETR
Chai et al. Defocus blur detection based on transformer and complementary residual learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant