CN113159028A - 显著性感知图像裁剪方法、装置、计算设备和存储介质 - Google Patents
显著性感知图像裁剪方法、装置、计算设备和存储介质 Download PDFInfo
- Publication number
- CN113159028A CN113159028A CN202110400578.6A CN202110400578A CN113159028A CN 113159028 A CN113159028 A CN 113159028A CN 202110400578 A CN202110400578 A CN 202110400578A CN 113159028 A CN113159028 A CN 113159028A
- Authority
- CN
- China
- Prior art keywords
- image
- saliency
- cropping
- region
- alignment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Abstract
本申请涉及一种显著性感知图像裁剪方法、装置、计算设备和存储介质,其中,该显著性感知图像裁剪方法包括裁剪模型训练和图像裁剪,其中裁剪模型训练包括基于所述原始图像的显著性区域创建初始裁剪图,基于初始剪裁图,以网格锚的方式生成多个候选裁剪图,然后提取原始图像的特征,并利用显著性导向的感兴趣区域池化算子和显著性导向的丢弃区域池化算子对提取图像特征进行裁剪,得到感兴趣区域和丢弃区域的对准特征图;最后将对准特征图馈入能够预测剪裁图像美学分数的美学评价网络进行训练,并得到训练完备的所述剪裁模型。通过本申请,解决了现有技术中图像显著性信息利用不充分、模型可能存在过度拟合的问题。
Description
技术领域
本申请涉及计算机视觉领域,特别是涉及一种显著性感知图像裁剪方法、装置、计算设备和存储介质。
背景技术
图像裁剪旨在找到具有最佳美学质量的图像裁剪物,被广泛使用于图像后期处理,视觉推荐和图像选择中。在需要裁剪大量图像时,图像裁剪变为了一项费力的工作。因此,近年来自动图像裁剪已经引起了研究界和行业内越来越多的关注。
早期的裁剪方法基于摄影知识(例如三分法和中心法等)明确设计了各种手工操作的特征。随着深度学习的发展,大量研究人员致力于以数据驱动的方式来开发裁剪方法,以及一些用于比较的基准数据集的发布,极大地促进了相关研究进展。
然而,获得最佳候选裁剪图依然是极其困难的,现有的图像剪裁技术中,显著性信息仅用于候选裁剪图的产生,图像显著性信息的潜力无法得到完全释放,模型可能存在过度拟合的问题。针对相关技术中存在图像显著性信息利用不充分、模型可能存在过度拟合的问题,目前还没有提出有效的解决方案。
发明内容
在本实施例中提供了一种显著性感知图像裁剪方法、装置、计算设备和存储介质,以解决相关技术中存在图像显著性信息利用不充分、模型可能存在过度拟合的问题。
第一个方面,在本实施例中提供了一种显著性感知图像裁剪方法,包括裁剪模型训练步骤和图像裁剪步骤,其中:
所述裁剪模型训练步骤包括:
获取原始图像,并基于所述原始图像的显著性区域创建初始裁剪图;
基于所述初始剪裁图,以网格锚的方式生成多个候选裁剪图,所述候选剪裁图在所述原始图像中的区域为感兴趣区域,所述原始图像中感兴趣区域以外的区域为丢弃区域;
提取所述原始图像的图像特征;
利用显著性导向的感兴趣区域池化算子和显著性导向的丢弃区域池化算子,对提取的所述图像特征进行裁剪,得到感兴趣区域和丢弃区域的对准特征图;
将所述对准特征图馈入美学评价网络进行训练,得到训练完备的所述剪裁模型;所述美学评价网络为能够预测剪裁图像美学分数的神经网络;
所述图像裁剪步骤包括:
将待剪裁的图像输入训练完备的所述剪裁模型,输出剪裁图像。
在其中的一些实施例中,所述基于显著性区域创建初始裁剪图包括:
将所述原始图像输入预设的显著性目标检测模型,得到显著性边界框,基于所述显著性边界框,创建所述初始裁剪图。
在其中的一些实施例中,所述感兴趣区域池化算子为将显著性信息与可变形位置敏感ROI池化结合,并使用双线性差值计算的可变形的显著性位置敏感ROI对准算子;所述丢弃区域池化算子为将显著性信息与可变形位置敏感ROD池化结合,并使用双线性差值计算的可变形的显著性位置敏感ROD对准算子;
所述利用显著性导向的可变形的显著性位置敏感ROI对准算子和显著性导向的可变形的显著性位置敏感ROD对准算子,对提取的所述图像特征进行裁剪,得到对准特征图,包括:
利用所述可变形的显著性位置敏感ROI对准算子,将原始图像的特征图转化为第一感兴趣区域对准特征图;
利用所述可变形的显著性位置敏感ROD对准算子,将原始图像的特征图转化为第一丢弃区域对准特征图;
将所述第一感兴趣区域对准特征图和第一丢弃区域对准特征图进行连接,得到第一对准特征图。
在其中的一些实施例中,所述利用所述可变形的显著性位置敏感ROD对准算子,将原始图像的特征图转化为第一丢弃区域对准特征图包括:
将丢弃区域按照预设的模式分为四个组件,并用所述可变形的显著性位置敏感ROD对准算子将所述四个组件进行对准,并将对准后的所述四个组件进行连接,得到第一丢弃区域对准特征图。
在其中的一些实施例中,所述将所述对准特征图馈入美学评价网络进行训练的过程包括:将所述第一对准特征图和所述第一丢弃区域对准特征图馈入所述美学评价网络;
所述美学评价网络的损失函数为排名损失函数和得分损失函数的加权;
所述排名损失函数为:所述第一丢弃区域对准特征图的预测美学分数与所述第一对准特征图的预测美学分数的差值和0之中的最大值;
所述得分损失函数为根据每个候选剪裁图的实际美学得分和预测美学分数计算的Huber损失函数,所述候选剪裁图的所述预测美学分数为所述第一对准特征图的所述预测美学分数。
在其中的一些实施例中,所述美学评价网络为由两个相同的全连接网络构成的孪生网络。
在其中的一些实施例中,利用特征提取网络来提取所述原始图像的图像特征;
所述特征提取网络包括基础网络模块和特征聚合模块,所述基础网络模块用于捕获所述原始图像的图像特征,所述特征聚合模块用于补偿特征提取期间的全局上下文和多尺度上下文的损失,所述基础网络模块包括卷积神经网络模型。
在其中的一些实施例中,所述特征聚合模块中采用不同尺度的平均池化来生成不同尺寸的特征图,将所述特征图附加到3×3的卷积层上,通过双线性插值对所述特征图进行上采样以获得与基础网络最后一层的原始特征图相同尺寸的所述特征图,连接来自不同子分支的上采样特征图。
在其中的一些实施例中,所述基础网络设置有跳跃连接。
第二个方面,在本实施例中提供了一种显著性感知图像裁剪装置,包括剪裁模型训练模块和剪裁图像获取模块;
所述剪裁模型训练模块用于使用训练图像集训练剪裁模型;所述剪裁模型训练模块包括裁剪单元、特征提取单元、以及美学评价单元;
所述剪裁单元,用于获取原始图像,并基于所述原始图像的显著性区域创建初始裁剪图;基于所述初始剪裁图,以网格锚的方式生成多个候选裁剪图,所述候选剪裁图在所述原始图像上的区域为感兴趣区域,所述原始图像中感兴趣区域以外的区域为丢弃区域;
所述特征提取单元,用于提取所述原始图像的特征;利用显著性导向的可变形的显著性位置敏感ROI对准算子和显著性导向的可变形的显著性位置敏感ROD对准算子对提取的特征进行裁剪,得到对准特征图;
所述美学评价单元,用于将所述对准特征图馈入美学评价网络进行训练,得到训练完备的所述剪裁模型,所述美学评价网络为能够预测剪裁图像美学得分的神经网络;
所述剪裁图像获取模块用于将待剪裁的图像输入训练完备的所述剪裁模型,输出剪裁图像。
第三个方面,在本实施例中提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项显著性感知图像裁剪方法。
第四个方面,在本实施例中提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一个方面所述的显著性感知图像裁剪方法。
与相关技术相比,本申请提供的显著性感知图像裁剪方法,通过基于原始图像的显著性区域创建初始裁剪图,并且将其集成到池化算子中,解决了现有技术中图像显著性信息利用不充分、模型可能存在过度拟合的问题。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的显著性感知图像裁剪方法的应用终端的硬件结构框图;
图2为其中一个实施例提供的显著性感知图像裁剪方法的裁剪模型训练步骤的流程图;
图3为其中一个实施例中丢弃区域的划分模式示意图;
图4为其中一个实施例提供的显著性感知图像剪裁装置的示意图。
具体实施方式
为更清楚地理解本申请的目的、技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明。
除另作定义外,本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体,其目的是涵盖不排他的包含;例如,包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元),而可包括未列出的步骤或模块(单元),或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接,而可以包括电气连接,无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。通常情况下,字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等,只是对相似对象进行区分,并不代表针对对象的特定排序。
在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在计算机上运行,图1是本实施例的显著性感知图像裁剪方法的应用终端的硬件结构框图。如图1所示,计算机可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机的结构造成限制。例如,计算机还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的显著性感知图像裁剪方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(NetworkInterface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种显著性感知图像裁剪方法,包括裁剪模型训练步骤和图像裁剪步骤,图2是本实施例的显著性感知图像裁剪方法的裁剪模型训练步骤的流程图,如图2所示,该流程包括如下步骤:
步骤S201,获取原始图像,并基于所述原始图像的显著性区域创建初始裁剪图;
具体地,显著区域指的是图像中引人注目的区域或比较重要的区域,通常情况下,剪裁图像的目的是保留这部分区域,删去不显著的区域。例如,可以采用HC(Histogram-based Contrast)算法、FT(Frequency-tuned)算法以及RC(Region-based Contrast)算法等算法检测图像的显著性区域。
步骤S202,基于所述初始剪裁图,以网格锚的方式生成多个候选裁剪图,所述候选剪裁图在所述原始图像上的区域为感兴趣区域(ROI,Region of Interest),所述原始图像中感兴趣区域以外的区域为丢弃区域(ROD,Region of Discard),感兴趣区域和丢弃区域为一个潜在区域对。
具体地,借鉴专业摄影裁剪保留中心内容的特点,以初始剪裁区域中心为锚点,以锚点为中心,等比例扩张的方式生成多个网格,网格内的区域为所述候选剪裁图。具体可以通过以下步骤来完成:
原始图像大小为W×H,首先将原始图像分成M×N个图像块,候选剪裁图的边界落入所述块的中心,m1、m2、n1、n2分别表示从初始裁剪图到原始图像上下边界和左右边界的块数。候选裁剪图的总数为其中, 进一步地,设置生成候选剪裁图的约束条件,合格的裁剪图应超过原始图像的一定比例,以排除一定数量的大小不合适的候选裁剪图:
area(Scrop)=ρarea(I),
进一步地,通过约束候选剪裁图的长宽比来提高候选裁剪图的美学质量:
其中,Wcrop和Hcrop分别为候选剪裁图的长和宽,α1和α2为约束参数,具体可以根据需要设置,比如分别设置为0.5和2。
步骤S203,提取所述原始图像的图像特征。
在对图像进行分析之前,需要提取图像的特征。例如,可以通过卷积神经网络提取图像特征,并得到图像的特征图。
步骤S204,利用显著性导向的感兴趣区域池化算子和显著性导向的丢弃区域池化算子,对提取的所述图像特征进行裁剪,得到感兴趣区域和丢弃区域的对准特征图。
需要说明的是,步骤S203提取的图像特征是原始图像的全局特征,对于每一个候选裁剪方式,即每一个潜在区域对,也需要得到其感兴趣区域和丢弃区域的图像特征。所以需要对全局特征进行裁剪,获得每个候选剪裁方式感兴趣区域的特征图和丢弃区域的特征图。
具体地,本申请实施例还采用池化的方式将候选剪裁框与原始图像对齐,在池化算子中还结合了图像的显著性信息。
步骤S205,将所述对准特征图馈入美学评价网络进行训练,最后得到训练完备的所述剪裁模型。所述美学评价网络为能够预测剪裁图像美学分数的神经网络。
需要说明的是,本实施例需要在步骤S202生成的多个候选剪裁图选择一个作为最终的剪裁图,此时需要对每个候选剪裁图进行评价,选出质量最高的候选剪裁图。比如可以使用神经网络来预测每个候选剪裁图的得分,如果训练图像集中的候选剪裁图的得分为人工基于候选剪裁图的美感进行的打分,此时,神经网络预测的分数为美学分数,意味着这个神经网络可以用来评价输入图像的美感,即美学评价网络。
在用训练图像集将美学评价网络训练完成后,整个模型也训练完备,得到该剪裁模型。此时将原始图像输入剪裁模型后,剪裁模型首先生成多个候选剪裁图,再通过美学评价网络选出美学分数最高的候选剪裁图,作为最终剪裁图输出。
具体地,训练剪裁模型使用的数据集可以从网上下载现有的,已注释好的数据集,也可以收集原始图片,并对每张图片进行不同方式的剪裁,然后对每张剪裁图打分,形成用于模型训练的图像样本。
可选地,对于所有图像样本,在训练之前,通过双线性插值将短边的大小调整为256,并采用常规运算符(随机调整对比度、饱和度、亮度、色相和水平翻转)进行数据增强。
可选地,使用在ImageNet数据集上计算出的平均值和标准差将所有样本的值归一化为[0,1]。
本申请实施例提供的显著性感知图像裁剪方法,与相关技术相比,充分利用了图像的显著性信息,考虑了显著性信息以消除不良的候选裁剪图,避免了剪裁模型发生过度拟合的问题,并且将其集成到池化算子中,以构建能够编码内容偏好的显著性感知的感受野。
在其中的一些实施例中,步骤S202,基于显著性区域创建初始裁剪图,包括:
将原始图像输入预设的显著性目标检测模型,得到显著性边界框,基于所述显著性边界框,创建所述初始裁剪图。
例如,可以通过如下步骤创建初始剪裁图:
使用显著性目标检测模型,例如,现有的PoolNet模型,得到显著性边界框Ssal;
如果Ssal与原始图像的比值小于一定阈值,则对该显著性边界框Ssal的范围进行扩大;
如果Ssal不在原始图像中,则显著性边界框Ssal设为原始图像区域;
如果Ssal与原始图像之间的距离与原始图像的长或宽的比值小于一定阈值,则对该显著性边界框Ssal的范围进行缩小;
最后,初始剪裁区域为得到的显著性边界框Ssal。
通过上述步骤,使用PoolNet模型可以生成视觉愉悦的显著性边界框,并对显著性边界框的大小进行限定,最终获得大小合适的初始剪裁区域。
在其中的一些实施例中,步骤S204中的感兴趣区域池化算子为将显著性信息与可变形位置敏感ROI池化结合,并使用双线性差值计算的可变形的显著性位置敏感ROI对准算子;丢弃区域池化算子为将显著性信息与可变形位置敏感ROD池化结合,并使用双线性差值计算的可变形的显著性位置敏感ROD对准算子。
具体地,作为一种可实施方式,在可变形位置敏感ROI(ROD)池化的基础上,将显著性信息融入其中,显著性可变形位置敏感ROI(ROD)池化定义为:
其中,f′(i,j)和f(i,j)分别是输出的ROI(ROD)池化特征图和原始图像的特征图,(i,j)为图像划分的bins的bin坐标,(x,y)是图像像素坐标吗,(xlf,ylf)为ROI(ROD)的左上角像素坐标,n是bin中的像素数,Δx,Δy是从全连接层中学到的偏移量,Si,j(x,y)是显著性图,Si,j(x,y)的值为0或1。具体地,可以将池化类别数设置为8,以减少后续子网络的计算量,并将池化网格设定为3×3的网格。
作为另一种可实施方式,使用双线性插值计算ROI(ROD)对准中采用的精确值,代替ROI(ROD)池化中采用的整数值,以解决在显著性感知变形位置敏感ROI(ROD)合并中发生的舍入误差和未对准问题,得到可变形的显著性位置敏感ROI(ROD)对准算子。
在这个基础上,上述步骤S204包括:
利用可变形的显著性位置敏感ROI对准算子,将原始图像的特征图转化为第一感兴趣区域对准特征图;
利用可变形的显著性位置敏感ROD对准算子,将原始图像的特征图转化为第一丢弃区域对准特征图;
将第一感兴趣区域对准特征图和第一丢弃区域对准特征图进行连接,得到第一对准特征图。
使用本实施例提供的可变形的显著性位置敏感ROI(ROD)对准算子可以得到感兴趣区域和丢弃区域对准特征图,并且提升了计算速度。
在其中的一些实施例中,在上述实施例的基础上,所述利用所述可变形的显著性位置敏感ROD对准算子,将原始图像的特征图转化为第一丢弃区域对准特征图包括:
将丢弃区域按照预设的模式分为四个组件,并用所述可变形的显著性位置敏感ROD对准算子将四个组件进行对准,并通过在对准后的所述四个组件后附加一个1×1的卷积层,将对准后的所述四个组件进行连接,以减小通道尺寸,得到第一丢弃区域对准特征图。
图3为本实施例所述的模式,如图3所示,将原始图像的特征图分为3×3的区域,5的区域是感兴趣区域,其余的区域为丢弃区域,如图3中的模式1、模式2和模式3所示,可以将丢弃区域分为4个组件。实践证明,模式3效果最好的。
本实施例提供的显著性感知图像剪裁方法,改进了丢弃区域组件的模式,提升了丢弃区域特征提取效果。
在其中的一些实施例中,在上述实施例的基础上,步骤S205,将所述对准特征图馈入美学评价网络进行训练的过程包括:将所述第一对准特征图和所述第一丢弃区域对准特征图馈入所述美学评价网络。
具体地,可以通过以下约束条件来训练美学评价网络:
Φ(ROI_D_P4)≥Φ(ROD_P4)
其中,Φ(ROI_D_P4)为第一对准特征图的预测美学分数,Φ(ROD_P4)为第一丢弃区域对准特征图的预测美学分数,area()为面积函数,输出图像的面积,γ为面积比例,依据经验,可以设定为2/3。该约束条件意味着,在保证感兴趣区域面积大于一定预设阈值的情况下,使感兴趣区域的预测美学分数大于丢弃区域的预测美学分数。候选剪裁图的预测美学分数为所述第一对准特征图的预测美学分数。
所述美学评价网络的损失函数为排名损失函数和得分损失函数的加权;具体地,该损失函数ltotal可以表示成如下形式:
所述排名损失函数lrank为:所述第一丢弃区域对准特征图的预测美学分数与所述第一对准特征图的预测美学分数的差值和0之中的最大值;
具体地,损失函数lrank可以表示成如下形式:
lrank(ROI_D_P4,ROD_P4)=max{0,Φ(ROD_P4)-Φ(ROI_D_P4)};
所述得分损失函数lmos为根据每个候选剪裁图的实际美学得分和预测美学分数计算的Huber损失函数。
进一步地,令eij=gij-pij,gij和pij分别是图像i的第j个候选裁剪图的平均意见分数(MOS)和预测美学分数。为了加强美学评价网络对异常值的鲁棒性,定义Huber损失函数:
可选地,利用Adam优化器通过最小化损失函数来训练本发明的网络,并将所有超参数设置为默认值,初始学习率设置为1e-4,最大epoch设置为100。就显著性图而言,使用PoolNet可以产生令人愉悦的显著性边界框。此外,batch normalization和dropout也用于美学评价网络。
在本实施例提供的显著性感知图像剪裁方法中,美学评价网络学习了ROI和ROD的相对排名顺序以及排名损失,揭示了裁剪过程的内在机理,并揭示了潜在区域对的内部联系。
在其中一些实施例中,美学评价网络为由两个相同的全连接网络构成的孪生网络。孪生网络会共享网络参数,降低了网络学习得成本,也降低了网络本身的参数量。本实施例使用孪生网络,提高了网络表现效果,使得预测得结果更加贴近MOS。
在其中一些实施例中,利用特征提取网络来提取所述原始图像的图像特征。
所述特征提取网络包括基础网络模块和特征聚合模块,所述基础网络模块用于捕获所述原始图像的图像特征,所述特征聚合模块用于补偿特征提取期间的全局上下文和多尺度上下文的损失。
具体地,基础网络可以是任何有效的卷积神经网络模型,以捕获图像特征并同时保留足够多的感受野。
可选地,在训练剪裁模型时,将一个预先训练好的MobilNetV2模型加载到本发明的特征提取网络中,以减轻过度拟合。
本实施例提供的显著性感知图像剪裁方法,通过基础卷积神经网络提取图像特征并通过特征聚合模块补偿特征提取期间的全局上下文和多尺度上下文的损失,得到了同时表示原始图像全局上下文和局部上下文的信息丰富的特征图。
在其中一些实施例中,特征聚合模块中采用不同尺度的平均池化来生成不同尺寸的特征图,将所述特征图附加到3×3的卷积层上,通过双线性插值对所述特征图进行上采样以获得与基础网络最后一层的原始特征图相同尺寸的所述特征图,连接来自不同子分支的上采样特征图。
本是实施例提供的方法,通过采用多尺度的特征提取网络来描述原始图像的特征,得到了信息丰富的特征图。
在其中一些实施例中,所述基础网络中设置有跳跃连接。通过跳跃连接可以在某种程度上提供原始图像全局上下文信息。
在一个优选实施例中,提供了一种显著性感知图像裁剪方法,包括裁剪模型训练步骤和图像裁剪步骤。其中,剪裁模型包括剪裁模块、特征提取网络、孪生美学评价网络。
具体地,裁剪模型训练步骤分为如下步骤:
步骤S301,将原始图像输入预设的显著性目标检测模型,得到显著性边界框,基于所述显著性边界框,创建所述初始裁剪图。
步骤S302,基于初始剪裁图,以网格锚的方式生成多个候选裁剪图,所述候选剪裁图在所述原始图像上的区域为感兴趣区域,所述原始图像中感兴趣区域以外的区域为丢弃区域,感兴趣区域和丢弃区域为一个潜在区域对。
步骤S303,通过特征提取网络提取所述原始图像的图像特征,具体地,所述特征提取网络包括基础网络模块和特征聚合模块。
步骤S304,可变形的显著性位置敏感ROI(ROD)对准算子对提取的所述图像特征进行裁剪,得到感兴趣区域和丢弃区域的对准特征图;
步骤S305,将所述对准特征图馈入孪生美学评价网络进行训练,得到裁剪模型。
本申请实施例提供的显著性感知图像裁剪方法,与相关技术相比,充分利用了图像的显著性信息,考虑了显著性信息以消除不良的候选裁剪图,避免了剪裁模型发生过度拟合的问题,并且将其集成到池化算子中,以构建能够编码内容偏好的显著性感知的感受野。此外,这种显著性感知图像裁剪方法,通过使孪生美学评价网络学习了ROI和ROD的相对排名顺序以及排名损失,揭示了裁剪过程的内在机理,并揭示了潜在区域对的内部联系。
在本实施例中还提供了一种显著性感知图像裁剪装置,图4为本实施例提供的显著性感知图像剪裁装置的示意图,如图4所示,该装置包括剪裁模型训练模块100和剪裁图像获取模块200;
所述剪裁模型训练模块100用于使用训练图像集训练剪裁模型,所述剪裁模型训练模块100包括剪裁单元110、特征提取单元120、以及美学评价单元130。
其中,剪裁单元110用于获取原始图像,并基于所述原始图像的显著性区域创建初始裁剪图;基于所述初始剪裁图,以网格锚的方式生成多个候选裁剪图,所述候选剪裁图在所述原始图像上的区域为感兴趣区域,所述原始图像中感兴趣区域以外的区域为丢弃区域;
特征提取单元120用于提取所述原始图像的特征;利用显著性导向的可变形的显著性位置敏感ROI对准算子和显著性导向的可变形的显著性位置敏感ROD对准算子对提取的特征进行裁剪,得到对准特征图;
美学评价单元130用于将所述对准特征图馈入美学评价网络进行训练,得到剪裁模型,所述美学评价网络为能够预测剪裁图像美学分数的神经网络;
所述剪裁图像获取模块200用于将待剪裁的图像输入训练完备的所述剪裁模型,输出剪裁图像。
本申请实施例提供的显著性感知图像裁剪装置,与相关技术相比,充分利用了图像的显著性信息,考虑了显著性信息以消除不良的候选裁剪图,避免了剪裁模型发生过度拟合的问题,并且将其集成到池化算子中,以构建能够编码内容偏好的显著性感知的感受野。
在本实施例中还提供了一种计算设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述中任一个实施例所述的显著性感知图像裁剪方法。
此外,结合上述实施例中提供的显著性感知图像裁剪方法,在本实施例中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种显著性感知图像裁剪方法。
需要说明的是,在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,在本实施例中不再赘述。
应该明白的是,这里描述的具体实施例只是用来解释这个应用,而不是用来对它进行限定。根据本申请提供的实施例,本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例,均属本申请保护范围。
显然,附图只是本申请的一些例子或实施例,对本领域的普通技术人员来说,也可以根据这些附图将本申请适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本申请公开的内容不足。
“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是,本申请中描述的实施例在没有冲突的情况下,可以与其它实施例结合。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (12)
1.一种显著性感知图像裁剪方法,其特征在于,包括裁剪模型训练步骤和图像裁剪步骤,其中:
所述裁剪模型训练步骤包括:
获取原始图像,并基于所述原始图像的显著性区域创建初始裁剪图;
基于所述初始剪裁图,以网格锚的方式生成多个候选裁剪图,所述候选剪裁图在所述原始图像中的区域为感兴趣区域,所述原始图像中感兴趣区域以外的区域为丢弃区域;
提取所述原始图像的图像特征;
利用显著性导向的感兴趣区域池化算子和显著性导向的丢弃区域池化算子,对提取的所述图像特征进行裁剪,得到感兴趣区域和丢弃区域的对准特征图;
将所述对准特征图馈入美学评价网络进行训练,得到训练完备的所述剪裁模型;所述美学评价网络为能够预测剪裁图像美学分数的神经网络;
所述图像裁剪步骤包括:
将待剪裁的图像输入训练完备的所述剪裁模型,输出剪裁图像。
2.根据权利要求1所述的显著性感知图像裁剪方法,其特征在于,所述基于显著性区域创建初始裁剪图包括:
将所述原始图像输入预设的显著性目标检测模型,得到显著性边界框,基于所述显著性边界框,创建所述初始裁剪图。
3.根据权利要求2所述的显著性感知图像裁剪方法,其特征在于,所述感兴趣区域池化算子为将显著性信息与可变形位置敏感ROI池化结合,并使用双线性差值计算的可变形的显著性位置敏感ROI对准算子;所述丢弃区域池化算子为将显著性信息与可变形位置敏感ROD池化结合,并使用双线性差值计算的可变形的显著性位置敏感ROD对准算子;
所述利用显著性导向的可变形的显著性位置敏感ROI对准算子和显著性导向的可变形的显著性位置敏感ROD对准算子,对提取的所述图像特征进行裁剪,得到对准特征图,包括:
利用所述可变形的显著性位置敏感ROI对准算子,将原始图像的特征图转化为第一感兴趣区域对准特征图;
利用所述可变形的显著性位置敏感ROD对准算子,将原始图像的特征图转化为第一丢弃区域对准特征图;
将所述第一感兴趣区域对准特征图和第一丢弃区域对准特征图进行连接,得到第一对准特征图。
4.根据权利要求3所述的显著性感知图像裁剪方法,其特征在于,所述利用所述可变形的显著性位置敏感ROD对准算子,将原始图像的特征图转化为第一丢弃区域对准特征图包括:
将丢弃区域按照预设的模式分为四个组件,并用所述可变形的显著性位置敏感ROD对准算子将所述四个组件进行对准,并将对准后的所述四个组件进行连接,得到第一丢弃区域对准特征图。
5.根据权利要求3所述的显著性感知图像裁剪方法,其特征在于,所述将所述对准特征图馈入美学评价网络进行训练的过程包括:将所述第一对准特征图和所述第一丢弃区域对准特征图馈入所述美学评价网络;
所述美学评价网络的损失函数为排名损失函数和得分损失函数的加权;
所述排名损失函数为:所述第一丢弃区域对准特征图的预测美学分数与所述第一对准特征图的预测美学分数的差值和0之中的最大值;
所述得分损失函数为根据每个候选剪裁图的实际美学得分和预测美学分数计算的Huber损失函数,所述候选剪裁图的所述预测美学分数为所述第一对准特征图的所述预测美学分数。
6.根据权利要求1所述的显著性感知图像裁剪方法,其特征在于,所述美学评价网络为由两个相同的全连接网络构成的孪生网络。
7.根据权利要求1所述的显著性感知图像裁剪方法,其特征在于,利用特征提取网络来提取所述原始图像的图像特征;
所述特征提取网络包括基础网络模块和特征聚合模块,所述基础网络模块用于捕获所述原始图像的图像特征,所述特征聚合模块用于补偿特征提取期间的全局上下文和多尺度上下文的损失,所述基础网络模块包括卷积神经网络模型。
8.根据权利要求7所述的显著性感知图像裁剪方法,其特征在于,所述特征聚合模块中采用不同尺度的平均池化来生成不同尺寸的特征图,将所述特征图附加到3×3的卷积层上,通过双线性插值对所述特征图进行上采样以获得与基础网络最后一层的原始特征图相同尺寸的所述特征图,连接来自不同子分支的上采样特征图。
9.根据权利要求8所述的显著性感知图像裁剪方法,其特征在于,所述基础网络设置有跳跃连接。
10.一种显著性感知图像裁剪装置,其特征在于,包括剪裁模型训练模块和剪裁图像获取模块;
所述剪裁模型训练模块用于使用训练图像集训练剪裁模型;所述剪裁模型训练模块包括裁剪单元、特征提取单元、以及美学评价单元;
所述剪裁单元,用于获取原始图像,并基于所述原始图像的显著性区域创建初始裁剪图;基于所述初始剪裁图,以网格锚的方式生成多个候选裁剪图,所述候选剪裁图在所述原始图像上的区域为感兴趣区域,所述原始图像中感兴趣区域以外的区域为丢弃区域;
所述特征提取单元,用于提取所述原始图像的特征;利用显著性导向的可变形的显著性位置敏感ROI对准算子和显著性导向的可变形的显著性位置敏感ROD对准算子对提取的特征进行裁剪,得到对准特征图;
所述美学评价单元,用于将所述对准特征图馈入美学评价网络进行训练,得到训练完备的所述剪裁模型,所述美学评价网络为能够预测剪裁图像美学得分的神经网络;
所述剪裁图像获取模块用于将待剪裁的图像输入训练完备的所述剪裁模型,输出剪裁图像。
11.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至9中任一项所述的显著性感知图像裁剪方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的显著性感知图像裁剪方法的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010538411.1A CN112381083A (zh) | 2020-06-12 | 2020-06-12 | 一种基于潜在区域对的显著性感知图像裁剪方法 |
CN2020105384111 | 2020-06-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113159028A true CN113159028A (zh) | 2021-07-23 |
CN113159028B CN113159028B (zh) | 2022-04-05 |
Family
ID=74586331
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010538411.1A Withdrawn CN112381083A (zh) | 2020-06-12 | 2020-06-12 | 一种基于潜在区域对的显著性感知图像裁剪方法 |
CN202110400578.6A Active CN113159028B (zh) | 2020-06-12 | 2021-04-14 | 显著性感知图像裁剪方法、装置、计算设备和存储介质 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010538411.1A Withdrawn CN112381083A (zh) | 2020-06-12 | 2020-06-12 | 一种基于潜在区域对的显著性感知图像裁剪方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN112381083A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724261A (zh) * | 2021-08-11 | 2021-11-30 | 电子科技大学 | 一种基于卷积神经网络的快速图像构图方法 |
CN113763391A (zh) * | 2021-09-24 | 2021-12-07 | 华中科技大学 | 一种基于视觉元素关系的智能化图像剪裁方法和系统 |
CN115115941A (zh) * | 2021-11-09 | 2022-09-27 | 腾晖科技建筑智能(深圳)有限公司 | 基于模板匹配的激光雷达点云地图杆状目标提取方法 |
WO2023093683A1 (zh) * | 2021-11-24 | 2023-06-01 | 北京字节跳动网络技术有限公司 | 图像剪裁方法、模型训练方法、装置、电子设备及介质 |
WO2023093851A1 (zh) * | 2021-11-29 | 2023-06-01 | 维沃移动通信有限公司 | 图像裁剪方法、装置及电子设备 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222904B (zh) * | 2021-04-21 | 2023-04-07 | 重庆邮电大学 | 改进PoolNet网络结构的混凝土路面裂缝检测方法 |
WO2022256020A1 (en) * | 2021-06-04 | 2022-12-08 | Hewlett-Packard Development Company, L.P. | Image re-composition |
CN113642710B (zh) * | 2021-08-16 | 2023-10-31 | 北京百度网讯科技有限公司 | 一种网络模型的量化方法、装置、设备和存储介质 |
CN113706546B (zh) * | 2021-08-23 | 2024-03-19 | 浙江工业大学 | 一种基于轻量级孪生网络的医学图像分割方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102576461A (zh) * | 2009-09-25 | 2012-07-11 | 伊斯曼柯达公司 | 评估数字图像的美学质量 |
US20170294010A1 (en) * | 2016-04-12 | 2017-10-12 | Adobe Systems Incorporated | Utilizing deep learning for rating aesthetics of digital images |
CN109544524A (zh) * | 2018-11-15 | 2019-03-29 | 中共中央办公厅电子科技学院 | 一种基于注意力机制的多属性图像美学评价系统 |
CN110084284A (zh) * | 2019-04-04 | 2019-08-02 | 苏州千视通视觉科技股份有限公司 | 基于区域卷积神经网络的目标检测与二级分类算法及装置 |
WO2020034663A1 (en) * | 2018-08-13 | 2020-02-20 | The Hong Kong Polytechnic University | Grid-based image cropping |
-
2020
- 2020-06-12 CN CN202010538411.1A patent/CN112381083A/zh not_active Withdrawn
-
2021
- 2021-04-14 CN CN202110400578.6A patent/CN113159028B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102576461A (zh) * | 2009-09-25 | 2012-07-11 | 伊斯曼柯达公司 | 评估数字图像的美学质量 |
US20170294010A1 (en) * | 2016-04-12 | 2017-10-12 | Adobe Systems Incorporated | Utilizing deep learning for rating aesthetics of digital images |
WO2020034663A1 (en) * | 2018-08-13 | 2020-02-20 | The Hong Kong Polytechnic University | Grid-based image cropping |
CN109544524A (zh) * | 2018-11-15 | 2019-03-29 | 中共中央办公厅电子科技学院 | 一种基于注意力机制的多属性图像美学评价系统 |
CN110084284A (zh) * | 2019-04-04 | 2019-08-02 | 苏州千视通视觉科技股份有限公司 | 基于区域卷积神经网络的目标检测与二级分类算法及装置 |
Non-Patent Citations (1)
Title |
---|
ZENG HUI,LI LIDA: "Reliable and Efficient Image Cropping: A Grid Anchor based Approach", 《ARXIV》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724261A (zh) * | 2021-08-11 | 2021-11-30 | 电子科技大学 | 一种基于卷积神经网络的快速图像构图方法 |
CN113763391A (zh) * | 2021-09-24 | 2021-12-07 | 华中科技大学 | 一种基于视觉元素关系的智能化图像剪裁方法和系统 |
CN113763391B (zh) * | 2021-09-24 | 2024-03-19 | 华中科技大学 | 一种基于视觉元素关系的智能化图像剪裁方法和系统 |
CN115115941A (zh) * | 2021-11-09 | 2022-09-27 | 腾晖科技建筑智能(深圳)有限公司 | 基于模板匹配的激光雷达点云地图杆状目标提取方法 |
WO2023093683A1 (zh) * | 2021-11-24 | 2023-06-01 | 北京字节跳动网络技术有限公司 | 图像剪裁方法、模型训练方法、装置、电子设备及介质 |
WO2023093851A1 (zh) * | 2021-11-29 | 2023-06-01 | 维沃移动通信有限公司 | 图像裁剪方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113159028B (zh) | 2022-04-05 |
CN112381083A (zh) | 2021-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113159028B (zh) | 显著性感知图像裁剪方法、装置、计算设备和存储介质 | |
US11551338B2 (en) | Intelligent mixing and replacing of persons in group portraits | |
CN112348783B (zh) | 基于图像的人物识别方法、装置及计算机可读存储介质 | |
US11074734B2 (en) | Image processing apparatus, image processing method and storage medium | |
US11830230B2 (en) | Living body detection method based on facial recognition, and electronic device and storage medium | |
US9176989B2 (en) | Image quality analysis for searches | |
EP3101594A1 (en) | Saliency information acquisition device and saliency information acquisition method | |
AU2017261537A1 (en) | Automated selection of keeper images from a burst photo captured set | |
CN110349082B (zh) | 图像区域的裁剪方法和装置、存储介质及电子装置 | |
CN111935479B (zh) | 一种目标图像确定方法、装置、计算机设备及存储介质 | |
CN110717058B (zh) | 信息推荐方法及装置、存储介质 | |
US11915472B2 (en) | Adapting pre-trained classification algorithms | |
US20160098842A1 (en) | Method and system for unsupervised image segmentation using a trained quality metric | |
CN111626163B (zh) | 一种人脸活体检测方法、装置及计算机设备 | |
US20150189186A1 (en) | Automatic photographing method and system thereof | |
CN112101359B (zh) | 文本公式的定位方法、模型训练方法及相关装置 | |
CN113516666A (zh) | 图像裁剪方法、装置、计算机设备及存储介质 | |
CN112183488A (zh) | 人脸检测模型训练方法、设备及人脸检测方法 | |
US20210012503A1 (en) | Apparatus and method for generating image | |
CN114399781A (zh) | 文档图像处理方法及装置、电子设备、存储介质 | |
CN114494775A (zh) | 视频切分方法、装置、设备及存储介质 | |
CN109615620B (zh) | 图像压缩度识别方法、装置、设备及计算机可读存储介质 | |
CN115482529A (zh) | 近景色水果图像识别方法、设备、存储介质及装置 | |
CN112218005A (zh) | 一种基于人工智能的视频剪辑方法 | |
CN109447911B (zh) | 图像复原的方法、装置、存储介质和终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |