CN113159028A

CN113159028A - 显著性感知图像裁剪方法、装置、计算设备和存储介质

Info

Publication number: CN113159028A
Application number: CN202110400578.6A
Authority: CN
Inventors: 袁峰; 徐武将; 王冕; 徐亦飞; 李浬; 桑葛楠
Original assignee: Hangzhou Oying Network Technology Co ltd
Current assignee: Hangzhou Oying Network Technology Co ltd
Priority date: 2020-06-12
Filing date: 2021-04-14
Publication date: 2021-07-23
Anticipated expiration: 2041-04-14
Also published as: CN113159028B; CN112381083A

Abstract

本申请涉及一种显著性感知图像裁剪方法、装置、计算设备和存储介质，其中，该显著性感知图像裁剪方法包括裁剪模型训练和图像裁剪，其中裁剪模型训练包括基于所述原始图像的显著性区域创建初始裁剪图，基于初始剪裁图，以网格锚的方式生成多个候选裁剪图，然后提取原始图像的特征，并利用显著性导向的感兴趣区域池化算子和显著性导向的丢弃区域池化算子对提取图像特征进行裁剪，得到感兴趣区域和丢弃区域的对准特征图；最后将对准特征图馈入能够预测剪裁图像美学分数的美学评价网络进行训练，并得到训练完备的所述剪裁模型。通过本申请，解决了现有技术中图像显著性信息利用不充分、模型可能存在过度拟合的问题。

Description

显著性感知图像裁剪方法、装置、计算设备和存储介质

技术领域

本申请涉及计算机视觉领域，特别是涉及一种显著性感知图像裁剪方法、装置、计算设备和存储介质。

背景技术

图像裁剪旨在找到具有最佳美学质量的图像裁剪物，被广泛使用于图像后期处理，视觉推荐和图像选择中。在需要裁剪大量图像时，图像裁剪变为了一项费力的工作。因此，近年来自动图像裁剪已经引起了研究界和行业内越来越多的关注。

早期的裁剪方法基于摄影知识(例如三分法和中心法等)明确设计了各种手工操作的特征。随着深度学习的发展，大量研究人员致力于以数据驱动的方式来开发裁剪方法，以及一些用于比较的基准数据集的发布,极大地促进了相关研究进展。

然而，获得最佳候选裁剪图依然是极其困难的，现有的图像剪裁技术中，显著性信息仅用于候选裁剪图的产生，图像显著性信息的潜力无法得到完全释放，模型可能存在过度拟合的问题。针对相关技术中存在图像显著性信息利用不充分、模型可能存在过度拟合的问题，目前还没有提出有效的解决方案。

发明内容

在本实施例中提供了一种显著性感知图像裁剪方法、装置、计算设备和存储介质，以解决相关技术中存在图像显著性信息利用不充分、模型可能存在过度拟合的问题。

第一个方面，在本实施例中提供了一种显著性感知图像裁剪方法，包括裁剪模型训练步骤和图像裁剪步骤，其中：

所述裁剪模型训练步骤包括：

获取原始图像，并基于所述原始图像的显著性区域创建初始裁剪图；

基于所述初始剪裁图，以网格锚的方式生成多个候选裁剪图，所述候选剪裁图在所述原始图像中的区域为感兴趣区域，所述原始图像中感兴趣区域以外的区域为丢弃区域；

提取所述原始图像的图像特征；

利用显著性导向的感兴趣区域池化算子和显著性导向的丢弃区域池化算子，对提取的所述图像特征进行裁剪，得到感兴趣区域和丢弃区域的对准特征图；

将所述对准特征图馈入美学评价网络进行训练，得到训练完备的所述剪裁模型；所述美学评价网络为能够预测剪裁图像美学分数的神经网络；

所述图像裁剪步骤包括：

将待剪裁的图像输入训练完备的所述剪裁模型，输出剪裁图像。

在其中的一些实施例中，所述基于显著性区域创建初始裁剪图包括：

将所述原始图像输入预设的显著性目标检测模型，得到显著性边界框，基于所述显著性边界框，创建所述初始裁剪图。

在其中的一些实施例中，所述感兴趣区域池化算子为将显著性信息与可变形位置敏感ROI池化结合，并使用双线性差值计算的可变形的显著性位置敏感ROI对准算子；所述丢弃区域池化算子为将显著性信息与可变形位置敏感ROD池化结合，并使用双线性差值计算的可变形的显著性位置敏感ROD对准算子；

所述利用显著性导向的可变形的显著性位置敏感ROI对准算子和显著性导向的可变形的显著性位置敏感ROD对准算子，对提取的所述图像特征进行裁剪，得到对准特征图，包括：

利用所述可变形的显著性位置敏感ROI对准算子，将原始图像的特征图转化为第一感兴趣区域对准特征图；

利用所述可变形的显著性位置敏感ROD对准算子，将原始图像的特征图转化为第一丢弃区域对准特征图；

将所述第一感兴趣区域对准特征图和第一丢弃区域对准特征图进行连接，得到第一对准特征图。

在其中的一些实施例中，所述利用所述可变形的显著性位置敏感ROD对准算子，将原始图像的特征图转化为第一丢弃区域对准特征图包括：

将丢弃区域按照预设的模式分为四个组件，并用所述可变形的显著性位置敏感ROD对准算子将所述四个组件进行对准，并将对准后的所述四个组件进行连接，得到第一丢弃区域对准特征图。

在其中的一些实施例中，所述将所述对准特征图馈入美学评价网络进行训练的过程包括：将所述第一对准特征图和所述第一丢弃区域对准特征图馈入所述美学评价网络；

所述美学评价网络的损失函数为排名损失函数和得分损失函数的加权；

所述排名损失函数为：所述第一丢弃区域对准特征图的预测美学分数与所述第一对准特征图的预测美学分数的差值和0之中的最大值；

所述得分损失函数为根据每个候选剪裁图的实际美学得分和预测美学分数计算的Huber损失函数，所述候选剪裁图的所述预测美学分数为所述第一对准特征图的所述预测美学分数。

在其中的一些实施例中，所述美学评价网络为由两个相同的全连接网络构成的孪生网络。

在其中的一些实施例中，利用特征提取网络来提取所述原始图像的图像特征；

所述特征提取网络包括基础网络模块和特征聚合模块，所述基础网络模块用于捕获所述原始图像的图像特征，所述特征聚合模块用于补偿特征提取期间的全局上下文和多尺度上下文的损失，所述基础网络模块包括卷积神经网络模型。

在其中的一些实施例中，所述特征聚合模块中采用不同尺度的平均池化来生成不同尺寸的特征图，将所述特征图附加到3×3的卷积层上，通过双线性插值对所述特征图进行上采样以获得与基础网络最后一层的原始特征图相同尺寸的所述特征图，连接来自不同子分支的上采样特征图。

在其中的一些实施例中，所述基础网络设置有跳跃连接。

第二个方面，在本实施例中提供了一种显著性感知图像裁剪装置，包括剪裁模型训练模块和剪裁图像获取模块；

所述剪裁模型训练模块用于使用训练图像集训练剪裁模型；所述剪裁模型训练模块包括裁剪单元、特征提取单元、以及美学评价单元；

所述剪裁单元，用于获取原始图像，并基于所述原始图像的显著性区域创建初始裁剪图；基于所述初始剪裁图，以网格锚的方式生成多个候选裁剪图，所述候选剪裁图在所述原始图像上的区域为感兴趣区域，所述原始图像中感兴趣区域以外的区域为丢弃区域；

所述特征提取单元，用于提取所述原始图像的特征；利用显著性导向的可变形的显著性位置敏感ROI对准算子和显著性导向的可变形的显著性位置敏感ROD对准算子对提取的特征进行裁剪，得到对准特征图；

所述美学评价单元，用于将所述对准特征图馈入美学评价网络进行训练，得到训练完备的所述剪裁模型，所述美学评价网络为能够预测剪裁图像美学得分的神经网络；

所述剪裁图像获取模块用于将待剪裁的图像输入训练完备的所述剪裁模型，输出剪裁图像。

第三个方面，在本实施例中提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项显著性感知图像裁剪方法。

第四个方面，在本实施例中提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一个方面所述的显著性感知图像裁剪方法。

与相关技术相比，本申请提供的显著性感知图像裁剪方法，通过基于原始图像的显著性区域创建初始裁剪图，并且将其集成到池化算子中，解决了现有技术中图像显著性信息利用不充分、模型可能存在过度拟合的问题。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的显著性感知图像裁剪方法的应用终端的硬件结构框图；

图2为其中一个实施例提供的显著性感知图像裁剪方法的裁剪模型训练步骤的流程图；

图3为其中一个实施例中丢弃区域的划分模式示意图；

图4为其中一个实施例提供的显著性感知图像剪裁装置的示意图。

具体实施方式

为更清楚地理解本申请的目的、技术方案和优点，下面结合附图和实施例，对本申请进行了描述和说明。

除另作定义外，本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制，它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体，其目的是涵盖不排他的包含；例如，包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元)，而可包括未列出的步骤或模块(单元)，或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接，而可以包括电气连接，无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。通常情况下，字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等，只是对相似对象进行区分，并不代表针对对象的特定排序。

在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在计算机上运行，图1是本实施例的显著性感知图像裁剪方法的应用终端的硬件结构框图。如图1所示，计算机可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104，其中，处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述计算机的结构造成限制。例如，计算机还可包括比图1中所示更多或者更少的组件，或者具有与图1所示出的不同配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如在本实施例中的显著性感知图像裁剪方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(NetworkInterface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种显著性感知图像裁剪方法，包括裁剪模型训练步骤和图像裁剪步骤，图2是本实施例的显著性感知图像裁剪方法的裁剪模型训练步骤的流程图，如图2所示，该流程包括如下步骤：

步骤S201，获取原始图像，并基于所述原始图像的显著性区域创建初始裁剪图；

具体地，显著区域指的是图像中引人注目的区域或比较重要的区域，通常情况下，剪裁图像的目的是保留这部分区域，删去不显著的区域。例如，可以采用HC(Histogram-based Contrast)算法、FT(Frequency-tuned)算法以及RC(Region-based Contrast)算法等算法检测图像的显著性区域。

步骤S202，基于所述初始剪裁图，以网格锚的方式生成多个候选裁剪图，所述候选剪裁图在所述原始图像上的区域为感兴趣区域(ROI,Region of Interest)，所述原始图像中感兴趣区域以外的区域为丢弃区域(ROD,Region of Discard)，感兴趣区域和丢弃区域为一个潜在区域对。

具体地，借鉴专业摄影裁剪保留中心内容的特点，以初始剪裁区域中心为锚点，以锚点为中心，等比例扩张的方式生成多个网格，网格内的区域为所述候选剪裁图。具体可以通过以下步骤来完成：

原始图像大小为W×H，首先将原始图像分成M×N个图像块，候选剪裁图的边界落入所述块的中心，m₁、m₂、n₁、n₂分别表示从初始裁剪图到原始图像上下边界和左右边界的块数。候选裁剪图的总数为

其中，

进一步地，设置生成候选剪裁图的约束条件，合格的裁剪图应超过原始图像的一定比例，以排除一定数量的大小不合适的候选裁剪图：

area(S_crop)＝ρarea(I)，

其中area()为面积函数，输出图像的面积，S_crop表示候选裁剪区域，ρ为约束参数，

进一步地，通过约束候选剪裁图的长宽比来提高候选裁剪图的美学质量：

其中，W_crop和H_crop分别为候选剪裁图的长和宽，α₁和α₂为约束参数，具体可以根据需要设置，比如分别设置为0.5和2。

步骤S203，提取所述原始图像的图像特征。

在对图像进行分析之前，需要提取图像的特征。例如，可以通过卷积神经网络提取图像特征，并得到图像的特征图。

步骤S204，利用显著性导向的感兴趣区域池化算子和显著性导向的丢弃区域池化算子，对提取的所述图像特征进行裁剪，得到感兴趣区域和丢弃区域的对准特征图。

需要说明的是，步骤S203提取的图像特征是原始图像的全局特征，对于每一个候选裁剪方式，即每一个潜在区域对，也需要得到其感兴趣区域和丢弃区域的图像特征。所以需要对全局特征进行裁剪，获得每个候选剪裁方式感兴趣区域的特征图和丢弃区域的特征图。

具体地，本申请实施例还采用池化的方式将候选剪裁框与原始图像对齐，在池化算子中还结合了图像的显著性信息。

步骤S205，将所述对准特征图馈入美学评价网络进行训练，最后得到训练完备的所述剪裁模型。所述美学评价网络为能够预测剪裁图像美学分数的神经网络。

需要说明的是，本实施例需要在步骤S202生成的多个候选剪裁图选择一个作为最终的剪裁图，此时需要对每个候选剪裁图进行评价，选出质量最高的候选剪裁图。比如可以使用神经网络来预测每个候选剪裁图的得分，如果训练图像集中的候选剪裁图的得分为人工基于候选剪裁图的美感进行的打分，此时，神经网络预测的分数为美学分数，意味着这个神经网络可以用来评价输入图像的美感，即美学评价网络。

在用训练图像集将美学评价网络训练完成后，整个模型也训练完备，得到该剪裁模型。此时将原始图像输入剪裁模型后，剪裁模型首先生成多个候选剪裁图，再通过美学评价网络选出美学分数最高的候选剪裁图，作为最终剪裁图输出。

具体地，训练剪裁模型使用的数据集可以从网上下载现有的，已注释好的数据集，也可以收集原始图片，并对每张图片进行不同方式的剪裁，然后对每张剪裁图打分，形成用于模型训练的图像样本。

可选地，对于所有图像样本，在训练之前，通过双线性插值将短边的大小调整为256，并采用常规运算符(随机调整对比度、饱和度、亮度、色相和水平翻转)进行数据增强。

可选地，使用在ImageNet数据集上计算出的平均值和标准差将所有样本的值归一化为[0,1]。

本申请实施例提供的显著性感知图像裁剪方法，与相关技术相比，充分利用了图像的显著性信息，考虑了显著性信息以消除不良的候选裁剪图，避免了剪裁模型发生过度拟合的问题，并且将其集成到池化算子中，以构建能够编码内容偏好的显著性感知的感受野。

在其中的一些实施例中，步骤S202，基于显著性区域创建初始裁剪图，包括：

将原始图像输入预设的显著性目标检测模型，得到显著性边界框，基于所述显著性边界框，创建所述初始裁剪图。

例如，可以通过如下步骤创建初始剪裁图：

使用显著性目标检测模型，例如，现有的PoolNet模型，得到显著性边界框S_sal；

如果S_sal与原始图像的比值小于一定阈值，则对该显著性边界框S_sal的范围进行扩大；

如果S_sal不在原始图像中，则显著性边界框S_sal设为原始图像区域；

如果S_sal与原始图像之间的距离与原始图像的长或宽的比值小于一定阈值，则对该显著性边界框S_sal的范围进行缩小；

最后，初始剪裁区域为得到的显著性边界框S_sal。

通过上述步骤，使用PoolNet模型可以生成视觉愉悦的显著性边界框，并对显著性边界框的大小进行限定，最终获得大小合适的初始剪裁区域。

在其中的一些实施例中，步骤S204中的感兴趣区域池化算子为将显著性信息与可变形位置敏感ROI池化结合，并使用双线性差值计算的可变形的显著性位置敏感ROI对准算子；丢弃区域池化算子为将显著性信息与可变形位置敏感ROD池化结合，并使用双线性差值计算的可变形的显著性位置敏感ROD对准算子。

具体地，作为一种可实施方式，在可变形位置敏感ROI(ROD)池化的基础上，将显著性信息融入其中，显著性可变形位置敏感ROI(ROD)池化定义为：

其中，f′(i,j)和f(i,j)分别是输出的ROI(ROD)池化特征图和原始图像的特征图，(i,j)为图像划分的bins的bin坐标，(x,y)是图像像素坐标吗，(x_lf，y_lf)为ROI(ROD)的左上角像素坐标，n是bin中的像素数，Δx,Δy是从全连接层中学到的偏移量，S_i,j(x,y)是显著性图，S_i,j(x,y)的值为0或1。具体地，可以将池化类别数设置为8，以减少后续子网络的计算量，并将池化网格设定为3×3的网格。

作为另一种可实施方式，使用双线性插值计算ROI(ROD)对准中采用的精确值，代替ROI(ROD)池化中采用的整数值，以解决在显著性感知变形位置敏感ROI(ROD)合并中发生的舍入误差和未对准问题，得到可变形的显著性位置敏感ROI(ROD)对准算子。

在这个基础上，上述步骤S204包括：

利用可变形的显著性位置敏感ROI对准算子，将原始图像的特征图转化为第一感兴趣区域对准特征图；

利用可变形的显著性位置敏感ROD对准算子，将原始图像的特征图转化为第一丢弃区域对准特征图；

将第一感兴趣区域对准特征图和第一丢弃区域对准特征图进行连接，得到第一对准特征图。

使用本实施例提供的可变形的显著性位置敏感ROI(ROD)对准算子可以得到感兴趣区域和丢弃区域对准特征图，并且提升了计算速度。

在其中的一些实施例中，在上述实施例的基础上，所述利用所述可变形的显著性位置敏感ROD对准算子，将原始图像的特征图转化为第一丢弃区域对准特征图包括：

将丢弃区域按照预设的模式分为四个组件，并用所述可变形的显著性位置敏感ROD对准算子将四个组件进行对准，并通过在对准后的所述四个组件后附加一个1×1的卷积层，将对准后的所述四个组件进行连接，以减小通道尺寸，得到第一丢弃区域对准特征图。

图3为本实施例所述的模式，如图3所示，将原始图像的特征图分为3×3的区域，5的区域是感兴趣区域，其余的区域为丢弃区域，如图3中的模式1、模式2和模式3所示，可以将丢弃区域分为4个组件。实践证明，模式3效果最好的。

本实施例提供的显著性感知图像剪裁方法，改进了丢弃区域组件的模式，提升了丢弃区域特征提取效果。

在其中的一些实施例中，在上述实施例的基础上，步骤S205，将所述对准特征图馈入美学评价网络进行训练的过程包括：将所述第一对准特征图和所述第一丢弃区域对准特征图馈入所述美学评价网络。

具体地，可以通过以下约束条件来训练美学评价网络：

Φ(ROI_D_P4)≥Φ(ROD_P4)

其中，Φ(ROI_D_P4)为第一对准特征图的预测美学分数，Φ(ROD_P4)为第一丢弃区域对准特征图的预测美学分数，area()为面积函数，输出图像的面积，γ为面积比例，依据经验，可以设定为2/3。该约束条件意味着，在保证感兴趣区域面积大于一定预设阈值的情况下，使感兴趣区域的预测美学分数大于丢弃区域的预测美学分数。候选剪裁图的预测美学分数为所述第一对准特征图的预测美学分数。

所述美学评价网络的损失函数为排名损失函数和得分损失函数的加权；具体地，该损失函数l_total可以表示成如下形式：

其中，l_rank为排名损失函数，l_mos为得分损失函数，

为权衡参数，依据经验，可以设定为1。

所述排名损失函数l_rank为：所述第一丢弃区域对准特征图的预测美学分数与所述第一对准特征图的预测美学分数的差值和0之中的最大值；

具体地，损失函数l_rank可以表示成如下形式：

l_rank(ROI_D_P4,ROD_P4)＝max{0,Φ(ROD_P4)-Φ(ROI_D_P4)}；

所述得分损失函数l_mos为根据每个候选剪裁图的实际美学得分和预测美学分数计算的Huber损失函数。

进一步地，令e_ij＝g_ij-p_ij，g_ij和p_ij分别是图像i的第j个候选裁剪图的平均意见分数(MOS)和预测美学分数。为了加强美学评价网络对异常值的鲁棒性，定义Huber损失函数：

可选地，利用Adam优化器通过最小化损失函数来训练本发明的网络，并将所有超参数设置为默认值，初始学习率设置为1e-4，最大epoch设置为100。就显著性图而言，使用PoolNet可以产生令人愉悦的显著性边界框。此外，batch normalization和dropout也用于美学评价网络。

在本实施例提供的显著性感知图像剪裁方法中，美学评价网络学习了ROI和ROD的相对排名顺序以及排名损失，揭示了裁剪过程的内在机理，并揭示了潜在区域对的内部联系。

在其中一些实施例中，美学评价网络为由两个相同的全连接网络构成的孪生网络。孪生网络会共享网络参数，降低了网络学习得成本，也降低了网络本身的参数量。本实施例使用孪生网络，提高了网络表现效果，使得预测得结果更加贴近MOS。

在其中一些实施例中，利用特征提取网络来提取所述原始图像的图像特征。

所述特征提取网络包括基础网络模块和特征聚合模块，所述基础网络模块用于捕获所述原始图像的图像特征，所述特征聚合模块用于补偿特征提取期间的全局上下文和多尺度上下文的损失。

具体地，基础网络可以是任何有效的卷积神经网络模型，以捕获图像特征并同时保留足够多的感受野。

可选地，在训练剪裁模型时，将一个预先训练好的MobilNetV2模型加载到本发明的特征提取网络中，以减轻过度拟合。

本实施例提供的显著性感知图像剪裁方法，通过基础卷积神经网络提取图像特征并通过特征聚合模块补偿特征提取期间的全局上下文和多尺度上下文的损失，得到了同时表示原始图像全局上下文和局部上下文的信息丰富的特征图。

在其中一些实施例中，特征聚合模块中采用不同尺度的平均池化来生成不同尺寸的特征图，将所述特征图附加到3×3的卷积层上，通过双线性插值对所述特征图进行上采样以获得与基础网络最后一层的原始特征图相同尺寸的所述特征图，连接来自不同子分支的上采样特征图。

本是实施例提供的方法，通过采用多尺度的特征提取网络来描述原始图像的特征，得到了信息丰富的特征图。

在其中一些实施例中，所述基础网络中设置有跳跃连接。通过跳跃连接可以在某种程度上提供原始图像全局上下文信息。

在一个优选实施例中，提供了一种显著性感知图像裁剪方法，包括裁剪模型训练步骤和图像裁剪步骤。其中，剪裁模型包括剪裁模块、特征提取网络、孪生美学评价网络。

具体地，裁剪模型训练步骤分为如下步骤：

步骤S301，将原始图像输入预设的显著性目标检测模型，得到显著性边界框，基于所述显著性边界框，创建所述初始裁剪图。

步骤S302，基于初始剪裁图，以网格锚的方式生成多个候选裁剪图，所述候选剪裁图在所述原始图像上的区域为感兴趣区域，所述原始图像中感兴趣区域以外的区域为丢弃区域，感兴趣区域和丢弃区域为一个潜在区域对。

步骤S303，通过特征提取网络提取所述原始图像的图像特征，具体地，所述特征提取网络包括基础网络模块和特征聚合模块。

步骤S304，可变形的显著性位置敏感ROI(ROD)对准算子对提取的所述图像特征进行裁剪，得到感兴趣区域和丢弃区域的对准特征图；

步骤S305，将所述对准特征图馈入孪生美学评价网络进行训练，得到裁剪模型。

本申请实施例提供的显著性感知图像裁剪方法，与相关技术相比，充分利用了图像的显著性信息，考虑了显著性信息以消除不良的候选裁剪图，避免了剪裁模型发生过度拟合的问题，并且将其集成到池化算子中，以构建能够编码内容偏好的显著性感知的感受野。此外，这种显著性感知图像裁剪方法，通过使孪生美学评价网络学习了ROI和ROD的相对排名顺序以及排名损失，揭示了裁剪过程的内在机理，并揭示了潜在区域对的内部联系。

在本实施例中还提供了一种显著性感知图像裁剪装置，图4为本实施例提供的显著性感知图像剪裁装置的示意图，如图4所示，该装置包括剪裁模型训练模块100和剪裁图像获取模块200；

所述剪裁模型训练模块100用于使用训练图像集训练剪裁模型，所述剪裁模型训练模块100包括剪裁单元110、特征提取单元120、以及美学评价单元130。

其中，剪裁单元110用于获取原始图像，并基于所述原始图像的显著性区域创建初始裁剪图；基于所述初始剪裁图，以网格锚的方式生成多个候选裁剪图，所述候选剪裁图在所述原始图像上的区域为感兴趣区域，所述原始图像中感兴趣区域以外的区域为丢弃区域；

特征提取单元120用于提取所述原始图像的特征；利用显著性导向的可变形的显著性位置敏感ROI对准算子和显著性导向的可变形的显著性位置敏感ROD对准算子对提取的特征进行裁剪，得到对准特征图；

美学评价单元130用于将所述对准特征图馈入美学评价网络进行训练，得到剪裁模型，所述美学评价网络为能够预测剪裁图像美学分数的神经网络；

所述剪裁图像获取模块200用于将待剪裁的图像输入训练完备的所述剪裁模型，输出剪裁图像。

本申请实施例提供的显著性感知图像裁剪装置，与相关技术相比，充分利用了图像的显著性信息，考虑了显著性信息以消除不良的候选裁剪图，避免了剪裁模型发生过度拟合的问题，并且将其集成到池化算子中，以构建能够编码内容偏好的显著性感知的感受野。

在本实施例中还提供了一种计算设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述中任一个实施例所述的显著性感知图像裁剪方法。

此外，结合上述实施例中提供的显著性感知图像裁剪方法，在本实施例中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种显著性感知图像裁剪方法。

需要说明的是，在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，在本实施例中不再赘述。

应该明白的是，这里描述的具体实施例只是用来解释这个应用，而不是用来对它进行限定。根据本申请提供的实施例，本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例，均属本申请保护范围。

显然，附图只是本申请的一些例子或实施例，对本领域的普通技术人员来说，也可以根据这些附图将本申请适用于其他类似情况，但无需付出创造性劳动。另外，可以理解的是，尽管在此开发过程中所做的工作可能是复杂和漫长的，但是，对于本领域的普通技术人员来说，根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段，不应被视为本申请公开的内容不足。

“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例，也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是，本申请中描述的实施例在没有冲突的情况下，可以与其它实施例结合。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对专利保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种显著性感知图像裁剪方法，其特征在于，包括裁剪模型训练步骤和图像裁剪步骤，其中：

所述裁剪模型训练步骤包括：

提取所述原始图像的图像特征；

所述图像裁剪步骤包括：

2.根据权利要求1所述的显著性感知图像裁剪方法，其特征在于，所述基于显著性区域创建初始裁剪图包括：

3.根据权利要求2所述的显著性感知图像裁剪方法，其特征在于，所述感兴趣区域池化算子为将显著性信息与可变形位置敏感ROI池化结合，并使用双线性差值计算的可变形的显著性位置敏感ROI对准算子；所述丢弃区域池化算子为将显著性信息与可变形位置敏感ROD池化结合，并使用双线性差值计算的可变形的显著性位置敏感ROD对准算子；

4.根据权利要求3所述的显著性感知图像裁剪方法，其特征在于，所述利用所述可变形的显著性位置敏感ROD对准算子，将原始图像的特征图转化为第一丢弃区域对准特征图包括：

5.根据权利要求3所述的显著性感知图像裁剪方法，其特征在于，所述将所述对准特征图馈入美学评价网络进行训练的过程包括：将所述第一对准特征图和所述第一丢弃区域对准特征图馈入所述美学评价网络；

6.根据权利要求1所述的显著性感知图像裁剪方法，其特征在于，所述美学评价网络为由两个相同的全连接网络构成的孪生网络。

7.根据权利要求1所述的显著性感知图像裁剪方法，其特征在于，利用特征提取网络来提取所述原始图像的图像特征；

8.根据权利要求7所述的显著性感知图像裁剪方法，其特征在于，所述特征聚合模块中采用不同尺度的平均池化来生成不同尺寸的特征图，将所述特征图附加到3×3的卷积层上，通过双线性插值对所述特征图进行上采样以获得与基础网络最后一层的原始特征图相同尺寸的所述特征图，连接来自不同子分支的上采样特征图。

9.根据权利要求8所述的显著性感知图像裁剪方法，其特征在于，所述基础网络设置有跳跃连接。

10.一种显著性感知图像裁剪装置，其特征在于，包括剪裁模型训练模块和剪裁图像获取模块；

11.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至9中任一项所述的显著性感知图像裁剪方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的显著性感知图像裁剪方法的步骤。