CN113436224B

CN113436224B - 一种基于显式构图规则建模的智能图像裁剪方法及装置

Info

Publication number: CN113436224B
Application number: CN202110655020.2A
Authority: CN
Inventors: 洪超仪; 曹治国; 杜帅元; 鲜可; 陆昊
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2022-04-26
Anticipated expiration: 2041-06-11
Also published as: CN113436224A

Abstract

本发明公开了一种基于显式构图规则建模的智能图像裁剪方法及装置，属于图像美学与多媒体技术领域，方法包括：i)利用深度卷积网络作为骨架网络对输入图像进行特征提取；ii)对于构图分支，基于类别激活映射技术生成每类构图规则的置信度以及相应的类别激活图，并将其融合为关键要素图；iii)对于裁剪分支，对骨架网络的特征图进一步编码，在原图中预设均匀的锚点，裁剪网络输出这些锚点与标注裁剪框的偏移量；利用关键要素图对每个预设的锚点进行加权，得到预测裁剪框；iv)利用损失函数对整个网络进行优化。本发明关注了裁剪结果的构图可解释性，提高了裁剪结果的构图质量，具有很高的处理速度，实时性强。

Description

一种基于显式构图规则建模的智能图像裁剪方法及装置

技术领域

本发明属于图像美学与多媒体技术领域，更具体地，涉及一种基于显式构图规则建模的智能图像裁剪方法及装置。

背景技术

随着生活水平的提高，人们已经不能仅仅满足于物质追求，越来越多的艺术、美学元素融入到了人们的生活当中。美学作为一个抽象的认知概念，对于计算机的学习来说具有巨大的挑战性。随着数字化摄影和多媒体技术的发展，越来越多的研究着力于美学相关的领域，旨在让计算机也能够认知美学。

智能图像裁剪是用于提升图像美学效果的有效途径之一，它被广泛地应用于摄影图像的后处理中。图像裁剪的目的是将图像中冗余的部分裁去，合理地安排各个构图元素的分布，从而改善图像的整体构图，提升图像的美学质量。图像裁剪可以应用于多视角推荐、海报生成、图像缩略图生成等应用中，并且在人们日常“晒图”时，提供更加生动的高质量图像。

目前的图像裁剪算法分成三类：(1)基于显著性的图像裁剪算法；(2)基于美学的图像裁剪算法；(3)基于强化学习的图像裁剪算法。基于显著性的方法目的在于保留图像中的显著区域，但其裁剪结果通常缺乏美感。基于美学的方法将任务转换成了如何对具有相似内容的不同裁剪候选框进行美学评分，这些方法通常为数据驱动，即利用专家标注的数据集对网络进行训练，在这些方法中并未对美学的概念进行定义。基于强化学习的方法将裁剪建模成了序列化的多步移动过程，将美学评分作为优化目标，引导智能体进行序列化的移动，从而学习图像中的最佳裁剪方式。基于强化学习的方法提供了一种新的建模方式，更加符合人的裁剪过程。但以上方法都没能挖掘图像裁剪任务的本质特性，即对于构图规则和元素的学习和编码。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于显式构图规则建模的智能图像裁剪方法及装置，其目的在于将构图规则显式地建模到网络当中，实现可解释性裁剪过程，网络可以同时输出裁剪结果、构图规则以及构图依据。

为实现上述目的，本发明提供了一种基于显式构图规则建模的智能图像裁剪方法，包括以下步骤：

S1，获取裁剪数据集和构图数据集并利用骨架网络提取相应特征，得到裁剪特征图和构图特征图，所述裁剪数据集和构图数据集分别标注裁剪框和构图规则；

S2，将所述构图特征图输入构图分支，以对所述构图特征图进行解码，并利用类别激活映射技术，生成每类构图规则的置信度以及相应的类别激活图，再进行加权得到关键要素图；

S3，将所述裁剪特征图输入裁剪分支，以对所述裁剪特征图进行编码，并预测预设锚点与标注裁剪框的偏移量，再基于所述偏移量和裁剪关键要素图得到预测的裁剪框；其中，所述预设锚点设置在原始图像上，所述裁剪关键要素图是通过将所述裁剪特征图输入构图分支得到；

S4，根据S2中所述置信度与标注的构图规则计算第一损失函数，根据所述S3中预测的裁剪框和标注的裁剪框计算第二损失函数；并利用所述第一损失函数和第二损失函数优化所述骨架网络、构图分支和裁剪分支；

S5，将待裁剪图像输入优化后的骨架网络，再并行输入优化后的构图分支和裁剪分支，得到裁剪结果。

进一步地，所述骨架网络采用在ImageNet上预训练的VGG-16，且由所述VGG-16除最后一个最大池化层的所有卷积块构成。

进一步地，所述S2中，对所述构图特征图进行解码，包括：利用卷积、激活函数、上采样以及跨层连接的组合对所述构图特征图进行解码。

进一步地，所述S2中，利用类别激活映射技术，生成每类构图规则的置信度以及相应的类别激活图，包括：利用一层全局平均池化层获得特征向量，再利用一层全连接层将所述特征向量转化成每类构图规则的置信度；通过将全连接层的权值反映射回解码后的构图特征图上，获得相应的类别激活图。

进一步地，所述S2中，进行加权得到关键要素图之前，还包括：将所述类别激活图进行归一化处理。

进一步地，所述S3中，对所述裁剪特征图进行编码，包括：利用多个卷积块对所述裁剪特征图进行编码。

进一步地，所述S3中，预测的裁剪框边界坐标b_k为：

其中，w(a)为锚点a的权值，p(a)为锚点a的在原始图像上的坐标位置，o_k(a)为构图分支预测的锚点a与标注裁剪框的偏移量，A为锚点a的集合，KCM(p(a))表示基于裁剪关键要素图得到的锚点a对于构图的重要程度，k＝1,2,3,4。

进一步地，所述第一损失函数为所述置信度与标注的构图规则之间的交叉熵，所述第二损失函数为预测的裁剪框和标注的裁剪框坐标之间的平滑L1损失。

进一步地，整个网络采用端到端的方式进行训练，采用Adam优化器来进行优化。

为实现上述目的，本发明还提供了一种基于显式构图规则建模的智能图像裁剪装置，包括：

第一处理模块，用于获取裁剪数据集和构图数据集并利用骨架网络提取相应特征，得到裁剪特征图和构图特征图，所述裁剪数据集和构图数据集分别标注裁剪框和构图规则；

第二处理模块，用于将所述构图特征图输入构图分支，以对所述构图特征图进行解码，并利用类别激活映射技术，生成每类构图规则的置信度以及相应的类别激活图，再进行加权得到关键要素图；

第三处理模块，用于将所述裁剪特征图输入裁剪分支，以对所述裁剪特征图进行编码，并预测预设锚点与标注裁剪框的偏移量，再基于所述偏移量和裁剪关键要素图得到预测的裁剪框；其中，所述预设锚点设置在原始图像上，所述裁剪关键要素图是通过将所述裁剪特征图输入构图分支得到；

优化模块，用于根据所述置信度与标注的构图规则计算第一损失函数，根据预测的裁剪框和标注的裁剪框计算第二损失函数；并利用所述第一损失函数和第二损失函数优化所述骨架网络、构图分支和裁剪分支；

输出模块，用于将待裁剪图像输入优化后的骨架网络，再并行输入优化后的构图分支和裁剪分支，得到裁剪结果。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明的网络结构包括骨架网络、构图分支和裁剪分支。具体地：利用深度卷积网络作为骨架网络对输入图像进行特征提取；对于构图分支，基于类别激活映射技术生成每类构图规则的置信度以及相应的类别激活图，并将其融合为关键要素图；对于裁剪分支，对骨架网络的特征图进一步编码，在原图中预设均匀的锚点，裁剪网络输出这些锚点与标注裁剪框的偏移量；利用关键要素图对每个预设的锚点进行加权，得到预测裁剪框；利用损失函数对整个网络进行优化。如此，本发明提出了一种裁剪新范式，即突破了目前由排序候选框进行裁剪的主流方法，呈现了一种由显式构图进行裁剪的新颖范式。

(2)本发明显式地将构图规则建模到网络中，实现可解释性裁剪，除了裁剪框，也能够给出裁剪结果的构图规则及其依据；同时，本发明关注了裁剪结果的构图可解释性，提高了裁剪结果的构图质量，具有很高的处理速度，实时性强。

附图说明

图1是本发明实施例提供的一种基于显式构图规则建模的智能图像裁剪方法的流程图；

图2是本发明实施例提供的网络结构图；

图3是本发明实施例提供的关键要素图KCM生成方式示意图；

图4是本发明实施例提供的九种构图规则的构图要素图以及裁剪结果示意图；

图5是本发明实施例提供的可解释裁剪过程示意图；其中，第一列为输入图像和标注框，第二列为被KCM掩膜覆盖的图像，第三列为加权后的锚点，第四列为输出的裁剪结果；

图6为本发明实施例提供的一种基于显式构图规则建模的智能图像裁剪装置的框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

参阅图1，结合图2至图5，对本发明进行进一步详细说明。图1为本发明实施例提供的一种基于显式构图规则建模的智能图像裁剪方法的流程图，该裁剪方法包括操作S1-操作S5。

操作S1，获取裁剪数据集和构图数据集并利用骨架网络提取相应特征，得到裁剪特征图和构图特征图，裁剪数据集和构图数据集分别标注裁剪框和构图规则。具体地：

(1-1)采用裁剪数据集FCDB和构图数据集KU-PCP对网络进行训练，FCDB为裁剪数据集，包含1743张图像，其中1395张图像用于训练，348张图像用于测试，每张图像由专家标注单个裁剪框。KU-PCP为构图数据集，包含4244张图像，其中3169张图像用于训练，1075张用于测试。共有9类构图规则：三分法构图、中心构图、水平构图、对称构图、对角线构图、曲线构图、垂直构图、三小构图、以及重复模式。在训练过程中，将来自两个数据集的图像放入同一个批次中，同时输入到网络中进行训练。对于输入图像的处理方式为：对输入图像进行随机翻转，将输入的尺寸图像缩放到224×224。

(1-2)采用VGG-16作为骨架网络对输入图像进行特征编码，其由Conv1-1、Conv1-2、Pool1、Conv2-1、Conv2-2、Pool2、Conv3-1、Conv3-2、Conv3-3、Pool3、Conv4-1、Conv4-2、Conv4-3、Pool4、Conv5-1、Conv5-2、Conv5-3组成，利用此骨架网络可获得通道数为512、下采样16倍(512-d，16-r)的特征图F₁∈R^512×14×14。利用在ImageNet上预训练的权值对骨架网络进行初始化。

S2，将所述构图特征图输入构图分支，以对所述构图特征图进行解码，并利用类别激活映射技术，生成每类构图规则的置信度以及相应的类别激活图，再进行加权得到关键要素图。具体地：

(2-1)特征解码。具体网络结构为：a)利用两组256-d，3×3卷积对图像解码，其中每层卷积之后连接一层批正则化层(BatchNorm，BN)和一层ReLU激活函数层，得到256-d，16-r的特征图；b)继而对特征图进行2倍上采样，得到256-d，8-r的特征图；c)利用跨层连接与骨架网络的Pool3层输出进行元素相加，再连接一层128-d，1×1的卷积层，得到128-d，8-r的特征图；d)对特征图进行2倍上采样，得到128-d，4-r的特征图；e)利用跨层连接与骨架网络的Pool2层输出进行元素相加，再连接一层128-d，1×1的卷积层，最终得到128-d，4-r的特征图F₂∈R^128×56×56。构图分支的解码网络结构如图2所示。

(2-2)生成每类构图规则的激活映射图。在特征解码后，运用类别激活映射(ClassActivation Mapping，CAM)技术生成每类构图规则的置信度s∈R^9×1以及相应的类别激活图{M_n,(n＝1,2,…,9)}。具体来说，基于特征图F₂∈R^128×56×56，利用一层全局平均池化层获得特征向量f∈R^128×1，用公式表达为：

随后利用一层全连接层将特征向量f转化成构图类别置信度s，用公式表达为：

通过将全连接层的权值W∈R^128×9反映射回特征图F₂上，可获得每种构图规则的类别激活映射图：

其中，w_c，n为W在(c，n)索引上的值。类别激活映射图能够反映某张图像被判断成某种构图规则的空间依据，以此提供可解释的构图线索。

(2-3)生成关键要素图。基于类别激活映射图{M_n,(n＝1，2，…，9)}，可生成输入图像的关键要素图KCM。首先将M_n归一化到[0,1]，再利用构图类别置信度s对其进行加权求和：

其中φ(·)为归一化函数，即：

继而对KCM进行二插值上采样，得到和输入图像相同空间尺寸的KCM。KCM的生成过程如图3所示，每种构图规则的KCM示例如图4所示。

S3，将所述裁剪特征图输入裁剪分支，以对所述裁剪特征图进行编码，并预测预设锚点与标注裁剪框的偏移量，再基于所述偏移量和裁剪关键要素图得到预测的裁剪框；其中，所述预设锚点设置在原始图像上，所述裁剪关键要素图是通过将所述裁剪特征图输入构图分支得到。具体地：

(3-1)特征编码。利用三组256-d，3×3卷积-批正则化-ReLU激活函数对特征进行编码，获得的特征图F₃∈R^256×14×14。

(3-2)预设均匀锚点。在输入图像上均匀地设置锚点，锚点间隔为K(像素)，本实例中，K设置为8。

(3-3)预测锚点到标注裁剪框的偏移。基于特征图F₃∈R^256×14×14，裁剪分支的回归层预测每个锚点到标注裁剪框四个坐标的偏移O∈R^{14×14×(4*4)}，其中回归层为16-d，1×1的卷积层，本实例中O在空间尺寸上为输入图像分辨率的

偏移O的每个空间单元对应输入图像的16²个像素，即每个空间单元对应

个锚点。每个在输入图像上空间位置为p(a)＝(i,j)的锚点a∈A，对标注裁剪框的坐标k预测偏移量o_k(a)。

(3-4)利用KCM对锚点预测进行加权求和。每个锚点a由KCM进行加权，对应的权值为：

所有的锚点被赋予不同的权值，最后预测的裁剪框边界坐标b_k为：

其中，w(a)为锚点a的权值，p(a)为锚点a的在原始图像上的坐标位置，o_k(a)为构图分支预测的锚点a与标注裁剪框的偏移量，A为锚点a的集合，KCM(p(a))表示基于裁剪关键要素图得到的锚点a对于构图的重要程度。

S4，根据S2中所述置信度与标注的构图规则计算第一损失函数，根据所述S3中预测的裁剪框和标注的裁剪框计算第二损失函数；并利用所述第一损失函数和第二损失函数优化所述骨架网络、构图分支和裁剪分支。具体地：

(4-1)构图分支优化。构图分支的优化目标为：最小化预测的构图类别置信度与构图标签之间的交叉熵。构图分支所对应的损失函数为：

其中c代表标注类别的索引。

(4-2)裁剪分支优化。裁剪分支的优化目标为：最小化预测裁剪框和标注裁剪框坐标之间的平滑L1损失：

其中

为平滑L1损失，g_k为标注裁剪框边界。

(4-3)多任务联合优化。网络为端到端训练，裁剪分支和构图分支在相应的数据集上同时进行优化。在每次迭代过程中，裁剪数据集经过裁剪分支和构图分支，而构图数据集仅仅经过构图分支。本实例采取累计梯度策略对网络参数进行更新。整体网络的优化目标为最小化以下目标函数：

其中λ为一个平衡因子，本实例中设置为0.7。

进一步地，整个网络的训练细节如下：整个网络采用端到端的方式进行训练，采用Adam优化器来进行优化，网络的初始学习率为0.00035，每5个epoch学习率下降到原来的十分之一，最终网络训练20个epoch收敛。网络权值衰减设置为0.0001。骨架网络为在ImageNet上预训练的VGG-16的所有卷积块(除去最后一个最大池化层)。构图分支的分辨率为输入图像的四分之一，裁剪分支的分辨率为输入图像的十六分之一。

S5，将待裁剪图像输入优化后的骨架网络，再并行输入优化后的构图分支和裁剪分支，得到裁剪结果。具体地：

对于待裁剪图像，先由骨架网络对其进行特征提取，而后并行地送入构图分支和裁剪分支，在构图分支中获取相应的KCM，对预设的锚点进行加权，得到最后裁剪输出结果。测试过程的可视化结果如图5所示。

图6为本发明实施例提供的一种基于显式构图规则建模的智能图像裁剪装置的框图。参阅图6，该基于显式构图规则建模的智能图像裁剪装置600包括第一处理模块610、第二处理模块620、第三处理模块630、优化模块640以及输出模块650。

第一处理模块610例如执行操作S1，用于获取裁剪数据集和构图数据集并利用骨架网络提取相应特征，得到裁剪特征图和构图特征图，所述裁剪数据集和构图数据集分别标注裁剪框和构图规则；

第二处理模块620例如执行操作S2，用于将所述构图特征图输入构图分支，以对所述构图特征图进行解码，并利用类别激活映射技术，生成每类构图规则的置信度以及相应的类别激活图，再进行加权得到关键要素图；

第三处理模块630例如执行操作S3，用于将所述裁剪特征图输入裁剪分支，以对所述裁剪特征图进行编码，并预测预设锚点与标注裁剪框的偏移量，再基于所述偏移量和裁剪关键要素图得到预测的裁剪框；其中，所述预设锚点设置在原始图像上，所述裁剪关键要素图是通过将所述裁剪特征图输入构图分支得到；

优化模块640例如执行操作S4，用于根据所述置信度与标注的构图规则计算第一损失函数，根据预测的裁剪框和标注的裁剪框计算第二损失函数；并利用所述第一损失函数和第二损失函数优化所述骨架网络、构图分支和裁剪分支；

输出模块650例如执行操作S5，用于将待裁剪图像输入优化后的骨架网络，再并行输入优化后的构图分支和裁剪分支，得到裁剪结果。

基于显式构图规则建模的智能图像裁剪装置600用于执行上述图1所示实施例中的基于显式构图规则建模的智能图像裁剪方法。本实施例未尽之细节，请参阅前述图1所示实施例中的基于显式构图规则建模的智能图像裁剪方法，此处不再赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于显式构图规则建模的智能图像裁剪方法，其特征在于，包括以下步骤：

S2，将所述构图特征图输入构图分支，以对所述构图特征图进行解码，并利用类别激活映射技术，生成每类构图规则的置信度以及相应的类别激活图，再对所述类别激活图进行加权得到关键要素图；

2.根据权利要求1所述的一种基于显式构图规则建模的智能图像裁剪方法，其特征在于，所述骨架网络采用在ImageNet上预训练的VGG-16，且由所述VGG-16除最后一个最大池化层的所有卷积块构成。

3.根据权利要求1所述的一种基于显式构图规则建模的智能图像裁剪方法，其特征在于，所述S2中，对所述构图特征图进行解码，包括：利用卷积、激活函数、上采样以及跨层连接的组合对所述构图特征图进行解码。

4.根据权利要求1或3所述的一种基于显式构图规则建模的智能图像裁剪方法，其特征在于，所述S2中，利用类别激活映射技术，生成每类构图规则的置信度以及相应的类别激活图，包括：

利用一层全局平均池化层获得特征向量，再利用一层全连接层将所述特征向量转化成每类构图规则的置信度；通过将全连接层的权值反映射回解码后的构图特征图上，获得相应的类别激活图。

5.根据权利要求1所述的一种基于显式构图规则建模的智能图像裁剪方法，其特征在于，所述S2中，进行加权得到关键要素图之前，还包括：将所述类别激活图进行归一化处理。

6.根据权利要求1所述的一种基于显式构图规则建模的智能图像裁剪方法，其特征在于，所述S3中，对所述裁剪特征图进行编码，包括：利用多个卷积块对所述裁剪特征图进行编码。

7.根据权利要求1或6所述的一种基于显式构图规则建模的智能图像裁剪方法，其特征在于，所述S3中，预测的裁剪框边界坐标b_k为：

8.根据权利要求1所述的一种基于显式构图规则建模的智能图像裁剪方法，其特征在于，所述第一损失函数为所述置信度与标注的构图规则之间的交叉熵，所述第二损失函数为预测的裁剪框和标注的裁剪框坐标之间的平滑L1损失。

9.根据权利要求1或8所述的一种基于显式构图规则建模的智能图像裁剪方法，其特征在于，整个网络采用端到端的方式进行训练，采用Adam优化器来进行优化。

10.一种基于显式构图规则建模的智能图像裁剪装置，其特征在于，包括：

第二处理模块，用于将所述构图特征图输入构图分支，以对所述构图特征图进行解码，并利用类别激活映射技术，生成每类构图规则的置信度以及相应的类别激活图，再对所述类别激活图进行加权得到关键要素图；