CN113763391A

CN113763391A - 一种基于视觉元素关系的智能化图像剪裁方法和系统

Info

Publication number: CN113763391A
Application number: CN202111125764.XA
Authority: CN
Inventors: 潘治宇; 陆昊; 曹治国
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2021-12-07
Anticipated expiration: 2041-09-24
Also published as: CN113763391B

Abstract

本发明公开了一种基于视觉元素关系的智能化图像剪裁方法和系统，属于数字图像处理与模式识别技术领域。包括：利用深度卷积网络提取框内和框外的视觉单词内容特征以表达各视觉元素，结合可学习的位置嵌入表达，将输入图像转化为具有图像空间位置信息的框内和框外视觉单词序列；利用多层多头注意力模块，建模框内单词之间的引性美学关系和框内与框外单词之间的斥性美学关系，得到引性和斥性美学关系特征；融合内容特征、引性美学关系特征和斥性美学关系特征，预测每一个候选裁剪框的美学评分并排序，得到裁剪结果。本发明挖掘了视觉元素之间的关系模式，可更泛化、更鲁棒地应用于各种类别的图像，且通过裁剪得到的重构图结果更加符合真实用户偏好。

Description

一种基于视觉元素关系的智能化图像剪裁方法和系统

技术领域

本发明属于数字图像处理和模式识别技术领域，更具体地，涉及一种基于视觉元素关系的智能化图像剪裁方法和系统。

背景技术

图像美学裁剪是一种通过裁剪对原始图像进行重构图，以增强其美学质量的任务，要求计算机对于输入图像的美学概念有高层次理解，从基本的图像内容识别、图像语义理解，到高层次的美学概念建模、美学质量评价，包含了从语义、位置等低层次概念到图像美学、构图等高层次概念多个侧面的算法设计。终端用户的多数需求都与图像及图像美学有关，例如用户期望在缺乏专业训练的情况下能够得到具有一定的美学性的摄影作品或期望在某一设备下自定义的壁纸能够自动地迁移到同一生态下的不同尺寸的屏幕上(如从同一生态的手机到电脑)；而服务厂商需要进行大量的创意设计，其中一些需要美学基础但重复性高、操作繁琐的步骤(如裁剪)会耗费大量的人力资源与时间，所以服务厂商对于智能化美学裁剪也有很大的需求。

传统的图像美学裁剪主要基于图像的局部RGB特征，主要包括颜色、纹理、显著性等。现有算法采用构造能量函数的优化框架，利用针对性设计的能量函数表达裁剪结果的质量，通过优化该能量函数，从而得到能量函数最低的裁剪结果。但现有算法有几个方面的不足：一是局部RGB特征所建模的信息不足，难以支撑对于高层次概念的描述；二是没有对于美学概念进行建模，导致裁剪结果难以满足真实人类用户的美学需求。

近年来，硬件设备算力的大幅提升和深度学习的广泛应用为解决局部RGB特征所包含的信息不足问题提供了好的解决方案，使得对图像的高层次理解水平有了很大程度地提高。深度学习模型能够从大量的数据样本中学习，足以提供丰富的信息，这些深度学习模型所提供的丰富特征为图像美学裁剪提供了非常大的便利。

然而现有基于深度学习的图像裁剪技术，本质上依然与传统基于RGB特征的方法相似，即根据图像内容特征回归出评分以评价某一个裁剪框。但是这样的范式并未对于美学概念进行针对性建模，只是对于样本中好的裁剪结果进行拟合，这也就导致了现有方法在实际应用中，在面对模式多样、训练集难以覆盖的样本时(如风景、艺术等)难以给出符合用户需求的结果。

发明内容

针对相关技术的缺陷，本发明的目的在于提供一种基于视觉元素关系的智能化图像剪裁方法和系统，旨在解决现有的基于深度学习的图像美学裁剪方法在实际应用中泛化性差的技术问题。

为实现上述目的，本发明的一方面提供了一种基于视觉元素关系的智能化图像剪裁方法，包括以下步骤：

S1.利用深度卷积网络将输入图像转化为具有图像空间位置信息的框内视觉单词序列和框外视觉单词序列，并建模得到单词内容特征；

S2.利用多层多头注意力模块，建模框内单词之间的引性美学关系特征和框内与框外单词之间的斥性美学关系特征；引性美学关系是视觉元素之间对于整体构图协调有贡献的空间或语义关系，斥性美学关系是视觉元素之间空间或者语义层面的不兼容关系；

S3.融合所述单词内容特征、引性美学关系特征和斥性美学关系特征，对候选裁剪框评分并排序，得到最佳的重构图结果。

进一步地，所述步骤S1具体包括：

S101.将待裁剪的图像I输入到已训练的深度卷积网络中，逐层进行下采样并提取多尺度的卷积特征，融合多尺度的特征后得到内容特征图M，结合候选裁剪框B，通过RoIAlign和RoDAlign得到尺寸皆为h×w×c的框内内容特征图M^I和框外内容特征图M^D，其中h为高度，w为宽度，c是维度；

S102.将框内内容特征图M^I和框外内容特征图M^D序列转化为尺寸为hw×c的第一框内内容特征序列C^I和第一框外内容特征序列C^D，序列中的每一个c维特征对应于输入图像I的一个区域；

S103.将框内内容特征序列C^I和框外内容特征序列C^D分别与已学习的相同形状的框内位置嵌入表达P^I和框外位置嵌入表达P^D相加，得到具有图像空间位置信息的第二框内内容特征序列

和第二框外内容特征序列

进一步地，所述步骤S2具体包括：

S201.将第二框内内容特征序列

和第二框外内容特征序列

分别输入到已训练的内引性关系编码器A^I和外引性关系编码器A^D中，得到框内引性美学关系特征序列

和框外引性美学关系特征序列

S202.将框内引性美学关系特征序列

和框外引性美学关系特征序列

共同输入到已训练的斥性美学关系编码器R中，得到建模了裁剪框内外视觉元素之间斥性美学关系的框内外斥性美学关系特征序列

其中，内引性关系编码器A^I、外引性关系编码器A^D和斥性美学关系编码器R均包括堆叠的多头注意力模块、前向网络和线性变换。

进一步地，步骤S201具体包括：

(2.1.1)将框内内容特征序列

和框外内容特征序列

分别作为内引性关系编码器A^I和外引性关系编码器A^D的初始特征X₀；

(2.1.2)将特征X_i-1输入到关系编码器A的第i-1层多头注意力模块φ_i-1(Q，K，V)中，其中Q、K、V分别为多头注意力模块的查询、键值和真值；由M_i＝φ_i(Q，K，V)+X_i-1得到第i层的隐藏状态M_i，其中

多头注意力模块φ(Q，K，V)表示为：

其中Q_h、K_h、V_h分别表示经过变化的第h个头的查询、键值和真值，α(·)表示softmax运算，δ(·)表示沿特征维度拼接；由X_i＝γ(ξ(M_i))+M_i得到第i层的特征，其中ξ(·)为线性变换，γ(·)为前向网络；

(2.1.3)重复(2.1.2)操作l次，3≤l≤10，由

得到内引性关系编码器A^I和外引性关系编码器A^D的输出结果，即框内引性美学关系特征序列

和框外引性美学关系特征序列

进一步地，步骤S202具体包括：

(2.2.1)将框内引性美学关系特征序列

和框外引性美学关系特征序列

分别作为斥性美学关系编码器R的初始特征Y^I和

(2.2.2)将特征

输入到斥性美学关系编码器R的第i-1层的首个多头注意力模块φ′_i-1(Q，K，V)中，其中

由

得到第i层的隐藏状态H′_i；

(2.2.3)将第i层的隐藏状态H′_i和特征Y^I输入到斥性美学关系编码器R的第i-1层的第二个多头注意力模块φ″_i-1(Q，K，V)中，其中

由H″_i＝φ″_i(Q，K，V)+H′_i得到第i层的隐藏状态H″_i，通过

得到第i层的特征，其中ξ(·)为线性变换，γ(·)为前向网络；

(2.2.4)按顺序重复(2.2.2)和(2.2.3)操作k次，3≤k≤10，由

得到斥性美学关系编码器R的输出结果，即框内外斥性美学关系特征序列

进一步地，所述步骤S3具体包括：

S301.将框内引性美学关系特征序列

和框内外斥性美学关系特征序列

变形为与框内内容特征图M^I空间尺寸一致的形状，得到框内引性美学关系特征图

和框内外斥性美学关系特征图

由

得到用于回归美学评分的特征图M，其中，δ(·)表示沿特征维度拼接；

S302.按照上述操作得到所有候选裁剪结果的评分集合S＝{s₁，s₂，...，s_T}，T表示候选裁剪框的总个数，对评分集合进行排序并依照用户需求将评分最大的m个候选裁剪框作为结果输出。

进一步地，所述框内位置嵌入表达、框外位置嵌入表达、深度卷积网络、内引性美学关系编码器、外引性美学关系编码器和斥性美学关系编码器采用如下方法进行训练：

将框内位置嵌入表达、框外位置嵌入表达、深度卷积网络、内引性美学关系编码器、外引性美学关系编码器和斥性美学关系编码器组成整体网络：

所述整体网络的误差函数为

其中，s_t表示网络预测的第t个候选裁剪框的评分，g_t表示该候选裁剪框人工标注的真实评分，T表示候选裁剪框的总个数，

为smooth L1损失函数，可表示为

利用神经网络框架Pytorch进行训练，首先对整体网络参数进行恺明初始化，然后利用自适应动量估计优化算法对整体网络参数进行更新，并在训练误差函数变化小于预设阈值的时候停止训练。

本发明的另一方面提供了一种基于视觉元素关系的智能化图像剪裁系统，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行上述的智能化图像剪裁方法。

通过本发明所构思的以上技术方案，与现有技术相比，能够取得以下有益效果：

(1)本发明提出的基于视觉元素关系的智能化图像剪裁方法，以视觉元素的吸引与排斥关系描述人类的美学概念，获得了针对于美学概念更有表达能力的特征，使得本发明与人类用户的真实偏好更具有一致性，从而保证了裁剪结果具有更高的用户可接受度。

(2)本发明提出的基于视觉元素关系的智能化图像剪裁方法，通过融合图像的内容与关系特征，使得算法具有更好的泛化性和鲁棒性，在面对训练数据中涵盖较少的风景、艺术类图像时也能输出好的裁剪结果，具有很高的实用价值。

附图说明

图1是本发明实施例提供的一种基于视觉元素关系的智能化图像剪裁方法的流程示意图；

图2是本发明实施例中所包含的多头注意力机制的技术说明图；

图3是本发明针对不同裁剪框预测的引性美学关系与斥性美学关系的可视化表示；

图4是本发明对不同类型图像进行裁剪的结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

为实现以上目的，本发明将图像中的视觉元素关系划分为引性美学关系和斥性美学关系。其中，引性美学关系被定义为期望保留在裁剪框内的视觉元素之间的、对于整体构图协调有贡献的空间或语义关系；斥性美学关系被定义为视觉元素之间空间或者语义层面的不兼容关系，斥性美学关系理想情况下呈现于理想裁剪框的框内和框外元素之间。本发明主要分为三大步骤：第一，内容特征提取。首先训练用于描述美学内容特征的深度卷积网络和位置嵌入表达，在测试时，用已训练的骨干网络和位置嵌入表达构建图像的元素的内容特征。第二，关系特征提取。利用堆叠的多层自注意力结构，计算各个视觉元素之间的引性或斥性美学关系，得到美学关系特征。第三，特征融合与回归。融合内容特征和关系特征，回归每一个候选裁剪结果的美学评分并排序，以排序靠前的候选结果作为最终的裁剪结果。

图1所示是本发明实施例提供的一种基于视觉元素关系的智能化图像剪裁方法的流程示意图，包括以下步骤：

(1)利用深度卷积网络将输入图像转化为具有图像空间位置信息的框内视觉单词序列和框外视觉单词序列，并建模单词内容特征；

在一个可选的实施方式中，步骤(1)具体包括：

(1.1)将待裁剪的图像I输入到已训练的深度卷积网络中，逐层进行下采样并提取多尺度的卷积特征，融合多尺度的特征后得到内容特征图M，结合某一个候选裁剪框B，通过RoIAlign和RoDAlign得到形状皆为h×w×c的框内内容特征图M^I和框外内容特征图M^D；

(1.2)将框内内容特征图M^I和框外内容特征图M^D序列化为形状为hw×c的框内内容特征序列C^I和框外内容特征序列C^D，序列中的每一个c维特征对应于输入图像I的某一个区域，即为某一个视觉元素的表达；

(1.3)将框内内容特征序列C^I和框外内容特征序列C^D分别与已学习的相同形状的框内位置嵌入表达P^I和框外位置嵌入表达P^D相加，得到具有图像空间位置信息的框内内容特征序列

和框外内容特征序列

以建模裁剪框内外单词内容特征。

其中，在本发明中，深度卷积网络可以使用ImageNet数据集上预训练的MobileNetV2模型，也可以根据需求使用ShuffleNet等结构。若硬件算力充足，也可使用VGG、AlexNet或ResNet等结构，本发明实例不做限定。

(2)利用多层多头注意力模块，建模框内单词之间的引性美学关系特征和框内与框外单词之间的斥性美学关系特征；

在一个可选的实施方式中，步骤(2)具体包括：

(2.1)将框内内容特征序列

和框外内容特征序列

和框外引性美学关系特征序列

其中，内引性关系编码器A^I和外引性关系编码器A^D均由堆叠的多头注意力模块φ(·)、前向网络γ(·)和线性变换ξ(·)组成；

其中，步骤(2.1)具体包括：

(2.1.1)将框内内容特征序列

(框外内容特征序列

)作为内引性关系编码器A^I(外引性关系编码器A^D)的初始特征X₀；

(2.1.2)由i-1层的输入特征X_i-1计算第i层多头注意力层的特征X_i：其计算过程可表示为：

其中

Q、K、V分别为注意力模块的查询、键值和真值。如图2所示为本发明所包含的多头注意力模块的主要流程，其中注意力φ(Q，K，V)的计算过程可以表示为：

其中Q_h、K_h、V_h分别表示经过线性变换的第h个头的查询、键值和真值，α(·)表示softmax运算，δ(·)表示沿特征维度拼接，ξ(·)为线性变换，γ(·)为前向网络。

(2.1.3)重复(2.1.2)操作l次，由

得到内引性关系编码器A^I(外引性关系编码器A^D)的输出结果，即框内引性美学关系特征序列

(框外引性美学关系特征序列

)。其中，根据交叉实验验证，本发明最终确定l＝6。

(2.2)将框内引性美学关系特征序列

和框外引性美学关系特征序列

共同输入到已训练的斥性美学关系编码器R中，得到建模了裁剪框内外视觉元素之间的斥性美学关系的框内外斥性美学关系特征序列

其中，斥性美学关系编码器R由堆叠的多头注意力模块组{φ′(·)，φ″(·)}、前向网络γ(·)和线性变换ξ(·)组成。

其中，步骤(2.2)具体包括：

(2.2.1)将框内引性美学关系特征序列

和框外引性美学关系特征序列

分别作为斥性美学关系编码器R的初始特征n^I和

(2.2.2)由特征Y^I和i-1层的输入特征

计算第i层多头注意力层的特征

其计算过程可表示为：

其中{φ′(·)，φ″(·)}为多头注意力模块组，ξ(·)为线性变换，γ(·)为前向网络；

(2.2.3)按顺序重复(2.2.2)操作k次，由

其中，根据交叉实验验证，本发明最终确定k＝6。

如图3所示，左侧组图表示对于一个好的候选裁剪框，图像中各视觉元素对于框内的视觉元素的响应；右侧组图表示对于一个差的候选裁剪框，图像中各视觉元素对于框内的视觉元素的响应。可以看出框内视觉元素对于重要元素(人物等)都有较高的响应，即表现出引性关系；而框外元素对于框内元素响应较低，即呈现出排斥关系。比较左右两组图可以看出，被误裁在框外的元素也会对框内元素产生高响应，即表现出引性关系，以此为据则可判断裁剪框的不合理性。

(3)融合内容特征、引性美学关系特征和斥性美学关系特征，对候选裁剪框评分并排序，得到最佳的重构图结果。

其中，步骤(3)具体包括：

(3.1)将框内引性美学关系特征序列

框内外斥性美学关系特征序列

和框内外斥性美学关系特征图

由

得到用于回归美学评分的特征图M，其中，δ(·)表示沿特征维度拼接。

(3.2)依上述操作得到所有候选裁剪结果的评分集合S＝{s₁，s₂，...，s_T}，T表示候选裁剪框的总个数，对评分集合进行排序并依照用户需求将评分最大的m个候选裁剪框作为结果输出。如图4所示，为本发明对不同类型图像进行裁剪的结果，其中，第一行为输入的原始图像，第二行为本发明的裁剪结果。

在一个可选的实施方式中，本方法还包括对深度卷积网络、内引性美学关系编码器、外引性美学关系编码器和斥性美学关系编码器的训练步骤：

将框内位置嵌入表达、框外位置嵌入表达、深度卷积网络、内引性美学关系编码器、外引性美学关系编码器和斥性美学关系编码器组成整体网络，由

得到整体网络的误差函数，其中，s_t表示网络预测的第t个候选裁剪框的评分，g_t表示该候选裁剪框人工标注的真实评分，T表示候选裁剪框的总个数，

为smooth L1损失函数，可表示为

利用神经网络框架Pytorch在GAIC公共数据集上进行训练。GAIC数据集包含1036张RGB图像，总标注量为89519个候选框的平均用户意见分数。在训练过程中，其中首先对整体网络参数进行恺明初始化，然后利用自适应动量估计优化算法对整体网络参数进行更新，并在训练误差函数变化小于某个阈值的时候停止训练，得到已训练的深度网络、内引性美学关系编码器、外引性美学关系编码器和斥性美学关系编码器。

本发明实施例的另一方面提供了一种基于视觉元素关系的智能化图像剪裁系统，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

本发明提出以视觉元素的吸引与排斥关系描述人类的美学概念来进行智能化美学裁剪，利用针对性建模的美学特征增强整体网络的泛化能力。借助自注意力机制强大的拟合能力，自动地学习图像中的关键元素和背景元素，并建模视觉元素之间的引性、斥性美学关系。在此基础上，结合内容特征，整体网络能够更好地估计候选裁剪框的美学评分，从而更好地给出图像的裁剪结果以增强其美学质量。由于该技术裁剪结果与真实用户偏好的一致性佳强，对不同种类的输入图像的鲁棒性好，该技术可以为终端用户的辅助摄影、个性化壁纸自动迁移和服务厂商的创意设计辅助、缩略图批量化生成等多对象、多场景提供有力帮助。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。