CN113763391A - 一种基于视觉元素关系的智能化图像剪裁方法和系统 - Google Patents

一种基于视觉元素关系的智能化图像剪裁方法和系统 Download PDF

Info

Publication number
CN113763391A
CN113763391A CN202111125764.XA CN202111125764A CN113763391A CN 113763391 A CN113763391 A CN 113763391A CN 202111125764 A CN202111125764 A CN 202111125764A CN 113763391 A CN113763391 A CN 113763391A
Authority
CN
China
Prior art keywords
frame
aesthetic
relationship
encoder
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111125764.XA
Other languages
English (en)
Other versions
CN113763391B (zh
Inventor
潘治宇
陆昊
曹治国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202111125764.XA priority Critical patent/CN113763391B/zh
Publication of CN113763391A publication Critical patent/CN113763391A/zh
Application granted granted Critical
Publication of CN113763391B publication Critical patent/CN113763391B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视觉元素关系的智能化图像剪裁方法和系统,属于数字图像处理与模式识别技术领域。包括:利用深度卷积网络提取框内和框外的视觉单词内容特征以表达各视觉元素,结合可学习的位置嵌入表达,将输入图像转化为具有图像空间位置信息的框内和框外视觉单词序列;利用多层多头注意力模块,建模框内单词之间的引性美学关系和框内与框外单词之间的斥性美学关系,得到引性和斥性美学关系特征;融合内容特征、引性美学关系特征和斥性美学关系特征,预测每一个候选裁剪框的美学评分并排序,得到裁剪结果。本发明挖掘了视觉元素之间的关系模式,可更泛化、更鲁棒地应用于各种类别的图像,且通过裁剪得到的重构图结果更加符合真实用户偏好。

Description

一种基于视觉元素关系的智能化图像剪裁方法和系统
技术领域
本发明属于数字图像处理和模式识别技术领域,更具体地,涉及一种基于视觉元素关系的智能化图像剪裁方法和系统。
背景技术
图像美学裁剪是一种通过裁剪对原始图像进行重构图,以增强其美学质量的任务,要求计算机对于输入图像的美学概念有高层次理解,从基本的图像内容识别、图像语义理解,到高层次的美学概念建模、美学质量评价,包含了从语义、位置等低层次概念到图像美学、构图等高层次概念多个侧面的算法设计。终端用户的多数需求都与图像及图像美学有关,例如用户期望在缺乏专业训练的情况下能够得到具有一定的美学性的摄影作品或期望在某一设备下自定义的壁纸能够自动地迁移到同一生态下的不同尺寸的屏幕上(如从同一生态的手机到电脑);而服务厂商需要进行大量的创意设计,其中一些需要美学基础但重复性高、操作繁琐的步骤(如裁剪)会耗费大量的人力资源与时间,所以服务厂商对于智能化美学裁剪也有很大的需求。
传统的图像美学裁剪主要基于图像的局部RGB特征,主要包括颜色、纹理、显著性等。现有算法采用构造能量函数的优化框架,利用针对性设计的能量函数表达裁剪结果的质量,通过优化该能量函数,从而得到能量函数最低的裁剪结果。但现有算法有几个方面的不足:一是局部RGB特征所建模的信息不足,难以支撑对于高层次概念的描述;二是没有对于美学概念进行建模,导致裁剪结果难以满足真实人类用户的美学需求。
近年来,硬件设备算力的大幅提升和深度学习的广泛应用为解决局部RGB特征所包含的信息不足问题提供了好的解决方案,使得对图像的高层次理解水平有了很大程度地提高。深度学习模型能够从大量的数据样本中学习,足以提供丰富的信息,这些深度学习模型所提供的丰富特征为图像美学裁剪提供了非常大的便利。
然而现有基于深度学习的图像裁剪技术,本质上依然与传统基于RGB特征的方法相似,即根据图像内容特征回归出评分以评价某一个裁剪框。但是这样的范式并未对于美学概念进行针对性建模,只是对于样本中好的裁剪结果进行拟合,这也就导致了现有方法在实际应用中,在面对模式多样、训练集难以覆盖的样本时(如风景、艺术等)难以给出符合用户需求的结果。
发明内容
针对相关技术的缺陷,本发明的目的在于提供一种基于视觉元素关系的智能化图像剪裁方法和系统,旨在解决现有的基于深度学习的图像美学裁剪方法在实际应用中泛化性差的技术问题。
为实现上述目的,本发明的一方面提供了一种基于视觉元素关系的智能化图像剪裁方法,包括以下步骤:
S1.利用深度卷积网络将输入图像转化为具有图像空间位置信息的框内视觉单词序列和框外视觉单词序列,并建模得到单词内容特征;
S2.利用多层多头注意力模块,建模框内单词之间的引性美学关系特征和框内与框外单词之间的斥性美学关系特征;引性美学关系是视觉元素之间对于整体构图协调有贡献的空间或语义关系,斥性美学关系是视觉元素之间空间或者语义层面的不兼容关系;
S3.融合所述单词内容特征、引性美学关系特征和斥性美学关系特征,对候选裁剪框评分并排序,得到最佳的重构图结果。
进一步地,所述步骤S1具体包括:
S101.将待裁剪的图像I输入到已训练的深度卷积网络中,逐层进行下采样并提取多尺度的卷积特征,融合多尺度的特征后得到内容特征图M,结合候选裁剪框B,通过RoIAlign和RoDAlign得到尺寸皆为h×w×c的框内内容特征图MI和框外内容特征图MD,其中h为高度,w为宽度,c是维度;
S102.将框内内容特征图MI和框外内容特征图MD序列转化为尺寸为hw×c的第一框内内容特征序列CI和第一框外内容特征序列CD,序列中的每一个c维特征对应于输入图像I的一个区域;
S103.将框内内容特征序列CI和框外内容特征序列CD分别与已学习的相同形状的框内位置嵌入表达PI和框外位置嵌入表达PD相加,得到具有图像空间位置信息的第二框内内容特征序列
Figure BDA0003277505520000031
和第二框外内容特征序列
Figure BDA0003277505520000032
进一步地,所述步骤S2具体包括:
S201.将第二框内内容特征序列
Figure BDA0003277505520000033
和第二框外内容特征序列
Figure BDA0003277505520000034
分别输入到已训练的内引性关系编码器AI和外引性关系编码器AD中,得到框内引性美学关系特征序列
Figure BDA0003277505520000035
和框外引性美学关系特征序列
Figure BDA0003277505520000036
S202.将框内引性美学关系特征序列
Figure BDA0003277505520000037
和框外引性美学关系特征序列
Figure BDA0003277505520000038
共同输入到已训练的斥性美学关系编码器R中,得到建模了裁剪框内外视觉元素之间斥性美学关系的框内外斥性美学关系特征序列
Figure BDA0003277505520000039
其中,内引性关系编码器AI、外引性关系编码器AD和斥性美学关系编码器R均包括堆叠的多头注意力模块、前向网络和线性变换。
进一步地,步骤S201具体包括:
(2.1.1)将框内内容特征序列
Figure BDA00032775055200000310
和框外内容特征序列
Figure BDA00032775055200000311
分别作为内引性关系编码器AI和外引性关系编码器AD的初始特征X0
(2.1.2)将特征Xi-1输入到关系编码器A的第i-1层多头注意力模块φi-1(Q,K,V)中,其中Q、K、V分别为多头注意力模块的查询、键值和真值;由Mi=φi(Q,K,V)+Xi-1得到第i层的隐藏状态Mi,其中
Figure BDA00032775055200000312
多头注意力模块φ(Q,K,V)表示为:
Figure BDA0003277505520000041
其中Qh、Kh、Vh分别表示经过变化的第h个头的查询、键值和真值,α(·)表示softmax运算,δ(·)表示沿特征维度拼接;由Xi=γ(ξ(Mi))+Mi得到第i层的特征,其中ξ(·)为线性变换,γ(·)为前向网络;
(2.1.3)重复(2.1.2)操作l次,3≤l≤10,由
Figure BDA0003277505520000042
得到内引性关系编码器AI和外引性关系编码器AD的输出结果,即框内引性美学关系特征序列
Figure BDA0003277505520000043
和框外引性美学关系特征序列
Figure BDA0003277505520000044
进一步地,步骤S202具体包括:
(2.2.1)将框内引性美学关系特征序列
Figure BDA0003277505520000045
和框外引性美学关系特征序列
Figure BDA0003277505520000046
分别作为斥性美学关系编码器R的初始特征YI
Figure BDA0003277505520000047
(2.2.2)将特征
Figure BDA0003277505520000048
输入到斥性美学关系编码器R的第i-1层的首个多头注意力模块φ′i-1(Q,K,V)中,其中
Figure BDA0003277505520000049
Figure BDA00032775055200000410
Figure BDA00032775055200000411
得到第i层的隐藏状态H′i
(2.2.3)将第i层的隐藏状态H′i和特征YI输入到斥性美学关系编码器R的第i-1层的第二个多头注意力模块φ″i-1(Q,K,V)中,其中
Figure BDA00032775055200000412
由H″i=φ″i(Q,K,V)+H′i得到第i层的隐藏状态H″i,通过
Figure BDA00032775055200000413
Figure BDA00032775055200000414
得到第i层的特征,其中ξ(·)为线性变换,γ(·)为前向网络;
(2.2.4)按顺序重复(2.2.2)和(2.2.3)操作k次,3≤k≤10,由
Figure BDA00032775055200000415
得到斥性美学关系编码器R的输出结果,即框内外斥性美学关系特征序列
Figure BDA00032775055200000416
进一步地,所述步骤S3具体包括:
S301.将框内引性美学关系特征序列
Figure BDA00032775055200000417
和框内外斥性美学关系特征序列
Figure BDA0003277505520000051
变形为与框内内容特征图MI空间尺寸一致的形状,得到框内引性美学关系特征图
Figure BDA0003277505520000052
和框内外斥性美学关系特征图
Figure BDA0003277505520000053
Figure BDA0003277505520000054
得到用于回归美学评分的特征图M,其中,δ(·)表示沿特征维度拼接;
S302.按照上述操作得到所有候选裁剪结果的评分集合S={s1,s2,...,sT},T表示候选裁剪框的总个数,对评分集合进行排序并依照用户需求将评分最大的m个候选裁剪框作为结果输出。
进一步地,所述框内位置嵌入表达、框外位置嵌入表达、深度卷积网络、内引性美学关系编码器、外引性美学关系编码器和斥性美学关系编码器采用如下方法进行训练:
将框内位置嵌入表达、框外位置嵌入表达、深度卷积网络、内引性美学关系编码器、外引性美学关系编码器和斥性美学关系编码器组成整体网络:
所述整体网络的误差函数为
Figure BDA0003277505520000055
其中,st表示网络预测的第t个候选裁剪框的评分,gt表示该候选裁剪框人工标注的真实评分,T表示候选裁剪框的总个数,
Figure BDA0003277505520000056
为smooth L1损失函数,可表示为
Figure BDA0003277505520000057
利用神经网络框架Pytorch进行训练,首先对整体网络参数进行恺明初始化,然后利用自适应动量估计优化算法对整体网络参数进行更新,并在训练误差函数变化小于预设阈值的时候停止训练。
本发明的另一方面提供了一种基于视觉元素关系的智能化图像剪裁系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行上述的智能化图像剪裁方法。
通过本发明所构思的以上技术方案,与现有技术相比,能够取得以下有益效果:
(1)本发明提出的基于视觉元素关系的智能化图像剪裁方法,以视觉元素的吸引与排斥关系描述人类的美学概念,获得了针对于美学概念更有表达能力的特征,使得本发明与人类用户的真实偏好更具有一致性,从而保证了裁剪结果具有更高的用户可接受度。
(2)本发明提出的基于视觉元素关系的智能化图像剪裁方法,通过融合图像的内容与关系特征,使得算法具有更好的泛化性和鲁棒性,在面对训练数据中涵盖较少的风景、艺术类图像时也能输出好的裁剪结果,具有很高的实用价值。
附图说明
图1是本发明实施例提供的一种基于视觉元素关系的智能化图像剪裁方法的流程示意图;
图2是本发明实施例中所包含的多头注意力机制的技术说明图;
图3是本发明针对不同裁剪框预测的引性美学关系与斥性美学关系的可视化表示;
图4是本发明对不同类型图像进行裁剪的结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
为实现以上目的,本发明将图像中的视觉元素关系划分为引性美学关系和斥性美学关系。其中,引性美学关系被定义为期望保留在裁剪框内的视觉元素之间的、对于整体构图协调有贡献的空间或语义关系;斥性美学关系被定义为视觉元素之间空间或者语义层面的不兼容关系,斥性美学关系理想情况下呈现于理想裁剪框的框内和框外元素之间。本发明主要分为三大步骤:第一,内容特征提取。首先训练用于描述美学内容特征的深度卷积网络和位置嵌入表达,在测试时,用已训练的骨干网络和位置嵌入表达构建图像的元素的内容特征。第二,关系特征提取。利用堆叠的多层自注意力结构,计算各个视觉元素之间的引性或斥性美学关系,得到美学关系特征。第三,特征融合与回归。融合内容特征和关系特征,回归每一个候选裁剪结果的美学评分并排序,以排序靠前的候选结果作为最终的裁剪结果。
图1所示是本发明实施例提供的一种基于视觉元素关系的智能化图像剪裁方法的流程示意图,包括以下步骤:
(1)利用深度卷积网络将输入图像转化为具有图像空间位置信息的框内视觉单词序列和框外视觉单词序列,并建模单词内容特征;
在一个可选的实施方式中,步骤(1)具体包括:
(1.1)将待裁剪的图像I输入到已训练的深度卷积网络中,逐层进行下采样并提取多尺度的卷积特征,融合多尺度的特征后得到内容特征图M,结合某一个候选裁剪框B,通过RoIAlign和RoDAlign得到形状皆为h×w×c的框内内容特征图MI和框外内容特征图MD
(1.2)将框内内容特征图MI和框外内容特征图MD序列化为形状为hw×c的框内内容特征序列CI和框外内容特征序列CD,序列中的每一个c维特征对应于输入图像I的某一个区域,即为某一个视觉元素的表达;
(1.3)将框内内容特征序列CI和框外内容特征序列CD分别与已学习的相同形状的框内位置嵌入表达PI和框外位置嵌入表达PD相加,得到具有图像空间位置信息的框内内容特征序列
Figure BDA0003277505520000071
和框外内容特征序列
Figure BDA0003277505520000072
以建模裁剪框内外单词内容特征。
其中,在本发明中,深度卷积网络可以使用ImageNet数据集上预训练的MobileNetV2模型,也可以根据需求使用ShuffleNet等结构。若硬件算力充足,也可使用VGG、AlexNet或ResNet等结构,本发明实例不做限定。
(2)利用多层多头注意力模块,建模框内单词之间的引性美学关系特征和框内与框外单词之间的斥性美学关系特征;
在一个可选的实施方式中,步骤(2)具体包括:
(2.1)将框内内容特征序列
Figure BDA0003277505520000081
和框外内容特征序列
Figure BDA0003277505520000082
分别输入到已训练的内引性关系编码器AI和外引性关系编码器AD中,得到框内引性美学关系特征序列
Figure BDA0003277505520000083
和框外引性美学关系特征序列
Figure BDA0003277505520000084
其中,内引性关系编码器AI和外引性关系编码器AD均由堆叠的多头注意力模块φ(·)、前向网络γ(·)和线性变换ξ(·)组成;
其中,步骤(2.1)具体包括:
(2.1.1)将框内内容特征序列
Figure BDA0003277505520000085
(框外内容特征序列
Figure BDA0003277505520000086
)作为内引性关系编码器AI(外引性关系编码器AD)的初始特征X0
(2.1.2)由i-1层的输入特征Xi-1计算第i层多头注意力层的特征Xi:其计算过程可表示为:
Figure BDA0003277505520000087
其中
Figure BDA0003277505520000088
Q、K、V分别为注意力模块的查询、键值和真值。如图2所示为本发明所包含的多头注意力模块的主要流程,其中注意力φ(Q,K,V)的计算过程可以表示为:
Figure BDA0003277505520000089
其中Qh、Kh、Vh分别表示经过线性变换的第h个头的查询、键值和真值,α(·)表示softmax运算,δ(·)表示沿特征维度拼接,ξ(·)为线性变换,γ(·)为前向网络。
(2.1.3)重复(2.1.2)操作l次,由
Figure BDA0003277505520000091
得到内引性关系编码器AI(外引性关系编码器AD)的输出结果,即框内引性美学关系特征序列
Figure BDA0003277505520000092
(框外引性美学关系特征序列
Figure BDA0003277505520000093
)。其中,根据交叉实验验证,本发明最终确定l=6。
(2.2)将框内引性美学关系特征序列
Figure BDA0003277505520000094
和框外引性美学关系特征序列
Figure BDA0003277505520000095
共同输入到已训练的斥性美学关系编码器R中,得到建模了裁剪框内外视觉元素之间的斥性美学关系的框内外斥性美学关系特征序列
Figure BDA0003277505520000096
其中,斥性美学关系编码器R由堆叠的多头注意力模块组{φ′(·),φ″(·)}、前向网络γ(·)和线性变换ξ(·)组成。
其中,步骤(2.2)具体包括:
(2.2.1)将框内引性美学关系特征序列
Figure BDA0003277505520000097
和框外引性美学关系特征序列
Figure BDA0003277505520000098
分别作为斥性美学关系编码器R的初始特征nI
Figure BDA0003277505520000099
(2.2.2)由特征YI和i-1层的输入特征
Figure BDA00032775055200000910
计算第i层多头注意力层的特征
Figure BDA00032775055200000911
其计算过程可表示为:
Figure BDA00032775055200000912
其中{φ′(·),φ″(·)}为多头注意力模块组,ξ(·)为线性变换,γ(·)为前向网络;
(2.2.3)按顺序重复(2.2.2)操作k次,由
Figure BDA00032775055200000913
得到斥性美学关系编码器R的输出结果,即框内外斥性美学关系特征序列
Figure BDA00032775055200000914
其中,根据交叉实验验证,本发明最终确定k=6。
如图3所示,左侧组图表示对于一个好的候选裁剪框,图像中各视觉元素对于框内的视觉元素的响应;右侧组图表示对于一个差的候选裁剪框,图像中各视觉元素对于框内的视觉元素的响应。可以看出框内视觉元素对于重要元素(人物等)都有较高的响应,即表现出引性关系;而框外元素对于框内元素响应较低,即呈现出排斥关系。比较左右两组图可以看出,被误裁在框外的元素也会对框内元素产生高响应,即表现出引性关系,以此为据则可判断裁剪框的不合理性。
(3)融合内容特征、引性美学关系特征和斥性美学关系特征,对候选裁剪框评分并排序,得到最佳的重构图结果。
其中,步骤(3)具体包括:
(3.1)将框内引性美学关系特征序列
Figure BDA0003277505520000101
框内外斥性美学关系特征序列
Figure BDA0003277505520000102
变形为与框内内容特征图MI空间尺寸一致的形状,得到框内引性美学关系特征图
Figure BDA0003277505520000103
和框内外斥性美学关系特征图
Figure BDA0003277505520000104
Figure BDA0003277505520000105
得到用于回归美学评分的特征图M,其中,δ(·)表示沿特征维度拼接。
(3.2)依上述操作得到所有候选裁剪结果的评分集合S={s1,s2,...,sT},T表示候选裁剪框的总个数,对评分集合进行排序并依照用户需求将评分最大的m个候选裁剪框作为结果输出。如图4所示,为本发明对不同类型图像进行裁剪的结果,其中,第一行为输入的原始图像,第二行为本发明的裁剪结果。
在一个可选的实施方式中,本方法还包括对深度卷积网络、内引性美学关系编码器、外引性美学关系编码器和斥性美学关系编码器的训练步骤:
将框内位置嵌入表达、框外位置嵌入表达、深度卷积网络、内引性美学关系编码器、外引性美学关系编码器和斥性美学关系编码器组成整体网络,由
Figure BDA0003277505520000106
得到整体网络的误差函数,其中,st表示网络预测的第t个候选裁剪框的评分,gt表示该候选裁剪框人工标注的真实评分,T表示候选裁剪框的总个数,
Figure BDA0003277505520000107
为smooth L1损失函数,可表示为
Figure BDA0003277505520000108
利用神经网络框架Pytorch在GAIC公共数据集上进行训练。GAIC数据集包含1036张RGB图像,总标注量为89519个候选框的平均用户意见分数。在训练过程中,其中首先对整体网络参数进行恺明初始化,然后利用自适应动量估计优化算法对整体网络参数进行更新,并在训练误差函数变化小于某个阈值的时候停止训练,得到已训练的深度网络、内引性美学关系编码器、外引性美学关系编码器和斥性美学关系编码器。
本发明实施例的另一方面提供了一种基于视觉元素关系的智能化图像剪裁系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行上述的智能化图像剪裁方法。
本发明提出以视觉元素的吸引与排斥关系描述人类的美学概念来进行智能化美学裁剪,利用针对性建模的美学特征增强整体网络的泛化能力。借助自注意力机制强大的拟合能力,自动地学习图像中的关键元素和背景元素,并建模视觉元素之间的引性、斥性美学关系。在此基础上,结合内容特征,整体网络能够更好地估计候选裁剪框的美学评分,从而更好地给出图像的裁剪结果以增强其美学质量。由于该技术裁剪结果与真实用户偏好的一致性佳强,对不同种类的输入图像的鲁棒性好,该技术可以为终端用户的辅助摄影、个性化壁纸自动迁移和服务厂商的创意设计辅助、缩略图批量化生成等多对象、多场景提供有力帮助。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于视觉元素关系的智能化图像剪裁方法,其特征在于,包括以下步骤:
S1.结合可学习的位置嵌入表达,利用深度卷积网络将输入图像转化为具有图像空间位置信息的框内视觉单词序列和框外视觉单词序列,并建模得到单词内容特征;
S2.对于框内视觉单词序列和框外视觉单词序列,利用多层多头注意力模块,建模框内单词之间的引性美学关系特征和框内与框外单词之间的斥性美学关系特征;引性美学关系是视觉元素之间对于整体构图协调有贡献的空间或语义关系,斥性美学关系是视觉元素之间空间或者语义层面的不兼容关系;
S3.融合所述单词内容特征、引性美学关系特征和斥性美学关系特征,对候选裁剪框评分并排序,得到最佳的重构图结果。
2.如权利要求1所述的智能化图像剪裁方法,其特征在于,所述步骤S1具体包括:
S101.将待裁剪的图像I输入到已训练的深度卷积网络中,逐层进行下采样并提取多尺度的卷积特征,融合多尺度的特征后得到内容特征图M,结合候选裁剪框B,通过RoIAlign和RoDAlign得到尺寸皆为h×w×c的框内内容特征图MI和框外内容特征图MD,其中h为高度,w为宽度,c是维度;
S102.将框内内容特征图MI和框外内容特征图MD序列转化为尺寸为hw×c的第一框内内容特征序列CI和第一框外内容特征序列CD,序列中的每一个c维特征对应于输入图像I的一个区域;
S103.将框内内容特征序列CI和框外内容特征序列CD分别与已学习的相同形状的框内位置嵌入表达PI和框外位置嵌入表达PD相加,得到具有图像空间位置信息的第二框内内容特征序列
Figure FDA0003277505510000011
和第二框外内容特征序列
Figure FDA0003277505510000012
3.根据权利要求2所述的智能化图像剪裁方法,其特征在于,所述步骤S2具体包括:
S201.将第二框内内容特征序列
Figure FDA00032775055100000214
和第二框外内容特征序列
Figure FDA0003277505510000021
分别输入到已训练的内引性关系编码器AI和外引性关系编码器AD中,得到框内引性美学关系特征序列
Figure FDA0003277505510000022
和框外引性美学关系特征序列
Figure FDA0003277505510000023
S202.将框内引性美学关系特征序列
Figure FDA0003277505510000024
和框外引性美学关系特征序列
Figure FDA0003277505510000025
共同输入到已训练的斥性美学关系编码器R中,得到建模了裁剪框内外视觉元素之间斥性美学关系的框内外斥性美学关系特征序列
Figure FDA0003277505510000026
其中,内引性关系编码器AI、外引性关系编码器AD和斥性美学关系编码器R均包括堆叠的多头注意力模块、前向网络和线性变换。
4.根据权利要求3所述的智能化图像剪裁方法,其特征在于,步骤S201具体包括:
(2.1.1)将框内内容特征序列
Figure FDA0003277505510000027
和框外内容特征序列
Figure FDA0003277505510000028
分别作为内引性关系编码器AI和外引性关系编码器AD的初始特征X0
(2.1.2)将特征Xi-1输入到关系编码器A的第i-1层多头注意力模块φi-1(Q,K,V)中,其中Q、K、V分别为多头注意力模块的查询、键值和真值;由Mi=φi(Q,K,V)+Xi-1得到第i层的隐藏状态Mi,其中
Figure FDA0003277505510000029
多头注意力模块φ(Q,K,V)表示为:
Figure FDA00032775055100000210
其中Qh、Kh、Vh分别表示经过变化的第h个头的查询、键值和真值,α(·)表示softmax运算,δ(·)表示沿特征维度拼接;由Xi=γ(ξ(Mi))+Mi得到第i层的特征,其中ξ(·)为线性变换,γ(·)为前向网络;
(2.1.3)重复(2.1.2)操作l次,3≤l≤10,由
Figure FDA00032775055100000211
得到内引性关系编码器AI和外引性关系编码器AD的输出结果,即框内引性美学关系特征序列
Figure FDA00032775055100000212
和框外引性美学关系特征序列
Figure FDA00032775055100000213
5.根据权利要求3所述的智能化图像剪裁方法,其特征在于,步骤S202具体包括:
(2.2.1)将框内引性美学关系特征序列
Figure FDA0003277505510000031
和框外引性美学关系特征序列
Figure FDA0003277505510000032
分别作为斥性美学关系编码器R的初始特征YI
Figure FDA0003277505510000033
(2.2.2)将特征
Figure FDA0003277505510000034
输入到斥性美学关系编码器R的第i-1层的首个多头注意力模块φ′i-1(Q,K,V)中,其中
Figure FDA0003277505510000035
Figure FDA0003277505510000036
Figure FDA0003277505510000037
得到第i层的隐藏状态H′i
(2.2.3)将第i层的隐藏状态H′i和特征YI输入到斥性美学关系编码器R的第i-1层的第二个多头注意力模块φ″i-1(Q,K,V)中,其中
Figure FDA0003277505510000038
由H″i=φ″i(Q,K,V)+H′i得到第i层的隐藏状态H″i,通过
Figure FDA0003277505510000039
Figure FDA00032775055100000310
得到第i层的特征,其中ξ(·)为线性变换,γ(·)为前向网络;
(2.2.4)按顺序重复(2.2.2)和(2.2.3)操作k次,3≤k≤10,由
Figure FDA00032775055100000311
得到斥性美学关系编码器R的输出结果,即框内外斥性美学关系特征序列
Figure FDA00032775055100000312
6.根据权利要求3或5所述的智能化图像剪裁方法,其特征在于,所述步骤S3具体包括:
S301.将框内引性美学关系特征序列
Figure FDA00032775055100000313
和框内外斥性美学关系特征序列
Figure FDA00032775055100000314
变形为与框内内容特征图MI空间尺寸一致的形状,得到框内引性美学关系特征图
Figure FDA00032775055100000315
和框内外斥性美学关系特征图
Figure FDA00032775055100000316
Figure FDA00032775055100000317
得到用于回归美学评分的特征图M,其中,δ(·)表示沿特征维度拼接;
S302.按照上述操作得到所有候选裁剪结果的评分集合S={s1,s2,...,sT},T表示候选裁剪框的总个数,对评分集合进行排序并依照用户需求将评分最大的m个候选裁剪框作为结果输出。
7.根据权利要求1所述的智能化图像剪裁方法,其特征在于,所述框内位置嵌入表达、框外位置嵌入表达、深度卷积网络、内引性美学关系编码器、外引性美学关系编码器和斥性美学关系编码器采用如下方法进行训练:
将框内位置嵌入表达、框外位置嵌入表达、深度卷积网络、内引性美学关系编码器、外引性美学关系编码器和斥性美学关系编码器组成整体网络;
所述整体网络的误差函数为
Figure FDA0003277505510000041
其中,st表示网络预测的第t个候选裁剪框的评分,gt表示该候选裁剪框人工标注的真实评分,T表示候选裁剪框的总个数,
Figure FDA0003277505510000042
为smooth L1损失函数,可表示为
Figure FDA0003277505510000043
利用神经网络框架Pytorch进行训练,首先对整体网络参数进行恺明初始化,然后利用自适应动量估计优化算法对整体网络参数进行更新,并在训练误差函数变化小于预设阈值的时候停止训练。
8.一种基于视觉元素关系的智能化图像剪裁系统,其特征在于,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行权利要求1至7任一项所述的智能化图像剪裁方法。
CN202111125764.XA 2021-09-24 2021-09-24 一种基于视觉元素关系的智能化图像剪裁方法和系统 Active CN113763391B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111125764.XA CN113763391B (zh) 2021-09-24 2021-09-24 一种基于视觉元素关系的智能化图像剪裁方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111125764.XA CN113763391B (zh) 2021-09-24 2021-09-24 一种基于视觉元素关系的智能化图像剪裁方法和系统

Publications (2)

Publication Number Publication Date
CN113763391A true CN113763391A (zh) 2021-12-07
CN113763391B CN113763391B (zh) 2024-03-19

Family

ID=78797381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111125764.XA Active CN113763391B (zh) 2021-09-24 2021-09-24 一种基于视觉元素关系的智能化图像剪裁方法和系统

Country Status (1)

Country Link
CN (1) CN113763391B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018090355A1 (zh) * 2016-11-21 2018-05-24 中国科学院自动化研究所 图像自动裁剪方法
CN108132968A (zh) * 2017-12-01 2018-06-08 西安交通大学 网络文本与图像中关联语义基元的弱监督学习方法
CN111401177A (zh) * 2020-03-09 2020-07-10 山东大学 基于自适应时空注意力机制的端到端行为识别方法及系统
CN113159028A (zh) * 2020-06-12 2021-07-23 杭州喔影网络科技有限公司 显著性感知图像裁剪方法、装置、计算设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018090355A1 (zh) * 2016-11-21 2018-05-24 中国科学院自动化研究所 图像自动裁剪方法
CN108132968A (zh) * 2017-12-01 2018-06-08 西安交通大学 网络文本与图像中关联语义基元的弱监督学习方法
CN111401177A (zh) * 2020-03-09 2020-07-10 山东大学 基于自适应时空注意力机制的端到端行为识别方法及系统
CN113159028A (zh) * 2020-06-12 2021-07-23 杭州喔影网络科技有限公司 显著性感知图像裁剪方法、装置、计算设备和存储介质

Also Published As

Publication number Publication date
CN113763391B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
WO2023065617A1 (zh) 基于预训练模型和召回排序的跨模态检索系统及方法
CN111242844B (zh) 图像处理方法、装置、服务器和存储介质
TW201915790A (zh) 關注點文案的生成
CN110162766B (zh) 词向量更新方法和装置
CN111862294A (zh) 基于ArcGAN网络的手绘3D建筑自动上色网络结构及方法
CN111368118A (zh) 一种图像描述生成方法、系统、装置和存储介质
Zhang et al. A comprehensive survey on computational aesthetic evaluation of visual art images: Metrics and challenges
KR20200065433A (ko) 스타일 변환 모델 및 포토 몽타주 기반 합성 이미지의 스타일 변환 장치
CN112084859A (zh) 一种基于稠密边界块和注意力机制的建筑物分割方法
CN107665356A (zh) 一种图像标注方法
CN116797868A (zh) 文本图像生成方法以及扩散生成模型训练方法
Zhao et al. Cartoon image processing: a survey
Zhang et al. Considering three elements of aesthetics: Multi-task self-supervised feature learning for image style classification
CN114330514A (zh) 一种基于深度特征与梯度信息的数据重建方法及系统
CN110991279B (zh) 文档图像分析与识别方法及系统
CN113010780A (zh) 一种模型训练以及点击率预估方法及装置
CN113763391A (zh) 一种基于视觉元素关系的智能化图像剪裁方法和系统
CN114283083B (zh) 一种基于解耦表示的场景生成模型的美学增强方法
CN116957006A (zh) 预测模型的训练方法、装置、设备、介质及程序产品
CN116051388A (zh) 经由语言请求的自动照片编辑
US20230072445A1 (en) Self-supervised video representation learning by exploring spatiotemporal continuity
CN114283181A (zh) 一种基于样例的动态纹理迁移方法及系统
CN111583352A (zh) 一种用于移动终端的风格化图标智能生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant