CN113763391A - 一种基于视觉元素关系的智能化图像剪裁方法和系统 - Google Patents
一种基于视觉元素关系的智能化图像剪裁方法和系统 Download PDFInfo
- Publication number
- CN113763391A CN113763391A CN202111125764.XA CN202111125764A CN113763391A CN 113763391 A CN113763391 A CN 113763391A CN 202111125764 A CN202111125764 A CN 202111125764A CN 113763391 A CN113763391 A CN 113763391A
- Authority
- CN
- China
- Prior art keywords
- frame
- aesthetic
- relationship
- encoder
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000002940 repellent Effects 0.000 claims abstract description 8
- 239000005871 repellent Substances 0.000 claims abstract description 8
- 238000012163 sequencing technique Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000001568 sexual effect Effects 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 2
- 238000003909 pattern recognition Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 4
- 230000001939 inductive effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 244000309464 bull Species 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于视觉元素关系的智能化图像剪裁方法和系统,属于数字图像处理与模式识别技术领域。包括:利用深度卷积网络提取框内和框外的视觉单词内容特征以表达各视觉元素,结合可学习的位置嵌入表达,将输入图像转化为具有图像空间位置信息的框内和框外视觉单词序列;利用多层多头注意力模块,建模框内单词之间的引性美学关系和框内与框外单词之间的斥性美学关系,得到引性和斥性美学关系特征;融合内容特征、引性美学关系特征和斥性美学关系特征,预测每一个候选裁剪框的美学评分并排序,得到裁剪结果。本发明挖掘了视觉元素之间的关系模式,可更泛化、更鲁棒地应用于各种类别的图像,且通过裁剪得到的重构图结果更加符合真实用户偏好。
Description
技术领域
本发明属于数字图像处理和模式识别技术领域,更具体地,涉及一种基于视觉元素关系的智能化图像剪裁方法和系统。
背景技术
图像美学裁剪是一种通过裁剪对原始图像进行重构图,以增强其美学质量的任务,要求计算机对于输入图像的美学概念有高层次理解,从基本的图像内容识别、图像语义理解,到高层次的美学概念建模、美学质量评价,包含了从语义、位置等低层次概念到图像美学、构图等高层次概念多个侧面的算法设计。终端用户的多数需求都与图像及图像美学有关,例如用户期望在缺乏专业训练的情况下能够得到具有一定的美学性的摄影作品或期望在某一设备下自定义的壁纸能够自动地迁移到同一生态下的不同尺寸的屏幕上(如从同一生态的手机到电脑);而服务厂商需要进行大量的创意设计,其中一些需要美学基础但重复性高、操作繁琐的步骤(如裁剪)会耗费大量的人力资源与时间,所以服务厂商对于智能化美学裁剪也有很大的需求。
传统的图像美学裁剪主要基于图像的局部RGB特征,主要包括颜色、纹理、显著性等。现有算法采用构造能量函数的优化框架,利用针对性设计的能量函数表达裁剪结果的质量,通过优化该能量函数,从而得到能量函数最低的裁剪结果。但现有算法有几个方面的不足:一是局部RGB特征所建模的信息不足,难以支撑对于高层次概念的描述;二是没有对于美学概念进行建模,导致裁剪结果难以满足真实人类用户的美学需求。
近年来,硬件设备算力的大幅提升和深度学习的广泛应用为解决局部RGB特征所包含的信息不足问题提供了好的解决方案,使得对图像的高层次理解水平有了很大程度地提高。深度学习模型能够从大量的数据样本中学习,足以提供丰富的信息,这些深度学习模型所提供的丰富特征为图像美学裁剪提供了非常大的便利。
然而现有基于深度学习的图像裁剪技术,本质上依然与传统基于RGB特征的方法相似,即根据图像内容特征回归出评分以评价某一个裁剪框。但是这样的范式并未对于美学概念进行针对性建模,只是对于样本中好的裁剪结果进行拟合,这也就导致了现有方法在实际应用中,在面对模式多样、训练集难以覆盖的样本时(如风景、艺术等)难以给出符合用户需求的结果。
发明内容
针对相关技术的缺陷,本发明的目的在于提供一种基于视觉元素关系的智能化图像剪裁方法和系统,旨在解决现有的基于深度学习的图像美学裁剪方法在实际应用中泛化性差的技术问题。
为实现上述目的,本发明的一方面提供了一种基于视觉元素关系的智能化图像剪裁方法,包括以下步骤:
S1.利用深度卷积网络将输入图像转化为具有图像空间位置信息的框内视觉单词序列和框外视觉单词序列,并建模得到单词内容特征;
S2.利用多层多头注意力模块,建模框内单词之间的引性美学关系特征和框内与框外单词之间的斥性美学关系特征;引性美学关系是视觉元素之间对于整体构图协调有贡献的空间或语义关系,斥性美学关系是视觉元素之间空间或者语义层面的不兼容关系;
S3.融合所述单词内容特征、引性美学关系特征和斥性美学关系特征,对候选裁剪框评分并排序,得到最佳的重构图结果。
进一步地,所述步骤S1具体包括:
S101.将待裁剪的图像I输入到已训练的深度卷积网络中,逐层进行下采样并提取多尺度的卷积特征,融合多尺度的特征后得到内容特征图M,结合候选裁剪框B,通过RoIAlign和RoDAlign得到尺寸皆为h×w×c的框内内容特征图MI和框外内容特征图MD,其中h为高度,w为宽度,c是维度;
S102.将框内内容特征图MI和框外内容特征图MD序列转化为尺寸为hw×c的第一框内内容特征序列CI和第一框外内容特征序列CD,序列中的每一个c维特征对应于输入图像I的一个区域;
进一步地,所述步骤S2具体包括:
其中,内引性关系编码器AI、外引性关系编码器AD和斥性美学关系编码器R均包括堆叠的多头注意力模块、前向网络和线性变换。
进一步地,步骤S201具体包括:
(2.1.2)将特征Xi-1输入到关系编码器A的第i-1层多头注意力模块φi-1(Q,K,V)中,其中Q、K、V分别为多头注意力模块的查询、键值和真值;由Mi=φi(Q,K,V)+Xi-1得到第i层的隐藏状态Mi,其中多头注意力模块φ(Q,K,V)表示为:其中Qh、Kh、Vh分别表示经过变化的第h个头的查询、键值和真值,α(·)表示softmax运算,δ(·)表示沿特征维度拼接;由Xi=γ(ξ(Mi))+Mi得到第i层的特征,其中ξ(·)为线性变换,γ(·)为前向网络;
进一步地,步骤S202具体包括:
(2.2.3)将第i层的隐藏状态H′i和特征YI输入到斥性美学关系编码器R的第i-1层的第二个多头注意力模块φ″i-1(Q,K,V)中,其中由H″i=φ″i(Q,K,V)+H′i得到第i层的隐藏状态H″i,通过 得到第i层的特征,其中ξ(·)为线性变换,γ(·)为前向网络;
进一步地,所述步骤S3具体包括:
S301.将框内引性美学关系特征序列和框内外斥性美学关系特征序列变形为与框内内容特征图MI空间尺寸一致的形状,得到框内引性美学关系特征图和框内外斥性美学关系特征图由得到用于回归美学评分的特征图M,其中,δ(·)表示沿特征维度拼接;
S302.按照上述操作得到所有候选裁剪结果的评分集合S={s1,s2,...,sT},T表示候选裁剪框的总个数,对评分集合进行排序并依照用户需求将评分最大的m个候选裁剪框作为结果输出。
进一步地,所述框内位置嵌入表达、框外位置嵌入表达、深度卷积网络、内引性美学关系编码器、外引性美学关系编码器和斥性美学关系编码器采用如下方法进行训练:
将框内位置嵌入表达、框外位置嵌入表达、深度卷积网络、内引性美学关系编码器、外引性美学关系编码器和斥性美学关系编码器组成整体网络:
利用神经网络框架Pytorch进行训练,首先对整体网络参数进行恺明初始化,然后利用自适应动量估计优化算法对整体网络参数进行更新,并在训练误差函数变化小于预设阈值的时候停止训练。
本发明的另一方面提供了一种基于视觉元素关系的智能化图像剪裁系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行上述的智能化图像剪裁方法。
通过本发明所构思的以上技术方案,与现有技术相比,能够取得以下有益效果:
(1)本发明提出的基于视觉元素关系的智能化图像剪裁方法,以视觉元素的吸引与排斥关系描述人类的美学概念,获得了针对于美学概念更有表达能力的特征,使得本发明与人类用户的真实偏好更具有一致性,从而保证了裁剪结果具有更高的用户可接受度。
(2)本发明提出的基于视觉元素关系的智能化图像剪裁方法,通过融合图像的内容与关系特征,使得算法具有更好的泛化性和鲁棒性,在面对训练数据中涵盖较少的风景、艺术类图像时也能输出好的裁剪结果,具有很高的实用价值。
附图说明
图1是本发明实施例提供的一种基于视觉元素关系的智能化图像剪裁方法的流程示意图;
图2是本发明实施例中所包含的多头注意力机制的技术说明图;
图3是本发明针对不同裁剪框预测的引性美学关系与斥性美学关系的可视化表示;
图4是本发明对不同类型图像进行裁剪的结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
为实现以上目的,本发明将图像中的视觉元素关系划分为引性美学关系和斥性美学关系。其中,引性美学关系被定义为期望保留在裁剪框内的视觉元素之间的、对于整体构图协调有贡献的空间或语义关系;斥性美学关系被定义为视觉元素之间空间或者语义层面的不兼容关系,斥性美学关系理想情况下呈现于理想裁剪框的框内和框外元素之间。本发明主要分为三大步骤:第一,内容特征提取。首先训练用于描述美学内容特征的深度卷积网络和位置嵌入表达,在测试时,用已训练的骨干网络和位置嵌入表达构建图像的元素的内容特征。第二,关系特征提取。利用堆叠的多层自注意力结构,计算各个视觉元素之间的引性或斥性美学关系,得到美学关系特征。第三,特征融合与回归。融合内容特征和关系特征,回归每一个候选裁剪结果的美学评分并排序,以排序靠前的候选结果作为最终的裁剪结果。
图1所示是本发明实施例提供的一种基于视觉元素关系的智能化图像剪裁方法的流程示意图,包括以下步骤:
(1)利用深度卷积网络将输入图像转化为具有图像空间位置信息的框内视觉单词序列和框外视觉单词序列,并建模单词内容特征;
在一个可选的实施方式中,步骤(1)具体包括:
(1.1)将待裁剪的图像I输入到已训练的深度卷积网络中,逐层进行下采样并提取多尺度的卷积特征,融合多尺度的特征后得到内容特征图M,结合某一个候选裁剪框B,通过RoIAlign和RoDAlign得到形状皆为h×w×c的框内内容特征图MI和框外内容特征图MD;
(1.2)将框内内容特征图MI和框外内容特征图MD序列化为形状为hw×c的框内内容特征序列CI和框外内容特征序列CD,序列中的每一个c维特征对应于输入图像I的某一个区域,即为某一个视觉元素的表达;
(1.3)将框内内容特征序列CI和框外内容特征序列CD分别与已学习的相同形状的框内位置嵌入表达PI和框外位置嵌入表达PD相加,得到具有图像空间位置信息的框内内容特征序列和框外内容特征序列以建模裁剪框内外单词内容特征。
其中,在本发明中,深度卷积网络可以使用ImageNet数据集上预训练的MobileNetV2模型,也可以根据需求使用ShuffleNet等结构。若硬件算力充足,也可使用VGG、AlexNet或ResNet等结构,本发明实例不做限定。
(2)利用多层多头注意力模块,建模框内单词之间的引性美学关系特征和框内与框外单词之间的斥性美学关系特征;
在一个可选的实施方式中,步骤(2)具体包括:
(2.1)将框内内容特征序列和框外内容特征序列分别输入到已训练的内引性关系编码器AI和外引性关系编码器AD中,得到框内引性美学关系特征序列和框外引性美学关系特征序列其中,内引性关系编码器AI和外引性关系编码器AD均由堆叠的多头注意力模块φ(·)、前向网络γ(·)和线性变换ξ(·)组成;
其中,步骤(2.1)具体包括:
(2.1.2)由i-1层的输入特征Xi-1计算第i层多头注意力层的特征Xi:其计算过程可表示为:
其中Qh、Kh、Vh分别表示经过线性变换的第h个头的查询、键值和真值,α(·)表示softmax运算,δ(·)表示沿特征维度拼接,ξ(·)为线性变换,γ(·)为前向网络。
(2.1.3)重复(2.1.2)操作l次,由得到内引性关系编码器AI(外引性关系编码器AD)的输出结果,即框内引性美学关系特征序列(框外引性美学关系特征序列)。其中,根据交叉实验验证,本发明最终确定l=6。
(2.2)将框内引性美学关系特征序列和框外引性美学关系特征序列共同输入到已训练的斥性美学关系编码器R中,得到建模了裁剪框内外视觉元素之间的斥性美学关系的框内外斥性美学关系特征序列其中,斥性美学关系编码器R由堆叠的多头注意力模块组{φ′(·),φ″(·)}、前向网络γ(·)和线性变换ξ(·)组成。
其中,步骤(2.2)具体包括:
其中{φ′(·),φ″(·)}为多头注意力模块组,ξ(·)为线性变换,γ(·)为前向网络;
如图3所示,左侧组图表示对于一个好的候选裁剪框,图像中各视觉元素对于框内的视觉元素的响应;右侧组图表示对于一个差的候选裁剪框,图像中各视觉元素对于框内的视觉元素的响应。可以看出框内视觉元素对于重要元素(人物等)都有较高的响应,即表现出引性关系;而框外元素对于框内元素响应较低,即呈现出排斥关系。比较左右两组图可以看出,被误裁在框外的元素也会对框内元素产生高响应,即表现出引性关系,以此为据则可判断裁剪框的不合理性。
(3)融合内容特征、引性美学关系特征和斥性美学关系特征,对候选裁剪框评分并排序,得到最佳的重构图结果。
其中,步骤(3)具体包括:
(3.1)将框内引性美学关系特征序列框内外斥性美学关系特征序列变形为与框内内容特征图MI空间尺寸一致的形状,得到框内引性美学关系特征图和框内外斥性美学关系特征图由得到用于回归美学评分的特征图M,其中,δ(·)表示沿特征维度拼接。
(3.2)依上述操作得到所有候选裁剪结果的评分集合S={s1,s2,...,sT},T表示候选裁剪框的总个数,对评分集合进行排序并依照用户需求将评分最大的m个候选裁剪框作为结果输出。如图4所示,为本发明对不同类型图像进行裁剪的结果,其中,第一行为输入的原始图像,第二行为本发明的裁剪结果。
在一个可选的实施方式中,本方法还包括对深度卷积网络、内引性美学关系编码器、外引性美学关系编码器和斥性美学关系编码器的训练步骤:
将框内位置嵌入表达、框外位置嵌入表达、深度卷积网络、内引性美学关系编码器、外引性美学关系编码器和斥性美学关系编码器组成整体网络,由得到整体网络的误差函数,其中,st表示网络预测的第t个候选裁剪框的评分,gt表示该候选裁剪框人工标注的真实评分,T表示候选裁剪框的总个数,为smooth L1损失函数,可表示为
利用神经网络框架Pytorch在GAIC公共数据集上进行训练。GAIC数据集包含1036张RGB图像,总标注量为89519个候选框的平均用户意见分数。在训练过程中,其中首先对整体网络参数进行恺明初始化,然后利用自适应动量估计优化算法对整体网络参数进行更新,并在训练误差函数变化小于某个阈值的时候停止训练,得到已训练的深度网络、内引性美学关系编码器、外引性美学关系编码器和斥性美学关系编码器。
本发明实施例的另一方面提供了一种基于视觉元素关系的智能化图像剪裁系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行上述的智能化图像剪裁方法。
本发明提出以视觉元素的吸引与排斥关系描述人类的美学概念来进行智能化美学裁剪,利用针对性建模的美学特征增强整体网络的泛化能力。借助自注意力机制强大的拟合能力,自动地学习图像中的关键元素和背景元素,并建模视觉元素之间的引性、斥性美学关系。在此基础上,结合内容特征,整体网络能够更好地估计候选裁剪框的美学评分,从而更好地给出图像的裁剪结果以增强其美学质量。由于该技术裁剪结果与真实用户偏好的一致性佳强,对不同种类的输入图像的鲁棒性好,该技术可以为终端用户的辅助摄影、个性化壁纸自动迁移和服务厂商的创意设计辅助、缩略图批量化生成等多对象、多场景提供有力帮助。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于视觉元素关系的智能化图像剪裁方法,其特征在于,包括以下步骤:
S1.结合可学习的位置嵌入表达,利用深度卷积网络将输入图像转化为具有图像空间位置信息的框内视觉单词序列和框外视觉单词序列,并建模得到单词内容特征;
S2.对于框内视觉单词序列和框外视觉单词序列,利用多层多头注意力模块,建模框内单词之间的引性美学关系特征和框内与框外单词之间的斥性美学关系特征;引性美学关系是视觉元素之间对于整体构图协调有贡献的空间或语义关系,斥性美学关系是视觉元素之间空间或者语义层面的不兼容关系;
S3.融合所述单词内容特征、引性美学关系特征和斥性美学关系特征,对候选裁剪框评分并排序,得到最佳的重构图结果。
2.如权利要求1所述的智能化图像剪裁方法,其特征在于,所述步骤S1具体包括:
S101.将待裁剪的图像I输入到已训练的深度卷积网络中,逐层进行下采样并提取多尺度的卷积特征,融合多尺度的特征后得到内容特征图M,结合候选裁剪框B,通过RoIAlign和RoDAlign得到尺寸皆为h×w×c的框内内容特征图MI和框外内容特征图MD,其中h为高度,w为宽度,c是维度;
S102.将框内内容特征图MI和框外内容特征图MD序列转化为尺寸为hw×c的第一框内内容特征序列CI和第一框外内容特征序列CD,序列中的每一个c维特征对应于输入图像I的一个区域;
4.根据权利要求3所述的智能化图像剪裁方法,其特征在于,步骤S201具体包括:
(2.1.2)将特征Xi-1输入到关系编码器A的第i-1层多头注意力模块φi-1(Q,K,V)中,其中Q、K、V分别为多头注意力模块的查询、键值和真值;由Mi=φi(Q,K,V)+Xi-1得到第i层的隐藏状态Mi,其中多头注意力模块φ(Q,K,V)表示为:其中Qh、Kh、Vh分别表示经过变化的第h个头的查询、键值和真值,α(·)表示softmax运算,δ(·)表示沿特征维度拼接;由Xi=γ(ξ(Mi))+Mi得到第i层的特征,其中ξ(·)为线性变换,γ(·)为前向网络;
5.根据权利要求3所述的智能化图像剪裁方法,其特征在于,步骤S202具体包括:
(2.2.3)将第i层的隐藏状态H′i和特征YI输入到斥性美学关系编码器R的第i-1层的第二个多头注意力模块φ″i-1(Q,K,V)中,其中由H″i=φ″i(Q,K,V)+H′i得到第i层的隐藏状态H″i,通过 得到第i层的特征,其中ξ(·)为线性变换,γ(·)为前向网络;
7.根据权利要求1所述的智能化图像剪裁方法,其特征在于,所述框内位置嵌入表达、框外位置嵌入表达、深度卷积网络、内引性美学关系编码器、外引性美学关系编码器和斥性美学关系编码器采用如下方法进行训练:
将框内位置嵌入表达、框外位置嵌入表达、深度卷积网络、内引性美学关系编码器、外引性美学关系编码器和斥性美学关系编码器组成整体网络;
利用神经网络框架Pytorch进行训练,首先对整体网络参数进行恺明初始化,然后利用自适应动量估计优化算法对整体网络参数进行更新,并在训练误差函数变化小于预设阈值的时候停止训练。
8.一种基于视觉元素关系的智能化图像剪裁系统,其特征在于,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行权利要求1至7任一项所述的智能化图像剪裁方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111125764.XA CN113763391B (zh) | 2021-09-24 | 2021-09-24 | 一种基于视觉元素关系的智能化图像剪裁方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111125764.XA CN113763391B (zh) | 2021-09-24 | 2021-09-24 | 一种基于视觉元素关系的智能化图像剪裁方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113763391A true CN113763391A (zh) | 2021-12-07 |
CN113763391B CN113763391B (zh) | 2024-03-19 |
Family
ID=78797381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111125764.XA Active CN113763391B (zh) | 2021-09-24 | 2021-09-24 | 一种基于视觉元素关系的智能化图像剪裁方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113763391B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018090355A1 (zh) * | 2016-11-21 | 2018-05-24 | 中国科学院自动化研究所 | 图像自动裁剪方法 |
CN108132968A (zh) * | 2017-12-01 | 2018-06-08 | 西安交通大学 | 网络文本与图像中关联语义基元的弱监督学习方法 |
CN111401177A (zh) * | 2020-03-09 | 2020-07-10 | 山东大学 | 基于自适应时空注意力机制的端到端行为识别方法及系统 |
CN113159028A (zh) * | 2020-06-12 | 2021-07-23 | 杭州喔影网络科技有限公司 | 显著性感知图像裁剪方法、装置、计算设备和存储介质 |
-
2021
- 2021-09-24 CN CN202111125764.XA patent/CN113763391B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018090355A1 (zh) * | 2016-11-21 | 2018-05-24 | 中国科学院自动化研究所 | 图像自动裁剪方法 |
CN108132968A (zh) * | 2017-12-01 | 2018-06-08 | 西安交通大学 | 网络文本与图像中关联语义基元的弱监督学习方法 |
CN111401177A (zh) * | 2020-03-09 | 2020-07-10 | 山东大学 | 基于自适应时空注意力机制的端到端行为识别方法及系统 |
CN113159028A (zh) * | 2020-06-12 | 2021-07-23 | 杭州喔影网络科技有限公司 | 显著性感知图像裁剪方法、装置、计算设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113763391B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783666B (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN111079532A (zh) | 一种基于文本自编码器的视频内容描述方法 | |
WO2023065617A1 (zh) | 基于预训练模型和召回排序的跨模态检索系统及方法 | |
CN111242844B (zh) | 图像处理方法、装置、服务器和存储介质 | |
TW201915790A (zh) | 關注點文案的生成 | |
CN110162766B (zh) | 词向量更新方法和装置 | |
CN111862294A (zh) | 基于ArcGAN网络的手绘3D建筑自动上色网络结构及方法 | |
CN111368118A (zh) | 一种图像描述生成方法、系统、装置和存储介质 | |
Zhang et al. | A comprehensive survey on computational aesthetic evaluation of visual art images: Metrics and challenges | |
KR20200065433A (ko) | 스타일 변환 모델 및 포토 몽타주 기반 합성 이미지의 스타일 변환 장치 | |
CN112084859A (zh) | 一种基于稠密边界块和注意力机制的建筑物分割方法 | |
CN107665356A (zh) | 一种图像标注方法 | |
CN116797868A (zh) | 文本图像生成方法以及扩散生成模型训练方法 | |
Zhao et al. | Cartoon image processing: a survey | |
Zhang et al. | Considering three elements of aesthetics: Multi-task self-supervised feature learning for image style classification | |
CN114330514A (zh) | 一种基于深度特征与梯度信息的数据重建方法及系统 | |
CN110991279B (zh) | 文档图像分析与识别方法及系统 | |
CN113010780A (zh) | 一种模型训练以及点击率预估方法及装置 | |
CN113763391A (zh) | 一种基于视觉元素关系的智能化图像剪裁方法和系统 | |
CN114283083B (zh) | 一种基于解耦表示的场景生成模型的美学增强方法 | |
CN116957006A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 | |
CN116051388A (zh) | 经由语言请求的自动照片编辑 | |
US20230072445A1 (en) | Self-supervised video representation learning by exploring spatiotemporal continuity | |
CN114283181A (zh) | 一种基于样例的动态纹理迁移方法及系统 | |
CN111583352A (zh) | 一种用于移动终端的风格化图标智能生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |