CN116309627A - 图像裁剪方法和装置 - Google Patents

图像裁剪方法和装置 Download PDF

Info

Publication number
CN116309627A
CN116309627A CN202211615940.2A CN202211615940A CN116309627A CN 116309627 A CN116309627 A CN 116309627A CN 202211615940 A CN202211615940 A CN 202211615940A CN 116309627 A CN116309627 A CN 116309627A
Authority
CN
China
Prior art keywords
aesthetic
image
model
cutting
composition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211615940.2A
Other languages
English (en)
Other versions
CN116309627B (zh
Inventor
史腾飞
谢雪光
高阳
郝爱民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202211615940.2A priority Critical patent/CN116309627B/zh
Publication of CN116309627A publication Critical patent/CN116309627A/zh
Application granted granted Critical
Publication of CN116309627B publication Critical patent/CN116309627B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本公开的实施例公开了一种图像裁剪方法和装置。该方法的一具体实施方式包括:获取待裁剪图像;并分别输入美学分支模型和构图分支模型;利用所得到的多个预选框的中心点坐标和多个预选框的高度和宽度,确定多个预选框的位置;筛选出与预设标准裁剪框位置之间的交并比最大的前N个预选框;将待裁剪图像输入裁剪分支模型,得到裁剪特征;利用感兴趣区域对齐模块将候选框集合与裁剪特征进行对齐,利用全连接层根据裁剪特征回归裁剪坐标得到最终裁剪图像。本发明利用美学和构图两种摄影相关的信息指导图像裁剪,美学信息控制预选框定位、构图信息控制预选框大小,生成高质量预选框,提高裁剪结果的美学品味和构图质量,生成更符合审美的裁剪结果。

Description

图像裁剪方法和装置
技术领域
本公开的实施例涉及图像裁剪技术领域,具体涉及图像裁剪方法和装置。
背景技术
图像裁剪旨在从给定场景中定位局部区域,其中局部区域应具有比原始场景中更美的视角。通过使用现成的图像裁剪方法作为图像预处理工具,图像可以自动呈现更高的审美分数,并且最终使得编辑后的图像可以具有与专业摄影师编辑几乎相同的质量。然而,图像裁剪是一项有挑战的任务,因为专业摄影师进行的精确编辑过程通常非常复杂,需要大量特定的培训技能。
智能图像裁剪是用于提升图像美学效果的有效途径之一,它被广泛地应用于摄影图像的后期处理中。图像裁剪的目的是将图像中冗余的部分裁去,保留符合审美的部分,合理地安排各个构图元素的分布,从而改善图像的整体构图,提升图像的美学质量。图像裁剪可以应用于多视角推荐、海报生成、图像缩略图生成等应用中。近年来,随着深度学习算法在计算机视觉方面的快速发展,越来越多的研究工作将深度学习应用到智能图像裁剪领域。但是如何裁剪出更符合人类审美的图像,是该任务的最大难点。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了基于美学感知和构图先验驱动的智能图像裁剪方法和装置,来解决以上背景技术部分提到的技术问题中的一项或多项。
本发明的目的是为了克服现有图像裁剪方法的性能不足的问题,提出一种基于美学感知和构图先验驱动的图像裁剪方法,能利用美学和构图信息有效指导图像裁剪任务,提升裁剪结果的美学质量和构图审美,带来更好的可视化效果。
第一方面,本公开的一些实施例提供了一种图像裁剪方法该方法包括:获取待裁剪图像;将上述待裁剪图像分别输入美学分支模型和构图分支模型,得到多个预选框的中心点坐标和对应多个预选框的高度和宽度,其中,上述美学分支模型是预先训练的图像裁剪模型包括的分支模型,上述构图分支模型是上述预先训练的图像裁剪模型包括的分支模型;利用所得到的多个预选框的中心点坐标和对应多个预选框的高度和宽度,确定多个预选框的位置;利用极大值抑制技术从上述多个预选框的位置中筛选出与预设标准裁剪框位置之间的交并比最大的前N个预选框,作为候选框集合,其中,N是正整数;将上述待裁剪图像输入裁剪分支模型,得到裁剪特征,其中,上述裁剪分支模型是上述预先训练的图像裁剪模型包括的分支模型,上述裁剪分支模型是使用预设数据集进行预训练得到的;利用感兴趣区域对齐模块将上述候选框集合与上述裁剪特征进行对齐,以及利用全连接层根据上述裁剪特征回归裁剪坐标训练,得到最终裁剪图像。
可选地,上述预先训练的图像裁剪模型是通过以下步骤训练得到的:获取裁剪数据集、美学数据集和构图数据集,其中,上述裁剪数据集中的每个裁剪数据包括裁剪图像,上述裁剪图像标注有裁剪框,上述美学数据集中的每个美学数据包括美学图像,上述美学图像标注美学图像质量分数分布,上述构图数据集中的每个构图数据包括构图图像,上述构图图像标注构图质量分数;将上述裁剪数据集中包括的每个裁剪图像输入上述美学分支模型,得到多个预选框的中心点坐标,其中,上述美学分支模型是使用上述美学数据集进行预训练得到的;将上述裁剪数据集中包括的每个裁剪图像输入上述构图分支模型,根据上述多个预选框的中心点坐标,得到对应多个预选框的高度和宽度,其中,上述构图分支模型是使用上述构图数据集进行预训练得到的;利用所得到的多个预选框的中心点坐标和对应多个预选框的高度和宽度,确定多个预选框的位置;利用极大值抑制技术从上述多个预选框的位置中筛选出与预设标准裁剪框位置之间的交并比最大的前N个预选框,作为候选框集合,其中,N是正整数;利用感兴趣区域对齐模块将上述候选框集合与上述裁剪分支模型生成的裁剪特征进行对齐,得到对齐后裁剪特征;以及利用全连接层根据上述裁剪特征回归裁剪坐标训练,得到最终裁剪图像;设计用于训练上述美学分支模型和上述构图分支模型生成候选框集合的第一损失函数;设计用于训练上述裁剪分支模型回归最终裁剪结果的第二损失函数;利用上述第一损失函数和上述第二损失函数调整上述美学分支模型、上述构图分支模型和上述裁剪分支模型。
可选地,上述预先训练的图像裁剪模型采用在预设数据集上预训练的残差网络模型,且由上述残差网络模型去除最后一个最大池化层的所有卷积块组成,其中,上述美学分支模型的骨架网络在上述美学数据集上训练参数,上述构图分支模型的骨架网络在上述构图数据集上训练参数。
可选地,确定多个预选框的中心点坐标和对应多个预选框的高度和宽度的过程符合条件概率分布,上述条件概率分布利用以下公式表示:P(x,y,h,w|X)=P(x,y|Faes)×P(w,h|x,y,Fcomp),其中,x表示预选框的中心点坐标中的横坐标,y表示预选框的中心点坐标中的纵坐标,w表示预选框的宽度,h表示预选框的高度,X表示输入图像,P(x,y,h,w|X)表示上述条件概率分布,P(x,y|Faes)表示输入美学特征后对应中心点坐标的概率分布,Faes表示上述美学分支模型输出特征,P(w,h|x,y,Fcomp)表示输入构图特征和中心点坐标后生成预选框高度和宽度的概率分布,Fcomp表示上述构图分支模型输出特征,其中,输入美学特征后对应中心点坐标概率分布利用以下公式表示:
Figure BDA0004001688520000031
其中,x表示预选框的中心点坐标中的横坐标,y表示预选框的中心点坐标中的纵坐标,Faes表示上述美学分支模型输出特征,P(x,y|Faes)表示输入美学特征后对应中心点坐标的概率分布,θ表示美学特征对应概率的筛选阈值,Sigmoid()表示对概率分布特征进行激活。
可选地,上述美学分支模型利用卷积、激活函数、下采样以及残差连接的组合方式,对裁剪图像进行美学特征编码,并设定美学筛选阈值以筛选美学特征作为对应的美学区域,将通过激活函数和美学筛选阈值筛选后的美学特征,输入1×1卷积网络,确定预选框的中心点坐标。
可选地,上述构图分支模型利用卷积、激活函数、下采样以及残差连接的组合方式,对裁剪图像进行构图特征编码,并利用两个1×1卷积网络分别确定预选框的长和宽,利用以下公式得到预选框的长和宽:
Figure BDA0004001688520000041
其中,w表示预选框的宽度,α表示经验常数,取值为8,exp()表示指数计算,dw表示预选框宽度的偏移量,h表示预选框的高度,dh表示预选框高度的偏移量。
可选地,其中,上述图像裁剪模型采用端到端的方式进行训练,采用随机梯度下降优化器进行调整,利用上述裁剪分支预设模型对输入的待裁剪图像进行特征提取,得到裁剪特征,并将上述美学分支模型和上述构图分支模型生成的候选框通过感兴趣区域对齐模块ROI进行筛选,利用全连接层根据构图特征回归预测裁剪坐标确定最终裁剪框,整个训练过程采用上述第一损失函数和上述第二损失函数的进行回归训练,其中上述全连接层是由3层可学习调整权重的参数组成的连接层,根据损失函数的约束和梯度下降优化算法,通过模型训练过程调整参数,从而生成更加准确的预测裁剪坐标。
可选地,其中,上述第二损失函数为平滑绝对损失函数,上述第一损失函数为变化的交并比损失函数,其中,交并比用于确定候选框和真实标签的相似程度,变化的交并比表示候选框的长度和宽度发生变化时,候选框和真实标签的相似程度,变化的交并比损失函数利用以下公式表示:
Figure BDA0004001688520000042
其中,vIoU(awh,gt)表示上述变化的交并比损失函数,awh表示变化的候选框坐标,awh={(x,y,w,h)|w>0,h>0},x表示预选框的中心点坐标中的横坐标,y表示预选框的中心点坐标中的纵坐标,w表示预选框的宽度,h表示预选框的高度,gt表示真实标签,gt=(xg,yg,wg,hg),xg表示真实标签对应中心点坐标中的横坐标,yg表示真实标签对应中心点坐标中的纵坐标,wg表示真实标签对应的宽度,hg表示真实标签对应的高度,IoU表示交并比。
可选地,上述美学分支模型对上述裁剪图像提取美学特征,使用1×1卷积网络和激活函数学习上述美学特征,并利用预设阈值确定多个特征区域,基于上述多个特征区域,生成多个预选框的中心点坐标;上述构图分支模型对上述裁剪图像提取构图特征,使用两个1×1卷积网络生成对应多个预选框的高度和宽度。
第二方面,本公开的一些实施例提供了一种图像裁剪装置,装置包括:获取单元,被配置成获取待裁剪图像;第一输入单元,被配置成将上述待裁剪图像分别输入美学分支模型和构图分支模型,得到多个预选框的中心点坐标和对应多个预选框的高度和宽度,其中,上述美学分支模型是预先训练的图像裁剪模型包括的分支模型,上述构图分支模型是上述预先训练的图像裁剪模型包括的分支模型;确定单元,被配置成利用所得到的多个预选框的中心点坐标和对应多个预选框的高度和宽度,确定多个预选框的位置;筛选单元,被配置成利用极大值抑制技术从上述多个预选框的位置中筛选出与预设标准裁剪框位置之间的交并比最大的前N个预选框,作为候选框集合,其中,N是正整数;第二输入单元,被配置成将上述待裁剪图像输入裁剪分支模型,得到裁剪特征,其中,上述裁剪分支模型是上述预先训练的图像裁剪模型包括的分支模型;对齐单元,被配置成利用感兴趣区域对齐模块将上述候选框集合与上述裁剪特征进行对齐,以及利用全连接层根据上述裁剪特征回归裁剪坐标训练,得到最终裁剪图像。
本发明方法,与现有技术相比,具有以下有益效果:本发明的网络结构包括美学分支模型、构图分支模型和裁剪分支模型三部分。具体地:利用美学数据集和构图数据集训练美学分支模型和构图分支模型的预训练模型作为先验知识提取相应的美学特征和构图特征;对于美学分支模型,对输入图像提取美学特征并经过1×1卷积操作后,利用激活函数和美学筛选阈值选择对应区域作为预选框生成中心坐标;对于构图分支模型,对输入图像提取构图特征并经过两个1×1卷积分别输出对应预选框的高度和宽度;将两个分支模型生成的中心坐标和高宽大小组合成预选框并进行极大值抑制(NMS,Non-max suppression)筛选高质量预选框;对于裁剪分支模型,输入图像提取裁剪特征,利用预选框坐标映射到裁剪特征,并利用全连接层根据上述裁剪特征回归裁剪坐标训练,得到最终裁剪图像;利用损失函数对整个网络进行优化。如此,本发明提出了一种裁剪新方式,即同时利用美学、构图和裁剪三者联合训练,呈现了一种由美学和构图同时指导裁剪的新范式。本发明显式地将美学和构图先验知识建模到网络中,实现了可理解的裁剪方法,除了最终预测的裁剪框,生成的高质量预选框能体现美学和构图两种先验指导的有效性;同时,本发明关注裁剪结果的可理解性,提高了裁剪结果的构图质量。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是根据本公开的图像裁剪方法的一些实施例的流程图;
图2是根据本公开的一些实施例的图像裁剪方法的构图规则示意图;
图3是根据本公开的一些实施例的图像裁剪方法的整体网络结构图;
图4是根据本公开的一些实施例的图像裁剪方法的模型训练流程图;
图5是根据本公开的一些实施例的图像裁剪方法的部分裁剪结果图;
图6是根据本公开的图像裁剪装置的一些实施例的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下面将参考附图并结合实施例来详细说明本公开。
本实施例为利用检索方法得到的多样本使用图卷积联合训练,并使用自适应损失函数调整训练过程,数据集使用美学图像质量评价数据集作为美学数据集。
图1示出了根据本公开的图像裁剪方法的一些实施例的流程图。该图像裁剪方法,包括以下步骤:
步骤101,获取待裁剪图像。
在一些实施例中,图像裁剪方法的执行主体可以通过有线连接方式或者无线连接方式获取待裁剪图像。
步骤102,将待裁剪图像分别输入美学分支模型和构图分支模型,得到多个预选框的中心点坐标和对应多个预选框的高度和宽度。
在一些实施例中,上述执行主体可以将上述待裁剪图像分别输入美学分支模型和构图分支模型,得到多个预选框的中心点坐标和对应多个预选框的高度和宽度。其中,上述美学分支模型是预先训练的图像裁剪模型包括的分支模型,上述构图分支模型是上述预先训练的图像裁剪模型包括的分支模型。
在一些实施例的一些可选的实现方式中,上述预先训练的图像裁剪模型是通过以下步骤训练得到的:
第一步,获取裁剪数据集、美学数据集和构图数据集。其中,上述裁剪数据集中的每个裁剪数据包括裁剪图像,上述裁剪图像标注有裁剪框,上述美学数据集中的每个美学数据包括美学图像,上述美学图像标注美学图像质量分数分布,上述构图数据集中的每个构图数据包括构图图像,上述构图图像标注构图质量分数。
作为示例,采用裁剪数据集FCDB、美学数据集AVA和构图数据集CADB对网络进行训练。FCDB为裁剪数据集,包含1743张图像,其中1395张图像用于训练,348张图像用于测试,每张图像由专家标注单个裁剪框。AVA为美学数据集,包含235500张图像用于训练。20000张图像用于测试,其真实标签均由50~230人评分得到。CADB为构图数据集,其中包含元素平衡、颜色和谐性、光线、动态模糊、重复模式、三分构图、对称构图等构图规则,构图规则如图2所示。在训练过程之前,先使用ResNet 50模型在美学和构图数据集上训练得到对应预训练模型,用于接下来图像裁剪任务。ResNet 50模型是一种包含了49个卷积层和一个全连接层的网络模型。
可选地,上述预先训练的图像裁剪模型采用在预设数据集上预训练的残差网络模型,且由上述残差网络模型去除最后一个最大池化层的所有卷积块组成。其中,上述美学分支模型的骨架网络在上述美学数据集上训练参数,上述构图分支模型的骨架网络在上述构图数据集上训练参数。
作为示例,采用残差网络模型ResNet 50作为骨架网络对输入图像进行特征编码,其分别由3、4、6、3个瓶颈网络模块,利用此骨架网络可获得通道数为2048,下采样倍数为32倍的特征图
Figure BDA0004001688520000081
Figure BDA0004001688520000082
表示特征空间,2048×7×7可以是特征空间的对应维度。利用在预设数据集例如ImageNet上的预训练权值对骨架网络进行初始化。ImageNet是一个用于视觉对象识别软件研究的大型可视化数据集。
第二步,将上述裁剪数据集中包括的每个裁剪图像输入上述美学分支模型,得到多个预选框的中心点坐标,其中,上述美学分支模型可以是使用上述美学数据集进行预训练得到的。
可选地,上述美学分支模型对上述裁剪图像提取美学特征,使用1×1卷积网络和激活函数学习上述美学特征,并利用预设阈值确定多个特征区域,基于上述多个特征区域,生成多个预选框的中心点坐标。
具体地,上述美学分支模型利用卷积、激活函数、下采样以及残差连接的组合方式,对裁剪图像进行美学特征编码,并设定美学筛选阈值以筛选美学特征作为对应的美学区域,将通过激活函数和美学阈值筛选后的美学特征,输入1×1卷积网络,确定预选框的中心点坐标。
其中,将上述裁剪图片输入美学分支模型,其中美学分支使用美学数据集预训练模型,对上述裁剪图片提取美学特征,并使用1×1卷积训练,并上采样32倍后,使用激活函数和美学阈值筛选坐标作为生成预选框中心点,可以包括以下子步骤:
第一子步骤,美学特征编码。利用美学分支模型对图片进行特征编码,输入图像维度是
Figure BDA0004001688520000091
通过美学分支模型降维32倍并提取对应美学特征/>
Figure BDA0004001688520000092
其中,/>
Figure BDA0004001688520000093
表示特征空间。
第二子步骤,生成美学特征区域。对提取到的美学特征Faes使用1×1卷积进行特征计算,得到美学特征区域,并将其特征区域上采样到
Figure BDA0004001688520000094
其中,/>
Figure BDA0004001688520000095
表示特征空间。
第三子步骤,区域激活筛选。将上采样得到的美学特征Faes使用激活函数例如Sigmoid函数进行激活,将对应美学特征2048维通道转化为1维,并设定美学阈值进行特征区域筛选,以确定对应裁剪图片中具有美学属性的坐标点,计算公式如下:
Figure BDA0004001688520000096
其中,x表示预选框的中心点坐标中的横坐标。y表示预选框的中心点坐标中的纵坐标。Faes表示上述美学分支模型输出特征。P(x,y|Faes)表示输入美学特征后对应中心点坐标的概率分布。θ表示美学特征对应概率的筛选阈值。Sigmoid()表示对概率分布特征进行激活。
第三步,将上述裁剪数据集中包括的每个裁剪图像输入上述构图分支模型,根据上述多个预选框的中心点坐标,得到对应多个预选框的高度和宽度,其中,上述构图分支模型可以是使用上述构图数据集进行预训练得到的。
可选地,上述构图分支模型对上述裁剪图像提取构图特征,使用两个1×1卷积网络生成对应多个预选框的高度和宽度。
其中,上述构图分支模型利用卷积、激活函数、下采样以及残差连接的组合方式,对裁剪图像进行构图特征编码,并利用两个1×1卷积网络分别确定预选框的长和宽,可以包括以下子步骤:
第一子步骤,构图特征编码。利用构图分支模型对图片进行特征编码,输入图像维度是
Figure BDA0004001688520000101
通过构图分支模型降维32倍,并提取对应美学特征
Figure BDA0004001688520000102
其中,/>
Figure BDA0004001688520000103
表示特征空间。
第二子步骤,生成构图特征区域。为提高计算效率,对提取到的构图特征Fcomp使用平均池化降维特征到
Figure BDA0004001688520000104
并进一步将两个1×1卷积进行特征降维到
Figure BDA0004001688520000105
输出特征分别预测预选框的宽度和高度的偏移量dh和dw。其中,/>
Figure BDA0004001688520000106
表示特征空间。
第三子步骤,预测预选框大小。输出的构图特征Fcomp输出预测w和h的训练过程如下:
Figure BDA0004001688520000107
其中,w表示预选框的宽度。α表示经验常数,取值为8。exp()表示指数计算。dw表示预选框宽度的偏移量。h表示预选框的高度。dh表示预选框高度的偏移量。
第四步,利用所得到的多个预选框的中心点坐标和对应多个预选框的高度和宽度,确定多个预选框的位置。
可选地,确定多个预选框的中心点坐标和对应多个预选框的高度和宽度的过程符合条件概率分布,上述条件概率分布可以利用以下公式表示:
P(x,y,h,w|X)=P(x,y|Faes)×P(w,h|x,y,Fcomp)。
其中,x表示预选框的中心点坐标中的横坐标。y表示预选框的中心点坐标中的纵坐标。w表示预选框的宽度。h表示预选框的高度。X表示输入图像。P(x,y,h,w|X)表示上述条件概率分布。P(x,y|Faes)表示输入美学特征后对应中心点坐标的概率分布。Faes表示上述美学分支模型输出特征。P(w,h|x,y,Fcomp)表示输入构图特征和中心点坐标后生成预选框高度和宽度的概率分布。Fcomp表示上述构图分支模型输出特征。其中,输入美学特征后对应中心点坐标概率分布利用以下公式表示:
Figure BDA0004001688520000108
其中,x表示预选框的中心点坐标中的横坐标。y表示预选框的中心点坐标中的纵坐标。Faes表示上述美学分支模型输出特征。P(x,y|Faes)表示输入美学特征后对应中心点坐标的概率分布。θ表示美学特征对应概率的筛选阈值。Sigmoid()表示对概率分布特征进行激活。
通过上式,利用美学和构图分支特征得到对应多个预选框的坐标x,y,h,w,并通过设定的交并比阈值利用极大值抑制技术方式去除重复的预选框,得到高质量的预选框。
第五步,利用极大值抑制技术从上述多个预选框的位置中筛选出与预设标准裁剪框位置之间的交并比最大的前N个预选框,作为候选框集合,其中,N是正整数。
第六步,利用感兴趣区域对齐模块例如RoI align(Region of Interest align)模块将上述候选框集合与上述裁剪分支模型生成的裁剪特征进行对齐,得到对齐后裁剪特征。
第七步,利用上述对齐后裁剪特征进行最终裁剪结果的坐标回归,利用全连接层根据输入的裁剪特征得到最终裁剪坐标,从而得到最终裁剪图像。
如图3所示,图3是根据本公开的一些实施例的图像裁剪方法的整体网络结构图。图3中将待裁剪图像分别输入美学分支模型和构图分支模型,得到美学分支模型输出的特征:美学特征,以及构图分支模型输出的特征:构图特征。将通过激活函数和美学阈值筛选后的美学特征,输入1×1卷积网络,确定多个预选框的中心点坐标。将构图特征输入两个1×1卷积网络生成对应多个预选框的高度和宽度。然后,利用极大值抑制技术从多个预选框的位置中筛选出与预设标准裁剪框位置之间的交并比最大的前N个预选框。接着,利用感兴趣区域对齐模块例如RoI align(Region of Interest align)模块将上述候选框集合与上述裁剪分支模型生成的裁剪特征进行对齐,得到对齐后裁剪特征。最后,利用上述对齐后裁剪特征进行回归,得到最终裁剪图像。
第八步,设计用于训练上述美学分支模型和上述构图分支模型生成候选框集合的第一损失函数。
第九步,设计用于训练上述裁剪分支模型回归最终裁剪结果的第二损失函数。
第十步,利用上述第一损失函数和上述第二损失函数调整上述美学分支模型、上述构图分支模型和上述裁剪分支模型。其中,上述第二损失函数为平滑绝对损失函数,上述第一损失函数为变化的交并比损失函数,其中,交并比用于确定候选框和真实标签的相似程度,变化的交并比表示候选框的长度和宽度发生变化时,候选框和真实标签的相似程度,可以包括以下子步骤:
第一子步骤,预选框优化分支。预选框优化分支的优化目标为:最小化预选框和标注裁剪框坐标之间的变化的交并比损失函数。变化的交并比损失函数利用以下公式表示:
Figure BDA0004001688520000121
其中,vIoU(aeh,gt)表示上述变化的交并比损失函数。awh表示变化的候选框坐标。awh={(x,y,w,h)|w>0,h>0}。x表示预选框的中心点坐标中的横坐标。y表示预选框的中心点坐标中的纵坐标。w表示预选框的宽度。h表示预选框的高度。gt表示真实标签。gt=(xg,yg,wg,hg)。xg表示真实标签对应中心点坐标中的横坐标。yg表示真实标签对应中心点坐标中的纵坐标。wg表示真实标签对应的宽度。hg表示真实标签对应的高度。IoU表示交并比。对于任意变化的预选框和对应的真实标签,难以完全端到端网络训练,该方法中使用9次采样预选框结果的平均值对变化的(w,h)来近似表达。
第二子步骤,裁剪分支优化。裁剪分支优化目标为:最小化预测裁剪框和标注裁剪框坐标之间的平滑绝对损失函数:
Figure BDA0004001688520000122
其中,Lcrop表示裁剪分支模型的损失函数。k表示裁剪框的边序号。
Figure BDA0004001688520000123
为平滑绝对损失函数。bk为预测裁剪框边界。gk为标注裁剪框边界。
第三子步骤,多分支联合优化。网络为端到端训练,美学分支模型、构图分支模型和裁剪分支模型在相应的数据集上同时进行优化。在每次迭代过程中,裁剪数据集经过美学分支模型、构图分支模型和裁剪分支模型。本实例采取累计梯度策略对网络参数进行更新。整体网络的优化目标为最小化以下目标函数:
Figure BDA0004001688520000124
其中,
Figure BDA0004001688520000125
表示目标函数。λ表示平衡因子,为了让保证训练的稳定,本实例中平衡因子可以设置为0.6。Lcrop表示裁剪分支模型的损失函数。vIoU表示上述变化的交并比损失函数。
整个网络的训练细节如下:上述图像裁剪模型采用端到端的方式进行训练,采用随机梯度下降优化器进行调整,利用上述裁剪分支预设模型对输入的待裁剪图像进行特征提取,得到裁剪特征,并将上述美学分支模型和上述构图分支模型生成的候选框通过感兴趣区域对齐模块ROI进行筛选,利用全连接层根据构图特征回归预测裁剪坐标确定最终裁剪框,整个训练过程采用上述第一损失函数和上述第二损失函数的进行回归训练,其中上述全连接层是由3层可学习调整权重的参数组成的连接层,根据损失函数的约束和梯度下降优化算法,通过模型训练过程调整参数,从而生成更加准确的预测裁剪坐标。,网络的初始学习率为0.002,每5个训练轮次(例如,epoch)学习率下降到原来的十分之一,最终网络训练20个训练轮次收敛。网络权值衰减设置为0.0001。骨架网络为在ImageNet上预训练的ResNet50的所有卷积块(除去最后一个最大池化层)。
可选地,上述预先训练的图像裁剪模型采用在预设数据集上预训练的残差网络模型,且由上述残差网络模型去除最后一个最大池化层的所有卷积块组成,其中,上述美学分支模型的骨架网络在上述美学数据集上训练参数,上述构图分支模型的骨架网络在上述构图数据集上训练参数。
图4是根据本公开的图像裁剪方法的一些实施例的模型训练流程图,在图4中,模型训练的项目流程包括:预训练模型、预选框生成、裁剪回归和损失函数。其中,预训练模型的创新点在于美学和构图先验知识指导;预选框生成的创新点在于美学和构图分支联合生成高质量预选框;裁剪回归的创新点在于置信度最高预选框回归裁剪结果;损失函数的创新点在于两个损失函数联合约束、高效优化。
步骤103,利用所得到的多个预选框的中心点坐标和对应多个预选框的高度和宽度,确定多个预选框的位置。
在一些实施例中,上述执行主体可以利用所得到的多个预选框的中心点坐标和对应多个预选框的高度和宽度,确定多个预选框的位置。
步骤104,利用极大值抑制技术从多个预选框的位置中筛选出与预设标准裁剪框位置之间的交并比最大的前N个预选框,作为候选框集合。
在一些实施例中,上述执行主体可以利用极大值抑制技术从上述多个预选框的位置中筛选出与预设标准裁剪框位置之间的交并比最大的前N个预选框,作为候选框集合。其中,N是正整数。
步骤105,将待裁剪图像输入裁剪分支模型,得到裁剪特征。
在一些实施例中,上述执行主体可以将上述待裁剪图像输入裁剪分支模型,得到裁剪特征。其中,上述裁剪分支模型是上述预先训练的图像裁剪模型包括的分支模型。上述裁剪分支模型是使用预设数据集进行预训练得到的。
步骤106,利用感兴趣区域对齐模块将候选框集合与裁剪特征进行对齐,以及利用全连接层根据上述裁剪特征回归裁剪坐标训练,得到最终裁剪图像。
在一些实施例中,上述执行主体可以利用感兴趣区域对齐模块将上述候选框集合与上述裁剪特征进行对齐,以及利用全连接层根据上述裁剪特征回归裁剪坐标训练,得到最终裁剪图像。部分裁剪结果图如图5所示。
进一步参考图6,作为对上述各图上述方法的实现,本公开提供了一种图像裁剪装置的一些实施例,这些装置实施例与图1上述的那些方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,一些实施例的图像裁剪装置600包括:获取单元601、第一输入单元602、确定单元603、筛选单元604、第二输入单元605和对齐单元606。其中,获取单元601,被配置成获取待裁剪图像;第一输入单元602,被配置成将上述待裁剪图像分别输入美学分支模型和构图分支模型,得到多个预选框的中心点坐标和对应多个预选框的高度和宽度,其中,上述美学分支模型是预先训练的图像裁剪模型包括的分支模型,上述构图分支模型是上述预先训练的图像裁剪模型包括的分支模型;确定单元603,被配置成利用所得到的多个预选框的中心点坐标和对应多个预选框的高度和宽度,确定多个预选框的位置;筛选单元604,被配置成利用极大值抑制技术从上述多个预选框的位置中筛选出与预设标准裁剪框位置之间的交并比最大的前N个预选框,作为候选框集合,其中,N是正整数;第二输入单元605,被配置成将上述待裁剪图像输入裁剪分支模型,得到裁剪特征,其中,上述裁剪分支模型是上述预先训练的图像裁剪模型包括的分支模型;对齐单元606,被配置成利用感兴趣区域对齐模块将上述候选框集合与上述裁剪特征进行对齐,以及利用全连接层根据上述裁剪特征回归裁剪坐标训练,得到最终裁剪图像。
可以理解的是,该装置600中记载的诸单元与参考图1描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置600及其中包含的单元,在此不再赘述。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种图像裁剪方法,包括:
获取待裁剪图像;
将所述待裁剪图像分别输入美学分支模型和构图分支模型,得到多个预选框的中心点坐标和对应多个预选框的高度和宽度,其中,所述美学分支模型是预先训练的图像裁剪模型包括的分支模型,所述构图分支模型是所述预先训练的图像裁剪模型包括的分支模型;
利用所得到的多个预选框的中心点坐标和对应多个预选框的高度和宽度,确定多个预选框的位置;
利用极大值抑制技术从所述多个预选框的位置中筛选出与预设标准裁剪框位置之间的交并比最大的前N个预选框,作为候选框集合,其中,N是正整数;
将所述待裁剪图像输入裁剪分支模型,得到裁剪特征,其中,所述裁剪分支模型是所述预先训练的图像裁剪模型包括的分支模型,所述裁剪分支模型是使用预设数据集进行预训练得到的;
利用感兴趣区域对齐模块将所述候选框集合与所述裁剪特征进行对齐,以及利用全连接层根据所述裁剪特征回归裁剪坐标训练,得到最终裁剪图像。
2.根据权利要求1所述的方法,其中,所述预先训练的图像裁剪模型是通过以下步骤训练得到的:
获取裁剪数据集、美学数据集和构图数据集,其中,所述裁剪数据集中的每个裁剪数据包括裁剪图像,所述裁剪图像标注有裁剪框,所述美学数据集中的每个美学数据包括美学图像,所述美学图像标注美学图像质量分数分布,所述构图数据集中的每个构图数据包括构图图像,所述构图图像标注构图质量分数;
将所述裁剪数据集中包括的每个裁剪图像输入所述美学分支模型,得到多个预选框的中心点坐标,其中,所述美学分支模型是使用所述美学数据集进行预训练得到的;
将所述裁剪数据集中包括的每个裁剪图像输入所述构图分支模型,根据所述多个预选框的中心点坐标,得到对应多个预选框的高度和宽度,其中,所述构图分支模型是使用所述构图数据集进行预训练得到的;
利用所得到的多个预选框的中心点坐标和对应多个预选框的高度和宽度,确定多个预选框的位置;
利用极大值抑制技术从所述多个预选框的位置中筛选出与预设标准裁剪框位置之间的交并比最大的前N个预选框,作为候选框集合,其中,N是正整数;
利用感兴趣区域对齐模块将所述候选框集合与所述裁剪分支模型生成的裁剪特征进行对齐,得到对齐后裁剪特征;
利用所述对齐后裁剪特征进行回归,得到最终裁剪图像;
设计用于训练所述美学分支模型和所述构图分支模型生成候选框集合的第一损失函数;
设计用于训练所述裁剪分支模型回归最终裁剪结果的第二损失函数;
利用所述第一损失函数和所述第二损失函数调整所述美学分支模型、所述构图分支模型和所述裁剪分支模型。
3.根据权利要求2所述的方法,其中,所述预先训练的图像裁剪模型采用在预设数据集上预训练的残差网络模型,且由所述残差网络模型去除最后一个最大池化层的所有卷积块组成,其中,所述美学分支模型的骨架网络在所述美学数据集上训练参数,所述构图分支模型的骨架网络在所述构图数据集上训练参数。
4.根据权利要求3所述的方法,其中,确定多个预选框的中心点坐标和对应多个预选框的高度和宽度的过程符合条件概率分布,所述条件概率分布利用以下公式表示:
P(x,y,h,w|X)=P(x,y|Faes)×P(w,h|x,y,Fcomp),
其中,x表示预选框的中心点坐标中的横坐标,y表示预选框的中心点坐标中的纵坐标,w表示预选框的宽度,h表示预选框的高度,X表示输入图像,P(x,y,h,w|X)表示所述条件概率分布,P(x,y|Faes)表示输入美学特征后对应中心点坐标的概率分布,Faes表示所述美学分支模型输出特征,P(w,h|x,y,Fcomp)表示输入构图特征和中心点坐标后生成预选框高度和宽度的概率分布,Fcomp表示所述构图分支模型输出特征,其中,输入美学特征后对应中心点坐标概率分布利用以下公式表示:
Figure FDA0004001688510000031
其中,x表示预选框的中心点坐标中的横坐标,y表示预选框的中心点坐标中的纵坐标,Faes表示所述美学分支模型输出特征,P(x,y|Faes)表示输入美学特征后对应中心点坐标的概率分布,θ表示美学特征对应概率的筛选阈值,Sigmoid()表示对概率分布特征进行激活。
5.根据权利要求4所述的方法,其中,所述美学分支模型利用卷积、激活函数、下采样以及残差连接的组合方式,对裁剪图像进行美学特征编码,并设定美学筛选阈值以筛选美学特征作为对应的美学区域,将通过激活函数和美学筛选阈值筛选后的美学特征,输入1×1卷积网络,确定预选框的中心点坐标。
6.根据权利要求5所述的方法,其中,所述构图分支模型利用卷积、激活函数、下采样以及残差连接的组合方式,对裁剪图像进行构图特征编码,并利用两个1×1卷积网络分别确定预选框的长和宽,利用以下公式得到预选框的长和宽:
Figure FDA0004001688510000032
其中,w表示预选框的宽度,α表示经验常数,取值为8,exp()表示指数计算,dw表示预选框宽度的偏移量,h表示预选框的高度,dh表示预选框高度的偏移量。
7.根据权利要求6所述的方法,其中,所述图像裁剪模型采用端到端的方式进行训练,采用随机梯度下降优化器进行调整,利用所述裁剪分支预设模型对输入的待裁剪图像进行特征提取,得到裁剪特征,并将所述美学分支模型和所述构图分支模型生成的候选框通过感兴趣区域对齐模块ROI进行筛选,利用全连接层根据构图特征回归预测裁剪坐标确定最终裁剪框,整个训练过程采用所述第一损失函数和所述第二损失函数进行回归训练,其中所述全连接层是由3层可学习调整权重的参数组成的连接层,根据损失函数的约束和梯度下降优化算法,通过模型训练过程调整参数,从而生成更加准确的预测裁剪坐标。
8.根据权利要求7所述的方法,其中,所述第二损失函数为平滑绝对损失函数,所述第一损失函数为变化的交并比损失函数,其中,交并比用于确定候选框和真实标签的相似程度,变化的交并比表示候选框的长度和宽度发生变化时,候选框和真实标签的相似程度,变化的交并比损失函数利用以下公式表示:
Figure FDA0004001688510000041
其中,vIoU(awh,gt)表示所述变化的交并比损失函数,awh表示变化的候选框坐标,awh={(x,y,w,h)|w>0,h>0},x表示预选框的中心点坐标中的横坐标,y表示预选框的中心点坐标中的纵坐标,w表示预选框的宽度,h表示预选框的高度,gt表示真实标签,gt=(xg,yg,wg,hg),xg表示真实标签对应中心点坐标中的横坐标,yg表示真实标签对应中心点坐标中的纵坐标,wg表示真实标签对应的宽度,hg表示真实标签对应的高度,IoU表示交并比。
9.根据权利要求8所述的方法,其中,所述美学分支模型对所述裁剪图像提取美学特征,使用1×1卷积网络和激活函数学习所述美学特征,并利用预设阈值确定多个特征区域,基于所述多个特征区域,生成多个预选框的中心点坐标;所述构图分支模型对所述裁剪图像提取构图特征,使用两个1×1卷积网络生成对应多个预选框的高度和宽度。
10.一种图像裁剪装置,包括:
获取单元,被配置成获取待裁剪图像;
第一输入单元,被配置成将所述待裁剪图像分别输入美学分支模型和构图分支模型,得到多个预选框的中心点坐标和对应多个预选框的高度和宽度,其中,所述美学分支模型是预先训练的图像裁剪模型包括的分支模型,所述构图分支模型是所述预先训练的图像裁剪模型包括的分支模型;
确定单元,被配置成利用所得到的多个预选框的中心点坐标和对应多个预选框的高度和宽度,确定多个预选框的位置;
筛选单元,被配置成利用极大值抑制技术从所述多个预选框的位置中筛选出与预设标准裁剪框位置之间的交并比最大的前N个预选框,作为候选框集合,其中,N是正整数;
第二输入单元,被配置成将所述待裁剪图像输入裁剪分支模型,得到裁剪特征,其中,所述裁剪分支模型是所述预先训练的图像裁剪模型包括的分支模型,所述裁剪分支模型是使用预设数据集进行预训练得到的;
对齐单元,被配置成利用感兴趣区域对齐模块将所述候选框集合与所述裁剪特征进行对齐,以及利用全连接层根据所述裁剪特征回归裁剪坐标训练,得到最终裁剪图像。
CN202211615940.2A 2022-12-15 2022-12-15 图像裁剪方法和装置 Active CN116309627B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211615940.2A CN116309627B (zh) 2022-12-15 2022-12-15 图像裁剪方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211615940.2A CN116309627B (zh) 2022-12-15 2022-12-15 图像裁剪方法和装置

Publications (2)

Publication Number Publication Date
CN116309627A true CN116309627A (zh) 2023-06-23
CN116309627B CN116309627B (zh) 2023-09-15

Family

ID=86800207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211615940.2A Active CN116309627B (zh) 2022-12-15 2022-12-15 图像裁剪方法和装置

Country Status (1)

Country Link
CN (1) CN116309627B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152409A (zh) * 2023-08-07 2023-12-01 中移互联网有限公司 基于多模态感知建模的图像裁剪方法、装置和设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018090355A1 (zh) * 2016-11-21 2018-05-24 中国科学院自动化研究所 图像自动裁剪方法
CN111696112A (zh) * 2020-06-15 2020-09-22 携程计算机技术(上海)有限公司 图像自动裁剪方法、系统、电子设备及存储介质
CN113436224A (zh) * 2021-06-11 2021-09-24 华中科技大学 一种基于显式构图规则建模的智能图像裁剪方法及装置
CN114119373A (zh) * 2021-11-29 2022-03-01 广东维沃软件技术有限公司 图像裁剪方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018090355A1 (zh) * 2016-11-21 2018-05-24 中国科学院自动化研究所 图像自动裁剪方法
CN111696112A (zh) * 2020-06-15 2020-09-22 携程计算机技术(上海)有限公司 图像自动裁剪方法、系统、电子设备及存储介质
CN113436224A (zh) * 2021-06-11 2021-09-24 华中科技大学 一种基于显式构图规则建模的智能图像裁剪方法及装置
CN114119373A (zh) * 2021-11-29 2022-03-01 广东维沃软件技术有限公司 图像裁剪方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YI TU 等: "image cropping with composition and saliency aware aesthetic score map", ARXIV.ORG *
李雪薇: "基于美学的图像质量评价与提升算法研究", 中国博士学位论文全文数据库, no. 01 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152409A (zh) * 2023-08-07 2023-12-01 中移互联网有限公司 基于多模态感知建模的图像裁剪方法、装置和设备

Also Published As

Publication number Publication date
CN116309627B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN109711316B (zh) 一种行人重识别方法、装置、设备及存储介质
CN110473164B (zh) 一种基于注意力机制的图像美学质量评价方法
Fischer et al. Flownet: Learning optical flow with convolutional networks
CN106780543B (zh) 一种基于卷积神经网络的双框架估计深度和运动方法
CN108921058A (zh) 基于深度学习的鱼类识别方法、介质、终端设备及装置
CN111489412A (zh) 用于使用神经网络生成基本逼真图像的语义图像合成
CN107391709A (zh) 一种基于新型注意模型进行图像字幕生成的方法
CN113538480A (zh) 图像分割处理方法、装置、计算机设备和存储介质
CN111260687B (zh) 一种基于语义感知网络和相关滤波的航拍视频目标跟踪方法
CN116309627B (zh) 图像裁剪方法和装置
CN107392244B (zh) 基于深度神经网络与级联回归的图像美感增强方法
CN114048822A (zh) 一种图像的注意力机制特征融合分割方法
CN115223082A (zh) 一种基于时空多尺度Transformer的航拍视频分类方法
US11272097B2 (en) Aesthetic learning methods and apparatus for automating image capture device controls
Luo et al. Bokeh rendering from defocus estimation
CN114581486A (zh) 基于全卷积孪生网络多层特征的模板更新目标跟踪算法
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN112288772B (zh) 基于在线多特征选择的通道注意力目标跟踪方法
CN109903315A (zh) 用于光流预测的方法、装置、设备以及可读存储介质
US20210233213A1 (en) Attention-driven image manipulation
CN115953321A (zh) 一种基于零次学习的低照度图像增强方法
CN114266952A (zh) 基于深监督的实时语义分割方法
CN113436224A (zh) 一种基于显式构图规则建模的智能图像裁剪方法及装置
CN113139966A (zh) 一种基于贝叶斯记忆的层次级联视频目标分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant