CN113592707A - 基于图像内容外扩和美学引导的构图方法 - Google Patents
基于图像内容外扩和美学引导的构图方法 Download PDFInfo
- Publication number
- CN113592707A CN113592707A CN202110883932.5A CN202110883932A CN113592707A CN 113592707 A CN113592707 A CN 113592707A CN 202110883932 A CN202110883932 A CN 202110883932A CN 113592707 A CN113592707 A CN 113592707A
- Authority
- CN
- China
- Prior art keywords
- image
- aesthetic
- module
- candidate frame
- composition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000011156 evaluation Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims description 9
- 238000000059 patterning Methods 0.000 claims description 9
- 238000013213 extrapolation Methods 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims 1
- 230000000007 visual effect Effects 0.000 abstract description 8
- 238000002474 experimental method Methods 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
一种基于图像内容外扩和美学引导的构图方法。目的是允许构图的候选框跨出图像边界寻找合适的构图。该方法设计了一种可以根据图像内容调整图像的视域的模型,并在调整后的视域中选取最理想的候选框。模型包括视域评估模块,图像内容补全模块,候选框选择模块三部分。视域评估模块,评估原始图像的视域能否找到理想的构图,若否,则预测图像边界需要外扩的距离。图像内容补全模块,补全调整视域后图像未知区域的内容。候选框选择模块,在保证候选框内图像生成质量的前提下,选择最理想的候选框。经实验证明,该方法解决了现有的图像构图方法局限于原始图像的边界,无法跨出图像边界找到合适的构图的问题,极大地提高了构图方法的实用性。
Description
技术领域
本发明属于图像和视频处理技术领域,特别涉及一种基于图像外扩和美学引导的构图方法。
背景技术
如今,随着数码相机的快速发展,手机上相机的性能日益强大。人们越来越习惯于记录生活中精彩时刻,并分享到社交媒体上。虽然摄影的硬件条件逐渐降低,但是摄影的技巧和方法依旧是必须的。对于业余用户,拍摄具有美感照片并非易事。专业摄影师会考虑他们想要表达的主题和整体场景构图,他们需要在拍摄前调整相机的焦距,光圈等参数。由于缺乏专业的摄影知识和技巧,大众在拍摄时难以一次拍摄出具有良好构图的照片。虽然用户可以使用图像编辑工具来对图像进行离线后处理,但是处理过程稍显繁琐。在过去的几十年中,研究人员提出了很多图像编辑的方法,其中图像裁剪技术已经成为当前最常用的方法。图像裁剪通过突显重要内容或删除不需要的场景来修改图像的构图。它在原图的范围内搜寻一个最佳的矩形框,只保留框中的内容。手动裁剪图像的工具已经被广泛使用,用户只需缩放,拖动矩形框到合适位置即可实现裁剪。研究人员将注意力转到更加智能的自动裁剪算法上,早期的方法主要依靠人工提取的特征来评价构图优劣。随着深度学习的快速发展,各种基于深度神经网络的方法也随之而来。尽管现有的图像裁剪方法在一定程度上取得了出色的结果,但是这些方法只能作为固定照片的后处理技术。这些算法假设拍摄的图像有多余的内容,并且可以通过去除冗杂部分来得到良好的构图。但当关键对象太靠近图像边界时,现有的裁剪方法就无能为力了。因此,最佳的裁剪框不应该局限于给定图像内部,算法需要跨越图像的边界以找到最佳的构图框。
发明内容
本发明目的是为了克服现有技术的上述不足,提供一种基于图像内容外扩和美学引导的构图方法。
为了解决上述问题,算法需要考虑图像之外的内容。然而,在图像外部自动进行裁剪非常具有挑战性。这里有两个主要的问题需要解决:1.该算法应能够判断当前图像是否需要借助图像之外的内容,并且计算出需要外扩的长度。2.图像的外扩部分应与原图保持语义一致,并能够有效地在外扩后的图内搜索最佳构图。
本发明提出了一种基于图像内容外扩和美学引导的构图方法,该方法自动调整输入图像的视域,并在调整后的视域内寻找最符合美学原理的候选框,不仅可以在图像内部,而且可以在图像外部进行裁剪,从而有效地搜寻合理的构图。
具体包含以下步骤:
a.将原始图像输入到视域评估模块,评估原始图像的视域范围能否找到合适的构图,若否,则预测图像边界需要扩充多少;
b.将步骤a确定的待调整视域范围的图像输入到图像内容补全模块,补全调整视域后未知区域的内容;
c.将调整视域后的图像输入到候选框选择模块,在保证候选框内图像生成质量的前提下,选择最符合美学原理的候选框。
本发明将图像外部未知的内容考虑到候选框的选择中,使得不仅可以在图像内部而且可以在图像外部进行裁剪。
为了实现上述技术方案,本发明建立了视域评估模块,图像内容补全模块,候选框选择模块。其中,视域评估模块由特征提取网络,超网络和评估网络三部分而成,超网络根据特征提取网络提取的特征,动态地生成评估网络的权重。图像内容补全模块由编码器和生成网络组成。候选框选择模块包括了候选框调整模块和美学得分预测模块。候选框调整模块调整预定义候选框的位置,将预定义的候选框往生成图像质量好的方向移动。美学得分预测模块根据候选框内的图像内容,给出相应的美学得分。在推理过程中,首先使用候选框调整模块调整预定义候选框的位置,再使用美学得分预测模块从调整后的候选框中选择美学得分最高的候选框作为最终结果。通过候选框调整模块和美学得分预测模块的相互制约,使得最终结果在图像质量和美学之间取得平衡。
本发明的优点和有益效果:
本发明方法通过允许候选框跨过图像边界,给予了候选框的选择更多的自由度,能很好的解决当显著性物体靠近图像边界时,现有方法无法获得好的构图的问题。实验表明,该模型选取的最佳构图,其效果超越了现有其他神经网络模型的构图能力。
附图说明
图1是本发明一个实施例中所提供的一种基于图像内容外扩和美学引导的神经网络构图方法的流程图;
图2是本发明一个实施例中所提供的一种基于图像内容的视域评估的流程图;
图3是本发明一个实施例中所提供的一种图像内容补全模块的流程图。
图4是本发明一个实施例中所提供的一种候选框选择模块的流程图。
图5为基于图像内容外扩和美学引导的神经网络构图算法与现有基于神经网络的构图方法的结果对比。其中(a)输入的图像,(b)GAIC[3]方法的结果,(c)WSIC[4]方法的结果,(d)VPN[5]方法的结果,(e)本方法的结果。
具体实施方式
下面结合附图,对本发明的具体实施方式作进一步详细描述。以下实例用于说明本发明,但不用来限制本发明的范围。
参照图1,表示整个基于图像内容外扩和美学引导的神经网络构图方法的流程图。首先,将原始图像输入到视域评估模块,评估原始图像的视域能否找到理想的构图,若否,则预测图像边界需要扩充多少。待调整视域范围的图像输入到图像内容补全模块,补全调整视域后未知区域的内容。最后,调整视域的图像输入到候选框选择模块,在保证候选框内图像生成质量的前提下,选择最符合美学原理的候选框。
参照图2,输入原始图片,首先使用视域评估模块中的特征提取网络提取图片的语义特征,然后用超网络动态的生成评估网络的权重,最后使用评估网络计算原始图片是否需要改变视域,若需要改变视域范围,则给出图像边缘外扩的比例。评估视域范围被视为五分类任务,外扩的比例分别为0%,12.5%,25%,37.5%和50%。外扩的比例0%为保持输入原始图片不变。需要外扩的图像内容被打上相应的蒙版,待后续图像内容补全模块补全。特征提取网络使用Resnet50[1],超网络由三个1×1的卷积网络和四个权重生成分支组成,评估网络由四层全连接层组成。视域评估模块使用交叉熵作为损失函数进行训练,训练的标签来自于GAICD[3]数据集。
参照图3,输入待调整视域范围的图像和相应的蒙版,使用一个编码器网络将其映射到StyleGAN的隐空间中,得到潜变量,然后再将潜变量输入到StyleGAN[2]中生成完整图像。图像内容补全模块采用对抗损失进行训练。x和分别是真值图像和生成图像。
和感知损失:
其中φl(·)表示为VGG-19[6]网络的第l层的特征提取层,在本发明中l=4;‖·‖1为L1重建损失,‖·‖2为L2重建损失。
图像内容补全模块的全部Loss函数为:
Ltotal=λadvLadv+λrecLrec+λperLper,
其中λrec=10,λadv=0.02,λper=1。
参照图4,候选框选择模块包含两个分支,上面一个分支是候选框调整模块,预测每个候选框的偏移量,用于根据局部图像生成质量调整每个候选框的位置。下面一个分支为美学得分预测模块,用于预测每个候选框内图像内容的美学得分。在进行推理的时候,首先调整候选框的位置,保障候选框内图像的生成质量,然后从调整后的候选框中选择美学得分最高的候选框作为最理想的构图。候选框调整模块和美学得分预测模块共享特征提取部分的参数,候选框调整模块由三个全连接层组成,美学得分预测模块也由三个全连接层组成。美学得分预测模块采用HuberLoss分别对扩充后的图像和对应的真实图像进行训练。gi,j和pi,j分别是扩充图像的第j个候选框的真实美学得分和预测美学得分。pi,j是对应的真实图像r的第j个候选框。
Huber Loss如下:
候选框调整模块采用对抗损失最小化候选框内生成图像Ie的分布ve和对应真实图像Ir的分布vr:
其中D表示为判别器,E表示为数学期望。
候选框选择模块的全部Loss函数为:
Ltotal=λhubLhuh+λadvLadv,
其中λhub=1,λadv=0.1。
参照图5,本发明所提方法与现有基于神经网络的构图算法的可视化比较,其中GAIC[3],WSIC[4]和VPN[5]都无法在显著性物体靠近图像边缘时获得好的构图。本发明设计的新的基于图像内容外扩和美学引导的构图方法可以有效地适当的将裁剪框移动到图像边界外,解决现有的方法只能从图像边界内选取理想构图的问题,从而取得更好的构图。
参考文献:
[1]He,Kaiming,et al."Deep residual learning for image recognition."Proceedings of the IEEE conference on computer vision and patternrecognition.2016.
[2]Karras,Tero,Samuli Laine,and Timo Aila."A style-based generatorarchitecture for generative adversarial networks."Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2019.
[3]Zeng,Hui,et al."Reliable and efficient image cropping:A gridanchor based approach."Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition.2019.
[4]Lu,Peng,et al."Weakly Supervised Real-time Image Cropping based onAesthetic Distributions."Proceedings of the 28th ACM International Conferenceon Multimedia.2020.
[5]Wei,Zijun,et al."Good view hunting:Learning photo composition fromdense view pairs."Proceedings of the IEEE conference on computer vision andpattern recognition.2018.
[6]Karen Simonyan,and Andrew Zisserman."Very Deep ConvolutionalNetworks for Large-Scale Image Recognition."In International Conference onLearning Representations.2015
Claims (7)
1.一种基于图像内容外扩和美学引导的构图方法,其特征在于该方法自动调整输入图像的视域,并在调整后的视域内寻找最符合美学原理的候选框,所述方法包括如下步骤:
a.将原始图像输入到视域评估模块,评估原始图像的视域能否找到理想的构图,若否,则预测图像边界需要扩充多少;
b.将步骤a确定的待调整视域的图像输入到图像内容补全模块,补全未知区域的内容;
c.将调整视域后的图像输入到候选框选择模块,在保证候选框内图像生成质量的前提下,选择最符合美学原理的候选框。
2.根据权利要求1所述的基于图像内容外扩和美学引导的构图方法,其特征在于:所述的美学原理为从构图数据集中学习到的根据不同图像内容采取不同的构图原则。
3.根据权利要求1所述的基于图像内容外扩和美学引导的构图方法,其特征在于:所述的视域评估模块由特征提取网络,超网络和评估网络三部分而成;超网络根据特征提取网络提取的特征,动态地生成评估网络的权重。
4.根据权利要求3所述的基于图像内容外扩和美学引导的构图方法,其特征在于:所述的评估网络由四层全连接层组成。
5.根据权利要求1所述的基于图像内容外扩和美学引导的构图方法,其特征在于:所述的图像内容补全模块由编码器和生成网络组成。
6.根据权利要求1所述的基于图像内容外扩和美学引导的构图方法,其特征在于:所述的候选框选择模块由候选框调整模块和美学得分预测模块组成,两个模块共享特征提取部分的参数。
7.根据权利要求6所述的基于图像内容外扩和美学引导的构图方法,其特征在于:所述的候选框调整模块和美学得分预测模块都由三层全连接层组成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110883932.5A CN113592707A (zh) | 2021-08-03 | 2021-08-03 | 基于图像内容外扩和美学引导的构图方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110883932.5A CN113592707A (zh) | 2021-08-03 | 2021-08-03 | 基于图像内容外扩和美学引导的构图方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113592707A true CN113592707A (zh) | 2021-11-02 |
Family
ID=78254478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110883932.5A Pending CN113592707A (zh) | 2021-08-03 | 2021-08-03 | 基于图像内容外扩和美学引导的构图方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113592707A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909724A (zh) * | 2019-10-08 | 2020-03-24 | 华北电力大学 | 一种多目标图像的缩略图生成方法 |
CN111507941A (zh) * | 2020-03-24 | 2020-08-07 | 杭州电子科技大学 | 一种用于美学质量评价的构图表征学习方法 |
CN112686817A (zh) * | 2020-12-25 | 2021-04-20 | 天津中科智能识别产业技术研究院有限公司 | 一种基于不确定性估计的图像补全方法 |
-
2021
- 2021-08-03 CN CN202110883932.5A patent/CN113592707A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909724A (zh) * | 2019-10-08 | 2020-03-24 | 华北电力大学 | 一种多目标图像的缩略图生成方法 |
CN111507941A (zh) * | 2020-03-24 | 2020-08-07 | 杭州电子科技大学 | 一种用于美学质量评价的构图表征学习方法 |
CN112686817A (zh) * | 2020-12-25 | 2021-04-20 | 天津中科智能识别产业技术研究院有限公司 | 一种基于不确定性估计的图像补全方法 |
Non-Patent Citations (2)
Title |
---|
杨文雅;宋广乐;崔超然;尹义龙;: "基于语义感知的图像美学质量评估方法", 计算机应用, no. 11 * |
黄劲潮;: "基于快速区域建议网络的图像多目标分割算法", 山东大学学报(工学版), no. 04 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113301259B (zh) | 引导用户捕获数字图像的计算机可读介质、系统和方法 | |
CN109598268B (zh) | 一种基于单流深度网络的rgb-d显著目标检测方法 | |
CN111279389A (zh) | 图像处理方法和装置 | |
WO2023236565A1 (zh) | 一种基于强化学习和美学评估的低光图像增强方法 | |
TWI532361B (zh) | 自動尋景拍攝方法及其系統 | |
CN111080746B (zh) | 图像处理方法、装置、电子设备和存储介质 | |
Qian et al. | Bggan: Bokeh-glass generative adversarial network for rendering realistic bokeh | |
US11270438B2 (en) | System and method for triggering machine learning (ML) annotation model retraining | |
CN114783022B (zh) | 一种信息处理方法、装置、计算机设备及存储介质 | |
US20240135643A1 (en) | Information processing method, computer device, and storage medium | |
WO2023217046A1 (zh) | 图像处理方法及装置、非易失性可读存储介质、电子设备 | |
CN115996322B (zh) | 数字视频摄影用影像数据管理方法 | |
KR20240089729A (ko) | 화상 처리 방법, 장치, 저장 매체 및 전자 기기 | |
Wang et al. | Deep online video stabilization | |
US20240135747A1 (en) | Information processing method, computer device, and storage medium | |
CN110111239A (zh) | 一种基于tof相机软分割的人像头部背景虚化方法 | |
CN113592707A (zh) | 基于图像内容外扩和美学引导的构图方法 | |
CN112614149A (zh) | 基于实例分割的语义合成方法 | |
CN112184586A (zh) | 基于深度感知的单目视觉图像背景快速虚化的方法及系统 | |
CN113763524B (zh) | 基于物理光学模型和神经网络的双流散景渲染方法及系统 | |
Li et al. | Inductive guided filter: Real-time deep image matting with weakly annotated masks on mobile devices | |
CN111724300B (zh) | 单张图片背景虚化方法、装置及设备 | |
CN112183727B (zh) | 一种对抗生成网络模型、以及基于所述对抗生成网络模型的散景效果渲染方法及系统 | |
CN112364200B (zh) | 一种类脑成像的方法、装置、设备及存储介质 | |
CN114399423A (zh) | 图像内容移除方法、系统、介质、设备及数据处理终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20211102 |
|
WD01 | Invention patent application deemed withdrawn after publication |