CN115082673A - 图像处理方法、装置、设备和存储介质 - Google Patents

图像处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN115082673A
CN115082673A CN202210672641.6A CN202210672641A CN115082673A CN 115082673 A CN115082673 A CN 115082673A CN 202210672641 A CN202210672641 A CN 202210672641A CN 115082673 A CN115082673 A CN 115082673A
Authority
CN
China
Prior art keywords
target
main body
input image
cutting
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210672641.6A
Other languages
English (en)
Inventor
林金鹏
周敏
葛铁铮
姜宇宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210672641.6A priority Critical patent/CN115082673A/zh
Publication of CN115082673A publication Critical patent/CN115082673A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)

Abstract

本申请提供一种图像处理方法、装置、设备和存储介质,该方法包括:识别接收到的输入图像是否满足预定裁剪条件;若是,则根据输入图像中目标元素的所处位置和所属类别,确定与目标元素中目标主体对应的主体包围框,以及与输入图像对应的目标裁剪比例;基于主体包围框和目标裁剪比例对输入图像进行裁剪,以得到目标图像。对输入图像进行处理,以得到符合尺寸要求,包含目标主体,且保证视觉美观的目标图像。

Description

图像处理方法、装置、设备和存储介质
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像处理方法、装置、设备和存储介质。
背景技术
目前,图像制作创意的覆盖率以及多样性,与图像的后期投放效果呈正相关关系。因此,在对图像进行投放展示之前,可以根据不同的需求对图像进行处理,以提升制作创意来吸引用户。
但由于用户上传的图像的尺寸固定,而且图像的数量有限,大多不满足对图像进行创意制作的尺寸比例要求,因此,需要进一步对该图像进行处理。
发明内容
本发明实施例提供一种图像处理方法、装置、设备和存储介质,对输入图像进行处理,以得到符合尺寸要求,包含目标主体,且保证视觉美观的目标图像。
第一方面,本发明实施例提供一种图像处理方法,所述方法包括:
识别接收到的输入图像是否满足预定裁剪条件;
若是,则根据所述输入图像中目标元素的所处位置和所属类别,确定与所述目标元素中目标主体对应的主体包围框,以及与所述输入图像对应的目标裁剪比例;
基于所述主体包围框和所述目标裁剪比例对所述输入图像进行裁剪,以得到目标图像。
第二方面,本发明实施例提供一种图像处理装置,所述装置包括:
识别模块,用于识别接收到的输入图像是否满足预定裁剪条件;
确定模块,用于若是,则根据所述输入图像中目标元素的所处位置和所属类别,确定与所述目标元素中目标主体对应的主体包围框,以及与所述输入图像对应的目标裁剪比例;
裁剪模块,用于基于所述主体包围框和所述目标裁剪比例对所述输入图像进行裁剪,以得到目标图像。
第三方面,本发明实施例提供一种电子设备,包括:存储器、处理器、通信接口;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器至少可以实现如第一方面所述的图像处理方法。
第四方面,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如第一方面所述的图像处理方法。
本发明实施例中,在接收到输入图像后,先识别接收到的输入图像是否满足预定裁剪条件;若满足预定裁剪条件,则根据所述输入图像中目标元素的所处位置和所属类别,确定与所述目标元素中目标主体对应的主体包围框,以及与所述输入图像对应的目标裁剪比例;基于所述主体包围框和所述目标裁剪比例对所述输入图像进行裁剪,以得到目标图像。
在上述方案中,识别输入图像是否满足预定裁剪条件,可以过滤掉一些美观度质较差,不适合进行创意再制作的图像,再对符合预定裁剪条件的输入图像,检测出输入图像中目标元素的所处位置和所属类别,以确定与目标元素中目标主体对应的主体包围框,以及与输入图像对应的目标裁剪比例;然后基于主体包围框和目标裁剪比例对所述输入图像进行裁剪,便可以得到符合尺寸要求,包含目标主体,且保证视觉美观的目标图像。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种图像处理方法的流程图;
图2为本发明实施例提供的一种可选地图像处理方法的流程图;
图3为本发明实施例提供的一种可选地图像处理方法的应用示意图;
图4为本发明实施例提供的一种图像处理装置的结构示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
先对本发明实施例中涉及到的术语或概念进行解释说明:
卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其网络结构对输入信息进行平移不变分类,因此也被称为“平移不变人工神经网络。
目标检测模型(CenterNet):是指一种检测图像中的目标物体的位置和类别的深度学习模型。
图像重定向(Retargeting):作为一种内容自适应的后处理技术,是指通过裁剪或缩放等操作,根据图像内容的重要程度更改图像的尺寸,从而满足不同尺寸屏幕的显示需求。
本发明实施例提供的图像处理方法可以由一电子设备来执行,实际应用中,该电子设备可以是服务器,也可以是诸如PC机等用户终端,该服务器可以是云端的物理服务器或虚拟服务器(虚拟机)。
图1为本发明实施例提供的一种图像处理方法的流程图,如图1所示,该方法包括如下步骤:
101、识别接收到的输入图像是否满足预定裁剪条件。
102、若是,则根据输入图像中目标元素的所处位置和所属类别,确定与目标元素中目标主体对应的主体包围框,以及与输入图像对应的目标裁剪比例。
103、基于主体包围框和目标裁剪比例对输入图像进行裁剪,以得到目标图像。
可选地,上述输入图像可以为用户上传的输入图像,例如,拍摄商品或者展品等的图像。如以上述输入图像为商品图像为例,则该商品图像中包含商品,以及对该商品进行介绍或者定义的文本、水印等标记。
可选地,上述输入图像中的目标元素包括:目标主体和多个修饰素材。
可选地,上述预定裁剪条件用于筛选出包含上述目标主体和预定数量的修饰素材的输入图像。
由于输入图像的质量参差不齐,一些图像质量差不适合进行创意再制作,因此,本发明实施例,在实际应用过程中,可以采用预定裁剪条件将除目标主体之外,只包含少量文字或者水印的输入图像定义为满足预定裁剪条件的美观图像;将含有“牛皮癣”、大量后期PS元素、目标主体不可见的局部细节图、纯文字图以及多张小图拼接的合成图像定义为不满足预定裁剪条件的非美观图像。
并且,在本发明实施例中,预先假定不满足预定裁剪条件的输入图像,针对多目标约束下无可行解或包含可行解概率较低,因此,对于不满足预定裁剪条件的输入图像需要进行过滤,只对判定为满足预定裁剪条件的输入图像进行下一步处理。
例如,本发明实施例,在实际应用场景中,可以将上述输入图像输入至用于进行图像类别判定的第一卷积神经网络模型中,以通过上述第一卷积神经网络模型识别上述输入图像是否满足上述预定裁剪条件。
可选地,上述第一卷积神经网络模型基于多对第一训练样本训练得到,每对第一训练样本由第一样本图像以及对应的图像类别判定结果组成。可选地,该第一卷积神经网络模型即美观图像识别模型,进而可以在后续的图像处理过程中,采用预先训练得到的美观图像识别模型识别输入图像是否为满足预定裁剪条件的美观图像。
之后,若识别接收到的输入图像满足预定裁剪条件,为了便于后续的裁剪,可以先对输入图像中的内容进行感知,例如,可以采用目标检测模型对输入图像进行内容的感知,识别出输入图像中的各个目标主体和装饰素材的所处位置和所属类别。再则根据上述输入图像中目标元素的所处位置和所属类别,确定与上述目标元素中目标主体对应的主体包围框,以及与上述输入图像对应的目标裁剪比例。
例如,本发明实施例,在实际应用场景中,可以将上述输入图像输入至用于进行内容感知识别的第二卷积神经网络模型中,以通过上述第二卷积神经网络模型识别上述目标元素的所处位置和所属类别,并根据上述目标元素的所处位置和所属类别,确定与上述目标元素中目标主体对应的主体包围框以及与上述输入图像对应的目标裁剪比例。
可选地,上述第二卷积神经网络模型基于多对第二训练样本训练得到,每对第二训练样本由第二样本图像以及对应的内容感知识别结果组成。
可选地,上述第二卷积神经网络模型可以为目标检测模型,例如,CenterNet模型。CenterNet是anchor-free的模型,采用CenterNet模型进行目标检测,对于每个下采样后的像素点,直接检测目标元素所在位置的目标中心点和大小,以得到目标元素的所处位置;针对输入图像的内容感知,预先将该CenterNet模型训练为可以检测多种在输入图像中经常出现的目标元素,分别是“画幅”、“目标主体”、“材质细节”、“商品”、“品牌logo”、“文本块”、“水印”以及“其他”8个类别,其中,“品牌logo”、“文本块”、“水印”等属于修饰素材。
具体地,根据目标元素中目标主体的所处位置,可以确定与上述目标元素对应的主体包围框。由于不同的类别的目标元素的剪裁大小和剪裁尺寸是不同的,因此,可以再根据每个目标元素的所属类别,可以确定与输入图像对应的目标裁剪比例。
之后,基于上述主体包围框和上述目标裁剪比例对上述输入图像进行裁剪时,本发明实施例采用多目标约束的贪心裁剪策略,目标是在输入图像中裁剪出符合目标裁剪比例的目标图像,而且满足尽可能包含主体内容的约束(例如,目标主体的占比大于80%),同时不对输入图像上预定数量的文字、logo、后期PS元素等进行截断。
采用本发明实施例所提供的基于内容感知的图像素材挖掘方案,可以识别感知出输入图像的美观度、主体内容、图上元素位置和类别等属性,以确定图上目标主体的主体包围框和输入图像对应的目标裁剪比例;进而,根据确定的主体包围框和目标裁剪比例对输入图像裁剪出同时满足目标裁剪比例、包含主体且美观度高的目标图像。
如下以一种可选地实施例对本发明实施例提供的基于内容感知的图像素材挖掘流程,例如,在图像素材挖掘流程之前,可以通过深度学习在大量广告图片上训练美观图像识别模型和目标检测模型,如图2所示,在接收到各种不同类型的输入图像之后,例如,广告图像,将该输入图像输入至美观图像识别模型,采用美观图像识别模型判别出哪些输入图像是适合进行创意制作的美观图像,并仅对判定为满足预定裁剪条件的输入图像进行下一步处理,即将其输出至目标检测模型,采用该目标检测模型来感知输入图像中目标元素的内容以及位置分布,以得到目标元素的所处位置和所属类别。
之后,仍如图2所示,再根据目标元素的所处位置和所属类别,确定与上述目标元素中目标主体对应的主体包围框,以及与上述输入图像对应的目标裁剪比例;采用基于贪心裁剪策略算法,即多目标约束求解算法,在保留目标主体的约束条件下裁剪出满足目标尺寸比例的目标图像,并且保持目标图像中内容元素的完整性。
本发明实施例中,通过按照目标裁剪比例在尽可能保留展示输入图像中主体内容的前提下,对输入图像进行裁剪得到目标图像,并且不对目标图像上后期PS元素(文字、logo、贴图等)进行截断,从而在视觉上保证目标图像是主体显著且满足投放比例要求的。
通过本发明方案,可以根据商品图的主体内容以及其他图上元素的位置关系,自动裁剪出包含主体内容同时满足指定比例的图像,即通过将美观图像裁剪成适宜创意制作的尺寸,以满足不同媒体广告位对图像尺寸的要求,在保证视觉效果的基础上,提高对于各尺寸资源位的创意制作覆盖率,加深可投放创意的图像创意库以及创意样式,带来曝光量的提升以及消耗的提升,最终提升图像的在线整体投放效果。
以输入图像为广告图像为例,在广告精准投放展示的过程中,为了达到千人千面的效果,离不开海量的可投放商品集及其创意。面对成千上百、要求各异的投放资源位,且由于线上广告投放实验时不同的媒体资源位对于要求的可投放图文或者视频创意尺寸比例是不同的,因此,往往需要挖掘出不同比例尺寸的商品图像素材。
在实际应用场景中,商家上传的商品图数量、尺寸受限(超90%为方图,根据以往实验和经验,长图相对于方图有更好的广告效果),且存在图像处理PS元素多、主体不明显等不便于对图像进一步制作创意等问题,因此,需挖掘符合尺寸要求、视觉美观的图像素材,以提高创意覆盖率和广告图像中的商品投放效果。
但是,目前图片裁剪工具Fotor提供的图像裁剪服务,默认采用居中裁剪方式,没有感知图片内容,需要人工调整裁剪框到合适位置,对于批量生成创意的场景,这种方式需耗费大量的时间和人力;互联网视觉智能开放平台的图像裁剪服务,能够进行一键根据指定比例进行裁剪并保留主体的内容,但是主要用于通用图像裁剪,对广告图像的裁剪会出现对文字logo等元素的截断,影响创意的美观度;对于技术研究领域的裁剪方法,例如,Seam Carving,通过重复地去除不重要像素来改变图像的长宽,存在目标图像中主体不一致畸变问题,影响最终制作创意的美观度,一些像素级别的深度学习图像重定向方法同样存在这个问题。
为此,本发明实施例,还存在一种可选地实施例,上述基于上述主体包围框和上述目标裁剪比例对上述输入图像进行裁剪,以得到目标图像,可以采用如下方式实现:
采用多目标约束求解算法基于上述目标裁剪比例,对上述主体包围框进行迭代处理,以得到目标裁剪框。
根据上述目标裁剪框对上述输入图像进行裁剪,以得到上述目标图像。
例如,如图3所示的采用多目标约束求解算法基于上述目标裁剪比例,对上述主体包围框进行迭代处理的流程图,具体可以采用上述多目标约束求解算法,识别上述主体包围框的宽高比例是否达到上述目标裁剪比例;若是,则将上述主体包围框作为上述目标裁剪框;若否,则将上述主体包围框作为起始框进行迭代的扩张和收缩,直至迭代处理后的主体包围框的宽高比例达到上述目标裁剪比例。
如果识别上述主体包围框的宽高比例没有达到上述目标裁剪比例,则以主体包围框作为迭代过程的起始框,具体地,主要分为不断交替迭代的扩张和收缩两个子步骤,通过迭代的扩张和收缩使当前的主体包围框的宽高比例不断向目标裁剪比例靠近。
可选地,将上述主体包围框作为起始框进行迭代的扩张和收缩,具体实现方式可以为:若上述主体包围框的宽高比例小于上述目标裁剪比例,则基于预定迭代步长对上述主体包围框进行上下边框的交替收缩和左右边框的交替扩张;若上述主体包围框的宽高比例大于上述目标裁剪比例,则基于预定迭代步长对上述主体包围框进行上下边框的交替扩张和左右边框的交替收缩。
此外,本发明的实施例中,还包括如下方法步骤:
在对当前的主体包围框进行迭代处理的过程中,检测是否存在非截断修饰素材。
若存在,则将上述非截断修饰素材与当前的主体包围框融合,以得到新的主体包围框。
返回执行上述识别上述新的主体包围框的宽高比例是否达到上述目标裁剪比例,直至迭代处理后的主体包围框的宽高比例达到上述目标裁剪比例。
在本发明实施例中,仍如图3所示,在对当前的主体包围框进行迭代处理的过程中,遇到不能截断的修饰素材,即非截断修饰素材,则无需继续截断处理,保留该非截断修饰素材,并将上述非截断修饰素材与当前的主体包围框融合,以得到新的主体包围框。然后,返回执行上述识别上述新的主体包围框的宽高比例是否达到上述目标裁剪比例,直至迭代处理后的主体包围框的宽高比例达到上述目标裁剪比例。
本发明实施例中,通过将图像内容感知与满足目标约束的贪心裁剪策略结合,创新地构建了一套基于内容感知的图像处理方案。本方案的最终得到的目标图像的图像尺寸比例可以任意指定,能够在保留目标图像中目标主体(例如商品广告中的商品主体)的同时,不对目标图像中文字、logo等元素进行截断,以及保证裁剪结果的视觉美观度,从而提高素材挖掘覆盖率和尺寸样式,在视觉美观度、创意灵活性上有效提升创意制作质量和数量。
以下将详细描述本发明的一个或多个实施例的图像处理装置。本领域技术人员可以理解,这些装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。
图4为本发明实施例提供的一种图像处理装置的结构示意图,如图4所示,该装置包括:识别模块11、确定模块12、裁剪模块13。
识别模块11,用于识别接收到的输入图像是否满足预定裁剪条件;
确定模块12,用于若是,则根据所述输入图像中目标元素的所处位置和所属类别,确定与所述目标元素中目标主体对应的主体包围框,以及与所述输入图像对应的目标裁剪比例;
裁剪模块13,用于基于所述主体包围框和所述目标裁剪比例对所述输入图像进行裁剪,以得到目标图像。
可选地,所述确定模块具体用于:将所述输入图像输入至用于进行图像类别判定的第一卷积神经网络模型中,以通过所述第一卷积神经网络模型识别所述输入图像是否满足所述预定裁剪条件。
可选地,所述输入图像中的目标元素包括:所述目标主体和多个修饰素材;
所述预定裁剪条件用于筛选出包含所述目标主体和预定数量的修饰素材的输入图像。
可选地,所述裁剪模块具体用于:将所述输入图像输入至用于进行内容感知识别的第二卷积神经网络模型中,以通过所述第二卷积神经网络模型识别所述目标元素的所处位置和所属类别,并根据所述目标元素的所处位置和所属类别,确定与所述目标主体对应的主体包围框,以及与所述输入图像对应的目标裁剪比例。
可选地,所述裁剪模块包括:处理单元,用于采用多目标约束求解算法基于所述目标裁剪比例,对所述主体包围框进行迭代处理,以得到目标裁剪框;裁剪单元,用于根据所述目标裁剪框对所述输入图像进行裁剪,以得到所述目标图像。
可选地,所述处理单元包括:
识别单元,用于采用所述多目标约束求解算法,识别所述主体包围框的宽高比例是否达到所述目标裁剪比例。
第一处理子单元,用于若是,则将所述主体包围框作为所述目标裁剪框。
第二处理子单元,用于若否,则将所述主体包围框作为起始框进行迭代的扩张和收缩,直至迭代处理后的主体包围框的宽高比例达到所述目标裁剪比例。
可选地,所述第二处理子单元具体用于若所述主体包围框的宽高比例小于所述目标裁剪比例,则基于预定迭代步长对所述主体包围框进行上下边框的交替收缩和左右边框的交替扩张;若所述主体包围框的宽高比例大于所述目标裁剪比例,则基于预定迭代步长对所述主体包围框进行上下边框的交替扩张和左右边框的交替收缩。
可选地,所述装置还包括:
检测模块,用于在对当前的主体包围框进行迭代处理的过程中,检测是否存在非截断修饰素材。
融合模块,用于若存在,则将所述非截断修饰素材与当前的主体包围框融合,以得到新的主体包围框。
循环执行模块,用于返回执行所述识别所述新的主体包围框的宽高比例是否达到所述目标裁剪比例,直至迭代处理后的主体包围框的宽高比例达到所述目标裁剪比例。
在一个可能的设计中,上述图4所示图像处理装置的结构可实现为一电子设备。如图5所示,该电子设备可以包括:处理器21、存储器22、通信接口23。其中,存储器22上存储有可执行代码,当所述可执行代码被处理器21执行时,使处理器21至少可以实现如前述实施例中提供的图像处理方法。
另外,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如前述实施例中提供的图像处理方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的网元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (11)

1.一种图像处理方法,其特征在于,包括:
识别接收到的输入图像是否满足预定裁剪条件;
若是,则根据所述输入图像中目标元素的所处位置和所属类别,确定与所述目标元素中目标主体对应的主体包围框,以及与所述输入图像对应的目标裁剪比例;
基于所述主体包围框和所述目标裁剪比例对所述输入图像进行裁剪,以得到目标图像。
2.根据权利要求1所述的方法,其特征在于,
所述输入图像中的目标元素包括:所述目标主体和多个修饰素材;
所述预定裁剪条件用于筛选出包含所述目标主体和预定数量的修饰素材的输入图像。
3.根据权利要求1所述的方法,其特征在于,所述识别接收到的输入图像是否为输入图像,包括:
将所述输入图像输入至用于进行图像类别判定的第一卷积神经网络模型中,以通过所述第一卷积神经网络模型识别所述输入图像是否满足所述预定裁剪条件。
4.根据权利要求1所述的方法,其特征在于,所述根据所述输入图像中的目标元素的所处位置和所属类别,确定与所述目标元素中目标主体对应的主体包围框,以及与所述输入图像对应的目标裁剪比例,包括:
将所述输入图像输入至用于进行内容感知识别的第二卷积神经网络模型中,以通过所述第二卷积神经网络模型识别所述目标元素的所处位置和所属类别,并根据所述目标元素的所处位置和所属类别,确定与所述目标主体对应的主体包围框,以及与所述输入图像对应的目标裁剪比例。
5.根据权利要求1所述的方法,其特征在于,所述基于所述主体包围框和所述目标裁剪比例对所述输入图像进行裁剪,以得到目标图像,包括:
采用多目标约束求解算法基于所述目标裁剪比例,对所述主体包围框进行迭代处理,以得到目标裁剪框;
根据所述目标裁剪框对所述输入图像进行裁剪,以得到所述目标图像。
6.根据权利要求5所述的方法,其特征在于,所述采用多目标约束求解算法基于所述目标裁剪比例,对所述主体包围框进行迭代处理,以得到目标裁剪框,包括:
采用所述多目标约束求解算法,识别所述主体包围框的宽高比例是否达到所述目标裁剪比例;
若是,则将所述主体包围框作为所述目标裁剪框;
若否,则将所述主体包围框作为起始框进行迭代的扩张和收缩,直至迭代处理后的主体包围框的宽高比例达到所述目标裁剪比例。
7.根据权利要求6所述的方法,其特征在于,所述将所述主体包围框作为起始框进行迭代的扩张和收缩,包括:
若所述主体包围框的宽高比例小于所述目标裁剪比例,则基于预定迭代步长对所述主体包围框进行上下边框的交替收缩和左右边框的交替扩张;
若所述主体包围框的宽高比例大于所述目标裁剪比例,则基于预定迭代步长对所述主体包围框进行上下边框的交替扩张和左右边框的交替收缩。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
在对当前的主体包围框进行迭代处理的过程中,检测是否存在非截断修饰素材;
若存在,则将所述非截断修饰素材与当前的主体包围框融合,以得到新的主体包围框;
返回执行所述识别所述新的主体包围框的宽高比例是否达到所述目标裁剪比例,直至迭代处理后的主体包围框的宽高比例达到所述目标裁剪比例。
9.一种图像处理装置,其特征在于,包括:
识别模块,用于识别接收到的输入图像是否满足预定裁剪条件;
确定模块,用于若是,则根据所述输入图像中目标元素的所处位置和所属类别,确定与所述目标元素中目标主体对应的主体包围框,以及与所述输入图像对应的目标裁剪比例;
裁剪模块,用于基于所述主体包围框和所述目标裁剪比例对所述输入图像进行裁剪,以得到目标图像。
10.一种电子设备,其特征在于,包括:存储器、处理器、通信接口;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1至8中任一项所述的图像处理方法。
11.一种非暂时性机器可读存储介质,其特征在于,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至8中任一项所述的图像处理方法。
CN202210672641.6A 2022-06-14 2022-06-14 图像处理方法、装置、设备和存储介质 Pending CN115082673A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210672641.6A CN115082673A (zh) 2022-06-14 2022-06-14 图像处理方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210672641.6A CN115082673A (zh) 2022-06-14 2022-06-14 图像处理方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN115082673A true CN115082673A (zh) 2022-09-20

Family

ID=83252271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210672641.6A Pending CN115082673A (zh) 2022-06-14 2022-06-14 图像处理方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN115082673A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504649A (zh) * 2014-12-30 2015-04-08 百度在线网络技术(北京)有限公司 图片的裁剪方法和装置
CN106920141A (zh) * 2015-12-28 2017-07-04 阿里巴巴集团控股有限公司 页面展示内容处理方法及装置
CN108122238A (zh) * 2018-01-30 2018-06-05 百度在线网络技术(北京)有限公司 图像处理方法、装置、设备及计算机可读存储介质
CN109727264A (zh) * 2019-01-10 2019-05-07 南京旷云科技有限公司 图像生成方法、神经网络的训练方法、装置和电子设备
CN110136142A (zh) * 2019-04-26 2019-08-16 微梦创科网络科技(中国)有限公司 一种图像裁剪方法、装置、电子设备
US20200311904A1 (en) * 2019-03-28 2020-10-01 Canon Virginia, Inc. Devices, systems, and methods for limited-size divisive clustering
CN111815654A (zh) * 2020-07-14 2020-10-23 北京字节跳动网络技术有限公司 用于处理图像的方法、装置、设备和计算机可读介质
CN112017193A (zh) * 2020-08-24 2020-12-01 杭州趣维科技有限公司 一种基于视觉显著性和美学分数的图像裁切装置及方法
CN112308859A (zh) * 2020-09-01 2021-02-02 北京小米松果电子有限公司 生成缩略图的方法、装置、相机以及存储介质
CN113516666A (zh) * 2020-12-30 2021-10-19 腾讯科技(深圳)有限公司 图像裁剪方法、装置、计算机设备及存储介质
CN114302226A (zh) * 2021-12-28 2022-04-08 北京中科大洋信息技术有限公司 一种视频画幅智能裁剪方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504649A (zh) * 2014-12-30 2015-04-08 百度在线网络技术(北京)有限公司 图片的裁剪方法和装置
CN106920141A (zh) * 2015-12-28 2017-07-04 阿里巴巴集团控股有限公司 页面展示内容处理方法及装置
CN108122238A (zh) * 2018-01-30 2018-06-05 百度在线网络技术(北京)有限公司 图像处理方法、装置、设备及计算机可读存储介质
CN109727264A (zh) * 2019-01-10 2019-05-07 南京旷云科技有限公司 图像生成方法、神经网络的训练方法、装置和电子设备
US20200311904A1 (en) * 2019-03-28 2020-10-01 Canon Virginia, Inc. Devices, systems, and methods for limited-size divisive clustering
CN110136142A (zh) * 2019-04-26 2019-08-16 微梦创科网络科技(中国)有限公司 一种图像裁剪方法、装置、电子设备
CN111815654A (zh) * 2020-07-14 2020-10-23 北京字节跳动网络技术有限公司 用于处理图像的方法、装置、设备和计算机可读介质
CN112017193A (zh) * 2020-08-24 2020-12-01 杭州趣维科技有限公司 一种基于视觉显著性和美学分数的图像裁切装置及方法
CN112308859A (zh) * 2020-09-01 2021-02-02 北京小米松果电子有限公司 生成缩略图的方法、装置、相机以及存储介质
CN113516666A (zh) * 2020-12-30 2021-10-19 腾讯科技(深圳)有限公司 图像裁剪方法、装置、计算机设备及存储介质
CN114302226A (zh) * 2021-12-28 2022-04-08 北京中科大洋信息技术有限公司 一种视频画幅智能裁剪方法

Similar Documents

Publication Publication Date Title
US10657652B2 (en) Image matting using deep learning
CN107493488B (zh) 基于Faster R-CNN模型的视频内容物智能植入的方法
CN106254933B (zh) 字幕提取方法及装置
US11741328B2 (en) Dynamic embedding of machine-readable codes within video and digital media
CN101558404B (zh) 图像分割
CN110517246B (zh) 一种图像处理方法、装置、电子设备及存储介质
KR20140076632A (ko) 얼굴 검출을 이용한 이미지 재구성
US20180192160A1 (en) Context based augmented advertisement
CN111553923B (zh) 一种图像处理方法、电子设备及计算机可读存储介质
CN109978805A (zh) 拍照处理方法、装置、移动终端以及存储介质
US11978216B2 (en) Patch-based image matting using deep learning
CN111145308A (zh) 一种贴纸获取方法和装置
JP2011078077A (ja) 画像処理装置および方法、並びにプログラム
CN111462162B (zh) 一种特定类别图片的前景分割算法
CN113516666A (zh) 图像裁剪方法、装置、计算机设备及存储介质
CN116308530A (zh) 一种广告植入方法、装置、设备和可读存储介质
EP3396964B1 (en) Dynamic content placement in a still image or a video
CN112752151B (zh) 一种动态广告植入位置的检测方法及装置
EP3396596B1 (en) Heat ranking of media objects
CN115082673A (zh) 图像处理方法、装置、设备和存储介质
CN109215047B (zh) 基于深海视频的运动目标检测方法和装置
CN110633377A (zh) 一种图片清理方法和装置
CN108737892B (zh) 用于渲染具有内容的媒体的系统及计算机实现方法
CN114445750A (zh) 视频目标分割方法、设备、存储介质及程序产品
CN115019138A (zh) 视频字幕擦除、模型训练、交互方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination