CN111696112B - 图像自动裁剪方法、系统、电子设备及存储介质 - Google Patents

图像自动裁剪方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN111696112B
CN111696112B CN202010545406.3A CN202010545406A CN111696112B CN 111696112 B CN111696112 B CN 111696112B CN 202010545406 A CN202010545406 A CN 202010545406A CN 111696112 B CN111696112 B CN 111696112B
Authority
CN
China
Prior art keywords
image
target
aesthetic
sample
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010545406.3A
Other languages
English (en)
Other versions
CN111696112A (zh
Inventor
成丹妮
罗超
吉聪睿
胡泓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Computer Technology Shanghai Co Ltd
Original Assignee
Ctrip Computer Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Computer Technology Shanghai Co Ltd filed Critical Ctrip Computer Technology Shanghai Co Ltd
Priority to CN202010545406.3A priority Critical patent/CN111696112B/zh
Publication of CN111696112A publication Critical patent/CN111696112A/zh
Application granted granted Critical
Publication of CN111696112B publication Critical patent/CN111696112B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/66Analysis of geometric attributes of image moments or centre of gravity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Geometry (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种图像自动裁剪方法、系统、电子设备及存储介质,该方法包括:获取第一、第二样本集;获取不同构图方式下不同图像类别对应的目标权重向量;根据第二样本集,对图像美学评估网络进行训练;获取目标图像,利用语义分割模型对目标图像进行处理,得到目标图像中各个像素的图像类别向量;获取目标图像在不同构图方式下的重心;按照裁剪比例,以目标图像在不同构图方式下的重心为中心,对目标图像进行裁剪得到多个侯选裁剪图像;利用图像美学评估网络对多个侯选裁剪图像进行处理,得到多个侯选裁剪图像对应的预测美学评分,并将评分最高的侯选裁剪图像作为目标裁剪图像。本发明能够提高图像展示的准确性,且能满足图像的美学展示需求。

Description

图像自动裁剪方法、系统、电子设备及存储介质
技术领域
本发明涉及图像处理领域,尤其涉及一种图像自动裁剪方法、系统、电子设备及存储介质。
背景技术
图像可保证信息的直观表示与传达,因此在在线旅游公司(OTA)中大规模应用,有效准确地展示图像能极大地提升用户体验,从而提高用户的转化率。由于OTA图像来源通常比较复杂,而图像位尺寸是固定的,常常发生原图尺寸与图像位尺寸不一致的情况。如何有效地适应图像位并合理美观地展示图像是当前急需解决的问题。
传统地,OTA平台为适应图像位,默认对图像进行居中裁剪,该方法未考虑图像内容和图像的美学指标,因此存在关键内容被裁剪出展示区域的情况,并且居中裁切未考虑美感因素,用户体验不佳。
对此,发展了显著目标法和美学滑窗法两种图像自动裁剪方法。然而,显著目标法虽考虑了图像内容,但缺少对图像美学质量的考虑;美学滑窗法虽考虑了图像的美学指标,但计算量太大、效率低,两者都难以满足更复杂且个性化的图像裁切要求。因而有效地挖掘出图像的主要内容并结合美学因素对于自动化裁剪具有重要意义。
深度学习网络可基于海量数据进行表征学习,避免了复杂的手工特征设计,可保证图像信息的高效识别。近年来,随着卷积神经网络的兴起和计算机计算能力的增强,利用深度学习对图像进行自动化处理的效果得到极大提高。
基于此,本发明亟待提供一种基于深度学习的图像自动裁剪方法,能够结合内容理解与美学评价,保证关键内容的有效保留,且能满足图像的美学展示需求。
发明内容
针对上述现有技术的不足,本发明的目的在于提供一种图像自动裁剪方法、系统、电子设备及存储介质,以在提高图像展示的准确性,且能满足图像的美学展示需求的前提下,对图像进行智能裁剪。
为了实现上述目的,本发明提供一种图像自动裁剪方法,该方法包括:
获取第一样本集和第二样本集,所述第一样本集包含若干以不同构图方式得到的第一样本图像,且每个所述第一样本图像分别标注有对应的标准中心位置,所述第二样本集包含若干第二样本图像,且每个所述第二样本图像分别标注有对应的标准美学评分;
以预先定义的不同构图方式下不同图像类别对应的权重向量为权重因子,构建机器学习模型;
根据不同构图方式下的所述第一样本图像以及对应的标准中心位置,分别对所述机器学习模型的权重因子进行训练,得到不同构图方式下不同图像类别对应的目标权重向量;
根据所述第二样本集,对预设的图像美学评估网络进行训练;
获取目标图像,并利用预先训练的语义分割模型对所述目标图像进行处理,得到所述目标图像中各个像素的图像类别向量;
根据所述目标图像中各个像素的图像类别向量、以及不同构图方式下不同图像类别对应的目标权重向量,获取所述目标图像在不同构图方式下的重心;
按照预定裁剪比例,以所述目标图像在不同构图方式下的重心为中心,分别对所述目标图像进行裁剪,得到多个侯选裁剪图像;
利用训练后的所述图像美学评估网络,分别对所述多个侯选裁剪图像进行处理,得到所述多个侯选裁剪图像对应的预测美学评分,并将预测美学评分最高的所述侯选裁剪图像作为目标裁剪图像。
在本发明一个优选实施例中,所述根据所述目标图像中各个像素的图像类别向量、以及不同构图方式下不同图像类别对应的目标权重,获取所述目标图像在不同构图方式下的重心的步骤,包括根据如下式(1)和式(2)获取所述目标图像在不同构图方式下的重心C:
Mmn=∑x,yxmynO·WX                          (1)
Figure BDA0002540532150000031
其中,M00表示零阶矩,M10、M01表示一阶矩,x表示所述目标图像的行像素数量,y表示所述目标图像的列像素数量,O表示所述目标图像中各个像素的图像类别向量,WX表示第x种构图方式下不同图像类别的目标权重向量。
在本发明一个优选实施例中,所述根据不同构图方式下的所述第一样本图像以及对应的标准中心位置,分别对所述机器学习模型的权重因子进行训练,得到不同构图方式下不同图像类别对应的目标权重向量的步骤,包括针对各种构图方式分别执行以下操作:
将以该种构图方式得到的所述第一样本图像的图像数据输入所述机器学习模型进行处理,得到对应的预测中心位置;
根据所述预测中心位置与对应的标准中心位置的之间差异计算所述机器学习模型的损失函数值,并根据所述机器学习模型的损失函数值调整所述机器学习模型的权重因子,直至所述机器学习模型满足对应的预定条件。
在本发明一个优选实施例中,所述机器学习模型采用逻辑回归模型。
在本发明一个优选实施例中,所述根据所述第二样本集,对预设的图像美学评估网络进行训练的步骤包括:
将所述第二样本图像的图像数据输入所述图像美学评估网络进行处理,得到对应的预测美学评分;
根据所述预测美学评分与对应的标准美学评分之间的差异计算所述图像美学评估网络的损失函数值,并根据所述图像美学评估网络的损失函数值调整所述图像美学评估网络的权重因子,直至所述图像美学评估网络满足对应的预定条件。
在本发明一个优选实施例中,所述图像美学评估网络包含特征提取层和全连接层;
在根据所述第二样本集,对预设的图像美学评估网络进行训练之前,所述方法还包括:对所述特征提取层进行预训练。
在本发明一个优选实施例中,所述语义分割模型采用全卷积网络模型。
为了实现上述目的,本发明还提供一种图像自动裁剪系统,该系统包括:
样本获取模块,用于获取第一样本集和第二样本集,所述第一样本集包含若干以不同构图方式得到的第一样本图像,且每个所述第一样本图像分别标注有对应的标准中心位置,所述第二样本集包含若干第二样本图像,且每个所述第二样本图像分别标注有对应的标准美学评分;
模型建立模块,用于以预先定义的不同构图方式下不同图像类别对应的权重向量为权重因子,构建机器学习模型;
权重获取模块,用于根据不同构图方式下的所述第一样本图像以及对应的标准中心位置,分别对所述机器学习模型的权重因子进行训练,得到不同构图方式下不同图像类别对应的目标权重向量;
图像美学评估网络训练模块,用于根据所述第二样本集,对预设的图像美学评估网络进行训练;
图像获取模块,用于获取目标图像;
语义分割模块,用于利用预先训练的语义分割模型对所述目标图像进行处理,得到所述目标图像中各个像素的图像类别向量;
重心获取模块,用于根据所述目标图像中各个像素的图像类别向量、以及不同构图方式下不同图像类别对应的目标权重向量,获取所述目标图像在不同构图方式下的重心;
裁剪模块,用地按照预定裁剪比例,以所述目标图像在不同构图方式下的重心为中心,分别对所述目标图像进行裁剪,得到多个侯选裁剪图像;
美学评估模块,用于利用训练后的所述图像美学评估网络,分别对所述多个侯选裁剪图像进行处理,得到所述多个侯选裁剪图像对应的预测美学评分,并将预测美学评分最高的所述侯选裁剪图像作为目标裁剪图像。
在本发明一个优选实施例中,所述重心获取模块具体用于根据如下式(1)和式(2)获取所述目标图像在不同构图方式下的重心C:
Mmn=∑x,yxmynO·WX                          (1)
Figure BDA0002540532150000051
其中,M00表示零阶矩,M10、M01表示一阶矩,x表示所述目标图像的行像素数量,y表示所述目标图像的列像素数量,O表示所述目标图像中各个像素的图像类别向量,WX表示第x种构图方式下不同图像类别的目标权重向量。
在本发明一个优选实施例中,所述权重获取模块具体用于针对各种构图方式分别执行以下操作:
将以该种构图方式得到的所述第一样本图像的图像数据输入所述机器学习模型进行处理,得到对应的预测中心位置;
根据所述预测中心位置与对应的标准中心位置的之间差异计算所述机器学习模型的损失函数值,并根据所述机器学习模型的损失函数值调整所述机器学习模型的权重因子,直至所述机器学习模型满足对应的预定条件。
在本发明一个优选实施例中,所述机器学习模型采用逻辑回归模型。
在本发明一个优选实施例中,所述图像美学评估网络训练模块具体用于:
将所述第二样本图像的图像数据输入所述图像美学评估网络进行处理,得到对应的预测美学评分;
根据所述预测美学评分与对应的标准美学评分之间的差异计算所述图像美学评估网络的损失函数值,并根据所述图像美学评估网络的损失函数值调整所述图像美学评估网络的权重因子,直至所述图像美学评估网络满足对应的预定条件。
在本发明一个优选实施例中,所述图像美学评估网络包含特征提取层和全连接层;
所述图像美学评估网络训练模块还用于:在根据所述第二样本集,对预设的图像美学评估网络进行训练之前,对所述特征提取层进行预训练。
在本发明一个优选实施例中,所述语义分割模型采用全卷积网络模型。
为了实现上述目的,本发明还提供一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述图像自动裁剪方法的步骤。
为了实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述图像自动裁剪方法的步骤。
通过采用上述技术方案,本发明具有如下有益效果:
本发明根据目标图像中各个像素的图像类别向量、以及不同构图方式下不同图像类别对应的目标权重向量,获取目标图像在不同构图方式下的重心,并按照预定裁剪比例,以目标图像在不同构图方式下的重心为中心,分别对目标图像进行裁剪,从而得到多个侯选裁剪图像。可见,本发明在裁剪时考虑了不同构图方式下不同图像类别的重要程度,从而使裁剪得到的侯选裁剪图像中能够保留相对应的重要内容。此外,本发明利用训练后的图像美学评估网络分别对各个侯选裁剪图像进行处理,得到各个侯选裁剪图像对应的预测美学评分,并将预测美学评分最高的侯选裁剪图像作为目标裁剪图像,从而可以得到美感较高的目标裁剪图像。综上所述,本发明结合内容理解与美学评价,利用深度学习的方法对图像进行自动化裁剪,大幅度节省了运营维护成本,提高图像展示的准确性,同时能满足图像的美学展示需求,有效提升OTA等场景下用户的服务体验。
附图说明
图1为本发明实施例1的图像自动裁剪方法的流程图;
图2为本发明实施例2的图像自动裁剪系统的结构框图;
图3为本发明实施例3的电子设备的硬件架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
实施例1
本实施例提供一种图像自动裁剪方法,如图1所示,该方法包括以下步骤:
S1,获取第一样本集和第二样本集,其中,第一样本集包含若干以不同构图方式得到的第一样本图像,且每个第一样本图像分别标注有对应的标准中心位置,第二样本集包含若干第二样本图像,且每个第二样本图像分别标注有对应的标准美学评分。
以OTA场景为例,预先从OTA图像库中随机抽取若干图像,并基于预定义的各种构图方式,如居中构图、三分法构图、对称构图、对角线构图等方式,分别裁剪得到一批图像(如每种方式裁剪500张)作为第一样本图像,同时标注出各第一样本图像中的标准中心位置,得到第一样本集。而后,基于常见图像位的展示比例(如1:1、4:3、3:4 16:9、9:16、3:2等比例)对各第一样本图像进行最大面积随机裁剪得到第二样本图像,并由多个视觉专家分别对各第二样本图像进行美学评分打分(如0-5分),取多个视觉专家打出的平均分作为对应第二样本图像的标准美学评分,得到第二样本集。
基于前述方法得到的第一样本集和第二样本集预先存储于样本数据库中,本步骤通过预设的数据接口从该样本数据库中获取该第一样本集和第二样本集。
S2,以预先定义的不同构图方式下不同图像类别对应的权重向量为权重因子,构建机器学习模型。
具体地,本实施例预先定义Wx=[wx1,wx2,wx3,…,wx(k-1),wxk]为第x种构图方式的权重向量,其中,wxi表示第x种构图方式下第i种图像类别的权重向量,k表示图像类别数量。而后,以Wx为权重因子构建机器学习模型。在本实施例中,机器学习模型优选采用逻辑回归模型。当然,本实施例并不对机器学习模型的类型进行任何限制,任意合适的模型均可适用。
S3,根据不同构图方式下的第一样本图像以及对应的标准中心位置,分别对机器学习模型的权重因子进行训练,得到不同构图方式下不同图像类别对应的目标权重向量。
具体地,本步骤针对各种构图方式分别执行以下操作:
首先,将以当前构图方式得到的第一样本图像的图像数据输入前述机器学习模型进行处理,得到对应的预测中心位置。
而后,根据得到的预测中心位置与对应的标准中心位置的之间差异计算机器学习模型的损失函数值,并根据机器学习模型的损失函数值调整机器学习模型的权重因子,直至机器学习模型满足对应的预定条件。在本步骤中,前述预定条件可以是机器学习模型的损失函数值收敛至预定范围或者机器学习模型的训练步数达到预定值。
S4,根据第二样本集,对预设的图像美学评估网络进行训练。具体地,首先,将第二样本图像的图像数据输入图像美学评估网络进行处理,得到对应的预测美学评分;而后,根据预测美学评分与对应的标准美学评分之间的差异计算图像美学评估网络的损失函数值,并根据图像美学评估网络的损失函数值调整图像美学评估网络的权重因子,直至图像美学评估网络满足对应的预定条件。在本步骤中,前述预定条件可以是图像美学评估网络的损失函数值收敛至预定范围或者图像美学评估网络的训练步数达到预定值。
在本实施例中,前述图像美学评估网络可包含特征提取层和全连接层,图像美学评估网络的损失函数可以采用EMD(Earth Mover's Distance,陆地移动距离)损失函数。其中,特征提取层用于提取第二样本图像的图像特征;全连接层采用softmax函数,用于根据提取的图像特征输出对应的预测美学评分。
优选地,在根据第二样本集,对预设的图像美学评估网络进行训练之前,本实施例还包括:基于大规模图像分类数据ImageNet,对特征提取层进行预训练,以提升图像美学评估网络的整体性能。
S5,当需要对目标图像进行裁剪时,获取目标图像,并利用预先训练的语义分割模型对目标图像进行语义分割处理,得到目标图像中各个像素的图像类别向量。
其中,语义分割是指计算机设备将图像中属于同一大类的区域都分割出来并给出其类别信息。在本实施例中,计算机设备可识别目标图像中各个像素各自所对应的类别。
优选地,本实施例中的语义分割模型可采用全卷积神经网络(FullyConvolutional Networks,简称FCN)实现,通过全卷积神经网络对目标图像进行上采样处理,得到中间图像;通过全卷积神经网络对中间图像中的各像素分别进行像素级分类,得到各像素所对应的图像类别向量。例如,假设目标图像的像素为P×Q,经过FCN处理得到该图像上每个像素点的类别向量OP×Q×k,k表示有k种图像类别,当O(p,q)=(0,1,0,…,0)∈Rk*1时,表示目标图像上(p,q)像素位置属于第二个图像类别,其中,Rk*1表示k种图像类别中的一种。
众所周知,全卷积神经网络(Fully Convolutional Networks,简称FCN)通常用于对输入图像进行逐像素分类。全卷积神经网络通常可采用反卷积层对最后一个卷积层的feature map进行上采样(Upsample),使它恢复到输入图像相同的尺寸,从而可以对每个像素都产生了一个预测,同时保留了原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。其中,像素级是指像素维度;像素级分类是指在像素维度上进行分类处理,是一种精细的分类方式。对中间图像中的各像素分别进行像素级分类,也可称作对中间图像进行像素级的分类,是对中间图像中的每个像素都产生一个预全卷积神经网络测,进而得到中间图像中每个像素各自所对应的类别。
在本实施例中,预先采用开源的大规模场景理解数据集ADE-20K对全卷积神经网络进行训练。
S6,根据目标图像中各个像素的图像类别向量、以及不同构图方式下不同图像类别对应的目标权重向量,获取目标图像在不同构图方式下的重心。
具体地,本步骤通过如下式(1)和式(2)获取目标图像在不同构图方式下的图像重心C:
Mmn=∑x,yxmynO·WX                          (1)
Figure BDA0002540532150000101
其中,m、n可取0或1,M00表示零阶矩,M10、M01表示一阶矩,x表示目标图像的行像素数量,y表示目标图像的列像素数量,O表示目标图像中各个像素的图像类别向量,WX表示第x种构图方式下不同图像类别的目标权重向量。
其中,上述式(1)和式(2)是在现有图像重心计算公式基础上增加了权重向量WX得到的。由于增加了WX,使得本步骤得到的重心考虑了不同构图方式下不同图像类别的重要程度,从而使后续裁剪得到的侯选裁剪图像中能够保留不同构图方式下相对应的重要内容。
S7,按照预定裁剪比例,以目标图像在不同构图方式下的重心为中心,分别对目标图像进行裁剪,得到多个对应于不同构图方式的侯选裁剪图像。在本实施例中,当裁剪后的目标图像需在某图像位进行展示时,前述裁剪比例应对应于该图像位的展示比例。
S8,利用训练后的图像美学评估网络,分别对多个侯选裁剪图像进行处理,得到多个侯选裁剪图像对应的预测美学评分,并将预测美学评分最高的侯选裁剪图像作为目标裁剪图像。
通过上述步骤,本实施例在裁剪图像时,一方面考虑了不同构图方式下不同图像类别的重要程度,从而使裁剪得到的侯选裁剪图像中能够保留相对应的重要内容。另一方面,本实施例利用训练后的图像美学评估网络分别对各个侯选裁剪图像进行处理,得到各个侯选裁剪图像对应的预测美学评分,并将预测美学评分最高的侯选裁剪图像作为目标裁剪图像,从而可以得到美感较高的目标裁剪图像。
可见,本实施例结合了内容理解与美学评价,利用深度学习的方法对图像进行自动化裁剪,大幅度节省了运营维护成本,提高了图像展示的准确性,同时能满足图像的美学展示需求,有效提升OTA等场景下用户的服务体验。
需要说明的是,对于本实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
实施例2
本实施例提供一种图像自动裁剪系统,如图2所示,该系统10包括:样本获取模块11、模型建立模块12、权重获取模块13、图像美学评估网络训练模块14、图像获取模块15、语义分割模块16、重心获取模块17、裁剪模块18、美学评估模块19。下面分别对各个模块作详细介绍:模型建立模块12
样本获取模块11用于获取第一样本集和第二样本集,第一样本集包含若干以不同构图方式得到的第一样本图像,且每个第一样本图像分别标注有对应的标准中心位置,第二样本集包含若干第二样本图像,且每个第二样本图像分别标注有对应的标准美学评分。
以OTA场景为例,预先从OTA图像库中随机抽取若干图像,并基于预定义的各种构图方式,如居中构图、三分法构图、对称构图、对角线构图等方式,分别裁剪得到一批图像(如每种方式裁剪500张)作为第一样本图像,同时标注出各第一样本图像中的标准中心位置,得到第一样本集。而后,基于常见图像位的展示比例(如1:1、4:3、3:4 16:9、9:16、3:2等比例)对各第一样本图像进行最大面积随机裁剪得到第二样本图像,并由多个视觉专家分别对各第二样本图像进行美学评分打分(如0-5分),取多个视觉专家打出的平均分作为对应第二样本图像的标准美学评分,得到第二样本集。
基于前述方法得到的第一样本集和第二样本集预先存储于样本数据库中,本模块通过预设的数据接口从该样本数据库中获取该第一样本集和第二样本集。
样本获取模块11用于以预先定义的不同构图方式下不同图像类别对应的权重向量为权重因子,构建机器学习模型。
具体地,本实施例预先定义Wx=[wx1,wx2,wx3,…,wx(k-1),wxk]为第x种构图方式的权重向量,其中,wxi表示第x种构图方式下第i种图像类别的权重向量,k表示图像类别数量。而后,以Wx为权重因子构建机器学习模型。在本实施例中,机器学习模型优选采用逻辑回归模型。当然,本实施例并不对机器学习模型的类型进行任何限制,任意合适的模型均可适用。
权重获取模块13用于根据不同构图方式下的第一样本图像以及对应的标准中心位置,分别对机器学习模型的权重因子进行训练,得到不同构图方式下不同图像类别对应的目标权重向量。
具体地,本模块针对各种构图方式分别执行以下操作:
首先,将以当前构图方式得到的第一样本图像的图像数据输入前述机器学习模型进行处理,得到对应的预测中心位置。
而后,根据得到的预测中心位置与对应的标准中心位置的之间差异计算机器学习模型的损失函数值,并根据机器学习模型的损失函数值调整机器学习模型的权重因子,直至机器学习模型满足对应的预定条件。在本步骤中,前述预定条件可以是机器学习模型的损失函数值收敛至预定范围或者机器学习模型的训练步数达到预定值。
图像美学评估网络训练模块14用于根据第二样本集,对预设的图像美学评估网络进行训练。具体地,首先,将第二样本图像的图像数据输入图像美学评估网络进行处理,得到对应的预测美学评分;而后,根据预测美学评分与对应的标准美学评分之间的差异计算图像美学评估网络的损失函数值,并根据图像美学评估网络的损失函数值调整图像美学评估网络的权重因子,直至图像美学评估网络满足对应的预定条件。在本模块中,前述预定条件可以是图像美学评估网络的损失函数值收敛至预定范围或者图像美学评估网络的训练步数达到预定值。
在本实施例中,前述图像美学评估网络可包含特征提取层和全连接层,图像美学评估网络的损失函数可以采用EMD(Earth Mover's Distance,陆地移动距离)损失函数。其中,特征提取层用于提取第二样本图像的图像特征;全连接层采用softmax函数,用于根据提取的图像特征输出对应的预测美学评分。
优选地,在根据第二样本集,对预设的图像美学评估网络进行训练之前,本实施例还包括:基于大规模图像分类数据ImageNet,对特征提取层进行预训练,以提升图像美学评估网络的整体性能。
图像获取模块15用于在需要对目标图像进行裁剪时,获取目标图像。
语义分割模块16用于利用预先训练的语义分割模型对目标图像进行语义分割处理,得到目标图像中各个像素的图像类别向量。
其中,语义分割是指计算机设备将图像中属于同一大类的区域都分割出来并给出其类别信息。在本实施例中,计算机设备可识别目标图像中各个像素各自所对应的类别。
优选地,本实施例中的语义分割模型可采用全卷积神经网络(FullyConvolutional Networks,简称FCN)实现,通过全卷积神经网络对目标图像进行上采样处理,得到中间图像;通过全卷积神经网络对中间图像中的各像素分别进行像素级分类,得到各像素所对应的图像类别向量。例如,假设目标图像的像素为P×Q,经过FCN处理得到该图像上每个像素点的类别向量OP×Q×k,k表示有k种图像类别,当O(p,q)=(0,1,0,…,0)∈Rk*1时,表示目标图像上(p,q)像素位置属于第二个图像类别,其中,Rk*1表示k种图像类别中的一种。
众所周知,全卷积神经网络(Fully Convolutional Networks,简称FCN)通常用于对输入图像进行逐像素分类。全卷积神经网络通常可采用反卷积层对最后一个卷积层的feature map进行上采样(Upsample),使它恢复到输入图像相同的尺寸,从而可以对每个像素都产生了一个预测,同时保留了原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。其中,像素级是指像素维度;像素级分类是指在像素维度上进行分类处理,是一种精细的分类方式。对中间图像中的各像素分别进行像素级分类,也可称作对中间图像进行像素级的分类,是对中间图像中的每个像素都产生一个预全卷积神经网络测,进而得到中间图像中每个像素各自所对应的类别。
在本实施例中,预先采用开源的大规模场景理解数据集ADE-20K对全卷积神经网络进行训练。
重心获取模块17用于根据目标图像中各个像素的图像类别向量、以及不同构图方式下不同图像类别对应的目标权重向量,获取目标图像在不同构图方式下的重心。
具体地,本模块通过如下式(1)和式(2)获取目标图像在不同构图方式下的图像重心C:
Mmn=∑x,yxmynO·WX                          (1)
Figure BDA0002540532150000141
其中,m、n可取0或1,M00表示零阶矩,M10、M01表示一阶矩,x表示目标图像的行像素数量,y表示目标图像的列像素数量,O表示目标图像中各个像素的图像类别向量,WX表示第x种构图方式下不同图像类别的目标权重向量。
其中,上述式(1)和式(2)是在现有图像重心计算公式基础上增加了权重向量WX得到的。由于增加了WX,使得本模块得到的重心考虑了不同构图方式下不同图像类别的重要程度,从而使后续裁剪得到的侯选裁剪图像中能够保留不同构图方式下相对应的重要内容。
裁剪模块18用于按照预定裁剪比例,以目标图像在不同构图方式下的重心为中心,分别对目标图像进行裁剪,得到多个对应于不同构图方式的侯选裁剪图像。在本实施例中,当裁剪后的目标图像需在某图像位进行展示时,前述裁剪比例应对应于该图像位的展示比例。
美学评估模块19用于利用训练后的图像美学评估网络,分别对多个侯选裁剪图像进行处理,得到多个侯选裁剪图像对应的预测美学评分,并将预测美学评分最高的侯选裁剪图像作为目标裁剪图像。
通过上述模块,本实施例在裁剪图像时,一方面考虑了不同构图方式下不同图像类别的重要程度,从而使裁剪得到的侯选裁剪图像中能够保留相对应的重要内容。另一方面,本实施例利用训练后的图像美学评估网络分别对各个侯选裁剪图像进行处理,得到各个侯选裁剪图像对应的预测美学评分,并将预测美学评分最高的侯选裁剪图像作为目标裁剪图像,从而可以得到美感较高的目标裁剪图像。
可见,本发明结合内容理解与美学评价,利用深度学习的方法对图像进行自动化裁剪,大幅度节省了运营维护成本,提高了图像展示的准确性,同时能满足图像的美学展示需求,有效提升OTA等场景下用户的服务体验。
实施例3
本实施例提供一种电子设备,电子设备可以通过计算设备的形式表现(例如可以为服务器设备),包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中处理器执行计算机程序时可以实现实施例1提供的图像自动裁剪方法。
图3示出了本实施例的硬件结构示意图,如图3所示,电子设备9具体包括:
至少一个处理器91、至少一个存储器92以及用于连接不同系统组件(包括处理器91和存储器92)的总线93,其中:
总线93包括数据总线、地址总线和控制总线。
存储器92包括易失性存储器,例如随机存取存储器(RAM)921和/或高速缓存存储器922,还可以进一步包括只读存储器(ROM)923。
存储器92还包括具有一组(至少一个)程序模块924的程序/实用工具925,这样的程序模块924包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器91通过运行存储在存储器92中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1所提供的图像自动裁剪方法。
电子设备9进一步可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且,电子设备9还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器96通过总线93与电子设备9的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备9使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例4
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现实施例1所提供的图像自动裁剪方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行实现实施例1的图像自动裁剪方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (16)

1.一种图像自动裁剪方法,其特征在于,该方法包括:
获取第一样本集和第二样本集,所述第一样本集包含若干以不同构图方式得到的第一样本图像,且每个所述第一样本图像分别标注有对应的标准中心位置,所述第二样本集包含若干第二样本图像,且每个所述第二样本图像分别标注有对应的标准美学评分;
以预先定义的不同构图方式下不同图像类别对应的权重向量为权重因子,构建机器学习模型;
根据不同构图方式下的所述第一样本图像以及对应的标准中心位置,分别对所述机器学习模型的权重因子进行训练,得到不同构图方式下不同图像类别对应的目标权重向量;
根据所述第二样本集,对预设的图像美学评估网络进行训练;
获取目标图像,并利用预先训练的语义分割模型对所述目标图像进行处理,得到所述目标图像中各个像素的图像类别向量;
根据所述目标图像中各个像素的图像类别向量、以及不同构图方式下不同图像类别对应的目标权重向量,获取所述目标图像在不同构图方式下的重心;
按照预定裁剪比例,以所述目标图像在不同构图方式下的重心为中心,分别对所述目标图像进行裁剪,得到多个侯选裁剪图像;
利用训练后的所述图像美学评估网络,分别对所述多个侯选裁剪图像进行处理,得到所述多个侯选裁剪图像对应的预测美学评分,并将预测美学评分最高的所述侯选裁剪图像作为目标裁剪图像。
2.根据权利要求1所述的图像自动裁剪方法,其特征在于,所述根据所述目标图像中各个像素的图像类别向量、以及不同构图方式下不同图像类别对应的目标权重,获取所述目标图像在不同构图方式下的重心的步骤,包括根据如下式(1)和式(2)获取所述目标图像在不同构图方式下的重心C:
Mmn=∑x,yxmynO·WX                          (1)
Figure FDA0002540532140000021
其中,M00表示零阶矩,M10、M01表示一阶矩,x表示所述目标图像的行像素数量,y表示所述目标图像的列像素数量,O表示所述目标图像中各个像素的图像类别向量,WX表示第x种构图方式下不同图像类别的目标权重向量。
3.根据权利要求1所述的图像自动裁剪方法,其特征在于,所述根据不同构图方式下的所述第一样本图像以及对应的标准中心位置,分别对所述机器学习模型的权重因子进行训练,得到不同构图方式下不同图像类别对应的目标权重向量的步骤,包括针对各种构图方式分别执行以下操作:
将以该种构图方式得到的所述第一样本图像的图像数据输入所述机器学习模型进行处理,得到对应的预测中心位置;
根据所述预测中心位置与对应的标准中心位置的之间差异计算所述机器学习模型的损失函数值,并根据所述机器学习模型的损失函数值调整所述机器学习模型的权重因子,直至所述机器学习模型满足对应的预定条件。
4.根据权利要求1所述的图像自动裁剪方法,其特征在于,所述机器学习模型采用逻辑回归模型。
5.根据权利要求1所述的图像自动裁剪方法,其特征在于,所述根据所述第二样本集,对预设的图像美学评估网络进行训练的步骤包括:
将所述第二样本图像的图像数据输入所述图像美学评估网络进行处理,得到对应的预测美学评分;
根据所述预测美学评分与对应的标准美学评分之间的差异计算所述图像美学评估网络的损失函数值,并根据所述图像美学评估网络的损失函数值调整所述图像美学评估网络的权重因子,直至所述图像美学评估网络满足对应的预定条件。
6.根据权利要求1所述的图像自动裁剪方法,其特征在于,所述图像美学评估网络包含特征提取层和全连接层;
在根据所述第二样本集,对预设的图像美学评估网络进行训练之前,所述方法还包括:对所述特征提取层进行预训练。
7.根据权利要求1所述的图像自动裁剪方法,其特征在于,所述语义分割模型采用全卷积网络模型。
8.一种图像自动裁剪系统,其特征在于,该系统包括:
样本获取模块,用于获取第一样本集和第二样本集,所述第一样本集包含若干以不同构图方式得到的第一样本图像,且每个所述第一样本图像分别标注有对应的标准中心位置,所述第二样本集包含若干第二样本图像,且每个所述第二样本图像分别标注有对应的标准美学评分;
模型建立模块,用于以预先定义的不同构图方式下不同图像类别对应的权重向量为权重因子,构建机器学习模型;
权重获取模块,用于根据不同构图方式下的所述第一样本图像以及对应的标准中心位置,分别对所述机器学习模型的权重因子进行训练,得到不同构图方式下不同图像类别对应的目标权重向量;
图像美学评估网络训练模块,用于根据所述第二样本集,对预设的图像美学评估网络进行训练;
图像获取模块,用于获取目标图像;
语义分割模块,用于利用预先训练的语义分割模型对所述目标图像进行处理,得到所述目标图像中各个像素的图像类别向量;
重心获取模块,用于根据所述目标图像中各个像素的图像类别向量、以及不同构图方式下不同图像类别对应的目标权重向量,获取所述目标图像在不同构图方式下的重心;
裁剪模块,用于 按照预定裁剪比例,以所述目标图像在不同构图方式下的重心为中心,分别对所述目标图像进行裁剪,得到多个侯选裁剪图像;
美学评估模块,用于利用训练后的所述图像美学评估网络,分别对所述多个侯选裁剪图像进行处理,得到所述多个侯选裁剪图像对应的预测美学评分,并将预测美学评分最高的所述侯选裁剪图像作为目标裁剪图像。
9.根据权利要求8所述的图像自动裁剪系统,其特征在于,所述重心获取模块具体用于根据如下式(1)和式(2)获取所述目标图像在不同构图方式下的重心C:
Mmn=∑x,yxmynO·WX                          (1)
Figure FDA0002540532140000041
其中,M00表示零阶矩,M10、M01表示一阶矩,x表示所述目标图像的行像素数量,y表示所述目标图像的列像素数量,O表示所述目标图像中各个像素的图像类别向量,WX表示第x种构图方式下不同图像类别的目标权重向量。
10.根据权利要求8所述的图像自动裁剪系统,其特征在于,所述权重获取模块具体用于针对各种构图方式分别执行以下操作:
将以该种构图方式得到的所述第一样本图像的图像数据输入所述机器学习模型进行处理,得到对应的预测中心位置;
根据所述预测中心位置与对应的标准中心位置的之间差异计算所述机器学习模型的损失函数值,并根据所述机器学习模型的损失函数值调整所述机器学习模型的权重因子,直至所述机器学习模型满足对应的预定条件。
11.根据权利要求8所述的图像自动裁剪系统,其特征在于,所述机器学习模型采用逻辑回归模型。
12.根据权利要求8所述的图像自动裁剪系统,其特征在于,所述图像美学评估网络训练模块具体用于:
将所述第二样本图像的图像数据输入所述图像美学评估网络进行处理,得到对应的预测美学评分;
根据所述预测美学评分与对应的标准美学评分之间的差异计算所述图像美学评估网络的损失函数值,并根据所述图像美学评估网络的损失函数值调整所述图像美学评估网络的权重因子,直至所述图像美学评估网络满足对应的预定条件。
13.根据权利要求8所述的图像自动裁剪系统,其特征在于,所述图像美学评估网络包含特征提取层和全连接层;
所述图像美学评估网络训练模块还用于:在根据所述第二样本集,对预设的图像美学评估网络进行训练之前,对所述特征提取层进行预训练。
14.根据权利要求8所述的图像自动裁剪系统,其特征在于,所述语义分割模型采用全卷积网络模型。
15.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现如权利要求1至7中任一项的图像自动裁剪方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现如权利要求1至7中任一项的图像自动裁剪方法的步骤。
CN202010545406.3A 2020-06-15 2020-06-15 图像自动裁剪方法、系统、电子设备及存储介质 Active CN111696112B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010545406.3A CN111696112B (zh) 2020-06-15 2020-06-15 图像自动裁剪方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010545406.3A CN111696112B (zh) 2020-06-15 2020-06-15 图像自动裁剪方法、系统、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111696112A CN111696112A (zh) 2020-09-22
CN111696112B true CN111696112B (zh) 2023-04-07

Family

ID=72481065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010545406.3A Active CN111696112B (zh) 2020-06-15 2020-06-15 图像自动裁剪方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111696112B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022116104A1 (zh) * 2020-12-03 2022-06-09 华为技术有限公司 图像处理方法、装置、设备及存储介质
CN114827445B (zh) * 2021-01-29 2023-09-01 华为技术有限公司 图像处理方法及相关装置
CN112884781A (zh) * 2021-02-24 2021-06-01 北京小米松果电子有限公司 图像裁剪方法、装置、电子设备及存储介质
CN113179421B (zh) * 2021-04-01 2023-03-10 影石创新科技股份有限公司 视频封面选择方法、装置、计算机设备和存储介质
CN113205522B (zh) * 2021-04-28 2022-05-13 华中科技大学 一种基于对抗域适应的图像智能裁剪方法及系统
CN113436224B (zh) * 2021-06-11 2022-04-26 华中科技大学 一种基于显式构图规则建模的智能图像裁剪方法及装置
CN113689436B (zh) * 2021-09-29 2024-02-02 平安科技(深圳)有限公司 图像语义分割方法、装置、设备及存储介质
CN116168207A (zh) * 2021-11-24 2023-05-26 北京字节跳动网络技术有限公司 图像剪裁方法、模型训练方法、装置、电子设备及介质
CN114092495B (zh) * 2021-11-29 2023-01-31 阿里巴巴(中国)有限公司 图像展示方法、电子设备、存储介质
CN114580521B (zh) * 2022-02-28 2023-04-07 中国科学院软件研究所 一种知识与数据共同驱动的人像构图指引方法及装置
CN115273577B (zh) * 2022-09-26 2023-01-20 丽水学院 一种摄影教学的方法及系统
CN116309627B (zh) * 2022-12-15 2023-09-15 北京航空航天大学 图像裁剪方法和装置
CN117152409A (zh) * 2023-08-07 2023-12-01 中移互联网有限公司 基于多模态感知建模的图像裁剪方法、装置和设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146198A (zh) * 2017-04-19 2017-09-08 中国电子科技集团公司电子科学研究院 一种照片智能裁剪方法及装置
CN107545576A (zh) * 2017-07-31 2018-01-05 华南农业大学 基于构图规则的图像编辑方法
CN108829826A (zh) * 2018-06-14 2018-11-16 清华大学深圳研究生院 一种基于深度学习和语义分割的图像检索方法
CN109146892A (zh) * 2018-07-23 2019-01-04 北京邮电大学 一种基于美学的图像裁剪方法及装置
CN109523503A (zh) * 2018-09-11 2019-03-26 北京三快在线科技有限公司 一种图像裁剪的方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6654507B2 (en) * 2000-12-14 2003-11-25 Eastman Kodak Company Automatically producing an image of a portion of a photographic image
US10497122B2 (en) * 2017-10-11 2019-12-03 Adobe Inc. Image crop suggestion and evaluation using deep-learning

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146198A (zh) * 2017-04-19 2017-09-08 中国电子科技集团公司电子科学研究院 一种照片智能裁剪方法及装置
CN107545576A (zh) * 2017-07-31 2018-01-05 华南农业大学 基于构图规则的图像编辑方法
CN108829826A (zh) * 2018-06-14 2018-11-16 清华大学深圳研究生院 一种基于深度学习和语义分割的图像检索方法
CN109146892A (zh) * 2018-07-23 2019-01-04 北京邮电大学 一种基于美学的图像裁剪方法及装置
CN109523503A (zh) * 2018-09-11 2019-03-26 北京三快在线科技有限公司 一种图像裁剪的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deep Cropping via Attention Box Prediction and Aesthetics Assessment;Wenguan Wang;《arXiv:1710.08014v1 [cs.CV]》;全文 *
相片中重要对象布局优化系统;侯丹红;《中国优秀硕士学位论文全文数据库信息科技辑》;全文 *

Also Published As

Publication number Publication date
CN111696112A (zh) 2020-09-22

Similar Documents

Publication Publication Date Title
CN111696112B (zh) 图像自动裁剪方法、系统、电子设备及存储介质
EP4198820A1 (en) Training method for semi-supervised learning model, image processing method, and device
US10311574B2 (en) Object segmentation, including sky segmentation
CN109816039B (zh) 一种跨模态信息检索方法、装置和存储介质
CN108171260B (zh) 一种图片识别方法及系统
CN111381909B (zh) 一种页面展示方法、装置、终端设备及存储介质
JP2022058915A (ja) 画像認識モデルをトレーニングするための方法および装置、画像を認識するための方法および装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN111027563A (zh) 一种文本检测方法、装置及识别系统
CN114519143B (zh) 课程推荐模型的训练方法、课程推荐方法及装置
CN111325271B (zh) 图像分类方法及装置
CN111143613A (zh) 选择视频封面的方法、系统、电子设备与存储介质
US20210049202A1 (en) Automated image retrieval with graph neural network
CN111199541A (zh) 图像质量评价方法、装置、电子设备及存储介质
CN114494784A (zh) 深度学习模型的训练方法、图像处理方法和对象识别方法
US20230162477A1 (en) Method for training model based on knowledge distillation, and electronic device
CN112785493B (zh) 模型的训练方法、风格迁移方法、装置、设备及存储介质
EP4123595A2 (en) Method and apparatus of rectifying text image, training method and apparatus, electronic device, and medium
CN113379627A (zh) 图像增强模型的训练方法和对图像进行增强的方法
CN114449343A (zh) 一种视频处理方法、装置、设备及存储介质
JP2023001926A (ja) 画像融合方法及び装置、画像融合モデルのトレーニング方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN116452810A (zh) 一种多层次语义分割方法、装置、电子设备及存储介质
CN111199540A (zh) 图像质量评价方法、装置、电子设备及存储介质
CN110717405B (zh) 人脸特征点定位方法、装置、介质及电子设备
CN111062388A (zh) 基于深度学习的广告文字的识别方法、系统、介质及设备
CN115909357A (zh) 基于人工智能的目标识别方法、模型训练方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant