CN109919156B

CN109919156B - 图像裁剪预测模型的训练方法、介质、装置及计算设备

Info

Publication number: CN109919156B
Application number: CN201910189451.7A
Authority: CN
Inventors: 侯晓霞; 许盛辉; 刘彦东
Original assignee: Netease Media Technology Beijing Co Ltd
Current assignee: Hangzhou Netzhiyi Innovation Technology Co ltd
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2022-07-19
Anticipated expiration: 2039-03-13
Also published as: CN109919156A

Abstract

本发明的实施方式提供了一种图像裁剪预测模型的训练方法、介质、装置及计算设备。该方法包括：获取原始图像的特征信息及裁剪样本的信息；将所述特征信息输入所述图像裁剪预测模型；根据所述图像裁剪预测模型输出的预测图像的信息及所述裁剪样本的信息计算损失函数，采用所述损失函数训练所述图像裁剪预测模型。本发明实施例训练得到的图像裁剪预测模型可以用于图像裁剪过程，使图像裁剪过程耗时较短、计算量较小，尽可能地避免出现裁剪不完整或图像扭曲的情况，并且适用于各种不同内容的图像。本发明实施例还提供一种图像裁剪方法及装置。

Description

图像裁剪预测模型的训练方法、介质、装置及计算设备

技术领域

本发明的实施方式涉及图像裁剪技术领域，更具体地，本发明的实施方式涉及图像裁剪预测模型的训练方法、介质、装置和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

图像裁剪的目的是更改原始图像的尺寸，使裁剪后图像的尺寸、宽高比例符合实际需要。图像裁剪的原则是使裁剪后图像尽量保持原始图像的关键内容，并且整体美观度不受较大影响。

目前存在一些图像裁剪技术。例如，接缝裁剪(Seam Carving)算法是一种典型的裁剪算法，其思想是通过像素移除或者像素增加来达到改变图像宽高比的目的。接缝裁剪算法的缺点是计算量较大，耗时长，并且容易产生图像扭曲。

人脸检测技术和图像显著性检测也常用于图像裁剪。人脸检测技术用于图像裁剪的方法一般为以人脸区域为核心，围绕人脸区域进行裁剪，其缺点是仅适用于含人脸的图像。图像显著性检测一般输出结果为能量图，能量图上的值对应原始图像上相应位置像素的重要程度，因此需要对能量图进一步计算以确定待裁剪图像区域。由于图像显著性区域往往较为分散，较难把握最核心区域，因此裁剪结果中较容易出现裁剪不完整的情况。

发明内容

在本上下文中，本发明的实施方式期望提供一种图像裁剪预测模型的训练方法和装置，以及一种图像裁剪方法和装置。

在本发明实施方式的第一方面中，提供了一种图像裁剪预测模型的训练方法，包括：

获取原始图像的特征信息及裁剪样本的信息；

将所述特征信息输入所述图像裁剪预测模型；

根据所述图像裁剪预测模型输出的预测图像的信息及所述裁剪样本的信息计算损失函数，采用所述损失函数训练所述图像裁剪预测模型。

在本发明的一个实施例中，所述获取原始图像的特征信息包括：对所述原始图像进行卷积计算，得到所述原始图像的特征映射图，将所述特征映射图作为所述原始图像的特征信息。

在本发明的一个实施例中，所述裁剪样本的信息包括：所述裁剪样本的样本分类信息及样本位置信息；所述样本分类信息表示所述裁剪样本是否包含所述原始图像的关键部分；所述样本位置信息为所述裁剪样本在所述原始图像中的位置信息；

所述预测图像的信息包括：所述预测图像的预测分类信息及预测位置信息；所述预测分类信息为所述预测图像包含所述原始图像的关键部分的可能性；所述预测位置信息为所述预测图像在所述原始图像中的位置信息。

在本发明的一个实施例中，所述根据所述图像裁剪预测模型输出的预测图像的信息及所述裁剪样本的信息计算损失函数，包括：

根据所述样本分类信息及预测分类信息计算分类损失，并根据所述样本位置信息及预测位置信息计算位置损失；

根据所述分类损失及位置损失计算所述损失函数。

在本发明的一个实施例中，所述图像裁剪预测模型包括至少一个预测通道，每个预测通道对应一个图像宽高比的范围；

所述裁剪样本为采用至少一个图像宽高比裁剪所述原始图像所得到的至少一个图像；各个所述图像宽高比处于所述各个图像宽高比的范围之内。

在本发明实施方式的第二方面中，提供了一种图像裁剪方法，包括：

获取原始图像的特征信息；

将所述特征信息输入预先训练的图像裁剪预测模型，得到所述原始图像的至少一个预测图像的信息；

根据所述至少一个预测图像的信息对所述原始图像进行初步裁剪。

在本发明的一个实施例中，所述至少一个预测图像的信息，包括：至少一个预测图像的预测分类信息及预测位置信息；所述预测分类信息为所述预测图像包含所述原始图像的关键部分的可能性；所述预测位置信息为所述预测图像在所述原始图像中的位置信息；

所述根据所述至少一个预测图像的信息对所述原始图像进行初步裁剪，包括：获取所述预测分类信息最大的预测图像，根据所述获取的预测图像的预测位置信息对所述原始图像进行初步裁剪。

所述获取原始图像的特征信息之后，还包括：将对所述原始图像进行裁剪的预设宽高比输入所述图像裁剪预测模型；

所述原始图像的至少一个预测图像的信息包括：由所述图像宽高比的范围包含所述预设宽高比的预测通道输出的信息。

在本发明的一个实施例中，初步裁剪之后，进一步包括：按照所述预设宽高比，在所述初步裁剪的基础上对所述原始图像进行精确裁剪。

在本发明的一个实施例中，所述精确裁剪的方式为：以所述初步裁剪后的图像区域的中心为中心，在所述原始图像上以水平和/或竖直方向扩充和/或收缩，使扩充和/或收缩后的图像区域的宽高比等于所述预设宽高比，将所述扩充和/或收缩后的图像区域作为精确裁剪图像。

在本发明实施方式的第三方面中，提供了一种图像裁剪预测模型的训练装置，包括：

第一获取模块，用于获取原始图像的特征信息及裁剪样本的信息；

第一输入模块，用于将所述特征信息输入所述图像裁剪预测模型；

损失函数计算模块，用于根据所述图像裁剪预测模型输出的预测图像的信息及所述裁剪样本的信息计算损失函数；

训练模块，用于采用所述损失函数训练所述图像裁剪预测模型。

在本发明的一个实施例中，所述第一获取模块，用于对所述原始图像进行卷积计算，得到所述原始图像的特征映射图，将所述特征映射图作为所述原始图像的特征信息。

在本发明的一个实施例中，所述损失函数计算模块用于：

根据所述样本分类信息及预测分类信息计算分类损失，并根据所述样本位置信息和预测位置信息计算位置损失；

根据所述分类损失及位置损失计算所述损失函数。

在本发明实施方式的第四方面中，提供了一种图像裁剪装置，包括：

第二获取模块，用于获取原始图像的特征信息；

第二输入模块，用于将所述特征信息输入预先训练的图像裁剪预测模型，得到所述原始图像的至少一个预测图像的信息；

初步裁剪模块，用于根据所述至少一个预测图像的信息对所述原始图像进行初步裁剪。

在本发明的一个实施例中，所述第二获取模块，用于对所述原始图像进行卷积计算，得到所述原始图像的特征映射图，将所述特征映射图作为所述原始图像的特征信息。

所述初步裁剪模块，用于获取所述预测分类信息最大的预测图像，根据所述获取的预测图像的预测位置信息对所述原始图像进行初步裁剪。

所述第二输入模块还用于，将对所述原始图像进行裁剪的预设宽高比输入所述图像裁剪预测模型；

在本发明的一个实施例中，上述图像裁剪装置还包括：

精确裁剪模块，用于按照所述预设宽高比，在所述初步裁剪的基础上对所述原始图像进行精确裁剪。

在本发明的一个实施例中，所述精确裁剪模块，用于以所述初步裁剪后的图像区域的中心为中心，在所述原始图像上以水平和/或竖直方向扩充和/或收缩，使扩充和/或收缩后的图像区域的宽高比等于所述预设宽高比，将所述扩充和/或收缩后的图像区域作为精确裁剪图像。

在本发明实施方式的第五方面中，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行实现上述图像裁剪预测模型的训练方法或图像裁剪方法的步骤。

在本发明实施方式的第六方面中，提供了一种计算设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现图像裁剪预测模型的训练方法或图像裁剪方法的步骤。

根据本发明实施方式的图像裁剪方法和装置，将原始图像的特征信息输入预先训练的图像裁剪预测模型，通过该图像裁剪预测模型得到原始图像的预测图像的信息。该预测图像的信息可以作为对原始图像的进行裁剪所需的信息，从而根据预测图像的信息对原始图像进行裁剪。这种裁剪方式耗时短、计算量小，不容易出现裁剪不完整或图像扭曲的情况，并且适用于各种不同内容的图像。并且，本发明实施方式的图像裁剪预测模型的训练方法，能够采用原始图像的特征信息及裁剪样本的信息对图像裁剪预测模型进行训练。训练合格的图像裁剪预测模型可以应用于本发明实施方式的图像裁剪方法。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明一实施方式的图像裁剪预测模型的训练方法实现流程图；

图2示意性地示出了根据本发明一实施方式对原始图像关键部分的标注示意图；

图3示意性地示出了根据本发明一实施方式的图像裁剪预测模型的输入、输出数据示意图；

图4示意性地示出了根据本发明一实施方式的图像裁剪预测模型的训练方法中，步骤S13的一种实现流程图；

图5示意性地示出了根据本发明一实施方式的包括多个预测通道的图像裁剪预测模型的输入、输出数据示意图；

图6示意性地示出了根据本发明一实施方式的图像裁剪方法实现流程图；

图7示意性地示出了根据本发明一实施方式的对原始图像进行裁剪的一个具体实现过程示意图；

图8示意性地示出了根据本发明一实施方式的用于图像裁剪预测模型的训练方法或的用于图像裁剪方法的介质示意图；

图9示意性地示出了根据本发明一实施方式的图像裁剪预测模型的训练装置结构示意图；

图10示意性地示出了根据本发明一实施方式的图像裁剪装置结构示意图；

图11示意性地示出了根据本发明一实施方式的计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种图像裁剪预测模型的训练方法、介质、装置和计算设备，并提出一种图像裁剪方法、介质、装置和计算设备。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，现有的图像裁剪技术存在耗时长、计算量大，容易出现裁剪不完整或图像扭曲的情况，并且无法适用于不同内容的图像等缺点。

有鉴于此，本发明提供一种图像裁剪方法和装置，根据采用预先训练的图像裁剪预测模型对原始图像的特征信息进行预测，得到原始图像的预测图像的信息。之后，根据该预测图像的信息对原始图像进行初步裁剪。由于采用预先训练的模型进行预测及裁剪，使裁剪过程耗时短、计算量小，不容易出现裁剪不完整或图像扭曲的情况，并且适用于各种不同内容的图像。另外，本发明还提供一种图像裁剪预测模型的训练方法和装置，用于训练上述图像裁剪预测模型。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

示例性方法

下面参考图1来描述根据本发明示例性实施方式的图像裁剪预测模型的训练方法。

如图1所示，本发明实施例的图像裁剪预测模型的训练方法包括以下步骤：

S11：获取原始图像的特征信息及裁剪样本的信息；

S12：将所述特征信息输入图像裁剪预测模型；

S13：根据图像裁剪预测模型输出的预测图像的信息及所述裁剪样本的信息计算损失函数，采用损失函数训练图像裁剪预测模型。

本发明实施例训练得到的图像裁剪预测模型可以用于图像裁剪过程，使图像裁剪过程耗时较短、计算量较小，尽可能地避免出现裁剪不完整或图像扭曲的情况，并且适用各种不同内容的图像。

在一种可能的实施方式中，上述步骤S11中，获取原始图像的特征信息包括：对所述原始图像进行卷积计算，得到所述原始图像的特征映射图，将所述特征映射图作为所述原始图像的特征信息。

一般情况下，对原始图像进行卷积计算可以得到多个特征映射图，特征映射图的个数与卷积计算时所采用的卷积网络的层数有关。所有特征映射图综合起来能够反映原始图像的特征。

裁剪样本可以指对原始图像进行裁剪后得到的图像。

在一种可能的实施方式中，上述步骤S11中的裁剪样本的信息包括：裁剪样本的样本分类信息及样本位置信息。其中，样本分类信息表示裁剪样本是否包含所述原始图像的关键部分。样本位置信息为裁剪样本在原始图像中的位置信息。

上述裁剪样本的信息可以由人工生成，并由运行本发明实施例图像裁剪预测模型的训练方法的装置获取。

例如，针对一个原始图像，可以由人工确定原始图像的关键部分，并由人工对该原始图像多次裁剪，每次裁剪生成一组裁剪样本的信息。前述“裁剪”可以指对原始图像不同部位的划分。

在一种可能的实施方式中，裁剪样本的信息包括样本分类信息和样本位置信息。其中：

(1)样本分类信息。

样本分类信息可以有两种取值。如，样本分类信息等于1时，表示裁剪样本包含原始图像的关键部分。样本分类信息等于0时，表示裁剪样本不包含原始图像的关键部分。

样本分类信息也可以是一个一定数值范围内的取值。如，该数值范围为[0,1]，样本分类信息的取值越小，表示裁剪样本包含原始图像的关键部分的比例越小。

其中，原始图像的关键部分可以表示能够反映原始图像关键内容的部分，可以由人工确定原始图像的关键部分。

如图2为本发明实施方式对原始图像关键部分的标注示意图。在图2中，3个矩形标注出了在不同宽高比情况下原始图像的关键部分。

(2)样本位置信息。

当裁剪样本的形状为矩形时，裁剪样本对角线上的两个点可以确定裁剪样本的位置。因此，可以将对角线上的两个点在原始图像中的坐标作为裁剪样本在原始图像中的位置信息，即样本位置信息。

上述步骤S12中，将原始图像的特征信息输入图像裁剪预测模型后，图像裁剪预测模型输出的内容为预测图像的信息。

在一种可能的实施方式中，预测图像的信息包括预测分类信息和预测位置信息。其中：

(1)预测分类信息。

预测分类信息可以为预测图像包含原始图像的关键部分的可能性。预测分类信息可以是一个一定数值范围内的取值。如，该数值范围为[0,1]。预测分类信息的取值越小，表示根据图像裁剪预测模型的预测，预测图像包含原始图像的关键部分的可能性越小。

例如，对于一个预测图像，当该预测图像的预测分类信息取值为1时，表示根据图像裁剪预测模型的预测，该预测图像包含原始图像的关键部分的可能性为100％。当该预测图像的预测分类信息取值为0时，表示根据图像裁剪预测模型的预测，该预测图像包含原始图像的关键部分的可能性为0％。

(2)预测位置信息。

预测位置信息为预测图像在原始图像中的位置信息。与样本位置信息的情况类似，当预测图像的形状为矩形时，可以将预测图像对角线上的两个点在原始图像中的坐标作为预测位置信息。

图3为本发明实施例图像裁剪预测模型的输入、输出数据示意图。如图3所示，输入图像裁剪预测模型的数据为原始图像的特征信息，图像裁剪预测模型输出的数据为预测图像的信息。

如图4为本发明实施例步骤S13中的计算损失函数的方法流程图，包括：

S131：根据样本分类信息及预测分类信息计算分类损失。

S132：根据样本位置信息及预测位置信息计算位置损失。

S133：根据分类损失及位置损失计算损失函数。

其中，步骤S131和步骤S132均在步骤S133之前进行。步骤S131和步骤S132之间没有执行顺序的限制，二者可以同步进行，也可以一先一后执行。

在一种可能的实施方式中，可以采用以下式子(1)计算损失函数：

Loss(s,r)＝L_cls(s,s*)+λ*L_reg(r,r*)..................式子(1)

其中，Loss表示损失函数；

s表示预测分类信息；

s*表示样本分类信息；

L_cls(s,s*)表示分类损失；L_cls是一个具体的计算函数，该计算函数的自变量为s和s*；

r表示预测位置信息；

r*表示样本位置信息；

Lreg(r,r*)表示位置损失；Lreg是一个具体的计算函数，该计算函数的自变量为r和r*；

λ表示位置损失的权重。

在一种可能的实施方式中，图像裁剪预测模型包括至少一个预测通道，每个预测通道对应一个图像宽高比的范围。相应的，上述裁剪样本为采用至少一个图像宽高比裁剪原始图像所得到的至少一个图像；各个图像宽高比处于所述各个图像宽高比的范围之内。

例如，将图像宽高比划分为5个区间，包括

其中，

第一个区间表示裁剪图像的宽高比的区间为

以此类推。

图5为本发明实施例包括多个预测通道的图像裁剪预测模型的输入、输出数据示意图。如图5所示，图像裁剪预测模型包括5个预测通道，5个预测通道分别对应不同的宽高比的范围。输入图像裁剪预测模型的数据为原始图像的特征信息，具体可以为原始图像的特征映射图。5个预测通道分别对该特征信息进行预测，并分别得到预测图像的信息。针对各个预测通道，其对应的预测图像的宽高比在该预测通道所对应的图像宽高比的范围内。

对于包含多个预测通道的图像裁剪预测模型，可以采用以下式子(2)计算损失函数：

其中，

N表示图像宽高比范围的个数；

Loss表示损失函数；

s_i表示预测分类信息；下标i表示预测图像的宽高比处于第i个宽高比范围；

s*表示样本分类信息；

L_cls(s_i,s^*)表示分类损失；L_cls是一个具体的计算函数，该计算函数的自变量为s_i和s*；

r_i表示预测位置信息；下标i表示预测图像的宽高比处于第i个宽高比范围；

r*表示样本位置信息；

L_reg(r_i,r^*)表示位置损失；L_reg是一个具体的计算函数，该计算函数的自变量为r_i和r*；

λ表示位置损失的权重。

由于裁剪样本的宽高比处于第i个宽高比范围时，l_i的取值为1；其他情况下，l_i的取值为0。对于上述包含5个预测通道的图像裁剪预测模型，在训练过程中，如果裁剪样本的宽高比在

区间内，则仅训练预测通道1；如果宽高比在

区间内，则仅训练预测通道2。以此类推。

在对图像裁剪预测模型进行训练时，可以根据上述损失函数的结果调整图像裁剪预测模型的参数。当损失函数的结果低于预设阈值的比例达到预定要求时，可以结束对图像裁剪预测模型的训练。

通过上述过程完成了图像裁剪预测模型。对于任意原始图像，该图像裁剪预测模型的不同预测通道均可输出多种宽高比范围的预测图像的信息。可以根据实际需要的宽高比设置只输出对应预测通道的预测结果。

利用上述图像裁剪预测模型，本发明实施例提出一种图像裁剪方法，该实施例可以采用上述训练完成的图像裁剪预测模型对原始图像进行裁剪。如图6为该方法实施例实现流程图，包括：

S61：获取原始图像的特征信息；

S62：将特征信息输入预先训练的图像裁剪预测模型，得到原始图像的至少一个预测图像的信息；

S63：根据所述至少一个预测图像的信息对原始图像进行初步裁剪。

通过上述过程，本发明实施例可以采用预先训练的图像裁剪预测模型对原始图像的裁剪信息进行预测，得到原始图像的至少一个预测图像的信息，并根据预测图像的信息对原始图像进行初步裁剪。由于采用图像裁剪预测模型用于图像裁剪，因此能够减少裁剪过程的耗时及计算量，尽可能地避免出现裁剪不完整或图像扭曲的情况，并且于适用各种不同内容的图像。

在一种可能的实施方式中，步骤S61包括：对所述原始图像进行卷积计算，得到所述原始图像的特征映射图，将所述特征映射图作为所述原始图像的特征信息。

在一种可能的实施方式中，步骤S62中得到的至少一个预测图像的信息，包括：至少一个预测图像的预测分类信息及预测位置信息；所述预测分类信息为所述预测图像包含所述原始图像的关键部分的可能性；所述预测位置信息为所述预测图像在所述原始图像中的位置信息；

相应地，上述步骤S63包括：获取所述预测分类信息最大的预测图像，根据所述获取的预测图像的预测位置信息对所述原始图像进行初步裁剪。

例如，对于一个原始图像，图像裁剪预测模型预测得到该原始图像的多个预测图像的信息。每个预测图像的信息包括该预测图像的预测分类信息及预测位置信息。预测图像的信息可以采用如下表1的形式表示。

表1

预测图像标识	预测分类信息标识	预测位置信息标识
			预测图像1	预测分类信息1	预测位置信息1
预测图像2	预测分类信息2	预测位置信息2
			……	……

步骤S63在进行初步裁剪时，首先从多个预测图像的信息中找到最大的预测分类信息，如从上述表1的第二列中找到最大的值。之后，获取该最大的预测分类信息所对应的预测位置信息，如从上述表1的第三列中找到对应的预测位置信息。根据获取的预测位置信息，对原始图像进行初步裁剪。

进一步地，本发明实施例提出的图像裁剪采用的图像裁剪预测模型可以包括至少一个预测通道，每个预测通道对应一个图像宽高比的范围。

相应地，上述步骤S61之后可以进一步包括：将对原始图像进行裁剪的预设宽高比输入图像裁剪预测模型；

步骤S62中，原始图像的至少一个预测图像的信息可以包括：由图像宽高比的范围包含上述预设宽高比的预测通道输出的信息。

如果采用上述实施例中包含5个预测通道的图像裁剪预测模型进行预测，在进行图像裁剪时，可以将对原始图像进行裁剪的预设宽高比输入该图像裁剪预测模型，从而对由哪一个预测通道输出预测结果进行设置。例如，如果预设宽高比为2，则可以由预测通道5输出预测图像的信息。

可见，本发明实施例提出的图像裁剪方法使用上述包括多个预测通道的图像裁剪预测模型，可以在进行图像裁剪时向该图像裁剪预测模型输入预设宽高比，由图像裁剪预测模型采用相应的预测通道预测图像的信息。该预测图像的宽高比接近于预设宽高比。因此，本发明实施例提出的图像裁剪方法不需要针对不同范围的预设宽高比选择不同的模型，故而裁剪过程简单，便于实现。

由于图像裁剪预测模型输出的预测图像的宽高比在一定的范围内，因此该预测图像的宽高比只是接近于实际需要的预设宽高比，而不是等于该预设宽高比。鉴于此，本发明实施例可以在上述初步裁剪之后，根据上述预设宽高比做进一步调整。

如图6所述，上述步骤S63之后可以进一步包括：

S64：按照预设宽高比，在初步裁剪的基础上对原始图像进行精确裁剪。

在一种可能的实施方式中，步骤S64可以以所述初步裁剪后的图像区域的中心为中心，在所述原始图像上以水平和/或竖直方向扩充和/或收缩，使扩充和/或收缩后的图像区域的宽高比等于所述预设宽高比，将所述扩充和/或收缩后的图像区域作为精确裁剪图像。

采用上述调整过程，可以使自动裁剪得到的裁剪图像的宽高比与预设宽高比完全一致，满足图像裁剪要求。

如图7为本发明实施例对原始图像进行裁剪的一个具体实现过程示意图。如图7所示，采用卷积网络对原始图像进行卷积计算，得到该原始图像的多个特征映射图。将多个特征映射图及预设宽高比输入包括5个预测通道的图像裁剪预测模型。假定预设宽高比2，对应的预测通道为预测通道5，则根据预测通道5输出的预测图像的信息，得到对原始图像进行初步裁剪后的结果。该初步裁剪后的结果如图7中的模型预测结果所示。该模型预测结果中，原始图像上的矩形所划定的区域即为对原始图像进行初步裁剪后的结果。该结果的宽高比接近于预设宽高比，但并不等于预设宽高比。因此，需要对初步裁剪后的结果进行调整。在本发明实施例的一种方式中，可以将该矩形所划定的区域在两侧横向扩展至原始图像的左右边界，再对扩展后的区域的上部分或下部分进行裁剪，得到最终的精确裁剪图像。

示例性介质

在介绍了本发明示例性实施方式的方法之后，接下来，参考图8对本发明示例性实施方式的介质进行说明。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种计算机可读介质，其上存储有程序。当所述程序被处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的图像裁剪预测模型的训练方法中的步骤、或者根据本发明各种示例性实施方式的图像裁剪方法中的步骤。

具体地，上述处理器执行上述程序时用于实现如下步骤：

获取原始图像的特征信息及裁剪样本的信息；

将所述特征信息输入所述图像裁剪预测模型；

或者，上述处理器执行上述程序时用于实现如下步骤：

获取原始图像的特征信息；

需要说明的是：上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图8所示，描述了根据本发明的实施方式的介质80，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序，并可以在设备上运行。然而，本发明不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算设备。

示例性装置

在介绍了本发明示例性实施方式的介质之后，接下来，参考图9和图10对本发明示例性实施方式的装置进行说明。

如图9所示，本发明实施例的图像裁剪预测模型的训练装置可以包括：

第一获取模块901，用于获取原始图像的特征信息及裁剪样本的信息；

第一输入模块902，用于将所述特征信息输入所述图像裁剪预测模型；

损失函数计算模块903，用于根据所述图像裁剪预测模型输出的预测图像的信息及所述裁剪样本的信息计算损失函数；

训练模块904，用于采用所述损失函数训练所述图像裁剪预测模型。

在一种可能的实施方式中，所述第一获取模块901，用于对所述原始图像进行卷积计算，得到所述原始图像的特征映射图，将所述特征映射图作为所述原始图像的特征信息。

在一种可能的实施方式中，所述裁剪样本的信息包括：所述裁剪样本的样本分类信息及样本位置信息；所述样本分类信息表示所述裁剪样本是否包含所述原始图像的关键部分；所述样本位置信息为所述裁剪样本在所述原始图像中的位置信息；

在一种可能的实施方式中，所述损失函数计算模块903用于：

根据所述分类损失及位置损失计算所述损失函数。

在一种可能的实施方式中，所述图像裁剪预测模型包括至少一个预测通道，每个预测通道对应一个图像宽高比的范围；

如图10所示，本发明实施例的图像裁剪装置可以包括：

第二获取模块1001，用于获取原始图像的特征信息；

第二输入模块1002，用于将所述特征信息输入预先训练的图像裁剪预测模型，得到所述原始图像的至少一个预测图像的信息；

初步裁剪模块1003，用于根据所述至少一个预测图像的信息对所述原始图像进行初步裁剪。

在一种可能的实施方式中，第二获取模块1002用于对所述原始图像进行卷积计算，得到所述原始图像的特征映射图，将所述特征映射图作为所述原始图像的特征信息。

在一种可能的实施方式中，上述至少一个预测图像的信息，包括：至少一个预测图像的预测分类信息及预测位置信息；所述预测分类信息为所述预测图像包含所述原始图像的关键部分的可能性；所述预测位置信息为所述预测图像在所述原始图像中的位置信息；

所述初步裁剪模块1003，用于获取所述预测分类信息最大的预测图像，根据所述获取的预测图像的预测位置信息对所述原始图像进行初步裁剪。

在一种可能的实施方式中，图像裁剪预测模型包括至少一个预测通道，每个预测通道对应一个图像宽高比的范围；

所述第二输入模块1002还用于，将对所述原始图像进行裁剪的预设宽高比输入所述图像裁剪预测模型；

在一种可能的实施方式中，上述图像裁剪装置还包括精确裁剪模块1004，用于按照所述预设宽高比，在所述初步裁剪的基础上对所述原始图像进行精确裁剪。

在一种可能的实施方式中，精确裁剪模块1004，用于以所述初步裁剪后的图像区域的中心为中心，在所述原始图像上以水平和/或竖直方向扩充和/或收缩，使扩充和/或收缩后的图像区域的宽高比等于所述预设宽高比，将所述扩充和/或收缩后的图像区域作为精确裁剪图像。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，参考图11对本发明示例性实施方式的计算设备进行说明。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明实施方式的计算设备可以至少包括至少一个处理单元以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明的各种示例性实施方式的歌曲推荐列表生成方法中的步骤。

下面参照图11来描述根据本发明的这种实施方式的计算设备110。图11显示的计算设备110仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，计算设备110以通用计算设备的形式表现。计算设备110的组件可以包括但不限于：上述至少一个处理单元1101、上述至少一个存储单元1102，连接不同系统组件(包括处理单元1101和存储单元1102)的总线1103。

总线1103包括数据总线、控制总线和地址总线。

存储单元1102可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)11021和/或高速缓存存储器11022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(ROM)11023。

存储单元1102还可以包括具有一组(至少一个)程序模块11024的程序/实用工具11025，这样的程序模块11024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备110也可以与一个或多个外部设备1104(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口1105进行。并且，计算设备110还可以通过网络适配器1106与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图11所示，网络适配器1106通过总线1103与计算设备110的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备110使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了上述装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种图像裁剪预测模型的训练方法，其特征在于，包括：

获取原始图像的特征信息及裁剪样本的信息，所述裁剪样本指对原始图像进行裁剪后得到的图像，所述裁剪样本的信息包括：所述裁剪样本的样本分类信息、样本位置信息以及样本宽高比信息；其中，所述样本分类信息表示所述裁剪样本是否包含所述原始图像的关键部分；

将所述特征信息输入所述图像裁剪预测模型；所述图像裁剪预测模型包括至少一个预测通道，每个所述预测通道对应一个样本宽高比的范围；

根据所述图像裁剪预测模型输出的预测图像的信息及所述裁剪样本的信息计算损失函数，采用所述损失函数训练所述图像裁剪预测模型中与所述裁剪样本的样本宽高比信息对应的预测通道。

2.根据权利要求1所述的方法，其特征在于，所述获取原始图像的特征信息包括：

对所述原始图像进行卷积计算，得到所述原始图像的特征映射图，将所述特征映射图作为所述原始图像的特征信息。

3.根据权利要求1或2所述的方法，其特征在于，

所述样本位置信息为所述裁剪样本在所述原始图像中的位置信息；所述预测图像的信息包括：所述预测图像的预测分类信息及预测位置信息；所述预测分类信息为所述预测图像包含所述原始图像的关键部分的可能性；所述预测位置信息为所述预测图像在所述原始图像中的位置信息。

4.根据权利要求3所述的方法，其特征在于，所述根据所述图像裁剪预测模型输出的预测图像的信息及所述裁剪样本的信息计算损失函数，包括：

根据所述分类损失及位置损失计算所述损失函数。

5.根据权利要求1或2所述的方法，其特征在于，所述裁剪样本为采用至少一个图像宽高比裁剪所述原始图像所得到的至少一个图像；各个所述图像宽高比处于所述各个图像宽高比的范围之内。

6.一种图像裁剪方法，其特征在于，包括：

获取原始图像的特征信息；

将所述特征信息输入预先训练的图像裁剪预测模型，得到所述原始图像的至少一个预测图像的信息；所述图像裁剪预测模型训练时的裁剪样本为对原始图像进行裁剪后得到的图像，所述裁剪样本的信息包括：所述裁剪样本的样本分类信息、样本位置信息以及样本宽高比信息；其中，所述样本分类信息表示所述裁剪样本是否包含所述原始图像的关键部分；所述图像裁剪预测模型包括至少一个预测通道，每个所述预测通道对应一个样本宽高比的范围；其中，与所述样本宽高比信息对应的预测通道是采用损失函数训练得到的，所述损失函数是根据所述图像裁剪预测模型输出的预测图像的信息及所述裁剪样本的信息计算确定的；

7.根据权利要求6所述的方法，其特征在于，所述获取原始图像的特征信息包括：

8.根据权利要求6或7所述的方法，其特征在于，

所述至少一个预测图像的信息，包括：至少一个预测图像的预测分类信息及预测位置信息；所述预测分类信息为所述预测图像包含所述原始图像的关键部分的可能性；所述预测位置信息为所述预测图像在所述原始图像中的位置信息；

9.根据权利要求8所述的方法，其特征在于，所述图像裁剪预测模型包括至少一个预测通道，每个预测通道对应一个图像宽高比的范围；

10.根据权利要求9所述的方法，其特征在于，初步裁剪之后，进一步包括：

按照所述预设宽高比，在所述初步裁剪的基础上对所述原始图像进行精确裁剪。

11.根据权利要求10所述的方法，其特征在于，所述精确裁剪的方式为：

以所述初步裁剪后的图像区域的中心为中心，在所述原始图像上以水平和/或竖直方向扩充和/或收缩，使扩充和/或收缩后的图像区域的宽高比等于所述预设宽高比，将所述扩充和/或收缩后的图像区域作为精确裁剪图像。

12.一种图像裁剪预测模型的训练装置，其特征在于，包括：

第一获取模块，用于获取原始图像的特征信息及裁剪样本的信息，所述裁剪样本指对原始图像进行裁剪后得到的图像，所述裁剪样本的信息包括：所述裁剪样本的样本分类信息、样本位置信息以及样本宽高比信息；

第一输入模块，用于将所述特征信息输入所述图像裁剪预测模型；所述图像裁剪预测模型包括至少一个预测通道，每个预测通道对应一个样本宽高比的范围；损失函数计算模块，用于根据所述图像裁剪预测模型输出的预测图像的信息及所述裁剪样本的信息计算损失函数；

训练模块，用于采用所述损失函数训练所述图像裁剪预测模型中与所述裁剪样本的样本宽高比信息对应的预测通道。

13.根据权利要求12所述的装置，其特征在于，所述第一获取模块，用于对所述原始图像进行卷积计算，得到所述原始图像的特征映射图，将所述特征映射图作为所述原始图像的特征信息。

14.根据权利要求12或13所述的装置，其特征在于，

所述样本位置信息为所述裁剪样本在所述原始图像中的位置信息；

15.根据权利要求14所述的装置，其特征在于，所述损失函数计算模块用于：

根据所述分类损失及位置损失计算所述损失函数。

16.根据权利要求14所述的装置，其特征在于，所述裁剪样本为采用至少一个图像宽高比裁剪所述原始图像所得到的至少一个图像；各个所述图像宽高比处于所述各个图像宽高比的范围之内。

17.一种图像裁剪装置，其特征在于，包括：第二获取模块，用于获取原始图像的特征信息；

第二输入模块，用于将所述特征信息输入预先训练的图像裁剪预测模型，得到所述原始图像的至少一个预测图像的信息；所述图像裁剪预测模型训练时的裁剪样本为对原始图像进行裁剪后得到的图像，所述裁剪样本的信息包括：所述裁剪样本的样本分类信息、样本位置信息以及样本宽高比信息；其中，所述样本分类信息表示所述裁剪样本是否包含所述原始图像的关键部分；所述图像裁剪预测模型包括至少一个预测通道，每个所述预测通道对应一个样本宽高比的范围；其中，与所述样本宽高比信息对应的预测通道是采用损失函数训练得到的，所述损失函数是根据所述图像裁剪预测模型输出的预测图像的信息及所述裁剪样本的信息计算确定的；

18.根据权利要求17所述的装置，其特征在于，所述第二获取模块，用于对所述原始图像进行卷积计算，得到所述原始图像的特征映射图，将所述特征映射图作为所述原始图像的特征信息。

19.根据权利要求17或18所述的装置，其特征在于，所述至少一个预测图像的信息，包括：至少一个预测图像的预测分类信息及预测位置信息；所述预测分类信息为所述预测图像包含所述原始图像的关键部分的可能性；所述预测位置信息为所述预测图像在所述原始图像中的位置信息；

20.根据权利要求19所述的装置，其特征在于，

所述图像裁剪预测模型包括至少一个预测通道，每个预测通道对应一个图像宽高比的范围；

21.根据权利要求20所述的装置，其特征在于，还包括：

22.根据权利要求21所述的装置，其特征在于，所述精确裁剪模块，用于以所述初步裁剪后的图像区域的中心为中心，在所述原始图像上以水平和/或竖直方向扩充和/或收缩，使扩充和/或收缩后的图像区域的宽高比等于所述预设宽高比，将所述扩充和/或收缩后的图像区域作为精确裁剪图像。

23.一种介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-11中任一所述的方法。

24.一种计算设备，包括：一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-11中任一所述的方法。