CN111524145B

CN111524145B - 图片智能裁剪方法、系统、计算机设备及存储介质

Info

Publication number: CN111524145B
Application number: CN202010285063.1A
Authority: CN
Inventors: 周诚; 孙环荣; 宫新伟; 单志辉; 陈兆金; 牛亚; 赵世亭
Original assignee: Beijing Wisdom Octopus Technology Co ltd
Current assignee: Beijing Wisdom Octopus Technology Co ltd
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2024-06-04
Anticipated expiration: 2040-04-13
Also published as: CN111524145A

Abstract

本发明公开了图片智能裁剪方法、系统、计算机设备及存储介质，该方法包括：首先检测图片中是否有人脸，如果有人脸，则进一步对其进行验证目标的有效性，验证数量、大小、位置等信息，如果太小或者在图片边缘，将其抛弃；如果存在有效的人脸则基于人脸信息计算关键特征区域范围；如果没有有效人脸，则检测是否有躯体，如果检测到躯体，对其进一步检测目标有效性；如果存在有效躯体，则基于躯体信息计算图片关键特征区域；如果没有检测到有效躯体，则对图片进行显著性检测，然后对图片中关键特征区域进行计算，最后根据关键特征区域和所需尺寸对图片进行裁剪，本发明具有裁剪速度快、精准、智能化、使用灵活等技术特点。

Description

图片智能裁剪方法、系统、计算机设备及存储介质

技术领域

本发明属于图像处理技术领域，尤其涉及图片智能裁剪方法、系统、计算机设备及存储介质。

背景技术

图像裁剪最简单的方法是缩放和居中裁剪。但是它们有着明显的局限性。当输入和输出图片的纵横比相差太多时，缩放会使得图像严重变形。同时，如果将图片缩小太多，那么图片中原有的一些用户会敏感的信息，比如图片中的文字，就会无法识别(海量图片的裁剪压缩与检索[M],2013)。早期，还有学者提出细缝裁剪技术(Seam carving forcontent-aware image resizing[J],Improved seam carving for video retargeting.[J]),该技术能够很好的在保证不破坏原始图片中重要物体的前提下修改原始图片的尺寸，其采用的是内容敏感的图像裁剪算法。目前，传统的图片裁剪技术通常是：高图裁剪底部，宽图裁剪两侧，或者裁剪保留图片中心部分。但是，这些传统裁剪方式经常会导致图片中的主体部分被截断，从而使得网页中所呈现的图片看上去很不雅观。

图片裁剪方法各式各样，基本可分为两大类：基于软件的方式的人工裁剪和算法的裁剪。基于软件的方式裁剪：首先要定义裁剪的区域和缩放比例，然后可以对一组图片进行批量裁剪。针对某一类图片，人工手工指定裁剪过程。算法的裁剪，利用机器识别算法，识别出背景区域，按要求展示尺寸，裁减掉部分背景，再进行图片缩放。人工裁剪方式的缺点是需要耗费巨大人力资源来裁剪图片，并且随着网站的扩建，裁剪图片的成本也非常大。自动裁剪方式的缺点是算法复杂，同时，也要监控图片裁剪效果，以发现问题及时调整算法。(—种基于图片识别的自动裁剪方法[P]，2015)

以居中裁剪为基础的一些算法试图保留图像中最重要的一个部分，Chen(Avisual attention model for adapting images on small displays[J])等人提出了一种基于用户注意力的自适应图像裁剪算法，他们引入了一个基于三种属性的注意力模型，并以此为基础定制了一种分支定界算法从而有效地在原始图像中找到最佳的裁剪区域。Itti(A model of saliency-based visual attention for rapid scene analysis.[J])等人提出了一种视觉显著度系统，该算法将多尺度图像特征结合到一张显著的图像中，然后利用一个神经网络来找出显著度下降的区域。Suh(Automatic thumbnail cropping andits effectiveness.[A])等人提出了一种基于图像关键物体识别的智能裁剪算法，他们以显著区域检测和人脸检测为基础对图像进行自动裁剪。Liu(Automatic browsing oflarge pictures on mobile devices.[A])等人使用了一个图像显著度模型来描述图像的结构信息，然后根据图像的显著模型来计算出最优的图像浏览路径。Santella(Gaze-basedinteraction for semi-automatic photo cropping[A])等人采用眼动追踪定位技术来定位图像中的关键部分并根据需求的纵横比或尺寸计算出最优的裁剪区域。

基于变形的图像裁剪算法试图挤压或牵拉图像中不太重要的区域而保持图像中突出物体的尺寸或纵横比。Gal(Feature-aware texturing.[A])等人提出了一种由特征掩盖层为指引的不均匀2D纹理映射方法来保留图像中一些区域。该方法基于一个特殊定制的拉普拉斯编辑算子公式，以适应图像中部分区域的相似性约束。该方法能够较好的适应重复纹理较多的图片，但是不具备处理海量图片的普适应。Wolf(Non-homogeneous content-driven video-retargeting[A])等人介绍了一种高效的视频重定向算法，他们在每帧中检测重要的区域，然后收缩其余的部分。Wang(Motion-based video retargeting withoptimized crop-and-warp.[J])等人使用了运动信息以及时域和空域上的分布扭曲时间线了视频的重定向算法。Zhang(A shape-preserving approach to image resizing.[J])等人，提出了一种内容保持的图像缩放方法，通过预先计算每个像素的累积收缩性图，需要同时考虑每个像素的重要性及其在裁剪结果中的连续性。

还有利用采用聚类算法对获取到的待裁剪图片进行颜色聚类以得待裁剪色块图，建立矩形框对待裁剪色块图进行多次裁剪以得色块图组，根据色块分布规则对色块图组进行筛选以得裁剪色块图，根据裁剪色块图和待裁剪图片以生成裁剪图片(一种图片智能裁剪方法及装置[P]，2018)，但是该方法并没有突显出其“智能”所在，其主要采用聚类的方法将图片颜色块进行聚类而且是建立随机矩形框对色块图进行多次裁剪得到色块图组，再根据所需尺寸和分布规则对色块图进行筛选得以裁剪色块图；还有利用人脸识别的图片裁剪，如果未识别到人脸，对图片进行主体显著性识别，根据主体显著性识别结果和目标裁剪尺寸对图片进行裁剪，其中主体显著性识别值得是对人脸之外的主体的显著性特征进行的识别，而主体可以是桌椅、鲜花、食品或者人物等。

现有技术中，曾提出了一种“基于人脸识别图片裁剪方法及装置”的技术方案，其通过人脸识别的方法进行图片裁剪，其中对主体显著性的识别通过对图片进行LAB色彩空间变换后，对经过色彩空间变化后的图片进行DCT(Discrete CosineTransForm，离散余弦变换)处理，去掉其中的低频成分；将经过低频成分过滤后的DCT处理结果进行DCT反变换，从而根据反变换结果得到所保留的主体区域，也就是主体显著性识别的结果；另外还提出一种“一种基于图片识别的自动裁剪方法”的技术方案，通过图片预处理、采用OpenCV人脸检测算法和图像分块算法，再经过背景识别进行自适应截取图片，其中背景识别中该专利也指出因为图像分块算法对不同尺度的图片，运用的参数不同，所以要先将图片压缩到规定大小，再运用指定参数，才能达到好的效果。

但是上述现有技术中存在着面对复杂的图片情况下进行图片识别时无法智能精准地识别到所需的特征，由于对于图片裁剪而言并不是所有的特征都是所需的，识别到的特征往往附带很多干扰因素或者不需要的特征，只能粗略地确定图片裁剪的区域，如此确定的图片裁剪区域，容易造成一些图片中次要的要素被裁剪掉，也容易造成一些图片中附带很多不需要的要素，同时如果图片中进行的特征区域本身并不是裁剪所需区域时，很容易造成图片严重的裁剪错误，并且裁剪区域不能随着识别图片的不同而智能化地调整，往往局限于某些特定的区域，此外，面对无法识别到特征的图片则无法进行裁剪，无法实现智能化的图片裁剪。

发明内容

本发明为解决图片裁剪中识别不够精准、区域局限、使用不灵活的问题，提供了图片智能裁剪方法、系统、计算机设备及存储介质。

为解决上述问题，本发明的技术方案为：

一种图片智能裁剪方法，包括以下步骤：

S1：对待裁剪的图片进行人脸检测：若检测到人脸，则获取人脸信息并执行步骤S2；若未检测到人脸，则执行步骤S3；

S2：对人脸信息进行人脸有效性验证：若存在人脸有效信息，则根据人脸有效信息和预设的目标裁剪尺寸进行图片裁剪；若人脸信息均无效，则执行步骤S3；

S3：对图片进行躯体检测：若检测到躯体，则获取躯体信息并执行步骤S4；若未检测到躯体，则执行步骤S5；

S4：对躯体信息进行躯体有效性验证：若存在躯体有效信息，则根据躯体有效信息和预设的目标裁剪尺寸进行图片裁剪；若躯体信息均无效，则执行步骤S5；

S5：对图片进行显著性检测，获取显著性特征区域，并根据显著性特征区域与预先设定的裁剪尺寸进行裁剪。

在其中一个实施例中，所以步骤S1中，通过多任务级联卷积神经网络MTCNN对待裁剪的图片进行人脸检测，其中，MTCNN包括P-Net、R-Net、O-Net三个级联的网络，人脸检测进一步包括：

将图片调整到不同的比例，构建得到图像金字塔；

通过P-Net生成人脸候选窗及其边框回归向量，并且通过边框回归向量校正人脸候选窗，同时通过非极大值抑制合并重叠的人脸候选框；

通过R-Net剔除错误的人脸候选窗；

通过O-Net输出最终的人脸框和特征点位置，以获得人脸信息。

在其中一个实施例中，步骤S2中，人脸信息包括人脸置信度、人脸面积、人脸位置、人脸数量，对人脸信息进行人脸有效性验证进一步包括：

通过人脸置信度、人脸面积相对图片的大小、人脸位置、人脸数量与相对应的预设阈值进行比较，筛选符合阈值要求的人脸信息，得到人脸有效信息。

在其中一个实施例中，步骤S2中，根据人脸有效信息和预设的目标裁剪尺寸进行图片裁剪进一步包括：

根据人脸有效信息中人脸面积的大小，得到最大的人脸面积；

根据人脸面积相对于最大的人脸面积的占比，筛选出大于预设阈值的人脸信息，得到人脸特征信息；

根据人脸特征信息确定人脸特征区域，并根据人脸特征区域的中心及有效范围，结合目标裁剪尺寸进行图片的裁剪。

在其中一个实施例中，步骤S3中，通过YOLO V2算法对图片进行躯体检测，躯体信息包括躯体置信度、躯体面积、躯体位置、躯体数量；

步骤S4中，对躯体信息进行躯体有效性验证进一步包括：

通过躯体置信度、躯体面积相对图片的大小、躯体位置、躯体数量与相对应的预设阈值进行比较，筛选符合阈值要求的躯体信息，得到躯体有效信息。

在其中一个实施例中，步骤S4中，根据躯体有效信息和预设的目标裁剪尺寸进行图片裁剪进一步包括：

根据躯体有效信息中躯体面积的大小，得到最大的躯体面积；

根据躯体面积相对于最大的躯体面积的占比，筛选出大于预设阈值的躯体信息，得到躯体特征信息；

根据躯体特征信息确定躯体特征区域，并根据躯体特征区域的中心及有效范围，结合目标裁剪尺寸进行图片的裁剪。

在其中一个实施例中，步骤S5进一步包括：

将图片输入至HED结构中，通过HED结构的网络输出N*N的特征矩阵；

根据特征矩阵中的特征值，提取符合阈值要求的显著性特征区域；

根据显著性特征区域，结合目标裁剪尺寸进行图片的裁剪。

一种图片智能裁剪系统，包括：

图像裁剪模块；

人脸检测模块，用于对待裁剪的图片进行人脸检测：若检测到人脸，则获取人脸信息；

人脸验证模块，用于对人脸信息进行人脸有效性验证：若存在人脸有效信息，则调用图像裁剪模块根据人脸有效信息和预设的目标裁剪尺寸进行图片裁剪；

躯体检测模块，用于对图片进行躯体检测：若检测到躯体，则获取躯体信息；

躯体验证模块，用于对躯体信息进行躯体有效性验证：若存在躯体有效信息，则调用图像裁剪模块根据躯体有效信息和预设的目标裁剪尺寸进行图片裁剪；

显著性检测模块：对图片进行显著性检测，获取显著性特征区域，并调用图像裁剪模块根据显著性特征区域与预先设定的裁剪尺寸进行裁剪。

一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述图片智能裁剪方法。

一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述图片智能裁剪方法。

本发明与现有技术相比具有以下的优点和积极效果：

1)本发明通过人脸检测、躯体检测，巧妙突出“人物”优先原则，并结合显著性检测网络，能够良好并完整捕捉图片中的重要内容及特征信息，不会因为缩放或者居中的裁剪方式，导致裁剪后得到的图片严重变形，并且通过对于人脸检测、躯体检测的结果进行有效性验证，可以有效地剔除检测到的特征中的一些不符合要求的特征，比如，是人脸或躯体的可能性较低、人脸或躯体很小、位置靠近图片边缘等特征信息，其中，人脸和躯体都可以通过特征置信度、特征面积相对图片的相对大小、特征位置等进行特征信息的剔除与筛选，得到图片裁剪所需精准的有效信息，如此，一则大大减小后期图像裁剪时的数据处理量，提高图片裁剪的处理效率，二则有效减少图像裁剪的干扰因素，提高图片裁剪的精准度，三则可以当识别的特征本身并不是图像所需区域时，避免发生以这些识别的特征进行裁剪，而发生严重的裁剪错误；

2)本发明通过根据人脸有效信息、躯体有效信息、以及预设的目标裁剪尺寸进行图片裁剪，其中，通过上述有效信息中的特征面积相对于其对应特征最大面积的相对占比，来确定裁剪所需的特征区域，再结合目标裁剪尺寸进行图片裁剪，如此，特征区域的大小都可以随着图片中具体特征信息智能化地调整，不会局限于某一中心的某一限定范围内，提高了图片裁剪的图片适应能力，可以满足各种不同特征的图片裁剪，裁剪更加灵活智能化；

3)本发明采用深度学习的MTCNN算法进行人脸检测，通过P-Net、R-Net、O-Net三个级联的网络检测人脸和关键点定位，进行由粗到细的定位，其中，先生成候选窗并校准，再剔除错的候选窗，再输出最终的人脸框和特征点位置，以识别得到人脸信息，该方法模型小、网络容易收敛，并且所提取特征更加精准且高效；

4)本发明采用YOLO V2进行躯体检测，其中，采用one-stage目标检测方法同样使得网络非常轻量级，引入锚框后(anchor box)，使模型更加稳定，且精度提高了5％，且加入池化(Batch Normalization)进行多尺度训练，使得网络可接受任意尺寸图片输入，从而网络即可预测不同分辨率的图像；

5)本发明采用捷径连接的增强HED结构进行显著性检测，以保持图片内容不变为前提，通过显著性定位阶段，主要聚焦于寻找得定图像中最显著的区域，从较深的侧输出层到较浅的侧输出层的一系列捷径拦截，通过较深的侧信息，可以准确的预测显著的对象，又可以从较深的侧输出中重新获得结果，从而产生密集且准确的显著图，进一步保证了图片中关键特征信息的保留，从而使得整个裁剪过程中，能够完整保留图片中所需信息，不会有变形、信息丢失等情况，从而保证了整个模型的精度。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。

图1为本发明一个实施例中图片智能裁剪方法的流程示意图；

图2为本发明一个实施例中图片智能裁剪方法的根据人脸有效信息进行图像裁剪过程示意图；

图3为本发明一个实施例中图片智能裁剪方法的根据躯体有效信息进行图像裁剪过程示意图；

图4为本发明一个实施例中图片智能裁剪方法的MTCNN网络结构示意图；

图5为本发明一个实施例中图片智能裁剪方法的YOLO网络结构示意图；

图6为本发明一个实施例中图片智能裁剪系统的结构框图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

参看图1，本发明提供一种图片智能裁剪方法，包括以下步骤：

现对上述内容进行信息说明，但不仅限于此。

本实施的图片智能裁剪方法，该方法以人为本，并基于统计经验，将图片裁剪识别问题转化“人脸-躯体-显著性”检测问题，人脸指的是人的面部特征，躯体指的是人的人体特征，显著性指的是如房屋、树木、食物等具有显著区别性的特征。本实施例通过人脸检测、躯体检测、显著性检测，巧妙突出“人物”优先原则，并结合显著性检测网络，能够良好并完整捕捉图片中的重要内容及特征信息，不会因为缩放或者居中的裁剪方式，导致裁剪后得到的图片严重变形。

1、本实施例的步骤S1进行详细说明

本实施例的步骤S1中，通过多任务级联卷积神经网络MTCNN对待裁剪的图片进行人脸检测，其中，参看图4，MTCNN包括P-Net、R-Net、O-Net三个级联的网络，以检测人脸和关键点定位，这是一个由粗到细的定位过程。

参看图4，具体步骤如下：

1)接收到待裁剪的图像，将图像调整到不同的比例，以构建图像金字塔；然后使用P-Net，为一个全卷积网络，通过浅层的CNN用来生成候选窗及其边框回归向量，使用Bounding box regression(边框回归)的方法来校正这些候选窗，使用非极大值抑制(NMS)合并重叠的候选框；

其检测中使用交叉熵损失函数：

边框回归使用平方和损失：

2)使用R-Net改善候选窗，剔除错误的人脸候选窗。将通过P-Net的候选窗输入R-Net中，拒绝掉大部分false的窗口，继续使用Bounding box regression和NMS合并；

3)通过O-Net输出最终的人脸框和特征点位置，以获得人脸信息。和第二步类似，但是不同的是生成5个特征点位置。其中人脸特征点定位也使用平方和损失函数：

在整个CNN框架上有多种不同的任务，不是每种任务都需要执行以上三种损失函数，如果只判断图片是不是人脸的时候，只需要计算det的损失函数，α表示任务的重要性，所以定义如下函数：

本实施例采用深度学习的MTCNN算法进行人脸检测，通过P-Net、R-Net、O-Net三个级联的网络检测人脸和关键点定位，进行由粗到细的定位，其中，先生成候选窗并校准，再剔除错的候选窗，再输出最终的人脸框和特征点位置，以识别得到人脸信息，该方法模型小、网络容易收敛，并且所提取特征更加精准且高效。

2、本实施例的步骤S2和S4进行详细说明

参看图2，步骤S2中，人脸信息可以包括人脸置信度、人脸面积、人脸位置、人脸的数量，本实施例基于上述所有的人脸信息进行有效性验证，但也可以选择几个作为有效性验证的依据。

较优地，本实施例通过人脸置信度、人脸面积相对图片的大小、人脸位置、人脸数量与相对应的预设阈值进行比较，筛选符合阈值要求的人脸信息，得到人脸有效信息。具体而言，人脸置信度为通过上述步骤S1的人脸识别得到是否人脸的可能性评估，本实施例优先通过设定人脸置信度的最小阈值剔除人脸置信度较低的一些信息，在人脸置信度有效性验证的基础上，根据人脸面积相对图片的大小、人脸位置、人脸数量与对应设定的阈值进行比较，剔除人脸面积相对图片较小、人脸位置靠近图像边缘的一些信息，并在人脸数量的预设范围内可以根据排序的方法优先选择靠近图像中心、人脸面积相对较大、人脸置信度较高的人脸信息，从而得到人脸有效信息。其中，本实施例进行比较的阈值可以是人为设定的值，也可以根据待裁剪的图片的基本属性，如图片大小、图片类型、图片内容等设定一系列的阈值，通过输入的图片自动选择阈值。同样地，参看图3，本申请的躯体信息的有效性验证与上述人脸信息的有效性验证过程近似，在此不再赘述。

本实施例通过对于人脸检测、躯体检测的结果进行有效性验证，可以有效地剔除检测到的特征中的一些不符合要求的特征，比如，是人脸或躯体的可能性较低、人脸或躯体很小、位置靠近图片边缘等特征信息，其中，人脸和躯体都可以通过特征置信度、特征面积相对图片的相对大小、特征位置等进行特征信息的剔除与筛选，得到图片裁剪所需精准的有效信息，如此，一则大大减小后期图像裁剪时的数据处理量，提高图片裁剪的处理效率，二则有效减少图像裁剪的干扰因素，提高图片裁剪的精准度，三则可以当识别的特征本身并不是图像所需区域时，避免发生以这些识别的特征进行裁剪，而发生严重的裁剪错误。

步骤S2中，当检测到人脸有效信息后，本实施例首先根据人脸有效信息中人脸面积的大小，得到最大的人脸面积，然后根据人脸面积相对于最大的人脸面积的占比，筛选出大于预设阈值的人脸信息，得到人脸特征信息，该阈值可以设定为人脸面积大于等于最大人脸的60％，也可以如上述同理的设定一系列阈值，通过智能化地选择确认具体的比较阈值；最后根据人脸特征信息确定人脸特征区域，并根据人脸特征区域的中心及有效范围，结合目标裁剪尺寸进行图片的裁剪，优选地，本实施例在确定了中心及有效范围时，根据目标裁剪尺寸与该中心范围进行适配：在中心范围在目标裁剪尺寸范围内，则以该中心范围的中心为目标裁剪尺寸的中心进行图像裁剪；在中心范围超出目标裁剪尺寸范围，则可以相对该中心范围的中心进行目标裁剪区域的偏移，优选包含所需的人脸数量最多或人脸面积最大或者人脸密集等区域进行图像裁剪，并且对于裁剪边缘保证人脸的完整性。本实施例可以采用OpenCV进行裁剪，得到最终所需图片。同样地，步骤S4中，当检测到躯体有效信息后，基于躯体有效信息和预设的目标裁剪尺寸进行图片裁剪的过程与上述基于人脸有效信息的裁剪过程近似，在此不再赘述。

本实施例通过根据人脸有效信息、躯体有效信息、以及预设的目标裁剪尺寸进行图片裁剪，其中，通过上述有效信息中的特征面积相对于其对应特征最大面积的相对占比，来确定裁剪所需的特征区域，再结合目标裁剪尺寸进行图片裁剪，如此，特征区域的大小都可以随着图片中具体特征信息智能化地调整，不会局限于某一中心的某一限定范围内，提高了图片裁剪的图片适应能力，可以满足各种不同特征的图片裁剪，裁剪更加灵活智能化。

3、本实施例的步骤S3进行详细说明

本实施例的步骤S3中，主要采用YOLO算法(You Only Look Once)进行躯体检测，其网络结构参看图5，该算法将物体检测(object detection)问题处理成回归问题，用一个卷积神经网络结构将输入图像预测bounding box和类别概率，具体为：将一副图像分成S×S网格，如果某个object的中心落在这个网格中，则这个网格就负责预测这个object。每个网格要预测B个bounding box，每个bounding box除了要回归自身的位置之外，还要预测一个confidence值，该值代表了所预测的box中含有object的置信度和这个box预测的准确度，其值计算方法为：

其中如果有object落在一个grid cell中，第一项取1，否则取0。第二项为预测的bounding box和实际的ground truth之间的IOU值。每个bounding box要预测(x,y,w,h)和confidence共5个值，每个网格还要预测一个类别信息，记为C类。即S x S个网格，每个网格除了要预测B个bounding box外，还要预测C个categories。输出就是S x S x(5*B+C)的一个tensor。值得注意的：class信息是针对每个网格的，即一个网格只预测一组类别而不管里面有多少个bounding box，而confidence信息是针对每个bounding box的。

举例说明:在PASCAL VOC中，图像输入为448x448，取S＝7，B＝2，一共有20个类别(C＝20)。则输出就是7x7x30的一个tensor。

在测试网络时，每个网格预测的类信息和bounding box预测的confidence信息相乘，得到每个bounding box的class-specific confidence score为

上式中，等式左边第一项为每个网络预测的类别信息，第二、三项为每个boundingbox预测的confidence。该乘积即预测box属于某一类的概率，及其准确度的信息。得到每个box的class-specific confidence score后，设置阈值，过滤得分低的boxes，对保留的boxes进行NMS(非极大值抑制non-maximum suppression)处理，得到最终的检测结果。其网络损失函数为：

本实施例采用YOLO V2，针对于上述YOLO算法，YOLO V2引入anchor box，其主要改进点在于：在每个卷积层后加入了BN层(Batch Normalization)，加快了其收敛速度，并去除dropout；将预训练分为两步：第一步，先用224×224的输入来训练大概160个epoch，然后再把输入调整到448×448再训练10个epoch，然后再与训练好的模型进行fine-turning，检测的时候用448×448即可；多尺度训练，相同的网络可以预测不同分辨率的图像；采用新的基础网络Darknet-19分类网络。

本实施例采用YOLO V2进行躯体检测，其中，采用one-stage目标检测方法同样使得网络非常轻量级，引入锚框后(anchor box)，使模型更加稳定，且精度提高了5％，且加入池化(Batch Normalization)进行多尺度训练，使得网络可接受任意尺寸图片输入，从而网络即可预测不同分辨率的图像。

4、本实施例的步骤S5进行详细说明

本实施例的步骤S5中，显著性检测主要采用捷径连接的增强HED(Enhanced HED)结构，能够从图像中提取最具视觉特色的目标和区域。其中增强HED以标准的HED体系结构为基础，增加了侧输出。其中标准HED体系结构具体如下。

在HED架构中，引入了5个侧输出，每个侧输出直接连接到每个卷积块的最后一个卷积层。令T＝{(Xn，Zn)，n＝1，...，N}表示训练数据集，其中，是输入图像和/> 表示Xn的相应连续标签显著性图谱。结果，为了方便符号，我们省略了下标n，因为我们假设输入都是相互独立的。我们将所有标准网络层参数的集合表示为W.在不失一般性的前提下，进一步假设存在有M个侧输出。每个侧输出都与一个分类器相关联，其中对应的权值可以表示为w＝(w(1)，w(2),…,w(M))

因此，HED的侧目标函数可以由

其中α_m是第m个侧损失的权重，表示第m个侧输出的图像级类平衡交叉熵损失函数[26]。此外，还添加了一个加权融合层，以更好地捕捉每一侧输出的优点。融合层的融合损失可表示为：

L_final(W,w,f)＝L_fuse(W,w，f)+L_side(W,w) (10)

其中，f＝(f1，...，fM)是融合权重，Aside(m)是第m侧输出的激活，h(·)表示Sigmoid函数，σ(·，·)表示标签与融合预测之间的距离，即设置为图像级平衡的交叉熵损失。

具体的增强HED架构为，基于HED的体系结构，我们在VGGNet最后一个池化层(pool5)后添加了侧输出。此外，由于显著目标检测是一种比边缘检测更加困难的任务，在每个侧输出中使用不同卷积核通道和空间大小的其他卷积层，使用与HED中相同的双线性插值操作进行上采样。在此使用标准的交叉熵损失计算训练图像X＝{x_j，j＝1，...，|x|}中所有像素和显著性图谱Z＝{z_j，j＝1，...，|Z|}的损失函数为：

在此，增强HED的损失函数定义为：

其中表示第m个侧输出中位置j的激活值的概率，可以通过/>计算，其中/>是第M个侧输出的激活。则通过捷径连接的增强HED公式化为：

在第m个侧输出的新侧激活可以由下式给出：

其中则最终损失函数可写为：

本实施例的步骤S5中，根据显著性特征区域与预先设定的裁剪尺寸进行裁剪进一步包括：将图片输入至HED结构中，通过HED结构的网络输出N*N的特征矩阵；根据特征矩阵中的特征值，提取符合阈值要求的显著性特征区域；根据显著性特征区域，结合目标裁剪尺寸进行图片的裁剪。具体地，将图片输入到增强HED结构中，其网络输出N*N(其中N为图片大小，如256*256，或128*128)的(0，1)特征矩阵，在此设定某一阈值，如0.3，在该特征矩阵中，提取像素值大于等于0.3的区域，即为特征显著性区域，输出具有视觉特色的目标和区域，根据该确定的区域，结合目标裁剪尺寸就可以进行图像的裁剪，将图片中如房子、树木等显著性特征裁剪掉。

本实施例采用捷径连接的增强HED结构进行显著性检测，以保持图片内容不变为前提，通过显著性定位阶段，主要聚焦于寻找得定图像中最显著的区域，从较深的侧输出层到较浅的侧输出层的一系列捷径拦截，通过较深的侧信息，可以准确的预测显著的对象，又可以从较深的侧输出中重新获得结果，从而产生密集且准确的显著图，进一步保证了图片中关键特征信息的保留，从而使得整个裁剪过程中，能够完整保留图片中所需信息，不会有变形、信息丢失等情况，从而保证了整个模型的精度。

本发明还提供一种基于上述实施例的图片智能裁剪系统，参看图6，包括：图像裁剪模块；人脸检测模块，用于对待裁剪的图片进行人脸检测：若检测到人脸，则获取人脸信息；人脸验证模块，用于对人脸信息进行人脸有效性验证：若存在人脸有效信息，则调用图像裁剪模块根据人脸有效信息和预设的目标裁剪尺寸进行图片裁剪；躯体检测模块，用于对图片进行躯体检测：若检测到躯体，则获取躯体信息；躯体验证模块，用于对躯体信息进行躯体有效性验证：若存在躯体有效信息，则调用图像裁剪模块根据躯体有效信息和预设的目标裁剪尺寸进行图片裁剪；显著性检测模块：对图片进行显著性检测，获取显著性特征区域，并调用图像裁剪模块根据显著性特征区域与预先设定的裁剪尺寸进行裁剪。

现结合上述实施例的方法对该系统的工作过程进行说明：

图片在裁剪前进行预处理，以满足该系统图片输入要求；预处理之后，将图片输入到人脸检测模块中，也即经过MTCNN模型，检测是否有人脸，如果有人脸，得到y_m1(人脸信息)，否则得到y_m2(人脸识别后的图片数据)；将y_m2输入到躯体检测模块中，也即经过YOLO模型，检测是否有躯体，如果有得到y_o1(躯体信息)，否则得到y_o2(躯体识别后的图片数据)；将上述y_m1，y_o1分别输入到人脸验证模块、躯体验证模块中，根据上述实施例的验证方法判断其是否具有有效信息，如果有效，得到其输出为y_eff(人脸有效信息/躯体有效信息)，否则得到其输出为y_uneff(有效性验证后的图片数据)；将y_o2，y_uneff分别输入到显著性检测模块中，也即经过捷径连接的增强HED中，得到输出为y_sig(显著性特征区域)；将y_eff，y_sig输入到图片关键区域计算器中，根据上述实施例的方法确定所需尺寸，通过图片裁剪模块进行裁剪，可以此采用OpenCV，得到最终所需图片。

本发明还提出了一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如上述实施例所提及的图片智能裁剪方法。

本发明提出了一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中所提及的图片智能裁剪方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明一些示例性实施例，其描述较为具体和详细，但并不能因此而理解为对本发明专利保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种图片智能裁剪方法，其特征在于，包括以下步骤：

S2：对所述人脸信息进行人脸有效性验证：若存在人脸有效信息，则根据所述人脸有效信息和预设的目标裁剪尺寸进行图片裁剪；若所述人脸信息均无效，则执行步骤S3；其中，通过上述有效信息中的特征面积相对于其对应特征最大面积的相对占比，来确定裁剪所需的特征区域，再结合目标裁剪尺寸进行图片裁剪；

S4：对所述躯体信息进行躯体有效性验证：若存在躯体有效信息，则根据所述躯体有效信息和预设的目标裁剪尺寸进行图片裁剪；若所述躯体信息均无效，则执行步骤S5；其中，通过上述有效信息中的特征面积相对于其对应特征最大面积的相对占比，来确定裁剪所需的特征区域，再结合目标裁剪尺寸进行图片裁剪；

S5：对图片进行显著性检测，获取显著性特征区域，并根据所述显著性特征区域与预先设定的裁剪尺寸进行裁剪。

2.根据权利要求1所述的图片智能裁剪方法，其特征在于，所以步骤S1中，通过多任务级联卷积神经网络MTCNN对待裁剪的图片进行人脸检测，其中，所述MTCNN包括P-Net、R-Net、O-Net三个级联的网络，所述人脸检测进一步包括：

将图片调整到不同的比例，构建得到图像金字塔；

通过所述P-Net生成人脸候选窗及其边框回归向量，并且通过边框回归向量校正所述人脸候选窗，同时通过非极大值抑制合并重叠的所述人脸候选框；

通过所述R-Net剔除错误的所述人脸候选窗；

通过所述O-Net输出最终的人脸框和特征点位置，以获得所述人脸信息。

3.根据权利要求1所述的图片智能裁剪方法，其特征在于，所述步骤S2中，所述人脸信息包括人脸置信度、人脸面积、人脸位置、人脸数量，所述对所述人脸信息进行人脸有效性验证进一步包括：

通过所述人脸置信度、所述人脸面积相对图片的大小、所述人脸位置、人脸数量与相对应的预设阈值进行比较，筛选符合阈值要求的所述人脸信息，得到所述人脸有效信息。

4.根据权利要求3所述的图片智能裁剪方法，其特征在于，所述步骤S2中，所述根据所述人脸有效信息和预设的目标裁剪尺寸进行图片裁剪进一步包括：

根据所述人脸有效信息中所述人脸面积的大小，得到最大的所述人脸面积；

根据所述人脸面积相对于最大的所述人脸面积的占比，筛选出大于预设阈值的人脸信息，得到人脸特征信息；

根据所述人脸特征信息确定人脸特征区域，并根据所述人脸特征区域的中心及有效范围，结合所述目标裁剪尺寸进行图片的裁剪。

5.根据权利要求1所述的图片智能裁剪方法，其特征在于，所述步骤S3中，通过YOLO V2算法对图片进行躯体检测，所述躯体信息包括躯体置信度、躯体面积、躯体位置、躯体数量；

所述步骤S4中，所述对所述躯体信息进行躯体有效性验证进一步包括：

通过所述躯体置信度、所述躯体面积相对图片的大小、所述躯体位置、躯体数量与相对应的预设阈值进行比较，筛选符合阈值要求的所述躯体信息，得到所述躯体有效信息。

6.根据权利要求5所述的图片智能裁剪方法，其特征在于，所述步骤S4中，所述根据所述躯体有效信息和预设的目标裁剪尺寸进行图片裁剪进一步包括：

根据所述躯体有效信息中所述躯体面积的大小，得到最大的所述躯体面积；

根据所述躯体面积相对于最大的所述躯体面积的占比，筛选出大于预设阈值的躯体信息，得到躯体特征信息；

根据所述躯体特征信息确定躯体特征区域，并根据所述躯体特征区域的中心及有效范围，结合所述目标裁剪尺寸进行图片的裁剪。

7.根据权利要求1所述的图片智能裁剪方法，其特征在于，所述步骤S5进一步包括：

将图片输入至HED结构中，通过所述HED结构的网络输出N*N的特征矩阵；

根据所述特征矩阵中的特征值，提取符合阈值要求的所述显著性特征区域；

根据所述显著性特征区域，结合所述目标裁剪尺寸进行图片的裁剪。

8.一种图片智能裁剪系统，采用如权利要求1至7任意一项所述的图片智能裁剪方法实现，其特征在于，包括：

图像裁剪模块；

人脸验证模块，用于对所述人脸信息进行人脸有效性验证：若存在人脸有效信息，则调用所述图像裁剪模块根据所述人脸有效信息和预设的目标裁剪尺寸进行图片裁剪；

躯体验证模块，用于对所述躯体信息进行躯体有效性验证：若存在躯体有效信息，则调用所述图像裁剪模块根据所述躯体有效信息和预设的目标裁剪尺寸进行图片裁剪；

显著性检测模块：对图片进行显著性检测，获取显著性特征区域，并调用所述图像裁剪模块根据所述显著性特征区域与预先设定的裁剪尺寸进行裁剪。

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至7中任意一项所述的图片智能裁剪方法。

10.一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任意一项所述的图片智能裁剪方法。