CN114882560A

CN114882560A - 一种基于轻量级人像检测的图像智能裁剪方法

Info

Publication number: CN114882560A
Application number: CN202210503278.5A
Authority: CN
Inventors: 林志贤; 吴宇航; 林珊玲; 郭太良; 林坚普; 叶芸; 张永爱; 王利翔; 赵敬伟; 梅婷
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-08-09

Abstract

本发明涉及一种基于轻量级人像检测的图像智能裁剪方法,包括以下步骤：步骤S1:基于anchor‑free的一阶段检测思想构造轻量级人像检测网络；步骤S2:根据构建的轻量级人像检测网络对输入的图像进行人像检测，获取人像的位置信息；步骤S3:根据人像的位置信息，采用摄影学构图原理对图像的整体构图进行约束，同时明确人像边界信息，保留关键人物的完整信息，同时不铺设anchors，实现对人像图片的快速裁剪。本发明针对人像照片特点所设计的自动裁剪算法，考虑了人像图片与风景图之间的差异，把人像检测和摄影学原理相结合，因此能快速有效处理人像图片，保留关键人像的完整信息。

Description

一种基于轻量级人像检测的图像智能裁剪方法

技术领域

本发明涉及图像自动裁剪领域，具体涉及一种基于轻量级人像检测的图像智能裁剪方法。

背景技术

图像智能裁剪算法是指在给定视口尺寸或纵横比的情况下裁剪图像，使裁剪结果符合视口或纵横比，同时确保最相关或最有趣的部分位于视口内。它可以提高图像的视觉质量，在许多领域都有着广泛的应用。智能裁剪算法可以为图像编辑提供专业的建议，节省大量的图像后期处理时间；还可以帮助个人快速准确地识别出图像中重要的内容，在图像缩略图的生成工作中有着重要的应用，比起直接缩小整个图像以适应视口，智能裁剪可以为用户生成更理想的缩略图。

目前图像智能裁剪领域的算法大致可分为基于注意力的方法和基于美学的方法。基于注意力的方法通过显著性检测获取包含主要信息的区域，但不考虑美学因素，裁剪结果缺乏美感；基于美学的方法通过预设大量候选框，然后引入美学评分机制对每个候选框进行评分，输出评分最高的，裁剪结果具有一定美感但大量的候选框设置十分耗时。现有的这些裁剪方法在处理风景图时有着不错的效果，但在处理人像照片时，却有着将主要人物整个裁剪掉或将主要人物的部分身体部位裁减掉的问题。人像在日常摄影中占有很大的比例，是用户通过社交媒体记录日常生活的主体，若由于裁剪方法不当导致关键人物信息缺失，对最终裁剪效果的影响是非常大的，用户通常难以接受。为了解决现有自动裁剪方法存在的人像信息缺失且裁剪速度慢的问题，需要发明一种新方法针对人像图片进行裁剪，确保裁剪结果既要美观，又要保留关键信息，且裁剪速度快。

发明内容

有鉴于此，本发明的目的在于提供一种基于轻量级人像检测的图像智能裁剪方法，针对人像照片特点所设计的自动裁剪算法，考虑了人像图片与风景图之间的差异，把人像检测和摄影学原理相结合，因此能快速有效处理人像图片，保留关键人像的完整信息。

为实现上述目的，本发明采用如下技术方案：

一种基于轻量级人像检测的图像智能裁剪方法,包括以下步骤：

步骤S1:基于anchor-free的一阶段检测思想构造轻量级人像检测网络；

步骤S2:根据构建的轻量级人像检测网络对输入的图像进行人像检测，获取人像的位置信息；

步骤S3:根据人像的位置信息，采用摄影学构图原理对图像的整体构图进行约束，同时明确人像边界信息，保留关键人物的完整信息，同时不铺设anchors，实现对人像图片的快速裁剪。

进一步的，所述轻量级人像检测网络包括backbone、upsample、neck、head四个部分。

进一步的，所述backbone的特征提取部分采用轻量级网络mobilenetv2，将backbone部分的base_out2, base_out5, base_out9, base_out17层分别和上采样部分的P1,P2,P3,P4层进行同尺度的特征融合，加强特征提取；此时的网络结构是MISO结构，直接用P4的输出进行预测。

进一步的，所述upsample部分采用分组卷积。

进一步的，所述neck部分引入膨胀卷积残差模块，通过堆叠多个不同膨胀率的卷积块，生成带有多种感受野的输出特征，以扩大base_out17的感受野。

进一步的，所述head部分基于anchor-free算法的思想，直接预测物体的中心点及其宽高，保留类别预测、宽高预测、中心点预测三个预测量，在此基础上，引入了IOU损失，将位置信息作为一个整体进行训练。

进一步的，所述步骤S2具体为：

步骤S21:对bounding box、score信息进行预处理，加入偏置量offset;

步骤S22:预处理完bounding box后，轻量级人像检测网络对图像中的主要人物进行识别。

进一步的，所述步骤S3具体为：

步骤S31:利用检测到的主要人物信息和改进的摄影学构图规则对裁剪过程进行约束；

步骤S32:分析原始图片中人像的具体位置信息，根据不同的情况选用合适的摄影学构图原理进行裁剪。

进一步的，所述计算机图像设计构图的基本形式有黄金分割、三分法则、三角形、对角线、运动空白、中心法则、均衡稳定法则。

进一步的，所述步骤S32具体为：结合摄影学构图原理对整理图像的构图进行约束，对于单个人像的裁剪具体方法为：设置vertical和horizontal两个量表示人像位置信息，分析主要人物及原始图像中人像中心点center的位置，然后确定vertical和horizontal的值。之后根据人像位置信息选取合适的摄影学构图规则，同时结合人像边界信息，对图像进行裁剪，确保人像信息的完整性和裁剪结果的美观性。

本发明与现有技术相比具有以下有益效果：

1、本发明针对人像照片特点所设计的自动裁剪算法，考虑了人像图片与风景图之间的差异，把人像检测和摄影学原理相结合，因此能快速有效处理人像图片，保留关键人像的完整信息。

2、本发明不涉及任何候选框的预设，无论是在人像检测部分还是自动裁剪部分，均省去了繁杂的候选框铺设工作以及一些费时的后处理操作，因此整个模型的参数量和推理时间非常短，对移动端设备非常友好，并且能快速反馈给用户裁剪结果。

附图说明

图1是本发明方法流程图；

图2是本发明一实施例第一阶段所设计的人像检测网络；

图3为单个人像的裁剪效果对比图；

图4、图5为多个人像的裁剪效果对比图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于轻量级人像检测的图像智能裁剪方法,包括以下步骤：

在本实施例中，采用如图2所示的轻量级人像检测网络，基于anchor-free的一阶段检测算法思想构建，网络可分为四个部分：backbone、upsample、neck、head，具体网络结构设计如下：

1.backbone特征提取部分：特征提取部分采用轻量级网络mobilenetv2，模型参数很少，推理速度十分快，很适合在移动端等场景使用。但对于检测任务来说，特征提取部分的轻量化必然会带来检测精度的下降。不同于Resnet等其他大型特征提取网络，主干网络采用MobileNetV2轻量级类网络主要会影响模型的深度和感受野，而模型的感受野对于检测性能是异常重要的，如何在保证网络轻量化的前提下提高模型的感受野是本实施例要重点解决的问题。

因此本实施例中，将backbone部分的base_out2, base_out5, base_out9, base_out17层分别和上采样部分的P1,P2,P3,P4层进行同尺度的特征融合，加强特征提取。此时的网络结构是MISO结构（多输入单输出），并没有用分治策略，而是直接用P4的输出进行预测，以避免分治结构的复杂性所带来的内存负担。

2.上采样部分采用分组卷积，相较于普通的卷积，进一步减少了网络参数，使模型更加轻量化。

3.neck部分，仅靠上采样时同尺度的特征融合不足以弥补backbone轻量化所带来的精度问题，特征提取时还需要更大的感受野。因此本发明在neck部分引入膨胀卷积残差模块，通过堆叠多个不同膨胀率的卷积块，生成带有多种感受野的输出特征，以扩大base_out17的感受野，加强了特征提取。neck部分首先采用1*1卷积对通道进行降维、减少运算量，然后采用3*3卷积细化语义上下文信息，再通过1*1卷积操作对输出通道数进行调整。本文堆叠了5个不同膨胀率的膨胀残差卷积块，膨胀率分别为2，4，6，8，10，有多种感受野的输出特征，覆盖所有的目标尺度。通过实验证明，该模块显著提升了模型的精度。

4.head部分，本实施例中基于anchor-free算法的思想，直接预测物体的中心点及其宽高，以提升检测速度，因此保留了类别预测、宽高预测、中心点预测三个预测量，在此基础上，本发明引入了IOU损失，将位置信息作为一个整体进行训练，能更准确地得到训练效果。此外，输入任意样本，IOU的值都介于0-1之间，这种自然的归一化损失使模型就有更强的多尺度图像处理能力。因此，引入的这部分损失可优化模型的预测能力。

在本实施例中，经过第一阶段的人像检测工作后，获取到完整的人像信息输入下一阶段的自动裁剪工作，具体的；

对bounding box、score等信息进行预处理，加入偏置量offset，避免裁剪出来的人像紧贴边缘，整体构图太过紧凑、造成视觉上的压迫感。

预处理完bounding box后，模型会对图像中的主要人物进行识别，由于检测到的人像不一定都是用户所关注的主要人物（如在拍摄时不可避免的路人），因此算法先确定主要人物，然后基于主要人物对图像进行裁剪，可以突出用户视觉注意点，增强构图效果。

接下来利用检测到的主要人物信息和改进的摄影学构图规则对裁剪过程进行约束。计算机图像设计构图的基本形式有黄金分割、三分法则、三角形、对角线、运动空白、中心法则、均衡稳定等法则。

本实施例，分析原始图片中人像的具体位置信息，根据不同的情况选用合适的摄影学构图原理进行裁剪。首先根据主要人物的bounding box和score等信息，找到主要人物的中心点center，然后分析center在图像中的位置，选取合适的摄影学构图规则。裁剪结果的纵横比对于整体构图也很重要，因此最后再结合整体构图情况，对图片的纵横比进行自动调整，避免裁剪结果过宽或过窄，以获取视觉上的平衡感。总而言之，该算法在确保人像信息完整性的同时，能获得具有高质量构图的裁剪结果。

本实施例中，进行的实验结果如图3、图4、图5所示。可以看出，图3明显是一个团体，裁剪结果应保留整个团体的人像信息。经过本发明的裁剪方法处理后，图像整体构图得到了明显的改善，剔除掉了不必要的背景信息、保留了关键人物的完整信息，使人像主题得到视觉上的凸显；同时整体图像符合摄影学构图原理中的中心法则，纵横比也得到了改善，相较于裁剪前，图像质量得到了提升。图4和图5是一些单个人像的裁剪结果，由于原始图像的构图区别，分别采用了不同的摄影学原理进行裁剪，裁剪结果在构图上均得到了很大的改善，同时也保留了完整的人像信息。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于轻量级人像检测的图像智能裁剪方法,其特征在于，包括以下步骤：

2.根据权利要求1所述的基于轻量级人像检测的图像智能裁剪方法,其特征在于，所述轻量级人像检测网络包括backbone、upsample、neck、head四个部分。

3.根据权利要求2所述的基于轻量级人像检测的图像智能裁剪方法,其特征在于，所述backbone的特征提取部分采用轻量级网络mobilenetv2，将backbone部分的base_out2,base_out5, base_out9, base_out17层分别和上采样部分的P1,P2,P3,P4层进行同尺度的特征融合，加强特征提取；此时的网络结构是MISO结构，直接用P4的输出进行预测。

4.根据权利要求2所述的基于轻量级人像检测的图像智能裁剪方法,其特征在于，所述上采样部分采用分组卷积。

5.根据权利要求2所述的基于轻量级人像检测的图像智能裁剪方法,其特征在于，所述neck部分引入膨胀卷积残差模块，通过堆叠多个不同膨胀率的卷积块，生成带有多种感受野的输出特征，以扩大base_out17的感受野。

6.根据权利要求2所述的基于轻量级人像检测的图像智能裁剪方法,其特征在于，所述head部分基于anchor-free算法的思想，直接预测物体的中心点及其宽高，保留类别预测、宽高预测、中心点预测三个预测量，在此基础上，引入了IOU损失，将位置信息作为一个整体进行训练。

7.根据权利要求1所述的基于轻量级人像检测的图像智能裁剪方法,其特征在于，所述步骤S2具体为：

步骤S21:对bounding box、score信息进行预处理，加入偏置量offset;

8.根据权利要求1所述的基于轻量级人像检测的图像智能裁剪方法,其特征在于，所述步骤S3具体为：

9.根据权利要求8所述的基于轻量级人像检测的图像智能裁剪方法,其特征在于，所述计算机图像设计构图的基本形式有黄金分割、三分法则、三角形、对角线、运动空白、中心法则、均衡稳定法则。

10.根据权利要求8所述的基于轻量级人像检测的图像智能裁剪方法,其特征在于，所述步骤S32具体为：结合摄影学构图原理对整理图像的构图进行约束，对于单个人像的裁剪具体方法为：设置vertical和horizontal两个量表示人像位置信息，分析主要人物及原始图像中人像中心点center的位置，然后确定vertical和horizontal的值；之后根据人像位置信息选取合适的摄影学构图规则，同时结合人像边界信息，对图像进行裁剪，确保人像信息的完整性和裁剪结果的美观性。