CN116071556B

CN116071556B - 一种基于目标框的大尺寸图像自适应裁剪方法和装置

Info

Publication number: CN116071556B
Application number: CN202310311383.3A
Authority: CN
Inventors: 黄智华; 李超; 刁博宇; 王京; 胡泽辰; 宫禄齐; 郑新千
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-03-28
Filing date: 2023-03-28
Publication date: 2023-07-07
Anticipated expiration: 2043-03-28
Also published as: CN116071556A

Abstract

本发明公开了一种基于目标框的大尺寸图像自适应裁剪方法和装置，基于包含目标框的训练样本图像和未标注的测试样本图像，从训练样本中分层采样部分数据作为验证样本，使用循环聚类算法提取训练样本图像的目标框特征集合，使用验证样本对目标框特征集合筛选并验证，得到最优的自适应的目标框特征集合，以此作为滑窗平铺裁剪的重叠像素基准，将大图裁剪成多个子图。该方法提出了多尺度融合的特征提取改进算法、新的特征筛选算法及裁剪评价函数，优化了滑窗平铺裁剪算法，一定程度上解决了大尺寸图像裁剪预处理过程中的关键信息丢失，裁剪子图数量多、信息冗余，耗时长的问题。

Description

一种基于目标框的大尺寸图像自适应裁剪方法和装置

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于目标框的大尺寸图像自适应裁剪方法和装置。

背景技术

在遥感图像检测领域，用于网络训练和测试的样本图像是由不同分辨率的仪器采集，图像具有多尺度、大尺寸的特征，例如卫星图像和航空遥感图像。若直接缩放进入目标检测网络，不仅极易导致中小像素尺寸的关键目标的信息丢失，还耗时巨大。因此，首先需要将原始大图裁剪成较小尺寸的子图，再将子图放入网络进行训练或推理。

目前的大尺寸图像裁剪方法主要分为三类：方法一是基于目标框位置，人工手动裁剪；方法二是直接固定子图尺寸，顺着图像的宽高方向，将原始大图切割成一个个子图；方法三基于方法二，但相邻子图间有像素重叠，且重叠区域较大。对于第一类方法，手动裁剪需要一定的技术门槛，且耗费时间。对于第二类方法，在滑窗切图的过程中，暴力裁剪导致关键目标的像素被分割独立成四块，目标像素的连续性和完整性被破坏，子图中都没有完整的目标信息，导致关键信息的丢失。对于第三类方法，虽然解决了对关键目标像素信息的丢失问题，但因重叠区域较大，导致原始大图被切割成的子图数量增加很多，子图信息冗余，增加了裁剪的耗时及后续网络推理的耗时。

发明内容

本发明的目的在于针对现有技术的不足，提供了一种基于目标框的大尺寸图像自适应裁剪方法和装置。

本发明的目的是通过以下技术方案来实现的：一种基于目标框的大尺寸图像自适应裁剪方法，包括以下步骤：

(1)获取大尺寸图像集合P，对所述大尺寸图像集合P进行标注，得到矩形框的宽高信息集合(W,H)；基于B类关键目标，将大尺寸图像集合P分为B类，每类抽取5％～50％的图像作为大尺寸图像集合P’；

(2)基于B类关键目标，将矩形框的宽高信息集合(W,H)分为B个宽高信息集合；对每个宽高信息集合进行过滤，得到B个单类的宽高矩阵；将B个单类的宽高矩阵进行整合，得到所有类的宽高矩阵；随后对B个单类的宽高矩阵以及所有类的宽高矩阵进行循环聚类操作，得到B个单类的宽高基准集合和所有类的宽高基准集合；并对B个单类的宽高基准集合和所有类的宽高基准集合进行整合，得到宽高基准集合A；

(3)根据宽高基准集合A，计算得到宽高基准集合A_best；

(4)输入待裁剪图像，若待裁剪图像包含关键目标的宽高信息，获取待裁剪图像的关键目标的平均宽高信息，将平均宽高信息与宽高基准集合A_best进行匹配，得到与平均宽高信息的欧式距离最小的宽高基准作为待裁剪图像固定的宽高基准，对待裁剪图像进行裁剪处理，得到相同尺寸的多个子图集合；

若待裁剪图像不包含宽高信息，从宽高基准集合A_best中随机选取宽基准和高基准对待裁剪图像进行裁剪处理，得到相同尺寸的多个子图集合。

进一步地，所述步骤(1)具体包括以下子步骤：

(1.1)从大尺寸图像数据库中选取包括B类关键目标的M幅不同尺度的大尺寸图像集合P＝{P_m|1≤m≤M}，对大尺寸图像集合P中的每幅图像中的关键目标进行标注，得到N个被标注的矩形框，得到矩形框的宽高信息集合(W，H)＝{(W_n，H_n)|1≤n≤N}；其中，P_m为第m幅大尺寸图像，W_n为第n个被标注的矩形框的宽，H_n为第n个被标注的矩形框的高；

(1.2)基于B类关键目标，将大尺寸图像集合P分为B类，每类抽取5％-50％的图像作为大尺寸图像集合P’。

进一步地，所述步骤(2)具体包括以下子步骤：

(2.1)基于B类关键目标，将矩形框的宽高信息集合(W，H)分为B个宽高信息集合；对每个宽高信息集合进行过滤，过滤宽或高小于最小像素过滤值的宽高信息，得到B个单类的宽高矩阵；

将B个单类的宽高矩阵进行整合，得到所有类的宽高矩阵；

所述最小像素过滤值为1～15像素；

(2.2)对B个单类的宽高矩阵分别进行循环聚类操作，得到B个单类的宽高基准集合；

(2.3)对所有类的宽高矩阵进行循环聚类操作，得到所有类的宽高基准集合；

(2.4)将B个单类的宽高基准集合和所有类的宽高基准集合进行整合，得到宽高基准集合A。

进一步地，所述循环聚类操作具体包括以下子步骤：

(a1)对宽高矩阵进行标准化，得到宽高矩阵标准化数据和宽高矩阵标准化系数；

(a2)将宽高矩阵标准化数据循环进行K-means聚类，K-means聚类过程中聚类质心数k由1依次递增，每次增加1；所述宽高矩阵标准化数据为X₁、X₂...X_g...X_G，其中，X_g表示第g个宽高标准化数据，宽高矩阵标准化数据中总共G个宽高标准化数据；

(a3)在第k轮K-means聚类中，将宽高矩阵标准化数据分别聚类到k个聚类簇

计算第k轮中每一个聚类簇/>

的聚类质心为/>

计算公式如下：

其中，

表示第k轮中第e个聚类簇/>

的聚类质心，e＝1，…e，…，k；/>

表示第k轮中第e个聚类簇/>

的宽高矩阵标准化数据的数量；/>

表示第k轮中第e个聚类簇/>

中第f个宽高标准化数据；

随后计算任意一个宽高标准化数据X_g与每一个聚类质心的绝对差，并降序排序，得到最小值，并将该宽高标准化数据X_g分到最小值对应的聚类簇中；将所有宽高标准化数据重复该步骤，更新每一个聚类簇

得到新的k个聚类簇/>

计算第k轮的失真值D_k，计算公式如下：

其中，

表示第k轮中更新后的第e个聚类簇/>

的聚类质心；/>

表示第k轮中更新后的第e个聚类簇/>

的宽高矩阵标准化数据的数量；/>

表示第k轮中更新后的第e个聚类簇/>

中第h个宽高标准化数据；

(a4)判断(D_k-D_k-1)/D_k-1是否小于失真减小阈值ε，其中，D_k-1为第k-1轮的失真值；

若小于，则退出循环聚类操作；

若大于，则继续步骤(a3)进行第k+1轮K-means聚类；

(a5)退出循环聚类操作后，将本轮求得的更新后的k个聚类质心作为聚类质心矩阵乘上步骤(a1)求得的宽高矩阵标准化系数，输出宽高基准集合。

进一步地，所述步骤(3)具体包括以下子步骤：

(3.1)计算得到宽高基准集合A的宽高基准的数量为R，并将宽高基准集合A存入列表A_list中；

(3.2)根据宽高基准集合A进行第p轮循环裁剪处理，将宽高基准集合A聚类，聚类点簇的个数为R-p，求得每一聚类点簇的聚类质心并作为宽高基准集合A_p存入列表A_list中；

(3.3)对大尺寸图像集合P’中任意一张大尺寸图像P_o′进行实际自适应的重叠裁剪，得到

张大小为win1*win2的子图；

(3.4)对大尺寸图像集合P’中任意一张大尺寸图像P_o′进行重叠为0的裁剪，得到

张大小为win1*win2的子图；

(3.5)计算在第p轮循环裁剪处理中，裁剪大尺寸图像P_o′的裁剪评价函数

计算公式如下：

所述

的计算公式为/>

所述

的计算公式为/>

其中，n_o表示大尺寸图像P_o′的包含的矩形框数；

表示大尺寸图像Po_′的第u个矩形框的面积；/>

表示/>

张子图与大尺寸图像P_o′的第u个矩形框的并集部分的面积集合的集合；/>

表示/>

张子图与大尺寸图像P_o′的第u个矩形框的并集部分的面积集合的集合；

所述

的计算公式为/>

(3.6)大尺寸图像集合P’共包含O张大尺寸图像，对每张大尺寸图像重复步骤(3.3)-步骤(3.5)，得到每张大尺寸图像在第p轮循环裁剪处理中的裁剪评价函数，随后计算得到第p轮循环裁剪处理的评价裁剪评价函数J^p：

将评价裁剪评价函数J^p作为宽高基准集合A_p的评价裁剪评价函数，并存入列表J_list中；

(3.7)重复步骤(3.2)-步骤(3.6)，直到第R-1轮循环裁剪处理，得到更新完成的列表J_list；从更新完成的列表J_list中取出最大的裁剪评价函数，并从列表A_list中取出最大的裁剪评价函数相对应的宽高基准集合作为宽高基准集合A_best。

进一步地，所述步骤(3.3)具体包括以下子步骤：

(3.3.1)大尺寸图像P_o′的尺寸为W_o*H_o，子图大小为win1*win2，滑窗横向步长为win1-W_h，滑窗纵向步长为win2-H_h，其中，W_h为轮循环裁剪处理过程中从宽高基准集合A_p随机选取的宽，每次都重新选取；H_h为轮循环裁剪处理过程中从宽高基准集合A_p随机选取的高，每次都重新选取；从大尺寸图像P_o′的左上角开始裁剪，然后设定滑窗顺序从左至右的横向，然后再从上到下的纵向；

(3.3.2)在大尺寸图像P_o′的左上角取大小为win1*win2的窗口并裁剪，得到第一张子图，所述第一张子图的像素矩阵为[0：win1，0：win2]，然后按照横向步长为win1-W_h向右滑动并裁剪，重复上述步骤，直至第一行的最后一张子图的窗口超出待裁剪图像范围，则第一行的最后一张子图的窗口的像素矩阵设为[W_o-win1：W_o，0：win2]并裁剪；

(3.3.3)第一行裁剪完成后，按照滑窗纵向步长为win2-H_h向下滑动并裁剪，得到第二行的第一张子图的像素矩阵为[0：win1，win2-H_h：2*win2-H_h]，重复步骤(3.3.2)裁剪第二行；

(3.3.4)重复步骤(3.3.3)，直达最后一行的第一张子图的窗口超出待裁剪图像范围，则最后一行的第一张子图的窗口的像素矩阵设为[0：win1，H_o-win2：H_o]并裁剪，得到最后一行的第一张子图，重复步骤(3.3.2)，直到最后一行的最后一张子图的窗口超出待裁剪图像范围，则最后一行的第一张子图的窗口的像素矩阵设为[W_o-win1：W_o，H_o-win2：H_o]并裁剪，得到最后一行的第一张子图；完成对待裁剪图像的裁剪，得到

张大小为win1*win2的子图，其中，/>

表示在第p轮循环裁剪处理中大尺寸图像P_o′进行实际自适应的重叠裁剪后得到的子图数。

进一步地，所述步骤(4)中所述若待裁剪图像包含关键目标的宽高信息，获取待裁剪图像的关键目标的平均宽高信息，将平均宽高信息与宽高基准集合A_best进行匹配，得到与平均宽高信息的欧式距离最小的宽高基准作为待裁剪图像固定的宽高基准，对待裁剪图像进行裁剪处理，得到相同尺寸的多个子图集合，具体包括以下子步骤：

(c1)输入待裁剪图像，若待裁剪图像包含关键目标的宽高信息，得到待裁剪图像的平均宽高信息(W_e，H_e)；将平均宽高信息(W_e，H_e)与宽高基准集合A_best进行匹配，得到与平均宽高信息(W_e，H_e)的欧式距离最小的宽高基准(W_b，H_b)，将宽高基准(W_b，H_b)作为待裁剪图像固定的宽高基准；

(c2)待裁剪图像的尺寸为W_A*H_A，子图大小为win3*win4；滑窗横向步长为win3-W_b，固定不变；滑窗纵向步长为win4-H_b，固定不变；从待裁剪图像的左上角开始裁剪，然后设定滑窗顺序从左至右的横向，然后再从上到下的纵向；

(c3)在待裁剪图像的左上角取尺寸大小为win3*win4的窗口并裁剪，得到第一行的第一张子图，所述第一行的第一张子图的像素矩阵为[0：win3，0：win4]，然后按照滑窗横向步长为win3-W_b向右滑动并裁剪，得到第一行的第二张子图的像素矩阵为[win3-W_b：2*win3-W_b，0：win4]，重复上述步骤，直至第一行的最后一张子图的窗口超出待裁剪图像范围，则第一行的最后一张子图的窗口的像素矩阵设为[W_A-win3：W_A，0：win4]并裁剪，得到第一行的最后一张子图，所述第一行的最后一张子图的像素矩阵设为[W_A-win3：W_A，0：win4]；

(c4)第一行裁剪完成后，按照滑窗纵向步长为win4-H_b向下滑动并裁剪，得到第二行的第一张子图的像素矩阵为[0：win3，win4-H_b：2*win4-H_b]，重复步骤(c3)裁剪第二行；

(c5)重复步骤(c4)，直达最后一行的第一张子图的窗口超出待裁剪图像范围，则最后一行的第一张子图的窗口的像素矩阵设为[0：win3，H_A-win4：HA]并裁剪，得到最后一行的第一张子图，所述最后一行的第一张子图的像素矩阵设为[0：win3，H_A-win4：HA]，重复步骤(c3)，直到最后一行的最后一张子图的窗口超出待裁剪图像范围，则最后一行的最后一张子图的窗口的像素矩阵设为[WA-win3：W_A，H_A-win4：H_A]并裁剪，得到最后一行的最后一张子图，所述最后一行的最后一张子图的像素矩阵设为[W_A-win3：W_A，H_A-win4：H_A]；完成对待裁剪图像的裁剪，得到多张大小为win3*win4的子图。

进一步地，所述步骤(4)中所述若待裁剪图像不包含宽高信息，从宽高基准集合A_best中随机选取宽基准和高基准对待裁剪图像进行裁剪处理，得到相同尺寸的多个子图集合，具体包括以下子步骤：

(d1)若待裁剪图像不包含宽高信息，从宽高基准集合A_best中随机选取宽基准W_c和高基准H_d对待裁剪图像进行裁剪处理；

(d2)待裁剪图像的尺寸为W_A*H_A，子图大小为win3*win4；滑窗横向步长为win3-W_c，每次都重新选择；滑窗纵向步长为win4-H_d，每次都重新选择；从待裁剪图像的左上角开始裁剪，然后设定滑窗顺序从左至右的横向，然后再从上到下的纵向；

(d3)在待裁剪图像的左上角取大小为win3*win4的窗口并裁剪，得到第一行的第一张子图，所述第一行的第一张子图的像素矩阵为[0：win3，0：win4]，然后按照滑窗横向步长为win3-Wc向右滑动并裁剪，重复上述步骤，直至第一行的最后一张子图的窗口超出待裁剪图像范围，则第一行的最后一张子图的窗口的像素矩阵设为[W_A-win3：W_A，0：win4]并裁剪，得到第一行的最后一张子图，所述第一行的最后一张子图的像素矩阵设为[W_A-win3：W_A，0：win4]；

(d4)第一行裁剪完成后，按照滑窗纵向步长为win4-H_d向下滑动并裁剪，得到第二行的第一张子图的像素矩阵为[0：win3，win4-H_d：2*win4-H_d]，重复步骤(d3)裁剪第二行；

(d5)重复步骤(d4)，直达最后一行的第一张子图的窗口超出待裁剪图像范围，则最后一行的第一张子图的窗口的像素矩阵设为[0：win3，H_A-win4：H_A]并裁剪，得到最后一行的第一张子图，所述最后一行的第一张子图的像素矩阵设为[0：win3，H_A-win4：H_A]，重复步骤(d3)，直到最后一行的最后一张子图的窗口超出待裁剪图像范围，则最后一行的最后一张子图的窗口的像素矩阵设为[W_A-win3：W_A，H_A-win4：HA_]并裁剪，得到最后一行的最后一张子图，所述最后一行的最后一张子图的像素矩阵设为[WA-win3：W_A，H_A-win4：H_A]；完成对待裁剪图像的裁剪，得到多张大小为win3*win4的子图。

本发明还提供了一种基于目标框的大尺寸图像自适应裁剪装置，包括一个或多个处理器，用于实现上述基于目标框的大尺寸图像自适应裁剪方法。

本发明还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述基于目标框的大尺寸图像自适应裁剪方法。

本发明的有益效果是：在遥感图像检测领域，提供一种基于目标框的大尺寸图像自适应裁剪方法，兼顾裁剪区域的信息连续性和关键目标信息的完整性，较有效地减少了裁剪子图的数量及耗时，并为后续该类仪器采集的数据集提供一种通用的裁剪方法。

附图说明

图1为一种基于目标框的大尺寸图像自适应裁剪方法的流程图；

图2为循环聚类操作的流程图；

图3为得到宽高基准集合A_best的流程图；

图4为待裁剪图像的裁剪过程图；

图5为一种基于目标框的大尺寸图像自适应裁剪装置的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加明白清楚，结合附图和实施例，对本发明进一步的详细说明，应当理解，此处所描述的具体实施例仅仅用以解释本发明，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，均在本发明保护范围。

实施例1：

本实施例中所有图片的大小单位为像素；以公开星载数据集DOTA作为大尺寸图像数据库。

如图1所示，本发明提供了一种基于目标框的大尺寸图像自适应裁剪方法，包括以下步骤：

(1)获取大尺寸图像集合P，对所述大尺寸图像集合P进行标注，得到矩形框的宽高信息集合(W，H)；基于B类关键目标，将大尺寸图像集合P分为B类，每类抽取5％-50％的图像作为大尺寸图像集合P’。大尺寸图像集合P’作为输入，为后续计算裁剪评价函数，最终输出最优宽高基准集合提供验证。

所述步骤(1)具体包括以下子步骤：

(2)基于B类关键目标，将矩形框的宽高信息集合(W，H)分为B个宽高信息集合；对每个宽高信息集合进行过滤，得到B个单类的宽高矩阵；将B个单类的宽高矩阵进行整合，得到所有类的宽高矩阵；随后对B个单类的宽高矩阵以及所有类的宽高矩阵进行循环聚类操作，得到B个单类的宽高基准集合和所有类的宽高基准集合；并对B个单类的宽高基准集合和所有类的宽高基准集合进行整合，得到宽高基准集合A。此步骤的目的是提取基于此传感器采集的B类关键目标的真实框的形状及大小特征，通过循环聚类操作，或者每类关键目标及总类(一张大图中包含一类或多类关键目标)目标的真实框的大小基准。

所述步骤(2)具体包括以下子步骤：

将B个单类的宽高矩阵进行整合，得到所有类的宽高矩阵；

所述最小像素过滤值为1～15像素。

(2.2)对B个单类的宽高矩阵分别进行循环聚类操作，得到B个单类的宽高基准集合。

如图2所示，所述循环聚类操作具体为：

计算第k轮中每一个聚类簇/>

的聚类质心为/>

计算公式如下：

其中，

表示第k轮中第e个聚类簇/>

的聚类质心，e＝1，...e，...，k；/>

表示第k轮中第e个聚类簇/>

的宽高矩阵标准化数据的数量；/>

表示第k轮中第e个聚类簇/>

中第f个宽高标准化数据；

得到新的k个聚类簇/>

计算第k轮的失真值D_k，计算公式如下：

其中，

表示第k轮中更新后的第e个聚类簇/>

的聚类质心；/>

表示第k轮中更新后的第e个聚类簇/>

的宽高矩阵标准化数据的数量；/>

表示第k轮中更新后的第e个聚类簇/>

中第h个宽高标准化数据；

若小于，则退出循环聚类操作；

若大于，则继续步骤(a3)进行第k+1轮K-means聚类；

(2.3)对所有类的宽高矩阵进行循环聚类操作，得到所有类的宽高基准集合。

(3)根据宽高基准集合A，计算得到宽高基准集合A_best，如图3所示。此步骤的目的是验证此基准集合在此类数据集(B类目标)自适应裁剪的有益程度，通过裁剪评价函数，兼顾裁剪速度和关键信息的保留程度，获取最优的宽高基准集合。后续该数据集有大量图片补充或者直接大图裁子图时(在此实施例中，DOTA应用于遥感图像的目标检测，模型推理需要将无宽高信息的大图裁剪成子图)，可直接基于A_best进行裁剪操作。

所述步骤(3)具体包括以下子步骤：

(3.1)计算得到宽高基准集合A的宽高基准的数量为R，并将宽高基准集合A存入列表A_list中。

(3.2)根据宽高基准集合A进行第p轮循环裁剪处理，将宽高基准集合A聚类，聚类点簇的个数为R-p，求得每一聚类点簇的聚类质心并作为宽高基准集合A_p存入列表A_list中。

张大小为win1*win2的子图。

所述步骤(3.3)具体包括以下子步骤：

张大小为win1*win2的子图，其中，/>

张大小为win1*win2的子图；

所述重叠为0的裁剪：滑窗横向步长为win1，滑窗纵向步长为win2；从大尺寸图像P_o′的左上角开始裁剪，然后设定滑窗顺序从左至右的横向，然后再从上到下的纵向；得到的T′_o ^p张大小为win1*win2的子图没有重叠。

计算公式如下：

所述

的计算公式为/>

所述

的计算公式为/>

其中，n_o表示大尺寸图像P_o′的包含的矩形框数；

表示大尺寸图像P_o′的第u个矩形框的面积；/>

表示/>

表示/>

所述

的计算公式为/>

将评价裁剪评价函数J^p作为宽高基准集合A_p的评价裁剪评价函数，并存入列表J_list中。

(3.7)重复步骤(3.2)-步骤(3.6)，直到第R-1轮循环裁剪处理，得到更新完成的列表J_list；从更新完成的列表J_list中取出最大的裁剪评价函数，并从列表A_list中取出最大的裁剪评价函数相对应的宽高基准集合作为宽高基准集合A_best。此步骤目的是借鉴遗传算法，对最优宽高基准集合进行微调，利用裁剪评价函数，获取最有效的宽高基准。

(4)输入待裁剪图像，若待裁剪图像包含关键目标的宽高信息，获取待裁剪图像的关键目标的平均宽高信息，将平均宽高信息与宽高基准集合A_best进行匹配，得到与平均宽高信息的欧式距离最小的宽高基准作为待裁剪图像固定的宽高基准，对待裁剪图像进行裁剪处理，得到相同尺寸的多个子图集合；如图4所示。

具体为：(c1)输入待裁剪图像，若待裁剪图像包含关键目标的宽高信息，得到待裁剪图像的平均宽高信息(W_e，H_e)；将平均宽高信息(W_e，H_e)与宽高基准集合A_best进行匹配，得到与平均宽高信息(W_e，H_e)的欧式距离最小的宽高基准(W_b，H_b)，将宽高基准(W_b，H_b)作为待裁剪图像固定的宽高基准，因为图像包含关键目标框的宽高信息，此步骤可在获取最少子图的同时，保留更多的目标信息；

所述两个宽高信息的欧式距离的计算公式如下：

(c5)重复步骤(c4)，直达最后一行的第一张子图的窗口超出待裁剪图像范围，则最后一行的第一张子图的窗口的像素矩阵设为[0：win3，H_A-wi4：H_A]并裁剪，得到最后一行的第一张子图，所述最后一行的第一张子图的像素矩阵设为[0：wi3，H_A-wi4：H_A]，重复步骤(c3)，直到最后一行的最后一张子图的窗口超出待裁剪图像范围，则最后一行的最后一张子图的窗口的像素矩阵设为[W_A-win3：W_A，H_A-win4：H_A]并裁剪，得到最后一行的最后一张子图，所述最后一行的最后一张子图的像素矩阵设为[W_A-win3：W_A，H_A-win4：H_A]；完成对待裁剪图像的裁剪，得到多张大小为win3*win4的子图。

具体为：(d1)若待裁剪图像不包含宽高信息，从宽高基准集合A_best中随机选取宽基准W_c和高基准H_d对待裁剪图像进行裁剪处理；

(d3)在待裁剪图像的左上角取大小为win3*win4的窗口并裁剪，得到第一行的第一张子图，所述第一行的第一张子图的像素矩阵为[0：win3，0：win4]，然后按照滑窗横向步长为win3-W_c向右滑动并裁剪，重复上述步骤，直至第一行的最后一张子图的窗口超出待裁剪图像范围，则第一行的最后一张子图的窗口的像素矩阵设为[W_A-win3：W_A，0：win4]并裁剪，得到第一行的最后一张子图，所述第一行的最后一张子图的像素矩阵设为[W_A-win3：W_A，0：win4]；

(d4)第一行裁剪完成后，按照滑窗纵向步长为win4-H_d向下滑动并裁剪，得到第二行的第一张子图的像素矩阵为[0：win3，win4-H_d：2*wi4-H_d]，重复步骤(d3)裁剪第二行；

(d5)重复步骤(d4)，直达最后一行的第一张子图的窗口超出待裁剪图像范围，则最后一行的第一张子图的窗口的像素矩阵设为[0：win3，H_A-wi4：H_A]并裁剪，得到最后一行的第一张子图，所述最后一行的第一张子图的像素矩阵设为[0：win3，H_A-win4：H_A]，重复步骤(d3)，直到最后一行的最后一张子图的窗口超出待裁剪图像范围，则最后一行的最后一张子图的窗口的像素矩阵设为[W_A-win3：WA，H_A-wi4：H_A]并裁剪，得到最后一行的最后一张子图，所述最后一行的最后一张子图的像素矩阵设为[W_A-win3：W_A，H_A-win4：H_A]；完成对待裁剪图像的裁剪，得到多张大小为win3*win4的子图。

在本实施例子，DOTA有9类关键目标，共600张大图，子图尺寸为1088*1088，最终获得的A_best集合为(97，56)、(52，32)、(70，113)、(46，63)、(264，374)、(31，42)、(772，463)、(173，156)、(28，25)、(419，360)、(259，195)、(942，344)、(39，42)、(81，80)、(2565，3620)、(145，214)、(239，568)和(699，558)；共裁剪出3892张子图，裁剪评价指标为2.96。本方法对待裁剪图像裁剪的子图的信息完整度比进行重叠为0的裁剪提高了接近80％。

实施例2：

参见图5，本发明实施例提供的一种基于目标框的大尺寸图像自适应裁剪装置，包括一个或多个处理器，用于实现上述实施例中的基于目标框的大尺寸图像自适应裁剪方法。

本发明基于目标框的大尺寸图像自适应裁剪装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本发明基于目标框的大尺寸图像自适应裁剪装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于目标框的大尺寸图像自适应裁剪方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于目标框的大尺寸图像自适应裁剪方法，其特征在于，包括以下步骤：

(3)根据宽高基准集合A，计算得到宽高基准集合A_best；

所述步骤(3)具体包括以下子步骤：

(3.3)对大尺寸图像集合P’中任意一张大尺寸图像P′_o进行实际自适应的重叠裁剪，得到

张大小为win1*win2的子图；

(3.4)对大尺寸图像集合P’中任意一张大尺寸图像P′_o进行重叠为0的裁剪，得到T′_o ^p张大小为win1*win2的子图；

(3.5)计算在第p轮循环裁剪处理中，裁剪大尺寸图像P′_o的裁剪评价函数

计算公式如下：

所述

的计算公式为/>

所述

的计算公式为/>

其中，n_o表示大尺寸图像P_o′的包含的矩形框数；

表示大尺寸图像P_o′的第u个矩形框的面积；/>

表示/>

表示T′_o ^p张子图与大尺寸图像P_o′的第u个矩形框的并集部分的面积集合的集合；

所述

的计算公式为/>

(3.7)重复步骤(3.2)-步骤(3.6)，直到第R-1轮循环裁剪处理，得到更新完成的列表J_list；从更新完成的列表J_list中取出最大的裁剪评价函数，并从列表A_list中取出最大的裁剪评价函数相对应的宽高基准集合作为宽高基准集合A_best；

2.根据权利要求1所述的一种基于目标框的大尺寸图像自适应裁剪方法，其特征在于，所述步骤(1)具体包括以下子步骤：

(1.1)从大尺寸图像数据库中选取包括B类关键目标的M幅不同尺度的大尺寸图像集合P＝{P_m|1≤m≤M}，对大尺寸图像集合P中的每幅图像中的关键目标进行标注，得到N个被标注的矩形框，得到矩形框的宽高信息集合(W，H)＝{(W_n，H_n)|1≤n≤N}其中，P_m为第m幅大尺寸图像，W_n为第n个被标注的矩形框的宽，H_n为第n个被标注的矩形框的高；

3.根据权利要求2所述的一种基于目标框的大尺寸图像自适应裁剪方法，其特征在于，所述步骤(2)具体包括以下子步骤：

将B个单类的宽高矩阵进行整合，得到所有类的宽高矩阵；

所述最小像素过滤值为1～15像素；

4.根据权利要求3所述的一种基于目标框的大尺寸图像自适应裁剪方法，其特征在于，所述循环聚类操作具体包括以下子步骤：

(a2)将宽高矩阵标准化数据循环进行K-means聚类，K-means聚类过程中聚类质心数k由1依次递增，每次增加1；所述宽高矩阵标准化数据为X₁、X₂…X_g…X_G，其中，X_g表示第g个宽高标准化数据，宽高矩阵标准化数据中总共G个宽高标准化数据；

计算第k轮中每一个聚类簇/>

的聚类质心为/>

计算公式如下：

其中，

表示第k轮中第e个聚类簇/>

的聚类质心，e＝1，...e，...，k；/>

表示第k轮中第e个聚类簇/>

的宽高矩阵标准化数据的数量；/>

表示第k轮中第e个聚类簇/>

中第f个宽高标准化数据；

得到新的k个聚类簇/>

计算第k轮的失真值D_k，计算公式如下：

其中，

表示第k轮中更新后的第e个聚类簇/>

的聚类质心；/>

表示第k轮中更新后的第e个聚类簇/>

的宽高矩阵标准化数据的数量；/>

表示第k轮中更新后的第e个聚类簇/>

中第h个宽高标准化数据；

若小于，则退出循环聚类操作；

若大于，则继续步骤(a3)进行第k+1轮K-means聚类；

5.根据权利要求4所述的一种基于目标框的大尺寸图像自适应裁剪方法，其特征在于，所述步骤(3.3)具体包括以下子步骤：

张大小为win1*win2的子图，其中，T^p表示在第p轮循环裁剪处理中大尺寸图像P_o′进行实际自适应的重叠裁剪后得到的子图数。

6.根据权利要求5所述的一种基于目标框的大尺寸图像自适应裁剪方法，其特征在于，所述步骤(4)中所述若待裁剪图像包含关键目标的宽高信息，获取待裁剪图像的关键目标的平均宽高信息，将平均宽高信息与宽高基准集合A_best进行匹配，得到与平均宽高信息的欧式距离最小的宽高基准作为待裁剪图像固定的宽高基准，对待裁剪图像进行裁剪处理，得到相同尺寸的多个子图集合，具体包括以下子步骤：

(c5)重复步骤(c4)，直达最后一行的第一张子图的窗口超出待裁剪图像范围，则最后一行的第一张子图的窗口的像素矩阵设为[0：win3，H_A-win4：H_A]并裁剪，得到最后一行的第一张子图，所述最后一行的第一张子图的像素矩阵设为[0：win3，H_A-win4：H_A]，重复步骤(c3)，直到最后一行的最后一张子图的窗口超出待裁剪图像范围，则最后一行的最后一张子图的窗口的像素矩阵设为[W_A-win3：W_A，H_A-win4：H_A]并裁剪，得到最后一行的最后一张子图，所述最后一行的最后一张子图的像素矩阵设为[W_A-win3：W_A，H_A-win4：H_A]；完成对待裁剪图像的裁剪，得到多张大小为win3*win4的子图。

7.根据权利要求5所述的一种基于目标框的大尺寸图像自适应裁剪方法，其特征在于，所述步骤(4)中所述若待裁剪图像不包含宽高信息，从宽高基准集合A_best中随机选取宽基准和高基准对待裁剪图像进行裁剪处理，得到相同尺寸的多个子图集合，具体包括以下子步骤：

(d5)重复步骤(d4)，直达最后一行的第一张子图的窗口超出待裁剪图像范围，则最后一行的第一张子图的窗口的像素矩阵设为[0：win3，H_A-win4：H_A]并裁剪，得到最后一行的第一张子图，所述最后一行的第一张子图的像素矩阵设为[0：win3，H_A-win4：H_A]，重复步骤(d3)，直到最后一行的最后一张子图的窗口超出待裁剪图像范围，则最后一行的最后一张子图的窗口的像素矩阵设为[W_A-win3：W_A，H_A-win4：H_A]并裁剪，得到最后一行的最后一张子图，所述最后一行的最后一张子图的像素矩阵设为[W_A-win3：W_A，H_A-win4：H_A]；完成对待裁剪图像的裁剪，得到多张大小为win3*win4的子图。

8.一种基于目标框的大尺寸图像自适应裁剪装置，其特征在于，包括一个或多个处理器，用于实现权利要求1-7中任一项所述的基于目标框的大尺寸图像自适应裁剪方法。

9.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时，用于实现权利要求1-7中仟一项所述的基于目标框的大尺寸图像自适应裁剪方法。