CN116071556B - 一种基于目标框的大尺寸图像自适应裁剪方法和装置 - Google Patents

一种基于目标框的大尺寸图像自适应裁剪方法和装置 Download PDF

Info

Publication number
CN116071556B
CN116071556B CN202310311383.3A CN202310311383A CN116071556B CN 116071556 B CN116071556 B CN 116071556B CN 202310311383 A CN202310311383 A CN 202310311383A CN 116071556 B CN116071556 B CN 116071556B
Authority
CN
China
Prior art keywords
image
wide
sub
size
cut
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310311383.3A
Other languages
English (en)
Other versions
CN116071556A (zh
Inventor
黄智华
李超
刁博宇
王京
胡泽辰
宫禄齐
郑新千
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202310311383.3A priority Critical patent/CN116071556B/zh
Publication of CN116071556A publication Critical patent/CN116071556A/zh
Application granted granted Critical
Publication of CN116071556B publication Critical patent/CN116071556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于目标框的大尺寸图像自适应裁剪方法和装置,基于包含目标框的训练样本图像和未标注的测试样本图像,从训练样本中分层采样部分数据作为验证样本,使用循环聚类算法提取训练样本图像的目标框特征集合,使用验证样本对目标框特征集合筛选并验证,得到最优的自适应的目标框特征集合,以此作为滑窗平铺裁剪的重叠像素基准,将大图裁剪成多个子图。该方法提出了多尺度融合的特征提取改进算法、新的特征筛选算法及裁剪评价函数,优化了滑窗平铺裁剪算法,一定程度上解决了大尺寸图像裁剪预处理过程中的关键信息丢失,裁剪子图数量多、信息冗余,耗时长的问题。

Description

一种基于目标框的大尺寸图像自适应裁剪方法和装置
技术领域
本发明涉及计算机视觉领域,尤其涉及一种基于目标框的大尺寸图像自适应裁剪方法和装置。
背景技术
在遥感图像检测领域,用于网络训练和测试的样本图像是由不同分辨率的仪器采集,图像具有多尺度、大尺寸的特征,例如卫星图像和航空遥感图像。若直接缩放进入目标检测网络,不仅极易导致中小像素尺寸的关键目标的信息丢失,还耗时巨大。因此,首先需要将原始大图裁剪成较小尺寸的子图,再将子图放入网络进行训练或推理。
目前的大尺寸图像裁剪方法主要分为三类:方法一是基于目标框位置,人工手动裁剪;方法二是直接固定子图尺寸,顺着图像的宽高方向,将原始大图切割成一个个子图;方法三基于方法二,但相邻子图间有像素重叠,且重叠区域较大。对于第一类方法,手动裁剪需要一定的技术门槛,且耗费时间。对于第二类方法,在滑窗切图的过程中,暴力裁剪导致关键目标的像素被分割独立成四块,目标像素的连续性和完整性被破坏,子图中都没有完整的目标信息,导致关键信息的丢失。对于第三类方法,虽然解决了对关键目标像素信息的丢失问题,但因重叠区域较大,导致原始大图被切割成的子图数量增加很多,子图信息冗余,增加了裁剪的耗时及后续网络推理的耗时。
发明内容
本发明的目的在于针对现有技术的不足,提供了一种基于目标框的大尺寸图像自适应裁剪方法和装置。
本发明的目的是通过以下技术方案来实现的:一种基于目标框的大尺寸图像自适应裁剪方法,包括以下步骤:
(1)获取大尺寸图像集合P,对所述大尺寸图像集合P进行标注,得到矩形框的宽高信息集合(W,H);基于B类关键目标,将大尺寸图像集合P分为B类,每类抽取5%~50%的图像作为大尺寸图像集合P’;
(2)基于B类关键目标,将矩形框的宽高信息集合(W,H)分为B个宽高信息集合;对每个宽高信息集合进行过滤,得到B个单类的宽高矩阵;将B个单类的宽高矩阵进行整合,得到所有类的宽高矩阵;随后对B个单类的宽高矩阵以及所有类的宽高矩阵进行循环聚类操作,得到B个单类的宽高基准集合和所有类的宽高基准集合;并对B个单类的宽高基准集合和所有类的宽高基准集合进行整合,得到宽高基准集合A;
(3)根据宽高基准集合A,计算得到宽高基准集合Abest
(4)输入待裁剪图像,若待裁剪图像包含关键目标的宽高信息,获取待裁剪图像的关键目标的平均宽高信息,将平均宽高信息与宽高基准集合Abest进行匹配,得到与平均宽高信息的欧式距离最小的宽高基准作为待裁剪图像固定的宽高基准,对待裁剪图像进行裁剪处理,得到相同尺寸的多个子图集合;
若待裁剪图像不包含宽高信息,从宽高基准集合Abest中随机选取宽基准和高基准对待裁剪图像进行裁剪处理,得到相同尺寸的多个子图集合。
进一步地,所述步骤(1)具体包括以下子步骤:
(1.1)从大尺寸图像数据库中选取包括B类关键目标的M幅不同尺度的大尺寸图像集合P={Pm|1≤m≤M},对大尺寸图像集合P中的每幅图像中的关键目标进行标注,得到N个被标注的矩形框,得到矩形框的宽高信息集合(W,H)={(Wn,Hn)|1≤n≤N};其中,Pm为第m幅大尺寸图像,Wn为第n个被标注的矩形框的宽,Hn为第n个被标注的矩形框的高;
(1.2)基于B类关键目标,将大尺寸图像集合P分为B类,每类抽取5%-50%的图像作为大尺寸图像集合P’。
进一步地,所述步骤(2)具体包括以下子步骤:
(2.1)基于B类关键目标,将矩形框的宽高信息集合(W,H)分为B个宽高信息集合;对每个宽高信息集合进行过滤,过滤宽或高小于最小像素过滤值的宽高信息,得到B个单类的宽高矩阵;
将B个单类的宽高矩阵进行整合,得到所有类的宽高矩阵;
所述最小像素过滤值为1~15像素;
(2.2)对B个单类的宽高矩阵分别进行循环聚类操作,得到B个单类的宽高基准集合;
(2.3)对所有类的宽高矩阵进行循环聚类操作,得到所有类的宽高基准集合;
(2.4)将B个单类的宽高基准集合和所有类的宽高基准集合进行整合,得到宽高基准集合A。
进一步地,所述循环聚类操作具体包括以下子步骤:
(a1)对宽高矩阵进行标准化,得到宽高矩阵标准化数据和宽高矩阵标准化系数;
(a2)将宽高矩阵标准化数据循环进行K-means聚类,K-means聚类过程中聚类质心数k由1依次递增,每次增加1;所述宽高矩阵标准化数据为X1、X2...Xg...XG,其中,Xg表示第g个宽高标准化数据,宽高矩阵标准化数据中总共G个宽高标准化数据;
(a3)在第k轮K-means聚类中,将宽高矩阵标准化数据分别聚类到k个聚类簇
Figure GDA0004254399950000031
计算第k轮中每一个聚类簇/>
Figure GDA0004254399950000032
的聚类质心为/>
Figure GDA0004254399950000033
计算公式如下:
Figure GDA0004254399950000034
其中,
Figure GDA0004254399950000035
表示第k轮中第e个聚类簇/>
Figure GDA0004254399950000036
的聚类质心,e=1,…e,…,k;/>
Figure GDA0004254399950000037
表示第k轮中第e个聚类簇/>
Figure GDA0004254399950000038
的宽高矩阵标准化数据的数量;/>
Figure GDA0004254399950000039
表示第k轮中第e个聚类簇/>
Figure GDA00042543999500000310
中第f个宽高标准化数据;
随后计算任意一个宽高标准化数据Xg与每一个聚类质心的绝对差,并降序排序,得到最小值,并将该宽高标准化数据Xg分到最小值对应的聚类簇中;将所有宽高标准化数据重复该步骤,更新每一个聚类簇
Figure GDA00042543999500000311
得到新的k个聚类簇/>
Figure GDA00042543999500000312
计算第k轮的失真值Dk,计算公式如下:
Figure GDA00042543999500000313
其中,
Figure GDA00042543999500000314
表示第k轮中更新后的第e个聚类簇/>
Figure GDA00042543999500000315
的聚类质心;/>
Figure GDA00042543999500000316
表示第k轮中更新后的第e个聚类簇/>
Figure GDA00042543999500000317
的宽高矩阵标准化数据的数量;/>
Figure GDA00042543999500000318
表示第k轮中更新后的第e个聚类簇/>
Figure GDA00042543999500000319
中第h个宽高标准化数据;
(a4)判断(Dk-Dk-1)/Dk-1是否小于失真减小阈值ε,其中,Dk-1为第k-1轮的失真值;
若小于,则退出循环聚类操作;
若大于,则继续步骤(a3)进行第k+1轮K-means聚类;
(a5)退出循环聚类操作后,将本轮求得的更新后的k个聚类质心作为聚类质心矩阵乘上步骤(a1)求得的宽高矩阵标准化系数,输出宽高基准集合。
进一步地,所述步骤(3)具体包括以下子步骤:
(3.1)计算得到宽高基准集合A的宽高基准的数量为R,并将宽高基准集合A存入列表Alist中;
(3.2)根据宽高基准集合A进行第p轮循环裁剪处理,将宽高基准集合A聚类,聚类点簇的个数为R-p,求得每一聚类点簇的聚类质心并作为宽高基准集合Ap存入列表Alist中;
(3.3)对大尺寸图像集合P’中任意一张大尺寸图像Po′进行实际自适应的重叠裁剪,得到
Figure GDA0004254399950000041
张大小为win1*win2的子图;
(3.4)对大尺寸图像集合P’中任意一张大尺寸图像Po′进行重叠为0的裁剪,得到
Figure GDA0004254399950000042
张大小为win1*win2的子图;
(3.5)计算在第p轮循环裁剪处理中,裁剪大尺寸图像Po′的裁剪评价函数
Figure GDA0004254399950000043
计算公式如下:
Figure GDA0004254399950000044
所述
Figure GDA0004254399950000045
的计算公式为/>
Figure GDA0004254399950000046
所述
Figure GDA0004254399950000047
的计算公式为/>
Figure GDA0004254399950000048
其中,no表示大尺寸图像Po′的包含的矩形框数;
Figure GDA0004254399950000049
表示大尺寸图像Po的第u个矩形框的面积;/>
Figure GDA00042543999500000410
表示/>
Figure GDA00042543999500000411
张子图与大尺寸图像Po′的第u个矩形框的并集部分的面积集合的集合;/>
Figure GDA00042543999500000412
表示/>
Figure GDA00042543999500000413
张子图与大尺寸图像Po′的第u个矩形框的并集部分的面积集合的集合;
所述
Figure GDA00042543999500000414
的计算公式为/>
Figure GDA00042543999500000415
(3.6)大尺寸图像集合P’共包含O张大尺寸图像,对每张大尺寸图像重复步骤(3.3)-步骤(3.5),得到每张大尺寸图像在第p轮循环裁剪处理中的裁剪评价函数,随后计算得到第p轮循环裁剪处理的评价裁剪评价函数Jp
Figure GDA00042543999500000416
将评价裁剪评价函数Jp作为宽高基准集合Ap的评价裁剪评价函数,并存入列表Jlist中;
(3.7)重复步骤(3.2)-步骤(3.6),直到第R-1轮循环裁剪处理,得到更新完成的列表Jlist;从更新完成的列表Jlist中取出最大的裁剪评价函数,并从列表Alist中取出最大的裁剪评价函数相对应的宽高基准集合作为宽高基准集合Abest
进一步地,所述步骤(3.3)具体包括以下子步骤:
(3.3.1)大尺寸图像Po′的尺寸为Wo*Ho,子图大小为win1*win2,滑窗横向步长为win1-Wh,滑窗纵向步长为win2-Hh,其中,Wh为轮循环裁剪处理过程中从宽高基准集合Ap随机选取的宽,每次都重新选取;Hh为轮循环裁剪处理过程中从宽高基准集合Ap随机选取的高,每次都重新选取;从大尺寸图像Po′的左上角开始裁剪,然后设定滑窗顺序从左至右的横向,然后再从上到下的纵向;
(3.3.2)在大尺寸图像Po′的左上角取大小为win1*win2的窗口并裁剪,得到第一张子图,所述第一张子图的像素矩阵为[0:win1,0:win2],然后按照横向步长为win1-Wh向右滑动并裁剪,重复上述步骤,直至第一行的最后一张子图的窗口超出待裁剪图像范围,则第一行的最后一张子图的窗口的像素矩阵设为[Wo-win1:Wo,0:win2]并裁剪;
(3.3.3)第一行裁剪完成后,按照滑窗纵向步长为win2-Hh向下滑动并裁剪,得到第二行的第一张子图的像素矩阵为[0:win1,win2-Hh:2*win2-Hh],重复步骤(3.3.2)裁剪第二行;
(3.3.4)重复步骤(3.3.3),直达最后一行的第一张子图的窗口超出待裁剪图像范围,则最后一行的第一张子图的窗口的像素矩阵设为[0:win1,Ho-win2:Ho]并裁剪,得到最后一行的第一张子图,重复步骤(3.3.2),直到最后一行的最后一张子图的窗口超出待裁剪图像范围,则最后一行的第一张子图的窗口的像素矩阵设为[Wo-win1:Wo,Ho-win2:Ho]并裁剪,得到最后一行的第一张子图;完成对待裁剪图像的裁剪,得到
Figure GDA0004254399950000051
张大小为win1*win2的子图,其中,/>
Figure GDA0004254399950000052
表示在第p轮循环裁剪处理中大尺寸图像Po′进行实际自适应的重叠裁剪后得到的子图数。
进一步地,所述步骤(4)中所述若待裁剪图像包含关键目标的宽高信息,获取待裁剪图像的关键目标的平均宽高信息,将平均宽高信息与宽高基准集合Abest进行匹配,得到与平均宽高信息的欧式距离最小的宽高基准作为待裁剪图像固定的宽高基准,对待裁剪图像进行裁剪处理,得到相同尺寸的多个子图集合,具体包括以下子步骤:
(c1)输入待裁剪图像,若待裁剪图像包含关键目标的宽高信息,得到待裁剪图像的平均宽高信息(We,He);将平均宽高信息(We,He)与宽高基准集合Abest进行匹配,得到与平均宽高信息(We,He)的欧式距离最小的宽高基准(Wb,Hb),将宽高基准(Wb,Hb)作为待裁剪图像固定的宽高基准;
(c2)待裁剪图像的尺寸为WA*HA,子图大小为win3*win4;滑窗横向步长为win3-Wb,固定不变;滑窗纵向步长为win4-Hb,固定不变;从待裁剪图像的左上角开始裁剪,然后设定滑窗顺序从左至右的横向,然后再从上到下的纵向;
(c3)在待裁剪图像的左上角取尺寸大小为win3*win4的窗口并裁剪,得到第一行的第一张子图,所述第一行的第一张子图的像素矩阵为[0:win3,0:win4],然后按照滑窗横向步长为win3-Wb向右滑动并裁剪,得到第一行的第二张子图的像素矩阵为[win3-Wb:2*win3-Wb,0:win4],重复上述步骤,直至第一行的最后一张子图的窗口超出待裁剪图像范围,则第一行的最后一张子图的窗口的像素矩阵设为[WA-win3:WA,0:win4]并裁剪,得到第一行的最后一张子图,所述第一行的最后一张子图的像素矩阵设为[WA-win3:WA,0:win4];
(c4)第一行裁剪完成后,按照滑窗纵向步长为win4-Hb向下滑动并裁剪,得到第二行的第一张子图的像素矩阵为[0:win3,win4-Hb:2*win4-Hb],重复步骤(c3)裁剪第二行;
(c5)重复步骤(c4),直达最后一行的第一张子图的窗口超出待裁剪图像范围,则最后一行的第一张子图的窗口的像素矩阵设为[0:win3,HA-win4:HA]并裁剪,得到最后一行的第一张子图,所述最后一行的第一张子图的像素矩阵设为[0:win3,HA-win4:HA],重复步骤(c3),直到最后一行的最后一张子图的窗口超出待裁剪图像范围,则最后一行的最后一张子图的窗口的像素矩阵设为[WA-win3:WA,HA-win4:HA]并裁剪,得到最后一行的最后一张子图,所述最后一行的最后一张子图的像素矩阵设为[WA-win3:WA,HA-win4:HA];完成对待裁剪图像的裁剪,得到多张大小为win3*win4的子图。
进一步地,所述步骤(4)中所述若待裁剪图像不包含宽高信息,从宽高基准集合Abest中随机选取宽基准和高基准对待裁剪图像进行裁剪处理,得到相同尺寸的多个子图集合,具体包括以下子步骤:
(d1)若待裁剪图像不包含宽高信息,从宽高基准集合Abest中随机选取宽基准Wc和高基准Hd对待裁剪图像进行裁剪处理;
(d2)待裁剪图像的尺寸为WA*HA,子图大小为win3*win4;滑窗横向步长为win3-Wc,每次都重新选择;滑窗纵向步长为win4-Hd,每次都重新选择;从待裁剪图像的左上角开始裁剪,然后设定滑窗顺序从左至右的横向,然后再从上到下的纵向;
(d3)在待裁剪图像的左上角取大小为win3*win4的窗口并裁剪,得到第一行的第一张子图,所述第一行的第一张子图的像素矩阵为[0:win3,0:win4],然后按照滑窗横向步长为win3-Wc向右滑动并裁剪,重复上述步骤,直至第一行的最后一张子图的窗口超出待裁剪图像范围,则第一行的最后一张子图的窗口的像素矩阵设为[WA-win3:WA,0:win4]并裁剪,得到第一行的最后一张子图,所述第一行的最后一张子图的像素矩阵设为[WA-win3:WA,0:win4];
(d4)第一行裁剪完成后,按照滑窗纵向步长为win4-Hd向下滑动并裁剪,得到第二行的第一张子图的像素矩阵为[0:win3,win4-Hd:2*win4-Hd],重复步骤(d3)裁剪第二行;
(d5)重复步骤(d4),直达最后一行的第一张子图的窗口超出待裁剪图像范围,则最后一行的第一张子图的窗口的像素矩阵设为[0:win3,HA-win4:HA]并裁剪,得到最后一行的第一张子图,所述最后一行的第一张子图的像素矩阵设为[0:win3,HA-win4:HA],重复步骤(d3),直到最后一行的最后一张子图的窗口超出待裁剪图像范围,则最后一行的最后一张子图的窗口的像素矩阵设为[WA-win3:WA,HA-win4:HA]并裁剪,得到最后一行的最后一张子图,所述最后一行的最后一张子图的像素矩阵设为[WA-win3:WA,HA-win4:HA];完成对待裁剪图像的裁剪,得到多张大小为win3*win4的子图。
本发明还提供了一种基于目标框的大尺寸图像自适应裁剪装置,包括一个或多个处理器,用于实现上述基于目标框的大尺寸图像自适应裁剪方法。
本发明还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述基于目标框的大尺寸图像自适应裁剪方法。
本发明的有益效果是:在遥感图像检测领域,提供一种基于目标框的大尺寸图像自适应裁剪方法,兼顾裁剪区域的信息连续性和关键目标信息的完整性,较有效地减少了裁剪子图的数量及耗时,并为后续该类仪器采集的数据集提供一种通用的裁剪方法。
附图说明
图1为一种基于目标框的大尺寸图像自适应裁剪方法的流程图;
图2为循环聚类操作的流程图;
图3为得到宽高基准集合Abest的流程图;
图4为待裁剪图像的裁剪过程图;
图5为一种基于目标框的大尺寸图像自适应裁剪装置的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加明白清楚,结合附图和实施例,对本发明进一步的详细说明,应当理解,此处所描述的具体实施例仅仅用以解释本发明,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,均在本发明保护范围。
实施例1:
本实施例中所有图片的大小单位为像素;以公开星载数据集DOTA作为大尺寸图像数据库。
如图1所示,本发明提供了一种基于目标框的大尺寸图像自适应裁剪方法,包括以下步骤:
(1)获取大尺寸图像集合P,对所述大尺寸图像集合P进行标注,得到矩形框的宽高信息集合(W,H);基于B类关键目标,将大尺寸图像集合P分为B类,每类抽取5%-50%的图像作为大尺寸图像集合P’。大尺寸图像集合P’作为输入,为后续计算裁剪评价函数,最终输出最优宽高基准集合提供验证。
所述步骤(1)具体包括以下子步骤:
(1.1)从大尺寸图像数据库中选取包括B类关键目标的M幅不同尺度的大尺寸图像集合P={Pm|1≤m≤M},对大尺寸图像集合P中的每幅图像中的关键目标进行标注,得到N个被标注的矩形框,得到矩形框的宽高信息集合(W,H)={(Wn,Hn)|1≤n≤N};其中,Pm为第m幅大尺寸图像,Wn为第n个被标注的矩形框的宽,Hn为第n个被标注的矩形框的高;
(1.2)基于B类关键目标,将大尺寸图像集合P分为B类,每类抽取5%-50%的图像作为大尺寸图像集合P’。
(2)基于B类关键目标,将矩形框的宽高信息集合(W,H)分为B个宽高信息集合;对每个宽高信息集合进行过滤,得到B个单类的宽高矩阵;将B个单类的宽高矩阵进行整合,得到所有类的宽高矩阵;随后对B个单类的宽高矩阵以及所有类的宽高矩阵进行循环聚类操作,得到B个单类的宽高基准集合和所有类的宽高基准集合;并对B个单类的宽高基准集合和所有类的宽高基准集合进行整合,得到宽高基准集合A。此步骤的目的是提取基于此传感器采集的B类关键目标的真实框的形状及大小特征,通过循环聚类操作,或者每类关键目标及总类(一张大图中包含一类或多类关键目标)目标的真实框的大小基准。
所述步骤(2)具体包括以下子步骤:
(2.1)基于B类关键目标,将矩形框的宽高信息集合(W,H)分为B个宽高信息集合;对每个宽高信息集合进行过滤,过滤宽或高小于最小像素过滤值的宽高信息,得到B个单类的宽高矩阵;
将B个单类的宽高矩阵进行整合,得到所有类的宽高矩阵;
所述最小像素过滤值为1~15像素。
(2.2)对B个单类的宽高矩阵分别进行循环聚类操作,得到B个单类的宽高基准集合。
如图2所示,所述循环聚类操作具体为:
(a1)对宽高矩阵进行标准化,得到宽高矩阵标准化数据和宽高矩阵标准化系数;
(a2)将宽高矩阵标准化数据循环进行K-means聚类,K-means聚类过程中聚类质心数k由1依次递增,每次增加1;所述宽高矩阵标准化数据为X1、X2...Xg...XG,其中,Xg表示第g个宽高标准化数据,宽高矩阵标准化数据中总共G个宽高标准化数据;
(a3)在第k轮K-means聚类中,将宽高矩阵标准化数据分别聚类到k个聚类簇
Figure GDA0004254399950000091
计算第k轮中每一个聚类簇/>
Figure GDA0004254399950000092
的聚类质心为/>
Figure GDA0004254399950000093
计算公式如下:
Figure GDA0004254399950000094
其中,
Figure GDA0004254399950000095
表示第k轮中第e个聚类簇/>
Figure GDA0004254399950000096
的聚类质心,e=1,...e,...,k;/>
Figure GDA0004254399950000097
表示第k轮中第e个聚类簇/>
Figure GDA0004254399950000098
的宽高矩阵标准化数据的数量;/>
Figure GDA0004254399950000099
表示第k轮中第e个聚类簇/>
Figure GDA00042543999500000910
中第f个宽高标准化数据;
随后计算任意一个宽高标准化数据Xg与每一个聚类质心的绝对差,并降序排序,得到最小值,并将该宽高标准化数据Xg分到最小值对应的聚类簇中;将所有宽高标准化数据重复该步骤,更新每一个聚类簇
Figure GDA0004254399950000101
得到新的k个聚类簇/>
Figure GDA0004254399950000102
计算第k轮的失真值Dk,计算公式如下:
Figure GDA0004254399950000103
其中,
Figure GDA0004254399950000104
表示第k轮中更新后的第e个聚类簇/>
Figure GDA0004254399950000105
的聚类质心;/>
Figure GDA0004254399950000106
表示第k轮中更新后的第e个聚类簇/>
Figure GDA0004254399950000107
的宽高矩阵标准化数据的数量;/>
Figure GDA0004254399950000108
表示第k轮中更新后的第e个聚类簇/>
Figure GDA0004254399950000109
中第h个宽高标准化数据;
(a4)判断(Dk-Dk-1)/Dk-1是否小于失真减小阈值ε,其中,Dk-1为第k-1轮的失真值;
若小于,则退出循环聚类操作;
若大于,则继续步骤(a3)进行第k+1轮K-means聚类;
(a5)退出循环聚类操作后,将本轮求得的更新后的k个聚类质心作为聚类质心矩阵乘上步骤(a1)求得的宽高矩阵标准化系数,输出宽高基准集合。
(2.3)对所有类的宽高矩阵进行循环聚类操作,得到所有类的宽高基准集合。
(2.4)将B个单类的宽高基准集合和所有类的宽高基准集合进行整合,得到宽高基准集合A。
(3)根据宽高基准集合A,计算得到宽高基准集合Abest,如图3所示。此步骤的目的是验证此基准集合在此类数据集(B类目标)自适应裁剪的有益程度,通过裁剪评价函数,兼顾裁剪速度和关键信息的保留程度,获取最优的宽高基准集合。后续该数据集有大量图片补充或者直接大图裁子图时(在此实施例中,DOTA应用于遥感图像的目标检测,模型推理需要将无宽高信息的大图裁剪成子图),可直接基于Abest进行裁剪操作。
所述步骤(3)具体包括以下子步骤:
(3.1)计算得到宽高基准集合A的宽高基准的数量为R,并将宽高基准集合A存入列表Alist中。
(3.2)根据宽高基准集合A进行第p轮循环裁剪处理,将宽高基准集合A聚类,聚类点簇的个数为R-p,求得每一聚类点簇的聚类质心并作为宽高基准集合Ap存入列表Alist中。
(3.3)对大尺寸图像集合P’中任意一张大尺寸图像Po′进行实际自适应的重叠裁剪,得到
Figure GDA0004254399950000111
张大小为win1*win2的子图。
所述步骤(3.3)具体包括以下子步骤:
(3.3.1)大尺寸图像Po′的尺寸为Wo*Ho,子图大小为win1*win2,滑窗横向步长为win1-Wh,滑窗纵向步长为win2-Hh,其中,Wh为轮循环裁剪处理过程中从宽高基准集合Ap随机选取的宽,每次都重新选取;Hh为轮循环裁剪处理过程中从宽高基准集合Ap随机选取的高,每次都重新选取;从大尺寸图像Po′的左上角开始裁剪,然后设定滑窗顺序从左至右的横向,然后再从上到下的纵向;
(3.3.2)在大尺寸图像Po′的左上角取大小为win1*win2的窗口并裁剪,得到第一张子图,所述第一张子图的像素矩阵为[0:win1,0:win2],然后按照横向步长为win1-Wh向右滑动并裁剪,重复上述步骤,直至第一行的最后一张子图的窗口超出待裁剪图像范围,则第一行的最后一张子图的窗口的像素矩阵设为[Wo-win1:Wo,0:win2]并裁剪;
(3.3.3)第一行裁剪完成后,按照滑窗纵向步长为win2-Hh向下滑动并裁剪,得到第二行的第一张子图的像素矩阵为[0:win1,win2-Hh:2*win2-Hh],重复步骤(3.3.2)裁剪第二行;
(3.3.4)重复步骤(3.3.3),直达最后一行的第一张子图的窗口超出待裁剪图像范围,则最后一行的第一张子图的窗口的像素矩阵设为[0:win1,Ho-win2:Ho]并裁剪,得到最后一行的第一张子图,重复步骤(3.3.2),直到最后一行的最后一张子图的窗口超出待裁剪图像范围,则最后一行的第一张子图的窗口的像素矩阵设为[Wo-win1:Wo,Ho-win2:Ho]并裁剪,得到最后一行的第一张子图;完成对待裁剪图像的裁剪,得到
Figure GDA0004254399950000112
张大小为win1*win2的子图,其中,/>
Figure GDA0004254399950000113
表示在第p轮循环裁剪处理中大尺寸图像Po′进行实际自适应的重叠裁剪后得到的子图数。
(3.4)对大尺寸图像集合P’中任意一张大尺寸图像Po′进行重叠为0的裁剪,得到
Figure GDA0004254399950000114
张大小为win1*win2的子图;
所述重叠为0的裁剪:滑窗横向步长为win1,滑窗纵向步长为win2;从大尺寸图像Po′的左上角开始裁剪,然后设定滑窗顺序从左至右的横向,然后再从上到下的纵向;得到的T′o p张大小为win1*win2的子图没有重叠。
(3.5)计算在第p轮循环裁剪处理中,裁剪大尺寸图像Po′的裁剪评价函数
Figure GDA0004254399950000121
计算公式如下:
Figure GDA0004254399950000122
所述
Figure GDA0004254399950000123
的计算公式为/>
Figure GDA0004254399950000124
所述
Figure GDA0004254399950000125
的计算公式为/>
Figure GDA0004254399950000126
其中,no表示大尺寸图像Po′的包含的矩形框数;
Figure GDA0004254399950000127
表示大尺寸图像Po′的第u个矩形框的面积;/>
Figure GDA0004254399950000128
表示/>
Figure GDA0004254399950000129
张子图与大尺寸图像Po′的第u个矩形框的并集部分的面积集合的集合;/>
Figure GDA00042543999500001210
表示/>
Figure GDA00042543999500001211
张子图与大尺寸图像Po′的第u个矩形框的并集部分的面积集合的集合;
所述
Figure GDA00042543999500001212
的计算公式为/>
Figure GDA00042543999500001213
(3.6)大尺寸图像集合P’共包含O张大尺寸图像,对每张大尺寸图像重复步骤(3.3)-步骤(3.5),得到每张大尺寸图像在第p轮循环裁剪处理中的裁剪评价函数,随后计算得到第p轮循环裁剪处理的评价裁剪评价函数Jp
Figure GDA00042543999500001214
将评价裁剪评价函数Jp作为宽高基准集合Ap的评价裁剪评价函数,并存入列表Jlist中。
(3.7)重复步骤(3.2)-步骤(3.6),直到第R-1轮循环裁剪处理,得到更新完成的列表Jlist;从更新完成的列表Jlist中取出最大的裁剪评价函数,并从列表Alist中取出最大的裁剪评价函数相对应的宽高基准集合作为宽高基准集合Abest。此步骤目的是借鉴遗传算法,对最优宽高基准集合进行微调,利用裁剪评价函数,获取最有效的宽高基准。
(4)输入待裁剪图像,若待裁剪图像包含关键目标的宽高信息,获取待裁剪图像的关键目标的平均宽高信息,将平均宽高信息与宽高基准集合Abest进行匹配,得到与平均宽高信息的欧式距离最小的宽高基准作为待裁剪图像固定的宽高基准,对待裁剪图像进行裁剪处理,得到相同尺寸的多个子图集合;如图4所示。
具体为:(c1)输入待裁剪图像,若待裁剪图像包含关键目标的宽高信息,得到待裁剪图像的平均宽高信息(We,He);将平均宽高信息(We,He)与宽高基准集合Abest进行匹配,得到与平均宽高信息(We,He)的欧式距离最小的宽高基准(Wb,Hb),将宽高基准(Wb,Hb)作为待裁剪图像固定的宽高基准,因为图像包含关键目标框的宽高信息,此步骤可在获取最少子图的同时,保留更多的目标信息;
所述两个宽高信息的欧式距离的计算公式如下:
Figure GDA0004254399950000131
(c2)待裁剪图像的尺寸为WA*HA,子图大小为win3*win4;滑窗横向步长为win3-Wb,固定不变;滑窗纵向步长为win4-Hb,固定不变;从待裁剪图像的左上角开始裁剪,然后设定滑窗顺序从左至右的横向,然后再从上到下的纵向;
(c3)在待裁剪图像的左上角取尺寸大小为win3*win4的窗口并裁剪,得到第一行的第一张子图,所述第一行的第一张子图的像素矩阵为[0:win3,0:win4],然后按照滑窗横向步长为win3-Wb向右滑动并裁剪,得到第一行的第二张子图的像素矩阵为[win3-Wb:2*win3-Wb,0:win4],重复上述步骤,直至第一行的最后一张子图的窗口超出待裁剪图像范围,则第一行的最后一张子图的窗口的像素矩阵设为[WA-win3:WA,0:win4]并裁剪,得到第一行的最后一张子图,所述第一行的最后一张子图的像素矩阵设为[WA-win3:WA,0:win4];
(c4)第一行裁剪完成后,按照滑窗纵向步长为win4-Hb向下滑动并裁剪,得到第二行的第一张子图的像素矩阵为[0:win3,win4-Hb:2*win4-Hb],重复步骤(c3)裁剪第二行;
(c5)重复步骤(c4),直达最后一行的第一张子图的窗口超出待裁剪图像范围,则最后一行的第一张子图的窗口的像素矩阵设为[0:win3,HA-wi4:HA]并裁剪,得到最后一行的第一张子图,所述最后一行的第一张子图的像素矩阵设为[0:wi3,HA-wi4:HA],重复步骤(c3),直到最后一行的最后一张子图的窗口超出待裁剪图像范围,则最后一行的最后一张子图的窗口的像素矩阵设为[WA-win3:WA,HA-win4:HA]并裁剪,得到最后一行的最后一张子图,所述最后一行的最后一张子图的像素矩阵设为[WA-win3:WA,HA-win4:HA];完成对待裁剪图像的裁剪,得到多张大小为win3*win4的子图。
具体为:(d1)若待裁剪图像不包含宽高信息,从宽高基准集合Abest中随机选取宽基准Wc和高基准Hd对待裁剪图像进行裁剪处理;
(d2)待裁剪图像的尺寸为WA*HA,子图大小为win3*win4;滑窗横向步长为win3-Wc,每次都重新选择;滑窗纵向步长为win4-Hd,每次都重新选择;从待裁剪图像的左上角开始裁剪,然后设定滑窗顺序从左至右的横向,然后再从上到下的纵向;
(d3)在待裁剪图像的左上角取大小为win3*win4的窗口并裁剪,得到第一行的第一张子图,所述第一行的第一张子图的像素矩阵为[0:win3,0:win4],然后按照滑窗横向步长为win3-Wc向右滑动并裁剪,重复上述步骤,直至第一行的最后一张子图的窗口超出待裁剪图像范围,则第一行的最后一张子图的窗口的像素矩阵设为[WA-win3:WA,0:win4]并裁剪,得到第一行的最后一张子图,所述第一行的最后一张子图的像素矩阵设为[WA-win3:WA,0:win4];
(d4)第一行裁剪完成后,按照滑窗纵向步长为win4-Hd向下滑动并裁剪,得到第二行的第一张子图的像素矩阵为[0:win3,win4-Hd:2*wi4-Hd],重复步骤(d3)裁剪第二行;
(d5)重复步骤(d4),直达最后一行的第一张子图的窗口超出待裁剪图像范围,则最后一行的第一张子图的窗口的像素矩阵设为[0:win3,HA-wi4:HA]并裁剪,得到最后一行的第一张子图,所述最后一行的第一张子图的像素矩阵设为[0:win3,HA-win4:HA],重复步骤(d3),直到最后一行的最后一张子图的窗口超出待裁剪图像范围,则最后一行的最后一张子图的窗口的像素矩阵设为[WA-win3:WA,HA-wi4:HA]并裁剪,得到最后一行的最后一张子图,所述最后一行的最后一张子图的像素矩阵设为[WA-win3:WA,HA-win4:HA];完成对待裁剪图像的裁剪,得到多张大小为win3*win4的子图。
在本实施例子,DOTA有9类关键目标,共600张大图,子图尺寸为1088*1088,最终获得的Abest集合为(97,56)、(52,32)、(70,113)、(46,63)、(264,374)、(31,42)、(772,463)、(173,156)、(28,25)、(419,360)、(259,195)、(942,344)、(39,42)、(81,80)、(2565,3620)、(145,214)、(239,568)和(699,558);共裁剪出3892张子图,裁剪评价指标为2.96。本方法对待裁剪图像裁剪的子图的信息完整度比进行重叠为0的裁剪提高了接近80%。
实施例2:
参见图5,本发明实施例提供的一种基于目标框的大尺寸图像自适应裁剪装置,包括一个或多个处理器,用于实现上述实施例中的基于目标框的大尺寸图像自适应裁剪方法。
本发明基于目标框的大尺寸图像自适应裁剪装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明基于目标框的大尺寸图像自适应裁剪装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于目标框的大尺寸图像自适应裁剪方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (9)

1.一种基于目标框的大尺寸图像自适应裁剪方法,其特征在于,包括以下步骤:
(1)获取大尺寸图像集合P,对所述大尺寸图像集合P进行标注,得到矩形框的宽高信息集合(W,H);基于B类关键目标,将大尺寸图像集合P分为B类,每类抽取5%~50%的图像作为大尺寸图像集合P’;
(2)基于B类关键目标,将矩形框的宽高信息集合(W,H)分为B个宽高信息集合;对每个宽高信息集合进行过滤,得到B个单类的宽高矩阵;将B个单类的宽高矩阵进行整合,得到所有类的宽高矩阵;随后对B个单类的宽高矩阵以及所有类的宽高矩阵进行循环聚类操作,得到B个单类的宽高基准集合和所有类的宽高基准集合;并对B个单类的宽高基准集合和所有类的宽高基准集合进行整合,得到宽高基准集合A;
(3)根据宽高基准集合A,计算得到宽高基准集合Abest
所述步骤(3)具体包括以下子步骤:
(3.1)计算得到宽高基准集合A的宽高基准的数量为R,并将宽高基准集合A存入列表Alist中;
(3.2)根据宽高基准集合A进行第p轮循环裁剪处理,将宽高基准集合A聚类,聚类点簇的个数为R-p,求得每一聚类点簇的聚类质心并作为宽高基准集合Ap存入列表Alist中;
(3.3)对大尺寸图像集合P’中任意一张大尺寸图像P′o进行实际自适应的重叠裁剪,得到
Figure FDA0004254399940000011
张大小为win1*win2的子图;
(3.4)对大尺寸图像集合P’中任意一张大尺寸图像P′o进行重叠为0的裁剪,得到T′o p张大小为win1*win2的子图;
(3.5)计算在第p轮循环裁剪处理中,裁剪大尺寸图像P′o的裁剪评价函数
Figure FDA0004254399940000015
计算公式如下:
Figure FDA0004254399940000012
所述
Figure FDA0004254399940000013
的计算公式为/>
Figure FDA0004254399940000014
所述
Figure FDA0004254399940000021
的计算公式为/>
Figure FDA0004254399940000022
其中,no表示大尺寸图像Po′的包含的矩形框数;
Figure FDA0004254399940000023
表示大尺寸图像Po′的第u个矩形框的面积;/>
Figure FDA0004254399940000024
表示/>
Figure FDA0004254399940000025
张子图与大尺寸图像Po′的第u个矩形框的并集部分的面积集合的集合;
Figure FDA0004254399940000026
表示T′o p张子图与大尺寸图像Po′的第u个矩形框的并集部分的面积集合的集合;
所述
Figure FDA0004254399940000027
的计算公式为/>
Figure FDA0004254399940000028
(3.6)大尺寸图像集合P’共包含O张大尺寸图像,对每张大尺寸图像重复步骤(3.3)-步骤(3.5),得到每张大尺寸图像在第p轮循环裁剪处理中的裁剪评价函数,随后计算得到第p轮循环裁剪处理的评价裁剪评价函数Jp
Figure FDA0004254399940000029
将评价裁剪评价函数Jp作为宽高基准集合Ap的评价裁剪评价函数,并存入列表Jlist中;
(3.7)重复步骤(3.2)-步骤(3.6),直到第R-1轮循环裁剪处理,得到更新完成的列表Jlist;从更新完成的列表Jlist中取出最大的裁剪评价函数,并从列表Alist中取出最大的裁剪评价函数相对应的宽高基准集合作为宽高基准集合Abest
(4)输入待裁剪图像,若待裁剪图像包含关键目标的宽高信息,获取待裁剪图像的关键目标的平均宽高信息,将平均宽高信息与宽高基准集合Abest进行匹配,得到与平均宽高信息的欧式距离最小的宽高基准作为待裁剪图像固定的宽高基准,对待裁剪图像进行裁剪处理,得到相同尺寸的多个子图集合;
若待裁剪图像不包含宽高信息,从宽高基准集合Abest中随机选取宽基准和高基准对待裁剪图像进行裁剪处理,得到相同尺寸的多个子图集合。
2.根据权利要求1所述的一种基于目标框的大尺寸图像自适应裁剪方法,其特征在于,所述步骤(1)具体包括以下子步骤:
(1.1)从大尺寸图像数据库中选取包括B类关键目标的M幅不同尺度的大尺寸图像集合P={Pm|1≤m≤M},对大尺寸图像集合P中的每幅图像中的关键目标进行标注,得到N个被标注的矩形框,得到矩形框的宽高信息集合(W,H)={(Wn,Hn)|1≤n≤N}其中,Pm为第m幅大尺寸图像,Wn为第n个被标注的矩形框的宽,Hn为第n个被标注的矩形框的高;
(1.2)基于B类关键目标,将大尺寸图像集合P分为B类,每类抽取5%-50%的图像作为大尺寸图像集合P’。
3.根据权利要求2所述的一种基于目标框的大尺寸图像自适应裁剪方法,其特征在于,所述步骤(2)具体包括以下子步骤:
(2.1)基于B类关键目标,将矩形框的宽高信息集合(W,H)分为B个宽高信息集合;对每个宽高信息集合进行过滤,过滤宽或高小于最小像素过滤值的宽高信息,得到B个单类的宽高矩阵;
将B个单类的宽高矩阵进行整合,得到所有类的宽高矩阵;
所述最小像素过滤值为1~15像素;
(2.2)对B个单类的宽高矩阵分别进行循环聚类操作,得到B个单类的宽高基准集合;
(2.3)对所有类的宽高矩阵进行循环聚类操作,得到所有类的宽高基准集合;
(2.4)将B个单类的宽高基准集合和所有类的宽高基准集合进行整合,得到宽高基准集合A。
4.根据权利要求3所述的一种基于目标框的大尺寸图像自适应裁剪方法,其特征在于,所述循环聚类操作具体包括以下子步骤:
(a1)对宽高矩阵进行标准化,得到宽高矩阵标准化数据和宽高矩阵标准化系数;
(a2)将宽高矩阵标准化数据循环进行K-means聚类,K-means聚类过程中聚类质心数k由1依次递增,每次增加1;所述宽高矩阵标准化数据为X1、X2…Xg…XG,其中,Xg表示第g个宽高标准化数据,宽高矩阵标准化数据中总共G个宽高标准化数据;
(a3)在第k轮K-means聚类中,将宽高矩阵标准化数据分别聚类到k个聚类簇
Figure FDA0004254399940000031
计算第k轮中每一个聚类簇/>
Figure FDA0004254399940000032
的聚类质心为/>
Figure FDA0004254399940000033
计算公式如下:
Figure FDA0004254399940000034
其中,
Figure FDA0004254399940000035
表示第k轮中第e个聚类簇/>
Figure FDA0004254399940000036
的聚类质心,e=1,...e,...,k;/>
Figure FDA0004254399940000037
表示第k轮中第e个聚类簇/>
Figure FDA0004254399940000038
的宽高矩阵标准化数据的数量;/>
Figure FDA0004254399940000039
表示第k轮中第e个聚类簇/>
Figure FDA00042543999400000310
中第f个宽高标准化数据;
随后计算任意一个宽高标准化数据Xg与每一个聚类质心的绝对差,并降序排序,得到最小值,并将该宽高标准化数据Xg分到最小值对应的聚类簇中;将所有宽高标准化数据重复该步骤,更新每一个聚类簇
Figure FDA0004254399940000041
得到新的k个聚类簇/>
Figure FDA0004254399940000042
计算第k轮的失真值Dk,计算公式如下:
Figure FDA0004254399940000043
其中,
Figure FDA0004254399940000044
表示第k轮中更新后的第e个聚类簇/>
Figure FDA0004254399940000045
的聚类质心;/>
Figure FDA0004254399940000046
表示第k轮中更新后的第e个聚类簇/>
Figure FDA0004254399940000047
的宽高矩阵标准化数据的数量;/>
Figure FDA0004254399940000048
表示第k轮中更新后的第e个聚类簇/>
Figure FDA0004254399940000049
中第h个宽高标准化数据;
(a4)判断(Dk-Dk-1)/Dk-1是否小于失真减小阈值ε,其中,Dk-1为第k-1轮的失真值;
若小于,则退出循环聚类操作;
若大于,则继续步骤(a3)进行第k+1轮K-means聚类;
(a5)退出循环聚类操作后,将本轮求得的更新后的k个聚类质心作为聚类质心矩阵乘上步骤(a1)求得的宽高矩阵标准化系数,输出宽高基准集合。
5.根据权利要求4所述的一种基于目标框的大尺寸图像自适应裁剪方法,其特征在于,所述步骤(3.3)具体包括以下子步骤:
(3.3.1)大尺寸图像Po′的尺寸为Wo*Ho,子图大小为win1*win2,滑窗横向步长为win1-Wh,滑窗纵向步长为win2-Hh,其中,Wh为轮循环裁剪处理过程中从宽高基准集合Ap随机选取的宽,每次都重新选取;Hh为轮循环裁剪处理过程中从宽高基准集合Ap随机选取的高,每次都重新选取;从大尺寸图像Po′的左上角开始裁剪,然后设定滑窗顺序从左至右的横向,然后再从上到下的纵向;
(3.3.2)在大尺寸图像Po′的左上角取大小为win1*win2的窗口并裁剪,得到第一张子图,所述第一张子图的像素矩阵为[0:win1,0:win2],然后按照横向步长为win1-Wh向右滑动并裁剪,重复上述步骤,直至第一行的最后一张子图的窗口超出待裁剪图像范围,则第一行的最后一张子图的窗口的像素矩阵设为[Wo-win1:Wo,0:win2]并裁剪;
(3.3.3)第一行裁剪完成后,按照滑窗纵向步长为win2-Hh向下滑动并裁剪,得到第二行的第一张子图的像素矩阵为[0:win1,win2-Hh:2*win2-Hh],重复步骤(3.3.2)裁剪第二行;
(3.3.4)重复步骤(3.3.3),直达最后一行的第一张子图的窗口超出待裁剪图像范围,则最后一行的第一张子图的窗口的像素矩阵设为[0:win1,Ho-win2:Ho]并裁剪,得到最后一行的第一张子图,重复步骤(3.3.2),直到最后一行的最后一张子图的窗口超出待裁剪图像范围,则最后一行的第一张子图的窗口的像素矩阵设为[Wo-win1:Wo,Ho-win2:Ho]并裁剪,得到最后一行的第一张子图;完成对待裁剪图像的裁剪,得到
Figure FDA0004254399940000051
张大小为win1*win2的子图,其中,Tp表示在第p轮循环裁剪处理中大尺寸图像Po′进行实际自适应的重叠裁剪后得到的子图数。
6.根据权利要求5所述的一种基于目标框的大尺寸图像自适应裁剪方法,其特征在于,所述步骤(4)中所述若待裁剪图像包含关键目标的宽高信息,获取待裁剪图像的关键目标的平均宽高信息,将平均宽高信息与宽高基准集合Abest进行匹配,得到与平均宽高信息的欧式距离最小的宽高基准作为待裁剪图像固定的宽高基准,对待裁剪图像进行裁剪处理,得到相同尺寸的多个子图集合,具体包括以下子步骤:
(c1)输入待裁剪图像,若待裁剪图像包含关键目标的宽高信息,得到待裁剪图像的平均宽高信息(We,He);将平均宽高信息(We,He)与宽高基准集合Abest进行匹配,得到与平均宽高信息(We,He)的欧式距离最小的宽高基准(Wb,Hb),将宽高基准(Wb,Hb)作为待裁剪图像固定的宽高基准;
(c2)待裁剪图像的尺寸为WA*HA,子图大小为win3*win4;滑窗横向步长为win3-Wb,固定不变;滑窗纵向步长为win4-Hb,固定不变;从待裁剪图像的左上角开始裁剪,然后设定滑窗顺序从左至右的横向,然后再从上到下的纵向;
(c3)在待裁剪图像的左上角取尺寸大小为win3*win4的窗口并裁剪,得到第一行的第一张子图,所述第一行的第一张子图的像素矩阵为[0:win3,0:win4],然后按照滑窗横向步长为win3-Wb向右滑动并裁剪,得到第一行的第二张子图的像素矩阵为[win3-Wb:2*win3-Wb,0:win4],重复上述步骤,直至第一行的最后一张子图的窗口超出待裁剪图像范围,则第一行的最后一张子图的窗口的像素矩阵设为[WA-win3:WA,0:win4]并裁剪,得到第一行的最后一张子图,所述第一行的最后一张子图的像素矩阵设为[WA-win3:WA,0:win4];
(c4)第一行裁剪完成后,按照滑窗纵向步长为win4-Hb向下滑动并裁剪,得到第二行的第一张子图的像素矩阵为[0:win3,win4-Hb:2*win4-Hb],重复步骤(c3)裁剪第二行;
(c5)重复步骤(c4),直达最后一行的第一张子图的窗口超出待裁剪图像范围,则最后一行的第一张子图的窗口的像素矩阵设为[0:win3,HA-win4:HA]并裁剪,得到最后一行的第一张子图,所述最后一行的第一张子图的像素矩阵设为[0:win3,HA-win4:HA],重复步骤(c3),直到最后一行的最后一张子图的窗口超出待裁剪图像范围,则最后一行的最后一张子图的窗口的像素矩阵设为[WA-win3:WA,HA-win4:HA]并裁剪,得到最后一行的最后一张子图,所述最后一行的最后一张子图的像素矩阵设为[WA-win3:WA,HA-win4:HA];完成对待裁剪图像的裁剪,得到多张大小为win3*win4的子图。
7.根据权利要求5所述的一种基于目标框的大尺寸图像自适应裁剪方法,其特征在于,所述步骤(4)中所述若待裁剪图像不包含宽高信息,从宽高基准集合Abest中随机选取宽基准和高基准对待裁剪图像进行裁剪处理,得到相同尺寸的多个子图集合,具体包括以下子步骤:
(d1)若待裁剪图像不包含宽高信息,从宽高基准集合Abest中随机选取宽基准Wc和高基准Hd对待裁剪图像进行裁剪处理;
(d2)待裁剪图像的尺寸为WA*HA,子图大小为win3*win4;滑窗横向步长为win3-Wc,每次都重新选择;滑窗纵向步长为win4-Hd,每次都重新选择;从待裁剪图像的左上角开始裁剪,然后设定滑窗顺序从左至右的横向,然后再从上到下的纵向;
(d3)在待裁剪图像的左上角取大小为win3*win4的窗口并裁剪,得到第一行的第一张子图,所述第一行的第一张子图的像素矩阵为[0:win3,0:win4],然后按照滑窗横向步长为win3-Wc向右滑动并裁剪,重复上述步骤,直至第一行的最后一张子图的窗口超出待裁剪图像范围,则第一行的最后一张子图的窗口的像素矩阵设为[WA-win3:WA,0:win4]并裁剪,得到第一行的最后一张子图,所述第一行的最后一张子图的像素矩阵设为[WA-win3:WA,0:win4];
(d4)第一行裁剪完成后,按照滑窗纵向步长为win4-Hd向下滑动并裁剪,得到第二行的第一张子图的像素矩阵为[0:win3,win4-Hd:2*win4-Hd],重复步骤(d3)裁剪第二行;
(d5)重复步骤(d4),直达最后一行的第一张子图的窗口超出待裁剪图像范围,则最后一行的第一张子图的窗口的像素矩阵设为[0:win3,HA-win4:HA]并裁剪,得到最后一行的第一张子图,所述最后一行的第一张子图的像素矩阵设为[0:win3,HA-win4:HA],重复步骤(d3),直到最后一行的最后一张子图的窗口超出待裁剪图像范围,则最后一行的最后一张子图的窗口的像素矩阵设为[WA-win3:WA,HA-win4:HA]并裁剪,得到最后一行的最后一张子图,所述最后一行的最后一张子图的像素矩阵设为[WA-win3:WA,HA-win4:HA];完成对待裁剪图像的裁剪,得到多张大小为win3*win4的子图。
8.一种基于目标框的大尺寸图像自适应裁剪装置,其特征在于,包括一个或多个处理器,用于实现权利要求1-7中任一项所述的基于目标框的大尺寸图像自适应裁剪方法。
9.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时,用于实现权利要求1-7中仟一项所述的基于目标框的大尺寸图像自适应裁剪方法。
CN202310311383.3A 2023-03-28 2023-03-28 一种基于目标框的大尺寸图像自适应裁剪方法和装置 Active CN116071556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310311383.3A CN116071556B (zh) 2023-03-28 2023-03-28 一种基于目标框的大尺寸图像自适应裁剪方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310311383.3A CN116071556B (zh) 2023-03-28 2023-03-28 一种基于目标框的大尺寸图像自适应裁剪方法和装置

Publications (2)

Publication Number Publication Date
CN116071556A CN116071556A (zh) 2023-05-05
CN116071556B true CN116071556B (zh) 2023-07-07

Family

ID=86175283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310311383.3A Active CN116071556B (zh) 2023-03-28 2023-03-28 一种基于目标框的大尺寸图像自适应裁剪方法和装置

Country Status (1)

Country Link
CN (1) CN116071556B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113989744A (zh) * 2021-10-29 2022-01-28 西安电子科技大学 一种基于超大尺寸高分辨图像的行人目标检测方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523503A (zh) * 2018-09-11 2019-03-26 北京三快在线科技有限公司 一种图像裁剪的方法和装置
CN111222474B (zh) * 2020-01-09 2022-11-04 电子科技大学 一种任意尺度的高分辨率图像小目标检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113989744A (zh) * 2021-10-29 2022-01-28 西安电子科技大学 一种基于超大尺寸高分辨图像的行人目标检测方法及系统

Also Published As

Publication number Publication date
CN116071556A (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
WO2020098250A1 (zh) 字符识别方法、服务器及计算机可读存储介质
CN112686812B (zh) 银行卡倾斜矫正检测方法、装置、可读存储介质和终端
US11586863B2 (en) Image classification method and device
CN108961180B (zh) 红外图像增强方法及系统
CN110688524B (zh) 视频检索方法、装置、电子设备及存储介质
US20150012472A1 (en) Systems, methods, and media for updating a classifier
CN104969257A (zh) 图像处理设备和图像处理方法
CN108229232B (zh) 批量扫描二维码的方法和批量扫描二维码的装置
CN111626342B (zh) 一种图像样本处理方法、装置及存储介质
CN112613553B (zh) 图片样本集生成方法、装置、计算机设备和存储介质
CN111539957A (zh) 一种用于目标检测的图像样本生成方法、系统及检测方法
JP2008251029A (ja) 文字認識装置、ナンバープレート認識システム
CN113793357A (zh) 一种基于深度学习的支气管肺段图像分割方法及系统
CN112149756A (zh) 模型训练方法、图像识别方法、装置、设备及存储介质
CN114444565A (zh) 一种图像篡改检测方法、终端设备及存储介质
CN116071556B (zh) 一种基于目标框的大尺寸图像自适应裁剪方法和装置
US7532756B2 (en) Grayscale character dictionary generation apparatus
CN115908363B (zh) 肿瘤细胞统计方法、装置、设备和存储介质
CN115630660B (zh) 基于卷积神经网络的条码定位方法和装置
CN115035988A (zh) 基于云计算的医学影像处理方法、系统、设备及介质
CN112861836B (zh) 文本图像处理方法、文本及卡证图像质量评价方法和装置
CN110096607B (zh) 一种标签图片的获取方法及装置
CN113240611A (zh) 一种基于图片序列的异物检测方法
CN110929788A (zh) 食材识别方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant