CN112016614B - 光学图像目标检测模型的构建方法、目标检测方法及装置 - Google Patents
光学图像目标检测模型的构建方法、目标检测方法及装置 Download PDFInfo
- Publication number
- CN112016614B CN112016614B CN202010879047.5A CN202010879047A CN112016614B CN 112016614 B CN112016614 B CN 112016614B CN 202010879047 A CN202010879047 A CN 202010879047A CN 112016614 B CN112016614 B CN 112016614B
- Authority
- CN
- China
- Prior art keywords
- image
- detection
- target
- cutting
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 176
- 230000003287 optical effect Effects 0.000 title claims abstract description 84
- 238000010276 construction Methods 0.000 title claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 74
- 230000006870 function Effects 0.000 claims abstract description 69
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 230000009466 transformation Effects 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 19
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 11
- 230000001629 suppression Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000009966 trimming Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种光学图像目标检测模型的构建方法、目标检测方法及装置,通过对原始图像进行预处理,得到数据集;对数据集中的训练集中检测目标的边界框进行聚类处理,得到锚框的尺寸作为先验信息;将训练集和先验信息输入预先构建的深度网络学习模型中,对深度网络学习模型进行训练,得到训练后的光学图像目标检测模型;其中,深度网络学习模型的损失函数包括边界框位置损失函数、置信度损失函数,以及,类别损失函数,实现了复杂背景下,对于大尺寸光学遥感图像的目标检测,有着较好的鲁棒性和模型泛化能力,能够以更高的精度、更快的速度对不同类型的目标进行多尺度检测。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种光学图像目标检测模型的构建方法、目标检测方法及装置。
背景技术
随着技术的发展,光学遥感成像系统的分辨率已达到亚米级别,能够获得更高空间分辨率的成像结果,为后期信息处理提供了更丰富的细节信息,且更为直观并便于识别与理解。得益于高分辨率,光学遥感图像中所含特定目标的轮廓、纹理更加清晰,结构特征更加明显,因此高分辨率光学遥感图像在遥感目标检测领域应用越来越为广泛。
光学遥感图像目标检测关注的是一张光学遥感图像中特定的目标,需要采用一定的方法从背景中分离出特定的目标,并获得这一特定目标的位置和类别信息。随着深度学习技术的飞速发展,光学遥感图像的目标检测方法也从基于手工特征的传统算法转向了基于深度神经网络的检测技术。深度神经网络可以通过其网络结构和丰富的数据量,通过数据驱动的方式学习到图像中更深层次的语义信息和特征信息,实现自动化提取图像特征,并拥有更好的泛化能力和通用性,基于深度神经网络的目标检测算法使目标检测算法的性能相比传统方法有了巨大的提升。
但是,现有的目标检测算法主要针对自然场景下的目标进行检测,而光学遥感图像目标检测背景复杂、目标差异大、占图像比例小,采用现有的目标检测方法检测光学遥感图像中的目标容易造成漏检、误检,检测精确度较低。
发明内容
有鉴于此,本发明的目的在于提供一种光学图像目标检测模型的构建方法、目标检测方法及装置,以克服目前现有的目标检测方法检测光学遥感图像中的目标容易造成漏检、误检,检测精确度较低的问题。
为实现以上目的,本发明采用如下技术方案:
一种光学图像目标检测模型的构建方法,包括:
对原始图像进行预处理,得到数据集;其中,所述数据集包括训练集;
对所述训练集中检测目标的边界框进行聚类处理,得到锚框的尺寸作为先验信息;
将所述训练集和所述先验信息输入预先构建的深度网络学习模型中,对所述深度网络学习模型进行训练,得到训练后的光学图像目标检测模型;其中,所述深度网络学习模型的损失函数包括采用BCELoss和Smoothl1Loss相结合计算的边界框位置损失函数、采用BCELoss的置信度损失函数,以及,采用BCELoss的类别损失函数。
进一步地,以上所述的光学图像目标检测模型的构建方法,所述数据集还包括非训练集;
所述对原始图像进行预处理,得到数据集,包括:
标记所述原始图像中的所述检测目标,得到标记图像;
将所述标记图像按照预设的裁剪方式进行裁剪,得到裁剪后的裁剪图像;
保留所述裁剪图像中含有所述检测目标的目标图像;
将同一个原始图像裁剪得到的所述目标图像全部划分为所述训练集或所述非训练集。
进一步地,以上所述的光学图像目标检测模型的构建方法,所述将所述标记图像按照预设的裁剪方式进行裁剪,得到裁剪后的裁剪图像,包括:
采用带重叠度裁剪法和/或等分裁剪法,对所述标记图像进行裁剪,得到裁剪初始图像;
根据所述裁剪初始图像的位置,对像素缺失的裁剪初始图像进行镜像填充;
填充完成后,将像素完整的裁剪初始图像作为所述裁剪图像。
进一步地,以上所述的光学图像目标检测模型的构建方法,所述对所述训练集中检测目标的边界框进行聚类处理,得到锚框的尺寸作为先验信息,包括:
选用所述边界框与聚类中心标记框之间的交并比作为距离指标进行聚类处理,得到至少一个尺度下的锚框的尺寸,为所述深度网络学习模型的训练提供所述先验信息。
进一步地,以上所述的光学图像目标检测模型的构建方法,所述将所述训练集和所述先验信息输入预先构建的深度网络学习模型中,包括:
随机对所述训练集中的所述目标图像进行仿射变换和/或颜色空间变换;
将进行过所述仿射变换和/或所述颜色空间变换的目标图像输入预先构建的深度网络学习模型中。
进一步地,以上所述的光学图像目标检测模型的构建方法,所述将所述训练集和所述先验信息输入预先构建的深度网络学习模型中,还包括:
每间隔预设的迭代次数后对所述训练集中的所述目标图像进行尺寸变换;
将进行过所述尺寸变换的目标图像输入预先构建的深度网络学习模型中。
进一步地,以上所述的光学图像目标检测模型的构建方法,所述损失函数为所述边界框位置损失函数、所述置信度损失函数和所述类别损失函数之和,如下式所示:
其中,LOSS(obiect)1为所述边界框位置损失函数;LOSS(obiect)2为所述置信度损失函数;LOSS(obiect)3为所述类别损失函数。
本发明还提供了一种光学图像目标检测方法,应用于以上任一项所述的光学图像目标检测模型中,所述方法包括:
对预先获取到的检测原始图像进行原图裁剪处理,得到检测裁剪图像;
将所述检测裁剪图像输入到预先训练的所述光学图像目标检测模型中,获取所述光学图像目标检测模型输出的与所述检测裁剪图像一一对应的检测结果;
将所述检测结果一一复原到初始位置,得到复原图像;其中,所述初始位置为所述检测结果对应的检测裁剪图像在所述检测原始图像中的位置;
对所述复原图像按照预设的排列依据进行非极大值抑制处理,得到检测结果;
本发明还提供了一种光学图像目标检测模型的构建装置,包括:
预处理模块,用于对原始图像进行预处理,得到数据集;其中,所述数据集包括训练集;
聚类处理模块,用于对所述训练集中检测目标的边界框进行聚类处理,得到锚框的尺寸作为先验信息;
训练模块,用于将所述训练集和所述先验信息输入预先构建的深度网络学习模型中,对所述深度网络学习模型进行训练,得到训练后的光学图像目标检测模型;其中,所述深度网络学习模型的损失函数采用BCELoss和Smoothl1Loss相结合计算的边界框位置损失函数、采用BCELoss的置信度损失函数,以及,采用BCELoss的类别损失函数。
本发明还提供了一种光学图像目标检测装置,包括:
裁剪模块,用于对预先获取到的检测原始图像进行原图裁剪处理,得到检测裁剪图像;
输入模块,用于将所述检测裁剪图像输入到预先训练的所述光学图像目标检测模型中,获取所述光学图像目标检测模型输出的与所述检测裁剪图像一一对应的检测结果;
复原模块,用于将所述检测结果一一复原到初始位置,得到复原图像;其中,所述初始位置为所述检测结果对应的检测裁剪图像在所述检测原始图像中的位置;
非极大值抑制模块,用于对所述复原图像按照预设的排列依据进行非极大值抑制处理,得到检测结果;
本发明的光学图像目标检测模型的构建方法、目标检测方法及装置,通过对原始图像进行预处理,得到数据集;对数据集中的训练集中检测目标的边界框进行聚类处理,得到锚框的尺寸作为先验信息;将训练集和先验信息输入预先构建的深度网络学习模型中,对深度网络学习模型进行训练,得到训练后的光学图像目标检测模型;其中,深度网络学习模型的损失函数包括采用BCELoss和Smoothl1Loss相结合计算的边界框位置损失函数、采用BCELoss的置信度损失函数,以及,采用BCELoss的类别损失函数,实现了复杂背景下,对于大尺寸光学遥感图像的目标检测,有着较好的鲁棒性和模型泛化能力,能够以更高的精度、更快的速度对不同类型的目标进行检测。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明光学图像目标检测模型的构建方法一种实施例提供的流程图;
图2是本发明光学图像目标检测模型的构建装置一种实施例提供的结构示意图;
图3是本发明光学图像目标检测方法一种实施例提供的流程图;
图4是本发明光学图像目标检测装置一种实施例提供的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
图1是本发明光学图像目标检测模型的构建方法一种实施例提供的流程图。请参阅图1,本实施例可以包括以下步骤:
S101、对原始图像进行预处理,得到数据集。
本实施例中,可以首先对光学图像训练样本进行处理,即,对原始图像进行预处理得到数据集。其中,数据集一般包括训练集、验证集和测试集,本实施例中将验证集和测试集归为非训练集。
本实施例以光学遥感图像中的舰船目标检测为例进行说明。具体地,可以按照如下步骤对原始图像进行预处理:
步骤一:标记原始图像中的检测目标,得到标记图像。
可以标记原始图像中的检测目标,即标记原始图像中的舰船目标,其中包括标记舰船目标的类别、中心x轴坐标、中心y轴坐标、宽度和长度等,并将上述信息进行归一化处理,得到标记图像。
步骤二:将标记图像按照预设的裁剪方式进行裁剪,得到裁剪后的裁剪图像。
得到标记图像后,可以按照预设的裁剪方式进行裁剪,其中,可以采用带重叠度裁剪法和/或等分裁剪法以滑动窗口的方式,自左向右、自顶向下对标记图像进行裁剪。而带重叠度裁剪包含冗余信息,重叠度难以确定,为了节约训练成本,本实施例可以采用等分裁剪法对标记图像进行裁剪,得到裁剪初始图像。
在一种具体地实施方式中,采用等分裁剪法自左向右、自顶向下对标记图像进行裁剪,那么标记图像的下侧和右侧可能会出现由于裁剪初始图像不完整而导致的检测目标像素缺失问题。可以对最右侧的裁剪初始图像的右侧边缘做水平镜像填充,对最下侧的裁剪初始图像的下侧边缘做垂直镜像填充,得到检测目标像素完整的裁剪初始图像。其中位于右下角的裁剪初始图像同时进行了水平镜像填充和垂直镜像填充,相当于进行了180度翻转填充。
将本身像素完整的和像素填充后的裁剪初始图像作为裁剪图像。
步骤三:保留裁剪图像中含有检测目标的目标图像。
对所有的裁剪图像进行筛除处理。具体地,将裁剪图像中不包含检测目标的图像筛除,以及,裁剪中出现标记框被截断后只包含背景的图像筛除,保留裁剪图像中含有检测目标的目标图像。
步骤四:将同一个原始图像裁剪得到的目标图像全部划分为训练集或非训练集。
将目标图像划分到数据集中。需要说明的是,为了避免数据污染,在实际划分中,将一张原始图像裁剪下来的所有目标图像全部划分为训练集,或者,将一张原始图像裁剪下来的所有目标图像全部划分验证与测试集。
在一种具体地实施方式中,训练集、验证集和测试集的划分比例近似为:4∶1∶5。
S102、对数据集所包含的训练集中的检测目标边界框进行聚类处理,得到锚框的尺寸作为先验信息。
选用边界框与聚类中心标记框之间的交并比作为距离指标进行聚类处理,得到至少一个尺度下的锚框的尺寸,为深度网络学习模型的训练提供先验信息。
在一种具体地实施方式中,采用K-means聚类的方法进行聚类处理。模型在训练前要根据训练集中检测目标的边界框预设锚框(anchor box)的数值,选用边界框(box)与聚类中心标记框(centroid)之间的IoU(交并比)值作为距离指标,其中K-means所用的距离公式为:
d(box,centroid)=1-IοU(box,centroid)
可以计算得到三个尺度下三种anchor box的预设长宽,为模型提供先验信息。
S103、将训练集和先验信息输入预先构建的深度网络学习模型中,对深度网络学习模型进行训练,得到训练后的光学图像目标检测模型。
可以选用YOLO v3算法作为本实施例的深度网络学习模型。YOLO v3是兼顾速度与精度的典型单阶段目标检测算法,其基础网络结构——Darknet-53完全由连续的3×3卷积层和1×1卷积层构成,网络结构没有引入池化层和全连接层,并进一步加深了网络结构,为解决网络结构加深所引起的梯度消失问题——随着网络结构的加深,在训练过程中训练集损失函数会不降反升,YOLO v3借鉴了ResNet网络设计的思想,引入了残差块(ResBlock)结构,可以通过直接映射的方式来连接网络不同层次的结构,其保证了更深层次的网络包含比前一层更多的图像信息,使得网络具有更优的性能;并采用了特征金字塔网络(FPN,Feature Pyramid Network)结构,可以更轻松地提取输入图像的多层次特征,包括低层特征和高层特征,并在不损失速度的前提下有效提高了模型性能并实现了多尺度检测。
可以将先验信息和训练集输入预先构建的深度网络学习模型中,采用Multistep学习率策略,对深度网络学习模型进行训练。其中,可以先对训练集进行数据增强与尺度变换处理,将处理完成的训练集发送到预先构建的深度网络学习模型中。
数据增强与尺度变换处理包括:随机对训练集中的目标图像进行仿射变换和/或颜色空间变换,将进行过仿射变换和/或颜色空间变换的目标图像输入预先构建的深度网络学习模型中;每间隔预设的迭代次数后对训练集中的目标图像进行尺寸变换,将进行过尺寸变换的目标图像输入预先构建的深度网络学习模型中。
具体地,通过选取适合检测目标的数据增强方式可以对特定检测目标的特殊特征在一定范围内做随机变化,以提高模型的泛化能力。
所实现的数据增强方式有以下两大类,包括图像的仿射变换与颜色空间变换。图像的仿射变换(Affine Transformation)是指在向量空间中进行一次线性变换(乘以一个矩阵)和一次平移(加上一个向量),变换到另一个向量空间的过程;图像的颜色空间变换是指图像在不同颜色空间之间进行映射与调整。图形的仿射变换具体包括以下几种基础的几何变换:平移(Translation)、缩放(Scale)、旋转(Rotation)、翻转(Flip)和错切(Shear)。颜色空间变换指将RGB颜色空间映射到HSV颜色空间,然后随机进行色调(H),饱和度(S),明度(V)的抖动。
由于YOLO v3网络结构中只使用了卷积层,所以不限制输入图像的尺寸,只需满足网络的总下采样倍数即可,为了增强模型的鲁棒性,在训练过程中引入了尺度变化策略,即在模型训练过程中,每间隔一定的迭代次数后改变模型输入图像的尺寸,使模型可以更好的适应不同尺寸的图像输入、目标多样的尺寸和图像不同的分辨率,让模型适应不同尺寸下的目标特征,增强模型的鲁棒性。
此外,现有技术中损失函数的公式为:
为了提高模型的精度,本实施例对损失函数进行了调整,损失函数采取求均值(mean)的方式计算。其中,深度网络学习模型的损失函数包括采用BCELoss和Smoothl1Loss相结合计算的边界框位置损失函数、采用BCELoss的置信度损失函数,以及,类别损失函数。损失函数为边界框位置损失函数、置信度损失函数和类别损失函数之和,如下式所示:
其中,LOSS(obiect)1为边界框位置损失函数;LOSS(obiect)2为置信度损失函数;LOSS(obiect)3为类别损失函数。
进一步地,模型在评价时选用VOC数据集的mAP计算方式以及Inference time分别衡量算法的精度以及速度。
本实施例的光学图像目标检测模型的构建方法,通过对原始图像进行预处理,得到数据集;对数据集中的训练集中检测目标的边界框进行聚类处理,得到锚框的尺寸作为先验信息;将训练集和先验信息输入预先构建的深度网络学习模型中,对深度网络学习模型进行训练,得到训练后的光学图像目标检测模型;其中,深度网络学习模型的损失函数包括采用BCELoss和Smoothl1Loss相结合计算的边界框位置损失函数、采用BCELoss的置信度损失函数,以及,采用BCELoss的类别损失函数,实现了复杂背景下,对于大尺寸光学遥感图像的目标检测,有着较好的鲁棒性和模型泛化能力,能够以更高的精度、更快的速度对不同类型的目标进行检测。
图2是本发明光学图像目标检测模型的构建装置一种实施例提供的结构示意图。如图2所示,本实施例还提供了一种光学图像目标检测模型的构建装置,包括:
预处理模块11,用于对原始图像进行预处理,得到数据集;其中,数据集包括训练集;
聚类处理模块12,用于对训练集中检测目标的边界框进行聚类处理,得到锚框的尺寸作为先验信息;
训练模块13,用于将训练集和先验信息输入预先构建的深度网络学习模型中,对深度网络学习模型进行训练,得到训练后的光学图像目标检测模型;其中,深度网络学习模型的损失函数包括采用BCELoss和Smoothl1Loss相结合计算的边界框位置损失函数、采用BCELoss的置信度损失函数,以及,采用BCELoss的类别损失函数。
进一步地,数据集还包括非训练集;
预处理模块11,具体用于标记原始图像中的检测目标,得到标记图像;将标记图像按照预设的裁剪方式进行裁剪,得到裁剪后的裁剪图像;保留裁剪图像中含有检测目标的目标图像;将同一个原始图像裁剪得到的目标图像全部划分为训练集或非训练集。
预处理模块11,具体还用于采用带重叠度裁剪法和/或等分裁剪法,对标记图像进行裁剪,得到裁剪初始图像;根据裁剪初始图像的位置,对像素缺失的裁剪初始图像进行镜像填充;填充完成后,将像素完整的裁剪初始图像作为裁剪图像。
本实施例的光学图像目标检测模型的构建装置,实现了复杂背景下,对于大尺寸光学遥感图像的目标检测,有着较好的鲁棒性和模型泛化能力,能够以更高的精度、更快的速度对不同类型的目标进行检测。
进一步地,聚类处理模块12,具体用于选用边界框与聚类中心标记框之间的交并比作为距离指标进行聚类处理,得到至少一个尺度下的锚框的尺寸,为深度网络学习模型的训练提供先验信息。
进一步地,训练模块13,具体用于随机对训练集中的目标图像进行仿射变换和/或颜色空间变换;将进行过仿射变换和/或颜色空间变换的目标图像输入预先构建的深度网络学习模型中。
进一步地,训练模块13,具体还用于每间隔预设的迭代次数后对训练集中的目标图像进行尺寸变换;将进行过尺寸变换的目标图像输入预先构建的深度网络学习模型中。
进一步地,损失函数为边界框位置损失函数、置信度损失函数和类别损失函数之和,如下式所示:
其中,LOSS(obiect)1为边界框位置损失函数;LOSS(obiect)2为置信度损失函数;LOSS(obiect)3为类别损失函数。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明还提供了一组光学图像目标检测模型的构建设备,用于实现上述方法实施例。本实施例的光学图像目标检测模型的构建设备包括第一处理器和第一存储器,第一处理器与第一存储器相连。其中,第一处理器用于调用并执行第一存储器中存储的程序。第一存储器用于存储上述程序,上述程序至少用于执行以上实施例的光学图像目标检测模型的构建方法。
图3是本发明光学图像目标检测方法一种实施例提供的流程图。基于一个总的发明构思,本发明还提供了一种光学图像目标检测方法,请参阅图2,实施例的方法可以包括以下步骤:
S201、对预先获取到的检测原始图像进行原图裁剪处理,得到检测裁剪图像。
S202、将检测裁剪图像输入到预先训练的光学图像目标检测模型中,获取光学图像目标检测模型输出的与检测裁剪图像一一对应的检测结果。
S203、将检测结果一一复原到初始位置,得到复原图像。
其中,初始位置为检测结果对应的检测裁剪图像在检测原始图像中的位置。
S204、对复原图像按照预设的排列依据进行非极大值抑制处理,得到检测结果。
具体地,检测原始图像采取25%的带重叠度裁剪,得到检测裁剪图像。采用以上实施例中已训练好的光学图像目标检测模型对检测裁剪图像进行目标检测,得到光学图像目标检测模型输出的与检测裁剪图像一一对应的检测结果。将小尺寸的检测结果复原到原始大尺寸的检测原始图像之上,因为其仍然存在预测框重叠的问题,需要通过非极大值抑制(NMS)算法进一步的优化预测结果,剔除重叠预测框。本实施例的NMS排列依据为:
其中,w和h分为是预测框的长和宽。
本实施将小尺寸的检测结果复原到原始大尺寸的检测原始图像之上,重叠框的问题主要出现在检测目标被截断,影响因素为检测目标被截断大小。本实施例的NMS排列依据相对于现有技术中的排序依据score=Confidence_Score,针对检测目标被截断导致的预测框重叠进行优化,能够得到更精确的优化结果。
本实施例的光学图像目标检测方法,实现了复杂背景下,对于大尺寸光学遥感图像的目标检测,有着较好的鲁棒性和模型泛化能力,能够以更高的精度、更快的速度对不同类型的目标进行检测。
图4是本发明光学图像目标检测装置一种实施例提供的结构示意图。本发明还提供了一种光学图像目标检测装置,装置包括:
裁剪模块21,用于对预先获取到的检测原始图像进行原图裁剪处理,得到检测裁剪图像;
输入模块22,用于将检测裁剪图像输入到预先训练的光学图像目标检测模型中,获取光学图像目标检测模型输出的与检测裁剪图像一一对应的检测结果;
复原模块23,用于将检测结果一一复原到初始位置,得到复原图像;其中,初始位置为检测结果对应的检测裁剪图像在检测原始图像中的位置;
非极大值抑制模块24,用于对复原图像按照预设的排列依据进行非极大值抑制处理,得到检测结果;
本实施例的光学图像目标检测装置,实现了复杂背景下,对于大尺寸光学遥感图像的目标检测,有着较好的鲁棒性和模型泛化能力,能够以更高的精度、更快的速度对不同类型的目标进行检测。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明还提供了一组光学图像目标检测设备,用于实现上述方法实施例。本实施例的光学图像目标检测模型的构建设备包括第二处理器和第二存储器,第二处理器与第二存储器相连。其中,第二处理器用于调用并执行第二存储器中存储的程序。第二存储器用于存储上述程序,上述程序至少用于执行以上实施例的光学图像目标检测方法。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (6)
1.一种光学图像目标检测模型的构建方法,其特征在于,包括:
对原始图像进行预处理,得到数据集;其中,所述数据集包括训练集;
对所述训练集中检测目标的边界框进行聚类处理,得到锚框的尺寸作为先验信息;
将所述训练集和所述先验信息输入预先构建的深度网络学习模型中,对所述深度网络学习模型进行训练,得到训练后的光学图像目标检测模型;其中,所述深度网络学习模型的损失函数包括采用BCELoss和Smoothl1Loss相结合计算的边界框位置损失函数、采用BCELoss的置信度损失函数,以及,采用BCELoss的类别损失函数;
其中,所述数据集还包括非训练集;
所述对原始图像进行预处理,得到数据集,包括:
标记所述原始图像中的所述检测目标,得到标记图像;
将所述标记图像按照预设的裁剪方式进行裁剪,得到裁剪后的裁剪图像;
保留所述裁剪图像中含有所述检测目标的目标图像;
将同一个原始图像裁剪得到的所述目标图像全部划分为所述训练集或所述非训练集;
其中,所述损失函数为所述边界框位置损失函数、所述置信度损失函数和所述类别损失函数之和,如下式所示:
2.根据权利要求1所述的光学图像目标检测模型的构建方法,其特征在于,所述将所述标记图像按照预设的裁剪方式进行裁剪,得到裁剪后的裁剪图像,包括:
采用带重叠度裁剪法和/或等分裁剪法,对所述标记图像进行裁剪,得到裁剪初始图像;
根据所述裁剪初始图像的位置,对像素缺失的裁剪初始图像进行镜像填充;
填充完成后,将像素完整的裁剪初始图像作为所述裁剪图像。
3.根据权利要求1所述的光学图像目标检测模型的构建方法,其特征在于,所述对所述训练集中检测目标的边界框进行聚类处理,得到锚框的尺寸作为先验信息,包括:
选用所述边界框与聚类中心标记框之间的交并比作为距离指标进行聚类处理,得到至少一个尺度下的锚框的尺寸,为所述深度网络学习模型的训练提供所述先验信息。
4.根据权利要求1所述的光学图像目标检测模型的构建方法,其特征在于,所述将所述训练集和所述先验信息输入预先构建的深度网络学习模型中,包括:
随机对所述训练集中的所述目标图像进行仿射变换和/或颜色空间变换;
将进行过所述仿射变换和/或所述颜色空间变换的目标图像输入预先构建的深度网络学习模型中。
5.根据权利要求1所述的光学图像目标检测模型的构建方法,其特征在于,所述将所述训练集和所述先验信息输入预先构建的深度网络学习模型中,还包括:
每间隔预设的迭代次数后对所述训练集中的所述目标图像进行尺寸变换;
将进行过所述尺寸变换的目标图像输入预先构建的深度网络学习模型中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010879047.5A CN112016614B (zh) | 2020-08-27 | 2020-08-27 | 光学图像目标检测模型的构建方法、目标检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010879047.5A CN112016614B (zh) | 2020-08-27 | 2020-08-27 | 光学图像目标检测模型的构建方法、目标检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112016614A CN112016614A (zh) | 2020-12-01 |
CN112016614B true CN112016614B (zh) | 2022-10-11 |
Family
ID=73502323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010879047.5A Active CN112016614B (zh) | 2020-08-27 | 2020-08-27 | 光学图像目标检测模型的构建方法、目标检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112016614B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112525919A (zh) * | 2020-12-21 | 2021-03-19 | 福建新大陆软件工程有限公司 | 一种基于深度学习的木板缺陷检测系统及方法 |
CN112949385B (zh) * | 2021-01-24 | 2022-12-23 | 西北工业大学 | 一种基于光视觉的水面目标检测与识别方法 |
CN112946684B (zh) * | 2021-01-28 | 2023-08-11 | 浙江大学 | 基于光学目标信息辅助的电磁遥感智能成像系统与方法 |
CN112507996B (zh) * | 2021-02-05 | 2021-04-20 | 成都东方天呈智能科技有限公司 | 一种主样本注意力机制的人脸检测方法 |
CN112966757A (zh) * | 2021-03-11 | 2021-06-15 | 江苏禹空间科技有限公司 | 训练样本的扩展方法、装置、存储介质及设备 |
CN113160188B (zh) * | 2021-04-27 | 2022-07-05 | 福州大学 | 基于圆形特征的鲁棒血细胞检测方法 |
CN113657174A (zh) * | 2021-07-21 | 2021-11-16 | 北京中科慧眼科技有限公司 | 一种车辆伪3d信息检测方法、装置与自动驾驶系统 |
CN113569968B (zh) * | 2021-07-30 | 2024-05-17 | 清华大学苏州汽车研究院(吴江) | 模型训练方法、目标检测方法、装置、设备及存储介质 |
CN113642576B (zh) * | 2021-08-24 | 2024-05-24 | 凌云光技术股份有限公司 | 一种目标检测及语义分割任务中训练图像集合的生成方法及装置 |
CN115205636B (zh) * | 2022-09-15 | 2023-04-07 | 苏州浪潮智能科技有限公司 | 一种图像的目标检测方法、系统、设备及存储介质 |
CN117029673B (zh) * | 2023-07-12 | 2024-05-10 | 中国科学院水生生物研究所 | 一种基于人工智能实现的鱼类体表多尺寸测量方法 |
CN118397660B (zh) * | 2024-06-27 | 2024-08-23 | 临沂大学 | 一种基于卷积神经网络的西北地区熊类识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934121A (zh) * | 2019-02-21 | 2019-06-25 | 江苏大学 | 一种基于YOLOv3算法的果园行人检测方法 |
CN110889399A (zh) * | 2019-12-23 | 2020-03-17 | 北京航天泰坦科技股份有限公司 | 基于深度学习的高分辨率遥感影像弱小目标检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10824916B2 (en) * | 2018-09-10 | 2020-11-03 | Sri International | Weakly supervised learning for classifying images |
-
2020
- 2020-08-27 CN CN202010879047.5A patent/CN112016614B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934121A (zh) * | 2019-02-21 | 2019-06-25 | 江苏大学 | 一种基于YOLOv3算法的果园行人检测方法 |
CN110889399A (zh) * | 2019-12-23 | 2020-03-17 | 北京航天泰坦科技股份有限公司 | 基于深度学习的高分辨率遥感影像弱小目标检测方法 |
Non-Patent Citations (1)
Title |
---|
一种基于级联神经网络的无人机目标关键点检测算法;贾昊龙等;《光学与光电技术》;20200430;第18卷(第2期);第60-68页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112016614A (zh) | 2020-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112016614B (zh) | 光学图像目标检测模型的构建方法、目标检测方法及装置 | |
CN112348815B (zh) | 图像处理方法、图像处理装置以及非瞬时性存储介质 | |
CN113076842B (zh) | 一种用于提升极端天气与环境下交通标志识别精度的方法 | |
CN111738995B (zh) | 一种基于rgbd图像的目标检测方法、装置及计算机设备 | |
CN108446694B (zh) | 一种目标检测方法及装置 | |
CN108764039B (zh) | 神经网络、遥感影像的建筑物提取方法、介质及计算设备 | |
CN111914838B (zh) | 一种基于文本行识别的车牌识别方法 | |
CN111091123A (zh) | 文本区域检测方法及设备 | |
CN106971178A (zh) | 行人检测和再识别的方法及装置 | |
CN113160062A (zh) | 一种红外图像目标检测方法、装置、设备及存储介质 | |
CN111524150A (zh) | 图像处理的方法及装置 | |
CN112508989B (zh) | 一种图像处理方法、装置、服务器以及介质 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN112800955A (zh) | 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统 | |
CN112418165A (zh) | 基于改进型级联神经网络的小尺寸目标检测方法与装置 | |
CN115019274A (zh) | 一种融合追踪与检索算法的路面病害识别方法 | |
CN116403127A (zh) | 一种无人机航拍图像目标检测方法、装置和存储介质 | |
CN113743300A (zh) | 基于语义分割的高分遥感图像云检测方法和装置 | |
CN110046623B (zh) | 一种图像特征点提取方法和相机 | |
CN113887649B (zh) | 一种基于深层特征和浅层特征融合的目标检测方法 | |
CN115205113A (zh) | 一种图像拼接方法、装置、设备及存储介质 | |
CN116798041A (zh) | 图像识别方法、装置和电子设备 | |
CN111260608A (zh) | 一种基于深度学习的舌部区域检测方法及系统 | |
CN116091784A (zh) | 一种目标跟踪方法、设备及存储介质 | |
CN116584100A (zh) | 适合于覆盖媒体内容的图像空间检测 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |