CN113326891A - 小目标对象的检测方法、系统及装置 - Google Patents
小目标对象的检测方法、系统及装置 Download PDFInfo
- Publication number
- CN113326891A CN113326891A CN202110680541.3A CN202110680541A CN113326891A CN 113326891 A CN113326891 A CN 113326891A CN 202110680541 A CN202110680541 A CN 202110680541A CN 113326891 A CN113326891 A CN 113326891A
- Authority
- CN
- China
- Prior art keywords
- image
- small target
- detected
- features
- target object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种小目标对象的检测方法、系统及装置,其中,所述方法包括:获取待检测图像,并通过完成训练的检测模型识别所述待检测图像中的小目标对象;其中,所述检测模型中包括初始模型和层级模型,所述初始模型用于提取所述待检测图像的多尺度特征,所述层级模型用于对所述待检测图像的多尺度特征进行融合,以生成多个融合特征,所述多个融合特征用于预测所述待检测图像中包含的小目标对象,其中,在所述层级模型的顶层和底层引入指定尺度特征进行特征融合。本发明提供的技术方案,能够提高对小目标对象的检测精度。
Description
技术领域
本发明涉及目标检测技术领域,具体涉及一种小目标对象的检测方法、系统及装置。
背景技术
随着无人机技术的不断发展,在观察车流量、指挥引导交通、检测违法事件等方面,无人机都发挥着重要的作用。无人机可以采集监控图像,然后利用内置的目标检测算法对监控图像中的目标进行识别。
然而,在实际应用中,无人机的监控相机角度与普通的监控相机角度存在较大的差异,使得无人机拍摄的监控图像中目标的体积通常较小。而基于现有的目标检测算法,无法准确地对小目标进行识别,从而制约了无人机在监控领域的作用。
发明内容
有鉴于此,本发明实施方式提供了一种小目标对象的检测方法、系统及装置,能够提高对小目标对象的检测精度。
本发明一方面提供了一种小目标对象的检测方法,所述方法包括:获取待检测图像,并通过完成训练的检测模型识别所述待检测图像中的小目标对象;其中,所述检测模型中包括初始模型和层级模型,所述初始模型用于提取所述待检测图像的多尺度特征,所述层级模型用于对所述待检测图像的多尺度特征进行融合,以生成多个融合特征,所述多个融合特征用于预测所述待检测图像中包含的小目标对象,其中,在所述层级模型的顶层和底层引入指定尺度特征进行特征融合。
在一个实施方式中,所述初始模型在提取所述待检测图像的多尺度特征时,下采样次数被减少,并且所述初始模型中神经网络的通道数量被减少。
通过减少初始模型中的下采样次数和通道数量,能够提高特征提取的效率。
在一个实施方式中,所述初始模型中包括残差网络,原始的残差网络中至少包括特征相加层和多个串联的卷积层;其中,所述原始的残差网络中的多个串联的卷积层被简化为一个卷积层,以及所述特征相加层被修改为特征级联层。
通过简化残差网络,能够进一步地提高特征提取的效率。
在一个实施方式中,所述层级模型中至少包括并行排列的第一通路和第二通路,所述第一通路用于对所述多尺度特征进行逐层上采样,所述第二通路用于对所述第一通路各层的输出特征进行逐层下采样。
通过在层级模型中增设上下采样的多个通路,通过第二通路对第一通路的输出特征再次进行融合,能够减少高层信息的丢失,从而让神经网络学习特征的能力更优秀。
在一个实施方式中,所述第一通路的顶层引入第一指定尺度特征进行特征融合,所述第二通路的底层引入第二指定尺度特征进行特征融合,所述第一指定尺度特征的维度小于所述第二指定尺度特征的维度。
通过在不同通路的顶层或底层引入原始的尺度特征,既能获取初始模型生成的浅层输入信息,又能结合第一通路生成的深层输入信息,对于小目标对象的检测有相当好的效果。
在一个实施方式中,所述检测模型按照以下方式训练:获取小目标对象的图像样本集,所述图像样本集中的各个图像样本内包含被标记的小目标对象;利用初始模型提取所述图像样本的多尺度特征,并利用层级模型对所述图像样本的多尺度特征进行融合,以生成多个融合特征,并基于所述多个融合特征预测所述图像样本中包含的小目标对象;其中,在所述层级模型的顶层和底层引入指定尺度特征进行特征融合;分别确定每个所述图像样本中预测的小目标对象与所述图像样本对应标记的小目标对象之间的误差,并通过所述误差对所述初始模型和所述层级模型进行校正。
在一个实施方式中,获取小目标对象的图像样本集包括:采集包含待检测目标的多张图像,并重新调整所述多张图像的尺寸;将进行尺寸调整后的所述多张图像融合为指定尺寸的融合图像,所述融合图像作为小目标对象的图像样本;将各个融合图像的集合作为获取的所述小目标对象的图像样本集。
通过对多张图像进行尺寸调整并进行融合,能够增加小目标的图像样本数量,从而减少图像采集周期。
在一个实施方式中,确定的所述误差包括检测框位置误差和检测类别误差,其中,所述检测框位置误差通过完整重叠度误差函数表示,所述检测类别误差通过交叉熵损失函数表示。
通过两个误差函数来对训练结果进行评估,能够提高模型的训练精度。
本发明另一方面还提供了一种小目标对象的检测系统,所述系统包括:图像获取单元,用于获取待检测图像;检测单元,用于通过完成训练的检测模型识别所述待检测图像中的小目标对象;其中,所述检测模型中包括初始模型和层级模型,所述初始模型用于提取所述待检测图像的多尺度特征,所述层级模型用于对所述待检测图像的多尺度特征进行融合,以生成多个融合特征,所述多个融合特征用于预测所述待检测图像中包含的小目标对象,其中,在所述层级模型的顶层和底层引入指定尺度特征进行特征融合。
本发明另一方面还提供一种小目标对象的检测装置,所述小目标对象的检测装置包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时,实现上述的小目标对象的检测方法。
本发明另一方面还提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被处理器执行时,实现上述的小目标对象的检测方法。
本申请提供的技术方案,在进行小目标对象的检测时,可以先利用初始模型提取待检测图像的多尺度特征,这些多尺度特征可以表征不同分辨率对应的特征。为了增强初始模型中浅层网络的语义特征和深层网络的空间特征,可以利用层级模型继续对多尺度特征进行融合,从而生成多个融合特征。在融合过程中,可以在层级模型的顶层和底层引入指定尺度特征,这样,在特征融合阶段,可以避免特征的过多丢失,从而保证对小目标有比较好的识别效果。
可见,本申请提供的技术方案,通过初始模型和层级模型进行多次的特征提取,并在特征提取过程中引入指定尺度特征,从而对小目标具备较高的检测精度。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了本发明一个实施方式中小目标对象的检测方法示意图;
图2示出了本发明一个实施方式中车辆检测的示意图;
图3(a)示出了本发明一个实施方式中原始残差网络的示意图;
图3(b)示出了本发明一个实施方式中改进后的残差网络的示意图;
图4示出了本发明一个实施方式中特征提取的示意图;
图5示出了本发明一个实施方式中小目标对象的检测系统的功能模块示意图;
图6示出了本发明一个实施方式中小目标对象的检测装置的结构示意图;
图7示出了本发明一个实施方式中检测模型的训练步骤示意图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
本申请提供的小目标对象的检测方法,可以应用于无人机等具备较高拍摄视野的设备中,这部分设备采集的图像中,待检测目标的体积通常较小,利用本申请提供的方法,可以有效地对这些小目标进行检测。
请参阅图1,本申请一个实施方式中提供的小目标对象的检测方法,可以包括以下多个步骤。
S1:获取待检测图像。
S3:通过完成训练的检测模型识别所述待检测图像中的小目标对象;其中,所述检测模型中包括初始模型和层级模型,所述初始模型用于提取所述待检测图像的多尺度特征,所述层级模型用于对所述待检测图像的多尺度特征进行融合,以生成多个融合特征,所述多个融合特征用于预测所述待检测图像中包含的小目标对象,其中,在所述层级模型的顶层和底层引入指定尺度特征进行特征融合。
在本实施方式中,为了有效地对待检测图像中的小目标对象进行识别,可以采用多个模型的组合对待检测图像进行特征提取。具体地,可以先利用初始模型提取待检测图像的多尺度特征,再利用层级模型对多尺度特征进行融合。这样,能同时增强初始模型中浅层网络的语义特征和深层网络的空间特征,使得小目标对象的识别精度更高。
具体地,在一个实施方式中,该初始模型可以基于轻量级的特征提取网络mobilenetv3来构建。在该特征提取网络中,可以包括深度可分离卷积层、残差网络和SE(Squeeze-and-Excitation,挤压-激发)模块,并且该特征提取网络可以采用NAS(NeuralArchitecture Search,神经架构搜索)来搜索网络的配置和参数。待检测图像中的小目标对象的体积较小,为了在特征提取过程中获取更多的检测框位置,可以减少初始模型中的下采样次数。每次下采样时,都会令特征图变小,通过减少初始模型中池化层的数量,从而能够减少下采样的次数。这样,初始模型可以提取出较大的特征图,该较大的特征图中包含的小目标对象也会较多,从而避免在下采样过程中丢失过多的小目标对象。
在另一个实施方式中,为了保证目标检测的实时性,可以进一步地简化初始模型,从而加快数据处理的速度。具体地,在该实施方式中,可以减少初始模型中神经网络的通道(channel)数量,从而加快待检测图像与卷积核的卷积过程。在实际应用中,可以将初始模型内神经网络的通道数量分别减半,从而加快数据处理速度。
此外,在一个实施方式中,还可以对初始模型中的残差网络进行改进。请参阅图3(a),原始的残差网络中,可以包括多个串联的卷积层(图中为两个3*3的卷积层),这多个串联的卷积层可以与一个1*1的卷积层相并联。这多个串联的卷积层的输出结果与1*1的卷积层的输出结果可以由特征相加层进行叠加。在原始的残差网络中,经过多个串联的卷积层进行特征提取,会增加数据处理所消耗的时间,并且经过特征相加层叠加后的结果,会破坏原先串联卷积层和1*1卷积层各自的特征矩阵。为了克服这些缺陷,请参阅图3(b),改进后的残差网络中,可以将原始的残差网络中的多个串联的卷积层简化为一个卷积层,并可以将原先的特征相加层修改为特征级联层。其中,特征级联层并非是将两个特征矩阵相叠加,而只是将这两个特征矩阵融合为一个集合,每个特征矩阵依然会保留自身的矩阵特征。这样,通过改进后的残差网络,一方面可以提高数据处理的速度,另一方面还能够保持各项特征自身的矩阵特性,为后续的数据处理过程提供了比较准确的基础数据。
在本实施方式中,初始模型可以作为训练过程的基础网络(backbone),该初始模型在完成设计后,可以与层级模型相结合。请参阅图4,最左侧从下至上的多级下采样过程,可以由初始模型完成,每经过一次下采样,便可以生成一个对应的尺度特征。在经过多次下采样后,便可以得到不同分辨率的多尺度特征。例如在图4中,可以分别得到分辨率(维度)为76*76、38*38以及19*19的多尺度特征。为了增强初始模型中浅层网络的语义特征和深层网络的空间特征,可以利用层级模型继续对多尺度特征进行融合,从而生成多个融合特征。
具体地,该层级模型可以至少包括并行排列的第一通路和第二通路,如图4所示,第一通路用于对所述多尺度特征进行逐层上采样(从19*19上采样至76*76),第二通路用于对所述第一通路各层的输出特征进行逐层下采样(从76*76下采样至19*19)。其中,第一通路在进行上采样时,可以将初始模型的深层输出特征(19*19的输出特征)经过1*1的卷积神经网络处理后,作为输入特征,并在将该输入特征经过采样因子为2的上采样后,得到38*38的特征,该38*38的特征可以与初始模型生成的38*38的特征相结合(初始模型生成的特征都会经过1*1卷积神经网络的处理),从而得到第一通路中的38*38的融合特征。以此类推,第一通路和第二通路都会逐层地进行特征融合。需要说明的是,通常的层级结构中往往只包含第一通路,在本申请中增设了第二通路,这样,通过第二通路对第一通路的输出特征再次进行融合,能够减少高层信息的丢失,从而让神经网络学习特征的能力更优秀。
除此之外,在一个实施方式中,还可以将初始模型生成的指定尺度特征引入特征融合的过程中,该指定尺度特征可以引入层级模型的顶层和底层,从而能够在特征融合阶段充分利用图像样本的输入特征,这样既能获取初始模型生成的浅层输入信息,又能结合第一通路生成的深层输入信息,对于小目标对象的检测有相当好的效果。
具体地,请参阅图4,初始模型在下采样过程中生成的第一指定尺度特征可以引入第一通路的顶层进行特征融合,第二指定尺度特征可以引入第二通路的底层进行特征融合。由于第一通路的顶层对应的维度小于第二通路的底层对应的维度,因此第一指定尺度特征的维度也应当小于第二指定尺度特征的维度。在一个具体应用示例中,第一指定尺度特征可以是初始模型中76*76的特征经过下采样因子为4的下采样处理后得到的19*19的特征,第二指定尺度特征则可以是初始模型中的76*76的特征。
在本实施方式中,利用初始模型和层级模型对图像样本进行特征提取,可以得到多个融合特征,这些融合特征可以是第二通路各层分别输出的特征。这些融合特征最终会被送入检测器进行检测,从而得到待检测图像的预测结果。该预测结果可以包括预测出的检测框位置,以及预测出的小目标对象的检测类别。
在实际应用中,上述的检测模型可以通过图7所示的多个步骤进行训练。
S2:获取小目标对象的图像样本集,所述图像样本集中的各个图像样本内包含被标记的小目标对象。
在本实施方式中,若待检测目标在图像中所占的区域比例小于一定阈值,则可以将该待检测目标视为小目标对象。在实际应用中,可以根据场景需求的不同,对小目标对象的类型进行划分。例如,在车辆监控体系内,小目标对象可以是车辆。又例如,在安保监控体系内,小目标对象可以是人体。当然,为了能够准确地识别出图像中的小目标对象,通常还会对小目标对象在图像中所占的区域设定一个下限值。例如,在一个具体应用场景中,小目标对象在图像中所占的区域可以不小于5*5像素,低于5*5像素的目标对象,在识别过程中会存在较大的误差,因此这部分目标对象可以不视为小目标对象。
在本实施方式中,可以通过机器学习的方式,训练出用于检测小目标对象的模型。在训练模型之前,需要构建模型的训练样本集。在无人机等设备的正常使用过程中,可以拍摄监控图像。根据应用场景的不同,监控图像中包含的小目标对象的类型也可以不同。例如,当无人机用于车辆监控体系内时,采集的监控图像中通常会包含路面上行驶的车辆,这些车辆就可以作为该场景下的小目标对象。在拍摄到足够数量的监控图像后,这些监控图像便可以作为小目标对象的图像样本,众多的图像样本构成的图像样本集,便可以作为训练模型所需的训练样本集。
在一个实施方式中,考虑到无人机等设备的应用场景比较复杂,拍摄的监控图像随环境的变化也会呈现出不同的质量。在这些质量参差不齐的监控图像中,如果要获取到足够数量的符合训练要求的训练样本,可能需要经历较长的采集周期。为了加快训练样本的构建过程,在该实施方式中,可以对采集到的部分监控图像进行图像增强处理,从而生成更多的训练样本。
具体地,首先可以采集包含待检测目标的多张图像。该待检测目标可以根据实际应用场景来决定。例如,在车辆监控体系内,待检测目标可以是车辆。又例如,在安保监控体系内,待检测目标可以是人体。采集的多张图像中,待检测目标可以并非是体积较小的小目标。经过后续的图像增强处理,可以将这些待检测目标转换为小目标。
请参阅图2,可以将多张图像经过尺寸调整之后,融合为一张图像。这样,在原本图像中并非是小目标对象的待检测目标(图2中的待检测目标为车辆),经过图像融合之后,在整个图像中所占的区域比例会减少,从而在融合后的图像中会成为小目标对象。
具体地,在采集到多张图像之后,可以通过resize功能,重新调整这些图像的尺寸。尺寸调整后的多张图像可以被融合为指定尺寸的融合图像,该指定尺寸是在构建图像样本集之前预先设定的。这样,得到的融合图像便可以作为小目标对象的图像样本。按照以上的方式,可以对不同的图像进行尺寸调整和融合处理,从而形成不同的融合图像,各个融合图像的集合便可以作为小目标对象的图像样本集。
通过上述实施方式的处理,可以将图像中原本不属于小目标对象的物体,转换为融合图像中的小目标对象。这样可以极大地增加小目标对象的图像样本的数量,从而为后续的模型训练提供数量足够并且准确的训练样本。
在本实施方式中,在获取到小目标对象的图像样本集后,可以对图像样本集中的各个图像样本进行小目标标记。具体地,可以采用人工标记的方式,在图像样本内标记出包含的小目标对象。标记的结果可以包括小目标对象的检测框位置和小目标对象的类别。例如在图2中,可以用与车辆的轮廓相匹配的矩形框作为标记得到的检测框位置(图2中仅标记出了一部分检测框位置),针对每个检测框位置,都可以标记出类别为“车辆”。标记得到的结果可以作为图像样本的附加数据,与对应的图像样本相绑定。该标记得到的结果,后续可以作为模型校正的依据。
在一个实施方式中,在对小目标对象进行标记时,考虑到如果将体积过小的对象标记为小目标对象,在识别过程中会由于特征过少,而导致识别结果存在较大的误差,因此这部分体积过小的目标对象可以标记为非小对象目标或者不进行标记。例如,对于融合图像中,小于5*5像素的物体,可以标记为非小目标对象,或者不标记为小目标对象或者不进行标记。
S4:利用初始模型提取所述图像样本的多尺度特征,并利用层级模型对所述图像样本的多尺度特征进行融合,以生成多个融合特征,并基于所述多个融合特征预测所述图像样本中包含的小目标对象;其中,在所述层级模型的顶层和底层引入指定尺度特征进行特征融合。
在本实施方式中,为了有效地对图像样本中的小目标对象进行识别,可以采用多个模型的组合对图像样本进行特征提取。具体地,可以先利用初始模型提取图像样本的多尺度特征,再利用层级模型对多尺度特征进行融合。这样,能同时增强初始模型中浅层网络的语义特征和深层网络的空间特征,使得小目标对象的识别精度更高。
具体地,在一个实施方式中,该初始模型可以基于轻量级的特征提取网络mobilenetv3来构建。在该特征提取网络中,可以包括深度可分离卷积层、残差网络和SE(Squeeze-and-Excitation,挤压-激发)模块,并且该特征提取网络可以采用NAS(NeuralArchitecture Search,神经架构搜索)来搜索网络的配置和参数。图像样本中的小目标对象的体积较小,为了在特征提取过程中获取更多的检测框位置,可以减少初始模型中的下采样次数。每次下采样时,都会令特征图变小,通过减少初始模型中池化层的数量,从而能够减少下采样的次数。这样,初始模型可以提取出较大的特征图,该较大的特征图中包含的小目标对象也会较多,从而避免在下采样过程中丢失过多的小目标对象。
在另一个实施方式中,为了保证目标检测的实时性,可以进一步地简化初始模型,从而加快数据处理的速度。具体地,在该实施方式中,可以减少初始模型中神经网络的通道(channel)数量,从而加快图像样本与卷积核的卷积过程。在实际应用中,可以将初始模型内神经网络的通道数量分别减半,从而加快数据处理速度。
此外,在一个实施方式中,还可以对初始模型中的残差网络进行改进。请参阅图3(a),原始的残差网络中,可以包括多个串联的卷积层(图中为两个3*3的卷积层),这多个串联的卷积层可以与一个1*1的卷积层相并联。这多个串联的卷积层的输出结果与1*1的卷积层的输出结果可以由特征相加层进行叠加。在原始的残差网络中,经过多个串联的卷积层进行特征提取,会增加数据处理所消耗的时间,并且经过特征相加层叠加后的结果,会破坏原先串联卷积层和1*1卷积层各自的特征矩阵。为了克服这些缺陷,请参阅图3(b),改进后的残差网络中,可以将原始的残差网络中的多个串联的卷积层简化为一个卷积层,并可以将原先的特征相加层修改为特征级联层。其中,特征级联层并非是将两个特征矩阵相叠加,而只是将这两个特征矩阵融合为一个集合,每个特征矩阵依然会保留自身的矩阵特征。这样,通过改进后的残差网络,一方面可以提高数据处理的速度,另一方面还能够保持各项特征自身的矩阵特性,为后续的数据处理过程提供了比较准确的基础数据。
在本实施方式中,初始模型可以作为训练过程的基础网络(backbone),该初始模型在完成设计后,可以与层级模型相结合。请参阅图4,最左侧从下至上的多级下采样过程,可以由初始模型完成,每经过一次下采样,便可以生成一个对应的尺度特征。在经过多次下采样后,便可以得到不同分辨率的多尺度特征。例如在图4中,可以分别得到分辨率(维度)为76*76、38*38以及19*19的多尺度特征。为了增强初始模型中浅层网络的语义特征和深层网络的空间特征,可以利用层级模型继续对多尺度特征进行融合,从而生成多个融合特征。
具体地,该层级模型可以至少包括并行排列的第一通路和第二通路,如图4所示,第一通路用于对所述多尺度特征进行逐层上采样(从19*19上采样至76*76),第二通路用于对所述第一通路各层的输出特征进行逐层下采样(从76*76下采样至19*19)。其中,第一通路在进行上采样时,可以将初始模型的深层输出特征(19*19的输出特征)经过1*1的卷积神经网络处理后,作为输入特征,并在将该输入特征经过采样因子为2的上采样后,得到38*38的特征,该38*38的特征可以与初始模型生成的38*38的特征相结合(初始模型生成的特征都会经过1*1卷积神经网络的处理),从而得到第一通路中的38*38的融合特征。以此类推,第一通路和第二通路都会逐层地进行特征融合。需要说明的是,通常的层级结构中往往只包含第一通路,在本申请中增设了第二通路,这样,通过第二通路对第一通路的输出特征再次进行融合,能够减少高层信息的丢失,从而让神经网络学习特征的能力更优秀。
除此之外,在一个实施方式中,还可以将初始模型生成的指定尺度特征引入特征融合的过程中,该指定尺度特征可以引入层级模型的顶层和底层,从而能够在特征融合阶段充分利用图像样本的输入特征,这样既能获取初始模型生成的浅层输入信息,又能结合第一通路生成的深层输入信息,对于小目标对象的检测有相当好的效果。
具体地,请参阅图4,初始模型在下采样过程中生成的第一指定尺度特征可以引入第一通路的顶层进行特征融合,第二指定尺度特征可以引入第二通路的底层进行特征融合。由于第一通路的顶层对应的维度小于第二通路的底层对应的维度,因此第一指定尺度特征的维度也应当小于第二指定尺度特征的维度。在一个具体应用示例中,第一指定尺度特征可以是初始模型中76*76的特征经过下采样因子为4的下采样处理后得到的19*19的特征,第二指定尺度特征则可以是初始模型中的76*76的特征。
在本实施方式中,利用初始模型和层级模型对图像样本进行特征提取,可以得到多个融合特征,这些融合特征可以是第二通路各层分别输出的特征。这些融合特征最终会被送入检测器进行检测,从而得到图像样本的预测结果。该预测结果可以包括预测出的检测框位置,以及预测出的小目标对象的检测类别。
S6:分别确定每个所述图像样本中预测的小目标对象与所述图像样本对应标记的小目标对象之间的误差,并通过所述误差对所述初始模型和所述层级模型进行校正,当校正后的初始模型和层级模型满足预设条件时,通过所述校正后的初始模型和层级模型识别待检测图像中的小目标对象。
在本实施方式中,通过比对预测结果与人工标记的标记结果,可以确定出预测的小目标对象与标记的小目标对象之间的误差,该误差可以用于对初始模型和层级模型进行校正,从而使得不断校正后的初始模型和层级模型能够准确地检测出小目标对象的位置和类别。
在本实施方式中,确定的误差可以包括检测框位置误差和检测类别误差,针对这两个不同的误差,可以选用不同的损失函数来表示。具体地,检测框位置误差可以通过完整重叠度(CIOU)误差函数表示,检测类别误差可以通过交叉熵损失函数表示。
在一个具体应用示例中,所述完整重叠度误差函数可以表示为:
其中,CIOULoss表示所述完整重叠度误差函数,IOU表示预测的检验框位置和标记的检验框位置之间的重叠度,Distance2表示预测的检验框位置和标记的检验框位置的中心点距离,Distancec表示能够容纳预测的检验框位置和标记的检验框位置的最小矩形的对角线长度,wgt和hgt分别表示标记的检验框位置的宽和高,w、h分别表示预测的检验框位置的宽和高。
在一个具体应用示例中,交叉熵损失函数可以表示为:
其中,Lcls表示交叉熵损失函数,p表示事件发生概率,y表示预测结果,α和γ表示交叉熵系数。
针对每一个图像样本,都可以利用上述的方式,对初始模型和层级模型进行多次校正,最终可以使得校正后的初始模型和层级模型,能够准确地检测出各个图像样本中小目标对象的检测框位置和检测类别。这样,针对包含小目标对象的待检测图像而言,只需要将该待检测图像输入训练后的初始模型,经过训练后的初始模型和训练后的层级模型的处理,便可以准确地预测出小目标对象的位置和类别。
请参阅图5,本申请一个实施方式还提供一种小目标对象的检测系统,所述系统包括:
图像获取单元,用于获取待检测图像;
检测单元,用于通过完成训练的检测模型识别所述待检测图像中的小目标对象;其中,所述检测模型中包括初始模型和层级模型,所述初始模型用于提取所述待检测图像的多尺度特征,所述层级模型用于对所述待检测图像的多尺度特征进行融合,以生成多个融合特征,所述多个融合特征用于预测所述待检测图像中包含的小目标对象,其中,在所述层级模型的顶层和底层引入指定尺度特征进行特征融合。
请参阅图6,本申请一个实施方式还提供一种小目标对象的检测装置,所述小目标对象的检测装置包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时,实现上述的小目标对象的检测方法。
其中,处理器可以为中央处理器(Central Processing Unit,CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施方式中的方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施方式中的方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请一个实施方式还提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被处理器执行时,实现上述的小目标对象的检测方法。
本申请提供的技术方案,在进行小目标对象的检测时,可以先利用初始模型提取待检测图像的多尺度特征,这些多尺度特征可以表征不同分辨率对应的特征。为了增强初始模型中浅层网络的语义特征和深层网络的空间特征,可以利用层级模型继续对多尺度特征进行融合,从而生成多个融合特征。在融合过程中,可以在层级模型的顶层和底层引入指定尺度特征,这样,在特征融合阶段,可以避免特征的过多丢失,从而保证对小目标有比较好的识别效果。
可见,本申请提供的技术方案,通过初始模型和层级模型进行多次的特征提取,并在特征提取过程中引入指定尺度特征,从而对小目标具备较高的检测精度。
本领域技术人员可以理解,实现上述实施方式方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施方式的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (11)
1.一种小目标对象的检测方法,其特征在于,所述方法包括:
获取待检测图像,并通过完成训练的检测模型识别所述待检测图像中的小目标对象;
其中,所述检测模型中包括初始模型和层级模型,所述初始模型用于提取所述待检测图像的多尺度特征,所述层级模型用于对所述待检测图像的多尺度特征进行融合,以生成多个融合特征,所述多个融合特征用于预测所述待检测图像中包含的小目标对象,其中,在所述层级模型的顶层和底层引入指定尺度特征进行特征融合。
2.根据权利要求1所述的方法,其特征在于,所述初始模型在提取所述待检测图像的多尺度特征时,下采样次数被减少,并且所述初始模型中神经网络的通道数量被减少。
3.根据权利要求1所述的方法,其特征在于,所述初始模型中包括残差网络,原始的残差网络中至少包括特征相加层和多个串联的卷积层;其中,所述原始的残差网络中的多个串联的卷积层被简化为一个卷积层,以及所述特征相加层被修改为特征级联层。
4.根据权利要求1所述的方法,其特征在于,所述层级模型中至少包括并行排列的第一通路和第二通路,所述第一通路用于对所述多尺度特征进行逐层上采样,所述第二通路用于对所述第一通路各层的输出特征进行逐层下采样。
5.根据权利要求4所述的方法,其特征在于,所述第一通路的顶层引入第一指定尺度特征进行特征融合,所述第二通路的底层引入第二指定尺度特征进行特征融合,所述第一指定尺度特征的维度小于所述第二指定尺度特征的维度。
6.根据权利要求1所述的方法,其特征在于,所述检测模型按照以下方式训练:
获取小目标对象的图像样本集,所述图像样本集中的各个图像样本内包含被标记的小目标对象;
利用初始模型提取所述图像样本的多尺度特征,并利用层级模型对所述图像样本的多尺度特征进行融合,以生成多个融合特征,并基于所述多个融合特征预测所述图像样本中包含的小目标对象;其中,在所述层级模型的顶层和底层引入指定尺度特征进行特征融合;
分别确定每个所述图像样本中预测的小目标对象与所述图像样本对应标记的小目标对象之间的误差,并通过所述误差对所述初始模型和所述层级模型进行校正。
7.根据权利要求6所述的方法,其特征在于,获取小目标对象的图像样本集包括:
采集包含待检测目标的多张图像,并重新调整所述多张图像的尺寸;
将进行尺寸调整后的所述多张图像融合为指定尺寸的融合图像,所述融合图像作为小目标对象的图像样本;
将各个融合图像的集合作为获取的所述小目标对象的图像样本集。
8.根据权利要求6所述的方法,其特征在于,确定的所述误差包括检测框位置误差和检测类别误差,其中,所述检测框位置误差通过完整重叠度误差函数表示,所述检测类别误差通过交叉熵损失函数表示。
9.一种小目标对象的检测系统,其特征在于,所述系统包括:
图像获取单元,用于获取待检测图像;
检测单元,用于通过完成训练的检测模型识别所述待检测图像中的小目标对象;其中,所述检测模型中包括初始模型和层级模型,所述初始模型用于提取所述待检测图像的多尺度特征,所述层级模型用于对所述待检测图像的多尺度特征进行融合,以生成多个融合特征,所述多个融合特征用于预测所述待检测图像中包含的小目标对象,其中,在所述层级模型的顶层和底层引入指定尺度特征进行特征融合。
10.一种小目标对象的检测装置,其特征在于,所述小目标对象的检测装置包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1至8中任一所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至8中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110680541.3A CN113326891A (zh) | 2021-06-18 | 2021-06-18 | 小目标对象的检测方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110680541.3A CN113326891A (zh) | 2021-06-18 | 2021-06-18 | 小目标对象的检测方法、系统及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113326891A true CN113326891A (zh) | 2021-08-31 |
Family
ID=77423937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110680541.3A Pending CN113326891A (zh) | 2021-06-18 | 2021-06-18 | 小目标对象的检测方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113326891A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113936263A (zh) * | 2021-12-16 | 2022-01-14 | 江西财经大学 | 一种道路场景的轻量级小目标检测方法及装置、服务器 |
-
2021
- 2021-06-18 CN CN202110680541.3A patent/CN113326891A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113936263A (zh) * | 2021-12-16 | 2022-01-14 | 江西财经大学 | 一种道路场景的轻量级小目标检测方法及装置、服务器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220230282A1 (en) | Image processing method, image processing apparatus, electronic device and computer-readable storage medium | |
CN109086668B (zh) | 基于多尺度生成对抗网络的无人机遥感影像道路信息提取方法 | |
CN111738110A (zh) | 基于多尺度注意力机制的遥感图像车辆目标检测方法 | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN110909642A (zh) | 一种基于多尺度语义特征融合的遥感图像目标检测方法 | |
CN113160062B (zh) | 一种红外图像目标检测方法、装置、设备及存储介质 | |
CN111882620B (zh) | 一种基于多尺度信息道路可行驶区域分割方法 | |
CN111353544B (zh) | 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 | |
CN113111727B (zh) | 一种基于特征对齐的遥感场景下旋转目标检测方法 | |
CN112669323B (zh) | 图像处理方法及相关设备 | |
CN112686274B (zh) | 目标对象的检测方法及设备 | |
CN110781980B (zh) | 目标检测模型的训练方法、目标检测方法及装置 | |
CN111523439B (zh) | 一种基于深度学习的目标检测的方法、系统、设备及介质 | |
CN109977978A (zh) | 一种多目标检测方法、装置及存储介质 | |
CN117079163A (zh) | 一种基于改进yolox-s的航拍图像小目标检测方法 | |
CN114037640A (zh) | 图像生成方法及装置 | |
CN111160100A (zh) | 一种基于样本生成的轻量级深度模型航拍车辆检测方法 | |
CN113298045A (zh) | 一种违章车辆的识别方法、系统及装置 | |
CN117671509B (zh) | 遥感目标检测方法、装置、电子设备及存储介质 | |
CN114694005A (zh) | 目标检测模型训练方法和装置、目标检测方法和装置 | |
CN116129291A (zh) | 一种面向无人机畜牧的图像目标识别方法及其装置 | |
CN111881984A (zh) | 一种基于深度学习的目标检测方法和装置 | |
CN113326891A (zh) | 小目标对象的检测方法、系统及装置 | |
CN116580232A (zh) | 一种图像自动标注方法、系统及电子设备 | |
CN114882490A (zh) | 一种基于点引导定位的无受限场景车牌检测分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |