CN115019148A - 一种目标检测方法 - Google Patents

一种目标检测方法 Download PDF

Info

Publication number
CN115019148A
CN115019148A CN202210800199.0A CN202210800199A CN115019148A CN 115019148 A CN115019148 A CN 115019148A CN 202210800199 A CN202210800199 A CN 202210800199A CN 115019148 A CN115019148 A CN 115019148A
Authority
CN
China
Prior art keywords
module
image
convolution
feature
ghost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210800199.0A
Other languages
English (en)
Inventor
周华平
吴涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University of Science and Technology
Original Assignee
Anhui University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University of Science and Technology filed Critical Anhui University of Science and Technology
Priority to CN202210800199.0A priority Critical patent/CN115019148A/zh
Publication of CN115019148A publication Critical patent/CN115019148A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本说明书实施例公开了一种利用目标检测模型对待检测图像进行目标检测的方法,所述目标检测模型可以包括基于双重注意力机制搭建的主干特征提取网络,利用基于双重注意力机制生成的Ghost模块搭建的颈部网络,以及预测结果生成网络。由于目标检测模型中的主干特征提取网络和颈部网络中添加了双重注意力机制,因此目标检测模型能够以较少计算量来增加待检测图像中目标可见区域的关注度,同时,由于目标检测模型中的颈部网络是使用基于双重注意力机制生成的Ghost模块而搭建的,其能够实现特征融合过程的轻量化,因此,本申请可以在保障目标检测的准确性的同时提高针对待检测图像的检测速度。

Description

一种目标检测方法
技术领域
本申请涉及目标检测技术领域,尤其涉及一种基于改进的YOLOv4模型的目标检测方法。
背景技术
行人检测是目标检测方向中的研究热点,行人检测要求准确判断输入图像或视频是否包含行人,并给出行人在图像中的空间坐标信息,广泛应用于智能监控、辅助驾驶等领域。目前主流的一些行人检测算法一般都是采用深度学习方法实现的,比如R-CNN、Fast-RCNN、Faster-RCNN,虽然能得到较高的检测精度,但由于阶段复杂,使得测试速度通常较慢,不太适合用于需要实时检测,快速响应的应用场合。而像SSD、yolo等一系列单阶段算法,虽然具有很快的检测速度,能满足实时检测需求,但某些应用上的检测精度仍有待提高。
基于此,如何在保障目标检测准确性的基础上,去提升目标检测速度,成为了亟需解决的问题。
发明内容
本说明书实施例提供一种目标检测方法,以在保障目标检测准确性的基础上,去提升目标检测速度。
为解决上述技术问题,本说明书实施例提供的一种目标检测方法,所述方法可以包括:
获取待检测图像。
利用所述目标检测模型;对所述待检测图像进行目标检测处理,得到目标检测结果;所述目标检测模型是通过针对YOLOv4神经网络进行改进得到的模型;所述目标检测模型包括:主干特征提取网络、颈部网络及预测结果生成网络;所述主干特征提取网络与所述颈部网络连接,所述颈部网络与所述预测结果生成网络连接;所述主干特征提取网络是基于双重注意力机制搭建的网络;所述颈部网络是使用基于双重注意力机制生成的Ghost模块搭建的网络。
本说明书至少一个实施例能够达到以下有益效果:
通过对YOLOv4神经网络进行改进以得到目标检测网络。由于目标检测网络中的主干特征提取网络是基于双重注意力机制搭建的,从而使得其能够以较少计算量来增加目标检测网络对目标可见区域的关注度,有利于保障目标检测的准确性。以及,由于目标检测网络中颈部网络是使用基于双重注意力机制生成的Ghost模块而搭建的,从而能够实现特征融合过程的轻量化,以提高目标检测模型的检测速度。基于此,当使用目标检测模型针对待检测图像进行检测时,能够在保证检测准确性的情况下提高检测速度。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书实施例提供的一种目标检测方法的流程示意图;
图2是本说明书实施例提供的一种双重注意力机制的工作原理示意图;
图3是本说明书实施例提供的一种目标检测模型的结构示意图;
图4是本说明书实施例提供的一种基于目标所在区域的特征提取模块的结构示意图。
具体实施方式
为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书一个或多个实施例保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
本说明书实施例中,由于现有技术中YOLOv4模型处的骨干网络在提取特征过程中,会将输入图像不断进行下采样,使特征图的尺寸逐渐变小,从而造成部分特征信息的缺失,影响检测准确性。以及,YOLOv4模型在颈部网络中的空间金字塔池化网络(SpatialPyramid Pooling,英文简称SPP)使用的池化感受野大小均为正方形,会覆盖更多目标区域外的无效背景信息,从而干扰密集目标多尺度特征的提取,影响检测速度。还有,YOLOv4模型在颈部中的路径聚合网络(Path Aggregation Network,英文简称PAN),在特征融合过程中,不同尺度特征层之间的通道变换使用了大量的标准卷积,标准卷积会产生很大的计算量,从而也会进一步影响YOLOv4模型的检测速度。基于此,如何在保障利用YOLOv4模型生成的检测结果的准确性的基础上,去提升目标检测速度,成为了亟需解决的问题。
为了解决现有技术中的缺陷,本方案给出了以下实施例:
图1为本说明书实施例提供的一种目标检测方法的流程示意图。从程序角度而言,流程的执行主体可以为用于进行目标识别的设备,或者,该设备所搭载的应用程序。如图1所示,该流程可以包括以下步骤:
步骤202:获取待检测图像。
在本说明书实施例中,所述待检测图像可以是需要进行目标检测的图像。在实际应用中,待检测图像可以是无人驾驶场景中,车辆在行驶过程中利用拍摄设备拍摄的行人图像,此时,可以将行人作为检测目标,以从所述待检测图像中提取其包含的行人图像;或者,待检测图像也可以是交通路口监控场景下,利用交通路口处设置的摄像头拍摄的包含车辆的道路图像,此时,可以将车辆作为检测目标,以从所述道路图像中提取其包含的车辆图像。本说明书实施例中,还可以将在其他应用场景中采集到的需要进行目标检测的图像作为待检测图像,对此不做具体限定。
步骤204:利用目标检测模型对所述待检测图像进行目标检测处理,得到目标检测结果;所述目标检测模型是针对YOLOv4神经网络进行改进得到的模型;所述目标检测模型包括:主干特征提取网络、颈部网络及预测结果生成网络;所述主干特征提取网络与所述颈部网络连接,所述颈部网络与所述预测结果生成网络连接;所述主干特征提取网络是基于双重注意力机制搭建的网络;所述颈部网络是使用基于双重注意力机制生成的Ghost模块搭建的网络。
本说明书实施例中,YOLOv4神经网络是一种现有的目标检测网络,其主要包括:输入端、基准网络、颈部网络(英文简称Neck)与头部输出端(英文简称Head);其中,输入端,用于获取输入图像,并将输入图像缩放到网络的输入大小。基准网络,用来提取一些通用的图像特征表示,基准网络中使用CSPDarknet53作为主干网络,CSPDarknet53主干网络是由普通卷积模块与多个跨阶段部分连接结构模块(Cross Stage Partial Networks,英文简称CSP)结合成的53层的卷积网络。在颈部网络中利用空间金字塔池化网络(Spatial PyramidPooling,英文简称SPP)来融合不同尺度大小的特征图;利用自顶向下的特征图金字塔网络(Feature Pyramid Networks,英文简称FPN)与自底向上的特征金字塔路径聚合网络(PathAggregation Network,英文简称PAN)来提升网络的特征提取能力。Head输出端,用来输出目标检测结果。
在本说明书实施例中,所述双重注意力机制,包括通道注意力模块和空间注意力模块,所述通道注意力模块用来对图像特征进行通道注意力加强处理;所述空间注意力模块用来对图像特征进行空间注意力加强处理,从而在对待检测图像处理过程中可以从通道和空间两个维度加强特征图像中目标可见区域的信息的权重。
在实际应用中,现有的Ghost模块可以通过线性运算的方式产生大量的特征图,从而减少目标检测模型中用于生成特征图的结构,以减少目标检测模型中的参数,实现目标检测模型的轻量化,进而提高目标检测模型的检测速度。
在本说明书实施例中,基于双重注意力机制生成的Ghost模块,可以是将现有的Ghost模块与通道注意力模块和空间注意力模块连接得到的Ghost模块,具体的通道注意力模块、空间注意力模块、Ghost模块的连接方式可以是依次连接,也可以是其他连接方式,对此不做具体限定。
当利用基于双重注意力机制生成的Ghost模块搭建颈部网络时,该颈部网络可以用于针对其从主干特征提取网络处获取的图像特征向量进行特征提取,并将提取出的图像特征向量与主干特征提取网络输出的图像特征向量进行特征融合。由于现有的Ghost模块可以有效减少目标检测模型中的参数,从而可以提高目标检测模型的检测速度,同时由于双重注意力机制可以增加图像特征中有用信息的权重,因此基于双重注意力机制的Ghost模块在针对待检测图像提取图像特征时能够保留更多的有效信息,从而提高Ghost模块针对目标检测的准确性,以提高目标检测模型的检测速度和检测准确性。
本说明书实施例中,基于双重注意力机制的主干特征提取网络,可以用于针对待检测图像提取不同尺寸的图像特征向量,由于双重注意力机制可以增加图像特征中目标可见区域信息的权重,因此基于双重注意力机制构建的主干特征提取网络在针对待检测图像提取图像特征时,能够提取更多的有效信息,从而提高目标检测的准确性。
在本说明书实施例中,预测结果生成网络用于根据颈部网络输出的图像特征输出最终的目标检测结果。
在实际应用中,目标检测模型的应用场景可以有多种,且根据应用场景及目标检测需求的不同,目标检测模型输出的目标检测结果也会存在差异。例如,目标检测模型在无人驾驶场景中,可以用于针对无人驾驶线路上的行人进行检测,以得到反映行人所在区域的目标检测结果;或在无人驾驶场景中,目标检测模型可以用于针对无人驾驶线路上的车道线的检测,以得到反应车道线的检测结果。在本说明书实施例中,对于目标检测模型的应用场景和目标检测模型得到的目标检测结果的含义不做具体限制。
在本说明书实施例中,图1中的方法,由于主干特征提取网络是基于双重注意力机制搭建的,而双重注意力机制可以加强图像中目标可见区域信息的权重,从而使得主干特征提取网络能提取到更多的有效信息,以提升目标检测的准确性;以及,由于目标检测网络中的颈部网络是基于双重注意力机制生成的Ghost模块搭建的,从而可以有效减少目标检测模型中的参数量,实现特目标检测模型的轻量化,以提高模型的检测速度。
基于图1的方法,本说明书实施例还提供了该方法的一些具体实施方案,下面进行说明。
本说明书实施例中,目标检测方法所使用的目标检测模型通常需要预先进行搭建,以便于在获取待检测图像时对获取的待检测图像进行检测。
基于此,所述获取待检测图像之前还可以包括:
基于双重注意力机制,搭建第一数量的跨阶段部分连接结构模块。
利用所述跨阶段部分连接结构模块,搭建所述主干特征提取网络。
基于双重注意力机制,生成第二数量的Ghost模块。
利用所述Ghost模块,搭建所述颈部网络。
利用第三数量的卷积模块,搭建所述预测结果生成网络。
依序建立所述主干特征提取网络、所述颈部网络及所述预测结果生成网络之间的连接关系,得到所述目标检测模型。
在本说明书实施例中,现有的跨阶段部分连接结构模块(Cross StagePartialNetworks,英文简称CSP)为CSPDarknet53网络中的一个网络模块,且现有的跨阶段部分连接结构模块可以用来提取待检测图像的图像特征。由于现有的跨阶段部分连接结构模块会将待检测图像的图像特征不断进行下采样,以对特征层的分辨率进行尺寸放缩,使特征图的尺寸逐渐变小,从而造成部分目标可见区域信息的缺失。
为了弥补现有的跨阶段部分连接结构模块下采样造成的损失,本说明书实施例中,将双重注意力机制与现有的跨阶段部分连接结构模块进行连接,以构建搭建主干特征提取网络所需使用的改进后的跨阶段部分连接结构模块,从而基于双重注意力机制,加强目标可见区域的权重,进而在利用改进后的跨阶段部分连接结构模块针对待检测图像进行图像特征提取时保留更多的目标检测信息,有利于提高目标检测模型针对待检测图像检测的准确性。
在实际应用中,主干特征提取网络通常需要包含多个跨阶段部分连接结构模块,以分别用来提取待检测图像不同尺寸的图像特征,因此在本说明书实施例中所述第一数量通常大于1。
在实际应用中,现有的Ghost模块,针对待检测图像进行特征提取时,首先使用一次标准卷积将待检测图像的特征图的通道进行压缩得到中间特征图,然后对中间特征图利用线性变换代替标准卷积以产生更多的特征图,最后将通过线性变换得到的特征图按照通道进行拼接以生成Ghost模块的输出特征图。
在本说明说实施例中,由于使用1*1的逐点卷积能够减小计算量,因此可以利用1*1的逐点卷积来代替Ghost模块中的标准卷积以生成中间特征图;而且,由于使用线性运算方式产生更多的特征图,可以有效减少目标检测模型中的标准卷积的数量,从而减少模型的参数,实现了模型的轻量化,进而可以提高待检测图像的检测速度。
在本说明书实施例中,所述预测结果生成网络用于根据颈部网络输出的待检测图像的图像特征生成最终的检测结果。
在本说明书实施例中,通常需要多个基于双重注意力机制搭建的跨阶段部分连接结构模块进行连接以生成主干特征提取网络,从而针对待检测对象提取不同尺寸的图像特征,为了便于理解,对此进行解释说明:
具体的,所述第一数量的跨阶段部分连接结构模块可以包括:第一跨阶段部分连接结构模块、第二跨阶段部分连接结构模块及第三跨阶段部分连接结构模块。
所述利用所述跨阶段部分连接结构模块,搭建所述主干特征提取网络,具体可以包括:
将所述第一跨阶段部分连接结构模块、所述第二跨阶段部分连接结构模块及所述第三跨阶段部分连接结构模块依序连接,得到所述主干特征提取网络。
其中,所述第一跨阶段部分连接结构模块用于接收目标图像,并针对所述目标图像进行卷积处理,提取所述目标图像的第一主干中间图像特征,以及,针对所述第一主干中间图像特征进行通道注意力加强处理和空间注意力加强处理,以得到所述目标图像的第一主干图像特征。
所述第二跨阶段部分连接结构模块用于接收所述第一主干图像特征,并针对所述第一主干图像特征进行卷积处理,以提取所述目标图像的第二主干中间图像特征,以及,针对所述第二主干中间图像特征进行通道注意力加强处理和空间注意力加强处理,以得到所述目标图像的第二主干图像特征。
所述第三跨阶段部分连接结构模块用于接收所述第二主干图像特征,并针对所述第二主干图像特征进行卷积处理,以提取所述目标图像的第三主干中间图像特征,以及,针对所述第三主干中间图像特征进行通道注意力加强处理和空间注意力加强处理,以得到所述目标图像的第三主干图像特征。
在本说明书实施例中,在构建主干特征提取网路时,通常需要将一定数量的跨阶段部分连接结构模块进行连接,以利用不同的跨阶段部分连接结构模块针对目标图像提取不同尺寸或者不同通道数量的图像特征向量。
在本说明书实施例中,由于YOLOv4中跨阶段部分连接结构模块(Cross StagePartialNetworks,英文简称CSP),会将目标图像的图像特征不断进行下采样,从而造成部分目标可见区域信息的缺失,因此,可以基于双重注意力机制搭建跨阶段部分连接结构模块,在对待检测图像进行检测时,利用双重注意力机制针对提取的图像特征中的目标可见区域信息进行权重加强,从而减少因下采样造成的目标可见区域信息的损失。
基于此,本说明书实施例中,基于双重注意力机制,搭建第一数量的跨阶段部分连接结构模块,具体可以包括:
基于双重注意力机制,生成第一通道注意力子模块和第一空间注意力子模块;其中,所述第一通道注意力子模块用于对图像特征进行通道注意力加强处理;所述第一空间注意力子模块用于对图像特征进行空间注意力加强处理。
利用所述第一通道注意力子模块、第一空间注意力子模块及预设跨阶段部分连接结构子模块,生成各个跨阶段部分连接结构模块;其中,所述预设跨阶段部分连接结构子模块用于提取图像特征。
在本说明书实施例中,为了便于理解,对双重注意力机制的工作原理进行解释说明。图2为一种双重注意力机制的工作原理示意图。如图2所示:
双重注意力机制(Efficient Two dimensional Attention,英文简称ETA),可以包括通道注意力子模块模块(Channel attention module,英文简称CAM)和空间注意力子模块(Spatial attention module,英文简称SAM);
所述通道注意力模块的通道注意力采用如下公式计算:
Mc(F)=σ(ClDk(AvgPool(F))+ClDk(MaxPool(F')))
其中,Mc(F)指的是计算得到的模块的通道注意力;σ(·)指的是Sigmoid激活函数;C1Dk(·)代表一维卷积过程,k指的是参与预测某一输出通道的相邻输入通道数,AvgPool(F)和MaxPool(F)分别指的是全局的平均池化和最大池化的描述信息。
通道注意力模块中k可自适应计算,公式如下:
Figure BDA0003733713030000081
式中,C是总通道数,γ,b为超参数,|*|odd表示与*最邻近的奇数。
所述空间注意力模块的空间注意力采用如下公式计算:
Ms(F')=σ(f7*7[AvgPool(F');MaxPool(F')])
式中,Ms(F')代表计算得到的SAM模块的空间注意力;σ(·)指的是sigmoid激活函数;f7*7指的是由7*7尺寸的卷积核组成的卷积过程。AvgPool(F')和MaxPool(F')分别指的是全局的平均池化和最大池化的描述信息。
在本说明书实施例中,所述第一通道注意力子模块的生成原理与上述通道注意力子模块的生成原理相同,所述第一空间注意力子模块的生成原理与上述空间注意力子模块的生成原理相同,对此不再赘述。
在本说明书实施例中,所述预设跨阶段部分连接结构模块子模块可以为现有的跨阶段部分连接结构模块(Cross Stage Partial Networks,英文简称CSP)。
在本说明书实施例中,将所述预设跨阶段部分连接结构子模块、所述第一通道注意力子模块、所述第一空间注意力子模块进行连接,可以生成各个改进后的所述跨阶段部分连接结构模块(英文简称ETA_CSP)。上述子模块之间的具体的连接关系既可以是依序连接,也可以根据检测需求自行确定,对此不做具体限定。
在本说明书实施例中,通常为了更好的处理目标图像,主干特征提取网络还需要包括:输入模块、卷积模块以及池化模块,为了便于理解,对此进行具体解释说明:
可选的,所述主干特征提取网络还可以包括:输入模块、第一卷积模块、第二卷积模块、第一最大池化模块、第二最大池化模块、第三最大池化模块、第三卷积模块以及基于目标所在区域的特征提取模块;所述基于目标所在区域的特征提取模块用于提取不同尺寸的图像特征。
所述搭建所述主干特征提取网络,具体可以包括:
将所述输入模块、所述第一卷积模块、所述第二卷积模块、所述第一跨阶段部分连接结构模块、所述第一最大池化模块、所述第二跨阶段部分连接结构模块、所述第二最大池化模块、所述第三跨阶段部分连接结构模块、所述第三最大池化模块、所述第三卷积模块及所述基于目标所在区域的特征提取模块依序连接,得到所述主干特征提取网络。
其中,所述输入模块用于获取目标图像。
所述第一卷积模块用于接收所述目标图像,并对所述目标图像进行卷积处理,以得到所述目标图像的第一卷积图像特征。
所述第二卷积模块用于接收所述第一卷积图像特征,并针对所述第一卷积图像特征进行卷积处理,以得到所述目标图像的第二卷积图像特征。
所述第一跨阶段部分连接结构模块具体用于接收所述第二卷积图像特征,并生成所述目标图像的第一主干图像特征。
所述第一最大池化模块用于接收所述第一主干图像特征,并对所述第一主干图像特征进行最大池化处理,得到第一最大池化图像特征。
所述第二跨阶段部分连接结构模块具体用于接收所述第一最大池化图像特征,并生成所述目标图像的第二主干图像特征。
所述第二最大池化模块用于接收所述第二主干图像特征,并对所述第二主干图像特征进行最大池化处理,得到第二最大池化图像特征。
所述第三跨阶段部分连接结构模块具体用于接收所述第二最大池化图像特征,并生成所述目标图像的第三主干图像特征。
所述第三最大池化模块用于接收所述第三主干图像特征,并对所述第三主干图像特征进行最大池化处理,得到第三最大池化图像特征。
所述第三卷积模块用于接收所述第三最大池化图像特征,并对所述第三最大池化图像特征进行卷积处理,以得到所述目标图像的第三卷积图像特征。
所述基于目标所在区域的特征提取模块用于接收所述第三卷积图像特征,并针对所述第三卷积图像特征进行卷积处理,以提取所述目标图像的第一图像特征。
在本说明书实施例中,所述输入模块,用于获取目标图像,并将目标图像缩放到网络能够处理的输入大小。所述第一卷积模块,所述第二卷积模块以及所述第三卷积模块分别为现有技术中最小的卷积模块结构,其卷积核的参数可以根据需要进行具体设定,对此不做限定。所述第一最大池化模块,所述第二最大池化模块以及所述第三最大池化模块,分别对目标图像的图像特征进行最大池化处理,以获取局部信息,消除图像特征中的非极大值,从而减少目标检测模型的计算量,进而提高目标检测模型的检测速度。
本说明书实施例中,多个所述跨阶段部分连接结构模块的结构以及工作原理已在前文中有所论述,在此不再赘述。
本说明书实施例中,基于目标所在区域的特征提取模块用于对获取的第三卷积图像特征进行卷积处理,从而进一步提取目标图像的图像特征。
图3为本说明书实施例中提供的一种目标检测模型的结构示意图,如图3所示,主干特征提取网络1中可以包括:所述输入模块、所述第一卷积模块、所述第二卷积模块、所述第一跨阶段部分连接结构模块、所述第一最大池化模块、所述第二跨阶段部分连接结构模块、所述第二最大池化模块、所述第三跨阶段部分连接结构模块、所述第三最大池化模块、所述第三卷积模块及所述基于目标所在区域的特征提取模块。
在本说明书实施例中,输入模块用于获取目标图像,并将目标图像缩放到网络能处理的大小,在实际应用中针对目标图像进行检测时,所述目标图像可以是获取的待检测图像;在针对目标检测模型进行训练时,所述目标图像可以是用来针对目标检测模型进行训练的训练集;利用基于双重注意力机制生成的多个所述跨阶段部分连接结构模块依次连接,去分别获取不同尺寸的目标图像的图像特征;由于可以基于双重注意力机制,对目标图像中的目标可见区域进行权重加强,从而可以在利用跨阶段部分连接结构模块针对目标图像进行图像特征提取时保留更多的目标检测信息,从而提高目标图像的检测的准确性;
并且在各所述跨阶段部分连接结构模块后连接最大池化模块,以针对各所述跨阶段部分连接结构模块输出的特征图像进行最大池化操作,提取局部信息,消除图像特征中的非极大值,从而降低目标检测模型的计算量。进而提高主干特征提取网络的检测速度。
在本说明书实施例中,当目标检测模型应用于行人检测场景时,在实际密集场景中,行人目标由于拍摄的位置和角度有差异,并且自身的姿态、体型和身高也都各有不同,使得同一目标图像中,不同位置的行人,行人尺度不同,但是在对数据集中行人的标注信息进行聚类分析后发现,密集行人目标往往处于长方形区域,为了提取不同尺度范围的行人特征,需要构建一个基于目标所在区域的特征提取模块,例如,PFM模块(Pedestrian-basedFeature-extraction Module)。
在本说明书实施例中,所述基于目标所在区域的特征提取模块可以包括:卷积核各不相同的第一卷积层、第二卷积层及第三卷积层。其中,所述第一卷积层、所述第二卷积层、所述第三卷积层的输入端具体的可以分别与所述第三卷积模块连接。
所述第一卷积层用于接收所述第三卷积图像特征,对所述第三卷积图像特征进行卷积处理,得到所述目标图像的第一尺寸图像特征。
所述第二卷积层用于接收所述第三卷积图像特征,对所述第三卷积图像特征进行卷积处理,得到所述目标图像的第二尺寸图像特征。
所述第三卷积层用于接收所述第三卷积图像特征,对所述第三卷积图像特征进行卷积处理,得到所述目标图像的第三尺寸图像特征。
所述第一尺寸图像特征、所述第二尺寸图像特征及所述第三尺寸图像特征分别用于与所述第三最大池化图像特征进行通道拼接,以得到所述目标图像的第一图像特征。
在本说明书实施例中,由于得到的第三卷积图像特征的通道数较多,因此,需要针对所述第三卷积图像特征利用卷积滤波器进行通道变换,从而减少第三卷积图像特征的通道数;基于此,基于目标所在区域的特征提取模块还可以包括:第四卷积层和第五卷积层;
所述第四卷积层的输入端与所述第三卷积模块输出端连接,所述第四卷积层的输出端与所述第一卷积层、所述第二卷积层、所述第三卷积层的输入端分别连接,所述第四卷积层用于接收所述第三卷积图像特征,对所述第三卷积图像特征进行卷积处理,得到所述目标图像的第四尺寸图像特征。
所述第五卷积层的输入端与所述所述第一卷积层、所述第二卷积层、所述第三卷积层的输出端分别连接。
所述第五卷积层用于将目标拼接图像特征进行通道变换,得到所述基于目标所在区域的特征提取模块输出的所述第一图像特征,所述目标拼接图像是将所述第一尺寸图像特征、所述第二尺寸图像特征及所述第三尺寸图像特征进行通道拼接得到的目标图像的图像特征。
在本说明书实施例中,所述第四卷积层可以是1*1的卷积滤波器,用来对第三卷积图像特征进行通道变换,以减少第三卷积图像的通道数。
在本说明书实施例中,所述第五卷积层可以是1*1的卷积滤波器,由于得到的目标拼接图像特征的通道数较多,因此,可以利用第五卷积层对目标拼接图像特征进行通道变换,以减少目标拼接图像特征的通道数。
在本说明书实施例中,为了便于更好的理解所述基于目标所在区域的特征提取模块的工作原理,对所述基于目标所在区域的特征提取模块的工作原理进行解释说明。图4为一种基于目标所在区域的特征提取模块的结构示意图。如图4所示:
所述基于目标所在区域的特征提取模块中包括:所述所述第一卷积层401、所述第二卷积层402、所述第三卷积层403、所述第四卷积层404以及所述第五卷积层405。
在本说明书实施例中,基于目标所在区域的特征提取模块首先利用第四卷积层从前述的主干特征提取网络处的第三卷积模块获取第三卷积图像特征,针对第三卷积图像特征的通道进行变换,减少第三卷积图像特征的通道数,从而减少目标检测模型的计算量,得到第四尺寸图像特征;然后,使用三个感受野大小不同的分支卷积第一卷积层401、第二卷积层402、第三卷积层403,分别对所述第四尺寸图像特征进行卷积处理,以提取第四尺寸图像的图像特征,其中,三个分支卷积的感受野的尺寸大小假如分别为3*1、3*2和3*3;为了拟合检测目标(例如,行人)的宽高比尺寸并减少显存消耗,基于目标所在区域的特征提取模块可以分别对3*2和3*3尺寸的卷积核在高度上使用扩张率为1和2的空洞卷积,从而以较少的参数量来得到更大的目标(例如,行人)感受野,最终构成3*1,5*2和7*3三种尺寸的感受野卷积,从而可以利用(3*1,5*2和7*3)三种不同尺寸的目标感受野卷积,分别对所述第四尺寸图像的图像特征进行图像特征提取,以得到不同尺度的第一尺寸图像特征、第二尺寸图像特征和第三尺寸图像特征,再然后,将生成的第一尺寸图像特征、第二尺寸图像特征和第三尺寸图像特征与原输入特征图按通道进行拼接,得到目标图像的目标拼接图像;最后,利用所述第五卷积层将所述目标拼接图像特征进行通道变换,得到第一图像特征。
本说明书实施例中,由于三种不同尺寸的卷积与检测目标(例如,密集行人)宽高比相似,从而可以针对目标图像中不同尺度的检测目标的特征进行有效地提取,以提升目标检测模型的检测准确性。
附图4以及与附图4对应的文字解释仅作为一种可以实施的实施例,用来解释说明基于目标所在区域的特征提取模块工作原理,而不能作为基于目标所在区域的特征提取模块的具体限定,所述基于目标所在区域的特征提取模块中的运行参数可以根据需要进行设定。
本说明书实施例中,YOLOv4网络中的颈部网络在进行特征融合过程中,不同尺度特征层之间的通道变换使用了大量的标准卷积,但是标准卷积会造成大量计算量,不利于在小型设备中实现,因此我们采用了基于双重注意力机制生成的幽灵网络来构造单向多尺度特征融合结构,为了便于理解,对此进行具体解释说明:
可选的,搭建所述颈部网络所需使用的第二数量的Ghost模块可以包括:第一Ghost模块、第二Ghost模块、第三Ghost模块、第四Ghost模块、第五Ghost模块、第六Ghost模块;除此之外,所述颈部网络还包括:第一上采样模块、第二上采样模块、第一融合模块以及第二融合模块。
所述利用所述Ghost模块,搭建所述颈部网络,具体包括:
依序连接所述第一Ghost模块、所述第二Ghost模块、所述第一上采样模块、所述第一融合模块、所述第三Ghost模块、所述第二上采样模块以及第二融合模块。
所述第四Ghost模块的输入端与所述第一Ghost模块的输出端连接。
所述第五Ghost模块的输入端与所述第一融合模块的输出端连接。
所述第六Ghost模块的输入端与所述第二融合模块的输出端连接。
所述第一Ghost模块用于接收所述基于目标所在区域的特征提取模块输出的所述第一图像特征,并对所述第一图像特征进行通道注意力加强处理和空间注意力加强处理,以得到第一中间图像特征;以及,对所述第一中间图像特征进行特征变换处理,得到第一Ghost图像特征。
所述第二Ghost模块用于接收所述第一Ghost图像特征,并对所述第一Ghost图像特征进行通道注意力加强处理和空间注意力加强处理,以得到第二中间图像特征;以及,对所述第二中间图像特征进行特征变换处理,得到第二Ghost图像特征。
所述第一上采样模块用于接收所述第二Ghost图像特征,并对所述第二Ghost图像特征进行上采样处理,得到第一上采样图像特征。
所述第一融合模块用于将所述第一上采样图像特征与所述第三主干图像特征进行逐元素相加,以得到所述目标图像的第二图像特征。
所述第三Ghost模块用于接收所述第二图像特征,并对所述第二图像特征进行通道注意力加强处理和空间注意力加强处理,以得到第三中间图像特征;以及,对所述第三中间图像特征进行特征变换处理,得到第三Ghost图像特征。
所述第二上采样模块用于接收所述第三Ghost图像特征,并对所述第三Ghost图像特征进行上采样处理,得到第二上采样图像特征。
所述第二融合模块用于将所述第二上采样图像特征与所述第二主干图像特征进行逐元素相加,以得到所述目标图像的第三图像特征。
所述第四Ghost模块用于接收所述第一Ghost图像特征,并对所述第一Ghost图像特征进行通道注意力加强处理和空间注意力加强处理,以得到第四中间图像特征;以及,对所述第四中间图像特征进行特征变换处理,得到第四Ghost图像特征。
所述第五Ghost模块用于接收所述第二图像特征,并对所述第二图像特征进行通道注意力加强处理和空间注意力加强处理,以得到第五中间图像特征;以及,对所述第五中间图像特征进行特征变换处理,得到第五Ghost图像特征。
所述第六Ghost模块用于接收所述第三图像特征,并对所述第三图像特征进行通道注意力加强处理和空间注意力加强处理,以得到第六中间图像特征;以及,对所述第六中间图像特征进行特征变换处理,得到第六Ghost图像特征。
本说明书实施例中,第一上采样模块和第二上采样模块,为现有技术中采用的上采样模块,分别用来对各自获取的目标图像特征进行上采样处理,以使得处理后的图像尺寸能够与主干特征提取网络输出的图像特征的尺寸相匹配。
图3中还示出了本说明书实施例中搭建的颈部网络的结构。其中,颈部网络可以包括:第一Ghost模块、第二Ghost模块、第三Ghost模块、第四Ghost模块、第五Ghost模块、第六Ghost模块;除此之外,所述颈部网络还包括:第一上采样模块、第二上采样模块、第一融合模块以及第一融合模块。
在本说明书实施例中,采用类似于特征金字塔的多尺度特征融合思想,摒弃了自顶向下的下采样融合的过程,通过自底向上的上采样方式,实现融合特征阶段的轻量化。
在本说明书实施例中,在现有的Ghost模块中,整个卷积过程分为两个过程,首先使用一次标准卷积将输入的目标图像特征的通道进行压缩得到中间特征图,然后对中间特征图进行线性变换产生更多的特征图,由于现有的Ghost模块虽然采用大量的线性运算方式生成特征图,让整个模型参数量更少,提高了检测速度,但是直接使用现有的Ghost模块构建特征融合结构,对检测精度没有产生实质性作用,因此,可以针对Ghost模块融合双重注意力机制,从而使其在提高检测速度的同时提高检测精度。
具体的:所述基于双重注意力机制,生成第二数量的Ghost模块,可以包括:
基于双重注意力机制,生成第二通道注意力子模块和第二空间注意力子模块;所述第二通道注意力子模块用于对图像特征进行通道注意力加强处理;所述第二空间注意力子模块用于对图像特征进行空间注意力加强处理。
利用所述第二通道注意力子模块、所述第二空间注意力子模块及预设Ghost子模块,生成各个Ghost模块;所述预设Ghost子模块用于对图像特征进行特征变换处理。
在本说明书实施例中,第二通道注意力子模块的生成原理与前文中描述的所述通道注意力子模块的生成原理相同;所述第二空间注意力子模块的生成原理与前文中描述的所述空间注意力子模块的生成原理相同,因此,在此不再赘述。
在本说明书实施例中,所述预设Ghost子模块可以为现有的Ghost模块。
在本说明书实施例中,将通道注意力子模块CAM、空间注意力子模块及预设Ghost子模块进行连接,生成各个所述Ghost模块,具体连接连接关系在此不做限定。
在本说明书实施例中,为了减小计算量,Ghost模块中可以利用1*1的逐点卷积代替其标准卷积,使用1*1的逐点卷积来生成中间特征图,以提高目标检测模型的检测速度。
本说明书实施例中,基于双重注意力机制,生成本说明书中改进后的Ghost模块,利用双重注意力机制来加强对于目标可见区域的关注度。输入的目标图像特征图在利用Ghost模块进行逐点卷积之前,先经过双重注意力机制针对目标可见区域进行权重加强,以保留更多有效的特征信息,再进行逐点卷积以及后续的线性操作从而生成更多的特征向量。相比于现有的Ghost模块,基于双重注意力机制生成的Ghost模块在后续生成特征图的过程中,对检测目标的特征信息关注度更高,从而提高颈部网络提取目标图像特征的准确性,进而有利于提升目标检测方法的检测准确性。
在本说明书实施例中,获得的针对目标图像进行检测的检测结果通常需要预测结果生成网络进行生成并输出,基于此,利用第三数量的卷积模块,搭建预测结果生成网络,可以包括:
可选的,第三数量的卷积模块包括:第一结果生成卷积模块、第二结果生成卷积模块、第三结果生成卷积模块以及检测结果输出层。
所述利用第三数量的卷积模块,搭建预测结果生成网络,可以包括:
将所述第一结果生成卷积模块的输入端与所述第四Ghost模块的输出端连接;所述第一结果生成卷积模块用于接收所述第四Ghost模块输出的所述第四Ghost图像特征,并基于所述第四Ghost图像特征生成第一检测结果。
将所述第二结果生成卷积模块的输入端与所述第五Ghost模块的输出端连接;所述第一结果生成卷积模块用于接收所述第五Ghost模块输出的所述第五Ghost图像特征,并基于所述第五Ghost图像特征生成第二检测结果。
将所述第三结果生成卷积模块的输入端与所述第六Ghost模块的输出端连接;所述第三结果生成卷积模块用于接收所述第六Ghost模块输出的所述第六Ghost图像特征,并基于所述第六Ghost图像特征生成第三检测结果。
检测结果输出层的输入端与所述第一结果生成卷积模块、所述第一结果生成卷积模块、所述第一结果生成卷积模块的输出端分别连接,所述检测结果输出层用于根据所述第一检测结果、所述第二检测结果以及所述第三检测结果生成目标检测结果。
在本说明书实施例中,检测结果输出层可以是一种算法,例如,NMS非极大值抑制算法,也可以是其他可以得到最终检测结果的算法,本说明书实施例在此不做具体限定。
在本说明书实施例中,所述第一检测结果、所述第二检测结果、所述第三检测结果可以是目标检测模型针对目标图像中不同尺度的目标生成的多个检测框,其中,针对目标图像中的每个目标,也可以生成多个检测框。
根据得到的第一检测结果,第二检测结果以及第三检测利用NMS非极大值抑制算法进行处理从而输出最终检测结果。
图3中还示出了本说明书实施例中搭建的预测结果生成网络的结构。如图3所示,预测结果生成网络3中包括,第一结果生成卷积模块、第二结果生成卷积模块、第三结果生成卷积模块以及检测结果输出层。
在实际应用中,构建的目标检测模型通常需要经过学习训练,才能应用于实际应用中的目标检测,以保障预测结果的准确性,基于此,在获取待检测图像之前,还可以包括:
获取检测基准数据集。在行人检测场景,该基准数据集可以为WiderPerson,其为户外的行人检测基准数据集。
将获取的基准数据集按照按照7:1:2的比例划分为训练集、验证集、测试集。
将训练集通过目标检测模型中的主干特征提取网络的输入模块输入,利用图1中的方法及其实施例所搭建的目标检测模型,通过主干特征提取网络提取不同尺度的目标图像的图像特征,经过颈部网络针对不同尺度的图像特征分别进行特征融合并提取融合后的图像的图像特征,再由预测结果生成网络生成目标图像中待检测的目标的检测框,最后通过NMS非极大值抑制算法输出最终目标检测测结果。
求出目标检测模型的输出值与目标值之间的误差,即损失函数。
对目标检测模型的超参数进行更新,当目标检测模型的损失函数收敛到一定程度不再下降则结束训练。
本实施例采用的目标检测模型检测算法的检测性能如下表1所示:
表一
算法 模型体积/MB 准确率 召回率/% 平均精度/% 速度/FPS
SSD-Lite 32.5 53.1 46.4 48.7 22
YOLOv3-tiny 35.6 51.6 43.7 46.9 20
YOLO-Slim 28.7 57.8 51.2 53.4 25
YOLOv4-tiny 25.4 55.9 50.5 51.6 29
目标检测方法 22.5 58.3 53.7 55.4 31
将本申请中的目标检测方法与SSD-Lite、YOLOvTiny以及YOLOv4-tiny算法等轻量级检测算法进行比较,结果如表1所示。由表1可以对比出,本申请中目标检测方法的模型体积为22.5MB,均要小于SSD-Lite、YOLOv3-tiny、YOLO-Slim和YOLOv4-tiny四个网络模型,具有较小的模型体积大小。在精确度、召回率和平均精度上,本申请中的目标检测方法分别达到了58.3%、53.7%和55.4%,均高于其他四个模型,具有较高的行人检测精度。在召回率和平均精度上,本申请中的目标检测方法分别达到了8.3%、53.7%和55.4%,均高于其他四个模型,具有较高的行人检测精度。在检测速度上本申请中的目标检测方法达到31FPS,分别比SSD-Lite、YOLOv3-tiny和YOLO-Slim提高了9FPS、11FPS和6FPS,比YOLOv4-tiny略高,但是平均精度有3.8%的提升。综上所述,相比较其他轻量化的检测模型,本申请中的目标检测方法保持了较小的模型体积,取得的检测精度较高。从而在使用本申请提供的目标检测模型针对待检测图像进行检测时,能够保证一定的检测准确性和检测速度的提升。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell UniversityProgramming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书一个或多个实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例是参照根据本说明书一个或多个实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书一个或多个实施例。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的权利要求范围之内。

Claims (10)

1.一种目标检测方法,其特征在于,所述方法包括:
获取待检测图像;
利用目标检测模型对所述待检测图像进行目标检测处理,得到目标检测结果;所述目标检测模型是针对YOLOv4神经网络进行改进得到的模型;
所述目标检测模型包括:主干特征提取网络、颈部网络及预测结果生成网络;所述主干特征提取网络与所述颈部网络连接,所述颈部网络与所述预测结果生成网络连接;所述主干特征提取网络是基于双重注意力机制搭建的网络;所述颈部网络是使用基于双重注意力机制生成的Ghost模块搭建的网络。
2.如权利要求1所述的目标检测方法,其特征在于,所述获取待检测图像之前还包括:
基于双重注意力机制,搭建第一数量的跨阶段部分连接结构模块;
利用所述跨阶段部分连接结构模块,搭建所述主干特征提取网络;
基于双重注意力机制,生成第二数量的Ghost模块;
利用所述Ghost模块,搭建所述颈部网络;
利用第三数量的卷积模块,搭建所述预测结果生成网络;
依序建立所述主干特征提取网络、所述颈部网络及所述预测结果生成网络之间的连接关系,得到所述目标检测模型。
3.如权利要求2所述的目标检测方法,其特征在于,所述第一数量的跨阶段部分连接结构模块包括:第一跨阶段部分连接结构模块、第二跨阶段部分连接结构模块及第三跨阶段部分连接结构模块;
所述利用所述跨阶段部分连接结构模块,搭建所述主干特征提取网络,具体包括:
将所述第一跨阶段部分连接结构模块、所述第二跨阶段部分连接结构模块及所述第三跨阶段部分连接结构模块依序连接,得到所述主干特征提取网络;
其中,所述第一跨阶段部分连接结构模块用于接收目标图像,并针对所述目标图像进行卷积处理,提取所述目标图像的第一主干中间图像特征,以及,针对所述第一主干中间图像特征进行通道注意力加强处理和空间注意力加强处理,以得到所述目标图像的第一主干图像特征;
所述第二跨阶段部分连接结构模块用于接收所述第一主干图像特征,并针对所述第一主干图像特征进行卷积处理,以提取所述目标图像的第二主干中间图像特征,以及,针对所述第二主干中间图像特征进行通道注意力加强处理和空间注意力加强处理,以得到所述目标图像的第二主干图像特征;
所述第三跨阶段部分连接结构模块用于接收所述第二主干图像特征,并针对所述第二主干图像特征进行卷积处理,以提取所述目标图像的第三主干中间图像特征,以及,针对所述第三主干中间图像特征进行通道注意力加强处理和空间注意力加强处理,以得到所述目标图像的第三主干图像特征。
4.如权利要求2或3所述的目标检测方法,其特征在于,所述基于双重注意力机制,搭建第一数量的跨阶段部分连接结构模块,具体包括:
基于双重注意力机制,生成第一通道注意力子模块和第一空间注意力子模块;其中,所述第一通道注意力子模块用于对图像特征进行通道注意力加强处理;所述第一空间注意力子模块用于对图像特征进行空间注意力加强处理;
利用所述第一通道注意力子模块、第一空间注意力子模块及预设跨阶段部分连接结构子模块,生成各个跨阶段部分连接结构模块;其中,所述预设跨阶段部分连接结构子模块用于提取图像特征。
5.如权利要求3所述的目标检测方法,其特征在于,所述主干特征提取网络还包括:输入模块、第一卷积模块、第二卷积模块、第一最大池化模块、第二最大池化模块、第三最大池化模块、第三卷积模块以及基于目标所在区域的特征提取模块;所述基于目标所在区域的特征提取模块用于提取不同尺寸的图像特征;
所述搭建所述主干特征提取网络,具体包括:
将所述输入模块、所述第一卷积模块、所述第二卷积模块、所述第一跨阶段部分连接结构模块、所述第一最大池化模块、所述第二跨阶段部分连接结构模块、所述第二最大池化模块、所述第三跨阶段部分连接结构模块、所述第三最大池化模块、所述第三卷积模块及所述基于目标所在区域的特征提取模块依序连接,得到所述主干特征提取网络;
其中,所述输入模块用于获取目标图像;
所述第一卷积模块用于接收所述目标图像,并对所述目标图像进行卷积处理,以得到所述目标图像的第一卷积图像特征;
所述第二卷积模块用于接收所述第一卷积图像特征,并针对所述第一卷积图像特征进行卷积处理,以得到所述目标图像的第二卷积图像特征;
所述第一跨阶段部分连接结构模块具体用于接收所述第二卷积图像特征,并生成所述目标图像的第一主干图像特征;
所述第一最大池化模块用于接收所述第一主干图像特征,并对所述第一主干图像特征进行最大池化处理,得到第一最大池化图像特征;
所述第二跨阶段部分连接结构模块具体用于接收所述第一最大池化图像特征,并生成所述目标图像的第二主干图像特征;
所述第二最大池化模块用于接收所述第二主干图像特征,并对所述第二主干图像特征进行最大池化处理,得到第二最大池化图像特征;
所述第三跨阶段部分连接结构模块具体用于接收所述第二最大池化图像特征,并生成所述目标图像的第三主干图像特征;
所述第三最大池化模块用于接收所述第三主干图像特征,并对所述第三主干图像特征进行最大池化处理,得到第三最大池化图像特征;
所述第三卷积模块用于接收所述第三最大池化图像特征,并对所述第三最大池化图像特征进行卷积处理,以得到所述目标图像的第三卷积图像特征;
所述基于目标所在区域的特征提取模块用于接收所述第三卷积图像特征,并针对所述第三卷积图像特征进行卷积处理,以提取所述目标图像的第一图像特征。
6.如权利要求5所述的目标检测方法,其特征在于,所述基于目标所在区域的特征提取模块具体包括:卷积核各不相同的第一卷积层、第二卷积层及第三卷积层;
所述第一卷积层、所述第二卷积层、所述第三卷积层的输入端分别与所述第三卷积模块连接;
所述第一卷积层用于接收所述第三卷积图像特征,对所述第三卷积图像特征进行卷积处理,得到所述目标图像的第一尺寸图像特征;
所述第二卷积层用于接收所述第三卷积图像特征,对所述第三卷积图像特征进行卷积处理,得到所述目标图像的第二尺寸图像特征;
所述第三卷积层用于接收所述第三卷积图像特征,对所述第三卷积图像特征进行卷积处理,得到所述目标图像的第三尺寸图像特征;
所述第一尺寸图像特征、所述第二尺寸图像特征及所述第三尺寸图像特征分别用于与所述第三最大池化图像特征进行通道拼接,以得到所述目标图像的第一图像特征。
7.如权利要求6所述的目标检测方法,其特征在于,所述基于目标所在区域的特征提取模块还包括:第四卷积层和第五卷积层;
所述第四卷积层的输入端与所述第三卷积模块输出端连接,所述第四卷积层的输出端与所述第一卷积层、所述第二卷积层、所述第三卷积层的输入端分别连接,所述第四卷积层用于接收所述第三卷积图像特征,对所述第三卷积图像特征进行卷积处理,得到所述目标图像的第四尺寸图像特征;
所述第五卷积层的输入端与所述所述第一卷积层、所述第二卷积层、所述第三卷积层的输出端分别连接;
所述第五卷积层用于将目标拼接图像特征进行通道变换,得到所述基于目标所在区域的特征提取模块输出的所述第一图像特征,所述目标拼接图像是将所述第一尺寸图像特征、所述第二尺寸图像特征及所述第三尺寸图像特征进行通道拼接得到的目标图像的图像特征。
8.如权利要求5所述的目标检测方法,其特征在于,所述第二数量的Ghost模块包括:第一Ghost模块、第二Ghost模块、第三Ghost模块、第四Ghost模块、第五Ghost模块、第六Ghost模块;
所述颈部网络还包括:第一上采样模块、第二上采样模块、第一融合模块以及第二融合模块;
所述利用所述Ghost模块,搭建所述颈部网络,具体包括:
依序连接所述第一Ghost模块、所述第二Ghost模块、所述第一上采样模块、所述第一融合模块、所述第三Ghost模块、所述第二上采样模块以及第二融合模块;
所述第四Ghost模块的输入端与所述第一Ghost模块的输出端连接;
所述第五Ghost模块的输入端与所述第一融合模块的输出端连接;
所述第六Ghost模块的输入端与所述第二融合模块的输出端连接;
所述第一Ghost模块用于接收所述基于目标所在区域的特征提取模块输出的所述第一图像特征,并对所述第一图像特征进行通道注意力加强处理和空间注意力加强处理,以得到第一中间图像特征;以及,对所述第一中间图像特征进行特征变换处理,得到第一Ghost图像特征;
所述第二Ghost模块用于接收所述第一Ghost图像特征,并对所述第一Ghost图像特征进行通道注意力加强处理和空间注意力加强处理,以得到第二中间图像特征;以及,对所述第二中间图像特征进行特征变换处理,得到第二Ghost图像特征;
所述第一上采样模块用于接收所述第二Ghost图像特征,并对所述第二Ghost图像特征进行上采样处理,得到第一上采样图像特征;
所述第一融合模块用于将所述第一上采样图像特征与所述第三主干图像特征进行逐元素相加,以得到所述目标图像的第二图像特征;
所述第三Ghost模块用于接收所述第二图像特征,并对所述第二图像特征进行通道注意力加强处理和空间注意力加强处理,以得到第三中间图像特征;以及,对所述第三中间图像特征进行特征变换处理,得到第三Ghost图像特征;
所述第二上采样模块用于接收所述第三Ghost图像特征,并对所述第三Ghost图像特征进行上采样处理,得到第二上采样图像特征;
所述第二融合模块用于将所述第二上采样图像特征与所述第二主干图像特征进行逐元素相加,以得到所述目标图像的第三图像特征;
所述第四Ghost模块用于接收所述第一Ghost图像特征,并对所述第一Ghost图像特征进行通道注意力加强处理和空间注意力加强处理,以得到第四中间图像特征;以及,对所述第四中间图像特征进行特征变换处理,得到第四Ghost图像特征;
所述第五Ghost模块用于接收所述第二图像特征,并对所述第二图像特征进行通道注意力加强处理和空间注意力加强处理,以得到第五中间图像特征;以及,对所述第五中间图像特征进行特征变换处理,得到第五Ghost图像特征;
所述第六Ghost模块用于接收所述第三图像特征,并对所述第三图像特征进行通道注意力加强处理和空间注意力加强处理,以得到第六中间图像特征;以及,对所述第六中间图像特征进行特征变换处理,得到第六Ghost图像特征。
9.如权利要求8所述的目标检测方法,其特征在于,所述基于双重注意力机制,生成第二数量的Ghost模块,具体包括:
基于双重注意力机制,生成第二通道注意力子模块和第二空间注意力子模块;所述第二通道注意力子模块用于对图像特征进行通道注意力加强处理;所述第二空间注意力子模块用于对图像特征进行空间注意力加强处理;
利用所述第二通道注意力子模块、所述第二空间注意力子模块及预设Ghost子模块,生成各个Ghost模块;所述预设Ghost子模块用于对图像特征进行特征变换处理。
10.如权利要求8所述的目标检测方法,其特征在于,所述第三数量的卷积模块包括:第一结果生成卷积模块、第二结果生成卷积模块、第三结果生成卷积模块、检测结果输出层;
所述利用第三数量的卷积模块,搭建预测结果生成网络,具体包括:
将所述第一结果生成卷积模块的输入端与所述第四Ghost模块的输出端连接;所述第一结果生成卷积模块用于接收所述第四Ghost模块输出的所述第四Ghost图像特征,并基于所述第四Ghost图像特征生成第一检测结果;
将所述第二结果生成卷积模块的输入端与所述第五Ghost模块的输出端连接;所述第一结果生成卷积模块用于接收所述第五Ghost模块输出的所述第五Ghost图像特征,并基于所述第五Ghost图像特征生成第二检测结果;
将所述第三结果生成卷积模块的输入端与所述第六Ghost模块的输出端连接;所述第三结果生成卷积模块用于接收所述第六Ghost模块输出的所述第六Ghost图像特征,并基于所述第六Ghost图像特征生成第三检测结果;
检测结果输出层的输入端与所述第一结果生成卷积模块、所述第一结果生成卷积模块、所述第一结果生成卷积模块的输出端分别连接,所述检测结果输出层用于根据所述第一检测结果、所述第二检测结果以及所述第三检测结果生成目标检测结果。
CN202210800199.0A 2022-07-06 2022-07-06 一种目标检测方法 Pending CN115019148A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210800199.0A CN115019148A (zh) 2022-07-06 2022-07-06 一种目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210800199.0A CN115019148A (zh) 2022-07-06 2022-07-06 一种目标检测方法

Publications (1)

Publication Number Publication Date
CN115019148A true CN115019148A (zh) 2022-09-06

Family

ID=83078392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210800199.0A Pending CN115019148A (zh) 2022-07-06 2022-07-06 一种目标检测方法

Country Status (1)

Country Link
CN (1) CN115019148A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117468085A (zh) * 2023-12-27 2024-01-30 浙江晶盛机电股份有限公司 晶棒生长控制方法、装置、长晶炉系统和计算机设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117468085A (zh) * 2023-12-27 2024-01-30 浙江晶盛机电股份有限公司 晶棒生长控制方法、装置、长晶炉系统和计算机设备
CN117468085B (zh) * 2023-12-27 2024-05-28 浙江晶盛机电股份有限公司 晶棒生长控制方法、装置、长晶炉系统和计算机设备

Similar Documents

Publication Publication Date Title
Emara et al. Liteseg: A novel lightweight convnet for semantic segmentation
CN110852383B (zh) 基于注意力机制深度学习网络的目标检测方法及装置
CN111402130B (zh) 数据处理方法和数据处理装置
CN112102411B (zh) 一种基于语义误差图像的视觉定位方法及装置
US20200218948A1 (en) Thundernet: a turbo unified network for real-time semantic segmentation
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN112308200A (zh) 神经网络的搜索方法及装置
CN111666948B (zh) 一种基于多路聚合的实时高性能语义分割方法和装置
CN111311634B (zh) 一种人脸图像检测方法、装置及设备
CN113807361B (zh) 神经网络、目标检测方法、神经网络训练方法及相关产品
CN111882031A (zh) 一种神经网络蒸馏方法及装置
CN112215332A (zh) 神经网络结构的搜索方法、图像处理方法和装置
CN113591648B (zh) 无锚点实时图像目标检测方法、系统、设备及介质
CN110348453B (zh) 一种基于级联的物体检测方法及系统、存储介质及终端
CN110782430A (zh) 一种小目标的检测方法、装置、电子设备及存储介质
CN114694005A (zh) 目标检测模型训练方法和装置、目标检测方法和装置
CN113066089A (zh) 一种基于注意力引导机制的实时图像语义分割网络
CN115546681A (zh) 一种基于事件和帧的异步特征跟踪方法和系统
CN115019148A (zh) 一种目标检测方法
CN117197781B (zh) 一种交通标志识别的方法、装置、存储介质及电子设备
CN113313162A (zh) 一种多尺度特征融合目标检测的方法及系统
CN114298289A (zh) 一种数据处理的方法、数据处理设备及存储介质
CN116682076A (zh) 面向船舶安全监管的多尺度目标检测方法、系统及设备
CN116734834A (zh) 应用于动态场景的定位建图方法、装置和智能设备
CN116805393A (zh) 一种基于3DUnet光谱-空间信息融合的高光谱图像分类方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination