CN118279597A - 目标检测方法、装置、设备、介质和程序产品 - Google Patents
目标检测方法、装置、设备、介质和程序产品 Download PDFInfo
- Publication number
- CN118279597A CN118279597A CN202211719435.2A CN202211719435A CN118279597A CN 118279597 A CN118279597 A CN 118279597A CN 202211719435 A CN202211719435 A CN 202211719435A CN 118279597 A CN118279597 A CN 118279597A
- Authority
- CN
- China
- Prior art keywords
- network
- sub
- branch
- feature
- branch network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 86
- 238000012545 processing Methods 0.000 claims abstract description 64
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000000605 extraction Methods 0.000 claims abstract description 41
- 238000004590 computer program Methods 0.000 claims description 34
- 230000009467 reduction Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 15
- 238000010586 diagram Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000004927 fusion Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本申请涉及一种目标检测方法、装置、设备、介质和程序产品。所述方法包括:将待检测的目标图像输入至主干网络中,得到所述主干网络输出的多个不同尺度的第一特征;将各所述第一特征输入至分支网络中,通过所述分支网络对各所述第一特征分别进行特征提取处理,得到所述分支网络输出的各所述第一特征对应的第二特征;将各所述第二特征输入至Head网络,得到所述Head网络输出的目标检测结果。采用本方法能够减小目标检测过程中的计算量。
Description
技术领域
本申请涉及目标检测技术领域,特别是涉及一种目标检测方法、装置、设备、介质和程序产品。
背景技术
YOLO目标检测算法是计算机视觉领域最经典的目标检测算法之一,即使提出年代较早,但至今仍是人工智能领域应用最广泛、研究最热门、发展变化最快的算法之一。
YOLO模型的一般结构为:主干Backbone网络+Neck网络+检测头Head网络。目前,通常会使用复杂的类FPN(Feature Pyramid Networks,特征金字塔网络)模块作为Neck网络,类FPN模块的作用是通过上采样等方式将Backbone输出的特征进行特征融合。
但是,上述目标检测方式存在计算量大的问题,不利于提升目标检测的效率。
发明内容
基于此,有必要针对上述技术问题,提供一种能够减小目标检测过程中的计算量的目标检测方法、装置、设备、介质和程序产品。
第一方面,本申请提供了一种目标检测方法。该方法包括:
将待检测的目标图像输入至主干网络中,得到所述主干网络输出的多个不同尺度的第一特征;
将各所述第一特征输入至分支网络中,通过所述分支网络对各所述第一特征分别进行特征提取处理,得到所述分支网络输出的各所述第一特征对应的第二特征;
将各所述第二特征输入至Head网络,得到所述Head网络输出的目标检测结果。
在其中一个实施例中,所述分支网络包括多个子分支网络,各所述子分支网络的感受野不同,所述将各所述第一特征输入至分支网络中,包括:
对于每个所述第一特征,按照所述第一特征的尺度大小对应的目标感受野,将所述第一特征输入至具有所述目标感受野的子分支网络中。
通过感受野不同的多个子分支网络分别处理各不同尺度的第一特征,各子分支网络可以并行处理对应的第一特征,从而进一步提升目标检测效率。
在其中一个实施例中,所述子分支网络包括第一子分支网络,所述通过所述分支网络对各所述第一特征分别进行特征提取处理,得到所述分支网络输出的各所述第一特征对应的第二特征,包括:
通过所述第一子分支网络对所述第一特征进行多分支特征提取处理,得到所述第一子分支网络输出的中间特征,所述多分支特征提取处理至少包括空洞卷积处理;
根据所述中间特征获取所述第一特征对应的所述第二特征。
通过空洞卷积处理,可以在不做池化、不损失特征信息的情况下,加大第一特征的感受野,使得输出的中间特征包含较大范围的信息,在不增加计算量的情况下提升中间特征的准确性,从而提升第二特征的准确性,有利于提升目标检测的准确性。
在其中一个实施例中,所述第一子分支网络包括一个子网络;或者,所述第一子分支网络由多个子网络串联得到,不同的子网络对应的感受野不同。
在其中一个实施例中,所述子网络为RFB、RFB-s或RFB-Dilate2。
上述实施例抛弃了常规的Neck网络结构,取而代之的是分支结构,在分支结构中,RFB-s的感受野最小,RFB的感受野次之,RFB-Dilate2的感受野最大,这样,通过在主干网络输出的不同感受野分支上,选择不同感受野的子分支网络做进一步堆叠,可使最终输出特征所包含目标的尺度区分性更强,有利于提升目标检测的准确性。
在其中一个实施例中,所述子分支网络还包括与所述第一子分支网络连接的第二子分支网络,所述根据所述中间特征获取所述第一特征对应的所述第二特征,包括:
通过所述第二子分支网络对所述中间特征进行降维特征提取处理,得到所述第二子分支网络输出的所述第二特征。
在其中一个实施例中,所述第二子分支网络包括至少一个瓶颈残差模块,且多个所述瓶颈残差模块依次串联。
瓶颈残差模块BottleNeck源于残差网络ResNet,为了使得新增结构的参数量对整个目标检测模型参数量的占比尽可能小,同时也为了在有限的计算资源上花费较少的时间得到训练结果,目标检测整体模型的参数量也不应过大,因此在分支网络中引入轻量化且能够提升模型性能的瓶颈残差模块,在保证目标检测模型轻量化的同时提升模型性能。
第二方面,本申请还提供了一种目标检测装置。该装置包括:
第一处理模块,用于将待检测的目标图像输入至主干网络中,得到所述主干网络输出的多个不同尺度的第一特征;
第二处理模块,用于将各所述第一特征输入至分支网络中,通过所述分支网络对各所述第一特征分别进行特征提取处理,得到所述分支网络输出的各所述第一特征对应的第二特征;
检测模块,用于将各所述第二特征输入至Head网络,得到所述Head网络输出的目标检测结果。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的方法的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的方法的步骤。
上述目标检测方法、装置、设备、介质和程序产品,通过将待检测的目标图像输入至主干网络中,得到主干网络输出的多个不同尺度的第一特征,而后,将各第一特征输入至分支网络中,通过分支网络对各第一特征分别进行特征提取处理,得到分支网络输出的各第一特征对应的第二特征,再将各第二特征输入至Head网络,得到Head网络输出的目标检测结果,这样,本申请实施例分支网络是对各不同尺度的第一特征分别进行特征提取处理,而不必通过上采样等方式对其进行特征融合,从而避免了上采样过程造成的计算量大的问题,减小了目标检测过程中的计算量,有利于提升目标检测的效率。
附图说明
图1为一种示例性地YOLO模型的网络结构示意图;
图2为一个实施例中目标检测方法的流程示意图;
图3为一个实施例中RFB与RFB-s的网络结构示意图;
图4为一个实施例中步骤202的流程示意图;
图5为一个实施例中目标检测模型的网络结构示意图;
图6为另一个实施例中目标检测模型的网络结构示意图;
图7为一个实施例中瓶颈残差模块的结构示意图;
图8为一个实施例中测试网络和传统YOLO模型的模型性能对比示意图;
图9为一个实施例中本申请实施例目标检测模型和传统YOLO模型的模型性能对比示意图;
图10为一个实施例中目标检测装置的结构框图;
图11为一个实施例中计算机设备的内部结构图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
YOLO目标检测算法是计算机视觉领域最经典的目标检测算法之一,即使提出年代较早,但至今仍是人工智能领域应用最广泛、研究最热门、发展变化最快的算法之一。YOLO模型包括YOLO v2、YOLO v3等,尤其是YOLO v4、YOLO v5在模型收敛速度和模型性能方面节节攀升,具有出色的表现。
YOLO模型是一种典型的一阶目标检测器,与Faster R-CNN这种二阶目标检测器的不同之处在于,YOLO模型中不包括RPN(Region Proposal Network,区域候选网络),RPN用于推荐可能包含目标的回归框,再将这些推荐的回归框所包含的特征作为输入得到后续精调的回归框和类别信息。而YOLO模型是直接对最终输出的特征解码得到回归框和类别信息,因此,相较于二阶目标检测器,YOLO模型对输入图像的处理速度更快,在需要实时处理的场景中的应用价值也更高。
自YOLO v3以后,YOLO模型的结构设计形成了一套固定的范式:主干Backbone网络+Neck网络+检测头Head网络。参见图1,其为一种示例性地YOLO模型的网络结构示意图。其中,Backbone网络负责对输入图像提取多个不同尺度的特征;Neck网络负责对不同尺度的特征进行特征融合,特征融合的大致流程为:通过上采样操作将分辨率低的特征(即语义层级高的高层特征)放大到和分辨率高的特征(即语义层级低的底层特征)相同的分辨率,然后,通过特征加和等操作进行特征融合,最后通过卷积或其他模块再输出。特征融合可以使得越靠近底层的特征越能得到更丰富的高层特征的信息,从而补充其语义的不足;Head网络负责输出特定通道数的特征,通过后处理解码等操作即可得到目标检测结果。
目前,通常会使用复杂的类FPN(Feature Pyramid Networks,特征金字塔网络)模块作为Neck网络,类FPN模块如Bi-FPN(Bidirectional Feature Pyramid Network,双向特征金字塔网络)等。如上文所述,类FPN模块可以融合由Backbone网络输出的不同尺度的特征,这种融合是通过上采样由高层特征向低层特征的融合,使得不同尺度的特征拥有近似相同的语义层级,从而在具有不同大小感受野的特征上,对不同尺度的目标均能做到较为良好的检测效果。
但是,上述通过上采样等方式对不同尺度的特征进行特征融合的方式,使得低分辨率的特征的分辨率增加,但其计算代价较高,即计算过程中的参数量和计算量过大。以YOLO v5M为例,作为其Neck网络的PAN结构所占的参数量就超过了整个模型参数量的50%,非常不利于提升目标检测的效率,降低了YOLO模型在实地场景中的部署价值。
鉴于此,本申请实施例提供的目标检测方法,通过将待检测的目标图像输入至主干网络中,得到主干网络输出的多个不同尺度的第一特征,而后,将各第一特征输入至分支网络中,通过分支网络对各第一特征分别进行特征提取处理,得到分支网络输出的各第一特征对应的第二特征,再将各第二特征输入至Head网络,得到Head网络输出的目标检测结果,这样,本申请实施例分支网络是对各不同尺度的第一特征分别进行特征提取处理,而不必通过上采样等方式对其进行特征融合,从而避免了上采样过程造成的计算量大的问题,减小了目标检测过程中的计算量,有利于提升目标检测的效率。
本申请实施例提供的目标检测方法,其执行主体可以是计算机设备,该计算机设备可以是服务器,当然也可以是终端。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等;服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种目标检测方法,以该方法应用于计算机设备为例进行说明。该方法包括以下步骤:
步骤201,计算机设备将待检测的目标图像输入至主干网络中,得到主干网络输出的多个不同尺度的第一特征。
目标图像可以是任意需要进行目标检测的图像,例如可以是人物图像、建筑物图像,等等,计算机设备获取该需要进行目标检测的目标图像。
示例性地,计算机设备可以通过相机进行图像采集得到该目标图像,计算机设备还可以接收其他设备发送的该目标图像,在此对计算机设备获取该目标图像的方式不做具体限制。
本申请实施例目标检测模型包括依次连接的主干网络、分支网络和Head网络。计算机设备获取到该目标图像后,将该目标图像输入至主干网络中,该主干网络可以是预先训练得到的YOLO模型中的Backbone网络,主干网络执行卷积操作等特征提取过程,对目标图像进行特征提取,得到多个不同尺度的第一特征。
特征的尺度即特征图的尺寸,例如,目标图像的尺寸为N*N(N为大于0的整数),则多个第一特征的尺寸分别可以是(N/8)*(N/8)、(N/16)*(N/16)、(N/32)*(N/32),等等。
步骤202,计算机设备将各第一特征输入至分支网络中,通过分支网络对各第一特征分别进行特征提取处理,得到分支网络输出的各第一特征对应的第二特征。
本申请实施例中,分支网络中可以包括用于处理各个不同尺度的第一特征的子分支网络,计算机设备将各第一特征输入至分支网络之后,该分支网络则通过各个子分支网络处理相应的第一特征。
在一种可能的实施方式中,该子分支网络可以是RFB(Receptive Field Block,感受野模块)、RFB-s或RFB-Dilate(膨胀)2。示例性地,RFB与RFB-s的网络结构如图3所示。
RFB和RFB-s的不同点在于:为了使模型更加轻量化,RFB-s中利用两个堆叠的3×3卷积层代替RFB中5×5卷积层,另外,RFB-s中利用一个3×1和一个1×3卷积层代替RFB中的3×3卷积层,从而在保持感受野范围的同时减少模型参数,增加网络深度。
在另一种可能的实施方式中,子该分支网络还可以是RFB、RFB-s或RFB-Dilate2中任意模块形成的组合,可以理解的是,各子分支网络的组合形式不同。
在其他可能的实施方式中,子分支网络还可以由瓶颈残差模块Bottle-Neck组成。示例性地,子分支网络可以是一个瓶颈残差模块,也可以由多个瓶颈残差模块依次串联得到。
这样,通过分支网络中的各子分支网络分别对对应的第一特征进行特征提取处理,则可以得到各第一特征对应的第二特征。
步骤203,计算机设备将各第二特征输入至Head网络,得到Head网络输出的目标检测结果。
Head网络可以YOLO模型中任意的检测头网络,该目标检测结果可以是目标图像中目标的类别及其检测框的位置坐标,从而实现针对目标图像的目标检测。
本申请实施例中,在模型训练阶段,所采用的基本模型是由深度学习库MXNet的计算机视觉工具箱GluonCV实现的YOLO v5M。由于本申请所基于的实验初衷是为了探索模型结构改进带来的效益,并非追求在绝对性能上与SOTA模型的竞争,因此为了降低开发成本,除模型主体外的所有周边算法均采用基于深度学习库MXNet的计算机视觉工具箱GluonCV框架实现。原GluonCV中已包含YOLO v3的实现,通过替换模型实现,本申请实施例可以利用在YOLO v3环境下训练YOLO v5及其改进版模型,即利用YOLO v3相关的训练样本、训练参数等环境信息训练YOLO v5M,实现YOLO v5M的快速收敛,从而可以更快捷地呈现实验结果。
本申请实施例设计了一种新的深度网络模型,其是对YOLO模型(即符合Backbone网络+Neck网络+Head网络结构的模型)、具体是针对YOLO V3模型结构的改进,本申请实施例通过一种参数量较小的分支网络作为传统类YOLO v3模型中的Neck网络,即利用分支网络替换传统类YOLO v3模型中的类FPN模块,由于在目标检测过程中,本申请实施例分支网络的参数量小于传统技术中FPN模块、类FPN模块的参数量,从而能够实现模型性能的可观提升,且分支网络是对各个第一特征分别进行处理,并不会通过上采样等方式进行特征融合,从而也避免了上采样过程造成的计算量大的问题。
整体而言,上述实施例通过将待检测的目标图像输入至主干网络中,得到主干网络输出的多个不同尺度的第一特征,而后,将各第一特征输入至分支网络中,通过分支网络对各第一特征分别进行特征提取处理,得到分支网络输出的各第一特征对应的第二特征,再将各第二特征输入至Head网络,得到Head网络输出的目标检测结果,这样,本申请实施例分支网络是对各不同尺度的第一特征分别进行特征提取处理,而不必通过上采样等方式对其进行特征融合,从而避免了上采样过程造成的计算量大的问题,减小了目标检测过程中的计算量,有利于提升目标检测的效率。
在一个实施例中,基于图2所示的实施例,参见图4,本实施例涉及的是计算机设备如何将各第一特征输入至分支网络的过程。本实施例中,分支网络包括多个子分支网络,步骤202可以包括图4所示的步骤401、步骤402和步骤403:
步骤401,计算机设备对于每个第一特征,按照第一特征的尺度大小对应的目标感受野,将第一特征输入至具有目标感受野的子分支网络中。
可以理解的是,不同尺寸的第一特征对应不同的感受野,例如,承接上文的举例,目标图像的尺寸为N*N,多个第一特征的尺寸分别是(N/8)*(N/8)、(N/16)*(N/16)、(N/32)*(N/32),假设N=320,则该多个不同尺寸的第一特征具体为40*40的第一特征、20*20的第一特征以及10*10的第一特征,相对于原图(即320*320的目标图像)尺寸而言,40*40的第一特征中的每个元素对应的感受野为8*8,20*20的第一特征中的每个元素对应的感受野为16*16,10*10的第一特征中的每个元素对应的感受野为32*32。
本申请实施例中,各子分支网络的感受野不同,且各子分支网络的感受野与其所要处理的第一特征的感受野相同,示例性地,各子分支网络为三个,分别对应上述40*40的第一特征、20*20的第一特征以及10*10的第一特征,则40*40的第一特征对应的子分支网络的感受野为8*8、20*20的第一特征对应的子分支网络的感受野为16*16、10*10的第一特征对应的子分支网络的感受野为32*32.
计算机设备将各第一特征输入至分支网络时,对于每个第一特征,计算机设备首先可以确定该第一特征的尺度大小对应的目标感受野,然后,确定具有该目标感受野子分支网络,再将该第一特征输入至具有该目标感受野子分支网络中,从而实现步骤202中的将各第一特征输入至分支网络中的过程。这样,通过感受野不同的多个子分支网络分别处理各不同尺度的第一特征,各子分支网络可以并行处理对应的第一特征,从而进一步提升目标检测效率。
本申请实施例中,每个子分支网络均包括第一子分支网络,请继续参见图4,以下对步骤202所包括的步骤402以及步骤403的实施方式进行示例性地说明。
步骤402,计算机设备通过第一子分支网络对第一特征进行多分支特征提取处理,得到第一子分支网络输出的中间特征。
其中,多分支特征提取处理至少包括空洞卷积处理。
在一种可能的实施方式中,第一子分支网络可以包括具有多分支的卷积模块,该卷积模块可以通过多个卷积分支对第一特征进行卷积操作以提取特征。
示例性地,该多个卷积分支可以包括空洞卷积分支和普通卷积分支,空洞卷积分支用于对第一特征进行空洞卷积处理,普通卷积分支用于对第一特征进行普通卷积处理,然后,卷积模块根据空洞卷积处理得到的结果和普通卷积处理得到的结果输出的中间特征。
通过空洞卷积处理,可以在不做池化、不损失特征信息的情况下,加大第一特征的感受野,使得输出的中间特征包含较大范围的信息,在不增加计算量的情况下提升中间特征的准确性,从而提升第二特征的准确性,有利于提升目标检测的准确性。
以下,结合图示,对第一子分支网络的网络结构进行示例性地说明。
本申请实施例中,第一子分支网络包括一个子网络;或者,第一子分支网络由多个子网络串联得到,不同的子网络对应的感受野不同。
示例性地,参见图5,其为本申请实施例中一种示例性地目标检测模型的网络结构图。如图5所示,从上至下示出了三个子分支网络,每个子分支网络均包括第一子分支网络,该第一子分支网络包括一个子网络。
本申请实施例中,子网络为RFB、RFB-s或RFB-Dilate2,请继续参见图5,图5中三个子分支网络中,第一行的子分支网络所包括的第一子分支网络即为一个RFB-s,第二行的子分支网络所包括的第一子分支网络即为一个RFB,第三行的子分支网络所包括的第一子分支网络即为一个RFB-Dilate2。
示例性地,参见图6,其为本申请实施例中另一种示例性地目标检测模型的网络结构图。如图6所示,从上至下示出了三个子分支网络,每个子分支网络均包括第一子分支网络,该第一子分支网络由多个子网络串联得到,图6中三个子分支网络中,第一行的子分支网络所包括的第一子分支网络由三个RFB-s依次串联得到,第二行的子分支网络所包括的第一子分支网络由一个RFB-s、两个RFB依次串联得到,第三行的子分支网络所包括的第一子分支网络由一个RFB和两个RFB-Dilate2依次串联得到。
可以理解的是,图5和图6的目标检测模型中仅示例性地示出了两种第一子分支网络的组成形式,在其他实施例中,还可以是其他方式的组合。
上述实施例抛弃了常规的Neck网络结构,取而代之的是分支结构,在分支结构中,RFB-s的感受野最小,RFB的感受野次之,RFB-Dilate2的感受野最大,这样,通过在主干网络输出的不同感受野分支上,选择不同感受野的子分支网络做进一步堆叠,可使最终输出特征所包含目标的尺度区分性更强,有利于提升目标检测的准确性。
步骤403,计算机设备根据中间特征获取第一特征对应的第二特征。
这样,通过步骤402和步骤403实现步骤202中的通过分支网络对各第一特征分别进行特征提取处理,得到分支网络输出的各第一特征对应的第二特征的过程。
本申请实施例中,每个子分支网络还包括与第一子分支网络连接的第二子分支网络,示例性地,参见图5和图6,第二子分支网络连接在第一子分支网络于H ead网络之间,计算机设备可以执行如下步骤A,实现步骤403的过程:
步骤A,计算机设备通过第二子分支网络对中间特征进行降维特征提取处理,得到第二子分支网络输出的第二特征。
其中,该第二子分支网络包括至少一个瓶颈残差模块,且多个瓶颈残差模块依次串联。示例性地,参见图7,图7为一种示例性地瓶颈残差模块的结构示意图。
瓶颈残差模块BottleNeck源于残差网络ResNet,为了使得新增结构的参数量对整个目标检测模型参数量的占比尽可能小,同时也为了在有限的计算资源上花费较少的时间得到训练结果,目标检测整体模型的参数量也不应过大,因此在分支网络中引入轻量化且能够提升模型性能的瓶颈残差模块。
示例性地,为了验证第二子分支网络对目标检测模型的性能贡献,基于传统的YOLO模型(即主干网络+Neck网络+Head网络),在Neck网络和Head网络之间加入该第二子分支网络得到得到测试网络,参见图8,图8为该测试网络和传统的YOLO模型的模型性能对比图。
图8中,第一行Original(M)表征传统YOLO模型(YOLO v5M),第二行Branch Head表征上述测试网络,图8中的Size为图像尺寸,#Params(M)表征模型的参数量,GFLOPs@416表征模型的计算量,后续的三个指标均为不同维度下的测试性能指标,可以看出,在加入第二子分支网络后,仅在增加少量参数(3.32M)的前提下,mAP实现了2.8%的提升,而通常在属于同一家族的相同结构的一系列模型(如ResNet-18/34/50/101)中,得到这样程度的性能提升往往意味着模型参数量需要翻倍,因此,可见第二子分支网络这种分支设计虽结构简单却效用显著。
为了对本申请实施例提出的分支结果的目标检测模型的性能进行验证,本申请发明人在研发阶段进行对比试验,首先创建一个基于传统YOLO v3设计范式的模型作为对比:使用Bi-FPN作为Neck网络,即该传统YOLO v3模型的模型结构为主干网络+Bi-FPN+Head网络,与本申请实施例目标检测模型进行性能对比,两个模型要控制以下几个参数相同:均使用YOLO v5M的Backbone主干网络、模型参数量大体相同(14.5M)。
试验结果如图9所示,由图9的实验结果可知,本申请实施例目标检测模型在计算量、精度(mAP,AP.5,AP.75)等指标上均优于使用传统设计范式的模型。
上述实施例设计了一种新型的目标检测模型:RFBYOLO,使用更强大的分支结构取代传统的类FPN结构作为Neck网络,在模型参数量相同的前提下,计算代价及模型准确率均较经典的类YOLOv3模型取得了提高,从而证明了分支结构在目标检测模型上发挥出的优秀性能和潜力。
另外,本申请实施例在目标检测模型训练过程中,训练样本可以标准的目标检测数据集:COCO2017,实验环境为Ubuntu20.04 LTS,MXNet1.7,使用NVIDIA GTX TITAN X(12GB)加速卡。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的目标检测方法的目标检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个目标检测装置实施例中的具体限定可以参见上文中对于目标检测方法的限定,在此不再赘述。
在一个实施例中,如图10所示,提供了一种目标检测装置,包括:
第一处理模块1001,用于将待检测的目标图像输入至主干网络中,得到所述主干网络输出的多个不同尺度的第一特征;
第二处理模块1002,用于将各所述第一特征输入至分支网络中,通过所述分支网络对各所述第一特征分别进行特征提取处理,得到所述分支网络输出的各所述第一特征对应的第二特征;
检测模块1003,用于将各所述第二特征输入至Head网络,得到所述Head网络输出的目标检测结果。
在其中一个实施例中,所述分支网络包括多个子分支网络,各所述子分支网络的感受野不同,所述第二处理模块1002,包括:
输入单元,用于对于每个所述第一特征,按照所述第一特征的尺度大小对应的目标感受野,将所述第一特征输入至具有所述目标感受野的子分支网络中。
在其中一个实施例中,所述子分支网络包括第一子分支网络,所述第二处理模块1002,还包括:
处理单元,用于通过所述第一子分支网络对所述第一特征进行多分支特征提取处理,得到所述第一子分支网络输出的中间特征,所述多分支特征提取处理至少包括空洞卷积处理;
获取单元,用于根据所述中间特征获取所述第一特征对应的所述第二特征。
在其中一个实施例中,所述第一子分支网络包括一个子网络;或者,
所述第一子分支网络由多个子网络串联得到,不同的子网络对应的感受野不同。
在其中一个实施例中,所述子网络为感受野模块RFB、RFB-s或RFB-Dilate2。
在其中一个实施例中,所述子分支网络还包括与所述第一子分支网络连接的第二子分支网络,所述获取单元具体用于通过所述第二子分支网络对所述中间特征进行降维特征提取处理,得到所述第二子分支网络输出的所述第二特征。
在其中一个实施例中,所述第二子分支网络包括至少一个瓶颈残差模块,且多个所述瓶颈残差模块依次串联。
上述目标检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种目标检测方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标检测数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种目标检测方法。
本领域技术人员可以理解,图11和图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
将待检测的目标图像输入至主干网络中,得到所述主干网络输出的多个不同尺度的第一特征;
将各所述第一特征输入至分支网络中,通过所述分支网络对各所述第一特征分别进行特征提取处理,得到所述分支网络输出的各所述第一特征对应的第二特征;
将各所述第二特征输入至Head网络,得到所述Head网络输出的目标检测结果。
在一个实施例中,所述分支网络包括多个子分支网络,各所述子分支网络的感受野不同,处理器执行计算机程序时还实现以下步骤:
对于每个所述第一特征,按照所述第一特征的尺度大小对应的目标感受野,将所述第一特征输入至具有所述目标感受野的子分支网络中。
在一个实施例中,所述子分支网络包括第一子分支网络,处理器执行计算机程序时还实现以下步骤:
通过所述第一子分支网络对所述第一特征进行多分支特征提取处理,得到所述第一子分支网络输出的中间特征,所述多分支特征提取处理至少包括空洞卷积处理;
根据所述中间特征获取所述第一特征对应的所述第二特征。
在一个实施例中,所述第一子分支网络包括一个子网络;或者,
所述第一子分支网络由多个子网络串联得到,不同的子网络对应的感受野不同。
在一个实施例中,所述子网络为感受野模块RFB、RFB-s或RFB-Dilate2。
在一个实施例中,所述子分支网络还包括与所述第一子分支网络连接的第二子分支网络,处理器执行计算机程序时还实现以下步骤:
通过所述第二子分支网络对所述中间特征进行降维特征提取处理,得到所述第二子分支网络输出的所述第二特征。
在一个实施例中,所述第二子分支网络包括至少一个瓶颈残差模块,且多个所述瓶颈残差模块依次串联。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
将待检测的目标图像输入至主干网络中,得到所述主干网络输出的多个不同尺度的第一特征;
将各所述第一特征输入至分支网络中,通过所述分支网络对各所述第一特征分别进行特征提取处理,得到所述分支网络输出的各所述第一特征对应的第二特征;
将各所述第二特征输入至Head网络,得到所述Head网络输出的目标检测结果。
在一个实施例中,所述分支网络包括多个子分支网络,各所述子分支网络的感受野不同,计算机程序被处理器执行时还实现以下步骤:
对于每个所述第一特征,按照所述第一特征的尺度大小对应的目标感受野,将所述第一特征输入至具有所述目标感受野的子分支网络中。
在一个实施例中,所述子分支网络包括第一子分支网络,计算机程序被处理器执行时还实现以下步骤:
通过所述第一子分支网络对所述第一特征进行多分支特征提取处理,得到所述第一子分支网络输出的中间特征,所述多分支特征提取处理至少包括空洞卷积处理;
根据所述中间特征获取所述第一特征对应的所述第二特征。
在一个实施例中,所述第一子分支网络包括一个子网络;或者,
所述第一子分支网络由多个子网络串联得到,不同的子网络对应的感受野不同。
在一个实施例中,所述子网络为感受野模块RFB、RFB-s或RFB-Dilate2。
在一个实施例中,所述子分支网络还包括与所述第一子分支网络连接的第二子分支网络,计算机程序被处理器执行时还实现以下步骤:
通过所述第二子分支网络对所述中间特征进行降维特征提取处理,得到所述第二子分支网络输出的所述第二特征。
在一个实施例中,所述第二子分支网络包括至少一个瓶颈残差模块,且多个所述瓶颈残差模块依次串联。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
将待检测的目标图像输入至主干网络中,得到所述主干网络输出的多个不同尺度的第一特征;
将各所述第一特征输入至分支网络中,通过所述分支网络对各所述第一特征分别进行特征提取处理,得到所述分支网络输出的各所述第一特征对应的第二特征;
将各所述第二特征输入至Head网络,得到所述Head网络输出的目标检测结果。
在一个实施例中,所述分支网络包括多个子分支网络,各所述子分支网络的感受野不同,计算机程序被处理器执行时还实现以下步骤:
对于每个所述第一特征,按照所述第一特征的尺度大小对应的目标感受野,将所述第一特征输入至具有所述目标感受野的子分支网络中。
在一个实施例中,所述子分支网络包括第一子分支网络,计算机程序被处理器执行时还实现以下步骤:
通过所述第一子分支网络对所述第一特征进行多分支特征提取处理,得到所述第一子分支网络输出的中间特征,所述多分支特征提取处理至少包括空洞卷积处理;
根据所述中间特征获取所述第一特征对应的所述第二特征。
在一个实施例中,所述第一子分支网络包括一个子网络;或者,
所述第一子分支网络由多个子网络串联得到,不同的子网络对应的感受野不同。
在一个实施例中,所述子网络为感受野模块RFB、RFB-s或RFB-Dilate2。
在一个实施例中,所述子分支网络还包括与所述第一子分支网络连接的第二子分支网络,计算机程序被处理器执行时还实现以下步骤:
通过所述第二子分支网络对所述中间特征进行降维特征提取处理,得到所述第二子分支网络输出的所述第二特征。
在一个实施例中,所述第二子分支网络包括至少一个瓶颈残差模块,且多个所述瓶颈残差模块依次串联。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种目标检测方法,其特征在于,所述方法包括:
将待检测的目标图像输入至主干网络中,得到所述主干网络输出的多个不同尺度的第一特征;
将各所述第一特征输入至分支网络中,通过所述分支网络对各所述第一特征分别进行特征提取处理,得到所述分支网络输出的各所述第一特征对应的第二特征;
将各所述第二特征输入至Head网络,得到所述Head网络输出的目标检测结果。
2.根据权利要求1所述的方法,其特征在于,所述分支网络包括多个子分支网络,各所述子分支网络的感受野不同,所述将各所述第一特征输入至分支网络中,包括:
对于每个所述第一特征,按照所述第一特征的尺度大小对应的目标感受野,将所述第一特征输入至具有所述目标感受野的子分支网络中。
3.根据权利要求2所述的方法,其特征在于,所述子分支网络包括第一子分支网络,所述通过所述分支网络对各所述第一特征分别进行特征提取处理,得到所述分支网络输出的各所述第一特征对应的第二特征,包括:
通过所述第一子分支网络对所述第一特征进行多分支特征提取处理,得到所述第一子分支网络输出的中间特征,所述多分支特征提取处理至少包括空洞卷积处理;
根据所述中间特征获取所述第一特征对应的所述第二特征。
4.根据权利要求3所述的方法,其特征在于,所述第一子分支网络包括一个子网络;或者,
所述第一子分支网络由多个子网络串联得到,不同的子网络对应的感受野不同。
5.根据权利要求4所述的方法,其特征在于,所述子网络为感受野模块RFB、RFB-s或RFB-Dilate2。
6.根据权利要求3-5任一项所述的方法,其特征在于,所述子分支网络还包括与所述第一子分支网络连接的第二子分支网络,所述根据所述中间特征获取所述第一特征对应的所述第二特征,包括:
通过所述第二子分支网络对所述中间特征进行降维特征提取处理,得到所述第二子分支网络输出的所述第二特征。
7.一种目标检测装置,其特征在于,所述装置包括:
第一处理模块,用于将待检测的目标图像输入至主干网络中,得到所述主干网络输出的多个不同尺度的第一特征;
第二处理模块,用于将各所述第一特征输入至分支网络中,通过所述分支网络对各所述第一特征分别进行特征提取处理,得到所述分支网络输出的各所述第一特征对应的第二特征;
检测模块,用于将各所述第二特征输入至Head网络,得到所述Head网络输出的目标检测结果。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211719435.2A CN118279597A (zh) | 2022-12-30 | 2022-12-30 | 目标检测方法、装置、设备、介质和程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211719435.2A CN118279597A (zh) | 2022-12-30 | 2022-12-30 | 目标检测方法、装置、设备、介质和程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118279597A true CN118279597A (zh) | 2024-07-02 |
Family
ID=91645727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211719435.2A Pending CN118279597A (zh) | 2022-12-30 | 2022-12-30 | 目标检测方法、装置、设备、介质和程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118279597A (zh) |
-
2022
- 2022-12-30 CN CN202211719435.2A patent/CN118279597A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110599492B (zh) | 图像分割模型的训练方法、装置、电子设备及存储介质 | |
CN111369440B (zh) | 模型训练、图像超分辨处理方法、装置、终端及存储介质 | |
CN111666994A (zh) | 样本图像数据增强方法、装置、电子设备及存储介质 | |
CN112488923A (zh) | 图像超分辨率重建方法、装置、存储介质及电子设备 | |
CN116580257A (zh) | 特征融合模型训练及样本检索方法、装置和计算机设备 | |
CN112950640A (zh) | 视频人像分割方法、装置、电子设备及存储介质 | |
CN116824092B (zh) | 三维模型生成方法、装置、计算机设备和存储介质 | |
CN115272082A (zh) | 模型训练、视频质量提升方法、装置和计算机设备 | |
CN116010226A (zh) | 软件系统可靠性仿真评估方法、装置和计算机设备 | |
CN117218031A (zh) | 基于DeqNLNet算法的图像重构方法、装置及介质 | |
CN116894974A (zh) | 图像分类方法、装置、计算机设备及其存储介质 | |
CN116258923A (zh) | 图像识别模型训练方法、装置、计算机设备和存储介质 | |
CN116229130A (zh) | 模糊图像的类型识别方法、装置、计算机设备和存储介质 | |
CN115984949A (zh) | 一种带有注意力机制的低质量人脸图像识别方法及设备 | |
CN115953330A (zh) | 虚拟场景图像的纹理优化方法、装置、设备和存储介质 | |
CN116310308A (zh) | 图像分割方法、装置、计算机设备和存储介质 | |
CN115601283A (zh) | 图像增强方法、装置、计算机设备及计算机可读存储介质 | |
CN118279597A (zh) | 目标检测方法、装置、设备、介质和程序产品 | |
CN113726976A (zh) | 一种基于编码-解码网络的大容量以图藏图方法和系统 | |
CN116071478B (zh) | 图像重建模型的训练方法和虚拟场景渲染方法 | |
CN116894802B (zh) | 图像增强方法、装置、计算机设备和存储介质 | |
CN114782256B (zh) | 图像重建方法、装置、计算机设备和存储介质 | |
CN115601550B (zh) | 模型确定方法、装置、计算机设备及计算机可读存储介质 | |
CN116597293A (zh) | 多模态场景识别方法、装置、计算机设备和存储介质 | |
CN117975473A (zh) | 票据文本检测模型训练及检测方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication |