CN114494792B - 基于单阶段的目标检测方法、装置、设备及存储介质 - Google Patents

基于单阶段的目标检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114494792B
CN114494792B CN202210394883.3A CN202210394883A CN114494792B CN 114494792 B CN114494792 B CN 114494792B CN 202210394883 A CN202210394883 A CN 202210394883A CN 114494792 B CN114494792 B CN 114494792B
Authority
CN
China
Prior art keywords
feature map
feature
network
map
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210394883.3A
Other languages
English (en)
Other versions
CN114494792A (zh
Inventor
殷绪成
马嘉威
陈松路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Eeasy Electronic Tech Co ltd
Original Assignee
Zhuhai Eeasy Electronic Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Eeasy Electronic Tech Co ltd filed Critical Zhuhai Eeasy Electronic Tech Co ltd
Priority to CN202210394883.3A priority Critical patent/CN114494792B/zh
Publication of CN114494792A publication Critical patent/CN114494792A/zh
Application granted granted Critical
Publication of CN114494792B publication Critical patent/CN114494792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明适用目标检测技术领域,提供了一种基于单阶段的目标检测方法、装置、设备及存储介质,该方法包括:采用特征提取网络对输入的待检测图像进行特征提取,得到待检测图像在不同尺度下的多个第一特征图;对每个第一特征图进行定位和分类操作,得到对应的第二特征图和第三特征图;对第二特征图、第三特征图进行特征对齐操作,得到对应的第四特征图和第五特征图,对第四特征图和第五特征图进行交互操作,得到对应的交并比分数、预测框和分类分数;基于交并比分数、分类分数和预测框,确定待检测图像的检测目标,从而通过提高特征定位与特征分类的一致性与差异性提高目标检测任务的协调性,进而提高目标检测的准确度。

Description

基于单阶段的目标检测方法、装置、设备及存储介质
技术领域
本发明属于目标检测技术领域,尤其涉及一种基于单阶段的目标检测方法、装置、设备及存储介质。
背景技术
目标检测是在给定图像中同时预测目标的类别和位置,是计算机视觉的一个基本问题,被使用在许多重要的应用中,如监控、自动驾驶、医疗决策以及机器人技术等。进入深度学习时代以来,目标检测发展主要集中在两个方向:单阶段目标检测算法和多阶段目标检测算法。两者的主要区别在于多阶段算法需要先生成预选框(proposal,一个有可能包含待检物体的预选框),然后进行细粒度的物体检测。而单阶段算法会直接在网络中提取特征来预测物体分类和位置,单阶段算法简便和易用,由此成为通用目标检测领域最主要的热点研究方向。
单阶段检测器在检测头中采用两个并行子网络络来完成分类和定位任务。但不同任务的采样空间相同,且监督权重相同,不利于突出高质量样本,抑制了低质量样本。目前使用的方法一般是通过改进预测框的评估机制来提升多任务的协调性,然而,这些方法只是提高了边界盒的质量和排序分数的一致性,使用相同的区域进行采样仍然会导致两个任务的次优解,使得目标的检测精度不佳。
发明内容
本发明的目的在于提供一种基于单阶段的目标检测方法、装置、设备及存储介质,旨在解决由于现有的单阶段目标检测技术在图像特征的处理中无法协调特征的差异性和一致性而导致目标检测精度不高的问题。
一方面,本发明提供了一种目标检测方法,所述方法包括下述步骤:
采用特征提取网络对输入的待检测图像进行特征提取,得到所述待检测图像在不同尺度下的多个第一特征图;
将所述多个第一特征图输入特征协调网络,以对所述多个第一特征图进行特征对齐和交互操作,得到所述多个第一特征图对应的多个交并比分数、多个预测框和多个分类分数;
基于所述多个交并比分数、多个分类分数和多个预测框,确定所述待检测图像的检测目标。
另一方面,本发明提供了一种目标检测装置,所述装置包括:
特征提取单元,用于采用特征提取网络对输入的待检测图像进行特征提取,得到所述待检测图像在不同尺度下的多个第一特征图;
定位与分类单元,用于对每个第一特征图进行定位和分类操作,得到对应的第二特征图和第三特征图;
对齐与交互单元,用于对所述第二特征图、第三特征图进行特征对齐操作,得到对应的第四特征图和第五特征图,对所述第四特征图和第五特征图进行交互操作,得到对应的交并比分数、预测框和分类分数;
目标确定单元,用于基于所有所述第一特征图对应的交并比分数、分类分数和预测框,确定所述待检测图像的检测目标。
另一方面,本发明还提供了一种目标检测设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述方法的步骤。
另一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。
本发明采用特征提取网络对输入的待检测图像进行特征提取,得到待检测图像在不同尺度下的多个第一特征图,将多个第一特征图输入特征协调网络,以对多个第一特征图进行特征对齐和交互操作,得到多个第一特征图对应的多个交并比分数、多个预测框和多个分类分数,基于多个交并比分数、多个分类分数和多个预测框,确定待检测图像的检测目标,从而通过提高特征定位与特征分类的一致性与差异性提高目标检测任务的协调性,进而提高目标检测的准确度。
附图说明
图1是本发明实施例一提供的目标检测方法的实现流程图;
图2是本发明实施例二提供的目标检测方法中的特征定位的实现流程图;
图3是本发明实施例三提供的目标检测方法中的特征分类的实现流程图;
图4A是本发明实施例四提供的目标检测方法中的特征对齐的实现流程图;
图4B是本发明实施例四提供的目标检测方法的偏移量的示意图;
图5是本发明实施例五提供的目标检测方法中的特征交互的实现流程图;
图6是本发明实施例六提供的目标检测装置的结构示意图;
图7是本发明实施例七提供的目标检测设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的目标检测方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,采用特征提取网络对输入的待检测图像进行特征提取,得到待检测图像在不同尺度下的多个第一特征图。
本发明实施例适用于电子装置,该电子装置可以为手机、平板电脑、可穿戴设备、笔记本电脑、个人计算机、上网本等设备,本申请实施例对电子装置的具体类型不作任何限制。
在本发明实施例中,特征提取网络用于对输入的待检测图像进行特征提取,特征提取网络可以为基于深度学习的神经网络,待检测图像为需要对图像中的目标进行检测的图像,目标可以为人物、车辆、动物等。为了使提取到的特征图既包含较丰富的语义信息又能使目标的位置更准确,通过特征提取网络对输入的待检测图像进行特征提取,得到待检测图像在不同尺度下的多个特征图,为了便于描述,将该多个特征图称为多个第一特征图。其中,属于浅层尺度的第一特征图感受野较小,语义信息较少,但目标位置准确,属于深层尺度的第一特征图感受野较大,语义信息较多,但目标位置比较粗略。
在一优选实施方式中,特征提取网络包括第一子网络和第二子网络,第一子网络基于ResNet网络构建,第二子网络基于FPN(Feature Pyramid Network,特征金字塔网络)网络构建,其中,第一子网络可以采用ResNet101神经网络结构进行构建。这样,利用FPN神经网络结构可以对具有高分辨率的浅层特征图和具有丰富语义信息的深层特征图进行融合,得到不同尺度上都具有强语义信息又具有高分辨率的多个第一特征图。
在步骤S102中,对每个第一特征图进行定位和分类操作,得到对应的第二特征图和第三特征图。
在本发明实施例中,对每个第一特征图进行分类操作,可以得到待检测图像中的分类特征,即待检测目标的细节信息,对每个第一特征图进行定位操作,可以得到待检测图像的定位特征,即待检测目标的大致轮廓或形状信息。具体地,可采用特征定位网络对每个第一特征图进行定位操作,得到第二特征图,采用特征分类网络对每个第一特征图进行分类操作,得到第三特征图。
在步骤S103中,对第二特征图、第三特征图进行特征对齐操作,得到对应的第四特征图和第五特征图,对第四特征图和第五特征图进行交互操作,得到对应的交并比分数、预测框和分类分数。
在本发明实施例中,对第二特征图进行特征对齐,得到第四特征图,对第三特征图进行特征对齐,得到第五特征图,对第四特征图和第五特征图进行交互操作,得到对应的交并比分数、预测框和分类分数。具体地,可以采用特征对齐网络对第二特征图和第三特征图分别进行特征对齐操作,对应得到第四特征图和第五特征图,采用特征交互网络对第四特征图和第五特征图进行特征交互操作,得到对应的预测框、交并比分数和分类分数。优选地,可以通过计算每一个交并比的几何平均值,基于每个交并比的几何平均值得到交并比分数。
在步骤S104中,基于所有第一特征图对应的交并比分数、分类分数和预测框,确定待检测图像的检测目标。
在本发明实施例中,在通过步骤S101得到多个第一特征图后,对每个第一特征图进行前述处理,得到所有第一特征图对应的交并比分数、分类分数和预测框,进而根据所有第一特征图对应的交并比分数、分类分数和预测框,确定待检测图像的检测目标。在一优选实施方式中,可以通过计算每一个交并比分数与每一个分类分数之和,得到多个求和分数,对多个求和分数进行排序,得到综合排名分数。根据综合排名分数使用NMS(Non MaximumSuppression,非极大值抑制)对所有的预测框进行冗余去除,筛选出置信度最高的预测框作为检测的目标。
实施例二:
图2示出了本发明实施例二提供的目标检测方法中的特征定位的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S201中,将每个第一特征图输入特征定位网络,利用特征定位网络的第一卷积层对第一特征图进行卷积计算,得到定位特征图。
在本发明实施例中,采用特征定位网络对每个第一特征图进行定位操作,其中,特征定位网络包括第一卷积层、第一归一层和第一激活层。在这里,利用第一卷积层对第一特征图进行卷积计算,以得到多通道的定位特征图。
在步骤S202中,利用特征定位网络的第一归一层对定位特征图进行分组并计算每一组的均值和方差,以进行归一化。
在本发明实施例中,利用特征定位网络的第一归一层对定位特征图进行分组并计算每一组的均值和方差,以进行归一化。
在步骤S203中,利用特征定位网络的第一激活层对归一化处理后的定位特征图进行激活处理,得到第二特征图。
在本发明实施例中,利用特征定位网络的第一激活层对归一化处理后的定位特征图进行激活处理,得到第二特征图。
在本发明实施例中,采用特征定位网络对每个第一特征图进行定位操作,得到第二特征图,特征定位网络包括第一卷积层、第一归一层和第一激活层,在对每个第一特征图进行特征定位操作时,依次通过第一卷积层、第一归一层和第一激活层对特征进行处理,实现对每个第一特征图进行特征定位。
实施例三:
图3示出了本发明实施例三提供的目标检测方法中的特征分类的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S301中,将每个第一特征图输入特征分类网络,利用特征定分类网络的第二卷积层对第一特征图进行卷积计算,得到分类特征图。
在本发明实施例中,采用特征定分类网络对每个第一特征图进行分类操作,特征分类网络包括第二卷积层、第二归一层和第二激活层,将每个第一特征图输入特征分类网络,利用特征定分类网络的第二卷积层对第一特征图进行卷积计算,得到多通道的分类特征图。
在步骤S302中,利用特征定分类网络的第二归一层对分类特征图进行分组并计算每一组的均值和方差,以进行归一化。
在本发明实施例中,利用特征定分类网络的第二归一层对分类特征图进行分组并计算每一组的均值和方差,以进行归一化。
在步骤S303中,利用特征定分类网络的第二激活层对归一化处理后的分类特征图进行激活处理,得到第三特征图。
在本发明实施例中,利用特征定分类网络的第二激活层对归一化处理后的分类特征图进行激活处理,得到第三特征图。
在本发明实施例中,特征分类网络包括第二卷积层、第二归一层和第二激活层,采用特征分类网络对每个第一特征图进行分类操作,得到第三特征图。在对每个第一特征图进行特征分类操作时,通过第二卷积层、第二归一层和第二激活层依次对特征进行处理,实现对每个第一特征图中进行特征分类。
实施例四:
图4A示出了本发明实施例四提供的目标检测方法中的特征对齐的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S401中,对第二特征图进行卷积运算,得到初始边界框。
在本发明实施例中,对第二特征图进行卷积运算,得到初始边界框。具体地,采用一个3*3卷积核对第二特征图进行卷积,得到多个通道的特征图,再对每个通道对应的特征图进行卷积计算,得到初始预测框。
在步骤S402中,将第二特征图、第三特征图和初始边界框输入适配器模块,以基于第二特征图、第三特征图和初始边界框,生成第二特征图对应的偏移量、第三特征图对应的掩码。
在本发明实施例中,特征对齐网络包括第一可变形卷积网络、第二可变形卷积网络和适配器模块。具体地,在将第二特征图和第三特征图输入适配器模块之前,使用两个3*3卷积核分别对第二特征图和第三特征图进行卷积操作,得到具有多通道的第二特征图和第三特征图。
在一具体实施方式中,适配器模块包括第一卷积块、第二卷积块、第三卷积块、激活函数和编码函数。为了获取第二特征图对应的偏移量,具体地,使用第一卷积块对第二特征图进行卷积操作,得到第二特征图的第一预测特征图和第二预测特征图,使用第二卷积块对第一预测特征图和第二预测特征图进行卷积操作,分别得到第一预测特征图的分类预测偏移量、以及第二预测特征图的定位预测偏移量。使用编码函数对分类预测偏移量、定位预测偏移量和初始边界框进行编码,再通过第三卷积块进行卷积操作,得到第二特征图对应的偏移量。
在一优选实施方式中,若第二特征图特征采样点表示为S(sx,sy),特征中心点表 示为C(cx,cy),特征对齐点表示为A(ax,ay),偏移量表示为
Figure DEST_PATH_IMAGE001
,则偏移量
Figure 361937DEST_PATH_IMAGE001
满足
Figure 541246DEST_PATH_IMAGE002
,其中,
Figure 754052DEST_PATH_IMAGE003
表示采样点到初始边界框中心的向量,
Figure 69627DEST_PATH_IMAGE004
表示初始边界框中心 到对齐点的向量,
Figure 342476DEST_PATH_IMAGE001
为采样点到对齐点的偏移量,如图4B所示,一共有9个对齐点,因此会 生成9个偏移量。一个初始预测框对应多个偏移量,可以实现不同通道特征图的特征准确对 齐。
在一具体实施方式中,为了获取第三特征图对应的掩码,具体地,使用第一卷积块对第三特征图进行卷积操作,得到第三特征图对应第三预测特征图和第四预测特征图,再使用第二卷积块对第三预测特征图和第四预测特征图进行卷积操作,分别得到第三预测特征图的分类预测掩码,以及第四预测特征图的定位预测掩码。之后,使用激活函数对分类预测掩码和定位预测掩码进行激活,再通过第三卷积块进行卷积,得到第三特征图对应的掩码。
在步骤S403中,将第二特征图和偏移量输入第一可变形卷积网络,以根据偏移量对第二特征图进行定位特征对齐,得到第四特征图。
在本发明实施例中,将第二特征图和偏移量输入特征对齐网络的第一可变形卷积网络,以根据偏移量对第二特征图进行定位特征对齐,得到第四特征图,可降低与定位特征无关位置的权重。
在一具体实施方式中,第一可变形卷积网络包括第一可变形卷积层和第一调制可 变形卷积层以及对齐函数。将第二特征图和偏移量输入第一可变形卷积网络,利用第一可 变形卷积层和偏移量对定位特征进行计算,优选地,使用对齐函数
Figure 743502DEST_PATH_IMAGE005
进行可变形卷积操作,以使第二特征图不同通道的 定位特征对齐。其中,S表示第二特征图的采样点,
Figure 353475DEST_PATH_IMAGE006
表示采样点S的权重,N表示第二特征 图的采样点个数,x()表示采样函数,
Figure 257977DEST_PATH_IMAGE007
表示采样点S的偏移量,
Figure 716376DEST_PATH_IMAGE008
,表示编码后的采样点S的预测偏移量,其中,
Figure 198173DEST_PATH_IMAGE009
=Opred_ cls+Opred_loc,Opred_cls表示第二特征图的分类预测偏移量,Opred_loc表示第二特征图 的定位预测偏移量。利用第一调制可变形卷积层对经过定位特征对齐处理的第二特征图进 行计算,以降低与定位特征无关位置的权重,得到第四特征图。
在步骤S404中,将第三特征图和掩码输入第二可变形卷积网络,以根据掩码对第三特征图进行分类特征对齐,得到第五特征图。
在本发明实施例中,将第三特征图和掩码输入特征对齐网络的第二可变形卷积网络,以根据掩码对第三特征图进行分类特征对齐,得到第五特征图。
在一具体实施方式中,第二可变形卷积网络包括第二可变形卷积层和第二调制可 变形卷积层以及对齐函数。将第三特征图和掩码输入第二可变形卷积网络,利用第二可变 形卷积层和掩码对分类特征进行计算,以进行不同通道的分类特征对齐,优选地,使用对齐 函数
Figure 487203DEST_PATH_IMAGE010
进行计算,以进行分类特征对齐。其中,S表示 第三特征图的采样点,
Figure 370845DEST_PATH_IMAGE006
表示采样点S的权重, N表示第三特征图的采样点个数,x()表示 采样函数,
Figure 719918DEST_PATH_IMAGE011
表示采样点S的掩码,
Figure 689011DEST_PATH_IMAGE012
,表示激活后的采样点S的 预测掩码,其中
Figure 516153DEST_PATH_IMAGE013
=Mpred_cls+Mpred_loc,Mpred_cls表示第三特征图的分类预测掩 码,Mpred_loc表示第三特征图的定位预测掩码。利用第二调制可变形卷积层对经过分类特 征对齐处理的第三特征图进行计算,以降低与分类特征无关位置的权重,得到第五特征图。
在本发明实施例中,采用特征对齐网络分别对第二特征图、第三特征图进行特征对齐操作,得到对应的第四特征图和第五特征图,其中,特征对齐网络包括第一可变形卷积网络、第二可变形卷积网络和适配器模块,利用特征对齐网络对第二特征图和第三特征图进行相应特征的对齐处理,从而增强定位和分类的差异性。
实施例五:
图5示出了本发明实施例五提供的目标检测方法中的特征交互的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S501中,将第四特征图和第五特征图输入特征交互网络,利用特征交互网络的两个第三卷积层分别对第四特征图和第五特征图进行卷积运算,得到第四特征图对应的交并比分数以及第五特征图对应的分类分数。
在本发明实施例中,特征交互网络包括两个第三卷积层和两个池化层,将第四特征图和第五特征图输入特征交互网络,利用两个第三卷积层分别对第四特征图和第五特征图进行卷积运算,得到第四特征图对应的交并比分数以及第五特征图对应的分类分数。
在步骤S502中,利用特征交互网络的两个池化层对第四特征图和第五特征图分别进行降维操作,对应得到两个低维度特征图。
在本发明实施例中,利用特征交互网络的第一个池化层对第四特征图进行降维操作,得到第四特征图对应的两个低维度特征图,为了便于描述将这两个低维度特征图称为第一低维度特征图和第二低维度特征图,利用第二个池化层对第五特征图进行降维操作,得到第五特征图对应的两个低维度特征图,为了便于描述,将这两个低维度特征图称为第三低维度特征图和第四低维度特征图。
在步骤S503中,基于对应得到的两个低维度特征图以及初始边界框,使用解码函数,生成预测框。
在本发明实施例中,基于对应得到的两个低维度特征图,即第一低维度特征图、第二低维度特征图、第三低维度特征图和第四低维度特征图,再根据初始边界框和解码函数,生成预测框。
在本发明一具体实施例中,利用解码函数获得不同尺度下对应的第一低维度特征 图、第二低维度特征图、第三低维度特征图和第四低维度特征图的多个初始边界框。假设初 始边界框的表达式为(l,r,t,b),其中,t为采样点到初始边界框上边线的垂直距离,l为采 样点到初始边界框左边线的垂直距离,r为采样点到初始边界框右边线的垂直距离,b为采 样点到初始边界框下边的垂直距离。利用公式
Figure 519881DEST_PATH_IMAGE014
,分别计算预测框的宽度(pw)、高 度(ph)和中心(cx,cy),其中
Figure 39855DEST_PATH_IMAGE015
表示采样点S的横坐标,
Figure 496244DEST_PATH_IMAGE016
表示采样点S的纵坐标。
在本发明实施例中,采用特征交互网络对第四特征图、第五特征图进行特征交互操作,得到对应的交并比分数、预测框和分类分数,将第四特征图和第五特征图输入特征交互网络,对第四特征图、第五特征图进行特征交互操作,通过特征交互操作,实现同一个特征图的定位特征与分类特征相互融合,大大降低了不同通道特征图的分类特征与定位特征的差异性,提高了同一个特征图的分类特征与定位特征的统一性,使得所生成的预测框更加准确。
实施例六:
图6示出了本发明实施例六提供的目标检测装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
特征提取单元61,用于采用特征提取网络对输入的待检测图像进行特征提取,得到所述待检测图像在不同尺度下的多个第一特征图;
定位与分类单元62,用于对每个第一特征图进行定位和分类操作,得到对应的第二特征图和第三特征图;
对齐与交互单元63,用于对所述第二特征图、第三特征图进行特征对齐操作,得到对应的第四特征图和第五特征图,对所述第四特征图和第五特征图进行交互操作,得到对应的交并比分数、预测框和分类分数;
目标确定单元64,用于基于所有所述第一特征图对应的交并比分数、分类分数和预测框,确定所述待检测图像的检测目标。
本发明实施例采用特征提取网络对输入的待检测图像进行特征提取,得到待检测图像在不同尺度下的多个第一特征图;对每个第一特征图进行定位和分类操作,得到对应的第二特征图和第三特征图;对第二特征图、第三特征图进行特征对齐操作,得到对应的第四特征图和第五特征图,对第四特征图和第五特征图进行交互操作,得到对应的交并比分数、预测框和分类分数;基于交并比分数、分类分数和预测框,确定待检测图像的检测目标,从而通过提高特征定位与特征分类的一致性与差异性提高目标检测任务的协调性,进而提高目标检测的准确度。
在本发明实施例中,目标检测装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。
实施例七:
图7示出了本发明实施例八提供的目标检测设备,为了便于说明,仅示出了与本发明实施例相关的部分。
本发明实施例的目标检测设备7包括处理器70、存储器71以及存储在存储器71中并可在处理器70上运行的计算机程序72。该处理器70执行计算机程序72时实现上述各个方法实施例中的步骤,例如图1所示的步骤S101至S104。或者,处理器70执行计算机程序72时实现上述各装置实施例中各单元的功能,例如图6所示单元61至64的功能。
在本发明实施例中,采用特征提取网络对输入的待检测图像进行特征提取,得到待检测图像在不同尺度下的多个第一特征图,对每个第一特征图进行定位和分类操作,得到对应的第二特征图和第三特征图,对第二特征图、第三特征图进行特征对齐操作,得到对应的第四特征图和第五特征图,对第四特征图和第五特征图进行交互操作,得到对应的交并比分数、预测框和分类分数,基于交并比分数、分类分数和预测框,确定待检测图像的检测目标,从而通过提高特征定位与特征分类的一致性与差异性提高目标检测任务的协调性,进而提高目标检测的准确度。
本发明实施例的目标检测设备可以为手机、平板电脑、可穿戴设备、笔记本电脑、个人计算机、上网本等。该目标检测设备7中处理器70执行计算机程序72时实现上述方法时实现的步骤可参考前述方法实施例的描述,在此不再赘述。
实施例八:
在本发明实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法实施例中的步骤,例如,图1所示的步骤S101至S104。或者,该计算机程序被处理器执行时实现上述装置实施例中各单元的功能,例如图6所示单元61至64的功能。
本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质,例如,ROM/RAM、磁盘、光盘、闪存等存储器。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种目标检测方法,其特征在于,所述方法包括:
采用特征提取网络对输入的待检测图像进行特征提取,得到所述待检测图像在不同尺度下的多个第一特征图;
对每个第一特征图进行定位和分类操作,得到对应的第二特征图和第三特征图;
对所述第二特征图、第三特征图进行特征对齐操作,得到对应的第四特征图和第五特征图,对所述第四特征图和第五特征图进行交互操作,得到对应的交并比分数、预测框和分类分数;
基于所有所述第一特征图对应的交并比分数、分类分数和预测框,确定所述待检测图像的检测目标;
对所述第二特征图、第三特征图进行特征对齐操作,得到对应的第四特征图和第五特征图,对所述第四特征图和第五特征图进行交互操作,得到对应的交并比分数、预测框和分类分数的步骤,包括:
采用特征对齐网络对所述第二特征图、第三特征图分别进行特征对齐操作,得到对应的第四特征图和第五特征图,所述特征对齐网络包括第一可变形卷积网络、第二可变形卷积网络和适配器模块;
所述采用特征对齐网络对所述第二特征图、第三特征图进行特征对齐操作,得到所述对应的第四特征图和第五特征图的步骤,包括:
对所述第二特征图进行卷积运算,得到初始边界框;
将所述第二特征图、第三特征图和初始边界框输入所述适配器模块,以基于所述第二特征图、第三特征图和初始边界框,生成所述第二特征图对应的偏移量、所述第三特征图对应的掩码;
将所述第二特征图和所述偏移量输入所述第一可变形卷积网络,以根据所述偏移量对所述第二特征图进行定位特征对齐,得到所述第四特征图;
将所述第三特征图和所述掩码输入所述第二可变形卷积网络,以根据所述掩码对所述第三特征图进行分类特征对齐,得到所述第五特征图。
2.如权利要求1所述的目标检测方法,其特征在于,对每个第一特征图进行定位和分类操作,得到对应的第二特征图和第三特征图的步骤,包括:
采用特征定位网络对每个所述第一特征图进行定位操作,得到所述第二特征图;
采用特征分类网络对每个所述第一特征图进行分类操作,得到所述第三特征图。
3.如权利要求2所述的目标检测方法,其特征在于,所述特征定位网络包括第一卷积层、第一归一层和第一激活层,所述采用特征定位网络对每个所述第一特征图进行定位操作,得到所述第二特征图的步骤,包括:
将每个所述第一特征图输入所述特征定位网络,利用所述第一卷积层对所述第一特征图进行卷积计算,得到定位特征图;
利用所述第一归一层对所述定位特征图进行分组并计算每一组的均值和方差,以进行归一化;
利用所述第一激活层对归一化处理后的定位特征图进行激活处理,得到所述第二特征图。
4.如权利要求2所述的目标检测方法,其特征在于,所述特征分类网络包括第二卷积层、第二归一层和第二激活层,所述采用特征分类网络对每个所述第一特征图进行分类操作,得到所述第三特征图的步骤,包括:
将每个所述第一特征图输入所述特征分类网络,利用所述第二卷积层对所述第一特征图进行卷积计算,得到分类特征图;
利用所述第二归一层对所述分类特征图进行分组并计算每一组的均值和方差,以进行归一化;
利用所述第二激活层对归一化处理后的分类特征图进行激活处理,得到所述第三特征图。
5.如权利要求1所述的目标检测方法,其特征在于,对所述第二特征图、第三特征图进行特征对齐操作,得到对应的第四特征图和第五特征图,对所述第四特征图和第五特征图进行交互操作,得到对应的交并比分数、预测框和分类分数的步骤,包括:
采用特征交互网络对所述第四特征图、第五特征图进行特征交互操作,得到所述对应的交并比分数、预测框和分类分数。
6.如权利要求5所述的目标检测方法,其特征在于,所述特征交互网络包括两个第三卷积层和两个池化层,所述采用特征交互网络对所述第四特征图、第五特征图进行特征交互操作,得到所述对应的交并比分数、预测框和分类分数的步骤,包括:
将所述第四特征图和所述第五特征图输入所述特征交互网络,利用两个所述第三卷积层分别对所述第四特征图和所述第五特征图进行卷积运算,得到所述第四特征图对应的交并比分数以及所述第五特征图对应的分类分数;
利用所述两个池化层对所述第四特征图和所述第五特征图分别进行降维操作,对应得到两个低维度特征图;
基于所述对应得到的两个低维度特征图以及所述初始边界框,使用解码函数,生成所述预测框。
7.一种目标检测装置,其特征在于,所述装置包括:
特征提取单元,用于采用特征提取网络对输入的待检测图像进行特征提取,得到所述待检测图像在不同尺度下的多个第一特征图;
定位与分类单元,用于对每个第一特征图进行定位和分类操作,得到对应的第二特征图和第三特征图;
对齐与交互单元,用于对所述第二特征图、第三特征图进行特征对齐操作,得到对应的第四特征图和第五特征图,对所述第四特征图和第五特征图进行交互操作,得到对应的交并比分数、预测框和分类分数;
目标确定单元,用于基于所有所述第一特征图对应的交并比分数、分类分数和预测框,确定所述待检测图像的检测目标;
所述对齐与交互单元包括:
特征对齐单元,用于采用特征对齐网络对所述第二特征图、第三特征图分别进行特征对齐操作,得到对应的第四特征图和第五特征图,所述特征对齐网络包括第一可变形卷积网络、第二可变形卷积网络和适配器模块;
所述特征对齐单元包括:
卷积运算单元,用于对所述第二特征图进行卷积运算,得到初始边界框;
适配单元,用于将所述第二特征图、第三特征图和初始边界框输入所述适配器模块,以基于所述第二特征图、第三特征图和初始边界框,生成所述第二特征图对应的偏移量、所述第三特征图对应的掩码;
第一可变形卷积单元,用于将所述第二特征图和所述偏移量输入所述第一可变形卷积网络,以根据所述偏移量对所述第二特征图进行定位特征对齐,得到所述第四特征图;
第二可变形卷积单元,用于将所述第三特征图和所述掩码输入所述第二可变形卷积网络,以根据所述掩码对所述第三特征图进行分类特征对齐,得到所述第五特征图。
8.一种目标检测设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。
CN202210394883.3A 2022-04-15 2022-04-15 基于单阶段的目标检测方法、装置、设备及存储介质 Active CN114494792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210394883.3A CN114494792B (zh) 2022-04-15 2022-04-15 基于单阶段的目标检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210394883.3A CN114494792B (zh) 2022-04-15 2022-04-15 基于单阶段的目标检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114494792A CN114494792A (zh) 2022-05-13
CN114494792B true CN114494792B (zh) 2022-07-05

Family

ID=81489307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210394883.3A Active CN114494792B (zh) 2022-04-15 2022-04-15 基于单阶段的目标检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114494792B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950610A (zh) * 2020-07-29 2020-11-17 中国科学院大学 基于精确尺度匹配的弱小人体目标检测方法
CN114332586A (zh) * 2021-12-23 2022-04-12 广州华多网络科技有限公司 小目标检测方法及其装置、设备、介质、产品

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111727B (zh) * 2021-03-19 2024-05-31 西北工业大学 一种基于特征对齐的遥感场景下旋转目标检测方法
CN113971815B (zh) * 2021-10-28 2024-07-02 西安电子科技大学 基于奇异值分解特征增强的少样本目标检测方法
CN114092820B (zh) * 2022-01-20 2022-04-22 城云科技(中国)有限公司 目标检测方法及应用其的移动目标跟踪方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950610A (zh) * 2020-07-29 2020-11-17 中国科学院大学 基于精确尺度匹配的弱小人体目标检测方法
CN114332586A (zh) * 2021-12-23 2022-04-12 广州华多网络科技有限公司 小目标检测方法及其装置、设备、介质、产品

Also Published As

Publication number Publication date
CN114494792A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
US10963632B2 (en) Method, apparatus, device for table extraction based on a richly formatted document and medium
US10452893B2 (en) Method, terminal, and storage medium for tracking facial critical area
CN110084299B (zh) 基于多头融合注意力的目标检测方法和装置
CN110443258B (zh) 文字检测方法、装置、电子设备及存储介质
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN110263731B (zh) 一种单步人脸检测系统
EP4443396A1 (en) Image encoder training method and apparatus, device, and medium
TWI812888B (zh) 影像辨識方法及影像辨識系統
KR20240144139A (ko) 얼굴 포즈 추정 방법, 장치, 전자 디바이스 및 저장 매체
CN111950525A (zh) 一种基于破坏重建学习与GoogLeNet的细粒度图像分类方法
CN114565842A (zh) 基于Nvidia Jetson嵌入式硬件的无人机实时目标检测方法及系统
CN113743521B (zh) 一种基于多尺度上下文感知的目标检测方法
KR20150093453A (ko) 차량 번호판 이중 검출 방법 및 장치
Zhang et al. Bridging the gap between cumbersome and light detectors via layer-calibration and task-disentangle distillation in remote sensing imagery
Shi et al. Anchor free remote sensing detector based on solving discrete polar coordinate equation
CN111027551B (zh) 图像处理方法、设备和介质
CN114494792B (zh) 基于单阶段的目标检测方法、装置、设备及存储介质
CN117333937A (zh) 基于分类和蒸馏的人体姿态估计方法、装置及电子设备
Wen et al. AIoU: Adaptive bounding box regression for accurate oriented object detection
Xiao et al. Light weight object detector based on composite attention residual network and boundary location loss
CN113537026A (zh) 建筑平面图中的图元检测方法、装置、设备及介质
CN111178158A (zh) 一种骑车人检测方法及系统
CN111967579A (zh) 使用卷积神经网络对图像进行卷积计算的方法和装置
Zhang et al. A global lightweight deep learning model for express package detection
CN118229965B (zh) 基于背景噪声削弱的无人机航拍小目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant