CN114926631A - 目标框生成方法、装置、非易失性存储介质及计算机设备 - Google Patents

目标框生成方法、装置、非易失性存储介质及计算机设备 Download PDF

Info

Publication number
CN114926631A
CN114926631A CN202210536745.4A CN202210536745A CN114926631A CN 114926631 A CN114926631 A CN 114926631A CN 202210536745 A CN202210536745 A CN 202210536745A CN 114926631 A CN114926631 A CN 114926631A
Authority
CN
China
Prior art keywords
target
feature
region
confidence
regions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210536745.4A
Other languages
English (en)
Inventor
朱亚旋
陈博
尹荣彬
薛鸿
徐名源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FAW Group Corp
Original Assignee
FAW Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FAW Group Corp filed Critical FAW Group Corp
Priority to CN202210536745.4A priority Critical patent/CN114926631A/zh
Publication of CN114926631A publication Critical patent/CN114926631A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种目标框生成方法、装置、非易失性存储介质及计算机设备。其中,该方法包括:获取目标图像的特征图,特征图包括多个特征区域,每个特征区域对应于目标图像中的一块像素区域;确定多个特征区域分别对应的多个目标置信度,每个目标置信度用于描述采用对应的特征区域对目标框进行预测的可靠程度,目标框用于在目标图像中框出目标对象;根据多个目标置信度,从多个特征区域中选取至少一个锚点区域,锚点区域为多个特征区域中的特征区域;基于至少一个锚点区域,预测目标框在目标图像中的位置。本发明解决了基于物体几何中心选取特征区域进行目标框预测的方式在物体存在遮挡的情况中出现目标框预测不准的技术问题。

Description

目标框生成方法、装置、非易失性存储介质及计算机设备
技术领域
本发明涉及人工智能领域,具体而言,涉及一种目标框生成方法、装置、非易失性存储介质及计算机设备。
背景技术
目前已有的YOLOX、FCOS等anchor-free目标检测算法,普遍是采用将图像中的待检测对象的像素范围的中心点区域作为主要学习的锚点区域,基于该区域进一步预测出待检测对象的矩形框的坐标位置与宽高尺寸。而在实际场景中,一味地基于待检测对象的像素几何中心或者对象像素分布的质心所对应的特征图中的锚点区域进行矩形框预测的方法,在图像中的多个待检测对象存在交叉、堆叠、遮挡的情况下识别表现较差。图2是根据相关技术提供的存在遮挡的对象目标框示意图,如图2所示,多个待检测物体的几何中心可能位置较近,且多个待检测物体存在相互遮挡,此时各个待检测物体对应的特征图中的锚点区域的特征表达不一定包含待测物体的足够信息,或者因为神经网络感受野的存在使得相邻待测物体的特征对其他待测物体的检测存在干扰,所以实际应用中经常出现锚点区域存在交叉、锚点区域过小等场景下的检测性能表现较差。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种目标框生成方法、装置、非易失性存储介质及计算机设备,以至少解决基于物体几何中心选取特征区域进行目标框预测的方式在物体存在遮挡的情况中出现目标框预测不准的技术问题。
根据本发明实施例的一个方面,提供了一种目标框生成方法,包括:获取目标图像的特征图,其中,所述特征图包括多个特征区域,每个所述特征区域对应于所述目标图像中的一块像素区域;确定所述多个特征区域分别对应的多个目标置信度,其中,每个所述目标置信度用于描述采用对应的特征区域对目标框进行预测的可靠程度,所述目标框用于在所述目标图像中框出目标对象;根据所述多个目标置信度,从所述多个特征区域中选取至少一个锚点区域,其中,所述至少一个锚点区域为所述多个特征区域中的特征区域;基于所述至少一个锚点区域,预测所述目标框在所述目标图像中的位置。
可选地,所述确定所述多个特征区域分别对应的多个目标置信度,包括:确定所述多个特征区域分别对应的多个初始置信度和多个置信度阈值;基于所述初始置信度和置信度阈值,确定所述多个特征区域分别对应的所述多个目标置信度。
可选地,所述确定所述多个特征区域包括的每个特征区域的初始置信度和置信度阈值,包括:对所述特征图进行第一卷积运算,得到所述多个特征区域分别对应的多个第一特征值,其中,所述初始置信度包括所述第一特征值;对所述特征图进行第二卷积运算,得到所述多个特征区域分别对应的多个第二特征值;将所述多个第二特征值分别输入目标激活函数,得到所述多个置信度阈值。
可选地,所述目标激活函数包括h-sigmoid函数,其中,所述h-sigmoid函数为基于relu6函数构建的。
可选地,所述基于所述初始置信度和置信度阈值,确定所述多个特征区域分别对应的所述多个目标置信度,包括:依次对所述多个特征区域中每一个特征区域对应的初始置信度和置信度阈值进行可微分二值化操作,得到所述多个特征区域分别对应的所述多个目标置信度。
可选地,所述基于所述至少一个锚点区域,预测所述目标框在所述目标图像中的位置,包括:根据所述特征图,预测所述目标对象分别在所述至少一个锚点区域中的类别占比;根据所述类别占比和所述锚点区域,预测所述目标框在所述目标图像中的位置以及所述目标对象的类别。
可选地,在目标锚点区域为所述锚点区域中的任意一个区域的情况下,所述目标对象在所述目标锚点区域的类别占比,包括:所述目标对象在所述目标锚点区域对应的像素区域中的像素占比。
根据本发明实施例的另一方面,还提供了一种目标框生成装置,包括:获取模块,用于获取目标图像的特征图,其中,所述特征图包括多个特征区域,每个所述特征区域对应于所述目标图像中的一块像素区域;确定模块,用于确定所述多个特征区域分别对应的多个目标置信度,其中,每个所述目标置信度用于描述采用对应的特征区域对目标框进行预测的可靠程度,所述目标框用于在所述目标图像中框出目标对象;选取模块,用于根据所述多个目标置信度,从所述多个特征区域中选取至少一个锚点区域,其中,所述至少一个锚点区域为所述多个特征区域中的特征区域;预测模块,用于基于所述至少一个锚点区域,预测所述目标框在所述目标图像中的位置。
根据本发明实施例的又一方面,还提供了一种非易失性存储介质,所述非易失性存储介质包括存储的程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行上述任意一项所述目标框生成方法。
根据本发明实施例的再一方面,还提供了一种计算机设备,所述计算机设备包括处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述目标框生成方法。
在本发明实施例中,采用计算特征图中每一个特征区域对应的目标置信度的方式,通过基于目标置信度从目标特征图中自适应地选取锚点区域,采用锚点区域对框出目标对象的目标框进行预测,达到了采用目标图像中包括目标对象的特征最丰富的区域来预测目标对象的目标框的目的,从而实现了在物体被遮挡的情况下提高对物体目标框预测的准确性的技术效果,进而解决了基于物体几何中心选取特征区域进行目标框预测的方式在物体存在遮挡的情况中出现目标框预测不准的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了一种用于实现目标框生成方法的计算机终端的硬件结构框图;
图2是根据相关技术提供的存在遮挡的对象目标框示意图;
图3是根据本发明实施例提供的目标框生成方法的流程示意图;
图4是根据本发明可选实施例提供的特征区域中目标对象像素占比的示意图;
图5为本发明可选实施例提供的改进的网络预测模块所处位置的示意图;
图6是根据本发明可选实施例提供的网络预测模块的结构示意图;
图7是根据本发明可选实施例提供的目标框预测流程的示意图;
图8是根据本发明实施例提供的目标框生成装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,对本申请实施例进行描述的过程中出现的部分名词或者术语适用于如下解释:
目标框,即anchor-box,目标检测算法通常会在输入图像中采样大量的区域,然后判断这些区域中是否包含我们感兴趣的目标,并调整区域边界从而更准确地预测目标的真实边界框,这些区域边界框被称为目标框。
YOLOX,一种不依赖目标框(anchor-free)的目标检测算法,作为一种无锚检测器用于对图像中的目标对象进行检测。
根据本发明实施例,提供了一种目标框生成的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现目标框生成方法的计算机终端的硬件结构框图。如图1所示,计算机终端10可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的目标框生成方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的目标框生成方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10的用户界面进行交互。
本发明涉及人工智能行业在安防、自动驾驶等领域中的目标检测技术方向。在当前的学术与工业领域,基于深度学习神经网络的目标检测算法主要有基于锚框(anchor-based)和不基于锚框(anchor-free)两个细分类别,其中基于锚框(anchor-based)的目标检测算法,因为需要基于先验的数据知识生成锚框,所以往往泛化性能较差且后处理较为繁琐。而anchor-free的目标检测算法,普遍是通过网络输出的特征图(feature map)逐元素进行预测,因为没有后续的anchor的复杂处理,同时网络结构较为规整,方便与其他的检测、分割任务进行集成,因此被技术人员广泛地使用。
目前已有的YOLOX、FCOS等anchor-free目标检测算法,普遍是采用将图像中的待检测对象的像素范围的中心点区域作为主要学习的锚点区域,基于该区域进一步预测出待检测对象的目标框的坐标位置与目标框的宽高尺寸。而在实际场景中,一味地基于待检测对象的像素几何中心或者对象像素分布的质心所对应的特征图中的锚点区域进行目标框预测的方法,在照片图像中的多个待检测对象存在堆叠、遮挡的情况下表现较差。图2是根据相关技术提供的存在遮挡的对象目标框示意图,如图2所示,多个待检测物体的几何中心可能位置较近,且多个待检测物体存在相互遮挡,此时各个待检测物体对应的特征图中的锚点区域的特征表达不一定包含待测物体的足够信息,或者因为神经网络感受野的存在使得相邻待测物体的特征对其他待测物体的检测存在干扰,所以实际应用中经常出现锚点区域存在交叉、锚点区域过小等场景下的检测性能表现较差。
如图2所示,目前已有的基于YOLOX目标检测算法,通过将待检测物体的图像像素中心点所对应的特征图上的位置区域扩大,并对密集区域进行动态匹配的方式,实现了对小目标以及常规目标的较为精确的检测,但是针对两个目标相互遮挡导致的特征图中两个响应各自中心点的锚点区域离的相距较近的问题,虽然使用了simOTA方法来动态匹配,但是因为两个响应锚点距离较近,还是会存在特征相互影响甚至是误匹配的问题,影响最终的性能表现。
图3是根据本发明实施例提供的目标框生成方法的流程示意图,如图3所示,该方法包括如下步骤:
步骤S302,获取目标图像的特征图,其中,特征图包括多个特征区域,每个特征区域对应于目标图像中的一块像素区域。其中,目标图像可以是包括多个待检测物体对象的照片、绘图、红外图或者视频流中的一帧等图像。多个待检测物体对象之间可能存在遮挡或者几何中心点较近,采用本实施例提供的方法可以较好地完成目标对象的识别。
需要说明的是,特征图可以为将目标图像输入神经网络模型后提取得到,用于反映目标图像中的特征表达,特征图中可以分为多个特征区域,每个特征区域可以分别对应目标图像中的一块像素区域,该特征区域主要负责反映该像素区域内容的特征表达,本领域技术人员可以理解,每一块特征区域除了反映了与其对应的像素区域中的特征表达,还会包括少量周边区域的特征信息。图4是根据本发明可选实施例提供的特征区域中目标对象像素占比的示意图,如图4所示,汽车为待检测的目标对象,包含汽车的图像是目标图像,目标图像中的方框为该可选实施例中的多个像素区域,右侧为对应不同通道的两张特征图,分别用于检测图像中的不同车辆,特征图被分为多个特征区域,与目标图像中的像素区域对应的特征区域采用指示线的形式进行了标注。
步骤S304,确定多个特征区域分别对应的多个目标置信度,其中,每个目标置信度用于描述采用对应的特征区域对目标框进行预测的可靠程度,目标框用于在目标图像中框出目标对象。
本步骤中,通过求解每个特征区域对应的目标置信度,可以确定特征图中的每个特征区域是否适合用于对目标对象的目标框位置进行预测,例如,若特征区域中包括目标对象的特征信息更丰富,则该特征区域的目标置信度可能更大,表示该特征区域更适合用于预测目标对象的目标框位置。需要说明的是,确定多个特征区域分别对应的多个目标置信度的过程可以采用神经网络进行自适应学习和预测。
步骤S306,根据多个目标置信度,从多个特征区域中选取至少一个锚点区域,其中,至少一个锚点区域为多个特征区域中的特征区域。
本步骤中,锚点区域即用于预测目标对象的目标框的特征区域,神经网络可以自适应地学习如何从多个特征区域中选取锚点区域,经过训练后,该选取过程可以由神经网络自适应完成而不需要人为干预或指导。需要说明的是,该步骤通过神经网络自动选取锚点区域,因此锚点区域的分布可以不再是以目标对象的几何中心为中心点扩散选取的锚点区域,而可以从目标图像中选取包括目标对象的像素内容更加丰富的像素区域对应的特征区域作为目标框预测的基础,因此可以避免目标图像中存在多个待检测物体时,多个待检测物体的几何中心存在重叠或者多个物体存在相互遮挡导致目标框的标注和物体识别不准确的技术问题。
步骤S308,基于至少一个锚点区域,预测目标框在目标图像中的位置。可选的,在神经网络选取了多个锚点区域的情况下,可以根据每一个锚点区域各自预测一组目标框的位置预测值,然后基于多个锚点区域各自对应的位置预测值预测出该目标图像中的目标框的位置,例如目标框的位置参数。
通过上述步骤,采用计算特征图中每一个特征区域对应的目标置信度的方式,通过基于目标置信度从目标特征图中自适应地选取锚点区域,采用锚点区域对框出目标对象的目标框进行预测,达到了采用目标图像中包括目标对象的特征最丰富的区域来预测目标对象的目标框的目的,从而实现了在物体被遮挡的情况下提高对物体目标框预测的准确性的技术效果,进而解决了基于物体几何中心选取特征区域进行目标框预测的方式在物体存在遮挡的情况中出现目标框预测不准的技术问题。
可选的,上述目标框生成方法可以作为一种对YOLOX目标检测算法的改进。图5为本发明可选实施例提供的改进的网络预测模块所处位置的示意图,上述目标框生成方法可以应用于目标检测深度神经网络模型,作为对模型中的网络预测模块的改进,而对于目标检测深度神经网络模型的输入端、骨干网络Backbone以及neck网络层与YOLOX保持一致。
作为一种可选的实施例,基于至少一个锚点区域,预测目标框在目标图像中的位置,可以采用如下方式:根据特征图,预测目标对象分别在至少一个锚点区域中的类别占比;根据类别占比和锚点区域,预测目标框在目标图像中的位置以及目标对象的类别。可选的,每个锚点区域对应的目标图像中的像素区域中,目标对象可以在该像素区域中出现,此外,该像素区域中还可以出现其他对象,因此可以根据像素区域中出现的不同对象,确定该像素区域对应的目标对象的类别占比。例如,可以对在像素区域中出现的对象进行计数,得到对象数量n,若该像素区域中出现了目标对象,则将该像素区域对应的类别占比定义为1/n。
作为一种可选的实施例,在目标锚点区域为锚点区域中的任意一个区域的情况下,目标对象在目标锚点区域的类别占比可以为目标对象在目标锚点区域对应的像素区域中的像素占比。例如,像素区域中可以包括多个对象,多个对象中有目标对象,进而定义像素区域中属于目标对象的像素占该像素区域中全部像素的比例为像素占比。
可选的,上述可选实施例提供的方法可以应用于目标检测深度神经网络模型中的网络预测模块中。例如,为了充分考虑小目标对象的检测,本可选实施例可以采用与YOLOX一样的综合网络三个尺寸阶段的特征图在网络预测模块中形成三个预测支路。不同的是,考虑到相邻且有遮挡的边缘像素信息非常重要,本可选实施例提出了一种新的双支路方案,即在原有的三个预测支路的基础上,每个预测支路中分别解耦出两个子支路。其中,第一子支路可以用于输出目标对象在锚点区域对应的像素区域中的像素占比。例如,如图4中所示,第一子支路可以为特征图中的锚点区域预测出一个目标对象的像素占比,该像素占比的取值范围是[0,1]。与YOLOX的分类支路训练相比,YOLOX为锚点区域分配类别标签,即只会划分为该锚点区域属于目标对象,即标签为1,或者不属于目标对象,则标签为0。而实施例可以回归该锚点区域对应像素区域中的像素占比,所以可以不使用任何的激活函数,同时标签分布也不仅是0和1这样的one-hot值,同时,对于包含有多个目标对象的像素区域,可以通过不同类别通道进行预测,即图4中右侧不同的类别通道负责不同目标对象的预测,这一设计能够很好地促进网络理解目标对象遮挡与接壤处的特征信息,进而能够促进网络性能。
作为一种可选的实施例,确定多个特征区域分别对应的多个目标置信度,可以采用如下方式:确定多个特征区域分别对应的多个初始置信度和多个置信度阈值;基于初始置信度和置信度阈值,确定多个特征区域分别对应的多个目标置信度。
基于各个特征区域各自的初始置信度和置信度阈值计算每个特征区域各自的目标置信度,可以通过自适应的锚点密集预测,很好地避免密集的多个目标对象因为遮挡以及较小的目标对象因为池化而导致的响应锚点变少进而检测性能差的问题,有效地在目标遮挡、小目标等实际场景中提升检测的效果,在自动驾驶领域的行人检测、障碍物检测等方面有着至关重要的作用。
作为一种可选的实施例,确定多个特征区域包括的每个特征区域的初始置信度和置信度阈值,可以通过如下步骤:对特征图进行第一卷积运算,得到多个特征区域分别对应的多个第一特征值,其中,初始置信度包括第一特征值;对特征图进行第二卷积运算,得到多个特征区域分别对应的多个第二特征值;将多个第二特征值分别输入目标激活函数,得到多个置信度阈值。本实施例中,对特征图进行第一卷积运算以及第二卷积运算的运算参数可以通过机器学习的方式预先确定。通过对特征图进行卷积得到每个特征区域对应的特征值,实现了使用了特征图中的特征区域附近的特征区域的特征信息,同时还大量使用了带有丰富目标对象特征的其他边缘处的锚点进行辅助训练。
作为一种可选的实施例,目标激活函数可以包括h-sigmoid函数,其中,h-sigmoid函数为基于relu6函数构建的。其中,h-sigmoid函数是一种类似sigmoid函数的激活函数。可选的,h-sigmoid函数可以构建如下:
Figure BDA0003648605220000081
其中,relu6表示relu6函数,x表示每个特征区域对应的特征值,通过采用h-sigmoid函数进行置信度阈值的预测可以保持训练时的数值稳定性。
作为一种可选的实施例,基于初始置信度和置信度阈值,确定多个特征区域分别对应的多个目标置信度,可以包括依次对多个特征区域中每一个特征区域对应的初始置信度和置信度阈值进行可微分二值化操作,得到多个特征区域分别对应的多个目标置信度。
可选的,本方案在预测得到每个特征区域的初始置信度和置信度阈值之后,还可以基于可微分二值化操作计算得到每个特征区域的目标置信度,并基于目标置信度从特征区域中自适应地选择出锚点区域,基于可微分二值化操作得到的目标置信度可以表示每个特征区域是否富集目标对象的特征信息,若目标置信度较高,则可以认为该特征区域的特征表达与目标对象更加相关,因此更适合被选为用于预测目标框的锚点区域。
具体的,可微分二值化操作可以按照采用下述公式进行:
Figure BDA0003648605220000091
其中,B表示可微分二值化之后的目标置信度,k表示常数,confi表示初始置信度,thresh表示置信度阈值,具体的置信度阈值可以基于h-sigmoid函数计算得到。
图6是根据本发明可选实施例提供的网络预测模块的结构示意图,如图6所示,图中的三个大支路对应三个下采样尺寸阶段的特征图的预测支路,其中,每个预测支路中可以解耦出两个子支路,分别是第一子支路(substream1)和第二子支路(substream2),第一子支路可以用于预测目标对象在像素区域中的像素占比,第二子支路又可以分为两个小支路,只含有一个Conv模块的小支路中用于预测每个特征区域的初始置信度,该支路的Conv模块可以对特征图进行第一卷积运算,含有Conv模块和hsigmoid模块小支路用于预测每个特征区域的置信度阈值,该支路的Conv模块可以对特征图进行第二卷积运算,hsigmoid模块用于处理第二卷积运算得到的第二特征值,得到多个置信度阈值。进一步的,基于置信度阈值和出是置信度并基于可微分二值化操作即可求出每个特征区域对应的目标置信度,然后采用经过训练的神经网络自动从多个特征区域中预测出锚点区域,作为后续预测目标框的基础。
图7是根据本发明可选实施例提供的目标框预测流程的示意图,如图7所示,在自适应地预测得到锚点区域以及锚点区域的像素占比之后,可以基于上述两个信息预测得到目标图像中的目标框的位置,还可以预测出该位置的置信度。可选的,预测目标框的位置以及置信度时,可以基于特征图中的每一个锚点区域预测得到一个目标框位置以及置信度,即w1h1w2h2conf,其中,w1h1w2h2表示该锚点区域对应的像素区域距离预测的目标框的左上点和后下点的距离,conf表示基于该锚点区域预测的目标框位置的置信度,目的是让网络模型能够充分学习到特征图中每个像素区域在整个目标框中的位置,进而能够很好地避免密集目标因为遮挡、小目标因为池化而导致的响应锚点变少进而检测性能差的问题。基于多个锚点区域各自的上述信息,即可以回归出目标图像中目标框的位置和置信度。
根据本发明实施例,还提供了一种用于实施上述目标框生成方法的目标框生成装置,图8是根据本发明实施例提供的目标框生成装置的结构框图,如图8所示,该目标框生成装置包括:获取模块82,确定模块84,选取模块86和预测模块88,下面对该目标框生成装置进行说明。
获取模块82,用于获取目标图像的特征图,其中,特征图包括多个特征区域,每个特征区域对应于目标图像中的一块像素区域;
确定模块84,连接于上述获取模块82,用于确定多个特征区域分别对应的多个目标置信度,其中,每个目标置信度用于描述采用对应的特征区域对目标框进行预测的可靠程度,目标框用于在目标图像中框出目标对象;
选取模块86,连接于上述确定模块84,用于根据多个目标置信度,从多个特征区域中选取至少一个锚点区域,其中,至少一个锚点区域为多个特征区域中的特征区域;
预测模块88,连接于上述选取模块86,用于基于至少一个锚点区域,预测目标框在目标图像中的位置。
此处需要说明的是,上述获取模块82,确定模块84,选取模块86和预测模块88对应于实施例中的步骤S302至步骤S308,多个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例提供的计算机终端10中。
本发明的实施例可以提供一种计算机设备,可选地,在本实施例中,上述计算机设备可以位于计算机网络的多个网络设备中的至少一个网络设备。该计算机设备包括存储器和处理器。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的目标框生成方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的目标框生成方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取目标图像的特征图,其中,特征图包括多个特征区域,每个特征区域对应于目标图像中的一块像素区域;确定多个特征区域分别对应的多个目标置信度,其中,每个目标置信度用于描述采用对应的特征区域对目标框进行预测的可靠程度,目标框用于在目标图像中框出目标对象;根据多个目标置信度,从多个特征区域中选取至少一个锚点区域,其中,至少一个锚点区域为多个特征区域中的特征区域;基于至少一个锚点区域,预测目标框在目标图像中的位置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一非易失性存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
本发明的实施例还提供了一种非易失性存储介质。可选地,在本实施例中,上述非易失性存储介质可以用于保存上述实施例所提供的目标框生成方法所执行的程序代码。
可选地,在本实施例中,上述非易失性存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:获取目标图像的特征图,其中,特征图包括多个特征区域,每个特征区域对应于目标图像中的一块像素区域;确定多个特征区域分别对应的多个目标置信度,其中,每个目标置信度用于描述采用对应的特征区域对目标框进行预测的可靠程度,目标框用于在目标图像中框出目标对象;根据多个目标置信度,从多个特征区域中选取至少一个锚点区域,其中,至少一个锚点区域为多个特征区域中的特征区域;基于至少一个锚点区域,预测目标框在目标图像中的位置。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多个指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出多个改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种目标框生成方法,其特征在于,包括:
获取目标图像的特征图,其中,所述特征图包括多个特征区域,每个所述特征区域对应于所述目标图像中的一块像素区域;
确定所述多个特征区域分别对应的多个目标置信度,其中,每个所述目标置信度用于描述采用对应的特征区域对目标框进行预测的可靠程度,所述目标框用于在所述目标图像中框出目标对象;
根据所述多个目标置信度,从所述多个特征区域中选取至少一个锚点区域,其中,所述至少一个锚点区域为所述多个特征区域中的特征区域;
基于所述至少一个锚点区域,预测所述目标框在所述目标图像中的位置。
2.根据权利要求1所述的方法,其特征在于,所述确定所述多个特征区域分别对应的多个目标置信度,包括:
确定所述多个特征区域分别对应的多个初始置信度和多个置信度阈值;
基于所述初始置信度和置信度阈值,确定所述多个特征区域分别对应的所述多个目标置信度。
3.根据权利要求2所述的方法,其特征在于,所述确定所述多个特征区域包括的每个特征区域的初始置信度和置信度阈值,包括:
对所述特征图进行第一卷积运算,得到所述多个特征区域分别对应的多个第一特征值,其中,所述初始置信度包括所述第一特征值;
对所述特征图进行第二卷积运算,得到所述多个特征区域分别对应的多个第二特征值;
将所述多个第二特征值分别输入目标激活函数,得到所述多个置信度阈值。
4.根据权利要求3所述的方法,其特征在于,所述目标激活函数包括h-sigmoid函数,其中,所述h-sigmoid函数为基于relu6函数构建的。
5.根据权利要求2所述的方法,其特征在于,所述基于所述初始置信度和置信度阈值,确定所述多个特征区域分别对应的所述多个目标置信度,包括:
依次对所述多个特征区域中每一个特征区域对应的初始置信度和置信度阈值进行可微分二值化操作,得到所述多个特征区域分别对应的所述多个目标置信度。
6.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个锚点区域,预测所述目标框在所述目标图像中的位置,包括:
根据所述特征图,预测所述目标对象分别在所述至少一个锚点区域中的类别占比;
根据所述类别占比和所述锚点区域,预测所述目标框在所述目标图像中的位置以及所述目标对象的类别。
7.根据权利要求6所述的方法,其特征在于,在目标锚点区域为所述锚点区域中的任意一个区域的情况下,所述目标对象在所述目标锚点区域的类别占比,包括:所述目标对象在所述目标锚点区域对应的像素区域中的像素占比。
8.一种目标框生成装置,其特征在于,包括:
获取模块,用于获取目标图像的特征图,其中,所述特征图包括多个特征区域,每个所述特征区域对应于所述目标图像中的一块像素区域;
确定模块,用于确定所述多个特征区域分别对应的多个目标置信度,其中,每个所述目标置信度用于描述采用对应的特征区域对目标框进行预测的可靠程度,所述目标框用于在所述目标图像中框出目标对象;
选取模块,用于根据所述多个目标置信度,从所述多个特征区域中选取至少一个锚点区域,其中,所述至少一个锚点区域为所述多个特征区域中的特征区域;
预测模块,用于基于所述至少一个锚点区域,预测所述目标框在所述目标图像中的位置。
9.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至7中任意一项所述目标框生成方法。
10.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述目标框生成方法。
CN202210536745.4A 2022-05-17 2022-05-17 目标框生成方法、装置、非易失性存储介质及计算机设备 Pending CN114926631A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210536745.4A CN114926631A (zh) 2022-05-17 2022-05-17 目标框生成方法、装置、非易失性存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210536745.4A CN114926631A (zh) 2022-05-17 2022-05-17 目标框生成方法、装置、非易失性存储介质及计算机设备

Publications (1)

Publication Number Publication Date
CN114926631A true CN114926631A (zh) 2022-08-19

Family

ID=82808781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210536745.4A Pending CN114926631A (zh) 2022-05-17 2022-05-17 目标框生成方法、装置、非易失性存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN114926631A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115880672A (zh) * 2023-02-08 2023-03-31 中国第一汽车股份有限公司 目标检测方法、装置、存储介质及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115880672A (zh) * 2023-02-08 2023-03-31 中国第一汽车股份有限公司 目标检测方法、装置、存储介质及设备

Similar Documents

Publication Publication Date Title
CN111160379B (zh) 图像检测模型的训练方法及装置、目标检测方法及装置
CN112132156B (zh) 多深度特征融合的图像显著性目标检测方法及系统
CN107274445B (zh) 一种图像深度估计方法和系统
CN110309824B (zh) 文字检测方法、装置以及终端
US11475681B2 (en) Image processing method, apparatus, electronic device and computer readable storage medium
CN112418216A (zh) 一种复杂自然场景图像中的文字检测方法
CN112348828A (zh) 基于神经网络的实例分割方法和装置以及存储介质
CN113449606B (zh) 一种目标对象识别方法、装置、计算机设备及存储介质
CN111652181B (zh) 目标跟踪方法、装置及电子设备
CN113112542A (zh) 一种视觉定位方法、装置、电子设备及存储介质
CN113850136A (zh) 基于yolov5与BCNN的车辆朝向识别方法及系统
CN110795975A (zh) 人脸误检优化方法及装置
CN112101344A (zh) 一种视频文本跟踪方法及装置
CN117237755A (zh) 目标检测模型训练方法及装置、图像检测方法及装置
CN113688839B (zh) 视频处理方法及装置、电子设备、计算机可读存储介质
CN114926631A (zh) 目标框生成方法、装置、非易失性存储介质及计算机设备
CN114627561A (zh) 动态手势识别方法、装置、可读存储介质及电子设备
CN114821488A (zh) 基于多模态网络的人群计数方法、系统及计算机设备
CN112686122B (zh) 人体及影子的检测方法、装置、电子设备、存储介质
CN114519717A (zh) 一种图像处理方法及装置、计算机设备、存储介质
CN112488220B (zh) 一种基于深度学习的小目标检测方法
CN113129336A (zh) 一种端到端多车辆跟踪方法、系统及计算机可读介质
EP4332910A1 (en) Behavior detection method, electronic device, and computer readable storage medium
CN115294162A (zh) 目标识别方法、装置、设备及存储介质
CN115100469A (zh) 一种基于分割算法的目标属性识别方法、训练方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination