CN116109812A - 一种基于非极大值抑制阈值优化的目标检测方法 - Google Patents

一种基于非极大值抑制阈值优化的目标检测方法 Download PDF

Info

Publication number
CN116109812A
CN116109812A CN202310317496.4A CN202310317496A CN116109812A CN 116109812 A CN116109812 A CN 116109812A CN 202310317496 A CN202310317496 A CN 202310317496A CN 116109812 A CN116109812 A CN 116109812A
Authority
CN
China
Prior art keywords
target
target detection
model
maximum suppression
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310317496.4A
Other languages
English (en)
Inventor
刘敏
唐毅
张艺琼
边远
王耀南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202310317496.4A priority Critical patent/CN116109812A/zh
Publication of CN116109812A publication Critical patent/CN116109812A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及目标检测技术领域,公开了一种基于非极大值抑制阈值优化的目标检测方法,包括:获取待检测目标数据;将待检测目标数据输入预先训练得到的目标检测模型,得到多个目标检测框与每个目标检测框的置信度;获取每个目标检测框的可见比;将每个目标检测框的置信度和可见比输入预先训练得到的非极大值抑制阈值预测模型,得到对应的非极大值抑制阈值;根据非极大值抑制阈值对所有目标检测框进行冗余框筛选,获得目标检测结果。本发明可以解决人工设定固定阈值无法应对动态变化的目标图像或者视频序列,同时能够显著改善人工设定固定阈值所造成的漏检、误检等问题,有利于提高重度遮挡场景中目标检测的准确率。

Description

一种基于非极大值抑制阈值优化的目标检测方法
技术领域
本发明涉及目标检测技术领域,尤其涉及一种基于非极大值抑制阈值优化的目标检测方法。
背景技术
目标检测是对目标图像或者视频序列进行检测,判断是否存在目标并给每个目标实例精确定位。但在学校、车站等开放拥挤场景,以及腹腔镜手术场景下人体腔道、血管和神经密集等非结构化场景,密集目标之间重度交错遮挡(如人群、多种手术器械和多种组织器官),检测器无法区分每个目标之间的精确检测边界,使得检测过程中出现大量冗余错误的检测框,造成严重遮挡场景中的目标检测出现误检、漏检以及定位精度不高等情况。
在现有的目标检测方法中,通常采用传统的非极大值抑制方法或者软化非极大值抑制方法来消除冗余的检测框。但是,这两种非极大值抑制方法均是采用人工设定的非极大值抑制阈值,而阈值的设定会严重影响检测框的去除效果,当阈值设定过低时,由于重度遮挡场景目标间的重叠度(即交并比)非常高,很多正确的检测框会被判定为冗余框去除,从而导致严重的漏检;当阈值设定过高时,与真实框重叠度较高的假阳性检测框无法完全正确消除,导致大量的误检。此外,由于每张图像或者视频序列中的每帧图像,目标的遮挡程度是动态变化的,人工设定的固定阈值无法满足动态的变化情况。
因此,如何避免人工设定的固定阈值导致的漏检、误检和定位精度不高等问题,依然是当前的目标检测方法急需解决的问题。
发明内容
基于此,本发明要解决的技术问题在于克服现有的非极大值抑制方法,采用人工设定的固定阈值,容易导致漏检、误检和定位精度不高等问题,从而提供一种基于非极大值抑制阈值优化的目标检测方法。
为了解决上述问题,本发明实施例提供了一种基于非极大值抑制阈值优化的目标检测方法,包括:
获取待检测目标数据;
将所述待检测目标数据输入预先训练得到的目标检测模型,得到多个目标检测框与每个所述目标检测框的置信度;
获取每个所述目标检测框的可见比;
将每个所述目标检测框的置信度和可见比输入预先训练得到的非极大值抑制阈值预测模型,得到对应的非极大值抑制阈值;
根据所述非极大值抑制阈值对所有所述目标检测框进行冗余框筛选,获得目标检测结果。
可选地,所述根据所述非极大值抑制阈值对所有所述目标检测框进行冗余框筛选,获得目标检测结果,包括:
根据所有的目标检测框构建候选检测框集合,并构建有效检测框集合;所述有效检测框集合为空集;
从所述候选检测框集合中获取置信度最高的目标检测框为锚点框,并将所述锚点框转移至所述有效检测框集合;
获取所述锚点框与所述候选检测框集合中其余的所述目标检测框的交并比;
检测所述交并比是否小于等于所述锚点框对应的非极大值抑制阈值;
若是,则将所述锚点框保留在所述有效检测框集合中,并在所述候选检测框集合为空集时,返回步骤:从所述候选检测框集合中获取置信度最高的目标检测框为锚点框,并将所述锚点框转移至有效检测框集合;
直至检测到所述候选检测框集合为空集时,将最终的所述有效检测框集合确定为目标检测结。
可选地,所述获取待检测目标数据之前,方法还包括:
获取目标数据集,并划分为训练子集、验证子集和测试子集;
构建目标检测模型,并利用所述训练子集对所述目标检测模型进行训练优化;
构建可见比评估模型,所述可见比评估模型定义为目标检测框中目标的可见边框与目标的全部边框之间的面积比;
构建非极大值抑制阈值预测模型,并利用所述验证子集、优化的目标检测模型得到的目标检测框的置信度和所述可见比评估模型得到的目标检测框的可见比,训练优化所述非极大值抑制阈值预测模型;
利用所述测试子集测试优化的目标检测模型和非极大值抑制阈值预测模型的准确率;
检测准确率是否满足预设应用条件;
若满足,则进入应用阶段。
可选地,所述目标检测模型包含骨干网络、区域候选网络和分类网络;所述骨干网络用于提取特征图,所述区域候选网络用于根据所述特征图生成目标检测框,所述分类网络用于计算所述目标检测框的置信度。
可选地,所述利用所述训练子集训练优化目标检测模型,包括:
将所述训练子集中的目标数据输入目标检测模型,通过目标检测模型提取目标数据的特征图,将所述特征图输入区域候选网络获取目标检测框,同时将所述特征图输入分类网络获取目标检测框的置信度;
采用梯度下降算法最小化边框回归损失,更新所述目标检测模型的参数,得到优化的目标检测模型;所述目标检测模型的参数更新过程为:
其中,分别为下一次迭代和当前迭代时所述目标检测模型的参数,为参数更新时的学习率,为所述目标检测模型对目标数据的标签预测值,为标签真实值,为边框回归损失函数。
可选地,所述非极大值抑制阈值预测模型包含三层全连接层和激活函数层;所述全连接层用于获取所述目标检测框的置信度和可见比,所述激活函数层用于输出非极大值抑制阈值。
可选地,所述训练优化所述非极大值抑制阈值预测模型,包括:
根据构建非极大值抑制阈值预测模型的目标优化函数;所述目标优化函数定义为对于目标检测模型输出的初步检测结果,搜索能够使经过筛选的目标检测结果的准确率达到最高时的参数,表示为:
其中,为准确率,为优化的目标检测模型输出的初步检测结果,为非极大值抑制阈值预测模型的参数,为常规的非极大值抑制函数,为验证集;
利用基于奖励机制的目标优化算法,采用梯度上升方式更新所述非极大值抑制阈值预测模型的参数,得到优化的非极大值抑制阈值预测模型;所述非极大值抑制阈值预测模型的参数更新过程为:
其中,分别为下一次迭代和当前迭代时所述非极大值抑制阈值预测模型的参数,为参数更新时的学习率,为准确率与参数之间的梯度。
可选地,所述构建可见比评估模型,包括:
检测所述目标检测框的目标重叠类型;
在所述目标重叠类型为两个目标重叠时,确定重叠区域的主目标和干扰目标,并计算所述主目标的可见比;所述主目标的可见比的计算公式为:
其中,为主目标A的可见比,分别为主目标A的检测框和干扰目标B的检测框;
根据所述主目标的可见比,引入折扣因子和赫维赛德函数,构建可见比评估模型,所述可见比评估模型为:
其中,为折扣因子,为赫维赛德函数,为面积函数;所述折扣因子的计算公式为:
其中,为重叠区域I与主目标A的相似度,为重叠区域I与干扰目标B的相似度,且
所述赫维赛德函数为:
可选地,所述构建可见比评估模型,还包括:
在所述目标重叠类型为三个或三个以上目标重叠时,根据每个重叠区域的面积比、折扣因子和赫维赛德函数,构建可见比评估模型,所述可见比评估模型为:
其中,为第个重叠区域,为第个重叠区域与干扰目标的相似度。
可选地,所述在所述目标重叠类型为两个目标重叠时,确定重叠区域的主目标和干扰目标,包括:
获取重叠区域与每个目标之间的相似度;
将相似度较高的目标确定为所述重叠区域中的主目标,以及将相似度较低的目标确定为所述重叠区域中的干扰目标。
本发明的实施例提供的技术方案可以具有以下有益效果:
1)本发明实施例通过非极大值抑制阈值预测模型,根据目标检测框的置信度和及可见比,可以自适应地选择最优的非极大值抑制阈值,避免了现有的目标检测方法采用人工设定的固定阈值无法应对动态变化的目标图像或者视频序列,同时能够显著改善传统的非极大值抑制方法所造成的漏检、误检等问题,有利于提高重度遮挡场景中目标检测的准确率;
2)本发明实施例的目标可见比和最优非极大值抑制阈值的获取方式,无需额外的人工标注进行训练,减少了对数据的依赖程度,极大提高了适用范围。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明一实施例所提供的一种基于非极大值抑制阈值优化的目标检测方法的流程图;
图2示出了本发明一实施例所提供的一种基于非极大值抑制阈值优化的目标检测方法的模型训练测试阶段的流程图;
图3示出了本发明实施例所提供的一种基于非极大值抑制阈值优化的目标检测方法的步骤S80的流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
如图1所示,本发明实施例所提供的一种基于非极大值抑制阈值优化的目标检测方法的流程图,该方法包括以下步骤:
S10,获取待检测目标数据。
在步骤S10中,待检测目标数据是指从实际场景中采集的需要进行目标检测的目标图像或者包含连续多帧图像的视频序列。
S20,将所述待检测目标数据输入预先训练得到的目标检测模型,得到多个目标检测框以及每个目标检测框的置信度。
在步骤S20中,所述目标检测模型可以是通过训练YOLOV3或者FasterR-CNN得到的目标检测模型。
具体的,在待检测目标数据为目标图像时,通过预先训练得到的目标检测模型对目标图像进行识别,获取多个(即两个或两个以上)目标检测框以及每个目标检测框的置信度。而在待检测目标数据为视频序列时,通过预先训练得到的目标检测模型对视频序列中的每一帧图像进行识别,获取每一帧图像对应的初步检测结果,该初步检测结果包含多个目标检测框以及每个目标检测框的置信度。
S30,获取每个所述目标检测框的可见比。
在步骤S30中,所述目标检测框的可见比是指目标检测框中目标的可见边框与目标的全部边框之间的面积比。
作为优选,对于每个目标检测框,可以通过预先构建的可见比评估模型获取目标检测框的可见比。其中,可见比评估模型为通过步骤S801至步骤S804构建的可见比评估模型。
S40,将每个所述目标检测框的置信度和可见比输入预先训练得到的非极大值抑制阈值预测模型,得到对应的非极大值抑制阈值。
在步骤S40中,所述非极大值抑制阈值预测模型是指以置信度和可见比为输入参数,以非极大值抑制阈值为输出参数的神经网络模型。
也即,对于每个目标检测框,将步骤S10获得的置信度与步骤S30获得的可见比进行组合后,输入预先训练得到的非极大值抑制阈值预测模型,得到每个目标检测框的非极大值抑制阈值,也即每一个目标检测框对应一个非极大值抑制阈值。相较于背景技术中的非极大值抑制方法,本实施例采用非极大值抑制阈值预测模型可以获得自适应的非极大值抑制阈值,可以避免非极大值抑制阈值过大或者过小的问题,从而能够有效过滤到冗余的检测框。
S50,根据所述非极大值抑制阈值对所有所述目标检测框进行冗余框筛选,获得目标检测结果。
作为优选,获取置信度最高的目标检测框与其他的目标检测框的交并比,并在交并比大于等于非极大值抑制阈值预测模型输出的非极大值抑制阈值时,将置信度最高的目标检测框进行剔除,重复执行前述步骤,即可得到最终的目标检测结果。
综上所述,本实施例提供的一种基于非极大值抑制阈值优化的目标检测方法,具有以下有益效果:
1)本实施例通过非极大值抑制阈值预测模型,根据目标检测框的置信度和及可见比,可以自适应地选择最优的非极大值抑制阈值,避免了现有的目标检测方法采用人工设定的固定阈值无法应对动态变化的目标图像或者视频序列,同时能够显著改善传统的非极大值抑制方法所造成的漏检、误检等问题,有利于提高重度遮挡场景中目标检测的准确率;
2)本实施例的目标可见比和最优非极大值抑制阈值的获取方式,无需额外的人工标注进行训练,减少了对数据的依赖程度,极大提高了适用范围。
在一可选实施例中,所述步骤S50具体包括以下步骤:
S501,根据所有的目标检测框构建候选检测框集合,并构建有效检测框集合;所述有效检测框集合为空集;
S502,从所述候选检测框集合中获取置信度最高的目标检测框为锚点框,并将所述锚点框转移至所述有效检测框集合;
S503,获取所述锚点框与所述候选检测框集合中其余的所述目标检测框的交并比;
S504,检测所述交并比是否小于等于所述锚点框对应的非极大值抑制阈值;
S505,若是,则将所述锚点框保留在所述有效检测框集合中,并在所述候选检测框集合为空集时,返回步骤S502,即从所述候选检测框集合中获取置信度最高的目标检测框为锚点框,并将所述锚点框转移至所述有效检测框集合;
S506,直至检测到所述候选检测框集合为空集时,将最终的所述有效检测框集合确定为目标检测结果。
在本实施例中,首先建立空集(即有效检测框集合)用于保存有效的目标检测框,以及建立候选检测框集合用于保存目标检测模型识别的目标检测框,接下来从候选检测框集合中,获取置信度最高的目标检测框标记为锚点框,并将其转移至有效检测框集合中,再接下来计算锚点框与候选检测框集合中其余的目标检测框的交并比,并将交并比与非极大值抑制阈值预测模型输出的锚点框的非极大值抑制阈值进行比较,若,则将锚点框从有效检测框集合中剔除,否则将锚点框保留在有效检测框集合中。
然后检测候选检测框集合中是否为空集,若候选检测框集合为非空集,则重复执行上述步骤,否则将有效检测框集合中的检测框作为最终的有效的目标检测框。
可理解的,本实施例的抑制阈值后处理阶段,对于初步检测结果的任意一个目标检测框,将该目标检测框与其他目标检测框的交并比,与该目标检测框对应的非极大值阈值进行比较,即可得到有效的目标检测框,能够有效避免漏检、误检的问题,提高目标检测精度。
在一可选实施例中,如图2所示,所述基于非极大值抑制阈值优化的目标检测方法,还包括模型训练测试阶段,所述模型训练测试阶段具体包括以下步骤:
S60,获取目标数据集,并划分为训练子集、验证子集和测试子集。
在步骤S60中,所述目标数据集包含预设第一数量的目标图像或者预设第二数量的视频序列,所述预设第一数量和所述预设第二数量根据需要进行设置。所述训练子集用于训练目标检测模型,所述验证子集用于训练非极大值抑制阈值预测模型,所述测试子集用于测试目标检测模型和非极大值抑制阈值预测模型。
作为优选,所述步骤S60具体包括以下步骤:
首先,根据多个实际场景下采集的目标数据,构建目标数据集,该目标数据为目标图像或视频序列。
然后,将所述目标数据集按照预设比例划分为训练子集、验证子集和测试子集
在本实施例中,所述实际场景包含但不限于学校、车站等开放拥挤场景,以及腹腔镜手术场景下人体腔道、血管和神经密集等非结构化场景。所述预设比例根据需要进行设置。
更具体的,在目标数据为目标图像时,可以采集不同应用场景下的750张目标图像构建目标数据集,并按照2:2:1的比例将目标数据集划分为训练子集、验证子集和测试子集。而在目标数据为视频序列时,可以利用视频序列解帧的方式转换为图像序列,再对构建的图像数据集进行处理。
S70,构建目标检测模型,并利用训练子集对所述目标检测模型进行训练优化。
在本实施例中,目标检测模型是基于Fast R-CNN的目标检测模型,所述目标检测模型包含骨干网络、区域候选网络和分类网络;所述骨干网络用于提取特征图,所述区域候选网络用于根据所述特征图生成目标检测框,所述分类网络用于计算所述目标检测框的置信度。
作为优选,所述步骤S70中利用所述训练子集对所述目标检测模型进行训练优化,包括以下步骤:
首先,将所述训练子集中的目标数据输入目标检测模型,通过目标检测模型提取目标数据的特征图,将所述特征图输入区域候选网络获取目标检测框,同时将所述特征图输入分类网络获取目标检测框的置信度;
然后,采用梯度下降算法最小化边框回归损失,更新所述目标检测模型的参数,得到优化的目标检测模型;所述目标检测模型的参数更新过程为:
其中,分别为下一次迭代和当前迭代时所述目标检测模型的参数,为参数更新时的学习率,为所述目标检测模型对目标数据的标签预测值,为标签真实值,为边框回归损失函数。
S80,构建可见比评估模型,所述可见比评估模型定义为目标检测框中目标的可见边框与目标的全部边框之间的面积比,可以表示为:
其中,为可见比,为目标的可见边框,为目标的全部边框(包含未被遮挡部分和遮挡部分),为面积函数。
S90,构建非极大值抑制阈值预测模型,并利用所述验证子集、优化的目标检测模型得到的目标检测框的置信度和所述可见比评估模型得到的目标检测框的可见比,训练优化所述非极大值抑制阈值预测模型。
在本实施例中,所述非极大值抑制阈值预测模型是基于全连接神经网络的阈值预测模型,所述非极大值抑制阈值预测模型包含三层全连接层和激活函数层;所述全连接层用于获取所述目标检测框的置信度和可见比,所述激活函数层用于输出非极大值抑制阈值。
可理解的,非极大值抑制阈值预测模型可以表示为,其中分别为目标检测框所对应的可见比和置信度,为非极大值抑制阈值预测模型的参数。在目标检测过程中,非极大值抑制阈值预测模型可以嵌入在目标检测模型的输出阶段和非极大值抑制后处理阶段之间,其中,目标检测模型的输出阶段包含上述步骤S20,非极大值抑制后处理阶段包含上述步骤S50。此外,目标检测模型的指定度输出头和可见比评估模型将嵌入到非极大值抑制阈值预测模型之前。
进一步地,所述激活函数层采用的激活函数为ReLU函数。
作为优选,步骤S90中训练优化所述非极大值抑制阈值预测模型,具体包括以下步骤:
首先,根据构建非极大值抑制阈值预测模型的目标优化函数;所述目标优化函数定义为对于目标检测模型输出的初步检测结果,搜索能够使经过筛选的检测结果的准确率达到最高时的参数,可以表示为:
其中,为准确率,为优化的目标检测模型输出的初步检测结果(即包含多个目标检测框的候选检测框集合),为非极大值抑制阈值预测模型的参数,为常规的非极大值抑制函数,为验证集。
然后,利用基于奖励机制的目标优化算法,采用梯度上升方式更新所述非极大值抑制阈值预测模型的参数,得到优化的非极大值抑制阈值预测模型;所述非极大值抑制阈值预测模型的参数更新过程为:
其中,分别为下一次迭代和当前迭代时所述非极大值抑制阈值预测模型的参数,为参数更新时的学习率,为准确率与参数之间的梯度。
进一步地,由于准确率与参数之间不存在解析的函数表达式,梯度无法直接计算获得,本实施例利用链式法则对梯度分为两步进行求导,求导公式为:
其中,第二项为非极大值抑制阈值预测模型与参数的梯度,此部分由于非极大值抑制阈值预测模型与参数的函数关系式是显性的,可以利用深度学习工具自动求得。第一项为准确率与非极大值抑制阈值预测模型的梯度,此部分梯度可以利用近端梯度估算得到,计算公式为:
其中,是均值为,方差为下的高斯分布采样到的阈值,为期望函数,为采样阈值的概率分布,为采样阈值下的准确度,即采样阈值的奖励。
进一步地,由于实际中无法解析得到所有采样阈值的期望奖励,本实施例利用蒙特卡洛采样个值进行近似计算,计算公式为:
其中,为采样阈值的概率密度函数,可以直接用于表示采样阈值的采样概率。
可理解的,本实施例的目标检测模型和非极大值抑制阈值预测模型可以分别利用训练子集和验证子集进行训练,并在两个模型分别达到对应的收敛条件或者达到对应的最大更新次数时,确定模型训练优化完成。
而在其他实施例中,目标检测模型和非极大值抑制阈值预测模型可以同时进行训练优化,此时,在将目标数据集分为用于训练两个模型的训练子集和用于测试两个模型的测试子集后,先将训练子集中的目标数据输入目标检测模型,再将目标检测模型输出的各目标检测框的置信度和可见比评估模型输出的各目标检测框的可见比组合后,输入非极大值抑制阈值预测模型,并在检测到当前迭代次数达到最大迭代次数时,确定模型训练优化完成,否则,重复执行上述步骤,继续对模型进行训练。
S110,利用所述测试子集测试优化的目标检测模型和非极大值抑制阈值预测模型的准确率。
在本实施例中,对于测试子集中的目标数据,预先采用人工方式进行标注,得到目标数据对应的真实目标标签。在测试阶段,先将测试子集中的目标数据输入优化的目标检测模型,得到包含多个目标检测框的初步检测结果和每个目标检测框的置信度,再将目标检测模型输出的目标检测框的置信度与可见比评估模型输出的可见比组合后,输入优化的非极大值抑制阈值预测模型,得到各目标检测框对应的非极大值抑制阈值,然后利用非极大值抑制阈值对初步检测结果进行冗余框筛选,得到最终的目标检测结果,最后根据目标检测结果中的有效的目标检测框与真实目标标签,计算模型的准确率。
S120,检测准确率是否满足预设应用条件。
在本实施例中,预设应用条件为准确率阈值,该准确率阈值可以根据实际场景所允许的最小检测误差进行设置。
S130,若满足,则进入应用阶段。
也即,若准确率大于等于准确率阈值,则进入应用阶段,该应用阶段包含上述步骤S10至步骤S50;否则根据准确率调整目标检测模型和非极大值抑制阈值预测模型的结构和参数,并返回步骤S70,重新训练目标检测模型和非极大值抑制阈值预测模型,直到准确率大于等于准确率阈值,进入应用阶段。
可理解的,本实施例在模型测试训练阶段,利用训练集训练目标检测模型,并采用基于奖励机制的目标优化算法优化非极大值抑制阈值预测模型,可以提高模型精度。
在一些可选实施例中,如图3所示,所述步骤S80,即所述构建可见比评估模型包括以下步骤:
S801,检测所述目标检测框的目标重叠类型。其中,目标重叠类型包含两个目标重叠、三个或三个以上目标重叠这两种类型。
S802,在所述目标重叠类型为两个目标重叠时,确定重叠区域的主目标和干扰目标,并计算所述主目标的可见比;所述主目标的可见比计算公式为:
其中,为主目标A的可见比,分别为主目标A的检测框和干扰目标B的检测框;
作为优选,所述步骤S6033中在所述目标重叠类型为两个目标重叠时,确定重叠区域的主目标和干扰目标,具体包括以下步骤:获取重叠区域与每个目标之间的相似度;将相似度较高的目标确定为所述重叠区域中的主目标,以及将相似度较低的目标确定为所述重叠区域中的干扰目标。
也即,对于互相遮挡的两个目标,可以采用相似度判定重叠区域属于哪一目标,若重叠区域与第一个目标的相似度大于重叠区域与第二个目标的相似度,则判定重叠区域属于第一个目标,并将第一个目标标记为主目标,否则,判定重叠区域属于第二个目标,并将第二个目标标记为主目标。
S803,根据所述主目标的可见比,引入折扣因子和赫维赛德函数,构建可见比评估模型,所述可见比评估模型为:
其中,为折扣因子,为赫维赛德函数,为面积函数;所述折扣因子的计算公式为:
其中,为重叠区域I与主目标A的相似度,为重叠区域I与干扰目标B的相似度,且
所述赫维赛德函数为:
可理解的,在构建可见比评估模型时,需要在可见比计算公式中的面积比上乘以一个折扣因子,可以消除重叠区域中不属于目标部分的影响。
进一步地,如图3所示,所述步骤S80还包括以下步骤:
S804,在所述目标重叠类型为三个或三个以上目标重叠时,根据每个重叠区域的面积比、折扣因子和赫维赛德函数,构建可见比评估模型,所述可见比评估模型为:
其中,为第个重叠区域,为第个重叠区域与干扰目标的相似度。
需要说明的是,三个或三个以上目标重叠为实际应用场景的一般情况。
可理解的,本实施例利用面积比、折扣因子和赫维赛德函数来构建可见比评估模型,可以消除重叠区域中不属于目标部分的影响,提高可见比的评估精度。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭示如上,然而并非用以限定本发明,任何本领域技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种基于非极大值抑制阈值优化的目标检测方法,其特征在于,包括:
获取待检测目标数据;
将所述待检测目标数据输入预先训练得到的目标检测模型,得到多个目标检测框与每个所述目标检测框的置信度;
获取每个所述目标检测框的可见比;
将每个所述目标检测框的置信度和可见比输入预先训练得到的非极大值抑制阈值预测模型,得到对应的非极大值抑制阈值;
根据所述非极大值抑制阈值对所有所述目标检测框进行冗余框筛选,获得目标检测结果。
2.根据权利要求1所述的基于非极大值抑制阈值优化的目标检测方法,其特征在于,所述根据所述非极大值抑制阈值对所有所述目标检测框进行冗余框筛选,获得目标检测结果,包括:
根据所有的目标检测框构建候选检测框集合,并构建有效检测框集合;所述有效检测框集合为空集;
从所述候选检测框集合中获取置信度最高的目标检测框为锚点框,并将所述锚点框转移至所述有效检测框集合;
获取所述锚点框与所述候选检测框集合中其余的所述目标检测框的交并比;
检测所述交并比是否小于等于所述锚点框对应的非极大值抑制阈值;
若是,则将所述锚点框保留在所述有效检测框集合中,并在所述候选检测框集合为空集时,返回步骤:从所述候选检测框集合中获取置信度最高的目标检测框为锚点框,并将所述锚点框转移至有效检测框集合;
直至检测到所述候选检测框集合为空集时,将最终的所述有效检测框集合确定为目标检测结果。
3.根据权利要求1所述的基于非极大值抑制阈值优化的目标检测方法,其特征在于,所述获取待检测目标数据之前,方法还包括:
获取目标数据集,并划分为训练子集、验证子集和测试子集;
构建目标检测模型,并利用所述训练子集对所述目标检测模型进行训练优化;
构建可见比评估模型,所述可见比评估模型定义为目标检测框中目标的可见边框与目标的全部边框之间的面积比;
构建非极大值抑制阈值预测模型,并利用所述验证子集、优化的目标检测模型得到的目标检测框的置信度和所述可见比评估模型得到的目标检测框的可见比,训练优化所述非极大值抑制阈值预测模型;
利用所述测试子集测试优化的目标检测模型和非极大值抑制阈值预测模型的准确率;
检测准确率是否满足预设应用条件;
若满足,则进入应用阶段。
4.根据权利要求3所述的基于非极大值抑制阈值优化的目标检测方法,其特征在于,所述目标检测模型包含骨干网络、区域候选网络和分类网络;所述骨干网络用于提取特征图,所述区域候选网络用于根据所述特征图生成目标检测框,所述分类网络用于计算所述目标检测框的置信度。
5.根据权利要求4所述的基于非极大值抑制阈值优化的目标检测方法,其特征在于,所述利用所述训练子集训练优化目标检测模型,包括:
将所述训练子集中的目标数据输入目标检测模型,通过目标检测模型提取目标数据的特征图,将所述特征图输入区域候选网络获取目标检测框,同时将所述特征图输入分类网络获取目标检测框的置信度;
采用梯度下降算法最小化边框回归损失,更新所述目标检测模型的参数,得到优化的目标检测模型;所述目标检测模型的参数更新过程为:
其中,分别为下一次迭代和当前迭代时所述目标检测模型的参数,为参数更新时的学习率,为所述目标检测模型对目标数据的标签预测值,为标签真实值,为边框回归损失函数。
6.根据权利要求3所述的基于非极大值抑制阈值优化的目标检测方法,其特征在于,所述非极大值抑制阈值预测模型包含三层全连接层和激活函数层;所述全连接层用于获取所述目标检测框的置信度和可见比,所述激活函数层用于输出非极大值抑制阈值。
7.根据权利要求6所述的基于非极大值抑制阈值优化的目标检测方法,其特征在于,所述训练优化所述非极大值抑制阈值预测模型,包括:
根据构建非极大值抑制阈值预测模型的目标优化函数;所述目标优化函数定义为对于目标检测模型输出的初步检测结果,搜索能够使经过筛选的目标检测结果的准确率达到最高时的参数,表示为:
其中,为准确率,为优化的目标检测模型输出的初步检测结果,为非极大值抑制阈值预测模型的参数,为常规的非极大值抑制函数,为验证集;
利用基于奖励机制的目标优化算法,采用梯度上升方式更新所述非极大值抑制阈值预测模型的参数,得到优化的非极大值抑制阈值预测模型;所述非极大值抑制阈值预测模型的参数更新过程为:
其中,分别为下一次迭代和当前迭代时所述非极大值抑制阈值预测模型的参数,为参数更新时的学习率为准确率与参数之间的梯度。
8.根据权利要求3所述的基于非极大值抑制阈值优化的目标检测方法,其特征在于,所述构建可见比评估模型,包括:
检测所述目标检测框的目标重叠类型;
在所述目标重叠类型为两个目标重叠时,确定重叠区域的主目标和干扰目标,并计算所述主目标的可见比;所述主目标的可见比的计算公式为:
其中,为主目标A的可见比,分别为主目标A的检测框和干扰目标B的检测框;
根据所述主目标的可见比,引入折扣因子和赫维赛德函数,构建可见比评估模型,所述可见比评估模型为:
其中,为折扣因子,为赫维赛德函数,为面积函数;所述折扣因子的计算公式为:
其中,为重叠区域I与主目标A的相似度,为重叠区域I与干扰目标B的相似度,且
所述赫维赛德函数为:
9.根据权利要求8所述的基于非极大值抑制阈值优化的目标检测方法,其特征在于,所述构建可见比评估模型,还包括:
在所述目标重叠类型为三个或三个以上目标重叠时,根据每个重叠区域的面积比、折扣因子和赫维赛德函数,构建可见比评估模型,所述可见比评估模型为:
其中,为第个重叠区域,为第个重叠区域与干扰目标的相似度。
10.根据权利要求8所述的基于非极大值抑制阈值优化的目标检测方法,其特征在于,所述在所述目标重叠类型为两个目标重叠时,确定重叠区域的主目标和干扰目标,包括:
获取重叠区域与每个目标之间的相似度;
将相似度较高的目标确定为所述重叠区域中的主目标,以及将相似度较低的目标确定为所述重叠区域中的干扰目标。
CN202310317496.4A 2023-03-29 2023-03-29 一种基于非极大值抑制阈值优化的目标检测方法 Pending CN116109812A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310317496.4A CN116109812A (zh) 2023-03-29 2023-03-29 一种基于非极大值抑制阈值优化的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310317496.4A CN116109812A (zh) 2023-03-29 2023-03-29 一种基于非极大值抑制阈值优化的目标检测方法

Publications (1)

Publication Number Publication Date
CN116109812A true CN116109812A (zh) 2023-05-12

Family

ID=86256386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310317496.4A Pending CN116109812A (zh) 2023-03-29 2023-03-29 一种基于非极大值抑制阈值优化的目标检测方法

Country Status (1)

Country Link
CN (1) CN116109812A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117372813A (zh) * 2023-10-30 2024-01-09 上海鼎格信息科技有限公司 一种基于预标注的目标检测方法及装置
CN117636002A (zh) * 2023-10-23 2024-03-01 长讯通信服务有限公司 一种基于长尾数据的自适应阈值nms多目标检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117636002A (zh) * 2023-10-23 2024-03-01 长讯通信服务有限公司 一种基于长尾数据的自适应阈值nms多目标检测方法
CN117372813A (zh) * 2023-10-30 2024-01-09 上海鼎格信息科技有限公司 一种基于预标注的目标检测方法及装置

Similar Documents

Publication Publication Date Title
CN110599448B (zh) 基于MaskScoring R-CNN网络的迁移学习肺部病变组织检测系统
CN107506761B (zh) 基于显著性学习卷积神经网络的脑部图像分割方法及系统
CN104392468B (zh) 基于改进视觉背景提取的运动目标检测方法
CN116109812A (zh) 一种基于非极大值抑制阈值优化的目标检测方法
US9330336B2 (en) Systems, methods, and media for on-line boosting of a classifier
CN110264444B (zh) 基于弱分割的损伤检测方法及装置
CN113139470B (zh) 一种基于Transformer的玻璃识别方法
EP3977364A1 (en) Method and processing device for training a neural network
US10255673B2 (en) Apparatus and method for detecting object in image, and apparatus and method for computer-aided diagnosis
US11887303B2 (en) Image processing model generation method, image processing method and device, and electronic device
CN108288020A (zh) 基于上下文信息的视频遮挡检测系统及方法
CN109712171B (zh) 一种基于相关滤波器的目标跟踪系统及目标跟踪方法
CN111539456B (zh) 一种目标识别方法及设备
WO2023160666A1 (zh) 一种目标检测方法、目标检测模型训练方法及装置
CN110660049A (zh) 一种基于深度学习的轮胎缺陷检测方法
CN109740632B (zh) 基于多传感器多被测对象的相似度模型训练方法和装置
CN114998362A (zh) 基于双分割模型的医学图像分割方法
CN114742840A (zh) 一种图像分割方法、装置、终端设备及可读存储介质
Feng Mask RCNN-based single shot multibox detector for gesture recognition in physical education
CN116958679A (zh) 一种基于弱监督的目标检测方法及相关设备
CN116563305A (zh) 一种血管的异常区域的分割方法、装置及电子设备
CN115018787A (zh) 一种基于梯度增强的异常检测方法和系统
CN112347826B (zh) 一种基于强化学习的视频连续手语识别方法及系统
CN110599456B (zh) 一种医学图像的特定区域的提取方法
CN113902670A (zh) 一种基于弱监督学习的超声视频分割方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination