CN112836745A - 一种目标检测方法和装置 - Google Patents

一种目标检测方法和装置 Download PDF

Info

Publication number
CN112836745A
CN112836745A CN202110145436.XA CN202110145436A CN112836745A CN 112836745 A CN112836745 A CN 112836745A CN 202110145436 A CN202110145436 A CN 202110145436A CN 112836745 A CN112836745 A CN 112836745A
Authority
CN
China
Prior art keywords
bounding box
target detection
confidence
prediction
grid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110145436.XA
Other languages
English (en)
Other versions
CN112836745B (zh
Inventor
张一凡
刘杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Goertek Inc
Original Assignee
Goertek Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Goertek Inc filed Critical Goertek Inc
Priority to CN202110145436.XA priority Critical patent/CN112836745B/zh
Publication of CN112836745A publication Critical patent/CN112836745A/zh
Application granted granted Critical
Publication of CN112836745B publication Critical patent/CN112836745B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种目标检测方法和装置,其中方法包括:基于YOLO‑v4构建目标检测模型,在目标检测模型的每个网格单元中增加预测神经元,使每个网格单元具有多个预测神经元;利用目标检测模型,将用于目标检测的图像划分为多个网格,确定与每个网格对应的网格单元;基于各网格单元检测出与目标对应的边界框,由检测出边界框的网格单元中的多个预测神经元确定该边界框的多个初始置信度;根据每个边界框的多个初始置信度,得到相应边界框的最终置信度;根据各边界框的最终置信度确定目标检测结果。技术方案通过改变以YOLO‑v4为基础的目标检测模型的网络结构,使得目标检测模型中每个网格单元具备了多个可预测置信度的预测神经元,最终实现了目标检测的精度提升。

Description

一种目标检测方法和装置
技术领域
本申请涉及计算机视觉领域,尤其涉及一种目标检测方法和装置。
背景技术
YOLO(英文全称为You Only Look Once,业内暂无中文名称)是典型的单阶段目标检测技术,即直接根据原始图像回归出目标的位置和类别等信息,目前已经发展到第四个版本,即YOLO-v4。但其仍存在着一些缺点,例如在工业上的缺陷检测场景,有一部分缺陷还是难以准确识别,该技术仍存在改进空间。
发明内容
本申请实施例提供了一种目标检测方法和装置,以进一步提高目标检测的精度。
本申请实施例采用下述技术方案:
第一方面,本申请实施例提供一种目标检测方法,包括:基于YOLO-v4构建目标检测模型,在目标检测模型的每个网格单元中增加预测神经元,使每个网格单元具有多个预测神经元;利用目标检测模型,将用于目标检测的图像划分为多个网格,确定与每个网格对应的网格单元;基于各网格单元检测出与目标对应的边界框,由检测出边界框的网格单元中的多个预测神经元确定该边界框的多个初始置信度;根据每个边界框的多个初始置信度,得到相应边界框的最终置信度;根据各边界框的最终置信度确定目标检测结果。
在一些实施例中,上述目标检测方法中,根据每个边界框的多个初始置信度,得到相应边界框的最终置信度包括:将每个边界框的多个初始置信度的平均值,作为相应边界框的最终置信度。
在一些实施例中,上述目标检测方法中,根据每个边界框的多个初始置信度,得到相应边界框的最终置信度包括:将每个边界框的多个初始置信度的最大值,作为相应边界框的最终置信度。
在一些实施例中,上述目标检测方法中,根据每个边界框的多个初始置信度,得到相应边界框的最终置信度包括:将每个边界框的多个初始置信度的最小值,作为相应边界框的最终置信度。
在一些实施例中,上述目标检测方法中,根据各边界框的最终置信度确定目标检测结果包括:对每个边界框,分别计算该边界框属于各类别的条件概率与该边界框的最终置信度的乘积,作为该边界框属于各类别的预测概率;根据各边界框属于各类别的预测概率确定目标检测结果。
在一些实施例中,上述目标检测方法还包括:设置与样本均衡度相关的平衡因子;基于平衡因子对二分类交叉熵损失函数进行调整,得到训练目标检测模型的平衡损失函数;利用平衡损失函数,对目标检测模型进行训练。
在一些实施例中,上述目标检测方法中,基于平衡因子对二分类交叉熵损失函数进行调整,得到训练目标检测模型的平衡损失函数包括:利用正向平衡因子对二分类交叉熵损失函数的正向损失值进行调整,以及利用负向平衡因子对二分类交叉熵损失函数的负向损失值进行调整;其中,正向平衡因子与负向平衡因子的和为1。
第二方面,本申请实施例提供一种目标检测装置,包括:构建单元,用于基于YOLO-v4构建目标检测模型,在目标检测模型的每个网格单元中增加预测神经元,使每个网格单元具有多个预测神经元;网格单元,用于利用目标检测模型,将用于目标检测的图像划分为多个网格,确定与每个网格对应的网格单元;检测单元,用于基于各网格单元检测出与目标对应的边界框,由检测出边界框的网格单元中的多个预测神经元确定该边界框的多个初始置信度;置信度调整单元,用于根据每个边界框的多个初始置信度,得到相应边界框的最终置信度;结果单元,用于根据各边界框的最终置信度确定目标检测结果。
在一些实施例中,上述目标检测装置中,置信度调整单元,用于将每个边界框的多个初始置信度的平均值,作为相应边界框的最终置信度。
在一些实施例中,上述目标检测装置中,置信度调整单元,用于将每个边界框的多个初始置信度的最大值,作为相应边界框的最终置信度。
在一些实施例中,上述目标检测装置中,置信度调整单元,用于将每个边界框的多个初始置信度的最小值,作为相应边界框的最终置信度。
在一些实施例中,上述目标检测装置中,结果单元,用于对每个边界框,分别计算该边界框属于各类别的条件概率与该边界框的最终置信度的乘积,作为该边界框属于各类别的预测概率;根据各边界框属于各类别的预测概率确定目标检测结果。
在一些实施例中,上述目标检测装置还包括:训练单元,用于设置与样本均衡度相关的平衡因子,基于平衡因子对二分类交叉熵损失函数进行调整,得到训练目标检测模型的平衡损失函数,利用平衡损失函数,对目标检测模型进行训练。
在一些实施例中,上述目标检测装置中,训练单元,用于利用正向平衡因子对二分类交叉熵损失函数的正向损失值进行调整,以及利用负向平衡因子对二分类交叉熵损失函数的负向损失值进行调整;其中,正向平衡因子与负向平衡因子的和为1。
第三方面,本申请实施例还提供一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,可执行指令在被执行时使处理器执行如上任一所述的目标检测方法。
第四方面,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质存储一个或多个程序,一个或多个程序当被包括多个应用程序的电子设备执行时,使得电子设备执行如上任一所述的目标检测方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:通过改变以YOLO-v4为基础的目标检测模型的网络结构,使得目标检测模型中每个网格单元具备了多个可预测objectness置信度的预测神经元,从而在目标检测的过程中可以先得到多个初始置信度,再进一步确定最终置信度作为实际的objectness置信度,从而提升了objectness置信度的精度,在此基础上提升了目标检测的精度。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了根据本申请一个实施例的目标检测方法的流程示意图;
图2示出了根据本申请一个实施例的目标检测装置的结构示意图;
图3为本申请实施例中一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
通过对YOLO-v4进行分析,发明人发现,YOLO-v4在进行目标检测时,是先预测多个边界框(bounding box),确定每个边界框的目标(objectness)置信度,该置信度可以简单理解为表征了该边界框是目标还是背景;同时,还预测边界框属于各类别的条件概率,也就是表征该边界框属于哪一个类别。最后,将objectness置信度与各类别的条件概率相乘,就得到了边界框分数各类别的最预测概率,从而得到目标检测结果。
发明人想到,objectness置信度的精度对最终得到的目标检测结果的影响是非常大的,由此,如果能够提高objectness置信度的精度,那么也就能够稳定提升目标检测模型对各类别的预测精度。本申请的技术方案适用于各类型的目标检测,如车辆检测等,尤其适用于工业场景下的缺陷检测,能够共同提升不同类别的缺陷的检测精度。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1示出了根据本申请一个实施例的目标检测方法的流程示意图。如图1所示,该方法包括:
步骤S110,基于YOLO-v4构建目标检测模型,在目标检测模型的每个网格单元中增加预测神经元,使每个网格单元具有多个预测神经元。
如果直接基于YOLO-v4构建模型,得到的模型中每个网格单元仅具有一个预测神经元,也只能得到一个objectness置信度。
而在本申请的技术方案中,在每个网格单元中增加预测神经元,使得每个网格单元在进行边界框检测时,能够得到该边界框的多个初始置信度,再通过一定的方式综合各初始置信度,得到最终置信度作为objectness置信度,从而提高了objectness置信度的精度。
步骤S120,利用目标检测模型,将用于目标检测的图像划分为多个网格,确定与每个网格对应的网格单元。
这里可以参考YOLO-v4的目标检测流程,例如将用于目标检测的图像划分为S×S个网格(S为正整数),每个网格对应一个网格单元。如果一个目标的中心落入一个网格内,则对应的网格单位负责对该目标进行预测。
步骤S130,基于各网格单元检测出与目标对应的边界框,由检测出边界框的网格单元中的多个预测神经元确定该边界框的多个初始置信度。
举例来说,要检测的目标共包含k个类别(例如有k种可能存在的缺陷),网格单元预测N个边界框,每个边界框的预测参数包括x、y、w、h、c0、c1、…、ck-1、conf0、conf1、…、confm-1。其中(x,y)为预测的边界框中心相对于网格的坐标,w、h是边界框相对于用于目标检测的图像的宽度、高度的比例,conf0、conf1、…、cnfm-1是预测输出的m个初始置信度(m为大于1的正整数,在一些实施例中优选为3),c0、c1、…、c-1表示预测的该边界框属于某一类别的条件概率。
步骤S140,根据每个边界框的多个初始置信度,得到相应边界框的最终置信度。
例如,可以设置一个函数,将多个初始置信度代入该函数中求解得到最终置信度,用来替代原本YOLO-v4中通过单一预测神经元输出的objectness置信度。
步骤S150,根据各边界框的最终置信度确定目标检测结果。
可见,图1所示的目标检测方法,通过改变以YOLO-v4为基础的目标检测模型的网络结构,使得目标检测模型中每个网格单元具备了多个可预测objectness置信度的预测神经元,从而在目标检测的过程中可以先得到多个初始置信度,再进一步确定最终置信度作为实际的objectness置信度,从而提升了objectness置信度的精度,在此基础上提升了目标检测的精度。
在一些实施例中,上述目标检测方法中,根据每个边界框的多个初始置信度,得到相应边界框的最终置信度包括:将每个边界框的多个初始置信度的平均值,作为相应边界框的最终置信度。
例如,利用公式(1)
Figure BDA0002930013360000061
计算conf0、conf1、…、confm-1的平均值,得到最终置信度。如三个初始置信度conf0=0.90,conf1=0.88,conf2=0.89,则最终置信度conf=0.89。
在一些实施例中,上述目标检测方法中,根据每个边界框的多个初始置信度,得到相应边界框的最终置信度包括:将每个边界框的多个初始置信度的最大值,作为相应边界框的最终置信度。
例如,利用公式(2)
conf=max(conf0,…,confm-1) (2)
计算conf0、conf1、…、confm-1的最大值,得到最终置信度。如三个初始置信度conf0=0.90,conf1=0.88,conf2=0.89,则最终置信度conf=0.90。
在一些实施例中,上述目标检测方法中,根据每个边界框的多个初始置信度,得到相应边界框的最终置信度包括:将每个边界框的多个初始置信度的最小值,作为相应边界框的最终置信度。
例如,利用公式(3)
conf=min(conf0,…,confm-1) (3)
计算conf0、conf1、…、confm-1的平均值,得到最终置信度。如三个初始置信度conf0=0.90,conf1=0.88,conf2=0.89,则最终置信度conf=0.88。
在一些实施例中,上述目标检测方法中,根据各边界框的最终置信度确定目标检测结果包括:对每个边界框,分别计算该边界框属于各类别的条件概率与该边界框的最终置信度的乘积,作为该边界框属于各类别的预测概率;根据各边界框属于各类别的预测概率确定目标检测结果。
例如,利用最终得到的conf分别乘上c0、c1、…、ck-1,将得到的conf×c0、conf×c1、…、conf×ck-1作为表示边界框属于c0、c1、…、ck-1类的预测概率。
然后可以根据需求输出目标检测结果,例如将预测概率最大的类别作为识别出的目标的类别。
具体来说,对于一个网格单元预测的三个边界框,其中边界框1的类别1得分为0.7480,类别2得分为0.8848,类别3得分为0.7832,则边界框最终对应的类别为类别2,得分为0.8848;类似地,边界框2对应的类别为类别3,得分为0.8099;边界框3对应的类别为类别2,得分为0.8372,则最终将边界框1作为目标检测结果输出。
可见,由于最终置信度conf的精度得到了提升,使得目标检测模型对各类别的预测也更加准确,从而实现了目标检测模型的精度提升。
在一些实施例中,上述目标检测方法还包括:设置与样本均衡度相关的平衡因子;基于平衡因子对二分类交叉熵损失函数进行调整,得到训练目标检测模型的平衡损失函数;利用平衡损失函数,对目标检测模型进行训练。
在很多目标检测场景中,会存在正、负样本不均衡的情况。即一幅图像中,目标仅占很小的面积,图像中其它大部分区域都是背景。正如前面所述,YOLO-v4将用于检测的图像划分为S×S的网格,如果目标的中心落入某个网格,则相应的网格单元负责对该目标的边界框进行预测。因此,YOLO-v4属于“稠密”预测。
如果目标仅占少数几个或一个网格时,该网格对应的边界框为正样本,其余网格所对应的边界框都为负样本,就会出现明显的正负样本不均衡。例如在工业缺陷检测中,所谓的目标多数是比较细小、线状的缺陷,在整幅图像中的面积占比极小,因此正负样本不均衡的问题尤其严重。
由于样本主要是影响训练过程,本申请还提出了对训练过程中使用的损失函数进行改进,增加平衡因子来改善正负样本不均衡的问题。例如,正样本较少,那么可以增强正样本检测结果对损失函数值的影响,减小负样本检测结果对损失函数值的影响。
在一些实施例中,上述目标检测方法中,基于平衡因子对二分类交叉熵损失函数进行调整,得到训练目标检测模型的平衡损失函数包括:利用正向平衡因子对二分类交叉熵损失函数的正向损失值进行调整,以及利用负向平衡因子对二分类交叉熵损失函数的负向损失值进行调整;其中,正向平衡因子与负向平衡因子的和为1。
二分类交叉熵损失函数为:
L=-log p-(1-y)log(1-p)
其中,p表示样本预测为正的概率,y为样本的类别标签,正样本为1,负样本为0。则log p为正向损失值,log(1-p)为负向损失值。
基于平衡因子对其进行调整,得到用于训练的平衡损失函数如下所示:
L=-α log p-(1-α)(1-y)log(1-p)
其中α为正向平衡因子,1-α为负向平衡因子。
本申请技术方案的效果经过实验验证,相较于基于YOLO-v4构建,未做网络结构调整以及训练调整的目标检测模型(对照方案),在多个指标上有着进步。
例如,在objectness置信度的改进方向上,将得到三个初始置信度,且从中取最大值作为最终置信度的方案作为实验方案,其较对照方案,在mAP(mean Average Precision,平均精度均值)和检测精度两个指标上均有1%以上的提升。
在损失函数的改进方向上,令α=0.25的方案相较于不设置α的方案,检测精度有了9%以上的提升。
本申请实施例还提供了一种目标检测装置,用于实现如上任一所述的目标检测方法。
具体地,图2示出了根据本申请一个实施例的目标检测装置的结构示意图。如图2所示,目标检测装置200包括:
构建单元210,用于基于YOLO-v4构建目标检测模型,在目标检测模型的每个网格单元中增加预测神经元,使每个网格单元具有多个预测神经元。
如果直接基于YOLO-v4构建模型,得到的模型中每个网格单元仅具有一个预测神经元,也只能得到一个objectness置信度。
而在本申请的技术方案中,在每个网格单元中增加预测神经元,使得每个网格单元在进行边界框检测时,能够得到该边界框的多个初始置信度,再通过一定的方式综合各初始置信度,得到最终置信度作为objectness置信度,从而提高了objectness置信度的精度。
网格单元220,用于利用目标检测模型,将用于目标检测的图像划分为多个网格,确定与每个网格对应的网格单元。
这里可以参考YOLO-v4的目标检测流程,例如将用于目标检测的图像划分为S×S个网格(S为正整数),每个网格对应一个网格单元。如果一个目标的中心落入一个网格内,则对应的网格单位负责对该目标进行预测。
检测单元230,用于基于各网格单元检测出与目标对应的边界框,由检测出边界框的网格单元中的多个预测神经元确定该边界框的多个初始置信度。
举例来说,要检测的目标共包含k个类别(例如有k种可能存在的缺陷),网格单元预测N个边界框,每个边界框的预测参数包括x、y、w、h、c0、c1、…、ck-1、conf0、conf1、…、confm-1。其中(x,y)为预测的边界框中心相对于网格的坐标,w、h是边界框相对于用于目标检测的图像的宽度、高度的比例,conf0、conf1、…、confm-1是预测输出的m个初始置信度(m为大于1的正整数,在一些实施例中优选为3),c0、c1、…、ck-1表示预测的该边界框属于某一类别的条件概率。
置信度调整单元240,用于根据每个边界框的多个初始置信度,得到相应边界框的最终置信度。
例如,可以设置一个函数,将多个初始置信度代入该函数中求解得到最终置信度,用来替代原本YOLO-v4中通过单一预测神经元输出的objectness置信度。
结果单元250,用于根据各边界框的最终置信度确定目标检测结果。
可见,图2所示的目标检测装置,通过改变以YOLO-v4为基础的目标检测模型的网络结构,使得目标检测模型中每个网格单元具备了多个可预测objectness置信度的预测神经元,从而在目标检测的过程中可以先得到多个初始置信度,再进一步确定最终置信度作为实际的objectness置信度,从而提升了objectness置信度的精度,在此基础上提升了目标检测的精度。
在一些实施例中,上述目标检测装置中,置信度调整单元240,用于将每个边界框的多个初始置信度的平均值,作为相应边界框的最终置信度。
在一些实施例中,上述目标检测装置中,置信度调整单元240,用于将每个边界框的多个初始置信度的最大值,作为相应边界框的最终置信度。
在一些实施例中,上述目标检测装置中,置信度调整单元240,用于将每个边界框的多个初始置信度的最小值,作为相应边界框的最终置信度。
在一些实施例中,上述目标检测装置中,结果单元250,用于对每个边界框,分别计算该边界框属于各类别的条件概率与该边界框的最终置信度的乘积,作为该边界框属于各类别的预测概率;根据各边界框属于各类别的预测概率确定目标检测结果。
在一些实施例中,上述目标检测装置还包括:训练单元,用于设置与样本均衡度相关的平衡因子,基于平衡因子对二分类交叉熵损失函数进行调整,得到训练目标检测模型的平衡损失函数,利用平衡损失函数,对目标检测模型进行训练。
在一些实施例中,上述目标检测装置中,训练单元,用于利用正向平衡因子对二分类交叉熵损失函数的正向损失值进行调整,以及利用负向平衡因子对二分类交叉熵损失函数的负向损失值进行调整;其中,正向平衡因子与负向平衡因子的和为1。
能够理解,上述目标检测装置,能够实现前述实施例中提供的目标检测方法的各个步骤,关于目标检测方法的相关阐释均适用于目标检测装置,此处不再赘述。
图3是本申请的一个实施例电子设备的结构示意图。请参考图3,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成目标检测装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
基于YOLO-v4构建目标检测模型,在目标检测模型的每个网格单元中增加预测神经元,使每个网格单元具有多个预测神经元;利用目标检测模型,将用于目标检测的图像划分为多个网格,确定与每个网格对应的网格单元;基于各网格单元检测出与目标对应的边界框,由检测出边界框的网格单元中的多个预测神经元确定该边界框的多个初始置信度;根据每个边界框的多个初始置信度,得到相应边界框的最终置信度;根据各边界框的最终置信度确定目标检测结果。
上述如本申请图1所示实施例揭示的目标检测方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1中目标检测方法,并实现目标检测装置在图2所示实施例的功能,本申请实施例在此不再赘述。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行图1所示实施例中目标检测方法,并具体用于执行:
基于YOLO-v4构建目标检测模型,在目标检测模型的每个网格单元中增加预测神经元,使每个网格单元具有多个预测神经元;利用目标检测模型,将用于目标检测的图像划分为多个网格,确定与每个网格对应的网格单元;基于各网格单元检测出与目标对应的边界框,由检测出边界框的网格单元中的多个预测神经元确定该边界框的多个初始置信度;根据每个边界框的多个初始置信度,得到相应边界框的最终置信度;根据各边界框的最终置信度确定目标检测结果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种目标检测方法,其特征在于,包括:
基于YOLO-v4构建目标检测模型,在所述目标检测模型的每个网格单元中增加预测神经元,使每个网格单元具有多个预测神经元;
利用所述目标检测模型,将用于目标检测的图像划分为多个网格,确定与每个网格对应的网格单元;
基于各网格单元检测出与目标对应的边界框,由检测出边界框的网格单元中的多个预测神经元确定该边界框的多个初始置信度;
根据每个边界框的多个初始置信度,得到相应边界框的最终置信度;
根据各边界框的最终置信度确定目标检测结果。
2.如权利要求1所述的方法,其特征在于,所述根据每个边界框的多个初始置信度,得到相应边界框的最终置信度包括:
将每个边界框的多个初始置信度的平均值,作为相应边界框的最终置信度。
3.如权利要求1所述的方法,其特征在于,所述根据每个边界框的多个初始置信度,得到相应边界框的最终置信度包括:
将每个边界框的多个初始置信度的最大值,作为相应边界框的最终置信度。
4.如权利要求1所述的方法,其特征在于,所述根据每个边界框的多个初始置信度,得到相应边界框的最终置信度包括:
将每个边界框的多个初始置信度的最小值,作为相应边界框的最终置信度。
5.如权利要求1所述的方法,其特征在于,所述根据各边界框的最终置信度确定目标检测结果包括:
对每个边界框,分别计算该边界框属于各类别的条件概率与该边界框的最终置信度的乘积,作为该边界框属于各类别的预测概率;
根据各边界框属于各类别的预测概率确定目标检测结果。
6.如权利要求1~5中任一项所述的方法,其特征在于,该方法还包括:
设置与样本均衡度相关的平衡因子;
基于所述平衡因子对二分类交叉熵损失函数进行调整,得到训练所述目标检测模型的平衡损失函数;
利用所述平衡损失函数,对所述目标检测模型进行训练。
7.如权利要求6所述的方法,其特征在于,所述基于所述平衡因子对二分类交叉熵损失函数进行调整,得到训练所述目标检测模型的平衡损失函数包括:
利用正向平衡因子对所述二分类交叉熵损失函数的正向损失值进行调整,以及利用负向平衡因子对所述二分类交叉熵损失函数的负向损失值进行调整;
其中,所述正向平衡因子与所述负向平衡因子的和为1。
8.一种目标检测装置,其特征在于,所述装置包括:
构建单元,用于基于YOLO-v4构建目标检测模型,在所述目标检测模型的每个网格单元中增加预测神经元,使每个网格单元具有多个预测神经元;
网格单元,用于利用所述目标检测模型,将用于目标检测的图像划分为多个网格,确定与每个网格对应的网格单元;
检测单元,用于基于各网格单元检测出与目标对应的边界框,由检测出边界框的网格单元中的多个预测神经元确定该边界框的多个初始置信度;
置信度调整单元,用于根据每个边界框的多个初始置信度,得到相应边界框的最终置信度;
结果单元,用于根据各边界框的最终置信度确定目标检测结果。
9.如权利要求8所述的装置,其特征在于,该装置还包括:
训练单元,用于设置与样本均衡度相关的平衡因子,基于所述平衡因子对二分类交叉熵损失函数进行调整,得到训练所述目标检测模型的平衡损失函数,利用所述平衡损失函数,对所述目标检测模型进行训练。
10.如权利要求9所述的装置,其特征在于,
所述训练单元,用于利用正向平衡因子对所述二分类交叉熵损失函数的正向损失值进行调整,以及利用负向平衡因子对所述二分类交叉熵损失函数的负向损失值进行调整;其中,所述正向平衡因子与所述负向平衡因子的和为1。
CN202110145436.XA 2021-02-02 2021-02-02 一种目标检测方法和装置 Active CN112836745B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110145436.XA CN112836745B (zh) 2021-02-02 2021-02-02 一种目标检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110145436.XA CN112836745B (zh) 2021-02-02 2021-02-02 一种目标检测方法和装置

Publications (2)

Publication Number Publication Date
CN112836745A true CN112836745A (zh) 2021-05-25
CN112836745B CN112836745B (zh) 2022-12-09

Family

ID=75931643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110145436.XA Active CN112836745B (zh) 2021-02-02 2021-02-02 一种目标检测方法和装置

Country Status (1)

Country Link
CN (1) CN112836745B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714316A (zh) * 2013-12-10 2014-04-09 小米科技有限责任公司 图像识别方法、装置及电子设备
CN109389068A (zh) * 2018-09-28 2019-02-26 百度在线网络技术(北京)有限公司 用于识别驾驶行为的方法和装置
CN110097568A (zh) * 2019-05-13 2019-08-06 中国石油大学(华东) 一种基于时空双分支网络的视频对象检测与分割方法
CN110532984A (zh) * 2019-09-02 2019-12-03 北京旷视科技有限公司 关键点检测方法、手势识别方法、装置及系统
CN111008631A (zh) * 2019-12-20 2020-04-14 浙江大华技术股份有限公司 图像的关联方法及装置、存储介质和电子装置
CN111444821A (zh) * 2020-03-24 2020-07-24 西北工业大学 一种城市道路标志自动识别方法
CN111582116A (zh) * 2020-04-29 2020-08-25 腾讯科技(深圳)有限公司 一种视频抹除痕迹检测方法、装置、设备和存储介质
CN112101434A (zh) * 2020-09-04 2020-12-18 河南大学 基于改进YOLO v3的红外图像弱小目标检测方法
CN112131933A (zh) * 2020-08-11 2020-12-25 安徽大学 一种基于改进yolo网络的快速行人检测方法与系统
CN112215795A (zh) * 2020-09-02 2021-01-12 苏州超集信息科技有限公司 一种基于深度学习的服务器部件智能检测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714316A (zh) * 2013-12-10 2014-04-09 小米科技有限责任公司 图像识别方法、装置及电子设备
CN109389068A (zh) * 2018-09-28 2019-02-26 百度在线网络技术(北京)有限公司 用于识别驾驶行为的方法和装置
CN110097568A (zh) * 2019-05-13 2019-08-06 中国石油大学(华东) 一种基于时空双分支网络的视频对象检测与分割方法
CN110532984A (zh) * 2019-09-02 2019-12-03 北京旷视科技有限公司 关键点检测方法、手势识别方法、装置及系统
CN111008631A (zh) * 2019-12-20 2020-04-14 浙江大华技术股份有限公司 图像的关联方法及装置、存储介质和电子装置
CN111444821A (zh) * 2020-03-24 2020-07-24 西北工业大学 一种城市道路标志自动识别方法
CN111582116A (zh) * 2020-04-29 2020-08-25 腾讯科技(深圳)有限公司 一种视频抹除痕迹检测方法、装置、设备和存储介质
CN112131933A (zh) * 2020-08-11 2020-12-25 安徽大学 一种基于改进yolo网络的快速行人检测方法与系统
CN112215795A (zh) * 2020-09-02 2021-01-12 苏州超集信息科技有限公司 一种基于深度学习的服务器部件智能检测方法
CN112101434A (zh) * 2020-09-04 2020-12-18 河南大学 基于改进YOLO v3的红外图像弱小目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
INFORICH: "YOLO系列:从V1到V4", 《360图书馆》 *
TSUNG-YI LIN ET AL.: "Focal Loss for Dense Object Detection", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *

Also Published As

Publication number Publication date
CN112836745B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
CN109063886B (zh) 一种异常检测方法、装置以及设备
CN111062413A (zh) 一种道路目标检测方法、装置、电子设备及存储介质
CN111428733B (zh) 基于语义特征空间转换的零样本目标检测方法及系统
CN109492674B (zh) 用于目标检测的ssd框架的生成方法及装置
CN112836751A (zh) 一种目标检测方法和装置
CN109582741B (zh) 特征数据处理方法和装置
CN110659770A (zh) 基于lstm模型的温度预测方法及装置
CN114943307A (zh) 一种模型训练的方法、装置、存储介质以及电子设备
CN113255671B (zh) 针对长宽比大物体的目标检测方法、系统、设备及介质
CN110414572B (zh) 一种图像识别的方法及装置
CN115712866A (zh) 数据处理方法、装置及设备
CN112766397B (zh) 一种分类网络及其实现方法和装置
CN112836745B (zh) 一种目标检测方法和装置
CN115567371B (zh) 一种异常检测方法、装置、设备及可读存储介质
CN112819100A (zh) 无人机平台多尺度目标检测方法和装置
CN112243247B (zh) 基站优化优先级确定方法、装置及计算设备
CN114397671B (zh) 目标的航向角平滑方法、装置及计算机可读存储介质
CN110796115A (zh) 图像检测方法、装置、电子设备及可读存储介质
CN115984671A (zh) 模型在线更新方法、装置、电子设备及可读存储介质
CN115079202A (zh) 激光雷达建图方法、装置及电子设备、存储介质
CN114066958A (zh) 目标的深度信息预测方法和装置、电子设备和存储介质
CN113902984A (zh) 场景分类模型的优化方法及装置
CN109325127B (zh) 一种风险识别方法和装置
CN111709996A (zh) 一种检测集装箱位置的方法及装置
CN111275095B (zh) 一种对象类型识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant