CN117649512A - 目标检测方法、装置、终端设备及存储介质 - Google Patents

目标检测方法、装置、终端设备及存储介质 Download PDF

Info

Publication number
CN117649512A
CN117649512A CN202311472299.6A CN202311472299A CN117649512A CN 117649512 A CN117649512 A CN 117649512A CN 202311472299 A CN202311472299 A CN 202311472299A CN 117649512 A CN117649512 A CN 117649512A
Authority
CN
China
Prior art keywords
image
detection
detected
training
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311472299.6A
Other languages
English (en)
Inventor
刘明
陈圳
苏云强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Jingyang Information Technology Co ltd
Original Assignee
Shenzhen Jingyang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Jingyang Information Technology Co ltd filed Critical Shenzhen Jingyang Information Technology Co ltd
Priority to CN202311472299.6A priority Critical patent/CN117649512A/zh
Publication of CN117649512A publication Critical patent/CN117649512A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本申请实施例适用于计算机技术领域,提供了一种目标检测方法、装置、终端设备及存储介质,所述方法包括:获取用户输入的待检测图像;将所述待检测图像输入至预设的目标检测模型,以在所述待检测图像中至少一个第一图像区域标记检测框;所述目标检测模型包括N个所述对象类型对应的特征输出模块;各个所述特征输出模块用于在所述待检测图像中包含所述特征输出模块对应的所述对象类型的第一拍摄对象时,确定所述第一拍摄对象对应的所述检测框为所述特征输出模块对应的对象类型;所述N为所述目标检测模型可检测的对象类型的总数。通过本实施例提供的方法,可以提高高重叠度且大小相近的第一拍摄对象的分类准确率。

Description

目标检测方法、装置、终端设备及存储介质
技术领域
本申请实施例属于计算机技术领域,特别是涉及一种目标检测方法、装置、终端设备及存储介质。
背景技术
现有的图像检测算法主要由特征提取模块和输出模块构成。其中,图像检测算法中的特征提取模块可以由多个不同的卷积层构成。在模型训练过程中,开发人员可以将包含至少一个标注锚框的训练图像输入至图像检测算法,图像检测算法中的特征提取模块可以通过多次卷积提取出待检测图像中的图像特征,并生成各个图像特征对应的候选锚框。而后,特征提取模块可以将提取出的图像特征和候选锚框传输至输出模块,输出模块可以通过非最大值抑制算法,根据各个候选锚框对应的置信度,从多个候选锚框中确定图像特征对应的至少一个检测锚框。
在现有技术中,由于图像检测算法主要通过检测锚框的中心点坐标和检测锚框的长宽表示各个图像特征对应的检测锚框。因此,当待训练图像中存在两个大小相近且中心位置重叠的不同图像特征时,特征提取模块会将上述两个不同的图像特征通过同一个检测锚框进行标记。并且,对于每个检测锚框,由于输出模块只能根据检测锚框对应的交并比确定检测锚框所属的一个特征类别,因此图像检测算法会将上述两个不同的图像特征认定为属于同一特征类别,从而影响图像特征识别的准确性。因此现有的图像检测算法无法对高重叠度且大小相近的图像特征进行准确分类。
发明内容
有鉴于此,本申请实施例提供了一种目标检测方法、装置、终端设备及存储介质,用以提高高重叠度且大小相近的图像特征的分类准确率。
本申请实施例的第一方面提供了一种目标检测方法,包括:
获取用户输入的待检测图像;
将所述待检测图像输入至预设的目标检测模型,以在所述待检测图像中至少一个第一图像区域标记检测框;所述第一图像区域为所述目标检测模型可识别的对象类型的第一拍摄对象所在的区域;所述目标检测模型包括N个所述对象类型对应的特征输出模块;各个所述特征输出模块用于在所述待检测图像中包含所述特征输出模块对应的所述对象类型的第一拍摄对象时,确定所述第一拍摄对象对应的所述检测框为所述特征输出模块对应的对象类型;所述N为所述目标检测模型可检测的对象类型的总数。
在第一方面的一种可能的实现方式中,在所述将所述待检测图像输入至预设的目标检测模型,以在所述待检测图像中至少一个第一图像区域标记检测框之前,包括:
将训练图像输入至训练模型,通过所述训练模型对所述训练图像进行处理,以在所述训练图像中至少一个第二图像区域标记初始框;所述训练模型包括N个所述特征输出模块;所述训练图像包括所述训练图像中各个第二拍摄对象所在区域的期望检测框;
基于所有所述初始框与所述期望检测框,确定所述训练模型的目标损失值;
基于所述目标损失值对所述训练模型进行更新,直至所述目标损失值满足预设的训练停止条件,将所述目标损失值满足所述训练停止条件时对应的所述训练模型作为所述目标检测模型。
在第一方面的另一种可能的实现方式中,在所述基于所有所述初始框与所述期望检测框,确定所述训练模型的目标损失值,包括:
基于预设的损失函数分别确定所述各个所述特征输出模块输出的初始框与所述特征输出模块对应的对象类型的期望检测框之间的初始损失值;
基于各个所述对象类型对应的特征权重对所有所述初始损失值进行加权求和,生成所述训练模型对应的所述目标损失值。
在第一方面的另一种可能的实现方式中,在所述基于各个所述对象类型对应的特征权重对所有所述初始损失值进行加权求和,生成所述训练模型对应的所述目标损失值之前,还包括:
基于所述训练图像中各个对象类型对应的第二拍摄对象总数、各个对象类型对应的超参数和各个对象类型对应的分类权重确定所述各个对象类型对应的所述特征权重;所述分类权重可以用于表示各个对象类型对应的重要性。
在第一方面的另一种可能的实现方式中,在所述将所述待检测图像输入至预设的目标检测模型,以在所述待检测图像中至少一个第一图像区域标记检测框中,包括:
通过所述特征提取模块中的多个卷积层对所述待检测图像进行特征提取,以在生成至少一个所述检测框;
将所述检测框分别输入至所述各个所述特征输出模块中,以通过各个所述特征输出模块确定所述检测框对应的对象类型。
在第一方面的另一种可能的实现方式中,在所述目标检测模型包括N个所述对象类型对应的神经网络,所述将所述待检测图像输入至预设的目标检测模型,以在所述待检测图像中至少一个第一图像区域标记检测框,包括:
将所述待检测图像分别输入至各个所述神经网络中,以通过各个所述神经网络分别在所述待检测图像中包含所述神经网络对应的所述对象类型的第一拍摄对象时,在所述待检测图像中标记所述神经网络对应的所述对象类型的检测框。
在第一方面的另一种可能的实现方式中,在所述目标检测模型包括N个神经网络,所述将所述待检测图像输入至预设的目标检测模型,以在所述待检测图像中至少一个第一图像区域标记检测框,包括:
将所述待检测图像输入至第一神经网络中,以通过所述第一神经网络在第一对象类型的第一拍摄对象所在区域中标记第一检测框;所述第一神经网络为N个神经网络中的一个神经网络;
将所述第一检测框所在第一图像区域分别输入至各个第二神经网络,以通过所述第二神经网络确定所述第一图像区域是否包含所述第二神经网络对应的第二对象类型对应的第一拍摄对象;所述第二神经网络为所述N个神经网络中除所述第一神经网络外的其他神经网络。
本申请实施例的第二方面提供了一种目标检测装置,包括:
图像获取模块,用于获取用户输入的待检测图像;
检测模块,用于将所述待检测图像输入至预设的目标检测模型,以在所述待检测图像中至少一个第一图像区域标记检测框;所述第一图像区域为所述目标检测模型可识别的对象类型的第一拍摄对象所在的区域;所述目标检测模型包括N个所述对象类型对应的特征输出模块;各个所述特征输出模块用于在所述待检测图像中包含所述特征输出模块对应的所述对象类型的第一拍摄对象时,确定所述第一拍摄对象对应的所述检测框为所述特征输出模块对应的对象类型;所述N为所述目标检测模型可检测的对象类型的总数。
本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的目标检测方法。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的目标检测方法。
本申请实施例的第五方面提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行上述第一方面所述的目标检测方法。
与现有技术相比,本申请实施例具有以下优点:
在本申请实施例中,终端设备可以获取用户输入的待检测图像;终端设备在获取到待检测图像后,可以将获取到的待检测图像输入至用户预先设定的目标检测模型中;终端设备可以通过目标检测模型在待检测图像的至少一个第一图像区域中标记检测框;其中,待检测图像中的第一图像区域可以为目标检测模型可识别的对象类型的第一拍摄对象所在的区域;终端设备中的目标检测模型可以包括N个对象类型对应的特征输出模块;N可以为目标检测模型可检测的对象类型的总数;目标检测模型中的各个特征输出模块可以在待检测图像中包含特征输出模块对应的对象类型的第一拍摄对象时,确定该第一拍摄对象对应的检测框为特征输出模块对应的对象类型。通过本实施例提供的方法,可以提高对图像中具有高重叠度且形状大小相近的多个第一拍摄对象进行分类时的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的YOLOv5算法目标分配示意图;
图2是本申请实施例提供的一种目标检测方法的示意图;
图3是本申请实施例提供的一种检测框示意图;
图4是本申请实施例提供的另一种目标检测方法的示意图;
图5是本申请实施例提供的另一种目标检测方法的示意图;
图6是本申请实施例提供的一种目标检测模型的模型结构示意图;
图7是本申请实施例提供的一种原始YOLOv5模型中的头部网络结构示意图;
图8是本申请实施例提供的一种增加检测模块后的头部网络结构示意图;
图9是本申请实施例提供的另一种目标检测方法的示意图;
图10是本申请实施例提供的另一种目标检测模型的模型结构示意图;
图11是本申请实施例提供的另一种目标检测方法的示意图;
图12是本申请实施例提供的另一种目标检测模型的模型结构示意图;
图13是本申请实施例提供的一种目标检测装置的示意图;
图14是本申请实施例提供的一种终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
目标检测技术是计算机视觉技术和数字图像处理技术的结合而成的技术,被广泛应用于机器人导航、智能视频监控、工业检测、人机交互、航空航天等诸多领域。目标检测技术可以快速地对用户输入的图像进行自动检测,从图像中识别出拍摄对象,并对拍摄对象进行分析得到目标检测结果。因此,用户只需要将待检测的图像输入到安装有目标检测程序的电子设备中便可得到目标检测结果,无需用户自行对图像进行逐一检测分析,可以减少人力资源的消耗,在人机交互技术中具有重要的现实意义。
人脸和人头是人机交互技术中的重点关注目标,人脸检测和人头检测早已成为机器视觉重点解决和研究问题。在早期的人机交互技术中,开发者常常使用特征工程人为设计特征的方法来进行人脸检测和人头检测。但随着互联网普及发展以及算力的大幅提升,限制深度学习发展的算力障碍和数据障碍两大障碍得以扫除,从此深度学习推向高速发展车道。目前深度学习研究和应用在各个领域都取得了丰硕的成果和巨大的成功。深度学习算法在目标检测方向的应用也是百花齐放,涌现出不少优秀算法。其中YOLO(You Lookonce)算法就是目标检测方向中最具代表性的深度学习算法,YOLO算法以其高精度易用性高性能得到普遍应用。在YOLO算法中YOLOv5算法是应用最为广泛的一个版本,YOLOv5算法可以同时支持多类目标检测,因此YOLOv5算法也被广泛应用于人脸检测和人头检测中,但现有的YOLOv5算法对于重叠目标检测的处理依然有局限。
目前关于重叠目标检测的研究并不多,部分目标检测算法设计时会考虑重叠目标检测但均未深入处理,且现有的目标检测算法仅能处理长宽大小不同的重叠目标。例如,为了能够处理重叠目标框,FCOS算法在目标分配时可以根据人为设置的长宽范围限制来将目标分配到不同的下采样检测输出头上,以规避目标重叠时,不同目标被分配到同一个下采样检测输出头而引起的冲突。
YOLOv5算法则是通过限制目标与锚框的长宽比值来对重叠目标进行分配的。YOLOv5算法可以将不同长宽大小的目标分配到不同的下采样检测输出模块上。如图1所示,为本申请实施例提供的YOLOv5算法目标分配示意图。参见图1,在YOLOv5算法的任意一次训练过程中,YOLOv5算法在生成多个候选锚框后,可以根据网格单元逐一计算目标锚框和各个候选锚框之间的长宽比值。而后,YOLOv5算法可以取长宽比值的最大值对应的候选锚框作为当前训练中的检测锚框,并将待检测目标分配到该检测锚框。
YOLOv5算法在为检测锚框分配待检测目标时,可以将区域重叠的人脸和人头带入YOLOv5算法的目标分配算进行计算,会发现当待检测目标大小相近中心位置重叠时通过分配算法计算的结果分配的坐标位置会几乎重叠,导致同一个特征图上同一个位置会被分配到2个正样本,但这2个待检测目标的大小不一样且2个待检测目标的对象类型不一样。与此同时,YOLOv5算法的输出可以为xywh+conf+cls,其中xy可以表示检测锚框的坐标,wh可以表检测锚框的长宽比值,conf可以表示检测锚框对应的置信度,cls可以表示检测锚框对应的待检测目标的对象类型。即,YOLOv5算法的每个输出仅能表达一个检测锚框的大小和其对应的对象类型。因此,现有的YOLOv5算法容易导致一个检测锚框上被分配了2个对象类型不同且大小不一样的待检测目标,在训练时必然造成目标冲突。即使在训练过程中强行收敛,YOLOv5算法输出的检测锚框和检测锚框对应的对象类型也是不准确的。因此,现有的YOLOv5算法无法直接应用于人脸和人头的检测任务。
而YOLOx算法,YOLOv6算法等其他无锚检测的目标分配算法则通过对数据训练后的推理结果进行综合评估,并取得分较高的预测目标作为分配依据。因此YOLOx算法,YOLOv6算法等其他无锚检测的目标分配算法未对重叠目标进行任何处理。综上所述,目前检测算法无论是有锚还是无锚都无法处理目标长宽接近中心重叠的目标检测框分配问题。
下面通过具体实施例来说明本申请的技术方案。
参照图2,示出了本申请实施例提供的一种目标检测方法的示意图,该目标检测方法可以应用于终端设备。其中,该终端设备可以位计算机电脑、平板电脑、智能手机、大型服务器等可以安装目标检测程序的电子设备。上述目标检测方法具体可以包括如下步骤:
S201、获取用户输入的待检测图像。
在本实施例中,当用户需要对拍摄的图像进行目标检测时,可以将待检测图像输入至安装有目标检测程序的终端设备中。用户还可以向终端设备发起检测指令。终端设备在接收到用户发起的检测指令后,可以通过用户预先设定的采集设备获取待检测图像。根据检测指令中的检测区域信息确定待检测区域对应的至少一个采集设备,并向待检测区域中的采集设备发送拍摄指令。采集设备在接收到服务器发送的拍摄指令后,可以开始按照用户预先设定的时间间隔定期拍摄待检测图像。采集设备可以通过图像传输通道将拍摄到的待检测图像传输到终端设备中。
S202、将所述待检测图像输入至预设的目标检测模型,以在所述待检测图像中至少一个第一图像区域标记检测框;所述第一图像区域为所述目标检测模型可识别的对象类型的第一拍摄对象所在的区域;所述目标检测模型包括N个所述对象类型对应的特征输出模块;各个所述特征输出模块用于在所述待检测图像中包含所述特征输出模块对应的所述对象类型的第一拍摄对象时,确定所述第一拍摄对象对应的所述检测框为所述特征输出模块对应的对象类型;所述N为所述目标检测模型可检测的对象类型的总数。
在本实施例中,终端设备在接收到待检测图像后,可以将待检测图像输入到用户预先设置的目标检测模型中,以通过目标检测模型在待检测图像的至少一个第一图像区域中标记检测框。其中,目标检测模型标记检测框的第一图像区域可以为目标检测模型可识别的对象类型的第一拍摄对象所在的区域。参见图3,示出了本申请实施例提供的一种检测框示意图。如图3所示,当目标检测模型为用于执行人头人脸检测任务的模型时,目标检测模型可以在识别出对象类型为人头的第一拍摄对象时,在人头所在的第一图像区域标记检测框,如图3中的检测框B。其中,检测框B内的物体即为对象类型为人头的第一拍摄对象,检测框B内的区域即为对象类型为人头的第一拍摄对象所在的第一图像区域。目标检测模型还可以在识别出对象类型为人脸的第一拍摄对象时,在人脸所在的第一图像区域标记检测框,如图3中的检测框A。其中,检测框A内的物体即为对象类型为人脸的第一拍摄对象,检测框A内的区域即为对象类型为人脸的第一拍摄对象所在的第一图像区域。
终端设备中的目标检测模型可以包括N个对象类型对应的特征输出模块。其中,N可以为目标检测模型可检测的对象类型的总数。目标检测模型中的各个特征输出模块可以对应一种目标检测模型可检测的对象类型。特征输出模块可以在待检测图像中包含特征输出模块对应的对象类型的第一拍摄对象时,确定第一拍摄对象对应的检测框为特征输出模块对应的对象类型。
例如,当目标检测模型应用于人头和人脸的检测任务时,目标检测模型可检测的对象类型可以包括人头类型和人脸类型,N可以为2。此时,目标检测模型中可以包括用于输出人脸类型的人脸输出模块和用于输出人头类型的人头输出模块。其中,人脸输出模块可以用于在待检测图像中包含人脸类型的第一拍摄对象时,确定第一拍摄对象对应的检测框为人脸类型。人头输出模块可以用于在待检测图像中包含人头类型的第一拍摄对象时,确定第一拍摄对象对应的检测框为人头类型。当用户输入的待检测图像既不存在人头类型的第一拍摄对象,也不存在人脸类型的第一拍摄对象时,目标检测模型可以直接输出不带检测框的待检测图像。
在一种可能的实现方式中,终端设备可以通过目标检测模型对待检测图像进行目标检测,并生成关于待检测图像对应的目标检测结果。其中,目标检测模型生成的目标检测结果可以包括待检测图像上的至少一个检测框、检测框对应的对象类型和检测框对应的置信度。其中,检测框可以用于在待检测图像中框出第一拍摄对象,对象类型可以用于表示检测框待框出的第一拍摄对象对应的类型,置信度可以用于表示检测框待框出的第一拍摄对象属于当前识别的对象类型的可能性。
在本实施例中,终端设备在获取到用户输入的待检测图像后,可以将待检测图像输入至包含N个特征输出模块的目标检测模型中进行目标检测。目标检测模型可以在第一拍摄对象所在的区域标记检测框,并通过特征输出模块确定各个检测框对应的对象类型。其中,目标检测模型中的任意一个特征输出模块,可以在待检测图像包含该特征输出模块对应的对象类型的第一拍摄对象时,确定该第一拍摄对象对应的检测框为其对应的对象类型。由于本申请实施例提供的目标检测模型中包含多个特征输出模块,且各个特征输出模块均可以在待检测图像包含其对应的对象类型的第一拍摄对象时输出相应的目标检测结果。因此,通过本实施例提供的方法,可以对高重叠度且大小相近的第一拍摄对象进行准确分类,从而提高目标检测模型的检测准确性。
图4示出了本申请第二实施例提供的一种目标检测方法S202的具体实现流程图。参见图4,相较于图2所述实施例,本实施例提供的一种目标检测方法中S202之前,包括:S401~S403,具体详述如下:
S401、将训练图像输入至训练模型,通过所述训练模型对所述训练图像进行处理,以在所述训练图像中至少一个第二图像区域标记初始框;所述训练模型包括N个所述特征输出模块;所述训练图像包括所述训练图像中各个第二拍摄对象所在区域的期望检测框。
在本实施例中,终端设备在使用目标检测模型对待检测图像进行目标检测之前,可以先获取用户输入的训练模型和训练图像。其中,用户输入的训练图像中可以包含至少一个期望检测框和至少一个第二拍摄对象。训练图像中的期望检测框可以用于在训练图像中标记出各个第二拍摄对象所在的区域。例如,目标检测模型是用于执行人头人脸检测任务的模型时,训练图像中的第二拍摄对象可以为人头或人脸。终端设备可以将训练图像输入到训练模型中,以通过训练模型对训练样本中的训练图像进行处理。训练模型可以在所述训练图像中至少一个第二图像区域标记初始框。
在一种可能的实现方式中,终端设备在获取到用户输入的训练图像后,可以通过预先设置的数据增强算法来对训练图像进行数据预处理。在执行数据增强算法时,终端设备可以从多张训练图像中随机选取出四张训练图像,并将选取出的四张图像按照预先设置的拼接方式拼接起来,生成样本图。终端设备可以在样本图中随机选取一个点作为中心点,并中心点为裁剪中心,以预先设定的图片大小作为裁剪尺寸对样本图进行图片裁剪,生成数据增强图片。终端设备可以重复执行多次上述数据增强算法生成多张数据增强图片。而后,终端设备可以将数据增强图片输入到训练模型中进行处理,以在训练图像中标记初始框。
在一种可能的实现方式中,终端设备可以对多个训练图像进行旋转、翻转、改变色调和调整饱和度、曝光量等多种图片处理。通过对各个训练图像进行图片处理,可以在数量有限的原始训练帧的基础上生成大量训练图像。
例如,终端设备在获取到多个训练图像后,用户可以使用Mosaic数据增强算法对训练图像进行处理。通过Mosaic数据增强算法终端设备可以对任意四张训练图像进行随机平移、随机缩放、随机排列等多种图片处理操作,经过多种图片处理操作后的任意四张训练图像可以被拼接在一起,成为一张训练图像。得到多张训练图像后,用户可以通过预设的标注应用(如Labelimg标注软件)对训练图像中的训练对象进行标注。预设的标注应用可以通过对象边界框标注出任意训练图像中的所有第二拍摄对象,并通过对对象边界框添加类型标签的方式,标注出训练图像中的各个第二拍摄对象对应的对象类型。
S402、基于所有所述初始框与所述期望检测框,确定所述训练模型的目标损失值。
在本实施例中,在任意一次模型训练过程中,终端设备在通过训练模型生成训练样本对应的初始框后,可以将初始框和期望检测框输入到用户预先设定的损失函数中。终端设备可以通过损失函数确定训练模型的目标损失值。
在一种可能的实现方式中,训练图像的各个期望检测框可以包括该期望检测框对应的期望对象类型和期望置信度。终端设备将训练图像输入至训练模型后,还可以通过训练模型生成各个初始框对应的初始对象类型,因此初始框和期望检测框之间的目标损失值可以为锚框损失值、类别损失值和置信度损失值之和。其中,终端设备在计算训练模型的目标损失值时,可以将训练图像划分为M个网格。终端设备可以分别计算每个网格中的锚框损失值、类别损失值和置信度损失值,而后,终端设备可以根据所有网络中锚框损失值、类别损失值和置信度损失值确定当前的训练模型对应的目标损失值。
在本实施例中,损失函数具体可以为:
其中,Ltatal可以用于表示当前的训练模型对应的目标损失值。M可以用于表示训练图像被划分的网格总数。LM,box可以用于表示训练图像中第M网格对应的锚框损失值,λ1可以用于表示锚框损失权重。LM,obj可以用于表示训练图像中第M网格对应的置信度损失值,λ2可以用于表示置信度损失权重,置信度可以用于表示所述网格中存在第二拍摄对象的可能性。LM,cls可以用于表示训练图像中第M网格对应的分类损失值。λ3可以用于表示分类损失权重。
其中,置信度损失值可以由用户预先设置的置信度损失函数根据训练样本中正样本概率和初始置信度计算而成。其中,训练样本中可以包括多个训练图像,各个训练图像中可以包括正样本和负样本。训练图像中的正样本可以为包括第二拍摄对象的图像。训练图像中的负样本可以为不包括第二拍摄对象的图像。例如,当目标检测模型是用于执行人头人脸检测任务的模型时,训练图像中的正样本可以为包括人头和/或人脸的图像;训练图像中的负样本可以为不包括人头和人脸的图像。具体地,正样本中人脸对应的期望检测框的标签可以为0,人头对应的期望检测框的标签可以为1。其中,分类损失值可以由终端设备通过,将初始置信度和训练图像对应的期望置信度输入用户预先设置的分类损失函数的方式计算得到。
在一种可能的实现方式中,锚框损失值具体可以通过下述公式进行计算:
其中,IoU可以用于表示初始框与期望检测框的重叠度;b可以用于表示初始框;bgt可以用于表示期望检测框;ρ2(b,bgt)可以用于表示初始框与期望检测框两者的中心点距离;v可以用于表示初始框与期望检测框两者之间的几何损失值;α可以用于表示几何损失值的权重参数。
在一种可能的实现方式中,重叠度IoU可以通过下述公式进行计算:
在一种可能的实现方式中几何损失值v可以通过下述公式进行计算:
其中,Wgt可以用于表示期望检测框的宽;hgt可以用于表示期望检测框的高;W可以用于表示初始框的宽;h可以用于表示初始框的高。
在一种可能的实现方式中,终端设备中的训练模型可以包括N个特征输出模块,各个特征输出模块用于输出其对应的对象类型的初始框。在模型训练过程中,对于任意一张训练图像,终端设备在通过特征输出模块生成该训练图像对应的初始框后,可以通过用户预先设定的损失函数分别确定各个特征输出模块输出的初始框与其对应的对象类型的期望检测框之间的初始损失值。
例如,当目标检测模型是用于执行人头人脸检测任务的模型时,用户输入的训练模型可以包括2个特征输出模块。训练模型中的第一特征输出模块可以用于输出训练图像对应的人头初始框。训练模型中的第二特征输出模块可以用于输出训练图像对应的人脸初始框。终端设备在通过特征输出模块生成训练图像对应的初始框后,可以通过损失函数确定第一特征输出模块输出的人头初始框和训练图像中的人头期望检测框之间的第一初始损失值,终端设备还可以通过损失函数确定第二特征输出模块输出的人脸初始框和训练图像中的人脸期望检测框之间的第二初始损失值。
在一种可能的实现方式中,终端设备在确定出各个对象类型对应的初始损失值后,可以基于各个对象类型对应的特征权重对所有初始损失值进行加权求和,生成训练模型对应的目标损失值。例如,终端设备在确定出人头初始框和训练图像中的人头期望检测框之间的第一初始损失值,以及第二特征输出模块输出的人脸初始框和训练图像中的人脸期望检测框之间的第二初始损失值之后,可以根据人头对象类型对应的第一特征权重和人脸对象类型对应的第二特征权重,对第一初始损失值和第二初始损失值进行加权求和,以确定训练模型对应的目标损失值。
在一种可能的实现方式中,终端设备可以通过训练图像中各个对象类型对应的第二拍摄对象总数确定各个对象类型对应的特征权重。终端设备在获取到用户输入的所有训练图像后,可以根据各个训练图像中的期望检测框对应的标签总数确定各个对象类型对应的第二拍摄对象总数。例如,当训练图像中人脸对应的期望检测框的标签可以为0,人头对应的期望检测框的标签可以为1。终端设备可以通过统计标签为0的期望检测框的总数确定人脸对象类型对应的第二拍摄对象总数。终端设备还可以通过统计标签为1的期望检测框的总数确定人脸对象类型对应的第二拍摄对象总数。
终端设备在确定出各个对象类型对应的第二拍摄对象总数后,可以根据各个对象类型对应的超参数、各个对象类型对应的分类权重和各个对象类型对应的第二拍摄对象总数确定所述各个对象类型对应的特征权重。其中,任一对象类型对应的分类权重可以由开发人员预先设定,分类权重可以用于表示该对应的对象类型的重要性。具体地,当某一对象类型为关键对象类型时,其对应的分类权重可取大于1的数值,从而提高该对象类型在训练过程中的权重。当某一对象类型不为关键对象类型时,其对应的分类权重可取小于或等于1的数值,从而减少该对象类型在训练过程中的权重。任一对象类型对应的超参数可以由开发人员预先设定。对象类型对应的超参数可以用于调节该对象类型对应的特征权重的作用范围,以缓解不同对象类型的期望检测框数量不均衡的问题。
在一种可能的实现方式中,各个对象类型对应的特征权重可以通过下述公式进行计算。
其中,Wi可以用于表示第i对象类型对应的特征权重;ni可以用于表示第i对象类型对应的第二拍摄对象总数;N可以用于表示训练图像中所有第二拍摄对象的总数;H可以用于表示第i对象类型对应的分类权重。
在通过本实施例提供的方法,由于终端设备在计算出各个对象类型对应的初始损失值后,可以根据各个对象类型对应的特征权重对所有初始损失值进行加权求和,以确定出训练模型对应的目标损失值。且各个对象类型对应的特征权重是根据各个对象类型对应的第二拍摄对象总数计算得到的。因此,通过本实施例提供的方法,可以使得训练模型在训练过程中更加关注数量较少的类别,从而缓解不同类别数量不均衡问题的影响。
S403、基于所述目标损失值对所述训练模型进行更新,直至所述目标损失值满足预设的训练停止条件,将所述目标损失值满足所述训练停止条件时对应的所述训练模型作为所述目标检测模型。
在本实施例中,在模型训练过程中,终端设备计算出目标损失值后,可以根据目标损失值对训练模型进行更新,并通过更新后的训练模型对训练图像进行再次处理,以生成新的目标损失值。终端设备可以不断执行上述S301至S303训练过程,直至训练模型生成满足用户预先设置的训练停止条件。若损失值满足训练停止条件,则终端设备可以停止对训练模型的训练,并将目标损失值满足训练停止条件时对应的训练模型作为目标检测模型。
在一种可能的实现方式中,终端设备可以根据锚框损失值、分类损失值和置信度损失值对训练模型进行更新。
在一种可能的实现方式中,终端设备通过训练模型生成任意一个目标损失值后,可以通过判断目标损失值是否小于用户预先设置的损失阈值的方式,确定当前的目标损失值是否满足用户预先设置的训练停止条件。若终端设备判定目标损失值小于损失阈值,则终端设备可以确定当前的目标损失值满足训练停止条件。终端设备可以停止对训练模型的训练,并将当前的训练模型作为目标检测模型。若终端设备判定目标当前的损失值大于或等于损失阈值,则终端设备可以确定目标损失值不满足训练停止条件,计算节点可以根据目标损失值对训练模型中的参数进行更新,并通过更新后的训练模型对训练图像进行处理,以生成新的目标损失值。
在本实施例中,终端设备中的目标检测模型由训练模型根据训练停止条件训练生成,因此可以保证目标检测模型生成的检测框的精确度。
图5示出了本申请第三实施例提供的一种目标检测方法S202的具体实现流程图。参见图5,相较于图2所述实施例,本实施例提供的一种目标检测方法中S202包括:S501~S502,具体详述如下:
S501、通过所述特征提取模块中的多个卷积层对所述待检测图像进行特征提取,以在生成至少一个所述检测框。
在本实施例中,目标检测模型可以包括特征提取模块和N个所述特征输出模块。特征提取模块中可以包括多个卷积层,终端设备将待检测图像输入至目标检测模型后,可以通过特征提取模块中的多个卷积层对待检测图像进行特征提取,以在生成至少一个检测框。
S502、将所述检测框分别输入至所述各个所述特征输出模块中,以通过各个所述特征输出模块确定所述检测框对应的对象类型。
在本实施例中,终端设备在通过特征提取模块中生成至少一个检测框之后,可以将生成的检测框分别输入至目标检测模型的各个特征输出模块中,以通过各个特征输出模块确定检测框对应的对象类型。当目标检测模型确定当前输入的任一检测框的对象类型为特征输出模块对应的对象类型时,该特征输出模块可以输出该检测框、该检测框对应的对象类型和该检测框对应的置信度。
在一种可能的实现方式中,参见图6,示出了本申请实施例提供的一种目标检测模型的模型结构示意图。如图6所示,当目标检测模型为YOLOv5模型时,目标检测模型可以包括输入端、主干网络和头部网络。其中,目标检测模型中的输入端可以用于对输入的待检测图像进行数据增强处理。
目标检测模型中的特征提取模块可以为YOLOv5模型中的主干网络。主干网络中可以包括Focus结构、BottleneckCSP结构和SPP结构等多种结构。主干网络可以通过多个卷积层提取待检测图像的图像特征。
目标检测模型中的头部网络可以用于对主干网络提取出的图像特征进行多尺度特征融合,并通过头部网络中的检测模块(detect模块)输出最终生成的检测框、各个检测框对应的对象类型和各个检测框对应的置信度。目标检测模型中的特征输出模块可以为YOLOv5模型头部网络中的检测模块。其中,目标检测模型中可以包括多个检测模块,各个检测模块对应的对象类型不同。
例如,当目标检测模型是用于执行人头人脸检测任务的模型时,目标检测模型中可以包括两个检测模块。目标检测模型中的第一检测模块可以用于输出对象类型为人头的检测框、该检测框对应的对象类型和该检测框对应的置信度。目标检测模型中的第二检测模块可以用于输出对象类型为人脸的检测框、该检测框对应的对象类型和该检测框对应的置信度。
参见图7,示出了本申请实施例提供的一种原始YOLOv5模型中的头部网络结构示意图。如图7所示,在原始的YOLOv5模型中,可以包括三个不同特征输出层,每个特征输出层均可以通过一个卷积函数输出不同尺度的特征图以及该特征图对应的检测框。其中,图7中的卷积函数具体可以为Conv2d函数,卷积单元具体可以为ConvBNSiLU单元,拼接层具体可以为Concat层,卷积神经网络模块具体可以为CSP结构模块。
参见图8,示出了本申请实施例提供的一种增加检测模块后的头部网络结构示意图。如图8所示,根据本申请实施例提供的方法,目标检测模型是用于执行人头人脸检测任务的模型时,开发人员可以在每个特征输出层中均增加一个检测模块。此时,每个特征输出层均可以包含两个卷积函数。各个特征输出层可以通过该特征输出层中的第一卷积函数输出对应尺度的人头的检测框,并通过该特征输出层中的第二卷积函数输出对应尺度的人脸的检测框。
在本实施例中,由于目标检测模型中包含N个特征输出模块,因此即使目标重叠时由于不同特征输出模块对应的对象类型不同,因此当存在两个对象类型不同的检测框时,终端设备可以将两个检测框分别通过其对应的对象类型的特征输出模块进行输出。因此,本实施例提供的方法可以避免由于目标重叠和目标分配算法的原因照成同一个位置被分配2个正样本的情况,使得目标大小几乎相等中心位置重叠不同类别的目标在目标分配和训练时可以同时表达,解决了表达能和表达目标不匹配引起的冲突。因此,本实施例提供的方法可以提高目标检测模型对于高重叠度目标的检测准确性。
图9示出了本申请第四实施例提供的一种目标检测方法S202的具体实现流程图。参见图9,相较于图2所述实施例,本实施例提供的一种目标检测方法中S202包括:S901,具体详述如下:
S901、将所述待检测图像分别输入至各个所述神经网络中,以通过各个所述神经网络分别在所述待检测图像中包含所述神经网络对应的所述对象类型的第一拍摄对象时,在所述待检测图像中标记所述神经网络对应的所述对象类型的检测框。
在本实施例中,如图10所示,示出了本申请实施例提供的另一种目标检测模型的模型结构示意图。参见图10,目标检测模型可以由N个神经网络构成,各个神经网络可以分别用于检测不同的对象类型的第一拍摄对象。终端设备在获取到用户输入的待检测图像后,可以同时将待检测图像分别输入值各个神经网络中,通过各个神经网络分别在待检测图像中包含神经网络对应的对象类型的第一拍摄对象时,在待检测图像中标记神经网络对应的对象类型的检测框。终端设备可以结合所有神经网络标记的检测框确定待检测图像对应的目标检测结果。
例如,当目标检测模型为用于执行人头人脸检测任务的模型时,目标检测模型可以由第一神经网络和第二神经网络构成。其中,第一神经网络可以用于检测对象类型为人头的第一拍摄对象,第二神经网络可以用于检测对象类型为人脸的第一拍摄对象。终端设备在获取到用户输入的待检测图像后,可以分别将待检测图像输入至第一神经网络和第二神经网络。终端设备可以通过第一神经网络在待检测图像中标记对象类型为人头的第一拍摄对象对应的检测框。终端设备还可以通过第二神经网络在待检测图像中标记对象类型为人脸的第一拍摄对象对应的检测框。终端设备可以根据第一神经网络标记的检测框和第二神经网络标记的检测框确定待检测图像对应的人头人脸检测结果。
需要说明的是,本申请实施例中用于构成目标检测模型的神经网络可以为YOLOv5算法、FCOS算法、Faster R-CNN算法等任意一种本领域技术人员公知的有锚框的目标检测网络。本申请实施例并不用于对构成目标检测模型的神经网络进行具体限定。
在本实施例中,终端设备可以通过多个神经网络构成的目标检测模型进行目标检测。其中,目标检测模型中各个神经网络可以分别用于对不同对象类型的第一拍摄对象进行目标检测。因此,通过本实施例提供的方法,可以提高对图像中具有高重叠度且形状大小相近的多个第一拍摄对象进行分类时的准确率。
图11示出了本申请第五实施例提供的一种目标检测方法S202的具体实现流程图。参见图11,相较于图2所述实施例,本实施例提供的一种目标检测方法中S202包括:S1101~S1102,具体详述如下:
S1101、将所述待检测图像输入至第一神经网络中,以通过所述第一神经网络在第一对象类型的第一拍摄对象所在区域中标记第一检测框;所述第一神经网络为N个神经网络中的一个神经网络。
在本实施例中,目标检测模型可以由N神经网络构成,各个神经网络可以分别用于检测不同的对象类型的第一拍摄对象。终端设备在获取到用户输入的待检测图像后,可以先将待检测图像输入至第一神经网络中进行目标检测。第一神经网络可以对用户输入的待检测图像进行特征提取,并根据提取出的图像特征在第一对象类型的第一拍摄对象所在区域中标记第一检测框。其中,第一神经网络为N个神经网络中的一个神经网络。具体地,第一神经网络可以用于检测面积较大的对象类型的第一拍摄对象。
如图12所示,示出了本申请实施例提供的又一种目标检测模型的模型结构示意图。参见图12,当目标检测模型为用于执行人头人脸检测任务的模型时,目标检测模型可以由第一神经网络和第二神经网络构成。由于人头的大小常大于人脸的大小,因此目标检测模型中的第一神经网络可以用于检测对象类型为人头的第一拍摄对象。
S1102、将所述第一检测框所在第一图像区域分别输入至各个第二神经网络,以通过所述第二神经网络确定所述第一图像区域是否包含所述第二神经网络对应的第二对象类型对应的第一拍摄对象;所述第二神经网络为所述N个神经网络中除所述第一神经网络外的其他神经网络。
在本实施例中,终端设备通过第一神经网络标记出第一检测框后,可以将第一检测框所在的第一图像区域分别输入至各个第二神经网络中,以通过第二神经网络确定第一图像区域型中是否包含第二神经网络对应的第二对象类的第一拍摄对象。各个第二神经网络可以对第一检测框所在的第一图像区域进行特征提取,并根据提取出的图像特征判断第一检测框所在的第一图像区域中是否存在该第二神经网络对应的对象类型的第一拍摄对象。若第二神经网络根据图像特征判定第一检测框所在的第一图像区域中存在该第二神经网络对应的第二对象类型的第一拍摄对象,则第二神经网络可以在第二对象类型的第一拍摄对象所在的区域标记第二检测框。若第二神经网络根据图像特征判定第一检测框所在的第一图像区域中不存在该第二神经网络对应的第二对象类型的第一拍摄对象,则第二神经网络可以直接输出第一检测框所在的第一图像区域。其中,第二神经网络可以为目标检测模型的N个神经网络中除第一神经网络外的其他神经网络。
例如,当目标检测模型为用于执行人头人脸检测任务的模型时,目标检测模型可以由第一神经网络和第二神经网络构成。目标检测模型中的第二神经网络可以检测对象类型为人脸的第一拍摄对象。终端设备通过第一神经网络标记出对象类型为人头的第一拍摄对象的第一检测框后,可以将第一检测框所在的第一图像区域输出至第二神经网络中。第二神经网络可以在第一检测框所在的第一图像区域存在检测对象类型为人脸的第一拍摄对象时,在第一检测框所在的第一图像区域中标记出对象类型为人脸的第一拍摄对象的第二检测框。
需要说明的是,本申请实施例中用于构成目标检测模型的神经网络可以为YOLOv5算法、FCOS算法、Faster R-CNN算法等任意一种本领域技术人员公知的有锚框的目标检测网络。本申请实施例并不用于对构成目标检测模型的神经网络进行具体限定。
在本实施例中,终端设备在通过第一神经网络在第一对象类型的第一拍摄对象的所在区域中标记出第一检测框之后,可以将第一检测框所在的第一图像区域分别输入至各个第二神经网络中。各个第二神经网络可以在第一图像区域中包含第二对象类型的第一拍摄对象时,在第一图像区域中标记第二对象类型的第一拍摄对象对应的第二检测框。通过本实施例提供的方法终端设备可以通过多个神经网络来对重叠目标进行多段检测。因此本实施例提供的方法可以提高高重叠度且大小相近的第一拍摄对象的分类准确率。
需要说明的是,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
参照图13,示出了本申请实施例提供的一种目标检测装置的示意图,具体可以包括图像获取模块1301和检测模块1302,其中:
图像获取模块1301,用于获取用户输入的待检测图像;
检测模块1302,用于将所述待检测图像输入至预设的目标检测模型,以在所述待检测图像中至少一个第一图像区域标记检测框;所述第一图像区域为所述目标检测模型可识别的对象类型的第一拍摄对象所在的区域;所述目标检测模型包括N个所述对象类型对应的特征输出模块;各个所述特征输出模块用于在所述待检测图像中包含所述特征输出模块对应的所述对象类型的第一拍摄对象时,确定所述第一拍摄对象对应的所述检测框为所述特征输出模块对应的对象类型;所述N为所述目标检测模型可检测的对象类型的总数。
其中,图像获取模块还可以用于,将训练图像输入至训练模型,通过所述训练模型对所述训练图像进行处理,以在所述训练图像中至少一个第二图像区域标记初始框;所述训练模型包括N个所述特征输出模块;所述训练图像包括所述训练图像中各个第二拍摄对象所在区域的期望检测框;基于所有所述初始框与所述期望检测框,确定所述训练模型的目标损失值;基于所述目标损失值对所述训练模型进行更新,直至所述目标损失值满足预设的训练停止条件,将所述目标损失值满足所述训练停止条件时对应的所述训练模型作为所述目标检测模型。
图像获取模块还可以用于,基于预设的损失函数分别确定所述各个所述特征输出模块输出的初始框与所述特征输出模块对应的对象类型的期望检测框之间的初始损失值;基于各个所述对象类型对应的特征权重对所有所述初始损失值进行加权求和,生成所述训练模型对应的所述目标损失值。
图像获取模块还可以用于,基于所述训练图像中各个对象类型对应的第二拍摄对象总数、各个对象类型对应的超参数和各个对象类型对应的分类权重确定所述各个对象类型对应的所述特征权重;所述分类权重可以用于表示各个对象类型对应的重要性。
图像获取模块还可以用于,通过所述特征提取模块中的多个卷积层对所述待检测图像进行特征提取,以在生成至少一个所述检测框;将所述检测框分别输入至所述各个所述特征输出模块中,以通过各个所述特征输出模块确定所述检测框对应的对象类型。
图像获取模块还可以用于,将所述待检测图像分别输入至各个所述神经网络中,以通过各个所述神经网络分别在所述待检测图像中包含所述神经网络对应的所述对象类型的第一拍摄对象时,在所述待检测图像中标记所述神经网络对应的所述对象类型的检测框。
图像获取模块还可以用于,将所述待检测图像输入至第一神经网络中,以通过所述第一神经网络在第一对象类型的第一拍摄对象所在区域中标记第一检测框;所述第一神经网络为N个神经网络中的一个神经网络;将所述第一检测框所在第一图像区域分别输入至各个第二神经网络,以通过所述第二神经网络确定所述第一图像区域是否包含所述第二神经网络对应的第二对象类型对应的第一拍摄对象;所述第二神经网络为所述N个神经网络中除所述第一神经网络外的其他神经网络。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述得比较简单,相关之处参见方法实施例部分的说明即可。
参照图14,示出了本申请实施例提供的一种终端设备的示意图。如图14所示,本申请实施例中的终端设备1400包括:处理器1410、存储器1420以及存储在所述存储器1420中并可在所述处理器1410上运行的计算机程序1421。所述处理器1410执行所述计算机程序1421时实现上述目标检测方法各个实施例中的步骤,例如图2所示的步骤S201至S202。或者,所述处理器1410执行所述计算机程序1421时实现上述各装置实施例中各模块/单元的功能,例如图13所示模块1301至1302的功能。
示例性的,所述计算机程序1421可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器1420中,并由所述处理器1410执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段可以用于描述所述计算机程序1421在所述终端设备1400中的执行过程。例如,所述计算机程序1421可以被分割成图像获取模块和检测模块,各模块具体功能如下:
图像获取模块,用于获取用户输入的待检测图像;
检测模块,用于将所述待检测图像输入至预设的目标检测模型,以在所述待检测图像中至少一个第一图像区域标记检测框;所述第一图像区域为所述目标检测模型可识别的对象类型的第一拍摄对象所在的区域;所述目标检测模型包括N个所述对象类型对应的特征输出模块;各个所述特征输出模块用于在所述待检测图像中包含所述特征输出模块对应的所述对象类型的第一拍摄对象时,确定所述第一拍摄对象对应的所述检测框为所述特征输出模块对应的对象类型;所述N为所述目标检测模型可检测的对象类型的总数。
所述终端设备1400可以是前述各个实施例中的终端设备。所述终端设备1400可包括,但不仅限于,处理器1410、存储器1420。本领域技术人员可以理解,图14仅仅是终端设备1400的一种示例,并不构成对终端设备1400的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备1400还可以包括输入输出设备、网络接入设备、总线等。
所述处理器1410可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器1420可以是所述终端设备1400的内部存储单元,例如终端设备1400的硬盘或内存。所述存储器1420也可以是所述终端设备1400的外部存储设备,例如所述终端设备1400上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等等。进一步地,所述存储器1420还可以既包括所述终端设备1400的内部存储单元也包括外部存储设备。所述存储器1420用于存储所述计算机程序1421以及所述终端设备1400所需的其他程序和数据。所述存储器1420还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还公开了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前述各个实施例所述的目标检测方法。
本申请实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如前述各个实施例所述的目标检测方法。
本申请实施例还公开了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行前述各个实施例所述的目标检测方法。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制。尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种目标检测方法,其特征在于,包括:
获取用户输入的待检测图像;
将所述待检测图像输入至预设的目标检测模型,以在所述待检测图像中至少一个第一图像区域标记检测框;所述第一图像区域为所述目标检测模型可识别的对象类型的第一拍摄对象所在的区域;所述目标检测模型包括N个所述对象类型对应的特征输出模块;各个所述特征输出模块用于在所述待检测图像中包含所述特征输出模块对应的所述对象类型的第一拍摄对象时,确定所述第一拍摄对象对应的所述检测框为所述特征输出模块对应的对象类型;所述N为所述目标检测模型可检测的对象类型的总数。
2.根据权利要求1所述的方法,其特征在于,在所述将所述待检测图像输入至预设的目标检测模型,以在所述待检测图像中至少一个第一图像区域标记检测框之前,包括:
将训练图像输入至训练模型,通过所述训练模型对所述训练图像进行处理,以在所述训练图像中至少一个第二图像区域标记初始框;所述训练模型包括N个所述特征输出模块;所述训练图像包括所述训练图像中各个第二拍摄对象所在区域的期望检测框;
基于所有所述初始框与所述期望检测框,确定所述训练模型的目标损失值;
基于所述目标损失值对所述训练模型进行更新,直至所述目标损失值满足预设的训练停止条件,将所述目标损失值满足所述训练停止条件时对应的所述训练模型作为所述目标检测模型。
3.根据权利要求2所述的方法,其特征在于,所述基于所有所述初始框与所述期望检测框,确定所述训练模型的目标损失值,包括:
基于预设的损失函数分别确定所述各个所述特征输出模块输出的初始框与所述特征输出模块对应的对象类型的期望检测框之间的初始损失值;
基于各个所述对象类型对应的特征权重对所有所述初始损失值进行加权求和,生成所述训练模型对应的所述目标损失值。
4.根据权利要求3所述的方法,其特征在于,所述基于各个所述对象类型对应的特征权重对所有所述初始损失值进行加权求和,生成所述训练模型对应的所述目标损失值之前,还包括:
基于所述训练图像中各个对象类型对应的第二拍摄对象总数、各个对象类型对应的超参数和各个对象类型对应的分类权重确定所述各个对象类型对应的所述特征权重;所述分类权重可以用于表示各个对象类型对应的重要性。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述目标检测模型包括特征提取模块和N个所述特征输出模块,所述将所述待检测图像输入至预设的目标检测模型,以在所述待检测图像中至少一个第一图像区域标记检测框,包括:
通过所述特征提取模块中的多个卷积层对所述待检测图像进行特征提取,以在生成至少一个所述检测框;
将所述检测框分别输入至所述各个所述特征输出模块中,以通过各个所述特征输出模块确定所述检测框对应的对象类型。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述目标检测模型包括N个所述对象类型对应的神经网络,所述将所述待检测图像输入至预设的目标检测模型,以在所述待检测图像中至少一个第一图像区域标记检测框,包括:
将所述待检测图像分别输入至各个所述神经网络中,以通过各个所述神经网络分别在所述待检测图像中包含所述神经网络对应的所述对象类型的第一拍摄对象时,在所述待检测图像中标记所述神经网络对应的所述对象类型的检测框。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述目标检测模型包括N个神经网络,所述将所述待检测图像输入至预设的目标检测模型,以在所述待检测图像中至少一个第一图像区域标记检测框,包括:
将所述待检测图像输入至第一神经网络中,以通过所述第一神经网络在第一对象类型的第一拍摄对象所在区域中标记第一检测框;所述第一神经网络为N个神经网络中的一个神经网络;
将所述第一检测框所在第一图像区域分别输入至各个第二神经网络,以通过所述第二神经网络确定所述第一图像区域是否包含所述第二神经网络对应的第二对象类型对应的第一拍摄对象;所述第二神经网络为所述N个神经网络中除所述第一神经网络外的其他神经网络。
8.一种目标检测装置,其特征在于,包括:
图像获取模块,用于获取用户输入的待检测图像;
检测模块,用于将所述待检测图像输入至预设的目标检测模型,以在所述待检测图像中至少一个第一图像区域标记检测框;所述第一图像区域为所述目标检测模型可识别的对象类型的第一拍摄对象所在的区域;所述目标检测模型包括N个所述对象类型对应的特征输出模块;各个所述特征输出模块用于在所述待检测图像中包含所述特征输出模块对应的所述对象类型的第一拍摄对象时,确定所述第一拍摄对象对应的所述检测框为所述特征输出模块对应的对象类型;所述N为所述目标检测模型可检测的对象类型的总数。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的目标检测方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的目标检测方法。
CN202311472299.6A 2023-11-06 2023-11-06 目标检测方法、装置、终端设备及存储介质 Pending CN117649512A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311472299.6A CN117649512A (zh) 2023-11-06 2023-11-06 目标检测方法、装置、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311472299.6A CN117649512A (zh) 2023-11-06 2023-11-06 目标检测方法、装置、终端设备及存储介质

Publications (1)

Publication Number Publication Date
CN117649512A true CN117649512A (zh) 2024-03-05

Family

ID=90042413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311472299.6A Pending CN117649512A (zh) 2023-11-06 2023-11-06 目标检测方法、装置、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN117649512A (zh)

Similar Documents

Publication Publication Date Title
CN108304835B (zh) 文字检测方法和装置
CN110378297B (zh) 基于深度学习的遥感图像目标检测方法、装置、及存储介质
CN112508975A (zh) 一种图像识别方法、装置、设备及存储介质
CN110378278B (zh) 神经网络的训练方法、对象搜索方法、装置以及电子设备
CN108986152B (zh) 一种基于差分图像的异物检测方法及装置
US20140247963A1 (en) Object detection via validation with visual search
CN113129335B (zh) 一种基于孪生网络的视觉跟踪算法及多模板更新策略
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN110910375A (zh) 基于半监督学习的检测模型训练方法、装置、设备及介质
CN114463603B (zh) 图像检测模型的训练方法、装置、电子设备及存储介质
CN115797735A (zh) 目标检测方法、装置、设备和存储介质
Huang et al. An object detection algorithm combining semantic and geometric information of the 3D point cloud
CN113506288A (zh) 基于transform注意力机制的肺结节检测方法及装置
CN114419428A (zh) 一种目标检测方法、目标检测装置和计算机可读存储介质
Rogelio et al. Object detection and segmentation using Deeplabv3 deep neural network for a portable X-ray source model
CN111428567B (zh) 一种基于仿射多任务回归的行人跟踪系统及方法
CN112614108A (zh) 基于深度学习检测甲状腺超声图像中结节的方法和装置
CN112699842A (zh) 宠物识别方法、装置、设备及计算机可读存储介质
CN114255493A (zh) 图像检测方法、人脸检测方法及装置、设备及存储介质
CN111814653A (zh) 一种视频中异常行为的检测方法、装置、设备及存储介质
CN111986299A (zh) 点云数据处理方法、装置、设备及存储介质
CN116052175A (zh) 文字检测方法、电子设备、存储介质及计算机程序产品
CN117649512A (zh) 目标检测方法、装置、终端设备及存储介质
Ding et al. Object as distribution
CN112750124B (zh) 模型生成、图像分割方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination