CN114943872A - 目标检测模型的训练方法、装置、目标检测方法、装置、介质及设备 - Google Patents

目标检测模型的训练方法、装置、目标检测方法、装置、介质及设备 Download PDF

Info

Publication number
CN114943872A
CN114943872A CN202210515401.5A CN202210515401A CN114943872A CN 114943872 A CN114943872 A CN 114943872A CN 202210515401 A CN202210515401 A CN 202210515401A CN 114943872 A CN114943872 A CN 114943872A
Authority
CN
China
Prior art keywords
detection
frame
human body
human
true value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210515401.5A
Other languages
English (en)
Inventor
易长渝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yuncong Enterprise Development Co ltd
Original Assignee
Shanghai Yuncong Enterprise Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yuncong Enterprise Development Co ltd filed Critical Shanghai Yuncong Enterprise Development Co ltd
Priority to CN202210515401.5A priority Critical patent/CN114943872A/zh
Publication of CN114943872A publication Critical patent/CN114943872A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/752Contour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种目标检测模型的训练方法,包括:获取包括多个对象的图片;对所述图片进行预处理;所述预处理包括:对多个对象进行标注,得到多个对象的人头真值框与人体真值框;对所述人头真值框和所述人体真值框进行匹配,确定属于同一个对象的人头真值框和人体真值框;基于所述人体真值框,得到与所述人体真值框匹配的躯干真值框,以完成对图片的标注;将完成标注的图片作为样本图片对初始神经网络模型进行训练,得到目标检测模型。本发明的目标检测模型带有躯干检测分支,在躯干检测分支输出人体检测框(即Sub1)和人头检测框(即Sub2)的情况下,人体召回率提升3个百分点以上,人头召回率提升0.5个百分点。

Description

目标检测模型的训练方法、装置、目标检测方法、装置、介质及 设备
技术领域
本发明涉及图像处理技术领域,具体涉及一种目标检测模型的训练方法、装置、目标检测方法、装置、介质及设备。
背景技术
在全结构化-行人检测的任务中,通常检测模型被部署在交通要道、大楼出入口等较高的摄像头位置,因而不可避免会遭遇行人密集的场合。对于相互靠近的行人人群,其人体往往被遮挡大部分,因此对人体检测带来相当大的难度。
除此之外,由于行人密集的场景中行人之间互相交叠遮挡,也会增加人体-人头的关联难度,导致行人A的人头与行人B的身体相关联的“张冠李戴”现象。
人体的漏检以及人体-人头错误关联问题,给后续的跟踪、识别都会造成较大的影响;因此保证被遮挡人体的检出率以及人体-人头关联的稳定性非常重要。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种目标检测模型的训练方法、装置、目标检测方法、装置、介质及设备,用于解决现有技术中的至少一个缺陷。
为实现上述目的及其他相关目的,本发明提供一种目标跟踪方法,包括:
获取包括多个对象的图片;
对所述图片进行预处理;所述预处理包括:
对多个对象进行标注,得到多个对象的人头真值框与人体真值框;对所述人头真值框和所述人体真值框进行匹配,确定属于同一个对象的人头真值框和人体真值框;基于所述人体真值框,得到与所述人体真值框匹配的躯干真值框,以完成对图片的标注;
将完成标注的图片作为样本图片对初始神经网络模型进行训练,得到目标检测模型。
可选地,所述对所述人头真值框和所述人体真值框进行匹配,包括:
通过所述人头真值框与所述人体真值框的IOU以及位置关系对所述人头真值框和所述人体真值框进行匹配。
可选地,所述目标检测模型包括人头检测分支、人体检测分支以及躯干检测分支;所述躯干检测分支的通道数为12*A,人头检测分支以及人体检测分支的通道数为4*A,其中,A表示锚框个数。
可选地,所述躯干检测分支以躯干真值框的区域、人头真值框的区域、人体真值框的区域作为输入,输出人体检测框、躯干检测框和人头检测框。
可选地,采用NMS方法对所述躯干检测框进行去重。
为实现上述目的及其他相关目的,本发明提供一种目标检测模型的训练装置,包括:
图片获取模块,用于获取包括多个对象的图片;
图片预处理模块,用于对所述图片进行预处理;所述预处理模块包括:
第一标注子模块,用于对多个对象进行标注,得到多个对象的人头真值框与人体真值框;
匹配子模块,用于对所述人头真值框和所述人体真值框进行匹配,确定属于同一个对象的人头真值框和人体真值框;
第二标注子模块,用于基于所述人体真值框,得到与所述人体真值框匹配的躯干真值框,以完成对图片的标注;
训练模块,用于将完成标注的图片作为样本图片对初始神经网络模型进行训练,得到目标检测模型。
可选地,所述匹配子模块通过所述人头真值框与所述人体真值框的IOU以及位置关系对所述人头真值框和所述人体真值框进行匹配。
可选地,所述目标检测模型包括人头检测分支、人体检测分支以及躯干检测分支;所述躯干检测分支的通道数为12*A,人头检测分支以及人体检测分支的通道数为4*A,其中,A表示锚框个数;所述躯干检测分支以躯干真值框的区域、人头真值框的区域、人体真值框的区域作为输入,输出人体检测框、躯干检测框和人头检测框。
可选地,还包括:去重模块,用于采用NMS方法对所述躯干检测框进行去重。
为实现上述目的及其他相关目的,本发明提供一种目标检测方法,包括:
获取待检测图片;
对所述待检测图片进行特征提取,得到人体生物特征,所述人体生物特征包括:人头特征、人体特征以及躯干特征;
基于所述生物特征,利用所述的目标检测模型对所述检测图片进行检测,得到目标对象。
为实现上述目的及其他相关目的,本发明提供一种目标检测装置,包括:
图片获取模块,用于获取待检测图片;
特征提取模块,用于对所述待检测图片进行特征提取,得到人体生物特征,所述人体生物特征包括:人头特征、人体特征以及躯干特征;
目标检测模块,用于基于所述生物特征,利用所述的目标检测模型对所述检测图片进行检测,得到目标对象。
为实现上述目的及其他相关目的,本发明提供一种电子设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行一个或多个所述的方法。
为实现上述目的及其他相关目的,本发明提供一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得设备执行一个或多个所述的方法。
如上所述,本发明的一种目标检测模型的训练方法、装置、目标检测方法、装置、介质及设备,具有以下有益效果:
本发明的一种目标检测模型的训练方法,包括:获取包括多个对象的图片;对所述图片进行预处理;所述预处理包括:对多个对象进行标注,得到多个对象的人头真值框与人体真值框;对所述人头真值框和所述人体真值框进行匹配,确定属于同一个对象的人头真值框和人体真值框;基于所述人体真值框,得到与所述人体真值框匹配的躯干真值框,以完成对图片的标注;将完成标注的图片作为样本图片对初始神经网络模型进行训练,得到目标检测模型。本发明的目标检测模型带有躯干检测分支,在躯干检测分支输出人体检测框(即Sub1)和人头检测框(即Sub2)的情况下,人体召回率提升3个百分点以上,人头召回率提升0.5个百分点。同时由于将人体-人头进行关联,可为下游的跟踪任务节省关联任务所需的计算量和时间。
图附说明
图1为本发明一实施例一种目标检测模型的训练方法的流程图;
图2为本发明另一实施例一种目标检测模型的训练方法的流程图;
图3为本发明一实施例一种目标检测模型的训练装置的流程图;
图4为本发明一实施例一种目标检测方法的流程图;
图5为本发明另一实施例一种目标检测方法的流程图;
图6为本发明一实施例一种目标检测装置的硬件结构示意图;
图7为本发明一实施例中终端设备的硬件结构示意图;
图8为本发明一实施例中终端设备的硬件结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
在全结构化-行人检测的任务中,通常检测模型被部署在交通要道、大楼出入口等较高的摄像头位置,因而不可避免会遭遇行人密集的场合。对于相互靠近的行人人群,其人体往往被遮挡大部分,因此对人体检测带来相当大的难度。
除此之外,由于行人密集的场景中行人之间互相交叠遮挡,也会增加人体-人头的关联难度,导致行人A的人头与行人B的身体相关联的“张冠李戴”现象。
人体的漏检以及人体-人头错误关联问题,给后续的跟踪、识别都会造成较大的影响;因此保证被遮挡人体的检出率以及人体-人头关联的稳定性非常重要。
对于部分被物体/其他人体遮挡的人体的检测,常见的有以下两种思路:
一是,增加训练中被遮挡人体的比例:最常见的方法是采用随机遮挡的数据增强,即在向网络输入训练的图片之前,随机将图片中的人体的某一部分盖起来,以模拟该人体被其他人或者物体遮挡的情境。但这有一大弊端,由于这个盖住人体的区域,其形状往往被设计为矩形,像素也往往设计为固定值,因此它并不能模仿真实的遮挡情况;真实情况下遮挡人体的人或物有可能是千奇百怪的,甚至是不连续的。即时该方法能一定程度上加强网络学习能力,使其更容易从人体的可见部分预测整体,但面对各种各样的真实遮挡情境往往束手无策。
二是,同时预测人体的可见区域已及整个人体:即对于每个人体预测两个检测框,一个是该人体的可见区域、另一个包括该人体的全部区域(包含被遮挡部分)。这样做的一大问题是大大增加了标注的难度,使得在标注数据时每个人体都要标两个框,且对于被遮挡的人体,完整的人体框更难标,无疑是一种很费成本的解决办法。为了解决上述问题,可以在模型训练过程中,先将训练集中属于同一个行人的人头与人体GroundTruth框(真值框)关联在一起,并且给每个人体生成一个躯干GroundTruth框(躯干框包括人头、肩部以及人的上半身躯体,到腰部以下截止)。生成躯干框的途径可以是训练一个专门检测躯干的小型检测器,也可以通过人工标注,为了节约成本选择了少量标注、其余用检测生成的方式。
以结构化行人三类检测器为例,三个检测头(检测分支)分别负责预测人体、人脸和人头,因而每个类别的GroundTruth框分别输入其相应的检测分支中参与训练。现增加一个躯干检测分支,对于该检测分支,不仅会输入躯干的GroundTruth框参与训练,同时也会将与该躯干相关联(即属于同一个人)的人体、人头框送入。
对于其中一个分支来说,原先每个正例锚框负责预测4个坐标偏移量,并以此来计算最终的检测框;现在增加的躯干检测分支,每个正例锚框需负责预测12个坐标偏移量,其中4个用来预测躯干、4个用来预测与该躯干相关联的人体、4个用来预测与该躯干相关联的人头。并最终同时输出躯干、人体、人头三个检测框,且三者属于同一个人。
在后处理阶段,通常不会输出躯干检测框,但与躯干检测框相关联的每个人体检测框和人头检测框都会作为输出,且这些每一对人体-人头检测框都是天然关联的,因为它们在被输出的时候就决定了属于同一个行人。
通过上述方法,通过简单的关联逻辑对训练集的人体、人头进行配对,以及通过一个小型的检测器生成躯干标注即可,几乎不需要增加额外的标注成本;同时,通过上述方法对人体-人头进行关联,提高了人体-人头关联的准确性;另一方面,增加的躯干检测分支,仅增加了较小的参数量与计算量。综上所述,通过前述步骤,最终增加了密集人体以及被遮挡人体的检出率。在行人三类的测试集上,带躯干分支且由躯干分支输出人体检测框和人头检测框的情况下,人体召回率提升3个百分点以上,人头召回率提升0.5个百分点。除此之外由于人体-人头自成关联,该方法还可为下游的跟踪任务节省关联任务所需的计算量和时间。
根据上述描述,本申请实施例提供一种目标检测模型的训练方法,如图1所示,具体包括:
S100获取包括多个对象的图片;
S200对所述图片进行预处理;所述预处理包括:
对多个对象进行标注,得到多个对象的人头真值框与人体真值框;对所述人头真值框和所述人体真值框进行匹配,确定属于同一个对象的人头真值框和人体真值框;基于所述人体真值框,得到与所述人体真值框匹配的躯干真值框,以完成对图片的标注;
S300将完成标注的图片作为样本图片对初始神经网络模型进行训练,得到目标检测模型。
在步骤S200中,在对训练集中的图片进行标注时,先将每张图片中的人体真值框和人头真值框关联起来,属于同一个行人的人体真值框和人头真值框匹配到一起。其具体方法可以用简单的IoU逻辑、尺寸关系、位置关系进行判断;之后用一个小型的躯干检测器或人工标注的方式,为每一个人体真值框生成一个属于它的躯干真值框,于是每个行人的躯干真值框、人体真值框、人头真值框三位一体处理完成。
在一实施例中,所述对所述人头真值框和所述人体真值框进行匹配,包括:
通过所述人头真值框与所述人体真值框的IOU以及位置关系对所述人头真值框和所述人体真值框进行匹配。
具体地,1、若属于同一个对象,则人头真值框与人体真值框相交的面积大于预设阈值,若相交的面积大于预设阈值,则可以认为人头真值框与人体真值框属于同一个对象,匹配完成;若相交的面积小于预设阈值,则可以认为人头真值框与人体真值框不属于同一个对象。2、一般来说,若属于同一个对象,人头真值框的中心点在人体真值框的上方,因此可以将人头真值框与人体真值框的位置作为匹配同一个对象的因素。
在一实施例中,所述目标检测模型包括人头检测分支、人体检测分支以及躯干检测分支;所述躯干检测分支的通道数为12*A,人头检测分支以及人体检测分支的通道数为4*A,其中,A表示锚框个数。所述躯干检测分支以躯干真值框的区域、人头真值框的区域、人体真值框的区域作为输入,输出人体检测框、躯干检测框和人头检测框。其中,目标检测模型可以采用YOLO或RetinaNet这样的anchor based单阶段检测模型。采用YOLO或RetinaNet这样的anchor based单阶段检测模型,其预测检测框的分支的通道数为4*A,其中A代表锚框个数,4即代表预测的4个坐标信息,这4个坐标信息可以与锚框坐标通过相应的换算方式计算得到最终的检测框。特别地,躯干检测分支的通道数为12*A。4个坐标信息用于预测躯干检测框,还有4个坐标信息用于预测人头检测框、4个用于预测人体检测框。
在一实施例中,所述目标检测模型的训练方法包括:
对训练集内的图片进行人头、人体、躯干分别进行真值框的标注,并对属于同一行人的人头真值框、人体真值框及射干真值框进行关联处理;
将目标检测模型的人体检测分支计算通道的输出通道设置为4*A,人头检测分支计算通道的输出通道设置为4*A,躯干检测分支计算通道的输出通道设置为12*A
将训练集内的图片、人体真值框标注输入目标检测模型的人体检测分支进行训练,输出人体检测框,并与人体真值框进行比较,根据比较结果调整训练参数,以提升目标检测模型的人体检测分支的准确度;
将训练集内的图片、人头真值框标注输入目标检测模型的人头检测分支进行训练,输出人头检测框,并与人头真值框进行比较,根据比较结果调整训练参数,以提升目标检测模型的人头检测分支的准确度;
将训练集内的图片、人头真值框、与人头真值框相关联的人体真值框、躯干真值框输入目标检测模型的躯干检测分支进行训练,输出躯干检测框,并躯干真值框进行比较,根据比较结果调整训练参数,以提升目标检测模型的躯干检测分支的准确度;
获得训练后的行人检测模型。
在对目标检测模型的训练过程中,每个躯干检测框将会被分配到一个或多个锚框,并由这些锚框来进行预测。而对于人体检测框Sub1和人头检测框Sub2来说,分配锚框这一步骤就省去了。由于躯干检分支的12*A个通道中,躯干检测框和人体检测框Sub1、人体检测框Sub2各享有4*A个通道,且人体检测框Sub1和人头检测框Sub2的锚框和躯干检测框的锚框是一一对应的,因此躯干检测框属于哪一个(或哪几个)锚框,它的人体检测框Sub1和人体检测框Sub2也就属于哪一个(或哪几个)与之相对应的锚框;
在一实施例中,采用NMS(Non-Maximum Suppression,非极大抑制)方法对所述躯干检测框进行去重。由于在本实施例中,人体检测框Sub1和人头检测框Sub2只是躯干检测框的附庸,即躯干检测框进行完NMS后所保留的框,其人体检测框Sub1和人头检测框Sub2也同样被保留;而那些被滤掉的躯干检测框,其人体检测框Sub1和人头检测框Sub2也同样被滤掉。
如图2所示,本申请一实施例提供一种目标检测模型的训练方法,包括以下步骤:
C101:获取用于训练的原始图片。
S101:通过卷积神经网络提取图片的特征,经过Backbone和FPN阶段。
C102:在躯干检测头得到回归分支的特征图,其中,躯干检测分支的通道数为12*A(A为锚框个数),其中躯干框、人体检测框Sub1和人头检测框Sub2的通道数均为4*A。
C103:锚框。在常见的anchor based检测器中属于先验信息。
C104:在图片中标注的人头检测框。
C105:在图片中标注的人体检测框。
S102:通过IoU以及位置关系等信息将人头检测框与人体检测框配对。
S103:通过一个小型的躯干检测器或者人工标注的方式为每一个人体检测框生成一个包含躯干区域的躯干检测框。
C106:得到了以组为单位的躯干检测框--人体检测框Sub1--人头检测框Sub2,每一组代表同一个人的躯干检测框、人体检测框和人头检测框。
S104:为躯干检测框分配一个或多个锚框,人体检测框Sub1、人头检测框Sub2的锚框与躯干检测框的锚框为一一对应关系。
C107:通过这种锚框的对应关系,利用特征图中的坐标预测值与相应的锚框坐标,计算出最终的预测框(检测框,同时包含躯干检测框和人体检测框Sub1、人头检测框Sub2);
S104:通过躯干检测框--人体检测框Sub1--人头检测框Sub2和躯干真值框--人体真值框Sub1--人头真值框Sub2,计算回归损失,进行训练。最终得到训练好的目标检测模型。
如图3所示,本申请一实施例提供一种目标检测模型的训练装置,包括:
图片获取模块100,用于获取包括多个对象的图片;
图片预处理模块200,用于对所述图片进行预处理;所述预处理模块包括:
第一标注子模块201,用于对多个对象进行标注,得到多个对象的人头真值框与人体真值框;
匹配子模块202,用于对所述人头真值框和所述人体真值框进行匹配,确定属于同一个对象的人头真值框和人体真值框;
第二标注子模块203,用于基于所述人体真值框,得到与所述人体真值框匹配的躯干真值框,以完成对图片的标注;
训练模块300,用于将完成标注的图片作为样本图片对初始神经网络模型进行训练,得到目标检测模型。
在一实施例中,所述匹配子模块通过所述人头真值框与所述人体真值框的IOU以及位置关系对所述人头真值框和所述人体真值框进行匹配。
在对训练集中的图片进行标注时,先将每张图片中的人体真值框和人头真值框关联起来,属于同一个行人的人体真值框和人头真值框匹配到一起。其具体方法可以用简单的IoU逻辑、尺寸关系、位置关系进行判断;之后用一个小型的躯干检测器或人工标注的方式,为每一个人体真值框生成一个属于它的躯干真值框,于是每个行人的躯干真值框、人体真值框、人头真值框三位一体处理完成。
具体地,1、若属于同一个对象,则人头真值框与人体真值框相交的面积大于预设阈值,若相交的面积大于预设阈值,则可以认为人头真值框与人体真值框属于同一个对象,匹配完成;若相交的面积小于预设阈值,则可以认为人头真值框与人体真值框不属于同一个对象。2、一般来说,若属于同一个对象,人头真值框的中心点在人体真值框的上方,因此可以将人头真值框与人体真值框的位置作为匹配同一个对象的因素。
在一实施例中,所述目标检测模型包括人头检测分支、人体检测分支以及躯干检测分支;所述躯干检测分支的通道数为12*A,人头检测分支以及人体检测分支的通道数为4*A,其中,A表示锚框个数。所述躯干检测分支以躯干真值框的区域、人头真值框的区域、人体真值框的区域作为输入,输出人体检测框、躯干检测框和人头检测框。其中,目标检测模型可以采用YOLO或RetinaNet这样的anchor based单阶段检测模型。采用YOLO或RetinaNet这样的anchor based单阶段检测模型,其预测检测框的分支的通道数为4*A,其中A代表锚框个数,4即代表预测的4个坐标信息,这4个坐标信息可以与锚框坐标通过相应的换算方式计算得到最终的检测框。特别地,躯干检测分支的通道数为12*A。4个坐标信息用于预测躯干检测框,还有4个坐标信息用于预测人头检测框、4个用于预测人体检测框。
在对目标检测模型的训练过程中,每个躯干检测框将会被分配到一个或多个锚框,并由这些锚框来进行预测。而对于人体检测框Sub1和人头检测框Sub2来说,分配锚框这一步骤就省去了。由于躯干检分支的12*A个通道中,躯干检测框和人体检测框Sub1、人体检测框Sub2各享有4*A个通道,且人体检测框Sub1和人头检测框Sub2的锚框和躯干检测框的锚框是一一对应的,因此躯干检测框属于哪一个(或哪几个)锚框,它的人体检测框Sub1和人体检测框Sub2也就属于哪一个(或哪几个)与之相对应的锚框;
在一实施例中,去重模块采用NMS(Non-Maximum Suppression,非极大抑制)方法对所述躯干检测框进行去重。由于在本实施例中,人体检测框Sub1和人头检测框Sub2只是躯干检测框的附庸,即躯干检测框进行完NMS后所保留的框,其人体检测框Sub1和人头检测框Sub2也同样被保留;而那些被滤掉的躯干检测框,其人体检测框Sub1和人头检测框Sub2也同样被滤掉。
由于上述装置实施例与方法实施例相对应,在装置实施例中各模块的功能实现可以参照方法实施例的实现方式,此处不再赘述。
如图4所示,本申请一实施例提供一种目标检测方法,包括:
S400获取待检测图片;
S500对所述待检测图片进行特征提取,得到人体生物特征,所述人体生物特征包括:人头特征、人体特征以及躯干特征;
S600基于所述生物特征,利用所述的目标检测模型对所述检测图片进行检测,得到目标对象。
其中,在对待检测图片进行特征提取时,可以利用卷积神经网络进行特征提取。目标检测模型为依据图1所示步骤训练完成得到的目标检测模型。
如图5所示,本申请一实施例提供一种目标检测方法,包括以下步骤:
C101:获取待检测图片。
S101:卷积神经网络提取待检测图片的特征,经过卷积神经网络的Backbone和FPN阶段后,得到人体特征,包括人头特征、人体特征、躯干特征。
C102:利用目标检测模型的躯干检测分支以及人体特征进行预测,得到预测结果。其中预测结果包括了躯干置信度预测分和躯干检测框、人体检测框Sub1以及人头检测框Sub2。
S102:通过非极大抑制方法去掉检测任务中重复的检测框。
C103:最终的躯干检测框。
C104:躯干检测框附带的Sub1框(人体框)。
C105:躯干检测框附带的Sub2框(人头框)。
C106:成对(即属于同一个行人)输出的人体检测框-人头检测框。
如图6所示,本申请一实施例提供一种目标检测装置,包括:
图片获取模块400,用于获取待检测图片;
特征提取模块500,用于对所述待检测图片进行特征提取,得到人体生物特征,所述人体生物特征包括:人头特征、人体特征以及躯干特征;
目标检测模块600,用于基于所述生物特征,利用所述的目标检测模型对所述检测图片进行检测,得到目标对象。
由于上述装置实施例与方法实施例相对应,在装置实施例中各模块的功能实现可以参照方法实施例的实现方式,此处不再赘述。
本申请实施例还提供了一种电子设备,该设备可以包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述设备执行图1所述的方法。在实际应用中,该设备可以作为终端设备,也可以作为服务器,终端设备的例子可以包括:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3,Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准语音层面4,Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等,本申请实施例对于具体的设备不加以限制。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例的图1中方法所包含步骤的指令(instructions)。
图7为本申请一实施例提供的终端设备的硬件结构示意图。如图所示,该终端设备可以包括:输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,第一存储器1103中可以存储各种程序,用于完成各种处理功能以及实现本实施例的方法步骤。
可选的,上述第一处理器1101例如可以为中央处理器(Central ProcessingUnit,简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,该第一处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。
可选的,上述输入设备1100可以包括多种输入设备,例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的,该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等);可选的,该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等);可选的,上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口,例如芯片的输入引脚接口或者输入接口等;输出设备1102可以包括显示器、音响等输出设备。
在本实施例中,该终端设备的处理器包括用于执行各设备中各模块的功能,具体功能和技术效果参照上述实施例即可,此处不再赘述。
图8为本申请的一个实施例提供的终端设备的硬件结构示意图。图8是对图7在实现过程中的一个具体的实施例。如图所示,本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。
第二处理器1201执行第二存储器1202所存放的计算机程序代码,实现上述实施例中图1所述方法。
第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令,例如消息,图片,视频等。第二存储器1202可能包含随机存取存储器(random access memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
可选地,第二处理器1201设置在处理组件1200中。该终端设备还可以包括:通信组件1203,电源组件1204,多媒体组件1205,语音组件1206,输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定,本实施例对此不作限定。
处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令,以完成上述数据处理方法中的全部或部分步骤。此外,处理组件1200可以包括一个或多个模块,便于处理组件1200和其他组件之间的交互。例如,处理组件1200可以包括多媒体模块,以方便多媒体组件1205和处理组件1200之间的交互。
电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统,一个或多个电源,及其他与为终端设备生成、管理和分配电力相关联的组件。
多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中,显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板,显示屏可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
语音组件1206被配置为输出和/或输入语音信号。例如,语音组件1206包括一个麦克风(MIC),当终端设备处于操作模式,如语音识别模式时,麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中,语音组件1206还包括一个扬声器,用于输出语音信号。
输入/输出接口1207为处理组件1200和外围接口模块之间提供接口,上述外围接口模块可以是点击轮,按钮等。这些按钮可包括但不限于:音量按钮、启动按钮和锁定按钮。
传感器组件1208包括一个或多个传感器,用于为终端设备提供各个方面的状态评估。例如,传感器组件1208可以检测到终端设备的打开/关闭状态,组件的相对定位,用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在,包括检测用户与终端设备间的距离。在一些实施例中,该传感器组件1208还可以包括摄像头等。
通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个实施例中,该终端设备中可以包括SIM卡插槽,该SIM卡插槽用于插入SIM卡,使得终端设备可以登录GPRS网络,通过互联网与服务器建立通信。
由上可知,在图8实施例中所涉及的通信组件1203、语音组件1206以及输入/输出接口1207、传感器组件1208均可以作为图7实施例中的输入设备的实现方式。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (13)

1.一种目标检测模型的训练方法,其特征在于,包括:
获取包括多个对象的图片;
对所述图片进行预处理;所述预处理包括:
对多个对象进行标注,得到多个对象的人头真值框与人体真值框;对所述人头真值框和所述人体真值框进行匹配,确定属于同一个对象的人头真值框和人体真值框;基于所述人体真值框,得到与所述人体真值框匹配的躯干真值框,以完成对图片的标注;
将完成标注的图片作为样本图片对初始神经网络模型进行训练,得到目标检测模型。
2.根据权利要求1所述的目标检测模型的训练方法,其特征在于,所述对所述人头真值框和所述人体真值框进行匹配,包括:
通过所述人头真值框与所述人体真值框的IOU以及位置关系对所述人头真值框和所述人体真值框进行匹配。
3.根据权利要求1所述的目标检测模型的训练方法,其特征在于,所述目标检测模型包括人头检测分支、人体检测分支以及躯干检测分支;所述躯干检测分支的通道数为12*A,人头检测分支以及人体检测分支的通道数为4*A,其中,A表示锚框个数。
4.根据权利要求3所述的目标检测模型的训练方法,其特征在于,所述躯干检测分支以躯干真值框的区域、人头真值框的区域、人体真值框的区域作为输入,输出人体检测框、躯干检测框和人头检测框。
5.根据权利要求1所述的目标检测模型的训练方法,其特征在于,采用NMS方法对所述躯干检测框进行去重。
6.一种目标检测模型的训练装置,其特征在于,包括:
图片获取模块,用于获取包括多个对象的图片;
图片预处理模块,用于对所述图片进行预处理;所述预处理模块包括:
第一标注子模块,用于对多个对象进行标注,得到多个对象的人头真值框与人体真值框;
匹配子模块,用于对所述人头真值框和所述人体真值框进行匹配,确定属于同一个对象的人头真值框和人体真值框;
第二标注子模块,用于基于所述人体真值框,得到与所述人体真值框匹配的躯干真值框,以完成对图片的标注;
训练模块,用于将完成标注的图片作为样本图片对初始神经网络模型进行训练,得到目标检测模型。
7.根据权利要求6所述的目标检测模型的训练装置,其特征在于,所述匹配子模块通过所述人头真值框与所述人体真值框的IOU以及位置关系对所述人头真值框和所述人体真值框进行匹配。
8.根据权利要求6所述的目标检测模型的训练装置,其特征在于,所述目标检测模型包括人头检测分支、人体检测分支以及躯干检测分支;所述躯干检测分支的通道数为12*A,人头检测分支以及人体检测分支的通道数为4*A,其中,A表示锚框个数;所述躯干检测分支以躯干真值框的区域、人头真值框的区域、人体真值框的区域作为输入,输出人体检测框、躯干检测框和人头检测框。
9.根据权利要求6所述的目标检测模型的训练装置,其特征在于,还包括:去重模块,用于采用NMS方法对所述躯干检测框进行去重。
10.一种目标检测方法,其特征在于,包括:
获取待检测图片;
对所述待检测图片进行特征提取,得到人体生物特征,所述人体生物特征包括:人头特征、人体特征以及躯干特征;
基于所述生物特征,利用如权利要求1-5任意一项所述的目标检测模型对所述检测图片进行检测,得到目标对象。
11.一种目标检测装置,其特征在于,包括:
图片获取模块,用于获取待检测图片;
特征提取模块,用于对所述待检测图片进行特征提取,得到人体生物特征,所述人体生物特征包括:人头特征、人体特征以及躯干特征;
目标检测模块,用于基于所述生物特征,利用如权利要求1-5任意一项所述的目标检测模型对所述检测图片进行检测,得到目标对象。
12.一种电子设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行如权利要求1-5或10中一个或多个所述的方法。
13.一个或多个机器可读介质,其特征在于,其上存储有指令,当由一个或多个处理器执行时,使得设备执行如权利要求1-5或10中一个或多个所述的方法。
CN202210515401.5A 2022-05-11 2022-05-11 目标检测模型的训练方法、装置、目标检测方法、装置、介质及设备 Pending CN114943872A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210515401.5A CN114943872A (zh) 2022-05-11 2022-05-11 目标检测模型的训练方法、装置、目标检测方法、装置、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210515401.5A CN114943872A (zh) 2022-05-11 2022-05-11 目标检测模型的训练方法、装置、目标检测方法、装置、介质及设备

Publications (1)

Publication Number Publication Date
CN114943872A true CN114943872A (zh) 2022-08-26

Family

ID=82907951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210515401.5A Pending CN114943872A (zh) 2022-05-11 2022-05-11 目标检测模型的训练方法、装置、目标检测方法、装置、介质及设备

Country Status (1)

Country Link
CN (1) CN114943872A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117784162A (zh) * 2024-02-26 2024-03-29 安徽蔚来智驾科技有限公司 目标标注数据获取方法、目标跟踪方法、智能设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117784162A (zh) * 2024-02-26 2024-03-29 安徽蔚来智驾科技有限公司 目标标注数据获取方法、目标跟踪方法、智能设备及介质
CN117784162B (zh) * 2024-02-26 2024-05-14 安徽蔚来智驾科技有限公司 目标标注数据获取方法、目标跟踪方法、智能设备及介质

Similar Documents

Publication Publication Date Title
CN112200187A (zh) 一种目标检测方法、装置、机器可读介质及设备
CN109116129B (zh) 终端检测方法、检测设备、系统及存储介质
CN111539412B (zh) 一种基于ocr的图像分析方法、系统、设备及介质
CN111369418A (zh) 一种健康数据管理方法、系统、机器可读介质及设备
CN112052792B (zh) 一种跨模型人脸识别方法、装置、设备及介质
CN111340848A (zh) 对目标区域的对象跟踪方法、系统、设备及介质
CN108551552A (zh) 图像处理方法、装置、存储介质及移动终端
CN111310725A (zh) 一种对象识别方法、系统、机器可读介质及设备
CN114581998A (zh) 一种基于目标对象关联特征融合的布控方法、系统、设备和介质
CN108494996A (zh) 图像处理方法、装置、存储介质及移动终端
CN112529939A (zh) 一种目标轨迹匹配方法、装置、机器可读介质及设备
CN112989299A (zh) 一种交互式身份识别方法、系统、设备及介质
CN113793323A (zh) 一种元器件检测方法、系统、设备及介质
CN111291638A (zh) 一种对象比对方法、系统、设备及介质
CN104281258B (zh) 使用图像捕获设备调整透明显示器
CN110795975A (zh) 人脸误检优化方法及装置
CN113822798B (zh) 生成对抗网络训练方法及装置、电子设备和存储介质
CN111626229A (zh) 一种对象管理方法、装置、机器可读介质及设备
CN111339943A (zh) 一种对象管理方法、系统、平台、设备及介质
CN114943872A (zh) 目标检测模型的训练方法、装置、目标检测方法、装置、介质及设备
CN112101252B (zh) 一种基于深度学习的图像处理方法、系统、设备及介质
CN111260697A (zh) 目标对象的识别方法、系统、设备及介质
CN110796673B (zh) 图像分割方法及相关产品
CN112580472A (zh) 一种快速轻量的人脸识别方法、装置、机器可读介质及设备
CN111818364B (zh) 视频融合方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination