CN113705510A

CN113705510A - 目标识别跟踪的方法、装置、设备及存储介质

Info

Publication number: CN113705510A
Application number: CN202111028685.7A
Authority: CN
Inventors: 欧俊文; 关本立
Original assignee: Ava Electronic Technology Co Ltd
Current assignee: Ava Electronic Technology Co Ltd
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2021-11-26

Abstract

本发明公开一种目标识别跟踪的方法、装置、设备及存储介质。其中，该方法包括步骤：获取第一图像帧、待跟踪人物人脸特征值；对第一图像帧进行站立检测，检测出站立人物；对所述站立人物进行人脸检测，对检测到符合预设标准的人脸提取人脸特征值；将提取到的人脸特征值和所述待跟踪人物人脸特征值进行对比；在对比结果的相似度大于阈值时，锁定提取相似度大于阈值的人脸特征值所对应的人物为跟踪对象。本发明用基于图像的目标检测技术替代基于图像的姿态识别或人脸识别技术对跟踪人物进行选定，大大地减少了性能开销，并且使用站立检测能够极大的过滤干扰选项，优化性能。

Description

目标识别跟踪的方法、装置、设备及存储介质

技术领域

本发明涉及人工智能视觉的技术领域，更具体地，涉及一种目标识别跟踪的方法、装置、设备及存储介质。

背景技术

人工智能视觉目标跟踪被广泛地应用于各种领域和场景，例如，远程教学中的教师跟踪或学生跟踪、远程会议的主讲人跟踪等。一般来说，在给定某视频序列中初始帧中的目标对象大小与位置的情况下，利用视觉目标跟踪可以检测跟踪后续帧中该目标对象的大小与位置。

进行目标跟踪的前提是识别并锁定跟踪对象，目前通常使用人脸识别或姿态识别技术识别出要跟踪的对象，然后对跟踪对象进行锁定。但在教学现场等多人场景中，即使只想识别出某个特定的人物，例如老师，仍然需要对全员进行人脸识别，整个识别过程特别耗费时间和算力，并且锁定效果不好。

发明内容

本发明为克服进行目标识别锁定时的图像处理过程中消耗较大的计算资源的计算问题，提供一种在减少计算资源的同时也能有效地检测锁定目标对象的方法。为解决上述技术问题，本发明采用的技术方案如下。

第一方面，本发明提供一种目标识别跟踪的方法，包括步骤：

获取第一图像帧、待跟踪人物人脸特征值；其中，所述第一图像帧中包括多个人物对象；

对第一图像帧进行站立检测，检测出站立人物；

对所述站立人物进行人脸检测，对检测到符合预设标准的人脸提取人脸特征值；

将提取到的人脸特征值和所述待跟踪人物人脸特征值进行对比；

在对比结果的相似度大于阈值时，锁定提取相似度大于阈值的人脸特征值所对应的人物为跟踪对象。

在一种实施方式中，还包括步骤：基于人头检测对锁定的跟踪对象进行目标跟踪。

在一种实施方式中，还包括步骤：提取第二图像帧中的指定人物的人脸特征值作为待跟踪人物人脸特征值；其中，所述第二图像帧为视频中在第一图像帧之前的图像帧。

在一种实施方式中，还包括步骤：选取第二图像帧中的指定区域中的人物作为所述指定人物。

在一种实施方式中，还包括步骤：通过姿态识别在第二图像帧中选定所述指定人物。

第二方面，本发明提供一种站立检测模型的训练方法，包括步骤：

获取训练站立图片；

对所述训练站立图片进行站立人物标注，获得标注站立图片；

根据所述标注站立图片建立标注站立数据集；

以所述标注站立数据集建立基于卷积神经网络结构，获得用于检测图片站立人物的站立检测模型。

在一种实施方式中，所述站立检测模型以RetinaNet目标检测算法为基础，所述RetinaNet目标检测算法中的主干网络由resnet替换为mobilenetv2。

在一种实施方式中，还包括步骤：根据标注站立数据集的统计结果，修改RetinaNet目标检测算法的分类和定位分支损失函数的权重。

在一种实施方式中，还包括步骤：对站立检测模型中的大尺寸目标分支进行删减。

第三方面，本发明提供一种目标识别跟踪的方法，包括步骤：

获取第一图像帧、待跟踪人物人脸特征值；

利用站立检测模型对第一图像帧进行站立检测，检测出站立人物；其中，所述站立检测模型利用上述任一实施方式中所述的方法训练得到。

第四方面，本发明提供一种目标识别跟踪的装置，包括：

获取模块，用于获取第一图像帧、待跟踪人物人脸特征值；

提取模块，用于对第一图像帧进行站立检测，检测出站立人物；

人脸检测模块，用于对所述站立人物进行人脸检测，对检测到符合预设标准的人脸提取人脸特征值；

比对模块，用于将提取到的人脸特征值和所述待跟踪人物人脸特征值进行对比；

确定模块，用于在对比结果的相似度大于阈值时，锁定提取相似度大于阈值的人脸特征值所对应的人物为跟踪对象。

第五方面，本发明提供一种站立检测模型的训练装置，其特征在于，包括：

训练图片获取模块，用于获取训练站立图片；

信息标注模块，用于对所述训练站立图片进行站立人物标注，获得标注站立图片；

数据集建立模块，用于根据所述标注站立图片建立标注站立数据集；

模型训练模块，用于以所述标注站立数据集建立基于卷积神经网络结构，获得用于检测图片站立人物的站立检测模型。

第六方面，本发明提供一种目标识别跟踪的装置，包括：

获取模块，用于获取第一图像帧、待跟踪人物人脸特征值；

提取模块，用于对第一图像帧进行站立检测，检测出站立人物；其中，所述站立检测模型利用上述站立检测模型的训练装置训练得到。

第七方面，本发明提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一实施方式的方法。

第八方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述任一实施方式的方法。

本发明适用于有主讲和听讲的多人场景，尤其适用于教学场景，对主讲人的目标检测与跟踪。本方法基于主讲人员相对于听讲人员在动作上的特殊性，通过站立检测，筛选出主讲人和与主讲人动作相同的其他人物，然后通过人脸识别的方式进一步确认出主讲人，并对主讲人进行目标跟踪。本方法用基于图像的目标检测技术替代基于图像的姿态识别或人脸识别技术，大大地减少了性能开销，并且使用站立检测能够极大的过滤干扰选项，优化性能。

附图说明

图1是本发明实施例一流程示意图。

图2是本发明实施例一的画面示意图。

图3是本发明实施例一的训练方法流程示意图。

图4是本发明实施例二整体结构示意图。

图5是本发明实施例二的训练装置整体结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

需要说明的是，本发明实施例所涉及的术语“第一\第二\……”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\……”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\……”区分的对象在适当情况下可以互换，以使这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

实施例一

请参见图1，图1为本发明实施例一提供的一种目标识别跟踪的方法的流程示意图，该方法包括：步骤S110、步骤S120、步骤S130、步骤S140和步骤S150。需要注意的是，步骤步骤S110、步骤S120、步骤S130、步骤S140和步骤S150仅为附图标记，用于清晰解释实施例与附图1的对应关系，不代表对本实施例中的各方法步骤的顺序限定。

步骤S110，获取第一图像帧、待跟踪人物人脸特征值；

其中，所述第一图像帧中包括多个人物对象。

本方法适用于有主讲和听讲的多人场景，尤其适用于教学场景，所以下文以教学场景为例介绍本方法。

如图2所示，图2是教室中的教学现场视频中的其中一帧图像帧，该图像帧包含了一名站着教书的老师和多名坐着听课的学生。在该教学场景下，老师是主讲，要对老师进行跟踪，因此老师是待跟踪人物，可以在底库中获取该老师的人脸特征值。在实际的教学中，一般都有课程表并安排了对应的授课老师，而老师的人脸信息也会录入到数据库中，所以具体到某节课，要对老师进行跟踪时，可以直接从底库中获取人脸特征值。

当然，也可以通过动作识别或人工选定等方式，在视频中的第一图像帧之前的图像帧中选定并提取待跟踪人物的人脸特征值。

步骤S120，对第一图像帧进行站立检测，检测出站立人物。

一般在进行指定目标跟踪之前都要对人脸识别，识别出指定的目标对象，所以在如图2所示的多人场景中，需要对每个人物都进行人脸检测(图2中的虚线框)，再对检测到符合预设标准的人脸提取人脸特征值，继而与底库中的人脸特征值进行比对，检测中目标人物。但由于图2是多人场景，对每一个人都进行人脸检测显然是要耗费很多资源的。为了减少资源的占用，本方法中根据教室的实际场景，先进行站立检测(图2中的实线框)。由于在上课时，老师一般都会站立讲课，另外上课的过程中，站立的学生不会太多，所以本方法中先对第一图像帧中的人物进行“初筛”，通过站立检测，检测出包含老师在内的站立人物。另外，在有主讲和听讲的会场场景中，也跟教室场景有点类似，主讲是站着的，而听讲是坐着的。

这里需要指出的是，进行站立检测时优选是不进行人脸检测的，因此可以节约人脸检测的算力。

这里必须说明的是，这里是站立检测，不是站立动作识别。站立检测是基于图像的目标检测。基于图像的目标检测是一种将二维图像中的感兴趣目标(如人体)进行分类和定位的技术，分类上无限制，可以是不同类别的事物(如飞机，鸟，书桌等)，也可以是同一类别下的不同属性(如站立人体，坐姿人体等)，属于感兴趣区域(ROI)检测技术。而站立动作识别是基于图像的姿态识别。基于图像的姿态识别是针对图像中已检测出的人体区域，对区域中的每一个像素进行分类，用以确定人体的主要关节点位置，进而判断人体姿态的技术，属于细粒度(像素级)分类技术。相对于站立动作识别，站立检测占用的资源较少，能优化性能。

站立检测模型为预先训练得到的机器自学习模型，该站立检测模型可以基于人体检测技术的基础上，检测出站立的人物。在一些实施例中，站立检测模型可以采用逻辑回归模型训练得到，当然可以理解的是，站立检测模型也可以采用其他机器自学习模型，如神经网络模型，对此本方法不做具体限制。

对于站立检测，可以使用基于深度学习的目标检测算法，其中，基于深度学习的目标检测算法主要分为两类：Two stage目标检测算法和One stage目标检测算法。Two stage目标检测算法，先进行区域生成(region proposal，RP)(一个有可能包含待检物体的预选框)，再通过卷积神经网络进行样本分类，任务是：特征提取->生成RP->分类/定位回归。常见的two stage目标检测算法有：R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN和R-FCN等。One stage目标检测算法，不用RP，直接在网络中提取特征来预测物体分类和位置，任务是：特征提取->分类/定位回归。常见的one stage目标检测算法有：OverFeat、YOLOv1、YOLOv2、YOLOv3、SSD和RetinaNet等。

步骤S130，对所述站立人物进行人脸检测，对检测到符合预设标准的人脸提取人脸特征值。

步骤S140，将提取到的人脸特征值和所述待跟踪人物人脸特征值进行对比。

步骤S150，在对比结果的相似度大于阈值时，锁定提取相似度大于阈值的人脸特征值所对应的人物为跟踪对象。

在步骤S120中，对第一图像帧中的人物进行“初筛”，步骤S130-步骤S150就是对第一图像帧中的人物进行“细筛”的过程。经过“初筛”后，第一图像帧中只剩下少量的人物被认为是目标对象，此时对“初筛”后的对象进行人脸检测，检测到符合标准的人脸(判断人脸朝向及清晰度是否适合提取人脸特征值)，通过人脸识别算法提取人脸特征值。将提取到的人脸特征值和人脸底库中获取到的人脸特征值进行对比(欧式距离或者余弦相似度)，若最高相似度的对比结果满足阈值则认定为匹配到跟踪目标，锁定该对象为跟踪对象。

步骤130中，要先判断检测到的人脸是否符合预设标准，这是因为课室环境下，被跟踪目标并不一定是正脸面向摄像机，侧脸或者无脸的情况是无用的，若无差别进行人脸识别，会导致无效信息占用较大的算力资源，可以使用性能开销更小的人脸检测、朝向分析、清晰度判断等方式决定是否过滤掉该检测项目，从而达到优化性能的目的。

这里需要指出的是，判断检测到的人脸是否符合预设标准时，有可能所有站立人物的人脸都不符合预设标准，在这种情况下，就不往下继续步骤S140和S150了，需要在另外一帧图像帧中重新再执行步骤S110-S130，直到有符合预设标准的人脸为止。另外，判断检测到的人脸是否符合预设标准时，也有可能把真正的目标对象过滤掉，这就会导致步骤S150中不能锁定跟踪对象。在不能锁定跟踪对象时，在另外一帧图像帧中重新再执行步骤S110-S150，直到有相似度大于阈值的人脸为止。

本方法适用于有主讲和听讲的多人场景，尤其适用于教学场景，对主讲人的目标检测与跟踪。本方法基于主讲人员相对于听讲人员在动作上的特殊性，通过站立检测，筛选出主讲人和与主讲人动作相同的其他人物，然后通过人脸识别的方式进一步确认出主讲人，并对主讲人进行目标跟踪。本方法用基于图像的目标检测技术替代基于图像的姿态识别或人脸识别技术，大大地减少了性能开销，并且使用站立检测能够极大的过滤干扰选项，优化性能。

在一种实施方式中，所述目标识别跟踪的方法还包括步骤S160。

步骤S160，基于人头检测对锁定的跟踪对象进行目标跟踪。

基于人头检测或人体检测是常用的目标跟踪方法。但在教室或演讲的场景下，主讲人会被讲台、书桌等物体遮挡，在这种情况下，基于人头检测对锁定的跟踪对象进行目标跟踪能减少跟丢的可能。

在一种实施方式中，所述目标识别跟踪的方法还包括步骤S170。

步骤S170，提取第二图像帧中的指定人物的人脸特征值作为待跟踪人物人脸特征值；

其中，所述第二图像帧为视频中在第一图像帧之前的图像帧。

本实施方式中，待跟踪人物的人脸特征值是在视频中第一图像帧之前的第二图像帧中提取的。在第二图像帧中，可以通过人工选定、姿态识别等方式确定指定人物，并对该指定人物提取人脸特征值。

在一种实施方式中，所述目标识别跟踪的方法还包括步骤S1801。

步骤S1801，选取第二图像帧中的指定区域中的人物作为所述指定人物。

例如老师经常是在教坛上的，这时可以将教坛上的人物视作指定人物。

在一种实施方式中，所述目标识别跟踪的方法还包括步骤S1802。

步骤S1802，通过姿态识别在第二图像帧中选定所述指定人物。

主讲人与听讲人之间的动作会有不同的，通过姿态识别可以区分出主讲人和听讲人，并选定对应姿态的人物作为指定人物。

图3示出根据本公开一实施方式的站立检测模型的训练方法的流程图。如图3所示，所述站立检测模型的训练方法包括：步骤S310、步骤S320、步骤S330和步骤S340。

步骤S310，获取训练站立图片。

对于有主讲和听讲的多人场景，采集数量不少于1000张不同内容类型的图片。例如，在教室场景中，可以采集上课起立问好的图片、只有老师站立讲课的图片、教室课间的图片、上课过程中的起立回答问题的图片、其他涉及站立姿态的图片等。例如，在会场场景中，可以采集全体站立的图片、只有主讲人站立的图片、会场休息期间的图片、听讲人起立回答问题的图片、其他涉及站立姿态的图片等。基于此，使用采集到的不同内容类型的图片作为训练屏幕图片。

作为一个较优的实施方式，在同一场地获取的同一内容类型的图片最多不超过5张，保证样本多样性。

步骤S320，对所述训练站立图片进行站立人物标注，获得标注站立图片。

将图片中人物的站立信息标注到训练站立图片上，获得标注站立图片包括训练站立图片与训练站立图片对应的标注信息。

步骤S330，根据所述标注站立图片建立标注站立数据集。

根据标注站立图片构建适用于神经网络结构的数据集，得到标注站立数据集。

步骤S340，以所述标注站立数据集建立基于卷积神经网络结构，获得用于检测图片站立人物的站立检测模型。

在确定标注站立数据集后，建立神经网络结构，训练出以神经网络结构为基础的站立检测模型。

在一种实施方式中，该站立检测模型是以RetinaNet目标检测算法为基础进行场景适应性改进，并进行相应的训练。其中，将RetinaNet目标检测算法的主干网络由resnet替换为优化后的mobilenetv2。与resnet相比，mobilenetv2具有更少的运算量和参数量，非常适合部署于嵌入式等算力欠缺的平台。

在一种实施方式中，对检测模型中的大尺寸分支进行删减。由于本算法的使用场景是教室或会议现场，获取的图片多为全景图像，所有目标都是中小尺寸。因此将检测模型中检测到头部或颈部的大尺寸目标进行检测的分支进行删减，进一步减少运算量。

在一种实施方式中，根据标注站立数据集的统计结果，修改RetinaNet目标检测算法的分类和定位分支损失函数的权重。根据标注站立数据集的统计结果，修改RetinaNet目标检测算法的分类和定位分支损失函数的权重，可以使两个分支得到均衡训练；同时，引入新的损失项，将检测模型中分类和定位两个分支的损失函数结合起来，确保两个分支能够协同训练。

在一种实施方式中，修改RetinaNet目标检测算法的初始锚框配置为竖直矩形。根据实际目标修改RetinaNet目标检测算法的初始锚框(anchor)配置，由于检测目标是站立的人体，一般情况下可以建模为竖直矩形，因此对于anchor的配置同样要修改为竖直矩形，从而加快检测模型在训练过程中的收敛速度，也使训练过程中的采样得到的训练样本质量更高。

在一种实施方式中，所述站立检测模型使用Pytorch框架，利用标注站立数据集进行训练，训练使用的是SGD迭代器，余弦学习率调整器。

在一种实施方式中，将训练完成的模型进行无符号整形(uint8)量化。将训练完成的模型进行无符号整形(uint8)量化可以进一步提升推理速度，减少模型的参数量，之后再转换为可部署于嵌入式系统的格式进行实际部署。

上述任一实施例的站立检测模型的训练方法，获取训练站立图片并对训练站立图片进行站立信息标注，获得标注站立图片。进一步地，根据标注站立图片建立标注屏幕数据集，以标注站立数据集建立神经网络结构，获得用于检测图片站立人物的站立检测模型。基于此，通过站立检测模型的建立，便于基于图像的目标检测技术检测出站立的人物，不需要使用姿态识别或人脸识别技术，大大地减少了性能开销。

实施例二

与目标识别跟踪的方法相对应，如图4所示，本发明还提供一种目标识别跟踪的装置4，包括：获取模块401、站立检测模块402、人脸检测模块403、比对模块404和确定模块405。

获取模块401，用于获取第一图像帧、待跟踪人物人脸特征值；

提取模块402，用于对第一图像帧进行站立检测，检测出站立人物；

人脸检测模块403，用于对所述站立人物进行人脸检测，对检测到符合预设标准的人脸提取人脸特征值；

比对模块404，用于将提取到的人脸特征值和所述待跟踪人物人脸特征值进行对比；

确定模块405，用于在对比结果的相似度大于阈值时，锁定提取相似度大于阈值的人脸特征值所对应的人物为跟踪对象。

本装置适用于有主讲和听讲的多人场景，尤其适用于教学场景，对主讲人的目标检测与跟踪。本方法基于主讲人员相对于听讲人员在动作上的特殊性，通过站立检测，筛选出主讲人和与主讲人动作相同的其他人物，然后通过人脸识别的方式进一步确认出主讲人，并对主讲人进行目标跟踪。本方法用基于图像的目标检测技术替代基于图像的姿态识别或人脸识别技术，大大地减少了性能开销，并且使用站立检测能够极大的过滤干扰选项，优化性能。

在一种实施方式中，还包括跟踪模块；

跟踪模块，用于基于人头检测对锁定的跟踪对象进行目标跟踪。

在一种实施方式中，还包括提取模块；

提取模块，用于提取第二图像帧中的指定人物的人脸特征值作为待跟踪人物人脸特征值；

在一种实施方式中，还包括选定模块；

选定模块，用于选定第二图像帧中的指定区域中的人物作为所述指定人物。

在一种实施方式中，还包括选定模块；

选定模块，用于通过姿态识别在第二图像帧中选定所述指定人物。

与站立检测模型的训练方法相对应，如图5所示，本发明还提供一种站立检测模型的训练装置5，目标识别跟踪的装置4中的站立检测模型可以通过站立检测模型的训练装置5训练得到。站立检测模型的训练装置5包括：训练图片获取模块501、信息标注模块502、数据集建立模块503和模型训练模块504：

训练图片获取模块501，用于获取训练站立图片；

信息标注模块502，用于对所述训练站立图片进行站立人物标注，获得标注站立图片；

数据集建立模块503，用于根据所述标注站立图片建立标注站立数据集；

模型训练模块504，用于以所述标注站立数据集建立基于卷积神经网络结构，获得用于检测图片站立人物的站立检测模型。

上述的站立检测模型的训练装置，获取训练站立图片并对训练站立图片进行站立信息标注，获得标注站立图片。进一步地，根据标注站立图片建立标注屏幕数据集，以标注站立数据集建立神经网络结构，获得用于检测图片站立人物的站立检测模型。基于此，通过站立检测模型的建立，便于基于图像的目标检测技术检测出站立的人物，不需要使用姿态识别或人脸识别技术，大大地减少了性能开销。

实施例三

本发明实施例还提供了一种存储介质，其上存储有计算机指令，该指令被处理器执行时实现上述任一实施例的目标识别跟踪的方法和站立检测模型的训练方法。

本领域的技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、随机存取存储器(RAM，Random Access Memory)、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、终端、或者网络设备等)执行本发明各个实施例方法的全部或部分。而前述的存储介质包括：移动存储设备、RAM、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

与上述的计算机存储介质对应的是，在一个实施例中还提供一种计算机设备，该计算机设备包括存储器、编码器及存储在存储器上并可在编码器上运行的计算机程序，其中，编码器执行程序时实现如上述各实施例中的任意一种目标识别跟踪的方法和站立检测模型的训练方法。

上述计算机设备，适用于有主讲和听讲的多人场景，尤其适用于教学场景，对主讲人的目标检测与跟踪。本方法基于主讲人员相对于听讲人员在动作上的特殊性，通过站立检测，筛选出主讲人和与主讲人动作相同的其他人物，然后通过人脸识别的方式进一步确认出主讲人，并对主讲人进行目标跟踪。本方法用基于图像的目标检测技术替代基于图像的姿态识别或人脸识别技术，大大地减少了性能开销，并且使用站立检测能够极大的过滤干扰选项，优化性能。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种目标识别跟踪的方法，其特征在于，包括步骤：

对第一图像帧进行站立检测，检测出站立人物；

2.根据权利要求1所述的目标识别跟踪的方法，其特征在于，还包括步骤：

基于人头检测对锁定的跟踪对象进行目标跟踪。

3.根据权利要求1所述的目标识别跟踪的方法，其特征在于，还包括步骤：

提取第二图像帧中的指定人物的人脸特征值作为待跟踪人物人脸特征值；

4.根据权利要求3所述的目标识别跟踪的方法，其特征在于，还包括步骤：

选取第二图像帧中的指定区域中的人物作为所述指定人物。

5.根据权利要求3任一项所述的目标识别跟踪的方法，其特征在于，还包括步骤：

通过姿态识别在第二图像帧中选定所述指定人物。

6.一种站立检测模型的训练方法，其特征在于，包括步骤：

获取训练站立图片；

根据所述标注站立图片建立标注站立数据集；

7.根据权利要求6所述的站立检测模型的训练方法，其特征在于，所述站立检测模型以RetinaNet目标检测算法为基础，所述RetinaNet目标检测算法中的主干网络由resnet替换为mobilenetv2。

8.根据权利要求7所述的站立检测模型的训练方法，其特征在于，还包括步骤：

根据标注站立数据集的统计结果，修改RetinaNet目标检测算法的分类和定位分支损失函数的权重。

9.根据权利要求6所述的站立检测模型的训练方法，其特征在于，还包括步骤：对站立检测模型中的大尺寸目标分支进行删减。

10.一种目标识别跟踪的方法，其特征在于，包括步骤：

获取第一图像帧、待跟踪人物人脸特征值；

利用站立检测模型对第一图像帧进行站立检测，检测出站立人物；其中，所述站立检测模型利用权利要求6-9任一项所述的方法训练得到。

11.一种目标识别跟踪的装置，其特征在于，包括：

获取模块，用于获取第一图像帧、待跟踪人物人脸特征值；

12.一种站立检测模型的训练装置，其特征在于，包括：

训练图片获取模块，用于获取训练站立图片；

13.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-10中任一所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-10中任一所述的方法。