CN116129432A

CN116129432A - 基于图像识别的多目标跟踪标注方法、系统和存储介质

Info

Publication number: CN116129432A
Application number: CN202310385929.XA
Authority: CN
Inventors: 黄渠洪; 伍强; 邓清凤
Original assignee: Chengdu Ruitong Technology Co ltd
Current assignee: Chengdu Ruitong Technology Co ltd
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-05-16
Anticipated expiration: 2043-04-12
Also published as: CN116129432B

Abstract

本发明公开了一种基于图像识别的多目标跟踪标注方法、系统和存储介质，属于图像识别技术领域，包括步骤S1：将第一视频拆分为多张静态图像，若包含目标对象的静态图像不为第一视频中的首帧图像，执行步骤S2；步骤S2：获取第一视频中的未识别图像，并划分为第一密度区域和第二密度区域；步骤S3：计算目标对象在未识别图像中的理论位置，若理论位置在在第一密度区域内，则识别第二视频中，将识别结果投影至未识别图像中，若理论位置在第二密度区域内，执行步骤S4；步骤S4：基于第二模型对未识别图像进行框选标注。本发明通过对多个不同角度拍摄视频进行捕捉识别，从而解决了当目标对象被遮挡时、存在无法对其进行跟踪标注的问题。

Description

基于图像识别的多目标跟踪标注方法、系统和存储介质

技术领域

本发明属于图像识别技术领域，具体涉及基于图像识别的多目标跟踪标注方法、系统和存储介质。

背景技术

多目标检测技术是一种用于识别图像中特定目标的视觉检测技术，多目标检测的任务是找出图像中所有感兴趣的目标，然后通过符号对目标进行标注，以直观展示目标的类别和位置。

针对视频的目标检测技术，目前一般有以下两种方案，一种是采用传统的人工标注方法，通过使用视频标注工具对视频进行逐帧进行标注，此种方式虽然准确度高，但是会耗费较大的人力资源与成本；另一种方式是结合机器学习技术对视频进行自动或半自动标注，如中国专利申请“CN113283279A”公开了一种基于深度学习的视频中多目标跟踪方法及装置，该方法对采集到的目标视频信息进行分帧处理，并按照预置摄像头设备曝光时间在分帧处理形成的视频序列帧上标注时间戳，获得标注视频序列帧；对标注视频序列帧进行目标前景和目标背景分离处理，获得每一帧的目标前景和对应帧的目标背景；对每一帧的目标前景和对应的目标背景进行特征提取处理，获得每一帧的目标前景和对应的目标背景特征信息，最后将每一帧的目标前景和对应的目标背景特征信息输入目标轨迹跟踪网络中，以输出跟踪目标的运动轨迹；又例如中国专利申请“CN110796093A”公开了一种目标跟踪方法、装置、计算机设备和存储介质，该方法首先获取包括至少K+1帧的视频源，视频源的连续K帧图像上均已标注目标框位置；将连续K帧图像上标注的目标框位置分别输入至预设的预测网络，确定目标在连续K帧的后一帧图像上的预测框位置，根据预测框位置，在连续K帧的后一帧图像上截取预测框位置对应的图像，并将截取得到的图像输入至预设的跟踪模型，得到目标在连续K帧的后一帧图像上的跟踪位置。

然而，上述两种方法虽然都能实现对视频图像中的目标进行跟踪，但都是建立在能够连对目标进行识别的情况下，当要识别的目标被其他物体遮挡时，即便使用上述专利文献中，根据上一帧图像预测下一帧图像位置的方法，也只能得到目标对象所处的大概位置范围，当该位置范围过大时，便无法对目标进行准确的跟踪标注。

发明内容

为解决上述问题，本发明提供了一种基于图像识别的多目标跟踪标注方法、系统和存储介质，以解决现有技术中的当目标对象被遮挡时、存在无法对其进行跟踪标注的问题。

为了达到上述的发明目的，本发明提出一种基于图像识别的多目标跟踪标注方法，包括：

步骤S1：采集第一视频，所述第一视频为第一拍摄角度下生成的视频，将所述第一视频拆分为多张静态图像，基于时间特征对每张静态图像进行编号，确认要跟踪的目标对象，基于第一模型对所有静态图像进行识别，获取包含所述目标对象的静态图像，定义首次出现所述目标对象的静态图像为第一图像，对所述第一图像中的所述目标对象进行框选标注，若所述第一图像不为所述第一视频中的首帧图像，则执行步骤S2；

步骤S2：定义所述第一图像和首帧图像之间的静态图像为未识别图像，对所有所述未识别图像进行密度识别，获得每张所述未识别图像中多个预设区域的拥挤数值，基于拥挤数值将所述预设区域分类为第一密度区域和第二密度区域，所述第一密度区域的拥挤数值小于所述第二密度区域；

步骤S3：定义所述目标对象在所述第一图像中的位置为第一位置，基于编号位于所述第一图像之后的静态图像，获取所述目标对象在所述第一位置之后的移动方向和移动速度，基于所述第一位置、移动方向和移动速度，计算所述目标对象在各张所述未识别图像中的理论位置，若理论位置在所述未识别图像的所述第一密度区域内，则采集第二视频，所述第二视频为第二拍摄角度下生成的视频，识别所述第二视频中，与所述未识别图像时间特征对应的静态图像，若在静态图像中识别到所述目标对象，则将所述目标对象的识别结果投影至所述未识别图像中，若所述目标对象的理论位置在所述第二密度区域内，则执行步骤S4；

步骤S4：获取所述第二密度区域的遮挡数值，若所述第二密度区域的遮挡数值小于拥挤数值，则基于第二模型对所述未识别图像进行框选标注。

进一步的，若编号位于所述第一图像之后的静态图像中丢失所述目标对象，则基于以下步骤对所述目标对象进行跟踪：

将丢失所述目标对象的静态图像定义为第二图像，对所述第二图像进行密度识别，若所述第二图像中存在所述第一密度区域和/或所述第二密度区域，基于所述第一图像和所述第二图像之间的静态图像，获取丢失所述目标对象在所述第二图像中的理论位置，若理论位置在所述第一密度区域或所述第二密度区域，则基于所述步骤S3或所述步骤S4追踪所述目标对象；

若所述第二图像中不存在所述第一密度区域和/或所述第二密度区域，则基于所述第一图像和所述第二图像之间静态图像，获取朝向所述第二图像中，所述目标对应理论位置移动的其他捕获对象，若存在其他捕获对象在所述第二图像中，且位于所述目标对象的理论位置，将该捕获对象定义为重叠对象，对所述重叠对象进行框选标注；

若在所述第二图像之后的静态图像重新出现所述目标对象，定义所述目标对象与所述重叠对象之间距离为第一距离，若所述第一距离大于预设的第一判断距离，则取消对所述重叠对象的框选追踪。

进一步的，在所述第二视频中识别到所述目标对象后，基于以下步骤将所述目标对象投影至所述第一视频中：

基于拍摄所述第二视频摄像机的参数，获取目标对象及非目标对象与拍摄所述第二视频摄像机的距离，其中所述非目标对象为距离所述目标对象小于第二判断距离的捕捉对象，定位所述目标对象及所述非目标对象在静态图像中的第一空间数据；

识别从所述第一视频中抽取的静态图像，获取其中的所述非目标对象，基于拍摄所述第一视频摄像机的参数，构建所述非目标对象在静态图像中的第二空间数据，基于所述目标对象在所述第一空间数据中的位置信息，将其对应投影至所述第二空间数据中，以确定所述目标对象在所述第二空间数据中的位置。

进一步的，对所述未识别图像进行密度识别包括以下步骤：

在所述未识别图像内设置滑动窗口，基于第一公式计算滑动窗口内的拥挤数值，所述第一公式为：，其中，为滑动窗口的面积，为滑动窗口内捕获到的对象数量，设置判断阈值，若拥挤数值小于所述判断阈值，将滑动窗口所在的区域划分为所述第一密度区域，否则将该区域划分为所述第二密度区域；

基于预设的步幅移动滑动窗口，并基于所述第一公式计算移动后滑动窗口的拥挤数值，并根据所述判断阈值对滑动窗口所在的区域进行分类，重复此步骤，直至滑动窗口遍历所述未识别图像的所有区域。

进一步的，获取所述第二密度区域的遮挡数值包括以下步骤：

建立覆盖率识别模型，设置识别特征，当滑动窗口内移动至所述第二密度区域后，提取滑动窗口内的所述识别特征，将所述识别特征输入至所述覆盖率识别模型，对滑动窗口所覆盖的区域进行识别，获取滑动窗口内捕获到目标的被覆盖率，并基于第二公式计算滑动窗口内的遮盖数值，所述第二公式为： ,其中，为滑动窗口内捕获到的目标数量，为滑动窗口内第个捕获对象的被覆盖率，为第个捕获对象与理论位置之间的距离。

本发明还提供一种基于图像识别的多目标跟踪标注系统，该系统用于实现上述的一种基于图像识别的多目标跟踪标注系统，该系统包括：

采集模块，用于采集第一视频和第二视频，所述第一视频为第一拍摄角度下生成的视频，所述第二视频为第二拍摄角度下生成的视频；

抽帧模块，将所述第一视频和所述第二视频拆分为多张静态图像，基于时间特征对每张静态图像进行编号；

第一识别模块，存储有第一模型，所述第一识别模块获取目标对象，所述第一模型对所述第一视频和所述第二视频中的所有静态图像进行识别，获取包含所述目标对象的静态图像，定义首次出现所述目标对象的静态图像为第一图像，对所述第一图像中的所述目标对象进行框选标注，若所述第一图像不为所述第一视频中的首帧图像，则标注所述第一图像和首帧图像之间的静态图像为未识别图像；

密度识别模块，对所有所述未识别图像进行密度识别，获得每张所述未识别图像中多个预设区域的拥挤数值，基于拥挤数值将所述预设区域分类为第一密度区域和第二密度区域，所述第一密度区域的拥挤数值小于所述第二密度区域；

位置推算模块，获取所述目标对象在所述第一图像中的第一位置，基于编号位于所述第一图像之后的静态图像，获取所述目标对象在所述第一位置之后的移动方向和移动速度，基于所述第一位置、移动方向和移动速度，计算所述目标对象在各张所述未识别图像中的理论位置；

投影模块，将所述目标对象在第二视频中的识别结果投影至所述第一视频中；

第二识别模块，存储有第二模型，所述第二识别模块获取所述第二密度区域的遮挡数值，若所述第二密度区域的遮挡数值小于拥挤数值，则基于所述第二模型对所述未识别图像进行框选标注。

本发明还提供一种计算机存储介质，计算机存储介质存储有程序指令，其中，在程序指令运行时控制计算机存储介质所在设备执行上述的一种基于图像识别的多目标跟踪标注方法。

与现有技术相比，本发明的有益效果至少如下所述：

本发明通过设置多个摄像头，获取不同角度的视频图像，然后选取其中一个视频图像进行追踪识别，若追踪的目标没有在首帧图像中出现时，则获取未识别的图像，并对静态图像进行密度识别，获取未识别图像中不同密度区域，在此基础上，通过不同帧图像推算目标对象在未识别图像中的理论位置，基于理论位置在不同的密度区域采用不同的方式进行识别，从而提升捕获对象对象的概率。

本发明通过对多个不同角度拍摄视频进行捕捉识别，将捕捉结果投影至其中一个视频中，从而解决了现有技术中的当目标对象被遮挡时、存在无法对其进行跟踪标注的问题。

附图说明

图1为本发明的一种基于图像识别的多目标跟踪标注方法的步骤流程图；

图2为本发明将目标对象投影至第一视频中的原理示意图；

图3为本发明识别静态图像的原理示意图；

图4为本发明框选标注重叠对象的原理示意图；

图5为本发明一种基于图像识别的多目标跟踪标注系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但除非特别说明，这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一xx脚本称为第二xx脚本，且类似地，可将第二xx脚本称为第一xx脚本。

如图1所示，一种基于图像识别的多目标跟踪标注方法，包括：

步骤S1：采集第一视频，第一视频为第一拍摄角度下生成的视频，将第一视频拆分为多张静态图像，基于时间特征对每张静态图像进行编号，确认要跟踪的目标对象，基于第一模型对所有静态图像进行识别，获取包含目标对象的静态图像，定义首次出现目标对象的静态图像为第一图像，对第一图像中的目标对象进行框选标注，若第一图像不为第一视频中的首帧图像，则执行步骤S2；

如图2所示，第一视频为第一摄像机拍摄的，第一摄像机为设置在矩形区域底部的,第二视频为第二摄像机拍摄的，第二摄像机为设置在矩形区域左侧的，以第一摄像机为例进行说明，第一摄像机自底部拍摄矩形区域内的情况，生成第一视频，基于第一视频的帧率，将第一视频拆分为多张静态图像，具体的，若视频的帧率为60，则可以将一秒的视频至多拆分为60张静态图像，也可以根据实际需求选择其中的10张静态图像进行识别，以降低系统的工作负荷；在拆分完成后，基于时间特征对图像进行编号，本实施例中的时间特征为世界时间；然后确认要跟踪的目标对象，目标对象可以为多个，本实施例以处理单个目标对象进行解释；获取包含目标对象的参考图像，然后将参考图像输入至第一模型中，第一模型将参考图像与各张静态图像进行对比，以确定静态图像中是否包含参考图像；特别的，本实施例中的第一模型基于卷积神经网络CNN构建，CNN网络的输入特征选择人体整体的颜色特征，CNN网络具体结构的确定方式均为现有技术，此处不再赘述。

将首次包含目标对象的静态图像定义为第一图像，例如通过第一模型识别出编号为20的静态图像包括多个目标对象中的其中一个，则表明编号1至编号19的静态图像未包含该目标对象，或目标对象被其他障碍物所遮挡，致使第一模型无法识别，为保证对目标对象的追踪完整性，此时需要对上述静态图像中是否包含目标对象进行确定。

步骤S2：定义第一图像和首帧图像之间的静态图像为未识别图像，对所有未识别图像进行密度识别，获得每张未识别图像中多个预设区域的拥挤数值，基于拥挤数值将预设区域分类为第一密度区域和第二密度区域，第一密度区域的拥挤数值小于第二密度区域；

如图3所示为未识别图像，在图像中包括第一密度区域和第二密度区域，从图中可以看出，第一密度区域包括三个目标，第二密度区域包括五个目标，在第一密度区域和第二密度区域面积相同的情况下，表明第二密度区域比第一密度区域更加拥挤，也即第一密度区域的拥挤数值小于第二密度区域。

步骤S3：定义目标对象在第一图像中的位置为第一位置，基于编号位于第一图像之后的静态图像，获取目标对象在第一位置之后的移动方向和移动速度，基于第一位置、移动方向和移动速度，计算目标对象在各张未识别图像中的理论位置，若理论位置在未识别图像的第一密度区域内，则采集第二视频，第二视频为第二拍摄角度下生成的视频，识别第二视频中，与未识别图像时间特征对应的静态图像，若在静态图像中识别到目标对象，则将目标对象的识别结果投影至未识别图像中，若目标对象的理论位置在第二密度区域内，则执行步骤S4；

获取目标对象在第一图像中的第一位置，以及编号在第一图像之后静态图像中，目标图像所在的位置，这里定义为第二位置，根据第一位置和第二位置，以及两张静态图像之间的时间差，可以获得目标对象在这段时间从第一位置移动至第二位置的移动方向和速度；之后基于第一图像和未识别图像之间的时间差，以获取到的目标对象移动速度为基础，以第一位置移动至第二位置的反方向计算出目标对象在未识别图像中的理论位置；若理论位置在第一密度区域内，由于该密度区域内的拥挤程度较低，虽然在第一摄像机的拍摄角度下存在遮挡，但有可能通过第二摄像机在另一视角拍摄的视频识别出目标对象；如图2中，第一摄像机拍摄的静态图像中，目标对象被遮挡无法识别，但是由于目标对象位于第一密度区域内，继续使用第二摄像机拍摄的视频进行识别跟踪，在第二摄像机的拍摄视角下，目标对象没有出现被遮挡的情况，那么就可以在第二视频中对应时间点识别捕获到目标对象，并对其进行追踪；同时，将目标对象的位置对应映射至第一视频中，也即第一视频可以根据第二视频的识别结果，在相应的位置进行绘制矩形框进行跟踪标注，这样即便在第一视频中无法识别出目标对象，也可以对目标对象进行跟踪；另一方面，若理论位置在第二密度区域，由于第二密度区域的拥挤程度大，即便使用第二摄像头拍摄的视频进行识别，也有极大概率无法捕捉到目标对象，在此情况下，为尽量捕获到目标图像，还采用以下步骤对目标对象进行识别追踪。

步骤S4：获取第二密度区域的遮挡数值，若第二密度区域的遮挡数值小于拥挤数值，则基于第二模型对未识别图像进行框选标注。

区域识别之前，首先获取第二密度区域内的遮挡数值，遮挡数值代表理论位置可能被遮挡而无法被识别的数值，数值越大，目标对象可能被遮挡而无法识别的几率越大；当遮挡数值小于拥挤数值时，表明虽然第二密度区域较为拥挤，但目标对象的遮挡程度较低，有较大的几率被识别，从而对其进行捕获追踪；因此在遮挡数值小于拥挤数值时，在第二密度区域内提取更多的识别特征，将其输入至具备更高识别精度的第二模型中进行更为精准细致的识别；当遮挡数值大于拥挤数值时，表明目标对象有极大概率被遮挡而无法识别，此时放弃对该静态图像的识别。特别的，第二模型依旧使用CNN网络建立，但第二模型以人脸识别特征为输入，且由于更多的输入特征不仅会增大模型的计算量，而且也会影响模型的计算时间，若直接使用第二模型对所有未识别图像进行遍历识别，不仅会耗费较长的时间，而且会大大增加系统的处理负担，因此本发明在使用第二模型之前，首先确定静态图像是否需要使用第二模型进行识别，从而提升系统的处理效率。

尤为注意的是，本发明通过对多个不同角度拍摄视频进行捕捉识别，将捕捉结果投影至其中一个视频中，从而解决了现有技术中的当目标对象被遮挡时、存在无法对其进行跟踪标注的问题。

另外，虽然现有技术中也具有相关技术采用多摄像机进行识别，但是未对图像中的拥挤程度进行判断，而本发明在使用第二视频识别之前，首先对图像中的密度进行判断，若密度过大则不会再继续使用第二视频进行识别，而是采用其他方式进行识别，此方式既节约了计算资源，也提高了针对目标对象的识别及跟踪效果。

若编号位于第一图像之后的静态图像中丢失目标对象，则基于以下步骤对目标对象进行跟踪：

将丢失目标对象的静态图像定义为第二图像，对第二图像进行密度识别，若第二图像中存在第一密度区域和/或第二密度区域，基于第一图像和第二图像之间的静态图像，获取丢失目标对象在第二图像中的理论位置，若理论位置在第一密度区域或第二密度区域，则基于步骤S3或步骤S4追踪目标对象；

在目标对象移动过程中，目标对象可能由空旷的地方走至拥挤的地方，从而丢失目标图像，因此，当目标对象在追踪过程中出现无法捕捉的情况时，获取发生丢失的静态图像，即第二图像，基于第二图像之前的静态图像，计算目标对象在第二图像的理论位置，若目标对象的理论位置位于第二图像范围之外，表明目标对象离开了第一摄像机的拍摄范围，此时不再对目标对象进行追踪；若理论位置仍然位于第二范围内，则继续识别静态图像中是否存在第一密度区域和第二密度区域，若存在第一密度区域和第二密度区域，且理论位置在第一密度区域或第二密度区域中，表明目标对象是走进至密度区域内，被其他目标遮挡而无法被识别，例如单个人从空旷的位置走进拥挤的人群，此时就需要使用上述方法对对其进行捕捉识别。

若第二图像中不存在第一密度区域和/或第二密度区域，则基于第一图像和第二图像之间静态图像，获取朝向第二图像中，目标对应理论位置移动的其他捕获对象，若存在其他捕获对象在第二图像中，且位于目标对象的理论位置，将该捕获对象定义为重叠对象，对重叠对象进行框选标注；

若在第二图像之后的静态图像重新出现目标对象，定义目标对象与重叠对象之间距离为第一距离，若第一距离大于预设的第一判断距离，则取消对重叠对象的框选追踪。

下面对上述步骤进行解释，若不存在第一密度区域和第二密度区域，且目标对象的理论位置还在第二图像中，如图4所示，目标对象朝向第一方向移动，目标对象朝向第二方向移动，那么在第二图像所处的时刻时，目标对象和目标对象发生重叠，使得目标对象对目标对象形成遮挡，使得第一摄像头无法捕捉到目标对象，在此情况下，理论上可使用第二摄像头拍摄的第二视频，以捕捉目标对象，并投影至第一视频中，然而此方式还需要对第二视频进行识别并进行投影，处理过程复杂；因此本发明提出了对目标对象和目标对象的重叠体进行追踪，由于目标对象被目标对象遮挡，那么在遮挡期间，目标对象被目标对象的移动轨迹相同，那么追踪目标对象，或目标对象和目标对象的重叠体，同样可以获取到目标对象的移动轨迹；因此，通过此方式减少了系统的计算量，而且保证了对目标对象的追踪效果。

进一步的，在对目标对象，或目标对象和目标对象的重叠体追踪过程中，若目标对象重新出现，且目标对象与重叠体之间的距离大于预设的第一判断距离，第一判断距离为目标对象在一定时间段内所能移动的最大距离，表明目标对象没有位于重叠体内，因此删除对重叠体的追踪框及追踪轨迹。

在第二视频中识别到目标对象后，基于以下步骤将目标对象投影至第一视频中：

基于拍摄第二视频摄像机的参数，获取目标对象及非目标对象与拍摄第二视频摄像机的距离，其中非目标对象为距离目标对象小于第二判断距离的捕捉对象，定位目标对象及非目标对象在静态图像中的第一空间数据；

识别从第一视频中抽取的静态图像，获取其中的非目标对象，基于拍摄第一视频摄像机的参数，构建非目标对象在静态图像中的第二空间数据，基于目标对象在第一空间数据中的位置信息，将其对应投影至第二空间数据中，以确定目标对象在第二空间数据中的位置。

参照图2，获取目标对象及非目标对象与第二摄像机的距离，具体获得方式可以基于视频中，目标对象与非目标对象与第二摄像机的距离，以及事先标定的参考数据，再结合摄像机的内参参数和外参参数确定，具体转换公式及计算方式为本领域的公知常识，此处不再赘述；获取非目标对象为距离目标对象小于第二距离的物体坐标，即为获取在目标对象一定范围内的其他物体作为参考物体，从而获取目标对象与周围物体之间的空间关系，如图3中，获取两两之间的距离及方向角，从而获取三者之间的空间位置关系，即第一空间数据。

之后对第一视频进行识别，虽然在第一视频中无法捕捉到目标对象，但是可以捕捉识别到目标对象和，那么就可以根据和之间的空间位置关系，结合第一空间数据，推定目标对象的位置，从而完成从第二视频投影至第一视频到的过程，此时第一视频同样可以在图中进行标注；通过此步骤，即便目标对象在第一视频中被遮挡，第一视频也能在对应位置绘制追踪框，从而实现对目标对象的捕捉追踪。

对未识别图像进行密度识别包括以下步骤：

在未识别图像内设置滑动窗口，基于第一公式计算滑动窗口内的拥挤数值，第一公式为：，其中，为滑动窗口的面积，为滑动窗口内捕获到的对象数量，设置判断阈值，若拥挤数值小于判断阈值，将滑动窗口所在的区域划分为第一密度区域，否则将该区域划分为第二密度区域；

基于预设的步幅移动滑动窗口，并基于第一公式计算移动后滑动窗口的拥挤数值，并根据判断阈值对滑动窗口所在的区域进行分类，重复此步骤，直至滑动窗口遍历未识别图像的所有区域。

如图3所示，在静态图像的区域设置滑动窗口，滑动窗口自静态图像的左上角开始向右平移，每次移动的距离即为步长，当滑动窗口移动至静态图像最右侧后，在向下移动一个步长，反向移动至静态图像的最左侧，重复此过程直至完成对静态图像的扫描；图3中的和为滑动窗口在不同时刻的位置；本实施以人为捕捉对象进行距离，第一模型的捕捉点为人脸，那么滑动窗口移动至图2中位置时，第一模型捕捉到3个目标，滑动窗口的面积为1平方厘米，那么经过第一公式计算得到拥挤数值为3，同理，位置的拥挤数值为5，在判断阈值为4的情况下，区域为第一密度区域，区域为第二密度区域。

获取第二密度区域的遮挡数值包括以下步骤：

建立覆盖率识别模型，设置识别特征，当滑动窗口内移动至第二密度区域后，提取滑动窗口内的识别特征，将识别特征输入至覆盖率识别模型，对滑动窗口所覆盖的区域进行识别，获取滑动窗口内捕获到目标的被覆盖率，并基于第二公式计算滑动窗口内的遮盖数值，第二公式为： ,其中，为滑动窗口内捕获到的目标数量，为滑动窗口内第个捕获对象的被覆盖率，为第个捕获对象与理论位置之间的距离。

覆盖率识别模型基于SVM网络建立，以人脸的轮廓为识别特征，通过将包括人脸被不同障碍物遮挡程度的图像为训练数据，对覆盖率识别模型进行训练，使得训练后的覆盖率识别模型可以根据输入的图像，判断图像中人脸被遮挡的程度；如图3所示，在区域内捕捉到5个对象，每个对象的脸部出现不同程度的遮挡，那么覆盖率识别模型针对每个人脸进行覆盖率识别，以获得每个人脸的覆盖率，例如图中捕获到的目标覆盖率分别为15%，30%，5%，0%，0%，其中需要追踪的目标对象为，以面部的中心点为参考点，获取理论位置至各个捕获对象中参考点的距离分别为1.2cm、1cm、0.8cm、1.5cm、2cm，那么代入至第二公式计算出滑动窗口内的遮盖数值为4.875。

下面对第二公式的含义进行解释，在第二公式中，捕获到的对象距离理论位置越近，被遮盖率相除后所得到的数值越大，这种计算结果会大大增加最终计算出的遮盖数值，遮盖数值越大，表明在该区域通过第二模型识别出目标对象的几率越低。由于捕捉对象距离理论位置很近，那么捕捉对象极有可能为目标对象，其遮盖率会大大影响第二模型的识别结果；另一方面，捕获到的对象距离理论位置越远，与遮盖率相除后的数值越小，例如的遮盖率较大，但是其离理论位置较远，有极大可能不是目标对象，那么与距离相除后的数值很小，表明对整体的遮盖数值影响不大，在此情况下，第二模型还是由较大的概率识别捕获到目标对象。

如图5所示，本发明还提供一种基于图像识别的多目标跟踪标注系统，该系统用于实现上述的一种基于图像识别的多目标跟踪标注系统，该系统包括：

采集模块，用于采集第一视频和第二视频，其中第一视频来源于存储服务器，其中第二视频来源于存储服务器，第一视频为第一拍摄角度下生成的视频，第二视频为第二拍摄角度下生成的视频；

抽帧模块，将第一视频和第二视频拆分为多张静态图像，基于时间特征对每张静态图像进行编号；

第一识别模块，存储有第一模型，第一识别模块获取目标对象，第一模型对第一视频和第二视频中的所有静态图像进行识别，获取包含目标对象的静态图像，定义首次出现目标对象的静态图像为第一图像，对第一图像中的目标对象进行框选标注，若第一图像不为第一视频中的首帧图像，则标注第一图像和首帧图像之间的静态图像为未识别图像；

密度识别模块，对所有未识别图像进行密度识别，获得每张未识别图像中多个预设区域的拥挤数值，基于拥挤数值将预设区域分类为第一密度区域和第二密度区域，第一密度区域的拥挤数值小于第二密度区域；

位置推算模块，获取目标对象在第一图像中的第一位置，基于编号位于第一图像之后的静态图像，获取目标对象在第一位置之后的移动方向和移动速度，基于第一位置、移动方向和移动速度，计算目标对象在各张未识别图像中的理论位置；

投影模块，将目标对象在第二视频中的识别结果投影至第一视频中；

第二识别模块，存储有第二模型，第二识别模块获取第二密度区域的遮挡数值，若第二密度区域的遮挡数值小于拥挤数值，则基于第二模型对未识别图像进行框选标注。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一个非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

上述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

上述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于图像识别的多目标跟踪标注方法，其特征在于，包括：

2.根据权利要求1所述的一种基于图像识别的多目标跟踪标注方法，其特征在于，若编号位于所述第一图像之后的静态图像中丢失所述目标对象，则基于以下步骤对所述目标对象进行跟踪：

3.根据权利要求1所述的一种基于图像识别的多目标跟踪标注方法，其特征在于，在所述第二视频中识别到所述目标对象后，基于以下步骤将所述目标对象投影至所述第一视频中：

4.根据权利要求1所述的一种基于图像识别的多目标跟踪标注方法，其特征在于，对所述未识别图像进行密度识别包括以下步骤：

5.根据权利要求4所述的一种基于图像识别的多目标跟踪标注方法，其特征在于，获取所述第二密度区域的遮挡数值包括以下步骤：

建立覆盖率识别模型，设置识别特征，当滑动窗口内移动至所述第二密度区域后，提取滑动窗口内的所述识别特征，将所述识别特征输入至所述覆盖率识别模型，对滑动窗口所覆盖的区域进行识别，获取滑动窗口内捕获到目标的被覆盖率，并基于第二公式计算滑动窗口内的遮盖数值，所述第二公式为：其中，为滑动窗口内捕获到的目标数量，为滑动窗口内第个捕获对象的被覆盖率，为第个捕获对象与理论位置之间的距离。

6.一种基于图像识别的多目标跟踪标注系统，用于实现如权利要求1-5任意一项所述的一种基于图像识别的多目标跟踪标注方法，其特征在于，包括：

7.一种计算机存储介质，其特征在于，所述计算机存储介质存储有程序指令，其中，在所述程序指令运行时控制所述计算机存储介质所在设备执行权利要求1-5任意一项所述的一种基于图像识别的多目标跟踪标注方法。