CN115546260A

CN115546260A - 目标识别跟踪方法、装置、电子设备及存储介质

Info

Publication number: CN115546260A
Application number: CN202211166578.5A
Authority: CN
Inventors: 黄苧健; 张婷; 黄滔; 聂大干
Original assignee: 711th Research Institute of CSIC
Current assignee: 711th Research Institute of CSIC
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2022-12-30

Abstract

本发明提供一种目标识别跟踪方法、装置、电子设备及存储介质，所述方法包括基于RetinaNet网络构建用于训练目标识别的第一神经网络模型和基于deepSORT算法构建用于训练目标跟踪的第二神经网络模型；获取预设监测区域的视频流，并将经过预处理的视频流的画面帧输入至已训练的第一神经网络模型，得到所述画面帧中每个目标的目标检测结果；将至少一个目标的目标检测结果输入至已训练的第二神经网络模型以进行位置预测，得到目标对应的轨迹信息。本发明能够准确识别目标和满足目标轨迹跟踪的需求。

Description

目标识别跟踪方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种目标识别跟踪方法、装置、电子设备及存储介质。

背景技术

例如在船舶工业，对于船上特殊工作环境的监测是船舶日常工作运维和人员保护的重要组成部分。针对船舶驾驶室、机炉舱等各类舱室的人员行为及动线确认也至关重要，因此需要通过识别非工作人员闯入敏感工作区域的监控，记录人员的动线并进行行为识别。

在多目标追踪的技术领域中，常用的算法会采用一些人工设计的特征，例如光流法、粒子滤波法、均值漂移滤波法等。然而由于这些算法会受到场景中的噪音、目标运动速度和帧率选择等多重因素的影响，因此传统的多目标追踪算法中的目标特征需要依赖专业人员调参，算法不确定性太大，难以准确识别目标和无法满足目标动向跟踪监测的需求。

发明内容

本发明提供一种目标识别跟踪方法、装置、电子设备及存储介质，用以解决现有技术中的难以准确识别目标和无法满足目标动向跟踪监测的需求的问题。

第一方面，本发明提供一种目标识别跟踪方法，所述方法包括：

基于RetinaNet网络构建用于训练目标识别的第一神经网络模型和基于deepSORT算法构建用于训练目标跟踪的第二神经网络模型；

获取预设监测区域的视频流，并将经过预处理的视频流的画面帧输入至已训练的第一神经网络模型，得到所述画面帧中每个目标的目标检测结果；

将至少一个目标的目标检测结果输入至已训练的第二神经网络模型以进行位置预测，得到目标对应的轨迹信息。

在本发明一实施例中，所述基于RetinaNet网络构建用于训练目标识别的第一神经网络模型的步骤包括：

利用基于RetinaNet网络的迁移学习构建视频处理模块和检测算法模块，以搭建所述第一神经网络模型的训练环境；

其中，所述训练环境包括使用RetinaNet网络中的ResNet网络和FPN网络提取图片特征，使用anchor锚框搜索边框，在class subnet子网络中调用Focal loss损失函数预测类别，以及使用box subnet子网络预测边框坐标和大小。

在本发明一实施例中，使用RetinaNet网络进行迁移学习的步骤包括：

修改预设模型的配置文件的参数以适配RetinaNet网络的训练要求，所述参数包括训练目标种类的数量、训练图片重新调整的尺寸大小、更改分类模型、训练数据路径、评估数据路径以及标签索引路径的一种或多种组合；

保留RetinaNet网络的特征抽取层和边界框回归预测层和冻结RetinaNet网络中不被使用的目标分类预测层；

设置所述第一神经网络模型的训练模式并配置训练参数以进行模型训练，所述训练参数包括一次训练的样本数量、训练批数量、学习速率以及优化方式的一种或多种组合；

在训练过程中设置跟踪参数以选取最优模型作为所述第一神经网络模型。

在本发明一实施例中，所述基于deepSORT算法构建用于训练目标跟踪的第二神经网络模型的步骤包括：

通过deepSORT算法的cosine_metric_learning训练仓库训练deepSORT跟踪器，并应用TensorFlow框架导出训练结果，所述导出的训练结果为冻结的pb模型；

将导出所述训练结果的模型作为所述第二神经网络模型。

在本发明一实施例中，获取预设监测区域的视频流，并将经过预处理的视频流的画面帧输入至已训练的第一神经网络模型，得到所述画面帧中每个目标的目标检测结果的步骤包括：

通过接入摄像设备以获取到预设监控区域的视频流，所述视频流的参数包括每秒传帧数、每帧的宽度和高度、像素的一种或多种组合；

初始化跟踪器，设置相关参数并计算余弦距离度量，以及设置使用所述跟踪器中的两帧图片目标之间最大余弦距离，并控制相邻目标特征的计算；

将所述视频流按帧预处理图像画面，将每帧图片改变至所述第一神经网络模型处理的尺寸，并根据不同场景调整参数；

将帧画面输入至所述第一神经网络模型，得到该画面的目标检测结果。

在本发明一实施例中，所述将至少一个目标的目标检测结果输入至已训练的第二神经网络模型以进行位置预测，得到目标对应的轨迹信息的步骤包括：

根据所述目标检测结果创建对应的track检测框；

使用所述第二神经网络模型对所述目标检测结果进行二次分类，并将从所述目标检测结果中提取的目标特征、目标框坐标、目标框类别以及置信度转换成输入deepSORT跟踪器的数据格式；

根据deepSORT跟踪器中的前面帧数检测出的轨迹对创建的track检测框进行位置预测。

在本发明一实施例中，所述根据deepSORT跟踪器中的前面帧数检测出的轨迹对所述track检测框进行位置预测的步骤包括：

基于创建的track检测框在t-1时刻的位置来预测所述track检测框在t时刻的位置；

基于t时刻检测到的位置，更新与其关联的其他track检测框的位置，以得到目标对应的轨迹信息。

在本发明一实施例中，所述基于创建的track检测框在t-1时刻的位置来预测所述track检测框在t时刻的位置的步骤包括：

确定所述track检测框的位置预测的公式和协方差公式；

其中，所述track检测框的位置预测的公式如下：

x′＝Fx；

x表示在t-1时刻的track检测框对应的目标位置信息的均值，其由目标边界框的中心位置坐标(x_x,x_y)、宽高比r和高h以及各track检测框对应的速度变化值组成，x′表示在t时刻的track检测框对应的目标位置信息的均值，F表示状态转移矩阵；

该track检测框的位置预测的协方差公式如下：

P′＝FPF^T+Q；

P表示track检测框在t-1时刻的协方差矩阵，Q表示系统的噪声矩阵，P′表示track检测框在t时刻的协方差矩阵。

在本发明一实施例中，所述基于t时刻检测到的位置，校正与其关联的其他track检测框的位置，以得到目标对应的轨迹信息的步骤包括：

计算所述目标检测结果和track检测框的均值的误差值，其计算公式如下：

y＝z-Hx′；

其中，z表示track检测框的均值向量，H表示测量矩阵，y表示误差值；

更新track检测框的均值向量x和协方差矩阵P，其更新的计算公式如下：

S＝HP′H^T+R；

x＝x′+P′H^TS^-1y；

P＝(I-P′H^TS^-1H)P‘；

其中，S表示中间变量，R表示deepSORT跟踪器的噪声矩阵，I表示单位矩阵；

基于更新后的track检测框，将当前track检测框和与其关联的track检测框进行级联匹配；

根据所述级联匹配的结果，输出目标的坐标框位置点以作为该目标的轨迹信息。

第二方面，本发明还提供一种目标识别跟踪装置，所述装置包括：

模型构建模块，用于基于RetinaNet网络构建用于训练目标识别的第一神经网络模型和基于deepSORT算法构建用于训练目标跟踪的第二神经网络模型；

目标检测模块，用于获取预设监测区域的视频流，并将经过预处理的视频流的画面帧输入至已训练的第一神经网络模型，得到所述画面帧中每个目标的目标检测结果；

目标预测模块，用于将至少一个目标的目标检测结果输入至已训练的第二神经网络模型以进行位置预测，得到目标对应的轨迹信息。

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述目标识别跟踪方法的步骤。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述目标识别跟踪方法的步骤。

本发明提供的目标识别跟踪方法、装置、电子设备及存储介质，通过基于RetinaNet网络构建的第一神经网络模型以用于对输入的视频流进行目标识别，并将通过第一神经网络模型识别出的目标再通过基于deepSORT算法构建的第二神经网络模型进行目标跟踪，能够准确识别目标和满足目标轨迹跟踪的需求。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的目标识别跟踪方法的流程示意图；

图2是本发明提供的构建第一神经网络模型的流程示意图；

图3是本发明提供的构建第二神经网络模型的流程示意图；

图4是本发明提供的第一神经网络模型检测的流程示意图；

图5是本发明提供的第二神经网络模型预测的流程示意图；

图6是本发明提供的目标识别跟踪装置的流程示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。

以下对本发明涉及的技术术语进行描述：

多目标跟踪(Multiple Object Tracking，简称MOT)，主要是给定一个图像序列，找到图像序列中运动的物体，并将不同帧的运动目标进行识别，也就是给定一个确定准确的ID，但这些目标可以是任意的，例如行人、车辆、各种动物等。

多目标跟踪的常用算法有SORT(Simple Online And Realtime Tracking，简称SORT)和deepSORT算法，SORT算法的核心是卡尔曼滤波(Kalman Filter)和匈牙利匹配算法(Hungarian algorithm)，deepSORT在SORT算法上增加了鉴别网络(Deep AssociationMetric)、级联匹配(Matching Cascade)和新轨迹的确认。

现在工业领域常用手法是综合利用深度学习目标识别算法和deepSORT追踪算法的结构，其中目标识别算法中使用较多的有YOLO、SSD和RetinaNet网络。

为了解决现有技术中难以准确识别目标和无法满足目标动向跟踪监测的需求的问题，本发明提供的目标识别跟踪方法、装置、电子设备及存储介质，通过基于RetinaNet网络构建的第一神经网络模型以用于对输入的视频流进行目标识别，并将通过第一神经网络模型识别出的目标再通过基于deepSORT算法构建的第二神经网络模型进行目标跟踪，能够准确识别目标和满足目标轨迹跟踪的需求。

本发明提供的所述目标识别跟踪方法是一种基于深度学习的对监控区域的人员动向进行跟踪监测的技术方案，可以进一步结合其他识别类算法应用于不同具体事件分析，尤其是针对工作场合有明显活动范围区间中针对非工作人员的闯入及其行径进行追踪及记录。

下面结合图1-图7描述本发明的目标识别跟踪方法、装置、电子设备及存储介质。

请参考图1，图1是本发明提供的目标识别跟踪方法的流程示意图。一种目标识别跟踪方法，所述方法包括：

步骤110，基于RetinaNet网络构建用于训练目标识别的第一神经网络模型和基于deepSORT算法构建用于训练目标跟踪的第二神经网络模型。

步骤120，获取预设监测区域的视频流，并将经过预处理的视频流的画面帧输入至已训练的第一神经网络模型，得到所述画面帧中每个目标的目标检测结果。

步骤130，将至少一个目标的目标检测结果输入至已训练的第二神经网络模型以进行位置预测，得到目标对应的轨迹信息。

需要说明的是，本发明使用的RetinaNet网络在训练模型过程中引入了focalloss损失函数，可以有效解决实际应用中正负样本数量不平衡的问题(例如合法员工样本多，而非法闯入员工样本少)，并且本发明在RetinaNet网络上进行层级选取并构建适合检测的第一神经网络模型，再转化成第二神经网络模型中的deepSORT算法使用的数据格式，以进行track(检测框)和tracker(跟踪器)的更新及应用。

以下对上述步骤110～130进行具体描述。

请参考图2，图2是本发明提供的构建第一神经网络模型的流程示意图。示例性地，上述步骤110中，所述基于RetinaNet网络构建用于训练目标识别的第一神经网络模型的步骤包括：

步骤111，利用基于RetinaNet网络的迁移学习构建视频处理模块和检测算法模块，搭建所述第一神经网络模型的训练环境。

其中，所述训练环境包括使用RetinaNet网络中的ResNet网络和FPN网络提取图片特征，使用anchor锚框搜索边框，在class subnet子网络中调用Focal loss损失函数预测类别，以及使用box subnet子网络预测边框坐标和大小等。

该步骤包含了几种不同检测器模型的训练的方法，由不同区域监测目的、硬件需求和结果需求所决定。以不同模型的各项指标来匹配具体实施项目中的需求，如硬件设备算力、监测摄像头的像素清晰程度和处理帧率来匹配模型处理速度。

示例性地，Retinanet网络的Backbone(主干网络)为ResNet网络，ResNet采用的网络层数为18～152层，具体由实际应用而定，其作用是提取图片中的信息，供后面的网络使用。虽然ResNet网络已经具有提取图片特征的能力，但是为了更好地利用Backbone提取更复杂的特征，所以本发明在ResNet网络的基础上还配置了通过FPN网络提取图片特征。

本发明采用的RetinaNet网络通过对单目标检测模型(如SSD或者YOLO网络)进行两次改进得到，其中区别于其他目标检测模型在网络训练时遇到的正负样本区域极不平衡而目标检测损失函数易被大批量负样本所左右的问题，RetinaNet网络在传统计算损失函数时使用交叉熵(cross-entropy,CE)loss上改进使用了Focal Loss。Focal Loss为了同时调节正、负样本与难易样本，选取用于控制正负样本的权重时取比较小的值来降低负样本(负样本是指多的那类样本)的权重。通过Focal Loss损失函数减少易分样本的权重，从而使得模型在训练的时候更加专注难分样本的学习，从而改善样本不均衡问题。

具体地，上述使用RetinaNet网络进行迁移学习的步骤包括：

步骤1111，修改预设模型的配置文件的参数以适配RetinaNet网络的训练要求。

其中，所述参数包括但不限于：训练目标种类的数量、训练图片重新调整的尺寸大小、更改分类模型、训练数据路径、评估数据路径以及标签索引路径。并在RetinaNet网络上将不被使用的批量标准层冻住。

需要说明的是，本发明所述预设模型是指已有的基于RetinaNet网络的模型，本发明所述第一神经网络模型是基于已有的模型的配置文件进行修改所得到。

步骤1112，保留RetinaNet网络的特征抽取层和边界框回归预测层和冻结RetinaNet网络中不被使用的目标分类预测层。

示例性地，使用目标识别API中的构建工具进行第一神经网络模型构建。设置构建函数中的模型配置文件路径以及其他参数进行初始模型构建。选择性恢复预训练过模型中checkpoint所产生的权重。构建模型的最终目标是为了使用部分预训练过模型中的权重而不是RetinaNet网络中的所有层。在模型构建过程中，保留RetinaNet网络中的特征抽取层和边界框回归预测层，而将网络中不被使用的是目标分类预测层冻结。针对需要从RetinaNet网络结构中保留的几层网络，选择性通过预训练的模型中的checkpoint中恢复权重。

为了保留的网络层定义checkpoints。从初始构建的模型中分离出来想保留的网络层级，以此指向性恢复那些指定层级的权重。

首先，通过“tf.train.checkpoint”定义一个临时目标框预测的checkpoints。在该函数中保留两种层级，分别是塔基层(base tower layer)和目标边界框预测层(boxprediction head)。

其次，通过“tf.train.checkpoint”定义一个临时模型的checkpoints。在该函数中保留初始构建模型中的特征特区层，并将目标框预测层指定为刚刚定义的临时目标框预测checkpoints。

最后，通过该定义的临时模型checkpoints结构，将预下载模型中的checkpoints路径指定，使用“restore”函数进行checkpoints中的定层权重恢复。

步骤1113，设置第一神经网络模型的训练模式并配置训练参数以进行模型训练。

其中，所述训练参数包括但不限于：一次训练的样本数量、训练批数量、学习速率以及优化方式。

示例性地，对模型训练循环中的超参进行设置并使用“eager mode”。Tensorflow中有两种模式“Graph mode”和“eager mode”，由于本发明未涉及多GPU之间的并行计算，所以可以选择eager mode进行配置。设置模型训练循环中的参数包括但不限于:一次训练的样本数目、训练批数、学习速率、优化方式等。

通过建立在RetinaNet网络上和预训练模型的迁移学习技术上，只需要训练模型最后一层的预测层即可。检查构建模型的所有层，找到需要训练的最终预测层。在构建模型上使用“trainable_variables”得到构建模型中所有预测层变量，找到需要微调预测目标框坐标和其类别标签的所在层并将其单独设置变量。

对训练一次样本的过程进行函数定义。从读取tensor(张量，一个n维数值阵列)图片，到使用构建模型中的数据预处理，并存储预处理后的结果和实际尺寸的tensor。将该结果转换成目标检测API中预测工具可以读取的数据形式，并输入预测函数得到预测目标框信息和其所属类别。构建用于追踪训练过程中的损失函数。通过预测目标框信息和真实图片信息的对比，建立损失函数，使用目标检测API中的损失工具进行损失熵值计算，并通过变化率来优化模型中的参数权重。训练一次样本的函数在过程中更新模型的参数权重值，并最终返回损失值。

步骤1114，在训练过程中设置跟踪参数以选取最优模型作为所述第一神经网络模型。

结合上述方程及参数，按照定义的训练次数对模型进行训练并根据训练中设定的指标(如损失函数、查准率或查全率等)得到效果最好的模型，以作为第一神经网络模型。

请参考图3，图3是本发明提供的构建第二神经网络模型的流程示意图。上述步骤110中，所述基于deepSORT算法构建用于训练目标跟踪的第二神经网络模型的步骤包括：

步骤112，通过deepSORT算法的cosine_metric_learning训练仓库训练deepSORT跟踪器，并应用TensorFlow框架导出训练结果，所述导出的训练结果为冻结的pb模型。

其中，TensorFlow是一个完全基于Python语言设计的开源的软件，可以训练和运行深度神经网络，它能应用在许多场景下，比如，图像识别、手写数字分类、递归神经网络、单词嵌入、自然语言处理、视频检测等等。TensorFlow可以运行在多个CPU或GPU上，同时它也可以运行在移动端操作系统上(如安卓、IOS等)，它的架构灵活，具有良好的可扩展性，能够支持各种网络模型。

TensorFlow具有两种版本，即TensorFlow1和TensorFlow2，具体可根据实际需求选用。但冻结pb模型可在TensorFlow1框架下进行。例如在训练了几万步的时候，有的时候48000步可能比520000的效果好，则选择冻结48000步的模型，产生权重文件和模型所需的其他文件。

示例性地，通过deepSORT的训练仓库cosine_mettric_learning训练用于识别不同类别(例如工作人员和其他人员)的检测器。例如，整理该区域有权限工作人员的照片并打标签，然后混合一些负样本的数据集放于同一路径下。使用cosine_metric_learning仓库训练deepSORT中用于reID模块的模型，该过程应用TensorFlow的框架。该步骤导出的结果为冻结的pb模型。

步骤113，将导出所述训练结果的模型作为所述第二神经网络模型。

需要说明的是，上述构建的第一神经网络模型和第二神经网络模型，在实施例过程，利用Tensorflow框架和目标识别API(Application Programming Interface，应用程序编程接口)，并对基于RetinaNet网络的修改和再训练的过程进行描述，目标识别的类别可以是：口罩，头盔，人，头和其他部分。在实施之前，可以通过一部分开源数据集和一部分自行标注数据集形成了共含预设数量(例如5000)张图片的数据集，在此基础上再通过随机分选将其中一部分(例如1000张)数据集归于验证集。

另外，搭建基于Tensorflow框架训练所需的环境。对本地GPU所需驱动和Tensorflow训练中涉及到的库和模块进行配置，以Tensorflow进行cuda和cudnn和python的版本选取。安装训练过程中需要的依赖项和工具相对应的版本号。

而定义模型训练的类别索引字典。则需要告诉第一神经网络模型相对应的类别所对应的数字ID。类别索引字典可根据不同类型模型有不同格式，找到该网络特定定义的字典样本进行类别索引字典的创建。定义所训练模型需要去别的目标种类数量。对准备好的数据集进行预处理。将数据集中的图片和信息以标准格式输入上述第一神经网络模型以进行训练。主要实现的途径有将类别标签转变为一位有效编码。然后将所有训练集图片、目标边界框和类别标签转换为tensors。

示例性地，在上述步骤110中，构建第一神经网络模型和构建第二网络模型之前，还包括构建区域划定模块算法，对监测区域进行自定义四角区域(ROI)划定。

工作区域划定的目的是为了更精准监测重要区域的事件识别，并为最后的人员行动动向预测模型增加限制条件，更加合理判断工作区域的异常行为事件。构建区域划定模块算法的步骤如下：

首先，通过摄像头读取一帧画面作为预置画面，通过预置画面获取摄像头视频画面的宽度和高度信息。其次，通过鼠标设定工作区域的四角，圈出工作区域。由于该模块中的内置逻辑，通过鼠标点击进行当下点的坐标读取并存储，且顺序按照逆时针方校进行四角坐标的选取。最终，针对工作区域的坐标信息及摄像头画面的相关预置信息通过yml文件的形式进行存储以便后续调用。

如果在后续的应用过程中，摄像头改变监控位置或者工作区域划定进行改变，可通过该模块重新对工作区域进行重新选定。

综上所述，基于上述已构建并已训练后的第一神经网络模型和第二神经网络模型，则进入实际应用阶段。

示例性地，在执行上述步骤120(即获取预设检测区域的视频流)之前，需要初始化设置第一神经网络模型和第二神经网络模型的路径以及加载模型，加载工作区域的坐标点信息等。

例如，初始化设置算法应用相关参数以及加载模型。读取上述存储工作区域坐标信息yml文件并存储坐标。设置上述得到的目标检测模型的存储路径并加载基于retinaNet训练的第一神经网络模型。设置上述中训练出的应用于deepSORT的目标分类的第二神经网络模型并加载。设deepSORT中相关参数。相关参数的设定通过设定后续部署deepSORT算法中根据应用场景而定。

请参考图4，图4是本发明提供的第一神经网络模型检测的流程示意图。上述步骤120中，获取预设监测区域的视频流，并将经过预处理的视频流的画面帧输入至已训练的第一神经网络模型，得到所述画面帧中每个目标的目标检测结果的步骤包括：

步骤121，通过接入摄像设备以获取到预设监控区域的视频流。

例如，可以通过接入IP摄像头的rtsp实时视频流，获得摄像头所流入视频的基本参数如每秒传帧数、每帧的宽度和高度、像素等。

步骤122，初始化跟踪器(tracker)，设置相关参数并计算余弦距离度量，并设置使用跟踪器模块中的两帧图片目标之间最大余弦距离，控制相邻目标特征的计算。

例如，使用deepSORT中的nn_matching工具构建连续帧中检测框关联度测量基准。并且使用目标之间最大余弦距离作为总的匹配指标来跟踪每帧检测框信息和动向。通过deepSORT的tracker工具和刚建立的检测框关联度测量基准初始化跟踪器。

步骤123，将视频流按帧预处理图像画面，将每帧图片改变至第一神经网络模型处理的尺寸，并根据不同场景调整参数。

例如，若受光照影响，而调整参数为了更好的模型预测效果输出。

步骤124，将帧画面输入至所述第一神经网络模型，得到该画面的目标检测结果。

例如，将每帧图片输入通过RetinaNet训练出来的第一神经网络模型，得到该帧图片的目标检测结果。该目标检测结果包括该帧图片中的目标(例如是目标S)框坐标，目标框以及置信度等，并将带有目标出现的时间信息以及坐标位置进行记录以便后期查看索引。

请参考图5，图5是本发明提供的第二神经网络模型预测的流程示意图。上述步骤130中，所述将至少一个目标的目标检测结果输入至已训练的第二神经网络模型以进行位置预测，得到目标对应的轨迹信息的步骤包括：

步骤131，根据目标检测结果创建对应的track检测框。

例如，若目标检测结果包括多个目标，则针对每个目标分别创建对应的track检测框。初始化track检测框的卡尔曼滤波(Kalman Filter)运动变量，初始状态中的tracks状态是不确定的。

卡尔曼滤波提供了一种高效可计算的方法来估计过程的状态，并使估计均方误差最小，其假设状态所有的变量都是随机的且都服从高斯分布，每个变量都有其对应的均值以及方差(每个变量代表了不确定性)。

步骤132，使用第二神经网络模型对所述目标检测结果进行二次分类，并将从目标检测结果中提取的目标特征、目标框坐标、目标框类别以及置信度转换成输入deepSORT跟踪器的数据格式。

步骤133，根据deepSORT跟踪器中的前面帧数检测出的轨迹对创建的track检测框进行位置预测。

例如，在所有目标框信息中运用非极大值抑制(Non-Maximum Supression)算法，用来梳理和剔除置信度较低的目标框信息。卡拉曼滤波算法会根据tracker跟踪器中的前几帧检测出的tracker路径(即轨迹)对特定track进行位置预测。卡尔曼滤波进行位置预测分为两个阶段：(1)预测track在下一时刻的位置，(2)基于目标识别来更新预测的位置。

示例性地，上述步骤133包括：

步骤1331，基于创建的track检测框在t-1时刻的位置来预测所述track检测框在t时刻的位置。

具体地，通过跟踪器使用卡尔曼滤波器预测前几帧出现过的目标的运动轨迹，然后再将步骤132中的转换的目标框信息输入跟踪器中，为了下一帧的预测判断。

确定t-1时刻(即当前帧)track检测框的位置预测的公式和协方差公式如下：

其中，track检测框的位置预测的公式如下：

x′＝Fx；

x表示在t-1时刻的track检测框对应的目标位置信息的均值，其由目标边界框的中心位置坐标(x_x,x_y)、宽高比r和高h以及各track检测框对应的速度变化值组成(例如，x由8维向量表示为x＝[x_x,x_y,r,h,v_x,v_y,v_r,v_h]，各个速度值的初始值以及后续运行过程中初始值皆为0)，x^′表示在t时刻的track检测框对应的目标位置信息的均值，F表示状态转移矩阵。

其中，track检测框的位置预测的协方差公式如下：

P′＝FPF^T+Q；

P表示track检测框在t-1时刻的协方差矩阵，Q表示系统的噪声矩阵(表示整个系统的可靠程度)，P′表示track检测框在t时刻的协方差矩阵。

步骤1332，基于t时刻检测到的位置，更新与其关联的其他track检测框的位置，以得到目标对应的轨迹信息。

示例性地，所述步骤1332包括：

步骤13321，计算t时刻(即下一帧)目标检测结果和track检测框的均值的误差值，其计算公式如下：

y＝z-Hx′；

其中，z表示track检测框的均值向量，不包含速度变化值，即z＝[x_x,x_y,r,h]，H表示测量矩阵，其将track的均值向量x′映射到检测空间，y表示误差值；

通过以下公式得到状态更新后的track检测框的均值向量x和协方差矩阵P：

S＝HP′H^Y+R；

x＝x′+P′H^TS^-1y；

P＝(I-P′H^TS^-1H)P‘；

其中，S表示中间变量，I表示单位矩阵，R表示deepSORT跟踪器的噪声矩阵，它是一个4x4的对角矩阵，对角线上的值分别为中心点两个坐标以及宽高的噪声，以任意值初始化，一般设置宽高的噪声大于中心点的噪声，该公式先将协方差矩阵P′映射到检测空间，然后再加上噪声矩阵R。

步骤13322，基于更新后的track检测框，将当前track检测框和与其关联的track检测框进行级联匹配。

具体地，将所获得的预测轨迹目标信息与当前帧中的实际目标框信息通过匈牙利算法进行匹配，并用deepSORT中tracker(跟踪器)工具中的update函数更新当前跟踪器中的信息，形成匹配成功目标框信息和已更新的跟踪器。根据跟踪器中当下的每一个track进行判断，首先筛选不匹配的或者基于一段时间帧数没有更新的track，再将剩下有效的track转换为目标框的数据格式，附上该框颜色以及使用track工具中的track_id对该框进行序号标注。以此重复直至一帧内所有框完成二次鉴别，以完成级联匹配。

步骤13323，并根据所述级联匹配的结果，输出目标的坐标框位置点以作为该目标的轨迹信息。

例如，在后台数据库中，记录不同ID的坐标框位置点，用于记录不同外部侵入者在该监控范围内的行径路线，然后输出相对应的结论和记录目标行径坐标点。

综上所述，与现有技术的相比，本发明的有益效率如果下：

第一，基于RetinaNet网络的再训练模型，应用于训练样本不均匀的目标识别模型，通过focal loss的损失函数再训练过程中减少易分样本的权重，从而使模型更专注于区分难分样本。尤其是应用在检测陌生人或物的模型中，该模型能解决由于正负样本不均衡从而难以识别难分目标的难点。而该模型对后续追踪算法的目标ID的track检测框起到了决定性影响。

第二，本发明通过检测框数据转换模块连接了RetinaNet模型检测出的目标检测结果和deepSORT算法的输入端，并通过格式转换模块提高了整个系统运行的速度。

第三，本发明基于RetinaNet网络的第一神经网络模型和基于deepSORT算法的第二神经网络模型得出的目标轨迹信息，通过数据处理和存储进行应用场景需求的判断，例如记录目标动线、行径路线及目标事件发生等等，加强了对敏感工作区域的安保监控以及对实时侵入者的动线掌控。

下面对本发明提供的目标识别跟踪装置进行描述，下文描述的目标识别跟踪装置与上文描述的目标识别跟踪方法可相互对应参照。

请参考图6，图6是本发明提供的目标识别跟踪装置的流程示意图。一种目标识别跟踪装置600包括模型构建模块610、目标检测模块620以及目标预测模块630。

示例性地，所述模型构建模块610用于基于RetinaNet网络构建用于训练目标识别的第一神经网络模型和基于deepSORT算法构建用于训练目标跟踪的第二神经网络模型。

示例性地，所述目标检测模块620用于获取预设监测区域的视频流，并将经过预处理的视频流的画面帧输入至已训练的第一神经网络模型，得到所述画面帧中每个目标的目标检测结果。

示例性地，所述目标预测模块630用于将至少一个目标的目标检测结果输入至已训练的第二神经网络模型以进行位置预测，得到目标对应的轨迹信息。

示例性地，所述模型构建模块610还用于：

利用基于RetinaNet网络的迁移学习构建视频处理模块和检测算法模块，以搭建所述第一神经网络模型的训练环境。

示例性地，所述模型构建模块610还用于：

将导出所述训练结果的模型作为所述第二神经网络模型。

示例性地，所述目标检测模块620还用于：

示例性地，所述目标预测模块630还用于：

根据所述目标检测结果创建对应的track检测框；

示例性地，所述目标预测模块630还用于：

确定所述track检测框的位置预测的公式和协方差公式；

其中，所述track检测框的位置预测的公式如下：

x′＝Fx；

该track检测框的位置预测的协方差公式如下：

P′＝FPF^T+Q；

示例性地，所述目标预测模块630还用于：

y＝z-Hx′；

S＝HP′H^Y+R；

x＝x′+P^′H^TS^-1y；

P＝(I-P′H^TS^-1H)P‘；

在此需要说明的是，本发明实施例提供的上述目标识别跟踪装置，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(Processor)710、通信接口(Communications Interface)720、存储器(Memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行所述目标识别跟踪方法，所述方法包括：

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的所述目标识别跟踪方法。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的所述目标识别跟踪方法。

本发明实施例提供的一种电子设备、一种计算机程序产品、一种处理器可读存储介质，其上存储的计算机程序使处理器能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种目标识别跟踪方法，其特征在于，所述方法包括：

2.根据权利要求1所述的目标识别跟踪方法，其特征在于，所述基于RetinaNet网络构建用于训练目标识别的第一神经网络模型的步骤包括：

3.根据权利要求2所述的目标识别跟踪方法，其特征在于，使用RetinaNet网络进行迁移学习的步骤包括：

4.根据权利要求1所述的目标识别跟踪方法，其特征在于，所述基于deepSORT算法构建用于训练目标跟踪的第二神经网络模型的步骤包括：

将导出所述训练结果的模型作为所述第二神经网络模型。

5.根据权利要求1所述的目标识别跟踪方法，其特征在于，获取预设监测区域的视频流，并将经过预处理的视频流的画面帧输入至已训练的第一神经网络模型，得到所述画面帧中每个目标的目标检测结果的步骤包括：

6.根据权利要求1所述的目标识别跟踪方法，其特征在于，所述将至少一个目标的目标检测结果输入至已训练的第二神经网络模型以进行位置预测，得到目标对应的轨迹信息的步骤包括：

根据所述目标检测结果创建对应的track检测框；

7.根据权利要求6所述的目标识别跟踪方法，其特征在于，所述根据deepSORT跟踪器中的前面帧数检测出的轨迹对所述track检测框进行位置预测的步骤包括：

8.根据权利要求7所述的目标识别跟踪方法，其特征在于，所述基于创建的track检测框在t-1时刻的位置来预测所述track检测框在t时刻的位置的步骤包括：

确定所述track检测框的位置预测的公式和协方差公式；

其中，所述track检测框的位置预测的公式如下：

x′＝Fx；

该track检测框的位置预测的协方差公式如下：

P′＝FPF^T+Q；

9.根据权利要求8所述的目标识别跟踪方法，其特征在于，所述基于t时刻检测到的位置，校正与其关联的其他track检测框的位置，以得到目标对应的轨迹信息的步骤包括：

y＝z-Hx′；

S＝HP′H^T+R；

x＝x′+P′H^TS^-1y；

P＝(I-P′H^TS^-1H)P‘；

10.一种目标识别跟踪装置，其特征在于，所述装置包括：

11.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至9任一项所述的目标识别跟踪方法的步骤。

12.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的目标识别跟踪方法的步骤。