CN112507835B

CN112507835B - 一种基于深度学习技术分析多目标对象行为的方法及系统

Info

Publication number: CN112507835B
Application number: CN202011382800.6A
Authority: CN
Inventors: 高博; 杨景明; 宋浩诚; 呼子宇
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2022-09-20
Anticipated expiration: 2040-12-01
Also published as: CN112507835A

Abstract

本发明提供了一种基于深度学习技术分析多目标对象行为的方法，该方法通过采集多个目标对象的视觉媒体数据，基于所得数据利用目标检测网络对当前帧各目标对象进行定位；然后综合全卷积孪生网络和重识别网络跟踪识别定位后的当前帧各目标对象，获取各目标对象的跟踪结果序列，进而生成各目标对象对应时间段内的骨骼节点序列，并基于其利用时空图卷积网络自动识别，获取各目标对象的行为分析结果序列。采用本发明的上述方案通过设定的跟踪网络结构对各个目标进行连续跟踪识别，结合姿态估计网络对目标的实时行为进行分析，能够均衡运算速度和计算结果精确度的关系，避开现有跟踪技术的缺陷，实用性高，适用范围广，具备良好的应用前景。

Description

一种基于深度学习技术分析多目标对象行为的方法及系统

技术领域

本发明涉及多目标跟踪及分析技术领域，尤其涉及一种基于深度学习技术分析多目标对象行为的方法及系统。

背景技术

现有研究中，将深度学习引入单目标跟踪的技术得到了较多的应用，基于此，逐渐出现将深度学习算法引入多目标跟踪的研究尝试，现有的实现目标跟踪的方法主要基于以下两类目标跟踪网络，第一类方法是先检测定位感兴趣目标，再通过数据关联算法对目标进行关联匹配；第二类方法是同时对感兴趣目标进行检测和关联匹配。

其中第一种方法一般以目标检测算法为基础，一定程度上能够保障目标的定位精度，但是该种算法过于依赖目标检测的性能，运行速度慢，而实际应用时检测需求一般很大，因此，该种方法无法有效地投入实际应用中；第二种方法算法运行速度相对较快，但是对目标检测精度较低，无法保障检测和识别结果的可靠性。多目标行为分析需要精确的跟踪结果，现有研究中的行为分析方法停留在实验阶段，只能依靠采集好的有限数据集进行实验分析，未能形成系统且高效的具备实际应用价值的精确分析方案。

发明内容

为解决上述问题，本发明提供了一种基于深度学习技术分析多目标对象行为的方法，在一个实施例中，所述方法包括：

步骤S1、采集包含至少一个对象的视觉媒体数据，其中所述视觉媒体数据包括：含目标对象的图像数据、视频数据以及动画数据；

步骤S2、基于所述视觉媒体数据利用目标检测网络对当前帧各目标对象进行定位；

步骤S3、综合全卷积孪生网络和重识别网络跟踪识别定位后的当前帧各目标对象，获取各目标对象的跟踪结果序列；

步骤S4、根据所述跟踪结果序列生成各目标对象对应时间段内的骨骼节点序列，并基于其利用时空图卷积网络自动识别各目标对象的行为分析结果序列。

一个实施例中，在所述步骤S2中，利用目标检测网络检测视觉媒体数据中当前帧的各目标对象图像，并根据检测结果为各目标对象图像设置定位边界框信息。

一个实施例中，在所述步骤S3中，利用全卷积孪生网络对当前帧定位后的各目标对象进行识别，提取对应的特征图和特征数据，其中，所述全卷积孪生网络的两个分支分别传入需要跟踪的目标图像和当前帧图像，以目标图像为模板分别通过主干网络提取当前帧图像的特征，在当前帧图像对应的特征图上做卷积操作。

一个实施例中，在所述步骤S3中，通过基于表征学习的重识别算法网络提取各帧目标对象特征图的特征向量，并将上下帧的特征向量进行关联匹配，构建设定时间段内各目标对象的跟踪结果序列。

优选地，所述方法还包括：在步骤S3之前，利用多任务学习方法融合全卷积孪生网络和重识别网络，构建多目标融合跟踪网络，所述全卷积孪生网络和重识别网络采用相同的主干网络。

进一步地，在所述步骤S3中，利用欧氏距离算法将各目标当前帧的特征向量与前一帧的特征向量进行比对，并结合匈牙利算法实现上下帧各目标对象的关联匹配，以对多目标对象进行实时匹配跟踪，实现连续的轨迹跟踪。

一个实施例中，在所述步骤S4中，将各目标对象的跟踪结果序列输入姿态估计系统中生成对应的骨骼节点序列，其中，每一帧的跟踪结果包括：各目标对象的ID、定位坐标、原始图片以及目标图像数据。

进一步地，在所述步骤S4中，将识别获取的多目标行为分析结果序列、对应的骨骼节点序列与跟踪结果序列关联组成最终分析结果面向用户输出，其中，各目标对象的骨骼节点采用彩色的线段和节点显示。

基于上述任意一个或多个实施例中的方法，本发明还提供一种存储介质，该存储介质上存储有可实现上述任意一个或多个实施例所述方法的程序代码。

基于上述任意一个或多个实施例的其他方面，本发还提供一种基于深度学习技术分析多目标对象行为的系统，该系统执行上述任意一个或多个实施例中所述的方法，其包括：

视觉数据采集模块，其配置为采集包含至少一个对象的视觉媒体数据，其中所述视觉媒体数据包括：含目标对象的图像数据、视频数据以及动画数据；

检测定位模块，其配置为基于所述视觉媒体数据利用目标检测网络对当前帧各目标对象进行定位；

跟踪识别模块，其配置为综合全卷积孪生网络和重识别网络跟踪识别定位后的当前帧各目标对象，获取各目标对象的跟踪结果序列；

行为自动分析模块，其配置为根据所述跟踪结果序列生成各目标对象对应时间段内的骨骼节点序列，并基于其利用时空图卷积网络自动识别各目标对象的行为分析结果序列。

与最接近的现有技术相比，本发明还具有如下有益效果：

本发明提供的一种基于深度学习技术分析多目标对象行为的方法，同步采集多个目标对象的视觉媒体数据，为后续的跟踪识别提供数据支持，能够同时对多个目标对象进行监控，适用于人数较多的公共场所；此外，本发明针对已检测定位的目标对象利用全卷积孪生网络和重识别网络综合进行跟踪别和关联匹配，将获取的跟踪结果序列作为生成骨骼节点序列的数据支持，在保障运算结果精确度的同时，降低了运算过程中的时间消耗，实时性好，精确度高，能够很好地适用于社区、商厦以及校园等场所的实时监控。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明一实施例中基于深度学习技术分析多目标对象行为的方法的流程示意图；

图2是本发明另一实施例中基于深度学习技术分析多目标对象行为的方法的目标检测网络框架示例图；

图3是本发明一实施例中基于深度学习技术分析多目标对象行为的方法的多目标融合跟踪网络框架示例图；

图4是本发明实施例中基于深度学习技术分析多目标对象行为的方法的测试结果示意图；

图5是本发明又一实施例中提供的基于深度学习技术分析多目标对象行为的系统结构图。

具体实施方式

以下将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，借此本发明的实施人员可以充分理解本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程并依据上述实现过程具体实施本发明。需要说明的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，只要不构成冲突，本发明中的各个实施例以及各实施例的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内，另外基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

其中第一种方法一般以目标检测算法为基础，一定程度上能够保障目标的定位精度，但是该种算法过于依赖目标检测的性能，运行速度慢，而实际应用时检测需求一般很大，因此，该种方法无法有效地投入实际应用中；第二种方法算法运行速度相对较快，但是对目标检测精度较低，无法保障检测和识别结果的可靠性。多目标行为分析需要精确的跟踪结果，现有研究中的行为分析方法停留在实验阶段，只能依靠采集好的有限数据集进行实验分析，未能形成系统且高效的具备实际应用价值的精确分析方案。目前大多数行为分析算法只是停留在实验阶段，依靠采集好的数据集进行实验分析，并不具备实际应用能力。

实际应用时，多目标跟踪问题较单目标跟踪更复杂，除了一般的物体形变、背景干扰外，还需要解决目标的自动初始化和自动终止、不同目标的区分、目标间交互和遮挡处理、跟丢目标再出现时的再识别等问题。

为解决现有技术中存在的问题，本发明提供一种基于深度学习技术分析多目标对象行为的方法及系统，本发明引入孪生网络代替传统跟踪算法，先通过目标检测网络对每一帧目标进行检测定位，再由孪生网络和重识别网络对目标进行跟踪关联识别，同时考虑到多个网络同时运行造成算法的实时性降低，为此引入多任务学习算法，将孪生网络和重识别网络融合到同一主干网络，极大提高算法运行速度。下面参考附图对本发明各个实施例进行说明。

实施例一

图1示出了本发明实施例一提供的基于深度学习技术分析多目标对象行为的方法的流程示意图，参照图1可知，该方法包括如下步骤。

步骤S110、采集包含至少一个对象的视觉媒体数据，其中所述视觉媒体数据包括：含目标对象的图像数据、视频数据以及动画数据。

实际应用中，可以采用相机或者监控摄像头获取各个对象的图像、视频或动画数据，作为相应对象的视觉媒体数据。

要实现各目标对象的行为识别需要获取表征目标对象行为的特征数据，本发明研究人员基于获取的视觉媒体数据利用多目标追踪技术实现各个目标对象的特征识别。因此有：步骤S120、基于所述视觉媒体数据利用目标检测网络对当前帧各目标对象进行定位；

该步骤中，利用目标检测网络检测视觉媒体数据中当前帧的各目标对象图像，并根据检测结果为各目标对象图像设置定位边界框信息。

多目标跟踪过程中需要同时跟踪多个目标，且不同目标存在不同帧的情况，因此该步骤中，需要通过目标检测网络得到各目标对象的起始帧图像作为需要跟踪的目标图像。

基于深度学习方法实现目标检测定位时，可选择采用yolov3[11]网络作为目标检测网络，需要说明的是，实际应用中，需要将目标检测网络的主网络框架替换设置为与后续跟踪识别过程中涉及网络的主干网络一致，以保障整体计算的稳定性，并提升运算速度，所述目标检测网络的网络框架如图2所示。

结合图2中的信息，检测定位过程中，原始图像通过裁剪满足该目标检测网络的输入图像大小Frame，通过本网络最终生成三组大小不同的特征图FM。其中，模块resn代表resnet不同的layer层，模块DBL由卷积、池化和激活函数组成；模块DBL*5代表重复输入5次；模块concat为张量拼接，将输入两项特征图合并成一项；模块FM为最后输出的特征图。输出的三组FM大小不同，但拥有相同的通道数量，不同大小对图像内不同大小的目标敏感程度不同。FM1是将输入图像分为13*13块，FM2是将输入图像分为26*26块，FM3是将输入图像分为52*52块，分成的块数越多对于小目标越敏感，相反分成的块越少对大目标越敏感。

当采用Yolov3检测网络时，可通过以下操作实现边框回归计算：沿用Yolo9000[12]预测bounding box的方法，每一个anchor box中对每个bounding box预测4个坐标偏移t_x，t_y，t_w，t_h，如果feature map某一单元偏移图片左上角坐(C_x，C_y)，bounding box预测框尺寸为P_w，P_h，从而得到anchor尺寸，生成对预测坐标：b_x，b_y，b_w，b_h，此为feature map层级，而g_x，g_y，g_w，g_h为真值在feature map上的映射，通过预测偏t_x，t_y，t_w，t_h使得b_x，b_y，b_w，b_h与g_x，g_y，g_w，g_h一致。其中，b_x＝σ(t_x)+C_x，b_y＝σ(t_y)+C_y，

在一个实施例中，在步骤S120中，还包括：根据目标检测网络的检测结果为当前帧各目标对象设置属性标签信息。实际应用时，可用不同颜色边框标记不同目标,为每个目标加上特定的ID或名称，以便于各个目标的区分，将检测结果面向用户显示时也能够提升用户观测的体验感。

接下来基于定位后的各目标对象实现跟踪识别，因此有以下步骤：

步骤S130、综合全卷积孪生网络和重识别网络跟踪识别定位后的当前帧各目标对象，获取各目标对象的跟踪结果序列；

一个实施例中，在所述步骤S130中，利用全卷积孪生网络对当前帧定位后的各目标对象进行识别，对应的特征图和特征数据，其中，所述全卷积孪生网络的两个分支分别传入需要跟踪的目标图像和当前帧图像，以目标图像为模板分别通过主干网络提取当前帧图像的特征，在当前帧图像对应的特征图上做卷积操作。

在一个实施例中，通过基于表征学习的重识别算法网络提取各帧目标对象特征图的特征向量，并将上下帧的特征向量进行关联匹配，构建设定时间段内各目标对象的跟踪结果序列。

由于实现多目标跟踪识别的过程中，涉及到多个网络的运算，分别运行会降低整体算法的运行速度，因此在本发明一个优选的实施例中，所述方法还包括：

在步骤S130之前，利用多任务学习方法融合全卷积孪生网络和重识别网络，构建多目标融合跟踪网络，所述全卷积孪生网络和重识别网络采用相同的主干网络，例如全卷积残差网络Resnet-50，使用同一主干网络提取目标特征，之后分别进入跟踪网络分支和重识别网络分支，减少参数量，实现各自功能的同时也提高算法运行速度，所述多目标融合跟踪网络的结构如图3所示。

具体地，结合图3中显示的信息，所述全卷积孪生网络基于孪生网络跟踪算法实现多目标对象的跟踪识别时，在当前帧图像对应的特征图上做卷积操作预测目标位置，生成响应图用于边框回归以及中心点定位。

本发明实施例中将基于表征学习的重识别算法网络作为融合多目标跟踪网络的重识别分支，与孪生跟踪网络分支使用同一主干网络提取目标特征，之后进入自己的重识别网络分支，提取目标对象特征数据对应的特征向量，在视频上下帧中对目标进行匹配识别，从而有效解决多目标互相遮挡，防止多目标跟踪中的ID互换，其中，在重识别网络的算法中，由全连接层和softmax算法进行特征的汇总和分类，最后分成751类，通过主体网络提取目标的特征向量，通过设定算法对多个目标进行关联匹配。

在一个实施例中，在所述步骤S130中，具体利用欧氏距离算法将各目标当前帧的特征向量与前一帧的特征向量进行比对，并结合匈牙利算法实现上下帧各目标对象的关联匹配，以对多目标对象进行实时匹配跟踪，实现连续的轨迹跟踪，得到各目标对象设定时间段内的多帧跟踪结果序列。

然后本发明实施例基于获取的跟踪数据结果利用姿态估计系统(Alphapose)功能输出骨骼节点信息，作为进行行为分析的直接依据，进而利用时空图卷积网络(ST-GCN)分析各目标对象的行为状态，因此有：步骤S140、根据所述跟踪结果序列生成各目标对象对应时间段内的骨骼节点序列，并基于其利用时空图卷积网络自动识别各目标对象的行为分析结果序列。

在一个实施例中，该步骤中，将各目标对象的跟踪结果序列输入姿态估计系统中生成对应的骨骼节点序列，其中，每一帧的跟踪结果包括：各目标对象的ID、定位坐标、原始图片以及目标图像数据，实际应用时，可设置将生成的目标跟踪结果序列，如每个行人的视频序列，送入Alphapose系统生成骨骼节点17个，分别为头部5个节点和四肢12个节点，然后，收集同一目标对象30帧的骨骼节点信息送入ST-GCN网络，进行行为识别，并面向用户显示分析结果。该处生成骨骼节点的数量以及单次送入ST-GCN网络的信息帧数可以由用户根据实际需求设置成合理的数值，该处不予特别限定。

进一步地，将识别获取的多目标行为分析结果序列、对应的骨骼节点序列与跟踪结果序列关联组成最终分析结果面向用户输出，其中，各目标对象的骨骼节点采用彩色的线段和节点显示，保障输出数据全面性的同时，能够让用户更直观的观测到跟踪结果、骨骼节点以及异常行为分析等信息。

补充说明

本发明提供了基于MOT16-09数据集的测试示例，具体在RTX2060显卡上进行测试，测试效果平均每秒传输帧数(FPS Frames Per Second)在10左右，测试结果如图4(a)和图4(b)所示，图片顶部显示实时性FPS、行人个数，目标行人左侧中部标注对象ID，以不同颜色的标框显示行人位置，标框顶部显示行人对象的行为状态，彩色线条显示骨骼节点信息。

另外，本发明还提供一种存储介质，该存储介质上存储有可实现上述任意一个或多个实施例中所述方法的程序代码。

本发明实施例采用上述技术方案实现多目标对象的行为分析，能够有效均衡实现过程中运算速度和运算结果精确度的关系，实时性好，分析结果精确度高，能够有效适用于社区、商厦以及校园等各公共场所的实时监控。

实施例二

基于上述任意一个或多个实施例的其他方面，本发明还提供一种基于深度学习技术分析多目标对象行为的系统，该系统执行如上述任意一个或多个实施例中所述的方法和步骤，图5示出了本发明实施例中基于深度学习技术分析多目标对象行为的系统的结构示意图，如图5所示，该系统包括：

视觉数据采集模块51，其配置为采集包含至少一个对象的视觉媒体数据，其中所述视觉媒体数据包括：含目标对象的图像数据、视频数据以及动画数据；

检测定位模块53，其配置为基于所述视觉媒体数据利用目标检测网络对当前帧各目标对象进行定位；

跟踪识别模块55，其配置为综合全卷积孪生网络和重识别网络跟踪识别定位后的当前帧各目标对象，获取各目标对象的跟踪结果序列；

行为自动分析模块57，其配置为根据所述跟踪结果序列生成各目标对象对应时间段内的骨骼节点序列，并基于其利用时空图卷积网络自动识别各目标对象的行为分析结果序列。

在一个实施例中，所述检测定位模块53，进一步配置为利用目标检测网络检测视觉媒体数据中当前帧的各目标对象图像，并根据检测结果为各目标对象图像设置定位边界框信息。

一个可选的实施例中，所述检测定位模块53还配置为：根据检测结果针对各目标对象设置属性标签信息。

一个实施例中，所述跟踪识别模块55，配置为利用全卷积孪生网络对当前帧定位后的各目标对象进行识别，提取对应的特征图和特征数据，其中，所述全卷积孪生网络的两个分支分别传入需要跟踪的目标图像和当前帧图像，以目标图像为模板分别通过主干网络提取当前帧图像的特征，在当前帧图像对应的特征图上做卷积操作。

一个实施例中，所述跟踪识别模块55，配置为通过基于表征学习的重识别算法网络提取各帧目标对象特征图的特征向量，并将上下帧的特征向量进行关联匹配，构建设定时间段内各目标对象的跟踪结果序列。

一个优选的实施例中，所述跟踪识别模块55，还配置为：在跟踪识别定位后的当前帧各目标对象之前，利用多任务学习方法融合全卷积孪生网络和重识别网络，构建多目标融合跟踪网络，所述全卷积孪生网络和重识别网络采用相同的主干网络。

具体地，所述跟踪识别模块55，进一步配置为：利用欧氏距离算法将各目标当前帧的特征向量与前一帧的特征向量进行比对，并结合匈牙利算法实现上下帧各目标对象的关联匹配，以对多目标对象进行实时匹配跟踪，实现连续的轨迹跟踪。

一个实施例中，所述行为自动分析模块57，配置为将各目标对象的跟踪结果序列输入姿态估计系统中生成对应的骨骼节点序列，其中，每一帧的跟踪结果包括：各目标对象的ID、定位坐标、原始图片以及目标图像数据。

进一步地，一个实施例中，所述行为自动分析模块57，还配置为将识别获取的多目标行为分析结果序列、对应的骨骼节点序列与跟踪结果序列关联组成最终分析结果面向用户输出，其中，各目标对象的骨骼节点采用彩色的线段和节点显示。

本发明实施例提供的基于深度学习技术分析多目标对象行为的系统中，各个模块或单元结构可以根据实际跟踪及分析需求独立运行或组合运行，以实现相应的技术效果。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而不意味着限制。

说明书中提到的“一实施例”意指结合实施例描述的特定特征、结构或特征包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一实施例”并不一定均指同一个实施例。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

Claims

1.一种基于深度学习技术分析多目标对象行为的方法，其特征在于，所述方法包括：

步骤S4、根据所述跟踪结果序列生成各目标对象对应时间段内的骨骼节点序列，并基于其利用时空图卷积网络自动识别各目标对象的行为分析结果序列；

所述方法还包括：在步骤S3之前，利用多任务学习方法融合全卷积孪生网络和重识别网络，构建多目标融合跟踪网络，其中，设置所述全卷积孪生网络和重识别网络采用相同的主干网络；

在所述步骤S3中，包括：

利用全卷积孪生网络对当前帧定位后的各目标对象进行识别，提取对应的特征图和特征数据，进而通过基于表征学习的重识别网络提取各帧目标对象特征图的特征向量，并将上下帧的特征向量进行关联匹配，构建设定时间段内各目标对象的跟踪结果序列。

2.如权利要求1所述的方法，其特征在于，在所述步骤S2中，利用目标检测网络检测视觉媒体数据中当前帧的各目标对象图像，并根据检测结果为各目标对象图像设置定位边界框信息。

3.如权利要求1所述的方法，其特征在于，在所述步骤S3中，利用全卷积孪生网络对当前帧定位后的各目标对象进行识别的过程中，所述全卷积孪生网络的两个分支分别传入需要跟踪的目标图像和当前帧图像，以目标图像为模板分别通过主干网络提取当前帧图像的特征，在当前帧图像对应的特征图上做卷积操作。

4.如权利要求1所述的方法，其特征在于，在所述步骤S3中，利用欧氏距离算法将各目标当前帧的特征向量与前一帧的特征向量进行比对，并结合匈牙利算法实现上下帧各目标对象的关联匹配，以对多目标对象进行实时匹配跟踪，实现连续的轨迹跟踪。

5.如权利要求1所述的方法，其特征在于，在所述步骤S4中，将各目标对象的跟踪结果序列输入姿态估计系统中生成对应的骨骼节点序列，其中，每一帧的跟踪结果包括：各目标对象的ID、定位坐标、原始图片以及目标图像数据。

6.如权利要求1所述的方法，其特征在于，在所述步骤S4中，将识别获取的多目标行为分析结果序列、对应的骨骼节点序列与跟踪结果序列关联组成最终分析结果面向用户输出，其中，各目标对象的骨骼节点采用彩色的线段和节点显示。

7.一种存储介质，其特征在于，所述存储介质上存储有可实现如权利要求1～6中任一项所述方法的程序代码。

8.一种基于深度学习技术分析多目标对象行为的系统，其特征在于，所述系统执行如权利要求1～6中任意一项所述的方法，该系统包括：

行为自动分析模块，其配置为根据所述跟踪结果序列生成各目标对象对应时间段内的骨骼节点序列，并基于其利用时空图卷积网络自动识别各目标对象的行为分析结果序列；

所述跟踪识别模块，配置为利用全卷积孪生网络对当前帧定位后的各目标对象进行识别，提取对应的特征图和特征数据，进而通过基于表征学习的重识别网络提取各帧目标对象特征图的特征向量，并将上下帧的特征向量进行关联匹配，构建设定时间段内各目标对象的跟踪结果序列；

所述跟踪识别模块，还配置为：在跟踪识别定位后的当前帧各目标对象之前，利用多任务学习方法融合全卷积孪生网络和重识别网络，构建多目标融合跟踪网络，所述全卷积孪生网络和重识别网络采用相同的主干网络。