CN115205753A

CN115205753A - 基于计算机视觉的轻量化视频动作理解方法及系统

Info

Publication number: CN115205753A
Application number: CN202210866689.0A
Authority: CN
Inventors: 魏浩; 甄沛宁; 陈海宝
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-10-18

Abstract

本发明提供了一种基于计算机视觉的轻量化视频动作理解方法及系统，包括：根据原始RGB图像得到RGB视频帧图像序列；将RGB视频帧图像序列应用于深度光流提取网络提取相邻视频帧之间的光流场；通过深度神经网络提取RGB视频帧图像中的高维空间特征信息以及光流场之间的高维时间序列特征信息；进行特征融合得到混合后的信息融合特征；将混合后的信息融合特征应用于长短时间记忆网络，训练得到用于视频动作理解的时空网络模型；将时空网络模型进行张量化的精简压缩，得到可实时运行的视频分析模型。本发明可运行于低功耗，低空间占用的移动端平台，可有效的节省电力、空间体积等资源消耗；可有效保证视频理解系统的鲁棒性与普适性。

Description

基于计算机视觉的轻量化视频动作理解方法及系统

技术领域

本发明涉及视频动作分析领域，具体地，涉及一种基于计算机视觉的轻量化视频动作理解方法及系统，更为具体地，涉及一种基于长短时间记忆网络的轻量化视频动作理解方法及系统。

背景技术

在未来的几年中，视频中的信息处理可以说是计算机视觉任务中的下一个前沿领域，因为它捕获了静态图像中无法传达的大量信息。在视频分析研究领域中，最重要的主题之一是就是人的动作识别，因为它可以广泛应用于生产、工业和国防等领域，例如安防监控、机器人技术、人机交互和自动驾驶等。在生产生活中的实际应用需要相关网络系统既快速又准确。然而，分析视频既需要捕获空间图像上的变化，又需要视频帧之间的时序关系，这使得有效解决实际问题更具挑战性。尽管困难重重，但由于深度神经网络的广泛应用，近年来在该研究领域取得了长足进展。

如今，人们通过更神更宽的神经网络已经实现了很高的人类动作识别精度。已经有许多基于2D和3D卷积神经网络(CNN)的方法被报道可以实现很高的动作识别精度。然而，识别精度的提升是以高昂的计算复杂度为代价的。更深更广的网络带来了更多的权重矩阵乘法，这反过来又增加了相当可观的计算资源和能量耗。对于存储空间和内存有限的嵌入式物联网设备，对计算资源的超高要求令人望而却步，也使得实际应用变得不再现实。此外，如方法[29,30]等中采用的具有深度维度的3D卷积引入了额外的模型参数，从而增加了模型存储大小和模型延迟时间。因此，人们无法在资源受限的边缘移动设备上实现基于3D卷积神经网络的系统的应用。

作为一个动态的事件，我们更自然的想到通过使用LSTM模型在序列数据中捕获时间信息，在例如自然语言处理和视频分析等领域其也被证明是更有效的。根据经验，用于动作识别的普通LSTM的模型尺寸较大(通常大于500MB)，并且需要许多算术运算；从内存的角度来看，与小型神经网络模型相比，它们还需要更多的内存访存周期。由于巨大的模型尺寸和计算复杂性，这些基于常规LSTM的动作识别系统无法直接部署在实际应用的IoT设备上。常规LSTM中存在大量计算的主要原因是，它们的全连接层中具有过多的冗余参数，尤其是在以高维序列数据作为输入的情况下。在一个一的层全连接层中存在有数百万个权重参数，这会带来巨大的计算开销和硬件资源消耗。例如，给定大小为14×14×512大小的从VGG16网络中提取的图像特征和长度为256的输出向量，则计算权重矩阵W的参数总数大于两千五百万个。此外，常规的LSTM通常是内存受限的，其训练运行可以占Google TPU工作量中的29％。因此，在边缘移动设备上运行大型的LSTM网络将消耗大量能量，因为它需要大量内存带宽才能获取权重矩阵，并且需要大量的计算量来进行向量和矩阵的乘法。基于上述观察，在资源受限的移动物联网边缘设备上实现快速，准确的基于LSTM的动作识别系统仍然是一个巨大的挑战。为了解决这个问题，我们引入了张量序列分解技术以来压缩动作识别全连接层中的大规模权重矩阵。我们首先将大规模矩阵重塑为高维张量，然后分解为低秩张量核的成绩。这样，所提出的时空LSTM模型可以用上千倍少的参数表示，并且可以防止过拟合问题。

专利文献CN100538743C(申请号：CN200580036618.2)公开了一种用于相机运动分析和移动对象分析的方法和集成系统，和主要从没有镜头变化的视频和视频段中的相机运动参数提取语义的方法。这样的视频的典型例子是由数码相机拍摄的家庭视频和专业视频或电影的一个片段或剪辑。提取的语义能够直接地用于多个对视频/图像的理解和管理应用中，例如评注、浏览、编辑、帧增强、关键帧提取、全景生成、打印、检索、汇总。还描述了不依赖于对象的先验知识的检测和跟踪运动对象的自动方法。但该发明没有基于计算机视觉的轻量化视频动作理解方法及系统模块化设计，通过对各深度网络模型的通用模块化设计和建立一套模型分析连接机制。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于计算机视觉的轻量化视频动作理解方法及系统。

根据本发明提供的一种基于计算机视觉的轻量化视频动作理解方法，包括：

步骤S1：将短视频序列的图像截取处理为统一大小尺寸的原始RGB图像，根据原始RGB图像得到RGB视频帧图像序列；

步骤S2：将RGB视频帧图像序列通过深度光流提取网络提取相邻视频帧之间的光流场；

步骤S3：通过深度神经网络提取RGB视频帧图像中的高维空间特征信息以及光流场之间的高维时间序列特征信息；

步骤S4：将RGB视频帧图像中的高维空间特征和光流场之间的高维时间序列特征进行特征融合，得到混合后的信息融合特征；

步骤S5：将混合后的信息融合特征应用于长短时间记忆网络，训练得到用于视频动作理解的时空网络模型；

步骤S6：将时空网络模型进行张量化的精简压缩，得到可实时运行的视频分析模型。

优选地，在所述步骤S1中：

将短视频序列按照15FPS的帧率，通过视频截取程序软件将图像截取处理为统一大小尺寸的原始RGB图像。

优选地，在所述步骤S6中：

对训练后的基于长短时间记忆网络的动作理解时空网络模型进行张量化的精简压缩，得到复杂度降低的可实时运行的视频分析模型，其包括如下步骤：

步骤S6.1：对训练后的基于长短时间记忆网络的动作理解时空网络模型的权重参数矩阵W和输入特征x进高维张量表示，得到张量化的模型参数和输入特征；根据高维张量表示的模型参数和输入特征得到用高维张量表示参数的深度动作理解LSTM模型；

步骤S6.2：对步骤S6.1中的用高维张量表示参数的深度动作理解LSTM模型进行张量列式分解得到权重参数张量列式分解后的深度动作理解LSTM模型；

步骤S6.3：对权重参数张量列分解后的深度动作理解LSTM模型进行模型低比特量化精简得到量化后的深度动作理解LSTM模型；通过逐次渐进低比特量化模型压缩方法，压缩量化后的深度动作理解LSTM模型得到可实时运行的视频模型。

优选地，在步骤S6.1中：预设权重参数矩阵W，通过矩阵分解和重排列操作将W张量化表示为d维的张量参数

预设输入特征x，同样通过矩阵分解和形变操作将x张量化为d维的张量特征

在步骤S6,2中：张量化列式分解包括：

给定张量化表示的d维张量参数

通过使用d个张量核

的连续相乘进行分解和表示，其中l_k代表张量核中每一维度张量的维度，r_k表示张量秩，张量秩为张量分解后矩阵相应的维度大小，k∈[1,d]；

中的每一个元素通过如下方式重建：

其中，p_k表示矩阵中某一维度切片的序号，且p_k∈[1,l_k]。

优选地，在步骤S6.3中：分解压缩后的深度时空LSTM模型为：

其中，

是深度时空LSTM模型中输入层至隐藏层的输出，

是4维张量核，

是张量化表示的特征，

是张量化表示的偏置，i_m和j_n均为多维张量中维度的序号，其中m＝{1、2、......、d}，n＝{1、2、......、d}。

根据本发明提供的一种基于计算机视觉的轻量化视频动作理解系统，包括：

模块M1：将短视频序列的图像截取处理为统一大小尺寸的原始RGB图像，根据原始RGB图像得到RGB视频帧图像序列；

模块M2：将RGB视频帧图像序列通过深度光流提取网络提取相邻视频帧之间的光流场；

模块M3：通过深度神经网络提取RGB视频帧图像中的高维空间特征信息以及光流场之间的高维时间序列特征信息；

模块M4：将RGB视频帧图像中的高维空间特征和光流场之间的高维时间序列特征进行特征融合，得到混合后的信息融合特征；

模块M5：将混合后的信息融合特征应用于长短时间记忆网络，训练得到用于视频动作理解的时空网络模型；

模块M6：将时空网络模型进行张量化的精简压缩，得到可实时运行的视频分析模型。

优选地，在所述模块M1中：

优选地，在所述模块M6中：

模块M6.1：对训练后的基于长短时间记忆网络的动作理解时空网络模型的权重参数矩阵W和输入特征x进高维张量表示，得到张量化的模型参数和输入特征；根据高维张量表示的模型参数和输入特征得到用高维张量表示参数的深度动作理解LSTM模型；

模块M6.2：对模块M6.1中的用高维张量表示参数的深度动作理解LSTM模型进行张量列式分解得到权重参数张量列式分解后的深度动作理解LSTM模型；

模块M6.3：对权重参数张量列分解后的深度动作理解LSTM模型进行模型低比特量化精简得到量化后的深度动作理解LSTM模型；通过逐次渐进低比特量化模型压缩方法，压缩量化后的深度动作理解LSTM模型得到可实时运行的视频模型。

优选地，在模块M6.1中：预设权重参数矩阵W，通过矩阵分解和重排列操作将W张量化表示为d维的张量参数

在模块M6,2中：张量化列式分解包括：

给定张量化表示的d维张量参数

通过使用d个张量核

中的每一个元素通过如下方式重建：

其中，p_k表示矩阵中某一维度切片的序号，且p_k∈[1,l_k]。

优选地，在模块M6.3中：分解压缩后的深度时空LSTM模型为：

其中，

是深度时空LSTM模型中输入层至隐藏层的输出，

是4维张量核，

是张量化表示的特征，

与现有技术相比，本发明具有如下的有益效果：

1、本发明的动作理解时空网络模型的简洁，通过深度张量列分解压缩技术，将基于长短时间记忆网络的模型动作理解时空网络模型中，权重参数的高维权重核(kernel)分解成为一个低维张量序列的乘积，此低维张量序列可近似拟合模型中的权重大小，并同时将权重参数数量大幅缩小，将模型计算复杂度从幂指数降低为线性，通过深度张量压缩技术压缩视频动作理解时空网络模型模型，可以使得视频动作理解系统中采用的深度时空LSTM模型大小压缩3倍以上，模型的训练时间减小4倍；

2、本发明的动作理解时空网络模型高效，通过深度时空LSTM模型的应用，可以实现实时准确的视频动作理解，运行速度达到20fps以上；进一步的通过深度模型压缩技术，使得视频动作理解模型的体积大幅减小，运行速度大幅提升；使得本发明可运行于低功耗，低空间占用的移动端平台，可有效的节省电力、空间体积等资源消耗；

3、本发明基于计算机视觉的轻量化视频动作理解方法及系统模块化设计，通过对各深度网络模型的通用模块化设计和建立一套模型分析连接机制，本发明可以适应真实应用场景下的不同复杂环境的视频序列，可有效保证视频理解系统的鲁棒性与普适性，为后续系统在不同环境下的部署应用打下基础。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例提供的基于计算机视觉的轻量化视频动作理解方法及系统的流程图；

图2为本发明实施例提供的基于长短时间记忆网络的动作理解时空网络模型；

图3为本发明实施例提供的光流法原理示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1：

本发明公开了一种基于计算机视觉的轻量化视频动作理解方法及系统，该方法包括如下步骤：将视频序列截取处理为RGB视频帧；根据视频序列截取处理后的RGB视频帧提取相邻图像之间的光流场；通过视频序列截取处理后的RGB视频帧构建深度神经网络模型并提取RGB视频帧之间的高维特征；通过视频帧相邻图像之间的光流场构建深度神经网络模型并提取光流场的高维特征；将提取的RGB视频帧之间的高维特征和提取的光流场的高维特征进行堆叠融合，形成混合高维特征；通过混合高维特征训练基于长短时间记忆网络(LSTM)的时空视频动作理解模型；基于长短时间记忆网络的视频动作理解模型，通过张量分解结构压缩视频动作理解模型尺寸；通过压缩的长短时间记忆网络时空模型实现视频中的动作理解。

根据本发明提供的一种基于计算机视觉的轻量化视频动作理解方法，如图1-图3所示，包括：

具体地，在所述步骤S1中：

具体地，在所述步骤S6中：

具体地，在步骤S6.1中：预设权重参数矩阵W，通过矩阵分解和重排列操作将W张量化表示为d维的张量参数

在步骤S6,2中：张量化列式分解包括：

给定张量化表示的d维张量参数

通过使用d个张量核

中的每一个元素通过如下方式重建：

其中，p_k表示矩阵中某一维度切片的序号，且p_k∈[1,l_k]。

具体地，在步骤S6.3中：分解压缩后的深度时空LSTM模型为：

其中，

是深度时空LSTM模型中输入层至隐藏层的输出，

是4维张量核，

是张量化表示的特征，

具体地，在所述模块M1中：

具体地，在所述模块M6中：

具体地，在模块M6.1中：预设权重参数矩阵W，通过矩阵分解和重排列操作将W张量化表示为d维的张量参数

在模块M6,2中：张量化列式分解包括：

给定张量化表示的d维张量参数

通过使用d个张量核

中的每一个元素通过如下方式重建：

其中，p_k表示矩阵中某一维度切片的序号，且p_k∈[1,l_k]。

具体地，在模块M6.3中：分解压缩后的深度时空LSTM模型为：

其中，

是深度时空LSTM模型中输入层至隐藏层的输出，

是4维张量核，

是张量化表示的特征，

实施例2：

实施例2为实施例1的优选例，以更为具体地对本发明进行说明。

本发明属于人工智能深度学习技术在视频动作分析领域的研究和应用，本发明解决的技术问题是：克服现有技术的缺陷，提供了一种基于计算机视觉的轻量化视频动作理解方法及系统，有效的提升视频理解系统的运行速度、准确性及可拓展性。

图1是本发明实施例提供的基于计算机视觉的轻量化视频动作理解方法及系统的流程图。如图1所示，该方法包括如下步骤：

步骤一：将短视频序列按照15FPS的帧率，通过视频截取程序软件将图像截取处理为统一大小尺寸的原始RGB图像，根据原始RGB图像得到RGB视频帧图像序列；

步骤二：将步骤一中截取到的RGB视频帧图像序列应用于深度光流提取网络，通过深度光流提取网络提取相邻视频帧之间的光流场；

步骤三：将步骤一中截取的RGB视频帧图像序列应用于深度神经网络，通过深度神经网络提取RGB视频帧图像中的高维空间特征信息；

将步骤二中提取到的相邻视频帧之间的光流场应用于深度神经网络，通过深度神经网络提取光流场之间的高维时间序列特征信息；

步骤四：将步骤三中得到的RGB视频帧图像中的高维空间特征和光流场之间的高维时间序列特征进行特征融合，得到混合后的信息融合特征；

步骤五：将步骤四中得到的混合后的信息融合特征应用于长短时间记忆网络，训练得到用于视频动作理解的时空网络模型；

步骤六：将步骤五中得到的基于长短时间记忆网络的动作理解时空网络模型进行张量化的精简压缩，得到模型复杂度大幅度降低的可实时运行的视频分析模型。

在步骤六中，对训练后的基于长短时间记忆网络的动作理解时空网络模型进行张量化的精简压缩，得到模型复杂度大幅度降低的可实时运行的视频分析模型包括如下步骤：

(1)对训练后的基于长短时间记忆网络的动作理解时空网络模型的权重参数矩阵W和输入特征x进高维张量表示，得到张量化的模型参数和输入特征；根据高维张量表示的模型参数和输入特征得到用高维张量表示参数的深度动作理解LSTM模型；

(2)对步骤(1)中的用高维张量表示参数的深度动作理解LSTM模型进行张量列式分解得到权重参数张量列式分解后的深度动作理解LSTM模型；

(3)对权重参数张量列分解后的深度动作理解LSTM模型进行模型低比特量化精简得到量化后的深度动作理解LSTM模型；通过逐次渐进低比特量化模型压缩方法，压缩量化后的深度动作理解LSTM模型得到可实时运行的视频模型。

在步骤(1)中，预设权重参数矩阵W，通过矩阵分解和形变操作将W张量化表示为d维的张量参数

在步骤(2)中，张量化列式分解包括：

给定张量化表示的d维张量参数

其可以通过使用d个张量核

的连续相乘进行分解和表示，其中l_k代表张量核中每一维度张量的维度，r_k表示张量秩也即为张量分解后矩阵相应的维度大小，k∈[1,d]；

中的每一个元素都可以通过如下方式重建：

其中，p_k表示矩阵中某一维度切片的序号，且p_k∈[1,l_k]。

在步骤(3)中，分解压缩后的深度时空LSTM模型为：

其中，

是深度时空LSTM模型中输入层-隐藏层的输出，

是4维张量核，

是张量化表示的特征，

具体的，1)离线训练深度学习光流预测模型，通过大量的先验光流场数据，采用CNN网络基于梯度下降逐次拟合训练高效极光流场预测追踪模型。训练好的深度光流预测模型可根据不同的视频图像推理预测相邻图像之内运动的变化轨迹，获得相邻图像之间的时间信息。

2)特征提取以及融合技术，使用预训练的深度神经网络模型进行图像特征以及光流场特征的提取。将截取的RGB视频帧图像序列应用于深度神经网络，通过深度神经网络提取RGB视频帧图像中的高维空间特征信息；同时将提取到的相邻视频帧之间的光流场应用于深度神经网络，通过深度神经网络提取光流场之间的高维时间序列特征信息；最终将包含时间和空间信息的高维特征进行堆叠融合，得到同时包含时空信息的融合高维特征。

3)以长短时间记忆网络的为基础的深度视频动作识别算法，通过特征提取、融合以及张量化表示等步骤，拟合提取视频中不同的动作信息，使得基于长短时间记忆网络的深度时空模型可以针对每段视频进行不同动作的判别。

4)步骤3)中训练后的基于长短时间记忆网络的深度时空模型的模型层数较深且参数矩阵(即多维的张量)较大，一定程度上影响了视频动作理解预测的速度。本步骤中通过深度模型张量压缩技术，对基于长短时间记忆网络的深度时空模型进行权重张量精简，以达到实时运行的目的。

具体的，对训练后的基于长短时间记忆网络的动作理解时空网络模型进行张量化的精简压缩，得到模型复杂度大幅度降低的可实时运行的视频分析模型包括如下步骤：

3.1、对步骤四中的训练后基于长短时间记忆网络的深度时空模型参数矩阵进行张量化表示，得到用高维张量表示的模型参数和输入特征。在深度时空模型的推理计算中，给定权重参数矩阵W，通过矩阵分解和重排列操作将W张量化表示为d维的张量参数

预设输入特征x，同样通过矩阵分解和重排列操作将x张量化为d维的张量特征

3.2、对步骤3.1中的用高维张量表示参数的基于长短时间记忆网络的深度时空模型进行张量化列式分解，得到用低维度张量序列表示的参数张量化分解表示。通过使用张量分解，可以将高阶张量参数矩阵分解为一系列低阶张量的乘积。

首先，给定张量化表示的d维张量参数

其可以通过使用d个张量核

中的每一个元素都可以通过如下方式重建：

其中，p_k表示矩阵中某一维度切片的序号，且p_k∈[1,l_k]。通过上述分解公式的运算，可以使得构建d维张量

所需要的参数量从

减小到

其中l_k和r是分解后矩阵的大小。

3.3、对步骤3.1和3.2得到的，权重参数张量列式分解后的基于长短时间记忆网络的深度时空模型，进行视频分析张量化推理计算，得到视频分析结果。根据神经网络的普适计算y＝Wx+b，可将基于张量列式压缩的模型计算最终表示为：

其中，

是深度时空LSTM模型中输入层-隐藏层的输出，

是4维张量核，

是张量化表示的特征，

是张量化表示的偏置，i_m和j_n均为多维张量中维度的序号且i_k×j_k＝p_k，其中m＝{1、2、......、d}，n＝{1、2、......、d}。

3.4、采用基于张量化压缩的基于长短时间记忆网络的深度时空模型，进行视频内动作的理解和判别。通过深度时空LSTM模型，判断视频序列在每一帧内的动作，通过融合得到整个视频片段的动作内容。

动作识别的目标是识别出视频中出现的动作，通常是视频中人的动作。视频可以看作是由一组图像帧按时间顺序排列而成的数据结构，比单一图像增加了时间维度。动作识别不仅要分析视频中每帧图像的内容，还需要从视频帧之间的时序信息中挖掘线索。动作识别是视频理解的核心领域，虽然动作识别主要是识别视频中人的动作，但是当前本领域发展出来的算法大多数不特定针对人，也可以用于其他视频分类场景；同时为了提高算法的准确性，通常基于深度学习的模型都拥有很大的模型尺寸和计算复杂度，严重影响了相关模型在移动端的部署和应用。

为了在边缘移动设备和工业应用的视频上实现快速准确的动作识别，本发明搭建具有结构化时间序列融合特征的时空长短时间记忆网络模型，该模型通过张量序列分解进行进一步的深度压缩以减少计算量提高运行速度。结果表明本发明的方法具有较少的模型复杂度，同时又保持了非常优异有竞争力的动作识别性能。深度学习神经网络的张量压缩技术。张量压缩技术能显著减少时序深度学习神经网络(RNN)的计算量，得到轻量级深度学习网络，在权衡准确度的基础上使得处理动态图像的速度得到大幅提升。就时空长短时间记忆网络中全连接层而言，全连接通过权重矩阵将输入向量变换到输出向量，其参数为二阶矩阵。基于张量分解的算法模型压缩的基本思想是利用张量分解的技术将算法模型的高维参数重新表达为低维张量的组合，将模型计算复杂度从幂指数降低为线性，新表达后的张量组能够在一定的精度下近似与原张量相同，而所占用的空间又得到大大降低，从而获得网络算法模型压缩的效果。

本发明完成的总体框架如图1所示，其中以深度学习特征提取和融合法为代表的计算机视觉技术为本发明框架提供了准确性以及实时性的特征分析；进一步的，通过张量化列式压缩等模型优化技术，使得模型参数量和模型尺寸大幅减少，模型运行速度和资源消耗大大减少，提高了模型的整体性能，使得视频理解判别系统更加准确高效。

本实施例采用深度计算机视觉算法的压缩技术与各模型的模块化设计将有效的提升视频理解分析系统的运行速度、准确性及可拓展性，其优点为：

1)动作理解时空网络模型的简洁性。通过深度张量列分解压缩技术，将基于长短时间记忆网络的模型动作理解时空网络模型中，权重参数的高维权重核(kernel)分解成为一个低维张量序列的乘积。此低维张量序列可近似拟合模型中的权重大小，并同时将权重参数数量大幅缩小，将模型计算复杂度从幂指数降低为线性。通过深度张量压缩技术压缩视频动作理解时空网络模型模型，可以使得视频动作理解系统中采用的深度时空LSTM模型大小压缩5倍以上，模型的训练时间减小3倍。

2)动作理解时空网络模型的高效性。通过深度时空LSTM模型的应用，可以实现实时准确的视频动作理解，运行速度达到20fps以上。进一步的通过深度模型压缩技术，使得视频动作理解模型的体积大幅减小，运行速度大幅提升。使得本发明可运行于低功耗，低空间占用的移动端平台，可有效的节省电力、空间体积等资源消耗。

3)基于计算机视觉的轻量化视频动作理解方法及系统模块化设计。通过对各深度网络模型的通用模块化设计和建立一套模型分析连接机制，本发明可以适应真实应用场景下的不同复杂环境的视频序列，可有效保证视频理解系统的鲁棒性与普适性，为后续系统在不同环境下的部署应用打下基础。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。