CN116168334A

CN116168334A - 一种视频行为分类的方法及终端

Info

Publication number: CN116168334A
Application number: CN202310459136.8A
Authority: CN
Inventors: 梁浩; 张宇; 刘东剑
Original assignee: Santachi Video Technology Shenzhen Co ltd
Current assignee: Santachi Video Technology Shenzhen Co ltd
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-05-26

Abstract

本发明公开了一种视频行为分类的方法及终端，获取图形分类模型，将图形分类模型进行拆分，将不包含全连接层的图形分类模型作为第一模型，将全连接层作为第二模型。而在边缘设备上分别部署第一模型和第二模型后，将一次性对多张图片进行同时推理，拆解为多次进行单张图片的推理，将多个推理结果合并重塑后再推理得到视频数据的置信度，能够减少同时推理造成的重复计算。并且，通过将第一模型和第二模型的分开部署，能够减小计算量。

Description

一种视频行为分类的方法及终端

技术领域

本发明涉及视频分类技术领域，特别涉及一种视频行为分类的方法及终端。

背景技术

目前常用的视频行为分类算法有两种：

一种是slowfast方法，Facebook的AI研究团队发表的一种快慢结合的网络，用于视频行为分类。其中一路为Slow网络，输入为低帧率，用来捕获空间语义信息；另一路为Fast网络，输入为高帧率，用来捕获运动信息。通过Slow通道和Fast通道的侧向连接融合，在Kinetics400数据集上达到了79%的精度。

但是，该方法有两个5维数据的输入，且使用3D卷积，使得其在部分具备神经网络加速计算模块的边缘设备上难以进行部署。另外，该方法计算量大，且大量图片会重复参与运算，无法达到实时检测的效果。最后，该方法在大型数据集上表现较好，但是在小型数据集上表现不佳。

另一种是X3D方法，一个高效的视频网络家族，它在空间、时间、宽度和深度上沿多个网络轴逐步扩展了一个微小的二维图像分类体系结构。受机器学习中的特征选择方法的启发，采用了一种简单的逐步网络扩展方法，在每一步中扩展一个轴，从而实现了对复杂度的良好权衡。为了将X3D扩展到特定的目标复杂度，一般执行渐进式的前向扩展，然后进行向后收缩。X3D实现了最先进的性能，同时所需的乘法加法和参数减少了4.8倍和5.5倍，以达到与以前的工作类似的精度；

但是，该方法使用5维数据输入，也使用3D卷积，虽然参数量相较于slowfast方法有所下降，但是在部分具备神经网络加速计算模块的边缘设备上，仍然难以进行部署。

发明内容

本发明所要解决的技术问题是：提供一种视频行为分类的方法及终端，能够避开边缘设备不支持五维数据的限制，提高边缘设备视频行为分类算法的检测速度。

为了解决上述技术问题，本发明采用的技术方案为：

一种视频行为分类的方法，包括步骤：

获取图形分类模型，将图形分类模型进行拆分，将不包含全连接层的图形分类模型作为第一模型，将所述图形分类模型的全连接层作为第二模型；

分别将所述第一模型和所述第二模型部署到边缘设备上；

将视频数据输入所述第一模型，通过所述第一模型对所述视频数据中的多帧图片依次进行推理；

将多帧的推理结果进行合并重塑后输入所述第二模型，通过所述第二模型对合并重塑后的数据进行推理，得到视频数据的置信度数据，所述置信度数据用于指示所述视频数据的行为分类结果。

为了解决上述技术问题，本发明采用的另一种技术方案为：

一种视频行为分类的终端，包括存储器、处理器以及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

分别将所述第一模型和所述第二模型部署到边缘设备上；

本发明的有益效果在于：获取图形分类模型，将图形分类模型进行拆分，将不包含全连接层的图形分类模型作为第一模型，将全连接层作为第二模型。而在边缘设备上分别部署第一模型和第二模型后，将一次性对多张图片进行同时推理，拆解为多次进行单张图片的推理，将多个推理结果合并重塑后再推理得到视频数据的置信度，能够减少同时推理造成的重复计算。并且，通过将第一模型和第二模型的分开部署，能够减小计算量。

附图说明

图1为本发明实施例的一种视频行为分类的方法的流程图；

图2为本发明实施例的一种视频行为分类的终端的示意图；

标号说明：

1、一种视频行为分类的终端；2、存储器；3、处理器。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

请参照图1，本发明实施例提供了一种视频行为分类的方法，包括步骤：

分别将所述第一模型和所述第二模型部署到边缘设备上；

从上述描述可知，本发明的有益效果在于：获取图形分类模型，将图形分类模型进行拆分，将不包含全连接层的图形分类模型作为第一模型，将全连接层作为第二模型。而在边缘设备上分别部署第一模型和第二模型后，将一次性对多张图片进行同时推理，拆解为多次进行单张图片的推理，将多个推理结果合并重塑后再推理得到视频数据的置信度，能够减少同时推理造成的重复计算。并且，通过将第一模型和第二模型的分开部署，能够减小计算量。

进一步地，所述获取图形分类模型之前，还包括：

构建初始图形分类模型；

将每一段视频进行一次采样，均匀采样预设帧数的图片，得到包含图片的采样数目、通道数、高度和宽度的采样数据；

将第一预设段视频的采样数据作为训练数据，对训练数据进行数据增强；

将第二预设段视频的采样数据作为测试数据，对测试数据进行调整和裁剪；

根据所述训练数据和所述测试数据训练所述初始图形分类模型，以得到图形分类模型。

由上述描述可知，通过对初始图形分类模型进行训练，即可得到图形分类模型，以此方式，便于后续进行图形分类模型的拆分。

进一步地，所述将视频数据输入所述第一模型，通过所述第一模型对所述视频数据中的多帧图片依次进行推理包括：

若视频数据中的图片包含数据批次、图片采样数目、图片通道数、图片高度和图片宽度维度的数据，则将所述视频数据中的图片转换为包含数据批次与图片采样数目的乘积、图片通道数、图片高度和图片宽度维度的四维数据；

在每一数据批次中每次选择一帧图片，依次将多帧图片的四维数据输入所述第一模型中进行推理。

由上述描述可知，图片分类模型使用的是2D卷积和池化，而现有的图形行为分类算法，使用3D卷积和池化，因此本实施例中使用2D卷积池化能够避开边缘设备不支持五维数据的限制。

进一步地，所述将多帧的推理结果进行合并重塑后输入所述第二模型，通过所述第二模型对合并重塑后的数据进行推理，得到视频数据的置信度数据包括：

将多帧的推理结果进行合并重塑，所述推理结果为包含批次和全连接层输入通道数的数据，合并重塑后得到一个包含批次和帧数与全连接层输入通道数的乘积的数据；

实时使用所述第二模型对当前合并重塑后的数据进行推理，得到当前视频数据的置信度数据。

由上述描述可知，将多帧的推理结果进行合并重塑，能够合并不同帧的推理结果，实现对时间维度的处理，从而能够避开进行3D卷积和池化。

进一步地，通过所述第二模型对合并重塑后的数据进行推理，得到视频数据的置信度数据还包括：

通过所述第二模型对合并重塑后的数据进行推理，将推理得到的数据进行激活，激活得到当前视频数据所属行为类别的置信度。

由上述描述可知，将推理得到的结果通过激活函数的计算后，就能够得到当前视频数据属于各个类别的置信度，完成视频数据的分类。

请参照图2，本发明另一实施例提供了一种视频行为分类的终端，包括存储器、处理器以及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

分别将所述第一模型和所述第二模型部署到边缘设备上；

进一步地，所述获取图形分类模型之前，还包括：

构建初始图形分类模型；

由上述描述可知，图片分类模型使用的是2D卷积和池化，而现有的视频行为分类算法，使用3D卷积和池化，因此本实施例中使用2D卷积池化能够避开边缘设备不支持五维数据的限制。

本发明上述的一种视频行为分类的方法及终端，适用于在边缘设备上部署视频行为分类算法，能够避开边缘设备不支持五维数据和3D卷积及池化的限制，提高边缘设备视频行为分类算法的检测速度，以下通过具体的实施方式进行说明：

实施例一

在本实施例中，图片中的参数解释如下：

B：batch-size，单次推理的数据批次；

T：frame-num，图片采样数目，也是一个batch中的图片数目；

C：channel，图片的通道数，默认为3；

H：Height，图片的高度，常使用224；

W：Width，图片的宽度，常使用224；

F：全连接层的输入通道数，图片分类算法resnet18为512，resnet50为2048。

请参照图1，一种视频行为分类的方法，包括步骤：

S1、获取图形分类模型，将图形分类模型进行拆分，将不包含全连接层的图形分类模型作为第一模型，将所述图形分类模型的全连接层作为第二模型。

其中，在小规模数据集上使用预训练模型，在本实施例中，图片推理模块使用以ImageNet1K预训练的图片分类模型，如resnet50，删除图片分类模型的全连接层，其输出是一个（B，F）维度的矩阵，并定义为第一模块。

全连接模块仿照图片分类模型的全连接层，即图片分类模型的最后一层，但是需要将全连接层的输入通道数修改为（T*F），并定义为第二模块。

其中，第一模块与第二模块之间的数据关系为：

输入数据data_1为（B，T，C，H，W）的格式；

将data_1进行reshape（重塑），转换为（B*T，C，H，W）格式的数据data_2；

将data_2送入第一模块中推理，得到（B*T，F）格式的数据data_3，即多帧（B*T帧）图像的推理结果；

将data_3进行reshape，转换为（B，T*F）格式的数据data_4，即将多帧（T帧）图像的推理结果合并为一个推理数据；

将data_4送入第二模块中推理，得到各类别的信息。

其中，在获取图形分类模型之前包括：

S01、构建初始图形分类模型，将每一段视频进行一次采样，均匀采样预设帧数的图片，得到包含图片的采样数目、通道数、高度和宽度的采样数据。

在本实施例中，每一段视频仅采样一次，对一段有M（M>T）帧的视频，使用np.linspace函数对(0,M-1)范围，均匀采样T帧，dtype为np.int32，得到（T，C，H，W）格式的数据。

S02、将第一预设段视频的采样数据作为训练数据，对训练数据进行数据增强。

假设存在X段视频数据，按照9：1的比例划分训练集和测试集，得到的训练集有X*9/10段，测试集有X/10段，每一段视频得到一个（T，C，H，W）格式的数据；

在本实施例中，对训练数据进行数据增强，依次进行Normalize（数据归一化）、RandomAffine（仿射变换）、RandomRotation（随机旋转）、RandomHorizontalFlip（随机水平翻转）、ShortSideResize（短边等比例缩放）、RandomCrop（随机裁剪）。通过对训练集的数据进行随机增强，能够提升输入数据的多样性，防止模型过拟合。

S03、将第二预设段视频的采样数据作为测试数据，对测试数据进行调整和裁剪。

在本实施例中，对测试数据进行处理，依次进行Normalize（数据归一化）、ShortSideResize（短边等比例缩放）、CenterCrop（中心裁剪）。与训练集相比，要剔除所有的随机数据增强方法。

本实施例中，根据所述训练数据和所述测试数据训练所述初始图形分类模型，以得到图形分类模型。将训练后的图形分类模型进行拆分，得到与所述第一模块对应的第一模型，以及与所述第二模块对应的第二模型。

具体的，进行正常模型训练，并保存精度最优的模型：

实现数据生成器；并选择损失函数、设置学习率；从数据生成器中提取数据，送入模型，通过损失函数计算输出和标签之间的损失；梯度反向传播，更新模型权重，使得损失逐渐减小，模型精度逐渐上升，之后进行模型保存。

对保存后的模型进行分解后可以得到与第一模块对应的第一模型，以及与第二模块对应的第二模型。

S2、分别将所述第一模型和所述第二模型部署到边缘设备上。

在本实施例中，保存的第一模型为常规的图片分类模型，能够在绝大多数具备神经网络加速计算模块的边缘设备上正常部署；

保存的第二模型是仅含全连接层的简单模型，参数量和计算量都比较小，且不太方便进行量化，故将其转换为onnx格式，然后使用opencv-dnn模块进行推理部署，或转换到NCNN框架、MNN框架或其他框架进行部署，使用CPU进行推理，不使用设备的加速模块；其中，使用CPU进行推理，是因为在边缘设备上对第二模型进行量化，比较复杂，有些边缘设备不支持；另外第二模型的参数量和计算量都很小，使用CPU和加速模块推理，在速度上不会有质的差别，约为1毫秒左右。

S3、将视频数据输入所述第一模型，通过所述第一模型对所述视频数据中的多帧图片依次进行推理；将多帧的推理结果进行合并重塑后输入所述第二模型，通过所述第二模型对合并重塑后的数据进行推理，得到视频数据的置信度数据，所述置信度数据用于指示所述视频数据的行为分类结果。

S31、若视频数据中的图片包含数据批次、图片采样数目、图片通道数、图片高度和图片宽度维度的数据，则将所述视频数据中的图片转换为包含数据批次与图片采样数目的乘积、图片通道数、图片高度和图片宽度维度的四维数据。

S32、在每一数据批次中每次选择一帧图片，依次将多帧图片的四维数据输入所述第一模型中进行推理。

在本实施例中，对视频进行分析时，每8帧选择1帧，使用第一模型进行推理，得到一个（1，F）的数据。

S33、将多帧的推理结果进行合并重塑，所述推理结果为包含批次和全连接层输入通道数的数据，合并重塑后得到一个包含批次和帧数与全连接层输入通道数的乘积的数据。

在本实施例中，待得到第T个（1，F）的数据后，将T个（1，F）的数据进行合并，然后将合并后的数据重塑成（1，T*F）的数据。

S34、实时使用所述第二模型对当前合并重塑后的数据进行推理，将推理得到的数据进行激活，激活得到当前视频数据的置信度。

在本实施例中，通过第二模型推理重塑后的数据，然后对推理出的数据使用softmax进行激活，得到当前视频数据各类别的置信度。

其中，softmax激活函数与训练的损失函数CrossEntropyLoss相关联。假设存在X类，对每一类的数据取指数，分别是E^x1,E^x2,...，然后对将全部指数计算结果相加，得到Esum，各类别对应的概率分别是E^x1/Esum,E^x2/Esum,...。各类别的概率相加为1。

待得到第T+K个（1，F）的数据后，将最近的T个（1，F）的数据进行合并，然后将合并后的数据重塑成（1，T*F）的数据。

重复执行步骤S323和步骤S324，即可进行实时检测。即第一次得到一个（1，F）数据，第二次得到第二个1，F）数据，依次类推第T次得到第T个（1，F）数据，至此得到一组满足推理的数据（T，F）。那么第T+1次再得到一个（1，F）以后，选择第二次到第T+1次得到的数据组成一组（T，F）数据；每当新得到一个（1，F）数据，就弃用最前面一个（1，F）数据，仅保留最近得到的T组（1，F）数据可用。

因此，本实施例中，使用的骨干网络以2D卷积和2D池化为主，骨干网络可以根据自己的需要进行选择，可选择resnet18、shufflenet、resnet50、resnet101等模型，使绝大多数具备神经网络加速计算模块的边缘设备都能正常进行模型部署；

并且，模型的输入数据从5维转换成4维，使部分不支持5维数据输入的边缘设备也能够完成模型部署；

将单次多张图片的推理，分解成多次单张图片的推理，从而将整体的计算量分多次进行计算，提升模型的单次运行效率；同时，避免一张图片参与多次计算，减少整体的计算量，提高模型的整体运行效率。

实施例二

本实施例提供了一个在边缘设备上进行视频行为分类的实例：

步骤一、使用图片分类模型resnet50作为骨干网络，模型初始权重选择在ImageNet1K上预训练所得权重，图片采样数（T）设置为8。在小规模数据集上训练时，使用一个大规模数据集的预训练模型，能够大幅度提升模型精度。

步骤二、使用UCF101数据集，进行模型训练。

步骤三、训练50个迭代次数得到的最高准确率为88%。

步骤四、分别保存模型1和模型2。

步骤五、将模型1转换到边缘设备mstar339G上进行部署，使用int8量化，使用opencv-dnn模块部署模型2。使用UCF101数据集的测试集进行测试，模型准确率为86.9%，相较于服务器的88%的准确率，误差在可接受范围内。

实施例三

请参照图2，一种视频行为分类的终端1，包括存储器2、处理器3以及存储在所述存储器2上并可在处理器3上运行的计算机程序，所述处理器3执行所述计算机程序时实现实施例一或二的一种视频行为分类的方法的各个步骤。

综上所述，本发明提供的一种视频行为分类的方法及终端，获取图形分类模型，将图形分类模型进行拆分，将不包含全连接层的图形分类模型作为第一模型，将全连接层作为第二模型。而在边缘设备上分别部署第一模型和第二模型后，将一次性对多张图片进行同时推理，拆解为多次进行单张图片的推理，将多个推理结果合并重塑后再推理得到视频数据的置信度，能够减少同时推理造成的重复计算。并且，通过将第一模型和第二模型的分开部署，能够减小计算量。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视频行为分类的方法，其特征在于，包括步骤：

分别将所述第一模型和所述第二模型部署到边缘设备上；

2.根据权利要求1所述的一种视频行为分类的方法，其特征在于，所述获取图形分类模型之前，还包括：

构建初始图形分类模型；

3.根据权利要求1所述的一种视频行为分类的方法，其特征在于，所述将视频数据输入所述第一模型，通过所述第一模型对所述视频数据中的多帧图片依次进行推理包括：

4.根据权利要求3所述的一种视频行为分类的方法，其特征在于，所述将多帧的推理结果进行合并重塑后输入所述第二模型，通过所述第二模型对合并重塑后的数据进行推理，得到视频数据的置信度数据包括：

5.根据权利要求1所述的一种视频行为分类的方法，其特征在于，通过所述第二模型对合并重塑后的数据进行推理，得到视频数据的置信度数据还包括：

6.一种视频行为分类的终端，包括存储器、处理器以及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下步骤：

分别将所述第一模型和所述第二模型部署到边缘设备上；

7.根据权利要求6所述的一种视频行为分类的终端，其特征在于，所述获取图形分类模型之前，还包括：

构建初始图形分类模型；

8.根据权利要求6所述的一种视频行为分类的终端，其特征在于，所述将视频数据输入所述第一模型，通过所述第一模型对所述视频数据中的多帧图片依次进行推理包括：

9.根据权利要求8所述的一种视频行为分类的终端，其特征在于，所述将多帧的推理结果进行合并重塑后输入所述第二模型，通过所述第二模型对合并重塑后的数据进行推理，得到视频数据的置信度数据包括：

10.根据权利要求6所述的一种视频行为分类的终端，其特征在于，通过所述第二模型对合并重塑后的数据进行推理，得到视频数据的置信度数据还包括：