CN116168334A - 一种视频行为分类的方法及终端 - Google Patents

一种视频行为分类的方法及终端 Download PDF

Info

Publication number
CN116168334A
CN116168334A CN202310459136.8A CN202310459136A CN116168334A CN 116168334 A CN116168334 A CN 116168334A CN 202310459136 A CN202310459136 A CN 202310459136A CN 116168334 A CN116168334 A CN 116168334A
Authority
CN
China
Prior art keywords
data
model
video
reasoning
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310459136.8A
Other languages
English (en)
Inventor
梁浩
张宇
刘东剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Santachi Video Technology Shenzhen Co ltd
Original Assignee
Santachi Video Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Santachi Video Technology Shenzhen Co ltd filed Critical Santachi Video Technology Shenzhen Co ltd
Priority to CN202310459136.8A priority Critical patent/CN116168334A/zh
Publication of CN116168334A publication Critical patent/CN116168334A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种视频行为分类的方法及终端,获取图形分类模型,将图形分类模型进行拆分,将不包含全连接层的图形分类模型作为第一模型,将全连接层作为第二模型。而在边缘设备上分别部署第一模型和第二模型后,将一次性对多张图片进行同时推理,拆解为多次进行单张图片的推理,将多个推理结果合并重塑后再推理得到视频数据的置信度,能够减少同时推理造成的重复计算。并且,通过将第一模型和第二模型的分开部署,能够减小计算量。

Description

一种视频行为分类的方法及终端
技术领域
本发明涉及视频分类技术领域,特别涉及一种视频行为分类的方法及终端。
背景技术
目前常用的视频行为分类算法有两种:
一种是slowfast方法,Facebook的AI研究团队发表的一种快慢结合的网络,用于视频行为分类。其中一路为Slow网络,输入为低帧率,用来捕获空间语义信息;另一路为Fast网络,输入为高帧率,用来捕获运动信息。通过Slow通道和Fast通道的侧向连接融合,在Kinetics400数据集上达到了79%的精度。
但是,该方法有两个5维数据的输入,且使用3D卷积,使得其在部分具备神经网络加速计算模块的边缘设备上难以进行部署。另外,该方法计算量大,且大量图片会重复参与运算,无法达到实时检测的效果。最后,该方法在大型数据集上表现较好,但是在小型数据集上表现不佳。
另一种是X3D方法,一个高效的视频网络家族,它在空间、时间、宽度和深度上沿多个网络轴逐步扩展了一个微小的二维图像分类体系结构。受机器学习中的特征选择方法的启发,采用了一种简单的逐步网络扩展方法,在每一步中扩展一个轴,从而实现了对复杂度的良好权衡。为了将X3D扩展到特定的目标复杂度,一般执行渐进式的前向扩展,然后进行向后收缩。X3D实现了最先进的性能,同时所需的乘法加法和参数减少了4.8倍和5.5倍,以达到与以前的工作类似的精度;
但是,该方法使用5维数据输入,也使用3D卷积,虽然参数量相较于slowfast方法有所下降,但是在部分具备神经网络加速计算模块的边缘设备上,仍然难以进行部署。
发明内容
本发明所要解决的技术问题是:提供一种视频行为分类的方法及终端,能够避开边缘设备不支持五维数据的限制,提高边缘设备视频行为分类算法的检测速度。
为了解决上述技术问题,本发明采用的技术方案为:
一种视频行为分类的方法,包括步骤:
获取图形分类模型,将图形分类模型进行拆分,将不包含全连接层的图形分类模型作为第一模型,将所述图形分类模型的全连接层作为第二模型;
分别将所述第一模型和所述第二模型部署到边缘设备上;
将视频数据输入所述第一模型,通过所述第一模型对所述视频数据中的多帧图片依次进行推理;
将多帧的推理结果进行合并重塑后输入所述第二模型,通过所述第二模型对合并重塑后的数据进行推理,得到视频数据的置信度数据,所述置信度数据用于指示所述视频数据的行为分类结果。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种视频行为分类的终端,包括存储器、处理器以及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取图形分类模型,将图形分类模型进行拆分,将不包含全连接层的图形分类模型作为第一模型,将所述图形分类模型的全连接层作为第二模型;
分别将所述第一模型和所述第二模型部署到边缘设备上;
将视频数据输入所述第一模型,通过所述第一模型对所述视频数据中的多帧图片依次进行推理;
将多帧的推理结果进行合并重塑后输入所述第二模型,通过所述第二模型对合并重塑后的数据进行推理,得到视频数据的置信度数据,所述置信度数据用于指示所述视频数据的行为分类结果。
本发明的有益效果在于:获取图形分类模型,将图形分类模型进行拆分,将不包含全连接层的图形分类模型作为第一模型,将全连接层作为第二模型。而在边缘设备上分别部署第一模型和第二模型后,将一次性对多张图片进行同时推理,拆解为多次进行单张图片的推理,将多个推理结果合并重塑后再推理得到视频数据的置信度,能够减少同时推理造成的重复计算。并且,通过将第一模型和第二模型的分开部署,能够减小计算量。
附图说明
图1为本发明实施例的一种视频行为分类的方法的流程图;
图2为本发明实施例的一种视频行为分类的终端的示意图;
标号说明:
1、一种视频行为分类的终端;2、存储器;3、处理器。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
请参照图1,本发明实施例提供了一种视频行为分类的方法,包括步骤:
获取图形分类模型,将图形分类模型进行拆分,将不包含全连接层的图形分类模型作为第一模型,将所述图形分类模型的全连接层作为第二模型;
分别将所述第一模型和所述第二模型部署到边缘设备上;
将视频数据输入所述第一模型,通过所述第一模型对所述视频数据中的多帧图片依次进行推理;
将多帧的推理结果进行合并重塑后输入所述第二模型,通过所述第二模型对合并重塑后的数据进行推理,得到视频数据的置信度数据,所述置信度数据用于指示所述视频数据的行为分类结果。
从上述描述可知,本发明的有益效果在于:获取图形分类模型,将图形分类模型进行拆分,将不包含全连接层的图形分类模型作为第一模型,将全连接层作为第二模型。而在边缘设备上分别部署第一模型和第二模型后,将一次性对多张图片进行同时推理,拆解为多次进行单张图片的推理,将多个推理结果合并重塑后再推理得到视频数据的置信度,能够减少同时推理造成的重复计算。并且,通过将第一模型和第二模型的分开部署,能够减小计算量。
进一步地,所述获取图形分类模型之前,还包括:
构建初始图形分类模型;
将每一段视频进行一次采样,均匀采样预设帧数的图片,得到包含图片的采样数目、通道数、高度和宽度的采样数据;
将第一预设段视频的采样数据作为训练数据,对训练数据进行数据增强;
将第二预设段视频的采样数据作为测试数据,对测试数据进行调整和裁剪;
根据所述训练数据和所述测试数据训练所述初始图形分类模型,以得到图形分类模型。
由上述描述可知,通过对初始图形分类模型进行训练,即可得到图形分类模型,以此方式,便于后续进行图形分类模型的拆分。
进一步地,所述将视频数据输入所述第一模型,通过所述第一模型对所述视频数据中的多帧图片依次进行推理包括:
若视频数据中的图片包含数据批次、图片采样数目、图片通道数、图片高度和图片宽度维度的数据,则将所述视频数据中的图片转换为包含数据批次与图片采样数目的乘积、图片通道数、图片高度和图片宽度维度的四维数据;
在每一数据批次中每次选择一帧图片,依次将多帧图片的四维数据输入所述第一模型中进行推理。
由上述描述可知,图片分类模型使用的是2D卷积和池化,而现有的图形行为分类算法,使用3D卷积和池化,因此本实施例中使用2D卷积池化能够避开边缘设备不支持五维数据的限制。
进一步地,所述将多帧的推理结果进行合并重塑后输入所述第二模型,通过所述第二模型对合并重塑后的数据进行推理,得到视频数据的置信度数据包括:
将多帧的推理结果进行合并重塑,所述推理结果为包含批次和全连接层输入通道数的数据,合并重塑后得到一个包含批次和帧数与全连接层输入通道数的乘积的数据;
实时使用所述第二模型对当前合并重塑后的数据进行推理,得到当前视频数据的置信度数据。
由上述描述可知,将多帧的推理结果进行合并重塑,能够合并不同帧的推理结果,实现对时间维度的处理,从而能够避开进行3D卷积和池化。
进一步地,通过所述第二模型对合并重塑后的数据进行推理,得到视频数据的置信度数据还包括:
通过所述第二模型对合并重塑后的数据进行推理,将推理得到的数据进行激活,激活得到当前视频数据所属行为类别的置信度。
由上述描述可知,将推理得到的结果通过激活函数的计算后,就能够得到当前视频数据属于各个类别的置信度,完成视频数据的分类。
请参照图2,本发明另一实施例提供了一种视频行为分类的终端,包括存储器、处理器以及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取图形分类模型,将图形分类模型进行拆分,将不包含全连接层的图形分类模型作为第一模型,将所述图形分类模型的全连接层作为第二模型;
分别将所述第一模型和所述第二模型部署到边缘设备上;
将视频数据输入所述第一模型,通过所述第一模型对所述视频数据中的多帧图片依次进行推理;
将多帧的推理结果进行合并重塑后输入所述第二模型,通过所述第二模型对合并重塑后的数据进行推理,得到视频数据的置信度数据,所述置信度数据用于指示所述视频数据的行为分类结果。
从上述描述可知,本发明的有益效果在于:获取图形分类模型,将图形分类模型进行拆分,将不包含全连接层的图形分类模型作为第一模型,将全连接层作为第二模型。而在边缘设备上分别部署第一模型和第二模型后,将一次性对多张图片进行同时推理,拆解为多次进行单张图片的推理,将多个推理结果合并重塑后再推理得到视频数据的置信度,能够减少同时推理造成的重复计算。并且,通过将第一模型和第二模型的分开部署,能够减小计算量。
进一步地,所述获取图形分类模型之前,还包括:
构建初始图形分类模型;
将每一段视频进行一次采样,均匀采样预设帧数的图片,得到包含图片的采样数目、通道数、高度和宽度的采样数据;
将第一预设段视频的采样数据作为训练数据,对训练数据进行数据增强;
将第二预设段视频的采样数据作为测试数据,对测试数据进行调整和裁剪;
根据所述训练数据和所述测试数据训练所述初始图形分类模型,以得到图形分类模型。
由上述描述可知,通过对初始图形分类模型进行训练,即可得到图形分类模型,以此方式,便于后续进行图形分类模型的拆分。
进一步地,所述将视频数据输入所述第一模型,通过所述第一模型对所述视频数据中的多帧图片依次进行推理包括:
若视频数据中的图片包含数据批次、图片采样数目、图片通道数、图片高度和图片宽度维度的数据,则将所述视频数据中的图片转换为包含数据批次与图片采样数目的乘积、图片通道数、图片高度和图片宽度维度的四维数据;
在每一数据批次中每次选择一帧图片,依次将多帧图片的四维数据输入所述第一模型中进行推理。
由上述描述可知,图片分类模型使用的是2D卷积和池化,而现有的视频行为分类算法,使用3D卷积和池化,因此本实施例中使用2D卷积池化能够避开边缘设备不支持五维数据的限制。
进一步地,所述将多帧的推理结果进行合并重塑后输入所述第二模型,通过所述第二模型对合并重塑后的数据进行推理,得到视频数据的置信度数据包括:
将多帧的推理结果进行合并重塑,所述推理结果为包含批次和全连接层输入通道数的数据,合并重塑后得到一个包含批次和帧数与全连接层输入通道数的乘积的数据;
实时使用所述第二模型对当前合并重塑后的数据进行推理,得到当前视频数据的置信度数据。
由上述描述可知,将多帧的推理结果进行合并重塑,能够合并不同帧的推理结果,实现对时间维度的处理,从而能够避开进行3D卷积和池化。
进一步地,通过所述第二模型对合并重塑后的数据进行推理,得到视频数据的置信度数据还包括:
通过所述第二模型对合并重塑后的数据进行推理,将推理得到的数据进行激活,激活得到当前视频数据所属行为类别的置信度。
由上述描述可知,将推理得到的结果通过激活函数的计算后,就能够得到当前视频数据属于各个类别的置信度,完成视频数据的分类。
本发明上述的一种视频行为分类的方法及终端,适用于在边缘设备上部署视频行为分类算法,能够避开边缘设备不支持五维数据和3D卷积及池化的限制,提高边缘设备视频行为分类算法的检测速度,以下通过具体的实施方式进行说明:
实施例一
在本实施例中,图片中的参数解释如下:
B:batch-size,单次推理的数据批次;
T:frame-num,图片采样数目,也是一个batch中的图片数目;
C:channel,图片的通道数,默认为3;
H:Height,图片的高度,常使用224;
W:Width,图片的宽度,常使用224;
F:全连接层的输入通道数,图片分类算法resnet18为512,resnet50为2048。
请参照图1,一种视频行为分类的方法,包括步骤:
S1、获取图形分类模型,将图形分类模型进行拆分,将不包含全连接层的图形分类模型作为第一模型,将所述图形分类模型的全连接层作为第二模型。
其中,在小规模数据集上使用预训练模型,在本实施例中,图片推理模块使用以ImageNet1K预训练的图片分类模型,如resnet50,删除图片分类模型的全连接层,其输出是一个(B,F)维度的矩阵,并定义为第一模块。
全连接模块仿照图片分类模型的全连接层,即图片分类模型的最后一层,但是需要将全连接层的输入通道数修改为(T*F),并定义为第二模块。
其中,第一模块与第二模块之间的数据关系为:
输入数据data_1为(B,T,C,H,W)的格式;
将data_1进行reshape(重塑),转换为(B*T,C,H,W)格式的数据data_2;
将data_2送入第一模块中推理,得到(B*T,F)格式的数据data_3,即多帧(B*T帧)图像的推理结果;
将data_3进行reshape,转换为(B,T*F)格式的数据data_4,即将多帧(T帧)图像的推理结果合并为一个推理数据;
将data_4送入第二模块中推理,得到各类别的信息。
其中,在获取图形分类模型之前包括:
S01、构建初始图形分类模型,将每一段视频进行一次采样,均匀采样预设帧数的图片,得到包含图片的采样数目、通道数、高度和宽度的采样数据。
在本实施例中,每一段视频仅采样一次,对一段有M(M>T)帧的视频,使用np.linspace函数对(0,M-1)范围,均匀采样T帧,dtype为np.int32,得到(T,C,H,W)格式的数据。
S02、将第一预设段视频的采样数据作为训练数据,对训练数据进行数据增强。
假设存在X段视频数据,按照9:1的比例划分训练集和测试集,得到的训练集有X*9/10段,测试集有X/10段,每一段视频得到一个(T,C,H,W)格式的数据;
在本实施例中,对训练数据进行数据增强,依次进行Normalize(数据归一化)、RandomAffine(仿射变换)、RandomRotation(随机旋转)、RandomHorizontalFlip(随机水平翻转)、ShortSideResize(短边等比例缩放)、RandomCrop(随机裁剪)。通过对训练集的数据进行随机增强,能够提升输入数据的多样性,防止模型过拟合。
S03、将第二预设段视频的采样数据作为测试数据,对测试数据进行调整和裁剪。
在本实施例中,对测试数据进行处理,依次进行Normalize(数据归一化)、ShortSideResize(短边等比例缩放)、CenterCrop(中心裁剪)。与训练集相比,要剔除所有的随机数据增强方法。
本实施例中,根据所述训练数据和所述测试数据训练所述初始图形分类模型,以得到图形分类模型。将训练后的图形分类模型进行拆分,得到与所述第一模块对应的第一模型,以及与所述第二模块对应的第二模型。
具体的,进行正常模型训练,并保存精度最优的模型:
实现数据生成器;并选择损失函数、设置学习率;从数据生成器中提取数据,送入模型,通过损失函数计算输出和标签之间的损失;梯度反向传播,更新模型权重,使得损失逐渐减小,模型精度逐渐上升,之后进行模型保存。
对保存后的模型进行分解后可以得到与第一模块对应的第一模型,以及与第二模块对应的第二模型。
S2、分别将所述第一模型和所述第二模型部署到边缘设备上。
在本实施例中,保存的第一模型为常规的图片分类模型,能够在绝大多数具备神经网络加速计算模块的边缘设备上正常部署;
保存的第二模型是仅含全连接层的简单模型,参数量和计算量都比较小,且不太方便进行量化,故将其转换为onnx格式,然后使用opencv-dnn模块进行推理部署,或转换到NCNN框架、MNN框架或其他框架进行部署,使用CPU进行推理,不使用设备的加速模块;其中,使用CPU进行推理,是因为在边缘设备上对第二模型进行量化,比较复杂,有些边缘设备不支持;另外第二模型的参数量和计算量都很小,使用CPU和加速模块推理,在速度上不会有质的差别,约为1毫秒左右。
S3、将视频数据输入所述第一模型,通过所述第一模型对所述视频数据中的多帧图片依次进行推理;将多帧的推理结果进行合并重塑后输入所述第二模型,通过所述第二模型对合并重塑后的数据进行推理,得到视频数据的置信度数据,所述置信度数据用于指示所述视频数据的行为分类结果。
S31、若视频数据中的图片包含数据批次、图片采样数目、图片通道数、图片高度和图片宽度维度的数据,则将所述视频数据中的图片转换为包含数据批次与图片采样数目的乘积、图片通道数、图片高度和图片宽度维度的四维数据。
S32、在每一数据批次中每次选择一帧图片,依次将多帧图片的四维数据输入所述第一模型中进行推理。
在本实施例中,对视频进行分析时,每8帧选择1帧,使用第一模型进行推理,得到一个(1,F)的数据。
S33、将多帧的推理结果进行合并重塑,所述推理结果为包含批次和全连接层输入通道数的数据,合并重塑后得到一个包含批次和帧数与全连接层输入通道数的乘积的数据。
在本实施例中,待得到第T个(1,F)的数据后,将T个(1,F)的数据进行合并,然后将合并后的数据重塑成(1,T*F)的数据。
S34、实时使用所述第二模型对当前合并重塑后的数据进行推理,将推理得到的数据进行激活,激活得到当前视频数据的置信度。
在本实施例中,通过第二模型推理重塑后的数据,然后对推理出的数据使用softmax进行激活,得到当前视频数据各类别的置信度。
其中,softmax激活函数与训练的损失函数CrossEntropyLoss相关联。假设存在X类,对每一类的数据取指数,分别是Ex1,Ex2,...,然后对将全部指数计算结果相加,得到Esum,各类别对应的概率分别是Ex1/Esum,Ex2/Esum,...。各类别的概率相加为1。
待得到第T+K个(1,F)的数据后,将最近的T个(1,F)的数据进行合并,然后将合并后的数据重塑成(1,T*F)的数据。
重复执行步骤S323和步骤S324,即可进行实时检测。即第一次得到一个(1,F)数据,第二次得到第二个1,F)数据,依次类推第T次得到第T个(1,F)数据,至此得到一组满足推理的数据(T,F)。那么第T+1次再得到一个(1,F)以后,选择第二次到第T+1次得到的数据组成一组(T,F)数据;每当新得到一个(1,F)数据,就弃用最前面一个(1,F)数据,仅保留最近得到的T组(1,F)数据可用。
因此,本实施例中,使用的骨干网络以2D卷积和2D池化为主,骨干网络可以根据自己的需要进行选择,可选择resnet18、shufflenet、resnet50、resnet101等模型,使绝大多数具备神经网络加速计算模块的边缘设备都能正常进行模型部署;
并且,模型的输入数据从5维转换成4维,使部分不支持5维数据输入的边缘设备也能够完成模型部署;
将单次多张图片的推理,分解成多次单张图片的推理,从而将整体的计算量分多次进行计算,提升模型的单次运行效率;同时,避免一张图片参与多次计算,减少整体的计算量,提高模型的整体运行效率。
实施例二
本实施例提供了一个在边缘设备上进行视频行为分类的实例:
步骤一、使用图片分类模型resnet50作为骨干网络,模型初始权重选择在ImageNet1K上预训练所得权重,图片采样数(T)设置为8。在小规模数据集上训练时,使用一个大规模数据集的预训练模型,能够大幅度提升模型精度。
步骤二、使用UCF101数据集,进行模型训练。
步骤三、训练50个迭代次数得到的最高准确率为88%。
步骤四、分别保存模型1和模型2。
步骤五、将模型1转换到边缘设备mstar339G上进行部署,使用int8量化,使用opencv-dnn模块部署模型2。使用UCF101数据集的测试集进行测试,模型准确率为86.9%,相较于服务器的88%的准确率,误差在可接受范围内。
实施例三
请参照图2,一种视频行为分类的终端1,包括存储器2、处理器3以及存储在所述存储器2上并可在处理器3上运行的计算机程序,所述处理器3执行所述计算机程序时实现实施例一或二的一种视频行为分类的方法的各个步骤。
综上所述,本发明提供的一种视频行为分类的方法及终端,获取图形分类模型,将图形分类模型进行拆分,将不包含全连接层的图形分类模型作为第一模型,将全连接层作为第二模型。而在边缘设备上分别部署第一模型和第二模型后,将一次性对多张图片进行同时推理,拆解为多次进行单张图片的推理,将多个推理结果合并重塑后再推理得到视频数据的置信度,能够减少同时推理造成的重复计算。并且,通过将第一模型和第二模型的分开部署,能够减小计算量。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种视频行为分类的方法,其特征在于,包括步骤:
获取图形分类模型,将图形分类模型进行拆分,将不包含全连接层的图形分类模型作为第一模型,将所述图形分类模型的全连接层作为第二模型;
分别将所述第一模型和所述第二模型部署到边缘设备上;
将视频数据输入所述第一模型,通过所述第一模型对所述视频数据中的多帧图片依次进行推理;
将多帧的推理结果进行合并重塑后输入所述第二模型,通过所述第二模型对合并重塑后的数据进行推理,得到视频数据的置信度数据,所述置信度数据用于指示所述视频数据的行为分类结果。
2.根据权利要求1所述的一种视频行为分类的方法,其特征在于,所述获取图形分类模型之前,还包括:
构建初始图形分类模型;
将每一段视频进行一次采样,均匀采样预设帧数的图片,得到包含图片的采样数目、通道数、高度和宽度的采样数据;
将第一预设段视频的采样数据作为训练数据,对训练数据进行数据增强;
将第二预设段视频的采样数据作为测试数据,对测试数据进行调整和裁剪;
根据所述训练数据和所述测试数据训练所述初始图形分类模型,以得到图形分类模型。
3.根据权利要求1所述的一种视频行为分类的方法,其特征在于,所述将视频数据输入所述第一模型,通过所述第一模型对所述视频数据中的多帧图片依次进行推理包括:
若视频数据中的图片包含数据批次、图片采样数目、图片通道数、图片高度和图片宽度维度的数据,则将所述视频数据中的图片转换为包含数据批次与图片采样数目的乘积、图片通道数、图片高度和图片宽度维度的四维数据;
在每一数据批次中每次选择一帧图片,依次将多帧图片的四维数据输入所述第一模型中进行推理。
4.根据权利要求3所述的一种视频行为分类的方法,其特征在于,所述将多帧的推理结果进行合并重塑后输入所述第二模型,通过所述第二模型对合并重塑后的数据进行推理,得到视频数据的置信度数据包括:
将多帧的推理结果进行合并重塑,所述推理结果为包含批次和全连接层输入通道数的数据,合并重塑后得到一个包含批次和帧数与全连接层输入通道数的乘积的数据;
实时使用所述第二模型对当前合并重塑后的数据进行推理,得到当前视频数据的置信度数据。
5.根据权利要求1所述的一种视频行为分类的方法,其特征在于,通过所述第二模型对合并重塑后的数据进行推理,得到视频数据的置信度数据还包括:
通过所述第二模型对合并重塑后的数据进行推理,将推理得到的数据进行激活,激活得到当前视频数据所属行为类别的置信度。
6.一种视频行为分类的终端,包括存储器、处理器以及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
获取图形分类模型,将图形分类模型进行拆分,将不包含全连接层的图形分类模型作为第一模型,将所述图形分类模型的全连接层作为第二模型;
分别将所述第一模型和所述第二模型部署到边缘设备上;
将视频数据输入所述第一模型,通过所述第一模型对所述视频数据中的多帧图片依次进行推理;
将多帧的推理结果进行合并重塑后输入所述第二模型,通过所述第二模型对合并重塑后的数据进行推理,得到视频数据的置信度数据,所述置信度数据用于指示所述视频数据的行为分类结果。
7.根据权利要求6所述的一种视频行为分类的终端,其特征在于,所述获取图形分类模型之前,还包括:
构建初始图形分类模型;
将每一段视频进行一次采样,均匀采样预设帧数的图片,得到包含图片的采样数目、通道数、高度和宽度的采样数据;
将第一预设段视频的采样数据作为训练数据,对训练数据进行数据增强;
将第二预设段视频的采样数据作为测试数据,对测试数据进行调整和裁剪;
根据所述训练数据和所述测试数据训练所述初始图形分类模型,以得到图形分类模型。
8.根据权利要求6所述的一种视频行为分类的终端,其特征在于,所述将视频数据输入所述第一模型,通过所述第一模型对所述视频数据中的多帧图片依次进行推理包括:
若视频数据中的图片包含数据批次、图片采样数目、图片通道数、图片高度和图片宽度维度的数据,则将所述视频数据中的图片转换为包含数据批次与图片采样数目的乘积、图片通道数、图片高度和图片宽度维度的四维数据;
在每一数据批次中每次选择一帧图片,依次将多帧图片的四维数据输入所述第一模型中进行推理。
9.根据权利要求8所述的一种视频行为分类的终端,其特征在于,所述将多帧的推理结果进行合并重塑后输入所述第二模型,通过所述第二模型对合并重塑后的数据进行推理,得到视频数据的置信度数据包括:
将多帧的推理结果进行合并重塑,所述推理结果为包含批次和全连接层输入通道数的数据,合并重塑后得到一个包含批次和帧数与全连接层输入通道数的乘积的数据;
实时使用所述第二模型对当前合并重塑后的数据进行推理,得到当前视频数据的置信度数据。
10.根据权利要求6所述的一种视频行为分类的终端,其特征在于,通过所述第二模型对合并重塑后的数据进行推理,得到视频数据的置信度数据还包括:
通过所述第二模型对合并重塑后的数据进行推理,将推理得到的数据进行激活,激活得到当前视频数据所属行为类别的置信度。
CN202310459136.8A 2023-04-26 2023-04-26 一种视频行为分类的方法及终端 Pending CN116168334A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310459136.8A CN116168334A (zh) 2023-04-26 2023-04-26 一种视频行为分类的方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310459136.8A CN116168334A (zh) 2023-04-26 2023-04-26 一种视频行为分类的方法及终端

Publications (1)

Publication Number Publication Date
CN116168334A true CN116168334A (zh) 2023-05-26

Family

ID=86413551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310459136.8A Pending CN116168334A (zh) 2023-04-26 2023-04-26 一种视频行为分类的方法及终端

Country Status (1)

Country Link
CN (1) CN116168334A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259782A (zh) * 2020-01-14 2020-06-09 北京大学 基于混合多尺度时序可分离卷积操作的视频行为识别方法
CN112926472A (zh) * 2021-03-05 2021-06-08 深圳先进技术研究院 视频分类方法、装置及设备
CN113449573A (zh) * 2020-03-27 2021-09-28 华为技术有限公司 一种动态手势识别方法及设备
CN114640669A (zh) * 2020-11-30 2022-06-17 中国移动通信有限公司研究院 边缘计算方法及装置
US20220207356A1 (en) * 2020-12-30 2022-06-30 Quopin Co., Ltd. Neural network processing unit with network processor and convolution processor
CN114863320A (zh) * 2022-04-06 2022-08-05 斑马网络技术有限公司 目标对象行为识别方法、装置、电子设备及介质
CN114863368A (zh) * 2022-07-05 2022-08-05 城云科技(中国)有限公司 用于道路破损检测的多尺度目标检测模型、方法
CN115424179A (zh) * 2022-09-06 2022-12-02 山东出版数字融合产业研究院有限公司 一种基于边缘计算的实时视频监控方法、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259782A (zh) * 2020-01-14 2020-06-09 北京大学 基于混合多尺度时序可分离卷积操作的视频行为识别方法
CN113449573A (zh) * 2020-03-27 2021-09-28 华为技术有限公司 一种动态手势识别方法及设备
WO2021190296A1 (zh) * 2020-03-27 2021-09-30 华为技术有限公司 一种动态手势识别方法及设备
CN114640669A (zh) * 2020-11-30 2022-06-17 中国移动通信有限公司研究院 边缘计算方法及装置
US20220207356A1 (en) * 2020-12-30 2022-06-30 Quopin Co., Ltd. Neural network processing unit with network processor and convolution processor
CN112926472A (zh) * 2021-03-05 2021-06-08 深圳先进技术研究院 视频分类方法、装置及设备
CN114863320A (zh) * 2022-04-06 2022-08-05 斑马网络技术有限公司 目标对象行为识别方法、装置、电子设备及介质
CN114863368A (zh) * 2022-07-05 2022-08-05 城云科技(中国)有限公司 用于道路破损检测的多尺度目标检测模型、方法
CN115424179A (zh) * 2022-09-06 2022-12-02 山东出版数字融合产业研究院有限公司 一种基于边缘计算的实时视频监控方法、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
薛峰 等: "EdgeMI:资源受限条件下深度学习多设备协同推理", 《 现代计算机》, no. 20, pages 27 - 32 *

Similar Documents

Publication Publication Date Title
CN109584337B (zh) 一种基于条件胶囊生成对抗网络的图像生成方法
Sun et al. Hybrid pixel-unshuffled network for lightweight image super-resolution
CN111091045A (zh) 一种基于时空注意力机制的手语识别方法
CN111639692A (zh) 一种基于注意力机制的阴影检测方法
EP4099220A1 (en) Processing apparatus, method and storage medium
CN111709295A (zh) 一种基于SSD-MobileNet的实时手势检测和识别方法及系统
CN112070768B (zh) 基于Anchor-Free的实时实例分割方法
CN113902921A (zh) 图像处理方法、装置、设备及存储介质
CN109345604B (zh) 图片处理方法、计算机设备和存储介质
WO2022052782A1 (zh) 图像的处理方法及相关设备
CN112419191B (zh) 基于卷积神经网络的图像运动模糊去除方法
CN113793261A (zh) 一种基于3d注意力机制全通道融合网络的光谱重建方法
GB2618876A (en) Lightweight and efficient object segmentation and counting method based on generative adversarial network (GAN)
CN114463176A (zh) 基于改进esrgan的图像超分辨重建方法
JP2023533907A (ja) 自己注意ベースのニューラルネットワークを使用した画像処理
CN115861841A (zh) 一种结合轻量化大卷积核的sar图像目标检测方法
CN117649582B (zh) 基于级联注意力的单流单阶段网络目标跟踪方法与系统
CN117275040A (zh) 一种基于决策网络和细化特征的高效人体姿态估计方法
CN116168334A (zh) 一种视频行为分类的方法及终端
CN116797850A (zh) 基于知识蒸馏和一致性正则化的类增量图像分类方法
CN114332549B (zh) 一种基于bp神经网络单元的变形体识别方法
CN116030256A (zh) 小目标分割方法、小目标分割系统、设备和介质
CN109859244A (zh) 一种基于卷积稀疏滤波的视觉跟踪方法
Das et al. Image synthesis of warli tribal stick figures using generative adversarial networks
CN114140667A (zh) 一种基于深度卷积神经网络的小样本快速风格迁移方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230526

RJ01 Rejection of invention patent application after publication