CN114202732B

CN114202732B - 视频行为分类方法、模型训练方法、装置、介质及设备

Info

Publication number: CN114202732B
Application number: CN202210136185.3A
Authority: CN
Inventors: 杨帆; 冯帅; 白立群; 胡建国
Original assignee: Nanjing Zhenshi Intelligent Technology Co Ltd
Current assignee: Xiaoshi Technology (Jiangsu) Co.,Ltd.
Priority date: 2022-02-15
Filing date: 2022-02-15
Publication date: 2022-05-10
Anticipated expiration: 2042-02-15
Also published as: CN114202732A

Abstract

本申请公开了一种视频行为分类方法、模型训练方法、装置、介质及设备，属于图像处理技术领域。所述方法包括：从视频流中的第i个视频段中提取第i个视频帧序列；根据第一采样规则从第i个视频帧序列中采样得到第i个图像序列；按照图像在第i个图像序列中的排列位置，分别在第i个图像序列中的每张图像上添加数字水印；根据图像拼接模板和数字水印，依次拼接第i个图像序列中的每张图像，得到一张拼接图像；将拼接图像输入训练好的模型中，根据模型预测的类别生成第i个视频段的分类结果，模型是基于二维卷积神经网络创建的。本申请中基于二维卷积神经网络创建的模型可以部署在边端设备中，且模型的鲁棒性和计算效率较高。

Description

视频行为分类方法、模型训练方法、装置、介质及设备

技术领域

本申请涉及图像处理技术领域，特别涉及一种视频行为分类方法、模型训练方法、装置、介质及设备。

背景技术

视频行为分类，在视频理解、行为识别等领域有着广泛的应用。目前主流的方式是使用3D卷积神经网络（Convolutional Neural Networks，CNN）或者视觉转换（VisionTransformer）等网络进行视频行为分类，虽然这些网络在分类精度上有一定优势，但也存在着参数量和计算量大、算法不够成熟和普遍等问题，导致在部署到边端设备时容易出现算子不支持的问题，从而无法实现部署。另外，参数量和计算量大也会影响计算效率。

发明内容

本申请提供了一种视频行为分类方法、模型训练方法、装置、介质及设备，用于解决目前主流的视频行为分类算法无法部署在边端设备上，且计算效率较低的问题。所述技术方案如下：

一方面，提供了一种视频行为分类方法，所述方法包括：

从视频流中的第i个视频段中提取第i个视频帧序列，i为正整数；

根据第一采样规则从所述第i个视频帧序列中采样得到第i个图像序列，所述第i个图像序列的序列长度n等于长度阈值L，所述长度阈值L为宽度阈值W和高度阈值H的乘积，所述宽度阈值W为图像拼接模板中所拼接的图像的列数，所述高度阈值H为图像拼接模板中所拼接的图像的行数，n、L、W和H均为正整数；

按照图像在所述第i个图像序列中的排列位置，分别在所述第i个图像序列中的每张图像上添加数字水印；

根据所述图像拼接模板和所述数字水印，依次拼接所述第i个图像序列中的每张图像，得到一张拼接图像；

将所述拼接图像输入训练好的模型中，根据所述模型预测的类别生成所述第i个视频段的分类结果，所述模型是基于二维卷积神经网络创建的。

在一种可能的实现方式中，所述根据所述模型预测的类别生成所述第i个视频段的分类结果，包括：

将所述模型预测的所述类别的置信度与所述类别对应的置信度阈值进行比较；

若所述置信度大于或等于所述置信度阈值，则根据第二采样规则从所述第i个视频帧序列中采样得到第j个图像序列，所述第二采样规则的采样频率高于所述第一采样规则的采样频率，且所述第j个图像序列的序列长度m大于所述长度阈值L，j和m为正整数；

按照图像在所述第j个图像序列中的排列位置，分别在所述第j个图像序列中的每张图像上添加数字水印；

根据所述图像拼接模板和所述数字水印，依次拼接所述第j个图像序列中的每张图像，得到m-L+1张拼接图像；

将所述m-L+1张拼接图像输入所述模型中，根据所述模型预测的类别生成所述第i个视频段的分类结果。

将所述模型针对每张拼接图像预测的类别的置信度分别与所述类别对应的置信度阈值进行比较；

计算所述置信度大于或等于所述置信度阈值的次数与总预测次数m-L+1的比值；

若所述比值大于或等于比值阈值，则将所述类别确定为所述第i个视频段的分类结果；

若所述比值小于比值阈值，则将状态正常确定所述第i个视频段的分类结果。

在一种可能的实现方式中，所述根据所述图像拼接模板和所述数字水印，依次拼接所述第j个图像序列中的每张图像，得到m-L+1张拼接图像，包括：

根据所述图像拼接模板和所述数字水印，依次拼接所述第j个图像序列中的前L张图像，得到第一张拼接图像；

利用所述第j个图像序列中的第k张图像替换前一张拼接图像中拼接时间最长的一张图像，得到第k-L+1张拼接图像，L＜k≤m。

在一种可能的实现方式中，所述方法还包括：

在采样得到第i个图像序列之后，将所述第i个图像序列输入训练好的目标检测器中，通过所述目标检测器获取所述第i个图像序列中所有目标对象的活动区域；

将所述活动区域的并集扩展为正方形区域后作为所述第i个图像序列的候选区域；

从所述第i个图像序列中的每张图像中截取所述正方形区域内的图像，得到最终的第i个图像序列。

一方面，提供了一种模型训练方法，所述方法包括：

从视频流中的每个视频段中提取一个视频帧序列；

按照至少两种采样规则分别从每个视频帧序列中提取多个图像序列，不同采样规则的采样频率和/或采样方式不同；

按照图像在每个图像序列中的排列位置，分别在每个图像序列中的每个图像上添加数字水印；

对于每个图像序列，根据图像拼接模板和所述数字水印，依次拼接所述图像序列中的每张图像，得到至少一张拼接图像；

将每个图像序列的至少一张拼接图像和所述图像序列对应的视频段的类别信息组成一组训练样本，所述类别信息表示所述视频段的类别；

基于二维卷积神经网络创建模型；

根据所述训练样本训练所述模型。

在一种可能的实现方式中，所述根据图像拼接模板和所述数字水印，依次拼接所述图像序列中的每张图像，得到至少一张拼接图像，包括：

当所述图像序列的序列长度n等于长度阈值L时，根据所述图像拼接模板和所述数字水印，依次拼接所述图像序列中的每张图像，得到一张拼接图像；

当所述图像序列的序列长度m大于长度阈值L时，根据所述图像拼接模板和所述数字水印，依次拼接所述图像序列中的前L张图像，得到第一张拼接图像；利用所述图像序列中的第k张图像替换前一张拼接图像中拼接时间最长的一张图像，得到第k-L+1张拼接图像，L＜k≤m；

其中，所述长度阈值L为宽度阈值W和高度阈值H的乘积，所述宽度阈值W为所述图像拼接模板中所拼接的图像的列数，所述高度阈值H为所述图像拼接模板中所拼接的图像的行数，n、m、L、W和H均为正整数。

在一种可能的实现方式中，所述方法还包括：

在采样得到一个图像序列后，将所述图像序列输入训练好的目标检测器中，通过所述目标检测器获取所述图像序列中所有目标对象的活动区域；

将所述活动区域的并集扩展为正方形区域后作为所述图像序列的候选区域；

从所述图像序列中的每张图像中截取所述正方形区域内的图像，得到扩展出的图像序列。

一方面，提供了一种视频行为分类装置，所述装置包括：

第一提取模块，用于从视频流中的第i个视频段中提取第i个视频帧序列，i为正整数；

第一采样模块，用于根据第一采样规则从所述第i个视频帧序列中采样得到第i个图像序列，所述第i个图像序列的序列长度n等于长度阈值L，所述长度阈值L为宽度阈值W和高度阈值H的乘积，所述宽度阈值W为图像拼接模板中所拼接的图像的列数，所述高度阈值H为图像拼接模板中所拼接的图像的行数，n、L、W和H均为正整数；

第一添加模块，用于按照图像在所述第i个图像序列中的排列位置，分别在所述第i个图像序列中的每张图像上添加数字水印；

第一拼接模块，用于根据所述图像拼接模板和所述数字水印，依次拼接所述第i个图像序列中的每张图像，得到一张拼接图像；

分类模块，用于将所述拼接图像输入训练好的模型中，根据所述模型预测的类别生成所述第i个视频段的分类结果，所述模型是基于二维卷积神经网络创建的。

一方面，提供了一种模型训练装置，所述装置包括：

第二提取模块，用于从视频流中的每个视频段中提取一个视频帧序列；

第二采样模块，用于按照至少两种采样规则分别从每个视频帧序列中采样得到多个图像序列，不同采样规则的采样频率和/或采样方式不同；

第二添加模块，用于按照图像在每个图像序列中的排列位置，分别在每个图像序列中的每个图像上添加数字水印；

第二拼接模块，用于对于每个图像序列，根据图像拼接模板和所述数字水印，依次拼接所述图像序列中的每张图像，得到至少一张拼接图像；

组成模块，用于将每个图像序列的至少一张拼接图像和所述图像序列对应的视频段的类别信息组成一组训练样本，所述类别信息表示所述视频段的类别；

创建模块，用于基于二维卷积神经网络创建模型；

训练模块，用于根据所述训练样本训练所述模型。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的视频行为分类方法，或者，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的模型训练方法。

一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上所述的视频行为分类方法，或者，所述指令由所述处理器加载并执行以实现如上所述的模型训练方法。

本申请提供的技术方案的有益效果至少包括：

由于模型是基于二维卷积神经网络创建的，且二维卷积神经网络具有参数量和计算量小、算法比较成熟和普遍等特性，这样，边端设备中的算子大多支持二维卷积神经网络，从而可以在边端设备中部署二维卷积神经网络。另外，参数量和计算量小还可以提高计算效率。

通过按照图像在第i个图像序列中的排列位置，分别在第i个图像序列中的每张图像上添加数字水印，再根据图像拼接模板和数字水印，依次拼接第i个图像序列中的每张图像，得到一张拼接图像，这样，可以通过图像拼接的方式将时序信息融到空域之中，并通过添加数字水印的方式来降低模型对图像序列顺序的依赖，以此达到增强模型的鲁棒性的目的，同时可以降低实际部署时使用拼接操作的计算复杂度，达到提高计算效率的目的。

当模型预测的类别的置信度大于或等于置信度阈值时，可以提高采样频率再次进行预测，并根据多次预测的置信度大于或等于置信度阈值的次数与总预测次数的比值来对视频行为分类，这样，可以提高对于一些持续时间较短的行为的分类的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的模型训练方法的方法流程图；

图2是本申请一个实施例提供的图像拼接模板的示意图；

图3是本申请一个实施例提供的拼接图像的示意图；

图4是本申请一个实施例提供的视频行为分类方法的方法流程图；

图5是本申请另一实施例提供的视频行为分类方法的方法流程图；

图6是本申请再一实施例提供的模型训练装置的结构框图；

图7是本申请再一实施例提供的视频行为分类装置的结构框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

视频行为分类是指对视频流中目标对象的行为进行分类，具体的类别可以是状态正常、打架、坐下、站起来、跑步、踢球、偷盗、抢劫等等，本实施例不作限定。

本实施例中，计算机设备需要先训练模型，再使用模型对视频行为进行分类，下面对模型的训练流程进行说明。

请参考图1，其示出了本申请一个实施例提供的模型训练方法的方法流程图，该视频行为分类方法可以应用于计算机设备中。该模型训练方法，可以包括：

步骤101，从视频流中的每个视频段中提取一个视频帧序列。

计算机设备可以获取至少一个视频流，该视频流可以是摄像头对一个区域进行拍摄得到的监控视频流。

对于每个视频流，计算机设备可以每隔预定时间间隔从该视频流中截取一个视频段，且相邻两个视频段之间存在重复片段。比如，预定时间间隔为3秒，且重复时长为2秒，则计算机设备可以从一个视频流中截取第0-3秒、第1-4秒、第2-5秒的多个视频段。

在每截取到一个视频段后，计算机设备可以以预定采样频率对该视频段进行采样，得到一个视频帧序列。比如，采样频率为25帧/秒，则对于一个时长为3秒的视频段可以提取出一个包含75个视频帧的视频帧序列。

需要说明的是，用户可以辨识每个视频段的语意信息，再根据该语义信息为每个视频段标注至少一个类别信息。比如，一个视频段中包含打架行为，则可以将该视频段的类别信息标注为打架。

步骤102，按照至少两种采样规则分别从每个视频帧序列中提取多个图像序列，不同采样规则的采样频率和/或采样方式不同。

计算机设备可以预先设置至少两种采样规则，这里所说的采样规则至少包括采样频率和采样方式。其中，采样频率可以设置至少两种，采样方式可以是均匀分布采样方式、高斯分布采样方式、等间隔采样方式等，本实施例不作限定。计算机设备可以将采样频率和采样方式进行组合，以得到不同的采样规则。比如，将第一采样频率和高斯分布采样方式组合成一种采样规则，将第二采样频率和等间隔采样方式组合成一种采样规则、将第一采样频率和等间隔采样方式组合成一种采样规则。

计算机设备可以采用至少一种采样规则对每个视频段进行采样，这样，每个视频段都可以生成至少一个图像序列，以扩展训练样本的数量，提高模型的鲁棒性。

除了可以通过采样规则扩展训练样本，计算机设备还可以对每个图像序列进行扩展，以扩展出新的图像序列。具体的，计算机设备在采样得到一个图像序列后，将图像序列输入训练好的目标检测器中，通过目标检测器获取图像序列中所有目标对象的活动区域；将活动区域的并集扩展为正方形区域后作为图像序列的候选区域；从图像序列中的每张图像中截取正方形区域内的图像，得到扩展出的图像序列。

其中，目标检测器可以是基于YOLO、SSD（Single Shot MultiBox Detector）等网络创建的，且其基于目标对象进行了训练，能够识别图像中的目标对象的位置。以目标对象是行人为例，则目标检测器可以检测出图像中每个行人的位置。

计算机设备可以根据图像序列中每个目标对象的位置生成该目标对象的活动区域，并取所有目标对象的活动区域的并集，若得到的是正方形区域，则将该正方形区域作为候选区域；若得到的是矩形区域，则将该矩形区域扩展为正方形区域，将扩展后的正方形区域作为候选区域。对于图像序列中的每张图像，计算机设备可以从该图像中截取正方形区域内的图像，去除正方形区域外的背景部分，得到新的图像，并将所有新的图像组成新的图像序列。这样，每个图像序列都可以扩展出一个新的图像序列，从而可以将图像序列的数量扩展为原来的两倍。

步骤103，按照图像在每个图像序列中的排列位置，分别在每个图像序列中的每个图像上添加数字水印。

在视频行为分类任务中，保持图像之间的时序至关重要。比如，若将“坐下”行为对应的图像序列进行逆序排序，则识别出的行为就是“站起来”，两者是完全对立的行为。但是，维持时序会导致额外的计算量，为了解决这个问题，本实施例中引入了数字水印，通过数字水印来实现将时域信息拼接到空域之中的目的。

本实施例中的数字水印由阿拉伯数字0、1、2、3、4、5、6、7、8、9共10个计数符号组成，且计算机设备可以在每张图像中的特定像素位置（x，y）处拼接上分辨率为s*s的数字水印，按照0-9的顺序拼接，溢出之后从0重新开始拼接。比如，一个图像序列中包含16张图像，则这些图像上的数字水印分别是0、1、2、3、4、5、6、7、8、9、0、1、2、3、4、5。

由于每张图像中都添加有数字水印，且该数字水印可以指示图像的位置信息，这样，就可以在训练过程中引入这个先验信息，让模型可以学习到具体数字的含义及其对应的序列顺序，从而摆脱对图像的物理位置的依赖。

步骤104，对于每个图像序列，根据图像拼接模板和数字水印，依次拼接图像序列中的每张图像，得到至少一张拼接图像。

计算机设备可以预先设置宽度阈值为W、高度阈值为H的图像拼接模板，宽度阈值W为图像拼接模板中所拼接的图像的列数，高度阈值H为图像拼接模板中所拼接的图像的行数，W和H均为正整数。另外，计算机设备还可以预先设置图像的尺度为w*h*c，其中，w为图像拼接模板中每张图像的宽度，h为图像拼接模板中每张图像的高度，c为图像通道数。以宽度阈值为W和高度阈值为H均为4为例，则图像拼接模板中包含行数为4、列数为4的16张图像，如图2所示。

在得到图像拼接模板后，计算机设备可以将添加数字水印后的每个图像序列组成一个先进先出的FIFO（First In First Out）队列，再进行拼接，得到至少一张拼接图像。下面对两种拼接方式进行说明。

当采样频率较低，使得采样后得到的图像序列的序列长度n等于长度阈值L时，根据图像拼接模板和数字水印，依次拼接图像序列中的每张图像，得到一张拼接图像，n为正整数。

仍然以宽度阈值为W和高度阈值为H均为4为例，则长度阈值L为宽度阈值W和高度阈值H的乘积16，当图像序列中图像的数量等于16时，将该图像序列中所有的图像拼接成一张拼接图像，如图3中的左侧示图所示。

当采样频率较低，使得采样后得到的图像序列的序列长度m大于长度阈值L时，根据图像拼接模板和数字水印，依次拼接图像序列中的前L张图像，得到第一张拼接图像；利用图像序列中的第k张图像替换前一张拼接图像中拼接时间最长的一张图像，得到第k-L+1张拼接图像，L＜k≤m，m为正整数。

仍然以宽度阈值为W和高度阈值为H均为4为例，则长度阈值L为宽度阈值W和高度阈值H的乘积16，当图像序列中图像的数量大于16时，将该图像序列中所有的图像拼接成m-L+1张拼接图像。

假设m为18，则先将图像序列中的前16张图像拼接成第一张拼接图像，第一张拼接图像中每张图像的数字水印分别是0、1、2、3、4、5、6、7、8、9、0、1、2、3、4、5；再将图像序列中的第17张图像替换掉第一张拼接图像中首张数字水印为0的图像，得到第二张拼接图像，第二张拼接图像中每张图像的数字水印分别是6、1、2、3、4、5、6、7、8、9、0、1、2、3、4、5；再将图像序列中的第18张图像替换掉第二张拼接图像中首张数字水印为1的图像，得到第三张拼接图像，第三拼接图像中每张图像的数字水印分别是6、7、2、3、4、5、6、7、8、9、0、1、2、3、4、5。

在这种实现方式中，每次有图像更新时只需要更新拼接时间最长的一张图像（如将0、1、2、3、4、5、6、7、8、9、0、1、2、3、4、5更新为6、1、2、3、4、5、6、7、8、9、0、1、2、3、4、5），相比于需要将所有的图像都向前移动一位的更新方式来说（如将0、1、2、3、4、5、6、7、8、9、0、1、2、3、4、5更新为1、2、3、4、5、6、7、8、9、0、1、2、3、4、5、6），内存拷贝循环次数可以从W*H*w*h*c降低为w*h*c，使得算法在低功耗平台具有极高的可用性（例如直接部署在摄像头中）。

另外，当采用将所有的图像都向前移动一位的更新方式时，相邻图像之间的差异很小，而采用更新拼接时间最长的一张图像的更新方式时，相邻图像之间可能差异很大（如相邻的6和1），这样相当于对图像进行了图像增广操作，可以大幅度提高训练数据的多样性，进而提升模型的鲁棒性。

需要说明的是，在训练过程中，首张图像的数字水印为0-9的随机数据。请参考图3，其左侧示图中首张图像的数字水印为0，右侧示图中首张图像的数字水印为8。

步骤105，将每个图像序列的至少一张拼接图像和图像序列对应的视频段的类别信息组成一组训练样本，该类别信息表示视频段的类别。

步骤106，基于二维卷积神经网络创建模型。

其中，二维卷积神经网络可以使用在各种平台都更加高效的2D CNN网络，如Mobilenet，ShuffleNet等等。

步骤107，根据训练样本训练模型。

在训练时，可以采用sofmax交叉熵loss函数，优化器采用SGD，初始学习率（learning rate）设置为0.01，权重衰减参数设置为0.00005；还可以采用子图随机裁剪，拼接图采用:色彩抖动，彩色图像以一定概率转灰度图像等增广方式。另外，使用8块NVIDIA2080TI GPU随机初始化训练，批大小（batch size）设置成64，一共迭代200轮，每30轮学习率除以10。

综上所述，本申请实施例提供的模型训练方法，由于模型是基于二维卷积神经网络创建的，且二维卷积神经网络具有参数量和计算量小、算法比较成熟和普遍等特性，这样，边端设备中的算子大多支持二维卷积神经网络，从而可以在边端设备中部署二维卷积神经网络。另外，参数量和计算量小还可以提高计算效率。

在完成模型的训练后，计算机设备可以使用模型进行视频行为分类，下面对视频行为的分类流程进行说明。

请参考图4，其示出了本申请一个实施例提供的视频行为分类方法的方法流程图，该视频行为分类方法可以应用于计算机设备中。该视频行为分类方法，可以包括：

步骤401，从视频流中的第i个视频段中提取第i个视频帧序列，i为正整数。

对于一个视频流，计算机设备可以每隔预定时间间隔从该视频流中截取一个视频段，且相邻两个视频段之间存在重复片段。其中，本实施例中视频段的时长与训练模型时截取的视频段的时长可以相同，也可以不同，本实施例不作限定。

本实施例中将当前时刻截取到的视频段称为第i个视频段，则在得到第i个视频段后，计算机设备可以以预定采样频率对第i个视频段进行采样，得到第i个视频帧序列。比如，采样频率为25帧/秒，则对于一个时长为3秒的第i个视频段来说，可以提取出一个包含75个视频帧的第i个视频帧序列。

步骤402，根据第一采样规则从第i个视频帧序列中采样得到第i个图像序列，第i个图像序列的序列长度n等于长度阈值L，长度阈值L为宽度阈值W和高度阈值H的乘积，宽度阈值W为图像拼接模板中所拼接的图像的列数，高度阈值H为图像拼接模板中所拼接的图像的行数，n、L、W和H均为正整数。

其中，第一采样规则包含采样频率和采样方式。本实施例中的采样频率为低频，以使采样得到的第i个图像序列的序列长度n等于长度阈值L，采样方式可以是等间隔采样方式。

步骤403，按照图像在第i个图像序列中的排列位置，分别在第i个图像序列中的每张图像上添加数字水印。

其中，对第i个图像序列中的图像添加数字水印的流程详见步骤103中的描述，此处不作赘述。

步骤404，根据图像拼接模板和数字水印，依次拼接第i个图像序列中的每张图像，得到一张拼接图像。

仍然以宽度阈值为W和高度阈值为H均为4为例，则长度阈值L为宽度阈值W和高度阈值H的乘积16，当第i个图像序列中图像的数量等于16时，将该第i个图像序列中所有的图像拼接成一张拼接图像，如图3中的左侧示图所示。

步骤405，将拼接图像输入训练好的模型中，根据模型预测的类别生成第i个视频段的分类结果，该模型是基于二维卷积神经网络创建的。

计算机设备可以将模型预测得到的类别作为第i个视频的分类结果。

综上所述，本申请实施例提供的视频行为分类方法，由于模型是基于二维卷积神经网络创建的，且二维卷积神经网络具有参数量和计算量小、算法比较成熟和普遍等特性，这样，边端设备中的算子大多支持二维卷积神经网络，从而可以在边端设备中部署二维卷积神经网络。另外，参数量和计算量小还可以提高计算效率。

请参考图5，其示出了本申请另一实施例提供的视频行为分类方法的方法流程图，该视频行为分类方法可以应用于计算机设备中。该视频行为分类方法，可以包括：

步骤501，从视频流中的第i个视频段中提取第i个视频帧序列，i为正整数。

步骤502，根据第一采样规则从第i个视频帧序列中采样得到第i个图像序列，第i个图像序列的序列长度n等于长度阈值L，长度阈值L为宽度阈值W和高度阈值H的乘积，宽度阈值W为图像拼接模板中所拼接的图像的列数，高度阈值H为图像拼接模板中所拼接的图像的行数，n、L、W和H均为正整数。

为了避免图像的背景部分对分类的影响，计算机设备还可以在得到第i个图像序列后，对第i个图像序列进行预处理。具体的，在采样得到第i个图像序列之后，计算机设备将第i个图像序列输入训练好的目标检测器中，通过目标检测器获取第i个图像序列中所有目标对象的活动区域；将活动区域的并集扩展为正方形区域后作为第i个图像序列的候选区域；从第i个图像序列中的每张图像中截取正方形区域内的图像，得到最终的第i个图像序列。

计算机设备可以根据图像序列中每个目标对象的位置生成该目标对象的活动区域，并取所有目标对象的活动区域的并集，若得到的是正方形区域，则将该正方形区域作为候选区域；若得到的是矩形区域，则将该矩形区域扩展为正方形区域，将扩展后的正方形区域作为候选区域。对于第i个图像序列中的每张图像，计算机设备可以从该图像中截取正方形区域内的图像，去除正方形区域外的背景部分，得到新的图像，并将所有新的图像组成最终的第i个图像序列。

步骤503，按照图像在第i个图像序列中的排列位置，分别在第i个图像序列中的每张图像上添加数字水印。

步骤504，根据图像拼接模板和数字水印，依次拼接第i个图像序列中的每张图像，得到一张拼接图像。

步骤505，将拼接图像输入训练好的模型中，将模型预测的类别的置信度与类别对应的置信度阈值进行比较。

本实施例中的模型输出的预测结果中包括类别和置信度，计算机设备可以获取该类别对应的置信度阈值，再将置信度与置信度阈值进行比较，若置信度大于或等于置信度阈值，则执行步骤506；若置信度小于置信度阈值，则将状态正常确定第i个视频段的分类结果。

步骤506，若置信度大于或等于置信度阈值，则根据第二采样规则从第i个视频帧序列中采样得到第j个图像序列，第二采样规则的采样频率高于第一采样规则的采样频率，且第j个图像序列的序列长度m大于长度阈值L，j和m为正整数。

其中，第二采样规则包含采样频率和采样方式。本实施例中的采样频率为高频，以使采样得到的第i个图像序列的序列长度m大于长度阈值L，采样方式可以是等间隔采样方式。

在得到第j个图像序列之后，计算机设备可以对第j个图像序列进行预处理，以去除背景部分对对分类的影响，详见步骤502中的预处理流程。

步骤507，按照图像在第j个图像序列中的排列位置，分别在第j个图像序列中的每张图像上添加数字水印。

步骤508，根据图像拼接模板和数字水印，依次拼接第j个图像序列中的每张图像，得到m-L+1张拼接图像。

具体的，根据图像拼接模板和数字水印，依次拼接第j个图像序列中的每张图像，得到m-L+1张拼接图像，可以包括：根据图像拼接模板和数字水印，依次拼接第j个图像序列中的前L张图像，得到第一张拼接图像；利用第j个图像序列中的第k张图像替换前一张拼接图像中拼接时间最长的一张图像，得到第k-L+1张拼接图像，L＜k≤m。

步骤509，将m-L+1张拼接图像输入模型中，根据模型预测的类别生成第i个视频段的分类结果。

具体的，根据模型预测的类别生成第i个视频段的分类结果，可以包括：将模型针对每张拼接图像预测的类别的置信度分别与类别对应的置信度阈值进行比较；计算置信度大于或等于置信度阈值的次数与总预测次数m-L+1的比值；若比值大于或等于比值阈值，则将类别确定为第i个视频段的分类结果；若比值小于比值阈值，则将状态正常确定第i个视频段的分类结果。

模型会针对每张拼接图像输出一个预测结果，且每个预测结果中都包含类别和置信度，则计算机设备最终会得到m-L+1的置信度，再将每个置信度分别与一个置信度阈值进行比较，统计大于或等于置信度阈值的置信度的数量，计算该数量与m-L+1的比值，根据该比值确定分类结果。

假设计算机设备生成5张拼接图像，模型预测的类别为打架，且比值阈值为50%，若其中3张拼接图像的置信度大于或等于置信度阈值，则计算得到的比值为60%，大于50%，则将打架作为第i个视频段的分类结果；若其中2张拼接图像的置信度大于或等于置信度阈值，则计算得到的比值为40%，小于50%，则将状态正常作为第i个视频段的分类结果。

由于很多行为是小概率事件，例如打架，跌倒等，且这些行为具有频率快的特点，在识别这些行为时，理论上对视频流的采样频率越高精度越高，但是，采样频率较高在实际应用中会造成巨大的能源和计算资源浪费。为了解决这一问题，本实施例中提出了回溯机制，即，先采用低采样率对图像序列进行采样和识别，当识别出某种行为的置信度大于置信度阈值时，再以高采样率再次对该图像序列进行采样和识别，以提高识别精度。

请参考图6，其示出了本申请一个实施例提供的模型训练装置的结构框图，该视频行为分类装置可以应用于计算机设备中。该模型训练装置，可以包括：

第二提取模块610，用于从视频流中的每个视频段中提取一个视频帧序列；

第二采样模块620，用于按照至少两种采样规则分别从每个视频帧序列中采样得到多个图像序列，不同采样规则的采样频率和/或采样方式不同；

第二添加模块630，用于按照图像在每个图像序列中的排列位置，分别在每个图像序列中的每个图像上添加数字水印；

第二拼接模块640，用于对于每个图像序列，根据图像拼接模板和数字水印，依次拼接图像序列中的每张图像，得到至少一张拼接图像；

组成模块650，用于将每个图像序列的至少一张拼接图像和图像序列对应的视频段的类别信息组成一组训练样本，类别信息表示视频段的类别；

创建模块660，用于基于二维卷积神经网络创建模型；

训练模块670，用于根据训练样本训练模型。

在一个可选的实施例中，第二拼接模块640，还用于：

当图像序列的序列长度n等于长度阈值L时，根据图像拼接模板和数字水印，依次拼接图像序列中的每张图像，得到一张拼接图像；

当图像序列的序列长度m大于长度阈值L时，根据图像拼接模板和数字水印，依次拼接图像序列中的前L张图像，得到第一张拼接图像；利用图像序列中的第k张图像替换前一张拼接图像中拼接时间最长的一张图像，得到第k-L+1张拼接图像，L＜k≤m；

其中，长度阈值L为宽度阈值W和高度阈值H的乘积，宽度阈值W为图像拼接模板中所拼接的图像的列数，高度阈值H为图像拼接模板中所拼接的图像的行数，n、m、L、W和H均为正整数。

在一个可选的实施例中，该装置还包括：

第一获取模块，用于在采样得到一个图像序列后，将图像序列输入训练好的目标检测器中，通过目标检测器获取图像序列中所有目标对象的活动区域；

第一扩展模块，用于将活动区域的并集扩展为正方形区域后作为图像序列的候选区域；

第一截取模块，用于从图像序列中的每张图像中截取正方形区域内的图像，得到扩展出的图像序列。

综上所述，本申请实施例提供的模型训练装置，由于模型是基于二维卷积神经网络创建的，且二维卷积神经网络具有参数量和计算量小、算法比较成熟和普遍等特性，这样，边端设备中的算子大多支持二维卷积神经网络，从而可以在边端设备中部署二维卷积神经网络。另外，参数量和计算量小还可以提高计算效率。

请参考图7，其示出了本申请一个实施例提供的视频行为分类装置的结构框图，该视频行为分类装置可以应用于计算机设备中。该视频行为分类装置，可以包括：

第一提取模块710，用于从视频流中的第i个视频段中提取第i个视频帧序列，i为正整数；

第一采样模块720，用于根据第一采样规则从第i个视频帧序列中采样得到第i个图像序列，第i个图像序列的序列长度n等于长度阈值L，长度阈值L为宽度阈值W和高度阈值H的乘积，宽度阈值W为图像拼接模板中所拼接的图像的列数，高度阈值H为图像拼接模板中所拼接的图像的行数，n、L、W和H均为正整数；

第一添加模块730，用于按照图像在第i个图像序列中的排列位置，分别在第i个图像序列中的每张图像上添加数字水印；

第一拼接模块740，用于根据图像拼接模板和数字水印，依次拼接第i个图像序列中的每张图像，得到一张拼接图像；

分类模块750，用于将拼接图像输入训练好的模型中，根据模型预测的类别生成第i个视频段的分类结果，模型是基于二维卷积神经网络创建的。

在一个可选的实施例中，分类模块750，还用于：

将模型预测的类别的置信度与类别对应的置信度阈值进行比较；

若置信度大于或等于置信度阈值，则根据第二采样规则从第i个视频帧序列中采样得到第j个图像序列，第二采样规则的采样频率高于第一采样规则的采样频率，且第j个图像序列的序列长度m大于长度阈值L，j和m为正整数；

按照图像在第j个图像序列中的排列位置，分别在第j个图像序列中的每张图像上添加数字水印；

根据图像拼接模板和数字水印，依次拼接第j个图像序列中的每张图像，得到m-L+1张拼接图像；

将m-L+1张拼接图像输入模型中，根据模型预测的类别生成第i个视频段的分类结果。

在一个可选的实施例中，分类模块750，还用于：

将模型针对每张拼接图像预测的类别的置信度分别与类别对应的置信度阈值进行比较；

计算置信度大于或等于置信度阈值的次数与总预测次数m-L+1的比值；

若比值大于或等于比值阈值，则将类别确定为第i个视频段的分类结果；

若比值小于比值阈值，则将状态正常确定第i个视频段的分类结果。

在一个可选的实施例中，第一拼接模块740，还用于：

根据图像拼接模板和数字水印，依次拼接第j个图像序列中的前L张图像，得到第一张拼接图像；

利用第j个图像序列中的第k张图像替换前一张拼接图像中拼接时间最长的一张图像，得到第k-L+1张拼接图像，L＜k≤m。

在一个可选的实施例中，该装置还包括：

第二获取模块，用于在采样得到第i个图像序列之后，将第i个图像序列输入训练好的目标检测器中，通过目标检测器获取第i个图像序列中所有目标对象的活动区域；

第二扩展模块，用于将活动区域的并集扩展为正方形区域后作为第i个图像序列的候选区域；

第二截取模块，用于从第i个图像序列中的每张图像中截取正方形区域内的图像，得到最终的第i个图像序列。

综上所述，本申请实施例提供的视频行为分类装置，由于模型是基于二维卷积神经网络创建的，且二维卷积神经网络具有参数量和计算量小、算法比较成熟和普遍等特性，这样，边端设备中的算子大多支持二维卷积神经网络，从而可以在边端设备中部署二维卷积神经网络。另外，参数量和计算量小还可以提高计算效率。

本申请一个实施例提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的视频行为分类方法，或者，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的模型训练方法。

本申请一个实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上所述的视频行为分类方法，或者，所述指令由所述处理器加载并执行以实现如上所述的模型训练方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请实施例的保护范围之内。

Claims

1.一种视频行为分类方法，其特征在于，所述方法包括：

将所述拼接图像输入训练好的模型中，根据所述模型预测的类别生成所述第i个视频段的分类结果，所述模型是基于二维卷积神经网络创建的；

所述根据所述模型预测的类别生成所述第i个视频段的分类结果，包括：

2.根据权利要求1所述的视频行为分类方法，其特征在于，所述根据所述模型预测的类别生成所述第i个视频段的分类结果，包括：

3.根据权利要求1所述的视频行为分类方法，其特征在于，所述根据所述图像拼接模板和所述数字水印，依次拼接所述第j个图像序列中的每张图像，得到m-L+1张拼接图像，包括：

4.根据权利要求1至3中任一项所述的视频行为分类方法，其特征在于，所述方法还包括：

5.一种模型训练方法，其特征在于，所述方法包括：

从视频流中的每个视频段中提取一个视频帧序列；

基于二维卷积神经网络创建模型；

根据所述训练样本训练所述模型；

所述根据图像拼接模板和所述数字水印，依次拼接所述图像序列中的每张图像，得到至少一张拼接图像，包括：

6.根据权利要求5所述的模型训练方法，其特征在于，所述方法还包括：

7.一种视频行为分类装置，其特征在于，所述装置包括：

分类模块，用于将所述拼接图像输入训练好的模型中，根据所述模型预测的类别生成所述第i个视频段的分类结果，所述模型是基于二维卷积神经网络创建的；

所述分类模块，还用于：

8.一种模型训练装置，其特征在于，所述装置包括：

创建模块，用于基于二维卷积神经网络创建模型；

训练模块，用于根据所述训练样本训练所述模型；

所述第二拼接模块，还用于：

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至4任一所述的视频行为分类方法，或者，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求5或6所述的模型训练方法。

10.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至4任一所述的视频行为分类方法，或者，所述指令由所述处理器加载并执行以实现如权利要求5或6所述的模型训练方法。