CN110222598A

CN110222598A - 一种视频行为识别方法、装置、存储介质和服务器

Info

Publication number: CN110222598A
Application number: CN201910422559.6A
Authority: CN
Inventors: 周俊琨; 罗郑楠; 官民; 许扬
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-09-10
Anticipated expiration: 2039-05-21
Also published as: CN110222598B; WO2020232886A1

Abstract

本发明涉及计算机技术领域，提出一种视频行为识别方法、装置、存储介质和服务器。首先获取待识别视频，从所述待识别视频中提取出多帧视频图像；然后将所述多帧视频图像输入预先训练完成的神经网络模型，以获得该神经网络模型输出的行为识别结果。本发明在该神经网络模型的结构中添加了以下数据处理逻辑：获取所述多帧视频图像的图像处理数据，该图像处理数据为包含图像全局特征信息的四维矩阵，通过对该四维矩阵进行卷积处理，能够得到包含图像局部特征信息的四维矩阵，然后将该包含图像全局特征信息的四维矩阵和该包含图像局部特征信息的四维矩阵分别平铺后再相乘，从而将视频图像的局部特征与全局特征相结合，能够提高视频行为识别的准确率。

Description

一种视频行为识别方法、装置、存储介质和服务器

技术领域

本发明涉及计算机技术领域，尤其涉及一种视频行为识别方法、装置、存储介质和服务器。

背景技术

目前，市面上的图片分类技术和基于图片的定位技术较为成熟，但是视频的行为识别无法通过一张图片来完成，而是需要通过连续的多帧视频图像来判断行为种类。例如：判断某个视频中的舞蹈类型是伦巴、恰恰还是广场舞。

在对视频行为进行识别时，一般是将视频文件输入预先训练好的神经网络模型中，直接得到该视频文件的行为识别结果。然而，现有的神经网络模型的训练过程仅考虑了视频样本的全局特征，没有考虑相应的局部特征，这导致视频行为识别的准确率较低。

发明内容

有鉴于此，本发明实施例提供了一种视频行为识别方法、装置、存储介质和服务器，能够提高视频行为识别的准确率。

本发明实施例的第一方面，提供了一种视频行为识别方法，包括：

获取待识别视频；

从所述待识别视频中提取出多帧视频图像；

将所述多帧视频图像输入预先训练完成的目标神经网络模型，获得所述目标神经网络模型输出的行为识别结果；

其中，所述目标神经网络模型包括第一处理层和第二处理层，所述第一处理层和所述第二处理层为所述目标神经网络模型的网络结构中相邻的两个卷积层，所述目标神经网络将所述多帧视频图像转换为四个维度的图像数据进行处理，所述第一处理层和第二处理层之间的处理逻辑如下：

获取所述第一处理层输出的四维矩阵格式的第一图像处理数据，所述第一处理层用于接收上一个处理层输出的图像处理数据，对接收到的图像处理数据执行卷积处理，得到所述第一图像处理数据；

对所述第一图像处理数据进行矩阵的平铺处理，获得二维矩阵格式的第二图像处理数据；

对所述第一图像数据进行卷积处理后，执行矩阵的平铺处理，获得二维矩阵格式的第三图像处理数据；

将所述第三图像处理数据和所述第二图像处理数据相乘，获得二维矩阵格式的第四图像处理数据；

对所述第四图像处理数据进行矩阵的逆平铺处理，得到四维矩阵格式的第五图像处理数据；

将所述第五图像处理数据输入所述第二处理层，所述第二处理层用于对所述第五图像处理数据执行卷积处理，然后将处理后的数据输入下一个处理层。

本发明实施例的第二方面，提供了一种视频行为识别装置，包括：

视频获取模块，用于获取待识别视频；

视频图像提取模块，用于从所述待识别视频中提取出多帧视频图像；

行为识别模块，用于将所述多帧视频图像输入预先训练完成的目标神经网络模型，获得所述目标神经网络模型输出的行为识别结果；

获取所述第一处理层输出的四维矩阵格式的第一图像处理数据所述第一处理层用于接收上一个处理层输出的图像处理数据，对接收到的图像处理数据执行卷积处理，得到所述第一图像处理数据；

本发明实施例的第三方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如本发明实施例的第一方面提出的视频行为识别方法的步骤。

本发明实施例的第四方面，提供了一种服务器，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如本发明实施例的第一方面提出的视频行为识别方法的步骤。

本发明实施例提出的视频行为识别方法，首先获取待识别视频，从所述待识别视频中提取出多帧视频图像；然后将所述多帧视频图像输入预先训练完成的神经网络模型，以获得该神经网络模型输出的行为识别结果。本发明实施例在该神经网络模型的结构中添加了以下数据处理逻辑：获取所述多帧视频图像的图像处理数据，该图像处理数据为包含图像全局特征信息的四维矩阵，通过对该四维矩阵进行卷积处理，能够得到包含图像局部特征信息的四维矩阵，然后将该包含图像全局特征信息的四维矩阵和该包含图像局部特征信息的四维矩阵分别平铺后再相乘，从而将视频图像的局部特征与全局特征相结合，能够提高视频行为识别的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频行为识别方法的第一个实施例的流程图；

图2是本发明实施例提供的一种视频行为识别方法的第二个实施例的流程图；

图3是本发明实施例提供的一种视频行为识别装置的一个实施例的结构图；

图4是本发明实施例提供的一种服务器的示意图。

具体实施方式

本发明实施例提供了一种视频行为识别方法、装置、存储介质和服务器，能够提高视频行为识别的准确率。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例中一种视频行为识别方法的第一个实施例包括：

101、获取待识别视频；

首先，获取待识别视频，待识别视频是需要识别视频人员行为的一定长度的视频文件。

102、从所述待识别视频中提取出多帧视频图像；

在获取到待识别视频之后，从所述待识别视频中提取出多帧视频图像。具体的，可以采用现有技术中包含的各类视频图像提取方式，比如从视频文件中按照视频长度均匀地提取出多帧视频图像。

103、将所述多帧视频图像输入预先训练完成的目标神经网络模型，获得所述目标神经网络模型输出的行为识别结果。

然后，将所述多帧视频图像输入预先训练完成的目标神经网络模型，从而获得所述目标神经网络模型输出的行为识别结果。该目标神经网络模型可以采用各类已知行为类别的样本视频作为训练集训练得到，比如可以采用Kinetics行为数据集中的样本视频。其中，为了提高行为识别的准确性，该目标神经网络模型包括第一处理层和第二处理层，所述第一处理层和所述第二处理层为所述目标神经网络模型的网络结构中相邻的两个卷积层，所述目标神经网络将所述多帧视频图像转换为四个维度的图像数据进行处理，这四个维度可以是视频图像的时间、高度、宽度和特征值。所述第一处理层和第二处理层之间的处理逻辑如下：

(1)获取所述第一处理层输出的四维矩阵格式的第一图像处理数据；

(2)对所述第一图像处理数据进行矩阵的平铺处理，获得二维矩阵格式的第二图像处理数据；

(3)对所述第一图像数据进行卷积处理后，执行矩阵的平铺处理，获得二维矩阵格式的第三图像处理数据；

(4)将所述第三图像处理数据和所述第二图像处理数据相乘，获得二维矩阵格式的第四图像处理数据；

(5)对所述第四图像处理数据进行矩阵的逆平铺处理，得到四维矩阵格式的第五图像处理数据；

(6)将所述第五图像处理数据输入所述第二处理层。

对于上述步骤(1)，该第一处理层是目标神经网络模型的结构中包含的某一个卷积层，其处理的是该模型上一个处理层输出的图像处理数据，对接收到的图像处理数据执行卷积处理，得到所述第一图像处理数据。具体的，该第一处理层输出的是四维矩阵格式的第一图像处理数据，所述第一图像处理数据为所述多帧视频图像经所述第一处理层处理后得到的数据。矩阵的各个维度分别是视频图像的时间、高度、宽度和特征值，比如可以为T*H*W*1024(时间*高度*宽度*特征值)，该第一图像处理数据具有视频图像的全局特征信息。

对于上述步骤(2)，对所述第一图像处理数据进行矩阵的平铺处理，获得二维矩阵格式的第二图像处理数据，矩阵经过平铺处理，可以实现降维，比如一个2行5列的矩阵，经过平铺可以得到一个1行10列的矩阵。对于T*H*W*1024的第一图像处理数据，经过矩阵的平铺处理，可以得到THW*1024的第二图像处理数据，即从四维矩阵变为二维矩阵。

对于上述步骤(3)，对所述第一图像数据进行卷积处理后，执行矩阵的平铺处理，获得二维矩阵格式的第三图像处理数据。经过卷积处理，可以获得包含视频图像局部特征信息的第三图像处理数据。具体的，步骤(3)可以包括：

(3.1)将所述第一图像处理数据和预先构建的第一卷积矩阵相乘后，执行矩阵的平铺处理，得到二维矩阵格式的第六图像处理数据；

所述第一图像处理数据和预先构建的第一卷积矩阵相乘，然后执行矩阵的平铺处理，得到二维矩阵格式的第六图像处理数据。对于T*H*W*1024的第一图像处理数据，和预先构建的第一卷积矩阵(1*1*1)相乘，然后再执行矩阵的平铺处理，可以得到THW*1024的第六图像处理数据。

(3.2)将所述第一图像处理数据和预先构建的第二卷积矩阵相乘后，执行矩阵的平铺处理并转置，得到二维矩阵格式的第七图像处理数据；

所述第一卷积矩阵和所述第二卷积矩阵均为1*1*1的卷积核，且具有不同的元素值。对于T*H*W*1024的第一图像处理数据，和预先构建的第二卷积矩阵(1*1*1)相乘，然后再执行矩阵的平铺处理，接着进行矩阵转置；或者在和预先构建的第二卷积矩阵(1*1*1)相乘之后先执行矩阵转置，然后再执行矩阵的平铺处理，可以得到1024*THW的第七图像处理数据。经过卷积矩阵的处理，获得的第六图像处理数据和第七图像处理数据均包含视频图像的局部特征信息。

(3.3)将所述第六图像处理数据和所述第七图像处理数据相乘，获得二维矩阵格式的所述第三图像处理数据。

将所述第六图像处理数据和所述第七图像处理数据相乘，得到二维矩阵格式的所述第三图像处理数据。对于THW*1024的第六图像处理数据和1024*THW的第七图像处理数据，它们相乘之后得到(THW*THW)的第三图像处理数据。

对于上述步骤(4)，将所述第三图像处理数据和所述第二图像处理数据相乘，获得二维矩阵格式的第四图像处理数据。对于THW*THW的第三图像处理数据和THW*1024的第二图像处理数据，它们相乘之后得到THW*1024的第四图像处理数据。通过将所述第三图像处理数据和所述第二图像处理数据相乘，实现了视频图像全局特征和局部特征的结合。

对于上述步骤(5)，对所述第四图像处理数据进行矩阵的逆平铺处理，得到四维矩阵格式的第五图像处理数据。矩阵的逆平铺处理是矩阵平铺的逆操作，也可称为矩阵的展开处理，可以实现升维，比如一个1行10列的矩阵，经过逆平铺处理可以得到一个2行5列的矩阵。对THW*1024的第四图像处理数据进行矩阵的逆平铺处理，可以得到T*H*W*1024的第五图像处理数据。

对于上述步骤(6)，将所述第五图像处理数据输入所述第二处理层，所述第二处理层用于对所述第五图像处理数据执行卷积处理，然后将处理后的数据输入下一个处理层，以执行后续各个处理层的数据处理操作，最终得到行为识别结果。通过在神经网络模型的网络结构中添加上述步骤(1)-(6)的处理逻辑，能够将视频图像的全局特征和局部特征相结合，从而提高视频行为识别的准确率。

优选的，所述目标神经网络模型为RsesNet101模型，所述第一处理层为RsesNet101模型网络结构第四部分的最后一层处理层，所述第二处理层为RsesNet101模型网络结构第五部分的第一层处理层。

RsesNet是深度残差网络，包含RsesNet18、RsesNet34、RsesNet50RsesNet101和RsesNet152等多种不同深度的网络结构，每个网络结构都包含conv1、conv2、conv3、conv4和conv5这5个部分，根据网络结构深度的不同，每个部分包含的处理层的数量也不同。本发明实施例优选采用RsesNet101神经网络模型，在第一处理层和第二处理层之间添加如上述步骤(1)至(8)所示的处理逻辑，第一处理层是RsesNet101网络结构的第四部分(即conv4)的最后一层处理层，第二处理层是RsesNet101网络结构的第五部分(即conv5)的第一层处理层。

进一步的，所述目标神经网络模型可以通过以下步骤训练得到：

(1)采用kinetics数据集训练得到初始神经网络模型；

(2)从预先选取的样本视频中提取样本视频图像，所述样本视频的行为识别结果是已知的；

(3)将所述样本视频图像输入所述初始神经网络模型，得到样本行为识别结果；

(4)将所述样本行为识别结果和所述样本视频的行为识别结果进行比较，并根据比较的结果修正所述初始神经网络模型的参数，重复迭代直至所述样本行为识别结果和所述样本视频的行为识别结果之间的差别小于预设阈值；

(5)将参数修正完毕的所述初始神经网络模型确定为所述目标神经网络模型。

Kinetics是行为数据集，主要关注各种人类行为，包含单人行为、多人行为、人物行为等多种不同的类别。该数据集有400个类别，每个类别都有400-1000多个视频片段，可作为训练集训练得到一个初始的神经网络模型。然后，从预先选取的样本视频中提取样本视频图像，这些样本视频的行为识别结果是已知的，比如可以是交际舞、广场舞的视频。将这些样本视频图像输入所述初始的神经网络模型，得到样本行为识别结果，接着将模型输出的样本行为识别结果和该已知的样本视频的行为识别结果进行比较，得到相应的误差，然后根据该误差修正该初始神经网络模型的参数，如何反复迭代直至一定的迭代次数或者相应的误差小于设定的阈值，最终会得到一个参数修正完毕的神经网络模型，作为所述目标神经网络模型。

具体的，所述从预先选取的样本视频中提取样本视频图像可以包括：

(1)将所述样本视频的分辨率转换为预设的分辨率；

(2)根据所述样本视频的视频长度选取第四数量的样本时间点；

(3)以每个所述样本时间点为起始点，分别从所述样本视频中提取连续的多帧视频图像，得到所述第四数量的样本视频图像组，每个所述样本视频图像组包括第五数量的视频图像；

(4)对所述样本视频图像组包含的每一帧视频图像分别按照左边界对齐、中部对齐和右边界对齐的方式剪切为3个视频图像；

(5)从每个所述样本视频图像组包含的剪切后的视频图像中分别选取第六数量的视频图像，作为提取到的样本视频图像。

首先将样本视频的分辨率转换为预设的分辨率，比如可以转化为统一的分辨率340*256(水平像素×垂直像素)。然后根据所述样本视频的视频长度选取第四数量的样本时间点，比如若样本视频的长度为60min，则可以选取10个样本时间点，分别为0min、6min、12min、18min、24min、30min、36min、42min、48min、54min。接着以每个所述样本时间点为起始点，分别从所述样本视频中提取连续的多帧视频图像，得到所述第四数量的样本视频图像组，每个所述样本视频图像组包括第五数量的视频图像，比如以0min为起始点，从样本视频中提取连续的64帧视频图像，以6min为起始点，从样本视频中提取连续的64帧视频图像…最终得到10个样本视频图像组，每组包含64帧视频图像。对所述样本视频图像组包含的每一帧视频图像分别按照左边界对齐、中部对齐和右边界对齐的方式剪切为3个视频图像，采用左、中、右对齐指的是分别提取图片的左侧、中间和左右侧的图片信息，可以将一张分辨率340*256的图片转化为3张224*224的图片。经过这样处理，每一个样本视频图像组将包含64*3帧剪切后的视频图像。最后，从每个所述样本视频图像组包含的剪切后的视频图像中分别选取第六数量的视频图像，作为提取到的样本视频图像，比如可以按照每8步移动步长，提取一帧图片的方式进行提取，最终每个所述样本视频图像组得到8*3帧样本视频图像。通过将视频进行均匀分割，并提取预设帧数图片作为新的视频训练数据，既能保证提取训练数据的特征准确，又能降低视频图像的总大小，从而提高模型训练的效率。

请参阅图2，本发明实施例中一种视频行为识别方法的第二个实施例包括：

201、获取待识别视频；

步骤201与步骤101相同，具体可参照步骤101的相关说明。

202、将所述待识别视频的分辨率转换为预设的分辨率；

在获得待识别视频之后，将所述待识别视频的分辨率转换为预设的分辨率，比如可以转化为统一的分辨率340*256(水平像素×垂直像素)。

203、根据所述待识别视频的视频长度选取第一数量的时间点；

根据所述待识别视频的视频长度选取第一数量的时间点，比如若待识别视频的长度为60min，则可以选取10个时间点，分别为0min、6min、12min、18min、24min、30min、36min、42min、48min、54min。

204、以每个所述时间点为起始点，分别从所述待识别视频中提取连续的多帧视频图像，得到所述第一数量的视频图像组；

接着，以每个所述时间点为起始点，分别从所述待识别视频中提取连续的多帧视频图像，得到所述第一数量的视频图像组，每个所述视频图像组包括第二数量的视频图像。比如以0min为起始点，从待识别视频中提取连续的64帧视频图像，以6min为起始点，从待识别视频中提取连续的64帧视频图像…最终得到10个视频图像组，每组包含64帧视频图像。

205、对所述视频图像组包含的每帧视频图像进行剪切，截取预设区域内的图像；

然后，对所述视频图像组包含的每帧视频图像进行剪切，截取预设区域内的图像。比如，对于340*256的视频图像来说，可以剪切视频图像中部区域的图像，得到224*224的剪切后的视频图像。

206、从每个所述视频图像组包含的剪切后的视频图像中分别选取第三数量的视频图像，作为提取到的视频图像；

接着，从每个所述视频图像组包含的剪切后的视频图像中分别选取第三数量的视频图像，作为提取到的视频图像。比如，可以按照每8步移动步长，提取一帧图片的方式进行提取，最终每个所述视频图像组可以提取得到8帧视频图像。

207、将所述提取到的视频图像输入预先训练完成的目标神经网络模型，获得所述目标神经网络模型输出的行为识别结果。

最后，将所述提取到的视频图像输入预先训练完成的目标神经网络模型，获得所述目标神经网络模型输出的行为识别结果。关于步骤207的具体说明，可以参照步骤103。

具体的，步骤207可以包括：

(1)通过所述目标神经网络模型分别获得每个所述视频图像组的行为识别结果，获取到的行为识别结果包括各个预设行为的匹配度；

(2)计算各个所述视频图像组的行为识别结果的加权平均值，加权的权重根据各个所述视频图像组所对应的所述时间点确定；

(3)将所述加权平均值中匹配度最高的行为确定为所述待识别视频的行为识别结果。

假设有视频图像组1、2和3，各个预设的行为类别包括A、B和C，通过该目标神经网络模型获得视频图像组1的行为识别结果为A-90％(表示与行为类别A的匹配度为90％)，B-30％，C-15％，视频图像组2的行为识别结果为A-50％，B-80％，C-35％，视频图像组3的行为识别结果为A-70％，B-50％，C-75％。在计算加权平均值时，考虑视频图像组所对应的所述时间点，比如视频图像组对应的是待识别视频的中部时间点，则可以设置较高的权重值，由于大多数视频文件的主要内容处于视频的中部，故这样设置可以在一定的程度上提高视频行为识别的准确率。假设视频图像组1和视频图像组,3的权重值为1，视频图像组,2的权重值为1.2，则计算的加权平均值为A：(90％*1+50％*1.2+70％*1)/3＝73.3％，B：(30％*1+80％*1.2+50％*1)/3＝58.7％，C：(15％*1+35％*1.2+75％*1)/3＝44％.最后，将所述加权平均值中匹配度最高的行为确定为所述待识别视频的行为识别结果，即行为A为该待识别视频的行为识别结果。

与本发明的第一个实施例相比，本实施例提出了一种具体的从所述待识别视频中提取出多帧视频图像的方式，也即将所述待识别视频的分辨率转换为预设的分辨率，根据所述待识别视频的视频长度选取第一数量的时间点，以每个所述时间点为起始点，分别从所述待识别视频中提取连续的多帧视频图像，得到所述第一数量的视频图像组，对所述视频图像组包含的每帧视频图像进行剪切，截取预设区域内的图像，从每个所述视频图像组包含的剪切后的视频图像中分别选取第三数量的视频图像，作为提取到的视频图像。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

上面主要描述了一种视频行为识别方法，下面将对一种视频行为识别装置进行描述。

请参阅图3，本发明实施例中一种视频行为识别装置的一个实施例包括：

视频获取模块301，用于获取待识别视频；

视频图像提取模块302，用于从所述待识别视频中提取出多帧视频图像；

行为识别模块303，用于将所述多帧视频图像输入预先训练完成的目标神经网络模型，获得所述目标神经网络模型输出的行为识别结果；

进一步的，所述视频图像提取模块可以包括：

第一分辨率转换单元，用于将所述待识别视频的分辨率转换为预设的分辨率；

时间点选取单元，用于根据所述待识别视频的视频长度选取第一数量的时间点；

视频图像提取单元，用于以每个所述时间点为起始点，分别从所述待识别视频中提取连续的多帧视频图像，得到所述第一数量的视频图像组，每个所述视频图像组包括第二数量的视频图像；

视频图像剪切单元，用于对所述视频图像组包含的每帧视频图像进行剪切，截取预设区域内的图像；

视频图像选取单元，用于从每个所述视频图像组包含的剪切后的视频图像中分别选取第三数量的视频图像，作为提取到的视频图像。

更进一步的，所述行为识别模块可以包括：

行为识别结果获取单元，用于通过所述目标神经网络模型分别获得每个所述视频图像组的行为识别结果，获取到的行为识别结果包括各个预设行为的匹配度；

加权计算单元，用于计算各个所述视频图像组的行为识别结果的加权平均值，加权的权重根据各个所述视频图像组所对应的所述时间点确定；

行为识别结果确定单元，用于将所述加权平均值中匹配度最高的行为确定为所述待识别视频的行为识别结果。

进一步的，所述视频行为识别装置还可以包括：

初始模型训练模块，用于采用kinetics数据集训练得到初始神经网络模型；

样本视频图像提取模块，用于从预先选取的样本视频中提取样本视频图像，所述样本视频的行为识别结果是已知的；

样本行为识别模块，用于将所述样本视频图像输入所述初始神经网络模型，得到样本行为识别结果；

模型参数修正模块，用于将所述样本行为识别结果和所述样本视频的行为识别结果进行比较，并根据比较的结果修正所述初始神经网络模型的参数，重复迭代直至所述样本行为识别结果和所述样本视频的行为识别结果之间的差别小于预设阈值；

目标模型确定模块，用于将参数修正完毕的所述初始神经网络模型确定为所述目标神经网络模型。

更进一步的，所述样本视频图像提取模块可以包括：

第二分辨率转换单元，用于将所述样本视频的分辨率转换为预设的分辨率；

样本时间点选取单元，用于根据所述样本视频的视频长度选取第四数量的样本时间点；

样本视频图像提取单元，用于以每个所述样本时间点为起始点，分别从所述样本视频中提取连续的多帧视频图像，得到所述第四数量的样本视频图像组，每个所述样本视频图像组包括第五数量的视频图像；

样本视频图像剪切单元，用于对所述样本视频图像组包含的每一帧视频图像分别按照左边界对齐、中部对齐和右边界对齐的方式剪切为3个视频图像；

样本视频图像选取单元，用于从每个所述样本视频图像组包含的剪切后的视频图像中分别选取第六数量的视频图像，作为提取到的样本视频图像。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如图1或图2表示的任意一种视频行为识别方法的步骤。

本发明实施例还提供一种服务器，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如图1或图2表示的任意一种视频行为识别方法的步骤。

图4是本发明一实施例提供的服务器的示意图。如图4所示，该实施例的服务器4包括：处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机可读指令42。所述处理器40执行所述计算机可读指令42时实现上述各个视频行为识别方法实施例中的步骤，例如图1所示的步骤101至103。或者，所述处理器40执行所述计算机可读指令42时实现上述各装置实施例中各模块/单元的功能，例如图3所示模块301至303的功能。

示例性的，所述计算机可读指令42可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器41中，并由所述处理器40执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机可读指令42在所述服务器4中的执行过程。

所述服务器4可以是智能手机、笔记本、掌上电脑及云端服务器等计算设备。所述服务器4可包括，但不仅限于，处理器40、存储器41。本领域技术人员可以理解，图4仅仅是服务器4的示例，并不构成对服务器4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述服务器4还可以包括输入输出设备、网络接入设备、总线等。

所述处理器40可以是中央处理单元(CentraL Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitaL SignaL Processor，DSP)、专用集成电路(AppLication Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieLd-ProgrammabLe Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器41可以是所述服务器4的内部存储单元，例如服务器4的硬盘或内存。所述存储器41也可以是所述服务器4的外部存储设备，例如所述服务器4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure DigitaL,SD)卡，闪存卡(FLash Card)等。进一步地，所述存储器41还可以既包括所述服务器4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机可读指令以及所述服务器所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnLyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频行为识别方法，其特征在于，包括：

获取待识别视频；

从所述待识别视频中提取出多帧视频图像；

2.根据权利要求1所述的视频行为识别方法，其特征在于，所述对所述第一图像数据进行卷积处理后，执行矩阵的平铺处理，获得二维矩阵格式的第三图像处理数据包括：

将所述第一图像处理数据和预先构建的第一卷积矩阵相乘后，执行矩阵的平铺处理，得到二维矩阵格式的第六图像处理数据；

将所述第一图像处理数据和预先构建的第二卷积矩阵相乘后，执行矩阵的平铺处理并转置，得到二维矩阵格式的第七图像处理数据，所述第一卷积矩阵和所述第二卷积矩阵均为1*1*1的卷积核，且具有不同的元素值；

将所述第六图像处理数据和所述第七图像处理数据相乘，获得二维矩阵格式的所述第三图像处理数据。

3.根据权利要求1所述的视频行为识别方法，其特征在于，所述目标神经网络模型为RsesNet101模型，所述第一处理层为RsesNet101模型网络结构第四部分的最后一层处理层，所述第二处理层为RsesNet101模型网络结构第五部分的第一层处理层。

4.根据权利要求1所述的视频行为识别方法，其特征在于，所述从所述待识别视频中提取出多帧视频图像包括：

将所述待识别视频的分辨率转换为预设的分辨率；

根据所述待识别视频的视频长度选取第一数量的时间点；

以每个所述时间点为起始点，分别从所述待识别视频中提取连续的多帧视频图像，得到所述第一数量的视频图像组，每个所述视频图像组包括第二数量的视频图像；

对所述视频图像组包含的每帧视频图像进行剪切，截取预设区域内的图像；

从每个所述视频图像组包含的剪切后的视频图像中分别选取第三数量的视频图像，作为提取到的视频图像。

5.根据权利要求4所述的视频行为识别方法，其特征在于，所述获得所述目标神经网络模型输出的行为识别结果包括：

通过所述目标神经网络模型分别获得每个所述视频图像组的行为识别结果，获取到的行为识别结果包括各个预设行为的匹配度；

计算各个所述视频图像组的行为识别结果的加权平均值，加权的权重根据各个所述视频图像组所对应的所述时间点确定；

将所述加权平均值中匹配度最高的行为确定为所述待识别视频的行为识别结果。

6.根据权利要求1至5中任一项所述的视频行为识别方法，其特征在于，所述目标神经网络模型通过以下步骤训练得到：

采用kinetics数据集训练得到初始神经网络模型；

从预先选取的样本视频中提取样本视频图像，所述样本视频的行为识别结果是已知的；

将所述样本视频图像输入所述初始神经网络模型，得到样本行为识别结果；

将所述样本行为识别结果和所述样本视频的行为识别结果进行比较，并根据比较的结果修正所述初始神经网络模型的参数，重复迭代直至所述样本行为识别结果和所述样本视频的行为识别结果之间的差别小于预设阈值；

将参数修正完毕的所述初始神经网络模型确定为所述目标神经网络模型。

7.根据权利要求6所述的视频行为识别方法，其特征在于，所述从预先选取的样本视频中提取样本视频图像包括：

将所述样本视频的分辨率转换为预设的分辨率；

根据所述样本视频的视频长度选取第四数量的样本时间点；

以每个所述样本时间点为起始点，分别从所述样本视频中提取连续的多帧视频图像，得到所述第四数量的样本视频图像组，每个所述样本视频图像组包括第五数量的视频图像；

对所述样本视频图像组包含的每一帧视频图像分别按照左边界对齐、中部对齐和右边界对齐的方式剪切为3个视频图像；

从每个所述样本视频图像组包含的剪切后的视频图像中分别选取第六数量的视频图像，作为提取到的样本视频图像。

8.一种视频行为识别装置，其特征在于，包括：

视频获取模块，用于获取待识别视频；

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的视频行为识别方法的步骤。

10.一种服务器，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如下步骤：

获取待识别视频；

从所述待识别视频中提取出多帧视频图像；