CN111126115B

CN111126115B - 暴力分拣行为识别方法和装置

Info

Publication number: CN111126115B
Application number: CN201811295123.7A
Authority: CN
Inventors: 虢齐; 张玉双; 袁益琴
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd
Priority date: 2018-11-01
Filing date: 2018-11-01
Publication date: 2024-06-07
Anticipated expiration: 2038-11-01
Also published as: CN111126115A

Abstract

本申请公开了一种暴力分拣行为识别方法和装置。该方法包括：获取待预测视频；对待预测视频进行灰度化；将灰度化后的待预测视频输入预定的三维卷积神经网络模型进行暴力分拣行为的识别，其中预定的三维卷积神经网络模型具有行为特征提取能力。本申请通过利用存在行为特征提取能力的模型构建三维卷积神经网络模型，利用灰度视频进行学习和暴力分拣行为识别。从而缩短了暴力分拣行为识别的周期，提高了判断的准确性。

Description

暴力分拣行为识别方法和装置

技术领域

本发明涉及计算机视觉视频处理技术领域，尤其涉及基于深度学习和知识迁移的暴力分拣行为识别的方法和装置。

背景技术

近年来，随物流行业的发展，为了追求时效性，会出现暴力分拣的行为，例如还会出现扔或者踢包裹的现象，这些行为对包裹造成了损害，同时也使的各类投诉呈现激增的趋势。快递行业从业人员服务水平质量低以及对基层网点管理的不规范性导致暴力分拣的行为的存在，暴力分拣行为经常发现在正常的分拣行为之中，持续时间通常在一秒之内，所以基于视频的暴力分拣行为智能检测尤为重要。

现今，深度学习被广泛的应用在图片分析和视频理解领域，但是目前深度学习都需要大量的训练数据，数据标注需要耗费时间和人力，除此之外。视频本身是由连续的多帧图片组成，对于神经网络的计算而言是比较耗时的，而且当视频帧率较低时，分拣行为的差异性会变小，容易造成结果的误判。

因此，快速有效的识别暴力分拣行为是亟待解决的问题。

发明内容

针对现有技术存在的不足之处，本申请提出了一种暴力分拣行为识别方法，其有效地解决了现有技术中存在的耗时识别率不高的问题，提高了识别效率和准确率。

第一方面，本申请实施例提供一种暴力分拣行为识别方法，该方法包括：

获取待预测视频；

对所述待预测视频进行灰度化；

将所述灰度化后的待预测视频输入预定的三维卷积神经网络模型进行暴力分拣行为的识别，其中所述预定的三维卷积神经网络模型具有行为特征提取能力。

其中，预定的三维卷积神经网络模型是通过以下步骤建立的：

获取存在行为识别能力的第一模型和未输入任何参数的第二模型；

将所述第一模型进行灰度化；

提取所述灰度化后的第一模型的特征层参数；

将所述特征层参数传输到所述第二模型中，生成存在行为特征提取能力的初始三维卷积神经网络模型；

将多个已经灰度化并经过标注后的样本视频输入所述初始三维卷积神经网络模型进行训练，以形成所述预定的三维卷积神经网络模型。

第二方面，本申请实施例还提供一种暴力分拣行为识别装置，包括：

采集模块，用于获取待预测视频；

处理模块，用于对所述待预测视频进行灰度化；

识别模块，用于将所述灰度化后的待预测视频输入预定的三维卷积神经网络模型进行暴力分拣行为的识别，其中所述预定的三维卷积神经网络模型具有行为特征提取能力。

其中识别模型中的预定的三维卷积神经网络模型包括:

获取子模块，用于获取存在行为识别能力的第一模型和未输入任何参数的第二模型；

处理子模块，用于将所述第一模型进行灰度化；

参数提取子模块，用于提取所述灰度化后第一模型的特征层参数；

传输子模块，用于将所述特征层参数传输到所述第二模型中，生成存在行为特征提取能力的初始三维卷积神经网络模型；

模型生成子模块，用于将多个已经灰度化并经过标注后的样本视频输入所述初始三维卷积神经网络模型进行训练，以形成所述预定的三维卷积神经网络模型。

与现有技术相比，本申请技术方案旨在解决暴力分拣行为识别速率慢，识别的准确率低的问题。现有的基于深度学习的方法利用二维卷积神经网络对视频中的每一图像帧提取图像级的特征，然后按照视频中图像帧的顺序组合(相加、串联或者LSTM)起来形成视频的特征，这样造成了很多低层时序特征的丢失，尽管有方法利用光流来增加行为识别的准确率，但是提前计算光流增加了时间复杂度，并且不能对视频进行端对端地学习，导致这样的方法只能学习到次优的结果。

通过利用存在行为特征提取能力的模型构建三维卷积神经网络模型，利用灰度视频进行学习和暴力分拣行为识别。因为灰度视频比彩色视频少了两个通道，从而减少了计算量，并缩短了暴力分拣行为识别的周期，用具有一定行为特征提取能力的预训练模型，让模型能更容易学习暴力行为特征，提高了判断的准确性。

进一步地，采用深度学习提高模型的学习能力和泛化能力，利用三维模型更好学习到时间特征，避免手工提取时间特征。

进一步地，运用了知识迁移的方法，利用少量的分拣视频就可以将其迁移到暴力分拣行为识别任务上，缩短了训练的周期。

进一步地，利用灰度视频作为模型训练的数据集，解决了彩色视频计算速度慢的问题。

进一步地，通过下采样和插帧的方法进行视频的帧率处理，提高了视频识别的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，附图仅用于示出优选实施方法的目的，而并不认为是对本发明的限制。另外还需要说明的是，为了便于描述，附图中仅示出了本发明相关的部分而非全部。

图1是本申请实施例一种暴力分拣行为识别方法的方法流程示意图；

图2是本申请实施例预定的三维卷积神经网络模型建立的方法流程示意图；

图3是本申请实施例将所述灰度化后的待预测视频输入预定的三维卷积神经网络模型进行暴力分拣行为的识别的方法流程示意图；

图4是本申请实施例一种暴力分拣行为识别装置结构示意图；

图5是本申请实施例预定的三维卷积神经网络模型建立的结构示意图；

图6是本申请实施例一种暴力分拣行为识别装置中识别模块的结构示意图。

图7是本申请实施例的服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

第一方面，本申请实施例提供一种暴力分拣行为识别方法的示例性流程图。

如图1所示，该方法包括：

步骤110，获取待预测视频；

具体的，可以将分拣监控视频按照时间切割成一秒一秒的片段，然后将这些视频片段中包含的分拣行为剪切出来，形成一个个仅包含单个分拣行为的一秒的视频片段，降低计算量，提高运行速度，并统一视频的帧数为16帧。

进一步地，当视频片段的帧数大于16的下采样成16帧，可以将小于16帧的利用插帧算法补充成为16帧，插帧可以利用论文“Video Frame Interpolation via AdaptiveConvolution”(基于自适应可分离卷积的视频插帧)国际会议ICCV2017的论文中，作者为Simon Niklaus,Long Mai,and Feng Liu.Video Frame Interpolation via AdaptiveSeparable Convolution.IEEE ICCV 2017中提出的算法。插帧方法为：假设现在有8帧图片，I1，I2，......，I7，I8，常规的插帧为直接复制直接复制成，I1，I1，I2，I2，......，I7，I7，I8，I8，除此之外，还有一种插帧的方法为利用相邻两帧预测中间帧，因为中间帧的某一点的像素和前后两帧相应点周围的像素是强相关的，这里采用自适应可分离卷积法，将相邻两帧的图片I1，I2输入到一个编码-解码网络，输出四个分支网络得到四个卷积核K(1,h),K(1,v),K(2,h),K(2,v),用K(1,h)和K(1,v)对X1求卷积，用K(2,h)和K(2,v)对X2求卷积，然后将两个卷积结果相加得到中间的预测帧。

进一步地，可以将读取的视频，按照暴利和非暴力设立标签，标签分为属于暴利分拣行为一类与不属于暴利分拣行为一类这两种情况，即正负样本标注。

进一步地，对于标注完后的视频数据要进行预处理可以包含数据归一化和数据增强两个步骤。

机器学习、数据挖掘工作中，数据前期准备、数据预处理过程、特征提取这些步骤几乎要花费数据工程师一半的工作时间。同时，数据预处理的效果直接影响了后续模型能否有效工作。但是目前大部分学术研究主要集中在模型的构建、优化等方面，对数据预处理的理论研究甚少，可以说，很多数据预处理工作仍然是靠工程师的经验进行的。以下是数据预处理归一化方法：

线性函数归一化：线性函数将原始数据线性化的方法转换到[0 1]的范围，归一化公式采用以下公式，改方法实现对原始数据的等比例缩放，其中X_norm为归一化后的数据，X为原始数据，X_max、X_min分别为原始数据集的最大值和最小值。

0均值标准化：将原始数据集归一化方式要求原始数据的分布可以近似为高斯分布，否则归一化的效果会变得糟糕。

以上两种比较普遍但是常用的归一化技术，那这两种归一化的应用场景进行比较做以下概括：在分类和聚类算法中，需要使用距离来度量相似性的时候，或者使用PCA技术进行降维的时候，第二个方法0均值标准化表现的会更好。在不涉及距离量、协方差计算、数据不符合正太分布的时候、可以使用第一种方法或其他归一化方法。比如图像处理中，将RGB图像转换为灰度图像后将其值限定在[0 255]的范围。

数据增强为收集数据准备进行深度学习模型时，会遇到分类数据严重不足的情况，除此之外数据集过小容易造成模型的过拟合。常见的数据增强的方法有ColorJittering对颜色的数据增强：图像亮度、饱和度、对比度变化；PCA Jittering：首先按照RGB三个颜色通道计算均值和标准差，再在整个训练集上计算协方差矩阵，进行特征分解，得到特征向量和特征值；Random Scale尺度变换法；Random Crop采用随机图像差值方式，对图像进行裁剪、缩放；包括Scale Jittering方法(VGG及ResNet模型使用)或者尺度和长宽比增强变换法；Horizontal/Vertical Flip水平/垂直翻转；Shift平移变换法；Rotation/Reflection旋转/仿射变换法；Noise高斯噪声、模糊处理法；Label shuffle类别不平衡数据的增广。

步骤120，对所述待预测视频进行灰度化；

具体的，视频是由图像构成的，彩色图像中的每个像素的颜色有R、G、B三个分量决定，而每个分量有255中值可取，这样一个像素点可以有1600多万(255*255*255)的颜色的变化范围。而灰度图像是R、G、B三个分量相同的一种特殊的彩色图像，其一个像素点的变化范围为255种，所以在数字图像处理种一般先将各种格式的图像转变成灰度图像以使后续的图像的计算量变得少一些。灰度图像的描述与彩色图像一样仍然反映了整幅图像的整体和局部的色度和亮度等级的分布和特征。模式L为灰色图像，它的每个像素用8个bit表示，0表示黑，255表示白，其他数字表示不同的灰度。在PIL中，从模式“RGB”转换为“L”公式为：L＝R*299/1000+G*587/1000+B*114/1000将彩色图像转化成为灰度图像的过程，称为图像的灰度化处理。

步骤130，将所述灰度化后的待预测视频输入预定的三维卷积神经网络模型进行暴力分拣行为的识别，其中所述预定的三维卷积神经网络模型具有行为特征提取能力；

具体的，卷积神经网络在深度学习中有着举足轻重的地位，尤其应用到图像分类中取得了很大的突破，例如图片自动标注，当然最近也有人将他运用到自然语言处理中。一个典型的神经网络，其中包含两个卷积层，两个子采样层。

在传统的深度神经网络中，使得仅仅是在感知机基础上的深度网络，每一层都是全连接层或者仿射层，但是参数太多，例如一个100*100的图像，就可以表示为一个长度为10000的向量，如何在第一个隐藏层的节点数和输入层一样，那么需要参数10000*10000＝10⁸个参数，导致训练量非常大，而且过多的参数还非常容易过拟合。而CNN(ConvolutionalNeural Networks-卷积神经网络)则作为局部连接，通过共享参数，大大减少了参数的训练量，而且在图像处理中通过接受局部信息，还可以学习到图片的物体边缘和形状特征。一个卷积核会将图片生成另外一幅图像，在每个卷积层使用多个不同的卷积核组成一个卷积核组，不同的核在输入图片上运算会得到了不同的结果，就是相当于一张图像的不同通道。当然这些卷积核组我们可以自动学习出来，在此之前对于每个通道都会在后面加上非线性的激励函数。一般来说是RELU或者TANH函数，加上非线性的激励函数就是给系统加上非线性因素，因为线性模型的表达能力往往不够。

本申请方案采用了在图像分类领域具有高性能的残差网络Resnet作为基础模型结构，Resnet在以往都是由浅入深一层层传递的深度神经网络中加入了一条“捷径”，可以直接将当前层的输入参数恒等地传入下一层。这种结构可以避免随着网络加深而出现的梯度消失的情况，从而可以设计更深的网络，学习更强的分类特征，以Resnet为代表的用于图像分类的卷积神经网络中的卷积操作是二维操作。本方案采取将Resnet的二维卷积核扩展成为了三维。即视频在模型中从左到右、由上至下、从前往后进行三维空间上的滑动，并和视频中相应的区域进行加权运算，得到新的视频。

构建卷积神经网络—3D-Resnet50，作为训练模型，该网络包含50个卷积层，1个分类层(全连接层)。该模型的原本的输入大小为(16,112,112,3)，16帧连续的高宽都是112的彩色视频帧，对此预训练模型的第一个卷积层的卷积核以通道的维度求平均，输入大小就变成了(16,112，112,1)，16帧的连续的高度都为112的灰度视频。

具体的，将标记的灰度视频作为训练集，训练采用端对端的方式，使用难例挖掘的方法，训练得到完整的暴力分拣检验模型。由于重合度超过一定阈值的认为为正样本，在阈值以下的成为负样本，分类器的效果是有限的，会出现很多假阳性，将不容易区分和判断的样本继续输入三维卷积神经网络模型再训练一次，进而加强了对暴利分拣行为的判定。

在应用机器学习算法时，通常采用梯度下降法对采用的算法进行训练。其实，常用的梯度下降法包括以下三种形式，并且各自有着各种不同的优缺点。下面以线性回归算法对三种梯度下降法进行比较。

一般线性回归函数的假设函数为：

对应的损失函数为:

批梯度下降法，目标函数尽可能的小，以及求解weights使误差函数尽可能小。首先，随机初始化weights，然后不断反复的更新weights使得误差函数减小，直到满足要求时停止。这里更新算法选择梯度下降算法，利用初始化weights并且反复更新weights：

代表学习率，表示每次向着J最陡峭的方向迈步的大小，为了更新weights需要求出函数J的偏导数：

则对所有数据点，上述损失函数的偏导累和，再最小化损失函数的过程中，需要不断反复的更新weights使得误差函数减小，进行参数更新，每一次参数更新都用到了所有的训练数据，所以训练数据越多，消耗时间越长。

随机梯度下降法SGD，由于批梯度下降每跟新一个参数的时候，要用到所有的样本数，所以训练速度会随着样本数量的增加而变得非常缓慢，随机梯度下降也是为了解决这个问题而提出来的。它是利用每个样本的损失函数对θ求偏导得到对应的梯度，来更新θ。

小批量梯度下降法MBGD，由于算法的训练过程比较快，而且也要保证最终参数训练的准确率要高，与批梯度下降最大的区别在于，更新参数的时候，没有将所有训练样本考虑进去，然后求和除以总数。

三种梯度下降法总结：批梯度下降每次更新使用了所有的训练数据，最小化损失函数，如果只是一个极小值，那么批梯度下降是考虑了训练集所有数据，是朝着最小值迭代运动的，但是缺点就是样本值很大，更新速度就会很慢。随机梯度下降在每次更新的时候，只会考虑一个样本点，这样会大大加快训练数据，也恰好是批梯度下降的缺点，但是有可能由于训练数据的噪声点较多，那么每一次利用噪声点进行更新的过程中，就不一定朝着极小值反向更新，但是由于更新多轮，整体方向还是大致朝着极小值方向更新的，又提高了速度。小批量梯度下降法是为了解决批梯度下降法的训练速度慢，以及随机梯度下降法的准确性综合而来，但是必须注意的是，不同问题的batch(批次)是不一样的。

进一步的，损失函数可以如下：设视频数据为x，其真实类别为y(0为非暴力，1为暴力)，为模型预测的类别。三维卷积神经网络模型的计算遵循如下公式：

ω为模型参数，L为损失函数，||·,·||为相似性度量函数。需要求出一组ω′，使得损失函数最小：

N为训练集样本的总数目，ω′的求解使用小批量随机梯度下降法。

进一步的，构造了损失函数之后，可以采取小批量随机梯度下降法，拟合所述样本视频以判断样本视频的分类。

进一步的，具体的，可以利用三维卷积神经网络的特征提取层提取灰度视频中的分拣行为特征，将这些特征输入到三维卷积神经网络的分类层，输出该灰度视频存在暴力分拣行为的概率。

进一步的，由于图像具有稳固性，可以通过池化可以将一个卷积的特征的四个区域或者多个区域压缩到四个值，这样大大的减少了参数数量。本申请采取均值池化，只要图像的某个区域中含有暴利分拣特征就断定该图像存在暴利分拣，或者该灰度视频存在暴利分拣。

进一步的，输出一个是否是暴力的概率，这个概率在0-1之间，通常概率大在0.5-1.0之间判定为暴力，本申请实施例设定统一的阈值为0.5，作为判定暴力行为的概率标准，当输出的概率大于这个预设值的时，认为该灰度视频属于暴利分拣行为的范畴。

如图2所示，在步骤130中，预定的存在行为特征提取能力的三维卷积神经网络模型的构建过程：

步骤210，获取存在行为识别能力的第一模型和未输入任何参数的第二模型；

步骤220，将所述第一模型进行灰度化；

步骤230，提取所述第一模型的特征层参数；

步骤240，将所述特征层参数传输到所述的第二模型中，生成存在行为特征提取能力的初始三维卷积神经网络模型。

步骤250，将多个已经灰度化并经过标注后的样本视频输入所述初始三维卷积神经网络模型进行训练，以形成所述预定的三维卷积神经网络模型。

具体的，获取的存在行为识别能力的第一模型可以是三维卷积神经网络模型或者二维卷积神经网络模型。第二模型为参照第一模型的结构，保持特征提取层(卷积层)和第一模型一样，根据任务(二分类)构建出分类层，从而生成卷积神经网络模型。其中当第一模型是二维卷积神经网络模型时，第二模型也为二维卷积神经网络模型，当第一模型是三维卷积神经网络模型时，第二模型也为三维卷积神经网络模型。

进一步的，卷积层的卷积核的维数为(M,N,T,H,W)，将输入通道的维度求平均值得到新的卷积核的维度为(1,N,T,H,W)。其中M为输入通道数，N为输出通道数，T为时序长，H为高，W为宽，彩色视频M为3，灰度视频M为1。

进一步的，当第一模型为三维模型时，将该模型的3个输入通道转换成单通道进行初始化，目的是模型只能进行灰度视频的训练，然后提取特征层参数，直接将参数一一对应的赋值给第二模型。

进一步的，当第一模型为二维模型时，将该模型的输入3个通道转换成单通道，目的是模型只能进行灰度视频的训练，然后这个二维模型转成三维模型，即将二维模型中的特征层的每个二维卷积核复制多份变成三维卷积核，最后将这个三维模型的特征层参数一一对应的赋值给第二模型。

进一步的，将二维的卷积核转换成三维卷积核就是将2*2的矩阵(矩阵是二维张量)的卷积核，复制两份变成2*2*2的三维张量。由于这个二维模型经过行为识别训练的，本身具备行为识别能力,其次是将二维模型中的参数(也就是卷积核)进行了复制，所以生成的三维卷积神经网络保留了行为特征提取能力。

如图3所示，在步骤130中，将所述灰度化后的待预测视频输入预定的三维卷积神经网络模型进行暴力分拣行为的识别，包括：

步骤1301，将所述灰度化后的待预测视频经过多个卷积层以提取其中的行为特征，输出张量；

步骤1302，对所述灰度视频的行为特征进行处理，将所述张量经过全局均值池化层后，输出向量；

步骤1303，将所述向量经过全连接层，进行行为特征分类，输出暴力分拣行为的概率，如果概率大于或等于预定阈值，则判定为暴力分拣行为。

进一步的，在利用卷积提取的特征后，实际上得到的参数还是非常的多，采用池化的方法继续减少参数。可以想象一下，训练像素大小为96×96的图片，假设在第一层我们要用8×8学400个特征。简单算一下我们就可以发现这层我们就得到了892×400＝3168400个参数。池化就是将参数进行过滤，提取相关信息的过程。

有均值池化(mean pooling)，最大值池化(max pooling)，随机池化(stochasticpooling)。池化同时也通过统计区域信息，达到了一个降噪的目的，以及平移、旋转、放缩的不变性。

进一步的，经过全局均值池化后，只要图像的某个区域中含有暴利分拣特征就断定该图像存在暴利分拣，或者该灰度视频存在暴利分拣。

本实施例提供了一种暴力分拣行为识别装置。图4示出了本申请实施例提供的一种暴力分拣行为识别装置。

如图4所示，该装置300包括：

采集模块310，用于获取待预测视频；

处理模块320，用于对所述待预测视频进行灰度化；

识别模块330，用于将所述灰度化后的待预测视频输入预定的三维卷积神经网络模型进行暴力分拣行为的识别，其中所述预定的三维卷积神经网络模型具有行为特征提取能力。

具体的，采集模块310中，采集原始监控视频，将所述监控视频裁剪成一个个只包含单个分拣行为的视频片段。

进一步的，通过标注是按照暴力和非暴力进行分类。

具体的，识别模块330中，采取小批量随机梯度下降法，拟合样本数据以判断训练集中灰度视频片段的分类。

进一步的，如图5所示，其中识别模块330中预定的三维卷积神经网络模型还可以包括：

获取模块410，用于获取存在行为识别能力的第一模型和未输入任何参数的第二模型；

处理模块420，用于将第一模型进行灰度化；

参数提取子模块430，用于提取所述灰度化后第一模型的特征层参数；

传输模块440，用于将所述特征层参数传输到所述第二模型中，生成存在行为特征提取能力的初始三维卷积神经网络模型；

模型生成模块450，用于将多个已经灰度化并经过标注后的样本视频输入所述初始三维卷积神经网络模型进行训练，以形成所述预定的三维卷积神经网络模型。

进一步的，如图6所示，其中，识别模块330还可以包括：

特征提取子模块3301，用于将所述灰度化后的待预测视频经过多个卷积层以提取其中的行为特征，输出张量；

特征处理子模块3302，用于对所述灰度视频的行为特征进行处理，将所述张量经过全局均值池化层后，输出向量；

特征判断子模块3303，用于将所述行为特征进行分类，对所述向量经过全连接层，进行行为特征分类，输出暴力分拣行为的概率。

可选地，特征提取子模型3301中，该多个卷积层是级联关系，即前一个卷积层的输出作为下一个卷积层的输入，每层卷积层提取不同的行为特征数据，进行整合，最后输出张量。

应当理解，装置300中记载的采集模块310、处理模块320和识别模块330与参考图1描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于装置300及其中包含的单元，在此不再赘述。装置300可以预先实现在电子设备的浏览器或其他安全应用中，也可以通过下载等方式而加载到电子设备的浏览器或其安全应用中。装置300中的特征提取子模块3301、特征处理子模块3302和特征判断子模块3303可以与电子设备中的对应单元相互配合以实现本申请实施例的方案。

下面参考图7，其示出了适于用来实现本申请实施例的服务器的计算机系统600的结构示意图。

如图7所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考图1描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，上述计算机程序包含用于执行图1的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离前述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案

通过以上描述可知：本领域技术人员可以清楚地了解到本申请必须借助硬件后台方式来实现。基于此理解，本申请的技术方案本质上可以说对现有技术做出贡献的部分借助计算机的开发程序形式体现出来，包括若干指令使得一台计算机设备(个人计算，服务器，或者网络设备等)执行本申请实施例的某些部分所述方法。

Claims

1.一种暴力分拣行为识别方法，其特征在于，包括：

获取待预测视频，所述待预测视频包括从所述预测视频中筛选出若干个包含的分拣行为的视频片段，所述视频片段的帧数小于24帧，所述视频片段的帧数通过下采样方式或者插帧算法处理后获取；

对所述待预测视频进行灰度化；

将所述灰度化后的待预测视频输入预定的三维卷积神经网络模型进行暴力分拣行为的识别，其中所述预定的三维卷积神经网络模型具有行为特征提取能力；

其中，所述预定的三维卷积神经网络模型是通过以下步骤建立的：

将所述第一模型进行灰度化；

提取所述灰度化后的第一模型的特征层参数；

将所述特征层参数传输到所述第二模型中，生成存在行为特征提取能力的初始三维卷积神经网络模型，所述初始三维卷积神经网络模型的3个输入通道为单通道；

将多个已经灰度化并经过标注后的样本视频输入所述初始三维卷积神经网络模型进行训练，以形成所述预定的三维卷积神经网络模型；

所述第二模型为参照第一模型的结构，保持特征提取层和所述第一模型一样，所述第一模型和所述第二模型均为三维残差卷积神经网络模型；

所述将多个已经灰度化并经过标注后的样本视频输入所述初始三维卷积神经网络模型进行训练包括：

采取小批量随机梯度下降法，拟合所述样本视频以判断样本视频的分类；

所述将所述灰度化后的待预测视频输入预定的三维卷积神经网络模型进行暴力分拣行为的识别，包括：

将所述灰度化后的待预测视频经过多个卷积层以提取其中的行为特征，输出张量；

对所述灰度视频的行为特征进行处理，将所述张量输入全局均值池化层后，输出向量；

将所述向量经过全连接层，进行行为特征分类，输出暴力分拣行为的概率，如果概率大于或等于预定阈值，则判断为暴力分拣行为。

2.根据权利要求1所述的暴力分拣行为识别方法，其特征在于，还包括利用下采样法或插帧法对所述已经灰度化并经过标注后的样本视频进行帧率处理。

3.根据权利要求1所述的暴力分拣行为识别方法，其特征在于，

所述阈值为0.5。

4.根据权利要求1所述的暴力分拣行为识别方法，其特征在于，所述第一模型和所述第二模型为相同维数的卷积神经网络模型。

5.一种暴力分拣行为识别装置，其特征在于，包括：

采集模块，用于获取待预测视频；所述待预测视频包括从所述预测视频中筛选出若干个包含的分拣行为的视频片段，所述视频片段的帧数小于24帧，所述视频片段的帧数通过下采样方式或者插帧算法处理后获取；

处理模块，用于对所述待预测视频进行灰度化；

识别模块，用于将所述灰度化后的待预测视频输入预定的三维卷积神经网络模型进行暴力分拣行为的识别，其中所述预定的三维卷积神经网络模型具有行为特征提取能力；

所述识别模型中所述预定的三维卷积神经网络模型包括:

获取模块，用于获取存在行为识别能力的第一模型和未输入任何参数的第二模型；

处理模块，用于将所述第一模型进行灰度化；

参数提取模块，用于提取所述灰度化后第一模型的特征层参数；

传输模块，用于将所述参数传输到所述第二模型中，生成存在行为特征提取能力的初始三维卷积神经网络模型，所述初始三维卷积神经网络模型的3个输入通道为单通道；

模型生成模块，用于将多个已经灰度化并经过标注后的样本视频输入所述初始三维卷积神经网络模型进行训练，以形成所述预定的三维卷积神经网络模型；

所述识别模块，具体用于采取小批量随机梯度下降法，拟合样本数据以判断训练集中灰度视频片段的分类；

所述识别模块包括：

特征提取子模块，用于将所述灰度化后的待预测视频经过多个卷积层以提取其中的行为特征，输出张量；

特征处理子模块，用于对所述灰度视频的行为特征进行处理，将所述张量经过全局均值池化层后，输出向量；

特征判断子模块，用于将所述行为特征进行分类，对所述向量经过全连接层，进行行为特征分类，输出暴力分拣行为的概率。