CN110222574A

CN110222574A - 基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质

Info

Publication number: CN110222574A
Application number: CN201910376081.8A
Authority: CN
Inventors: 胡海洋; 朱相玲
Original assignee: Hangzhou Zhishan Yunke Information Technology Co Ltd
Current assignee: Hangzhou Zhishan Yunke Information Technology Co Ltd
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2019-09-10
Anticipated expiration: 2039-05-07
Also published as: CN110222574B

Abstract

本申请公开了基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质，其中，生产操作行为识别方法包括如下步骤：获取生产环境的监控视频，将监控视频分解为图像帧序列和光流序列；将所述图像帧序列和光流序列输入结构化双流卷积神经网络，得到每帧图像的动作类别和时间戳信息；所述结构化双流卷积神经网络引入有注意力机制；依据所述动作类别和时间戳信息，计算得到生产动作实例。本申请提供的生产操作行为识别方法能够快速准确识别视频中生产操作行为，满足智能制造的要求。

Description

基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质

技术领域

本申请涉及视频图像分析技术领域，特别是涉及基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质。

背景技术

计算机视觉技术被应用于多个研究领域，包括人物识别、图像重建以及动作识别等。对于大型工厂的监控视频分析，许多工作将计算机视觉技术框架应用于生产操作行为识别工程，以确保员工安全、生产调度以及提高全局设备效率等。

目前，智能监控每天产生数以万计的有价值的视频数据，为了充分利用这些视频数据，需要设计一个能够从大量视频中自动提取特征和模式，并且识别工人行为以及机器行为的生产操作行为识别框架。通常，一段生产操作行为被认为是由对应控制结构的一系列单独的活动组成，单个活动被定义为是一个特殊的任务，例如人类行为或者机器动作。因此，生产操作行为识别可以由计算机视觉技术解决。

特别的，智能监控下的生产操作行为识别主要包括识别工人和机器等的行为，计算每个任务的开始时间和结束时间，以及分析生产操作行为的模式，因此，生产操作行为识别过程主要涉及动作识别和时序动作识别等。目前许多工作都有一个固定的传统模式，分为以下两个步骤：1)根据实际问题，做出合理的假设并计算复杂的特征；2)根据特征学习一个适合的模型。但是处理复杂的任务时，如动作识别，很难设计一个合理的标准，更别说计算如此复杂的特征。

近年来，视频识别方向吸引了大量学者的注意，其中利用手工提取特征来解决视频动作识别的方法可以归纳为以下三个步骤：1)根据假设，从图像空域上(RGB)提取稠密的特征；2)应用相关方法(如Fisher向量，视觉词袋法等) 来组合这些特征，使其成为固定尺度的特征；3)基于特征描述训练一个判别模型(如支持向量机)来区分动作类别。除了在视频中提取局部特征外，一些浅层特征表示还利用密集点轨迹来识别动作。此外，还有学者提出了基于稠密点轨迹和运动边界描述的视频表征方法，显著提高了视频动作识别性能。近年来，通过Fisher向量将一些手工特征结合稠密点轨迹的方法也取得了不错的性能。

然而，生产操作行为识别技术有其复杂性与特殊性，现有的图像处理方案不能够满足生产操作行为识别的准确度以及效率。

发明内容

基于此，需要提供一种快速准确识别视频中生产操作行为的方法，以满足智能制造的要求。

一种基于结构化双流卷积神经网络的生产操作行为识别方法，包括如下步骤：

获取生产环境的监控视频，将监控视频分解为图像帧序列和光流序列；

将所述图像帧序列和光流序列输入结构化双流卷积神经网络，得到每帧图像的动作类别和时间戳信息；所述结构化双流卷积神经网络引入有注意力机制；

依据所述动作类别和时间戳信息，计算得到生产动作实例。

本申请提供的基于结构化双流卷积神经网络的生产操作行为识别方法，使用结构化双流卷积神经网络来识别视频图像中的动作，并在结构化双流卷积神经网络中引入注意力机制，增强对显著动作区域的检测。

以下还提供了若干可选方式，但并不作为对上述总体方案的额外限定，仅仅是进一步的增补或优选，在没有技术或逻辑矛盾的前提下，各可选方式可单独针对上述总体方案进行组合，还可以是多个可选方式之间进行组合。

可选地，所述结构化双流卷积神经网络的训练过程包括：

利用先验数据对双流卷积神经网络进行训练，得到预训练参数；

利用先验数据和预训练参数对结构化双流卷积神经网络进行训练。

可选地，所述先验数据包括提取自训练视频数据的光流序列以及标记有时间戳信息的图像帧序列。

可选地，所述双流卷积神经网络包括结构相同的时间流卷积神经网络和空间流卷积神经网络，对时间流卷积神经网络和空间流卷积神经网络的输出进行加权平均后，利用分类器输出；

所述结构化双流卷积神经网络包括结构相同的时间流卷积神经网络和空间流卷积神经网络，对时间流卷积神经网络和空间流卷积神经网络的输出进行时空双线性压缩融合后，引入注意力机制计算全连接层，最后利用分类器输出。

可选地，所述时间戳信息通过向量标签VideoTriple＝(start,main,end)表达，其中：start的值表示该图像帧属于某一生产动作开始的概率；main的值表示该图像帧属于某一生产动作主体的概率；end的值表示该图像帧属于某一生产动作结束的概率。

可选地，所述生产操作行为识别方法还包括：

将识别的生产动作实例与标准生产操作行为进行比对，分析生产动作实例是否符合操作规范。

本申请还提供了一种基于结构化双流卷积神经网络的生产操作行为识别装置，包括：

第一模块，用于获取生产环境下的监控视频，将监控视频分解为图像帧序列和光流序列；

第二模块，用于将所述图像帧序列和光流序列输入结构化双流卷积神经网络，得到每帧图像的动作类别和时间戳信息；所述结构化双流卷积神经网络引入有注意力机制；

第三模块，用于依据所述动作类别和时间戳信息，计算得到生产动作实例。

本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述的基于结构化双流卷积神经网络的生产操作行为识别方法。

本申请还提供了一种基于结构化双流卷积神经网络的生产操作行为识别系统，包括影像采集装置以及服务器，所述服务器包括存储器和处理器，所述存储器内存储有计算机程序，所述服务器从影像采集装置获取生产环境的监控视频；所述处理器执行所述计算机程序时，实现所述的基于结构化双流卷积神经网络的生产操作行为识别方法。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的基于结构化双流卷积神经网络的生产操作行为识别方法。

本申请将计算机视觉以及深度学习技术应用于生产操作行为的识别，能够智能分析监控视频，对工人以及机器的生产操作行为进行分析，判断是否符合操作规范。

本申请提供的基于结构化双流卷积神经网络的生产操作行为识别方法，解决了视频数据的特征提取问题，有效利用工厂环境下产生的大量智能监控视频，能够通过自动化的学习，识别生产操作行为。

附图说明

图1为本申请双流卷积申请网络的结构示意图；

图2为本申请结构化双流卷积申请网络的结构示意图；

图3为本申请筛选动作实例窗口示意图；

图4a为一个实施例的监控视频其中一帧的示意图；

图4b为一个实施例识别的生产动作实例的实时展示；

图5为一个实施例中计算机设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了更好地描述和说明本申请的实施例，可参考一幅或多幅附图，但用于描述附图的附加细节或示例不应当被认为是对本申请的发明创造、目前所描述的实施例或优选方式中任何一者的范围的限制。

需要说明的是，当组件被称为与另一个组件“连接”时，它可以直接与另一个组件连接或者也可以存在居中的组件。当一个组件被认为是“设置于”另一个组件，它可以是直接设置在另一个组件上或者可能同时存在居中组件。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

下列实施方式中，所涉及的概念定义及符号说明总结如下：

动作边界：指的是某一生产动作的起始时刻和结束时刻，例如：00:05:24 工人开始调试，00:07:39工人调试结束。

双流卷积申请网络权重：双流卷积申请网络的输出，记为W。

时间戳信息：视频的每个图像帧都附加一个额外的向量标签VideoTriple＝(start,main,end)，表示该图像帧属于某一生产动作的开始、主体(即生产动作进行中)、结束的概率，如VideoTriple＝(0.92,0.07,0.01)表示该帧图像极大概率属于某一生产动作的开始状态。VideoTriple中的各向量值的和恒等于1。

d_t：表示图像在第t帧及第t+1帧之间的目标位移向量集合；

d_t(u,v)：表示点(u,v)处从第t帧到第t+1帧之间的位移向量；

分别表示水平方向和垂直方向上的位移向量，可以看成是图像上的两个通道；

I_τ：表示时间流卷积神经网络的输入，其中w代表视频宽度， h代表视频长度，L代表视频帧数，τ为任意时刻；

FFT：离散傅里叶变换；

FFT^-1：反离散傅里叶变换；

y⁽ⁱ⁾：表示第i个视频数据的类别标签；

vt⁽ⁱ⁾：表示第i个视频数据中动作边界的类型(动作边界的类型包括开始，主体，结束)；

l⁽ⁱ⁾：表示第i个视频数据属于哪个动作类别；

网络损失函数，θ代表需要学习及更新的神经元参数；

twⁱ：表示第i个动作实例窗口，其中tw_i＝(s_i,e_i,l_i),1≤s_i≤e_i≤n，s_i是第i个动作实例窗口的起始帧，e_i是第i个动作实例窗口的结束帧，n是视频总帧数(视频中的一个动作实例的帧数不可能超过n)，l_i含义同l⁽ⁱ⁾；

softmax：多类型分类器，每一类别的概率t_i表示如下：

maxpool：最大池化，公式如下：

f(X)＝max(X),n是维度；X为n维输入向量；

ReLU：激活函数，公式如下：

x为上一层神经网络的输入向量。

下面结合附图，对本申请做详细描述。

依据所述动作类别和时间戳信息，计算得到生产动作实例。

本申请公开了一种基于结构化双流卷积神经网络的生产操作行为识别方法，能够从复杂工厂环境的监控视频中识别出工人以及机器的生产操作行为。

本申请利用结构化双流卷积神经网络提取时空特征，并引入注意力机制检测有意义的生产操作行为，同时，通过时间戳信息获取生产动作的时间信息，应用合适的算法(例如非极大抑制化算法)对动作类别和时间戳信息进行处理，晒选出生产动作实例，实现生产操作行为的自动化识别，且能够满足识别精度的要求。

所述图像帧序列在输入结构化双流卷积神经网络之前添加了表达时间戳信息的向量标签VideoTriple＝(start,main,end)，其中：

start的值表示该图像帧属于某一生产动作开始的概率；

main的值表示该图像帧属于某一生产动作主体的概率；

end的值表示该图像帧属于某一生产动作结束的概率。

经过结构化双流卷积神经网络处理后，得到图像帧对应的动作类别(即图像帧中的生产动作归属于哪类行为，生产行为包括：机器调试，侧板焊接等) 以及时间戳信息，结构化双流卷积神经网络处理后的输出可采用如下形式表达：

(classA,0.92,0.07,0.01)，其中classA为动作类别，0.92为该图像帧属于classA开始的概率；0.07为该图像帧属于classA主体的概率；0.01为该图像帧属于classA结束的概率。

应用非极大抑制化算法对结构化双流卷积神经网络输出的动作类别和时间戳信息进行处理，从帧序列中筛选出生产动作实例。计算时，首先设定生产动作的置信度，该置信度表示“该生产动作位于某个时间范围”的可信度，通过设置置信度可以得到一系列可能存在的动作实例，然后利用非极大抑制算法删除那些与正例重合度高的冗余窗口，得到生产动作实例，如图3所示，具体如下：

步骤a，假定一个视频v＝{x₁,x₂,…,x_n}∈V，其中x_t代表处于t时刻的帧， n代表视频的总帧数，单个动作实例位视频中一个连续帧窗口，表示为 z＝{x_s,x_s+1,…,x_e}，s代表开始时刻索引，e代表结束时刻索引。

式中：λ，μ，η是相应部分的权重系数；

z是找出的相应的窗口集{z₁,z₂,…,z_k}；

f^s(x_s)代表属于动作边界开始的概率值；

f^m(x_t)代表属于动作边界主体(即动作进行中)的概率值；

f^e(x_e)代表属于动作边界结束的概率值。

步骤b，应用非极大抑制算法删去重复的动作实例窗口，具体包括：

步骤b-1，输入时序动作实例窗口集m为动作实例窗口总个数；

步骤b-2，以标签l⁽ⁱ⁾将窗口集TW分类得到：k为属于该类动作的窗口集的个数；

步骤b-3，对每个TW_i∈CLS_TW，执行如下操作；

步骤b-3-1，利用置信函数计算置信分数，根据置信分数从高到低为TW_i排序；

步骤b-3-2，选择最高置信分数的窗口：max_tw＝max(TW_i)；

步骤b-3-3，将max_tw放入TW_OUT，TW_OUT为保留的最有可能的动作实例(置信度最高)；

步骤b-3-4，把和max_tw重合度过高的相同类型动作实例删除，对每个 tw∈TW，如果计算出与max_tw重合度大于阈值，删除tw，计算重合度函数如下：

其中：frame_same(max_tw,tw)是计算帧序列tw与帧序列max_tw中下标相同的帧数，frame_max是max_tw的总帧数；

步骤b-3-5，删除max_tw；

步骤b-4，重复步骤b-1～步骤b～3，直至TW为空。

在其中一个实施例中，所述结构化双流卷积神经网络的训练过程包括：

为了加快结构化双流卷积神经网络的训练和收敛，首先利用先验数据对双流卷积神经网络进行训练，得到预训练参数，然后利用先验数据和预训练参数对结构化双流卷积神经网络进行训练。

在其中一个实施例中，所述先验数据包括提取自训练视频数据的光流序列以及标记有时间戳信息的图像帧序列。

所述先验数据来自于生产环境监控视频，先验数据经过如下处理后作为训练数据(该训练数据用于双流卷积神经网络和结构化双流卷积神经网络的训练)：

首先，将作为先验数据的生产环境监控视频分解为图像帧序列和光流序列。

在进行动作识别时，空间流上RGB图像的外观信息和时间流上的运动信息是决定性因素，因此将用于训练的视频数据分解为图像帧序列和光流序列两个部分，具体操作如下：

关于图像帧序列：

正常视频的fps(每秒帧数)一般在25至30之间，信息过于冗余，本申请采用每5帧采样1个图像帧的方式分解视频，既保留了RGB图像的外观特征，又减少了冗余。另外，为了提高计算效率，将图像帧序列变换为224×224×3(宽高均为224像素，RGB通道数为3)。

关于光流序列：

采用连续帧之间的像素位移关系来代表光流数据，分为水平方向上的位移和垂直方向上的位移光流场记为I_τ，应用如下公式从训练视频中提取得到光流数据信息：

其中：(u,v)代表像素点位置，w代表视频宽度，h代表视频长度，L代表视频帧数，τ为任意时刻。

其次，为图像帧序列添加表达时间戳信息的向量标签VideoTriple＝ (start,main,end)其中：

start的值表示该图像帧属于某一生产动作开始的概率；

main的值表示该图像帧属于某一生产动作主体的概率；

end的值表示该图像帧属于某一生产动作结束的概率。

时间戳信息方便后续检测生产动作以及确定动作边界，例如VideoTriple＝(0.92,0.07,0.01)，表示该帧图像有0.92的概率属于开始状态、0.07的概率属于主体状态、0.01的概率属于结束状态，也即它有极大的概率属于某一动作的开始状态。

为了快速为用于训练的帧序列添加时间戳信息，将视频中每一生产动作的起始帧序列的VideoTriple都设为(1.00,0,0)，起始帧序列的长度统一设为5帧，将每一生产动作的结束帧序列的VideoTriple都设为(0,0,1.00)，结束帧序列也为 5帧，起始帧和结束帧两者中间的帧序列的VideoTriple都设为(0,1.00,0)。

本申请中的双流卷积神经网络和结构化双流卷积神经网络指代不同含义，所述双流卷积神经网络包括结构相同的时间流卷积神经网络和空间流卷积神经网络，对时间流卷积神经网络和空间流卷积神经网络的输出进行加权平均后，利用分类器输出。具体构成如图1所示：

时间流卷积神经网络和空间流卷积神经网络结构相同，时间流卷积神经网络和空间流卷积神经网络的输出进行加权融合(例如averaging)，最后通过 softmax输出，双流卷积神经网络的卷积及池化操作设计如下：

①添加两个卷积层conv3-64(表示3×3的卷积核，64个特征图)，添加最大池化层maxpool(用于压缩特征图，增加感受野)，激活函数为ReLU(修正线性单元)；

②添加两个卷积层conv3-128，添加最大池化层maxpool，激活函数为ReLU；

③添加三个卷积层conv3-256，添加最大池化层maxpool，激活函数为ReLU；

④添加三个卷积层conv3-512，添加最大池化层maxpool，激活函数为ReLU；

⑤添加三个卷积层conv3-512，添加最大池化层maxpool，激活函数为ReLU。

在进行双流卷积神经网络训练时，将光流序列和标记有时间戳信息的图像帧序列作为输入，双流卷积神经网络输出的类别标签考虑两方面信息，首先为动作类别，其次为动作边界(动作边界反应了时间戳信息)，类别标签为 y⁽ⁱ⁾＝(l⁽ⁱ⁾,vt⁽ⁱ⁾)，其中i代表训练视频的序号，vt⁽ⁱ⁾和l⁽ⁱ⁾以onehot形式组成向量。

设置训练双流卷积神经网络的损失函数(loss)，损失函数的值越低，说明训练中双流卷积神经网络给出的结果与实际结果越相近，朝着使损失函数尽可能小的方向调整双流卷积神经网络参数，本申请使用梯度下降法来优化双流卷积神经网络，逐步逼近损失函数的全局极小值，损失函数具体如下：

其中：x⁽ⁱ⁾代表视频输入，θ代表需要学习的参数，h_θ代表网络特征提取，m表示训练投入的一批视频的总个数，γ用来平衡模型的复杂性，一般取0.1。

分别训练双流卷积神经网络的时间流卷积神经网络和空间流卷积神经网络，直至精度满足要求，得到预训练参数。

如图2所示，所述结构化双流卷积神经网络包括结构相同的时间流卷积神经网络和空间流卷积神经网络，对时间流卷积神经网络和空间流卷积神经网络的输出进行时空双线性压缩融合后，引入注意力机制计算全连接层，最后利用分类器输出。

本申请采用时空双线性压缩融合算法，在CountSketch算法的基础上使用离散傅立叶方法替换传统的卷积操作，以有效融合并压缩两个高维向量(即时空特征)，提高识别精度。离散傅立叶变换能够将时域上的卷积变换转化为空域上的计算，降低了计算复杂度，提供了计算的效率。

卷积通过离散傅里叶变换和反离散傅里叶变换得到，用FFT代表离散傅立叶变换，FFT^-1代表反离散傅立叶变换，⊙代表逐元素相乘，*代表卷积，x和y表示输入向量，具体公式如下：

x*y＝FFT^-1(FFT(x)⊙FFT(y))。

注意力机制的引入能够将结构化双流卷积神经网络的关注点引向目标区域，增强对显著动作区域的检测。本申请将注意力机制层添加在第一个全连接层(隐藏层)之前，对融合后的时空特征进行有重点的关注。注意力机制的原理是通过让结构化双流卷积神经网络激活重要输入元素，抑制不重要输入元素，进而实现对特征图中的特定输入(重要检测目标)的选取，实现方式如下：

g＝h_w(x)⊙Out_pre

其中：h_w(x)代表隐层神经元，其元素值属于{0,1}，0代表舍弃，1代表选取；Out_pre代表前一层隐层神经元的输出，⊙代表逐个元素相乘。

利用先验数据和预训练参数对结构化双流卷积神经网络(结构化双流卷积神经网络中的时间流卷积神经网络和空间流卷积神经网络的结构同双流卷积神经网络，因此，可将预训练参数作为结构化双流卷积神经网络的初始值进行后续训练)进行训练，直至满足精度要求，得到训练好的结构化双流卷积神经网络。

在其中一个实施例中，所述生产操作行为识别方法还包括：

经过如图3所示的筛选后，可以得到若干生产动作实例，每个生产动作实例包含对应的生产动作的开始、进行以及结束，同时也包括各生产动作进行时的时序信息，将各生产动作实例识别出来后，可以进一步将识别得到的生产动作实例与标准生产操作行为进行比对，自动分析生产动作实例中反应的操作行为是否符合生产操作行为标准。

如图4a～图4b所示，在一个实施例中，通过对监控视频进行处理，识别得到生产动作实例，并对生产动作实例与标准生产操作行为进行对比，分析生产动作实例与标准生产操作行为的差异，例如完成时间的差异，以计算在进行对应生产动作时造成的延时。

在其中一个实施例中，基于结构化双流卷积神经网络的生产操作行为识别装置，包括：

关于基于结构化双流卷积神经网络的生产操作行为识别装置的具体限定可以参见上文中对于基于结构化双流卷积神经网络的生产操作行为识别方法的限定，在此不再赘述。上述基于结构化双流卷积神经网络的生产操作行为识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在其中一个实施例中，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述的基于结构化双流卷积神经网络的生产操作行为识别方法。

该计算机设备可以是终端，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现所述的基于结构化双流卷积神经网络的生产操作行为识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在其中一个实施例中，一种基于结构化双流卷积神经网络的生产操作行为识别系统，包括影像采集装置以及服务器，所述服务器包括存储器和处理器，所述存储器内存储有计算机程序，所述服务器从影像采集装置获取生产环境的监控视频；所述处理器执行所述计算机程序时，实现所述的基于结构化双流卷积神经网络的生产操作行为识别方法。

所述影像采集装置可以采用各种视频监控设备，只要能够直接或间接获得反映车间内生产状态的连续图像即可。

在其中一个实施例中，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的基于结构化双流卷积神经网络的生产操作行为识别方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程 ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限， RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步 DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM (ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus) 直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于结构化双流卷积神经网络的生产操作行为识别方法，其特征在于，包括如下步骤：

依据所述动作类别和时间戳信息，计算得到生产动作实例。

2.如权利要求1所述的基于结构化双流卷积神经网络的生产操作行为识别方法，其特征在于，所述结构化双流卷积神经网络的训练过程包括：

3.如权利要求2所述的基于结构化双流卷积神经网络的生产操作行为识别方法，其特征在于，所述先验数据包括提取自训练视频数据的光流序列以及标记有时间戳信息的图像帧序列。

4.如权利要求2或3所述的基于结构化双流卷积神经网络的生产操作行为识别方法，其特征在于，所述双流卷积神经网络包括结构相同的时间流卷积神经网络和空间流卷积神经网络，对时间流卷积神经网络和空间流卷积神经网络的输出进行加权平均后，利用分类器输出；

5.如权利要求1所述的基于结构化双流卷积神经网络的生产操作行为识别方法，其特征在于，所述时间戳信息通过向量标签VideoTriple＝(start,main,end)表达，其中：start的值表示该图像帧属于某一生产动作开始的概率；main的值表示该图像帧属于某一生产动作主体的概率；end的值表示该图像帧属于某一生产动作结束的概率。

6.如权利要求1所述的基于结构化双流卷积神经网络的生产操作行为识别方法，其特征在于，所述生产操作行为识别方法还包括：

7.基于结构化双流卷积神经网络的生产操作行为识别装置，其特征在于，包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～6任一项所述的基于结构化双流卷积神经网络的生产操作行为识别方法。

9.一种基于结构化双流卷积神经网络的生产操作行为识别系统，包括影像采集装置以及服务器，所述服务器包括存储器和处理器，所述存储器内存储有计算机程序，其特征在于，所述服务器从影像采集装置获取生产环境的监控视频；所述处理器执行所述计算机程序时，实现如权利要求1～6任一项所述的基于结构化双流卷积神经网络的生产操作行为识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～6任一项所述的基于结构化双流卷积神经网络的生产操作行为识别方法。