CN110222574A - 基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质 - Google Patents

基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质 Download PDF

Info

Publication number
CN110222574A
CN110222574A CN201910376081.8A CN201910376081A CN110222574A CN 110222574 A CN110222574 A CN 110222574A CN 201910376081 A CN201910376081 A CN 201910376081A CN 110222574 A CN110222574 A CN 110222574A
Authority
CN
China
Prior art keywords
convolutional neural
neural networks
structuring
double fluid
production
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910376081.8A
Other languages
English (en)
Other versions
CN110222574B (zh
Inventor
胡海洋
朱相玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Zhishan Yunke Information Technology Co Ltd
Original Assignee
Hangzhou Zhishan Yunke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Zhishan Yunke Information Technology Co Ltd filed Critical Hangzhou Zhishan Yunke Information Technology Co Ltd
Priority to CN201910376081.8A priority Critical patent/CN110222574B/zh
Publication of CN110222574A publication Critical patent/CN110222574A/zh
Application granted granted Critical
Publication of CN110222574B publication Critical patent/CN110222574B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质,其中,生产操作行为识别方法包括如下步骤:获取生产环境的监控视频,将监控视频分解为图像帧序列和光流序列;将所述图像帧序列和光流序列输入结构化双流卷积神经网络,得到每帧图像的动作类别和时间戳信息;所述结构化双流卷积神经网络引入有注意力机制;依据所述动作类别和时间戳信息,计算得到生产动作实例。本申请提供的生产操作行为识别方法能够快速准确识别视频中生产操作行为,满足智能制造的要求。

Description

基于结构化双流卷积神经网络的生产操作行为识别方法、装 置、设备、系统及存储介质
技术领域
本申请涉及视频图像分析技术领域,特别是涉及基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质。
背景技术
计算机视觉技术被应用于多个研究领域,包括人物识别、图像重建以及动作识别等。对于大型工厂的监控视频分析,许多工作将计算机视觉技术框架应用于生产操作行为识别工程,以确保员工安全、生产调度以及提高全局设备效率等。
目前,智能监控每天产生数以万计的有价值的视频数据,为了充分利用这些视频数据,需要设计一个能够从大量视频中自动提取特征和模式,并且识别工人行为以及机器行为的生产操作行为识别框架。通常,一段生产操作行为被认为是由对应控制结构的一系列单独的活动组成,单个活动被定义为是一个特殊的任务,例如人类行为或者机器动作。因此,生产操作行为识别可以由计算机视觉技术解决。
特别的,智能监控下的生产操作行为识别主要包括识别工人和机器等的行为,计算每个任务的开始时间和结束时间,以及分析生产操作行为的模式,因此,生产操作行为识别过程主要涉及动作识别和时序动作识别等。目前许多工作都有一个固定的传统模式,分为以下两个步骤:1)根据实际问题,做出合理的假设并计算复杂的特征;2)根据特征学习一个适合的模型。但是处理复杂的任务时,如动作识别,很难设计一个合理的标准,更别说计算如此复杂的特征。
近年来,视频识别方向吸引了大量学者的注意,其中利用手工提取特征来解决视频动作识别的方法可以归纳为以下三个步骤:1)根据假设,从图像空域上(RGB)提取稠密的特征;2)应用相关方法(如Fisher向量,视觉词袋法等) 来组合这些特征,使其成为固定尺度的特征;3)基于特征描述训练一个判别模型(如支持向量机)来区分动作类别。除了在视频中提取局部特征外,一些浅层特征表示还利用密集点轨迹来识别动作。此外,还有学者提出了基于稠密点轨迹和运动边界描述的视频表征方法,显著提高了视频动作识别性能。近年来,通过Fisher向量将一些手工特征结合稠密点轨迹的方法也取得了不错的性能。
然而,生产操作行为识别技术有其复杂性与特殊性,现有的图像处理方案不能够满足生产操作行为识别的准确度以及效率。
发明内容
基于此,需要提供一种快速准确识别视频中生产操作行为的方法,以满足智能制造的要求。
一种基于结构化双流卷积神经网络的生产操作行为识别方法,包括如下步骤:
获取生产环境的监控视频,将监控视频分解为图像帧序列和光流序列;
将所述图像帧序列和光流序列输入结构化双流卷积神经网络,得到每帧图像的动作类别和时间戳信息;所述结构化双流卷积神经网络引入有注意力机制;
依据所述动作类别和时间戳信息,计算得到生产动作实例。
本申请提供的基于结构化双流卷积神经网络的生产操作行为识别方法,使用结构化双流卷积神经网络来识别视频图像中的动作,并在结构化双流卷积神经网络中引入注意力机制,增强对显著动作区域的检测。
以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合。
可选地,所述结构化双流卷积神经网络的训练过程包括:
利用先验数据对双流卷积神经网络进行训练,得到预训练参数;
利用先验数据和预训练参数对结构化双流卷积神经网络进行训练。
可选地,所述先验数据包括提取自训练视频数据的光流序列以及标记有时间戳信息的图像帧序列。
可选地,所述双流卷积神经网络包括结构相同的时间流卷积神经网络和空间流卷积神经网络,对时间流卷积神经网络和空间流卷积神经网络的输出进行加权平均后,利用分类器输出;
所述结构化双流卷积神经网络包括结构相同的时间流卷积神经网络和空间流卷积神经网络,对时间流卷积神经网络和空间流卷积神经网络的输出进行时空双线性压缩融合后,引入注意力机制计算全连接层,最后利用分类器输出。
可选地,所述时间戳信息通过向量标签VideoTriple=(start,main,end)表达,其中:start的值表示该图像帧属于某一生产动作开始的概率;main的值表示该图像帧属于某一生产动作主体的概率;end的值表示该图像帧属于某一生产动作结束的概率。
可选地,所述生产操作行为识别方法还包括:
将识别的生产动作实例与标准生产操作行为进行比对,分析生产动作实例是否符合操作规范。
本申请还提供了一种基于结构化双流卷积神经网络的生产操作行为识别装置,包括:
第一模块,用于获取生产环境下的监控视频,将监控视频分解为图像帧序列和光流序列;
第二模块,用于将所述图像帧序列和光流序列输入结构化双流卷积神经网络,得到每帧图像的动作类别和时间戳信息;所述结构化双流卷积神经网络引入有注意力机制;
第三模块,用于依据所述动作类别和时间戳信息,计算得到生产动作实例。
本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述的基于结构化双流卷积神经网络的生产操作行为识别方法。
本申请还提供了一种基于结构化双流卷积神经网络的生产操作行为识别系统,包括影像采集装置以及服务器,所述服务器包括存储器和处理器,所述存储器内存储有计算机程序,所述服务器从影像采集装置获取生产环境的监控视频;所述处理器执行所述计算机程序时,实现所述的基于结构化双流卷积神经网络的生产操作行为识别方法。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于结构化双流卷积神经网络的生产操作行为识别方法。
本申请将计算机视觉以及深度学习技术应用于生产操作行为的识别,能够智能分析监控视频,对工人以及机器的生产操作行为进行分析,判断是否符合操作规范。
本申请提供的基于结构化双流卷积神经网络的生产操作行为识别方法,解决了视频数据的特征提取问题,有效利用工厂环境下产生的大量智能监控视频,能够通过自动化的学习,识别生产操作行为。
附图说明
图1为本申请双流卷积申请网络的结构示意图;
图2为本申请结构化双流卷积申请网络的结构示意图;
图3为本申请筛选动作实例窗口示意图;
图4a为一个实施例的监控视频其中一帧的示意图;
图4b为一个实施例识别的生产动作实例的实时展示;
图5为一个实施例中计算机设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了更好地描述和说明本申请的实施例,可参考一幅或多幅附图,但用于描述附图的附加细节或示例不应当被认为是对本申请的发明创造、目前所描述的实施例或优选方式中任何一者的范围的限制。
需要说明的是,当组件被称为与另一个组件“连接”时,它可以直接与另一个组件连接或者也可以存在居中的组件。当一个组件被认为是“设置于”另一个组件,它可以是直接设置在另一个组件上或者可能同时存在居中组件。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
下列实施方式中,所涉及的概念定义及符号说明总结如下:
动作边界:指的是某一生产动作的起始时刻和结束时刻,例如:00:05:24 工人开始调试,00:07:39工人调试结束。
双流卷积申请网络权重:双流卷积申请网络的输出,记为W。
时间戳信息:视频的每个图像帧都附加一个额外的向量标签VideoTriple=(start,main,end),表示该图像帧属于某一生产动作的开始、主体(即生产动作进行中)、结束的概率,如VideoTriple=(0.92,0.07,0.01)表示该帧图像极大概率属于某一生产动作的开始状态。VideoTriple中的各向量值的和恒等于1。
dt:表示图像在第t帧及第t+1帧之间的目标位移向量集合;
dt(u,v):表示点(u,v)处从第t帧到第t+1帧之间的位移向量;
分别表示水平方向和垂直方向上的位移向量,可以看成是图像上的两个通道;
Iτ:表示时间流卷积神经网络的输入,其中w代表视频宽度, h代表视频长度,L代表视频帧数,τ为任意时刻;
FFT:离散傅里叶变换;
FFT-1:反离散傅里叶变换;
y(i):表示第i个视频数据的类别标签;
vt(i):表示第i个视频数据中动作边界的类型(动作边界的类型包括开始,主体,结束);
l(i):表示第i个视频数据属于哪个动作类别;
网络损失函数,θ代表需要学习及更新的神经元参数;
twi:表示第i个动作实例窗口,其中twi=(si,ei,li),1≤si≤ei≤n,si是第i个动作实例窗口的起始帧,ei是第i个动作实例窗口的结束帧,n是视频总帧数(视频中的一个动作实例的帧数不可能超过n),li含义同l(i)
softmax:多类型分类器,每一类别的概率ti表示如下:
maxpool:最大池化,公式如下:
f(X)=max(X),n是维度;X为n维输入向量;
ReLU:激活函数,公式如下:
x为上一层神经网络的输入向量。
下面结合附图,对本申请做详细描述。
一种基于结构化双流卷积神经网络的生产操作行为识别方法,包括如下步骤:
获取生产环境的监控视频,将监控视频分解为图像帧序列和光流序列;
将所述图像帧序列和光流序列输入结构化双流卷积神经网络,得到每帧图像的动作类别和时间戳信息;所述结构化双流卷积神经网络引入有注意力机制;
依据所述动作类别和时间戳信息,计算得到生产动作实例。
本申请公开了一种基于结构化双流卷积神经网络的生产操作行为识别方法,能够从复杂工厂环境的监控视频中识别出工人以及机器的生产操作行为。
本申请利用结构化双流卷积神经网络提取时空特征,并引入注意力机制检测有意义的生产操作行为,同时,通过时间戳信息获取生产动作的时间信息,应用合适的算法(例如非极大抑制化算法)对动作类别和时间戳信息进行处理,晒选出生产动作实例,实现生产操作行为的自动化识别,且能够满足识别精度的要求。
所述图像帧序列在输入结构化双流卷积神经网络之前添加了表达时间戳信息的向量标签VideoTriple=(start,main,end),其中:
start的值表示该图像帧属于某一生产动作开始的概率;
main的值表示该图像帧属于某一生产动作主体的概率;
end的值表示该图像帧属于某一生产动作结束的概率。
经过结构化双流卷积神经网络处理后,得到图像帧对应的动作类别(即图像帧中的生产动作归属于哪类行为,生产行为包括:机器调试,侧板焊接等) 以及时间戳信息,结构化双流卷积神经网络处理后的输出可采用如下形式表达:
(classA,0.92,0.07,0.01),其中classA为动作类别,0.92为该图像帧属于classA开始的概率;0.07为该图像帧属于classA主体的概率;0.01为该图像帧属于classA结束的概率。
应用非极大抑制化算法对结构化双流卷积神经网络输出的动作类别和时间戳信息进行处理,从帧序列中筛选出生产动作实例。计算时,首先设定生产动作的置信度,该置信度表示“该生产动作位于某个时间范围”的可信度,通过设置置信度可以得到一系列可能存在的动作实例,然后利用非极大抑制算法删除那些与正例重合度高的冗余窗口,得到生产动作实例,如图3所示,具体如下:
步骤a,假定一个视频v={x1,x2,…,xn}∈V,其中xt代表处于t时刻的帧, n代表视频的总帧数,单个动作实例位视频中一个连续帧窗口,表示为 z={xs,xs+1,…,xe},s代表开始时刻索引,e代表结束时刻索引。
式中:λ,μ,η是相应部分的权重系数;
z是找出的相应的窗口集{z1,z2,…,zk};
fs(xs)代表属于动作边界开始的概率值;
fm(xt)代表属于动作边界主体(即动作进行中)的概率值;
fe(xe)代表属于动作边界结束的概率值。
步骤b,应用非极大抑制算法删去重复的动作实例窗口,具体包括:
步骤b-1,输入时序动作实例窗口集m为动作实例窗口总个数;
步骤b-2,以标签l(i)将窗口集TW分类得到:k为属于该类动作的窗口集的个数;
步骤b-3,对每个TWi∈CLS_TW,执行如下操作;
步骤b-3-1,利用置信函数计算置信分数,根据置信分数从高到低为TWi排序;
步骤b-3-2,选择最高置信分数的窗口:max_tw=max(TWi);
步骤b-3-3,将max_tw放入TW_OUT,TW_OUT为保留的最有可能的动作实例(置信度最高);
步骤b-3-4,把和max_tw重合度过高的相同类型动作实例删除,对每个 tw∈TW,如果计算出与max_tw重合度大于阈值,删除tw,计算重合度函数如下:
其中:frame_same(max_tw,tw)是计算帧序列tw与帧序列max_tw中下标相同的帧数,framemax是max_tw的总帧数;
步骤b-3-5,删除max_tw;
步骤b-4,重复步骤b-1~步骤b~3,直至TW为空。
在其中一个实施例中,所述结构化双流卷积神经网络的训练过程包括:
利用先验数据对双流卷积神经网络进行训练,得到预训练参数;
利用先验数据和预训练参数对结构化双流卷积神经网络进行训练。
为了加快结构化双流卷积神经网络的训练和收敛,首先利用先验数据对双流卷积神经网络进行训练,得到预训练参数,然后利用先验数据和预训练参数对结构化双流卷积神经网络进行训练。
在其中一个实施例中,所述先验数据包括提取自训练视频数据的光流序列以及标记有时间戳信息的图像帧序列。
所述先验数据来自于生产环境监控视频,先验数据经过如下处理后作为训练数据(该训练数据用于双流卷积神经网络和结构化双流卷积神经网络的训练):
首先,将作为先验数据的生产环境监控视频分解为图像帧序列和光流序列。
在进行动作识别时,空间流上RGB图像的外观信息和时间流上的运动信息是决定性因素,因此将用于训练的视频数据分解为图像帧序列和光流序列两个部分,具体操作如下:
关于图像帧序列:
正常视频的fps(每秒帧数)一般在25至30之间,信息过于冗余,本申请采用每5帧采样1个图像帧的方式分解视频,既保留了RGB图像的外观特征,又减少了冗余。另外,为了提高计算效率,将图像帧序列变换为224×224×3(宽高均为224像素,RGB通道数为3)。
关于光流序列:
采用连续帧之间的像素位移关系来代表光流数据,分为水平方向上的位移和垂直方向上的位移光流场记为Iτ,应用如下公式从训练视频中提取得到光流数据信息:
其中:(u,v)代表像素点位置,w代表视频宽度,h代表视频长度,L代表视频帧数,τ为任意时刻。
其次,为图像帧序列添加表达时间戳信息的向量标签VideoTriple= (start,main,end)其中:
start的值表示该图像帧属于某一生产动作开始的概率;
main的值表示该图像帧属于某一生产动作主体的概率;
end的值表示该图像帧属于某一生产动作结束的概率。
时间戳信息方便后续检测生产动作以及确定动作边界,例如VideoTriple=(0.92,0.07,0.01),表示该帧图像有0.92的概率属于开始状态、0.07的概率属于主体状态、0.01的概率属于结束状态,也即它有极大的概率属于某一动作的开始状态。
为了快速为用于训练的帧序列添加时间戳信息,将视频中每一生产动作的起始帧序列的VideoTriple都设为(1.00,0,0),起始帧序列的长度统一设为5帧,将每一生产动作的结束帧序列的VideoTriple都设为(0,0,1.00),结束帧序列也为 5帧,起始帧和结束帧两者中间的帧序列的VideoTriple都设为(0,1.00,0)。
本申请中的双流卷积神经网络和结构化双流卷积神经网络指代不同含义,所述双流卷积神经网络包括结构相同的时间流卷积神经网络和空间流卷积神经网络,对时间流卷积神经网络和空间流卷积神经网络的输出进行加权平均后,利用分类器输出。具体构成如图1所示:
时间流卷积神经网络和空间流卷积神经网络结构相同,时间流卷积神经网络和空间流卷积神经网络的输出进行加权融合(例如averaging),最后通过 softmax输出,双流卷积神经网络的卷积及池化操作设计如下:
①添加两个卷积层conv3-64(表示3×3的卷积核,64个特征图),添加最大池化层maxpool(用于压缩特征图,增加感受野),激活函数为ReLU(修正线性单元);
②添加两个卷积层conv3-128,添加最大池化层maxpool,激活函数为ReLU;
③添加三个卷积层conv3-256,添加最大池化层maxpool,激活函数为ReLU;
④添加三个卷积层conv3-512,添加最大池化层maxpool,激活函数为ReLU;
⑤添加三个卷积层conv3-512,添加最大池化层maxpool,激活函数为ReLU。
在进行双流卷积神经网络训练时,将光流序列和标记有时间戳信息的图像帧序列作为输入,双流卷积神经网络输出的类别标签考虑两方面信息,首先为动作类别,其次为动作边界(动作边界反应了时间戳信息),类别标签为 y(i)=(l(i),vt(i)),其中i代表训练视频的序号,vt(i)和l(i)以onehot形式组成向量。
设置训练双流卷积神经网络的损失函数(loss),损失函数的值越低,说明训练中双流卷积神经网络给出的结果与实际结果越相近,朝着使损失函数尽可能小的方向调整双流卷积神经网络参数,本申请使用梯度下降法来优化双流卷积神经网络,逐步逼近损失函数的全局极小值,损失函数具体如下:
其中:x(i)代表视频输入,θ代表需要学习的参数,hθ代表网络特征提取,m表示训练投入的一批视频的总个数,γ用来平衡模型的复杂性,一般取0.1。
分别训练双流卷积神经网络的时间流卷积神经网络和空间流卷积神经网络,直至精度满足要求,得到预训练参数。
如图2所示,所述结构化双流卷积神经网络包括结构相同的时间流卷积神经网络和空间流卷积神经网络,对时间流卷积神经网络和空间流卷积神经网络的输出进行时空双线性压缩融合后,引入注意力机制计算全连接层,最后利用分类器输出。
本申请采用时空双线性压缩融合算法,在CountSketch算法的基础上使用离散傅立叶方法替换传统的卷积操作,以有效融合并压缩两个高维向量(即时空特征),提高识别精度。离散傅立叶变换能够将时域上的卷积变换转化为空域上的计算,降低了计算复杂度,提供了计算的效率。
卷积通过离散傅里叶变换和反离散傅里叶变换得到,用FFT代表离散傅立叶变换,FFT-1代表反离散傅立叶变换,⊙代表逐元素相乘,*代表卷积,x和y表示输入向量,具体公式如下:
x*y=FFT-1(FFT(x)⊙FFT(y))。
注意力机制的引入能够将结构化双流卷积神经网络的关注点引向目标区域,增强对显著动作区域的检测。本申请将注意力机制层添加在第一个全连接层(隐藏层)之前,对融合后的时空特征进行有重点的关注。注意力机制的原理是通过让结构化双流卷积神经网络激活重要输入元素,抑制不重要输入元素,进而实现对特征图中的特定输入(重要检测目标)的选取,实现方式如下:
g=hw(x)⊙Outpre
其中:hw(x)代表隐层神经元,其元素值属于{0,1},0代表舍弃,1代表选取;Outpre代表前一层隐层神经元的输出,⊙代表逐个元素相乘。
利用先验数据和预训练参数对结构化双流卷积神经网络(结构化双流卷积神经网络中的时间流卷积神经网络和空间流卷积神经网络的结构同双流卷积神经网络,因此,可将预训练参数作为结构化双流卷积神经网络的初始值进行后续训练)进行训练,直至满足精度要求,得到训练好的结构化双流卷积神经网络。
在其中一个实施例中,所述生产操作行为识别方法还包括:
将识别的生产动作实例与标准生产操作行为进行比对,分析生产动作实例是否符合操作规范。
经过如图3所示的筛选后,可以得到若干生产动作实例,每个生产动作实例包含对应的生产动作的开始、进行以及结束,同时也包括各生产动作进行时的时序信息,将各生产动作实例识别出来后,可以进一步将识别得到的生产动作实例与标准生产操作行为进行比对,自动分析生产动作实例中反应的操作行为是否符合生产操作行为标准。
如图4a~图4b所示,在一个实施例中,通过对监控视频进行处理,识别得到生产动作实例,并对生产动作实例与标准生产操作行为进行对比,分析生产动作实例与标准生产操作行为的差异,例如完成时间的差异,以计算在进行对应生产动作时造成的延时。
在其中一个实施例中,基于结构化双流卷积神经网络的生产操作行为识别装置,包括:
第一模块,用于获取生产环境下的监控视频,将监控视频分解为图像帧序列和光流序列;
第二模块,用于将所述图像帧序列和光流序列输入结构化双流卷积神经网络,得到每帧图像的动作类别和时间戳信息;所述结构化双流卷积神经网络引入有注意力机制;
第三模块,用于依据所述动作类别和时间戳信息,计算得到生产动作实例。
关于基于结构化双流卷积神经网络的生产操作行为识别装置的具体限定可以参见上文中对于基于结构化双流卷积神经网络的生产操作行为识别方法的限定,在此不再赘述。上述基于结构化双流卷积神经网络的生产操作行为识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在其中一个实施例中,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述的基于结构化双流卷积神经网络的生产操作行为识别方法。
该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现所述的基于结构化双流卷积神经网络的生产操作行为识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在其中一个实施例中,一种基于结构化双流卷积神经网络的生产操作行为识别系统,包括影像采集装置以及服务器,所述服务器包括存储器和处理器,所述存储器内存储有计算机程序,所述服务器从影像采集装置获取生产环境的监控视频;所述处理器执行所述计算机程序时,实现所述的基于结构化双流卷积神经网络的生产操作行为识别方法。
所述影像采集装置可以采用各种视频监控设备,只要能够直接或间接获得反映车间内生产状态的连续图像即可。
在其中一个实施例中,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于结构化双流卷积神经网络的生产操作行为识别方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程 ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限, RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步 DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM (ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus) 直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于结构化双流卷积神经网络的生产操作行为识别方法,其特征在于,包括如下步骤:
获取生产环境的监控视频,将监控视频分解为图像帧序列和光流序列;
将所述图像帧序列和光流序列输入结构化双流卷积神经网络,得到每帧图像的动作类别和时间戳信息;所述结构化双流卷积神经网络引入有注意力机制;
依据所述动作类别和时间戳信息,计算得到生产动作实例。
2.如权利要求1所述的基于结构化双流卷积神经网络的生产操作行为识别方法,其特征在于,所述结构化双流卷积神经网络的训练过程包括:
利用先验数据对双流卷积神经网络进行训练,得到预训练参数;
利用先验数据和预训练参数对结构化双流卷积神经网络进行训练。
3.如权利要求2所述的基于结构化双流卷积神经网络的生产操作行为识别方法,其特征在于,所述先验数据包括提取自训练视频数据的光流序列以及标记有时间戳信息的图像帧序列。
4.如权利要求2或3所述的基于结构化双流卷积神经网络的生产操作行为识别方法,其特征在于,所述双流卷积神经网络包括结构相同的时间流卷积神经网络和空间流卷积神经网络,对时间流卷积神经网络和空间流卷积神经网络的输出进行加权平均后,利用分类器输出;
所述结构化双流卷积神经网络包括结构相同的时间流卷积神经网络和空间流卷积神经网络,对时间流卷积神经网络和空间流卷积神经网络的输出进行时空双线性压缩融合后,引入注意力机制计算全连接层,最后利用分类器输出。
5.如权利要求1所述的基于结构化双流卷积神经网络的生产操作行为识别方法,其特征在于,所述时间戳信息通过向量标签VideoTriple=(start,main,end)表达,其中:start的值表示该图像帧属于某一生产动作开始的概率;main的值表示该图像帧属于某一生产动作主体的概率;end的值表示该图像帧属于某一生产动作结束的概率。
6.如权利要求1所述的基于结构化双流卷积神经网络的生产操作行为识别方法,其特征在于,所述生产操作行为识别方法还包括:
将识别的生产动作实例与标准生产操作行为进行比对,分析生产动作实例是否符合操作规范。
7.基于结构化双流卷积神经网络的生产操作行为识别装置,其特征在于,包括:
第一模块,用于获取生产环境下的监控视频,将监控视频分解为图像帧序列和光流序列;
第二模块,用于将所述图像帧序列和光流序列输入结构化双流卷积神经网络,得到每帧图像的动作类别和时间戳信息;所述结构化双流卷积神经网络引入有注意力机制;
第三模块,用于依据所述动作类别和时间戳信息,计算得到生产动作实例。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~6任一项所述的基于结构化双流卷积神经网络的生产操作行为识别方法。
9.一种基于结构化双流卷积神经网络的生产操作行为识别系统,包括影像采集装置以及服务器,所述服务器包括存储器和处理器,所述存储器内存储有计算机程序,其特征在于,所述服务器从影像采集装置获取生产环境的监控视频;所述处理器执行所述计算机程序时,实现如权利要求1~6任一项所述的基于结构化双流卷积神经网络的生产操作行为识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~6任一项所述的基于结构化双流卷积神经网络的生产操作行为识别方法。
CN201910376081.8A 2019-05-07 2019-05-07 基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质 Expired - Fee Related CN110222574B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910376081.8A CN110222574B (zh) 2019-05-07 2019-05-07 基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910376081.8A CN110222574B (zh) 2019-05-07 2019-05-07 基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质

Publications (2)

Publication Number Publication Date
CN110222574A true CN110222574A (zh) 2019-09-10
CN110222574B CN110222574B (zh) 2021-06-29

Family

ID=67820803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910376081.8A Expired - Fee Related CN110222574B (zh) 2019-05-07 2019-05-07 基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质

Country Status (1)

Country Link
CN (1) CN110222574B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110638455A (zh) * 2019-09-26 2020-01-03 京东方科技集团股份有限公司 用于评估用户康复状态的服务器、系统、设备及介质
CN110687877A (zh) * 2019-09-12 2020-01-14 深圳市铭华航电工艺技术有限公司 基于视觉网络的监测方法、装置、终端及存储介质
CN110852256A (zh) * 2019-11-08 2020-02-28 腾讯科技(深圳)有限公司 时序动作提名的生成方法、装置、设备及存储介质
CN111027377A (zh) * 2019-10-30 2020-04-17 杭州电子科技大学 一种双流神经网络时序动作定位方法
CN111027448A (zh) * 2019-12-04 2020-04-17 成都考拉悠然科技有限公司 一种基于时域推理图的视频行为类别识别方法
CN111325253A (zh) * 2020-02-12 2020-06-23 杭州涂鸦信息技术有限公司 一种基于深度学习的双流法行为识别方法及系统
CN111539289A (zh) * 2020-04-16 2020-08-14 咪咕文化科技有限公司 视频中动作的识别方法、装置、电子设备及存储介质
CN112364852A (zh) * 2021-01-13 2021-02-12 成都考拉悠然科技有限公司 融合全局信息的动作视频段提取方法
CN112434608A (zh) * 2020-11-24 2021-03-02 山东大学 一种基于双流结合网络的人体行为识别方法及系统
CN112861708A (zh) * 2021-02-05 2021-05-28 北京理工大学前沿技术研究院 一种雷达图像的语义分割方法、设备及存储介质
CN112906516A (zh) * 2021-02-04 2021-06-04 四川望村网络科技有限公司 一种基于深度学习的暴力行为识别方法,存储装置及服务器
CN113033265A (zh) * 2019-12-25 2021-06-25 株式会社日立制作所 人体行为识别方法、装置以及机器人
WO2022148216A1 (zh) * 2021-01-06 2022-07-14 安翰科技(武汉)股份有限公司 基于深度学习的胶囊内窥镜影像识别方法、设备及介质
CN114821760A (zh) * 2021-01-27 2022-07-29 四川大学 一种基于双流时空自动编码机的人体异常行为检测方法
CN116629810A (zh) * 2023-07-24 2023-08-22 中建五局第三建设有限公司 基于建筑办公系统的操作推荐方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015011526A (ja) * 2013-06-28 2015-01-19 Kddi株式会社 行動認識装置、方法及びプログラム並びに認識器構築装置
US20170294091A1 (en) * 2016-04-06 2017-10-12 Nec Laboratories America, Inc. Video-based action recognition security system
CN108875592A (zh) * 2018-04-13 2018-11-23 哈尔滨工程大学 一种基于注意力的卷积神经网络优化方法
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015011526A (ja) * 2013-06-28 2015-01-19 Kddi株式会社 行動認識装置、方法及びプログラム並びに認識器構築装置
US20170294091A1 (en) * 2016-04-06 2017-10-12 Nec Laboratories America, Inc. Video-based action recognition security system
CN108875592A (zh) * 2018-04-13 2018-11-23 哈尔滨工程大学 一种基于注意力的卷积神经网络优化方法
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘志康: "基于视频的人类行为识别方法研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110687877A (zh) * 2019-09-12 2020-01-14 深圳市铭华航电工艺技术有限公司 基于视觉网络的监测方法、装置、终端及存储介质
CN110638455A (zh) * 2019-09-26 2020-01-03 京东方科技集团股份有限公司 用于评估用户康复状态的服务器、系统、设备及介质
CN110638455B (zh) * 2019-09-26 2022-06-14 京东方科技集团股份有限公司 用于评估用户康复状态的服务器、系统、设备及介质
CN111027377B (zh) * 2019-10-30 2021-06-04 杭州电子科技大学 一种双流神经网络时序动作定位方法
CN111027377A (zh) * 2019-10-30 2020-04-17 杭州电子科技大学 一种双流神经网络时序动作定位方法
CN110852256A (zh) * 2019-11-08 2020-02-28 腾讯科技(深圳)有限公司 时序动作提名的生成方法、装置、设备及存储介质
CN110852256B (zh) * 2019-11-08 2023-04-18 腾讯科技(深圳)有限公司 时序动作提名的生成方法、装置、设备及存储介质
CN111027448A (zh) * 2019-12-04 2020-04-17 成都考拉悠然科技有限公司 一种基于时域推理图的视频行为类别识别方法
CN111027448B (zh) * 2019-12-04 2023-05-05 成都考拉悠然科技有限公司 一种基于时域推理图的视频行为类别识别方法
CN113033265A (zh) * 2019-12-25 2021-06-25 株式会社日立制作所 人体行为识别方法、装置以及机器人
CN111325253A (zh) * 2020-02-12 2020-06-23 杭州涂鸦信息技术有限公司 一种基于深度学习的双流法行为识别方法及系统
CN111325253B (zh) * 2020-02-12 2023-05-05 杭州涂鸦信息技术有限公司 一种基于深度学习的双流法行为识别方法及系统
CN111539289A (zh) * 2020-04-16 2020-08-14 咪咕文化科技有限公司 视频中动作的识别方法、装置、电子设备及存储介质
CN112434608B (zh) * 2020-11-24 2023-02-28 山东大学 一种基于双流结合网络的人体行为识别方法及系统
CN112434608A (zh) * 2020-11-24 2021-03-02 山东大学 一种基于双流结合网络的人体行为识别方法及系统
WO2022148216A1 (zh) * 2021-01-06 2022-07-14 安翰科技(武汉)股份有限公司 基于深度学习的胶囊内窥镜影像识别方法、设备及介质
CN112364852B (zh) * 2021-01-13 2021-04-20 成都考拉悠然科技有限公司 融合全局信息的动作视频段提取方法
CN112364852A (zh) * 2021-01-13 2021-02-12 成都考拉悠然科技有限公司 融合全局信息的动作视频段提取方法
CN114821760A (zh) * 2021-01-27 2022-07-29 四川大学 一种基于双流时空自动编码机的人体异常行为检测方法
CN114821760B (zh) * 2021-01-27 2023-10-27 四川大学 一种基于双流时空自动编码机的人体异常行为检测方法
CN112906516A (zh) * 2021-02-04 2021-06-04 四川望村网络科技有限公司 一种基于深度学习的暴力行为识别方法,存储装置及服务器
CN112861708A (zh) * 2021-02-05 2021-05-28 北京理工大学前沿技术研究院 一种雷达图像的语义分割方法、设备及存储介质
CN112861708B (zh) * 2021-02-05 2023-04-07 北京理工大学前沿技术研究院 一种雷达图像的语义分割方法、设备及存储介质
CN116629810A (zh) * 2023-07-24 2023-08-22 中建五局第三建设有限公司 基于建筑办公系统的操作推荐方法、装置、设备和介质
CN116629810B (zh) * 2023-07-24 2023-10-20 中建五局第三建设有限公司 基于建筑办公系统的操作推荐方法、装置、设备和介质

Also Published As

Publication number Publication date
CN110222574B (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN110222574A (zh) 基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质
Lee et al. Reference-based sketch image colorization using augmented-self reference and dense semantic correspondence
Wang et al. Predrnn: Recurrent neural networks for predictive learning using spatiotemporal lstms
Sun et al. Lattice long short-term memory for human action recognition
CN107273800B (zh) 一种基于注意机制的卷积递归神经网络的动作识别方法
CN109829443A (zh) 基于图像增强与3d卷积神经网络的视频行为识别方法
CN109241904A (zh) 文字识别模型训练、文字识别方法、装置、设备及介质
CN108399380A (zh) 一种基于三维卷积和Faster RCNN的视频动作检测方法
CN111428771B (zh) 视频场景分类方法、装置和计算机可读存储介质
CN110363290A (zh) 一种基于混合神经网络模型的图像识别方法、装置及设备
CN108960189A (zh) 图像再识别方法、装置及电子设备
CN113128360A (zh) 基于深度学习的司机驾驶行为检测与识别方法
CN112307995A (zh) 一种基于特征解耦学习的半监督行人重识别方法
CN110490136A (zh) 一种基于知识蒸馏的人体行为预测方法
CN112454390B (zh) 基于深度强化学习的仿人机器人面部表情模仿方法
CN115587985A (zh) 组织病理图像细胞核分割以及染色风格规范化方法
CN109376683A (zh) 一种基于稠密图的视频分类方法和系统
CN113689382A (zh) 基于医学影像和病理图像的肿瘤术后生存期预测方法及系统
CN112418033B (zh) 基于mask rcnn神经网络的滑坡坡面分割识别方法
CN113159067A (zh) 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置
CN109614896A (zh) 一种基于递归卷积神经网络的视频内容语义理解的方法
CN108830782A (zh) 图像处理方法、装置、计算机设备和存储介质
CN111626296B (zh) 基于深度神经网络的医学图像分割系统及方法、终端
CN114170657A (zh) 融合注意力机制与高阶特征表示的面部情感识别方法
CN114170618A (zh) 基于双流时空分解的视频人体行为识别算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210629

CF01 Termination of patent right due to non-payment of annual fee