CN108985443B - 动作识别方法及其神经网络生成方法、装置和电子设备 - Google Patents

动作识别方法及其神经网络生成方法、装置和电子设备 Download PDF

Info

Publication number
CN108985443B
CN108985443B CN201810728821.5A CN201810728821A CN108985443B CN 108985443 B CN108985443 B CN 108985443B CN 201810728821 A CN201810728821 A CN 201810728821A CN 108985443 B CN108985443 B CN 108985443B
Authority
CN
China
Prior art keywords
neural network
convolution kernel
optical flow
dimensional
deformed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810728821.5A
Other languages
English (en)
Other versions
CN108985443A (zh
Inventor
张弛
吴骞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kuangshi Technology Co Ltd
Original Assignee
Beijing Kuangshi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kuangshi Technology Co Ltd filed Critical Beijing Kuangshi Technology Co Ltd
Priority to CN201810728821.5A priority Critical patent/CN108985443B/zh
Publication of CN108985443A publication Critical patent/CN108985443A/zh
Application granted granted Critical
Publication of CN108985443B publication Critical patent/CN108985443B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种动作识别方法及其神经网络生成方法、装置和电子设备,涉及图像识别技术领域,用于动作识别的神经网络生成方法包括:对目标图像进行提取,得到光流特征;根据所述光流特征得到卷积核偏置信息;根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络,解决了现有技术中存在的图像识别神经网络对动作识别的效果较差的技术问题。

Description

动作识别方法及其神经网络生成方法、装置和电子设备
技术领域
本发明涉及图像识别技术领域,尤其是涉及一种动作识别方法及其神经网络生成方法、装置和电子设备。
背景技术
目前,动作识别作为视频自动分析的重要基础,在智能监控,新零售、人机互动,教育教学等一系列应用场景中发挥重要的作用。
例如,在安防监控场景中,若能很好的识别出扒窃,撬锁,打斗等异常行为,能够起到减少人力监控成本、维护治安的重要功能;在新零售领域中,动作识别有助于更好的理解用户行为,自动分析顾客喜好,提升用户体验。
但是,目前的动作识别神经网络主要集中于长短期记忆网络(Long Short-TermMemory,简称LSTM)、时标网状图(time scalar network,简称TSN)等传统的图像识别神经网络方法,对于动作识别的识别效果较差。
发明内容
有鉴于此,本发明的目的在于提供一种动作识别方法及其神经网络生成方法、装置和电子设备,以解决现有技术中存在的图像识别神经网络对动作识别的效果较差的技术问题。
第一方面,本发明实施例提供了一种用于动作识别的神经网络生成方法,包括:
对目标图像进行提取,得到光流特征;
根据所述光流特征得到卷积核偏置信息;
根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述对目标图像进行提取,得到光流特征,具体包括:
对目标图像进行抽取,得到光流信息;
对所述光流信息进行提取,得到光流特征。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述根据所述光流特征得到卷积核偏置信息,具体包括:
根据所述光流特征生成特征向量;
根据所述特征向量基于初始卷积神经网络中的卷积核,得到与所述卷积核的维度相同的卷积核偏置信息。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络,具体包括:
根据所述卷积核偏置信息对初始卷积神经网络中的至少一个卷积核进行偏移,得到变形卷积核;
根据所述变形卷积核生成变形卷积神经网络。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述根据所述光流特征得到卷积核偏置信息,具体包括:
根据所述光流特征生成特征向量;
根据所述特征向量基于三维卷积神经网络中的三维卷积核,得到空间维度偏移向量以及时间维度偏移向量。
结合第一方面的第四种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络,具体包括:
根据所述空间维度偏移向量,对所述三维卷积神经网络中的三维卷积核进行空间偏移,得到空间变形卷积核;
根据所述时间维度偏移向量,对所述三维卷积神经网络中的三维卷积核进行时间偏移,得到时间变形卷积核;
根据所述空间变形卷积核与所述时间变形卷积核,得到三维变形卷积核;
根据所述三维变形卷积核生成变形卷积神经网络。
第二方面,本发明实施例还提供一种动作识别方法,包括:
对目标图像进行提取,得到光流特征;
根据所述光流特征得到卷积核偏置信息;
根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络;
根据所述变形卷积神经网络对所述目标图像进行识别,得到动作识别结果。
第三方面,本发明实施例还提供一种用于动作识别的神经网络生成装置,包括:
提取模块,用于对目标图像进行提取,得到光流特征;
获取模块,用于根据所述光流特征得到卷积核偏置信息;
生成模块,用于根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络。
第四方面,本发明实施例还提供一种动作识别装置,包括:
提取模块,用于对目标图像进行提取,得到光流特征;
获取模块,用于根据所述光流特征得到卷积核偏置信息;
生成模块,用于根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络;
识别模块,用于根据所述变形卷积神经网络对所述目标图像进行识别,得到动作识别结果。
第五方面,本发明实施例还提供一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述如第一方面所述的方法的步骤。
第六方面,本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行如第一方面所述的方法。
本发明实施例提供的技术方案带来了以下有益效果:本发明实施例提供的动作识别方法及其神经网络生成方法、装置和电子设备中:首先,对目标图像进行提取从而得到光流特征,之后根据光流特征得到卷积核偏置信息,然后,根据卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络,通过提取到的目标图像的光流特征而得到卷积核偏置信息,使初始卷积神经网络通过卷积核的偏置而转换成变形卷积神经网络,从而获取到结合了光流信息的变形卷积神经网络,能够更好的集中提取包含动作发生区域及趋势的光流特征,从而更有效的捕捉图像中的光流信息表现出的动作发生区域及趋势,使变形卷积神经网络更加适合动作的识别,实现了动作识别稳定性与准确性的增加,从而解决了现有技术中存在的图像识别神经网络对动作识别的效果较差的技术问题。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例一所提供的用于动作识别的神经网络生成方法的流程图;
图2示出了本发明实施例二所提供的用于动作识别的神经网络生成方法的流程图;
图3示出了本发明实施例三所提供的二维卷积核变形过程的示意图;
图4示出了本发明实施例五所提供的一种动作识别方法的流程图;
图5示出了本发明实施例六所提供的一种用于动作识别的神经网络生成装置的结构示意图;
图6示出了本发明实施例七所提供的一种动作识别装置的结构示意图;
图7示出了本发明实施例八所提供的一种电子设备的结构示意图。
图标:1-用于动作识别的神经网络生成装置;11-提取模块;12-获取模块;13-生成模块;2-动作识别装置;21-提取模块;22-获取模块;23-生成模块;24-识别模块;4-电子设备;41-存储器;42-处理器;43-总线;44-通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,动作识别神经网络主要集中于长短期记忆网络、时标网状图等传统的图像识别神经网络方法,对于动作识别的识别效果较差,而且,对于图像识别,目前只有二维卷积的相关研究,没有在三维上拓展的相关研究,也没有在动作识别上的应用研究。
基于此,本发明实施例提供的一种动作识别方法及其神经网络生成方法、装置和电子设备,可以解决现有技术中存在的图像识别神经网络对于动作识别效果较差的技术问题。为便于对本实施例进行理解,首先对本发明实施例所公开的一种动作识别方法及其神经网络生成方法、装置和电子设备进行详细介绍。
实施例一:
本发明实施例提供的一种用于动作识别的神经网络生成方法,作为融合光流信息的变卷积核神经网络生成方法,如图1所示,该方法包括:
S11:对目标图像进行提取,得到光流特征。
其中,目标图像可以是通过普通摄像机或深度摄像机等图像采集装置获取到的动态视频、静态图片等图像。本实施例中,先对输入图像识别神经网络的目标图像进行光流特征信息的提取,获得光流特征。
需要说明的是,光流(optical flow)是空间运动物体在观察成像平面上的像素运动的瞬时速度,简单的说,光流是由于场景中前景目标本身的移动、相机的运动或者两者的共同运动所产生的。当人的眼睛观察运动物体时,物体的景象在人眼的视网膜上形成一系列连续变化的图像,这一系列连续变化的信息不断“流过”视网膜即图像平面,像一种光的“流”,故称之为光流。
S12:根据光流特征得到卷积核偏置信息。
作为本实施例的优选实施方式,通过对步骤S11得到的光流特征进行分析,得到可变卷积核的转换偏置。由于光流的特征表达了图像的变化,即光流特征包含了目标运动的信息,所以能够被观察者用来确定目标的运动情况,因此,该根据光流特征而得到的卷积核偏置信息包含了目标运动情况的信息。
S13:根据卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络。
需要说明的是,卷积神经网络(Convolutional Neural Network,简称CNN)是一种深度前馈人工神经网络,人工神经元可以响应周围单元,应用于图像识别,可以进行大型图像处理。本步骤中,根据步骤S12得到的卷积核偏置信息,基于初始卷积神经网络的卷积核,得到变形卷积神经网络。
在变形卷积神经网络中,由于变形卷积神经网络的卷积核本身是可变的,因此能够更好的集中提取相对重要的信息。本实施例中,将能够用来确定目标运动情况的光流特征作为重要信息,通过结合光流特征,使得卷积核的变换能够更加符合运动发生的分布和规律。
本实施例中,将光流信息融合进入卷积神经网络,有助于可变卷积核加快自身分布变化的学习。由于光流较大程度的揭露了动作发生的区域及趋势,其所携带的信息将引导卷积核朝着响应相关动作发生区域和发生朝向的方向积极变化,从而增加系统的鲁棒性。
因此,利用该融合光流信息的变形卷积核神经网络进行图像动作识别,识别出的动作信息能够更加精确且稳定性更高,从而提高动作识别的准确度与效率。
实施例二:
本发明实施例提供的一种用于动作识别的神经网络生成方法,作为融合光流信息的变卷积核神经网络生成方法,如图2所示,该方法包括:
S21:对目标图像进行抽取,得到光流信息。
本实施例中,先对输入图像识别神经网络的目标图像进行光流信息的抽取,从而获得光流信息。其中,光流信息表达了图像的变化,由于光流包含了目标运动的信息,因此可被观察者用来确定目标的运动情况。
优选的,可以通过光流法对目标图像进行抽取,从而得到光流信息。需要说明的是,光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。
S22:对光流信息进行提取,得到光流特征。
本步骤中,提取光流特征的目的是为了从图片序列中近似得到不能直接得到的运动场。其中,运动场是物体在三维真实世界中的运动,提取的光流特征便是运动场在二维图像平面上的投影,即运动场在人的眼睛或者摄像头上的投影。
通过提取光流特征能够获取目标物的运动情况特征,从而更有效的为后续步骤中的图像动作识别过程提供更精确的运动信息。
S23:根据光流特征生成特征向量。
作为一个优选方案,根据多个包含动作发生区域及趋势的光流特征,生成对应的多个特征向量,以实现通过向量的形式更好的表示出动作发生区域的分布。
S24:根据特征向量基于初始卷积神经网络中的卷积核,得到与卷积核的维度相同的卷积核偏置信息。
其中,初始卷积神经网络可以为动作识别神经网络等卷积神经网络,卷积神经网络是目前图像识别、视频分析中常用的一种网络,由若干层卷积、池化、全连接等构成。该初始卷积神经网络可以由多层卷积神经网络构成,也可以使用已经训练好的基础模型初始化,如:GoogleNet、VGG、ResNet等网络结构。
本步骤中,根据步骤S23得出的特征向量,基于初始卷积神经网络中的卷积核的维度,得到与该维度相同的卷积核偏置信息。优选的,对于卷积核偏置信息的获取过程,也可以通过基于光流信息的卷积核偏置学习网络而生成。因此,通过对目标图像进行光流信息特征的提取,能够得到可变卷积核的转换偏置信息。其中,偏置信息可以由卷积核的偏移向量表示,以表示出卷积核的偏移值与偏移方向。
作为本实施例的另一种实施方式,除光流信息外,可变卷积核的偏置信息也可以根据其他各种不同的信息获取。例如,可以根据目标图像自身的特征图获取卷积核偏置信息,也可以根据色差、色温等信息生成卷积核偏置信息。
S25:根据卷积核偏置信息对初始卷积神经网络中的至少一个卷积核进行偏移,得到变形卷积核。
具体的,根据步骤S24得出的每个卷积核偏移向量对上述初始卷积神经网络中对应的至少一个卷积核进行偏移,从而得到变卷积核即变形卷积核。
因此,利用网络可变卷积核扩展方法,对每个光流特征理解为对动作发生区域及发生趋势的响应,并据此生成该区域的卷积核偏置向量,从而实现对卷积核分布的变形更新,以更好的充分利用能够表现运动情况的光流信息。
S26:根据变形卷积核生成变形卷积神经网络。
具体的,将基于光流特征而生成的特征向量,叠加在步骤S24中的初始卷积神经网络的卷积核上,进而实现卷积核的偏置,偏置后的变形卷积核生成的变形卷积神经网络中,能够极大的提高卷积核偏置的学习效果。由于光流特征极大的提示了动作可能发生的区域及趋势,从而较快较好的将变形卷积神经网络的注意力集中在动作发生的区域。
在变形卷积神经网络的训练学习过程中,每一次训练得到的损失(loss)值,将对下次的训练过程进行调整,从而通过一次次的训练学习过程逐渐形成最终的变形卷积神经网络,使训练学习后最终得到的变形卷积神经网络更加符合光流特性。
实施例三:
本实施例提供一个基于上述用于动作识别的神经网络生成方法的应用实例,在一种实现方式中,初始卷积神经网络为二维卷积神经网络。
优选的,二维变形卷积核神经网络的动作识别方法可以包括:首先,对目标图像进行抽取,得到光流信息;然后对光流信息进行提取,得到光流特征;之后根据光流特征生成特征向量;然后,根据特征向量基于二维卷积神经网络中的二维卷积核,得到空间维度偏移向量以及时间维度偏移向量;之后,根据空间维度偏移向量,对二维卷积神经网络中的二维卷积核进行空间偏移,得到二维空间变形卷积核;然后根据二维空间变形卷积核生成变形卷积神经网络;最后,根据变形卷积神经网络对目标图像进行识别,得到动作识别结果。
具体的,利用网络可变卷积核扩展方法,对光流特征理解为对动作发生区域及发生趋势的响应,并据此生成该区域的卷积核偏置向量,从而实现对光流特征空间信息上的变卷积核分布的更新,以更好的抓住光流特征的空间信息。
如图3所示,在二维卷积核的变形过程中,先对目标图像进行提取,得到光流特征,然后,根据该光流特征生成特征向量
Figure BDA0001719533290000111
之后根据该特征向量得到二维的卷积核偏置信息。例如,需要进行偏置的卷积核为3×3卷积核,那么得到的卷积核偏置信息包括9个特征向量,分别对应3×3卷积核。这9个特征向量可以为多种方向,即9个卷积核的偏置向量可以为各种不同的方向,本实施例以x轴、y轴的方向为例进行说明,其各种不同的方向可以包括:向x轴正向方向偏置的向量,向y轴负向方向偏置的向量,向与x轴负向夹角为35°且与y轴正向夹角为55°的方向偏置的向量,等等多种方向的向量。最后,根据该二维卷积核偏置信息对初始卷积神经网络中的若干个卷积核进行偏移,例如通过9个二维卷积核偏置向量对9个不同方向的卷积核进行偏移,从而得到变形卷积核。
对于现有技术而言,用于识别图像动作的卷积神经网络是两层传统的固定不变的神经网络,且现有的卷积核具有固定的形状,一般是方形的且在整个网络的训练和测试阶段都不会发生形变,形成的感受野是N×N卷积核,如3×3卷积核。
通过若干层变卷积核组层生成的变形神经网络,形成的感受野与传统固定不变的神经网络形成的感受野完全不同,不再是固定不变的形状,而是变化的能够跨越图像空间区域的可分散的感受野。由于卷积核本身是空间可变的,且在整个网络的训练和测试阶段都能够逐渐发生形变,因此能够更好的集中提取光流特征等对于运动识别过程更加重要的信息。
实施例四:
本实施例提供一个基于上述用于动作识别的神经网络生成方法的应用实例,在另一种应用实例中,初始卷积神经网络为三维卷积神经网络。
需要说明的是,三维的可变卷积神经网络与二维变形卷积核神经网络的实现原理有相似的地方,不同的是三维的可变卷积神经网络能够提取跨越多张连续图像的变化的感受野。
进一步的是,三维变形卷积核神经网络的动作识别方法可以包括:首先,对目标图像进行抽取,得到光流信息;然后对光流信息进行提取,得到光流特征;之后根据光流特征生成特征向量;然后,根据特征向量基于三维卷积神经网络中的三维卷积核,得到空间维度偏移向量以及时间维度偏移向量;之后,根据空间维度偏移向量,对三维卷积神经网络中的三维卷积核进行空间偏移,得到空间变形卷积核;根据时间维度偏移向量,对三维卷积神经网络中的三维卷积核进行时间偏移,得到时间变形卷积核;然后根据空间变形卷积核与时间变形卷积核,得到三维变形卷积核;之后根据三维变形卷积核生成变形卷积神经网络;最后,根据变形卷积神经网络对目标图像进行识别,得到动作识别结果。
需要说明的是,三维卷积核的扩展类似于二维卷积核扩展,首先根据光流特征获取与三维卷积核的维度相同的偏置量即三维卷积核偏置信息,然后在初始卷积神经网络中的至少一个三维卷积核上进行偏移、调整以及更新,从而得到三维变形卷积核。
其中,三维卷积核偏置信息可以为三维卷积核偏置矩阵,是一个与三维卷积核维度保持一致的向量即三维偏置向量,矩阵中每一个元素的内容是对应位置的卷积核偏置变化的向量。例如,(1,1,0)代表该位置上的卷积核在x维度与y维度上各向正方向移动一个位置而时间方向保持不变。再例如,(3,-2,5)代表该位置上的卷积核在x维度上向正方向移动三个位置,在y维度上向负方向移动两个位置,在时间方向上向正方向移动五个时间单位。
因此,更新的过程可以分为在x维度、y维度的二维空间以及时间维度而形成的三维维度的扩展。现有的二维扩展限制卷积核只能在空间维度上偏置变化,不能突破时间的维度,而三维扩展使卷积核可以在空间以及时间的维度上进行偏置,使三维变形卷积核信息更加全面,从而使生成的三维变形卷积神经网络的动作识别结果更加全面、精确且稳定性更高,从而提高动作识别的准确度和效率。
在实际应用中,可变卷积的方法主要应用于物体检测和物体分割的任务当中,能够较好的捕捉物体的空间信息与时间信息,自适应的生成适合当前任务的变形卷积核。
现有的普通卷积核具有固定的形状,一般是方形的且在整个网络的训练和测试阶段都不会发生形变,再者,现有的动作识别方法主要集中在LSTM、TSN等传统的图像识别神经网络方法上,没有融合光流信息的变卷积核神经网络动作识别方法,而且,可变卷积核更没有在三维卷积核和卷积核变换方法上进行应用。
本实施例中,结合光流信息以及变形三维卷积神经网络,以增加动作识别的稳定性与准确性。具体的,本实施例提供的方法将三维可变卷积核结合光流信息应用于动作识别方法中,一方面,可变卷积核自适应的学习光流特征表现出的动作在空间以及时间的分布,通过三维可变卷积核能够自主学习卷积核在空间维度和时间维度上的分布变化,使三维变形卷积神经网络的动作识别过程更加全面、精确、具针对性且稳定性更高,从而提高动作识别的准确度和效率。例如,三维变形卷积核趋向于密集分布在动作集中发生的空间区域和时间区段,而对背景等较为不重要信息的响应会减小,以使识别效果更加精确、具有针对性且效率更高。
实施例五:
本发明实施例提供的一种动作识别方法,作为融合光流信息的动作识别方法,如图4所示,该方法包括:
S31:对目标图像进行提取,得到光流特征。
其中,目标图像可以是通过普通摄像机或深度摄像机等图像采集装置获取到的动态视频、静态图片等图像。本实施例中,先对输入图像识别神经网络的目标图像进行光流特征信息的提取,获得光流特征。
S32:根据光流特征得到卷积核偏置信息。
本步骤中,通过对步骤S31得到的光流特征进行分析,得到可变卷积核的转换偏置。由于光流的特征表达了图像的变化,即光流特征包含了目标运动的信息,所以能够被观察者用来确定目标的运动情况,因此,该根据光流特征而得到的卷积核偏置信息包含了目标运动情况的信息。
S33:根据卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络。
在变形卷积神经网络中,由于变形卷积神经网络的卷积核本身是可变的,因此能够更好的集中提取相对重要的信息。本实施例中,将能够用来确定目标运动情况的光流特征作为重要信息,通过结合光流特征,使得卷积核的变换能够更加符合运动发生的分布和规律。
本实施例中,将光流信息融合进入卷积神经网络,有助于可变卷积核加快自身分布变化的学习。由于光流较大程度的揭露了动作发生的区域及趋势,其所携带的信息将引导卷积核朝着响应相关动作发生区域和发生朝向的方向积极变化,从而增加系统的鲁棒性。
S34:根据变形卷积神经网络对目标图像进行识别,得到动作识别结果。
最后,利用步骤S31至S33训练学习得到的最终的变形卷积神经网络,对目标图像进行图像动作识别,从而得到更加符合光流特性、更加精确且更高稳定性的动作识别结果。因此,该方法的实行网络可以分为两大主体网络,即执行步骤S31至S33的基于光流信息的卷积核偏置学习网络以及执行步骤S34的动作识别网络。
因此,利用融合光流信息的变形卷积核神经网络进行图像动作识别,识别出的动作信息能够更加精确且稳定性更高,从而能够提高动作识别的准确度与效率。
实施例六:
本发明实施例提供的一种用于动作识别的神经网络生成装置,如图5所示,用于动作识别的神经网络生成装置1包括:提取模块11、获取模块12以及生成模块13。
作为一个优选方案,提取模块11用于对目标图像进行提取,得到光流特征。获取模块12用于根据光流特征得到卷积核偏置信息。生成模块13用于根据卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络。
本发明实施例提供的用于动作识别的神经网络生成装置,与上述实施例提供的用于动作识别的神经网络生成方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
实施例七:
本发明实施例提供的一种动作识别装置,如图6所示,动作识别装置2包括:提取模块21、获取模块22、生成模块23以及识别模块24。
本实施例中,提取模块21用于对目标图像进行提取,得到光流特征。获取模块22用于根据所述光流特征得到卷积核偏置信息。生成模块23用于根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络。识别模块24用于根据所述变形卷积神经网络对所述目标图像进行识别,得到动作识别结果。
本发明实施例提供的动作识别装置,与上述实施例提供的动作识别方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
实施例八:
本发明实施例提供的一种电子设备,如图7所示,电子设备4包括存储器41、处理器42,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例一或实施例二提供的方法的步骤。
参见图7,电子设备还包括:总线43和通信接口44,处理器42、通信接口44和存储器41通过总线43连接;处理器42用于执行存储器41中存储的可执行模块,例如计算机程序。
其中,存储器41可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口44(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线43可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器41用于存储程序,所述处理器42在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器42中,或者由处理器42实现。
处理器42可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器42中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器42可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41,处理器42读取存储器41中的信息,结合其硬件完成上述方法的步骤。
实施例九:
本发明实施例提供的一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述实施例一或实施例二提提供的方法。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本发明实施例提供的具有处理器可执行的非易失的程序代码的计算机可读介质,与上述实施例提供的用于动作识别的神经网络生成方法、装置、动作识别方法、装置以及电子设备具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本发明实施例所提供的进行用于动作识别的神经网络生成方法以及动作识别方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种用于动作识别的神经网络生成方法,其特征在于,包括:
对目标图像进行提取,得到光流特征;
根据所述光流特征得到卷积核偏置信息;
根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络;
所述对目标图像进行提取,得到光流特征,具体包括:
对目标图像进行抽取,得到光流信息;
对所述光流信息进行提取,得到光流特征;
所述根据所述光流特征得到卷积核偏置信息,具体包括:
根据所述光流特征生成特征向量;
根据所述特征向量基于三维卷积神经网络中的三维卷积核,得到空间维度偏移向量以及时间维度偏移向量;
所述根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络,具体包括:
根据所述空间维度偏移向量,对所述三维卷积神经网络中的三维卷积核进行空间偏移,得到空间变形卷积核;
根据所述时间维度偏移向量,对所述三维卷积神经网络中的三维卷积核进行时间偏移,得到时间变形卷积核;
根据所述空间变形卷积核与所述时间变形卷积核,得到三维变形卷积核;
根据所述三维变形卷积核生成变形卷积神经网络。
2.根据权利要求1所述的用于动作识别的神经网络生成方法,其特征在于,所述根据所述光流特征得到卷积核偏置信息,具体包括:
根据所述光流特征生成特征向量;
根据所述特征向量基于初始卷积神经网络中的卷积核,得到与所述卷积核的维度相同的卷积核偏置信息。
3.根据权利要求2所述的用于动作识别的神经网络生成方法,其特征在于,所述根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络,具体包括:
根据所述卷积核偏置信息对初始卷积神经网络中的至少一个卷积核进行偏移,得到变形卷积核;
根据所述变形卷积核生成变形卷积神经网络。
4.一种动作识别方法,其特征在于,包括:
对目标图像进行提取,得到光流特征;
根据所述光流特征得到卷积核偏置信息;
根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络;
根据所述变形卷积神经网络对所述目标图像进行识别,得到动作识别结果;
所述对目标图像进行提取,得到光流特征,具体包括:
对目标图像进行抽取,得到光流信息;
对所述光流信息进行提取,得到光流特征;
所述根据所述光流特征得到卷积核偏置信息,具体包括:
根据所述光流特征生成特征向量;
根据所述特征向量基于三维卷积神经网络中的三维卷积核,得到空间维度偏移向量以及时间维度偏移向量;
所述根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络,具体包括:
根据所述空间维度偏移向量,对所述三维卷积神经网络中的三维卷积核进行空间偏移,得到空间变形卷积核;
根据所述时间维度偏移向量,对所述三维卷积神经网络中的三维卷积核进行时间偏移,得到时间变形卷积核;
根据所述空间变形卷积核与所述时间变形卷积核,得到三维变形卷积核;
根据所述三维变形卷积核生成变形卷积神经网络。
5.一种用于动作识别的神经网络生成装置,其特征在于,包括:
提取模块,用于对目标图像进行提取,得到光流特征;
获取模块,用于根据所述光流特征得到卷积核偏置信息;
生成模块,用于根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络;
所述提取模块具体用于:
对目标图像进行抽取,得到光流信息;
对所述光流信息进行提取,得到光流特征;
所述获取模块具体用于:
根据所述光流特征生成特征向量;
根据所述特征向量基于三维卷积神经网络中的三维卷积核,得到空间维度偏移向量以及时间维度偏移向量;
所述生成模块具体用于:
根据所述空间维度偏移向量,对所述三维卷积神经网络中的三维卷积核进行空间偏移,得到空间变形卷积核;
根据所述时间维度偏移向量,对所述三维卷积神经网络中的三维卷积核进行时间偏移,得到时间变形卷积核;
根据所述空间变形卷积核与所述时间变形卷积核,得到三维变形卷积核;
根据所述三维变形卷积核生成变形卷积神经网络。
6.一种动作识别装置,其特征在于,包括:
提取模块,用于对目标图像进行提取,得到光流特征;
获取模块,用于根据所述光流特征得到卷积核偏置信息;
生成模块,用于根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络;
识别模块,用于根据所述变形卷积神经网络对所述目标图像进行识别,得到动作识别结果;
所述提取模块具体用于:
对目标图像进行抽取,得到光流信息;
对所述光流信息进行提取,得到光流特征;
所述获取模块具体用于:
根据所述光流特征生成特征向量;
根据所述特征向量基于三维卷积神经网络中的三维卷积核,得到空间维度偏移向量以及时间维度偏移向量;
所述生成模块具体用于:
根据所述空间维度偏移向量,对所述三维卷积神经网络中的三维卷积核进行空间偏移,得到空间变形卷积核;
根据所述时间维度偏移向量,对所述三维卷积神经网络中的三维卷积核进行时间偏移,得到时间变形卷积核;
根据所述空间变形卷积核与所述时间变形卷积核,得到三维变形卷积核;
根据所述三维变形卷积核生成变形卷积神经网络。
7.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至4任一项所述的方法的步骤。
8.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1至4任一所述方法。
CN201810728821.5A 2018-07-04 2018-07-04 动作识别方法及其神经网络生成方法、装置和电子设备 Active CN108985443B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810728821.5A CN108985443B (zh) 2018-07-04 2018-07-04 动作识别方法及其神经网络生成方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810728821.5A CN108985443B (zh) 2018-07-04 2018-07-04 动作识别方法及其神经网络生成方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN108985443A CN108985443A (zh) 2018-12-11
CN108985443B true CN108985443B (zh) 2022-03-29

Family

ID=64537047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810728821.5A Active CN108985443B (zh) 2018-07-04 2018-07-04 动作识别方法及其神经网络生成方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN108985443B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109620205B (zh) * 2018-12-26 2022-10-28 上海联影智能医疗科技有限公司 心电数据分类方法、装置、计算机设备和存储介质
CN113766313B (zh) * 2019-02-26 2024-03-05 深圳市商汤科技有限公司 视频数据处理方法及装置、电子设备和存储介质
CN109858618B (zh) * 2019-03-07 2020-04-14 电子科技大学 一种卷积神经单元块、构成的神经网络及图像分类方法
CN110287816B (zh) * 2019-06-05 2021-12-28 北京字节跳动网络技术有限公司 车门动作检测方法、装置和计算机可读存储介质
CN111553218A (zh) * 2020-04-20 2020-08-18 南京医科大学 一种基于人体姿势识别的智能医学技能教学监测系统
CN112507920B (zh) * 2020-12-16 2023-01-24 重庆交通大学 一种基于时间位移和注意力机制的考试异常行为识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273800A (zh) * 2017-05-17 2017-10-20 大连理工大学 一种基于注意机制的卷积递归神经网络的动作识别方法
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN107609541A (zh) * 2017-10-17 2018-01-19 哈尔滨理工大学 一种基于可变形卷积神经网络的人体姿态估计方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273800A (zh) * 2017-05-17 2017-10-20 大连理工大学 一种基于注意机制的卷积递归神经网络的动作识别方法
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN107609541A (zh) * 2017-10-17 2018-01-19 哈尔滨理工大学 一种基于可变形卷积神经网络的人体姿态估计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"基于卷积神经网络与视频复合特征的人体动作识别";游福成;《中国优秀硕士论文全文数据库》;20180415;摘要、第2.3-2.4节 *
"基于可变形卷积神经网络的手势识别方法";苏军雄;《计算机与现代化》;20180430;摘要、第1-3节 *
苏军雄."基于可变形卷积神经网络的手势识别方法".《计算机与现代化》.2018, *

Also Published As

Publication number Publication date
CN108985443A (zh) 2018-12-11

Similar Documents

Publication Publication Date Title
CN108985443B (zh) 动作识别方法及其神经网络生成方法、装置和电子设备
CN108960192B (zh) 动作识别方法及其神经网络生成方法、装置和电子设备
US20220138490A1 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
US11836932B2 (en) Classifying motion in a video using detected visual features
CN109101901B (zh) 人体动作识别及其神经网络生成方法、装置和电子设备
EP3857440A1 (en) Method and apparatus for processing video stream
US20230042187A1 (en) Behavior recognition method and system, electronic device and computer-readable storage medium
CN109685037B (zh) 一种实时动作识别方法、装置及电子设备
Fang et al. Deep3DSaliency: Deep stereoscopic video saliency detection model by 3D convolutional networks
Ramirez-Alonso et al. Temporal weighted learning model for background estimation with an automatic re-initialization stage and adaptive parameters update
CN111985333B (zh) 一种基于图结构信息交互增强的行为检测方法及电子装置
Guo et al. Monocular 3D multi-person pose estimation via predicting factorized correction factors
Chacon-Murguia et al. Fuzzy-neural self-adapting background modeling with automatic motion analysis for dynamic object detection
Lei et al. Convolutional restricted Boltzmann machines learning for robust visual tracking
CN115497094A (zh) 图像处理方法及装置、电子设备和存储介质
CN113780215A (zh) 一种信息处理方法、装置、计算机设备及存储介质
CN113033263A (zh) 一种人脸图像年龄特征识别方法
Goyal et al. Moving Object Detection in Video Streaming Using Improved DNN Algorithm
JP7211496B2 (ja) 教師データ生成装置
JP7211495B2 (ja) 教師データ生成装置
Wang et al. Pedestrian detection in highly crowded scenes using “online” dictionary learning for occlusion handling
LU101933B1 (en) Human action recognition method, human action recognition system and equipment
De Alvis et al. Online learning for scene segmentation with laser-constrained CRFs
Taghribi et al. A novel fast bio-inspired feature for motion estimation
Ramaswamy et al. Video object segmentation using spatio-temporal deep network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant