CN112434608A - 一种基于双流结合网络的人体行为识别方法及系统 - Google Patents

一种基于双流结合网络的人体行为识别方法及系统 Download PDF

Info

Publication number
CN112434608A
CN112434608A CN202011332558.1A CN202011332558A CN112434608A CN 112434608 A CN112434608 A CN 112434608A CN 202011332558 A CN202011332558 A CN 202011332558A CN 112434608 A CN112434608 A CN 112434608A
Authority
CN
China
Prior art keywords
key frame
optical flow
rgb
image
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011332558.1A
Other languages
English (en)
Other versions
CN112434608B (zh
Inventor
马昕
刘少参
李贻斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202011332558.1A priority Critical patent/CN112434608B/zh
Publication of CN112434608A publication Critical patent/CN112434608A/zh
Application granted granted Critical
Publication of CN112434608B publication Critical patent/CN112434608B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration by the use of local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Abstract

本公开公开的一种基于双流结合网络的人体行为识别方法及系统,包括:获取行人视频并划分帧,提取行人视频中每帧的RGB图像和光流图像;将光流图像和RGB图像输入双流结合模块中,获取关键帧下的RGB‑OF图像;将RGB‑OF图像输入卷积神经网络中对人体行为进行识别;其中,双流结合模块包括关键帧自适应区分模块和基于光流的注意力模块,通过关键帧自适应模块确定关键帧下的光流图像和RGB图像,通过基于光流的注意力模块确定关键帧下RGB图像的空间注意力权重,根据关键帧下的光流图像和RGB图像及关键帧下RGB图像的空间注意力权重,获得关键帧下的RGB‑OF图像。关键帧下的RGB‑OF图像充分整合了RGB图像和光流图像中的动作信息,用于人体行为识别时,具备良好的识别效果。

Description

一种基于双流结合网络的人体行为识别方法及系统
技术领域
本公开涉及图像处理与分析技术领域,尤其涉及一种基于双流结合网络的人体行为识别方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
人体行为识别是计算机视觉中一项重要而基础的任务,应用范围广泛,包括视频内容分析、视频监控、人机交互等,近年来,随着神经网络的迅速发展,适用于行为识别的特征提取及表征也取得了巨大的进步,然而,由于行为识别固有的复杂性,这项任务仍然极具挑战性。
要准确识别人体各类行为,关键在于有效捕获每一帧视频图像中的静态外观信息以及多帧视频图像之间的时间关联信息,在过去的几十年中,已经逐渐发展出三种典型的行为识别框架:(1)双流CNN,(2)3DCNN,(3)结合LSTM模型的2DCNN。然而,2DCNN与LSTM相结合的模型通常侧重于捕获大范围的模糊时间信息,缺乏在局部时空窗口中表达精细时间关系的能力,3DCNN中的计算量过大,另外,目前尚不明确采用3D卷积核统一处理时空维度的信息是否能有效地表达各种行为的特征。
基于深度卷积神经网络的双流结构在捕获视频中的时空信息方面取得了巨大的成功,在双流结构中,首先对空间流和时间流两个卷积神经网络进行独立训练,然后对二者的结果进行融合,得到最终的预测结果,尽管双流网络具有优越的识别性能,但目前其有以下缺点:
1、训练两个独立的卷积神经网络,既耗费大量的时间,也提高了对硬件设备的要求。
2、复杂的背景会干扰网络训练的过程,与行为无关的背景会在提取的特征中引入噪声,对最终的网络性能产生负面影响。
3、现有双流网络认为视频中不同的图像、同一图像中的不同区域包含等量的行为信息,实际上,视频中不同的图像对于行为识别的重要性并不相同,类似地,同一图像中的不同区域包含的与动作有关的信息也不相等。
以上缺点导致用双流网络进行人体行为识别时,存在计算速度慢、识别效果有限的技术问题。
发明内容
本公开为了解决上述问题,提出了一种基于双流结合网络的人体行为识别方法及系统,通过关键帧自适应区分模块获取了关键帧下的光流图像和RGB图像,通过基于光流的注意力模块确定关键帧下RGB图像的空间注意力权重,根据关键帧下的光流图像和RGB图像及关键帧下RGB图像的空间注意力权重,获得关键帧下的RGB-OF图像,使得关键帧下的RGB-OF图像充分整合了RGB图像和光流图像中的动作信息,有效排除复杂背景中的噪声干扰,将关键帧下的RGB-OF图像作为特征经卷积神经网络进行人体行为识别时,具备良好的识别效果。
为实现上述目的,本公开采用如下技术方案:
在一个或多个实施例中,提出了一种基于双流结合网络的人体行为识别方法,包括:
获取行人视频并划分帧,提取行人视频中每帧的RGB图像和光流图像;
将光流图像和RGB图像输入双流结合模块中,获取关键帧下的RGB-OF图像;
将RGB-OF图像输入卷积神经网络中对人体行为进行识别;
其中,双流结合模块包括关键帧自适应区分模块和基于光流的注意力模块,通过关键帧自适应区分模块确定关键帧下的光流图像和RGB图像,通过基于光流的注意力模块确定关键帧下RGB图像的空间注意力权重,根据关键帧下的光流图像和RGB图像及关键帧下RGB图像的空间注意力权重,获得关键帧下的RGB-OF图像。
进一步的,获得关键帧下的RGB-OF图像的过程为:
根据关键帧下RGB图像的空间注意力权重,计算关键帧下光流图像的掩膜;
对掩膜进行腐蚀操作和膨胀操作,获得
Figure BDA0002796235330000031
将关键帧下的RGB图像及光流图像分别与
Figure BDA0002796235330000032
进行加权;
将加权后的RGB图像与光流图像堆叠获得关键帧下的RGB-OF图像。
进一步的,获得关键帧下的RGB-OF图像的过程还可以为:
将关键帧下的RGB图像与光流图像堆叠,获得初始堆叠图像;
根据关键帧下RGB图像的空间注意力权重,计算卷积神经网络中的初始注意力权重;
对初始注意力权重进行卷积操作作为卷积神经网络中每层的注意力权重;
将获取的每层的注意力权重与初始堆叠图像进行加权,获得关键帧下的RGB-OF图像。
在一个或多个实施例中,提出了一种基于双流结合网络的人体行为识别系统,包括:
数据采集模块,采集行人视频并划分帧,并提取行人视频中每帧的RGB图像和光流图像;
双流结合模块,对RGB图像和光流图像进行分析整合,获取关键帧下的RGB-OF图像,其中,双流结合模块包括关键帧自适应区分模块和基于光流的注意力模块,通过关键帧自适应区分模块确定关键帧下的光流图像和RGB图像,通过基于光流的注意力模块确定关键帧下RGB图像的空间注意力权重,根据关键帧下的光流图像和RGB图像及关键帧下RGB图像的空间注意力权重,获得关键帧下的RGB-OF图像;
行为识别模块,将关键帧下的RGB-OF图像输入卷积神经网络中,对人体行为进行识别。
在一个或多个实施例中,提出了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成所述的一种基于双流结合网络的人体行为识别方法的步骤。
在一个或多个实施例中,提出了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成所述的一种基于双流结合网络的人体行为识别方法的步骤。
与现有技术相比,本公开的有益效果为:
1、本公开通过关键帧自适应区分模块获取了关键帧下的光流图像和RGB图像,通过基于光流的注意力模块确定关键帧下RGB图像的空间注意力权重,根据关键帧下的光流图像和RGB图像及关键帧下RGB图像的空间注意力权重,获得关键帧下的RGB-OF图像,使得关键帧下的RGB-OF图像充分整合了RGB图像和光流图像中的动作信息,有效排除复杂背景中的噪声干扰,将关键帧下的RGB-OF图像作为特征经卷积神经网络进行人体行为识别时,具备良好的识别效果。
2、本公开基于关键帧自适应区分模块和基于光流的注意力模块,提出了综合级数据融合方案与层次化数据融合方案,并将两种数据融合方案与原始级数据融合方案进行了实验对比,发现综合级数据融合方案,融合了RGB图像和光流图像,具备最佳的人体行为识别效果。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本公开实施例1中综合级数据融合方案的流程图;
图2为本公开实施例1中层次化数据融合方案的流程图;
图3为原始级数据融合方案;
图4为本公开实施例1综合级数据融合方案时基于光流的注意力模块获得的空间注意力权重可视化;
图5为本公开实施例1层次化数据融合方案时基于光流的注意力模块选择的运动区域;
图6为数据集中的RGB图像和光流图像。
具体实施方式:
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在本公开中,术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,只是为了便于叙述本公开各部件或元件结构关系而确定的关系词,并非特指本公开中任一部件或元件,不能理解为对本公开的限制。
本公开中,术语如“固接”、“相连”、“连接”等应做广义理解,表示可以是固定连接,也可以是一体地连接或可拆卸连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员,可以根据具体情况确定上述术语在本公开中的具体含义,不能理解为对本公开的限制。
实施例1
在该实施例中,公开了一种基于双流结合网络的人体行为识别方法,包括:
获取行人视频并划分帧,提取行人视频中每帧的RGB图像和光流图像;
将光流图像和RGB图像输入双流结合模块中,获取关键帧下的RGB-OF图像;
将RGB-OF图像输入卷积神经网络中对人体行为进行识别;
其中,双流结合模块包括关键帧自适应区分模块和基于光流的注意力模块,通过关键帧自适应区分模块确定关键帧下的光流图像和RGB图像,通过基于光流的注意力模块确定关键帧下RGB图像的空间注意力权重,根据关键帧下的光流图像和RGB图像及关键帧下RGB图像的空间注意力权重,获得关键帧下的RGB-OF图像。
进一步的,获得关键帧下的RGB-OF图像的过程为:
根据关键帧下RGB图像的空间注意力权重,计算关键帧下光流图像的掩膜;
对掩膜进行腐蚀操作和膨胀操作,获得
Figure BDA0002796235330000071
将关键帧下的RGB图像与光流图像分别与
Figure BDA0002796235330000081
进行加权;
将加权后的RGB图像与光流图像堆叠获得关键帧下的RGB-OF图像。
进一步的,获得关键帧下的RGB-OF图像的过程还可以为:
将关键帧下的RGB图像与光流图像堆叠,获得初始堆叠图像;
根据关键帧下RGB图像的空间注意力权重,计算卷积神经网络中的初始注意力权重;
对初始注意力权重进行卷积操作作为卷积神经网络中每层的注意力权重;
将获取的每层的注意力权重与初始堆叠图像进行加权,获得关键帧下的RGB-OF图像。
进一步的,关键帧自适应区分模块确定关键帧下的光流图像和RGB图像的具体过程为:
计算每帧光流图像中任一位置与所有光流图像中任一相同位置平均值的差异程度;
提取差异程度中前m个最大值对应的帧为关键帧;
输出关键帧下的光流图像和RGB图像。
进一步的,计算光流图像中任一位置与所有光流图像中任一相同位置平均值的差异程度的具体过程为:
计算每帧光流图像上任一位置的值;
沿通道维度计算所有光流图像中任一相同位置的平均值;
计算光流图像中任一位置的值与对应的平均值差的绝对值,为光流图像中任一位置与所有光流图像中任一相同位置平均值的差异程度。
进一步的,基于光流的注意力模块确定关键帧下RGB图像的空间注意力权重的具体过程为:
计算关键帧下光流图像中任一位置的值,及关键帧下所有光流图像中任一相同位置的平均值;
计算关键帧下的光流图像中任一位置的值与该位置对应平均值差的绝对值;
将绝对值标准化并进行膨胀操作,获得关键帧下RGB图像的空间注意力权重。
进一步的,通过TVNet网络从RGB图像中提取光流图像。
结合图1-6对一种基于双流结合网络的人体行为识别方法进行具体说明,具体为:
为了解决现有的用于人体行为识别的双流网络存在的运算速度慢、行为识别效果有限的技术问题,在该实施例中提出了一种基于双流结合网络的人体行为识别方法,以更有效、鲁棒的方式来挖掘RGB图像和光流图像中的时空信息,近年来,随着像TVNet和OFF这样可用于提取光流的神经网络的出现,不再需要预先计算、存储光流数据,这样,提取光流和根据光流数据训练神经网络这两个阶段可以简化为一个阶段。尽管如此,在使用双流结构模块捕获视频中的时空信息时,仍然需要分别训练时间、空间两个卷积神经网络。
在此过程中,通过双流结构模块(TSCB)来捕捉视频中的有关动作的静态外观和时序信息,与原始双流结构的后期特征融合方法相比,本实施例中的TSCB能够实现在送入卷积神经网络处理前,将RGB图像和光流图像中的信息进行整合,在TSCB和卷积神经网络的基础上,提出了一种用于人体行为识别的双流结合网络(TSCNet)。
首先,利用TVNet从RGB图像中提取光流图像;然后,根据设计的融合策略,将RGB图像和光流图像进行融合,将RGB图像与光流图像的融合结果称为RGB-OF图像;最后,主ConvNet对RGB-OF图像进行编码,进而预测动作的类别。主ConvNet可以是任何一种卷积神经网络。
为了找到行人视频中的关键帧,并区分出不同的图像区域对行为识别重要性的差别,设计了关键帧自适应区分模块(KFASM)和基于光流的注意力模块(OFAM),关键帧自适应区分模块(KFASM)用于从视频中提取出对动作识别最关键的图像,该图像为关键帧下的RGB图像和光流图像,基于光流的空间注意力模块(OFAM)根据图像不同区域和运动的关联程度,为关键帧下的RGB图像赋予相应的空间注意力权重,在上述两个模块基础上,通过两种数据融合方案整合视频中包含的时空信息,分别获取了关键帧下的RGB-OF图像,两种数据融合方案分别为:层次化数据融合方案和综合级数据融合方案。
基于综合级数据融合方案构建了用于行为识别的双流组合网络(TSCNet),该网络能够以端到端的方式,同时从RGB图像和光流图像中捕获视频中的外观和运动信息。
TSCNet充分整合RGB图像和光流图像中的动作信息,有效排除复杂背景中的噪声干扰,能够捕捉到具有区分性的时空特征,此外,TSCNet结构简单,泛化性好,实现灵活。
一、关于双流结合网络,首先给出了两个模块,关键帧自适应区分模块KFASM和基于光流的注意力模块OFAM。
1.1关键帧自适应区分模块
视频中不同的图像包含的有关人体行为的信息通常是不相等的。只有一些关键帧包含最有区别性的信息,其余的则提供上下文信息。如图6所示,我们可以看到大多数光流图像对于行为识别具有重要意义,但也存在一些光流图像中几乎不包含与人体行为相关的信息,如图6中的最后两列。如图6的第2列至第4列所示的光流图像包含了识别行为所需的绝大多数信息,这些光流图像及其对应的RGB图像应当被视为关键帧,从图像序列中区分出来,根据这种认识,设计了关键帧自适应区分模块KFASM,用于从视频中提取出关键帧。具体细节如下:
对于给定的一个包含N帧RGB图像和N帧光流图像的序列,首先对光流图像进行操作,找出关键帧的索引。
首先,获取每个光流图像中任意位置(i,j)的值On(i,j);
其次,沿通道维度计算N帧光流图像中每个位置(i,j)的平均值Oavg(i,j):
Figure BDA0002796235330000111
其中,Oavg∈RH×W,H和W分别表示光流图像的长度与宽度,i=1,2,...,H,j=1,2,...,W,On(i,j)为nth光流图像上(i,j)位置处的值。
再次,计算nth光流图像中(i,j)处的值On(i,j)与上述平均值Oavg(i,j)的差值并取绝对值,为光流图像中(i,j)处的值On(i,j)与平均值Oavg(i,j)的差异程度,用
Figure BDA0002796235330000121
表示。
Figure BDA0002796235330000122
其中,n=1,2,...,N。
最后,找出
Figure BDA0002796235330000123
中前m个最大值。
Figure BDA0002796235330000124
这里,Max{·}表示最大值函数,n1,n2,...,nm表示从序列中提取出的关键帧的索引。
通过关键帧的索引,输出关键帧下的RGB图像和光流图像。
1.2基于光流的注意力模块
在观察现实世界时,人们会对不同的区域给予不同的关注,通常将注意力集中在其感兴趣的信息所在的位置。如图4所示,光流图像上动作相关位置的值与其他位置的值有较大的差异,光流图像不同区域之间的这种数值分布的差异,反映了其与行为识别结果的关联程度,通过适当的处理,作为RGB图像的空间注意力权重。
基于这一认知,结合光流图像的特点,设计了一种基于光流的注意力模块,该模块能够根据关键帧下光流图像中不同区域对识别结果的贡献,为其分配相应的权重,计算获得RGB图像的空间注意力权重的具体过程为:
对于包含N帧光流图像的序列ON×H×W,根据关键帧自适应区分模块获取的关键帧下的光流图像Ok∈RH×W(k∈1,...,m)和RGB图像Ik∈RH×W,计算关键帧下的光流图像Ok任意位置的平均值
Figure BDA0002796235330000131
计算Ok
Figure BDA0002796235330000132
差的绝对值
Figure BDA0002796235330000133
Figure BDA0002796235330000134
计算RGB图像的空间注意力权重
Figure BDA0002796235330000135
Figure BDA0002796235330000136
1.3结合综合级数据融合方案对双流网络进行说明
综合级的数据融合方案,如图1所示,对于一个包含N帧RGB图像的序列,首先利用TVNet提取光流图像,然后通过KFASM找到关键帧的索引,进而确定关键帧的光流图像和RGB图像,最后,将选定的关键帧的光流图像与RGB图像进行堆叠获得初始堆叠图像,利用OFAM对初始堆叠后的图像进行加权运算,获得关键帧下的RGB-OF图像,将关键帧下的RGB-OF图像输入主ConvNet进行行为识别,利用OFAM对堆叠后的数据进行加权运算,从而使得主ConvNet中特征建模过程聚焦于运动相关区域,同时减少复杂背景中噪声的干扰。
具体的计算过程为:
通过KFASM获取关键帧下的光流图像和RGB图像;
将关键帧下的光流图像和RGB图像堆叠,获得初始堆叠图像;
通过OFAM获取RGB图像的空间注意力权重;
根据RGB图像的空间注意力权重计算初始注意力权重OFAM0(i,j):
Figure BDA0002796235330000141
其中,d0表示卷积核为2×2,迭代次数为12的膨胀运算,Max{·}与Min{·}分别表示最大值函数、最小值函数;
根据初始注意力权重,依次计算获得主ConvNet中每层卷积层的注意力权重OFAMm:
OFAMm=FSAW(Km,OFAMm-1)=Km*OFAMm-1
其中,*表示卷积操作,OFAMm-1和OFAMm分别表示m-1th和mth特定卷积层,Km是mth特定卷积层的卷积核。
采用卷积操作来实现初始堆叠图像映射的加权,即关键帧下的RGB-OF图像
Figure BDA0002796235330000142
Figure BDA0002796235330000143
其中,Fm表示初始堆叠图像,Fscale(Fm,OFAMm)表示OFAMm和Fm之间元素相乘,注意mth特定卷积层中的卷积核的大小与原始ConvNet网络中mth卷积层中卷积核的大小一致,且参数初始化为1。OFAM0和OFAM1的可视化如图4所示。
1.4结合层次化数据融合方案对双流网络进行说明
结合KFASM和OFAM,设计的层次化数据融合方案,直接从光流数据中来探索运动区域并实现背景分离,具体细节如下:
对于包含N张光流图像的序列ON×H×W,首先通过KFASM从中提取关键帧下的光流图像Ok和关键帧下的RGB图像Ik
通过OFAM获得RGB图像对应的空间注意力权重
Figure BDA0002796235330000151
并计算平均值
Figure BDA0002796235330000152
Figure BDA0002796235330000153
其中,H和W分别表示RGB图像的高度和宽度。
根据RGB图像对应的空间注意力权重
Figure BDA0002796235330000154
计算判别式
Figure BDA0002796235330000155
的值:
Figure BDA0002796235330000156
其中,Sgn表示符号函数,
Figure BDA0002796235330000157
表示
Figure BDA0002796235330000158
中大于
Figure BDA0002796235330000159
的值的个数,
Figure BDA00027962353300001510
表示
Figure BDA00027962353300001511
中小于
Figure BDA00027962353300001512
的值的个数。
Figure BDA00027962353300001513
Figure BDA00027962353300001514
Figure BDA00027962353300001515
Figure BDA00027962353300001516
其中,H∈RH×W就是根据光流图像生成的掩膜。
然后,对H分别进行腐蚀操作和膨胀操作:
Figure BDA00027962353300001517
这里,腐蚀操作e、膨胀操作d1和膨胀操作d2核的大小分别为3×3,9×9和5×5,迭代次数分别设置为4、7、4。
最后,将关键帧下的RGB图像Ik和关键帧下的光流图像Ok分别按照
Figure BDA00027962353300001518
进行加权:
Figure BDA0002796235330000161
Figure BDA0002796235330000162
其中,
Figure BDA0002796235330000163
表示对应元素相乘。加权后的RGB图像
Figure BDA0002796235330000164
和加权后的光流图像
Figure BDA0002796235330000165
堆叠获得关键帧下的RGB-OF图像,如图5所示,将获得的关键帧下的RGB-OF图像作为主ConvNet网络的输入进行识别。
二、实验验证
分别采用综合级数据融合方案、层次化数据融合方案与原始级数据融合方案对采集的行人视频进行人体行为识别,实验结果表明,综合级数据融合方案融合了RGB图像和光流图像,获得的识别效果最佳。
其中,原始级数据融合方案具体为,深度图像被可以当作类似于颜色通道的附加通道,作为输入送入卷积神经网络进行编码,每个特征图都是一个包含彩色信息和深度信息的二维数组,在此基础上,将光流图像视为类似于彩色通道的附加通道,设计了一种将RGB图像和光流图像堆叠的原始级数据融合方案,如图3所示,主ConvNet的输入是彩色(RGB)图像与光流图像的堆叠。
本实施例中公开的一种基于双流结合网络的人体行为识别方法,提出了一种新的用于行为识别的双流结合网络(TSCNet),该网络能够以端到端的方式,同时从RGB图像和光流图像中捕获视频中的外观和运动信息。
设计了一种关键帧自适应区分模块(KFASM),用于从视频中提取出对动作识别关键的图像,设计了一种基于光流的空间注意力模块(OFAM),根据图像不同区域与运动的关联程度,为其赋予相应的权重。
基于KFASM和OFAM,设计了综合级数据融合方案与层次化数据融合方案,并将两种数据融合方案与原始级数据融合方案进行了实验对比,发现综合级数据融合方案,融合了RGB图像和光流图像,具备最佳的人体行为识别效果。
实施例2
在该实施例中,公开了一种基于双流结合网络的人体行为识别系统,包括:
数据采集模块,采集行人视频并划分帧,并提取行人视频中每帧的RGB图像和光流图像;
双流结合模块,对RGB图像和光流图像进行分析整合,获取关键帧下的RGB-OF图像,其中,双流结合模块包括关键帧自适应区分模块和基于光流的注意力模块,通过关键帧自适应模块确定关键帧下的光流图像和RGB图像,通过基于光流的注意力模块确定关键帧下RGB图像的空间注意力权重,根据关键帧下的光流图像和RGB图像及关键帧下RGB图像的空间注意力权重,获得关键帧下的RGB-OF图像;
行为识别模块,将关键帧下的RGB-OF图像输入卷积神经网络中,对人体行为进行识别。
实施例3
在该实施例中,公开了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1公开的一种基于双流结合网络的人体行为识别方法的步骤。
实施例4
在该实施例中,公开了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1公开的一种基于双流结合网络的人体行为识别方法的步骤。
以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (10)

1.一种基于双流结合网络的人体行为识别方法,其特征在于,包括:
获取行人视频并划分帧,提取行人视频中每帧的RGB图像和光流图像;
将光流图像和RGB图像输入双流结合模块中,获取关键帧下的RGB-OF图像;
将RGB-OF图像输入卷积神经网络中对人体行为进行识别;
其中,双流结合模块包括关键帧自适应区分模块和基于光流的注意力模块,通过关键帧自适应模块确定关键帧下的光流图像和RGB图像,通过基于光流的注意力模块确定关键帧下RGB图像的空间注意力权重,根据关键帧下的光流图像和RGB图像及关键帧下RGB图像的空间注意力权重,获得关键帧下的RGB-OF图像。
2.如权利要求1所述的一种基于双流结合网络的人体行为识别方法,其特征在于,获得关键帧下的RGB-OF图像的过程为:
根据关键帧下RGB图像的空间注意力权重,计算关键帧下光流图像的掩膜;
对掩膜进行腐蚀操作和膨胀操作,获得
Figure FDA0002796235320000011
将关键帧下的RGB图像及光流图像分别与
Figure FDA0002796235320000012
进行加权;
将加权后的RGB图像与光流图像堆叠获得关键帧下的RGB-OF图像。
3.如权利要求1所述的一种基于双流结合网络的人体行为识别方法,其特征在于,获得关键帧下的RGB-OF图像的过程还可以为:
将关键帧下的RGB图像与光流图像堆叠,获得初始堆叠图像;
根据关键帧下RGB图像的空间注意力权重,计算卷积神经网络中的初始注意力权重;
对初始注意力权重进行卷积操作作为卷积神经网络中每层的注意力权重;
将获取的每层的注意力权重与初始堆叠图像进行加权,获得关键帧下的RGB-OF图像。
4.如权利要求1所述的一种基于双流结合网络的人体行为识别方法,其特征在于,关键帧自适应区分模块确定关键帧下的光流图像和RGB图像的具体过程为:
计算每帧光流图像中任一位置与所有光流图像中任一相同位置平均值的差异程度;
提取差异程度中前m个最大值对应的帧为关键帧;
输出关键帧下的光流图像和RGB图像。
5.如权利要求4所述的一种基于双流结合网络的人体行为识别方法,其特征在于,计算光流图像中任一位置与所有光流图像中任一相同位置平均值的差异程度的具体过程为:
计算每帧光流图像上任一位置的值;
沿通道维度计算所有光流图像中任一相同位置的平均值;
计算光流图像中任一位置的值与对应的平均值差的绝对值,为光流图像中任一位置与所有光流图像中任一相同位置平均值的差异程度。
6.如权利要求1所述的一种基于双流结合网络的人体行为识别方法,其特征在于,基于光流的注意力模块确定关键帧下RGB图像的空间注意力权重的具体过程为:
计算关键帧下光流图像中任一位置的值,及关键帧下所有光流图像中任一相同位置的平均值;
计算关键帧下的光流图像中任一位置的值与该位置对应平均值差的绝对值;
将绝对值标准化并进行膨胀操作,获得关键帧下RGB图像的空间注意力权重。
7.如权利要求1所述的一种基于双流结合网络的人体行为识别方法,其特征在于,通过TVNet网络从RGB图像中提取光流图像。
8.一种基于双流结合网络的人体行为识别系统,其特征在于。包括:
数据采集模块,采集行人视频并划分帧,并提取行人视频中每帧的RGB图像和光流图像;
双流结合模块,对RGB图像和光流图像进行分析整合,获取关键帧下的RGB-OF图像,其中,双流结合模块包括关键帧自适应区分模块和基于光流的注意力模块,通过关键帧自适应模块确定关键帧下的光流图像和RGB图像,通过基于光流的注意力模块确定关键帧下RGB图像的空间注意力权重,根据关键帧下的光流图像和RGB图像及关键帧下RGB图像的空间注意力权重,获得关键帧下的RGB-OF图像;
行为识别模块,将关键帧下的RGB-OF图像输入卷积神经网络中,对人体行为进行识别。
9.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-6任一项所述的一种基于双流结合网络的人体行为识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-6任一项所述的一种基于双流结合网络的人体行为识别方法的步骤。
CN202011332558.1A 2020-11-24 2020-11-24 一种基于双流结合网络的人体行为识别方法及系统 Active CN112434608B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011332558.1A CN112434608B (zh) 2020-11-24 2020-11-24 一种基于双流结合网络的人体行为识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011332558.1A CN112434608B (zh) 2020-11-24 2020-11-24 一种基于双流结合网络的人体行为识别方法及系统

Publications (2)

Publication Number Publication Date
CN112434608A true CN112434608A (zh) 2021-03-02
CN112434608B CN112434608B (zh) 2023-02-28

Family

ID=74694065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011332558.1A Active CN112434608B (zh) 2020-11-24 2020-11-24 一种基于双流结合网络的人体行为识别方法及系统

Country Status (1)

Country Link
CN (1) CN112434608B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863356A (zh) * 2022-03-10 2022-08-05 西南交通大学 一种基于残差聚合图网络的群体活动识别方法及系统
CN115131710A (zh) * 2022-07-05 2022-09-30 福州大学 基于多尺度特征融合注意力的实时动作检测方法
CN115272943A (zh) * 2022-09-29 2022-11-01 南通双和食品有限公司 一种基于数据处理的畜牧家禽进食异常识别方法
CN116071809A (zh) * 2023-03-22 2023-05-05 鹏城实验室 一种基于多类表征时空交互的人脸时空表征生成方法
CN116758494A (zh) * 2023-08-23 2023-09-15 深圳市科灵通科技有限公司 一种网联车车载视频智能监控方法及系统
CN117197877A (zh) * 2023-11-07 2023-12-08 山东省工业技术研究院 一种基于区域加权光流特征的微表情识别方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN109740419A (zh) * 2018-11-22 2019-05-10 东南大学 一种基于Attention-LSTM网络的视频行为识别方法
CN110096950A (zh) * 2019-03-20 2019-08-06 西北大学 一种基于关键帧的多特征融合行为识别方法
CN110222574A (zh) * 2019-05-07 2019-09-10 杭州智尚云科信息技术有限公司 基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质
CN110569773A (zh) * 2019-08-30 2019-12-13 江南大学 基于时空显著性行为注意力的双流网络行为识别方法
CN111368739A (zh) * 2020-03-05 2020-07-03 东北大学 一种基于双流卷积神经网络的暴力行为识别方法
CN111401270A (zh) * 2020-03-19 2020-07-10 南京未艾信息科技有限公司 一种人体运动姿态识别评价方法及其系统
CN111401177A (zh) * 2020-03-09 2020-07-10 山东大学 基于自适应时空注意力机制的端到端行为识别方法及系统
CN111462183A (zh) * 2020-03-31 2020-07-28 山东大学 一种基于注意力机制双流网络的行为识别方法及系统
CN111709304A (zh) * 2020-05-21 2020-09-25 江南大学 一种基于时空注意力增强特征融合网络的行为识别方法
CN111709351A (zh) * 2020-06-11 2020-09-25 江南大学 基于多径时空特征强化融合的三支流网络行为识别方法
CN111914731A (zh) * 2020-07-28 2020-11-10 上海电力大学 一种基于自注意力机制的多模态lstm的视频动作预测方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN109740419A (zh) * 2018-11-22 2019-05-10 东南大学 一种基于Attention-LSTM网络的视频行为识别方法
CN110096950A (zh) * 2019-03-20 2019-08-06 西北大学 一种基于关键帧的多特征融合行为识别方法
CN110222574A (zh) * 2019-05-07 2019-09-10 杭州智尚云科信息技术有限公司 基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质
CN110569773A (zh) * 2019-08-30 2019-12-13 江南大学 基于时空显著性行为注意力的双流网络行为识别方法
CN111368739A (zh) * 2020-03-05 2020-07-03 东北大学 一种基于双流卷积神经网络的暴力行为识别方法
CN111401177A (zh) * 2020-03-09 2020-07-10 山东大学 基于自适应时空注意力机制的端到端行为识别方法及系统
CN111401270A (zh) * 2020-03-19 2020-07-10 南京未艾信息科技有限公司 一种人体运动姿态识别评价方法及其系统
CN111462183A (zh) * 2020-03-31 2020-07-28 山东大学 一种基于注意力机制双流网络的行为识别方法及系统
CN111709304A (zh) * 2020-05-21 2020-09-25 江南大学 一种基于时空注意力增强特征融合网络的行为识别方法
CN111709351A (zh) * 2020-06-11 2020-09-25 江南大学 基于多径时空特征强化融合的三支流网络行为识别方法
CN111914731A (zh) * 2020-07-28 2020-11-10 上海电力大学 一种基于自注意力机制的多模态lstm的视频动作预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SHAOCAN LIU ET AL: "An End to End Framework With Adaptive", 《IEEE ACCESS》 *
李庆辉 等: "结合有序光流图和双流卷积网络的行为识别", 《光学学报》 *
潘娜 等: "基于时空交互注意力模型的人体行为识别算法", 《激光与光电子学进展》 *
陈芬: "自适应关键帧提取技术研究", 《情报科学》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863356A (zh) * 2022-03-10 2022-08-05 西南交通大学 一种基于残差聚合图网络的群体活动识别方法及系统
CN115131710A (zh) * 2022-07-05 2022-09-30 福州大学 基于多尺度特征融合注意力的实时动作检测方法
CN115272943A (zh) * 2022-09-29 2022-11-01 南通双和食品有限公司 一种基于数据处理的畜牧家禽进食异常识别方法
CN116071809A (zh) * 2023-03-22 2023-05-05 鹏城实验室 一种基于多类表征时空交互的人脸时空表征生成方法
CN116758494A (zh) * 2023-08-23 2023-09-15 深圳市科灵通科技有限公司 一种网联车车载视频智能监控方法及系统
CN116758494B (zh) * 2023-08-23 2023-12-22 深圳市科灵通科技有限公司 一种网联车车载视频智能监控方法及系统
CN117197877A (zh) * 2023-11-07 2023-12-08 山东省工业技术研究院 一种基于区域加权光流特征的微表情识别方法及系统
CN117197877B (zh) * 2023-11-07 2024-03-19 山东省工业技术研究院 一种基于区域加权光流特征的微表情识别方法及系统

Also Published As

Publication number Publication date
CN112434608B (zh) 2023-02-28

Similar Documents

Publication Publication Date Title
CN112434608B (zh) 一种基于双流结合网络的人体行为识别方法及系统
Deng et al. Image aesthetic assessment: An experimental survey
Zhang et al. Hierarchical feature fusion with mixed convolution attention for single image dehazing
CN112597941B (zh) 一种人脸识别方法、装置及电子设备
CN110188239A (zh) 一种基于跨模态注意力机制的双流视频分类方法和装置
CN110110689B (zh) 一种行人重识别方法
Zhou et al. Omnidirectional image quality assessment by distortion discrimination assisted multi-stream network
CN111325165B (zh) 考虑空间关系信息的城市遥感影像场景分类方法
CN112070044B (zh) 一种视频物体分类方法及装置
CN110569814B (zh) 视频类别识别方法、装置、计算机设备及计算机存储介质
WO2022134655A1 (zh) 一种端到端的视频动作检测定位系统
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN112507920B (zh) 一种基于时间位移和注意力机制的考试异常行为识别方法
CN113011329A (zh) 一种基于多尺度特征金字塔网络及密集人群计数方法
Wang et al. Multiscale deep alternative neural network for large-scale video classification
CN113963032A (zh) 一种融合目标重识别的孪生网络结构目标跟踪方法
Zhou et al. FSAD-Net: Feedback spatial attention dehazing network
Sun et al. Learning local quality-aware structures of salient regions for stereoscopic images via deep neural networks
CN115661943A (zh) 一种基于轻量级姿态评估网络的跌倒检测方法
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
CN114842542B (zh) 基于自适应注意力与时空关联的面部动作单元识别方法及装置
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN114612832A (zh) 一种实时手势检测方法及装置
CN110046568A (zh) 一种基于时间感知结构的视频动作识别方法
CN111860691A (zh) 基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant