CN112434608A

CN112434608A - 一种基于双流结合网络的人体行为识别方法及系统

Info

Publication number: CN112434608A
Application number: CN202011332558.1A
Authority: CN
Inventors: 马昕; 刘少参; 李贻斌
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-03-02
Anticipated expiration: 2040-11-24
Also published as: CN112434608B

Abstract

本公开公开的一种基于双流结合网络的人体行为识别方法及系统，包括：获取行人视频并划分帧，提取行人视频中每帧的RGB图像和光流图像；将光流图像和RGB图像输入双流结合模块中，获取关键帧下的RGB‑OF图像；将RGB‑OF图像输入卷积神经网络中对人体行为进行识别；其中，双流结合模块包括关键帧自适应区分模块和基于光流的注意力模块，通过关键帧自适应模块确定关键帧下的光流图像和RGB图像，通过基于光流的注意力模块确定关键帧下RGB图像的空间注意力权重，根据关键帧下的光流图像和RGB图像及关键帧下RGB图像的空间注意力权重，获得关键帧下的RGB‑OF图像。关键帧下的RGB‑OF图像充分整合了RGB图像和光流图像中的动作信息，用于人体行为识别时，具备良好的识别效果。

Description

一种基于双流结合网络的人体行为识别方法及系统

技术领域

本公开涉及图像处理与分析技术领域，尤其涉及一种基于双流结合网络的人体行为识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

人体行为识别是计算机视觉中一项重要而基础的任务，应用范围广泛，包括视频内容分析、视频监控、人机交互等，近年来，随着神经网络的迅速发展，适用于行为识别的特征提取及表征也取得了巨大的进步，然而，由于行为识别固有的复杂性，这项任务仍然极具挑战性。

要准确识别人体各类行为，关键在于有效捕获每一帧视频图像中的静态外观信息以及多帧视频图像之间的时间关联信息，在过去的几十年中，已经逐渐发展出三种典型的行为识别框架：(1)双流CNN，(2)3DCNN，(3)结合LSTM模型的2DCNN。然而，2DCNN与LSTM相结合的模型通常侧重于捕获大范围的模糊时间信息，缺乏在局部时空窗口中表达精细时间关系的能力，3DCNN中的计算量过大，另外，目前尚不明确采用3D卷积核统一处理时空维度的信息是否能有效地表达各种行为的特征。

基于深度卷积神经网络的双流结构在捕获视频中的时空信息方面取得了巨大的成功，在双流结构中，首先对空间流和时间流两个卷积神经网络进行独立训练，然后对二者的结果进行融合，得到最终的预测结果，尽管双流网络具有优越的识别性能，但目前其有以下缺点：

1、训练两个独立的卷积神经网络，既耗费大量的时间，也提高了对硬件设备的要求。

2、复杂的背景会干扰网络训练的过程，与行为无关的背景会在提取的特征中引入噪声，对最终的网络性能产生负面影响。

3、现有双流网络认为视频中不同的图像、同一图像中的不同区域包含等量的行为信息，实际上，视频中不同的图像对于行为识别的重要性并不相同，类似地，同一图像中的不同区域包含的与动作有关的信息也不相等。

以上缺点导致用双流网络进行人体行为识别时，存在计算速度慢、识别效果有限的技术问题。

发明内容

本公开为了解决上述问题，提出了一种基于双流结合网络的人体行为识别方法及系统，通过关键帧自适应区分模块获取了关键帧下的光流图像和RGB图像，通过基于光流的注意力模块确定关键帧下RGB图像的空间注意力权重，根据关键帧下的光流图像和RGB图像及关键帧下RGB图像的空间注意力权重，获得关键帧下的RGB-OF图像，使得关键帧下的RGB-OF图像充分整合了RGB图像和光流图像中的动作信息，有效排除复杂背景中的噪声干扰，将关键帧下的RGB-OF图像作为特征经卷积神经网络进行人体行为识别时，具备良好的识别效果。

为实现上述目的，本公开采用如下技术方案：

在一个或多个实施例中，提出了一种基于双流结合网络的人体行为识别方法，包括：

获取行人视频并划分帧，提取行人视频中每帧的RGB图像和光流图像；

将光流图像和RGB图像输入双流结合模块中，获取关键帧下的RGB-OF图像；

将RGB-OF图像输入卷积神经网络中对人体行为进行识别；

其中，双流结合模块包括关键帧自适应区分模块和基于光流的注意力模块，通过关键帧自适应区分模块确定关键帧下的光流图像和RGB图像，通过基于光流的注意力模块确定关键帧下RGB图像的空间注意力权重，根据关键帧下的光流图像和RGB图像及关键帧下RGB图像的空间注意力权重，获得关键帧下的RGB-OF图像。

进一步的，获得关键帧下的RGB-OF图像的过程为：

根据关键帧下RGB图像的空间注意力权重，计算关键帧下光流图像的掩膜；

对掩膜进行腐蚀操作和膨胀操作，获得

将关键帧下的RGB图像及光流图像分别与

进行加权；

将加权后的RGB图像与光流图像堆叠获得关键帧下的RGB-OF图像。

进一步的，获得关键帧下的RGB-OF图像的过程还可以为：

将关键帧下的RGB图像与光流图像堆叠，获得初始堆叠图像；

根据关键帧下RGB图像的空间注意力权重，计算卷积神经网络中的初始注意力权重；

对初始注意力权重进行卷积操作作为卷积神经网络中每层的注意力权重；

将获取的每层的注意力权重与初始堆叠图像进行加权，获得关键帧下的RGB-OF图像。

在一个或多个实施例中，提出了一种基于双流结合网络的人体行为识别系统，包括：

数据采集模块，采集行人视频并划分帧，并提取行人视频中每帧的RGB图像和光流图像；

双流结合模块，对RGB图像和光流图像进行分析整合，获取关键帧下的RGB-OF图像，其中，双流结合模块包括关键帧自适应区分模块和基于光流的注意力模块，通过关键帧自适应区分模块确定关键帧下的光流图像和RGB图像，通过基于光流的注意力模块确定关键帧下RGB图像的空间注意力权重，根据关键帧下的光流图像和RGB图像及关键帧下RGB图像的空间注意力权重，获得关键帧下的RGB-OF图像；

行为识别模块，将关键帧下的RGB-OF图像输入卷积神经网络中，对人体行为进行识别。

在一个或多个实施例中，提出了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成所述的一种基于双流结合网络的人体行为识别方法的步骤。

在一个或多个实施例中，提出了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成所述的一种基于双流结合网络的人体行为识别方法的步骤。

与现有技术相比，本公开的有益效果为：

1、本公开通过关键帧自适应区分模块获取了关键帧下的光流图像和RGB图像，通过基于光流的注意力模块确定关键帧下RGB图像的空间注意力权重，根据关键帧下的光流图像和RGB图像及关键帧下RGB图像的空间注意力权重，获得关键帧下的RGB-OF图像，使得关键帧下的RGB-OF图像充分整合了RGB图像和光流图像中的动作信息，有效排除复杂背景中的噪声干扰，将关键帧下的RGB-OF图像作为特征经卷积神经网络进行人体行为识别时，具备良好的识别效果。

2、本公开基于关键帧自适应区分模块和基于光流的注意力模块，提出了综合级数据融合方案与层次化数据融合方案，并将两种数据融合方案与原始级数据融合方案进行了实验对比，发现综合级数据融合方案，融合了RGB图像和光流图像，具备最佳的人体行为识别效果。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本公开实施例1中综合级数据融合方案的流程图；

图2为本公开实施例1中层次化数据融合方案的流程图；

图3为原始级数据融合方案；

图4为本公开实施例1综合级数据融合方案时基于光流的注意力模块获得的空间注意力权重可视化；

图5为本公开实施例1层次化数据融合方案时基于光流的注意力模块选择的运动区域；

图6为数据集中的RGB图像和光流图像。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在本公开中，术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，只是为了便于叙述本公开各部件或元件结构关系而确定的关系词，并非特指本公开中任一部件或元件，不能理解为对本公开的限制。

本公开中，术语如“固接”、“相连”、“连接”等应做广义理解，表示可以是固定连接，也可以是一体地连接或可拆卸连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员，可以根据具体情况确定上述术语在本公开中的具体含义，不能理解为对本公开的限制。

实施例1

在该实施例中，公开了一种基于双流结合网络的人体行为识别方法，包括：

将RGB-OF图像输入卷积神经网络中对人体行为进行识别；

进一步的，获得关键帧下的RGB-OF图像的过程为：

对掩膜进行腐蚀操作和膨胀操作，获得

将关键帧下的RGB图像与光流图像分别与

进行加权；

进一步的，获得关键帧下的RGB-OF图像的过程还可以为：

将关键帧下的RGB图像与光流图像堆叠，获得初始堆叠图像；

进一步的，关键帧自适应区分模块确定关键帧下的光流图像和RGB图像的具体过程为：

计算每帧光流图像中任一位置与所有光流图像中任一相同位置平均值的差异程度；

提取差异程度中前m个最大值对应的帧为关键帧；

输出关键帧下的光流图像和RGB图像。

进一步的，计算光流图像中任一位置与所有光流图像中任一相同位置平均值的差异程度的具体过程为：

计算每帧光流图像上任一位置的值；

沿通道维度计算所有光流图像中任一相同位置的平均值；

计算光流图像中任一位置的值与对应的平均值差的绝对值，为光流图像中任一位置与所有光流图像中任一相同位置平均值的差异程度。

进一步的，基于光流的注意力模块确定关键帧下RGB图像的空间注意力权重的具体过程为：

计算关键帧下光流图像中任一位置的值，及关键帧下所有光流图像中任一相同位置的平均值；

计算关键帧下的光流图像中任一位置的值与该位置对应平均值差的绝对值；

将绝对值标准化并进行膨胀操作，获得关键帧下RGB图像的空间注意力权重。

进一步的，通过TVNet网络从RGB图像中提取光流图像。

结合图1-6对一种基于双流结合网络的人体行为识别方法进行具体说明，具体为：

为了解决现有的用于人体行为识别的双流网络存在的运算速度慢、行为识别效果有限的技术问题，在该实施例中提出了一种基于双流结合网络的人体行为识别方法，以更有效、鲁棒的方式来挖掘RGB图像和光流图像中的时空信息，近年来，随着像TVNet和OFF这样可用于提取光流的神经网络的出现，不再需要预先计算、存储光流数据，这样，提取光流和根据光流数据训练神经网络这两个阶段可以简化为一个阶段。尽管如此，在使用双流结构模块捕获视频中的时空信息时，仍然需要分别训练时间、空间两个卷积神经网络。

在此过程中，通过双流结构模块(TSCB)来捕捉视频中的有关动作的静态外观和时序信息，与原始双流结构的后期特征融合方法相比，本实施例中的TSCB能够实现在送入卷积神经网络处理前，将RGB图像和光流图像中的信息进行整合，在TSCB和卷积神经网络的基础上，提出了一种用于人体行为识别的双流结合网络(TSCNet)。

首先，利用TVNet从RGB图像中提取光流图像；然后，根据设计的融合策略，将RGB图像和光流图像进行融合，将RGB图像与光流图像的融合结果称为RGB-OF图像；最后，主ConvNet对RGB-OF图像进行编码，进而预测动作的类别。主ConvNet可以是任何一种卷积神经网络。

为了找到行人视频中的关键帧，并区分出不同的图像区域对行为识别重要性的差别，设计了关键帧自适应区分模块(KFASM)和基于光流的注意力模块(OFAM)，关键帧自适应区分模块(KFASM)用于从视频中提取出对动作识别最关键的图像，该图像为关键帧下的RGB图像和光流图像，基于光流的空间注意力模块(OFAM)根据图像不同区域和运动的关联程度，为关键帧下的RGB图像赋予相应的空间注意力权重，在上述两个模块基础上，通过两种数据融合方案整合视频中包含的时空信息，分别获取了关键帧下的RGB-OF图像，两种数据融合方案分别为：层次化数据融合方案和综合级数据融合方案。

基于综合级数据融合方案构建了用于行为识别的双流组合网络(TSCNet)，该网络能够以端到端的方式，同时从RGB图像和光流图像中捕获视频中的外观和运动信息。

TSCNet充分整合RGB图像和光流图像中的动作信息，有效排除复杂背景中的噪声干扰，能够捕捉到具有区分性的时空特征，此外，TSCNet结构简单，泛化性好，实现灵活。

一、关于双流结合网络，首先给出了两个模块，关键帧自适应区分模块KFASM和基于光流的注意力模块OFAM。

1.1关键帧自适应区分模块

视频中不同的图像包含的有关人体行为的信息通常是不相等的。只有一些关键帧包含最有区别性的信息，其余的则提供上下文信息。如图6所示，我们可以看到大多数光流图像对于行为识别具有重要意义，但也存在一些光流图像中几乎不包含与人体行为相关的信息，如图6中的最后两列。如图6的第2列至第4列所示的光流图像包含了识别行为所需的绝大多数信息，这些光流图像及其对应的RGB图像应当被视为关键帧，从图像序列中区分出来，根据这种认识，设计了关键帧自适应区分模块KFASM，用于从视频中提取出关键帧。具体细节如下：

对于给定的一个包含N帧RGB图像和N帧光流图像的序列，首先对光流图像进行操作，找出关键帧的索引。

首先，获取每个光流图像中任意位置(i,j)的值O_n(i,j)；

其次，沿通道维度计算N帧光流图像中每个位置(i,j)的平均值O_avg(i,j)：

其中，O_avg∈R^H×W，H和W分别表示光流图像的长度与宽度，i＝1,2,...,H，j＝1,2,...,W，O_n(i,j)为n^th光流图像上(i,j)位置处的值。

再次，计算n^th光流图像中(i,j)处的值O_n(i,j)与上述平均值O_avg(i,j)的差值并取绝对值，为光流图像中(i,j)处的值O_n(i,j)与平均值O_avg(i,j)的差异程度，用

表示。

其中，n＝1,2,...,N。

最后，找出

中前m个最大值。

这里，Max{·}表示最大值函数，n₁,n₂,...,n_m表示从序列中提取出的关键帧的索引。

通过关键帧的索引，输出关键帧下的RGB图像和光流图像。

1.2基于光流的注意力模块

在观察现实世界时，人们会对不同的区域给予不同的关注，通常将注意力集中在其感兴趣的信息所在的位置。如图4所示，光流图像上动作相关位置的值与其他位置的值有较大的差异，光流图像不同区域之间的这种数值分布的差异，反映了其与行为识别结果的关联程度，通过适当的处理，作为RGB图像的空间注意力权重。

基于这一认知，结合光流图像的特点，设计了一种基于光流的注意力模块，该模块能够根据关键帧下光流图像中不同区域对识别结果的贡献，为其分配相应的权重，计算获得RGB图像的空间注意力权重的具体过程为：

对于包含N帧光流图像的序列O^N×H×W，根据关键帧自适应区分模块获取的关键帧下的光流图像O_k∈R^H×W(k∈1,...,m)和RGB图像I_k∈R^H×W，计算关键帧下的光流图像O_k任意位置的平均值

计算O_k和

差的绝对值

计算RGB图像的空间注意力权重

1.3结合综合级数据融合方案对双流网络进行说明

综合级的数据融合方案，如图1所示，对于一个包含N帧RGB图像的序列，首先利用TVNet提取光流图像，然后通过KFASM找到关键帧的索引，进而确定关键帧的光流图像和RGB图像，最后，将选定的关键帧的光流图像与RGB图像进行堆叠获得初始堆叠图像，利用OFAM对初始堆叠后的图像进行加权运算，获得关键帧下的RGB-OF图像，将关键帧下的RGB-OF图像输入主ConvNet进行行为识别，利用OFAM对堆叠后的数据进行加权运算，从而使得主ConvNet中特征建模过程聚焦于运动相关区域，同时减少复杂背景中噪声的干扰。

具体的计算过程为：

通过KFASM获取关键帧下的光流图像和RGB图像；

将关键帧下的光流图像和RGB图像堆叠，获得初始堆叠图像；

通过OFAM获取RGB图像的空间注意力权重；

根据RGB图像的空间注意力权重计算初始注意力权重OFAM₀(i,j)：

其中，d₀表示卷积核为2×2，迭代次数为12的膨胀运算，Max{·}与Min{·}分别表示最大值函数、最小值函数；

根据初始注意力权重，依次计算获得主ConvNet中每层卷积层的注意力权重OFAM_m:

OFAM_m＝F_SAW(K_m,OFAM_m-1)＝K_m*OFAM_m-1

其中，*表示卷积操作，OFAM_m-1和OFAM_m分别表示m-1^th和m^th特定卷积层，K_m是m^th特定卷积层的卷积核。

采用卷积操作来实现初始堆叠图像映射的加权，即关键帧下的RGB-OF图像

其中，F_m表示初始堆叠图像，F_scale(F_m,OFAM_m)表示OFAM_m和F_m之间元素相乘，注意m^th特定卷积层中的卷积核的大小与原始ConvNet网络中m^th卷积层中卷积核的大小一致，且参数初始化为1。OFAM₀和OFAM₁的可视化如图4所示。

1.4结合层次化数据融合方案对双流网络进行说明

结合KFASM和OFAM，设计的层次化数据融合方案，直接从光流数据中来探索运动区域并实现背景分离，具体细节如下：

对于包含N张光流图像的序列O^N×H×W，首先通过KFASM从中提取关键帧下的光流图像O_k和关键帧下的RGB图像I_k；

通过OFAM获得RGB图像对应的空间注意力权重

并计算平均值

其中，H和W分别表示RGB图像的高度和宽度。

根据RGB图像对应的空间注意力权重

计算判别式

的值：

其中，Sgn表示符号函数，

表示

中大于

的值的个数，

表示

中小于

的值的个数。

当

时

当

时

其中，H∈R^H×W就是根据光流图像生成的掩膜。

然后，对H分别进行腐蚀操作和膨胀操作：

这里，腐蚀操作e、膨胀操作d₁和膨胀操作d₂核的大小分别为3×3，9×9和5×5，迭代次数分别设置为4、7、4。

最后，将关键帧下的RGB图像I_k和关键帧下的光流图像O_k分别按照

进行加权:

其中,

表示对应元素相乘。加权后的RGB图像

和加权后的光流图像

堆叠获得关键帧下的RGB-OF图像，如图5所示，将获得的关键帧下的RGB-OF图像作为主ConvNet网络的输入进行识别。

二、实验验证

分别采用综合级数据融合方案、层次化数据融合方案与原始级数据融合方案对采集的行人视频进行人体行为识别，实验结果表明，综合级数据融合方案融合了RGB图像和光流图像，获得的识别效果最佳。

其中，原始级数据融合方案具体为，深度图像被可以当作类似于颜色通道的附加通道，作为输入送入卷积神经网络进行编码，每个特征图都是一个包含彩色信息和深度信息的二维数组，在此基础上，将光流图像视为类似于彩色通道的附加通道，设计了一种将RGB图像和光流图像堆叠的原始级数据融合方案，如图3所示，主ConvNet的输入是彩色(RGB)图像与光流图像的堆叠。

本实施例中公开的一种基于双流结合网络的人体行为识别方法，提出了一种新的用于行为识别的双流结合网络(TSCNet)，该网络能够以端到端的方式，同时从RGB图像和光流图像中捕获视频中的外观和运动信息。

设计了一种关键帧自适应区分模块(KFASM)，用于从视频中提取出对动作识别关键的图像，设计了一种基于光流的空间注意力模块(OFAM)，根据图像不同区域与运动的关联程度，为其赋予相应的权重。

基于KFASM和OFAM，设计了综合级数据融合方案与层次化数据融合方案，并将两种数据融合方案与原始级数据融合方案进行了实验对比，发现综合级数据融合方案，融合了RGB图像和光流图像，具备最佳的人体行为识别效果。

实施例2

在该实施例中，公开了一种基于双流结合网络的人体行为识别系统，包括：

双流结合模块，对RGB图像和光流图像进行分析整合，获取关键帧下的RGB-OF图像，其中，双流结合模块包括关键帧自适应区分模块和基于光流的注意力模块，通过关键帧自适应模块确定关键帧下的光流图像和RGB图像，通过基于光流的注意力模块确定关键帧下RGB图像的空间注意力权重，根据关键帧下的光流图像和RGB图像及关键帧下RGB图像的空间注意力权重，获得关键帧下的RGB-OF图像；

实施例3

在该实施例中，公开了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1公开的一种基于双流结合网络的人体行为识别方法的步骤。

实施例4

在该实施例中，公开了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1公开的一种基于双流结合网络的人体行为识别方法的步骤。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种基于双流结合网络的人体行为识别方法，其特征在于，包括：

将RGB-OF图像输入卷积神经网络中对人体行为进行识别；

其中，双流结合模块包括关键帧自适应区分模块和基于光流的注意力模块，通过关键帧自适应模块确定关键帧下的光流图像和RGB图像，通过基于光流的注意力模块确定关键帧下RGB图像的空间注意力权重，根据关键帧下的光流图像和RGB图像及关键帧下RGB图像的空间注意力权重，获得关键帧下的RGB-OF图像。

2.如权利要求1所述的一种基于双流结合网络的人体行为识别方法，其特征在于，获得关键帧下的RGB-OF图像的过程为：

对掩膜进行腐蚀操作和膨胀操作，获得

将关键帧下的RGB图像及光流图像分别与

进行加权；

3.如权利要求1所述的一种基于双流结合网络的人体行为识别方法，其特征在于，获得关键帧下的RGB-OF图像的过程还可以为：

将关键帧下的RGB图像与光流图像堆叠，获得初始堆叠图像；

4.如权利要求1所述的一种基于双流结合网络的人体行为识别方法，其特征在于，关键帧自适应区分模块确定关键帧下的光流图像和RGB图像的具体过程为：

提取差异程度中前m个最大值对应的帧为关键帧；

输出关键帧下的光流图像和RGB图像。

5.如权利要求4所述的一种基于双流结合网络的人体行为识别方法，其特征在于，计算光流图像中任一位置与所有光流图像中任一相同位置平均值的差异程度的具体过程为：

计算每帧光流图像上任一位置的值；

沿通道维度计算所有光流图像中任一相同位置的平均值；

6.如权利要求1所述的一种基于双流结合网络的人体行为识别方法，其特征在于，基于光流的注意力模块确定关键帧下RGB图像的空间注意力权重的具体过程为：

7.如权利要求1所述的一种基于双流结合网络的人体行为识别方法，其特征在于，通过TVNet网络从RGB图像中提取光流图像。

8.一种基于双流结合网络的人体行为识别系统，其特征在于。包括：

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-6任一项所述的一种基于双流结合网络的人体行为识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-6任一项所述的一种基于双流结合网络的人体行为识别方法的步骤。