CN111325253A

CN111325253A - 一种基于深度学习的双流法行为识别方法及系统

Info

Publication number: CN111325253A
Application number: CN202010088264.2A
Authority: CN
Inventors: 马润杰; 杨宇克
Original assignee: Hangzhou Tuya Information Technology Co Ltd
Current assignee: Hangzhou Tuya Information Technology Co Ltd
Priority date: 2020-02-12
Filing date: 2020-02-12
Publication date: 2020-06-23
Anticipated expiration: 2040-02-12
Also published as: CN111325253B

Abstract

本申请公开了一种基于深度学习的双流法行为识别方法，包括：根据光流卷积神经网络训练集，获取光流动作特征；根据RGB流卷积申请网络训练集，获取RGB流动作特征；融合所述光流动作特征及所述RGB流动作特征，获取融合动作特征；根据所述所述光流动作特征、所述RGB流动作特征及所述融合动作特征获取行为类别。与现有技术相比，本申请具有如下有益效果：对图像的光流信息进行采集，光流可以收集到一般的RGB流采集不到的信息，便于更好的提取动作的相关特征。融合一般的RGB流的特征和光流的特征，以便更好的分析时序上的动作的信息。光流为主的设计模式提高了整个模型的效率。

Description

一种基于深度学习的双流法行为识别方法及系统

技术领域

本申请涉及行为识别领域，具体而言，涉及一种基于深度学习的双流法行为识别方法。

背景技术

现有的行为捕捉均采用RGB流捕捉模式。然而现有技术中，正常的行为抖动极难被捕捉，但是抖动的识别又是动作识别中的关键一步。另外现有的行为识别数据集的数量严重不足，因此时序神经网络不能准确的捕捉特征。

发明内容

本申请的主要目的在于提供一种基于深度学习的双流法行为识别方法，包括：

根据光流卷积神经网络训练集，获取光流动作特征；

根据RGB流卷积申请网络训练集，获取RGB流动作特征；

融合所述光流动作特征及所述RGB流动作特征，获取融合动作特征；

根据所述所述光流动作特征、所述RGB流动作特征及所述融合动作特征获取行为类别；

其中，获取光流动作特征时，所述光流动作对应的卷积层与获取RGB流动作特征时，所述RGB流动做对应的卷积层的维数相同。

可选地，根据光流卷积神经网络训练集，获取光流动作特征包括：

获取光流识别图；

通过a个卷积层，提取光流动作特征；

输入所述光流动作特征至第一全连接层，获得第一分类；

在所述第一分类下，输入所述光流动作特征至第二全连接层，获得第二分类，并获得第一分类值；

其中，a为自然数，且所述a个卷积层中的最后一个卷积层与所述RGB流动做对应的卷积层的维数相同。

可选地，获取光流识别图为：获取多组连续的图像帧组，每个图像帧组包括b个连续的图像帧；

提取光流动作特征为：对所述多组图像帧组分别提取所述光流动作特征；

输入所述光流动作特征至第一全连接层，获得第一分类为：分别输入所述多组图像帧组对应的所述光流动作特征至所述第一全连接层，并分别获得第一分类；

在所述第一分类下，输入所述光流动作特征至第二全连接层，获得第二分类为：在所述第一分类下，分别输入所述多组图像帧组对应的所述光流动作特征至所述第二全连接层，并分别获得第二分类，并分别获得所述第一分类值；

其中，b为大于1的自然数。

可选地，根据RGB流卷积申请网络训练集，获取RGB流动作特征包括：

获取RGB流识别图；

通过c个卷积层，提取RGB流动作特征；

输入所述RGB流动作特征至第一全连接层，获得第二分类；

在所述第一分类下，输入所述RGB流动作特征至第二全连接层，获得第二分类，并获得第二分类值；

其中，c为自然数，且所述a个卷积层中的最后一个卷积层与所述所述c个卷积层中的最后一个卷积层的维数相同。

可选地，所述RGB流识别图与第一个所述图像帧组中的第一个所述图像帧相同。

可选地，融合所述光流动作特征及所述RGB流动作特征，获取融合动作特征包括：

将所述a个卷积层中的最后一个卷积层的特征图与所述c个卷积层中的最后一个卷积层的特征图的对应的特征点的特征值相加。

可选地，根据所述所述光流动作特征、所述RGB流动作特征及所述融合动作特征获取行为类别包括：

计算所述多组图像帧组所对应的第一分类值的平均值，并通过归一化获取所述第一分类值的平均值所对应的不同动作的可能性百分比；

通过归一化获取所述第二分类值对应的不同动作的可能性百分比；

训练第三全连接层及第四全连接层；

通过所述第三全连接层及所述第四全连接层获取第三分类值，并归一化获取所述第三分类值对应的不同动作的可能性百分比；

将所述第一分类值的平均值所对应的不同动作的可能性百分比、所述第二分类值对应的不同动作的可能性百分比及所述第三分类值对应的不同动作的可能性百分比中，对应相同动作的百分比相加，获得相同动作的动作值；

判定所述动作值最大的动作为待识别动作的行为类别。

根据本申请的另一个方面，还提供了一种基于深度学习的双流法行为识别系统，包括：

第一获取模块，用于根据光流卷积神经网络训练集，获取光流动作特征；

第二获取模块，用于根据RGB流卷积申请网络训练集，获取RGB流动作特征；

第三获取模块，用于融合所述光流动作特征及所述RGB流动作特征，获取融合动作特征；

判断模块，用于根据所述所述光流动作特征、所述RGB流动作特征及所述融合动作特征获取行为类别；

本申请还公开了一种计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的方法。

本申请还公开了一种计算机可读存储介质，非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现上述任一项所述的方法。

与现有技术相比，本申请具有如下有益效果：

对图像的光流信息进行采集，光流可以收集到一般的RGB流采集不到的信息，便于更好的提取动作的相关特征。

融合一般的RGB流的特征和光流的特征，以便更好的分析时序上的动作的信息。

光流为主的设计模式提高了整个模型的效率。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和有益效果变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请一个实施例的基于深度学习的双流法行为识别方法的流程示意图

图2是根据本申请一个实施例的计算机设备的示意图；以及

图3是根据本申请一个实施例的计算机可读存储介质的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参照图1，本申请一实施例提供了一种基于深度学习的双流法行为识别方法，包括：

S2：根据光流卷积神经网络训练集，获取光流动作特征；

S4：根据RGB流卷积申请网络训练集，获取RGB流动作特征；

S6：融合所述光流动作特征及所述RGB流动作特征，获取融合动作特征；

S8：根据所述所述光流动作特征、所述RGB流动作特征及所述融合动作特征获取行为类别；

本申请一实施例中，根据光流卷积神经网络训练集，获取光流动作特征包括：

获取光流识别图；

通过a个卷积层，提取光流动作特征；

输入所述光流动作特征至第一全连接层，获得第一分类；

本申请一实施例中，获取光流识别图为：获取多组连续的图像帧组，每个图像帧组包括b个连续的图像帧；

其中，b为大于1的自然数。

本申请一实施例中，根据RGB流卷积申请网络训练集，获取RGB流动作特征包括：

获取RGB流识别图；

通过c个卷积层，提取RGB流动作特征；

输入所述RGB流动作特征至第一全连接层，获得第二分类；

本申请一实施例中，所述RGB流识别图与第一个所述图像帧组中的第一个所述图像帧相同。

本申请一实施例中，融合所述光流动作特征及所述RGB流动作特征，获取融合动作特征包括：

本申请一实施例中，根据所述所述光流动作特征、所述RGB流动作特征及所述融合动作特征获取行为类别包括：

训练第三全连接层及第四全连接层；

判定所述动作值最大的动作为待识别动作的行为类别。

本申请的技术方案中，可以包含光流的卷积神经网络训练集的训练步骤和RGB流的卷积神经网络训练集的训练步骤，也可以不包括。当不包括时，该训练步骤可以为预先存储在系统中的，均属于本申请所要求保护的范围内。以下以包括该训练步骤为例。

1)光流：训练时采用图片的光流信息作为输入。由于一个动作的视频包含了多个图像帧(例如50个帧)。因此该光流信息可以包含单个图像帧(50个帧中的某一个)，也可以包含多个图像帧(50个帧中的某几个)，当包含多个图像帧时，这些图像帧可以是连续的(如第1、2、3、4帧)，也可是间隔的(例如第1、3、5、7、9帧)。可以是一组帧，也可以是多组帧。当为多组帧时，这些组之间可以为连续的(例如第1、2、3、4帧；第2、3、4、5帧；第3、4、5、6帧)，也可以是非连续的(例如第1、2、3、4帧；第7、8、9、10帧；第22、23、24、25帧)。最优的，选择连续的，每组包括40个帧的多个帧组，及第1-40帧，第2-41帧，以此类推。考虑二维坐标系下每个相同像素的移动位移所形成的光流图作为输入。移动程度大的我们标记为白，移动程度越深就越白。

对于输入后的光流图，采用5个卷积层提取出特征(并不仅限于5个)。连续接入两个全连接层分类出本身动作的结果。第一个归类到预训练集，该训练集为大类(例如动物、人、物品)，第二个归类到希望得到的动作标签的类别，该类为小类(例如踢腿，行走，站立))，这两个全连接层中都加入防止过拟合的措施(dropout)。最后利用归一化(公知)得到各个类上的一个分数统计，求平均值。

例如，当动作含有50帧，每组有40帧，取10组时，就会等到10组帧。对这10组帧分别进行两个全连接层分类，并得到分类值。例如得到的分类值分别为1，2，3，4，5，6，7，8，9，10。取平均值为5.5。那么该动作多对应的光流分类值即为5.5。根据预设的对照表，光流分类值为5.5所对应的动作为抬腿的可能性为0.2，为张嘴的可能性为0.6，为伸手的可能性为0.2。

2)RGB流：与光流法类似，但是这里对于RGB的输入只是单一的图像，不考虑多张图像。即一次一张，并对应上光流这一连续动作里的第一张图片。仍然是利用5个卷积层提取出特征(并不仅限于5个)，两个全连接层做分类，最后利用一个归一化得到各个类的一个得分。那么假如RGB流分类值为7。根据预设的对照表，其对应的动作为抬腿的可能性为0.4，为张嘴的可能性为0.5，为伸手的可能性为0.1。

3)特征融合：将两个光流和RGB流得到的最后一个卷积层的特征图中的对应的特征点的特征值相加到一起，之后再训练两个新的全连接层的参数，假如通过新的连接层获得的分类值为2。根据预设的对照表，其对应的动作为抬腿的可能性为0.3，为张嘴的可能性为0.3，为伸手的可能性为0.4。由于要融合光流和RGB流，因此二者的最后一层的特征图的维数必须相同。

至此，抬腿对应的可能性之和为0.2+0.4+0.3＝0.9；张嘴对应的可能性之和为0.6+0.5+0.3＝1.4；伸手对应的可能性之和为0.2+0.1+0.4＝0.7。其中1.4最大，那么1.4所对应的动作即为待识别动作的分类，即待识别动作为张嘴。

因为卷积层提取出来的特征为二维的，全连接层的作用一个是将待识别动作的分类一步一步细化，另一个作用是将二维的数据变换成一维的数字，便于与预设的对照表对应。

本申请还提供了一种基于深度学习的双流法行为识别系统，包括：

请参照图2，本申请还提供了一种计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的方法。

请参照图3，一种计算机可读存储介质，非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现上述任一项所述的方法。

一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行上述任一项所述的方法。

与现有技术相比，本申请具有如下有益效果：

光流为主的设计模式提高了整个模型的效率。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于深度学习的双流法行为识别方法，其特征在于，包括：

根据光流卷积神经网络训练集，获取光流动作特征；

根据RGB流卷积申请网络训练集，获取RGB流动作特征；

2.根据权利要求1所述的基于深度学习的双流法行为识别方法，其特征在于，根据光流卷积神经网络训练集，获取光流动作特征包括：

获取光流识别图；

通过a个卷积层，提取光流动作特征；

输入所述光流动作特征至第一全连接层，获得第一分类；

3.根据权利要求2所述的基于深度学习的双流法行为识别方法，其特征在于，获取光流识别图为：获取多组连续的图像帧组，每个图像帧组包括b个连续的图像帧；

其中，b为大于1的自然数。

4.根据权利要求3所述的基于深度学习的双流法行为识别方法，其特征在于，根据RGB流卷积申请网络训练集，获取RGB流动作特征包括：

获取RGB流识别图；

通过c个卷积层，提取RGB流动作特征；

输入所述RGB流动作特征至第一全连接层，获得第二分类；

5.根据权利要求4所述的基于深度学习的双流法行为识别方法，其特征在于，所述RGB流识别图与第一个所述图像帧组中的第一个所述图像帧相同。

6.根据权利要求5所述的基于深度学习的双流法行为识别方法，其特征在于，融合所述光流动作特征及所述RGB流动作特征，获取融合动作特征包括：

7.根据权利要求6所述的基于深度学习的双流法行为识别方法，其特征在于，根据所述所述光流动作特征、所述RGB流动作特征及所述融合动作特征获取行为类别包括：

训练第三全连接层及第四全连接层；

判定所述动作值最大的动作为待识别动作的行为类别。

8.一种基于深度学习的双流法行为识别系统，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，非易失性可读存储介质，其内存储有计算机程序，其特征在于，所述计算机程序在由处理器执行时实现如权利要求1-7中任一项所述的方法。