CN110298332A

CN110298332A - 行为识别的方法、系统、计算机设备和存储介质

Info

Publication number: CN110298332A
Application number: CN201910604800.7A
Authority: CN
Inventors: 畅威; 叶春杨; 周辉
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2019-10-01

Abstract

本申请涉及一种行为识别的方法、系统、计算机设备和存储介质。方法包括：获取待识别的视频；对待识别的视频进行处理提取图片信息和人体姿态信息；将图片信息和人体姿态信息输入预先训练的双流卷积神经网络，获得图像特征和人体姿态特征；将图像特征和人体姿态特征进行注意力融合；对融合后的图像特征和人体姿态特征进行分析，计算每个行为类别之间的相对概率；选择相对概率最高的行为类别为行为的预测值，预测值用于确定行为。上述方法采用双流卷积神经网络，在神经网络的空间流中输入RGB图片，时域流中输入人体姿态信息，不需要计算光流信息，大大减少了计算量以及计算成本；另外，还采用了注意力融合技术，能进一步提高识别的准确率。

Description

行为识别的方法、系统、计算机设备和存储介质

技术领域

本申请涉及图形处理及行为识别技术领域，特别是涉及一种行为识别的方法、系统、计算机设备和存储介质。

背景技术

近年来，视频和图像成为互联网中越来越重要的信息载体，同时视频监控也越来越多的承担起了公共场所内的安全保障，如果使用计算机视觉技术主动识别分析视频中人类的行为就成为了如今研究的热点。传统的行为识别之中，需要手工提取特征，特征的识别效果很大程度上依赖特征设计者的经验。但随着卷积神经网络的出现可以通过数据自动学习出可用的特征，从而得到了广泛应用。另外，卷积神经网络深度和复杂度的不断加深，行为识别的准确率也越来越高，但仍然和人类的表现有明显的差距。视频中行为识别正确率的提升受光照条件各异、视角多样、背景复杂、类内变化大等诸多因素的影响。

双流卷积神经网络是一种常用的行为识别的方法，但该方法中光流信息的计算复杂度很高。因此，人们经常用前后十帧作为光流信息，这样对于每个的运动能够捕获的信息可能会过长或是过短，从而导致识别的准确度低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够解决的问题的行为识别的方法、系统、计算机设备和存储介质。

一种行为识别的方法，所述方法包括：

获取待识别的视频；

对所述待识别的视频进行处理提取图片信息和人体姿态信息；

将所述图片信息和所述人体姿态信息输入预先训练的双流卷积神经网络，获得图像特征和人体姿态特征；

将所述图像特征和所述人体姿态特征进行注意力融合；

对融合后的图像特征和人体姿态特征进行分析，计算每个行为类别之间的相对概率；

选择所述相对概率最高的行为类别为行为的预测值，所述预测值用于确定行为。

在其中一个实施例中，所述预先训练的双流卷积神经网络的训练方法，包括：

采用图像分类数据集上预训练密集连接的双流卷积神经网络；

以所述预训练密集连接的双流卷积神经网络作为初始参数，在视频数据集中提取的RGB图像上微调空间网络；

以微调后的所述空间网络作为初始参数，在视频数据集中提取的人体姿态图像上微调时域网络；

以微调后的所述空间网络的参数和微调后的所述时域网络的参数作为双流卷积神经网络的初始参数，固定网络流的卷积层参数，在视频数据集上训练所述双流卷积神经网络的融合层，得到所述预先训练的双流卷积神经网络。

在其中一个实施例中，所述图片信息包括图片帧；对所述待识别的视频进行处理提取图片信息和人体姿态信息的步骤中，包括：

将所述待识别的视频剪裁成图片帧。

在其中一个实施例中，对所述待识别的视频进行处理提取图片信息和人体姿态信息的步骤中，还包括：

对所述图片帧进行处理，提取人体姿态信息。

在其中一个实施例中，在提取所述姿态信息的步骤之前，还包括：

对所述图片帧进行预处理，去除所述图片帧的背景信息。

在其中一个实施例中，将所述图像特征和所述人体姿态特征进行注意力融合的步骤中，包括：

计算所述图像特征和所述人体姿态特征的权重。

在其中一个实施例中，通过以下方法计算所述图像特征和所述人体姿态特征的权重：

e_i＝ω^Ta_i，其中，λ_i表示第i个输入向量的权重，a_i＝{a₁，a₂，···，a_n}表示输入向量序列，a_i表示所述图像特征或所述人体姿态特征，c表示通过对输入向量序列求期望值来计算出的输出向量，ω是和输入向量维度相同的可学习参数。

一种行为识别系统，所述系统包括：

视频获取模块，用于获取待识别的视频；

信息提取模块，用于对所述待识别的视频进行处理提取图片信息和人体姿态信息；

特征提取模块，用于将所述图片信息和所述人体姿态信息输入预先训练的双流卷积神经网络，获得图像特征和人体姿态特征；

注意力融合模块，用于将所述图像特征和所述人体姿态特征进行注意力融合；

相对概率计算模块，用于对融合后的图像特征和人体姿态特征进行分析，计算每个行为类别之间的相对概率；

预测值确定模块，用于选择所述相对概率最高的行为类别为行为的预测值，所述预测值用于确定行为。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待识别的视频；

将所述图像特征和所述人体姿态特征进行注意力融合；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待识别的视频；

将所述图像特征和所述人体姿态特征进行注意力融合；

上述行为识别的方法、系统、计算机设备和存储介质，首先获取待识别的视频，对视频进行处理提取图片信息和人体姿态信息，然后将图片信息和人体姿态信息输入预先训练的双流卷积神经网络，得到图像特征和人体姿态特征；将图像特征和人体姿态特征进行注意力融合，对融合后的图像特征和人体姿态特征进行分析计算每个行为类别之间的相对概率，最后选择相对概率最高的行为类别为行为的预测值，该预测值可以用来确定认为。上述的行为识别的方法，采用双流卷积神经网络，在神经网络的空间流中输入RGB图片，时域流中输入人体姿态信息，不需要计算光流信息，大大减少了计算量以及计算成本；另外，还采用了注意力融合技术，能进一步提高识别的准确率。

附图说明

图1为一实施例行为识别的方法应用环境的示意图；

图2为一个实施例中行为识别的方法的应用环境图；

图3为一个实施例中行为识别的方法的流程示意图；

图4为一个实施例中双流卷积神经网络的结构示意图；

图5为另一个实施例中密集连接的双流卷积神经网络的结构示意图；

图6为一个实施例中图片帧和人体姿态信息的示意图；

图7为另一实施例中的注意力融合的结构示意图；

图8为一个实施例中采用本发明的行为识别的方法对HMDB-51和UCF-101数据集进行测试的结果图；

图9为一个实施例中行为识别系统的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本方法运用于图1的终端102中，终端可以是个人计算机、笔记本电脑等，终端102与检测设备104进行通讯连接，检测设备104可以是视频采集器、摄像机等。

其中，终端102与检测设备104采用本地接口连接时，检测设备104可以将采集的待识别的视频发送至终端102中。另外，终端102也可以通过指令获取检测设备104中测量的待识别的视频。

在一个实施例中，如图2所示，提供了一种行为识别的方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤S202，获取待识别的视频；

其中，待识别的视频为任何需要进行行为识别的视频；视频可来源于监控设备、摄像设备等。另外，行为识别是指对视频中人物的行为动作进行分类，从而来人物的行为，例如跑、跳、走、招手、微笑等。

步骤S204，对待识别的视频进行处理提取图片信息和人体姿态信息；

图片信息通常是指视频中的RGB图像；人体姿态信息主要检测人体的一些关键点，如关节，五官等，通过关键点描述人体姿或形态。人体姿态包括2D人体姿态和3D人体姿态；在本实施例中，采用2D人体姿态信息，可以减少计算的复杂度。人体姿态信息通常采用人体姿态估计确定。

步骤S206，将图片信息和人体姿态信息输入预先训练的双流卷积神经网络，获得图像特征和人体姿态特征；

其中，双流卷积神经网络是指具有两个独立的网络流(空间流和时域流)的神经网络算法；空间流输入的是RGB图像，它主要作用是从行为的表面特征入手识别一些和行为相关的表面特征(appearance)；时域流输入的光流堆，即多帧光流叠加一起，用于学习视频中行为的时域信息，其作用是捕捉行为中的运动信息；时域的网络结构与空间网络结构一致，之后对两个网络流的结构融合，从而得到最终的预测结构，即最终两个网络在softmax层融合，softmax层的输出为每个行为类别发生的概率。

在本实施例中，预先训练的双流卷积神经网络是采用图像分类数据集(例如ImageNet、CIFAR-100)中的图像对双流卷积神经网络进行预训练，得到神经网络的相关参数，利用这些相关参数从而得到预先训练的双流卷积神经网络。然后将图片信息和人体姿态信息输入预先训练的双流卷积神经网络即可得到图像特征和人体姿态特征。

步骤S208，将图像特征和人体姿态特征进行注意力融合；

步骤S210，对融合后的图像特征和人体姿态特征进行分析，计算每个行为类别之间的相对概率；

步骤S212，选择相对概率最高的行为类别为行为的预测值，预测值用于确定行为。

注意力融合，又叫注意力机制(attentionMechanism)，是指为了能够准确的找到图像中感兴趣的主题区域，不依赖人的先验知识自动的通过网络去标记每个区域的权重大小(即注意力权重)，并把这些注意力权重叠加到神经网络卷积层的特征中，得到最后图片深度特征表达，这样提取的特征更有权重，突出物体所在的区域，得到我们更加想关注的特征表达(即注意力机制)。在本实施例中，对图像特征和人体姿态特征进行融合时选择注意力机制，在融合完成后，计算每个行为类别发生的概率，即相对概率；选择相对概率最高的行为类别为行为的预测值，然后根据预测值即可确定行为。

上述行为识别的方法，首先获取待识别的视频，对视频进行处理提取图片信息和人体姿态信息，然后将图片信息和人体姿态信息输入预先训练的双流卷积神经网络，得到图像特征和人体姿态特征；将图像特征和人体姿态特征进行注意力融合，对融合后的图像特征和人体姿态特征进行分析计算每个行为类别之间的相对概率，最后选择相对概率最高的行为类别为行为的预测值，该预测值可以用来确定认为。上述的行为识别的方法，采用双流卷积神经网络，在神经网络的空间流中输入RGB图片，时域流中输入人体姿态信息，不需要计算光流信息，大大减少了计算量以及计算成本；另外，还采用了注意力融合技术，能进一步提高识别的准确率。

在其中一个实施例中，如图3所示，预先训练的双流卷积神经网络的训练方法，包括：

步骤S302，采用图像分类数据集上预训练密集连接的双流卷积神经网络；

步骤S304，以预训练密集连接的双流卷积神经网络作为初始参数，在视频数据集中提取的RGB图像上微调空间网络；

步骤S306，以微调后的空间网络作为初始参数，在视频数据集中提取的人体姿态图像上微调时域网络；

步骤S308，以微调后的空间网络的参数和微调后的时域网络的参数作为双流卷积神经网络的初始参数，固定网络流的卷积层参数，在视频数据集上训练双流卷积神经网络的融合层，得到预先训练的双流卷积神经网络。

具体的，图4为双流卷积神经网络结构示意图；双流卷积神经网络包括两个网络结构，采用图像信息(即视频帧)和人体姿态信息(即姿态估计)分别作为两个独立的网络进行训练；其中网络结构中包括卷积、隐含层、池化、连接和融合,其中在融合时采用记忆力融合，最后形成输出层(SoftMax)。

在本实施例中，首先需要对该双流卷积神经网络进行学习训练。为了进一步提高双流卷积神经网络的性能，采用密集连接网络的双流卷积神经网络，例如：Googlenet、BNInception和ResNet。其中，密集连接网络在保证网络中层与层之间最大程度的信息传输的前提下，直接将所有层连接起来。传统的前馈神经网络将第l^th层层的输出作为第(l+1)^th层的输入，转换形式：X_l＝H_l(X_l-1)；残差网络增加了一个跳远连接块，用非线性变换代替恒等函数：X_l＝H_l(X_l-1)+X_l-1；为了提高层与层之间的信息流动，密集连接网络将之前的所有层直接连接到后续的层。图5是密集连接网络的示意图(在本实施例以BN Inception为例)，第l^th层接收前面所有层的特征图X₀，….X_l-1作为输入：X_l＝H_l([X₀,X₁,…,X_l-1])，[X₀,X₁,…,X_l-1]表示将0到l-1层的输出特征图直接相连。

在模型训练时，为了提高训练的速率，可以采用图像分类数据集上预训练密集连接的双流卷积神经网络；其中图像分类数据集包括ImageNet、CIFAR-100；ImageNet是一个计算机视觉系统识别项目名称，是目前世界上图像识别最大的数据库，是美国斯坦福的计算机科学家，模拟人类的识别系统建立的。CIFAR-100数据集包含100小类，每小类包含600个图像，其中有500个训练图像和100个测试图像。采用标准图像分类数据集中的图像来对双流卷积神经网络进行预训练，可以减少训练次数，效率高而计算量小。

在预训练完成后，以预训练密集连接的双流卷积神经网络作为初始参数，在视频数据集中提取的RGB图像上微调空间网络；以微调后的空间网络作为初始参数，在视频数据集中提取的人体姿态图像上微调时域网络；其中，视频数据集包括HMDB-51和UCF-101；HMDB-51是行为识别方向用于判断视频分类模型准确度的一个很经典常用数据量，包含6849段视频剪辑，51个人类动作类别，每类动作至少包含101段视频剪辑；动作主要分为五类：常见的面部动作：微笑、大笑、咀嚼、交谈；面部操作与对象操作：抽烟、吃、喝；常见的肢体动作：侧手翻、拍手、爬、爬楼梯、跳、落在地板上、反手翻转、倒立、跳、拉、推、跑、坐下来、坐起来、翻跟头、站起来、转身、走、波；与对象交互动作：梳头、抓、抽出宝剑、运球、高尔夫、打东西、球、挑、倒、推东西、骑自行车、骑马、射球、射弓、枪、摆棒球棍、剑锻炼、扔；人类交互之间的肢体动作：击剑、拥抱、踢某人、亲吻、拳打、握手、剑战。UCF-101是一个人类动作视频数据，从YouTube上剪辑的101类真实世界中的不同种类人类动作视频，动作包括：眼部化妆、涂口红、射箭、婴儿爬行、平衡木、乐队、棒球场、篮球投篮、篮球扣篮、卧推、自行车、台球球、吹干头发、吹蜡烛、体重深蹲、保龄球、拳击沙袋、拳击袋、蛙泳、刷牙、挺举、悬崖跳水、板球保龄球、板球拍、厨房、潜水、击鼓、击剑切割、曲棍球点球、体操，飞盘接住、爬泳、高尔夫挥杆、发型、链球、锤击、倒立俯卧撑、散步，头部按摩、跳高、骑马、冰上舞蹈、标枪、杂耍球、跳绳、跳杰克、针织、跳远、弓步、阅兵、拖地、尼姑夹头、比萨折腾、弹吉他、弹钢琴、打手鼓，小提琴，大提琴、演奏、都玩、吹笛、撑竿跳高、拉、冲、漂流、攀岩、划船、刮胡子、铅球、滑板、滑雪、跳伞、足球杂耍、足球点球、吊环、相扑、冲浪、秋千、乒乓球、太极拳、网球摆、掷铁饼、跳蹦蹦床、打字、排球扣球、走墙俯卧撑、板书等。上述视频数据集数据种类多且齐全，采用上述数据集对空间网络和时域网络进行微调，得到的网络结构更加精确。

对空间网络和时域网络进行微调之后，以微调后的空间网络的参数和微调后的时域网络的参数作为双流卷积神经网络的初始参数，固定网络流的卷积层参数，在视频数据集上训练双流卷积神经网络的融合层，得到预先训练的双流卷积神经网络。在该过程中，主要是确定SoftMax层；在确定SoftMax层主要是采用损失函数来判断函数的神经网络的收敛性，当收敛时，结束运算，得到SoftMax层值。在本实施例中，采用交叉熵作为损失函数：其中是预测的类别，y_i表示第i^th段视频的正确标签用one-hot向量；N表示数据集中视频的数量。

采用上述的模型训练方式，一方面能快速使模型收敛，提高运行速度；另一方面，训练的结果更加准确。

在其中一个实施例中，图片信息包括图片帧；对待识别的视频进行处理提取图片信息和人体姿态信息的步骤中，包括：将待识别的视频剪裁成图片帧。

具体的，图片信息为图片帧，对待识别的视频进行处理得到图像信息即为对待识别的视频进行裁剪，生成一幅幅图像帧(如图6所示，上部分图片)。

在其中一个实施例中，对待识别的视频进行处理提取图片信息和人体姿态信息的步骤中，还包括：对图片帧进行处理，提取人体姿态信息。

人体姿态信息主要是从图片帧中提取，在提取过程中通常采用人体姿态估计算法，例如采用基于深度学习的人体姿态估计算法来进行人体姿态估计。在本实施例中，采用OpenPose深度学习网络从图片帧中提取人体姿态信息。该方法简单易行(如图6所示，下部分图片)。

在其中一个实施例中，在提取姿态信息的步骤之前，还包括：对图片帧进行预处理，去除图片帧的背景信息。

由于人体具有相当的柔性，会出现各种姿态和形状，人体任何一个部位的微小变化都会产生一种新的姿态，同时其关键点的可见性受穿着、姿态、视角等影响非常大，而且还面临着遮挡、光照、雾等环境的影响，2D人体关键点或3D人体关键点在视觉上会有明显的差异，身体每个部位都会有视觉上缩短的效果。因此，在进行2D人体姿态信息提取时，首先对图片帧进行预处理，去除图片帧中的复杂背景，例如光照、雾等。

在其中一个实施例中，将图像特征和人体姿态特征进行注意力融合的步骤中，包括：计算图像特征和人体姿态特征的权重。

具体的，在对图像特征和人体姿态特征进行融合时，计算各自的权重，并将这些权重叠加到卷积层的特征中；其中，权重越大代表该特征越重要；上述的对融合后的特征分配不同的权重，使得双流卷积神经网络更加关注到对越策更有用的特征，进一步提高了预测的准确性。

在其中一个实施例中，通过以下方法计算图像特征和人体姿态特征的权重：

e_i＝ω^Ta_i，其中，λ_i表示第i个输入向量的权重，a_i＝{a₁，a₂，···，a_n}表示输入向量序列，a_i表示图像特征或人体姿态特征，c表示通过对输入向量序列求期望值来计算出的输出向量，ω是和输入向量维度相同的可学习参数。其中，注意力权重本质上是一个SoftMax层，其结构如图7是注意力融合结构，其中全连接层为1000(即FC＝1000)。

效果实施例

为了验证本发明中行为识别的方法的效果，给出一个效果实施例。在HMDB-51和UCF-101两个数据集上测试了本发明中行为识别的方法，在验证过程中的网络参数设置和输入数据格式在两个数据集上都相同。实验中输入数据的大小均为224×224，密集连接网络采用四个密集连接块，每个块中的层数相同。此外，我们对密集连接网络做了微调，去掉全连接层，将最后一层经过平均池化的特征作为输出。之后将两组特征直接相连，引入注意力机制，最后经过SoftMax层得到分类结果。用Adadelta作为优化器更新参数以获得更好的收敛性，它的默认初始学习率为1，可以根据渐变更新的移动窗口调整学习率。从UCF-101数据集中取出两类数据：运动类(俯卧撑，跳水，射箭等)和人与物交互类(化妆，刷牙，做饭等)作为测试数据，探索人体姿态估计对行为识别的影响。结果如图8所示，经过试验发现在运动类中，人体姿态估计的效果好于图片帧的输入。虽然在两类数据中人体姿态估计的加入均可以提升模型的效果，但是对于运动类更明显。例如图8可以观察到人体姿态信息可以很清楚的描述打高尔夫这一动作，但是在化妆这一动作上效果略差。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在每个的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种行为识别系统，包括：

视频获取模块902，用于获取待识别的视频；

信息提取模块904，用于对待识别的视频进行处理提取图片信息和人体姿态信息；

特征提取模块906，用于将图片信息和人体姿态信息输入预先训练的双流卷积神经网络，获得图像特征和人体姿态特征；

注意力融合模块908，用于将图像特征和人体姿态特征进行注意力融合；

相对概率计算模块910，用于对融合后的图像特征和人体姿态特征进行分析，计算每个行为类别之间的相对概率；

预测值确定模块912，用于选择相对概率最高的行为类别为行为的预测值，预测值用于确定行为。

在其中一个实施例中，包括：

预训练模块，用于采用图像分类数据集上预训练密集连接的双流卷积神经网络；

空间网络微调模块，用于以预训练密集连接的双流卷积神经网络作为初始参数，在视频数据集中提取的RGB图像上微调空间网络；

时域网络微调模块，用于以微调后的空间网络作为初始参数，在视频数据集中提取的人体姿态图像上微调时域网络；

预先训练的双流卷积神经网络获得模块，用于以微调后的空间网络的参数和微调后的时域网络的参数作为双流卷积神经网络的初始参数，固定网络流的卷积层参数，在视频数据集上训练双流卷积神经网络的融合层，得到预先训练的双流卷积神经网络。

在其中一个实施例中，图片信息包括图片帧；信息提取模块包括图片帧剪裁模块：

图片帧剪裁模块，用于将待识别的视频剪裁成图片帧。

在其中一个实施例中，信息提取模块还包括姿态信息提取模块：

姿态信息提取模块，用于对图片帧进行处理，提取人体姿态信息。

在其中一个实施例中，还包括：

背景去除模块，用于对图片帧进行预处理，去除图片帧的背景信息。

在其中一个实施例中，注意力融合模块包括权重计算模块：

权重计算模块，用于计算图像特征和人体姿态特征的权重。

在其中一个实施例中，权重计算模块，还用于通过以下方法计算图像特征和人体姿态特征的权重：

e_i＝ω^Ta_i，其中，λ_i表示第i个输入向量的权重，a_i＝{a₁，a₂，···，a_n}表示输入向量序列，a_i表示图像特征或人体姿态特征，c表示通过对输入向量序列求期望值来计算出的输出向量，ω是和输入向量维度相同的可学习参数。

关于行为识别系统的具体限定可以参见上文中对于行为识别的方法的限定，在此不再赘述。上述行为识别系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储电阻等效模型、等效子模型的数据，以及存储执行计算时得到的等效电阻、工作电阻以及接触电阻。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种行为识别的方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有每个的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取待识别的视频；对待识别的视频进行处理提取图片信息和人体姿态信息；将图片信息和人体姿态信息输入预先训练的双流卷积神经网络，获得图像特征和人体姿态特征；将图像特征和人体姿态特征进行注意力融合；对融合后的图像特征和人体姿态特征进行分析，计算每个行为类别之间的相对概率；选择相对概率最高的行为类别为行为的预测值，预测值用于确定行为。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：采用图像分类数据集上预训练密集连接的双流卷积神经网络；以预训练密集连接的双流卷积神经网络作为初始参数，在视频数据集中提取的RGB图像上微调空间网络；以微调后的空间网络作为初始参数，在视频数据集中提取的人体姿态图像上微调时域网络；以微调后的空间网络的参数和微调后的时域网络的参数作为双流卷积神经网络的初始参数，固定网络流的卷积层参数，在视频数据集上训练双流卷积神经网络的融合层，得到预先训练的双流卷积神经网络。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将待识别的视频剪裁成图片帧。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对图片帧进行处理，提取人体姿态信息。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对图片帧进行预处理，去除图片帧的背景信息。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：计算图像特征和人体姿态特征的权重。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：通过以下方法计算图像特征和人体姿态特征的权重：

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取待识别的视频；对待识别的视频进行处理提取图片信息和人体姿态信息；将图片信息和人体姿态信息输入预先训练的双流卷积神经网络，获得图像特征和人体姿态特征；将图像特征和人体姿态特征进行注意力融合；对融合后的图像特征和人体姿态特征进行分析，计算每个行为类别之间的相对概率；选择相对概率最高的行为类别为行为的预测值，预测值用于确定行为。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：采用图像分类数据集上预训练密集连接的双流卷积神经网络；以预训练密集连接的双流卷积神经网络作为初始参数，在视频数据集中提取的RGB图像上微调空间网络；以微调后的空间网络作为初始参数，在视频数据集中提取的人体姿态图像上微调时域网络；以微调后的空间网络的参数和微调后的时域网络的参数作为双流卷积神经网络的初始参数，固定网络流的卷积层参数，在视频数据集上训练双流卷积神经网络的融合层，得到预先训练的双流卷积神经网络。

在在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将待识别的视频剪裁成图片帧。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对图片帧进行处理，提取人体姿态信息。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对图片帧进行预处理，去除图片帧的背景信息。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：计算图像特征和人体姿态特征的权重。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：通过以下方法计算图像特征和人体姿态特征的权重：

本领域普通技术人员可以理解实现实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种行为识别的方法，其特征在于，所述方法包括：

获取待识别的视频；

将所述图像特征和所述人体姿态特征进行注意力融合；

2.根据权利要求1所述的方法，其特征在于，所述预先训练的双流卷积神经网络的训练方法，包括：

3.根据权利要求1所述的方法，其特征在于，所述图片信息包括图片帧；对所述待识别的视频进行处理提取图片信息和人体姿态信息的步骤中，包括：

将所述待识别的视频剪裁成图片帧。

4.根据权利要求3所述的方法，其特征在于，对所述待识别的视频进行处理提取图片信息和人体姿态信息的步骤中，还包括：

对所述图片帧进行处理，提取人体姿态信息。

5.根据权利要求4所示的方法，其特征在于，在提取所述姿态信息的步骤之前，还包括：

对所述图片帧进行预处理，去除所述图片帧的背景信息。

6.根据权利要求1-5任一项所述的方法，其特征在于，将所述图像特征和所述人体姿态特征进行注意力融合的步骤中，包括：

计算所述图像特征和所述人体姿态特征的权重。

7.根据权利要求6所述的方法，其特征在于，通过以下方法计算所述图像特征和所述人体姿态特征的权重：

e_i＝ω^Ta_i，

其中，λ_i表示第i个输入向量的权重，a_i＝{a₁，a₂，···，a_n}表示输入向量序列，a_i表示所述图像特征或所述人体姿态特征，c表示通过对输入向量序列求期望值来计算出的输出向量，ω是和输入向量维度相同的可学习参数。

8.一种行为识别系统，其特征在于，所述系统包括：

视频获取模块，用于获取待识别的视频；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。