CN111046821B

CN111046821B - 一种视频行为识别方法、系统及电子设备

Info

Publication number: CN111046821B
Application number: CN201911314727.6A
Authority: CN
Inventors: 郑彩侠; 吕英华; 孔俊; 孙慧; 陈建宇
Original assignee: College Of Humanities & Sciences Of Northeast Normal University
Current assignee: College Of Humanities & Sciences Of Northeast Normal University
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2023-06-20
Anticipated expiration: 2039-12-19
Also published as: CN111046821A

Abstract

本发明涉及视频识别与分析技术领域，公开了一种视频行为识别方法、系统及电子设备。该识别方法首先对获取到的视频进行预处理，调整其视频帧的大小，并提取视频中的光流特征并存储成光流图像；在Resnet残差单元中引入伪3D块，构建空间流分支模型，输入预处理后的所述视频帧，得到所述视频帧的静态外观特征及相邻的所述视频帧之间的交互特征；在所述Resnet残差单元中引入时间卷积，构建时间流分支模型，输入所述光流图像，得到所述视频的运动特征；将所述时间流分支模型与所述空间流分支模型进行融合，构建STINP网络完成视频行为识别。本发明能够提高视频行为识别的有效性和智能化水平。

Description

一种视频行为识别方法、系统及电子设备

技术领域

本发明涉及视频识别与分析技术领域，更具体的说，特别涉及一种视频行为识别方法、系统及电子设备。

背景技术

近年来，随着互联网技术的飞速发展以及数码摄像机、智能手机等视频拍摄设备的迅速普及，网络视频数量呈现爆发式增长。有统计数据指出，每分钟有超过300小时的视频信息被上传到YouTube上。视频的爆炸式增长使得人们无法快速、准确地手工处理和提取视频数据中的有用信息。因此，如何自动识别和分析视频内容在计算机视觉领域引起了广泛的关注，并迅速成为一个具有重要应用价值的研究课题。如在现实生活中，随着智能化设备的不断革新，智慧城市、智慧养老、智慧教育、智慧医疗等理念相继被提出，这些产业的落地无一不需要自动视频识别与分析技术作为基础。

视频行为识别是利用机器学习技术自动识别视频序列中的人类行为，具有良好的学术价值和广阔的应用前景，如视频检索、智能人机界面、智能视频监控、自动驾驶车辆等。但是由于视频中人类行为的运动速度、姿态变化、外观变化以及摄像机视角的不同，视频中的行为识别仍然是一个具有挑战性的任务。

视频行为识别的关键步骤是如何提取有效的时空特性，空域特征主要用于描述视频单帧的全局场景信息和物体外观信息，而时域特征是指视频连续帧中的动态信息。近年来，许多视频行为识别方法被提出，主要分为两类：基于手工设计特征的行为识别和基于深度学习网络的行为识别。基于手工设计特征的方法通常需要检测视频中的时空关键点，然后用局部描述符表示这些关键点，而基于深度学习的方法利用多层网络结构从原始输入中自动地提取高级抽象的时空特征。与基于手工设计特征的方法相比，基于深度学习的方法能够更好地学习视频的判别表示，从而获得更好的行为识别性能。因此，基于深度学习的行为识别方法越来越受到人们的重视。

深度卷积神经网络(Deep Convolutional Neural Networks,CNNs)在静态图像处理领域得到了广泛的应用，并取得了显著的效果。因此，许多研究者尝试将在大型图像数据库ImageNet上预训练好的CNNs引入视频行为识别中，即直接从视频的单帧中学习特征，然后将所有帧的特征融合成一个特征向量作为视频的特征表示。然而，从单帧中学习视频特征并没有充分利用连续帧之间的时间信息，这严重限制了视频识别模型的性能。针对这一局限性，研究人员分别提出了基于双流和3D CNNs架构的深度学习方法，并迅速成为视频行为识别的两大主流架构。

双流CNNs方法采用两个CNNs分别捕获视频的空域外观信息和时域运动信息，并将其融合进行视频行为识别，可以获得较好的性能，且计算效率较高。然而，该方法通过将两个CNNs的softmax层进行后期融合来实现视频时空信息的融合，无法充分捕获视频内在本质的时空特征表示。3D CNNs方法利用3D卷积模块和3D池化操作从堆叠的三维视频帧体块中捕获时空特征。一些研究表明，三维卷积是提取视频时空抽象表示的一种较好的方法。然而，3D CNNs方法通常具有较高的计算复杂度和较大的内存需求，导致算法执行速度很慢。现有技术存在不足。

发明内容

本发明的目的在于针对现有技术存在的技术问题，提供一种视频行为识别方法、系统及电子设备，能够提高视频行为识别的有效性和智能化水平。

为了解决以上提出的问题，本发明采用的技术方案为：

一种视频行为识别方法，该识别方法具体步骤包括如下：

对获取到的视频进行预处理，调整其视频帧的大小，并提取视频中的光流特征存储成光流图像；

在Resnet残差单元中引入伪3D块，构建空间流分支模型，输入预处理后的所述视频帧，得到所述视频帧的静态外观特征及相邻的所述视频帧之间的交互特征；

在所述Resnet残差单元中引入时间卷积，构建时间流分支模型，输入所述光流图像，得到所述视频的运动特征；

将所述时间流分支模型与所述空间流分支模型进行融合，构建STINP网络完成视频行为识别。

进一步地，所述预处理过程中，所述视频帧和光流图像的大小调整为224×224像素。

进一步地，所述构建空间流分支模型具体为，将一个2D卷积和一个1D卷积组合加入到Resnet残差单元，构建两种不同结构的空间流分支模型，包括如下步骤：

步骤S21：将2D卷积和1D卷积并行组合，得到STINP-1空间流分支模型如公式(1)所示：

X_l+1＝f(X_l+cf2(X_l)+cf1(X_l)) (1)

步骤S22：将2D卷积和1D卷积直接相互影响，得到STINP-2空间流分支模型如公式(2)所示：

X_l+1＝f(X_l+cf2(X_l)+cf1(cf2(X_l))) (2)

其中，X_l和X_l+1为残差单元的输入和输出数据，cf1表示1维时间卷积，cf2表示2维空间卷积，f为激活函数ReLU。

进一步地，所述构建时间流分支模型具体为，在所述Resnet残差单元中引入一个1D的时间卷积，并与原有的2D空间卷积串联，构建时间流分支模型如公式(3)所示：

X_l+1＝f(X_l+cf1(cf2(X_l))) (3)。

进一步地，所述构建STINP网络中，将公式(1)和公式(2)所示的两种空间流分支模型各自与公式(3)所示的时间流分支模型采用乘积操作融合，得到所述视频对应于每个行为类别的概率，选择其概率最大对应的类别作为所述视频的识别结果。

进一步地，所述识别方法还包括：

采用随机梯度下降法对构建完成的STINP网络进行参数优化，并在经典视频行为数据库上对其进行测试和对比。

进一步地，所述参数优化过程如下：

进行初始参数设置，具体为：

将初始网络权值设置为在数据库Imagenet上预训练的Resnet网络权值；

将初始学习率设置为0.01，且在学习过程中，当识别误差达到饱和时将学习率的值减小，每次新的学习率值都设置为之前学习率的1/10；

将STINP网络的时间流分支和空间流分支的批大小分别设置为128和256；

采用随机梯度下降法对所述网络权值进行不断的学习和优化，其参数momentum的值设置为0.9，最终得到一组最佳的网络权值。

一种视频行为识别系统，包括：

视频预处理模块：用于对获取到的视频进行预处理，调整其视频帧的大小，并提取视频中的光流特征存储成光流图像；

空间流分支构建模块：在Resnet残差单元中引入伪3D块，构建空间流分支模型，输入预处理后的所述视频帧，得到所述视频帧的静态外观特征及相邻的所述视频帧之间的交互特征；

时间流分支构建模块：在所述Resnet残差单元中引入时间卷积，构建时间流分支模型，输入所述光流图像，得到所述视频的运动特征；

STINP网络构建模块：用于将所述时间流分支模型与所述空间流分支模型进行融合，构建STINP网络完成视频行为识别。

进一步地，所述系统还包括：

参数优化模块：用于对构建完成的STINP网络进行参数优化；

测试对比模块：用于对参数优化后的STINP网络与现存视频识别方法进行测试和对比。

一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述1至7任一项所述的视频行为识别方法的以下操作：

将所述时间流分支模型与所述空间流分支模型进行融合，构建STINP网络完成视频行为识别；

对构建完成的STINP网络进行参数优化，并进行测试和对比。

与现有技术相比，本发明的有益效果在于：

本发明是针对视频行为进行有效识别的一种深度学习网络，构建的STINP网络通过将伪3D块引入到双流结构中，有效地结合了双流和3D结构的优点，能够有效地提取视频的时空特征表示。此外，STINP网络利用乘法操作将时、空分支进行组合，使学习到的时、空特征表示在网络的早期学习阶段直接相互影响，并直接集成到最终的输出层。另外，在STINP网络的空间分支中，采用伪3D结构在残差单元中加入一维时间卷积和二维空间卷积，目的是学习相邻帧之间的交互信息，进一步提高STINP网络在视频行为识别任务中的有效性，使本发明可广泛应用于视频行为识别与分类任务中，也可以为其他视频处理任务提供借鉴与支持。因此，本发明具有良好的性能，也进一步提高了视频行为识别的有效性和智能化水平。

附图说明

图1为本发明视频行为识别方法的流程图。

图2为本发明空间流分支模型的结构图。

图3为本发明时间流分支模型的结构图。

图4为本发明STINP网络的结构图。

图5为本发明视频行为识别系统的原理图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

参阅图1所示，本发明提供一种视频行为识别方法，该识别方法具体步骤包括如下：

步骤a：对获取到的视频进行预处理，调整其视频帧的大小，并提取视频中的光流特征存储成光流图像。

本步骤中，视频帧和光流图像的大小均调整为224×224像素，其尺寸是参考了深度网络提取出的特征图的大小和大部分视频数据库中视频帧的大小，而选择出来的一个适合深度网络对视频帧(图像)进行特征提取的一个尺寸。

步骤b：在Resnet残差单元中引入伪3D块，构建空间流分支模型，输入预处理后的视频帧，得到视频帧的静态外观特征及相邻的视频帧之间的交互特征。

本步骤b中构建空间流分支模型具体为，将一个2D卷积(cf2)和一个1D卷积(cf1)组合加入到Resnet残差单元，构建两种不同结构的空间流分支模型，并将其分别命名为STINP-1空间流分支模型和STINP-2空间流分支模型。具体包括如下：

步骤S21：将2D卷积(cf2)和1D卷积(cf1)并行组合(结构细节如图2a所示)，可以确保2D时间卷积和1D空间卷积都能直接影响空间分支的输出，但二者之间不会直接相互影响，得到STINP-1空间流分支模型如公式(1)所示：

X_l+1＝f(X_l+cf2(X_l)+cf1(X_l)) (1)；

步骤S22：将2D卷积(cf2)和1D卷积(cf1)直接相互影响(结构细节如图2b所示)，并分别和同时直接影响空间分支的最终输出，得到STINP-2空间流分支模型如公式(2)所示：

X_l+1＝f(X_l+cf2(X_l)+cf1(cf2(X_l))) (2)

本步骤b中，图2所示为空间流分支模型，其中W_l,2(1*3*3)和W_1,3(3*1*1)分别代表加入到Resnet网络中的2D卷积和1D卷积，⊙代表采用的乘法融合；每层W(1*1*1)代表原Resnet网络中的各层卷积操作，

代表加法操作，ReLU代表激活函数。由于ResNets网络可以有效地从图像(视频帧)中提取特征，将其作为外观分支的底层架构，并通过将伪3D块引入到ResNets网络中来构建STINP网络的空间流分支结构。伪3D块通过将2D时间卷积滤波器和1D空间卷积滤波器组合来模拟3D卷积结构。具体来说，本发明是在原始ResNets模型的残差单元中添加适当的时间卷积滤波器来增强网络，即构建的公式(1)和(2)改进现有的伪3D块进行描述，不仅能够捕捉单帧的外观特征，同时也能捕捉相邻帧之间的交互特征。

步骤c：在Resnet残差单元中引入时间卷积，构建时间流分支模型，输入光流图像，得到视频的运动特征。

本步骤c中构建时间流分支模型具体为，引入一个1D的时间卷积并与原有的2D空间卷积串联(具体结构如图3所示)，构建时间流分支模型，如公式(3)所示：

X_l+1＝f(X_l+cf1(cf2(X_l))) (3)

本步骤c中，使用预先计算好的光流图像作为时间流分支的输入，具体来说，在原始ResNets网络的残差单元加入一个1D时间卷积(cf1)，并将其与原来的2D空间卷积串联得到公式(3)，可以从多张光流图像中捕获抽象密集的动态信息作为视频的运动特征。光流图像是对视频进行光流特征提取得到的结果图，例如可以从10帧视频中提取一张光流图像，其内容代表视频中的运动信息，不再是原始的视频。此外，由于视频中有些东西是不变的，如背景和其中的一些物体(即在每帧中这些东西都是一样的，包括位置和形态不变)，但人在视频中走或者做其他动作是运动的(即人体的位置和姿势形态在不同视频帧中是变化的)，运动特征就是把视频中这些变化的信息提取出来，而这些变化信息(运动特征)正是识别人行为类别的关键信息。

上述中，步骤b和步骤c为本发明提供的一种实施例，两者可以同时进行，也可以先进行步骤c再进行步骤b，即可以先构建时间流分支模型再构建空间流分支模型，所起到的效果是一样的。

步骤d：将时间流分支模型与空间流分支模型进行融合，构建STINP网络完成视频行为识别。

本步骤d中，将公式(1)和公式(2)所示的两种不同结构的空间流分支模型各自与公式(3)所示的时间流分支模型采用乘积操作融合，得到的网络分别记为STINP-1网络和STINP-2网络，两个网络的细节如图4a和图4b所示。

为了同时有效地学习单帧图像的外观表示、多帧图像之间的交互特征以及光流图像的运动表示，本发明将空间流分支和时间流分支融合形成最终的STINP网络。具体来说，步骤b中空间流分支模型输出静态的视频帧的外观特征和交互特征，步骤c中时间流分支模型输出视频的动态运动特征，两个分支模型用乘积操作进行交互使其相互影响构建STINP网络，即用时间流分支上最后一个残差单元的输出乘以空间流分支上当前残差单元的输入，如图4中(☉)所示。由于两个分支模型最后分别输出相应的2048维的特征向量，将两个特征向量相结合对视频进行分类，得到视频对应于各个行为类别的概率，然后选择概率最大对应的那个类别作为该视频的识别结果，即认为该视频属于概率最大的那类。

优选的，上述特征向量相结合采用将特征向量输入softmax层对视频分类，或者其他向量结合的方式。

上述中，采用乘积操作进行融合可以使网络学习过程中各残差单元的时、空分支相互作用，避免了像双流网络一样进行后期特征融合的缺点。同时，乘法融合操作可以使运动特征对外观特征进行加权，避免了外观特征学习主导网络学习，这有利于行为识别，运动信息对行为的分类通常更具鉴别性。

步骤e：对构建完成的STINP网络进行参数优化，即分别对所构建的STINP-1网络和STINP-2网络进行参数优化，并进行测试和对比。

本步骤e中，采用随机梯度下降法(也可以采用其它参数优化方法)分别对两个STINP-1网络和STINP-2网络进行参数优化，具体优化过程如下：

(1)对网络进行初始参数设置具体为：

1)将STINP网络的初始网络权值设置为在数据库Imagenet上预训练的Resnet网络权值；

2)将STINP网络的初始学习率设置为0.01，且在网络学习过程中，当网络识别误差达到饱和时将学习率的值减小，每次新的学习率值都设置为之前学习率的1/10；

3)将STINP网络的时间流分支和空间流分支的批大小(batch size)分别设置为128和256。

(2)采用随机梯度下降法(该随机梯度下降法的参数“momentum”的值设置为0.9)对网络权值进行不断的学习和优化，直到得到一组最佳的权值，使得网络的识别率达到最好。

通过上述对STINP网络的优化过程，可以获得网络的最优权值，可以提高视频行为识别的准确率，即找到一组最佳的网络权值，并得到最高的识别准确率。

本步骤e中，在经典视频行为数据库上对构建完成的STINP网络进行测试，并将其与一些现存的比较优良的视频识别方法进行对比。对比结果表明本发明提出的STINP网络具有较好的性能，优于其他对比方法。

下面通过实验进一步说明上述记载的视频行为识别方法的内容和有益效果：

1.两种网络结构STINP-1和STINP-2的性能对比，具体如下：

本发明通过将1D卷积滤波器和2D卷积滤波器以不同的方式结合，提出了两种不同的空间分支结构。因此，提出的STINP网络有两种不同的架构，分别称为网络模块STINP-1和STINP-2，如图4所示。为了评估这两个网络模块STINP的性能，分别在UCF101和HMDB51数据集上进行了比较。UCF 101数据集包含13320个来自101类别的真实动作视频。HMDB51数据集包含51个类别的6849个视频，每个类别至少有101个视频。实验采用两个数据库官方提供的三次数据划分(分别给出了训练、验证和测试集图像索引)测试算法，并计算平均识别准确率。此外，本发明还评估了STINP网络中每个分支的识别精度，结果如表1所示。从表1中可以总结出以下几点：

1)网络模块STINP-1和STINP-2有差不多的性能，如STINP-1对UCF101和HMDB51的平均识别准确率分别为93.4％和66.7％，而STINP-2对UCF101和HMDB51的平均识别准确率分别为93.0％和67.1％。即这两个网络模块虽然两个卷积模块的结合方式不同，但其均可以有效地捕获视频帧内的外观特性和相邻帧之间的关系特性。

2)与仅采用一个分支的模型相比，结合时间流和空分流支可以大大提高视频行为识别的准确性。例如，空间分支和时间分支在UCF 101上的识别率分别为84.5％和86％，但是当使用乘法操作将两个分支融合成STINP网络时，获得的最高准确率为93.4％，比仅使用单一分支的模型提高约7％-9％。

3)一般来说，时间分支比空间分支的识别效果更好，这是因为运动信息对行为识别更重要。

表1.STINP-1和STINP-2结构对比结果

综上所述，构建两个分支分别学习空间和时间信息是合理的，并且STINP-1和STINP-2都可以在视频中实现良好的行为识别性能。因此，当处理实际任务时，可以根据实际数据选择用对应的网络结构。

2.与现有其他视频行为识别网络模型对比

将本发明提出的STINP网络分别与大量现有的基于2D CNNs架构的方法和基于3DCNNs架构的视频行为识别方法进行对比。在这个对比实验中，本发明采用经典视频行为数据集UCF101和HMDB51作为实验数据集。

(1)与基于3D CNNs架构的视频行为识别模型进行对比，结果如表2所示。从表2可以看出，与其它基于3D CNNs的方法相比，本发明提出的STINP具有更好的性能。这是因为STINP将伪3D结构引入ResNets的残差单元中构建空间分支，并通过乘法运算将空间分支与时间分支结合起来。也就是说，将双流网络和伪3D架构融合到一个结构框架中。因此，本发明提出的STINP能够得到如下效果：

1)不仅能够提取视频中的外观特征和运动线索，还能够同时捕获相邻帧之间的关系信息。

2)采用乘法融合操作可以使空间和时间信息可以在网络学习的整个过程中相互影响，即在网络学习过程中，提取时间和空间信息时是相互考虑彼此的，不是各自提取各自的，这样可以得到最佳的时-空联合信息(类似于可以学习到最佳的时间和空间信息的组合，两者可以相互补充，并取得最佳的视频行为识别效果，进而避免了双流网络的不能真正学习到视频的时空信息的缺点)。

表2对比我们的方法STINP-1与其它基于3D CNNs的识别方法

(2)与基于2D CNNs模型的视频行为识别方法进行对比，结果如表3所示。从表3可以看出，本发明提出的STINP的平均识别准确率仍然普遍高于基于2D CNNs的对比方法。

表3对比我们的方法与其它基于2D CNNs的识别方法

基于2D CNNs的视频行为识别方法	UCF101	HMDB51
			IDT	86.40％	61.70％
Spatiotemporal ConvNet	65.40％	—
			Two-Stream ConvNet	88.0％	59.40％
Long-term recurrent ConvNet	82.90％	—
			Composite LSTM Model	84.30％	44.00％
Two-Stream+LSTM	88.60％	—
			TDD+IDT	91.50％	65.90％
Conv Fusion	92.50％	65.40％
			Dynamic Image Nets	76.90％	42.80％
Dynamic Image Nets+IDT	89.10％	65.20％
			Transformations	92.40％	62.00％
VideoLSTM+IDT	92.20％	64.90％
			Hierarchical Attention Nets	92.70％	64.30％
Spatiotemporal Multiplier ConvNet(Resnet50)	91.70％	61.20％
			P3D ResNets	88.60％	—
STINP-1	93.40％	66.70％

综上所述，本发明针对视频行为识别提出的STINP网络，可以结合两个主流网络即双流网络和3D网络结构的优势进行视频识别，并改善两者的缺点，即步骤b中通过融入了伪3D结构，可以利用3D结构的优势并能避免其计算量大、耗时的缺点，步骤d中用乘积操作将时间流分支和空间流分支融合可以利用双流网络结构的优势，同时避免了原始双流结构仅采用时-空信息后融合的缺点(不能在网络学习的过程中真正融合时空信息)，因此本发明能更充分的对视频中的时空信息进行学习，从而取得了更好了的视频行为识别效果。

参阅图5所示的视频行为识别系统原理图，本发明还提供一种视频行为识别系统，该识别系统包括：

视频预处理模块：用于对获取到的视频进行预处理，调整其视频帧的大小，并提取视频中的光流特征存储成光流图像；视频帧和光流图像的大小均调整为224×224。

空间流分支构建模块：用于在Resnet残差单元中引入伪3D块，构建空间流分支模型，输入预处理后的视频帧，得到视频帧的静态外观特征及相邻的视频帧之间的交互特征。具体包括如下：

将2D卷积(cf2)和1D卷积(cf1)并行组合(结构细节如图2a所示)，可以确保2D时间卷积和1D空间卷积都能直接影响空间分支的输出，但二者之间不会直接相互影响，得到STINP-1空间流分支模型如公式(1)所示：

X_l+1＝f(X_l+cf2(X_l)+cf1(X_l)) (1)

将2D卷积(cf2)和1D卷积(cf1)直接相互影响(结构细节如图2b所示)，并分别和同时直接影响空间分支的最终输出，得到STINP-2空间流分支模型如公式(2)所示：

X_l+1＝f(X_l+cf2(X_l)+cf1(cf2(X_l))) (2)

其中，X_l和X_l+1为残差单元的输入和输出数据，cf1表示1维时间卷积，cf2表示2维空间卷积，f为激活函数。

时间流分支构建模块：用于在Resnet残差单元中引入时间卷积，构建时间流分支模型，输入光流图像，得到视频的运动特征。

具体为：在Resnet残差单元中引入一个1D的时间卷积，并与原有的2D空间卷积串联(具体结构如图3所示)，构建时间流分支模型，如公式(3)所示：

X_l+1＝f(X_l+cf1(cf2(X_l))) (3)。

STINP网络构建模块：用于将时间流分支模型与空间流分支模型进行融合，构建STINP网络完成视频行为识别。

具体为：将公式(1)和公式(2)所示的两种不同结构的空间流分支模型各自与公式(3)所示的时间流分支模型采用乘积操作融合，得到的网络分别记为STINP-1网络和STINP-2网络。

参数优化模块：用于构建完成的STINP网络进行参数优化，即分别对STINP-1网络和STINP-2网络进行参数优化。具体地，采用随机梯度下降法(也可以采用其它参数优化方法)分别对两个STINP-1网络和STINP-2网络进行参数优化。

本发明提供的视频行为识别方法的硬件设备结构包括一个或多个处理器以及存储器。以一个处理器为例，该设备还可以包括：输入系统和输出系统。

处理器、存储器、输入系统和输出系统可以通过总线或者其他方式连接，优选以通过总线连接。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例的处理方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入系统可接收输入的数字或字符信息，以及产生信号输入。输出系统可包括显示屏等显示设备。

一个或者多个模块存储在存储器中，当被一个或者多个处理器执行时，执行上述任一方法实施例的以下操作：

步骤a：对获取到的视频进行预处理，调整其视频帧的大小，并提取视频中的光流特征存储成光流图像；

步骤b：在Resnet残差单元中引入伪3D块，构建空间流分支模型，输入预处理后的视频帧，得到视频帧的静态外观特征及相邻的视频帧之间的交互特征；

步骤c：在Resnet残差单元中引入时间卷积，构建时间流分支模型，输入光流图像，得到视频的运动特征；

步骤d：将时间流分支模型与空间流分支模型进行融合，构建STINP网络完成视频行为识别；

步骤e：对构建完成的STINP网络进行参数优化，并进行测试和对比。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例提供的方法。

本申请实施例提供了一种非暂态(非易失性)计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行以下操作：

本申请实施例提供了一种计算机程序产品，计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行以下操作：

本发明提出的一种视频行为识别方法、系统及电子设备，即提出一种深度学习网络称为时空交互深度网络(简记为STINP网络)。首先，STINP网络包含两个分支，即空间流分支和时间流分支，这两个分支均是基于ResNets网络构建的，可以同时学习视频的时空信息；其次，将伪3D块集成到残差单元中，构建STINP网络的空间流分支，使空间流分支既能学习视频中物体和场景的外观特征，又能捕获连续帧之间潜在的交互信息。同时，将一个1D时间卷积加入Resnets网络的残差单元中构建STINP网络的时间流分支。最后，采用了简单而有效的乘法运算来融合空间流分支和时间流分支，保证了在STINP网络的整个训练过程中，学习到的时空特征表示能够真正交互。大量的实验和对比结果表明，本发明具有良好的性能而且优于现有的相关方法，适用于自动驾驶、智能视频监控和视频检索等实际应用领域。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种视频行为识别方法，其特征在于：该识别方法具体步骤包括如下：

所述构建空间流分支模型具体为，将一个2D卷积和一个1D卷积组合加入到Resnet残差单元，构建两种不同结构的空间流分支模型，包括如下步骤：

步骤S21：将2D卷积和1D卷积并行组合，得到STINP－1空间流分支模型如公式(1)所示：

X_l+1＝f(X_l+cf2(X_l)+cf1(X_l)) (1)

步骤S22：将2D卷积和1D卷积直接相互影响，得到STINP－2空间流分支模型如公式(2)所示：

X_l+1＝f(X_l+cf2(X_l)+cf1(cf2(X_l))) (2)

其中，X_l和X_l+1为残差单元的输入和输出数据，cf1表示1维时间卷积，cf2表示2维空间卷积，为激活函数ReLU。

2.根据权利要求1所述的视频行为识别方法，其特征在于：所述预处理过程中，所述视频帧和光流图像的大小调整为224×224像素。

3.根据权利要求1所述的视频行为识别方法，其特征在于：所述构建时间流分支模型具体为，在所述Resnet残差单元中引入一个1D的时间卷积，并与原有的2D空间卷积串联，构建时间流分支模型如公式(3)所示：

X_l+1＝f(X_l+cf1(cf2(X_l))) (3)。

4.根据权利要求3所述的视频行为识别方法，其特征在于：所述构建STINP网络中，将公式(1)和公式(2)所示的两种空间流分支模型各自与公式(3)所示的时间流分支模型采用乘积操作融合，得到所述视频对应于每个行为类别的概率，选择其概率最大对应的类别作为所述视频的识别结果。

5.根据权利要求4所述的视频行为识别方法，其特征在于：所述识别方法还包括：

6.根据权利要求5所述的视频行为识别方法，其特征在于：所述参数优化过程如下：

进行初始参数设置，具体为：

7.一种视频行为识别系统，其特征在于：包括：

STINP网络构建模块：用于将所述时间流分支模型与所述空间流分支模型进行融合，构建STINP网络完成视频行为识别；

构建所述空间流分支模型的方法具体为，将一个2D卷积和一个1D卷积组合加入到Resnet残差单元，构建两种不同结构的空间流分支模型，包括如下步骤：

X_l+1＝f(X_l+cf2(X_l)+cf1(X_l)) (1)

X_l+1＝f(X_l+cf2(X_l)+cf1(cf2(X_l))) (2)

8.根据权利要求7所述的视频行为识别系统，其特征在于：所述系统还包括：

参数优化模块：用于对构建完成的STINP网络进行参数优化；

9.一种电子设备，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，所述存储器存储有可被一个所述处理器执行的指令，所述指令被至少一个所述处理器执行，以使至少一个所述处理器能够执行如所述权利要求1至6任一项所述的视频行为识别方法。