CN113936175A

CN113936175A - 一种识别视频中的事件的方法及系统

Info

Publication number: CN113936175A
Application number: CN202111200475.1A
Authority: CN
Inventors: 杨华; 赵洪田; 林焕
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2022-01-14

Abstract

本发明公开了一种识别视频中的事件的方法及系统。所述方法包括：基于神经网络获取视频中各帧的静态特征；基于空间注意力机制网络获取各静态特征对应的空间交互关系特征；基于时域注意力机制网络获取空间交互关系特征集对应的时空交互关系特征；基于时空交互关系特征构建时空交互关系图，并通过图卷积神经网络获得时空交互关系图的特征；基于时空交互关系特征和时空交互关系图的特征识别视频中的事件。本发明的方案，提高了识别视频中的事件的准确率和效率。

Description

一种识别视频中的事件的方法及系统

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种识别视频中的事件的方法及系统、计算机设备、计算机可读存储介质。

背景技术

随着计算机、图像采集设备、无线传输技术的飞速发展，视频已经成为日常生活中接触最多的流媒体形式。视频监控是一种防范能力较强的综合系统，是安全防范系统的重要组成部分。视频监控以其直观、准确、及时和信息内容丰富而广泛应用于许多场合。例如，城市中的监控摄像头可以捕获不同场景的监控视频。然而，虽然监控摄像头可以捕获海量的监控视频，却没有与之对应的监管审核能力，很多时候还需要通过人力进行甄别。因此对于视频监控的安防系统，在完成监控摄像头的普及后，更需要通过计算机视觉方法智能识别、分析理解视频内容、视频中真正活动的目标(智能视频分析)，进而对海量的监控视频做初步的筛查，从而减轻监察审核人员的工作量，提高监控视频审核的准确率和效率。

深度学习的不断进步，以及互联网技术的发展和智能终端的普及，智能视频分析成为了计算机视觉领域的研究热点。而智能视频分析中的异常事件检测(从视频序列中发现由监控目标，如人或汽车等引起的和期望事件模型差别较大的事件)则成为了智能监控系统中的核心任务之一。

一般来讲，智能视频分析涉及动作识别、实例分割等，而对视频中的异常事件进行识别是识别任务中最具挑战性的。这是因为：事件的持续时间是不确定的，不同事件的持续时间分布差别很大；事件中的场景与环境多变而复杂；事件中涉及的对象多种多样。因此，许多在动作识别或行为识别任务上表现优秀的模型，对于事件识别任务无法取得理想的结果。

因此，如何能够准确且高效的识别出视频中的事件，成为目前亟待解决的问题之一。

发明内容

本发明提供一种识别视频中的事件的方法、系统、计算机设备及计算机可读存储介质，以在不同的场景中准确、高效的识别出视频中的事件。

本发明提供一种识别视频中的事件的方法，包括：

基于神经网络获取视频中各帧的静态特征；

基于空间注意力机制网络获取各静态特征对应的空间交互关系特征；

基于时域注意力机制网络获取空间交互关系特征集对应的时空交互关系特征；

基于时空交互关系特征构建时空交互关系图，并通过图卷积神经网络获得时空交互关系图的特征；

基于时空交互关系特征和时空交互关系图的特征识别视频中的事件。

可选的，所述识别视频中的事件的方法，还包括：

对各帧的静态特征进行分块和空间位置嵌入；

所述基于空间注意力机制网络获取各静态特征对应的空间交互关系特征包括：以类别标记和进行了分块和空间位置嵌入的一帧静态特征作为空间注意力机制网络的输入以获得该帧静态特征对应的空间交互关系特征。

可选的，基于时域注意力机制网络获取空间交互关系特征集对应的时空交互关系特征包括：

对空间交互特征集进行时域位置嵌入；

以类别标记和进行了时域位置嵌入的空间交互特征集作为时域注意力机制网络的输入以获得空间交互特征集对应的时空交互关系特征。

可选的，基于时空交互关系特征构建时空交互关系图包括：

对时空交互关系特征进行线性变换以获得时空交互关系图的节点的特征；

基于线性变换后的节点特征之间距离的倒数获得时空交互关系图的邻接矩阵。

可选的，所述基于时空交互关系特征和时空交互关系图的特征识别视频中的事件包括：

对时空交互关系特征和时空交互关系图的特征执行残差操作后，基于多层感知机层和分类层对视频中的事件进行识别。

可选的，所述视频中各帧为视频中的关键帧，所述识别视频中的事件的方法还包括：

对采集到的视频以预设帧数进行采样以获得第一帧序列；

基于聚类方法从所述第一帧序列中提取关键帧并舍弃同一聚类中与该关键帧相似的相似帧以获得第二帧序列；

从所述第二帧序列中选取连续的多帧以获得关键帧序列。

本发明还提供一种识别视频中的事件的系统，包括：

神经网络，用于获取视频中各帧的静态特征；

空间注意力机制网络，用于获取各静态特征对应的空间交互关系特征；

时域注意力机制网络，用于获取空间交互关系特征集对应的时空交互关系特征；

构建单元，用于基于时空交互关系特征构建时空交互关系图；

图卷积神经网络，用于获得时空交互关系图的特征；

识别单元，用于基于时空交互关系特征和时空交互关系图的特征识别视频中的事件。

本发明还提供一种计算机设备，包括至少一个处理器、以及至少一个存储器，其中，所述存储器存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器能够执行上述的识别视频中的事件的方法。

本发明还提供一种计算机可读存储介质，当所述存储介质中的指令由设备内的处理器执行时，使得所述设备能够执行上述的识别视频中的事件的方法。

与现有技术相比，本发明实施例具有如下至少一种有益效果：

本发明上述的识别视频中的事件的方法，首先，基于神经网络获取视频中各帧的静态特征。然后，基于空间注意力机制网络获取各静态特征对应的空间交互关系特征，基于时域注意力机制网络获取空间交互关系特征集对应的时空交互关系特征，基于时空交互关系特征构建时空交互关系图，并通过图卷积神经网络获得时空交互关系图的特征。最后，基于时空交互关系特征和时空交互关系图的特征识别视频中的事件。由于先通过神经网络获取了视频中各帧的静态特征，提取了图像的结构信息，故避免了视频中各帧在空间域的局部信息的损失。在获取了视频中各帧的静态特征后，采用自适应注意力机制的网络(空间注意力机制网络和时域注意力机制网络)来提取视频中各帧的时空交互关系特征，因此可以对视频中包含的对象、环境、行为、概念及交互实现自适应显示表征和融合，获取视频帧中最具有表征性的时空交互关系特征。进而基于该时空交互关系特征构建时空交互关系图时，该时空交互关系图可以显示地表征视频中层语义，最后通过图卷积神经网络对该时空交互关系图的特征进行提取时，可以进一步的提取视频中层语义的交互关系，实现语义信息在更深层次上地逻辑推理，使得后续在基于时空交互关系特征和时空交互关系图的特征对视频中的事件进行识别时，可以避免因语义特征不明显而导致的分类错误，进而提高了识别视频中的事件的准确率，另外由于无需再通过人工的方式对视频中的事件进行核查，因此也在很大程度上提高了对视频中事件识别的效率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例的识别视频中的事件的方法的流程示意图；

图2为本发明实施例的获取静态特征对应的空间交互关系特征的过程示意图；

图3为本发明实施例的时域注意力机制网络的结构示意图；

图4为本发明实施例的识别视频中的事件的过程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

正如现有技术中描述的目前对于智能视频分析中涉及的事件识别，如：识别潜在或正在进行的违法犯罪事件，对视频按照要求进行审核等。现有的识别模型在识别准确度和识别速度上都有所欠缺，识别结果不理想。参见图1，图1为本发明实施例的识别视频中的事件的方法的流程示意图，如图1所示，所述识别视频中的事件的方法包括：

S101：基于神经网络获取视频中各帧的静态特征。

S102：基于空间注意力机制网络获取各静态特征对应的空间交互关系特征。

S103：基于时域注意力机制网络获取空间交互关系特征集对应的时空交互关系特征。

S104：基于时空交互关系特征构建时空交互关系图，并通过图卷积神经网络获得时空交互关系图的特征。

S105：基于时空交互关系特征和时空交互关系图的特征识别视频中的事件。

执行S101，通过神经网络获取视频中各帧的静态特征。所述静态特征可以是每帧图像中的形状、颜色、纹理等底层特征。具体地，本实施例中可以通过深度卷积神经网络(DCNN，Deep Convolutional Neural Networks)如：ResNet18，ResNet34，ResNet50来对输入的视频帧图像进行多层卷积等运算来提取各视频帧的静态特征X_i，i＝1,2,...,N。

本实施例中，为了提高识别视频中事件的速度和准确度，可以仅对采集到的视频中的关键帧中的事件进行识别，该关键帧为包含了视频中的有效信息的帧，对于不同场景和不同的需求而言，有效信息的认定也有所不同，实际应用时可以根据实际需求而定。本实施例中可以通过以下方式获取采集到的视频中的关键帧：

首先：对采集到的视频以预设帧数进行采样以获得第一帧序列。具体地，可以根据预设帧数F_count确定采样率，本实施例中设定在1000帧中采样的预设帧数F_count∈[65,74]，则采样率

以采样率f对采集到的视频进行采样，得到采样后的帧序列F_sample即第一帧序列，本实施例中，为了降低计算量和便于后续神经网络对视频帧的处理，可以将第一帧序列中的每一帧图像的高和宽缩放为[256,320]。

然后：基于聚类方法从所述第一帧序列中提取关键帧并舍弃同一聚类中与该关键帧相似的相似帧以获得第二帧序列。具体地，可以设置初始化阙值k＝0.9，(k为相邻两帧之间相似度的衡量参数)，以从第一帧序列F_sample中提取关键帧，在提取到关键帧后舍弃同一聚类中与该关键帧相似的相似帧以得到第二帧序列。由于上一步中设定了预设帧数F_count∈[65,74]，因此，提取到的第二帧序列中关键帧的数量

应满足

故在提取关键帧(获得第二序列)的过程中，若关键帧的数量

不满足前述条件，则需要不断的调整阙值k，并根据调整后的新的阙值k来重新从第一帧序列F_sample中提取关键帧，舍弃与其相似的相似帧来获得第二帧序列，直至第二帧序列中关键帧的数量满足

本实施例中，为了舍弃同一聚类中与该关键帧相似的相似帧，可以设置0.2≤k≤1.0。本实施例中，当k＝1时，则表示视频中的每帧都保留下来了，如果此时关键帧的数量

未达到f*65，则会通过插值的方式使得关键帧的数量达到f*65，当k＝0.2时，表示在进行聚类采样时，已经最大的舍弃了相似帧，保留下来的帧都是具有代表性的帧，若此时关键帧的数量

超过了f*74，则会根据实际需求丢弃某些帧，以使得关键帧的数量达到f*74。

最后，从所述第二帧序列中选取连续的多帧，本实施例中可以选取连续的64帧作为关键帧序列，为了降低计算量且便于后续神经网络对视频帧的处理，本实施例中，可以对关键帧序列中的每一帧进行裁剪，具体地，对于每一帧而言，可以从较短的边来确定随机裁剪起点，将每一帧的尺寸裁剪为[224,224]，将裁剪后的关键帧序列F＝[F₁,F₂,F₃,...,F_N]作为最终输入神经网络的关键帧序列。

执行S102，基于空间注意力机制网络获取各静态特征对应的空间交互关系特征。在一实施例中，具体地，在通过S101获取了视频中的关键帧的静态特征X_i后，可以先对各关键帧的静态特征X_i进行分块，然后对分块后的X_i进行空间位置嵌入以获得输入空间注意力机制网络的输入序列

其中，i＝1,2,3,...,N，n为划分后的特征图的块数。本实施例中，为了降低计算量，提高获取各静态特征对应的空间交互关系特征过程中的处理效率，对进行了分块和空间位置嵌入的每一关键帧，在空间位置嵌入的初始位置加入CLS类别标记，用来表征空间注意力机制网络提取后的语义信息，然后将CLS和

作为空间注意力机制网络的输入，以通过空间注意力机制网络获得各关键帧的静态特征对应的空间交互关系特征

所有关键帧的静态特征对应的空间交互关系特征组成了空间交互关系特征集

参见图2，图2为本发明实施例的获取静态特征对应的空间交互关系特征的过程示意图。如图2所示，通过深度卷积神经网络提取到的视频帧(关键帧)的静态特征X_i经过分块和空间位置嵌入后获得输入序列

即

对于每一帧的关键帧，在空间位置嵌入的初始位置加入CLS类别标记(图2中输入空间Transformer之前每一帧右侧方框示意为CLS类别标记，另外图2中经过分块和位置嵌入后的每一帧也为空间Transformer的输入，图2中未示出)并将二者作为空间Transformer的输入以获得各关键帧的静态特征对应的空间交互关系特征

将空间交互特征进行均值化和池化操作后输入至时域Transformer。

执行S103，基于时域注意力机制网络获取空间交互关系特征集对应的时空交互关系特征。在一实施例中，为了便于时域注意力机制网络对空间交互特征集进行处理，先对空间注意力机制网络输出的空间交互关系特征进行均值化和池化以降低

的维度。然后对空间交互关系特征集合

进行时域位置嵌入，得到

在时域位置嵌入的初始位置加入CLS类别标记，然后将CLS和X^ST作为时域注意力机制网络的输入，以通过时域注意力机制网络获得空间交互关系特征集对应的时空交互关系特征R^ST。本实施例中，时域注意力机制网络的结构可以为Pre-LN Transformer。参见图3，图3为本发明实施例的时域注意力机制网络的结构示意图。图3中，左图为时域注意力机制网络的结构示意图，中间的图为多头注意力模块的结构示意图，右图为缩放点积注意力模块的结构示意图。本实施例中，时域注意力机制网络可以包括归一化层、L个注意力模块和前馈神经网络。具体地，注意力模块可以为多头注意力模块。第一层注意力模块的输入为经过了归一化的输入特征，第一层注意力模块的输出和输入特征做残差连接后作为第一层的输出。第一层的输出经过归一化后作为第二层注意力模块的输入，第二层注意力模块的输出和第一层的输出做残差连接后作为第二层的输出，依次类推，直至获得第L层的输出。第L层的输出经过归一化后输入前馈神经网络，前馈神经网络的输出和第L层的输出做残差连接后的输出即为时域注意力机制网络的输出。

继续参见图3中中间的图，多头注意力模块包括多个并行的缩放点积注意力模块。每一个缩放点积注意力模块的结构示意图如图3中的右图所示，缩放点积注意力模块的输入是Query，Key和Value三个矩阵(Query元素用于切分查询，Key元素用于全局匹配度的计算，Value用于表征每个维度的特征)。一般来讲，第一次输入时，可以设置Q＝K＝V，根据设置的head的数量n将Q，K，V在最后一个维度上进行划分，得到切分后的：Q＝[q₁ q₂ ...q_i...q_n]^T,K＝[k₁ k₂ ...k_i... k_n]^T,V＝[v₁ v₂ ...v_i... v_n]^T，对于每一个q_i，将其与K^T进行矩阵点乘，从而计算q_i与全局特征的匹配程度，经由放缩(Scale)和Softmax操作后与V再进行点乘，得到Attention()函数：

同理将Q与K^T进行矩阵点乘，经由放缩和Softmax后与V再进行点乘，得到对应Attention()函数：

本实施例中，时域Transformer采用了Pre-LN Transformer结构，故在输入注意力模块前，归一化层会先根据K的维度d_k对输入的Q,K,V进行处理，因此，缩放点积注意力模块的注意力函数最终为：

由上述以及图3可知多头注意力模块包括多个并行的缩放点积注意力模块，继续参见图3，缩放点积注意力模块对Q,K,V矩阵进行参数映射，随后对h个缩放点积注意力模块分别进行计算，并将计算结果进行拼接和线性变换以获得多头注意力模块的输出。在多头注意力模块中，每一个head的Attention()函数都是上述提及的缩放点积注意力模块的最终的Attention()函数，可以表示为：

其中，

为输入特征的映射参数矩阵，因此，一个多头注意力模块的输出可以表示为：Multihead＝Concat(head₁,head₂,...,head_h)，故特征矩阵经过一个多头注意力模块后会得到一个与原输入矩阵维度相同的特征矩阵。本实施例中，将

输入至时域Transformer(L个多头注意力模块)后获得的时空交互关系特征

其中，B为输入的批大小，N￠为输入片段的帧数N加上时域CLS标记的位置嵌入，故有N￠＝N+1，C为输出特征维度。本实施例中，空间注意力机制网络采用的结构也可以为Pre-LN Transformer，此处不再赘述。

执行S104，在通过S103获得了时空交互关系特征R^ST后，基于时空交互关系特征R^ST构建时空交互关系图G^ST，然后再通过图卷积神经网络获得时空交互关系图G^ST的特征。本实施例中，时空交互关系图G^ST可以表示为G^ST＝(V,A)，其中，节点V＝Value＝φ_V(R^ST)，φ_V为线性变换，节点V∈R^N′×C。邻接矩阵A则是基于线性变换后的节点特征之间距离的倒数来获得，如可以是线性变换后的节点特征之间的欧几里得距离。另外，本实施例中，由于构建的时空交互关系图中节点和节点之间的交互关系是双向存在的，故构建的时空交互关系图为无向图，因此，邻接矩阵具体地可以为：A_ij＝A_ji，A_ii＝0

其中，v_i，v_j为节点特征，φ_A为对节点特征进行线性变换，W_A∈R^C×C为全连接的参数矩阵。

在确定了时空交互关系图的G^ST的表达后，将其输入至图卷积神经网络即可以获得时空交互关系图的特征

本实施例中，图卷积神经网络的图卷积层可以表示为H^l+1＝σ(L^symH^lW^l)，其中，σ(·)为激活函数，H_l为激活矩阵的第l^th，H_l∈R^N′×C，H¹＝V_R，W^l是特定层

训练好的矩阵。本实施例中，拉普拉斯矩阵

I_n为特征矩阵，D_ii＝∑_jA_ij为度矩阵，则上述的图卷积层可以表示为：

最终通过图卷积神经网络输出的时空交互关系图的特征

执行S105，在通过图卷积神经网络获得时空交互关系图的特征

后，基于时空交互关系特征R^ST和时空交互关系图的特征

识别视频中的事件。具体地，可以对R^ST和

进行残差连接后，通过多层感知机层(MLP，multilayer perception)和分类层，如Softmax层来预测视频中事件的类别，进而可以识别视频中的事件，如识别该事件是否为异常事件等。

至此，通过上述的S101～S105实现了对视频中事件的识别。以下结合图4对本发明实施例的识别视频中的事件的过程进行简单的说明。图4为本发明实施例的识别视频中的事件的过程示意图。如图4所示，对采集到的视频片段进行关键帧提取，以获得关键帧序列F₁,F₂,…,F_N，然后通过神经网络ResNet50提取关键帧序列中每一帧关键帧的静态特征X₁,X₂,…,X_i,…,X_N,对每一帧关键帧的静态特征X_i进行分块和空间位置嵌入以获得

对进行了分块和空间位置嵌入的每一帧关键帧在空间位置嵌入的初始位置加入CLS类别标记，然后将

分别作为各空间Transformer的输入以获得各关键帧的静态特征对应的空间交互关系特征

将空间交互特征集合

进行时域位置嵌入(图中未示出)且在时域位置嵌入的初始位置加入CLS类别标记后，输入至时域Transformer以获得空间交互关系特征集合对应的时空交互关系特征R^ST。根据时空交互关系特征R^ST来构建时空交互关系图G^ST，利用图卷积神经网络获得时空交互关系图G^ST的特征

最后将时空交互关系特征R^ST和时空交互关系图的特征

进行残差连接，然后通过MLP层和Softmax层来实现对视频片段的识别。

在另一实施例中，本发明还提供一种识别视频中事件的系统，系统包括：神经网络、空间注意力机制网络、时域注意力机制网络、构建单元、图卷积神经网络和识别单元，其中：神经网络，用于获取视频中各帧的静态特征。空间注意力机制网络，用于获取各静态特征对应的空间交互关系特征。时域注意力机制网络，用于获取空间交互关系特征集对应的时空交互关系特征。构建单元，用于基于时空交互关系特征构建时空交互关系图。图卷积神经网络，用于获得时空交互关系图的特征。识别单元，用于基于时空交互关系特征和时空交互关系图的特征识别视频中的事件。本实施例的识别视频中事件的系统的实施可以参见上述的识别视频中事件的方法的实施，此处不再赘述。

基于相同的技术构思，本发明实施例提供了一种计算机设备，包括至少一个处理器、以及至少一个存储器，其中，存储器存储有计算机程序，当程序被处理器执行时，使得处理器能够执行上述的识别视频中事件的方法。

基于相同的技术构思，本发明实施例提供了一种计算机可读存储介质，当存储介质中的指令由设备内的处理器执行时，使得设备能够执行上述的识别视频中事件的方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种识别视频中的事件的方法，其特征在于，包括：

基于神经网络获取视频中各帧的静态特征；

2.如权利要求1所述的方法，其特征在于，还包括：

对各帧的静态特征进行分块和空间位置嵌入；

3.如权利要求1所述的方法，其特征在于，基于时域注意力机制网络获取空间交互关系特征集对应的时空交互关系特征包括：

对空间交互特征集进行时域位置嵌入；

4.如权利要求1所述的方法，其特征在于，基于时空交互关系特征构建时空交互关系图包括：

5.如权利要求4所述的方法，其特征在于，所述基于时空交互关系特征和时空交互关系图的特征识别视频中的事件包括：

6.如权利要求1所述的方法，其特征在于，所述视频中各帧为视频中的关键帧，所述方法还包括：

对采集到的视频以预设帧数进行采样以获得第一帧序列；

从所述第二帧序列中选取连续的多帧以获得关键帧序列。

7.一种识别视频中事件的系统，其特征在于，包括：

神经网络，用于获取视频中各帧的静态特征；

图卷积神经网络，用于获得时空交互关系图的特征；

8.一种计算机设备，包括至少一个处理器、以及至少一个存储器，其中，所述存储器存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器能够执行权利要求1～6任一项所述的识别视频中事件的方法。

9.一种计算机可读存储介质，当所述存储介质中的指令由设备内的处理器执行时，使得所述设备能够执行权利要求1～6任一项所述的识别视频中事件的方法。