CN114387567B

CN114387567B - 一种视频数据的处理方法、装置、电子设备及存储介质

Info

Publication number: CN114387567B
Application number: CN202210289901.1A
Authority: CN
Inventors: 全绍军; 林格; 陈小燕; 梁少玲
Original assignee: Longse Technology Co ltd
Current assignee: Longse Technology Co ltd
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2022-06-28
Anticipated expiration: 2042-03-23
Also published as: CN114387567A; ZA202307784B; WO2023179429A1

Abstract

本申请适用于多媒体技术领域，提供了一种视频数据的处理方法、装置、电子设备及存储介质，方法包括：响应于目标视频的类型识别指令，将所述目标视频导入到多模态特征提取模型，输出所述目标视频内各个视频图像帧对应的多个不同模态的模态特征；基于预设的所述不同模态间的互引导关系，分别生成各个所述模态特征对应的融合特征；根据所有视频图像帧在各个所述模态的所述融合特征，构建所述目标视频对应的模态对象图，并通过所述模态对象图确定所述目标视频对应的注意力特征；所述注意力特征融合了多个所述模态的融合特征；基于所述注意力特征，确定所述目标视频的视频类别。采用上述方法中，提高了视频监控的准确性，也降低了视频监控的人力成本。

Description

一种视频数据的处理方法、装置、电子设备及存储介质

技术领域

本申请属于多媒体技术领域，尤其涉及一种视频数据的处理方法、装置、电子设备及存储介质。

背景技术

随着多媒体技术的不断发展，视频监控的应用领域越来越多，特别在公共安全的领域上，可以在重点的监控区域布放监控设备，以实现实时了解该区域的安保情况的目的，更能有效地保障人民的生命以及财产的安全。

现有的视频监控技术，一般是通过安排固定的监控人员实时查看视频内容，在画面内出现异常情况时进行响应，然而随着视频监控区域的不断增加，视频监控画面的数量也随以几何级的速度增长，从而大大增加了视频内容监控的难度，容易出现遗漏发现的情况发生，同时人为监控也大大增加了监控的人力成本。由此可见，现有的视频监控技术，监控准确性低以及人力成本较高。

发明内容

本申请实施例提供了一种视频数据的处理方法、装置、电子设备及存储介质，可以解决现有的视频监控技术技术，依赖人工完成视频监控，监控准确性低以及人力成本较高的问题。

第一方面，本申请实施例提供了一种视频数据的处理方法，包括：

响应于目标视频的类型识别指令，将所述目标视频导入到多模态特征提取模型，输出所述目标视频内各个视频图像帧对应的多个不同模态的模态特征；

基于预设的所述不同模态间的互引导关系，分别生成各个所述模态特征对应的融合特征；

根据所有所述视频图像帧在各个所述模态的所述融合特征，构建所述目标视频对应的模态对象图，并通过所述模态对象图确定所述目标视频对应的注意力特征；所述注意力特征融合了多个所述模态的融合特征；

基于所述注意力特征，确定所述目标视频的视频类别。

在第一方面的一种可能的实现方式中，所述模态特征包括：静态特征、动态特征以及文本特征；

所述基于预设的所述不同模态间的互引导关系，分别生成各个所述模态特征对应的融合特征，包括：

根据各个所述视频图像帧的帧次序，基于所述静态特征对各个所述视频图像帧的所述动态特征进行注意力计算，得到第一融合特征；

根据各个所述视频图像帧的帧次序，基于所述文本特征对各个所述视频图像帧的所述静态特征进行注意力计算，得到第二融合特征；

根据各个所述视频图像帧的帧次序，基于所述动态特征对各个所述视频图像帧的所述静态特征进行注意力计算，得到第三融合特征。

在第一方面的一种可能的实现方式中，所述根据各个所述视频图像帧的帧次序，基于所述静态特征对各个所述视频图像帧的所述动态特征进行注意力计算，得到第一融合特征，包括：

将第i个视频图像帧的所述动态特征以及所述静态特征导入到预设的注意力引导模型，分别确定动态注意力特征以及静态注意力特征；所述注意力引导模型具体为：

其中，

为第j个视频图像帧的动态注意力特征；

为第i个视频图像帧的静态注意力特征；

为第j个视频图像帧的静态特征；

为第i个视频图像帧的动态特征；

为注意力权重；

基于所述视频图像帧的帧次序，对所述动态注意力特征以及所述静态注意力特征进行迭代，得到第一注意力权重以及第二注意力权重；

其中，所述第一注意力权重具体为：

其中，

为第i个视频图像帧的所述第一注意力权重；

所述第二注意力权重具体为：

其中，

为第j个视频图像帧的所述第二注意力权重；

对所述第一注意力权重以及所述第二注意力权重进行降维处理，得到所述第一融合特征；所述第一融合特征具体为：

其中，

为所述第i个视频图像帧的所述第一融合特征。

在第一方面的一种可能的实现方式中，所述根据所有所述视频图像帧在各个所述模态的所述融合特征，构建所述目标视频对应的模态对象图，并通过所述模态对象图确定所述目标视频对应的注意力特征，包括：

根据各个所述视频图像帧，构建全连接无向图，并确定所述全连接无向图对应的初始邻接矩阵；

根据各个所述视频图像帧的序号以及所述初始邻接矩阵，对各个所述视频图像帧在各个所述模态的所述融合特征进行迭代，得到各个所述视频图像帧对应的一阶注意力特征；所述一阶注意力特征为具体为：

其中，

为所述一阶注意力特征；

为所述初始邻接矩阵；

为所述第i个视频图像帧的所述融合特征；

为预设一阶学习矩阵；N为所述视频图像帧的总数；

基于所有所述一阶注意力特征，构建一阶全连接图，并确定所述一阶全连接图对应的一阶邻接矩阵；

根据各个所述视频图像帧的序号以及所述一阶邻接矩阵，对各个所述视频图像帧的所述一阶注意力特征进行迭代，得到各个所述视频图像帧对应的二阶注意力特征；

基于所有所述二阶注意力特征，构建二阶全连接图，并通过一维卷积层以及最大池化层对所述二阶全连接图进行降维处理，确定各个所述视频图像帧的降维特征；

通过前后长短期网络对所有所述视频图像帧的所述降维特征进行迭代，得到所述目标视频的所述注意力特征。

在第一方面的一种可能的实现方式中，所述基于所有所述一阶注意力特征，构建一阶全连接图，并确定所述一阶全连接图对应的一阶邻接矩阵，包括：

根据所述一阶全连接图确定各个所述视频图像帧对应节点之间的关联关系，确定所述一阶全连接图的权值矩阵；所述权值矩阵是根据所述节点之间的入向量以及出向量确定的；

根据所述权值矩阵以及所有所述视频图像帧的所述一阶注意力特征，确定所述视频图像帧对应的互相关系数；所述互相关系数具体为：

其中，α为所述互相关系数；W为所述权值矩阵；

基于各个所述视频图像帧的所述互相关系数，生成所述一阶邻接矩阵。

在第一方面的一种可能的实现方式中，在所述响应于目标视频的类型识别指令，将所述目标视频导入到多模态特征提取模型，输出所述目标视频内各个视频图像帧对应的多个不同模态的模态特征之前，还包括：

从视频数据库中提取多个警情视频，并分别将各个所述警情视频划分为时长为预设值的多个视频段；

通过语音识别算法确定各个所述视频段的文本信息；

根据所述视频段的多个训练图像帧以及所述文本信息，确定各个所述视频段对应的所述视频类别；

通过所有所述视频段以及与所述视频段对应的所述视频类别，对所述多模态特征提取模型、确定所述融合特征的算法以及构建所述模态对象图的算法进行训练。

在第一方面的一种可能的实现方式中，所述根据所述视频段的多个训练图像帧以及所述文本信息，确定各个所述视频段对应的所述视频类别，包括：

通过预设的用户资源库，确定各个所述训练图像帧中人脸图像对应的用户类型；所述用户资源库包含多个已登记用户的用户类型；

根据所述训练图像帧包含的用户类型以及不同用户类型的各个图像对象相互之间的位置关系，确定所述训练图像对应的候选类型；

对所述视频段内所有训练图像帧的所述候选类型进行聚类分析，确定所述视频段对应的所述视频类型。

第二方面，本申请实施例提供了一种视频数据的处理装置，包括：

模态特征确定单元，用于响应于目标视频的类型识别指令，将所述目标视频导入到多模态特征提取模型，输出所述目标视频内各个视频图像帧对应的多个不同模态的模态特征；

融合特征生成单元，用于基于预设的所述不同模态间的互引导关系，分别生成各个所述模态特征对应的融合特征；

注意力特征确定单元，用于根据所有所述视频图像帧在各个所述模态的所述融合特征，构建所述目标视频对应的模态对象图，并通过所述模态对象图确定所述目标视频对应的注意力特征；所述注意力特征融合了多个所述模态的融合特征；

视频类别识别单元，用于基于所述注意力特征，确定所述目标视频的视频类别。

第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面任一项所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面任一项所述的方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在服务器上运行时，使得服务器执行上述第一方面中任一项所述的方法。

本申请实施例与现有技术相比存在的有益效果是：在接收到关于目标视频的类型识别指令时，可以将目标视频导入到多模态特征提取模块，对各个视频图像帧进行模态识别，确定不同模态下对应的模态特征，即从多维度多角度对各个视频图像帧进行视频内容的理解，继而根据不同模态之间的互引导关系，对将多个模态的模态特征进行融合，得到融合特征；由于视频图像帧之间存在上下文关系，因而为了确定不同视频图像帧之间的上下文关系，可以通过融合特征构建对应的模态对象图，并基于该模态对象图生成具有上下文关系的注意力特征，继而根据各个视频图像帧对应的注意力特征，对该目标视频进行分类，确定该目标视频的视频类别，实现基于视频内容对目标视频进行分类的目的。与现有的视频监控技术相比，本申请实施例无需人工进行视频分类，而是可以通过提取不同模态的模态特征，继而对模态特征进行融合，最后根据视频图像帧之间的上下文关系确定与之对应的注意力特征，能够实现对视频内容的准确理解，从而提高后续视频类别识别的准确性，快速识别特定类别的视频，提高了视频监控的准确性，也降低了视频监控的人力成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种视频数据的处理方法的实现示意图；

图2是本申请一实施例提供的视频类别的识别模型的示意图；

图3是本申请一实施例提供的一种视频数据的处理方法S102的一种实现方式示意图；

图4是本申请一实施例提供的一种视频数据的处理方法的S103一种实现方式示意图；

图5是本申请一实施例提供的一种视频数据的处理方法的一种实现方式示意图；

图6是本申请一实施例提供的基于警情视频段对模型进行训练的示意图；

图7是本申请一实施例提供的一种视频数据的处理方法S503的一种实现方式示意图；

图8是本申请实施例提供的视频数据的处理装置的结构示意图；

图9是本申请实施例提供的电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本申请实施例提供的视频数据的处理方法可以应用于智能手机、服务器、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、服务器等能够实现视频数据处理的电子设备上。本申请实施例对电子设备的具体类型不作任何限制。

请参阅图1，图1示出了本申请实施例提供的一种视频数据的处理方法的实现示意图，该方法包括如下步骤：

在S101中，响应于目标视频的类型识别指令，将所述目标视频导入到多模态特征提取模型，输出所述目标视频内各个视频图像帧对应的多个不同模态的模态特征。

在本实施例中，该电子设备可以接收各个监控设备反馈的视频数据，对该视频数据进行视频分类，基于此，所有待识别的视频数据即为本实施例中的目标视频。其中，监控设备可以将待识别的目标设备封装于类型识别指令内，在接收到该类型识别指令时，电子设备可以提取其中携带的目标视频，并执行视频类别的识别流程。可选地，该电子设备具体为一监控服务器，该监控服务器可以下联有多个不同的监控设备，监控设备可以将以预设的反馈周期将采集的视频数据发送给监控服务器，监控服务器可以将接收到的视频数据识别为目标数据，并生成关于该目标视频的类型识别指令，以触发视频类别的识别流程。

在一种可能的实现方式中，电子设备可以存储有监控列表，若检测到任一监控列表内的监控设备发送的视频数据，则生成关于该视频数据的类型识别指令，以识别视频类别的识别流程。反之，若发送视频数据的设备并非在预设的监控列表内，则表示并不一定需要对该视频数据进行类别识别，此时，无需自动生成上述的类型识别指令。

在一种可能的实现方式中，为了提高目标视频识别的准确性，电子设备可以基于预设时长对监控设备反馈的视频数据进行划分，得到多个目标视频，每个目标视频的视频时长为预设时长。例如，预设时长为1分钟，则可以将监控设备反馈的视频数据，划分为多个时长为1分钟的目标视频，并分别确定不同视频的视频类别。

在本实施例中，电子设备配置有多模态特征提取模型，通过该多模态特征提取模块可以确定该目标视频内各个视频图像帧在不同模态下对应的模态特征。其中，上述模态包括但不限于：静态特征模态、动态特征模态、语音特征模态、文本特征模态以及背景特征模态等，模态类型的选取以及模态的数量可以根据分类需求确定。

在一种可能的实现方式中，确定不同模态特征可以通过不同的模态提取模型确定，例如，上述模态包括有静态特征模态、动态特征模态以及文本特征模态，则电子设备可以通过静态特征提取模型确定各个视频图像帧的静态特征，通过动态特征提取模型确定各个视频图像帧的动态特征，以及通过文本特征提取模型确定各个视频图像帧的文本特征。

在一种可能的实现方式中，上述模态包括有文本特征模态，该文本具体为该目标视频中对应的字幕文本信息。在该情况下，提取文本特征模态的模型可以为预训练的语言表征模型，并对提取得到的字幕文本信息进行词嵌入，由于字幕之间在不同帧间存在上下文关系，为了能够准确识别用户的字幕文本信息，在得到字幕文本信息的词嵌入向量后，可以利用前后长短期（Bi-directional Long Short-Term Memory ，BiLSTM）网络进行上下文编码，从而生成文本特征。

在一种可能的实现方式中，上述模态包括有动态特征模态，在该情况下，确定动态特征的方式可以为:电子设备通过卷积神经网络模型在大量的视频数据集上进行的预训练，以使得在动作识别数据集上具有较优的识别结果，将目标视频定义为

，通过预训练的C3D网络来提取视频的动态特征，视频的实际输入为每16帧获得其动态特征，即16*N，同时本发明为了对齐视频不同模态的上下文信息，本实施例在时间维度上进行滑窗采样操作，来保证每帧中都包含动态特征信息，通过C3D的最后一层的全连接层的输出作为各个视频图像帧的动态特征

，其中

是第i个视频图像帧的动态信息，得到动态信息阵列

，其中N为视频的帧数，为了保证视频的动态信息的上下文信息，本发明利用同维度的BiLSTM网络对动态信息进行编码，得到动态特征，即

，将所有得到的动态特征进行封装，从而构成了该目标视频的动态特征矩阵

，其中

为第i个视频图像帧的动态特征，N为视频图像帧的帧数序号，m表示动态特征模态。

在一种可能的实现方式中，上述模态包括有静态特征模态，在该情况下，电子设备可以采用预训练的卷积神经网络，如VGG16网络模型进行视频图像帧中静态特征的提取，在视频时间域上，为了同步目标视频中不同模态的上下文关系，以及准确地推断视频图像帧的静态特征的演化信息，本发明以1帧每秒来进行视频静态帧特征提取，本实施例将卷积神经网络的倒数第二层的全连接层的输出作为静态信息

，其中

是第i个视频图像帧的静态特征，得到静态特征阵列

，其中N为目标视频的总帧数，为了获取视频静态信息的上下文信息，本发明利用同维度的BiLSTM对静态信息征进行编码，得到静态特征，即

，将所有得到的动态特征进行封装，从而构成了该目标视频的静态特征矩阵

，其中

为第i个视频图像帧的静态特征，N为视频的帧数，a表示静态特征模态。

在一种可能的实现方式中，上述模态包括有文本特征模态，在该情况下，电子设备可以采用预训练的BERT网络模型来提取字幕文本特征，并选取12层的预训练的BERT网络模型提取字幕文本信息，本实施例将BERT网络模型的倒数第二层的输出作为字幕文本信息

，其中

是第i个视频图像帧的字幕文本信息，得到视频字幕文本阵列

，其中N为目标视频的总帧数，L为句子中字的个数，由于BERT属于字嵌入，同时为了获得文本的上下文信息，本实施例利用同维度的BiLSTM对字幕文本信息进行编码，得到文本特征，即

，将所有得到的文本特征进行封装，从而构成了该目标视频的文本特征矩阵

，其中

为第i个视频图像帧的文本特征，N为目标视频的总帧数，L为句子个数，s表示文本特征模态，最后本发明采用(conv1-ReLu-maxpool)来得到其最终的文本特征

。

在S102中，基于预设的所述不同模态间的互引导关系，分别生成各个所述模态特征对应的融合特征。

在本实施例中，由于不同的模态用于确定目标视频在不同维度上的特性，而同一个视频图像帧在不同维度上的特性是存在关联的，为了能够提高识别的准确性，可以根据不同维度之间的关联关系，构建上述的互引导关系。例如，上述模态包括了时间特征模态以及空间特征模态，而往往时间与空间两个维度之间存在较强的相关性，基于此，可以建立时间特征模态与空间特征模块之间的互引导关系，对于其他模态之间也可以根据相互之间的关联关系，建立对应的互引导关系。需要说明的是，互引导关系内包含的模态个数可以为2个，也可以为2个或以上，具体根据实际情况进行设置。

在本实施例中，电子设备可以根据不同模态间的互引导关系，对上述提取得到的模态特征进行特征融合，将存在互引导关系的两个或以上的模态特征通过预设的融合算法进行特征融合，从而生成各个视频图像帧对应的融合特征。若存在多个互引导关系，则每一个互引导关系可以对应一个融合特征，即融合特征的个数是基于互引导关系的关系数决定的。

在S103中，根据所有所述视频图像帧在各个所述模态的所述融合特征，构建所述目标视频对应的模态对象图，并通过所述模态对象图确定所述目标视频对应的注意力特征；所述注意力特征融合了多个所述模态的融合特征。

在本实施例中，多模态可以提高视频理解的准确性，而不同模态之间的语义关系可以显著的提高视频理解模型的推理能力，然而只是通过简单的向量相加、相乘等简单操作，会弱化不同模态之间的语义关系，为了凸显不同模态之间的语义关系，除了通过互引导关系进行特征融合外，本实施例采用图注意网络来建模不同模态之间的语义关系，即根据各个模态对应的融合特征，建立对应的模态对象图，通过模态对象图中不同视频图像帧之间的关联关系以及上下文时序关系，确定各个视频图像帧对应的注意力特征。

在本实施例中，该模态对象图内包含有多个节点，每个节点对应一个视频图像帧，根据融合特征确定不同视频图像帧之间关联关系，从而建立了上述的模态对象图。每个节点具有对应的出向量以及入向量，出向量用于表示该视频图像帧对于其他视频图像帧的影响力系数，而入向量用于表示其他视频图像帧对于该视频图像帧的影响力系数，从而能够确定相互之间的影响力，确定了自注意力以及多头注意力的影响。

在S104中，基于所述注意力特征，确定所述目标视频的视频类别。

在本实施例中，电子设备将所有视频图像帧对应的注意力特征导入到全连接层，分别计算各个不同得到候选类别对应的预测分数。例如，若预设有5种不同的候选类别，则通过全连接层对所有视频图像帧的注意力特征进行处理，得到了一个对应的预测分数阵列，

，继而从所有预测分数中选取数值最大的候选类别，作为目标视频的视频类别，即

。

示例性地，图2示出了本申请一实施例提供的视频类别的识别模型的示意图。参见图2所示，该视频类别的识别模型包含有互引导特征提取模块、特征增强模块以及预测模块，其中，互引导特征模块包含用于提取不同模态的三个子模块，分别为静态特征提取网络、动态特征提取网络以及文本特征提取网络，将目标视频导入到该互引导特征模块后，可以通过上述子模块确定多个不同模态的模态特征，并基于不同模态之间的互引导关系，生成对应的融合特征，如包含了动态对静态的互引导模块、静态对动态的互引导模块以及文本对静态的互引导模块，三个模块输出的融合特征导入到特征增强模块，构建对应的模态对象图，继而通过模态对象图确定注意力特征，将各个视频图像帧的注意力特征输入到预测模块，通过预测模块的全连接层计算各个候选类别对应的预测分数，从而基于所有视频图像帧在各个候选类别的预测分数，确定该目标视频的视频类别。

进一步地，作为本申请的另一实施例，若检测到该目标视频的视频类别为异常类别时，则生成预警信息，以提示用户对该区域进行预警操作。在确定视频类别时，可以限定有一个或多个为异常类别，若某一区域对应的监控视频为异常类别，则可以生成对应的预警信息，以提示用户对该区域进行安全管控，提高了异常事件响应的效率。

以上可以看出，本申请实施例提供的一种视频数据的处理方法在接收到关于目标视频的类型识别指令时，可以将目标视频导入到多模态特征提取模块，对各个视频图像帧进行模态识别，确定不同模态下对应的模态特征，即从多维度多角度对各个视频图像帧进行视频内容的理解，继而根据不同模态之间的互引导关系，对将多个模态的模态特征进行融合，得到融合特征；由于视频图像帧之间存在上下文关系，因而为了确定不同视频图像帧之间的上下文关系，可以通过融合特征构建对应的模态对象图，并基于该模态对象图生成具有上下文关系的注意力特征，继而根据各个视频图像帧对应的注意力特征，对该目标视频进行分类，确定该目标视频的视频类别，实现基于视频内容对目标视频进行分类的目的。与现有的视频监控技术相比，本申请实施例无需人工进行视频分类，而是可以通过提取不同模态的模态特征，继而对模态特征进行融合，最后根据视频图像帧之间的上下文关系确定与之对应的注意力特征，能够实现对视频内容的准确理解，从而提高后续视频类别识别的准确性，快速识别特定类别的视频，提高了视频监控的准确性，也降低了视频监控的人力成本。

图3示出了本发明第二实施例提供的一种视频数据的处理方法S102的具体实现流程图。参见图3，相对于图1所述实施例，本实施例提供的一种视频数据的处理方法中S102包括：S1021~S1023，具体详述如下：

进一步地，所述模态特征包括：静态特征、动态特征以及文本特征；

在S1021中，根据各个所述视频图像帧的帧次序，基于所述静态特征对各个所述视频图像帧的所述动态特征进行注意力计算，得到第一融合特征。

在本实施例中，由于不同的视频图像帧之间具有相应上下文关系，即时序关系，而时序关系具体体现在各个视频图像帧的帧次序上，电子设备可以该帧次序依次确定各个静态特征关联的动态特征，并基于该帧次序进行迭代，从而得到静态特征至动态特征的第一融合特征。

进一步地，作为本申请的另一实施例，上述S1021具体包括：

在S1021.1中，将第i个视频图像帧的所述动态特征以及所述静态特征导入到预设的注意力引导模型，分别确定动态注意力特征以及静态注意力特征；所述注意力引导模型具体为：

其中，

为第j个视频图像帧的动态注意力特征；

为第i个视频图像帧的静态注意力特征；

为第j个视频图像帧的静态特征；

为第i个视频图像帧的动态特征；

为注意力权重。

在S1021.2中，基于所述视频图像帧的帧次序，对所述动态注意力特征以及所述静态注意力特征进行迭代，得到第一注意力权重以及第二注意力权重；

其中，所述第一注意力权重具体为：

其中，

为第i个视频图像帧的所述第一注意力权重；

所述第二注意力权重具体为：

其中，

为第j个视频图像帧的所述第二注意力权重。上述T为矩阵的转置，softmax为激活函数，tanh为双曲正切函数，第一注意力权重以及第二注意力权重是基于前序的多个视频图像帧进行迭代后计算得到的，即基于各个视频图像帧从1~j之间的静态注意力特征以及动态注意力特征计算得到的，实现了注意力权重可以表现视频图像帧上下文关系的特点。

在S1021.3中，对所述第一注意力权重以及所述第二注意力权重进行降维处理，得到所述第一融合特征；所述第一融合特征具体为：

其中，

为所述第i个视频图像帧的所述第一融合特征。

在本申请实施例中，通过互引导关系确定第一注意力权重以及第二注意力权重之后，可以对目标视频中的动态特征进行注意，即得到动态对静态特征第一融合特征，为了提高不同模态的注意权重，本实施例对静态特征也进行注意操作，即得到静态注意力特征，并将之后的特征向量进行连接，其中引导注意机制的可微性使其具有可学习性，最后进行线性与非线性变换，即通过linear函数以及tanh函数进行变换，得到最终的第一融合特征，并以N为迭代条件依次进行注意，得到注意之后的视频动态特征矩阵，并利用最大池化对视频动态特征矩阵的每一行进行降维，得到其最终的特征矩阵

，其中N为视频的帧数。

在S1022中，根据各个所述视频图像帧的帧次序，基于所述文本特征对各个所述视频图像帧的所述静态特征进行注意力计算，得到第二融合特征。

在本实施例中，与S1021的步骤相似，在进行静态特征与文本特征的融合时，即确定s2a-Attention时，也可以参见S1021的步骤实现，即将S1021中的动态特征替换为S1022中的静态特征；将S1021中的静态特征替换为S1022中的文本特征，在此不再赘述。

在本实施例中的第二个引导注意模块也采用同样的软注意力机制对文本特征进行注意力计算，第二个引导注意模块s2a-Attention，以N为迭代条件，本发明将静态特征向量

与视频字幕文本特征矩阵中的行向量

作为引导注意模块a2s-Attention的输入，其中i表示第i个理解对，i表示文本特征矩阵中第i行文本特征向量，引导注意模型表示为

，然后对文本特征进行静态引导注意权重的学习，利用注意权重生成特征

与

，并将生成的特征进行连接

，然后使用linear与tanh函数进行降维，得到最终的特征向量，并以N为迭代条件依次进行注意，得到注意之后的字幕文本特征矩阵，并利用最大池化对字幕文本特征矩阵的每一行进行降维，得到其最终的特征矩阵

，其中N为视频的帧数。具体实现过程可以参见S1021.1~S1021.3。

在S1023中，根据各个所述视频图像帧的帧次序，基于所述动态特征对各个所述视频图像帧的所述静态特征进行注意力计算，得到第三融合特征。

在本实施例中，与S1021的步骤相似，在进行静态特征与动态特征的融合时，即确定m2a-Attention时，也可以参见S1021的步骤实现，即将S1021中的静态特征替换为S1022中的动态特征；将S1021中的动态特征替换为S1022中的静态特征，在此不再赘述。

在本实施例中的第三个引导注意模块也采用同样的软注意力机制对视频的静态特征进行注意力计算，第三个引导注意模块m2a-Attention，以N为迭代条件，本实施例将动态特征向量

与视频静态特征矩阵中的静态特征向量

作为引导注意模块m2a-Attention的输入，其中i表示第i个理解对，i表示静态特征矩阵中第i行静态特征向量，引导注意模型表示为

，然后对视频静态特征进行问题引导注意权重的学习，利用注意权重生成特征

与

，并将生成的特征进行连接

，然后使用linear与tanh函数进行降维，得到最终的特征向量，并以N为迭代条件依次进行注意，得到注意之后的视频静态特征矩阵，并利用最大池化对视频静态特征矩阵的每一行进行降维，得到其最终的特征矩阵

，其中N为视频的帧数。

在本申请实施例中，通过不同模态之间的互引导关系，确定对应的融合特征，能够提高不同融合特征的语义表达，便于后续对于目标视频的内容理解，继而提高了后续视频类别分类的准确性。

图4示出了本发明第三实施例提供的一种视频数据的处理方法S103的具体实现流程图。参见图4，相对于图1所述实施例，本实施例提供的一种视频数据的处理方法S103包括：S1031~S1036，具体详述如下：

进一步地，所述根据所有所述视频图像帧在各个所述模态的所述融合特征，构建所述目标视频对应的模态对象图，并通过所述模态对象图确定所述目标视频对应的注意力特征，包括：

在S1031中，根据各个所述视频图像帧，构建全连接无向图，并确定所述全连接无向图对应的初始邻接矩阵。

在本实施例中，由于不同的目标视频内视频图像帧之间的关联关系是随机的，因此在建立模态对象图时，初始的模板是一个全连接无向图，即各个视频图像帧之间的关联关系是处于待定状态的，在该情况下，可以根据目标视频内包含的视频图像帧的个数，创建与之对应的多个节点，每个节点对应一个视频图像帧，并基于创建的多个节点构建上述的全连接无向图。其中，全连接无向图的初始邻接矩阵为预设值。其中，该无向全连接图可以表示为：

，其中

是第i次迭代时模态对象图的节点集合，在S1031中该Gi为未迭代的模态对象图（即全连接无向图），其中type表示对应的模态类型，例如，该模态类型可以分别表示其动态特征、静态特征以及文本特征，node表示节点数量，由于包含三种模态，即节点node的数量也为3，即每次迭代共有三个顶点

，每个节点的内容是不同模态的融合特征，即分别为

，对应第i次迭代的不同模态特征矩阵的行向量（即不同视频图像帧对应的融合特征），

是图注意网络中节点之间的边集合，表示为不同节点之间的注意力互相关系数。

在S1032中，根据各个所述视频图像帧的序号以及所述初始邻接矩阵，对各个所述视频图像帧在各个所述模态的所述融合特征进行迭代，得到各个所述视频图像帧对应的一阶注意力特征；所述一阶注意力特征为具体为：

其中，

为所述一阶注意力特征；

为所述初始邻接矩阵；

为所述第i个视频图像帧的所述融合特征；

为预设一阶学习矩阵；N为所述视频图像帧的总数。

在本实施例中，电子设备可以利用图注意层来获得不同模态之间的相互增强的特征，因此会将一个包含二阶图注意层的网络作为模态对象图。在计算一阶注意力特征时，可以根据各个视频图像帧对应的帧次序进行计算，通过初始邻接矩阵、该视频图像帧基于不同互引导关系得到的模态特征得到的融合矩阵

以及一阶学习矩阵进行叠加，从而得到该视频图像帧对应的一阶注意力特征。

在S1033中，基于所有所述一阶注意力特征，构建一阶全连接图，并确定所述一阶全连接图对应的一阶邻接矩阵。

在本实施例中，电子设备在确定了各个全连接无向图中各个节点（即各个视频图像帧）对应的一阶注意力特征后，可以确定不同节点之间的相互影响力，因此可以对上述全连接无向图进行更新，得到一阶全连接图，该一阶全连接图中各个节点之间的影响力系数是根据上述的一阶注意力特征确定的。电子设备可以根据各个节点之间的相互影响力，确定对应的一阶邻接矩阵，由于一阶全连接图并非无向图，而是有一定的影响力流向的，因此对应的邻接矩阵也需要进行相应的更新。

进一步地，作为本申请的另一实施例，上述S1033具体可以包含以下步骤：

在S1033.1中，根据所述一阶全连接图确定各个所述视频图像帧对应节点之间的关联关系，确定所述一阶全连接图的权值矩阵；所述权值矩阵是根据所述节点之间的入向量以及出向量确定的。

在S1033.2中，根据所述权值矩阵以及所有所述视频图像帧的所述一阶注意力特征，确定所述视频图像帧对应的互相关系数；所述互相关系数具体为：

其中，α为所述互相关系数；W为所述权值矩阵。

在S1033.3中，基于各个所述视频图像帧的所述互相关系数，生成所述一阶邻接矩阵。

在本实施例中，电子设备可以首先将输入的一阶注意力特征通过自注意机制

得到其可共享的权值矩阵：

，然后利用LeakyReLU激活函数来进行非线性计算，最后利用softmax进行正则化，最后计算一阶邻接矩阵。其中softmax在每一行中进行，其中每个节点经过自注意与多头注意的计算公式如下所示：

其中K为多头注意的数量，在本实施例中与模态相关，例如可以设置为3，

表示sigmod激活函数，r表示节点h的邻居节点。

在S1034中，根据各个所述视频图像帧的序号以及所述一阶邻接矩阵，对各个所述视频图像帧的所述一阶注意力特征进行迭代，得到各个所述视频图像帧对应的二阶注意力特征。

在本实施例中，与计算一阶注意力特征相似，电子设备在确定了一阶注意力特征后，可以根据视频图像帧的序号以及一阶邻接矩阵，对各个一阶注意力特征进行迭代，即将S1031中的融合特征替换为上述的一阶注意力特征，而初始邻接矩阵替换为一阶邻接矩阵，具体实现过程可以参见S1031的描述，在此不再赘述。

在S1035中，基于所有所述二阶注意力特征，构建二阶全连接图，并通过一维卷积层以及最大池化层对所述二阶全连接图进行降维处理，确定各个所述视频图像帧的降维特征。

在S1036中，通过前后长短期网络对所有所述视频图像帧的所述降维特征进行迭代，得到所述目标视频的所述注意力特征。

在本实施例中，在经过二阶全连接图计算后，能够实现对不同模态特征进行自注意力与多头注意力计算，得到对应的二阶注意力特征

，然后将阶注意力特征经过一维卷积进行降维，再利用最大池化来获得最相关的特征

，同时为了对视频图像帧中不同模态特征进行上下文相关性分析以及时序记忆，从而使得模型具有多步推理的能力，本实施例可以采用双向时序记忆网络BiLSTM来作为模型中的记忆更新单元，通过对不同时刻的多模态特征进行记忆更新，采用同维度的BiLSTM对

进行编码，本发明以N次迭代为目标视频的时序关系，只选取BiLSTM最终的输出，即当t=N时，再进行BiLSTM的输出

在本申请实施例中，通过将二阶全连接图作为上述的模态对象图，从而确定不同节点之间的影响力，继而得到对应的注意力特征，能够提高注意力特征的准确性。

图5示出了本发明第四实施例提供的一种视频数据的处理方法的具体实现流程图。参见图5，相对于图1-4任一项所述实施例，本实施例提供的一种视频数据的处理方法在所述响应于目标视频的类型识别指令，将所述目标视频导入到多模态特征提取模型，输出所述目标视频内各个视频图像帧对应的多个不同模态的模态特征之前，还包括：S501~S504，具体详述如下：

在S501中，从视频数据库中提取多个警情视频，并分别将各个所述警情视频划分为时长为预设值的多个视频段。

在S502中，通过语音识别算法确定各个所述视频段的文本信息。

在S503中，根据所述视频段的多个训练图像帧以及所述文本信息，确定各个所述视频段对应的所述视频类别。

在S504中，通过所有所述视频段以及与所述视频段对应的所述视频类别，对所述多模态特征提取模型、确定所述融合特征的算法以及构建所述模态对象图的算法进行训练。

在本实施例中，视频数据库内可以包含有多个已经预先采集得到的警情视频，由于警情视频往往时长较长，而不同的视频段可以对应不同的警情类型，为了能够提高训练过程的准确性，电子设备可以对已有的警情视频进行分段，每一个视频段的长度为预设值。继而，电子设备可以通过语音识别算法，提取各个视频段内包含的文本信息，从而能够确定该视频段内的图像特性以及文本特性，根据视频段内各个训练图像帧的内容以及文本信息，确定该视频段对应的视频类别，继而根据添加了视频类别标记的所有视频段对后续的模型进行训练，其中，训练计算的过程与确定视频类别的过程相似，即可以参照实施例一的内容。

示例性地，图6示出了本申请一实施例提供的基于警情视频段对模型进行训练的示意图。电子设备可以将警情视频进行视频段划分，例如可以划分得到400个视频段，即原始警情视频，然后分别为各个原始警情视频段添加对应的字幕文件，即确定文本信息，继而再为不同的视频段添加对应的视频类别，如警情类型1~6，又或者警情1~5等，最后，将划分得到的多个视频段分类为训练集、验证集以及测试集，对上述模型进行训练学习，以提高后续识别的准确性。

在一种可能的实现方式中，对上述多个模型进行训练时，采用的损失函数可以采用交叉熵损失函数进行计算，即利用softmax将特征

转换为预测分数，继而采用交叉熵损失函数来进行优化，交叉熵损失函数具体可以表示为：

，其中

表示真值，k表示第k个预测，N表示样本。

在本申请实施例中，通过视频库提取多个警情视频，继而对视频段进行划分，通过细粒度来对模型进行训练，能够提高训练过程的准确性。

图7示出了本发明第五实施例提供的一种视频数据的处理方法S503的具体实现流程图。参见图7，相对于图5所述实施例，本实施例提供的一种视频数据的处理方法S503包括：S5031~S5033，具体详述如下：

在S5031中，通过预设的用户资源库，确定各个所述训练图像帧中人脸图像对应的用户类型；所述用户资源库包含多个已登记用户的用户类型。

在S5032中，根据所述训练图像帧包含的用户类型以及不同用户类型的各个图像对象相互之间的位置关系，确定所述训练图像对应的候选类型；

在S5033中，对所述视频段内所有训练图像帧的所述候选类型进行聚类分析，确定所述视频段对应的所述视频类型。

在本实施例中，除了可以通过手动标记的方式确定各个视频段对应的视频类别外，还可以通过自动识别的方式完成。具体地，由于电子设备往往能够存储有不同用户对应的身份，根据视频段中出现的人物的特征，可以确定该视频段对应的类型，基于此，可以根据人物的不同，对视频类别进行划分。

图8示出了本发明一实施例提供的一种视频数据的处理装置的结构框图，该视频数据的处理装置包括的各单元用于执行图1对应的实施例中加密装置实现的各步骤。具体请参阅图1与图1所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。

参见图8，所述视频数据的处理装置包括：

模态特征确定单元81，用于响应于目标视频的类型识别指令，将所述目标视频导入到多模态特征提取模型，输出所述目标视频内各个视频图像帧对应的多个不同模态的模态特征；

融合特征生成单元82，用于基于预设的所述不同模态间的互引导关系，分别生成各个所述模态特征对应的融合特征；

注意力特征确定单元83，用于根据所有所述视频图像帧在各个所述模态的所述融合特征，构建所述目标视频对应的模态对象图，并通过所述模态对象图确定所述目标视频对应的注意力特征；所述注意力特征融合了多个所述模态的融合特征；

视频类别识别单元84，用于基于所述注意力特征，确定所述目标视频的视频类别。

可选地，所述模态特征包括：静态特征、动态特征以及文本特征；

所述融合特征生成单元82包括：

第一融合单元，用于根据各个所述视频图像帧的帧次序，基于所述静态特征对各个所述视频图像帧的所述动态特征进行注意力计算，得到第一融合特征；

第二融合单元，用于根据各个所述视频图像帧的帧次序，基于所述文本特征对各个所述视频图像帧的所述静态特征进行注意力计算，得到第二融合特征；

第三融合单元，用于根据各个所述视频图像帧的帧次序，基于所述动态特征对各个所述视频图像帧的所述静态特征进行注意力计算，得到第三融合特征。

可选地，所述第一融合单元包括：

注意力特征确定单元，用于将第i个视频图像帧的所述动态特征以及所述静态特征导入到预设的注意力引导模型，分别确定动态注意力特征以及静态注意力特征；所述注意力引导模型具体为：

其中，

为第j个视频图像帧的动态注意力特征；

为第i个视频图像帧的静态注意力特征；

为第j个视频图像帧的静态特征；

为第i个视频图像帧的动态特征；

为注意力权重；

注意力权重确定单元，用于基于所述视频图像帧的帧次序，对所述动态注意力特征以及所述静态注意力特征进行迭代，得到第一注意力权重以及第二注意力权重；

其中，所述第一注意力权重具体为：

其中，

为第i个视频图像帧的所述第一注意力权重；

所述第二注意力权重具体为：

其中，

为第j个视频图像帧的所述第二注意力权重；

注意力权重融合单元，用于对所述第一注意力权重以及所述第二注意力权重进行降维处理，得到所述第一融合特征；所述第一融合特征具体为：

其中，

为所述第i个视频图像帧的所述第一融合特征。

可选地，所述注意力特征确定单元83包括：

初始邻接矩阵确定单元，用于根据各个所述视频图像帧，构建全连接无向图，并确定所述全连接无向图对应的初始邻接矩阵；

一阶注意力单元，用于根据各个所述视频图像帧的序号以及所述初始邻接矩阵，对各个所述视频图像帧在各个所述模态的所述融合特征进行迭代，得到各个所述视频图像帧对应的一阶注意力特征；所述一阶注意力特征为具体为：

其中，

为所述一阶注意力特征；

为所述初始邻接矩阵；

为所述第i个视频图像帧的所述融合特征；

为预设一阶学习矩阵；N为所述视频图像帧的总数；

一阶邻接矩阵确定单元，用于基于所有所述一阶注意力特征，构建一阶全连接图，并确定所述一阶全连接图对应的一阶邻接矩阵；

二阶注意力单元，用于根据各个所述视频图像帧的序号以及所述一阶邻接矩阵，对各个所述视频图像帧的所述一阶注意力特征进行迭代，得到各个所述视频图像帧对应的二阶注意力特征；

降维特征确定单元，用于基于所有所述二阶注意力特征，构建二阶全连接图，并通过一维卷积层以及最大池化层对所述二阶全连接图进行降维处理，确定各个所述视频图像帧的降维特征；

降维特征迭代单元，用于通过前后长短期网络对所有所述视频图像帧的所述降维特征进行迭代，得到所述目标视频的所述注意力特征。

可选地，所述一阶邻接矩阵确定单元包括：

权值矩阵确定单元，用于根据所述一阶全连接图确定各个所述视频图像帧对应节点之间的关联关系，确定所述一阶全连接图的权值矩阵；所述权值矩阵是根据所述节点之间的入向量以及出向量确定的；

互相关系数确定单元，用于根据所述权值矩阵以及所有所述视频图像帧的所述一阶注意力特征，确定所述视频图像帧对应的互相关系数；所述互相关系数具体为：

其中，α为所述互相关系数；W为所述权值矩阵；

互相关系数封装单元，用于基于各个所述视频图像帧的所述互相关系数，生成所述一阶邻接矩阵。

可选地，所述视频数据的处理装置还包括：

视频段划分单元，用于从视频数据库中提取多个警情视频，并分别将各个所述警情视频划分为时长为预设值的多个视频段；

文本信息确定单元，用于通过语音识别算法确定各个所述视频段的文本信息；

视频类别配置单元，用于根据所述视频段的多个训练图像帧以及所述文本信息，确定各个所述视频段对应的所述视频类别；

训练单元，用于通过所有所述视频段以及与所述视频段对应的所述视频类别，对所述多模态特征提取模型、确定所述融合特征的算法以及构建所述模态对象图的算法进行训练。

可选地，所述视频类别配置单元包括：

用户类型确定单元，用于通过预设的用户资源库，确定各个所述训练图像帧中人脸图像对应的用户类型；所述用户资源库包含多个已登记用户的用户类型；

位置关系识别单元，用于根据所述训练图像帧包含的用户类型以及不同用户类型的各个图像对象相互之间的位置关系，确定所述训练图像对应的候选类型；

聚类分析单元，用于对所述视频段内所有训练图像帧的所述候选类型进行聚类分析，确定所述视频段对应的所述视频类型。

因此，本发明实施例提供的视频数据的处理装置同样可以通过在接收到关于目标视频的类型识别指令时，可以将目标视频导入到多模态特征提取模块，对各个视频图像帧进行模态识别，确定不同模态下对应的模态特征，即从多维度多角度对各个视频图像帧进行视频内容的理解，继而根据不同模态之间的互引导关系，对将多个模态的模态特征进行融合，得到融合特征；由于视频图像帧之间存在上下文关系，因而为了确定不同视频图像帧之间的上下文关系，可以通过融合特征构建对应的模态对象图，并基于该模态对象图生成具有上下文关系的注意力特征，继而根据各个视频图像帧对应的注意力特征，对该目标视频进行分类，确定该目标视频的视频类别，实现基于视频内容对目标视频进行分类的目的。与现有的视频监控技术相比，本申请实施例无需人工进行视频分类，而是可以通过提取不同模态的模态特征，继而对模态特征进行融合，最后根据视频图像帧之间的上下文关系确定与之对应的注意力特征，能够实现对视频内容的准确理解，从而提高后续视频类别识别的准确性，快速识别特定类别的视频，提高了视频监控的准确性，也降低了视频监控的人力成本。

应当理解的是，图8示出的视频数据的处理装置的结构框图中，各模块用于执行图1至图7对应的实施例中的各步骤，而对于图1至图7对应的实施例中的各步骤已在上述实施例中进行详细解释，具体请参阅图1至图7以及图1至图7所对应的实施例中的相关描述，此处不再赘述。

图9是本申请另一实施例提供的一种电子设备的结构框图。如图9所示，该实施例的电子设备900包括：处理器910、存储器920以及存储在存储器920中并可在处理器910运行的计算机程序930，例如视频数据的处理方法的程序。处理器910执行计算机程序930时实现上述各个视频数据的处理方法各实施例中的步骤，例如图1所示的S101至S104。或者，处理器910执行计算机程序930时实现上述图7对应的实施例中各模块的功能，例如，图8所示的单元81至84的功能，具体请参阅图8对应的实施例中的相关描述。

示例性的，计算机程序930可以被分割成一个或多个模块，一个或者多个模块被存储在存储器920中，并由处理器910执行，以完成本申请。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序930在电子设备900中的执行过程。例如，计算机程序930可以被分割成各个单元模块，各模块具体功能如上。

电子设备900可包括，但不仅限于，处理器910、存储器920。本领域技术人员可以理解，图9仅仅是电子设备900的示例，并不构成对电子设备900的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如电子设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器910可以是中央处理单元，还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。

存储器920可以是电子设备900的内部存储单元，例如电子设备900的硬盘或内存。存储器920也可以是电子设备900的外部存储设备，例如电子设备900上配备的插接式硬盘，智能存储卡，闪存卡等。进一步地，存储器920还可以既包括电子设备900的内部存储单元也包括外部存储设备。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种视频数据的处理方法，其特征在于，包括：

根据所有所述视频图像帧在各个所述模态的所述融合特征，构建所述目标视频对应的模态对象图，并通过所述模态对象图确定所述目标视频对应的注意力特征；所述注意力特征融合了多个所述模态的融合特征；所述模态对象图内包含有多个节点，每个节点对应一个视频图像帧；所述模态对象图是根据融合特征确定不同视频图像帧之间关联关系建立得到的；

基于所述注意力特征，确定所述目标视频的视频类别；

所述根据所有所述视频图像帧在各个所述模态的所述融合特征，构建所述目标视频对应的模态对象图，并通过所述模态对象图确定所述目标视频对应的注意力特征，包括：

其中，

为所述一阶注意力特征；

为所述初始邻接矩阵；

为第i个视频图像帧的所述融合特征；

为预设一阶学习矩阵；N为所述视频图像帧的总数；

2.根据权利要求1所述的处理方法，其特征在于，所述模态特征包括：静态特征、动态特征以及文本特征；

3.根据权利要求2所述的处理方法，其特征在于，所述根据各个所述视频图像帧的帧次序，基于所述静态特征对各个所述视频图像帧的所述动态特征进行注意力计算，得到第一融合特征，包括：

其中，

为第j个视频图像帧的动态注意力特征；

为第i个视频图像帧的静态注意力特征；

为第j个视频图像帧的静态特征；

为第i个视频图像帧的动态特征；

为注意力权重；

其中，所述第一注意力权重具体为：

其中，

为第i个视频图像帧的所述第一注意力权重；softmax为进行正则化的激活函数；

其中，

为所述第i个视频图像帧的所述第一融合特征；

为第j个视频图像帧的所述第二注意力权重。

4.根据权利要求1所述的处理方法，其特征在于，所述基于所有所述一阶注意力特征，构建一阶全连接图，并确定所述一阶全连接图对应的一阶邻接矩阵，包括：

其中，α为所述互相关系数；W为所述权值矩阵；LeakyReLU为进行非线性计算的激活函数；softmax为进行正则化的激活函数；

5.根据权利要求1-4任一项所述的处理方法，其特征在于，在所述响应于目标视频的类型识别指令，将所述目标视频导入到多模态特征提取模型，输出所述目标视频内各个视频图像帧对应的多个不同模态的模态特征之前，还包括：

通过语音识别算法确定各个所述视频段的文本信息；

6.根据权利要求5所述的处理方法，其特征在于，所述根据所述视频段的多个训练图像帧以及所述文本信息，确定各个所述视频段对应的所述视频类别，包括：

7.一种视频数据的处理装置，其特征在于，包括：

注意力特征确定单元，用于根据所有所述视频图像帧在各个所述模态的所述融合特征，构建所述目标视频对应的模态对象图，并通过所述模态对象图确定所述目标视频对应的注意力特征；所述注意力特征融合了多个所述模态的融合特征；所述模态对象图内包含有多个节点，每个节点对应一个视频图像帧；所述模态对象图是根据融合特征确定不同视频图像帧之间关联关系建立得到的；

视频类别识别单元，用于基于所述注意力特征，确定所述目标视频的视频类别；

所述注意力特征确定单元包括：

其中，

为所述一阶注意力特征；

为所述初始邻接矩阵；

为第i个视频图像帧的所述融合特征；

为预设一阶学习矩阵；N为所述视频图像帧的总数；

8.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的方法。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。