CN117218712A

CN117218712A - 行为识别方法、模型训练方法、设备及计算机介质

Info

Publication number: CN117218712A
Application number: CN202210621814.1A
Authority: CN
Inventors: 张顺利; 孔垂涵; 闫晗
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-06-01
Filing date: 2022-06-01
Publication date: 2023-12-12

Abstract

本申请公开一种行为识别方法、模型训练方法、设备及计算机介质，可应用于行为识别、视频检测、智能交通等各种场景。行为识别方法包括：获取待识别的视频段；根据视频段确定对应的RGB图像序列与光流图像序列；基于RGB图像序列确定第一特征信息，第一特征信息包括针对RGB图像序列的第一空间域特征信息与第一时间域特征信息；基于光流图像序列确定第二特征信息，第二特征信息包括针对光流图像序列的第二空间域特征信息与第二时间域特征信息；利用第一特征信息与第二特征信息确定视频段对应的行为识别结果。可以对视频帧中的时间域特征，以及空间域特征，对视频帧中目标对象的行为进行分析，提高了目标对象行为识别的准确度。

Description

行为识别方法、模型训练方法、设备及计算机介质

技术领域

本申请涉及人工智能领域，具体涉及一种行为识别方法、模型训练方法、设备及计算机介质。

背景技术

在相关技术中，在通过对视频的分析，确定视频中目标对象的行为信息时，对视频中的图像帧的特征提取过程较粗糙，不能有效获取运动视频的运动特征，对视频中的目标对象的行为类别进行识别时，识别的准确度较低。

发明内容

本申请实施例提供一种行为识别方法、模型训练方法、设备及计算机介质，可以基于视频帧中的时间域特征以及空间域特征，对视频帧中目标对象的行为进行分析，提高了行为识别的准确度。

一方面，本申请实施例提供一种行为识别方法，所述方法包括：

获取待识别的视频段；

根据所述视频段确定对应的RGB图像序列与光流图像序列；

基于所述RGB图像序列确定第一特征信息，所述第一特征信息包括针对所述RGB图像序列的第一空间域特征信息与第一时间域特征信息；

基于所述光流图像序列确定第二特征信息，所述第二特征信息包括针对所述光流图像序列的第二空间域特征信息与第二时间域特征信息；

利用所述第一特征信息与所述第二特征信息确定所述视频段对应的行为识别结果。

另一方面，本申请实施例提供一种模型训练方法，所述方法包括：

获取样本视频段，以及所述样本视频段对应的目标行为类别标注；

根据所述样本视频段确定对应的样本RGB图像序列与样本光流图像序列；

通过行为识别模型中的特征提取模块，基于所述样本RGB图像序列确定第一样本特征信息，以及基于所述样本光流图像序列确定第二样本特征信息；其中，所述第一样本特征信息包括针对所述样本RGB图像序列的第三空间域特征信息与第三时间域特征信息；所述第二样本特征信息包括针对所述样本光流图像序列的第四空间域特征信息与第四时间域特征信息；

通过所述行为识别模型中的分类模块，利用所述第一样本特征信息与所述第二样本特征信息确定所述样本视频段对应的预测行为类别；

利用所述预测行为类别、所述目标行为类别标注，对所述行为识别模型进行训练，得到训练好的行为识别模型。

另一方面，本申请实施例提供一种行为识别方法，包括：

在检测到对象触发的针对选中的待识别的视频段，进行行为识别的识别指令时，将所述视频段输入训练好的行为识别模型，使所述行为识别模型根据所述视频段确定对应的行为识别结果；

展示所述行为识别结果；

其中，所述训练好的行为识别模型为基于前述模型训练方法训练出的行为识别模型。

另一方面，本申请实施例提供一种行为识别设备，其特征在于，包括：

第一获取单元，用于获取待识别的视频段；

第一确定单元，用于根据所述视频段确定对应的RGB图像序列与光流图像序列；

第一特征提取单元，用于基于所述RGB图像序列确定第一特征信息，所述第一特征信息包括针对所述RGB图像序列的第一空间域特征信息与第一时间域特征信息；

以及用于基于所述光流图像序列确定第二特征信息，所述第二特征信息包括针对所述光流图像序列的第二空间域特征信息与第二时间域特征信息；

第一识别单元，用于利用所述第一特征信息与所述第二特征信息确定所述视频段对应的行为识别结果。

另一方面，提供一种模型训练设备，包括：

第二获取单元，用于获取样本视频段，以及所述样本视频段对应的目标行为类别标注；

第二确定单元，用于根据所述样本视频段确定对应的样本RGB图像序列与样本光流图像序列；

第二特征提取单元，用于通过行为识别模型中的特征提取模块，基于所述样本RGB图像序列确定第一样本特征信息，以及基于所述样本光流图像序列确定第二样本特征信息；其中，所述第一样本特征信息包括针对所述样本RGB图像序列的第三空间域特征信息与第三时间域特征信息；所述第二样本特征信息包括针对所述样本光流图像序列的第四空间域特征信息与第四时间域特征信息；

第二识别单元，用于通过所述行为识别模型中的分类模块，利用所述第一样本特征信息与所述第二样本特征信息确定所述样本视频段对应的预测行为类别；

训练单元，用于利用所述预测行为类别、所述目标行为类别标注，对所述行为识别模型进行训练，得到训练好的行为识别模型。

另一方面，本申请实施例提供一种行为识别设备，包括：

检测单元，用于在检测到对象触发的针对选中的待识别的视频段，进行行为识别的识别指令时，将所述视频段输入训练好的行为识别模型，使所述行为识别模型根据所述视频段确定对应的行为识别结果；

展示单元，用于展示所述行为识别结果；

另一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上任一实施例所述的行为识别方法或模型训练方法中的步骤。

另一方面，提供一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行如上任一实施例所述的行为识别方法或模型训练方法中的步骤。

另一方面，本申请实施例提供一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现如上任一实施例所述的行为识别方法或模型训练方法中的步骤。

本申请实施例通过获取待识别的视频段；根据所述视频段确定对应的RGB图像序列与光流图像序列；基于所述RGB图像序列确定第一特征信息，所述第一特征信息包括针对所述RGB图像序列的第一空间域特征信息与第一时间域特征信息；基于所述光流图像序列确定第二特征信息，所述第二特征信息包括针对所述光流图像序列的第二空间域特征信息与第二时间域特征信息；利用所述第一特征信息与所述第二特征信息确定所述视频段对应的行为识别结果的方案，可以基于视频帧中的时间域特征以及空间域特征，对视频帧中目标对象的行为进行分析，提高了行为识别的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的行为识别系统的结构示意图。

图2a为本申请实施例提供的行为识别方法的流程示意图。

图2b为本申请实施例提供的确定第一关联特征信息的流程示意图。

图2c为本申请实施例提供的确定第一空间域特征信息的流程示意图。

图2d为本申请实施例提供的确定第一时间域特征信息的流程示意图。

图2e为本申请实施例提供的确定第二关联特征信息的流程示意图。

图2f为本申请实施例提供的根据第一特征信息与第二特征信息确定求和结果的流程示意图。

图2g为本申请实施例提供的目标注意力机制网络的结构示意图.

图3a为本申请实施例提供的模型训练方法的流程示意图。

图3b为本申请实施例提供的基于训练好的行为识别模型确定行为识别结果的流程示意图。

图4为本申请实施例提供的行为识别方法的流程示意图。

图5为本申请实施例提供的行为识别设备的结构示意图。

图6为本申请实施例提供的模型训练设备的结构示意图。

图7为本申请实施例提供的行为识别设备的结构示意图。

图8为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例可应用于可应用于行为识别、视频检测、智能交通等各种场景。

本申请实施例提供一种行为识别方法、模型训练方法、设备及计算机介质。具体地，本申请实施例的行为识别方法与模型训练方法可以由计算机设备执行，其中，该计算机设备可以为终端或者服务器等设备。该终端可以为智能手机、平板电脑、笔记本电脑、智能语音交互设备、智能家电、穿戴式智能设备、飞行器、智能车载终端等设备，终端还可以包括客户端，该客户端可以是视频客户端、浏览器客户端或即时通信客户端等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

首先，在对本申请实施例进行描述的过程中出现的部分名词或者术语作如下解释：

差分增强网络：提取的图像帧和周围的帧互相做差值，使用二维卷积神经网络提取堆叠后的特征。

注意力：通过对特征图进行重定向操作，以此提高特征图中有效区域的权重，进而提高动作识别的准确度。

行为识别：对于给定的分割好的视频片段，根据其中的目标对象的行为进行分类，比如打球、跑步、吃饭等。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

深度学习(Deep Learning，DL)：是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是学习训练样本数据的内在规律和表示层次，这些学习过程中获得的信息对文字、图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

神经网络(Neural Network，NN)：在机器学习和认知科学领域的一种模仿生物神经网络结构和功能的深度学习模型。

请参考图1，图1为本申请实施例提供的行为识别系统的结构示意图。该系统可包括图像采集装置10，与行为识别设备20，其中，图像采集装置10与行为识别设备20之间通过网络连接，比如，通过有线或无线网络连接等。

其中，图像采集装置10用于采集待识别的视频段，行为识别设备20可以为终端，也可以为服务器。终端，可以用于显示图形用户界面。其中，该终端用于通过图形用户界面与用户进行交互，例如通过终端下载安装相应的客户端并运行，例如通过调用相应的小程序并运行，例如通过登录网站呈现相应的图像用户界面等。

可选地，终端10可用于展示视频段对应的行为识别结果。

具体地，行为识别设备20可具体用于：

获取待识别的视频段；

根据所述视频段确定对应的RGB图像序列与光流图像序列；

可选地，上述行为识别设备20还可以用于模型训练，当该行为识别设备20用于模型训练时，可用于执行模型训练方法，如：

可选地，用于模型训练的设备用于也可以为其他设备，即上述系统还包括模型训练设备，该模型训练设备用于执行前述模型训练方法中的步骤，模型训练设备可以为终端或服务器。

可选地，上述具体地，行为识别设备20还可用于：

展示所述行为识别结果；

可选地，前述视频段中包含了若干帧视频图像，这些视频图像为按照一定的时间顺序所构成的视频图像序列。

可选地，前述视频段可以为一完整视频的视频段，也可以为经过剪切后的视频段，即在对视频段进行行为识别时，可将完整视频的视频数据分成若干段，获得每一视频段的视频数据。

可选地，当前述待识别的视频段为一完整视频经剪切得到的多个视频段中的其中一个视频段时，可对所有视频段都进行识别之后，才确定完整视频段的行为识别结果，也可以每个视频段都对应一行为识别结果。

以下对本申请的方案做详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优先顺序的限定。

本申请各实施例提供了一种行为识别方法，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行；本申请实施例以该方法由终端执行为例来进行说明。图2a为本申请实施例提供的行为识别方法的流程示意图，该方法包括以下步骤S201-S205：

S201、获取待识别的视频段；

其中，视频段可以为接收自图像采集装置的视频中的视频段。

例如，该视频段可以包含目标对象的运动信息的视频段，目标对象可以为人物、动物、运动物体等。

视频段的类型可以为公路旁的图像采集装置采集的视频段，或在实验过程中，用于供用户观测实验结果的视频段等。

可选地，视频段可以为包含的图像帧的数量为预设数量的视频段。

S202、根据所述视频段确定对应的RGB图像序列与光流图像序列；

其中，RGB图像序列包括多个RGB图像，以及光流图像序列包括多个光流图像；

前述多个RGB图像可以为视频段中的帧图像，在根据视频段确定对应的RGB图像序列时，还包括对RGB图像序列中的多个RGB图像进行尺寸对齐，即将RGB图像序列中的多个RGB图像的尺寸调整至预设尺寸，如m*n。

可选地，在确定光流图像序列时，也需对光流图像序列中的多个光流图像进行尺寸对齐，即将光流图像序列中的多个光流图像的尺寸调整至预设尺寸，如m*n，光流图像与RGB图像的尺寸相同。

可选地，本申请中，调整RGB或光流图像的尺寸时，可采用双线性插值法。

可选地，光流图像序列可根据RGB图像序列确定，RGB图像与光流图像一一对应，在确定光流图像时，可将与其对应的RGB图像首先变换为灰度图像，再基于TV-L1算法将灰度图像变换为光流图像。

可选地，还可将各RGB图像的像素值的大小归一化至预设区间，以及将所述各光流图像的像素值的大小归一化至预设区间。其中，预设区间可以为[-1，1]。对RGB图像的像素值的大小，以及对光流图像的像素值的大小的归一化可以方便后续数据的处理。

S203、基于所述RGB图像序列确定第一特征信息，所述第一特征信息包括针对所述RGB图像序列的第一空间域特征信息与第一时间域特征信息；

其中，第一空间域特征信息表征第一关联特征信息序列空间中每一个像素点与其它像素点之间的依赖关系，以及第一时间域特征信息表征不同时刻的图像帧中的像素，与该像素在其他时刻的图像帧中的位置关系。

可选地，S203中，基于所述RGB图像序列确定第一特征信息，包括以下S2031-S2033：

S2031、针对所述多个RGB图像中的各RGB图像，获取所述RGB图像的前一帧RGB图像与所述RGB图像的后一帧RGB图像；

可选地，由于多个RGB图像中的最首的RGB图像不存在前一帧RGB图像，以及最尾的RGB图像不存在后一帧图像；因此，在确定RGB图像序列时，可滤除视频段中最首的RGB图像以及最尾的RGB图像。

S2032、基于所述RGB图像、所述前一帧RGB图像，以及所述后一帧RGB图像确定所述RGB图像对应的第一关联特征信息，得到所述RGB图像序列对应的第一关联特征信息序列，所述第一关联特征信息序列的维度信息包括：所述第一关联特征信息序列的通道数、所述第一关联特征信息序列的图像帧个数、所述第一关联特征信息序列的特征长度信息，以及所述第一关联特征信息序列的特征宽度信息；

具体地，在确定RGB图像I_i(i的取值为2～N-1)的第一关联特征信息时，同时输入图像I_i前后的图像帧I_i-1和I_i-1。I_i和I_i-1和I_t+1分别做差值，接着，用1*1的卷积核对图像I_i进行通道数变换。两个差值分别使用1*1的卷积核进行通道数变换，得到通道维度调整后的特征。

在本申请的一些可选的实施例中，基于所述RGB图像、所述前一帧RGB图像，以及所述后一帧RGB图像确定对应的第一关联特征信息的流程可具体参见图2b所示，前述S2032中，基于所述RGB图像、所述前一帧RGB图像，以及所述后一帧RGB图像确定所述RGB图像对应的第一关联特征信息，可包括：

对所述RGB图像做1×1卷积处理，以对所述RGB图像的通道数进行变换，得到第一结果；

对所述RGB图像与所述前一帧RGB图像做差分运算，得到第一图像；

对所述RGB图像与所述后一帧RGB图像做差分运算，得到第二图像；

对所述第一图像做1×1卷积处理，以对所述第一图像的通道数进行变换，得到第二结果；

对所述第二图像做1×1卷积处理，以对所述第二图像的通道数进行变换，得到第三结果；

在通道维度对所述第一结果、所述第二结果，以及所述第三结果进行堆叠得到第一待处理特征信息；

基于预设的第一残差网络对所述第一待处理特征信息进行处理，得到所述RGB图像对应的第一关联特征信息；其中，第一残差网络可以为ResNet网络，还可以为DenseNet、SwinTransformer等。

其中，前述RGB图像的维度信息包括：RGB图像的通道数、RGB图像的图像长度信息、RGB图像的图像宽度信息。

本申请中，在确定第一关联特征信息时采用了2维卷积核，数据处理速度较快。

可选地，前述第一结果、第二结果，以及第三结果的通道数相同。

前述第一关联特征信息的维度信息包括：第一关联特征信息的通道数、第一关联特征信息的特征长度信息、第一关联特征信息的特征宽度信息。

当第一关联特征信息为图像信息时，第一关联特征信息的特征长度信息为第一关联特征信息的图像长度信息，以及第一关联特征信息的图像宽度信息。

S2033、根据所述第一关联特征信息序列，第一预设空间域特征提取规则，以及第一预设时间域特征提取规则确定对应的第一特征信息。

可选地，S2033中，根据所述第一关联特征信息序列，第一预设空间域特征提取规则，以及第一预设时间域特征提取规则确定对应的第一特征信息，包括以下S01-S02：

S01、根据所述第一关联特征信息序列与所述第一预设空间域特征提取规则，确定所述第一空间域特征信息；

可选地，所述第一预设空间域特征提取规则包括：第一卷积核组、第二卷积核组、第一维度变换函数以及第二维度变换函数，所述第二维度变换函数为所述第一维度变换函数的逆，S01中，根据所述第一关联特征信息序列与所述第一预设空间域特征提取规则，确定所述第一空间域特征信息，包括以下S011-S012：

S011、基于所述第一卷积核组与所述第一维度变换函数，对所述第一关联特征信息序列进行处理，得到所述第一关联特征信息序列对应的第一空间关系信息；

可选地，如图2c所示，所述第一卷积核组包括第一卷积核与第二卷积核，前述第一卷积核与第二卷积核都可以为1×1×1的卷积核，前述S011中，所述基于所述第一卷积核组与所述第一维度变换函数，对所述第一关联特征信息序列进行处理，得到所述第一关联特征信息序列对应的第一空间关系信息，包括以下S0111-S0115：

S0111、通过所述第一卷积核对所述第一关联特征信息序列X₀(c,t,h,w)做卷积处理，得到第一卷积结果X₁₁(c1,t,h,w)，以调整所述第一关联特征信息序列的通道数；

其中，c为第一关联特征信息序列X₀(c,t,h,w)的通道数，t为第一关联特征信息序列X₀(c,t,h,w)的图像帧个数，h为第一关联特征信息序列X₀(c,t,h,w)的特征长度信息，以及w为第一关联特征信息序列X₀(c,t,h,w)的特征宽度信息。c1为第一卷积结果X₁₁(c1,t,h,w)的通道数。

其中，第一卷积结果X₁₁(c1,t,h,w)的维度信息可包括：第一卷积结果X₁₁(c1,t,h,w)的通道数c1、第一关联特征信息序列X₀(c,t,h,w)的图像帧个数t，第一关联特征信息序列X₀(c,t,h,w)的特征长度信息h与第一关联特征信息序列X₀(c,t,h,w)的特征宽度信息w。其中，第一卷积结果X₁₁(c1,t,h,w)的图像帧个数与第一关联特征信息序列X₀(c,t,h,w)的图像帧个数相同，以及第一卷积结果X₁₁(c1,t,h,w)的特征长度信息与第一关联特征信息序列X₀(c,t,h,w)的特征长度信息相同，第一卷积结果X₁₁(c1,t,h,w)的特征宽度信息与第一关联特征信息序列X₀(c,t,h,w)的特征宽度信息相同。

S0112、通过所述第一维度变换函数对所述第一卷积结果X₁₁(c1,t,h,w)进行维度变换，得到第一变换结果X₂₁(hw,c1t)，第一变换结果X₂₁(hw,c1t)可以为2维信息，所述第一变换结果X₂₁(hw,c1t)的维度信息包括：所述第一卷积结果X₁₁(c1,t,h,w)的特征长度信息h与第一卷积结果X₁₁(c1,t,h,w)的特征宽度信息w的乘积，以及所述第一卷积结果X₁₁(c1,t,h,w)的通道数c1与第一卷积结果X₁₁(c1,t,h,w)的图像帧个数t的乘积；

在本申请的另一些实施例中，第一变换结果还可以为3维信息，所述第一变换结果的维度信息还可以包括：所述第一卷积结果X₁₁(c1,t,h,w)的特征长度信息h与第一卷积结果X₁₁(c1,t,h,w)的特征宽度信息w的乘积、所述第一卷积结果X₁₁(c1,t,h,w)的通道数c1，以及第一卷积结果X₁₁(c1,t,h,w)的图像帧个数t。

S0113、通过所述第二卷积核对所述第一关联特征信息序列X₀(c,t,h,w)做卷积处理，得到第二卷积结果X₁₂(c1,t,h,w)，以调整所述第一关联特征信息序列X₀(c,t,h,w)的通道数，所述第二卷积结果X₁₂(c1,t,h,w)的通道数与所述第一卷积结果X₁₁(c1,t,h,w)的通道数相同；

S0114、通过所述第一维度变换函数对所述第二卷积结果X₁₂(c1,t,h,w)进行维度变换，得到第二变换结果，所述第二变换结果的维度信息与所述第一变换结果的维度信息相同；

S0115、计算所述第一变换结果X₂₁(hw,c1t)与所述第二变换结果的转置X₂₂(c1t,hw)的乘积，得到所述第一关联特征信息序列X₀(c,t,h,w)对应的第一空间关系信息X₃(hw,hw)，所述第一空间关系信息为2维信息，具体地，第一空间关系信息的维度信息包括：所述第一变换结果的特征长度信息与所述第一变换结果的特征宽度信息的乘积，以及所述第二变换结果的特征长度信息与所述第二变换结果的特征宽度信息的乘积。

S012、基于所述第二卷积核组、所述第一维度变换函数、所述第二维度变换函数，以及所述第一空间关系信息确定所述第一空间域特征信息。

可选地，如图2c所示，所述第二卷积核组包括第三卷积核与第四卷积核，其中，前述第三卷积核与第四卷积核可以为1×1×1的卷积核，S012中，基于所述第二卷积核组、所述第一维度变换函数、所述第二维度变换函数，以及所述第一空间关系信息确定所述第一空间域特征信息，包括以下S0121-S0127：

S0121、通过所述第三卷积核对所述第一关联特征信息序列X₀(c,t,h,w)做卷积处理，得到第三卷积结果X₁₃(c1,t,h,w)，以调整所述第一关联特征信息序列X₀(c,t,h,w)的通道数，所述第三卷积结果X₁₃(c1,t,h,w)的通道数与所述第二卷积结果的通道数相同；

S0122、通过所述第一维度变换函数对所述第三卷积结果X₁₃(c1,t,h,w)进行维度变换，得到第三变换结果，所述第三变换结果的维度信息与所述第一变换结果的维度信息相同；

S0123、对所述第一空间关系信息X₃(hw,hw)进行归一化处理，得到第一归一化结果；

具体地，可通过Softmax函数对所述第一空间关系信息进行归一化处理，得到第一归一化结果。

S0124、计算所述第一归一化结果与所述第三变换结果的转置X₂₃(c1t,hw)的乘积，得到第一乘积结果X₄(c1t,hw)，所述第一乘积结果X₄(c1t,hw)的维度信息与所述第三变换结果的转置的维度信息相同；

S0125、通过所述第二维度变换函数对所述第一乘积结果X₄(c1t,hw)进行维度变换，得到第四变换结果X₅(c1,t,h,w)，所述第四变换结果X₅(c1,t,h,w)的维度信息与所述第三卷积结果X₁₃(c1,t,h,w)的维度信息相同；

S0126、通过所述第四卷积核对所述第一关联特征信息序列X₀(c,t,h,w)做卷积处理，得到第四卷积结果X₁₄(c1,t,h,w)，以调整所述第一关联特征信息序列X₀(c,t,h,w)的通道数，所述第四卷积结果X₁₄(c1,t,h,w)的通道数与所述第三卷积结果X₁₃(c1,t,h,w)的通道数相同；

S0127、对所述第四变换结果X₅(c1,t,h,w)与所述第四卷积结果X₁₄(c1,t,h,w)进行求和，得到所述第一空间域特征信息Y₁(c1,t,h,w)。

需要说明的是，图2c中的t为第一关联特征信息序列X₀(c,t,h,w)的图像帧个数，h为第一关联特征信息序列X₀(c,t,h,w)的特征长度信息，以及w为第一关联特征信息序列X₀(c,t,h,w)的特征宽度信息。c1为第一卷积结果X₁₁(c1,t,h,w)的通道数。第一卷积结果、第二卷积结果、第三卷积结果，以及第四卷积结果的维度信息都相同。前述通过第一空间关系信息X₃(hw,hw)确定第一空间域特征信息Y₁(c1,t,h,w)的方式，可以将第四变换结果X₅(c1,t,h,w)视为第一关联特征信息序列X₀(c,t,h,w)的空间域特征的权重，叠加至第四卷积结果X₁₄(c1,t,h,w)，进而确定出第一空间域特征信息Y₁(c1,t,h,w)。

S02、根据所述第一关联特征信息序列与所述第一预设时间域特征提取规则，确定所述第一时间域特征信息。

可选地，所述第一预设时间域特征提取规则包括：第三卷积核组、第四卷积核组、第三维度变换函数，以及第四维度变换函数，所述第四维度变换函数为所述第三维度变换函数的逆，S02中，所述根据所述第一关联特征信息序列与所述第一预设时间域特征提取规则，确定所述第一时间域特征信息，包括以下S021-S022：

S021、基于所述第三卷积核组与所述第三维度变换函数，对所述第一关联特征信息序列进行处理，得到所述第一关联特征信息序列对应的第一时间关系信息；

可选地，如图2d所示，所述第三卷积核组包括第五卷积核与第六卷积核，前述第五卷积核与第六卷积核都可以为1×1×1的卷积核，前述S021中，所述基于所述第三卷积核组与所述第三维度变换函数，对所述第一关联特征信息序列进行处理，得到所述第一关联特征信息序列对应的第一时间关系信息，包括以下S0211-S0215：

S0211、通过所述第五卷积核对所述第一关联特征信息序列X₀(c,t,h,w)做卷积处理，得到第五卷积结果X₃₁(c2,t,h,w)，以调整所述第一关联特征信息序列的通道数；

其中，c2为五卷积结果X₃₁(c2,t,h,w)的通道数。第五卷积结果X₃₁(c2,t,h,w)的维度信息可包括：第五卷积结果X₃₁(c2,t,h,w)的通道数c2、第五卷积结果X₃₁(c2,t,h,w)的图像帧个数t，第五卷积结果X₃₁(c2,t,h,w)的特征长度信息h与第五卷积结果X₃₁(c2,t,h,w)的特征宽度信息w。其中，第五卷积结果X₃₁(c2,t,h,w)的图像帧个数与第一关联特征信息序列X₀(c,t,h,w)的图像帧个数相同，以及第五卷积结果X₃₁(c2,t,h,w)的特征长度信息与第一关联特征信息序列X₀(c,t,h,w)的特征长度信息相同，第五卷积结果X₃₁(c2,t,h,w)的特征宽度信息与第一关联特征信息序列X₀(c,t,h,w)的特征宽度信息相同。

S0212、通过所述第三维度变换函数对所述第五卷积结果X₃₁(c2,t,h,w)进行维度变换，得到第五变换结果X₄₁(t,c2hw)，第五变换结果为2维信息，所述第五变换结果X₄₁(t,c2hw)的维度信息包括：所述第五卷积结果X₃₁(c2,t,h,w)的图像帧个数t以及第一乘积，所述第一乘积为所述第五卷积结果X₃₁(c2,t,h,w)的通道数、第五卷积结果X₃₁(c2,t,h,w)的特征长度信息h与所述第五卷积结果X₃₁(c2,t,h,w)的特征宽度信息w的乘积；

在本申请的另一些实施例中，第五变换结果还可以为3维信息，所述第五变换结果的维度信息还可以包括：所述第五卷积结果X₃₁(c2,t,h,w)的图像帧个数，所述第五卷积结果X₃₁(c2,t,h,w)的通道数，以及第五卷积结果X₃₁(c2,t,h,w)的特征长度信息h与所述第五卷积结果X₃₁(c2,t,h,w)的特征宽度信息w的乘积。

在本申请的另一些实施例中，第五变换结果还可以为4维信息，所述第五变换结果的维度信息还可以包括：所述第五卷积结果X₃₁(c2,t,h,w)的图像帧个数，所述第五卷积结果X₃₁(c2,t,h,w)的通道数，以及第五卷积结果X₃₁(c2,t,h,w)的特征长度信息h，以及所述第五卷积结果X₃₁(c2,t,h,w)的特征宽度信息w。

S0213、通过所述第六卷积核对所述第一关联特征信息序列X₀(c,t,h,w)做卷积处理，得到第六卷积结果X₃₂(c2,t,h,w)，以调整所述第一关联特征信息序列X₀(c,t,h,w)的通道数，所述第六卷积结果X₃₂(c2,t,h,w)的通道数与所述第五卷积结果X₃₁(c2,t,h,w)的通道数相同；

S0214、通过所述第三维度变换函数对所述第六卷积结果X₃₂(c2,t,h,w)进行维度变换，得到第六变换结果，所述第六变换结果的维度信息与所述第五变换结果X₄₁(t,c2hw)的维度信息相同；

S0215、计算所述第五变换结果X₄₁(t,c2hw)与所述第六变换结果的转置X₄₂(c2hw,t)的乘积，得到所述第一关联特征信息序列X₀(c,t,h,w)对应的第一时间关系信息X₆(t,t)，所述第一时间关系信息X₆(t,t)的维度信息包括：第五变换结果的图像帧个数，以及第六变换结果的图像帧个数。

S022、基于所述第四卷积核组、所述第三维度变换函数、所述第四维度变换函数，以及所述第一时间关系信息X₆(t,t)确定所述第一时间域特征信息。

可选地，如图2d所示，所述第四卷积核组包括第七卷积核与第八卷积核，前述第七卷积核与第八卷积核可以为1×1×1的卷积核，S022中，基于所述第四卷积核组、所述第三维度变换函数、所述第四维度变换函数以及所述第一时间关系信息确定所述第一时间域特征信息，包括以下S0221-S0227：

S0221、通过所述第七卷积核对所述第一关联特征信息序列X₀(c,t,h,w)做卷积处理，得到第七卷积结果X₃₃(c2,t,h,w)，以调整所述第一关联特征信息序列X₀(c,t,h,w)的通道数，所述第七卷积结果X₃₃(c2,t,h,w)的通道数与所述第六卷积结果X₃₂(c2,t,h,w)的通道数相同；

S0222、通过所述第三维度变换函数对所述第七卷积结果X₃₃(c2,t,h,w)进行维度变换，得到第七变换结果，所述第七变换结果的维度信息与所述第五变换结果X₄₁(t,c2hw)的维度信息相同；

S0223、对所述第一时间关系信息进行归一化处理，得到第二归一化结果；

具体地，可通过Softmax函数对所述第一时间关系信息进行归一化处理，得到第二归一化结果。

S0224、计算所述第二归一化结果与所述第七变换结果的转置X₄₃(c2hw，t)的乘积，得到第二乘积结果X₇(c2hw,t)，所述第二乘积结果X₇(c2hw,t)的维度信息与所述七变换结果的转置的维度信息相同；

S0225、通过所述第四维度变换函数对所述第二乘积结果X₇(c2hw,t)进行维度变换，得到第八变换结果X₈(c2,t,h,w)，所述第八变换结果X₈(c2,t,h,w)的维度信息与所述第七卷积结果X₃₃(c2,t,h,w)的维度信息相同；

S0226、通过所述第八卷积核对所述第一关联特征信息序列X₀(c,t,h,w)做卷积处理，得到第八卷积结果X₃₄(c2,t,h,w)，以调整所述第一关联特征信序列的通道数，所述第八卷积结果X₃₄(c2,t,h,w)的通道数与所述第七卷积结果X₃₃(c2,t,h,w)的通道数相同；

S0227、对所述第八变换结果X₈(c2,t,h,w)与所述第八卷积结果X₃₄(c2,t,h,w)进行求和，得到所述第一时间域特征信息Y₂(c2,t,h,w)。

需要说明的是，图2d中的t为第一关联特征信息序列X₀(c,t,h,w)的图像帧个数，h为第一关联特征信息序列X₀(c,t,h,w)的特征长度信息，以及w为第一关联特征信息序列X₀(c,t,h,w)的特征宽度信息。C2为第五卷积结果X₃₁(c2,t,h,w)的通道数。第五卷积结果、第六卷积结果、第七卷积结果，以及第八卷积结果的维度信息都相同。

前述通过第一时间关系信息X₆(t,t)确定第一时间域特征信息Y₂(c2,t,h,w)的方式，可以将第八变换结果X₈(c2,t,h,w)视为第一关联特征信息序列X₀(c,t,h,w)的时间域特征的权重，叠加至第八卷积结果X₃₄(c2,t,h,w)，进而确定出第一时间域特征信息Y₂(c2,t,h,w)。

S204、基于所述光流图像序列确定第二特征信息，所述第二特征信息包括针对所述光流图像序列的第二空间域特征信息与第二时间域特征信息；

其中，所述光流图像序列包括多个光流图像，S204中，所述基于所述光流图像序列确定第二特征信息，包括以下S2041-S2043：

S2041、针对所述多个光流图像中的各光流图像，获取所述光流图像的前一帧光流图像与所述光流图像的后一帧光流图像；

S2042、基于所述光流图像、所述前一帧光流图像，以及所述后一帧光流图像确定所述光流图像对应的第二关联特征信息，得到所述光流图像序列对应的第二关联特征信息序列，所述第二关联特征信息序列的维度信息包括：所述第二关联特征信息序列的通道数、所述第二关联特征信息序列的图像帧个数、所述第二关联特征信息序列的特征长度信息，以及所述第二关联特征信息序列的特征宽度信息；

在本申请的一些可选的实施例中，基于所述光流图像、所述前一帧光流图像，以及所述后一帧光流图像确定对应的第二关联特征信息的流程可具体参见图2e所示，前述S2042中，基于所述光流图像、所述前一帧光流图像，以及所述后一帧光流图像确定所述光流图像对应的第二关联特征信息，可包括：

对所述光流图像做1×1卷积处理，以对所述光流图像的通道数进行变换，得到第四结果；

对所述光流图像与所述前一帧光流图像做差分运算，得到第三图像；

对所述光流图像与所述后一帧光流图像做差分运算，得到第四图像；

对所述第三图像做1×1卷积处理，以对所述第三图像的通道数进行变换，得到第五结果；

对所述第四图像做1×1卷积处理，以对所述第四图像的通道数进行变换，得到第六结果；

在通道维度对所述第四结果、所述第五结果，以及所述第六结果进行堆叠得到第二待处理特征信息；

基于预设的第二残差网络对所述第二待处理特征信息进行处理，得到所述光流图像对应的第二关联特征信息；其中，第二残差网络可以为ResNet(Residual NeuralNetwork，残差神经)网络，还可以为DenseNet(Densely connected convolutionalnetworks，密集连接的卷积网络)、Swin Transformer等。swin transformer是一个层次结果很明显的网络,底部的结构处理的数据更多也更局部,顶部的网络处理的数据更少但是语义信息更加丰富。

其中，前述光流图像的维度信息包括：光流图像的通道数、光流图像的图像长度信息、光流图像的图像宽度信息。

可选地，前述第四结果、第五结果，以及第六结果的通道数相同。

其中，本申请对通道数的调整，可提高数据处理速度，并且对数据进行卷积，还可起到将数据的特征进行初步融合的作用。

前述第二关联特征信息的维度信息包括：第一关联特征信息的通道数、第二关联特征信息的特征长度信息、第二关联特征信息的特征宽度信息。

当第二关联特征信息为图像信息时，第二关联特征信息的特征长度信息为第二关联特征信息的图像长度信息，以及第二关联特征信息的图像宽度信息。

S2043、根据所述第二关联特征信息序列，第二预设空间域特征提取规则，以及第二预设时间域特征提取规则确定对应的第二特征信息。

需要说明的是，S2043中，根据所述第二关联特征信息序列，第二预设空间域特征提取规则，以及第二预设时间域特征提取规则确定对应的第二特征信息的方式，与根据所述第一关联特征信息序列，第一预设空间域特征提取规则，以及第一预设时间域特征提取规则确定对应的第一特征信息的方式类似，此处不再赘述。具体地，可将前述第一关联特征信序列替换为第二关联特征信息序列、第一预设空间域特征提取规则替换为第二预设空间域特征提取规则，第一预设时间域特征提取规则替换为第二预设时间域特征提取规则以及将第一空间关系信息替换为第二空间关系信息，将第一时间关系信息替换为第二时间关系信息等等。其中，基于第二预设空间域特征提取规则确定第二空间域特征信息的数据处理流程，与基于第一预设空间域特征提取规则确定第一空间域特征信息的数据处理流程相同；且基于第二预设时间域特征提取规则确定第二时间域特征信息的数据处理流程，与基于第一预设时间域特征提取规则确定第一时间域特征信息的数据处理流程相同。

可选地，第一特征信息为第一空间域特征信息与第一时间域特征信息在通道数维度的拼接结果；且第二特征信息为第二空间域特征信息与第二时间域特征信息在通道数维度的拼接结果。

例如，第一空间域特征信息的通道数为c1，第一时间域特征信息的通道数为c2时，第一特征信息的通道数为c3，其中，c3＝c1+c2。

S205、利用所述第一特征信息与所述第二特征信息确定所述视频段对应的行为识别结果。

可选地，S205中，所述利用所述第一特征信息与所述第二特征信息确定所述视频段对应的行为识别结果，包括以下S2051-S2052：

S2051、在通道数维度对所述第一特征信息与所述第二特征信息进行堆叠，得到堆叠结果；

其中，堆叠结果可视为第一特征信息与所述第二特征信息在通道维度的拼接结果。

具体参见图2f所示，第一特征信息U₁与第二特征信息U₂拼接后，得到U₁U₂。其中，第一特征信息U₁的维度信息可以为第一特征信息U₁的通道数、第一特征信息U₁的图像帧个数，第一特征信息U₁的特征长度信息，以及第一特征信息U₁的特征宽度信息。

其中，第一特征信息U₁的通道数为第一空间域特征信息的通道数与第一时间域特征信息的通道数的和；第二特征信息U₂的通道数为第二空间域特征信息的通道数与第二时间域特征信息的通道数的和。

可选地，若第一特征信息U₁的通道数为c3，第二特征信息U₂的通道数也为c3，则堆叠结果的通道数为2c3。

例如，第一特征信息U₁(c3,t,h,w)与第二特征信息U₂(c3,t,h,w)拼接后，在通道数维度堆叠后，得到堆叠结果U₁U₂(2c3,t,h,w)。

S2052、基于第五维度变换函数对所述堆叠结果进行维度变换，得到第一目标变换结果，所述第一目标变换结果的维度信息包括：所述堆叠结果的通道数与第二乘积，所述第二乘积为所述堆叠结果的特征长度信息、所述堆叠结果的特征宽度信息与所述堆叠结果的图像帧个数的乘积；

具体地，基于第五维度变换函数对所述堆叠结果进行维度变换后，可得到第一目标变换结果R1(2c3,hwt)。

S2053、根据所述第一目标变换结果与目标注意力机制网络，确定所述视频段对应的行为识别结果。

可选地，S2053中，根据所述第一目标变换结果与目标注意力机制网络，确定所述视频段对应的行为识别结果，包括S20531-S20532：

S20531、将所述第一目标变换结果输入目标注意力机制网络，得到输出结果；

S20532、基于第六维度变换函数对所述输出结果进行维度变换，得到第二目标变换结果，所述第二目标变换结果的维度信息与所述堆叠结果的维度信息相同；其中，第六维度变换函数为第五维度变换函数的逆。

如图2f所示，将所述第一目标变换结果R1(2c3,hwt)输入目标注意力机制网络,得到输出结果后；基于第六维度变换函数对所述输出结果进行维度变换，得到第二目标变换结果R2(2c3,t,h,w)。

S20533、对所述第二目标变换结果进行拆分，得到分别对应所述RGB图像序列，以及所述光流图像序列的第三特征信息与第四特征信息；

如图2f所示，第三特征信息为U₃(c3,t,h,w)，四特征信息为U₄(c3,t,h,w)。

S20534、对所述第三特征信息与所述第四特征信息进行求和，得到求和结果；

S20535、根据所述求和结果确定所述视频段对应的行为识别结果。

可选地，可基于求和结果与行为识别结果之间的全连接层，确定行为识别结果。

可选地，行为识别结果可以为视频段中的目标对象的行为类型信息，目标对象可以为人物、动物，运动物体等，行为类型信息可以为：驾车超速、随地扔垃圾等。

可选地，目标对象还可以为实验对象，如小白鼠，或细菌，行为类型信息可以为：进食、朝向A方向移动等。

在本申请的一些可选的实施例中，目标注意力机制网络的结构示意图可参见图2g所示，可利用不同的系数权重对第一目标变换结果进行三次线性变换，分别得到第一变换信息Q、第二变换信息K，以及第三变换信息V；计算第一变换信息与第二变换信息的转置的乘积，并通过softmax对该乘积的乘积结果进行归一化处理，得到处理结果，计算该处理结果与第三变换信息的乘积，得到输出结果。

本申请实施例通过获取待识别的视频段；根据所述视频段确定对应的RGB图像序列与光流图像序列；基于所述RGB图像序列确定第一特征信息，所述第一特征信息包括针对所述RGB图像序列的第一空间域特征信息与第一时间域特征信息；基于所述光流图像序列确定第二特征信息，所述第二特征信息包括针对所述光流图像序列的第二空间域特征信息与第二时间域特征信息；利用所述第一特征信息与所述第二特征信息确定所述视频段对应的行为识别结果的方案，可以基于视频帧中的时间域特征以及空间域特征，对视频帧中目标对象的行为进行分析，提高了目标对象的行为识别的准确度。

本申请还提供一种模型训练方法，该模型训练方法可以由终端或服务器执行，也可以由终端和服务器共同执行；本申请实施例以该方法由终端执行为例来进行说明。图3a为本申请实施例提供的模型训练方法的流程示意图，该方法包括S301-S305：

S301、获取样本视频段，以及所述样本视频段对应的目标行为类别标注；

其中，样本视频段可以为接收自图像采集装置的视频中的视频段。

可选地，样本视频段可以为包含的图像帧的数量为预设数量的视频段。

具体地，目标行为类别标注可以为用于指示样本视频段对应的目标行为类别的文字或图像标记。

S302、根据所述样本视频段确定对应的样本RGB图像序列与样本光流图像序列；

其中，样本RGB图像序列包括多个样本RGB图像，以及样本光流图像序列包括多个样本光流图像；

前述多个样本RGB图像可以为样本视频段中的帧图像，在根据样本视频段确定对应的样本RGB图像序列时，还包括对样本RGB图像序列中的多个样本RGB图像进行尺寸对齐，即将样本RGB图像序列中的多个样本RGB图像的尺寸调整至预设尺寸，如m1*n1。

可选地，在确定样本光流图像序列时，也需对样本光流图像序列中的多个样本光流图像进行尺寸对齐，即将样本光流图像序列中的多个样本光流图像的尺寸调整至预设尺寸，如m1*n1，样本光流图像与样本RGB图像的尺寸相同。

可选地，本申请中，调整样本RGB或样本光流图像的尺寸时，可采用双线性插值法。

可选地，样本光流图像序列可根据样本RGB图像序列确定，样本RGB图像与样本光流图像一一对应，在确定样本光流图像时，可将与其对应的样本RGB图像首先变换为灰度图像，再基于TV-L1算法将灰度图像变换为样本光流图像。

可选地，还可将各样本RGB图像的像素值的大小归一化至预设区间，以及将所述各样本光流图像的像素值的大小归一化至预设区间。其中，预设区间可以为[-1，1]。对样本RGB图像的像素值的大小，以及对样本光流图像的像素值的大小的归一化可以方便后续数据的处理，以及行为识别模型的训练速度。

S303、通过行为识别模型中的特征提取模块，基于所述样本RGB图像序列确定第一样本特征信息，以及基于所述样本光流图像序列确定第二样本特征信息；其中，所述第一样本特征信息包括针对所述样本RGB图像序列的第三空间域特征信息与第三时间域特征信息；所述第二样本特征信息包括针对所述样本光流图像序列的第四空间域特征信息与第四时间域特征信息；

可选地，前述特征提取模块包括：差分增强模块、空间域特征提取模块，以及时间域特征提取模块，所述样本RGB图像序列包括多个样本RGB图像，以及所述样本光流图像序列包括多个样本光流图像；

S303中，通过行为识别模型中的特征提取模块，基于所述样本RGB图像序列确定第一样本特征信息，以及基于所述样本光流图像序列确定第二样本特征信息包括以下S3031-S3033：

S3031、通过所述差分增强模块，针对所述多个样本RGB图像中的各样本RGB图像，获取所述样本RGB图像的前一帧样本RGB图像与所述样本RGB图像的后一帧样本RGB图像；基于所述样本RGB图像、所述前一帧样本RGB图像，以及所述后一帧样本RGB图像确定所述样本RGB图像对应的第三关联特征信息，得到所述样本RGB图像序列对应的第三关联特征信息序列；以及针对所述多个样本光流图像中的各样本光流图像，获取所述样本光流图像的前一帧样本光流图像与所述样本光流图像的后一帧样本光流图像；基于所述样本光流图像、所述前一帧样本光流图像，以及所述后一帧样本光流图像确定所述样本光流图像对应的第四关联特征信息，得到所述样本光流图像序列对应的第四关联特征信息序列；

其中，当行为识别模型训练好后，训练好的行为识别模型中的差分增强模块为图2b中，基于所述RGB图像、所述前一帧RGB图像，以及所述后一帧RGB图像确定所述RGB图像对应的第一关联特征信息的功能模块；以及图2e中，基于所述光流图像、所述前一帧光流图像，以及所述后一帧光流图像确定所述光流图像对应的第二关联特征信息的功能模块。其中，训练好的行为识别模型中的差分增强模块中，用于确定第一结果的1×1卷积核、用于确定第二结果的1×1卷积核、用于确定第三结果的1×1卷积核、用于确定第四结果的1×1卷积核、用于确定第五结果的1×1卷积核，以及用于确定第六结果的1×1卷积核的数值，为训练得到的数值。

可选地，训练好的行为识别模型中的差分增强模块中，第一残差网络的参数,与第二残差网络的参数也为训练得到的数值。

即，前述图2b对应的实施例中的，基于所述RGB图像、所述前一帧RGB图像，以及所述后一帧RGB图像确定所述RGB图像对应的第一关联特征信息，可视为：通过训练好的行为识别模型中的差分增强模块，基于所述RGB图像、所述前一帧RGB图像，以及所述后一帧RGB图像确定所述RGB图像对应的第一关联特征信息。且，图2e对应的实施例中，基于所述光流图像、所述前一帧光流图像，以及所述后一帧光流图像确定所述光流图像对应的第二关联特征信息，可视为：通过训练好的行为识别模型中的差分增强模块，基于所述光流图像、所述前一帧光流图像，以及所述后一帧光流图像确定所述光流图像对应的第二关联特征信息。

S3032、通过所述空间域特征提取模块，根据所述第三关联特征信息序列与第三预设空间域特征提取规则，确定所述第三空间域特征信息；以及根据所述第四关联特征信息序列与第四预设空间域特征提取规则，确定所述第四空间域特征信息；

其中，当行为识别模型训练好后，训练好的行为识别模型中的空间域特征提取模块为图2c中，根据所述第一关联特征信息序列与所述第一预设空间域特征提取规则，确定所述第一空间域特征信息的功能模块。以及图中未示出的根据第二关联特征信息序列与所述第二预设空间域特征提取规则，确定所述第二空间域特征信息的功能模块。

即，前述图2c中的根据所述第一关联特征信息序列与所述第一预设空间域特征提取规则，确定所述第一空间域特征信息可视为：通过训练好的行为识别模型中的空间域特征提取模块，根据所述第一关联特征信息序列与所述第一预设空间域特征提取规则，确定所述第一空间域特征信息。且，图中未示出的根据第二关联特征信息序列与所述第二预设空间域特征提取规则，确定所述第二空间域特征信息，可视为：通过训练好的行为识别模型中的空间域特征提取模块，根据第二关联特征信息序列与所述第二预设空间域特征提取规则，确定所述第二空间域特征信息。

其中，训练好的行为识别模型中的空间域特征提取模块中的第一卷积核、第二卷积核、第三卷积核，以及第四卷积核的数值为训练得到的数值。

S3033、通过所述时间域特征提取模块，根据所述第三关联特征信息序列与第三预设时间域特征提取规则，确定所述第三时间域特征信息；以及根据所述第四关联特征信息序列与第四预设时间域特征提取规则，确定所述第四时间域特征信息。

其中，当行为识别模型训练好后，训练好的行为识别模型中的时间域特征提取模块为图2d中，根据所述第一关联特征信息序列与所述第一预设时间域特征提取规则，确定所述第一时间域特征信息的功能模块。以及图中未示出的根据第二关联特征信息序列与所述第二预设时间域特征提取规则，确定所述第二时间域特征信息的功能模块。

即，前述图2d对应的实施例中，根据所述第一关联特征信息序列与所述第一预设时间域特征提取规则，确定所述第一时间域特征信息，可视为：通过训练好的行为识别模型中的时间域特征提取模块，根据所述第一关联特征信息序列与所述第一预设时间域特征提取规则，确定所述第一时间域特征信息。以及图中未示出的根据第二关联特征信息序列与所述第二预设时间域特征提取规则，确定所述第二时间域特征信息，可视为：通过训练好的行为识别模型中的时间域特征提取模块，根据第二关联特征信息序列与所述第二预设时间域特征提取规则，确定所述第二时间域特征信息。

其中，训练好的行为识别模型中的时间域特征提取模块中的第五卷积核、第六卷积核、第七卷积核，以及第八卷积核的数值为训练得到的数值。

S304、通过所述行为识别模型中的分类模块，利用所述第一样本特征信息与所述第二样本特征信息确定所述样本视频段对应的预测行为类别；

其中，当行为识别模型训练好后，训练好的行为识别模型中的分类模块为图2f中，利用所述第一特征信息与所述第二特征信息确定所述视频段对应的行为识别结果的功能模块。

即前述图2f对应的实施例中，利用所述第一特征信息与所述第二特征信息确定所述视频段对应的行为识别结果，可视为：通过训练好的行为识别模型中的分类模块，利用所述第一特征信息与所述第二特征信息确定所述视频段对应的行为识别结果。

可选地，训练好的行为识别模型中的分类模块中，目标注意力机制的参数(如各系数权重)为训练得到的数值。

S305、利用所述预测行为类别、所述目标行为类别标注，对所述行为识别模型进行训练，得到训练好的行为识别模型。

其中，在训练行为识别模型过程中，其中的优化算法可采用随机梯度下降算法或自适应梯度下降算法等，并可通过Dropout等策略防止过拟合；损失函数可采用交叉熵损失函数。其中，dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃。

在本申请的一些可选的实施例中，可参见图3b所示，在行为识别模型训练好后，基于训练好的行为识别模型对视频段进行行为识别时，可首先将视频段进行预处理，得到RGB图像序列与光流图像序列；

并通过训练好的行为识别模型中的差分增强模块中的差分增强单元1确定出RGB图像序列对应的第一关联特征信息序列，以及通过训练好的行为识别模型中的差分增强模块中的差分增强单元2确定出光流图像序列对应的第二关联特征信息序列。

并通过训练好的行为识别模型中的空间域特征提取模块中的空间域特征提取单元1根据所述第一关联特征信息序列与所述第一预设空间域特征提取规则，确定出第一空间域特征信息；以及通过训练好的行为识别模型中的空间域特征提取模块中的空间域特征提取单元2根据所述第二关联特征信息序列与所述第二预设空间域特征提取规则，确定出第二空间域特征信息；并且通过训练好的行为识别模型中的时间域特征提取模块中的时间域特征提取单元1根据所述第一关联特征信息序列与所述第一预设时间域特征提取规则，确定出第一时间域特征信息；以及通过训练好的行为识别模型中的时间域特征提取模块中的时间域特征提取单元2根据所述第二关联特征信息序列与所述第二预设时间域特征提取规则，确定出第二时间域特征信息。

并通过训练好的行为识别模型中的分类模块，利用所述第一特征信息与所述第二特征信息确定所述视频段对应的行为识别结果。

本申请中，前述空间域特征提取模块可提取第一关联特征信息序列空间中每一个像素点与其它像素点之间的依赖关系，且不同时间点的图像帧对行为识别的贡献大小可能不同，前述时间域特征提取模块可挖掘不同时间点的图像帧的重要性，前述分类模块可自适应将具有不同图像模态(即RGB图像与光流图像)特征信息进行自适应融合，提高了行为识别(即行为分类)的准确性。本申请中的模型训练方法采用的深度学习的训练方案，由于在实际应用中相关的标注数据可能缺少，因此本申请中的训练方案可以使用自监督学习的方式对行为识别模型进行预训练，以更好的应用到实际场景中。

本申请提出的基于差分增强网络、空间域特征提取模块，以及时间域特征提取模块的行为识别方法，依据差分增强网络构建行为识别的基础模块，可提取视频帧的局部运动特征，以提高动作识别的精度。其次，本申请提出的空间域特征提取模块，以及时间域特征提取模块可在视频帧对应的特征序列(即第一关联特征信息序列或第二关联特征信息序列)对空间域和时间域进行加权操作，以此提高关键帧以及有效空间区域的权重，进而提高行为识别的准确度。并且，本申请对图像的分析，涉及RGB图像与光流图像，通过分析该两个模态的信息，进一步提高了行为识别的准确度。

本申请还提供一种行为识别方法，该行为识别方法可以由终端或服务器执行，也可以由终端和服务器共同执行；本申请实施例以该方法由终端执行为例来进行说明。图4为本申请实施例提供的行为识别方法的流程示意图，该方法包括S401-S402：

S401、在检测到对象触发的针对选中的待识别的视频段，进行行为识别的识别指令时，将所述视频段输入训练好的行为识别模型，使所述行为识别模型根据所述视频段确定对应的行为识别结果；

其中，终端界面可展示有供对象(可以为用户)选择的多个备选视频段，对象可通过各备选视频段对应的按钮选择待识别的视频段，当检测到对象点击待识别的视频段对应的按钮时，可视为检测到对象触发的针对选中的待识别的视频段，进行行为识别的识别指令。

S402、展示所述行为识别结果；

其中，行为识别结果可以为视频段中的目标对象的行为类型信息，目标对象可以为人物、动物，运动物体等，行为类型信息可以为：驾车超速、随地扔垃圾等。

本申请中的行为识别方法还可用于根据包含病人的行动信息的视频段，确定包含病人的身体状况的行为类型信息的场景。

可选地，对象可通过终端界面展示的控件选中待识别的视频段。

本申请还提供一种行为识别设备，图5为行为识别设备50的结构示意图，该行为识别设备50可包括：

第一获取单元51，用于获取待识别的视频段；

第一确定单元52，用于根据所述视频段确定对应的RGB图像序列与光流图像序列；

第一特征提取单元53，用于基于所述RGB图像序列确定第一特征信息，所述第一特征信息包括针对所述RGB图像序列的第一空间域特征信息与第一时间域特征信息，以及用于基于所述光流图像序列确定第二特征信息，所述第二特征信息包括针对所述光流图像序列的第二空间域特征信息与第二时间域特征信息；

第一识别单元54，用于利用所述第一特征信息与所述第二特征信息确定所述视频段对应的行为识别结果。

可选地，所述RGB图像序列包括多个RGB图像，所述第一特征提取单元53，在用于基于所述RGB图像序列确定第一特征信息时，具体用于：

针对所述多个RGB图像中的各RGB图像，获取所述RGB图像的前一帧RGB图像与所述RGB图像的后一帧RGB图像；

基于所述RGB图像、所述前一帧RGB图像，以及所述后一帧RGB图像确定所述RGB图像对应的第一关联特征信息，得到所述RGB图像序列对应的第一关联特征信息序列，所述第一关联特征信息序列的维度信息包括：所述第一关联特征信息序列的通道数、所述第一关联特征信息序列的图像帧个数、所述第一关联特征信息序列的特征长度信息，以及所述第一关联特征信息序列的特征宽度信息；

根据所述第一关联特征信息序列，第一预设空间域特征提取规则，以及第一预设时间域特征提取规则确定对应的第一特征信息。

可选地，第一特征提取单元53，在用于根据所述第一关联特征信息序列，第一预设空间域特征提取规则，以及第一预设时间域特征提取规则确定对应的第一特征信息时，具体用于：

根据所述第一关联特征信息序列与所述第一预设空间域特征提取规则，确定所述第一空间域特征信息；

根据所述第一关联特征信息序列与所述第一预设时间域特征提取规则，确定所述第一时间域特征信息。

可选地，所述第一预设空间域特征提取规则包括：第一卷积核组、第二卷积核组、第一维度变换函数以及第二维度变换函数，所述第二维度变换函数为所述第一维度变换函数的逆，第一特征提取单元53，在用于根据所述第一关联特征信息序列与所述第一预设空间域特征提取规则，确定所述第一空间域特征信息时，具体用于：

基于所述第一卷积核组与所述第一维度变换函数，对所述第一关联特征信息序列进行处理，得到所述第一关联特征信息序列对应的第一空间关系信息；

基于所述第二卷积核组、所述第一维度变换函数、所述第二维度变换函数，以及所述第一空间关系信息确定所述第一空间域特征信息。

可选地，所述第一卷积核组包括第一卷积核与第二卷积核，第一特征提取单元53，在用于基于所述第一卷积核组与所述第一维度变换函数，对所述第一关联特征信息序列进行处理，得到所述第一关联特征信息序列对应的第一空间关系信息时，具体用于：

通过所述第一卷积核对所述第一关联特征信息序列做卷积处理，得到第一卷积结果，以调整所述第一关联特征信息序列的通道数；

通过所述第一维度变换函数对所述第一卷积结果进行维度变换，得到第一变换结果，所述第一变换结果的维度信息包括：所述第一卷积结果的特征长度信息与特征宽度信息的乘积，以及所述第一卷积结果的通道数与图像帧个数的乘积；

通过所述第二卷积核对所述第一关联特征信息序列做卷积处理，得到第二卷积结果，以调整所述第一关联特征信息序列的通道数，所述第二卷积结果的通道数与所述第一卷积结果的通道数相同；

通过所述第一维度变换函数对所述第二卷积结果进行维度变换，得到第二变换结果，所述第二变换结果的维度信息与所述第一变换结果的维度信息相同；

计算所述第一变换结果与所述第二变换结果的转置的乘积，得到所述第一关联特征信息序列对应的第一空间关系信息，所述第一空间关系信息的维度信息包括：所述第一变换结果的特征长度信息与所述第一变换结果的特征宽度信息的乘积，以及所述第二变换结果的特征长度信息与所述第二变换结果的特征宽度信息的乘积。

可选地，所述第二卷积核组包括第三卷积核与第四卷积核，第一特征提取单元53，在用于基于所述第二卷积核组、所述第一维度变换函数、所述第二维度变换函数，以及所述第一空间关系信息确定所述第一空间域特征信息时，具体用于：

通过所述第三卷积核对所述第一关联特征信息序列做卷积处理，得到第三卷积结果，以调整所述第一关联特征信息序列的通道数，所述第三卷积结果的通道数与所述第二卷积结果的通道数相同；

通过所述第一维度变换函数对所述第三卷积结果进行维度变换，得到第三变换结果，所述第三变换结果的维度信息与所述第一变换结果的维度信息相同；

对所述第一空间关系信息进行归一化处理，得到第一归一化结果；

计算所述第一归一化结果与所述第三变换结果的转置的乘积，得到第一乘积结果，所述第一乘积结果的维度信息与所述第三变换结果的转置的维度信息相同；

通过所述第二维度变换函数对所述第一乘积结果进行维度变换，得到第四变换结果，所述第四变换结果的维度信息与所述第三卷积结果的维度信息相同；

通过所述第四卷积核对所述第一关联特征信息序列做卷积处理，得到第四卷积结果，以调整所述第一关联特征信息序列的通道数，所述第四卷积结果的通道数与所述第三卷积结果的通道数相同；

对所述第四变换结果与所述第四卷积结果进行求和，得到所述第一空间域特征信息。

可选地，所述第一预设时间域特征提取规则包括：第三卷积核组、第四卷积核组、第三维度变换函数，以及第四维度变换函数，所述第四维度变换函数为所述第三维度变换函数的逆，第一特征提取单元53，在用于根据所述第一关联特征信息序列与所述第一预设时间域特征提取规则，确定所述第一时间域特征信息时，具体用于：

基于所述第三卷积核组与所述第三维度变换函数，对所述第一关联特征信息序列进行处理，得到所述第一关联特征信息序列对应的第一时间关系信息；

基于所述第四卷积核组、所述第三维度变换函数、所述第四维度变换函数，以及所述第一时间关系信息确定所述第一时间域特征信息。

可选地，所述第三卷积核组包括第五卷积核与第六卷积核，第一特征提取单元53，在用于基于所述第三卷积核组与所述第三维度变换函数，对所述第一关联特征信息序列进行处理，得到所述第一关联特征信息序列对应的第一时间关系信息时，具体用于：

通过所述第五卷积核对所述第一关联特征信息序列做卷积处理，得到第五卷积结果，以调整所述第一关联特征信息序列的通道数；

通过所述第三维度变换函数对所述第五卷积结果进行维度变换，得到第五变换结果，所述第五变换结果的维度信息包括：所述第五卷积结果的图像帧个数以及第一乘积，所述第一乘积为所述第五卷积结果的通道数、所述第五卷积结果的特征长度信息与所述第五卷积结果的特征宽度信息的乘积；

通过所述第六卷积核对所述第一关联特征信息序列做卷积处理，得到第六卷积结果，以调整所述第一关联特征信息序列的通道数，所述第六卷积结果的通道数与所述第五卷积结果的通道数相同；

通过所述第三维度变换函数对所述第六卷积结果进行维度变换，得到第六变换结果，所述第六变换结果的维度信息与所述第五变换结果的维度信息相同；

计算所述第五变换结果与所述第六变换结果的转置的乘积，得到所述第一关联特征信息序列对应的第一时间关系信息，所述第一时间关系信息的维度信息包括：第五变换结果的图像帧个数，以及第六变换结果的图像帧个数。

可选地，所述第四卷积核组包括第七卷积核与第八卷积核，第一特征提取单元53，在用于基于所述第四卷积核组、所述第三维度变换函数、所述第四维度变换函数以及所述第一时间关系信息确定所述第一时间域特征信息时，具体用于：

通过所述第七卷积核对所述第一关联特征信息序列做卷积处理，得到第七卷积结果，以调整所述第一关联特征信息序列的通道数，所述第七卷积结果的通道数与所述第六卷积结果的通道数相同；

通过所述第三维度变换函数对所述第七卷积结果进行维度变换，得到第七变换结果，所述第七变换结果的维度信息与所述第五变换结果的维度信息相同；

对所述第一时间关系信息进行归一化处理，得到第二归一化结果；

计算所述第二归一化结果与所述第七变换结果的转置的乘积，得到第二乘积结果，所述第二乘积结果的维度信息与所述七变换结果的转置的维度信息相同；

通过所述第四维度变换函数对所述第二乘积结果进行维度变换，得到第八变换结果，所述第八变换结果的维度信息与所述第七卷积结果的维度信息相同；

通过所述第八卷积核对所述第一关联特征信息序列做卷积处理，得到第八卷积结果，以调整所述第一关联特征信序列的通道数，所述第八卷积结果的通道数与所述第七卷积结果的通道数相同；

对所述第八变换结果与所述第八卷积结果进行求和，得到所述第一时间域特征信息。

可选地，所述光流图像序列包括多个光流图像，所述第一特征提取单元53在用于基于所述光流图像序列确定第二特征信息时，具体用于：

针对所述多个光流图像中的各光流图像，获取所述光流图像的前一帧光流图像与所述光流图像的后一帧光流图像；

基于所述光流图像、所述前一帧光流图像，以及所述后一帧光流图像确定所述光流图像对应的第二关联特征信息，得到所述光流图像序列对应的第二关联特征信息序列，所述第二关联特征信息序列的维度信息包括：所述第二关联特征信息序列的通道数、所述第二关联特征信息序列的图像帧个数、所述第二关联特征信息序列的特征长度信息，以及所述第二关联特征信息序列的特征宽度信息；

根据所述第二关联特征信息序列，第二预设空间域特征提取规则，以及第二预设时间域特征提取规则确定对应的第二特征信息。

可选地，第一识别单元54在用于利用所述第一特征信息与所述第二特征信息确定所述视频段对应的行为识别结果时，具体用于：

在通道数维度对所述第一特征信息与所述第二特征信息进行堆叠，得到堆叠结果；

基于第五维度变换函数对所述堆叠结果进行维度变换，得到第一目标变换结果，所述第一目标变换结果的维度信息包括：所述堆叠结果的通道数与第二乘积，所述第二乘积为所述堆叠结果的特征长度信息、所述堆叠结果的特征宽度信息与所述堆叠结果的图像帧个数的乘积；

根据所述第一目标变换结果与目标注意力机制网络，确定所述视频段对应的行为识别结果。

可选地，第一识别单元在用于根据所述第一目标变换结果与目标注意力机制网络，确定所述视频段对应的行为识别结果时，具体用于：

将所述第一目标变换结果输入目标注意力机制网络，得到输出结果；

基于第六维度变换函数对所述输出结果进行维度变换，得到第二目标变换结果，所述第二目标变换结果的维度信息与所述堆叠结果的维度信息相同；

对所述第二目标变换结果进行拆分，得到分别对应所述RGB图像序列，以及所述光流图像序列的第三特征信息与第四特征信息；

对所述第三特征信息与所述第四特征信息进行求和，得到求和结果；

根据所述求和结果确定所述视频段对应的行为识别结果。

上述行为识别设备50的各个单元可全部或部分通过软件、硬件及其组合来实现。上述各个单元可以以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行上述各个单元对应的操作。

行为识别设备50，可以集成在具备储存器并安装有处理器而具有运算能力的终端或服务器中，或者该行为识别设备50为该终端或服务器。

本申请还提供一种模型训练设备，图6为模型训练设备60的结构示意图，该模型训练设备60可包括：

第二获取单元61，用于获取样本视频段，以及所述样本视频段对应的目标行为类别标注；

第二确定单元62，用于根据所述样本视频段确定对应的样本RGB图像序列与样本光流图像序列；

第二特征提取单元63，用于通过行为识别模型中的特征提取模块，基于所述样本RGB图像序列确定第一样本特征信息，以及基于所述样本光流图像序列确定第二样本特征信息；其中，所述第一样本特征信息包括针对所述样本RGB图像序列的第三空间域特征信息与第三时间域特征信息；所述第二样本特征信息包括针对所述样本光流图像序列的第四空间域特征信息与第四时间域特征信息；

第二识别单元64，用于通过所述行为识别模型中的分类模块，利用所述第一样本特征信息与所述第二样本特征信息确定所述样本视频段对应的预测行为类别；

训练单元65，用于利用所述预测行为类别、所述目标行为类别标注，对所述行为识别模型进行训练，得到训练好的行为识别模型。

可选地，所述特征提取模块包括：差分增强模块、空间域特征提取模块，以及时间域特征提取模块，所述样本RGB图像序列包括多个样本RGB图像，以及所述样本光流图像序列包括多个样本光流图像；

第二特征提取单元63，在用于通过行为识别模型中的特征提取模块，基于所述样本RGB图像序列确定第一样本特征信息，以及基于所述样本光流图像序列确定第二样本特征信息时，具体用于：

通过所述差分增强模块，针对所述多个样本RGB图像中的各样本RGB图像，获取所述样本RGB图像的前一帧样本RGB图像与所述样本RGB图像的后一帧样本RGB图像；基于所述样本RGB图像、所述前一帧样本RGB图像，以及所述后一帧样本RGB图像确定所述样本RGB图像对应的第三关联特征信息，得到所述样本RGB图像序列对应的第三关联特征信息序列；以及针对所述多个样本光流图像中的各样本光流图像，获取所述样本光流图像的前一帧样本光流图像与所述样本光流图像的后一帧样本光流图像；基于所述样本光流图像、所述前一帧样本光流图像，以及所述后一帧样本光流图像确定所述样本光流图像对应的第四关联特征信息，得到所述样本光流图像序列对应的第四关联特征信息序列；

通过所述空间域特征提取模块，根据所述第三关联特征信息序列与第三预设空间域特征提取规则，确定所述第三空间域特征信息；以及根据所述第四关联特征信息序列与第四预设空间域特征提取规则，确定所述第四空间域特征信息；

通过所述时间域特征提取模块，根据所述第三关联特征信息序列与第三预设时间域特征提取规则，确定所述第三时间域特征信息；以及根据所述第四关联特征信息序列与第四预设时间域特征提取规则，确定所述第四时间域特征信息。

上述模型训练设备60的各个单元可全部或部分通过软件、硬件及其组合来实现。上述各个单元可以以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行上述各个单元对应的操作。

模型训练设备60，可以集成在具备储存器并安装有处理器而具有运算能力的终端或服务器中，或者该模型训练设备60为该终端或服务器。

本申请还提供一种行为识别设备，图7为行为识别设备70的结构示意图，该行为识别设备70可包括：

检测单元71，用于在检测到对象触发的针对选中的待识别的视频段，进行行为识别的识别指令时，将所述视频段输入训练好的行为识别模型，使所述行为识别模型根据所述视频段确定对应的行为识别结果；

展示单元72，用于展示所述行为识别结果；

上述行为识别设备70的各个单元可全部或部分通过软件、硬件及其组合来实现。上述各个单元可以以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行上述各个单元对应的操作。

行为识别设备70，可以集成在具备储存器并安装有处理器而具有运算能力的终端或服务器中，或者该行为识别设备70为该终端或服务器。

上述所有的技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

可选的，本申请还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

图8为本申请实施例提供的计算机设备的结构示意图，该计算机设备可以是前述的行为识别设备或模型训练设备。如图8所示，该计算机设备800可以包括：通信接口801，存储器802，处理器803和通信总线804。通信接口801，存储器802，处理器803通过通信总线804实现相互间的通信。通信接口801用于计算机设备800与外部设备进行数据通信。存储器802可用于存储软件程序以及模块，处理器803通过运行存储在存储器802的软件程序以及模块，例如前述方法实施例中的相应操作的软件程序。

可选的，该处理器803可以调用存储在存储器802的软件程序以及模块执行如下操作：

获取待识别的视频段；

根据所述视频段确定对应的RGB图像序列与光流图像序列；

可选的，该处理器803还可以调用存储在存储器802的软件程序以及模块执行如下操作：

展示所述行为识别结果；

本申请还提供了一种计算机可读存储介质，用于存储计算机程序。该计算机可读存储介质可应用于计算机设备，并且该计算机程序使得计算机设备执行本申请实施例中的各方法中的相应流程，为了简洁，在此不再赘述。

本申请还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得计算机设备执行本申请实施例中的各方法中的相应流程，为了简洁，在此不再赘述。

本申请还提供了一种计算机程序，该计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得计算机设备执行本申请实施例中的各方法中的相应流程，为了简洁，在此不再赘述。

应理解，本申请实施例的处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

应理解，上述存储器为示例性但不是限制性说明，例如，本申请实施例中的存储器还可以是静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)以及直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)等等。也就是说，本申请实施例中的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种行为识别方法，其特征在于，所述方法包括：

获取待识别的视频段；

根据所述视频段确定对应的RGB图像序列与光流图像序列；

2.根据权利要求1所述的方法，其特征在于，所述RGB图像序列包括多个RGB图像，所述基于所述RGB图像序列确定第一特征信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一关联特征信息序列，第一预设空间域特征提取规则，以及第一预设时间域特征提取规则确定对应的第一特征信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述第一预设空间域特征提取规则包括：第一卷积核组、第二卷积核组、第一维度变换函数以及第二维度变换函数，所述第二维度变换函数为所述第一维度变换函数的逆，根据所述第一关联特征信息序列与所述第一预设空间域特征提取规则，确定所述第一空间域特征信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述第一卷积核组包括第一卷积核与第二卷积核，所述基于所述第一卷积核组与所述第一维度变换函数，对所述第一关联特征信息序列进行处理，得到所述第一关联特征信息序列对应的第一空间关系信息，包括：

6.根据权利要求5所述的方法，其特征在于，所述第二卷积核组包括第三卷积核与第四卷积核，所述基于所述第二卷积核组、所述第一维度变换函数、所述第二维度变换函数，以及所述第一空间关系信息确定所述第一空间域特征信息，包括：

7.根据权利要求3所述的方法，其特征在于，所述第一预设时间域特征提取规则包括：第三卷积核组、第四卷积核组、第三维度变换函数，以及第四维度变换函数，所述第四维度变换函数为所述第三维度变换函数的逆，所述根据所述第一关联特征信息序列与所述第一预设时间域特征提取规则，确定所述第一时间域特征信息，包括：

8.根据权利要求7所述的方法，其特征在于，所述第三卷积核组包括第五卷积核与第六卷积核，所述基于所述第三卷积核组与所述第三维度变换函数，对所述第一关联特征信息序列进行处理，得到所述第一关联特征信息序列对应的第一时间关系信息，包括：

9.根据权利要求8所述的方法，其特征在于，所述第四卷积核组包括第七卷积核与第八卷积核，所述基于所述第四卷积核组、所述第三维度变换函数、所述第四维度变换函数以及所述第一时间关系信息确定所述第一时间域特征信息，包括：

10.根据权利要求1所述的方法，其特征在于，所述光流图像序列包括多个光流图像，所述基于所述光流图像序列确定第二特征信息，包括：

11.根据权利要求1所述的方法，其特征在于，所述利用所述第一特征信息与所述第二特征信息确定所述视频段对应的行为识别结果，包括：

12.根据权利要求11所述的方法，其特征在于，所述根据所述第一目标变换结果与目标注意力机制网络，确定所述视频段对应的行为识别结果，包括：

根据所述求和结果确定所述视频段对应的行为识别结果。

13.一种模型训练方法，其特征在于，所述方法包括：

14.根据权利要求13所述的方法，其特征在于，所述特征提取模块包括：差分增强模块、空间域特征提取模块，以及时间域特征提取模块，所述样本RGB图像序列包括多个样本RGB图像，以及所述样本光流图像序列包括多个样本光流图像；

通过行为识别模型中的特征提取模块，基于所述样本RGB图像序列确定第一样本特征信息，以及基于所述样本光流图像序列确定第二样本特征信息，包括：

15.一种行为识别方法，其特征在于，包括：

展示所述行为识别结果；

其中，所述训练好的行为识别模型为基于前述权利要求13所述的模型训练方法训练出的行为识别模型。

16.一种行为识别设备，其特征在于，包括：

第一获取单元，用于获取待识别的视频段；

第一特征提取单元，用于基于所述RGB图像序列确定第一特征信息，所述第一特征信息包括针对所述RGB图像序列的第一空间域特征信息与第一时间域特征信息；以及用于基于所述光流图像序列确定第二特征信息，所述第二特征信息包括针对所述光流图像序列的第二空间域特征信息与第二时间域特征信息；

17.一种模型训练设备，其特征在于，包括：

18.一种行为识别设备，其特征在于，包括：

展示单元，用于展示所述行为识别结果；

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行权利要求1-12中任一项或权利要求15所述的行为识别方法，或权利要求13-14中任一项所述的模型训练方法中的步骤。

20.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行权利要求1-12中任一项或权利要求15所述的行为识别方法，或权利要求13-14中任一项所述的模型训练方法中的步骤。

21.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1-12中任一项或权利要求15所述的行为识别方法，或权利要求13-14中任一项所述的模型训练方法中的步骤。