CN116129330A

CN116129330A - 基于视频的图像处理、行为识别、分割、检测方法及设备

Info

Publication number: CN116129330A
Application number: CN202310275786.7A
Authority: CN
Inventors: 项王盟; 李超; 耿益锋
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-05-16
Anticipated expiration: 2043-03-14
Also published as: CN116129330B

Abstract

本申请提供一种基于视频的图像处理、行为识别、分割、检测方法及设备。本申请的方法，对目标对象的视频帧序列的第一图像特征中的图像块特征进行时空聚类，根据时空聚类结果向第一图像特征嵌入目标对象的轨迹特征，并将属于同一聚类的图像块特征聚合得到第三图像特征，第三图像特征的token数量远小于第一图像特征的token数量；对token数量多的第一图像特征仅在空间维度进行空间自注意力计算，对token数量少的第三图像特征进行时空自注意力计算，可减少注意力机制计算量；通过将两路自注意力计算的结果融合得到的融合特征包含丰富的图像特征和时空特征，能保证图像处理的精准度，同时减少计算量、提升效率。

Description

基于视频的图像处理、行为识别、分割、检测方法及设备

技术领域

本申请涉及计算机技术中的图像处理、识别、分割和检测等领域，尤其涉及一种基于视频的图像处理、行为识别、分割、检测方法及设备。

背景技术

在图像处理领域中的视频行为识别、视频分割、视频检测等任务中，需要使用视觉变换器(Vision Transformer，简称ViT)的编码模块对视频中的图像块特征(token)进行全局的时空自注意力计算，由于视频的token数量较多，时空自注意力的计算量巨大、效率低，在应用于视频行为识别、视频分割、视频检测等图像处理任务时的执行效率低。

发明内容

本申请提供一种基于视频的图像处理、行为识别、分割、检测方法及设备，用以解决现有ViT模型应用于视频行为识别、视频分割、视频检测等图像处理任务时效率低的问题。

第一方面，本申请提供一种基于视频的图像处理方法，包括：

获取目标对象的视频帧序列，并获取所述视频帧序列的第一图像特征，所述第一图像特征包含多个图像块特征；对所述多个图像块特征进行时空聚类，得到时空聚类结果，所述时空聚类结果指示所述图像块特征所在的聚类；根据所述时空聚类结果，向所述第一图像特征嵌入所述目标对象的轨迹特征得到第二图像特征，将所述第二图像特征中属于同一聚类的图像块特征聚合，得到第三图像特征；将对所述第一图像特征的空间自注意力计算的第一结果，与对所述第三图像特征的时空自注意力计算的第二结果融合，得到融合特征；根据所述融合特征进行图像处理，得到所述目标对象的图像处理结果。

第二方面，本申请提供一种视频行为识别方法，包括：

获取包含目标对象行为信息的视频帧序列，并获取所述视频帧序列的第一图像特征，所述第一图像特征包含多个图像块特征；对所述多个图像块特征进行时空聚类，得到时空聚类结果，所述时空聚类结果指示所述图像块特征所在的聚类；根据所述时空聚类结果，向所述第一图像特征嵌入所述目标对象的轨迹特征得到第二图像特征，将所述第二图像特征中属于同一聚类的图像块特征聚合，得到第三图像特征；将对所述第一图像特征的空间自注意力计算的第一结果，与对所述第三图像特征的时空自注意力计算的第二结果融合，得到融合特征；根据所述融合特征进行行为分类识别，得到所述视频帧序列中所述目标对象的行为类别信息。

第三方面，本申请提供一种视频分割方法，包括：

获取包含目标对象的视频帧序列，并获取所述视频帧序列的第一图像特征，所述第一图像特征包含多个图像块特征；对所述多个图像块特征进行时空聚类，得到时空聚类结果，所述时空聚类结果指示所述图像块特征所在的聚类；根据所述时空聚类结果，向所述第一图像特征嵌入所述目标对象的轨迹特征得到第二图像特征，将所述第二图像特征中属于同一聚类的图像块特征聚合，得到第三图像特征；将对所述第一图像特征的空间自注意力计算的第一结果，与对所述第三图像特征的时空自注意力计算的第二结果融合，得到融合特征；根据所述融合特征进行视频分割，得到所述目标对象在所述视频帧序列所包含的视频帧上的位置信息。

第四方面，本申请提供一种视频检测方法，包括：

获取包含目标对象的视频帧序列，并获取所述视频帧序列的第一图像特征，所述第一图像特征包含多个图像块特征；对所述多个图像块特征进行时空聚类，得到时空聚类结果，所述时空聚类结果指示所述图像块特征所在的聚类；根据所述时空聚类结果，向所述第一图像特征嵌入所述目标对象的轨迹特征得到第二图像特征，将所述第二图像特征中属于同一聚类的图像块特征聚合，得到第三图像特征；将对所述第一图像特征的空间自注意力计算的第一结果，与对所述第三图像特征的时空自注意力计算的第二结果融合，得到融合特征；根据所述融合特征进行视频目标检测，在所述视频帧序列所包含的视频帧中确定所述目标对象的边界框。

第五方面，本申请提供一种云服务器，包括：处理器，以及与所述处理器通信连接的存储器；所述存储器存储计算机执行指令；所述处理器执行所述存储器存储的计算机执行指令，以实现上述任一方面所述的方法。

第六方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现上述任一方面所述的方法。

本申请提供的基于视频的图像处理、行为识别、分割、检测方法及设备，通过获取目标对象的视频帧序列的第一图像特征，对第一图像特征包含的多个图像块特征进行时空聚类得到时空聚类结果，根据时空聚类结果向第一图像特征嵌入目标对象的轨迹特征得到第二图像特征，将第二图像特征中属于同一聚类的图像块特征聚合，得到第三图像特征，由于时空聚类结果中聚类数量远小于第一图像特征包含的图像块特征的数量，因此基于聚类聚合得到的第三图像特征的token数量远小于第一图像特征的token数量；在进行注意力计算时，对token数量较多的第一图像特征进行空间自注意力计算，仅在空间维度对第一图像进行自注意力计算，对token数量较少的第三图像特征进行时空自注意力计算，可以大大减少注意力机制的计算量；进一步地，通过将对第一图像特征的空间自注意力计算的第一结果和对第三图像特征的时空自注意力计算的第二结果融合，使得得到的融合特征既包含丰富的图像特征，也包含目标对象的轨迹特征，也即包含丰富的时空特征，根据融合特征进行图像处理得到的目标对象的图像处理结果具有较高的精准度，从而在减少计算量、提升效率的同时，保证编码阶段输出特征的时空建模能力，从而保证图像处理的精准度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请所适用的一种示例性的视频处理系统架构图；

图2为本申请一示例性实施例提供的基于视频的图像处理方法的流程图；

图3为传统的ViT使用的编码部分的结构示意图；

图4为本申请一示例性实施例提供的TESA编码块的结构示意图；

图5为本申请一示例性实施例提供的TESA编码块的一种详细结构示意图；

图6为本申请一示例性实施例提供的轨迹嵌入编码模型的结构示意图；

图7为本申请另一示例性实施例提供的基于视频的图像处理方法的详细流程图；

图8为本申请另一示例性实施例提供的视频行为识别方法流程图；

图9为本申请另一示例性实施例提供的视频分割方法流程图；

图10为本申请另一示例性实施例提供的视频检测方法流程图；

图11为本申请一示例性实施例提供的基于视频的图像处理装置的结构示意图；

图12为本申请实施例提供的一种云服务器的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

首先对本申请所涉及的名词进行解释：

Transformer：是一个利用注意力机制来提高模型训练速度的模型，包括编码(Encoder)部分和解码(Decoder)部分。

视觉变换器(Vision Transformer，简称ViT)：对Transformer的结构进行一定改动形成适用于图像分类任务的模型。ViT使用了Transformer的编码(Encoder)部分。标准Transformer的输入是一维序列数据，ViT将一张图片无重叠切分成固定大小的图像块，将图像块映射为一个固定维度的向量，称为图像块特征(Patch_embedding)。

token：在ViT中是指图像块特征，本实施例中也指代图像块特征。

Dynamic ViT：是一种基于动态token稀疏化的高效视觉变换器。

时空聚类：是基于图像块所在视频帧的时间信息、图像块在视频帧中的位置信息，将图像块的图像块特征在时间和空间(位置信息)这两个维度进行聚类，将满足时间和空间分组条件的图像块特征分到同一聚类中。本实施例中通过时空聚类将视频帧序列中多个视频帧的图像块特征中相似的图像块特征聚集到同一聚类中，可以获取到视频帧中目标对象的轨迹信息。

时空信息：图像块特征的时空信息包含图像块特征对应的图像块所在视频帧的时间信息，以及图像块在视频帧中的空间位置信息。该时空信息为3*Ns*T的张量，其中T表示视频帧序列包含的视频帧的数量，Ns表示将一个视频帧划分成的图像块的数量，该时空信息存储了Ns*T个图像块特征的三维时空信息，其中一个维度为图像块所在视频帧的时序信息，剩余两个维度为图像块在视频帧中的空间位置信息(如所在行、列的坐标)。

在图像处理领域中的视频行为识别、视频分割、视频检测等任务中，在特征编码阶段，需要使用视觉变换器(Vision Transformer，简称ViT)的编码模块对视频中的图像块特征(token)进行全局的时空自注意力计算，由于视频的token数量较多，时空自注意力的计算量巨大、效率低，导致下游的视频行为识别、视频分割、视频检测等图像处理任务的执行效率低。

传统的解决方法，如Dynamic ViT，通过识别出信息量较少的冗余token，对冗余token进行剪枝，仅保留少量信息量较大的token，通过减少token数量来减少时空自注意力计算的复杂度，但是剪掉大量token会破坏原来的图像结果，影响下游的图像处理任务执行结果的精准度。

本申请提供一种基于视频的图像处理方法，在获取目标对象的视频帧序列，并获取视频帧序列的第一图像特征之后，在特征编码阶段，对第一图像特征所包含的多个图像块特征进行时空聚类，得到时空聚类结果，根据时空聚类结果，向第一图像特征嵌入目标对象的轨迹特征得到第二图像特征，将第二图像特征中属于同一聚类的图像块特征聚合，得到第三图像特征；进行注意力计算时，对第三图像特征的时空自注意力计算得到第二结果，并对第一图像特征的空间自注意力计算得到第一结果，将第一结果与第二结果融合得到融合特征，根据融合特征进行图像处理，得到目标对象的图像处理结果，在特征编码阶段，将注意力计算分为两路，一路对包括图像块特征数量较多的第一图像特征，进行空间自注意力计算，相较于对第一图像特征进行时空自注意力计算，显著减少了计算量；另一路对第一图像特征中的图像块特征聚类，通过聚合同一聚类中的图像块特征得到第三图像特征，可以大大减少第三图像特征中图像块特征的数量，对包含图像块数量较少的第三图像特征进行时空自注意力聚类，计算量也较小，并且通过轨迹嵌入可以保证时空建模能力，因此大大减少了计算量，提升了基于视频的图像处理任务的执行效率，并且可以确保基于视频的图像处理任务的执行结果的精准度。相较于Dynamic ViT为减少计算量而影响了下游视频图像处理结果的精准度，本实施例的方法不仅可以减少计算量，同时提升了下游的视频行为识别、视频分割、视频检测等视频图像处理任务的精准度。

图1为本申请所适用的一种示例性的视频处理系统架构图，如图1所示，该系统架构具体可包括云服务器以及端侧设备。

其中，云服务器具体可为设置在云端的服务器集群，云服务器与各个端侧设备间具有可通信的通信链路，能够实现云服务器与各个端侧设备间的通信连接。云服务器存储有预先训练好的图像处理模型，该图像处理模型包含编码网络和预测器，编码网络使用轨迹嵌入编码模型。云服务器可以基于图像处理模型的编码网络将视频帧序列编码为特征，利用任务处理网络根据编码得到的特征进行图像处理，得到目标对象的图像处理结果。

端侧设备具体可以为各个用户所使用的具有网络通信功能、运算功能以及信息显示功能的硬件设备，其包括但不限于智能手机、平板电脑、台式电脑、车载终端、物联网设备、服务器等。

用户通过所使用的端侧设备与云服务器进行交互，实现基于视频的图像处理的功能。具体地，用户可通过所使用的端侧设备向云服务器发送视频帧序列，云服务器接收端侧设备发送的视频帧序列，并获取视频帧序列的第一图像特征，利用图像处理模型的编码网络，对第一图像特征包含的多个图像块特征进行时空聚类，得到时空聚类结果，时空聚类结果指示图像块特征所在的聚类；根据时空聚类结果，进行轨迹嵌入，以向第一图像特征嵌入目标对象的轨迹特征得到第二图像特征，将第二图像特征中属于同一聚类的图像块特征聚合，得到第三图像特征；将对第一图像特征的空间自注意力计算的第一结果，与对第三图像特征的时空自注意力计算的第二结果融合，得到融合特征；根据融合特征进行图像处理，得到目标对象的图像处理结果。云服务器将图像处理结果输出至端侧设备。端侧设备将云服务器返回的图像处理结果进行显示，以向用户输出图像处理结果。

一种可能的应用场景为视频行为识别的场景，例如，识别驾驶过程中驾驶员的危险行为，并发出警示信息；在特定时段检测特定场所内目标对象的违规行为(如吸烟、打电话、开门等)，并发出警示信息或将识别结果推送到指定设备。对于视频行为识别场景，端侧设备可以是监测系统的服务器、车载终端、用户使用的智能手机等设备，此处不做具体限定。端侧设备向云服务器提供包含目标对象行为信息的视频帧序列，其中，目标对象可以是视频中出现的任意的人/物，可以是用户指定的特定的人/物。云服务器接收端侧设备发送的视频帧序列，并获取视频帧序列的第一图像特征，利用图像处理模型的编码网络，对第一图像特征包含的多个图像块特征进行时空聚类，得到时空聚类结果，时空聚类结果指示图像块特征所在的聚类；根据时空聚类结果，向第一图像特征嵌入目标对象的轨迹特征得到第二图像特征，将第二图像特征中属于同一聚类的图像块特征聚合，得到第三图像特征；将对第一图像特征的空间自注意力计算的第一结果，与对第三图像特征的时空自注意力计算的第二结果融合，得到融合特征；进一步地，根据融合特征进行行为分类识别，得到视频帧序列中目标对象的行为类别信息。

云服务器可以将目标对象的行为类别信息输出至端侧设备，端侧设备将云服务器返回的行为类别信息进行显示。云服务器可以根据目标对象的行为类别信息，向端侧设备输出指示信息，该指示信息用于指示目标对象的行为类别信息。端侧设备根据云服务器返回的知识信息，执行与目标对象的行为类别信息相对应的处理流程，例如，向目标对象使用的终端设备推送警示信息等。

一种可能的应用场景为视频分割场景，例如，从视频帧序列中的多个视频帧中分割出目标对象(人/物体)所在区域，根据分割结果可以进一步进行目标对象的行为识别或行为展示等。例如，从舞者的舞蹈视频中的多个视频帧中分割出舞者区域，以分解舞者的舞蹈动作，以生成教学素材并展示，或者，供舞者观看并判断自身舞蹈动作是否标准是否需要修正等。对于视频分割场景，端侧设备可以是监测系统的服务器、用户使用的智能手机等终端设备，此处不做具体限定。端侧设备向云服务器提供包含目标对象的视频帧序列，其中，目标对象可以是视频中出现的任意的人/物，可以是用户指定的特定的人/物。云服务器接收端侧设备发送的视频帧序列，并获取视频帧序列的第一图像特征，利用图像处理模型的编码网络，对第一图像特征包含的多个图像块特征进行时空聚类，得到时空聚类结果，时空聚类结果指示图像块特征所在的聚类；根据时空聚类结果，向第一图像特征嵌入目标对象的轨迹特征得到第二图像特征，将第二图像特征中属于同一聚类的图像块特征聚合，得到第三图像特征；将对第一图像特征的空间自注意力计算的第一结果，与对第三图像特征的时空自注意力计算的第二结果融合，得到融合特征；进一步地，根据融合特征进行视频分割，得到目标对象在视频帧序列所包含的视频帧上的位置信息。

云服务器可以将目标对象在视频帧序列所包含的视频帧上的位置信息输出至端侧设备，端侧设备将云服务器返回的目标对象在视频帧序列所包含的视频帧上的位置信息进行显示。云服务器可以根据目标对象在视频帧上的位置信息，抠出目标对象的图像，还可以基于用户需求根据抠出的目标对象的图像进行后续处理，得到用户想要的处理结果，向端侧设备输出处理结果。

一种可能的应用场景为视频检测场景，例如，在视频帧序列中的多个视频帧中检测出目标对象的边界框(也即包围框)。例如，在某一场所的监测视频中检测目标对象的边界框，以用于发现目标对象出现的位置。对于视频检测场景，端侧设备可以是监测系统的服务器、用户使用的智能手机等终端设备，此处不做具体限定。端侧设备向云服务器提供包含目标对象的视频帧序列，其中，目标对象可以是视频中出现的任意的人/物，可以是用户指定的特定的人/物。云服务器接收端侧设备发送的视频帧序列，并获取视频帧序列的第一图像特征，利用图像处理模型的编码网络，对第一图像特征包含的多个图像块特征进行时空聚类，得到时空聚类结果，时空聚类结果指示图像块特征所在的聚类；根据时空聚类结果，向第一图像特征嵌入目标对象的轨迹特征得到第二图像特征，将第二图像特征中属于同一聚类的图像块特征聚合，得到第三图像特征；将对第一图像特征的空间自注意力计算的第一结果，与对第三图像特征的时空自注意力计算的第二结果融合，得到融合特征；进一步地，根据融合特征进行视频目标检测，在视频帧序列所包含的视频帧中确定目标对象的边界框。

云服务器可以在视频帧中标记出目标对象的边界框，将标记了目标对象的边界框的视频帧输出至端侧设备，端侧设备将云服务器返回的标记了目标对象的边界框的视频帧进行显示。云服务器可以根据视频帧中确定目标对象的边界框，基于用户需求根据抠出的目标对象的图像进行后续处理，得到用户想要的处理结果，向端侧设备输出处理结果。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2为本申请一示例性实施例提供的基于视频的图像处理方法的流程图。本实施例的执行主体为上述提及的云服务器。如图2所示，该方法具体步骤如下：

步骤S201、获取目标对象的视频帧序列，并获取视频帧序列的第一图像特征，第一图像特征包含多个图像块特征。

其中，目标对象的视频帧序列是指从目标对象的视频数据中抽取部分或全部的多个视频帧，按照时间顺序排列而成的图像序列。

示例性地，可以从监测视频中截取的指定时段或包含指定目标的视频片段，目标对象的视频帧序列是视频片段包含的视频帧排列而成的序列，或者，目标对象的视频帧序列是按照预设时间间隔从指定目标的视频片段中抽取的视频帧排列而成的序列。

例如，可以截取上课时段教室讲台区域内教师的授课视频片段，将该授课视频片段保护的视频帧排列成目标对象的视频帧序列，目标对象即为该教师，基于教师的视频帧序列识别教师在授课期间是否有预设行为，实现视频行为识别的功能。

本实施例中，视频帧序列的第一图像特征包含多个图像块特征，通过将视频帧序列包含的视频帧划分为多个图像块，将图像块线性映射(Linear Projection)为嵌入向量(embedding)，本实施例中将图像块的嵌入向量称为图像块特征，本实施例中将图像块特征作为token。视频帧序列的第一图像特征包含该视频帧序列所包含的视频帧的图像块特征。通常目标对象的视频帧序列包含的视频帧较多，划分成的图像块数量更多，第一图像特征包含大量的图像块特征(token)。示例性地，用T表示视频帧序列包含的视频帧的数量，Ns表示将一个视频帧划分成的图像块的数量(也即单一视频帧的token数量)，那么第一图像特征共包含Ns*T个图像块特征，也即第一图像特征包含Ns*T个token。

步骤S202、对多个图像块特征进行时空聚类，得到时空聚类结果，时空聚类结果指示图像块特征所在的聚类。

该步骤中，采用时空聚类算法对多个图像块特征进行时空聚类，将视频帧序列中局部相似的图像块聚集到相同聚类(或称为簇、类)中，得到时空聚类结果。时空聚类结果是1*Ns*T的张量，指示Ns*T个图像块特征(token)对应的聚类。时空聚类结果中聚类的数量远小于图像块特征(token)的数量。

步骤S203、根据时空聚类结果，向第一图像特征嵌入目标对象的轨迹特征得到第二图像特征，将第二图像特征中属于同一聚类的图像块特征聚合，得到第三图像特征。

本实施例中，在将图像块特征进行时空聚类得到时空聚类结果之后，提取视频帧序列中目标对象的轨迹特征(包含时空信息)并将目标对象的轨迹特征嵌入第一图像特征，使得得到的第二图像特征包含丰富的时空信息，提升时空建模能力。进一步地，基于嵌入了轨迹特征的第二图像特征，将属于同一聚类图像块特征(token)聚合为一个token，聚合之后得到的第三图像特征中token的数量等于时空聚类结果中聚类的数量，远小于第一图像特征包含的token的数量。

步骤S204、将对第一图像特征的空间自注意力计算的第一结果，与对第三图像特征的时空自注意力计算的第二结果融合，得到融合特征。

在进行注意力计算时，对第一图像特征进行空间自注意力计算，仅在空间维度对第一图像进行自注意力计算，也即仅在同一视频帧对应的图像块特征(token)间进行注意力计算，相较于对第一图像特征进行全局的时空自注意力计算，大大减少了计算量；同时，对包含token数量较少的第三图像特征进行时空自注意力计算，计算量较少，整体上大大减少了注意力机制的计算量。

进一步地，通过将对第一图像特征的空间自注意力计算的第一结果和对第三图像特征的时空自注意力计算的第二结果融合，使得得到的融合特征既包含丰富的图像特征，也包含目标对象的轨迹特征(也即包含丰富的时空特征)，通过轨迹嵌入的方法，在保证时空建模能力的同时，大大减少了计算量，提升了视频编码阶段的效率。

步骤S205、根据融合特征进行图像处理，得到目标对象的图像处理结果。

本实施例中得到的融合特征不仅包含丰富的图像特征，也包含目标对象的轨迹特征(也即包含丰富的时空特征)，根据融合特征进行图像处理得到的目标对象的图像处理结果具有较高的精准度。

本实施例中，通过获取目标对象的视频帧序列的第一图像特征，对第一图像特征包含的多个图像块特征进行时空聚类得到时空聚类结果，根据时空聚类结果向第一图像特征嵌入目标对象的轨迹特征得到第二图像特征，将第二图像特征中属于同一聚类的图像块特征聚合，得到第三图像特征，由于时空聚类结果中聚类数量远小于第一图像特征包含的图像块特征的数量，因此基于聚类聚合得到的第三图像特征的token数量远小于第一图像特征的token数量；在进行注意力计算时，对token数量较多的第一图像特征进行空间自注意力计算，仅在空间维度对第一图像进行自注意力计算，对token数量较少的第三图像特征进行时空自注意力计算，可以大大减少注意力机制的计算量；进一步地，通过将对第一图像特征的空间自注意力计算的第一结果和对第三图像特征的时空自注意力计算的第二结果融合，使得得到的融合特征既包含丰富的图像特征，也包含目标对象的轨迹特征，也即包含丰富的时空特征，根据融合特征进行图像处理得到的目标对象的图像处理结果具有较高的精准度，从而在减少计算量、提升效率的同时，保证编码阶段输出特征的时空建模能力，从而保证图像处理的精准度。

本申请提供的基于视频的图像处理方法，在特征编码阶段，使用轨迹嵌入编码模型，执行步骤S202-S204，根据第一图像特征获取融合特征，通过轨迹嵌入编码模型编码得到的融合特征，既包含丰富的图像特征，也包含目标对象的轨迹特征，也即包含丰富的时空特征，能够减少注意力机制的计算量，并且具有强大的时空建模能力，根据融合特征进行图像处理，不仅可以提升图像处理的效率，还可以保证图像处理的精准度。为了更好地说明基于视频的图像处理方法的具体实现方式，下面对编码阶段所使用的轨迹嵌入编码模型进行详细地说明。

示例性地，传统的ViT使用的编码部分的结构包含多层堆叠的编码块(Transformer Block)，如图3所示，编码块(Transformer Block)主要包含多头注意力(Multi-Head Attention，MHA)模块和前馈网络(Feed Forward Network，FFN)模块。编码块中在多头注意力模块之前和前馈网络之前各包含一个归一化层(Layer Norm)。其中，多头注意力(MHA)模块对输入的token进行全局的时空注意力计算，在token数量较多时，注意力计算的计算量很大。其中“L×”表示L层编码块(Transformer Block)堆叠。

本申请实施例提供的轨迹嵌入编码模型，使用了一种新的编码块结构，新的编码块结构采用了轨迹嵌入的自注意力(Trajectory Embedded Self-Attention，简称TESA)机制，本申请中将该新的编码块称为TESA编码块(TESA Transformer Block)。图4为TESA编码块的结构图，与图3所示的ViT架构包含单路多头注意力模块不同，如图4所示，TESA编码块将注意力模块分为两路，一路为空间自注意力(Spatial-only MHSA)模块，对第一图像特征进行空间自注意力计算，从而在空间维度进行图像的建模；另一路为基于轨迹嵌入的自注意力(TESA)模块，具体包括轨迹嵌入模块(Trajectory Embedded Module，简称TEM)和多头自注意力(MHSA)模块，其中轨迹嵌入模块用于对第一图像特征的token进行时空聚类并根据时空聚类结果进行轨迹特征嵌入和token的聚合，得到token数量较少的第三图像特征。多头自注意力(MHSA)模块是时空自注意力模块，用于对第三图像特征进行全局的时空自注意力计算，从而进行时空信息的建模。这两路的注意力计算结果融合，作为注意力机制的计算结果，TESA编码块的注意力计算方式能够减少计算量，同时具有强大的时空建模能力。

在一可选实施例中，基于图4所示的TESA编码块的结构，还可以增加下采样模块，在进行注意力计算之前，对输入的第一特征进行下采样。本实施例中，特征编码阶段使用的编码模型包含多层堆叠的TESA编码块。为了方便说明，用下标l表示当前层，下标l-1表示前一层，可以用z_l-1表示当前层输入的特征(即为第一特征)，也即是上一层输出的特征。用

表示对第一特征z_l-1的下采样结果，下采样过程可以表示为：

其中SR()表示下采样操作，通常可用卷积层或池化层实现。

进一步地，在进行注意力计算时，根据当前层的第一线性映射参数W_l ^Q将下采样前的第一特征z_l-1映射为第一查询特征Q_l，保持查询特征Q_l的维度与原始图像特征的维度一致。具体地，Q_l＝W_l ^Qz_l-1。

在进行时空聚类时，对第一特征的下采样结果(用

表示)中的token进行时空聚类，得到时空聚类结果。在进行轨迹嵌入时，根据时空聚类结果，向第一特征的下采样结果

嵌入轨迹特征得到第二特征，将第二特征中属于同一聚类的图像块特征(token)聚合，得到第三特征(用

表示)。

进一步地，在对第一特征的空间自注意力计算，以获取第一路注意力计算结果时，根据当前层的第二线性映射参数

和第三线性映射参数

将对第一特征下采样的结果

线性映射为当前层的第一键特征(用

表示)和第一值特征(用

表示)，具体地，

根据当前层得到的第一查询特征Q_l、第一键特征

和第一值特征

进行空间自注意力计算，得到第一路注意力计算结果(用

表示)。具体地，

其中Softmax为激活函数，d为查询特征Q、键特征K和值特征V的通道数，查询特征Q、键特征K和值特征V的通道数相同。

在对第三特征进行时空自注意力计算，以获取第二路注意力计算结果时，根据当前层的第二线性映射参数

和第三线性映射参数

将第三特征

线性映射为当前层的第二键特征(用

表示)和第二值特征(用

表示)，具体地，

根据当前层的第一查询特征Q_l、第二键特征

和第二值特征

进行时空自注意力计算，得到第二路注意力计算结果(用

表示)。具体地，

其中Softmax为激活函数，d为查询特征Q、键特征K和值特征V的通道数，查询特征Q、键特征K和值特征V的通道数相同。本实施例中，各层的第一线性映射参数、第二线性映射参数和第三线性映射参数均为可学习的参数。

本实施例中，在两路注意力计算中，仅在映射生成键特征和值特征时使用下采样后的特征或者使用时空聚类后的特征，也即注意力模块中的下采样和时空聚类仅对键特征和值特征有影响，对查询特征没有影响，不会影响图像特征的整体结构和大小，可以更好地适用于下游的视频分割和检测任务。

进一步地，将第一路注意力计算结果

和第二路注意力计算结果

融合，作为注意力计算的结果

示例性地，可以采用加权求和的方式融合两路注意力计算结果：

其中λ为可学习参数。

示例性地，图5为本实施例提供的TESA编码块的一种详细结构示意图，如图5所示，下采样模块可以作为TEM模块中的一个子模块。TEM模块还包括时空聚类模块(Spatiotemporal Clustering)、轨迹运动嵌入模块(Trajectory Motion Embedding)和轨迹内容嵌入模块(Trajectory Content Embedding)。其中，时空聚类模块用于对输入特征(对第一特征的下采样结果)中的多个图像块特征(token)进行时空聚类，得到时空聚类结果，时空聚类结果指示图像块特征(token)所在的聚类。轨迹运动嵌入模块用于根据时空聚类结果，向输入特征(对第一特征的下采样结果)嵌入目标对象的轨迹特征得到第二特征。轨迹内容嵌入模块用于根据时空聚类结果，将第二特征中属于同一聚类的图像块特征(token)聚合，得到第三特征。

具体地，时空聚类模块可以采用时空聚类算法，对输入特征所包含的多个图像块特征，在时间和空间两个维度上进行聚类，得到时空聚类结果。其中，时空聚类算法可以是基于密度的时空聚类算法，例如，基于DBSCAN的时空聚类算法(Spatial Temporal-DBSCAN，简称ST-DBSCAN)，DBSCAN(Density-Based Spatial Clustering of Application withNoise)是一种基于密度的空间聚类方法，ST-DBSCAN是在DBSCAN的基础上发展而来，相比DBSCAN多了一个维度上的聚类，多的一个维度上的约束条件可以是时间距离，可以是与二维空间其它无相关性的维度，例如高程、颜色、温度、质量等。本实施例中，可以采用从时间和空间两个维度上进行聚类的ST-DBSCAN算法，也即在DBSCAN基础上增加一个时间维度上的约束条件。当然，时空聚类模块还可以采用其他的能够在时间和空间两个维度进行聚类的时空聚类算法，此处不做具体限定。

轨迹运动嵌入模块的处理过程包括：

将时空聚类结果与原始的图像特征(即第一图像特征)中图像块特征的时空信息拼接，得到拼接结果(用u表示)；示例性地，u＝Concat(x；p)，其中x表示时空聚类结果，是1*Ns*T的张量，p表示时空信息，是3*NsT的张量，拼接后得到的u为4*NsT的张量。

进一步地，根据拼接结果和时空聚类结果进行线性映射，得到目标对象的轨迹特征(用e′表示)。本实施例中，不同层计算得到的目标对象的轨迹特征不同。示例性地，y_i＝W₂σ(W₁u_*，i+b₁)+b₂+x，其中i依次取值为1至Ns；然后e′＝W₄σ(W₃y_j，*+b₃)+b₄，其中j依次取值为1至D，D为通道数量。W₄、W₃、W₂、W1为线性映射参数，是可学习的参数。b₁、b₂、b₃和b₄为偏移参数，是可学习的参数。σ为激活函数，可以使用GELU(Gaussian Error Linear Unit，高斯误差线性单元)函数。

进一步地，将目标对象的轨迹特征嵌入向输入特征(对第一特征的下采样结果)，得到第二特征(用z′表示)。示例性地，

其中，

为第一特征下采样的结果。

其中，第一图像特征中图像块特征的时空信息包含图像块特征对应的图像块所在视频帧的时间信息，以及图像块在视频帧中的空间位置信息。该时空信息为3*Ns*T的张量，其中T表示视频帧序列包含的视频帧的数量，Ns表示将一个视频帧划分成的图像块的数量(也即单一视频帧的token数量)，该时空信息存储了Ns*T个token的三维时空信息，其中一个维度为图像块所在视频帧的时序信息，剩余两个维度为图像块在视频帧中的空间位置信息。

示例性地，轨迹运动嵌入模块的处理过程包括：

将轨迹运动嵌入模块计算得到的第二特征中的图像块特征进行线性映射，得到第二特征中的图像块特征的权重系数。具体地，sⁱ＝Linear(z′ⁱ)，其中，z′ⁱ表示z′中包含的图像块特征(token)，sⁱ表示z′ⁱ对应的权重系数，Linear()为线性层。

进一步地，根据时空聚类结果和权重系数，将第二图像特征中属于同一聚类的图像块特征加权平均，得到各聚类对应的聚合特征。

具体地，

其中，C_c表示第c个聚类包含的token集合，y′^c表示第c个聚类对应的聚合特征，e为自然常数。

进一步地，将各聚类对应的聚合特征拼接，得到第三特征。

另外，图5中以下采样模块作为TEM模块中的一个子模块为例，对包含下采样模块的TESA编码块的结构进行示例性地说明，在其他实施例中，下采样模块也可以放到TEM模块的外面，作为单独的一个模块，两种实现方式各个模块逻辑上的划分不同，TESA编码块的实现方式一致。

在一可选实施例中，轨迹嵌入编码模型可以采用金字塔结构，包括多个依次堆叠的编码阶段，编码阶段包含依次堆叠的重叠块嵌入模块(Overlapping Patch Embedding)和多个轨迹嵌入编码块(TESA Transformer Block)。其中，重叠块嵌入模块用于对输入的图像特征进行下采样，并将下采样后的图像特征输入连接的轨迹嵌入编码块。示例性地，重叠块嵌入模块可以采用步长为2的卷积实现，步长可以根据实际应用场景和经验进行设置，此处不做具体限定。通过在各个编码阶段中使用重叠块嵌入模块对输入的图像特征进行下采样，使得不同的编码阶段中处理的图像特征的尺度(分辨率)不断降低，减小了进行注意力计算的键特征和值特征的尺寸，从而进一步降低注意力操作的计算量。

示例性地，如图6所示的轨迹嵌入编码模型，包括4个编码阶段：Stage1、Stage2、Stage3和Stage4，4个编码阶段输出张量的尺寸依次为：T/2×H/4×W/4×C、T/2×H/8×W/8×2C、T/2×H/16×W/16×4C、T/2×H/32×W/32×8C。输入的视频帧序列的图像特征为T×H×W×3的张量。其中，T为视频帧序列包含的视频帧的数量，H和W分别为视频帧的高和宽。C为Stage1的通道数量，Stage2、Stage3和Stage4的通道数量分别为2C、4C和8C。

轨迹嵌入编码块用于对输入的图像特征进行时空聚类得到时空聚类结果；根据时空聚类结果，向输入的图像特征嵌入目标对象的轨迹特征，将嵌入轨迹特征后的图像特征中属于同一聚类的图像块特征聚合；将对输入的图像特征的空间自注意力计算的结果，与对聚合后的图像特征的时空自注意力计算结果融合，得到输出的图像特征。编码阶段得到的融合特征为最后一个编码阶段中最后一个轨迹嵌入编码块输出的图像特征。轨迹嵌入编码块的具体结构和功能具体参见前述实施例，此处不再赘述。

在应用于基于视频的图像处理任务时，基于上述轨迹嵌入编码模型构建图像处理模型，将上述轨迹嵌入编码模型作为编码部分(Encoder)，增加预测模块。预测模块具体可以采用用于分类、分割或目标检测的网络结构，例如分类器、回归预测器等。基于大量历史数据构建训练集，并对基于上述轨迹嵌入编码模型构建图像处理模型进行训练，得到训练好的图像处理模型，以更新图像处理模型中编码部分和预测部分的可学习参数。

另外，也可以采用大量数据集对上述轨迹嵌入编码模型进行预训练，基于预训练的轨迹嵌入编码模型，构建用于下游基于视频的图像处理任务的图像处理模型，并采用下游任务的数据集对所构建的图像处理模型进行微调，得到训练好的图像处理模型，以微调图像处理模型中编码部分和预测部分的可学习参数。

在其实施例中，当轨迹嵌入编码模型也可以包括1个、2个、3个或超过4个的编码阶段，此处对于轨迹嵌入编码模型包含的编码阶段的数量不做具体限定。

本实施例中基于上述轨迹嵌入编码模型和图像处理模型，对基于视频的图像处理方法进行详细地说明。图7为本申请另一示例性实施例提供的基于视频的图像处理方法的详细流程图。如图7所示，该方法具体步骤如下：

步骤S701、获取目标对象的视频帧序列，并获取视频帧序列的第一图像特征，第一图像特征包含多个图像块特征。

在应用于视频行为识别场景时，该步骤中获取的目标对象的视频帧序列包含目标对象的行为信息。

本实施例中，将第一图像特征输入训练好的图像处理模型中的编码部分(也即轨迹嵌入编码模型)，通过编码部分的轨迹嵌入编码模型进行特征编码，具体通过如下步骤S702-S710实现，得到输出的融合特征。进一步地，通过步骤S711，根据融合特征进行图像处理，得到图像处理结果。

步骤S702、根据第一线性映射参数，将第一图像特征线性映射为第一查询特征。

本实施例中，将第一图像特征输入轨迹嵌入编码模型(图像处理模型的编码部分)中的第一层TESA编码块，通过该TESA编码块根据当前层的第一线性映射参数W₁ ^Q，将输入的第一图像特征线性映射为第一查询特征。

可选地，基于如图6所示的结构，输入第一层TESA编码块之前，可以通过重叠块嵌入模块对第一图像特征进行下采样，将下采样之后的第一图像特征输入第一层TESA编码块。

另外，在各个TESA编码块内部，可以首先通过归一化层(Layer Norm)对输入的图像特征进行归一化处理，将归一化处理后的图像特征作为当前层的第一特征，TESA编码块根据当前层的第一线性映射参数，将当前层的第一特征线性映射为当前层的第一查询特征。

步骤S703、对第一图像特征进行下采样。

该步骤中，在第一层TESA编码块内部，通过下采样模块对输入的第一图像特征(可以是下采样之后的第一图像特征)进行下采样，得到第一图像特征的下采样结果，也即当前层中第第一特征的下采样结果。

在第各层TESA编码块内部，通过下采样模块对当前层的第一特征(可以是下采样之后的第一特征)进行下采样，得到当前层中第第一特征的下采样结果。

将第一图像特征(或第一特征)线性映射为的第一查询特征，以及对第一图像特征(或第一特征)下采样的结果，会输入后续两路注意力模块中，用于进行两路注意力计算。

步骤S704、对第一图像特征进行空间自注意力计算，得到第一结果。

在第一路的空间自注意力(Spatial-only MHSA)模块中，对第一图像特征进行空间自注意力计算，得到第一结果。

具体地，通过空间自注意力(Spatial-only MHSA)模块，根据第二线性映射参数和第三线性映射参数，将对第一图像特征下采样的结果线性映射为第一键特征和第一值特征；根据第一查询特征、第一键特征和第一值特征进行空间自注意力计算，得到第一结果。

在第各层TESA编码块内部，根据当前层的第二线性映射参数和第三线性映射参数，将对第一特征(第一层为第一图像特征)下采样的结果线性映射为当前层的第一键特征和第一值特征；根据第一查询特征、第一键特征和第一值特征进行空间自注意力计算，得到第一结果。

在第二路基于轨迹嵌入的自注意力(TESA)模块中，通过步骤S705-S709，实现对第一图像特征(或第一特征)的基于轨迹嵌入的时空自注意力(TESA)计算，得到第二结果。

步骤S705、采用时空聚类算法，对视频帧序列的第一图像特征所包含的多个图像块特征，在时间和空间两个维度上进行聚类，得到时空聚类结果。

本实施例中，基于轨迹嵌入的自注意力(TESA)模块包括轨迹嵌入模块(TEM)和多头自注意力(MHSA)模块。TEM模块包括时空聚类模块、轨迹运动嵌入模块和轨迹内容嵌入模块。

将下采样后的第一图像特征(或第一特征)输入TEM模块中的时空聚类模块，时空聚类模块采用时空聚类算法，对输入特征所包含的多个图像块特征，在时间和空间两个维度上进行聚类，得到时空聚类结果。时空聚类结果指示图像块特征(token)所在的聚类。

示例性地，时空聚类算法可以是基于密度的时空聚类算法，例如，基于DBSCAN的时空聚类算法(Spatial Temporal-DBSCAN，简称ST-DBSCAN)，DBSCAN(Density-BasedSpatial Clustering of Application with Noise)是一种基于密度的空间聚类方法，ST-DBSCAN是在DBSCAN的基础上发展而来，相比DBSCAN多了一个维度上的聚类，多的一个维度上的约束条件可以是时间距离，可以是与二维空间其它无相关性的维度，例如高程、颜色、温度、质量等。本实施例中，可以采用从时间和空间两个维度上进行聚类的ST-DBSCAN算法，也即在DBSCAN基础上增加一个时间维度上的约束条件。当然，时空聚类模块还可以采用其他的能够在时间和空间两个维度进行聚类的时空聚类算法，此处不做具体限定。

时空聚类模块的聚类结果输入到轨迹运动嵌入模块和轨迹内容嵌入模块。

步骤S706、将时空聚类结果与第一图像特征包含的图像块特征的时空信息拼接，根据拼接结果和时空聚类结果进行线性映射，得到目标对象的轨迹特征；将轨迹特征嵌入第一图像特征，得到第二图像特征。

该步骤中，通过轨迹运动嵌入模块，将时空聚类结果与第一图像特征包含的图像块特征的时空信息拼接，得到拼接结果(用u表示)，该拼接结果为4*NsT的张量。根据拼接结果和时空聚类结果，基于图像块数量和通道数量依次在两个维度进行线性映射，得到目标对象的轨迹特征(用e′表示)。

示例性地，y_i＝W₂σ(W₁u_*，i+b₁)+b₂+x，其中i依次取值为1至Ns；然后e′＝W₄σ(W₃y_j，*+b₃)+b₄，其中j依次取值为1至D，D为通道数量。W₄、W₃、W₂、W₁为线性映射参数，是可学习的参数。b₁、b₂、b₃和b₄为偏移参数，是可学习的参数。σ为激活函数，可以使用GELU(GaussianError Linear Unit，高斯误差线性单元)函数。

本实施例中，在将时空聚类结果与图像块特征的时空信息拼接之前，获取图像块特征的时空信息，时空信息包含图像块特征对应的图像块所在视频帧的时间信息，以及图像块在视频帧中的空间位置信息。

进一步地，轨迹运动嵌入模块，通过将目标对象的轨迹特征与输入特征(对第一特征的下采样结果)点乘，来将目标对象的轨迹特征嵌入输入特征(对第一特征的下采样结果)，得到第二特征(用z′表示)。示例性地，

其中，

为第一特征下采样的结果。

在第一层TESA编码块的轨迹运动嵌入模块中，通过步骤S706，实现根据时空聚类结果，向第一图像特征嵌入目标对象的轨迹特征得到第二图像特征。

步骤S707、将第二图像特征中属于同一聚类的图像块特征聚合，得到第三图像特征。

在各层TESA编码块中，轨迹运动嵌入模块输出的第二特征(在第一层TESA编码块中为第一图像特征)输入轨迹内容嵌入模块。通过轨迹内容嵌入模块将第二特征(在第一层TESA编码块中为第二图像特征)中属于同一聚类的图像块特征聚合，得到第三特征(在第一层TESA编码块中为第三图像特征)。

具体地，各层TESA编码块中轨迹运动嵌入模块具体通过如下方式实现该步骤：

将当前层的第二特征(在第一层TESA编码块中为第二图像特征)中的图像块特征进行线性映射，得到当前层的第二特征(在第一层TESA编码块中为第二图像特征)中的图像块特征的权重系数；根据时空聚类结果和权重系数，将当前层的第二特征(在第一层TESA编码块中为第二图像特征)中属于同一聚类的图像块特征加权平均，得到各聚类对应的聚合特征；将各聚类对应的聚合特征拼接，得到当前层的第三特征(在第一层TESA编码块中为第三图像特征)。

步骤S708、对第三图像特征进行时空自注意力计算，得到第二结果。

在各层TESA编码块中轨迹内容嵌入模块输出的第三特征也即是TEM模块的输出特征，输入到多头自注意力(MHSA)模块中。

该步骤中，通过多头自注意力(MHSA)模块，根据当前层的第二线性映射参数和第三线性映射参数，将第三特征(在第一层TESA编码块中为第三图像特征)线性映射为当前层的第二键特征和第二值特征；根据当前层得到的第一查询特征、第二键特征和第二值特征进行时空自注意力计算，得到第二结果。

步骤S709、将第一结果和第二结果融合，得到融合特征。

在得到两路注意力计算结果之后，可以采用加权求和的方式融合两路注意力计算结果：

其中λ为可学习参数。

可选地，将第一结果和第二结果融合得到融合特征时，还可以将当前层的第一特征与第一结果和第二结合一起融合，得到融合特征。

在各层TESA编码块中，对于得到的融合特征，通过归一化层和前馈神经网络(FFN)层进行处理后，作为该层TESA编码块输出的融合特征，会输入到下一层TESA编码块中，或者输入下一编码阶段，通过下一编码阶段进行下采样之后输入下一层TESA编码块，通过下一层TESA编码块继续进行两路注意力计算。最后一个编码阶段的最后一层TESA编码块输出的融合特征即是轨迹嵌入编码模型最终输出的融合特征。

步骤S710、根据融合特征进行图像处理，得到目标对象的图像处理结果。

轨迹嵌入编码模型最终输出的融合特征，也就是特征编码得到的编码特征。将轨迹嵌入编码模型最终输出的融合特征输入图像处理模型的预测器进行预测，可以得到图像处理结果。

根据图像处理任务的不同，图像处理模型使用的预测器可以不同，例如，对于分类任务，可以使用分类器，对于回归任务，可以使用回归预测器。

在应用于视频行为识别场景时，该步骤中，根据融合特征进行行为分类识别，得到视频帧序列中目标对象的行为类别信息。

在应用于视频分割场景时，该步骤中，根据融合特征进行视频分割，得到目标对象在视频帧序列所包含的视频帧上的位置信息。

在应用于视频检测场景时，该步骤中，根据融合特征进行视频目标检测，在视频帧序列所包含的视频帧中确定目标对象的边界框。

在得到图像处理结果之后，可以输出图像处理结果，或者根据图像处理结果执行后续的处理逻辑，例如，发出提示信息、推送提示信息等。

本实施例中，获取目标对象的视频帧序列的第一图像特征，在特征编码阶段，通过轨迹嵌入编码模型，对第一图像特征包含的多个图像块特征进行时空聚类得到时空聚类结果，根据时空聚类结果向第一图像特征嵌入目标对象的轨迹特征得到第二图像特征，将第二图像特征中属于同一聚类的图像块特征聚合，得到第三图像特征，由于时空聚类结果中聚类数量远小于第一图像特征包含的图像块特征的数量，因此基于聚类聚合得到的第三图像特征的token数量远小于第一图像特征的token数量；在进行注意力计算时，对token数量较多的第一图像特征进行空间自注意力计算，仅在空间维度对第一图像进行自注意力计算，对token数量较少的第三图像特征进行时空自注意力计算，可以大大减少注意力机制的计算量；进一步地，通过将对第一图像特征的空间自注意力计算的第一结果和对第三图像特征的时空自注意力计算的第二结果融合，使得得到的融合特征既包含丰富的图像特征，也包含目标对象的轨迹特征，也即包含丰富的时空特征，根据融合特征进行图像处理得到的目标对象的图像处理结果具有较高的精准度，从而在减少计算量、提升效率的同时，保证编码阶段输出特征的时空建模能力，从而保证图像处理的精准度。

在一可选实施例中，上述任一方法实施例提供的基于视频的图像处理方法可以应用于视频行为识别场景。图8为本申请另一示例性实施例提供的视频行为识别方法流程图。本实施例提供的方法，具体为上述任一方法实施例提供的基于视频的图像处理方法，应用于视频行为识别场景时的方法流程。如图8所示，该方法具体步骤如下：

步骤S801、获取包含目标对象行为信息的视频帧序列，并获取视频帧序列的第一图像特征，第一图像特征包含多个图像块特征。

在应用于视频行为识别场景时，获取的目标对象的视频帧序列包含目标对象的行为信息。该步骤具体实现方式即为上述步骤S201和S701应用于视频行为识别场景时的具体实现，具体参见前述实施例中的相关内容，此处不再赘述。

步骤S802、对多个图像块特征进行时空聚类，得到时空聚类结果，时空聚类结果指示图像块特征所在的聚类。

步骤S803、根据时空聚类结果，向第一图像特征嵌入目标对象的轨迹特征得到第二图像特征，将第二图像特征中属于同一聚类的图像块特征聚合，得到第三图像特征。

步骤S804、将对第一图像特征的空间自注意力计算的第一结果，与对第三图像特征的时空自注意力计算的第二结果融合，得到融合特征。

步骤S802-S804的实现方式与上述步骤S202-S204的实现方式一致，具体参见前述实施例中记载的相关内容，此处不再赘述。

步骤S805、根据融合特征进行行为分类识别，得到视频帧序列中目标对象的行为类别信息。

该步骤与上述步骤S710的实现方式类似，轨迹嵌入编码模型最终输出的融合特征，也就是特征编码得到的编码特征。将轨迹嵌入编码模型最终输出的融合特征输入图像处理模型的预测器进行行为分类识别，可以得到视频帧序列中目标对象的行为类别信息。

在应用于视频行为识别场景时，使用的图像处理模型用于进行目标对象行为的分类识别，图像处理模型的预测器可以采用分类器。例如，可以使用多层感知机(MultilayerPerceptron，简称MLP)作为分类器。

具体地，识别出的目标对象的行为类别信息之后，可以按照预设处理方式，根据目标对象的行为类别信息，执行后续的处理。

示例性地，根据目标对象的行为类别信息，在确定目标对象做出了预设行为的情况下，可以根据预设规则发出对应的提示信息，或者将目标对象的行为类别信息按照预设途径进行推送。

其中识别出的目标对象的行为类别信息之后，进行后续处理的预设处理方式，以及不同处理方式中使用的预设规则或预设途径可以根据实际应用场景的需要进行设置和调整，此处不做具体限定。

例如，识别驾驶员在驾驶过程中是否做出了预设危险行为(例如打电话、瞌睡等)，并且确定驾驶员做出了预设危险行为的情况下，发出警示信息，以提醒驾驶员注意安全驾驶。

例如，在禁烟场所，识别该场所内的对象是否做出了吸烟行为，在确定有对象做出吸烟行为时，发出提示信息，以提示当前场所为禁烟场所。

本实施例在前述实施例提供的基于视频的图像处理方法的基础上，提供了应用于视频行为识别场景时的视频行为识别方法，能够减少特征编码过程中的计算量，提高视频行为识别的效率，同时保证视频行为识别的精准度。

在一可选实施例中，上述任一方法实施例提供的基于视频的图像处理方法可以应用于视频分割场景。图9为本申请另一示例性实施例提供的视频分割方法流程图。本实施例提供的方法，具体为上述任一方法实施例提供的基于视频的图像处理方法，应用于视频分割场景时的方法流程。如图9所示，该方法具体步骤如下：

步骤S901、获取包含目标对象的视频帧序列，并获取视频帧序列的第一图像特征，第一图像特征包含多个图像块特征。

步骤S902、对多个图像块特征进行时空聚类，得到时空聚类结果，时空聚类结果指示图像块特征所在的聚类。

步骤S903、根据时空聚类结果，向第一图像特征嵌入目标对象的轨迹特征得到第二图像特征，将第二图像特征中属于同一聚类的图像块特征聚合，得到第三图像特征。

步骤S904、将对第一图像特征的空间自注意力计算的第一结果，与对第三图像特征的时空自注意力计算的第二结果融合，得到融合特征。

步骤S901-S904的实现方式与上述步骤S201-S204的实现方式一致，具体参见前述实施例中记载的相关内容，此处不再赘述。

步骤S905、根据融合特征进行视频分割，得到目标对象在视频帧序列所包含的视频帧上的位置信息。

该步骤与上述步骤S710的实现方式类似，轨迹嵌入编码模型最终输出的融合特征，也就是特征编码得到的编码特征。将轨迹嵌入编码模型最终输出的融合特征输入图像处理模型的预测器进行视频分割，得到目标对象在视频帧序列所包含的视频帧上的位置信息。

在应用于视频分割场景时，使用的图像处理模型用于进行目标对象的图像分割，从视频帧序列包含的各个视频帧中分割出目标对象。图像处理模型的预测器可以采用常用的视频分割的预测器。

在得到的目标对象在视频帧序列所包含的视频帧上的位置信息，可以为掩码信息。在得到目标对象在视频帧序列所包含的视频帧上的位置信息之后，可以直接输出目标对象在视频帧序列所包含的视频帧上的位置信息；或者对根据目标对象在视频帧序列所包含的视频帧上的位置信息进行后处理，输出后处理的结果。

可选地，可以根据目标对象在视频帧序列所包含的视频帧上的位置信息，进行如下任意一项后处理：在视频帧上标记出目标对象；或者将目标对象所在区域从视频帧上扣出，并按照时间顺序依次排列，形成目标对象所在区域的图像序列。

其中，在得到目标对象在视频帧序列所包含的视频帧上的位置信息之后，进行后处理的具体处理方式，可以根据实际应用场景的需要进行设置和调整，此处不做具体限定。

本实施例在前述实施例提供的基于视频的图像处理方法的基础上，提供了应用于视频分割场景时的视频分割方法，能够减少特征编码过程中的计算量，提高视频分割的效率，同时保证视频分割结果的精准度。

在一可选实施例中，上述任一方法实施例提供的基于视频的图像处理方法可以应用于基于视频的目标检测(也即视频检测)场景。图10为本申请另一示例性实施例提供的视频检测方法流程图。本实施例提供的方法，具体为上述任一方法实施例提供的基于视频的图像处理方法，应用于视频检测场景时的方法流程。如图10所示，该方法具体步骤如下：

步骤S1001、获取包含目标对象的视频帧序列，并获取视频帧序列的第一图像特征，第一图像特征包含多个图像块特征。

步骤S1002、对多个图像块特征进行时空聚类，得到时空聚类结果，时空聚类结果指示图像块特征所在的聚类。

步骤S1003、根据时空聚类结果，向第一图像特征嵌入目标对象的轨迹特征得到第二图像特征，将第二图像特征中属于同一聚类的图像块特征聚合，得到第三图像特征。

步骤S1004、将对第一图像特征的空间自注意力计算的第一结果，与对第三图像特征的时空自注意力计算的第二结果融合，得到融合特征。

步骤S1001-S1004的实现方式与上述步骤S201-S204的实现方式一致，具体参见前述实施例中记载的相关内容，此处不再赘述。

步骤S1005、根据融合特征进行视频目标检测，在视频帧序列所包含的视频帧中确定目标对象的边界框。

该步骤与上述步骤S710的实现方式类似，轨迹嵌入编码模型最终输出的融合特征，也就是特征编码得到的编码特征。将轨迹嵌入编码模型最终输出的融合特征输入图像处理模型的预测器进行视频目标检测，在视频帧序列所包含的视频帧中确定目标对象的边界框。

在应用于视频检测场景时，使用的图像处理模型用于进行目标对象的目标检测，在视频帧序列包含的各个视频帧中确定目标对象的边界框(或包围框、包围盒)。图像处理模型的预测器可以采用常用的目标检测的预测器。

在得到视频帧序列所包含的视频帧中目标对象的边界框之后，可以直接输出视频帧序列所包含的视频帧中目标对象的边界框；或者根据视频帧序列所包含的视频帧中目标对象的边界框进行后处理，输出后处理的结果。

可选地，根据视频帧序列所包含的视频帧中目标对象的边界框，可以进行如下任意一项后处理：在视频帧上标记出目标对象的边界框；或者将视频帧上目标对象的边界框内部区域扣出，并按照时间顺序依次排列，形成目标对象所在区域的图像序列。

其中，在得到视频帧序列所包含的视频帧中目标对象的边界框之后，进行后处理的具体处理方式，可以根据实际应用场景的需要进行设置和调整，此处不做具体限定。

本实施例在前述实施例提供的基于视频的图像处理方法的基础上，提供了应用于视频目标检测场景时的视频检测方法，能够减少特征编码过程中的计算量，提高视频检测的效率，同时保证视频检测结果的精准度。

图11为本申请一示例性实施例提供的基于视频的图像处理装置的结构示意图。本申请实施例提供的基于视频的图像处理装置可以执行基于视频的图像处理方法实施例提供的处理流程。如图11所示，该基于视频的图像处理装置110包括：视频帧序列处理单元1101、时空聚类单元1102、轨迹嵌入单元1103、注意力计算单元1104和图像处理单元1105。

其中，视频帧序列处理单元1101用于获取目标对象的视频帧序列，并获取视频帧序列的第一图像特征，第一图像特征包含多个图像块特征。

时空聚类单元1102用于对多个图像块特征进行时空聚类，得到时空聚类结果，时空聚类结果指示图像块特征所在的聚类。

轨迹嵌入单元1103用于根据时空聚类结果，向第一图像特征嵌入目标对象的轨迹特征得到第二图像特征，将第二图像特征中属于同一聚类的图像块特征聚合，得到第三图像特征。

注意力计算单元1104用于将对第一图像特征的空间自注意力计算的第一结果，与对第三图像特征的时空自注意力计算的第二结果融合，得到融合特征。

图像处理单元1105用于根据融合特征进行图像处理，得到目标对象的图像处理结果。

在一可选实施例中，在实现对多个图像块特征进行时空聚类，得到时空聚类结果时，时空聚类单元1102还用于：采用时空聚类算法，对视频帧序列的第一图像特征所包含的多个图像块特征，在时间和空间两个维度上进行聚类，得到时空聚类结果。

在一可选实施例中，在实现根据时空聚类结果，向第一图像特征嵌入目标对象的轨迹特征得到第二图像特征时，轨迹嵌入单元1103还用于：

将时空聚类结果与图像块特征的时空信息拼接，根据拼接结果和时空聚类结果进行线性映射，得到目标对象的轨迹特征；将轨迹特征嵌入第一图像特征，得到第二图像特征。

在一可选实施例中，在将时空聚类结果与图像块特征的时空信息拼接之前，轨迹嵌入单元1103还用于：获取图像块特征的时空信息，时空信息包含图像块特征对应的图像块所在视频帧的时间信息，以及图像块在视频帧中的空间位置信息。

在一可选实施例中，在实现将第二图像特征中属于同一聚类的图像块特征聚合，得到第三图像特征时，轨迹嵌入单元1103还用于：将第二图像特征中的图像块特征进行线性映射，得到第二图像特征中的图像块特征的权重系数；根据时空聚类结果和权重系数，将第二图像特征中属于同一聚类的图像块特征加权平均，得到各聚类对应的聚合特征；将各聚类对应的聚合特征拼接，得到第三图像特征。

在一可选实施例中，该基于视频的图像处理装置110还包括：特征映射单元，用于在获取视频帧序列的第一图像特征之后，根据第一线性映射参数，将第一图像特征线性映射为第一查询特征。

下采样单元，用于对第一图像特征进行下采样。

在一可选实施例中，在实现对第一图像特征的空间自注意力计算时，注意力计算单元1104还用于：根据第二线性映射参数和第三线性映射参数，将对第一图像特征下采样的结果线性映射为第一键特征和第一值特征；根据第一查询特征、第一键特征和第一值特征进行空间自注意力计算，得到第一结果。

在一可选实施例中，在实现对第三图像特征的时空自注意力计算时，注意力计算单元1104还用于：根据第二线性映射参数和第三线性映射参数，将第三图像特征线性映射为第二键特征和第二值特征；根据第一查询特征、第二键特征和第二值特征进行时空自注意力计算，得到第二结果。

在一可选实施例中，通过轨迹嵌入编码模型，根据第一图像特征，获取融合特征。轨迹嵌入编码模型采用金字塔结构，包括多个依次堆叠的编码阶段，编码阶段包含依次堆叠的重叠块嵌入模块和多个轨迹嵌入编码块。

重叠块嵌入模块用于对输入的图像特征进行下采样，并将下采样后的图像特征输入连接的轨迹嵌入编码块。

轨迹嵌入编码块用于：对输入的图像特征进行时空聚类得到时空聚类结果；根据时空聚类结果，向输入的图像特征嵌入目标对象的轨迹特征，将嵌入轨迹特征后的图像特征中属于同一聚类的图像块特征聚合；将对输入的图像特征的空间自注意力计算的结果，与对聚合后的图像特征的时空自注意力计算结果融合，得到输出的图像特征。

融合特征为最后一个编码阶段中最后一个轨迹嵌入编码块输出的图像特征。

本申请实施例提供的装置可以具体用于执行上述任一方法实施例提供的方法，所实现具体功能和所能实现的技术效果此处不再赘述。

图12为本申请实施例提供的一种云服务器的结构示意图。如图12所示，该云服务器包括：存储器1201和处理器1202。存储器1201，用于存储计算机执行指令，并可被配置为存储其它各种数据以支持在云服务器上的操作。处理器1202，与存储器1201通信连接，用于执行存储器1201存储的计算机执行指令，以实现上述任一方法实施例提供的技术方案，其具体功能和所能实现的技术效果类似，此处不再赘述。

可选的，如图12所示，该云服务器还包括：防火墙1203、负载均衡器1204、通信组件1205、电源组件1206等其它组件。图12中仅示意性给出部分组件，并不意味着云服务器只包括图12所示组件。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现上述任一方法实施例所提供的方案，具体功能和所能实现的技术效果此处不再赘述。

本申请实施例还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，云服务器的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得云服务器执行上述任一方法实施例所提供的方案，具体功能和所能实现的技术效果此处不再赘述。本申请实施例提供一种芯片，包括：处理模块与通信接口，该处理模块能执行前述方法实施例中云服务器的技术方案。可选的，该芯片还包括存储模块(如，存储器)，存储模块用于存储指令，处理模块用于执行存储模块存储的指令，并且对存储模块中存储的指令的执行使得处理模块执行前述任一方法实施例提供的技术方案。

上述存储器可以是对象存储(Object Storage Service，OSS)。

上述存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如移动热点(WiFi)，第二代移动通信系统(2G)、第三代移动通信系统(3G)、第四代移动通信系统(4G)/长期演进(LTE)、第五代移动通信系统(5G)等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

上述电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、只读光盘存储器(CD-ROM)、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户属性信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。“多个”的含义是两个以上，除非另有明确具体的限定。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种基于视频的图像处理方法，其特征在于，包括：

获取目标对象的视频帧序列，并获取所述视频帧序列的第一图像特征，所述第一图像特征包含多个图像块特征；

对所述多个图像块特征进行时空聚类，得到时空聚类结果，所述时空聚类结果指示所述图像块特征所在的聚类；

根据所述时空聚类结果，向所述第一图像特征嵌入所述目标对象的轨迹特征得到第二图像特征，将所述第二图像特征中属于同一聚类的图像块特征聚合，得到第三图像特征；

将对所述第一图像特征的空间自注意力计算的第一结果，与对所述第三图像特征的时空自注意力计算的第二结果融合，得到融合特征；

根据所述融合特征进行图像处理，得到所述目标对象的图像处理结果。

2.根据权利要求1所述的方法，其特征在于，所述对所述多个图像块特征进行时空聚类，得到时空聚类结果，包括：

采用时空聚类算法，对所述视频帧序列的第一图像特征所包含的多个图像块特征，在时间和空间两个维度上进行聚类，得到时空聚类结果。

3.根据权利要求1所述的方法，其特征在于，所述根据所述时空聚类结果，向所述第一图像特征嵌入所述目标对象的轨迹特征得到第二图像特征，包括：

将所述时空聚类结果与所述图像块特征的时空信息拼接，根据拼接结果和时空聚类结果进行线性映射，得到所述目标对象的轨迹特征；

将所述轨迹特征嵌入所述第一图像特征，得到第二图像特征。

4.根据权利要求3所述的方法，其特征在于，所述将所述时空聚类结果与所述图像块特征的时空信息拼接之前，还包括：

获取所述图像块特征的时空信息，所述时空信息包含所述图像块特征对应的图像块所在视频帧的时间信息，以及所述图像块在视频帧中的空间位置信息。

5.根据权利要求1所述的方法，其特征在于，所述将所述第二图像特征中属于同一聚类的图像块特征聚合，得到第三图像特征，包括：

将所述第二图像特征中的图像块特征进行线性映射，得到所述第二图像特征中的图像块特征的权重系数；

根据所述时空聚类结果和所述权重系数，将所述第二图像特征中属于同一聚类的图像块特征加权平均，得到各聚类对应的聚合特征；

将各聚类对应的聚合特征拼接，得到所述第三图像特征。

6.根据权利要求1所述的方法，其特征在于，所述获取所述视频帧序列的第一图像特征之后，还包括：

根据第一线性映射参数，将所述第一图像特征线性映射为第一查询特征；

对所述第一图像特征进行下采样。

7.根据权利要求6所述的方法，其特征在于，对所述第一图像特征的空间自注意力计算，包括：

根据第二线性映射参数和第三线性映射参数，将对所述第一图像特征下采样的结果线性映射为第一键特征和第一值特征；

根据所述第一查询特征、第一键特征和第一值特征进行空间自注意力计算，得到第一结果。

8.根据权利要求7所述的方法，其特征在于，对所述第三图像特征的时空自注意力计算，包括：

根据第二线性映射参数和第三线性映射参数，将所述第三图像特征线性映射为第二键特征和第二值特征；

根据所述第一查询特征、第二键特征和第二值特征进行时空自注意力计算，得到第二结果。

9.根据权利要求1-8中任一项所述的方法，其特征在于，

通过轨迹嵌入编码模型，根据所述第一图像特征，获取所述融合特征；

所述轨迹嵌入编码模型采用金字塔结构，包括多个依次堆叠的编码阶段，所述编码阶段包含依次堆叠的重叠块嵌入模块和多个轨迹嵌入编码块，

所述重叠块嵌入模块用于对输入的图像特征进行下采样，并将下采样后的图像特征输入连接的轨迹嵌入编码块，

所述轨迹嵌入编码块用于：对输入的图像特征进行时空聚类得到时空聚类结果；根据时空聚类结果，向所述输入的图像特征嵌入所述目标对象的轨迹特征，将嵌入轨迹特征后的图像特征中属于同一聚类的图像块特征聚合；将对输入的图像特征的空间自注意力计算的结果，与对聚合后的图像特征的时空自注意力计算结果融合，得到输出的图像特征；

所述融合特征为最后一个编码阶段中最后一个轨迹嵌入编码块输出的图像特征。

10.一种视频行为识别方法，其特征在于，包括：

获取包含目标对象行为信息的视频帧序列，并获取所述视频帧序列的第一图像特征，所述第一图像特征包含多个图像块特征；

根据所述融合特征进行行为分类识别，得到所述视频帧序列中所述目标对象的行为类别信息。

11.一种视频分割方法，其特征在于，包括：

获取包含目标对象的视频帧序列，并获取所述视频帧序列的第一图像特征，所述第一图像特征包含多个图像块特征；

根据所述融合特征进行视频分割，得到所述目标对象在所述视频帧序列所包含的视频帧上的位置信息。

12.一种视频检测方法，其特征在于，包括：

根据所述融合特征进行视频目标检测，在所述视频帧序列所包含的视频帧中确定所述目标对象的边界框。

13.一种云服务器，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-12中任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-12中任一项所述的方法。