CN113518201B

CN113518201B - 视频处理方法、装置及设备

Info

Publication number: CN113518201B
Application number: CN202010676617.0A
Authority: CN
Inventors: 张超; 汪彪; 李珂
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2022-08-12
Anticipated expiration: 2040-07-14
Also published as: CN113518201A

Abstract

本申请实施例提供一种视频处理方法、装置及设备，该视频处理方法包括：确定待处理视频中的关键图像帧；提取所述关键图像帧对应的主对象特征以及至少一个从对象特征；将所述主对象特征与所述至少一个从对象特征进行特征融合处理，获得目标特征。本申请实施例提高了特征提取准确度。

Description

视频处理方法、装置及设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频处理方法、装置及设备。

背景技术

在公共服务行业中，工作人员可能存在吸烟、打电话或者玩游戏等违反行为准则的行为。如果直接使用人力监控，效率较低，效果有限。随着摄像技术的普及，通过视频智能识别用户行为的技术随之产生。一般可以通过摄像设备对关注地进行持续监控，并采用视觉算法分析视频中的目标用户的行为动作，以判断视频中的目标用户是否存在违反行为准则的行为。

现有技术中，采用视觉算法分析视频中的人物行为动作时，通常可以识别视频中的目标用户的运动姿态，例如，采用关键点检测的方式识别目标用户的运动姿态，并通过对用户的运动姿态进行分析，以获得目标用户的行为。之后，对目标用户的行为来判断该用户是否存在违反行为准则。

但是，采用识别目标用户在视频中的运动姿态的方式，可能会导致通过通过运动姿态很难准确识别目标用户的行为，例如，以手掩嘴与喝水的运动姿态非常相似，导致行为识别不够准确，行为判断的准确率不高。

发明内容

有鉴于此，本申请实施例提供一种视频处理方法、装置及设备，用以解决现有技术中采用运动姿态识别目标用户的行为时，识别结果不够准确效率较低的技术问题。

第一方面，本申请实施例提供视频处理方法，包括：

确定待处理视频中的关键图像帧；

提取所述关键图像帧对应的主对象特征以及至少一个从对象特征；

将所述主对象特征与所述至少一个从对象特征进行特征融合处理，获得目标特征。

第二方面，本申请实施例提供一种视频处理方法，包括：

确定待处理视频中的关键图像帧；

提取所述关键图像帧对应的用户特征以及至少一个物品特征；

将所述用户特征与所述至少一个物品特征进行特征融合处理，获得目标特征；

基于所述目标特征，识别所述待处理视频中目标用户对应的目标行为。

第三方面，本申请实施例提供一种视频处理方法，包括：

响应于用户发起的视频处理请求，获取待处理视频；

确定待处理视频中的关键图像帧；

提取所述关键图像帧对应主对象特征以及至少一个从对象特征；

将所述主对象特征与所述至少一个从对象特征进行特征融合处理，获得目标特征；

将所述目标特征提供至所述用户。

第四方面，本申请实施例提供一种视频处理装置，包括：

第一确定模块，用于确定待处理视频中的关键图像帧；

特征提取模块，用于提取所述关键图像帧对应的主对象特征以及至少一个从对象特征；

特征融合模块，用于将所述主对象特征与所述至少一个从对象特征进行特征融合处理，获得目标特征。

第五方面，本申请实施例提供一种视频处理装置，包括：

请求响应模块，用于响应于用户发起的视频处理请求，获取待处理视频；

第一确定模块，用于确定待处理视频中的关键图像帧；

特征提取模块，用于提取所述关键图像帧对应主对象特征以及至少一个从对象特征；

特征提取模块，用于将所述主对象特征与所述至少一个从对象特征进行特征融合处理，获得目标特征；

特征提供模块，用于将所述目标特征提供至所述用户。

第六方面，本申请实施例提供一种视频处理设备，包括：存储组件以及处理组件；所述存储组件用于存储一条或多条计算机指令，所述一条或多条计算机指令被所述处理组件调用执行；

所述处理组件用于：

确定待处理视频中的关键图像帧；提取所述关键图像帧对应的主对象特征以及至少一个从对象特征；将所述主对象特征与所述至少一个从对象特征进行特征融合处理，获得目标特征。

第七方面，本申请实施例提供一种视频处理设备，包括：存储组件以及处理组件；所述存储组件用于存储一条或多条计算机指令，所述一条或多条计算机指令被所述处理组件调用执行；

所述处理组件用于：

响应于用户发起的视频处理请求，获取待处理视频；确定待处理视频中的关键图像帧；提取所述关键图像帧对应主对象特征以及至少一个从对象特征；将所述主对象特征与所述至少一个从对象特征进行特征融合处理，获得目标特征；将所述目标特征提供至所述用户。

本申请实施例，确定待处理视频中的关键图像帧之后，可以提取关键图中帧对应的主对象特征以及至少一个从对象特征，将该主对象特征以及至少一个从对象特征进行特征融合处理，获得目标特征。目标特征中综合了主对象特征以及至少一个从对象特征，在传统的单独使用主对象特征作为行为识别基础上增加了从对象特征，使得目标特征中包含更丰富的特征信息。通过增加从对象特征的方式，使得对用户以及用户周围的特征信息进行了综合，获得能够表达更多信息的特征，提高用户行为的识别准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频处理方法的一个实施例的流程图；

图2为本申请实施例提供的一个视频处理方法的又一个实施例的流程图；

图3为本申请实施例提供的一种区域检测的示意图；

图4为本申请实施例提供的一种视频处理方法的又一个实施例的流程图；

图5为本申请实施例提供的一种特征融合模型的示意图；

图6为本申请实施例提供的一种特征关联模块的示意图；

图7为本申请实施例提供的一种视频处理方法的一个示例图；

图8为本申请实施例提供的一种视频处理方法的又一个实施例的流程图；

图9为本申请实施例提供的一种视频处理方法的又一个实施例的流程图；

图10为本申请实施例提供的一种视频处理装置的一个实施例的结构示意图；

图11为本申请实施例提供的一种视频处理设备的一个实施例的结构示意图；

图12为本申请实施例提供的一种视频处理装置的又一个实施例的结构示意图；

图13为本申请实施例提供的一种视频处理设备的又一个实施例的结构示意图。

具体实施例

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于识别”。类似地，取决于语境，短语“如果确定”或“如果识别(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当识别(陈述的条件或事件)时”或“响应于识别(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

本申请实施例的技术方案可以应用于视频监控场景中，通过融合视频中的用户特征以及物品特征，使得特征的表达更全面，从而提高视频中用户行为的识别准确率。

现有技术中，可以采集被监控地的视频，并对视频进行用户行为的识别处理，获得用户的目标行为。采用视觉算法分析视频中人物的行为时，可以识别视频中目标用户的运动姿态，通常采用关键点检测的方式识别目标用户的运动姿态，并对目标用户的运动姿态进行行为分析，以获得该目标用户的目标行为。之后，可以利用该目标行为判断该用户是否违反行为准则。但是，单纯采用运动姿态的识别方式，特征较为单一，导致用户的目标行为的识别不够准确，行为判断的准确率较低。

本申请实施例中，在确定待处理视频中的关键图像帧之后，可以提取关键图像帧对应的主对象特征，以及至少一个从对象特征。从对象特征为关键图像帧对应的显著性物品的特征。将主对象特征与至少一个从对象特征进行特征融合处理，获得目标特征。该目标特征中综合了主对象特征以及从对象特征，可以包含更全面的特征信息，使得特征中的目标特征综合了用户以及物品两种方向上的特征，在利用目标特征识别待处理视频中的主对象对应的目标行为时，可以获得更准确的识别结果。

下面将结合附图对本申请实施例进行详细描述。

如图1所示，为本申请实施例提供的一种图像处理方法的一个实施例的流程图，所述方法可以包括以下几个步骤：

101：确定待处理视频中的关键图像帧。

本申请实施例所提供的视频处理方法视频处理设备中。该视频处理设备例如可以包括计算机、笔记本等具有计算处理功能的电子设备，还可以是服务器等后台设备，服务器例如可以为计算机、超级计算机或者云服务器构成的具有计算处理功能的服务器。本申请实施例中对该视频处理设备的具体类型不作过多限定。

在实际应用中，待处理视频可以由摄像设备采集。摄像设备可以与视频处理设备是一体式设备，视频处理视频可以直接获取摄像设备采集的待处理视频。摄像设备还可以与视频处理设备是分体式设备，摄像设备可以采集待处理视频，并将待处理视频发送至视频处理设备，视频处理设备可以接收摄像设备采集的待处理视频。视频处理设备为服务器时，通常与摄像设备不是一体的，此时，摄像设备可以通过有线或者无线的通讯方式将采集的摄像设备发送至服务器。

关键图像帧可以是待处理视频中的任一图像帧。在一种可能的设计中，假设待处理视频中实际包括至少一个图像帧，可以将待处理视频中的所有图像帧依次作为关键图像帧，以对待处理视频的每一图像帧进行行为分析，以确定该视频中是否存在违规行为，对待处理视频进行准确监控。在又一种可能的设计中，可以预设目标用户的用户头像，并从待处理视频的至少一个图像帧中查找包含用户头像的图像帧，并将与用户头像最相似的图像帧作为关键图像帧。

102：提取关键图像帧对应的主对象特征以及至少一个从对象特征。

主对象特征可以为能够代表主对象在图像中的特性的数据，主对象特征可以以一维向量或者二维矩阵等形式存在。至少一个从对象特征可以为能够代表至少一个从对象在图像中的特性的数据，同样，从对象特征也可以以一维向量或者二维矩阵的形式存在。本申请实施例中，对特征的具体数据格式不作过多限定。

提取关键图像帧对应的主对象特征以及至少一个从对象特征可以包括：提取关键图像帧中主对象所在的主对象区域，并直接获取该主对象区域对应局部特征为主对象特征；提取关键图像帧中至少一个从对象所在的从对象区域，并直接获取至少一个从对象区域分别对应的局部特征为从对象特征。

103：将主对象特征以及至少一个从对象特征进行特征融合处理，获得目标特征。

可选地，将主对象特征与至少一个从对象特征进行特征融合处理，获得目标特征可以包括：将主对象特征与至少一个从对象特征输入特征融合模型，通过特征融合模型，将主对象特征与至少一个从对象特征计算融合，获得目标特征。

目标特征可以包括：目标主对象特征以及至少一个目标从对象特征。

目标主对象特征中以主对象特征为基础特征，融合了至少一个从对象特征，信息更全面。

本申请实施例中，可以确定待处理视频中的关键图像帧，并对关键图像帧中的主对象特征以及至少一个从对象特征进行提取。从而将主对象特征与至少一个从对象特征进行特征融合处理，获得目标特征，以基于目标特征，识别待处理视频中主对象对应的目标行为。目标特征中综合了图像中主对象以及从对象的双重信息，可以进行更准确的行为识别，以提高行为检测准确度。

作为一个实施例，在将主对象特征以及至少一个从对象特征进行特征融合处理，获得目标特征之后，该方法还包括：

基于目标特征，识别待处理视频中主对象对应的目标行为。

其中，目标行为为待处理视频中主对象出现的行为，通过目标行为可以判断主对象是否执行违规行为。

本申请实施例中，可以确定待处理视频中的关键图像帧，并对关键图像帧中的主对象特征以及至少一个从对象特征进行提取。从而将主对象特征与至少一个从对象特征进行特征融合处理，获得目标特征，以基于目标特征，识别待处理视频中主对象对应的目标行为。目标特征中综合了图像中主对象以及从对象的双重信息。通过主对象特征与从对象特征进行关联，以获取准确的目标特征，从而对用户的目标行为进行准确检测，提高目标行为的识别准确度。

在实际应用中，用户在执行某个行为时，通常是连续的动作，如果只针对关键图像帧一张图像进行行为分析，单一图像帧缺乏时间上动作行为的关联性，识别的鲁棒性较低。

如图2所示，为本申请实施例提供的一种视频处理方法的又一个实施例的流程图，该方法可以包括：

201：确定待处理视频中的关键图像帧。

本申请实施例中部分步骤与图1所示实施例中的部分步骤相同，为了描述的简洁性考虑，在此不再赘述。

202：确定待处理视频中与关键图像帧关联的关联图像帧。

关联图像帧可以与关键图像帧满足预设关联关系，此时，关联图像帧与关键图像帧存在预设关联关系。该关联关系例如可以是时间上的关联关系。

在实际应用中，关联图像帧可以包括至少一个。

203：基于关联图像帧以及关键图像帧，确定主对象特征以及至少一个从对象特征。

主对象特征以及至少一个从对象特征可以根据关联图像帧以及关键图像帧确定。

主对象特征中可以综合关联图像帧以及关键图像帧各自的主对象特征。

从对象特征中可以总量关联图像帧以及关键图像帧各自的从对象特征。

204：将主对象特征与至少一个从对象特征进行特征融合处理，获得目标特征。

205：基于目标特征，识别待处理视频中主对象对应的目标行为。

本申请实施例中，在对待处理视频的关键图像帧进行特征提取的过程中，还获取了待处理视频中关键图像帧关联的关联图像帧，从而利用关联图像帧以及关键图像帧，确定主对象特征以及至少一个从对象特征。使用待处理视频中与关键图像帧关联的关联图像帧参与到特征提取的过程，可以使得提取的主对象特征以及至少一个从对象特征具备至少一个图像帧的关联特征，覆盖范围更广，从而利用基于主对象特征以及至少一个从对象特征获得的目标特征进行目标行为的识别时，识别结果更准确。

关联图像帧与关键图像帧可以是满足时间上的关联关系。在一种可能的设计中，确定待处理视频中与关键图像帧关联的关联图像帧可以包括：

确定关键图像帧在待处理视频中的第一时间点；

获取待处理视频中位于第一时间点之前的至少一个第一图像帧以及位于第一时间点之后的至少一个第二图像帧；

确定至少一个第一图像帧以及至少一个第二图像帧构成的关联图像帧。

可选地，为了使特征的提取更准确，可以至少一个第一图像帧的数量与至少一个第二图像帧的数量相同，假设至少一个第一图像帧的数量为M帧，至少一个第二图像帧的数量为M帧，关键图像帧与关联图像帧的总数量为2M+1帧。其中，M为大于等于1的正整数。

为了获得准确的关联图像帧，在某些实施例中，所述获取待处理视频中位于第一时间点之前的至少一个第一图像帧以及位于第一时间点之后的至少一个第二图像帧可以包括：按照预设第一采集间隔，从待处理视频中提取位于第一时间点之前的至少一个第一图像帧；以及按照预设第二采集间隔，从待处理视频中提取位于第二时间点之后的至少一个第二图像帧。

可选地，第一采集间隔与第二采集间隔可以相等，以确保能均匀获取到第一时间点之前以及第一时间点之后的图像帧，提高特征的准确性以及安全性。

可选地，第一采集间隔以及第二采集间隔可以为以单位时间为基准的间隔数量。例如，假设以秒为单位时间，采集间隔为2时，则以第一时间点为采集基础，每间隔2秒采集一帧图像。

可选地，第一采集间隔以及第二采集间隔可以为以图像帧的数量为基准的间隔数量。例如，假设以图像帧的数量为间隔单位，采集间隔为10时，则以第一时间点对应的关键图像帧为基准，每间隔10帧图像帧采集一帧图像。

作为一种可能的实现方式，基于关联图像帧以及关键图像帧，确定主对象特征以及至少一个从对象特征可以包括：

提取关键图像帧对应的第一主对象特征以及至少一个第一从对象特征；

提取关联图像帧对应的第二主对象特征以及至少一个第二从对象特征；

基于第一主对象特征以及第二主对象特征，确定主对象特征；

基于至少一个第一从对象特征以及至少一个第二从对象特征，确定至少一个从对象特征。

其中，至少一个第一从对象特征的特征数量与至少一个第二从对象特征的特征数量可以相等。

可选地，第一主对象特征为关键图像帧中用户所在区域对应的特征。第一从对象特征为关键图像帧中物品所在区域对应的特征。第二主对象特征为关联图像帧中用户所在区域对应的特征。第二从对象特征为关联图像帧中物品所在区域对应的特征。

可选地，可以采用相同的特征提取方式，提取关联图像帧的第一主对象特征以及以及至少一个第一从对象特征，以及关键图像帧的第二主对象特征以及至少一个第二从对象特征。

本申请实施例中，通过分别提取关联图像帧以及关键图像帧中用户的特征以及物品的特征，获得第一主对象特征以及第二主对象特征，至少一个第一从对象特征以及至少一个第二从对象特征，从而利用第一主对象特征以及第二主对象特征，确定主对象特征，使得主对象特征中综合至少一个图像帧中主对象的特征。还利用至少一个第一从对象特征以及至少一个第二从对象特征，确定至少一个从对象特征，使得每个从对象特征中融合了至少一个图像帧中的物品的特征。在利用综合了至少一个图像帧的信息的主对象特征以及至少一个从对象特征进行特征融合处理之后，获得的目标特征具备至少一个图像帧之间时间上的关联性，从而在利用目标特征进行主对象的目标行为识别时，准确度更高，可以进一步提高识别效果。

在一种可能的设计中，在提取关键图像帧对应的第一主对象特征以及至少一个第一从对象特征之前，该方法还可以包括：

提取所述关键图像帧中，所述主对象对应的主对象区域以及至少一个从对象分别对应的从对象区域。

所述提取所述关联图像帧对应的第一主对象特征以及至少一个第一从对象特征可以包括：

提取所述关键图像帧在所述主对象区域对应的第一主对象特征，以及在所述至少一个从对象区域分别对应的第一从对象特征；

所述提取所述关联图像帧对应的第二主对象特征以及至少一个第二从对象特征可以包括：

提取所述关联图像帧在所述主对象区域对应的第二主对象特征，以及在所述至少一个从对象区域分别对应的第二从对象特征；

所述基于所述至少一个第一从对象特征以及所述至少一个第二从对象特征，确定所述至少一个从对象特征可以包括：

根据任一个从对象区域对应的第一从对象特征以及第二从对象特征，确定所述从对象区域对应的从对象特征，以获得所述至少一个从对象区域分别对应的从对象特征。

可选地，主对象区域为关键图像帧中存在主对象的区域，例如可以为能够包裹关键图像帧中矩形区域。从对象区域为关键图像帧中从对象所在的区域，例如，可以为能够包裹从对象的矩形区域。主对象可以指关键图像帧中出现的人物对象，该用户的身份以及特征不是特定的，任意在关键图像帧中出现的人物对象均可以作为主对象。从对象可以包括：关键图像帧中所有具备显著性的物品。从对象与关键图像帧中的主对象无关。

为了获得准确的主对象区域以及至少一个从对象区域，可以采用目标检测算法检测关键图像帧中的主对象区域以及至少一个从对象分别对应的从对象区域。

在实际应用中，目标检测算法例如可以包括：SSD(Single Shot MultiBoxDetector，单发多框检测)算法、FCOS(Fully Convolutional One-Stage ObjectDetection，一阶全卷积目标检测)算法、Faster-R-CNN(Faster Region ConvolutionalNeural Networks，快速区域卷积神经网络)算法等，本申请实施例中并不对目标检测算法的具体类型作出过多限定。

可选地，关键图像帧中，主对象对应的主对象区域以及至少一个从对象分别对应的从对象区域均可以为矩形区域，主对象区域的大小可以与主对象在关键图像帧中所占比例相关，从对象区域的大小可以与对应物品在关键图像帧中所占比例相关。为了便于理解，图3示出了一个关键图像帧300中的主对象对应的目标区域301，以及至少一个从对象分别对应的从对象区域302。

提取关键图像帧在主对象区域对应的第一主对象特征，以及在至少一个从对象区域分别对应的第一从对象特征可以包括：提取关键图像帧的关键图像特征，获取关键图像特征在主对象区域的局部特征为第一主对象特征。获取关键图像特征在至少一个从对象区域分别对应的局部特征为对应的第一从对象特征。

提取所述关联图像帧在所述主对象区域对应的第二主对象特征，以及在所述至少一个从对象区域分别对应的第二从对象特征可以包括：提取关联图像帧的关联图像特征，获取关联图像特征在主对象区域的局部特征对应的第二主对象特征；获取关联图像特征在至少一个从对象区域的局部特征分别对应的第二从对象特征。

可选地，基于关联图像帧以及关键图像帧，确定主对象特征以及至少一个从对象特征还可以包括：提取所述关键图像帧中，所述主对象对应的主对象区域以及至少一个从对象分别对应的从对象区域；确定所述关键图像帧在所述主对象区域对应的第一主对象特征；确定所述关联图像帧在所述主对象区域对应的第二主对象特征；针对任一个从对象区域，确定所述关键图像帧在所述从对象区域的第一从对象特征以及所述关联图像帧在所述从对象区域的第二从对象特征，以获得所述至少一个从对象区域分别对应的第一从对象特征以及第二从对象特征；基于所述主对象区域对应的第一主对象特征以及第二主对象特征，确定所述主对象特征；根据任一个从对象区域对应的第一从对象特征以及第二从对象特征，确定所述从对象区域对应的从对象特征，以获得所述至少一个从对象区域分别对应的从对象特征。

本申请实施例中，在提取主对象特征以及从对象特征时，先针关键图像帧进行主对象对应的主对象区域以及至少一个显著性从对象分别对应的从对象区域进行提取。之后可以提取关键图像帧在主对象区域对应的第一主对象特征，以及至少一个从对象区域分别对应的第一从对象特征，还提取关联图像帧在主对象区域对应的第二主对象特征以及至少一个从对象区域分别对应的第二从对象特征。从而利用任一个从对象区域对应的第一从对象特征以及第二从对象特征，确定该从对象区域对应的从对象特征，进而确定至少一个从对象区域分别对应的从对象特征。通过提取主对象区域以及至少一个从对象区域，可以实现对主对象特征以及从对象特征的准确提取。

为了实现对关键图像帧以及关联图像帧中与用户相关的特征进行综合分析，可以将第一主对象特征与第二主对象特征进行融合，以获得最终的主对象特征。例如，可以将第一主对象特征以及第二主对象特征直接进行特征拼接，以获得主对象特征。但是，由于第一主对象特征基于关键图像帧获得，第二主对象特征基于与关键图像帧存在关联关系的关联图像帧获得，关联图像帧可以包括至少一个，直接采用特征拼接的方式可能会导致最后的主对象特征维度较高，在后续进行特征计算时计算复杂度较高。此外，对于同一个从对象区域对应的第一从对象特征以及第二从对象特征也存在此状况。

因此，为了实现第一主对象特征以及至少一个第二主对象特征的较低维度的融合，同一个从对象区域对应的第一从对象特征以及第二从对象特征的较低维度的融合，同时使得获得的主对象特征以及至少一个从对象特征的维度较低，以降低计算复杂度，提高计算效率。在一种可能的设计中，所述基于所述第一主对象特征以及所述第二主对象特征，确定所述主对象特征可以包括：

将所述第一主对象特征以及所述第二主对象特征进行降维融合处理，获得所述主对象特征。

所述根据任一个从对象区域对应的第一从对象特征以及第二从对象特征，确定该从对象区域对应的从对象特征，以获得至少一个从对象区域分别对应的从对象特征可以包括：

针对任一个从对象区域，将该从对象区域对应的第一从对象特征以及第二从对象特征进行降维融合处理，获得该从对象区域对应的从对象特征，以获得至少一个从对象区域分别对应的从对象特征。

在实际应用中，可以采用池化算法对第一主对象特征以及第二主对象特征进行特征融合，以及对同一个从对象区域对应的第一从对象特征以及第二从对象特征进行特征融合。作为一种可能的实现方式，所述将所述第一主对象特征以及所述第二主对象特征进行降维融合处理，获得所述主对象特征可以包括：

基于池化算法，将第一主对象特征以及第二主对象特征进行降维池化计算，获得主对象特征。

所述针对任一个从对象区域，将所述从对象区域对应的第一从对象特征以及第二从对象特征进行降维融合处理，获得所述从对象区域对应的从对象特征，以获得所述至少一个从对象区域分别对应的从对象特征可以包括：

基于池化算法，将任一个从对象区域对应的第一从对象特征以及第二从对象特征进行降维融合计算，获得所述从对象区域对应的从对象特征，以获得所述至少一个从对象区域分别对应的从对象特征。

由于第一主对象特征以及第二主对象特征基于主对象区域获得，第一从对象特征以及第二从对象特征基于对应的从对象区域获得，因此，池化算法具体可以为ROI Pooling(region of proposals Pooling，感兴趣区域池化)算法。此外，池化算法具体还可以为mean Pooling(平均池化)算法或者max Pooling(最大池化)算法等。

作为一个实施例，提取所述关键图像帧中，所述主对象对应的主对象区域以及至少一个从对象分别对应的从对象区域之后，还可以包括：

基于所述主对象区域以及至少一个从对象区域，生成所述关键图像帧对应的区域展示页面；

输出所述区域展示页面，以供用户对所述主对象区域以及所述至少一个从对象区域进行确认；

获取所述用户确认的所述主对象区域以及所述至少一个从对象区域；

所述提取所述关键图像帧在所述主对象区域对应的第一主对象特征，以及在所述至少一个从对象区域分别对应的第一从对象特征可以包括：

提取所述关键图像帧在所述用户确认的主对象区域对应的第一主对象特征，以及在所述用户确认的所述至少一个从对象区域分别对应的第一从对象特征。

所述提取所述关联图像帧在所述主对象区域对应的第二主对象特征，以及在所述至少一个从对象区域分别对应的第二从对象特征可以包括：

提取所述关联图像帧在所述用户确认的主对象区域对应的第二主对象特征，以及所述用户确认的所述至少一个从对象区域分别对应的第二从对象特征。

在基于所述主对象区域以及至少一个从对象区域，生成所述关键图像帧对应的区域展示页面时，可以将主对象区域以及至少一个从对象区域按照各自的位置在关键图像帧中显示，获得关键图像帧对应的区域展示页面。

本申请实施例中，通过将区域为用户输出，可以供用户对主对象以及从对象各自的区域进行选择，以获得用户确认的主对象以及从对象，使得特征的提取与用户个性化选择相关，促进特征提取准确度的提高。

在某些实施例中，获取所述用户确认的所述主对象区域以及所述至少一个从对象区域可以包括：若所述用户未对所述主对象区域确认，返回至所述确定待处理视频的关键图像帧的步骤继续执行；若所述用户对所述主对象区域确认，获取所述用户确认的至少一个从对象区域以及所述用户未确认的从对象区域。

可选地，主对象区域以及至少一个从对象区域可以以区域控件的形式在区域展示页面中存在。用户可以通过点击区域控件的形式选择或者不选择某个区域，以对主对象区域以及至少一个从对象区域进行确认。在实际应用中，还可以在区域展示页面中显示一确认控件。若用户确认完毕，点击该确认控件时，用户的用户端即可以检测用户确认的主对象区域以及至少一个从对象区域，并将主对象区域以及至少一个从对象区域发送至视频处理设备。

如图4所示，为本申请实施例提供的一种视频处理方法的又一个实施例的流程图，该方法可以包括：

401：确定待处理视频中的关键图像帧。

本申请实施例中部分步骤与前述实施例部分步骤相同，为了描述的简洁性考虑，在此不再赘述。

402：提取所述关键图像帧对应的主对象特征以及至少一个从对象特征。

403：将所述主对象特征与所述至少一个从对象特征进行特征融合处理，获得目标主对象特征以及至少一个从对象特征分别对应的目标从对象特征。

404：基于所述目标特征中的目标主对象特征，识别所述待处理视频中所述主对象对应的所述目标行为。

本申请实施例中，确定待处理视频中的关键图像帧，可以提取该关键图像帧对应的主对象特征以及至少一个从对象特征，并通过将主对象特征与至少一个从对象特征进行特征融合处理之后，获得目标主对象特征以及至少一个从对象特征分别对应的目标从对象特征。通过特征融合处理，使目标主对象特征中包含周围从对象的特征信息，从对象特征中融合了主对象特征，从而在基于目标主对象特征识别待处理视频中的主对象对应的目标行为时，可以提高识别准确性，获得准确的目标行为。

在获得目标主对象特征之后，可以格局目标主对象特征进行分类判断，以获得准确的目标行为。作为一个实施例，所述基于所述目标特征中的目标主对象特征，识别所述待处理视频中所述主对象对应的所述目标行为可以包括：

确定分类模型；其中，所述分类模型包括至少一个参考行为；将所述目标特征中的目标主对象特征输入所述分类模型，分别计算所述目标主对象特征分别在所述至少一个参考行为对应的参考概率；确定参考概率最高的参考行为为所述目标行为。

分类模型可以预先训练获得。可选地，可以确定至少一个训练特征；其中，每个训练特征对应有标签行为。构建分类模型。以该分类模型对至少一个训练特征的分类结果与至少一个训练特征分别对应的标签行为相同的训练目标，训练获得该分类模型的模型参数。

在实际应用中，分类模型中可以包括至少一个参考行为，在以分类模型对至少一个训练特征的分类结果与至少一个训练特征分别对应的标签行为相同的训练目标，训练获得该分类模型的模型参数可以包括：确定分类模型的参考模型参数；将所述至少一个训练特征依次输入该参考模型参数对应的分类模型，计算获得每个训练特征分别在至少一个参考行为对应的参考概率；基于任一个训练特征对应的至少一个参考概率，确定参考概率最高的参考行为为该训练特征对应的分类结果；根据至少一个训练特征分别对应的分类结果以及标签行为，确定参考模型参数对应的分类模型的分类误差；如果分类误差小于分类误差阈值，确定参考模型参数为分类模型的模型参数；如果分类误差大于分类误差阈值，基于分类误差调整参考模型参数，返回至确定分类模型的参考模型参数的步骤继续执行。

分类模型可以为神经网络模型，例如可以为ResNet(Residual Network，残差网络)模型或者DresNet(Deep Residual Network，深度残差网络)等。

作为一个实施例，目标特征包括：目标主对象特征以及至少一个目标从对象特征。

将所述主对象特征与所述至少一个从对象特征进行特征融合处理，获得目标特征可以包括：

将所述主对象特征与所述至少一个从对象特征输入特征融合模型，计算获得所述目标主对象特征以及至少一个目标从对象特征。

特征融合模型可以将主对象特征以及至少一个从对象特征进行融合处理，获得目标主对象特征以及至少一个目标从对象特征。在融合处理时，以主对象特征为融合基础，将至少一个从对象特征融合至主对象特征中，获得主对象特征对应的目标主对象特征。以任一个从对象特征为融合基础，将其他从对象特征以及主对象特征融合至该从对象特征中，获得该从对象特征对应的目标从对象特征。通过特征融合模型，使得目标主对象特征中包含了从对象的特征，目标从对象特征中包含了主对象特征，从而在利用目标主对象特征进行行为识别时，可以综合主对象周围的从对象的特征，从而扩展识别基准，提高识别的准确度。

在一种可能的设计中，特征融合模型可以包括串联连接的至少一个特征关联模块。

至少一个特征关联模块可以以串联的形式存在。为了便于理解，图5中示出了特征融合模型500的模型结构，特征融合模型可以由至少一个特征关联模块501构成，该特征融合模型的输入数据为主对象特征以及至少一个从对象特征，以及输出数据为目标主对象特征以及至少一个目标从对象特征。

可选地，所述将所述主对象特征与所述至少一个从对象特征输入特征融合模型，计算获得所述目标主对象特征以及至少一个目标从对象特征可以包括：

将主对象特征以及至少一个从对象特征输入至少一个特征关联模块，通过所述至少一个特征关联模块计算获得目标主对象特征以及目标从对象特征。

其中，除第一个特征关联模块的输入为主对象特征与至少一个从对象特征，以及最后一个特征关联模块的输出为目标用特征以及至少一个目标从对象特征之外，任一个特征关联模块的输入为前一个特征关联模块的输出，以及输出为后一个特征关联模块的输入。

可选地，特征关联模块可以包括至少一个计算单元构成的计算网络，不同的特征关联模块的计算网络的网络结构可以相同，但计算单元的计算参数可以不同。

由于不同特征关联模块的内部计算网络相同，仅存在计算参数的不同，特征关联模块的输入数据的数量类型相同，对输入数据的计算过程相同，输出数据的数据类型也是相同的，为了便于对特征关联模块的计算过程进行详细介绍，作为一种可能的实现方式，任一个特征关联模块的输入可以为第三主对象特征以及至少一个第三从对象特征，输出可以为第三主对象特征对应第四主对象特征以及至少一个第三从对象特征分别对应第四从对象特征。

其中，任一个特征关联模块输出的第四主对象特征作为下一个特征关联模块输入的第三主对象特征，以及至少一个第四从对象特征分别作为下一个特征关联模块输入的第三从对象特征；

所述主对象特征作为第三主对象特征以及所述至少一个从对象特征分别作为第三从对象特征输入第一个特征关联模块；最后一个特征关联模块输出的第四主对象特征为所述目标主对象特征，以及至少一个第四从对象特征分别作为目标从对象特征。

第四主对象特征为特征关联模块对第三主对象特征进行至少一个第三从对象特征的关联处理后获得的。

任一个第四从对象特征为特征关联模块对对应的第三从对象特征进行与第三主对象特征以及其他第三从对象特征的关联处理后获得的。

为了对从对象特征进行关联处理，在一些实施例中，任一个特征关联模块通过以下处理方式处理输入的第三主对象特征以及至少一个第三从对象特征，获得第三主对象特征对应的第四主对象特征以及至少一个第三从对象特征分别对应的第四从对象特征：

将第三主对象特征以及至少一个第三从对象特征进行至少一次第一融合处理，获得任一次第一融合处理获得的所述第三主对象特征对应的融合主对象特征以及至少一个第三从对象特征分别对应的融合从对象特征，以获得第三主对象特征对应的至少一个融合主对象特征以及任一个第三从对象特征对应的至少一个融合从对象特征。

将第三主对象特征对应的至少一个融合主对象特征进行第二融合处理，获得该第三主对象特征对应的第四主对象特征。

针对任一个第三从对象特征对应的至少一个融合从对象特征，将所述至少一个融合从对象特征进行第二融合处理，获得该第三从对象特征对应的第四从对象特征，以获得至少一个第三从对象特征分别对应的第四从对象特征。

在任一个特征关联模块中，该特征关联模块可以将输入的第三主对象特征以及至少一个第三从对象特征进行至少一次第一融合处理，然后将融合处理后获得的融合结果，再次进行第二融合处理，以获得第四主对象特征以及至少一个第四从对象特征。第一融合处理为主对象特征与从对象特征的融合处理，使得主对象特征中包含从对象特征，从对象特征中包含主对象特征。第二融合处理为将同类的特征进行融合处理，获得综合了多种第一融合处理获得的主对象特征，以及综合了同一个从对象特征在综合了多种第一融合处理获得的从对象特征，提高融合的有效性以及全面性。

可选地，将至少一个融合主对象特征进行第二融合处理获得第四主对象特征可以包括：将至少一个融合主对象特征进行特征拼接，获得第四主对象特征。针对任一个第三从对象特征对应的至少一个融合从对象特征，将所述至少一个融合从对象特征进行第二融合处理，获得该第三从对象特征对应的第四从对象特征可以包括：针对任一个第三从对象特征对应的至少一个融合从对象特征，将所述至少一个融合从对象特征进行特征拼接，获得该第三从对象特征对应的第四从对象特征。

第一融合处理可以采用多种方式进行融合，例如可以采用将第三主对象特征以及至少一个第三从对象特征进行加权平均的方式，获得融合主对象特征。采用针对任一个第三从对象特征与其他第三主对象特征以及第三主对象特征进行加权平均的方式，获得该第三从对象特征对应融合从对象特征。

为了便于理解，图6中示出了一个特征关联模块600中的融合结构，假设该特征关联模块对输入数据进行三次第一融合处理，也即，包含三个第一融合模块，分别为第一融合模块A601、第一融合模块B602以及第一融合模块C603；输入至该特征关联模块的数据为第三主对象特征以及两个第三从对象特征，这两个第三从对象特征分别为第三从对象A特征以及第三从对象B特征。

特征关联模块可以将输入的第三主对象特征、第三从对象A特征以及第三从对象B特征分别输入至第一融合模块A601、第一融合模块B602以及第一融合模块C603。通过第一融合模块A601对第三主对象特征、第三从对象A特征以及第三从对象B特征604的第一融合处理，可以获得一个融合主对象特征以及融合从对象A特征、融合从对象B特征以及融合从对象C特征604。通过第二融合模块B602对第三主对象特征、第三从对象A特征以及第三从对象B特征的第一融合处理，可以获得一个融合主对象特征以及融合从对象A特征、融合从对象B特征以及融合从对象C特征605。通过第三融合模块C603对第三主对象特征、第三从对象A特征以及第三从对象B特征602的第一融合处理，可以获得一个融合主对象特征以及融合从对象A特征、融合从对象B特征以及融合从对象C特征606。

之后，特征关联模块可以将第一融合模块A601输出的融合主对象特征、第二融合模块B602输出的融合主对象特征以及第三融合模块C601输出的融合主对象特征进行第二融合处理，获得第四主对象特征。特征关联模块可以将第一融合模块A601输出的融合从对象A特征、第二融合模块B602输出的融合从对象A特征以及第三融合模块C601输出的融合从对象A特征进行第二融合处理，获得第四从对象A特征。特征关联模块还可以将第一融合模块A601输出的融合从对象B特征、第二融合模块B602输出的融合从对象B特征以及第三融合模块C601输出的融合从对象A特征进行第二融合处理，获得第四从对象B特征。从而获得一个第四主对象特征、第四从对象A特征以及第四从对象B特征。

为了提高融合精度，作为一个实施例，将第三主对象特征以及至少一个第三从对象特征进行至少一次第一融合处理，获得任一次第一融合处理获得的所述第三主对象特征对应的融合主对象特征以及至少一个第三从对象特征分别对应的融合从对象特征，以获得第三主对象特征对应的至少一个融合主对象特征以及任一个第三从对象特征对应的至少一个融合从对象特征可以包括：

针对任一次第一融合处理，基于所述第三主对象特征分别与所述至少一个第三从对象特征之间的特征相似度，确定所述第三主对象特征对应的融合主对象特征，以获得所述第三主对象特征对应的至少一个融合主对象特征；

针对任一次第一融合处理，基于任一个第三从对象特征分别与所述第三主对象特征以及至少一个第三从对象特征中其他第三从对象特征之间的特征相似度，确定所述第三主对象特征的融合主对象特征，以获得所述第三从对象特征对应的至少一个融合从对象特征。

在将第三主对象特征与至少一个第三从对象特征进行第一融合处理时，可以根据第三主对象特征与至少一个第三从对象特征之间的特征相似度，将至少一个从对象特征融合至第三主对象特征，获得融合主对象特征。在将任一个第三从对象特征与其他第三从对象特征以及第三主对象特征进行第一融合处理时，可以根据该第三从对象特征与其他第三从对象特征以及第三主对象特征之间的特征相似度，将其他第三从对象特征以及第三主对象特征融合至该第三主对象特征。特征相似度可以代表两个特征之间的相似程度，通过特征相似度进行融合，可以使得融合结果更准确。

为了获得准确的融合主对象特征，在一些实施例中，针对任一次第一融合处理，基于所述第三主对象特征分别与所述至少一个第三从对象特征之间的特征相似度，确定所述第三主对象特征对应的融合主对象特征，以获得所述第三主对象特征对应的至少一个融合主对象特征可以包括：

针对任一次第一融合处理，基于所述第三主对象特征分别与所述至少一个第三从对象特征之间的特征相似度，确定所述至少一个第三从对象特征分别在所述第三主对象特征产生的第一影响特征；

根据所述第三主对象特征以及至少一个第一影响特征，计算所述第三主对象特征对应的融合主对象特征；

获取所述至少一次融合处理获得的所述第三主对象特征对应的至少一个融合主对象特征。

可选地，第一影响特征可以通过第三主对象特征分别与所述至少一个第三从对象特征之间的特征相似度计算获得。根据第三主对象特征与至少一个第一影响特征，计算获得第三主对象特征对应的融合主对象特征可以包括：将第三主对象特征与至少一个第一影响主对象特征进行特征相加，计算获得第三主对象特征对应的融合主对象特征。

为了获得第三主对象特征与至少一个第三从对象特征之间的特征相似度，在一种可能的设计中，在针对任一次第一融合处理，基于所述第三主对象特征分别与所述至少一个第三从对象特征之间的特征相似度，确定所述至少一个第三从对象特征分别在所述第三主对象特征产生的第一影响特征之前，该方法还可以包括：

计算所述第三主对象特征分别与所述至少一个第三从对象特征之间的特征相似度。

特征相似度可以代表第三主对象特征与对应的第三从对象特征之间的特征相似程度，相似度越高，说明该第三从对象特征对应的物品对用户的影响较高，相似度越低，说明该第三从对象特征对应的物品对用户的影响较低。通过特征相似度可以准确衡量两个特征之间的关联特性，提高特征分析的准确度。

为了获得准确的特征相似度，在一些实施例中，所述计算所述第三主对象特征分别与所述至少一个第三从对象特征之间的特征相似度可以包括：

计算所述第三主对象特征分别与所述至少一个第三从对象特征之间的向量内积，获得所述第三主对象特征分别与所述至少一个第三从对象特征之间的特征相似度。

为了便于理解，以第三主对象特征为F1，第三从对象特征为Fj为例，第三主对象特征与第三从对象特征之间的特征相似度可以为

至少一个第三从对象特征分别在所述第三主对象特征产生的第一影响特征可以表示为

其中，j为属于2～(n+1)的正整数，n为至少一个第三从对象特征的数量。

为了准确获得第三主对象特征对应的融合主对象特征，在一种可能的设计中，所述根据所述第三主对象特征以及至少一个第一影响特征，计算所述第三主对象特征对应的融合主对象特征可以包括：

确定第三主对象特征与所述至少一个第三从对象特征对应的影响系数；

将所述至少一个第一影响特征加和计算后与所述影响系数相乘，计算获得第一综合影响特征；

将第三主对象特征与所述综合影响特征进行特征相加，计算获得所述第三主对象特征对应的融合主对象特征。

影响系数为用于平衡第三主对象特征与至少一个第三从对象特征之间的系数，可以为一个常数。任一个影响系数影响其对应的第一影响特征对应的第三主对象特征以及至少一个第三从对象特征之间的特征平衡。

以影响系数使用α表示为例，融合主对象特征

为了获得准确的融合从对象特征，在一些实施例中，针对任一次第一融合处理，基于任一个第三从对象特征分别与所述第三主对象特征以及至少一个第三从对象特征中的其他第三从对象特征之间的特征相似度，确定所述第三从对象特征的融合从对象特征，以获得所述第三从对象特征对应的至少一个融合从对象特征可以包括：

针对任一次第一融合处理，基于任一个第三从对象特征分别与所述第三主对象特征以及至少一个第三从对象特征中的其他第三从对象特征之间的特征相似度，确定所述第三主对象特征以及所述至少一个第三从对象特征中的其他第三从对象特征对所述第三从对象特征的第二影响特征；

根据所述第三从对象特征以及至少一个第二影响特征，计算所述第三从对象特征对应的融合从对象特征，以获得所述至少一个第三从对象特征分别对应的融合从对象特征；

获取所述至少一次融合处理获得的所述至少一个第三从对象特征分别对应的至少一个融合从对象特征。

为了获得第三从对象特征与第三主对象特征以及其他第三从对象特征之间的特征相似度，在一种可能的设计中，针对任一次第一融合处理，基于任一个第三从对象特征分别与所述第三主对象特征以及至少一个第三从对象特征中的其他第三从对象特征之间的特征相似度，确定所述第三主对象特征以及所述至少一个第三从对象特征中的其他第三从对象特征对所述第三从对象特征的第二影响特征之前，该方法还可以包括：

针对任一个第三从对象特征，计算所述第三从对象特征与所述第三主对象特征以及所述至少一个第三从对象特征中除所述第三从对象特征之外的其他第三从对象特征之间的特征相似度。

为了获得准确的特征相似度，在一些实施例中，针对任一个第三从对象特征，计算所述第三从对象特征与所述第三主对象特征以及所述至少一个第三从对象特征中除所述第三从对象特征之外的其他第三从对象特征之间的特征相似度可以包括：

针对任一个第三从对象特征，计算所述第三从对象特征与所述第三主对象特征的向量内积，获得所述第三从对象特征与所述第三主对象特征之间的特征相似度；

计算所述第三从对象特征与所述至少一个第三从对象特征中的其他从对象特征之间的向量内积，获得所述第三从对象特征与其他第三从对象特征之间的特征相似度。

为了便于理解，以第三从对象特征为Fj，第三从对象特征与其他第三从对象特征为Fi为例，第三从对象特征与其他第三从对象特征Fi以及第三主对象特征之间的特征相似度可以为：

任一个第三从对象特征与其他第三从对象特征以及第三主对象特征产生的第二影响特征可以为

其中，j为属于2～(n+1)的正整数，i为属于1～(n+1)的正整数且i不等于j，n为至少一个第三从对象特征的数量。

为了准确获得第三从对象特征对应的融合从对象特征，在一种可能的设计中，根据所述第三从对象特征以及至少一个第二影响特征，计算所述第三从对象特征对应的融合从对象特征，以获得所述至少一个第三从对象特征分别对应的融合从对象特征可以包括：

将第三从对象特征对应至少一个第二影响特征加和计算后与所述影响系数相乘，计算获得该第三从对象特征对应第二综合影响特征；

将所述第三从对象特征与所述第二综合影响特征进行特征相加，计算获得所述第三从对象特征对应的融合从对象特征，以获得所述至少一个第三从对象特征分别对应的融合从对象特征。

以影响系数为α为例，融合主对象特征

为了获得第三主对象特征以及至少一个第三从对象特征在不同空间的表达效果，在将所述第三主对象特征以及所述至少一个第三从对象特征进行至少一次第一融合处理之前，还可以将第三主对象特征以及至少一个第三从对象特征映射到预设的空间中，获得映射后的第三主对象特征以及至少一个第三从对象特征，再对映射后的第三主对象特征以及至少一个第三从对象特征进行至少一次第一融合处理。

作为一个实施例，所述将所述第三主对象特征以及所述至少一个第三从对象特征进行至少一次第一融合处理，获得任一次第一融合处理获得的所述第三主对象特征对应的融合主对象特征以及所述至少一个第三从对象特征分别对应的融合从对象特征，以获得所述第三主对象特征对应的至少一个融合主对象特征以及任一个第三从对象特征对应的至少一个融合从对象特征之前，该方法还可以包括：

将第三主对象特征以及至少一个第三从对象特征进行空间映射，获得映射后的第三主对象特征以及至少一个第三从对象特征。

所述将所述第三主对象特征以及所述至少一个第三从对象特征进行至少一次第一融合处理，获得任一次第一融合处理获得的所述第三主对象特征对应的融合主对象特征以及所述至少一个第三从对象特征分别对应的融合从对象特征，以获得所述第三主对象特征对应的至少一个融合主对象特征以及任一个第三从对象特征对应的至少一个融合从对象特征具体可以包括：

将映射后的第三主对象特征以及所述至少一个第三从对象特征进行至少一次第一融合处理，获得任一次第一融合处理获得的所述第三主对象特征对应的融合主对象特征以及所述至少一个第三从对象特征分别对应的融合从对象特征，以获得所述第三主对象特征对应的至少一个融合主对象特征以及任一个第三从对象特征对应的至少一个融合从对象特征。

为了对第三主对象特征以及至少一个第三从对象特征进行多种空间角度的分析，可以将至少一个第三主对象特征与至少一个第三从对象特征先映射至一个特征空间中然后将映射后的第三主对象特征以及至少一个第三从对象特征进行至少一次第一融合处理以及第二融合处理，从而提高特征在不同空间的表达特性，促进特征提取精度的提高。

空间映射可以指将特征从一个空间映射至另一个空间，例如，当第三主对象特征以及至少一个第三从对象特征是基于图像的二维坐标系对应的空间，可以将第三主对象特征以及至少一个第三从对象特征映射至例如三维坐标系对应的空间。

作为一个实施例，所述将所述第三主对象特征对应的至少一个融合主对象特征进行第二融合处理，获得所述第三主对象特征对应的第四主对象特征可以包括：

将所述第三主对象特征对应的至少一个融合主对象特征进行特征拼接，获得所述第三主对象特征对应的第四主对象特征；

所述针对任一个第三从对象特征对应的至少一个融合从对象特征，将所述至少一个融合从对象特征进行第二融合处理，获得所述第三从对象特征对应的第四从对象特征，以获得至少一个第三从对象特征分别对应的第四从对象特征包括：

针对任一个第三从对象特征对应的至少一个融合从对象特征，将所述至少一个融合从对象特征进行特征拼接，获得所述第三从对象特征对应的第四从对象特征，以获得至少一个第三从对象特征分别对应的第四从对象特征。

在一些实施例中，在获得主对象的目标行为之后，还可以包括：

如果所述目标行为满足监控条件，生成所述主对象执行所述目标行为的监控提示信息；

输出所述监控提示信息。

在获得目标行为时，可以对目标行为进行行为类型判断，在目标行为满足监控条件时，也即属于违规行为时，可以生成目标行为对应的监控提示信息。利用监控提示信息及时对主对象的行为进行及时提示，以提高提示的有效性以及实时性。

作为一个实施例，在获得主对象的目标行为之后，还可以包括：

提取所述待处理视频中的文字信息；

所述基于所述目标特征，识别所述待处理视频中主对象对应的目标行为包括：

基于所述目标特征以及所述文字信息，识别所述待处理视频中所述主对象对应的目标行为。

提取待处理视频中的文字信息时可以包括多种方式，例如，可以采用图像文字识别算法，依次识别待处理视频中的各个图像帧的文字信息，并将重复的文字信息去除，以获得该待处理视频中的文字信息。还可以采用将待处理视频转换为语音信息，然后采用语音识别算法识别该语音信息中的文字信息的方式获得该待处理视频的文字信息。

本申请实施例中，通过将目标特征以及文字信息均用于待处理视频的主对象对应的目标行为，综合了待处理视频中的文字信息，以提高待处理视频中行为识别效果。

作为一种可能的实现方式，基于所述目标特征以及所述文字信息，识别所述待处理视频中所述主对象对应的目标行为可以包括：

对所述文字信息进行语义识别处理，获得第一行为；

基于所述目标特征，识别第二行为；

根据所述第一行为以及所述第二行为，确定所述待处理视频中所述主对象对应的所述目标行为。

本申请实施例中，基于目标特征，识别第二行为时具体可以与前述实施例中：基于所述目标特征中的目标主对象特征，识别所述待处理视频中所述主对象对应的所述目标行为中所采用的识别方式相同，通过目标特征中的目标主对象特征即可以识别待处理视频中的第二行为。具体可以通过确定分类模型；其中，所述分类模型包括至少一个参考行为；将所述目标特征中的目标主对象特征输入所述分类模型，分别计算所述目标主对象特征分别在所述至少一个参考行为对应的参考概率；确定参考概率最高的参考行为为第二行为。

为了获得准确的目标行为，作为一种可能的实现方式，根据所述第一行为以及所述第二行为，确定所述待处理视频中所述主对象对应的所述目标行为可以包括：

如果所述第一行为与所述第二行为相同，确定所述第一行为或所述第二行为所述待处理视频中所述主对象对应的所述目标行为；

如果所述第一行为与所述第二行为不同，确定所述第一行为与所述第二行为中，适用范围较大的为所述待处理视频中所述主对象对应的所述目标行为。

在实际应用中，为了对待处理视频进行无差别，全方位分析，以确保对违反规定的行为不出现检测遗漏，在一些实施例中，确定待处理视频中的关键图像帧具体可以包括：

确定所述待处理视频中的至少一个图像帧。

依次将所述至少一个图像帧作为所述关键图像帧。

为了便于理解，如图7所示，以摄像设备为位于室内的微型摄像头M1，视频处理设备为云端服务器M2为例，详细介绍本申请实施例提供的技术方案。

微型摄像头M1可以不断采集视频并传输至云端服务器M2。该微型摄像头M1可以将采集的待处理视频发送701至云端服务器M2。

云端服务器M2接收到该微型摄像头M1发送的待处理视频。之后，可以获取702待处理视频中的关键图像帧；提取703所述关键图像帧对应的主对象特征以及至少一个从对象特征；将所述主对象特征与所述至少一个从对象特征进行特征融合处理，获得704目标特征；基于所述目标特征，识别705所述待处理视频中主对象对应的目标行为。

为了对行为监控，可以对目标行为进行输出提示。在一些实施例中，该云端服务器M2或者摄像设备M1可以预先关联用户端，以该用户端实际的终端为手机M3为例。云端服务器M2可以在判断目标行为为违反规定的行为之后，可以基于该目标行为生成706监控提示信息，将该监控提示信息发送707至手机M3上。该手机M3可以展示该监控提示信息。以该监控提示信息为文字提示信息为例，假设第二提示信息为“微型摄像头M1拍摄到违规行为”。在文字对话框中可以显示该“微型摄像头M1拍摄到违规行为”的监控提示信息。

在实际应用中，主对象可以为人物、车辆、移动物体、船舶、航空器或者动物等。从对象可以为主对象周围的物品、建筑物等对象。以主对象为人物，从对象为人物周围的物品为例。如图8所示，为本申请实施例提供的一种视频处理方法的又一个实施例的流程图，该方法可以包括：

801：确定待处理视频中的关键图像帧。

802：提取关键图像帧对应的用户特征以及至少一个物品特征。

803：将用户特征与至少一个物品特征进行特征融合处理，获得目标特征。

804：基于目标特征，识别待处理视频中的目标用户对应的目标行为。

本申请实施例中，可以确定待处理视频中的关键图像帧，并对关键图像帧中的用户特征以及至少一个物品特征进行提取。从而将物品特征与至少一个物品特征进行特征融合处理，获得目标特征，以基于目标特征，识别待处理视频中目标用户对应的目标行为。目标特征中综合了图像中用户以及物品的双重信息，可以进行更准确的行为识别，以提高行为检测准确度。

需要说明的是，本申请实施例中，主对象为用户，从对象为物品。关于用户特征以及至少一个物品特征的提取方式与前述实施例中主对象特征以及至少一个从对象特征的提取方式相同，为了描述简洁性的考虑，在此不再赘述。

在特征提取过程中，主对象特征对应的“第一主对象特征”可以为“第一用户特征”，“第一从对象特征”可以为“第一物品特征”，“第二主对象特征”可以为“第二用户特征”，“第二从对象特征”可以为“第二物品特征”，“第三主对象特征”可以为“第三用户特征”，“第三从对象特征”可以为“第三物品特征”，“第四主对象特征”可以为“第四用户特征”，“第四从对象特征”可以为“第四物品特征”，“融合主对象特征”可以为“融合用户特征”，“融合从对象特征”可以为“融合物品特征”等。其中“第一、第二、第三、第四”等不具备数量上或者顺序上的区别，仅存在名称上的区别。

本申请实施例提供的视频处理方法可以配置为一视频处理软件，可以通过接口等方式实现与用户交互，实现线上的视频处理服务。

如图9所示，为本申请实施例提供的一种视频处理方法的又一个实施例的流程图，该方法可以包括：

901：响应于用户发起的视频处理请求，获取待处理视频。

902：确定待处理视频中的关键图像帧。

903：提取所述关键图像帧对应主对象特征以及至少一个从对象特征。、

904：将主对象特征与至少一个从对象特征进行特征融合处理，获得目标特征。

905：将目标特征提供至用户。

本申请实施例中，在接收到用户的视频处理请求之后，可以对用户的发起的视频处理请求作出响应，获取待处理视频。从而对待处理视频中的关键图像帧进行特征提取，以获得主对象特征以及至少一个从对象特征，从而将主对象特征以及至少一个从对象特征进行特征融合处理，获得目标特征，以将目标特征提供给用户。通过与用户交互，可以实现为用户对应待处理视频的特征提取工作，实现特征提取服务，提高服务效率。

作为一个实施例，在将主对象特征与至少一个从对象特征进行特征融合处理，获得目标特征之后，该方法还包括：

基于所述目标特征，识别所述待处理视频中主对象对应的目标行为；

将所述主对象对应的目标行为提供给所述用户。

作为一种可能的实现方式，所述响应于用户发起的视频处理请求，获取待处理视频可以包括：

响应于所述用户发起的视频处理请求，接收所述用户发送的待处理视频。

作为又一种可能的实现方式，所述响应于用户发起的视频处理请求，获取待处理视频可以包括：

响应于所述用户发起的视频处理请求，获取所述用户提供的摄像设备；

通过所述摄像设备采集所述待处理视频。

如图10所示，为本申请实施例提供的一种视频处理装置的一个实施例的结构示意图，该装置可以包括：

第一确定模块1001，用于确定待处理视频中的关键图像帧；

特征提取模块1002，用于提取所述关键图像帧对应的主对象特征以及至少一个从对象特征；

特征融合模块1003，用于将所述主对象特征与所述至少一个从对象特征进行特征融合处理，获得目标特征。

作为一个实施例，该装置还可以包括：

行为识别模块，用于基于所述目标特征，识别所述待处理视频中主对象对应的目标行为。

作为又一个实施例，该装置还可以包括：

图像关联模块，用于确定所述待处理视频中与所述关键图像帧关联的关联图像帧；

所述特征提取模块可以包括：

特征提取单元，用于基于所述关联图像帧以及所述关键图像帧，确定所述主对象特征以及所述至少一个从对象特征。

在某些实施例中，所述图像关联模块可以包括：

时间确定单元，用于确定所述关键图像帧在所述待处理视频中的第一时间点；

图像获取单元，用于获取所述待处理视频中位于所述第一时间点之前的至少一个第一图像帧以及位于所述第一时间点之后的至少一个第二图像帧；

图像确定单元，用于确定所述至少一个第一图像帧以及所述至少一个第二图像帧构成的关联图像帧。

作为一种可能的实现方式，所述特征提取单元可以包括：

第一提取子单元，用于提取所述关键图像帧对应的第一主对象特征以及至少一个第一从对象特征；

第二提取子单元，用于提取所述关联图像帧对应的第二主对象特征以及至少一个第二从对象特征；

第一确定子单元，用于基于所述第一主对象特征以及所述第二主对象特征，确定所述主对象特征；

第二确定子单元，用于基于所述至少一个第一从对象特征以及所述至少一个第二从对象特征，确定所述至少一个从对象特征。

在某些实施例中，所述装置还包括：

区域提取模块，用于提取所述关键图像帧中，所述主对象对应的主对象区域以及至少一个从对象分别对应的从对象区域；

所述第一提取子单元包括：

第一提取模块，用于提取所述关键图像帧在所述主对象区域对应的第一主对象特征，以及在所述至少一个从对象区域分别对应的第一从对象特征；

所述第二提取子单元包括：

第二提取模块，用于提取所述关联图像帧在所述主对象区域对应的第二主对象特征，以及在所述至少一个从对象区域分别对应的第二从对象特征；

所述第二确定子单元包括：

第二确定模块，用于根据任一个从对象区域对应的第一从对象特征以及第二从对象特征，确定所述从对象区域对应的从对象特征，以获得所述至少一个从对象区域分别对应的从对象特征。

作为一种可能的实现方式，所述第一确定子单元包括：

第一降维模块，用于将所述第一主对象特征以及所述第二主对象特征进行降维融合处理，获得所述主对象特征；

所述第二确定模块包括：

第一降维单元，用于针对任一个从对象区域，将所述从对象区域对应的第一从对象特征以及第二从对象特征进行降维融合处理，获得所述从对象区域对应的从对象特征，以获得所述至少一个从对象区域分别对应的从对象特征。

在一种可能的设计中，所述第一降维模块可以包括：

第二降维单元，用于基于池化算法，将所述第一主对象特征以及所述第二主对象特征进行降维融合计算，获得所述主对象特征；

所述第一降维单元包括：

第一降维子单元，用于基于池化算法，将任一个从对象区域对应的基础从对象特征进行降维融合计算，获得所述从对象区域对应的从对象特征，以获得所述至少一个从对象区域分别对应的从对象特征。

作为一个实施例，该装置可以包括：

区域页面生成模块，用于基于所述主对象区域以及至少一个从对象区域，生成所述关键图像帧对应的区域展示页面；

区域页面输出模块，用于输出所述区域展示页面，以供用户对所述主对象区域以及所述至少一个从对象区域进行确认；

区域确认模块，用于获取所述用户确认的所述主对象区域以及所述至少一个从对象区域。

可选地，第一提取模块具体可以用于：提取所述关键图像帧在所述用户确认的主对象区域对应的第一主对象特征，以及在所述用户确认的所述至少一个从对象区域分别对应的第一从对象特征。

第二提取模块具体可以用于：提取所述关联图像帧在所述用户确认的主对象区域对应的第二主对象特征，以及所述用户确认的所述至少一个从对象区域分别对应的第二从对象特征。

在某些实施例中，区域确认模块可以包括：

区域获取一单元，用于若所述用户未对所述主对象区域确认，跳转至第一确定模块继续执行；

区域获取二单元，用于若所述用户对所述主对象区域确认，获取所述用户确认的至少一个从对象区域以及所述用户未确认的从对象区域。

作为又一个实施例，所述目标特征包括：目标主对象特征以及至少一个目标从对象特征。所述特征融合模块可以包括：

特征融合单元，用于将所述主对象特征与所述至少一个从对象特征输入特征融合模型，计算获得所述目标主对象特征以及至少一个目标从对象特征。

作为一种可能的实现方式，所述特征融合模型包括串联连接的至少一个特征关联模块；

所述特征融合单元包括：

配置有至少一个特征关联模块的特征融合子单元，该特征融合子单元具体可以用于将所述主对象特征与所述至少一个从对象特征输入所述至少一个特征关联模块，通过所述至少一个特征关联模块计算获得所述目标主对象特征以及所述至少一个目标从对象特征；

其中，除第一个特征关联模块的输入为所述主对象特征以及所述至少一个从对象特征，以及最后一个特征关联模块的输出为所述目标主对象特征以及至少一个目标从对象特征之外，任一个特征关联模块输入为前一个特征关联模块的输出，输出为后一个特征关联模块的输入。

在某些实施例中，所述任一个特征关联模块的输入为第三主对象特征以及至少一个第三从对象特征，输出为所述第三主对象特征对应的第四主对象特征以及至少一个第三从对象特征分别对应的第四从对象特征；

进一步，可选地，所述任一个特征关联模块具体可以包括：

第一融合单元，用于将所述第三主对象特征以及所述至少一个第三从对象特征进行至少一次第一融合处理，获得任一次第一融合处理获得的所述第三主对象特征对应的融合主对象特征以及所述至少一个第三从对象特征分别对应的融合从对象特征，以获得所述第三主对象特征对应的至少一个融合主对象特征以及任一个第三从对象特征对应的至少一个融合从对象特征；

第二融合单元，用于将所述第三主对象特征对应的至少一个融合主对象特征进行第二融合处理，获得所述第三主对象特征对应的第四主对象特征；

第三融合单元，用于针对任一个第三从对象特征对应的至少一个融合从对象特征，将所述至少一个融合从对象特征进行第二融合处理，获得所述第三从对象特征对应的第四从对象特征，以获得至少一个第三从对象特征分别对应的第四从对象特征。

作为一种可能的实现方式，所述第一融合单元具体可以包括：

第一融合子单元，用于针对任一次第一融合处理，基于所述第三主对象特征分别与所述至少一个第三从对象特征之间的特征相似度，确定所述第三主对象特征对应的融合主对象特征，以获得所述第三主对象特征对应的至少一个融合主对象特征；

第二融合子单元，用于针对任一次第一融合处理，基于任一个第三从对象特征分别与所述第三主对象特征以及至少一个第三从对象特征中的其他第三从对象特征之间的特征相似度，确定所述第三从对象特征的融合从对象特征，以获得所述第三从对象特征对应的至少一个融合从对象特征。

在某些实施例中，所述第一融合子单元可以包括：

第一影响模块，用于针对任一次第一融合处理，基于所述第三主对象特征分别与所述至少一个第三从对象特征之间的特征相似度，确定所述至少一个第三从对象特征分别在所述第三主对象特征产生的第一影响特征；

第一计算模块，用于根据所述第三主对象特征以及至少一个第一影响特征，计算所述第三主对象特征对应的融合主对象特征；

第一获取模块，用于获取所述至少一次融合处理获得的所述第三主对象特征对应的至少一个融合主对象特征。

在一种可能的设计中，所述装置还包括：

第一相似计算模块，用于计算所述第三主对象特征分别与所述至少一个第三从对象特征之间的特征相似度。

在某些实施例中，所述相似计算模块可以包括：

相似计算单元，用于计算所述第三主对象特征分别与所述至少一个第三从对象特征之间的向量内积，获得所述第三主对象特征分别与所述至少一个第三从对象特征之间的特征相似度。

在某些实施例中，所述第一计算模块可以包括：

第一系数确定单元，用于确定所述第三主对象特征与所述至少一个第三从对象特征对应的影响系数；

第一影响计算单元，用于将所述至少一个第一影响特征加和计算后与所述影响系数相乘，计算获得第一综合影响特征；

第一融合计算单元，用于将所述第三主对象特征与所述第一综合影响特征进行特征相加，计算获得所述第三主对象特征对应的融合主对象特征。

在某些实施例中，所述第二融合子单元包括：

第二影响模块，用于针对任一次第一融合处理，基于任一个第三从对象特征分别与所述第三主对象特征以及至少一个第三从对象特征中的其他第三从对象特征之间的特征相似度，确定所述第三主对象特征以及所述至少一个第三从对象特征中的其他第三从对象特征对所述第三从对象特征的第二影响特征；

第二计算模块，用于根据所述第三从对象特征以及至少一个第二影响特征，计算所述第三从对象特征对应的融合从对象特征，以获得所述至少一个第三从对象特征分别对应的融合从对象特征；

第二获取模块，用于获取所述至少一次融合处理获得的所述至少一个第三从对象特征分别对应的至少一个融合从对象特征。

作为一个实施例，所述装置还包括：

第二相似计算模块，用于针对任一个第三从对象特征，计算所述第三从对象特征与所述第三主对象特征以及所述至少一个第三从对象特征中除所述第三从对象特征之外的其他第三从对象特征之间的特征相似度。

作为一种可能的实现方式，所述第二相似计算模块可以包括；

内积计算单元，用于针对任一个第三从对象特征，计算所述第三从对象特征与所述第三主对象特征的向量内积，获得所述第三从对象特征与所述第三主对象特征之间的特征相似度；

特征计算单元，用于计算所述第三从对象特征与所述至少一个第三从对象特征中的其他从对象特征之间的向量内积，获得所述第三从对象特征与其他第三从对象特征之间的特征相似度。

在一种可能的设计中，所述第二计算模块包括：

第二系数确定单元，用于确定所述第三主对象特征与所述至少一个第三从对象特征对应的影响系数；

第二影响计算单元，用于将所述第三从对象特征对应至少一个第二影响特征加和计算后与所述影响系数相乘，计算获得所述第三从对象特征对应的第二综合影响特征；

第二融合计算单元，用于将所述第三从对象特征与所述第二综合影响特征进行特征相加，计算获得所述第三从对象特征对应的融合从对象特征，以获得所述至少一个第三从对象特征分别对应的融合从对象特征。

作为又一个实施例，该装置还包括：

空间映射模块，用于将所述第三主对象特征以及至少一个第三从对象特征分别进行空间映射，获得映射后的第三主对象特征以及至少一个第三从对象特征；

所述第一融合单元包括：

映射融合子单元，用于将映射后的第三主对象特征以及至少一个第三从对象特征将进行至少一次第一融合处理，获得任一次第一融合处理获得的所述第三主对象特征对应的融合主对象特征以及所述至少一个第三从对象特征分别对应的融合从对象特征，以获得所述第三主对象特征对应的至少一个融合主对象特征以及任一个第三从对象特征对应的至少一个融合从对象特征。

在某些实施例中，所述第二融合单元包括：

第一拼接子单元，用于将所述第三主对象特征对应的至少一个融合主对象特征进行特征拼接，获得所述第三主对象特征对应的第四主对象特征；

所述第三融合单元包括：

第二拼接子单元，用于针对任一个第三从对象特征对应的至少一个融合从对象特征，将所述至少一个融合从对象特征进行特征拼接，获得所述第三从对象特征对应的第四从对象特征，以获得至少一个第三从对象特征分别对应的第四从对象特征。

作为又一个实施例，所述特征融合模块包括：

目标融合单元，用于将所述主对象特征与所述至少一个从对象特征进行特征融合处理，获得目标主对象特征以及至少一个从对象特征分别对应的目标从对象特征；

所述行为识别模块包括：

行为识别单元，用于基于所述目标特征中的目标主对象特征，识别所述待处理视频中所述主对象对应的所述目标行为。

在一种可能的设计中，所述行为识别单元包括：

模型确定子单元，用于确定分类模型；其中，所述分类模型包括至少一个参考行为；

分类计算子单元，用于将所述目标特征中的目标主对象特征输入所述分类模型，分别计算所述目标主对象特征分别在所述至少一个参考行为对应的参考概率；

行为确定子单元，用于确定参考概率最高的参考行为为所述目标行为。

在又一种可能的设计中，所述装置还包括：

提示生成模块，用于如果所述目标行为满足监控条件，生成所述主对象执行所述目标行为的监控提示信息；

信息输出模块，用于输出所述监控提示信息。

作为又一个实施例，所述第一确定模块包括：

图像帧确定单元，用于确定所述待处理视频中的至少一个图像帧；

关键帧确定单元，用于依次将所述至少一个图像帧作为所述关键图像帧。

作为又一个实施例，该装置还可以包括：

文字提取模块，用于提取所述待处理视频中的文字信息。

行为识别模块可以包括：

混合识别单元，用于基于所述目标特征以及所述文字信息，识别所述待处理视频中所述主对象对应的目标行为。

在某些实施例中，混合识别单元可以包括：

第一识别子单元，用于对所述文字信息进行语义识别处理，获得第一行为；

第二识别子单元，用于基于所述目标特征，识别第二行为；

综合识别子单元，用于根据所述第一行为以及所述第二行为，确定所述待处理视频中所述主对象对应的所述目标行为。

进一步，可选地，综合识别子单元具体可以包括：

第一判断模块，用于如果所述第一行为与所述第二行为相同，确定所述第一行为或所述第二行为所述待处理视频中所述主对象对应的所述目标行为；

第二判断模块，用于如果所述第一行为与所述第二行为不同，确定所述第一行为与所述第二行为中，适用范围较大的为所述待处理视频中所述主对象对应的所述目标行为。

图10所述的视频处理装置可以执行图1所示实施例所述的视频处理方法，其实现原理和技术效果不再赘述。对于上述实施例中的视频处理装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图10所示的视频处理装置可以实现为一视频处理设备，如图11所示，为本申请实施例提供的一种视频处理设备的一个实施例的结构示意图，包括：存储组件1101以及处理组件1102；所述存储组件1102用于存储一条或多条计算机指令，所述一条或多条计算机指令被所述处理组件1101调用执行；

该处理组件1101可以用于：

确定待处理视频中的关键图像帧；提取所述关键图像帧对应的主对象特征以及至少一个从对象特征；将所述主对象特征与所述至少一个从对象特征进行特征融合处理，获得目标特征；基于所述目标特征，识别所述待处理视频中主对象对应的目标行为。

作为一个实施例，处理组件还可以用于：

确定所述待处理视频中与所述关键图像帧关联的关联图像帧；

所述提取所述关键图像帧对应的主对象特征以及至少一个从对象特征包括：

基于所述关联图像帧以及所述关键图像帧，确定所述主对象特征以及所述至少一个从对象特征。

在某些实施例中，该处理组件确定所述待处理视频中与所述关键图像帧关联的关联图像帧具体可以包括：

确定所述关键图像帧在所述待处理视频中的第一时间点；

获取所述待处理视频中位于所述第一时间点之前的至少一个第一图像帧以及位于所述第一时间点之后的至少一个第二图像帧；

确定所述至少一个第一图像帧以及所述至少一个第二图像帧构成的关联图像帧。

作为一种可能的实现方式，该处理组件基于所述关联图像帧以及所述关键图像帧，确定所述主对象特征以及所述至少一个从对象特征具体可以包括：

提取所述关键图像帧对应的第一主对象特征以及至少一个第一从对象特征；

提取所述关联图像帧对应的第二主对象特征以及至少一个第二从对象特征；

基于所述第一主对象特征以及所述第二主对象特征，确定所述主对象特征；

基于所述至少一个第一从对象特征以及所述至少一个第二从对象特征，确定所述至少一个从对象特征。

在某些实施例中，该处理组件还可以用于：

提取所述关键图像帧中，所述主对象对应的主对象区域以及至少一个从对象分别对应的从对象区域；

该处理组件提取所述关键图像帧对应的第一主对象特征以及至少一个第一从对象特征具体可以包括：

该处理组件提取所述关联图像帧对应的第二主对象特征以及至少一个第二从对象特征具体可以包括：

该处理组件基于所述至少一个第一从对象特征以及所述至少一个第二从对象特征，确定所述至少一个从对象特征具体可以包括：

可选地，该处理组件基于所述第一主对象特征以及所述第二主对象特征，确定所述主对象特征具体可以包括：

将所述第一主对象特征以及所述第二主对象特征进行降维融合处理，获得所述主对象特征；

该处理组件根据任一个从对象区域对应的第一从对象特征以及第二从对象特征，确定所述从对象区域对应的从对象特征，以获得所述至少一个从对象区域分别对应的从对象特征具体可以包括：

针对任一个从对象区域，将所述从对象区域对应的第一从对象特征以及第二从对象特征进行降维融合处理，获得所述从对象区域对应的从对象特征，以获得所述至少一个从对象区域分别对应的从对象特征。

作为一个实施例，处理组件还可以用于：

基于所述主对象区域以及至少一个从对象区域，生成所述关键图像帧对应的区域展示页面；输出所述区域展示页面，以供用户对所述主对象区域以及所述至少一个从对象区域进行确认；获取所述用户确认的所述主对象区域以及所述至少一个从对象区域。

可选地，处理组件提取所述关键图像帧在所述主对象区域对应的第一主对象特征，以及在所述至少一个从对象区域分别对应的第一从对象特征具体可以包括：

提取所述关键图像帧在所述用户确认的主对象区域对应的第一主对象特征，以及在所述用户确认的所述至少一个从对象区域分别对应的第一从对象特征；

所述处理组件提取所述关联图像帧在所述主对象区域对应的第二主对象特征，以及在所述至少一个从对象区域分别对应的第二从对象特征具体可以包括：

作为一种可能的实现方式，处理组件获取所述用户确认的所述主对象区域以及所述至少一个从对象区域具体可以包括：

若所述用户未对所述主对象区域确认，返回至所述确定待处理视频的关键图像帧的步骤继续执行；

若所述用户对所述主对象区域确认，获取所述用户确认的至少一个从对象区域以及所述用户未确认的从对象区域。

在某些实施例中，该处理组件将所述第一主对象特征以及所述第二主对象特征进行降维融合处理，获得所述主对象特征具体可以包括：

基于池化算法，将所述第一主对象特征以及所述第二主对象特征进行降维融合计算，获得所述主对象特征；

该处理组件针对任一个从对象区域，将所述从对象区域对应的第一从对象特征以及第二从对象特征进行降维融合处理，获得所述从对象区域对应的从对象特征，以获得所述至少一个从对象区域分别对应的从对象特征具体可以包括：

基于池化算法，将任一个从对象区域对应的基础从对象特征进行降维融合计算，获得所述从对象区域对应的从对象特征，以获得所述至少一个从对象区域分别对应的从对象特征。

作为又一个实施例，所述目标特征可以包括：目标主对象特征以及至少一个目标从对象特征；

该处理组件将所述主对象特征与所述至少一个从对象特征进行特征融合处理，获得目标特征具体可以包括：

该处理组件将所述主对象特征与所述至少一个从对象特征输入特征融合模型，计算获得所述目标主对象特征以及至少一个目标从对象特征具体可以包括：

将所述主对象特征与所述至少一个从对象特征输入所述至少一个特征关联模块，通过所述至少一个特征关联模块计算获得所述目标主对象特征以及所述至少一个目标从对象特征；

作为一种可能的实现方式，该处理组件通过以下方式处理任一个特征关联模块输入的第三主对象特征以及至少一个第三从对象特征，获得所述第三主对象特征对应的第四主对象特征以及至少一个第三从对象特征分别对应的第四从对象特征。

将所述第三主对象特征以及所述至少一个第三从对象特征进行至少一次第一融合处理，获得任一次第一融合处理获得的所述第三主对象特征对应的融合主对象特征以及所述至少一个第三从对象特征分别对应的融合从对象特征，以获得所述第三主对象特征对应的至少一个融合主对象特征以及任一个第三从对象特征对应的至少一个融合从对象特征；

将所述第三主对象特征对应的至少一个融合主对象特征进行第二融合处理，获得所述第三主对象特征对应的第四主对象特征；

针对任一个第三从对象特征对应的至少一个融合从对象特征，将所述至少一个融合从对象特征进行第二融合处理，获得所述第三从对象特征对应的第四从对象特征，以获得至少一个第三从对象特征分别对应的第四从对象特征。

在某些实施例中，该处理组件将所述第三主对象特征以及所述至少一个第三从对象特征进行至少一次第一融合处理，获得任一次第一融合处理获得的所述第三主对象特征对应的融合主对象特征以及所述至少一个第三从对象特征分别对应的融合从对象特征，以获得所述第三主对象特征对应的至少一个融合主对象特征以及任一个第三从对象特征对应的至少一个融合从对象特征具体可以包括：

作为一种可能的实现方式，该处理组件针对任一次第一融合处理，基于所述第三主对象特征分别与所述至少一个第三从对象特征之间的特征相似度，确定所述第三主对象特征对应的融合主对象特征，以获得所述第三主对象特征对应的至少一个融合主对象特征具体可以包括：

在某些实施例中，该处理组件还可以用于：

进一步，可选地，该处理组件计算所述第三主对象特征分别与所述至少一个第三从对象特征之间的特征相似度具体可以包括：

在某些实施例中，该处理组件根据所述第三主对象特征以及至少一个第一影响特征，计算所述第三主对象特征对应的融合主对象特征具体可以包括：

确定所述第三主对象特征与所述至少一个第三从对象特征对应的影响系数；

将所述第三主对象特征与所述第一综合影响特征进行特征相加，计算获得所述第三主对象特征对应的融合主对象特征。

作为一种可能的实现方式，该处理组件针对任一次第一融合处理，基于任一个第三从对象特征分别与所述第三主对象特征以及至少一个第三从对象特征中的其他第三从对象特征之间的特征相似度，确定所述第三从对象特征的融合从对象特征，以获得所述第三从对象特征对应的至少一个融合从对象特征具体可以包括：

在某些实施例中，该处理组件还可以用于：

作为一种可能的实现方式，该处理组件针对任一个第三从对象特征，计算所述第三从对象特征与所述第三主对象特征以及所述至少一个第三从对象特征中除所述第三从对象特征之外的其他第三从对象特征之间的特征相似度具体可以包括：

在某些实施例中，该处理组件根据所述第三从对象特征以及至少一个第二影响特征，计算所述第三从对象特征对应的融合从对象特征，以获得所述至少一个第三从对象特征分别对应的融合从对象特征具体可以包括：

将所述第三从对象特征对应至少一个第二影响特征加和计算后与所述影响系数相乘，计算获得所述第三从对象特征对应的第二综合影响特征；

作为又一种可能的实现方式，该处理组件还可以用于：

将所述第三主对象特征以及至少一个第三从对象特征分别进行空间映射，获得映射后的第三主对象特征以及至少一个第三从对象特征；

该处理组件将所述第三主对象特征以及所述至少一个第三从对象特征进行至少一次第一融合处理，获得任一次第一融合处理获得的所述第三主对象特征对应的融合主对象特征以及所述至少一个第三从对象特征分别对应的融合从对象特征，以获得所述第三主对象特征对应的至少一个融合主对象特征以及任一个第三从对象特征对应的至少一个融合从对象特征具体可以包括：

将映射后的第三主对象特征以及至少一个第三从对象特征将进行至少一次第一融合处理，获得任一次第一融合处理获得的所述第三主对象特征对应的融合主对象特征以及所述至少一个第三从对象特征分别对应的融合从对象特征，以获得所述第三主对象特征对应的至少一个融合主对象特征以及任一个第三从对象特征对应的至少一个融合从对象特征。

在某些实施例中，该处理组件将所述第三主对象特征对应的至少一个融合主对象特征进行第二融合处理，获得所述第三主对象特征对应的第四主对象特征具体可以包括：

该处理组件针对任一个第三从对象特征对应的至少一个融合从对象特征，将所述至少一个融合从对象特征进行第二融合处理，获得所述第三从对象特征对应的第四从对象特征，以获得至少一个第三从对象特征分别对应的第四从对象特征具体可以包括：

在某些实施例中，所述将所述主对象特征与所述至少一个从对象特征进行特征融合处理，获得目标特征具体可以包括：

将所述主对象特征与所述至少一个从对象特征进行特征融合处理，获得目标主对象特征以及至少一个从对象特征分别对应的目标从对象特征；

所述基于所述目标特征，识别所述待处理视频中主对象对应的目标行为具体可以包括：

基于所述目标特征中的目标主对象特征，识别所述待处理视频中所述主对象对应的所述目标行为。

作为一种可能的实现方式，该处理组件基于所述目标特征中的目标主对象特征，识别所述待处理视频中所述主对象对应的所述目标行为具体可以包括：

确定分类模型；其中，所述分类模型包括至少一个参考行为；

将所述目标特征中的目标主对象特征输入所述分类模型，分别计算所述目标主对象特征分别在所述至少一个参考行为对应的参考概率；

确定参考概率最高的参考行为为所述目标行为。

作为又一个实施例，该处理组件还具体可以包括：

输出所述监控提示信息。

作为又一个实施例，该处理组件确定待处理视频中的关键图像帧具体可以包括：

确定所述待处理视频中的至少一个图像帧；

依次将所述至少一个图像帧作为所述关键图像帧。

作为又一个实施例，处理组件还可以用于：

提取所述待处理视频中的文字信息。

所述处理组件基于所述目标特征，识别所述待处理视频中主对象对应的目标行为具体可以包括：基于所述目标特征以及所述文字信息，识别所述待处理视频中所述主对象对应的目标行为。

在某些实施例中，所述处理组件基于所述目标特征以及所述文字信息，识别所述待处理视频中所述主对象对应的目标行为具体可以包括：

对所述文字信息进行语义识别处理，获得第一行为；基于所述目标特征，识别第二行为；根据所述第一行为以及所述第二行为，确定所述待处理视频中所述主对象对应的所述目标行为。

作为一种可能的实现方式，处理组件根据所述第一行为以及所述第二行为，确定所述待处理视频中所述主对象对应的所述目标行为具体可以包括：

图11所述的实现视频处理设备可以执行图1所示实施例所述的视频处理的方法，其实现原理和技术效果不再赘述。对于上述实施例中的处理组件所执行的各个步骤的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

此外，本申请实施例还提供一种计算机可读存储介质，该存储介质用于存储计算机程序，所述计算机程序执行时可以执行如图1所示实施例中视频处理方法。

如图12所示，为本申请实施例提供的一种视频处理装置的又一个实施例的结构示意图，该装置可以包括：

请求响应模块1201，用于响应于用户发起的视频处理请求，获取待处理视频；

第一确定模块1202，用于确定待处理视频中的关键图像帧；

特征提取模块1203，用于提取所述关键图像帧对应主对象特征以及至少一个从对象特征；

特征融合模块1204，用于将所述主对象特征与所述至少一个从对象特征进行特征融合处理，获得目标特征；

特征提供模块1205，用于将所述目标特征提供至所述用户。

作为一个实施例，该装置还可以包括：

行为识别模块，用于基于所述目标特征，识别所述待处理视频中主对象对应的目标行为；

行为提供模块，用于将所述主对象对应的目标行为提供给所述用户。

作为又一个实施例，所述请求响应模块可以包括：

第一响应单元，用于响应于所述用户发起的视频处理请求，接收所述用户发送的待处理视频。

作为又一个实施例，所述请求响应模块可以包括：

第二响应单元，用于响应于所述用户发起的视频处理请求，获取所述用户提供的摄像设备；

视频采集单元，用于通过所述摄像设备采集所述待处理视频。

图12所述的视频处理装置可以执行图9所示实施例所述的视频处理方法，其实现原理和技术效果不再赘述。对于上述实施例中的视频处理装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图12所示的视频处理装置可以配置为一视频处理设备。如图13所示，为本申请实施例提供的一种视频处理设备的一个实施例的结构示意图，该设备可以包括：存储组件1301以及处理组件1302；所述存储组件1301用于存储一条或多条计算机指令，所述一条或多条计算机指令被所述处理组件1302调用执行；

所述处理组件1302用于：

作为一个实施例，所述处理组件还可以用于：

将所述主对象对应的目标行为提供给所述用户。

作为又一个实施例，所述处理组件响应于用户发起的视频处理请求，获取待处理视频具体可以包括：

通过所述摄像设备采集所述待处理视频。

此外，本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被计算机执行时可以实现上述图9所示实施例的数据处理方法。

通过以上的实施例的描述，本领域的技术人员可以清楚地了解到各实施例可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，视频处理设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频处理方法，其特征在于，包括：

确定待处理视频中的关键图像帧；

将所述主对象特征与所述至少一个从对象特征进行特征融合处理，获得目标特征，所述目标特征包括：目标主对象特征以及至少一个目标从对象特征；

其中，所述将所述主对象特征与所述至少一个从对象特征进行特征融合处理，获得目标特征包括：

将所述主对象特征与所述至少一个从对象特征输入特征融合模型，通过特征融合模型，将主对象特征与至少一个从对象特征进行融合，获得目标特征，所述目标特征包括目标主对象特征以及至少一个目标从对象特征；在融合处理时，以主对象特征为融合基础，将至少一个从对象特征融合至主对象特征中，获得主对象特征对应的目标主对象特征；以任一个从对象特征为融合基础，将其他从对象特征以及主对象特征融合至该从对象特征中，获得该从对象特征对应的目标从对象特征。

2.根据权利要求1所述的方法，其特征在于，还包括：

基于所述目标特征，识别所述待处理视频中主对象对应的目标行为。

3.根据权利要求1所述的方法，其特征在于，所述确定待处理视频中的关键图像帧之后，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述确定所述待处理视频中与所述关键图像帧关联的关联图像帧包括：

确定所述关键图像帧在所述待处理视频中的第一时间点；

5.根据权利要求4所述的方法，其特征在于，所述基于所述关联图像帧以及所述关键图像帧，确定所述主对象特征以及所述至少一个从对象特征包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

所述提取所述关键图像帧对应的第一主对象特征以及至少一个第一从对象特征包括：

所述提取所述关联图像帧对应的第二主对象特征以及至少一个第二从对象特征包括：

所述基于所述至少一个第一从对象特征以及所述至少一个第二从对象特征，确定所述至少一个从对象特征包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述第一主对象特征以及所述第二主对象特征，确定所述主对象特征包括：

所述根据任一个从对象区域对应的第一从对象特征以及第二从对象特征，确定所述从对象区域对应的从对象特征，以获得所述至少一个从对象区域分别对应的从对象特征包括：

8.根据权利要求7所述的方法，其特征在于，所述将所述第一主对象特征以及所述第二主对象特征进行降维融合处理，获得所述主对象特征包括：

所述针对任一个从对象区域，将所述从对象区域对应的第一从对象特征以及第二从对象特征进行降维融合处理，获得所述从对象区域对应的从对象特征，以获得所述至少一个从对象区域分别对应的从对象特征包括：

9.根据权利要求6所述的方法，其特征在于，所述提取所述关键图像帧中，所述主对象对应的主对象区域以及至少一个从对象分别对应的从对象区域之后，还包括：

所述提取所述关键图像帧在所述主对象区域对应的第一主对象特征，以及在所述至少一个从对象区域分别对应的第一从对象特征包括：

所述提取所述关联图像帧在所述主对象区域对应的第二主对象特征，以及在所述至少一个从对象区域分别对应的第二从对象特征包括：

10.根据权利要求9所述的方法，其特征在于，所述获取所述用户确认的所述主对象区域以及所述至少一个从对象区域包括：

11.根据权利要求1所述的方法，其特征在于，所述特征融合模型包括串联连接的至少一个特征关联模块；

所述将所述主对象特征与所述至少一个从对象特征输入特征融合模型，计算获得所述目标主对象特征以及至少一个目标从对象特征包括：

12.根据权利要求11所述的方法，其特征在于，所述任一个特征关联模块的输入为第三主对象特征以及至少一个第三从对象特征，输出为所述第三主对象特征对应的第四主对象特征以及至少一个第三从对象特征分别对应的第四从对象特征；

13.根据权利要求12所述的方法，其特征在于，所述任一个特征关联模块通过以下方式处理输入的第三主对象特征以及至少一个第三从对象特征，获得所述第三主对象特征对应的第四主对象特征以及至少一个第三从对象特征分别对应的第四从对象特征：

14.根据权利要求13所述的方法，其特征在于，所述将所述第三主对象特征以及所述至少一个第三从对象特征进行至少一次第一融合处理，获得任一次第一融合处理获得的所述第三主对象特征对应的融合主对象特征以及所述至少一个第三从对象特征分别对应的融合从对象特征，以获得所述第三主对象特征对应的至少一个融合主对象特征以及任一个第三从对象特征对应的至少一个融合从对象特征包括：

针对任一次第一融合处理，基于任一个第三从对象特征分别与所述第三主对象特征以及至少一个第三从对象特征中的其他第三从对象特征之间的特征相似度，确定所述第三从对象特征的融合从对象特征，以获得所述第三从对象特征对应的至少一个融合从对象特征。

15.根据权利要求14所述的方法，其特征在于，所述针对任一次第一融合处理，基于所述第三主对象特征分别与所述至少一个第三从对象特征之间的特征相似度，确定所述第三主对象特征对应的融合主对象特征，以获得所述第三主对象特征对应的至少一个融合主对象特征包括：

16.根据权利要求15所述的方法，其特征在于，所述方法还包括：

17.根据权利要求16所述的方法，其特征在于，所述计算所述第三主对象特征分别与所述至少一个第三从对象特征之间的特征相似度包括：

18.根据权利要求15所述的方法，其特征在于，所述根据所述第三主对象特征以及至少一个第一影响特征，计算所述第三主对象特征对应的融合主对象特征包括：

19.根据权利要求14所述的方法，其特征在于，所述针对任一次第一融合处理，基于任一个第三从对象特征分别与所述第三主对象特征以及至少一个第三从对象特征中的其他第三从对象特征之间的特征相似度，确定所述第三从对象特征的融合从对象特征，以获得所述第三从对象特征对应的至少一个融合从对象特征包括：

20.根据权利要求19所述的方法，其特征在于，所述方法还包括：

21.根据权利要求20所述的方法，其特征在于，所述针对任一个第三从对象特征，计算所述第三从对象特征与所述第三主对象特征以及所述至少一个第三从对象特征中除所述第三从对象特征之外的其他第三从对象特征之间的特征相似度包括；

22.根据权利要求19所述的方法，其特征在于，所述根据所述第三从对象特征以及至少一个第二影响特征，计算所述第三从对象特征对应的融合从对象特征，以获得所述至少一个第三从对象特征分别对应的融合从对象特征包括：

23.根据权利要求13所述的方法，其特征在于，所述方法还包括：

所述将所述第三主对象特征以及所述至少一个第三从对象特征进行至少一次第一融合处理，获得任一次第一融合处理获得的所述第三主对象特征对应的融合主对象特征以及所述至少一个第三从对象特征分别对应的融合从对象特征，以获得所述第三主对象特征对应的至少一个融合主对象特征以及任一个第三从对象特征对应的至少一个融合从对象特征包括：

24.根据权利要求13所述的方法，其特征在于，所述将所述第三主对象特征对应的至少一个融合主对象特征进行第二融合处理，获得所述第三主对象特征对应的第四主对象特征包括：

25.根据权利要求2所述的方法，其特征在于，所述将所述主对象特征与所述至少一个从对象特征进行特征融合处理，获得目标特征包括：

26.根据权利要求25所述的方法，其特征在于，所述基于所述目标特征中的目标主对象特征，识别所述待处理视频中所述主对象对应的所述目标行为包括：

确定参考概率最高的参考行为为所述目标行为。

27.根据权利要求2所述的方法，其特征在于，所述方法还包括：

输出所述监控提示信息。

28.根据权利要求2所述的方法，其特征在于，还包括：

提取所述待处理视频中的文字信息；

29.根据权利要求28所述的方法，其特征在于，所述基于所述目标特征以及所述文字信息，识别所述待处理视频中所述主对象对应的目标行为包括：

对所述文字信息进行语义识别处理，获得第一行为；

基于所述目标特征，识别第二行为；

30.根据权利要求29所述的方法，其特征在于，所述根据所述第一行为以及所述第二行为，确定所述待处理视频中所述主对象对应的所述目标行为包括：

31.根据权利要求1所述的方法，其特征在于，所述确定待处理视频中的关键图像帧包括：

确定所述待处理视频中的至少一个图像帧；

依次将所述至少一个图像帧作为所述关键图像帧。

32.一种视频处理方法，其特征在于，包括：

确定待处理视频中的关键图像帧；

将所述用户特征与所述至少一个物品特征进行特征融合处理，获得目标特征，所述目标特征包括：目标用户特征以及至少一个目标物品特征；

基于所述目标特征，识别所述待处理视频中目标用户对应的目标行为；

其中，所述将所述用户特征与所述至少一个物品特征进行特征融合处理，获得目标特征包括：

将所述用户特征与所述至少一个物品特征输入特征融合模型，通过特征融合模型，将用户特征与至少一个物品特征进行融合，获得目标特征，所述目标特征包括目标用户特征以及至少一个目标物品特征；在融合处理时，以用户特征为融合基础，将至少一个物品特征融合至用户特征中，获得用户特征对应的目标用户特征；以任一个物品特征为融合基础，将其他物品特征以及用户特征融合至该物品特征中，获得该物品特征对应的目标物品特征。

33.一种视频处理方法，其特征在于，包括：

响应于用户发起的视频处理请求，获取待处理视频；

确定待处理视频中的关键图像帧；

将所述目标特征提供至所述用户；

34.根据权利要求33所述的方法，其特征在于，还包括：

将所述主对象对应的目标行为提供给所述用户。

35.根据权利要求33所述的方法，其特征在于，所述响应于用户发起的视频处理请求，获取待处理视频包括：

36.根据权利要求33所述的方法，其特征在于，所述响应于用户发起的视频处理请求，获取待处理视频包括：

通过所述摄像设备采集所述待处理视频。

37.一种视频处理装置，其特征在于，包括：

第一确定模块，用于确定待处理视频中的关键图像帧；

特征融合模块，用于将所述主对象特征与所述至少一个从对象特征进行特征融合处理，获得目标特征，所述目标特征包括：目标主对象特征以及至少一个目标从对象特征；

所述特征融合模块具体用于将所述主对象特征与所述至少一个从对象特征输入特征融合模型，通过特征融合模型，将主对象特征与至少一个从对象特征进行融合，获得目标特征，所述目标特征包括目标主对象特征以及至少一个目标从对象特征；在融合处理时，以主对象特征为融合基础，将至少一个从对象特征融合至主对象特征中，获得主对象特征对应的目标主对象特征；以任一个从对象特征为融合基础，将其他从对象特征以及主对象特征融合至该从对象特征中，获得该从对象特征对应的目标从对象特征。

38.根据权利要求37所述的装置，其特征在于，还包括：

39.一种视频处理装置，其特征在于，包括：

第一确定模块，用于确定待处理视频中的关键图像帧；

特征提取模块，用于将所述主对象特征与所述至少一个从对象特征进行特征融合处理，获得目标特征，所述目标特征包括：目标主对象特征以及至少一个目标从对象特征；

特征提供模块，用于将所述目标特征提供至所述用户；

40.一种视频处理设备，其特征在于，包括：存储组件以及处理组件；所述存储组件用于存储一条或多条计算机指令，所述一条或多条计算机指令被所述处理组件调用执行；

所述处理组件用于：

确定待处理视频中的关键图像帧；提取所述关键图像帧对应的主对象特征以及至少一个从对象特征；将所述主对象特征与所述至少一个从对象特征进行特征融合处理，获得目标特征，所述目标特征包括：目标主对象特征以及至少一个目标从对象特征；

41.一种视频处理设备，其特征在于，包括：存储组件以及处理组件；所述存储组件用于存储一条或多条计算机指令，所述一条或多条计算机指令被所述处理组件调用执行；

所述处理组件用于：

响应于用户发起的视频处理请求，获取待处理视频；确定待处理视频中的关键图像帧；提取所述关键图像帧对应主对象特征以及至少一个从对象特征；将所述主对象特征与所述至少一个从对象特征进行特征融合处理，获得目标特征，所述目标特征包括：目标主对象特征以及至少一个目标从对象特征；将所述目标特征提供至所述用户；