CN113515986A

CN113515986A - 视频处理、数据处理方法及设备

Info

Publication number: CN113515986A
Application number: CN202010633415.8A
Authority: CN
Inventors: 李超
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-07-02
Filing date: 2020-07-02
Publication date: 2021-10-19

Abstract

本申请实施例提供一种视频处理、数据处理方法及设备，该视频处理方法包括：获取待处理视频中的多个图像帧；将多个图像帧输入特征提取模型，计算获得多个图像特征；将所述多个图像特征进行降维融合处理，获得所述待处理视频的目标特征。本申请实施例提高了目标行为的检测效率。

Description

视频处理、数据处理方法及设备

技术领域

本申请涉及视频处理技术领域，尤其涉及一种视频处理、数据处理方法及设备。

背景技术

随着摄像技术的普及，各种场所的视频均可以采集获得。摄像头等摄像设备可以采集监控区域中的视频。视频可以指以连续的图像变化每秒超过24帧画面以上时，人眼无法辨别单幅的静态画面，看上去形成的平滑连续的画面。

现有技术中，摄像头采集的视频通常被存储并用于事后回放，以确认视频采集地发生的特殊行为。视频采集地发生的特殊行为例如可以包括：人员跌倒、吸烟、盗窃或者车祸等多种类型的行为。

但是，视频采集之后仅能通过回放，人工识别视频中的特殊行为，效率较低。

发明内容

有鉴于此，本申请实施例提供一种视频处理、数据处理方法及设备，用以解决现有技术中人工识别视频中的特殊行为效率较低的技术问题。

第一方面，本申请实施例提供一种视频处理方法，包括：

获取待处理视频中的多个图像帧；

将所述多个图像帧输入特征提取模型，计算获得多个图像特征；

将所述多个图像特征进行降维融合处理，获得所述待处理视频的目标特征。

第二方面，本申请实施例提供一种数据处理方法，包括：

确定多个训练视频；其中，所述多个训练视频分别对应有标签行为；

构建特征提取模型以及行为检测模型；

基于所述特征提取模型，提取所述多个训练视频分别对应的目标特征；

以所述行为检测模型对多个目标特征的行为预测结果与所述多个训练视频分别对应的标签行为相同的训练目标，训练获得所述行为检测模型以及所述特征提取模型的目标模型参数。

第三方面，本申请实施例提供一种视频处理设备，包括：存储组件以及处理组件；所述存储组件用于存储一条或多条计算机指令，所述一条或多条计算机指令被所述处理组件调用并执行；

所述处理组件可以用于：

获取待处理视频中的多个图像帧；将所述多个图像帧输特征提取模型，计算获得多个图像特征；将所述多个图像特征进行降维融合处理，获得所述待处理视频的目标特征。

第四方面，本申请实施例提供一种数据处理设备，包括：存储组件以及处理组件；所述存储组件用于存储一条或多条计算机指令，所述一条或多条计算机指令被所述处理组件调用并执行；

所述处理组件可以用于：

确定多个训练视频；其中，所述多个训练视频分别对应有标签行为；构建特征提取模型以及行为检测模型；基于所述特征提取模型，提取所述多个训练视频分别对应的目标特征；以所述行为检测模型对多个目标特征的行为预测结果与所述多个训练视频分别对应的标签行为相同的训练目标，训练获得所述行为检测模型的目标模型参数。

本申请实施例，提取待处理图像的多个图像帧，并基于特征提取模型，提取所述多个图像帧分别对应的图像特征。将所述多个图像帧进行降维融合处理，获得待处理视频的目标特征，该目标特征用以确定目标用户通过对待处理视频的多个图像帧进行特征提取以及维度降低，以获得该待处理视频对应的目标特征实现对待处理视频中的行为特征的自动检测，以避免使用人工方式识别，提高检测效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频处理方法的一个实施例的流程图；

图2为本申请实施例提供的一种视频处理方法的又一个实施例的流程图；

图3为本申请实施例提供的一种数据处理方法的一个实施例的流程图；

图4为本申请实施例提供的一种数据处理方法的又一个实施例的流程图；

图5为本申请实施例提供的一种视频处理方法的一个示例图；

图6为本申请实施例提供的一种视频处理设备的一个实施例的结构示意图；

图7为本申请实施例提供的一种数据处理设备的一个实施例的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于识别”。类似地，取决于语境，短语“如果确定”或“如果识别(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当识别(陈述的条件或事件)时”或“响应于识别(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

本申请实施例的技术方案可以应用于视频监控场景中，通过对采集的视频进行自动行为识别，可以提高视频中特殊行为的检测效率。

现有技术中，视频可以为多个图像以24帧每秒以上形成的连续画面。摄像设备可以采集其监控区域中的视频画面。摄像设备采集的视频通常可以用于视频回放，以确认视频中的特殊行为，例如，抽烟、跌倒、盗窃或者车祸等行为。通常由人工浏览视频的方式查找视频中的特殊行为，但是这种方式效率行为查找效率较低。

本申请实施例中，针对待处理视频，可以提取该待处理视频中的多个图像帧，从而基于特征提取模型，提取多个图像帧中图像特征。将多个图像特征进行降维融合处理，获得待处理视频的目标特征，该目标特征可以用于获取目标行为。通过对待处理视频的多个图像帧进行特征提取以及维度降低，以获得该待处理视频对应的目标特征，实现对待处理视频中的行为特征的自动检测，以避免使用人工方式识别，提高检测效率。

下面将结合附图对本申请实施例进行详细描述。

如图1所示，为本申请实施例提供的一种视频处理方法的一个实施例的流程图，方法可以包括以下几个步骤：

101：获取待处理视频中的多个图像帧。

本申请实施例提供的视频处理方法可以应用于视频处理设备中。该视频处理设备例如可以包括计算机、笔记本等具有计算处理功能的电子设备，还可以是服务器等后台设备，服务器例如可以为计算机、超级计算机或者云服务器构成的具有计算处理功能的服务器。本申请实施例中对该视频处理设备的具体类型不作过多限定。

在实际应用中，待处理视频可以由摄像设备采集。摄像设备可以与视频处理设备是一体式设备，视频处理视频可以直接获取摄像设备采集的待处理视频。摄像设备还可以与视频处理设备是分体式设备，摄像设备可以采集待处理视频，并将待处理视频发送至视频处理设备，视频处理设备可以接收摄像设备采集的待处理视频。视频处理设备为服务器时，通常与摄像设备不是一体的，此时，摄像设备可以通过有线或者无线的通讯方式将采集的摄像设备发送至服务器。

可选地，获取待处理视频中的多个图像帧可以包括：基于预设采样间隔，提取待处理视频中的多个图像帧。采样间隔可以指被采样的两个图中帧之间间隔的图像帧的数量，采样间隔可以为大于1的正整数。例如，采样间隔为5时，可以每隔5帧图像采集待处理视频中的一帧图像，获得一个图像帧。

102：将多个图像帧输入特征提取模型，计算获得多个图像特征。

将多个图像帧作为输入数据输入特征提取模型，通过特征提取模型计算获得多个图像帧分别对应的图像特征。多个图像特征的数量与多个图像帧的数量可以相同。例如，输入特征提取模型5帧图像帧时，可以获得5个图像特征。

特征提取模型可以包括神经网络模型。神经网络模型具体可以为基于不同模型架构设计的卷积核，通过将多个图像帧分别与神经网络模型对应的卷积核进行卷积计算，可以获得多个图像帧分别对应的图像特征。

可选地，特征提取模型可以训练获得。该模型的训练可以实时训练获得或者预先训练获得。将多个图像帧输入特征提取模型，计算获得多个图像特征可以包括：将多个图像特征输入训练获得的特征提取模型，计算获得多个图像帧。

103：将多个图像特征进行降维融合处理，获得待处理视频的目标特征。

多个图像特征对应不同的维度，为了提高处理效率，可以将多个图像特征进行降维融合处理，以获得目标特征，该目标特征中融合了多个图像特征的综合特征，含有更全面的特征信息。

作为一个实施例，特征提取模型可以包括时空特征提取模型。将多个图像帧输入训练获得的特征提取模型，计算获得多个图像特征包括：

将多个图像帧输入训练获得的时空特征提取模型，计算获得多个图像特征。

时空特征提取模型可以包括但不限于三维神经网络算法、ConvLSTM(ConvLong-Short Term Memory，卷积长短记忆网络)、Two-stream CNN(Two-stream ConvolutionalNeural Networks，双流卷积神经网络)等，本申请并不对时空特征提取模型的具体类型作出过多限定。例如，在时空特征提取模型采用双流神经网络算法时，可以分别提取多个图像帧的空间特征，例如，纹理、形状、颜色和/或空间等特征，将多个图像帧叠加处理以提取多个图像帧的多个时间特征；然后将提取的多个图像帧分别对应的空间特征与时间特征进行特征融合，获得多个图像特征。

在传统的神经网络算法中，一般为二维卷积核或一维卷积核构成的神经网络，但是二维卷积网络或者一维卷积网络只能对单帧图像进行处理。由于视频中的图像帧具有时间戳，也即不同的图像帧基于时间戳的不同，多个图像帧之间具备时间特性。因此，为了使图像特征中能够包含时间维度上的特征，本申请实施例的特征提取模型中采用时空特征提取模型，提取图像的例如纹理、形状、颜色和/或空间等特征之外，还可以提取图像的时间特征，获得的多个图像帧中包含视频的时空特征。

时空特征提取模型可以包括三维神经网络模型，三维网络神经模型可以使用不同的主干网络模型，例如ResNet(残差网络)模型,Inception(开端)模型，MobileNet(可移动卷积)模型等。但是，无论采用何种主干网络模型，三维神经网络模型的卷积核需采用三维卷积核。将多个图像帧输入时空特征提取模型，计算获得多个图像特征可以包括：将多个图像帧输入训练获得的三维神经网络模型，计算获得多个图像特征。

作为一种可能的实现方式，将多个图像帧输入训练获得的时空特征提取模型，计算获得多个图像特征可以包括：

确定训练获得的三维神经网络模型的三维卷积核；

将多个图像帧输入三维卷积核对应三维神经网络模型，计算获得多个图像特征。

为了描述简洁，针对具备时间区别的多个图像帧而言，可以将一个图像帧看作一个a*b大小的二维矩阵，可以将多个图像帧看作是a*b*T的三维矩阵。三维卷积核即为在增加了时间维度的卷积核，三维卷积核可以是c*d*t的三维矩阵。在实际应用中，可以将每个图像帧可以以其对应的通道图像的形式存在，对于通道图像的卷积计算方式不变。

将多个图像帧与三维卷积核进行卷积计算时，可以三维卷积核的三维矩阵c*d*t在多个图像帧的三维矩阵a*b*T中滑动以进行卷积计算，具体的卷积计算方式与现有卷积计算方式相同，卷积计算完毕可以获得多个图像特征。

可选地，三维神经网络模型中除包含三维卷积核之外，还可以包括其他参数，例如可以包括bias(偏置)参数。在将多个图像特征输入三维卷积核对应三维神经网络模型之后，除将输入的多个图像帧与三维卷积核进行卷积计算之外，还可以进行偏置计算，获得计算获得的多个图像特征。具体的计算过程与三维神经网络模型的具体网络结构相关，三维神经网络模型的核心计算是多个图像帧与三维卷积核的卷积计算，其他参数的计算过程可以参考现有的参数计算方式，在此不再赘述。

作为一个实施例，将多个图像特征进行降维融合处理，获得待处理视频的目标特征可以包括：

将多个图像帧按照时间维度进行降维融合处理，获得待处理视频的目标特征。

视频在生成过程中，视频中的每个图像帧可以对应有时间戳。获取的多个图像帧也分别对应有相应的时间戳，由于提取了待处理视频的多个图像帧，可以基于各个图像帧的时间戳，不同时间戳在特征表达时可以代表不同的时间维度。因此，为任一个时间戳建立一个时间维度。

作为一种可能的实现方式，将多个图像特征按照时间维度进行降维融合处理，获得待处理视频的目标特征可以包括：

基于多个图像特征分别对应图像帧的时间戳，确定多个图像特征分别对应的时间维度；

将多个时间维度上分别对应的图像特征降维至同一个时间维度上，获得待处理视频的目标特征。

通过对多个图像特征进行时间维度上的降维，以获得综合了时间特征以及其他特征的目标特征。

可选地，基于多个图像特征分别对应图像帧的时间戳，确定多个图像特征分别对应的时间维度可以包括：根据多个图像帧分别对应的时间戳，确定多个图像帧分别对应的时间维度；其中，任一个时间戳对应一个时间维度；基于多个图像帧的时间维度，确定多个图像帧分别对应的图像特征的时间维度。

在根据多个图像帧分别对应的时间戳，确定多个图像帧分别对应的时间维度时，可以根据多个图像帧分别对应时间戳的先后顺序，确定多个图像帧分别对应的时间维度。例如，可以将时间戳按照时间顺序由先至后进行排序，将排序后的顺序值作为对应的时间维度。例如，假设有2个图像帧，其中，第一图像帧为10：00，第二图像帧为10:05，将其按照时间顺序由先至后的顺序排序时，排序结果为第一图像帧、第二图像帧，可以将第一图像帧的时间维度设置为时间1D(Dimension，维度)，以及将第二图像帧的时间维度设置为时间2D。

可选地，将多个时间维度上分别对应的图像特征降维至同一个时间维度上，获得待处理视频的目标特征可以包括：将多个图像特征中属于同一像素位置的像素特征值按照其各自的时间维度进行降维处理，获得同一个时间维度上的多个像素位置分别对应的目标特征值。

具体地，可以将多个图像帧按照时间维度排序之后，利用区域池化算法，将多个图像帧分别在同一像素位置的多个像素特征值进行池化计算，获得各个像素位置的目标像素值，以确定各个像素位置的目标像素值构成的目标特征。其中，像素位置可以为图像帧中像素点的像素坐标，像素坐标具体可以由像素点在图像帧中的横坐标以及纵坐标构成。

作为一个实施例，将多个时间维度上分别对应的图像特征降维至同一个时间维度上，获得待处理视频的目标特征可以包括：

基于降维算法，将多个时间维度上分别对应的图像特征降维至同一个时间维度上，获得待处理视频的目标特征。

其中，降维算法可以包括：全局池化算法(Global Pooling，GP)、PCA(PrincipalComponents Analysis，全局池化)算法等。本申请实施例并不对降维算法的类型作出过多限定。在实际应用中，全局池化算法可以包括：GAP(global avg pooling，全局平均池化)算法、GMP(global max pooling，全局最大池化)算法等。

作为一种可能的实现方式，降维算法可以包括：全局池化算法。基于降维算法，将多个时间维度上分别对应的图像特征降维至同一个时间维度上，获得待处理视频的目标特征可以包括：基于全局池化算法，将多个时间维度上分别对应的图像特征降维至同一个时间维度上，获得待处理视频的目标特征。

基于降维算法，将多个时间维度上分别对应的图像特征降维至同一个时间维度上，获得待处理视频的目标特征可以包括：

将多个图像特征中分别属于同一像素位置的像素特征值划分至同一池化集合，获得多个像素位置分别对应的池化集合。

其中，像素位置为图像帧中像素点所在的位置点。

针对任一个池化集合，将池化集合中的多个像素特征值分别对应图像特征的时间维度进行排序；

将池化集合中排序后的多个像素特征值进行全局池化计算，获得该池化集合对应的目标特征值，以获得多个池化集合分别对应的目标特征值；

基于多个像素位置以及多个像素位置分别对应的池化集合的目标特征值，确定目标特征。

可选地，目标特征可以为二维矩阵。基于多个像素位置以及多个像素位置分别对应的池化集合的目标特征值，确定目标特征可以包括：以像素位置为矩阵位置，将多个像素位置分别对应池化集合的目标特征至作为该矩阵位置的取值，获得以二维矩阵形式表示的目标特征。

在某些实施例中，在将多个图像特征进行降维融合处理，获得待处理视频的目标特征之后，该方法还可以包括：

将目标特征输入训练获得的行为检测模型，获得目标行为。

目标特征可以代表待处理视频中包含的时间信息以及空间信息，通过目标特征可以准确确认待处理视频是否存在特殊行为。

行为检测模型可以预先训练获得或者实时训练获得。将目标特征输入行为检测模型，可以通过行为检测模型对目标特征中的特殊行为进行分类，以获得特殊行为所属的目标行为。

可选地，将目标特征输入训练获得的行为检测模型，获得目标行为可以包括：将目标特征输入训练获得的行为检测模型，以供行为检测模型对目标特征进行行为分类，获得目标行为标签，以获得该目标行为标签对应的目标行为。

本申请实施例中，针对待处理视频，可以提取该待处理视频中的多个图像帧，从而基于训练获得的特征提取模型，提取多个图像特征。将多个图像特征按照时间维度进行降维融合处理，获得待处理视频的目标特征；将目标特征输入训练获得的行为检测模型，获得目标行为。通过对待处理视频的多个图像帧进行特征提取以及维度降低，以获得该待处理视频对应的目标特征，再通过行为检测模型识别目标特征中的目标行为，实现对待处理视频中的行为的自动检测，以避免使用人工方式识别待处理视频中的目标行为，提高行为的检测效率。

另外，本申请实施例中，通过对视频中的多个图像帧进行综合处理，增加图像之间的时间特征，使得目标特征综合了待处理视频中的时间特征以及空间特征，从而利用目标特征进行行为检测时，可以获得准确的目标行为，提高目标行为的获取效率。相比于对视频中的多个图像帧分别进行姿态检测，再对获得多个图像帧的姿态检测结果进行行为分析以获得目标行为的方式更准确，效率更高。

在一些实施例中，摄像设备采集待处理视频，将待处理视频发送至视频处理设备时，可以将摄像设备的设备标识一并发送至该视频处理视频，此时视频处理设备即可以获知采集到该目标行为的摄像设备。

作为一个实施例，将目标特征输入训练获得的行为检测模型，获得目标行为可以包括：

将目标特征输入训练获得的行为检测模型，获得目标行为以及目标行为对应的目标区域。

可选地，目标区域可以为矩形区域或者圆形区域，本申请实施例对区域的形状不作过多限定。

目标区域可以为目标特征对应的图像中目标对象的目标行为发生时的区域。

在一种可能的设计中，行为检测模型可以分为两种模块，分别为行为检测模块以及第一区域检测模块，以通过行为检测模块检测目标行为，通过区域检测模块检测目标区域。将目标特征输入训练获得的行为检测模型，获得目标行为以及目标行为对应的目标区域可以包括：

将目标特征输入行为检测模型的行为检测模块，获得目标行为；

将目标特征输入行为检测模型的第一区域检测模块，获得目标行为对应的目标区域。

其中，行为检测模块与第一区域检测模块同时获取目标特征的输入。

在又一种可能的设计中，行为检测模型可以先检测目标行为，再确定目标行为对应的目标区域。将目标特征输入训练获得的行为检测模型，获得目标行为以及目标行为对应的目标区域可以包括：

将目标特征输入检测模型中的行为检测模块，获得目标行为；

将目标行为输入行为检测模型中的第二区域检测模块，获得目标行为对应的目标区域。

其中，第二区域检测模块可以位于行为检测模块之后。行为检测模块接收目标特征的输入，第二区域检测模块接收目标行为的输入。

在某些实施例中，在将目标特征输入训练获得的行为检测模型，获得目标行为以及目标行为对应的目标区域之后，该方法还可以包括：

基于目标区域，结合采集待处理视频的摄像设备的设备位置，确定目标行为发生时的行为发生位置。

其中，行为发生位置为行为实际发生时的位置。行为发生位置，可以根据目标区域，以及摄像设备的采集角度以及采集区域确定。

在某些实施例中，方法还包括：

基于目标行为以及行为发生位置，生成第一提示信息；

输出该第一提示信息，以提示在该行为发生位置发生该目标行为。

作为一种可能的实现方式，输出该第二提示信息具体可以包括：

发送第二提示信息至用户端，以供用户端展示该第二提示信息，提示用户在该行为发生位置发生该目标行为。

可选地，基于目标区域，结合采集待处理视频的摄像设备的设备位置，确定目标行为发生时的行为发生位置可以包括：以目标特征对应的特征图像为基础，建立图像坐标系；确定目标区域的中心点在图像坐标系的图像位置点；结合图像坐标系与世界坐标系的转换关系以及摄像设备的相机内参、相机外参，确定图像位置点在世界坐标系的实际坐标点。根据实际坐标点以及摄像设备所在的设备位置，确定目标行为发生时实际的发送位置。

如图2所示，为本申请实施例提供的一种视频处理方法的又一个实施例的流程图，该方法可以包括以下几个步骤：

201：获取摄像设备采集的待处理视频。

其中，可以获取摄像设备实时采集的待处理视频。摄像设备可以实时采集待处理视频，并在采集一段视频结束时，将采集的待处理视频发送至提供该视频处理方法的设备。

202：获取待处理视频中的多个图像帧。

203：将多个图像帧输入训练获得的特征提取模型，计算获得多个图像特征。

204：将多个图像特征按照时间维度进行降维融合处理，获得待处理视频的目标特征。

205：将目标特征输入训练获得的行为检测模型，获得目标行为。

在步骤205将目标特征输入训练获得的行为检测模型，获得目标行为之后，可以返回至获取摄像设备采集的待处理视频的步骤继续执行。

本申请实施例中部分步骤与前述实施例的部分步骤相同，在此不再赘述。

本申请实施例中，可以实时获取摄像设备采集的待处理视频，以获取待处理视频中的多个图像帧，将多个图像帧输入预设特征提取模型，计算获得多个图像特征之后，可以按照时间维度进行降维融合处理，获得目标特征，以利用该目标特征输入训练获得的行为检测模型，获得目标行为。通过实时获取待处理视频，并及时对该待处理视频进行行为检测，实现对摄像设备采集的待处理视频的及时处理，及时而高效地检测视频中存在的目标行为。

作为又一个实施例，在将目标特征输入训练获得的行为检测模型，获得目标行为之后，该方法还可以包括：

基于目标行为，生成待处理视频的第二提示信息。

输出该第二提示信息。

其中，第二提示信息用于提示该待处理视频中发生该目标行为。

发送第二提示信息至用户端，以供用户端展示该第二提示信息。

其中，该用户端可以为视频处理设备或者摄像设备预先关联的终端。

此外，在一些实施例中，多个图像帧可以为待处理视频中与目标对象相匹配的图像帧。用户可以输入目标对象的图像。通过用户输入的图像，可以确定待处理视频中，存在该图像的一段视频片段。并从该视频片段中提取多个图像帧。在通过与目标对象相匹配的多个图像帧进行多个图像特征的提取以及对多个图像特征进行降维融合处理，获得目标特征之后，可以基于目标特征筛选待处理视频中具有目标对象的图像帧或者视频片段，以利用获得的具有目标对象的图像帧或者视频片段，生成目标视频。

该目标视频的视频时长小于原待处理视频，实现视频的压缩。通过使用具有时间以及空间双重特征的目标特征，对待处理视频进行有针对性的视频压缩，可以实现更精准的压缩。

在一些实施例中，用户输入的目标对象的图像可以基于用户的压缩目标而确定。例如，当用户需要对待处理视频中出现某个人物为目标对象进行压缩时，用户输入的图像可以为人脸图像。当用户需要对待处理视频中出现的某个行为姿态为目标对象进行视频压缩时，用户输入的图像可以为姿态图像。例如，待处理视频为体育赛事视频时，压缩视频的观看者可能对进球片段较为关注，用户输入的目标对象的图像可以是存在进球姿态的图像。以上用户输入的目标对象的图像仅仅是示例性的，并不构成对图像的具体限定。

可选地，用户输入目标对象的图像的方式可以有多种。例如，视频处理设备可以直接接收用户上传的图像。视频处理设备还可以检测用户在浏览待处理视频的过程中触发的截图请求对应的截图，以获得该图像。本申请实施例中并不对用户目标对象的图像的输入方式作出过多限定。

如图3所示，为本申请实施例提供的一种数据处理方法的一个实施例的流程图，该方法可以包括：

301：确定多个训练视频。

其中，多个训练视频分别对应有标签行为。

302：构建特征提取模型以及行为检测模型。

303：基于特征提取模型，提取多个训练视频分别对应的目标特征。

304：以行为检测模型对多个目标特征的行为预测结果与多个训练视频分别对应的标签行为相同的训练目标，训练获得行为检测模型以及特征提取模型的目标模型参数。

本申请实施例中，在对行为检测模型以及特征提取模型进行训练时，采用确定多个训练视频的目标特征的方式，对多个训练视频各自的行为进行预测，以获得行为预测结果。通过多个训练视频分别对应的行为预测结果与多个训练视频实际对应的标签行为进行目标训练，以获得准确的行为检测模型。实现快速而准确地完成行为检测模型的训练过程。

如图4所示，为本申请实施例提供的一种数据处理方法的又一个实施例的流程图，该方法可以包括：

401：确定多个训练视频。

其中，多个训练视频分别对应有标签行为以及标签区域。

402：构建特征提取模型以及行为检测模型。

403：确定特征提取模型对应的特征提取参数。

404：基于特征提取参数对应的特征提取模型，提取多个训练视频分别对应的目标特征。

404：以行为检测模型对多个目标特征的行为预测结果与多个训练视频分别对应的标签行为相同的训练目标，训练获得行为检测模型以及特征提取模型的目标模型参数。

本申请实施例中，在对行为检测模型以及特征提取模型进行训练时，采用基于特征提取模型，确定多个训练视频的目标特征的方式，对多个训练视频各自的行为进行预测，以获得行为预测结果。通过以行为检测模型对多个目标特征的行为预测结果与多个训练视频分别对应的标签行为相同的训练目标，以获得准确的行为检测模型。实现快速而准确地完成行为检测模型以及特征提取模型的训练过程。同时训练行为检测模型以及特征提取模型可以使得两个模型的功能结合能够满足实际的预测目标，可以快速而准确地确定行为检测模型以及特征提取模型的模型参数。

作为一个实施例，在基于特征提取参数对应的特征提取模型，提取多个训练视频分别对应的目标特征之后，以行为检测模型对多个目标特征的行为预测结果与多个训练视频分别对应的标签行为相同的训练目标，训练获得行为检测模型以及特征提取模型的目标模型参数可以包括：

确定行为检测模型的行为检测参数；

基于行为检测参数对应的行为检测模型，确定行为检测模型对多个训练视频各自的目标特征预测获得的预测行为；

根据多个训练视频分别对应的预测行为以及标签行为，确定第一预测误差；

如果第一预测误差满足第一误差条件，确定当前行为检测参数为行为检测模型的第一目标参数以及当前特征提取参数为特征提取模型的第二目标参数；

如果第一预测误差不满足第一误差条件，基于第一预测误差，更新行为检测模型的行为检测参数以及特征提取模型的特征提取参数；返回至确定特征提取模型对应的特征提取参数的步骤继续执行。

可选地，在第一次确定行为检测模型的行为检测参数可以包括对行为检测模型的模型参数进行初始化，以获得行为检测模型的初始行为检测参数。

第一误差条件可以包括第一预测误差小于预设的第一误差阈值，该第一误差阈值可以根据实际模型的精度而确定。例如，当模型精度要求较高时，第一误差阈值可以是约等于0的正数，例如可以为0.01。以第一误差条件为约束目标，通过不断调整模型参数，以获得准确的模型参数，实现模型的训练收敛。

可选地，基于多个训练视频分别对应的预测行为以及标签行为，确定第一预测误差时可以采用预设损失函数，将多个训练视频分别对应的预测行为以及标签行为输入该损失函数，确定行为检测模型的第一预测误差。损失函数可以采用较为常用的损失函数，例如二范数距离函数、对数损失函数、平方损失函数或者指数损失函数等，具体可以根据实际使用需求而确定。

作为一个实施例，多个训练视频还分别对应有标签区域。

以行为检测模型对多个目标特征的行为预测结果与多个训练视频分别对应的标签行为相同的训练目标，训练获得行为检测模型以及特征提取模型的目标模型参数包括：

确定行为检测模型的行为检测参数；

基于行为检测参数对应的行为检测模型，确定行为检测模型对多个训练视频各自的目标特征预测获得的预测行为以及预测区域；

根据多个训练视频分别对应的预测行为以及标签行为，以及多个训练视频分别对应的预测区域以及标签区域，确定第二预测误差；

如果第二预测误差满足第二误差条件，确定当前行为检测参数为行为检测模型的第三目标参数以及当前特征提取参数为特征提取模型的第四目标参数；

如果第二预测误差不满足第二误差条件，基于第二预测误差，更新行为检测模型的行为检测参数以及特征提取模型的特征提取参数；返回至确定特征提取模型对应的特征提取参数的步骤继续执行。

第二误差条件可以包括第二预测误差小于预设的第二误差阈值，该第二误差阈值可以根据实际模型的精度而确定，例如，当模型精度要求较高时，第二误差阈值可以是约等于0的正数，例如可以为0.01。以第二误差条件为约束目标，通过不断调整参考模型参数，以获得准确的模型参数，实现模型的训练收敛。

可选地，基于多个训练视频分别对应的预测行为以及标签行为，确定行为检测模型的行为预测误差可以采用预设行为损失函数，将多个训练视频分别对应的预测行为以及标签行为输入该行为损失函数，确定行为检测模型的行为预测误差。基于多个训练视频分别对应的预测区域以及标签区域，确定行为预测模型的区域预测误差时可以采用预设区域损失函数，将多个训练视频分别对应的预测区域以及标签区域输入该区域损失函数，确定行为检测模型的区域预测误差。行为损失函数以及区域损失函数可以采用较为常用的损失函数，例如二范数距离函数、对数损失函数、平方损失函数或者指数损失函数等，具体可以根据实际使用需求而确定。

在一些实施例中，根据多个训练视频分别对应的预测行为以及标签行为，以及多个训练视频分别对应的预测区域以及标签区域，确定第二预测误差可以包括：

根据多个训练视频分别对应的预测行为以及标签行为，确定行为预测误差；

基于多个训练视频分别对应的预测区域以及标签区域，确定行为预测模型的区域预测误差；

根据多个行为预测误差以及多个区域预测误差，确定第二预测误差。

在一种可能的设计中，基于行为检测参数对应的行为检测模型，确定行为检测模型对多个训练视频各自的目标特征预测获得的预测行为以及预测区域可以包括：

将多个训练视频分别对应的目标特征依次输入行为检测参数对应的行为检测模型中的行为检测模块，获得多个训练视频分别对应的预测行为；

将多个训练视频分别对应的目标特征依次输入行为检测参数对应的行为检测模型中的第一区域检测模块，获得多个训练视频分别对应的预测区域。

在又一种可能的设计中，基于行为检测参数对应的行为检测模型，确定行为检测模型对多个训练视频各自的目标特征预测获得的预测行为以及预测区域可以包括：

针对任一个训练视频的目标特征，将目标特征输入行为检测参数对应的行为检测模型中的行为检测模块，获得训练视频对应的预测行为；

将训练视频的预测行为输入行为检测参数对应的行为检测模型中的第二区域检测模块，获得训练视频对应的预测区域，以获得多个训练视频分别对应的预测行为以及预测区域。

作为一个实施例，基于特征提取参数对应的特征提取模型，提取多个训练视频分别对应的目标特征可以包括：

针对任一个训练视频，获取训练视频中的多个图像帧；

将训练视频的多个图像帧输入特征提取参数对应的特征提取模型，计算获得训练视频的多个图像特征；

将训练视频的多个图像特征按照时间维度进行降维融合处理，获得训练视频的目标特征，以获得多个训练视频分别对应的目标特征。

本申请实施例中对训练视频的目标特征的提取步骤与图1所示实施例中对待处理视频的目标特征的提取步骤相同，对训练视频的多个图像特征进行降维融合处理的降维融合处理方式与图1所示实施例中对多个图像特征进行降维融合处理方式相同，为了描述的简洁性考虑，在此不再赘述。

为了详细介绍本申请实施例的技术方案，以摄像设备为微型摄像头，视频处理设备为计算机为例详细。如图5所示，微型摄像头M1可以部署于A地，例如某个房间中，计算机M2可以部署于B地。

A地的微型摄像头M1可以不断采集视频并传输至计算机M2。该微型摄像头M1可以将采集的待处理视频发送501至计算机M2。

计算机M2接收到该微型摄像头M1发送的待处理视频。之后，可以获取502待处理视频中的多个图像帧；将多个图像帧输入特征提取模型，计算获得503多个图像特征；多个图像特征进行降维融合处理，获得504待处理视频的目标特征。在实际应用中，可以将目标特征输入训练获得的行为检测模型，获得505目标行为。

为了对行为监控，可以对目标行为进行输出提示。在一些实施例中，该计算机M2或者摄像设备M1可以预先关联用户端，以该用户端实际的终端为手机M3为例。计算机M2获得目标行为之后，可以基于该目标行为生成506第二提示信息，将该第二提示信息发送507至手机M3上。该手机M3可以展示该第二提示信息。以该第二提示信息为文字提示信息为例，假设第二提示信息为“微型摄像头M1拍摄到目标行为”。在文字对话框508中可以输出该“微型摄像头M1拍摄到目标行为”的第二提示信息。

如图6所示，为本申请实施例提供的一种视频处理设备的一个实施例的结构示意图，该设备可以包括：存储组件601以及处理组件602；存储组件602用于存储一条或多条计算机指令，一条或多条计算机指令被处理组件601调用并执行；

处理组件601可以用于：

获取待处理视频中的多个图像帧；将多个图像帧输入特征提取模型，计算获得多个图像特征；将多个图像特征进行降维融合处理，获得待处理视频的目标特征。

在某些实施例中，处理组件将多个图像帧输入特征提取模型，计算获得多个图像特征具体可以包括：

将多个图像帧输入训练获得的特征提取模型，计算获得多个图像特征。

作为一个实施例，处理组件将多个图像帧输入训练获得的特征提取模型，计算获得多个图像特征具体可以包括：

在一种可能的设计中，时空特征提取模型包括三维神经网络模型，处理组件将多个图像帧输入训练获得的时空特征提取模型，计算获得多个图像特征具体可以包括：

确定训练获得的三维神经网络模型的三维卷积核；

在某些实施例中，处理组件将多个图像特征进行降维融合处理，获得待处理视频的目标特征具体可以包括：

将多个图像特征按照时间维度进行降维融合处理，获得待处理视频的目标特征。

作为又一个实施例，处理组件将多个图像特征按照时间维度进行降维融合处理，获得待处理视频的目标特征具体可以包括：

作为一种可能的实现方式，处理组件将多个时间维度上分别对应的图像特征降维至同一个时间维度上，获得待处理视频的目标特征具体可以包括：

在一种可能的设计中，降维算法包括全局池化算法，处理组件基于降维算法，将多个图像特征按照时间维度进行降维融合处理，获得待处理视频的目标特征可以包括：

将多个图像特征中分别属于同一像素位置的像素特征值划分至同一池化集合，获得多个像素位置分别对应的池化集合；其中，像素位置为图像帧中多个像素点各自所在的位置点；

针对任一池化集合，将池化集合中多个像素特征值按照分别对应图像特征的时间维度进行排序；

将池化集合中排序后的多个像素特征值进行全局池化计算，获得池化集合对应的目标特征值，以获得多个池化集合分别对应的目标特征值；

基于多个像素位置以及多个像素位置分别对应的池化集合的目标特征值，确定待处理视频的目标特征。

在某些实施例中，处理组件还用于：

将目标特征输入训练获得的行为检测模型，获得目标行为。

作为一个实施例，处理组件将目标特征输入训练获得的行为检测模型，获得目标行为具体可以包括：

在某些实施例中，处理组件还可以用于：

可选地，处理组件还可以用于：

基于目标行为以及行为发生位置，生成第一提示信息；

输出第一提示信息，以提示在行为发生位置处发生目标行为。

在某些实施例中，处理组件将目标特征输入训练获得的行为检测模型，获得目标行为以及目标行为对应的目标区域具体可以包括：

将目标行为输入行为检测模型的第二区域检测模块，获得目标行为对应的目标区域。

作为又一个实施例，处理组件还可以用于：

获取摄像设备采集的待处理视频。

作为又一个实施例，处理组件还可以用于：

基于目标行为，生成待处理视频的第二提示信息；

输出第二提示信息。

可选地，处理组件输出第二提示信息具体可以包括：

发送第二提示信息至用户端，以供用户端展示第二提示信息。

图6的实现视频处理设备可以执行图1所示实施例的视频处理的方法，其实现原理和技术效果不再赘述。对于上述实施例中的处理组件所执行的各个步骤的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

此外，本申请实施例还提供一种计算机可读存储介质，该存储介质用于存储计算机程序，计算机程序执行时可以执行如前述实施例中视频处理方法。

如图7所示，为本申请实施例提供的一种视频处理设备的一个实施例的结构示意图，该设备可以包括：存储组件701以及处理组件702；存储组件702用于存储一条或多条计算机指令，一条或多条计算机指令被处理组件701调用并执行；

处理组件701可以用于：

确定多个训练视频；其中，多个训练视频分别对应有标签行为；构建特征提取模型以及行为检测模型；基于特征提取模型，提取多个训练视频分别对应的目标特征；以行为检测模型对多个目标特征的行为预测结果与多个训练视频分别对应的标签行为相同的训练目标，训练获得行为检测模型以及特征提取模型的目标模型参数。

本申请实施例中，在对行为检测模型以及特征提取模型进行训练时，采用基于特征提取模型提取多个训练视频分别对应的目标特征的方式，对多个训练视频各自的行为进行预测，以获得行为预测结果。通过多个训练视频分别对应的行为预测结果与多个训练视频实际对应的标签行为进行目标训练，以获得准确的行为检测模型。实现快速而准确地完成行为检测模型的训练过程。

作为一个实施例，处理组件基于特征提取模型，提取多个训练视频分别对应的目标特征具体可以包括：

确定特征提取模型对应的特征提取参数；

基于特征提取参数对应的特征提取模型，提取多个训练视频分别对应的目标特征。

作为又一个实施例，处理组件以行为检测模型对多个目标特征的行为预测结果与多个训练视频分别对应的标签行为相同的训练目标，训练获得行为检测模型以及特征提取模型的目标模型参数具体可以包括：

确定行为检测模型的行为检测参数；

在一些实施例中，多个训练视频还分别对应有标签区域；

处理组件以行为检测模型对多个目标特征的行为预测结果与多个训练视频分别对应的标签行为相同的训练目标，训练获得行为检测模型以及特征提取模型的目标模型参数具体可以包括：

确定行为检测模型的行为检测参数；

在一种可能的设计中，处理组件根据多个训练视频分别对应的预测行为以及标签行为，以及多个训练视频分别对应的预测区域以及标签区域，确定第二预测误差具体可以包括：

作为又一种可能的实现方式，处理组件基于行为检测参数对应的行为检测模型，确定行为检测模型对多个训练视频各自的目标特征预测获得的预测行为以及预测区域具体可以包括：

在一种可能的设计中，处理组件基于行为检测参数对应的行为检测模型，确定行为检测模型对多个训练视频各自的目标特征预测获得的预测行为以及预测区域具体可以包括：

在某些实施例中，处理组件基于特征提取参数对应的特征提取模型，提取多个训练视频分别对应的目标特征具体可以包括：

针对任一个训练视频，获取训练视频中的多个图像帧；

图7的实现数据处理设备可以执行图3所示实施例的数据处理的方法，其实现原理和技术效果不再赘述。对于上述实施例中的处理组件所执行的各个步骤的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

此外，本申请实施例还提供一种计算机可读存储介质，该存储介质用于存储计算机程序，计算机程序执行时可以执行如前述实施例中数据处理方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频处理方法，其特征在于，包括：

获取待处理视频中的多个图像帧；

2.根据权利要求1所述的方法，其特征在于，所述将所述多个图像帧输入特征提取模型，计算获得多个图像特征包括：

将所述多个图像帧输入训练获得的特征提取模型，计算获得所述多个图像特征。

3.根据权利要求2所述的方法，其特征在于，所述将所述多个图像帧输入训练获得的特征提取模型，计算获得多个图像特征包括：

将所述多个图像帧输入训练获得的时空特征提取模型，计算获得所述多个图像特征。

4.根据权利要求3所述的方法，其特征在于，所述时空特征提取模型包括三维神经网络模型，所述将所述多个图像帧输入训练获得的时空特征提取模型，计算获得所述多个图像特征包括：

确定训练获得的所述三维神经网络模型的三维卷积核；

将所述多个图像帧输入所述三维卷积核对应三维神经网络模型，计算获得所述多个图像特征。

5.根据权利要求1所述的方法，其特征在于，所述将所述多个图像特征进行降维融合处理，获得所述待处理视频的目标特征包括：

将所述多个图像特征按照时间维度进行降维融合处理，获得所述待处理视频的目标特征。

6.根据权利要求5所述的方法，其特征在于，所述将所述多个图像特征按照时间维度进行降维融合处理，获得所述待处理视频的目标特征包括：

基于所述多个图像特征分别对应图像帧的时间戳，确定所述多个图像特征分别对应的时间维度；

将多个时间维度上分别对应的图像特征降维至同一个时间维度上，获得所述待处理视频的目标特征。

7.根据权利要求6所述的方法，其特征在于，所述将多个时间维度上分别对应的图像特征降维至同一个时间维度上，获得所述待处理视频的目标特征包括：

基于降维算法，将所述多个时间维度上分别对应的图像特征降维至同一个时间维度上，获得所述待处理视频的目标特征。

8.根据权利要求7所述的方法，其特征在于，所述降维算法包括全局池化算法，所述基于降维算法，将所述多个时间维度上分别对应的图像特征降维至同一个时间维度上，获得所述待处理视频的目标特征包括：

将多个图像特征中分别属于同一像素位置的像素特征值划分至同一池化集合，获得多个像素位置分别对应的池化集合；其中，所述像素位置为图像帧中多个像素点各自所在的位置点；

针对任一池化集合，将所述池化集合中多个像素特征值按照分别对应图像特征的时间维度进行排序；

将所述池化集合中排序后的多个像素特征值进行全局池化计算，获得所述池化集合对应的目标特征值，以获得所述多个池化集合分别对应的目标特征值；

基于所述多个像素位置以及所述多个像素位置分别对应的池化集合的目标特征值，确定所述待处理视频的目标特征。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述目标特征输入训练获得的行为检测模型，获得目标行为。

10.根据权利要求9所述的方法，其特征在于，所述将所述目标特征输入训练获得的行为检测模型，获得目标行为包括：

将所述目标特征输入训练获得的行为检测模型，获得所述目标行为以及所述目标行为对应的目标区域。

11.根据权利要求10所述的方法，其特征在于，所述将所述目标特征输入训练获得的行为检测模型，获得所述目标行为以及所述目标行为对应的目标区域之后，所述方法还包括：

基于所述目标区域，结合采集所述待处理视频的摄像设备的设备位置，确定所述目标行为发生时的行为发生位置。

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

基于所述目标行为以及所述行为发生位置，生成第一提示信息；

输出所述第一提示信息，以提示在所述行为发生位置处发生所述目标行为。

13.根据权利要求10所述的方法，其特征在于，所述将所述目标特征输入训练获得的行为检测模型，获得所述目标行为以及所述目标行为对应的目标区域包括：

将所述目标特征输入所述行为检测模型的行为检测模块，获得所述目标行为；

将所述目标特征输入所述行为检测模型的第一区域检测模块，获得所述目标行为对应的目标区域。

14.根据权利要求10所述的方法，其特征在于，所述将所述目标特征输入训练获得的行为检测模型，获得所述目标行为以及所述目标行为对应的目标区域包括：

将所述目标行为输入所述行为检测模型的第二区域检测模块，获得所述目标行为对应的目标区域。

15.根据权利要求9所述的方法，其特征在于，所述方法还包括：

基于所述目标行为，生成所述待处理视频的第二提示信息；

输出所述第二提示信息。

16.根据权利要求15所述的方法，其特征在于，所述输出所述第二提示信息包括：

发送所述第二提示信息至用户端，以供所述用户端展示所述第二提示信息。

17.根据权利要求1所述的方法，其特征在于，所述获取待处理视频中的多个图像帧之前，所述方法还包括：

获取摄像设备采集的所述待处理视频。

18.一种数据处理方法，其特征在于，包括：

构建特征提取模型以及行为检测模型；

19.根据权利要求18所述的方法，其特征在于，所述基于所述特征提取模型，提取所述多个训练视频分别对应的目标特征包括：

确定所述特征提取模型对应的特征提取参数；

基于所述特征提取参数对应的特征提取模型，提取所述多个训练视频分别对应的目标特征。

20.根据权利要求18所述的方法，其特征在于，所述以所述行为检测模型对多个目标特征的行为预测结果与所述多个训练视频分别对应的标签行为相同的训练目标，训练获得所述行为检测模型以及所述特征提取模型的目标模型参数包括：

确定所述行为检测模型的行为检测参数；

基于所述行为检测参数对应的行为检测模型，确定所述行为检测模型对所述多个训练视频各自的目标特征预测获得的预测行为；

根据所述多个训练视频分别对应的预测行为以及标签行为，确定第一预测误差；

如果所述第一预测误差满足第一误差条件，确定当前所述行为检测参数为所述行为检测模型的第一目标参数以及当前特征提取参数为所述特征提取模型的第二目标参数；

如果所述第一预测误差不满足第一误差条件，基于所述第一预测误差，更新所述行为检测模型的行为检测参数以及所述特征提取模型的特征提取参数；返回至所述确定所述特征提取模型对应的特征提取参数的步骤继续执行。

21.根据权利要求19所述的方法，其特征在于，所述多个训练视频还分别对应有标签区域；

所述以所述行为检测模型对多个目标特征的行为预测结果与所述多个训练视频分别对应的标签行为相同的训练目标，训练获得所述行为检测模型以及所述特征提取模型的目标模型参数包括：

确定所述行为检测模型的行为检测参数；

基于所述行为检测参数对应的行为检测模型，确定所述行为检测模型对所述多个训练视频各自的目标特征预测获得的预测行为以及预测区域；

根据所述多个训练视频分别对应的预测行为以及标签行为，以及所述多个训练视频分别对应的预测区域以及标签区域，确定第二预测误差；

如果所述第二预测误差满足第二误差条件，确定当前所述行为检测参数为所述行为检测模型的第三目标参数以及当前特征提取参数为所述特征提取模型的第四目标参数；

如果所述第二预测误差不满足第二误差条件，基于所述第二预测误差，更新所述行为检测模型的行为检测参数以及所述特征提取模型的特征提取参数；返回至所述确定所述特征提取模型对应的特征提取参数的步骤继续执行。

22.根据权利要求21所述的方法，其特征在于，所述根据所述多个训练视频分别对应的预测行为以及标签行为，以及所述多个训练视频分别对应的预测区域以及标签区域，确定第二预测误差包括：

根据所述多个训练视频分别对应的预测行为以及标签行为，确定行为预测误差；

基于所述多个训练视频分别对应的预测区域以及标签区域，确定所述行为预测模型的区域预测误差；

根据多个行为预测误差以及多个区域预测误差，确定所述第二预测误差。

23.根据权利要求21所述的方法，其特征在于，所述基于所述行为检测参数对应的行为检测模型，确定所述行为检测模型对所述多个训练视频各自的目标特征预测获得的预测行为以及预测区域包括：

将所述多个训练视频分别对应的目标特征依次输入所述行为检测参数对应的行为检测模型中的行为检测模块，获得所述多个训练视频分别对应的预测行为；

将所述多个训练视频分别对应的目标特征依次输入所述行为检测参数对应的行为检测模型中的第一区域检测模块，获得所述多个训练视频分别对应的预测区域。

24.根据权利要求21所述的方法，其特征在于，所述基于所述行为检测参数对应的行为检测模型，确定所述行为检测模型对所述多个训练视频各自的目标特征预测获得的预测行为以及预测区域包括：

针对任一个训练视频的目标特征，将所述目标特征输入所述行为检测参数对应的行为检测模型中的行为检测模块，获得所述训练视频对应的预测行为；

将所述训练视频的预测行为输入所述行为检测参数对应的行为检测模型中的第二区域检测模块，获得所述训练视频对应的预测区域，以获得所述多个训练视频分别对应的预测行为以及预测区域。

25.根据权利要求19所述的方法，其特征在于，所述基于所述特征提取参数对应的特征提取模型，提取所述多个训练视频分别对应的目标特征包括：

针对任一个训练视频，获取所述训练视频中的多个图像帧；

将所述训练视频的多个图像帧输入所述特征提取参数对应的特征提取模型，计算获得所述训练视频的多个图像特征；

将所述训练视频的多个图像特征按照时间维度进行降维融合处理，获得所述训练视频的目标特征，以获得所述多个训练视频分别对应的目标特征。

26.一种视频处理设备，其特征在于，包括：存储组件以及处理组件；所述存储组件用于存储一条或多条计算机指令，所述一条或多条计算机指令被所述处理组件调用并执行；

所述处理组件可以用于：

27.一种数据处理设备，其特征在于，包括：存储组件以及处理组件；所述存储组件用于存储一条或多条计算机指令，所述一条或多条计算机指令被所述处理组件调用并执行；

所述处理组件可以用于：