CN114913444A

CN114913444A - 视频的处理方法及装置、数据的训练方法、装置及系统

Info

Publication number: CN114913444A
Application number: CN202110179387.1A
Authority: CN
Inventors: 黄梁华; 刘宇; 王彬; 潘攀; 徐盈辉
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2022-08-16

Abstract

本发明公开了一种视频的处理方法及装置、数据的训练方法、装置及系统。该方法包括：接收待处理视频；通过视频表征模型对待处理视频进行特征提取，得到待处理视频的视频表征信息，其中，视频表征模型通过对初始模型进行训练得到，初始模型为通过样本数据训练得到的模型，训练任务与所述样本数据的背景特征信息和运动特征信息相关；输出待处理视频的视频表征信息，其中，视频表征信息中包括待处理视频的背景特征信息和待处理视频的运动特征信息。本发明解决了现有技术中视频表征模型对视频内容表征不准确的技术问题。

Description

视频的处理方法及装置、数据的训练方法、装置及系统

技术领域

本发明涉及视频处理领域，具体而言，涉及一种视频的处理方法及装置、数据的训练方法、装置及系统。

背景技术

互联网中存在大量的视频资源，视频表征模型可以对互联网中的视频内容进行学习以实现对视频内容的检测和标注，例如，在电商平台中，通过对商品短视频内容进行识别并且对视频增加商品标签，使得用户可通过搜索快速找到感兴趣的商品。然而，现有的视频表征模型在特征提取时过多关注视频的背景特征，而较少关注视频前景中的运动特征信息，导致视频表征模型的输出视频表征信息容易受到视频图像的背景影响，进而导致对视频内容表征不准确，例如，视频中背景中包含物体A，前景中为运动的物体B，视频表征模型由于更关注背景特征，可能将背景中的物体A作为视频图像的主题进而输出物体A的特征作为视频表征信息，使得视频表征模型表征的结果与视频的实际内容存在偏差。

针对上述现有技术中视频表征模型对视频内容表征不准确的技术问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种视频的处理方法及装置、数据的训练方法、装置及系统，以至少解决现有技术中的视频自监督学习容易受到图像背景影响的技术问题。

根据本发明实施例的一个方面，提供了一种视频的处理方法，包括：接收待处理视频；通过视频表征模型对待处理视频进行特征提取，得到待处理视频的视频表征信息，其中，视频表征模型通过对初始模型进行训练得到，初始模型为通过样本数据训练得到的模型，训练任务与样本数据的背景特征信息和运动特征信息相关；输出待处理视频的视频表征信息，其中，视频表征信息中包括待处理视频的背景特征信息和待处理视频的运动特征信息。

根据本发明实施例的另一个方面，提供了一种视频的处理方法，包括：接收待处理视频；通过视频处理模型对待处理视频进行处理，得到待处理视频的视频标签，其中，视频处理模型通过对初始模型进行训练得到，初始模型为通过样本数据训练得到的模型，训练任务与样本数据的背景特征信息和运动特征信息相关；显示待处理视频的视频标签。

根据本发明实施例的另一个方面，提供了一种视频的处理方法，包括：接收直播视频；通过视频处理模型对直播视频进行处理，得到直播视频的视频标签，其中，视频标签用于表示直播视频中的目标对象的产品类型，视频处理模型通过对初始模型进行训练得到，所述初始模型为通过样本数据训练得到的模型，训练任务与样本数据的背景特征信息和运动特征信息相关；显示直播视频的视频标签。

根据本发明实施例的另一个方面，提供了一种数据的训练方法，包括：获取待训练模型对样本视频片段进行特征提取得到的第一特征信息；基于第一特征信息和第二特征信息确定背景损失函数，其中，第二特征信息包括样本视频片段中图像的背景特征信息，背景损失函数用于表征第一特征信息与背景特征信息的差异程度；基于第一特征信息和第三特征信息确定运动损失函数，其中，第三特征信息包括样本视频片段之后的图像的第一运动特征信息，运动损失函数用于表征基于第一特征信息预测的第二运动特征信息与第一运动特征信息之间的差异程度；根据背景损失函数和运动损失函数对待训练模型进行优化。

根据本发明实施例的另一方面，还提供了一种视频的处理装置，包括：第一接收模块，用于接收待处理视频；特征提取模块，用于通过视频表征模型对待处理视频进行特征提取，得到待处理视频的视频表征信息，其中，视频处理模型通过对初始模型进行训练得到，初始模型为通过样本数据训练得到的模型，训练任务与样本数据的背景特征信息和运动特征信息相关；输出模块，用于输出待处理视频的视频表征信息，其中，视频表征信息中包括待处理视频的背景特征信息和待处理视频的运动特征信息。

根据本发明实施例的另一方面，还提供了一种视频的处理装置，包括：第二接收模块，用于接收待处理视频；第一处理模块，用于通过视频处理模型对待处理视频进行处理，得到待处理视频的视频标签，其中，视频处理模型通过对初始模型进行训练得到，初始模型为通过样本数据训练得到的模型，监督任务与样本数据的背景特征信息和运动特征信息相关；第一显示模块，用于显示待处理视频的视频标签。

根据本发明实施例的另一方面，还提供了一种视频的处理装置，包括：第三接收模块，用于接收直播视频；第二处理模块，用于通过视频处理模型对直播视频进行处理，得到直播视频的视频标签，其中，视频标签用于表示直播视频中的目标对象的产品类型，视频处理模型通过对初始模型进行训练得到，所述初始模型为通过样本数据训练得到的模型，训练任务与样本数据的背景特征信息和运动特征信息相关；第二显示模块，用于显示直播视频的视频标签。

根据本发明实施例的另一方面，还提供了一种数据的训练装置，包括：获取模块，用于获取待训练模型对样本视频片段进行特征提取得到的第一特征信息；第一确定模块，用于基于第一特征信息和第二特征信息确定背景损失函数，其中，第二特征信息包括样本视频片段中图像的背景特征信息，背景损失函数用于表征第一特征信息与背景特征信息的差异程度；第二确定模块，用于基于第一特征信息和第三特征信息确定运动损失函数，其中，第三特征信息包括样本视频片段之后的图像的第一运动特征信息，运动损失函数用于表征基于第一特征信息预测的第二运动特征信息与第一运动特征信息之间的差异程度；优化模块，用于根据背景损失函数和运动损失函数对待训练模型进行优化。

根据本发明实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述任意一项视频的处理方法。

根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述任意一项的视频的处理方法。

根据本发明实施例的另一方面，还提供了一种数据的训练系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取待训练模型对样本视频片段进行特征提取得到的第一特征信息；基于第一特征信息和第二特征信息确定背景损失函数，其中，第二特征信息包括样本视频片段中图像的背景特征信息，背景损失函数用于表征第一特征信息与背景特征信息的差异程度；基于第一特征信息和第三特征信息确定运动损失函数，其中，第三特征信息包括样本视频片段之后的图像的第一运动特征信息，运动损失函数用于表征基于第一特征信息预测的第二运动特征信息与第一运动特征信息之间的差异程度；根据背景损失函数和运动损失函数对待训练模型进行优化。

在本发明实施例中，通过采用经初始模型训练得到的视频处理模型对待处理视频进行特征提取，其中初始模型为通过样本数据训练得到的模型，监督任务与样本数据的背景特征信息和运动特征信息相关，使得视频处理模型可以提取出待处理视频的背景特征信息和运动特征信息，并且视频表征模型在特征提取时更关注运动特征信息，使得视频表征信息中可以包含更多的运动特征信息，进而避免了视频表征模型中在特征提取时易收到待处理视频中的背景影响的问题，提高了视频表征模型对视频内容表征的准确程度，解决了现有技术中视频表征模型对视频内容表征不准确的问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据一种用于实现数据的训练方法的计算设备(或移动设备)的硬件结构框图的示意图；

图2是根据本发明实施例的一种视频的处理方法的流程图；；

图3是根据本发明实施例的一种数据的训练方法的流程图；

图4是根据本发明实施例的可选的数据的训练方法的框架示意图；

图5是根据本发明实施例的可选的压缩视频格式的示意图；

图6是根据本发明实施例的一种数据的处理方法的示意图；

图7是根据本发明实施例的一种数据的训练装置的示意图；

图8是根据本发明实施例的一种数据的处理装置的示意图；

图9是根据本发明实施例的一种计算机终端的结构框图；

图10是根据本发明实施例的一种视频的处理方法的流程图；

图11为一种基于对比学习的视频自监督学习方法的示意图；

图12是根据本发明实施例的一种视频的处理装置的示意图；

图13是根据本发明实施例的一种视频的处理装置的示意图；

图14是根据本发明实施例的一种视频的处理方法的流程图；

图15是根据本发明实施例的一种视频的处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

本发明实施例提供了一种视频的处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算设备或者类似的运算装置中执行。图1示出了一种用于实现视频的处理方法的计算设备(或移动设备)的硬件结构框图。如图1所示，计算设备10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算设备10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算设备10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的数据的训练方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输模块106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备10的通信供应商提供的无线网络。在一个实例中，传输模块106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算设备10(或移动设备)的用户界面进行交互。

在上述运行环境下，本申请提供了如图2所示的视频的处理方法。图2是根据本发明实施例一的视频的处理的流程图，如图2所示，该方法包括如下步骤：

步骤S201，接收待处理视频。

上述待处理视频为需要进行视频表征以用于下游任务的视频，下游任务可以为基于视频表征所进行的分类、识别、物体检测、物体跟踪以及视频打标等。

待处理视频可以为从互联网获取的视频或者视频片段。例如，待处理视频可以为电商的直播视频，其对应的下游任务可以为物体检测以及物体跟踪，以识别出直播视频中的商品，进而进行精准推荐。再例如，待处理视频还可以是娱乐直播视频，其对应的下游任务可以为视频打标，通过视频打标确定出视频的类型(体育、美妆、女婴、电影等)，进而对娱乐视频进行精准推荐。

上述待处理视频还可以是教育领域或医疗领域等非娱乐领域的视频。例如，待处理视频可以是远程教育的课程视频，再例如，待处理视频还可以是医疗诊断时的影像等。此处不一一举例。步骤S202，通过视频表征模型对待处理视频进行特征提取，得到待处理视频的视频表征信息，其中，视频表征模型通过对初始模型进行训练得到，初始模型为通过样本数据训练得到的模型，监督任务与样本数据的背景特征信息和运动特征信息相关。

上述初始模型可以为通过样本数据学习训练后得到特征提取模型，初始模型所使用的样本数据为视频片段，在训练过程中，监督信息包括背景特征信息和运动特征信息，也即监督任务既与背景特征信息相关，也与运动特征信息相关，使得初始模型对背景特征信息和运动特征信息都进行了学习，避免现有技术中在对样本数据的学习中出现的背景偏差问题。在一种可选的实施例中，可以获取一段视频片段作为样本数据，将视频片段中包含背景的一帧图像中的前景和背景进行分离得到背景信息和运动信息，并对背景信息中的特征进行提取得到背景特征信息，对运动信息中的特征进行提取得到运动特征信息，使用背景特征信息和运动特征信息分别对初始模型进行训练，使得初始模型可学习到背景信息和运动信息两方面的信息。上述初始模型还可以使用本申请实施例3中的方式进行训练。

上述视频表征模型为用于对待处理视频进行特征提取的特征提取模型，视频表征模型可以为具有卷积层结构的神经网络模型。视频表征模型可以通过在上述初始模型的基础上进一步通过监督学习方式训练得到，具体的，可以通过使用增加预设主题标签的样本数据，对上述初始模型进一步进行训练，使得视频表征模型可以对预设主题内容进行特征提取。

在一种可选的实施例中，视频表征模型在用于提取视频中的特征时，将样本视频中的背景物体A和前景运动的人B增加标签信息，使用增加了标签信息的样本视频对视频表征模型进行训练后，视频表征模型可以将待处理视频中的背景物体A的背景特征信息和前景运动的人B的运动特征信息提取出来。

步骤S203，输出待处理视频的视频表征信息，其中，视频表征信息中包括待处理视频的背景特征信息和待处理视频的运动特征信息。

上述视频表征信息中包含背景特征信息和运动特征信息，使得视频表征信息可以更准确的表征出视频的内容。例如，待处理视频为直播视频，直播视频中包含了主播所处的直播间的背景信息，还包含了位于前景正在跳舞的主播，使用视频表征模型对待处理视频进行特征提取，输出的视频表征信息中包含位于背景的直播间的背景特征信息，以及主播的运动特征信息。进一步的，在该视频表征信息的基础上进行下游任务，能够得到更准确的结果。例如，根据主播跳舞的舞蹈类型对直播视频进行打标等。

本实施例中，通过接收待处理视频，通过视频表征模型对待处理视频进行特征提取，得到待处理视频的视频表征信息，视频处理模型通过对初始模型进行训练得到，初始模型为通过自监督训练得到的模型，自监督训练的监督信息包括样本数据的背景特征信息和运动特征信息，输出待处理视频的视频表征信息，其中，视频表征信息中包括待处理视频的背景特征信息和待处理视频的运动特征信息，实现了视频表征模型可以提取出待处理视频中的背景特征信息和运动特征信息，并且视频表征模型在特征提取时更关注运动特征信息，使得视频表征信息中可以包含更多的运动特征信息，进而避免了视频表征模型中在特征提取时易收到待处理视频中的背景影响的问题，提高了视频表征模型对视频内容表征的准确程度，解决了现有技术中视频表征模型对视频内容表征不准确的问题。

作为一种可选的实施例，在输出待处理视频的视频表征信息之后，方法还包括如下至少一项：基于视频表征信息对待处理视频进行视频分类，得到待处理视频的视频标签；基于视频表征信息对待处理视频进行物体检测，得到待处理视频中的目标物体；基于视频表征信息对待处理视频进行物体追踪，得到待处理视频的每帧图像中目标物体所在的位置。

在上述视频表征模型之后，还可以增加头部网络模型，用于对视频表征模型提取出的背景特征信息和运动特征信息进行分类、检测、识别等。

在一种可选的实施中，可以在上述视频表征模型的输出增加分类网络，分类网络可以基于视频表征信息对待处理视频进行分类。例如，上述待处理视频为电商平台上的直播视频，直播视频包括主播在直播间演示商品C的用法视频，经过训练后的视频表征模型可以提取出直播间背景特征信息，以及主播演示商品C的运动特征信息，将背景特征信息和运动特征信息输出至分类网络中，可以获得“主播演示商品C”的视频标签，用户在电商平台上通过搜索可以快捷的找到商品C的演示视频。

在另一种可选的实施中，可以在上述视频表征模型的输出增加头部网络，头部网络可基于视频表征信息实现待处理视频进行物体检测。例如，在电商平台上，目标物体可以为需要进行集中下架的某一商品，待处理视频可以为电商平台上的商品小视频，商品小视频包含直播间的背景以及前景对该商品的演示，通过使用具有该商品标记信息的样本图像对视频表征模型和头部网络进行训练，使得视频表征模型可以对电商平台上的商品小视频的背景特征信息和运动特征信息单独提取出来，进一步头部网络对商品小视频的背景特征信息和运动特征信息进行检测，判断出商品小视频的前景中是否包含该商品的演示信息，实现从大量的商品小视频中准确的检测中包含目标商品的视频，避免商品小视频中的背景对检测的影响(例如，商品小视频中可能在直播间背景的货架上存在上述待下架的商品，但前景中主播正在演示另一商品，现有的特征提取模型可能将背景中另一商品的特征提取出来作为视频的主题，进而导致下架了错误的商品小视频)。

在另一种可选的实施中，可以在上述视频表征模型的输出增加回归网络，回归网络可基于视频表征信息实现在待处理视频中框选出目标物体，进而实现对待处理视频进行物体追踪。例如，在直播视频中，在检测出目标物体后，使用边框在每一帧图像中框选出目标物体，实现对目标物体的追踪。通过对视频进行物体追踪，便于对视频中的物体进行识别，从而确定出视频中的主体。

作为一种可选的实施例，上述方法还包括：获取初始模型，获取初始模型的步骤包括：获取待训练模型的目标损失函数，其中，目标损失函数由背景特征信息和运动特征信息构成；通过求解目标损失函数对待训练模型进行优化，得到初始模型。

具体的，待训练模型为需要进行优化的特征提取模型，初始模型为将待训练模型优化后的特征提取模型，特征提取模型可以为三维视频神经网络模型。

由于目标损失函数由背景特征信息和运动特征信息构成，使得目标损失函数可用于对待训练模型在背景信息和运动信息两个方面进行训练学习，使得训练后得到的初始模型可以更关注视频中运动特征信息，进而使初始模型对视频进行特征提取后所获得的特征中可以包含更多的运动特征信息，将运动特征信息提取出来作为视频标签，可以更准确的表征出视频的内容。

作为一种可选的实施例，获取待训练模型的目标损失函数，包括：获取待训练模型对样本视频片段进行特征提取得到的第一特征信息；基于第一特征信息和第二特征信息确定背景损失函数，其中，第二特征信息包括样本视频片段中图像的背景特征信息，背景损失函数用于表征第一特征信息与背景特征信息的差异程度；基于第一特征信息和第三特征信息确定运动损失函数，其中，第三特征信息包括样本视频片段之后的图像的第一运动特征信息，运动损失函数用于表征基于第一特征信息预测的第二运动特征信息与第一运动特征信息之间的差异程度；确定所述背景损失函数与所述运动损失函数之和为所述目标损失函数。

样本视频片段为具有多帧图像的视频片段，用于对待训练模型的训练学习。具体的，可以将样本视频片段所对应的完整视频切分为多个视频片段，每个视频片段均包含多帧连续的图像，可选择其中任意一个视频片段作为样本视频片段。

在一种可选的实施中，背景特征信息可以通过将包含背景的一帧图像中的前景和背景进行分离得到背景信息，并对背景信息中的特征进行提取得到背景特征信息，也可以通过将样本视频片段中包含背景的一帧图像，输入图像特征提取模型中提取得到。

上述背景损失函数用于对第一特征信息和第二特征信息进行对比学习(contrastive learning)，具体的，对比学习的方法是一种视频自监督学习方法，通过对无标注的图像特征进行对比学习，实现将同一个视频不同片段在特征空间拉近、同时将来自不同视频的不同片段在特征空间推远，实现对视频的自监督学习。在一种可选的实施例中，将上述样本视频片段输入至三维视频特征提取模型中提取得到第一特征信息，将任意一帧关键帧输入二维的图像特征提取模型得到第二特征信息，基于背景损失函数对第一特征信息和第二特征信息进行对比学习，可以将同一个视频通过三维视频特征提取模型提取的第一特征信息和背景图像通过二维图像特征提取模型提取第二特征信息的特征拉近，而来自不同视频的第一特征信息和第二特征信息推远，进而使待训练模型学习到背景信息。基于背景损失函数对待训练模型的训练，提高待训练模型对视频的背景信息的识别能力。

第一运动特征信息可以通过将样本视频片段之后的图像，输入三维特征提取模型中提取得到。样本视频片段之后为位于样本视频片段之后的另一段视频片段，例如，样本视频片段为视频中第1帧至第5帧的图像，则用于提取第一运动特征信息的图像为同一视频中第6帧至第10帧的图像。第二运动特征信息可通过将第一特征信息输入具有编码-解码结构的神经网络中预测得到。

上述运动损失函数用于对第一特征信息和第三特征信息进行对比学习，根据运动损失函数可以确定出第一运动特征信息与第二运动特征信息在时间、空间位置均相对应的为正样本，第一运动特征信息与第二运动特征信息在时间、空间位置中任意一个不一致的为负样本，进而使待训练模型学习到运动信息。

需要说明的是，与静态、粗粒度的背景特征信息不同，运动特征信息为细粒度的、与位置相关的特征信息，因此通过三维神经网络对样本视频片段进行预测以获得样本视频片段之后图像的第二运动特征信息，以及通过将真实的样本视频片段之后对应的图像通过三维神经网络提取获得的第一运动特征信息，通过对第一运动特征信息和第二运动特征信息进行对比学习，可以使待训练模型学习到细粒度的运动信息。

背景损失函数和运动损失函数可用于对待训练模型在背景信息和运动信息两个方面进行训练学习，通过对样本视频片段中的背景信息和运动信息进行解耦，对使得待训练模型学习到背景信息和运动信息两方面的信息。将背景损失函数和运动损失函数之和确定更为目标损失函数，使得目标损失函数可以对待训练模型在背景信息和运动信息两个方面进行对比学习，提高初始模型对于图像的背景信息和作为前景的运动信息的识别精度。

实施例2

根据本发明实施例，还提供了一种视频的处理方法的实施例。图10是根据本发明实施例2的视频的处理的流程图，如图10所示，该方法包括如下步骤：

步骤S1001，接收待处理视频。

上述待处理视频为需要进行视频表征以用于下游任务的视频，下游任务可以为基于视频表征所进行的检测识别以及视频打标等。

上述待处理视频还可以是教育领域或医疗领域等非娱乐领域的视频。例如，待处理视频可以是远程教育的课程视频，再例如，待处理视频还可以是医疗诊断时的影像等。此处不一一举例。

步骤S1002，通过视频处理模型对待处理视频进行处理，得到待处理视频的视频标签，其中，视频处理模型通过对初始模型进行训练得到，初始模型为通过样本数据训练得到的模型，监督任务与样本数据的背景特征信息和运动特征信息相关。

上述视频表征模型为用于对待处理视频进行特征提取的特征提取模型，视频表征模型可以为具有卷积层结构的神经网络模型。上述视频标签用于表征待处理视频的主题或者待处理视频中的目标物体，例如，一段商品的购物视频可以使用该商品的名称作为视频标签。视频表征模型可以通过在上述初始模型的基础上进一步通过监督学习方式训练得到，具体的，可以通过使用增加预设主题标签的样本数据，对上述初始模型进一步进行训练，使得视频表征模型可以对预设主题内容进行特征提取，并将预设主题作为视频标签。

需要说明的是，由于视频表征模型可以更多的关注到视频中的运动信息特征，根据该视频表征模型所提取输出的特征确定的视频标签可以准确的表征出视频的内容。例如，待处理视频为直播视频，直播视频中包含了主播所处的直播间的背景信息，还包含了位于前景正在跳舞的主播，使用视频表征模型对待处理视频进行特征提取，可以将主播跳舞作为视频标签，进一步的，也可以根据主播跳舞的舞蹈类型作为直播视频的视频标签，使得视频标签可以更准确的表征出直播视频的内容。

在一种可选的实施例中，待处理视频为电商平台上的购物直播视频，购物直播视频中包含直播间背景以及背景中的商品货架，以及主播正在进行讲解的商品。预设主题可以为主播对商品D的讲解和主播对商品E的讲解，通过视频表征模型对购物直播视频进行特征提取，可以识别出主播对商品D的讲解的视频，以及主播对商品E的讲解的视频，分别得到视频标签“商品D”和“商品E”。

需要说明的是，由于视频处理模型可以提取出待处理视频的背景特征信息和运动特征信息，可以基于运动特征信息中内容得到视频标签，进而使得视频处理模型对视频表征更准确，例如，在上述电商平台上的购物直播视频的实施例中，视频处理模型可以提取出表征直播间背景及商品货架的背景特征信息，以及表征主播讲解的商品D的运动特征信息，进而得到“商品D”为该视频的标签，避免视频处理模型错误的将背景中商品货架中的商品X特征提取后而将商品X作为该视频的标签。

在同一个待处理视频中，可以包含多个视频标签，例如，在上述电商平台上的购物直播视频的实施例中，主播对配合使用的商品D和商品E同时进行讲解时，则可以将“商品D”和“商品E”同时作为视频标签。

步骤S1003，显示待处理视频的视频标签。

在得到待处理视频的视频标签后，可以在待处理视频中的目标物体的对应位置显示该视频标签，例如，在上述电商平台上的购物直播视频的实施例中，可以在主播讲解的商品D上显示“商品D”的视频标签。

本实施例中，通过接收待处理视频，通过视频处理模型对待处理视频进行处理，得到待处理视频的视频标签，其中，视频处理模型通过对初始模型进行训练得到，初始模型为通过样本数据训练得到的模型，监督任务与样本数据的背景特征信息和运动特征信息相关，实现了视频表征模型可以分别提取出待处理视频中的背景特征信息和运动特征信息，并且视频表征模型在特征提取时更关注运动特征信息，使得视频表征信息中可以包含更多的运动特征信息，进而避免了视频表征模型中在特征提取时易收到待处理视频中的背景影响的问题，提高了视频表征模型对视频内容表征的准确程度，解决了现有技术中视频表征模型对视频内容表征不准确的问题。

作为一种可选的实施例，在显示待处理视频的视频标签之后，上述方法还包括如下至少一项：基于待处理视频的标签对待处理视频进行推荐；显示待处理视频的视频标签，接收视频标签的校对信息，并基于校对信息修改视频标签。

在上述电商平台上的购物直播视频的实施例中，根据上述方案给不同的直播视频打标后，使得不同的直播视频具有的对应商品的视频标签，进一步可以根据用户的购物习惯，根据视频标签的内容将与用户的购物习惯相关的视频推荐给用户。由于视频标签可以较准确的表征视频的内容，避免给用户推荐不相关的商品购物视频，提高用户的体验。

在一种可选的实施例中，可以通过人工方式进一步对上述视频标签进行校对。在上述电商平台上的购物直播视频的实施例中，可以对视频标签和直播视频的内容符合度进行校对，当视频标签与直播视频内容不符时，可以将准确的视频标签内容作为校对信息，并对原视频标签进行修改。

实施例3

根据本发明实施例，还提供了一种数据的训练方法实施例。图3是根据本发明实施例一的视频的处理的流程图，如图3所示，该方法包括如下步骤：

步骤S301，获取待训练模型对样本视频片段进行特征提取得到的第一特征信息。

待训练模型为需要进行优化的特征提取模型，例如，三维视频神经网络。样本视频片段为具有多帧图像的视频片段，用于对待训练模型的训练学习。具体的，可以将样本视频片段所对应的完整视频切分为多个视频片段，每个视频片段均包含多帧连续的图像，可选择其中任意一个视频片段作为样本视频片段。

步骤S302，基于第一特征信息和第二特征信息确定背景损失函数，其中，第二特征信息包括样本视频片段中图像的背景特征信息，背景损失函数用于表征第一特征信息与背景特征信息的差异程度。

上述背景损失函数用于对第一特征信息和第二特征信息进行对比学习(contrastive learning)，具体的，对比学习的方法是一种视频自监督学习方法，通过对无标注的图像特征进行对比学习，实现将同一个视频不同片段在特征空间拉近、同时将来自不同视频的不同片段在特征空间推远，实现对视频的自监督学习。图11为一种基于对比学习的视频自监督学习方法的示意图，如图11所示，视频1和视频2为不同的两个视频，将视频分割为多个视频片段，片段11和片段12为从视频1的视频片段中采样并进行增强获得，片段21为从视频2的视频片段中采样并进行增强获得，分别将片段11、片段12和片段21分别输入至三维深度神经网络中提取特征，片段11经三维深度神经网络Φ1提取到图像特征信息13，片段12经三维深度神经网络Φ2提取到图像特征信息14，片段21经三维深度神经网络Φ3提取到图像特征信息22，基于对比学习的方法，可以将来自于同一个视频1的图像特征信息13和图像特征信息14在特征空间拉近，同时将来自于不同的视频2的图像特征信息22在特征空间拉远。

在一种可选的实施例中，将上述样本视频片段输入至三维视频特征提取模型中提取得到第一特征信息，将任意一帧关键帧输入二维的图像特征提取模型得到第二特征信息，基于背景损失函数对第一特征信息和第二特征信息进行对比学习，可以将同一个视频通过三维视频特征提取模型提取的第一特征信息和背景图像通过二维图像特征提取模型提取第二特征信息的特征拉近，而来自不同视频的第一特征信息和第二特征信息推远，进而使待训练模型学习到背景信息。基于背景损失函数对待训练模型的训练，提高待训练模型对视频的背景信息的识别能力。

步骤S303，基于第一特征信息和第三特征信息确定运动损失函数，其中，第三特征信息包括样本视频片段之后的图像的第一运动特征信息，运动损失函数用于表征基于第一特征信息预测的第二运动特征信息与第一运动特征信息之间的差异程度。

步骤S304，根据背景损失函数和运动损失函数对待训练模型进行优化。

背景损失函数和运动损失函数可用于对待训练模型在背景信息和运动信息两个方面进行训练学习，通过对样本视频片段中的背景信息和运动信息进行解耦，对使得待训练模型学习到背景信息和运动信息两方面的信息。

具体的，可以用获得的背景损失函数对待训练模型进行优化，得到学习了背景信息后的第一待训练模型，以及用获得的运动损失函数对待训练模型进行优化，得到学习了运动信息后的第二待训练模型，基于第一待训练模型和第二待训练模型得到综合学习了背景信息和运动信息的待训练模型，实现了对待训练模型的优化。

也可以对背景损失函数和运动损失函数加权，获得用于优化待训练模型的损失函数，优化的损失函数可用于对待训练模型进行优化，使得待训练模型学习到背景信息和运动信息两方面的信息。

上述方案通过使用背景损失函数和运动损失函数对待训练模型在背景信息和运动信息两个方面进行对比学习，提高待训练模型对于图像的背景信息和作为前景的运动信息的识别精度。例如，现有的自监督学习方法在对一段游泳运动的视频进行学习时，通过特征提取获得的图像特征可能为图像背景的游泳馆，也可能为图像前景的运动员，由于视频本身并没有标注，现有的自监督学习方法可能将图像背景的游泳馆作为识别游泳运动的视频的特征，则经过学习后，可能将所有包含游泳馆的图像均判断为游泳运动，但显然包含游泳馆的图像中并不一定存在游泳运动，相关技术中存在的背景偏差导致了自监督学习的不准确。此外，对于细粒度的运动信息(比如运动员的游泳姿势是蝶泳还是蛙泳)，现有的自监督学习无法进行精细学习。采用本实施例的数据的训练方法，可以将游泳运动的视频的背景信息游泳馆和作为前景的运动员的游泳运动信息分别进行特征提取，并确定背景损失函数和运动损失函数对待训练模型进行优化，使得待训练模型可以识别出包含游泳馆为背景信息，以及前景运动员的运动信息，基于游泳馆的背景信息以及运动员的运动信息，进一步判断是否为需要识别的游泳运动的图像，避免了现有技术中的背景偏差问题。此外，本实施例中，运动损失函数基于图像的运动向量获得，待训练模型可以对运动特征进行精细化学习，提高了对运动特征的识别精度，例如，可以识别出运动员的运动姿势，以识别出蝶泳或者蛙泳的具体类型。

本实施例中，获取待训练模型对样本视频片段进行特征提取得到的第一特征信息；基于第一特征信息和第二特征信息确定背景损失函数，其中，第二特征信息包括样本视频片段中图像的背景特征信息；基于第一特征信息和第三特征信息确定运动损失函数，其中，第三特征信息包括样本视频片段之后的图像的第一运动特征信息；根据背景损失函数和运动损失函数对待训练模型进行优化。通过采用背景损失函数和运动损失函数对待训练模型进行优化，使得待训练模型通过对比学习可以学习到背景信息和运动信息两个方面的信息，避免了现有技术中的训练模型只能学习背景信息，而不关注运动信息引起的背景偏差的情况，改善了视频自监督学习的效果，解决了现有技术中的视频自监督学习容易受到图像背景影响的技术问题。

作为一种可选的实施例，获取待训练模型对样本视频片段进行特征提取得到的第一特征信息，包括：获取目标视频，并从目标视频中随机抽取视频片段，得到样本视频片段；将样本视频片段输入至待训练模型，得到待训练模型输出的第一特征信息，其中，待训练模型为三维的特征提取模型。

目标视频可以为用于抽取样本视频片段的完整视频，目标视频包含多帧图像，样本视频片段为从目标视频的多帧图像中任意抽取的多帧连续图像。例如，目标视频为时长5s、帧率为20bpf的视频，可以将目标视频切割为10段视频片段，10段视频片段中每段视频片段具有10帧图像，样本视频片段可以为10段视频片段中的任意一段，即可以为第1帧至第10帧的图像，也可以为第11帧至20帧的图像。

需要说明的是，目标视频为完整视频时，根据上述对比学习方法，由于不需要对每帧图像进行人工标注，使得可以从互联网直接下载完整视频，使得样本视频片段的获取更加方便，有效利用了海量的互联网资源。

待训练模型为三维的特征提取模型，则上述第一特征信息为三维特征信息，例如，将样本视频片段v_i输入至三维特征提取模型中得到三维的第一特征信息x_i，第一特征信息x_i为：

其中，C1为图像的通道数，T1为图像的时间，H1为图像的高度，W1为图像的宽度，其中，三维特征提取模型可以为C3D网络、ResNet-(2+1)D-26网络(即时间、空间卷积拆分的三维26层ResNet网络)等。

作为一种可选的实施例，在基于第一特征信息和第二特征信息确定背景损失函数之前，方法还包括：获取所第二特征信息，其中，获取第二特征信息的步骤包括：获取目标视频对应的压缩数据；从压缩数据中提取样本视频片段对应的关键帧；通过背景特征提取模型提取关键帧的特征信息，得到第二特征信息，其中，背景特征提取模型为二维特征提取模型。

通过将目标视频转换为压缩数据，可以降低目标视频的数据量，进而减少本申请中用于提取第一特征信息、第二特征信息、第三特征信息以及第一运动特征信息的多个特征提取模型的数据运算量。压缩数据可以为H.264格式或者MPEG-4编码格式等格式。在一种可选的实施例中，压缩数据为MPEG-4编码格式，图5为一种MPEG-4编码格式视频50的示意图，如图5所述，MPEG-4编码格式的视频包含关键帧501、P/B帧502以及残差帧503，在视频解码时，根据关键帧501、P/B帧502以及残差帧503可以恢复出原视频画面。关键帧501表示表示静态的、粗粒度的视频背景信息，关键帧501为从目标视频中包含视频背景信息的图像中提取出的一部分，并不是目标视频中全部的包含视频背景信息的图像。P/B帧502包含从目标视频中包含运动信息的图像所提取出的运动向量，可表示动态的、细粒度的运动信息。在MPEG-4编码格式中，表示视频背景信息的关键帧501和表示运动信息的P/B帧502已经经过解耦处理，因此不需要额外对MPEG-4编码格式的样本视频片段进行解耦处理以获得单独的视频背景信息和运动信息，MPEG-4编码格式的关键帧501可以直接通过二维特征提取模型提取上述第二特征信息。

具体的，根据样本视频片段在目标视频的时间轴中对应的时间，从MPEG-4编码格式视频中提取出样本视频片段事件时间范围内的关键帧，如果存在多个关键帧，则任选其中一帧关键帧，输入至二维的背景特征提取模型，提取出第二特征信息z_i，第二特征信息z_i为二维的特征信息，例如，第二特征信息z_i为：

其中，C2为图像的通道数，H2为图像的高度，W2为图像的宽度。相比于上述三维的第一特征信息x_i，第二特征信息z_i减少了时间的维度。

上述背景特征提取模型可以为ResNet2D-10特征提取模型(即二维10层ResNet网络)。

作为一种可选的实施例，从压缩数据中提取样本视频片段对应的关键帧，包括：从压缩数据中确定目标视频片段的关键帧，其中，目标视频片段的起始帧比样本视频片段的起始帧提前第一预设帧数，目标视频片段的终止帧比样本视频片段的终止帧推后第二预设帧数；从目标视频的关键帧中抽取任意一帧作为样本视频片段对应的关键帧。

目标视频片段为用于提取关键帧的视频片段，由于经过压缩后的样本视频片段减少了包含背景信息的关键帧的数量，样本视频片段中可能没有关键帧，因此，用于提取关键帧的视频片段相比于样本视频片段具有更多的图像。例如，第一预设帧数可以为10帧，第二预设帧数可以为5帧，样本视频片段为完整的视频中的第20帧到第30帧，则目标视频片段的起始帧为完整的视频中的第10帧，目标视频片段的终止帧为完整的视频中第35帧，确定目标视频片段为第10帧至第35帧的图像。

目标视频片段中可能包含一帧关键帧或者多帧关键帧，如果目标视频片段仅包含一帧关键帧，则该帧关键帧确定为样本视频片段对应的关键帧，可用于提取第二特征信息；如果目标视频片段包含多帧关键帧，则从多帧关键帧中任选一帧作为样本视频片段对应的关键帧，例如，目标视频片段为第10帧至第35帧的图像，其中第13帧、第15帧以及第20帧均为关键帧，则样本视频片段对应的关键帧可以为第13帧，也可以为第15帧以及第20帧。如果目标视频片段中不包含关键帧，则通过调整第一预设帧数和第二预设帧数的数据范围，扩大样本视频片段的帧数，以获取到关键帧。

需要说明的是，第一预设帧数和第二预设帧数可根据压缩数据中的图像帧数确定，第一预设帧数和第二预设帧数可以相同，也可以不同，此处不作限定。

作为一种可选的实施例，基于第一特征信息和第二特征信息确定背景损失函数，包括：分别对三维的第一特征信息和二维的第二特征信息进行全局平均池化处理，得到一维第一特征信息和一维第二特征信息；对一维第一特征信息和一维第二特征信息进行单一输出的映射，得到映射后的一维第一特征信息和一维第二特征信息；基于映射后的一维第一特征信息和一维第二特征信息确定第一噪声对比估计损失函数，并确定第一噪声对比估计损失函数为背景损失函数。

全局平均池化处理可通过池化层对特征信息进行降维处理。上述对一维第一特征信息和一维第二特征信息进行单一输出的映射可以通过MLP网络(Multi-LayerPerceptron，多层感知器)实现，多层感知器即为人工神经网络(Artificial NeuralNetwork，ANN)，其结构包括输入层、一个或多个隐层以及输出层组成，每个隐层的输出通过激活函数进行变换。

在一种可选的实施例中，基于图4所示的数据的处理方法的框架，将样本视频片段402输入三维的V-network405提取第一特征信息408，三维的第一特征信息x_i为：

将第一特征信息408输入池化层410进行全局平均池化处理得到降维后的一维第一特征信息413，一维第一特征信息的表达式为：

将背景图像401输入二维的I-网络404提取出第二特征信息407，二维的第二特征信息z_i的表达式为：

将第二特征信息407经池化层409进行全局平均池化处理得到降维后的一维第二特征信息412，一维第二特征信息

的表达式为：

将一维第一特征信息和一维第二特征信息分别输入MLP网络

和MLP网络

得到映射后的一维第一特征信息：

以及映射后的一维第二特征信息：

将一维第一特征信息

和一维第二特征信息

代入第一噪声对比估计损失函数(即InfoNCE损失函数)后得到背景损失函数J_I的表达式可以为：

其中，

为映射后的一维第二特征信息(即z_i所对应的一维特征向量)，

映射后的一维第一特征信息(即xi所对应的一维特征向量)，B表示批处理大小,

表示特征向量

和特征向量

之间的余弦相似度量：

作为一种可选的实施例，在基于第一特征信息和第三特征信息确定运动损失函数之前，方法还包括：获取第三特征信息，其中，获取第三特征信息的步骤包括：提取样本视频片段之后的连续多帧图像的运动向量；基于运动特征提取模型根据运动向量确定第一运动特征信息；确定第一运动特征信息为第三特征信息。

运动向量可以通过对样本视频片段之后的连续多帧图像的前景和背景进行分离，提取出前景中的运动向量。在一种可选的实施例中，当样本视频片段为MPEG-4编码格式的压缩数据时，MPEG-4编码格式中的P/B帧表示从样本视频片段中所提取出的运动向量，将P/B帧从压缩数据格式的样本视频片段中提取出来可获得连续多帧图像的运动向量。

在一种可选的实施例中，基于图4所示的数据的处理方法的框架，运动向量v_i403为从样本视频片段之后的多帧图像中提取得到，M-network406为运动特征提取模型，将连续多帧图像的运动向量v_i输入M-network406提取出三维的第一运动特征信息v_i

v_i∈(C3×T3×H3×W3)；

上述三维的第一运动特征信息v_i则为第三特征信息415。

作为一种可选的实施例，基于第一特征信息和第三特征信息确定运动损失函数，包括：根据样本视频片段的第一特征信息预测未来的第二运动特征信息；基于第二运动特征信息和第三特征信息确定运动损失函数。

未来的第二运动特征信息可以通过将样本视频片段的第一特征信息输入至具有编码-解码器结构的神经网络中预测得到。具有编码-解码器结构的神经网络可以为ConvGRU或Transformer等神经网络。第二运动特征信息所对应的时间应与上述用于提取第一运动特征信息的图像为在视频的时间轴上的时间一致。

在一种可选的实施例中，基于图4所示的数据的处理方法的框架，样本视频片段为在视频的时间轴上的时间为1-T秒之间的多帧图像，将样本视频片段输入至三维视频神经网络中提取得到第一特征信息x_i，三维的第一特征信息x_i为：

将三维的第一特征信息xi输入至编码器-解码器网络411中，预测得到在视频的时间轴上的时间为T+1至T+S秒的图像对应的第二运动特征信息

其中，S可以等于T-1。

将视频中样本视频片段之后T+1至T+S秒的图像输入至三维特征提取模型中提取得到对应的三维的第一运动特征信息v_i：

v_i∈(C3×T3×H3×W3)；

基于第二运动特征信息于和第一运动特征信息确定运动损失函数，对待训练模型进行对比学习，如果第一运动特征信息与第二运动特征信息于在时间和空间均可以对应，则确定为正样本，如果第一运动特征信息与第二运动特征信息于在时间和空间上不一致，则确定为负样本，通过对比学习，使得待训练模型学习到细粒度的运动信息。

作为一种可选的实施例，基于第二运动特征信息和第三特征信息确定运动损失函数，包括：对第二运动特征信息和第三特征信息进行单一的输出映射，得到映射后的第二运动特征信息和第三特征信息；基于映射后的第二运动特征信息和第三特征信息确定第二噪声对比估计损失函数，并确定第二噪声对比估计损失函数为运动损失函数。

上述对第二运动特征信息和第三特征信息进行单一的输出映射可以通过MLP网络实现。基于图4所示的数据的处理方法的框架，将第三特征信息415和第二运动特征信息414输入MLP网络

和MLP网络

对第二运动特征信息进行映射得到映射后的第二运动特征信息：

第三特征信息415为三维的第一运动特征信息v_i，将第一运动特征信息v_i进行映射得到映射后的第一运动特征信息：

将映射后的第二运动特征信息和第三特征信息代入InfoNCE损失函数中得到第二噪声对比估计损失函数为：

其中，

代表

的第j列，

为

的第j列，B表示批处理大小，N＝T3×H3×W3(T为第一特征信息对应的时间、H为第一特征信息对应的高度、W为第一特征信息对应的宽度)，i＝1-B,k＝1-B,j＝1-N，l＝1-N。

作为一种可选的实施例，根据背景损失函数和运动损失函数对待训练模型进行优化，包括：基于预设的超参数通过背景损失函数和运动损失函数构建目标损失函数；求解目标损失函数以对待训练模型进行优化。

目标损失函数为用于对待训练模型进行优化的损失函数，通过将背景损失函数和运动损失函数加权，获得用于优化待训练模型的目标损失函数，使得待训练模型学习到背景信息和运动信息两方面的信息。

例如，目标损失函数J可以为：J＝(1-α)J_I+αJ_M，其中，J_I为背景损失函数，J_M为运动损失函数，α为预设的超参数(即运动预测的权重系数)。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例4

根据本发明实施例，还提供了一种数据的处理方法实施例，图6是根据本发明实施例4的数据的处理方法的流程图，如图6所示，该方法包括如下步骤：

步骤S601，从目标视频中抽取样本视频片段。

样本视频片段为具有多帧图像的视频片段，用于对待训练模型的训练学习。

步骤S602，获取待训练模型对样本视频片段进行特征提取得到的第一特征信息。

待训练模型为需要进行优化的特征提取模型，例如，三维视频神经网络。

步骤S603，获取样本视频片段中图像的背景特征信息。

背景特征信息可以通过将包含背景的一帧图像中的前景和背景进行分离，并对背景信息中的特征进行提取得到背景特征信息，也可以通过将样本视频片段中包含背景的一帧图像，输入图像特征提取模型。

在一种可选的实施例中，将上述样本视频片段输入至三维视频神经网络中提取得到第一特征信息，将任意一帧关键帧输入二维的图像神经网络得到第二特征信息，基于背景损失函数对第一特征信息和第二特征信息进行对比学习，可以将同一个视频通过三维视频神经网络提取的第一特征信息和背景图像通过二维图像神经网络提取第二特征信息的特征拉近，而来自不同视频的第一特征信息和第二特征信息推远，进而使待训练模型学习到背景信息。基于背景损失函数对待训练模型的训练，提高待训练模型对视频的背景信息的识别能力。

步骤S604，获取样本视频片段之后的图像的第一运动特征信息。

第一运动特征信息可以通过将样本视频片段之后包含运动信息的图像，输入三维特征提取模型中提取得到。样本视频片段之后可理解为用于提取第一运动特征信息的图像为在视频的时间轴上，位于样本视频片段所在时间之后的另一段视频片段，例如，样本视频片段为视频中第1帧至第5帧的图像，在视频的时间轴上的时间为1-10秒之间的多帧图像，则用于提取第一运动特征信息的图像为同一视频中第6帧至第10帧的图像视频的时间轴上时间为11-15秒之间的多帧图像。第二运动特征信息可通过将第一特征信息输入具有编码-解码结构的神经网络(例如，ConvGRU或Transformer等神经网络)中预测得到。

上述运动损失函数用于对第一特征信息和第三特征信息进行对比学习，根据运动损失函数可以确定出第一运动特征信息与第二运动特征信息在时间、空间位置相对应的为正样本，第一运动特征信息与第二运动特征信息在时间、空间位置不一致的为负样本，进而使待训练模型学习到运动信息。

步骤S605，基于第一特征信息、背景特征信息和第一运动特征信息对待训练模型进行训练。

背景损失函数和运动损失函数可用于对待训练模型在背景信息和运动信息两个方面进行训练学习，使得待训练模型学习到背景信息和运动信息两方面的信息。

具体的，可以用获得的背景损失函数对待训练模型进行优化，得到学习了背景信息后的第一待训练模型，以及用获得的运动损失函数对待训练模型进行优化，得到学习了运动信息后的第二待训练模型，基于第一待训练模型和第二待训练模型得到综合学习了背景信息和运动信息的待训练模型，实现了对待训练模型的优化。也可以将对背景损失函数和运动损失函数加权，获得用于优化待训练模型的损失函数，优化的损失函数可用于对待训练模型进行优化，使得待训练模型学习到背景信息和运动信息两方面的信息。

本实施例中，通过采用背景损失函数和运动损失函数对待训练模型进行优化，使得待训练模型通过对比学习可以学习到背景信息和运动信息两个方面的信息，避免了现有技术中的训练模型只能学习背景信息，而不关注运动信息引起的背景偏差的情况，改善了视频自监督学习的效果，解决了现有技术中的视频自监督学习容易受到图像背景影响的技术问题。

实施例5

根据本发明实施例，还提供了一种用于实施上述数据的处理方法的装置，图7为根据本申请实施例5的一种数据的处理装置，如图7所示，该装置700包括：

获取模块71，用于获取待训练模型对样本视频片段进行特征提取得到的第一特征信息；第一确定模块72，用于基于第一特征信息和第二特征信息确定背景损失函数，其中，第二特征信息包括样本视频片段中图像的背景特征信息，背景损失函数用于表征第一特征信息与背景特征信息的差异程度；第二确定模块73，用于基于第一特征信息和第三特征信息确定运动损失函数，其中，第三特征信息包括样本视频片段之后的图像的第一运动特征信息，运动损失函数用于表征基于第一特征信息预测的第二运动特征信息与第一运动特征信息之间的差异程度；优化模块74，用于根据背景损失函数和运动损失函数对待训练模型进行优化。

此处需要说明的是，上述获取模块71、第一确定模块72、第二确定模块73和优化模块74对应于实施例3中的步骤S301至步骤S302，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例3所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算设备10中。

作为一种可选的实施例，上述获取模块，包括：抽取子模块，用于获取目标视频，并从目标视频中随机抽取视频片段，得到样本视频片段；第一训练子模块，用于将样本视频片段输入至待训练模型，得到待训练模型输出的第一特征信息，其中，待训练模型为三维特征提取模型。

作为一种可选的实施例，上述装置还包括：第二特征信息获取模块，用于获取所第二特征信息，其中，第二特征信息获取模块包括：压缩数据获取子模块，用于获取目标视频对应的压缩数据；关键帧获取子模块，用于从压缩数据中提取样本视频片段对应的关键帧；第二训练子模块，用于通过背景特征提取模型提取关键帧的特征信息，得到第一第二特征信息，其中，背景特征提取模型为二维特征提取模型。

作为一种可选的实施例，上述关键帧获取子模块，包括：关键帧确定子模块，用于从压缩数据中确定目标视频片段的关键帧，其中，目标视频片段的起始帧比样本视频片段的起始帧提前第一预设帧数，目标视频片段的终止帧比样本视频片段的终止帧推后第二预设帧数；关键帧抽取子模块，用于从目标视频的关键帧中抽取任意一帧作为样本视频片段对应的关键帧。

作为一种可选的实施例，上述第一确定模块，包括：第一池化处理子模块，用于分别对三维的第一特征信息和二维的第二特征信息进行全局平均池化处理，得到一维第一特征信息和一维第二特征信息；第一映射子模块，用于对一维第一特征信息和一维第二特征信息进行单一映射，得到映射后的一维第一特征信息和一维第二特征信息；背景损失函数确定子模块，用于基于映射后的一维第一特征信息和一维第二特征信息确定第一噪声对比估计损失函数，并确定第一噪声对比估计损失函数为背景损失函数。

作为一种可选的实施例，上述装置还包括：第三特征信息获取模块，用于获取第三特征信息，其中，第三特征信息获取模块包括：运动向量提取子模块，用于提取样本视频片段之后的连续多帧图像的运动向量；第一运动特征信息确定子模块，用于基于运动特征提取模型根据运动向量确定第一运动特征信息；第三特征信息确定子模块，用于确定第一运动特征信息为第三特征信息。

作为一种可选的实施例，上述第二确定模块，包括：第二运动特征信息预测子模块，用于根据样本视频片段的第一特征信息预测未来的第二运动特征信息；运动损失函数确定子模块，用于基于第二运动特征信息和第三特征信息确定运动损失函数。

作为一种可选的实施例，运动损失函数确定子模块，包括：第二映射子模块，用于对第二运动特征信息和第三特征信息进行单一映射，得到映射后的第二运动特征信息和第三特征信息；运动损失函数获取子模块，用于基于映射后的第二运动特征信息和第三特征信息确定第二噪声对比估计损失函数，并确定第二噪声对比估计损失函数为运动损失函数。

作为一种可选的实施例，上述优化模块，包括：构建子模块，用于基于预设的超参数通过背景损失函数和运动损失函数构建目标损失函数；求解子模块，用于求解目标损失函数以对待训练模型进行优化。

需要说明的是，本实施例的可选或优选实施方式可以参见实施例1、2和3中的相关描述，此处不再赘述。

实施例6

根据本发明实施例，还提供了一种用于实施上述数据的处理方法的装置，图8为根据本申请实施例6的一种数据的处理装置，如图8所示，该装置800包括：

抽取模块81，用于从目标视频中抽取样本视频片段；第一获取模块82，用于获取待训练模型对样本视频片段进行特征提取得到的第一特征信息；第二获取模块83，用于获取样本视频片段中图像的背景特征信息；第三获取模块84，用于获取样本视频片段之后的图像的第一运动特征信息；训练模块85，用于基于第一特征信息、背景特征信息和第一运动特征信息对待训练模型进行训练。

此处需要说明的是，上述抽取模块81、第一获取模块82、第二获取模块83，第三获取模块84和训练模块85对应于实施例4中的步骤S601至步骤S605，五个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1、2和3所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算设备10中。

实施例7

本发明的实施例还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行视频的处理方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算设备群中的任意一个计算设备中，或者位于移动终端群中的任意一个移动终端中。

可选地，存储介质被设置为存储用于执行以下步骤的程序代码：接收待处理视频；通过视频表征模型对待处理视频进行特征提取，得到待处理视频的视频表征信息，其中，视频表征模型通过对初始模型进行训练得到，初始模型为通过样本数据训练得到的模型，训练任务与样本数据的背景特征信息和运动特征信息相关；输出待处理视频的视频表征信息，其中，视频表征信息中包括待处理视频的背景特征信息和待处理视频的运动特征信息。

可选地，存储介质被设置为存储用于执行以下步骤的程序代码：在输出待处理视频的视频表征信息之后，方法还包括如下至少一项：基于视频表征信息对待处理视频进行视频分类，得到待处理视频的视频标签；基于视频表征信息对待处理视频进行物体检测，得到待处理视频中的目标物体；基于视频表征信息对待处理视频进行物体追踪，得到待处理视频的每帧图像中目标物体所在的位置。

可选地，存储介质被设置为存储用于执行以下步骤的程序代码：获取初始模型，获取初始模型的步骤包括：获取待训练模型的目标损失函数，其中，目标损失函数由背景特征信息和运动特征信息构成；通过求解目标损失函数对待训练模型进行优化，得到初始模型。

可选地，存储介质被设置为存储用于执行以下步骤的程序代码：获取待训练模型的目标损失函数，包括：获取待训练模型对样本视频片段进行特征提取得到的第一特征信息；基于第一特征信息和第二特征信息确定背景损失函数，其中，第二特征信息包括样本视频片段中图像的背景特征信息，背景损失函数用于表征第一特征信息与背景特征信息的差异程度；基于第一特征信息和第三特征信息确定运动损失函数，其中，第三特征信息包括样本视频片段之后的图像的第一运动特征信息，运动损失函数用于表征基于第一特征信息预测的第二运动特征信息与第一运动特征信息之间的差异程度；确定背景损失函数与运动损失函数之和为目标损失函数。根据背景损失函数和运动损失函数对待训练模型进行优化，得到初始模型。

实施例8

根据本申请实施例，还提供了一种计算机终端的实施例，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的视频的处理方法中以下步骤的程序代码：接收待处理视频；通过视频表征模型对待处理视频进行特征提取，得到待处理视频的视频表征信息，其中，视频表征模型通过对初始模型进行训练得到，初始模型为通过样本数据训练得到的模型，监督任务与样本数据的背景特征信息和运动特征信息相关；输出待处理视频的视频表征信息，其中，视频表征信息中包括待处理视频的背景特征信息和待处理视频的运动特征信息。

可选地，图9是根据本申请实施例8的一种计算机终端的结构框图，如图9所示，该计算机终端900可以包括：一个或多个(图中仅示出一个)处理器902、存储器904、以及外设接口906。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的视频的处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频的处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端900。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器用于运行程序，程序运行时执行上述任意一项的数据的处理方法，处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：

接收待处理视频；通过视频表征模型对待处理视频进行特征提取，得到待处理视频的视频表征信息，其中，视频表征模型通过对初始模型进行训练得到，初始模型为通过样本数据训练得到的模型，监督任务与样本数据的背景特征信息和运动特征信息相关；输出待处理视频的视频表征信息，其中，视频表征信息中包括待处理视频的背景特征信息和待处理视频的运动特征信息。

本领域普通技术人员可以理解，图9所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如，计算机终端900还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图9所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例9

根据本申请实施例，还提供了一种数据的训练系统，数据的训练系统包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取待训练模型对样本视频片段进行特征提取得到的第一特征信息；基于第一特征信息和第二特征信息确定背景损失函数，其中，第二特征信息包括样本视频片段中图像的背景特征信息，背景损失函数用于表征第一特征信息与背景特征信息的差异程度；基于第一特征信息和第三特征信息确定运动损失函数，其中，第三特征信息包括样本视频片段之后的图像的第一运动特征信息，运动损失函数用于表征基于第一特征信息预测的第二运动特征信息与第一运动特征信息之间的差异程度；根据背景损失函数和运动损失函数对待训练模型进行优化。

需要说明的是，本实施例的可选或优选实施方式可以参见实施例1至2中的相关描述，此处不再赘述。

实施例10

根据本发明实施例，还提供了一种用于实施上述视频的处理方法的装置，图12为根据本申请实施例10的一种视频的处理装置，如图12所示，该装置1200包括：

第一接收模块1210，用于接收待处理视频；特征提取模块1220，用于通过视频表征模型对待处理视频进行特征提取，得到待处理视频的视频表征信息，其中，视频表征模型通过对初始模型进行训练得到，初始模型为通过样本数据训练得到的模型，训练任务与样本数据的背景特征信息和运动特征信息相关；输出模块1230，用于输出待处理视频的视频表征信息，其中，视频表征信息中包括待处理视频的背景特征信息和待处理视频的运动特征信息。

此处需要说明的是，上述第一接收模块1210、特征提取模块1220和输出模块1230，对应于实施例1中的步骤S201至步骤S203，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1、2和3所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算设备10中。

作为一种可选的实施例，上述装置还包括如下至少一项：分类模块，用于基于视频表征信息对待处理视频进行视频分类，得到待处理视频的视频标签；检测模块，用于基于视频表征信息对待处理视频进行物体检测，得到待处理视频中的目标物体；追踪模块，用于基于视频表征信息对待处理视频进行物体追踪，得到待处理视频的每帧图像中目标物体所在的位置。

作为一种可选的实施例，上述装置还包括：初始模型获取模块，用于获取初始模型，初始模型获取模块包括：目标损失函数获取子模块，用于获取待训练模型的目标损失函数，其中，目标损失函数由背景特征信息和运动特征信息构成；优化子模块，用于通过求解目标损失函数对待训练模型进行优化，得到初始模型。

作为一种可选的实施例，目标损失函数获取子模块包括：第一特征获取子模块，用于获取待训练模型对样本视频片段进行特征提取得到的第一特征信息；背景损失函数确定子模块，用于基于第一特征信息和第二特征信息确定背景损失函数，其中，第二特征信息包括样本视频片段中图像的背景特征信息，背景损失函数用于表征第一特征信息与背景特征信息的差异程度；运动损失函数确定子模块，用于基于第一特征信息和第三特征信息确定运动损失函数，其中，第三特征信息包括样本视频片段之后的图像的第一运动特征信息，运动损失函数用于表征基于第一特征信息预测的第二运动特征信息与第一运动特征信息之间的差异程度；确定子模块，用于确定背景损失函数与运动损失函数之和为目标损失函数。

实施例11

根据本发明实施例，还提供了一种用于实施上述视频的处理方法的装置，图13为根据本申请实施例11的一种视频的处理装置，如图13所示，该装置1300包括：

第二接收模块1310，用于接收待处理视频；第一处理模块1320，用于通过视频处理模型对待处理视频进行处理，得到待处理视频的视频标签，其中，视频处理模型通过对初始模型进行训练得到，初始模型为通过样本数据训练得到的模型，监督任务与样本数据的背景特征信息和运动特征信息相关；第一显示模块1330，用于显示待处理视频的视频标签。

此处需要说明的是，上述第二接收模块1310、处理模块1320和显示模块1330，对应于实施例2中的步骤S1001至步骤S1003，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1、2和3所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算设备10中。

作为一种可选的实施例，上述装置还包括如下至少一项：推荐模块，用于基于待处理视频的标签对待处理视频进行推荐；修改模块，用于显示待处理视频的视频标签，接收视频标签的校对信息，并基于校对信息修改视频标签。

实施例12

根据本发明实施例，还提供了一种数据的处理方法实施例，图14是根据本发明实施例12的数据的训练方法的流程图，如图14所示，该方法包括如下步骤：

步骤S1401，接收直播视频。

上述直播视频为需要进行视频表征以用于下游任务的视频，下游任务可以为基于视频表征所进行的检测识别以及视频打标等。

直播视频可以为各直播平台中的视频或者视频片段。例如，直播视频可以为电商的购物直播视频，其对应的下游任务可以为物体检测以及物体跟踪，以识别出直播视频中的商品，进而进行精准推荐。再例如，直播视频还可以是娱乐直播视频，其对应的下游任务可以为视频打标，通过视频打标确定出视频的类型(体育、美妆、女婴、电影等)，进而对娱乐视频进行精准推荐。

步骤S1402，通过视频处理模型对直播视频进行处理，得到直播视频的视频标签，其中，视频标签用于表示直播视频中的目标对象的产品类型，视频处理模型通过对初始模型进行训练得到，所述初始模型为通过样本数据训练得到的模型，训练任务与样本数据的背景特征信息和运动特征信息相关。

上述视频表征模型为用于对直播视频进行特征提取的特征提取模型，视频表征模型可以为具有卷积层结构的神经网络模型。视频标签用于表示直播视频中的目标对象的产品类型，目标对象的产品类型可以为直播视频中推荐或者演示中的产品，例如，一段商品的购物直播视频可以使用正在推荐的商品的名称作为视频标签。视频表征模型可以通过在上述初始模型的基础上进一步通过监督学习方式训练得到，具体的，可以通过使用增加预设主题标签的样本数据，对上述初始模型进一步进行训练，使得视频表征模型可以对预设主题内容进行特征提取，并将预设主题作为视频标签。

上述初始模型可以为通过样本数据学习训练后得到特征提取模型，初始模型所使用的样本数据为视频片段，在训练过程中，监督信息包括背景特征信息和运动特征信息，也即监督任务既与背景特征信息相关，也与运动特征信息相关，使得初始模型对背景特征信息和运动特征信息都进行了学习，避免现有技术中在对样本数据的学习中出现的背景偏差问题。在一种可选的实施例中，可以获取一段直播视频片段作为样本数据，将直播视频片段中包含背景的一帧图像中的前景和背景进行分离得到背景信息和运动信息，并对背景信息中的特征进行提取得到背景特征信息，对运动信息中的特征进行提取得到运动特征信息，使用背景特征信息和运动特征信息分别对初始模型进行训练，使得初始模型可学习到背景信息和运动信息两方面的信息。上述初始模型还可以使用本申请实施例3中的方式进行训练。

在一种可选的实施例中，直播视频为电商平台上的购物直播视频，购物直播视频中包含直播间背景以及背景中的商品货架，以及主播正在进行讲解的商品。预设主题可以为主播对商品D的讲解和主播对商品E的讲解，通过视频表征模型对购物直播视频进行特征提取，可以识别出主播对商品D的讲解的视频，以及主播对商品E的讲解的视频，分别得到视频标签“商品D”和“商品E”。需要说明的是，由于视频表征模型可以更多的关注到直播视频中的运动信息特征，根据该视频表征模型所提取输出的特征确定的视频标签可以准确的表征出直播视频的内容。在上述购物直播视频的实施例中，由于视频表征模型更关注于运动特征信息，使得视频表征模型准确的将前景中主播正在讲解的商品特征提取出来作为视频标签，避免背景中商品货架上商品造成的影响，可以更准确的表征出直播视频的目标对象的产品类型。

需要说明的是，由于视频处理模型可以提取出直播视频的背景特征信息和运动特征信息，可以基于运动特征信息中内容得到视频标签，进而使得视频处理模型对直播视频表征更准确，例如，在上述电商平台上的购物直播视频的实施例中，视频处理模型可以提取出表征直播间背景及商品货架的背景特征信息，以及表征主播讲解的商品D的运动特征信息，进而得到“商品D”为该视频的标签，避免视频处理模型错误的将背景中商品货架中的商品X特征提取后而将商品X作为该视频的标签。

在同一个直播视频中，可以包含多个视频标签，例如，在上述电商平台上的购物直播视频的实施例中，主播对配合使用的商品D和商品E同时进行讲解时，则可以将“商品D”和“商品E”同时作为直播视频标签。

步骤S1403，显示直播视频的视频标签。

在得到直播视频的视频标签后，可以在直播视频中的目标物体的对应位置显示该视频标签，例如，在上述电商平台上的购物直播视频的实施例中，可以在主播讲解的商品D上显示“商品D”的视频标签。

本实施例中，通过接收直播视频，通过视频处理模型对直播视频进行处理，得到直播视频的视频标签，其中，视频标签用于表示直播视频中的目标对象的产品类型，视频处理模型通过对初始模型进行训练得到，所述初始模型为通过样本数据训练得到的模型，训练任务与样本数据的背景特征信息和运动特征信息相关，实现了视频表征模型可以分别提取出待处理视频中的背景特征信息和运动特征信息，并且视频表征模型在特征提取时更关注运动特征信息，使得视频表征信息中可以包含更多的运动特征信息，进而避免了视频表征模型中在特征提取时易收到直播视频中的背景影响的问题，提高了视频表征模型对视频内容表征的准确程度，解决了现有技术中视频表征模型对视频内容表征不准确的问题。

实施例13

根据本发明实施例，还提供了一种用于实施上述视频的处理方法的装置，图15为根据本申请实施例13的一种视频的处理装置，如图15所示，该装置1500包括：

第三接收模块1510，用于接收直播视频；第二处理模块1520，用于通过视频处理模型对直播视频进行处理，得到直播视频的视频标签，其中，视频标签用于表示直播视频中的目标对象的产品类型，视频处理模型通过对初始模型进行训练得到，所述初始模型为通过样本数据训练得到的模型，训练任务与样本数据的背景特征信息和运动特征信息相关；第二显示模块1530，用于显示直播视频的视频标签。

此处需要说明的是，上述第三接收模块1510、第二处理模块1520和第二显示模块1530，对应于实施例12中的步骤S1401至步骤S1403，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1、2、3和12所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算设备10中。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频的处理方法，其特征在于，包括：

接收待处理视频；

通过视频表征模型对所述待处理视频进行特征提取，得到所述待处理视频的视频表征信息，其中，所述视频表征模型通过对初始模型进行训练得到，所述初始模型为通过样本数据训练得到的模型，训练任务与所述样本数据的背景特征信息和运动特征信息相关；

输出所述待处理视频的视频表征信息，其中，所述视频表征信息中包括所述待处理视频的背景特征信息和所述待处理视频的运动特征信息。

2.根据权利要求1所述的方法，其特征在于，在输出所述待处理视频的视频表征信息之后，所述方法还包括如下至少一项：

基于所述视频表征信息对所述待处理视频进行视频分类，得到所述待处理视频的视频标签；

基于所述视频表征信息对所述待处理视频进行物体检测，得到所述待处理视频中的目标物体；

基于所述视频表征信息对所述待处理视频进行物体追踪，得到所述待处理视频的每帧图像中目标物体所在的位置。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取所述初始模型，获取所述初始模型的步骤包括：

获取待训练模型的目标损失函数，其中，所述目标损失函数由背景特征信息和运动特征信息构成；

通过求解所述目标损失函数对所述待训练模型进行优化，得到所述初始模型。

4.根据权利要求3所述的方法，其特征在于，获取待训练模型的目标损失函数，包括：

获取待训练模型对样本视频片段进行特征提取得到的第一特征信息；

基于所述第一特征信息和第二特征信息确定背景损失函数，其中，所述第二特征信息包括所述样本视频片段中图像的背景特征信息，所述背景损失函数用于表征所述第一特征信息与所述背景特征信息的差异程度；

基于所述第一特征信息和第三特征信息确定运动损失函数，其中，所述第三特征信息包括所述样本视频片段之后的图像的第一运动特征信息，所述运动损失函数用于表征基于所述第一特征信息预测的第二运动特征信息与所述第一运动特征信息之间的差异程度；

确定所述背景损失函数与所述运动损失函数之和为所述目标损失函数。

5.一种视频的处理方法，其特征在于，包括：

接收待处理视频；

通过视频处理模型对所述待处理视频进行处理，得到所述待处理视频的视频标签，其中，所述视频处理模型通过对初始模型进行训练得到，所述初始模型为通过样本数据训练得到的模型，训练任务与所述样本数据的背景特征信息和运动特征信息相关；

显示所述待处理视频的视频标签。

6.根据权利要求5所述的方法，其特征在于，在显示所述待处理视频的视频标签之后，所述方法还包括如下至少一项：

基于所述待处理视频的标签对所述待处理视频进行推荐；

显示所述待处理视频的视频标签，接收所述视频标签的校对信息，并基于所述校对信息修改所述视频标签。

7.一种视频的处理方法，其特征在于，包括：

接收直播视频；

通过视频处理模型对所述直播视频进行处理，得到所述直播视频的视频标签，其中，所述视频标签用于表示所述直播视频中的目标对象的产品类型，所述视频处理模型通过对初始模型进行训练得到，所述初始模型为通过样本数据训练得到的模型，训练任务与所述样本数据的背景特征信息和运动特征信息相关；

显示所述直播视频的视频标签。

8.一种数据的训练方法，其特征在于，包括：

根据所述背景损失函数和所述运动损失函数对所述待训练模型进行优化。

9.根据权利要求8所述的方法，其特征在于，获取所述待训练模型对样本视频片段进行特征提取得到的第一特征信息，包括：

获取目标视频，并从所述目标视频中随机抽取视频片段，得到所述样本视频片段；

将所述样本视频片段输入至所述待训练模型，得到所述待训练模型输出的所述第一特征信息，其中，所述待训练模型为三维的特征提取模型。

10.根据权利要求9所述的方法，其特征在于，在基于所述第一特征信息和第二特征信息确定背景损失函数之前，所述方法还包括：获取所述第二特征信息，其中，获取所述第二特征信息的步骤包括：

获取所述目标视频对应的压缩数据；

从所述压缩数据中提取所述样本视频片段对应的关键帧；

通过背景特征提取模型提取所述关键帧的特征信息，得到所述第二特征信息，其中，所述背景特征提取模型为二维的特征提取模型。

11.根据权利要求10所述的方法，其特征在于，从所述压缩数据中提取所述样本视频片段对应的关键帧，包括：

从所述压缩数据中确定目标视频片段的关键帧，其中，所述目标视频片段的起始帧比所述样本视频片段的起始帧提前第一预设帧数，所述目标视频片段的终止帧比所述样本视频片段的终止帧推后第二预设帧数；

从所述目标视频的关键帧中抽取任意一帧作为所述样本视频片段对应的关键帧。

12.根据权利要求10所述的方法，其特征在于，基于所述第一特征信息和所述第二特征信息确定背景损失函数，包括：

分别对三维的所述第一特征信息和二维的所述第二特征信息进行全局平均池化处理，得到一维第一特征信息和一维第二特征信息；

对所述一维第一特征信息和所述一维第二特征信息进行单一输出的映射，得到映射后的一维第一特征信息和一维第二特征信息；

基于映射后的一维第一特征信息和一维第二特征信息确定第一噪声对比估计损失函数，并确定所述第一噪声对比估计损失函数为所述背景损失函数。

13.根据权利要求8所述的方法，其特征在于，在基于所述第一特征信息和第三特征信息确定运动损失函数之前，所述方法还包括：获取所述第三特征信息，其中，获取所述第三特征信息的步骤包括：

提取所述样本视频片段之后的连续多帧图像的运动向量；

基于运动特征提取模型根据所述运动向量确定所述第一运动特征信息；

确定所述第一运动特征信息为所述第三特征信息。

14.根据权利要求13所述的方法，其特征在于，基于所述第一特征信息和第三特征信息确定运动损失函数，包括：

根据所述样本视频片段的第一特征信息预测未来的第二运动特征信息；

基于所述第二运动特征信息和所述第三特征信息确定所述运动损失函数。

15.根据权利要求14所述的方法，其特征在于，基于所述第二运动特征信息和所述第三特征信息确定所述运动损失函数，包括：

对所述第二运动特征信息和所述第三特征信息进行单一输出的映射，得到映射后的第二运动特征信息和第三特征信息；

基于映射后的第二运动特征信息和第三特征信息确定第二噪声对比估计损失函数，并确定所述第二噪声对比估计损失函数为所述运动损失函数。

16.一种视频的处理装置，其特征在于，包括：

第一接收模块，用于接收待处理视频；

特征提取模块，用于通过视频表征模型对所述待处理视频进行特征提取，得到所述待处理视频的视频表征信息，其中，所述视频表征模型通过对初始模型进行训练得到，所述初始模型为通过样本数据训练得到的模型，训练任务与所述样本数据的背景特征信息和运动特征信息相关；

输出模块，用于输出所述待处理视频的视频表征信息，其中，所述视频表征信息中包括所述待处理视频的背景特征信息和所述待处理视频的运动特征信息。

17.一种视频的处理装置，其特征在于，包括：

第二接收模块，用于接收待处理视频；

第一处理模块，用于通过视频处理模型对所述待处理视频进行处理，得到所述待处理视频的视频标签，其中，所述视频处理模型通过对初始模型进行训练得到，所述初始模型为通过样本数据训练得到的模型，训练任务与所述样本数据的背景特征信息和运动特征信息相关；

第一显示模块，用于显示所述待处理视频的视频标签。

18.一种视频的处理装置，其特征在于，包括：

第三接收模块，用于接收直播视频；

第二处理模块，用于通过视频处理模型对所述直播视频进行处理，得到所述直播视频的视频标签，其中，所述视频标签用于表示所述直播视频中的目标对象的产品类型，所述视频处理模型通过对初始模型进行训练得到，所述初始模型为通过样本数据训练得到的模型，训练任务与所述样本数据的背景特征信息和运动特征信息相关；

第二显示模块，用于显示所述直播视频的视频标签。

19.一种数据的训练装置，其特征在于，包括：

获取模块，用于获取待训练模型对样本视频片段进行特征提取得到的第一特征信息；

第一确定模块，用于基于所述第一特征信息和第二特征信息确定背景损失函数，其中，所述第二特征信息包括所述样本视频片段中图像的背景特征信息，所述背景损失函数用于表征所述第一特征信息与所述背景特征信息的差异程度；

第二确定模块，用于基于所述第一特征信息和第三特征信息确定运动损失函数，其中，所述第三特征信息包括所述样本视频片段之后的图像的第一运动特征信息，所述运动损失函数用于表征基于所述第一特征信息预测的第二运动特征信息与所述第一运动特征信息之间的差异程度；

优化模块，用于根据所述背景损失函数和所述运动损失函数对所述待训练模型进行优化。

20.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至15中任意一项所述的方法。

21.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至15中任意一项所述的方法。

22.一种数据的训练系统，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：获取待训练模型对样本视频片段进行特征提取得到的第一特征信息；基于所述第一特征信息和第二特征信息确定背景损失函数，其中，所述第二特征信息包括所述样本视频片段中图像的背景特征信息，所述背景损失函数用于表征所述第一特征信息与所述背景特征信息的差异程度；基于所述第一特征信息和第三特征信息确定运动损失函数，其中，所述第三特征信息包括所述样本视频片段之后的图像的第一运动特征信息，所述运动损失函数用于表征基于所述第一特征信息预测的第二运动特征信息与所述第一运动特征信息之间的差异程度；根据所述背景损失函数和所述运动损失函数对所述待训练模型进行优化。