CN115171014A

CN115171014A - 视频处理方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN115171014A
Application number: CN202210772188.6A
Authority: CN
Inventors: 胡益珲; 叶振旭; 熊鹏飞; 马锴; 陈宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-10-11
Anticipated expiration: 2042-06-30
Also published as: CN115171014B

Abstract

本申请实施例提供了一种视频处理方法、装置、电子设备及计算机可读存储介质，涉及人工智能、云技术、计算机视觉和多媒体技术领域。该方法包括：通过对待处理视频进行划分，得到至少两个待处理的子视频。基于每个子视频与样本库中的各个种子样本的相似度，确定各子视频与样本库的匹配度；基于各子视频对应的匹配度，确定出各子视频中属于目标类型的候选子视频。通过多任务学习模型，确定每个候选子视频的类型预测结果；基于各候选子视频的类型预测结果，确定出各候选子视频中目标类型的目标子视频。基于各目标子视频中目标类型的视频片段，得到待处理视频对应的目标视频片段。本申请实施例可以快速、精确地确定出待处理视频中的目标视频片段。

Description

视频处理方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及人工智能、云技术、计算机视觉和多媒体技术领域，具体而言，本申请涉及一种视频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

随着视频数量的爆发式增长，包括图像、视频在内的多媒体信息已经成为了人们生活不可或缺的一部分，浏览多媒体信息已经成为大部分互联网用户日常生活的一部分，会占据了用户较长的时间，尤其在观看比较长的视频时，需要耗费较长的时间。

为了更好的满足应用需求，节约用户浏览长视频所需的时间，可以通过从长视频中提取出相对精彩的片段(即精彩片段，highlight，高光片段、高亮片段)，并将确定好的精彩片段提供用户，使得可以通过观看相对精彩的片段获取到整个视频中的主要内容。目前，相关技术中，主要基于确定视频对应的响应度曲线的方式，或者通过对用户对视频的互动数据(例如，基于对视频的分享、点赞、评论等操作产生的数据)进行分析的方式，确定视频中相对精彩的片段。

但基于上述方式，通常依靠视频中的视觉信息来识别精彩片段，难以保证效果，且确定精彩片段的过程需要收集大量的用户数据，用户体验感不好，需要进行改进。

发明内容

本申请实施例提供了一种视频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，以更好的确定出待处理视频中的目标视频片段。

根据本申请实施例的一个方面，提供了一种视频处理方法，该方法包括：

获取待处理视频，通过对该待处理视频进行划分，得到至少两个待处理的子视频；

对于每个子视频，确定该子视频与样本库中的各个种子样本的相似度，基于该子视频对应的各相似度，确定该子视频与样本库的匹配度，其中，样本库中包括目标类型的多个种子样本，每个种子样本是包括图像、视频、文本或音频中的至少一种模态的数据；

基于各子视频对应的匹配度，确定出各子视频中属于目标类型的候选子视频；

对于每个候选子视频，通过训练好的多任务学习模型得到该候选子视频的类型预测结果；

基于各候选子视频的类型预测结果，确定出各候选子视频中目标类型的目标子视频；

对于每个目标子视频，确定该目标子视频中目标类型的视频片段；

基于各目标子视频中目标类型的视频片段，得到待处理视频对应的目标视频片段。

根据本申请实施例的另一个方面，提供了一种视频处理装置，该装置包括：

视频划分模块，用于获取待处理视频，通过对该待处理视频进行划分，得到至少两个待处理的子视频；

匹配度确定模块，用于对于每个子视频，确定该子视频与样本库中的各个种子样本的相似度，基于该子视频对应的各相似度，确定该子视频与样本库的匹配度，其中，样本库中包括目标类型的多个种子样本，每个种子样本是包括图像、视频、文本或音频中的至少一种模态的数据；

候选子视频确定模块，用于基于各子视频对应的匹配度，确定出各子视频中属于目标类型的候选子视频；

类型预测模块，用于对于每个候选子视频，通过训练好的多任务学习模型得到该候选子视频的类型预测结果；

目标子视频确定模块，用于基于各候选子视频的类型预测结果，确定出各候选子视频中目标类型的目标子视频；

目标视频片段模块，用于对于每个目标子视频，确定该目标子视频中目标类型的视频片段；

根据本申请实施例的又一个方面，提供了一种电子设备，该电子设备包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行计算机程序以实现上述方法的步骤。

根据本申请实施例的又一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

根据本申请实施例的又一个方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例提供了一种视频处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品。在该视频处理方法中，通过对待处理视频进行划分，得到至少两个待处理的子视频。分别对各待处理的子视频进行相应的处理，以最终得到目标子视频中的目标类型的视频片段，可以提高数据处理的准确性，避免在直接对长视频进行处理时，由于数据处理量过大，导致数据处理过程出现宕机等情况，导致数据处理错误的情况发生。

具体的，可以先基于各个子视频与样本库的匹配度的方式，初步确定出各子视频中属于目标类型的候选子视频，由于样本库中包括目标类型的多个种子样本，因此，通过结合各子视频的语义信息，确定每个子视频与各种子样本的相似度，并根据每个子视频对应的各相似度，确定每个子视频与样本库的匹配度，基于每个子视频与样本库的匹配度，可以初步出各子视频中属于目标类型的候选子视频，能够有效减少后续通过模型预测的片段数量，加快模型预测速度。之后，对于初步筛选出的候选子视频，可以再通过多任务学习模型对各候选子视频的类型进行预测，更加准确地从各候选子视频中确定出目标类型的目标子视频。本申请实施例提供的该处理方法，实现了以层级筛选的方式，由粗到细地、精确、快速地确定出各子视频中目标类型的目标子视频，进而可以通过基于各目标子视频，可以更加快速、精确地确定出待处理视频对应的目标视频片段，更好地符合实用需求。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1示出了本申请实施例提供的视频数据的层级结构示意图；

图2示出了本申请实施例适用的一种视频处理系统的结构示意图；

图3示出了本申请实施例所适用的场景中视频处理过程的信令交互图；

图4示出了本申请实施例提供的一种镜头边界检测模型的示意图；

图5示出了本申请实施例提供的一种DDCNN V2 cell层的示意图；

图6示出了本申请实施例提供的一种可学习相似性层的示意图；

图7示出了本申请实施例提供的一种确定候选子视频的系统示意图；

图8示出了本申请实施例提供的一种确定类型预测结果的系统示意图；

图9示出了本申请实施例提供的一种transformer模型的示意图；

图10示出了本申请实施例提供的一种多任务学习模型的示意图；

图11示出了本申请实施例提供的一种确定目标类型的视频片段的系统示意图；

图12示出本申请实施例提供的视频处理方法的流程图；

图13示出了本申请实施例提供的视频处理装置的示意图；

图14示出了本申请实施例所适用的一种电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”可以实现为“A”，或者实现为“B”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，结合图1对本申请涉及的术语及相关技术进行说明：

如图1所示，对于一段视频，可以基于组成视频数据的层级结构，自上而下地(从抽象到具体)将视频分为视频、场景、镜头和帧(即图像)，具体地：

帧：视频数据的最小单元，是一幅静止的图像。

镜头/聚类：由相邻的若干帧组成，指图像采集设备在一个连续的时间和空间中拍摄得到的视频序列，是视频序列的基本元素。视频序列中，镜头的边界分为突变和渐变两大类。突变是指由一个镜头直接切换到下一个镜头，发生突变的两帧图像的特征也会发生突变，较易检测。渐变是指在编辑过程中加入空间或时间上的效果，由前一个镜头逐步转换为后一个镜头，不存在明显的镜头边界。

场景：由内容相近的镜头组成，是更高层级内容相关的镜头的聚类，从不同的角度描述同一个事件。

关键帧：用镜头中的一帧或多帧来描述一个镜头，能够去除镜头内的冗余信息，在压缩视频数据的同时反映一个镜头的主要内容。

目前，在依靠视频中的视觉信息来识别精彩片段时，提取视频中的视觉特征的方式主要有以下两大类：第一大类是在长视频上以固定大小的窗口进行滑窗，以此来绘制出响应度曲线，最终根据响应度曲线来裁剪出高响应的区间进行输出。第二类是基于后验信息的方式，通过用户的分享转发数据等进行精彩片段的定位。还有一些方法基于MotionVector(运动矢量)进行帧间变化程度的度量，其中，帧间变化程度越高，越精彩。还有一些方法是基于BGM(background music，背景音乐)的精彩程度进行精彩片段的定位。

但基于上述方式，一方面，通常仅依靠视频中的视觉信息来识别精彩片段，难以保证准确率和召回率。另一方面，一段长视频包含的镜头片段的数量通常包括几百到几千个(量级为百或千)，而需要的正样本片段的数量可能只有几个(量级为个)，导致模型infer的片段数量多，速度慢，结果的精确性也较低。

针对相关技术中所存在的上述至少一个技术问题或需要改善的地方，本申请实施例提供了一种视频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，以精确地确定出待处理视频中的目标视频片段。

本申请实施例提供的视频处理方法，可以基于人工智能(ArtificialIntelligence，AI)技术实现。比如，各候选子视频的类型预测结果可以通过调用训练好的多任务学习模型实现，各子视频的第一目标特征以及各种子样本的第二目标特征可以通过调用训练好的目标特征提取模型实现，初始视频片段的边界检测结果可以通过调用场景边界检测模型实现。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。随着人工智能技术研究和进步，人工智能技术已经在多个领域广泛展开研究和应用，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

上述多任务学习模型、目标特征提取模型以及场景边界检测模型也可以是基于计算机视觉技术(Computer Vision，CV)实现的神经网络模型。其中，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、定位和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例所涉及的视频处理方法也可以基于云技术(Cloud technology)实现，比如，在得到多任务学习模型、目标特征提取模型以及场景边界检测模型的训练过程中所需的数据处理过程可以采用云技术实现，在训练过程中所涉及的数据计算可以采用云计算(Cloud computing)的方式。云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。

需要说明的是，在本申请的可选实施例中，当本申请以上实施例运用到具体产品或技术中时，所涉及到的视频中的对象信息(如视频中出现的用户信息，例如，用户头像、用户昵称等)等相关的数据，需要获得响应对象地许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。也就是说，本申请实施例中，所涉及到与对象有关的数据是在经由对象授权同意、且符合国家和地区的相关法律法规和标准的情况下获取的。

下面通过对几个示例性实施方式的描述，对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是，下述实施方式之间可以相互参考、借鉴或结合，对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等，不再重复描述。

本申请实施例所涉及的视频处理方法可以适用于任何需要对视频进行处理的场景中，可以包括但不限于视频编辑、视频播放、视频推荐的应用场景中，例如，在进行视频编辑的智能创作平台中，预测待处理视频中某种类型的子片段，以通过观看该子片段，获取到待处理视频中的主要信息，实现对待处理视频的预览过程，并基于该预览结果确定是否要观看完整的待处理视频等场景。

为便于理解本申请实施例提供的视频处理方法的应用价值，下面结合一个具体应用场景实施例进行说明。本申请提供的方案可以应用于视频编辑过程中，该方案可以实现为一个视频类(可以包括视频编辑类、视频播放类等)应用程序(application，即APP)、小程序、视频类应用程序中的插件、浏览器等。其中，也可以通过播放视频类应用程序实现视频编辑功能。以通过视频编辑类应用程序为例，通过该应用程序，用户可以通过在终端的搜索页面输入搜索关键词，服务器可以根据用户输入的搜索关键词为用户筛选出与搜索关键词相关的视频，并将该视频中的目标视频片段推荐给用户，终端基于用户对该目标视频片段的进一步编辑操作，发布编辑后的目标视频片段，以使得相应的用户通过浏览该编辑后的目标视频片段，确定是否观看将该编辑后的目标视频片段对应的完整视频内容。

图2示出了本申请实施例适用的一种视频处理系统的结构示意图。如图2所示，该系统20可以包括终端201、应用服务器202和模型训练服务器203，终端201与应用服务器202之间、应用服务器202和模型训练服务器203之间都可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例对此不做限制。

终端201中可以安装视频编辑类APP，用户可以终端201对所获取的待处理视频进行编辑操作，也可以通过终端201将待处理视频发送至应用服务器202，并获取应用服务器202基于待处理视频返回的目标视频片段，进而对该目标视频片段进行编辑操作。可以通过模型训练服务器203进行模型训练操作，训练得到多任务学习模型、目标特征提取模型以及场景边界检测模型等，并将训练得到的各模型发送至应用服务器202或终端201。应用服务器202可以对接收到的各训练好的模型进行部署，并在接收到终端201发送的视频处理请求时，对待处理视频进行处理操作，得到对应的目标视频片段，并将目标视频片段发送至终端201。

该终端201(也可以称为用户终端或用户设备(User Equipment，UE))可以是智能手机、平板电脑、笔记本电脑、台式计算机、可穿戴电子设备(例如智能手表)、车载终端、智能家电(例如智能电视)、AR(Augmented Reality，增强现实)/VR(Virtual Reality，虚拟现实)设备等，但并不局限于此。

对于应用服务器202或模型训练服务器203，可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network，内容分发网络)、以及大数据和人工智能平台等基于云计算服务的云服务器或服务器集群。

本领域技术人员应能理解上述终端或服务器仅为举例，其他现有的或今后可能出现的终端或服务器如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

图3示出了本申请实施例所适用的场景中视频处理过程的信令交互图。图3所示出的信令交互图可以是基于图2示出的视频处理系统进行视频处理过程中产生的。下面结合图2和图3对本申请实施例提出的视频处理方法进行说明。

步骤S31：终端响应于用户发起的针对待处理视频对应的高燃片段的获取请求，将待处理视频发送至应用服务器。

步骤S32：应用服务器响应于上述获取请求，对待处理视频进行以下A操作，得到至少两个待处理的子视频。其中，A操作可以包括以下步骤A1至步骤A5：

步骤A1：按照120fps(Frames Per Second，每秒传输帧数)，将待处理视频拆分成图像序列。

步骤A2：将图像序列中的每帧图像进行压缩处理(即resize操作)，将图像序列中每100帧作为一个片段，并将每个片段中中间的50帧图像形成的图像序列(例如，删除每个片段中前25帧图像和后25帧图像)作为一个初始视频片段。

步骤A3：如图4所示，对于每个初始视频片段(N×48×27×3的图像序列，其中，N为50)，将该初始视频片段输入至基于TransNet V2(Shot Boundary Detection NeuralNetwork，一种镜头边界检测神经网络)实现的场景边界检测模型中，得到该初始视频片段中每帧图像属于边界图像(即镜头边界帧)的概率(即图4中右下角“所有边界帧(即边界图像)预测”的输出结果)。

将该初始片段中属于边界图像的概率大于0.5的图像确定为该初始视频片段的边界图像。如图1所示的虚线框中的帧(即图像)，就是边界图像。

将该初始视频片段中的各边界图像形成的序列确定为该初始视频片段对应的边界图像序列。

步骤A4：对于每个边界图像序列，确定该边界图像序列中相邻的两帧图像的相似度，若这两帧图像的相似度大于或等于0.5(如图7所示，帧间相似度0.5)，根据这两帧图像的颜色、纹理、形状等特征进行图像融合处理(即合并处理)，得到该边界图像序列对应的融合后的边界图像序列。

步骤A5：将各融合后的边界图像序列确定为待处理视频对应的至少两个待处理的子视频(如图7所示，每个子视频的总长度可以为0-5s)。

步骤S33：应用服务器通过执行B操作，确定出各待处理的子视频中属于目标类型的候选子视频。其中，B操作可以具体包括以下步骤B1至步骤B5：

步骤B1：如图7所示，获取种子池子Q(即样本库)，该种子池子中包括精彩类型(即目标类型，可以具体包括高甜类型、高燃类型等子类型，如图7所示，样本库的目标类型为高燃类型)的多个种子样本q，每个种子样本是包括图像、视频、文本或音频中的至少一种模态的数据。

步骤B2：获取训练好的目标特征提取模型(如图8所示的有监督特征提取操作对应的各模型)，该目标特征提取模型包括视频特征提取模型(即图7所示的图像编码器(imageencoder)、图8所示的视频模型)、文本特征提取模型(即图7所示的文本编码器(textencoder)、图8所示的文本模型)和音频特征提取模型(即图7所示的音频编码器(audioencoder)、图8所示的音频模型)。其中，视频特征提取模型用来基于视频(图8所示的帧集合)提取视频特征，视频特征包括视频的RGB信息(其中，RGB表示一种颜色标准，R表示red，红色，G表示green，绿色，B表示blue，蓝色)和时序信息(即基于该视频中每帧图像的时间形成的序列)，在通过视频特征提取模型对图像进行特征提取时，提取到的特征可以包括图像中的RGB信息。文本特征提取模型用来基于文本信息(图8所示的“A菜是历史传统名吃，起源于B地区。最早时期……”)提取文本特征。音频特征提取模型用来基于音频信号(图8所示的音频波形图)提取音频特征。

步骤B3：分别确定每个子视频和每个种子样本的模态，并通过各子视频或种子样本的模态，选择对应的特征提取模型，对每个子视频或种子样本进行特征提取，获取每个子视频的对应于其各模态的数据特征，每个种子样本的对应于其各模态的数据特征。

步骤B4：对于每个子视频，若该子视频与一个种子样本的模态相同，且模态种类数为1，则直接基于该子视频对应的特征提取后的特征和该种子样本对应的特征提取后的特征，确定该子视频与该种子样本的相似度。

否则，通过NextVlad模型(一种神经网络模型，用来把帧级别的特征降维成视频级别的特征)对该子视频对应的各模态的数据特征进行特征对齐，并通过SE模型(Squeeze-and-Excitation Networks，压缩和激励网络)，通过通道注意力机制，将对齐后的特征进行特征融合，得到该子视频的第一融合特征(即图7所示的v1、v2、v3，……，vn中的任意一个第一融合特征)。

基于同样的方式，通过NextVlad模型(一种神经网络模型，用来把帧级别的特征降维成视频级别的特征)对该种子样本对应的各模态的数据特征进行特征对齐，并通过SE模型(Squeeze-and-Excitation Networks，压缩和激励网络)，通过通道注意力机制，将对齐后的特征进行特征融合，得到该种子样本的第二融合特征(即图7所示的q1、q2、q3，……，qn中的任意一个第二融合特征)。

如图7所示，可以通过对第一融合特征和第二融合特征进行点乘操作，基于各组点乘操作的结果，确定该子视频与该种子样本的相似度。

步骤B5：对于每个子视频，基于预设的匹配控制机制，确定各子视频与该样本库的匹配度。例如，如图7所示，该匹配控制机制为第三阈值(即子视频与种子样本的相似度阈值)为0.5，匹配度(即与该子视频的相似度大于或等于第三阈值的种子样本的个数与样本库中种子样本的总个数的比值，即该子视频命中样本库的百分占比Radio)为0.8。

以一个子视频为例，若该子视频对应的匹配度大于或等于0.8，将该子视频确定为属于高燃类型的候选子视频，以此类推，直至确定出各子视频中的所有候选子视频(即图7所示的最终得到的片段集合，类型：高燃，各属于高燃类型的候选子视频的总长度：30-60s)。如图7所示，v1、v2和v3均为候选子视频。

步骤S34：应用服务器通过执行C操作，确定出各候选子视频中高燃类型的目标子视频。其中，对于每个候选子视频，C操作可以具体包括以下步骤C1至步骤C4：

步骤C1：对基于步骤B3得到的该候选子视频对应的各模态的数据特征(即基于图8所示的有监督特征提取操作之后得到的数据特征)进行拼接，得到该候选子视频的第二拼接特征。

步骤C2：通过transformer模型(一种神经网络模型，如图8示出的特征融合操作对应的transformer模型)，对该候选子视频的第二拼接特征中的各特征值进行自注意力机制学习(如图9所示，对Q、K、V的处理)，得到该候选子视频的第三目标特征。

步骤C3：通过transformer模型，确定该候选子视频的第三目标特征以及memorybank(一种存储机制，如图8示出的特征融合操作对应的“memory bank”以及图9示出的存储有各候选子视频的第三目标特征的“memory bank”)中存储的其他候选子视频的第三目标特征之间的相似度，实现全局建模(如图9所示，对Q’、K’、V’的处理)，确定该候选子视频的第二权重，根据该第二权重对第三目标特征进行加权，得到该候选子视频对应的目标融合特征。

步骤C4：将该候选子视频输入至基于MLP(Multilayer Perceptron，多层感知机)实现的多任务学习模型(如图8示出的特征融合操作对应的“多任务学习模型”，以及图10示出的具体模型，其中，如图10所示，对应于任务1可以为“高燃类型”，对应于任务2可以为“高甜模型”，对应于任务3可以为“其他类型”)中，确定该候选子视频分别对应于高甜、高燃和其他类型的概率(如图8所示，当前的候选子视频属于高甜类型的概率为0.1，属于高燃类型的概率为0.7，属于其他类型的概率为0.2)。假设若输入的候选子视频属于高燃类型的概率大于或等于0.5，可以确定该候选子视频为属于高燃类型的目标子视频，则图8示出的候选子视频为目标子视频。

以此类推，直至确定出各候选子视频中的所有目标子视频。

步骤S35：应用服务器通过执行D操作，确定出各目标子视频中目标类型的视频片段。其中，如图11所示，对于每个目标子视频，D操作可以具体包括以下步骤D1至步骤D4：

步骤D1：将基于步骤C1得到的该目标子视频的第二拼接特征输入至mement-DETR模型(一种神经网络模型)中的transformer encoder(变换器编码器)中，即可得到该目标子视频的目标融合特征，其实质处理方式与步骤D2和步骤D3。其中，mement-DETR模型是基于transformer模型实现的。

步骤D2：通过将该目标子视频的目标融合特征输入至与transformer encoder级联的全连接层，确定该目标子视频中每帧图像对应于高燃类型的显著值，基于各帧图像各对应的显著值，可以绘制得到该目标子视频对应的显著性曲线(如图11右下角示出的显著性曲线)。

步骤D3：将包括至少一种目标类型的参考对象的样本对应的目标融合特征以及该目标子视频的目标融合特征，输入至mement-DETR模型中的transformer decoder(变换器解码器)中，得到该目标子视频中包含至少一个参考对象的图像集合(如图11右侧的实线框中的图像)。

步骤D4：基于该目标子视频对应的显著性曲线和该目标子视频中包含至少一个参考对象的图像集合，将该图像集合中重要程度大于或等于第一阈值的图像确定为高燃类型的图像，将该目标子视频中各目标类型的图像确定为该目标子视频中高燃类型的视频片段。

步骤S36：应用服务器将各目标子视频中高燃类型的视频片段，确定为该待处理视频对应的高燃视频片段，并将该高燃视频片段发送至终端。

步骤S37：模型训练服务器分别基于对应于多任务学习模型、目标特征提取模型以及场景边界检测模型等模型的训练数据集，对对应的初始神经网络模型进行训练，得到训练好的多任务学习模型、目标特征提取模型以及场景边界检测模型等模型，并将训练好的各模型发送至应用服务器。

需要说明的是，在图3示出的信令交互图中，步骤S37需要在步骤S32之前执行，但本申请实施例对步骤S37和步骤S31的执行顺序不做限制，可以先执行步骤S37，再执行步骤S31以及步骤S32至步骤S26，也可以先执行步骤S31，再执行步骤S37以及步骤S32至步骤S26。

当然，也可以在需要步骤S37中训练好的任一模型之前，通过步骤S37对相应模型进行训练。例如，可以在执行完步骤C3之后，通过步骤S37训练得到多任务学习模型，再执行步骤C4。

步骤S38：终端可以响应于用户的发布操作，直接发布所接收的目标视频片段。

图12示出本申请实施例提供的视频处理方法的流程图。本申请实施例提供的视频处理方法的执行主体可以是视频处理装置。该视频处理装置可以是任一计算机设备，包括但不限于终端或服务器。该终端可以为上文示出的任意一种终端。该服务器可以是上述示出的独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是基于云计算服务的云服务器或服务器集群。该视频处理方法也可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图12所示，该方法包括：

步骤S121：获取待处理视频，通过对该待处理视频进行划分，得到至少两个待处理的子视频。

在本申请实施例中，对待处理视频的获取方式不做限制，待处理视频可以是通过该终端的图像采集设备进行图像采集获取的，也可以通过对终端用户界面进行屏幕录制操作获取的，也可以是在终端通过网络下载得到的，可以根据实际情况进行获取。

示例性地，图像采集设备可以为终端自带的图像采集设备，也可以为该终端外接的图像采集设备，本申请实施例对此不做限制。该图像采集设备可以包括但不限于摄像头、摄像机、照相机或者其他具有图像采集功能的设备，可以根据实际的情况对图像采集设备进行设置，本申请实施例在此不做限制。

可以通过预配置的划分方式，对待处理视频进行划分以获取待处理的子视频，本申请实施例对预配置的划分方式不做限定。

作为一种可能的实现方式，预配置的划分方式可以为按照预设的时间间隔对待处理视频进行划分以获取待处理的子视频，例如，每隔1分钟，获取一个待处理的图像序列，该待处理的图像序列的时长为1分钟。预配置的划分方式也可以为按照图像数量进行划分，例如，每隔100帧，获取一个待处理的图像序列，该待处理的图像序列中的图像帧数为100帧。

在得到各待处理的图像序列之后，可以直接将每个待处理的图像序列作为一个待处理的子视频。当然，为了减少数据处理量，提高处理效率，也可以通过预配置的抽帧策略对每个待处理的图像序列进行抽帧处理，将每个抽帧处理后的图像序列作为一个待处理的子视频。

对于每个待处理的图像序列，预配置的抽帧策略可以为按照预设时间间隔对待处理的图像序列进行抽帧处理，得到抽帧处理后的图像序列。其中，预设时间间隔可以根据待处理的图像序列的总播放时长或视频所包含的图像的数量确定，本申请对此不做限制。比如，预设时间间隔可以跟待处理的图像序列的总播放时长或待处理的图像序列所包含的图像的数量成正相关。例如，在待处理的图像序列的总播放时长为5分钟时，预设时间间隔可以是5秒。当然，不同的待处理的图像序列对应的预设时间间隔也可以相同。

对于每个待处理的图像序列，预配置的抽帧策略也可以为在待处理的图像序列中抽取关键帧，得到抽帧处理后的图像序列。例如，在待处理的图像序列中的图像帧数为100帧时，可以每隔一帧抽取一次，从而得到帧数为50帧的抽帧处理后的图像序列。也可以对处于该待处理的图像序列中的预设数量个中间图像进行抽取，得到抽帧处理后的图像序列。例如，在待处理的图像序列中的图像帧数为100帧时，可以删除该待处理的图像序列中的前25帧图像和后25帧图像，将该待处理的图像序列的中间50帧图像作为待处理的子视频。

考虑到在一段长视频中，通常会在该视频的中间部分出现高光时刻的视频内容，在本申请实施例中，在得到每个待处理的图像序列后，可以采用对处于该待处理的图像序列中的预设数量个中间图像进行抽取的方式，得到抽帧处理后的图像序列，从而将抽帧处理后的图像序列作为该待处理的图像序列对应的待处理的子视频。

步骤S122：对于每个子视频，确定该子视频与样本库中的各个种子样本的相似度，基于该子视频对应的各相似度，确定该子视频与样本库的匹配度，其中，样本库中包括目标类型的多个种子样本，每个种子样本是包括图像、视频、文本或音频中的至少一种模态的数据。

在该实现方式中，可以通过分别对各子视频以及各种子样本进行特征提取，得到各子视频对应的特征以及各种子样本对应的特征。对于每个子视频，分别确定该子视频对应的特征和每个种子样本对应的特征之间的相似度，从而得到该子视频对应的各相似度。

在得到该子视频对应的各相似度之后，可以设置相似度阈值为0.5，并通过以下任意一种方式确定该子视频与样本库的匹配度：

基于该子视频对应的各相似度中大于或等于相似度阈值的个数(以下简称为第一数量)，确定该子视频与样本库的匹配度；

基于该子视频对应的各相似度中大于或等于相似度阈值的个数(即第一数量)与样本库中种子样本的总个数(以下简称为第二数量)的比值，确定该子视频与样本库的匹配度。

目标类型可以根据实际情况确定，例如，以该目标类型可以为高光(即高亮、精彩)类型为例，可以设置目标类型为高光类型。当然，也可以为对应于高亮类型的具体目标子类型，例如，目标子类型可以为高燃类型、高甜类型等。

步骤S123：基于各子视频对应的匹配度，确定出各子视频中属于目标类型的候选子视频。

在通过该子视频对应的第一数量，确定该子视频与样本库的匹配度，且第二数量为100时，可以设置在第一数量大于或等于80时，该子视频与样本库相匹配，从而将该子视频确定为候选子视频。

在通过第一数量与第二数量的比值，确定该子视频与样本库的匹配度，且第二数量为100时，可以设置比值阈值为0.8，即在第一数量与第二数量的比值大于0.8时，确定该子视频为候选子视频。

步骤S124：对于每个候选子视频，通过训练好的多任务学习模型得到该候选子视频的类型预测结果。

该多任务学习模型可以为二分类模型，也可以为多分类模型，本申请实施例对此不做限制。例如，在仅需要确定各候选子视频是否为高光类型的子视频时，可以选取二分类模型。在需要确定各候选子视频中具体属于哪一种高光类型的子视频时，可以选取多分类模型，例如，在需要确定各候选子视频具体属于高燃类型、高甜类型、非高光类型三种类型时，可以采用图10所示的三分类模型。

在一种可能的实现方式中，上述目标类型包括至少两个子类型，上述样本库中包括每个子类型的种子样本；

上述候选子视频的类型预测结果包括：该候选子视频属于非目标类型的概率以及该候选子视频属于每个子类型的概率；

上述基于各候选子视频的类型预测结果，确定出各候选子视频中目标类型的子视频，包括：

基于每个候选子视频的类型预测结果，确定出各候选子视频中目标类型的目标子视频、以及每个目标子视频对应的子类型；

其中，每个目标子视频中目标类型的视频片段包括：该目标子视频对应的子类型的视频片段；

上述基于各目标子视频中目标类型的视频片段，得到待处理视频对应的目标视频片段，包括：

对于每个子类型，基于各目标子视频中该子类型的视频片段，得到待处理视频中该子类型的目标视频片段。

在样本库中包括至少两个子类型的种子样本的情况下，可以根据实际需求设置每种子类型的种子样本的数量，本申请实施例对此不做限制。

例如，在需要确定的候选子视频的类型具体为高燃类型时，以目标类型可以包括高燃类型和高甜类型两种子类型为例，样本库中高燃类型的种子样本和高甜类型的种子样本的比例可以为7:3。

在基于各候选子视频的类型预测结果，确定各候选子视频中目标类型的子视频是，可以设置每个候选子视频属于目标类型的概率对应的第一概率阈值和每个候选子视频属于每个子类型的概率对应的第二概率阈值。在候选子视频属于目标类型的概率大于或等于第一概率阈值时，确定出该候选子视频为目标子视频。或者，在该候选子视频属于一个目标子类型的概率大于或等于第二概率阈值时，确定出该候选子视频为目标子视频。其中，第一概率阈值和第二概率阈值均为实验值或经验值，也可以根据实际情况进行设置，本申请实施例对此不做限制。

通过对目标类型进行精细划分，划分为至少两个子类型，在获取到每个候选子视频的类型预测结果之后，不仅可以基于每个候选子视频的类型预测结果，确定出各候选子视频中目标类型的目标子视频，还可以进一步确定出每个目标子视频对应的子类型，方便更精确的确定出各目标子视频的类型。

并且，通过基于各目标子视频中该子类型的视频片段，得到待处理视频中该子类型的目标视频片段，也可以实现对待处理视频的进一步划分，得到更加细粒度的目标视频片段。

步骤S125：基于各候选子视频的类型预测结果，确定出各候选子视频中目标类型的目标子视频。

步骤S126：对于每个目标子视频，确定该目标子视频中目标类型的视频片段。

对于每个目标子视频，在具体实施时，可以通过对该目标子视频进行特征提取，并基于该目标子视频对应的特征以及属于目标类型的数据对应的特征确定交叉注意力，确定出该目标子视频中目标类型的图像，基于该目标子视频中目标类型的图像形成的图像序列，得到该目标子视频中目标类型的视频片段。

步骤S127：基于各目标子视频中目标类型的视频片段，得到待处理视频对应的目标视频片段。

在得到各目标子视频片段中目标类型的视频片段，可以直接将各目标类型的视频片段作为该待处理视频对应的目标视频片段，也可以将各目标类型的视频片段进行拼接，将拼接后的视频片段作为该待处理视频对应的目标视频片段。本申请实施例对此不做限制。

在该视频处理方法中，在对待处理视频进行划分，得到至少两个待处理的子视频(通常为几百～几千(量级：百～千)个)之后，通过先基于与样本库的匹配度的方式，初步确定出各子视频中属于目标类型的候选子视频，快速挖掘出至少两个待处理的子视频中潜在的候选子视频(即候选正样本，通常量级为：个～几十)，不仅可以减少模型预测的片段数量，加快模型预测速度，并且还可以通过样本库中各种子样本的丰富的语义信息来补充多任务学习模型无法覆盖到的语义信息，实现对至少两个待处理的子视频中属于目标类型的候选子视频的粗略召回。

通过多任务学习模型对各候选子视频的类型进行预测，确定出各候选子视频中目标类型的目标子视频，可以进一步过滤出各候选子视频中不属于目标类型的子视频，实现以层级筛选的方式，由粗到细地、精确地确定出各子视频中目标类型的目标子视频，实现对各候选子视频中属于目标类型的目标子视频的精细召回。

通过确定各目标子视频中目标类型的视频片段，基于各目标视频中目标类型的视频片段，采用更丰富的语义信息补充多任务学习模型无法覆盖到的语义信息，实现更进一步的过滤掉各目标子视频中不属于目标类型的片段(即假阳例)，使得所得到的目标类型的视频片段更精确，从而有利于更加快速、精确地确定出待处理视频对应的目标视频片段，更好地符合实用需求。

且通过实验数据表明，通过本申请实施例提供的方案，通过仅基于与样本库的匹配度的方式，初步确定出各子视频中属于目标类型的候选子视频，从至少两个待处理的子视频中确定目标视频片段的准确率(precision，即P)从P20％提高到了P60％，召回率(recall，即R)从R23％提高到了R75％，可以看出，大幅提高从至少两个待处理的子视频中确定目标视频片段的召回率。

通过仅通过多任务学习模型对各候选子视频的类型进行预测，确定出各候选子视频中目标类型的目标子视频，从至少两个待处理的子视频中确定目标视频片段的准确率由P60％提高到了P65％，可以看出，大幅提高从至少两个待处理的子视频中确定目标视频片段的准确率。

考虑到在一段视频的高光时刻对应的前后两帧图像，往往伴随着场景切换，对应的，这两帧图像之间的视觉特征(即embedding抽取)会存在较大差异，具体可以体现为这两帧图像的颜色特征、纹理特征以及形状特征等会有很大的不同，基于此，在具体实施时，在对待处理视频进行划分时，可以先确定出待处理视频中出现视觉特征差异较大的两帧图像，并基于所确定出的两帧图像，将该待处理视频划分为对应于不同的场景的待处理的子视频。具体地：

在一种可能的实现方式中，上述通过对待处理视频进行划分，得到至少两个待处理的子视频，可以包括：

对待处理视频进行划分，得到至少两个初始视频片段；

对于每个初始视频片段，对该初始视频片段进行场景边界检测，得到该初始视频片段的边界检测结果，并根据该边界检测结果，得到该初始视频片段对应的边界图像序列；

对于每个边界图像序列，若该边界图像序列中相邻的两帧图像的相似度大于或等于第二阈值，对这两帧图像进行融合处理；

将各融合后的边界图像序列确定为待处理的子视频。

在该实现方式中，可以通过上述预配置的划分方式，获取到至少两个初始视频片段。例如，所得到的初始视频片段中图像数量为50帧。

边界图像即可能会发生场景切换的图像，初始视频片段的边界检测结果可以为该初始视频片段中每帧图像属于边界图像的概率。在实际处理过程中，若该初始视频片段中的一帧图像与其前一帧图像或后一帧图像的视觉特征存在较大差异的概率较大，可以认为该帧图像属于边界图像的概率较大。

当然，也可以通过将该初始视频片段输入至场景边界检测模型中，基于场景边界检测模型，得到各初始视频片段的边界检测结果。具体可以为：

在一种可能的实现方式中，对于每个初始视频片段，上述对该初始视频片段进行场景边界检测，得到该初始视频片段的边界检测结果，包括：

分别对该初始视频片段中的每帧图像进行特征提取，得到每帧图像的图像特征；

获取该初始视频片段中的每帧图像的色度信息；

对于该初始视频片段中的每帧图像，根据该帧图像的图像特征与其他图像的图像特征之间的相似度，确定该图像与其他图像的相似度，其他图像为该视频片段中除该帧图像之外的图像；

根据该初始视频片段中各帧图像的图像特征、色度信息以及各帧图像对应的相似度，确定该初始视频片段的边界检测结果。

在该实现方式中，可以通过任意一种图像特征提取模型，获取每帧图像的图像特征。例如，可以采用图5示出的DDCNN V2 cell模型(Depthwise Disout ConvolutionalNeural Network，深度方向离散卷积神经网络)，获取每帧图像的图像特征。

对于每个初始视频片段中的每帧图像，本申请实施例对确定该图像与其他图像之间的相似度的方式也不做限制，如图6所示，可以通过确定该图像的图像特征与其他图像的图像特征之间的余弦相似度的方式，确定该图像与其他图像之间的相似度。当然，在图6所示的可学习相似性层地示意图中，可以同时直接确定出一个初始视频片段中每帧图像与其他图像之间的相似度。

对于一个初始视频片段中每帧图像，该图像的色度信息可以为该图像的RGB信息。例如，可以通过对该初始视频片段进行RGB信息的提取，确定该初始视频片段对应的RGB像素直方图，基于该RGB像素直方图确定每帧图像对应的色度信息。

为了更好的提取每个初始视频片段的边界检测结果，本申请实施例还提供了图4示出的场景边界检测模型，该场景边界检测模型中包括依次级联的基于三种尺寸(分别为64个过滤器(64filters)、128个过滤器(128filters)和256个过滤器(256filters))的DDCNN V2 cell形成的残差层，在每个残差层之后分别级联一个尺寸为1×2×2的平均池化层(Avg pooling)，平均池化层的输出特征为可学习相似性层(learnable similarities)的输入，RGB直方图相似性层(RGB hist similarities)的输入与第一个残差层的输入相同，在对最后一个平均池化层的输出特征进行扁平化处理(flatten)后，将扁平化处理的输出结果、可学习相似性层的输出结果和RGB直方图相似性层的输出结果输入至全连接层(concat)，全连接层依次与“紧密+ReLU激活(dense+ReLU)”层、梯度下降层(dropout)(例如，如图4所示，该梯度下降层的下降率可以为0.5)级联。梯度下降层分别与进行单个边界图像预测层、进行全部边界图像预测层级联，即既可以实现对单个图像进行场景边界预测，也可以实现同时对全部图像进行场景边界预测。其中，单个边界图像预测层通过级联的dense和sigmoid激活层实现。所有边界图像预测层通过级联的dense和sigmoid激活层实现。

以一个初始视频片段为例，通过将该初始视频片段输入至该场景边界检测模型，可以直接基于进行全部边界图像预测层的输出结果，得到该初始视频片段中每帧图像的边界检测结果。即实现了通过结合初始视频片段中每帧图像的图像特征、色度信息以及各帧图像对应的相似度，确定出该初始视频片段中每帧图像的边界检测结果。在确定出每帧图像的边界检测结果之后，可以将确定该初始视频片段中每帧图像的边界检测结果，作为该初始视频片段的边界检测结果。

其中，图4示出的场景边界检测模型中的DDCNN V2 cell的具体的实现方式可以参见图5示出的模型结构。

需要说明的是，图5示出的DDCNN V2 cell是以包括16个过滤器的DDCNN V2 cell为例进行说明的，在具体实施时，可以通过实际情况确定各层网络层之后的过滤器的个数。

如图5所示，该包括16个过滤器的DDCNN V2 cell是基于将多个顺序连接的相同的网络层分别级联全连接层、4层过滤器、批量归一化层(softmax)和ReLU激活层实现的，其中，每个相同的网络层可以基于Conv 1×3×3的2D空间卷积层之后，依次级联2个过滤器、Conv 1×3×3的1D时间卷积层、1个过滤器形成。即通过将多个相同的网络层输出的特征输入至全连接层，进而通过将全连接层的输出特征输入至4个过滤器，进而对过滤器的输出特征进行批量归一化和ReLU激活，得到该DDCNN V2 cell的输出特征，实现了在得到输入视频特征的3D时空特征的同时保持高效的计算性能的同时，减少模型的过拟合。

图4示出的场景边界检测模型中的可学习相似性层的具体的实现方式可以参见图6示出的模型结构。如图6所示，是在三个平均池化层级联空间平均层(spatial average)、紧密层(dense)、余弦相似度层(cosine sim)、“填充+聚类(pad+gather)”层和“紧密+ReLU激活”层。其中，余弦相似度层，可以通过归一化层(normalize)、转置层(transpose)和矩阵乘层(matrix multiplication)实现，其中，归一化层和转置层的输出特征为矩阵乘层的输入。通过“填充+聚类”层进行数据处理的示例如图6右侧所示，可见，通过“填充+聚类”层进行数据处理之后，可以将相似度较高的特征聚类至特征图的中央区域。

对于一个初始视频片段，可以将该初始视频片段中的各边界图像形成的图像序列，确定为该初始视频片段对应的边界图像序列。

在每个边界图像序列中，两帧相邻图像的相似度越高，可以表示这两帧图像的图像内容越一致，即这些帧属于同一个镜头的概率越大；两帧相邻图像的相似度越低，可以表示这两帧图像的图像内容越不相同，即这些帧属于同一个镜头的概率越低。在帧间相似度特别低时，可以表示发生了镜头切换，即可能会出现场景变换。

在具体实施时，可以将每个边界图像序列中相似度的图像进行合并，即融合处理，例如，可以设置第二阈值为0.5，对于每个边界图像序列中相似度大于或等于第二阈值的相邻的两帧图像，可以基于这两帧图像的视觉特征进行融合。需要说明的是，若第二阈值过大，则可能会漏掉镜头转换，若阈值太小，则可能会引起误检测，即把镜头内摄像机或物体的运动所产生的图像误检测为镜头转换的边界图像。因此，可以即视频类型选择对应的第二阈值，例如，在初始视频片段为针对体育比赛的视频时，由于体育比赛中摄像机运动较多，应选择较大的第二阈值。在初始视频片段为针对新闻节目的视频时，由于新闻节目中主持人的摄像机运动较少，应选择较小的第二阈值。

以基于颜色特征对两帧图像进行融合为例，可以先确定这两帧图像中颜色特征不同的目标区域，将该目标区域中分别对应的颜色特征进行加权，得到该目标区域的新的颜色特征，保持非目标区域的颜色特征为这两帧图像中任一帧图像对应的颜色特征，从而得到融合后的图像。

通过在确定出待处理视频进行划分得到至少两个初始视频片段之后，对每个初始视频片段进行场景边界检测，根据对应的边界检测结果，确定出该初始视频片段对应的边界图像序列。方便更快速的确定出可能会出现高光时刻的图像，实现了对长视频进行场景级别的区间生成，保证了所得到的待处理的子视频中场景的连续和完整。

通过将各边界图像序列中相似度较大的两帧图像进行融合处理，再将融合后的边界图像序列确定为待处理的子视频，可以加快数据处理速度，提高数据处理效率，避免在后续数据处理过程中对相似度较高的图像进行重复处理。

在确定每个子视频与样本库的匹配度时，可以先通过以下方式确定各子视频与样本库中的各个种子样本的相似度：

在一种可能的实现方式中，对于每个子视频，上述确定该子视频与样本库中的各个种子样本的相似度，可以包括：

通过训练好的目标特征提取模型，提取该子视频的第一目标特征以及每个种子样本的第二目标特征；

基于该子视频的第一目标特征与每个种子样本的第二目标特征，确定该子视频与每个种子样本的相似度；

上述对于每个候选子视频，通过训练好的多任务学习模型得到该候选子视频的类型预测结果，可以包括：

对于每个候选子视频，基于该候选子视频的第一目标特征，通过训练好的多任务学习模型得到该候选子视频的类型预测结果。

当然，也可以通过生成式的模型，例如GBDT(Gradient Boosting Decision Tree，梯度提升决策树)，通过对候选子视频的第一目标特征进行选择，确定候选子视频中的目标子视频。

在该实现方式中，为了更精确的提取每个子视频的第一目标特征以及每个种子样本的第二目标特征，可以采取以下方式：

在一种可能的实现方式中，上述目标特征提取模型包括每种模态的数据对应的特征提取模型，上述通过训练好的目标特征提取模型，提取该子视频的第一目标特征以及每个种子样本的第二目标特征，可以包括：

确定该子视频所包含的至少一种模态的第一数据；

对于该子视频的每种模态的第一数据，采用该模态对应的特征提取模型，对该模态的第一数据进行特征提取，得到该模态的第一数据对应的数据特征；

对于每个种子样本，确定该种子样本所包含的至少一种模态的第二数据；

对于每个种子样本的每种模态的第二数据，采用该模态对应的特征提取模型，对该模态的第二数据进行特征提取，得到该模态的第二数据对应的数据特征；

其中，每个子视频的第一目标特征包括：该子视频包含的各种模态的第一数据对应的数据特征，每个种子样本的第二目标特征包括：该种子样本包含的各种模态的第二数据的数据特征。

在该实现方式中，在得到各子视频的第一目标特征之后，可以先对各子视频的第一目标特征进行存储。在确定出每个种子样本的第二目标特征之后，再根据当前的子视频的第一目标特征与每个种子样本的第二目标特征，确定该子视频与每个种子样本的相似度。

如图7所示，图像编码器可以通过CLIP模型(Contrastive Language-Image Pre-training，对比语言图像预训练模型)实现。文本编码器可以通过OCR技术实现，用来对视频或图像的标题以及对应的字母信息进行提取。音频编码器可以通过VGGish网络(基于tensorflow的VGG模型，称为VGGish，支持从音频波形中提取具有语义的128维embedding特征向量，其中，VGG表示一种图像特征提取神经网络，tensorflow表示一种人工智能学习系统)实现。

以对种子样本q1所包含的模态为视频、文本和音频，对该种子样本q1进行特征提取为例，可以通过图像编码器获取到该种子样本q1对应视频模态的图像特征I1(包括该种子样本q1中各图像的RGB信息以及该种子样本q1的时序信息)，可以通过文本编码器获取到该种子样本q1对应文本模态的文本特征T1，可以通过音频编码器获取到该种子样本q1对应音频模态的音频特征A1。

对于每个子视频，通过先确定该子视频所包括的各模态的第一数据，并采用每种模态对应的特征提取模型，对该模态的第一数据进行特征提取，得到该模态的第一数据对应的数据特征，从而将该子视频包含的各种模态的第一数据对应的数据特征作为该子视频的第一目标特征，并基于同样的方式，获取各种子样本的第二目标特征，可以使得所提取的各子视频第一特征和各种子样本的第二特征更加精确，更好地表达对应的数据特征。且通过引入各子视频中的文本信息、语音信息(即音频信息)和图片信息(即视频特征)等，可以从多各维度表达各子视频的特征，提升了各子视频的行为细粒度表达。

由于一个子视频所包含的模态和一个种子样本所包含的模态可能存在差异，若直接基于该子视频的第一目标特征和该种子样本的第二目标特征确定二者的相似度，可能不够准确，为了更准确地确定每个子视频的第一目标特征分别与每个种子样本的相似度，本申请实施例还提供了以下可能的实现方式：

在一种可能的实现方式中，对于每个种子样本，上述基于该子视频的第一目标特征和每个种子样本的第二目标特征，确定该子视频与每个种子样本的相似度，可以包括：

通过以下方式对该子视频的第一目标特征中各模态的第一数据的数据特征进行融合，得到第一融合特征：

对各模态的第一数据的数据特征进行特征对齐，得到特征对齐后的各模态的第一数据的数据特征；将特征对齐后的各模态的第一数据的数据特征进行拼接，得到第一拼接特征，该第一拼接特征包括多个通道的特征；基于通道注意力机制，确定该第一拼接特征中每个通道的特征的权重；根据该第一拼接特征中每个通道的特征的权重，对该第一拼接特征中各通道的特征进行加权，得到第一融合特征；

对每个种子样本的第二目标特征中各模态的第二数据的数据特征进行融合，得到每个种子样本的第二融合特征；

对于每个种子样本，基于该子视频的第一融合特征和该种子样本的第二融合特征之间的相似度，确定该子视频与该种子样本的相似度。

对于每个子视频，可以通过NextVlad模型对该子视频的第一目标特征中各模态的第一数据的数据特征进行特征对齐，得到对齐后的各模态的第一数据的数据特征。

对于每个子视频，可以采用SE模型，通过通道注意力机制，确定该子视频的第一拼接特征中每个通道的特征的权重，对该第一拼接特征中各通道的特征进行加权，得到该子视频的第一融合特征。

在该实现方式中，可以基于确定该子视频的第一目标特征中各模态的第一数据的数据特征进行融合，得到第一融合特征的方式，对各种子样本的第二目标特征中各模态的第二数据的数据特征进行融合，得到各种子样本的第二融合特征。具体地：对于每个种子样本，对该种子样本的第二目标特征中各模态的第二数据的数据特征进行特征对齐，得到特征对齐后的各模态的第二数据的数据特征；将特征对齐后的各模态的第二数据的数据特征进行拼接，得到第二拼接特征，该第二拼接特征包括多个通道的特征；基于通道注意力机制，确定该第二拼接特征中每个通道的特征的权重；根据该第二拼接特征中每个通道的特征的权重，对该第二拼接特征中各通道的特征进行加权，得到第二融合特征。

如图7所示，以对种子样本q1的第二融合特征可以是基于NextVlad模型对该种子样本q1的视频模态的图像特征I1、文本模态的文本特征T1和音频模态的音频特征A1进行特征对齐后，并将特征对齐后的特征进行拼接，得到第二拼接特征之后，采用SE模型通过通道注意力机制，确定第二拼接特征中的各特征值的权重，并根据各特征值的权重进行加权后得到的。

通过采用相同的方式，分别对各子视频的第一目标特征中各模态的第一数据的数据特征进行融合，得到各子视频的第一融合特征；以及对各种子样本的第二目标特征中各模态的第二数据的数据特征进行融合，得到各种子样本的第二融合特征；再基于任意一个子视频的第一融合特征和任意一个种子样本的第二融合特征，确定二者的相似度，可以提高确定二者的相似度的准确性。

在一种可能的实现方式中，对于每个候选子视频，上述基于该候选子视频的第一目标特征，通过训练好的多任务学习模型得到该候选子视频的类型预测结果，可以包括：

对该候选子视频包含的各模态的第一数据对应的数据特征进行融合，得到目标融合特征；

基于该目标融合特征，通过训练好的多任务学习模型得到该候选子视频的类型预测结果。

在该实现方式中，可以采用上述得到第一融合特征的方式，确定目标融合特征。也可以基于其他方式确定目标融合特征，例如，如图8所示，可以基于transformer模型，得到该候选子视频的目标融合特征。具体可以为，基于transformer模型的multi-head机制，基于该候选子视频包含的各模态的第一数据对应的数据特征的位置信息，对各第一数据对应的数据特征进行拼接，并通过transformer模型对拼接后的各模态的数据特征进行自注意力机制的学习，确定各模态的数据特征的权重，从而基于各模态的数据特征的权重，对各模态的数据特征进行加权，得到该候选子视频的目标融合特征。

如前文所记载的，在需要确定候选子视频是否为目标类型时，多任务学习模型可以为二分类模型。在需要确定候选子视频是否为目标类型，且在候选子视频为目标类型时，还需要具体确定该候选子视频属于哪种目标子类型时，对应的多任务学习模型可以为多分类模型。

以该多任务学习模型为二分类模型为例，上述多任务分类学习模型是通过以下方式训练得到的：

获取训练数据集和待训练的初始多分类模型，该训练数据集中包括多个带有标签的样本视频，每个样本视频的标签表征该样本视频的类型为目标类型或非目标类型；

通过上述训练好的目标特征提取模型，提取每个样本视频的目标特征；

基于每个样本视频的目标特征，通过该初始多分类模型，得到每个样本视频的类型预测结果；

根据每个样本视频对应的类型预测结果和标签，确定训练总损失；

若该训练总损失满足训练结束条件，将对应的初始多分类模型确定为上述训练好的多任务学习模型；若该训练总损失不满足该训练结束条件，则调整该初始多分类学习模型的模型参数，并基于各样本视频的目标特征对调整后的初始多分类模型继续进行训练。

训练结束条件可以根据需求配置，可以包括但不限于对应的损失函数收敛、训练总损失小于设定值或者训练次数达到设定次数。其中，该设定值越小，设定次数越多，所得到的训练好的多任务学习模型的精确度越高。

通过上述方式，可以训练得到精确的多任务学习模型。

以该多任务学习模型为多分类模型为例，上述目标类型包括至少两个子类型，上述初始多分类模型包括多个层级的分类模块，每个层级对应一个非目标类型或至少两个子类型中的一个子类型，每个层级的分类模块包括至少一个全连接层，其中，对于除第一个层级的分类模块之外的每个分类模块，该分类模块的输入包括该分类模块的前一个分类模块的输入特征、以及前一个分类模块的最后一个全连接层输出的特征；

上述基于每个样本视频的目标特征，通过初始多分类模型得到每个样本视频的类型预测结果，可以包括：

将每个样本视频的目标特征输入至初始分类模型中的第一个层级的分类模块，分别通过每个分类模块，得到每个样本视频对应于每个子类型的类型预测结果以及非目标类型的类型预测结果；

上述根据每个样本视频对应的类型预测结果和标签，确定训练总损失，包括：

对于每个分类模块，根据每个样本视频对应于该分类模块所对应的子类型的类型预测结果和标签，确定该分类模块对应的训练损失；

基于每个分类模块对应的训练损失，确定训练总损失。

在该实现方式中，可以通过在每个分类模块后级联一个全连接层，通过各分类模块对应的全连接层确定该分类模块对应的子类型的类型预测结果。

每个分类模块对应的训练损失的确定方式可以相同，也可以不同，本申请实施例对此不做限制。可以采用相同的损失函数确定各分类模块对应的训练损失。

在确定各分类模块对应的训练损失之后，本申请实施例对确定训练总损失的方式不做具体限制。例如，可以包括但不限于以下任意一种方式确定训练总损失：

可以基于各分类模块对应的权重，对各分类模块对应的训练损失进行加权，得到训练总损失；

可以基于各分类模块对应的权重，对各分类模块对应的训练损失进行加权后再平均，得到训练总损失；

也可以将各分类模块对应的训练损失的平均值，确定为训练总损失；

也可以直接对各分类模块对应的训练损失进行加和处理，得到训练总损失。

如图10所示，以多任务学习模型为三分类模型为例，任务1、任务2和任务3分别对应一个分类模块。每个分类模块通过级联的一个全连接层和一个归一化层实现。其中，任务2对应的全连接层2的输入包括目标融合特征和全连接层1的输出特征，任务3对应的全连接层3的输入包括全连接层1的输出特征和全连接层2的输出特征。每个分类模块中的归一化层都可以通过softmax层实现。如图8所示，图8示出的输入视频，对应于子类型为高甜类型的概率为0.1，对应于子类型为高燃类型的概率为0.7，对应于其他类型(即非目标类型)的概率为0.2。

在具体训练过程中，可以基于预测结果1和当前的样本视频的标签，以及任务1对应的损失函数得到损失1。基于预测结果2和当前的样本视频的标签，以及任务2对应的损失函数得到损失2。基于预测结果3和当前的样本视频的标签，以及任务3对应的损失函数得到损失3。将损失1、损失2和损失3对应的加权和的平均作为训练总损失。

以确定任务1对应的损失1为例，可以基于任务1对应的损失函数L(θ，x，y)＝-min_θlog p(y|x，θ)，确定损失1。其中，θ表示任务1对应的分类模块的模型参数，x表示预测结果1，y表示当前的样本视频的标签。

为了提高所训练的多任务学习模型的泛化性能，提高训练好的多任务学习模型的适用性，在对多任务学习模型进行训练的过程中，还可以采用FGM(Fast Gradient Method，快速梯度下降)对抗训练，为不同的分类模块对应的损失函数的梯度添加噪声(即，扰动)。

以对任务1对应的分类模块进行训练为例，可以确定该分类模块对应的损失函数的梯度添加噪声

其中，ε为常数，可以根据实际情况确定具体的数值，

得到最终的损失函数为L(θ，x，y)+r_adv(θ，x，y)。

对于每个候选子视频，通过对该候选子视频包含的各模态的第一数据对应的数据特征进行融合，得到目标融合特征，并将该目标融合特征输入至多任务学习模型中，可以得到该候选子视频的类型预测结果。

在一种可能的实现方式中，上述对该候选子视频包含的各模态的第一数据对应的数据特征进行融合，得到目标融合特征，包括：

对该候选子视频包含的各模态的第一数据对应的数据特征进行拼接，得到第二拼接特征，该第二拼接特征包括多个特征值；

根据该第二拼接特征中多个特征值之间的关联性，确定每个特征值对应的第一权重；

基于每个特征值对应的第一权重，对多个特征值进行加权，得到该候选子视频的第三目标特征；

基于该候选子视频与其它子视频之间的关联性，确定该候选子视频的第二权重，其中，其它子视频为各候选子视频中除该候选子视频之外的候选子视频；

基于该候选子视频的第二权重，对该第三目标特征进行加权，得到上述目标融合特征。

在该实现方式中，对于一个候选子视频，可以预设的方式确定该候选子视频包含的各模态的第一数据对应的数据特征的位置信息，例如，可以设置对应于视频模态的数据特征的位置信息为1，对应于文本模态的数据特征的位置信息为2，对应于音频特征的数据特征的位置信息为3。从而基于该候选子视频包含的各模态的第一数据对应的数据特征的位置信息，对该候选子视频包含的各模态的第一数据对应的数据特征进行拼接，得到第二拼接特征。

在具体实施时，可以基于transformer模型分别确定候选子视频的第二拼接特征中多个特征值之间的关联性，以及候选子视频与其它子视频之间的关联性。如图9所示，transformer模型可以基于依次级联的第一个矩阵乘法模块(matmul，即matrixmultiplication的缩写)、尺度变换模块(scale)、掩码模块(mask(opt.)，即对多个特征值中的目标特征值进行掩码处理)、归一化模块(softmax)和第二个矩阵乘法模块实现，其中，第一个矩阵乘法模块和第二个矩阵乘法模块的具体模型参数和输入均不相同。

如图9所示，可以对第二拼接特征进行复制操作，得到三个相同的第二拼接特征，分别作为Q、K、V，将Q、K、V输入至transformer模型中，通过transformer模型，对该第二拼接特征中各特征值进行自注意力机制的学习，根据该第二拼接特征中多个特征值之间的关联性，确定每个特征值对应的第一权重。并基于各特征值对应的第一权重，对各特征值进行加权，得到该候选子视频的第三目标特征Q’。并将该候选子视频的第三目标特征Q’保存至memory bank中。

从memory bank中获取其他候选子视频的第三目标特征，例如，K’和V’，将Q’、K’、V’输入至transformer模型中，通过transformer模型，对该Q’、K’、V’进行较差注意力机制的学习，根据Q’、K’、V’之间的关联性，确定分别对应于Q’、K’、V’的第二权重。并基于Q’对应的第二权重，对Q’进行加权，得到该候选子视频的目标融合特征。

对于每个候选子视频，通过对该候选子视频包含的各模态的第一数据对应的数据特征进行拼接，得到第二拼接特征，根据该第二拼接特征中多个特征值之间的关联性，确定每个特征值对应的第一权重，对多个特征值进行加权，得到该候选子视频的第三目标特征。可以实现对该候选子视频的第二拼接特征的自注意力机制学习，使得第三目标特征能够更好的表达该候选子视频的特征。

通过进一步基于该候选子视频与其它子视频之间的关联性，确定该候选子视频的第二权重，基于该候选子视频的第二权重，对该第三目标特征进行加权，得到该候选子视频的目标融合特征，可以充分考虑该候选子视频与待处理视频对应的其他候选子视频之间的关联性，实现全局建模，使得所确定的目标融合特征能够从整体角度上表达该候选子视频的特征。

在一种可能的实现方式中，对于每个目标子视频，上述确定该目标子视频中目标类型的视频片段，可以包括：

基于该目标子视频对应的目标融合特征，确定该目标子视频中每帧图像的重要程度；

基于至少一种目标类型的参考对象的对象特征和该目标子视频对应的目标融合特征之间的关联性，确定该目标子视频中包含有至少一个参考对象的图像；

将该目标子视频中重要程度大于或等于第一阈值、且包含有至少一个参考对象的图像确定为目标类型的图像；

基于该目标子视频中的目标类型的各图像，得到该目标子视频中目标类型的视频片段。

对于一个目标子视频中的每帧图像的重要程度可以为该帧图像属于目标类型的时刻的概率值，也即显著值、显著分数(saliency score)。

至少一种目标类型的参考对象的对象特征可以为通过对一段视频中属于目标类型的图像以及该图像在该视频中的时刻进行特征提取得到的可训练的向量(momentquery)，在参考对象的对象特征为多个时，对应的可训练的向量集合为moment queries。

在该实现方式中，可以通过对目标子视频中包含参考对象的图像进行标注的方式，例如生成对应的预测边框的方式，确定该目标子视频中包含参考对象的图像。

第一阈值可以为经验值或实验值，可以根据实际情况确定，本申请实施例对此不做限制。例如，可以设置第一阈值为0.5。

基于上述确定目标融合特征的方式，也可以基于transformer模型实现的momentDETR模型，确定出目标子视频中目标类型的视频片段。图11示出了本申请实施例确定目标类型的视频片段的模型示意图。

如图11所示，可以通过将目标子视频输入至转换器编码器(transformerencoder)，得到该目标子视频的目标融合特征，通过对该目标融合特征进行线性变换(linear)，确定该目标子视频中每帧图像的显著值，基于各帧图像的显著值，绘制该目标子视频对应的显著曲线。

通过将该目标融合特征和moment queries输入至转换器解码器(transformerdecoder)，通过transformer decoder确定目标融合特征和moment queries中每个momentquery的交叉注意力，得到特征f。并将该特征f输入至各FFN(Feed Forward Networks，前馈神经网络)，确定该目标子视频中包含参考对象的图像对应的预测边框以及被标注有预测边框的图像的时间戳。对于一帧图像，若该图像中存在预测边框，则覆盖图像为目标类型的图像。

在对上述moment DETR模型进行训练时，可以具体基于预测得到的显著值和各图像的标签，通过铰链损失(Hinge Loss)确定对应的第一损失值，基于该第一损失值与对应的第一训练结束条件，对transformer encoder进行训练。可以基于预测得到的被标注有预测边框的图像的时间戳和真实的时间戳，通过L1+IoU(Intersection over Union，交并比)损失确定对应的第二损失值，基于预测得到的被标注有预测边框的图像和真实的包括参考对象的图像，通过交叉熵损失(cross-entropy loss)确定对应的第三损失值，基于第二损失值、第二损失值与对应的第二训练结束条件，对transformer decoder和各FFN进行训练。

通过上述方式，可以通过端到端的片段精细回归模型，从moment层面对各目标子视频的时间区间进行进一步精细预测，结合上述粗略确定时间区间预测的方式，实现了由粗到细地提升时间区间预测的性能。

基于与本申请实施例提供的视频处理方法相同的原理，本申请实施例中还提供了一种视频处理装置。图13示出了本申请实施例提供的视频处理装置的示意图。如图13所示，该装置130包括：

视频划分模块131，用于获取待处理视频，通过对该待处理视频进行划分，得到至少两个待处理的子视频；

匹配度确定模块132，用于对于每个子视频，确定该子视频与样本库中的各个种子样本的相似度，基于该子视频对应的各相似度，确定该子视频与样本库的匹配度，其中，样本库中包括目标类型的多个种子样本，每个种子样本是包括图像、视频、文本或音频中的至少一种模态的数据；

候选子视频确定模块133，用于基于各子视频对应的匹配度，确定出各子视频中属于目标类型的候选子视频；

类型预测模块134，用于对于每个候选子视频，通过训练好的多任务学习模型得到该候选子视频的类型预测结果；

目标子视频确定模块135，用于基于各候选子视频的类型预测结果，确定出各候选子视频中目标类型的目标子视频；

目标视频片段确定模块136，用于对于每个目标子视频，确定该目标子视频中目标类型的视频片段；

在一种可能的实现方式中，上述匹配度确定模块132在对于每个子视频，确定该子视频与样本库中的各个种子样本的相似度时，可以具体用于：

上述类型预测模块134在对于每个候选子视频，通过训练好的多任务学习模型得到该候选子视频的类型预测结果时，可以具体用于：

在一种可能的实现方式中，上述目标特征提取模型可以包括每种模态的数据对应的特征提取模型，上述匹配度确定模块132在通过训练好的目标特征提取模型，提取该子视频的第一目标特征以及每个种子样本的第二目标特征时，可以具体用于：

确定该子视频所包含的至少一种模态的第一数据；

在一种可能的实现方式中，上述匹配度确定模块132在对于每个种子样本，基于该子视频的第一目标特征和每个种子样本的第二目标特征，确定该子视频与每个种子样本的相似度时，可以具体用于：

在一种可能的实现方式中，上述类型预测模块134在对于每个候选子视频，基于该候选子视频的第一目标特征，通过训练好的多任务学习模型得到该候选子视频的类型预测结果时，可以具体用于：

在一种可能的实现方式中，上述类型预测模块134在对该候选子视频包含的各模态的第一数据对应的数据特征进行融合，得到目标融合特征时，可以具体用于：

在一种可能的实现方式中，上述目标视频片段确定模块136在对于每个目标子视频，确定该目标子视频中目标类型的视频片段时，可以具体用于：

上述目标子视频确定模块135在基于各候选子视频的类型预测结果，确定出各候选子视频中目标类型的子视频时，可以具体用于：

上述目标视频片段确定模块136在基于各目标子视频中目标类型的视频片段，得到待处理视频对应的目标视频片段时，可以具体用于：

在一种可能的实现方式中，上述多任务分类学习模型是通过以下方式训练得到的：

在一种可能的实现方式中，上述目标类型包括至少两个子类型，上述初始多分类模型包括多个层级的分类模块，每个层级对应一个非目标类型或至少两个子类型中的一个子类型，每个层级的分类模块包括至少一个全连接层，其中，对于除第一个层级的分类模块之外的每个分类模块，该分类模块的输入包括该分类模块的前一个分类模块的输入特征、以及前一个分类模块的最后一个全连接层输出的特征；

基于每个分类模块对应的训练损失，确定训练总损失。

在一种可能的实现方式中，上述视频划分模块131在通过对待处理视频进行划分，得到至少两个待处理的子视频时，可以具体用于：

对待处理视频进行划分，得到至少两个初始视频片段；

对于每个边界图像序列，若该所述边界图像序列中相邻的两帧图像的相似度大于或等于第二阈值，对这两帧边界图像进行融合处理；

将各融合后的边界图像序列确定为待处理的子视频。

在一种可能的实现方式中，对于每个初始视频片段，上述视频划分模块131在对该初始视频片段进行场景边界检测，得到该初始视频片段的边界检测结果时，可以具体用于：

获取该初始视频片段中的每帧图像的色度信息；

对于该初始视频片段中的每帧图像，根据该帧图像的图像特征与其他图像的图像特征之间的相似度，确定该帧图像与其他图像的相似度，其他图像为该视频片段中除该帧图像之外的图像；

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

基于与本申请实施例提供的视频处理方法及装置相同的原理，本申请实施例中还提供了一种电子设备(如服务器)，该电子设备可以包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行上述计算机程序以实现本申请任一可选实施例中提供的方法的步骤。

可选地，图14示出了本申请实施例所适用的一种电子设备的结构示意图，如图14所示，图14所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图14中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器4003用于存储执行本申请实施例的计算机程序，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序，以实现前述方法实施例所示的步骤。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种视频处理方法，其特征在于，包括：

获取待处理视频，通过对所述待处理视频进行划分，得到至少两个待处理的子视频；

对于每个所述子视频，确定所述子视频与样本库中的各个种子样本的相似度，基于所述子视频对应的各相似度，确定所述子视频与所述样本库的匹配度，其中，所述样本库中包括目标类型的多个种子样本，每个所述种子样本是包括图像、视频、文本或音频中的至少一种模态的数据；

基于各所述子视频对应的匹配度，确定出各所述子视频中属于目标类型的候选子视频；

对于每个所述候选子视频，通过训练好的多任务学习模型得到所述候选子视频的类型预测结果；

基于各所述候选子视频的类型预测结果，确定出各所述候选子视频中目标类型的目标子视频；

对于每个所述目标子视频，确定所述目标子视频中目标类型的视频片段；

基于各所述目标子视频中目标类型的视频片段，得到所述待处理视频对应的目标视频片段。

2.根据权利要求1所述的方法，其特征在于，所述对于每个所述子视频，确定所述子视频与样本库中的各个种子样本的相似度，包括：

通过训练好的目标特征提取模型，提取所述子视频的第一目标特征以及每个所述种子样本的第二目标特征；

基于所述子视频的第一目标特征与每个所述种子样本的第二目标特征，确定所述子视频与每个所述种子样本的相似度；

所述对于每个所述候选子视频，通过训练好的多任务学习模型得到所述候选子视频的类型预测结果，包括：

对于每个所述候选子视频，基于所述候选子视频的第一目标特征，通过所述训练好的多任务学习模型得到所述候选子视频的类型预测结果。

3.根据权利要求2所述的方法，其特征在于，所述目标特征提取模型包括每种模态的数据对应的特征提取模型，所述通过训练好的目标特征提取模型，提取所述子视频的第一目标特征以及每个所述种子样本的第二目标特征，包括：

确定所述子视频所包含的至少一种模态的第一数据；

对于所述子视频的每种模态的第一数据，采用该模态对应的特征提取模型，对该模态的第一数据进行特征提取，得到该模态的第一数据对应的数据特征；

对于每个所述种子样本，确定所述种子样本所包含的至少一种模态的第二数据；

对于每个所述种子样本的每种模态的第二数据，采用该模态对应的特征提取模型，对该模态的第二数据进行特征提取，得到该模态的第二数据对应的数据特征；

其中，每个所述子视频的第一目标特征包括：所述子视频包含的各种模态的第一数据对应的数据特征，每个所述种子样本的第二目标特征包括：所述种子样本包含的各种模态的第二数据的数据特征。

4.根据权利要求3所述的方法，其特征在于，所述对于每个所述子视频，基于所述子视频的第一目标特征与每个所述种子样本的第二目标特征，确定所述子视频与每个所述种子样本的相似度，包括：

通过以下方式对所述子视频的第一目标特征中各模态的第一数据的数据特征进行融合，得到第一融合特征：

对各模态的第一数据的数据特征进行特征对齐，得到特征对齐后的各模态的第一数据的数据特征；将特征对齐后的各模态的第一数据的数据特征进行拼接，得到第一拼接特征，所述第一拼接特征包括多个通道的特征；基于通道注意力机制，确定所述第一拼接特征中每个通道的特征的权重；根据所述第一拼接特征中每个通道的特征的权重，对所述第一拼接特征中各通道的特征进行加权，得到所述第一融合特征；

对每个所述种子样本的第二目标特征中各模态的第二数据的数据特征进行融合，得到每个所述种子样本的第二融合特征；

对于每个所述种子样本，基于所述子视频的第一融合特征和该种子样本的第二融合特征之间的相似度，确定所述子视频与该种子样本的相似度。

5.根据权利要求3所述的方法，其特征在于，所述对于每个所述候选子视频，基于所述候选子视频的第一目标特征，通过训练好的多任务学习模型得到所述候选子视频的类型预测结果，包括：

对所述候选子视频包含的各模态的第一数据对应的数据特征进行融合，得到目标融合特征；

基于所述目标融合特征，通过所述训练好的多任务学习模型得到所述候选子视频的类型预测结果。

6.根据权利要求5所述的方法，其特征在于，所述对所述候选子视频包含的各模态的第一数据对应的数据特征进行融合，得到目标融合特征，包括：

对所述候选子视频包含的各模态的第一数据对应的数据特征进行拼接，得到第二拼接特征，所述第二拼接特征包括多个特征值；

根据所述第二拼接特征中多个特征值之间的关联性，确定每个所述特征值对应的第一权重；

基于每个所述特征值对应的第一权重，对所述多个特征值进行加权，得到所述候选子视频的第三目标特征；

基于所述候选子视频与其它子视频之间的关联性，确定所述候选子视频的第二权重，其中，所述其它子视频为各所述候选子视频中除所述候选子视频之外的候选子视频；

基于所述候选子视频的第二权重，对所述第三目标特征进行加权，得到所述目标融合特征。

7.根据权利要求5所述的方法，其特征在于，所述对于每个所述目标子视频，确定所述目标子视频中目标类型的视频片段，包括：

基于所述目标子视频对应的目标融合特征，确定所述目标子视频中每帧图像的重要程度；

基于至少一种目标类型的参考对象的对象特征和所述目标子视频对应的目标融合特征之间的关联性，确定所述目标子视频中包含有至少一个参考对象的图像；

将所述目标子视频中重要程度大于或等于第一阈值、且包含有至少一个参考对象的图像确定为目标类型的图像；

基于所述目标子视频中目标类型的各图像，得到所述目标子视频中目标类型的视频片段。

8.根据权利要求2至6中任一项所述的方法，其特征在于，所述目标类型包括至少两个子类型，所述样本库中包括每个所述子类型的种子样本；

所述候选子视频的类型预测结果包括：所述候选子视频属于非目标类型的概率以及所述候选子视频属于每个所述子类型的概率；

所述基于各所述候选子视频的类型预测结果，确定出各所述候选子视频中目标类型的目标子视频，包括：

基于每个所述候选子视频的类型预测结果，确定出各所述候选子视频中目标类型的目标子视频、以及每个所述目标子视频对应的子类型；

其中，每个所述目标子视频中目标类型的视频片段包括：所述目标子视频对应的子类型的视频片段；

所述基于各所述目标子视频中目标类型的视频片段，得到所述待处理视频对应的目标视频片段，包括：

对于每个所述子类型，基于各所述目标子视频中该子类型的视频片段，得到所述待处理视频中该子类型的目标视频片段。

9.根据权利要求2至7中任一项所述的方法，其特征在于，所述多任务学习模型是通过以下方式训练得到的：

获取训练数据集和待训练的初始多分类模型，所述训练数据集中包括多个带有标签的样本视频，每个所述样本视频的标签表征该样本视频的类型为目标类型或非目标类型；

通过所述训练好的目标特征提取模型，提取每个所述样本视频的目标特征；

基于每个所述样本视频的目标特征，通过所述初始多分类模型得到每个所述样本视频的类型预测结果；

根据每个所述样本视频对应的类型预测结果和标签，确定训练总损失；

若所述训练总损失满足训练结束条件，将对应的初始多分类模型确定为所述训练好的多任务学习模型；若所述训练总损失不满足所述训练结束条件，则调整所述初始多分类模型的模型参数，并基于各所述样本视频的目标特征对调整后的初始多分类模型继续进行训练。

10.根据权利要求9所述的方法，其特征在于，所述目标类型包括至少两个子类型，所述初始多分类模型包括多个层级的分类模块，每个所述层级对应一个非目标类型或所述至少两个子类型中的一个子类型，每个层级的分类模块包括至少一个全连接层，其中，对于除第一个层级的分类模块之外的每个分类模块，该分类模块的输入包括该分类模块的前一个分类模块的输入特征、以及前一个分类模块的最后一个全连接层输出的特征；

所述基于每个所述样本视频的目标特征，通过所述初始多分类模型得到每个所述样本视频的类型预测结果，包括：

将每个所述样本视频的目标特征输入至所述初始多分类模型中的第一个层级的分类模块，分别通过每个所述分类模块，得到每个所述样本视频对应于每个子类型的类型预测结果以及所述非目标类型的类型预测结果；

所述根据每个所述样本视频对应的类型预测结果和标签，确定训练总损失，包括：

对于每个所述分类模块，根据每个所述样本视频对应于该分类模块所对应的子类型的类型预测结果和标签，确定该分类模块对应的训练损失；

基于每个所述分类模块对应的训练损失，确定所述训练总损失。

11.根据权利要求1所述的方法，其特征在于，所述通过对所述待处理视频进行划分，得到至少两个待处理的子视频，包括：

对所述待处理视频进行划分，得到至少两个初始视频片段；

对于每个所述初始视频片段，对所述初始视频片段进行场景边界检测，得到所述初始视频片段的边界检测结果，并根据边界检测结果，得到所述初始视频片段对应的边界图像序列；

对于每个所述边界图像序列，若所述边界图像序列中相邻的两帧图像的相似度大于或等于第二阈值，对所述两帧图像进行融合处理；

将各融合后的边界图像序列确定为待处理的子视频。

12.根据权利要求11所述的方法，其特征在于，对于每个所述初始视频片段，所述对所述初始视频片段进行场景边界检测，得到所述初始视频片段的边界检测结果，包括：

分别对所述初始视频片段中的每帧图像进行特征提取，得到每帧图像的图像特征；

获取所述初始视频片段中的每帧图像的色度信息；

对于所述初始视频片段中的每帧图像，根据该帧图像的图像特征与其他图像的图像特征之间的相似度，确定该帧图像与其他图像的相似度，所述其他图像为所述初始视频片段中除该帧图像之外的图像；

根据所述初始视频片段中的各帧图像的图像特征、色度信息以及所述各帧图像对应的相似度，确定所述初始视频片段的边界检测结果。

13.一种视频处理装置，其特征在于，包括：

视频划分模块，用于获取待处理视频，通过对所述待处理视频进行划分，得到至少两个待处理的子视频；

匹配度确定模块，用于对于每个所述子视频，确定所述子视频与样本库中的各个种子样本的相似度，基于所述子视频对应的各相似度，确定所述子视频与所述样本库的匹配度，其中，所述样本库中包括目标类型的多个种子样本，每个所述种子样本是包括图像、视频、文本或音频中的至少一种模态的数据；

候选子视频确定模块，用于基于各所述子视频对应的匹配度，确定出各所述子视频中属于目标类型的候选子视频；

类型预测模块，用于对于每个所述候选子视频，通过训练好的多任务学习模型得到所述候选子视频的类型预测结果；

目标子视频确定模块，用于基于各所述候选子视频的类型预测结果，确定出各所述候选子视频中目标类型的目标子视频；

目标视频片段模块，用于对于每个所述目标子视频，确定所述目标子视频中目标类型的视频片段；以及

14.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-12任一项所述方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-12任一项所述方法的步骤。

16.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-12任一项所述方法的步骤。