CN113766268A

CN113766268A - 视频处理方法、装置、电子设备和可读介质

Info

Publication number: CN113766268A
Application number: CN202111310627.3A
Authority: CN
Inventors: 赵黎明; 孙思洋; 郑赟; 潘攀
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2021-12-07
Anticipated expiration: 2041-11-08
Also published as: CN113766268B

Abstract

本申请提供了一种视频处理方法、装置、电子设备和可读介质，涉及网络技术领域。所述方法包括：提供交互页面，交互页面包括视频上传控件；依据对视频上传控件的触发，获取至少一种视频相关数据；至少一种视频相关数据包括目标视频数据；从至少一种视频相关数据中，确定用于过滤的至少两种模态的筛选数据，并依据至少两种模态的筛选数据对目标视频数据中的视频帧进行过滤，获得待拆条视频；基于预训练的视频拆分模型中的至少两个子拆分模型，分别获取待拆条视频的视频特征；其中，不同的子拆分模型获取的视频特征不完全相同；基于视频特征，将待拆条视频拆分为视频片段。这样，一定程度上可以提高视频拆分效率以及准确性。

Description

视频处理方法、装置、电子设备和可读介质

技术领域

本申请涉及网络技术领域，特别是涉及一种视频处理方法、装置、电子设备和可读介质。

背景技术

目前，为了提高视频的利用率，经常需要将视频拆分为多个视频片段。例如，针对直播产生的直播视频，由于直播视频持续的时间往往很长，无法直接投放使用。因此，需要将直播视频拆分为用于体现多种结构化内容的视频片段，以利用视频片段对直播中所展示的对象进行展示。相关技术中，针对任一种类的结构化内容，往往是利用该种结构化内容对应的单一视频拆分模型直接对整个视频进行拆分。这种方式中，拆分效率及准确性较低。

发明内容

鉴于上述问题，本申请实施例提供一种视频处理方法、装置、电子设备和可读介质，以解决拆分效率及准确性较低的问题。

为了解决上述问题，本申请实施例公开了一种视频处理方法，包括：

提供交互页面，所述交互页面包括视频上传控件；

依据对所述视频上传控件的触发，获取至少一种视频相关数据；所述至少一种视频相关数据包括目标视频数据；

从所述至少一种视频相关数据中，确定用于过滤的至少两种模态的筛选数据，并依据至少两种模态的所述筛选数据对所述目标视频数据中的视频帧进行过滤，获得待拆条视频；

基于预训练的视频拆分模型中的至少两个子拆分模型，分别获取所述待拆条视频的视频特征；其中，不同的子拆分模型获取的视频特征不完全相同；

基于所述视频特征，将所述待拆条视频拆分为视频片段。

本申请实施例还公开了一种视频处理方法，包括：

获取展示对象推荐视频；所述展示对象推荐视频中展示有至少一个展示对象；

从所述展示对象推荐视频中，确定用于过滤的至少两种模态的筛选数据，并依据至少两种模态的所述筛选数据对所述展示对象推荐视频中的视频帧进行过滤，获得待拆条视频；

基于所述视频特征，将所述待拆条视频拆分为视频片段并对所述视频片段进行投放；其中，不同的视频片段展示不同的展示对象。

本申请实施例还公开了一种视频处理方法，应用于客户端，包括：

显示交互页面，所述交互页面包括视频上传控件；

依据对所述视频上传控件的触发，获取至少一种视频相关数据并发送至服务端；所述至少一种视频相关数据包括目标视频数据；所述视频相关数据供所述服务端从所述至少一种视频相关数据中，确定用于过滤的至少两种模态的筛选数据，并依据至少两种模态的所述筛选数据对所述目标视频数据中的视频帧进行过滤，获得待拆条视频，基于预训练的视频拆分模型中的至少两个子拆分模型，分别获取所述待拆条视频的视频特征；以及基于所述视频特征，将所述待拆条视频拆分为视频片段；其中，不同的子拆分模型获取的视频特征不完全相同；

接收所述视频片段并在所述交互页面中展示。

本申请实施例还公开了一种视频处理方法，应用于服务端，包括：

接收客户端通过交互页面发送的至少一种视频相关数据；所述至少一种视频相关数据包括目标视频数据；

基于所述视频特征，将所述待拆条视频拆分为视频片段；

将所述视频片段发送至所述客户端以在所述交互页面中展示。

本申请实施例还公开了一种视频处理装置，包括：

提供模块，用于提供交互页面，所述交互页面包括视频上传控件；

第一获取模块，用于依据对所述视频上传控件的触发，获取至少一种视频相关数据；所述至少一种视频相关数据包括目标视频数据；

过滤模块，用于从所述至少一种视频相关数据中，确定用于过滤的至少两种模态的筛选数据，并依据至少两种模态的所述筛选数据对所述目标视频数据中的视频帧进行过滤，获得待拆条视频；

第二获取模块，用于基于预训练的视频拆分模型中的至少两个子拆分模型，分别获取所述待拆条视频的视频特征；其中，不同的子拆分模型获取的视频特征不完全相同；

拆分模块，用于基于所述视频特征，将所述待拆条视频拆分为视频片段。

本申请实施例还公开了一种视频处理装置，包括：

第一获取模块，用于获取展示对象推荐视频；所述展示对象推荐视频中展示有至少一个展示对象；

过滤模块，用于从所述展示对象推荐视频中，确定用于过滤的至少两种模态的筛选数据，并依据至少两种模态的所述筛选数据对所述展示对象推荐视频中的视频帧进行过滤，获得待拆条视频；

投放模块，用于基于所述视频特征，将所述待拆条视频拆分为视频片段并对所述视频片段进行投放；其中，不同的视频片段展示不同的展示对象。

相应的，本申请实施例还公开了一种装置，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述装置执行上述方法。

本申请实施例还公开了一种电子设备包括：处理器和存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行上述方法。

相应的，本申请实施例还公开了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行上述方法。

本申请实施例包括以下优点：

本申请实施例包括：提供交互页面，交互页面包括视频上传控件；依据对视频上传控件的触发，获取至少一种视频相关数据；至少一种视频相关数据包括目标视频数据；从至少一种视频相关数据中，确定用于过滤的至少两种模态的筛选数据，并依据至少两种模态的筛选数据对目标视频数据中的视频帧进行过滤，获得待拆条视频；基于预训练的视频拆分模型中的至少两个子拆分模型，分别获取待拆条视频的视频特征；其中，不同的子拆分模型获取的视频特征不完全相同；基于视频特征，将待拆条视频拆分为视频片段。通过在进行视频拆分之前，先依据至少两种模态的筛选数据对目标视频数据中的视频帧进行过滤。这样，在进行视频拆分时，一定程度上可以降低视频拆分操作的处理量以及视频拆分操作时的干扰，进而提高视频拆分效率以及准确性。

附图说明

图1A是本申请一实施例提供的一种应用场景示意图；

图1B是本申请一实施例提供的另一种应用场景示意图；

图1C是本申请一实施例提供的再一种应用场景示意图；

图1D是本申请一实施例提供的一种直播示意图；

图1E是本申请一实施例提供的又一种应用场景示意图；

图1F是本申请一实施例提供的又一种应用场景示意图；

图1G是本申请一实施例提供的一种视频处理平台的实现架构图；

图2是本申请一实施例提供的一种视频处理方法的步骤流程图；

图3是本申请一实施例提供的一种多模态过滤模块的处理流程图；

图4是本申请一实施例提供的一种视频帧的视频特征的融合流程图；

图5是本申请一实施例提供的一种视频处理框架的处理流程图；

图6是本申请一实施例提供的另一种视频处理方法的步骤流程图；

图7是本申请一实施例提供的一种视频处理装置的结构图；

图8是本申请另一实施例提供的一种装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

为使本领域技术人员更好地理解本申请，以下对本申请涉及的概念进行说明：

目标视频数据：未经处理的需要拆分为视频片段的视频。

视频所展示对象：用于指示视频拍摄时的被拍摄主体。例如，直播时所介绍的商品、影视作品拍摄时所拍摄的主演，等等。

冗余视频帧：指的是内容重复度高于预设重复度阈值的视频帧。

多模态过滤：指的是利用不同模态下的信息对视频进行过滤的操作。

视频拆分模型：又可以称为视频拆条模型、视频拆条算法。可以用于将视频拆分为多个包含结构化标签的视频片段。

结构化内容：指的是按照预设的结构化体系生成的标签。又可以称为结构化标签、结构化信息。

计算单元：具备计算处理能力，使用对应的指令集、体系架构进行处理的硬件。不同类型的计算单元使用不同类型的指令集和体系架构。

异构计算：将不同类型的计算单元组成系统的计算方式。

下面对本申请涉及的应用场景进行说明。参照图1A，示出了本申请实施例的一种应用场景示意图，具体来说，过滤和拆分的过程可以在客户端进行，也可以在服务端进行，具体可以依据需求进行配置，图1A中以在服务端完成过滤和拆分的过程为例进行描述，如图1A所示，本申请实施例的视频处理过程涉及客户端和服务端。客户端可以提供包括视频上传控件的交互页面，图1A中以“上传”按钮表示视频上传控件。用户可以通过“新增”或“删除”按钮添加视频相关数据，或者删除已添加的视频相关数据。用户还可以通过提供的“取消”按钮，取消本次操作。图1A中以“视频1”以及“文本1”表示已添加的视频相关数据。最后，可以通过触发“上传”按钮将视频相关数据发送给服务端。服务端可以依据至少两种模态的筛选数据对目标视频数据中的视频帧进行多模态过滤，获得待拆条视频。基于预训练的视频拆分模型中的至少两个子拆分模型，分别获取待拆条视频的视频特征。以及基于视频特征，将待拆条视频拆分为视频片段，并将视频片段发送给客户端。客户端可以在交互界面中展示接收到的视频片段。这样，通过在进行视频拆分之前，先依据至少两种模态的筛选数据对目标视频数据中的视频帧进行过滤，一定程度上可以降低视频拆分操作的处理量以及视频拆分操作时的干扰，进而提高视频拆分效率以及准确性。进一步地，图1B中以在客户端完成过滤和拆分的过程为例进行描述，如图1B所示，可以先基于交互页面上传视频相关数据给客户端本地，然后在客户端本地完成过滤以及拆分之后，展示视频片段。

进一步地，以电商直播场景为例，在电商直播场景中，往往会通过直播向用户推荐商品。而一场直播视频往往持续几小时至数十小时，因此，对于整场直播视频是无法直接进行投放的，通常需要对直播视频中包含直播相关商品的片段进行拆分，产出多种视频片段，也就是产生短视频，从而进行投放。在短视频生产过程中，通常需要设计多种视频拆分模型对直播视频进行处理，以产出包含不同种类结构化内容的视频片段。相关技术中往往是直接将整个视频作为单一视频拆分算法的输入，对全部视频进行逐帧处理，最终得到视频拆分结果。这样，会使得处理速度往往较慢。参照图1C，示出了本申请实施例的再一种应用场景示意图。在该场景中，主播可以使用终端设备S110执行步骤1.1：进行直播。相应地，在主播使用终端设备S110进行直播的过程中可以产生直播视频。参照图1D，示出了本申请实施例的一种直播示意图，可以采集该直播间在直播时产生的视频数据。终端设备可以执行步骤1.2，以将录制的直播视频发送给视频处理平台S120。具体的，终端设备可以为上述客户端，终端设备可以在主播完成直播，得到完整直播视频的情况下，将直播视频发送给视频处理平台S120。或者，也可以在直播过程中周期性的将该周期内获取到的直播流发送给视频处理平台S120，本申请对此不作限制。

视频处理平台S120可以由多台计算设备组成。例如，可以由多台服务器组成（图1C中仅示出其中一台）。视频处理平台S120中可以部署有预训练的视频拆分模型，视频拆分模型可以由至少两个子拆分模型组成。不同子拆分模型可以部署在视频处理平台S120中不同类型的计算单元上。示例的，假设视频拆分模型A包括子拆分模型a1以及子拆分模型a2，那么子拆分模型a1可以部署在处理器（Central Processing Unit / Processor，CPU），子拆分模型a2可以部署在图形处理器(Graphics Processing Unit，GPU)。视频处理平台S120可以执行步骤1.3，从而在过滤之后基于视频拆分模型中的至少两个子拆分模型进行异构计算，来实现视频片段拆分，得到视频片段合集。

具体的，视频处理平台S120在收到直播视频之后，可以根据直播视频获取待拆分的待拆条视频。例如，从直播视频中确定用于过滤的至少两种模态的筛选数据，并依据至少两种模态的筛选数据对直播视频中的视频帧，过滤直播视频中的无效视频帧和/或冗余视频帧，将过滤后的直播视频作为待拆条视频。其中，无效视频帧可以为与视频所展示商品的相关性不符合第一相关性要求的视频帧。本申请中，仅保留直播视频中与所介绍商品相关的重要部分，过滤掉相关性较低或冗余的不必要视频帧。这样，一定程度上可以避免浪费计算资源，处理时长过长，处理效率低下的问题，在确保能够为视频拆分模型提供有效信息的同时，降低视频拆分模型的处理量，进而提高视频拆分的效率。同时，使用部署在不同类型的计算单元上的至少两个子拆分模型，对过滤后的视频进行处理，可以充分有效的利用不同类型的计算单元，为视频拆分模型提供更充足的处理资源，从而以较低实现成本提高处理速度。进一步地，还可以避免受限于计算资源，导致不能同时容纳更多算法模型的问题。

以主播通过直播向观众进行商品介绍为例。参照图1E，示出了本申请实施例的又一种应用场景示意图。在该场景中，视频拆分模型可以具体用于将直播视频按照所介绍的商品拆分为用于对不同商品进行介绍的视频片段，不同视频片段对应介绍的商品可以不同。具体的，可以基于步骤2.1、2.2以及2.3将直播视频拆分为多个视频片段。接着，视频处理平台S220可以执行步骤2.4将拆分得到的视频片段发送给商品管理平台S230。商品管理平台S230可以用于对购物平台中的商品进行发布、更新、下架等管理操作。

具体的，在收到视频片段之后，商品管理平台S230可以执行步骤2.5，以将视频片段作为该视频片段所展示商品的展示信息，将该视频片段投放至购物平台中。具体的，商品管理平台S230可以是响应于用户终端发送的投放指令，执行投放操作。其中，展示信息可以为商品的展示栏中的信息、详情介绍中的信息，等等。示例的，假设视频片段1用于对“手机”进行介绍，视频片段2用于对“电脑”进行介绍，那么可以将视频片段1作为该“手机”的展示视频投放至购物平台中，将视频片段2作为该“电脑”的展示视频投放至购物平台中。这样，通过将拆分得到的视频片段进一步投放至购物平台中，可以提高视频资源的利用率。

在另一种应用场景中，也可以将拆分得到的视频片段发送给对应的商品提供方。例如，可以将视频片段1发送给提供视频片段1中所展示商品1的商品提供方1，将视频片段N发送给提供视频片段N中所展示商品N的商品提供方N。需要说明的是，不同视频片段中所展示商品的商品提供方可以相同，相应地，一个商品提供方可以收到多个视频片段。进一步地，商品提供方可以将视频片段投放至视频推广平台。具体的，商品提供方可以是响应于用户终端发送的投放指令，执行投放操作。其中，视频推广平台可以为支持以视频形式发布内容的社交/娱乐平台。这样，通过将拆分得到的视频片段进一步投放至视频推广平台中，基于视频片段进行商品推广，可以进一步提高视频资源的利用率。

参照图1F，示出了本申请实施例的又一种应用场景示意图。在该场景中，终端设备S410可以执行步骤4.1，提供包括视频上传控件的交互页面。用户可以执行步骤4.2，以触发该交互页面中的视频上传控件，例如，用户可以通过点击、长按等操作实现触发。进一步地，在检测到视频上传控件被触发的情况下，终端设备S410可以执行步骤4.3，以从视频资源平台S420中获取视频资源。其中，该视频资源可以是影视视频、教学视频、会议视频等视频资源，或者，也可以是直播视频资源。当然，在另一实现场景中，终端设备S410也可以是依据对视频上传控件的触发，从终端设备本地获取视频资源。进一步地，终端设备S410可以执行步骤4.4，以将获取到的视频资源上传至服务端。在该应用场景中，服务端可以为视频处理平台S430。相应地，视频处理平台S430可以执行步骤4.5以及4.6，以将接收到的视频资源拆分为多个视频片段并返回给终端设备S410。示例的，视频处理平台S430可以按照所出现的演员将视频拆分为对应不同演员的多个视频片段，不同视频片段对应出现的演员不同。最后，可以将视频片段返回给终端设备S410。终端设备S410可以接收视频片段并执行步骤4.7，以进行展示，从而方便用户进行投放。示例的，用户可以将吸引力较高的演员所出现的视频片段，投放至影视视频的介绍首页中，从而提高该视频资源的点击率。

进一步地，参照图1G，示出了本申请实施例的一种视频处理平台的实现架构图。该实现架构中，视频处理平台中可以部署有多个视频拆分模型，每个视频拆分模型可以均由至少两个子拆分模型组成（图1G中以视频拆分模型由2个子拆分模型组成进行示意）。视频拆分模型的子拆分模型可以分别部署在CPU计算单元以及部署在GPU计算单元，以充分利用视频处理平台中的CPU资源以及GPU资源。相较于相关技术中，仅基于部署在GPU计算单元的单一视频拆分模型进行视频拆分的方式，本申请中以多个子拆分模型的形式，充分利用多种类型的计算单元，一定程度上可以避免仅利用单一类型的计算单元进行计算，导致的资源不足、资源抢占问题，从而确保模型的处理速度，提高处理精度。同时，多种视频拆条算法均部署在GPU计算单元中的方式，在多种拆条算法并发运行时会导致GPU资源不足，处理阻塞在等待GPU计算资源的情况下，进而导致运行速度减慢的问题。本申请中，通过进一步充分利用CPU计算单元，可以避免CPU计算资源浪费，同时，一定程度上还可以在确保运行速度同时，减少GPU计算单元的使用，从而提高整体处理速度及效率。

进一步地，不同视频拆分模型可以用于按照不同方式将视频拆分为视频片段。示例的，视频拆分模型可以包括用于按照所介绍商品进行拆分的商品检测模型、用于按照场景进行拆分的分类模型、用于按照人物进行拆分的人物姿态（Pose）模型以及用于拆分出问答片段的自然语言处理(Natural Language Processing, NLP)语言模型。其中，模型所拆分的视频片段中携带的结构化标签的种类可以不同。示例的，商品检测模型最终产出的视频片段中携带的结构化标签可以包括商品信息标签。人物姿态模型最终产出的视频片段中携带的结构化标签可以包括人体姿态标签、行为动作标签以及人物信息标签。分类模型最终产出的视频片段中携带的结构化标签可以包括场景信息标签。NLP语言模型最终产出的视频片段中携带的结构化标签可以包括字幕信息标签以及问答信息标签。这样，基于视频处理平台中部署的多个视频拆分模型，可以产出不同内容的视频片段，例如，产出商品介绍、主播动作展示、互动问答等内容的多种视频片段，确保最终得到的视频片段的丰富性。同时，将多个视频拆分模型集成在同一视频处理平台，由于视频处理平台中的多个视频拆分模型可以复用多模态过滤模型过滤后得到的待拆条视频，从而一定程度上可以避免执行重复过滤操作，导致处理时长增加的问题。

下面对本申请涉及的视频处理方法进行详细说明。参照图2，示出了本申请的一种视频处理方法的步骤流程图。该方法具体可以包括如下步骤：

步骤101，提供交互页面，所述交互页面包括视频上传控件。

步骤102，依据对所述视频上传控件的触发，获取至少一种视频相关数据；所述至少一种视频相关数据包括目标视频数据。

本申请实施例中，交互页面中的视频上传控件可以为按钮，对视频上传控件的触发可以包括对该视频上传控件的单击操作、双击操作、长按操作，等等。相应地，可以通过接收用户上传的视频相关数据，从而实现获取。进一步地，目标视频数据可以对应需要进行拆分的视频。示例的，目标视频数据可以包括直播时产生的直播视频、视频会议中产生的会议视频、教学视频、提前录制好的影视剧、电影，等等。

步骤103，从所述至少一种视频相关数据中，确定用于过滤的至少两种模态的筛选数据，并依据至少两种模态的所述筛选数据对所述目标视频数据中的视频帧进行过滤，获得待拆条视频。

本申请实施例中，在产生目标视频数据的过程中可能会导致目标视频数据中包括与视频所需展示对象无关或者相关性较低的部分。例如，直播过程中可能会出现静音、噪音以及主播进行闲聊等情况，相应地，最终得到的直播视频数据中就会出现静音、噪音以及闲聊等与商品介绍无关的无效视频帧。同样的，目标视频数据中也可能会包括内容相似度较高甚至内容相同的冗余视频帧。例如，直播过程中出现卡顿，进而导致连续多个视频帧的内容相同。如果进行视频拆分时，对这部分视频帧进行处理，就会导致处理资源浪费，从而使得处理速度变慢，处理效率降低。同时，由于无效视频帧的存在，会为视频拆分过程造成干扰，从而导致视频拆分的准确性较低。因此，本步骤中可以先对目标视频数据中的视频帧进行过滤，从而一定程度上降低视频拆分模型的处理量以及拆分时的干扰，进一步提高视频拆分的效率以及准确性。进一步地，基于至少两种模态的筛选数据进行过滤，这样，可以为过滤操作从不同角度提供更丰富的信息，从而一定程度上可以确保过滤效果。

步骤104，基于预训练的视频拆分模型中的至少两个子拆分模型，分别获取所述待拆条视频的视频特征；不同的子拆分模型获取的视频特征不完全相同。

本申请实施例中，一个视频拆分模型包括的子拆分模型的具体数量可以根据实际需求设置。示例的，一个视频拆分模型可以包括两个子拆分模型。子拆分模型从视频帧中提取特征的处理逻辑可以相同，不同子拆分模型处理的待拆条视频中的视频帧可以不同，本申请中待拆条视频的视频特征可以包括待拆条视频中视频帧的视频特征，视频帧的视频特征又可以称为帧特征，可以由子拆分模型分别提取待拆条视频中部分视频帧的视频特征。相应地，由于不同视频帧之间的内容存在差异，且不同子拆分模型的处理能力存在差异，因此，不同的子拆分模型获取的视频特征可以存在差异，也就是说，不同的子拆分模型获取的视频特征可以不完全相同。

步骤105，基于所述视频特征，将所述待拆条视频拆分为视频片段。

本申请实施例中，子拆分模型可以包括：输入层-特征提取层-拆分层-输出层。其中，拆分层可以包括卷积层以及全连接层，子拆分模型可以基于特征提取层提取输入层所输入的视频帧的特征。在本步骤中，可以基于一个或多个子拆分模型中的拆分层，根据视频特征将待拆条视频拆分为视频片段。

综上所述，本申请实施例提供的一种视频处理方法，通过在进行视频拆分之前，先依据至少两种模态的筛选数据对目标视频数据中的视频帧进行过滤。这样，在进行视频拆分时，一定程度上可以降低视频拆分操作的处理量以及视频拆分操作时的干扰，进而提高视频拆分效率以及准确性。

可选的，至少两个子拆分模型可以部署在不同类型的计算单元。这样，通过使用部署在不同类型的计算单元的至少两个子拆分模型，对过滤后的视频进行处理，可以充分有效的利用不同类型的计算单元，为视频处理提供更充足的处理资源，进而一定程度上可以进一步提高处理速度，从而进一步提高处理效率。

可选的，上述从所述至少一种视频相关数据中，确定用于过滤的至少两种模态的筛选数据的步骤，可以具体包括：

子步骤S21，获取所述目标视频数据的第一视频画面信息以及第一音频信息。

本步骤中，可以获取目标视频数据中包括的视频帧，以作为第一视频画面信息。具体的，可以将各视频帧中像素点的像素值、颜色信息或纹理信息等等作为第一视频画面信息。进一步地，可以提取目标视频数据中携带的音频数据，以作为第一音频信息。第一音频信息可以包括目标视频数据中视频帧各自对应的音频部分。

上述依据至少两种模态的所述筛选数据对所述目标视频数据中的视频帧进行过滤的步骤，可以具体包括：

子步骤S22，根据所述第一音频信息确定所述目标视频数据中的无效视频帧，并过滤所述无效视频帧，以及根据所述第一视频画面信息，过滤所述目标视频数据中的冗余视频帧。本申请实施例中，无效视频帧可以包括与视频所展示对象的相关性不符合第一相关性要求的视频帧。本步骤中可以先过滤目标视频数据中相关性不符合第一相关性要求的无效视频帧，然后对剩余的视频帧过滤冗余视频帧。其中，第一相关性要求可以是根据实际需求设置的，本申请对此不作限制。这样，通过过滤目标视频数据中的无效视频帧以及冗余视频帧，可以降低视频拆分模型的处理量以及拆分干扰，进一步提高视频拆分的效率以及准确性。进一步地，上述子步骤S22可以具体包括：子步骤S221，根据所述第一音频信息，确定所述目标视频数据中目标片段中与所述对象的相关性符合所述第一相关性要求的片段时长，以作为有效时长。所述目标片段为指定时长的片段；

其中，指定时长可以是根据实际需求设置的，示例的，指定时长可以为10分钟。本申请中，可以先按照视频帧的时间戳，将每10分钟内的视频帧切分为一个视频窗口。一个视频窗口可以表征一个指定时长的目标片段。接着，对于任意一个视频窗口，可以检测该视频窗口中与上述对象的相关性符合第一相关性要求的有效内容的时长，从而得到有效时长。当然，也可以仅针对部分目标片段进行检测，本申请对此不作限制。本申请实施例中，采用固定的指定时长将目标视频数据划分为多个指定时长的目标片段进行过滤，一定程度上可以确保过滤环节中切分操作的便捷性。同时，将目标视频数据切分为多个视频窗口，可以支持并行计算，从而一定程度上可以确保过滤效率。当然，也可以是按照时间顺序，以视频窗口为处理单元，逐个处理视频窗口，本申请对此不作限制。

子步骤S222，若所述有效时长与所述指定时长的比值小于预设比值阈值，将所述目标片段中的视频帧确定为所述无效视频帧，并进行过滤。

本申请实施例中，第一相关性要求可以包括视频帧所处目标片段内有效时长的占比不低于预设比值阈值。相应地，如果该目标片段中的有效时长与指定时长的比值小于预设比值阈值，则可以认为该目标片段中的所有视频帧与视频所展示对象的相关性均不符合第一相关性要求，该目标片段中的视频帧为无效视频帧，进而可以直接过滤掉该目标片段中的视频帧。示例的，可以将该目标片段中的全部视频帧均作为无效视频帧进行过滤，也可以将该目标片段中的部分视频帧作为无效视频帧进行过滤。其中，预设比值阈值可以根据实际需求设置，示例的，预设比值阈值可以为50%，或者，也可以为60%，本申请对此不作限制。相较于逐帧过滤的方式，本申请实施例中以视频窗口为处理单元，在满足过滤条件时，可以一次性过滤掉当前视频窗口中包括的所有视频帧，进而一定程度上可以确保过滤效率。

子步骤S223，若所述比值不小于所述预设比值阈值，根据所述第一视频画面信息确定所述目标片段中视频帧之间的相似度，并基于所述相似度过滤所述目标片段中的冗余视频帧。

进一步地，如果该目标片段中的有效时长与指定时长的比值不小于预设比值阈值，则可以认为目标片段中的视频帧与视频所展示对象的相关性均符合第一相关性要求。进一步地，可以进一步过滤冗余的视频帧。示例的，可以先对该目标片段进行视频解码，然后采用感知哈希算法，根据目标片段中连续两个视频帧各自对应的第一视频画面信息进行相似度计算。示例的，可以根据这两个视频帧对应的第一视频画面信息中像素点的像素值计算相似度。如果相似度大于预设相似度阈值，则可以确定当前帧为冗余视频帧，进而可以过滤当前帧。这样，一定程度上可以将视频中静止部分、纯背景部分的相似视频帧进行过滤。进一步地，如果相似度不大于预设相似度阈值，可以保留当前帧，从而实现根据视频画面模态下的信息对片段进一步精简。在完成过滤之后，剩余的片段即可组成待拆条视频。

本申请实施例中，以指定时长的片段为过滤操作的处理单元，确定目标片段中与对象的相关性符合第一相关性要求的有效时长。在有效时长与指定时长的比值小于预设比值阈值的情况下，直接将目标片段中的视频帧确定为无效视频帧进行过滤，进而一定程度上可以确保过滤效率。在比值不小于预设比值阈值的情况下，会基于目标片段中视频帧之间的相似度，进一步过滤片段中的冗余视频帧，从而更大程度的降低后续视频拆分模型的处理量，从而提高处理速度。

可选的，上述根据所述第一音频信息，确定所述目标视频数据中目标片段中与所述对象的相关性符合所述第一相关性要求的片段时长，以作为有效时长的步骤，具体可以包括：

子步骤S221a，识别所述第一音频信息中所述目标片段的音频信息对应的文本信息中子句所属的文本类别。

本申请实施例中，可以先进行音频解码，以提取第一音频信息中该目标片段中的音频信息。然后将音频信息转换为文本信息。示例的，可以利用预设的语音转文本模型，例如，“transformer”模型，将音频信息转化为文本信息。其中，文本信息可以包括子句，一个子句即为文本中的一个句子。

进一步地，可以将子句作为预设的文本分类模型的输入，以获取子句所属的文本类别。其中，该预设文本分类模型可以用于将子句分类至预设类别，预设类别可以根据实际需求定义。示例的，预设类别可以包括：“描述-产品材料”、“描述-生产方式”、“描述-外观设计”、“描述-适用人群”、“描述-适用场合”、“描述-功能效果”、“描述-使用方法”、“描述-购买尺寸”、“描述-如何搭配”、“描述-使用周期”、“营销-引导操作”、“营销-性价比介绍”、“营销-购买营销”、“闲扯-商品引导话术”以及“闲扯-闲聊”。相应地，可以预先为样本视频中的目标片段所对应的文本信息中的子句定义对应的预设类别标签，以structBert模型作为基础模型，进行模型训练，进而得到文本分类模型。

子步骤S221b，过滤所属的文本类别为指定类别的子句；所述指定类别与所述对象的相关性不符合第二相关性要求。

本申请实施例中，指定类别可以为上述预设类别中的部分类别，示例的，将指定类别设置为“闲扯-闲聊”以及“营销”类预设类别，如果类别为“闲扯-闲聊”或者“营销”类，则可以认为这些类别与所展示对象的相关性不符合第二相关性要求。相应地，可以过滤掉对应的类别为“闲扯-闲聊”或者“营销”类的子句，进而一定程度上可以确保最终确定的有效时长能够较为准确的表征该片段中有效内容的时长，从而确保过滤操作的准确性。

子步骤S221c，根据剩余的子句确定所述有效时长。

示例的，可以根据剩余的子句在片段中所对应部分的播放时间，确定有效时长。

本申请实施例中，识别第一音频信息中目标片段的音频信息对应的文本信息中子句对应的文本类别。然后，过滤对应的文本类别为指定类别的子句，指定类别与对象的相关性不符合第二相关性要求。最后，根据剩余的子句确定有效时长。这样，通过先剔除与所展示对象相关性较低的子句，基于剩余的子句确定有效时长，一定程度上可以避免与所展示对象相关性较低部分对有效时长的干扰，从而确保有效时长的准确性。

同时，本申请实施例中，基于音频模态下的音频信息确定有效时长，先基于有效时长的占比，确定是否要过滤目标片段。如果不需要的情况下，进一步结合视频图像模态下的视频画面信息，进行冗余视频帧过滤。这样，通过提取视频中音频和视频图像的多模态信息，通过多模态过滤操作，对目标视频数据中的无意义片段和冗余部分进行过滤，一定程度上可以确保过滤效果。

可选的，上述根据剩余的子句确定所述有效时长的操作，可以具体包括：

子步骤S221c1，将对应的播放时间之间的间隔小于预设间隔阈值的子句合并至同一子段。

具体的，可以先确定剩余的子句在该片段中所对应部分的播放时间。示例的，可以将子句对应的语音所对应的视频帧序列的开始时间及结束时间作为该子句对应的播放时间。子句的开始时间与上一子句的结束时间之间的间隔即为对应的播放时间之间的间隔。相应地，如果该间隔小于预设间隔阈值，则可以将这些子句合并为子段。其中，预设间隔阈值可以根据实际情况设置，示例的，预设间隔阈值可以为5秒。

子步骤S221c2，过滤在所述目标片段中对应的持续时长小于预设时长阈值的子段。

本申请实施例中，可以先统计子段中子句的开始时间和结束时间，然后根据统计到的时间确定该子段中子句对应的最小开始时间以及最大结束时间，将最小开始时间与最大结束时间之间的时间间隔作为该子段在片段中对应的持续时长。进一步地，可以检测该子段在片段中对应的持续时长是否小于预设时长阈值。如果小于预设时长阈值，则可以认为该子段过短，该子段在片段中对应的视频内容不足以传达出完整的信息，进而可以将该子段过滤掉。

子步骤S221c3，将剩余的子段对应的持续时长之和，确定为所述有效时长。

本步骤中，可以先计算剩余的子段对应的持续时长之和，然后将计算得到的和值作为有效时长。本申请实施例中，将对应的播放时间之间的间隔小于预设间隔阈值的子句合并至同一子段。过滤在目标片段中对应的持续时长小于预设时长阈值的子段。最后将剩余的子段对应的持续时长之和，确定为有效时长。这样，通过进一步过滤掉过短，不足以传达出完整的信息的部分，可以进一步提高有效时长的准确性。

需要说明的是，在目标片段中存在噪音或者静音部分的情况下，会导致音频转换后得到的子句数量较少或者不存在子句。因此，本申请实施例中基于音频信息转换得到子句，基于子句确定有效时长，并基于有效时长的占比进行过滤的方式中，一定程度上可以使得噪音或者静音部分能够被过滤，从而有效减少无效内容，减轻后续视频拆分模型的处理量以及对视频拆分的干扰程度。

进一步地，在另一种实现方式中，本申请实施例中也可以仅过滤无效视频帧，或者，仅过滤冗余视频帧。示例的，可以仅根据所述第一音频信息，确定所述目标视频数据中目标片段中与所述对象的相关性符合所述第一相关性要求的片段时长，以作为有效时长；所述目标片段为指定时长的片段。若所述有效时长与所述指定时长的比值小于预设比值阈值，将所述目标片段中的视频帧确定为所述无效视频帧，并进行过滤。其中，各步骤的具体实现方式以及所能达到的效果可以参照前述相关描述，此处不作赘述。本实现方式中，可以过滤掉与所展示对象相关性较低的部分，在可以在节省过滤成本的同时，降低后续的处理量。

或者，也可以仅根据所述第一视频画面信息确定所述目标片段中视频帧之间的相似度，并基于所述相似度过滤所述目标视频数据中的冗余视频帧。其中，各步骤的具体实现方式以及所能达到的效果可以参照前述相关描述，此处不作赘述。本实现方式中，可以过滤掉冗余视频帧，在可以在节省过滤成本的同时，降低后续的处理量。

参照图3，示出了本申请的一种多模态过滤模块的处理流程图。首先，对于输入的目标视频数据，可以将目标视频数据拆分为视频窗口。然后按照时间顺序选取视频窗口进行处理。其中，当前选取的视频窗口可以记为（i）视频窗口。接着，可以在音频分支中通过音频解码、语音转文本模型以及文本分类模型确定各子句对应的文本类别。接着，通过窗口过滤规则，判断是否要过滤当前的视频窗口。其中，窗口过滤规则可以为有效时长与指定时长的比值小于预设比值阈值的情况下过滤。有效时长与指定时长的比值不小于预设比值阈值的情况下不进行过滤。进一步地，可以在过滤的情况下重新选取（i+1）视频窗口进行处理。在不过滤的情况下，可以进入视频分支，经过视频解码、冗余视频帧过滤，得到视频重要性片段。其中，视频重要性片段即为过滤后的目标片段。

可选的，在所述视频相关数据还包括参考视频、图片数据、文本数据中的至少一种的情况下，所述从所述至少一种视频相关数据中，确定用于过滤的至少两种模态的筛选数据，还可以包括：

子步骤S31、将所述参考视频、图片数据、文本数据中的至少一种作为筛选数据。

本步骤中，可以将视频相关数据中包括的除目标视频数据之外的其他数据均进一步作为筛选数据。

进一步地，所述依据至少两种模态的所述筛选数据对所述目标视频数据中的视频帧进行过滤，还可以包括：

子步骤S32、在所述筛选数据包括图片数据的情况下，依据所述第一视频画面信息和所述图片数据，过滤所述目标视频数据中与所述图片数据中展示对象相似度低于第一阈值的无效视频帧。

图片数据中的图片可以用于体现对目标视频数据所展示对象进行有效介绍时的画面内容。如果目标视频数据中视频帧的展示对象与图片数据中的展示对象的相似度低于第一阈值，则可以确定该视频帧与目标视频数据所展示对象的相关性过低，可以将该视频帧作为无效视频帧进行过滤。具体的，可以先提取图片数据中图片的画面信息，然后对于目标视频数据中的视频帧，基于图片的画面信息与第一视频画面信息中该视频帧对应的画面信息，计算相似度。其中，图片的画面信息可以与视频帧的画面信息的种类相同。

子步骤S33、在所述筛选数据包括文本数据的情况下，依据所述文本数据和所述第一音频信息，过滤所述目标视频数据中对话与所述文本数据中语句相似度低于第二阈值的无效视频帧。

文本数据可以用于体现对目标视频数据所展示对象进行有效介绍时的语句。如果目标视频数据中视频帧中对话与文本数据中语句的相似度低于第二阈值，则可以确定该视频帧与目标视频数据所展示对象的相关性过低，因此，可以将该视频帧作为无效视频帧进行过滤。具体的，对于目标视频数据中的视频帧，可以先提取第一音频信息中该视频帧对应的音频信息，视频帧对应的音频信息可以为播放该视频帧时会对应同步播放的音频。接着，可以计算视频帧对应的音频信息对应的文本与文本数据中语句之间的相似度。其中，本申请实施例中提及的相似度可以采用预设的相似度算法进行计算，视频帧对应的音频信息对应的文本可以表征视频帧对应的对话。

子步骤S33、在所述筛选数据包括参考视频的情况下，获取所述参考视频的第二视频画面信息以及第二音频信息，以及根据所述第一音频信息和所述第二音频信息确定所述目标视频数据中的无效视频帧，并过滤所述无效视频帧，以及根据所述第一视频画面信息和所述第二视频画面信息，过滤所述目标视频数据中的冗余视频帧。

参考视频中的音频与目标视频数据所展示对象相关性不符合预设要求，参考视频的视频帧用于体现与所展示对象相关性符合要求的画面内容。示例的，可以计算第一音频信息中部分音频信息与第二音频信息之间的相似度，如果该相似度大于第三阈值，则可以确定该部分音频信息对应的视频帧与目标视频数据所展示对象相关性较低，进而可以将这部分音频信息对应的视频帧作为无效视频帧进行过滤。进一步地，可以分别计算第一视频画面信息中连续的多个视频帧对应的画面信息与第二视频画面信息中参考视频的视频帧的画面信息之间的相似度。其中，如果相似度均大于第四阈值，则可以确定这多个视频帧之间存在冗余，进而可以将这多个视频帧中的部分视频帧作为冗余视频帧进行过滤。例如，可以仅将多个视频帧中的一个视频帧保留，将其余视频帧作为冗余视频帧进行过滤。上述第一阈值、第二阈值、第三阈值及第四阈值可以是根据需求设置的，本申请对此不作限制。本申请实施例中，通过进一步结合相关的参考视频、图片数据、文本数据进行过滤，可以为视频过滤提供更多信息，从而一定程度上可以提高过滤效果。

可选的，上述基于预训练的视频拆分模型中的至少两个子拆分模型，分别获取所述待拆条视频的视频特征的步骤，具体可以包括：

子步骤S41，确定所述待拆条视频中分别由所述子拆分模型负责处理的视频帧。

示例的，可以将待拆条视频中的视频帧分为X组。其中X为子拆分模型的数量，一组视频帧作为一个子拆分模型负责处理的视频帧。具体在分组时，可以间隔着对视频帧进行选择，或者，也可以是选择连续的多个视频帧作为一组，本申请对此不作限制。

子步骤S42，基于所述子拆分模型，分别将所述子拆分模型负责处理的视频帧的帧信息作为输入，以从中提取帧特征。

本申请实施例中，可以基于子拆分模型的特征提取层对帧信息进行处理，以提取帧特征。其中，目标视频数据可以包括多个视频帧的帧信息，帧信息可以包含视频帧表征的视频画面本身的信息以及该视频帧对应的音频信息，所提取的帧特征的具体种类可以根据实际需求设置，不同视频拆分模型中子拆分模型提取的帧特征的种类可以不同。示例的，对于商品片段定位算法中的商品检测模型，帧特征可以包括像素级特征以及实例级特征。其中，像素级特征又可以称为全局特征，像素级特征可以对应原始的视频帧图像，用于表征视频帧的结构化特征。实例级特征可以表示得到视频帧中候选框区域之后提取到的特征，实例级特征可以基于像素级特征提取得到，可以是经过区域生成网络 (Region ProposalNetwork，RPN)得到的候选框区域特征。候选框区域又可以称为“目标Proposal”，候选框区域特征可以表示视频帧中商品对应的特征。需要说明的是，在一种可选实现方式中可以进一步基于目标跟踪算法按照候选框区域特征进行匹配跟踪，以获取包含该候选框区域所表征商品的视频片段和相应的结构化信息。而对于拆分问答片段的NLP语言模型，帧特征可以仅包括从视频帧对应的音频信息对应的文本中提取到的全局特征。其中，音频信息对应的文本可以是基于自动语音识别（Automatic Speech Recognition，ASR）技术对音频信息转化得到的。对于人物姿态模型以及分类模型，帧特征可以仅包括从视频画面中提取到的全局特征，也就是基于视频帧本身提取到的全局特征。

子步骤S43，基于所述帧特征进行特征融合，以获取所述视频帧的视频特征。

本申请实施例中，子拆分模型对特征的提取能力可能存在差异，因此，可以基于提取到的帧特征进行特征融合，从而一定程度上确保最终得到的视频帧的视频特征的特征质量。需要说明的是，实际应用时也可以直接将子拆分模型提取到的帧特征作为视频帧的视频特征，以简化操作步骤，本申请对此不作限制。本申请实施例中，相较于利用单一类型的计算单元上的单一拆分模型对所有视频帧进行处理的方式，本申请中，由不同类型的计算单元上的子拆分模型分别承担部分处理，一定程度上可以充分利用计算资源，提高处理效率。

可选的，至少两个子拆分模型可以包括第一子模型以及第二子模型，第一子模型用于依据待拆条视频中的关键帧，提取第一视频特征；第二子模型用于依据待拆条视频的非关键帧提取第二视频特征，并依据所述第二视频特征和所述第一视频特征，输出视频片段；第一子模型的模型复杂度高于第二子模型的模型复杂度。相应地，可以通过下述步骤划分关键帧和非关键帧：

子步骤S51，将每T帧中的一个视频帧作为第一子模型负责处理的关键帧，并将所述T帧中的其他视频帧作为第二子模型负责处理的非关键帧。

本步骤中，T的具体值可以根据实际需求设置，示例的，T可以为5。可以按照时间顺序从每T个视频帧中选择一个视频帧作为关键帧。例如，可以选择T个视频帧中的首帧作为关键帧，或者，也可以随机选择一帧作为关键帧。然后将剩余的T-1个视频帧作为非关键帧。其中，关键帧可以由模型复杂度更高的第一子模型进行处理，非关键帧可以由模型复杂度更低的第二子模型进行处理。从非关键帧中提取第二视频特征的操作可以与从关键帧中提取第一视频特征的操作异步进行，从而确保处理效率。第二子模型在对非关键帧进行处理时，可以按照时间戳对本轮中的T-1个非关键帧逐帧处理。进一步地，模型复杂度越高，各层的结构复杂度以及模型参数可以越大，相应地，处理能力可以越高。示例的，第一子模型中的特征提取层可以采用骨干（backbone）层数较多和参数较多的“resnet101”网络，以进行特征提取。第二子模型中的特征提取层可以采用backbone层数少和参数较少的“mobilenet”网络，以进行特征提取。

需要说明的是，在划分关键帧和非关键帧时，可以以整个待拆条视频为处理单元进行处理。或者，也可以以组成待拆条视频的过滤后的视频窗口为处理单元，在一个视频窗口内，每T帧选择一帧作为关键帧，其余T-1帧作为非关键帧。这样，可以并行对多个视频窗口进行处理，从而提高处理效率。

可选的，上述基于所述帧特征进行特征融合，以获取所述视频帧的视频特征的步骤，具体可以包括：

子步骤S61，将所述第一子模型从所述关键帧中提取的第一视频特征，直接确定为所述关键帧的视频特征。

由于第一子模型的模型复杂度更高，因此可以认为第一子模型提取到的第一视频特征蕴含的信息足够充分，进而可以直接将第一子模型从关键帧中提取到的第一视频特征直接作为关键帧的视频特征，以确保确定速度。

子步骤S62，根据所述第二子模型从所述非关键帧中提取的第二视频特征以及当前已获取到的视频特征，进行融合，以作为所述非关键帧的视频特征。

本申请实施例中，当前已获取到的视频特征可以包括关键帧的视频特征以及在先处理的非关键帧的视频特征。进行融合时，可以与部分当前已获取到的视频特征进行融合，也可以是与所有当前已获取到的视频特征进行融合。进一步地，由于第二子模型的模型复杂度更低，第二子模型从非关键帧中提取的第二视频特征蕴含的信息可能不够充分，且视频的视频帧之间往往存在关联。因此，可以结合第二子模型从非关键帧中提取的第二视频特征以及当前已获取到的视频特征进行融合，进而一定程度上使得最终得到的非关键帧的视频特征蕴含充足的信息，提高非关键帧的视频特征的精度，确保特征质量。

可选的，本申请实施例还可以包括：步骤A、在获取到视频帧的视频特征之后，将所述视频帧的视频特征存储至预设的存储模块。本申请实施例中，存储模块可以为预先设计的长度为n的时序特征存储模块m。可以按照获取的时间顺序，每获取到一个视频帧的视频特征就存入存储模块。

相应地，上述根据所述第二子模型从所述非关键帧中提取的第二视频特征以及当前已获取到的视频特征，进行融合的步骤，具体可以包括：

子步骤S621，读取所述存储模块中当前已存储的所有视频特征，以作为第三视频特征。其中，当前已存储的视频特征可以包括关键帧的视频特征以及在先处理的非关键帧的视频特征。

子步骤S622，将从所述非关键帧中提取的第二视频特征与所述第三视频特征进行融合。

示例的，本步骤可以包括：计算所述第二视频特征与所述第三视频特征之间的相关性权重矩阵；基于所述相关性矩阵重新计算所述第二视频特征的特征值矩阵，并对重新计算的所述特征值矩阵进行卷积处理，以实现融合。其中，对特征值矩阵进行卷积处理时使用的卷积算子可以是预先训练得到的。可选的，本申请实施例中可以基于第一子模型提取关键帧中的像素级特征，然后从像素级特征中提取实例级特征，得到第一视频特征。第二子模型可以提取非关键帧中的像素级特征，然后从像素级特征中提取实例级特征，得到第二视频特征。进行融合时，可以先计算非关键帧中提取的像素级特征与第三视频特征中像素级特征之间的相关性权重矩阵；基于相关性矩阵重新计算非关键帧中提取的像素级特征的特征值矩阵，并对重新计算的特征值矩阵进行卷积处理，得到融合后的视频特征中的像素级特征。计算非关键帧中提取的实例级特征与第三视频特征中实例级特征之间的相关性权重矩阵；基于相关性矩阵重新计算非关键帧中提取的实例级特征的特征值矩阵，并对重新计算的特征值矩阵进行卷积处理，得到融合后的视频特征中的实例级特征。其中，非关键帧中提取的实例级特征可以是从融合后的像素级特征或者是融合前的像素级特征中提取的。具体的，可以采用基于注意力机制的“transformer模块”计算第二视频特征与各第三视频特征之间的相关性权重矩阵，得到多个相关性权重矩阵。然后将这多个相关性权重矩阵与第二视频特征对应的特征值矩阵进行矩阵相乘，进而得到重新计算后的特征值矩阵。最后，可以对特征值矩阵进行卷积处理，以使得重新计算后的特征值矩阵更加平滑，从而确保融合效果。本申请实施例中，通过获取存储模块中当前已存储的所有视频特征作为第三视频特征，将非关键帧中提取的第二视频特征与第三视频特征进行融合，可以为融合操作提供充足的信息，从而可以确保融合得到的视频特征的特征质量。

需要说明的是，上述第二子模型还可以包括融合层。可以将所述第二视频特征输入所述第二子模型中的融合层，基于融合层将所述非关键帧中提取的第二视频特征与所述第三帧特征进行融合。由于需要进行融合的第二视频特征是第二子模型逐帧提取到的，因此将融合层设置在第二子模型，由第二子模型基于融合层执行融合操作，一定程度上可以确保融合操作的便捷性。相应地，预设的存储模块可以与第二子模型部署在同一计算单元，进而方便获取融合所需的第三视频特征。当然，第一子模型也可以包括融合层，相应地，可以将第二子模型提取到的第二视频特征输入第一子模型的融合层，由于第一子模型进行融合操作，本申请对此不作限制。进一步地，用于根据待拆条视频中视频帧的视频特征进行拆分的各层可以称为后处理层，实际应用场景中，可以将这些层作为独立的后处理模块，部署在第二子模型。示例的，可以将待拆条视频中视频帧的视频特征作为第二子模型中后处理模块的输入，根据视频帧的视频特征进行语义识别，确定视频帧之间属于同一视频片段的概率，该概率可以表征视频帧对应同一动作、姿态、行为、场景、问答过程或商品的概率。将对应的概率高于预设概率阈值的连续多个视频帧划分至同一视频片段，并为视频片段中视频画面生成结构化内容。其中，后处理模块可以包括拆分层以及输出层，拆分层可以包括卷积层以及全连接层。可以基于卷积层对各视频帧的视频特征进行卷积处理，以进行语义识别，提取语义信息，以及，提取结构化信息。然后卷积层的处理结果可以输出至全连接层，全连接层可以对语义信息，也就是卷积处理后的视频特征的特征值进行全连接处理，以确定该视频帧与相邻视频帧属于同一视频片段的概率。具体的，可以针对对应的概率高于预设概率阈值的连续多个视频帧输出相同的标识，并将视频帧的标识以及结构化信息输出至输出层，输出层可以基于输入的标识，将对应同一标识的多个视频帧划分为一个视频片段，输出包含结构化信息的视频片段。

进一步地，第二子模型可以部署在CPU计算单元。由于CPU计算单元计算时候更加灵活，更适合执行后处理操作，因此，可以确保后续的处理效果。当然，也可以在各个子拆分模型中均设置后处理层，各个子拆分模型可以基于后处理层进行协同计算，从而实现拆分。例如，CPU计算单元中的子拆分模型以及GPU计算单元中的子拆分模型可以分别处理部分视频特征的中间操作，例如，卷积处理。最后可以将处理结果汇总至任一子拆分模型，由该子拆分模型根据汇总后的处理结果执行后续处理，并输出拆分结果。

以商品检测模型为例，参照图4，示出了本申请的一种视频帧的视频特征的融合流程图。商品检测模型可以包括具有不同计算复杂度的轻量级网络和重量级网络，也就是图4中的大模型以及小模型。其中，大模型用于表示第一子模型，小模型用于表示第二子模型。大模型以及小模型均能独立进行视频目标检测，也即是提取表征所需检测商品的特征。大模型以及小模型可以分别部署在GPU计算单元以及CPU计算单元。图4中的当前帧I_t可以表示当前被小模型处理的非关键帧。I_k表示关键帧。N^H、N^L分别表示大模型的backbone网络、小模型的backbone网络，f_t ^L表示经过小模型的backbone网络处理之后的非关键帧的第二视频特征中的像素级特征、f_k ^H表示经过大模型的backbone网络处理之后的关键帧的第一视频特征中的像素级特征。h_t ^L表示经过融合后得到的非关键帧的像素级特征，h_k ^H表示直接提取到的关键帧的像素级特征。

进一步地，大模型可以基于关键帧的像素级特征提取实例级特征，小模型可以基于非关键帧的像素级特征提取非关键帧的第二视频特征中的实例级特征，并进行特征融合，最终得到非关键帧的实例级特征。本申请中，将部分计算迁移到CPU上进行，充分利用CPU资源，减少GPU的计算，从而减轻视频拆分模型之间对GPU计算资源抢占的问题。同时，由于进一步利用了CPU资源，因此一定程度上可以在保证模型运行速度不变的情况下，提高模型处理的精度。

可选的，上述预训练的视频拆分模型可以通过下述步骤训练得到：步骤B，将样本视频作为初始视频拆分模型的输入，以基于所述初始视频拆分模型中的至少两个子拆分模型，分别获取所述样本视频中视频帧的样本视频特征。本申请中，样本视频可以是根据实际需求选取的历史直播视频、影视剧视频，等等。初始视频拆分模型中子拆分模型的模型结构可以与前述子拆分模型的模型结构相同。初始视频拆分模型可以是未完成训练的视频拆分模型。初始视频拆分模型中的至少两个子拆分模型的模型复杂度可以不同，初始视频拆分模型中的至少两个子拆分模型，分别获取样本视频中视频帧的样本视频特征的实现方式可以参照上述基于预训练的视频拆分模型中的至少两个子拆分模型，分别获取待拆条视频中视频帧的视频特征的实现方式，此处不再赘述。步骤C，基于所述样本视频中视频帧的样本视频特征，对所述初始视频拆分模型进行端到端训练，以获取所述视频拆分模型。本申请实施例中，预先为样本视频设置标签信息，该标签信息可以表征样本视频实际拆分的视频片段以及视频片段中包括的结构化内容。相应地，可以进一步获取初始视频拆分模型基于样本视频特征产出的视频片段及其结构化内容。然后根据产出的视频片段及其结构化内容以及标签信息，确定初始视频拆分模型的损失值，并基于损失值进行模型参数调整，以实现端到端训练。最终在满足预设中止条件的情况下，例如，损失值不大于预设损失值阈值的情况下，调整轮数达到预设轮数阈值的情况下，停止训练，从而得到最终的视频拆分模型。本申请实施例中，结合初始视频拆分模型中的至少两个子拆分模型一起进行端到端训练，可以使得至少两个子拆分模型在训练过程中可以一并得到优化，从而一定程度上确保训练效率。同时，可以使得子拆分模型在训练过程中可以学习到协同异构计算的能力，确保模型应用时的处理效果。

可选的，视频拆分模型可以包括多种类型；不同类型的视频拆分模型可以用于拆分包含不同种类的结构化内容的视频片段以及输出该视频片段对应的描述信息。其中，描述信息可以是根据结构化内容得到的，例如，描述信息可以为结构化内容本身，或者，描述信息也可以为结构化内容中用于体现视频片段核心主旨的标签词。这样，可以产生不同类型的结构化内容的视频片段，从而提高视频拆分结果的丰富性。进一步地，这多个视频拆分模型可以部署在同一视频处理平台，由于本申请的视频处理方法可以充分利用多种不同类型的计算单元，因此，可以在多个视频拆分模型部署在同一视频处理平台方便使用的同时，一定程度上避免资源抢占，运行速度较低的问题。

进一步地，本申请可以提供一种视频处理平台，该视频处理平台中可以部署有至少两个视频拆分模型；任一所述视频拆分模型均包括至少两个子拆分模型，不同视频拆分子模型部署在所述视频处理平台中不同类型的计算单元。具体的，至少两个视频拆分模型可以集成在同一视频处理框架中，该视频处理框架可以部署在视频处理平台中。进一步地，视频处理框架中还可以集成有多模态过滤模型，多模态过滤模型可以用于从至少一种视频相关数据中，确定用于过滤的至少两种模态的筛选数据，并依据至少两种模态的筛选数据对目标视频数据中的视频帧进行过滤，获得待拆条视频，进而使得该视频处理框架可以通过多模态过滤以及异构计算，灵活部署在GPU计算资源有限的平台，通过充分利用CPU计算资源，在有限GPU计算资源下，实现较为高效的对视频进行拆分，以生产多种标签的短视频。

示例的，参照图5，示出了本申请的一种视频处理框架的处理流程图。在该处理框架中，可以先输入直播流、广告、影视、图像、视频等视频相关数据。然后经过多模态过滤，将目标视频数据中冗余、无意义的视频帧过滤掉，得到过滤后的片段。接着，在视频拆条以及结构化内容环节，通过多个视频拆分模型并行进行进一步的拆分和结构化解析，得到拆条片段以及其中包含的结构化内容。其中，不同视频拆分模型进行拆条时所用到的信息可以不同，例如，POSE模型以及分类模型可以仅用到视频帧表征的视频画面本身的信息，商品检测模型可以用到视频帧表征的视频画面本身的信息以及视频帧对应的音频信息，NLP语言模型可以仅用到视频帧对应的音频信息。进一步地，视频拆分模型可以均采用异构协同计算模型框架，从而确保可以充分利用多种类型的计算资源，确保视频处理框架的处理效率。

参照图6，示出了本申请的另一种视频处理方法的步骤流程图。该方法具体可以包括如下步骤：

步骤201，获取展示对象推荐视频；所述展示对象推荐视频中展示有至少一个展示对象。

可选的，展示对象推荐视频可以包括直播视频或者录播视频，也就是说本申请实施例可实现对多种视频的拆分，适应范围较广。进一步地，展示对象可以包括商品对象，在进行商品直播时，可以将产生的商品直播视频作为展示对象推荐视频，该展示对象推荐视频中可以展示有至少一个商品对象，这样，可以提高商品直播视频的利用率，提高用户了解商品对象的便捷性。或者，展示对象也可以为参会人员对象，在进行视频会议时，可以将产生的会议视频作为展示对象推荐视频，该展示对象推荐视频中可以展示有参会人员对象。这样，可以方便后续针对性的对某个参会人员对象的部分进行再利用，例如，进行回看，从而提高会议视频的价值。或者，展示对象也可以为教学人员对象，在进行直播教学时，可以将产生的教学直播视频作为展示对象推荐视频。或者，在进行线下教学时，可以将录制的教学视频作为展示对象推荐视频。该展示对象推荐视频中可以展示有教学人员对象。这样，可以方便后续针对性的对某个教学人员对象的教学部分进行回看，从而提高学习的便捷性。

步骤202，从所述展示对象推荐视频中，确定用于过滤的至少两种模态的筛选数据，并依据至少两种模态的所述筛选数据对所述展示对象推荐视频中的视频帧进行过滤，获得待拆条视频。

本步骤的实施方式与上述方法实施例的实施方式类似，此次不再赘述。

步骤203，基于预训练的视频拆分模型中的至少两个子拆分模型，分别获取所述待拆条视频的视频特征；其中，不同的子拆分模型获取的视频特征不完全相同。

步骤204，基于所述视频特征，将所述待拆条视频拆分为视频片段并对所述视频片段进行投放；其中，不同的视频片段展示不同的展示对象。

示例的，在展示对象为教学人员对象的情况下，可以得到展示不同的教学人员对象的视频片段。相应地，可以将这些视频片段投放至在线学习平台中，以方便用户选择。在展示对象为参会人员对象的情况下，可以得到展示不同的参会人员对象的视频片段。相应地，可以将这些视频片段投放至参会人员小组中，以方便各个参会人员回顾会议内容。综上所述，本申请实施例提供的一种视频处理方法，通过在进行视频拆分之前，先依据至少两种模态的筛选数据对目标视频数据中的视频帧进行过滤，这样，一定程度上可以降低视频拆分操作的处理量以及视频拆分操作时的干扰，进而提高视频拆分效率以及准确性。同时，通过对视频片段进行投放，可以提高视频资源的利用率。

可选的，对视频片段进行投放，可以具体包括：将所述视频片段投放在虚拟店铺的直播回放页面中；或，将所述视频片段投放在相应展示对象的展示页中。其中，虚拟店铺可以为购物平台中的店铺，展示页可以为对象的展示首页或者详情介绍页。这样，通过将视频片段投放在虚拟店铺的直播回放页面中或相应展示对象的展示页中，可以使得用户在浏览过程中，可以基于视频片段直观生动的了解商品对象，从而提高了解效率以及视频资源的利用率。可选的，也可以将视频片段发送给对象提供平台，由对象提供平台将视频片段发布至视频推广平台。这样，通过将拆分得到的视频片段进一步投放至视频推广平台中，可以进一步提高视频资源的利用率。

本申请实施例还提供一种视频处理方法，应用于客户端，可以包括：步骤301、显示交互页面，所述交互页面包括视频上传控件。步骤302、依据对所述视频上传控件的触发，获取至少一种视频相关数据并发送至服务端；所述至少一种视频相关数据包括目标视频数据；所述视频相关数据供所述服务端从所述至少一种视频相关数据中，确定用于过滤的至少两种模态的筛选数据，并依据至少两种模态的所述筛选数据对所述目标视频数据中的视频帧进行过滤，获得待拆条视频，基于预训练的视频拆分模型中的至少两个子拆分模型，分别获取所述待拆条视频的视频特征；以及基于所述视频特征，将所述待拆条视频拆分为视频片段；其中，不同的子拆分模型获取的视频特征不完全相同。步骤303、接收所述视频片段并在所述交互页面中展示。

本申请实施例还提供一种视频处理方法，应用于服务端，可以包括：步骤401、接收客户端通过交互页面发送的至少一种视频相关数据；所述至少一种视频相关数据包括目标视频数据。步骤402、从所述至少一种视频相关数据中，确定用于过滤的至少两种模态的筛选数据，并依据至少两种模态的所述筛选数据对所述目标视频数据中的视频帧进行过滤，获得待拆条视频。步骤403、基于预训练的视频拆分模型中的至少两个子拆分模型，分别获取所述待拆条视频的视频特征；其中，不同的子拆分模型获取的视频特征不完全相同。步骤404、基于所述视频特征，将所述待拆条视频拆分为视频片段。步骤405、将所述视频片段发送至所述客户端以在所述交互页面中展示。

在本申请的另一种视频处理方法中。该方法具体可以包括如下步骤：获取待拆分的影视剧视频；所述影视剧中包括多个出场的演员对象；基于预训练的视频拆分模型中的至少两个子拆分模型，分别获取所述影视剧视频中视频帧的帧特征；不同的子拆分模型获取的视频特征不完全相同；基于所述影视剧视频中视频帧的帧特征，将所述影视剧视频拆分为演员视频片段；一个所述演员视频片段用于展示一个所述演员对象；在视频资源平台中对所述演员视频片段以进行投放。示例的，可以在该影视剧在视频资源平台的介绍页面中，投放人气较高的演员视频片段，以吸引观众。或者，也可以将演员视频片段作为视频观看功能：“只看他/他”中的可供用户选择的片段，以实现投放。本申请实施例的实施方式与上述方法实施例的实施方式类似，本实施例的具体实施方式可以参考上述实施例的具体实施方式，此次不再赘述。这样，通过投放演员视频片段，可以方便观众按照自己的喜好选择想要重点关注的演员所出现的片段，从而一定程度上可以提高视频资源的点击率。

参照图7，示出了本申请的一种视频处理装置的结构图，该装置可以包括：提供模块501，用于提供交互页面，所述交互页面包括视频上传控件；第一获取模块502，用于依据对所述视频上传控件的触发，获取至少一种视频相关数据；所述至少一种视频相关数据包括目标视频数据；过滤模块503，用于从所述至少一种视频相关数据中，确定用于过滤的至少两种模态的筛选数据，并依据至少两种模态的所述筛选数据对所述目标视频数据中的视频帧进行过滤，获得待拆条视频；第二获取模块504，用于基于预训练的视频拆分模型中的至少两个子拆分模型，分别获取所述待拆条视频的视频特征；其中，不同的子拆分模型获取的视频特征不完全相同；拆分模块505，用于基于所述视频特征，将所述待拆条视频拆分为视频片段。

可选的，所述过滤模块503，具体用于：获取所述目标视频数据的第一视频画面信息以及第一音频信息；根据所述第一音频信息确定所述目标视频数据中的无效视频帧，并过滤所述无效视频帧，以及根据所述第一视频画面信息，过滤所述目标视频数据中的冗余视频帧。可选的，在所述视频相关数据还包括参考视频、图片数据、文本数据中的至少一种的情况下，所述过滤模块503，具体用于：将所述参考视频、图片数据、文本数据中的至少一种作为筛选数据；在所述筛选数据包括图片数据的情况下，依据所述第一视频画面信息和所述图片数据，过滤所述目标视频数据中与所述图片数据中展示对象相似度低于第一阈值的无效视频帧；在所述筛选数据包括文本数据的情况下，依据所述文本数据和所述第一音频信息，过滤所述目标视频数据中对话与所述文本数据中语句相似度低于第二阈值的无效视频帧；在所述筛选数据包括参考视频的情况下，获取所述参考视频的第二视频画面信息以及第二音频信息，以及根据所述第一音频信息和所述第二音频信息确定所述目标视频数据中的无效视频帧，并过滤所述无效视频帧，以及根据所述第一视频画面信息和所述第二视频画面信息，过滤所述目标视频数据中的冗余视频帧。可选的，所述至少两个子拆分模型包括第一子模型以及第二子模型；所述第一子模型用于依据所述待拆条视频中的关键帧，提取第一视频特征；所述第二子模型用于依据所述待拆条视频的非关键帧提取第二视频特征，并依据所述第二视频特征和所述第一视频特征，输出视频片段；所述第一子模型的模型复杂度高于所述第二子模型的模型复杂度。可选的，第二获取模块504，具体用于：确定所述待拆条视频中分别由所述子拆分模型负责处理的视频帧；基于所述子拆分模型，分别将所述子拆分模型负责处理的视频帧的帧信息作为输入，以从中提取帧特征；基于所述帧特征进行特征融合，以获取所述视频帧的视频特征。可选的，所述视频拆分模型包括多种类型；不同类型的视频拆分模型用于拆分包含不同种类的结构化内容的视频片段以及输出该视频片段对应的描述信息。可选的，所述目标视频数据包括直播视频、会议视频、教学视频其中至少一项。可选的，所述至少两个子拆分模型部署在不同类型的计算单元。

本申请还提供另一种视频处理装置，该装置可以包括：第一获取模块，用于获取展示对象推荐视频；所述展示对象推荐视频中展示有至少一个展示对象；过滤模块，用于从所述展示对象推荐视频中，确定用于过滤的至少两种模态的筛选数据，并依据至少两种模态的所述筛选数据对所述展示对象推荐视频中的视频帧进行过滤，获得待拆条视频；第二获取模块，用于基于预训练的视频拆分模型中的至少两个子拆分模型，分别获取所述待拆条视频的视频特征；其中，不同的子拆分模型获取的视频特征不完全相同；投放模块，用于基于所述视频特征，将所述待拆条视频拆分为视频片段并对所述视频片段进行投放；其中，不同的视频片段展示不同的展示对象。

本申请还提供另一种视频处理装置，应用于客户端，该装置可以包括：显示模块，用于显示交互页面，所述交互页面包括视频上传控件；发送模块，用于依据对所述视频上传控件的触发，获取至少一种视频相关数据并发送至服务端；所述至少一种视频相关数据包括目标视频数据；所述视频相关数据供所述服务端从所述至少一种视频相关数据中，确定用于过滤的至少两种模态的筛选数据，并依据至少两种模态的所述筛选数据对所述目标视频数据中的视频帧进行过滤，获得待拆条视频，基于预训练的视频拆分模型中的至少两个子拆分模型，分别获取所述待拆条视频的视频特征；以及基于所述视频特征，将所述待拆条视频拆分为视频片段；其中，不同的子拆分模型获取的视频特征不完全相同；接收模块，用于接收所述视频片段并在所述交互页面中展示。

本申请还提供另一种视频处理装置，应用于服务端，该装置可以包括：接收模块，用于接收客户端通过交互页面发送的至少一种视频相关数据；所述至少一种视频相关数据包括目标视频数据；过滤模块，用于从所述至少一种视频相关数据中，确定用于过滤的至少两种模态的筛选数据，并依据至少两种模态的所述筛选数据对所述目标视频数据中的视频帧进行过滤，获得待拆条视频；获取模块，用于基于预训练的视频拆分模型中的至少两个子拆分模型，分别获取所述待拆条视频的视频特征；其中，不同的子拆分模型获取的视频特征不完全相同；拆分模块，用于基于所述视频特征，将所述待拆条视频拆分为视频片段；发送模块，用于将所述视频片段发送至所述客户端以在所述交互页面中展示。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图8是本申请实施例提供的一种装置的结构示意图。参见图8，服务器800可以用于实施上述实施例中提供的视频处理方法。该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器822（例如，一个或一个以上中央处理器）和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830（例如一个或一个以上海量存储设备）。其中，存储器832和存储介质830可以是短暂存储的或持久存储的。存储在存储介质830的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，处理器822可以设置为与存储介质830通信，在服务器800上执行存储介质830中的一系列指令操作。服务器800还可以包括一个或一个以上电源823，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，一个或一个以上键盘856，和/或和，一个或一个以上操作系统841，例如Windows ServerTM，Mac OSXTM，UnixTM, LinuxTM，FreeBSDTM等等。其中，处理器822可以在服务器800上执行操作的指令，以实现上述视频处理方法中的步骤。本申请还提供一个电子设备，其特征在于，包括：处理器；和存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行上述方法。

本申请还提供一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行上述方法。本申请提供一种装置，其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述装置执行上述方法。本申请还提供一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行上述方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。以上对本申请所提供的方法及装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频处理方法，其特征在于，包括：

提供交互页面，所述交互页面包括视频上传控件；

基于所述视频特征，将所述待拆条视频拆分为视频片段。

2.根据权利要求1所述的方法，其特征在于，所述从所述至少一种视频相关数据中，确定用于过滤的至少两种模态的筛选数据，包括：

获取所述目标视频数据的第一视频画面信息以及第一音频信息；

所述依据至少两种模态的所述筛选数据对所述目标视频数据中的视频帧进行过滤，包括：

根据所述第一音频信息确定所述目标视频数据中的无效视频帧，并过滤所述无效视频帧，以及根据所述第一视频画面信息，过滤所述目标视频数据中的冗余视频帧。

3.根据权利要求1所述的方法，其特征在于，所述至少两个子拆分模型包括第一子模型以及第二子模型；所述第一子模型用于依据所述待拆条视频中的关键帧，提取第一视频特征；所述第二子模型用于依据所述待拆条视频的非关键帧提取第二视频特征，并依据所述第二视频特征和所述第一视频特征，输出视频片段；所述第一子模型的模型复杂度高于所述第二子模型的模型复杂度。

4.根据权利要求1所述的方法，其特征在于，所述基于预训练的视频拆分模型中的至少两个子拆分模型，分别获取所述待拆条视频的视频特征，包括：

确定所述待拆条视频中分别由所述子拆分模型负责处理的视频帧；

基于所述子拆分模型，分别将所述子拆分模型负责处理的视频帧的帧信息作为输入，以从中提取帧特征；

基于所述帧特征进行特征融合，以获取所述视频帧的视频特征。

5.根据权利要求1所述的方法，其特征在于，所述视频拆分模型包括多种类型；不同类型的视频拆分模型用于拆分包含不同种类的结构化内容的视频片段以及输出视频片段对应的描述信息。

6.一种视频处理方法，其特征在于，包括：

7.根据权利要求6所述的方法，其特征在于，所述展示对象包括商品对象。

8.一种视频处理方法，应用于客户端，其特征在于，包括：

显示交互页面，所述交互页面包括视频上传控件；

接收所述视频片段并在所述交互页面中展示。

9.一种视频处理方法，应用于服务端，其特征在于，包括：

基于所述视频特征，将所述待拆条视频拆分为视频片段；

10.一种视频处理装置，其特征在于，包括：

11.一种视频处理装置，其特征在于，包括：

12.一种装置，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行所述指令时，使得所述装置执行如权利要求1至9中任一项的方法。

13.一种电子设备，其特征在于，包括：处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1-9中任一项所述的方法。

14.一个或多个机器可读介质，其特征在于，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如权利要求1-9中任一项所述的方法。