CN114363695B

CN114363695B - 视频处理方法、装置、计算机设备和存储介质

Info

Publication number: CN114363695B
Application number: CN202111335191.3A
Authority: CN
Inventors: 吴嫒博; 刘萌; 孙朝旭; 夏志群; 蔡晓凤; 卢鑫鑫; 孙康明; 叶礼伟
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2023-06-13
Anticipated expiration: 2041-11-11
Also published as: CN114363695A

Abstract

本申请涉及一种应用于云技术领域的视频处理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：将待处理视频分割为多个初始片段，提取每个初始片段的多模态特征；基于各初始片段的多模态特征，从多个初始片段中筛选满足内容边界条件的边界片段；获取预设分割数量，并确定在每个预设分割数量下分别对应的多个分割场景，其中，每个分割场景中均包括有相应预设分割数量个边界片段；基于与各分割场景分别对应的全局信息，从多个分割场景中确定出目标分割场景；该全局信息表征相应分割场景中的各边界片段之间的相似关系；根据目标分割场景中包括的边界片段，将待处理视频分割为多个目标视频片段。采用本方法能够提高视频分割的准确性。

Description

视频处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种视频处理方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术的发展，出现了视频分割技术，通过视频分割技术能够将视频分割为多个视频片段，以满足不同的使用需求。例如，将长视频分割为多个短视频或者从视频中将自己需要的片段单独分割出来。

传统的视频分割技术中，在进行视频的分割时往往是按照时长将长视频分割为多个短视频，导致各短视频的视频内容之间依赖性较强，容易将具有紧密联系的视频内容分割至不同的短视频中，存在视频分割不准确的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高分割效率和准确性的视频处理方法、装置、计算机设备和存储介质。

本申请提供了一种视频处理方法，所述方法包括：

将待处理视频分割为多个初始片段，提取每个所述初始片段的多模态特征；

基于各所述初始片段的多模态特征，从多个所述初始片段中筛选满足内容边界条件的边界片段；

获取预设分割数量，并确定在每个所述预设分割数量下分别对应的多个分割场景，其中，每个所述分割场景中均包括有相应预设分割数量个边界片段；

基于与各所述分割场景分别对应的全局信息，从多个所述分割场景中确定出目标分割场景；所述全局信息表征相应分割场景中的各边界片段之间的相似关系；

根据所述目标分割场景中包括的边界片段，将所述待处理视频分割为多个目标视频片段。

本申请还提供了一种视频处理装置，所述装置包括：

初始分割模块，用于将待处理视频分割为多个初始片段，提取每个所述初始片段的多模态特征；

片段筛选模块，用于基于各所述初始片段的多模态特征，从多个所述初始片段中筛选满足内容边界条件的边界片段；

确定模块，用于获取预设分割数量，并确定在每个所述预设分割数量下分别对应的多个分割场景，其中，每个所述分割场景中均包括有相应预设分割数量个边界片段；

场景筛选模块，用于基于与各所述分割场景分别对应的全局信息，从多个所述分割场景中确定出目标分割场景；所述全局信息表征相应分割场景中的各边界片段之间的相似关系；

目标分割模块，用于根据所述目标分割场景中包括的边界片段，将所述待处理视频分割为多个目标视频片段。

在一个实施例中，所述初始分割模块，还用于将每个所述初始片段的音频特征、文本特征和图像特征中的至少一种，作为所述相应初始片段对应的多模态特征；其中，所述音频特征从相应初始片段的音频信息中提取、所述文本特征从相应初始片段的文本信息中提取、所述图像特征从相应初始片段的图像信息中提取。

在一个实施例中，所述片段筛选模块，还用于基于各所述初始片段的多模态特征进行边界预测，得到每个所述初始片段分别对应的边界预测结果；所述边界预测结果表征所述初始片段的边界为关键内容边界的概率；基于各所述边界预测结果从多个所述初始片段中筛选出满足内容边界条件的边界片段。

在一个实施例中，所述片段筛选模块，还用于分别确定每个所述初始片段对应的预设数量的上下文视频片段；根据每个所述初始片段的多模态特征，以及每个所述初始片段对应的预设数量的上下文视频片段所对应的多模态特征进行边界预测，得到每个所述初始片段分别对应的边界预测结果。

在一个实施例中，所述确定模块，还用于基于所述边界片段的数量确定多个预设分割数量；对于每个预设分割数量，分别从所有所述边界片段中，选择具有相应预设分割数量的边界片段组合为对应的分割场景，以得到在每个所述预设分割数量下分别对应的多个分割场景。

在一个实施例中，所述场景筛选模块，还用于对于每个所述分割场景，确定相应分割场景中每个边界片段和所述相应分割场景中其余的边界片段之间的相似度；根据所述相应分割场景中每个边界片段和所述相应分割场景中其余的边界片段之间的相似度，确定所述相应分割场景中的每个所述边界片段分别对应的相似关系；基于各所述分割场景对应的多个相似关系，确定每个所述分割场景对应的场景分割信息；基于每个所述场景分割信息，从各所述分割场景中筛选满足场景筛选条件的目标分割场景。

在一个实施例中，所述场景筛选模块，还用于根据每个所述预设分割数量分别对应的多个所述场景分割信息，从多个所述预设分割数量中筛选出目标分割数量；根据所述目标分割数量对应的多个分割场景的场景分割信息，从所述目标分割数量对应的多个分割场景中筛选出满足场景筛选条件的目标分割场景。

在一个实施例中，所述场景分割信息包括场景分割得分；所述场景筛选模块，还用于对于每个所述预设分割数量，根据同一预设分割数量对应的多个场景分割得分，确定所述同一预设分割数量对应的场景评价值；从各所述预设分割数量分别对应的场景评价值中，选择最大的场景评价值所对应的预设分割数量作为目标分割数量；从所述目标分割数量对应的多个分割场景的场景分割得分中，选择最大分割得分所对应的分割场景作为目标分割场景。

在一个实施例中，所述装置还包括关联模块，所述关联模块，用于基于各所述目标视频片段的多模态特征，生成每个所述目标视频片段的描述信息；将每个所述目标视频片段和对应的描述信息进行关联。

在一个实施例中，所述待处理视频为教学视频，所述多模态特征包括音频特征、文本特征和图像特征中的至少两种；所述内容边界条件为知识点边界条件，所述目标视频片段为知识点片段；所述装置还包括关联模块，所述关联模块，用于根据每个所述知识点片段对应的音频特征、文本特征和图像特征，生成每个所述知识点片段对应的知识点标签；将每个所述知识点片段和对应的知识点标签进行关联。

在一个实施例中，所述装置还包括：

提取模块，用于通过视频处理模型将样本视频分割为多个样本初始片段，并提取每个所述样本初始片段的样本多模态特征；

样本片段筛选模块，用于基于各所述样本初始片段的样本多模态特征，从多个所述样本初始片段中筛选满足所述内容边界条件条件的样本边界片段；

获取模块，用于获取样本分割数量，并确定在每个所述样本分割数量下分别对应的多个候选分割场景；所述候选分割场景中均包括有相应样本分割数量个样本边界片段；

样本场景筛选模块，用于基于与各所述候选分割场景分别对应的样本全局信息，从多个所述候选分割场景中确定出样本分割场景；所述样本全局信息表征相应候选分割场景中的各样本边界片段之间的相似关系；

预测模块，用于根据所述样本分割场景中包括的样本边界片段，将所述样本视频分割为多个预测视频片段；

调整模块，用于基于各所述预测视频片段分别与相应的标签视频片段之间的差异，调整所述视频处理模型的参数并继续训练，直至达到训练停止条件时停止，得到训练完成的目标视频处理模型；所述目标视频处理模型用于将待处理视频分割为多个目标视频片段。

本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

本申请还提供了一种计算机程序产品，所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述视频处理方法、装置、计算机设备、存储介质和计算机程序产品，将待处理视频分割为多个初始片段，以基于每个初始片段的多模态特征，从多个初始片段中筛选满足内容边界条件的边界片段，从而能够基于多模态特征初步筛选出相关性较差的各边界片段。获取预设分割数量，并确定在每个预设分割数量下分别对应的多个分割场景，其中，每个分割场景中均包括有相应预设分割数量个边界片段，从而能够对不同的分割数量划分不同的分割场景，以从多个分割场景中筛选最优的分割场景。全局信息表征相应分割场景中的各边界片段之间的相似关系，基于与各分割场景分别对应的全局信息，从多个分割场景中确定出目标分割场景，使得能够根据整个视频的全局信息，更准确地筛选出最优的分割场景。根据目标分割场景中包括的边界片段，将待处理视频分割为多个目标视频片段，能够提高视频分割的准确性，并且使得各目标视频片段之间的相关性最低，从而使得各目标视频片段所包含的内容相互独立，便于对部分视频内容进行查找，提高查找效率。

一种视频处理模型的训练方法，所述方法包括：

通过视频处理模型将样本视频分割为多个样本初始片段，并提取每个所述样本初始片段的样本多模态特征；

基于各所述样本初始片段的样本多模态特征，从多个所述样本初始片段中筛选满足内容边界条件条件的样本边界片段；

获取样本分割数量，并确定在每个所述样本分割数量下分别对应的多个候选分割场景；所述候选分割场景中均包括有相应样本分割数量个样本边界片段；

基于与各所述候选分割场景分别对应的样本全局信息，从多个所述候选分割场景中确定出样本分割场景；所述样本全局信息表征相应候选分割场景中的各样本边界片段之间的相似关系；

根据所述样本分割场景中包括的样本边界片段，将所述样本视频分割为多个预测视频片段；

基于各所述预测视频片段分别与相应的标签视频片段之间的差异，调整所述视频处理模型的参数并继续训练，直至达到训练停止条件时停止，得到训练完成的目标视频处理模型。

一种视频处理模型的训练装置，所述装置包括：

样本片段筛选模块，用于基于各所述样本初始片段的样本多模态特征，从多个所述样本初始片段中筛选满足内容边界条件条件的样本边界片段；

调整模块，用于基于各所述预测视频片段分别与相应的标签视频片段之间的差异，调整所述视频处理模型的参数并继续训练，直至达到训练停止条件时停止，得到训练完成的目标视频处理模型。

上述视频处理模型的训练方法、装置、计算机设备、存储介质和计算机程序产品，通过样本视频对视频处理模型进行训练，并在训练过程中调整模型的参数以提高模型的分割精度。通过训练好的目标视频处理模型能够将没有标注关键内容的长视频准确成多个视频片段，使得每个部分的关键内容均处于同一视频片段中，分割得到各视频片段之间的相关性最低，使得分割更准确。并且，分割得到各视频片段之间的相关性最低，则分割得到的视频片段所包含的内容相互独立，有利于用户快速查找需要的视频片段而不需要浏览整个长视频，减少视频查找的时间，提高查找效率。

附图说明

图1为一个实施例中视频处理方法的应用环境图；

图2为一个实施例中视频处理方法的流程示意图；

图3为一个实施例中基于与各分割场景分别对应的全局信息，从多个分割场景中确定出目标分割场景的步骤的流程示意图；

图4为另一个实施例中筛选出满足场景筛选条件的目标分割场景的流程示意图；

图5为一个实施例中视频处理模型的架构图；

图6为一个实施例教学资源平台的架构图；

图7为一个实施例目标视频处理模型的训练步骤的流程示意图；

图8为一个实施例视频处理模型的训练步骤的流程示意图；

图9为一个实施例中视频处理装置的结构框图；

图10为一个实施例中视频处理模型的训练装置的结构框图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的操作数据处理方法，可以应用于如图1所示的应用环境中。本申请涉及人工智能(Artificial Intelligence，AI)技术领域，其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。本申请实施例提供的方案涉及人工智能的视频处理方法，具体通过如下各实施例进行说明。

本申请实施例提供的视频处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。终端102和服务器104均可单独执行本申请实施例中提供的视频处理方法。终端102和服务器104也可协同用于执行本申请实施例中提供的视频处理方法。当终端102和服务器104协同用于执行本申请实施例中提供的视频处理方法时，终端102获取待处理视频，将待处理视频发送给服务器104。服务器104将待处理视频分割为多个初始片段，提取每个初始片段的多模态特征，服务器104基于各初始片段的多模态特征，从多个初始片段中筛选满足内容边界条件的边界片段。服务器104获取预设分割数量，并确定在每个预设分割数量下分别对应的多个分割场景，其中，每个分割场景中均包括有相应预设分割数量个边界片段。服务器104基于与各分割场景分别对应的全局信息，从多个分割场景中确定出目标分割场景，该全局信息表征相应分割场景中的各边界片段之间的相似关系。服务器104根据目标分割场景中包括的边界片段，将待处理视频分割为多个目标视频片段。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一个实施例中，如图2所示，提供了一种视频处理方法，以该方法应用于计算机设备(计算机设备具体可以是图1中的终端或服务器)为例进行说明，包括以下步骤：

步骤S202，将待处理视频分割为多个初始片段，提取每个初始片段的多模态特征。

其中，待处理视频是需要进行分割的视频，可以包括教学类视频、电影、电视剧、节目和动画中的至少一种，还可以是通过拍摄设备直接拍摄得到的视频，但不限于此。

多模态特征包括初始片段的音频特征、文本特征和图像特征中的至少一种。

具体地，计算机设备可获取待处理视频，对待处理视频进行分割处理，得到多个初始片段。

在一个实施例中，计算机设备可通过视频处理工具将待处理视频分割为多个时长相同的初始片段，例如各初始片段的时长均为5s。视频处理工具可以是ffmpeg工具。

对于每个初始片段，计算机设备可从初始片段中提取音频特征、文本特征和图像特征中的至少一种，将所提取的特征作为该初始片段的多模态特征。

步骤S204，基于各初始片段的多模态特征，从多个初始片段中筛选满足内容边界条件的边界片段。

其中，内容边界条件可以是初始片段的边界属于关键内容边界的概率阈值，关键内容边界是指关键内容结束的边界。满足内容边界条件可以是初始片段属于关键内容边界的概率大于或等于概率阈值。边界片段是指满足内容边界条件的初始片段。

具体地，计算机设备可获取内容边界条件，基于每个初始片段的多模态特征，判断相应初始片段是否满足内容边界条件，将满足内容边界条件的初始片段筛选出来作为边界片段。

在一个实施例中，计算机设备可根据初始片段的多模态特征，计算该初始片段的边界为关键内容边界的概率。按照相同的处理方式，可得到每个初始片段分别对应关键内容边界的概率。计算机设备可从各初始片段对应的属于关键内容边界的概率中，筛选出大于或等于概率阈值的概率，将所筛选出的概率对应的初始片段作为边界片段。

步骤S206，获取预设分割数量，并确定在每个预设分割数量下分别对应的多个分割场景，其中，每个分割场景中均包括有相应预设分割数量个边界片段。

其中，分割场景是指期望进行分割的片段所在的集合，还可以是指期望进行分割的切分点所在片段的集合。同一预设分割数量下的多个分割场景中，每个分割场景所包含的边界片段的数量与分割场景所对应的预设分割数量相同，即每个分割场景中均包括有相应预设分割数量个边界片段。例如，在预设分割数量为2时存在10种分割场景，则该10种分割场景中的每种分割场景均包含2个边界片段；在预设分割数量为3时存在5种分割场景，则该5种分割场景中的每种分割场景均包含3个边界片段。

具体地，计算机设备可基于边界片段的数量确定多个预设分割数量。计算机设备可从所有边界片段中，确定单个预设分割数量所对应的多个分割场景，每个分割场景中包括该预设分割数量个边界片段。按照相同的处理方式，可得到每个预设分割数量下分别对应的多个分割场景，并且，每个分割场景中均包括有相应预设分割数量个边界片段。

步骤S208，基于与各分割场景分别对应的全局信息，从多个分割场景中确定出目标分割场景；该全局信息表征相应分割场景中的各边界片段之间的相似关系。

其中，全局信息表征分割场景中的各边界片段之间的相似关系。

具体地，对于每个分割场景，计算机设备确定每个分割场景分别对应的全局信息，并根据各全局信息从多个分割场景中确定出目标分割场景。

进一步地，计算机设备确定分割场景中的各个边界片段之间的相似关系，以得到该分割场景对应的全局信息。按照相同的处理方式，可得到每个分割场景分别对应的全局信息。

在一个实施例，计算机设备确定每个分割场景分别对应的全局信息后，根据各分割场景所对应的全局分割信息，确定每个分割场景分别对应的场景分割信息。计算机设备根据每个分割场景分别对应的场景分割信息，从多个分割场景中确定出目标分割场景。进一步地，计算机设备根据每个分割场景分别对应的场景分割信息，从多个分割场景中筛选满足场景筛选条件的目标分割场景。

在一个实施例中，计算机设备基于同一预设分割数量下的多个分割场景所分别对应的场景分割信息，从多个预设分割数量中筛选出目标分割数量。基于目标分割数量下的多个分割场景所分别对应的场景分割信息，从目标分割数量下的多个分割场景中筛选出满足场景筛选条件的目标分割场景。

步骤S210，根据目标分割场景中包括的边界片段，将待处理视频分割为多个目标视频片段。

具体地，计算机设备可确定目标分割场景所包含的每个边界片段，并确定每个边界片段所对应的边界点，按照每个边界片段所对应的边界点在待处理视频中的位置，对该待处理视频进行分割，得到多个目标视频片段。

在一个实施例中，计算机设备可确定目标分割场景的每个边界片段分别对应的尾切分点，并确定每个尾切分点在待处理视频中对应的位置，按照每个尾切分点在待处理视频中对应的位置对该待处理视频进行分割，得到多个目标视频片段。

在一个实施例中，计算机设备可确定目标分割场景所包含的每个边界片段，并确定每个边界片段所对应的首尾切分点，每个边界片段均包括首尾切分点。其中，首尾切分点包括首切分点和尾切分点，首切分点为边界片段的起点，尾切分点是边界片段的结束点。对于目标分割场景中的每个边界片段，计算机设备从边界片段的首切分点和尾切分点中确定该边界片段所对应的边界点，以得到每个边界片段分别对应的边界点。计算机设备确定每个边界点在待处理视频中的位置，按照每个边界点在待处理视频中的位置对该待处理视频进行分割，得到多个目标视频片段。

在一个实施例中，计算机设备可确定目标分割场景所包含的每个边界片段，确定当前的边界片段和相邻的上一边界片段之间的各初始片段。将当前的边界片段和相邻的上一边界片段之间的各初始片段，与该当前的边界片段按时序进行拼接，得到对应的目标视频片段。将目标分割场景所包含的每个边界片段依次作为当前的边界片段，并按照相同的处理方式与对应的初始片段进行拼接处理，直至最后目标分割场景的最后一个边界片段完成拼接后停止，得到各目标视频片段。

本实施例中，将待处理视频分割为多个初始片段，以基于每个初始片段的多模态特征，从多个初始片段中筛选满足内容边界条件的边界片段，从而能够基于多模态特征初步筛选出相关性较差的各边界片段。获取预设分割数量，并确定在每个预设分割数量下分别对应的多个分割场景，其中，每个分割场景中均包括有相应预设分割数量个边界片段，从而能够对不同的分割数量划分不同的分割场景，以从多个分割场景中筛选最优的分割场景。全局信息表征相应分割场景中的各边界片段之间的相似关系，基于与各分割场景分别对应的全局信息，从多个分割场景中确定出目标分割场景，使得能够根据整个视频的全局信息，更准确地筛选出最优的分割场景。根据目标分割场景中包括的边界片段，将待处理视频分割为多个目标视频片段，能够有效提高视频分割的准确性，并且使得各目标视频片段之间的相关性最低，从而使得各目标视频片段所包含的内容相互独立，便于对部分视频内容进行查找，提高查找效率。

在一个实施例中，提取每个初始片段的多模态特征，包括：

将每个初始片段的音频特征、文本特征和图像特征中的至少一种，作为相应初始片段对应的多模态特征；其中，音频特征从相应初始片段的音频信息中提取、文本特征从相应初始片段的文本信息中提取、图像特征从相应初始片段的图像信息中提取。

具体地，对于每个初始片段，计算机设备可从初始片段中获取音频信息、文本信息和图像信息中的至少一种信息。当所获取的信息中包括音频信息时，从音频信息中提取音频特征；当所获取的信息中包括文本信息时，从文本信息中提取文本特征；当所获取的信息中包括图像信息时，从图像信息中提取图像特征。计算机设备将初始片段对应的音频特征、文本特征和图像特征中的至少一种，作为该初始片段对应的多模态特征。

在一个实施例中，计算机设备可将初始片段对应的音频特征、文本特征和图像特征进行拼接处理，得到该初始片段对应的多模态特征。

在一个实施例中，当所获取的信息中包括音频信息时，计算机设备可通过音频分析工具获取音频的短期时长特征，可包括短时平均过零率、短时能量、能量熵和梅尔倒谱系数(Mel Frequency Cepstral Coefficents，简称MFCC)中的至少一种。其中，短时平均过零率用于表征音频信号的频率特性，短时能量表示每帧音频信号的平方和，用于表征信号能量的强弱。能量熵用于表征音频信号的连续性。梅尔倒谱系数是一种语音特征，是在Mel标度频率域提取出来的倒谱参数，Mel标度用于描述人耳频率的非线性特性。计算机设备将单个初始片段的各短期时长特征融合得到该初始片段的音频特征。

在一个实施例中，计算机设备可将单个初始片段的各短期时长特征求均值和方差，将均值和方差融合时间序列信息，得到该初始片段的音频特征。

在一个实施例中，当计算机设备需要获取初始片段中的文本信息时，可按照特定时长截取初始片段中的图像，并截取字幕所在区域，从提取的字幕所在区域提取字幕。并且，对音频信息进行语音识别以转换为对应的文本，将字幕和语音视频所得到的文本作为文本信息。当所获取的信息中包括文本信息时，从文本信息中提取对应的文本特征。

在一个实施例中，当计算机设备需要提取初始片段中的图像特征时，可将初始片段进行分帧处理，得到该初始片段对应的多帧图像。计算机设备对多帧图像进行特征提取，得到对应的图像特征。进一步地，计算机设备将多帧图像的特征的均值作为该初始片段的图像特征。

在一个实施例中，计算机设备可对多帧图像进行去重处理，得到不重复的图像，并对去重处理后的图像分别进行特征提取。

本实施例中，将从初始片段的音频信息中提取的音频特征、从相应初始片段的文本信息中提取的文本特征、从相应初始片段的图像信息中提取的图像特征中的至少一种，作为相应初始片段对应的多模态特征，能够获取视频片段在不同维度的特征信息，以在后续处理中基于不同维度的特征信息进行边界片段的筛选，提高筛选的准确性。

在一个实施例中，基于各初始片段的多模态特征，从多个初始片段中筛选满足内容边界条件的边界片段，包括：

基于各初始片段的多模态特征进行边界预测，得到每个初始片段分别对应的边界预测结果；该边界预测结果表征初始片段的边界为关键内容边界的概率；基于各边界预测结果从多个初始片段中筛选出满足内容边界条件的边界片段。

其中，边界预测结果是指初始片段的边界为关键内容边界的概率，即初始片段的边界为初始片段中的关键内容结束的边界的概率。内容边界条件可以是初始片段的边界属于关键内容边界的概率阈值。

在一个实施例中，边界预测是粗略预测初始片段的边界是否为关键内容边界的过程，该边界预测结果为粗略预测结果。

具体地，对于每个初始片段，计算机设备可根据初始片段的多模态特征进行边界预测，以得到该初始片段的对应的边界预测结果。该边界预测结果表征初始片段的边界为关键内容边界的概率。按照相同的处理方式，可得到每个初始片段分别对应的边界预测结果。计算机设备可获取内容边界条件，将各边界预测结果分别和内容边界条件进行对比，以筛选出满足内容边界条件的初始片段，将所筛选出的初始片段作为边界片段。

在一个实施例中，计算机设备将每个初始片段分别对应关键内容边界的概率和概率阈值进行对比，筛选出大于或等于概率阈值的概率，将所筛选出的概率对应的初始片段作为边界片段。

本实施例中，边界预测结果表征初始片段的边界为关键内容边界的概率，基于各初始片段的多模态特征进行边界预测，得到每个初始片段分别对应的边界预测结果，能够基于多维度的特征，有效预测出初始片段的边界是否为初始片段中的关键内容结束的边界。基于各边界预测结果从多个初始片段中筛选出满足内容边界条件的边界片段，能够从所有初始片段中粗略筛选出边界为关键内容结束的边界的片段。

在一个实施例中，基于各初始片段的多模态特征进行边界预测，得到每个初始片段分别对应的边界预测结果，包括：

分别确定每个初始片段对应的预设数量的上下文视频片段；根据每个初始片段的多模态特征，以及每个初始片段对应的预设数量的上下文视频片段所对应的多模态特征进行边界预测，得到每个初始片段分别对应的边界预测结果。

具体地，计算机设备确定初始片段在待处理视频中对应的预设数量的上下文视频片段，例如初始片段对应的3个上文视频片段和3个下文视频片段。预设数量的上下文视频片段为当前的初始片段对应的预设数量个上文初始片段和预设数量个下文初始片段。

可以理解的是，初始片段和对应的预设数量的上下文视频片段在时间上具有连续性。

计算机设备获取初始片段对应的多模态特征，并获取预设数量的上下文视频片段中每个视频片段分别对应的多模态特征。计算机设备根据该初始片段对应的多模态特征和对应的预设数量的上下文视频片段所对应的多模态特征进行边界预测，得到该初始片段对应的边界预测结果。按照相同的处理方式，可得到每个初始片段分别对应的边界预测结果。

本实施例中，分别确定每个初始片段对应的预设数量的上下文视频片段，能够确定每个初始片段附近的多个视频片段的局部特征信息。根据每个初始片段的多模态特征，以及每个初始片段对应的预设数量的上下文视频片段所对应的多模态特征进行边界预测，能够结合初始片段附近的多个上下文片段的局部特征信息对初始片段进行边界预测，从而在粗略判断初始片段的边界是否为知识点的边界的同时，减少计算量，有效提高处理效率。

在一个实施例中，获取预设分割数量，并确定在每个预设分割数量下分别对应的多个分割场景，包括：

基于边界片段的数量确定多个预设分割数量；对于每个预设分割数量，分别从所有边界片段中，选择具有相应预设分割数量的边界片段组合为对应的分割场景，以得到在每个预设分割数量下分别对应的多个分割场景。

具体地，计算机设备可确定筛选出的边界片段的数量，基于边界片段的数量确定多个预设分割数量。进一步地，计算机设备可从最小数量起依次递增预设步长，直至递增后的数量达到边界片段的数量时停止，得到各递增后的数量，将最小数量和各递增后的数量均作为预设分割数量，从而得到多个预设分割数量。预设步长可以是1、2、3等，但不限于此，可根据需求设置。

例如，从1开始依次递增，将每次递增后的数量作为预设分割数量，每次递增步长为1，直至递增后的数量达到边界片段的数量时停止，得到各预设分割数量。比如，存在10个边界片段，则1至10的每个整数均作为预设分割数量，得到10个预设分割数量。

计算机设备从所有的边界片段中，选择预设分割数量的边界片段进行组合，以得到在该预设分割数量下对应的每个分割场景。例如，存在5个边界片段且预设分割数量分别为1至5的每个整数；对于预设分割数量为1时，有5种选择边界片段的方式，则可得到5种分割场景，每种分割场景中包含1个边界片段；对于预设分割数量为2时，有10种分割场景，每种分割场景中包含2个边界片段。

对于每个预设分割数量，均按照上述相同的方式处理，可得到在每个预设分割数量下分别对应的多个分割场景。

本实施例中，基于边界片段的数量确定多个预设分割数量，对于每个预设分割数量，分别从所有边界片段中，选择具有相应预设分割数量的边界片段组合为对应的分割场景，以得到在每个预设分割数量下分别对应的多个分割场景，从多种分割场景中筛选出最优分割场景，能够有效提高视频分割的准确性。

在一个实施例中，如图3所示，基于与各分割场景分别对应的全局信息，从多个分割场景中确定出目标分割场景，包括：

步骤S302，对于每个分割场景，确定相应分割场景中每个边界片段和相应分割场景中其余的边界片段之间的相似度。

具体地，对于单个分割场景，计算机设备计算该分割场景中的每个边界片段分别和该分割场景中其余的边界片段之间的相似度。对每个分割场景进行相同的处理，即可分别计算出每个分割场景中的每个边界片段分别与相应分割场景中其余的边界片段之间的相似度。

在一个实施例中，该相似度可以是余弦相似度。计算机设备可计算该分割场景中的每个边界片段分别和该分割场景中其余的边界片段之间的余弦相似度。

步骤S304，根据相应分割场景中每个边界片段和相应分割场景中其余的边界片段之间的相似度，确定相应分割场景中的每个边界片段分别对应的相似关系。

具体地，计算机设备根据单个分割场景中每个边界片段和该分割场景中其余的边界片段之间的相似度，计算该分割场景中的每个边界片段分别对应的相似关系。进一步地，计算机设备将该分割场景中的同一边界片段和该分割场景中的其余边界片段之间的相似度之和，与其余的边界片段的数量之间的比值，作为该同一边界片段所对应的相似关系。按照相同的处理方式，可得到该分割场景中的每个边界片段分别对应的相似关系。

在一个实施例中，将单个分割场景中的每个边界片段依次作为当前边界片段，计算出当前边界片段分别和该分割场景中的其余边界片段之间的相似度后，根据当前边界片段和其余边界片段之间的相似度，计算出当前边界片段所对应的相似关系。进一步地，计算机设备将当前边界片段和其余边界片段之间的相似度之和，与其余边界片段的数量之间的比值，作为该当前边界片段所对应的相似关系。按照相同的处理方式，可得到单个分割场景中的每个边界片段分别对应的相似关系。

例如，计算机设备可按照如下公式计算相似关系：

其中，g_sim(C_k,R_i,k)表示的当前边界片段C_k和分割场景内的其余的边界片段之间的相似关系，R_i,k为分割场景中除了当前边界片段C_k以外其余的边界片段的集合。C_i是指集合R_i,k中的第i个边界片段。

步骤S306，基于各分割场景对应的多个相似关系，确定每个分割场景对应的场景分割信息。

具体地，每个分割场景中的每个边界片段存在对应的相似关系，则每个分割场景对应多个相似关系。计算机设备根据单个分割场景所对应的多个相似关系，确定出该单个分割场景所对应的场景分割信息。

进一步地，计算机设备将单个分割场景所对应的多个相似关系之和，作为该单个分割场景所对应的场景分割信息。

在一个实施例中，场景分割信息可为场景分割得分，计算机设备将单个分割场景所对应的多个相似关系求和，得到该单个分割场景所对应的场景分割得分，将该场景分割得分作为该单个分割场景所对应的场景分割信息。

例如，计算机设备可按照如下公式计算分割场景的场景分割信息：

其中，f(γ_i)为分割场景γ_i对应的场景分割得分，即分割场景γ_i对应的场景分割信息。g_sim(C_k,R_i,k)表示的分割场景γ_i中的边界片段C_k和分割场景内的其余的边界片段之间的相似关系，即分割场景γ_i所对应的第k个相似关系。

步骤S308，基于每个场景分割信息，从各分割场景中筛选满足场景筛选条件的目标分割场景。

其中，场景筛选条件是指预设的场景分割信息，满足场景筛选条件是指分割场景信息与预设的场景分割信息相匹配。

在一个实施例中，场景分割信息可以是场景分割得分，场景筛选条件可以是场景分割阈值，或者阈值范围。满足场景筛选条件可以是场景分割得分大于或等于场景分割阈值，可以是场景分割得分处于阈值范围内，还可以是多个场景分割得分中的最大值。

具体地，计算机设备获取场景筛选条件，将每个分割场景对应的场景分割信息分别和场景筛选条件进行对比，将满足场景筛选条件的分割场景作为目标分割场景。

在一个实施例中，场景筛选条件为预设的场景分割信息，则计算机设备将每个分割场景对应的场景分割信息分别和预设的场景分割信息进行对比，将与预设的场景分割信息相匹配的场景分割信息所对应的分割场景作为目标分割场景。

本实施例中，对于每个分割场景，确定相应分割场景中每个边界片段和相应分割场景中其余的边界片段之间的相似度，根据相应分割场景中每个边界片段和相应分割场景中其余的边界片段之间的相似度，确定相应分割场景中的每个边界片段分别对应的相似关系，基于各分割场景对应的多个相似关系，准确确定每个分割场景对应的场景分割信息，从而能够基于多个场景分割信息，从多个分割场景中筛选满足场景筛选条件的目标分割场景，以筛选出最优的分割场景。

在一个实施例中，基于每个场景分割信息，从各分割场景中筛选满足场景筛选条件的目标分割场景，包括：

根据每个预设分割数量分别对应的多个场景分割信息，从多个预设分割数量中筛选出目标分割数量；根据目标分割数量对应的多个分割场景的场景分割信息，从目标分割数量对应的多个分割场景中筛选出满足场景筛选条件的目标分割场景。

具体地，计算机设备基于各分割场景对应的多个相似关系，确定每个分割场景对应的场景分割信息。每个预设分割数量对应多个分割场景，每个分割场景存在对应的场景分割信息，则每个预设分割数量对应多个场景分割信息。计算机设备基于根据每个预设分割数量分别对应的多个场景分割信息，从多个预设分割数量中筛选出满足信息筛选条件的目标分割数量。

场景筛选条件为预设的场景分割信息，则计算机设备筛选出目标分割数量后，将该目标分割数量下的多个分割场景对应的场景分割信息分别和预设的场景分割信息进行对比，筛选出与预设的场景分割信息相匹配的场景分割信息，将筛选出的场景分割信息所对应的分割场景作为目标分割场景。

在一个实施例中，计算机设备根据同一预设分割数量对应的多个场景分割信息，确定该同一预设分割数量对应的场景评价信息，以得到每个预设分割数量分别对应的场景评价信息。计算机设备可根据每个预设分别数量分别对应的场景评价信息，从多个预设分割数量中筛选出目标分割数量。根据目标分割数量对应的多个分割场景的场景分割信息，从目标分割数量对应的多个分割场景中筛选出满足场景筛选条件的目标分割场景。

本实施例中，计算机设备确定每个预设分割数量分别对应的场景评价信息后，可从多个预设分割数量中筛选出满足信息筛选条件的目标分割数量。其中，信息筛选条件可以是预设的场景评价信息，满足信息筛选条件是指场景评价信息与预设的场景评价信息相匹配。进一步地，计算机设备可将每个预设分割数量分别对应的场景评价信息和预设的场景评价信息进行对比，筛选出与预设的场景评价信息相匹配的场景评价信息所对应的预设分割数量，将筛选出的预设分割数量作为目标分割数量。

本实施例中，场景评价信息可以是场景评价值，信息筛选条件可以是评价阈值，或者评价阈值范围。满足信息筛选条件可以是场景评价值大于或等于评价阈值，可以是场景评价值处于评价阈值范围内，还可以是多个场景评价值中的最大值。

本实施例中，根据每个预设分割数量分别对应的多个场景分割信息，从多个预设分割数量中筛选出目标分割数量，能够先筛选出最优的目标分割数量，再进一步根据目标分割数量对应的多个分割场景的场景分割信息，从目标分割数量对应的多个分割场景中筛选出满足场景筛选条件的目标分割场景，从而能够在筛选出最优的目标分割数量的基础上，进一步筛选在该最优的目标分割数量下的最优分割场景，经过多层筛选有效提高筛选的准确性。

在一个实施例中，如图4所示，场景分割信息包括场景分割得分；根据每个预设分割数量分别对应的多个场景分割信息，从多个预设分割数量中筛选出目标分割数量，包括步骤S402和步骤S404：

步骤S402，对于每个预设分割数量，根据同一预设分割数量对应的多个场景分割得分，确定同一预设分割数量对应的场景评价值。

具体地，计算机设备根据单个分割场景所对应的多个相似关系，确定该单个分割场景所对应的场景分割得分。进一步地，将单个分割场景所对应的多个相似关系之和，作为该单个分割场景所对应的场景分割得分。或者，将单个分割场景所对应的多个相似关系分别和对应的权重进行加权求和，得到该单个分割场景所对应的场景分割得分。

计算机设备根据同一预设分割数量对应的多个场景分割得分，计算出该同一预设分割数量所对应的场景评价值。

在一个实施例中，计算机设备将同一预设分割数量对应的多个场景分割得分求和，得到该同一预设分割数量对应的场景评价值。以此类推，得到每个预设分割数量分别对应的场景评价值。

在其他实施例中，计算机设备可将同一预设分割数量对应的多个场景分割得分和对应的权重之间的乘积求和，得到该同一预设分割数量对应的场景评价值。以此类推，得到每个预设分割数量分别对应的场景评价值。

步骤S404，从各预设分割数量分别对应的场景评价值中，选择最大的场景评价值所对应的预设分割数量作为目标分割数量。

具体地，信息筛选条件可以是最大的场景评价值。计算机设备可将各预设分割数量分别对应的场景评价值和信息筛选条件进行比较，以筛选出满足信息筛选条件的场景评价值，即筛选出最大的场景评价值。将最大的场景评价值所对应的预设分割数量作为目标分割数量。

在一个实施例中，计算机设备将各预设分割数量分别对应的场景评价值进行比较，确定出最大的场景评价值，将最大的场景评价值所对应的预设分割数量作为目标分割数量。

根据目标分割数量对应的多个分割场景的场景分割信息，从目标分割数量对应的多个分割场景中筛选出满足场景筛选条件的目标分割场景，包括步骤S406：

步骤S406，从目标分割数量对应的多个分割场景的场景分割得分中，选择最大分割得分所对应的分割场景作为目标分割场景。

具体地，计算机设备确定目标分割数量下的多个分割场景中每个分割场景分别对应的场景分割得分，并将该目标分割数量对应的多个场景分割得分进行比较，筛选出最大的场景分割得分。计算机设备将最大的场景分割得分所对应的分割场景作为目标分割场景。

本实施例中，对于每个预设分割数量，根据同一预设分割数量对应的多个场景分割得分，确定同一预设分割数量对应的场景评价值，场景评价值最大说明该预设分割数量下的各边界片段的相关性最低。从各预设分割数量分别对应的场景评价值中，选择最大的场景评价值所对应的预设分割数量作为目标分割数量，能够从分割数量该维度先筛选出各边界片段的相关性最低时的预设分割数量。在此基础上，场景分割得分最大说明该分割场景下的各边界片段的相关性最低，使得能够进一步从目标分割数量对应的多个分割场景的场景分割得分中，选择最大分割得分所对应的分割场景作为目标分割场景，从而能够从分割场景该维度筛选出各边界片段的相关性最低的场景。经过多维度多层的筛选，能够提高筛选的准确性，进而提高视频分割的准确性。

在一个实施例中，该方法还包括：基于各目标视频片段的多模态特征，生成每个目标视频片段的描述信息；将每个目标视频片段和对应的描述信息进行关联。

其中，描述信息是指对目标视频片段所包含的关键内容进行概括的信息。描述信息可以是目标视频片段的主题标识、内容链接或内容概述等。

具体地，计算机设备将待处理视频分割为各目标视频片段后，计算机设备分别提取每个目标视频片段的多模态特征，得到每个目标视频片段分别对应的多模态特征。

计算机设备基于目标视频片段的多模态特征生成对应的描述信息，并将每个目标视频片段和对应的描述信息进行关联。

在一个实施例中，计算机设备分别对每个目标视频片段进行命名实体识别处理，得到每个目标视频片段分别对应的实体。将各实体分别作为相应目标视频片段的描述信息。其中，命名实体识别(Named Entity Recognition，简称NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。

在一个实施例中，计算机设备可基于目标视频片段的多模态特征，对该目标视频片段进行命名实体识别处理，得到该目标视频片段对应的实体，并将该实体作为该目标视频片段的描述信息。

本实施例中，基于各目标视频片段的多模态特征，生成每个目标视频片段的描述信息，将每个目标视频片段和对应的描述信息进行关联，能够通过描述信息对目标视频片段所包含的关键内容进行概括，便于查找相关内容所在视频片段。

在一个实施例中，待处理视频为教学视频，多模态特征包括音频特征、文本特征和图像特征中的至少两种；内容边界条件为知识点边界条件，目标视频片段为知识点片段；该方法还包括：

根据每个知识点片段对应的音频特征、文本特征和图像特征，生成每个知识点片段对应的知识点标签；将每个知识点片段和对应的知识点标签进行关联。

其中，知识点边界条件是指初始片段的边界为知识点结束的边界。知识点片段是指包含某个知识点的完整片段。知识点标签是指将知识点作为标签，以对相应知识点片段进行标记。

具体地，计算机设备将教学视频分割为多个初始片段，对于每个初始片段，提取初始片段中的音频特征、文本特征和图像特征中的至少两种，将所提取的特征拼接作为相应初始片段的多模态特征。

计算机设备基于各初始片段的多模态特征，判断各初始片段的边界是否为知识点结束的边界，并从多个初始片段中筛选出边界为知识点结束的边界的初始片段作为边界片段。

计算机设备获取预设分割数量，并确定在每个预设分割数量下分别对应的多个分割场景，其中，每个分割场景中均包括有相应预设分割数量个边界片段。基于与各分割场景分别对应的全局信息，从多个分割场景中确定出目标分割场景；全局信息表征相应分割场景中的各边界片段之间的相似关系。根据目标分割场景中包括的边界片段，将教学视频分割为多个知识点片段。各个步骤的具体处理过程可参见上述各个实施例。

计算机设备根据每个知识点片段对应的音频特征、文本特征和图像特征，对每个知识点片段进行命名实体识别处理，得到每个知识点片段分别对应的知识点实体。将各知识点实体分别作为相应知识点片段的知识点标签。计算机设备将每个知识点片段和对应的知识点标签进行关联。

在一个实施例中，当检测到用户对象存在薄弱知识点时，给用户对象推荐相对应的知识点视频。传统的大部分学习资源都是长视频，一个学习视频包含众多知识点，如果学生观看完整视频需要大量时间，可能会消减学习的热情。而本实施例提取出每个教学视频的重点，将教学视频按照知识点内容划分为小片段，并对应到特定知识点，方便学生的快速观看和回顾，能够有效针对不同学生进行个性化学习推荐，提高学生自主学习的效率和学习兴趣。

本实施例中，将视频处理方法应用在教学视频的分割场景上，能够将没有标注知识点的长视频分割成一个个片段，并给每个片段提取对应的知识点信息，一个片段对应一个知识点，有助于学习者快速观看和回顾。并且，能够给学习者提供个性化知识点视频推荐，减轻学习负担，提高学习效率。

在一个实施例中，提供了一种使用目标视频处理模型的视频处理方法，应用在教育场景的教学视频分割上，如图5所示，该目标视频处理模型部署在计算机设备上，包括：

(1)数据输入：将教学视频输入目标视频处理模型。

(2)视频初步分割：目标视频处理模型将教学视频分割为多个初始片段。

具体地，目标视频处理模型可采用ffmpeg工具将教学视频分割成5s长的均匀初始片段。

(3)多模态特征提取：目标视频处理模型提取每个初始片段分别对应的音频特征、文本特征和图像特征。其中，音频特征D1、文本特征D2和图像特征D3的提取处理如下：

音频信息：利用音频分析工具pyAudioAnalysis获取音频的短期时长特征，包括短时平均过零率(体现频率特性)、短时能量(每帧信号的平方和，体现信号能量的强弱)、能量熵(体现连续性)和MFCC(梅尔倒谱系数)等34个特征。此处窗口大小和步长分别选取音频长度的0.05％和0.025％。最后再获取5s音频的中期时长的特征矩阵，即对短期时长的特征求平均和方差，总共产生68维的初始音频特征，将初始音频特征输入到双向长短时记忆网络Bi-LSTM中，融入时间序列信息，得到最终音频特征D1。此外，进一步根据老师的讲话时长确定出老师的音频，调用ASR(Automatic Speech Recognition，自动语音识别技术)实现语音转文字，并入之后的文本信息一起分析。

文本信息：文本信息包括老师的口语表达文字，PPT(PowerPoin，演示文稿)、板书等文字内容。文本信息的提取包括提取字幕和老师音频文字。其中，

提取字幕：每秒截取10帧图片，截取字幕所在位置，灰度处理后使用OCR(OpticalCharacter Recognition，光学字符识别)提取文字；

老师音频文字：分离出老师的声音后使用ASR完成语音转文字；识别出视频中的PPT或者板书，使用OCR获取文字信息。

提取出文本信息后，目标视频处理模型利用基于Bert的微调模型SimCSE的编码层提取文本特征，通过bert第一层和最后一层的平均池化，得到一个768维度的特征向量，即文本特征D2。还可以使用VGG网络对文本信息进行特征提取。

图像信息：目标视频处理模型将初始片段进行分帧(每秒提取3帧)得到一系列图片，采用哈希值+汉明距离的方法对图片进行去重，得到不重复的图片。然后利用ResNet-50网络提取图像特征，对于单个5s的初始片段，计算单个5s的初始片段对应的所有去重图片的图像特征的均值作为最终的图像特征D3。

在其他实施例中，多模态特征还可以包括学生的音频特征、背景杂音特征等。

在其他实施例中，还可以采用注意力机制(即attention机制)进行多模态特征的提取。

(4)组合多语义特征：目标视频处理模型将得到的单个初始片段对应的音频特征、文字特征和图像特征拼接起来即可得到多模态特征表示S＝concatenation(D1，D2，D3)，从而得到各初始片段对应的多模态特征表示，即[s₁,s₂,…,s_n]。

(5)片段级别粗略预测：目标视频处理模型基于各初始片段的多模态特征进行边界预测，得到每个初始片段分别对应的粗略预测结果。

具体地，获取每个初始片段的多模态特征表示后，需要基于[s₁,s₂,…,s_n,]预测二分类标签，即预测初始片段的边界是否为知识点的结束边界。可以通过seq2seq方法实现，为了提高计算效率，在粗略预测的时候，只使用当前初始片段的N个上下文视频片段。具体可以采用Bi-LSTM网络，最后加上softmax层，得到介于[0，1]之间的粗略预测结果

该边界预测结果用于粗略判断当前初始片段的边界是否为知识点结束的边界。

(6)全局最优知识点划分：

进行边界片段的筛选：上个步骤筛选出的粗略预测结果比较粗糙，并且只考虑了当前初始片段附近N个视频片段的局部信息，没有考虑整个教学视频的上下文信息。为了获取全局信息，目标视频处理模型中可采用全局优化模型，输入初始片段对应的多模态特征表示[s₁,s₂,…,s_n,]和粗略预测结果

输出最终的边界预测结果[o₁,o₂,…,o_n-1]。基于最终的边界预测结果[o₁,o₂,…,o_n-1]从多个初始片段中筛选出满足内容边界条件的边界片段C_k，C＝{C_k}，其中C为边界片段的集合，集合C中包含K边界片段。

假设筛选出的片段级别的边界片段集合为C＝{C_k}，全局最优化的目标是将K个边界片段合并成j个最终片段。为了确定最佳片段个数j，需要遍历所有的分割结果，即j＝1，2，…，K，然后选择最佳的分割。

给定预设分割数量j，假设在预设分割数量j下存在的分割场景集合为γ＝{γ₁,γ₂,…,γ_j}，定义R_i,k＝γ_i\C_k表示分割场景γ_i中除了边界片段C_k之外的其余边界片段的集合，每个预设分割数量对应一个分割场景集合，定义场景分割得分f(γ_i)为：

将上述两个公式整理得到以下的优化函数F^*，即：

其中，

表示一个预设分割数量下的多个分割场景的分割得分之和，即一个预设分割数量对应的场景评价值。/>

表示从多个场景评价值中筛选出最大的场景评价值，最大的场景评价值对应的预设分割数量作为目标分割数量。/>

表示从目标分割数量对应的多个场景分割得分中选择最大分割得分。

使用动态规划来求解该最优化问题，即可得到目标分割数量和目标分割场景，从而得到教学视频的多个知识点片段。

(7)提取知识点标签：对于已经划分好的每个知识点片段，目标视频处理模型提取字幕或老师音频文字，结合PPT文本，运用NLP(Natural Language Processing，自然语言处理)中的命名实体识别提取出知识点实体，作为当前知识点片段的知识点标签。目标视频处理模型输出关联知识点标签后的各知识点片段。

在其他实施例，还可结合知识点图谱，进一步提高视频分割的准确度。知识点图谱是指预先设置的知识点所对应的图谱。

在一个实施例中，教学视频分割主要用于建立教学资源平台，整体系统如图6所示，包括资源处理系统、资源存储系统和资源应用系统。用户上传初始教学资源，主要是教学视频。资源处理系统对教学视频进行资源解析和音视频处理，然后调用教学视频分割模型(即目标视频处理模型)对教学视频进行分割，根据分割的知识点片段进行资源清洗和采集。资源存储系统，用于根据资源的不同类型，将教学视频和知识点片段存储到系统。资源应用系统用于具体的教学场景应用，比如课前预习的整体学习、课后知识点考察、薄弱知识点检测和个性化推荐等。

在一个实施例中，该方法应用于目标视频处理模型，如图7所示，该目标视频处理模型的训练步骤包括：

步骤S702，通过视频处理模型将样本视频分割为多个样本初始片段，并提取每个样本初始片段的样本多模态特征。

其中，样本视频是需要进行分割的、用于训练的视频，可以包括教学类视频、电影、电视剧、节目和动画中的至少一种，还可以是通过拍摄设备直接拍摄得到的视频，但不限于此。

样本多模态特征包括样本初始片段的音频特征、文本特征和图像特征中的至少一种。

具体地，视频处理模型可对输入的样本视频进行分割处理，得到多个样本初始片段。

在一个实施例中，视频处理模型可通过视频处理工具将样本视频分割为多个时长相同的样本初始片段，例如各样本初始片段的时长均为5s。

对于每个样本初始片段，视频处理模型可从样本初始片段中提取样本音频特征、样本文本特征和样本图像特征中的至少一种，将所提取的特征作为该样本初始片段的样本多模态特征。

步骤S704，基于各样本初始片段的样本多模态特征，从多个样本初始片段中筛选满足内容边界条件条件的样本边界片段。

其中，内容边界条件可以是样本初始片段的边界属于关键内容边界的概率阈值，关键内容边界是指关键内容结束的边界。满足内容边界条件可以是样本初始片段属于关键内容边界的概率大于或等于概率阈值。样本边界片段是指满足内容边界条件的样本初始片段。

具体地，视频处理模型可获取内容边界条件，基于每个样本初始片段的样本多模态特征，判断相应样本初始片段是否满足内容边界条件，将满足内容边界条件的样本初始片段筛选出来作为样本边界片段。

在一个实施例中，视频处理模型可根据样本初始片段的样本多模态特征，计算该样本初始片段的边界为关键内容边界的概率。按照相同的处理方式，可得到每个样本初始片段分别对应关键内容边界的概率。视频处理模型可从各样本初始片段对应的属于关键内容边界的概率中，筛选出大于或等于概率阈值的概率，将所筛选出的概率对应的样本初始片段作为样本边界片段。

步骤S706，获取样本分割数量，并确定在每个样本分割数量下分别对应的多个候选分割场景；该候选分割场景中均包括有相应样本分割数量个样本边界片段。

其中，候选分割场景是指期望进行分割的片段所在的集合，还可以是指期望进行分割的切分点所在片段的集合。同一样本分割数量下的多个候选分割场景中，每个候选分割场景所包含的样本边界片段的数量与候选分割场景所对应的样本分割数量相同，即每个候选分割场景中均包括有相应样本分割数量个样本边界片段。

具体地，视频处理模型可基于样本边界片段的数量确定多个样本分割数量。视频处理模型可从所有样本边界片段中，确定单个样本分割数量所对应的多个候选分割场景，每个候选分割场景中包括该样本分割数量个样本边界片段。按照相同的处理方式，可得到每个样本分割数量下分别对应的多个候选分割场景，并且，每个候选分割场景中均包括有相应样本分割数量个边界片段。

步骤S708，基于与各候选分割场景分别对应的样本全局信息，从多个候选分割场景中确定出样本分割场景；该样本全局信息表征相应候选分割场景中的各样本边界片段之间的相似关系。

其中，样本全局信息表征候选分割场景中的各样本边界片段之间的相似关系。

具体地，对于每个候选分割场景，视频处理模型确定每个候选分割场景分别对应的样本全局信息，并根据各样本全局信息从多个候选分割场景中确定出样本分割场景。

进一步地，视频处理模型确定候选分割场景中的各个边界片段之间的相似关系，以得到该候选分割场景对应的样本全局信息。按照相同的处理方式，可得到每个候选分割场景分别对应的样本全局信息。

在一个实施例，视频处理模型确定每个候选分割场景分别对应的样本全局信息后，根据各候选分割场景所对应的样本全局信息，确定每个候选分割场景分别对应的场景分割信息。视频处理模型根据每个候选分割场景分别对应的场景分割信息，从多个候选分割场景中确定出样本分割场景。进一步地，视频处理模型根据每个候选分割场景分别对应的场景分割信息，从多个候选分割场景中筛选满足场景筛选条件的样本分割场景。

在一个实施例中，视频处理模型基于同一预设分割数量下的多个候选分割场景所分别对应的场景分割信息，从多个样本分割数量中筛选出预测分割数量。基于预测分割数量下的多个候选分割场景所分别对应的场景分割信息，从预测分割数量下的多个候选分割场景中筛选出满足场景筛选条件的样本分割场景。

步骤S710，根据样本分割场景中包括的样本边界片段，将样本视频分割为多个预测视频片段。

具体地，视频处理模型可确定样本分割场景所包含的每个样本边界片段，并确定每个样本边界片段所对应的样本边界点，按照每个样本边界片段所对应的样本边界点在样本视频中的位置，对该样本视频进行分割，得到多个预测视频片段。

在一个实施例中，视频处理模型可确定样本分割场景的每个样本边界片段分别对应的样本尾切分点，并确定每个样本尾切分点在样本视频中对应的位置，按照每个样本尾切分点在样本视频中对应的位置对该样本视频进行分割，得到多个预测视频片段。

在一个实施例中，视频处理模型可确定样本分割场景所包含的每个样本边界片段，并确定每个样本边界片段所对应的样本首尾切分点，每个样本边界片段均包括样本首尾切分点。其中，样本首尾切分点包括样本首切分点和样本尾切分点，样本首切分点为样本边界片段的起点，样本尾切分点是样本边界片段的结束点。对于样本分割场景中的每个样本边界片段，视频处理模型从样本边界片段的样本首切分点和样本尾切分点中确定该样本边界片段所对应的样本边界点，以得到每个样本边界片段分别对应的样本边界点。视频处理模型确定每个样本边界点在样本视频中的位置，按照每个样本边界点在样本视频中的位置对该样本视频进行分割，得到多个预测视频片段。

步骤S712，基于各预测视频片段分别与相应的标签视频片段之间的差异，调整视频处理模型的参数并继续训练，直至达到训练停止条件时停止，得到训练完成的目标视频处理模型；该目标视频处理模型用于将待处理视频分割为多个目标视频片段。

具体地，视频处理模型确定每个预测视频片段和对应的标签视频片段之间的差异，根据各差异调整视频处理模型的参数并继续训练，直至达到训练停止条件时停止，得到训练完成的目标视频处理模型。训练好的目标视频处理模型用于将待处理视频分割为多个目标视频片段。

在一个实施例中，达到训练停止条件可以是达到迭代次数、各预测视频片段与相应的标签视频片段之间的差异小于或等于差异阈值，或者视频处理模型的损失值小于或等于损失阈值等。

例如，基于各预测视频片段分别与相应的标签视频片段之间的差异，确定视频处理模型的损失值，当损失值大于损失阈值时，调整视频处理模型的参数并继续训练，直至视频处理模型的损失值小于或等于损失阈值时停止，得到训练完成的目标视频处理模型。

本实施例中，通过样本视频对视频处理模型进行训练，并在训练过程中调整模型的参数以提高模型的分割精度。通过训练好的目标视频处理模型能够将没有标注关键内容的长视频准确成多个视频片段，使得每个部分的关键内容均处于同一视频片段中，分割得到各视频片段之间的相关性最低，使得分割更准确。并且，分割得到各视频片段之间的相关性最低，则分割得到的视频片段所包含的内容相互独立，有利于用户快速查找需要的视频片段而不需要浏览整个长视频，减少视频查找的时间，提高查找效率。

在一个实施例中，如图8所示，提供了一种视频处理模型的训练方法，以该方法应用于计算机设备(计算机设备具体可以是图1中的终端或服务器)为例进行说明，包括以下步骤：

步骤S802，通过视频处理模型将样本视频分割为多个样本初始片段，并提取每个样本初始片段的样本多模态特征。

步骤S804，基于各样本初始片段的样本多模态特征，从多个样本初始片段中筛选满足内容边界条件条件的样本边界片段。

步骤S806，获取样本分割数量，并确定在每个样本分割数量下分别对应的多个候选分割场景；该候选分割场景中均包括有相应样本分割数量个样本边界片段。

步骤S808，基于与各候选分割场景分别对应的样本全局信息，从多个候选分割场景中确定出样本分割场景；该样本全局信息表征相应候选分割场景中的各样本边界片段之间的相似关系。

步骤S810，根据样本分割场景中包括的样本边界片段，将样本视频分割为多个预测视频片段。

步骤S812，基于各预测视频片段分别与相应的标签视频片段之间的差异，调整视频处理模型的参数并继续训练，直至达到训练停止条件时停止，得到训练完成的目标视频处理模型。

具体地，视频处理模型确定每个预测视频片段和对应的标签视频片段之间的差异，根据各差异调整视频处理模型的参数并继续训练，直至达到训练停止条件时停止，得到训练完成的目标视频处理模型。

本实施例中，通过样本视频对视频处理模型进行训练，并在训练过程中调整模型的参数以提高模型的分割精度。通过训练好的目标视频处理模型能够将没有标注关键内容的长视频准确成多个视频片段，使得每个部分的关键内容均处于同一视频片段中，使得分割更准确。并且，将长视频分割为多个视频片段，有利于用户快速查找需要的视频片段而不需要浏览整个长视频，减少视频查找的时间，提高查找效率。

在一个实施例中，提供了一种视频处理方法，应用于计算机设备，包括：

将待处理视频分割为多个初始片段，从每个初始片段中获取音频信息、文本信息和图像信息。

分别对音频信息、文本信息和图像信息进行特征提取，得到各自对应的音频特征、文本特征和图像特征。

将同一初始片段对应的音频特征、文本特征和图像特征进行拼接处理，得到相应初始片段对应的多模态特征。

分别确定每个初始片段对应的预设数量的上下文视频片段；根据每个初始片段的多模态特征，以及每个初始片段对应的预设数量的上下文视频片段所对应的多模态特征进行边界预测，得到每个初始片段分别对应的边界预测结果；边界预测结果表征初始片段的边界为关键内容边界的概率。

基于各边界预测结果从多个初始片段中筛选出满足内容边界条件的边界片段。

基于边界片段的数量确定多个预设分割数量；对于每个预设分割数量，分别从所有边界片段中，选择具有相应预设分割数量的边界片段组合为对应的分割场景，以得到在每个预设分割数量下分别对应的多个分割场景，其中，每个分割场景中均包括有相应预设分割数量个边界片段。

对于每个分割场景，确定相应分割场景中每个边界片段和相应分割场景中其余的边界片段之间的相似度；根据相应分割场景中每个边界片段和相应分割场景中其余的边界片段之间的相似度，确定相应分割场景中的每个边界片段分别对应的相似关系。

基于各分割场景对应的多个相似关系，确定每个分割场景对应的场景分割得分；对于每个预设分割数量，根据同一预设分割数量对应的多个场景分割得分，确定同一预设分割数量对应的场景评价值。

从各预设分割数量分别对应的场景评价值中，选择最大的场景评价值所对应的预设分割数量作为目标分割数量；从目标分割数量对应的多个分割场景的场景分割得分中，选择最大分割得分所对应的分割场景作为目标分割场景。

根据目标分割场景中包括的边界片段，将待处理视频分割为多个目标视频片段。

基于各目标视频片段的多模态特征，生成每个目标视频片段的描述信息；将每个目标视频片段和对应的描述信息进行关联。

本实施例中，将待处理视频分割为多个初始片段，提取出音频特征、文本特征和图像特征，再拼接得到初始片段对应的多模态特征。再通过初始片段附近的多个邻近片段的上下文信息，预测初始片段的边界是否是关键内容的结束边界，以初步筛选出边界片段。完成初步筛选后，动态规划方式划分多种分割场景，并在每个分割场景中结合各边界片段之间的相似关系，筛选出最优分割场景，即结合整个视频的上下文信息筛选出全局最优的分割场景，以准确进行分割。最后对分割得到的目标视频片段，提取出每个目标视频片段对应的描述信息。本实施例可以有效的将长视频按照不同的关键内容分割成短视频，并给每个短视频提取对应的描述内容信息，使得各短视频相互独立，有助于快速查找和浏览。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的视频处理方法的视频处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个视频处理装置实施例中的具体限定可以参见上文中对于视频处理方法的限定，在此不再赘述。

在一个实施例中，如图9所示，提供了一种视频处理装置900，包括：初始分割模块902、片段筛选模块904、确定模块906、场景筛选模块908和目标分割模块910，其中：

初始分割模块902，用于将待处理视频分割为多个初始片段，提取每个初始片段的多模态特征。

片段筛选模块904，用于基于各初始片段的多模态特征，从多个初始片段中筛选满足内容边界条件的边界片段。

确定模块906，用于获取预设分割数量，并确定在每个预设分割数量下分别对应的多个分割场景，其中，每个分割场景中均包括有相应预设分割数量个边界片段。

场景筛选模块908，用于基于与各分割场景分别对应的全局信息，从多个分割场景中确定出目标分割场景；全局信息表征相应分割场景中的各边界片段之间的相似关系。

目标分割模块910，用于根据目标分割场景中包括的边界片段，将待处理视频分割为多个目标视频片段。

本实施例中，将待处理视频分割为多个初始片段，以基于每个初始片段的多模态特征，从多个初始片段中筛选满足内容边界条件的边界片段，从而能够基于多模态特征初步筛选出相关性较差的各边界片段。获取预设分割数量，并确定在每个预设分割数量下分别对应的多个分割场景，其中，每个分割场景中均包括有相应预设分割数量个边界片段，从而能够对不同的分割数量划分不同的分割场景，以从多个分割场景中筛选最优的分割场景。全局信息表征相应分割场景中的各边界片段之间的相似关系，基于与各分割场景分别对应的全局信息，从多个分割场景中确定出目标分割场景，使得能够根据整个视频的全局信息，更准确地筛选出最优的分割场景。根据目标分割场景中包括的边界片段，将待处理视频分割为多个目标视频片段，能够提高视频分割的准确性，并且使得各目标视频片段之间的相关性最低，从而使得各目标视频片段所包含的内容相互独立，便于对部分视频内容进行查找，提高查找效率。

在一个实施例中，初始分割模块902，还用于将每个初始片段的音频特征、文本特征和图像特征中的至少一种，作为相应初始片段对应的多模态特征；其中，音频特征从相应初始片段的音频信息中提取、文本特征从相应初始片段的文本信息中提取、图像特征从相应初始片段的图像信息中提取。

在一个实施例中，片段筛选模块904，还用于基于各初始片段的多模态特征进行边界预测，得到每个初始片段分别对应的边界预测结果；边界预测结果表征初始片段的边界为关键内容边界的概率；基于各边界预测结果从多个初始片段中筛选出满足内容边界条件的边界片段。

在一个实施例中，片段筛选模块904，还用于分别确定每个初始片段对应的预设数量的上下文视频片段；根据每个初始片段的多模态特征，以及每个初始片段对应的预设数量的上下文视频片段所对应的多模态特征进行边界预测，得到每个初始片段分别对应的边界预测结果。

在一个实施例中，确定模块906，还用于基于边界片段的数量确定多个预设分割数量；对于每个预设分割数量，分别从所有边界片段中，选择具有相应预设分割数量的边界片段组合为对应的分割场景，以得到在每个预设分割数量下分别对应的多个分割场景。

在一个实施例中，场景筛选模块908，还用于对于每个分割场景，确定相应分割场景中每个边界片段和相应分割场景中其余的边界片段之间的相似度；根据相应分割场景中每个边界片段和相应分割场景中其余的边界片段之间的相似度，确定相应分割场景中的每个边界片段分别对应的相似关系；基于各分割场景对应的多个相似关系，确定每个分割场景对应的场景分割信息；基于每个场景分割信息，从各分割场景中筛选满足场景筛选条件的目标分割场景。

在一个实施例中，场景筛选模块908，还用于根据每个预设分割数量分别对应的多个场景分割信息，从多个预设分割数量中筛选出目标分割数量；根据目标分割数量对应的多个分割场景的场景分割信息，从目标分割数量对应的多个分割场景中筛选出满足场景筛选条件的目标分割场景。

在一个实施例中，场景分割信息包括场景分割得分；场景筛选模块908，还用于对于每个预设分割数量，根据同一预设分割数量对应的多个场景分割得分，确定同一预设分割数量对应的场景评价值；从各预设分割数量分别对应的场景评价值中，选择最大的场景评价值所对应的预设分割数量作为目标分割数量；从目标分割数量对应的多个分割场景的场景分割得分中，选择最大分割得分所对应的分割场景作为目标分割场景。

在一个实施例中，该装置还包括关联模块，关联模块，用于基于各目标视频片段的多模态特征，生成每个目标视频片段的描述信息；将每个目标视频片段和对应的描述信息进行关联。

在一个实施例中，待处理视频为教学视频，多模态特征包括音频特征、文本特征和图像特征中的至少两种；内容边界条件为知识点边界条件，目标视频片段为知识点片段；该装置还包括关联模块，关联模块，用于根据每个知识点片段对应的音频特征、文本特征和图像特征，生成每个知识点片段对应的知识点标签；将每个知识点片段和对应的知识点标签进行关联。

在一个实施例中，该装置还包括：

提取模块，用于通过视频处理模型将样本视频分割为多个样本初始片段，并提取每个样本初始片段的样本多模态特征。

样本片段筛选模块，用于基于各样本初始片段的样本多模态特征，从多个样本初始片段中筛选满足内容边界条件条件的样本边界片段。

获取模块，用于获取样本分割数量，并确定在每个样本分割数量下分别对应的多个候选分割场景；该候选分割场景中均包括有相应样本分割数量个样本边界片段。

样本场景筛选模块，用于基于与各候选分割场景分别对应的样本全局信息，从多个候选分割场景中确定出样本分割场景；样本全局信息表征相应候选分割场景中的各样本边界片段之间的相似关系。

预测模块，用于根据样本分割场景中包括的样本边界片段，将样本视频分割为多个预测视频片段。

调整模块，用于基于各预测视频片段分别与相应的标签视频片段之间的差异，调整视频处理模型的参数并继续训练，直至达到训练停止条件时停止，得到训练完成的目标视频处理模型；目标视频处理模型用于将待处理视频分割为多个目标视频片段。

上述视频处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的视频处理模型的训练方法的视频处理模型的训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个视频处理模型的训练装置实施例中的具体限定可以参见上文中对于视频处理模型的训练方法的限定，在此不再赘述。

在一个实施例中，如图10所示，提供了一种视频处理模型的训练装置1000，包括：提取模块1002、样本片段筛选模块1004、获取模块1006、样本场景筛选模块1008、预测模块1010和预测模块1010，其中：

提取模块1002，用于通过视频处理模型将样本视频分割为多个样本初始片段，并提取每个样本初始片段的样本多模态特征。

样本片段筛选模块1004，用于基于各样本初始片段的样本多模态特征，从多个样本初始片段中筛选满足内容边界条件条件的样本边界片段。

获取模块1006，用于获取样本分割数量，并确定在每个样本分割数量下分别对应的多个候选分割场景；候选分割场景中均包括有相应样本分割数量个样本边界片段。

样本场景筛选模块1008，用于基于与各候选分割场景分别对应的样本全局信息，从多个候选分割场景中确定出样本分割场景；该样本全局信息表征相应候选分割场景中的各样本边界片段之间的相似关系。

预测模块1010，用于根据样本分割场景中包括的样本边界片段，将样本视频分割为多个预测视频片段。

调整模块1012，用于基于各预测视频片段分别与相应的标签视频片段之间的差异，调整视频处理模型的参数并继续训练，直至达到训练停止条件时停止，得到训练完成的目标视频处理模型。

本实施例中，通过样本视频对视频处理模型进行训练，并在训练过程中调整模型的参数以提高模型的分割精度。通过训练好的目标视频处理模型能够将没有标注关键内容的长视频准确成多个视频片段，使得每个部分的关键内容均处于同一视频片段中，使得分割更准确。并且，将长视频分割为多个视频片段，有利于用户快速查找需要的视频片段而不需要浏览整个长视频，减少视频查找的时间，提高查找效率

上述视频处理模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频处理和视频处理模型的训练数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频处理方法，以及一种视频处理模型的训练方法。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。并且，用户可以拒绝或可以便捷拒绝视频推送信息等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

基于所述边界片段的数量确定多个预设分割数量，所述多个预设分割数量的最大值为所述边界片段的数量；

针对每个预设分割数量，分别从所有边界片段中，选择所针对的预设分割数量个不重复的边界片段进行组合，得到在每个所述预设分割数量下分别对应的多个分割场景；

对于每个所述分割场景，确定相应分割场景中每个边界片段和所述相应分割场景中其余的边界片段之间的相似度；

根据所述相应分割场景中每个边界片段和所述相应分割场景中其余的边界片段之间的相似度之和，与所述其余的边界片段的数量之间的比值，确定所述相应分割场景中的每个所述边界片段分别对应的相似关系；

基于各所述分割场景对应的多个相似关系，确定每个所述分割场景对应的场景分割信息，基于每个所述场景分割信息，从各所述分割场景中筛选满足场景筛选条件的目标分割场景；

2.根据权利要求1所述的方法，其特征在于，所述提取每个所述初始片段的多模态特征，包括：

将每个所述初始片段的音频特征、文本特征和图像特征中的至少一种，作为相应初始片段对应的多模态特征；

其中，所述音频特征从相应初始片段的音频信息中提取、所述文本特征从相应初始片段的文本信息中提取、所述图像特征从相应初始片段的图像信息中提取。

3.根据权利要求1所述的方法，其特征在于，所述基于各所述初始片段的多模态特征，从多个所述初始片段中筛选满足内容边界条件的边界片段，包括：

基于各所述初始片段的多模态特征进行边界预测，得到每个所述初始片段分别对应的边界预测结果；所述边界预测结果表征所述初始片段的边界为关键内容边界的概率；

基于各所述边界预测结果从多个所述初始片段中筛选出满足内容边界条件的边界片段。

4.根据权利要求3所述的方法，其特征在于，所述基于各所述初始片段的多模态特征进行边界预测，得到每个所述初始片段分别对应的边界预测结果，包括：

分别确定每个所述初始片段对应的预设数量的上下文视频片段；

根据每个所述初始片段的多模态特征，以及每个所述初始片段对应的预设数量的上下文视频片段所对应的多模态特征进行边界预测，得到每个所述初始片段分别对应的边界预测结果。

5.根据权利要求1所述的方法，其特征在于，所述基于每个所述场景分割信息，从各所述分割场景中筛选满足场景筛选条件的目标分割场景，包括：

根据每个所述预设分割数量分别对应的多个所述场景分割信息，从多个所述预设分割数量中筛选出目标分割数量；

根据所述目标分割数量对应的多个分割场景的场景分割信息，从所述目标分割数量对应的多个分割场景中筛选出满足场景筛选条件的目标分割场景。

6.根据权利要求5所述的方法，其特征在于，所述场景分割信息包括场景分割得分；所述根据每个所述预设分割数量分别对应的多个所述场景分割信息，从多个所述预设分割数量中筛选出目标分割数量，包括：

对于每个所述预设分割数量，根据同一预设分割数量对应的多个场景分割得分，确定所述同一预设分割数量对应的场景评价值；

从各所述预设分割数量分别对应的场景评价值中，选择最大的场景评价值所对应的预设分割数量作为目标分割数量；

所述根据所述目标分割数量对应的多个分割场景的场景分割信息，从所述目标分割数量对应的多个分割场景中筛选出满足场景筛选条件的目标分割场景，包括：

从所述目标分割数量对应的多个分割场景的场景分割得分中，选择最大分割得分所对应的分割场景作为目标分割场景。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于各所述目标视频片段的多模态特征，生成每个所述目标视频片段的描述信息；

将每个所述目标视频片段和对应的描述信息进行关联。

8.根据权利要求1至7中任意一项所述的方法，其特征在于，所述待处理视频为教学视频，所述多模态特征包括音频特征、文本特征和图像特征中的至少两种；所述内容边界条件为知识点边界条件，所述目标视频片段为知识点片段；所述方法还包括：

根据每个所述知识点片段对应的音频特征、文本特征和图像特征，生成每个所述知识点片段对应的知识点标签；

将每个所述知识点片段和对应的知识点标签进行关联。

9.根据权利要求1至7中任意一项所述的方法，其特征在于，所述方法应用于目标视频处理模型，所述目标视频处理模型的训练步骤包括：

基于各所述样本初始片段的样本多模态特征，从多个所述样本初始片段中筛选满足所述内容边界条件条件的样本边界片段；

基于所述样本边界片段的数量确定多个样本分割数量，所述多个样本分割数量的最大值为所述样本边界片段的数量；

针对每个样本分割数量，分别从所有样本边界片段中，选择所针对的样本分割数量个不重复的样本边界片段进行组合，得到在每个所述样本分割数量下分别对应的多个候选分割场景；

对于每个所述候选分割场景，确定相应候选分割场景中每个样本边界片段和所述相应候选分割场景中其余的样本边界片段之间的相似度；

根据所述相应候选分割场景中每个样本边界片段和所述相应候选分割场景中其余的样本边界片段之间的相似度之和，与所述其余的样本边界片段的数量之间的比值，确定所述相应候选分割场景中的每个所述样本边界片段分别对应的相似关系；

基于各所述候选分割场景对应的多个相似关系，确定每个所述候选分割场景对应的场景分割信息，基于每个所述场景分割信息，从各所述候选分割场景中筛选满足场景筛选条件的样本分割场景；

基于各所述预测视频片段分别与相应的标签视频片段之间的差异，调整所述视频处理模型的参数并继续训练，直至达到训练停止条件时停止，得到训练完成的目标视频处理模型；所述目标视频处理模型用于将待处理视频分割为多个目标视频片段。

10.一种视频处理模型的训练方法，其特征在于，所述方法包括：

11.一种视频处理装置，其特征在于，所述装置包括：

确定模块，用于基于所述边界片段的数量确定多个预设分割数量，所述多个预设分割数量的最大值为所述边界片段的数量；针对每个预设分割数量，分别从各边界片段中，选择所针对的预设分割数量个不重复的边界片段进行组合，得到在每个所述预设分割数量下分别对应的多个分割场景；

场景筛选模块，用于对于每个所述分割场景，确定相应分割场景中每个边界片段和所述相应分割场景中其余的边界片段之间的相似度；根据所述相应分割场景中每个边界片段和所述相应分割场景中其余的边界片段之间的相似度之和，与所述其余的边界片段的数量之间的比值，确定所述相应分割场景中的每个所述边界片段分别对应的相似关系；基于各所述分割场景对应的多个相似关系，确定每个所述分割场景对应的场景分割信息，基于每个所述场景分割信息，从各所述分割场景中筛选满足场景筛选条件的目标分割场景；

12.根据权利要求11所述的装置，其特征在于，所述初始分割模块，还用于将每个所述初始片段的音频特征、文本特征和图像特征中的至少一种，作为所述相应初始片段对应的多模态特征；其中，所述音频特征从相应初始片段的音频信息中提取、所述文本特征从相应初始片段的文本信息中提取、所述图像特征从相应初始片段的图像信息中提取。

13.根据权利要求11所述的装置，其特征在于，所述片段筛选模块，还用于基于各所述初始片段的多模态特征进行边界预测，得到每个所述初始片段分别对应的边界预测结果；所述边界预测结果表征所述初始片段的边界为关键内容边界的概率；基于各所述边界预测结果从多个所述初始片段中筛选出满足内容边界条件的边界片段。

14.根据权利要求13所述的装置，其特征在于，所述片段筛选模块，还用于分别确定每个所述初始片段对应的预设数量的上下文视频片段；根据每个所述初始片段的多模态特征，以及每个所述初始片段对应的预设数量的上下文视频片段所对应的多模态特征进行边界预测，得到每个所述初始片段分别对应的边界预测结果。

15.根据权利要求11所述的装置，其特征在于，所述场景筛选模块，还用于根据每个所述预设分割数量分别对应的多个所述场景分割信息，从多个所述预设分割数量中筛选出目标分割数量；根据所述目标分割数量对应的多个分割场景的场景分割信息，从所述目标分割数量对应的多个分割场景中筛选出满足场景筛选条件的目标分割场景。

16.根据权利要求15所述的装置，其特征在于，所述场景分割信息包括场景分割得分；所述场景筛选模块，还用于对于每个所述预设分割数量，根据同一预设分割数量对应的多个场景分割得分，确定所述同一预设分割数量对应的场景评价值；从各所述预设分割数量分别对应的场景评价值中，选择最大的场景评价值所对应的预设分割数量作为目标分割数量；从所述目标分割数量对应的多个分割场景的场景分割得分中，选择最大分割得分所对应的分割场景作为目标分割场景。

17.根据权利要求11所述的装置，其特征在于，所述装置还包括关联模块，所述关联模块，用于基于各所述目标视频片段的多模态特征，生成每个所述目标视频片段的描述信息；将每个所述目标视频片段和对应的描述信息进行关联。

18.根据权利要求11至17中任意一项所述的装置，其特征在于，所述待处理视频为教学视频，所述多模态特征包括音频特征、文本特征和图像特征中的至少两种；所述内容边界条件为知识点边界条件，所述目标视频片段为知识点片段；所述装置还包括关联模块，所述关联模块，用于根据每个所述知识点片段对应的音频特征、文本特征和图像特征，生成每个所述知识点片段对应的知识点标签；将每个所述知识点片段和对应的知识点标签进行关联。

19.根据权利要求11至17中任意一项所述的装置，其特征在于，所述装置还包括：

获取模块，用于基于所述样本边界片段的数量确定多个样本分割数量，所述多个样本分割数量的最大值为所述样本边界片段的数量；针对每个样本分割数量，分别从所有样本边界片段中，选择所针对的样本分割数量个不重复的样本边界片段进行组合，得到在每个所述样本分割数量下分别对应的多个候选分割场景；

样本场景筛选模块，用于对于每个所述候选分割场景，确定相应候选分割场景中每个样本边界片段和所述相应候选分割场景中其余的样本边界片段之间的相似度；根据所述相应候选分割场景中每个样本边界片段和所述相应候选分割场景中其余的样本边界片段之间的相似度之和，与所述其余的样本边界片段的数量之间的比值，确定所述相应候选分割场景中的每个所述样本边界片段分别对应的相似关系；基于各所述候选分割场景对应的多个相似关系，确定每个所述候选分割场景对应的场景分割信息，基于每个所述场景分割信息，从各所述候选分割场景中筛选满足场景筛选条件的样本分割场景；

20.一种视频处理模型的训练装置，其特征在于，所述装置包括：

获取模块，用于基于所述样本边界片段的数量确定多个样本分割数量，所述多个样本分割数量的最大值为所述样本边界片段的数量；针对每个样本分割数量，分别从各样本边界片段中，选择所针对的样本分割数量个不重复的样本边界片段进行组合，得到在每个所述样本分割数量下分别对应的多个候选分割场景；

21.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。

22.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。