CN116612060B

CN116612060B - 视频信息处理方法、装置及存储介质

Info

Publication number: CN116612060B
Application number: CN202310885382.XA
Authority: CN
Inventors: 许良晟; 舒秀军; 谯睿智
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-09-22
Anticipated expiration: 2043-07-19
Also published as: CN116612060A

Abstract

本发明公开了一种视频信息处理方法、装置及存储介质，先获取待处理视频，再在待处理视频中确定目标帧区间，然后根据目标帧区间中多个连续的待处理视频帧对待处理视频进行数据增强处理，得到包括多个连续的增强视频帧的目标视频，并在目标视频中为多个连续的增强视频帧的起始位置和结束位置分别配置事件切分点标签，接着根据目标视频、事件切分点标签和镜头切分点标签，对视频切分点预测模型进行训练。本发明实施例可使目标视频能够模拟真实视频样本发生的事件变化，从而能够用于提高模型对视频的切分准确性。本发明实施例可应用于例如视频信息处理、视频切分点预测等图像处理技术领域中。

Description

视频信息处理方法、装置及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种视频信息处理方法、装置及存储介质。

背景技术

在相关技术中，对视频进行时序上的切分，是许多视频类任务的一个重要先导环节，例如可以将切分后的视频片段用于视频编辑、视频理解、视频识别、视频拆条等不同的视频类任务。目前常用的视频切分方法是基于深度学习的视频切分方法，通过深度学习模型对视频中的切分点进行预测，从而实现对视频的切分。

在相关技术中，为了提高深度学习模型对视频的切分准确性，常常会对视频样本进行图像数据增强，弥补训练样本的不足，防止模型出现过拟合现象，从而增强模型的泛化能力。但是，相关技术中的图像数据增强，只是采用几何变换、颜色变换或像素变换等方式对视频样本中的多帧图像进行相同的静态图像数据增强，因此难以进一步提高模型对视频的切分准确性。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种视频信息处理方法、装置及存储介质，能够使得目标视频可以有效地模拟真实视频样本中发生的事件变化，从而能够用于提高模型对视频的切分准确性。

一方面，本发明实施例提供了一种视频信息处理方法，包括以下步骤：

获取待处理视频，所述待处理视频包括多个连续的待处理视频帧；

在所述待处理视频中确定目标帧区间；

根据所述目标帧区间中多个连续的所述待处理视频帧，对所述待处理视频进行数据增强处理，得到目标视频，所述目标视频包括多个连续的增强视频帧；

在所述目标视频中，为所述多个连续的增强视频帧的起始位置和结束位置分别配置事件切分点标签；

根据所述目标视频、所述事件切分点标签和镜头切分点标签，对视频切分点预测模型进行训练。

另一方面，本发明实施例还提供了一种视频信息处理装置，包括：

视频获取单元，用于获取待处理视频，所述待处理视频包括多个连续的待处理视频帧；

帧区间确定单元，用于在所述待处理视频中确定目标帧区间；

数据增强单元，用于根据所述目标帧区间中多个连续的所述待处理视频帧，对所述待处理视频进行数据增强处理，得到目标视频，所述目标视频包括多个连续的增强视频帧；

标签配置单元，用于在所述目标视频中，为所述多个连续的增强视频帧的起始位置和结束位置分别配置事件切分点标签；

视频处理单元，用于根据所述目标视频、所述事件切分点标签和镜头切分点标签，对视频切分点预测模型进行训练。

可选地，所述数据增强单元还用于：

根据所述目标帧区间中多个连续的所述待处理视频帧，对所述待处理视频进行动态数据增强处理，得到目标视频，所述动态数据增强处理用于使得所述多个连续的增强视频帧发生的变化不同。

可选地，所述数据增强单元还用于：

在所述待处理视频中确定多个连续的待增强视频帧；

将所述目标帧区间中多个连续的所述待处理视频帧中的内容，叠加至多个连续的所述待增强视频帧中，以得到多个连续的增强视频帧；

将包含所述多个连续的增强视频帧的所述待处理视频作为目标视频。

可选地，所述数据增强单元还用于：

获取所述目标帧区间中多个连续的所述待处理视频帧的图像信息；

将多个连续的所述待处理视频帧的图像信息分别叠加至多个连续的所述待增强视频帧中，以得到多个连续的增强视频帧。

可选地，所述数据增强单元还用于：

基于所述目标帧区间中多个连续的所述待处理视频帧，得到多个不同尺寸的目标区域图像；

将所述多个不同尺寸的目标区域图像调整为相同尺寸，并将相同尺寸的多个目标区域图像作为所述多个连续的增强视频帧；

将所述目标帧区间中多个连续的所述待处理视频帧，替换为所述多个连续的增强视频帧，得到目标视频。

可选地，所述数据增强单元还用于：

对所述多个不同尺寸的目标区域图像进行缩小或者放大的调整，使得所述多个不同尺寸的目标区域图像被调整为相同尺寸。

可选地，所述数据增强单元还用于：

获取所述目标帧区间中多个连续的所述待处理视频帧的局部图像信息；

对所述多个连续的所述待处理视频帧的局部图像信息进行光线、色彩或纹理中的至少一种图像参数调整，得到目标视频，其中，所述目标帧区间中不同待处理视频帧对应的图像参数调整的程度不同，经过所述图像参数调整的所述多个连续的所述待处理视频帧为所述多个连续的增强视频帧。

可选地，所述数据增强单元还用于：

在所述目标帧区间中多个连续的所述待处理视频帧中确定候选帧区域；

根据所述候选帧区域对所述目标帧区间中多个连续的所述待处理视频帧进行图像截取，得到所述目标帧区间中多个连续的所述待处理视频帧的局部图像信息。

可选地，所述视频处理单元还用于：

调用所述视频切分点预测模型对所述目标视频进行镜头切分点预测和事件切分点预测，得到镜头切分点结果和事件切分点结果；

根据所述镜头切分点结果、所述事件切分点结果、镜头切分点标签和所述事件切分点标签，对所述视频切分点预测模型进行参数调整。

可选地，所述视频处理单元还用于：

调用所述视频切分点预测模型对所述目标视频进行事件切分点预测，得到所述目标视频中各个待处理视频帧的事件切分点概率；

将所述事件切分点概率大于第三预设阈值的所述待处理视频帧确定为第三目标样本帧；

在所述目标视频中确定第二样本帧区间，将所述第二样本帧区间中的一个视频帧确定为第四目标样本帧，其中，所述第二样本帧区间中的每个所述待处理视频帧的所述事件切分点概率均大于第四预设阈值，所述第四预设阈值小于所述第三预设阈值；

根据所述第三目标样本帧和所述第四目标样本帧得到事件切分点结果。

可选地，所述镜头切分点结果包括至少一个镜头切分点，其中，所述镜头切分点为镜头内容直接跳变的相邻两个待处理视频帧中的一个，或者，所述镜头切分点包括镜头内容渐变的多个连续的待处理视频帧。

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当至少一个所述程序被至少一个所述处理器执行时实现如前面所述的视频信息处理方法。

另一方面，本发明实施例还提供了一种计算机可读存储介质，其中存储有处理器可执行的计算机程序，所述处理器可执行的计算机程序被处理器执行时用于实现如前面所述的视频信息处理方法。

另一方面，本发明实施例还提供了一种计算机程序产品，包括计算机程序或计算机指令，所述计算机程序或所述计算机指令存储在计算机可读存储介质中，视频信息处理装置的处理器从所述计算机可读存储介质读取所述计算机程序或所述计算机指令，处理器执行计算机程序或计算机指令，使得视频信息处理装置执行如前面的视频信息处理方法。

本发明实施例至少包括以下有益效果：在获取包括多个连续的待处理视频帧的待处理视频之后，先在待处理视频中确定目标帧区间，然后根据目标帧区间中多个连续的待处理视频帧对待处理视频进行数据增强处理，得到包括多个连续的增强视频帧的目标视频；由于用于对待处理视频进行数据增强处理的内容，是目标帧区间中多个连续的待处理视频帧的内容，而这些连续的待处理视频帧的内容会是动态变化的，因此用于对待处理视频进行数据增强处理的这些内容也会是动态变化的，所以，在将多个连续的待处理视频帧对待处理视频进行数据增强处理后，能够使得待处理视频中的被进行数据增强的不同待处理视频帧之间，即不同的增强视频帧之间，可以得到不相同的动态数据增强，因此，相比于相关技术中的对各帧图像进行相同的静态图像数据增强，可以使得目标视频能够更为有效地模拟真实视频样本中发生的事件变化。进一步地，在得到目标视频之后，在目标视频中，为多个连续的增强视频帧的起始位置和结束位置分别配置事件切分点标签，然后根据目标视频、事件切分点标签和镜头切分点标签，对视频切分点预测模型进行训练；由于多个连续的增强视频帧能够用于模拟真实视频样本中发生的事件变化，因此在为这些增强视频帧的起始位置和结束位置分别配置事件切分点标签后，可以通过事件切分点标签表征目标视频的事件切分点，另外，镜头切分点标签能够表征目标视频的镜头切分点，所以，可以利用目标视频作为训练样本，并利用事件切分点标签和镜头切分点标签作为训练标签，对视频切分点预测模型进行训练，从而可以提高视频切分点预测模型对视频的镜头切分点和事件切分点的预测准确性，进而可以有效提高视频切分点预测模型的性能表现。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明实施例提供的一种实施环境的示意图；

图2是本发明实施例提供的另一种实施环境的示意图；

图3是本发明实施例提供的一种视频信息处理方法的流程图；

图4是本发明一个实施例提供的根据图像内容渐变策略对待处理视频信息进行数据增强得到的目标视频信息的示意图；

图5是本发明另一个实施例提供的根据图像内容渐变策略对待处理视频信息进行数据增强得到的目标视频信息的示意图；

图6是本发明一个实施例提供的根据图像动态缩放策略对待处理视频信息进行数据增强得到的目标视频信息的示意图；

图7是本发明另一个实施例提供的根据图像动态缩放策略对待处理视频信息进行数据增强得到的目标视频信息的示意图；

图8是本发明一个实施例提供的根据图像参数动态变化策略对待处理视频信息进行数据增强得到的目标视频信息的示意图；

图9是本发明另一个实施例提供的根据图像参数动态变化策略对待处理视频信息进行数据增强得到的目标视频信息的示意图；

图10是本发明另一个实施例提供的根据图像内容渐变策略对待处理视频信息进行数据增强得到的目标视频信息的示意图；

图11是本发明另一个实施例提供的根据图像内容渐变策略对待处理视频信息进行数据增强得到的目标视频信息的示意图；

图12是本发明另一个实施例提供的根据图像参数动态变化策略对待处理视频信息进行数据增强得到的目标视频信息的示意图；

图13是本发明另一个实施例提供的根据图像参数动态变化策略对待处理视频信息进行数据增强得到的目标视频信息的示意图；

图14是本发明一个具体例子提供的对视频切分点预测模型进行训练的流程图；

图15是本发明一个例子提供的硬切类型的镜头切分点的示意图；

图16是本发明一个例子提供的软切类型的镜头切分点的示意图；

图17是本发明一个例子提供的画面主体颜色突然变化的事件切分点的示意图；

图18是本发明一个例子提供的画面背景发生变化的事件切分点的示意图；

图19是本发明一个例子提供的对视频帧进行标签信息的配置的标注界面示意图；

图20是本发明一个具体例子提供的一种视频信息处理方法的流程图；

图21是本发明实施例提供的一种视频信息处理装置的示意图；

图22是本发明实施例提供的另一种视频信息处理装置的示意图。

具体实施方式

下面结合说明书附图和具体的实施例对本发明进行进一步的说明。所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1）人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

2）镜头切分，旨在寻找一个摄像机捕捉到的一段时间连续、视觉连续的最小片段。

3）事件切分，旨在寻找最小语义粒度的切分点，其目的是模拟人类理解视频的方式，去理解视频中发生的各类事件，由于没有预先对事件切分的类别进行定义，因此事件切分是一项富有挑战的任务，需要利用算法对视频中的内容进行多种语义级别的理解。

在相关技术中，对视频进行时序上的切分，是许多视频类任务的一个重要先导环节。目前，根据细粒度的不同，可将视频切分任务分为事件切分、镜头切分、场景切分、片段切分等不同任务。相比于其他切分任务，事件切分和镜头切分的细粒度较小，且具有一定的相关性，因此目前常用的方案大多针对视频进行事件切分和镜头切分。其中，镜头的切分点可分为硬切分点（指在一帧间直接跳变）和软切分点（包含在多帧内缓慢变化的渐变特效）；事件的切分点可以包括但不限于镜头缩放、镜头平移、人物大动作、光影变化、视角变化等，但是，在实际标注中由于无法预先对事件切分类别进行详细定义，因此需要根据实际情况对事件切分点进行判断。当完成对视频的镜头切分和事件切分后，可以得到多个镜头片段和多个事件片段。例如，假设对一个视频进行镜头切分和事件切分后，该视频包含了个镜头片段和/>个事件片段，那么，得到的镜头片段为/>，得到的事件片段为/>。对于一个特定的镜头片段/>或者特定的事件片段，可以使用该镜头片段或者事件片段的开始帧和结束帧表示：。

目前常用的镜头切分和事件切分算法大致可分为两类。其中一类是无监督方法，不需要进行训练，通过寻找相邻帧之间的变化关系（例如相邻两帧的视觉特征是否有较大差异）来判定该帧是否为切分点。另一类是基于深度学习的方法，首先对视频进行间隔采样，然后对于每一个采样帧，选取该采样帧前后各K帧，共2K帧组合在一起，使用深度学习模型对这些采样帧提取特征后进行二分类，判断该采样帧是否为切分点。对于无监督方法，只能通过预先定义的模式（例如镜头变化等）来进行切分，但这种方式的泛化性较差，难以切分出视频中的通用事件。而对于基于深度学习的方法，则需要先对模型进行训练，使得训练后的模型能够对视频中的镜头切分点或事件切分点进行预测。但由于基于深度学习的方法可以根据不同类型的训练数据自适应地调整视频切分的标准，因此在大多数情况下具有更高的准确率和召回率，所以目前的视频切分算法更偏向于使用基于深度学习的方法。

在相关技术中，为了提高深度学习模型对视频的切分准确性，常常会对视频样本进行图像数据增强，弥补训练样本的不足，防止模型出现过拟合现象，从而增强模型的泛化能力。但是，相关技术中的图像数据增强，只是采用几何变换、颜色变换或像素变换等方式对视频样本中的多帧图像进行相同的静态图像数据增强，并没有考虑视频内容的动态变化，无法有效模拟真实视频样本中发生的镜头变化和事件变化，因此难以进一步提高模型对视频的切分准确性。

为了使得目标视频信息可以有效地模拟真实视频样本中发生的事件变化，从而能够用于提高模型对视频的切分准确性，本发明实施例提供了一种视频信息处理方法、视频信息处理装置、计算机可读存储介质以及计算机程序产品，在获取包括多个连续的待处理视频帧的待处理视频之后，先在待处理视频中确定目标帧区间，然后根据目标帧区间中多个连续的待处理视频帧对待处理视频进行数据增强处理，得到包括多个连续的增强视频帧的目标视频；由于用于对待处理视频进行数据增强处理的内容，是目标帧区间中多个连续的待处理视频帧的内容，而这些连续的待处理视频帧的内容会是动态变化的，因此用于对待处理视频进行数据增强处理的这些内容也会是动态变化的，所以，在将多个连续的待处理视频帧对待处理视频进行数据增强处理后，能够使得待处理视频中的被进行数据增强的不同待处理视频帧之间，即不同的增强视频帧之间，可以得到不相同的动态数据增强，因此，相比于相关技术中的对各帧图像进行相同的静态图像数据增强，可以使得目标视频能够更为有效地模拟真实视频样本中发生的事件变化。进一步地，在得到目标视频之后，在目标视频中，为多个连续的增强视频帧的起始位置和结束位置分别配置事件切分点标签，然后根据目标视频、事件切分点标签和镜头切分点标签，对视频切分点预测模型进行训练；由于多个连续的增强视频帧能够用于模拟真实视频样本中发生的事件变化，因此在为这些增强视频帧的起始位置和结束位置分别配置事件切分点标签后，可以通过事件切分点标签表征目标视频的事件切分点，另外，镜头切分点标签能够表征目标视频的镜头切分点，所以，可以利用目标视频作为训练样本，并利用事件切分点标签和镜头切分点标签作为训练标签，对视频切分点预测模型进行训练，从而可以提高视频切分点预测模型对视频的镜头切分点和事件切分点的预测准确性，进而可以有效提高视频切分点预测模型的性能表现。

参照图1，图1是本发明实施例提供的一种实施环境的示意图。该实施环境可以包括第一用户终端101和第一服务器102，第一用户终端101和第一服务器102可以通过有线或无线通信方式进行直接或间接的连接。其中，第一用户终端101和第一服务器102可以为区块链中的节点，本实施例对此并不作具体限定。

第一用户终端101可以包括但不限于智能手机、平板、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。可选地，第一用户终端101可以安装有视频信息处理客户端，通过视频信息处理客户端可以对视频进行处理，例如，可以通过视频信息处理客户端发起针对视频的数据增强处理。

第一服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）以及大数据和人工智能平台等基础云计算服务的云服务器。其中，第一服务器102可以响应于第一用户终端101发起的针对视频的数据增强处理，对视频进行数据增强，使得经过数据增强的视频可以用于作为视频切分点预测模型的训练样本而对视频切分点预测模型进行训练。

参照图1所示，在一应用场景中，假设第一用户终端101是电脑，并且第一用户终端101安装有视频信息处理客户端。响应于用户通过第一用户终端101发起针对待处理视频的数据增强处理，第一用户终端101可以向第一服务器102发送用于对待处理视频进行数据增强的操作指令，其中操作指令可以包括待处理视频的视频指示信息；响应于接收到该操作指令，第一服务器102可以根据该操作指令中的视频指示信息从数据库中获取包括多个待处理视频帧的待处理视频，然后在待处理视频中确定目标帧区间，接着根据目标帧区间中多个连续的待处理视频帧对待处理视频进行数据增强处理，得到包括多个连续的增强视频帧的目标视频；在得到目标视频之后，第一服务器102在目标视频中，为多个连续的增强视频帧的起始位置和结束位置分别配置事件切分点标签，然后根据目标视频、事件切分点标签和人工标注的镜头切分点标签，对视频切分点预测模型进行训练。

参照图2，图2是本发明实施例提供的另一种实施环境的示意图。该实施环境可以包括第二用户终端201、第二服务器202和策略服务器203，第二用户终端201和第二服务器202之间，以及第二服务器202和策略服务器203之间，均可以通过有线或无线通信方式进行直接或间接的连接。其中，第二用户终端201和第二服务器202可以为区块链中的节点，本实施例对此并不作具体限定。

第二用户终端201可以包括但不限于智能手机、平板、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。可选地，第二用户终端201可以安装有视频信息处理客户端，通过视频信息处理客户端可以对视频进行处理，例如，可以通过视频信息处理客户端发起针对视频的数据增强处理。

第二服务器202和策略服务器203均可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN网络以及大数据和人工智能平台等基础云计算服务的云服务器。其中，策略服务器203可以预置有不同的数据增强策略，第二服务器202可以响应于第二用户终端201发起的针对视频的数据增强处理，从策略服务器203中调用对应的数据增强策略，并根据调用的数据增强策略对视频进行数据增强，使得经过数据增强的视频可以用于作为视频切分点预测模型的训练样本而对视频切分点预测模型进行训练。

参照图2所示，在另一应用场景中，假设第二用户终端201是电脑，并且第二用户终端201安装有视频信息处理客户端。响应于用户通过第二用户终端201发起针对待处理视频的数据增强处理，第二用户终端201可以向第二服务器202发送用于对待处理视频进行数据增强的操作指令，其中操作指令可以包括待处理视频的视频指示信息和数据增强策略的策略指示信息；响应于接收到该操作指令，第二服务器202可以根据该操作指令中的视频指示信息从数据库中获取包括多个待处理视频帧的待处理视频，以及根据该操作指令中的策略指示信息从策略服务器203中调用对应的数据增强策略，然后在待处理视频中确定目标帧区间，并根据调用的数据增强策略和目标帧区间中多个连续的待处理视频帧，对待处理视频进行数据增强处理，得到包括多个连续的增强视频帧的目标视频；在得到目标视频之后，第二服务器202在目标视频中，为多个连续的增强视频帧的起始位置和结束位置分别配置事件切分点标签，然后根据目标视频、事件切分点标签和人工标注的镜头切分点标签，对视频切分点预测模型进行训练。

需要说明的是，在本发明的各个具体实施方式中，当涉及到需要根据目标对象（例如用户等）的属性信息或属性信息集合等与目标对象的特性相关的数据进行相关处理时，都会先获得目标对象的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关法律法规和标准。此外，当本发明实施例需要获取目标对象的属性信息时，会通过弹窗或者跳转到确认页面等方式获得目标对象的单独许可或者单独同意，在明确获得目标对象的单独许可或者单独同意之后，再获取用于使本发明实施例能够正常运行的必要的目标对象的相关数据。

图3是本发明实施例提供的一种视频信息处理方法的流程图，该视频信息处理方法可以由终端或服务器执行，或者由终端和服务器共同执行，在本发明实施例中，以该方法由服务器执行为例进行说明。参照图3，该视频信息处理方法可以包括但不限于步骤310至步骤350。

步骤310：获取待处理视频，待处理视频包括多个连续的待处理视频帧。

在一实施例中，待处理视频可以是用户在当前通过终端上传的视频，也可以是服务器从数据库中获取的预存的视频，此处不作具体限定。

在一实施例中，待处理视频可以是原始的视频、对原始的视频进行了图像分割而得到的局部视频（即每一视频帧均按照相同的分割比例进行图像分割后的视频）、对原始的视频进行了视频转码或视频压缩等预处理的视频等，此处不作具体限定。

在一实施例中，待处理视频可以是新闻类别的视频、综艺类别的视频、体育类别的视频、直播类别的视频、电影类别的视频、动漫类别的视频或游戏类别的视频等，此处不作具体限定。

步骤320：在待处理视频中确定目标帧区间。

在一实施例中，目标帧区间可以包括多个连续的待处理视频帧。当获取到包括多个待处理视频帧的待处理视频之后，可以在待处理视频的所有待处理视频帧中确定目标帧区间；或者，可以在待处理视频的部分连续的多个待处理视频帧中确定目标帧区间，此处不作具体限定。例如，当在待处理视频的所有待处理视频帧中确定目标帧区间时，假设待处理视频包括M个待处理视频帧，例如待处理视频为，那么确定的目标帧区间可以为/>，其中N小于或等于M，或者可以为/>，其中N大于0，A大于或等于1，N+A小于或等于M，此处不作具体限定。又如，当在待处理视频的部分连续的多个待处理视频帧中确定目标帧区间时，假设待处理视频包括M个待处理视频帧，例如待处理视频为/>，部分连续的多个待处理视频帧包括/>，其中N大于0，A大于1，N+A小于M，那么确定的目标帧区间可以为/>，其中B大于0，C大于1，B+C小于A。需要说明的是，在待处理视频中确定的目标帧区间，需要避开已有事件的视频帧，也就是说，目标帧区间不包括已有事件的视频帧，例如，假设待处理视频为/>，其中的视频帧/>已经被进行了数据增强，那么目标帧区间不能与视频帧/>重叠。

在一实施例中，当在待处理视频中确定目标帧区间之后，还可以获取目标帧区间中各个待处理视频帧的用于数据增强的图像内容，以便于在后续步骤中可以利用该图像内容对待处理视频进行数据增强处理得到目标视频，从而可以使得目标视频能够有效地模拟真实视频样本中发生的镜头变化或事件变化。其中，针对想要模拟的真实视频样本中发生的不同变化，在获取目标帧区间中各个待处理视频帧的用于数据增强的图像内容时，可以有多种不同的实施方式。例如，当想要模拟真实视频样本中发生的镜头变化时，可以获取目标帧区间中各个待处理视频帧的图像信息，然后将各个待处理视频帧的图像信息作为各个待处理视频帧的用于数据增强的图像内容。这样，当后续利用图像内容对待处理视频进行数据增强处理时，可以利用图像内容与待处理视频中多个连续的待处理视频帧进行图像叠加，得到目标视频，使得目标视频能够模拟真实视频样本中渐变特效变化的镜头变化。又如，当想要模拟真实视频样本中发生的事件变化时，可以截取目标帧区间中各个待处理视频帧的局部图像信息，然后将各个待处理视频帧的局部图像信息作为各个待处理视频帧的用于数据增强的图像内容。这样，当后续利用图像内容对待处理视频进行数据增强处理时，可以对图像内容进行光线、色彩或纹理等（具体例如颜色、饱和度、锐度或对比度等）的图像参数调整，然后将经过图像参数调整的图像内容对待处理视频中多个连续的待处理视频帧进行图像更新，得到目标视频，使得目标视频能够模拟真实视频样本中局部光影色彩变化的事件变化。

在一实施例中，获取目标帧区间中各个待处理视频帧的用于数据增强的图像内容的过程，可以包括但不限于以下步骤：

根据图像内容渐变策略、图像动态缩放策略或图像参数动态变化策略中的至少一种，得到数据增强策略；

根据数据增强策略，获取目标帧区间中各个待处理视频帧的用于数据增强的目标图像内容。

本实施例中，先根据图像内容渐变策略、图像动态缩放策略或图像参数动态变化策略中的至少一种得到数据增强策略，可以确定所想要模拟的真实视频样本中发生的变化类型，例如镜头变化、事件变化等；然后根据数据增强策略获取目标帧区间中各个待处理视频帧的用于数据增强的目标图像内容，可以准确地获得能够用于模拟想要的真实视频样本中发生的变化类型的目标图像内容，从而有利于后续步骤利用目标图像内容对待处理视频进行数据增强处理以达到有效模拟真实视频样本中发生的镜头变化或事件变化的目的。

在一实施例中，每个目标帧区间都可以对应于一个数据增强策略。当目标帧区间的数量为一个时，数据增强策略所包含的具体策略数量也为一个，并且数据增强策略所包含的具体策略可以为图像内容渐变策略、图像动态缩放策略或图像参数动态变化策略中的任意一种。当目标帧区间的数量为多个时，数据增强策略所包含的具体策略数量可以为一个，也可以为多个，可以根据实际应用情况而进行适当的选择，此处不作具体限定。例如，当目标帧区间的数量为多个时，如果数据增强策略所包含的具体策略数量为一个，那么这些目标帧区间所对应的数据增强策略都为图像内容渐变策略、图像动态缩放策略或图像参数动态变化策略中的任意一种；如果数据增强策略所包含的具体策略数量为多个，那么这些目标帧区间所对应的数据增强策略可以为图像内容渐变策略和图像动态缩放策略的组合、图像动态缩放策略和图像参数动态变化策略的组合、图像内容渐变策略和图像参数动态变化策略的组合，或者图像内容渐变策略、图像动态缩放策略和图像参数动态变化策略的组合。例如，假设目标帧区间的数量为3个，那么这3个目标帧区间对应的数据增强策略可以均为图像内容渐变策略，或者均为图像动态缩放策略，或者均为图像参数动态变化策略；或者，第一个目标帧区间对应的数据增强策略为图像内容渐变策略，第二个和第三个目标帧区间对应的数据增强策略均为图像动态缩放策略；或者，第一个和第三个目标帧区间对应的数据增强策略均为图像动态缩放策略，第二个目标帧区间对应的数据增强策略为图像参数动态变化策略，等等。

需要说明的是，由于数据增强策略所包含的具体策略可以有多种选择，因此根据数据增强策略获取目标帧区间中各个待处理视频帧的用于数据增强的目标图像内容的过程，也可以有多种不同的实施方式。下面针对根据数据增强策略获取目标帧区间中各个待处理视频帧的用于数据增强的目标图像内容的不同实施例进行详细的描述。

在一实施例中，当数据增强策略为图像内容渐变策略，可以先将目标帧区间的待处理视频帧作为候选视频帧，然后根据图像内容渐变策略获取各个候选视频帧的图像信息，接着根据各个候选视频帧的图像信息得到各个候选视频帧的用于数据增强的目标图像内容。其中，图像内容渐变策略是指对待处理视频进行数据增强处理，使得待处理视频中的被进行数据增强的多个连续待处理视频帧能够呈现出画面逐渐出现或消失的内容显示，达到图像内容渐变的效果。因此，为了能够达到这个效果，可以先获取各个候选视频帧的图像信息，然后将各个候选视频帧的图像信息或者图像信息中的局部图像信息，作为各个候选视频帧的目标图像内容，这样，当后续步骤利用目标图像内容对待处理视频进行数据增强处理时，可以将该图像信息或者该图像信息中的局部图像信息，与待处理视频中对应的待处理视频帧进行图像叠加，从而可以模拟真实视频样本中的渐变特效变化。例如，假设待处理视频为，而目标帧区间中的待处理视频帧（即候选视频帧）为，那么，可以将候选视频帧/>的图像信息作为目标图像内容。

在一实施例中，当数据增强策略为图像动态缩放策略，可以先将目标帧区间的待处理视频帧作为候选视频帧，然后根据图像动态缩放策略确定各个候选视频帧对应的第一截取区域信息，接着根据各个候选视频帧对应的第一截取区域信息和各个候选视频帧，得到各个候选视频帧的用于数据增强的目标图像内容，其中，第一截取区域信息可以包括截取区域在候选视频帧中的范围大小，不同的候选视频帧的第一截取区域信息不相同。其中，图像动态缩放策略是指对待处理视频进行数据增强处理，使得待处理视频中的被进行数据增强的多个连续待处理视频帧能够呈现出画面逐渐放大或缩小的内容显示，达到图像动态缩放的效果。因此，为了能够达到这个效果，可以先确定各个候选视频帧对应的第一截取区域信息，然后根据第一截取区域信息和对应的候选视频帧得到对应的候选视频帧的目标图像内容，这样，当后续步骤利用目标图像内容对待处理视频进行数据增强处理时，可以将目标图像内容的尺寸调整为与待处理视频中的待处理视频帧相同的尺寸，得到增强视频帧，再将增强视频帧对待处理视频中对应的待处理视频帧进行图像替换，从而可以模拟真实视频样本中的镜头缩放变化。

在一实施例中，当图像动态缩放策略是使待处理视频中的被进行数据增强的多个连续待处理视频帧呈现出画面逐渐放大的内容显示时，第一截取区域信息可以是对应的候选视频帧内部的区域信息，在这种情况下，在确定各个候选视频帧对应的第一截取区域信息之后，在根据各个候选视频帧对应的第一截取区域信息和各个候选视频帧得到各个候选视频帧的目标图像内容的过程中，可以根据各个候选视频帧对应的第一截取区域信息对各个候选视频帧进行图像内容截取，得到各个候选视频帧的目标图像内容，此时，进行图像内容截取后的目标图像内容的尺寸会小于对应的候选视频帧的尺寸。例如，假设候选视频帧的数量为3个，并且候选视频帧的尺寸为，那么第一个候选视频帧对应的第一截取区域信息可以为/>，第二个候选视频帧对应的第一截取区域信息可以为，第三个候选视频帧对应的第一截取区域信息可以为/>。因此，在进行图像内容截取后，第一个候选视频帧对应的目标图像内容的尺寸为/>，第二个候选视频帧对应的目标图像内容的尺寸为/>，第三个候选视频帧对应的目标图像内容的尺寸为/>。所以，当后续步骤利用目标图像内容对待处理视频进行数据增强处理而将目标图像内容的尺寸调整为与待处理视频中的待处理视频帧相同的尺寸后，待处理视频中对应于第一个候选视频帧的目标图像内容、第二个候选视频帧的目标图像内容以及第三个候选视频帧的目标图像内容的位置，会呈现出画面逐渐放大的内容显示。

在一实施例中，当图像动态缩放策略是使待处理视频中的被进行数据增强的多个连续待处理视频帧呈现出画面逐渐缩小的内容显示时，第一截取区域信息可以是对应的候选视频帧外部的区域信息，在这种情况下，待处理视频中的各个待处理视频帧都是经过视频裁剪后的视频帧，也就是说，待处理视频中的每个待处理视频帧，都会对应有一个原始视频帧。具体地，在确定各个候选视频帧对应的第一截取区域信息之后，在根据各个候选视频帧对应的第一截取区域信息和各个候选视频帧得到各个候选视频帧的目标图像内容的过程中，可以先获取各个候选视频帧对应的原始视频帧，然后根据各个候选视频帧对应的第一截取区域信息对各个候选视频帧对应的原始视频帧进行图像内容截取，得到各个候选视频帧的目标图像内容，此时，进行图像内容截取后的目标图像内容的尺寸会大于对应的候选视频帧的尺寸。例如，假设候选视频帧的数量为3个，候选视频帧对应的原始视频帧的尺寸为，候选视频帧的尺寸为/>，那么第一个候选视频帧对应的第一截取区域信息可以为/>，第二个候选视频帧对应的第一截取区域信息可以为，第三个候选视频帧对应的第一截取区域信息可以为/>。因此，在进行图像内容截取后，第一个候选视频帧对应的目标图像内容的尺寸为/>，第二个候选视频帧对应的目标图像内容的尺寸为/>，第三个候选视频帧对应的目标图像内容的尺寸为/>。所以，当后续步骤利用目标图像内容对待处理视频进行数据增强处理而将目标图像内容的尺寸调整为与待处理视频中的待处理视频帧相同的尺寸后，待处理视频中对应于第一个候选视频帧的目标图像内容、第二个候选视频帧的目标图像内容以及第三个候选视频帧的目标图像内容的位置，会呈现出画面逐渐缩小的内容显示。

在一实施例中，当数据增强策略为图像参数动态变化策略，可以先将目标帧区间中的待处理视频帧作为候选视频帧，然后根据图像参数动态变化策略确定第二截取区域信息，接着根据第二截取区域信息对各个候选视频帧进行图像内容截取，得到各个候选视频帧的用于数据增强的目标图像内容。其中，第二截取区域信息可以包括截取区域在候选视频帧中的范围大小，图像参数动态变化策略是指对待处理视频信息进行数据增强处理，使得待处理视频中的被进行数据增强的多个连续待处理视频帧能够呈现出画面局部区域突然出现光影或者色彩变化的内容显示，达到局部光影色彩变化的效果。因此，为了能够达到这个效果，可以先确定一个能够适用于所有候选视频帧的第二截取区域信息，然后根据第二截取区域信息对各个候选视频帧进行图像内容截取，得到各个候选视频帧的目标图像内容，这样，当后续步骤利用目标图像内容对待处理视频进行数据增强处理时，可以对目标图像内容进行颜色、饱和度、锐度或对比度等的随机的图像参数调整，得到增强图像内容，再将增强图像内容对待处理视频中对应的待处理视频帧进行图像更新，从而可以模拟真实视频样本中的光线、色彩或纹理等的局部光影色彩变化。例如，假设候选视频帧的数量为3个，候选视频帧的尺寸为，第二截取区域信息为/>，并且第二截取区域信息的位置处于候选视频帧的右下角，那么，在进行图像内容截取后，第一个候选视频帧对应的目标图像内容的尺寸为/>，并且第一个候选视频帧对应的目标图像内容的位置处于第一个候选视频帧的右下角，第二个候选视频帧对应的目标图像内容的尺寸为，并且第二个候选视频帧对应的目标图像内容的位置处于第二个候选视频帧的右下角，第三个候选视频帧对应的目标图像内容的尺寸为/>，并且第三个候选视频帧对应的目标图像内容的位置处于第三个候选视频帧的右下角。所以，当后续步骤利用目标图像内容对待处理视频进行数据增强处理后，待处理视频中对应于第一个候选视频帧的目标图像内容、第二个候选视频帧的目标图像内容以及第三个候选视频帧的目标图像内容的位置，会呈现出画面局部区域突然出现光影或者色彩变化的内容显示。

在一实施例中，在目标帧区间的数量为多个的情况下，当数据增强策略包括图像内容渐变策略和图像动态缩放策略，可以先将多个目标帧区间划分为第一帧区间和第二帧区间，并将第一帧区间的待处理视频帧作为第一视频帧，以及将第二帧区间的待处理视频帧作为第二视频帧；此时，对于第一帧区间，根据图像内容渐变策略获取各个第一视频帧的图像信息，然后根据各个第一视频帧的图像信息得到各个第一视频帧的用于数据增强的目标图像内容；对于第二帧区间，根据图像动态缩放策略确定各个第二视频帧对应的第三截取区域信息，然后根据各个第二视频帧对应的第三截取区域信息和各个第二视频帧，得到各个第二视频帧的用于数据增强的目标图像内容，其中，第三截取区域信息可以包括截取区域在第二视频帧中的范围大小，不同的第二视频帧的第三截取区域信息不相同。需要说明的是，根据图像内容渐变策略得到各个第一视频帧的目标图像内容的过程，可以参考前面实施例的根据图像内容渐变策略得到各个候选视频帧的目标图像内容的过程，而根据图像动态缩放策略得到各个第二视频帧的目标图像内容的过程，则可以参考前面实施例的根据图像动态缩放策略得到各个候选视频帧的目标图像内容的过程，为了避免内容重复冗余，此处不再赘述。

在一实施例中，在目标帧区间的数量为多个的情况下，当数据增强策略包括图像内容渐变策略和图像参数动态变化策略，可以先将多个目标帧区间划分为第三帧区间和第四帧区间，并将第三帧区间的待处理视频帧作为第三视频帧，以及将第四帧区间的待处理视频帧作为第四视频帧；此时，对于第三帧区间，根据图像内容渐变策略获取各个第三视频帧的图像信息，然后根据各个第三视频帧的图像信息得到各个第三视频帧的用于数据增强的目标图像内容；对于第四帧区间，根据图像参数动态变化策略确定第四截取区域信息，然后根据第四截取区域信息对各个第四视频帧进行图像内容截取，得到各个第四视频帧的用于数据增强的目标图像内容，其中，第四截取区域信息可以包括截取区域在第四视频帧中的范围大小。需要说明的是，根据图像内容渐变策略得到各个第三视频帧的目标图像内容的过程，可以参考前面实施例的根据图像内容渐变策略得到各个候选视频帧的目标图像内容的过程，而根据图像参数动态变化策略得到各个第四视频帧的目标图像内容的过程，则可以参考前面实施例的根据图像参数动态变化策略得到各个候选视频帧的目标图像内容的过程，为了避免内容重复冗余，此处不再赘述。

在一实施例中，在目标帧区间的数量为多个的情况下，当数据增强策略包括图像动态缩放策略和图像参数动态变化策略，可以先将多个目标帧区间划分为第五帧区间和第六帧区间，并将第五帧区间的待处理视频帧作为第五视频帧，以及将第六帧区间的待处理视频帧作为第六视频帧；此时，对于第五帧区间，根据图像动态缩放策略确定各个第五视频帧对应的第五截取区域信息，然后根据各个第五视频帧对应的第五截取区域信息和各个第五视频帧，得到各个第五视频帧的用于数据增强的目标图像内容，其中，第五截取区域信息可以包括截取区域在第五视频帧中的范围大小，不同的第五视频帧的第五截取区域信息不相同；对于第六帧区间，根据图像参数动态变化策略确定第六截取区域信息，然后根据第六截取区域信息对各个第六视频帧进行图像内容截取，得到各个第六视频帧的用于数据增强的目标图像内容，其中，第六截取区域信息可以包括截取区域在第六视频帧中的范围大小。需要说明的是，根据图像动态缩放策略得到各个第五视频帧的目标图像内容的过程，可以参考前面实施例的根据图像动态缩放策略得到各个候选视频帧的目标图像内容的过程，而根据图像参数动态变化策略得到各个第六视频帧的目标图像内容的过程，则可以参考前面实施例的根据图像参数动态变化策略得到各个候选视频帧的目标图像内容的过程，为了避免内容重复冗余，此处不再赘述。

在一实施例中，在目标帧区间的数量为多个的情况下，当数据增强策略包括图像内容渐变策略、图像动态缩放策略和图像参数动态变化策略，可以先将多个目标帧区间划分为第七帧区间、第八帧区间和第九帧区间，并将第七帧区间的待处理视频帧作为第七视频帧，将第八帧区间的待处理视频帧作为第八视频帧，以及将第九帧区间的待处理视频帧作为第九视频帧；此时，对于第七帧区间，根据图像内容渐变策略获取各个第七视频帧的图像信息，然后根据各个第七视频帧的图像信息得到各个第七视频帧的用于数据增强的目标图像内容；对于第八帧区间，根据图像动态缩放策略确定各个第八视频帧对应的第七截取区域信息，然后根据各个第八视频帧对应的第七截取区域信息和各个第八视频帧，得到各个第八视频帧的用于数据增强的目标图像内容，其中，第七截取区域信息可以包括截取区域在第八视频帧中的范围大小，不同的第八视频帧的第七截取区域信息不相同；对于第九帧区间，根据图像参数动态变化策略确定第八截取区域信息，然后根据第八截取区域信息对各个第九视频帧进行图像内容截取，得到各个第九视频帧的用于数据增强的目标图像内容，其中，第八截取区域信息可以包括截取区域在第九视频帧中的范围大小。需要说明的是，根据图像内容渐变策略得到各个第七视频帧的目标图像内容的过程，可以参考前面实施例的根据图像内容渐变策略得到各个候选视频帧的目标图像内容的过程，根据图像动态缩放策略得到各个第八视频帧的目标图像内容的过程，可以参考前面实施例的根据图像动态缩放策略得到各个候选视频帧的目标图像内容的过程，而根据图像参数动态变化策略得到各个第九视频帧的目标图像内容的过程，则可以参考前面实施例的根据图像参数动态变化策略得到各个候选视频帧的目标图像内容的过程，为了避免内容重复冗余，此处不再赘述。

步骤330：根据目标帧区间中多个连续的待处理视频帧，对待处理视频进行数据增强处理，得到目标视频，目标视频包括多个连续的增强视频帧。

在一实施例中，在得到包括多个连续的增强视频帧的目标视频之后，目标视频中多个连续的增强视频帧，能够用于模拟视频中的事件变化，从而可以使得目标视频能够更为有效地模拟真实视频样本中发生的事件变化。

在一实施例中，在根据目标帧区间中多个连续的待处理视频帧对待处理视频进行数据增强处理以得到目标视频的过程中，可以根据目标帧区间中多个连续的待处理视频帧，对待处理视频进行动态数据增强处理，得到包括多个连续的增强视频帧的目标视频，其中，动态数据增强处理用于使得多个连续的增强视频帧发生的变化不同，例如，动态数据增强处理可以用于使得多个连续的增强视频帧呈现出画面逐渐出现或消失的内容显示，或者用于使得多个连续的增强视频帧呈现出画面逐渐放大或缩小的内容显示，或者用于使得多个连续的增强视频帧呈现出画面局部区域突然出现光影或者色彩变化的内容显示，此处不作具体限定。由于根据目标帧区间中多个连续的待处理视频帧对待处理视频进行的数据增强处理是动态数据增强处理，并且可以使得多个连续的增强视频帧发生的变化不同，因此相比于相关技术中的对各帧图像进行相同的静态图像数据增强，可以使得目标视频能够更为有效地模拟真实视频样本中发生的事件变化。

在一实施例中，在根据目标帧区间中多个连续的待处理视频帧对待处理视频进行动态数据增强处理以得到目标视频时，可以有多种不同的实施方式，可以根据实际应用情况而进行适当的选择，此处不作具体限定。下面以一些例子对根据目标帧区间中多个连续的待处理视频帧对待处理视频进行动态数据增强处理的过程，进行详细的说明。

在一实施例中，在根据目标帧区间中多个连续的待处理视频帧对待处理视频进行动态数据增强处理时，可以先在待处理视频中确定多个连续的待增强视频帧，然后将目标帧区间中多个连续的待处理视频帧中的内容，叠加至多个连续的待增强视频帧中，以得到多个连续的增强视频帧，接着将包含多个连续的增强视频帧的待处理视频作为目标视频。其中，待叠加至待增强视频帧的待处理视频帧的数量和待增强视频帧的数量相同，在将目标帧区间中多个连续的待处理视频帧中的内容叠加至多个连续的待增强视频帧中时，将各个待处理视频帧中的内容叠加至各个连续的待增强视频帧中，例如，假设目标帧区间中的待叠加至待增强视频帧的待处理视频帧的数量，以及待增强视频帧的数量，均为3个，那么，将第一个待处理视频帧中的内容叠加至第一个待增强视频帧中，将第二个待处理视频帧中的内容叠加至第二个待增强视频帧中，将第三个待处理视频帧中的内容叠加至第三个待增强视频帧中，此时，即完成了对待处理视频的动态数据增强处理，可以得到包含多个连续的增强视频帧的目标视频。其中，在一实施例中，在将目标帧区间中多个连续的待处理视频帧中的内容叠加至多个连续的待增强视频帧中以得到多个连续的增强视频帧时，可以先获取目标帧区间中多个连续的待处理视频帧的图像信息，然后将多个连续的待处理视频帧的图像信息分别叠加至多个连续的待增强视频帧中，以得到多个连续的增强视频帧。其中，目标帧区间中多个连续的待处理视频帧可以与多个连续的待增强视频帧相邻，例如，多个连续的待增强视频帧紧跟在目标帧区间中多个连续的待处理视频帧之后，或者，目标帧区间中多个连续的待处理视频帧紧跟在多个连续的待增强视频帧之后，此处不作具体限定。通过将目标帧区间中多个连续的待处理视频帧的图像信息分别叠加至多个连续的待增强视频帧，可以使得得到的多个连续的增强视频帧能够呈现出图像内容渐变的效果，从而可以有效地模拟真实视频样本中发生的镜头变化。

在一实施例中，在根据目标帧区间中多个连续的待处理视频帧对待处理视频进行动态数据增强处理时，还可以先基于目标帧区间中多个连续的待处理视频帧，得到多个不同尺寸的目标区域图像，然后将多个不同尺寸的目标区域图像调整为相同尺寸，并将相同尺寸的多个目标区域图像作为多个连续的增强视频帧，接着将目标帧区间中多个连续的待处理视频帧，替换为多个连续的增强视频帧，得到目标视频。其中，在基于目标帧区间中多个连续的待处理视频帧得到多个不同尺寸的目标区域图像时，得到的目标区域图像的尺寸可以均小于目标帧区间中的待处理视频帧的尺寸，此时，在将多个不同尺寸的目标区域图像调整为相同尺寸，并将相同尺寸的多个目标区域图像作为多个连续的增强视频帧时，可以是对多个不同尺寸的目标区域图像进行放大的调整，使得多个不同尺寸的目标区域图像被调整为相同尺寸，从而得到多个连续的增强视频帧。另外，在基于目标帧区间中多个连续的待处理视频帧得到多个不同尺寸的目标区域图像时，得到的目标区域图像的尺寸也可以均大于目标帧区间中的待处理视频帧的尺寸，此时，在将多个不同尺寸的目标区域图像调整为相同尺寸，并将相同尺寸的多个目标区域图像作为多个连续的增强视频帧时，可以是对多个不同尺寸的目标区域图像进行缩小的调整，使得多个不同尺寸的目标区域图像被调整为相同尺寸，从而得到多个连续的增强视频帧。通过基于目标帧区间中多个连续的待处理视频帧得到多个不同尺寸的目标区域图像，然后将多个不同尺寸的目标区域图像调整为相同尺寸以得到多个连续的增强视频帧，可以使得得到的多个连续的增强视频帧能够呈现出图像动态缩放的效果，从而可以有效地模拟真实视频样本中发生的事件变化。

在一实施例中，在根据目标帧区间中多个连续的待处理视频帧对待处理视频进行动态数据增强处理时，还可以先获取目标帧区间中多个连续的待处理视频帧的局部图像信息，然后对多个连续的待处理视频帧的局部图像信息进行光线、色彩或纹理中的至少一种图像参数调整，得到目标视频，其中，目标帧区间中不同待处理视频帧对应的图像参数调整的程度不同，经过图像参数调整的多个连续的待处理视频帧为多个连续的增强视频帧。其中，在获取目标帧区间中多个连续的待处理视频帧的局部图像信息时，可以先在目标帧区间中多个连续的待处理视频帧中确定候选帧区域，然后根据候选帧区域对目标帧区间中多个连续的待处理视频帧进行图像截取，得到目标帧区间中多个连续的待处理视频帧的局部图像信息。另外，在对多个连续的待处理视频帧的局部图像信息进行光线、色彩或纹理中的至少一种图像参数调整以得到目标视频，可以先在待处理视频中确定与目标帧区间中多个连续的待处理视频帧对应的多个连续的待增强视频帧，然后根据目标帧区间中多个连续的待处理视频帧的局部图像信息，确定多个连续的待增强视频帧中的目标局部图像信息，接着对多个连续的待增强视频帧中的目标局部图像信息进行光线、色彩或纹理中的至少一种图像参数调整，得到目标视频；或者，可以先对多个连续的待处理视频帧的局部图像信息进行光线、色彩或纹理中的至少一种图像参数调整，得到增强图像内容，然后将增强图像内容对待处理视频中对应的待处理视频帧进行图像更新，得到目标视频。由于目标帧区间中不同待处理视频帧对应的图像参数调整的程度不同，并且经过图像参数调整的多个连续的待处理视频帧会作为多个连续的增强视频帧，因此可以使得得到的多个连续的增强视频帧能够呈现出局部光影色彩变化的效果，从而可以有效地模拟真实视频样本中发生的事件变化。

在一实施例中，每个目标帧区间都可以对应于一个数据增强策略，所以，可以采用对应的数据增强策略实现目标帧区间中多个连续的待处理视频帧对待处理视频的数据增强处理。例如，当目标帧区间的数量为一个时，该目标帧区间对应的数据增强策略可以为图像内容渐变策略、图像动态缩放策略或图像参数动态变化策略中的任意一种，也就是说，可以采用图像内容渐变策略、图像动态缩放策略或图像参数动态变化策略中的任意一种利用目标帧区间中多个连续的待处理视频帧对待处理视频进行数据增强处理。又如，当目标帧区间的数量为多个时，这些目标帧区间对应的数据增强策略可以为图像内容渐变策略、图像动态缩放策略或图像参数动态变化策略中的任意一种或者至少两种的组合。其中，当这些目标帧区间对应的数据增强策略为图像内容渐变策略、图像动态缩放策略或图像参数动态变化策略中的任意一种时，对于每个目标帧区间，可以采用相同的数据增强策略对待处理视频进行数据增强处理；当这些目标帧区间对应的数据增强策略为图像内容渐变策略、图像动态缩放策略或图像参数动态变化策略中的至少两种的组合时，对于不同的目标帧区间，可以采用对应的不同数据增强策略对待处理视频进行数据增强处理。例如，假设目标帧区间的数量为3个，如果全部目标帧区间对应的数据增强策略均为图像内容渐变策略，那么可以根据图像内容渐变策略和各个目标帧区间中的多个连续待处理视频帧，对待处理视频进行数据增强处理；如果第一个目标帧区间对应的数据增强策略为图像内容渐变策略，第二个和第三个目标帧区间对应的数据增强策略均为图像动态缩放策略，那么可以根据图像内容渐变策略和第一个目标帧区间中的多个连续待处理视频帧，对待处理视频进行图像内容渐变的数据增强处理，同时根据图像动态缩放策略和剩余的两个目标帧区间中的多个连续待处理视频帧，对待处理视频进行图像动态缩放的数据增强处理；等等。

需要说明的是，由于不同目标帧区间所对应的数据增强策略可能不相同，因此根据数据增强策略和目标帧区间中多个连续的待处理视频帧对待处理视频进行数据增强处理以得到目标视频的过程，可以有多种不同的实施方式。下面针对根据数据增强策略和目标帧区间中多个连续的待处理视频帧对待处理视频进行数据增强处理以得到目标视频的不同实施例进行详细的描述。

在一实施例中，当目标帧区间中多个连续的待处理视频帧所对应的数据增强策略为图像内容渐变策略，可以先根据图像内容渐变策略在待处理视频中确定多个连续的待增强视频帧，然后将目标帧区间中多个连续的待处理视频帧与待处理视频中多个连续的待增强视频帧分别进行图像叠加，得到目标视频。例如，假设一个包含了M帧图像的视频样本为，目标帧区间中多个连续的待处理视频帧包括/>，其中/>，那么在将目标帧区间中多个连续的待处理视频帧与视频样本中的多个连续待增强视频帧进行一一对应的图像叠加后，可以得到目标视频为，其中K（）表示图像叠加的视频帧长度，/>表示图像叠加时的比重。其中，目标帧区间中多个连续的待处理视频帧可以与多个连续的待增强视频帧相邻，例如，多个连续的待增强视频帧紧跟在目标帧区间中多个连续的待处理视频帧之后，或者，目标帧区间中多个连续的待处理视频帧紧跟在多个连续的待增强视频帧之后，此处不作具体限定。

例如图4和图5所示，图4和图5示例性地给出了根据图像内容渐变策略对待处理视频进行数据增强处理之后所得到的目标视频。在图4中，示例性地给出了目标视频中7个连续的视频帧，这7个视频帧显示了练习吉他的一个视频片段，这7个视频帧包括没有进行数据增强的原始视频帧410和经过数据增强的增强视频帧420。其中原始视频帧410没有进行数据增强，因此原始视频帧410能够保留原来的图像内容，而增强视频帧420是通过将目标帧区间中多个连续的待处理视频帧与待处理视频中多个连续的待增强视频帧进行图像叠加而得到的，因此增强视频帧420能够模拟镜头渐变特效变化的效果，所以，该目标视频能够有效模拟真实视频样本中渐变特效变化的镜头变化。在图5中，示例性地给出了目标视频中9个连续的视频帧，这9个视频帧显示了动物喂养的一个视频片段，这9个视频帧包括没有进行数据增强的原始视频帧510和经过数据增强的增强视频帧520。其中原始视频帧510没有进行数据增强，因此原始视频帧510能够保留原来的图像内容，而增强视频帧520是通过将目标帧区间中多个连续的待处理视频帧与待处理视频中多个连续的待增强视频帧进行图像叠加而得到的，因此增强视频帧520能够模拟镜头渐变特效变化的效果，所以，该目标视频能够有效模拟真实视频样本中渐变特效变化的镜头变化。需要说明的是，镜头渐变特效变化是指让画面逐渐出现或消失的过程，能够平滑地衔接到下一个画面。在视频剪辑的过程中，采用镜头渐变特效变化来衔接前后两个镜头片段可以让场景的切换更加自然流畅。

在一实施例中，当目标帧区间中多个连续的待处理视频帧所对应的数据增强策略为图像动态缩放策略，可以先在待处理视频中确定对应的待增强视频帧，然后根据图像动态缩放策略将目标帧区间中多个连续的待处理视频帧的目标图像内容的尺寸调整为与待增强视频帧相同的尺寸，得到增强视频帧，其中，当图像动态缩放策略是使待处理视频中的被进行数据增强的多个连续待处理视频帧呈现出画面逐渐放大的内容显示时，目标图像内容的尺寸会小于待增强视频帧的尺寸，而当图像动态缩放策略是使待处理视频中的被进行数据增强的多个连续待处理视频帧呈现出画面逐渐缩小的内容显示时，目标图像内容的尺寸会大于待增强视频帧的尺寸，接着，利用增强视频帧对待处理视频中的待增强视频帧进行图像替换，得到目标视频。例如，假设一个包含了M帧图像的视频样本为，对目标帧区间中多个连续的待处理视频帧的目标图像内容的尺寸进行调整后得到的增强视频帧为/>，其中/>，那么在将增强视频帧对视频样本中的待增强视频帧进行一一对应的图像替换后，可以得到目标视频为/>，其中/>表示从原始视频帧中按比例截取一部分图像，/>（/>）表示截取的比重，缩小时，放大时/>。

例如图6和图7所示，图6和图7示例性地给出了根据图像动态缩放策略对待处理视频进行数据增强处理之后所得到的目标视频。在图6中，示例性地给出了目标视频中7个连续的视频帧，这7个视频帧显示了练习吉他的一个视频片段，这7个视频帧都是经过数据增强的增强视频帧610。根据这些增强视频帧610可以看出，从第1个增强视频帧610到第7个增强视频帧610，显示的内容呈现为逐渐缩小的特效变化，因此，该目标视频能够有效模拟真实视频样本中的镜头缩小变化。在图7中，示例性地给出了目标视频中9个连续的视频帧，这9个视频帧显示了动物喂养的一个视频片段，这9个视频帧都是经过数据增强的增强视频帧710。根据这些增强视频帧710可以看出，从第1个增强视频帧710到第7个增强视频帧710，显示的内容呈现为逐渐缩小的特效变化，因此，该目标视频能够有效模拟真实视频样本中的镜头缩小变化。需要说明的是，镜头缩放变化可以让画面逐渐放大或缩小，从而可以突出或隐藏某些元素。镜头缩放变化可以用来创造视觉冲击，强调某个特定的物体或人物，或者在场景切换时创造平滑的过渡效果。另外，镜头缩放变化也可以用来模拟人眼的聚焦效果，让观众感受到画面中人物的视角，从而可以吸引观众的注意力。

在一实施例中，当目标帧区间中多个连续的待处理视频帧所对应的数据增强策略为图像参数动态变化策略，可以先在待处理视频中确定对应的待增强视频帧，然后根据图像参数动态变化策略对目标帧区间中多个连续的待处理视频帧的局部图像信息进行图像参数调整，得到候选帧信息，接着利用候选帧信息对待处理视频中的待增强视频帧进行图像更新，得到目标视频，其中，不同的候选帧信息具有不同的图像参数调整程度。例如，假设一个包含了M帧图像的视频样本为，对目标帧区间中多个连续的待处理视频帧的局部图像信息进行图像参数调整后得到的候选帧信息为/>，其中，那么在将候选帧信息对视频样本中的待增强视频帧进行一一对应的图像更新后，可以得到目标视频为/>，其中/>表示从原始视频帧中随机截取一部分图像，/>表示截取的区域，/>表示在截取的图像内随机调整颜色、饱和度、锐度或对比度。

例如图8和图9所示，图8和图9示例性地给出了根据图像参数动态变化策略对待处理视频进行数据增强处理之后所得到的目标视频。在图8中，示例性地给出了目标视频中7个连续的视频帧，这7个视频帧显示了练习吉他的一个视频片段，这7个视频帧包括没有进行数据增强的原始视频帧810和经过数据增强的增强视频帧820。其中原始视频帧810没有进行数据增强，因此原始视频帧810能够保留原来的图像内容，而增强视频帧820是通过利用候选帧信息对待处理视频中的待增强视频帧进行图像更新而得到的，因此增强视频帧820中包括有进行了图像参数调整的图像调整区域830，其中，各个增强视频帧820的图像调整区域830进行了不同的图像参数调整，因此这些增强视频帧820能够模拟光线、色彩、纹理等局部光影色彩变化的效果，所以，该目标视频能够有效模拟真实视频样本中局部光影色彩变化的事件变化。在图9中，示例性地给出了目标视频中9个连续的视频帧，这9个视频帧显示了动物喂养的一个视频片段，这9个视频帧包括没有进行数据增强的原始视频帧910和经过数据增强的增强视频帧920。其中原始视频帧910没有进行数据增强，因此原始视频帧910能够保留原来的图像内容，而增强视频帧920是通过利用候选帧信息对待处理视频中的待增强视频帧进行图像更新而得到的，因此增强视频帧920中包括有进行了图像参数调整的图像调整区域930，其中，各个增强视频帧920的图像调整区域930进行了不同的图像参数调整，因此这些增强视频帧920能够模拟光线、色彩、纹理等局部光影色彩变化的效果，所以，该目标视频能够有效模拟真实视频样本中局部光影色彩变化的事件变化。需要说明的是，局部光影色彩变化是指画面中的局部区域突然出现了光影或者色彩的变化，例如舞台突然出现灯光、动漫游戏人物突然放大招等，因此局部光影色彩变化的出现较为随机且占据画面面积不大。

步骤340：在目标视频中，为多个连续的增强视频帧的起始位置和结束位置分别配置事件切分点标签。

在一实施例中，在得到包括多个连续的增强视频帧的目标视频之后，由于这些增强视频帧能够用于模拟真实视频样本中发生的事件变化，因此可以在目标视频中，确定这些增强视频帧的起始位置和结束位置，并为这些增强视频帧的起始位置和结束位置分别配置事件切分点标签，使得事件切分点标签能够用于表征视频中的事件切分点，以便于后续步骤可以利用事件切分点标签、人工标注的镜头切分点标签和目标视频作为视频切分点预测模型的训练样本以对视频切分点预测模型进行训练，使得训练后的视频切分点预测模型能够具有更好的对视频的镜头切分点和事件切分点的预测准确性。

例如图10所示，图10是根据图像内容渐变策略对待处理视频进行数据增强处理之后所得到的目标视频的示意图。在图10中，该目标视频显示了练习吉他的一个视频片段，该目标视频包括没有进行数据增强的原始视频帧1010和多个经过数据增强的增强视频帧1020，在这些增强视频帧1020中，可以确定第一个增强视频帧1020为数据增强的起始位置，并确定最后一个增强视频帧1020为数据增强的结束位置，此时，可以为数据增强的起始位置配置事件切分点标签，即在第一个增强视频帧1020和原始视频帧1010之间配置事件切分点标签，得到处于第一个增强视频帧1020和原始视频帧1010之间的第一事件切分点标签1030；并且，可以为数据增强的结束位置配置事件切分点标签，即在最后一个增强视频帧1020和原始视频帧1010之间配置事件切分点标签，得到处于最后一个增强视频帧1020和原始视频帧1010之间的第二事件切分点标签1040。

例如图11所示，图11是根据图像内容渐变策略对待处理视频进行数据增强处理之后所得到的目标视频的示意图。在图11中，该目标视频显示了动物特写的一个视频片段，该目标视频包括没有进行数据增强的原始视频帧1110和多个经过数据增强的增强视频帧1120，在这些增强视频帧1120中，可以确定第一个增强视频帧1120为数据增强的起始位置，并确定最后一个增强视频帧1120为数据增强的结束位置，此时，可以为数据增强的起始位置配置事件切分点标签，即在第一个增强视频帧1120和原始视频帧1110之间配置事件切分点标签，得到处于第一个增强视频帧1120和原始视频帧1110之间的第一事件切分点标签1130；并且，可以为数据增强的结束位置配置事件切分点标签，即在最后一个增强视频帧1120和原始视频帧1110之间配置事件切分点标签，得到处于最后一个增强视频帧1120和原始视频帧1110之间的第二事件切分点标签1140。

例如图12所示，图12是根据图像参数动态变化策略对待处理视频进行数据增强处理之后所得到的目标视频的示意图。在图12中，该目标视频显示了练习吉他的一个视频片段，该目标视频包括没有进行数据增强的原始视频帧1210和多个经过数据增强的增强视频帧1220，在这些增强视频帧1220中，可以确定第一个增强视频帧1220为数据增强的起始位置，并确定最后一个增强视频帧1220为数据增强的结束位置，此时，可以为数据增强的起始位置配置事件切分点标签，即在第一个增强视频帧1220和原始视频帧1210之间配置事件切分点标签，得到处于第一个增强视频帧1220和原始视频帧1210之间的第一事件切分点标签1230；并且，可以为数据增强的结束位置配置事件切分点标签，即在最后一个增强视频帧1220和原始视频帧1210之间配置事件切分点标签，得到处于最后一个增强视频帧1220和原始视频帧1210之间的第二事件切分点标签1240。

例如图13所示，图13是根据图像参数动态变化策略对待处理视频进行数据增强处理之后所得到的目标视频的示意图。在图13中，该目标视频显示了动物喂养的一个视频片段，该目标视频包括没有进行数据增强的原始视频帧1310和多个经过数据增强的增强视频帧1320，在这些增强视频帧1320中，可以确定第一个增强视频帧1320为数据增强的起始位置，并确定最后一个增强视频帧1320为数据增强的结束位置，此时，可以为数据增强的起始位置配置事件切分点标签，即在第一个增强视频帧1320和原始视频帧1310之间配置事件切分点标签，得到处于第一个增强视频帧1320和原始视频帧1310之间的第一事件切分点标签1330；并且，可以为数据增强的结束位置配置事件切分点标签，即在最后一个增强视频帧1320和原始视频帧1310之间配置事件切分点标签，得到处于最后一个增强视频帧1320和原始视频帧1310之间的第二事件切分点标签1340。

步骤350：根据目标视频、事件切分点标签和镜头切分点标签，对视频切分点预测模型进行训练。

在一实施例中，镜头切分点标签可以通过人工标注的方式对目标视频进行标注得到，镜头切分点标签能够表征目标视频的镜头切分点。例如，可以通过人工确认的方式在目标视频中确定镜头切分点，然后对目标视频中的镜头切分点配置镜头切分点标签。在得到目标视频、事件切分点标签和人工标注的镜头切分点标签之后，可以根据目标视频、事件切分点标签和镜头切分点标签，得到标注视频信息。由于目标视频包括能够用于模拟真实视频样本中发生的事件变化的多个连续的增强视频帧，并且镜头切分点标签和事件切分点标签能够用于表征镜头切分点和事件切分点，因此，在得到标注视频信息之后，可以利用标注视频信息中的能够模拟真实视频样本中发生的动态变化的目标视频作为训练样本，并利用事件切分点标签和镜头切分点标签作为训练标签，对视频切分点预测模型进行训练，从而可以提高视频切分点预测模型对视频的镜头切分点和事件切分点的预测准确性，进而可以有效提高视频切分点预测模型的性能表现。

在本实施例中，通过包括前面步骤310至步骤350的视频信息处理方法，在获取包括多个连续的待处理视频帧的待处理视频之后，先在待处理视频中确定目标帧区间，然后根据目标帧区间中多个连续的待处理视频帧对待处理视频进行数据增强处理，得到包括多个连续的增强视频帧的目标视频；由于用于对待处理视频进行数据增强处理的内容，是目标帧区间中多个连续的待处理视频帧的内容，而这些连续的待处理视频帧的内容会是动态变化的，因此用于对待处理视频进行数据增强处理的这些内容也会是动态变化的，所以，在将多个连续的待处理视频帧对待处理视频进行数据增强处理后，能够使得待处理视频中的被进行数据增强的不同待处理视频帧之间，即不同的增强视频帧之间，可以得到不相同的动态数据增强，因此，相比于相关技术中的对各帧图像进行相同的静态图像数据增强，可以使得目标视频能够更为有效地模拟真实视频样本中发生的事件变化。进一步地，在得到目标视频之后，在目标视频中，为多个连续的增强视频帧的起始位置和结束位置分别配置事件切分点标签，然后根据目标视频、事件切分点标签和镜头切分点标签，对视频切分点预测模型进行训练；由于多个连续的增强视频帧能够用于模拟真实视频样本中发生的事件变化，因此在为这些增强视频帧的起始位置和结束位置分别配置事件切分点标签后，可以通过事件切分点标签表征目标视频的事件切分点，另外，镜头切分点标签能够表征目标视频的镜头切分点，所以，可以利用目标视频作为训练样本，并利用事件切分点标签和镜头切分点标签作为训练标签，对视频切分点预测模型进行训练，从而可以提高视频切分点预测模型对视频的镜头切分点和事件切分点的预测准确性，进而可以有效提高视频切分点预测模型的性能表现。

在相关技术所提供的方案中，对于视频的镜头切分处理和事件切分处理，一般都是各自单独处理的，例如常用的用于对视频进行切分点预测的深度学习模型，要么只对视频进行镜头切分点的预测，要么只对视频进行事件切分点的预测，如果需要同时实现对视频的镜头切分点预测和事件切分点预测，则需要使用两个不同的深度学习模型，并且需要使用两套不同的数据集对两个深度学习模型分别进行训练，使得其中一个深度学习模型能够对视频进行镜头切分点的预测，而另一个深度学习模型能够对视频进行事件切分点的预测。但是，这种处理方式存在效率低、流程繁琐、部署复杂等问题。为了解决这些问题，本发明实施例还提供了一种基于双头网络的视频切分点预测模型，该视频切分点预测模型能够对一个输入的视频同时进行镜头切分点预测和事件切分点预测，也就是说，可以使用一套数据集对该视频切分点预测模型进行训练，使得该视频切分点预测模型能够同时完成对视频的镜头切分点预测和事件切分点预测，从而可以解决效率低、流程繁琐、部署复杂等问题。

在一实施例中，本发明实施例所提供的视频切分点预测模型可以包括特征提取子模型、时序建模子模型、镜头切分点预测子模型和事件切分点预测子模型，其中，特征提取子模型的输出与时序建模子模型的输入连接，时序建模子模型的输出分别连接镜头切分点预测子模型和事件切分点预测子模型，镜头切分点预测子模型和事件切分点预测子模型形成双头网络结构，镜头切分点预测子模型和事件切分点预测子模型能够分别对时序建模子模型的输出进行切分点识别处理，因此视频切分点预测模型能够同时输出镜头切分点结果和事件切分点结果。其中，特征提取子模型能够对视频样本中的各个视频帧进行特征提取，得到各个视频帧的视频帧特征信息；时序建模子模型能够对各个视频帧特征信息进行时序建模，得到各个视频帧的时序特征向量；镜头切分点预测子模型能够根据各个时序特征向量对各个视频帧进行镜头切分点预测，得到镜头切分点结果；事件切分点预测子模型能够根据各个时序特征向量对各个视频帧进行事件切分点预测，得到事件切分点结果。

在一实施例中，为了能够提高对视频切分点预测模型的训练效果，在利用视频样本对视频切分点预测模型进行训练之前，可以对视频样本进行数据增强，例如，可以对视频样本的数据内容进行扩增，为视频样本添加渐变特效变化、镜头缩放变化或局部光影色彩变化等不同的内容扩增，形成新的视频样本，并为该新的视频样本配置与渐变特效变化、镜头缩放变化或局部光影色彩变化等扩增内容对应的新的标签信息，此时，再利用该新的视频样本和新的标签信息对视频切分点预测模型进行训练，可以提高视频切分点预测模型对具有渐变特效变化、镜头缩放变化或局部光影色彩变化的视频的镜头切分点和事件切分点的预测准确性，从而可以有效提高视频切分点预测模型的性能表现。

在一实施例中，还可以使用视频生成算法对视频样本进行数据增强，可以生成内容变化更加丰富的视频样本数据，从而可以有效地提高对视频切分点预测模型的训练效果。其中，视频生成算法是指利用计算机算法和技术生成视频内容的过程。视频生成算法可以基于静态图像、文字、音频和其他多媒体元素，通过图像处理、动画生成和渲染等技术，自动生成具有连续运动和时间轴的视频内容，例如，可以采用背景替换、前景提取或图像融合等技术，将不同的视频或图像元素合成为一个完整的视频，可以有效提高训练样本的数量，克服训练样本数量缺乏的问题。

在一实施例中，可以采用自监督的方法或者无监督的方法对视频切分点预测模型中的特征提取子模型进行训练，可以根据实际应用情况而进行适当的选择，此处不作具体限定。另外，在对视频切分点预测模型中的时序建模子模型进行训练时，可以采用相似度矩阵等方法来挖掘帧间关系以及视频段之间的时序关系，从而可以提高时序建模子模型对各个视频帧特征信息的时序建模准确性，进而有利于提高视频切分点预测模型对视频的镜头切分点和事件切分点的预测准确性。

在一实施例中，根据目标视频、事件切分点标签和镜头切分点标签对视频切分点预测模型进行训练的过程，可以包括但不限于以下步骤：

调用视频切分点预测模型对目标视频进行镜头切分点预测和事件切分点预测，得到镜头切分点结果和事件切分点结果；

根据镜头切分点结果、事件切分点结果、镜头切分点标签和事件切分点标签，对视频切分点预测模型进行参数调整。

在一实施例中，在根据镜头切分点结果、事件切分点结果、镜头切分点标签和事件切分点标签对视频切分点预测模型进行参数调整时，可以先根据镜头切分点结果和镜头切分点标签得到镜头切分点误差值，以及根据事件切分点结果和事件切分点标签得到事件切分点误差值，然后根据镜头切分点误差值和事件切分点误差值得到切分点总误差，接着根据切分点总误差对视频切分点预测模型的参数进行调整。

在一实施例中，由于镜头切分点标签和事件切分点标签能够用于表征镜头切分点和事件切分点，因此可以将镜头切分点标签和事件切分点标签作为样本标签，结合作为训练样本的目标视频，对能够同时进行镜头切分点预测和事件切分点预测的视频切分点预测模型进行训练，使得训练后的视频切分点预测模型能够具有更好的对视频的镜头切分点和事件切分点的预测准确性。

在一实施例中，视频切分点预测模型可以在TransNetv2模型的基础上，通过增加一个输出分支而得到，这样，在经过目标视频、镜头切分点标签和事件切分点标签的训练作用下，视频切分点预测模型能够同时对镜头切分点和事件切分点进行预测，从而能够提高对镜头切分点和事件切分点进行预测的效率。其中，TransNetv2模型是一种视频镜头切分模型，TransNetv2模型使用了一系列堆叠的膨胀深度卷积神经网络单元和池化层来提取图像特征，并采用基于RGB直方图的帧间相似度算法来进行时序建模。假设输入的视频的高和宽分别为H和W，通道数目为3，批次数量为N，也就是说，输入的视频的维度是，那么TransNetv2模型的输出的张量维度为/>。

在一实施例中，视频切分点预测模型也可以在SC-Transformer模型的基础上，通过增加一个输出分支而得到，这样，在经过目标视频、镜头切分点标签和事件切分点标签的训练作用下，视频切分点预测模型能够同时对镜头切分点和事件切分点进行预测，从而能够提高对镜头切分点和事件切分点进行预测的效率。其中，SC-Transformer模型是一种视频事件切分模型，SC-Transformer模型使用两种卷积神经网络模型分别提取视频的RGB特征和光流特征，接着使用一种结构化的编码机制（例如SPoS机制）来辅助进行时序建模，并通过Transformer的编码器和解码器来提取高阶时序特征。假设输入的视频的高和宽分别为H和W，通道数目为3，批次数量为N，也就是说，输入的视频的维度是，那么SC-Transformer模型的输出的张量维度为/>。

在一实施例中，在根据镜头切分点结果和镜头切分点标签得到镜头切分点误差值的过程中，以及根据事件切分点结果和事件切分点标签得到事件切分点误差值的过程中，都可以采用如下公式（1）计算误差值：

（1）

在上述公式（1）中，是预测概率，/>是标签值，/>是误差值。其中，当使用公式（1）计算镜头切分点误差值时，/>是镜头切分点结果，/>是镜头切分点标签，/>是镜头切分点误差值；当使用公式（1）计算事件切分点误差值时，/>是事件切分点结果，/>是事件切分点标签，/>是事件切分点误差值。

在一实施例中，在计算得到镜头切分点误差值和事件切分点误差值之后，当根据镜头切分点误差值和事件切分点误差值得到切分点总误差时，可以采用如下公式（2）计算得到切分点总误差：

（2）

在上述公式（2）中，是镜头切分点误差值，/>是事件切分点误差值，/>是镜头切分点标签所对应的权重值，/>是事件切分点标签所对应的权重值，/>是切分点总误差。

在一实施例中，调用视频切分点预测模型对目标视频进行镜头切分点预测和事件切分点预测的过程，可以包括但不限于以下步骤：

对目标视频中各个待处理视频帧进行特征提取，得到各个待处理视频帧的视频帧特征信息；

对各个视频帧特征信息进行时序建模，得到各个待处理视频帧的时序特征向量；

对各个时序特征向量进行镜头切分点预测，得到镜头切分点结果；

对各个时序特征向量进行事件切分点预测，得到事件切分点结果。

在一实施例中，在对各个视频帧特征信息进行时序建模得到各个待处理视频帧的时序特征向量之后，可以将各个待处理视频帧的时序特征向量复制成两路，输入至两个并行的分类头，使得其中一个分类头可以判断各个待处理视频帧是否为一个镜头切分点，并使得另一个分类头可以判断各个待处理视频帧是否为一个事件切分点。在一实施例中，每个分类头的输出维度都可以设置为，因此可以得到输出维度为/>的概率结果，其中，第0维可以表示不是切分点的概率，第1维则可以表示是切分点的概率。其中，各个分类头在判断各个待处理视频帧是否为一个切分点时，可以采用如下公式（3）计算切分点的概率：

在上述公式（3）中，可以表示输入到分类头的中间结果（例如可以是第/>个待处理视频帧的时序特征向量）；/>表示切分点的概率；/>的取值为2，表示类别的个数。当/>的取值为1时，/>可以表示第/>个待处理视频帧是镜头切分点的概率；当/>的取值为2时，/>可以表示第/>个待处理视频帧是事件切分点的概率。

在一实施例中，调用视频切分点预测模型对目标视频进行镜头切分点预测的过程，可以包括但不限于以下步骤：

调用视频切分点预测模型对目标视频进行镜头切分点预测，得到目标视频中各个待处理视频帧的镜头切分点概率；

将镜头切分点概率大于第一预设阈值的待处理视频帧确定为第一目标样本帧；

在目标视频中确定第一样本帧区间，将第一样本帧区间中的一个视频帧确定为第二目标样本帧，其中，第一样本帧区间中的每个待处理视频帧的镜头切分点概率均大于第二预设阈值，第二预设阈值小于第一预设阈值；

根据第一目标样本帧和第二目标样本帧得到镜头切分点结果。

在一实施例中，当镜头切分点概率大于第一预设阈值，可以认为该镜头切分点概率对应的待处理视频帧是一个镜头切分点，因此可以将镜头切分点概率大于第一预设阈值的待处理视频帧确定为第一目标样本帧，以便于后续步骤可以根据该第一目标样本帧得到镜头切分点结果。另外，在对目标视频进行镜头切分点预测得到目标视频中各个待处理视频帧的镜头切分点概率之后，可能会出现某一待处理视频帧是镜头切分点，但由于该待处理视频帧的镜头切分点概率小于第一预设阈值而没有将该待处理视频帧确定为第一目标样本帧的误判情况。为了降低这种误判的概率，可以采用双阈值判断的处理方式得到镜头切分点结果，具体地，在根据第一预设阈值确定第一目标样本帧之后，如果在目标视频中存在一个第一样本帧区间，并且该第一样本帧区间中的每个待处理视频帧的镜头切分点概率均大于第二预设阈值，那么可以说明这个第一样本帧区间中存在一个镜头切分点，此时，可以将这个第一样本帧区间中的一个视频帧确定为第二目标样本帧，例如，当第一样本帧区间的视频帧数量为奇数时，可以将第一样本帧区间中处于中间位置的待处理视频帧确定为第二目标样本帧；当第一样本帧区间的视频帧数量为偶数时，可以将第一样本帧区间中处于中间位置的两个待处理视频帧中的任意一个确定为第二目标样本帧。然后，将该第二目标样本帧和前面的第一目标样本帧确定为镜头切分点结果，这样，能够有效降低出现误判的概率，提高镜头切分点的识别准确性。此外，在得到包括多个镜头切分点的镜头切分点结果之后，还可以对镜头切分点结果中的所有镜头切分点进行视频帧区间的去重，将包括数量过多的镜头切分点的视频帧区间中的部分镜头切分点删除，避免在一定视频帧区间内频繁出现镜头切分点，此时，可以得到最终的镜头切分点结果。需要说明的是，第二预设阈值和第一预设阈值的取值均可以根据实际应用情况而进行适当的选择，此处不作具体限定。例如，第一预设阈值可以设置为0.6，而第二预设阈值则可以设置为0.5。

在一实施例中，镜头切分点结果可以包括至少一个镜头切分点，其中，镜头切分点可以为镜头内容直接跳变的相邻两个待处理视频帧中的一个（此时的镜头切分点可被称为镜头硬切分点），或者，镜头切分点可以包括镜头内容渐变的多个连续的待处理视频帧（此时的镜头切分点可被称为镜头软切分点）。

在一实施例中，对于镜头硬切分点和镜头软切分点，都可以采用前面的双阈值判断的处理方式来确定，通过采用双阈值判断的处理方式来确定镜头硬切分点和镜头软切分点，可以有效降低对镜头硬切分点和镜头软切分点误判的概率，从而可以提高对镜头硬切分点和镜头软切分点的识别准确性。

在一实施例中，调用视频切分点预测模型对目标视频进行事件切分点预测的过程，可以包括但不限于以下步骤：

调用视频切分点预测模型对目标视频进行事件切分点预测，得到目标视频中各个待处理视频帧的事件切分点概率；

将事件切分点概率大于第三预设阈值的待处理视频帧确定为第三目标样本帧；

在目标视频中确定第二样本帧区间，将第二样本帧区间中的一个视频帧确定为第四目标样本帧，其中，第二样本帧区间中的每个待处理视频帧的事件切分点概率均大于第四预设阈值，第四预设阈值小于第三预设阈值；

根据第三目标样本帧和第四目标样本帧得到事件切分点结果。

在一实施例中，当事件切分点概率大于第三预设阈值，可以认为该事件切分点概率对应的待处理视频帧是一个事件切分点，因此可以将事件切分点概率大于第三预设阈值的待处理视频帧确定为第三目标样本帧，以便于后续步骤可以根据该第三目标样本帧得到事件切分点结果。另外，在对目标视频进行事件切分点预测得到目标视频中各个待处理视频帧的事件切分点概率之后，可能会出现某一待处理视频帧是事件切分点，但由于该待处理视频帧的事件切分点概率小于第三预设阈值而没有将该待处理视频帧确定为第三目标样本帧的误判情况。为了降低这种误判的概率，可以采用双阈值判断的处理方式得到事件切分点结果，具体地，在根据第三预设阈值确定第三目标样本帧之后，如果在目标视频中存在一个第二样本帧区间，并且该第二样本帧区间中的每个待处理视频帧的事件切分点概率均大于第四预设阈值，那么可以说明这个第二样本帧区间中存在一个事件切分点，此时，可以将这个第二样本帧区间中的一个视频帧确定为第四目标样本帧，例如，当第二样本帧区间的视频帧数量为奇数时，可以将第二样本帧区间中处于中间位置的待处理视频帧确定为第四目标样本帧；当第二样本帧区间的视频帧数量为偶数时，可以将第二样本帧区间中处于中间位置的两个待处理视频帧中的任意一个确定为第四目标样本帧。然后，将该第四目标样本帧和前面的第三目标样本帧确定为事件切分点结果，这样，能够有效降低出现误判的概率，提高事件切分点的识别准确性。另外，需要说明的是，在一个视频中，事件切分的细粒度比镜头切分的细粒度要小，因此事件切分点不如镜头切分点明显，而通过采用双阈值判断的处理方式来得到事件切分点，可以保证事件切分点不被遗漏，从而可以提高事件切分点的识别准确性和识别完整性。此外，在得到包括多个事件切分点的事件切分点结果之后，还可以对事件切分点结果中的所有事件切分点进行视频帧区间的去重，将包括数量过多的事件切分点的视频帧区间中的部分事件切分点删除，避免在一定视频帧区间内频繁出现事件切分点，此时，可以得到最终的事件切分点结果。需要说明的是，第四预设阈值和第三预设阈值的取值均可以根据实际应用情况而进行适当的选择，此处不作具体限定。例如，第三预设阈值可以设置为0.6，而第四预设阈值则可以设置为0.5。

下面以一个具体例子对本发明实施例的视频信息处理方法的主要流程进行说明。参照图14所示，图14是一个具体例子提供的视频信息处理方法的主要流程图。在图14中，该视频信息处理方法的主要流程可以包括以下步骤1410至步骤1480。

步骤1410：获取待处理视频。

步骤1420：对待处理视频进行数据增强处理，得到目标视频及其对应的事件切分点标签。

在一实施例中，对待处理视频进行的数据增强处理，可以为图像内容渐变数据增强、图像动态缩放数据增强或图像参数动态变化数据增强中的一种或多种。在对待处理视频进行数据增强处理之后，可以得到包括多个连续的增强视频帧的目标视频。此外，在得到目标视频之后，还可以对目标视频中多个连续的增强视频帧的起始位置和结束位置分别配置事件切分点标签，使得事件切分点标签可以用于表征目标视频中的事件切分点。

步骤1430：调用视频切分点预测模型对目标视频进行特征提取，得到视频帧特征信息。

在一实施例中，视频切分点预测模型可以包括特征提取子模型、时序建模子模型、镜头切分点预测子模型和事件切分点预测子模型，因此，在调用视频切分点预测模型对目标视频进行特征提取时，可以调用视频切分点预测模型中的特征提取子模型对目标视频进行特征提取，得到目标视频中的各个待处理视频帧的视频帧特征信息。

步骤1440：调用视频切分点预测模型对视频帧特征信息进行时序建模，得到时序特征向量。

在一实施例中，在调用视频切分点预测模型对视频帧特征信息进行时序建模时，可以调用视频切分点预测模型中的时序建模子模型对视频帧特征信息进行时序建模，得到目标视频中的各个待处理视频帧的时序特征向量。

步骤1450：调用视频切分点预测模型对时序特征向量进行镜头切分点预测，得到镜头切分点概率。

在一实施例中，在调用视频切分点预测模型对时序特征向量进行镜头切分点预测时，可以调用视频切分点预测模型中的镜头切分点预测子模型对时序特征向量进行镜头切分点预测，得到目标视频中的各个待处理视频帧作为镜头切分点的概率。

步骤1460：调用视频切分点预测模型对时序特征向量进行事件切分点预测，得到事件切分点概率。

在一实施例中，在调用视频切分点预测模型对时序特征向量进行事件切分点预测时，可以调用视频切分点预测模型中的事件切分点预测子模型对时序特征向量进行事件切分点预测，得到目标视频中的各个待处理视频帧作为事件切分点的概率。

步骤1470：对镜头切分点概率进行双阈值判断处理得到镜头切分点结果。

在一实施例中，可以采用双阈值机制来判断目标视频中的各个待处理视频帧是否为镜头切分点。其中，采用双阈值机制判断待处理视频帧是否为镜头切分点的过程可以包括：当一个待处理视频帧的镜头切分点概率大于第一预设阈值，将该待处理视频帧作为候选镜头切分点加入到预设的一个候选镜头切分点集中；当在一定视频帧范围内的多个待处理视频帧的镜头切分点概率都大于第二预设阈值时，将该视频帧范围内的一个视频帧作为候选镜头切分点加入到该候选镜头切分点集，其中第二预设阈值小于第一预设阈值；对该候选镜头切分点集中的所有候选镜头切分点进行视频帧区间的去重，避免在一定视频帧区间内频繁出现镜头切分点，此时，最后得到的候选镜头切分点集即为镜头切分点结果。

步骤1480：对事件切分点概率进行双阈值判断处理得到事件切分点结果。

在一实施例中，可以采用双阈值机制来判断目标视频中的各个待处理视频帧是否为事件切分点。其中，采用双阈值机制判断待处理视频帧是否为事件切分点的过程可以包括：当一个待处理视频帧的事件切分点概率大于第一预设阈值，将该待处理视频帧作为候选事件切分点加入到预设的一个候选事件切分点集中；当在一定视频帧范围内的多个待处理视频帧的事件切分点概率都大于第二预设阈值时，将该视频帧范围内的一个视频帧作为候选事件切分点加入到该候选事件切分点集，其中第二预设阈值小于第一预设阈值；对该候选事件切分点集中的所有候选事件切分点进行视频帧区间的去重，避免在一定视频帧区间内频繁出现事件切分点，此时，最后得到的候选事件切分点集即为事件切分点结果。通过采用双阈值判断的处理方式来得到事件切分点，可以克服相关技术中由于事件切分的细粒度小于镜头切分的细粒度而导致的事件切分点不如镜头切分点明显的问题，从而可以保证事件切分点不被遗漏，进而可以提高事件切分点的识别准确性和识别完整性。

在一实施例中，在得到目标视频之后，还可以获取候选视频和与候选视频对应的切分点标签，其中，与候选视频对应的切分点标签包括候选视频的镜头切分点标签和事件切分点标签，此时，可以将目标视频和候选视频作为训练样本，并将目标视频的事件切分点标签和镜头切分点标签、候选视频的镜头切分点标签和事件切分点标签，作为训练标签，对视频切分点预测模型进行训练。

在一实施例中，与候选视频对应的切分点标签，可以通过以下步骤获取得到：

对候选视频进行镜头切分点识别和事件切分点识别，得到初始镜头切分点和初始事件切分点；

根据预先设置的镜头切分点类型对初始镜头切分点进行更新，得到目标镜头切分点；

根据预先设置的事件切分点示例对初始事件切分点进行更新，得到目标事件切分点；

为目标镜头切分点和目标事件切分点配置切分点标签信息，得到切分点标签。

在一实施例中，候选视频可以是镜头和事件切分数据集中的样本数据。其中，该镜头和事件切分数据集所包含的样本数据内容可参照下表1所示。

表1

根据上述表1中的内容可知，该镜头和事件切分数据集可以包含7大类共180个网络常见的视频数据，这些视频数据的类别可以涵盖新闻、综艺、体育、直播、电影、动漫和游戏这7个大类。相比于相关技术中提供的一些小规模的镜头切分数据集（例如Clipshots数据集）和事件切分数据集（例如GEBD数据集），本实施例提供的镜头和事件切分数据集具有样本数量丰富、样本时长充分、贴合实际业务数据等优点，并且，本实施例提供的镜头和事件切分数据集还同时标注了镜头切分点和事件切分点，因此，采用本实施例提供的镜头和事件切分数据集对视频切分点预测模型进行训练，能够有效地提高视频切分点预测模型对视频的镜头切分点和事件切分点的预测准确性，从而能够有效提高视频切分点预测模型的性能表现。

在一实施例中，在对候选视频进行镜头切分点识别和事件切分点识别以得到初始镜头切分点和初始事件切分点时，可以采用TransNetv2模型和SC-Transformer模型对该镜头和事件切分数据集中的候选视频进行镜头切分点识别和事件切分点识别，从而可以得到候选视频中的初始镜头切分点和初始事件切分点。此时，对于初始镜头切分点，先对初始镜头切分点进行核对，判断初始镜头切分点是否为真实的切分点，然后根据预先设置的镜头切分点类型对候选视频中的剩余镜头切分点进行识别，接着根据判断结果和识别得到的剩余的镜头切分点，对初始镜头切分点进行更新，得到目标镜头切分点。对于初始事件切分点，先对初始事件切分点进行核对，判断初始事件切分点是否为真实的切分点，然后根据预先设置的事件切分点示例对候选视频中的剩余事件切分点进行识别，接着根据判断结果和识别得到的剩余的事件切分点，对初始事件切分点进行更新，得到目标事件切分点。当得到目标镜头切分点和目标事件切分点之后，即可为目标镜头切分点和目标事件切分点配置切分点标签信息，从而可以得到与候选视频对应的切分点标签。此时，可以将该候选视频及其对应的切分点标签，加入到该镜头和事件切分数据集中，使得该镜头和事件切分数据集中的视频数据同时标注有镜头和事件两种不同的切分点，从而可以用于对视频切分点预测模型进行训练，使得训练后的视频切分点预测模型能够提高对视频的镜头切分点和事件切分点的预测准确性，进而可以有效提高视频切分点预测模型的性能表现。

在一实施例中，由于镜头切分点可以具有明确的含义和类型，因此可以预先设置合适的镜头切分点类型，从而可以根据预先设置的镜头切分点类型对初始镜头切分点进行更新以得到目标镜头切分点。需要说明的是，镜头切分点的类型可以包括硬切类型（即镜头硬切分点）和软切类型（即镜头软切分点）。其中，硬切类型是指镜头切分点出现在前后内容无直接关联的两个视频帧之间；软切类型是指两个镜头之间具有平滑、无缝的过渡效果，一般会使用多个内容重叠的视频帧来连接两个镜头。参照图15和图16所示，图15示例性地给出了硬切类型的镜头切分点，图16示例性地给出了软切类型的镜头切分点。在图15中，显示了帧号连续的第一视频帧1510和第二视频帧1520，其中第一视频帧1510的显示内容和第二视频帧1520的显示内容无直接关联，因此可以认为第一视频帧1510和第二视频帧1520中的任意一个为属于硬切类型的镜头切分点。在图16中，显示了帧号连续的第三视频帧1610、第四视频帧1620、第五视频帧1630、第六视频帧1640和第七视频帧1650，其中，从第四视频帧1620到第六视频帧1640呈现有内容重叠的过渡效果，因此可以认为从第四视频帧1620到第六视频帧1640的视频帧区间的中间一个视频帧（即第五视频帧1630）为属于软切类型的镜头切分点，或者可以认为从第四视频帧1620到第六视频帧1640的视频帧区间为属于软切类型的镜头切分点。

在一实施例中，视频中的事件是一个无类别问题，无法预先规定所有的事件切分类别，因此可以预先设置合适的事件切分点示例以作为参考，从而可以将预先设置的事件切分点示例作为例子对初始事件切分点进行更新，得到目标事件切分点。需要说明的是，事件切分点可以包括镜头缩放、镜头平移、人物大动作、光影变化、视角变化等不同的切分点。参照图17和图18所示，图17示例性地给出了画面主体颜色突然变化的事件切分点，图18示例性地给出了画面背景发生变化的事件切分点。在图17中，显示了帧号连续的第八视频帧1710和第九视频帧1720，其中，第八视频帧1710和第九视频帧1720显示的画面主体相同，但是画面主体在第九视频帧1720中的颜色相较于在第八视频帧1710中的颜色发生了明显的色差变化，因此可以认为第八视频帧1710和第九视频帧1720中的任意一个为属于画面主体颜色突然变化的事件切分点。在图18中，显示了帧号连续的第十视频帧1810和第十一视频帧1820，其中，第十一视频帧1820中的画面背景相较于第十视频帧1810中的画面背景发生了明显的改变，因此可以认为第十视频帧1810和第十一视频帧1820中的任意一个为属于画面背景发生变化的事件切分点。

参照图19所示，图19示例性地提供了对待处理视频帧进行标签信息的配置的标注界面示意图。在该标注界面中，包括有视频数据列表区域1910、视频数据浏览区域1920、标签配置区域1930、视频帧显示区域1940和切分点标签汇总区域1950。在视频数据列表区域1910中，显示有已经导入的所有视频样本，并且这些视频样本以列表的形式显示在视频数据列表区域1910中。在视频数据浏览区域1920中，显示有当前播放的视频样本，在视频数据浏览区域1920中，可以对当前播放的视频样本进行暂停播放、继续播放、播放下一视频样本、播放上一视频样本、重新播放等操作，另外，在视频数据浏览区域1920中，还可以对当前播放的视频样本的播放进度进行调整。在标签配置区域1930中，显示有多种切分点标签类型，通过在标签配置区域1930中选择切分点标签类型，可以为当前显示的待处理视频帧添加对应的切分点标签。在视频帧显示区域1940中，显示有相邻的多个待处理视频帧，通过在视频帧显示区域1940中选择待处理视频帧，可以使得视频数据浏览区域1920显示被选择的待处理视频帧。在切分点标签汇总区域1950中，显示有已经完成标签配置的所有切分点标签信息，通过切分点标签汇总区域1950中显示的切分点标签信息，可以得到已经完成标签配置的各个切分点标签及其对应的视频帧信息。

在一实施例中，由于视频切分点预测模型能够同时实现对镜头切分点和事件切分点的预测，因此相比于相关技术中需要单独使用两个不同的模型分别进行镜头切分点预测和事件切分点预测的方式，本实施例的视频切分点预测模型能够具有更少的参数量（大约为相关技术的60%左右），并且能够具有更高的预测效率以及更优的部署便利性。参照表2所示，表2示出了本实施例的视频切分点预测模型以及相关技术中的其他模型对镜头切分点和事件切分点进行预测的性能对比。

表2

根据上述表2可知，本实施例的视频切分点预测模型在性能上虽然比起相关技术中的单独的单头网络有些许下降，但是本实施例的视频切分点预测模型能够同时输出镜头切分点结果和事件切分点结果，因此可以使得效率得到极大的提升。此外，在视频切分点预测模型结合数据增强的情况下，本实施例的视频切分点预测模型能够在镜头切分预测和事件切分预测的准召率上都有不同程度的提升，其中镜头切分预测的F1分数提升了0.0155，事件切分预测的F1分数提升了0.038，涨幅明显；另外，事件切分预测的结果超过了事件单头网络的预测结果，说明结合了数据增强的视频切分点预测模型能够确实有效地提升了切分点预测的性能。

在一实施例中，由于视频切分点预测模型能够同时实现对镜头切分点和事件切分点的预测，因此可以根据视频切分点预测模型所输出的镜头切分点结果和事件切分点结果，对视频进行镜头切分和事件切分，得到切分后的视频段，并且可以将切分后的视频段用于下游的各类视频任务使用。其中，相比于镜头切分，事件切分的细粒度更小，并且考虑到了语义层面的变化，因此事件切分后的视频段能够适用于更多类型的视频任务使用。参照表3和表4所示，表3是将镜头切分视频段和事件切分视频段应用于视频检索任务的性能评价表，其中镜头切分视频段和事件切分视频段是将视频切分点预测模型输出的镜头切分点结果和事件切分点结果对视频进行切分后得到的视频段。表4是将镜头切分视频段和事件切分视频段应用于综艺拆条任务的性能评价表，其中镜头切分视频段和事件切分视频段是将视频切分点预测模型输出的镜头切分点结果和事件切分点结果对视频进行切分后得到的视频段。

表3

表4

从表3和表4中可以看出，与镜头切分结果的应用相比，事件切分结果的应用能够在多个指标上都带来了提升，这说明本实施例所带来的更细致、更一致的切分结果可以有效提升下游视频任务的性能。需要说明的是，指标R1、指标R3、指标R5、指标Rth1、指标Rth3和指标Rth5都是召回率，其中指标R1是指召回的第一个结果的召回率，指标R3是指召回的前三个结果的召回率，指标R5是指召回的前五个结果的召回率；指标Rth1、指标Rth3和指标Rth5都是指在预设帧数量之内存在一个正确结果的召回率，指标Rth1、指标Rth3和指标Rth5所对应的帧数量成倍数关系，例如，假设指标Rth1是指在25帧内存在一个正确结果的召回率，那么指标Rth3是指在75帧内存在一个正确结果的召回率，指标Rth5是指在125帧内存在一个正确结果的召回率。

下面以具体的例子对本发明实施例所提供的视频信息处理方法进行详细的说明。

参照图20所示，图20是一个例子提供的视频信息处理方法的流程图。在图20中，该视频信息处理方法可以包括但不限于步骤2001至步骤2009。

步骤2001：获取包括多个待处理视频帧的待处理视频。

步骤2002：在待处理视频中确定目标帧区间。

步骤2003：根据目标帧区间中多个连续的待处理视频帧，对待处理视频进行动态数据增强处理，得到目标视频。

本步骤中，动态数据增强处理用于使得多个连续的增强视频帧发生的变化不同。

本步骤中，在根据目标帧区间中多个连续的待处理视频帧对待处理视频进行动态数据增强处理以得到目标视频时，可以先在待处理视频中确定多个连续的待增强视频帧，再获取目标帧区间中多个连续的待处理视频帧的图像信息，然后将多个连续的待处理视频帧的图像信息分别叠加至多个连续的待增强视频帧中，以得到多个连续的增强视频帧，接着将包含多个连续的增强视频帧的待处理视频作为目标视频。

本步骤中，在根据目标帧区间中多个连续的待处理视频帧对待处理视频进行动态数据增强处理以得到目标视频时，还可以先基于目标帧区间中多个连续的待处理视频帧，得到多个不同尺寸的目标区域图像，然后对多个不同尺寸的目标区域图像进行缩小或者放大的调整，使得多个不同尺寸的目标区域图像被调整为相同尺寸，并将相同尺寸的多个目标区域图像作为多个连续的增强视频帧，接着将目标帧区间中多个连续的待处理视频帧，替换为多个连续的增强视频帧，得到目标视频。

本步骤中，在根据目标帧区间中多个连续的待处理视频帧对待处理视频进行动态数据增强处理以得到目标视频时，还可以先在目标帧区间中多个连续的待处理视频帧中确定候选帧区域，然后根据候选帧区域对目标帧区间中多个连续的待处理视频帧进行图像截取，得到目标帧区间中多个连续的待处理视频帧的局部图像信息，接着对多个连续的待处理视频帧的局部图像信息进行光线、色彩或纹理中的至少一种图像参数调整，得到目标视频，其中，目标帧区间中不同待处理视频帧对应的图像参数调整的程度不同，经过图像参数调整的多个连续的待处理视频帧为多个连续的增强视频帧。

步骤2004：在目标视频中，为多个连续的增强视频帧的起始位置和结束位置分别配置事件切分点标签。

步骤2005：调用视频切分点预测模型对目标视频进行镜头切分点预测和事件切分点预测，得到镜头切分点结果和事件切分点结果。

本步骤中，在调用视频切分点预测模型对目标视频进行镜头切分点预测和事件切分点预测以得到镜头切分点结果和事件切分点结果时，可以先对目标视频中的各个待处理视频帧进行特征提取，得到各个待处理视频帧的视频帧特征信息，然后对各个视频帧特征信息进行时序建模，得到各个待处理视频帧的时序特征向量，接着对各个时序特征向量进行镜头切分点预测，得到镜头切分点结果，以及对各个时序特征向量进行事件切分点预测，得到事件切分点结果。

其中，在对各个时序特征向量进行镜头切分点预测以得到镜头切分点结果时，可以先对各个时序特征向量进行镜头切分点预测，得到各个待处理视频帧的镜头切分点概率，然后将镜头切分点概率大于第一预设阈值的待处理视频帧确定为第一目标样本帧，并且在目标视频中确定第一样本帧区间，将第一样本帧区间中的一个视频帧确定为第二目标样本帧，其中，第一样本帧区间中的每个待处理视频帧的镜头切分点概率均大于第二预设阈值，第二预设阈值小于第一预设阈值，接着根据第一目标样本帧和第二目标样本帧得到镜头切分点结果。

另外，在对各个时序特征向量进行事件切分点预测以得到事件切分点结果时，可以先对各个时序特征向量进行事件切分点预测，得到各个待处理视频帧的事件切分点概率，然后将事件切分点概率大于第三预设阈值的待处理视频帧确定为第三目标样本帧，并且在目标视频中确定第二样本帧区间，将第二样本帧区间中的一个视频帧确定为第四目标样本帧，其中，第二样本帧区间中的每个待处理视频帧的事件切分点概率均大于第四预设阈值，第四预设阈值小于第三预设阈值，接着根据第三目标样本帧和第四目标样本帧得到事件切分点结果。

步骤2006：根据镜头切分点结果和镜头切分点标签得到镜头切分点误差值。

步骤2007：根据事件切分点结果和事件切分点标签得到事件切分点误差值。

步骤2008：根据镜头切分点误差值和事件切分点误差值得到切分点总误差。

步骤2009：根据切分点总误差对视频切分点预测模型的参数进行调整。

在本实施例中，通过包括前面步骤2001至步骤2009的视频信息处理方法，在获取包括多个连续的待处理视频帧的待处理视频之后，先在待处理视频中确定目标帧区间，然后根据目标帧区间中多个连续的待处理视频帧对待处理视频进行数据增强处理，得到包括多个连续的增强视频帧的目标视频；由于用于对待处理视频进行数据增强处理的内容，是目标帧区间中多个连续的待处理视频帧的内容，而这些连续的待处理视频帧的内容会是动态变化的，因此用于对待处理视频进行数据增强处理的这些内容也会是动态变化的，所以，在将多个连续的待处理视频帧对待处理视频进行数据增强处理后，能够使得待处理视频中的被进行数据增强的不同待处理视频帧之间，即不同的增强视频帧之间，可以得到不相同的动态数据增强，因此，相比于相关技术中的对各帧图像进行相同的静态图像数据增强，可以使得目标视频能够更为有效地模拟真实视频样本中发生的事件变化。进一步地，在得到目标视频之后，在目标视频中，为多个连续的增强视频帧的起始位置和结束位置分别配置事件切分点标签，然后根据目标视频、事件切分点标签和镜头切分点标签，对视频切分点预测模型进行训练；由于多个连续的增强视频帧能够用于模拟真实视频样本中发生的事件变化，因此在为这些增强视频帧的起始位置和结束位置分别配置事件切分点标签后，可以通过事件切分点标签表征目标视频的事件切分点，另外，镜头切分点标签能够表征目标视频的镜头切分点，所以，可以利用目标视频作为训练样本，并利用事件切分点标签和镜头切分点标签作为训练标签，对视频切分点预测模型进行训练，从而可以提高视频切分点预测模型对视频的镜头切分点和事件切分点的预测准确性，进而可以有效提高视频切分点预测模型的性能表现。

下面以一些实际例子说明本发明实施例的应用场景。

本发明实施例提供的视频信息处理方法可以应用于视频检索、综艺拆条等不同的视频类任务应用场景，下面以视频检索场景和综艺拆条场景为例进行说明。

场景一

本发明实施例提供的视频信息处理方法可以应用于视频检索场景，例如，在用户通过用户终端向视频内容服务器发起视频检索业务之前，视频内容服务器可以先获取包括多个待处理视频帧的待处理视频，然后在待处理视频中确定目标帧区间，接着根据目标帧区间中多个连续的待处理视频帧对待处理视频进行数据增强处理，得到包括多个连续的增强视频帧的目标视频；在得到目标视频之后，视频内容服务器在目标视频中，为多个连续的增强视频帧的起始位置和结束位置分别配置事件切分点标签，此时，视频内容服务器可以利用目标视频、事件切分点标签和人工标注的镜头切分点标签，对视频切分点预测模型进行训练，使得视频切分点预测模型能够同时实现对镜头切分点和事件切分点的预测。在完成对视频切分点预测模型的训练之后，当接收到用户通过用户终端发送的进行视频检索的请求，视频内容服务器利用视频切分点预测模型对待检索视频进行镜头切分点和事件切分点的预测，得到待检索视频的镜头切分点和事件切分点，然后，视频内容服务器根据镜头切分点和事件切分点对待检索视频进行视频切分，得到多个镜头片段和事件片段，接着，视频内容服务器以各个镜头片段的中间帧和各个事件片段的中间帧作为基础，进行视频检索业务。在该场景中，由于是先根据镜头切分点和事件切分点对待检索视频进行视频切分得到多个镜头片段和事件片段，然后以各个镜头片段的中间帧和各个事件片段的中间帧作为基础进行视频检索业务，而对于每个视频片段（镜头片段和事件片段）来说，每个视频片段中的各个视频帧都是具有相同的结构信息或者语义信息的，因此在进行视频检索业务时不会出现由于信息冗余或者丢失而影响视频检索的准确性。

场景二

本发明实施例提供的视频信息处理方法可以应用于综艺拆条场景，例如，在视频内容服务器对目标综艺视频进行拆条之前，视频内容服务器可以先获取包括多个待处理视频帧的待处理视频，然后在待处理视频中确定目标帧区间，接着根据目标帧区间中多个连续的待处理视频帧对待处理视频进行数据增强处理，得到包括多个连续的增强视频帧的目标视频；在得到目标视频之后，视频内容服务器在目标视频中，为多个连续的增强视频帧的起始位置和结束位置分别配置事件切分点标签，此时，视频内容服务器可以利用目标视频、事件切分点标签和人工标注的镜头切分点标签，对视频切分点预测模型进行训练，使得视频切分点预测模型能够同时实现对镜头切分点和事件切分点的预测。在完成对视频切分点预测模型的训练之后，当视频内容服务器需要对目标综艺视频进行拆条任务时，视频内容服务器可以利用视频切分点预测模型对目标综艺视频进行镜头切分点和事件切分点的预测，得到目标综艺视频的镜头切分点和事件切分点，然后，视频内容服务器根据镜头切分点和事件切分点对目标综艺视频进行视频切分，得到多个镜头片段和事件片段，至此，完成对目标综艺视频的拆条任务。

参照图21，本发明实施例还公开了一种视频信息处理装置，该视频信息处理装置2100能够实现前面实施例中的视频信息处理方法，该视频信息处理装置2100包括：

视频获取单元2110，用于获取待处理视频，待处理视频包括多个连续的待处理视频帧；

帧区间确定单元2120，用于在待处理视频中确定目标帧区间；

数据增强单元2130，用于根据目标帧区间中多个连续的待处理视频帧，对待处理视频进行数据增强处理，得到目标视频，目标视频包括多个连续的增强视频帧；

标签配置单元2140，用于在目标视频中，为多个连续的增强视频帧的起始位置和结束位置分别配置事件切分点标签；

视频处理单元2150，用于根据目标视频、事件切分点标签和镜头切分点标签，对视频切分点预测模型进行训练。

在一实施例中，数据增强单元2130还用于：

根据目标帧区间中多个连续的待处理视频帧，对待处理视频进行动态数据增强处理，得到目标视频，动态数据增强处理用于使得多个连续的增强视频帧发生的变化不同。

在一实施例中，数据增强单元2130还用于：

在待处理视频中确定多个连续的待增强视频帧；

将目标帧区间中多个连续的待处理视频帧中的内容，叠加至多个连续的待增强视频帧中，以得到多个连续的增强视频帧；

将包含多个连续的增强视频帧的待处理视频作为目标视频。

在一实施例中，数据增强单元2130还用于：

获取目标帧区间中多个连续的待处理视频帧的图像信息；

将多个连续的待处理视频帧的图像信息分别叠加至多个连续的待增强视频帧中，以得到多个连续的增强视频帧。

在一实施例中，数据增强单元2130还用于：

基于目标帧区间中多个连续的待处理视频帧，得到多个不同尺寸的目标区域图像；

将多个不同尺寸的目标区域图像调整为相同尺寸，并将相同尺寸的多个目标区域图像作为多个连续的增强视频帧；

将目标帧区间中多个连续的待处理视频帧，替换为多个连续的增强视频帧，得到目标视频。

在一实施例中，数据增强单元2130还用于：

对多个不同尺寸的目标区域图像进行缩小或者放大的调整，使得多个不同尺寸的目标区域图像被调整为相同尺寸。

在一实施例中，数据增强单元2130还用于：

获取目标帧区间中多个连续的待处理视频帧的局部图像信息；

对多个连续的待处理视频帧的局部图像信息进行光线、色彩或纹理中的至少一种图像参数调整，得到目标视频，其中，目标帧区间中不同待处理视频帧对应的图像参数调整的程度不同，经过图像参数调整的多个连续的待处理视频帧为多个连续的增强视频帧。

在一实施例中，数据增强单元2130还用于：

在目标帧区间中多个连续的待处理视频帧中确定候选帧区域；

根据候选帧区域对目标帧区间中多个连续的待处理视频帧进行图像截取，得到目标帧区间中多个连续的待处理视频帧的局部图像信息。

在一实施例中，视频处理单元2150还用于：

在一实施例中，镜头切分点结果包括至少一个镜头切分点，其中，镜头切分点为镜头内容直接跳变的相邻两个待处理视频帧中的一个，或者，镜头切分点包括镜头内容渐变的多个连续的待处理视频帧。

需要说明的是，由于本实施例的视频信息处理装置2100能够实现如前面实施例的视频信息处理方法，因此本实施例的视频信息处理装置2100与前面实施例的视频信息处理方法，具有相同的技术原理以及相同的有益效果，为了避免内容重复，此处不再赘述。

参照图22，本发明实施例还公开了一种视频信息处理装置，该视频信息处理装置2200包括：

至少一个处理器2201；

至少一个存储器2202，用于存储至少一个程序；

当至少一个程序被至少一个处理器2201执行时，实现如前面的视频信息处理方法。

本发明实施例还公开了一种计算机可读存储介质，其中存储有处理器可执行的计算机程序，处理器可执行的计算机程序被处理器执行时，用于实现如前面的视频信息处理方法。

本发明实施例还公开了一种计算机程序产品，包括计算机程序或计算机指令，计算机程序或计算机指令存储在计算机可读存储介质中，视频信息处理装置的处理器从计算机可读存储介质读取计算机程序或计算机指令，处理器执行计算机程序或计算机指令，使得视频信息处理装置执行如前面的视频信息处理方法。

本发明的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其他步骤或单元。

应当理解，在本发明中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机、服务器或者网络装置等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

对于上述方法实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

Claims

1.一种视频信息处理方法，其特征在于，包括以下步骤：

在所述待处理视频中确定目标帧区间；

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标帧区间中多个连续的所述待处理视频帧，对所述待处理视频进行数据增强处理，得到目标视频，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标帧区间中多个连续的所述待处理视频帧，对所述待处理视频进行动态数据增强处理，得到目标视频，包括：

在所述待处理视频中确定多个连续的待增强视频帧；

4.根据权利要求3所述的方法，其特征在于，所述将所述目标帧区间中多个连续的所述待处理视频帧中的内容，叠加至多个连续的所述待增强视频帧中，以得到多个连续的增强视频帧，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述目标帧区间中多个连续的所述待处理视频帧，对所述待处理视频进行动态数据增强处理，得到目标视频，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述多个不同尺寸的目标区域图像调整为相同尺寸，包括：

7.根据权利要求2所述的方法，其特征在于，所述根据所述目标帧区间中多个连续的所述待处理视频帧，对所述待处理视频进行动态数据增强处理，得到目标视频，包括：

8.根据权利要求7所述的方法，其特征在于，所述获取所述目标帧区间中多个连续的所述待处理视频帧的局部图像信息，包括：

9.根据权利要求1所述的方法，其特征在于，所述根据所述目标视频、所述事件切分点标签和镜头切分点标签，对视频切分点预测模型进行训练，包括：

10.根据权利要求9所述的方法，其特征在于，所述调用所述视频切分点预测模型对所述目标视频进行事件切分点预测的过程，包括以下步骤：

11.根据权利要求9所述的方法，其特征在于，所述镜头切分点结果包括至少一个镜头切分点，其中，所述镜头切分点为镜头内容直接跳变的相邻两个待处理视频帧中的一个，或者，所述镜头切分点包括镜头内容渐变的多个连续的待处理视频帧。

12.一种视频信息处理装置，其特征在于，包括：

13.一种视频信息处理装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当至少一个所述程序被至少一个所述处理器执行时实现如权利要求1至11任意一项所述的视频信息处理方法。

14.一种计算机可读存储介质，其特征在于，其中存储有处理器可执行的计算机程序，所述处理器可执行的计算机程序被处理器执行时用于实现如权利要求1至11任意一项所述的视频信息处理方法。