CN115278299B

CN115278299B - 无监督的训练数据生成方法、装置、介质及设备

Info

Publication number: CN115278299B
Application number: CN202210893891.2A
Authority: CN
Inventors: 张粲; 杨田雨; 翁俊武; 曹蒙; 王珏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2024-03-19
Anticipated expiration: 2042-07-27
Also published as: CN115278299A

Abstract

本申请公开了无监督的训练数据生成方法、装置、介质及设备，涉及人工智能技术领域，该方法包括：获取第一原始视频和第二原始视频；确定所述第一原始视频中的目标视频片段，任一目标视频片段中视频帧对应的场景相关性满足预设条件；将所述目标视频片段和所述第二原始视频进行合成，得到目标合成视频；确定所述目标视频片段在所述目标合成视频中的时序位置信息；基于所述目标合成视频和所述时序位置信息，生成时序定位模型的训练数据。本申请采用无监督的方式生成训练数据，节省了人工标注成本，同时突出训练数据中的时序标注信息而省去行为类别标注信息，能够提升所训练的时序定位模型在时序边界上的预测准确性和在场景上的自适应性。

Description

无监督的训练数据生成方法、装置、介质及设备

技术领域

本申请涉及人工智能技术领域，具体涉及无监督的训练数据生成方法、装置、介质及设备。

背景技术

人工智能(Artificial Intelligence，AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理、机器学习、深度学习等几大方向。随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

相关技术中，利用人工智能技术中的深度学习进行时序行为的定位预测。在以深度学习网络为基础构建时序行为定位模型时，因将时序行为的定位任务划分为时序边界上行为的识别与分类，故时序行为定位模型所采用的训练数据需要包含行为类别的标注信息，导致人工标注成本过高且时序行为定位模型对于时序边界的预测不够准确，此外时序行为定位模型的应用范围与所标注过的行为类别相关，这限制了时序行为定位模型的迁移。

发明内容

为了解决上述技术问题，本申请提供了无监督的训练数据生成方法、装置、介质及设备。所述技术方案如下：

第一方面，本申请提供了一种无监督的训练数据生成方法，所述方法包括：

获取第一原始视频和第二原始视频；

确定所述第一原始视频中的至少一个目标视频片段，任一目标视频片段中视频帧对应的场景相关性满足预设条件；

将所述至少一个目标视频片段和所述第二原始视频进行合成，得到目标合成视频；

确定所述至少一个目标视频片段在所述目标合成视频中的时序位置信息；

基于所述目标合成视频和所述时序位置信息，生成时序定位模型的训练数据。

可选的，所述确定所述第一原始视频中的至少一个目标视频片段，包括：

确定所述第一原始视频中的基准帧；

依次将所述基准帧之后的视频帧作为当前帧；

确定所述基准帧和所述当前帧的场景相关性；

在所述场景相关性满足所述预设条件的情况下，将所述当前帧作为所述基准帧的连续相似帧；

根据所述基准帧和所述基准帧的至少一个连续相似帧，得到以所述基准帧为起始帧的当前视频片段，所述当前视频片段为所述至少一个目标视频片段中的任一目标视频片段。

可选的，所述方法还包括：

在所述场景相关性不满足所述预设条件的情况下，将所述当前帧作为所述基准帧。

可选的，所述方法还包括：

获取预设帧数，依次将所述基准帧之后且与所述基准帧间隔所述预设帧数的视频帧作为所述当前帧；

确定所述基准帧和所述当前帧的场景相关性；

在所述场景相关性满足所述预设条件的情况下，将在所述基准帧和所述当前帧之间的视频帧以及所述当前帧作为所述基准帧的连续相似帧。

可选的，所述将所述至少一个目标视频片段和所述第二原始视频进行合成，得到目标合成视频，包括：

确定所述至少一个目标视频片段在所述第二原始视频中的插入位置信息；

按照所述插入位置信息，将所述至少一个目标视频片段插入至所述第二原始视频中，得到所述目标合成视频。

可选的，所述确定所述至少一个目标视频片段在所述目标合成视频中的时序位置信息，包括：

获取所述至少一个目标视频片段的时长信息；

根据所述插入位置信息和所述至少一个目标视频片段的时长信息，修正所述至少一个目标视频片段在所述第二原始视频中的插入位置信息；

根据修正后的所述插入位置信息和所述时长信息，确定所述至少一个目标视频片段在所述目标合成视频中的时序位置信息。

可选的，所述将所述至少一个目标视频片段和所述第二原始视频进行合成，得到目标合成视频，还包括：

将所述第二原始视频分割为至少一个视频片段；

将所述至少一个目标视频片段和所述至少一个视频片段排列组合，得到所述目标合成视频。

第二方面，本申请提供了一种无监督的训练数据生成装置，所述装置包括：

获取模块，用于获取第一原始视频和第二原始视频；

片段生成模块，用于确定所述第一原始视频中的至少一个目标视频片段，任一目标视频片段中视频帧对应的场景相关性满足预设条件；

合成模块，用于将所述至少一个目标视频片段和所述第二原始视频进行合成，得到目标合成视频；

时序确定模块，用于确定所述至少一个目标视频片段在所述目标合成视频中的时序位置信息；

训练数据确定模块，用于基于所述目标合成视频和所述时序位置信息，生成时序定位模型的训练数据。

第三方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如第一方面所述的一种无监督的训练数据生成方法。

第四方面，本申请提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由所述处理器加载并执行以实现如第一方面所述的一种无监督的训练数据生成方法。

第五方面，本申请提供了一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令被处理器执行时实现如第一方面所述的一种无监督的训练数据生成方法。

本申请提供的无监督的训练数据生成方法、装置、介质及设备，具有如下技术效果：

本申请提供的方案首先获取第一原始视频和第二原始视频，第一原始视频和第二原始视频没有任何标注信息；其次从第一原始视频中确定至少一个目标视频片段，任意一个目标视频片段中视频帧对应的场景相关性满足预设条件，在本申请中并不限定目标视频片段需要包含行为实例；接着将第一原始视频中的至少一个目标视频片段与第二原始视频进行合成，得到目标合成视频；最后确定各目标视频片段在目标合成视频中的时序位置信息，目标合成视频和时序位置信息构成时序定位模型的训练数据，其中时序位置信息是目标合成视频的时序标注信息。第一方面，本申请采用无监督的方式生成训练数据，无需人工对第一原始视频或第二原始视频标注时序信息或行为类别信息，节省了人工标注成本，也提高了模型训练的效率；第二方面将目标视频片段在目标合成视频中的时序位置信息作为时序标注信息，突出训练数据中的时序标注信息而省去行为类别标注信息，能够提升训练后的时序定位模型在时序边界上的预测准确性，更契合时序定位的任务目标；第三方面，由于省去了行为类别的标注信息以及在本申请中并不限定目标视频片段需要包含行为实例，利用本申请提供的训练数据进行训练得到的时序定位模型具备更好的场景自适应性，对于不同场景下的时序定位任务均能取得不错的性能表现。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1(1)是本申请实施例提供的一种无监督的训练数据生成方法的实施环境示意图；

图1(2)是本申请实施例提供的一种将时序定位模型训练及应用的实施环境示意图；

图2是本申请实施例提供的一种无监督的训练数据生成方法的流程示意图；

图3是本申请实施例提供的一种确定第一原始视频中的目标视频片段的流程示意图；

图4是本申请实施例提供的示例性的一种根据帧之间的余弦相似性确定目标视频片段的流程示意图；

图5是本申请实施例提供的另一种确定第一原始视频中的目标视频片段的流程示意图；

图6是本申请实施例提供的一种视频合成和时序位置信息确定的流程示意图；

图7是本申请实施例提供的另一种视频合成和时序位置信息确定的流程示意图；

图8是本申请实施例提供的一种用于生成训练数据的程序模块的执行示意图；

图9(1)是本申请实施例提供的一种以全监督方式生成的训练数据的结构示意图；

图9(2)是本申请实施例提供的一种以无监督方式生成的训练数据的结构示意图；

图10是本申请实施例提供的一种无监督的训练数据生成装置的示意图；

图11是本申请实施例提供的用于实现一种无监督的训练数据生成方法的设备的硬件结构示意图。

具体实施方式

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。

本申请实施例提供的方案涉及人工智能的深度学习(Deep Learning，DL)等技术。

深度学习(Deep Learing，DL)是机器学习(Machine Learning，ML)领域中一个主要的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。深度学习在搜索技术、数据挖掘、机器学习、机器翻译、自然语言处理、多媒体学习、语音、推荐和个性化技术，以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。

本申请实施例提供的方案可部署在云端，其中还涉及云技术等。

云技术(Cloud technology)：是指在广域网或局域网内将硬件、软件及网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术，也可理解为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术及应用技术等的总称，可以组成资源池，按需所用，灵活便利。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站，伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，因此云技术需要以云计算作为支撑。云计算是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。作为云计算的基础能力提供商，会建立云计算资源池平台，简称云平台，一般称为基础设施即服务(IaaS，Infrastructure as a Service)，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(可为虚拟化机器，包含操作系统)、存储设备和网络设备。

本申请实施例提供了无监督的训练数据生成方法、装置、介质及设备。下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于理解本申请实施例所述的技术方案及其产生的技术效果，本申请实施例对于涉及到的相关专业名词进行解释：

时序行为定位：TemporalAction Localization，简称TAL；也称时序动作检测，是视频理解中的一个重要领域，旨在通过预测每个行为实例的开始和结束时间位置，将输入视频划分为行为和非行为的片段并对每个行为实例进行分类。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

请参阅图1(1)，其为本申请实施例提供的一种无监督的训练数据生成方法的实施环境示意图，如图1(1)所示，该实施环境可以包括客户端110和服务器120。

具体的，所述客户端110可以包括智能手机、台式电脑、平板电脑、笔记本电脑、车载终端、数字助理、智能可穿戴设备及语音交互设备等类型的设备，也可以包括运行于设备中的软体，例如一些服务商提供给用户的网页页面，也可以为该些服务商提供给用户的应用。具体的，在本申请实施例中多个所述客户端110可以用于提供第一原始视频和第二原始视频，也即没有标注的视频数据。

具体的，所述服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。所述服务器120可以包括有网络通信单元、处理器和存储器等等。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。具体的，所述服务器120可以用于根据输入的第一原始视频和第二原始视频生成用于训练时序定位模型的目标合成视频和对应的时序位置信息，其中主要包括第一原始视频的目标视频片段抽取过程以及目标视频片段与第二原始视频的时序组合过程。在抽取过程中，所述服务器120可以从第一原始视频中根据视频帧的场景相关性抽取得到一个或多个目标视频片段；在片段随机时序组合过程中，所述服务器120可以将这一个或多个目标视频片段与第二原始视频进行随机时序组合，得到目标合成视频，并根据目标视频片段在目标合成视频中的位置确定该合成视频数据对应的时序位置信息。整个过程完全无需人工标注参与。

请参阅图1(2)，其为本申请实施例提供的一种将训练数据应用于模型训练的实施环境示意图，如图1(2)所示，该实施环境可以包括所述服务器120、服务器130和客户端140。

具体的，所述服务器130可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。所述服务器130可以包括有网络通信单元、处理器和存储器等等。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。具体的，所述服务器130可以利用图1(1)中所述服务器120生成的训练数据(目标合成视频及其对应的时序位置信息)对时序定位模型进行训练，时序定位模型可以基于深度神经网络构建，训练后得到的时序定位模型可以对所述客户端140提供的视频数据进行时序定位预测，并返回所预测的时序边界信息至所述客户端140。

具体的，所述客户端140可以包括智能手机、台式电脑、平板电脑、笔记本电脑、车载终端、数字助理、智能可穿戴设备及语音交互设备等类型的设备，也可以包括运行于设备中的软体，例如一些服务商提供给用户的网页页面，也可以为该些服务商提供给用户的应用。具体的，在本申请实施例中所述客户端140可以用于待预测的视频数据，并接收所述服务器130返回的针对该待预测的视频数据所预测的时序边界信息。

图1(1)和图1(2)所提供的实施环境可以应用于智能看护、网络视频分析、车载视频分析、体感互动娱乐、智能穿戴、智能手势控制系统、精彩瞬间剪辑、视频封面生成等多个项目和产品应用中，可零人力成本地获得大量用于视频时序行为定位任务的训练数据，显著地改善视频时序行为定位模型对时序边界预测的准确率，并且视频时序行为定位模型具备更好的场景自适应性，对于不同场景下的时序定位均能取得不错的性能表现，提升用户体验。

本申请实施例还可以结合云技术实现，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件及网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术，也可理解为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术及应用技术等的总称。云技术需要以云计算作为支撑。云计算是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。具体地，所述服务器120和所述服务器130位于云端，所述服务器120和所述服务器130可以是实体机器，也可以是虚拟化机器。

此外，需要说明的是，图1(1)和图1(2)所示的仅仅是本公开提供的示例性应用环境，在实际应用中，还可以包括其他应用环境，例如上述服务器120和上述服务器130可以为同一服务器。

以下介绍本申请提供的一种无监督的训练数据生成方法。图2是本申请实施例提供的一种无监督的训练数据生成方法的流程图，本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。请参照图2，本申请实施例提供的一种无监督的训练数据生成方法可以包括如下步骤：

在步骤S210中，获取第一原始视频和第二原始视频。

在本申请实施例中，第一原始视频和第二原始视频是指没有任何标注信息的视频数据，可以从网络中海量、多样的原始视频数据中进行抓取。由于利用的是没有标注信息的视频数据，并通过本申请实施例所提供的方法自动生成所需要的视频数据及其对应的时序标注信息以用于训练模型，而无需人工参与标注，故是一种无监督的训练数据生成方法。

需要说明的是，在本申请实施例中以两个原始视频为例说明训练数据的生成过程，第一、第二仅用于区别不同的原始视频，但本申请实施例并不局限于只能对两个原始视频进行合成得到训练数据，还可以是对多于两个的原始视频进行合成，其原理相同，故不作赘述。

在步骤S220中，确定第一原始视频中的至少一个目标视频片段，任一目标视频片段中视频帧对应的场景相关性满足预设条件。

在本申请实施例中，从第一原始视频中抽取视频帧得到一个或多个目标视频片段，每一个目标视频片段中的视频帧对应的场景相关性满足预设条件，也即，一个目标视频片段中的各视频帧在场景上具有一定的相关性。场景相关性用于表征目标视频片段中各视频帧画面的关联关系，预设条件可以用于指示目标视频片段中各视频帧包含相同或相似的画面，如游戏、体育比赛、自然风光、人物形象等等。具体地，可以通过图像数据的相似性来表示视频帧对应的场景相关性，则预设条件可以表现为相似性指标的阈值。在本申请实施例中对目标视频片段所涉及的场景类别不作限定，也即第一原始视频中抽取得到的多个目标视频片段所涉及的场景类别可以不相同，从而可以提升训练数据的场景多样性，以便提高时序定位模型的场景自适应性。

可以理解的是，应用于时序行为定位时，场景相关性并不要求目标视频片段中包含行为实例，目标视频片段可以看做是伪行为实例片段，也即可以包含具体的行为实例也可以不包含具体的行为实例，即使包含行为实例也不会对行为类别进行识别和标注。利用场景相关性抽取视频帧得到一个或多个目标视频片段，省去了人工标注视频中行为类别和修剪视频的过程，节约人力成本，提高训练数据的准备效率。同时本申请实施例提供的训练数据中不会包含行为类别的标注信息，仅关注目标视频片段在最终训练视频数据(也即后述的目标合成视频)中的时序位置，有助于提升所训练的模型对时序边界预测的准确性。

进一步地，还可以根据预设的片段帧数下限阈值，对目标视频片段进行筛选，过滤掉帧数过少的目标视频片段。

在本申请的一个可行的实施例中，具体地，如图3所示，所述步骤S220可以包括以下步骤：

S310：确定第一原始视频中的基准帧。

考虑到相邻的视频帧之间的相关性较高，选取基准帧作为标准帧，分别考察基准帧之后的视频帧与基准帧的场景相关性。可行的，可以先将第一个视频帧设置为第一个基准帧。

S320：依次将基准帧之后的视频帧作为当前帧。

S330：确定基准帧和当前帧的场景相关性。

S340：在场景相关性满足预设条件的情况下，将当前帧作为基准帧的连续相似帧。

步骤S320至步骤S340构成一个循环体，具体地，可以先将基准帧后的第一个视频帧作为当前帧，确定基准帧与当前帧的场景相关性，在场景相关性满足预设条件的情况下，将该当前帧作为该基准帧的第一个连续相似帧；接着，将基准帧后的第二个视频帧作为当前帧，仍然是考察同一个基准帧与此时的当前帧的场景相关性，若场景相关性仍满足预设条件，则继续循环下去，直至当前帧与基准帧的场景相关性不满足预设条件，则该基准帧的连续相似性片段的确定到此结束。

具体地，可以通过图像数据的相似性来表示基准帧和当前帧的场景相关性，则预设条件可以表现为相似性指标阈值。示例性的，图像数据的相似性可以用图像特征的余弦相似度或欧氏距离等衡量，如采用余弦相似度衡量场景相关性，则预设条件可以采用静态阈值，若基准帧和当前帧的图像特征的余弦相似度不低于静态阈值，则可以判定该基准帧和该当前帧的场景相关性满足预设条件，若基准帧和当前帧的图像特征的余弦相似度低于静态阈值，则可以判定该基准帧和该当前帧的场景相关性不满足预设条件。此外，预设条件也可以采用动态阈值，如将基准帧和第一个当前帧的图像特征余弦相似度作为当前阈值，将基准帧和第二个当前帧的图像特征余弦相似度与当前阈值做比较，若基准帧和第二个当前帧的图像特征余弦相似度不低于当前阈值，或者二者之差在预设的可接受范围内，则将当前阈值更新为基准帧和第二个当前帧的图像特征余弦相似度。以上仅作可行方式的示例，本申请实施例还可以采用差异性指标等其他指标来衡量场景相关性并适应性地设置预设条件。

S350：根据基准帧和基准帧的至少一个连续相似帧，得到以基准帧为起始帧的当前视频片段，当前视频片段为至少一个目标视频片段中的任一目标视频片段。

从第一原始视频中抽取该基准帧和基准帧的至少一个连续相似帧，并按照其在第一原始视频中的次序构成当前视频片段，并将当前视频片段作为一个以该基准帧为起始帧的目标视频片段。

上述实施例中，将基准帧作为标准帧，分别考察基准帧之后的视频帧与基准帧的场景相关性，利用循环过程和预设条件确定出基准帧的相似帧，构成目标视频片段，同时基准帧的相似帧在第一原始视频中的时序是连续的，有效保证了目标视频片段中各视频帧在场景上的相关性，有助于保证所得到的训练数据的准确和有效。

上述实施例中，若当前帧与基准帧的场景相关性不满足预设条件，则该基准帧的连续相似性片段的确定到此结束。进一步地，在一种可行的实施方式中，如图3中虚线中内容所示，在基准帧与当前帧的场景相关性不满足预设条件的情况下，将当前帧作为基准帧，也即更新基准帧并再次执行步骤S320至步骤S250。也即，在这种情况下，第一原始视频中的视频帧不会都作为基准帧，如已经是某个基准帧的连续相似帧则不会被作为基准帧，这种方式下得到的多个目标视频片段在场景上有区分，也即具有场景多样性，从而可以通过场景多样的训练数据提高时序定位模型的场景自适应性。在另一种可行的实施方式中，在基准帧与当前帧的场景相关性不满足预设条件的情况下，将第一原始视频中当前基准帧的后一个视频帧作为新的基准帧，也即第一原始视频中的每一个视频帧都会被作为基准帧，并确定对应的目标视频片段，这种方式下第一原始视频对应的目标视频片段的个数与第一原始视频的视频帧数有关，有可能会非常多，且会出现场景重叠的多个目标视频片段，导致训练数据的冗余。

在一种示例性的实施例中，如图4所示，对于第一原始视频V，其包含N个视频帧，分别为f₁,f₂,...,f_N，V是无标注的视频数据，对全部N个视频帧进行遍历，首先设置第1帧f₁为基准帧a，依次向后遍历其他帧作为当前帧f_i，计算当前帧和基准帧的特征余弦相似度s。若相似度大于预先设置好的阈值β，则将当前帧作为基准帧的连续相似帧，并将当前帧移到下一帧；否则，基准帧的连续相似性片段抽取到此结束，然后将基准帧更新为当前帧。接着重复如上步骤，直到该视频所有的N个视频帧遍历完毕。最终，该视频的多个基准帧及其所对应的连续相似帧片段(也即多个目标视频片段)被输出。

在另一种示例性的实施例中，目标视频片段中的视频帧可以是不连续的，也即对于每一个基准帧，根据第一原始视频中除该基准帧之外的各视频帧与该基准帧的场景相关性，确定出该基准帧的相似帧，构成目标视频片段，为了避免第一原始视频中每一视频帧都会被作为基准帧而导致目标视频片段的数量过多，可以在第一原始视频的预划分的多个时长区域内分别抽取一帧作为基准帧，进而得到预设数量的目标视频片段。

在另一种示例性的实施例中，由于相邻视频帧之间的场景相关性一般都较高，相似帧的判断不必依次顺序执行，故可以间隔一定帧数来考察视频帧对应的场景相关性，具体地，如图5所示，所述确定第一原始视频中的至少一个目标视频片段，还可以包括以下步骤：

S410：确定第一原始视频中的基准帧。

S420：获取预设帧数，依次将基准帧之后且与基准帧间隔预设帧数的视频帧作为当前帧。

示例性的，基准帧为第一帧，预设帧数为5，则跳过第二至五帧，直接将第六帧作为当前帧。

S430：确定基准帧和当前帧的场景相关性。

S440：在场景相关性满足预设条件的情况下，将在基准帧和当前帧之间的视频帧以及当前帧作为基准帧的连续相似帧。

S450：根据基准帧和基准帧的至少一个连续相似帧，得到以基准帧为起始帧的当前视频片段，当前视频片段为所述至少一个目标视频片段中的任一目标视频片段。

S460：在场景相关性不满足预设条件的情况下，将当前帧作为基准帧。

上述实施例中的步骤可以参考前述实施例，此处不作赘述。在该实施例中，考虑到相邻视频帧之间的场景相关性一般都较高，故可以通过跳跃固定长度的帧来确定基准帧的连续相似帧，从而可以提高目标视频片段的生成效率。

在步骤S230中，将至少一个目标视频片段和第二原始视频进行合成，得到目标合成视频。

在本申请实施例中，将一个或多个目标视频片段与第二原始视频进行合成，得到目标合成视频，该目标合成视频作为训练时序定位模型的视频数据。

在一种可行的实施方式中，具体地，所述步骤S230可以包括以下步骤：

S510：确定至少一个目标视频片段在第二原始视频中的插入位置信息。

该插入位置信息可以表示为第二原始视频中的至少一个时间点。

S530：按照插入位置信息，将至少一个目标视频片段插入至第二原始视频中，得到目标合成视频。

具体地，遍历至少一个目标视频片段中的各个目标视频片段，从插入位置信息中为目标视频片段选取一个时间点，将目标视频片段插入至该时间点处，得到目标合成视频。需要理解的是，在插入至少一个目标视频片段后，目标合成视频的时长是至少一个目标视频片段与第二原始视频的时长之和，目标视频片段在第二原始视频中的插入时间点不等同于该目标视频片段在目标合成视频中的起始时间位置。上述步骤顺序也可以表示为先遍历至少一个目标视频片段中的各个目标视频片段，进而为当前遍历到的目标视频片段随机确定一个插入时间点，从而将该当前遍历到的目标视频片段插入至第二原始视频中，直至插入所有的目标视频片段。

进一步地，记录目标视频片段与插入位置信息的对应关系，如目标视频片段的片段标识和该目标视频片段所插入的时间点的对应关系。

进一步地，对第二原始视频设置多种插入位置信息，或者在同一种插入位置信息的情况下，进行多次随机插入，可以得到多个目标合成视频，极大地增大了训练数据的规模。

上述实施例中，需要所设置的插入时间点的个数与目标视频片段的个数相等。在插入时间点的个数与目标视频片段的个数不相等的情况下，如插入时间点的个数较少时可以从至少一个目标视频片段中随机抽取有限个目标视频片段进行插入，目标视频片段的个数较少时可以将部分目标视频片段多次插入至不同的时间点处。

在另一种可行的实施方式中，具体地，所述步骤S230还可以包括以下步骤：

S520：将第二原始视频分割为至少一个视频片段。

示例性的，在第二原始视频较长时，可以将第二原始视频进行随机分割，得到多个片段，可以选取全部或部分片段作为至少一个视频片段。

S540：将至少一个目标视频片段和至少一个视频片段排列组合，得到目标合成视频。

将至少一个目标视频片段和至少一个视频片段排列组合，可以是在目标视频片段之间不相邻以及视频片段之间不相邻的约束条件下的排列组合，也可以是在没有任何约束条件下的随机排列组合。此外，还可以限制单个目标视频片段或单个视频片段所参与排列的次数。

进一步地，记录各目标视频片段、各视频片段的排列次序，如目标视频片段的片段标识和该目标视频片段的次序号的对应关系、视频片段的片段标识和该视频片段的次序号的对应关系。

进一步地，将至少一个目标视频片段和至少一个视频片段进行多次不同的排列组合，可以得到多个目标合成视频，极大地增大了训练数据的规模。

上述实施例中，除了能生成目标合成视频之前，分割第二原始视频所得到的视频片段可以被存储，与其他第一原始视频的至少一个目标视频片段进行组合，也即可以重复使用，提高了训练数据的生成效率。

在另一种可行的实施方式中，除了可以在时序上的插入或组合，还可以在此基础上变换视频尺度，以达到数据增强的效果。

在本申请实施例中以两个原始视频为例说明训练数据的生成过程，在批处理的训练数据生成方式中，可以设置第一原始视频集和第二原始视频集。从第一原始视频集中随机选择多个第一原始视频并抽取得到各第一原始视频对应的目标视频片段，构成目标视频片段集，单个目标视频片段内的视频帧对应的场景相关性满足预设条件；第二原始视频集包含多个第二原始视频，对多个第二原始视频进行分割，得到多个视频片段，构成视频片段集。从目标视频片段集中抽取多个目标视频片段，并从视频片段集中抽取多个视频片段，多个目标视频片段可以来源于不同的第一原始视频，多个视频片段也可以来源于不同的第二原始视频。对多个目标视频片段和多个视频片段进行排列组合，可以得到多个目标合成视频。该方式可以对中间数据进行有效的沉淀和复用，提高了训练数据的生成效率。

在步骤S240中，确定至少一个目标视频片段在目标合成视频中的时序位置信息。

在本申请实施例中，目标视频片段在目标合成视频中的时序位置信息也即是该目标合成视频对应的时序标注信息。示例性的，如2个目标视频片段在目标合成视频中的时序位置信息可以表示为[2.5s，3.7s]、[6.5s，8.2s]两个时间区间或者直接表示为[2.5s，3.7s；6.5s，8.2s]，本申请实施例对此不作限定。

在步骤S510和S530所提供的实施例中，如图6所示，所述步骤S240可以具体包括以下步骤：

S610：获取至少一个目标视频片段的时长信息。

S620：根据插入位置信息和至少一个目标视频片段的时长信息，修正所述至少一个目标视频片段在第二原始视频中的插入位置信息。

S630：根据修正后的插入位置信息和时长信息，确定至少一个目标视频片段在目标合成视频中的时序位置信息。

示例性的，三个目标视频片段的时长分别为3秒、2秒和1秒，第二原始视频时长为10秒，在第二原始视频的第2秒处插入3秒的目标视频片段，在第二原始视频的第6秒处插入2秒的目标视频片段，在第二原始视频的第8秒处插入1秒的目标视频片段，初始的插入位置信息为第2秒、第6秒和第8秒，而在插入3秒的目标视频片段后，相应地第二原始视频也应更新为插入后的视频，插入位置信息则需要修正为为第2秒、第9秒和第11秒，在插入2秒的目标视频片段后，插入位置信息则需要修正为第2秒、第9秒和第13秒，在插入1秒的目标视频片段后，插入位置信息则仍为第2秒、第9秒和第13秒。

进而根据所插入的目标视频片段的时长信息，可以确定三个目标视频片段在目标合成视频中的时序位置信息，时序位置信息可以表示为[2s，5s；9s，11s；13s，14s]。

以上是一种逐个插入时根据第二原始视频的变化过程修改插入位置信息，进而确定目标视频片段在目标合成视频中的时序位置信息。在至少一个目标视频片段同步插入的方式中，可以直接根据原始的插入位置信息、目标视频片段与插入位置的对应关系、目标视频片段的时长，直接确定各目标视频片段在目标合成视频中的时序位置信息。

上述实施例中，结合所选取的插入位置信息和各目标视频片段的时长，确定出目标视频片段在目标合成视频中的时序位置信息，时序位置信息可以包括开始时间和结束时间。

在步骤S520、S540所提供的实施例中，如图7所示，所述步骤S240可以具体包括以下步骤：

S710：获取至少一个目标视频片段的第一时长信息。

S720：确定第二原始视频的至少一个视频片段的第二时长信息。

S730：确定至少一个目标视频片段和至少一个视频片段在目标合成视频中的排列次序信息。

排列次序信息可以包括目标视频片段的片段标识和该目标视频片段的次序号的对应关系、视频片段的片段标识和该视频片段的次序号的对应关系。

S740：根据第一时长信息、第二时长信息和排列次序信息确定至少一个目标视频片段在目标合成视频中的时序位置信息。

示例性的，两个目标视频片段A、B的时长分别为3秒和2秒，第二原始视频分割后得到的三个视频片段C、D、E，其时长分别为3秒、3秒和4秒，所确定的排列次序信息为从第一位至第五位分别是C、B、E、A、D，是一种目标视频片段和视频片段间隔排列的组合方式，则可以确定目标视频片段A、B在目标合成视频中的时序位置信息，该时序位置信息可以表示为[3s，5s]、[9s，12s]，或还可以直接表示为[3s，5s；9s，12s]。

在步骤S250中，基于目标合成视频和时序位置信息，生成时序定位模型的训练数据。

具体地，将目标合成视频和时序位置信息构建一一对应的关系，作为一对训练数据。与目标合成视频对应的时序位置信息也即是目标合成视频的标注信息。至此，本申请实施例通过无监督的方式，获得了时序定位的训练数据，且标注信息中仅有时序标注信息而没有行为类别标注信息，使得训练后的时序定位模型更注重时序边界预测的准确，也更契合时序定位这个任务目标。

图8示出了一种用于生成训练数据的程序模块的执行示意图，如图8所示，程序模块中的输入信息为第一原始视频的多个目标视频片段和第二原始视频，对多个目标视频片段进行遍历，对于当前遍历到的一个目标视频片段，在第二原始视频中随机选取一个插入位置，并按照插入位置将当前遍历到的目标视频片段插入至第二原始视频中，在插入最后一个目标视频片段后结束遍历过程并得到目标合成视频，同时根据多个目标视频片段的插入位置确定目标合成视频对应的时序位置信息，程序模块的输出也即目标合成视频和对应的时序位置信息。

以时序行为定位为例，若采用全监督的方式生成训练数据，需要在视频数据中准确地标注时序起止位置信息以及每段时序起止位置信息所对应的行为类别。如图9(1)所示，在该视频数据中包含两个行为实例，则标注信息可以表示为：[2.5s，3.7s，跳高]，其表征从视频的2.5s开始到3.7s结束发生了“跳高”这一动作。然而，随着视频数量的飞速增长，全监督方法需要对海量的视频进行手工时序标注，代价昂贵。针对此问题，出现了一些仅利用全局视频级别类别标注进行训练的弱监督方式，因为相较于全监督的时序标注(如“[2.5s，3.7s，跳高]”)需标注每一帧的行为类别信息，而全局视频级别类别标注(如“跳高”)更容易获得。但是上述提出的训练数据生成方法仍然需要人工标注的参与，并且由于突出了行为类别的标注信息，对模型的训练过程更倾向于是对合成视频时序边界上动作类型的“分类”，而与时序行为的“定位”存在本质差异。

而根据本申请实施例提供的方法，其所生成的训练数据的结构可以如图9(2)所示。对于目标合成视频，其标注信息仅为目标视频片段在该目标合成视频中的开始时间和结束时间，而没有行为类别的标注信息，使得所训练的时序行为定位模型更关注在时序边界上的预测准确性，更匹配时序“定位”的任务本质。同时采用的是无监督的方式，节省了人工标注成本和时间，还能扩大训练数据的规模量和所涉及的场景范围，从而使得所训练的时序行为定位模型具有很好的泛化性能和场景自适应性。

进一步地，本申请以无时序标注视频数据为例说明生成用于时序定位模型的训练数据的过程，其核心环节是第一原始视频上的场景相关性片段的裁剪以及场景相关性片段和第二原始视频的合成，该思想可以同样应用于图片空间物体定位、音频时序时间定位等多个不同任务中的训练数据的生成。如应用于图片空间物体定位时，基于图片前景图层与图片背景图层的场景相关性(如二者的场景相似度低于预设阈值时)从无标注的原始图片抽取中间图层，该中间图层可能包含物体实例也有可能不包含物体实例，进而将该中间图层与其他无标注的原始图片进行合成，生成用于图片空间物体定位的训练数据，包括合成图片和对应的空间边界标注信息；应用于音频时序时间定位时，根据音频帧对应的频谱相关性从无标注的原始音频中抽取音频片段，进而将音频片段与其他无标注的原始音频进行时序上的随机组合，生成用于音频时序定位模型的训练数据，包括合成音频和对应的时序标注信息。

由上述实施例可知，本申请提供的方案首先获取第一原始视频和第二原始视频，第一原始视频和第二原始视频没有任何标注信息；其次从第一原始视频中确定至少一个目标视频片段，任意一个目标视频片段中视频帧对应的场景相关性满足预设条件，在本申请中并不限定目标视频片段需要包含行为实例；接着将第一原始视频中的至少一个目标视频片段与第二原始视频进行合成，得到目标合成视频；最后确定各目标视频片段在目标合成视频中的时序位置信息，目标合成视频和时序位置信息构成时序定位模型的训练数据，其中时序位置信息是目标合成视频的时序标注信息。第一方面，本申请采用无监督的方式生成训练数据，无需人工对第一原始视频或第二原始视频标注时序信息或行为类别信息，节省了人工标注成本，也提高了模型训练的效率；第二方面将目标视频片段在目标合成视频中的时序位置信息作为时序标注信息，突出训练数据中的时序标注信息而省去行为类别标注信息，能够提升训练后的时序定位模型在时序边界上的预测准确性，更契合时序定位的目标；第三方面，由于省去了行为类别的标注信息以及在本申请中并不限定目标视频片段需要包含行为实例，利用本申请提供的训练数据进行训练得到的时序定位模型具备更好的场景自适应性，对于不同场景下的时序定位任务均能取得不错的性能表现。

本申请实施例还提供了一种无监督的训练数据生成装置1000，如图10所示，所述装置1000可以包括：

获取模块1010，用于获取第一原始视频和第二原始视频；

片段生成模块1020，用于确定所述第一原始视频中的至少一个目标视频片段，任一目标视频片段中视频帧对应的场景相关性满足预设条件；

合成模块1030，用于将所述至少一个目标视频片段和所述第二原始视频进行合成，得到目标合成视频；

时序确定模块1040，用于确定所述至少一个目标视频片段在所述目标合成视频中的时序位置信息；

训练数据确定模块1050，用于基于所述目标合成视频和所述时序位置信息，生成时序定位模型的训练数据。

在本申请的一个实施例中，所述片段生成模块1020可以包括：

基准帧第一确定单元，用于确定所述第一原始视频中的基准帧；

当前帧第一确定单元，用于依次将所述基准帧之后的视频帧作为当前帧；

场景相关性第一确定单元，用于确定所述基准帧和所述当前帧的场景相关性；

第一判断单元，用于在所述场景相关性满足所述预设条件的情况下，将所述当前帧作为所述基准帧的连续相似帧；

第一片段生成单元，用于根据所述基准帧和所述基准帧的至少一个连续相似帧，得到以所述基准帧为起始帧的当前视频片段，所述当前视频片段为所述至少一个目标视频片段中的任一目标视频片段。

在本申请的一个实施例中，所述装置1000还可以包括：

基准帧第一更新单元，用于在所述场景相关性不满足所述预设条件的情况下，将所述当前帧作为所述基准帧。

在本申请的一个实施例中，所述装置1000还可以包括：

基准帧第二确定单元，用于确定所述第一原始视频中的基准帧；

当前帧第二确定单元，用于获取预设帧数，依次将所述基准帧之后且与所述基准帧间隔所述预设帧数的视频帧作为所述当前帧；

场景相关性第二确定单元，用于确定所述基准帧和所述当前帧的场景相关性；

第二判断单元，用于在所述场景相关性满足所述预设条件的情况下，将在所述基准帧和所述当前帧之间的视频帧以及所述当前帧作为所述基准帧的连续相似帧。

第二片段生成单元，用于根据基准帧和基准帧的至少一个连续相似帧，得到以基准帧为起始帧的当前视频片段，当前视频片段为所述至少一个目标视频片段中的任一目标视频片段。

基准帧第二更新单元，用于在场景相关性不满足预设条件的情况下，将当前帧作为基准帧。

在本申请的一个实施例中，所述合成模块1030可以包括：

插入位置确定单元，用于确定所述至少一个目标视频片段在所述第二原始视频中的插入位置信息；

插入单元单元，用于按照所述插入位置信息，将所述至少一个目标视频片段插入至所述第二原始视频中，得到所述目标合成视频。

在本申请的一个实施例中，所述时序确定模块1040可以包括：

时长获取单元，用于获取所述至少一个目标视频片段的时长信息；

插入位置修正单元，用于根据所述插入位置信息和所述至少一个目标视频片段的时长信息，修正所述至少一个目标视频片段在所述第二原始视频中的插入位置信息；

时序确定单元，用于根据修正后的所述插入位置信息和所述时长信息，确定所述至少一个目标视频片段在所述目标合成视频中的时序位置信息。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的一种无监督的训练数据生成方法。

图11示出了一种用于实现本申请实施例所提供的一种无监督的训练数据生成方法的设备的硬件结构示意图，所述设备可以参与构成或包含本申请实施例所提供的装置或系统。如图11所示，设备10可以包括一个或多个(图中采用1002a、1002b，……，1002n来示出)处理器1002(处理器1002可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1004、以及用于通信功能的传输装置1006。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图11所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，设备10还可包括比图11中所示更多或者更少的组件，或者具有与图11所示不同的配置。

应当注意到的是上述一个或多个处理器1002和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器1004可用于存储应用软件的软件程序以及模块，如本申请实施例中所述的方法对应的程序指令/数据存储装置，处理器1002通过运行存储在存储器1004内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种无监督的训练数据生成方法。存储器1004可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1004可进一步包括相对于处理器1002远程设置的存储器，这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中，传输装置1006包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置1006可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交互。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质可设置于服务器之中以保存用于实现方法实施例中一种无监督的训练数据生成方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的一种无监督的训练数据生成方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实施方式中提供的一种无监督的训练数据生成方法。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备和存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种无监督的训练数据生成方法，其特征在于，所述方法包括：

获取第一原始视频和第二原始视频；

按照所述插入位置信息，将所述至少一个目标视频片段插入至所述第二原始视频中，得到目标合成视频；

获取所述至少一个目标视频片段的时长信息；

根据修正后的所述插入位置信息和所述时长信息，确定所述至少一个目标视频片段在所述目标合成视频中的时序位置信息；

2.根据权利要求1所述的方法，其特征在于，所述确定所述第一原始视频中的至少一个目标视频片段，包括：

确定所述第一原始视频中的基准帧；

依次将所述基准帧之后的视频帧作为当前帧；

确定所述基准帧和所述当前帧的场景相关性；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

确定所述基准帧和所述当前帧的场景相关性；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述第二原始视频分割为至少一个视频片段；

6.一种无监督的训练数据生成装置，其特征在于，所述装置包括：

获取模块，用于获取第一原始视频和第二原始视频；

合成模块，用于确定所述至少一个目标视频片段在所述第二原始视频中的插入位置信息；按照所述插入位置信息，将所述至少一个目标视频片段插入至所述第二原始视频中，得到目标合成视频；

时序确定模块，用于获取所述至少一个目标视频片段的时长信息；根据所述插入位置信息和所述至少一个目标视频片段的时长信息，修正所述至少一个目标视频片段在所述第二原始视频中的插入位置信息；根据修正后的所述插入位置信息和所述时长信息，确定所述至少一个目标视频片段在所述目标合成视频中的时序位置信息；

7.根据权利要求6所述的装置，其特征在于，所述片段生成模块包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至5中任一项所述的一种无监督的训练数据生成方法。

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由所述处理器加载并执行以实现如权利要求1至5中任一项所述的一种无监督的训练数据生成方法。