CN115495677B

CN115495677B - 视频的时空定位方法和存储介质

Info

Publication number: CN115495677B
Application number: CN202211452689.2A
Authority: CN
Inventors: 高颖琪; 罗智凌; 陈诗倩; 周伟
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-11-21
Filing date: 2022-11-21
Publication date: 2023-03-21
Anticipated expiration: 2042-11-21
Also published as: CN115495677A

Abstract

本发明公开了一种视频的时空定位方法和存储介质。其中，该方法包括：获取待执行时空定位的视频，并调取在视频中确定定位信息时使用的文本，其中，视频包括至少一个视频片段，文本用于描述在视频中执行视频定位任务需要定位的对象；调用视频定位模型，其中，视频定位模型为基于视频检索任务样本和至少两种视频定位任务样本执行共同监督学习而训练得到的模型；使用视频定位模型对视频执行视频检索任务，检索出与文本相匹配的目标视频片段；使用视频定位模型确定需要定位的对象在目标视频片段中出现的定位信息，其中，定位信息至少包括：在目标视频片段中的显示时间段和显示位置。本发明解决了视频的时空定位的效率低的技术问题。

Description

视频的时空定位方法和存储介质

技术领域

本申请涉及计算机领域，具体而言，涉及一种视频的时空定位方法和存储介质。

背景技术

目前，视频的创作流程通常可以包括：文本的撰写；从素材库中选择与文本最为匹配的视频；将所选视频进行裁剪或缩放为片段；将处理得到的片段组装拼接得到最终的成品，然而，在实际应用中，从素材库中选择与文本匹配的视频且对选择的视频进行剪裁或缩放为片段的过程是非常复杂且费时费力的，从而存在视频的时空定位的效率低的技术问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种视频的时空定位方法和存储介质，以至少解决视频的时空定位的效率低的技术问题。

根据本申请实施例的一个方面，提供了一种视频的时空定位方法。该方法可以包括：获取待执行时空定位的视频，并调取在视频中确定定位信息时使用的文本，其中，视频包括至少一个视频片段，文本用于描述在视频中执行视频定位任务需要定位的对象；调用视频定位模型，其中，视频定位模型为基于视频检索任务样本和至少两种视频定位任务样本执行共同监督学习而训练得到的模型；使用视频定位模型对视频执行视频检索任务，检索出与文本相匹配的目标视频片段；使用视频定位模型确定需要定位的对象在目标视频片段中出现的定位信息，其中，定位信息至少包括：在目标视频片段中的显示时间段和显示位置。

根据本申请实施例的另一个方面，提供了一种模型的生成方法。该方法可以包括：获取视频检索任务样本和至少两种视频定位任务样本；对视频检索任务样本和视频定位任务样本执行共同监督学习，训练得到视频定位模型，其中，视频定位模型用于对待执行时空定位的视频执行视频检索任务，以检索出与文本相匹配的目标视频片段，且确定需要定位的对象在目标视频片段中出现的定位信息，视频包括至少一个视频片段，文本用于描述在视频中执行视频定位任务需要定位的对象，定位信息至少包括：在目标视频片段中的显示时间段和显示位置。

根据本申请实施例的另一个方面，提供了另一种视频的时空定位方法。该方法可以包括：获取待执行时空定位的视频素材库，并调取在视频素材库中确定定位信息时使用的文本，其中，视频素材库来自视频平台，且包括至少一个短视频素材，文本用于描述待在视频中执行视频定位任务中需要定位的对象；使用视频定位模型对视频素材库执行视频检索任务，检索出与文本相匹配的目标短视频素材，其中，视频定位模型为基于视频检索任务样本和至少两种视频定位任务样本执行共同监督学习而训练得到的模型；使用视频定位模型确定需要定位的对象在目标短视频素材中出现的定位信息，其中，定位信息至少包括：在目标短视频素材中的显示时间段和显示位置；基于目标短视频素材和定位信息生成成片视频；将成片视频返回至视频平台。

根据本申请实施例的另一个方面，提供了另一种视频的时空定位方法。该方法可以包括：通过调用第一接口获取待执行时空定位的视频，并调取在视频中确定定位信息时使用的文本，其中，视频包括至少一个视频片段，文本用于描述在视频中执行视频定位任务需要定位的对象，第一接口包括第一参数，第一参数的值为视频和文本；调用视频定位模型，其中，视频定位模型为基于视频检索任务样本和至少两种视频定位任务样本执行共同监督学习而训练得到的模型；使用视频定位模型对视频执行视频检索任务，检索出与文本相匹配的目标视频片段；使用视频定位模型确定需要定位的对象在目标视频片段中出现的定位信息，其中，定位信息至少包括：在目标视频片段中的显示时间段和显示位置；通过调用第二接口输出目标视频片段和定位信息，其中，第二接口包括第二参数，第二参数的值为目标视频片段和定位信息。

根据本申请实施例的一个方面，提供了一种视频的时空定位装置。该装置可以包括：第一获取单元，用于获取待执行时空定位的视频，并调取在视频中确定定位信息时使用的文本，其中，视频包括至少一个视频片段，文本用于描述在视频中执行视频定位任务需要定位的对象；第一调用单元，用于调用视频定位模型，其中，视频定位模型为基于视频检索任务样本和至少两种视频定位任务样本执行共同监督学习而训练得到的模型；第一检索单元，用于使用视频定位模型对视频执行视频检索任务，检索出与文本相匹配的目标视频片段；第一确定单元，用于使用视频定位模型确定需要定位的对象在目标视频片段中出现的定位信息，其中，定位信息至少包括：在目标视频片段中的显示时间段和显示位置。

根据本申请实施例的另一个方面，提供了一种模型的生成装置。该装置可以包括：第二获取单元，用于获取视频检索任务样本和至少两种视频定位任务样本；训练单元，用于对视频检索任务样本和视频定位任务样本执行共同监督学习，训练得到视频定位模型，其中，视频定位模型用于对待执行时空定位的视频执行视频检索任务，以检索出与文本相匹配的目标视频片段，且确定需要定位的对象在目标视频片段中出现的定位信息，视频包括至少一个视频片段，文本用于描述在视频中执行视频定位任务需要定位的对象，定位信息至少包括：在目标视频片段中的显示时间段和显示位置。

根据本申请实施例的另一个方面，提供了另一种视频的时空定位装置。该装置可以包括：第三获取单元，用于获取待执行时空定位的视频素材库，并调取在视频素材库中确定定位信息时使用的文本，其中，视频素材库来自视频平台，且包括至少一个短视频素材，文本用于描述待在视频中执行视频定位任务中需要定位的对象；第二检索单元，用于使用视频定位模型对视频素材库执行视频检索任务，检索出与文本相匹配的目标短视频素材，其中，视频定位模型为基于视频检索任务样本和至少两种视频定位任务样本执行共同监督学习而训练得到的模型；第二确定单元，用于使用视频定位模型确定需要定位的对象在目标短视频素材中出现的定位信息，其中，定位信息至少包括：在目标短视频素材中的显示时间段和显示位置；生成单元，用于基于目标短视频素材和定位信息生成成片视频；返回单元，用于将成片视频返回至视频平台。

根据本申请实施例的另一个方面，提供了另一种视频的时空定位装置。该装置可以包括：第一调用单元，用于通过调用第一接口获取待执行时空定位的视频，并调取在视频中确定定位信息时使用的文本，其中，视频包括至少一个视频片段，文本用于描述在视频中执行视频定位任务需要定位的对象，第一接口包括第一参数，第一参数的值为视频和文本；第二调用单元，用于调用视频定位模型，其中，视频定位模型为基于视频检索任务样本和至少两种视频定位任务样本执行共同监督学习而训练得到的模型；第三检索单元，用于使用视频定位模型对视频执行视频检索任务，检索出与文本相匹配的目标视频片段；第三确定单元，用于使用视频定位模型确定需要定位的对象在目标视频片段中出现的定位信息，其中，定位信息至少包括：在目标视频片段中的显示时间段和显示位置；输出单元，用于通过调用第二接口输出目标视频片段和定位信息，其中，第二接口包括第二参数，第二参数的值为目标视频片段和定位信息。

在本申请实施例中，获取待执行时空定位的视频，并调取在视频中确定定位信息时使用的文本，其中，视频包括至少一个视频片段，文本用于描述在视频中执行视频定位任务需要定位的对象；调用视频定位模型，其中，视频定位模型为基于视频检索任务样本和至少两种视频定位任务样本执行共同监督学习而训练得到的模型；使用视频定位模型对视频执行视频检索任务，检索出与文本相匹配的目标视频片段；使用视频定位模型确定需要定位的对象在目标视频片段中出现的定位信息，其中，定位信息至少包括：在目标视频片段中的显示时间段和显示位置。也就是说，本申请实施例通过单个的视频定位模型对视频执行视频检索任务，检索出与文本相匹配的目标视频片段；且使用视频定位模型确定需要定位的对象在目标视频片段中出现的定位信息，也即，本申请实施例通过单个模型就可以实现视频检索、时间定位和空间定位，解决了相关技术中需要依次使用不同的多个模型才能实现视频检索、时间定位和空间定位的问题，从而实现了同阶段在时间和空间上定位该物体的位置的目的，简化了推理的流程，节省了时间，进而实现了提高视频的时空定位的效率的技术效果，解决了视频的时空定位的效率低的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种计算环境的结构框图；

图2是根据本申请实施例的一种视频的时空定位方法的流程图；

图3是根据本申请实施例的一种模型的生成方法的流程图；

图4是根据本申请实施例的另一种视频的时空定位方法的流程图；

图5是根据本申请实施例的另一种视频的时空定位方法的流程图；

图6是根据本申请实施例的一种多任务时空定位网络模型的示意图；

图7是根据本申请实施例的一种文本编码器数据处理的示意图；

图8是根据本申请实施例的一种视频编码器数据处理的示意图；

图9是根据本申请实施例的一种视频检索数据处理的示意图；

图10是根据本申请实施例的一种时间定位数据处理的示意图；

图11是根据本申请实施例的一种空间定位的数据处理的示意图；

图12是根据本申请实施例的一种视频的时空定位方法的服务网格的结构框图；

图13是根据本申请实施例的一种视频的时空定位装置的示意图；

图14是根据本申请实施例的一种模型的生成装置的示意图；

图15是根据本申请实施例的另一种视频的时空定位装置的示意图；

图16是根据本申请实施例的另一种视频的时空定位装置的示意图；

图17是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

视频检索，可以为给定一条描述性文本和一个视频集合，按照视频与文本的关联程度，对视频集合中的视频进行排序；

视频时间定位，可以为给定一段未经剪辑的视频和一条描述该视频内容的文本，定位文本所描述的内容在整段视频中出现的位置，也即，文本在视频中的开始和结束的时间点；

视频空间定位，可以为给定一个视频片段和一条与该视频内容完全匹配的、对于视频中出现的物体的文本描述，定位该物体在视频中每一帧中的空间位置；

视频集合中的时刻定位，可以为给定一条文本描述和一个由未经剪辑的视频组成的视频集合，检索与该文本最为匹配的视频并定位文本所描述的内容在原视频中开始和结束的时间；

视频时空定位，可以为给定一段未经剪辑的视频和一条对于视频中出现物体的文本描述，定位文本描述的内容在视频中开始和结束的时间、以及目标物体所在的空间位置；

视频集合中的时空定位，可以为给定一个未经剪辑的视频库和一段描述物体的文本，找到与该文本相匹配的视频并定位物体在该视频中出现的时间和空间位置；

交并比（Intersection over Union，简称为IoU），可以为目标检测中使用的一个度量，可以为预测的候选框与标记框的重叠率，即它们的交集与并集的比值。

实施例1

根据本申请实施例，还提供了一种视频的时空定位方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1以框图示出了使用上述图1所示的计算机终端30（或移动设备）作为计算环境101中计算节点的一种实施例。图1是根据本申请实施例的一种计算环境的结构框图，如图1所示，计算环境101包括运行在分布式网络上的多个服务120（图中采用120-1，120-2，…,来示出）计算节点（如服务器）。每个计算节点都包含本地处理和内存资源，终端用户102可以在计算环境101中远程运行应用程序或存储数据。应用程序可以作为计算环境101中的多个服务120-1,120-2,120-3和120-4进行提供，分别代表服务“A”，“D”，“E”和“H”。

终端用户102可以通过用户端上的web浏览器或其他软件应用程序提供和访问服务，在一些实施例中，可以将终端用户102的供应和/或请求提供给入口网关130。入口网关130可以包括一个相应的代理来处理针对服务120（计算环境101中提供的一个或多个服务）的供应和/或请求。

服务120是根据计算环境101支持的各种虚拟化技术来提供或部署的。在一些实施例中，可以根据基于虚拟机（Virtual Machine，简称为VM）的虚拟化、基于容器的虚拟化和/或类似的方式提供服务120。基于虚拟机的虚拟化可以是通过初始化虚拟机来模拟真实的计算机，在不直接接触任何实际硬件资源的情况下执行程序和应用程序。在虚拟机虚拟化机器的同时，根据基于容器的虚拟化，可以启动容器来虚拟化整个操作系统（OperatingSystem，简称为OS），以便多个工作负载可以在单个操作系统实例上运行。

在基于容器虚拟化的一个实施例中，服务120的若干容器可以被组装成一个POD（例如，Kubernetes POD）。举例来说，如图1所示，服务120-2可以配备一个或多个POD140-1,140-2，…，140-N（统称为POD140）。每个POD140可以包括代理145和一个或多个容器142-1,142-2，…，142-M（统称为容器142）。POD140中一个或多个容器142处理与服务的一个或多个相应功能相关的请求，代理145通常控制与服务相关的网络功能，如路由、负载均衡等。其他服务120也可以陪陪类似于POD140的POD。

在操作过程中，执行来自终端用户102的用户请求可能需要调用计算环境101中的一个或多个服务120，执行一个服务120的一个或多个功能可能需要调用另一个服务120的一个或多个功能。如图1所示，服务“A”120-1从入口网关130接收终端用户102的用户请求，服务“A”120-1可以调用服务“D”120-2，服务“D”120-2可以请求服务“E”120-3执行一个或多个功能。

上述的计算环境可以是云计算环境，资源的分配由云服务提供上管理，允许功能的开发无需考虑实现、调整或扩展服务器。该计算环境允许开发人员在不构建或维护复杂基础设施的情况下执行响应事件的代码。服务可以被分割完成一组可以自动独立伸缩的功能，而不是扩展单个硬件设备来处理潜在的负载。

在图1所示的运行环境下，本申请提供了应用于如图2所示的视频的时空定位方法。需要说明的是，该实施例的视频的时空定位方法可以由图1所示实施例的移动终端执行。

图2是根据本申请实施例的一种视频的时空定位方法的流程图。如图2所示，该方法可以包括以下步骤：

步骤S202，获取待执行时空定位的视频，并调取在视频中确定定位信息时使用的文本，其中，视频包括至少一个视频片段，文本用于描述在视频中执行视频定位任务需要定位的对象。

在本申请上述步骤S202提供的技术方案中，可以获取待执行时空定位的视频，并调取在视频中确定定位信息时使用的文本。视频可以包括至少一个视频片段，可以为一个未经剪辑的视频库、素材库或视频集合等。文本可以用于描述在视频中执行视频定位任务时需要定位的对象，可以为预先撰写的脚本或故事线，可以包括一段或多段描述物体的文字。需要定位的对象（Object）可以为视频中每帧图像中的对象，可以包括视频中的物体等，比如，可以为视频中的小孩、小狗等，此处仅为举例说明，不对对象的种类做具体限制。

可选地，可以预先获取描述了视频中执行视频定位任务需要定位的对象的文本，且可以从视频库或视频集合中获取待执行时空定位的至少一个视频片段。

举例而言，可以预先完成脚本（故事线）的撰写，调取预先撰写完成的脚本，且确定待执行时空定位的视频（比如，素材库），视频中可以包括至少一个视频片段。

步骤S204，调用视频定位模型，其中，视频定位模型为基于视频检索任务样本和至少两种视频定位任务样本执行共同监督学习而训练得到的模型。

在本申请上述步骤S204提供的技术方案中，可以基于视频检索任务样本和至少两种视频定位任务样本共同监督学习得到视频定位模型，调用视频定位模型。视频定位模型可以为多任务时空定位网络（Multi-Task Spatio-Temporal Grounding，简称为MTSTG），可以用于对视频中的对象进行定位。视频检索任务样本可以包括视频-文本对、负样本对等。视频定位任务样本可以包括时间定位任务样本和空间定位任务样本；时间定位任务可以为定位视频的时间边界的任务；空间定位任务可以为定位对象在视频帧的空间位置。

可选地，可以由视频检索任务样本和至少两种视频定位任务样本，执行共同监督学习训练，得到视频定位模型，然后调用视频定位模型，可以通过视频定位模型确定视频中与文本对应的至少一视频片段。

步骤S206，使用视频定位模型对视频执行视频检索任务，检索出与文本相匹配的目标视频片段。

在本申请上述步骤S206提供的技术方案中，可以通过调用的视频定位模型对视频执行视频检索任务，从而从视频中检索出与文本相匹配的目标视频片段，其中，目标视频片段可以为一段视频片段，也可以为多段视频片段。

举例而言，可以获取预先撰写的脚本，调用视频定位模型，可以通过视频定位模型从素材库中检索除与文本相匹配的目标视频片段，比如，文本描述了在视频中执行视频定位任务需要定位的对象“穿粉色衣服的小狗”，则可以通过视频定位模型对视频执行视频检索任务，从视频中检索出与“穿粉色衣服的小狗”相匹配的目标视频片段。

步骤S208，使用视频定位模型确定需要定位的对象在目标视频片段中出现的定位信息，其中，定位信息至少包括：在目标视频片段中的显示时间段和显示位置。

在本申请上述步骤S208提供的技术方案中，可以使用视频定位模型确定需要文本描述的对象在目标视频片段中出现的定位信息。定位信息可以包括对象在目标视频片段中的显示时间段和显示位置。显示时间段可以为对象在目标视频片段中出现的时间边界，也即，在目标视频片段中从开始帧到结束帧的时间段。显示位置可以用于表征对象在目标视频片段中的视频帧中的空间位置。

可选地，可以通过视频定位模型确定对象在目标视频片段中出现的开始帧和结束帧，从而完成对目标视频片段的时间定位。可以通过确定对象在目标视频片段的视频帧中出现的空间位置，从而完成对目标视频端的空间定位。

可选地，可以调用视频定位模型，通过视频定位模型基于文本对视频执行视频检索任务，检索出与文本相匹配的目标视频片段，在检索到目标视频片段的基础上，可以使用视频定位模型确定需要定位的对象在目标视频片段中的显示时间段和显示位置。

在相关技术中，针对视频检索、显示时间段的确定和显示位置的确定都需要构建对应的模型完成对数据的处理，从而存在视频的时空定位的效率低的技术问题。而本申请实施例提出一种视频集合中的时空定位方法，该方法可以只采用单个视频定位模型就可以完成视频检索、对象在目标视频片段中的显示时间段的确定和显示位置的确定，从而实现了只需要单个模型就可以完成对视频的时空定位的确认，达到了提高视频的时空定位的效率的目的。

通过本申请上述步骤S202至步骤S208，获取待执行时空定位的视频，并调取在视频中确定定位信息时使用的文本；调用视频定位模型；使用视频定位模型对视频执行视频检索任务，检索出与文本相匹配的目标视频片段；使用视频定位模型确定需要定位的对象在目标视频片段中出现的定位信息，从而实现了提高视频的时空定位的效率的技术效果，解决了视频的时空定位的效率低的技术问题。

下面对该实施例的上述方法进行进一步的介绍。

作为一种可选的实施方式，步骤S206，使用视频定位模型对视频执行视频检索任务，检索出与文本相匹配的目标视频片段，包括：使用视频定位模型从文本中提取出文本特征，且从视频片段中提取出定位特征，其中，定位特征至少包括：对象在视频片段中的显示时间特征和显示位置特征；基于文本特征和定位特征确定视频片段为目标视频片段。

在该实施例中，可以使用视频定位模型从文本中提取出文本特征，且可以从视频片段中提取出定位特征，可以基于文本特征和定位特征将视频中匹配的视频片段确定为目标视频片段。文本特征可以为多位的特征向量。定位特征至少可以包括：对象在视频片段中的显示时间特征和显示位置特征。其中，显示时间特征又可以称为时间特征，显示位置特征又可以称为空间特征，二者均可以以向量的形式进行表示。

作为一种可选的实施方式，步骤S208，使用视频定位模型确定需要定位的对象在目标视频片段中出现的定位信息，包括：基于视频定位模型输出的文本特征和定位特征，确定对象在目标视频片段中出现的定位信息。

在该实施例中，可以基于视频定位模型从文本中提取出文本特征，且从视频片段中提取出定位特征，可以基于视频定位模型输出的文本特征和定位特征，确定对象在目标视频片段中出现的定位信息。

可选地，可以由视频定位模型输出文本的文本特征和视频的定位特征，可以基于文本特征，在视频的定位特征中进行匹配，确定文本特征表征的对象在目标视频片段中出现的定位信息。

作为一种可选的实施方式，使用视频定位模型从文本中提取出文本特征，且从视频片段中提取出定位特征，包括：使用视频定位模型的文本编码器从文本中提取出文本特征，其中，文本编码器的参数由视频检索任务样本对应的第一损失函数和视频定位任务样本对应的第二损失函数调整；使用视频定位模型的视频编码器从视频片段中提取出定位特征，其中，视频编码器的参数由第一损失函数和第二损失函数调整。

在该实施例中，视频定位模型可以包括文本编码器和视频编码器两个模块，可以使用视频定位模型中的文本编辑器从文本中提取出文本特征，且可以使用视频定位模型中的视频编码器从视频片段中提取出定位特征。其中，文本编码器的参数和视频编码器的参数可以由视频检索任务样本对应的第一损失函数和视频定位任务样本对应的第二损失函数进行调整。

可选地，第一损失函数可以为对视频检索任务样本进行计算的损失函数，可以作为视频检索的监督信号对视频定位模型进行优化，第二损失函数可以为对视频定位任务样本对应的损失函数，可以为对视频定位任务样本进行计算的损失函数，可以通过第一损失函数和第二损失函数对文本编辑器和视频编码器的参数进行调整，从而完成对视频定位模型的优化，进而可以提高视频定位模型在视频中检索目标视频片段的准确性。

在本申请实施例中，视频定位模型可以包括文本编码器（Query Encoder）和视频编码器（Video Encoder），且可以通过第一损失函数和第二损失函数作为监督信号对视频定位模型进行优化，与相关技术中的多阶段的处理方式不同，本申请实施例通过视频检索任务和视频定位任务学习统一的视频特征和文本特征，从而解决了视频集合中的时空定位的效率低的问题。

作为一种可选的实施方式，使用视频定位模型的文本编码器从文本中提取出文本特征，包括：使用文本编码器中文本特征提取层从文本中提取出单词特征；使用文本编码器中全连接层将单词特征映射为目标维的单词特征；使用文本编码器中特征编码层对目标维的单词特征进行编码，得到文本特征。

在该实施例中，可以使用文本编码器中的文本特征提取层从文本中提取除单词特征，可以使用文本编码器中全连接层将单词特征映射为目标维的单词特征，可以使用文本编码器中的特征编码层对目标维的单词特征进行编码，得到文本特征。

可选地，文本特征提取层可以为文本特征提取器（Textual Feature Exactor），比如，文本特征提取器可以为双向编码器（RoBERTa）。单词特征可以为对文本中的单词进行提取得到的特征，比如，单词特征可以为n_q个数量的单词的向量表示。全连接层（FullyConnected layers，简称为FC）可以用于将单词特征映射到目标维（比如，可以为64维）的空间中，以得到目标维的单词特征。文本编码器中的特征编码层可以为编码模块（Transformer），特征编码层可以用于对目标维的单词特征进行编码。

举例而言，文本编码器可以包括文本特征提取层、全连接层和特征编码层。可以给定文本：“穿着粉色衣服的小孩坐在穿着蓝色衣服的小孩旁边”，可以从给定文本中提取出n_q个数量的单词“粉色”、“衣服”、“小孩”、“蓝色”，可以使用文本编码器中的文本特征提取层将提取出n_q个数量的单词转换为特征表示，得到单词特征，且可以通过全连接层将特征表示映射到多维空间（d）中，达到将单词特征映射为目标维的单词特征，可以将映射得到的目标维的单词特征输入至特征编码层中（Transformer），且可以使用特征编码层对目标维的单词特征进行编码。特征编码层可以通过捕捉文本中每个单词之间的关系，达到进一步捕捉文本信息中的上下文关系的目的，其中，特征编码层的数量可以为一个，也可以为两个，此处不对特征编码层的数量做具体限制。可以通过注意力机制（Attention）将映射后得到的数据转化为整个句子的表示（q_t），从而得到文本特征。

作为一种可选的实施方式，使用视频定位模型的视频编码器从视频片段中提取出定位特征，包括：使用视频编码器中时间特征提取层从视频中提取出原始显示时间特征，且使用视频编码器中的位置特征提取层从视频中提取出原始显示位置特征；使用视频编码器中全连接层将原始显示时间特征映射为目标维的原始显示时间特征，且将原始显示位置特征映射为目标维的原始显示位置特征；使用视频编码器中特征编码层对目标维的原始显示时间特征和目标维的原始显示位置特征进行编码，得到显示时间特征，且使用视频编码器中的图神经网络对目标维的原始显示时间特征和目标维的原始显示位置特征进行编码，得到显示位置特征。

在该实施例中，视频编码器可以包括时间特征提取层、位置特征提取层、全连接层、特征编码器和图神经网络（Graph Attention）。可选地，时间特征提取层可以包括时间特征提取器（Temporal Feature Extractor），时间特征提取器可以用于提取视频的时间特征。位置特征提取层可以包括目标检测器（Object Detector）。

在该实施例中，可以使用时间特征提取层从视频中提取出原始显示时间特征，可以使用视频编码器中全连接层将原始显示时间特征映射为目标维的原始显示时间特征，可以通过从空间到时间的短连接，将目标维的原始显示位置特征融入目标维的原始显示时间特征中，对融入目标维的原始显示位置的目标维的原始显示时间特征进行编码，得到显示时间特征。

在该实施例中，可以使用位置特征提取层从视频中提取出原始显示位置特征，可以通过全连接层将原始显示位置特征映射为目标维的原始显示位置特征，可以通过从时间到空间的短连接，达到将目标维的原始显示时间特征融入至空间分支中，可以使用图神经网络对融入原始显示时间特征的目标维的原始显示位置特征进行编码，得到显示位置特征。

在本申请实施例中，通过从空间到时间的短连接，将空间特征（目标维的原始显示位置特征）融入至时间分支（目标维的原始显示时间特征）中，从而达到增强时间特征的目的，通过从时间到空间的短连接，将时间特征（目标维的原始显示时间特征）融入至空间分支中，从而达到增强空间特征的目的，通过增强时间特征和空间特征达到了提高视频的时空定位的准确性的目的。

举例而言，可以获取一段视频，可以将图像数据集（ImageNet）上预训练得到的卷积神经网络（比如，DenseNet-121）作为时间特征提取层（时间特征提取器），可以利用时间特征提取层从视频中提取出原始显示时间特征，得到原始显示时间特征（时间特征），可以用F表示，可以将原始显示时间特征经过全连接层映射，得到目标维的原始显示时间特征（

）。可以将由目标检测数据集（MicroSoft Common Objects in Context，简称为MSCOCO）数据集上预训练得到的目标检测模型（比如，Faster-RCNN）作为位置特征提取层（目标检测器）对视频的空间特征进行提取，得到原始显示位置特征（R），可以将原始显示位置特征经过全连接层映射，得到目标维的原始显示位置特征（

）。

可选地，在时间分支，可以通过特征编码层，比如，可以通过编码模块（Transformer）对映射得到的目标维的原始显示时间特征进行编码。举例而言，可以通过两个编码模块对原始显示时间特征进行处理，第一个编码模块可以在不包含目标维的原始显示空间特征的基础上对视频的帧之间在时间上的关系进行建模；第二个编码模块可以为对通过从空间到时间的短连接融入了目标维的原始显示位置特征的目标维的原始显示时间特征进行编码，达到得到显示时间特征的目的。第二个编码模块可以起到一个增强时间特征的作用。

可选地，在空间分支，可以通过视频编码器中的图神经网络对原始显示空间特征进行编码，此处可以通过两个图神经网络对空间特征进行编码，得到显示位置特征（h_s），第二个图神经网络可以用于融合目标维的原始显示时间特征后，对画面中每个区域与其他区域之间的关系进行建模，需要说明的是，此处图神经网络的数量仅为举例说明，不对图神经网络的数量做具体限制。

举例而言，第一个图神经网络可以以视频每一帧识别到的显著性区域作为顶点，建立完全图来对各个区域之间的空间关系进行建模，每个顶点可以通过聚合来自邻居的信息来更新当前顶点的特征，得到聚合后的特征（

）；可以采用从时间到空间的短连接，从而达到将目标维的原始显示时间特征融入至空间分支中，得到融入了目标维的原始显示时间特征的目标维的原始显示位置特征，从而实现利用上下文信息（可以为其他时间帧的特征）增强空间特征的目的，可以使用第二个图神经网络对融入了目标维的原始显示时间特征的目标维的原始显示位置特征进行编码，得到显示时间特征。

作为一种可选的实施方式，在视频定位模型的初始视频定位模型中，基于视频定位任务样本从视频检索任务样本中提取出定位特征样本，且从文本样本中提取出文本特征样本；基于定位特征样本和文本特征样本，建立视频检索任务样本对应的第一损失函数和视频定位任务样本对应的第二损失函数；基于第一损失函数和第二损失函数对初始视频定位模型的参数进行调整，得到视频定位模型。

在该实施例中，可以通过视频定位模型的初始视频定位模型对视频定位任务样本进行处理，得到视频检索任务样本中的定位特征样本，且可以从文本样本中提取出文本特征样本（q），可以基于定位特征样本和文本特征样本，构建视频检索任务样本对应的第一损失函数和视频定位任务样本对应的第二损失函数，可以基于第一损失函数和第二损失函数对初始视频定位模型的参数进行调整，可以得到视频定位模型。其中，第一损失函数可以包括视频检索任务的损失函数（

）、视频级别的对比学习损失函数（

）；视频定位任务样本对应的第二损失函数可以包括时间定位任务样本对应的第二损失函数和空间定位任务样本对应的第二损失函数。时间定位任务样本可以为确定好开始帧和结束帧的视频片段，因此，时间定位任务样本对应的第二损失函数可以包括交叉熵损失的均值（

）、帧级别的对比学习损失函数（

）。空间定位任务样本可以包括确定了对象（q*）的空间位置的视频帧，空间定位任务样本对应的第二损失函数可以包括交叉熵（

）和区域级别的对比学习损失函数（

）。

可选地，提供对初始视频定位模型进行训练的视频定位任务样本和文本样本，其中，可以在视频定位任务样本中提前确定好文本样本对应的至少一视频片段，也即，视频定位任务样本可以为已标定好对象的至少一视频片段。可以通过初始视频定位模型对视频定位任务样本进行检索处理，从而可以从视频检索任务样本中提取出定位特征样本，可以从文本样本中提取出文本特征样本。可以基于定位特征样本和文本特征样本，建立视频检索任务样本对应的第一损失函数和视频定位任务样本对应的第二损失函数。可以基于第一损失函数和第二损失函数对初始视频定位模型的参数进行调整，得到视频定位模型。

作为一种可选的实施方式，定位特征样本包括显示时间特征样本和显示位置特征样本，基于定位特征样本和文本特征样本，建立视频检索任务样本对应的第一损失函数，包括：基于显示时间特征样本、显示位置特征样本和文本特征样本，确定视频检索任务样本和文本样本之间的第一匹配度；基于第一匹配度建立第一损失函数。

在该实施例中，定位特征样本可以包括显示时间特征样本（h_t）和显示位置特征样本（h_s）。可以基于显示时间特征样本显示位置特征样本和文本特征样本，确定视频检索任务样本和文本样本之间的第一匹配度，可以基于第一匹配度建立第一损失函数，其中，第一匹配度可以为定位特征样本和文本特征样本的匹配程度，可以包括显示时间特征样本和文本特征样本之间的匹配程度、显示位置特征样本和文本特征样本之间的匹配得分（相似度），可以通过余弦相似度或欧式距离等方式确定样本之间的匹配得分，此处仅为举例说明，不对匹配得分的确定方式做具体限制。

举例而言，可以分别确定文本特征样本与定位特征样本中的显示时间特征样本和显示位置特征样本之间的余弦相似度，并可以将余弦相似度定义为文本特征样本与定位特征样本之间的匹配得分，对时间特征和目标文本特征进行匹配，对空间特征和目标文本特征进行匹配，得到视频-文本对，对匹配的视频-文本对（h，q）、负样本对（h_，q）和从一个分好的子集（Mini-batch）中进行采集。可以使用定向三元组排序损失（Bi-directionaltriple tranking loss）作为第一损失函数，也即，可以通过以下公式计算第一损失函数：

其中，

可以为提前预先设置的阈值，比如，可以为0.1。

第一损失函数可以确保在一个mini-batch内，且正样本对之间的匹配得分比所有负样本对之间的匹配得分至少高出

。

同时，可以引入一个视频级别的对比学习损失函数（L_videoCL）完成视频级别的对比学习（Video-level Contrastive Learning），其中，对比学习损失函数可以为第一损失函数。可以通过对比学习损失函数指导视频定位模型学习一个公共的特征空间，在这个空间内，语义上相关的视频和文本相互靠近，反之则远离。可选地，视频级别的对比损失（第一损失函数）可以由采样损失函数（noise-contrastive estimation，简称为NCE）进行衡量。可以通过以下公式计算对比损失：

其中，

可以为平衡因子，比如，可以设置为0.2；

可以为文本特征；

可以为视频特征，可以通过公式

进行计算：

其中，c_m可以为利用一个注意力机制从视频的隐含特征（

）计算得到，

，

可以用来衡量c和q之间的互信息，

将视频和文本的表示映射到一个公共的特征空间。

作为一种可选的实施方式，定位特征样本包括显示时间特征样本和显示位置特征样本，至少两种视频定位任务样本包括时间定位任务样本，其中，基于定位特征样本和文本特征样本，建立视频定位任务样本对应的第二损失函数，包括：基于显示时间特征样本、显示位置特征样本和文本特征样本，确定视频检索任务样本中视频帧为与文本样本相匹配的结束帧的概率和开始帧的概率；基于结束帧的概率和开始帧的概率，建立时间定位任务样本对应的第二损失函数。

在该实施例中，至少两种视频定位任务样本可以包括时间定位任务样本。可以基于显示时间特征样本、显示位置特征样本和文本特征样本，确定视频检索任务样本中视频帧为与文本样本相匹配的结束帧的概率和开始帧的概率，可以基于结束帧的概率和开始帧的概率建立时间定位任务样本对应的第二损失函数。

举例而言，可以将视频空间定位任务视为一个分类任务，确定视频检索任务样本中视频帧为与文本样本相匹配的结束帧的概率和开始帧的概率，其中，视频中每一帧为开始和结束帧的概率可以由归一化指数（softmax）函数进行确定。可以选取概率最高的位置为预测值，并施加约束确保结束帧一定在开始帧之后，比如，可以施加起始帧的帧号小于结束帧的帧号的约束，从而确保结束帧在开始帧之后。

可选地，可以将视频帧的特征与文本特征之间的余弦相似度确定为视频帧的特征与文本特征之间的匹配度，视频中每一帧为开始和结束帧的概率可以由softmax函数进行确定。时间定位任务的优化目标（

）可以定义为识别开始帧和结束帧的交叉熵损失的均值。

可选地，可以将时间边界之内的视频帧视为前景帧，其余视为背景帧，从而可以引入一个额外的帧级别的对比损失来最大化文本与前景帧之间的互信息，最小化文本与背景帧之间的互信息。互信息的下界可以由散度函数（比如，Jensen-Shannon MI estimator，简称为JS散度）计算得到：

其中，

可以为归一化指数函数函数；

可以为一个判别器；帧级别的对比损失（第二损失函数）可以定义为：

。

举例而言，可以将时间边界之内的视频帧视为前景帧，其余视为背景帧，从而可以引入一个额外的帧级别的对比损失来最大化文本与前景帧之间的互信息、最小化文本与背景帧之间的互信息。可以基于互信息与文本特征样本进行时间级别的对比学习（Temporal-level Contrastive Learning），得到帧级别的对比损失（

），也即第二损失函数。在本申请实施例中，可以基于帧级别的对比损失对初始视频定位模型的参数进行调整，从而达到提高视频定位模型预测准确性的目的。

作为一种可选的实施方式，定位特征样本包括显示位置特征样本，至少两种视频定位任务样本包括位置定位任务样本，其中，至少基于定位特征样本和文本特征样本，建立视频定位任务样本对应的第二损失函数，包括：基于显示位置特征样本和文本特征样本，确定文本特征样本所描述的对象与视频检索任务样本中视频帧的显著性区域之间的第二匹配度；基于第二匹配度建立位置定位任务样本对应的第二损失函数。

在该实施例中，至少两种视频定位任务样本可以包括位置定位任务样本。可以基于显示位置特征样本和文本特征样本，确定文本特征样本所描述的对象与视频检索任务样本中视频帧的显著性区域之间的第二匹配度。可以基于第二匹配度建立位置定位任务样本对应的第二损失函数。

可选地，可以由空间定位模块（Spatial Grounding）对文本特征样本所描述的对象与视频检索任务样本中视频帧的显著性区域进行处理。可以以文本特征样本（

）和显著性区域（h_s）为输入，确定文本特征样本所描述的对象与视频检索任务样本中视频帧的显著性区域之间的第二匹配度（S_i，t），可以由基于第二匹配度建立位置定位任务样本对应的第二损失函数（

）。

举例而言，对于视频第t帧的第i个显著性区域，该区域与文本特征样本所描述的对象（目标物体）之间的匹配度（S_i，t）可以由S函数（sigmoid）计算：

其中，q可以为需要定位的对象的编码，W_s可以为线性变换的权重，b可以为线性变换的偏置，

可以表示sigmoid函数。

可选地，可以用交叉熵作为空间定位任务的目标函数（第二损失函数），计算时在时间边界的真值之外的帧可以忽略不计，可以通过以下公式进行计算：

其中，S_t可以为前景帧的集合。y_i，t可以为匹配得分的真值，可以用于表征检测到的显著性区域与标记区域之间的交并比（Intersection over Union，简称为IoU）。

可选地，物体级别（Object-level Contrastive Learning）的对比损失函数可以用来减小公共特征空间中，相互匹配的

对之间的距离。对于检测到的每一个显著性区域，互信息的下界（

）可以由以下公式进行确定：

其中，

是与q相匹配的物体，

为不匹配的物体。

为最大化互信息的下界，物体级别的对比损失（第二损失函数）可以定义为：

。

作为一种可选的实施方式，视频检索任务样本对应的第一损失函数、至少两种视频定位任务样本中时间定位任务样本对应的第二损失函数、至少两种视频定位任务样本中位置定位任务样本对应的第二损失函数，这三者之间的加权和小于阈值。

在该实施例中，可以基于视频检索任务样本对应的第一损失函数、至少两种视频定位任务样本中时间定位任务样本对应的第二损失函数、至少两种视频定位任务样本中位置定位任务样本对应的第二损失函数对初始视频定位模型进行优化，直至三者之间的加权和小于阈值，则可以得到视频定位模型，其中，阈值可以为根据实际情况预设的值。

可选地，对初始视频定位模型的优化目标是最小化以上几个损失函数的加权和（

），小于预设的阈值，其中，上述加权和可以根据以下公式进行确定：

其中，超参数

可以用来平衡各项损失函数的贡献，可以设置为：

，

，需要说明的是，上述超参数的大小可以为举例说明，此处不对超参数的大小做具体限制。

在本申请实施例中，通过单个模型就可以实现视频检索、时间定位和空间定位，解决了相关技术中需要依次使用不同的多个模型才能实现视频检索、时间定位和空间定位的问题，从而实现了同阶段在时间和空间上定位该物体的位置的目的，简化了推理的流程，节省了时间，进而实现了提高视频的时空定位的效率的技术效果，解决了视频的时空定位的效率低的技术问题。

下面从模型训练的角度对本申请实施例中的视频定位模型的生成方法进行进一步介绍。

图3是根据本申请实施例的一种模型的生成方法的流程图。如图3所示，该方法可以包括以下步骤：

步骤S302，获取视频检索任务样本和至少两种视频定位任务样本。

在本申请上述步骤S302提供的技术方案中，可以获取视频检索任务的视频检索任务样本和至少两种视频定位任务的视频定位任务样本。至少两种视频定位任务可以包括空间定位任务和时间定位任务。

在本申请实施例中，可以基于视频检索任务样本和至少两种视频定位任务样本（比如，时间定位任务样本和空间定位任务样本对初始视频定位模型的参数进行调整，得到视频定位模型，从而提高了视频的时空定位的效率。

步骤S304，对视频检索任务样本和视频定位任务样本执行共同监督学习，训练得到视频定位模型，其中，视频定位模型用于对待执行时空定位的视频执行视频检索任务，以检索出与文本相匹配的目标视频片段，且确定需要定位的对象在目标视频片段中出现的定位信息，视频包括至少一个视频片段，文本用于描述在视频中执行视频定位任务需要定位的对象，定位信息至少包括：在目标视频片段中的显示时间段和显示位置。

在本申请上述步骤S304提供的技术方案中，可以通过视频检索任务样本和视频定位任务样本作为训练样本，执行共同监督学习，得到视频定位模型。

可选地，视频定位模型可以用于对待执行时空定位的视频执行检索任务，从而可以从视频中检索除与文本相匹配的目标视频片段。进一步的，可以确定文本表征的对象在目标视频片段中出现的定位信息，从而可以确定目标视频片段的显示时间段和对象的显示位置。

通过本申请上述步骤S302至步骤S304，获取视频检索任务样本和至少两种视频定位任务样本；对视频检索任务样本和视频定位任务样本执行共同监督学习，训练得到视频定位模型，其中，视频定位模型用于对待执行时空定位的视频执行视频检索任务，以检索出与文本相匹配的目标视频片段，且确定需要定位的对象在目标视频片段中出现的定位信息，视频包括至少一个视频片段，文本用于描述在视频中执行视频定位任务需要定位的对象，定位信息至少包括：在目标视频片段中的显示时间段和显示位置，从而实现了同阶段在时间和空间上定位该物体的位置的目的，简化了推理的流程，节省了时间，进而实现了提高视频的时空定位的效率的技术效果，解决了视频的时空定位的效率低的技术问题。

下面对该实施例的上述方法进行进一步的介绍。

作为一种可选的实施方式，使用视频定位模型的初始视频定位模型，基于视频定位任务样本从视频检索任务样本中提取出定位特征样本，且从文本样本中提取出文本特征样本；基于定位特征样本和文本特征样本，建立视频检索任务样本对应的第一损失函数和视频定位任务样本对应的第二损失函数；对视频检索任务样本和视频定位任务样本执行共同监督学习，训练得到视频定位模型，包括：基于第一损失函数和第二损失函数对初始视频定位模型的参数进行调整，得到视频定位模型。

在该实施例中，可以基于初始视频定位模型对视频定位任务样本（比如，视频）进行处理，从而从视频检索任务样本（比如，显示时间特征样本、显示空间特征样本、显著性区域特征样本等）中提取出定位特征样本（比如，显示空间特征样本，显示时间特征样本等）。且从文本样本中提取除文本特征样本（q）。可以基于定位特征样本和文本特征样本，建立视频检索任务样本对应的第一损失函数和视频定位任务样本对应的第二损失函数，可以基于第一损失函数和第二损失函数对初始视频定位模型的参数进行调整，得到视频定位模型。

举例而言，可以获取由初始视频定位模型中的文本编码器对文本样本进行处理得到的文本特征（q）。可以由初始视频定位模型中的视频编码器对视频定位任务样本进行检索处理得到视频检索任务样本中的显示时间特征样本（h_t）、显示空间特征样本（

）和显著性区域特征样本（h_s），可以从视频检索任务样本中提取出定位特征样本中的显示时间特征样本、显示空间特征样本。

作为一种可选的实施方式，初始视频定位模型包括文本编码器和视频编码器，文本编码器用于从文本中提取出文本特征，视频编码器用于从视频片段中提取出定位特征，文本特征和定位特征用于确定视频片段为目标视频片段，且确定对象在目标视频片段中出现的定位信息，其中，基于第一损失函数和第二损失函数对初始视频定位模型的参数进行调整，得到视频定位模型，包括：基于第一损失函数和第二损失函数，对文本编码器的参数和视频编码器的参数进行调整，得到视频定位模型。

在该实施例中，初始视频定位模型可以包括文本编辑器和视频编辑器。文本编码器可以用于从文本中提取出文本特征，视频编码器可以用于从视频片段中提取出定位特征。可以利用文本特征和定位特征之间的相似程度，从视频中确定目标视频片段，且可以通过视频编码器确定对象在目标视频片段中出现的定位信息。

可选地，可以基于第一损失函数和第二损失函数对初始视频定位模型中文本编码器和视频编码器的参数进行调整，得到视频定位模型。

作为一种可选的实施方式，基于第一损失函数和第二损失函数，对文本编码器的参数和视频编码器的参数进行调整，得到视频定位模型，包括：基于第一损失函数和第二损失函数，对文本编码器中文本特征提取层、全连接层和特征编码层的参数进行调整，且对视频编码器中时间特征提取层、位置特征提取层、全连接层和特征编码层的参数进行调整，得到视频定位模型。

在该实施例中，文本编码器可以包括文本特征提取层、全连接层和特征编码层。视频编码器可以包括时间特征提取层、位置特征提取层、全连接层和特征编码层。可以基于第一损失函数和第二损失函数对文本编码器中的文本特征提取层、全连接层和特征编码层的参数进行调整，且可以基于第一损失函数和第二损失函数对视频编码器中时间特征提取层、位置特征提取层、全连接层和特征编码层的参数进行调整，得到视频定位模型。

下面针对短视频应用场景对本申请实施例中的视频的时空定位方法进行进一步的介绍。

图4是根据本申请实施例的另一种视频的时空定位方法的流程图，如图4所示，该方法可以包括以下步骤。

步骤S402，获取待执行时空定位的视频素材库，并调取在视频素材库中确定定位信息时使用的文本，其中，视频素材库来自视频平台，且包括至少一个短视频素材，文本用于描述待在视频中执行视频定位任务中需要定位的对象。

在本申请上述步骤S402提供的技术方案中，上述文本可以为预先撰写的故事线或者脚本。视频素材库可以包括从多种渠道、平台获取到的素材，可以为图像也可以为视频片段等。

步骤S404，使用视频定位模型对视频素材库执行视频检索任务，检索出与文本相匹配的目标短视频素材，其中，视频定位模型为基于视频检索任务样本和至少两种视频定位任务样本执行共同监督学习而训练得到的模型。

步骤S406，使用视频定位模型确定需要定位的对象在目标短视频素材中出现的定位信息，其中，定位信息至少包括：在目标短视频素材中的显示时间段和显示位置。

步骤S408，基于目标短视频素材和定位信息生成成片视频。

在本申请上述步骤S408提供的技术方案中，可以基于目标短视频素材和定位信息，将从视频素材库中选择的与文本匹配的目标短视频素材，可以基于确定的定位信息，通过裁剪或缩放等方式，对目标短视频素材进行处理，得到成片视频。

步骤S410，将成片视频返回至视频平台。

可选地，短视频应用场景可以为短视频的智能剪辑，可以包括脚本撰写过程；根据脚本从视频库中选择合适的视频的过程；对选择的视频，截取合适的片段并调整空间分辨率，以便能将视频片段填充到预定义的槽位中的过程；组合所有的视频片段并渲染成片的过程，而本申请实施例中可以根据脚本，从视频库中选择合适的视频；且对选择的视频，可以截取合适的片段并调整空间分辨率，以便能将视频片段填充到预定义的槽位中，从而实现了同阶段在时间和空间上定位该物体的位置的目的，简化了推理的流程，节省了时间，进而实现了提高视频的时空定位的效率的技术效果，解决了视频的时空定位的效率低的技术问题。

下面对该实施例的上述方法进行进一步的介绍。

作为一种可选的实施方式，步骤S404，使用视频定位模型对视频素材库执行视频检索任务，检索出与文本相匹配的目标短视频素材，包括：使用视频定位模型从文本中提取出文本特征，且从短视频素材中提取出定位特征，其中，定位特征至少包括：对象在短视频素材中的显示时间特征和显示位置特征；基于文本特征和定位特征确定短视频素材为目标短视频素材。

作为一种可选的实施方式，步骤S408，使用视频定位模型确定需要定位的对象在目标短视频素材中出现的定位信息，包括：基于视频定位模型输出的文本特征和定位特征，确定对象在目标短视频素材中出现的定位信息。

在本申请实施例中，获取待执行时空定位的视频素材库，并调取在视频素材库中确定定位信息时使用的文本，其中，视频素材库来自视频平台，且包括至少一个短视频素材，文本用于描述在视频中执行视频定位任务中需要定位的对象；使用视频定位模型对视频素材库执行视频检索任务，检索出与文本相匹配的目标短视频素材，其中，视频定位模型可以为基于视频检索任务样本和至少两种视频定位任务样本执行共同监督学习而训练得到的模型；使用视频定位模型确定需要定位的对象在目标短视频素材中出现的定位信息，其中，定位信息至少包括：在目标短视频素材中的显示时间段和显示位置；基于目标短视频素材和定位信息生成成片视频；将成片视频返回至视频平台，从而实现了同阶段在时间和空间上定位该物体的位置的目的，简化了推理的流程，节省了时间，进而实现了提高视频的时空定位的效率的技术效果，解决了视频的时空定位的效率低的技术问题。

在上述运行环境下，本申请其中一实施例还提供了另一种如图5所示的视频的时空定位方法。需要说明的是，该实施例的视频的时空定位方法可以由图1所示实施例的移动终端执行。图5是根据本申请实施例的另一种视频的时空定位方法的流程图。如图5所示，该方法可以包括如下步骤：

步骤S502，通过调用第一接口获取待执行时空定位的视频，并调取在视频中确定定位信息时使用的文本，其中，视频包括至少一个视频片段，文本用于描述在视频中执行视频定位任务需要定位的对象，第一接口包括第一参数，第一参数的值为视频和文本。

在本申请上述步骤S502提供的技术方案中，第一接口可以是服务器与客户端之间进行数据交互的接口，客户端可以将待执行时空定位的视频和视频中确定定位信息时所使用的文本，作为第一接口的一个第一参数，实现用第一接口从媒体文件中，提取出视频和文本的目的。

步骤S504，调用视频定位模型，其中，视频定位模型为基于视频检索任务样本和至少两种视频定位任务样本执行共同监督学习而训练得到的模型。

步骤S506，使用视频定位模型对视频执行视频检索任务，检索出与文本相匹配的目标视频片段。

步骤S508，使用视频定位模型确定需要定位的对象在目标视频片段中出现的定位信息，其中，定位信息至少包括：在目标视频片段中的显示时间段和显示位置。

步骤S510，通过调用第二接口输出目标视频片段和定位信息，其中，第二接口包括第二参数，第二参数的值为目标视频片段和定位信息。

在本申请上述步骤S510提供的技术方案中，第二接口可以是服务器与客户端之间进行数据交互的接口，服务器可以将目标视频片段和定位信息传入第二接口中，作为第二接口的一个参数，实现目标视频片段和定位信息的目的。

通过上述步骤，通过调用第一接口获取待执行时空定位的视频，并调取在视频中确定定位信息时使用的文本，其中，视频包括至少一个视频片段，文本用于描述在视频中执行视频定位任务需要定位的对象，第一接口包括第一参数，第一参数的值为视频和文本；调用视频定位模型，其中，视频定位模型为基于视频检索任务样本和至少两种视频定位任务样本执行共同监督学习而训练得到的模型；使用视频定位模型对视频执行视频检索任务，检索出与文本相匹配的目标视频片段；使用视频定位模型确定需要定位的对象在目标视频片段中出现的定位信息，其中，定位信息至少包括：在目标视频片段中的显示时间段和显示位置；通过调用第二接口输出目标视频片段和定位信息，其中，第二接口包括第二参数，第二参数的值为目标视频片段和定位信息，从而解决了视频的时空定位的效率低的技术问题，实现了提高视频的时空定位的效率的技术效果。

实施例2

目前，在短视频剪辑中，一个通用的视频创作流程通常可以包括：脚本（故事线）的撰写；从素材库中选择与脚本最为匹配的素材；将所选素材进行裁剪或缩放为片段；将处理得到的片段组装拼接为成片，然而，在实际应用中，从素材库中选择与脚本匹配的素材且将选择的素材进行剪裁或缩放为片段的过程是非常复杂且费时费力的，从而在短视频智能剪辑中存在时空自适应差问题。

在相关技术中，是采用两阶段或三阶段的方式来解决该问题，可以包括：视频检索、时间定位与空间定位相结合的方法；或者可以通过视频检索与时空定位相结合的方法；或者是视频集合中的时间定位和空间定位相结合的方法，但是上述方法流程复杂，计算时间长，不能满足线上需求，且每个阶段视频和文本的表示是每个任务独立学习的，从前一个阶段到后一个阶段，误差是逐步累积的，因此，也存在智能素材匹配和时空自适应差，从而导致视频的时空定位的效率低的技术问题。

由上述可知，在相关技术中还存在每个阶段都需要构建对应的模型完成对数据的处理，导致视频的时空定位的效率低的技术问题，为解决相关技术的问题，本申请实施例提出一种视频集合中的时空定位方法，该方法基于视频集合中的时空定位，且设计了一个端到端的多任务模型，从而实现了只需要单个模型就可以完成对视频的处理，提高了视频的时空定位的效率。

在本申请实施例中，提出了一种处理视频集合中的时空定位任务的方法，其中，VCSTG可以为视频检索、时间定位和空间定位任务的组合。也就是说，本申请实施例通过设计一个新的端到端的多任务时空定位网络来完成给定一个未经剪辑的视频库和一段描述物体的文字，通过同时在时间和空间上定位该物体的位置。但是，本申请实施例与多阶段的方式不同，多任务时空定位网络为视频检索、时间定位和空间定位任务学习统一的视频和文本的特征。

下面对本申请实施例中构建的多任务时空定位网络进行进一步的说明。图6是根据本申请实施例的一种多任务时空定位网络模型的示意图。如图6所示，多任务时空定位网络模型可以由文本编码器（Query Encoder）和视频编码器（Video Encoder）两个模块组成，视频检索（Video Retrieval）、时间定位（Temporal Grounding）和空间定位（SpatialGrounding）三个监督信号共同监督。

在该实施例中，图7是根据本申请实施例的一种文本编码器数据处理的示意图，如图7所示，文本编码器的数据处理过程可以包括以下内容。

如图7所示，可以给定一段文本（Q），比如，可以为一段具有n_q个单词的文本，可以为“穿着粉色衣服的小孩坐在穿着蓝色衣服的小孩旁边”。可以利用文本编码器中的文本特征提取层（Textual Feature Exactor）将文本信息转换为特征表示，其中，文本编码器可以为双向编码器，此处仅为举例，不做具体限制；且可以通过全连接层将特征映射到多维空间（d）中，得到目标维的单词特征（

），比如，可以为64维（d=64）中。可以通过特定定位（Position）确定当前编码的单词在句子中的位置，从而可以将定位到的目标维的单词特征输入至编码模块中（Transformer），编码模块通过捕捉句子中每个单词之间的关系，达到进一步捕捉文本信息中的上下文关系的目的，其中，编码模块的数量可以为一个，也可以为两个，此处不对编码器模块的数量做具体限制。可以通过注意力机制将映射后得到的数据转化为整个句子的表示（q_t）。

可选地，可以获取需要定位的目标物体（Queried Object）对应的文本特征（q_s），基于目标物体对应的文本特征和句子的特征（q_t），对数据集进行合并处理（Concat），得到目标物体敏感的文本（目标文本q），其中，目标文本可以为多维度数据（比如，可以为1*d）。可以通过以下公式计算得到：

其中，

可以为线性变换的权重矩阵，表示

可以用于表征向量的拼接操作。

在该实施例中，图8是根据本申请实施例的一种视频编码器数据处理的示意图，如图8所示，视频编码器可以由一个时间分支和空间分支组成。

可选地，可以获取给定的一段视频（Video Encoder），视频的时间特征可以由时间特征提取器进行提取，得到时间特征（F），且视频的空间特征可以由目标检测器进行提取，得到空间特征（R）。与文本特征处理的过程类似，可以将时间特征和空间特征经全连接层映射到

维。

举例而言，可以获取一段视频，可以将图像数据集（ImageNet）上预训练得到的卷积神经网络（比如，DenseNet-121）作为时间特征提取器，利用时间特征提取器对视频的时间特征进行提取，得到时间特征（F），将时间特征经过全连接层映射，得到目标维的原始显示时间特征（

）。可以将由目标检测数据集（MicroSoft Common Objects in Context，简称为MSCOCO）数据集上预训练的目标检测模型（比如，Faster-RCNN）作为目标检测器对视频的空间特征进行提取，得到原始显示位置特征（R），可以将空间特征经过全连接层映射，得到目标维的原始显示位置特征（

）。

可选地，可以通过编码模块（Transformer）对映射得到的时间特征进行编码，比如，可以通过两个编码模块对映射得到的数据进行处理，其中，第一个编码模块可以在不包含空间特征的基础上对视频的帧之间在时间上的关系进行建模，第二个编码模块可以为融合了空间特征之后，基于视频中每一帧于其他帧之间的关系进行建模，第二个编码模块可以起到一个增强时间特征的作用。

可选地，可以通过视频编码器中的图神经网络对空间特征进行编码，此处可以通过两个图神经网络对空间特征进行编码，得到处理后的数据（h_s），第二个图神经网络可以用于融合时间特征后，对画面中每个区域与其他区域之间的关系进行建模，需要说明的是，此处图神经网络的数量仅为举例，不对图神经网络的数量做具体限制。

举例而言，如图8所示，图神经网络可以以每一帧当中识别到的显著性区域作为顶点，建立完全图来对各个区域之间的空间关系进行建模，每个顶点可以通过聚合来自邻居的信息来更新当前顶点的特征，得到聚合后的特征（

）；可以采用两个短连接，可以为从空间到时间的短连接将空间特征融入时间特征的分支中，从而用增强时间特征对于细粒度的目标物体的敏感性；从时间到空间的短连接将时间特征融入空间特征的分支中，从而利用上下文信息（可以为其他时间帧的特征）增强空间特征。

可以通过自注意力编辑器（Co-attention transformer）和对融合后的时间特征进行处理，达到对融合后的时间特征进行进一步增强的目的，得到增强后的时间特征（h_t'），时间特征可以为nt*d的特征矩阵，经过编码模块处理，得到nt*d的时间特征（ht）。

可以通过图神经网络对空间特征进一步增强，得到nt*ns*d的空间特征（h_s），且可以对增强后的空间特征通过注意力机制将得到的数据转化为nt*d的空间特征（h_t'）。

进一步说明，可以由图神经网络模型中的目标检测算法（Faster-rcnn）确定每一帧的显著性区域。可以对各个区域之间的关联关系进行建模，得到完全图（顶点和完全图），完全图中的每个顶点可以表示一个显著性区域，边的权重关系可以用于表征相邻两个区域之间的关系。顶点的表征可以为画面帧中区域的特征，邻居的信息可以为相邻点的特征。

在相关技术中，原本的时间特征只是指时间上每一帧的特征，只是当前帧的一个整体表示，不包括画面帧中的每个物体的特征，而在本申请实施例中，将空间特征和时间特征进行融合，从而达到增强时间特征对于细粒度的目标物体的敏感性的目的。

在相关技术中，时间特征只是当前帧中各个物体的特征，而在本申请实施例中，通过自注意力编辑器，使每个顶点可以聚合邻居的信息来更新当前顶点的特征，从而达到了利用上下文信息对空间特征进行增强的目的。

作为一种可选的实施例，图9是根据本申请实施例的一种视频检索数据处理的示意图，如图9所示，可以通过视频检索的监督信号对数据处理的过程进行监督。

可选地，可以将视频和文本之间的余弦相似度定义为它们之间的匹配得分，对时间特征和目标文本特征进行匹配，对空间特征和目标文本特征进行匹配，得到视频-文本对，对匹配的视频-文本对、负样本对和从一个分好的子集（Mini-batch）中进行采集。可以使用定向三元组排序损失（Bi-directional triple tranking loss）作为视频检索任务的损失函数，也即，可以通过以下公式计算损失函数：

其中，

可以为提前预先设置的阈值，比如，可以为0.1。

上述损失函数的损失需要确保在一个mini-batch内，且正样本对之间的匹配得分比所有负样本对之间的匹配得分至少高出

。

同时，可以引入一个视频级别的对比学习损失函数（L_videoCL）完成视频级别的对比学习（Video-level Contrastive Learning），可以通过对比学习损失函数指导模型学习一个公共的特征空间，在这个空间内，语义上相关的视频和文本相互靠近，反之则远离。可选地，视频级别的对比损失可以由采样损失函数（noise-contrastiveestimation，简称为NCE）进行衡量。可以通过以下公式计算对比损失：

其中，

可以为平衡因子，比如，可以设置为0.2；

可以为文本特征；

可以为视频特征，可以通过公式

进行计算：

其中，c_m可以为利用一个注意力机制从视频的隐含特征（

）计算得到，

，

可以用来衡量c和q之间的互信息，

将视频和文本的表示映射到一个公共的特征空间。

作为一种可选的实施例，图10是根据本申请实施例的一种时间定位数据处理的示意图，如图10所示，可以通过视频定位的监督信号对数据处理的过程进行监督，其中，时间定位的目标是定位视频的时间边界。

可选地，可以将视频定位任务视为一个分类任务，可以为分别计算每一帧是开始帧和结束帧的概率，其中，视频中每一帧为开始和结束帧的概率可以由归一化指数函数进行确定。可以选取概率最高的位置为预测值，并施加约束确保结束帧一定在开始帧之后，比如，可以施加起始帧的帧号小于结束帧的帧号的约束，从而确保结束帧在开始帧之后。

）可以定义为识别开始帧和结束帧的交叉熵损失的均值。

其中，

可以为归一化指数函数函数；

。

举例而言，如图10所示，时间定位的监督过程可以包括：获取由文本编码器处理得到的目标物体的文本特征（q）、由视频编码器处理得到的视频的时间特征（h_t）和空间特征（

）。可以将敏感文本与时间特征的余弦相似度确定为视频帧与文本之间的匹配度，利用归一化指数函数确定视频中每一帧为开始和结束帧的概率，可以选取概率最高的位置为预测值，确定开始帧和结束帧。可以对敏感文本和开始帧的空间特征进行卷积计算（Conv），得到对应的开始帧的优化目标（

）；可以对敏感文本和结束帧的空间特征进行卷积计算得到对应的结束帧的优化目标（

）。且可以对敏感文本和开始帧的时间特征进行卷积计算，得到对应的开始帧的优化目标；可以对敏感文本和结束帧的时间特征进行卷积计算得到对应的结束帧的优化目标。

再举例而言，如图10所示，可以将时间边界之内的视频帧视为前景帧，其余视为背景帧，从而可以引入一个额外的帧级别的对比损失来最大化文本与前景帧之间的互信息、最小化文本与背景帧之间的互信息（

）。可以基于互信息与敏感文本进行时间级别的对比学习（Temporal-level Contrastive Learning），得到帧级别的对比损失（

），可以基于帧级别的对比损失对模型参数进行调整，从而达到提高模型预测准确性的目的。

作为一种可选的实施例，图11是根据本申请实施例的一种空间定位的数据处理的示意图，如图11所示，可以通过空间定位的监督信号对数据处理的过程进行监督。

可选地，空间定位模块（Spatial Grounding）可以以文本特征样本（

）和显著性区域（h_s）为输入，目标是定位物体

在视频帧中的空间位置。

举例而言，对于视频第t帧的第i个显著性区域，该区域与目标物体之间的匹配度（

）可以由sigmoid函数计算：

。可以用交叉熵作为空间定位任务的目标函数，计算时在时间边界的真值之外的帧可以忽略不计，可以通过以下公式进行计算：

其中，S_t可以为前景帧的集合。y_i，t可以为匹配得分的真值，可以用于表征检测到的显著性区域与标记区域之间的交并比。

）可以由以下公式进行确定：

其中，

是与q相匹配的物体，

为不匹配的物体。

。

在本申请实施例中，可以基于视频检索、时间定位和空间定位模块对模型参数进行调整，从而提高了模型对数据处理的准确性，提高了视频的时空定位的效率。

可选地，多任务时空定位网络的优化目标是最小化以上几个损失函数的加权和，即：

其中，超参数

可以用来平衡各项损失函数的贡献，可以设置为：

，

作为一种可选的实施例，可以对构建好的多任务时空定位网络进行训练和推理。

在推理阶段，为了平衡模型的预测效果和计算复杂性，可以采用一种两阶段的方式，即先从视频集合中定位一个视频片段，然后再定位空间位置。

举例而言，对于一条给定的文本，可以选择与之最为相关的100条视频，通过最大化

来计算时间边界，其中，

可以是文本与候选视频之间的相似度，

可以是预测的视频片段的得分，

可以是平衡因子。

可选地，定位到时间边界之后，可以利用一个动态选择策略来目标物体的空间位置。为了建立每个区域在时间上的相关性，空间区域在连续的两帧t和t+1之间的关联得分可以定义为：

其中，

分别可以为区域

与文本之间的匹配得分，超参数

可以设置为0.2。最终的空间区域的序列可以通过最大化预测的时间边界内空间区域的关联得分计算。

本申请实施例，针对相关技术中的流程复杂、耗时长，导致误差逐步累积，从而影响视频的时空定位效率的问题，提出了一种端到端的视频集合中的时空定位算法，由视频检索、时间定位和空间定位三个任务共同监督，并通过视频级别（视频检索）、帧级别（时间定位）、区域级别（空间定位）三种粒度的对比学习损失函数来进一步拉近正样本对之间的距离，从而为三个任务学习统一的视频特征和文本特征，解决了误差累积的问题。其次，本申请实施例采用单个模型同时解决三个任务，相比多阶段方案，简化了推理的流程，节省了时间，从而实现了只需要单个模型就可以完成对视频的处理，提高了视频的时空定位的效率。

为进一步验证本申请实施例的可行性，在时空视频接地数据集（VidSTG）中进行测试。对疑问句进行定位，得到的定位结果中，方法一的交并比为0.77、交并比@0.3为0.89、交并比@0.5为0.25、交并比@0.7为0.03，方法二的交并比为1.00、交并比@0.3为1.17、交并比@0.5为0.52、交并比@0.7为0.12，方法三的交并比为0.88、交并比@0.3为1.01、交并比@0.5为0.46、交并比@0.7为0.12，方法四的交并比为1.24、交并比@0.3为1.53、交并比@0.5为0.64、交并比@0.7为0.18，而本申请的交并比为1.21、交并比@0.3为1.56、交并比@0.5为0.98、交并比@0.7为0.40，由上述结果可以看出来，本申请实施例对疑问句在视频中进行定位的交比与其他方法相比较高。对陈述句进行定位，得到的定位结果中，方法一的交并比为0.53、交并比@0.3为0.62、交并比@0.5为0.10、交并比@0.7为0.10，方法二的交并比为0.61、交并比@0.3为0.77、交并比@0.5为0.30、交并比@0.7为0.25，方法三的交并比为0.47、交并比@0.3为0.45、交并比@0.5为0.20、交并比@0.7为0.0，方法四的交并比为0.56、交并比@0.3为0.45、交并比@0.5为0.30、交并比@0.7为0.10，而本申请的交并比为0.94、交并比@0.3为1.30、交并比@0.5为0.80、交并比@0.7为0.27，由上述结果可以看出来，本申请实施例对陈述句在视频中进行定位的交比与其他方法相比较高。综上所述，本申请实施例对疑问句或陈述在视频中进行定位的交比与其他方法相比较高，也就是说本申请实施例视频的空间定位的准确性有了显著提升。

本申请实施例提出了一种新的视频集合中的时空定位任务，可以用于探索短视频智能剪辑中的时空自适应问题；通过设计一个端到端的模型，使用三个监督任务学习以一个统一的文本和视频表示，从而解决了视频集合中的时空定位问题，实现了提高视频的时空定位的效率的技术效果。

在另一种可选实施例中，图12以框图示出了使用上述图1所示的计算机终端（或移动设备）作为服务网格的一种实施例。图12是根据本申请实施例的一种视频的时空定位方法的服务网格的结构框图，如图12所示，该服务网格1200主要用于方便多个微服务之间进行安全和可靠的通信，微服务是指将应用程序分解为多个较小的服务或者实例，并分布在不同的集群/机器上运行。

如图12所示，微服务可以包括应用服务实例A和应用服务实例B，应用服务实例A和应用服务实例B形成服务网格1200的功能应用层。在一种实施方式中，应用服务实例A以容器/进程1208的形式运行在机器/工作负载容器组1214（POD），应用服务实例B以容器/进程1230的形式运行在机器/工作负载容器组1216（POD）。

在一种实施方式中，应用服务实例A可以是商品查询服务，应用服务实例B可以是商品下单服务。

如图12所示，应用服务实例A和网格代理（sidecar）1203共存于机器工作负载容器组1214，应用服务实例B和网格代理1205共存于机器工作负载容器1214。网格代理1203和网格代理1205形成服务网格1200的数据平面层（data plane）。其中，网格代理1203和网格代理1205分别以容器/进程1204，容器/进程1204可以接收请求1212，以用于进行商品查询服务，网格代理1206的形式在运行，并且网格代理1203和应用服务实例A之间可以双向通信，网格代理1205和应用服务实例B之间可以双向通信。此外，网格代理1203和网格代理1205之间还可以双向通信。

在一种实施方式中，应用服务实例A的所有流量都通过网格代理1203被路由到合适的目的地，应用服务实例B的所有网络流量都通过网格代理1205被路由到合适的目的地。需要说明的是，在此提及的网络流量包括但不限于超文本传输协议（Hyper Text TransferProtocol，简称为HTTP），表述性状态传递（Representational State Transfer，简称为REST），高性能、通用的开源框架（gRPC），开源的内存中的数据结构存储系统（Redis）等形式。

在一种实施方式中，可以通过为服务网格1200中的代理（Envoy）编写自定义的过滤器（Filter）来实现扩展数据平面层的功能，服务网格代理配置可以是为了使服务网格正确地代理服务流量，实现服务互通和服务治理。网格代理1203和网格代理1205可以被配置成执行至少如下功能中的一种：服务发现（service discovery），健康检查（healthchecking），路由（Routing），负载均衡（Load Balancing），认证和授权（authenticationand authorization），以及可观测性（observability）。

如图12所示，该服务网格1200还包括控制平面层。其中，控制平面层可以是由一组在一个专用的命名空间中运行的服务，在机器/工作负载容器组（machine/Pod）1202中由托管控制面组件1201来托管这些服务。如图12所示，托管控制面组件1201与网格代理1203和网格代理1205进行双向通信。托管控制面组件1201被配置成执行一些控制管理的功能。例如，托管控制面组件1201接收网格代理1203和网格代理1205传送的遥测数据，可以进一步对这些遥测数据做聚合。这些服务，托管控制面组件1201还可以提供面向用户的应用程序接口（API），以便较容易地操纵网络行为，以及向网格代理1203和网格代理1205提供配置数据等。需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本申请各个实施例的方法。

实施例3

根据本申请实施例，还提供了一种用于实施上述图2所示的视频的时空定位方法的视频的时空定位装置。

图13是根据本申请实施例的一种视频的时空定位装置的示意图。如图13所示，该视频的时空定位装置1300可以包括：第一获取单元1302、第一调用单元1304、第一检索单元1306和第一确定单元1308。

第一获取单元1302，用于获取待执行时空定位的视频，并调取在视频中确定定位信息时使用的文本，其中，视频包括至少一个视频片段，文本用于描述在视频中执行视频定位任务需要定位的对象。

第一调用单元1304，用于调用视频定位模型，其中，视频定位模型为基于视频检索任务样本和至少两种视频定位任务样本执行共同监督学习而训练得到的模型。

第一检索单元1306，用于使用视频定位模型对视频执行视频检索任务，检索出与文本相匹配的目标视频片段。

第一确定单元1308，用于使用视频定位模型确定需要定位的对象在目标视频片段中出现的定位信息，其中，定位信息至少包括：在目标视频片段中的显示时间段和显示位置。

此处需要说明的是，上述第一获取单元1302、第一调用单元1304、第一检索单元1306和第一确定单元1308对应于实施例1中的步骤S202至步骤S208，四个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例1提供的计算机终端中。

根据本申请实施例，还提供了一种用于实施上述图3所示的模型的生成方法的模型的生成装置。

图14是根据本申请实施例的一种模型的生成装置的示意图，如图14所示，该模型的生成装置1400可以包括：第二获取单元1402和训练单元1404。

第二获取单元1402，用于获取视频检索任务样本和至少两种视频定位任务样本。

训练单元1404，用于对视频检索任务样本和视频定位任务样本执行共同监督学习，训练得到视频定位模型，其中，视频定位模型用于对待执行时空定位的视频执行视频检索任务，以检索出与文本相匹配的目标视频片段，且确定需要定位的对象在目标视频片段中出现的定位信息，视频包括至少一个视频片段，文本用于描述在视频中执行视频定位任务需要定位的对象，定位信息至少包括：在目标视频片段中的显示时间段和显示位置。

此处需要说明的是，上述第二获取单元1402和训练单元1404对应于实施例1中的步骤S302至步骤S304，两个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例1提供的计算机终端中。

根据本申请实施例，还提供了一种用于实施上述图4所示的视频的时空定位方法的视频的时空定位装置，该装置可以应用于短视频的应用场景下。

图15是根据本申请实施例的另一种视频的时空定位装置的示意图。如图15所示，该视频的时空定位装置1500可以包括：第三获取单元1502、第二检索单元1504、第二确定单元1506、生成单元1508和返回单元1510。

第三获取单元1502，用于获取待执行时空定位的视频素材库，并调取在视频素材库中确定定位信息时使用的文本，其中，视频素材库来自视频平台，且包括至少一个短视频素材，文本用于描述待在视频中执行视频定位任务中需要定位的对象。

第二检索单元1504，用于使用视频定位模型对视频素材库执行视频检索任务，检索出与文本相匹配的目标短视频素材，其中，视频定位模型为基于视频检索任务样本和至少两种视频定位任务样本执行共同监督学习而训练得到的模型。

第二确定单元1506，用于使用视频定位模型确定需要定位的对象在目标短视频素材中出现的定位信息，其中，定位信息至少包括：在目标短视频素材中的显示时间段和显示位置。

生成单元1508，用于基于目标短视频素材和定位信息生成成片视频。

返回单元1510，用于将成片视频返回至视频平台。

此处需要说明的是，上述第三获取单元1502、第二检索单元1504、第二确定单元1506、生成单元1508和返回单元1510对应于实施例1中的步骤S402至步骤S410，五个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例1提供的计算机终端中。

根据本申请实施例，还提供了一种用于实施上述图5所示的视频的时空定位方法的视频的时空定位装置。

图16是根据本申请实施例的另一种视频的时空定位装置的示意图。如图16所示，该视频的时空定位装置1600可以包括：第一调用单元1602、第二调用单元1604、第三检索单元1606、第三确定单元1608和输出单元1610。

第一调用单元1602，用于通过调用第一接口获取待执行时空定位的视频，并调取在视频中确定定位信息时使用的文本，其中，视频包括至少一个视频片段，文本用于描述在视频中执行视频定位任务需要定位的对象，第一接口包括第一参数，第一参数的值为视频和文本。

第二调用单元1604，用于调用视频定位模型，其中，视频定位模型为基于视频检索任务样本和至少两种视频定位任务样本执行共同监督学习而训练得到的模型。

第三检索单元1606，用于使用视频定位模型对视频执行视频检索任务，检索出与文本相匹配的目标视频片段。

第三确定单元1608，用于使用视频定位模型确定需要定位的对象在目标视频片段中出现的定位信息，其中，定位信息至少包括：在目标视频片段中的显示时间段和显示位置。

输出单元1610，用于通过调用第二接口输出目标视频片段和定位信息，其中，第二接口包括第二参数，第二参数的值为目标视频片段和定位信息。

此处需要说明的是，上述第一调用单元1602、第二调用单元1604、第三检索单元1606、第三确定单元1608和输出单元1610对应于实施例1中的步骤S502至步骤S510，五个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例1提供的计算机终端中。

在该实施例的视频的时空定位装置中，通过单个模型就可以实现视频检索、时间定位和空间定位，解决了相关技术中需要依次使用不同的多个模型才能实现视频检索、时间定位和空间定位的问题，从而实现了同阶段在时间和空间上定位该物体的位置的目的，简化了推理的流程，节省了时间，进而实现了提高视频的时空定位的效率的技术效果，解决了视频的时空定位的效率低的技术问题。

实施例4

本申请的实施例可以提供一种处理器，该处理器可以包括计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的视频的时空定位方法中以下步骤的程序代码：获取待执行时空定位的视频，并调取在视频中确定定位信息时使用的文本，其中，视频包括至少一个视频片段，文本用于描述在视频中执行视频定位任务需要定位的对象；调用视频定位模型，其中，视频定位模型为基于视频检索任务样本和至少两种视频定位任务样本执行共同监督学习而训练得到的模型；使用视频定位模型对视频执行视频检索任务，检索出与文本相匹配的目标视频片段；使用视频定位模型确定需要定位的对象在目标视频片段中出现的定位信息，其中，定位信息至少包括：在目标视频片段中的显示时间段和显示位置。

可选地，图17是根据本申请实施例的一种计算机终端的结构框图。如图17所示，该计算机终端A可以包括：一个或多个（图中仅示出一个）处理器1702、存储器1704、以及传输装置1706。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的视频的时空定位方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及预测，即实现上述的视频的时空定位方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取待执行时空定位的视频，并调取在视频中确定定位信息时使用的文本，其中，视频包括至少一个视频片段，文本用于描述在视频中执行视频定位任务需要定位的对象；调用视频定位模型，其中，视频定位模型为基于视频检索任务样本和至少两种视频定位任务样本执行共同监督学习而训练得到的模型；使用视频定位模型对视频执行视频检索任务，检索出与文本相匹配的目标视频片段；使用视频定位模型确定需要定位的对象在目标视频片段中出现的定位信息，其中，定位信息至少包括：在目标视频片段中的显示时间段和显示位置。

可选地，上述处理器还可以执行如下步骤的程序代码：使用视频定位模型从文本中提取出文本特征，且从视频片段中提取出定位特征，其中，定位特征至少包括：对象在视频片段中的显示时间特征和显示位置特征；基于文本特征和定位特征确定视频片段为目标视频片段。

可选地，上述处理器还可以执行如下步骤的程序代码：基于视频定位模型输出的文本特征和定位特征，确定对象在目标视频片段中出现的定位信息。

可选地，上述处理器还可以执行如下步骤的程序代码：使用视频定位模型的文本编码器从文本中提取出文本特征，其中，文本编码器的参数由视频检索任务样本对应的第一损失函数和视频定位任务样本对应的第二损失函数调整；使用视频定位模型的视频编码器从视频片段中提取出定位特征，其中，视频编码器的参数由第一损失函数和第二损失函数调整。

可选地，上述处理器还可以执行如下步骤的程序代码：使用文本编码器中文本特征提取层从文本中提取出单词特征；使用文本编码器中全连接层将单词特征映射为目标维的单词特征；使用文本编码器中特征编码层对目标维的单词特征进行编码，得到文本特征。

可选地，上述处理器还可以执行如下步骤的程序代码：使用视频编码器中时间特征提取层从视频中提取出原始显示时间特征，且使用视频编码器中的位置特征提取层从视频中提取出原始显示位置特征；使用视频编码器中全连接层将原始显示时间特征映射为目标维的原始显示时间特征，且将原始显示位置特征映射为目标维的原始显示位置特征；使用视频编码器中特征编码层对目标维的原始显示时间特征和目标维的原始显示位置特征进行编码，得到显示时间特征，且使用视频编码器中的图神经网络对目标维的原始显示时间特征和目标维的原始显示位置特征进行编码，得到显示位置特征。

可选地，上述处理器还可以执行如下步骤的程序代码：在视频定位模型的初始视频定位模型中，基于视频定位任务样本从视频检索任务样本中提取出定位特征样本，且从文本样本中提取出文本特征样本；基于定位特征样本和文本特征样本，建立视频检索任务样本对应的第一损失函数和视频定位任务样本对应的第二损失函数；基于第一损失函数和第二损失函数对初始视频定位模型的参数进行调整，得到视频定位模型。

可选地，上述处理器还可以执行如下步骤的程序代码：基于显示时间特征样本、显示位置特征样本和文本特征样本，确定视频检索任务样本和文本样本之间的第一匹配度；基于第一匹配度建立第一损失函数。

可选地，上述处理器还可以执行如下步骤的程序代码：基于显示时间特征样本、显示位置特征样本和文本特征样本，确定视频检索任务样本中视频帧为与文本样本相匹配的结束帧的概率和开始帧的概率；基于结束帧的概率和开始帧的概率，建立时间定位任务样本对应的第二损失函数。

可选地，上述处理器还可以执行如下步骤的程序代码：基于显示位置特征样本和文本特征样本，确定文本特征样本所描述的对象与视频检索任务样本中视频帧的显著性区域之间的第二匹配度；基于第二匹配度建立位置定位任务样本对应的第二损失函数。

作为一种可选的示例，处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取视频检索任务样本和至少两种视频定位任务样本；对视频检索任务样本和视频定位任务样本执行共同监督学习，训练得到视频定位模型，其中，视频定位模型用于对待执行时空定位的视频执行视频检索任务，以检索出与文本相匹配的目标视频片段，且确定需要定位的对象在目标视频片段中出现的定位信息，视频包括至少一个视频片段，文本用于描述在视频中执行视频定位任务需要定位的对象，定位信息至少包括：在目标视频片段中的显示时间段和显示位置。

可选地，上述处理器还可以执行如下步骤的程序代码：使用视频定位模型的初始视频定位模型，基于视频定位任务样本从视频检索任务样本中提取出定位特征样本，且从文本样本中提取出文本特征样本；基于定位特征样本和文本特征样本，建立视频检索任务样本对应的第一损失函数和视频定位任务样本对应的第二损失函数；对视频检索任务样本和视频定位任务样本执行共同监督学习，训练得到视频定位模型，包括：基于第一损失函数和第二损失函数对初始视频定位模型的参数进行调整，得到视频定位模型。

可选地，上述处理器还可以执行如下步骤的程序代码：基于第一损失函数和第二损失函数，对文本编码器的参数和视频编码器的参数进行调整，得到视频定位模型。

可选地，上述处理器还可以执行如下步骤的程序代码：基于第一损失函数和第二损失函数，对文本编码器中文本特征提取层、全连接层和特征编码层的参数进行调整，且对视频编码器中时间特征提取层、位置特征提取层、全连接层和特征编码层的参数进行调整，得到视频定位模型。

作为一种可选的示例，处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取待执行时空定位的视频素材库，并调取在视频素材库中确定定位信息时使用的文本，其中，视频素材库来自视频平台，且包括至少一个短视频素材，文本用于描述待在视频中执行视频定位任务中需要定位的对象；使用视频定位模型对视频素材库执行视频检索任务，检索出与文本相匹配的目标短视频素材，其中，视频定位模型为基于视频检索任务样本和至少两种视频定位任务样本执行共同监督学习而训练得到的模型；使用视频定位模型确定需要定位的对象在目标短视频素材中出现的定位信息，其中，定位信息至少包括：在目标短视频素材中的显示时间段和显示位置；基于目标短视频素材和定位信息生成成片视频；将成片视频返回至视频平台。

作为一种可选的示例，处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：通过调用第一接口获取待执行时空定位的视频，并调取在视频中确定定位信息时使用的文本，其中，视频包括至少一个视频片段，文本用于描述在视频中执行视频定位任务需要定位的对象，第一接口包括第一参数，第一参数的值为视频和文本；调用视频定位模型，其中，视频定位模型为基于视频检索任务样本和至少两种视频定位任务样本执行共同监督学习而训练得到的模型；使用视频定位模型对视频执行视频检索任务，检索出与文本相匹配的目标视频片段；使用视频定位模型确定需要定位的对象在目标视频片段中出现的定位信息，其中，定位信息至少包括：在目标视频片段中的显示时间段和显示位置；通过调用第二接口输出目标视频片段和定位信息，其中，第二接口包括第二参数，第二参数的值为目标视频片段和定位信息。

本申请实施例通过单个模型就可以实现视频检索、时间定位和空间定位，解决了相关技术中需要依次使用不同的多个模型才能实现视频检索、时间定位和空间定位的问题，从而实现了同阶段在时间和空间上定位该物体的位置的目的，简化了推理的流程，节省了时间，进而实现了提高视频的时空定位的效率的技术效果，解决了视频的时空定位的效率低的技术问题。

本领域普通技术人员可以理解，图17示的结构仅为示意，计算机终端A也可以是智能手机（如、平板电脑、掌声电脑以及移动互联网设备（Mobile Internet Devices，MID）、PAD等终端设备。图17并不对上述计算机终端A的结构造成限定。例如，计算机终端A还可包括比图17所示更多或者更少的组件（如网络接口、显示装置等），或者具有与图17所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（RandomAccess Memory，RAM）、磁盘或光盘等。

实施例5

本申请的实施例还提供了一种计算机可读存储介质。可选地，在本实施例中，上述计算机可读存储介质可以用于保存上述实施例1所提供的视频的时空定位方法所执行的程序代码。

可选地，在本实施例中，上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，上述计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取待执行时空定位的视频，并调取在视频中确定定位信息时使用的文本，其中，视频包括至少一个视频片段，文本用于描述在视频中执行视频定位任务需要定位的对象；调用视频定位模型，其中，视频定位模型为基于视频检索任务样本和至少两种视频定位任务样本执行共同监督学习而训练得到的模型；使用视频定位模型对视频执行视频检索任务，检索出与文本相匹配的目标视频片段；使用视频定位模型确定需要定位的对象在目标视频片段中出现的定位信息，其中，定位信息至少包括：在目标视频片段中的显示时间段和显示位置。

可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：使用视频定位模型从文本中提取出文本特征，且从视频片段中提取出定位特征，其中，定位特征至少包括：对象在视频片段中的显示时间特征和显示位置特征；基于文本特征和定位特征确定视频片段为目标视频片段。

可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：基于视频定位模型输出的文本特征和定位特征，确定对象在目标视频片段中出现的定位信息。

可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：使用视频定位模型的文本编码器从文本中提取出文本特征，其中，文本编码器的参数由视频检索任务样本对应的第一损失函数和视频定位任务样本对应的第二损失函数调整；使用视频定位模型的视频编码器从视频片段中提取出定位特征，其中，视频编码器的参数由第一损失函数和第二损失函数调整。

可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：使用文本编码器中文本特征提取层从文本中提取出单词特征；使用文本编码器中全连接层将单词特征映射为目标维的单词特征；使用文本编码器中特征编码层对目标维的单词特征进行编码，得到文本特征。

可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：使用视频编码器中时间特征提取层从视频中提取出原始显示时间特征，且使用视频编码器中的位置特征提取层从视频中提取出原始显示位置特征；使用视频编码器中全连接层将原始显示时间特征映射为目标维的原始显示时间特征，且将原始显示位置特征映射为目标维的原始显示位置特征；使用视频编码器中特征编码层对目标维的原始显示时间特征和目标维的原始显示位置特征进行编码，得到显示时间特征，且使用视频编码器中的图神经网络对目标维的原始显示时间特征和目标维的原始显示位置特征进行编码，得到显示位置特征。

可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：在视频定位模型的初始视频定位模型中，基于视频定位任务样本从视频检索任务样本中提取出定位特征样本，且从文本样本中提取出文本特征样本；基于定位特征样本和文本特征样本，建立视频检索任务样本对应的第一损失函数和视频定位任务样本对应的第二损失函数；基于第一损失函数和第二损失函数对初始视频定位模型的参数进行调整，得到视频定位模型。

可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：基于显示时间特征样本、显示位置特征样本和文本特征样本，确定视频检索任务样本和文本样本之间的第一匹配度；基于第一匹配度建立第一损失函数。

可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：基于显示时间特征样本、显示位置特征样本和文本特征样本，确定视频检索任务样本中视频帧为与文本样本相匹配的结束帧的概率和开始帧的概率；基于结束帧的概率和开始帧的概率，建立时间定位任务样本对应的第二损失函数。

可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：基于显示位置特征样本和文本特征样本，确定文本特征样本所描述的对象与视频检索任务样本中视频帧的显著性区域之间的第二匹配度；基于第二匹配度建立位置定位任务样本对应的第二损失函数。

作为一种可选的示例，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取视频检索任务样本和至少两种视频定位任务样本；对视频检索任务样本和视频定位任务样本执行共同监督学习，训练得到视频定位模型，其中，视频定位模型用于对待执行时空定位的视频执行视频检索任务，以检索出与文本相匹配的目标视频片段，且确定需要定位的对象在目标视频片段中出现的定位信息，视频包括至少一个视频片段，文本用于描述在视频中执行视频定位任务需要定位的对象，定位信息至少包括：在目标视频片段中的显示时间段和显示位置。

可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：使用视频定位模型的初始视频定位模型，基于视频定位任务样本从视频检索任务样本中提取出定位特征样本，且从文本样本中提取出文本特征样本；基于定位特征样本和文本特征样本，建立视频检索任务样本对应的第一损失函数和视频定位任务样本对应的第二损失函数；对视频检索任务样本和视频定位任务样本执行共同监督学习，训练得到视频定位模型，包括：基于第一损失函数和第二损失函数对初始视频定位模型的参数进行调整，得到视频定位模型。

可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：基于第一损失函数和第二损失函数，对文本编码器的参数和视频编码器的参数进行调整，得到视频定位模型。

可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：基于第一损失函数和第二损失函数，对文本编码器中文本特征提取层、全连接层和特征编码层的参数进行调整，且对视频编码器中时间特征提取层、位置特征提取层、全连接层和特征编码层的参数进行调整，得到视频定位模型。

作为一种可选的示例，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取待执行时空定位的视频素材库，并调取在视频素材库中确定定位信息时使用的文本，其中，视频素材库来自视频平台，且包括至少一个短视频素材，文本用于描述待在视频中执行视频定位任务中需要定位的对象；使用视频定位模型对视频素材库执行视频检索任务，检索出与文本相匹配的目标短视频素材，其中，视频定位模型为基于视频检索任务样本和至少两种视频定位任务样本执行共同监督学习而训练得到的模型；使用视频定位模型确定需要定位的对象在目标短视频素材中出现的定位信息，其中，定位信息至少包括：在目标短视频素材中的显示时间段和显示位置；基于目标短视频素材和定位信息生成成片视频；将成片视频返回至视频平台。

作为一种可选的示例，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：通过调用第一接口获取待执行时空定位的视频，并调取在视频中确定定位信息时使用的文本，其中，视频包括至少一个视频片段，文本用于描述在视频中执行视频定位任务需要定位的对象，第一接口包括第一参数，第一参数的值为视频和文本；调用视频定位模型，其中，视频定位模型为基于视频检索任务样本和至少两种视频定位任务样本执行共同监督学习而训练得到的模型；使用视频定位模型对视频执行视频检索任务，检索出与文本相匹配的目标视频片段；使用视频定位模型确定需要定位的对象在目标视频片段中出现的定位信息，其中，定位信息至少包括：在目标视频片段中的显示时间段和显示位置；通过调用第二接口输出目标视频片段和定位信息，其中，第二接口包括第二参数，第二参数的值为目标视频片段和定位信息。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种视频的时空定位方法，其特征在于，包括：

获取待执行时空定位的视频，并调取在所述视频中确定定位信息时使用的文本，其中，所述视频包括至少一个视频片段，所述文本用于描述在所述视频中执行视频定位任务需要定位的对象；

调用视频定位模型，其中，所述视频定位模型为基于视频检索任务样本和至少两种视频定位任务样本执行共同监督学习而训练得到的模型；

使用所述视频定位模型对所述视频执行视频检索任务，检索出与所述文本相匹配的目标视频片段；

使用所述视频定位模型确定需要定位的对象在所述目标视频片段中出现的定位信息，其中，所述定位信息至少包括：在所述目标视频片段中的显示时间段和显示位置；

其中，在所述视频定位模型的初始视频定位模型中，基于所述视频定位任务样本从所述视频检索任务样本中提取出定位特征样本，且从文本样本中提取出文本特征样本；基于所述定位特征样本和所述文本特征样本，建立所述视频检索任务样本对应的第一损失函数和所述视频定位任务样本对应的第二损失函数；基于所述第一损失函数和所述第二损失函数对所述初始视频定位模型的参数进行调整，得到所述视频定位模型。

2.根据权利要求1所述的方法，其特征在于，使用所述视频定位模型对视频执行所述视频检索任务，检索出与所述文本相匹配的目标视频片段，包括：

使用所述视频定位模型从所述文本中提取出文本特征，且从所述视频片段中提取出定位特征，其中，所述定位特征至少包括：所述对象在所述视频片段中的显示时间特征和显示位置特征；

基于所述文本特征和所述定位特征确定所述视频片段为所述目标视频片段。

3.根据权利要求2所述的方法，其特征在于，使用所述视频定位模型确定需要定位的对象在所述目标视频片段中出现的定位信息，包括：

基于所述视频定位模型输出的所述文本特征和所述定位特征，确定所述对象在所述目标视频片段中出现的所述定位信息。

4.根据权利要求2所述的方法，其特征在于，使用所述视频定位模型从所述文本中提取出文本特征，且从所述视频片段中提取出定位特征，包括：

使用所述视频定位模型的文本编码器从所述文本中提取出所述文本特征，其中，所述文本编码器的参数由所述视频检索任务样本对应的第一损失函数和所述视频定位任务样本对应的第二损失函数调整；

使用所述视频定位模型的视频编码器从所述视频片段中提取出所述定位特征，其中，所述视频编码器的参数由所述第一损失函数和所述第二损失函数调整。

5.根据权利要求4所述的方法，其特征在于，使用所述视频定位模型的文本编码器从所述文本中提取出所述文本特征，包括：

使用所述文本编码器中文本特征提取层从所述文本中提取出单词特征；

使用所述文本编码器中全连接层将所述单词特征映射为目标维的单词特征；

使用所述文本编码器中特征编码层对所述目标维的单词特征进行编码，得到所述文本特征。

6.根据权利要求4所述的方法，其特征在于，使用所述视频定位模型的视频编码器从所述视频片段中提取出所述定位特征，包括：

使用所述视频编码器中时间特征提取层从所述视频中提取出原始显示时间特征，且使用所述视频编码器中的位置特征提取层从所述视频中提取出原始显示位置特征；

使用所述视频编码器中全连接层将所述原始显示时间特征映射为目标维的原始显示时间特征，且将所述原始显示位置特征映射为目标维的原始显示位置特征；

使用所述视频编码器中特征编码层对所述目标维的原始显示时间特征和所述目标维的原始显示位置特征进行编码，得到所述显示时间特征，且使用所述视频编码器中的图神经网络对所述目标维的原始显示时间特征和所述目标维的原始显示位置特征进行编码，得到所述显示位置特征。

7.根据权利要求1所述的方法，其特征在于，所述定位特征样本包括显示时间特征样本和显示位置特征样本，基于所述定位特征样本和所述文本特征样本，建立所述视频检索任务样本对应的第一损失函数，包括：

基于所述显示时间特征样本、所述显示位置特征样本和所述文本特征样本，确定所述视频检索任务样本和所述文本样本之间的第一匹配度；

基于所述第一匹配度建立所述第一损失函数。

8.根据权利要求1所述的方法，其特征在于，所述定位特征样本包括显示时间特征样本和显示位置特征样本，所述至少两种视频定位任务样本包括时间定位任务样本，其中，基于所述定位特征样本和所述文本特征样本，建立所述视频定位任务样本对应的第二损失函数，包括：

基于所述显示时间特征样本、所述显示位置特征样本和所述文本特征样本，确定所述视频检索任务样本中视频帧为与所述文本样本相匹配的结束帧的概率和开始帧的概率；

基于所述结束帧的概率和所述开始帧的概率，建立所述时间定位任务样本对应的所述第二损失函数。

9.根据权利要求1所述的方法，其特征在于，所述定位特征样本包括显示位置特征样本，所述至少两种视频定位任务样本包括位置定位任务样本，其中，至少基于所述定位特征样本和所述文本特征样本，建立所述视频定位任务样本对应的第二损失函数，包括：

基于所述显示位置特征样本和所述文本特征样本，确定所述文本特征样本所描述的对象与所述视频检索任务样本中视频帧的显著性区域之间的第二匹配度；

基于所述第二匹配度建立所述位置定位任务样本对应的所述第二损失函数。

10.根据权利要求1所述的方法，其特征在于，所述视频检索任务样本对应的第一损失函数、所述至少两种视频定位任务样本中时间定位任务样本对应的第二损失函数、所述至少两种视频定位任务样本中位置定位任务样本对应的第二损失函数，这三者之间的加权和小于阈值。

11.一种模型的生成方法，其特征在于，包括：

获取视频检索任务样本和至少两种视频定位任务样本；

对所述视频检索任务样本和所述视频定位任务样本执行共同监督学习，训练得到视频定位模型，其中，所述视频定位模型用于对待执行时空定位的视频执行视频检索任务，以检索出与文本相匹配的目标视频片段，且确定需要定位的对象在所述目标视频片段中出现的定位信息，所述视频包括至少一个视频片段，所述文本用于描述在所述视频中执行所述视频定位任务需要定位的所述对象，所述定位信息至少包括：在所述目标视频片段中的显示时间段和显示位置；

12.根据权利要求11所述的方法，其特征在于，所述初始视频定位模型包括文本编码器和视频编码器，所述文本编码器用于从所述文本中提取出所述文本特征，所述视频编码器用于从所述视频片段中提取出定位特征，所述文本特征和所述定位特征用于确定所述视频片段为所述目标视频片段，且确定所述对象在所述目标视频片段中出现的所述定位信息，其中，基于所述第一损失函数和所述第二损失函数对所述初始视频定位模型的参数进行调整，得到所述视频定位模型，包括：

基于所述第一损失函数和所述第二损失函数，对所述文本编码器的参数和所述视频编码器的参数进行调整，得到所述视频定位模型。

13.根据权利要求12所述的方法，其特征在于，基于所述第一损失函数和所述第二损失函数，对所述文本编码器的参数和所述视频编码器的参数进行调整，得到所述视频定位模型，包括：

基于所述第一损失函数和所述第二损失函数，对所述文本编码器中文本特征提取层、全连接层和特征编码层的参数进行调整，且对所述视频编码器中时间特征提取层、位置特征提取层、全连接层和特征编码层的参数进行调整，得到所述视频定位模型。

14.一种视频的时空定位方法，其特征在于，包括：

获取待执行时空定位的视频素材库，并调取在所述视频素材库中确定定位信息时使用的文本，其中，所述视频素材库来自视频平台，且包括至少一个短视频素材，所述文本用于描述待在所述视频中执行视频定位任务中需要定位的对象；

使用视频定位模型对所述视频素材库执行视频检索任务，检索出与所述文本相匹配的目标短视频素材，其中，所述视频定位模型为基于视频检索任务样本和至少两种视频定位任务样本执行共同监督学习而训练得到的模型；

使用所述视频定位模型确定需要定位的对象在所述目标短视频素材中出现的定位信息，其中，所述定位信息至少包括：在所述目标短视频素材中的显示时间段和显示位置；

基于所述目标短视频素材和所述定位信息生成成片视频；

将所述成片视频返回至所述视频平台；

15.根据权利要求14所述的方法，其特征在于，使用视频定位模型对所述视频素材库执行视频检索任务，检索出与所述文本相匹配的目标短视频素材，包括：

使用所述视频定位模型从所述文本中提取出文本特征，且从所述短视频素材中提取出定位特征，其中，所述定位特征至少包括：所述对象在所述短视频素材中的显示时间特征和显示位置特征；

基于所述文本特征和所述定位特征确定所述短视频素材为所述目标短视频素材。

16.根据权利要求15所述的方法，其特征在于，使用所述视频定位模型确定需要定位的对象在所述目标短视频素材中出现的定位信息，包括：

基于所述视频定位模型输出的所述文本特征和所述定位特征，确定所述对象在所述目标短视频素材中出现的所述定位信息。

17.一种视频的时空定位方法，其特征在于，包括：

通过调用第一接口获取待执行时空定位的视频，并调取在所述视频中确定定位信息时使用的文本，其中，所述视频包括至少一个视频片段，所述文本用于描述在所述视频中执行视频定位任务需要定位的对象，所述第一接口包括第一参数，所述第一参数的值为所述视频和所述文本；

通过调用第二接口输出所述目标视频片段和所述定位信息，其中，所述第二接口包括第二参数，所述第二参数的值为所述目标视频片段和所述定位信息；

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序被处理器运行时控制所述计算机可读存储介质所在设备执行权利要求1至17中任意一项所述的方法。