CN114245206B

CN114245206B - 视频处理方法及装置

Info

Publication number: CN114245206B
Application number: CN202210165405.5A
Authority: CN
Inventors: 蒋建文; 唐铭谦
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-07-15
Anticipated expiration: 2042-02-23
Also published as: CN114245206A

Abstract

本说明书实施例提供视频处理方法及装置，所述方法包括确定待处理视频中目标视频帧的初始视频特征、目标视频帧中目标对象的第一初始对象特征、以及其他对象的第二初始对象特征；根据特征融合模型对初始视频特征、第一初始对象特征、以及第二初始对象特征进行处理，获得目标视频帧中目标对象的第一目标对象特征；将第一目标对象特征输入视频分类模型，获得目标视频帧中目标对象对应的视频标签。所述方法可以应用于体育解说场景中，根据特征融合模型从多实体特征表示的技术角度出发，通过视频特征、对象特征、对象特征的相互优化处理后，对目标对象（即运动员行为）进行标签预测，获得较为准确的标签预测结果，增强用户体验。

Description

视频处理方法及装置

技术领域

本说明书实施例涉及视频处理技术领域，特别涉及多种视频处理方法。

背景技术

随着视频多媒体数据的广泛传播，越来越多的专业化、娱乐化视频内容在互联网流传，视频（如体育、传媒、演艺等视频）中包括大量的、与人相关的行为。现阶段市场上存在的通用人工智能推理能力模型，其可以对视频数据提供标签推理。但是具体的标签推理结果只能来源于视频检测器的结果、用户检测器的结果、或者物体检测器的结果；因此单一的结果预测使得具体的标签推理结果十分不准确。

发明内容

有鉴于此，本说明书实施例提供了多种视频处理方法。本说明书一个或者多个实施例同时涉及多种视频处理装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种视频处理方法，包括：

确定待处理视频中目标视频帧的初始视频特征、所述目标视频帧中目标对象的第一初始对象特征、以及其他对象的第二初始对象特征，其中，所述其他对象为所述目标视频帧中除所述目标对象之外的所有对象；

根据特征融合模型对所述初始视频特征、所述第一初始对象特征、以及所述第二初始对象特征进行处理，获得所述目标视频帧中所述目标对象的第一目标对象特征；

将所述第一目标对象特征输入视频分类模型，获得所述目标视频帧中所述目标对象对应的视频标签。

根据本说明书实施例的第二方面，提供了一种视频处理装置，包括：

特征确定模块，被配置为确定待处理视频中目标视频帧的初始视频特征、所述目标视频帧中目标对象的第一初始对象特征、以及其他对象的第二初始对象特征，其中，所述其他对象为所述目标视频帧中除所述目标对象之外的所有对象；

目标对象特征获得模块，被配置为根据特征融合模型对所述初始视频特征、所述第一初始对象特征、以及所述第二初始对象特征进行处理，获得所述目标视频帧中所述目标对象的第一目标对象特征；

标签获得模块，被配置为将所述第一目标对象特征输入视频分类模型，获得所述目标视频帧中所述目标对象对应的视频标签。

根据本说明书实施例的第三方面，提供了一种视频处理方法，包括：

基于用户的调用请求为所述用户展示视频输入界面；

接收所述用户通过所述视频输入界面输入的待处理视频；

确定所述待处理视频中目标视频帧的初始视频特征、所述目标视频帧中目标对象的第一初始对象特征、以及其他对象的第二初始对象特征，其中，所述其他对象为所述目标视频帧中除所述目标对象之外的所有对象；

根据本说明书实施例的第四方面，提供了一种视频处理装置，包括：

界面展示模块，被配置为基于用户的调用请求为所述用户展示视频输入界面；

视频接收模块，被配置为接收所述用户通过所述视频输入界面输入的待处理视频；

第一特征确定模块，被配置为确定所述待处理视频中目标视频帧的初始视频特征、所述目标视频帧中目标对象的第一初始对象特征、以及其他对象的第二初始对象特征，其中，所述其他对象为所述目标视频帧中除所述目标对象之外的所有对象；

第二特征确定模块，被配置为根据特征融合模型对所述初始视频特征、所述第一初始对象特征、以及所述第二初始对象特征进行处理，获得所述目标视频帧中所述目标对象的第一目标对象特征；

第一标签获得模块，被配置为将所述第一目标对象特征输入视频分类模型，获得所述目标视频帧中所述目标对象对应的视频标签。

根据本说明书实施例的第五方面，提供了一种视频处理方法，包括：

接收所述用户发送的调用请求，其中，所述调用请求中携带有待处理视频；

根据本说明书实施例的第六方面，提供了一种视频处理装置，包括：

请求接收模块，被配置为接收所述用户发送的调用请求，其中，所述调用请求中携带有待处理视频；

第三特征确定模块，被配置为确定所述待处理视频中目标视频帧的初始视频特征、所述目标视频帧中目标对象的第一初始对象特征、以及其他对象的第二初始对象特征，其中，所述其他对象为所述目标视频帧中除所述目标对象之外的所有对象；

第四特征确定模块，被配置为根据特征融合模型对所述初始视频特征、所述第一初始对象特征、以及所述第二初始对象特征进行处理，获得所述目标视频帧中所述目标对象的第一目标对象特征；

第二标签获得模块，被配置为将所述第一目标对象特征输入视频分类模型，获得所述目标视频帧中所述目标对象对应的视频标签。

根据本说明书实施例的第七方面，提供了一种视频处理方法，包括：

获取用户通过视频输入界面输入的体育视频、或者所述用户发送的方法调用请求中携带的体育视频；

将所述体育视频输入特征融合模型；

根据所述特征融合模型对所述体育视频中目标视频帧的初始视频特征、所述目标视频帧中运动员的第一初始对象特征、以及其他对象的第二初始对象特征进行处理，获得所述目标视频帧中所述运动员的第一目标对象特征，其中，所述其他对象为所述目标视频帧中除所述运动员之外的所有对象；

将所述第一目标对象特征输入视频分类模型，获得所述目标视频帧中运动员对应的视频标签；

根据所述视频标签生成、针对所述目标视频帧中运动员的运动行为解说。

根据本说明书实施例的第八方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述视频处理方法的步骤。

根据本说明书实施例的第九方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述视频处理方法的步骤。

根据本说明书实施例的第十方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述视频处理方法的步骤。

根据本说明书实施例的第十一方面，提供了一种增强现实AR设备，包括：

存储器和处理器；

根据本说明书实施例的第十二方面，提供了一种虚拟现实VR设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时上述视频处理方法的步骤。

本说明书一个实施例实现了多种视频处理方法及装置，其中，其中一种方法包括确定待处理视频中目标视频帧的初始视频特征、所述目标视频帧中目标对象的第一初始对象特征、以及其他对象的第二初始对象特征，其中，所述其他对象为所述目标视频帧中除所述目标对象之外的所有对象；根据特征融合模型对所述初始视频特征、所述第一初始对象特征、以及所述第二初始对象特征进行处理，获得所述目标视频帧中所述目标对象的第一目标对象特征；将所述第一目标对象特征输入视频分类模型，获得所述目标视频帧中所述目标对象对应的视频标签。所述视频处理方法根据特征融合模型从多实体特征表示的技术角度出发，通过视频特征、目标对象的对象特征、以及其他对象的对象特征的相互优化处理后，对目标对象进行标签预测，获得较为准确的标签预测结果，增强用户体验。

附图说明

图1是本说明书一个实施例提供的一种视频处理方法的具体应用场景的示例图；

图2是本说明书一个实施例提供的一种视频处理方法的流程图；

图3是本说明书一个实施例提供的一种视频处理方法中待展示文本的示意图；

图4是本说明书一个实施例提供的一种视频处理方法的处理过程过程图；

图5是本说明书一个实施例提供的一种视频处理装置的结构示意图；

图6是本说明书一个实施例提供的另一种视频处理方法的流程图；

图7是本说明书一个实施例提供的再一种视频处理方法的流程图；

图8是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

多实体：视频中包含的人、事、物、场景、标识等实体。

关系建模：实体之间存在特定的关系，对此进行关系构建。

体育解说：通过可视化、语音播报的形式将标签结果进行外化展示。

在本说明书中，提供了一种视频处理方法，本说明书同时涉及一种视频处理装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了本说明书一个实施例提供的一种视频处理方法的具体应用场景的示例图。

图1的应用场景中包括终端102和服务器104。

具体的，以对某段体育视频进行视频处理，获得该体育视频中运动员的行为标签为例，用户通过终端102将该体育视频发送给服务器104。

服务器104接收到该体育视频之后，对该体育视频进行解析，以提取该体育视频中的关键视频帧；再通过视频特征提取模型获得每个关键视频帧的视频特征，同时通过对象特征提取模型获得每个关键视频帧中用户（如运动员）的用户特征、以及除用户之外的其他物体的物体特征。

实际应用中，对于该体育视频中关键视频帧的提取、每个关键视频帧的视频特征、用户特征以及物体特征的提取也可以在终端102完成，本说明书实施例不作任何限定。

在确定每个关键视频帧的视频特征、每个关键视频帧中用户的用户特征、以及其他物体的物体特征之后，将每个关键视频帧的视频特征、每个关键视频帧中用户的用户特征、以及其他物体的物体特征输入预先训练好的特征融合模型中进行特征优化。

具体的，特征融合模型的处理流程包括：通过每个关键视频帧的视频特征和该关键视频帧中用户的用户特征、其他物体的物体特征做点积计算，获得每个关键视频帧的视频特征的特征响应图；同理，通过每个关键视频帧中用户的用户特征和该关键视频帧中其他物体的物体特征、该关键视频帧的视频特征做点积计算，获得每个关键视频帧中用户的用户特征的特征响应图；以及通过每个关键视频帧中其他物体的物体特征和该关键视频帧中用户的用户特征、该关键视频帧的视频特征做点积计算，获得每个关键视频帧中其他物体的物体特征的特征响应图；其中，特征响应图表示特征之间的权重，例如视频特征与用户特征、物体特征之间的权重、用户特征与视频特征、物体特征之间的权重、或者物体特征与视频特征、用户特征之间的权重。

然后，以视频特征为中心，根据用户特征的特征响应图，计算用户特征的权重，根据物体特征的特征响应图，计算物体的权重；再根据视频特征的特征响应图结合用户特征的权重以及物体特征的权重，更新视频特征的特征响应图，从而实现视频特征的优化。同理，分别以用户特征以及物体特征为中心，对用户特征以及物体特征进行优化，获得优化后的视频特征、用户特征以及物体特征。

同时，会将优化后的视频特征、用户特征以及物体特征均存储至记忆单元，在下一个关键视频帧进行特征优化时，会将存储至记忆单元的优化后的视频特征、用户特征以及物体特征获取，与当前关键视频帧优化后的视频特征、用户特征以及物体特征按照上述方式进行融合优化，获得当前关键视频帧最终优化后的视频特征、用户特征以及物体特征。

最后，获取每个关键视频帧优化后的用户特征，并将其输入标签分类器，获得每个关键视频帧中用户的行为、名称、行为发生时间等。

本说明书实施例提供的视频处理方法，通过将每个关键视频帧的视频特征、用户特征以及物体特征在特征融合模型中进行联合优化，从而获得优化后的用户特征，后续在进行用户标签预测时，可以使得标签预测更加准确、丰富；例如不仅可以确定用户的行为，还可以确定用户的行为的发生时间等；并且基于特征记忆单元的技术使本说明书实施例提供的视频处理方法可以对视频进行长时间建模，完成长视频的识别系统构建。

参见图2，图2示出了根据本说明书一个实施例提供的一种视频处理方法的流程图，具体包括以下步骤。

步骤202：确定待处理视频中目标视频帧的初始视频特征、所述目标视频帧中目标对象的第一初始对象特征、以及其他对象的第二初始对象特征，其中，所述其他对象为所述目标视频帧中除所述目标对象之外的所有对象。

具体的，本说明书实施例提供的数据处理方法可以应用于体育视频解说场景中，也可以应用于其他可实现场景中。

其中，待处理视频可以理解为任意时长、任意格式、任意行业的视频；例如播放时长为2个小时、avi格式的体育视频、播放时长为1个小时、avi格式的传媒视频等。

目标视频帧可以理解为待处理视频中的关键视频帧；具体实施例，待处理视频的类型不同，其对关键视频帧的定义也不同；例如，若待处理视频为体育视频，则该待处理视频中的目标视频帧可以理解为体育视频中运动员作出运动行为（例如扣篮、跳水等运动行为）的视频帧。

目标视频帧中的目标对象可以理解为用户（如运动员、裁判等），其他对象则可以理解为除目标对象之外的所有对象，例如运动场地、运动器械、水杯、饮料、电视台标志等等。

具体的，确定待处理视频中目标视频帧的初始视频特征、目标视频帧中目标对象的第一初始对象特征、以及其他对象的第二初始对象特征之前，需要获取待处理视频，并对该待处理视频进行解析，以根据待处理视频的具体属性信息（例如类型、时长等）合理的确定出其目标视频帧。具体实现方式如下所述：

所述确定待处理视频中目标视频帧的初始视频特征、所述目标视频帧中目标对象的初始对象特征、以及其他对象的初始对象特征，包括：

获取待处理视频，并对所述待处理视频进行解析，获取所述待处理视频的目标视频帧；

根据视频特征提取模型确定所述目标视频帧的视频特征；以及

根据对象特征提取模型确定所述目标视频帧中目标对象的第一初始对象特征、以及其他对象的第二初始对象特征。

其中，视频特征提取模型可以理解为，实现对每个目标视频帧的视频特征进行提取的模型；对象特征提取模型可以理解为，实现对每个目标视频帧中的目标对象以及其他对象进行对象特征提取的模型。

具体的，获取待处理视频，再对该待处理视频进行解析，例如解析获得该待处理视频的类型、播放时长等；再根据解析结果获取该待处理视频的目标视频帧。

仍以待处理视频为体育视频为例，获取待处理视频，并对所述待处理视频进行解析，获取所述待处理视频的目标视频帧；可以理解为，获取待处理的体育视频，并对该体育视频进行解析，获得该体育视频的目标视频帧。例如将该体育视频中所有体现运动员的运动行为的视频帧作为目标视频帧，并且可以根据该体育视频的播放时长确定目标视频帧的数量，如当该体育视频的播放时长为1小时的情况下，可以选择100个视频帧作为目标视频帧等。具体的目标视频帧的确定可以根据待处理视频的解析结果，结合实际应用需求进行具体设定，本说明书实施例对此不作任何限定。

而在确定目标视频帧之后，即可通过视频特征提取模型快速获得每个目标视频帧的视频特征，以及通过对象特征提取模型快速获得每个目标视频帧中目标对象的第一初始对象特征、以及其他对象的第二初始对象特征。

实际应用中，为了准确的获得每个目标视频帧的视频特征，会预先分析确定待处理视频对应的视频场景，再根据该视频场景为其选择合适的视频特征提取模型，从而提高每个目标视频帧的视频特征提取效率和准确性。具体实现方式如下所述：

所述根据视频特征提取模型确定所述目标视频帧的视频特征，包括：

对所述待处理视频进行视频分析，确定所述待处理视频对应的视频场景；

根据所述视频场景确定视频特征提取模型，并根据所述视频特征提取模型确定所述目标视频帧的视频特征。

其中，视频场景可以理解为待处理视频的播放场景，例如体育场景、演唱会场景等。

具体的，视频场景不同，每个目标视频帧中的视频特征的表征也不同，因此，为了保证每个目标视频帧中视频特征的准确性，可以结合视频场景，选择与该视频场景匹配的视频特征提取模型实现对每个目标视频帧中视频特征的提取。

具体的，对待处理视频进行视频分析，以确定该待处理视频对应的视频场景；例如体育场景、演艺场景、演唱会场景等；再根据该视频场景，确定与该视频场景匹配的视频特征提取模型，最后通过与该视频场景对应的视频特征提取模型准确的获得待处理视频中每个目标视频帧的视频特征。

此外，目标视频帧中包括目标对象和其他对象，那么为了保证对象特征的提取准确性，可以根据目标对象以及其他对象的对象属性选择匹配的对象特征提取模型，实现目标对象以及其他对象的对象特征的提取。具体实现方式如下所述：

所述根据对象特征提取模型确定所述目标视频帧中目标对象的第一初始对象特征、以及其他对象的第二初始对象特征，包括：

对所述目标视频帧进行对象分析，确定所述目标视频帧中的目标对象以及其他对象；

根据所述目标对象以及所述其他对象的对象属性确定对象特征提取模型；

根据所述对象特征提取模型确定所述目标视频帧中目标对象的第一初始对象特征、以及其他对象的第二初始对象特征。

其中，对象属性包括但不限于对象的对象类型、几何空间位置信息等，例如目标对象为用户类型，其他对象为物体类型。

具体实施时，首先对目标视频帧进行对象分析，以确定出该目标视频帧中包含的目标对象以及其他对象；再根据该目标对象以及其他对象的对象属性确定其对应的对象特征提取模型；最后根据与该目标对象以及其他对象的对象属性的对象特征提取模型，实现该目标对象以及其他对象的初始对象特征的快速且准确的提取。

实际应用中，由于目标对象与其他对象的对象类型不同，因此，对目标对象以及其他对象进行初始对象特征提取时，可以预先根据目标对象的对象类型，确定与目标对象匹配的对象特征提取模型；以及预先根据其他对象的对象类型，确定与其他对象匹配的对象特征提取模型，以进一步的增加对目标对象以及其他对象进行初始对象特征提取的准确性。具体实现方式如下所述：

所述根据所述目标对象以及所述其他对象的对象属性确定对象特征提取模型，包括：

根据所述目标对象的对象属性确定目标对象特征提取模型；以及

根据所述其他对象的对象属性确定其他对象特征提取模型。

实际应用中，不仅仅可以根据目标对象以及其他对象的对象类型，确定其各自对应的对象特征提取模型；也可以根据目标对象以及其他对象的几何空间位置信息，确定其各自对应的对象特征提取模型。具体实现方式如下所述：

在根据所述目标对象的对象属性确定所述目标对象存在几何空间位置信息的情况下，确定与所述目标对象对应的目标对象特征提取模型；

在根据所述其他对象的对象属性确定所述其他对象存在几何空间位置信息的情况下，确定与所述其他对象对应的所述目标对象特征提取模型；

在根据所述其他对象的对象属性确定所述其他对象不存在几何空间位置信息的情况下，确定与所述其他对象对应的其他对象特征提取模型。

仍以目标对象为用户、其他对象为除用户之外的所有物体为例，用户包含几何空间位置信息，因此可以采用RoI Align（区域特征提取模型）对其进行初始对象特征提取；而其他对象中存在包含几何空间位置信息的对象（例如水杯、体育器械等），也存在不包含几何空间位置信息的对象（例如电视台标志、海报等平面物体）。

那么，对于包含几何空间位置信息的目标对象以及其他对象，则可以采用一种对象特征提取模型，如目标对象特征提取模型（RoI Align模型等）；对于不包含几何空间位置信息的其他对象，则可以采用另外一种对象特征提取模型，如其他对象特征提取模型（BERT模型等），即对于不包含几何空间位置信息的其他对象，可以通过BERT等语言模型对其进行词向量转化，再通过多层感知机映射获得d维的初始对象特征。

具体实施时，在确定目标对象对应的目标对象特征提取模型以及其他对象对应的其他对象特征提取模型之后，则可以根据目标对象特征提取模型以及其他对象特征提取模型，进一步准确的获取目标对象的第一初始对象特征、以及其他对象的第二初始对象特征。具体实现方式如下所述：

所述根据所述对象特征提取模型确定所述目标视频帧中目标对象的第一初始对象特征、以及其他对象的第二初始对象特征，包括：

根据所述目标对象特征提取模型确定所述目标视频帧中目标对象的第一初始对象特征；

根据所述其他对象特征提取模型确定所述目标视频帧中其他对象的第二初始对象特征。

步骤204：根据特征融合模型对所述初始视频特征、所述第一初始对象特征、以及所述第二初始对象特征进行处理，获得所述目标视频帧中所述目标对象的第一目标对象特征。

其中，特征融合模型为预先训练的特征融合模型，其具体的训练步骤可以根据历史的目标视频帧的视频特征、历史的目标视频帧中目标对象的第一初始对象特征、其他对象的第二初始对象特征等进行训练获得；且具体的训练步骤与实际应用中的处理步骤相同，区别仅在于训练时需要根据损失函数对模型参数进行调整，而实际应用中仅需要根据该特征融合模型进行目标对象的第一目标对象特征的优化。

具体实施时，由于每个视频帧中获取的第一初始对象特征、第二初始对象特征均为空间特征，而每个视频帧的视频特征包含有时间特征，因此为了保证第一初始对象特征以及第二初始对象特征的空间特征、与其对应的视频帧的视频特征中的时间特征对应，后续通过第一初始对象特征或者第二初始对象特征进行标签预测时，不仅可以获得目标对象或者其他对象的行为动作、具体对象内容之外，还可以确定每个标签对应的展示时间戳；会根据每个视频帧的视频特征对第一初始对象特征以及第二初始对象特征进行时间空间特征融合。具体实现方式如下所述：

所述根据特征融合模型对所述初始视频特征、所述第一初始对象特征、以及所述第二初始对象特征进行处理，获得所述目标视频帧中所述目标对象的第一目标对象特征之前，还包括：

根据所述初始视频特征对所述第一初始对象特征以及所述第二初始对象特征进行特征融合，获得特征融合后的第一初始对象特征以及第二初始对象特征。

实际应用中，根据所述初始视频特征对所述第一初始对象特征以及所述第二初始对象特征进行特征融合，获得特征融合后的第一初始对象特征以及第二初始对象特征；可以理解为根据每个视频帧的初始视频特征中的时间特征，对其视频帧中目标对象的第一初始对象特征进行融合、以及其他对象的第二初始对象特征进行融合，使得该视频帧中目标对象的第一初始对象特征中即可以包含空间特征，又包含时间特征；以及其他目标对象的第二初始对象特征中即可以包含空间特征，又包含时间特征。

具体的，所述根据特征融合模型对所述初始视频特征、所述第一初始对象特征、以及所述第二初始对象特征进行处理，获得所述目标视频帧中所述目标对象的第一目标对象特征，包括：

对所述初始视频特征、所述第一初始对象特征、以及所述第二初始对象特征进行点积处理，获得所述初始视频特征的特征响应图、所述第一初始对象特征的特征响应图、以及所述第二初始对象特征的特征响应图，其中，所述特征响应图表示特征之间的权重；

根据所述初始视频特征的特征响应图、所述第一初始对象特征的特征响应图、以及所述第二初始对象特征的特征响应图进行加权求和，获得所述目标视频帧中所述目标对象的第一目标对象特征。

其中，该第一初始对象特征、第二初始对象特征可以理解为上述进行特征融合后的第一初始对象特征、第二初始对象特征。

此外，特征响应图表示特征与特征之间的权重，例如初始视频特征与第一初始对象特征、第二初始对象特征之间的权重、第一初始对象特征与初始视频特征、第二初始对象特征之间的权重、第二初始对象特征与初始视频特征、第一初始对象特征之间的权重等。

实际应用中，分别对初始视频特征、第一初始对象特征、以及第二初始对象特征进行点积运算，获得初始视频特征的特征响应图、第一初始对象特征的特征响应图、以及第二初始对象特征的特征响应图。

再根据初始视频特征的特征响应图、第一初始对象特征的特征响应图、以及第二初始对象特征的特征响应图中特征与特征之间的权重，分别进行加权求和，从而获得目标视频帧中所述目标对象的第一目标对象特征。

具体实施时，为了实现多实体特征之间的融合，对初始视频特征、第一初始对象特征、第二初始对象特征进行优化，会以每个特征为中心，通过其他特征的特征响应图对其进行优化更新。具体实现方式如下所述：

所述根据所述初始视频特征的特征响应图、所述第一初始对象特征的特征响应图、以及所述第二初始对象特征的特征响应图进行加权求和，获得所述目标视频帧中所述目标对象的第一目标对象特征，包括：

依次选取所述初始视频特征、所述第一初始对象特征、以及所述第二初始对象特征中的一个特征为初始中心特征；

根据除所述初始中心特征之外的其他特征的特征响应图，确定所述其他特征的权重；

根据所述初始中心特征的特征响应图以及所述其他特征的权重，对所述初始中心特征进行更新，获得目标中心特征；

从所述目标中心特征中确定所述目标视频帧中所述目标对象的第一目标对象特征，

其中，所述目标中心特征包括所述初始视频特征对应的目标视频特征、所述第一初始对象特征对应的第一目标对象特征、以及所述第二初始对象特征对应的第二目标对象特征。

以选取的初始中心特征为初始视频特征为例，确定第一初始对象特征的特征响应图、以及第二初始对象特征的特征响应图；根据第一初始对象特征的特征响应图，计算第一初始对象特征的权重、以及第二初始对象特征的特征响应图，计算第二初始对象特征的权重；根据初始视频特征的特征响应图、第一初始对象特征的权重、第二初始对象特征的权重，对初始视频特征进行更新，获得目标视频特征；同理，通过上述方式获得第一目标对象特征、第二目标对象特征。

本说明书实施例中，通过初始视频特征的特征响应图、第一初始对象特征的特征响应图、第二初始对象特征的特征响应图，对初始视频特征、第一初始对象特征、第二初始对象特征进行联合优化，获得较为丰富、完整的目标视频特征、第一目标对象特征以及第二目标对象特征，后续可以根据该第一目标对象特征获得更加准确的视频标签。

实际应用中，一个待处理视频的播放时间会较长，此时，对第一个目标视频帧进行视频特征、目标对象的对象特征以及其他对象的对象特征优化后，可以将其存储至记忆单元，在对第二个目标视频帧中的视频特征、目标对象的对象特征以及其他对象的对象特征进行优化时，可以结合其第一个目标视频帧进行视频特征、目标对象的对象特征以及其他对象的对象特征进行联合优化，通过此种方式进一步的提高第二个目标视频帧中目标对象的最终优化对象特征的准确性和丰富性。具体实现方式如下所述：

所述获得目标中心特征之后，还包括：

将所述目标中心特征存储至特征记忆单元。

那么在具体进行目标对象的第一目标对象特征获取时，也会去判断记忆单元中是否存在当前目标视频帧的上一个目标视频帧优化后的目标视频特征、目标对象的第一目标对象特征、其他对象的第二目标对象特征；若存在，则会结合这些特征对当前目标视频帧的所有特征进行联合优化。具体实现方式如下所述：

所述根据特征融合模型对所述初始视频特征、所述第一初始对象特征、以及所述第二初始对象特征进行处理，获得所述目标视频帧中所述目标对象的第一目标对象特征，包括：

在确定特征记忆单元中存在历史的目标中心特征的情况下，获取所述历史的目标中心特征；

根据特征融合模型对所述历史的目标中心特征、所述初始视频特征、所述第一初始对象特征、以及所述第二初始对象特征进行处理，获得所述目标视频帧中所述目标对象的第一目标对象特征，

其中，所述历史的目标中心特征包括历史目标视频特征、历史第一目标对象特征、以及历史第二目标对象特征。

具体的，在对某个目标视频帧的目标视频特征、目标对象的第一目标对象特征、其他对象的第二目标对象特征进行获取时，需要判断该目标视频帧是否存在前一个目标视频帧，若存在，则从记忆单元中获取前一个目标视频帧的目标视频特征、目标对象的第一目标对象特征、其他对象的第二目标对象特征；再结合该标视频帧的初始视频特征、目标对象的第一初始对象特征、其他对象的第二初始对象特征对其进行联合优化，以获得该某个目标视频帧的目标视频特征、目标对象的第一目标对象特征、其他对象的第二目标对象特征。

本说明书实施例提供的视频处理方法，基于特征记忆单元的技术可以实现对视频进行长时间建模，完成长视频的识别系统构建。

而进行联合优化的方式可以参见上述实施例，即以某个特征为中心，计算其他特征的权重，再结合其他特征的权重对其进行加权求和，进行目标特征的更新。本说明书实施例对此不作任何限定。

步骤206：将所述第一目标对象特征输入视频分类模型，获得所述目标视频帧中所述目标对象对应的视频标签。

其中，视频分类模型可以理解为预先训练的标签预测模型。

具体的，获取每个目标视频帧中目标对象的第一目标对象特征之后，将该第一目标对象特征输入视频分类模型，即可获得该目标视频帧中目标对象对应的视频标签，例如该目标视频帧中用户的名称、行为、行为发生时间等。后续即可根据该视频标签进行其他处理，例如文本外化或者语音外化等。

具体实施时，根据该视频标签对其进行文本外化的具体实现方式如下所述：

所述获得所述目标视频帧中所述目标对象对应的视频标签之后，还包括：

根据所述目标视频帧中所述目标对象对应的视频标签，确定所述目标视频帧的待展示文本；以及

将所述待展示文本展示在所述目标视频帧的目标展示位置。

其中，待展示文本可以理解为根据视频标签确定的待展示文本，例如视频标签为运动员的行为为花样滑冰-跳接燕式旋转；那么则可以根据该视频标签结合预设的文本模板，生成待展示文本，并将该待展示文本展示在目标视频帧的目标展示位置（即不影响观众观看体验的位置）。

参见图3，图3示出了本说明书一个实施例提供的一种视频处理方法中待展示文本的示意图。

图3为某个目标视频帧，该目标视频帧中包含的目标对象为运动员，该运动员的当前动作为花样滑冰的旋转动作；那么该目标视频帧中目标对象的视频标签就可以包括：运动员的行为为花样滑冰-旋转；基于该视频标签以及预设的文本模板，则可以生成图3中的待展示文本，并将该待展示文本展示在该目标视频帧的空白位置。

此外，还可以根据目标视频帧中目标对象的视频标签，生成对应于该目标视频帧的视频语音，使得目标视频帧在播放时，可以结合视频语音进行输出，增强用户的观看体验。具体实现方式如下所述：

根据预设语音处理算法对所述目标视频帧中所述目标对象对应的视频标签进行处理，获得所述目标视频帧对应的视频语音；

在所述目标视频帧播放的情况下，播放所述目标视频帧对应的视频语音。

其中，预设语音处理算法包括但不限于TTS(Text-To-Speech)算法。

具体的，在获得目标视频帧中目标对象的视频标签之后，根据TTS算法对该视频标签进行处理，获得该目标视频帧对应的视频语音；以使得该目标视频帧在播放的情况下，同时播放目标视频帧对应的视频语音。

实际应用中，对于视频标签的外化，即为可以将获取到的目标视频帧的所有实体标签，如人物名称、背景音乐名称、视频行为等结合已有信息进行外化，具体包含两种外化形式：

一种为文本外化：在原视频的基础上添加标签词以及标签词本身的释义，这些释义在视频中的出现时间会和标签识别的定位时间相匹配，在视频空间中出现的区域会避开标签实体所在的空间位置，以便更好地显示。

另一种为语音外化，将标签释义通过TTS(Text-To-Speech)技术在标签出现的时间区域进行播报，提供更直接的信息传导效应。

本说明书一个实施例实现了的视频处理方法根据特征融合模型从多实体特征表示的技术角度出发，通过视频特征、目标对象的对象特征、以及其他对象的对象特征的相互优化处理后，对目标对象进行标签预测，获得较为准确的标签预测结果，增强用户体验。

下述结合附图4，以本说明书提供的视频处理方法在体育视频的应用为例，对所述视频处理方法进行进一步说明。其中，图4示出了本说明书一个实施例提供的一种视频处理方法的处理过程过程图，具体包括以下步骤。

步骤402：获取待处理的体育视频，并对该体育视频进行解析，获得该体育视频中的多个关键视频帧。

步骤404：根据用户检测器对每个关键视频帧中的用户进行检测，以及根据物体检测器对每个关键帧中的物体进行检测。

具体的，图4中的检测器可以理解为用户检测器和/或物体检测器。

步骤406：获得用户检测框以及物体检测框。

具体的，图4中的检测框可以理解为用户检测框和/或物体检测框。

步骤408：将用户检测框以及物体检测框输入区域特征提取模型，获得初始用户特征、初始物体特征。

其中，区域特征提取模型与上述对象特征提取模型的功能相同。

步骤410：将每个关键视频帧视频输入视频特征提取模型，获得每个关键视频帧的初始视频特征。

步骤412：根据初始视频特征、初始用户特征以及初始物体特征进行时空特征融合，获得融合后的融合用户特征、融合物体特征。

具体的，根据初始视频特征中的时间特征，对每个不同时间上面的每个人体框或者物体框融合在一起。

步骤414：将初始视频特征、融合用户特征、融合物体特征通过S/T selection &flatten层进行特征重塑，如将多维的输入一维化，或者将一维的输入多维化。

步骤416：将重塑后的初始视频特征、融合用户特征、融合物体特征通过Trasformer encoder层进行迭代加权求和，获得目标视频特征、目标用户特征、目标物体特征。

实际应用中，若记忆单元中存在上一个关键视频帧的目标视频特征、目标用户特征、目标物体特征，则从该记忆单元载入（获取）上一个关键视频帧的目标视频特征、目标用户特征、目标物体特征，结合当前关键视频帧的初始视频特征、初始用户特征、初始物体特征进行迭代加权求和，获得目标视频特征、目标用户特征、目标物体特征；同时，将获得的目标视频特征、目标用户特征、目标物体特征再保存至记忆单元。

步骤418：将目标视频特征、目标用户特征和/或目标物体特征通过S/T GAP层进行结果取平均，获得最终的目标视频特征、目标用户特征和/或目标物体特征。

步骤420：将目标视频特征、目标用户特征和/或目标物体特征输入ActionnPredictor层（即行为预测模型），获得该关键视频帧中视频标签。

具体的，若输入为目标用户特征，则输出该关键视频帧中用户的行为标签。

其中，行为预测模型的功能与上述实施例中的视频分类模型相同。

具体实施时，特征融合模型（步骤412-步骤416均为特征融合模型的具体实现步骤）有两类型输入，一个视频源文件，另一类是视频中包含的多实体结果，如已知的人、物、标识等结果。对于视频源文件，可以将其处理为T帧的RGB序列，经过一些场景的神经网络模型获取特征表示，如ResNet、ViT等模型，得到d维的视频特征。对于视频中包含的多实体结果，一般有两种处理形式，如对于已知的人等包含几何空间位置信息的标签结果，可以通过RoI Align方法获取其特征表示，通过多层感知机映射得到d维的用户特征，对于不包含几何空间信息的标签结果，可以通过BERT等语言模型对其进行词向量转化，再通过多层感知机映射获得d维的物体特征。

而在获取了原视频特征表示的d维特征向量，和多实体特征表示的d维特征向量后，因为视频文件本身持续时间较长，可以将这些特征向量存入预先设计好的memroy bank模型（记忆单元）中，使得后续可以用更少的计算代价获取更长时间范围内的特征向量。在此基础上使用Transformer模型，在所有特征向量的基础上进行关联建模获取原视频特征、多实体特征的最后的特征；在此特征基础上加入一个多层感知机构成的分类器，将其最后的用户特征作为输入，输出所需要的最终标签，即用户行为标签。

与上述方法实施例相对应，本说明书还提供了一种视频处理装置实施例，图5示出了本说明书一个实施例提供的一种视频处理装置的结构示意图。如图5所示，该装置包括：

特征确定模块502，被配置为确定待处理视频中目标视频帧的初始视频特征、所述目标视频帧中目标对象的第一初始对象特征、以及其他对象的第二初始对象特征，其中，所述其他对象为所述目标视频帧中除所述目标对象之外的所有对象；

目标对象特征获得模块504，被配置为根据特征融合模型对所述初始视频特征、所述第一初始对象特征、以及所述第二初始对象特征进行处理，获得所述目标视频帧中所述目标对象的第一目标对象特征；

标签获得模块506，被配置为将所述第一目标对象特征输入视频分类模型，获得所述目标视频帧中所述目标对象对应的视频标签。

可选地，所述特征确定模块502，进一步被配置为：

根据所述其他对象的对象属性确定其他对象特征提取模型。

可选地，所述特征确定模块502，进一步被配置为：

可选地，所述目标对象特征获得模块504，进一步被配置为：

可选地，所述装置，还包括：

特征存储模块，被配置为：

将所述目标中心特征存储至特征记忆单元。

可选地，所述目标对象特征获得模块504，进一步被配置为：

可选地，所述装置，还包括：

文本外化模块，被配置为：

将所述待展示文本展示在所述目标视频帧的目标展示位置。

可选地，所述装置，还包括：

语音外化模块，被配置为：

本说明书一个实施例实现了的视频处理装置根据特征融合模型从多实体特征表示的技术角度出发，通过视频特征、目标对象的对象特征、以及其他对象的对象特征的相互优化处理后，对目标对象进行标签预测，获得较为准确的标签预测结果，增强用户体验。

上述为本实施例的一种视频处理装置的示意性方案。需要说明的是，该视频处理装置的技术方案与上述的视频处理方法的技术方案属于同一构思，视频处理装置的技术方案未详细描述的细节内容，均可以参见上述视频处理方法的技术方案的描述。

参见图6，图6示出了根据本说明书一个实施例提供的另一种视频处理方法的流程图，具体包括以下步骤：

步骤602：基于用户的调用请求为所述用户展示视频输入界面；

步骤604：接收所述用户通过所述视频输入界面输入的待处理视频；

步骤606：确定所述待处理视频中目标视频帧的初始视频特征、所述目标视频帧中目标对象的第一初始对象特征、以及其他对象的第二初始对象特征，其中，所述其他对象为所述目标视频帧中除所述目标对象之外的所有对象；

步骤608：根据特征融合模型对所述初始视频特征、所述第一初始对象特征、以及所述第二初始对象特征进行处理，获得所述目标视频帧中所述目标对象的第一目标对象特征；

步骤610：将所述第一目标对象特征输入视频分类模型，获得所述目标视频帧中所述目标对象对应的视频标签。

上述为本实施例的另一种视频处理方法的示意性方案。需要说明的是，该另一种视频处理方法的技术方案与上述一种的视频处理方法的技术方案属于同一构思，另一种视频处理方法的技术方案未详细描述的细节内容，均可以参见上述一种视频处理方法的技术方案的描述。

本说明书一个实施例还提供了另一种视频处理装置，包括：

上述为本实施例的另一种视频处理装置的示意性方案。需要说明的是，该另一种视频处理装置的技术方案与上述一种的视频处理方法的技术方案属于同一构思，另一种视频处理装置的技术方案未详细描述的细节内容，均可以参见上述一种视频处理方法的技术方案的描述。

参见图7，图7示出了根据本说明书一个实施例提供的再一种视频处理方法的流程图，具体包括以下步骤：

步骤702：接收所述用户发送的调用请求，其中，所述调用请求中携带有待处理视频；

步骤704：确定所述待处理视频中目标视频帧的初始视频特征、所述目标视频帧中目标对象的第一初始对象特征、以及其他对象的第二初始对象特征，其中，所述其他对象为所述目标视频帧中除所述目标对象之外的所有对象；

步骤706：根据特征融合模型对所述初始视频特征、所述第一初始对象特征、以及所述第二初始对象特征进行处理，获得所述目标视频帧中所述目标对象的第一目标对象特征；

步骤708：将所述第一目标对象特征输入视频分类模型，获得所述目标视频帧中所述目标对象对应的视频标签。

上述为本实施例的再一种视频处理方法的示意性方案。需要说明的是，该再一种视频处理方法的技术方案与上述一种的视频处理方法的技术方案属于同一构思，再一种视频处理方法的技术方案未详细描述的细节内容，均可以参见上述一种视频处理方法的技术方案的描述。

本说明书一个实施例还提供了再一种视频处理装置，包括：

上述为本实施例的再一种视频处理装置的示意性方案。需要说明的是，该再一种视频处理装置的技术方案与上述一种的视频处理方法的技术方案属于同一构思，再一种视频处理装置的技术方案未详细描述的细节内容，均可以参见上述一种视频处理方法的技术方案的描述。

本说明书另一个可实现实施例中提供的一种视频处理方法，包括：

将所述体育视频输入特征融合模型；

实际应用中，将体育视频输入特征融合模型，可以理解为将体育视频中目标视频帧的初始视频特征、目标视频帧中运动员的第一初始对象特征、以及其他对象的第二初始对象特征输入特征融合模型中。具体的，对于体育视频中目标视频帧的初始视频特征、目标视频帧中运动员的第一初始对象特征、以及其他对象的第二初始对象特征中的具体实现方式，可以参照上述实施例中对待处理视频中目标视频帧的初始视频特征、所述目标视频帧中目标对象的第一初始对象特征、以及其他对象的第二初始对象特征的具体实现方式，在此不再赘述。

并且，不排除特征融合模型可以实现体育视频中目标视频帧的初始视频特征、目标视频帧中运动员的第一初始对象特征、以及其他对象的第二初始对象特征的提取方式，具体根据实际应用进行确定，本说明书实施例对此不作任何限定。

具体的，特征融合模型的具体处理方式以及视频分类模型的具体处理方式，包括目标视频帧中运动员的运动行为解说均可以参见上述一种视频处理方法中的详细介绍，在此不再赘述。

图8示出了根据本说明书一个实施例提供的一种计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接，数据库850用于保存数据。

计算设备800还包括接入设备840，接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网（PSTN）、局域网（LAN）、广域网（WAN）、个域网（PAN）或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口（例如，网络接口卡（NIC））中的一个或多个，诸如IEEE802.11无线局域网（WLAN）无线接口、全球微波互联接入（Wi-MAX）接口、以太网接口、通用串行总线（USB）接口、蜂窝网络接口、蓝牙接口、近场通信（NFC）接口，等等。

在本说明书的一个实施例中，计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图8所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备800可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备（例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等）、移动电话（例如，智能手机）、可佩戴的计算设备（例如，智能手表、智能眼镜等）或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备800还可以是移动式或静止式的服务器。

其中，处理器820用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述视频处理方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的视频处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述视频处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述视频处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的视频处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述视频处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述视频处理方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的视频处理方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述视频处理方法的技术方案的描述。

本说明书一实施例还提供一种增强现实AR设备，包括：

存储器和处理器；

上述为本实施例的一种增强现实AR设备的示意性方案。需要说明的是，该增强现实AR设备的技术方案与上述的视频处理方法的技术方案属于同一构思，增强现实AR设备的技术方案未详细描述的细节内容，均可以参见上述视频处理方法的技术方案的描述。

本说明书一实施例还提供一种虚拟现实VR设备，包括：

存储器和处理器；

上述为本实施例的一种虚拟现实VR设备的示意性方案。需要说明的是，该虚拟现实VR设备的技术方案与上述的视频处理方法的技术方案属于同一构思，虚拟现实VR设备的技术方案未详细描述的细节内容，均可以参见上述视频处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种视频处理方法，包括：

根据特征融合模型对所述初始视频特征、所述第一初始对象特征、以及所述第二初始对象特征进行点积处理，获得所述初始视频特征的特征响应图、所述第一初始对象特征的特征响应图、以及所述第二初始对象特征的特征响应图，其中，所述特征响应图表示特征之间的权重；

根据所述初始视频特征的特征响应图、所述第一初始对象特征的特征响应图、以及所述第二初始对象特征的特征响应图进行加权求和，获得所述目标视频帧中所述目标对象的第一目标对象特征；

2.根据权利要求1所述的视频处理方法，所述确定待处理视频中目标视频帧的初始视频特征、所述目标视频帧中目标对象的初始对象特征、以及其他对象的初始对象特征，包括：

3.根据权利要求2所述的视频处理方法，所述根据视频特征提取模型确定所述目标视频帧的视频特征，包括：

4.根据权利要求2所述的视频处理方法，所述根据对象特征提取模型确定所述目标视频帧中目标对象的第一初始对象特征、以及其他对象的第二初始对象特征，包括：

5.根据权利要求4所述的视频处理方法，所述根据所述对象特征提取模型确定所述目标视频帧中目标对象的第一初始对象特征、以及其他对象的第二初始对象特征，包括：

根据所述目标对象的对象属性确定目标对象特征提取模型，以及根据所述其他对象的对象属性确定其他对象特征提取模型；

6.根据权利要求1所述的视频处理方法，所述根据所述初始视频特征的特征响应图、所述第一初始对象特征的特征响应图、以及所述第二初始对象特征的特征响应图进行加权求和，获得所述目标视频帧中所述目标对象的第一目标对象特征，包括：

7.根据权利要求1所述的视频处理方法，所述获得所述目标视频帧中所述目标对象对应的视频标签之后，还包括：

将所述待展示文本展示在所述目标视频帧的目标展示位置。

8.根据权利要求1所述的视频处理方法，所述获得所述目标视频帧中所述目标对象对应的视频标签之后，还包括：

9.一种视频处理装置，包括：

目标对象特征获得模块，被配置为根据特征融合模型对所述初始视频特征、所述第一初始对象特征、以及所述第二初始对象特征进行点积处理，获得所述初始视频特征的特征响应图、所述第一初始对象特征的特征响应图、以及所述第二初始对象特征的特征响应图，其中，所述特征响应图表示特征之间的权重；

10.一种视频处理方法，包括：

将所述体育视频输入特征融合模型；

根据所述特征融合模型对所述体育视频中目标视频帧的初始视频特征、所述目标视频帧中运动员的第一初始对象特征、以及其他对象的第二初始对象特征进行点积处理，获得所述初始视频特征的特征响应图、所述第一初始对象特征的特征响应图、以及所述第二初始对象特征的特征响应图，其中，所述特征响应图表示特征之间的权重；

根据所述初始视频特征的特征响应图、所述第一初始对象特征的特征响应图、以及所述第二初始对象特征的特征响应图进行加权求和，获得所述目标视频帧中所述运动员的第一目标对象特征，其中，所述其他对象为所述目标视频帧中除所述运动员之外的所有对象；

11.一种增强现实AR设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至8、10任意一项所述视频处理方法的步骤。

12.一种虚拟现实VR设备，包括：

存储器和处理器；