CN111241340A

CN111241340A - 视频标签确定方法、装置、终端及存储介质

Info

Publication number: CN111241340A
Application number: CN202010052109.5A
Authority: CN
Inventors: 李翰; 李亚乾; 蒋燚
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2020-06-05
Anticipated expiration: 2040-01-17
Also published as: US20220350842A1; CN111241340B; WO2021143624A1; EP4083817A1

Abstract

本申请涉及一种视频标签确定方法、装置、终端及存储介质，属于计算机技术领域。该方法包括：获取待处理视频；提取待处理视频中多个第一目标帧图像之间的时序特征信息，时序特征信息为根据不同时间点的第一目标帧图像的特征差异确定的信息；根据时序特征信息，生成用于描述待处理视频对应的动态事件的动态事件描述文本；根据动态事件描述文本，确定待处理视频的视频标签。通过获取待处理视频中动态事件描述文本，确定待处理视频的视频标签，更深度地挖掘了视频信息，以便用户可以更准确、更便利地管理视频。

Description

视频标签确定方法、装置、终端及存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种视频标签确定方法、装置、终端及存储介质。

背景技术

随着计算机技术的发展，越来越多的用户喜欢通过拍摄视频来记录生活，导致终端中存储的视频的数量越来越多。为了方便对视频进行分类和管理，常为视频添加标签，通过视频的标签来对视频进行分类和管理。

相关技术中，在为视频添加标签时，一般根据视频的生成时间或生成地点确定视频的标签。

发明内容

本申请实施例提供了一种视频标签确定方法、装置、终端及存储介质，可以提高视频标签的准确性。所述技术方案如下：

一方面，提供了一种视频标签确定方法，所述方法包括：

获取待处理视频；

提取所述待处理视频中多个第一目标帧图像之间的时序特征信息，所述时序特征信息为根据不同时间点的第一目标帧图像的特征差异确定的；

根据所述时序特征信息，生成用于描述所述待处理视频对应的动态事件的动态事件描述文本；

根据所述动态事件描述文本，确定所述待处理视频的视频标签。

在一种可能的实现方式中，所述提取所述待处理视频中多个第一目标帧图像之间的时序特征信息，包括：

确定所述多个第一目标帧图像中的目标对象；

根据所述目标对象在所述第一目标帧图像中的位置，确定所述多个第一目标帧图像中目标对象的位移信息；

根据所述多个第一目标帧图像中目标对象的位移信息，确定所述待处理视频中多个第一目标帧图像之间的时序特征信息。

在另一种可能的实现方式中，所述根据所述目标对象在所述第一目标帧图像中的位置，确定所述多个第一目标帧图像中目标对象的位移信息，包括：

确定所述多个第一目标帧图像中包含相似像素信息的目标像素点；

确定所述目标像素点在所述第一目标帧图像中的位置；

根据相邻的第一目标帧图像中所述目标像素点的位置，确定所述目标像素点的位置差值，得到目标像素点的位移向量；

将所述多个第一目标帧图像中所述目标像素点的位移向量，组成所述多个第一目标帧图像中目标对象的位移信息。

在另一种可能的实现方式中，所述根据所述多个第一目标帧图像中目标对象的位移信息，确定所述待处理视频中多个第一目标帧图像之间的时序特征信息，包括：

确定所述多个第一目标帧图像在所述待处理视频中的时序顺序；

根据所述时序顺序和预设权重，将所述目标像素点的位移信息组成向量矩阵；

将所述向量矩阵作为所述时序特征信息。

在另一种可能的实现方式中，所述根据所述时序特征信息，生成用于描述所述待处理视频对应的动态事件的动态事件描述文本，包括：

识别所述待处理视频中的发生动态事件的目标对象；

根据所述时序特征信息，确定所述目标对象产生的动态事件；

根据所述目标对象和所述目标对象产生的动态事件，生成所述动态事件描述文本。

在另一种可能的实现方式中，所述根据所述时序特征信息，确定所述目标对象产生的动态事件，包括：

获取视频分类模型，所述视频分类模型用于根据所述时序特征信息，确定所述目标对象产生的动态事件；

将所述时序特征信息输入至所述视频分类模型中，得到所述待处理视频中目标对象产生的动态事件。

在另一种可能的实现方式中，所述根据所述动态事件描述文本，确定所述待处理视频的视频标签，包括：

对所述动态事件描述文本进行分词，得到多个关键字；

从所述多个关键字中选择词性为目标词性的目标动态事件关键字；

将所述目标动态事件关键字组成所述待处理视频的视频标签。

在另一种可能的实现方式中，所述方法还包括：

根据所述待处理视频中的第二目标帧图像，确定所述第二目标帧图像的静态图像内容；

根据所述静态图像内容，对所述第二目标帧图像进行图像分类，得到所述第二目标帧图像的静态图像标签；

所述根据所述动态事件描述文本，确定所述待处理视频的视频标签，包括：

根据所述静态图像标签和所述动态事件描述文本，确定所述待处理视频的视频标签。

在另一种可能的实现方式中，所述提取所述待处理视频中多个第一目标帧图像之间的时序特征信息，包括：

根据第一目标时长，将所述待处理视频拆分为至少一个子视频；

确定所述子视频的多个第三目标帧图像之间的时序特征信息；

根据至少一个所述子视频的多个第三目标帧图像之间的时序特征信息，确定所述待处理视频中多个第一目标帧图像之间的时序特征信息。

在另一种可能的实现方式中，所述根据第一目标时长，将所述待处理视频拆分为至少一个子视频，包括：

确定所述待处理视频的视频时长；

响应于所述视频时长小于第二目标时长，根据所述第一目标时长对所述待处理视频进行拆分，得到至少一个子视频；

响应于所述视频时长不小于所述第二目标时长，根据第一目标时长对所述第二目标时长内的所述待处理视频进行拆分，得到第一子视频，以及，确定所述待处理视频的第二子视频，所述第二子视频为从超出所述第二目标时长的待处理视频中提取的子视频；将所述第一子视频和所述第二子视频组成所述待处理视频的至少一个所述子视频。

在另一种可能的实现方式中，所述方法还包括：

将所述待处理视频的视频标签存储到视频库中，所述视频库包括多个视频的视频标识和所述视频的视频标签；

响应于接收到待查询的目标视频标签，根据所述目标视频标签，从所述视频库中确定与所述目标标签匹配的目标视频；

将所述目标视频展示在显示界面中。

另一方面，提供了一种视频标签确定装置，所述装置包括：

获取模块，用于获取待处理视频；

提取模块，用于提取所述待处理视频中多个第一目标帧图像之间的时序特征信息，所述时序特征信息为根据不同时间点的第一目标帧图像的特征差异确定的；

生成模块，用于根据所述时序特征信息，生成用于描述所述待处理视频对应的动态事件的动态事件描述文本；

第一确定模块，用于根据所述动态事件描述文本，确定所述待处理视频的视频标签。

在一种可能的实现方式中，所述提取模块，还用于确定所述多个第一目标帧图像中的目标对象；根据所述目标对象在所述第一目标帧图像中的位置，确定所述多个第一目标帧图像中目标对象的位移信息；根据所述多个第一目标帧图像中目标对象的位移信息，确定所述待处理视频中多个第一目标帧图像之间的时序特征信息。

在另一种可能的实现方式中，所述提取模块，还用于确定所述多个第一目标帧图像中包含相似像素信息的目标像素点；确定所述目标像素点在所述第一目标帧图像中的位置；根据相邻的第一目标帧图像中所述目标像素点的位置，确定所述目标像素点的位置差值，得到目标像素点的位移向量；将所述多个第一目标帧图像中所述目标像素点的位移向量，组成所述多个第一目标帧图像中目标对象的位移信息。

在另一种可能的实现方式中，所述提取模块，还用于确定所述多个第一目标帧图像在所述待处理视频中的时序顺序；根据所述时序顺序和预设权重，将所述目标像素点的位移信息组成向量矩阵；将所述向量矩阵作为所述时序特征信息。

在另一种可能的实现方式中，所述生成模块，还用于识别所述待处理视频中的发生动态事件的目标对象；根据所述时序特征信息，确定所述目标对象产生的动态事件；根据所述目标对象和所述目标对象产生的动态事件，生成所述动态事件描述文本。

在另一种可能的实现方式中，所述生成模块，还用于获取视频分类模型，所述视频分类模型用于根据所述时序特征信息，确定所述目标对象产生的动态事件；将所述时序特征信息输入至所述视频分类模型中，得到所述待处理视频中目标对象产生的动态事件。

在另一种可能的实现方式中，所述第一确定模块，还用于对所述动态事件描述文本进行分词，得到多个关键字；从所述多个关键字中选择词性为目标词性的目标动态事件关键字；将所述目标动态事件关键字组成所述待处理视频的视频标签。

在另一种可能的实现方式中，所述装置还包括：

第二确定模块，用于根据所述待处理视频中的第二目标帧图像，确定所述第二目标帧图像的静态图像内容；

图像分类模块，用于根据所述静态图像内容，对所述第二目标帧图像进行图像分类，得到所述第二目标帧图像的静态图像标签；

所述第一确定模块，还用于根据所述静态图像标签和所述动态事件描述文本，确定所述待处理视频的视频标签。

在另一种可能的实现方式中，所述提取模块，还用于根据第一目标时长，将所述待处理视频拆分为至少一个子视频；确定所述子视频的多个第三目标帧图像之间的时序特征信息；根据至少一个所述子视频的多个第三目标帧图像之间的时序特征信息，确定所述待处理视频中多个第一目标帧图像之间的时序特征信息。

在另一种可能的实现方式中，所述提取模块，还用于确定所述待处理视频的视频时长；响应于所述视频时长小于第二目标时长，根据所述第一目标时长对所述待处理视频进行拆分，得到至少一个子视频；响应于所述视频时长不小于所述第二目标时长，根据第一目标时长对所述第二目标时长内的所述待处理视频进行拆分，得到第一子视频，以及，确定所述待处理视频的第二子视频，所述第二子视频为从超出所述第二目标时长的待处理视频中提取的子视频；将所述第一子视频和所述第二子视频组成所述待处理视频的至少一个所述子视频。

在另一种可能的实现方式中，所述装置还包括：

存储模块，用于将所述待处理视频的视频标签存储到视频库中，所述视频库包括多个视频的视频标识和所述视频的视频标签；

第三确定模块，用于响应于接收到待查询的目标视频标签，根据所述目标视频标签，从所述视频库中确定与所述目标标签匹配的目标视频；

展示模块，用于将所述目标视频展示在显示界面中。

另一方面，提供了一种终端，所述终端包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如上述方面所述的视频标签确定方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质存储有至少一条指令，所述至少一条指令用于被处理器执行以实现如上述方面所述的视频标签确定方法。

另一方面，提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，该至少一条指令由该处理器加载并执行以实现如上各个实施例示出的视频标签确定方法。

在本申请实施例中，获取待处理视频；提取待处理视频中多个第一目标帧图像之间的时序特征信息，时序特征信息为根据不同时间点的第一目标帧图像的特征差异确定的信息；根据时序特征信息，生成用于描述待处理视频对应的动态事件的动态事件描述文本；根据动态事件描述文本，确定待处理视频的视频标签。通过获取待处理视频中动态事件描述文本，确定待处理视频的视频标签，更深度地挖掘了视频信息，以便用户可以更准确、更便利地管理视频。

附图说明

图1示出了本申请一个示例性实施例所提供的终端的结构示意图；

图2示出了本申请一个示例性实施例示出的视频标签确定方法的流程图；

图3示出了本申请一个示例性实施例示出的视频标签确定方法的流程图；

图4示出了本申请一个示例性实施例示出的确定时序特征信息的示意图；

图5示出了本申请一个示例性实施例示出的视频标签确定方法的流程图；

图6示出了本申请一个示例性实施例示出的视频标签确定方法的流程图；

图7示出了本申请一个示例性实施例示出的视频标签确定方法的流程图；

图8示出了本申请一个示例性实施例示出的视频标签确定方法的流程图；

图9示出了本申请一个示例性实施例示出的视频标签确定方法的流程图；

图10示出了本申请一个示例性实施例示出的视频标签确定方法的流程图；

图11示出了本申请一个实施例提供的视频标签确定装置的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

请参考图1，其示出了本申请一个示例性实施例提供的终端100的结构方框图。终端100可以是智能手机、平板电脑、笔记本电脑或可穿戴设备等终端。本申请中的终端100可以包括一个或多个如下部件：处理器110、存储器120、显示屏130。

处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个终端100内的各个部分，通过运行或执行存储在存储器120内的至少一条指令，以及调用存储在存储器120内的数据，执行终端100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)、神经网络处理器(Neural-networkProcessingUnit，NPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏130所需要显示的内容的渲染和绘制；NPU用于实现人工智能(Artificial Intelligence，AI)功能；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块芯片进行实现。

在一种可能的实现方式中，本申请实施例中，通过NPU实现通过神经网络确定动态特征信息和静态图像标签的过程。通过GPU实现对视频帧图像的渲染，通过CPU实现将终端中应用程序的执行操作。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选地，该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储至少一条指令。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等；存储数据区可存储根据终端100的使用所创建的数据(比如音频数据、电话本)等。

在一种可能的实现方式中，本申请实施例中，通过存储器120存储终端中的待处理视频等数据。

显示屏130是用于显示用户界面的显示组件。可选的，该显示屏130为具有触控功能的显示屏，通过触控功能，用户可以使用手指、触摸笔等任何适合的物体在显示屏130上进行触控操作。

在一种可能的实现方式中，本申请实施例中，通过显示屏130显示待处理视频的画面等。

显示屏130通常设置在终端100的前面板。显示屏130可被设计成为全面屏、曲面屏、异型屏、双面屏或折叠屏。显示屏130还可被设计成为全面屏与曲面屏的结合，异型屏与曲面屏的结合等，本实施例对此不加以限定。

在一种可能的实现方式中，终端100还包括摄像头组件，该摄像头组件用于采集视频，其可以是终端的前置摄像头或者后置摄像头。

除此之外，本领域技术人员可以理解，上述附图所示出的终端100的结构并不构成对终端100的限定，终端100可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端100中还包括麦克风、扬声器、射频电路、输入单元、传感器、音频电路、无线保真(Wireless Fidelity，Wi-Fi)模块、电源、蓝牙模块等部件，在此不再赘述。

请参考图2，其示出了本申请一个示例性实施例示出的视频标签确定方法的流程图。本申请实施例中的执行主体可以为终端100，也可以为终端100中的处理器110或终端100中的操作系统，本实施例以执行主体为终端100为例进行说明。在本申请实施例中，以通过待处理视频的中第一目标帧图像中目标对象的位移信息作为待处理的视频标签为例进行说明。该方法包括：

步骤201：终端获取待处理视频。

该待处理视频可以为含有多帧图像的视频文件或视频流等。该待处理视频可以为终端从视频库中获取到的待处理视频。其中，该视频库可以为终端或服务器中的视频库，该视频库中可以存储多个视频和图像。例如，该视频库可以为终端中的相册软件，该视频库也可以为与终端建立网络连接的其他电子设备中存储视频的视频库。相应的，终端可以直接调用本地相册软件中的待处理视频，终端也可以从其他电子设备的视频库中获取待处理视频。

另外，视频库中的待处理视频可以为终端通过摄像头组件采集的视频；该待处理视频还可以为终端从其他电子设备中获取的视频。其中，该摄像头组件可以为终端自身的摄像头，也可以为与终端连接的外部摄像头组件，在本申请实施例中，对此不作具体限定。

步骤202：终端提取该待处理视频中多个第一目标帧图像之间的时序特征信息，该时序特征信息为根据不同时间点的第一目标帧图像的特征差异确定的。

其中，时序特征信息为根据待处理视频中不同时间点对应的第一目标帧图像的特征差异得到的多个第一目标帧图像之间的动态信息，通过多个第一目标帧图像中的同一目标对象的位置差异信息确定。该多个第一目标帧图像可以为待处理视频中连续的帧图像，也可以为待处理视频中的不连续的帧图像。在本申请实施例中，对此不作具体限定。另外，该第一目标帧图像的数量可以根据需要进行设置，在本申请实施例中，对该第一目标帧图像的数量不作具体限定。例如，该第一目标帧图像的数量可以为200、300或350等。参见图3，本步骤可以通过以下步骤(A1)-(A3)实现，包括：

(A1)终端确定该多个第一目标帧图像中的目标对象。

该目标对象可以为待处理视频中发生位移或产生动作的对象，该目标对象可以为人、动物、车辆或其他物体，例如，该目标对象可以为人、人的胳膊、手脚等，在本申请实施例中，对该目标对象的类别不作具体限定。

在本步骤中，终端可以通过目标检测技术检测多个第一目标帧图像中的目标对象的类别。其中，该目标对象可以为每个第一目标帧图像中都存在的目标对象，该目标对象还可以为部分第一目标帧图像中存在的目标对象。

需要说明的一点是，当多个第一目标帧图像中存在多个对象时，可以将多个对象都作为待处理视频的目标对象；终端还可以将目标帧图像中的出现时长最长的对象作为该待处理视频的目标对象；终端还可以将产生动作或位移的对象作为该待处理视频的目标对象。在本申请实施例中，对此不作具体限定。

(A2)终端根据该目标对象在该第一目标帧图像中的位置，确定该多个第一目标帧图像中目标对象的位移信息。

在本步骤中，终端分别确定不同第一目标帧图像中，同一目标对象在不同的第一目标帧图像中的位置，确定目标对象的位移信息。

本步骤可以通过以下步骤(A2-1)-(A2-4)实现，包括：

(A2-1)终端确定该多个第一目标帧图像中包含相似像素信息的目标像素点。

其中，该像素信息可以为像素点的灰度值、RGB通过的值等。终端分别确定第一目标帧图像中像素点包含的像素信息，确定该多个第一目标帧图像中包含相似像素信息的目标像素点。

(A2-2)终端确定该目标像素点在该第一目标帧图像中的位置。

在本步骤中，终端分别确定每个第一目标帧图像中包括的目标像素点在该第一目标帧图像中的位置。

(A2-3)终端根据相邻的第一目标帧图像中该目标像素点的位置，确定该目标像素点的位置差值，得到目标像素点的位移向量。

在本步骤中，终端分别确定相邻第一目标帧图像中，目标像素点的位置差值，从而确定相邻第一目标帧图像中目标像素点的位置变化，得到目标像素点的位移向量。

(A2-4)终端将该多个第一目标帧图像中该目标像素点的位移向量，组成该多个第一目标帧图像中目标对象的位移信息。

在本步骤中，终端根据每个第一目标帧图像中该目标像素点的位移向量，组成目标对象的位移信息。

在本实现方式中，通过第一帧图像中的目标像素点，确定第一目标帧图像的位移信息，使得终端可以根据像素点的变化确定目标对象的位移信息，从而使终端可以识别出目标对象的动态事件，以便终端可以根据目标对象的动态事件确定待处理视频的标签，从而丰富了待处理视频的视频标签。

(A3)终端根据该多个第一目标帧图像中目标对象的位移信息，确定该待处理视频中多个第一目标帧图像之间的时序特征信息。

其中，该位移信息可以为目标对象在不同的第一目标帧图像中的坐标之差。相应的，终端根据不同的第一目标帧图像中包含相似图像信息的像素点的位置，确定包含相似图像信息的像素点之间的坐标之差，将该坐标之差作为目标对象的位移信息。该位移信息可以为向量信息，相应的，该时序特征信息可以为由不同的向量信息组成的矩阵。

该过程可以通过以下步骤(A3-1)-(A3-3)实现，包括：

(A3-1)终端确定该多个第一目标帧图像在该待处理视频中的时序顺序。

在本步骤中，终端可以分别根据每两个相邻目标帧图像中目标对象的位移信息，确定该至少一个第一目标帧图像中目标对象的时序特征信息。由于视频中的特征与视频的播放顺序有关，参见图4，当视频正序播放(即从左往右播放)时，其时序特征信息为物体从左移到右，当视频倒序播放(即从右往左播放)时，其时序特征信息为物体从右移到左。因此，终端需要根据待处理视频的视频播放顺序，确定视频的时序特征信息。

(A3-2)终端根据该时序顺序和预设权重，将该目标像素点的位移信息组成向量矩阵。

其中，终端可以分别确定相邻的第一目标帧图像中目标对象的位移信息，将多个第一目标帧图像中目标对象的位移信息进行加权融合，将该多个第一目标帧图像中目标对象的位移信息进行融合，得到多个第一目标帧图像之间的时序特征信息。

其中，终端可以根据预设权重对位移信息进行加权融合，在一种可能的实现方式中，每个第一目标帧图像中目标对象的位移信息的预设权重相同，即终端以平均的方式将目标对象的位移信息进行融合，得到该多个第一目标帧图像之间的时序特征信息。在另一种可能的实现方式中，该预设权重根据第一目标帧图像对应的时间点而不同，则终端可以根据不同的时间点对目标帧图像中目标对象的位移信息进行加权，得到第一目标帧图像之间的时序特征信息。

(A3-3)终端将该向量矩阵作为该时序特征信息。

在本实现方式中，通过将多个第一目标帧图像中的目标对象的位移信息确定多个第一目标帧图像之间的时序特征信息，以便终端可以根据该时序特征信息确定该多个第一目标帧图像对应的待处理视频的动态事件，从而生成该待处理视频对应的动态事件的描述文本，从而确定该待处理视频的视频标签，使得待处理视频的视频标签可以包括待处理视频的连续帧之间的联系，从而提取待处理视频中的事件信息，使得待处理视频的视频标签更能体现视频的内容。

在一种可能的实现方式中，终端可以提取待处理视频中的部分帧图像作为第一目标帧图像。第一种实现方式，该待处理视频的第一目标帧图像可以为终端随机从待处理视频的帧图像中抽取的部分帧图像。在本实现方式中，终端可以随机从待处理视频的帧图像中抽取部分帧图像，将随机抽取的帧图像作为第一目标帧图像，从而终端无需对所有帧图像进行处理，降低了终端的运算量，提高了终端的运算效率，并且，通过随机抽取的方式抽取第一目标帧图像，对终端抽取第一目标帧图像的操作要求较低，降低了对终端的要求。

第二种实现方式，终端根据目标时间段从待处理视频中抽取第一目标帧图像。其中，该目标时间段的数量、时长和位置均可以根据需要进行设置，例如，该目标时间段的时长可以为10s、15s等。该目标时间段可以为待处理视频的中间时间段、目标对象出现的时间段等。在本实现方式中，终端通过提取待处理视频中指定时间段的帧图像作为第一目标帧图像，从而可以提取有效时间段内的第一目标帧图像进行处理，提高了待处理视频进行处理的有效性，提高了处理待处理视频的处理效率。

第三种实现方式，终端根据待处理视频中出现的目标对象对待处理视频进行帧图像提取。终端可以分别检测待处理视频中的目标对象，从待处理视频中提取出现目标对象的帧图像作为第一目标帧图像。其中，终端可以根据不同的目标对象从待处理视频中提取多组第一目标帧图像，每组第一目标帧图像对应一种目标对象，分别对该多组第一目标帧图像进行处理，确定每组第一目标帧图像的时序特征信息。在本实现方式中，通过根据目标对象从待处理视频中提取第一目标帧图像，从而剔除没有目标对象的无效帧图像，提高了对待处理视频的处理效率。

在另一种可能的实现方式中，终端对该待处理视频的所有帧图像进行处理。相应的，终端将待处理视频中每个帧图像确定为第一目标帧图像。在本实现方式中，终端将待处理视频的所有帧图像作为第一目标帧图像，从而使终端可以更全面地了解待处理视频的内容，从而不丢失信息，保证了视频标签的准确性。

第一种实现方式，终端直接将待处理视频对应的帧图像作为第一目标帧图像。第二种实现方式，终端对待处理视频进行拆分，将拆分得到的多个子视频对应的帧图像分别作为第一目标帧图像。参见图5，该过程可以通过以下步骤(B1)-(B3)实现，包括：

(B1)终端根据第一目标时长，将该待处理视频拆分为至少一个子视频。

在本步骤中，终端确定第一目标时长，将该待处理视频拆分为播放时长为第一目标时长的至少一个子视频。其中，该第一目标时长可以为终端系统或用户自定义的第一目标时长，相应的，该第一目标时长可以根据需要进行设置并更改，在本申请实施例中，对第一目标时长不作具体限定。例如，该第一目标时长可以为10s、15s或20s等。该第一目标时长还可以为根据待处理视频的视频时长确定的第一目标时长。例如，用户可以通过终端自定义子视频的数量，终端根据子视频的数量和待处理视频的视频时长确定每个子视频对应的第一目标时长。

在一种可能的实现方式中，终端根据第一目标时长直接将该待处理视频拆分为至少一个子视频。在另一种可能的实现方式中，终端可以确定第二目标时长，根据第二目标时长分别对待处理视频中第二目标时长以内的部分和第二目标时长以外的部分进行拆分。该过程可以通过以下步骤(B1-1)-(B1-3)实现，包括：

(B1-1)终端确定该待处理视频的视频时长。

在本步骤中，终端可以获取待处理视频的视频属性信息，从该视频属性信息中获取待处理视频的视频时长。

(B1-2)响应于该视频时长小于第二目标时长，终端根据该第一目标时长对该待处理视频进行拆分，得到至少一个子视频。

在本步骤中，终端确定第二目标时长。其中，该第二目标时长可以为终端系统默认的第二目标时长，该第二目标时长还可以为用户输入的第二目标时长，相应的，该第二目标时长可以根据需要进行设置并更改，在本申请实施例中，对第二目标时长不作具体限定。例如，该第二目标时长可以为2min或3min等。

终端对比视频时长和第二目标时长的大小，响应于视频时长小于第二目标时长，则终端根据第一目标时长将待处理视频全部拆分为子视频，得到至少一个子视频。

(B1-3)响应于该视频时长不小于该第二目标时长，终端根据第一目标时长对该第二目标时长内的该待处理视频进行拆分，得到第一子视频，以及，确定该待处理视频的第二子视频，该第二子视频为从超出该第二目标时长的待处理视频中提取的子视频；将该第一子视频和该第二子视频组成该待处理视频的至少一个该子视频。

终端对比视频时长和第二目标时长，响应于视频时长不小于第二目标时长，终端将该待处理视频分为第二目标时长以内的部分和第二目标时长以外的部分，将第二目标时长以内的待处理视频根据第一目标时长进行拆分，得到至少一个第一子视频，再从第二目标时长以外的部分待处理视频中，提取第二子视频，该第二子视频可以为该第二目标时长以外的部分待处理视频中的第一个第一目标时长的视频，也可以为该第二目标时长以外的部分待处理视频中任一位置的第一目标时长的视频，在本申请实施例中，对此不作具体限定。

在本实现方式中，终端通过第二目标时长确定对待处理视频的拆分方式，从而对于视频时长过场的待处理视频，终端可以根据第二目标时长对待处理视频进行截取。从而在保证了待处理视频内容的完整性的同时，减小了终端处理子视频的数量，进而减少了终端的工作量，提高了终端的计算效率。

(B2)终端确定该子视频的多个第三目标帧图像之间的时序特征信息。

在本步骤中，终端确定子视频的多个第三目标帧图像，将该第三目标帧图像作为待处理视频的第一目标帧图像。其中，终端可以将子视频中的所有帧图像作为第三目标帧图像，终端还可以将子视频中的部分帧图像作为第三目标帧图像，在本申请实施例中，对此不作具体限定。

终端确定子视频的多个第三目标帧图像之间的时序特征信息与终端确定待处理视频的多个第三目标帧图像之间的时序特征信息的过程相似，也即本步骤与步骤(A1)-(A3)相似，在此不再赘述。

需要说明的一点是，终端可以依次确定子视频的多个第三目标帧图像之间的时序特征信息；终端也可以同时分别确定多个子视频的多个第三目标帧图像之间的时序特征信息，以提高处理待处理视频的效率。

需要说明的另一点是，终端在确定完子视频的多个第三目标帧图像之间的时序特征信息时，可以将该子视频删除，防止占用终端中的存储空间。

(B3)终端根据至少一个该子视频的多个第三目标帧图像之间的时序特征信息，确定该待处理视频中多个第三目标帧图像之间的时序特征信息。

在本步骤中，终端可以分别将每个子视频对应的多个第三目标帧图像之间的时序特征信息，终端也可以将该多个子视频对应的多个第三目标帧图像之间的时序特征信息进行融合，得到该待处理视频的多个第三目标帧图像之间的时序特征信息。

在本实现方式中，通过将待处理视频拆分为至少一个子视频，根据该至少一个子视频，确定该目标待处理视频的多个第三目标帧图像之间的时序特征信息，通过将待处理视频进行拆分，使得终端可以同时对多个子视频进行处理，提高了终端的处理效率。

步骤203：终端根据该时序特征信息，生成用于描述该待处理视频对应的动态事件的动态事件描述文本。

其中，终端可以根据不同的时序特征信息组成的矩阵生成不同的动态描述文本。该动态事件描述文本可以由目标对象和目标对象的动作等描述文本组成。

终端可以通过视频分类模型确定待处理视频对应的动态事件描述文本。参见图6，本步骤可以通过以下步骤(1)-(3)实现，包括：

(1)终端识别该待处理视频中的发生动态事件的目标对象。

本步骤与步骤(A1)中确定目标对象的过程相似，在此不再赘述。

(2)终端根据该时序特征信息，确定该目标对象产生的动态事件。

本步骤可以通过以下步骤(2-1)-(2-2)实现，包括：

(2-1)终端获取视频分类模型，该视频分类模型用于根据该时序特征信息，确定该目标对象产生的动态事件。

其中，该视频分类模型可以为三维卷积神经网络(3Dimensions ConvolutionalNeural Network，3D-CNN)，该3D-CNN模型包括时间位移模块(Temporal Shift Module，TSM)。该TSM用于根据动态特征信息，生成动态事件。

(2-2)终端将该时序特征信息输入至该视频分类模型中，得到该待处理视频中目标对象产生的动态事件。

在本步骤中，终端将多个第一目标帧图像对应的时序特征信息输入至该视频分类模型中，通过该视频分类模型根据该时序特征信息对该待处理视频进行分类，得到该待处理视频中目标对象产生的动态事件。

在本实现方式中，通过视频分类模型识别目标对象产生的动态事件，提高了动态事件的准确性。

(3)终端根据该目标对象和该目标对象产生的动态事件，生成该动态事件描述文本。

在本实现方式中，通过视频分类模型根据多个第一目标帧图像之间的时序特征信息，对待处理视频进行分类，得到分类结果对应的动态事件描述文本，从而提高了确定待处理视频的动态事件描述文本的效率和准确率。

步骤204：终端根据该动态事件描述文本，确定该待处理视频的视频标签。

在一种可能的实现方式中，终端可以直接将该动态事件描述文本确定为该待处理视频的视频标签。在另一种可能的实现方式中，终端可以将动态事件描述文本进行分词，从分词后得到的关键字中选择该待处理视频的视频标签。

当终端将动态事件描述文本进行分词，从分词后得到的关键字中选择该待处理视频的视频标签时，终端根据该动态事件描述文本，确定该待处理视频的视频标签的过程可以通过以下步骤(1)-(3)实现，参见图5，包括：

(1)终端对该动态事件描述文本进行分词，得到多个关键字。

在本步骤中，终端将该动态事件描述文本拆分成多个关键字。其中，终端可以采用基于字典或词库进行匹配的逆向最大匹配法(Reverse Maximum Match，RMM)将动态时间描述文本拆分为关键字或短语。例如，该动态事件描述文本为“在草地上踢足球”，终端通过该RMM算法，可以将该动态事件描述文本拆分为“在/草地/上/踢/足球”。

(2)终端从该多个关键字中选择词性为目标词性的目标动态事件关键字。

在本步骤中，终端可以根据词语的词性从拆分得到的多个关键字中选择目标动态事件关键字。其中，该目标词性可以根据需要进行设置并更改，并且，该目标词性的数量也可以根据需要进行设置并更改，在本申请实施例中，对此均不作具体限定。例如，该目标词性可以为2个，分别为名词和动词。

相应的，在本步骤中，终端确定拆分得到的多个关键字的词性，将拆分得到的多个关键字的词性与目标词性进行对比，从多个关键字中，选择目标词性对应的关键字，将该关键字作为目标动态事件关键字。例如，继续以步骤(1)中得到多个关键字进行说明，终端确定“在”的词性为介词，“草地”的词性为名词，“上”的词性为介词，“踢”的词性为动词，“足球”的词性为名词，则当目标词性为动词和名词时，选择的，目标动态时间关键字为“草地”、“踢”和“足球”。

在另一种可能的实现方式中，终端还可以从该多个关键字中提取目标词性组成的短语。例如，继续以步骤(1)中得到多个关键字进行说明，当目标词性为动词和名词，则提取的关键字为由动词和名词组成的短语，则该多个关键字中可以组成动词和名词的短语的是“踢”和“足球”，则终端选择的目标动态事件关键字为“踢足球”。

(3)终端将该目标动态事件关键字组成该待处理视频的视频标签。

在本步骤中，终端将选择的目标动态事件关键字组成该待处理视频的视频标签。例如，该目标动态事件关键字为“踢足球”，则终端将该待处理视频的视频标签确定为“踢足球”。

在本实现方式中，通过将动态事件描述文本进行分词，从分词得到的多个关键字中选择词性为目标词性的目标动态事件关键字，从而使得目标动态事件关键字为更具有有效信息的关键字，从而使带出待处理视频的视频标签更加准确。

需要说明的一点是，终端可以将每个子视频的时序特征信息融合，得到该待处理视频的时序特征信息，在执行步骤203-204，得到该待处理视频的视频标签。终端还可以基于每个子视频执行步骤203-204，得到待处理视频的多个视频标签。在一种可能的实现方式中，终端将每个子视频对应的视频标签都作为待处理视频的视频标签。在另一种可能的实现方式中，终端对至少一个子视频对应的视频标签进行投票，将票数多的视频标签作为该待处理视频的视频标签。

参见图7，终端还可以通过确定待处理视频中的第二目标帧图像，对第二目标帧图像进行图像分类，得到第二目标帧图像的静态图像标签，以及，获取该目标帧图像的动态事件描述文本，通过该静态图像标签和动态事件描述文本确定该待处理视频的视频标签。请参考图8，其示出了本申请一个示例性实施例示出的视频标签确定方法的流程图。本申请实施例中的执行主体可以为终端100，也可以为终端100中的处理器110或终端100中的操作系统，本实施例以执行主体为终端100为例进行说明。在本申请实施例中，以通过待处理视频的中第一目标帧图像中目标对象的位移信息和第二目标帧图像的图像类别标签作为待处理的视频标签为例进行说明。该方法包括：

步骤801：终端获取待处理视频。

本步骤与步骤201相似，在此不再赘述。

步骤802：终端提取该待处理视频中多个第一目标帧图像之间的时序特征信息，该时序特征信息为根据不同时间点的第一目标帧图像的特征差异确定的。

本步骤与步骤202相似，在此不再赘述。

步骤803：终端根据该时序特征信息，生成用于描述该待处理视频对应的动态事件的动态事件描述文本。

本步骤与步骤203相似，在此不再赘述。

步骤804：根据该待处理视频中的第二目标帧图像，确定该第二目标帧图像的静态图像内容。

在本步骤中，终端从待处理视频的多个帧图像中，选择第二目标帧图像。其中，该第二目标帧图像可以为该待处理视频中的第一个帧图像，也可以为该待处理视频中任一指定位置的帧图像。在本申请实施例中，对该第二目标帧图像不作具体限定。该静态内容可以包括第二目标帧图像中的目标对象、环境信息等。

终端对该第二目标帧图像进行目标对象识别，从而获取该第二目标帧图像中的静态图像内容。其中，终端可以根据特征提取技术提取该第二目标帧图像的静态图像内容。例如，终端可以通过提取第二目标帧图像的纹理特征、边缘特征等，终端通过提取的静态特征，确定第二目标帧图像的静态图像内容。

步骤805：终端根据该静态图像内容，对该第二目标帧图像进行图像分类，得到该第二目标帧图像的静态图像标签。

终端可以通过图像类别识别模型对该第二目标帧图像进行图像识别。其中，该图像类别识别模型可以为轻量化的分类模型，例如，mobilenetV2模型等。

终端将第二目标帧图像输入至图像类别识别模型中，通过该图像类别识别模型对该第二目标帧图像进行分类，得到第二目标帧图像的图像类别，终端根据该第二目标帧图像的图像类别确定该第二目标帧图像的静态图像标签。在一种可能的实现方式中，终端将该第二目标帧图像的图像类别作为该目标帧图像的静态图像标签。在另一种可能的实现方式中，终端对得到的第二目标帧图像的图像类别进行分词，得到静态内容关键词，从静态内容关键词中选择第二目标帧图像的静态图像标签。

需要说明的一点是，终端可以从待处理视频中选择一个第二目标帧图像，终端也可以从待处理视频中选择多个第二目标帧图像，分别确定每个第二目标为帧图像的静态图像标签，根据该多个静态图像标签确定该待处理视频对应的静态图像标签。

需要说明的另一点是，待处理视频所在的视频库中还可以存储多个图像，终端需要分别对这些图像进行图像识别，得到这些图像对应的图像标签。终端可以使用相同的图像类别识别模型对这些图像和第二目标帧图像进行图像分类。

需要说明的另一点是，终端可以先确定待处理视频的动态事件描述文本，再确定待处理视频的静态图像标签；终端可以先确定待处理视频的静态图像标签，再确定待处理视频的动态事件描述文本；终端还可以同时确定待处理视频的动态特征描述文本，再确定待处理视频的静态图像标签。也即，终端可以先执行步骤801-803，再执行步骤804-805；终端也可以先执行步骤804-805，再执行步骤801-803；终端还可以同时执行步骤801-803和步骤804-805。在本申请实施例中，对终端确定该待处理视频的动态描述文本和静态图像标签的顺序不作具体限定。

步骤806：终端根据该静态图像标签和该动态事件描述文本，确定该待处理视频的视频标签。

在本步骤中，终端根据动态事件描述文本，确定该待处理视频的目标动态事件关键字，将待处理视频的静态图像标签和目标动态事件关键字组成该待处理视频的视频标签。其中，终端根据动态事件描述文本确定该待处理视频的目标动态事件关键字的过程与步骤204中终端根据该动态事件描述文本，确定该待处理视频的视频标签的过程相似，在此不再赘述。

参见图9，终端分别对第二目标帧图像进行图像分类，得到第二目标帧图像对象的静态图像标签。例如，“人”和“室内”；以及，确定多个第一目标帧图像的动态事件描述文本，对动态事件描述文本进行拆分，得到多个关键字。例如，“人”、“在”和“走路”，从该多个关键字中选择目标词性，作为目标动态事件关键字，例如，可以为“走路”。将该静态图像标签和目标动态事件关键字组成视频标签，该视频标签可以为“人”、“室内”和“走路”。

在本申请实施例中，获取待处理视频；提取待处理视频中多个第一目标帧图像之间的时序特征信息，时序特征信息为根据不同时间点的第一目标帧图像的特征差异确定的信息；根据时序特征信息，生成用于描述待处理视频对应的动态事件的动态事件描述文本；根据动态事件描述文本，确定待处理视频的视频标签。通过获取待处理视频中动态事件描述文本，确定待处理视频的视频标签，通过将待处理视频的静态图像标签和目标动态事件关键字组成待处理视频的视频标签，从而更深度地挖掘了视频信息，丰富了待处理视频的标签内容，从而丰富了用户对视频进行管理的维度，以便用户可以更准确、更便利地管理视频。

终端得到待处理的视频标签时，可以将视频标签与该视频标签对应的视频进行关联存储。以便终端可以根据视频标签对视频库中的视频进行分类和管理。终端还可以接收用户输入的目标视频标签，根据该目标视频标签查询该目标视频。请参考图10，其示出了本申请一个示例性实施例示出的视频标签确定方法的流程图。本申请实施例中的执行主体可以为终端100，也可以为终端100中的处理器110或终端100中的操作系统，本实施例以执行主体为终端100为例进行说明。在本申请实施例中，以根据目标视频标签在视频库中目标视频为例进行说明。该方法包括：

步骤1001：终端将该待处理视频的视频标签存储到视频库中，该视频库包括多个视频的视频标识和该视频的视频标签。

终端得到待处理的视频标签时，将视频标签与该视频标签对应的视频进行关联存储。

该视频库可以为终端中相册软件对应的视频库。相应的，相册软件中显示视频搜索框，终端通过该视频搜索框接收用户输入的目标视频标签。其中，该视频搜索框中可以接收任一数量的目标视频标签。在一种可能的实现方式中，终端对接收到的目标视频标签的数量不作具体限定。在另一种可能的实现方式中，终端只接收目标数量的目标视频标签。该目标数量可以根据需要进行设置并更改，在本申请实施例中，对该目标数量不作具体限定。例如，该目标数量可以为1、3或5等。

需要说明的一点是，响应于终端中只接收目标数量的视频标签，终端还可以接收目标数量一下的视频标签。响应于用户输入的目标视频标签的数量大于目标数量，终端可以向用户发送数量提示信息，该数量提示信息用于提示用户减少输入的目标视频标签。或者，响应于用户输入的目标视频标签的数量大于目标数量，终端可以直接将用户输入的目标视频标签中的前几个视频标签作为目标视频标签。

步骤1002：响应于接收到待查询的目标视频标签，终端根据该目标视频标签，从该视频库中确定与该目标标签匹配的目标视频。

响应于终端接收到待查询的目标视频标签，终端根据该目标视频标签从视频库中获取携带该目标视频标签的目标视频。

步骤1003：终端将该目标视频展示在显示界面中。

该显示界面可以为终端中相册软件的显示界面，也可以为视频播放器的显示界面。相应的，终端确定到目标视频后，可以将该目标视频显示在相册软件的显示界面中，也可以将该目标视频显示在视频播放器的显示界面中。

在本申请实施例中，获取待处理视频；提取待处理视频中多个第一目标帧图像之间的时序特征信息，时序特征信息为根据不同时间点的第一目标帧图像的特征差异确定的信息；根据时序特征信息，生成用于描述待处理视频对应的动态事件的动态事件描述文本；根据动态事件描述文本，确定待处理视频的视频标签，根据接收到的目标视频标签对视频进行搜索，由于存储的视频标签包含更深度的视频信息，丰富的标签内容，从而用户可以更准确、更便利地搜索视频。

请参考图11，其示出了本申请一个实施例提供的视频标签确定装置的结构框图。该视频标签确定装置可以通过软件、硬件或者两者的结合实现成为处理器110的全部或一部分。该装置包括：

获取模块1101，用于获取待处理视频；

提取模块1102，用于提取该待处理视频中多个第一目标帧图像之间的时序特征信息，该时序特征信息为根据不同时间点的第一目标帧图像的特征差异确定的；

生成模块1103，用于根据该时序特征信息，生成用于描述该待处理视频对应的动态事件的动态事件描述文本；

第一确定模块1104，用于根据该动态事件描述文本，确定该待处理视频的视频标签。

在一种可能的实现方式中，该提取模块1102，还用于确定该多个第一目标帧图像中的目标对象；根据该目标对象在该第一目标帧图像中的位置，确定该多个第一目标帧图像中目标对象的位移信息；根据该多个第一目标帧图像中目标对象的位移信息，确定该待处理视频中多个第一目标帧图像之间的时序特征信息。

在另一种可能的实现方式中，该提取模块1102，还用于确定该多个第一目标帧图像中包含相似像素信息的目标像素点；确定该目标像素点在该第一目标帧图像中的位置；根据相邻的第一目标帧图像中该目标像素点的位置，确定该目标像素点的位置差值，得到目标像素点的位移向量；将该多个第一目标帧图像中该目标像素点的位移向量，组成该多个第一目标帧图像中目标对象的位移信息。

在另一种可能的实现方式中，该提取模块1102，还用于确定该多个第一目标帧图像在该待处理视频中的时序顺序；根据该时序顺序和预设权重，将该目标像素点的位移信息组成向量矩阵；将该向量矩阵作为该时序特征信息。

在另一种可能的实现方式中，该生成模块1103，还用于识别该待处理视频中的发生动态事件的目标对象；根据该时序特征信息，确定该目标对象产生的动态事件；根据该目标对象和该目标对象产生的动态事件，生成该动态事件描述文本。

在另一种可能的实现方式中，该生成模块1103，还用于获取视频分类模型，该视频分类模型用于根据所述时序特征信息，确定所述目标对象产生的动态事件；将该时序特征信息输入至该视频分类模型中，得到该待处理视频中目标对象产生的动态事件。

在另一种可能的实现方式中，该第一确定模块1104，还用于对该动态事件描述文本进行分词，得到多个关键字；从该多个关键字中选择词性为目标词性的目标动态事件关键字；将该目标动态事件关键字组成该待处理视频的视频标签。

在另一种可能的实现方式中，该装置还包括：

第二确定模块，用于根据该待处理视频中的第二目标帧图像，确定该第二目标帧图像的静态图像内容；

图像分类模块，用于根据该静态图像内容，对该第二目标帧图像进行图像分类，得到该第二目标帧图像的静态图像标签；

该第一确定模块1104，还用于根据该静态图像标签和该动态事件描述文本，确定该待处理视频的视频标签。

在另一种可能的实现方式中，该提取模块1102，还用于根据第一目标时长，将该待处理视频拆分为至少一个子视频；确定该子视频的多个第三目标帧图像之间的时序特征信息；根据至少一个该子视频的多个第三目标帧图像之间的时序特征信息，确定该待处理视频中多个第一目标帧图像之间的时序特征信息。

在另一种可能的实现方式中，该提取模块1102，还用于确定该待处理视频的视频时长；响应于该视频时长小于第二目标时长，根据该第一目标时长对该待处理视频进行拆分，得到至少一个子视频；响应于该视频时长不小于该第二目标时长，根据第一目标时长对该第二目标时长内的该待处理视频进行拆分，得到第一子视频，以及，确定该待处理视频的第二子视频，该第二子视频为从超出该第二目标时长的待处理视频中提取的子视频；将该第一子视频和该第二子视频组成该待处理视频的至少一个该子视频。

在另一种可能的实现方式中，该装置还包括：

存储模块，用于将该待处理视频的视频标签存储到视频库中，该视频库包括多个视频的视频标识和该视频的视频标签；

第三确定模块，用于响应于接收到待查询的目标视频标签，根据该目标视频标签，从该视频库中确定与该目标标签匹配的目标视频；

展示模块，用于将该目标视频展示在显示界面中。

本申请实施例还提供了一种计算机可读介质，该计算机可读介质存储有至少一条指令，该至少一条指令由该处理器加载并执行以实现如上各个实施例示出的视频标签确定方法。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，该至少一条指令由该处理器加载并执行以实现如上各个实施例示出的视频标签确定方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频标签确定方法，其特征在于，所述方法包括：

获取待处理视频；

2.根据权利要求1所述的方法，其特征在于，所述提取所述待处理视频中多个第一目标帧图像之间的时序特征信息，包括：

确定所述多个第一目标帧图像中的目标对象；

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标对象在所述第一目标帧图像中的位置，确定所述多个第一目标帧图像中目标对象的位移信息，包括：

确定所述目标像素点在所述第一目标帧图像中的位置；

4.根据权利要求2所述的方法，其特征在于，所述根据所述多个第一目标帧图像中目标对象的位移信息，确定所述待处理视频中多个第一目标帧图像之间的时序特征信息，包括：

将所述向量矩阵作为所述时序特征信息。

5.根据权利要求1所述的方法，其特征在于，所述根据所述时序特征信息，生成用于描述所述待处理视频对应的动态事件的动态事件描述文本，包括：

识别所述待处理视频中的发生动态事件的目标对象；

6.根据权利要求5所述的方法，其特征在于，所述根据所述时序特征信息，确定所述目标对象产生的动态事件，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述动态事件描述文本，确定所述待处理视频的视频标签，包括：

对所述动态事件描述文本进行分词，得到多个关键字；

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述提取所述待处理视频中多个第一目标帧图像之间的时序特征信息，包括：

10.根据权利要求9所述的方法，其特征在于，所述根据第一目标时长，将所述待处理视频拆分为至少一个子视频，包括：

确定所述待处理视频的视频时长；

11.根据权利要求1-10任一项所述的方法，其特征在于，所述方法还包括：

将所述目标视频展示在显示界面中。

12.一种视频标签确定装置，其特征在于，所述装置包括：

获取模块，用于获取待处理视频；

13.一种终端，其特征在于，所述终端包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如权利要求1至11任一所述的视频标签确定方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令，所述至少一条指令用于被处理器执行以实现如权利要求1至11任一所述的视频标签确定方法。