CN110059225A

CN110059225A - 视频分类方法、装置、终端设备及存储介质

Info

Publication number: CN110059225A
Application number: CN201910182105.6A
Authority: CN
Inventors: 梁大为
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2019-07-26
Anticipated expiration: 2039-03-11
Also published as: CN110059225B

Abstract

本申请提供了一种视频分类方法、装置、终端设备及存储介质。在本申请中，获取视频的图像数据、音频数据以及文本数据；根据该图像数据、该音频数据以及该文本数据分别同时获取该视频的图像特征、音频特征以及文本特征；然后根据该图像特征、该音频特征以及该文本特征对该视频分类。由于获取该视频的图像特征的过程、获取该视频的音频特征的过程以及获取该视频的文本特征的过程是同时进行的，从而使得获取该视频的图像特征、音频特征以及文本特征的过程所需耗费的时间长度为这三个过程中的其中一个过程耗费的时间长度，例如耗费的最长时间长度，其小于这三个过程分别所需耗费的时间长度的总和，从而相比于现有技术，本申请可提高视频分类的效率。

Description

视频分类方法、装置、终端设备及存储介质

技术领域

本申请涉及互联网技术领域，特别是涉及一种视频分类方法、装置、终端设备及存储介质。

背景技术

随着互联网的飞速发展，互联网上的视频呈现爆炸式增长，在这种情况下，视频的分类对于实现视频的管理以及兴趣推荐具有十分重要的作用。

当需要对视频分类时，可以依次先后获取视频的各个特征，例如图像特征、音频特征以及文本特征等，然后基于视频的各个特征对视频分类。

然而，发明人发现，依次先后获取视频的各个特征所需耗费的时间长度较大，从而导致对视频分类的效率较低。

发明内容

为解决上述技术问题，本申请实施例示出了一种视频分类方法、装置、终端设备及存储介质。

第一方面，本申请实施例示出了一种视频分类方法，所述方法包括：

获取视频的图像数据、音频数据以及文本数据；

根据所述图像数据、所述音频数据以及所述文本数据分别同时获取所述视频的图像特征、音频特征以及文本特征；

根据所述图像特征、所述音频特征以及所述文本特征对所述视频分类。

在一个可选的实现方式中，所述获取视频的图像数据、音频数据以及文本数据，包括：

获取所述视频的视频标识；

根据所述视频标识分别从预设图像数据队列中获取所述图像数据，同时从预设音频数据队列中获取所述音频数据，且同时从预设文本数据队列中获取所述文本数据。

在一个可选的实现方式中，所述根据所述图像数据、所述音频数据以及所述文本数据分别同时获取所述视频的图像特征、音频特征以及文本特征，包括：

同时分配第一图像进程、第一音频进程以及第一文本进程；

使用所述第一图像进程根据所述图像数据获取所述图像特征，同时使用所述第一音频进程根据所述音频数据获取所述音频特征，且同时使用所述第一文本进程根据所述文本数据获取所述文本特征。

在一个可选的实现方式中，所述同时分配第一图像进程、第一音频进程以及第一文本进程，包括：

确定在历史过程中使用一个图像进程根据图像数据获取图像特征的第一获取速度；

确定在历史过程中使用一个音频进程根据音频数据获取音频特征的第二获取速度；

确定在历史过程中使用一个文本进程根据文本数据获取文本特征的第三获取速度；

根据所述第一获取速度、所述第二获取速度以及第三获取速度，确定图像进程的第一分配数量、音频进程的第二分配数量以及文本进程的第三分配数量；

分配所述第一分配数量个第一图像进程，同时分配所述第二分配数量个第一音频进程，且同时分配所述第三分配数量个第一文本进程。

在一个可选的实现方式中，所述方法还包括：

确定所述预设图像数据队列中的图像数据的数量是否大于第一预设阈值；

如果所述预设图像数据队列中的图像数据的数量大于第一预设阈值，则分配第二图像进程；

使用所述第一图像进程和所述第二图像进程，同时根据所述预设图像数据队列中的视频的图像数据获取视频的图像特征；

如果所述预设图像数据队列中的图像数据的数量小于或等于第一预设阈值，则回收部分第一图像进程。

在一个可选的实现方式中，所述方法还包括：

确定所述预设音频数据队列中的音频数据的数量是否大于第二预设阈值；

如果所述预设音频数据队列中的音频数据的数量大于第二预设阈值，则分配第二音频进程；使用所述第一音频进程和所述第二音频进程，同时根据所述预设音频数据队列中的视频的音频数据获取视频的音频特征；

如果所述预设音频数据队列中的音频数据的数量小于或等于第二预设阈值，则回收部分第一音频进程。

在一个可选的实现方式中，所述方法还包括：

确定所述预设文本数据队列中的文本数据的数量是否大于第三预设阈值；

如果所述预设文本数据队列中的文本数据的数量大于第三预设阈值，则分配第二文本进程；使用所述第一文本进程和所述第二文本进程，同时根据所述预设文本数据队列中的视频的文本数据获取视频的文本特征；

如果所述预设文本数据队列中的文本数据的数量小于或等于第三预设阈值，则回收部分第一文本进程。

第二方面，本申请实施例示出了一种视频分类装置，所述装置包括：

第一获取模块，用于获取视频的图像数据、音频数据以及文本数据；

第二获取模块，用于根据所述图像数据、所述音频数据以及所述文本数据分别同时获取所述视频的图像特征、音频特征以及文本特征；

分类模块，用于根据所述图像特征、所述音频特征以及所述文本特征对所述视频分类。

在一个可选的实现方式中，所述第一获取模块包括：

第一获取单元，用于获取所述视频的视频标识；

第二获取单元，用于根据所述视频标识分别从预设图像数据队列中获取所述图像数据，同时从预设音频数据队列中获取所述音频数据，且同时从预设文本数据队列中获取所述文本数据。

在一个可选的实现方式中，所述第二获取模块包括：

分配单元，用于同时分配第一图像进程、第一音频进程以及第一文本进程；

第三获取单元，用于使用所述第一图像进程根据所述图像数据获取所述图像特征，同时使用所述第一音频进程根据所述音频数据获取所述音频特征，且同时使用所述第一文本进程根据所述文本数据获取所述文本特征。

在一个可选的实现方式中，所述分配单元包括：

第一确定子单元，用于确定在历史过程中使用一个图像进程根据图像数据获取图像特征的第一获取速度；

第二确定子单元，用于确定在历史过程中使用一个音频进程根据音频数据获取音频特征的第二获取速度；

第三确定子单元，用于确定在历史过程中使用一个文本进程根据文本数据获取文本特征的第三获取速度；

第四确定子单元，用于根据所述第一获取速度、所述第二获取速度以及第三获取速度，确定图像进程的第一分配数量、音频进程的第二分配数量以及文本进程的第三分配数量；

第一分配子单元，用于分配所述第一分配数量个第一图像进程，同时分配所述第二分配数量个第一音频进程，且同时分配所述第三分配数量个第一文本进程。

在一个可选的实现方式中，所述分配单元还包括：

第五确定子单元，用于确定所述预设图像数据队列中的图像数据的数量是否大于第一预设阈值；

第二分配子单元，用于如果所述预设图像数据队列中的图像数据的数量大于第一预设阈值，则分配第二图像进程；

第一获取子单元，用于使用所述第一图像进程和所述第二图像进程，同时根据所述预设图像数据队列中的视频的图像数据获取视频的图像特征；

第一回收子单元，用于如果所述预设图像数据队列中的图像数据的数量小于或等于第一预设阈值，则回收部分第一图像进程。

在一个可选的实现方式中，所述分配子单元还包括：

第六确定子单元，用于确定所述预设音频数据队列中的音频数据的数量是否大于第二预设阈值；

第三分配子单元，用于如果所述预设音频数据队列中的音频数据的数量大于第二预设阈值，则分配第二音频进程；

第二获取子单元，用于使用所述第一音频进程和所述第二音频进程，同时根据所述预设音频数据队列中的视频的音频数据获取视频的音频特征；

第二回收子单元，用于如果所述预设音频数据队列中的音频数据的数量小于或等于第二预设阈值，则回收部分第一音频进程。

在一个可选的实现方式中，所述分配子单元还包括：

第七确定子单元，用于确定所述预设文本数据队列中的文本数据的数量是否大于第三预设阈值；

第四分配子单元，用于如果所述预设文本数据队列中的文本数据的数量大于第三预设阈值，则分配第二文本进程；

第三获取子单元，用于使用所述第一文本进程和所述第二文本进程，同时根据所述预设文本数据队列中的视频的文本数据获取视频的文本特征；

第三回收子单元，用于如果所述预设文本数据队列中的文本数据的数量小于或等于第三预设阈值，则回收部分第一文本进程。

第三方面，本申请实施例示出了一种终端设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述任一项所述的视频分类方法。

第四方面，本申请实施例示出了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的视频分类方法。

与现有技术相比，本申请实施例包括以下优点：

在现有技术中，在获取视频的图像特征、音频特征以及文本特征时，通常情况下，获取视频的图像特征的过程、获取视频的音频特征的过程以及获取视频的文本特征的过程是串行进行的，从而使得获取视频的图像特征、音频特征以及文本特征的过程所需耗费的时间长度为这三个过程分别所需耗费的时间长度的总和，从而导致对视频分类的效率较低。

而在本申请中，可以获取视频的图像数据、音频数据以及文本数据；根据该图像数据、该音频数据以及该文本数据分别同时获取该视频的图像特征、音频特征以及文本特征；然后根据该图像特征、该音频特征以及该文本特征对该视频分类。由于获取该视频的图像特征的过程、获取该视频的音频特征的过程以及获取该视频的文本特征的过程是同时进行的，从而使得获取该视频的图像特征、音频特征以及文本特征的过程所需耗费的时间长度为这三个过程中的其中一个过程耗费的时间长度，例如耗费的最长时间长度，其小于这三个过程分别所需耗费的时间长度的总和，从而相比于现有技术，本申请可以提高视频分类的效率。

附图说明

图1是本申请的一种视频分类方法实施例的步骤流程图；

图2是本申请的一种视频分类方法实施例的步骤流程图；

图3是本申请的一种视频分类方法实施例的步骤流程图；

图4是本申请的一种视频分类方法实施例的步骤流程图；

图5是本申请的一种视频分类方法实施例的步骤流程图；

图6是本申请的一种视频分类方法实施例的步骤流程图；

图7是本申请的一种视频分类装置实施例的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，示出了本申请的一种视频分类方法实施例的步骤流程图，该方法具体可以包括如下步骤：

在步骤S101中，获取视频的图像数据、音频数据以及文本数据；

在一个实施例中，在获取到视频之后，可以使用现有技术中的任意一种解析方式解析出该视频中的图像数据和音频数据，本申请对具体的解析方式不做限定。例如，该视频可以为用户上传的短视频等。

其中，在获取到该视频时，可以同时获取到该视频的文本数据，例如，用户使用终端拍摄一视频，并在终端上编辑该视频的描述文本，然后控制终端向服务器上传该视频以及该视频的描述文本，如此，服务器在接收到该视频时，也会接收到该视频的描述文本，然后将该视频的描述文本确定为该视频的文本数据。

或者，在另一实施例中，用户在控制终端上传视频时可能并未上传视频的描述文本，如此服务器在得到该视频时得不到该视频的描述文本，在这种情况下，可以分析该视频的图像数据中的文本，例如，视频中携带弹幕文本，可以根据图像数据分析出该弹幕文本，并作为该视频的文本数据。

或者，在另一实施例中，视频往往也具备标题，在获取到该视频时，如果同时得到了该视频的标题，则可以将该视频的标题确定为该视频的文本数据。

为了对该视频分类，在得到该视频的图像数据、音频数据以及文本数据之后，可以执行步骤S102。

在步骤S102中，根据该图像数据、该音频数据以及该文本数据分别同时获取该视频的图像特征、音频特征以及文本特征；

在本申请中，根据该图像数据获取该视频的图像特征的过程、根据该音频数据获取该视频的音频特征的过程，以及，根据该文本数据获取该视频的文本特征的过程是并行进行的，或者说是同时进行的。

其中，事先可以训练基于神经网络的图像数据获取模型，因此，在本步骤中，可以使用基于神经网络的图像数据获取模型和该视频的图像数据获取该视频的图像特征。

例如，将该视频的图像数据输入至基于神经网络的图像数据获取模型中，得到基于神经网络的图像数据获取模型输出的该视频的图像特征。

事先可以训练基于神经网络的音频数据获取模型，因此，在本步骤中，可以使用基于神经网络的音频数据获取模型和该视频的音频数据获取该视频的音频特征。

例如，将该视频的音频数据输入至基于神经网络的音频数据获取模型中，得到基于神经网络的音频数据获取模型输出的该视频的音频特征。

事先可以训练基于神经网络的文本数据获取模型，因此，在本步骤中，可以使用基于神经网络的文本数据获取模型和该视频的文本数据获取该视频的文本特征。

例如，将该视频的文本数据输入至基于神经网络的文本数据获取模型中，得到基于神经网络的文本数据获取模型输出的该视频的文本特征。

在步骤S103中，根据该图像特征、该音频特征以及该文本特征对该视频分类。

在本申请中，事先可以获取样本特征集，样本特征集中包括至少一个标注有分类标签的样本特征，样本特征包括样本图像特征、样本音频特征以及样本文本特征，

可以使用样本特征集中的样本特征对预设的神经网络模型进行训练，直至预设的神经网络模型中的权重均收敛，从而得到基于神经网络的视频分类模型。

预设的神经网络模型包括CNN(Convolutional Neural Networks，卷积神经网络)或LSTM(Long Short-Term Memory，长短期记忆网络)等，本申请对此不加以限定。

如此，在本步骤中，可以使用基于神经网络的视频分类模型来根据该图像特征、该音频特征以及该文本特征确定该视频的分类标签。

例如，将该图像特征、该音频特征以及该文本特征输入至基于神经网络的视频分类模型中，得到基于神经网络的视频分类模型输出的分类标签，并作为该视频的分类标签。

其中，在一个实施例中，在获取视频的图像数据时，可以间断采样视频中的若干帧图像，提取每一帧图像的特征，每一帧图像的特征即为一个向量，然后将若干帧图像的特征组成一个矩阵，然后可以对该矩阵进行时序平均池化操作，以实现将该矩阵聚合为一个向量，并作为该视频的图像特征。

另外，在获取视频的音频数据时，可以间断采样视频中的若干段音频频段，提取每一段音频片段的特征，每一段音频片段的特征即为一个向量，然后将若干段音频频段的特征组成一个矩阵，然后可以对该矩阵进行时序平均池化操作，以实现将该矩阵聚合为一个向量，并作为该视频的音频特征。

其次，在获取视频的文本数据时，可以获取与一段文本，例如视频的标题等，然后提取该一段文本的特征，该一段文本的特征即为一个向量，可以将该向量作为该视频的文本特征。

如此，视频的图像特征为一个向量，视频的音频特征为一个向量，视频的文本特征也为一个向量，可以将这三个向量聚合为一个新的向量，例如将这三个向量首尾相连，得到一个新的向量，然后将新的向量输入至基于神经网络的视频分类模型中，得到基于神经网络的视频分类模型输出的分类标签，并作为该视频的分类标签。

进一步地，可以根据该视频的分类标签存储该视频或者向用户推荐该视频等。

在前述实施例中，在得到该视频之后，通常是使用至少一个进程来获取该视频的图像数据、音频数据以及文本数据，之后使用至少一个进程来根据该视频的图像数据获取该视频的图像特征，同时使用至少一个进程来根据该视频的音频数据获取该视频的音频特征，且同时使用至少一个进程来根据该视频的文本数据获取该视频的文本特征。

然而，获取该视频的图像数据、音频数据以及文本数据的过程往往只需要耗费较少的时间长度，而根据该视频的图像数据获取该视频的图像特征的过程所需耗费的时间长度、根据该视频的音频数据获取该视频的音频特征的过程所需耗费的时间长度、以及根据该视频的文本数据获取该视频的文本特征的过程所需耗费的时间长度往往均大于获取该视频的图像数据、音频数据以及文本数据的过程所需耗费的时间长度。

在这种情况下，如果广大用户在短时间内分别向服务器上传视频，则服务器就会在短时间内接收到大量的视频，服务器需要对每一个视频分别分类，因此服务器会对每一个视频分别前述实施例中的步骤S101～步骤S103的流程处理。

然而，很可能服务器在根据顺序靠前的视频的图像数据、音频数据以及文本数据分别同时获取顺序靠前的视频的图像特征、音频特征以及文本特征的过程中，就已经得到顺序靠后的大量的视频的图像数据、音频数据以及文本数据，从而会造成顺序靠后的大量的视频的图像数据、音频数据以及文本数据堆积，很可能导致这些数据丢失，进而导致无法对有些视频分类。

为了避免上述情况发生，参见图2，在本申请另一实施例中，在得到一视频并使用现有技术中的任意一种解析方式解析出视频中的图像数据和音频数据之后，可以根据该视频的视频标识将该视频的图像数据存储在预设图像数据队列中，以及根据该视频的视频标识将该视频的音频数据存储在预设音频数据队列中，且在得到该视频的文本数据之后，可以根据该视频的视频标识将该视频的文本数据存储在预设文本数据队列中，以实现对该视频的图像数据、音频数据以及文本数据分别缓存。

之后，当需要对该视频分类时，可以获取该视频的视频标识，然后根据该视频标识分别从预设图像数据队列中获取该视频的图像数据，同时根据该视频标识从预设音频数据队列中获取该视频的音频数据，且同时根据该视频标识从预设文本数据队列中获取该视频的文本数据。然后再执行步骤S102。

另外，在根据该视频的图像数据获取该视频的图像特征之后，可以根据该视频的视频标识将该视频的图像特征存储在预设图像特征队列中，以及，在根据该视频的音频数据获取该视频的音频特征之后，可以根据该视频的视频标识将该视频的音频特征存储在预设音频特征队列中，以及，在根据该视频的文本数据获取该视频的文本特征之后，可以根据该视频的视频标识将该视频的文本特征存储在预设文本特征队列中，以实现对该视频的图像特征、音频特征以及文本特征分别缓存。

之后，当需要对该视频分类时，可以获取该视频的视频标识，然后根据该视频标识分别从预设图像特征队列中获取该视频的图像特征，同时根据该视频标识从预设音频特征队列中获取该视频的音频特征，且同时根据该视频标识从预设文本特征队列中获取该视频的文本特征。然后再执行步骤S103。

在本申请另一实施例中，参见图3，步骤S102包括：

在步骤S201中，同时分配第一图像进程、第一音频进程以及第一文本进程；

在本申请中，根据该视频的图像数据获取该视频的图像特征的过程、根据该视频的音频数据获取该视频的音频特征的过程与根据该视频的文本数据获取该视频的文本特征的过程是三个独立并行的过程，这三个过程所需耗费的时间长度往往不同，然而，在得到该视频的图像特征、音频特征以及文本特征之后，才能根据该视频的图像特征、音频特征以及文本特征对视频分类。

如此，对视频分类的效率取决于三个过程中耗费的时间长度，例如，取决于三个过程中耗费的最长的时间长度，为了提高对视频分类的效率，可以降低三个过程中的至少一个过程耗费时间长度。

在本申请中，需要使用进程来根据该视频的图像数据获取该视频的图像特征，需要使用进程来根据该视频的音频数据获取该视频的音频特征的过程，以及需要使用进程来根据该视频的文本数据获取该视频的文本特征。

根据该视频的图像数据获取该视频的图像特征的过程所需耗费的时间长度取决于在该过程中使用的进程的数量，根据该视频的音频数据获取该视频的音频特征的过程所需耗费的时间长度取决于在该过程中使用的进程的数量，根据该视频的文本数据获取该视频的文本特征的过程所需耗费的时间长度取决于在该过程中使用的进程的数量。

因此，可以同时分配至少一个第一图像进程、至少一个第一音频进程以及至少一个第一文本进程。

例如，确定在历史过程中使用一个图像进程根据图像数据获取图像特征的第一获取速度，使用一个音频进程根据音频数据获取音频特征的第二获取速度以及使用一个文本进程根据文本数据获取文本特征的第三获取速度；

然后根据第一获取速度、第二获取速度以及第三获取速度确定图像进程的第一分配数量、音频进程的第二分配数量以及文本进程的第三分配数量；再分配第一分配数量个第一图像进程，同时分配第二分配数量个第一音频进程，且同时分配第三分配数量个第一文本进程。

如此使得使用第一分配数量个第一图像进程来根据该视频的图像数据获取该视频的图像特征的过程所需耗费的时间长度、使用第二分配数量个第一音频进程来根据该视频的音频数据获取该视频的音频特征的过程所需耗费的时间长度、使用第三分配数量个第一文本进程来根据该视频的文本数据获取该视频的文本特征的过程所需耗费的时间长度相同，且降低了三个过程中的每一个过程所需耗费的时间长度，从而可以提高根据该视频的图像数据、音频数据以及文本数据分别同时获取该视频的图像特征、音频特征以及文本特征的效率。

例如，在一个示例中，可以确定第一获取速度、第二获取速度以及第三获取速度之间的最小公倍数，计算最小公倍数与第一获取速度之间的比值，作为第一分配数量，计算最小公倍数与第二获取速度之间的比值，作为第二分配数量，计算最小公倍数与第三获取速度之间的比值，作为第三分配数量。

在步骤S202中，使用第一图像进程根据图像数据获取图像特征，同时使用第一音频进程根据音频数据获取音频特征，且同时使用第一文本进程根据文本数据获取文本特征。

在本申请中，根据该视频的图像数据获取该视频的图像特征的进程、根据该视频的音频数据获取该视频的音频特征的进程与根据该视频的文本数据获取该视频的文本特征的进程是三个独立并行的进程，这三个进程所需耗费的时间长度往往不同，如果三个进程中的某一进程所需耗费的时间长度较长，则会降低对视频分类的效率，导致该进程对应的数据队列中的数据堆积较多。

因此，为了提高对视频分类的效率，可以降低该进程所需耗费的时长。例如，对于预设图像数据队列，参见图4，在本申请另一实施例中，该方法还包括：

在步骤S301中，确定预设图像数据队列中的图像数据的数量是否大于第一预设阈值；

如果预设图像数据队列中的图像数据的数量大于第一预设阈值，在步骤S302中，分配第二图像进程；

其中，可以分配至少一个第二图像进程。

在步骤S303中，使用第一图像进程和第二图像进程同时根据预设图像数据队列中的视频的图像数据获取视频的图像特征。

通过本申请，结合第一图像进程和第二图像进程可以提高对预设图像数据队列中的视频的图像数据的处理效率，进而可以提高对视频分类的效率。

如果预设图像数据队列中的图像数据的数量小于或等于第一预设阈值，在步骤S304中，回收部分第一图像进程。

在本申请中，分配的第一图像进程为多个，如果预设图像数据队列中的图像数据的数量小于或等于第一预设阈值，则说明对预设图像数据队列中的视频的图像数据的处理效率较高，为了节省进程资源，可以回收至少一个第一图像进程。

因此，为了提高对视频分类的效率，可以降低该进程所需耗费的时长。例如，对于预设音频数据队列，参见图5，在本申请另一实施例中，该方法还包括：

在步骤S401中，确定预设音频数据队列中的音频数据的数量是否大于第二预设阈值；

如果预设音频数据队列中的音频数据的数量大于第二预设阈值，在步骤S402中，分配第二音频进程；

其中，可以分配至少一个第二音频进程。

在步骤S403中，使用第一音频进程和第二音频进程同时根据预设音频数据队列中的视频的音频数据获取视频的音频特征。

通过本申请，结合第一音频进程和第二音频进程可以提高对预设音频数据队列中的视频的音频数据的处理效率，进而可以提高对视频分类的效率。

如果预设音频数据队列中的音频数据的数量小于或等于第二预设阈值，在步骤S404中，回收部分第一音频进程。

在本申请中，分配的第一音频进程为多个，如果预设音频数据队列中的音频数据的数量小于或等于第二预设阈值，则说明对预设音频数据队列中的视频的音频数据的处理效率较高，为了节省进程资源，可以回收至少一个第一音频进程。

因此，为了提高对视频分类的效率，可以降低该过程所需耗费的时长。例如，对于预设文本数据队列，参见图6，在本申请另一实施例中，该方法还包括：

在步骤S501中，确定预设文本数据队列中的文本数据的数量是否大于第三预设阈值；

如果预设文本数据队列中的文本数据的数量大于第三预设阈值，在步骤S502中，分配第二文本进程；

其中，可以分配至少一个第二文本进程。

在步骤S503中，使用第一文本进程和第二文本进程同时根据预设文本数据队列中的视频的文本数据获取视频的文本特征。

通过本申请，结合第一文本进程和第二文本进程可以提高对预设文本数据队列中的视频的文本数据的处理效率，进而可以提高对视频分类的效率。

如果预设文本数据队列中的文本数据的数量小于或等于第三预设阈值，在步骤S504中，回收部分第一文本进程。

在本申请中，分配的第一文本进程为多个，如果预设文本数据队列中的文本数据的数量小于或等于第三预设阈值，则说明对预设文本数据队列中的视频的文本数据的处理效率较高，为了节省进程资源，可以回收至少一个第一文本进程。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

参照图7，示出了本申请一种视频分类装置实施例的结构框图，该装置具体可以包括如下模块：

第一获取模块11，用于获取视频的图像数据、音频数据以及文本数据；

第二获取模块12，用于根据所述图像数据、所述音频数据以及所述文本数据分别同时获取所述视频的图像特征、音频特征以及文本特征；

分类模块13，用于根据所述图像特征、所述音频特征以及所述文本特征对所述视频分类。

在一个可选的实现方式中，所述第一获取模块11包括：

第一获取单元，用于获取所述视频的视频标识；

在一个可选的实现方式中，所述第二获取模块12包括：

在一个可选的实现方式中，所述分配单元包括：

在一个可选的实现方式中，所述分配单元还包括：

在一个可选的实现方式中，所述分配子单元还包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可选的，本申请还提供一种移动终端，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述视频分类方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

可选的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的视频分类方法的步骤。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种视频分类方法、装置、终端设备及存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频分类方法，其特征在于，所述方法包括：

获取视频的图像数据、音频数据以及文本数据；

2.根据权利要求1所述的方法，其特征在于，所述获取视频的图像数据、音频数据以及文本数据，包括：

获取所述视频的视频标识；

3.根据权利要求2所述的方法，其特征在于，所述根据所述图像数据、所述音频数据以及所述文本数据分别同时获取所述视频的图像特征、音频特征以及文本特征，包括：

同时分配第一图像进程、第一音频进程以及第一文本进程；

4.根据权利要求3所述的方法，其特征在于，所述同时分配第一图像进程、第一音频进程以及第一文本进程，包括：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

6.根据权利要求3所述的方法，其特征在于，所述方法还包括：

7.根据权利要求3所述的方法，其特征在于，所述方法还包括：

8.一种视频分类装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述第一获取模块包括：

第一获取单元，用于获取所述视频的视频标识；

10.根据权利要求9所述的装置，其特征在于，所述第二获取模块包括：

11.根据权利要求10所述的装置，其特征在于，所述分配单元包括：

12.根据权利要求10所述的装置，其特征在于，所述分配单元还包括：

13.根据权利要求10所述的装置，其特征在于，所述分配子单元还包括：

14.根据权利要求10所述的装置，其特征在于，所述分配子单元还包括：

15.一种终端设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的视频分类方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的视频分类方法。