CN110046279A

CN110046279A - 视频文件特征的预测方法、介质、装置和计算设备

Info

Publication number: CN110046279A
Application number: CN201910312722.3A
Authority: CN
Inventors: 向博仁; 许盛辉; 刘彦东
Original assignee: Netease Media Technology Beijing Co Ltd
Current assignee: Netease Media Technology Beijing Co Ltd
Priority date: 2019-04-18
Filing date: 2019-04-18
Publication date: 2019-07-23
Anticipated expiration: 2039-04-18
Also published as: CN110046279B

Abstract

本发明的实施方式提供了一种视频文件特征的预测方法、介质、装置和计算设备。该方法包括：确定待预测视频文件的图像特征、音频特征及标题特征；将所述图像特征、音频特征及标题特征输入预先训练的视频文件特征模型，得到所述待预测视频文件的视频特征。本发明实施例能够降低对时间及资源的消耗，并提高预测视频特征的准确率。本发明的实施方式还提供了一种视频文件特征模型的训练方法和装置。

Description

视频文件特征的预测方法、介质、装置和计算设备

技术领域

本发明的实施方式涉及视频分类技术领域，更具体地，本发明的实施方式涉及视频文件特征的预测方法、介质、装置和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

现有的确定视频文件特征的方法一般以下有两种：

第一种：首先，抽取视频文件中一个或多个视频帧中各种算子的特征，用于表征该一个或多个视频帧中的关键点信息。之后，采用词袋模型对前述各种算子的特征进行转化，得到视频文件的特征。

这种方式的缺点是特征抽取过程对时间和资源的消耗较多，并且无法表征内容理解层面的特征。

第二种：确定视频文件标题的特征，将标题的特征作为视频文件的特征。

这种方式的缺点是：对于视频文件的内容与视频标题不符的情况，确定视频文件特征的准确率较低。

发明内容

本发明的实施方式期望提供一种视频文件特征的预测方法和装置，以及提供一种视频文件特征模型的训练方法和装置。

在本发明实施方式的第一方面中，提供了一种视频文件特征的预测方法，包括：

确定待预测视频文件的图像特征、音频特征及标题特征；

将所述图像特征、音频特征及标题特征输入预先训练的视频文件特征模型，得到所述待预测视频文件的视频特征。

在本发明的一个实施例中，确定所述待预测视频文件的标题特征，包括：

将所述待预测视频文件的标题进行切词处理，得到多个待预测标题词汇；

将各个所述待预测标题词汇分别输入预先训练的词向量计算模型，得到各个所述待预测标题词汇对应的词向量；

对得到的词向量求平均值，得到所述待预测视频文件的标题特征。

在本发明的一个实施例中，还包括：

将M个第一样本视频文件的图像特征、音频特征及标题特征输入所述视频文件特征模型，得到所述M个第一样本视频文件的视频特征；所述M为大于1的整数；

根据所述M个第一样本视频文件的视频特征对所述M个第一样本视频文件进行聚类计算，得到多个类及对应的聚类中心，每个所述类包含多个所述第一样本视频文件；

针对各个所述类，随机选取每个类中的N个第一样本视频文件，所述N为大于1并且不大于M的整数；计算所述N个第一样本视频文件中存在共同点的第一样本视频文件的个数与所述N的比值；响应于所述比值达到预设条件，将所述类确定为有效类，并将所述类的聚类中心确定为有效聚类中心，为所述有效聚类中心设置对应的有效标识。

在本发明的一个实施例中，还包括：

根据所述待预测视频文件的视频特征及各个有效聚类中心的视频特征，确定与所述待预测视频文件最接近的有效聚类中心；

将所述最接近的有效聚类中心的有效标识确定为所述待预测视频文件的类别标识。

在本发明实施方式的第二方面中，提供了一种视频文件特征模型的训练方法，包括：

确定第二样本视频文件的图像特征、音频特征及标题特征；

采用所述第二样本视频文件的实际视频特征以及所述图像特征、音频特征及标题特征训练所述视频文件特征模型。

在本发明的一个实施例中，所述采用所述第二样本视频文件的实际视频特征以及所述图像特征、音频特征及标题特征训练所述视频文件特征模型，包括：

将所述图像特征、音频特征及标题特征输入所述视频文件特征模型；

获取所述第二样本视频文件的预测视频特征，所述预测视频特征由所述视频文件特征模型输出；

比较所述预测视频特征及所述实际视频特征，根据比较结果调整所述视频文件特征模型的参数。

在本发明的一个实施例中，确定所述第二样本视频文件的标题特征，包括：

将所述第二样本视频文件的标题进行切词处理，得到多个样本标题词汇；

将各个所述样本标题词汇分别输入预先训练的词向量计算模型，得到各个所述样本标题词汇对应的词向量；

对得到的词向量求平均值，得到所述第二样本视频文件的标题特征。

在本发明的一个实施例中，所述视频文件特征模型包括特征池化层、全连接层及门控语境层。

在本发明实施方式的第三方面中，提供了一种视频文件特征的预测装置，包括：

待预测特征确定模块，用于确定待预测视频文件的图像特征、音频特征及标题特征；

预测模块，用于将所述图像特征、音频特征及标题特征输入预先训练的视频文件特征模型，得到所述待预测视频文件的视频特征。

在本发明的一个实施例中，所述待预测特征确定模块包括待预测标题特征确定子模块：

所述待预测标题特征确定子模块，用于将所述待预测视频文件的标题进行切词处理，得到多个待预测标题词汇；将各个所述待预测标题词汇分别输入预先训练的词向量计算模型，得到各个所述待预测标题词汇对应的词向量；对得到的词向量求平均值，得到所述待预测视频文件的标题特征。

在本发明的一个实施例中，还包括：

第一样本视频特征获取模块，用于将M个第一样本视频文件的图像特征、音频特征及标题特征输入所述视频文件特征模型，得到所述M个第一样本视频文件的视频特征；所述M为大于1的整数；

聚类模块，用于根据所述M个第一样本视频文件的视频特征对所述M个第一样本视频文件进行聚类计算，得到多个类及对应的聚类中心，每个所述类包含多个所述第一样本视频文件；

有效类确定模块，用于针对各个所述类，随机选取每个类中的N个第一样本视频文件，所述N为大于1并且不大于M的整数；计算所述N个第一样本视频文件中存在共同点的第一样本视频文件的个数与所述N的比值；响应于所述比值达到预设条件，将所述类确定为有效类，并将所述类的聚类中心确定为有效聚类中心，为所述有效聚类中心设置对应的有效标识。

在本发明的一个实施例中，还包括：

类别确定模块，用于根据所述待预测视频文件的视频特征及各个有效聚类中心的视频特征，确定与所述待预测视频文件最接近的有效聚类中心；将所述最接近的有效聚类中心的有效标识确定为所述待预测视频文件的类别标识。

在本发明实施方式的第四方面中，提供了一种视频文件特征模型的训练装置，包括：

第二样本特征确定模块，用于确定第二样本视频文件的图像特征、音频特征及标题特征；

训练模块，用于采用所述第二样本视频文件的实际视频特征以及所述图像特征、音频特征及标题特征训练所述视频文件特征模型。

在本发明的一个实施例中，所述训练模块包括：

输入子模块，用于将所述图像特征、音频特征及标题特征输入所述视频文件特征模型；

预测特征获取子模块，用于获取所述第二样本视频文件的预测视频特征，所述预测视频特征由所述视频文件特征模型输出；

参数调整子模块，用于比较所述预测视频特征及所述实际视频特征，根据比较结果调整所述视频文件特征模型的参数。

在本发明的一个实施例中，所述第二样本特征确定模块包括样本标题特征确定子模块；

所述样本标题特征确定子模块，用于将所述第二样本视频文件的标题进行切词处理，得到多个样本标题词汇；将各个所述样本标题词汇分别输入预先训练的词向量计算模型，得到各个所述样本标题词汇对应的词向量；对得到的词向量求平均值，得到所述第二样本视频文件的标题特征。

在本发明实施方式的第五方面中，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行实现上述视频文件特征的预测方法或视频文件特征模型的训练方法的步骤。

在本发明实施方式的第六方面中，提供了一种计算设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现视频文件特征的预测方法或视频文件特征模型的训练方法的步骤。

根据本发明实施方式的视频文件特征的预测方法和装置，采用预先设置的视频文件特征模型，将视频文件的图像特征、音频特征及标题特征输入视频文件特征模型，从而得到视频文件的特征。由于采用预先设置的视频文件特征模型进行预测，避免了抽取视频帧中算子的特征，因此能够降低确定视频特征的过程对时间及资源的消耗；由于将图像特征、音频特征及标题特征均作为预测视频文件的视频特征的依据，而图像特征、音频特征及标题特征中包含了视频文件的内容信息，因此能够得到表征内容理解层面特征的视频文件特征，并且准确率较高。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明一实施方式的视频文件特征的预测方法实现流程图；

图2示意性地示出了根据本发明一实施方式的视频文件特征的预测方法中，步骤S11中确定待预测视频文件的标题特征的一种实现流程图；

如图3示意性地示出了根据本发明一实施方式确定类别及各个类别的视频特征的方法实现流程图；

图4示意性地示出了根据本发明一实施方式的视频文件特征模型的训练方法实现流程图；

图5示意性地示出了根据本发明一实施方式的视频文件特征模型的训练方法中，步骤S42的一种实现流程图；

如图6示意性地示出了根据本发明一实施方式的视频文件特征模型的结构、输入内容及输出内容示意图；

图7示意性地示出了根据本发明一实施方式的用于视频文件特征的预测方法或视频文件特征模型的训练方法的介质示意图；

图8示意性地示出了根据本发明一实施方式的视频文件特征的预测装置结构示意图；

图9示意性地示出了根据本发明一实施方式的视频文件特征模型的训练装置结构示意图；

图10示意性地示出了根据本发明一实施方式的计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种视频文件特征的预测方法、介质、装置和计算设备，并提出一种视频文件特征模型的训练方法和装置。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，现有的一种确定视频文件特征的方式首先抽取视频帧中各种算子的特征，再采用词袋模型对各种算子的特征进行转化，得到视频文件的特征。这种方式对时间和资源的消耗较多，并且无法表征内容理解层面的特征。另一种确定视频文件特征的方式是确定视频文件标题的特征，将标题的特征作为视频文件的特征，这种方式的准确率较低。

有鉴于此，本发明提供一种视频文件特征的预测方法和装置，采用视频文件特征模型预测视频文件特征，避免了抽取视频帧中各种算子的特征，因此能够降低对时间和资源的消耗。由于采用图像特征、音频特征及标题特征作为预测依据，因此能够表征内容理解层面的特征，并且准确率较高。本发明还提供一种视频文件特征模型的训练方法和装置，用于建立视频文件特征的预测方法中所使用的视频文件特征模型。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

示例性方法

下面参考图1来描述根据本发明示例性实施方式的视频文件特征的预测方法。

图1示意性地示出了根据本发明一实施方式的视频文件特征的预测方法实现流程图，包括以下步骤：

步骤S11：确定待预测视频文件的图像特征、音频特征及标题特征；

步骤S12：将图像特征、音频特征及标题特征输入预先训练的视频文件特征模型，得到待预测视频文件的视频特征。

在一种可能的实施方式中，步骤S11中确定待预测视频文件的图像特征的方式可以为：在视频文件的帧序列中，随机抽取30帧图片；将每帧图片分别输入卷积神经网络(CNN，Convolutional Neural Networks)模型(例如Inception v3网络)，得到每帧图片的1024维的图片特征；将30帧图片的图片特征综合起来，得到30个1024维的特征向量，这30个1024维的特征向量即为视频文件的图像特征。

在一种可能的实施方式中，步骤S11中确定待预测视频文件的音频特征的方式可以为：在视频文件的音频数据中，随机选取30段音频信号，每段音频信号的长度为1秒；将各段音频信号分别输入特征提取器(例如VGGish模型)，得到每段音频信号的128维的音频特征；将30段音频信号的音频特征综合起来，得到30个128维的特征向量，这30个128维的特征向量即为视频文件的音频特征。

上述内容中，随机选取的图片的数量、图片特征的维数、随机选取的音频信号的数量及长度、音频特征的维数等具体数值均为举例，本发明实施例对具体数值不做限制。

图2示意性地示出了根据本发明一实施方式的视频文件特征的预测方法中，步骤S11中确定待预测视频文件的标题特征的一种实现流程图，包括以下步骤：

步骤S111：将待预测视频文件的标题进行切词处理，得到多个待预测标题词汇；

步骤S112：将各个待预测标题词汇分别输入预先训练的词向量计算模型，得到各个待预测标题词汇对应的词向量；

步骤S113：对得到的词向量求平均值，得到待预测视频文件的标题特征。

在一个实施例中，待预测视频文件的标题为“蛋挞制作方法”。首先对该标题进行切词处理，得到3个待预测标题词汇，分别为“蛋挞”、“制作”和“方法”。之后，将前述3个待预测标题词汇分别输入词向量计算模型，得到每个待预测标题词汇对应的词向量。词向量可以是一个200维的向量，向量的每个元素可以为一个浮点数。在对3个词向量求平均值时，可以将三个词向量对应的元素分别求平均值，最终得到一个新的200维的向量，作为待预测视频文件的标题特征。例如，3个词向量分别为：

Va＝(a1，a2，……，a100)；

Vb＝(b1，b2，……，b100)；

Vc＝(c1，c2，……，c100)；

对上述3个词向量求平均值，得到向量Vm：

该向量即为上述待预测视频文件的标题特征。

在本发明的一个实施例中，步骤S112中的词向量计算模型采用词汇到向量(Word2vec)模型。可以采用一段时间内的新闻数据、以及新闻数据的分类数据标签作为训练词向量计算模型的样本数据。

在本发明的一个实施例中，将待预测视频文件的标题特征重复30次，将上述图像特征、音频特征及重复30次的标题特征输入视频文件特征模型，得到待预测视频文件的视频特征。在本实施例中，对标题特征重复的具体次数是根据上述选取的图片及音频信号的数量设置的，本发明实施例对重复次数的具体值不做限制。

具体地，上述图像特征包括30个1024维的特征向量，音频特征包括30个128维的特征向量，重复30次的标题特征包括30个200维的特征向量。将前述内容输入视频文件特征模型，该视频文件特征模型首先分别将图像特征转化为1个1024维的特征向量，将音频特征转化为1个128维的特征向量，并将标题特征转化为1个200维的特征向量。之后，将转化后的3个特征向量进行卷积计算，得到一个新的1024维的特征向量，该特征向量能够表达视频文件的整体特征，向量中的每个元素表达视频文件的一个特征。其中，每个特征的重要程度不同，因此视频文件特征模型还可以将各个特征对应的元素乘以不同的权重，得到最终的视频文件特征。

视频文件特征模型的建立方式将在后续实施例中详细介绍。

由于采用视频文件特征模型预测视频文件的视频特征，避免了抽取视频帧中算子的特征，因此能够降低对时间和资源的消耗。由于采用图像特征、音频特征及标题特征作为预测依据，因此能够表征内容理解层面的特征，并且准确率较高。另外，采用卷积神经网络得到的每帧图片的图片特征中包含了图片中主要物体信息，而不仅仅是图片中的关键点信息，这样得出的视频特征准确率更高。并且，由于抽取多帧图片用于生成图像特征，因此能够抽取到帧与帧之间的相关信息。

在确定出待预测视频文件的视频特征之后，可以根据视频特征确定待预测视频文件的类别。为了确定待预测视频文件的类别，首先需要确定存在多少种类别，并且确定各个类别的视频特征。

如图3示意性地示出了根据本发明一实施方式确定类别及各个类别的视频特征的方法实现流程图，包括：

步骤S31：将M个第一样本视频文件的图像特征、音频特征及标题特征输入视频文件特征模型，得到M个第一样本视频文件的视频特征；所述M为大于1的整数；

步骤S32：根据所述M个第一样本视频文件的视频特征对M个第一样本视频文件进行聚类计算，得到多个类及对应的聚类中心，每个类包含多个第一样本视频文件；

步骤S33：针对各个类，随机选取每个类中的N个第一样本视频文件，所述N为大于1并且不大于M的整数；计算N个第一样本视频文件中存在共同点的第一样本视频文件的个数与N的比值；响应于所述比值达到预设条件，将所述类确定为有效类，并将所述类的聚类中心确定为有效聚类中心，为有效聚类中心设置对应的有效标识。

例如，在视频库中选取100万个第一样本视频文件，将每个第一样本视频文件的图像特征、音频特征及标题特征输入视频文件特征模型，得到每个第一样本视频文件的视频特征。

根据视频特征对所述100万个第一样本视频文件进行聚类计算，得到5000个类。每个类包含多个第一样本视频文件，其中的一个第一样本视频文件是该类对应的聚类中心。在本实施例中，采用Kmeans聚类方式进行聚类计算，聚类计算划分的类的个数可以根据需求设定。另外，可以对视频特征进行降维处理，根据降维后的视频特征进行聚类计算，以便降低聚类计算的复杂度。在一种实施方式中，采用主成分分析(PCA，Principal ComponentAnalysis)算法进行降维处理。

聚类计算得到的类不一定都满足对视频文件分类的要求，因此，针对聚类计算得到的各个类，可以进一步执行以下步骤：

随机选取类中的50个第一样本视频文件，对各个选取的第一样本视频文件进行标注，根据标注结果确定存在共同点的第一样本视频文件的个数。例如，如果第一样本视频文件中出现了飞机，则为该第一样本视频文件标注“飞机”标签；如果两个或多个第一样本视频文件被标注了相同的标签，则认为这两个或多个第一样本视频文件存在共同点。之后，计算存在共同点的第一样本视频文件与选取的第一样本视频文件的个数(即：50)的比值，当该比值达到预设条件时(例如大于或等于70％)，认为前述聚类计算过程对该类的确定是比较合理的，因此将该类确定为有效类。由于在上述聚类计算过程中已经得到多个类、并确定出各个类的聚类中心。因此，在确定出有效类之后，可以进一步将该有效类的聚类中心确定为有效聚类中心，并为该有效聚类中心设置对应的有效标识。有效聚类中心的有效标识可以用主题标识(TopicID)表示。

在一个实施例中，通过上述过程最终得到3660个有效类。本发明实施例还可以将剩余的1340个类组合为一个类，为该类设置一个聚类失败的标志。

在建立有效类，确定各个有效类的有效聚类中心，并设置各个有效聚类中心的有效标识后，可以根据步骤S12得到的视频特征对待预测视频文件进行分类。如图1所示，本发明实施方式的视频文件特征的预测方法进一步包括：

S13：根据待预测视频文件的视频特征及各个有效聚类中心的视频特征，确定与待预测视频文件最接近的有效聚类中心；

S14：将最接近的有效聚类中心的有效标识确定为待预测视频文件的类别标识。

在一种实施方式中，待预测视频文件的视频特征及有效聚类中心的视频特征均为1024维的向量，步骤S13的具体方式可以为：分别计算待预测视频文件的视频特征与各个有效聚类中心的视频特征的距离，可以采用数学运算中计算两个向量之间距离的方式进行计算。之后，将计算得到的所有距离进行比较，确定数值最短的距离，该距离所对应的有效聚类中心即为与待预测视频文件最接近的有效聚类中心。

采用上述过程，实现了对视频文件的分类。进一步地，本发明实施例确定的视频文件的类别标识可以用于视频推荐系统中。例如，根据用户点击、观看或收藏的视频文件的类别标识，为用户选择具有同样类别标识的其他视频文件进行推荐。并且，可以将类别标识作为用于排序的一维特征，能够提升排序模型的性能。

本发明实施例还提出一种视频文件特征模型的训练方法，图4示意性地示出了根据本发明一实施方式的视频文件特征模型的训练方法实现流程图，包括以下步骤：

步骤S41：确定第二样本视频文件的图像特征、音频特征及标题特征；

步骤S42：采用第二样本视频文件的实际视频特征以及图像特征、音频特征及标题特征训练视频文件特征模型。

步骤S41中，确定图像特征、音频特征及标题特征的具体方式与上述实施例中的方式相同，在此不再赘述。

图5示意性地示出了根据本发明一实施方式的视频文件特征模型的训练方法中，步骤S42的一种实现流程图，包括以下步骤：

步骤S421：将第二样本视频文件的图像特征、音频特征及标题特征输入视频文件特征模型；

步骤S422：获取第二样本视频文件的预测视频特征，该预测视频特征由视频文件特征模型输出；

步骤S423：比较预测视频特征及实际视频特征，根据比较结果调整所述视频文件特征模型的参数。

在本发明的一个实施例中，当与实际视频特征一致的概率达到预设的条件时，认为视频文件特征模型的训练完成，可以停止对视频文件特征模型的训练过程。

在模型训练过程中，可以将视频文件特征模型作为一个分类模型的前半部分，该分类模型的后半部分为分类层。分类层的输入内容为视频文件特征模型输出的预测视频特征，分类层的输出内容为根据预测视频特征确定的预测分类。采用常用的用于分类模型的损失函数，例如交叉熵损失函数(Cross Entropy Loss)训练整个分类模型。整个分类模型训练完成时，其前半部分的视频文件特征模型也就训练完成了。

在本发明的一个实施例中，视频文件特征模型包括池化层、全连接层(FC Layer，Fully Connected Layer)及门控语境层(Context Gating)。

其中，池化层可以采用可学习的池化层(Learnable Pooling)。池化层对用于表达图像特征的30个1024维的特征向量进行卷积计算，得到用于表达图像特征的1个1024维的特征向量；池化层还对用于表达音频特征的30个128维的特征向量进行卷积计算，得到用于表达音频特征的1个128维的特征向量；池化层还对用于表达标题特征的30个200维的特征向量进行卷积计算，得到用于表达标题特征的1个200维的特征向量。这样，池化层的输出内容为1个1024维的特征向量、1个128维的特征向量以及1个200维的特征向量。

全连接层对前述3个特征向量进行卷积计算，得到用于表达整个视频文件特征的1个1024维的特征向量。

门控语境层对用于表达视频文件特征的特征向量的各个元素分别乘以对应的权重，从而强化重要元素，并弱化非重要元素。通过前述操作，门控语境层输出一个新的1024维的特征向量，该特征向量能够表达视频文件特征，并强化视频文件的重要特征，弱化非重要特征。

需要说明的是，上述举例中特征向量的个数及维度值是可设置的，其具体数值并不局限于上述举例中的值。

如图6示意性地示出了根据本发明一实施方式的视频文件特征模型的结构、输入内容及输出内容示意图。在图6中，待预测视频文件的图像特征、音频特征及标题特征分别输入视频文件特征模型的可学习的池化层，通过可学习的池化层、全连接层及门控语境层，最终输出待预测视频文件的视频特征。

综上可见，本发明实施例提出的视频文件特征模型的训练方法，能够建立用于预测视频文件的视频特征的模型。

示例性介质

在介绍了本发明示例性实施方式的方法之后，接下来，参考图7对本发明示例性实施方式的介质进行说明。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种计算机可读介质，其上存储有程序，当所述程序被处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的视频文件特征的预测方法或视频文件特征模型的训练方法中的步骤。

具体地，上述处理器执行上述程序时用于实现如下步骤：确定待预测视频文件的图像特征、音频特征及标题特征；将所述图像特征、音频特征及标题特征输入预先训练的视频文件特征模型，得到所述待预测视频文件的视频特征。或者，确定第二样本视频文件的图像特征、音频特征及标题特征；采用所述第二样本视频文件的实际视频特征以及所述图像特征、音频特征及标题特征训练视频文件特征模型。

需要说明的是：上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

图7示意性地示出了根据本发明一实施方式的用于视频文件特征的预测方法或视频文件特征模型的训练方法的介质示意图，本发明实施方式的介质70可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序，并可以在设备上运行。然而，本发明不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算设备。

示例性装置

在介绍了本发明示例性实施方式的介质之后，接下来，参考图8对本发明示例性实施方式的装置进行说明。

图8示意性地示出了根据本发明一实施方式的视频文件特征的预测装置结构示意图，包括：

待预测特征确定模块810，用于确定待预测视频文件的图像特征、音频特征及标题特征；

预测模块820，用于将所述图像特征、音频特征及标题特征输入预先训练的视频文件特征模型，得到所述待预测视频文件的视频特征。

在一种可能的实施方式中，所述待预测特征确定模块810包括待预测标题特征确定子模块811：

所述待预测标题特征确定子模块811，用于将所述待预测视频文件的标题进行切词处理，得到多个待预测标题词汇；将各个所述待预测标题词汇分别输入预先训练的词向量计算模型，得到各个所述待预测标题词汇对应的词向量；对得到的词向量求平均值，得到所述待预测视频文件的标题特征。

如图8所示，在一种可能的实施方式中，还包括：

第一样本视频特征获取模块830，用于将M个第一样本视频文件的图像特征、音频特征及标题特征输入所述视频文件特征模型，得到所述M个第一样本视频文件的视频特征；所述M为大于1的整数；

聚类模块840，用于根据所述M个第一样本视频文件的视频特征对所述M个第一样本视频文件进行聚类计算，得到多个类及对应的聚类中心，每个所述类包含多个所述第一样本视频文件；

有效类确定模块850，用于针对各个所述类，随机选取每个类中的N个第一样本视频文件，所述N为大于1并且不大于M的整数；计算所述N个第一样本视频文件中存在共同点的第一样本视频文件的个数与所述N的比值；响应于所述比值达到预设条件，将所述类确定为有效类，并将所述类的聚类中心确定为有效聚类中心，为所述有效聚类中心设置对应的有效标识。

在一种可能的实施方式中，还包括：

类别确定模块860，用于根据所述待预测视频文件的视频特征及各个有效聚类中心的视频特征，确定与所述待预测视频文件最接近的有效聚类中心；将所述最接近的有效聚类中心的有效标识确定为所述待预测视频文件的类别标识。

图9示意性地示出了根据本发明一实施方式的视频文件特征模型的训练装置结构示意图，包括：

第二样本特征确定模块910，用于确定第二样本视频文件的图像特征、音频特征及标题特征；

训练模块920，用于采用所述第二样本视频文件的实际视频特征以及所述图像特征、音频特征及标题特征训练所述视频文件特征模型。

在一种可能的实施方式中，所述训练模块920包括：

输入子模块921，用于将所述图像特征、音频特征及标题特征输入所述视频文件特征模型；

预测特征获取子模块922，用于获取所述第二样本视频文件的预测视频特征，所述预测视频特征由所述视频文件特征模型输出；

参数调整子模块923，用于比较所述预测视频特征及所述实际视频特征，根据比较结果调整所述视频文件特征模型的参数。

如图9所示，在一种可能的实施方式中，所述第二样本特征确定模块910包括样本标题特征确定子模块911；

所述样本标题特征确定子模块911，用于将所述第二样本视频文件的标题进行切词处理，得到多个样本标题词汇；将各个所述样本标题词汇分别输入预先训练的词向量计算模型，得到各个所述样本标题词汇对应的词向量；对得到的词向量求平均值，得到所述第二样本视频文件的标题特征。

在一种可能的实施方式中，所述视频文件特征模型包括特征池化层、全连接层及门控语境层。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，参考图10对本发明示例性实施方式的计算设备进行说明。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明实施方式的计算设备可以至少包括至少一个处理单元以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明的各种示例性实施方式的视频文件特征的预测方法或视频文件特征模型的训练方法中的步骤。

下面参照图10来描述根据本发明的这种实施方式的计算设备100。图10显示的计算设备100仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，计算设备100以通用计算设备的形式表现。计算设备100的组件可以包括但不限于：上述至少一个处理单元1001、上述至少一个存储单元1002，连接不同系统组件(包括处理单元1001和存储单元1002)的总线1003。

总线1003包括数据总线、控制总线和地址总线。

存储单元1002可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)10021和/或高速缓存存储器10022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(ROM)10023。

存储单元1002还可以包括具有一组(至少一个)程序模块10024的程序/实用工具10025，这样的程序模块10024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备100也可以与一个或多个外部设备1004(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口1005进行。并且，计算设备100还可以通过网络适配器1006与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图10所示，网络适配器1006通过总线1003与计算设备100的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备100使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了视频文件特征的预测装置及视频文件特征模型的训练装置的若干单元/模块或子单元/子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种视频文件特征的预测方法，其特征在于，包括：

确定待预测视频文件的图像特征、音频特征及标题特征；

2.根据权利要求1所述的方法，其特征在于，确定所述待预测视频文件的标题特征，包括：

3.根据权利要求1或2所述的方法，其特征在于，还包括：

4.根据权利要求3所述的方法，其特征在于，还包括：

5.一种视频文件特征模型的训练方法，其特征在于，包括：

确定第二样本视频文件的图像特征、音频特征及标题特征；

6.根据权利要求5所述的方法，其特征在于，所述采用所述第二样本视频文件的实际视频特征以及所述图像特征、音频特征及标题特征训练所述视频文件特征模型，包括：

7.一种视频文件特征的预测装置，其特征在于，包括：

8.一种视频文件特征模型的训练装置，其特征在于，包括：

9.一种介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的方法。

10.一种计算设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。