CN110502664B

CN110502664B - 视频标签索引库创建方法、视频标签生成方法及装置

Info

Publication number: CN110502664B
Application number: CN201910798447.0A
Authority: CN
Inventors: 李争; 郑茂
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2022-12-02
Anticipated expiration: 2039-08-27
Also published as: CN110502664A

Abstract

本申请公开了视频标签索引库创建方法、视频标签生成方法及装置，其中，该视频标签索引库创建方法针对各个预设标签，标注一定数量的视频作为已标注视频；然后，从每个已标注视频中提取满足预设条件的多个视频帧，然后从每个视频帧中提取得到视频帧特征。对于每个预设标签，基于该预设标签对应的每个视频帧的视频帧特征得到该预设标签对应的目标视频帧特征。依据各个预设标签及其对应的目标视频帧特征创建得到视频标签索引库。创建视频标签索引库时，每个预设标签只需要少量已标注的已标注视频；而且，当增加新标签时，不需要重新训练，只需要将新标签对应的已标注的少量已标注视频提取特征更新到视频标签索引库中，更容易扩展。

Description

视频标签索引库创建方法、视频标签生成方法及装置

技术领域

本申请涉及视频处理技术领域，尤其涉及视频标签索引库创建方法、视频标签生成方法及装置。

背景技术

随着网络技术飞速发展，多媒体的推广应用，各种视频源源不断地产生，视频等媒体数据已经成为大数据的主体，针对大量视频如何自动生成相关的标签，将对满足用户的信息获取需求意义重大。

传统的视频标签生成方案通常是：将短视频分成多个视频片段，获取每个视频片段的关键帧；然后，利用预先训练好的分类模型对每个关键帧进行分类得到关键帧标签，根据关键帧对应的标签得到视频的标签。其中，分类模型需要大量的训练数据进行训练，如果增加新的视频标签，则需要人工标注大量的训练数据并重新训练整个分类模型。可见，这种分类模型训练过程耗时费力，且扩展性非常差。

发明内容

有鉴于此，本申请提供了视频标签索引库创建方法、视频标签生成方法及装置，以创建存储有预设标签及各预设标签对应的视频帧的视频帧特征的视频标签索引库，对于没有标签的视频，依据视频的视频帧特征直接从视频标签索引库中检索获得该视频的标签。

为了实现上述目的，本申请一方面提供了一种视频标签索引库创建方法，包括：

获取各个预设标签所对应的至少一个已标注视频；

对于任意一个预设标签，从该预设标签对应的各个已标注视频中提取至少两个视频帧，得到目标视频帧集合；

对于任意一个预设标签，从该预设标签对应的目标视频帧集合包含的每个视频帧中提取视频帧特征，得到该预设标签对应的目标视频帧特征；

基于各个预设标签及各个预设标签所对应的目标视频帧特征，创建视频标签索引库。

在一种可能的实现方式中，所述对于任意一个预设标签，从该预设标签对应的全部已标注视频中提取与该预设标签相匹配的多个视频帧，得到目标视频帧集合，包括：

对于任意一个预设标签，从与该视频标签对应的各个已标注视频中，提取该已标注视频所包含的视频帧；

去除同一个已标注视频所包含的视频帧中的纯色图片，以及去除视频帧中的视频黑边，得到该已标注视频对应的处理后的视频帧；

去除同一个已标注视频对应的处理后的视频帧中的重复图片，以及，去除同一预设标签对应的视频帧中的重复图片，得到该预设标签对应的目标视频帧集合。

在一种可能的实现方式中，所述去除同一个已标注视频对应的处理后的视频帧中的重复图片，包括：

提取所述同一个已标注视频对应的各个处理后的视频帧的phash特征；

获取所述同一个已标注视频对应的任意两个处理后的视频帧对应的phash特征之间的汉明距离；

若所述汉明距离小于或等于预设值，则删除两个处理的视频帧中的任意一个。

在一种可能的实现方式中，所述基于各个预设标签及各个预设标签所对应的目标视频帧特征，创建视频标签索引库，包括：

将全部预设标签对应的全部目标视频帧特征进行聚类，得到至少两个第一类聚类簇；

分别计算各个目标视频帧特征与所属第一类聚类簇的聚类中心之间的残差，得到各个目标视频帧特征对应的残差向量；

将每个残差向量进行压缩，得到压缩后的残差向量；

对于每个目标视频帧特征，利用该目标视频帧特征对应的压缩后的残差向量替换该目标视频帧特征，得到压缩后的目标视频帧特征；

存储各个预设标签及各个预设标签所对应的压缩后的目标视频帧特征，得到视频标签索引库。

在一种可能的实现方式中，所述方法还包括：

获取新标签，以及所述新标签对应的至少一个已标注视频；

基于从每个所述已标注视频中提取视频帧，获得与所述新标签对应的目标视频帧集合；

从所述新标签对应的目标视频帧集合中的每个视频帧中提取视频帧特征，得到所述新标签对应的目标视频帧特征；

计算所述新标签对应的目标视频帧特征进行压缩，得到压缩后的视频帧特征；

将所述新标签对应的压缩后的视频帧特征更新至所述视频标签索引库。

另一方面，本申请还提供了一种视频标签生成方法，包括：

提取请求生成标签的请求视频所包含的目标视频帧集合，所述目标视频帧集合包括多个目标视频帧；

对于每个目标视频帧，提取该目标视频帧的视频帧特征；

从预先建立的视频标签索引库中，选取与该目标视频帧的视频帧特征相似性最高的视频帧，所述视频标签索引库依据如上任一种可能的实现方式所述的视频标签索引库创建方法创建得到，且存储有预设标签对应的至少一个已标注视频的视频帧特征；

确定选取的相似性最高的视频帧对应的标签为所述目标视频帧的标签；

基于各个目标视频帧对应的标签确定所述请求视频对应的标签。

在一种可能的实现方式中，所述基于各个目标视频帧对应的标签确定所述请求视频对应的标签，包括：

统计所述目标视频帧集合中各个目标视频帧对应的标签种类及每种标签的数量；

选取对应的目标视频帧的数量最大的标签为所述请求视频对应的标签。

在一种可能的实现方式中，所述提取请求视频所包含的目标视频帧集合，包括：

提取所述请求视频包含的视频帧；

去除所述请求视频所包含的视频帧中的纯色图片，得到可选视频帧；

从所述可选视频帧中检测包含视频黑边的视频帧，并去除包含视频黑边的视频帧的视频黑边，得到所述目标视频帧集合。

在一种可能的实现方式中，所述从预先建立的视频标签索引库中，选取与该目标视频帧的视频帧特征之间的相似性最高的视频帧，包括：

计算所述目标视频帧的视频帧特征与所述视频标签索引库中的各个第一类聚类簇的聚类中心之间的距离，所述第一类聚类簇是对各个预设标签对应的目标视频帧特征进行聚类得到；

基于所述距离由小到大的顺序，选取前预设数量个所述第一类聚类簇为目标聚类簇；

分别计算所述目标视频帧与各个目标聚类簇中的视频帧特征之间的相似度，得到与所述目标视频帧之间的相似性最高的视频帧。

又一方面，本申请还提供了一种视频标签索引库创建装置，包括：

获取模块，用于获取各个预设标签所对应的至少一个已标注视频；

视频帧提取模块，用于对于任意一个预设标签，从该预设标签对应的各个已标注视频中提取至少两个视频帧，得到目标视频帧集合；

特征提取模块，用于对于任意一个预设标签，从该预设标签对应的目标视频帧集合包含的每个视频帧中提取视频帧特征，得到该预设标签对应的目标视频帧特征；

索引库创建模块，用于基于各个预设标签及各个预设标签所对应的目标视频帧特征，创建视频标签索引库。

再一方面，本申请还提供了一种视频标签生成装置，包括：

视频帧提取模块，用于提取请求生成标签的请求视频所包含的目标视频帧集合，所述目标视频帧集合包括多个目标视频帧；

特征提取模块，用于对于每个目标视频帧，提取该目标视频帧的视频帧特征；

选取模块，用于从预先建立的视频标签索引库中，选取与该目标视频帧的视频帧特征相似性最高的视频帧，并确定选取的相似性最高的视频帧对应的标签为所述目标视频帧的标签，所述视频标签索引库依据权利要求如上任一种可能的实现方式所述的视频标签索引库创建方法创建得到，且存储有预设标签对应的至少一个已标注视频的视频帧特征；

确定模块，用于基于各个目标视频帧对应的标签确定所述请求视频对应的标签。

另一方面，本申请还提供了一种服务器，包括：

处理器和存储器；

其中，所述处理器用于执行所述存储器中存储的程序；

所述存储器用于存储程序，所述程序至少用于：

获取各个预设标签所对应的至少一个已标注视频；

在一种可能的实现方式中，所述程序还用于：

对于每个目标视频帧，提取该目标视频帧的视频帧特征；

又一方面，本申请还提供了一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上任一种可能的实现方式所述的视频标签索引库创建方法，或者，实现如上任一种可能的实现方式所述的视频标签生成方法。

本发明提供的视频标签索引库创建方法，针对各个预设标签，标注一定数量的视频作为已标注视频；然后，从每个已标注视频中提取满足预设条件的多个视频帧，然后从每个视频帧中提取得到视频帧特征。对于每个预设标签，基于该预设标签对应的每个视频帧的视频帧特征得到该预设标签对应的目标视频帧特征。依据各个预设标签及其对应的目标视频帧特征创建得到视频标签索引库。创建视频标签索引库时，每个预设标签只需要少量已标注的已标注视频；而且，当增加新标签时，不需要重新训练，只需要将新标签对应的已标注的少量已标注视频提取特征更新到视频标签索引库中，更容易扩展。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本发明提供的一种视频标签索引库创建方法的流程图；

图2示出了本发明提供的获取标签对应的目标视频帧集合过程的流程图；

图3示出了本发明提供的一种特征提取网络的示意图；

图4示出了本发明提供的一种视频标签生成方法的流程图；

图5示出了本发明提供的一种视频标签索引库创建装置的结构示意图；

图6示出了本发明提供的一种视频标签生成装置的结构示意图；

图7示出了本发明提供的一种服务器的结构示意图。

具体实施方式

传统的视频标签生成方法，需要利用大量的训练数据训练得到分类模型，对于一个需要生成标签的视频，需要提取该视频的特征，然后将特征输入至训练好的分类模型中，由该分类模型分析该视频的特征最终确定与该视频的特征相匹配的标签，但是，此种方式需要大量训练数据来训练分类模型，而且，分类模型一旦训练好其所能分类的标签类型就确定不变，如有新的标签增加时，则需要大量与新标签对应的训练数据重新训练分类模型，可见此种分类模型需要大量训练数据进行训练，训练过程耗时费力、且模型的可扩展性非常差。

为了解决上述技术问题，本发明提供了一种视频标签索引库创建方法，先获取各预设标签对应的少量已标注视频，然后，从这些已标注视频的视频帧中提取对应的视频帧特征，将预设标签及对应的视频帧特征存储至数据库得到视频标签索引库。由上述过程课件，创建视频标签索引库的过程中只需要少量已标注的已标注视频，而且，当增加新标签时，不需要重新训练，只需要将新标签对应的已标注的少量已标注视频提取特征更新到视频标签索引库中，更容易扩展。

请参见图1，示出了本发明提供的一种视频标签索引库创建方法的流程图，该方法应用于服务器中，该方法用于提取视频标签对应视频中的视频帧特征，并将视频标签与对应视频的视频帧特征存储，得到视频标签索引库。

如图1所示，该方法包括以下步骤：

S110，获取各个预设标签所对应的至少一个已标注视频。

预设标签是根据实际需要预先设定的标签分类；其中，可以建立一个标签体系，该标签体系用于存储并维护已创建的视频标签。

对于每个标签，人工选取与该标签相匹配的一定数量的视频，并为视频标注对应标签得到已标注视频。

其中，每个标签选取的已标注视频的数量越多，提取的与该标签对应的特征越精准，但是，会增加视频标签索引库的创建速度，而且还会增加视频标签索引库的存储空间需求；相反，每个标签选取的已标注视频的数量越少，提取的与该标签对应的特征越不精准。因此，为了均衡精准度、创建速度及存储空间，选取一定数量的已标注视频，该一定数量可以根据有限次试验数据确定得到。

S120，对于任意一个预设标签，从该预设标签对应的各个已标注视频中提取至少两个视频帧，得到目标视频帧集合。

对于标签体系下的任意一个标签，提取该标签对应的每个已标注视频所包含的一定数量的视频帧，并对视频帧进行一定的处理，如去除纯色图片、去除视频黑边，以及，去除视频帧中的重复图片，最终得到与该标签对应的目标视频帧集合。具体的，如图2所示，获得一个标签对应的目标视频帧集合的过程如下：

对于任意一个预设标签对应的任意一个已标注视频，均执行以下步骤：

S121，从已标注视频中提取多个视频帧。

视频是由很多个视频帧(即视频帧图像)构成。选取已标注视频中能够表示该已标注视频的内容特征的视频帧，其中，视频帧的数量可以根据已标注视频的具体内容确定。

S122，去除从同一个已标注视频中提取的视频帧中的纯色图片。

一个已标注视频包括很多视频帧图像，检测视频帧图像中是否包含纯色图像，纯色图片是指图片只包含一种颜色。其中，可以通过色值或位图检测视频帧是否是纯色图片。

S123，从去除纯色图片后的视频帧中，去除视频帧所包含的视频黑边。

有些视频可能在视频画面周围存在黑边的情况，例如，在视频画面的上方和下方存在黑边，或者，在视频画面的左侧和右侧存在黑边，即视频黑边。

去除视频黑边实质是指裁剪掉视频帧图像中的黑边，可以采用成熟的视频去黑边方法去除视频黑边。

S124，从同一个已标注视频的去除视频黑边后的视频帧中去除重复图片。

在一种可能的实现方式中，检测重复图片的过程如下：

对于经过上述的去除纯色图片及去除视频黑边之后的视频帧，提取视频帧的phash特征。其中，利用phash算法(即，感知哈希算法)对每一张图片按照某种规律生成一个对应的指纹字符串，即phash特征；该指纹字符串可以是一个64位的二进制数。

然后，计算同一个已标注视频对应的任意两个phash特征之间的汉明距离，若该汉明距离小于或等于预设值，则确定这两个phash特征对应的图片相同，即这两个phash特征对应的两个视频帧是重复图片。对于重复的视频帧仅保留一个即可。

汉明距离表示两张图片对应的phash特征之间不相同的数据位数量，如果不相同的数据位数量不超过5，表明两张图片很相似；如果不相同的数据位数量超过10，表明两张图片不相似。

S125，去除同一个预设标签对应的所有视频帧中的重复图片，得到该预设标签对应的目标视频帧集合。

去除同一个已标注视频中所包含的重复视频帧之后，进一步去除同一个预设标签对应的不同的已标注视频之间的重复视频帧，最终得到目标视频帧集合。

例如，某个标签具有3个已标注视频，每个已标注视频对应的去除纯色图片、去除视频黑边及去重后的视频帧数量是10个，则该标签下共有30个视频帧；进一步，继续检测这30个视频帧中是否包含重复图片，若包含则去除重复图片，得到该标签对应的目标视频帧集合。

S130，对于任意一个预设标签，从该预设标签对应的目标视频帧集合中的每个视频帧中提取视频帧特征，得到该预设标签对应的目标视频帧特征。

从已标注视频中提取得到视频帧之后，进一步利用特征提取网络从视频帧中提取视频帧特征。该视频帧特征能够表征图像的高维信息，即该视频帧特征能够准确地表征该视频帧的图像内容。

在一种可能的实现方式中，如图3所示，该特征提取网络可以采用Inception-ResNet-v2卷积神经网络模型，其中Inception的基本思想是不需要人为决定使用哪个过滤器，或是是否需要池化，而是由网络自行确定这些参数。残差网络(ResNet)是残差块的堆叠，这样可以设计很深的网络结构，而且，ResNet随着网络深度的增加训练误差会一直减小。

对于一个标签，利用特征提取网络分别提取该标签对应的目标视频帧集合中各个视频帧的视频帧特征，得到该标签对应的目标视频帧特征。

S140，基于各个预设标签及各个预设标签所对应的目标视频帧特征，创建视频标签索引库。

在一种可能的实现方式中，可以直接存储各个预设标签所对应的目标视频帧特征，同时，每个目标视频帧特征都标注有一个标签，该标签即该目标视频帧特征对应的视频帧所属已标注视频的标签。

在一种应用场景中，为了加快检索速度，提取每个视频帧的视频帧特征之后，可以将所有视频帧特征进行聚类，如k-means聚类，得到多个聚类簇(即，第一类聚类簇)，并记录各个聚类簇的聚类中心。此种应用场景中，接收到待生成标签的视频后，直接将该视频的视频帧特征与各个聚类簇的聚类中心进行比较，然后，选取与该视频的特征最近的前N个聚类簇内的视频帧特征进行比较，从而大大降低了检索数量，因此能够加快检索速度。

进一步，为了减少视频标签索引库的内存占用，可以采用向量压缩方法对各视频帧特征进行压缩，在视频标签索引库中存储压缩后的视频帧特征，因此，降低了视频标签索引库所占用的内存空间。

在一种可能的实现方式中，聚类和压缩视频帧特征的过程如下：

例如，提取出每个标签对应的每个已标注视频对应的视频帧特征之后，对于所有标签对应的所有视频帧特征进行聚类(如，k-means聚类)得到多个聚类簇(即，第一类聚类簇)，以及各个聚类簇的聚类中心q_c。

对于提取得到的视频帧特征y，其所在聚类簇的聚类中心为q_c(y)，然后，计算y与q_c(y)之间的残差向量r(y)＝y-q_c(y)。

然后，将残差向量进行压缩得到压缩后的向量，压缩过程如下：

假设y的维度是d维，则r(y)的维度也是d维；然后，将每个视频帧对应的r(y)划分成m个短向量，每个短向量的维度为d/m，所有视频帧对应的残差向量r(y)中相同维度的短向量构成一组，一共得到m组短向量。

例如，所有r(y)中的第1个短向量(即第1维到第d/m维的数据构成的短向量)构成第1组短向量，所有r(y)中的第2个短向量构成第2组短向量，以此类推，所有r(y)中的第m个短向量构成第m组短向量。然后，对每组短向量进行聚类得到多个聚类簇(即，第二类聚类簇)，并利用每个短向量所属的第二类聚类簇的聚类中心代替该短向量，这样，每个d/m的短向量的维度降至1维，因此，每个d维的r(y)被压缩成m维向量q_p(r(y))。从而节省了视频标签索引库所占用的内存。

经过聚类和压缩后的视频帧特征构成视频标签索引库，同时，每个视频帧特征标注有标签，该标签即该视频帧特征所对应的视频帧所属已标注视频的标签。

在本发明的另一个实施例中，当增加新标签时，只需从该新标签对应的已标注视频中提取相应的视频帧特征，并为每一个视频帧特征标注新标签，然后，将标注有新标签的视频帧特征更新至视频标签索引库中。

在一种应用场景下，视频标签索引库中存储的是经聚类和压缩后的视频帧特征，此种应用场景下，增加的新标签对应的已标注视频的视频帧特征也需要进行压缩，具体的压缩过程如下：

计算新标签对应的视频帧特征与视频标签库中已有的第一类聚类簇的聚类中心之间的距离，确定该新标签的视频帧特征所属的第一类聚类簇；

然后，计算该新标签的视频帧特征与其所属第一类聚类簇的聚类中心之间的残差向量r_new(y)，再将该残差向量r_new(y)划分成m个短向量；

分别计算每个短向量与视频标签索引库中相同维度的短向量组聚类得到的第二类聚类簇的聚类中心之间的距离，获得每个短向量所属的第二聚类簇，利用每个短向量所属第二聚类簇的聚类中心代替该短向量，这样，r_new(y)被压缩成m维向量。

例如，r_new(y)中的第1个短向量与视频标签索引库中的第1组短向量聚类得到的聚类簇进行聚类，确定第1个短向量所述的第二聚类簇，并利用第1个短向量所属第二聚类簇的聚类中心代替该第1个短向量。

可选地，在本发明的其它实施例中，对于人工发现的识别错误的视频，修改识别错误的视频的标签，并采用与增加新标签类似的方法将该修改后的视频及标签更新到视频标签索引库中，从而及时修正已发现的问题。

本发明提供的视频标签索引库创建方法，针对各个预设标签，标注一定数量的视频作为已标注视频；然后，从每个已标注视频中提取满足预设条件的多个视频帧，然后从每个视频帧中提取得到视频帧特征。对于每个预设标签，基于该预设标签对应的每个视频帧的视频帧特征得到该预设标签对应的目标视频帧特征。依据各个预设标签及其对应的目标视频帧特征创建得到视频标签索引库。创建视频标签索引库时，每个预设标签只需要少量已标注的已标注视频，而且，当增加新标签时，不需要重新训练，只需要将新标签对应的已标注的少量已标注视频提取特征更新到视频标签索引库中，更容易扩展。

下面将介绍通过检索该视频标签索引库为新的视频生成标签的过程。

请参见图4，示出了本发明提供的一种视频标签生成方法的流程图，该方法应用于服务器中，如图4所示，该方法可以包括以下步骤：

S210，提取请求视频所包含的目标视频帧集合，所述目标视频帧集合包括多个视频帧。

请求视频是指需要生成标签的任意一个视频，该请求视频可以是客户端发送的视频，或者，视频内容服务器中的任意一个视频。

在本发明的一个实施例中，目标视频帧集合是从请求视频中提取的一定数量的视频帧经过预处理后得到的，预处理过程可以包括：

去除请求视频所包含的视频帧中的纯色图片，得到可选视频帧，然后，从可选视频帧中检测包含视频黑边的视频帧并去除视频黑边，得到请求视频的目标视频帧集合。

S220，对于目标视频帧集合中的每个视频帧，提取该视频帧的视频帧特征。

S230，从预先建立的视频标签索引库中，检索得到与该视频帧的视频帧特征相似性最高的视频帧，并确定选取的相似性最高的视频帧对应的标签为所述目标视频帧的标签。

其中，该视频标签索引库依据图1对应的视频标签库创建方法实施例创建得到，且该视频标签库中存储有预设标签对应的至少一个已标注视频的视频帧特征。

对于请求视频对应的目标视频帧集合中每一个目标视频帧对应的视频帧特征，计算该视频帧特征与视频标签索引库中存储的视频帧特征之间的相似性，获得与该目标视频帧对应的视频帧特征相似性最高的视频帧。

在一种应用场景中，视频标签索引库中存储的是经聚类和压缩后的视频帧特征，此种应用场景下，检索相似性最高的视频帧的过程如下：

对于请求视频对应的任意一个目标视频帧，计算该目标视频帧的视频帧特征与视频标签索引库中的各个第一类聚类簇的聚类中心之间的距离，得到距离该目标视频帧的视频帧特征最近的前N个第一类聚类簇，作为目标聚类簇；

然后，分别计算该目标视频帧与每个目标聚类簇中的所有视频帧特征之间的相似度，得到与该目标视频帧之间的相似性最高的视频帧，并确定相似性最高的视频帧的标签作为该目标视频帧的标签。

S240，基于各个目标视频帧对应的标签确定所述请求视频对应的标签。

获得请求视频所包含的各个视频帧的标签后，统计请求视频对应的目标视频帧集合中各个视频帧对应的标签种类及每种标签的数量。选取数量最大的标签为该请求视频对应的标签。

本实施例提供的视频标签生成方法，接收到请求生成标签的请求视频之后，提取请求视频中的视频帧得到目标视频帧集合；并提取目标视频帧集合中的各个目标视频帧的视频帧特征。从视频标签索引库中选取与该目标视频帧的视频帧特征相似性最高的视频帧的标签作为该目标视频帧的标签；最终基于请求视频对应的各个目标视频帧的标签确定该请求视频的标签。该标签生成方法从预先创建的视频标签索引库中检索与请求视频最相似的视频的标签作为请求视频的标签，检索速度快。此外，该方法不需要利用大量训练数据预先训练分类模型，而且，当增加新标签时，不需要重新训练，只需要将新标签对应的已标注的少量已标注视频提取特征更新到视频标签索引库中，更容易扩展。

相应于视频标签索引库创建方法实施例，本发明还提供了视频标签索引库创建装置实施例。

请参见图5，示出了本发明提供的一种视频标签索引库创建装置的结构示意图，该装置应用于服务器中。如图5所示，该装置可以包括：获取模块110、视频帧提取模块120、特征提取模块130和索引库创建模块140。

获取模块110，用于获取各个预设标签所对应的至少一个已标注视频。

视频帧提取模块120，用于对于任意一个预设标签，从该预设标签对应的各个已标注视频中提取至少两个视频帧，得到目标视频帧集合。

在本发明一种可能的实现方式中，视频帧提取模块120具体用于：

对于任意一个预设标签，从与该视频标签对应的各个已标注视频中，提取该已标注视频所包含的视频帧。

去除同一个已标注视频所包含的视频帧中的纯色图片，以及去除视频帧中的视频黑边，得到该已标注视频对应的处理后的视频帧。

在本发明一种可能的实现方式中，去除重复图片的过程如下：

特征提取模块130，用于对于任意一个预设标签，从该预设标签对应的目标视频帧集合包含的每个视频帧中提取视频帧特征，得到该预设标签对应的目标视频帧特征。

索引库创建模块140，用于基于各个预设标签及各个预设标签所对应的目标视频帧特征，创建视频标签索引库。

在本发明一种可能的实现方式中，索引库创建模块140具体用于：

将每个残差向量进行压缩，得到压缩后的残差向量；

可选地，该视频标签索引库创建装置还包括：标签增加模块150具体用于：

获取新标签，以及新标签对应的至少一个已标注视频；

基于从每个已标注视频中提取视频帧，获得与新标签对应的目标视频帧集合；

从新标签对应的目标视频帧集合中的每个视频帧中提取视频帧特征，得到新标签对应的目标视频帧特征；

计算新标签对应的目标视频帧特征进行压缩，得到压缩后的视频帧特征；

将新标签对应的压缩后的视频帧特征更新至视频标签索引库。

另一方面，本发明还提供了视频标签生成装置实施例，如图6所示，该装置包括：视频帧提取模块210、特征提取模块220、选取模块230和确定模块240。

视频帧提取模块210，用于提取请求生成标签的请求视频所包含的目标视频帧集合，该目标视频帧集合包括多个目标视频帧。

在一种可能的实现方式中，视频帧提取模块210具体用于：

提取请求视频包含的视频帧；

去除请求视频所包含的视频帧中的纯色图片，得到可选视频帧；

从可选视频帧中检测包含视频黑边的视频帧，并去除包含视频黑边的视频帧的视频黑边，得到所述目标视频帧集合。

特征提取模块220，用于对于每个目标视频帧，提取该目标视频帧的视频帧特征。

选取模块230，用于从预先建立的视频标签索引库中，选取与该目标视频帧的视频帧特征相似性最高的视频帧，并确定选取的相似性最高的视频帧对应的标签为所述目标视频帧的标签。

其中，所述视频标签索引库依据上述任意一种视频标签索引库创建方法创建得到，且存储有预设标签对应的至少一个已标注视频的视频帧特征。、

在一种可能的实现方式中，选取模块230具体用于：

计算目标视频帧的视频帧特征与视频标签索引库中的各个第一类聚类簇的聚类中心之间的距离，所述第一类聚类簇是对各个预设标签对应的目标视频帧特征进行聚类得到；

分别计算目标视频帧与各个目标聚类簇中的视频帧特征之间的相似度，得到与所述目标视频帧之间的相似性最高的视频帧。

确定模块240，用于基于各个目标视频帧对应的标签确定所述请求视频对应的标签。

在本发明的一种可能的实现方式中，确定模块240具体用于：

统计目标视频帧集合中各个目标视频帧对应的标签种类及每种标签的数量；

另一方面，本申请还提供了一种服务器，如参见图7，其示出了本申请的服务器的一种组成结构示意图，本实施例的服务器可以包括：处理器301和存储器302。

可选的，该服务器还可以包括通信接口303、输入单元304和显示器305和通信总线306。

处理器301、存储器302、通信接口303、输入单元304、显示器305、均通过通信总线306完成相互间的通信。

在本申请实施例中，该处理器301，可以为中央处理器(Central ProcessingUnit，CPU)，特定应用集成电路，数字信号处理器、现成可编程门阵列或者其他可编程逻辑器件等。

该处理器可以调用存储器302中存储的程序。具体的，处理器可以执行以下消息发送方法的实施例中应用服务器侧所执行的操作。

存储器302中用于存放一个或者一个以上程序，程序可以包括程序代码，所述程序代码包括计算机操作指令，在本申请实施例中，该存储器中至少存储有用于实现以下功能的程序：

获取各个预设标签所对应的至少一个已标注视频；

在另一个实施例中，该存储器中还存储有用于实现如下功能的程序：

对于每个目标视频帧，提取该目标视频帧的视频帧特征；

从预先建立的视频标签索引库中，选取与该目标视频帧的视频帧特征相似性最高的视频帧；

其中，所述视频标签索引库依据上述任意一个方法实施例提供的视频标签索引库创建方法创建得到，且存储有预设标签对应的至少一个已标注视频的视频帧特征。

在一种可能的实现方式中，该存储器302可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、以及至少一个功能(比如图像播放功能等)所需的应用程序等；存储数据区可存储根据计算机的使用过程中所创建的数据，比如，用户数据及图像数据等等。

此外，存储器302可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。

该通信接口303可以为通信模块的接口，如GSM模块的接口。

本申请还可以包括显示器304和输入单元305等等。

当然，图7所示的服务器的结构并不构成对本申请实施例中服务器的限定，在实际应用中服务器可以包括比图7所示的更多或更少的部件，或者组合某些部件。

另一方面，本申请实施例还提供了一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上任意一个实施例所提供的视频标签索引库创建方法及视频标签生成方法。

需要说明的是，本说明书中的各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频标签生成方法，其特征在于，包括：

对于每个目标视频帧，提取该目标视频帧的视频帧特征；

从预先建立的视频标签索引库中，选取与该目标视频帧的视频帧特征相似性最高的视频帧，所述视频标签索引库存储有预设标签对应的至少一个已标注视频的视频帧特征；

选取对应的目标视频帧的数量最大的标签为所述请求视频对应的标签；

其中，所述视频标签索引库的建立过程包括：

获取各个预设标签所对应的至少一个已标注视频；

对于任意一个预设标签，从该预设标签对应的各个已标注视频中提取至少两个视频帧，并对至少两个视频帧执行去除纯色图片、去除视频黑边，以及，去除视频帧中的重复图片处理，得到目标视频帧集合；

将每个目标视频帧特征对应的残差向量划分成m个短向量，每个短向量的维度为残差向量的维度/m，将所有目标视频帧特征对应的残差向量中相同维度的短向量构成一组，得到m组短向量，m大于等于2；

对每组短向量进行聚类得到多个第二类聚类簇，并利用每个短向量所属的第二类聚类簇的聚类中心代替所述短向量，实现对每个残差向量进行压缩，得到压缩后的残差向量；

存储各个预设标签及各个预设标签所对应的压缩后的目标视频帧特征，得到视频标签索引库；所述视频标签索引库中每个目标视频帧特征对应标注有一个标签，所述标签为该目标视频帧特征对应的视频帧所属已标注视频的标签。

2.根据权利要求1所述的方法，其特征在于，所述对于任意一个预设标签，从该预设标签对应的各个已标注视频中提取至少两个视频帧，并对至少两个视频帧执行去除纯色图片、去除视频黑边，以及，去除视频帧中的重复图片处理，得到目标视频帧集合，包括：

3.根据权利要求2所述的方法，其特征在于，所述去除同一个已标注视频对应的处理后的视频帧中的重复图片，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取新标签，以及所述新标签对应的至少一个已标注视频；

5.根据权利要求1所述的方法，其特征在于，所述提取请求生成标签的请求视频所包含的目标视频帧集合，包括：

提取所述请求视频包含的视频帧；

6.根据权利要求1所述的方法，其特征在于，所述从预先建立的视频标签索引库中，选取与该目标视频帧的视频帧特征之间的相似性最高的视频帧，包括：

7.一种视频标签生成装置，其特征在于，包括：

选取模块，用于从预先建立的视频标签索引库中，选取与该目标视频帧的视频帧特征相似性最高的视频帧，并确定选取的相似性最高的视频帧对应的标签为所述目标视频帧的标签，所述视频标签索引库存储有预设标签对应的至少一个已标注视频的视频帧特征；

确定模块，用于统计所述目标视频帧集合中各个目标视频帧对应的标签种类及每种标签的数量；选取对应的目标视频帧的数量最大的标签为所述请求视频对应的标签；

其中，所述视频标签索引库的建立过程包括：

获取各个预设标签所对应的至少一个已标注视频；

8.一种服务器，其特征在于，包括：

处理器和存储器；

其中，所述处理器用于执行所述存储器中存储的程序；

所述存储器用于存储程序，所述程序至少用于：

对于每个目标视频帧，提取该目标视频帧的视频帧特征；

其中，所述视频标签索引库的建立过程包括：

获取各个预设标签所对应的至少一个已标注视频；

9.一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上权利要求1至6任一项所述的视频标签生成方法。