CN111708909A

CN111708909A - 视频标签的添加方法及装置、电子设备、计算机可读存储介质

Info

Publication number: CN111708909A
Application number: CN202010427484.3A
Authority: CN
Inventors: 余海铭
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2020-09-25
Anticipated expiration: 2040-05-19
Also published as: CN111708909B

Abstract

本发明实施例提供了一种视频标签的添加方法及装置、电子设备、计算机可读存储介质，该方法包括获取目标视频中的视频帧；计算视频帧与多个预设图片的相似度，得到相似图片；相似图片为多个预设图片按照与视频帧的相似度从大到小进行排序之后的前预设数量的图片；每个预设图片对应至少一个表征预设图片的图片内容的文字标签；将全部或者部分相似图片对应的文字标签，确定为视频帧的文字标签；根据视频帧的文字标签，对目标视频添加文字标签。本发明通过图片比对的方式对视频帧添加文字标签，根据视频帧的文字标签，对视频添加文字标签。不仅可以提升视频的文字性描述的准确性，还可以提升视频搜索的准确率。

Description

视频标签的添加方法及装置、电子设备、计算机可读存储介质

技术领域

本发明涉及视频搜索领域，尤其涉及一种视频标签的添加方法及装置、电子设备、计算机可读存储介质。

背景技术

视频数据是网络时代最重要的数据类型之一，其应用十分广泛。例如一些大型网站的数据资源中，电影、电视节目、动漫等均采用视频数据类型进行存储，从而方便用户观看。

由于视频数据的实质是一组组连续的图像，因此在存储视频数据时，需要同时对应存储一些文字性描述，例如主题、简介等。这样，在搜索视频数据时，只需要根据这部分文字性描述，就可以搜索到对应的视频数据。

然而，针对视频数据生成对应的文字性描述的方法，通常是对视频数据进行视频分析，根据视频分析的结果生成文字性描述。由于目前针对视频数据进行视频分析的技术并不完善，导致生成的文字性描述可能无法准确说明视频数据的内容；进而造成视频搜索的准确率低的问题。

发明内容

鉴于上述问题，本发明实施例提供一种视频标签的添加方法及装置、电子设备、计算机可读存储介质，以解决现有技术中，采用视频分析的方式对视频数据添加的文字性描述不够准确，导致视频搜索准确率过低的问题。

在本发明实施的第一方面，提供了一种视频标签的添加方法，所述方法包括：

获取目标视频中的视频帧；

计算所述视频帧与多个预设图片的相似度，得到相似图片；其中，所述相似图片为所述多个预设图片按照与所述视频帧的相似度从大到小进行排序之后的前预设数量的图片；每个预设图片对应至少一个用于表征所述预设图片的图片内容的文字标签；

将全部或者部分所述相似图片对应的文字标签，确定为所述视频帧的文字标签；

根据所述视频帧的文字标签，对所述目标视频添加文字标签。

在本发明实施的第二方面，还提供了一种视频标签的添加装置，所述装置包括：

获取模块，用于获取目标视频中的视频帧；

计算模块，用于计算所述视频帧与多个预设图片的相似度，得到相似图片；其中，所述相似图片为所述多个预设图片按照与所述视频帧的相似度从大到小进行排序之后的前预设数量的图片；每个预设图片对应至少一个用于表征所述预设图片的图片内容的文字标签；

确定模块，用于将全部或者部分所述相似图片对应的文字标签，确定为所述视频帧的文字标签；

添加模块，用于根据所述视频帧的文字标签，对所述目标视频添加文字标签。

在本发明实施的第三方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述视频标签的添加方法的步骤。

在本发明实施的第四方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面中任一所述的视频标签的添加方法。

在本发明实施的第五方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述视频标签的添加方法。

针对在先技术，本发明具备如下优点：

本发明提供的视频标签的添加方法，获取目标视频中的视频帧；计算视频帧与多个预设图片的相似度，得到相似图片。通过图片相似度的比较，可以确定与视频帧具有相同内容的多个图片。较佳的，可以选用其中相似度较高的若干图片作为相似图片。即相似图片为多个预设图片按照与视频帧的相似度从大到小进行排序之后的前预设数量的图片。将全部或者部分相似图片对应的文字标签，确定为视频帧的文字标签。由于每个预设图片对应一用于表征预设图片的图片内容的文字标签。因此确定的视频帧的文字标签可以准确地表征视频帧的内容。根据视频帧的文字标签，对目标视频添加文字标签。本发明避免采用视频分析技术对视频添加一些文字性描述；利用与视频中的各视频帧相似的预设图片先对各视频帧添加文字标签，使得各视频帧添加有准确指示其图片内容的文字标签。同时各视频帧的文字标签同样可以准确指示由各视频帧组成的视频的内容。另外，当视频的文字标签可以准确指示其内容时，用户也就可以通过文字标签，准确搜索到视频内容中具有该文字标签对应内容的视频。因此通过本发明实施例提供的视频标签的添加方法，对视频添加文字标签，不仅可以提升视频的文字性描述即文字标签的准确性，还可以提升视频搜索的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的视频标签的添加方法的步骤流程图；

图2为本发明实施例提供的确定视频帧的文字标签的步骤流程图；

图3为本发明实施例提供的对目标视频添加文字标签的步骤流程图；

图4为本发明实施例提供的确定相似图片的步骤流程图；

图5为本发明实施例提供的视频标签的添加方法的应用框架示意图；

图6为本发明实施例提供的视频标签的添加装置的结构框图；

图7为本发明实施例提供的电子设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

参见图1，本发明实施例提供了一种视频标签的添加方法，该方法包括：

步骤101，获取目标视频中的视频帧。

应当说明的是，目标视频为视频数据，该视频帧为目标视频所包含的全部或者部分视频帧。

步骤102，计算视频帧与多个预设图片的相似度，得到相似图片。

应当说明的是，相似度是表示视频帧与预设图片相似程度的数值，数值越大则越相似。这里，分别计算视频帧与每一个预设图片之间的相似度。当视频帧的数量为多个时，针对每个视频帧，计算其与每个预设图片的相似度，从而得到每个视频帧各自对应的相似图片。视频帧与预设图片的相似度可以采用现有图片相似度算法计算得到，在此不再赘述。

在选取相似图片时，可以选取与视频帧的相似度较高的预设数量的图片。即相似图片为多个预设图片按照与视频帧的相似度从大到小进行排序之后的前预设数量的图片。预设数量的具体值可以根据预设图片的数量自行设定。

较佳的，可以预先建立数据库，用于存储预设图片。每个预设图片对应至少一个用于表征预设图片的图片内容的文字标签。例如一预设图片的图片内容包括车和建筑。该预设图片对应的标签可以仅包括车标签或者建筑标签，当然也可以包括车标签和建筑标签。需要说明的是，根据预设图片对应的标签，应当可以在该预设图片中找到对应的图片内容。

步骤103，将全部或者部分相似图片对应的文字标签，确定为视频帧的文字标签。

应当说明的是，由于视频帧与相似图片之间具有很高的相似度，相似图片的文字标签可以表征相似图片的图片内容，因此相似图片的文字标签同样可以表征视频帧的图片内容。

视频帧对应的相似图片的数量通常为多个，多个相似图片对应的文字标签可以相同或者不同。当多个相似图片对应的文字标签不同时，可以将多个相似图片对应的多个不同文字标签，全部确定为视频帧的文字标签，从而使得视频帧的文字标签可以全面准确的表征视频帧的图片内容。当然也可以将多个相似图片对应的多个不同文字标签中的部分文字标签，确定为视频帧的文字标签，从而避免视频帧的文字标签过多。

步骤104，根据视频帧的文字标签，对目标视频添加文字标签。

应当说明的是，可以将视频帧的文字标签作为目标视频的文字标签；当视频帧的数量为多个时，可以汇总多个视频帧的标签，对目标视频添加文字标签。由于视频帧的文字标签可以表征视频帧的图片内容，该视频帧属于目标视频。因此，视频帧的文字标签同样可以表征目标视频的视频内容。

本发明实施例中，获取目标视频中的视频帧；计算视频帧与多个预设图片的相似度，得到相似图片。通过图片相似度的比较，可以确定与视频帧具有相同内容的多个图片。较佳的，可以选用其中相似度较高的若干图片作为相似图片。即相似图片为多个预设图片按照与视频帧的相似度从大到小进行排序之后的前预设数量的图片。将全部或者部分相似图片对应的文字标签，确定为视频帧的文字标签。由于每个预设图片对应一用于表征预设图片的图片内容的文字标签。因此确定的视频帧的文字标签可以准确地表征视频帧的内容。根据视频帧的文字标签，对目标视频添加文字标签。本发明避免采用视频分析技术对视频添加一些文字性描述；利用与视频中的各视频帧相似的预设图片先对各视频帧添加文字标签，使得各视频帧添加有准确指示其图片内容的文字标签。同时各视频帧的文字标签同样可以准确指示由各视频帧组成的视频的内容。另外，当视频的文字标签可以准确指示其内容时，用户也就可以通过文字标签，准确搜索到视频内容中具有该文字标签对应内容的视频。因此通过本发明实施例提供的视频标签的添加方法，对视频添加文字标签，不仅可以提升视频的文字性描述即文字标签的准确性，还可以提升视频搜索的准确率。

可选的，参见图2，上述步骤103：将全部或者部分相似图片对应的文字标签，确定为视频帧的文字标签，可以包括：

步骤201，汇总对应相同文字标签的相似图片，得到至少一个图片类。

应当说明的是，相似图片的数量通常为多个；不同相似图片对应的文字标签相同或者不同。每个图片类中包含至少一个相似图片，并且每个图片类中的所有相似图片的文字标签均相同。

步骤202，根据每个图片类中的相似图片的相似度，计算得到每个图片类的可信分数。

应当说明的是，针对某一图片类的可信分数，可以为该图片类中的相似图片的数量与选取相似图片时的预设数量的比值。某一图片类的可信分数越高，说明该图片类越能表征对应的视频帧的内容。当然还可以根据相似度计算可信分数；具体的，针对每个图片类，将图片类中的所有相似图片的相似度相加得到的总和，作为图片类的可信分数。

步骤203，将目标图片类包含的相似图片对应的文字标签，确定为视频帧的文字标签。

应当说明的是，目标图片类为至少一个图片类中的可信分数超过第一阈值的图片类。第一阈值可以根据需求自行设定，通过设置第一阈值，将可信分数较高的图片类包含的相似图片对应的文字标签，确定为视频帧的文字标签。使得视频帧被添加的文字标签可以较准确的表征视频帧的内容。当然视频帧的数量为多个时，针对其中的部分视频帧，若该部分视频帧对应的相似图片组成的图片类中不存在目标图片类，则不对该部分视频帧添加文字标签。

本发明实施例中，在对视频帧添加文字标签时，汇总对应相同文字标签的相似图片，得到至少一个图片类。根据预设算法以及每个图片类中的相似图片的相似度，计算得到每个图片类的可信分数。其中图片类的可信分数，也可以理解为图片类中的相似图片对应的文字标签与视频帧的内容的相关程度。将目标图片类包含的相似图片对应的文字标签，确定为视频帧的文字标签。其中目标图片类为至少一个图片类中的可信分数超过第一阈值的图片类。也就是将与视频帧的内容的相关程度达到一定程度的文字标签作为视频帧的文字标签，从而使得视频帧被添加的文字标签可以较准确的表征视频帧的内容。本发明利用与视频中的各视频帧相似的预设图片先对各视频帧添加文字标签，并且将与视频帧的内容的相关程度达到一定程度的文字标签作为视频帧的文字标签，使得各视频帧的文字标签可以更加准确的指示其图片内容。

可选的，参见图3，在上述发明实施例的基础上，步骤104，根据视频帧的文字标签，对目标视频添加文字标签，可以包括：

步骤301，汇总对应相同文字标签的视频帧，得到至少一个帧类。

应当说明的是，视频帧的数量通常为多个；不同视频帧对应的文字标签可以相同或者不同。每个帧类中包含有至少一个视频帧。由于根据文字标签是否相同，汇总得到帧类。即将具有相同文字标签的视频帧放在一起，形成一个帧类，所以每个帧类中的所有视频帧的文字标签均相同。

步骤302，根据每个帧类中的视频帧的可信分数，计算得到每个帧类的可信分数。

应当说明的是，视频帧的可信分数为视频帧的文字标签对应的目标图片类的可信分数。每个帧类的可信分数可以为该帧类中的所有视频帧的可信分数的总和，但不限于此。某一帧类的可信分数越高，说明该帧类越能表征目标视频的内容。

步骤303，将目标帧类包含的视频帧的文字标签，添加为目标视频的文字标签。

应当说明的是，目标帧类为至少一个帧类中的可信分数超过第二阈值的帧类。第二阈值可以根据需求自行设定，通过设置第二阈值，将可信分数较高的帧类包含的视频帧的文字标签，确定为目标视频的文字标签。使得目标视频被添加的文字标签可以较准确的表征目标视频的内容。当然目标视频的数量为多个时，针对其中的部分目标视频，若该部分目标视频对应的视频帧组成的帧类中不存在目标帧类，则不对该部分目标视频添加文字标签，避免目标视频被添加的文字标签与目标视频的内容的相关程度不高，在视频搜索时降低搜索准确率。

本发明实施例中，汇总对应相同文字标签的视频帧，得到至少一个帧类。根据预设算法以及每个帧类中的视频帧的可信分数，计算得到每个帧类的可信分数。其中帧类的可信分数，也可以理解为帧类中的视频帧的文字标签与目标视频的内容的相关程度。将目标帧类包含的视频帧的文字标签，添加为目标视频的文字标签。其中目标帧类为至少一个帧类中的可信分数超过第二阈值的帧类。也就是将与目标视频的内容的相关程度达到一定程度的文字标签作为目标视频的文字标签，从而使得目标视频被添加的文字标签可以较准确的表征目标视频的内容。本发明利用与视频中的各视频帧相似的预设图片先对各视频帧添加文字标签，并且将与视频帧的内容的相关程度达到一定程度的文字标签作为视频帧的文字标签，使得各视频帧添加有准确指示其图片内容的文字标签。同时各视频帧的文字标签同样可以准确指示由各视频帧组成的视频的内容，将与视频内容的相关程度达到一定程度的文字标签作为视频的文字标签，可以进一步提升对视频添加的文字标签的准确性。

可选的，在获取目标视频中的视频帧的步骤之前，该方法还包括：

对至少一个视频进行分割，得到多个视频片段，将每一个视频片段作为一个目标视频。

本发明实施例中，视频的数量为多个时，分别针对每个视频进行分割，可以将每个视频分割为多个视频片段。对一个视频进行分割时，可以按照时长，将视频分割成具有预设时长的视频片段；也可以根据视频内容对视频进行分割。较佳的，可以分别对至少一个视频中的每个视频进行镜头检测，将所述每个视频中属于同一镜头的多个连续视频帧切割为一个视频片段，得到多个视频片段。即将相邻两个相似度值小于预设阈值的视频帧之间作为镜头分割点对视频进行分割，从而得到多个视频片段，每个视频片段的相邻两个视频帧之间的相似度值均高于预设阈值。在得到多个视频片段之后，每一个视频片段均为一个目标视频，从而针对每个视频片段执行步骤101～步骤104，对每个视频片段添加文字标签。

本发明实施例中，对至少一个视频进行分割，得到多个视频片段，将每一个视频片段作为一个目标视频。通过对目标视频添加文字标签，从而实现对每一个视频片段添加文字标签。

可选的，在上述发明实施例的基础上，在步骤104：根据视频帧的文字标签，对目标视频添加文字标签之后，该方法还包括：

接收用户输入的搜索词；

根据搜索词，匹配目标视频的文字标签；

将与搜索词匹配成功的文字标签对应的目标视频反馈至用户。

本发明实施例中，由于视频片段的数量为多个，并且将每一个视频片段作为一个目标视频。所以将得到多个添加有文字标签的目标视频。在通过搜索词匹配目标视频的文字标签时，可以自行设定匹配成功的条件。例如当检索词中包含某一文字标签的部分内容时，则认为该文字标签与检索词匹配成功，但不限于此。在向用户反馈目标视频时，可以反馈目标视频的网络链接。

可选的，上述步骤101：获取目标视频中的视频帧，可以包括：

按照预设间隔，抽取目标视频中的多个视频帧。

本发明实施例中，预设间隔可以根据经验自行设定，当然还可以根据目标视频的时长进行确定。由于同一场景下相邻两个视频帧的内容差别不大，因此并不需要抽取视频中的每一个视频帧，等间隔的抽取视频帧即可；可以减少后续处理过程中的计算量。

可选的，参见图4，上述步骤102：计算视频帧与多个预设图片的相似度，得到相似图片，还可以包括：

步骤401，根据预先训练好的图片特征提取模型，分别计算视频帧的特征向量以及每个预设图片的特征向量。

应当说明的是，图片特征提取模型的输入为图片，输出为图片特征。较佳的，可以使用优化处理过的ImageNet数据集作为训练数据；将EfficientNet分类模型作为初始特征提取模型。利用训练数据对初始特征提取模型进行训练，得到训练后的模型即为图片特征提取模型。其中，作为初始特征提取模型的EfficientNet分类模型，可以选择具有大量类别的分类模型，其类别数量可以为8541，但不限于此。

较佳的，可以预先建立数据库，用于存储预设图片。例如根据热门话题，建立大规模的词汇库，将词汇作为文字标签使用。词汇库规模在四万以上。根据每一个文字标签，收集大量描述性的图片。每一个文字标签的图片数量在一千以上，由此建立好图片索引库。上述关于词汇库规模以及每一个文字标签的图片数量的数值均为示例，并不限于此。

然后对图片索引库的图片使用EfficientNet特征提取模型提取图片特征，并使用FAISS建立特征索引库，从而使得特征索引库中直接存储每个预设图片的特征向量，从而方便后续使用。

步骤402，根据视频帧的特征向量与预设图片的特征向量，得到视频帧与每个预设图片的相似度。

应当说明的是，可以采用余弦相似度作为特征向量之间的相似度。

步骤403，将多个预设图片按照与视频帧的相似度从大到小进行排序，得到图片序列。

应当说明的是，两个图片的相似度越大，说明这两个图片越相似。多个预设图片按照相似度从大到小进行排序，是将多个预设图片按照与视频帧的相似程度进行排序，图片序列中越靠前的预设图片，其与视频帧越相似。当视频帧的数量为多个时，每个视频帧对应一图片序列，从而得到多个图片序列。

步骤404，将图片序列的前预设数量的元素，确定为视频帧的相似图片。

应当说明的是，预设数量为一具体数值，可以自行设定；例如预设数量可以为500个。

本发明实施例中，根据预先训练好的图片特征提取模型，分别计算视频帧以及每个预设图片的特征向量。利用预先训练好的图片特征提取模型，方便计算视频帧以及预设图片的图片特征，即特征向量。根据视频帧的特征向量与预设图片的特征向量，得到视频帧与每个预设图片的相似度。由特征向量之间的相似度，指示图片之间的相似度。将多个预设图片按照与视频帧的相似度从大到小进行排序，得到图片序列。将图片序列的前预设数量的元素，确定为视频帧的相似图片。选用其中相似度较高的若干图片作为相似图片，以保证后续通过相似图片对视频帧添加标签时，被添加的文字标签可以准确指示出视频帧的图片内容。图5是本发明实施例提供的另一种视频标签的添加方法的应用框架示意图，针对某一存储有海量视频的网站，可以对站内视频进行处理，将站内视频按镜头分割为多个视频片段，然后抽取每个视频片段中的多个视频帧。根据预先训练好的图片特征提取模型，计算得到每个视频帧的图片特征。建立帧图片特征库，将抽取的所有视频帧以及对应的图片特征存储于帧图片特征库中备用。

根据热门话题，建立大规模的词汇库，每一个词汇作为一个文字标签使用。词汇库规模在四万以上。根据每一个文字标签，收集大量描述性的图片。每一个文字标签的图片数量在一千以上，由此建立好图片索引库。然后根据预先训练好的图片特征提取模型，计算得到图片索引库中的每个图片的图片特征，并使用FAISS建立特征索引库。

对特征索引库与帧图片特征库进行特征匹配和时序处理，确定帧图片特征库中的视频帧与特征索引库中的图片的对应关系。具体的，针对每一个视频帧，根据该视频帧的图片特征以及特征索引库中的每一个图片的图片特征，计算该视频帧与特征索引库中的每一个图片的相似度，将该相似度按照从大到小进行排序，建立前预设数量的相似度指示的图片与该视频帧的对应关系。

汇总分析每个视频帧对应的图片的文字标签，对符合条件的视频帧添加文字标签，保证视频帧被添加的文字标签可以较准确的表征视频帧的内容。然后汇总分析每个视频片段中添加有文字标签的视频帧，对符合条件的视频片段添加文字标签，保证视频片段被添加的文字标签可以较准确的表征视频片段的内容，将添加有文字标签的视频片段作为素材。当用户采用文字搜索视频时，将用户输入的搜索文字与所有视频片段的文字标签进行匹配，得到与搜索文字匹配成功的文字标签。然后确定与搜索文字匹配成功的文字标签对应的视频片段。将确定的视频片段作为搜索结果反馈至用户。

本发明避免采用视频分析技术对视频添加一些文字性描述；利用与视频中的各视频帧相似的预设图片先对各视频帧添加文字标签，使得各视频帧添加有准确指示其图片内容的文字标签。同时各视频帧的文字标签同样可以准确指示由各视频帧组成的视频的内容。另外，当视频的文字标签可以准确指示其内容时，用户也就可以通过文字标签，准确搜索到视频内容中具有该文字标签对应内容的视频。因此通过本发明实施例提供的视频标签的添加方法，对视频添加文字标签，不仅可以提升视频的文字性描述即文字标签的准确性，还可以提升视频搜索的准确率。

以上介绍了本发明实施例提供的视频标签的添加方法，下面将结合附图介绍本发明实施例提供的视频标签的添加装置。

参见图6，本发明实施例还提供了一种视频标签的添加装置，该装置包括：

获取模块61，用于获取目标视频中的视频帧；

计算模块62，用于计算视频帧与多个预设图片的相似度，得到相似图片；其中，相似图片为多个预设图片按照与视频帧的相似度从大到小进行排序之后的前预设数量的图片；每个预设图片对应至少一个用于表征预设图片的图片内容的文字标签；

确定模块63，用于将全部或者部分相似图片对应的文字标签，确定为视频帧的文字标签；

添加模块64，用于根据视频帧的文字标签，对目标视频添加文字标签。

可选地，不同相似图片对应的文字标签相同或者不同；确定模块83包括：

第一汇总单元，用于汇总对应相同文字标签的相似图片，得到至少一个图片类；

第三计算单元，用于根据每个图片类中的相似图片的相似度，计算得到每个图片类的可信分数；

第二确定单元，用于将目标图片类包含的相似图片对应的文字标签，确定为视频帧的文字标签；其中，目标图片类为至少一个图片类中的可信分数超过第一阈值的图片类。

可选地，第三计算单元，具体用于针对每个图片类，将图片类中的所有相似图片的相似度相加得到的总和，作为图片类的可信分数。

可选地，添加模块64包括：

第二汇总单元，用于汇总对应相同文字标签的视频帧，得到至少一个帧类；

第四计算单元，用于根据每个帧类中的视频帧的可信分数，计算得到每个帧类的可信分数；其中，视频帧的可信分数为视频帧的文字标签对应的目标图片类的可信分数；

添加单元，用于将目标帧类包含的视频帧的文字标签，添加为目标视频的文字标签；其中目标帧类为至少一个帧类中的可信分数超过第二阈值的帧类。

可选地，该装置还包括：

视频分割模块，用于对至少一个视频进行分割，得到多个视频片段；将每一个视频片段作为一个目标视频。

可选地，视频分割模块，具体用于分别对至少一个视频中的每个视频进行镜头检测，将每个视频中属于同一镜头的多个连续视频帧切割为一个视频片段，得到多个视频片段。

可选的，该装置还包括：

接收模块，用于接收用户输入的搜索词；

匹配模块，用于根据所述搜索词，匹配所述目标视频的文字标签；

反馈模块，用于将与所述搜索词匹配成功的文字标签对应的目标视频反馈至用户。

可选地，获取模块61，具体用于按照预设间隔，抽取目标视频中的多个视频帧。

可选地，计算模块62包括：

第一计算单元，用于根据预先训练好的图片特征提取模型，分别计算视频帧的特征向量以及每个预设图片的特征向量；

第二计算单元，用于根据视频帧的特征向量与预设图片的特征向量，得到视频帧与每个预设图片的相似度；

排序单元，用于将多个预设图片按照与视频帧的相似度从大到小进行排序，得到图片序列；

第一确定单元，用于将图片序列的前预设数量的元素，确定为视频帧的相似图片。

本发明实施例提供的视频标签的添加装置能够实现图1至图5的方法实施例中视频标签的添加方法实现的各个过程，为避免重复，这里不再赘述。

本发明的实施例中，获取模块，用于获取目标视频中的视频帧；计算模块，用于计算视频帧与多个预设图片的相似度，得到相似图片。通过图片相似度的比较，可以确定与视频帧具有相同内容的多个图片。较佳的，可以选用其中相似度较高的若干图片作为相似图片。即相似图片为多个预设图片按照与视频帧的相似度从大到小进行排序之后的前预设数量的图片。确定模块，用于将全部或者部分相似图片对应的文字标签，确定为视频帧的文字标签。由于每个预设图片对应至少一个用于表征预设图片的图片内容的文字标签。因此确定的视频帧的文字标签可以准确地表征视频帧的内容。添加模块，用于根据视频帧的文字标签，对目标视频添加文字标签。本发明避免采用视频分析技术对视频添加一些文字性描述；利用与视频中的各视频帧相似的预设图片先对各视频帧添加文字标签，使得各视频帧添加有准确指示其图片内容的文字标签。同时各视频帧的文字标签同样可以准确指示由各视频帧组成的视频的内容。另外，当视频的文字标签可以准确指示其内容时，用户也就可以通过文字标签，准确搜索到视频内容中具有该文字标签对应内容的视频。因此通过本发明实施例提供的视频标签的添加方法，对视频添加文字标签，不仅可以提升视频的文字性描述即文字标签的准确性，还可以提升视频搜索的准确率。

本发明实施例还提供了一种电子设备，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信；

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，实现如下步骤：

获取目标视频中的视频帧；

计算视频帧与多个预设图片的相似度，得到相似图片；其中，相似图片为多个预设图片按照与视频帧的相似度从大到小进行排序之后的前预设数量的图片；每个预设图片对应至少一个用于表征预设图片的图片内容的文字标签；

将全部或者部分相似图片对应的文字标签，确定为视频帧的文字标签；

根据视频帧的文字标签，对目标视频添加文字标签。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的视频标签的添加方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中所述的视频标签的添加方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频标签的添加方法，其特征在于，所述方法包括：

获取目标视频中的视频帧；

2.根据权利要求1所述的方法，其特征在于，不同相似图片对应的文字标签相同或者不同；所述将全部或者部分所述相似图片对应的文字标签，确定为所述视频帧的文字标签的步骤包括：

汇总对应相同文字标签的所述相似图片，得到至少一个图片类；

根据每个所述图片类中的所述相似图片的相似度，计算得到每个所述图片类的可信分数；

将目标图片类包含的相似图片对应的文字标签，确定为所述视频帧的文字标签；其中，所述目标图片类为所述至少一个图片类中的可信分数超过第一阈值的图片类。

3.根据权利要求2所述的方法，其特征在于，所述根据每个所述图片类中的所述相似图片的相似度，计算得到每个所述图片类的可信分数的步骤包括：

针对每个所述图片类，将所述图片类中的所有所述相似图片的相似度相加得到的总和，作为所述图片类的可信分数。

4.根据权利要求2所述的方法，其特征在于，所述根据所述视频帧的文字标签，对所述目标视频添加文字标签的步骤包括：

汇总对应相同文字标签的视频帧，得到至少一个帧类；

根据每个所述帧类中的所述视频帧的可信分数，计算得到每个所述帧类的可信分数；其中，所述视频帧的可信分数为所述视频帧的文字标签对应的所述目标图片类的可信分数；

将目标帧类包含的视频帧的文字标签，添加为所述目标视频的文字标签；其中所述目标帧类为所述至少一个帧类中的可信分数超过第二阈值的帧类。

5.根据权利要求1所述的方法，其特征在于，在所述获取目标视频中的视频帧的步骤之前，所述方法还包括：

对至少一个视频进行分割，得到多个视频片段；

将每一个所述视频片段作为一个所述目标视频。

6.根据权利要求5所述的方法，其特征在于，所述对至少一个视频进行分割，得到多个视频片段的步骤包括：

分别对所述至少一个视频中的每个视频进行镜头检测，将所述每个视频中属于同一镜头的多个连续视频帧切割为一个视频片段，得到多个视频片段。

7.根据权利要求5所述的方法，其特征在于，在所述根据所述视频帧的文字标签，对所述目标视频添加文字标签的步骤之后，所述方法还包括：

接收用户输入的搜索词；

根据所述搜索词，匹配所述目标视频的文字标签；

将与所述搜索词匹配成功的文字标签对应的目标视频反馈至用户。

8.根据权利要求1所述的方法，其特征在于，所述获取目标视频中的视频帧包括：

按照预设间隔，抽取所述目标视频中的多个视频帧。

9.根据权利要求1所述的方法，其特征在于，所述计算所述视频帧与多个预设图片的相似度，得到相似图片的步骤包括：

根据预先训练好的图片特征提取模型，分别计算所述视频帧的特征向量以及每个所述预设图片的特征向量；

根据所述视频帧的特征向量与所述预设图片的特征向量，得到所述视频帧与每个所述预设图片的相似度；

将所述多个预设图片按照与所述视频帧的相似度从大到小进行排序，得到图片序列；

将所述图片序列的前预设数量的元素，确定为所述视频帧的相似图片。

10.一种视频标签的添加装置，其特征在于，所述装置包括：

获取模块，用于获取目标视频中的视频帧；

11.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线；其中，处理器、通信接口以及存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现如权利要求1至9中任一项所述的视频标签的添加方法中的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的视频标签的添加方法的步骤。