CN111314732A

CN111314732A - 确定视频标签的方法、服务器及存储介质

Info

Publication number: CN111314732A
Application number: CN202010198282.6A
Authority: CN
Inventors: 韩洁; 王宝云
Original assignee: Qingdao Jukanyun Technology Co ltd
Current assignee: Qingdao Jukanyun Technology Co ltd
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2020-06-19

Abstract

本申请公开了一种确定视频标签的方法、服务器及存储介质，属于互联网技术领域。所述方法包括：根据目标视频的视频内容，确定第一标签集合；再根据针对目标视频的社交评论，确定第二标签集合；根据第一标签集合和第二标签集合，确定该目标视频的标签。由于最终得到的目标视频的标签是基于第一标签集合中的标签以及第二标签集合中的标签两个维度共同确定的，相较于相关技术中只根据目标视频的视频内容这一单一维度确定目标视频的标签，使得最终确定出的目标视频的标签更加准确概括目标视频的基本内容，从而提高了基于搜索词搜索出的视频的用户粘度。

Description

确定视频标签的方法、服务器及存储介质

技术领域

本申请涉及互联网技术领域，特别涉及一种确定视频标签的方法、服务器及存储介质。

背景技术

随着互联网技术的快速发展，用户通过智能电视等终端可以观看自己感兴趣的视频。针对视频库中的众多视频，往往需要进行视频检索以获取符合用户喜好的视频。而通常视频检索过程中依赖于视频库中各个视频的视频标签，通过搜索词和视频标签之间的吻合度的高低，确定出与搜索词相关联的视频。因此，如何确定视频的视频标签，是当前本领域的技术人员关注的主要问题之一。

相关技术中，针对某一视频，获取该视频的内容简介，该内容简介为以自然语言编辑的文本。提取该内容简介包括的多个分词。根据分词的出现频率确定出该多个分词中的关键词，并保留权重较高的几个关键词作为该视频的视频标签。

由于目前视频的内容简介中的内容有限，导致生成的视频标签比较单一，容易造成视频标签不能准确概括视频的基本内容的现象，从而影响基于搜索词搜索出的视频的用户粘度。

发明内容

本申请实施例提供了一种确定视频标签的方法、服务器及存储介质，可以使得最终确定出的目标视频的标签更加准确概括目标视频的基本内容。所述技术方案如下：

一方面，提供了一种确定视频标签的方法，所述方法包括：

根据目标视频的视频内容，确定第一标签集合；

根据针对所述目标视频的社交评论，确定第二标签集合；

根据所述第一标签集合和所述第二标签集合，确定所述目标视频的标签。

另一方面，提供了一种服务器，所述服务器包括：

处理模块，用于根据目标视频的视频内容，确定第一标签集合；

所述处理模块，还用于根据针对所述目标视频的社交评论，确定第二标签集合；

所述处理模块，还用于根据所述第一标签集合和所述第二标签集合，确定所述目标视频的标签。

另一方面，提供了一种确定视频标签的装置，所述确定视频标签的装置包括处理器、通信接口、存储器和通信总线；

其中，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信；

所述存储器用于存放计算机程序；

所述处理器用于执行所述存储器上所存放的程序，以实现前述提供确定视频标签的方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现前述提供的确定视频标签的方法的步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

在本申请中，根据目标视频的视频内容，确定第一标签集合；再根据针对目标视频的社交评论，确定第二标签集合；根据第一标签集合和第二标签集合，确定该目标视频的标签。由于最终得到的目标视频的标签是基于第一标签集合中的标签以及第二标签集合中的标签两个维度共同确定的，相较于相关技术中只根据目标视频的视频内容这一单一维度确定目标视频的标签，使得最终确定出的目标视频的标签更加准确概括目标视频的基本内容，从而提高了基于搜索词搜索出的视频的用户粘度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种确定视频标签系统的架构图；

图2是本申请实施例提供的一种确定视频标签的方法流程图；

图3是本申请实施例提供的另一种确定视频标签的方法流程图；

图4是本申请实施例提供的一种服务器的结构示意图；

图5是本申请实施例提供的另一种服务器的结构示意图。

具体实施方式

为使本申请示例性实施例的目的、技术方案和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施例中的技术方案进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请中示出的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整技术方案。

应当理解，本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请中使用的术语“模块”，是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

在对本申请实施例提供的确定视频标签的方法进行详细的解释说明之前，先对本申请实施例涉及的应用场景予以介绍。

随着互联网技术的快速发展，电视剧、电影等视频的数量越来越大。在一些可能的场景下，往往需要快速了解视频的基本内容。这些可能的场景比如可以为，服务器响应于终端发送的搜索请求，向终端推送相关视频内容的视频搜索场景。或者，还可以为终端的显示界面对视频库中的视频进行分类展示的视频分类场景。为了便于快速确定视频的基本内容，可以预先为视频库中的各个视频设置视频标签，以便于后续基于视频库中各个视频的视频标签对视频进行搜索或分类，可以大大增加视频搜索或者视频分类的效率。

而传统的人工设置视频标签的方法，不仅需要耗费大量的人力物力，而且常常受人员主观因素的影响，视频标签的可信度和准确度都很低。本申请实施例提供的确定视频标签的方法便应用于上述场景中，达到提高视频标签准确性的目的。

图1是本申请实施例提供的一种确定视频标签系统的架构图。如图1所示，该系统100中包括终端101以及服务器102。其中，终端101可以与服务器102之间通过无线或有线方式连接以进行通信。

该终端101可以从服务器102处获取视频并基于用户界面向用户展示视频。该服务器102用于获取视频库以及视频库中每个视频的相关信息，如视频画面、音频数据、以及视频社交评论等，并根据任一视频的相关信息为该任一视频设置视频标签。以便于后续服务器102基于视频标签向终端101提供视频。其中，视频库中存储有每个视频的相关信息，该相关信息包括但不限于视频的标识、视频的内容、以及视频的类型等。

其中，图1中仅仅以一个终端，和一个服务器为例进行说明，并不构成对本申请实施例提供的确定视频标签系统中的终端的数量的限制。另外，终端101可以是电视、手机或者电脑等设备，服务器可以是手机或电脑上安装的任一视频播放应用对应的服务器，也可以是电视终端对应的服务器，在此并不做限定。

接下来对本申请实施例提供的确定视频标签的方法进行详细的解释说明。

图2是本申请实施例提供的一种确定视频标签的方法的流程图，该方法应用于服务器。请参考图2，该方法包括如下步骤。

步骤201：服务器根据目标视频的视频内容，确定第一标签集合。

为了确保视频的标签与视频的基本内容之间的相关性，通常需要根据视频的基本内容提取关键词以作为目标视频的标签。而视频的基本内容通常可以从与视频有关的文本信息中得到。

因此，在一种可能的实现方式中，步骤201可能的实现过程为：获取该目标视频中的文本信息；对该文本信息进行分析处理，得到该文本信息中的关键词；根据该关键词确定该第一标签集合。

由于文本信息为自然语言进行描述的信息。文本信息中包括很多词语，其中有一些词语可能为不需要的词语，比如，语气词“呢”、“啊”等。因此为了获取文本信息中的分词，可以预先创建分词词典。分词词典会预先过滤一些常见的没有特殊意义的分词，因此可以基于分词词典将文本信息中的一些不需要的词，如语气词等过滤掉，并将可用的分词筛选出来。此时，步骤201的实现方式为：根据分词词典将文本信息中与分词词典中包括的分词一致的词汇筛选出来，将筛选出的分词作为文本信息中包括的多个分词，在确定出多个分词之后，从这多个分词中确定出关键词。

上述从多个分词中确定出关键词的实现方式可以为：统计出各个分词出现的频率，将出现频率高的分词作为文本信息中的关键词。值得注意的是，根据分词确定出关键词的实现过程中，可以是根据分词出现的频率进行确定出关键词，也可以是根据其他方式确定出关键词，在此并不做具体限定。

此外，前述根据该关键词确定该第一标签集合的实现方式可以为：确定出关键词之后，可以根据每个关键词的权重，筛选出权重较高的几个关键词作为当前第一标签集合。

每个关键词的权重可以根据TFIDF(termfrequency–inverse documentfrequency，词频-逆文本频率)算法确定。其中，TFIDF是一种统计算法，用以评估某一分词对于一份文本信息文件的重要程度，也即用于确定某一分词在一份文本信息文件中的权重。分词的权重随着它在文件中出现的次数成正比增加，但同时会随着它在语料库(也即是其他文本信息库)中出现的频率成反比下降。

此外，根据关键词确定第一标签集合，可以是根据关键词的权重确定的，也可以是根据其他方式确定的，在此也不做具体限定。

上述文本信息可以包括目标视频中的字幕信息和/或目标视频中的弹幕信息，也即是该文本信息可以是只根据目标视频的字幕信息得到的，也可以只根据目标视频的弹幕信息得到的，也可以是根据目标视频的字幕信息和目标视频的弹幕信息共同确定的。字幕信息以及弹幕信息均为文本类型的信息。

在一种可能的实现方式中，获取目标视频的字幕信息的实现方式可以为：如果目标视频的视频帧中有呈现有字幕信息，则可以直接采用OCR(Optical CharacterRecognition，光学字符识别)技术获取目标视频中的字幕信息。如果目标视频的视频帧中没有字幕信息，则可以借助第三方应用程序，提取出该目标视频的音频信息，并对该音频数据进行语义分析，从而确定出该目标视频中的字幕信息。

在一种可能的实现方式中，获取目标视频的弹幕信息的实现方式可以为：如果提供目标视频的视频网站提供弹幕接口，此时可以直接基于该弹幕接口获取目标视频的弹幕信息。如果该视频网站未提供弹幕接口，可以采取网站爬虫算法获取目标视频的弹幕信息，在此不再详细说明。

比如，根据目标视频的字幕信息和目标视频的弹幕信息确定出的分词中频率较高的前几个分词为：“搞笑”、“青春”、“偶像”、“校园”。根据TF-IDF算法确定出各个分词的权重分别为：“搞笑”的权重为0.6、“青春”的权重为0.4、“偶像”的权重为0.3、“校园”的权重为0.8。则将权重较高的“搞笑”和“校园”作为第一标签集合中包括的多个标签。

为了进一步确保视频的标签与视频的基本内容之间的相关性，本申请实施例还可以在目标视频的文本信息的基础上，基于目标视频中的视频画面进一步扩展目标视频的标签。因此，在另一种可能的实现方式中，步骤201可能的实现过程为：获取目标视频中的关键帧，该关键帧是指目标视频中能够指示视频画面发生变化的视频帧；对该关键帧进行识别，得到该关键帧中的目标信息，该目标信息用于指示该关键帧中的实体；将该目标信息和该关键词进行合并，得到第一标签集合。

也即是，将基于目标视频的文本信息确定的关键词和基于目标视频的关键帧确定的实体信息进行汇总来得到第一标签集合，以保证最终确定的视频标签更能够覆盖目标视频的基本内容。

在一种可能的实现方式中，获取目标视频中的关键帧可能的实现过程为：对于目标视频中的第一个视频帧，将第一个视频帧确定为一个关键帧；对于目标视频中的第i个视频帧，确定第i个视频帧与第i-1个视频帧之间的相似度，如果相似度大于参考相似度，则将第i个视频帧作为一个关键帧，i为大于或等于2且小于或等于目标视频中的视频帧的数量的正整数。

需要说明的是，可以将第i个视频帧和第i-1个视频帧之间的平均像素强度差值作为第i个视频帧和第i-1个视频帧之间的相似度，在此不再详细说明。

比如，可以将目标视频切分为多个时长为1秒的短视频，假设切分为50个时长为1秒的短视频。参考相似度为50。针对任一短视频，可以根据opencv(图像处理库)提取出该任一短视频包括的多个视频帧。假设该短视频包括的多个视频帧分别为视频帧1、视频帧2、视频帧3、视频帧4和视频帧5。将视频帧1确定为一个关键帧。此外，视频帧1和视频帧2之间的平均像素强度差值为25、视频帧2和视频帧3之间的平均像素强度差值为27、视频帧3和视频帧4之间的平均像素强度差值为30、视频帧4和视频帧5之间的平均像素强度差值为80。则相邻视频帧中平均像素强度差值大于50的视频帧为视频帧4和视频帧5，则将视频帧5作为目标视频包括的一个关键帧。根据同样的方法确定出其他49个短视频对应的多个关键帧。

此外，视频帧的平均像素强度可以通过统计视频帧包括的参考数量个像素点对应的参考数量个像素强度值后，取该参考数量个像素强度值的平均值作为平均像素强度。该参考数量可以为1000。

在另一种可能的实现方式中，获取目标视频中的关键帧可能的实现过程为：对于目标视频中的第一个视频帧，将第一个视频帧确定为一个关键帧；对于目标视频中的第i个视频帧，确定第i个视频帧与第一个视频帧之间的相似度，如果相似度大于参考相似度，则将第i个视频帧作为一个关键帧，i为大于或等于2且小于或等于目标视频中的视频帧的数量的正整数。

比如，可以将目标视频切分为多个时长为1秒的短视频，假设切分为50个时长为1秒的短视频。将两个视频帧之间的平均像素强度差值作为两个视频帧之间的相似度，且参考相似度为50。此时，针对任一短视频，可以根据opencv提取出该任一短视频包括的多个视频帧。假设该短视频包括的多个视频帧分别为视频帧1、视频帧2、视频帧3、视频帧4和视频帧5。将视频帧1确定为一个关键帧，同时确定出视频帧1与视频帧2之间的平均像素强度差值为20、视频帧1与视频帧3之间的平均像素强度差值为25、视频帧1与视频帧4之间的平均像素强度差值为27、视频帧1与视频帧5之间的平均像素强度差值为80。与视频帧1之间的平均像素强度差值大于参考相似度50的视频帧为视频帧5，则将视频帧5作为除视频帧1之外的另一个目标视频的关键帧。根据同样的方法确定出其他49个短视频对应的多个关键帧。

根据上述任一实现方式确定出目标视频的多个关键帧之后，对该关键帧进行识别，得到该关键帧中的目标信息的实现过程可以为：获取数据库中存储的人脸库、场景库和物体库。根据人脸库中存储的人脸模板以及与各种人脸模板对应的人物标签确定出该多个关键帧中各种人脸对应的人物标签、根据场景库中存储的各种场景以及与各种场景对应的场景标签确定出该多个关键帧中各种场景对应的场景标签、根据物体库中存储的各种物体以及与各种物体对应的物体标签确定出该多个关键帧中各种物体对应的物体标签。将确定出的场景标签、人物标签和物体标签进行合并得到的标签集，即为得到的关键帧中的目标信息。

步骤202：服务器响应于针对目标视频的社交评论，确定第二标签集合。

在一种可能的实现方式中，步骤202可能的实现过程为：获取视频网站中针对目标视频的相关社交评论进行解析，参照上述步骤201中的基于目标视频的文本信息确定第一标签集合的具体实现方式，根据社交评论的文本信息确定出第二标签集合。

比如，根据网页爬虫算法获取视频网站中针对目标视频的相关社交评论，并根据相关社交评论的文本信息确定出多个分词，再根据该多个分词确定出关键词，再根据该关键词选取出权重较高的几个关键词作为第二标签集合。比如，第二标签集合可以包括“校园”、“爱情”、“女性”等标签。

社交评论包括但不限于：导演、编剧、主演、类型、豆瓣成员、视频简介、视频短评及长评等文本信息。网络爬虫算法是一个自动提取网页的程序，在此不再详细解释说明。

此外，由于社交评论中的导演、编剧、主演等内容的维度较多，因此，这些内容通常在数据库中可以采用结构化方式存储。此外，根据社交评论中的有关视频简介、视频短评及长评等内容，由于均是对目标视频的介绍评论性的文本信息，属于单一维度，因此这些内容可以采用文本方式存储。

步骤203：服务器根据第一标签集合和第二标签集合，确定目标视频的标签。

为了保证最终确定出的目标视频的标签的准确性，需要将第一标签集合和第二标签集合进行对比及验证，使得最终得到的目标视频的标签更加贴近视频的核心内容。

因此，在一种可能的实现方式中，步骤203可能的实现方式为：获取第一标签集合和第二标签集合中的交集，得到交叉标签；对于第一标签集合和第二标签集合中除交叉标签之外的其他标签，确定该其他标签中与目标视频的主题关联的标签；将与主题关联的标签和与该交叉标签作为目标视频的标签。这样可以使得最终确定出的目标视频的视频标签，在确保视频的视频标签与视频的基本内容之间的相关性的基础上，视频标签的丰富性也得到提升。

比如，根据上述步骤201确定出的第一标签集合为：“搞笑”和“校园”，根据步骤202确定出的第二标签集合为：“校园”、“爱情”、“女性”。将第一标签集合和第二标签集合中的交叉标签“校园”作为目标视频的标签。又由于目标视频主题为歌颂爱情，则将与目标视频的主题有关的“爱情”、“女性”也作为目标视频。

在另一种可能的实现方式中，步骤203可能的实现过程为：获取第一标签集合和第二标签集合中的交集，得到交叉标签；将该交叉标签作为目标视频的标签。这样可以确保最终确定出的目标视频的标签与视频的基本内容之间的相关性的更高，从而提高了基于搜索词搜索出的视频的用户粘度。

比如，根据上述步骤201确定出的第一标签集合为：“搞笑”和“校园”，根据步骤202确定出的第二标签集合为：“校园”、“爱情”、“女性”。将第一标签集合和第二标签集合中的交叉标签“校园”作为目标视频的标签。

此外，步骤201～步骤203的实现过程还可以参见图3：首先，通过目标视频的视频内容确定第一标签集合。具体的，提取出该目标视频的音频信息，并对该音频数据进行语音识别，从而确定出该目标视频中的字幕信息。同时，基于目标视频的视频网站提供弹幕接口，获取目标视频的弹幕信息。目标视频的字幕信息和弹幕信息也即为与目标视频基本内容相关的文本信息。之后，根据分词词典提取出该文本信息中的包括的多个分词，再基于该多个分词，筛选出该文本信息包括的多个关键词，进而根据该多个关键词确定出多个标签。再提取出目标视频包括的多个关键帧，通过对关键帧中的实体进行识别，确定出识别出的实体对应的多个标签。将根据关键词得到的标签和根据实体得到的标签进行合并，得到第一标签集合。其次，根据目标视频的社交评论确定出第二标签集合。具体的，提取出社交评论中文本信息包括的多个分词，再根据该多个分词筛选出多个关键词，进而根据该多个关键词，确定出第二标签集合。最后，将上述第一标签集合和第二标签集合进行交叉验证，确定出最终得到的目标视频的标签结果。

在本申请实施例中，根据目标视频的视频内容，确定第一标签集合；再根据针对目标视频的社交评论，确定第二标签集合；根据第一标签集合和第二标签集合，确定该目标视频的标签。由于最终得到的目标视频的标签是基于第一标签集合中的标签以及第二标签集合中的标签两个维度共同确定的，相较于相关技术中只根据目标视频的视频内容这一单一维度确定目标视频的标签，使得最终确定出的目标视频的标签更加准确概括目标视频的基本内容，从而提高了基于搜索词搜索出的视频的用户粘度。

上述所有可选技术方案，均可按照任意结合形成本申请的可选实施例，本申请实施例对此不再一一赘述。

图4是本申请实施例提供的一种服务器的结构示意图，该服务器可以由软件、硬件或者两者的结合实现。该服务器可以包括：

处理模块401，用于根据目标视频的视频内容，确定第一标签集合；

该处理模块，还用于根据针对该目标视频的社交评论，确定第二标签集合；

该处理模块，还用于根据第一标签集合和第二标签集合，确定该目标视频的标签。

可选地，该处理模块用于：

获取该目标视频中的文本信息；

对该文本信息进行分析处理，得到该文本信息中的关键词；

根据该关键词确定第一标签集合。

可选地，该文本信息包括该目标视频中的字幕信息和/或该目标视频中的弹幕信息。

可选地，该处理模块用于：

获取该目标视频中的关键帧，该关键帧是指该目标视频中能够指示视频画面发生变化的视频帧；

对该关键帧进行识别，得到该关键帧中的目标信息，该目标信息用于指示该关键帧中的实体；

将该目标信息和该关键词进行合并，得到第一标签集合。

可选地，该目标视频中包括按照播放时间依次排序的多个视频帧；

该处理模块用于：

对于该目标视频中的第一个视频帧，将第一个视频帧确定为一个关键帧；

对于该目标视频中的第i个视频帧，确定该第i个视频帧与第i-1个视频帧之间的相似度，如果该相似度大于参考相似度，则将该第i个视频帧作为一个关键帧，该i为大于或等于2且小于或等于该目标视频中的视频帧的数量的正整数。

可选地，该处理模块用于：

获取第一标签集合和第二标签集合中的交集，得到交叉标签；

对于第一标签集合和第二标签集合中除该交叉标签之外的其他标签，确定该其他标签中与该目标视频的主题关联的标签；

将与该主题关联的标签和与该交叉标签作为该目标视频的标签。

在本申请实施例中，根据目标视频的视频内容，确定第一标签集合；再根据针对目标视频的社交评论，确定第二标签集合；根据第一标签集合和第二标签集合，确定该目标视频的标签。由于最终得到的目标视频的标签是基于第一标签集合集合中的标签以及第二标签集合中的标签两个维度共同确定的，相较于相关技术中只根据目标视频的视频内容这一单一维度确定目标视频的标签，使得最终确定出的目标视频的标签更加准确概括目标视频的基本内容，从而提高了基于搜索词搜索出的视频的用户粘度。

需要说明的是：上述实施例提供的服务器在确定视频标签时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的服务器与确定视频标签的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5是本申请实施例提供的另一种服务器的结构示意图。该服务器可以是后台服务器集群中的服务器。具体来讲：

服务器500包括中央处理单元(CPU)501、包括随机存取存储器(RAM)502和只读存储器(ROM)503的系统存储器504，以及连接系统存储器504和中央处理单元501的系统总线505。服务器500还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)506，和用于存储操作系统513、应用程序514和其他程序模块515的大容量存储设备507。

基本输入/输出系统506包括有用于显示信息的显示器508和用于用户输入信息的诸如鼠标、键盘之类的输入设备509。其中显示器508和输入设备509都通过连接到系统总线505的输入输出控制器510连接到中央处理单元501。基本输入/输出系统506还可以包括输入输出控制器510以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器510还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备507通过连接到系统总线505的大容量存储控制器(未示出)连接到中央处理单元501。大容量存储设备507及其相关联的计算机可读介质为服务器500提供非易失性存储。也就是说，大容量存储设备507可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器504和大容量存储设备507可以统称为存储器。

根据本申请的各种实施例，服务器500还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器500可以通过连接在系统总线505上的网络接口单元511连接到网络512，或者说，也可以使用网络接口单元511来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。所述一个或者一个以上程序包含用于进行本申请实施例提供的如下所述的确定视频标签的方法的指令。

本申请实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行上述实施例提供的确定视频标签的方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在服务器上运行时，使得服务器执行上述实施例提供的确定视频标签的方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种确定视频标签的方法，其特征在于，所述方法包括：

根据目标视频的视频内容，确定第一标签集合；

根据针对所述目标视频的社交评论，确定第二标签集合；

2.如权利要求1所述的方法，其特征在于，所述响应于目标视频的视频内容，确定第一标签集合，包括：

获取所述目标视频中的文本信息；

对所述文本信息进行分析处理，得到所述文本信息中的关键词；

根据所述关键词确定所述第一标签集合。

3.如权利要求2所述的方法，其特征在于，所述文本信息包括所述目标视频中的字幕信息和/或所述目标视频中的弹幕信息。

4.如权利要求2所述的方法，其特征在于，所述根据所述关键词确定所述第一标签集合，包括：

获取所述目标视频中的关键帧，所述关键帧是指所述目标视频中能够指示视频画面发生变化的视频帧；

对所述关键帧进行识别，得到所述关键帧中的目标信息，所述目标信息用于指示所述关键帧中的实体；

将所述目标信息和所述关键词进行合并，得到所述第一标签集合。

5.如权利要求4所述的方法，其特征在于，所述目标视频中包括按照播放时间依次排序的多个视频帧；

所述获取所述目标视频中的关键帧，包括：

对于所述目标视频中的第一个视频帧，将所述第一个视频帧确定为一个关键帧；

对于所述目标视频中的第i个视频帧，确定所述第i个视频帧与第i-1个视频帧之间的相似度，如果所述相似度大于参考相似度，则将所述第i个视频帧作为一个关键帧，所述i为大于或等于2且小于或等于所述目标视频中的视频帧的数量的正整数。

6.如权利要求1至5任一所述的方法，其特征在于，所述响应于所述第一标签集合和所述第二标签集合，确定所述目标视频的标签，包括：

获取所述第一标签集合和所述第二标签集合中的交集，得到交叉标签；

对于所述第一标签集合和所述第二标签集合中除所述交叉标签之外的其他标签，确定所述其他标签中与所述目标视频的主题关联的标签；

将与所述主题关联的标签和与所述交叉标签作为所述目标视频的标签。

7.一种服务器，其特征在于，所述服务器包括：

8.如权利要求7所述的服务器，其特征在于，所述处理模块用于：

获取所述目标视频中的文本信息；

根据所述关键词确定所述第一标签集合。

9.如权利要求8所述的服务器，其特征在于，所述处理模块用于：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述权利要求1至权利要求6中的任一项权利要求所述的方法的步骤。