CN108009293B

CN108009293B - 视频标签生成方法、装置、计算机设备和存储介质

Info

Publication number: CN108009293B
Application number: CN201711430514.0A
Authority: CN
Inventors: 薛成龙; 史亚冰; 梁海金; 张扬
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2022-08-23
Anticipated expiration: 2037-12-26
Also published as: CN108009293A

Abstract

本发明提出一种视频标签生成方法、装置、计算机设备和存储介质，其中，方法包括：根据视频的标题提取得到主题词，以及确定主题词所属的主题类别词，根据视频的标题进行页面搜索，得到多个匹配页面，从每一个匹配页面的内容中提取关键词，根据主题词，对关键词进行筛选，以保留与主题词不重复的关键词，根据主题词、主题类别词和保留的关键词，生成视频的标签。通过对视频标签进行页面检索，获取匹配页面，从匹配页面中提取关键词，并对关键词筛选，增加了视频资源的文本信息，丰富了生成的视频标签的内容和种类，解决了现有技术中，视频资源的文本信息较少，致使生成的视频标签种类较少，准确性较低的问题。

Description

视频标签生成方法、装置、计算机设备和存储介质

技术领域

本申请涉及视频处理技术领域，尤其涉及一种视频标签生成方法、装置、计算机设备和存储介质。

背景技术

随着网络多媒体技术的快速发展，互联网上的视频等多媒体内容的数量正在以指数级的速度迅猛增长。视频资源通过标签标注视频内容核心点以及用户关注的核心内容，随着视频资源的检索需求越来愈大，丰富视频标签的内容，提高视频标签的准确度显的尤为重要。

相关技术中，对于视频内容的标签标注，一种方法是通过固有的标签体系进行标注；另一种方法是利用视频资源的内容生成标签。第一种方法固有的标签数量有限，无法覆盖全网视频标签的需求。第二种方法，因视频资源携带的文本内容有限，可生成的标签的内容和类别有限，使得生成的视频标签数量较少，准确度较低的问题。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种视频标签生成方法，以实现通过对视频标签进行页面检索，获取匹配页面，从匹配页面中提取关键词，并对关键词筛选，使得筛选出的关键词增加了视频资源的文本信息，丰富了生成的视频标签的内容和种类，解决了现有技术中，视频资源的文本信息较少，致使生成的视频标签种类较少，准确性较低的问题。

本发明的第二个目的在于提出一种视频标签生成装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种视频标签生成方法，包括：

根据视频的标题提取得到主题词，以及确定所述主题词所属的主题类别词；

根据视频的标题进行页面搜索，得到多个匹配页面；

从每一个匹配页面的内容中提取关键词；

根据所述主题词，对所述关键词进行筛选，以保留与所述主题词不重复的关键词；

根据所述主题词、所述主题类别词和保留的关键词，生成所述视频的标签。

本发明实施例的一种视频标签生成方法中，根据视频的标题提取得到主题词，以及确定主题词所属的主题类别词，根据视频的标题进行页面搜索，得到多个匹配页面，从每一个匹配页面的内容中提取关键词，根据主题词，对关键词进行筛选，以保留与主题词不重复的关键词，根据主题词、主题类别词和保留的关键词，生成视频的标签。通过对视频标签进行页面检索，获取匹配页面，从匹配页面中提取关键词，并对关键词筛选，增加了视频资源的文本信息，丰富了生成的视频标签的内容和种类，解决了现有技术中，视频资源的文本信息较少，致使生成的视频标签种类较少，准确性较低的问题。

为达上述目的，本发明第二方面实施例提出了一种视频标签生成装置，包括：

主题提取模块，用于根据视频的标题提取得到主题词，以及确定所述主题词所属的主题类别词；

搜索模块，用于根据视频的标题进行页面搜索，得到多个匹配页面；

关键词提取模块，用于从每一个匹配页面的内容中提取关键词；

筛选模块，用于根据所述主题词，对所述关键词进行筛选，以保留与所述主题词不重复的关键词；

生成模块，用于根据所述主题词、所述主题类别词和保留的关键词，生成所述视频的标签。

本发明实施例的一种视频标签生成装置中，主题提取模块用于根据视频的标题提取得到主题词，以及确定主题词所属的主题类别词，搜索模块用于根据视频的标题进行页面搜索，得到多个匹配页面，关键词提取模块用于从每一个匹配页面的内容中提取关键词，筛选模块用于根据主题词，对关键词进行筛选，以保留与主题词不重复的关键词，生成模块用于根据主题词、主题类别词和保留的关键词，生成视频的标签。通过对视频标签进行页面检索，获取匹配页面，从匹配页面中提取关键词，并对关键词筛选，增加了视频资源的文本信息，丰富了生成的视频标签的内容和种类，解决了现有技术中，视频资源的文本信息较少，致使生成的视频标签种类较少，准确性较低的问题。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如第一方面所述的视频标签生成方法。

为达上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，当该程序由处理器执行时，实现如第一方面所述的视频标签生成方法。

为了实现上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，实现如第一方面所述的视频标签生成方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种视频标签生成方法的流程示意图；

图2为本发明实施例所提供的另一种视频标签生成方法的流程示意图；

图3为本发明实施例提供的多个匹配页面的示意图；

图4为本发明实施例提供的一种视频标签生成装置的结构示意图；

图5为本发明实施例所提供的另一种视频标签生成装置的结构示意图；以及

图6示出了适于用来实现本申请实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的视频标签生成方法、装置、计算机设备和存储介质。

图1为本发明实施例所提供的一种视频标签生成方法的流程示意图。

如图1所示，该方法包括：

步骤101，根据视频的标题提取得到主题词，以及确定主题词所属的主题类别词。

具体地，获取视频的标题，去除标题中的助词，介词、等常用词，以及去除动词，留取名词，并进行语义解析提取得到对应的重要主题词，并根据该主题词确定所属的主体类别词，其中，作为一种可能的实现方式，主体类别词是通过预先确定的分类词库确定的，在分类词库中，将词汇划分为多个类别，每个类别对应至少一个主题类别词，一个主题类别词，对应至少一个主题词，根据提取到的主题词查找到所属的主体类别词。例如，类别为人物，人物类别对应的主题类别词至少包括：明星、作家等，而提取到的主题词：陆毅，所属的主题类别词则为明星。

步骤102，根据视频的标题进行页面搜索，得到多个匹配页面。

具体地，将提取得到的视频的标题作为搜索词，通过搜索引擎进行页面搜索，得到多个匹配页面，对搜索得到的多个页面进行筛选，保留页面的标题或摘要与视频的标题之间的相关度高于第一阈值的匹配页面。

对于从搜索得到的页面中确定匹配页面的确定方法，作为一种可能的实现方式，可将搜索引擎反馈回的搜索结果中排序前N个的页面作为匹配页面，N为大于1的正整数。作为另一种可能的实现方式，可将页面的标题或摘要和视频的标题生成相同数量的关键词，计算视频标题中的关键词的词频，以及页面的标题或摘要中关键词的词频，并分别生成对应的词频向量，然后采用欧式距离，或者余弦距离计算得到两个向量之间的相似度，相似度的值越大，则该页面的标题或摘要与该视频的标题相似度越高，将相似度值大于预设的第一阈值的页面，作为匹配页面。

步骤103，从每一个匹配页面的内容中提取关键词。

具体地，从搜索引擎获取每一个匹配页面的标题和摘要，对标题和摘要提取关键词，其中，关键词包括实体词、网络热词和网络新词中的一个或多个组合。

其中，对于关键词中的实体词的获取，作为一种可能的实现方式，可采用词频-逆文档频率(Term Frequency–Inverse Document Frequency，TF-IDF)算法提取标题和摘要中包含的实词，具体地，对标题和摘要进行分词处理，去除“是，的，吗”等虚词和代词，获取相应的实体词，并计算各实体词的TF和IDF，然后计算各实体词的TF*IDF的值，根据值进行排序，获取取值较大的一个或多个实体词做为关键词。

对于关键词中的网络热词和网络新词的获取，作为一种可能的实现方式，可通过预先设定的网络热词和网络新词词库，从网络热词和网络新词词库中查找相关的网络热词和网络新词，并作为关键词。

步骤104，根据主题词，对关键词进行筛选，以保留与主题词不重复的关键词。

具体地，根据主题词，对关键词进行筛选，作为一种可能的实现方式，可通过相似度校验方法，将与主题词重复的关键词去掉，仅保留与主题词不重复的关键词。

步骤105，根据主题词、主题类别词和保留的关键词，生成视频的标签。

可选地，生成视频标签后，为了提高标签的准确度，可对标签进行校验，作为一种可能的实现方式，具体包括：可根据标签对应的文本在知识图谱中的紧密度进行紧密度分析，以确定标签是围绕同一核心内容进行的描述，去除紧密度较低的标签对应的文本，实现标签的校验。

进而，还可以通过标签中词之间的包含关系，或者是去除掉上位概念和下位概念中的一个，例如去除上位概念的标签，实现标签的进一步校验，通过标签的校验，提升了视频标签的准确性，提高了视频标签推荐效果的精准程度。

为了清楚说明上一实施例，本实施例提供了另一种视频标签生成方法，进一步清楚的说明了如何确定匹配页面，并从匹配页面中提取关键词，丰富标签内容的方法，图2为本发明实施例所提供的另一种视频标签生成方法的流程示意图，如图2所示，该方法可以包括以下步骤：

步骤201，根据视频的标题提取得到主题词，以及确定主题词所属的主题类别词。

例如，视频的标题为：《人民的名义》中，只有这场戏不是编剧周梅森写的。根据该视频的标题，通过自然语言处理机制，可提取得到的可表述资源内容的重要主题词为：人民的名义、编剧、周梅森，其中，“人民的名义”属于电视节目类别，“周梅森”属于人物类别，将主题词输入分类词库模型中，模型会从词库中根据相关性对电视节目这个类别，增加“电视剧”主题类别词，对人物这个类别，增加“作家”的主体类别词。最终根据视频的标题得到的主题词和主题类别词为：人民的名义、编剧、周梅森、电视剧、作家。

同理，对于视频标题为：《人民的名义》剧情引争议王文革还犯了失火罪的视频，提取到的主要主题词为：人民的名义、王文革。根据主题词确定的主题类别词为：电视剧、苦情工人。

步骤202，根据视频的标题进行页面搜索，得到多个匹配页面。

具体地，将视频标题：《人民的名义》剧情引争议王文革还犯了失火罪，输入搜索引擎中，进行搜索，搜索引擎会根据标题作为搜索词，返回搜索到的多个页面，从搜索得到的多个页面中确定多个匹配页面，具体的方法可以参照上一实时例中的步骤102的方法，此处不再赘述。图3为本发明实施例提供的多个匹配页面的示意图，如图3示中右图对应根据该标题确定的多个匹配页面。

步骤203，确定匹配页面在搜索引擎搜索得到的多个页面中的占比高于第二阈值。

具体地，为了对确定的多个匹配页面进行进一步筛选，可通过搜索返回的多个页面的总条数，计算确定的多个匹配页面在多个页面中的占比，如果占比高于第二阈值，则从整体检索结果角度进行了匹配页面的评估，评估通过，则确定的匹配页面可用。

步骤204，从每一个匹配页面的内容中提取关键词。

具体可参照上一实施例中的步骤103，此处不再赘述。如图3中所示，从匹配页面中提取得到的关键词以黑色小方框示出，即为：工人领袖、李学政、幕后推手和小人物。通过从匹配页面中提取到的关键词，作为标签的候选补充词，丰富了视频资源的标签内容，从而可以通过标签更加详尽的刻画视频资源所表达的核心点。

步骤205，根据匹配页面的数量，确定提取到的各关键词的权重和。

具体地，关键词的权重和即所有提取到的关键词的权重的总和，该权重和与匹配页面的数量具有正向的关系，即匹配页面的数量越多，关键词的权重和越大，而关键词的权重和与主题词的预设权重，或者是与主题类别词存在一定的比例关系。从而，作为一种可能的实现方式，可以根据匹配页面的数量，预先建立权重和与主题词的预设权重的比例关系表，或者建立权重和与主题类别词的预设权重之间的比例关系表。当检索后根据确定的匹配页面的数量，可查表确定权重和与主题词的预设权重的比例关系，或者确定权重和与主题类别词的预设权重的比例关系，将比例关系与主题词的预设权重相乘，或者将比例关系与主题类别词的预设权重相乘，计算得到权重和。

例如，确定的匹配页面的数量为10个，主题词的预设权重为0.7，而当匹配页面为10个时，查表确定关键词的权重和与主题词的预设权重的比例关系为0.5，则可计算得到权重和＝0.7*0.5＝0.35。

步骤206，根据确定的权重和，以及各匹配页面的标题或摘要与视频的标题之间的相关度，确定从各匹配页面提取到的关键词的权重。

具体地，参照步骤102中方法，可获取得到各匹配页面的标题或摘要与视频的标题之间的相关度，关键词的权重和该相关度具有正向关系。将确定的关键词的权重和与相关度相乘，可以得到各匹配网页提取得到的关键词的权重。

步骤207，根据权重，确定各关键词在视频的标签中的排序。

具体地，根据确定的各关键词的权重，确定各关键词在视频标签中的排序，其中，视频的标签中主题和主题类别词的排序先于各关键词。根据排序方便用户在搜索时优先看到标签中排序较靠前的词，排序较靠前的词也是相关度更高的词，便于客户较快的根据视频标签进行选择。

步骤208，根据主题词，对关键词进行筛选，以保留与主题词不重复的关键词。

具体地，可参照步骤104，实现原理相同，此处不再赘述。

步骤209，根据主题词、主题类别词和保留的关键词，生成视频的标签。

具体地，将确定的主题词、主题类别词和保留下来的关键词，共同生成视频的标签，生成视频标签后还可以对视频标签进行校验，提高视频标签的准确度，具体可参照上一实施例中的步骤105。

例如，步骤201中的视频的标题，通过步骤201至步骤209的方法后，最后生成的视频标签为：人民的名义、王文革、电视剧、苦情工人、工人领袖、李学政、幕后推手和小人物。通过将搜索的关键词进行聚合补充，使得视频资源的标签内容更加丰富，视频标签的准确度也得以提升，使很多视频资源在检索时更易被检索关联，推荐给用户，满足用户检索的需求。

本发明实施例的一种视频标签生成方法中，根据视频的标题提取得到主题词，以及确定主题词所属的主题类别词，根据视频的标题进行页面搜索，得到多个匹配页面，从每一个匹配页面的内容中提取关键词，根据主题词，对关键词进行筛选，以保留与主题词不重复的关键词，根据主题词、主题类别词和保留的关键词，生成视频的标签。通过对视频标签进行页面检索，获取匹配页面，从匹配页面中提取关键词，并对关键词筛选，增加了视频资源的文本信息，丰富了生成的视频标签的内容和种类，而通过视频资源标签的校验，又提高了视频资源的标签的准确度，解决了现有技术中，视频资源的文本信息较少，致使生成的视频标签种类较少，准确性较低的问题。

为了实现上述实施例，本发明还提出一种视频标签生成装置。

图4为本发明实施例提供的一种视频标签生成装置的结构示意图。

如图4所示，该装置包括：主题提取模块41、搜索模块42、关键词提取模块43、筛选模块44和生成模块45。

主题提取模块41，用于根据视频的标题提取得到主题词，以及确定主题词所属的主题类别词。

搜索模块42，用于根据视频的标题进行页面搜索，得到多个匹配页面。

关键词提取模块43，用于从每一个匹配页面的内容中提取关键词。

筛选模块44，用于根据主题词，对关键词进行筛选，以保留与主题词不重复的关键词。

生成模块45，用于根据主题词、主题类别词和保留的关键词，生成视频的标签。

需要说明的是，前述对方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

基于上述实施例，本发明实施例还提供了一种视频标签生成装置的可能的实现方式，图5为本发明实施例所提供的另一种视频标签生成装置的结构示意图，在上一实施例的基础上，如图5所示，该装置还包括：第一确定模块46、第二确定模块47、第三确定模块48和第四确定模块49。

第一确定模块46，用于确定匹配页面在所述搜索引擎搜索得到的多个页面中的占比高于第二阈值。

第二确定模块47，用于根据匹配页面的数量，确定提取到的各关键词的权重和，其中，权重和与匹配页面的数量具有正向关系。

第三确定模块48，用于根据确定的权重和，以及各匹配页面的标题或摘要与视频的标题之间的相关度，确定从各匹配页面提取到的关键词的权重，其中，各关键词的权重与相关度具有正向关系。

第四确定模块49，用于根据权重，确定各关键词在视频的标签中的排序，其中，在视频的标签中主题和主题类别词的排序先于各关键词。

作为一种可能的实现方式，搜索模块42，还可以包括：搜索单元421和筛选单元422。

搜索单元421，用于将视频的标题作为搜索词，采用搜索引擎进行页面搜索。

筛选单元422，用于对搜索引擎搜索得到的多个页面进行筛选，保留页面的标题或摘要与视频的标题之间的相关度高于第一阈值的匹配页面。

作为本实施例的一种可能的实现方式，关键词提取模块43，还可以包括：获取单元431和提取单元432。

获取单元431，用于从搜索引擎获取每一个匹配页面的标题和摘要。

提取单元432，用于对标题和摘要提取关键词，其中，关键词包括实体、网络热词和网络新词中的一个或多个组合。

本发明实施例的一种视频标签生成装置中，主题提取模块用于根据视频的标题提取得到主题词，以及确定主题词所属的主题类别词，搜索模块用于根据视频的标题进行页面搜索，得到多个匹配页面，关键词提取模块用于从每一个匹配页面的内容中提取关键词，筛选模块用于根据主题词，对关键词进行筛选，以保留与主题词不重复的关键词，生成模块用于根据主题词、主题类别词和保留的关键词，生成视频的标签。通过对视频标签进行页面检索，获取匹配页面，从匹配页面中提取关键词，并对关键词筛选，增加了视频资源的文本信息，丰富了生成的视频标签的内容和种类，而通过视频资源标签的校验，又提高了视频资源的标签的准确度，解决了现有技术中，视频资源的文本信息较少，致使生成的视频标签种类较少，准确性较低的问题。

为了实现上述实施例，本发明还提出一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如前述方法实施例所述的视频标签生成方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，当该程序被处理器执行时，实现如前述方法实施例所述的视频标签生成方法。

为了实现上述实施例，本发明还提出一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，实现如前述方法实施例所述的视频标签生成方法。

图6示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图6显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种视频标签生成方法，其特征在于，包括以下步骤：

根据视频的标题提取得到主题词，以及确定所述主题词所属的主题类别词，每个主题类别词，至少对应一个主题词；

根据视频的标题进行页面搜索，得到多个匹配页面，其中，将所述视频的标题作为搜索词，采用搜索引擎进行页面搜索，对所述搜索引擎搜索得到的多个页面进行筛选，保留页面的标题或摘要与所述视频的标题之间的相关度高于第一阈值的匹配页面；

从每一个匹配页面的内容中提取关键词；

根据所述匹配页面的数量，确定提取到的各关键词的权重和；所述权重和与所述匹配页面的数量具有正向关系，所述关键词的权重和与所述主题类别词存在比例关系；

根据确定的权重和，以及各匹配页面的标题或摘要与所述视频的标题之间的相关度，确定从各匹配页面提取到的关键词的权重；各关键词的权重与所述相关度具有正向关系；

根据所述权重，确定各所述关键词在所述视频的标签中的排序；其中，在所述视频的标签中所述主题和所述主题类别词的排序先于各关键词；

根据所述主题词，通过相似度校验对所述关键词进行筛选，以保留与所述主题词不重复的关键词；

根据所述主题词、所述主题类别词和保留的关键词，生成所述视频的标签，其中，在所述生成所述视频的标签之后，还包括：根据所述标签对应的文本紧密度对所述标签进行校验，并通过所述标签中词之间的包含关系，或者，通过去除掉上位概念和下位概念中的一个，对所述标签进行进一步校验。

2.根据权利要求1所述的视频标签生成方法，其特征在于，所述从每一个匹配页面的内容中提取关键词，包括：

从搜索引擎获取每一个匹配页面的标题和摘要；

对所述标题和摘要提取关键词，所述关键词包括实体词、网络热词和网络新词中的一个或多个组合。

3.根据权利要求1所述的视频标签生成方法，其特征在于，所述从每一个匹配页面的内容中提取关键词之前，还包括：

确定所述匹配页面在所述搜索引擎搜索得到的多个页面中的占比高于第二阈值。

4.根据权利要求1所述的视频标签生成方法，其特征在于，所述根据所述匹配页面的数量，确定提取到的各关键词的权重和包括：

根据所述匹配页面的数量，确定所述权重和与所述主题词的预设权重的比例关系，或者确定所述权重和与所述主题类别词的预设权重之间的比例关系；

根据所述比例关系，计算得到所述权重和。

5.一种视频标签生成装置，其特征在于，包括：

主题提取模块，用于根据视频的标题提取得到主题词，以及确定所述主题词所属的主题类别词，每个主题类别词，至少对应一个主题词；

筛选模块，用于根据所述主题词，通过相似度校验对所述关键词进行筛选，以保留与所述主题词不重复的关键词；

生成模块，用于根据所述主题词、所述主题类别词和保留的关键词，生成所述视频的标签，其中，在所述生成所述视频的标签之后，还包括：根据所述标签对应的文本紧密度对所述标签进行校验，并通过所述标签中词之间的包含关系，或者，通过去除掉上位概念和下位概念中的一个，对所述标签进行进一步校验；

第二确定模块，用于根据所述匹配页面的数量，确定提取到的各关键词的权重和；所述权重和与所述匹配页面的数量具有正向关系；

第三确定模块，用于根据确定的权重和，以及各匹配页面的标题或摘要与所述视频的标题之间的相关度，确定从各匹配页面提取到的关键词的权重；各关键词的权重与所述相关度具有正向关系，所述关键词的权重和与所述主题类别词存在比例关系；

第四确定模块，用于根据所述权重，确定各所述关键词在所述视频的标签中的排序；其中，在所述视频的标签中所述主题和所述主题类别词的排序先于各关键词；

其中，所述搜索模块，还包括搜索单元和筛选单元，

所述搜索单元，用于将所述视频的标题作为搜索词，采用搜索引擎进行页面搜索；

所述筛选单元，用于对所述搜索引擎搜索得到的多个页面进行筛选，保留页面的标题或摘要与所述视频的标题之间的相关度高于第一阈值的匹配页面。

6.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-4中任一所述的视频标签生成方法。

7.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的视频标签生成方法。