CN104933120A

CN104933120A - 一种视频专辑的关键词设置方法及装置

Info

Publication number: CN104933120A
Application number: CN201510307263.1A
Authority: CN
Inventors: 周旦丹
Original assignee: Wuxi Tvmining Juyuan Media Technology Co Ltd
Current assignee: Wuxi Tvmining Juyuan Media Technology Co Ltd
Priority date: 2015-06-04
Filing date: 2015-06-04
Publication date: 2015-09-23

Abstract

本发明实施例公开了一种视频专辑的关键词设置方法及装置，用以根据该视频专辑中所包含的各视频文件的文件名称和文件关键词，自动生成该视频专辑的关键词。所述方法包括：获取视频专辑中所包含的所有视频文件的文件名称和各视频文件分别对应的文件关键词；根据获取的所述视频专辑中的所述文件名称和文件关键词，提取所述文件名称和文件关键词中能够反映相应视频文件主要含义的核心词；将提取出的所述核心词设置为所述视频专辑的关键词；具有根据视频专辑中包含的各视频文件的文件名称和文件关键词，自动生成视频专辑的关键词的有益效果，提高了视频专辑关键词的生成效率，节省了人力成本。

Description

一种视频专辑的关键词设置方法及装置

技术领域

本发明涉及互联网技术领域，特别涉及一种视频专辑的关键词设置方法及装置。

背景技术

经过近几年的互联网技术的飞速发展，互联网的业务不断增加，人们基于互联网可以接触到各种各样的信息，网络也成为人们日常工作和生活中不可或缺的一部分。比如，用户可以利用互联网收发工作邮件、进行视频会议等；或者，利用互联网浏览新闻、听音乐、购物、订餐、观看视频等。随着互联网的不断发展进步，基于互联网所产生的视频信息的数据量也越来越大。用户所需要管理的视频文件也越来越多，用户在管理大量的视频文件时，通常将具备某些共同特征的视频文件放在一起，成为一个对应的视频组合，比如，将上述具备某些共同特征的视频组合称为视频专辑等。

为了快速、便捷地找到对应的视频专辑，通常需要为视频专辑定义对应的关键词；目前，对包含多个视频文件的视频专辑进行关键词的设置时，通常是由用户按照视频文件的用途、类型或者内容等一定的标准或者设置规则，对视频专辑进行人为设置关键词。若有大量的视频专辑需要设置对应的关键词，则增加用户工作量的同时，也会浪费用户大量的宝贵时间，因此，如何根据该视频专辑所包含的各视频文件的文件名称和各视频分别对应的关键词，对视频专辑自动设置关键词成为目前亟待解决的问题之一。

发明内容

本发明实施例提供一种视频专辑的关键词设置方法及装置，用以根据该视频专辑中所包含的各视频文件的文件名称和文件关键词，为该视频专辑自动设置关键词，实现视频专辑关键词的自动设置。

本发明实施例提供一种视频专辑的关键词设置方法，包括：

获取视频专辑中所包含的所有视频文件的文件名称和各视频文件分别对应的文件关键词；

根据获取的所述视频专辑中的所述文件名称和文件关键词，提取所述文件名称和文件关键词中能够反映相应视频文件主要含义的核心词；

将提取出的所述核心词设置为所述视频专辑的关键词。

在一个实施例中，所述根据获取的所述视频专辑中的所述文件名称和文件关键词，提取所述文件名称和文件关键词中能够反映相应视频文件主要含义的核心词，包括：

遍历视频专辑中的视频文件，获取所述视频专辑中所包含的所有视频文件的文件名称和每个视频文件分别对应的文件关键词；

对获取的所述视频文件的所有文件名称和文件关键词进行分词，得到各视频文件对应的分词结果；

按照词性，从分词后得到的分词结果中，筛选出能够反映相应视频文件主要含义的实义词；

调用预先配置的预设词库，从筛选出的所述实义词中挑选出专有名词，并将挑选出的所述专有名词作为能够反映相应视频文件主要含义的核心词。

对获取的所述视频专辑中的所述文件名称和文件关键词进行聚类，找出权重最大的类别；

将权重最大的类别中的词作为所述视频专辑的核心词；

或者：

计算获取的所述视频文件的所有文件名称和文件关键词对应的出现频率，并提取所述出现频率最高的一个或多个高频词；

将提取出的所述高频词作为所述视频专辑的核心词。

在一个实施例中，所述将提取出的所述核心词设置为所述视频专辑的关键词，包括：

获取所述视频专辑所在的视频分类；

将所述视频分类和每一个视频文件对应的核心词共同设置为所述视频专辑的关键词。

判断提取出的所有核心词的字符长度之和是否大于预设的长度阈值；

若不大于预设的长度阈值，则将提取出的所有核心词设置为所述视频专辑的关键词；

若大于预设的长度阈值，则根据预设的长度阈值，按照从后往前的顺序，从提取出的所有核心词中逐个删除核心词，直至剩余核心词的字符长度之和不大于预设的长度阈值为止，将删除后剩余的核心词设置为所述视频专辑的关键词。

对应于上述实施例提供的一种视频专辑的关键词设置方法，本发明实施例还提供了一种视频专辑的关键词设置装置，包括：

获取模块，用于获取视频专辑中所包含的所有视频文件的文件名称和各视频文件分别对应的文件关键词；

提取模块，用于根据获取的所述视频专辑中的所述文件名称和文件关键词，提取所述文件名称和文件关键词中能够反映相应视频文件主要含义的核心词；

设置模块，用于将提取出的所述核心词设置为所述视频专辑的关键词。

在一个实施例中，所述提取模块包括：

遍历单元，用于遍历视频专辑中的视频文件，获取所述视频专辑中所包含的所有视频文件的文件名称和每个视频文件分别对应的文件关键词；

分词单元，用于对获取的所述视频文件的所有文件名称和文件关键词进行分词，得到各视频文件对应的分词结果；

筛选单元，用于按照词性，从分词后得到的分词结果中，筛选出能够反映相应视频文件主要含义的实义词；

挑选单元，用于调用预先配置的预设词库，从筛选出的所述实义词中挑选出专有名词，并将挑选出的所述专有名词作为能够反映相应视频文件主要含义的核心词。

在一个实施例中，所述提取模块包括：

聚类单元，用于对获取的所述视频专辑中的所述文件名称和文件关键词进行聚类，找出权重最大的类别；

第一设定单元，用于将权重最大的类别中的词作为所述视频专辑的核心词；

或者，所述提取模块包括：

计算单元，用于计算获取的所述视频文件的所有文件名称和文件关键词对应的出现频率，并提取所述出现频率最高的一个或多个高频词；

第二设定单元，用于将提取出的所述高频词作为所述视频专辑的核心词。

在一个实施例中，所述设置模块包括：

获取单元，用于获取所述视频专辑所在的视频分类；

设置单元，用于将所述视频分类和每一个视频文件对应的核心词共同设置为所述视频专辑的关键词。

在一个实施例中，所述设置模块包括：

判断单元，用于判断提取出的所有核心词的字符长度之和是否大于预设的长度阈值；

设定单元，用于当所述判断单元判断出所述字符长度不大于预设的长度阈值时，将提取出的所有核心词设置为所述视频专辑的关键词；

删除单元，用于当所述判断单元判断出所述字符长度大于预设的长度阈值时，根据预设的长度阈值，按照从后往前的顺序，从提取出的所有核心词中逐个删除核心词，直至剩余核心词的字符长度之和不大于预设的长度阈值为止，将删除后剩余的核心词设置为所述视频专辑的关键词。

以上实施例所描述的一种视频专辑的关键词设置方法及装置可以达到如下有益效果：

通过获取视频专辑中所包含的所有视频文件的文件名称和各视频文件分别对应的文件关键词；根据获取的所述视频专辑中的所述文件名称和文件关键词，提取所述文件名称和文件关键词中能够反映相应视频文件主要含义的核心词；将提取出的所述核心词设置为所述视频专辑的关键词；具有根据视频专辑中包含的各视频文件的文件名称和文件关键词，自动生成视频专辑的关键词的有益效果，提高了视频专辑关键词的生成效率，节省了人力成本。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明根据一示例性实施例示出的一种视频专辑的关键词设置方法的流程图；

图2为本发明根据一示例性实施例示出的一种视频专辑的关键词设置方法中步骤S20的一种实施例方式的流程图；

图3为本发明根据一示例性实施例示出的一种视频专辑的关键词设置方法中步骤S20的另一种实施例方式的流程图；

图4为本发明根据一示例性实施例示出的一种视频专辑的关键词设置方法中步骤S20的再一种实施例方式的流程图；

图5为本发明根据一示例性实施例示出的一种视频专辑的关键词设置方法中步骤S30的一种实施例方式的流程图；

图6为本发明根据一示例性实施例示出的一种视频专辑的关键词设置方法中步骤S30的另一种实施例方式的流程图；

图7为本发明根据一示例性实施例示出的一种视频专辑的关键词设置装置的框图；

图8为本发明根据一示例性实施例示出的一种视频专辑的关键词设置装置中提取模块70的一种实施例方式的框图；

图9为本发明根据一示例性实施例示出的一种视频专辑的关键词设置装置中提取模块70的另一种实施例方式的框图；

图10为本发明根据一示例性实施例示出的一种视频专辑的关键词设置装置中提取模块70的再一种实施例方式的框图；

图11为本发明根据一示例性实施例示出的一种视频专辑的关键词设置装置中设置模块80的一种实施例方式的框图；

图12为本发明根据一示例性实施例示出的一种视频专辑的关键词设置装置中设置模块80的另一种实施例方式的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明公开的一实施例中提供了一种视频专辑的关键词设置方法，用以根据该视频专辑中所包含的各视频文件的文件名称和关键词，为该视频专辑自动设置关键词，实现视频专辑关键词的自动设置。如图1所示，本发明实施例中一种视频专辑的关键词设置方法包括步骤S10-S30：

步骤S10、获取视频专辑中所包含的所有视频文件的文件名称和各视频文件分别对应的文件关键词；

本发明实施例中，通过遍历对应的视频专辑，来获取该视频专辑所包含的所有视频文件，从而读取出该视频专辑中所有视频文件的文件名称，以及每个视频文件所分别对应的文件关键词。

步骤S20、根据获取的所述视频专辑中的所述文件名称和文件关键词，提取所述文件名称和文件关键词中能够反映相应视频文件主要含义的核心词；

根据获取的该视频专辑中对应的上述文件名称以及各视频文件对应的文件关键词，从上述文件名称和文件关键词中提取出能够反映相应视频文件主要含义的核心词。本发明实施例中，对于核心词的提取可以根据视频专辑的具体类型、具体内容和具体应用场景，来选择采用不同提取方式来提取对应的核心词。

在一个实施例中，如图2所示，当通过筛选出能够反映相应视频文件主要含义的实义词作为核心词的这种提取方式，来选取核心词时，所述步骤S20可以实施为如下描述的步骤S201-S204：

步骤S201、遍历视频专辑中的视频文件，获取所述视频专辑中所包含的所有视频文件的文件名称和每个视频文件分别对应的文件关键词；

步骤S202、对获取的所述视频文件的所有文件名称和文件关键词进行分词，得到各视频文件对应的分词结果；

步骤S203、按照词性，从分词后得到的分词结果中，筛选出能够反映相应视频文件主要含义的实义词；

本发明实施例中，当通过遍历视频专辑中的视频文件获取到该视频专辑中所包含的所有视频文件的文件名称，以及每个视频文件分别对应的文件关键词时，对获取的上述文件名称和文件关键词进行汉语分词，得到包含名词等类型的实义词和包含语法词等类型的虚词。按照词性，从分词得到的包含上述实义词、虚词等分词结果中，筛选出能够反映相应视频文件主要含义的实义词；例如，筛选出能够代表相应视频文件主旨的名词等。

步骤S204、调用预先配置的预设词库，从筛选出的所述实义词中挑选出专有名词，并将挑选出的所述专有名词作为能够反映相应视频文件主要含义的核心词。

当筛选出能够反映相应视频文件主要含义的实义词后，调用预先配置好的预设词库，并进一步地根据该预设词库，从筛选出的上述实义词中再挑选出对应的专有名词，比例：人名、地名、书名、影视剧的片名，还有不同领域对应的专业术语等；从而，将上述挑选出的该实义词中所包含的所述专有名词，作为能够反映相应视频文件主要含义的核心词。

在一个实施例中，如图3所示，当将权重最大的类别中的词作为核心词时，所述步骤S20可以实施为如下描述的步骤S205-S206：

步骤S205、对获取的所述视频专辑中的所述文件名称和文件关键词进行聚类，找出权重最大的类别；

步骤S206、将权重最大的类别中的词作为所述视频专辑的核心词；

本发明实施例中，对获取的所述视频专辑中的所述文件名称和文件关键词进行聚类时，可以先对所述文件名称和文件关键词按照所述步骤S201和步骤S202的执行步骤，对所述文件名称和文件关键词进行分词，进而基于分词结果，对得到的分词结果中的所有词进行语义上的聚类，找出权重最大的类别；也可以理解为，找出命中率最大的类别；找出权重最大的类别之后，将该权重最大的类别中的词作为所述视频专辑的核心词。

在一个实施例中，如图4所示，当将出现频率最高的高频词作为核心词时，所述步骤S20可以实施为如下描述的步骤S207-S208：

步骤S207、计算获取的所述视频文件的所有文件名称和文件关键词对应的出现频率，并提取所述出现频率最高的一个或多个高频词；

步骤S208、将提取出的所述高频词作为所述视频专辑的核心词。

本发明实施例中，在计算获取的所述视频专辑中的所述文件名称和文件关键词的出现频率时，可以先对所述文件名称和文件关键词按照所述步骤S201和步骤S202的执行步骤，对所述文件名称和文件关键词进行分词，进而基于分词结果，计算每个分词出现的频率，从而根据计算结果，找出其出现频率靠前的分词，比如，预先设定一个频率阈值，将大于该频率阈值的出现频率所对应的所有分词均找出来，作为对应的高频词。

或者，直接找出计算结果中出现频率的最大值，获取该出现频率最大值对应的分词，并将该出现频率最大值对应的分词作为所述高频词；本发明实施例中，出现频率最大值对应的分词可以为一个，也可以有多个。当提取出频率最高的一个或多个高频词时，将提取出的所述高频词作为所述视频专辑对应的核心词。

步骤S30、将提取出的所述核心词设置为所述视频专辑的关键词。

本发明实施例中，当提取出对应的核心词后，直接将提取的核心词设定为该视频专辑对应的关键词。

在一个实施例中，可以将该视频专辑对应的分类和提取出的核心词进行组合，并将组合后得到的词作为该视频专辑的关键词；如图5所示，所述步骤S30可以实施为如下描述的步骤S301-S302：

步骤S301、获取所述视频专辑所在的视频分类；

步骤S302、将所述视频分类和每一个视频文件对应的核心词共同设置为所述视频专辑的关键词。

本发明实施例中，针对该视频专辑中所包含的每一个视频文件，获取到每一个视频文件对应的核心词后，将“视频专辑所在的视频分类+每个视频文件对应的核心词”组合成一个字符串，将组合得到的上述字符串，设置为该视频专辑的关键词。比如，该视频专辑对应的视频分类为“轻音乐”，该视频专辑中每个视频文件对应的核心词分别为：古筝、钢琴曲、大提琴和二胡，则将该视频分类对应的分类词和每个视频文件对应的核心词进行组合，得到的该视频专辑的关键词为：轻音乐古筝钢琴曲大提琴二胡。

本发明实施例中，考虑到视频专辑对应的关键词的字符长度，在生成视频专辑的关键词时，预先设置一个长度阈值，从而将该预设的长度阈值作为参考，来设置该视频专辑对应的关键词。

在一个实施例中，如图6所示，所述步骤S30可以实施为如下描述的步骤S303-S305：

步骤S303、判断提取出的所有核心词的字符长度之和是否大于预设的长度阈值；若不大于预设的长度阈值，则执行步骤S304；若大于预设的长度阈值，则执行步骤S305；

步骤S304、将提取出的所有核心词设置为所述视频专辑的关键词；

步骤S305、根据预设的长度阈值，按照从后往前的顺序，从提取出的所有核心词中逐个删除核心词，直至剩余核心词的字符长度之和不大于预设的长度阈值为止，将删除后剩余的核心词设置为所述视频专辑的关键词。

本发明实施例中，若对视频专辑对应的关键词的长度没有限定时，则直接将提取出的所有核心词设置为该视频专辑对应的关键词。若对视频专辑对应的关键词的长度有限定时，按照从后往前的顺序，逐个删除对应的核心词。本发明实施例中，由于将关联性最大的核心词排列在最前面，并按照关联性大小，自前向后排列对应的核心词；因此，当视频专辑的关键词的字符长度大于预设的长度阈值时，从后往前逐个删除对应的核心词，将删除后剩余的核心词设置为所述视频专辑的关键词，从而得到满足字符长度要求的关键词。

以上实施例所描述的一种视频专辑的关键词设置方法，通过获取视频专辑中所包含的所有视频文件的文件名称和各视频文件分别对应的文件关键词；根据获取的所述视频专辑中的所述文件名称和文件关键词，提取所述文件名称和文件关键词中能够反映相应视频文件主要含义的核心词；将提取出的所述核心词设置为所述视频专辑的关键词；具有根据视频专辑中包含的各视频文件的文件名称和文件关键词，自动生成视频专辑的关键词的有益效果，提高了视频专辑关键词的生成效率，节省了人力成本。

对应本发明实施例提供的一种视频专辑的关键词设置方法，本发明还提供了一种视频专辑的关键词设置装置；如图7所示，所述一种视频专辑的关键词设置装置，包括：获取模块60、提取模块70和设置模块80；其中：

所述获取模块60，用于获取视频专辑中所包含的所有视频文件的文件名称和各视频文件分别对应的文件关键词；

所述提取模块70，用于根据获取的所述视频专辑中的所述文件名称和文件关键词，提取所述文件名称和文件关键词中能够反映相应视频文件主要含义的核心词；

在一个实施例中，如图8所示，所述提取模块70包括：

遍历单元701，用于遍历视频专辑中的视频文件，获取所述视频专辑中所包含的所有视频文件的文件名称和每个视频文件分别对应的文件关键词；

分词单元702，用于对获取的所述视频文件的所有文件名称和文件关键词进行分词，得到各视频文件对应的分词结果；

筛选单元703，用于按照词性，从分词后得到的分词结果中，筛选出能够反映相应视频文件主要含义的实义词；

挑选单元704，用于调用预先配置的预设词库，从筛选出的所述实义词中挑选出专有名词，并将挑选出的所述专有名词作为能够反映相应视频文件主要含义的核心词。

在一个实施例中，如图9所示，所述提取模块70包括：

聚类单元705，用于对获取的所述视频专辑中的所述文件名称和文件关键词进行聚类，找出权重最大的类别；

第一设定单元706，用于将权重最大的类别中的词作为所述视频专辑的核心词。

在一个实施例中，如图10所示，所述提取模块70包括：

计算单元707，用于计算获取的所述视频文件的所有文件名称和文件关键词对应的出现频率，并提取所述出现频率最高的一个或多个高频词；

第二设定单元708，用于将提取出的所述高频词作为所述视频专辑的核心词。

所述设置模块80，用于将提取出的所述核心词设置为所述视频专辑的关键词。

在一个实施例中，如图11所示，所述设置模块80包括：

获取单元801，用于获取所述视频专辑所在的视频分类；

设置单元802，用于将所述视频分类和每一个视频文件对应的核心词共同设置为所述视频专辑的关键词。

在一个实施例中，如图12所示，所述设置模块80包括：

判断单元803，用于判断提取出的所有核心词的字符长度之和是否大于预设的长度阈值；

设定单元804，用于当所述判断单元判断出所述字符长度不大于预设的长度阈值时，将提取出的所有核心词设置为所述视频专辑的关键词；

删除单元805，用于当所述判断单元判断出所述字符长度大于预设的长度阈值时，根据预设的长度阈值，按照从后往前的顺序，从提取出的所有核心词中逐个删除核心词，直至剩余核心词的字符长度之和不大于预设的长度阈值为止，将删除后剩余的核心词设置为所述视频专辑的关键词。

以上实施例所描述的一种视频专辑的关键词设置装置，通过获取视频专辑中所包含的所有视频文件的文件名称和各视频文件分别对应的文件关键词；根据获取的所述视频专辑中的所述文件名称和文件关键词，提取所述文件名称和文件关键词中能够反映相应视频文件主要含义的核心词；将提取出的所述核心词设置为所述视频专辑的关键词；具有根据视频专辑中包含的各视频文件的文件名称和文件关键词，自动生成视频专辑的关键词的有益效果，提高了视频专辑关键词的生成效率，节省了人力成本。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种视频专辑的关键词设置方法，其特征在于，包括：

将提取出的所述核心词设置为所述视频专辑的关键词。

2.如权利要求1所述的方法，其特征在于，所述根据获取的所述视频专辑中的所述文件名称和文件关键词，提取所述文件名称和文件关键词中能够反映相应视频文件主要含义的核心词，包括：

3.如权利要求1所述的方法，其特征在于，所述根据获取的所述视频专辑中的所述文件名称和文件关键词，提取所述文件名称和文件关键词中能够反映相应视频文件主要含义的核心词，包括：

将权重最大的类别中的词作为所述视频专辑的核心词；

或者：

将提取出的所述高频词作为所述视频专辑的核心词。

4.如权利要求1或2或3所述的方法，其特征在于，所述将提取出的所述核心词设置为所述视频专辑的关键词，包括：

获取所述视频专辑所在的视频分类；

5.如权利要求1或2或3所述的方法，其特征在于，所述将提取出的所述核心词设置为所述视频专辑的关键词，包括：

6.一种视频专辑的关键词设置装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述提取模块包括：

8.如权利要求6所述的装置，其特征在于，所述提取模块包括：

或者，所述提取模块包括：

9.如权利要求6或7或8所述的装置，其特征在于，所述设置模块包括：

获取单元，用于获取所述视频专辑所在的视频分类；

10.如权利要求6或7或8所述的装置，其特征在于，所述设置模块包括：