CN105631033A

CN105631033A - 一种视频数据的挖掘方法和装置

Info

Publication number: CN105631033A
Application number: CN201511032706.7A
Authority: CN
Inventors: 乔奇
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2015-12-31
Filing date: 2015-12-31
Publication date: 2016-06-01
Anticipated expiration: 2035-12-31
Also published as: CN105631033B

Abstract

本发明实施例提供了一种视频数据的挖掘方法和装置，其中，所述方法包括：采用预先训练的频道分类器对待挖掘视频数据进行频道分类，获得频道视频集；针对各个频道视频集，过滤掉不满足预设过滤条件的视频数据；对各个频道视频集中的视频数据进行聚类，获得视频聚类集合；获取各个视频聚类集合的视频集关键短语；针对各个视频聚类集合，提取包含视频集关键短语的视频数据，形成新的视频聚类集合；对各个新的视频聚类集合进行去重处理；计算各个新的视频聚类集合的平均相似度；保留平均相似度大于或等于预设阈值的新的视频聚类集合。本发明实施例可以提高优质视频的挖掘效率，避免人工挖掘优质视频的成本过高的问题。

Description

一种视频数据的挖掘方法和装置

技术领域

本发明涉及数据处理技术领域，特别是涉及一种视频数据的挖掘方法和一种视频数据的挖掘装置。

背景技术

随着网络技术的不断发展和个性化需求的不断提高，视频网站中用户的参与度得到极大提升，用户生成内容(UserGeneratedContent，UGC)呈爆炸式增长。

通常，视频网站上的UGC视频均具有数量庞大、复杂多样、极其分散的特点，UGC视频中具有大量的优质视频，同时也混杂着大量劣质视频，如何挖掘出散落在海量UGC视频中满足长尾需求(Long-tail)的、优质的视频成为一种需求。

目前，尽管某些网站允许用户建立个人专辑，但由于用户自身的随意性和资源的不完整性，大部分专辑的质量不高、视频内容混乱，导致这些专辑都缺乏实际的可用性，同时，由于UGC视频的数量过于庞大，通过人工的方式来挖掘优质视频也变的不切实际，成本过高。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种视频数据的挖掘方法和相应的一种视频数据的挖掘装置。

为了解决上述问题，本发明实施例公开了一种视频数据的挖掘方法，包括：

采用预先训练的频道分类器对待挖掘视频数据进行频道分类，获得频道视频集；

针对各个所述频道视频集，过滤掉不满足预设过滤条件的视频数据；

对各个所述频道视频集中的视频数据进行聚类，获得视频聚类集合；

获取各个所述视频聚类集合的视频集关键短语；

针对各个所述视频聚类集合，提取包含所述视频集关键短语的视频数据，形成新的视频聚类集合；

对各个所述新的视频聚类集合进行去重处理；

计算各个所述新的视频聚类集合的平均相似度；

保留平均相似度大于或等于预设阈值的新的视频聚类集合。

优选的，所述获取各个所述视频聚类集合的视频集关键短语的步骤包括：

获取各个所述视频聚类集合中视频数据的第一视频文本；

根据所述第一视频文本获取分词关键短语；

根据所述第一视频文本获取模板关键短语；

将所述分词关键短语和所述模板关键短语进行融合，获得视频集关键短语。

优选的，所述根据所述第一视频文本获取分词关键短语的步骤包括：

对所述第一视频文本进行分词处理，获得视频文本分词；

统计各个所述视频文本分词在相应视频聚类集合中的出现频率；

提取出现频率高于第一预设频率值的视频文本分词作为关键分词；

将各个所述视频聚类集合中的关键分词组合成符合自然语言表达的分词关键短语。

优选的，所述根据所述第一视频文本获取模板关键短语的步骤包括：

加载预置关键短语模板；

将与所述预置关键短语模板匹配的第一视频文本作为候选模板关键短语；

统计各个所述候选模板关键短语在相应视频聚类集合中的出现频率；

提取出现频率高于第二预设频率值的候选模板关键短语作为模板关键短语。

优选的，所述频道分类器通过以下方式训练：

确定各个频道下的视频样本数据；

获取各个频道下的视频样本数据的第二视频文本；

采用所述第二视频文本训练频道分类器。

优选的，所述对各个所述新的视频聚类集合进行去重处理的步骤包括：

获取各个所述新的视频聚类集合中视频数据的第三视频文本；

针对各个所述新的视频聚类集合，提取视频数据的第三视频文本中的量词；

针对各个所述新的视频聚类集合，对具有相同量词的多个视频数据，只保留其中一个视频数据。

优选的，还包括：

采用视频文本中的量词，对各个所述新的视频聚类集合中的视频数据进行排序。

优选的，所述计算各个所述新的视频聚类集合的平均相似度的步骤包括：

计算各个所述新的视频聚类集合中的视频数据两两之间的相似度；

将所计算获得的相似度累加，获得总和相似度；

统计所计算获得的相似度的个数；

将所述总和相似度与所述相似度的个数的比值作为平均相似度。

本发明实施例还公开了一种视频数据的挖掘装置，包括：

频道分类模块，用于采用预先训练的频道分类器对待挖掘视频数据进行频道分类，获得频道视频集；

过滤模块，用于针对各个所述频道视频集，过滤掉不满足预设过滤条件的视频数据；

聚类模块，用于对各个所述频道视频集中的视频数据进行聚类，获得视频聚类集合；

视频集关键短语获取模块，用于获取各个所述视频聚类集合的视频集关键短语；

新的视频聚类集合生成模块，用于针对各个所述视频聚类集合，提取包含所述视频集关键短语的视频数据，形成新的视频聚类集合；

去重模块，用于对各个所述新的视频聚类集合进行去重处理；

平均相似度计算模块，用于计算各个所述新的视频聚类集合的平均相似度；

挖掘结果确定模块，用于保留平均相似度大于或等于预设阈值的新的视频聚类集合。

优选的，所述视频集关键短语获取模块包括：

第一视频文本获取子模块，用于获取各个所述视频聚类集合中视频数据的第一视频文本；

分词关键短语获取模块，用于根据所述第一视频文本获取分词关键短语；

模板关键短语获取模块，用于根据所述第一视频文本获取模板关键短语；

视频集关键短语获取模块，用于将所述分词关键短语和所述模板关键短语进行融合，获得视频集关键短语。

本发明实施例包括以下优点：

本发明实施可以采用预先训练的频道分类器对待挖掘视频数据进行频道分类，获得频道视频集，针对各个频道视频集，过滤掉不满足预设过滤条件的视频数据，对各个频道视频集中的视频数据进行聚类，获得视频聚类集合，获取各个视频聚类集合的视频集关键短语，针对各个视频聚类集合，提取包含视频集关键短语的视频数据，形成新的视频聚类集合，对各个新的视频聚类集合进行去重处理，计算各个新的视频聚类集合的平均相似度，保留平均相似度大于或等于预设阈值的新的视频聚类集合，最终所获得的新的视频聚类集合中的视频数据具有高度的趋同性，进而实现了从海量的UGC视频中挖掘出优质的UGC视频，并将这些优质的UGC视频进行归类，提高了优质视频的挖掘效率，避免了人工挖掘优质视频的成本过高的问题。

附图说明

图1是本发明的一种视频数据的挖掘方法实施例的步骤流程图；

图2是本发明的一种视频数据的挖掘装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一在于，本发明实施可以采用预先训练的频道分类器对待挖掘视频数据进行频道分类，获得频道视频集，针对各个频道视频集，过滤掉不满足预设过滤条件的视频数据，对各个频道视频集中的视频数据进行聚类，获得视频聚类集合，获取各个视频聚类集合的视频集关键短语，针对各个视频聚类集合，提取包含视频集关键短语的视频数据，形成新的视频聚类集合，对各个新的视频聚类集合进行去重处理，计算各个新的视频聚类集合的平均相似度，保留平均相似度大于或等于预设阈值的新的视频聚类集合，最终所获得的新的视频聚类集合中的视频数据具有高度的趋同性，进而实现了从海量的UGC视频中挖掘出优质的UGC视频，并将这些优质的UGC视频进行归类，提高了优质视频的挖掘效率，避免了人工挖掘优质视频的成本过高的问题。

参照图1，示出了本发明的一种视频数据的挖掘方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，采用预先训练的频道分类器对待挖掘视频数据进行频道分类，获得频道视频集；

在本发明实施例中，待挖掘视频数据主要是指用户生成(GeneratedContent，UGC)的视频数据，即UGC视频数据，这些UGC视频通常由用户自行上传至各个视频网站中。

针对海量的待挖掘UGC视频数据，可以采用预先训练的频道分类器进行频道分类，获得频道视频集。

进行频道划分，可以对待挖掘UGC视频数据进行初步分类，进而可以独立地对各个频道中的待挖掘UGC视频数据进行挖掘处理。

频道通常可以分为电视剧频道、综艺频道、电影频道、教育频道等等，其中，进行频道分类后，每一个频道中的待挖掘UGC视频数据将形成一个频道视频集，例如，电视剧频道视频集、教育频道视频集等等。

在本发明实施例中，频道分类器可以通过以下方式训练：

步骤S11，确定各个频道下的视频样本数据；

步骤S12，获取各个频道下的视频样本数据的第二视频文本；

步骤S13，采用所述第二视频文本训练频道分类器。

以教育频道为例，可以预先通过人工的方式或其他方式确定该频道下的UGC视频样本数据，需要确保的是，这些UGC视频样本数据的频道分类是正确的，并获取视频样本数据的第二视频文本，第二视频文本可以包括视频样本数据的视频标题、视频摘要和用户对视频样本数据的评价，即可以采用视频文本训练预置的频道分类器，此时，该频道分类器可以识别出教育频道类别的视频数据。

继而，采用同样的方法，针对其他频道进行训练，即可获得最终的频道分类器，采用该频道分类器可以将待挖掘UGC视频数据归类到不同的频道下面，这样做的效果在于，可以准确地对待挖掘UGC视频数据进行频道分类，更正用户对待挖掘UGC视频数据的错误分类，例如，某个待挖掘UGC视频数据本该分类在教育频道，但用户却错误第分类到电视剧频道，采用频道分类器可以准确地将该待挖掘UGC视频数据划分为教育频道。

步骤102，针对各个所述频道视频集，过滤掉不满足预设过滤条件的视频数据；

在本发明实施例中，可以对各个频道视频集中的视频数据进行初步过滤，过滤掉不满足预设过滤条件的视频数据。

针对不同频道所形成的频道视频集，可以根据实际需求设定不同的预设过滤条件，作为示例，对于电视剧频道视频集，由于电视剧的时长通常都有20分钟，因而预设过滤条件可以是视频时长不超过20分钟，即丢弃低于20分钟时长的电视剧，对于其他的频道(如教育频道、电影频道)可以设定其他的预设过滤条件，本发明实施例对此不作限制。

步骤103，对各个所述频道视频集中的视频数据进行聚类，获得视频聚类集合；

步骤104，获取各个所述视频聚类集合的视频集关键短语；

本发明实施可以对各个频道视频集中的视频数据进行聚类，聚类的方法可以采用谱聚类、AP聚类(AffinityPropagation)，当然也可以采用其他的聚了方法，进行聚类后，可以将具有一定趋同性的视频聚集在一起，获得视频聚类集合，然后，可以获取各个视频聚类集合的视频集关键短语。

在本发明实施例中，步骤104可以包括以下子步骤：

子步骤S21，获取各个所述视频聚类集合中视频数据的第一视频文本；

子步骤S22，根据所述第一视频文本获取分词关键短语；

本发明实施例中的第一视频文本可以包括视频数据的标题、摘要和用户评论，在获取视频集关键短语中，可以以标题为主或仅采用标题。

在本发明实施例中，子步骤S22可以进一步包括以下子步骤：

子步骤S221，对所述第一视频文本进行分词处理，获得视频文本分词；

子步骤S222，统计各个所述视频文本分词在相应视频聚类集合中的出现频率；

子步骤S223，提取出现频率高于第一预设频率值的视频文本分词作为关键分词；

子步骤S224，将各个所述视频聚类集合中的关键分词组合成符合自然语言表达的分词关键短语。

假设以标题作为视频文本，某电视剧频道的视频聚类集合中的某视频数据的标题为“校花的贴身高手第一集”，则提取的视频文本即为“校花的贴身高手第一集”，分成处理后所获得的视频文本分词包括“校花”、“贴身高手”和“第一集”，然后统计各个视频文本分词在该视频聚类集合中的出现频率，提取出现频率高于预设频率值的视频文本分词作为关键分词。

第一预设频率值可以根据实际需要设定，作为示例，预设频率值可以为60％、70％、80％等等。

假设在该视频聚类集合中共有40个视频数据，“校花”和“贴身高手”共在35个视频数据中出现，那么其出现频率为87.5％，而“第一集”共在5个视频数据中出现，那么其出现频率为12.5％，由于87.5％高于预设频率值70％，12.5％低于预设频率值70％，因而将“校花”和“贴身高手”作为关键分词。

然后将各个视频聚类集合中的关键分词组合成符合自然语言表达的视频集关键短语，例如将关键分词“校花”和“贴身高手”组合成“校花的贴身高手”，“校花的贴身高手”即为该视频聚类集合的分词关键短语。

子步骤S23，根据所述第一视频文本获取模板关键短语；

在本发明实施例中，子步骤S23可以进一步包括以下子步骤：

子步骤S231，加载预置关键短语模板；

子步骤S232，将与所述预置关键短语模板匹配的第一视频文本作为候选模板关键短语；

子步骤S233，统计各个所述候选模板关键短语在相应视频聚类集合中的出现频率；

子步骤S234，提取出现频率高于第二预设频率值的候选模板关键短语作为模板关键短语。

本发明实施例可以预先生成关键短语模板(预置关键短语模板)，作为示例，预置关键短语模板可以为“XX版”、“第XX[集|季]”等等。

本发明实施例可以将与预置关键短语模板匹配的第一视频文本作为候选模板关键短语，与预置关键短语模板匹配的情形可以包括：预置关键短语模板中完全包括第一视频文本，和/或，第一视频文本完全包括预置关键短语模板中的文字，和/或，预置关键短语模板中包括第一视频文本的大部分分词。

例如，假设预置关键短语模板为“校花的贴身高手[第一集]”，第一视频文本为“校花的贴身高手”，则经过匹配，获得的候选模板关键短语为“校花的贴身高手”；假设预置关键短语模板为“校花的贴身高手”，第一视频文本为“校花的贴身高手第一集”，则经过匹配，获得的候选模板关键短语为“校花的贴身高手第一集”。

本发明实施例可以统计各个候选模板关键短语在相应视频聚类集合中的出现频率，提取出现频率高于第二预设频率值的候选模板关键短语作为模板关键短语。

第二预设频率值可以根据实际需要设定，作为示例，第二预设频率值可以为60％、70％、80％等等。

子步骤S24，将所述分词关键短语和所述模板关键短语进行融合，获得视频集关键短语。

本发明实施例可以将分词关键短语和模板关键短语进行融合，获得视频集关键短语。

分词关键短语和模板关键短语的融合方式可以根据实际情况而定，作为示例，分词关键短语和模板关键短语的融合方式可以包括：

①将分词关键短语和模板关键短语均出现的短语作为视频集关键短语，如分词关键短语包括“校花的贴身高手”，模板关键短语包括“校花的贴身高手”，则融合所获得的视频集关键短语为“校花的贴身高手”；又如分词关键短语包括“校花的贴身高手第一集”，模板关键短语包括“校花的贴身高手”，则融合所获得的视频集关键短语为“校花的贴身高手”。

②对于没有共同短语的分词关键短语和模板关键短语，可以提取出现频率高于第三预设频率值的分词关键短语和模板关键短语，作为视频集关键短语，如分词关键短语包括“校花的贴身高手”，模板关键短语没有包括“校花的贴身高手”，若分词关键短语“校花的贴身高手”的出现频率高于第三预设频率值，则提取为视频集关键短语。

第三预设频率值可以根据实际需要设定，作为示例，第三预设频率值可以为75％、85％、90％等等，通常，第三预设频率值可以比第一预设频率值和第二预设频率值要高，以确保所提取的视频集关键短语的合理性。

步骤105，针对各个所述视频聚类集合，提取包含所述视频集关键短语的视频数据，形成新的视频聚类集合；

步骤106，对各个所述新的视频聚类集合进行去重处理；

在本发明实施例中，可以针对各个视频聚类集合，提取包含视频集关键短语的视频数据，形成新的视频聚类集合，再对对各个新的视频聚类集合进行去重处理。

例如，对于视频集关键短语“校花的贴身高手”，可以将与“校花的贴身高手”相应的视频聚类集合中包含视频集关键短语“校花的贴身高手”的视频数据提取出来，假设提取出来的视频数据包括标题为“校花的贴身高手第一集”、“校花的贴身高手第一集”、“校花的贴身高手第二集”、“校花的贴身高手第五集”、“校花的贴身高手第十集”、“校花的贴身高手第三集”等等，那么“校花的贴身高手第一集”、“校花的贴身高手第一集”、“校花的贴身高手第二集”、“校花的贴身高手第五集”、“校花的贴身高手第十集”、“校花的贴身高手第三集”形成了一个新的视频聚类集合。

在本发明实施例中，步骤106可以包括以下子步骤：

子步骤S31，获取各个所述新的视频聚类集合中视频数据的第三视频文本；

子步骤S31，针对各个所述新的视频聚类集合，提取视频数据的第三视频文本中的量词；

子步骤S31，针对各个所述新的视频聚类集合，对具有相同量词的多个视频数据，只保留其中一个视频数据。

例如，对于上述包含“校花的贴身高手第一集”、“校花的贴身高手第一集”、“校花的贴身高手第二集”、“校花的贴身高手第五集”、“校花的贴身高手第十集”、“校花的贴身高手第三集”等视频数据的新的视频聚类集合，可以将视频标题提取出来作为视频文本，再提取视频文本中的量词，提取所得的量词包括“一”、“二”、“三”、“五”、“十”，通过分析发现，包括量词“一”的视频数据有两个，则将其中的一个“校花的贴身高手第一集”删除，只保留一个。

量词的提取技术可以采用POS技术、模板匹配技术等等，本领域技术人员也可以采用其他的技术提取量词。

在本发明实施例中，对新的视频聚类集合进行去重处理后，还可以采用视频文本中的量词，对各个新的视频聚类集合中的视频数据进行排序，例如，对于包含“校花的贴身高手第一集”、“校花的贴身高手第二集”、“校花的贴身高手第五集”、“校花的贴身高手第十集”、“校花的贴身高手第三集”等视频数据的新的视频聚类集合，经过排序后得到的结果为“校花的贴身高手第一集、校花的贴身高手第二集、校花的贴身高手第三集、校花的贴身高手第五集、校花的贴身高手第十集”。

步骤107，计算各个所述新的视频聚类集合的平均相似度；

经过上述处理后所获得的新的视频聚类集合中的视频数据具有高度的趋同性，为了新的视频聚类集合中的视频都为优质视频，还需要进行内聚度度量，计算各个新的视频聚类集合的平均相似度。

在本发明实施例中，步骤107可以包括以下子步骤：

子步骤S41，计算各个所述新的视频聚类集合中的视频数据两两之间的相似度；

子步骤S42，将所计算获得的相似度累加，获得总和相似度；

子步骤S43，统计所计算获得的相似度的个数；

子步骤S44，将所述总和相似度与所述相似度的个数的比值作为平均相似度。

本发明实施例可以计算各个新的视频聚类集合中的视频数据两两之间的相似度，将所计算获得的相似度累加，获得总和相似度，统计所计算获得的相似度的个数，将总和相似度与相似度的个数的比值作为平均相似度。

例如，某新的视频聚类集合中的视频数据包括A、B、C和D，则分别计算A与B、A与C、A与D、B与C、B与D、C与D之间的相似度，并将所获取的6个相似度值累加获得总和相似度M，则平均相似度T＝M÷6。

步骤108，保留平均相似度大于或等于预设阈值的新的视频聚类集合。

本发明实施例可以保留平均相似度大于或等于预设阈值的新的视频聚类集合，对于平均相似度小于预设阈值的新的视频聚类集合，说明该新的视频聚类集合中的视频数据过于宽泛，予以删除。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图2，示出了本发明的一种视频数据的挖掘装置实施例的结构框图，具体可以包括如下模块：

频道分类模块201，用于采用预先训练的频道分类器对待挖掘视频数据进行频道分类，获得频道视频集；

过滤模块202，用于针对各个所述频道视频集，过滤掉不满足预设过滤条件的视频数据；

聚类模块203，用于对各个所述频道视频集中的视频数据进行聚类，获得视频聚类集合；

视频集关键短语获取模块204，用于获取各个所述视频聚类集合的视频集关键短语；

新的视频聚类集合生成模块205，用于针对各个所述视频聚类集合，提取包含所述视频集关键短语的视频数据，形成新的视频聚类集合；

去重模块206，用于对各个所述新的视频聚类集合进行去重处理；

平均相似度计算模块207，用于计算各个所述新的视频聚类集合的平均相似度；

挖掘结果确定模块208，用于保留平均相似度大于或等于预设阈值的新的视频聚类集合。

在本发明实施例中，所述视频集关键短语获取模块可以包括：

分词关键短语获取子模块，用于根据所述第一视频文本获取分词关键短语；

模板关键短语获取子模块，用于根据所述第一视频文本获取模板关键短语；

视频集关键短语获取子模块，用于将所述分词关键短语和所述模板关键短语进行融合，获得视频集关键短语。

在本发明实施例中，分词关键短语获取子模块可以包括以下单元：

视频文本分词获取单元，用于对所述第一视频文本进行分词处理，获得视频文本分词；

视频文本分词出现频率统计单元，用于统计各个所述视频文本分词在相应视频聚类集合中的出现频率；

关键分词提取单元，用于提取出现频率高于第一预设频率值的视频文本分词作为关键分词；

分词关键短语获取单元，用于将各个所述视频聚类集合中的关键分词组合成符合自然语言表达的分词关键短语。

在本发明实施例中，模板关键短语获取子模块可以进一步包括：

预置关键短语模板加载单元，用于加载预置关键短语模板；

候选模板关键短语获取单元，用于将与所述预置关键短语模板匹配的第一视频文本作为候选模板关键短语；

候选模板关键短语出现频率统计单元，用于统计各个所述候选模板关键短语在相应视频聚类集合中的出现频率；

模板关键短语提取单元，用于提取出现频率高于第二预设频率值的候选模板关键短语作为模板关键短语。

在本发明实施例中，所述频道分类器可以通过以下方式训练：

确定各个频道下的视频样本数据；

获取各个频道下的视频样本数据的第二视频文本；

采用所述第二视频文本训练频道分类器。

在本发明实施例中，所述去重模块可以包括：

第三视频文本获取子模块，用于获取各个所述新的视频聚类集合中视频数据的第三视频文本；

量词提取子模块，用于针对各个所述新的视频聚类集合，提取视频数据的第三视频文本中的量词；

去重子模块针用于，对各个所述新的视频聚类集合，对具有相同量词的多个视频数据，只保留其中一个视频数据。

本发明实施例还可以包括排序模块，用于采用视频文本中的量词，对各个所述新的视频聚类集合中的视频数据进行排序。

在本发明实施例中，所述平均相似度计算模块可以包括：

相似度计算子模块，用于计算各个所述新的视频聚类集合中的视频数据两两之间的相似度；

总和相似度计算子模块，用于将所计算获得的相似度累加，获得总和相似度；

相似度的个数统计子模块，用于统计所计算获得的相似度的个数；

平均相似度计算子模块，用于将所述总和相似度与所述相似度的个数的比值作为平均相似度。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种视频数据的挖掘方法和一种视频数据的挖掘装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频数据的挖掘方法，其特征在于，包括：

获取各个所述视频聚类集合的视频集关键短语；

对各个所述新的视频聚类集合进行去重处理；

计算各个所述新的视频聚类集合的平均相似度；

保留平均相似度大于或等于预设阈值的新的视频聚类集合。

2.根据权利要求1所述的方法，其特征在于，所述获取各个所述视频聚类集合的视频集关键短语的步骤包括：

获取各个所述视频聚类集合中视频数据的第一视频文本；

根据所述第一视频文本获取分词关键短语；

根据所述第一视频文本获取模板关键短语；

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一视频文本获取分词关键短语的步骤包括：

对所述第一视频文本进行分词处理，获得视频文本分词；

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述第一视频文本获取模板关键短语的步骤包括：

加载预置关键短语模板；

5.根据权利要求1所述的方法，其特征在于，所述频道分类器通过以下方式训练：

确定各个频道下的视频样本数据；

获取各个频道下的视频样本数据的第二视频文本；

采用所述第二视频文本训练频道分类器。

6.根据权利要求1或2或3所述的方法，其特征在于，所述对各个所述新的视频聚类集合进行去重处理的步骤包括：

7.根据权利要求6所述的方法，其特征在于，还包括：

8.根据权利要求1或2或3所述的方法，其特征在于，所述计算各个所述新的视频聚类集合的平均相似度的步骤包括：

将所计算获得的相似度累加，获得总和相似度；

统计所计算获得的相似度的个数；

9.一种视频数据的挖掘装置，其特征在于，包括：

10.根据权利要求8所述的装置，其特征在于，所述视频集关键短语获取模块包括：