CN106294797B

CN106294797B - 一种视频基因的生成方法和装置

Info

Publication number: CN106294797B
Application number: CN201610670921.8A
Authority: CN
Inventors: 崔玉斌; 宋征; 赵明
Original assignee: Sumavision Technologies Co Ltd
Current assignee: Sumavision Technologies Co Ltd
Priority date: 2016-08-15
Filing date: 2016-08-15
Publication date: 2019-10-18
Anticipated expiration: 2036-08-15
Also published as: CN106294797A

Abstract

本发明提供了一种视频基因的生成方法和装置，其中，该方法包括：获取与当前视频相关的源数据；其中，源数据包括与当前视频相关的网页文本、当前视频内的字幕文本和当前视频对应的音频数据中的一种或多种；按照源数据中单体数据出现的频率从源数据中提取当前视频的特征数据；根据提取到的特征数据和预先建立的视频基因词库确定当前视频的基因词；其中，预先建立的视频基因词库包括样本视频、样本视频的特征数据和样本视频的基因词；其中，样本视频的特征数据包括字幕文本的向量化词语和音频数据的特征数据。本发明可以更加细化和精确地描述视频特征。

Description

一种视频基因的生成方法和装置

技术领域

本发明涉及网页分析技术领域，具体而言，涉及一种视频基因的生成方法和装置。

背景技术

网络视频内容各式各样，长短不一，各具特色。面对海量的网络视频内容，用户会出现选择性困难。当用户耗费大量时间通过APP观看了一些视频后，发现视频内容都不喜欢，此时用户就对该APP体验度变低，甚至卸载该APP。

针对上述问题，目前视频网站通常按照视频类型对视频进行分类，例如动作、科幻、剧情等等；该方式对影视作品来讲，分类比较粗糙，对视频独有特征的描述不准确，因而不能从根本上反映该视频内容的特点。例如，用户喜欢某一种动作片，如果该用户去搜索，视频网站会展现很多动作片，包括太极拳，咏春拳，跑酷，无影脚等等；然而，该用户却搜索不到与其喜好相符的特定一种动作片。

针对上述视频特征描述粗略且不准确的问题，目前尚未提出有效的解决方案。

发明内容

有鉴于此，本发明实施例的目的在于提供一种视频基因的生成方法和装置，能够可以更加细化和精确地描述视频特征。

第一方面，本发明实施例提供了一种视频基因的生成方法，包括：获取与当前视频相关的源数据；其中，源数据包括与当前视频相关的网页文本、当前视频内的字幕文本和当前视频对应的音频数据中的一种或多种；按照源数据中单体数据出现的频率从源数据中提取当前视频的特征数据；其中，对于网页文本和字幕文本，单体数据为词语，对于音频数据，单体数据为音频单元；根据提取到的特征数据和预先建立的视频基因词库确定当前视频的基因词；其中，预先建立的视频基因词库包括样本视频、样本视频的特征数据和样本视频的基因词；其中，样本视频的特征数据包括字幕文本的向量化词语和音频数据的特征数据。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，上述获取与当前视频相关的源数据，包括：从当前视频相关的网页中，通过网页数据采集器获取与当前视频相关的网页文本作为源数据；当前视频相关的网页是从预设的主流网站中获取的当前视频的链接网页；或；对当前视频进行分帧处理，获取当前视频的视频帧集合；从视频帧集合中提取当前视频的关键帧，并通过字符识别技术提取关键帧的字幕文本作为源数据。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，上述按照源数据中单体数据出现的频率从源数据中提取当前视频的特征数据，包括：当源数据为网页文本或字幕文本时，对源数据进行分词处理，生成词语的集合；并对词语的集合进行词语过滤操作和词语频率统计操作；将频率大于预设阈值的词语作为当前视频的特征数据；当源数据为音频数据时，采用梅尔频率倒谱系数MFCC算法计算音频数据中单体数据的频率特征，并将频率特征作为当前视频的特征数据。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，上述根据提取到的特征数据和预先建立的视频基因词库确定当前视频的基因词，包括：当源数据为字幕文本或音频数据时，将特征数据和预先建立的视频基因词库进行匹配操作，根据匹配成功的特征数据确定特征数据对应的样本视频；将样本视频的基因词确定为当前视频的候选基因词；将候选基因词输入预设的神经网络，生成当前视频的基因词。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，上述根据提取到的特征数据和预先建立的视频基因词库确定当前视频的基因词，还包括：当源数据为网页文本或字幕文本时，通过词语生成工具获取特征数据的同义词或近义词；将同义词或近义词逐一与预先建立的视频基因词库进行匹配，并将匹配成功的同义词或近义词确定为当前视频的候选基因词；将候选基因词输入预设的神经网络，生成当前视频的基因词。

结合第一方面的第三种可能的实施方式或第一方面的第四种可能的实施方式，本发明实施例提供了第一方面的第五种可能的实施方式，其中，将候选基因词输入预设的神经网络，生成当前视频的基因词的步骤之前，方法还包括：对当前视频的候选基因词中相同的候选基因词进行频率统计，根据统计的结果对候选基因词进行筛选，去除候选基因词中频率小于预设阈值的候选基因词。

结合第一方面的第三种可能的实施方式或第一方面的第四种可能的实施方式，本发明实施例提供了第一方面的第六种可能的实施方式，其中，上述将候选基因词输入预设的神经网络，生成当前视频的基因词，包括：将候选基因词输入预设的神经网络，神经网络根据候选基因词和视频基因词库中的视频样本对应的视频基因确定与当前视频的关联度最高的视频样本；根据关联度最高的视频样本的视频基因和候选基因词确定当前视频的视频基因。

第二方面，本发明实施例提供了一种视频基因的生成装置，包括：源数据获取模块，用于获取与当前视频相关的源数据；其中，源数据包括与当前视频相关的网页文本、当前视频内的字幕文本和当前视频对应的音频数据中的一种或多种；特征数据提取模块，用于按照源数据中单体数据出现的频率从源数据中提取当前视频的特征数据；其中，对于网页文本和字幕文本，单体数据为词语，对于音频数据，单体数据为音频单元；基因词确定模块，用于根据提取到的特征数据和预先建立的视频基因词库确定当前视频的基因词；其中，预先建立的视频基因词库包括样本视频、样本视频的特征数据和样本视频的基因词；其中，样本视频的特征数据包括字幕文本的向量化词语和音频数据的特征数据。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，上述基因词确定模块包括：样本视频确定单元，用于当源数据为字幕文本或音频数据时，将特征数据和预先建立的视频基因词库进行匹配操作，根据匹配成功的特征数据确定特征数据对应的样本视频；候选基因词确定单元，用于将样本视频的基因词确定为当前视频的候选基因词；第一基因词生成单元，用于将候选基因词输入预设的神经网络，生成当前视频的基因词。

结合第二方面，本发明实施例提供了第二方面的第二种可能的实施方式，其中，上述基因词确定模块还包括：同义词或近义词生成单元，用于当源数据为网页文本或字幕文本时，通过词语生成工具获取特征数据的同义词或近义词；匹配单元，用于将同义词或近义词逐一与预先建立的视频基因词库进行匹配，并将匹配成功的同义词或近义词确定为当前视频的候选基因词；第二基因词生成单元，用于将候选基因词输入预设的神经网络，生成当前视频的基因词。

本发明实施例提供的一种视频基因的生成方法和装置，通过获取与当前视频相关的源数据，并按照源数据中单体数据出现的频率可以从源数据中提取当前视频的特征数据；根据提取到的特征数据和预先建立的视频基因词库可以确定当前视频的基因词；通过上述方式可以更加细化和精确地描述视频特征，从而提高了视频检索和视频推荐的准确度。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例所提供的一种视频基因的生成方法的流程图；

图2示出了本发明实施例所提供的一种视频基因的生成方法中，根据提取到的特征数据和预先建立的视频基因词库确定当前视频的基因词具体方法的流程图；

图3示出了本发明实施例所提供的一种神经网络的结构示意图；

图4示出了本发明实施例所提供的一种视频基因的生成装置的结构示意图；

图5示出了本发明实施例所提供的一种视频基因的生成装置中，基因词确定模块的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到现有的视频特征描述粗略且不准确的问题，本发明实施例提供了一种视频基因的生成方法和装置；该技术可以应用于视频网站的视频分类、检索和推荐；该技术可以采用相关的软件和硬件实现，下面通过实施例进行描述。

实施例1

参见图1所示的一种视频基因的生成方法的流程图；该方法包括如下步骤：

步骤S102，获取与当前视频相关的源数据；其中，该源数据包括与当前视频相关的网页文本、当前视频内的字幕文本和当前视频对应的音频数据中的一种或多种；其中，上述视频基因可以是描述视频内容中包含的情感、情节、风格、角色、发生时代、发生地点等因素的词语，因此该视频基因中包含了当前视频更为细化的特征；上述的网页文本包括对当前视频的简介文本和用户评价文本等。

步骤S104，按照上述源数据中单体数据出现的频率从源数据中提取当前视频的特征数据；其中，对于网页文本和字幕文本，该单体数据为词语，对于音频数据，该单体数据为音频单元；

步骤S106，根据提取到的特征数据和预先建立的视频基因词库确定当前视频的基因词；其中，预先建立的视频基因词库包括样本视频、样本视频的特征数据和样本视频的基因词；其中，样本视频的特征数据包括字幕文本的向量化词语和音频数据的特征数据。

对于当前视频，当通过网页文本没有获取到符合预设标准的基因词时，可以再通过当前视频内的字幕文本获取基因词；当当前视频没有字幕或者通过字幕文本没有获取到符合预设标准的基因词时，可以再通过当前视频内的音频数据获取基因词。

本发明实施例提供的一种视频基因的生成方法，通过获取与当前视频相关的源数据，并按照源数据中单体数据出现的频率可以从源数据中提取当前视频的特征数据；根据提取到的特征数据和预先建立的视频基因词库可以确定当前视频的基因词；通过上述方式可以更加细化和精确地描述视频特征，从而提高了视频检索和视频推荐的准确度。

考虑到与当前视频相关的源数据具有多种形式，上述获取与当前视频相关的源数据，包括如下步骤：(1)从当前视频相关的网页中，通过网页数据采集器获取与当前视频相关的网页文本作为源数据；该当前视频相关的网页是从预设的主流网站中获取的当前视频的链接网页；或；(2)对当前视频进行分帧处理，获取当前视频的视频帧集合；从该视频帧集合中提取当前视频的关键帧，并通过字符识别技术提取关键帧的字幕文本作为源数据。通过上述方式可以获取当前视频相关的网页文本形式的源数据和字幕文本形式的源数据，提高了当前视频的源数据丰富性。

由于当前视频的源数据数据量较大，且冗余较多，上述按照源数据中单体数据出现的频率从源数据中提取当前视频的特征数据，包括如下步骤：(1)当源数据为网页文本或字幕文本时，对源数据进行分词处理，生成词语的集合；并对词语的集合进行词语过滤操作和词语频率统计操作；将频率大于预设阈值的词语作为当前视频的特征数据；(2)当源数据为音频数据时，采用梅尔频率倒谱系数MFCC算法计算音频数据中单体数据的频率特征，并将频率特征作为当前视频的特征数据。通过上述方式可以从大量的源数据中提取较为关键的特征数据，降低了后续处理的计算量。

考虑到上述特征数据较为零散，本发明实施例在实际实现时，上述根据提取到的特征数据和预先建立的视频基因词库确定当前视频的基因词，如图2所示，包括如下步骤：

步骤S202，当源数据为字幕文本或音频数据时，将特征数据和预先建立的视频基因词库进行匹配操作，根据匹配成功的特征数据确定特征数据对应的样本视频；

步骤S204，将上述样本视频的基因词确定为当前视频的候选基因词；

步骤S206，将候选基因词输入预设的神经网络，生成当前视频的基因词。

通过上述方式可以获得当前视频的基因词，该基因词可以细化和精确地描述视频特征。

考虑到通过当前视频的特征数据可能获取不到符合预设标准的基因词，上述根据提取到的特征数据和预先建立的视频基因词库确定当前视频的基因词，还包括如下步骤：(1)当源数据为网页文本或字幕文本时，通过词语生成工具获取特征数据的同义词或近义词；(2)将同义词或近义词逐一与预先建立的视频基因词库进行匹配，并将匹配成功的同义词或近义词确定为当前视频的候选基因词；(3)将候选基因词输入预设的神经网络，生成当前视频的基因词。通过上述方式可以多途径地获取当前视频的基因词。

由于上述候选基因词的数据量可能较大，上述将候选基因词输入预设的神经网络，生成当前视频的基因词的步骤之前，上述视频基因的生成方法还包括如下步骤：对当前视频的候选基因词中相同的候选基因词进行频率统计，根据统计的结果对候选基因词进行筛选，去除候选基因词中频率小于预设阈值的候选基因词。通过上述方式可以筛选出更为精确的候选基因词，用于生成最终的基因词。

考虑到上述候选基因词精确度较低，上述将候选基因词输入预设的神经网络，生成当前视频的基因词，包括如下步骤：(1)将候选基因词输入预设的神经网络，神经网络根据候选基因词和视频基因词库中的视频样本对应的视频基因确定与当前视频的关联度最高的视频样本；(2)根据关联度最高的视频样本的视频基因和候选基因词确定当前视频的视频基因。通过上述方式可以生成对当前视频描述的更加细化和精确的基因词。

实施例2

对应于上述方法实施例，本发明实施例提供了一种具体的视频基因生成方法。其中，该视频基因是对该视频语义的高度抽象，用若干个词来反映该视频的特征，为视频检索和推荐提供了新的途径。

现有的视频检索或推荐方法没有考虑到视频的细化特征，例如，一句台词，某一演员的一个肢体动作，剧情的一种风格，用户喜爱的背景音乐等等。这些都属于该视频非常细粒度的特征，这些特征也许不是官方的，但在受众中广为流传，形成口碑关键词。因此，如何获得这些真实反映受众喜好的视频基因词，是本发明实施例需要解决的问题。为了解决该问题，本发明实施例提供了一种视频基因提取算法，为每个网络视频计算生成一组基因关键词。采用这组词作为标签进行检索和推荐，最大程度上反映了用户的喜好，为互联网朝着智能化、个性化的方向进一步发展，奠定基础。

为了快捷准确地抽取某网络视频的基因，本发明实施例采集了互联网上已经生成视频基因的视频的基因词，与该视频的基本信息，例如名称、导演、主演、类型/地区、上映日期等等，一并进行存储，生成网络视频基因词库。

然后对视频网站网页上与该视频相关的数据进行爬取，再对爬取的文本内容进行分析，通常是对影片简介和用户评价文本进行分词；设置特殊词库和常用词库，对特殊词和常用词进行过滤，判断过滤后得到的关键词是否属于视频基因词库。

如果通过上述步骤没有获得基因词，需要对视频本身进行分析。首先收集各种已有视频基因词对应的视频样本，把视频样本切分为关键帧，可以细分到每一帧，采用光字符识别(OCR)技术提取视频关键帧的字幕文本，对该文本进行分词，并进行向量化，生成样本库。采用下述两种方法来获得候选视频基因词。第一种，对上述分词集合，过滤特殊词与常用词，判断过滤得到的关键词是否属于视频基因词库；第二种，对于检测视频，则逐帧分析字幕，并采用和样本同样的方法进行向量化，并与样本库的向量进行比对，如果匹配，设定样本视频的基因词为当前视频的候选基因词。对于上述分词经过滤后没有精确匹配视频基因词库中基因词的情况，找出其对应的近义词或同义词，在基因词库中进行二次检索。

对于没有字幕的视频，或上述两种方法效果不佳的情况，进一步对音频进行分析。为了提取视频基因词，收集视频基因词对应视频片段的音频样本，对样本进行预处理分帧后，采用梅尔频率倒谱系数(MFCC)离线提取音频特征，并保存。对于检测视频同样用MFCC提取特征，把上述特征数据与样本的进行对比，采用最邻近规则(KNN)算法进行分类，匹配出当前视频片段的候选视频基因词。

对匹配的同一候选视频基因词进行计数，按照从多到少排序，把数目大于门限阈值的关键词保留下来。最后，通过视频关联神经网络算法分析上述生成的候选基因词，生成最终的视频关键词。

具体地，本发明实施例提出的视频基因生成方法的思路如下：

抓取视频网站网页中与视频相关的文本，对上述文本进行分词并过滤得到关键词，基于关键词及其近义词对视频基因词库进行检索，如果匹配则设定为该视频的候选基因词。

对于网页中没有相关文本内容的网络视频，对该视频进行分帧，采用OCR算法检测关键帧字幕中的文字，对该文字进行分词、矢量化并过滤，基于关键词及其近义词对视频基因词库进行检索，如果匹配则设定为该视频的候选基因词。把视频基因词对应的样本视频帧的字幕矢量与检测视频帧的字幕矢量进行比对，匹配则把该视频基因词设置为候选基因词。

对于没有字幕的视频，采用MFCC提取音频特征，然后基于KNN算法进行特征比对分类，获得所属类正样本音频对应的基因词。

根据上述思路，首先建立视频基因词库。在设置了视频基因的网站，爬取视频的基因词，并保存在数据库中。视频基因词库包括视频的名称、导演、主演、类型、地区、上映日期和电影基因等字段。

进一步地，抓取分析全网视频网站中与某视频相关的网页，一般抓取网络视频网页的简介和评论内容等等与视频相关的文本。然后，采用中文分词工具对抓取的文本进行分词。在分词的集合中过滤掉副词、助词、介词、量词、代词、连词、感叹词和拟声词等特殊词；针对常用词过滤，采用逆文本频率指数(TF-IDF)算法建立常用词的集合。分析全网视频网站中，IDF大于设定阈值的词，则认为是常用词。经过上述两层过滤后，在剩余分词的集合中，如果存在爬取的视频基因词库中的基因词，则设定该分词为该视频的候选基因词。

对于没有精确匹配到视频基因库中基因词的分词，获取其近义词或同义词，再次查找是否与视频基因词库中的正样本匹配。如果匹配，则设定为该视频的候选基因词。

进一步地，采用OCR提取关键帧字幕中的文本并进行分词，将过滤后的各个分词及其近义词与视频基因词库进行比对，获得候选基因词。另外，对分词进行向量化，设向量的维度为d，该d为经验值，根据各个影视字幕的长短做自适应的调整。每一帧的字幕文本向量设为：

这样就形成了一个样本字幕文本向量库。对于检测视频，则逐帧分析字幕，并采用和样本同样的方法进行向量化，设每帧的字幕文本向量为：

上述与样本库的向量进行比对，如果向量内积大于设定阈值，则认为两个向量对应元素相同的较多，文本大致匹配，设定样本视频的基因词为当前视频的候选基因词。

进一步地，对于没有网页文本也没有字幕的视频，需要提取视频片段中的音频特征。这里非常多的基因词在简介和评论里都未出现，需要线下学习。例如针对“火爆动作”这一基因词，需要剪切非常多的正样本视频，提取音频，进行预处理，采用MFCC进行音频特征提取，保存特征文件。对于检测视频，基于KNN进行MFCC特征分类，根据分类结果，设置对应样本的基因词为候选基因词。

对某一影视内容的候选基因词进行计数，按照从多到少进行排序，把数目大于门限阈值θ(一般θ>3)的基因词作为关联神经网络的输入进行后处理。基因词关联神经网络根据检测视频的属性，从视频基因词库中检索出同类的视频，分析上述同类视频的基因词与候选基因词，提取高相关的基因词作为最终的结果。

参见图3所示的一种神经网络的结构示意图；该图中，a1～an为输入向量的各个分量；w1～wn为神经元各个突触的权值；b为偏置系数；f为传递函数。t为神经元输出。该神经网络可以表述为：

t＝f(WA'+b) (公式-3)

其中，W＝{w1，w2，……wn}为权向量；A＝{a1，a2，……an}为输入向量，A'为A向量的转置；b为偏置系数；f为传递函数。可见，一个神经元的功能是求得输入向量与权向量的内积后，经一个非线性传递函数得到一个标量结果。

设视频的属性元素包括：名称、导演、主演、类型、地区、上映日期(精确到年)、长度(分为长视频和短视频两种值)等，对应神经网络的输入。一般认为名称存在雷同的视频的基因应该相似，另外，导演和主演相同的内容，基因也应该大致有所相似。基于上述逻辑推理，设检测视频Vc的属性为：

A_Vc＝{n_Vc,d_Vc,s_Vc,t_Vc,a_Vc,t_Vc,l_Vc} (公式-4)

对视频基因词库进行二次检索，第一次按照上式中的名称nc进行相似(like)检索，获得检索集合：

第二次按照公式-4中的导演和主演进行精确匹配检索，获得检索集合：

集合Sn与Sp中元素的属性结构与Vc是一致的，这两个集合的所有元素的属性分别与AVc进行比较，一致的设为1，不同的设为0。这样就形成了神经网络的输入向量A。

而权值向量wi总和为1，且数值依次递减(w1>w2……>w7)，wi的一种取值样例为{0.3,0.25,0.2,0.1,0.05,0.05,0.05}。偏置系数b的取值范围为[-0.9,-0.6]，根据实际情况自适应。f选取阈值函数，表达式如下：

对于关联神经网络输出f(x)为1的Sn与Sp中的元素，获得其视频基因词，与Vc的候选基因词取并集，得到Vc最终的视频基因词。

综上所述，本发明实施例提供了三种方法提取网络视频的基因词，包括：

(1)爬取视频网站网页相关文本并分词过滤，分词结果集匹配基因词库；

(2)OCR提取关键帧中字幕文本并分词、矢量化与过滤，首先分词结果集匹配基因词库；进一步，字幕文本分词矢量与基因词样本视频的字幕文本分词矢量进行比对，若匹配则提取样本视频基因词；

(3)MFCC音频特征比对，获取样本视频的基因词。

针对上述三种方法获得的候选基因词，采用神经网络进行后处理，基于视频间的相关性，进行过滤和补充。获得了全网视频基因词后，就可以采用基因词做标签，进行细粒度、个性化地视频检索和推荐，为网络视频产业的跨越式发展奠定技术基础。

实施例3

对应于上述方法实施例，本发明实施例提供了一种视频基因的生成装置，参见图4所示的一种视频基因的生成装置的结构示意图；该装置包括如下部分：

源数据获取模块400，用于获取与当前视频相关的源数据；其中，该源数据包括与当前视频相关的网页文本、当前视频内的字幕文本和当前视频对应的音频数据中的一种或多种；

特征数据提取模块402，与上述源数据获取模块400连接，用于按照源数据中单体数据出现的频率从源数据中提取当前视频的特征数据；其中，对于网页文本和字幕文本，该单体数据为词语，对于音频数据，该单体数据为音频单元；

基因词确定模块404，与上述特征数据提取模块402连接，用于根据提取到的特征数据和预先建立的视频基因词库确定当前视频的基因词；其中，该预先建立的视频基因词库包括样本视频、样本视频的特征数据和样本视频的基因词；其中，该样本视频的特征数据包括字幕文本的向量化词语和音频数据的特征数据。

本发明实施例提供的一种视频基因的生成装置，通过获取与当前视频相关的源数据，并按照源数据中单体数据出现的频率可以从源数据中提取当前视频的特征数据；根据提取到的特征数据和预先建立的视频基因词库可以确定当前视频的基因词；通过上述方式可以更加细化和精确地描述视频特征，从而提高了视频检索和视频推荐的准确度。

考虑到上述特征数据较为零散，本发明实施例在实际实现时，参见图5所示的一种视频基因的生成装置中，基因词确定模块的结构示意图，该基因词确定模块包括如下部分：

样本视频确定单元500，用于当源数据为字幕文本或音频数据时，将特征数据和预先建立的视频基因词库进行匹配操作，根据匹配成功的特征数据确定特征数据对应的样本视频；

候选基因词确定单元502，与上述样本视频确定单元500连接，用于将样本视频的基因词确定为当前视频的候选基因词；

第一基因词生成单元504，与上述候选基因词确定单元502连接，用于将候选基因词输入预设的神经网络，生成当前视频的基因词。

考虑到通过当前视频的特征数据可能获取不到符合预设标准的基因词，上述基因词确定模块还包括如下部分：(1)同义词或近义词生成单元，用于当源数据为网页文本或字幕文本时，通过词语生成工具获取特征数据的同义词或近义词；(2)匹配单元，用于将同义词或近义词逐一与预先建立的视频基因词库进行匹配，并将匹配成功的同义词或近义词确定为当前视频的候选基因词；(3)第二基因词生成单元，用于将候选基因词输入预设的神经网络，生成当前视频的基因词。通过上述方式可以多途径地获取当前视频的基因词。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种视频基因的生成方法，其特征在于，包括：

获取与当前视频相关的源数据；其中，所述源数据包括与所述当前视频相关的网页文本、所述当前视频内的字幕文本和所述当前视频对应的音频数据中的一种或多种；

按照所述源数据中单体数据出现的频率从所述源数据中提取所述当前视频的特征数据；其中，对于所述网页文本和所述字幕文本，所述单体数据为词语，对于所述音频数据，所述单体数据为音频单元；

根据提取到的所述特征数据和预先建立的视频基因词库确定所述当前视频的基因词；其中，所述预先建立的视频基因词库包括样本视频、所述样本视频的特征数据和所述样本视频的基因词；其中，所述样本视频的特征数据包括所述字幕文本的向量化词语和所述音频数据的特征数据；

根据提取到的所述特征数据和预先建立的视频基因词库确定所述当前视频的基因词，包括：当所述源数据为所述字幕文本或所述音频数据时，将所述特征数据和预先建立的视频基因词库进行匹配操作，根据匹配成功的所述特征数据确定所述特征数据对应的样本视频；将所述样本视频的基因词确定为所述当前视频的候选基因词；将所述候选基因词输入预设的神经网络，生成所述当前视频的基因词；

对于所述当前视频，当通过网页文本没有获取到符合预设标准的基因词时，通过所述当前视频内的所述字幕文本获取基因词；当所述当前视频没有字幕或者通过所述字幕文本没有获取到符合预设标准的基因词时，再通过所述当前视频内的音频数据获取基因词。

2.根据权利要求1所述的方法，其特征在于，获取与当前视频相关的源数据，包括：

从当前视频相关的网页中，通过网页数据采集器获取与所述当前视频相关的所述网页文本作为源数据；所述当前视频相关的网页是从预设的主流网站中获取的所述当前视频的链接网页；或；

对所述当前视频进行分帧处理，获取所述当前视频的视频帧集合；从所述视频帧集合中提取所述当前视频的关键帧，并通过字符识别技术提取所述关键帧的字幕文本作为所述源数据。

3.根据权利要求1所述的方法，其特征在于，按照所述源数据中单体数据出现的频率从所述源数据中提取所述当前视频的特征数据，包括：

当所述源数据为所述网页文本或所述字幕文本时，对所述源数据进行分词处理，生成所述词语的集合；并对所述词语的集合进行词语过滤操作和词语频率统计操作；将频率大于预设阈值的所述词语作为所述当前视频的特征数据；

当所述源数据为所述音频数据时，采用梅尔频率倒谱系数MFCC算法计算所述音频数据中所述单体数据的频率特征，并将所述频率特征作为所述当前视频的特征数据。

4.根据权利要求1所述的方法，其特征在于，根据提取到的所述特征数据和预先建立的视频基因词库确定所述当前视频的基因词，还包括：

当所述源数据为所述网页文本或所述字幕文本时，通过词语生成工具获取所述特征数据的同义词或近义词；

将所述同义词或近义词逐一与预先建立的视频基因词库进行匹配，并将匹配成功的所述同义词或近义词确定为所述当前视频的候选基因词；

将所述候选基因词输入预设的神经网络，生成所述当前视频的基因词。

5.根据权利要求4所述的方法，其特征在于，将所述候选基因词输入预设的神经网络，生成所述当前视频的基因词的步骤之前，所述方法还包括：

对所述当前视频的候选基因词中相同的所述候选基因词进行频率统计，根据统计的结果对所述候选基因词进行筛选，去除所述候选基因词中所述频率小于预设阈值的候选基因词。

6.根据权利要求4所述的方法，其特征在于，将所述候选基因词输入预设的神经网络，生成所述当前视频的基因词，包括：

将所述候选基因词输入预设的神经网络，所述神经网络根据所述候选基因词和所述视频基因词库中的视频样本对应的视频基因确定与所述当前视频的关联度最高的视频样本；

根据所述关联度最高的视频样本的视频基因和所述候选基因词确定所述当前视频的视频基因。

7.一种视频基因的生成装置，其特征在于，包括：

源数据获取模块，用于获取与当前视频相关的源数据；其中，所述源数据包括与所述当前视频相关的网页文本、所述当前视频内的字幕文本和所述当前视频对应的音频数据中的一种或多种；

特征数据提取模块，用于按照所述源数据中单体数据出现的频率从所述源数据中提取所述当前视频的特征数据；其中，对于所述网页文本和所述字幕文本，所述单体数据为词语，对于所述音频数据，所述单体数据为音频单元；

基因词确定模块，用于根据提取到的所述特征数据和预先建立的视频基因词库确定所述当前视频的基因词；其中，所述预先建立的视频基因词库包括样本视频、所述样本视频的特征数据和所述样本视频的基因词；其中，所述样本视频的特征数据包括所述字幕文本的向量化词语和所述音频数据的特征数据；

所述基因词确定模块包括：样本视频确定单元，用于当所述源数据为所述字幕文本或所述音频数据时，将所述特征数据和预先建立的视频基因词库进行匹配操作，根据匹配成功的所述特征数据确定所述特征数据对应的样本视频；候选基因词确定单元，用于将所述样本视频的基因词确定为所述当前视频的候选基因词；第一基因词生成单元，用于将所述候选基因词输入预设的神经网络，生成所述当前视频的基因词；

所述基因词确定模块，还用于对于所述当前视频，当通过网页文本没有获取到符合预设标准的基因词时，通过所述当前视频内的所述字幕文本获取基因词；当所述当前视频没有字幕或者通过所述字幕文本没有获取到符合预设标准的基因词时，再通过所述当前视频内的音频数据获取基因词。

8.根据权利要求7所述的装置，其特征在于，所述基因词确定模块还包括：

同义词或近义词生成单元，用于当所述源数据为所述网页文本或所述字幕文本时，通过词语生成工具获取所述特征数据的同义词或近义词；

匹配单元，用于将所述同义词或近义词逐一与预先建立的视频基因词库进行匹配，并将匹配成功的所述同义词或近义词确定为所述当前视频的候选基因词；

第二基因词生成单元，用于将所述候选基因词输入预设的神经网络，生成所述当前视频的基因词。