CN101894129B

CN101894129B - 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法

Info

Publication number: CN101894129B
Application number: CN2010101928531A
Authority: CN
Inventors: 俞能海; 刘毅捷
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2010-05-31
Filing date: 2010-05-31
Publication date: 2012-05-02
Anticipated expiration: 2030-05-31
Also published as: CN101894129A

Abstract

一种基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法。属于网络多媒体信息处理领域。本发明的目的在于，在视频分享网站高噪声、主题数目不易确定的环境下，解决视频主题发现的技术问题。本发明主要利用视频分享网站上视频间链接关系来帮助视频主题的发现，包括利用抓取相关视频信息来调整视频BOW模型参数，进行文本信息增强；使用基于关键词的图模型进行主题聚合；以及利用视频与视频间回复关系暗示主题相似性的假设进行结果修正三大步骤。该方法可以在没有任何先验知识的前提下，自动的发现大量网络视频的主题结构，并对单个视频的主题进行有效的归纳，其效果较之常见的数种方法都有明显的进步。

Description

基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法

技术领域

本发明涉及视频主题发现方法，特别涉及通过在线视频分享网站的结构信息及视频本身文本描述信息进行视频主题发现的方法。

背景技术

随着计算机多媒体技术以及网络技术的迅猛发展，视频媒体的传播变得越来越方便。迄今为止，国内外已有数家视频分享网站达到每分钟新上传视频超过20小时的程度。如此海量的数据，给数据管理、内容检索、信息挖掘、媒体推荐等技术需求带来了巨大的困难。做为最基本的对视频内容的理解的研究，视频主题发现是解决以上一系列问题的一处重要的着眼点。视频主题发现，是指判别出视频本身描述的事件或视频内容中包含的重要人物、物品、位置等信息。

目前关于视频主题发现的方案主要分为2种：学习型和非学习型。学习型的方法，主要需要利用已有的先验知识，或者大量的人工标注，来对主题建模。然后按照该模型对新视频进行分类。非学习型的方法，则主要利用数据本身的结构和性质，对数据本身的先验知识的需求降低了。在非学习型的方法中，按照是否需要预先给定主题数量，还可以再分为两类。在视频分享网站这种海量数据的情况下，预先指定主题数量是不现实的。而且，一般的不需要先验知识的主题发现方法，对于视频分享网站这种环境也并不能很好的适用。原因在于，这些方法都对数据的质量有较高的要求。对于视频分享网站而言，所能得到的数据经常呈现出非常杂乱的零星的状况。我们的方法，就是针对这种情况来进行视频主题发现的。

发明内容

本发明的目的在于，在视频分享网站高噪声、主题数目不易确定的环境下，提供对海量视频进行无监督的主题发现的解决方法。

为达到上述目的，本发明提供一种基于视频分享网站上视频间链接关系来帮助视频主题发现的方法，包括文本信息增强、主题聚合和结果修正三大步骤。

所述的文本信息增强步骤为：

步骤a，对于单个视频V，抓取其本身及全部相关视频的文本描述信息。V的相关视频是由网站本身提供的，它们在内容层面具有一定的相关性。

步骤b，对视频V的文本信息建立BOW(Bag-Of-Words)模型，使用tfidf值做为该模型的描述。

步骤c，使用V的相关视频的文本信息对V本身BOW模型中词频一项进行修正与增强。

所述的主题聚合方法步骤为：

步骤d，对于整个视频数据集，按照词与词在单个视频中共同出现的概率构造单词相关度图。

步骤e，计算每个单词的混合权重。其中包括三个不同的权重：tfidf权重，相关度权重和KL变换投影权重。

步骤f，根据混合权重对单词集进行筛选。对筛选过后的单词相关度图进行拆分和合并处理，并定义每个子连通图上的顶点集合为一个主题核单元。

步骤g，根据主题核单元对视频数据集进行聚类。并合并聚类结果中重合率超过一定阈值的两类或多类。

所述的结果修正步骤为：

步骤h，抓取视频网站提供的，“使用该视频做为另一视频的回复”的结构化信息。

步骤i，根据“带有回复关系的两个视频必共享某种公共主题”的假设，利用回复及被回复视频的主题信息对当前视频主题进行修正。

本发明的有益效果在于，通过对文本信息的增强，有效的抑制了文本噪声在主题发现过程中的干扰作用；通过基于图的视频主题聚类方法，避免了主题数量对先验知识的需求；并通过利用视频回复关系，对主题发现的结果进行了修正。

为了检验我们的方法的有效性，我们设计了基于人工打分的评价机制。我们的数据集一共包含网络视频文档共计2514762个。我们对每一个视频用不同方法提取5个最重要主题表述关键字。对随机抽样出的1000个视频的每个关键字，由人工按照是否具有代表性，排序是否表达其重要程度给出0-2分。如下表所附的实验结果所示，我们的方法取得了较原有方法更优秀的效果。同时，较之LDA方法，我们方法的时间复杂度由LDA(t＝800)的26小时，缩短到了3小时。

表格1实验结果

附图说明

图1为应用本发明的对视频分享网站进行视频主题发现的系统示意图；

图2为本发明具体方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为应用本发明的对视频分享网站进行视频主题发现的系统示意图。所述系统包括前台爬虫和后台运算单元。在前台，爬虫负责从网络上获取所有该系统需要处理的信息。在后台运算单元，本发明所包含的方法被用来对前台获取的视频数据进行主题的发现。

在对本发明运算过程进行详细说明之前，对本实例进行一定的描述。本实例所涉及的视频数据，均来自网络著名视频分享网站YouTube。实现抓取这些数据的爬虫设计及这些数据的管理方法，不在本发明范围之内。

对于得到的网络视频数据集V＝{V₁，V₂，...，V_n}，n为视频的总数量，我们方法的目标是要发现一系列的视频主题{T₁，T₂，...，T_m}，m为主题总数量，使得每一个V_i可以由一个或数个T_j来表示，每个T_j包含一组V_i的集合。

本发明需预先设定表达每个主题所需要的词汇的数量上下限，在进行主题核单元生成时，根据该上下限进行连通子图的切割与合并。上下限的选取会影响最后主题表述概念的宽泛性，应用中根据不同的要求在一定范围内进行调整。

下面对本发明运算过程进行详细说明。

如图2所示，本发明包括文本信息增强、主题聚合和结果修正三大步骤。其具体步骤为：

步骤101，对视频数据集V的文本信息建立BOW(Bag-Of-Words)模型，统计每个单词t_k在单个视频V_i文本中的词频tf_i(t_k)及其在整个数据集中的出现文本的频率df_k。利用tfidf值构造向量空间对文本进行表达。

步骤102，对单个视频V_i的所有相关视频进行处理，统计V_i中所有出现过的单词tf_i(t_k)在相关视频中出现文本的频率df_ri(t_k)，依以下公式对tf_i(t_k)进行修正：

tf_i′(t_k)＝tf_i(t_k)+df_ri(t_k)

步骤103，利用新的tf_i′(t_k)值重新计算tfidf并构造文本信息的向量空间表达。

步骤201，对于整个视频数据集，按照词与词在单个视频中共同出现的概率构造单词互相关图G_t。G_t的各个顶点由各单词组成，链接顶点的边的权重由单词间相关度定义。其中词t_i与词t_j的相关度定义为：

r_{ij} = \frac{df (t_{i} \cap t_{j})}{\max {df (t_{i}), df (t_{j})}}

其中，df(t_i∩t_j)是指在视频数据集中，单词t_i与t_j出现在同一文档中的频率。

步骤202，计算每个单词的混合权重。其中包括三个不同的权重：tfidf权重，相关度权重和KL变换投影权重。

tfidf权重使用经典定义：

w_{ti} = Σ_{j}^{N_{d}} {tf}^{'} (t_{ij}) * idf (t_{i})

其中的N_d是指全部视频文档的数量。

相关度权重使用在该领域较常见的定义：

w_{ri} = Σ_{j}^{m} r_{ij} / m

其中的m是指在单词互相关图G_t中，与顶点单词t_i相连接的单词数量。

KL变换投影权重是我们新提出的一种衡量单词重要性的标准。其计算过程为：

首先构造tfidf矩阵，使每行表示一个文档，每列表示一个单词。其次计算该矩阵的自相关矩阵的特征值及对应特征向量。之后，将特征值按大小进行排序，保留包含总能量95％的部分，计其包含N_e个特征值。最后，计算保留下的特征值的对应特征向量E_k{k＝1，2，...N_e}的能量和：

w_{pi} = Σ_{k}^{N_{e}} {E_{ki}}^{2}

在计算出三种不同权重之后，合并计算各个单词的混合权重：

w_ci＝αw_ti+βw_ri+(1-α-β)w_pi

步骤203，根据混合权重对单词集进行筛选。在本实例中，直接取其平均值做为阈值，小于该阈值的单词均被丢弃。

步骤204，对筛选过后的G_t进行重构和拆分。在G_t中，首先依照边的权值构造最大生成树；其次切断权值最小的边，使得该图分为两部分；不断重复前一步，直到每一部分的顶点集合所包含的顶点个数都小于提前设定的主题词汇上限。

步骤205，合并所有小于设定主题词汇下限的顶点集合至距离其最近的相邻集合。最终使得G_t中各个子连通图所包含顶点数量都处于提前设定的主题词汇上下限之间。定义每个子连通图上的顶点集合为一个主题核单元。

步骤206，根据主题核单元对视频数据集进行聚类。计算每个视频文档V_i与各个主题核单元的距离。按距离大小得到每个视频文档V_i属于该主题C_j的概率，记为s_i＝{s_i1，s_i2，...，s_in}，其中n是主题核单元的数量。

步骤207，合并聚类结果中重合率太高的两类或多类。合并运算是通过覆盖率图G_o来进行的。G_o中，每一个顶点代表一个主题聚类，当两个聚类的重合率高于一定阈值时，在G_o中生成一条链接这两个顶点的边。合并方法通过不断查找合并G_o中的最大全连通子图来达到合并的目的。合并完成之后，视频主题发现的工作已经初步完成，每个视频都按照概率分属于不同的视频主题。

步骤301，抓取视频网站提供的，“使用该视频做为对另一视频的回复”的结构化信息。为视频文档与各主题间关系的修正做准备。

步骤302，根据“带有回复关系的两个视频必共享某种公共主题”的假设，利用以下公式对主题聚合结果进行修正。

w_{ij}^{(k)} = \frac{1}{N_{r}} \underset{r}{Σ} s_{rj}^{(k)}

s_{ij}^{(k + 1)} = \frac{w_{ij}^{(k)} s_{ij}^{(k)}}{Σ_{j} w_{ij}^{(k)} s_{ij}^{(k)}}

其中，N_r是与当前视频具有回复关系的视频数量总和。k代表第k次迭代时所得到的相似度和权重。在实际中，需要依靠数据本身的趋势对k的值进行寻找和设定。最终，

即为视频V_i属于各主题的概率。

步骤303，根据视频属于各主题的概率对视频文档本身的主题关键词进行排序。排序时，根据以下公式定义的秩来衡量各个主题关键词：

w_{i}^{(n)} = \underset{j | t_{i} &Element; t_{j}}{Σ} s_{ij}^{(n)} w_{ci}

其中t_j表示主题C_j的关键词集合，w_ci是之前定义的单词t_i的混合权重。

至此，各主题及各视频文档均由一定数量的主题关键词得到表达。

以上对本发明的描述是说明性的，而非限制性的，本专业技术人员理解，在权利要求限定的精神与范围之内可对其进行许多修改、变化或等效，但是它们都将落入本发明的保护范围内。

Claims

1.一种基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法，其特征在于，首先需要设定表达每个视频主题所需要的主题词汇的数量上下限，包括文本信息增强、主题聚合和结果修正三大步骤：

所述的文本信息增强步骤为：

步骤a，对于单个视频V，抓取其本身及全部相关视频的文本描述信息，V的相关视频是由网站本身提供的，它们在内容层面具有一定的相关性；

步骤b，对视频V的文本信息建立Bag-Of-Words的BOW模型，使用tfidf值做为该模型的描述；

步骤c，使用V的相关视频的文本信息对V本身的文本信息BOW模型中词频一项进行修正与增强；

所述的主题聚合方法步骤为：

步骤d，对于整个视频数据集，按照词与词在单个视频中共同出现的概率构造单词互相关图G_t，所述单词互相关图G_t的各个顶点由各个单词组成，链接顶点的边的权重由单词间相关度定义；

步骤e，计算每个单词的混合权重，其中包括三个不同的权重：tfidf权重，相关度权重和KL变换投影权重，其中tfidf权重为单词的词频和反文档频率之积，相关度权重为在单词互相关图G_t中，所有与顶点单词相连接的单词和顶点单词的相关度之和除以和顶点单词相连接单词数量所得到的商，KL变换投影权重的特征为：首先构造tfidf矩阵，使每行表示一个文档，每列表示一个单词；其次计算该矩阵的自相关矩阵的特征值及对应特征向量；之后，将特征值按大小进行排序，保留包含总能量95％的部分，计其包含N_e个特征值；最后，计算保留下的特征值的对应特征向量E_k{k＝1，2，...N_e}的能量和：