CN102332031A

CN102332031A - 一种基于视频集合层级主题结构的检索结果聚类方法

Info

Publication number: CN102332031A
Application number: CN201110316563A
Authority: CN
Inventors: 徐常胜; 桑基韬
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2011-10-18
Filing date: 2011-10-18
Publication date: 2012-01-25
Anticipated expiration: 2031-10-18
Also published as: CN102332031B

Abstract

本发明是一种基于视频集合层级主题结构的检索结果聚类方法，是通过扩充相关的上位词、同义词以及语义关联词，对输入的搜索句子进行查询拓展，得到一个种子词集；根据输入的搜索句子进行检索，返回一个视频集合，再对视频集合进行重复检测，得到每对视频的重复关系；对得到的视频集合的内容进行层级主题建模，通过层级主题模型挖掘视频集合中潜在的层级主题关系；利用搜索句子与父主题的对应关系，将得到的种子词集作为监督信息，利用关联监督层级主题模型对得到的视频集合内容进行建模；并将视频进行重复检测的每对视频的重复关系作为约束，通过关联监督层级主题模型进行建模，实现基于关联监督层级主题模型的主题树发现和视频聚类。

Description

一种基于视频集合层级主题结构的检索结果聚类方法

技术领域

本发明属于视频搜索技术领域，涉及一种基于视频集合层级主题结构的检索结果聚类方法。

背景技术

随着社会媒体(social media)的流行，互联网上的视频数量呈爆炸式增长，用户在享受丰富资源的同时也面临信息过载的困扰，如何将用户查询时所返回的成百上千的检索结果进行有效组织，帮助用户快速定位感兴趣的视频，已成为学术界和工业界共同关心的课题。比较常见的视频搜索引擎采用基于列表的浏览方式返回检索结果，使得用户只能顺序查找，冗长的列表式显示降低了用户体验，且不利于定位和查找感兴趣的目标视频；另外，该方式在某种程度上忽视了检索结果的多样性。基于对搜索结果进行聚类的浏览方式可以从多个方面描述检索结果，从而改善这一不足。

目前针对检索结果进行聚类的方法多专注于解决检索词的歧义性问题，通过对结果进行聚类来区分检索词的多个含义，比如“苹果”(apple)，产生的聚类包括“苹果水果”(apple fruit)、“苹果电脑”(apple computer)、“苹果智能手机”(apple smartphone)等对“苹果”apple的不同解释。而还有很多情况，用户的检索词意义是明确的，并不存在歧义性问题，比如“北京奥运会”(Beijing Olympics)、“美国总统大选”(US president election)、“9/11袭击”(9-11attack)，用户想了解的是关于这一搜索词的详细内容。针对这类情况，如果能挖掘出检索结果所包含的多个方面(facet)，为用户提供一个基于聚类-层级的浏览方式，则可以帮助用户概要了解搜索结果所涉及的主题/方面，从而有助于用户逐步细化检索目标，准确定位感兴趣的视频。

在基于不同模态信息融合的视频聚类方法中，不同模态(文本信息：题目、标注、描述；视觉信息：颜色、边缘、纹理)被连成长向量，转换为一般的聚类问题，采用传统的标准割(Normalized Cut)或者信念传播(Affinity Propagation)作为聚类方法。该方法有如下两个问题：首先，在子主题聚类时没有将与搜索词关联的父主题单独考虑，容易将子主题与父主题相混；其次，对于视觉信息的利用不合理，文本和视觉信息应该分别进行建模。

发明内容

(一)要解决的技术问题

本发明的目的是提供能挖掘出检索结果所包含的多个方面，为用户提供一个基于聚类-层级的浏览方式，则可以帮助用户概要了解搜索结果所涉及的主题/方面，从而有助于用户逐步细化检索目标，准确定位感兴趣的视频，为此提出一种基于视频集合层级主题结构的检索结果聚类方法。

(二)技术方案

为实现上述目的，本发明提供基于视频集合层级主题结构的检索结果聚类方法包括步骤如下：

步骤S1：通过扩充相关的上位词、同义词以及语义关联词，对输入的搜索句子进行查询拓展，得到一个种子词集；

步骤S2：根据输入的搜索句子进行检索，返回一个视频集合，再对视频集合进行重复检测，得到每对视频的重复关系；

步骤S3：对得到的视频集合的内容进行层级主题建模，通过层级主题模型挖掘视频集合中潜在的层级主题关系；利用搜索句子与父主题的对应关系，将得到的种子词集作为监督信息，利用关联监督层级主题模型对得到的视频集合内容进行建模；并将视频进行重复检测的每对视频的重复关系作为约束，通过关联监督层级主题模型进行建模，实现基于关联监督层级主题模型的主题树发现和视频聚类。

优选实施例，所述查询拓展包含基于词网(WordNet)的查询拓展，以及基于关联规则的查询拓展，将与搜索句子相关的词汇扩充到主题树的父主题中。

优选实施例，所述基于词网(WordNet)的查询拓展是将词网(WordNet)概念树中的上位词和同义词作为扩充词，填加入种子词集。

优选实施例，所述基于关联规则的查询拓展为弥补词网(WordNet)领域词汇的狭义性，进一步将视频集合的文本元数据中具有最大置信度和支持度的词汇作为扩充词，填加入种子词集。

优选实施例，所述重复检测是根据视频边缘和纹理的局部特征索引对抽样得到的代表某个视频片段的关键帧进行匹配；利用时空一致性信息滤除匹配噪声，并归一化得到视频层的匹配分数。

本发明的有益效果：本发明采用了基于词网(WordNet)概念树和关联规则的查询拓展方法，以及视频重复检测方法，最终提出一种基于关联监督层级主题模型的主题树发现和视频聚类方法。该发明解决了视频检索结果的层级浏览问题，其中使用查询拓展的结果做为模型的监督信息，可以大大提高主题抽取的质量，从而更准确的提供检索结果的类别标签；使用视频重复检测作为对约束可以增强检索结果的多样性。

附图说明

图1是本发明面向视频搜索结果的层级主题挖掘及聚类浏览的流程图；

图2是本发明中词网(WordNet)概念关系图；

图3a至图3c是本发明中主题模型的图表示；

图4是本发明的方法在“9/11恐怖袭击”主题下与其他技术的对比结果。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

如图1示出本发明面向视频搜索结果的层级主题挖掘及聚类浏览的流程图，本发明实现一种基于视频集合层级主题结构的检索结果聚类方法，并对每个聚类自动生成类别标签。相比现有的聚类显示方法，一方面通过挖掘潜在的层级主题结构，可以有效地归纳出搜索关键词主题/事件的子方面主题(faceted subtopic)；另一方面，通过主题-词分布的形式，可以更好地描述和刻画类标签。本发明的结构图如图1显示，其包含三个组成部分：1)搜索词的查询拓展(query expansion)，2)视频集合的重复检测(duplicate detection)，3)基于关联监督层级主题模型(RelationalSupervised hLDA)的主题树发现和视频聚类。

1查询拓展

方法的输入是搜索句子，视频分享网站会返回一个视频集合，包括视频以及文本元数据(标题、描述、标注等)。对于搜索词，首先进行查询拓展，利用词网(WordNet)上的概念关系以及视频集合的关联规则挖掘，得到种子词集，种子词集会作为监督信息加入到后续的层级主题建模中。

1.1基于词网(WordNet)概念关系的查询拓展

如图2示出词网(WordNet)概念关系图，其中词网(WordNet)上对于每个词条，有三个维度的概念关系：上位词、同义词和下位词，例如图2所示，“攻击”的词性有两种，分为动词和名词。针对名词词性，上位词是比“攻击”含义更广的词语，例如包括“操作”、“方法”、“事件”；同义词是意思相近的词语，例如包含“突击”、“攻击”、“进攻”；下位词是词义更特殊的词语，可以理解为某一种特殊的攻击，例如包括“轰炸”、“地面袭击”、“自杀性袭击”、“反攻”。针对动词词性，类似的，上位词包含“战斗”、“打仗”、“斗争”；同义词包括“袭击”、“进攻”、“攻击”；方式词可以理解为下位词的一种，例如包括“水下攻击”、“空袭”、“反击”。主题模型建模过程对词库中没有的噪声词不敏感，因此对于搜索句子中的每个搜索词，过滤掉下位词，将词网(WordNet)上的上位词(hypernym)和同义词(synonym)扩充到种子词集里。

1.2基于关联规则的查询拓展

考虑到词网(WordNet)对于领域词汇的狭义性，我们同时考虑搜索词在视频集合里的关联挖掘。与搜索词具有较大置信度(confidence)和支持度(support)的词也扩充到种子词集里。这里我们选定为每个搜索词挑选前10个具有最大置信度和支持度的词进行拓展。通过以上两步得到的种子词集记为S。

2重复检测

为同时在层级建模过程中考虑视频集合的文本元数据和视觉信息，视觉信息以关联约束的形式加入到主题建模中，即：如果两个视频被检测是重复(duplicate)的，则其一定属于同一子主题，进而归到同一聚类中。视频d与视频d’的重复检测结果由一个二进制变量y_d，d′表示，若d与d’重复，则y_d，d′＝1；否则y_d，d′＝0。

我们采用最近提出的一种基于关键帧匹配的重复检测算法。抽样的关键帧首先根据局部特征索引进行匹配，时空一致性信息用来滤除匹配噪声，并归一化得到视频层的匹配分数。这一方法对视频的平移等变换不敏感，且具有低存储、运行时间短的优点。

3基于关联监督层级主题模型的主题树发现和视频聚类

我们发现一个搜索句子返回的视频集合共享某个与搜索句子相关的主题，这表明视频集合有一种潜在的层级主体结构，父主题即是与搜索句子相关的主题，每个子主题描述父主题的一个方面(facet)。如果我们能发现这种结构，将每个视频映射到一个子主题上，一个子主题即对应于一个视频聚类，通过这种方法就可以实现对结果的聚类显示。

图3a至图3c示出本发明中主题模型的图表示：图3a提出了传统的层级主题模型(Hierarchical Latent Dirichlet Allocation，hLDA)可以用来挖掘数据集合中的层级主题结构，图3a中所有标记在本发明中的含义及标记含义之间的关系将在3.1节中详细说明。在层级主题模型的基础上，搜索句子经过查询拓展得到的种子词集作为监督信息引导主题的发现过程，图3b提出了本发明监督层级主题模型(ShLDA)，图3b中所有标记在本发明中的含义及标记含义之间的关系将在3.2节中说明。更进一步，为了结合文本元数据和视觉信息，视觉重复检测的结果被作为对约束(pair-wiseconstraint)，图3c又提出了本发明的一种能够结合多模态的关联监督层级主题模型(RShLDA)，图3c中所有标记在本发明中的含义及标记含义之间的关系将在3.3节中说明。

3.1层级主题模型

层级主题模型假设所有的主题按树结构组织，每个树节点对应一个主题，每个文档被分配到由根节点到叶节点的一条路径上。层级主题模型的优点在于树结构和主题内容可以同时从文档集合中学习得到，只需设定很少的参数。在视频聚类的背景下，一个搜索句子返回的视频集合对应于文档集合，每个视频的文本元数据对应一个文档。

在层级主题模型的假设下，文档集合中的每个文档生成式过程如下：

●由中国餐馆过程(nested Chinese Restaurant Process，nCRP)抽样选择一条路径c_d，该抽样服从参数为γ的中国餐馆过程，记为c_d～nCRP(γ)，其中γ是中国餐馆过程控制树结构的参数。

抽样主题分布向量θ_d～GEM(m，π)，其中GEM(·)表示木棍分割分布(Stick-Breaking constructions)，参数m，π决定了文档-主题分布的趋势，m是均值，决定主题数的密度，π是方差，控制收敛速度。对一个文档w_d中的每个词w_dn∈w_d：

■首先根据上一步抽样得到的θ_d，抽样w_d，n所在的层(视频d代表第d个文档，n代表第n个词)，即根据多项式分布z_d，n～Discrete(θ_d)进行抽样；其中z_d，n表示抽样w_d，n所在主题层数，Discrete(·)表示多项式分布。

■然后抽样

其中

是控制主题-词多项式分布的变量，需要从建模过程求得。

其中，T表示了由中国餐馆过程生成的树结构，c是文档抽样得到的路径，z代表给定路径上的层分布，超参数η控制主题-词分布的平滑/稀疏性，θ、β分别是得到的文档-主题分布和主题-词分布，M代表文档数量，N表示文档中的词数量。

3.2监督层级主题模型

为了利用搜索句子与父主题的关系引导主题树的发现过程，查询拓展得到的种子词集S被作为监督信息加入到层级主题模型中，我们提出了监督层级主题模型。在监督层级主题模型的假设下，文档集合中的每个文档生成式过程如下：

●由中国餐馆过程抽样选择一条路径c_d～nCRP(γ)。

●抽样主题分布向量θ_d～GEM(m，π)。

●对每个词w_d，n∈w_d

■选择词所在的层z_d，n～Discrete(θ_d)；

■抽样

w_{d, n} ~ Constraint (μ, z_{d, n}) \cdot Discrete (β_{c_{d}} | z_{d, n}) .

其中Constraint(μ，z_d，n)是种子词集决定的约束方程，定义如下：

Constraint (μ, z_{d, n}) = \{\begin{matrix} μ | w_{d, n} &Element; S | & z_{d, n} = 1 \\ μ | w_{d, n} &NotElement; S | & z_{d, n} &NotEqual; 1 \end{matrix} - - - (1)

其中|·|是指示函数，μ是决定监督信息强度的权重参数。

3.3关联监督层级主题模型

监督层级主题模型中无法考虑视觉信息，而视觉信息对视频聚类的效果有重要作用。在关联监督层级主题模型中，视觉重复检测的结果被作为对约束加入到主题建模过程中。在关联监督层级主题模型的假设下，文档集合的生成式过程如下：

●对于文档集合中的每个文档d：生成式过程与监督层级主题模型一致；

●对于每个文档对d，d′：

■抽样得到重复检测的二进制变量关联概率函数

定义了两个文档之间视觉重复的分布，它依赖于路径分配抽样选择的路径为c_d，c_d′以及主题分布抽样主题分布的向量为θ_d，θ_d′：

其中τ是权重系数，ο表示点积，σ(·)是Sigmoid函数。关联监督层级主题模型的图模型如图3c所示。

生成式模型的推断过程实际上将生成式过程进行反推，对于提出的关联监督层级主题模型，可由经典的吉布斯采样方法推断求解。

在得到主题树后，每个子主题即对应于一个视频聚类。每个视频相对于各个聚类的概率由路径的后验分配c_d决定。每个聚类内视频的排序由其在当前子主题的分布计算：

\frac{\underset{w_{d, n} &Element; w_{d}}{Σ} | z_{d, n} = 2 |}{N_{d}} - - - (3)

其中N_d是分配到页节点的文档总个数。

5实施效果

为了评估本发明，我们从谷歌时代(Google Zeitgeist)选择了7个热门主题作为搜索句子，从视频分享网站Youtube、Metcafe以及Vimeo为每个搜索句子爬取了前800个视频作为视频结合。图4显示了本发明的方法在“911恐怖袭击”主题相关的视频集合得到的主题树，主题树以及对应子主题聚类的视频显示。

从图4可以看出，本发明的方法在“9/11恐怖袭击”主题下与其他技术的对比结果，相比平级结构的主题模型LDA，利用层级主题模型可以获得更紧致的子主题描述。在加入了种子词集的监督信息后，本发明的监督层级主题模型ShLDA比传统的层级主题模型hLDA能得到更好的父主题描述，而融合了视觉重复检测结果的本发明关联监督层级主题模型RShLDA能处理本发明的监督层级主题模型ShLDA文本信息无法分析的情况。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于视频集合层级主题结构的检索结果聚类方法，其特征在于，该方法包括步骤如下：

2.根据权利要求1所述的基于视频集合层级主题结构的检索结果聚类方法，其特征在于，所述查询拓展包含基于词网的查询拓展，以及基于关联规则的查询拓展，将与搜索句子相关的词汇扩充到主题树的父主题中。

3.根据权利要求2所述的基于视频集合层级主题结构的检索结果聚类方法，其特征在于，所述基于词网的查询拓展是将词网概念树中的上位词和同义词作为扩充词，填加入种子词集。

4.根据权利要求2所述的基于视频集合层级主题结构的检索结果聚类方法，其特征在于，所述基于关联规则的查询拓展为弥补词网领域词汇的狭义性，进一步将视频集合的文本元数据中具有最大置信度和支持度的词汇作为扩充词，填加入种子词集。

5.根据权利要求1所述的基于视频集合层级主题结构的检索结果聚类方法，其特征在于，所述重复检测是根据视频边缘和纹理的局部特征索引对抽样得到的代表某个视频片段的关键帧进行匹配；利用时空一致性信息滤除匹配噪声，并归一化得到视频层的匹配分数。