CN102411638B

CN102411638B - 一种新闻检索结果的多媒体摘要生成方法

Info

Publication number: CN102411638B
Application number: CN 201110455758
Authority: CN
Inventors: 卢汉清; 刘静; 李泽超; 徐常胜
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2011-12-30
Filing date: 2011-12-30
Publication date: 2013-06-19
Anticipated expiration: 2031-12-30
Also published as: CN102411638A

Abstract

本发明公开了一种新闻检索结果的多媒体摘要生成方法，该方法采用自然语言处理技术预处理新闻文档，提取命名实体；采用层次潜在狄利克雷分布模型在与查询相关的新闻信息中挖掘出潜在的主题；采用基于权重聚合和最大池模型算法从每个主题中筛选出典型文档，同时也挑选出典型的新闻图片；采用考虑时间信息的最大生成树将各个主题串联成连续紧凑的摘要，生成一个与查询相关的简要概述。本发明能够对新闻信息采用综合文本与图片的多媒体形式进行总结凝练，为用户提供生动形象、全面具体的新闻时事展示，使其能够掌握到所关心新闻的前因后果和事件的发展历程。

Description

一种新闻检索结果的多媒体摘要生成方法

技术领域

本发明涉及多媒体内容分析与理解领域，特别是一种新闻检索结果的多媒体摘要生成方法。

背景技术

随着信息技术的发展和网络的全球化，在线新闻越来越多并且也越来越受欢迎，变成了人们日常生活当中获取信息的一种重要的途径。人们可以通过一些主要的网络门户网站，如雅虎、MSN等；或者大型新闻网站，如CNN、AOL和MSNBC等，及时获取和浏览各种以文本、图片或视频形式呈现的多媒体新闻信息。但是每天都有大量的多媒体新闻涌现出来，迫使用户陷入“信息泛滥“的尴尬境地，使其难以快速获取个人所需的新闻资讯，更难以全面了解新闻事件及其前因后果。因此，研究如何有效地挖掘与分析这些海量多媒体新闻数据，让用户快速全面地了解时事新闻是一项十分必要的任务。

发明内容

鉴于此，本发明提出了一种对于新闻检索结果的多媒体摘要生成方法，针对用户检索的相关新闻结果进行二次整合，并通过总结摘要的方式连续紧凑地展示给用户，使用户能够快速生动地了解新闻事件及其前因后果。这就需要挖掘出检索结果中潜在的主题结构，从每个主题中筛选出最具权威的代表性新闻文档和新闻图片来表示该主题，进一步将各个主题串接起来，为用户展示一个连续紧凑的新闻事件发展过程。

为达到上述目的，本发明提出一种新闻检索结果的多媒体摘要生成方法，其特征在于，该方法包括以下步骤：

步骤1，将从互联网新闻网站上爬取的新闻数据组成新闻数据库，并对新闻数据库中的新闻数据进行预处理；

步骤2，基于用户文本查询在新闻数据库中进行新闻信息检索，并按照新闻数据库中的新闻文档与用户文本的相关性从大到小的顺序排列检索到的新闻文档；

步骤3，基于顺序排列的新闻文档，计算新闻文档之间的文本相似度S，并使用层次化的潜在狄利克雷分布模型挖掘出新闻检索结果中的主题层次树结构，计算新闻文档基于层次树结构的相似度S^tree，最终得到新闻文档之间的相似度S_comb；

步骤4，根据步骤3得到的新闻文档之间的相似度S_comb，基于权重聚合方法和最大池模型从下至上地为每个主题选择最具权威的代表性新闻文档和新闻图片，作为每个主题的多媒体摘要表示；

步骤5，采用考虑时间因素的最大生成树模型将各个主题串接起来，生成新闻检索结果的多媒体摘要；

步骤6，展示新闻检索结果及生成的多媒体摘要。

本发明提出的多媒体新闻摘要生成方法能够对新闻信息采用综合文本与图片的多媒体形式进行总结凝练，为用户提供生动形象、全面具体的新闻时事展示，使其能够掌握到所关心新闻的前因后果和事件的发展历程。

附图说明

图1是本发明所提出的查询相关的多媒体新闻摘要生成方法流程图。

图2是根据本发明实施例的用户检索和浏览界面示例图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明的实施例是基于英文新闻的，但是本发明的方法不受语言种类的限制。

本发明提出了一个利用计算机的基于多媒体分析的新闻检索结果的摘要生成方法，综合利用了新闻文档的多模态信息。该方法首先从网络上获取新闻数据并对其进行预处理以及文本分析。然后采用层次化的潜在狄利克雷分布模型挖掘出检索结果中的潜在主题层次结构。通过本发明提出的基于权重聚合以及最大池模型的代表性节点筛选方法，从层次主题结构中为每个节点筛选出最具权威的代表性新闻文档以及新闻图片，作为此节点及其子节点的多媒体摘要表示。筛选过程中，考虑到了同一个父节点的不同子节点之间的文本相似性以及基于层次主题树结构的相似性，并采用权重聚合算法从下至上依次计算属于每个节点的新闻文档的度，表示新闻文档的权威性。最后采用最大池模型根据新闻文档的权威性挑选出最具权威的代表性新闻文档。另外还为每个节点挑选出了最具权威的代表性新闻图片。本发明还通过提出的考虑时间信息的最大生成树方法将主题结构串接起来，并设计了一个浏览界面，方便用户进行检索和浏览。

图1给出了本发明所提出的新闻检索结果的多媒体摘要生成方法流程图。如图1所示，该方法包括以下步骤：

步骤1，将从互联网新闻网站上爬取的新闻数据组成新闻数据库，并对新闻数据库中的新闻数据进行预处理。

首先，采用网络爬虫按照时间信息从ABC、BBC和CNN新闻网站以及谷歌新闻网站上爬取新闻文档和对应的新闻图片，构建自己的新闻数据库；然后，采用自然语言处理技术从新闻数据中提取出新闻文档的标题、时间、摘要和正文以及新闻文档对应的网址，提取出新闻图片的网址和新闻图片对应的文本信息。新闻文档的标题、摘要和正文用来计算新闻文档之间的相似性；新闻文档的网址用来去除重复文档；新闻图片的网址和文本信息用来收集图片和说明图片内容；最后，采用自然语言处理技术根据新闻文档的网址去除重复文档。

步骤2，基于用户文本查询在新闻数据库中进行新闻信息检索，并按照新闻文档与用户文本的相关性从大到小的顺序排列检索到的新闻文档。

给定由步骤1爬取得到的新闻数据库，可以使用目前常见的任何一种文本检索方法，进行与用户文本查询相关的新闻信息检索，并返回包含新闻文档、新闻图片等信息的检索结果集合。在本实施方案中，我们可采用基于词频-反文档频率(Term Frequency-Inverse Document Frequency，简称为TF-IDF)的文本向量形式来表示每个新闻文档和用户文本查询，然后采用余弦相似性计算各文档与用户查询的文本的相关性，然后按照相关性从大到小的降序排列各相关的文档。

步骤3，基于顺序排列的新闻文档，计算新闻文档之间的文本相似度S，并使用层次化的潜在狄利克雷分布模型挖掘出新闻检索结果中的主题层次树结构，计算新闻文档基于层次树结构的相似度S^tree，最终得到新闻文档之间的相似度。

考虑到新闻文档的标题、摘要和正文部分在信息传递中的重要性不同，本发明首先针对新闻文档的这三部分文本内容分别计算他们之间的文本相似度，然后对其进行线性组合，得到新闻文档之间的文本相似度S：

S＝0.5×S^t+0.3×S^s+0.2×S^b，

其中，S^t、S^s和S^b是分别以标题、摘要和正文为对象计算出来的新闻文档之间的文本相似度。这里，文本相似度是按照文本处理中的常见做法，先通过词频-反文档频率模型来表示文本内容，然后利用余弦相似性来度量其两两相似度。

采用层次化的潜在狄利克雷分布模型(hierarchical Latent DirichletAllocation，简称为hLDA)挖掘出新闻信息检索结果中的潜在的主题层次树结构：采用一个深度固定为L的树结构表述检索结果主题的分布，树结构中的每个节点对应一个主题，不同深度的节点对应不同层次的主题，每个节点采用该主题文档集合所包含文本关键词的概率分布来描述。这样，一篇文档就对应一条从根节点到叶节点的路径，沿着这条路径反复地抽样主题和从抽样的主题中选择词语就生成一篇文档。采用hLDA模型能够挖掘出潜在的主题层次树结构，然后采用多媒体信息描述每个主题。

在hLDA模型中，具有共享路径的新闻文档是属于同一个主题的，并且彼此之间很相似。本发明采用文本相似度和基于树结构的相似度的平均值来计算同一个主题下的新闻文档之间的相似度S_comb。

S_{comb} = \frac{S + S^{tree}}{2},

其中，S是上文中提到的新闻文档之间的文本相似度，S^tree是基于树结构计算出的新闻文档之间的相似度。

新闻文档基于层次树结构的相似度S^tree的计算进一步包括以下步骤：

步骤3.1，分别计算新闻文档d和g属于某一主题的概率；

用t表示所有词在层次树结构中的层次分配，c表示具有词w的所有文档的路径分配。给定词语w在t已知的条件下的分布以及文档在c已知条件下的分布，一个词在一条路径的某个特定主题上的后验概率正比于这个词被这个主题生成的次数，即：

p(w|t，c，w，η)∝#[t＝t，c＝c，w＝w]+η，

其中，#[]表示满足给定条件的元素个数，t为层次树结构中的某一层次，c为具有词w的所有新闻文档的路径分配中的某一路径，η表示主题对应的hLDA模型的狄利克雷分布参数，其为一个常数。

基于上式，可以得到新闻文档属于某一个主题的概率：文档d和g属于主题t的概率分别是p_t，d＝p(w_t，d|z_d＝t，c，w＝v_t)和p_t，g＝p(w_t，g|z_g＝t，c，w＝v_t)，其中w_t，d是文档d中在路径c上处于第t层次的主题z_d中产生的词集合，w_t，g是文档g中在路径c上处于第t层次的主题z_g中产生的词集合，v_t是主题t生成的词集合，z_d和z_g分别是新闻文档d和g在某个层次上对应的主题。

步骤3.2，采用延森-香农散度计算公式计算新闻文档d和g属于主题t的概率即p_t，d和p_t，g之间的散度：

{div}_{d, g, t} = \frac{1}{2} (KL (p_{t, d} | | \frac{p_{t, d} + p_{t, g}}{2}) + KL (p_{t, g} | | \frac{p_{t, d} + t_{t, g}}{2})),

其中，KL(d||g)＝∑_id_ilog(d_i/g_i)为Kullback-Liebler(KL)散度。

步骤3.3，采用

将上述步骤3.2计算得到的散度转化为相似度测度。

相似地，给定一个文档d，其对应的主题后验概率是：

p(t|t，c，α)∝#[t＝t，c＝c_d]+α，

其中，α表示文档对应的hLDA模型的狄利克雷分布参数，其亦为一个常数，c_d是文档d对应的路径分配。

使用类似的步骤，可以计算出给定某一新闻文档，各个主题的分布概率。

步骤3.4，给定新闻文档d和g，分别计算出其对应的主题分布概率

p_{t_{d}} = p (t | z_{d}, c_{d}, α)

和

p_{t_{g}} = p (t | z_{g}, c_{g}, α);

步骤3.5，采用延森-香农散度计算公式计算这两个概率的散度

{div}_{t_{d}, t_{g}} = \frac{1}{2} (KL (p_{t_{d}} | | \frac{p_{t_{d}} + p_{t_{g}}}{2}) + KL (p_{t_{g}} | | \frac{p_{t_{d}} + p_{t_{g}}}{2}));

步骤3.6，采用

计算新闻文档基于主题的相似度

S_{2}^{tree} (d, g, t) .

步骤3.7，根据和计算新闻文档基于层次树结构的相似度S^tree。

提供的是基于主题-词分布的文档之间的相似度，

提供的是新闻文档主题的权重。它们共同影响新闻文档的相似度，因此将它们在各个路径和各个级别上的作用结合起来得到基于树结构的新闻文档相似度：

S^{tree} (d, g) = \frac{1}{| T_{d, g} |} \underset{t &Element; T_{d, g}}{Σ} S_{1}^{tree} (d, g, t) \times S_{2}^{tree} (d, g, t) \times l_{t},

其中，T_d，g表示新闻文档d和g共有的主题集合，|T|表示集合T的元素个数，l_t是主题t所处的层次。如果两个新闻文档之间没有共享主题，那它们基于树结构的相似度是0。

得到S^tree，就可以根据上文中提到的公式

计算S_comb了。然后基于相似度S_comb，以及权重聚合方法和最大池模型为每个主题筛选出最具权威的代表性文档和新闻图片，将在以下内容阐述。

步骤4，根据步骤3得到的新闻文档之间的相似度S_comb，基于权重聚合方法和最大池模型从下至上地为每个主题选择最具权威的代表性新闻文档和新闻图片，作为每个主题的多媒体摘要表示。

首先根据S_comb为最底层的每一个节点挑选出最具权威的代表性新闻文档，作为最底层节点的表示。然后按照树结构从下至上，采用权重聚合方法计算主题层次树结构中各个节点的度(各个节点的度由其最具权威的代表性新闻文档的度表示)，然后根据节点的度来衡量每个节点的权威性。这里，采用最大池模型从主题层次树结构中为每个节点筛选出最具权威的代表性子节点，作为该节点的所有子节点的代表。采用代表性子节点的最具权威的代表性新闻文档作为该节点的最具权威的代表性新闻文档。在本步骤以下阐述内容中，对于已经选择出最具权威代表性新闻文档的节点，采用代表性新闻文档表示该节点，也不再区分代表性新闻文档和该节点。

在为每个节点筛选代表性子节点的过程中，本发明为每个节点挑选出能够表达该节点的代表性新闻文档和新闻图片，作为每个节点对应主题的多媒体摘要表示。

所述步骤4进一步包括以下步骤：

步骤4.1，为主题层次树结构最底层即第L层上每个节点选择最具权威的代表性新闻文档；

对于树结构的最底层即第L层上的某个节点，可以确定从根节点到该节点的一条路径，因此也就确定了经过该路径的新闻文档，即得到了属于该节点的文档集。这里使用D_c，L表示在第L层主题上处于任一路径c上的新闻文档集合。根据上述内容，已经得到了新闻文档基于新闻内容和树结构的相似度S_comb。根据S_comb计算属于D_c，L的新闻文档d的重要性，作为新闻文档d的度的度量，即

score (d) = Σ_{g &Element; D_{c, L}} S_{comb} (d, g),

其中，D_c，L表示在第L层主题上处于路径c上的新闻文档集合。

根据每个新闻文档的度，采用最大池模型选择出度最大的新闻文档作为集合D_c，L的最具权威的代表性新闻文档tdc，L，即

{td}_{c, L} = \arg \max_{d &Element; D_{c, L}} score (d) .

步骤4.2，计算第l层主题的重要性，也就是该层主题的最具权威的代表性新闻文档在该层上的重要性，作为节点的度，也就是权威性，采用最大池模型为第l层上每个节点选择最具权威的代表性新闻文档。

从下至上地对每一个节点的所有子节点进行重要性计算，并采用最大池模型为该节点选择出代表性文档。按照此方法依次从每个主题中选出代表性的文档作为该主题的代表，直到到达根节点为止。这个过程就是从树结构进行抽象的过程。在每次抽象中，需要计算第l(l＝L，L-1，…，2，1)层上两个节点的代表性新闻文档d和g在该层上的相似度S_l(d，g)。为此，需要建立层和层之间的联系。本发明采用一个系数的插值矩阵W_l建立D_l和D_l+1之间的联系，其定义为：

其中，D_l表示在第l层主题上的所有主题的代表性新闻文档集合。当l＝L时，定义S_L+1＝S_comb，D_L+1表示所有新闻文档集合。

按照树结构从下至上，即树结构层次l从L到1依次计算各层上节点之间的相似度。针对第l层(l＝L，L-1，…，2，1)，根据已计算出的的S_l+1，以及采用上式基于S_l+1计算出的W_l+1，采用

就可以得到第l层上各节点的新闻文档相似度。S_l通过插值矩阵W_l+1继承了S_l+1的特性。

采用D_c，l表示在第l层主题上处于路径c上的代表性新闻文档集合。对每一个属于D_c，l的新闻文档d，采用其和其他属于D_c，l的新闻文档在l层上的相似度的和作为其在第l层主题上的重要性指标，作为其度的度量，即

score (d) = Σ_{g &Element; D_{c, l}} S_{l} (d, g) .

采用最大池模型选择出重要性score最大的文档作为D_c，l集合的最具权威的代表性新闻文档td_c，l，即

{td}_{c, l} = \arg \max_{d &Element; D_{c, l}} score (d) .

此时，代表性新闻文档td_c，l是路径c上处于l层的节点的代表，也就是说是该节点对应主题的代表。

步骤4.3，按照步骤4.2，从下至上地对主题层次树结构中的每一个节点所对应的主题中选出最具权威的代表性文档作为该主题的代表，直至到达根节点为止。

接下来阐述如何根据hLDA挖掘出的层次结构，为每个主题选择代表性的新闻图片。一个新闻主题是由几个新闻子主题组成，每个新闻子主题的新闻图片之间是相似的。因此，首先，采用近似重复检测算法将属于同一个新闻子主题的新闻图片分成几组，找出包含图片最多的那一组新闻图片作为此新闻子主题的视觉表示。然后，以该组内的图片为节点，图片之间的视觉相似性为边，构建一个图模型，采用每幅图片和其他图片之间的相似度之和作为该新闻图片所对应节点的度的定义。最后，采用最大池模型从中挑选出度最大的新闻图片作为该主题的图片表示。另外，由于网页存储空间有限，在最终显示检索结果的时候，需要将图片进行缩小。但新闻图片中经常包含了新闻人物，而且新闻人物也是新闻事件一个很重要的因素，因此在缩小图片的时候应保证新闻人物对应区域的损失尽量小。首先采用人脸检测算法检测出新闻图片中的人脸部分，然后采用权重的双向相似度总结视觉信息的方法对其进行缩放，这里所涉及到的图像缩放技术是参考CVPR2008的Denis Simakov等人的工作“Summarizing Visual DataUsing Bidirectional Similarity”。

步骤5，采用考虑时间因素的最大生成树模型将各个主题串接起来，生成新闻检索结果的多媒体摘要。

在步骤5中，采用本发明提出的偏重时间的最大生成树将一个节点的子节点有效地串接起来以作为该节点的表述。

本发明将上述串接子节点的工作转化成：在对应同一父节点下各子节点所构成主题层次树结构中，进行最大生成树的求解问题。这里，最大生成树的定义是：若从主题层次树结构的某一节点出发，遍历访问到主题层次树结构中其他各节点，则遍历时经过的边和主题层次树结构的所有节点所构成的子图，称作该主题层次树结构的生成树，而其中边权值总和最大的生成树即为最大生成树。图中各节点之间的边权重表示了子节点所对应子主题之间的相似性，因此，具有最大权重和的生成树可以最简洁且概括地描述父节点。

下面，将说明上述图模型中的边权重计算方法。一方面考虑前面步骤4中得到的第l层上各子节点之间的相似度S_l，另一方面考虑到时间是新闻内容中的一个重要元素，本发明引入时间信息到边权重计算任务中，认为发生在同一或相近时间的新闻可能具有一定的相似性。

所述边权重的计算包括以下步骤：

首先，将新闻的时间信息进行量化，将其表示为“年月日”的形式，如“九月12号，2010”可表示为“20100912”，记为date。

然后，计算某个主题的两个子主题基于时间信息的相似度；

在步骤4中，已经为每个节点选择出了最具权威的代表性新闻文档，作为该节点所对应的新闻主题的表示。因此，计算两个节点的基于时间信息的相似度转化为计算所对应的代表性新闻文档的基于时间信息的相似度。因此，某个主题的两个子主题的基于时间信息的相似度就是这两个子主题对应的代表性新闻文档基于时间信息的相似度，即：

S_{date} (d, g) = 1 - \frac{| date (d) - date (g) |}{Σ_{q &Element; T} | date (d) - date (q) |},

其中，新闻文档d和g是这两个子主题对应的代表性新闻文档，新闻文档q是该主题的所有子主题对应的新闻文档集合T中的一员。

最后，根据新闻文档相似度S_l和基于时间信息的相似度S_date计算节点之间的边权重。

将之前计算得到的相似度S_l和基于时间信息的相似度S_date的线性组合作为节点之间的边权重：

S_MST(d，g)＝εS_l(d，g)+(1-ε)S_date(d，g)如果d，g∈D_c，l-1，

其中，D_c，l-1是第l级上处于路径c上的主题的子主题代表性新闻文档集合。ε是线性组合的系数。本发明更依赖于时间信息，因此，设置ε＝0.4。

根据上述计算的节点之间的关联边权重S_MST，对每个图模型寻找其最大生成树，并按照最大生成树将各子主题串接起来作为各主题的最恰当描述。

生成最大树的过程进一步包括以下步骤：

步骤5.1，首先选择时间最早的节点作为最大生成树的源节点，并将其加入到已选择节点集中(初始选择节点集合为空集)

步骤5.2，考虑余下节点与已选择节点集中所有节点的边权重，选择出具有最大边权重的节点以及对应的关联关系，并将其加入到已选择节点集中。

步骤5.3，重复步骤5.2，直至所有节点加入到已选择节点集中。

步骤5.4，利用上述步骤得到的关联关系将各节点连接起来，就得到了对应的最大生成树。

步骤6，展示新闻检索结果及其多媒体新闻摘要。

为了提供给用户生动快速的检索和浏览界面，本发明设计了一个新闻检索界面，如图2所示。该界面包含了两个视图，分别对应图2中左右两部分。左半部分是根据本发明所提出的方法得到的新闻检索结果的多媒体摘要视图：采用本发明的方法得到潜在的主题层次树结构以及为各主题选择出最具权威的代表性新闻文档和新闻图片，对新闻检索结果进行多媒体摘要展示。本系统采用了三级树结构，第一级对应根节点，第二级对应主题，第三级对应子主题。各主题按照时间顺序从上至下依次排列，每个主题中的各子主题采用本发明提出的考虑时间的最大生成树从左至右排列。每个子主题给出了代表新闻文档的标题和代表新闻图片。在界面的右半部分用于展示新闻检索结果的条目式信息，即按照相关性的降序排列给出了与查询相关的所有新闻条目，主要给出了包含新闻标题、相关新闻图片和简短文本摘要等信息内容。用户可以点击标题获取该新闻文档的全部报道内容。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种新闻检索结果的多媒体摘要生成方法，其特征在于，该方法包括以下步骤：

步骤3，基于顺序排列的新闻文档，计算新闻文档之间的文本相似度S，并使用层次化的潜在狄利克雷分布模型挖掘出新闻检索结果中的主题层次树结构，计算新闻文档基于层次树结构的相似度S^tree，最终得到同一个主题下新闻文档之间的相似度S_comb；

步骤4，根据步骤3得到的同一个主题下新闻文档之间的相似度S_comb，基于权重聚合方法和最大池模型从下至上地为每个主题选择最具权威的代表性新闻文档和新闻图片，作为每个主题的多媒体摘要表示；

步骤6，展示新闻检索结果及生成的多媒体摘要；

所述步骤3中，所述使用层次化的潜在狄利克雷分布模型挖掘出新闻检索结果中的主题层次树结构为：采用一个深度固定为L的树结构表述检索结果主题的分布，树结构中的每个节点对应一个主题，不同深度的节点对应不同层次的主题，每个节点采用该主题文档集合所包含文本关键词的概率分布来描述；

所述步骤4进一步包括以下步骤：

步骤4.1，采用最大池模型为主题层次树结构最底层即第L层上每个节点选择最具权威的代表性新闻文档；

步骤4.2，计算第l层主题的重要性，也就是该层主题的最具权威的代表性新闻文档在该层上的重要性，作为节点的度，即权威性，采用最大池模型为第l层上每个节点选择最具权威的代表性新闻文档；

步骤4.3，按照步骤4.2，从下至上地对主题层次树结构中的每一个节点所对应的主题中选出代表性新闻文档作为该主题的代表，直到到达根节点为止。

2.根据权利要求1所述的方法，其特征在于，所述步骤1进一步包括：按照时间信息从互联网新闻网站上爬取新闻文档和对应的新闻图片。

3.根据权利要求2所述的方法，其特征在于，所述步骤1中对新闻数据库中的新闻数据进行的预处理进一步为：采用自然语言处理技术从所述新闻文档中提取出标题、时间、摘要、正文以及新闻文档对应的网址，从所述新闻图片中提取出新闻图片的网址和新闻图片对应的文本信息，并采用自然语言处理技术根据所述新闻文档对应的网址去除重复文档。

4.根据权利要求1所述的方法，其特征在于，所述步骤3中，新闻文档之间的文本相似度S为：

S＝0.5×S^t+0.3×S^s+0.2×S^b，

其中，S^t、S^s和S^b是分别以标题、摘要和正文为对象计算出来的新闻文档之间的文本相似度。

5.根据权利要求1或4所述的方法，其特征在于，采用基于词频-反文档频率的文本向量形式来表示文本内容，然后采用余弦相似性来计算各新闻文档与用户查询的文本的相关性或以标题、摘要和正文为对象的新闻文档之间的文本相似度。

6.根据权利要求1所述的方法，其特征在于，新闻文档基于层次树结构的相似度S^tree的计算进一步包括以下步骤：

步骤3.1，分别计算新闻文档d和g属于某一主题t的概率：P_t，d＝p(w_t，d|z_d＝t，c，w＝v_t)和P_t，g＝p(w_t，g|z_g＝t，c，w＝v_t)，其中，w_t，d是新闻文档d中在路径c上处于第t层次的主题z_d中产生的词集合，w_t，g是新闻文档g中在路径c上处于第t层次的主题z_g中产生的词集合，v_t是主题t生成的词集合，z_d和z_g分别是文档d和g在某个层次上对应的主题；

步骤3.2，计算概率P_t，d和P_t，g之间的散度：

{div}_{d, g, t} = \frac{1}{2} (KL (p_{t, d} | | \frac{p_{t, d} + p_{t, g}}{2}) + KL (p_{t, g} | | \frac{p_{t, d} + p_{t, g}}{2})),

其中，KL(d||g)＝∑_id_ilog(d_i/g_i)为Kullback-Liebler(KL)散度；

步骤3.3，将步骤3.2计算得到的散度转化为相似度测度：

S_{1}^{tree} (d, g, t) = 10^{- {div}_{d, g, t}};

步骤3.4，计算新闻文档d和g对应的主题分布概率

和

其中，α为一个常数，表示新闻文档对应的狄利克雷参数，c_d是文档d对应的路径分配，c_g是文档g对应的路径分配；

步骤3.5，计算概率

和

之间的散度：

{div}_{t_{d}, t_{g}} = \frac{1}{2} (KL (p_{t_{d}} | | \frac{p_{t_{d}} + p_{t_{g}}}{2}) + KL (p_{t_{g}} | | \frac{p_{t_{d}} + p_{t_{g}}}{2}));

步骤3.6，将步骤3.5计算得到的散度转化为相似度测度：

S_{2}^{tree} (d, g, t) = 10^{- di v_{t_{d}, t_{g}}};

步骤3.7，根据

和

计算新闻文档基于层次树结构的相似度S^tree：

S^{tree} (d, g) = \frac{1}{| T_{d, g} |} \underset{t &Element; T_{d, g}}{Σ} S_{1}^{tree} (d, g, t) \times S_{2}^{tree} (d, g, t) \times l_{t},

其中，T_d，g表示新闻文档d和g共有的主题集合，|T|表示集合T的元素个数，l_t是主题t所处的层次。

7.根据权利要求1所述的方法，其特征在于，所述步骤3中，所述新闻文档之间的相似度S_comb为：

S_{comb} = \frac{S + S^{tree}}{2} .

8.根据权利要求1所述的方法，其特征在于，所述步骤4.1进一步包括以下步骤：

首先，计算任一路径c上第L层节点中的某一新闻文档d的重要性score(d)：

score (d) = Σ_{g &Element; D_{c, L}} S_{comb} (d, g),

其中，D_c，L表示在第L层节点上处于路径c上的新闻文档集合，S_comb(d，g)为步骤3中计算的新闻文档之间的相似度；

然后，采用最大池模型选择重要性最大的新闻文档作为集合D_c，L的最具权威的代表性新闻文档td_c，L：

{td}_{c, L} = \arg \max_{d &Element; D_{c, L}} score (d) .

9.根据权利要求1所述的方法，其特征在于，所述步骤4.2进一步包括以下步骤：

首先，计算第l层两个主题的代表性新闻文档d和g之间的相似度S_l(d，g)；

然后，计算每一个新闻文档d在第l层主题上的重要性，作为其度的度量，即

score (d) = Σ_{g &Element; D_{c, l}} S_{l} (d, g),

其中，D_c，l表示在第l层主题上处于路径c上的代表性新闻文档集合；

最后，采用最大池模型选择出重要性最大的文档作为集合D_c，l的最具权威的代表性新闻文档td_c，l：

{td}_{c, l} = \arg \max_{d &Element; D_{c, l}} score (d) .

10.根据权利要求9所述的方法，其特征在于，所述步骤4.2中，第l层上节点的新闻文档之间的相似度为

其中，l＝L，L-1，…，2，1，L为主题层次树结构的深度，W_l为插值矩阵：

其中，D_l表示在第l层主题上的所有新闻文档集合，当l＝L时，定义S_L+1＝S_comb，D_L+1是新闻文档集合。

11.根据权利要求1所述的方法，其特征在于，所述步骤4中，为每个主题选择最具权威的代表性新闻图片进一步包括以下步骤：

首先，采用近似重复检测算法将属于同一个子主题的新闻图片分成几组，找出包含图片最多的那一组新闻图片作为此子主题的视觉表示，其中，几个新闻子主题组成一个新闻主题；

然后，以该组内的图片为节点，图片之间的视觉相似度为边，构建一个图模型，采用每幅图片和其他图片之间的相似度之和作为该新闻图片所对应节点的度的定义；

最后，从中挑选出度最大的新闻图片作为该主题的新闻图片表示。

12.根据权利要求1所述的方法，其特征在于，所述步骤5中，所述最大生成树为：若从主题层次树结构的某一节点出发，遍历访问到主题层次树结构中其他各节点，则遍历时经过的边和主题层次树结构的所有节点所构成的子图，称作该主题层次树结构的生成树，而其中边权重总和最大的生成树即为最大生成树，图中各节点之间的边权重表示了子节点所对应子主题之间的相似度。

13.根据权利要求12所述的方法，其特征在于，所述边权重的计算包括以下步骤：

首先，将新闻的时间信息进行量化，将其表示为“年月日”的形式，记为date；

然后，计算某个主题的两个子主题基于时间信息的相似度S_date：

S_{date} (d, g) = 1 - \frac{| date (d) - date (g) |}{Σ_{q &Element; T} | date (d) - date (q) |},

其中，新闻文档d和g是所述两个子主题对应的代表性新闻文档，新闻文档q是该主题的所有子主题对应的新闻文档集合T中的一员；

最后，根据新闻文档之间在树结构第l层上的相似度S_l和基于时间信息的相似度S_date计算节点之间的边权重S_MST：

S_MST(d，g)＝εS_l(d，g)+(1-ε)S_date(d，g)如果d，g∈D_c，l-1

其中，D_c，l-1是第l级上处于路径c上的主题的子主题代表性新闻文档集合，ε是线性组合的系数。

14.根据权利要求13所述的方法，其特征在于，所述最大树的生成进一步包括以下步骤：

步骤5.1，首先选择时间最早的节点作为最大生成树的源节点，并将其加入到已选择节点集中，初始选择节点集合为空集；

步骤5.2，考虑余下节点与已选择节点集中所有节点的边权重，选择出具有最大边权重的节点以及对应的关联关系，并将其加入到已选择节点集中；

步骤5.3，重复步骤5.2，直至所有节点加入到已选择节点集中；

15.根据权利要求1所述的方法，其特征在于，所述步骤6中，为了节约新闻图片的存储空间，在保证新闻图片中的新闻人物对应区域的损失尽量小的前提下，对新闻图片进行缩小。