CN103020303B

CN103020303B - 基于互联网跨媒体地标的历史事件提取及相关图片的搜索方法

Info

Publication number: CN103020303B
Application number: CN201210592957.0A
Authority: CN
Inventors: 徐常胜; 闵巍庆; 鲍秉坤
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2012-12-31
Filing date: 2012-12-31
Publication date: 2015-08-19
Anticipated expiration: 2032-12-31
Also published as: CN103020303A

Abstract

本发明提出了一种基于互联网跨媒体地标历史事件的提取与图片检索方法。该方法包括历史事件提取和基于历史事件的跨媒体图片检索两部分。事件分别从图片分享网站的标签集合和相关地标介绍网站的文章中进行提取。其中从标签集合中提取事件利用每个标签在时间上的频率选取它们在该时间范围内的最优划分间隔，然后通过年龄理论得到每个标签的突发性权重；对突发性权重高的标签进行事件标签聚类，每个聚类构成一个事件。基于事件的跨媒体图像检索通过时间约束，利用事件的关键词检索图片集，得到初始化的图片排序结果，然后利用相关图片和非相关图片的视觉模式的不同进行建模，去掉检索结果中非相关的图片，最终利用图片的相关性和多样性作为约束，建立重排序模型，为每个事件找到相应的代表性的图片集合，实现地标历史事件的可视化。

Description

基于互联网跨媒体地标的历史事件提取及相关图片的搜索方法

技术领域

本发明涉及社会媒体(social media)挖掘和跨媒体检索领域，特别涉及一种基于互联网跨媒体地标的历史事件提取及相关图片的搜索方法。

背景技术

地标(landmark)是一个地区的标志性建筑。而由于其独特的物理、文化和历史特征，它们已经成为旅游者的热点景点。地标同时也是各种重大事件的发生地，这些历史事件可以加深对该地标文化价值和社会功能的理解，从而为旅游者提供相关的指导。互联网上图片的爆炸式增长导致了地标图片数量的迅速增加。有效利用历史事件挖掘这些地标图片，实现地标历史事件的可视化可以在城市挖掘、旅游推荐这些领域中发挥巨大的作用。

目前在科研界中针对地标图片挖掘的方法主要集中在总结某一地理区域地标图片。利用图片共享网站的上下文信息，包括标签，标题和用户ID等从共享网站中挖掘地标图片，得到代表性的地标图片集。这些方法忽略了对时间信息的挖掘，因而无法提供与事件相关的地标图片。如果可以为用户提供每个地标在不同事件发生时的相关图片，这可以以图文并茂的方式给用户提供栩栩如生的地标历史，从而增强了用户浏览地标的体验。

许多相关的地标介绍的网站以文本和图片的形式为用户提供了对地标相关历史事件的描述，以帮助用户更好的了解该地标，为他们的旅游提供指导。但他们普通存在以下问题：(1)他们并不是为每个地标事件提供代表性的图片，即便一些事件提供了图片，但数量太少，缺乏多样性；(2)这些网站大都是人工编辑，而不是自动生成，费时费力。

发明内容

从社会媒体中挖掘出地标不同时刻发生的事件，利用这些事件挖掘相关的图片去实现历史事件的可视化，以图文并茂的方式为用户提供了一种以事件为单位的浏览地标的方式，通过这些栩栩如生的可视化事件加深用户对地标所特有的历史文化价值和社会功能的理解，同时可以让用户足不出户就可以在网上“周游世界”，为此本发明提出基于互联网跨媒体地标历史事件的挖掘与可视化。

为实现上述目的，本发明提出了一种基于互联网跨媒体地标历史事件的提取与相关图片的搜索方法，其包括：

步骤S1：提取地标历史事件，包括从所述地标相关的事件标签集中提取历史事件或从文章中提取与所述地标相关的历史事件；

步骤S2：基于所提取的历史事件，搜索相关的事件图片，对所述相关事件图片进行重排序，以得到与所述历史事件相关的代表性图片集合。

其中，步骤S1中所述从事件标签集提取历史事件包括：

步骤S11：检测每个事件标签的突发性权重；

步骤S12：对突发性权重高的事件标签进行聚类，每个聚类为一个要提取的历史事件；

其中，步骤S2具体包括：

步骤S21：根据步骤S1中提取的事件提取关键词，利用所述关键词检索出初始化的图片排序结果；

步骤S22：通过相关图片和非相关图片的视觉模式的不同去掉非相关图片，增强事件相关图片的排序得分；

步骤S23：以图片的多样性为约束对去掉非相关图片的图片排序结果进行重排序。

本发明的有益效果：本发明通过事件提取和基于事件的跨媒体图像检索，最终提出基于互联网跨媒体地标历史事件的挖掘与可视化技术；该发明解决了地标事件可视化问题，其中通过确定每个标签在时间上的最优时间间隔分割，大大提高了事件标签检测的质量，而最后对初始化的图片结果利用图片的相关性和多样性作为约束进行重排序建模，使得每个事件对应的图片集更具有代表性，从而提高了历史事件可视化的质量。

附图说明

图1是本发明中基于互联网跨媒体地标历史事件的提取及相关图片的搜索方法流程图；

图2是本发明中提取地标历史事件的方法流程图；

图3是本发明中根据所提取的历史事件搜索相关图片的方法流程图；

图4是根据本发明提出的基于历史事件的跨媒体历史事件的提取与相关事件图片的检索方法在地标“大本钟”下的历史事件的检索结果展示图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

如图1所示，本发明提出了一种基于互联网跨媒体地标的历史事件提取与相关事件图片的检索方法，其包含两个部分：步骤S1：提取地标历史事件；步骤S2：基于所提取的历史事件，搜索相关的事件图片。

步骤S1具体如下实现：

图片分享网站的地标事件是大家所关注的热门事件，而有关地标介绍的文章中的事件则从历史的角度涵盖了地标更早期的事件，因此综合以上两个方面，地标相关的事件可以从图片分享网站的标签集合中或地标介绍网站的相关文章中提取。

(一)从图片分享网站的标签集合提取事件

从事件标签集合中进行事件标签检测，如图2所示。

步骤S11：检测每个事件标签的突发性权重。首先利用事件标签在时间范围内出现的频率，对于每个事件标签从给定的时间间隔集合中选择所述时间范围内最优时间间隔，利用该最优时间间隔去分割所述事件标签对应的所述时间范围，然后利用年龄理论计算每个事件标签的突发性权重。

所谓事件标签的峰值时间段是指以该时间段作为时间间隔的划分，峰值对应的时间段内的标签频率处于稳定状态：如果所选的时间间隔大于该峰值时间段，则峰值对应的时间段内标签的频率不会再有太大变化，但如果所选的时间间隔小于该峰值时间段，则峰值对应的时间段内标签的频率会急剧减小。由于每个事件标签的峰值时间段的长度不同，如果对所有的事件标签所选择的最优时间间隔都是一致的，那么会导致某些事件标签在峰值时间段的频率相比于临近的时间段没有太大变化，进而导致突发性权重的降低而无法检测出该事件标签，为此本发明对每个事件标签寻找他们各自的最优时间间隔，这样会提高事件标签检测的准确度。由于当每个事件标签的时间间隔小于峰值时间段长度，标签的频率将会迅速降低；而事件标签的时间间隔大于峰值时间段长度时，标签的频率没有太大变化，因此本发明选择最优时间间隔为峰值时间段的长度。

定义时间间隔集合S＝{s_j|j＝1，...，|j|}，其中|j|是指时间间隔集合的数量，本发明的一个优选实施例中取S＝{1，...，30}，单位为天，定义第m个时间分割I_m＝<i_m，i_m+s_j>，m＝1，2，...，|m|，其中|m|是指划分的时间间隔的数量。定义当时间间隔为s_j时，第m个时间段I_m中标签c_k的频率为F(c_k，j，I_m)，简写为F(c_k，j，m)，则最优的时间间隔应该满足如下条件：

\{\begin{matrix} \frac{\max_{m} F (c_{k}, j^{*}, m) - \max_{m} F (c_{k}, j^{*} - 1, m)}{\max_{m} F (c_{k}, j^{*} - 1, m)} > α \\ \frac{\max_{m} F (c_{k}, j^{*} + j + 1, m) - \max_{m} F (c_{k}, j^{*} + j, m)}{\max_{m} F (c_{k}, j^{*} + j, m)} \leq σ, j = 1,2, . . ., | j | - j^{*} - 1 \end{matrix} - - - (1)

其中，j^*为最优时间间隔，j表示时间间隔集合中的第j个时间间隔，α和σ为预定义参数；通过以上计算，最终确定出每个事件标签的最优时间间隔，然后通过年龄理论得到每个事件标签的突发性权重。

步骤S12：对突发性权重高的事件标签进行聚类。对于突发性权重高的标签，为了得到属于同一事件的相关事件标签，本发明中采用聚类的方法，最终得到相关事件标签集合。聚类方法中最重要的是相似度的计算，本发明考虑了以下三种相似度计算：1)标签与标签之间共生关系产生的相似性，用符号S1表示；2)标签与标签之间基于词网(WorldNet)的语义相似度，用符号S2表示；3)标签与标签之间基于上传时间的时间相似度，用符号S3表示。三种相似度分别表示如下：

S 1 = \frac{N (c_{k}, c_{q})}{\min (N (c_{k}), N (c_{q}))} - - - (2)

其中N(c_k)和N(c_q)分别表示含有标签c_k和c_q的图片的数量，N(c_k，c_q)表示同时含有标签c_k和c_q的图片的数量。

S2可以通过提供的基于词网相似度的方法来计算。

其中和分别表示标签c_k和c_q突发性时间段。

总的相似度表示如下：

S(c_k，c_q)＝(αS1(c_k，c_q)+βS2(c_k，c_q))S3(c_k，c_q)(4)

其中，α和β分别为S1和S2的权重，公式(4)为最终的相似度计算，本发明采用k-means聚类方法根据公式(4)计算得到的相似度对事件标签进行聚类，每个聚类的集合最终构成一个要提取的事件。

(二)从地标介绍网站的相关文章中提取事件

本发明从和地标相关的文章中抽取事件，首先利用基于启发式的句子边界分割技术将文章分割成句子；然后对每个句子进行时间检测，含有时间信息的句子构成一个提取事件。

步骤S2具体如下实现：

步骤S21：从所提取的事件中提取关键词，利用所述关键词检索出初始化的图片排序结果。

基于事件进行跨媒体图像检索时，对于每个使用上面介绍的两种方式提取的事件，首先从中提取关键词，利用这些关键词，同时将时间作为约束，检索出相关的图片集合，对于初始化的图片排序结果。

步骤S22：通过相关图片和非相关图片的视觉模式的不同去掉非相关图片。

利用相关图片和非相关图片的视觉模式的不同进行建模，去掉检索结果中排序靠前的非相关的图片，增强相关性图片的排序得分。其中，建模公式如下所示：

\min_{c} ({| | s - Wc | |}_{1}^{2} + α | | {Φc | |}_{1}^{2})

(5)

s.t.c∈{0，1}^M

其中W∈R^M×M，为可视化相似度矩阵，该相似度矩阵中的每个元素代表通过提取图片的相关特征而计算得到的图片与图片之间的相似度，其中对角线元素全为0，M为总的图片数量。s＝We为列向量，每个元素表示每张图片和其他所有图片的相似度之和，e为元素均为1的列向量，c为二值向量，如果向量的元素为1，则对应的图片与查询的事件相关；0，则表示不相关；Φ是一个对角阵，以初始化的排序作为先验信息，对角阵每个元素表示c中相应元素的权重，权重越低，也即排序越靠前，则c中对应元素为1的概率就越大。α为一平衡参数。公式第一项表示用W和c去重构s产生的误差，而第二项是对c的稀疏性的一个约束，通过上述公式(5)，最终得到使得重构错误最小的c向量，如果c＝0，则表示对应位置的图片和查询不相关，将其从初始化检索的图片集合中移除。

步骤S23：以图片的多样性为约束，对图片排序结果进行重排序。

本发明除了考虑图片的相关性，还同时将图片的多样性作为约束，建立重排序模型，得到重新排序后的图片结果；通过选取排序靠前的图片子集，作为每一个事件的代表性的图片集。

利用图片的相关性和多样性作为约束，建立重排序模型：

ADP (r, P) = \frac{1}{R} Σ_{j = 1}^{M} r (p_{j}) Div (p_{j}) (\frac{Σ_{k = 1}^{j} r (p_{k}) Div (p_{k})}{j}) - - - (6)

其中，r表示相关性向量，P表示总的图片集合P＝{p₁，p₂，...p_M}，p_j和p_k则表示在排序位置分别为j和k时对应的图片，r(p_j)表示图片p_j与检索事件是否相关的相关性得分，Div(p_j)表示图片p_j的多样性得分，R为检索的图片集合P中与该检索事件真正相关的图片的数量。

通过不断的优化上述重排序模型中的平均多样性准确度ADP的期望，最终得到使得所述ADP最大的图片排序结果，作为最终的图片排序结果。

上述重排序模型的含义是对检索出来的图片的排序除了考虑图片p_j与所检索事件的相关性得分外，还基于多样性的考虑，将与排列在前面的图片相似度小的相关图片的排序提前，使得排序在前的图片具有多样性。

r(p_j)通过以下流形排序模型得到：

r^{*} = \min_{r} (r^{T} (I - D^{- 1 / 2} {WD}^{1 / 2}) r + λ | | r - \overset{&OverBar;}{r} | |) - - - (7)

D为对角矩阵，对应的元素w_ij为相似度矩阵W中的元素，M为图片总数量，0＜λ＜1，为初始化的列向量，I为单位矩阵，第一项是平滑项，表示如果两张图片的可视化相似度比较大，则两张图片的相关性得分比较接近；第二项是一致项，表示相关度的得分和初始化的得分保持尽可能的一致。通过上式获得使得平滑项和一致项之和最小的r^*，从而获得p_j对应的相关性得分r(p_j)。

Div(p_j)通过以下模型得到：

Div (p_{j}) = \min_{1 \leq i \leq j} (1 - s (p_{i}, p_{j})) - - - (8)

s(p_i，p_j)表示两张图片p_i和p_j之间的语义相似性。

实施效果

本发明适用于所有地标，为了评估本发明，我们选择地标大本钟作为例子来展示实验效果。为此以大本钟作为关键词从谷歌图片(Google Image)和图片分享网站Flickr中爬取大约5万张图片集，同时爬取每张图片对应的元数据信息包括图片周围的文本信息，标签和相关的时间信息。

图4显示了基于历史事件的跨媒体图像检索方法在地标“大本钟”下历史事件可视化结果展示图。其中事件栏显示的是事件的发生时间和描述事件的关键词。图片这一栏显示的是利用检测到的事件通过跨媒体的检索得到的相关图片。从示意图中看出我们的方法能够很好的利用标签集合和相关的文章挖掘事件，同时通过检索相关的图片实现这些事件的可视化。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于互联网跨媒体地标历史事件的提取与相关图片的搜索方法，其包括：

步骤S2：基于所提取的历史事件，搜索相关的事件图片，对所述相关事件图片进行重排序，以得到与所述历史事件相关的代表性图片集合；

步骤S1中所述从事件标签集提取历史事件包括：

步骤S11：检测每个事件标签的突发性权重；

利用每个事件标签在一时间范围内的频率，确定每个事件标签在该时间范围内的最优时间间隔，并利用所述最优时间间隔对所述时间范围进行分割，然后计算每个事件标签的突发性权重；其中，所述每个事件标签对应的最优时间间隔为每个事件标签的峰值时间段的长度。

2.如权利要求1所述的方法，其特征在于，所述最优时间间隔满足如下条件：

\{\begin{matrix} \frac{\max_{m} F (c_{k}, j^{*}, m) - \max_{m} F (c_{k}, j^{*} - 1, m)}{\max_{m} F (c_{k}, j^{*} - 1, m)} > α \\ \frac{\max_{m} F (c_{k}, j^{*} + j + 1, m) - \max_{m} F (c_{k}, j^{*} + j, m)}{\max_{m} F (c_{k}, j^{*} + j, m)} \leq σ, j = 1,2, . . ., | j | - j^{*} - 1 \end{matrix}

其中，第m个时间分割I_m＝<i_m,i_m+s_j>,m＝1,2,...,|m|，其中|m|是指所述时间范围被划分后的时间分割数量，F(c_k,j,I_m)表示当时间间隔为s_j时，在时间段I_m中标签c_k的频率，简记为F(c_k,j,m)；s_j为时间间隔集合S＝{s_j|j＝1,...,|j|}中的第j个元素，|j|表示时间间隔集合中时间间隔数量；j^*为最优时间间隔，α和σ为预定义参数。

3.如权利要求1所述的方法，其特征在于，对于突发性权重高的事件标签通过计算事件标签之间的相似度进行聚类，获得相关事件标签集合，其中相似度如下计算：

S(c_k,c_q)＝(αS1(c_k,c_q)+βS2(c_k,c_q))S3(c_k,c_q)

其中，c_k和c_q分别为事件标签，S1为事件标签之间共生关系产生的相似性，S2为事件标签之间基于词网的语义相似度，S3为事件标签之间基于上传时间的时间相似度，α和β分别为S1和S2的权重。

4.如权利要求3所述的方法，其特征在于，S1和S3分别如下计算：

S 1 = \frac{N (c_{k}, c_{q})}{\min (N (c_{k}), N (c_{q}))}

其中，N(c_k)和N(c_q)分别表示含有事件标签c_k和c_q的图片的数量，N(c_k,c_q)表示同时含有事件标签c_k和c_q的图片的数量；和分别表示事件标签c_k和c_q的突发性时间段。

5.如权利要求1所述的方法，其特征在于，步骤S2具体为：

6.如权利要求5所述的方法，其特征在于，所述步骤S22中通过相关图片和非相关图片的视觉模式的不同去掉非相关图片具体为：

通过下式获得二值向量c：

\min_{c} ({| | s - Wc | |}_{1}^{2} + α {| | Φc | |}_{1}^{2})

s.t. c∈{0,1}^M

其中，W∈R^M×M，为可视化相似度矩阵，其中的每个元素表示图片与图片之间的相似度，对角线元素全为0；M为总的图片数量；s＝We，为列向量，每个元素表示每张图片和其他所有图片的相似度之和，e为元素均为1的列向量；Φ是一个对角阵，以初始化的排序作为先验信息，该对角阵中的每个元素表示向量c中相应元素的权重，权重越低，排序越靠前，则c中对应元素为1的概率就越大；α为平衡参数；

如果c＝0，则表示对应位置的图片和所检索事件不相关，则将该图片从初始化的的图片排序结果中移除。

7.如权利要求5所述的方法，其特征在于，所述步骤S23中以图片的多样性为约束对去掉非相关图片的图片排序结果进行重排序具体为：

建立重排序模型，如下所示：

ADP (r, P) = \frac{1}{R} Σ_{j = 1}^{M} r (p_{j}) Div (p_{j}) (\frac{Σ_{k = 1}^{j} r (p_{k}) Div (p_{k})}{j})

其中，r表示图片与所检索事件的相关性得分向量，P表示总的图片集合P＝{p₁,p₂,...p_M}，p_j和p_k则表示在排序位置分别为j和k时对应的图片，r(p_j)表示图片p_j与所检索事件的相关性得分，Div(p_j)表示图片p_j的多样性得分，R为检索的图片集合P中与所检索事件真正相关的图片的数量；

通过不断优化上述重排序模型，得到使得上述ADP最大的图片排序结果，以作为最终的图片排序结果。

8.如权利要求7所述的方法，其特征在于，所述相关性得分r(p_j)从下式获得：

r^{*} = \min_{r} (r^{T} (I - D^{- 1 / 2} {WD}^{1 / 2}) r + λ | | r - \overset{&OverBar;}{r} | |)

λ为平衡参数，0<λ<1，为初始化的列向量，I为单位阵，r(p_j)为r^*中的元素。

9.如权利要求7所述的方法，其特征在于，所述多样性得分Div(p_j)从下式获得：

Div (p_{j}) = \min_{1 \leq i \leq j} (1 - s (p_{i}, p_{j})) .