CN108090199A

CN108090199A - 一种大型图像集的语义信息提取和可视化方法

Info

Publication number: CN108090199A
Application number: CN201711409040.1A
Authority: CN
Inventors: 巫英才; 谢潇; 蔡西文
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2018-05-29
Anticipated expiration: 2037-12-22
Also published as: CN108090199B

Abstract

本发明公开了一种大型图像集的语义信息提取和可视化方法，包括以下步骤：(1)获取数据，图像集合使用I表示；(2)步骤(1)中的每张图像进行处理，获得描述图像内容的句子形式的语言描述；(3)通过词干提取处理语言描述，得到所有描述图像集合的关键词集合W；(4)提取出步骤(2)处理过程中的中间数据，所述中间数据包括图像的向量形式表征V_I和单词的向量形式表征V_W；(5)对图像集合I和关键词集合W分别进行投影，得到图像集合I在二维图像空间上的坐标P_I和关键词集合W在二维语义空间上的坐标P_W；(6)获得图像集合I中的局部语义结构；(7)在二维语义空间中对图像进行重构；(8)将得到的数据进行可视化。

Description

一种大型图像集的语义信息提取和可视化方法

技术领域

本发明涉及图像处理技术领域，特别涉及一种大型图像集的语义信息提取和可视化方法。

背景技术

随着信息技术的迅猛发展，图像信息正以前所未有的规模大量产生于日常生活中。小到个人相册管理，大到遥感图像分析，大型图像集合的分析在各种应用中起着不可忽视的作用。然而，使用户能够方便地分析和理解图片集的技术和工具则相对落后。近年来，可视化领域中，人们对大型图像集合的探索越来越有兴趣，也出现了一系列应用于图像可视化的方法，例如树状图、节点连接图、散点图等等。一般来说，这些方法都是通过图像的内在特征(如像素大小、时间地点等元数据信息)或图像所附带的用户标签对图像集做聚类或分组，以便为用户提供直观的可视化纵览或是进一步地提供交互手段向下分析各个图像。

针对图像的可视化方法已经成功应用于诸多系统中，例如PhotoMesa、PHOTOLAND、ImageHive等。然而，这些方法很大程度上忽略了图像内容的语义信息，相较于图像的颜色、像素大小等因素，图像的语义信息更能反映出图像的真实内容。还有的方法虽然使用了语义信息帮助分析图像的含义，但是语义信息来源于手动添加的标签和描述文本等附加信息。这些附加信息在许多场景下都是缺失的或者不可靠的。例如发布在社交媒体上的图片，经常会出现一段文字配多张图片或者图文无关的情况。此时若仍然采用附加信息作为图片的语义描述信息，显然是荒谬的。相较之下，由图片本身根据嵌入的内容提取得到的语义信息更为可靠。

因此，设计开发一个运用自动图像描述技术的大型图像集可视化系统来帮助用户多尺度地理解和分析图像集特征是十分必要的。

发明内容

本发明提供了一种大型图像集的语义信息提取和可视化方法，可以在不同尺度下快速理解大规模图像集合的语义信息，挖掘出图像集合中的主题和分布，便于分析和处理。

一种大型图像集的语义信息提取和可视化方法，包括以下步骤：

(1)获取数据，数据中的属性包括图像的标识ID，图像的像素值，图像集合使用I表示；

(2)步骤(1)中的每张图像进行处理，获得描述图像内容的句子形式的语言描述；

(3)通过词干提取处理步骤(2)获得的语言描述，得到所有描述图像集合的关键词集合W；

(4)提取出步骤(2)处理过程中的中间数据，所述中间数据包括图像的向量形式表征V_I和单词(句子形式中的单词)的向量形式表征V_W；

(5)对图像集合I和关键词集合W分别进行投影，得到图像集合I在二维图像空间上的坐标P_I和关键词集合W在二维语义空间上的坐标P_W；

(6)获得图像集合I中的局部语义结构，获取步骤包括：

6-1图像集合I和关键词集合W之间进行双向绑定；

6-2根据步骤6-1的双向绑定结果在二维图像空间中嵌入关键词集合W；

通过在图像投影空间中嵌入关键词并获得图像的局部语义结构来产生初步的布局结果。图像的局部语义结构指的是一组具有相似视觉和语义特征的图像集合。过程包括：构建图像与关键词的双向绑定；关键词嵌入到图像投影空间；提取树结构表征图像的局部语义结构。

6-3提取步骤6-2得到的图像的局部语义结构；

(7)在二维语义空间中对图像进行重构，获得最终的共同投影结果，获取步骤包括：

7-1根据步骤(6)获得的局部语义结构，通过关键词对图像进行重构；

7-2根据关键词之间的关系对关键词进行重构；

(8)将步骤(7)得到的数据进行可视化。

所述词干提取是一种自然语言处理技术，是一个去除词缀获取词根的过程，可对一个单词的不同形态进行归并，做到词形规范化。例如，英语单词根据时态存在不同形式，运用词干提取技术可归并各种时态，减少冗余的单词。

优选的，步骤(2)中每张图像通过NIC处理获得描述图像内容的句子形式的语言描述。NIC是现有技术的自动图像说明技术，使用了深度学习模型，采用了编码器-解码器的神经网络结构，与过去的方法相比在语言描述的准确性上有着显著的提升。

优选的，步骤(5)中，使用t-SNE算法对图像集合I和关键词集合W分别进行投影。具体步骤为用C代表图像的句子形式的语言描述，且W由C拆分得到，d(I_j,I_k)代表图像之间的距离，d(W_j,W_k)代表关键词之间的距离，根据以前图像处理方法的先例，使用欧式距离(Euclidean distance)计算d(I_j,I_k)。对于d(W_j,W_k)，由于词向量计算中使用了余弦距离(Cosine distance)，也同样使用余弦距离计算词与词的距离关系。

为了更好地展示数据，得到图像与关键词的双向关系，通过这个关系，对于每张图像可以找到相关的关键词，对于每个关键词也可以找到相关的图像，优选的，步骤6-1中图像集合I和关键词集合W之间进行双向绑定的具体步骤如下：

6-1-1定义Simi(W_i,I_j)来描述任一图像与任一关键词之间的相似性度量:

其中C_j表示I_j的语义描述语句，W_k为C_j内的词，以图像的语义描述语句中的词与关键词的关系来代表图像与关键词的关系；

6-1-2对于任一关键词W_i，定义相关的图像集合为：

其中MiniSimi是最小相似度的阈值；

最简单地，选取MiniSimi＝1.0，这意味着中只包含语义描述语句中含有关键词W_i的相应图像。

6-1-3对于任一图像I_j，定义相关的关键词集合为：

其中为总的关键词集合；

6-1-4使用和来代表相互关联的图像和关键词，建立了图像与关键词的多对多关系。

优选的，步骤6-2中，在二维图像空间中嵌入关键词集合W的具体步骤为：根据步骤6-1-4得多对多关系，将每个关键词嵌入到尽可能靠近相关图像的地方，得到图像与关键词相嵌布局的初步结果，将关键词W_i嵌入二维图像空间的过程被描述为使得关键词W_i到相关图像加权距离和最小的过程，用公式表达如下：

其中P表示二维图像空间中的任意位置。问题的解决过程类似于寻找一组点的几何中值，可以通过梯度下降算法(Gradient descent)找到近似解。但是求解的结果可能导致中的一些图像远离W_i。于是根据阈值MaxDist，从中迭代地去除这些图像并重新计算W_i的位置得到最终的优化位置。

优选的，步骤6-3中提取图像的局部语义结构：在上述过程中已经简化了图像与关键词的关系，然而，若是保持图像与多个关键词之间的关系，会使相似的图像被分到不同的组，这是不希望看到的。有必要找到与每一张图像关系最为密切的代表关键词。为了描述代表关键词的寻找规则，的具体步骤为：构造对值(S_i,D_i)，其中Si＝Simi(W_i,I_j)，D_i＝||W_i–I_j||。也就是说代表关键词的选取与词与图像间的相似度和距离有关。S_i越大，D_i越小的关键词被选取为代表关键词，作为图像的父节点。

步骤(7)中，根据关键词的关系重构图像布局，确定关键词在树结构中的父子关系，重构过程中，根据树结构，图像的位置保持与关键词父节点的相对位置不变，关键词的位置保持与父关键词(如存在)的相对位置不变，若不存在父关键词，则关键词的位置为最初词向量投影结果的位置，下面简要介绍关键词在树结构中的父子关系如何确定：

首先，通过以下方式计算关键词的频率：

两个关键词同时出现的频率为：

然后，定义关键词W_i相对于关键词W_j的置信度为：

根据置信度，定义允许作为W_i父节点的W_j满足：

CF_ij＞max(CF_ji,MinConf)

其中MinConf为最小置信度阈值。对于一个关键词W_i，可能存在多个满足条件的关键词W_j，这些关键词构成W_i的父节点候选集合。为了描述该集合中最终父节点关键词的寻找规则，构造对值(CF_ji,||W_j-W_i||)，也就是说最终父节点关键词的选取与词与词之间的置信度和距离有关。CF_ji越小，||W_j-W_i||越小的词被选取为关键词的父节点。

优选的，步骤(8)中，采用星系隐喻的散点图进行可视化。根据需求分析的讨论，并受到星系隐喻的启发，为系统设计了三部分模块视图实现功能需求。主视图为星系隐喻的散点图，利用可视化布局算法得到的计算结果，率先展示图像和关键词的投影概览，并承担进一步探索子集合的缩放交互。主视图在默认情况下(粗粒度)显示的是(7)中得到的所有作为根节点的关键词。用户可以根据感兴趣的点在主视图中进行更进一步的缩放操作，查看在(7)中作为子节点(细粒度)的关键词。右上角为展示单张图像及其语义描述的图像浏览窗，配合另外两个模块视图展现指定图像的细节。左侧边栏为控制台，承担语义搜索、语义结构展示、布局重构等交互功能。

通过本发明方法，可以完成大型图像集数据探索，分析任务，包括但不局限于：

揭示图像数据集中的语义内容：分析师可以借助此系统完成对图像数据集包含的主要内容和关注主题进行总结和概括。过去的图像可视分析技术在提取出图像的视觉特征(色彩，纹理等)的基础上使用了多种多样的可视化形式，包括散点图、树图和点线图等方法对一个图像数据集合进行可视化，概括性地总结了图像数据集中的主要内容。然而，图像的视觉特征和所表达的语义信息并不一致，比如不同动物之间的图像在语义表达上是相似的，在视觉上却有着很大的区别。因此，已有的技术不能很好地解决概括图像数据集的语义内容的问题。一部分技术通过使用已有的元信息，如用户对图像打上的标签等语义信息，加强了概括的准确性。但是，这些元信息往往需要人工标注，有着难以获取和不可靠的缺陷，无法被广泛地应用。本发明是一种具有普适性的可视分析方法，通过机器学习方法自动地提取出图像的语义信息，并提出了一个共同嵌入模型，构造出了一个基于语义信息的图像布局，使得语义内容相近的图像彼此靠近，成功地帮助用户对图像数据集进行语义上的概括。

2、搜索目标图像：分析师可以借助系统提供的查询机制，结合所提供的关键词和相关图像的语义信息，查找语义相近的目标图像。过去的图像可视分析系统只提供了简单的基于关键词的搜索。本发明使用了图像的文字描述和词嵌入(word2vec)模型，将图像和关键词放在同一框架下，提出了更灵活的关键词+图像的查询机制。用户可以通过指定关键词、相关图像和包含与否完成查询，比如在选择了一张鲜花的图像并指定一关键词“红色”为不包含的情况下可以查询得到非红色鲜花的图像。

3、基于语义内容层次性地浏览大规模图像数据：如前面所述，本发明创新性地揭示了图像数据集中的语义内容。由于图像数据往往具有大规模的特点，本发明还根据图像的语义内容构建出了图像间的层次关系，分析师可以依照图像的语义层次性有序地浏览图像，方便了对于缺乏定性描述的目标图像的寻找。

4、动态调整图像之间的语义关系：过去的图像可视分析系统提供的布局往往是固定的，缺乏灵活性。本发明提供了可重构的可视化布局，分析师可以根据自己的领域知识动态调整图像间的语义联系以改变可视化布局，更准确地完成以上三个任务。

本发明的有益效果：

本发明的基于图像语义的大型图像集可视分析方法，适用于大规模图像数据的探索，支持图像语义信息的提取和可视化，并加入视觉信息，构建基于视觉和语义的共同嵌入模型，可以应用到图像集合的概括，浏览和搜索。

附图说明

图1是本发明的基于图像语义的大型图像集可视分析方法的流程图。

图2为本发明的基于图像语义的大型图像集可视分析方法所要处理的照片。

图3为本发明的基于图像语义的大型图像集可视分析方法的主视图。

图4为本发明的基于图像语义的大型图像集可视分析方法的交互产生的环绕缩略图。

图5为本发明的基于图像语义的大型图像集可视分析方法的环绕缩略图上的交互视图。

图6为本发明的基于图像语义的大型图像集可视分析方法的图像浏览窗视图。

图7为本发明的基于图像语义的大型图像集可视分析方法的控制台查询视图。

图8为本发明的基于图像语义的大型图像集可视分析方法的控制台重构操作视图。

具体实施方式

如图1所示，本实施例的基于图像语义的大型图像集可视分析方法，包括如下步骤:

步骤一、需求分析；

对于辅助大型图像集语义分析的可视化系统而言，具体的分析任务随着不同的应用领域表现出多样性。对于同一个社交网络中的图像集，个人用户可能想要分析图像集找到有趣的旅游景观，而社会分析师则对不同图像内容的传播影响更为好奇。所以在系统中必须加入个性化交互功能，以便为用户提供更好的使用体验。另一方面，由于图像量大、信息复杂的共同特点，大多数分析任务对于如何展现图像和语义特点、如何提供辅助分析的交互都有着共同要求。经过一定的调查分析，总结系统需求如下。

(1)图像及语义概览：图像及其语义信息的总结概览对于处理大量的图像数据来说至关重要。在分析的初始阶段，分析目标可能是模糊的。尤其是对于大型数据集，若是不提供有意义的概览，很难找到分析研究入口，无法开展进一步的分析工作。系统需要率先给出图像根据语义相似性产生的聚集概览，以及必要的关键词标注，以便分析人员可以快速地对整个图像集的语义特征有直观的印象。并且借助图像及语义概览中产生的图像和关键词聚集，引导进一步的分析探索。

(b)图像及语义的多层次探索：对于数据量庞大的图像集而言，概览只能展示单张图像在图像集整体中的分布信息，无法有更多的空间展示图像细节信息。故而系统需要提供从图像集的整体概览逐步平滑地过渡到图像细节信息的展示的交互方法，并尽可能保证交互的平滑自然。语义关键词也有类似的需求，针对不同的分析层次，关键词应该随之变化以适应当前的分析尺度。

(c)灵活的查询定位：同样由于需要分析展现的数据量庞大，系统有必要提供图像及关键词的查询定位工具。在不少的应用场景下，分析人员很可能会需要通过图像查询来评估其分析假设。如有可能，希望系统的查询机制是足够灵活的，包括查询定位关键词、由语义或相关图像查询目标图像等等。

(d)自定义的布局重构：不同应用场景下用户对图像语义布局的需求很可能是不同的，完全依靠模型计算得到的语义布局很可能违背用户的语义理解，给分析工作带来阻碍。所以系统有必要提供布局重构接口，允许用户自定义地进行布局重构。不仅能弥补计算模型的不足，更能给分析过程加入个性化元素，以保证最后得到的布局符合分析师希望传达的分析结果。

(e)直观的视觉隐喻：直观的视觉隐喻是可视化之所以能大力辅佐数据分析的原因之一。系统需要提供隐喻的可视化手段使得用户能迅速理解图像与语义关键词之间的关系，以及它们聚集的含义。同时，还应保证分析人员能轻易地在不同分析视角(图像和关键词)之间转移切换，并能通过该系统在团队合作中流畅地传达和验证他们的分析结果。

步骤二、提取图像的语义信息；

在NIC模型的基础上，图像语义提取器可以将大量图像转换为语义描述语句，将这些语义描述语句拆分成词，经过去除同义词等筛选操作后得到语义关键词，例如对如图2所示的照片进行提取图像的语义信息。

步骤三、图像与关键词的相嵌；

使用t-SNE算法对图像集合I和关键词集合W分别进行投影，得到图像集合I在二维图像空间上的坐标P_I和关键词集合W在二维语义空间上的坐标P_W；在此之前，先利用t-SNE投影方法将图向量和词向量分别投影。以I代表图像，W代表关键词，C代表图像的语义描述语句，且W由C拆分得到。d(I_j,I_k)代表图像之间的距离，d(W_j,W_k)代表关键词之间的距离。根据以前图像处理方法的先例，使用欧式距离(Euclidean distance)计算d(I_j,I_k)。对于d(W_j,W_k)，由于词向量计算中使用了余弦距离(Cosine distance)，也同样使用余弦距离计算词与词的距离关系。

获得图像集合中的局部语义结构，处理步骤依次为(a)图像和关键词之间的双向绑定；(b)在图像的二维空间中嵌入关键词；(c)提取图像的局部语义结构：通过在图像投影空间中嵌入关键词并获得图像的局部语义结构来产生初步的布局结果。图像的局部语义结构指的是，一组具有相似视觉和语义特征的图像集合。首先，构建图像与关键词的双向绑定。然后，将关键词嵌入到图像投影空间中。最后，提取树结构表征图像的局部语义结构。

图像与关键词的双向绑定：希望先得到图像与关键词的双向关系，通过这个关系，对于每张图像可以找到相关的词，对于每个词也可以找到相关的图像。为了描述这种图像与词之间的相似性度量，定义Simi(W_i,I_j):

其中C_j表示I_j的语义描述语句，W_k为C_j内的词。以图像的语义描述语句中的词与关键词的关系来代表图像与关键词的关系。对于某个关键词W_i，定义与其相关的图像集合为：

其中MiniSimi是最小相似度的阈值。最简单地，选取MiniSimi＝1.0，这意味着中只包含语义描述语句中含有关键词W_i的相应图像。MiniSimi值越小，中包含的图像数量就会越多。相似地，对于某张图像I_j，定义与其相关的关键词集合为：

其中为总的关键词集合。由此使用和来代表相互关联的图像和关键词，建立了图像与关键词的多对多关系。

图像投影中嵌入关键词：在得到图像与关键词的多对多关系之后，将每个关键词嵌入到尽可能靠近相关图像的地方，得到图像-关键词相嵌布局的初步结果。将关键词W_i以位置P嵌入图像投影空间的过程可以被描述为，使得关键词W_i到相关图像加权距离和最小的过程，用公式表达如下：

其中P表示二维空间中的任意位置。问题的解决过程类似于寻找一组点的几何中值，可以通过梯度下降算法(Gradient descent)找到近似解。但是求解的结果可能导致中的一些图像远离W_i。于是根据阈值MaxDist，从中迭代地去除这些图像并重新计算W_i的位置得到最终的优化位置。在实施过程中MaxDist的值需要人为地根据多次的图像投影结果进行调整。

提取图像的局部语义结构：在上述过程中已经简化了图像与关键词的关系，然而，若是保持图像与多个关键词之间的关系，会使相似的图像被分到不同的组，这是不希望看到的。有必要找到与每一张图像关系最为密切的代表关键词。为了描述代表关键词的寻找规则，构造对值(S_i,D_i)，其中S_i＝Simi(W_i,I_j)，D_i＝||W_i–I_j||。也就是说代表关键词的选取与词与图像间的相似度和距离有关。S_i越大，D_i越小的关键词被选取为代表关键词，作为图像的父节点

在语义空间中对图像进行重构，获得最终的共同投影结果，处理步骤依次为(a)通过关键词对图像进行重构(b)根据关键词之间的关系对部分关键词进行重构；该步骤根据关键词的关系重构图像布局。

(a)通过关键词对图像进行重构：该步骤确定关键词在树结构中的父子关系。重构过程中，根据树结构，图像的位置保持与关键词父节点的相对位置不变，关键词的位置保持与父关键词(如存在)的相对位置不变，若不存在父关键词，则关键词的位置为最初词向量投影结果的位置。下面简要介绍关键词在树结构中的父子关系如何确定。

(b)根据关键词之间的关系对部分关键词进行重构:首先，通过以下方式计算关键词的频率：

两个关键词同时出现的频率为：

然后，定义关键词W_i相对于关键词W_j的置信度为：

根据置信度，定义允许作为W_i父节点的W_j满足：

CF_ij＞max(CF_ji,MinConf)

其中MinConf为最小置信度阈值。对于一个关键词W_i，可能存在多个满足条件的关键词W_j，这些关键词构成W_i的父节点候选集合。为了描述该集合中最终父节点关键词的寻找规则，构造对值(CF_ji,||W_j-W_i||)，也就是说最终父节点关键词的选取与词与词之间的置信度和距离有关。CF_ji越小，||W_j-W_i||越小的词被选取为关键词的父节点。MinConf的值会影响作为根的父节点关键词的选取，也需要根据实际的投影效果而进行适当的人为调整。

步骤四、将所获得的数据转化为可视化；

可视化图像包括多尺度的可视化视图，包括星系隐喻的散点图，图像浏览窗视图和控制台视图，根据需求分析的讨论，并受到星系隐喻的启发，为系统设计了三部分模块视图实现功能需求。主视图为星系隐喻的散点图，如图3所示，利用可视化布局算法得到的计算结果，率先展示图像和关键词的投影概览，并承担进一步探索子集合的缩放交互。主视图在默认情况下(粗粒度)显示的是在语义空间重构图像步骤(b)中得到的所有作为根节点的关键词。用户可以根据感兴趣的点在主视图中进行更进一步的缩放操作，查看在语义空间重构图像步骤(b)中作为子节点(细粒度)的关键词。右上角为展示单张图像及其语义描述的图像浏览窗，如图6所示，配合另外两个模块视图展现指定图像的细节。左侧边栏为控制台，如图7和图8所示，承担语义搜索、语义结构展示、布局重构等交互功能。

星系投影主视图：主视图，如图3所示，采用星系隐喻的表达来展示图像和语义关键词的投影。采用了星系隐喻使得可视化视图更具有直观性和天然的层次化分析特性。由于该视图呈现了布局算法的主体，同时也是语义引导分析的关键视图，故而该视图默认占据屏幕的主体部分。前文已经有过讨论，根据图像之间的相似性和图像与关键词的语义相关性来组织大型图像集是十分必要的。投影是一种简明直观的展现相似性的方法，基于数据量较为庞大，以散点图的方式进行可视化更为合理。散点图被视为基本的可视化工具，它能在二维平面中以距离方式高效地呈现两个定量值之间的相似性。因此，使用散点图将图像和关键词同时呈现在一个二维平面中。

利用示例图像集得到了初步的散点图投影，由于散点众多且呈现出一定的聚集，且图像与其代表关键词之间存在附属关系，这些特征与星系十分相似。

还需要提供向下探索子集合的交互手段。最自然的，可以通过滚轮缩放的方式放大视图，以展现某个聚集更多关键词和更清晰的图像分布。此外，还有必要根据不同的关键词展现与其关系最密切的图像缩略，图4中的环绕缩略图，以此来初步验证关键词与图像的关系是否正确。受到太阳系中八颗行星环绕太阳的启发，能在此缩略图的展现上延续星系的隐喻，即以八张缩略图(如存在八张及以上相关图像)环绕关键词的方式展现该层级视图。鼠标悬停在相关的图像上时会显示出对应的语义信息，点击该图像可以在图像浏览窗中查看原始图像，如图5所示。

图像浏览窗视图：既然分析的对象是图像，就算图像集合再怎么庞大，展示每张图像细节可能不需要，但展示特定图像细节仍然是必要的。如图6所示，浏览窗视图的设计相对基本，展现原图像的同时在下方显示该图像由NIC模型得到的语义描述语句，即展现了该图像是以怎样的语义存在于布局模型中的。在展现一组图像时，浏览窗还提供前后翻页浏览按钮，以供用户快速在浏览窗中切换图像。

由于单张细节的展现只会在探索分析到特定图像时才被需要，且原图像的展现往往占据较大空间，所以图像浏览窗视图在大多数情况下都处于收起状态，只有当选择图像展现时才从主视图界面右上角展开，如图6所示。在满足分析需求的同时极大地较少了空间的浪费。

控制台视图：星系投影主视图和图像浏览窗视图为数据集的展现提供了良好支持。但是，根据需求分析，为了要完成查询、布局重构等功能，还不可避免地存在表单输入、列表选择等操作。所以设计位于左侧的控制台视图承担这部分功能。

对于查询机制，主要提供两种查询方式。一是关键词的定位查询，在搜索条内键入查询。二是针对图像的语义查询，可以添加关键词和相关图像，查找符合语义筛选条件的相关图像。如图7所示，用户可以输入特定的语义概念，并在每个单词旁的操作栏中选择查询模式。单词旁的加号表示查询图像中需要包含的概念。双击该符号可以切换查询状态，由加号变成减号，表示查询的图像中不需要包含的概念。此外，用户还可以根据已有的图像和语义查询相结合进行图像查询。图像查询会根据与所选图像在语义上的相近性返回查询结果。

为了支持布局重构，允许用户调整语义结构树，并将调整后的树作为输入重构主视图布局。语义结构树的调整包括关键词或图像的父节点调整。如图8所示，用户在该视图中提供父节点选择/删除操作，然后可以点击“开始”按钮进行布局重构。由于这两个视图在未选择某图像/关键词时是无意义的，所以只有当选择特定图像/关键词时才会激活展现，其它时间都处于隐藏状态。

Claims

1.一种大型图像集的语义信息提取和可视化方法，其特征在于，包括以下步骤：

(4)提取出步骤(2)处理过程中的中间数据，所述中间数据包括图像的向量形式表征V_I和单词的向量形式表征V_W；

(6)获得图像集合I中的局部语义结构，获取步骤包括：

6-1图像集合I和关键词集合W之间进行双向绑定；

6-3提取步骤6-2得到的图像的局部语义结构；

7-2根据关键词之间的关系对关键词进行重构；

(8)将步骤(7)得到的数据进行可视化。

2.如权利要求1所述的大型图像集的语义信息提取和可视化方法，其特征在于，步骤(2)中每张图像通过NIC处理获得描述图像内容的句子形式的语言描述。

3.如权利要求1所述的大型图像集的语义信息提取和可视化方法，其特征在于，步骤(5)中，使用t-SNE算法对图像集合I和关键词集合W分别进行投影。

4.如权利要求1所述的大型图像集的语义信息提取和可视化方法，其特征在于，步骤6-1中图像集合I和关键词集合W之间进行双向绑定的具体步骤如下：

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mi>i</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>I</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <msub> <mi>W</mi> <mi>k</mi> </msub> <mo>&Element;</mo> <msub> <mi>C</mi> <mi>j</mi> </msub> </mrow> </munder> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>W</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow>

其中C_j表示I_j的语义描述语句，W_k为C_j内的词；

6-1-2对于任一关键词W_i，定义相关的图像集合为：

其中MiniSimi是最小相似度的阈值；

6-1-3对于任一图像I_j，定义相关的关键词集合为：

其中为总的关键词集合；

5.如权利要求4所述的大型图像集的语义信息提取和可视化方法，其特征在于，步骤6-2中，在二维图像空间中嵌入关键词集合W的具体步骤为：根据步骤6-1-4得多对多关系，将每个关键词嵌入到尽可能靠近相关图像的地方，将关键词W_i嵌入二维图像空间的过程被描述为使得关键词W_i到相关图像加权距离和最小的过程，用公式表达如下：

其中P表示二维图像空间中的任意位置。

6.如权利要求5所述的大型图像集的语义信息提取和可视化方法，其特征在于，步骤6-3中提取图像的局部语义结构的具体步骤为：构造对值(S_i,D_i)，其中S_i＝Simi(W_i,I_j)，D_i＝||W_i–I_j||。

7.如权利要求1所述的大型图像集的语义信息提取和可视化方法，其特征在于，步骤(8)中，采用星系隐喻的散点图进行可视化。