CN101894170B

CN101894170B - 基于语义关联网络的跨模信息检索方法

Info

Publication number: CN101894170B
Application number: CN2010102529350A
Authority: CN
Inventors: 曾承
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2010-08-13
Filing date: 2010-08-13
Publication date: 2011-12-28
Anticipated expiration: 2030-08-13
Also published as: CN101894170A

Abstract

本发明涉及信息检索技术领域，尤其涉及一种基于语义关联网络的跨模信息检索方法。本发明通过网页视觉空间分析、多媒体搜索引擎标注关系分析、DeepWeb接口模式分析、复合媒体中不同模态数据的关联分析、用户直接或潜在反馈信息的利用，以及关联推理等六个渠道获取跨模关联知识，并构建跨模关联网络；利用获取的跨模关联知识，通过层次化模糊聚类，获得不同粒度的具有相同语义的多模数据集合；从每个SC中选择出不同模态的典型向量，并构建对应的语义向量包，最后在这三者之间建立映射关系。本发明能降低每种渠道可能存在的误差，有效提高检索准确性；能够支持由用户定义不同粒度语义的跨模检索，能够支持多种模态的数据文件同时作为样例进行检索。

Description

基于语义关联网络的跨模信息检索方法

技术领域

本发明涉及信息检索技术领域，尤其涉及一种基于语义关联网络的跨模信息检索方法。

背景技术

据广电网09年统计，全国主流网站每日更新的文字、图片及视频量大概是310GB/天。《福布斯》报道，人类5000年的文字记载总量是5 EB，而仅09年，全球产生的数字内容就超过了450 EB，其中多媒体数据占据了相当大的比例。“信息爆炸”愈演愈烈，Facebook、Twitter、微博客等应用促使新生信息指数扩张，而当前的互联网仍然无法应对信息过度膨胀与信息精确定位之间的矛盾，尤其是对于多媒体信息，即使是谷歌、百度，以及微软必应等搜索引擎也难以获得满意的检索效果。Outsell公司最新调查显示，全世界平均每人每周要花费9.5小时用于信息检索，其原因是基于关键字的主流检索方式难以有效表达用户检索需求，而返回结果的挑选也相当耗时。

近几年，基于多媒体样例相似性的搜素技术得到了长足发展，甚至出现了商业化产品，如提供商品图片相似搜索的Like，支持提交图片、视频帧，甚至手画图进行检索的GazoPa，以及微软即将发布的基于图片的地理位置搜索Photo2Search等。这些搜索引擎主要是利用颜色、纹理、形状等底层物理特征进行匹配，其视觉感受将远高于传统关键字搜索引擎，但在语义匹配度方面并未改善。因此，语义搜索技术也同时受到广泛关注，如微软的IGroup提供结果语义分类，Hakia能同时显示某一主题的图片、视频、文本介绍、文本新闻等，以及支持自然语言检索，并整合了语义网、语义分类等技术的 Zoom。然而，目前的语义搜索引擎仍然基于关键字，其语义处理过程大多是利用WordNet或本体等，进行概念推理或比较。

人们在日常交往过程中，往往是以多模形式进行信息互递。同时采用视觉、听觉，以及文本等形式表达自己的语义，必然能使对方更快、更准确的理解自己。在人机交互过程中，这种规律也同样存在。跨模检索技术就是力求最大限度地获取不同模态媒体之间的关联性、协同性和互补性，使得多种媒体信息的识别、检索和利用更加充分且有效，并使媒体信息的发现重构、共生新用成为可能，从而达到各种模态媒体信息的融合，共存于一体，使得用户能够更为及时、准确、低成本、多感官的获取所需信息。

发明内容

针对上述存在的技术问题，本发明的目的是提供一种基于语义关联网络的跨模信息检索方法，实现高效跨模检索。

为达到上述目的，本发明采用如下的技术方案：

通过网页视觉空间分析、多媒体搜索引擎标注关系分析、DeepWeb接口模式分析、复合媒体中不同模态数据的关联分析、用户直接或潜在反馈信息的利用，以及关联推理等六个渠道获取跨模信息单元的语义关联知识；

基于以上不同渠道获取的关联知识，进行加权整合，构建统一的跨模语义关联网络；

针对跨模语义关联网络，实施分层模糊聚类；

对每个聚类，寻找其中所有信息单元的典型特征向量，作为该聚类的代表；

对系统中所有信息单元对应的特征向量，建立散列索引；

在每个信息单元，对应特征向量、聚类的典型特征向量、聚类序号之间建立映射关系。

所述网页视觉空间分析包括以下步骤：

将页面划分成不同粒度、具有视觉层次包含关系的若干块；

将以上分析出的块转换成视觉关系树；

利用视觉关系树计算各种模态信息单元之间的语义关联。

所述多媒体搜索引擎标注关系分析包括以下步骤：

针对某个多媒体搜索引擎，采用以下公式计算搜索关键字(或关键字集合)和第v条结果的标注概念集合的语义相似性：

其中，

上式中K_u、T_v分别表示搜索概念集合和第v条结果的标注概念集合；

是一个修正常量，用于防止两个集合的交集

为空；KM为Kuhn-Munkres算法，表示从搜索关键字和结果标签中分别选择一个概念，并通过WordNet或者其他本体计算它们的语义相似性；

构建多媒体元搜索引擎，定义一个语义空间来衡量所有结果之间的关联大小，其中横坐标为每条结果标注与检索条件的关联度大小，即

，纵坐标为搜索引擎排序值。

所述DeepWeb接口模式分析包括以下步骤：

基于同类网页叠加，定位网页中DeepWeb数据区域；

识别后台数据库的数据模式；

利用该表的横轴模式信息，实现不同属性、不同模态数据之间的相互解释；

利用该表的纵轴模式信息，计算不同元组之间的语义关联大小。

所述复合媒体中不同模态数据的关联分析包括以下步骤：

时序媒体的单元分割；

对于音视同步的复合媒体，若分离后不同模态的信息单元仍保持相同时序依赖性，则定义它们的关联值为1，而分割后同模态的各信息单元之间的关联计算公式为：

是一个表示语义关联退化的常量，x表示信息单元O _i和O _j之间的间隔。

所述用户直接或潜在反馈信息的利用包括以下步骤：

记录用户在浏览检索结果过程中涉及的各类操作；

基于相同检索需求的反馈信息将被叠加：

其中

表示信息单元O_i和O_j在相同检索中被施以相同操作的总次数，

代表每种操作的权重，但

的最大值仅能为1。

针对跨模语义关联网络采用分层模糊聚类方法包括以下步骤：

选择每个节点（信息单元）

与它的K个最近邻集合，并计算到

中每个点的距离的平均值

。则

的K近邻的相对密度为：

当节点

满足条件

时，被视为核心节点，而对应的核心节点集合为，其中O是所有核心结点的列表，

是所有聚类的初始状态；

中所有节点的K近邻节点也将被考虑，若满足上述条件，也将被扩展进该聚类中；

以此类推，可以发现核心节点仅能属于一个类，而其他节点可以属于多个类，从而实现模糊化；

最高粒度的聚类结果将被逐层合并，其依据是不同类

和

之间的相似性计算，如下式：

对于每个粒度级别，定义对应的阀值

，并将满足该约束的两个类合并成一个类：

。

本发明具有以下优点和积极效果：

1）不同模态数据之间异质异构，仅能在语义层获取关联，而语义鸿沟又难以逾越，通过多个渠道直接或间接获取跨模语义关联知识，能实现跨模检索功能，并能降低每种渠道可能存在的误差，有效提高检索准确性；

2）能够支持由用户定义不同粒度语义的跨模检索；

3）能够支持多种模态的数据文件同时作为样例进行检索；

4）合理的散列索引，使得跨模检索速度很快。

附图说明

图1是本发明中跨模语义关联挖掘示意图。

图2是本发明中基于网页视觉空间关系的跨模语义关联挖掘示意图。

图3是本发明中层次化模糊聚类示例图。

图4是本发明中基于跨模关联聚类的信息单元索引原理图。

具体实施方式

本发明提出了一种基于语义关联网络的跨模信息检索方法，该方法的原理为：

传统多媒体搜索引擎主要采用特征向量化及向量散列技术构建索引，然后基于向量匹配原理实现检索。但在跨模检索领域，不同模态数据的结构、特征差异较大，导致特征向量的维数迥异。尽管可以通过降维技术使得各种模态对应的向量维数相同，但每一维以及整个特征空间的含义仍然不同，直接进行向量匹配没有意义。因此，为了实现跨模索引，本专利利用之前获取的跨模关联知识，通过层次化模糊聚类，获得不同粒度的具有相同语义的多模数据集合，称为语义簇（Semantic Cluster, SC）；然后，从每个SC中抽取不同模态的典型向量（Typical Vector, TV），并构建对应的语义向量包（Semantic Vector Bunch，SVB），最后在这三者之间建立映射关系。通过在信息单元特征向量上建立散列索引，可以根据搜索样例，定位到对应的SVB，从而获得语义相关的其他模态的向量（如图4）。此时，可以利用层次化模糊聚类的特点，即克服语义鸿沟导致的底层特征相同，但语义不同的情况（通过模糊性使得一个特征向量可属于多个SC）；以及灵活的结果范围动态选择机制（通过层次选择），粒度高时查准率提高，但查全率相对降低，粒度低时查全率提高，但准确率相对下降。

本发明主要包括基于语义的跨模检索方法的步骤、六种跨模语义关联挖掘的步骤（如图1），以及针对跨模语义关联网络进行分层模糊聚类的步骤。

图1显示了跨模语义关联挖掘的示意图，其中基于元搜索引擎的标注关系分析、基于网页的视觉空间关系分析、DeepWeb接口模式解析均是从互联网直接挖掘跨模关联知识；而复合媒体分析则是为了降低语义关联的复杂性，提高准确性，对跨模关联网络中的信息单元进行进一步处理和分解；用户反馈和关联推理用于对跨模关联网络进行修正和扩展。

1、基于语义的跨模检索方法，包括以下步骤：

步骤1：通过网页视觉空间分析、多媒体搜索引擎标注关系分析、DeepWeb接口模式分析、复合媒体中不同模态数据的关联分析、用户直接或潜在反馈信息的利用，以及关联推理等六个渠道获取跨模信息单元的语义关联知识；

该步骤实际上是利用不同渠道获取跨模语义关联知识，每个渠道均可形成一个跨模语义关联子网，网络中每个结点为某种模态的信息单元，而结点与结点之间的边则表示它们的关联大小。

步骤2：基于以上不同渠道获取的关联知识，进行加权整合（根据需求，甚至可以忽略某些渠道的关联知识），构建统一的跨模语义关联网络；

由于不同关联子网中存在相同信息单元，因此可以对这些子网进行整合，相同结点直接重叠，而相同结点之间的边进行加权求和。

步骤3：针对跨模语义关联网络，实施分层模糊聚类；

聚类后的每个类称为一个语义类，代表具有相似语义的不同模态的信息单元，粒度越细的类，其中包含的信息单元语义相似性越强。由于一个信息单元可能包含若干语义，往往属于多个语义类，因此在每个粒度层采用模糊聚类更为恰当。

步骤4：对每个聚类，寻找其中所有信息单元的典型特征向量，作为该聚类的代表；

每个聚类中存在大量相似特征向量的信息单元，它们在后期检索运算中将会浪费大量计算时间，因此从一群相似特征向量中寻找一个代表，能够提高后期检索的速度。

步骤5：对系统中所有信息单元对应的特征向量，建立散列索引；

散列索引的作用是，当提交检索样例后，能够通过特征向量散列，快速定位到跨模语义关联网中的某个信息单元，从而进入该网络，为后期利用跨模关联知识奠定基础。

步骤6：在每个信息单元、对应特征向量、聚类的典型特征向量、聚类序号之间建立映射关系；

在这四者之间建立映射关系的作用是，当检索样例定位到跨模语义关联网中的某个信息单元时，能够以典型特征向量为桥梁，快速确定其所属的语义类，从而确定检索样例可能涉及的语义。

基于以上步骤，用户可提交单个或多个媒体样例作为搜索条件，系统分别抽取其特征向量后，利用向量散列索引定位到相似的信息单元特征向量，并映射到对应的典型特征向量集合，通过不同样例对应典型特征向量集合之间的交集运算，从而确定满足当前搜索条件的语义类，最终返回这些类中的信息单元即完成检索。用户可通过选择语义类的粒度，来实现查准率和查全率之间的调整。

2、网页视觉空间分析方法的步骤是：

步骤1：将页面划分成不同粒度、具有视觉层次包含关系的若干块(block)；

该步骤通过对网页标签（如<table>、<tr>、<div>等）及其位置属性（如height、width、margin、position等）进行分析，计算各区域之间的包含与被包含关系，并映射成块(block)。

步骤2：将以上分析出的块转换成视觉关系树；

图2显示了一个网页转换成视觉关系树的示意图，该步骤利用了步骤1中分析出的块之间的依赖关系，而实际信息单元或链接（如文本内容、图片或视频的URL等）将最终对应视觉关系树的叶节点；

步骤3：利用视觉关系树计算各种模态信息单元之间的语义关联，即通过叶节点之间的路径长度运算。定义任意两个兄弟节点之间关联值为1。由于语义泛化将损失语义，因此分析树的上行段和下行段被分别定义了不同的权值α 和β 。对于信息单元O_i 和 O_j ，能够采用以下公式计算其语义关联大小：

(1)

其中n和m分别表示上行段和下行段的数量。

Web页面为了便于用户浏览及体验，往往将主题语义相关的内容编排在视觉上相近的区域，这种由制作者手工编排的文件蕴含着大量潜在的信息关联知识。在当前的多媒体搜索引擎领域已广泛应用该特性，通过网页DOM树分析，利用环绕文字实现基于关键字的多媒体文件搜索。然而，目前很多网页并未严格遵守W3C的HTML标准设计，尽管视觉表现正常，但DOM树中可能将无联系的内容分到同一子树中，导致关联大小被错误计算。

而利用网页视觉显示通常较为准确的特点，基于视觉空间关系结构，而非代码级别的DOM树结构进行网页分析，获取的信息关联知识准确率更高。图2显示了一个利用网页视觉空间关系进行跨模关联挖掘的例子，其中若某个信息单元，如文本“冰雨”，存在超级链接，则被连接网页的根节点（图2中显示其代号为“57”）将视为“冰雨”的兄弟，即 R_v (“冰雨”, “57”) = 1，从而使得媒体对象的语义关联性可以跨网页计算。

3、基于关键字的商业多媒体搜索引擎中存在大量被标注的多媒体数据，基于多媒体搜索引擎标注关系分析获取跨模关联知识的步骤是：

步骤1：针对某个多媒体搜索引擎，采用以下公式计算搜索关键字(或关键字集合)和第v条结果的标注概念集合的语义相似性：

(2)

其中

上式中K_u、T_v分别表示搜索概念集合和第v条结果的标注概念集合，

是一个修正常量，用于防止两个集合的交集

为空。KM为经典的Kuhn-Munkres算法。

表示从搜索关键字和结果标签中分别选择一个概念，并通过WordNet或者其他本体计算它们的语义相似性：

(3)

其中

,

上式中

表示概念

和在WordNet中的最近公共父节点，而maxDist是它们的最远距离(即经过根节点)。APS(C)和

分别表示概念C的先验分数和子孙的总数。

和

分别对应概念的泛化和精化过程。

步骤2：构建多媒体元搜索引擎，定义一个语义空间来衡量所有结果之间的关联大小，其中横坐标为每条结果标注与检索条件的关联度大小，即

，纵坐标为搜索引擎排序值。则任意一个结果可映射为该空间中的一点，而任意两个结果之间的语义关联大小被转换为它们对应向量的夹角余弦值，如公式(4)：

（4）

其中

表示第i个对象的结果排序号。该步骤将Google.image、Yahoo!Video、YouTube等多媒体搜索引擎的接口进行整合，即通过单一检索条件输入，实现多个搜索引擎并行搜索，最终进行结果合并。在合并过程中，将综合考虑每条结果标注的上下文，以及该结果在原搜索引擎中的排序。从而，能够基于每次元搜索，挖掘不同模态结果之间的语义关联性。

4、DeepWeb接口模式解析获取跨模关联知识的步骤是：

步骤1：基于同类网页叠加，定位网页中DeepWeb数据区域；

该步骤对具有检索功能并涉及多媒体文件的站点（如电子商务网站），进行若干次模拟检索，基于之前的网页视觉空间分析技术，比对每次检索结果页面的变化区域和不变区域，将不变区域视为网站表层数据，如固有链接、广告等，而变化区域视为后台数据库中的数据。

步骤2：识别后台数据库的数据模式；

将变化区域中相对不变的文字部分，视为属性名称，从而解析出其后台数据库的近似数据结构，并视为单表，而服务器上可能以多表、甚至文件系统管理。

步骤3：利用该表的横轴模式信息，实现不同属性、不同模态数据之间的相互解释；

因为有些属性是图片或视频等多媒体数据的URL/指针/二进制流，而其他可能存在的属性如标题、注释等能用于解释多媒体数据，并彼此产生关联信息。

步骤4：利用该表的纵轴模式信息，采用公式（2）类似的算法，计算不同元组(即不同信息单元)之间的语义关联大小。

利用公式（2），计算不同元组可能存在的标题、注释等属性之间的相关性，从而获得这些元组中包含的多媒体数据之间的相关性。

5、复合媒体中不同模态数据的关联分析获取跨模关联知识的步骤是：

步骤1：时序媒体的单元分割；

对视频、音频，或者音视频整合的媒体文件，在时序轴上进行分割，将其划分成更小粒度的信息单元，这将利用到一些通用的视频镜头切换识别、基于场景的视/音频分割、关键帧提取、音视数据分离等技术；

步骤2：对于音视同步的复合媒体，若分离后不同模态的信息单元仍保持相同时序依赖性，则定义它们的关联值为1，而分割后同模态的各信息单元之间的关联计算公式为：

（5）

是一个表示语义关联退化的常量，x表示信息单元 O _i和 O _j之间的间隔。

6、根据用户直接或潜在反馈信息获取跨模关联知识的步骤是：

步骤1：记录用户在浏览检索结果过程中涉及的各类操作，如点击浏览、打印、下载等；

步骤2：基于相同检索需求的反馈信息将被叠加：

（6）

其中

表示信息单元 O_i和 O_j在相同检索中被施以相同操作的总次数，

代表每种操作的权重，但

的最大值仅能为1。

7、针对跨模语义关联网络采用分层模糊聚类方法的步骤是：

步骤1：选择每个节点（信息单元）

与它的K个最近邻集合

，并计算

到

中每个点的距离的平均值

。则的K近邻的相对密度为：

(7)

步骤2：当节点

满足条件

时，被视为核心节点，而对应的核心节点集合为

，其中O是所有核心结点的列表，

是所有聚类的初始状态；

步骤3：

步骤4：以此类推，可以发现核心节点仅能属于一个类，而其他节点可以属于多个类，从而实现模糊化。此时，最高粒度的模糊聚类计算完毕。

步骤5：最高粒度的聚类结果将被逐层合并，其依据是不同类

和之间的相似性计算，如下式：

（8）

步骤6：对于每个粒度级别，定义对应的阀值

，并将满足该约束的两个类合并成一个类：。在同一粒度下，合并生成的类之间可能存在交集。这就最终形成了一个不同粒度的层次化模糊聚类树（如图3）。

聚类后每个类即对应于一个包含各种模态信息单元特征向量的语义簇SC，它与典型向量TV，以及语义向量包SVB之间的关系如图4所示。

上述实例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明做出任何的修改和改变，都落入本发明的保护范围。

Claims

1.一种基于语义关联网络的跨模信息检索方法，其特征在于，包括以下步骤：

针对跨模语义关联网络，基于关联知识实施分层模糊聚类；

在每个类中，针对所有信息单元的特征向量进行二次聚类，选出典型特征向量，作为该类的代表；

对系统中所有信息单元对应的特征向量，建立散列索引；

2.根据权利要求1所述的基于语义关联网络的跨模信息检索方法，其特征在于，所述网页视觉空间分析包括以下步骤：

将页面划分成不同粒度、具有视觉层次包含关系的若干块；

将以上分析出的块转换成视觉关系树；

利用视觉关系树计算各种模态信息单元之间的语义关联。

3.根据权利要求1所述的基于语义关联网络的跨模信息检索方法，其特征在于，所述多媒体搜索引擎标注关系分析包括以下步骤：

针对某个多媒体搜索引擎，采用以下公式计算搜索关键字集合和第v条结果的标注概念集合的语义相似性：

Sim (K_{u} T_{v}) = \frac{\cap_{K_{u} T_{v}} + (KM + ψ) (\cup_{K_{u} T_{v}} - \cap_{K_{u} T_{v}})}{\cup_{K_{u} T_{v}}}

其中，KM＝KM＜Dist(C_s，C′_t)＞(C_s∈K_u，C′_t∈T_v)

上式中K_u、T_v分别表示搜索概念集合和第v条结果的标注概念集合；ψ是一个修正常量，用于防止两个集合的交集

为空；KM为Kuhn-Munkres算法，Dist(C_s，C′_t)表示从搜索关键字和结果标签中分别选择一个概念，并通过WordNet或者其他本体计算它们的语义相似性；

构建多媒体元搜索引擎，定义一个语义空间来衡量所有结果之间的关联大小，其中横坐标为每条结果标注与检索条件的关联度大小，即Sim(K_uT_v)，纵坐标为搜索引擎排序值。

4.根据权利要求1所述的基于语义关联网络的跨模信息检索方法，其特征在于，所述DeepWeb接口模式分析包括以下步骤：

基于同类网页叠加，定位网页中DeepWeb数据区域；

识别后台关系数据库的数据模式；

利用后台关系数据库的横轴模式信息，实现不同属性、不同模态数据之间的相互解释；

利用后台关系数据库的纵轴数据信息，计算不同元组之间的语义关联大小。

5.根据权利要求1所述的基于语义关联网络的跨模信息检索方法，其特征在于，所述复合媒体中不同模态数据的关联分析包括以下步骤：

时序媒体的单元分割；

R_{D} (O_{i}, O_{j}) = \{\begin{matrix} 1 & (x = 0) \\ 1 / \sqrt{x + 1 - ϵ} & (x &GreaterEqual; 1) \end{matrix}

ε是一个表示语义关联退化的常量，x表示信息单元O_i和O_j之间的间隔。

6.根据权利要求1所述的基于语义关联网络的跨模信息检索方法，其特征在于，所述用户直接或潜在反馈信息的利用，计算对象O_i和O_j之间的关联性大小R_F(O_i，O_j)，包括以下步骤：

记录用户在浏览检索结果过程中涉及的各类操作；

基于相同检索需求的反馈信息将被叠加：

R_F(O_i，O_j)＝log₃(∑(θ·η)+2)*R_F(O_i，O_j)(η＞0)

其中η表示信息单元O_i和O_j在相同检索中被施以相同操作的总次数，θ代表每种操作的权重，但R_F(O_i，O_j)的最大值仅能为1。

7.根据权利要求1所述的基于语义关联网络的跨模信息检索方法，其特征在于，针对跨模语义关联网络采用分层模糊聚类方法包括以下步骤：

选择每个节点O_i与它的K个最近邻集合S_K(O_i)，并计算O_i到S_K(O_i)中每个点的距离的平均值AVG_K(O_i)，其中每个节点对应一个信息单元。则O_i的K近邻的相对密度为：

H_{F} (O_{i}) = \frac{{Min}_{O_{i 1, . . . ik} &Element; s_{K} (O_{i})} ({AVG}_{K} (O_{i}), AV G_{K} (O_{i 1}), . . ., {AVG}_{K} (O_{iK}))}{{Max}_{O_{i 1, . . . ik} &Element; s_{K} (O_{i})} (AV G_{K} (O_{i}), {AVG}_{K} (O_{i 1}), . . ., {AVG}_{K} (O_{iK}))}

当节点O_i满足条件(1-H_F(O_i))＜δ，权值δ＞0时，被视为核心节点，而对应的核心节点集合为Θ_K(O_i)＝{O|O∈O_i∪(S_K(O_i)∧O)}，其中O是所有核心结点的列表，Θ_K(O_i)是所有聚类的初始状态；

Θ_K(O_i)中所有节点的K近邻节点也将被考虑，若满足上述条件，也将被扩展进该聚类中；

最高粒度的聚类结果将被逐层合并，其依据是不同类

和

之间的相似性计算，如下式：

对于每个粒度级别，定义对应的阀值ξ_Δ(Δ＝1，...，n)，并将满足该约束的两个类合并成一个类：