CN100388282C

CN100388282C - 基于多模态信息融合分析的跨媒体检索方法

Info

Publication number: CN100388282C
Application number: CNB2006100533923A
Authority: CN
Inventors: 潘云鹤; 庄越挺; 吴飞; 杨易
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2006-09-14
Filing date: 2006-09-14
Publication date: 2008-05-14
Anticipated expiration: 2026-09-14
Also published as: CN1920818A

Abstract

本发明公开了一种基于多模态信息融合分析的跨媒体检索方法。利用该方法可以对多模态信息融合分析进行多媒体语义理解，从而实现基于内容的多媒体文档检索、图像检索、声音检索和文本检索。用户可以通过提交任意的模态的检索例子去检索任意模态的媒体对象或者多媒体文档。比如为了检索图像，用户既可以提交图像作为检索例子进行检索，也可以提交声音或者文本或者它们的组合作为检索例子进行检索。由于该方法在进行多媒体语义理解的时候，不仅仅依靠关键字，而是将多媒体文档内全体媒体对象进行融合分析后综合各种模态媒体对象所携带的信息进行语义理解，因此检索效果更好；由于检索例子和返回结果可以是不同模态的，因此功能更强大，适用更广泛。

Description

基于多模态信息融合分析的跨媒体检索方法

技术领域

本发明涉及多媒体检索，尤其涉及一种基于多模态信息融合分析的跨媒体检索方法。

背景技术

多媒体文档是当前非常常见的文件类型，它由多个不同模态的媒体对象(包括音频、图像和文本等)组成，并具有一定的语义，如多媒体百科全书、网页和Microsoft PowerPoint格式的幻灯片等都属于多媒体文档。一般来说，多媒体文档具有两个特点。第一，组成结构复杂，多种模态的媒体对象同时存在于多媒体文档内部；第二，同一多媒体文档内部不同模态的媒体对象在语义上是互补的，多媒体文档的语义是由其内部所有媒体对象共同表达的。因此当某一种媒体对象具有二义性的时候，作为一个整体，多媒体文档的语义往往是明确的。由于传统的检索方法往往是针对单一模态媒体对象设计的，没有综合考虑多媒体文档内部各个模态媒体对象所蕴涵的互补信息，因此不能很好地综合分析多媒体文档内不同模态的各个媒体对象以理解多媒体语义，从而无法很好适应用户需求。

目前，随着存储技术和网络技术的发展，包括文本，图片，声音片段以及多媒体文档等在内的可以被用户访问到的多媒体文件越来越多。检索技术可以帮助用户在海量的数据中快速找到自己需要的内容，成为计算机应用技术中越来越重要的领域。传统的检索技术可以分为基于关键字的检索和基于内容的检索。在基于关键字的检索系统中，需要事先对多媒体对象进行标注。但是由于目前存在的媒体对象数量巨大，因此标注过程工作量浩繁；而由于标注内容不可避免地受到标注者主观因素的影响，针对同一个多媒体对象，不同的标注者可能会标注不同的关键字，因此关键字往往不能完全客观地反映多媒体对象所蕴涵的全部语义。基于内容的检索系统则不需要对多媒体对象进行标注，用户可以提交一个检索例子对多媒体对象进行检索。但是传统的基于内容的检索技术存在两个弱点：一是用户只能检索与查询例子相同模态的媒体对象，也就是说只能通过图像例子检索图像或者通过音频例子检索音频，而无法通过音频例子去检索图像或者通过图像例子检索音频；二是媒体对象的底层特征和高层语义之间存在语义鸿沟，因此查准率不是很理想。考虑到媒体对象往往是以多媒体文档的形式出现，而同一多媒体文档内媒体对象往往具有相同的语义，为了跨越语义鸿沟，可以利用不同模态媒体对象的语义互补性来消除歧义，更好地理解多媒体语义。同时，为了满足用户跨媒体查询的需要，如通过声音例子查询图像，找到一种基于内容的跨媒体检索方法颇有意义。

发明内容

本发明的目的在于提供一种基于内容的多媒体文档检索和跨媒体检索的方法，其特征在于包括如下步骤：

1)基于多模态信息融合分析对多媒体语义进行理解；

2)用户提交数据库内已有的或数据库以外的媒体对象作为查询例子进行检索；

3)根据用户的相关反馈，进行二次检索；

4)根据用户的相关反馈，对多媒体语义空间进行维护。

所述的基于多模态信息融合分析对多媒体语义进行理解，其步骤如下：

1)对数据库内所有音频片段提取均方根RMS、截止频率Rolloff、过零率ZCR和质心Centroid四个特征，利用动态时间伸缩DTW算法计算所有音频片段两两之间的距离，并将所有的距离归一化；

2)对数据库内所有的图像对象提取颜色和纹理特征，计算所有图像对象两两之间的欧氏距离，并将所有的距离归一化；

3)对数据库内所有的文本媒体对象采用单文本词汇频率/逆文本频率(TF/IDF)方法进行矢量化，计算所有文本媒体对象两两之间的距离，并将所有的距离归一化；

4)通过非线性的方法对每个多媒体文档内的声音对象，文本对象和图像对象所携带的信息进行融合分析，从而得到多媒体文档两两之间的距离；

5)建立一个多媒体文档关联图。每个多媒体文档是该图上的一个顶点，任意两点之间有一条加权边，权重为步骤4所得到的这两个顶点所对应多媒体文档之间的距离；

6)重构多媒体文档关联图，方法是首先设定一个阈值，然后将权重大于这一阈值的边的权全部设为无穷大。然后对所有的边，用两点之间的最短路径作为该边的新权重；

7)采用多向度量尺法(Multidimensional Scaling)将多媒体文档关联图投影到多媒体语义空间，该空间可以保持多媒体文档关联图的拓扑关系，所有的多媒体文档都在该空间内有唯一的坐标并被该坐标所指向；所有的媒体对象都被它们所属多媒体文档的坐标所指向。

用户提交数据库内已有的媒体对象作为查询例子进行检索的方法，其步骤如下：首先找到该媒体对象在多媒体语义空间内的坐标，然后根据全体媒体对象在多媒体语义空间内的坐标，计算查询例子与其他所有媒体对象在多媒体语义空间内的欧氏距离，并根据该距离，将所有媒体对象进行从小到大排序，返回距离最近的目标模态的媒体对象；

用户提交数据库内以外的媒体对象作为查询例子进行检索方法的步骤如下：

1)找到数据库内和查询例子相同模态的全体媒体对象，计算这些媒体对象和查询例子的底层特征距离；

2)根据底层特征距离，找到数据库内和查询例子最接近的k个媒体对象，将这些媒体对象在多媒体语义空间的质心作为检索例子的坐标，按照前面所述的用户提交数据库内已有的媒体对象作为查询例子进行检索的方法进行跨媒体检索。

根据用户的相关反馈，进行二次检索的步骤如下：返回查询结果之后，用户对查询结果进行评价，并标注一些他们认为正确的结果，系统将用户标注为正例的那些媒体对象在多媒体语义空间内的质心作为检索例子的坐标，计算查询例子与其它所有媒体对象在多媒体语义空间内的欧氏距离，并根据该距离，将所有媒体对象进行排序，返回距离最近的目标模态的媒体对象。

根据用户的相关反馈，对多媒体语义空间进行维护的步骤如下：

1)根据用户的相关反馈历史记录，周期性动态修改多媒体文档关联图并重新构造多媒体语义空间，使之更加准确地反映多媒体语义关系；

2)根据用户的相关反馈，将数据库之外的查询例子映射到多媒体语义空间，从而完成数据库更新。

本发明与背景技术相比，具有的有益的效果是：

本发明提出了一套新的基于内容的检索方法。由于该方法采用了多模态信息融合机制，充分利用不同模态媒体对象所携带的信息，跨越语义鸿沟的能力更强，因此具有更高的查准率。同时，本方法还公开了一种跨媒体检索的方法，用户可以通过提交任何形式的例子(包括图像、文本、声音或者多媒体文档)去查询任何模态的媒体对象或者多媒体文档，查询例子和返回结果可以是不同模态的，因此比传统的基于内容的检索系统功能更加强大。

附图说明

图1是本发明的系统框架图；

图2是本发明的一次检索结果。该图显示内容是用户通过提交一段汽车引擎的声音去查询图像返回的前9个结果。

具体实施方式

本发明通过多模态信息融合分析对多媒体文档进行语义理解，为所有的多媒体文档建立统一的索引，不同模态的多媒体对象可以被其所属的多媒体文档的坐标所指向，从而为不同模态的多媒体对象建立了统一的索引，实现对多媒体文档的检索和跨媒体检索。

本发明提出的基于内容的检索方法实例如图1所示，具体说明如下：

1)预处理模块：该模块实现对数据库内的媒体对象进行语义理解和建立统一的索引。该模块主要包括特征提取、多模态信息融合和多媒体语义空间建立三个主要算法。具体说明如下：

a多媒体对象特征提取和相似度计算算法；该算法对不同模态的媒体对象分别提取特征并计算底层特征距离。对于数据库内的所有图像对象，提取纹理和颜色特征，然后计算所有图像对象两两之间的欧氏距离。对于所有声音对象，提取均方根、过零率、截止频率和质心四个特征，然后利用动态时间伸缩(DTW)算法计算所有声音对象两两之间的距离。对于所有文本对象，根据TF/IDF方法进行文本矢量化，然后计算所有文本对象两两之间的欧氏距离。然后对图像距离、声音距离和文本距离分别做高斯归一化。

b多模态信息融合算法：该算法通过融合分析多媒体文档内部不同媒体对象之间的关系计算多媒体文档的距离。对于任意两个多媒体文档，通过步骤a可以得到它们所含图像、声音和文本对象之间的距离，然后求得这些距离之间的最小值mindis和最大值maxdis。多媒体文档的距离MMDdis可以定义为：MMDdis＝λ×mindis+(α+In(β×(maxdis-mindis)+1))；如果两个多媒体文档之间只有一种媒体对象是相同模态的，那么，MMDdis＝λ×mindis+A，其中α，β，λ和A是根据数据库大小和数据分布情况可调节的常数。如果两个多媒体文档之间没有相同模态的媒体对象，那么可以先将两个多媒体文档的距离设置为无穷大，然后可以在后面的步骤中通过最短路径作为多媒体文档之间的距离。

c构造多媒体文档关联图；为了构造多媒体文档关联图，对于数据库中的每个多媒体文档，在图中设置一个对应的顶点；任意两个顶点之间都设置一条边，边的权为两顶点对应多媒体文档之间的距离；然后重构该图，方法是：将权值大于某一阈值所有边的权重置为无穷大(该阈值可以设置为全体边长的平均值与标准差之差)；定义路径长度为沿该路径所有边的权值之和，将图中所有顶点两两之间的边的权值重置为两顶点之间最短路径的长度。

d多媒体语义空间建立；构造一个矩阵D，它的每一项d_ij为第i个多媒体文档到第j个多媒体文档之间在多媒体文档关联图中的距离，如果两个多媒体文档之间的距离是无穷大，那么就将d_ij设置为1。然后将矩阵D作为输入，通过多向度量尺法对多媒体文档关联图进行投影，得到多媒体语义空间。每个多媒体文档在该空间都有一个对应的坐标，同时每个多媒体文档都有指向其附属媒体对象的指针。

2)检索模块：该模块实现跨媒体检索，包括多媒体文档检索、图像检索、声音检索和文本检索。用户可以提交多媒文档、图像、声音或者文本作为检索例子去查询任意模态的媒体对象或者多媒体文档。具体说明如下：

a当用户提交的检索例子是在数据库中已存在的多媒体文档时，首先找到该文档在多媒体语义空间内的坐标，然后找到查询例子在多媒体语义空间内的k近邻。如果用户在检索多媒体文档，则直接返k近邻；如果用户在检索图像，则返回属于k近邻多媒体文档的图像；如果用户在检索声音或者文本，方法与检索图像类似。

b当用户提交的检索例子是在数据库中已存在的多媒体对象(图像、声音或文本)时，首先找到检索例子所属的多媒体文档，然后将该多媒体文档设置检索例子进行检索，方法与步骤a一致。

c当用户提交的检索例子是在数据库之外的多媒体文档时，则按照预处理模块计算多媒体文档距离的方法计算检索例子到数据库内所有多媒体文档的距离，找到检索例子的k近邻。如果用户在检索多媒体文档，则直接返k近邻；如果用户在检索图像，则返回包含于k近邻的图像；如果用户在检索声音或者文本，方法与检索图像类似。

d当用户提交的检索例子是在数据库之外的多媒体对象时，则首先计算检索例子和数据库中相同模态多媒体对象之间在特征空间中的距离并找到检索例子在特征空间的k个最近邻，然后得到这k个近邻所属多媒体文档，并求得它们在多媒体语义空间内的质心；将该质心作为检索例子进行检索，方法如步骤a所述。

e检索结果返回给用户以后，用户可以对检索结果进行评价，然后系统将用户标注的正例设为检索例子进行二次检索，方法是将正例在多媒体语义空间内的质心作为检索例子，然后按照步骤a的方法进行二次检索。

3)维护模块：该模块主要实现对多媒体语义空间的精化重构和将数据库之外的多媒体对象和多媒体文档映射到多媒体语义空间。具体说明如下：

a在系统中配置一个日志文件，记录用户对每次检索的反馈内容，包括用户对每次返回结果的评价。系统根据日志文件的内容周期性的地修正多媒体文档关联图。具体做法是：将多媒体文档关联图中每次检索用户标记为的正例的多媒体文档之间的权乘以一个小于1的数，而将多媒体文档关联图中每次检索中用户标记为正例的多媒体文档和负例的多媒体文档之间的权乘以一个大于1的数。如果检索内容是多媒体对象，也就是说用户标注的正负例子是多媒体对象，则按照上述方法修改它们所属的宿主多媒体文档之间边的权。然后重新投影计算多媒体语义空间。

b当用户提交的检索例子是在数据库外的媒体对象或者多媒体对象的时候，系统可以通过用户的相关反馈自动的将数据库外的查询例子映射到多媒体语义空间，从而自动的扩充数据集。具体做法是：如果返回结果是多媒体文档，首先求得用户标注为正例的多媒体文档在多媒体语义空间的质心，然后取出最接近质心的三个正例，求得这三个正例的质心并将该质心作为新查询例子在多媒体语义空间的坐标；如果返回结果是媒体对象，则首先求得用户标注为正例的多媒体对象所属多媒体文档在多媒体语义空间的质心，然后取出最接近质心的三个正例，求得这三个正例的质心并将该质心作为新查询例子在多媒体语义空间的坐标。

实施例：

假设有900个多媒体文档，由900个图像，300个声音片段和700段文本构成。首先计算提取所有图像的底层特征，包括RGB颜色直方图，颜色聚合向量和Tamura纹理特征，然后计算所有图像之间的两两距离；对声音片段，提取均方根、过零率、截止频率和质心四个特征，然后利用动态时间伸缩(DTW)算法计算所有声音对象两两之间的距离；对文本，采用TF/IDF矢量化后计算文本对象两两之间的距离。在完成媒体对象距离计算之后，要对图像距离，文本距离和声音距离分别归一化，然后对于任意多媒体文档甲和乙，首先找到分别属于这两个多媒体文档的文本，声音和图像对象之间的距离，然后计算它们的最大值maxdis和最小值mindis。假如两个多媒体文档只有两种相同模态的多媒体对象，则maxdis和mindis分别为声音距离和图像距离的最大和最小值，其他类似情况可以类推。比如多媒体文档甲中有图像，文本和声音，而多媒体文档乙中只有图像和声音对象，，那么这两个多媒体文档的maxdis和mindis分别为声音距离和图像距离的最大和最小值。在计算出maxdis和mindis之后，根据如下公式计算多媒体文档距离，MMDdis＝mindis+(0.1+In(0.3×(maxdis-mindis)+1))。假如两个多媒体文档只有一种相同模态的媒体对象，则将它们的距离设置该模态媒体对象距离加0.1。比如多媒体文档甲中只有图像和声音，而多媒体文档乙中只有声音和文本，它们的距离被设置为声音距离加0.1。如果两个多媒体文档之间没有相同模态的媒体对象，那么可以先将两个多媒体文档的距离设置为无穷大，然后可以在后面的步骤中通过最短路径作为多媒体文档之间的距离。在完成多媒体文档距离计算之后，可以根据多媒体文档之间的距离构造一个加权图。每个多媒体文档对应图上的一个顶点，任意两个顶点之间存在一条边，且边的权重为两顶点对应的多媒体文档之间的距离。在完成图的构造之后，将这个图中所有权大于0.35的权全部重新置为无穷大，然后对于所有的顶点，找到它们两两之间的最短距离，并采用Dijkstra算法，将最短距离作为两顶点之间边的新的权重。构造一个矩阵D，其中D_ij为多媒体文档i到多媒体文档j之间的距离，如果这两个多媒体文档之间的距离为无穷大，则设置D_ij为1。然后对D_ij用多向度量尺法(Multidimensional Scaling)进行投影，得到一个20维的多媒体语义空间，每个多媒体文档在该空间内有一个20维的坐标。需要指出的是，以上关于多媒体语义空间的构造是离线进行的。

图二是用户通过提交一段汽车引擎的声音去查询图像返回的前9个结果，其检索过程如下：当用户提交汽车引擎的声音作为检索例子的时候，系统首先找到该音频文件所属的多媒体文档在多媒体语义空间的坐标；然后根据数据库内所有多媒体文档到查询例子所属的多媒体文档之间的距离从小到大，对全体多媒体文档进行排序；然后由近及远，查找每个多媒体文档内是否存在图像，如果有，则作为结果返回给用户，如果没有，则继续查找下一个多媒体文档，直到返回的图像数量达到用户指定的数目。从图二可以看出，查询结果是相当准确的，这说明本发明提出的方法可以有效跨越语义鸿沟，很好的理解多媒体语义，具有较高的准确率。另一方面，从图二的返回结果看来，虽然提交的检索例子是音频片段而返回的结果是图像，但是查询例子和返回结果之间在语义上是一致的，这说明本发明具备良好的跨媒体检索的能力。

从上面的例子可以看出，与传统的检索方法相比，本发明由于采用了多模态信息融合机制进行多媒体语义理解，因此与传统的基于内的多媒体检索相比，能够更加准确的理解多媒体语义，具有更高的检索准确率；同时，本发明还可以完成跨媒体检索，也就是可以用任意模态的检索例子去检索任意模态的检索结果，(比如用声音检索图像)，因此与传统的基于内容的多媒体检索相比，功能更加强大。

Claims

1.一种基于多模态信息融合分析的跨媒体检索方法，其特征在于包括如下步骤：

1)对多模态信息融合分析，进行多媒体语义理解；

2)用户提交数据库内已有的或数据库以外的媒体对象作为检索例子进行检索；

3)根据用户的相关反馈，进行二次检索；

4)根据用户的相关反馈，对多媒体语义空间进行维护；

所述的对多模态信息融合分析，进行多媒体语义理解，其步骤如下：

a)对数据库内所有音频片段提取均方根、截止频率、过零率和质心四个特征，利用动态时间伸缩算法计算所有音频片段两两之间的距离，并将所有的距离归一化；

b)对数据库内所有的图像对象提取颜色和纹理特征，计算所有图像对象两两之间的欧氏距离，并将所有的距离归一化；

c)对数据库内所有的文本媒体对象采用单文本词汇频率/逆文本频率方法进行矢量化，计算所有文本媒体对象两两之间的距离，并将所有的距离归一化；

d)通过融合分析多媒体文档内部不同媒体对象之间的关系计算多媒体文档的距离，对于任意两个多媒体文档，通过步骤a)，步骤b)，步骤c)得到这两个多媒体文档所含图像、声音和文本对象之间的距离，然后求得这些距离之间的最小值mindis和最大值maxdis，多媒体文档的距离MMDdis定义为：MMDdis＝λ×mindis+(α+ln(β×(maxdis-mindis)+1))，如果两个多媒体文档之间只有一种媒体对象是相同模态的，那么，MMDdis＝λ×mindis+A，其中α，β，λ和A是根据数据库大小和数据分布情况可调节的常数，如果两个多媒体文档之间没有相同模态的媒体对象，那么将两个多媒体文档的距离设置为无穷大；

e)建立一个多媒体文档关联图，每个多媒体文档是该图上的一个顶点，任意两点之间有一条加权边，权重为步骤d)所得到的这两个顶点所对应的多媒体文档之间的距离；

f)重构多媒体文档关联图，方法是首先设定一个阈值，然后将权重大于这一阈值的边的权全部设为无穷大，然后对所有的边，用两点之间的最短路径作为该边的新权重；

g)采用多向度量尺法将多媒体文档关联图投影到多媒体语义空间，该空间可以保持多媒体文档关联图的拓扑关系，所有的多媒体文档都在该空间内有唯一的坐标并被该坐标所指向；所有的媒体对象都被这些媒体对象所属多媒体文档的坐标所指向；

所述的用户提交数据库内已有的媒体对象作为检索例子进行检索的方法的步骤为：首先找到该媒体对象在多媒体语义空间内的坐标，然后根据全体媒体对象在多媒体语义空间内的坐标，计算检索例子与其他所有媒体对象在多媒体语义空间内的欧氏距离，并根据该距离，将所有媒体对象进行排序，返回在多媒体语义空间中距离检索例子最近的目标模态的媒体对象；

所述的用户提交数据库内以外的媒体对象作为检索例子进行检索方法的步骤如下：

h)找到数据库内和检索例子相同模态的全体媒体对象，计算这些媒体对象和检索例子的底层特征距离；

i)根据底层特征距离，找到数据库内和检索例子最接近的k个媒体对象，将这些媒体对象在多媒体语义空间的质心作为检索例子的坐标，按照用户提交数据库内已有的媒体对象作为检索例子进行检索的方法进行跨媒体检索；

所述的根据用户的相关反馈，进行二次检索的步骤如下：返回检索结果之后，用户对检索结果进行评价，并标注一些他们认为正确的结果，系统将用户标注为正例的那些媒体对象在多媒体语义空间内的质心作为检索例子的坐标，计算检索例子与其他所有媒体对象在多媒体语义空间内的欧氏距离，并根据该距离，将所有媒体对象进行排序，返回在多媒体语义空间中距离检索例子最近的目标模态的媒体对象；

所述的根据用户的相关反馈，对多媒体语义空间进行维护的步骤如下：

j)根据用户的相关反馈历史记录，周期性动态修改多媒体文档关联图并重新构造多媒体语义空间，使之更加准确地反映多媒体语义关系；

k)根据用户的相关反馈，将数据库之外的检索例子映射到多媒体语义空间，从而完成数据库更新。