CN102693321A

CN102693321A - 一种跨媒体间信息分析与检索的方法

Info

Publication number: CN102693321A
Application number: CN2012101807822A
Authority: CN
Inventors: 路通; 林婉霞
Original assignee: Changzhou High-Tech Research Institute Of Nanjing University
Current assignee: Changzhou High-Tech Research Institute Of Nanjing University
Priority date: 2012-06-04
Filing date: 2012-06-04
Publication date: 2012-09-26

Abstract

本发明提供了一种跨媒体间信息分析与检索的方法，包含如下步骤：对多模态信息进行语义融合处理；根据概率潜在语义分析模型扩展得到用于处理连续特征向量的多层连续概率潜在语义分析模型；采用不对称学习方法学习多层连续概率潜在语义分析模型，计算图像的视觉特征向量分布、音频的听觉特征向量分布及主题概率分布；用户提交训练集和测试的媒体对象作为检索例子，计算检索例子中图像、音频的模态内和模态间的初始相似度值；构建传播模型，根据传播模型更新模态内和模态间的相似度值；根据更新后的相似度值进行二次检索。

Description

一种跨媒体间信息分析与检索的方法

技术领域

本发明涉及多媒体信息数据检索领域，特别是一种跨媒体间信息分析与检索的方法。

背景技术

多媒体是文字、图像、音频和视频等的综合体，这些不同类型的多媒体数据表达了丰富多彩的语义。多媒体文档研究面临的几大难题：（1）由于不同模态间的多媒体数据通常是无结构或半结构化的，不同模态间的多媒体数据底层特征因维数不同、属性不同而造成内容异构性和不可比性，使得底层特征与高层语义之间存在语义鸿沟，大大加剧了不同模态间跨模态检索的难度。（2）模态间的相关性弱。不同类型的多媒体数据从视觉、听觉等不同角度共同表达了多种相关信息，多模态数据之间不仅具有相关性，还具有互补性，如何利用这些关系修正不同类型的多媒体数据之间的相关性还是一个挑战。（3）检索效率低下。（4）在用户标注的过程中，文本标注随着用户的不同而呈现一定的个性，受主观因素影响较大，因而存在不一致和不准确的情况，影响检索效率。

随着数字成像、数据存储和互联网等技术的发展，对大规模多媒体数据进行有效的组织、索引和检索成为该领域的重要课题。中国专利“基于多模态信息融合分析的跨媒体检索方法”，专利号CN200610053392.3提供了一种检索方法。然而现有的多媒体检索系统大都只能检索包含单一模态的多媒体数据库，或虽能处理多模态的媒体数据，大多数是利用一种模态来提高另一种模态的效率，却不支持跨媒体的检索，即根据一种模态的多媒体对象检索到其他模态的多媒体对象。目前还没有较成熟的跨媒体检索算法和技术，即便是多媒体文本标注随着用户的不同而呈现一定的个性，受主观因素影响较大，因而存在不一致和不准确的情况，影响检索效率。跨媒体检索需要处理不同模态的媒体数据。例如：一个128维的视觉特征向量和一个21维的听觉特征向量，两者可能都表达了相似的语义概念，如爆炸和画面与爆炸的声音，但是计算机却很难根据两个特征向量度量两者在语义层面上的相关程度。因此，对于图像和音频这种非结构化、难以应用文本描述的多媒体数据，需要研究新的方法以挖掘两者间所蕴涵的相关性。从而使检索多样化，智能化。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种跨媒体间信息分析与检索的方法。

1)对多模态信息进行预处理，即语义融合处理；

2）根据概率潜在语义分析模型扩展得到用于处理连续特征向量的多层连续概率潜在语义分析模型MC-PLSA (Multilayer-Continuous Probability Latent Semantic Analysis，简称MC-PLSA)，关联参数间的关系；概率潜在语义分析模型为现有技术。

3)采用不对称学习方法学习多层连续概率潜在语义分析模型，计算图像的视觉特征向量分布、音频的听觉特征向量分布及主题概率分布；

4)用户提交测试的媒体对象作为检索例子，计算检索例子中图像、音频的模态内和模态间的初始相似度值；

5)构建传播模型，根据传播模型更模态内和模态间的相似度值；

6)根据更新后的相似度值进行二次检索；

所述的对多模态信息进行预处理，即语义融合处理，其步骤如下：

a)采集图像库、音频库：图像和音频的类别数、每类的个数相同；将音频分割为时间长度为5~10s的片段音频，分割的音频片段长度取决于所采集音频间的空白、规律性噪声等的分布情况；把图像库和音频库整体分为训练集和测试集，例如，其中图像、音频各采用5000幅/片段作为训练集，余下1000幅/片段作为测试集。

b)提取所有训练集中图像和音频的特征，并生成多媒体文档D_c，包括如下步骤：

提取训练集中所有图像的SIFT(Scale-Invariant Feature Transform，SIFT)特征，令视觉特征向量个数为N_I，用N_I个128维的视觉特征向量的集合表示每个图像d^I，若图像d^I中含该视觉特征向量则该维度值为1，否则为0，即每幅图像都是由一组0、1值所组成的视觉特征向量组成的；

提取训练集中所有音频的MFCC(Mel Frequency Cepstrum Coefficient，MFCC)特征，令听觉特征向量个数为N_A，用N_A个21维的听觉特征向量的集合表示每个音频d^A，其中若音频d^A中含该听觉特征向量则该维度值为1，否则为0，即每段音频都是由一组0、1值所组成的听觉特征向量向量组成的；

对图像库、音频库进行归类处理：如果类别数为N，则生成N类由图像与音频共同组成的多媒体文档，则训练集D={D₁,...,D_c，...,D_N}，1<C<N，每个多媒体文档D_c表示第C类图像和音频的集合。

所述的根据概率潜在语义分析模型扩展得到用于处理连续特征向量的多层连续概率潜在语义分析模型MC-PLSA其步骤如下：

c)设置主题参数Z_k,k∈1，...,K,20<k<100；

d)扩展概率潜在语义分析模型，使之能够建模连续特征，学习多模态数据，该模型关系定义为多层连续概率潜在语义分析模型MC-PLSA。该模型是一个概率统计模型，模型中的观察对为

和

其中D_c表示多媒体文档，

和为多媒体单词，

表示视觉特征向量，

表示听觉特征向量，i∈1，...N_I,j∈1，...,N_A；

使用主题参数Z_k表示多媒体文档D_c和多媒体单词和

之间的关联性；多媒体单词

和满足多元高斯分布，即在主题参数z_k条件下的视觉特征向量分布

在主题参数z_k条件下的听觉特征向量分布

分别服从Dim^I维的高斯分布

和Dim^A维的高斯分布

Dim^I和Dim^A分别为视觉特征向量的维数和音频连续特征向量的维数，

和

分别为Dim^I维的均值向量和Dim^I×Dim^I协方差矩阵，

和分别为Dim^A维的均值向量和Dim^A×Dim^A协方差矩阵。

所述的MC-PLSA模型采用不对称学习方法学习模型参数，计算图像、音频的连续特征分布及主题概率分布，具体步骤如下：

e)根据训练集D={D₁，...,D_c，...,D_N}，通过多层连续概率潜在语义分析模型学习图像d^I，并用最大期望算法（Expectation-maximization algorithm，简称EM）计算主题概率分布p(z_k)、主题参数z_k条件下的多媒体文档概率分布p(D_c|z_k)、图像的均值向量和协方差矩阵

均值向量

和协方差矩阵

的值等价于视觉特征向量的高斯分布；

学习音频d^A，保持主题概率分布p(z_k)和主题参数z_k条件下的多媒体文档概率分布p(D_c|z_k)不变，用部分EM算法（folding-in算法）计算音频的均值向量

和协方差矩阵

音频的均值向量和协方差矩阵的值等价于听觉特征向量的高斯分布；

根据图像d^I的视觉特征向量和音频d^A的听觉特征向量服从连续特征向量的高斯分布，学习主题参数z_k条件下图像概率分布p(d^I|z_k)和主题参数z_k条件下音频概率分布p(d^A|z_k)，保持主题概率分布p(z_k)、图像的均值向量

和协方差矩阵

的值不变，用部分EM算法计算主题参数z_k条件下的图像概率分布p(d^I|z_k)的值；

保持主题概率分布p(z_k)、音频的均值向量

和协方差矩阵的值不变，用部分EM算法计算主题参数z_k条件下音频概率分布p(d^A|z_k)的值；

根据主题参数z_k条件下的图像概率分布p(d^I|z_k)和主题参数z_k条件下的音频概率分布p(d^A|z_k)，计算图像对应的主题概率分布p(z_k|d^I)和音频对应的主题概率分布p(z_k|d^A)；

f)构建四个关联矩阵,由余弦夹角公式计算两个媒体对象和

之间的相似度

Cor (d_{i}^{k_{1}}, d_{j}^{k_{2}}),

Cor (d_{i}^{k_{1}}, d_{j}^{k_{2}}) = \frac{Σ_{z} p (z | d_{i}^{k_{1}}) * p {(z | d_{j}^{k_{2}})}^{T}}{Σ_{z} | p (z | d_{i}^{k_{1}}) | * | p (z | d_{j}^{k_{2}}) |} (k_{1}, k_{2} = IorA)

其中Cor表示初始相似度值，即Cor括号包含的两参数对应的两媒体对象的初始相似度值；表示模态k1的媒体对象，

表示模态k2的媒体对象，若模态k1和模态k2取值相同表示两媒体对象为相同模态，则

表示同模态相似度；取值不同的则表示两媒体对象不同模态，则

表示不同模态相似度；向量

表示模态k1的媒体对象

的主题概率分布，向量

表示模态k2的媒体对象

的主题概率分布，

表示

的转置，

和

分别是

和

的模。

当k1=I，k2=I时，公式里的k1，k2全部替换成I，

为

为

为

为 k1等于k2，

和

表示相同模态媒体对象，即

表示图像与图像的初始相似度值；同理k1=A，k2=A时, 表示音频与音频的初始相似度值。

当k1=I，k2=A时，公式里的k1替换成I，k2替换成A，

为

为

为

为

k1不等于k2，

和表示不同模态媒体对象，即

表示图像与音频的初始相似度值；同理当k1=A，k2=I时，

表示音频与图像的初始相似度值。

由图像、音频的相似度生成四个关联矩阵：图像与音频矩阵C_IA，音频与图像矩阵C_AI，图像与图像矩阵C_II，音频与音频矩阵C_AA。假设图像个数为m，音频个数为n（m=n），四个关联矩阵格式如下：

C_{IA} = [Cor (d_{i}^{I}, d_{j}^{A})]

= [\begin{matrix} Cor (d_{1}^{I}, d_{1}^{A}) & Cor (d_{1}^{I}, d_{2}^{A}) & . . . & Cor (d_{1}^{I}, d_{n}^{A}) \\ Cor (d_{2}^{I}, d_{1}^{A}) & Cor (d_{2}^{I}, d_{2}^{A}) & . . . & Cor (d_{2}^{I}, d_{2}^{A}) \\ . . . & . . . & . . . & . . . \\ Cor (d_{m}^{I}, d_{1}^{A}) & Cor (d_{m}^{I}, d_{2}^{A}) & . . . & Cor (d_{m}^{I}, d_{n}^{A}) \end{matrix}]

C_{AI} = [Cor (d_{j}^{A}, d_{i}^{I})] = C_{IA}^{T}

C_{II} = [Cor (d_{i}^{I}, d_{j}^{I})]

= [\begin{matrix} Cor (d_{1}^{I}, d_{1}^{I}) & Cor (d_{1}^{I}, d_{2}^{I}) & . . . & Cor (d_{1}^{I}, d_{m}^{I}) \\ Cor (d_{2}^{I}, d_{1}^{I}) & Cor (d_{2}^{I}, d_{2}^{I}) & . . . & Cor (d_{2}^{I}, d_{m}^{I}) \\ . . . & . . . & . . . & . . . \\ Cor (d_{m}^{I}, d_{1}^{I}) & Cor (d_{m}^{I}, d_{2}^{I}) & . . . & Cor (d_{m}^{I}, d_{m}^{I}) \end{matrix}]

C_{AA} = [Cor (d_{i}^{A}, d_{j}^{A})]

= [\begin{matrix} Cor (d_{1}^{A}, d_{1}^{A}) & Cor (d_{1}^{A}, d_{2}^{A}) & . . . & Cor (d_{1}^{A}, d_{n}^{A}) \\ Cor (d_{2}^{A}, d_{1}^{A}) & Cor (d_{2}^{A}, d_{2}^{A}) & . . . & Cor (d_{2}^{A}, d_{n}^{A}) \\ . . . & . . . & . . . & . . . \\ Cor (d_{n}^{A}, d_{1}^{A}) & Cor (d_{n}^{A}, d_{2}^{A}) & . . . & Cor (d_{n}^{A}, d_{n}^{A}) \end{matrix}] .

用户提交测试集的媒体对象作为检索例子，计算图像、音频的模态内和模态间的初始相似度值，其步骤如下：其步骤如下：取待测试的图像或者音频d_new，提取该图像的视觉特征向量或者音频的听觉特征向量，并计算视觉特征向量或者听觉特征向量的主题概率分布；采用部分EM算法计算待测试图像或者音频与训练集中每个图像、音频的相似度，生成模态内相似度

和模态间相关度

其中标识符(X,X)表示同模态，标识符(X,Y)表示不同模态。

所述的根据传播模型更新模态内和模态间的相似度值，其步骤如下：构建传播模型，对训练集中任意两个媒体对象间（图像或者音频）都用一条边来连接，边上的权值为边连接的两对象的相似度值，而相似度值根据所述四个关联矩阵获得。根据多媒体之间关系的传播来更新模态内模态间的相似度值，设置一个阈值，边上的权值大于此阈值称之为强相关，否则为弱相关，根据d_new与训练集中图像、音频生成的初始相似度值寻找对象间的强相关路径，所有强相关路径的相似度值累加作为d_new与训练集中图像、音频的最终相似度值，计算公式如下：

{Cor}^{'} (d_{new}^{X}, d_{i}^{X}) = αCor (d_{new}^{X}, d_{i}^{X}) + β \underset{p}{Σ} \underset{q}{Σ} (Cor (d_{new}^{X}, d_{p}^{Y}) * C_{YY} (p, q) * C_{YX} (q, i)),

{Cor}^{'} (d_{new}^{X}, d_{j}^{Y}) = αCor (d_{new}^{X}, d_{j}^{Y}) + β \underset{p}{Σ} \underset{q}{Σ} Cor (d_{new}^{X}, d_{p}^{X}) * C_{XY} (p, q) * C_{YY} (q, j)),

其中

C_YY(p,q)>ε_YY，C_YX(q,i)>ε_YX，同理

C_XY(p,q)>ε_XY，C_YY(q,j)>ε_YY；α、β是调整系数且0<α,β<1；对于上标标示符(X,X)表示同模态，即

表示与d_new同模态的对象d_i，

表示d_new与d_i的初始相似度值，表示d_new与d_i经过传播模型更新后的最终相似度值，p 和q表示训练集中的符合强相关条件的对象点。同理对于上标标示符(X,Y)表示不同模态，即

表示与d_new不同模态的对象d_j，

表示d_new与d_j的初始相似度值，表示d_new与d_i经过传播模型更新后的最终相似度值。C_YY、C_YX、C_XY、为关联矩阵，括号里的参数为矩阵对应的行和列，C_YY(p,q)、C_YX(q,i)、C_XY(p,q)、C_YY(q,j)为括号中对应行和列的矩阵值。

当d_new为图像时即

与d_new同模态即

为

与d_new不同模态即

为

公式中所有的X替换为I，所有Y替换成A，

为

即表示

与

的初始相似度值，

为

即表示

与的初始相似度值，为

即

与

表示经过传播模型更新后的最终相似度值，

为

即与

表示经过传播模型更新后的最终相似度值，而C_YY、C_YX、C_XY分别为C_AA、C_AI、C_IA，ε_XX、ε_XY、ε_YX、ε_YY分别为ε_II、ε_IA、ε_AI、ε_AA；

同理，当d_new为音频时即

与d_new同模态即

为

与d_new不同模态即为

公式中所有的X替换为A，所有Y替换成I，

为

即表示

与

的初始相似度值，

为

即表示

与

的初始相似度值，

为

即

与

表示经过传播模型更新后的最终相似度值，

为

即

与

表示经过传播模型更新后的最终相似度值，而C_YY、C_YX、C_XY分别为C_II、C_IA、C_AI，ε_XX、ε_XY、ε_YX、ε_YY分别为ε_AA、ε_AI、ε_IA、ε_II。

公式中的阈值计算公式为：

ϵ_{II} = \frac{Σ_{i = 1}^{m} \underset{j &Element; P_{II}}{Σ} C_{II} (i, j)}{Σ_{i}^{m} N_{i}},

ϵ_{AA} = \frac{Σ_{i = 1}^{n} \underset{j &Element; P_{AA}}{\overset{n}{Σ}} C_{AA} (i, j)}{Σ_{i}^{n} N_{i}},

ϵ_{IA} = \frac{Σ_{i = 1}^{m} \underset{j &Element; P_{IA}}{\overset{n}{Σ}} C_{IA} (i, j)}{Σ_{i}^{m} N_{i}},

ϵ_{AI} = \frac{Σ_{i = 1}^{m} \underset{j &Element; P_{AI}}{\overset{n}{Σ}} C_{AI} (i, j)}{Σ_{i}^{n} N_{i}},

其中ε_II ε_IA ε_AI ε_AA>0，下标I表示图像，A表示音频，m表示图像个数，n表示音频个数，m=n，ε_II、ε_IA、ε_AI、ε_AA分别表示图像与图像的阈值、图像与音频的阈值、音频与图像的阈值、音频与音频的阈值；计算C_II的平均值，即图像与图像的平均相似度值，则P_II表示训练集中图像与图像相似度值大于图像与图像平均相似度值的列下标的集合。同理P_IA表示训练集中图像与音频相似度值大于图像与音频平均相似度值的列下标的集合。P_AI表示训练集中音频与图像相似度值大于音频与图像平均相似度值的列下标的集合。P_AA表示训练集中音频与音频相似度值大于音频与音频平均相似度值的列下标的集合。

所述的根据更新后的相似度值进行二次检索，具体步骤如下：

g)根据多媒体文档的平均相似度值计算公式分别计算待测试的对象（图像或者音频）d_new与训练集D={D₁,...,D_c，...，D_N}内各类多媒体文档得平均相似度值。

若待测试d_new为图像即则多媒体文档的平均相似度值计算公式为

Aver (d_{new}^{I}, D_{x}) = (\underset{d_{i}^{I} &Element; D_{x}}{Σ} {Cor}^{'} (d_{new}^{I}, d_{i}^{I}) + \underset{d_{j}^{A} &Element; D_{x}}{Σ} {Cor}^{'} (d_{new}^{I}, d_{j}^{A})) / (\underset{d_{i}^{I} &Element; D_{x}}{Σ} \underset{d_{j}^{A} &Element; D_{x}}{Σ} 1);

若待测试d_new为音频即

则多媒体文档的平均相似度值计算公式为

Aver (d_{new}^{A}, D_{x}) = (\underset{d_{i}^{I} &Element; D_{x}}{Σ} {Cor}^{'} (d_{new}^{A}, d_{i}^{I}) + \underset{d_{j}^{A} &Element; D_{x}}{Σ} {Cor}^{'} (d_{new}^{A}, d_{j}^{A})) / (\underset{d_{i}^{I} &Element; D_{x}}{Σ} \underset{d_{j}^{A} &Element; D_{x}}{Σ} 1)

其中1≤x≤N，D_x表示训练集中第x类多媒体文档中的所有图像和音频，和

分别为训练集中第x类的任意图像和音频；Cor′为最终相似度值，即括号里面的两参数对应的两媒体对象的最终相似度值；Aver为平均相似度值即

表示待测试图像

与第x类多媒体文档的平均相似度值，同理

表示待测试音频

与第x类多媒体文档的平均相似度值。

2)比较N个多媒体文档的平均相似度，最大的类平均相似度所属的类别就是该测试

或者所属类别，即

d_{new}^{I} &Element; {D_{y} | Aver (d_{new}^{I}, D_{y}) = \max (Aver (d_{new}^{I}, D_{1}), . . . Aver (d_{new}^{I}, D_{c}), . . ., Aver (d_{new}^{I}, D_{N}))}

d_{new}^{A} &Element; {D_{y} | Aver (d_{new}^{A}, D_{y}) = \max (Aver (d_{new}^{A}, D_{1}), . . . Aver (d_{new}^{A}, D_{c}), . . ., Aver (d_{new}^{A}, D_{N}))}

3)最大相似度所属的类别为y，分别按d_new与多媒体文档D_y中各个图像、音频的相似度值由大到小输出，并把相应的图像和音频显现给用户。

有益效果：本发明提出了一种跨媒体间信息分析与检索的方法，该方法使用统计模型学习不同模态所携带的信息，解决了特征异构性的问题，缩小语义鸿沟、提高检索效率。又引入跨模态传播模型，利用不同模态数据之间的相关性、互补性，修正不同类型的多媒体数据之间的相关性度量结果。利用了迭代，发掘了图像和音频等不同模态之间的相互作用，避免了单一倚重一类特征造成的检索偏差；在每一步迭代中，一类特征的影响被传播到另一类特征中。由于在不同的多媒体对象（图像和音频）之间传播的是相似度值，可以缓解高维特征数据带来的空间复杂度过高的问题。本质上来说，这种迭代可以被看成是一种不同特征的非线性组合，更接近语义上相似性的本质。扩展该发明，用户可以提交任何一种模态的例子（可以是图像、音频、视频、文本等多媒体文档），去查询任意模态的多媒体对象信息，实现跨模态检索。因此，比传统的检索系统功能更强大。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1为本发明的系统框架图。

具体实施方式

本发明一种跨媒体间信息分析与检索的方法的基本出发点是对多媒体文档进行语义融合，通过潜在变量（主题）将不同模态的多媒体对象映射到同一语义空间，一模态的多媒体对象可以被其他模态索引，从而实现跨模态检索，最后通过传播加强相关度，提高效率。

本发明提出的一种跨媒体间信息分析与检索的方法实例如图1所示，具体如下：

1）预处理模块：该模块实现对训练集的媒体对象（图像、音频）进行语义理解和建立统一的索引。该模块主要包括图像、音频预处理及特征提取、构建多媒体文档两个主要的算法。具体说明如下：

a采集图像库、音频库：图像和音频的类别数、每类的个数相同；将音频分割为时间长度为5~10s的片段音频，分割的音频片段长度取决于所采集音频间的空白、规律性噪声等的分布情况。

b图像、音频预处理及提取所有训练集中图像和音频的特征：提取图像d^I、音频d^A的特征，具体如下：用SIFT算法提取训练集中所有图像的特征，令视觉特征向量个数为N_I，用N_I个128维的视觉特征向量的集合表示每个图像d^I，若图像d^I中含该视觉特征向量则该维度值为1，否则为0，即每幅图像都是由一组0、1值所组成的视觉特征向量组成的；

同理采用MFCC算法提取训练集中所有音频的特征，令听觉特征向量个数N_A，用N_A个21维的听觉特征向量的集合表示每个音频d^A，其中若音频d^A中含该听觉特征向量则该维度值为1，否则为0，即每段音频都是由一组0、1值所组成的听觉特征向量向量组成的；

b构建多媒体文档：整合图像d^I、音频d^A的连续特征向量，并生成多媒体文档D_c，具体如下：对图像库、音频库进行归类处理，如果类别数为N，则生成N类由图像与音频共同组成的多媒体文档，则训练集D={D₁,...,D_c，...，D_N}，1<C<N，每个多媒体文档D_c表示第C类图像和音频的集合，对于每个D_c又可表示成该类所有图像的视觉特征、音频的听觉特征的集合。

2）训练学习模块：该模块是利用扩展概率潜在语义分析模型，构建多层的能够处理连续特征向量的多层连续概率潜在语义分析模型MC-PLSA，学习连续特征向量，实现多模态融合的阶段。该模态主要包括构建MC-PLSA模型关联参数及不对称学习算法学习参数。

a构建多层连续概率潜在语义分析模型，该模型是一个概率统计模型，模型中的观察对为和

其中D_c表示多媒体文档，和

为多媒体单词，

表示视觉特征向量，表示听觉特征向量，i∈1，...N_I,j∈1，...,N_A；使用主题参数Z_k表示多媒体文档D和多媒体单词

和之间的关联性；多媒体单词

在主题参数z_k条件下的听觉特征向量分布

分别服从Dim^I维的高斯分布和Dim^A维的高斯分布

Dim^I和Dim^A分别为视觉特征向量的维数和听觉特征向量的维数，

和

分别为Dim^I维的均值向量和Dim^I×Dim^I协方差矩阵，

和

分别为Dim^A维的均值向量和Dim^A×Dim^A协方差矩阵。

b采用不对称的学习方法学习图像的视觉特征向量分布、音频的听觉特征向量分布及主题概率分布，因为不对称学习算法能在潜在空间的定义中更好地控制各个模态的数据产生的影响。模型采用最大期望算法（EM算法）来学习参数，E阶段和M阶段迭代执行，直至收敛。先学习其中的一种模态，对于另一模态则采用部分EM算法来学习，所谓部分EM算法就是EM算法的不完全版本，该算法在迭代过程中保持已知参数不变，不断更新未知参数来学习未知参数的过程。

(1)训练集D={D₁，...,D_c，...,D_N}，通过多层连续概率潜在语义分析模型学习图像d^I，并用EM算法计算主题概率分布p(z_k)、主题参数z_k条件下的多媒体文档概率分布p(D_c|z_k)、图像的均值向量

和协方差矩阵均值向量

和协方差矩阵

的值等价于视觉特征向量的高斯分布；

(2)学习音频d^A，保持主题概率分布p(z_k)和主题参数z_k条件下的多媒体文档概率分布p(D_c|z_k)不变，用部分EM算法计算音频的均值向量

和协方差矩阵音频的均值向量和协方差矩阵的值等价于音频连续特征的高斯分布；

(3)根据图像d^I的视觉特征向量和音频d^A的听觉特征向量服从连续特征向量的高斯分布，学习主题参数z_k条件下的图像概率分布p(d^I|z_k)和主题参数z_k条件下的音频概率分布p(d^A|z_k)，保持主题概率分布p(z_k)、图像的均值向量

和协方差矩阵

(4)保持主题概率分布p(z_k)、音频的均值向量

和协方差矩阵

的值不变，用部分EM算法计算主题参数z_k条件下音频概率分布p(d^A|z_k)的值；

(5)已知主题参数z_k条件下图像概率分布p(d^I|z_k)和主题参数z_k条件下音频概率分布p(d^A|z_k)，计算图像对应的主题概率分布p(z_k|d^I)和音频对应的主题概率分布p(z_k|d^A)；

3）初次检索模块：该模态实现跨模态检索：包括图像检索、音频检索、视频检索。用户可以提交图像、音频作为检索例子去查询任意模态的媒体对象。具体说明如下：

a提取用户提交的待检索的图像的视觉特征向量或者音频的听觉特征向量，如果是图像则采用SIFT算法，音频则采用MFCC算法。

b已知训练集中所有图像的视觉特征向量和音频的听觉特征向量服从的高斯分布、主题概率分布等相关信息，将待检索的图像的视觉特征向量或者音频的听觉特征向量作为输入，采用部分EM算法学习带检索的图像的主题概率分布及在主题参数z_k条件下图像概率分布或者音频的主题概率分布及在主题参数z_k条件下音频概率分布。

c根据余弦夹角公式计算待检索得图像或者音频与训练集中的所有图像、音频的相似度，并生成四个初始关联矩阵C_IA，C_AI，C_II，C_AA。

4）传播模块及二次检索：构建传播模型，对训练集中任意两媒体对象间都有一条边来连接，边上的权值为边连接的两媒体对象的相似度值，而相似度值根据所述四个关联矩阵获得。根据多媒体之间关系的传播来更新模态内模态间的相似度值：设置一个阈值，边上的权值大于该阈值称之为强相关，否则为弱相关。根据d_new与训练集中图像或者音频生成的初始相似度值寻找对象间的强相关路径，所有强相关路径的相似度值累加来更作为d_new与训练集中图像或者音频的最终的相似度值。

根据传播模型更新相似度，提高检索效率。传播模型的原理如下：已知对象a、b、c、d四点，a与b之间本来是没有关系的，即

但是a→c，c→d，d→b，则a与b之间的关联度增强，即a→b。计算待检索图像或者音频与训练集中的各类多媒体文档的平均相似度，待检索图像或者音频与每个类中的所有对象的相似度平均值越大，该待检索对象属于该类别的可能性越高。确认d_new的归属类之后，由高到低分别输出该类中图像和音频与待检索图像或者音频的相似度，呈现给用户。

本发明的一种应用例如在多模态环境中输入一段音频，可自动识别该音频及检索出相关图像，如知道老虎的叫声就可以检索出老虎的图像；降低不同类别视觉相似出错率，例如猫和老虎，视觉上相似，然而两者的叫声是不一样的，通过传播模型音频可以排除不必要的干扰。该方法可节省大量人工开销，一目了然。该方法在进行多媒体语义理解时，不仅仅单独依靠图像或者音频，而是将多媒体内的全体对象进行融合后综合分析所携带的信息进行予以理解，因此该方法具有较高的检索效率，具有较高的通用性，多样化，智能化。

实施例1

假设有10000幅图像和10000个音频片段，每类500个，20类，则可构造多媒体文档为20个，每个多媒体文档包含1000个多媒体对象（500个图像和500个音频）。首先提取所有图像的SIFT特征，把每幅图像表示成128维的视觉特征向量的集合，接着提取所有音频的MFCC特征，每段音频表示成21维的听觉特征向量的集合。构造多媒体文档，对图像-音频数据库进行归类处理，生成训练集D={D₁，...，D_c，...，D_N}.，每个多媒体文档D_c是C类图像和音频的集合。已知多媒体文档的信息，采用MC-PLSA模型学习多媒体文档及其特征，MC-PLSA模型主要采用EM期望最大值及不对称学习法学习相关参数。用户输入待检索的多媒体对象（图像或者音频），首先提取其视觉特征向量或者听觉特征向量，再利用模型学习，主题概率分布p(z_k)和在主题参数z_k条件下的视觉特征向量概率分布或者在主题参数z_k条件下的听觉特征向量分布保持不变，学习在主题参数z_k条件下的待测试图像概率分布或者在主题参数z_k条件下的待测试音频概率分布。根据已知参数，生成四个关联矩阵C_IA，C_AI，C_II，C_AA。对于传播模型，有一个阈值，这是一个调节传播模型的参数，根据实验情况调整。播模型的原理如下：已知对象a、b、c、d，a与b之间本来是没有关系的，即

但是a→c，c→d，d→b，则a与b之间的关联度增强，即a→b。更新待检索对象与库中的多媒体文档的关联矩阵值。计算类平均相似度，待检索对象与每个类中的所有对象的相似度平均值越大，该待检索对象属于该类的可能性越高。确认归属类之后，由高到低输出该类图像和音频与待检索对象的相似度，呈现给用户。

实施例2

用户通过提交一段老虎叫声的音频片段去查询图像返回的前20个结果，其检索过程如下：当用户提交老虎叫声的音频片段作为检索例子的时候，系统首先根据该音频片段的音频特征进行模型学习，找到片段所属的多媒体语义空间的主题概率分布。然后根据数据库内所有的多媒体对象与查询例子的主题概率分布的余弦夹角值作为相似度，并形成四个关联矩阵C_IA，C_AI，C_II，C_AA。然后根据传播模型更新四个关联矩阵的值，也就是更新数据库内所有的多媒体对象与查询例子的相似度值。并计算查询例子与每类的多媒体文档的平均相似度值，拥有最大值的那类为查询例子的归属类。对该类的全体多媒体对象与查询例子的相似度值进行降序排序，把前20个相关度高的结果呈现给用户。

本发明提供了一种跨媒体间信息分析与检索的方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种跨媒体间信息分析与检索的方法，其特征在于，包含如下步骤：

（1）对多模态信息进行语义融合处理；

（2）根据概率潜在语义分析模型扩展得到用于处理连续特征向量的多层连续概率潜在语义分析模型；

（3）采用不对称学习方法学习多层连续概率潜在语义分析模型，计算图像的视觉特征向量分布、音频的听觉特征向量分布，以及主题概率分布；

（4）用户提交测试的媒体对象作为检索例子，计算检索例子中图像、音频的模态内和模态间的初始相似度值；

（5）构建传播模型，根据传播模型更新模态内和模态间的相似度值；

（6）根据更新后的相似度值进行二次检索。

2.根据权利要求1所述的一种跨媒体间信息分析与检索的方法，其特征在于，步骤（1）包括如下步骤：

a)采集图像库、音频库：图像和音频的类别数以及每类的个数相同，令类别数为N；将音频分割为时间长度为5~10s片段的音频；把图像库和音频库的整体分为训练集和测试集；

b)提取所有训练集中图像和音频的特征，并生成多媒体文档，包括如下步骤：

提取训练集中所有图像的SIFT特征，令视觉特征向量个数为N_I，用N_I个128维的视觉特征向量的集合表示每个图像d^I，若图像d^I中含该视觉特征向量则该维度值为1，否则为0，即每幅图像都是由一组0、1值所组成的视觉特征向量组成；

提取训练集中所有音频的MFCC特征，令听觉特征向量个数为N_A，用N_A个21维的听觉特征向量的集合表示每个音频d^A，其中若音频d^A中含该听觉特征向量则该维度值为1，否则为0，即每段音频都是由一组0、1值所组成的听觉特征向量组成；

对图像库、音频库进行归类处理：生成N类由图像与音频共同组成的多媒体文档，则将训练集表示为D={D₁,...，D_c，...，D_N}，1<C<N，每个多媒体文档D_c表示第C类图像和音频的集合。

3.根据权利要求2所述的一种跨媒体间信息分析与检索的方法，其特征在于，步骤（2）包括如下步骤：

c)设置主题参数Z_k,k∈1,...,K,20<K<100；

d)构建多层连续概率潜在语义分析模型，学习多模态信息，模型中的观察对为

和

其中D_c表示多媒体文档，

和

为多媒体单词，

表示视觉特征向量，

表示听觉特征向量，i∈1，...N_I,j∈1，...,N_A；

使用主题参数Z_k表示多媒体文档D_c和多媒体单词

和

之间的关联性；多媒体单词

和

满足多元高斯分布，即在主题参数z_k条件下的视觉特征向量分布

和在主题参数z_k条件下的听觉特征向量分布

分别服从Dim^I维的高斯分布

和Dim^A维的高斯分布

Dim^I和Dim^A分别为视觉特征向量的维数和听觉特征向量的维数，和

分别为Dim^I维的均值向量和Dim^I×Dim^I协方差矩阵，

和

分别为Dim^A维的均值向量和Dim^A×Dim^A协方差矩阵。

4.根据权利要求3所述的一种跨媒体间信息分析与检索的方法，其特征在于，多层连续概率潜在语义分析模型中采用不对称学习方法学习模型参数，具体步骤如下：

e)根据训练集D={D₁，...,D_c，...,D_N}，通过多层连续概率潜在语义分析模型学习图像d^I，计算主题概率分布p(z_k)、主题参数条件下的多媒体文档概率分布p(D_c|z_k)、图像的均值向量

和协方差矩阵均值向量

和协方差矩阵

的值等价于视觉特征向量的高斯分布；

学习音频d^A，保持主题概率分布p(z_k)和主题参数条件下的多媒体文档概率分布p(D_c|z_k)不变，计算音频的均值向量

和协方差矩阵

根据图像d^I的视觉特征向量和音频d^A的听觉特征向量服从能够模拟连续特征向量分布的高斯分布，学习主题参数z_k条件下的图像概率分布p(d^I|z_k)和主题参数z_k条件下的音频概率分布p(d^A|z_k)，保持主题概率分布p(z_k)、图像的均值向量

和协方差矩阵

的值不变，计算主题参数z_k条件下的图像概率分布p(d^I|z_k)；

保持主题概率分布p(z_k)、音频的均值向量

和协方差矩阵

的值不变，计算主题参数z_k条件下的音频概率分布p(d^A|z_k)；

f)构建四个关联矩阵，由余弦夹角公式计算两个媒体对象

和

之间的相似度

由图像、音频的相似度生成四个关联矩阵：图像与音频矩阵C_IA，音频与图像矩阵C_AI，图像与图像矩阵C_II，音频与音频矩阵C_AA。

5.根据权利要求4所述的一种跨媒体间信息分析与检索的方法，其特征在于，所述的用户提交测试集的媒体对象作为检索例子，计算图像、音频的模态内和模态间的初始相似度值，其步骤如下：取待测试图像或者音频d_new，提取待测试图像的视觉特征向量或者音频的听觉特征向量，并计算视觉特征向量或者听觉特征向量的主题概率分布；采用部分EM算法计算待测试图像或者音频与训练集中每个图像、音频的相似度，生成模态内相似度

和模态间相关度

其中标识符(X,X)表示同模态，标识符(X,Y)表示不同模态。

6.根据权利要求5所述的一种跨媒体间信息分析与检索的方法，其特征在于，所述的根据传播模型更新模态内和模态间的相似度值，其步骤如下：构建传播模型，对训练集中任意两个媒体对象间都用一条边连接，边上的权值为边连接的两对象的相似度值，相似度值由所述四个关联矩阵表示；根据多媒体之间关系的传播来更新模态内模态间的相似度值：设置一个阈值，边上的权值大于此阈值称之为强相关，否则称为弱相关，根据待测试的图像或者音频d_new与训练集中图像、音频生成的初始相似度值寻找对象间的强相关路径，所有强相关路径的相似度值累加作为待测试的图像或者音频d_new与训练集中图像、音频的最终相似度值。

7.根据权利要求6所述的一种跨媒体间信息分析与检索的方法，其特征在于，所述的根据更新后的相似度值进行二次检索，具体步骤如下：

g)分别计算待测试的图像或者音频d_new与训练集D={D₁,...,D_c，...,D_N}内各类多媒体文档的平均相似度值，比较N个多媒体文档的平均相似度的值，最大的平均相似度所属的类别就是该测试对象所属类别；

若待测试图像或者音频d_new为图像则记为

多媒体文档的平均相似度值计算公式为：

Aver (d_{new}^{I}, D_{x}) = (\underset{d_{i}^{I} &Element; D_{x}}{Σ} {Cor}^{'} (d_{new}^{I}, d_{i}^{I}) + \underset{d_{j}^{A} &Element; D_{x}}{Σ} {Cor}^{'} (d_{new}^{I}, d_{j}^{A})) / (\underset{d_{i}^{I} &Element; D_{x}}{Σ} \underset{d_{j}^{A} &Element; D_{x}}{Σ} 1);

若待测试图像或者音频d_new为音频则记为多媒体文档的平均相似度值计算公式为：

Aver (d_{new}^{A}, D_{x}) = (\underset{d_{i}^{I} &Element; D_{x}}{Σ} {Cor}^{'} (d_{new}^{A}, d_{i}^{I}) + \underset{d_{j}^{A} &Element; D_{x}}{Σ} {Cor}^{'} (d_{new}^{A}, d_{j}^{A})) / (\underset{d_{i}^{I} &Element; D_{x}}{Σ} \underset{d_{j}^{A} &Element; D_{x}}{Σ} 1);

Cor'表示最终相似度值；

h)如果最大相似度所属的类别为y，分别按待测试的图像或者音频d_new与第y类的多媒体文档D_y中各个图像、音频的相似度值由大到小输出，根据相似度由大到小返回相关图像或者音频。