CN102521368B - 基于相似度矩阵迭代的跨媒体语义理解和优化方法 - Google Patents
基于相似度矩阵迭代的跨媒体语义理解和优化方法 Download PDFInfo
- Publication number
- CN102521368B CN102521368B CN 201110424625 CN201110424625A CN102521368B CN 102521368 B CN102521368 B CN 102521368B CN 201110424625 CN201110424625 CN 201110424625 CN 201110424625 A CN201110424625 A CN 201110424625A CN 102521368 B CN102521368 B CN 102521368B
- Authority
- CN
- China
- Prior art keywords
- similarity matrix
- sample
- matrix
- medium
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 111
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 42
- 230000000007 visual effect Effects 0.000 claims abstract description 20
- 238000013507 mapping Methods 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000017105 transposition Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000010219 correlation analysis Methods 0.000 claims description 5
- 238000012804 iterative process Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 abstract 1
- 238000005259 measurement Methods 0.000 abstract 1
- 238000011160 research Methods 0.000 description 8
- 241001269238 Data Species 0.000 description 7
- 241000282376 Panthera tigris Species 0.000 description 6
- 238000013456 study Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000002950 deficient Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 241000271566 Aves Species 0.000 description 1
- 241001481833 Coryphaena hippurus Species 0.000 description 1
- 241000009328 Perro Species 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于相似度矩阵迭代的跨媒体语义理解和检索方法。首先对图像数据库中提取的视觉特征向量进行主成分提取和去噪,对音频数据库中提取的听觉特征向量进行模糊聚类得到音频索引矩阵,进而根据核函数和典型相关性分析方法,构建低维子空间S;利用多模态样本在子空间中的多重数据关系进行相似度矩阵迭代,通过图像和音频之间的跨媒体相关性来优化图像相似度矩阵A和音频相似度矩阵B;根据跨媒体距离度量,计算跨媒体候选集,并根据用户的相关反馈,计算未标记样本成为正例或成为负例的条件概率,对跨媒体语义理解进行优化。该方法挖掘了多模态样本之间的多重数据关系,得到了较好的检索结果。
Description
技术领域
本发明属于多媒体内容分析与语义理解技术领域。特别是涉及一种基于相似度矩阵迭代的跨媒体语义理解和检索方法。
背景技术
随着信息技术的高速发展,文字、图像、音频和视频等不同类型的多媒体数据已经在人们的日常生活中变得十分普遍,多媒体数据从音、形、意等不同方面绘声绘色地表达了丰富的语义信息,并通过Web页面、数字图书馆、多媒体百科全书等载体进行共享。此外,多媒体数据本身具有半结构化和非结构化的特点,并且底层内容特征彼此异构。这就使得对不同类型多媒体数据的有效检索变得十分困难。传统的多媒体检索技术大多是针对单一类型的多媒体数据,如:图像检索,这种传统的检索方式难以实现对图像、音频、视频等不同类型多媒体数据的综合检索和灵活跨越。故跨媒体检索技术应运而生,并迅速成为多媒体研究领域的前沿热点。
从认知神经心理学的角度来看,人脑对外界事物的认知需要跨越视觉、听觉等不同感官传递的信息,以做出综合判断。类似地,人们对多媒体数据的检索需求是要能够灵活跨越不同类型的多媒体数据,以形成对多媒体语义的整体理解。作为一种新兴的研究方向,跨媒体检索源于基于内容的多媒体检索研究,后者在九十年代初期被提出,并一直是计算机视觉领域一个非常活跃的研究方向,综合应用了统计分析、机器学习、模式识别、人机交互和多媒体数据库等多领域的知识,较好地解决了早期基于文本的多媒体检索中存在的标注费时费力、主观差异性大等缺陷。然而,基于内容的多媒体检索技术仍难以解决新的问题,即不同类型多媒体数据的综合检索和灵活跨越,跨媒体检索技术主要是为了解决上述问题。更进一步来看,特征是语义的载体,为了更好地理解跨媒体语义,提高跨媒体检索的效率,需要重点关注对不同类型多媒体数据中提取的各种异构特征的综合分析与学习。
最近几年,越来越多的国内外学者对跨媒体检索中的一系列关键技术问题进行了积极探索,取得了较好的研究成果,其中较有代表性的可归纳为以下几类:非线性流形学习、线性迭代和映射、统计概率模型、图模型。然而,目前的这些研究工作大多是借助文本标注、Pagelink等语义信息,建立图像、音频、视频等不同类型多媒体样本之间的语义关联,而不是从在特征层次上,挖掘多媒体特征所表达的潜在语义关系。因此,现有研究大都或多或少地存在一些缺陷和不足,尤其体现在如何从多模态数据的视觉特征和听觉特征来理解跨媒体语义,并融合多模态数据中的多种相似度关系,对跨媒体语义理解的结果进行优化这些问题的研究上。
发明内容
本发明旨在克服现有技术缺陷,目的在于提供一种基于相似度矩阵迭代的跨媒体语义理解和检索方法,该方法能够优化不同类型多媒体数据的相似度计算结果,进一步理解跨媒体语义,能获得较好的检索效率。
为实现上述目的,本发明采用的技术方案包括以下步骤:
第一步:基于多模态特征分析的子空间映射
(1)从图像数据库中提取HSV颜色直方图、颜色聚合矢量和Tamura方向度三种视觉特征,构成视觉特征向量,采用主成分分析方法进行降维和去噪,得到视觉特征矩阵X。
从音频数据库中提取质心、衰减截至频率、频谱流量和均方根四种音频特征,构成听觉特征向量,采用模糊聚类的方法对听觉特征向量进行索引,得到听觉特征矩阵Y。
(2)通过非线性映射Φ(X),Ψ(Y)将视觉特征矩阵X和听觉特征矩阵X映射到核空间,在核空间中采用典型相关性分析方法进行相关性保持映射,计算目标函数:
max[Φ(X)TΦ(X)Ψ(Y)TΨ(Y)μ] (1)
式(1)中:μ表示组合系数;
T表示转置运算;
max表示最大值。
通过拉格朗日乘子法求解式(1)中的目标函数,映射得到低维子空间S。
第二步、基于矩阵迭代的语义理解与相似度优化
根据低维子空间S中的欧氏距离,计算得到图像与音频之间的跨媒体相关性矩阵C、图像相似度矩阵A和音频相似度矩阵B,采用下列公式对图像相似度矩阵A和音频相似度矩阵B进行循环迭代:
式(2)中:α表示图像相似度矩阵A的权重参数;
β表示音频相似度矩阵B的权重参数;
γ表示衰减因子;
n表示迭代的次数,值域为正整数;
T表示转置运算。
若图像相似度矩阵A和音频相似度矩阵B在式(2)的第n次迭代和第n-1次迭代过程中,变化量趋近于零时,则式(2)达到收敛状态,即完成对图像相似度矩阵A和音频相似度矩阵B的优化。
第三步、跨媒体距离度量
对用户提交的查询例子,根据低维子空间S中的跨媒体距离度量,计算与查询例子相关的跨媒体候选集,跨媒体距离度量如下:
D(r,k)=min(Crk,z),且
式(3)中:r表示查询例子;
k表示数据库中与查询例子不同模态的样本;
min表示取最小值;
Ω表示音频数据库;
I表示图像数据库;
Crk表示跨媒体相关性矩阵C中第r行第k列的元素值;
Crj表示跨媒体相关性矩阵C中第r行第j列的元素值;
Bkj表示音频相似度矩阵B中第k行第j列的元素值;
Akj表示图像相似度矩阵A中第k行第j列的元素值。
(2)根据式(3),找出与查询例子之间的跨媒体距离度量结果较小的样本,作为跨媒体候选集,返回给用户做相关反馈。
第四步、基于相关反馈的条件概率计算
(1)用P表示用户在相关反馈过程中标记的正例集合,N表示用户在相关反馈过程中标记的负例集合,定义正反馈向量f+和负反馈向量,f-,维数均为样本数目,赋值如下:
正反馈向量f+:所有元素初值为0,将集合P中正样本在f+中对应位置的元素值置为1;
负反馈向量f-:所有元素初值为0,将集合N中负样本在f-中对应位置的元素值置为-1。
(2)计算未标注样本成为正例的条件概率f+(k)和未标注样本成为负例的条件概率f-(k):
式(4)和(5)中:A(k,:)表示图像相似度矩阵A中第k行的所有元素;
B(k,:)表示音频相似度矩阵B中第k行的所有元素;
r表示查询例子;
Ω表示音频数据库;
I表示图像数据库;
max表示取最大值;
min表示取最小值;
f+表示正反馈向量;
f-表示负反馈向量。
第五步、跨媒体语义理解的优化
(1)根据条件概率的计算结果,按照下述规则,计算需要优化的四种样本集:
规则1:选择使f+(k)+f-(k)取值较大的样本,构成第一集合V1;
规则2:选择使|f-(k)|-f+(k)取值较大的样本,构成第二集合V2;
规则3:选择使f+(k)-|f+(k)+f-(k)|取值较大的样本,构成第三集合V3;
规则4:选择使|f-(k)|-|f+(k)+f-(k)|取值较大的样本,构成第四集合V4。
(2)对于第一集合V1和第三集合V3中的样本,减小与正例集合P之间的距离:Cxy=Cxy·ε,(x∈V1∪V3,y∈P,0<ε<1)。其中ε为常参数,即:跨媒体相关性矩阵C中第x行第y列的元素值Cxy乘以一个大于零且小于1的常数ε。
对于第二集合V2和第四集合V4中的样本,减小与负例集合N之间的距离,即:Cxy=Cxy·ε,(x∈V2∪V4,y∈N)。
对于正例集合P中的样本,缩小与查询例子之间的距离,即:Cxr=Cxr·ε,(x∈P),其中,r表示查询例子。
对于负例集合N中的样本,增大与查询例子之间的距离,即:Cxr=Cxr·λ,(x∈N,λ>1),其中,λ为常参数。
(3)按照式(3)再次计算出与查询例子最相关的不同模态的多媒体样本,作为优化后的跨媒体检索结果返回给用户。
由于采用上述技术方案,本发明与现有技术相比,具有的有益效果是:
(1)分析了多模态数据的视觉特征和听觉特征,通过对特征共生矩阵的奇异值分解,构建低维子空间;
(2)利用多模态数据中图像与图像、图像与音频,以及音频与音频之间的相似度矩阵,进行循环迭代,对相似度计算结果进行优化;
(3)对相关反馈中用户标注的正例和负例进行主动学习,计算出未标注样本成为正例或成为负例的条件概率,优化跨媒体语义理解的结果,获得了较好的检索效率。
附图说明
图1为本发明的一种方法的示意框图;
图2为图1方法的以“老虎”音频片段为查询样例进行跨媒体检索得到的相关图像结果。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的描述,并非对其保护范围的限制。
实施例1
一种基于相似度矩阵迭代的跨媒体语义理解和检索方法。该方法如图1所示,其具体步骤如下:
第一步、基于多模态特征分析的子空间映射
提取多模态的底层特征,通过非线性映射在核空间进行典型相关性分析,得到低维子空间S。
(1)从图像数据库中提取HSV颜色直方图、颜色聚合矢量和Tamura方向度三种视觉特征,构成视觉特征向量,采用主成分分析方法进行降维和去噪,得到视觉特征矩阵X。
从音频数据库中提取质心、衰减截至频率、频谱流量和均方根四种音频特征,构成听觉特征向量,采用模糊聚类的方法对听觉特征向量进行索引,得到听觉特征矩阵Y。
(2)通过非线性映射Φ(X),Ψ(Y)将视觉特征矩阵X和听觉特征矩阵X映射到核空间,在核空间中采用典型相关性分析方法进行相关性保持映射,计算目标函数:
max[Φ(X)TΦ(X)Ψ(Y)TΨ(Y)μ]
(1)
式(1)中:μ表示组合系数;
T表示转置运算;
max表示最大值。
通过拉格朗日乘子法求解式(1)中的目标函数,映射得到低维子空间S。
第二步、基于矩阵迭代的语义理解与相似度优化
根据低维子空间S中的欧氏距离,以及距离与相似度之间的反比例关系,计算低维子空间中多模态数据间的相似度,进行跨媒体语义理解,得到图像与音频之间的跨媒体相关性矩阵C、图像相似度矩阵A和音频相似度矩阵B,采用下列公式对图像相似度矩阵A和音频相似度矩阵B进行循环迭代:
式(2)中:α表示图像相似度矩阵A的权重参数;
β表示音频相似度矩阵B的权重参数;
γ表示衰减因子;
n表示迭代的次数,值域为正整数;
T表示转置运算。
采用式(2)进行循环迭代的初始条件为n=2,若图像相似度矩阵A和音频相似度矩阵B在式(2)的第n次迭代和第n-1次迭代过程中,变化量趋近于零时,则式(2)达到收敛状态,即完成对图像相似度矩阵A和音频相似度矩阵B的优化,使之更加准确地反映低维子空间中的语义关系,具体的迭代步骤为:
①将矩阵A和矩阵C中的数据关系传递到矩阵B中:
Bn=βB+(1-β)γCTAn-1C;
②将矩阵B和矩阵C中的数据关系传递到矩阵A中:An=αA+(1-α)γCBnCT,若Bn-Bn-1趋近于零,且An-An-1也趋近于零,即达到收敛状态,否则继续③;
③设置n=n+1,重复①和②。
第三步、跨媒体距离度量
在低维子空间S中设计跨媒体距离度量方法,计算与查询例子最相关的、不同类型的多媒体数据,作为跨媒体候选集,步骤如下:
(1)对用户提交的查询例子,根据低维子空间S中的跨媒体距离度量,计算与查询例子相关的跨媒体候选集,低维子空间中的跨媒体距离度量:
D(r,k)=min(Crk,z),且
式(3)中:r表示查询例子;
k表示数据库中与查询例子不同模态的样本;
min表示取最小值;
Ω表示音频数据库;
I表示图像数据库;
Crk表示跨媒体相关性矩阵C中第r行第k列的元素值;
Crj表示跨媒体相关性矩阵C中第r行第j列的元素值;
Bkj表示音频相似度矩阵B中第k行第j列的元素值;
Akj表示图像相似度矩阵A中第k行第j列的元素值。
(2)根据式(3),找出与查询例子之间的跨媒体距离度量结果较小的样本,作为跨媒体候选集,返回给用户做相关反馈。
第四步、基于相关反馈的条件概率计算
根据用户对跨媒体候选集的相关反馈,计算数据库中未标记样本成为正例或成为负例的条件概率,步骤如下:
(1)用P表示用户在相关反馈过程中标记的正例集合,N表示用户在相关反馈过程中标记的负例集合,定义正反馈向量f+和负反馈向量,f-,维数均为样本数目,赋值如下:
正反馈向量f+:所有元素初值为0,将集合P中正样本在f+中对应位置的元素值置为1;
负反馈向量f-:所有元素初值为0,将集合N中负样本在f-中对应位置的元素值置为-1。
(2)计算未标注样本成为正例的条件概率f+(k)和未标注样本成为负例的条件概率f-(k):
式(4)和(5)中:A(k,:)表示图像相似度矩阵A中第k行的所有元素;
B(k,:)表示音频相似度矩阵B中第k行的所有元素;
r表示查询例子;
Ω表示音频数据库;
I表示图像数据库;
max表示取最大值;
min表示取最小值;
f+表示正反馈向量;
f-表示负反馈向量。
第五步、跨媒体语义理解的优化
(1)根据条件概率的计算结果,按照下述规则,计算需要优化的四种样本集:
规则1:选择使f+(k)+f-(k)取值较大的样本,构成第一集合V1;
规则2:选择使|f-(k)|-f+(k)取值较大的样本,构成第二集合V2;
规则3:选择使f+(k)-|f+(k)+f-(k)|取值较大的样本,构成第三集合V3;
规则4:选择使|f-(k)|-|f+(k)+f-(k)|取值较大的样本,构成第四集合V4。
(2)对于第一集合V1和第三集合V3中的样本,减小与正例集合P之间的距离:Cxy=Cxy·ε,(x∈V1∪V3,y∈P,0<ε<1),其中ε为常参数,即:跨媒体相关性矩阵C中第x行第y列的元素值Cxy乘以一个大于零且小于1的常数ε。
对于第二集合V2和第四集合V4中的样本,减小与负例集合N之间的距离,即:Cxy=Cxy·ε,(x∈V2∪V4,y∈N)。
对于正例集合P中的样本,缩小与查询例子之间的距离,即:Cxr=Cxr·ε,(x∈P),其中,r表示查询例子。
对于负例集合N中的样本,增大与查询例子之间的距离,即:Cxr=Cxr·λ,(x∈N,λ>1),其中,λ为常参数。
(3)按照式(3)再次计算出与查询例子最相关的不同模态的多媒体样本,作为优化后的跨媒体检索结果返回给用户。
实施例2
一种基于相似度矩阵迭代的跨媒体语义理解和检索方法。如附图2所示,
以“老虎”音频片段为查询例子进行跨媒体检索,其具体步骤如下:
第一步:基于多模态特征分析的子空间映射
提取多模态的底层特征,通过非线性映射在核空间进行典型相关性分析,得到低维子空间S。
(1)收集8个语义的图像和音频数据集,包括:爆炸、闪电、汽车、轮船、老虎、狗、鸟类、海豚,每个类别包括100幅图像和50段音频,作为训练数据集和测试数据集;从图像数据库中提取HSV颜色直方图、颜色聚合矢量和Tamura方向度三种视觉特征,构成视觉特征向量,采用主成分分析方法进行降维和去噪,得到视觉特征矩阵X,其中,每个语义类别的图像训练数据对应一个100×50维的视觉特征矩阵。
从音频数据库中提取质心、衰减截至频率、频谱流量和均方根四种音频特征,构成听觉特征向量,采用模糊聚类的方法对听觉特征向量进行索引,得到听觉特征矩阵Y,其中,每个语义类别的音频训练数据构成50×40维的听觉特征矩阵。
第一步中第(2)同实施例1。
第二步、基于矩阵迭代的语义理解与相似度优化
根据低维子空间S中的欧氏距离,根据距离与相似度之间的反比例关系,计算得到800×400维的图像与音频之间的跨媒体相关性矩阵C、800×800维的图像相似度矩阵A和400×400维的音频相似度矩阵B,采用下列公式对图像相似度矩阵A和音频相似度矩阵B进行循环迭代:
式(2)中:α表示图像相似度矩阵A的权重参数;
β表示音频相似度矩阵B的权重参数;
γ表示衰减因子;
n表示迭代的次数,值域为正整数;
T表示转置运算。
若图像相似度矩阵A和音频相似度矩阵B在式(2)的第n次迭代和第n-1次迭代过程中,变化量趋近于零时,则式(2)达到收敛状态,即完成对图像相似度矩阵A和音频相似度矩阵B的优化。
第三步、跨媒体距离度量
在低维子空间S中设计跨媒体距离度量方法,计算与查询例子最相关的、不同类型的多媒体数据,作为跨媒体候选集,步骤如下:
(1)用r表示用户提交的“老虎”音频的查询例子,k表示数据库中的图像样本,根据低维子空间S中的跨媒体距离度量,计算与查询例子r最相关的图像候选集,当查询例子为音频时,低维子空间中图像候选集的跨媒体距离度量如下:
D(r,k)=min(Crk,min(Crj+Akj)) (3)
式(3)中:min表示取最小值;
Crk表示跨媒体相关性矩阵C中第r行第k列的元素值;
Crj表示跨媒体相关性矩阵C中第r行第j列的元素值;
Akj表示图像相似度矩阵A中第k行第j列的元素值。
(2)根据式(3),找出与查询例子之间的跨媒体距离度量结果较小的前16个图像,作为跨媒体候选集,给用户进行相关反馈。
第四步、基于相关反馈的条件概率计算
根据用户对跨媒体候选集的相关反馈,计算数据库中未标记样本成为正例或成为负例的条件概率,步骤如下:
(1)用户标注3个正例和3个负例,P表示用户在相关反馈过程中标记的正例集合,N表示用户在相关反馈过程中标记的负例集合,定义正反馈向量f+和负反馈向量,f-,维数均为样本数目,赋值如下:
正反馈向量f+:所有元素初值为0,将集合P中3个正样本图像在f+中对应位置的元素值置为1;
负反馈向量f-:所有元素初值为0,将集合N中3个负样本图像在f-中对应位置的元素值置为-1。
(2)对用户提交的“老虎”音频的查询例子,计算未标注的图像样本成为正例的条件概率f+(k)和未标注样本成为负例的条件概率
f-(k):
f+(k)=max(A(k,:)·f+) (4)
f-(k)=min(A(k,:)·f-) (5)
式(4)和(5)中:A(k,:)表示图像相似度矩阵A中第k行的所有元素;
max表示取最大值;
min表示取最小值;
f+表示正反馈向量;
f-表示负反馈向量。
第五步、跨媒体语义理解的优化
(1)同实施例1。
(2)同实施例1。
(3)按照式(3)再次计算出与音频查询例子最相关的前16个图像,作为优化后的查询结果返回给用户,如图2所示,在返回的图像中有12个是“老虎”图像,说明系统挖掘和利用了不同类型的数据关系,较好地理解了跨媒体语义,查准率较高。
本具体实施方式与现有技术相比,具有的有益效果是:
(1)分析了多模态数据的视觉特征和听觉特征,通过对特征共生矩阵的奇异值分解,构建低维子空间;
(2)利用多模态数据中图像与图像、图像与音频,以及音频与音频之间的相似度矩阵,进行循环迭代,对相似度计算结果进行优化;
(3)对相关反馈中用户标注的正例和负例进行主动学习,计算出未标注样本成为正例或成为负例的条件概率,优化跨媒体语义理解的结果。
Claims (1)
1.一种基于相似度矩阵迭代的跨媒体语义理解和检索方法,其特征在于包括如下步骤:
第一步:基于多模态特征分析的子空间映射
(1)从图像数据库中提取HSV颜色直方图、颜色聚合矢量和Tamura方向度三种视觉特征,构成视觉特征向量,采用主成分分析方法进行降维和去噪,得到视觉特征矩阵X;
从音频数据库中提取质心、衰减截至频率、频谱流量和均方根四种音频特征,构成听觉特征向量,采用模糊聚类的方法对听觉特征向量进行索引,得到听觉特征矩阵Y;
(2)通过非线性映射Φ(X),Ψ(Y)将视觉特征矩阵X和听觉特征矩阵Y映射到核空间,在核空间中采用典型相关性分析方法进行相关性保持映射,计算目标函数:
max[Φ(X)TΦ(X)Ψ(Y)TΨ(Y)μ] (1)
式(1)中:μ表示组合系数,
T表示转置运算,
max表示最大值,
通过拉格朗日乘子法求解式(1)中的目标函数,映射得到低维子空间S;
第二步、基于矩阵迭代的语义理解与相似度优化
根据低维子空间S中的欧氏距离,计算得到图像与音频之间的跨媒体相关性矩阵C、图像相似度矩阵A和音频相似度矩阵B,采用下列公式对图像相似度矩阵A和音频相似度矩阵B进行循环迭代:
式(2)中:α表示图像相似度矩阵A的权重参数,
β表示音频相似度矩阵B的权重参数,
γ表示衰减因子,
n表示迭代的次数,值域为正整数,
T表示转置运算;
若图像相似度矩阵A和音频相似度矩阵B在式(2)的第n次迭代和第n-1次迭代过程中,变化量趋近于零时,则式(2)达到收敛状态,即完成对图像相似度矩阵A和音频相似度矩阵B的优化;
第三步、跨媒体距离度量
对用户提交的查询例子,根据低维子空间S中的跨媒体距离度量,计算与查询例子相关的跨媒体候选集,跨媒体距离度量如下:
D(r,k)=min(Crk,z),且
式(3)中:r表示查询例子,
k表示数据库中与查询例子不同模态的样本,
min表示取最小值,
Ω表示音频数据库,
I表示图像数据库,
Crk表示跨媒体相关性矩阵C中第r行第k列的元素值,
Crj表示跨媒体相关性矩阵C中第r行第j列的元素值,
Bkj表示音频相似度矩阵B中第k行第j列的元素值,
Akj表示图像相似度矩阵A中第k行第j列的元素值;
根据式(3),找出与查询例子之间的跨媒体距离度量结果较小的样本,作为跨媒体候选集,返回给用户做相关反馈;
第四步、基于相关反馈的条件概率计算
(1)用P表示用户在相关反馈过程中标记的正例集合,N表示用户在相关反馈过程中标记的负例集合,定义正反馈向量f+和负反馈向量,f-,维数均为样本数目,赋值如下:
正反馈向量f+:所有元素初值为0,将集合P中正样本在f+中对应位置的元素值置为1;
负反馈向量f-:所有元素初值为0,将集合N中负样本在f-中对应位置的元素值置为-1;
(2)计算未标注样本成为正例的条件概率f+(k)和未标注样本成为负例的条件概率f-(k):
式(4)和(5)中:A(k,:)表示图像相似度矩阵A中第k行的所有元素,
B(k,:)表示音频相似度矩阵B中第k行的所有元素,
r表示查询例子,
Ω表示音频数据库,
I表示图像数据库,
max表示取最大值,
min表示取最小值,
f+表示正反馈向量,
f-表示负反馈向量;
第五步、跨媒体语义理解的优化
(1)根据条件概率的计算结果,按照下述规则,计算需要优化的四种样本集:
规则1:选择使f+(k)+f-(k)取值较大的样本,构成第一集合V1,
规则2:选择使|f-(k)|-f+(k)取值较大的样本,构成第二集合V2,
规则3:选择使f+(k)-|f+(k)+f-(k)|取值较大的样本,构成第三集合V3,
规则4:选择使|f-(k)|-|f+(k)+f-(k)|取值较大的样本,构成第四集合V4;
(2)对于第一集合V1和第三集合V3中的样本,减小与正例集合P之间的距离:Cxy=Cxy·ε,(x∈V1∪V3,y∈P,0<ε<1),其中ε为常参数,即:跨媒体相关性矩阵C中第x行第y列的元素值Cxy乘以一个大于零且小于1的常数ε;
对于第二集合V2和第四集合V4中的样本,减小与负例集合N之间的距离,即:Cxy=Cxy·ε,(x∈V2∪V4,y∈N);
对于正例集合P中的样本,缩小与查询例子之间的距离,即:Cxr=Cxr·ε,(x∈P),其中,r表示查询例子;
对于负例集合N中的样本,增大与查询例子之间的距离,即:Cxr=Cxr·λ,(x∈N,λ>1),其中,λ为常参数;
(3)按照式(3)再次计算出与查询例子最相关的不同模态的多媒体样本,作为优化后的跨媒体检索结果返回给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110424625 CN102521368B (zh) | 2011-12-16 | 2011-12-16 | 基于相似度矩阵迭代的跨媒体语义理解和优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110424625 CN102521368B (zh) | 2011-12-16 | 2011-12-16 | 基于相似度矩阵迭代的跨媒体语义理解和优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102521368A CN102521368A (zh) | 2012-06-27 |
CN102521368B true CN102521368B (zh) | 2013-08-21 |
Family
ID=46292281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110424625 Expired - Fee Related CN102521368B (zh) | 2011-12-16 | 2011-12-16 | 基于相似度矩阵迭代的跨媒体语义理解和优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102521368B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10275685B2 (en) | 2014-12-22 | 2019-04-30 | Dolby Laboratories Licensing Corporation | Projection-based audio object extraction from audio content |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049526B (zh) * | 2012-12-20 | 2015-08-05 | 中国科学院自动化研究所 | 基于双空间学习的跨媒体检索方法 |
CN103412908B (zh) * | 2013-08-01 | 2016-08-10 | 西北工业大学 | 一种基于相似性矩阵融合的音频数据检索方法 |
CN103995903B (zh) * | 2014-06-12 | 2017-04-12 | 武汉科技大学 | 基于同构子空间映射和优化的跨媒体检索方法 |
CN105389326B (zh) * | 2015-09-16 | 2018-08-31 | 中国科学院计算技术研究所 | 基于弱匹配概率典型相关性模型的图像标注方法 |
CN105718532B (zh) * | 2016-01-15 | 2019-05-07 | 北京大学 | 一种基于多深度网络结构的跨媒体排序方法 |
CN106127305B (zh) * | 2016-06-17 | 2019-07-16 | 中国科学院信息工程研究所 | 一种针对多源异构数据的异源间相似性度量方法 |
CN106951509B (zh) * | 2017-03-17 | 2019-08-09 | 中国人民解放军国防科学技术大学 | 多标签核化典型相关分析检索方法 |
CN107273517B (zh) * | 2017-06-21 | 2021-07-23 | 复旦大学 | 基于图嵌入学习的图文跨模态检索方法 |
CN108334611B (zh) * | 2018-02-07 | 2020-04-24 | 清华大学 | 基于非负张量分解的时序可视媒体语义索引精度增强方法 |
CN111061907B (zh) * | 2019-12-10 | 2023-06-20 | 腾讯科技(深圳)有限公司 | 媒体数据处理方法、装置及存储介质 |
CN111783842B (zh) * | 2020-06-09 | 2022-09-27 | 南京理工大学 | 针对跨媒体检索的相似性度量方法 |
CN112861944B (zh) * | 2021-01-28 | 2022-09-23 | 中山大学 | 一种基于混合模态输入的图像检索方法及装置 |
CN112668671B (zh) * | 2021-03-15 | 2021-12-24 | 北京百度网讯科技有限公司 | 预训练模型的获取方法和装置 |
CN113114697B (zh) * | 2021-04-21 | 2022-03-11 | 合肥工业大学 | 一种基于特征自降维标记的整车云测试数据在线封装方法 |
CN113159211B (zh) * | 2021-04-30 | 2022-11-08 | 杭州好安供应链管理有限公司 | 用于相似图像检索的方法、计算设备和计算机存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021849A (zh) * | 2006-09-14 | 2007-08-22 | 浙江大学 | 基于内容相关性的跨媒体检索方法 |
CN101996191A (zh) * | 2009-08-14 | 2011-03-30 | 北京大学 | 一种二维跨媒体元搜索方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9183227B2 (en) * | 2008-09-19 | 2015-11-10 | Xerox Corporation | Cross-media similarity measures through trans-media pseudo-relevance feedback and document reranking |
-
2011
- 2011-12-16 CN CN 201110424625 patent/CN102521368B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021849A (zh) * | 2006-09-14 | 2007-08-22 | 浙江大学 | 基于内容相关性的跨媒体检索方法 |
CN101996191A (zh) * | 2009-08-14 | 2011-03-30 | 北京大学 | 一种二维跨媒体元搜索方法和系统 |
Non-Patent Citations (6)
Title |
---|
一种基于内容相关性的跨媒体检索方法;张鸿等;《计算机学报》;20080515;第31卷(第05期);820-826 * |
基于特征子空间学习的跨媒体检索方法;张鸿等;《模式识别与人工智能》;20081215;第21卷(第06期);739-745 * |
张鸿等.一种基于内容相关性的跨媒体检索方法.《计算机学报》.2008,第31卷(第05期),第820-826页. |
张鸿等.基于特征子空间学习的跨媒体检索方法.《模式识别与人工智能》.2008,第21卷(第06期),第739-745页. |
张鸿等.跨媒体相关性推理与检索研究.《计算机研究与发展》.2008,第45卷(第05期),第869-876页. |
跨媒体相关性推理与检索研究;张鸿等;《计算机研究与发展》;20080515;第45卷(第05期);869-876 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10275685B2 (en) | 2014-12-22 | 2019-04-30 | Dolby Laboratories Licensing Corporation | Projection-based audio object extraction from audio content |
Also Published As
Publication number | Publication date |
---|---|
CN102521368A (zh) | 2012-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102521368B (zh) | 基于相似度矩阵迭代的跨媒体语义理解和优化方法 | |
CN112966127B (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
CN103617157B (zh) | 基于语义的文本相似度计算方法 | |
CN105512209B (zh) | 一种基于特征自动学习的生物医学事件触发词识别方法 | |
CN100422999C (zh) | 基于内容相关性的跨媒体检索方法 | |
CN101692224B (zh) | 融合空间关系语义的高分辨率遥感图像检索方法 | |
WO2016095487A1 (zh) | 一种基于人机交互的图像高级语义解析的方法 | |
CN104156433B (zh) | 一种基于语义映射空间构建的图像检索方法 | |
Wang et al. | Automatic image annotation via local multi-label classification | |
CN101539930A (zh) | 一种相关反馈图像检索方法 | |
CN103995903B (zh) | 基于同构子空间映射和优化的跨媒体检索方法 | |
Mahalakshmi et al. | Ensembling of text and images using deep convolutional neural networks for intelligent information retrieval | |
JP4937395B2 (ja) | 特徴ベクトル生成装置、特徴ベクトル生成方法及びプログラム | |
Zhang et al. | A cross-media distance metric learning framework based on multi-view correlation mining and matching | |
Zhou et al. | Latent visual context learning for web image applications | |
Sabarish et al. | Clustering of trajectory data using hierarchical approaches | |
Jin et al. | A hybrid automatic image annotation approach | |
Arun et al. | A context-aware semantic modeling framework for efficient image retrieval | |
Felci Rajam et al. | Region-based image retrieval using the semantic cluster matrix and adaptive learning | |
Yang et al. | Cross-media retrieval using query dependent search methods | |
CN103488744B (zh) | 一种大数据图像分类方法 | |
Zhuang et al. | Manifold learning based cross-media retrieval: A solution to media object complementary nature | |
CN110363164A (zh) | 一种基于lstm时间一致性视频分析的统一方法 | |
Deng et al. | A coarse to fine framework for recognizing and locating multiple diatoms with highly complex backgrounds in forensic investigation | |
Bi et al. | A new graph semi-supervised learning method for medical image automatic annotation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130821 Termination date: 20131216 |