CN102693321A - 一种跨媒体间信息分析与检索的方法 - Google Patents

一种跨媒体间信息分析与检索的方法 Download PDF

Info

Publication number
CN102693321A
CN102693321A CN2012101807822A CN201210180782A CN102693321A CN 102693321 A CN102693321 A CN 102693321A CN 2012101807822 A CN2012101807822 A CN 2012101807822A CN 201210180782 A CN201210180782 A CN 201210180782A CN 102693321 A CN102693321 A CN 102693321A
Authority
CN
China
Prior art keywords
image
audio frequency
vector
mode
probability distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012101807822A
Other languages
English (en)
Inventor
路通
林婉霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou High-Tech Research Institute Of Nanjing University
Original Assignee
Changzhou High-Tech Research Institute Of Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou High-Tech Research Institute Of Nanjing University filed Critical Changzhou High-Tech Research Institute Of Nanjing University
Priority to CN2012101807822A priority Critical patent/CN102693321A/zh
Publication of CN102693321A publication Critical patent/CN102693321A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供了一种跨媒体间信息分析与检索的方法,包含如下步骤:对多模态信息进行语义融合处理;根据概率潜在语义分析模型扩展得到用于处理连续特征向量的多层连续概率潜在语义分析模型;采用不对称学习方法学习多层连续概率潜在语义分析模型,计算图像的视觉特征向量分布、音频的听觉特征向量分布及主题概率分布;用户提交训练集和测试的媒体对象作为检索例子,计算检索例子中图像、音频的模态内和模态间的初始相似度值;构建传播模型,根据传播模型更新模态内和模态间的相似度值;根据更新后的相似度值进行二次检索。

Description

一种跨媒体间信息分析与检索的方法
技术领域
本发明涉及多媒体信息数据检索领域,特别是一种跨媒体间信息分析与检索的方法。 
背景技术
多媒体是文字、图像、音频和视频等的综合体,这些不同类型的多媒体数据表达了丰富多彩的语义。多媒体文档研究面临的几大难题:(1)由于不同模态间的多媒体数据通常是无结构或半结构化的,不同模态间的多媒体数据底层特征因维数不同、属性不同而造成内容异构性和不可比性,使得底层特征与高层语义之间存在语义鸿沟,大大加剧了不同模态间跨模态检索的难度。(2)模态间的相关性弱。不同类型的多媒体数据从视觉、听觉等不同角度共同表达了多种相关信息,多模态数据之间不仅具有相关性,还具有互补性,如何利用这些关系修正不同类型的多媒体数据之间的相关性还是一个挑战。(3)检索效率低下。(4)在用户标注的过程中,文本标注随着用户的不同而呈现一定的个性,受主观因素影响较大,因而存在不一致和不准确的情况,影响检索效率。 
随着数字成像、数据存储和互联网等技术的发展,对大规模多媒体数据进行有效的组织、索引和检索成为该领域的重要课题。中国专利“基于多模态信息融合分析的跨媒体检索方法”,专利号CN200610053392.3提供了一种检索方法。然而现有的多媒体检索系统大都只能检索包含单一模态的多媒体数据库,或虽能处理多模态的媒体数据,大多数是利用一种模态来提高另一种模态的效率,却不支持跨媒体的检索,即根据一种模态的多媒体对象检索到其他模态的多媒体对象。目前还没有较成熟的跨媒体检索算法和技术,即便是多媒体文本标注随着用户的不同而呈现一定的个性,受主观因素影响较大,因而存在不一致和不准确的情况,影响检索效率。跨媒体检索需要处理不同模态的媒体数据。例如:一个128维的视觉特征向量和一个21维的听觉特征向量,两者可能都表达了相似的语义概念,如爆炸和画面与爆炸的声音,但是计算机却很难根据两个特征向量度量两者在语义层面上的相关程度。因此,对于图像和音频这种非结构化、难以应用文本描述的多媒体数据,需要研究新的方法以挖掘两者间所蕴涵的相关性。从而使检索多样化,智能化。 
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种跨媒体间信息分析与检索的方法。 
1)对多模态信息进行预处理,即语义融合处理; 
2)根据概率潜在语义分析模型扩展得到用于处理连续特征向量的多层连续概率潜在语义分析模型MC-PLSA (Multilayer-Continuous Probability Latent Semantic Analysis,简称MC-PLSA),关联参数间的关系;概率潜在语义分析模型为现有技术。 
3)采用不对称学习方法学习多层连续概率潜在语义分析模型,计算图像的视觉特征向量分布、音频的听觉特征向量分布及主题概率分布; 
4)用户提交测试的媒体对象作为检索例子,计算检索例子中图像、音频的模态内和模态间的初始相似度值; 
5)构建传播模型,根据传播模型更模态内和模态间的相似度值; 
6)根据更新后的相似度值进行二次检索; 
所述的对多模态信息进行预处理,即语义融合处理,其步骤如下: 
a)采集图像库、音频库:图像和音频的类别数、每类的个数相同;将音频分割为时间长度为5~10s的片段音频,分割的音频片段长度取决于所采集音频间的空白、规律性噪声等的分布情况;把图像库和音频库整体分为训练集和测试集,例如,其中图像、音频各采用5000幅/片段作为训练集,余下1000幅/片段作为测试集。 
b)提取所有训练集中图像和音频的特征,并生成多媒体文档Dc,包括如下步骤: 
提取训练集中所有图像的SIFT(Scale-Invariant Feature Transform,SIFT)特征,令视觉特征向量个数为NI,用NI个128维的视觉特征向量的集合表示每个图像dI,若图像dI中含该视觉特征向量则该维度值为1,否则为0,即每幅图像都是由一组0、1值所组成的视觉特征向量组成的; 
提取训练集中所有音频的MFCC(Mel Frequency Cepstrum Coefficient,MFCC)特征,令听觉特征向量个数为NA,用NA个21维的听觉特征向量的集合表示每个音频dA,其中若音频dA中含该听觉特征向量则该维度值为1,否则为0,即每段音频都是由一 组0、1值所组成的听觉特征向量向量组成的; 
对图像库、音频库进行归类处理:如果类别数为N,则生成N类由图像与音频共同组成的多媒体文档,则训练集D={D1,...,Dc,...,DN},1<C<N,每个多媒体文档Dc表示第C类图像和音频的集合。 
所述的根据概率潜在语义分析模型扩展得到用于处理连续特征向量的多层连续概率潜在语义分析模型MC-PLSA其步骤如下: 
c)设置主题参数Zk,k∈1,...,K,20<k<100; 
d)扩展概率潜在语义分析模型,使之能够建模连续特征,学习多模态数据,该模型关系定义为多层连续概率潜在语义分析模型MC-PLSA。该模型是一个概率统计模型,模型中的观察对为 
Figure BDA00001720685200031
和 
Figure BDA00001720685200032
其中Dc表示多媒体文档, 
Figure BDA00001720685200033
和 为多媒体单词, 
Figure BDA00001720685200035
表示视觉特征向量, 
Figure BDA00001720685200036
表示听觉特征向量,i∈1,...NI,j∈1,...,NA; 
使用主题参数Zk表示多媒体文档Dc和多媒体单词 和 
Figure BDA00001720685200038
之间的关联性;多媒体单词 
Figure BDA00001720685200039
和 满足多元高斯分布,即在主题参数zk条件下的视觉特征向量分布 
Figure BDA000017206852000311
在主题参数zk条件下的听觉特征向量分布 
Figure BDA000017206852000312
分别服从DimI维的高斯分布 
Figure BDA000017206852000313
和DimA维的高斯分布 
Figure BDA000017206852000314
DimI和DimA分别为视觉特征向量的维数和音频连续特征向量的维数, 
Figure BDA000017206852000315
和 
Figure BDA000017206852000316
分别为DimI维的均值向量和DimI×DimI协方差矩阵, 
Figure BDA000017206852000317
和 分别为DimA维的均值向量和DimA×DimA协方差矩阵。 
所述的MC-PLSA模型采用不对称学习方法学习模型参数,计算图像、音频的连续特征分布及主题概率分布,具体步骤如下: 
e)根据训练集D={D1,...,Dc,...,DN},通过多层连续概率潜在语义分析模型学习图像dI,并用最大期望算法(Expectation-maximization algorithm,简称EM)计算主题概率分布p(zk)、主题参数zk条件下的多媒体文档概率分布p(Dc|zk)、图像的均值向量 和协方差矩阵 
Figure BDA000017206852000320
均值向量 
Figure BDA000017206852000321
和协方差矩阵 
Figure BDA000017206852000322
的值等价于视觉特征向量的高 斯分布; 
学习音频dA,保持主题概率分布p(zk)和主题参数zk条件下的多媒体文档概率分布p(Dc|zk)不变,用部分EM算法(folding-in算法)计算音频的均值向量 
Figure BDA00001720685200041
和协方差矩阵 
Figure BDA00001720685200042
音频的均值向量和协方差矩阵的值等价于听觉特征向量的高斯分布; 
根据图像dI的视觉特征向量和音频dA的听觉特征向量服从连续特征向量的高斯分布,学习主题参数zk条件下图像概率分布p(dI|zk)和主题参数zk条件下音频概率分布p(dA|zk),保持主题概率分布p(zk)、图像的均值向量 
Figure BDA00001720685200043
和协方差矩阵 
Figure BDA00001720685200044
的值不变,用部分EM算法计算主题参数zk条件下的图像概率分布p(dI|zk)的值; 
保持主题概率分布p(zk)、音频的均值向量 
Figure BDA00001720685200045
和协方差矩阵 的值不变,用部分EM算法计算主题参数zk条件下音频概率分布p(dA|zk)的值; 
根据主题参数zk条件下的图像概率分布p(dI|zk)和主题参数zk条件下的音频概率分布p(dA|zk),计算图像对应的主题概率分布p(zk|dI)和音频对应的主题概率分布p(zk|dA); 
f)构建四个关联矩阵,由余弦夹角公式计算两个媒体对象 和 
Figure BDA00001720685200048
之间的相似度  Cor ( d i k 1 , d j k 2 ) , Cor ( d i k 1 , d j k 2 ) = &Sigma; z p ( z | d i k 1 ) * p ( z | d j k 2 ) T &Sigma; z | p ( z | d i k 1 ) | * | p ( z | d j k 2 ) | ( k 1 , k 2 = IorA ) 其中Cor表示初始相似度值,即Cor括号包含的两参数对应的两媒体对象的初始相似度值; 表示模态k1的媒体对象, 
Figure BDA000017206852000412
表示模态k2的媒体对象,若模态k1和模态k2取值相同表示两媒体对象为相同模态,则 
Figure BDA000017206852000413
表示同模态相似度;取值不同的则表示两媒体对象不同模态,则 
Figure BDA000017206852000414
表示不同模态相似度;向量 
Figure BDA000017206852000415
表示模态k1的媒体对象 
Figure BDA000017206852000416
的主题概率分布,向量 
Figure BDA000017206852000417
表示模态k2的媒体对象 
Figure BDA000017206852000418
的主题概率分布, 
Figure BDA000017206852000419
表示 
Figure BDA000017206852000420
的转置, 
Figure BDA000017206852000421
和 
Figure BDA000017206852000422
分别是 
Figure BDA000017206852000423
和 
Figure BDA00001720685200051
的模。 
当k1=I,k2=I时,公式里的k1,k2全部替换成I, 
Figure BDA00001720685200052
为 
Figure BDA00001720685200053
为 
Figure BDA00001720685200054
为 
Figure BDA00001720685200055
为 k1等于k2, 
Figure BDA00001720685200057
和 
Figure BDA00001720685200058
表示相同模态媒体对象,即 
Figure BDA00001720685200059
表示图像与图像的初始相似度值;同理k1=A,k2=A时, 表示音频与音频的初始相似度值。 
当k1=I,k2=A时,公式里的k1替换成I,k2替换成A, 
Figure BDA000017206852000511
为 
Figure BDA000017206852000512
为 
Figure BDA000017206852000513
Figure BDA000017206852000514
为 
Figure BDA000017206852000515
为 
Figure BDA000017206852000516
k1不等于k2, 
Figure BDA000017206852000517
和 表示不同模态媒体对象,即 
Figure BDA000017206852000519
表示图像与音频的初始相似度值;同理当k1=A,k2=I时, 
Figure BDA000017206852000520
表示音频与图像的初始相似度值。 
由图像、音频的相似度生成四个关联矩阵:图像与音频矩阵CIA,音频与图像矩阵CAI,图像与图像矩阵CII,音频与音频矩阵CAA。假设图像个数为m,音频个数为n(m=n),四个关联矩阵格式如下: 
C IA = [ Cor ( d i I , d j A ) ]
= Cor ( d 1 I , d 1 A ) Cor ( d 1 I , d 2 A ) . . . Cor ( d 1 I , d n A ) Cor ( d 2 I , d 1 A ) Cor ( d 2 I , d 2 A ) . . . Cor ( d 2 I , d 2 A ) . . . . . . . . . . . . Cor ( d m I , d 1 A ) Cor ( d m I , d 2 A ) . . . Cor ( d m I , d n A )
C AI = [ Cor ( d j A , d i I ) ] = C IA T
C II = [ Cor ( d i I , d j I ) ]
= Cor ( d 1 I , d 1 I ) Cor ( d 1 I , d 2 I ) . . . Cor ( d 1 I , d m I ) Cor ( d 2 I , d 1 I ) Cor ( d 2 I , d 2 I ) . . . Cor ( d 2 I , d m I ) . . . . . . . . . . . . Cor ( d m I , d 1 I ) Cor ( d m I , d 2 I ) . . . Cor ( d m I , d m I )
C AA = [ Cor ( d i A , d j A ) ]
= Cor ( d 1 A , d 1 A ) Cor ( d 1 A , d 2 A ) . . . Cor ( d 1 A , d n A ) Cor ( d 2 A , d 1 A ) Cor ( d 2 A , d 2 A ) . . . Cor ( d 2 A , d n A ) . . . . . . . . . . . . Cor ( d n A , d 1 A ) Cor ( d n A , d 2 A ) . . . Cor ( d n A , d n A ) .
用户提交测试集的媒体对象作为检索例子,计算图像、音频的模态内和模态间的初始相似度值,其步骤如下:其步骤如下:取待测试的图像或者音频dnew,提取该图像的视觉特征向量或者音频的听觉特征向量,并计算视觉特征向量或者听觉特征向量的主题概率分布;采用部分EM算法计算待测试图像或者音频与训练集中每个图像、音频的相似度,生成模态内相似度 
Figure BDA00001720685200063
和模态间相关度 
Figure BDA00001720685200064
其中标识符(X,X)表示同模态,标识符(X,Y)表示不同模态。 
所述的根据传播模型更新模态内和模态间的相似度值,其步骤如下:构建传播模型,对训练集中任意两个媒体对象间(图像或者音频)都用一条边来连接,边上的权值为边连接的两对象的相似度值,而相似度值根据所述四个关联矩阵获得。根据多媒体之间关系的传播来更新模态内模态间的相似度值,设置一个阈值,边上的权值大于此阈值称之为强相关,否则为弱相关,根据dnew与训练集中图像、音频生成的初始相似度值寻找对象间的强相关路径,所有强相关路径的相似度值累加作为dnew与训练集中图像、音频的最终相似度值,计算公式如下: 
Cor &prime; ( d new X , d i X ) = &alpha;Cor ( d new X , d i X ) + &beta; &Sigma; p &Sigma; q ( Cor ( d new X , d p Y ) * C YY ( p , q ) * C YX ( q , i ) ) ,
Cor &prime; ( d new X , d j Y ) = &alpha;Cor ( d new X , d j Y ) + &beta; &Sigma; p &Sigma; q Cor ( d new X , d p X ) * C XY ( p , q ) * C YY ( q , j ) ) ,
其中 
Figure BDA00001720685200067
CYY(p,q)>εYY,CYX(q,i)>εYX,同理 
Figure BDA00001720685200068
CXY(p,q)>εXY,CYY(q,j)>εYY;α、β是调整系数且0<α,β<1;对于上标标示符(X,X)表示同模态,即 
Figure BDA00001720685200069
表示与dnew同模态的对象di, 
Figure BDA000017206852000610
表示dnew与di的初始相似度值, 表示dnew与di经过传播模型更新后的最终相似度值,p 和q表示训练集中的符合强相关条件的对象点。同理对于上标标示符(X,Y)表示不同模态,即 
Figure BDA00001720685200071
表示与dnew不同模态的对象dj, 
Figure BDA00001720685200072
表示dnew与dj的初始相似度值, 表示dnew与di经过传播模型更新后的最终相似度值。CYY、CYX、CXY、为关联矩阵,括号里的参数为矩阵对应的行和列,CYY(p,q)、CYX(q,i)、CXY(p,q)、CYY(q,j)为括号中对应行和列的矩阵值。 
当dnew为图像时即 
Figure BDA00001720685200074
与dnew同模态即 
Figure BDA00001720685200075
为 
Figure BDA00001720685200076
与dnew不同模态即 
Figure BDA00001720685200077
为 
Figure BDA00001720685200078
公式中所有的X替换为I,所有Y替换成A, 
Figure BDA00001720685200079
为 
Figure BDA000017206852000710
即表示 
Figure BDA000017206852000711
与 
Figure BDA000017206852000712
的初始相似度值, 
Figure BDA000017206852000713
为 
Figure BDA000017206852000714
即表示 
Figure BDA000017206852000715
与 的初始相似度值, 为 
Figure BDA000017206852000718
即 
Figure BDA000017206852000719
与 
Figure BDA000017206852000720
表示经过传播模型更新后的最终相似度值, 
Figure BDA000017206852000721
为 
Figure BDA000017206852000722
即 与 
Figure BDA000017206852000724
表示经过传播模型更新后的最终相似度值,而CYY、CYX、CXY分别为CAA、CAI、CIA,εXX、εXY、εYX、εYY分别为εII、εIA、εAI、εAA; 
同理,当dnew为音频时即 
Figure BDA000017206852000725
与dnew同模态即 
Figure BDA000017206852000726
为 
Figure BDA000017206852000727
与dnew不同模态即 为 
Figure BDA000017206852000729
公式中所有的X替换为A,所有Y替换成I, 
Figure BDA000017206852000730
为 
Figure BDA000017206852000731
即表示 
Figure BDA000017206852000732
与 
Figure BDA000017206852000733
的初始相似度值, 
Figure BDA000017206852000734
为 
Figure BDA000017206852000735
即表示 
Figure BDA000017206852000736
与 
Figure BDA000017206852000737
的初始相似度值, 
Figure BDA000017206852000738
为 
Figure BDA000017206852000739
即 
Figure BDA000017206852000740
与 
Figure BDA000017206852000741
表示经过传播模型更新后的最终相似度值, 
Figure BDA000017206852000742
为 
Figure BDA000017206852000743
即 
Figure BDA000017206852000744
与 
Figure BDA000017206852000745
表示经过传播模型更新后的最终相似度值,而CYY、CYX、CXY分别为CII、CIA、CAI,εXX、εXY、εYX、εYY分别为εAA、εAI、εIA、εII。 
公式中的阈值计算公式为: 
&epsiv; II = &Sigma; i = 1 m &Sigma; j &Element; P II C II ( i , j ) &Sigma; i m N i , &epsiv; AA = &Sigma; i = 1 n &Sigma; n j &Element; P AA C AA ( i , j ) &Sigma; i n N i ,
&epsiv; IA = &Sigma; i = 1 m &Sigma; n j &Element; P IA C IA ( i , j ) &Sigma; i m N i , &epsiv; AI = &Sigma; i = 1 m &Sigma; n j &Element; P AI C AI ( i , j ) &Sigma; i n N i ,
其中εII εIA εAI εAA>0,下标I表示图像,A表示音频,m表示图像个数,n表示音频个数,m=n,εII、εIA、εAI、εAA分别表示图像与图像的阈值、图像与音频的阈值、音频与图像的阈值、音频与音频的阈值;计算CII的平均值,即图像与图像的平均相似度值,则PII表示训练集中图像与图像相似度值大于图像与图像平均相似度值的列下标的集合。同理PIA表示训练集中图像与音频相似度值大于图像与音频平均相似度值的列下标的集合。PAI表示训练集中音频与图像相似度值大于音频与图像平均相似度值的列下标的集合。PAA表示训练集中音频与音频相似度值大于音频与音频平均相似度值的列下标的集合。 
所述的根据更新后的相似度值进行二次检索,具体步骤如下: 
g)根据多媒体文档的平均相似度值计算公式分别计算待测试的对象(图像或者音频)dnew与训练集D={D1,...,Dc,...,DN}内各类多媒体文档得平均相似度值。 
若待测试dnew为图像即 则多媒体文档的平均相似度值计算公式为 
Aver ( d new I , D x ) = ( &Sigma; d i I &Element; D x Cor &prime; ( d new I , d i I ) + &Sigma; d j A &Element; D x Cor &prime; ( d new I , d j A ) ) / ( &Sigma; d i I &Element; D x &Sigma; d j A &Element; D x 1 ) ;
若待测试dnew为音频即 
Figure BDA00001720685200087
则多媒体文档的平均相似度值计算公式为 
Aver ( d new A , D x ) = ( &Sigma; d i I &Element; D x Cor &prime; ( d new A , d i I ) + &Sigma; d j A &Element; D x Cor &prime; ( d new A , d j A ) ) / ( &Sigma; d i I &Element; D x &Sigma; d j A &Element; D x 1 )
其中1≤x≤N,Dx表示训练集中第x类多媒体文档中的所有图像和音频, 和 
Figure BDA000017206852000810
分别为训练集中第x类的任意图像和音频;Cor′为最终相似度值,即括号里面的两参数 对应的两媒体对象的最终相似度值;Aver为平均相似度值即 
Figure BDA00001720685200091
表示待测试图像 
Figure BDA00001720685200092
与第x类多媒体文档的平均相似度值,同理 
Figure BDA00001720685200093
表示待测试音频 
Figure BDA00001720685200094
与第x类多媒体文档的平均相似度值。 
2)比较N个多媒体文档的平均相似度,最大的类平均相似度所属的类别就是该测试 
Figure BDA00001720685200095
或者 所属类别,即 
d new I &Element; { D y | Aver ( d new I , D y ) = max ( Aver ( d new I , D 1 ) , . . . Aver ( d new I , D c ) , . . . , Aver ( d new I , D N ) ) }
d new A &Element; { D y | Aver ( d new A , D y ) = max ( Aver ( d new A , D 1 ) , . . . Aver ( d new A , D c ) , . . . , Aver ( d new A , D N ) ) }
3)最大相似度所属的类别为y,分别按dnew与多媒体文档Dy中各个图像、音频的相似度值由大到小输出,并把相应的图像和音频显现给用户。 
有益效果:本发明提出了一种跨媒体间信息分析与检索的方法,该方法使用统计模型学习不同模态所携带的信息,解决了特征异构性的问题,缩小语义鸿沟、提高检索效率。又引入跨模态传播模型,利用不同模态数据之间的相关性、互补性,修正不同类型的多媒体数据之间的相关性度量结果。利用了迭代,发掘了图像和音频等不同模态之间的相互作用,避免了单一倚重一类特征造成的检索偏差;在每一步迭代中,一类特征的影响被传播到另一类特征中。由于在不同的多媒体对象(图像和音频)之间传播的是相似度值,可以缓解高维特征数据带来的空间复杂度过高的问题。本质上来说,这种迭代可以被看成是一种不同特征的非线性组合,更接近语义上相似性的本质。扩展该发明,用户可以提交任何一种模态的例子(可以是图像、音频、视频、文本等多媒体文档),去查询任意模态的多媒体对象信息,实现跨模态检索。因此,比传统的检索系统功能更强大。 
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。 
图1为本发明的系统框架图。 
具体实施方式
本发明一种跨媒体间信息分析与检索的方法的基本出发点是对多媒体文档进行语义融合,通过潜在变量(主题)将不同模态的多媒体对象映射到同一语义空间,一模态的多媒体对象可以被其他模态索引,从而实现跨模态检索,最后通过传播加强相关度,提高效率。 
本发明提出的一种跨媒体间信息分析与检索的方法实例如图1所示,具体如下: 
1)预处理模块:该模块实现对训练集的媒体对象(图像、音频)进行语义理解和建立统一的索引。该模块主要包括图像、音频预处理及特征提取、构建多媒体文档两个主要的算法。具体说明如下: 
a采集图像库、音频库:图像和音频的类别数、每类的个数相同;将音频分割为时间长度为5~10s的片段音频,分割的音频片段长度取决于所采集音频间的空白、规律性噪声等的分布情况。 
b图像、音频预处理及提取所有训练集中图像和音频的特征:提取图像dI、音频dA的特征,具体如下:用SIFT算法提取训练集中所有图像的特征,令视觉特征向量个数为NI,用NI个128维的视觉特征向量的集合表示每个图像dI,若图像dI中含该视觉特征向量则该维度值为1,否则为0,即每幅图像都是由一组0、1值所组成的视觉特征向量组成的; 
同理采用MFCC算法提取训练集中所有音频的特征,令听觉特征向量个数NA,用NA个21维的听觉特征向量的集合表示每个音频dA,其中若音频dA中含该听觉特征向量则该维度值为1,否则为0,即每段音频都是由一组0、1值所组成的听觉特征向量向量组成的; 
b构建多媒体文档:整合图像dI、音频dA的连续特征向量,并生成多媒体文档Dc,具体如下:对图像库、音频库进行归类处理,如果类别数为N,则生成N类由图像与音频共同组成的多媒体文档,则训练集D={D1,...,Dc,...,DN},1<C<N,每个多媒体文档Dc表示第C类图像和音频的集合,对于每个Dc又可表示成该类所有图像的视觉特征、音频的听觉特征的集合。 
2)训练学习模块:该模块是利用扩展概率潜在语义分析模型,构建多层的能够处理连续特征向量的多层连续概率潜在语义分析模型MC-PLSA,学习连续特征向量,实现多模态融合的阶段。该模态主要包括构建MC-PLSA模型关联参数及不对称学习算法学习参数。 
a构建多层连续概率潜在语义分析模型,该模型是一个概率统计模型,模型中的观察对为 和 
Figure BDA00001720685200112
其中Dc表示多媒体文档, 和 
Figure BDA00001720685200114
为多媒体单词, 
Figure BDA00001720685200115
表示视觉特征向量, 表示听觉特征向量,i∈1,...NI,j∈1,...,NA;使用主题参数Zk表示多媒体文档D和多媒体单词 
Figure BDA00001720685200117
和 之间的关联性;多媒体单词 
Figure BDA00001720685200119
和 满足多元高斯分布,即在主题参数zk条件下的视觉特征向量分布 
Figure BDA000017206852001111
在主题参数zk条件下的听觉特征向量分布 
Figure BDA000017206852001112
分别服从DimI维的高斯分布 和DimA维的高斯分布 
Figure BDA000017206852001114
DimI和DimA分别为视觉特征向量的维数和听觉特征向量的维数, 
Figure BDA000017206852001115
和 
Figure BDA000017206852001116
分别为DimI维的均值向量和DimI×DimI协方差矩阵, 
Figure BDA000017206852001117
和 
Figure BDA000017206852001118
分别为DimA维的均值向量和DimA×DimA协方差矩阵。 
b采用不对称的学习方法学习图像的视觉特征向量分布、音频的听觉特征向量分布及主题概率分布,因为不对称学习算法能在潜在空间的定义中更好地控制各个模态的数据产生的影响。模型采用最大期望算法(EM算法)来学习参数,E阶段和M阶段迭代执行,直至收敛。先学习其中的一种模态,对于另一模态则采用部分EM算法来学习,所谓部分EM算法就是EM算法的不完全版本,该算法在迭代过程中保持已知参数不变,不断更新未知参数来学习未知参数的过程。 
(1)训练集D={D1,...,Dc,...,DN},通过多层连续概率潜在语义分析模型学习图像dI,并用EM算法计算主题概率分布p(zk)、主题参数zk条件下的多媒体文档概率分布p(Dc|zk)、图像的均值向量 
Figure BDA000017206852001119
和协方差矩阵 均值向量 
Figure BDA000017206852001121
和协方差矩阵 
Figure BDA000017206852001122
的值等价于视觉特征向量的高斯分布; 
(2)学习音频dA,保持主题概率分布p(zk)和主题参数zk条件下的多媒体文档概 率分布p(Dc|zk)不变,用部分EM算法计算音频的均值向量 
Figure BDA00001720685200121
和协方差矩阵 音频的均值向量和协方差矩阵的值等价于音频连续特征的高斯分布; 
(3)根据图像dI的视觉特征向量和音频dA的听觉特征向量服从连续特征向量的高斯分布,学习主题参数zk条件下的图像概率分布p(dI|zk)和主题参数zk条件下的音频概率分布p(dA|zk),保持主题概率分布p(zk)、图像的均值向量 
Figure BDA00001720685200123
和协方差矩阵 
Figure BDA00001720685200124
的值不变,用部分EM算法计算主题参数zk条件下的图像概率分布p(dI|zk)的值; 
(4)保持主题概率分布p(zk)、音频的均值向量 
Figure BDA00001720685200125
和协方差矩阵 
Figure BDA00001720685200126
的值不变,用部分EM算法计算主题参数zk条件下音频概率分布p(dA|zk)的值; 
(5)已知主题参数zk条件下图像概率分布p(dI|zk)和主题参数zk条件下音频概率分布p(dA|zk),计算图像对应的主题概率分布p(zk|dI)和音频对应的主题概率分布p(zk|dA); 
3)初次检索模块:该模态实现跨模态检索:包括图像检索、音频检索、视频检索。用户可以提交图像、音频作为检索例子去查询任意模态的媒体对象。具体说明如下: 
a提取用户提交的待检索的图像的视觉特征向量或者音频的听觉特征向量,如果是图像则采用SIFT算法,音频则采用MFCC算法。 
b已知训练集中所有图像的视觉特征向量和音频的听觉特征向量服从的高斯分布、主题概率分布等相关信息,将待检索的图像的视觉特征向量或者音频的听觉特征向量作为输入,采用部分EM算法学习带检索的图像的主题概率分布及在主题参数zk条件下图像概率分布或者音频的主题概率分布及在主题参数zk条件下音频概率分布。 
c根据余弦夹角公式计算待检索得图像或者音频与训练集中的所有图像、音频的相似度,并生成四个初始关联矩阵CIA,CAI,CII,CAA。 
4)传播模块及二次检索:构建传播模型,对训练集中任意两媒体对象间都有一条边来连接,边上的权值为边连接的两媒体对象的相似度值,而相似度值根据所述四个关联矩阵获得。根据多媒体之间关系的传播来更新模态内模态间的相似度值:设置一 个阈值,边上的权值大于该阈值称之为强相关,否则为弱相关。根据dnew与训练集中图像或者音频生成的初始相似度值寻找对象间的强相关路径,所有强相关路径的相似度值累加来更作为dnew与训练集中图像或者音频的最终的相似度值。 
根据传播模型更新相似度,提高检索效率。传播模型的原理如下:已知对象a、b、c、d四点,a与b之间本来是没有关系的,即 
Figure BDA00001720685200131
但是a→c,c→d,d→b,则a与b之间的关联度增强,即a→b。计算待检索图像或者音频与训练集中的各类多媒体文档的平均相似度,待检索图像或者音频与每个类中的所有对象的相似度平均值越大,该待检索对象属于该类别的可能性越高。确认dnew的归属类之后,由高到低分别输出该类中图像和音频与待检索图像或者音频的相似度,呈现给用户。 
本发明的一种应用例如在多模态环境中输入一段音频,可自动识别该音频及检索出相关图像,如知道老虎的叫声就可以检索出老虎的图像;降低不同类别视觉相似出错率,例如猫和老虎,视觉上相似,然而两者的叫声是不一样的,通过传播模型音频可以排除不必要的干扰。该方法可节省大量人工开销,一目了然。该方法在进行多媒体语义理解时,不仅仅单独依靠图像或者音频,而是将多媒体内的全体对象进行融合后综合分析所携带的信息进行予以理解,因此该方法具有较高的检索效率,具有较高的通用性,多样化,智能化。 
实施例1 
假设有10000幅图像和10000个音频片段,每类500个,20类,则可构造多媒体文档为20个,每个多媒体文档包含1000个多媒体对象(500个图像和500个音频)。首先提取所有图像的SIFT特征,把每幅图像表示成128维的视觉特征向量的集合,接着提取所有音频的MFCC特征,每段音频表示成21维的听觉特征向量的集合。构造多媒体文档,对图像-音频数据库进行归类处理,生成训练集D={D1,...,Dc,...,DN}.,每个多媒体文档Dc是C类图像和音频的集合。已知多媒体文档的信息,采用MC-PLSA模型学习多媒体文档及其特征,MC-PLSA模型主要采用EM期望最大值及不对称学习法学习相关参数。用户输入待检索的多媒体对象(图像或者音频),首先提取其视觉特征向量或者听觉特征向量,再利用模型学习,主题概率分布p(zk)和在主题参数zk条件 下的视觉特征向量概率分布或者在主题参数zk条件下的听觉特征向量分布保持不变,学习在主题参数zk条件下的待测试图像概率分布或者在主题参数zk条件下的待测试音频概率分布。根据已知参数,生成四个关联矩阵CIA,CAI,CII,CAA。对于传播模型,有一个阈值,这是一个调节传播模型的参数,根据实验情况调整。播模型的原理如下:已知对象a、b、c、d,a与b之间本来是没有关系的,即 
Figure BDA00001720685200141
但是a→c,c→d,d→b,则a与b之间的关联度增强,即a→b。更新待检索对象与库中的多媒体文档的关联矩阵值。计算类平均相似度,待检索对象与每个类中的所有对象的相似度平均值越大,该待检索对象属于该类的可能性越高。确认归属类之后,由高到低输出该类图像和音频与待检索对象的相似度,呈现给用户。 
实施例2 
用户通过提交一段老虎叫声的音频片段去查询图像返回的前20个结果,其检索过程如下:当用户提交老虎叫声的音频片段作为检索例子的时候,系统首先根据该音频片段的音频特征进行模型学习,找到片段所属的多媒体语义空间的主题概率分布。然后根据数据库内所有的多媒体对象与查询例子的主题概率分布的余弦夹角值作为相似度,并形成四个关联矩阵CIA,CAI,CII,CAA。然后根据传播模型更新四个关联矩阵的值,也就是更新数据库内所有的多媒体对象与查询例子的相似度值。并计算查询例子与每类的多媒体文档的平均相似度值,拥有最大值的那类为查询例子的归属类。对该类的全体多媒体对象与查询例子的相似度值进行降序排序,把前20个相关度高的结果呈现给用户。 
本发明提供了一种跨媒体间信息分析与检索的方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。 

Claims (7)

1.一种跨媒体间信息分析与检索的方法,其特征在于,包含如下步骤:
(1)对多模态信息进行语义融合处理;
(2)根据概率潜在语义分析模型扩展得到用于处理连续特征向量的多层连续概率潜在语义分析模型;
(3)采用不对称学习方法学习多层连续概率潜在语义分析模型,计算图像的视觉特征向量分布、音频的听觉特征向量分布,以及主题概率分布;
(4)用户提交测试的媒体对象作为检索例子,计算检索例子中图像、音频的模态内和模态间的初始相似度值;
(5)构建传播模型,根据传播模型更新模态内和模态间的相似度值;
(6)根据更新后的相似度值进行二次检索。
2.根据权利要求1所述的一种跨媒体间信息分析与检索的方法,其特征在于,步骤(1)包括如下步骤:
a)采集图像库、音频库:图像和音频的类别数以及每类的个数相同,令类别数为N;将音频分割为时间长度为5~10s片段的音频;把图像库和音频库的整体分为训练集和测试集;
b)提取所有训练集中图像和音频的特征,并生成多媒体文档,包括如下步骤:
提取训练集中所有图像的SIFT特征,令视觉特征向量个数为NI,用NI个128维的视觉特征向量的集合表示每个图像dI,若图像dI中含该视觉特征向量则该维度值为1,否则为0,即每幅图像都是由一组0、1值所组成的视觉特征向量组成;
提取训练集中所有音频的MFCC特征,令听觉特征向量个数为NA,用NA个21维的听觉特征向量的集合表示每个音频dA,其中若音频dA中含该听觉特征向量则该维度值为1,否则为0,即每段音频都是由一组0、1值所组成的听觉特征向量组成;
对图像库、音频库进行归类处理:生成N类由图像与音频共同组成的多媒体文档,则将训练集表示为D={D1,...,Dc,...,DN},1<C<N,每个多媒体文档Dc表示第C类图像和音频的集合。
3.根据权利要求2所述的一种跨媒体间信息分析与检索的方法,其特征在于,步骤(2)包括如下步骤:
c)设置主题参数Zk,k∈1,...,K,20<K<100;
d)构建多层连续概率潜在语义分析模型,学习多模态信息,模型中的观察对为
Figure FDA00001720685100021
Figure FDA00001720685100022
其中Dc表示多媒体文档,
Figure FDA00001720685100023
Figure FDA00001720685100024
为多媒体单词,
Figure FDA00001720685100025
表示视觉特征向量,
Figure FDA00001720685100026
表示听觉特征向量,i∈1,...NI,j∈1,...,NA
使用主题参数Zk表示多媒体文档Dc和多媒体单词
Figure FDA00001720685100027
Figure FDA00001720685100028
之间的关联性;多媒体单词
Figure FDA00001720685100029
Figure FDA000017206851000210
满足多元高斯分布,即在主题参数zk条件下的视觉特征向量分布
Figure FDA000017206851000211
和在主题参数zk条件下的听觉特征向量分布
Figure FDA000017206851000212
分别服从DimI维的高斯分布
Figure FDA000017206851000213
和DimA维的高斯分布
Figure FDA000017206851000214
DimI和DimA分别为视觉特征向量的维数和听觉特征向量的维数,
Figure FDA000017206851000216
分别为DimI维的均值向量和DimI×DimI协方差矩阵,
Figure FDA000017206851000217
Figure FDA000017206851000218
分别为DimA维的均值向量和DimA×DimA协方差矩阵。
4.根据权利要求3所述的一种跨媒体间信息分析与检索的方法,其特征在于,多层连续概率潜在语义分析模型中采用不对称学习方法学习模型参数,具体步骤如下:
e)根据训练集D={D1,...,Dc,...,DN},通过多层连续概率潜在语义分析模型学习图像dI,计算主题概率分布p(zk)、主题参数条件下的多媒体文档概率分布p(Dc|zk)、图像的均值向量
Figure FDA000017206851000219
和协方差矩阵均值向量
Figure FDA000017206851000221
和协方差矩阵
Figure FDA000017206851000222
的值等价于视觉特征向量的高斯分布;
学习音频dA,保持主题概率分布p(zk)和主题参数条件下的多媒体文档概率分布p(Dc|zk)不变,计算音频的均值向量
Figure FDA000017206851000223
和协方差矩阵
Figure FDA000017206851000224
音频的均值向量和协方差矩阵的值等价于听觉特征向量的高斯分布;
根据图像dI的视觉特征向量和音频dA的听觉特征向量服从能够模拟连续特征向量分布的高斯分布,学习主题参数zk条件下的图像概率分布p(dI|zk)和主题参数zk条件下的音频概率分布p(dA|zk),保持主题概率分布p(zk)、图像的均值向量
Figure FDA000017206851000225
和协方差矩阵
Figure FDA000017206851000226
的值不变,计算主题参数zk条件下的图像概率分布p(dI|zk);
保持主题概率分布p(zk)、音频的均值向量
Figure FDA00001720685100031
和协方差矩阵
Figure FDA00001720685100032
的值不变,计算主题参数zk条件下的音频概率分布p(dA|zk);
根据主题参数zk条件下的图像概率分布p(dI|zk)和主题参数zk条件下的音频概率分布p(dA|zk),计算图像对应的主题概率分布p(zk|dI)和音频对应的主题概率分布p(zk|dA);
f)构建四个关联矩阵,由余弦夹角公式计算两个媒体对象
Figure FDA00001720685100033
Figure FDA00001720685100034
之间的相似度
Figure FDA00001720685100035
由图像、音频的相似度生成四个关联矩阵:图像与音频矩阵CIA,音频与图像矩阵CAI,图像与图像矩阵CII,音频与音频矩阵CAA
5.根据权利要求4所述的一种跨媒体间信息分析与检索的方法,其特征在于,所述的用户提交测试集的媒体对象作为检索例子,计算图像、音频的模态内和模态间的初始相似度值,其步骤如下:取待测试图像或者音频dnew,提取待测试图像的视觉特征向量或者音频的听觉特征向量,并计算视觉特征向量或者听觉特征向量的主题概率分布;采用部分EM算法计算待测试图像或者音频与训练集中每个图像、音频的相似度,生成模态内相似度
Figure FDA00001720685100036
和模态间相关度
Figure FDA00001720685100037
其中标识符(X,X)表示同模态,标识符(X,Y)表示不同模态。
6.根据权利要求5所述的一种跨媒体间信息分析与检索的方法,其特征在于,所述的根据传播模型更新模态内和模态间的相似度值,其步骤如下:构建传播模型,对训练集中任意两个媒体对象间都用一条边连接,边上的权值为边连接的两对象的相似度值,相似度值由所述四个关联矩阵表示;根据多媒体之间关系的传播来更新模态内模态间的相似度值:设置一个阈值,边上的权值大于此阈值称之为强相关,否则称为弱相关,根据待测试的图像或者音频dnew与训练集中图像、音频生成的初始相似度值寻找对象间的强相关路径,所有强相关路径的相似度值累加作为待测试的图像或者音频dnew与训练集中图像、音频的最终相似度值。
7.根据权利要求6所述的一种跨媒体间信息分析与检索的方法,其特征在于,所述的根据更新后的相似度值进行二次检索,具体步骤如下:
g)分别计算待测试的图像或者音频dnew与训练集D={D1,...,Dc,...,DN}内各类多媒体文档的平均相似度值,比较N个多媒体文档的平均相似度的值,最大的平均相似度所属的类别就是该测试对象所属类别;
若待测试图像或者音频dnew为图像则记为
Figure FDA00001720685100041
多媒体文档的平均相似度值计算公式为:
Aver ( d new I , D x ) = ( &Sigma; d i I &Element; D x Cor &prime; ( d new I , d i I ) + &Sigma; d j A &Element; D x Cor &prime; ( d new I , d j A ) ) / ( &Sigma; d i I &Element; D x &Sigma; d j A &Element; D x 1 ) ;
若待测试图像或者音频dnew为音频则记为多媒体文档的平均相似度值计算公式为:
Aver ( d new A , D x ) = ( &Sigma; d i I &Element; D x Cor &prime; ( d new A , d i I ) + &Sigma; d j A &Element; D x Cor &prime; ( d new A , d j A ) ) / ( &Sigma; d i I &Element; D x &Sigma; d j A &Element; D x 1 ) ;
Cor'表示最终相似度值;
h)如果最大相似度所属的类别为y,分别按待测试的图像或者音频dnew与第y类的多媒体文档Dy中各个图像、音频的相似度值由大到小输出,根据相似度由大到小返回相关图像或者音频。
CN2012101807822A 2012-06-04 2012-06-04 一种跨媒体间信息分析与检索的方法 Pending CN102693321A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012101807822A CN102693321A (zh) 2012-06-04 2012-06-04 一种跨媒体间信息分析与检索的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012101807822A CN102693321A (zh) 2012-06-04 2012-06-04 一种跨媒体间信息分析与检索的方法

Publications (1)

Publication Number Publication Date
CN102693321A true CN102693321A (zh) 2012-09-26

Family

ID=46858754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101807822A Pending CN102693321A (zh) 2012-06-04 2012-06-04 一种跨媒体间信息分析与检索的方法

Country Status (1)

Country Link
CN (1) CN102693321A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412908A (zh) * 2013-08-01 2013-11-27 西北工业大学 一种基于相似性矩阵融合的音频数据检索方法
CN104167211A (zh) * 2014-08-08 2014-11-26 南京大学 基于分层事件检测和上下文模型的多源场景声音摘要方法
CN104679902A (zh) * 2015-03-20 2015-06-03 湘潭大学 一种结合跨媒体融合的信息摘要提取方法
CN105574132A (zh) * 2015-12-15 2016-05-11 海信集团有限公司 一种多媒体文件推荐方法和终端
CN105590020A (zh) * 2014-11-05 2016-05-18 摩福公司 改进的数据比较方法
CN105677830A (zh) * 2016-01-04 2016-06-15 北京大学 一种基于实体映射的异构媒体相似性计算方法及检索方法
CN111651577A (zh) * 2020-06-01 2020-09-11 全球能源互联网研究院有限公司 跨媒体数据关联分析模型训练、数据关联分析方法及系统
CN113536067A (zh) * 2021-07-20 2021-10-22 南京邮电大学 一种基于语义融合的跨模态信息检索方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1920818A (zh) * 2006-09-14 2007-02-28 浙江大学 基于多模态信息融合分析的跨媒体检索方法
CN101021849A (zh) * 2006-09-14 2007-08-22 浙江大学 基于内容相关性的跨媒体检索方法
CN101334796A (zh) * 2008-02-29 2008-12-31 浙江师范大学 一种个性化及协同化融合的网上多媒体检索与查询方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1920818A (zh) * 2006-09-14 2007-02-28 浙江大学 基于多模态信息融合分析的跨媒体检索方法
CN101021849A (zh) * 2006-09-14 2007-08-22 浙江大学 基于内容相关性的跨媒体检索方法
CN101334796A (zh) * 2008-02-29 2008-12-31 浙江师范大学 一种个性化及协同化融合的网上多媒体检索与查询方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WANXIA LIN: "《Advances in Multimedia Modeling》", 6 January 2012, article "A Novel Multi-modal Integration and Propagation Model for Cross-Media Information Retrieval", pages: 741-748 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412908A (zh) * 2013-08-01 2013-11-27 西北工业大学 一种基于相似性矩阵融合的音频数据检索方法
CN103412908B (zh) * 2013-08-01 2016-08-10 西北工业大学 一种基于相似性矩阵融合的音频数据检索方法
CN104167211A (zh) * 2014-08-08 2014-11-26 南京大学 基于分层事件检测和上下文模型的多源场景声音摘要方法
CN104167211B (zh) * 2014-08-08 2017-03-22 南京大学 基于分层事件检测和上下文模型的多源场景声音摘要方法
CN105590020A (zh) * 2014-11-05 2016-05-18 摩福公司 改进的数据比较方法
CN105590020B (zh) * 2014-11-05 2021-04-20 摩福公司 改进的数据比较方法
CN104679902B (zh) * 2015-03-20 2017-11-28 湘潭大学 一种结合跨媒体融合的信息摘要提取方法
CN104679902A (zh) * 2015-03-20 2015-06-03 湘潭大学 一种结合跨媒体融合的信息摘要提取方法
CN105574132A (zh) * 2015-12-15 2016-05-11 海信集团有限公司 一种多媒体文件推荐方法和终端
CN105677830B (zh) * 2016-01-04 2019-01-18 北京大学 一种基于实体映射的异构媒体相似性计算方法及检索方法
CN105677830A (zh) * 2016-01-04 2016-06-15 北京大学 一种基于实体映射的异构媒体相似性计算方法及检索方法
CN111651577A (zh) * 2020-06-01 2020-09-11 全球能源互联网研究院有限公司 跨媒体数据关联分析模型训练、数据关联分析方法及系统
CN111651577B (zh) * 2020-06-01 2023-04-21 全球能源互联网研究院有限公司 跨媒体数据关联分析模型训练、数据关联分析方法及系统
CN113536067A (zh) * 2021-07-20 2021-10-22 南京邮电大学 一种基于语义融合的跨模态信息检索方法
CN113536067B (zh) * 2021-07-20 2024-01-05 南京邮电大学 一种基于语义融合的跨模态信息检索方法

Similar Documents

Publication Publication Date Title
CN102693321A (zh) 一种跨媒体间信息分析与检索的方法
CN106372061B (zh) 基于语义的短文本相似度计算方法
US7739286B2 (en) Topic specific language models built from large numbers of documents
US8538898B2 (en) Interactive framework for name disambiguation
US8027977B2 (en) Recommending content using discriminatively trained document similarity
US20120323968A1 (en) Learning Discriminative Projections for Text Similarity Measures
US20150363688A1 (en) Modeling interestingness with deep neural networks
US20150310073A1 (en) Finding patterns in a knowledge base to compose table answers
CN107895000B (zh) 一种基于卷积神经网络的跨领域语义信息检索方法
CN111160037A (zh) 一种支持跨语言迁移的细粒度情感分析方法
CN104657496A (zh) 一种计算信息热度值的方法和设备
JP2005526317A (ja) ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム
CN106844350A (zh) 一种短文本语义相似度的计算方法
CN107220311B (zh) 一种利用局部嵌入话题建模的文本表示方法
CN101561805A (zh) 文档分类器生成方法和系统
CN103488713A (zh) 一种可直接度量不同模态数据间相似性的跨模态检索方法
CN110134799B (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
CN110688474B (zh) 基于深度学习与链接预测的嵌入表示获得及引文推荐方法
CN106934055B (zh) 一种基于不充分模态信息的半监督网页自动分类方法
CN115630640A (zh) 一种智能写作方法、装置、设备及介质
US8762300B2 (en) Method and system for document classification
Lin et al. A simple but effective method for Indonesian automatic text summarisation
CN106021402A (zh) 用于跨模态检索的多模态多类Boosting框架构建方法及装置
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN114995903A (zh) 一种基于预训练语言模型的类别标签识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120926