CN110442736A - 一种基于二次判别分析的语义增强子空间跨媒体检索方法 - Google Patents

一种基于二次判别分析的语义增强子空间跨媒体检索方法 Download PDF

Info

Publication number
CN110442736A
CN110442736A CN201910759436.1A CN201910759436A CN110442736A CN 110442736 A CN110442736 A CN 110442736A CN 201910759436 A CN201910759436 A CN 201910759436A CN 110442736 A CN110442736 A CN 110442736A
Authority
CN
China
Prior art keywords
text
image
matrix
subspace
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910759436.1A
Other languages
English (en)
Other versions
CN110442736B (zh
Inventor
刘新亮
陈念
高彦平
洪坤明
高圣乔
张腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Technology and Business University
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN201910759436.1A priority Critical patent/CN110442736B/zh
Publication of CN110442736A publication Critical patent/CN110442736A/zh
Application granted granted Critical
Publication of CN110442736B publication Critical patent/CN110442736B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

一种基于二次判别分析的语义增强子空间跨媒体检索方法,包括:提取图像和文本数据的原始特征表示,构建相应的训练数据集和测试数据集;通过二次判别分析分别建立图像和文本数据的语义增强子空间,分别计算图像和文本数据的相似性矩阵;根据图像和文本数据的语义增强子空间,将其相似性矩阵通过一个映射模型投影到一个公共语义子空间,在公共语义子空间中通过相似性度量的方法计算图像文本对之间的相似性矩阵;通过训练数据集分别求出图像检索文本和文本检索图像对应的映射矩阵参数;基于图像检索文本和文本检索图像对应的映射矩阵参数,运用测试集进行图像检索文本和文本检索图像的跨媒体检索。

Description

一种基于二次判别分析的语义增强子空间跨媒体检索方法
技术领域
本发明属于跨媒体检索技术领域,尤其涉及一种基于二次判别分析的语义增强子空间跨媒体检索方法。
背景技术
随着互联网信息技术的不断发展,多媒体信息资源呈现爆发性增长,多媒体表现形式也越来越丰富,从单一的文本形式已经扩展到包含文本、图像、视频、音频和3D模型等多种表现形式。由于不同类型的多媒体数据之间会表达同一种语义类别,因此人们可以通过一种类型的媒体数据查询到具有相同语义的其他数据,实现跨媒体检索。当前机器学习理论飞速发展,使跨媒体检索方法得到极大的提升,而如何提高跨媒体检索准确性成为当今亟需解决的问题。跨媒体检索方法从最初的基于关键字标签的搜索方法,通过对多媒体数据进行关键字标注,然后根据关键字查询相关数据,像当今的百度、谷歌等公司采用的就是基于关键字的搜索,但由于关键字标签需要耗费大量的人力和时间,易受外界因素干扰,降低跨媒体检索的准确性。于是产生了基于内容的搜索方法,通过提取数据的底层特征,加以分析和变换,找到最具代表媒体数据的特征,通过相似性度量等方法进行跨媒体检索,然而这种方法在特征转换过程中会造成大量的语义信息丢失,降低跨媒体检索的准确性。于是目前产生了基于语义的搜索方法,通过提取数据的底层特征,将特征映射到公共子空间中,在公共子空间中运用相似性度量等方法计算不同类型媒体数据之间的相关性,目前基于语义的检索方法在特征的映射过程中会造成语义信息的丢失,降低检索的准确性。
由于不同类型的媒体数据之间存在着“异构鸿沟”的问题,为解决这个问题,在处理图像和文本的检索任务中,很多已有的研究都采用子空间学习的方法。
由于图像和文本数据之间包含着大量的杂乱信息,传统的子空间学习方法无法有效的对图像特征和文本特征进行区分来改善检索结果。
发明内容
本发明针对上述问题:为克服现有技术的不足,本发明提供一种基于二次判别分析的语义增强子空间跨媒体检索方法,本方法分别提供图像和文本的语义增强子空间,并采用文本检索图像和图像检索文本来学习映射模型,极大的提高了检索的准确率。
为实现上述目的,提出本发明的技术方案:一种基于二次判别分析的语义增强子空间跨媒体检索方法,用于解决跨媒体检索映射过程中语义信息丢失的问题,并加强图像和文本特征之间的区分度。应用二次判别分析的方法训练图像和文本的语义增强子空间,并采用文本检索图像和图像检索文本来学习映射模型,减少语义信息的丢失,提高跨媒体检索准确性的目的。
本发明的技术方案包括:提取图像和文本数据的原始特征表示,获取图像和文本的训练集和测试集;根据二次判别分析建立图像和文本的语义增强子空间,图像和文本在其子空间中计算其相似性矩阵;根据所述的图像和文本数据的语义增强子空间,将其相似性矩阵通过一个映射模型投影到一个公共语义子空间,在公共语义子空间中通过相似性度量的方法计算图像文本对之间的相似性矩阵;通过训练数据集分别求出图像检索文本和文本检索图像对应的映射矩阵参数;基于图像检索文本和文本检索图像对应的映射矩阵参数,运用测试集进行图像检索文本和文本检索图像的跨媒体检索。
具体步骤如下:
(1)采用CNN卷积神经网络提取图像原始特征表示,采用主题特征提取方法提取文本数据的原始特征表示:设有n组训练数据,其图像特征表示为I={i1,i2,i3....,in},其文本特征表示为T={t1,t2,t3....,tn};
(2)在文本语义增强子空间中根据每个类文本特征和所有文本特征的均值,计算文本特征的类内散度矩阵和总体散度矩阵,将文本的类内散度矩阵和类间散度矩阵代入二次判别分析公式,得到文本的二次判别分析的目标函数,运用文本的二次判别分析的目标函数,计算文本的相似性矩阵XT
在图像语义增强子空间中根据每个类图像特征和所有图像特征的均值,计算图像特征的类内散度矩阵和总体散度矩阵,将图像的类内散度矩阵和类间散度矩阵代入二次判别分析公式,得到图像的二次判别分析的目标函数,运用图像的二次判别分析的目标函数,计算图像的相似性矩阵YI
(3)建立图像检索文本和文本检索图像的映射矩阵,将图像和文本的相似性矩阵投影到一个公共语义子空间,在公共语义子空间中通过相似性度量的方法计算图像文本对之间的相似性矩阵;
(4)文本检索图像的映射模型为:
其中XT为文本的相似性矩阵,YI为图像的相似性矩阵,U1为文本的映射矩阵,V1为图像的映射矩阵,λ、α、β为正则化参数,Ψa T代表文本的类内散度矩阵,Ψb T代表文本的总体散度矩阵。
(5)图像检索文本的映射模型为:
其中XT为文本的相似性矩阵,YI为图像的相似性矩阵,U2为文本的映射矩阵,V2为图像的映射矩阵,λ、α、β为正则化参数,Ψa I代表图像的类内散度矩阵,Ψb I代表文本的总体散度矩阵。
(6)通过训练数据集分别求出图像检索文本和文本检索图像对应的映射矩阵参数。
(7)基于图像检索文本和文本检索图像对应的映射矩阵参数,运用测试集进行图像检索文本和文本检索图像的跨媒体检索。
本发明与现有跨媒体检索方法相比的优点在于:
(1)本发明通过利用二次判别分析的方法分别建立图像语义增强子空间和文本语义增强子空间,并根据不同的检索任务训练不同的映射模型,将图像和文本特征投影到一个公共语义子空间,进行图像文本对之间相关性计算。该方法使图像和文本数据之间的噪音影响更低,提高图像和文本特征之间的区分度,减少映射过程中的语义信息丢失,提高跨媒体检索的准确性。
附图说明
图1为本发明中基于二次判别分析的语义增强子空间跨媒体检索方法的流程图;
图2是本发明中训练映射矩阵模型的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行描述。其中,附图1描述了基于二次判别分析的子空间语义增强跨媒体检索方法处理过程。
如图1所示,本发明具体的实现步骤:
(1)提取图像和文本数据的原始特征表示,获取图像和文本的训练集和测试集,具体包括:输入图像和文本数据集,提取图像和文本数据的原始特征表示,图像的原始特征矩阵表示为I=[i1,i2,i3,....in]∈Rn×p,其中ii表示每一个图像样本的原始特征向量,p为图像特征表示的维度,文本的原始特征矩阵表示为T=[t1,t2,t3,....tn]∈Rn×q,其中Ti表示每一个图像样本的原始特征向量,q为文本特征表示的维度。n为样例个数,R表示图像或者文本的维度矩阵,设数据集有k个类别,S=[s1,s2,s3,....sn]∈Rn×k是语义类别矩阵。设文本的映射矩阵为U∈Rk×q,图像的映射矩阵为V∈Rk×p。将数据集的70%样本作为训练,30%样本作为测试。
(2)创建图像和文本的语义增强子空间,包括:计算第i类中图像特征的均值,计算所有图像特征的均值,计算图像特征的类内散度矩阵和类间散度矩阵;计算第j类中文本特征的均值,计算所有文本特征的均值,计算文本特征的类内散度矩阵和总体散度矩阵。
wi表示第i类图像特征的均值,w表示图像特征的总体均值,n表示样本总数,Ωi表示第i个类别,P(Ωi)表示属于该类别的概率,I为每一个图像样本。则图像的类内散度矩阵Ψa I和总体散度矩阵Ψb I分别表示为:
mj表示第j类文本特征的均值,m表示文本特征的总体均值,n表示样本总数,Ωj表示第j个类别,P(Ωj)表示属于该类别的概率,T为每一个文本样本。则文本的类内散度矩阵Ψa T和总体散度矩阵Ψb T分别表示为:
分别将图像和文本的类内散度矩阵和总体散度矩阵代入二次判别分析的公式,得到图像和文本特征的目标函数如下所示:
根据图像和文本特征的目标函数计算得出文本和图像的相关性矩阵XT、YI
(3)建立图像和文本特征的映射模型,将图像和文本特征投影到一个公共语义子空间,在公共语义子空间中通过相似性度量的方法计算图像文本对之间的相似性矩阵Ω,其中包括:用于在子空间学习中确保图像文本对的相关项;用于提升文本特征或图像特征判别的正则化项;用于针对不同的检索任务学习映射矩阵的线性投影项;用于控制映射矩阵的正则化项,防止训练过程中数据过拟合。
用于在子空间学习中确保图像文本对的相关项:
用于提升文本特征或图像特征判别的正则化项:
用于针对不同的检索任务学习映射矩阵的线性投影项:
Q(U,V)=α(tr(UTXTU)-tr(VTYIV)+2tr(UTXTYIV))
用于控制映射矩阵的正则化项:
通过以上分析,得到关于U和V的最优化问题:
min F(U,V)=L(U,V)+Q(U,V)+R(U,V)+R(U,V)
以此可以得到文本检索图像的映射模型:
其中XT为文本的相似性矩阵,YI为图像的相似性矩阵,U1为文本的映射矩阵,V1为图像的映射矩阵,λ、α、β为正则化参数,Ψa T代表文本的类内散度矩阵,Ψb T代表文本的总体散度矩阵。
图像检索文本的映射模型:
其中XT为文本的相似性矩阵,YI为图像的相似性矩阵,U2为文本的映射矩阵,V2为图像的映射矩阵,λ、α、β为正则化参数,Ψa I代表图像的类内散度矩阵,Ψb I代表文本的总体散度矩阵。
通过映射模型将图像和文本特征投影到一个公共语义子空间,运用欧氏距离计算图片文本对的相关性,得到图像文本对的相似性矩阵Ω:
(ti,ii)表示第i对具有相同语义的图像文本特征。
(4)对文本检索图像映射模型和图像检索文本映射模型分别输入训练集进行训练。具体的训练过程包括:
输入训练样本的特征矩阵和语义类别矩阵;设置迭代过程的步长,设置收敛条件,初始化投影矩阵,初始化参数;计算图像和文本在语义增强子空间中的相似性矩阵和映射矩阵;在公共语义子空间中计算;优化映射模型,执行文本检索图像和图像检索文本;更新权重,重复映射模型优化步骤,直至映射模型收敛。
(5)输入测试集,进行测试。采用总平均精确度MAP值用来评价跨媒体检索的性能。计算公式如下:
n表示返回样本的数量,R表示相关样本的数量,Rk表示返回相关k结果的数量,rel(k)表示如果第k个样本相关,rel(k)=1,否则rel(k)=0;N表示被检索集里样本数量,hi表示查询的样本。

Claims (7)

1.一种基于二次判别分析的语义增强子空间跨媒体检索方法,其特征在于,所述包括以下步骤:
(1)提取图像和文本数据的原始特征表示,获取图像和文本的训练集和测试集:利用CNN深度卷积神经网络提取图像的原始特征向量,利用主题特征提取方法提取文本特征向量;
(2)根据二次判别分析建立图像和文本的语义增加子空间,图像和文本在其子空间中计算其相似性矩阵;
(3)根据所述的图像和文本数据的语义增强子空间,将其相似性矩阵通过一个映射模型投影到一个公共语义子空间,在公共语义子空间中通过相似性度量的方法计算图像文本对之间的相似性矩阵;
(4)通过训练数据集分别求出图像检索文本和文本检索图像对应的映射矩阵参数;
(5)基于图像检索文本和文本检索图像对应的映射矩阵参数,运用测试集进行图像检索文本和文本检索图像的跨媒体检索。
2.根据权利要求1所述的基于二次判别分析的语义增强子空间跨媒体检索方法,其特征在于:所述步骤(1)中,分别提取图像和文本数据的特征表示:设有n组训练数据,其图像特征表示为I={i1,i2,i3....,in},其文本特征表示为T={t1,t2,t3....,tn}。
3.根据权利要求1所述的基于二次判别分析的语义增强子空间跨媒体检索方法,其特征在于:在步骤(2)中,所述的图像语义增强子空间和文本语义增强子空间的建立方法包括:
在文本语义增强子空间中根据每个类文本特征和所有文本特征的均值,计算文本特征的类内散度矩阵和总体散度矩阵,将文本的类内散度矩阵和总体散度矩阵代入二次判别分析公式,得到文本的二次判别分析的目标函数,运用文本的二次判别分析的目标函数,计算文本的相似性矩阵XT
在图像语义增强子空间中根据每个类图像特征和所有图像特征的均值,计算图像特征的类内散度矩阵和总体散度矩阵,将图像的类内散度矩阵和总体散度矩阵代入二次判别分析公式,得到图像的二次判别分析的目标函数,运用图像的二次判别分析的目标函数,计算图像的相似性矩阵YI
4.根据权利要求1所述的基于二次判别分析的语义增强子空间跨媒体检索方法,其特征在于:在步骤(3)中,所述映射模型包括:
用于在子空间学习中确保图像文本对的相关项;
用于提升文本特征或图像特征判别的正则化项,采用二次判别分析的目标函数;
用于针对不同的检索任务学习映射矩阵的线性投影项;
用于控制映射矩阵的正则化项;
设语义类别矩阵为S;
相似性度量采用欧式距离计算。
5.根据权利要求1所述的基于二次判别分析的语义增强子空间跨媒体检索方法,其特征在于,所述的文本检索图像映射模型为:
其中XT为文本的相似性矩阵,YI为图像的相似性矩阵,U1为文本的映射矩阵,V1为图像的映射矩阵,λ、α、β为正则化参数,Ψa T代表文本的类内散度矩阵,Ψb T代表文本的总体散度矩阵。
6.根据权利要求1所述的基于二次判别分析的语义增强子空间跨媒体检索方法,其特征在于,所述的图像检索文本映射模型为:
其中XT为文本的相似性矩阵,YI为图像的相似性矩阵,U2为文本的映射矩阵,V2为图像的映射矩阵,λ、α、β为正则化参数,Ψa I代表图像的类内散度矩阵,Ψb I代表文本的总体散度矩阵。
7.根据权利要求5或6所述的基于二次判别分析的语义增强子空间跨媒体检索方法,其特征在于:所述文本检索图像映射模型,通过固定文本投影矩阵求解图像投影矩阵;所述图像检索文本映射模型,通过固定图像投影矩阵求解文本投影矩阵。
CN201910759436.1A 2019-08-16 2019-08-16 一种基于二次判别分析的语义增强子空间跨媒体检索方法 Active CN110442736B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910759436.1A CN110442736B (zh) 2019-08-16 2019-08-16 一种基于二次判别分析的语义增强子空间跨媒体检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910759436.1A CN110442736B (zh) 2019-08-16 2019-08-16 一种基于二次判别分析的语义增强子空间跨媒体检索方法

Publications (2)

Publication Number Publication Date
CN110442736A true CN110442736A (zh) 2019-11-12
CN110442736B CN110442736B (zh) 2022-04-26

Family

ID=68436058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910759436.1A Active CN110442736B (zh) 2019-08-16 2019-08-16 一种基于二次判别分析的语义增强子空间跨媒体检索方法

Country Status (1)

Country Link
CN (1) CN110442736B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157959A (zh) * 2020-12-17 2021-07-23 云知声智能科技股份有限公司 基于多模态主题补充的跨模态检索方法、装置及系统
CN113435206A (zh) * 2021-05-26 2021-09-24 卓尔智联(武汉)研究院有限公司 一种图文检索方法、装置和电子设备
CN114168759A (zh) * 2020-09-11 2022-03-11 四川大学 基于跨媒体分析的科技数据检索技术
CN113157959B (zh) * 2020-12-17 2024-05-31 云知声智能科技股份有限公司 基于多模态主题补充的跨模态检索方法、装置及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101276461A (zh) * 2008-03-07 2008-10-01 北京航空航天大学 一种利用边缘特征的视频文本增强方法
CN103995903B (zh) * 2014-06-12 2017-04-12 武汉科技大学 基于同构子空间映射和优化的跨媒体检索方法
GB201817286D0 (en) * 2018-10-24 2018-12-05 Future Health Works Ltd Computer based object detection within a video or image
CN109376261A (zh) * 2018-10-29 2019-02-22 山东师范大学 基于中级文本语义增强空间的模态独立检索方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101276461A (zh) * 2008-03-07 2008-10-01 北京航空航天大学 一种利用边缘特征的视频文本增强方法
CN103995903B (zh) * 2014-06-12 2017-04-12 武汉科技大学 基于同构子空间映射和优化的跨媒体检索方法
GB201817286D0 (en) * 2018-10-24 2018-12-05 Future Health Works Ltd Computer based object detection within a video or image
CN109376261A (zh) * 2018-10-29 2019-02-22 山东师范大学 基于中级文本语义增强空间的模态独立检索方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张磊: ""跨媒体语义共享子空间学习研究进展"", 《计算机学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168759A (zh) * 2020-09-11 2022-03-11 四川大学 基于跨媒体分析的科技数据检索技术
CN113157959A (zh) * 2020-12-17 2021-07-23 云知声智能科技股份有限公司 基于多模态主题补充的跨模态检索方法、装置及系统
CN113157959B (zh) * 2020-12-17 2024-05-31 云知声智能科技股份有限公司 基于多模态主题补充的跨模态检索方法、装置及系统
CN113435206A (zh) * 2021-05-26 2021-09-24 卓尔智联(武汉)研究院有限公司 一种图文检索方法、装置和电子设备
CN113435206B (zh) * 2021-05-26 2023-08-01 卓尔智联(武汉)研究院有限公司 一种图文检索方法、装置和电子设备

Also Published As

Publication number Publication date
CN110442736B (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
CN107122375B (zh) 基于图像特征的图像主体的识别方法
WO2018010365A1 (zh) 一种跨媒体检索方法
CN106202256B (zh) 基于语义传播及混合多示例学习的Web图像检索方法
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
US20150178321A1 (en) Image-based 3d model search and retrieval
CN110059807A (zh) 图像处理方法、装置和存储介质
CN111428047B (zh) 一种基于ucl语义标引的知识图谱构建方法及装置
CN110472652B (zh) 基于语义引导的少量样本分类方法
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
JP2006510114A (ja) 概念モデル空間におけるコンテンツの表現及びこれを検索するための方法及び装置
CN102693299A (zh) 一种并行视频拷贝检测系统和方法
CN109376261B (zh) 基于中级文本语义增强空间的模态独立检索方法和系统
CN105701514A (zh) 一种用于零样本分类的多模态典型相关分析的方法
CN108595546B (zh) 基于半监督的跨媒体特征学习检索方法
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN105718940A (zh) 基于多组间因子分析的零样本图像分类方法
CN110046264A (zh) 一种面向手机文档的自动分类方法
CN103473308B (zh) 基于最大间隔张量学习的高维多媒体数据分类方法
CN103778206A (zh) 一种网络服务资源的提供方法
CN114565053A (zh) 基于特征融合的深层异质图嵌入模型
CN107357765A (zh) Word文档碎片化方法及装置
CN110442736A (zh) 一种基于二次判别分析的语义增强子空间跨媒体检索方法
CN115393666A (zh) 图像分类中基于原型补全的小样本扩充方法及系统
CN105678244A (zh) 一种基于改进编辑距离的近似视频检索方法
CN105740879A (zh) 基于多模态判别分析的零样本图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant