CN103559192A - 一种基于跨模态稀疏主题建模的跨媒体检索方法 - Google Patents

一种基于跨模态稀疏主题建模的跨媒体检索方法 Download PDF

Info

Publication number
CN103559192A
CN103559192A CN201310410634.XA CN201310410634A CN103559192A CN 103559192 A CN103559192 A CN 103559192A CN 201310410634 A CN201310410634 A CN 201310410634A CN 103559192 A CN103559192 A CN 103559192A
Authority
CN
China
Prior art keywords
sparse
theme
text
image
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310410634.XA
Other languages
English (en)
Inventor
吴飞
王东辉
王熙逵
汤斯亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201310410634.XA priority Critical patent/CN103559192A/zh
Publication of CN103559192A publication Critical patent/CN103559192A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于跨模态稀疏主题建模的跨媒体检索方法。它包括如下步骤:1)对于已有的跨模态多媒体数据进行联合分析,提取其中的主题特征;2)基于已有的图像和文本特征,分析出其中主题与特征之间的稀疏关联,筛选特征与主体之间的相关性,并为跨模态多媒体文档提供相应的主题空间表示;3)根据用户检索的图像或文本信息,在稀疏主题空间中提供跨模态的多媒体检索同能,返回相关主题的图像和文本检索结果。由于本发明在对文本与图像进行投影时,采用稀疏的约束方式,使得每个主题相关的文本与图像特征更精确,因此可以获得更准确的检索结果。

Description

一种基于跨模态稀疏主题建模的跨媒体检索方法
技术领域
本发明涉及多媒体检索,尤其涉及一种跨模态稀疏主题建模的跨媒体检索方法。
背景技术
在传统的搜索引擎技术中,使用关键字搜索是最常用的一种检索手段,近年来兴起的图片搜索,即通过用户上传图像进行检索的方式也得到的广泛的应用,如商业引擎Google和Baidu都提出了具有较高搜索成功率的图像搜索引擎,其中Baidu还借助深度学习的技术,进一步提高了图像检索的成功率。在Web搜索的用户请求中,用户通常希望的到与搜索关键词或搜索图像相关的图像及关键字搜索结果。例如,用户请求“毒奶粉事件”,所返回的搜索结果应该包含与“毒奶粉事件”相关的文字内容,同时还应该返回与其相关的新闻主题图片。然而,对于同时包含图像以及文本内容的跨模态检索,不仅需要打破底层特征和高层语义之间存在的“语义鸿沟”,更需要打破文本特征与图像特征之间关系的壁垒,这时候就需要一种同时包含多种模态数据信息的检索方法,通过同时对图像和文本特征建模,实现跨模态的检索方法。
对于存在于互联网上的图像,通常有一些与之相关的文字信息。图像信息与文本信息描述的内容相一致,并且同隶属于某一主题。例如,一副军舰的图片,旁边的文字内容包括“…军用舰船军舰是列入海军编制,用于完成战斗任务和保障任务的战斗舰艇和特种舰艇…”,文字与图片描述的都是关于“军舰”这一概念,并且“军舰”隶属于“军事”这一主题下。对于每一个“概念”,可以用不止一个主题来概括,比如“军舰”,可以同时隶属于“军事”,“船只”,“武器”,“安全”等多个主题下,因此对于每一个概念,我们可以反过来用其所隶属的主题来对他进行描述。通过抽象出每个主题相关的视觉特征与文字特征,从而将基于图像特征与文字特征描述的概念,转换成基于主题的表示,从而对于概念相关的图像和文字,均可以在此主题空间内进行相互检索,进而实现跨媒体检索的功能。
通过对主题—图像文本特征进行建模,不仅能以此对图像和文本实现跨媒体检索,并且可以进一步对主题进行细化,提高描述的准确性。对于传统的子空间学习方法,通过学习投影矩阵,将原图像和文本信息从原有的特征空间投影到主题空间中,但是,相对传统的学习方法,学习出来的子空间基与原有空间的所有特征相关。这样的描述不利于主题表达方式的准确性,因此需要进一步对新的主题空间进行约束,从而增加主题描述的准确性,最终达到提高跨媒体检索准确性的目的。
因此,本发明通过将概念相关的图像以及文字信息,投影到同一主题空间中,在此主题空间中对图像及文本信息进行统一的检索。此外,本发明在构造此主题空间的同时,通过对空间基的约束,使得每一主题相关的图像及文本特征具有稀疏的特征,从而让每一主题仅挑选与该主题最相关的特征,让每个主题的描述更加准确,并使每个概念相关的图像与文本内容在主题空间中的表示更准确,最终实现更准确的跨模态稀疏主题建模跨媒体检索方法。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于跨模态稀疏主题建模的跨媒体检索方法。
基于跨模态的稀疏主题建模的跨媒体检索方法包括如下步骤:
1)对于已有的跨模态多媒体数据进行联合分析,提取其中的主题特征;
2)基于已有的图像和文本特征,分析出其中主题与特征之间的稀疏关联,筛选特征与主体之间的相关性,并为跨模态多媒体文档提供相应的主题空间表示;
3)根据用户检索的图像或文本信息,在稀疏主题空间中提供跨模态的多媒体检索同能,返回相关主题的图像和文本检索结果。
所述的步骤1)包括:
1)对数据库中的所有图像提取SIFT特征,并对抽取得的特征进行聚类,得到1000个视觉单词,并计算每幅图像包含的SIFT特征点与视觉单词的距离,用视觉单词的频谱来表示每幅图像;
2)对数据库中的所有文本进行为词汇频率统计,并矢量化。
所述的步骤2)包括:
1)将所提取的跨媒体文档包含的视觉及文本特征向量化,并组合形成矩阵形式;2)对组合得到的视觉及文本特征矩阵进行稀疏主题学习,学习得到稀疏主题空间的一组新的基,并且使得他们具有正交并且稀疏的特性;
3)得到的新的主题空间的每一个基都是通过学习的到的稀疏主题,其与视觉及文本特征的相关性具有稀疏性。
所述的步骤3)为:
1)根据从稀疏主题建模中得到的稀疏主题空间中的基,将用户提交的检索文本或图像投影到所构建的稀疏主题空间中。
2)通过将用户提交的文本或图像在稀疏主题空间中的表示,与数据库中已有的跨模态多媒体文档,包含图像及文本,进行欧式距离计算,并根据该距离,将所有媒体对象进行排序,返回距离用户提交样本距离最近的多媒体对象。
本发明与背景技术相比,具有的有益的效果是:
本发明提出了一种新的基于跨模态多媒体数据稀疏主体建模的跨媒体检索方法。由于该方法采用了跨模态数据联合建模的方式,有效的利用了跨媒体数据之间的关系,从而实现了跨媒体查询的目的。同时,本方法还利用了稀疏主题建模的方法,使得基于稀疏主题的多媒体文档表示方法具有更高的准确性,进一步提高了检索的准确性。结合跨模态检索的方法,用户可以通过提交多种形式的检索内容,包括文本和图像,查询的例子和返回的结果可以是来自不同模态的内容,因此比传统的内容检索系统功能更加强大。
附图说明
图1是本发明的方法流程示意图;
图2是通过本方法学习到的包含跨模态多媒体数据的主题形式化结果。
具体实施方式
本发明通过对来自不同模态的多媒体数据进行基于主题的建模,同时对主题与特征的相关性进行稀疏约束,提高主题表示的准确性,通过在主题空间内的欧式距离比较,提供跨模态多媒体对象检索功能。
基于跨模态的稀疏主题建模的跨媒体检索方法包括如下步骤:
1)对于已有的跨模态多媒体数据进行联合分析,提取其中的主题特征;
2)基于已有的图像和文本特征,分析出其中主题与特征之间的稀疏关联,筛选特征与主体之间的相关性,并为跨模态多媒体文档提供相应的主题空间表示;
3)根据用户检索的图像或文本信息,在稀疏主题空间中提供跨模态的多媒体检索同能,返回相关主题的图像和文本检索结果。
所述的步骤1)包括:
1)对数据库中的所有图像提取SIFT特征,并对抽取得的特征进行聚类,得到1000个视觉单词,并计算每幅图像包含的SIFT特征点与视觉单词的距离,用视觉单词的频谱来表示每幅图像;
2)对数据库中的所有文本进行为词汇频率统计,并矢量化。
所述的步骤2)包括:
1)将所提取的跨媒体文档包含的视觉及文本特征向量化,并组合形成矩阵形式;
2)对组合得到的视觉及文本特征矩阵进行稀疏主题学习,学习得到稀疏主题空间的一组新的基,并且使得他们具有正交并且稀疏的特性;
3)得到的新的主题空间的每一个基都是通过学习的到的稀疏主题,其与视觉及文本特征的相关性具有稀疏性。
所述的步骤3)为:
1)根据从稀疏主题建模中得到的稀疏主题空间中的基,将用户提交的检索文本或图像投影到所构建的稀疏主题空间中。
2)通过将用户提交的文本或图像在稀疏主题空间中的表示,与数据库中已有的跨模态多媒体文档,包含图像及文本,进行欧式距离计算,并根据该距离,将所有媒体对象进行排序,返回距离用户提交样本距离最近的多媒体对象。
本发明提出的基于跨模态数据稀疏主题建模的检索方法如图1所示,具体说明如下:
1)预处理模块:
该模块实现对数据库已有的媒体对象进行特征提取,在我们的多媒体数据库中,包含许多的多媒体文档,每个文档隶属于不同的类别,并且每个文档包含一段与文档描述物体相关的文字,以及一张与物体相关的图片。我们通过SIFT特征子检测方法,提取出所有图片包含的SIFT特征,以及通过词频统计的方法,对包含的文本进行向量化。对于所得到的SIFT特征,我们采用KMeans的聚类方法,把所有的视觉特征向量聚类成若干个视觉单词,并将每幅图片替换成基于视觉单词的表示。我们将用视觉单词表示的图片特征及向量化后的文本特征分别表示为A和B。
2)跨模态稀疏主题建模模块
通过模块1中抽取的关于数据库中跨模态多媒体文档的特征,我们对这些数据进行跨模态稀疏主题建模。我们将跨模态多媒体文档在稀疏的主题空间的表示为X,从图片特征空间到稀疏主题空间的投影为U1,从文本特征空间到稀疏主题空间的投影为U2,则根据我们的假设,有:
A = XU 1 + ∈ 1 , B = XU 2 + ∈ 2 . - - - ( 1 )
因此我们可以通过求解如下方程来得到对应的投影矩阵U1和U2
min X , U 1 , U 2 | | A - XU 1 | | F 2 + γ | | B - XU 2 | | F 2 , s . t . , X T X = I - - - ( 2 )
此外,我们考虑每个主题空间中的主题相关的文本及图像特征都是稀疏的,那么对于投影得到的主题表示会更加准确,因此我们为投影加上稀疏约束,得到:
min X , U 1 , U 2 | | A - XU 1 | | F 2 + γ | | B - XU 2 | | F 2 + λ 1 | | U 1 | | 1 + λ 2 | | U 2 | | 1 s . t . , X T X = I - - - ( 3 )
本发明通过设计如下算法来解决这个问题:
a)当我们固定多媒体文档在稀疏主题空间中的表示X时,公式3的求解变成了求解一下两个独立的稀疏编码问题:
min U 1 | | A - XU 1 | | F 2 + λ 1 | | U 1 | | 1 ; min U 2 | | B - XU 2 | | F 2 + λ 2 | | U 2 | | 1 . - - - ( 4 )
b)当我们固定投影矩阵U1和U2时,我们重写公式3为如下形式:
min X | | [ A , γ B ] - X [ U 1 , γ U 2 | | F 2 , s . t . , X T X = I . - - - ( 5 )
为了表示方便,我们记 Y ~ = [ A , γ B ] , U ~ = [ U 1 , γ U 2 ] , 则公式5可以进一步写成如下形式:
min X | | Y ~ - X U ~ | | F 2 , s . t . , X T X = I . - - - ( 6 )
公式6的问题可以通过对
Figure BDA0000380031000000056
的奇异值分解V=PΔQ得到最优的X,由此我们得到关于多媒体文档在稀疏主题空间中的最优表示X=PQ,通过迭代算法,可以得到最优的U1和U2。并且U1和U2就是我们求得的稀疏主题的图像和文本特征表示。
3)跨模态多媒体对象检索模块
根据从模块2中学习得到的稀疏主题投影矩阵U1和U2,我们可以对用户提交的文本或者图片进行跨模态的多媒体文档检索功能。本发明提供文本驱动检索及图片驱动检索两种功能:
a)假设用户提交的文本为Zt,那求解其在稀疏主题空间内的表示S为解决如下问题:
min s | | Z t - SU 1 | | F 2 , s . t . , S T S = I . - - - ( 7 )
此问题可采用在模块2中提到的算法中的类似方法,我们记G=SU1 T,对G进行特征值分解G=HΔJ,则该文本在稀疏主题空间内的表示为S=HJ。
b)假设用户提交的图片为Zi,那求解其在稀疏主题空间内的表示S为解决如下问题:
min s | | Z i - SU 2 | | F 2 , s . t . , S T S = I . - - - ( 8 )
此问题可采用在模块2中提到的算法中的类似方法,我们记G=SU2 T,对G进行特征值分解G=HΔJ,则该文本在稀疏主题空间内的表示为S=HJ。
得到用户提交的图片或文本在稀疏主题空间中的表示S之后,将其与所有在数据库中已有的图片及文本在稀疏主题空间中的表示进行欧式距离计算,选出其中距离最近的若干文本和图片,作为查询结果返回给用户。
4)跨模态多媒体主题展示
通过学习得到最优化稀疏主题表示U1和U2,我们从数据库中寻找与稀疏主题共有最多图像特征的图片以及与稀疏主题共有最多文本特征的文本,作为当前主题最具代表性的文本及图片作为展示,图2展示了一部分我们学习得到的主题。
实施例
假设有5000个多媒体文档,其中每份多媒体文档均包含一段与描述物体相关的文字以及一副与描述物体相关的图像,那么我们的检索数据库中就包含5000张图片,5000段文本,首先应该对他们进行特征提取。对于5000张图片,首先我们用SIFT特征检测方法,从每幅图片随机挑选100个SIFT特征,得到总共500000个SIFT特征点。然后,我们对这个500000特征点进行KMeans聚类,将他们在图像特征空间内聚成1000个视觉单词。基于得到的1000个视觉单词,我们将每幅图像提取到的SIFT特征转换成视觉单词,将每幅图片用一个1000维的视觉单词表示。对于5000段文本,我们先对其中的单词进行词频统计,选取其中词频排序前4000的单词组成词典,再根据这个词典将每段文本转换成一个1000维的向量。
进行特征提取之后,我们的到了数据库多媒体文档的训练数据,有A∈R5000×1000和B∈R5000×4000,我们假设在这5000个多媒体文档与50个隐主题内容相关,因此根据求解公式3中的跨模态稀疏主题建模问题,我们可以得到分别关于图像特征以及文字特征的两个投影矩阵U1∈R50×1000和U2∈R50×4000,他们表示稀疏主题空间到图像特征及文字特征空间的转换,且他们具有稀疏的性质。
假设用户提交100个文本文档,希望对他们进行跨模态的多媒体检索,首先我们采用相同的方法,提取他们的文本特征,将用户查询内容转换成一个矩阵Zt∈R100×4000,根据查询模块介绍的方法,我们得到这100个文本文档在稀疏主题空间中的表示为S∈R100×1000
假设用户提交100个图像,希望对他们进行跨模态的多媒体检索,首先我们采用相同的方法,提取他们的图像特征,将用户查询内容转换成一个矩阵Zi∈R100×5000,根据查询模块介绍的方法,我们得到这100个图像在稀疏主题空间中的表示为S∈R100×1000
在得到用户查询内容在稀疏主题空间内的表示后,我们将他们的稀疏表示与数据库中已有的图像和文本进行比较,选出其中相关条目返回给用户,作为检索结果。
通过学习得到最优化稀疏主题表示U1和U2,我们从数据库中寻找与稀疏主题共有最多图像特征的图片以及与稀疏主题共有最多文本特征的文本,作为当前主题最具代表性的文本及图片作为展示,图2展示了一部分我们学习得到的主题。
根据查询结果可以得知本方法利用了稀疏主题建模的方法,使得基于稀疏主题的多媒体文档表示方法具有更高的准确性,进一步提高了检索的准确性。结合跨模态检索的方法,用户可以通过提交多种形式的检索内容,包括文本和图像,查询的例子和返回的结果可以是来自不同模态的内容,因此比传统的内容检索系统功能更加强大。

Claims (4)

1.一种基于跨模态的稀疏主题建模的跨媒体检索方法,其特征在于包括如下步骤:
1) 对于已有的跨模态多媒体数据进行联合分析,提取其中的主题特征;
2) 基于已有的图像和文本特征,分析出其中主题与特征之间的稀疏关联,筛选特征与主体之间的相关性,并为跨模态多媒体文档提供相应的主题空间表示;
3) 根据用户检索的图像或文本信息,在稀疏主题空间中提供跨模态的多媒体检索同能,返回相关主题的图像和文本检索结果。
2.根据权利要求1所述的一种跨模态的稀疏主题建模的跨媒体检索方法,其特征在于所述的步骤1)包括:
1)对数据库中的所有图像提取SIFT特征,并对抽取得的特征进行聚类,得到1000个视觉单词,并计算每幅图像包含的SIFT特征点与视觉单词的距离,用视觉单词的频谱来表示每幅图像;
2)对数据库中的所有文本进行为词汇频率统计,并矢量化。
3.根据权利要求1所述的一种跨模态的稀疏主题建模的跨媒体检索方法,其特征在于所述的步骤2) 包括:
1)将所提取的跨媒体文档包含的视觉及文本特征向量化,并组合形成矩阵形式;
2)对组合得到的视觉及文本特征矩阵进行稀疏主题学习,学习得到稀疏主题空间的一组新的基,并且使得他们具有正交并且稀疏的特性;
3)得到的新的主题空间的每一个基都是通过学习的到的稀疏主题,其与视觉及文本特征的相关性具有稀疏性。
4.根据权利要求1所述的一种跨模态的稀疏主题建模的跨媒体检索方法,其特征在于,所述的步骤3)为:
1)根据从稀疏主题建模中得到的稀疏主题空间中的基,将用户提交的检索文本或图像投影到所构建的稀疏主题空间中;
2)通过将用户提交的文本或图像在稀疏主题空间中的表示,与数据库中已有的跨模态多媒体文档,包含图像及文本,进行欧式距离计算,并根据该距离,将所有媒体对象进行排序,返回距离用户提交样本距离最近的多媒体对象。
CN201310410634.XA 2013-09-10 2013-09-10 一种基于跨模态稀疏主题建模的跨媒体检索方法 Pending CN103559192A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310410634.XA CN103559192A (zh) 2013-09-10 2013-09-10 一种基于跨模态稀疏主题建模的跨媒体检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310410634.XA CN103559192A (zh) 2013-09-10 2013-09-10 一种基于跨模态稀疏主题建模的跨媒体检索方法

Publications (1)

Publication Number Publication Date
CN103559192A true CN103559192A (zh) 2014-02-05

Family

ID=50013439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310410634.XA Pending CN103559192A (zh) 2013-09-10 2013-09-10 一种基于跨模态稀疏主题建模的跨媒体检索方法

Country Status (1)

Country Link
CN (1) CN103559192A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104166684A (zh) * 2014-07-24 2014-11-26 北京大学 一种基于统一稀疏表示的跨媒体检索方法
CN104199826A (zh) * 2014-07-24 2014-12-10 北京大学 一种基于关联分析的异构媒体相似性计算方法和检索方法
CN104317838A (zh) * 2014-10-10 2015-01-28 浙江大学 一种基于耦合鉴别性字典的跨媒体哈希索引方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN107943985A (zh) * 2017-11-30 2018-04-20 西安交通大学 基于跨媒体稀疏主题编码的图像自动标注方法
CN109840287A (zh) * 2019-01-31 2019-06-04 中科人工智能创新技术研究院(青岛)有限公司 一种基于神经网络的跨模态信息检索方法和装置
CN112364197A (zh) * 2020-11-12 2021-02-12 四川省人工智能研究院(宜宾) 一种基于文本描述的行人图像检索方法
CN112507064A (zh) * 2020-11-09 2021-03-16 国网天津市电力公司 一种基于主题感知的跨模态序列到序列生成方法
CN113157959A (zh) * 2020-12-17 2021-07-23 云知声智能科技股份有限公司 基于多模态主题补充的跨模态检索方法、装置及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QUAN WANG,JUN XU ET AL.,: "Regularized Latent Semantic Indexing", 《THE 34TH INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》 *
YUETING ZHUANG,YANFEI WANG ET AL.: "Supervised Coupled Dictionary Learning with Group Structures for Multi-modal Retrieval", 《TWENTY-SEVENTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199826A (zh) * 2014-07-24 2014-12-10 北京大学 一种基于关联分析的异构媒体相似性计算方法和检索方法
CN104199826B (zh) * 2014-07-24 2017-06-30 北京大学 一种基于关联分析的异构媒体相似性计算方法和检索方法
CN104166684A (zh) * 2014-07-24 2014-11-26 北京大学 一种基于统一稀疏表示的跨媒体检索方法
CN104317838A (zh) * 2014-10-10 2015-01-28 浙江大学 一种基于耦合鉴别性字典的跨媒体哈希索引方法
CN104317838B (zh) * 2014-10-10 2017-05-17 浙江大学 一种基于耦合鉴别性字典的跨媒体哈希索引方法
CN105760507B (zh) * 2016-02-23 2019-05-03 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN107943985A (zh) * 2017-11-30 2018-04-20 西安交通大学 基于跨媒体稀疏主题编码的图像自动标注方法
CN109840287A (zh) * 2019-01-31 2019-06-04 中科人工智能创新技术研究院(青岛)有限公司 一种基于神经网络的跨模态信息检索方法和装置
CN109840287B (zh) * 2019-01-31 2021-02-19 中科人工智能创新技术研究院(青岛)有限公司 一种基于神经网络的跨模态信息检索方法和装置
CN112507064A (zh) * 2020-11-09 2021-03-16 国网天津市电力公司 一种基于主题感知的跨模态序列到序列生成方法
CN112507064B (zh) * 2020-11-09 2022-05-24 国网天津市电力公司 一种基于主题感知的跨模态序列到序列生成方法
CN112364197A (zh) * 2020-11-12 2021-02-12 四川省人工智能研究院(宜宾) 一种基于文本描述的行人图像检索方法
CN112364197B (zh) * 2020-11-12 2021-06-01 四川省人工智能研究院(宜宾) 一种基于文本描述的行人图像检索方法
CN113157959A (zh) * 2020-12-17 2021-07-23 云知声智能科技股份有限公司 基于多模态主题补充的跨模态检索方法、装置及系统

Similar Documents

Publication Publication Date Title
CN103559192A (zh) 一种基于跨模态稀疏主题建模的跨媒体检索方法
Gao et al. Visual-textual joint relevance learning for tag-based social image search
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
US9870516B2 (en) Hand-drawn sketch recognition
US10089580B2 (en) Generating and using a knowledge-enhanced model
CN106202256B (zh) 基于语义传播及混合多示例学习的Web图像检索方法
CA2788670C (en) Semantic object characterization and search
EP3166020A1 (en) Method and apparatus for image classification based on dictionary learning
US12032915B2 (en) Creating and interacting with data records having semantic vectors and natural language expressions produced by a machine-trained model
Wang et al. Facilitating image search with a scalable and compact semantic mapping
KR101623860B1 (ko) 문서 요소에 대한 유사도를 산출하는 방법
CN107665248A (zh) 基于深度学习混合模型的文本分类方法和装置
CN113672693B (zh) 基于知识图谱和标签关联的在线问答平台的标签推荐方法
CN111709223B (zh) 基于bert的句子向量生成方法、装置及电子设备
CN112883229B (zh) 基于多特征图注意网络模型的视频-文本跨模态检索方法和装置
US20140280086A1 (en) Method and apparatus for document representation enhancement via social information integration in information retrieval systems
US20120117090A1 (en) System and method for managing digital contents
Kastner et al. Estimating the imageability of words by mining visual characteristics from crawled image data
Li et al. Image decomposition with multilabel context: Algorithms and applications
CN107633259B (zh) 一种基于稀疏字典表示的跨模态学习方法
Zhang et al. Web service classification based on information gain theory and bidirectional long short‐term memory with attention mechanism
Hattori et al. Mining the web for appearance description
Sun et al. Towards tags ranking for social images
CN113836322B (zh) 文章查重方法和装置、电子设备、存储介质
Lu et al. Mining latent attributes from click-through logs for image recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140205