CN105718532B - 一种基于多深度网络结构的跨媒体排序方法 - Google Patents

一种基于多深度网络结构的跨媒体排序方法 Download PDF

Info

Publication number
CN105718532B
CN105718532B CN201610029177.3A CN201610029177A CN105718532B CN 105718532 B CN105718532 B CN 105718532B CN 201610029177 A CN201610029177 A CN 201610029177A CN 105718532 B CN105718532 B CN 105718532B
Authority
CN
China
Prior art keywords
media
data
network
text
indicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610029177.3A
Other languages
English (en)
Other versions
CN105718532A (zh
Inventor
彭宇新
黄鑫
綦金玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201610029177.3A priority Critical patent/CN105718532B/zh
Publication of CN105718532A publication Critical patent/CN105718532A/zh
Application granted granted Critical
Publication of CN105718532B publication Critical patent/CN105718532B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于多深度网络结构的跨媒体排序方法,包括以下步骤:1.建立包含多种媒体类型的跨媒体数据集,提取所有媒体数据的特征向量;2.利用跨媒体数据集来训练多深度网络结构,用于为不同媒体的数据学习统一表示;3.利用训练好的多深度网络结构,得到不同媒体数据的统一表示,从而计算不同媒体类型数据的相似性;4.取一种媒体类型的每个数据作为查询样例,检索另一种媒体中的数据,计算查询样例和查询目标的相似性,并按照相似性从大到小排序,得到目标媒体数据的结果排序列表。本发明结合使用多种网络结构,能够同时建模媒体之间和媒体内部的关联信息,进而利用两级网络进行统一表示的学习,提高了跨媒体排序的准确率。

Description

一种基于多深度网络结构的跨媒体排序方法
技术领域
本发明涉及多媒体检索领域,具体涉及一种基于多深度网络结构的跨媒体排序方法。
背景技术
近年来,互联网和多媒体技术快速发展,多媒体数据已经成为大数据的主要内容,包括图像、文本、视频、音频等。随着多媒体数据的总量不断增长,如何有效检索这些信息就成为了大数据使用和管理的关键问题。现在常用的检索方式为基于文本关键词的检索,即用户输入查询文本,系统将用户查询与数据的文本标签进行匹配,从而得到检索结果。然而,这种检索方式需要对媒体数据进行大量的人工标注。为了克服这种不足,研究者提出了基于内容的媒体检索,即用户上传媒体数据作为查询,系统通过分析查询和库中数据的内容相似性返回检索结果排序,但在该方式中,检索结果与用户查询必须为同种媒体类型,从而限制了检索的灵活性。跨媒体检索是指,用户上传任意一种媒体类型的数据,系统能够得到所有媒体类型的检索结果排序。例如,用户输入一段音频,跨媒体检索不但能够返回相关的音频,也能够得到相关的其它媒体类型数据,如文本、视频等。跨媒体检索大大提高了检索的灵活性和全面性,有利于满足用户日益增长的信息检索需求。
现有常见的跨媒体检索方法是基于统计分析的统一表示学习方法。例如,典型相关分析(Canonical Correlation Analysis,简称CCA)能够通过分析成对数据的相关性,学习得到一个能够最大化其关联性的公共子空间,从而将两种媒体的数据映射到同一维度的空间中,使其能够通过距离排序,实现跨媒体检索。在学习统一表示的过程中,CCA只利用了媒体数据间的成对信息,没有利用如类别标签等语义信息。为了建模类别标签信息,Rasiwasia等人在其文献“A New Approach to Cross-Modal Multimedia Retrieval”中提出了高层语义映射方法,先利用CCA学习不同媒体数据的统一表示,再对统一表示进行逻辑回归得到高层语义表示,得到了比CCA更好的检索准确率。Zhai等人在文献“LearningCross-Media Joint Representation with Sparse and Semi-SupervisedRegularization”中提出了一种基于稀疏和半监督规约的跨媒体检索方法。该方法能够同时进行跨媒体关联学习和高层语义抽象,且能够在一个统一的框架中对不同媒体的数据引入稀疏和半监督规约,从而提高了检索准确率。
随着深度网络在单媒体处理(如图像特征提取和对象检测等)中的广泛应用,其也被应用于跨媒体检索的研究中。如Ngiam在文献“Multimodal Deep Learning”中提出的多模态自编码器方法,以两种媒体类型作为输入,同时考虑二者的重构误差,在中间层建模跨媒体的关联信息得到统一表示。Srivastava等人在文献“Learning Representations forMultimodal Data with Deep Belief Nets”中提出多模态深度信念网络方法,首先使用分离的两层深度信念网络来对于多种媒体的原始特征分别建模其分布概率模型,然后通过学习一个RBM联接层来融合上述分离的模型。这些方法大多可以分为两个学习阶段。在第一个阶段中,对单媒体数据进行语义抽象得到其高层特征表示。在第二个阶段中,对单媒体的高层特征表示进行关联学习,从而得到统一表示特征。但是,它们在第一个阶段中,只对单媒体进行语义抽象而忽视了媒体关联,可能造成关联信息的丢失。在第二个阶段中,大多采用浅层网络结构,不能充分建模跨媒体关联信息,从而限制了统一表示的排序效果。
发明内容
针对现有技术的不足,本发明提出了一种基于多深度网络结构的跨媒体排序方法,能够结合使用多种网络结构,既考虑到单媒体内部的语义抽象,又能够建模跨媒体数据的关联信息,并利用两级网络进行统一表示的学习。该方法对媒体内部与媒体之间的关联信息进行了全面建模,能够充分利用跨媒体的关联信息,从而提高了跨媒体排序的准确率。
为达到以上目的,本发明采用的技术方案如下:
一种基于多深度网络结构的跨媒体排序方法,用于对跨媒体数据的媒体内部与媒体之间的关联进行全面分析,得到不同媒体的统一表示,从而实现跨媒体排序,包括以下步骤:
(1)建立包含多种媒体类型的跨媒体数据集,提取所有媒体数据的特征向量;
(2)利用跨媒体数据集训练多深度网络结构,用于为不同媒体的数据学习统一表示;
(3)利用训练好的多深度网络结构,得到不同媒体数据的统一表示,从而计算不同媒体类型数据的相似性;
(4)取一种媒体类型作为查询媒体,另一种媒体类型作为目标媒体,将查询媒体的每个数据作为查询样例,检索目标媒体中的数据,按照步骤(3)计算查询样例和查询目标的相似性,按照相似性从大到小排序,输出结果排序列表。
进一步,上述一种基于多深度网络结构的跨媒体排序方法,所述步骤(1)中的多媒体类型为两种媒体类型:文本和图像。
进一步,上述一种基于多深度网络结构的跨媒体排序方法,所述步骤(1)中的特征向量具体为:文本数据是提取词频特征向量,图像数据是提取词袋特征向量与MPEG-7视觉特征向量。
进一步,上述一种基于多深度网络结构的跨媒体排序方法,所述步骤(2)中的网络结构,结合使用了多种深度网络,能够先对跨媒体数据的媒体内部和媒体之间的关系进行全面分析,得到单媒体的中间表示,再通过两级网络结构,充分建模跨媒体数据的关联信息,得到不同媒体数据的统一表示。
进一步,上述一种基于多深度网络结构的跨媒体排序方法,所述步骤(3)中的相似性,定义为媒体数据的统一表示之间的距离度量。
进一步,上述一种基于多深度网络结构的跨媒体排序方法,所述步骤(4)的查询方式是,使用一种媒体作为查询,检索另一种媒体的相关结果。按照步骤(3)计算得到相似性之后,根据相似性从大到小排序,输出结果排序列表。
本发明的效果在于:与现有方法相比,本方法通过结合使用多种深度网络,同时对跨媒体数据的媒体内部和媒体之间的关联信息进行建模,能够更加全面地学习到媒体数据间的关联,进而使用两级网络结构进行统一表示学习,更加充分地利用了不同媒体之间的关联关系,提高了跨媒体排序的准确率。
本方法之所以具有上述发明效果,其原因在于:结合使用多种深度网络,对媒体内部和媒体之间的关联关系都进行了分别建模,且利用了两级网络学习统一表示。一方面,我们使用多种深度网络,利用媒体内部的关联和媒体之间的关联,学习得到对应每种媒体类型的媒体内部关联表示和媒体之间关联表示,从而同时建模了单媒体高层语义抽象信息及媒体之间的关联信息。另一方面,通过两级网络结构,对媒体内部和媒体之间关联表示进行了有效融合,更加充分地建模了跨媒体数据的关联,从而得到了不同媒体数据的统一表示。通过上述的一种基于多深度网络结构的跨媒体排序方法学习到的统一表示,具有更高的有效性,从而提高了跨媒体排序的准确率。
附图说明
图1是本发明的一种基于多深度网络结构的跨媒体排序方法流程图。
图2是本发明的完整网络结构的示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的描述。
本发明的一种基于多深度网络结构的跨媒体排序方法,其流程图如图1所示,包含以下步骤:
(1)建立包含多种媒体类型的跨媒体数据集,并将所述数据集分为训练集、验证集和测试集,提取所有媒体数据的特征向量。
本实施例中,所述的多种媒体类型为文本和图像。对这两种媒体类型的特征向量提取方法如下:文本数据是提取词频特征向量,图像数据是提取词袋特征向量与MPEG-7视觉特征向量。本方法同样支持其它媒体,如音频、视频等,并且能够支持其它种类的特征,如图像的纹理、颜色特征,文本的隐狄雷克雷分布特征向量等。
用D表示跨媒体数据集,D={D(i),D(t)},其中
对于媒体类型r,其中r=i,t(i表示图像,t表示文本),我们定义n(r)为其数据个数。训练集中的每个数据有且只有一个语义类别。
定义为媒体类型r中的第p个数据的特征向量,其表示结构为一个d(r)×1的向量,其中d(r)表示媒体类型r的特征向量维度。
定义的语义标签为其表示结构为一个c×1的向量,其中c表示语义类别的总量。中有且只有一维为1,其余为0,表示该数据的语义类别值是1的列所对应的标签。
(2)利用跨媒体数据集训练多深度网络结构,用于为所有媒体数据学习统一表示。
该步骤的过程如图2所示。本实施例中,使用多模态深度信念网络(MultimodalDBN)进行媒体之间的关联表示学习。首先对于每种媒体类型使用两层的深度信念网络进行建模。具体地,使用高斯限制玻尔兹曼机(Gaussian RBM)来建模图像特征上的分布模型,使用多重softmax模型(Replicated Softmax Model)来建模文本特征上的分布模型。然后,在上述两个模型之上,通过添加一个限制玻尔兹曼机(RBM)联接层使用吉布斯(Gibbs)采样的方法来学习媒体之间的关联信息,使用如下条件分布概率公式:
P(h|hi,ht)=σ(Wihi+Wtht+b)
其中σ(x)=1/(1+e-x),h为联接层上的分布,Wi和Wt为输入权值,b、at和ai为偏移值。最后得到采样结果ht和hi,则用来生成包含媒体之间关联信息的特征表示
本实施例中,使用栈式自编码器(Stacked Autoencoders,简称SAE)来进行媒体内部的关联表示学习。对于每种媒体类型分别训练一个SAE,其输入与上述的多模态深度信念网络(Multimodal DBN)相同,均为原始媒体特征X(i)和X(t),同时用表示对X(i)和X(t)进行重建后的特征。具体的,对于图像和文本的两个栈式自编码器均包含h个自编码层,并通过最小化如下目标函数来进行训练:
其中分别表示图像和文本的平均重建误差,Wie,Wid和Wte,Wtd则分别表示图像和文本的自编码器中编码器和解码器的激活函数中的参数。通过最小化重建误差,可以在保留原始媒体特性的同时,得到包含媒体内部关联信息的特征表示
本实施例中,使用两级网络来进行跨媒体统一表示学习。对于图像和文本已经得到的包含媒体内部关联信息和媒体之间关联信息的表示在第一级网络中,使用一个RBM联接层来融合同种媒体的两种不同表示,其联合分布定义如下:
其中,对于图像,v1表示包含媒体之间信息的特征表示v2表示包含媒体内部信息的特征表示而对于文本同理。由此可以得到两种媒体的中间特征表示Y(i)和Y(t)。在第二级网络中,为了学习跨媒体统一表示,使用多模态自编码器(BimodalAutoencoders),其可以在保留重建信息的同时,在中间的联合层建模跨媒体的关联信息。在网络的训练过程中,以迭代学习的方式自底向上地训练了n个多模态自编码器(BimodalAutoencoders)模型,并且增加了额外的标签信息作为监督。具体的,使用第一级网络得到的中间特征表示Y(i)和Y(t)作为底层多模态自编码器的输入,其输出将会作为输入传递到高层的网络来得到同时其维数将会降低到输入维数的一半,直到得到作为最终的统一表示。其中在迭代学习中使用的多模态自编码器的数量n,可以通过计算在验证集上的结果是否收敛来动态调整。迭代学习的方式,可以通过更强的网络学习能力来挖掘复杂的跨媒体关联信息。
(3)利用训练好的深度网络结构,得到不同媒体数据的统一表示,从而计算不同媒体类型数据的相似性。
当深度网络训练完毕之后,不同媒体的数据通过深度网络能够得到相同维度的统一表示,其相似性定义为媒体数据的统一表示之间的距离度量。本实施例中,距离度量采用余弦距离,通过计算两个媒体数据统一表示的夹角余弦值作为二者的相似性。本方法同样支持其它类型的距离度量,如欧氏距离等。
(4)取测试集中的一种媒体类型作为查询媒体,另一种媒体类型作为目标媒体。将查询媒体的每个数据作为查询样例,检索目标媒体中的数据,计算查询样例和查询目标的相似性,按照相似性从大到小排序,得到目标媒体数据的结果排序列表。
该步骤中,取一种媒体中的每个数据作为查询样例,按照步骤(3)中的方式与另一种媒体中的所有数据计算相似性,之后按照相似性从大到小排序,得到结果排序列表。
下面的实验结果表明,与现有方法相比,本发明基于多深度网络结构的跨媒体排序方法,能够取得更高的排序准确率。
本实施例中采用了Wikipedia跨媒体数据集进行实验,该数据集由文献“A NewApproach to Cross-Modal Multimedia Retrieval”(作者N.Rasiwasia,J.Pereira,E.Coviello,G.Doyle,G.Lanckriet,R.Levy和N.Vasconcelos,发表在2010年的ACMinternational conference on Multimedia)提出,其中包括2866段文本和2866张图像,这些文本和图像是一一对应的,数据集共分为10个类别,其中2173段文本和2173张图像作为训练集,231段文本和231张图像作为验证集,492段文本和492张图像作为测试集。我们测试了以下4种方法作为实验对比:
现有方法一:文献“Relations between Two Sets of Variates”(作者H.Hotelling)中的典型相关分析(CCA)方法,通过分析两组向量之间的关系,学习能够最大化两组异构数据关联性的空间,从而完成向统一特征空间的映射。
现有方法二:文献“Multimodal Deep Learning”(作者J.Ngiam,A.Khosla,M.Kim,J.Nam,H.Lee,and A.Y.Ng)中的多模态自编码器(Bimodal AE)方法,以多种媒体类型作为输入,在中间层建模跨媒体的关联信息得到统一表示,同时还需要网络能够从统一表示对原始特征输入进行重建,由此可以有效地学习不同媒体之间的关联信息,而且能够保留每种媒体各自内部的重建信息。
现有方法三:文献“Learning Representations for Multimodal Data withDeep Belief Nets”(作者N.Srivastava and R.Salakhutdinov)中的多模态深度信念网络(Multimodal DBN)方法,首先使用分离的两层深度信念网络来对于多种媒体的原始特征分别建模其分布概率模型,然后通过学习一个RBM联接层来融合上述分离的模型。RBM联接层可以从多种媒体类型数据对其条件分布进行采样,从而可以得到不同媒体之间的关联信息。
本发明:本实施例的方法。
实验采用信息检索领域常用的MAP(mean average precision)指标来评测跨媒体排序的准确性,MAP是指每个查询样例排序准确性的平均值,MAP值越大,说明跨媒体排序的结果就越好。
表1.本发明的实验结果展示
图像查询文本 文本查询图像 平均
现有方法一 0.150 0.146 0148
现有方法二 0.236 0.208 0.222
现有方法三 0.149 0.150 0.150
本发明 0.393 0.324 0.359
从表1可以看出,本发明在图像查询文本和文本查询图像两个任务中都比现有方法更好。对比方法一,方法一是直接采用传统的统计关联分析方法将不同媒体的数据线性映射到统一空间,难以充分建模跨媒体数据的复杂关联。对比方法二和方法三,这两种方法都是基于深度学习的跨媒体排序方法,但只利用媒体内部的关联学习单媒体的中间表示,之后通过简单网络结构学习到跨媒体统一表示,限制了统一表示的有效性和结果排序的准确率。本发明一方面使用多种深度网络,同时利用媒体内部的关联和媒体之间的关联,学习得到对应每种媒体类型的媒体内部关联表示和媒体之间关联表示。另一方面,通过两级网络结构,上述两种关联表示进行了有效融合,使得学习到的跨媒体统一表示具有更好的效果,从而提高了跨媒体排序的准确率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种基于多深度网络结构的跨媒体排序方法,包括以下步骤:
(1)建立包含多种媒体类型的跨媒体数据集,提取所有媒体数据的特征向量;
(2)利用跨媒体数据集训练多深度网络结构,用于为不同媒体的数据学习统一表示;首先使用多模态深度信念网络进行媒体之间的关联学习,生成包含媒体之间关联信息的特征表示;再使用栈式自编码器进行媒体内部的关联学习,生成包含媒体内部关联信息的特征表示;然后使用RBM联接层来融合同种媒体的两种不同表示,再迭代训练多个多模态自编码器模型,将其输出作为最终的统一表示;
(3)利用训练好的多深度网络结构,得到不同媒体数据的统一表示,从而计算不同媒体类型数据的相似性;
(4)取一种媒体类型作为查询媒体,另一种媒体类型作为目标媒体,将查询媒体的每个数据作为查询样例,检索目标媒体中的数据,按照步骤(3)计算查询样例和查询目标的相似性,按照相似性从大到小排序,输出结果排序列表。
2.如权利要求1所述的方法,其特征在于,步骤(1)所述的多种媒体类型包括两种媒体类型:文本和图像。
3.如权利要求1所述的方法,其特征在于,步骤(1)中的特征向量具体为:文本数据是提取词频特征向量或隐狄雷克雷分布特征向量,图像数据是提取词袋特征向量与MPEG-7视觉特征向量,或者图像的纹理、颜色特征向量。
4.如权利要求1所述的方法,其特征在于,步骤(2)中为不同媒体的数据学习统一表示的方法,使用多模态深度信念网络进行媒体之间关联表示的学习,首先对于每种媒体类型使用两层的深度信念网络进行建模,具体地,使用高斯限制玻尔兹曼机来建模图像特征上的分布模型,使用多重softmax模型来建模文本特征上的分布模型,其中表示图像数据,表示文本数据;然后,在上述两个模型之上,通过添加一个RBM联接层使用吉布斯采样的方法来学习媒体之间的关联信息,使用如下条件分布概率公式:
P(h|hi,ht)=σ(Wihi+Wtht+b),
其中σ(x)=1/(1+e-x),h为RBM联接层的数据分布,Wi和Wt为输入权值,b、at和ai为偏移值;最后得到采样结果ht和hi则用来生成包含媒体之间关联信息的特征表示
5.如权利要求4所述的方法,其特征在于,步骤(2)中为不同媒体的数据学习统一表示的方法,使用栈式自编码器SAE来进行媒体内部的关联表示学习,对于每种媒体类型分别训练一个SAE,其输入与多模态深度信念网络相同,均为原始媒体特征X(i)和X(t),同时用表示对X(i)和X(t);具体的,对于图像和文本的两个栈式自编码器均包含h个自编码层,并通过最小化如下目标函数来进行训练:
其中,α、β表示目标函数中损失项的权重,i表示所训练自编码层的起始下标,分别表示图像和文本的平均重建误差,表示图像自编码器中的编码器网络参数,表示解码器网络参数;表示文本自编码器中的编码器网络参数,表示解码器网络参数;通过最小化重建误差,可以在保留原始媒体特性的同时得到包含媒体内部关联信息的特征表示
6.如权利要求1所述的方法,其特征在于,步骤(2)中为不同媒体的数据学习统一表示的方法,使用两级网络来进行跨媒体统一表示学习,对于图像和文本已经得到的包含媒体内部关联信息和媒体之间关联信息的表示在第一级网络中,使用一个RBM联接层来融合同种媒体的两种不同表示,其联合分布定义如下:
其中,对于图像,v1表示包含媒体之间信息的特征表示v2表示包含媒体内部信息的特征表示而对于文本同理;表示两支网络中隐藏层的输出,h(2)表示RBM联接层输出;由此可以得到两种媒体的中间特征表示Y(i)和Y(t);在第二级网络中,为了学习跨媒体统一表示,以迭代学习的方式自底向上的训练n个多模态自编码器模型;具体地,使用第一级网络得到的中间特征表示Y(i)和Y(t)作为底层多模态自编码器的输入,其输出将会作为输入传递到高层的网络来得到同时其维数将会降低到输入维数的一半,直到得到作为最终的统一表示;其中在迭代学习中使用的多模态自编码器的数量n通过计算在验证集上的结果是否收敛来动态调整。
7.如权利要求1中所述的方法,其特征在于,所述步骤(3)采用余弦距离,通过计算两个媒体数据统一表示的夹角余弦值作为二者的相似性;或者步骤(3)采用其它类型的距离度量,包括欧氏距离。
8.如权利要求7中所述的方法,其特征在于,所述步骤(4)取一种媒体类型作为查询媒体,另一种媒体类型作为目标媒体,将查询媒体的每个数据作为查询样例,与另一种媒体中的所有数据计算相似性,用户所看到的是返回数据及其相似性构成的列表,按相似度从大到小排序。
CN201610029177.3A 2016-01-15 2016-01-15 一种基于多深度网络结构的跨媒体排序方法 Active CN105718532B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610029177.3A CN105718532B (zh) 2016-01-15 2016-01-15 一种基于多深度网络结构的跨媒体排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610029177.3A CN105718532B (zh) 2016-01-15 2016-01-15 一种基于多深度网络结构的跨媒体排序方法

Publications (2)

Publication Number Publication Date
CN105718532A CN105718532A (zh) 2016-06-29
CN105718532B true CN105718532B (zh) 2019-05-07

Family

ID=56147883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610029177.3A Active CN105718532B (zh) 2016-01-15 2016-01-15 一种基于多深度网络结构的跨媒体排序方法

Country Status (1)

Country Link
CN (1) CN105718532B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346328B (zh) * 2017-05-25 2020-09-08 北京大学 一种基于多粒度层级网络的跨模态关联学习方法
CN107220337B (zh) * 2017-05-25 2020-12-22 北京大学 一种基于混合迁移网络的跨媒体检索方法
CN107562812B (zh) * 2017-08-11 2021-01-15 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN108319686B (zh) * 2018-02-01 2021-07-30 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN108595518A (zh) * 2018-03-26 2018-09-28 中南大学 一种氧化铝生产蒸发过程在线数据协调方法及系统
CN108764537B (zh) * 2018-05-14 2021-11-23 浙江工业大学 一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法
CN109189968B (zh) * 2018-08-31 2020-07-03 深圳大学 一种跨模态检索方法及系统
CN110781319B (zh) * 2019-09-17 2022-06-21 北京邮电大学 跨媒体大数据的公共语义表示、搜索方法和装置
CN110879844B (zh) * 2019-10-25 2022-10-14 北京大学 一种基于异构交互学习的跨媒体推理方法和系统
CN111651577B (zh) * 2020-06-01 2023-04-21 全球能源互联网研究院有限公司 跨媒体数据关联分析模型训练、数据关联分析方法及系统
CN111708745B (zh) * 2020-06-18 2023-04-21 全球能源互联网研究院有限公司 一种跨媒体数据共享表示方法及用户行为分析方法、系统
CN113742499A (zh) * 2021-08-05 2021-12-03 深圳Tcl新技术有限公司 一种多媒体资源排序方法及相关设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104166684A (zh) * 2014-07-24 2014-11-26 北京大学 一种基于统一稀疏表示的跨媒体检索方法
CN104199826A (zh) * 2014-07-24 2014-12-10 北京大学 一种基于关联分析的异构媒体相似性计算方法和检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521368B (zh) * 2011-12-16 2013-08-21 武汉科技大学 基于相似度矩阵迭代的跨媒体语义理解和优化方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104166684A (zh) * 2014-07-24 2014-11-26 北京大学 一种基于统一稀疏表示的跨媒体检索方法
CN104199826A (zh) * 2014-07-24 2014-12-10 北京大学 一种基于关联分析的异构媒体相似性计算方法和检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向视听跨媒体检索的神经认知计算模型研究;刘扬 等;《计算机科学》;20150331;第42卷(第3期);第19-25页

Also Published As

Publication number Publication date
CN105718532A (zh) 2016-06-29

Similar Documents

Publication Publication Date Title
CN105718532B (zh) 一种基于多深度网络结构的跨媒体排序方法
CN107562812B (zh) 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN110516085B (zh) 基于双向注意力的图像文本互检索方法
CN104966104B (zh) 一种基于三维卷积神经网络的视频分类方法
Pang et al. Text matching as image recognition
Saito et al. Illustration2vec: a semantic vector representation of illustrations
CN111782768B (zh) 基于双曲空间表示和标签文本互动的细粒度实体识别方法
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN105389326B (zh) 基于弱匹配概率典型相关性模型的图像标注方法
CN106650789A (zh) 一种基于深度lstm网络的图像描述生成方法
CN111782833B (zh) 基于多模型网络的细粒度跨媒体检索方法
CN109871454B (zh) 一种鲁棒离散监督跨媒体哈希检索方法
CN107346328A (zh) 一种基于多粒度层级网络的跨模态关联学习方法
CN105701225B (zh) 一种基于统一关联超图规约的跨媒体检索方法
CN104166684A (zh) 一种基于统一稀疏表示的跨媒体检索方法
CN105868706A (zh) 一种基于稀疏自编码的三维模型识别方法
CN104008187B (zh) 一种基于最小编辑距离的半结构化文本匹配方法
CN110309875A (zh) 一种基于伪样本特征合成的零样本目标分类方法
CN110059220A (zh) 一种基于深度学习与贝叶斯概率矩阵分解的电影推荐方法
CN112800249A (zh) 基于生成对抗网络的细粒度跨媒体检索方法
CN106951551A (zh) 联合gist特征的多重索引图像检索方法
CN112182275A (zh) 一种基于多维度特征融合的商标近似检索系统和方法
CN112766368A (zh) 一种数据分类方法、设备和可读存储介质
CN105701227B (zh) 一种基于局部关联图的跨媒体相似性度量方法和检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant