CN113779283A - 一种深度监督与特征融合的细粒度跨媒体检索方法 - Google Patents

一种深度监督与特征融合的细粒度跨媒体检索方法 Download PDF

Info

Publication number
CN113779283A
CN113779283A CN202111334293.3A CN202111334293A CN113779283A CN 113779283 A CN113779283 A CN 113779283A CN 202111334293 A CN202111334293 A CN 202111334293A CN 113779283 A CN113779283 A CN 113779283A
Authority
CN
China
Prior art keywords
media
data
fine
grained
media data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111334293.3A
Other languages
English (en)
Other versions
CN113779283B (zh
Inventor
姚亚洲
孙泽人
陈涛
张传一
沈复民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Code Geek Technology Co ltd
Original Assignee
Nanjing Code Geek Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Code Geek Technology Co ltd filed Critical Nanjing Code Geek Technology Co ltd
Priority to CN202111334293.3A priority Critical patent/CN113779283B/zh
Publication of CN113779283A publication Critical patent/CN113779283A/zh
Application granted granted Critical
Publication of CN113779283B publication Critical patent/CN113779283B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及深度学习技术领域,公开了一种深度监督与特征融合的细粒度跨媒体检索方法,包括:步骤S1.将图像数据、视频数据、文本数据和音频数据分别输入到媒体专用网络中,将四种媒体数据子网络最后一层的全连接层进行权值共享,提取对应的原始特征;步骤S2.将原始特征利用语义信息和标签信息输入进公共空间,同时媒体数据四种子网络分别连接线性分类器,根据线性分类器内的标签信息对提取到的媒体数据的原始特征进行分类;步骤S3.预设三元组损失约束条件、分类损失约束条件和判别损失约束条件上,对公共空间内媒体数据的分类特征进行度量。本发明用于在标签空间和公共的特征表示空间内最大程度地减小判别损失并学习各媒体特征的相似性。

Description

一种深度监督与特征融合的细粒度跨媒体检索方法
技术领域
本发明涉及深度学习技术领域,具体地说,是一种深度监督与特征融合的细粒度跨媒体检索方法,用于在标签空间和公共的特征表示空间内最大程度地减小判别损失并学习各媒体特征的相似性。
背景技术
近年来,随着多媒体数据的快速增长,丰富多元的数据充斥着人们的生活,图像、文本、音频和视频等多媒体数据已经成为了人们认识世界的主要方式。海量的多媒体数据之间的相关性在不断提高,同时用户对多媒体数据的检索需求也变得非常灵活,不仅需要满足于单一类型数据的检索,还需要能够从海量的数据中快速精准地检索出自己感兴趣的数据。因此,细粒度跨媒体检索的研究应用广泛,在信息检索方面,丰富了用户获取信息的多样性,同时提高了用户获取信息的效率。在模式识别、人机交互方面,使人和机器之间交流和互动更加的方便和快捷。在教育、医学航空等领域,机器可以通过跨媒体检索去教授人学习不同细粒度物体的图像音频等特征。
现有的传统方法往往是通过标签信息学习媒体间和媒体内的关系,从而进行细粒度跨媒体检索。现有的方式所存在的缺陷是:
1.媒体鸿沟问题,即不同媒体类型的数据样本的特征表示差别巨大,因此直接度量它们之间的相似性是一个非常困难的问题。
2.语义鸿沟问题,计算机的特征表示与人们理解的不一致的问题,从而导致低层特征和高层语义之间的差异。
3.细粒度级别导致的类间差异小(不同的细粒度类别间很相似)、类内差异大(同一类别的物体又因为姿势光照等差异明显)的问题。这些缺陷会导致跨媒体检索的性能不高。
因此,亟需一种方法,能够解决上述问题,同时,在保留不同语义类别样本差异性的同时消除媒体鸿沟;构建出四种媒体数据公共的特征表示空间,并在标签空间和公共的特征表示空间内最大程度地减小判别损失并学习各媒体特征的相似性;此外还将标签特征和语义特征相结合来进行相似性度量,并通过方差分配特征对应的权重值。进一步提升了跨媒体检索的性能,具有很好的参照性和实用性。
发明内容
本发明的目的在于提供一种深度监督与特征融合的细粒度跨媒体检索方法,实现在标签空间和公共的特征表示空间内最大程度地减小判别损失并学习各媒体特征的相似性的效果。
本发明通过下述技术方案实现:一种深度监督与特征融合的细粒度跨媒体检索方法,包括以下步骤:
步骤S1.将图像数据、视频数据、文本数据和音频数据分别输入到媒体专用网络中,将四种媒体数据子网络最后一层的全连接层进行权值共享,提取对应的原始特征;
步骤S2.将原始特征利用语义信息和标签信息输入进公共空间,同时媒体数据四种子网络分别连接线性分类器,根据线性分类器内的标签信息对提取到的媒体数据的原始特征进行分类;
步骤S3.预设三元组损失约束条件、分类损失约束条件和判别损失约束条件上,对公共空间内媒体数据的分类特征进行度量。
本发明提出的基于深度监督与特征融合的细粒度跨媒体检索方法,主要目的是在保留不同语义类别样本差异性的同时消除媒体鸿沟;构建出四种媒体数据公共的特征表示空间,并在标签空间和公共的特征表示空间内最大程度地减小判别损失并学习各媒体特征的相似性;此外还将标签特征和语义特征相结合来进行相似性度量,并通过方差分配特征对应的权重值。进一步提升了跨媒体检索的性能,具有很好的参照性和实用性。本发明提出一种基于深度监督与特征融合的细粒度跨媒体检索方法,找到了不同媒体数据特征可以直接度量的公共空间。该方法通过最小化标签空间的分类损失,公共空间的判别损失和公共空间的三元组损失获得不同媒体数据在公共空间内的特征表示。另提出了一种新的度量方法,同时考虑了样本的标签信息和语义信息。在五种基准数据集上的大量实验和综合分析,验证了本发明所提方法的有效性。
为了更好地实现本发明,进一步地,步骤S1中的媒体专用网络包括图像卷积网络、视频卷积网络、音频卷积网络和文本卷积网络。
在本技术方案中,通过学习不同媒体类型的异构特征的同时缩小媒体特征的距离。
为了更好地实现本发明,进一步地,步骤S1包括:
根据预训练的双线性卷积神经网络提取图像数据和视频数据的细粒度特征,并将图像数据和视频数据的细粒度特征作为原始语义特征;
将图像数据和视频数据的原始语义特征输入进全连接层生成图像视频原始特征。
在本技术方案中,针对图像和视频数据,考虑到数据的细粒度特征难以提取这一问题,选用预训练后的BCNN(双线性卷积神经网络),并将通过网络后生成的特征向量作为图像、视频的原始语义特征。
为了更好地实现本发明,进一步地,步骤S1还包括:
根据预训练后的VGG16卷积神经网络提取音频数据的细粒度特征,并将音频数据的细粒度特征作为原始语义特征;
将音频数据的原始语义特征输入进全连接层生成音频原始特征。
在本技术方案中,针对音频数据,选用预训练后的VGG16卷积神经网络,VGG16卷积神经网络有16层,将最后一层全连接层生成的特征向量作为音频的原始语义特征。
为了更好地实现本发明,进一步地,步骤S1还包括:
根据sentence CNN卷积神经网络提取文本数据的细粒度特征,并将文本数据的细粒度特征作为原始语义特征;
将文本数据的原始语义特征输入进最后一层全连接层生成文本原始特征。
在本技术方案中,为了实现文本特征和其他媒体特征在公共空间中的特征学习,文本选用sentence CNN(句子作分类的卷积神经网络)作为特征提取网络,并选用与其相同的卷积构造。
为了更好地实现本发明,进一步地,步骤S3中预设三元组损失约束条件的方法包括:
判断是否是同类媒体数据样本,如果是,根据等距离约束和边界约束对媒体数据样本进行约束,如果否,引入等分布约束对媒体数据样本进行约束。
在本技术方案中,为了消除媒体鸿沟,引入等距离等分布三元组损失函数来缩小类内差异,增大类间差异。
为了更好地实现本发明,进一步地,根据等距离约束减少同类媒体数据样本的类内方差,根据边界约束区分同类媒体数据样本中的样本特征,根据等距离约束和边界约束将同类媒体数据约束在公共空间中;
根据等分布约束,并使用小批量梯度下降算法mini-batch将不同类媒体数据样本约束在公共空间中。
在本技术方案中,通过最大化类间的最小距离对类区域进行约束,从而在保持类间分布的同时,保证类内分布的紧凑性。
为了更好地实现本发明,进一步地,步骤S3中预设分类损失约束条件的方法包括:
在公共空间内,同时使用一个线性分类器来预测媒体数据样本特征在公共空间的标签信息;所述线性分类器对应的线性层连接在四种子网络的顶部,并根据交叉熵损失函数对四种子网络进行分类。
在本技术方案中,利用交叉熵损失函数优化网络的分类性能。
为了更好地实现本发明,进一步地,步骤S3中预设判别损失约束条件的方法包括:
选取两种媒体数据样本特征向量,设置当媒体数据样本属于同类时,其值为1,属于不同类时,其值为0,并根据余弦函数和判别损失函数对媒体数据样本特征向量进行表示,获取负对数似然值和负对数似然函数;
根据负对数似然函数获取激活函数,根据激活函数对媒体数据样本进行判别损失。
在本技术方案中,判别损失主要考虑媒体样本特征在公共空间中的损失,为了测量所有媒体样本特征在公共空间中的判别损失,引入了判别损让两个样本特征向量属于同一类别的概率值尽可能的大。
本发明与现有技术相比,具有以下优点及有益效果:
(1)本发明利用数据的标签信息和语义信息学习四种媒体数据的相关性,并通过三种损失函数优化网络,在保留不同语义类别样本差异性的同时消除了媒体鸿沟;
(2)本发明在标签空间和公共的特征表示空间内最大程度地减小判别损失并学习各媒体特征的相似性;
(3)本发明提出了一种结合样本的标签特征和语义特征用于相似性度量的方法,进一步提升了跨媒体检索的性能。
附图说明
本发明结合下面附图和实施例做进一步说明,本发明所有构思创新应视为所公开内容和本发明保护范围。
图1为本发明所提供的一种深度监督与特征融合的细粒度跨媒体检索方法的流程图。
图2为本发明所提供的不同方法在PKU FG-XMedia 数据集上的双模态细粒度跨媒体检索结果图。
图3为本发明所提供的不同方法在PKU FG-XMedia 数据集上的多模态细粒度跨媒体检索结果图。
图4为本发明所提供的在Wikipedia数据集上所有算法的检索结果对比图。
图5为本发明所提供的在Pascal Sentences数据集上所有算法的检索结果对比图。
图6为本发明所提供的在XMedia数据集上所有算法的检索结果对比图。
图7为本发明所提供的在XMedia数据集上所有算法的检索结果对比图。
图8为本发明所提供的一种深度监督与特征融合的细粒度跨媒体检索方法的结构示意图。
具体实施方式
实施例1:
本实施例的一种深度监督与特征融合的细粒度跨媒体检索方法,如图1和图8所 示,本发明网络结构主要由四个子网络组成,如图1所示,表示为
Figure 203549DEST_PATH_IMAGE001
。为了保证四个子 网络能在公共空间学习到图像、视频、文本、音频尽可能相似的特征表示,该方法采取四个 子网络最后一层的全连接层权值共享。最后将提取到的特征利用语义信息和标签信息进一 步学习媒体间的相关性,同时四个子网络分别连接线性分类器,利用标签信息对提取到的 特征进行分类。
实施例2:
本实施例在实施例1的基础上做进一步优化,本实施例通过学习不同媒体类型的异构特征的同时缩小媒体特征的距离。
本实施例的其他部分与实施例1相同,故不再赘述。
实施例3:
本实施例在实施例1的基础上做进一步优化,在本实施例中,图像、视频、文本、音 频各自被输入到媒体专用网络中提取原始特征。针对图像和视频数据,考虑到数据的细粒 度特征难以提取这一问题,选用预训练后的BCNN(双线性卷积神经网络),并将通过网络后 生成的特征向量作为图像、视频的原始语义特征,分别表示为
Figure 307640DEST_PATH_IMAGE002
,之后通过全连接层生 成的特征作为图像、视频在公共空间内的特征。
本实施例的其他部分与实施例1相同,故不再赘述。
实施例4:
本实施例在实施例1的基础上做进一步优化,在本实施例中,针对音频数据,选用 预训练后的VGG16卷积神经网络,VGG16卷积神经网络有16层,将最后一层全连接层生成的 特征向量作为音频的原始语义特征
Figure 87377DEST_PATH_IMAGE003
,之后通过几层全连接层生成的特征作为音频数据 在公共空间内的特征表示
Figure 482586DEST_PATH_IMAGE004
本实施例的其他部分与实施例1相同,故不再赘述。
实施例5:
本实施例在实施例1的基础上做进一步优化,在本实施例中,为了实现文本特征和 其他媒体特征在公共空间中的特征学习,文本选用sentence CNN(句子作分类的卷积神经 网络)作为特征提取网络,并选用与其相同的卷积构造。将经过预处理后的K维文本特征,输 入文本特征提取网络中,并选择最后一层全连接层的输出作为文本的原始语义特征
Figure 234641DEST_PATH_IMAGE005
,之 后通过几层全连接层生成的特征作为文本数据在公共空间内的特征表示
Figure 57104DEST_PATH_IMAGE006
本实施例的其他部分与实施例1相同,故不再赘述。
实施例6:
本实施例在实施例1的基础上做进一步优化,在本实施例中,为了消除媒体鸿沟,引入等距离等分布三元组损失函数来缩小类内差异,增大类间差异。现有的三元组方法一般直接约束同类样本对和不同类样本对间的距离,没有考虑到不同样本对内部的距离差异,因此该方法在局部范围有效但不一定适用于全局范围。通过等距离等分布损失函数,可以自适应的调整样本间的距离。为了进一步拉近同类样本的距离,拉远不同样本的距离,针对同类样本和不同类样本分别进行了相对距离约束。
针对同类样本,利用等距离约束减少类内方差,从而使同类的样本在特征空间中拉的更近,公式如下:
Figure 9623DEST_PATH_IMAGE007
其中f表示样本媒体特征,d表示欧氏距离,a、p属于同类,n属于不同类,Nb为批次大小。
引入边界约束用于区分样本特征,防止只有一个等距约束,所有样本都可能聚集到一个点上导致样本的相似性结构降低:
Figure 208523DEST_PATH_IMAGE008
其中
Figure 877402DEST_PATH_IMAGE009
,d是一个预定义的阈值。
由于边界约束不约束每个样本的位置,因此部分样本在特征空间中可能分布不均 衡从而导致分类准确率降低。因此针对不同类样本,通过等分布约束将不同类的样本推到 距离该类更远的特征空间中,使得不同类的特征均匀分布在特征空间中。该损失函数
Figure 808449DEST_PATH_IMAGE010
定义如下:
Figure 562778DEST_PATH_IMAGE011
其中
Figure 486741DEST_PATH_IMAGE012
定义如下:
Figure 10126DEST_PATH_IMAGE013
其中
Figure 439970DEST_PATH_IMAGE014
指在一个mini-batch中的类别的数量,小批量梯度下降算法的时候使用 mini-batch,D(Ci,Cj)指两个类i和j间的距离。
通过最大化类间的最小距离对类区域进行约束,从而在保持类间分布的同时,保 证类内分布的紧凑性。
Figure 681596DEST_PATH_IMAGE015
损失函数定义如下:
Figure 894403DEST_PATH_IMAGE016
如果类是分布均匀的,那么从一个类到其他类的样本的最小距离几乎是相同的。该损失函数引入了额外的类样本n约束,从而使得样本a、n的距离和样本n、n’的距离尽可能相等。
结合等距离、边界约束、等分布损失函数得到能同时拉近类内距离、拉远类间距离 的损失函数
Figure 537873DEST_PATH_IMAGE017
Figure 873040DEST_PATH_IMAGE018
标签特征和语义特征的相似性度量:现有的方法通常利用标签特征来进行余弦相似性度量并根据检索结果进行排序,直接将标签特征用于本发明中,当出现输入样本不清晰或者网络对样本的分类准确率不高等情况时,会降低跨媒体检索的精度。因此将标签特征和语义特征进行结合,并利用方差给不同特征分配对应的权重,从而完成相似性度量。其度量公式如下:
Figure 601961DEST_PATH_IMAGE019
其中A1和B1分别为样本的标签特征,A2和B2分别为样本的语义特征,β为标签特征的权重值,表示为:
Figure 369191DEST_PATH_IMAGE020
其中
Figure 867169DEST_PATH_IMAGE021
,
Figure 638816DEST_PATH_IMAGE022
分别为不同样本标签特征的方差,u为方差的阈值,本文 设为0.65。
本方法算法流程如下:
输入数据包括训练集和标签、学习率、批次大小以及最大周期数;
随机初始化网络参数;
针对每次迭代从训练集中随机从训练集中随机取出样本构建mini-batch;
前向传播计算四种媒体特征;
计算损失函数;
通过最小化公式更新四个子网络优化参数;
最终输出四个子网络优化参数;
本实施例的其他部分与实施例1相同,故不再赘述。
实施例7:
本实施例在实施例6的基础上做进一步优化,利用交叉熵损失函数优化网络的分类性能。
本实施例的其他部分与实施例1相同,故不再赘述。
实施例8:
本实施例在实施例1的基础上做进一步优化,在本实施例中,判别分类损失主要考虑标签空间内的样本分类,总损失函数定义如下:
Figure 589454DEST_PATH_IMAGE023
分类损失是假定公共空间对分类是理想的,同时使用一个线性分类器来预测样本特征在公共空间的标签信息。该线性层连接在四种媒体子网络的顶部,并利用交叉熵损失函数优化网络的分类性能:
Figure 409643DEST_PATH_IMAGE024
本实施例的其他部分与实施例1相同,故不再赘述。
实施例9:
本实施例在实施例1的基础上做进一步优化,在本实施例中,判别损失主要考虑媒体样本特征在公共空间中的损失,为了测量所有媒体样本特征在公共空间中的判别损失,引入了判别损让两个样本特征向量属于同一类别的概率值尽可能的大。公式如下:
Figure 762127DEST_PATH_IMAGE025
其中
Figure 704675DEST_PATH_IMAGE026
表示两个不同类型的媒体,i,j表示媒体的第i,j个样本实例,ui,vi表示 两个不同类型媒体的特征,
Figure 329560DEST_PATH_IMAGE027
Figure 750177DEST_PATH_IMAGE028
,
Figure 222747DEST_PATH_IMAGE029
表示使用余弦函数计算 两个特征的相似性;
Figure 336196DEST_PATH_IMAGE030
,
Figure 199110DEST_PATH_IMAGE031
是一个函数,当样本属于同类时,其值为 1;属于不同类时,其值为0。式中的第一项为模态间样本相似性的负对数似然值,其似然函 数定义如下:
Figure 423418DEST_PATH_IMAGE032
其中
Figure 484915DEST_PATH_IMAGE033
为sigmoid函数,sigmoid函数为激活函数:
Figure 454752DEST_PATH_IMAGE034
很容易发现最小化这个负对数似然函数等价于最大化似然函数。两个向量的相似度越大,其属于同一类的概率值也越大,这也意味着可以将其归为相似的类别。同样地,第二项的作用是用于测量媒体内样本特征的相似性。基于此函数,可以更好的学习媒体特征的相似性。
本实施例的其他部分与实施例1相同,故不再赘述。
此外,基于上述实施例,为了验证方法的有效性,对细粒度级别的数据集和粗粒度级别的数据集都进行了两种跨媒体检索任务,包括双模态细粒度跨媒体检索和多模态细粒度跨媒体检索,并与现有的九种经典方法进行检索性能比较。为了保证公平性,对媒体数据采用相同的预处理操作,同时选用余弦相似度作为度量方法,并分析实验结果,实验结果如图2-7所示。
本发明包含四个子网络,分别为图像、视频、文本、音频,并且在每个子网后连接两个具有ReLU 激活函数的全连接层。这两层的隐藏单元数分别为2048和1024,通过四个子网络的第二个全连接层的权值共享,来学习四种不同媒体之间的相关性。在训练阶段,采用两步训练策略。选择Adam优化器,第一步,先通过最小化交叉熵损失函数和判别损失函数训练网络,学习率设置为0.001,最大周期设置为200;第二步,在三个约束条件下微调网络,学习率设置为0.0001,最大周期设置为100。
本发明采用的数据集:可使用细粒度级别的PKU FG-XMedia数据集以及粗粒度级别的Wikipedia数据集、Pascal Sentences数据集、NUS-WIDE数据集和XMedia数据集。从而证明本发明所提方法对细粒度和粗粒度领域同样适用。PKU FG-XMedia数据集是目前细粒度跨媒体检索领域方向上唯一的数据集。包含了图像、视频、文本和音频四种媒体类型。Wikipedia、Pascal Sentence和NUS-WIDE数据集是目前粗粒度跨媒体检索广泛使用的数据集,包含图像、文本两种媒体类型;XMedia数据集包含图像、文本、视频、音频、3D模型5种媒体类型,拥有10万多个媒体实例。
本发明采用的评价指标:可采用平均精度均值mAP评价跨媒体检索性能,并在多模态细粒度跨媒体检索和双模态细粒度跨媒体检索两种检索任务上对跨媒体检索结果进行评估。
本发明采用的对比方法:为了验证本方法的有效性,本发明将该方法与其他九种优秀的跨媒体检索算法进行了对比,对比算法包括FGCrossNet、MHTN、ACMR、JRL、GSPH、CMDN、CCA、Multimodal DBN 以及Corr-AE。
如图2所示,给出了本方法和现有方法在PKU FG-XMedia 数据集上的双模态细粒度跨媒体检索结果,从结果可以看出,在所有双模态细粒度跨媒体检索中,本方法与其他方法相比取得了最佳检索效果,mAP 值平均提高8%左右。图3给出了本发明所提方法及现有方法在PKU FG-XMedia数据集上的多模态细粒度跨媒体检索结果,从结果可以看出,本方法获得了最高mAP值,平均检索精度从0.412提高到0.493,超出了现有方法。图2到图5展示了在PKU FG-XMedia数据集上其中8类进行I→All,V→All,T→All,A→All四种检索任务的mAP值。
基于上述结果,可以看出:(1)本方法优于现有的最好方法FGCrossNet。FGCrossNet同为细粒度领域设计的跨媒体网络,也取得了不错的效果,这表明了四种媒体共享公共空间的优势。(2)本方法在采用共享公共空间的前提下,还考虑了不同媒体的专有特征,因此性能有了进一步的提升,mAP值平均提高了8%左右。(3)本方法优于Corr-AE、CCA、Multimodal DBN等基于成对样本的相关损失建模的方法,这表明了在学习公共子空间时,同时考虑同类样本和不同类样本的优势。(4)本方法优于MHTN 、JRL、ACMR等利用类标签信息来对媒体内损失建模的方法,这主要是由于本发明所提方法同时利用了标签信息和语义信息,并充分考虑了类内方差,类间方差和媒体内的方差所导致的。
为了验证本方法在粗粒度跨媒体检索上的有效性,在粗粒度数据集上进行了对比实验。如图4所示,为本方法及现有方法在Wikipedia数据集上的跨媒体检索结果。如图5所示为本方法及现有方法在Pascal Sentence数据集上的跨媒体检索结果,如图6所示为本方法及现有方法在NUS-WIDE数据集上的跨媒体检索结果。如图7所示为本发明所提方法及现有方法在XMedia数据集上的跨媒体检索结果。
上述实验结果验证了本方法同样适用于粗粒度跨媒体检索。与现有方法相比,本发明不仅考虑了样本的标签信息同时考虑了媒体的语义信息,从而进一步提高了跨媒体的检索性能,
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化,均落入本发明的保护范围之内。

Claims (9)

1.一种深度监督与特征融合的细粒度跨媒体检索方法,其特征在于,包括以下步骤:步骤S1.将图像数据、视频数据、文本数据和音频数据分别输入到媒体专用网络中,将四种媒体数据子网络最后一层的全连接层进行权值共享,提取对应的原始特征; 步骤S2.将原始特征利用语义信息和标签信息输入进公共空间,同时媒体数据四种子网络分别连接线性分类器,根据线性分类器内的标签信息对提取到的媒体数据的原始特征进行分类; 步骤S3.预设三元组损失约束条件、分类损失约束条件和判别损失约束条件上,对公共空间内媒体数据的分类特征进行度量。
2.根据权利要求1所述的一种深度监督与特征融合的细粒度跨媒体检索方法,其特征在于,所述步骤S1中的媒体专用网络包括图像卷积网络、视频卷积网络、音频卷积网络和文本卷积网络。
3.根据权利要求1所述的一种深度监督与特征融合的细粒度跨媒体检索方法,其特征在于,所述步骤S1包括: 根据预训练的双线性卷积神经网络提取图像数据和视频数据的细粒度特征,并将图像数据和视频数据的细粒度特征作为原始语义特征; 将图像数据和视频数据的原始语义特征输入进全连接层生成图像视频原始特征。
4.根据权利要求1所述的一种深度监督与特征融合的细粒度跨媒体检索方法,其特征在于,所述步骤S1还包括: 根据预训练后的VGG16卷积神经网络提取音频数据的细粒度特征,并将音频数据的细粒度特征作为原始语义特征; 将音频数据的原始语义特征输入进全连接层生成音频原始特征。
5.根据权利要求1所述的一种深度监督与特征融合的细粒度跨媒体检索方法,其特征在于,所述步骤S1还包括: 根据sentence CNN卷积神经网络提取文本数据的细粒度特征,并将文本数据的细粒度特征作为原始语义特征; 将文本数据的原始语义特征输入进最后一层全连接层生成文本原始特征。
6.根据权利要求1所述的一种深度监督与特征融合的细粒度跨媒体检索方法,其特征在于,所述步骤S3中预设三元组损失约束条件的方法包括: 判断是否是同类媒体数据样本,如果是,根据等距离约束和边界约束对媒体数据样本进行约束,如果否,引入等分布约束对媒体数据样本进行约束。
7.根据权利要求6所述的一种深度监督与特征融合的细粒度跨媒体检索方法,其特征在于,包括: 根据等距离约束减少同类媒体数据样本的类内方差,根据边界约束区分同类媒体数据样本中的样本特征,根据等距离约束和边界约束将同类媒体数据约束在公共空间中; 根据等分布约束,并使用小批量梯度下降算法mini-batch将不同类媒体数据样本约束在公共空间中。
8.根据权利要求1所述的一种深度监督与特征融合的细粒度跨媒体检索方法,其特征在于,
所述步骤S3中预设分类损失约束条件的方法包括: 在公共空间内,同时使用一个线性分类器来预测媒体数据样本特征在公共空间的标签信息;所述线性分类器对应的线性层连接在四种子网络的顶部,并根据交叉熵损失函数对四种子网络进行分类。
9.根据权利要求1所述的一种深度监督与特征融合的细粒度跨媒体检索方法,其特征在于,所述步骤S3中预设判别损失约束条件的方法包括: 选取两种媒体数据样本特征向量,设置当媒体数据样本属于同类时,其值为1,属于不同类时,其值为0,并根据余弦函数和判别损失函数对媒体数据样本特征向量进行表示,获取负对数似然值和负对数似然函数;根据负对数似然函数获取激活函数,根据激活函数对媒体数据样本进行判别损失。
CN202111334293.3A 2021-11-11 2021-11-11 一种深度监督与特征融合的细粒度跨媒体检索方法 Active CN113779283B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111334293.3A CN113779283B (zh) 2021-11-11 2021-11-11 一种深度监督与特征融合的细粒度跨媒体检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111334293.3A CN113779283B (zh) 2021-11-11 2021-11-11 一种深度监督与特征融合的细粒度跨媒体检索方法

Publications (2)

Publication Number Publication Date
CN113779283A true CN113779283A (zh) 2021-12-10
CN113779283B CN113779283B (zh) 2022-04-01

Family

ID=78956920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111334293.3A Active CN113779283B (zh) 2021-11-11 2021-11-11 一种深度监督与特征融合的细粒度跨媒体检索方法

Country Status (1)

Country Link
CN (1) CN113779283B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115470365A (zh) * 2022-11-09 2022-12-13 南京码极客科技有限公司 一种基于深度度量学习的细粒度跨媒体检索方法
CN115630178A (zh) * 2022-11-14 2023-01-20 南京码极客科技有限公司 一种基于通道细粒度语义特征的跨媒体检索方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018188240A1 (zh) * 2017-04-10 2018-10-18 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法
CN109299342A (zh) * 2018-11-30 2019-02-01 武汉大学 一种基于循环生成式对抗网络的跨模态检索方法
CN112148916A (zh) * 2020-09-28 2020-12-29 华中科技大学 一种基于监督的跨模态检索方法、装置、设备及介质
US10891673B1 (en) * 2016-12-22 2021-01-12 A9.Com, Inc. Semantic modeling for search
US10963786B1 (en) * 2019-05-07 2021-03-30 Ledgerdomain Inc. Establishing a trained machine learning classifier in a blockchain network

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10891673B1 (en) * 2016-12-22 2021-01-12 A9.Com, Inc. Semantic modeling for search
WO2018188240A1 (zh) * 2017-04-10 2018-10-18 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法
CN109299342A (zh) * 2018-11-30 2019-02-01 武汉大学 一种基于循环生成式对抗网络的跨模态检索方法
US10963786B1 (en) * 2019-05-07 2021-03-30 Ledgerdomain Inc. Establishing a trained machine learning classifier in a blockchain network
CN112148916A (zh) * 2020-09-28 2020-12-29 华中科技大学 一种基于监督的跨模态检索方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WANG X: "Weight-sharing multi-stage multi-scale ensemble convolutional nueral network", 《INTERNATIONAL JOURNEY OF MACHINE LEARNING AND CYBERNETICS》 *
孙洲宇: "基于压缩卷积神经网络的跨媒体检索方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115470365A (zh) * 2022-11-09 2022-12-13 南京码极客科技有限公司 一种基于深度度量学习的细粒度跨媒体检索方法
CN115630178A (zh) * 2022-11-14 2023-01-20 南京码极客科技有限公司 一种基于通道细粒度语义特征的跨媒体检索方法

Also Published As

Publication number Publication date
CN113779283B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
CN109299342B (zh) 一种基于循环生成式对抗网络的跨模态检索方法
Zhu et al. Exploring auxiliary context: discrete semantic transfer hashing for scalable image retrieval
Bavkar et al. Multimodal sarcasm detection via hybrid classifier with optimistic logic
CN109063565B (zh) 一种低分辨率人脸识别方法及装置
Zhang et al. Learning object-to-class kernels for scene classification
CN104866810B (zh) 一种深度卷积神经网络的人脸识别方法
CN111126218B (zh) 一种基于零样本学习的人体行为识别方法
Wang et al. View-based discriminative probabilistic modeling for 3D object retrieval and recognition
CN111046179B (zh) 一种面向特定领域开放网络问句的文本分类方法
WO2016095487A1 (zh) 一种基于人机交互的图像高级语义解析的方法
Xiao et al. Multimodal fusion based on LSTM and a couple conditional hidden Markov model for Chinese sign language recognition
CN113779283B (zh) 一种深度监督与特征融合的细粒度跨媒体检索方法
CN108427740B (zh) 一种基于深度度量学习的图像情感分类与检索算法
Zhou et al. Joint image and text representation for aesthetics analysis
Chen et al. Progressive EM for latent tree models and hierarchical topic detection
CN110598018B (zh) 一种基于协同注意力的草图图像检索方法
CN110008365B (zh) 一种图像处理方法、装置、设备及可读存储介质
Tian et al. Aligned dynamic-preserving embedding for zero-shot action recognition
Islam et al. A review on video classification with methods, findings, performance, challenges, limitations and future work
Yu et al. Research on automatic music recommendation algorithm based on facial micro-expression recognition
CN110765285A (zh) 基于视觉特征的多媒体信息内容管控方法及系统
Sun et al. Multi-classification speech emotion recognition based on two-stage bottleneck features selection and MCJD algorithm
Niu Music Emotion Recognition Model Using Gated Recurrent Unit Networks and Multi-Feature Extraction
CN113792167B (zh) 一种基于注意力机制和模态依赖的跨媒体交叉检索方法
CN111581984A (zh) 一种基于任务贡献度的语句表示方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant