CN113779282B - 基于自注意力和生成对抗网络的细粒度跨媒体检索方法 - Google Patents

基于自注意力和生成对抗网络的细粒度跨媒体检索方法 Download PDF

Info

Publication number
CN113779282B
CN113779282B CN202111334768.9A CN202111334768A CN113779282B CN 113779282 B CN113779282 B CN 113779282B CN 202111334768 A CN202111334768 A CN 202111334768A CN 113779282 B CN113779282 B CN 113779282B
Authority
CN
China
Prior art keywords
media
features
semantic
data
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111334768.9A
Other languages
English (en)
Other versions
CN113779282A (zh
Inventor
姚亚洲
孙泽人
陈涛
张传一
沈复民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Code Geek Technology Co ltd
Original Assignee
Nanjing Code Geek Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Code Geek Technology Co ltd filed Critical Nanjing Code Geek Technology Co ltd
Priority to CN202111334768.9A priority Critical patent/CN113779282B/zh
Publication of CN113779282A publication Critical patent/CN113779282A/zh
Application granted granted Critical
Publication of CN113779282B publication Critical patent/CN113779282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及细粒度跨媒体检索技术领域,公开了一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法,包括:提取媒体数据的卷积神经网络和循环神经网络;将卷积神经网络和循环神经网络输入进公共语义空间学习模块,提取与媒体数据类别无关的语义特征A1;将公共语义空间学习模块中的语义特征A1输入进媒体判别器;将生成器和媒体判别器进行对抗学习,得到训练后的语义特征A2;将语义特征A2与公共语义空间学习模块中的语义特征A1进行相似性度量,根据度量的结果检索其对应的数据。本发明用于学习细粒度子类别之间的细小差距、缩小跨媒体数据之间的异质性差异、保证分类准确率的同时,使得同一类别标签下不同媒体数据的特征尽可能相似。

Description

基于自注意力和生成对抗网络的细粒度跨媒体检索方法
技术领域
本发明涉及细粒度跨媒体检索技术领域,具体地说,是一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法,用于学习细粒度子类别之间的细小差距、缩小跨媒体数据之间的异质性差异、保证分类准确率的同时,使得同一类别标签下不同媒体数据的特征尽可能相似。
背景技术
细粒度跨媒体检索一直以来都是一项具有挑战性的任务,主要难点如下;
(1)细粒度子类别物体之间的差距很小,在类别标签的弱监督下很难找到这些细粒度子类别的判别性区域,因此很难将其区分;
(2)不同媒体类型数据的特征通常具有不一致的分布和表示形式,所以它们之间存在着巨大的媒体鸿沟,即异质性差异。因此,需要评估跨媒体数据的语义相似性。
(3)现有技术提出一个统一的深度公共语义空间学习模块生成器交叉网络(CrossNet),该公共语义空间学习模块使用同一个特征提取网络同时学习4种类型的媒体数据。相较于图像,视频和音频数据,文本数据具有一些独特的性质,这使得其很难被规范化为与其他媒体相同的二维矩阵输入。若直接使用卷积神经网络处理本发明所使用的文本输入数据,可能导致单词间存在的序列特征的丢失,并且为了描述细粒度目标,文本数据往往包含较多词汇,这些词汇中存在大量与目标物体无关的信息,若没有很好的注意力机制辅助文本特征的提取,特征提取网络将很难训练出与目标物体相关的文本特征。而且,该算法没有对上述第一个难点做出相应的处理措施。所以,此方法用于执行细粒度跨媒体检索的任务时,检索结果仍有待提高。
为了解决上述类型媒体数据特征提取的问题以及跨媒体检索存在的最大的异质性差异的问题,亟需一种技术方案,此技术方案既能有效地学习细粒度子类别之间的细小差距,又能有效地缩小跨媒体数据之间的异质性差异。本发明使用生成对抗网络来完成这一规范化过程,在保证分类准确率的同时,使得同一类别标签下不同媒体数据的特征尽可能相似。
发明内容
本发明的目的在于提供一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法,实用于学习细粒度子类别之间的细小差距、缩小跨媒体数据之间的异质性差异、保证分类准确率的同时,使得同一类别标签下不同媒体数据的特征尽可能相似。
本发明通过下述技术方案实现:一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法,包括以下步骤:
步骤S1.根据生成器中基于自注意力机制的特征提取器提取媒体数据的卷积神经网络和循环神经网络;
步骤S2.预设公共语义空间学习模块,将卷积神经网络和循环神经网络输入进公共语义空间学习模块,在公共语义空间学习模块中提取与媒体数据类别无关的语义特征A1;
步骤S3.预设媒体判别器,将公共语义空间学习模块中的语义特征A1输入进媒体判别器,根据媒体判别器验证语义特征A1和媒体数据类别是否有关,如果是,返回步骤S2,如果否,进入步骤S4;
步骤S4.将生成器和媒体判别器进行对抗学习,对语义特征A1进行对抗性训练,得到训练后的语义特征A2;
步骤S5.将语义特征A2与公共语义空间学习模块中的语义特征A1进行相似性度量,根据度量的结果检索其对应的数据;
预设基于细粒度的分类约束条件、距离约束条件和排序约束条件,上述步骤S1-步骤S5遵循约束条件。
在本技术方案中,首先采用基于自注意力机制的两个特征提取器来提取四种媒体数据的特征。在自注意力机制的作用下,该网络能够有效学习细粒度子类别之间的判别性差异。由于细粒度跨媒体检索任务在检索过程中需要缩小不同媒体类型的子物种的类内距离,扩大相同媒体类型的不同子物种的类间距离,若直接对每一种媒体使用普通的卷积神经网络来提取特征会导致特征的不一致性,因此需要使用规范化机制来达到这一目的。
为了更好地实现本发明,进一步地,步骤S1包括:
媒体数据包括图像数据、视频数据、音频特征数据和文本数据;
根据图像数据、视频数据和音频特征数据的卷积神经网络获取定位目标的指定部分;
根据文本数据的循环神经网络获取定位目标的描述单词特征。
在本技术方案中,基于自注意力机制的文本特征提取算法是使用一个循环神经网络来更好地解析文本数据的时序关系,将循环神经网络提取到的序列特征与自注意力机制提取的重要特征结合在一起,可以更好地提取文本特征。
为了更好地实现本发明,进一步地,步骤S2包括:
在卷积神经网络中随机选取注意力区域中任意一张局部注意力区域,对其进行剪裁和放大后将其输入进公共语义空间学习模块;
在循环神经网络中通过线性叠加降低特征维度,将循环神经网络提取到的媒体数据的描述单词特征与自注意力机制提取到的重要特征结合在一起输入进公共语义空间学习模块。
在本技术方案中,两个网络同时提取了四种媒体数据的低层次特征之后,将它们全部输入进公共语义空间学习模块,在这个空间中的数据特征弥合了四种媒体数据的异质性差异,只分别提取出它们的高层次语义特征,这些特征与媒体类别无关,从而可以对这些特征进行相似性度量,为了验证该空间的特征与媒体类型无关,将公共语义空间学习模块的特征输入进媒体判别器让其分辨。
为了更好地实现本发明,进一步地,步骤S2还包括:
在公共语义空间学习模块中设置媒体数据类型的不区分规则和媒体数据类型的区别语义规则;
在公共语义空间学习模块中整合媒体数据基于细粒度划分的异质性差异,并分别提取出媒体数据的高层次语义特征,获取语义特征A1。
在本技术方案中,生成器的目的是为了生成让媒体判别器辨别不出来的特征,而媒体判别器是为了尽可能地分辨出生成器生成的特征属于哪一种媒体类型。生成器和媒体判别器进行对抗学习,当媒体判别器不能够分辨出该空间的特征属于何种媒体类型时,就认定公共特征空间学习完成。
为了更好地实现本发明,进一步地,步骤S3包括:
根据全连接层设置媒体判别器;
根据交叉熵损失函数、非线性函数、媒体类型标签和输入的媒体类型对媒体判别器的分类损失进行定义;
根据媒体判别器的分类损失验证公共语义空间学习模块中的特征是否与媒体类型的特征无关。
在本技术方案中,为了和生成器进行对抗训练,还构造了一个媒体判别器以验证公共表示空间中的特征是否与媒体类型的特征无关。
为了更好地实现本发明,进一步地,步骤S4包括:
在对抗学习中,媒体判别器根据最大最小博弈规则对媒体类型进行分辨,当媒体判别器不能够分辨出公共语义空间学习模块的特征属于何种媒体类型时,判定公共特征空间的对抗学习完成,得到训练后的语义特征A2。
在本技术方案中,媒体判别器和生成器对抗训练时,在最小化生成器的损失的同时,最大化媒体判别器的损失来获得此算法的最优模型。
为了更好地实现本发明,进一步地,步骤S5中的相似性度量包括:
将语义特征A2与公共语义空间学习模块中的语义特征A1作余弦值的相似性度量。
在本技术方案中,将生成的特征与搜索库中的特征作余弦值的相似性度量,便可以检索到与其语义相似的数据。
为了更好地实现本发明,进一步地,约束条件包括:
根据分类约束条件学习媒体数据的细粒度语义特征。
在本技术方案中,分类约束条件是指为了使公共特征空间的特征能够充分学习到各种媒体类型的语义特征。
为了更好地实现本发明,进一步地,距离约束条件包括:
根据距离约束条件确定媒体数据的语义特征的相似度。
在本技术方案中,距离约束条件是由于不同媒体数据的特征之间存在异质性差距,为了缩小这样的差距,在学习到了公共语义空间学习模块之后,对于该空间的特征使用距离约束来缩小不同媒体相同子类别的样本之间的特征,即使用距离约束条件缩小类内差距。
为了更好地实现本发明,进一步地,排序约束条件包括:
根据排序约束条件预测输入的媒体数据的样本之间的相对距离。
在本技术方案中,根据排序约束条件预测输入媒体数据样本之间的相对距离确保相同子类的媒体数据的样本特征的紧密性,不同子类的媒体数据样本特征的稀疏性
本发明与现有技术相比,具有以下优点及有益效果:
(1)本发明用于学习细粒度子类别之间的细小差距、缩小跨媒体数据之间的异质性差异、保证分类准确率的同时,使得同一类别标签下不同媒体数据的特征尽可能相似。
(2)本发明针对文本数据的序列特性容易被遗漏或者混淆的特性以及跨媒体之间存在的异质性差距的特性,借助基于自注意力机制的长短期记忆网络准确地找到目标物体的描述语句。
(3)本发明使用基于自注意力机制的卷积神经网络和局部注意区域学习跨媒体数据的细粒度特征,借助生成对抗网络学习四种媒体类型的公共语义空间。
(4)本发明在多个复杂且具有挑战性的数据集上的实验充分验证了基于自注意力机制对于提取细粒度特征的有效性。
附图说明
本发明结合下面附图和实施例做进一步说明,本发明所有构思创新应视为所公开内容和本发明保护范围。
图1是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法的流程图。
图2是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法中基于自注意力机制的文本特征提取算法的示意图。
图3是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法中基于自注意力机制的卷积神经网络的示意图。
图4是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法中多种方法在PKU FG-XMedia数据集上的双媒体检索对比图。
图5是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法中PKU FG-XMedia实验数据集上的多媒体检索对比图。
图6是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法中PKU Xmedia数据集上的双媒体检索对比图。
图7是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法中PKU Xmedia实验数据集上的多媒体检索对比图。
图8是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法中维基百科数据集上的双媒体检索对比图。
图9是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法中NUS-WIDE数据集上的双媒体检索对比图。
图10是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法中双媒体任务中每个约束条件的影响示意图。
图11是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法中多媒体任务中每个约束条件的影响示意图。
图12是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法中双媒体模式下算法中每个模块的影响示意图。
图13是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法中多媒体任务中每个模块的影响示意图。
具体实施方式
实施例1:
本实施例的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法,如图1所示,使用特征提取器提取图像数据、视频数据和音频数据特征的卷积神经网络,使用特征提取器提取文本数据的循环神经网络。
本实施例提出一种基于自注意力机制和生成对抗网络的细粒度跨媒体检索方法,针对文本数据的序列特性容易被遗漏或者混淆的特性以及跨媒体之间存在的异质性差距的特性,借助基于自注意力机制的长短期记忆网络准确地找到目标物体的描述语句;再使用基于自注意力机制的卷积神经网络和局部注意区域学习跨媒体数据的细粒度特征,接着借助生成对抗网络学习四种媒体类型的公共语义空间学习模块。多个复杂且具有挑战性的数据集上的实验充分验证了基于自注意力机制对于提取细粒度特征的有效性。步骤S1使用两个基于自注意力机制的特征提取器,一个是用来提取图像、视频、音频特征的卷积神经网络,另外一个是用来提取文本数据的循环神经网络。步骤S2将它们全部输入进公共语义空间学习模块,只分别提取出它们的与媒体类别无关的高层次语义特征,从而对这些特征进行相似性度量。步骤S3将公共语义空间学习模块,的特征输入进媒体判别器让其分辨,来验证该空间的特征与媒体类型无关。步骤S4用生成器和媒体判别器进行对抗学习。步骤S5将生成的特征与公共语义空间学习模块中的特征作余弦值的相似性度量,便可以检索到与其语义相似的数据。
本实施例共同考虑了三个约束条件,以更好地学习公共语义空间学习模块:(1)分类约束条件:学习各种媒体类型的细粒度语义特征;(2)距离约束条件:确保类内样本特征尽量靠近,即当样本属于同一种物种子类别,但是不属于同一个媒体种类时,样本的特征能够尽量相似;(3)排序约束:预测输入样本之间的相对距离,确保相同子类样本特征的能够更加靠近,不同子类样本的特征具有稀疏性。
实施例2:
本实施例在实施例1的基础上做进一步优化,在本实施例中,在实施例1中说明了生成器由两个基于自注意力机制的特征提取器组成,媒体数据包括图像数据、视频数据、音频特征数据和文本数据,所以这两个特征提取器一个是用来提取图像、视频、音频特征的卷积神经网络,还有一个是用来提取文本数据的循环神经网络。其中,基于自注意力机制的卷积神经网络能够精确定位目标的某些特定部分,比如一只鸟的眼睛或者喙等,从而学习到子类别之间的细粒度特征并对他们加以区分。基于自注意力机制的循环神经网络能够将自注意力机制对于获取重要特征的准确性和循环神经网络对于序列数据的把控性相结合,在众多描述单词中找到最重要的特征。在本实施例中运用了基于自注意力机制的文本特征提取算法的循环神经网络和基于自注意力机制的卷积神经网络。
基于自注意力机制的文本特征提取算法是使用一个循环神经网络来更好地解析文本数据的时序关系,将循环神经网络提取到的序列特征与自注意力机制提取的重要特征结合在一起,可以更好地提取文本特征。
如图2所示,该算法由文本、字符嵌入、长期记忆网络和自注意力机制实现,自注意力机制包括自注意力权重和嵌入式文本矩阵。
基于自注意力机制的文本特征提取算法如下:
给定一个含有n个单词的句子,则该句子的词嵌入矩阵E表示为:
Figure DEST_PATH_IMAGE001
其中,
Figure 365032DEST_PATH_IMAGE002
代表该句子的第i个单词的词嵌入表示向量。E是一个大小为n×媒体判 别器的矩阵,包含了n个单词的词嵌入向量。由于E中的每个词向量都有依赖关系,于是采用 一个双向的卷积神经网络(LSTM)来获取一个句子中的相邻单词之间的依赖关系。
假设双向的卷积神经网络(LSTM)的隐藏层的大小为u,则隐藏层的输出数据
Figure DEST_PATH_IMAGE003
可 以表示为:
Figure 282173DEST_PATH_IMAGE004
H是双向LSTM的所有的隐藏层输出结果的集合,表示为:
Figure DEST_PATH_IMAGE005
所以H的大小是n×2u。
由于本实施例所使用细粒度特征需要更复杂的语义信息来表示,描述文本中包含 较多的单词,因此输入双向的卷积神经网络(LSTM)的序列数据长度较长。为了保证双向的 卷积神经网络(LSTM)中的长短期记忆不会消失或者混淆,本实施例希望用更高维度的特征 向量来表征每个字符,这导致了后续线性层在降低特征维度时需要更多网络深度及参数, 从而难以快速收敛。因此本实施例在权重特征提取之前先行采用线性叠加(avera生成器 esum)来降低特征维度。维度降低后用
Figure 999593DEST_PATH_IMAGE006
表示,大小为n×u。
自注意力机制旨在学习一个权重矩阵,该权重矩阵可以将句子中和目标有关的单 词权重增加,与目标无关的单词权重减轻,也就是说让最后提取出来的特征更集中于特定 的区域。自注意力机制将整个卷积神经网络(LSTM)隐藏状态
Figure DEST_PATH_IMAGE007
作为输入,然后输出权重矩 阵M,M表示如下:
Figure 80288DEST_PATH_IMAGE008
这里
Figure DEST_PATH_IMAGE009
是一个维度为
Figure 832344DEST_PATH_IMAGE010
的权重矩阵,
Figure DEST_PATH_IMAGE011
是一个大小为
Figure 654806DEST_PATH_IMAGE012
×u的矩阵参数,其 中
Figure 859522DEST_PATH_IMAGE010
是一个可以设置为任意值的超参数。生成器(x)是可以按照需求更改的激活函数。因 为
Figure 58423DEST_PATH_IMAGE013
的大小是n×u,M的大小是n。
将卷积神经网络(LSTM)的隐藏状态
Figure 664984DEST_PATH_IMAGE007
与权重矩阵M相乘可以得到嵌入式文本矩 阵L,将其表示为:
Figure DEST_PATH_IMAGE014
L便是经由文本处理通道得到的文本数据的低层次特征。之后再经由几个全连接 层调整其维度与其他三种媒体类型的特征一致,将其表示为
Figure 658348DEST_PATH_IMAGE015
如图3所示,由于自注意力机制能够精准定位目标中具有辨识度的部分,此处采用基于自注意力机制的卷积神经网络来提取图像数据、视频数据和音频数据数据的特征。在得到具有辨识度的局部注意力区域之后,将其进行裁剪放大之后再次输入进网络进行细粒度局部区域的学习。
由于该网络对于图像数据、视频数据和音频数据的处理操作相同,以下均以图像作为输入进行讲解,具体步骤如下:
对于给定的图像数据
Figure DEST_PATH_IMAGE016
,将其输入进卷积神经网络特征提取,提取到的特征映 射
Figure 347431DEST_PATH_IMAGE017
表示为:
Figure DEST_PATH_IMAGE018
其中,
Figure 84443DEST_PATH_IMAGE019
是此卷积神经网络的参数。接着将
Figure DEST_PATH_IMAGE020
经过一个1×1的卷积层得到局部 注意力区域
Figure 545511DEST_PATH_IMAGE021
,将其表示为:
Figure DEST_PATH_IMAGE022
其中,
Figure 975356DEST_PATH_IMAGE023
为1×1的卷积层的参数,
Figure 154664DEST_PATH_IMAGE024
为此映射函数,
Figure DEST_PATH_IMAGE025
Figure 429788DEST_PATH_IMAGE026
可知,
Figure 10942DEST_PATH_IMAGE027
是经过
Figure 346108DEST_PATH_IMAGE020
降维得 到,降维之后通道数为
Figure 75030DEST_PATH_IMAGE028
。据Hu所说,
Figure DEST_PATH_IMAGE029
的每一个通道均代表物体的某个部分,例如:鸟的 眼睛、车的车轮、房屋的屋檐等。在得到
Figure 91527DEST_PATH_IMAGE020
Figure 589505DEST_PATH_IMAGE029
之后,使用基于自注意力的池化层将两者 相结合,即将
Figure 361152DEST_PATH_IMAGE020
Figure 311790DEST_PATH_IMAGE027
的每个通道数据按元素相乘,具体的示意图如图3所示,计算过程如 下:
Figure 131979DEST_PATH_IMAGE030
,然后将所有的
Figure DEST_PATH_IMAGE031
经过池化和降维 以及拼接操作获得最后的特征矩阵
Figure DEST_PATH_IMAGE032
,这也是后来公共特征空间的输入。
为了让网络学习到细粒度的特征,本实施例将
Figure DEST_PATH_IMAGE033
得到的局部 注意力区域进行裁剪放大,而后再次输入进图3中的卷积神经网络,在经过公共特征学习模 块和分类器之后对其进行类别预测。
为了避免背景干扰,本实施例随机选取
Figure 422146DEST_PATH_IMAGE034
(n=1,2,…,k)中任意一张局部注意力 区域
Figure DEST_PATH_IMAGE035
来学习细粒度特征。首先对其进行归一化处理,得到的归一化结果
Figure 364694DEST_PATH_IMAGE036
为:
Figure DEST_PATH_IMAGE037
图3中的裁剪掩码
Figure 740311DEST_PATH_IMAGE038
可以由下式得到:
Figure DEST_PATH_IMAGE039
从上式可以看出,当该点的值大于某个阈值Tc时,则为1,反之为0。其中,Tc∈[0, 1]。然后找出最小的包围框将所有的“1”框注出来,可以得到局部注意力裁剪图,将其放大 至原输入数据大小,最终得到的局部注意力放大图为
Figure 160928DEST_PATH_IMAGE040
本实施例的其他部分与实施例1相同,故不再赘述。
实施例3:
本实施例在实施例1的基础上做进一步优化,在本实施例中,两个网络同时提取了四种媒体数据的低层次特征之后,将它们全部输入进公共语义空间学习模块,在这个空间中的数据特征弥合了四种媒体数据的异质性差异,只分别提取出它们的高层次语义特征,这些特征与媒体类别无关,从而可以对这些特征进行相似性度量,为了验证该空间的特征与媒体类型无关,将公共语义空间学习模块的特征输入进媒体判别器让其分辨。
本实施例的其他部分与实施例1相同,故不再赘述。
实施例4:
本实施例在实施例1的基础上做进一步优化,生成器的目的是为了生成让媒体判别器辨别不出来的特征,而媒体判别器是为了尽可能地分辨出生成器生成的特征属于哪一种媒体类型。生成器和媒体判别器进行对抗学习,当媒体判别器不能够分辨出该空间的特征属于何种媒体类型时,就认定公共特征空间学习完成。与传统的单一媒体检索不同,本实施例所研究的细粒度跨媒体检索任务存在异质性差异。为弥合不同媒体之间存在的异质性差异,需要进行公共语义空间学习模块学习,在这个空间中可以将包含相同语义信息的样本表示为相似的“特征”。由于不同媒体之间的异质性差距可能很大,将跨媒体表示域集中到一个统一的表示域是一项挑战。因此,本实施例在生成器和媒体判别器之间构建了对抗训练机制,以驱动公共语义空间学习模块的学习。生成器用来生成语义表示,并使这些语义表示独立于媒体类型的类型,而媒体判别器试图区分语义表示的媒体类型。这两个主要部分通过对抗来引导公共表示空间的学习,从而有效地增强了跨媒体语义的一致性并提高了检索准确性。
跨媒体类型的公共语义空间学习模块中的特征应该同时具有三个属性:(1)语义上有所区别,这样可以有效地增强不同媒体类型数据的语义一致性。(2)媒体类型上不加以区分,这样可以有效地缩小异质性差异,即媒体鸿沟。媒体判别器在区分生成器生成的“特征”的媒体类型,而特征生成器生成的“特征”则缩小了不同媒体类型之间的表示差异,以混淆媒体判别器,也是二者的学习对抗训练过程。(3)相似性度量原则,公共语义空间学习模块是能够进行相似性度量的。
生成器以
Figure DEST_PATH_IMAGE041
作为输入,可以同时学习四种媒体数据的特 征。处理文本的网络提取出来的文本低层次特征表示为:
Figure 568252DEST_PATH_IMAGE042
图像数据、视频数据和音频数据经过了基于自注意力机制的卷积神经网络,提取 出来的三种媒体类型的特征
Figure DEST_PATH_IMAGE043
表示如下:
Figure 619384DEST_PATH_IMAGE044
同时从基于自注意力机制的卷积神经网络中还得到了三种媒体类型数据的局部 注意力放大图
Figure DEST_PATH_IMAGE045
。为了能够学习到细粒度子类别之间具有辨识度的局部特征, 此处将得到的
Figure 544615DEST_PATH_IMAGE046
也输入进卷积神经网络进行训练,得到的特征
Figure DEST_PATH_IMAGE047
如下:
Figure 706606DEST_PATH_IMAGE048
因为特征
Figure DEST_PATH_IMAGE049
Figure 768103DEST_PATH_IMAGE050
通常具有不一致的分布,因此无法将它们直接 进行比较。为了使不同媒体类型的样本特征具有可比性,在特征提取器之后添加一个公共 语义空间学习模块。公共语义空间学习模块由多层全连接层和激励函数组成一个非线性映 射,该投影函数由
Figure DEST_PATH_IMAGE051
表示。公共语义空间学习模块旨在找到一个公共子空间
Figure 990137DEST_PATH_IMAGE052
,在公共 子空间
Figure 402664DEST_PATH_IMAGE052
中,提取到的四种媒体类型的特征将表示成:
Figure 430662DEST_PATH_IMAGE053
;此处
Figure DEST_PATH_IMAGE054
是映射函数
Figure 549928DEST_PATH_IMAGE055
的参数。
本实施例的其他部分与实施例1相同,故不再赘述。
实施例5:
本实施例在实施例1的基础上做进一步优化,在本实施例中为了和生成器进行对 抗训练,还构造了一个媒体判别器以验证公共表示空间中的特征是否与媒体类型的特征无 关。媒体判别器由多个全连接层构成,旨在区分生成器中公共语义空间学习模块的特征属 于哪种媒体类型。以
Figure DEST_PATH_IMAGE056
作为生成器的输入,将此媒体判别器的分类 损失定义为:
Figure 677284DEST_PATH_IMAGE057
其中,
Figure DEST_PATH_IMAGE058
为交叉熵损失函数,
Figure 577107DEST_PATH_IMAGE059
是参数为
Figure 143218DEST_PATH_IMAGE060
的非线性函数,用来预测
Figure 382569DEST_PATH_IMAGE061
Figure DEST_PATH_IMAGE062
Figure 743143DEST_PATH_IMAGE063
Figure DEST_PATH_IMAGE064
分别属于哪一种媒体类型,
Figure 67945DEST_PATH_IMAGE065
为四个输入数据的 one-hot媒体类型标签。
本实施例的其他部分与实施例1相同,故不再赘述。
实施例6:
本实施例在实施例1的基础上做进一步优化,在本实施例中媒体判别器和生成器 对抗训练时,在最小化生成器的损失的同时,最大化媒体判别器的损失来获得此算法的最 优模型,此过程也被称为最小最大博弈规则。在上述理论的基础上,就可以将一些参数分配 到每个损失函数里面并且将对抗阶段的损失函数
Figure DEST_PATH_IMAGE066
定义为:
Figure 437747DEST_PATH_IMAGE067
Figure DEST_PATH_IMAGE068
其中,
Figure 263096DEST_PATH_IMAGE069
是训练阶段正损失函数和负损失函数之间平衡参数,是一个正值。
Figure DEST_PATH_IMAGE070
是处理图像、视频和音频的特征提取器的参数,
Figure 60151DEST_PATH_IMAGE071
是处理文本数据的特征提取器的参数,
Figure DEST_PATH_IMAGE072
是公共语义空间学习模块的参数。由于这两个损失函数的优化目标相反,因此两个并发 子过程的对抗过程可以定义为:
Figure 606669DEST_PATH_IMAGE073
Figure DEST_PATH_IMAGE074
其中,参数
Figure 717845DEST_PATH_IMAGE075
Figure DEST_PATH_IMAGE076
最小化,而参数
Figure 728526DEST_PATH_IMAGE077
使
Figure DEST_PATH_IMAGE078
最大化,这就是此模型的对抗 训练过程。目标是寻找
Figure 634165DEST_PATH_IMAGE079
Figure DEST_PATH_IMAGE080
以达到
Figure 730297DEST_PATH_IMAGE081
的鞍点。在 此鞍点处,
Figure DEST_PATH_IMAGE082
可以让
Figure 379585DEST_PATH_IMAGE083
最小,而
Figure DEST_PATH_IMAGE084
可以让
Figure 244772DEST_PATH_IMAGE085
最大。在这两个公式的基础 上,参数的更新过程如下所示:
Figure DEST_PATH_IMAGE086
Figure 321313DEST_PATH_IMAGE087
Figure DEST_PATH_IMAGE088
Figure 842424DEST_PATH_IMAGE089
其中,
Figure DEST_PATH_IMAGE090
是学习率。上述公式的参数更新可以通过随机梯度下降(Stochastic Gradient Descent,SGD)算法实现。Pytorch框架可以很方便地实现随机梯度下降 (Stochastic Gradient Descent,SGD)算法,它可以自动计算梯度并更新参数。
本实施例的其他部分与实施例1相同,故不再赘述。
实施例7:
本实施例在实施例1的基础上做进一步优化,在本实施例中将生成的特征与搜索库中的特征作余弦值的相似性度量,便可以检索到与其语义相似的数据。
本实施例的其他部分与实施例1相同,故不再赘述。
实施例8:
本实施例在实施例1的基础上做进一步优化,分类约束条件是指为了使公共特征 空间的特征能够充分学习到各种媒体类型的语义特征。在公共语义空间学习模块的最后一 个全连接层会接一个
Figure 92140DEST_PATH_IMAGE091
函数作为一个分类器,最终会输出一组概率值,从此概 率值可以判断公共语义空间学习模块将该样本预测为哪一类。经过分类器之后,
Figure DEST_PATH_IMAGE092
Figure 15096DEST_PATH_IMAGE093
表示成
Figure DEST_PATH_IMAGE094
。另外,此处将上述得到的注意力放大 图在公共特征空间的特征
Figure 324855DEST_PATH_IMAGE095
输入分类器,得到对应的结果,然后将其与原图的特 征
Figure DEST_PATH_IMAGE096
以各一半的权重结合为
Figure 353770DEST_PATH_IMAGE097
,从而判断其所属类别,定义分类损 失
Figure DEST_PATH_IMAGE098
如下:
Figure 407177DEST_PATH_IMAGE099
其中,
Figure DEST_PATH_IMAGE100
分别表示原始图像、视频、音频和文本特征,
Figure 184640DEST_PATH_IMAGE101
Figure DEST_PATH_IMAGE102
分别表示注意力放大图的特征,以上都是最后一个全连接层的输出数 据。
Figure 665300DEST_PATH_IMAGE103
为交叉熵损失函数,
Figure DEST_PATH_IMAGE104
为数据集的子类别数,定义
Figure 895424DEST_PATH_IMAGE105
如下:
Figure DEST_PATH_IMAGE106
本实施例的其他部分与实施例1相同,故不再赘述。
实施例9:
本实施例在实施例1的基础上做进一步优化,距离约束条件是由于不同媒体数据 的特征之间存在异质性差距,为了缩小这样的差距,在学习到了公共语义空间学习模块之 后,对于该空间的特征使用距离约束来缩小不同媒体相同子类别的样本之间的特征,即缩 小类内差距。为了方便表达,此处仅以两种方式(图像和视频)为例,图像和视频的样本特征 之间的距离公式如
Figure 690205DEST_PATH_IMAGE107
所示:
Figure DEST_PATH_IMAGE108
每两种媒体之间会计算一个
Figure 384491DEST_PATH_IMAGE109
,最后将这6个距离相加得到
Figure DEST_PATH_IMAGE110
,公式如下所示。
Figure 973735DEST_PATH_IMAGE110
越小,则不同媒体类型的子物种类内差距越小。
Figure 19052DEST_PATH_IMAGE111
。距离损失旨在最小化子类别内方 差。
本实施例的其他部分与实施例1相同,故不再赘述。
实施例10:
本实施例在实施例1的基础上做进一步优化,
排序约束条件应用的排序损失可以扩大不同细粒度子类别特征之间的距离。其定义如下:
Figure DEST_PATH_IMAGE112
Figure 414261DEST_PATH_IMAGE113
在上式中,
Figure DEST_PATH_IMAGE114
Figure 900737DEST_PATH_IMAGE115
是两个属于相同子类别的样本,而
Figure DEST_PATH_IMAGE116
Figure 926462DEST_PATH_IMAGE117
分别来自两个子 类别。例如,
Figure DEST_PATH_IMAGE118
Figure 193495DEST_PATH_IMAGE119
是同属于“黑脚信天翁”图像数据和视频数据,
Figure 392395DEST_PATH_IMAGE116
是“黑背信天翁”的 一个样本,
Figure 733378DEST_PATH_IMAGE117
是属于“灰背信天翁”的样本。值得注意的是,这些设置和媒体类型无关,也就 是说
Figure 992321DEST_PATH_IMAGE118
Figure 746651DEST_PATH_IMAGE115
的位置可以是任何媒体类型的样本。然后使用
Figure DEST_PATH_IMAGE120
描述方差,该方差由欧几 里得距离度量。
Figure 418416DEST_PATH_IMAGE121
Figure DEST_PATH_IMAGE122
表示边界阈值,本实施例中将其设置为1和0.5。
本实施例的其他部分与实施例1相同,故不再赘述。
此外,基于上述实施例,本发明选用实验运行环境为linux4.15.0、GeForceRTX2080Ti和CUDA10.2,实验语言为Python3.6进行了如下操作:
首先进行数据集处理:为了规范化数据集,本发明做了如下操作:对于图像,将其大小调整为448×448,对于文本:遵循Conneau将其转换成一个n×d的矩阵,d是符号嵌入维度,本发明取值为100。另外将所有的文本语句长度固定成448个字符,所以每段文本的矩阵大小是448×100。如果语句的字符数量不足448,就在行上面补充0;如果字符长度超过了448,就在第448个字符处裁剪掉后面的字符。因为文本数据集中每一段文本描述文本中的字符数都没有超过448,所以不会有信息丢失。对于每个视频数据,等间隔地从中提取出25帧图像作为视频数据。原数据集中的音频数据已经用短时傅里叶变换处理过,现音频以语谱图呈现。
其次进行算法细节处理:首先将四种媒体类型的实例样本同时输入进生成器,图像、视频和音频数据直接同时输入进同一个基于自注意力机制的卷积神经网络,本发明中使用到的特征提取器是ResNet50网络。检索阶段与训练阶段不同,训练时,为了防止过拟合,随机抽取一个注意力区域裁剪为局部注意力放大图来辅助训练,但是在检索阶段,为了检索结果的稳定性,此处将所有的注意力区域相加平均之后再输入网络。为了获得更好的性能,对其进行了一些修改:输入数据大小是448×448,在ResNet50的最后一个卷积层后面再接一个内核大小为14、步长为1的平均池化层。此处需要说明的是,ResNet50可以被替换成任何其他的有效的卷积神经网络,例如Alex Net和VGG Net。文本数据输入进基于自注意力机制的循环神经网络网络。为了更好的学习文本的序列特征,采用的循环神经网络网络是双向卷积神经网络,隐藏层的维度为2048。经过了两个特征提取网络之后,提取到的低层次特征会一起输入公共语义学习模块。在三个约束条件和媒体判别器的共同作用下得到公共语义空间学习模块。在训练阶段,学习率从0.001开始,每三个epoch降低0.5倍,1个epoch等于使用训练集中的全部样本训练一次。检索时,将框架的最后一个全连接层的输出作为四种媒体类型的公共语义表示形式。然后采用第二章介绍的余弦距离来衡量不同媒体数据之间的相似度,最后根据此相似性返回检索结果。
最后进行检索任务设置:为了证明本算法的有效性,以下两个任务会用来评估不同方法的细粒度跨媒体检索性能,即双媒体细粒度跨媒体检索和多媒体细粒度跨媒体检索。双媒体细粒度跨媒体检索:查询是任何一种媒体类型的实例,而检索结果是另一种媒体类型的实例。例如,如果查询是“加州海鸥”的图像,则结果可以是“加州海鸥”的文本实例,表示为“I→T”,所以双媒体细粒度跨媒体检索任务共有12个,分别是“I→T”,“I→V”,“I→A”,“T→I”,“T→V”,“T→A”,“V→I”,“V→T”,“V→A”,“A→I”,“A→T”和“A→V”。多媒体细粒度跨媒体检索:查询是任何媒体类型的一个实例,而检索结果是所有媒体类型的数据。例如,如果查询是“加州海鸥”的图像,则结果将是图像,视频、音频和文本类型的“加州海鸥”的数据,表示为“I→all”,所以多媒体细粒度跨媒体检索总共有4个任务,分别为“I→all”,“T→all”,“V→all”和“A→all”。
通过上述操作进行结果分析:首先是对PKUFG-XMedia数据集(细粒度跨媒体数据集)的分析,在数据集上,CFFCE是基于实体级公共特征空间的细粒度跨媒体检索算法,FGCN是反馈图卷积网络算法,
MHTN是模态对抗混合传输网络算法,如图4所示,横列是各种跨媒体检索算法,如MHTH检索算法、ACMR是基于对抗训练的跨模态搜索检索算法、JRL检索算法、GSPH检索算法、CMDN检索算法、SCAN检索算法、GXN检索算法,竖列的I、V、A、T分别代表图像视频音频文本特征。
如图4所示,表示了多种方法在PKU FG-XMedia数据集上的双媒体检索对比结果;如图5所示,可以看到PKU FG-XMedia实验数据集上的多媒体检索对比结果。从图4可以看出,本方法提在12种双媒体检索任务中表现出来的性能均显著优于一般的跨媒体检索方法和最近所提出的细粒度跨媒体检索算法FG Cross Net。尤其在与本方法有关的任务中,本方法的均值平均精度得分比FG Cross Net的得分高出约12个百分点。因为FG Cross Net采用同一个卷积神经网络来同时提取四种媒体数据的特征,丢失了文本的序列特性。而本发明使用基于自注意力机制的文本特征提取分支来保留文本单词之间的序列特性并采用自注意力机制加大与目标有关信息的权重,从而可以更好地提取文本特征。因此在所有与文本相关的检索任务中,本发明方法的均值平均精度得分大大超过了FG Cross Net和其他跨媒体检索算法。图5显示了多媒体细粒度跨媒体检索模式下的均值平均精度得分,其变化趋势与双媒体检索相同。从上述表可知,无论是双媒体检索的12个任务还是多媒体检索的4个任务,本发明算法皆取得最高的性能,主要是因为:1)构建了生成对抗网络,以学习所有四种媒体数据的公共语义空间学习模块,从而可以减少不同媒体之间的异质性差距。2)构造了一个基于自注意力机制的文本特征提取分支来捕获文本的序列特征,该特征可以让学习过程集中于文本数据中更重要的组成部分。
如图6和图7所示,展示了不同算法在PKUXmedia数据集上的实验均值平均精度得分,由于SCAN和GXN是早期提出的跨媒体检索方法,并且由于篇幅限制,此后的实验不显示这两种方法的检索性能。从以下图表中可以看出,在此非细粒度的数据集上,本发明所提算法的性能依旧维持最佳。不同于细粒度数据集,粗粒度数据集中的不同类别数据之间差异较大。以图像为例,粗粒度数据集中的鸟类和虫类的整体视觉外观差异巨大,而细粒度数据集中同属于鸟类的“灰背信天翁”和“黑脚信天翁”的区别仅仅在于背和脚的颜色。因此,SAGA网络能更好地学习粗粒度子类的特征。从以下的图表可以清晰看出,所提出的算法在12个双媒体检索任务上均优于其他所有跨媒体检索算法。并且对于效果最好的FG CrossNet方法,本发明算法执行的所有任务的性能均有所提高。实验结果表明,生成对抗网络模型在学习公共语义空间的有效性。
如图8所示,展示了不同算法在维基百科数据集上进行实验的均值平均精度得分。和PKUXmedia一样,维基百科也是用于粗粒度检索的数据集。由于维基百科数据集只有图像和文本数据,因此只在此数据集上进行了“I→T”和“T→I”两种检索任务。该实验结果也表明了使用生成对抗网络模型构建公共语义空间的有效性以及自注意力机制在文本特征提取时的有效性。
如图9所示,展示了在NUS-WIDE数据集上不同算法的检索均值平均精度得分。NUS-WIDE也是粗粒度数据集,可以看出SAGA算法仍然保持最高的检索性能。说明SAGA不仅能够精确地检索用户所需信息,还能尽可能地返回更多的有效数据以满足用户需求。
为了验证算法中每个约束条件的影响,本发明进行了消融实验。实验数据集采用的是PKUFG-Xmedia,如图10和图11所示,实验结果显示在图10和图11中。从图10和图11中可以观察到:“分类约束”用来训练本发明的框架,在12种双媒体检索任务和4种多媒体检索任务中,该方法的检索性能相对较低。这表明分类约束可以在语义类别的帮助下学习细粒度子类别的特征,但是效果不佳。“+距离约束”表示在分类约束的基础上再加上距离约束。与双媒体模式下平均mAP只有0.41的分类约束相比,此项提高了3.4%,在多媒体模式下提高了4.1%,因此具有更好的检索性能。这是因为该距离约束尽量拉拢同一子类别的特征使具有相同语义的特征更加靠近。“+排序约束”表示在分类约束和距离约束的基础上再加上排序约束。可以看到,加上排序约束之后,其性能均达到最佳。双媒体检索模式下的检索性能提高了1.9%,多媒体检索模式下提高了3.5%,排序约束将不同子类别的特征尽量分离,这也有效地提高了检索性能。
如图12和图13所示,新提出的细粒度跨媒体检索算法有两个新的子模块:基于自注意力机制的文本特征提取算法和生成对抗网络。每个子模块的性能都应该进行评估。图12和图13以递增的方式展示了两种检索模式下不同子模块组合的均值平均精度得分,图12和图13中的第二行展示了不包含两种模块的基本框架的检索性能。第三行展示了当使用基于自注意力机制的文本特征提取算法替换原先的文本处理分支时的均值平均精度得分。可以看出,在添加了此分支之后,所有检索任务的性能都有了明显的提高。第四行展示了构建生成对抗结构之后的均值平均精度得分。与仅使用基于自注意力机制的文本特征提取器的结果相比,它在很大程度上提高了检索性能。总之,新提出的每个子模块都有其作用和优势,并且将所有子模块结合在一起可以带来最佳的检索性能。可见,当所有模块结合时检索性能最佳。
以上,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化,均落入本发明的保护范围之内。

Claims (3)

1.一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法,其特征在于,包括以下步骤: 步骤S1.根据生成器中基于自注意力机制的特征提取器提取媒体数据的卷积神经网络和循环神经网络; 所述媒体数据包括图像数据、视频数据、音频特征数据和文本数据;根据图像数据、视频数据和音频特征数据的卷积神经网络获取定位目标的指定部分; 根据文本数据的循环神经网络获取定位目标的描述单词特征; 步骤S2.预设公共语义空间学习模块,将卷积神经网络和循环神经网络输入进公共语义空间学习模块,在公共语义空间学习模块中提取与媒体数据类别无关的语义特征A1; 在公共语义空间学习模块中设置媒体数据类型的不区分规则和媒体数据类型的区别语义规则和相似性度量规则; 在公共语义空间学习模块中整合媒体数据基于细粒度划分的异质性差异,并分别提取出媒体数据的高层次语义特征,获取语义特征A1; 在卷积神经网络中随机选取注意力区域中任意一张局部注意力区域,对其进行剪裁和放大后将其输入进公共语义空间学习模块; 对于给定的图像数据
Figure 878826DEST_PATH_IMAGE002
,将其输入进卷积神经网络特征提取,提取到的特征映射
Figure 327125DEST_PATH_IMAGE004
表示为:
Figure 778966DEST_PATH_IMAGE006
,其中,
Figure 908596DEST_PATH_IMAGE008
是此卷积神经网络的参数; 接着将
Figure 519706DEST_PATH_IMAGE004
经过一个1×1的卷积层得到局部注意力区域
Figure 748693DEST_PATH_IMAGE010
,将其表示为:
Figure 750147DEST_PATH_IMAGE012
,其中,
Figure 745785DEST_PATH_IMAGE014
为1×1的卷积层的参数,
Figure 149085DEST_PATH_IMAGE016
为此映射函数,
Figure 814552DEST_PATH_IMAGE018
Figure 303303DEST_PATH_IMAGE020
可知,
Figure 837052DEST_PATH_IMAGE021
是经过
Figure 94858DEST_PATH_IMAGE004
降维得到,降维之后通道数为k;
在得到
Figure 190947DEST_PATH_IMAGE004
Figure 166993DEST_PATH_IMAGE022
之后,使用基于自注意力的池化层将两者相结合,即将
Figure 238854DEST_PATH_IMAGE004
Figure 649369DEST_PATH_IMAGE010
的每个通道数据按元素相乘,计算过程如下:
Figure 781273DEST_PATH_IMAGE024
,然后将所有的
Figure DEST_PATH_IMAGE026
经过池化和降维以及拼接操作获得最后的特征矩阵
Figure DEST_PATH_IMAGE028
; 在循环神经网络中通过线性叠加降低特征维度,将循环神经网络提取到的媒体数据的描述单词特征与自注意力机制提取到的重要特征结合在一起输入进公共语义空间学习模块; 步骤S3.预设媒体判别器,将公共语义空间学习模块中的语义特征A1输入进媒体判别器,根据媒体判别器验证语义特征A1和媒体数据类别是否有关,如果是,返回步骤S2,如果否,进入步骤S4; 步骤S4.将生成器和媒体判别器进行对抗学习,对语义特征A1进行对抗性训练,得到训练后的语义特征A2;步骤S5.将语义特征A2与公共语义空间学习模块中的语义特征A1进行相似性度量,根据度量的结果检索其对应的数据; 将语义特征A2与公共语义空间学习模块中的语义特征A1作余弦值的相似性度量; 预设基于细粒度的分类约束条件、距离约束条件和排序约束条件,上述步骤S1-步骤S5遵循所述约束条件; 根据分类约束条件学习媒体数据的细粒度语义特征; 根据距离约束条件确定媒体数据的语义特征的相似度; 根据排序约束条件预测输入的媒体数据的样本之间的相对距离。
2.根据权利要求1所述的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法,其特征在于,所述步骤S3包括: 根据全连接层设置媒体判别器; 根据交叉熵损失函数、非线性函数、媒体类型标签和输入的媒体类型对媒体判别器的分类损失进行定义; 根据媒体判别器的分类损失验证公共语义空间学习模块中的特征是否与媒体类型的特征无关。
3.根据权利要求1所述的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法,其特征在于,所述步骤S4包括: 在对抗学习中,媒体判别器根据最大最小博弈规则对媒体类型进行分辨,当媒体判别器不能够分辨出公共语义空间学习模块的特征属于何种媒体类型时,判定公共特征空间的对抗学习完成,得到训练后的语义特征A2。
CN202111334768.9A 2021-11-11 2021-11-11 基于自注意力和生成对抗网络的细粒度跨媒体检索方法 Active CN113779282B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111334768.9A CN113779282B (zh) 2021-11-11 2021-11-11 基于自注意力和生成对抗网络的细粒度跨媒体检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111334768.9A CN113779282B (zh) 2021-11-11 2021-11-11 基于自注意力和生成对抗网络的细粒度跨媒体检索方法

Publications (2)

Publication Number Publication Date
CN113779282A CN113779282A (zh) 2021-12-10
CN113779282B true CN113779282B (zh) 2022-01-28

Family

ID=78956860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111334768.9A Active CN113779282B (zh) 2021-11-11 2021-11-11 基于自注意力和生成对抗网络的细粒度跨媒体检索方法

Country Status (1)

Country Link
CN (1) CN113779282B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115470365B (zh) * 2022-11-09 2023-04-07 南京码极客科技有限公司 一种基于深度度量学习的细粒度跨媒体检索方法
CN115455208A (zh) * 2022-11-09 2022-12-09 南京码极客科技有限公司 一种基于局部自注意力的细粒度跨媒体检索方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018184204A1 (en) * 2017-04-07 2018-10-11 Intel Corporation Methods and systems for budgeted and simplified training of deep neural networks
WO2018188240A1 (zh) * 2017-04-10 2018-10-18 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法
CN109376246A (zh) * 2018-11-07 2019-02-22 中山大学 一种基于卷积神经网络和局部注意力机制的句子分类方法
CN109685116A (zh) * 2018-11-30 2019-04-26 腾讯科技(深圳)有限公司 图像描述信息生成方法和装置及电子装置
CN109902293A (zh) * 2019-01-30 2019-06-18 华南理工大学 一种基于局部与全局互注意力机制的文本分类方法
CN112905822A (zh) * 2021-02-02 2021-06-04 华侨大学 一种基于注意力机制的深度监督跨模态对抗学习方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782833B (zh) * 2020-06-09 2023-12-19 南京理工大学 基于多模型网络的细粒度跨媒体检索方法
CN112800249A (zh) * 2021-02-01 2021-05-14 南京理工大学 基于生成对抗网络的细粒度跨媒体检索方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018184204A1 (en) * 2017-04-07 2018-10-11 Intel Corporation Methods and systems for budgeted and simplified training of deep neural networks
CN110383292A (zh) * 2017-04-07 2019-10-25 英特尔公司 用于深度神经网络的经预算和经简化的训练的方法和系统
WO2018188240A1 (zh) * 2017-04-10 2018-10-18 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法
CN109376246A (zh) * 2018-11-07 2019-02-22 中山大学 一种基于卷积神经网络和局部注意力机制的句子分类方法
CN109685116A (zh) * 2018-11-30 2019-04-26 腾讯科技(深圳)有限公司 图像描述信息生成方法和装置及电子装置
CN109902293A (zh) * 2019-01-30 2019-06-18 华南理工大学 一种基于局部与全局互注意力机制的文本分类方法
CN112905822A (zh) * 2021-02-02 2021-06-04 华侨大学 一种基于注意力机制的深度监督跨模态对抗学习方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ACMF:基于卷积注意力模型的评分预测研究;商齐 等;《中文信息学报》;20181115;第32卷(第11期);第86-96页 *
Multi-Scale CNN for Fine-Grained Image Recognition;CHEE SUN WON;《IEEE Access》;20200626;第8卷;第116663-116674页 *
基于区域注意力机制的遥感图像检索;彭晏飞 等;《激光与光电子学进展》;20191106;第57卷(第10期);第180-188页 *

Also Published As

Publication number Publication date
CN113779282A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
CN107526799B (zh) 一种基于深度学习的知识图谱构建方法
CN109086658B (zh) 一种基于生成对抗网络的传感器数据生成方法与系统
Liang et al. Alice: Active learning with contrastive natural language explanations
CN113283551A (zh) 多模态预训练模型的训练方法、训练装置及电子设备
CN113779282B (zh) 基于自注意力和生成对抗网络的细粒度跨媒体检索方法
CN112257449B (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN111274790B (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN109409433B (zh) 一种社交网络用户的人格识别系统和方法
CN106294344A (zh) 视频检索方法和装置
CN113821605B (zh) 一种事件抽取方法
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN112800249A (zh) 基于生成对抗网络的细粒度跨媒体检索方法
CN114239585A (zh) 一种生物医学嵌套命名实体识别方法
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
CN112347223A (zh) 文档检索方法、设备及计算机可读存储介质
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN111563373A (zh) 聚焦属性相关文本的属性级情感分类方法
CN114203177A (zh) 一种基于深度学习与情绪识别的智能语音问答方法和系统
CN115759071A (zh) 基于大数据的政务敏感信息识别系统和方法
Orosoo et al. Performance analysis of a novel hybrid deep learning approach in classification of quality-related English text
Elbedwehy et al. Efficient Image Captioning Based on Vision Transformer Models.
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN106598952A (zh) 基于卷积神经网络的中文模糊限制信息范围检测系统
Wu et al. FDU at TREC 2002: Filtering, Q&A, Web and Video Tasks.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant