CN111428071B - 一种基于多模态特征合成的零样本跨模态检索方法 - Google Patents

一种基于多模态特征合成的零样本跨模态检索方法 Download PDF

Info

Publication number
CN111428071B
CN111428071B CN202010222893.XA CN202010222893A CN111428071B CN 111428071 B CN111428071 B CN 111428071B CN 202010222893 A CN202010222893 A CN 202010222893A CN 111428071 B CN111428071 B CN 111428071B
Authority
CN
China
Prior art keywords
feature
modal
text
loss function
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010222893.XA
Other languages
English (en)
Other versions
CN111428071A (zh
Inventor
徐行
张明
林凯毅
杨阳
邵杰
申恒涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010222893.XA priority Critical patent/CN111428071B/zh
Publication of CN111428071A publication Critical patent/CN111428071A/zh
Application granted granted Critical
Publication of CN111428071B publication Critical patent/CN111428071B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于多模态特征合成的零样本跨模态检索方法,利用两个对抗生成网络,通过两个模态数据共享的类别嵌入来合成不同模态的特征表示,然后将原始的模态数据和合成的模态数据映射到共同子空间并对齐分布。从而建立同一类别不同模态数据之间的联系并将知识迁移到未见过的类。循环一致性约束进一步减小了原始语义特征和重构语义特征之间的差异,很好地建立了每个模态中原始表示和语义特征之间的关联,使得共同语义空间更具鲁棒性,提高了零样本跨模态检索的准确度。

Description

一种基于多模态特征合成的零样本跨模态检索方法
技术领域
本发明属于跨模态检索技术领域,更为具体地讲,涉及一种基于多模态特征合成的零样本跨模态检索方法。
背景技术
跨模态检索的目标是通过使用来自一种模式(如文本)的查询,在另一种模式(如图像)中搜索语义相似的实例。不同模态数据的分布和特征表示不一致,因此难以直接度量不同模态数据之间的相似性。现有方法的解决思路通常是建立一个共同子空间,将不同模态的数据映射到这个共同子空间中得到统一的表征,进而通过一些度量方法来计算不同模态数据之间的相似性,与检索目标相似性大的即为检索结果,这样就实现了跨模态检索。
但是,现有的方法无法很好地处理零样本跨模态检索,因为目标集包含与源集中所见类不相交的不可见类。由于1)在训练期间没有训练看不见的类,2)可见类与不可见类之间语义信息不一致,以及3)源集和目标集之间的异构多模态分布,导致这种场景更具挑战性。
目前零样本跨模态检索采用的方法主要受到零样本学习的启发,从语料库中提取类别嵌入来构建语义空间,让知识从已知类迁移到新的未见过的类别数据。这些方法通常采用对抗生成网络(GAN)或者变分自动编码器(VAE)来生成共同嵌入空间,以获取不同模态数据的异构分布和特征表示。现有的这类零样本学习方法通常用来解决传统的分类问题,在跨模态检索问题上并没有进行优化,并且常常有限地侧重于从原始数据表示到类别嵌入的映射,而忽略了它们之间的相互关联。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于多模态特征合成的零样本跨模态检索方法,将不同模态的数据映射到共同语义空间并对齐分布,从而使得不同模态的数据可以度量相似性,实现零样本跨模态数据之间相互检索。
为实现上述发明目的,本发明一种基于多模态特征合成的零样本跨模态检索方法,其特征在于,包括以下步骤:
(1)、提取多模态数据特征
下载包含图像、文本及图像和文本共享类别标签的N多组多模态数据,然后利用卷积神经网络VGG Net提取图像特征vi,利用网络Doc2vec提取文本特征ti,利用网络Word2vec进行提取类别标签特征ci;其中,i=1,2,…,N
(2)、生成多模态数据的合成特征表示
(2.1)、搭建两路对抗生成网络WGAN,每一路WGAN均包含一个生成模块G和一个判别模块D;
(2.2)、在第一路WGAN中,将共享类别标签ci和随机噪声zi同时输入至生成模块Gv,从而生成图像合成特征表示
Figure BDA0002426688080000021
然后将图像特征vi和图像合成特征表示
Figure BDA0002426688080000022
同时输入至判别模块Dv,判别模块D通过损失函数
Figure BDA0002426688080000023
来衡量合成效果:
Figure BDA0002426688080000024
其中,L为求损失函数值,E表示求期望值,λ为给定的惩罚值,
Figure BDA0002426688080000025
表示生成模块Gv的参数,
Figure BDA0002426688080000026
表示判别模块Dv的参数,
Figure BDA0002426688080000027
表示vi与ci的联合分布概率,
Figure BDA0002426688080000028
表示
Figure BDA0002426688080000029
与ci的联合分布概率,
Figure BDA00024266880800000210
a服从0-1的正态分布,
Figure BDA00024266880800000211
表示
Figure BDA00024266880800000212
与ci的联合分布概率,
Figure BDA00024266880800000213
表示梯度惩罚系数;
(2.3)、在第二路WGAN中,将共享类别标签ci和随机噪声zi同时输入至生成模块Gt,从而生成文本合成特征表示
Figure BDA00024266880800000214
然后将文本特征ti和文本合成特征表示
Figure BDA00024266880800000215
同时输入至判别模块Dt,判别模块D通过损失函数
Figure BDA00024266880800000216
来衡量合成效果:
Figure BDA0002426688080000031
其中,L为求损失函数值,E表示求期望值,λ为给定的惩罚值,
Figure BDA0002426688080000032
表示生成模块Gt的参数,
Figure BDA0002426688080000033
表示判别模块Dt的参数,
Figure BDA0002426688080000034
表示ti与ci的联合分布概率,
Figure BDA0002426688080000035
表示
Figure BDA0002426688080000036
与ci的联合分布概率,
Figure BDA0002426688080000037
a服从0-1的正态分布,
Figure BDA0002426688080000038
表示
Figure BDA0002426688080000039
与ci的联合分布概率,
Figure BDA00024266880800000310
表示梯度惩罚系数;
(3)、构建分类器区分合成特征表示
将图像合成特征表示
Figure BDA00024266880800000311
和文本合成特征表示
Figure BDA00024266880800000312
输入至分类器,通过分类器来正确预测该合成特征表示的类别标签;
分类器的损失函数为:
Figure BDA00024266880800000313
其中,θC为分类器的参数,
Figure BDA00024266880800000314
Figure BDA00024266880800000315
输入至分类器后的参数,
Figure BDA00024266880800000316
Figure BDA00024266880800000317
输入至分类器后的参数;fsoftmax(·)表示softmax函数,具体定义如下:
Figure BDA00024266880800000318
其中,y是合成特征表示
Figure BDA00024266880800000319
的类别标签,θ代表分类器的参数,C为类别的数量,
Figure BDA00024266880800000320
表示
Figure BDA00024266880800000321
属于第c类的softmax概率;
(4)、对齐共同语义空间的分布
(4.1)、通过两个回归器Rv、Rt分别对图像合成特征表示
Figure BDA00024266880800000322
和文本合成特征表示
Figure BDA00024266880800000323
进行回归映射,得到合成图像语义信息
Figure BDA00024266880800000324
和文本语义信息
Figure BDA00024266880800000325
利用最大均值差异MMD损失函数来表示所有合成特征的分布对齐;
Figure BDA00024266880800000326
其中,i≠j,θR为回归器的参数,κ(·)是多个RBF内核的线性组合函数;
(4.2)、通过两个回归器Rv、Rt分别对图像特征vi和文本特征ti进行回归映射,得到、图像语义信息fi v和文本语义信息fi t
利用最大均值差异MMD损失函数来表示所有特征的分布对齐;
Figure BDA0002426688080000041
(5)、特征重构
(5.1)、将步骤(4.1)中合成特征回归映射得到的
Figure BDA0002426688080000042
Figure BDA0002426688080000043
进行语义重构,并在语义重构过程施加循环一致性约束来减小重构损失:
Figure BDA0002426688080000044
其中,E表示求期望值,
Figure BDA0002426688080000045
表示类别标签ci的概率分布,
Figure BDA0002426688080000046
表示ci服从分布
Figure BDA0002426688080000047
表示符合标准正态分布的噪声zi
(5.2)、将步骤(4.2)中原始特征回归映射得到的vi和ti进行语义重构,并在语义重构过程施加循环一致性约束来减小重构损失:
Figure BDA0002426688080000048
其中,
Figure BDA0002426688080000049
表示类别标签ci和图像特征vi的联合概率分布,
Figure BDA00024266880800000410
表示类别标签cj和文本特征tj的联合概率分布;
(6)、将步骤(2)~(5)中所有损失函数加起来作为总损失函数,再利用随机梯度下降法对总损失函数进行优化,记录下优化后的总损失函数值;
(7)、重复步骤(2)~(6),处理完N多组多模态数据,得到N各总损失函数值,完成N次训练,然后选出最小的一个总损失函数值,并将该总损失函数值对应的所有损失函数作为最终检测模型;
(8)、零样本跨模态的实时检索
提取任意图像或文本的特征,并输入至步骤(7)得到的最终检测模型,从而检索出该图像或文本属于同一类别的其他模态数据。
本发明的发明目的是这样实现的:
本发明一种基于多模态特征合成的零样本跨模态检索方法,利用两个对抗生成网络,通过两个模态数据共享的类别嵌入来合成不同模态的特征表示,然后将原始的模态数据和合成的模态数据映射到共同子空间并对齐分布。从而建立同一类别不同模态数据之间的联系并将知识迁移到未见过的类。循环一致性约束进一步减小了原始语义特征和重构语义特征之间的差异,很好地建立了每个模态中原始表示和语义特征之间的关联,使得共同语义空间更具鲁棒性,提高了零样本跨模态检索的准确度。
同时,本发明一种基于多模态特征合成的零样本跨模态检索方法还具有以下有益效果:
(1)、提出一种新颖的神经网络结构,使用改进的对抗生成网络来生成特征,以解决零样本跨模态检索中样本数量不足的问题,这个网络可以在类别嵌入的指导下生成多模态数据特征;
(2)、将类别嵌入作为公共语义子空间,以实现平稳的知识转移,并开发有效的循环一致性约束,以保持原始语义特征与映射在语义子空间的特征之间的一致性。这些约束有利于学习更鲁棒的公共语义子空间,以有能力适应标准检索和零样本检索场景;
(3)、设计了一种分布对齐方案,以增强语义特征和类别嵌入之间的分布匹配,并充分捕获公共语义子空间中不同模态的跨模态相关性,实现了跨模态数据的匹配,进而将知识迁移到不可见类上,实现了零样本场景下的跨模态检索。
附图说明
图1是本发明基于多模态特征合成的零样本跨模态检索方法流程图;
图2是语义指导合成特征的示意图;
图3是分类器区分合成特征的示意图;
图4是语义空间分布对齐的示意图;
图5是循环一致性约束的示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明一种基于多模态特征合成的零样本跨模态检索方法流程图。
在本实施例中,如图1所示,本发明一种基于多模态特征合成的零样本跨模态检索方法,包括以下步骤:
S1、提取多模态数据特征
多模态的数据包含图像、文本等,这些原始数据以人类接受的方式表示,但是计算机并不能直接处理,需要将他们的特征提取出来,以计算机能够处理的数字表示。
下载包含图像、文本及图像和文本共享类别标签的N多组多模态数据,这些数据属于C个类别,每一类别下的图像和文本有共享的类别标签。然后利用卷积神经网络VGG Net提取图像特征vi,利用网络Doc2vec提取文本特征ti,利用网络Word2vec进行提取类别标签特征ci;其中,i=1,2,…,N。这些数据经过特征提取之后都以向量的形式存在。
S2、生成多模态数据的合成特征表示
如图2所示,本实施例中分别搭建两路改进的对抗生成网络Wasserstein GAN(WGAN),利用两个不同模态数据共享的类别标签嵌入来分别生成两个模态的合成特征。WGAN是鲁棒训练过程中最稳定的GAN结构之一,每个WGAN都包含两部分,一个是生成模块,一个是判别模块。生成模块输入原始真实数据,输出合成数据,并送入判别模块。判别模块的任务是接收真实数据或者合成数据,并尝试预测输入是真实还是生成的,从而促进生成模块不断优化,使得生成的特征质量不断提高,直到判别模块不能很好区分出特征是真实的还是合成的,达到“以假乱真”的效果。
S2.1、搭建两路对抗生成网络WGAN,每一路WGAN均包含一个生成模块G和一个判别模块D,每个模块都是由几个人工神经网络的全连接层组成;
S2.2、在第一路WGAN中,将共享类别标签ci和服从随机高斯分布的噪声zi同时输入至生成模块Gv,从而生成图像合成特征表示
Figure BDA0002426688080000061
然后将图像特征vi和图像合成特征表示
Figure BDA0002426688080000071
同时输入至判别模块Dv,判别模块D输出值为二元的0或1,来给出判断结果,最终所有图像的合成效果通过标准WGAN损失函数
Figure BDA0002426688080000072
来衡量,以求合成特征与原始真实数据特征尽量相近:
Figure BDA0002426688080000073
其中,L为求损失函数值,E表示求期望值,λ为给定的惩罚值,
Figure BDA0002426688080000074
表示生成模块Gv的参数,
Figure BDA0002426688080000075
表示判别模块Dv的参数,
Figure BDA0002426688080000076
表示vi与ci的联合分布概率,
Figure BDA0002426688080000077
表示
Figure BDA0002426688080000078
与ci的联合分布概率,
Figure BDA0002426688080000079
a服从0-1的正态分布,
Figure BDA00024266880800000710
表示
Figure BDA00024266880800000711
与ci的联合分布概率,
Figure BDA00024266880800000712
表示梯度惩罚系数,公式中的第三项为梯度惩罚项,用来强制判别模块的梯度沿着原始图像和合成图像之间的连线,以确保训练时对该函数的优化效率最大化;
S2.3、在第二路WGAN中,将共享类别标签ci和随机噪声zi同时输入至生成模块Gt,从而生成文本合成特征表示
Figure BDA00024266880800000713
然后将文本特征ti和文本合成特征表示
Figure BDA00024266880800000714
同时输入至判别模块Dt,判别模块D通过损失函数
Figure BDA00024266880800000715
来衡量合成效果:
Figure BDA00024266880800000716
其中,L为求损失函数值,E表示求期望值,λ为给定的惩罚值,
Figure BDA00024266880800000717
表示生成模块Gt的参数,
Figure BDA00024266880800000718
表示判别模块Dt的参数,
Figure BDA00024266880800000719
表示ti与ci的联合分布概率,
Figure BDA00024266880800000720
表示
Figure BDA00024266880800000721
与ci的联合分布概率,
Figure BDA00024266880800000722
a服从0-1的正态分布,
Figure BDA00024266880800000723
表示
Figure BDA00024266880800000724
与ci的联合分布概率,
Figure BDA00024266880800000725
表示梯度惩罚系数;
S2.4、将两路WGAN的特征合成损失相加,得到多模态特征合成总损失:
Figure BDA00024266880800000726
S3、构建分类器区分合成特征表示
如图3所示,为了确保生成的不同类别下的合成特征表示在本模态内是可区分的,即属于不同类别的合成数据是不一样的,在每个WGAN的生成模块后面连接了一个分类器来正确预测该模态合成特征表示的类别标签。分类器由全连接层组成,并使用softmax激活函数来给出输入数据属于各个类别的概率,概率最高的对应的类别即为预测结果。
将图像合成特征表示
Figure BDA0002426688080000081
和文本合成特征表示
Figure BDA0002426688080000082
输入至分类器,通过分类器来正确预测该合成特征表示的类别标签;
分类器在所有合成特征上的损失函数为:
Figure BDA0002426688080000083
其中,θC为分类器的参数,
Figure BDA0002426688080000084
Figure BDA0002426688080000085
输入至分类器后的参数,
Figure BDA0002426688080000086
Figure BDA0002426688080000087
输入至分类器后的参数;fsoftmax(·)表示softmax函数,具体定义如下:
Figure BDA0002426688080000088
其中,y是合成特征表示
Figure BDA0002426688080000089
的类别标签,θ代表分类器的参数,C为类别的数量,
Figure BDA00024266880800000810
表示
Figure BDA00024266880800000811
属于第c类的softmax概率;
S4、对齐共同语义空间的分布
有了足够多的合成多模态数据特征表示,在两个WGAN之后构建两个回归器,如图4所示,回归器由数个全连接层构成,将两种模态的真实特征表示和合成特征表示映射到共同语义子空间中,利用类别嵌入来构建共同语义空间。将知识从类别嵌入迁移,来对多模态数据进行语义信息建模,实现零样本跨模态检索。在公共语义空间学习过程中,使成对的真实和合成的图像-文本实例在公共语义空间中尽可能靠近,以表示跨不同模态的但是具有相同语义的数据是紧密联系的。因此,在统计方面将公共语义空间中两种模态的真实表示和合成表示对齐。在分布对齐方案中采用最大均值差异(Maximum Mean Difference,MMD)来衡量样本对的分布之间的差异,MMD度量在再生希尔伯特空间中两个分布的距离,是一种核学习方法,这个值越小,表示两个样本之间的分布相似度越高。
S4.1、通过两个回归器Rv、Rt分别对图像合成特征表示
Figure BDA0002426688080000091
和文本合成特征表示
Figure BDA0002426688080000092
进行回归映射,得到合成图像语义信息
Figure BDA0002426688080000093
和文本语义信息
Figure BDA0002426688080000094
利用最大均值差异MMD损失函数来表示所有特征的分布对齐;
Figure BDA0002426688080000095
其中,i≠j,θR为回归器的参数,κ(·)是多个RBF内核的线性组合函数,定义如下:
Figure BDA0002426688080000096
其中,第n个RBF核表示为ηn,其标准差为σn。此过程可以减少合成语义特征的模态间差异,从而有效地对齐用于知识传递的两种模态的合成表示。
S4.2、通过两个回归器Rv、Rt分别对原始的真实的图像特征vi和文本特征ti进行回归映射,得到、图像语义信息fi v和文本语义信息fi t
利用最大均值差异MMD损失函数来表示所有特征的分布对齐;
Figure BDA0002426688080000097
通过分布对齐,将不同模态的真实语义特征和合成语义特征映射到共同语义子空间,不仅捕获了跨模态的相关性,而且还增强了可见与不可见类之间的知识迁移。
S5、特征重构
为了进一步增强公共语义空间里的原始多模态数据特征和合成多模态数据特征之间的相互联系,在回归器之后将回归器映射得到的公共语义空间中的特征重构回类别嵌入特征,与原始的类别嵌入特征进行比较。如图5所示,对此语义重构过程施加循环一致性约束,通过最小化重构损失来将合成语义特征重构回真实语义特征。考虑到回归器中针对不可见类类别标签的循环一致性,可以将知识迁移到不可见类上去。因此,这一过程有利于零样本场景下的跨模态检索。
S5.1、将步骤S4.1中合成数据特征回归映射得到的
Figure BDA0002426688080000101
Figure BDA0002426688080000102
进行语义重构,并在语义重构过程施加循环一致性约束来减小重构损失:
Figure BDA0002426688080000103
其中,E表示求期望值,
Figure BDA0002426688080000104
表示类别标签ci的概率分布,
Figure BDA0002426688080000105
表示ci服从概率分布
Figure BDA0002426688080000106
表示符合标准正态分布的噪声zi
S5.2、将步骤S4.2中原始数据特征回归映射得到的fi v
Figure BDA0002426688080000107
进行语义重构,并在语义重构过程施加循环一致性约束来减小重构损失:
Figure BDA0002426688080000108
其中,
Figure BDA0002426688080000109
表示类别标签ci和图像特征vi的联合概率分布,
Figure BDA00024266880800001010
表示类别标签cj和文本特征tj的联合概率分布;
S6、将步骤S2~S5中所有损失函数加起来作为总损失函数,对整个网络进行训练,利用随机梯度下降法对总损失函数进行优化,记录下优化后的总损失函数值,这个损失函数值反映得到结果和实际结果之间的差异,用来衡量模型好坏,损失函数值越小,模型的效果越好;
S7、重复步骤S2~S6,处理完N多组多模态数据,得到N各总损失函数值,完成N次训练,然后选出最小的一个总损失函数值,并将该总损失函数值对应的所有损失函数作为最终检测模型;
S8、零样本跨模态的实时检索
提取任意图像或文本的特征,并输入至步骤S7得到的最终检测模型,计算公共语义空间中其他模态数据变量与此检索目标变量的相似性,进行排序,相似性最大的变量对应的原始模态数据为检索结果,即与检索目标属于同一类别的其他模态数据。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种基于多模态特征合成的零样本跨模态检索方法,其特征在于,包括以下步骤:
(1)、提取多模态数据特征
下载包含图像、文本及图像和文本共享类别标签的N多组多模态数据,然后利用卷积神经网络VGG Net提取图像特征vi,利用网络Doc2vec提取文本特征ti,利用网络Word2vec进行提取类别标签特征ci;其中,i=1,2,…,N
(2)、生成多模态数据的合成特征表示
(2.1)、搭建两路对抗生成网络WGAN,每一路WGAN均包含一个生成模块G和一个判别模块D;
(2.2)、在第一路WGAN中,将共享类别标签ci和随机噪声zi同时输入至生成模块Gv,从而生成图像合成特征表示
Figure FDA0002426688070000011
然后将图像特征vi和图像合成特征表示
Figure FDA0002426688070000012
同时输入至判别模块Dv,判别模块D通过损失函数
Figure FDA0002426688070000013
来衡量合成效果:
Figure FDA0002426688070000014
其中,L为求损失函数值,E表示求期望值,λ为给定的惩罚值,
Figure FDA0002426688070000015
表示生成模块Gv的参数,
Figure FDA0002426688070000016
表示判别模块Dv的参数,
Figure FDA0002426688070000017
表示vi与ci的联合分布概率,
Figure FDA0002426688070000018
表示
Figure FDA0002426688070000019
与ci的联合分布概率,
Figure FDA00024266880700000110
a服从0-1的正态分布,
Figure FDA00024266880700000111
表示
Figure FDA00024266880700000112
与ci的联合分布概率,▽表示梯度惩罚系数;
(2.3)、在第一路WGAN中,将共享类别标签ci和随机噪声zi同时输入至生成模块Gt,从而生成文本合成特征表示
Figure FDA00024266880700000113
然后将文本特征ti和文本合成特征表示
Figure FDA00024266880700000114
同时输入至判别模块Dt,判别模块D通过损失函数
Figure FDA00024266880700000115
来衡量合成效果:
Figure FDA00024266880700000116
其中,L为求损失函数值,E表示求期望值,λ为给定的惩罚值,
Figure FDA0002426688070000021
表示生成模块Gt的参数,
Figure FDA0002426688070000022
表示判别模块Dt的参数,
Figure FDA0002426688070000023
表示ti与ci的联合分布概率,
Figure FDA0002426688070000024
表示
Figure FDA0002426688070000025
与ci的联合分布概率,
Figure FDA0002426688070000026
a服从0-1的正态分布,
Figure FDA0002426688070000027
表示
Figure FDA0002426688070000028
与ci的联合分布概率,▽表示梯度惩罚系数;
(3)、构建分类器区分合成特征表示
将图像合成特征表示
Figure FDA0002426688070000029
和文本合成特征表示
Figure FDA00024266880700000210
输入至分类器,通过分类器来正确预测该合成特征表示的类别标;
分类器的损失函数为:
Figure FDA00024266880700000211
其中,θC为分类器的参数,
Figure FDA00024266880700000212
Figure FDA00024266880700000213
输入至分类器后的参数,
Figure FDA00024266880700000214
Figure FDA00024266880700000215
输入至分类器后的参数;fsoftmax(·)表示softmax函数,具体定义如下:
Figure FDA00024266880700000216
其中,y是合成特征表示
Figure FDA00024266880700000217
的类别标签,θ代表分类器的参数,C为类别的数量,
Figure FDA00024266880700000218
Figure FDA00024266880700000219
表示
Figure FDA00024266880700000220
属于第c类的softmax概率;
(4)、对齐共同语义空间的分布
(4.1)、通过两个回归器Rv、Rt分别对图像合成特征表示
Figure FDA00024266880700000221
和文本合成特征表示
Figure FDA00024266880700000222
进行回归映射,得到合成图像语义信息
Figure FDA00024266880700000223
和文本语义信息
Figure FDA00024266880700000224
利用最大均值差异MMD损失函数来表示所有合成特征的分布对齐;
Figure FDA00024266880700000225
其中,i≠j,θR为回归器的参数,κ(·)是多个RBF内核的线性组合函数;
(4.2)、通过两个回归器Rv、Rt分别对图像特征vi和文本特征ti进行回归映射,得到图像语义信息fi v和文本语义信息fi t
利用最大均值差异MMD损失函数来表示所有特征的分布对齐;
Figure FDA00024266880700000226
(5)、特征重构
(5.1)、将步骤(4.1)中合成特征回归映射得到的
Figure FDA0002426688070000031
Figure FDA0002426688070000032
进行语义重构,并在语义重构过程施加循环一致性约束来减小重构损失:
Figure FDA0002426688070000033
其中,E表示求期望值,
Figure FDA0002426688070000034
表示类别标签ci的概率分布,
Figure FDA0002426688070000035
表示ci服从分布
Figure FDA0002426688070000036
Figure FDA0002426688070000037
表示符合标准正态分布的噪声zi
(5.2)、将步骤(4.2)中原始特征回归映射得到的vi和ti进行语义重构,并在语义重构过程施加循环一致性约束来减小重构损失:
Figure FDA0002426688070000038
其中,
Figure FDA0002426688070000039
表示类别标签ci和图像特征vi的联合概率分布,
Figure FDA00024266880700000310
表示类别标签cj和文本特征tj的联合概率分布;
(6)、将步骤(2)~(5)中所有损失函数加起来作为总损失函数,再利用随机梯度下降法对总损失函数进行优化,记录下优化后的总损失函数值;
(7)、重复步骤(2)~(6),处理完N多组多模态数据,得到N各总损失函数值,完成N次训练,然后选出最小的一个总损失函数值,并将该总损失函数值对应的所有损失函数作为最终检测模型;
(8)、零样本跨模态的实时检索
提取任意图像或文本的特征,并输入至步骤(7)得到的最终检测模型,从而检索出该图像或文本属于同一类别的其他模态数据。
CN202010222893.XA 2020-03-26 2020-03-26 一种基于多模态特征合成的零样本跨模态检索方法 Active CN111428071B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010222893.XA CN111428071B (zh) 2020-03-26 2020-03-26 一种基于多模态特征合成的零样本跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010222893.XA CN111428071B (zh) 2020-03-26 2020-03-26 一种基于多模态特征合成的零样本跨模态检索方法

Publications (2)

Publication Number Publication Date
CN111428071A CN111428071A (zh) 2020-07-17
CN111428071B true CN111428071B (zh) 2022-02-01

Family

ID=71548871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010222893.XA Active CN111428071B (zh) 2020-03-26 2020-03-26 一种基于多模态特征合成的零样本跨模态检索方法

Country Status (1)

Country Link
CN (1) CN111428071B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100410A (zh) * 2020-08-13 2020-12-18 中国科学院计算技术研究所 一种基于语义条件关联学习的跨模态检索方法及系统
CN111966883B (zh) * 2020-08-13 2024-02-23 成都考拉悠然科技有限公司 结合自动编码器和生成对抗网络的零样本跨模态检索方法
CN112488131B (zh) * 2020-12-18 2022-06-14 贵州大学 一种基于自监督对抗的图片文本跨模态检索方法
CN112818135B (zh) * 2021-02-24 2022-11-01 华侨大学 一种基于公共语义空间学习构建图文知识图谱方法
CN113139591B (zh) * 2021-04-14 2023-02-24 广州大学 一种基于增强多模态对齐的广义零样本图像分类方法
CN113656539B (zh) * 2021-07-28 2023-08-18 哈尔滨工业大学 基于特征分离和重建的跨模态检索方法
CN114241273B (zh) * 2021-12-01 2022-11-04 电子科技大学 基于Transformer网络和超球空间学习的多模态图像处理方法及系统
CN114528952B (zh) * 2022-04-24 2022-07-29 南京邮电大学 减少配电终端误告警的多源异构安全监测数据聚合方法
CN114861893B (zh) * 2022-07-07 2022-09-23 西南石油大学 一种多通路聚合的对抗样本生成方法、系统及终端
CN117407698B (zh) * 2023-12-14 2024-03-08 青岛明思为科技有限公司 一种混合距离引导的领域自适应故障诊断方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10108674B1 (en) * 2014-08-26 2018-10-23 Twitter, Inc. Method and system for topic disambiguation and classification
CN110598759A (zh) * 2019-08-23 2019-12-20 天津大学 一种基于多模态融合的生成对抗网络的零样本分类方法
CN110807122A (zh) * 2019-10-18 2020-02-18 浙江大学 一种基于深度互信息约束的图文跨模态特征解纠缠方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10108674B1 (en) * 2014-08-26 2018-10-23 Twitter, Inc. Method and system for topic disambiguation and classification
CN110598759A (zh) * 2019-08-23 2019-12-20 天津大学 一种基于多模态融合的生成对抗网络的零样本分类方法
CN110807122A (zh) * 2019-10-18 2020-02-18 浙江大学 一种基于深度互信息约束的图文跨模态特征解纠缠方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS;Alec Radford等;《arXiv:1511.06434v1[cs.LG]》;20151119;全文 *

Also Published As

Publication number Publication date
CN111428071A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN111428071B (zh) 一种基于多模态特征合成的零样本跨模态检索方法
CN111476294B (zh) 一种基于生成对抗网络的零样本图像识别方法及系统
CN110826638B (zh) 基于重复注意力网络的零样本图像分类模型及其方法
CN108804530B (zh) 对图像的区域加字幕
CN110347839A (zh) 一种基于生成式多任务学习模型的文本分类方法
CN109753571B (zh) 一种基于二次主题空间投影的场景图谱低维空间嵌入方法
CN113065577A (zh) 一种面向目标的多模态情感分类方法
Kadam et al. Detection and localization of multiple image splicing using MobileNet V1
CN110795585B (zh) 基于生成对抗网络的零样本图像分类系统及其方法
CN111738363B (zh) 基于改进的3d cnn网络的阿尔茨海默病分类方法
CN110826639B (zh) 一种利用全量数据训练零样本图像分类方法
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN114998220B (zh) 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法
CN111242948B (zh) 图像处理、模型训练方法、装置、设备和存储介质
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
Huang et al. Qualitynet: Segmentation quality evaluation with deep convolutional networks
Du et al. Improved detection method for traffic signs in real scenes applied in intelligent and connected vehicles
CN115471712A (zh) 一种基于视觉语义约束的生成零样本学习方法
CN117516937A (zh) 基于多模态特征融合增强的滚动轴承未知故障检测方法
Soysal et al. An introduction to zero-shot learning: An essential review
Gao et al. Estimation of the convolutional neural network with attention mechanism and transfer learning on wood knot defect classification
CN111859925A (zh) 一种基于概率情感词典的情感分析系统及方法
CN116090463A (zh) 一种名片信息抽取系统训练方法及装置、存储介质
CN111340111B (zh) 基于小波核极限学习机识别人脸图像集方法
CN117217807B (zh) 一种基于多模态高维特征的不良资产估值方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant