CN113377990B - 基于元自步学习的视频/图片-文本跨模态匹配训练方法 - Google Patents

基于元自步学习的视频/图片-文本跨模态匹配训练方法 Download PDF

Info

Publication number
CN113377990B
CN113377990B CN202110643663.5A CN202110643663A CN113377990B CN 113377990 B CN113377990 B CN 113377990B CN 202110643663 A CN202110643663 A CN 202110643663A CN 113377990 B CN113377990 B CN 113377990B
Authority
CN
China
Prior art keywords
text
video
network
picture
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110643663.5A
Other languages
English (en)
Other versions
CN113377990A (zh
Inventor
杨阳
位纪伟
徐行
汪政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110643663.5A priority Critical patent/CN113377990B/zh
Publication of CN113377990A publication Critical patent/CN113377990A/zh
Application granted granted Critical
Publication of CN113377990B publication Critical patent/CN113377990B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于元自步学习的视频/图片‑文本跨模态匹配训练方法,创新性提出了由一层全连接层组成的元自步网络,在训练主特征提取网络的同时,从验证集学习一个加权函数,从而有效避免加权函数形式选择以及超参数设定的难题。由于全连接层可以拟合任意的连续函数,包括已有的手工设计的加权函数,因此元自步网络为损失函数的可表达形式提供了极大的灵活性。元自步网络以正对和负对的相似度分数作为输入,并输出其对应的权重值。同时,采用元学习的方式来更新元自步网络,在主网络训练的同时,利用验证集的数据来更新元自步网络。本发明提出的元自步网络可以普遍应用于已有的跨模态匹配序列中,并进一步提升视频/图片‑文本跨模态检索模型的收敛速度和性能。

Description

基于元自步学习的视频/图片-文本跨模态匹配训练方法
技术领域
本发明属于视频/图片-文本跨模态检索技术领域,更为具体地讲,涉及一种基于元自步学习的视频/图片-文本跨模态匹配训练方法。
背景技术
现有跨模态检索的任务,比如视频-文本检索、图片-文本检索等都需要计算不同模态之间特征的相似度,这通常是由度量学习驱动的。当前主流的跨模态检索方法在特征提取网络中用预训练的卷积神经网络来提取视频/图片的特征向量,双向长短记忆(Bi-LSTM)神经网络来提取文本的特征向量,并将视频/图片的特征向量和文本的特征向量映射到一个公共的空间内来消除异构鸿沟。视频/图片-文本跨模态匹配训练就是训练特征提取网络,使其提取的视频/图片的特征向量、文本的特征向量在一个公共的空间上,为后面的视频/图片-文本跨模态检索做准备。
现有视频/图片-文本跨模态匹配训练采用无权重的三元组损失来训练特征提取网络,使得相互匹配的样本视频/图片-文本对相互靠近,不匹配的样本视频/图片-文本对相互远离。学习得到的共享空间不仅能消除模态间的异构鸿沟,同时能准确度量不同特征向量之间的相似度。
最近深度度量学习的突破表明,合适的加权策略能有效提升特征提取网络训练的收敛速度,并进一步提升其性能。现有的跨模态度量学习方法通过手工设计一个加权函数为单个的相似度分数进行加权或者为三元组进行加权。手工设计的权重函数能依据样本视频/图片-文本对的难易程度为其分配合适的权重值,相似度分数较小的正对和相似度分数较大的负对能得到更大的权重值,反之相似度分数较大的正对和相似度分数较小的正对得到较小的权重值,从而在视频/图片-文本跨模态检索模型训练时得到有效的更新。
现有跨模态加权策略首先从mini-batch或者memory bank内选择信息对,然后通过手工设定一个加权函数来依据样本对的难易程度为其分配合适的权重值。当利用加权损失函数训练跨模态检索网络时,相似度分数较小的正对或者相似度分数较大的负对会产生较大的梯度因子,反之相似度分数较大的正对或者相似度分数较小的负对会产生较小的梯度因子。这种为不同视频/图片-文本对分配动态梯度因子的策略,可以使得视频/图片-文本得到高效的更新,从而使得跨模态检索模型收敛更快且精度更好。
尽管手工设计加权函数的方法能有效提升视频/图片-文本跨模态检索模型的收敛速度,并进一步提升其检索性能。然而,其有两个不足,(1)、不同的视频/图片-文本数据分布通常需要不同的加权方式,在对视频/图片-文本数据集的分布知之甚少的情况下,很难确定加权函数的形式。(2)手工设计的加权函数不可避免的牵涉到超参数。超参数通常需要手工设定或在验证集上进行精调,需要花费大量的计算时间和资源来设定合适的超参数。以上问题的存在使得现有的基于手工设计权重函数的方法很难在实际中广泛使用。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于元自步学习的视频/图片-文本跨模态匹配训练方法,以有效避免加权函数形式选择以及超参数设定难题。
为实现上述发明目的,本发明基于元自步学习的视频/图片-文本跨模态匹配训练方法,其特征在于,包括以下步骤:
(1)、构建训练的辅助网络
构建一个与用于视频/图片-文本跨模态检索的主特征提取网络结构相同的辅助特征提取网络;
构建一个由一层全连接层组成的元自步网络;
(2)、更新辅助特征提取网络
在训练集中提取一批视频/图片-文本对(K对)送入辅助特征提取网络,得到视频/图片的特征向量
Figure BDA0003108131640000021
以及对应的文本特征向量
Figure BDA0003108131640000022
然后对于第k对视频/图片-文本对,计算视频/图片的特征向量
Figure BDA0003108131640000023
以及对应的文本特征向量
Figure BDA0003108131640000024
的相似度,并作为正对相似度
Figure BDA0003108131640000025
依据视频/图片的特征向量
Figure BDA0003108131640000026
分别计算其与其他K-1个文本特征向量
Figure BDA0003108131640000027
j=1,2,...K,j≠k的相似度,并分别作为负对相似度,得到K-1负对相似度,依据文本特征向量
Figure BDA0003108131640000028
分别计算其与其他K-1个视频/图片的特征向量
Figure BDA0003108131640000029
j=1,2,...K,j≠k的相似度,并分别作为负对相似度,再得到K-1负对相似度,在得到的2(K-1)个负对相似度中,选择最大的作为最难负对相似度
Figure BDA0003108131640000031
其中,vi表示视频/图像,t表示文本,
Figure BDA0003108131640000032
表示第k个视频/图片-文本对(正对),
Figure BDA0003108131640000033
表示第k个视频/图片-文本对对应的最难负对,fθ表示辅助特征提取网络;
将正对相似度
Figure BDA0003108131640000034
最难负对相似度
Figure BDA0003108131640000035
送入元自步网络,得到正对权重
Figure BDA0003108131640000036
最难负对权重
Figure BDA0003108131640000037
表示为:
Figure BDA0003108131640000038
其中,V(·)是表示元自步网络,w表示元自步网络的网络参数;
采用梯度下降方法更新辅助特征提取网络的网络参数θ:
Figure BDA0003108131640000039
其中,α为学习率,
Figure BDA00031081316400000310
为求关于网络参数θ的梯度;
(3)、更新元自步网络
将验证集一批视频/图片-文本对(K对)送入辅助特征提取网络,得到视频/图片的特征向量
Figure BDA00031081316400000311
以及对应的文本特征向量
Figure BDA00031081316400000312
然后对于第k对视频/图片-文本对,计算视频/图片的特征向量
Figure BDA00031081316400000313
以及对应的文本特征向量
Figure BDA00031081316400000314
的相似度,并作为正对相似度
Figure BDA00031081316400000315
依据视频/图片的特征向量
Figure BDA00031081316400000316
分别计算其与其他K-1个文本特征向量
Figure BDA00031081316400000317
j=1,2,...K,j≠k的相似度,并分别作为负对相似度,得到K-1负对相似度,依据文本特征向量
Figure BDA00031081316400000318
分别计算其与其他K-1个视频/图片的特征向量
Figure BDA00031081316400000319
j=1,2,...K,j≠k的相似度,并分别作为负对相似度,再得到K-1负对相似度,在得到的2(K-10个负对相似度中,选择最大的作为最难负对相似度
Figure BDA00031081316400000320
其中,
Figure BDA00031081316400000321
表示第k个视频/图片-文本对(正对),
Figure BDA00031081316400000322
表示第k个视频/图片-文本对对应的最难负对;
采用梯度下降方法更新元自步网络的网络参数w:
Figure BDA00031081316400000323
Figure BDA00031081316400000324
其中,β为学习率,λ为常量,右下角加号表示元损失
Figure BDA00031081316400000325
为正;
(4)、更新主特征提取网络
将训练集中提取的一批视频/图片-文本对(K对)送入主特征提取网络,得到视频/图片的特征向量
Figure BDA0003108131640000041
以及对应的文本特征向量
Figure BDA0003108131640000042
然后对于第k对视频/图片-文本对,计算视频/图片的特征向量
Figure BDA0003108131640000043
以及对应的文本特征向量
Figure BDA0003108131640000044
的相似度,并作为正对相似度
Figure BDA0003108131640000045
依据视频/图片的特征向量
Figure BDA0003108131640000046
分别计算其与其他K-1个文本特征向量
Figure BDA0003108131640000047
j=1,2,...K,j≠k的相似度,并分别作为负对相似度,得到K-1负对相似度,依据文本特征向量
Figure BDA0003108131640000048
分别计算其与其他K-1个视频/图片的特征向量
Figure BDA0003108131640000049
j=1,2,...K,j≠k的相似度,并分别作为负对相似度,再得到K-1负对相似度,在得到的2(K-1)个负对相似度中,选择最小的作为最难负对相似度
Figure BDA00031081316400000410
将正对相似度
Figure BDA00031081316400000411
最难负对相似度
Figure BDA00031081316400000412
送入元自步网络,得到正对权重
Figure BDA00031081316400000413
最难负对权重
Figure BDA00031081316400000414
表示为:
Figure BDA00031081316400000415
采用梯度下降方法更新主特征提取网络的网络参数θ′:
Figure BDA00031081316400000416
其中,
Figure BDA00031081316400000417
为求关于网络参数θ′的梯度;
(5)、迭代更新主特征提取网络的网络参数
将主特征提取网络的网络参数赋值给辅助特征提取网络,然后返回步骤(2),直到梯度下降值小于设定的阈值或迭代达到设定的次数,完成主特征提取网络训练,即完成视频/图片-文本跨模态匹配训练。
本发明的目的是这样实现的。
为了解决现有技术存在的两个难题,本发明基于元自步学习的视频/图片-文本跨模态匹配训练方法,创新性提出了由一层全连接层组成的元自步网络,在训练主特征提取网络的同时,从验证集学习一个加权函数,从而有效避免函数形式选择以及超参数设定的难题。由于全连接层可以拟合任意的连续函数,包括已有的手工设计的加权函数,因此元自步网络为损失函数的可表达形式提供了极大的灵活性。元自步网络以正对和负对的相似度分数作为输入,并输出其对应的权重值。同时,采用元学习的方式来更新元自步网络,在主网络训练的同时,利用验证集的数据来更新元自步网络。本发明提出的元自步网络可以普遍应用于已有的跨模态匹配序列中,并进一步提升视频/图片-文本跨模态检索模型的收敛速度和性能。
附图说明
图1是本发明基于元自步学习的视频/图片-文本跨模态匹配训练方法一种具体实施方式流程图;
图2是基于元自步学习的视频/图片-文本跨模态匹配训练方法一种具体实施方式原理示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
图1是本发明基于元自步学习的视频/图片-文本跨模态匹配训练方法一种具体实施方式流程图。
在本实施例中,如图1所示,本发明基于元自步学习的视频/图片-文本跨模态匹配训练方法包括以下步骤:
步骤S1:构建训练的辅助网络
如图2所示,在本发明中,构建的辅助网络包括:一个与用于视频/图片-文本跨模态检索的主特征提取网络结构相同的辅助特征提取网络以及一个由一层全连接层组成的元自步网络。
学习元自步网络的网络参数w是一个非平凡的任务。本发明采用元学习的方式在主特征提取网络训练的同时来更新元自步网络,在验证集上学习网络参数w然后将其应用于训练集,采用循环优化来交替更新元自步网络的网络参数w以及主特征提取网络的网络参数θ′,二者同时进行更新(训练),训练优化都采用梯度下降算法进行,具体步骤为S2~S4。
步骤S2:更新辅助特征提取网络
如图2所示,在训练集中提取一批视频/图片-文本对(K对)送入辅助特征提取网络,得到视频/图片的特征向量
Figure BDA0003108131640000051
以及对应的文本特征向量
Figure BDA0003108131640000052
然后对于第k对视频/图片-文本对,计算视频/图片的特征向量
Figure BDA0003108131640000061
以及对应的文本特征向量
Figure BDA0003108131640000062
的相似度,并作为正对相似度
Figure BDA0003108131640000063
同时,依据视频/图片的特征向量
Figure BDA0003108131640000064
分别计算其与其他K-1个文本特征向量
Figure BDA0003108131640000065
j=1,2,...K,j≠k的相似度,并分别作为负对相似度,得到K-1负对相似度,依据文本特征向量
Figure BDA0003108131640000066
分别计算其与其他K-1个视频/图片的特征向量
Figure BDA0003108131640000067
j=1,2,...K,j≠k的相似度,并分别作为负对相似度,再得到K-1负对相似度,在得到的2(K-1)个负对相似度中,选择最大的作为最难负对相似度
Figure BDA0003108131640000068
其中,vi表示视频/图像,t表示文本,
Figure BDA0003108131640000069
表示第k个视频/图片-文本对(正对),
Figure BDA00031081316400000610
表示第k个视频/图片-文本对对应的最难负对,fθ表示辅助特征提取网络。
将正对相似度
Figure BDA00031081316400000611
最难负对相似度
Figure BDA00031081316400000612
送入元自步网络,得到正对权重
Figure BDA00031081316400000613
最难负对权重
Figure BDA00031081316400000614
表示为:
Figure BDA00031081316400000615
其中,V(·)是表示元自步网络,w表示元自步网络的网络参数。
值得注意的是,本发明中,元自步网络同时以正对和最难负对的相似度分数作为输入,使得学习到的权重函数在计算权重时,不仅能考虑到自相似度分数,同时能考虑到它们之间的交互,比如:正负对之间的相对相似度分数。
采用梯度下降方法更新辅助特征提取网络的网络参数θ:
Figure BDA00031081316400000616
其中,α为学习率,
Figure BDA00031081316400000617
为求关于网络参数θ的梯度。
步骤S3:更新元自步网络
将验证集一批视频/图片-文本对(K对)送入辅助特征提取网络,得到视频/图片的特征向量
Figure BDA00031081316400000618
以及对应的文本特征向量
Figure BDA00031081316400000619
然后对于第k对视频/图片-文本对,计算视频/图片的特征向量
Figure BDA00031081316400000620
以及对应的文本特征向量
Figure BDA00031081316400000621
的相似度,并作为正对相似度
Figure BDA00031081316400000622
依据视频/图片的特征向量
Figure BDA00031081316400000623
分别计算其与其他K-1个文本特征向量
Figure BDA00031081316400000624
j=1,2,...K,j≠k的相似度,并分别作为负对相似度,得到K-1负对相似度,依据文本特征向量
Figure BDA00031081316400000625
分别计算其与其他K-1个视频/图片的特征向量
Figure BDA00031081316400000626
j=1,2,...K,j≠k的相似度,并分别作为负对相似度,再得到K-1负对相似度,在得到的2(K-1)个负对相似度中,选择最大的作为最难负对相似度
Figure BDA0003108131640000071
其中,
Figure BDA0003108131640000072
表示第k个视频/图片-文本对(正对),
Figure BDA0003108131640000073
表示第k个视频/图片-文本对对应的最难负对。
定义一个元损失作为目标函数来获取元自步网络最优的超参数w*:
Figure BDA0003108131640000074
其中,
Figure BDA0003108131640000075
是利用验证集的数据计算,它对于网络参数w是可微的,因此,可以采用梯度下降方法更新元自步网络的网络参数w:
Figure BDA00031081316400000725
Figure BDA0003108131640000076
其中,β为学习率,λ为常量,右下角加号表示元损失
Figure BDA0003108131640000077
为正。
步骤S4:更新主特征提取网络
将训练集中提取的一批视频/图片-文本对(K对)送入主特征提取网络,得到视频/图片的特征向量
Figure BDA0003108131640000078
以及对应的文本特征向量
Figure BDA0003108131640000079
然后对于第k对视频/图片-文本对,计算视频/图片的特征向量
Figure BDA00031081316400000710
以及对应的文本特征向量
Figure BDA00031081316400000711
的相似度,并作为正对相似度
Figure BDA00031081316400000712
依据视频/图片的特征向量
Figure BDA00031081316400000713
分别计算其与其他K-1个文本特征向量
Figure BDA00031081316400000714
j=1,2,...K,j≠k的相似度,并分别作为负对相似度,得到K-1负对相似度,依据文本特征向量
Figure BDA00031081316400000715
分别计算其与其他K-1个视频/图片的特征向量
Figure BDA00031081316400000716
j=1,2,...K,j≠k的相似度,并分别作为负对相似度,再得到K-1负对相似度,在得到的2(K-1)个负对相似度中,选择最大的作为最难负对相似度
Figure BDA00031081316400000717
将正对相似度
Figure BDA00031081316400000718
最难负对相似度
Figure BDA00031081316400000719
送入元自步网络,得到正对权重
Figure BDA00031081316400000720
最难负对权重
Figure BDA00031081316400000721
表示为:
Figure BDA00031081316400000722
采用梯度下降方法更新主特征提取网络的网络参数θ′:
Figure BDA00031081316400000723
其中,
Figure BDA00031081316400000724
为求关于网络参数θ′的梯度。
步骤S5:迭代更新主特征提取网络的网络参数
将主特征提取网络的网络参数赋值给辅助特征提取网络,然后返回步骤S2,直到梯度下降值小于设定的阈值或迭代达到设定的次数,完成主特征提取网络训练,即完成视频/图片-文本跨模态匹配训练。
匹配训练可表示为:。
Figure BDA0003108131640000081
实验评估
本发明视频/图片-文本跨模态匹配训练方法可以与已有的跨模特检索方法结合,进一步提升视频/图片-文本跨模态检索模型的收敛速度和检索精度。为了评估本发明的性能,将本发明视频/图片-文本跨模态匹配训练方法应用于三个典型的视频/图片-文本跨模态检索方法上,并在图片-文本检索任务和视频-文本检索任务上对其进行评估。
在评估中,采用Recall@k(k=1,5,10)来作为评价指标。Recall@k是跨模态检索领域最常用的评价指标,它表示在返回的前k个结果中有正确标签的查询样例所占的比例。
对于图片-文本检索任务,将本发明应用于BFAN模型,并在最常用的两个数据集Flickr30K和MS-COCO上验证其性能。实验结果分别列在表1和表2中。
Figure BDA0003108131640000082
Figure BDA0003108131640000091
表1
Figure BDA0003108131640000092
表2
从表1、表2的实验结果可以看出,本发明可以大幅提升BFAN的检索性能,在Flickr30K数据集上,对于图片-检索文本任务,BFAN(equal)能获得5.0(Recall@1)的提升。在大规模数据集MS-COCO上,对于图片-检索文本任务,BFAN能获得0.7(Recall@1)的提升。
对于在视频-文本检索任务,将本发明应用于Dual Encoding和其改进版本DualEncoding(Hybrid)上,分别在MSR-VTT数据集和VATEX数据集上评估其性能。
Figure BDA0003108131640000101
表3
Figure BDA0003108131640000102
表4
实验结果总结在表3和表4中,从结果可以看出,本发明可以进一步提升模型的性能。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种基于元自步学习的视频/图片-文本跨模态匹配训练方法,其特征在于,包括以下步骤:
(1)、构建训练的辅助网络
构建一个与用于视频/图片-文本跨模态检索的主特征提取网络结构相同的辅助特征提取网络;
构建一个由一层全连接层组成的元自步网络;
(2)、更新辅助特征提取网络
在训练集中提取K对视频/图片-文本对送入辅助特征提取网络,得到视频/图片的特征向量
Figure FDA0003562685840000011
以及对应的文本特征向量
Figure FDA0003562685840000012
然后对于第k对视频/图片-文本对,计算视频/图片的特征向量
Figure FDA0003562685840000013
以及对应的文本特征向量
Figure FDA0003562685840000014
的相似度,并作为正对相似度
Figure FDA0003562685840000015
依据视频/图片的特征向量
Figure FDA0003562685840000016
分别计算其与其他K-1个文本特征向量
Figure FDA0003562685840000017
的相似度,并分别作为负对相似度,得到K-1负对相似度,依据文本特征向量
Figure FDA0003562685840000018
分别计算其与其他K-1个视频/图片的特征向量
Figure FDA0003562685840000019
的相似度,并分别作为负对相似度,再得到K-1负对相似度,在得到的2(K-1)个负对相似度中,选择最大的作为最难负对相似度
Figure FDA00035626858400000110
其中,vi表示视频/图像,t表示文本,
Figure FDA00035626858400000111
表示第k个视频/图片-文本对,为正对,
Figure FDA00035626858400000112
表示第k个视频/图片-文本对对应的最难负对,fθ表示辅助特征提取网络;
将正对相似度
Figure FDA00035626858400000113
最难负对相似度
Figure FDA00035626858400000114
送入元自步网络,得到正对权重
Figure FDA00035626858400000115
最难负对权重
Figure FDA00035626858400000116
表示为:
Figure FDA00035626858400000117
其中,V(·)是表示元自步网络,w表示元自步网络的网络参数;
采用梯度下降方法更新辅助特征提取网络的网络参数θ:
Figure FDA00035626858400000118
其中,α为学习率,
Figure FDA00035626858400000119
为求关于网络参数θ的梯度;
(3)、更新元自步网络
将验证集K对视频/图片-文本对送入辅助特征提取网络,得到视频/图片的特征向量
Figure FDA0003562685840000021
以及对应的文本特征向量
Figure FDA0003562685840000022
然后对于第k对视频/图片-文本对,计算视频/图片的特征向量
Figure FDA0003562685840000023
以及对应的文本特征向量
Figure FDA0003562685840000024
的相似度,并作为正对相似度
Figure FDA0003562685840000025
依据视频/图片的特征向量
Figure FDA0003562685840000026
分别计算其与其他K-1个文本特征向量
Figure FDA0003562685840000027
的相似度,并分别作为负对相似度,得到K-1负对相似度,依据文本特征向量Ft k,分别计算其与其他K-1个视频/图片的特征向量
Figure FDA0003562685840000028
的相似度,并分别作为负对相似度,再得到K-1负对相似度,在得到的2(K-1)个负对相似度中,选择最大的作为最难负对相似度
Figure FDA0003562685840000029
其中,
Figure FDA00035626858400000210
表示第k个视频/图片-文本对,为正对,
Figure FDA00035626858400000211
表示第k个视频/图片-文本对对应的最难负对;
采用梯度下降方法更新元自步网络的网络参数w:
Figure FDA00035626858400000212
Figure FDA00035626858400000213
其中,β为学习率,
Figure FDA00035626858400000214
为求关于网络参数w的梯度,λ为常量,右下角加号表示元损失
Figure FDA00035626858400000215
为正;
(4)、更新主特征提取网络
将训练集中提取的K对视频/图片-文本对送入主特征提取网络,得到视频/图片的特征向量
Figure FDA00035626858400000216
以及对应的文本特征向量FPt k;然后对于第k对视频/图片-文本对,计算视频/图片的特征向量
Figure FDA00035626858400000217
以及对应的文本特征向量FPt k的相似度,并作为正对相似度
Figure FDA00035626858400000218
依据视频/图片的特征向量
Figure FDA00035626858400000219
分别计算其与其他K-1个文本特征向量FPt j,j=1,2,...K,j≠k的相似度,并分别作为负对相似度,得到K-1负对相似度,依据文本特征向量FPt k,分别计算其与其他K-1个视频/图片的特征向量
Figure FDA00035626858400000220
的相似度,并分别作为负对相似度,再得到K-1负对相似度,在得到的2(K-1)个负对相似度中,选择最大的作为最难负对相似度
Figure FDA00035626858400000221
将正对相似度
Figure FDA00035626858400000222
最难负对相似度
Figure FDA00035626858400000223
送入元自步网络,得到正对权重
Figure FDA00035626858400000224
最难负对权重
Figure FDA00035626858400000225
表示为:
Figure FDA00035626858400000226
采用梯度下降方法更新主特征提取网络的网络参数θ′:
Figure FDA0003562685840000031
其中,
Figure FDA0003562685840000032
为求关于网络参数θ′的梯度;
(5)、迭代更新主特征提取网络的网络参数
将主特征提取网络的网络参数赋值给辅助特征提取网络,然后返回步骤(2),直到梯度下降值小于设定的阈值或迭代达到设定的次数,完成主特征提取网络训练,即完成视频/图片-文本跨模态匹配训练。
CN202110643663.5A 2021-06-09 2021-06-09 基于元自步学习的视频/图片-文本跨模态匹配训练方法 Active CN113377990B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110643663.5A CN113377990B (zh) 2021-06-09 2021-06-09 基于元自步学习的视频/图片-文本跨模态匹配训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110643663.5A CN113377990B (zh) 2021-06-09 2021-06-09 基于元自步学习的视频/图片-文本跨模态匹配训练方法

Publications (2)

Publication Number Publication Date
CN113377990A CN113377990A (zh) 2021-09-10
CN113377990B true CN113377990B (zh) 2022-06-14

Family

ID=77573252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110643663.5A Active CN113377990B (zh) 2021-06-09 2021-06-09 基于元自步学习的视频/图片-文本跨模态匹配训练方法

Country Status (1)

Country Link
CN (1) CN113377990B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114419514B (zh) * 2022-01-26 2024-04-19 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN115423050A (zh) * 2022-11-04 2022-12-02 暨南大学 一种虚假新闻检测方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580500A (zh) * 2019-08-20 2019-12-17 天津大学 一种面向人物交互的网络权重生成少样本图像分类方法
CN111708904A (zh) * 2020-08-24 2020-09-25 浙江大学 一种基于主题适应与原型编码的少样本视觉故事叙述方法
CN112528677A (zh) * 2020-12-22 2021-03-19 北京百度网讯科技有限公司 一种语义向量提取模型的训练方法、装置及电子设备
CN112613556A (zh) * 2020-09-01 2021-04-06 电子科技大学 基于元学习的少样本图像情感分类方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930873B (zh) * 2016-04-27 2019-02-12 天津中科智能识别产业技术研究院有限公司 一种基于子空间的自步跨模态匹配方法
CN106650756B (zh) * 2016-12-28 2019-12-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN108132968B (zh) * 2017-12-01 2020-08-04 西安交通大学 网络文本与图像中关联语义基元的弱监督学习方法
CN108170755B (zh) * 2017-12-22 2020-04-07 西安电子科技大学 基于三元组深度网络的跨模态哈希检索方法
US10990848B1 (en) * 2019-12-27 2021-04-27 Sap Se Self-paced adversarial training for multimodal and 3D model few-shot learning
CN111324752B (zh) * 2020-02-20 2023-06-16 中国科学技术大学 基于图神经网络结构建模的图像与文本检索方法
CN111753190A (zh) * 2020-05-29 2020-10-09 中山大学 一种基于元学习的无监督跨模态哈希检索方法
CN111898739B (zh) * 2020-07-30 2024-02-20 平安科技(深圳)有限公司 基于元学习的数据筛选模型构建方法、数据筛选方法、装置、计算机设备及存储介质
CN112734049A (zh) * 2020-11-23 2021-04-30 西湖大学 一种基于域自适应的多初始值元学习框架及方法
CN112488133B (zh) * 2020-12-18 2022-06-14 贵州大学 一种视频/图片-文本跨模态检索方法
CN112488131B (zh) * 2020-12-18 2022-06-14 贵州大学 一种基于自监督对抗的图片文本跨模态检索方法
CN112801159B (zh) * 2021-01-21 2022-07-19 中国人民解放军国防科技大学 融合图像及其文本描述的零-小样本机器学习方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580500A (zh) * 2019-08-20 2019-12-17 天津大学 一种面向人物交互的网络权重生成少样本图像分类方法
CN111708904A (zh) * 2020-08-24 2020-09-25 浙江大学 一种基于主题适应与原型编码的少样本视觉故事叙述方法
CN112613556A (zh) * 2020-09-01 2021-04-06 电子科技大学 基于元学习的少样本图像情感分类方法
CN112528677A (zh) * 2020-12-22 2021-03-19 北京百度网讯科技有限公司 一种语义向量提取模型的训练方法、装置及电子设备

Also Published As

Publication number Publication date
CN113377990A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN112784092B (zh) 一种混合融合模型的跨模态图像文本检索方法
CN107358293B (zh) 一种神经网络训练方法及装置
WO2023000574A1 (zh) 一种模型训练方法、装置、设备及可读存储介质
CN111553480B (zh) 图像数据处理方法、装置、计算机可读介质及电子设备
CN113377990B (zh) 基于元自步学习的视频/图片-文本跨模态匹配训练方法
CN113360673B (zh) 多模态知识图谱的实体对齐方法、装置及存储介质
CN110674850A (zh) 一种基于注意力机制的图像描述生成方法
CN112488133B (zh) 一种视频/图片-文本跨模态检索方法
CN112561064B (zh) 基于owkbc模型的知识库补全方法
CN110580339B (zh) 一种医疗术语知识库完善的方法和装置
CN111242197A (zh) 基于双视域语义推理网络的图像文匹配方法
CN111708871A (zh) 对话状态跟踪方法、装置及对话状态跟踪模型训练方法
CN111401219A (zh) 一种手掌关键点检测方法和装置
CN114332519A (zh) 一种基于外部三元组和抽象关系的图像描述生成方法
CN115482395A (zh) 模型训练方法、图像分类方法、装置、电子设备和介质
CN116030025A (zh) 一种基于模态感知蒸馏网络的肝细胞癌预测方法
CN111160859A (zh) 一种基于svd++和协同过滤的人力资源岗位推荐方法
CN110443273B (zh) 一种用于自然图像跨类识别的对抗零样本学习方法
CN114328952A (zh) 基于知识蒸馏的知识图谱对齐方法、装置及设备
CN113987203A (zh) 一种基于仿射变换与偏置建模的知识图谱推理方法与系统
CN116431816B (zh) 一种文献分类方法、装置、设备和计算机可读存储介质
CN115985439A (zh) 一种基于去联邦学习的医疗数据共享系统及方法
CN115601578A (zh) 基于自步学习与视图赋权的多视图聚类方法及系统
CN112102399B (zh) 一种基于生成式对抗网络的视觉里程计算法
CN114969423A (zh) 一种基于局部共享语义中心的图像文本跨模态检索模型、方法及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant