CN116257609A - 基于多尺度文本对齐的跨模态检索方法及系统 - Google Patents

基于多尺度文本对齐的跨模态检索方法及系统 Download PDF

Info

Publication number
CN116257609A
CN116257609A CN202310037420.6A CN202310037420A CN116257609A CN 116257609 A CN116257609 A CN 116257609A CN 202310037420 A CN202310037420 A CN 202310037420A CN 116257609 A CN116257609 A CN 116257609A
Authority
CN
China
Prior art keywords
text
image
feature vector
module
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310037420.6A
Other languages
English (en)
Inventor
陈亚雄
杨锴
黄景灏
魏志程
熊盛武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanya Science and Education Innovation Park of Wuhan University of Technology
Original Assignee
Sanya Science and Education Innovation Park of Wuhan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanya Science and Education Innovation Park of Wuhan University of Technology filed Critical Sanya Science and Education Innovation Park of Wuhan University of Technology
Priority to CN202310037420.6A priority Critical patent/CN116257609A/zh
Publication of CN116257609A publication Critical patent/CN116257609A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了基于多尺度文本对齐的跨模态检索方法及系统,首先构建包括图像表示模块、文本表示模块和文本对齐模块的整体网络模型,通过图像表示模块和文本表示模块能有效地捕捉不同小目标之间的细微差异,有效地捕获图像与文本之间的细粒度对应关系;通过文本对齐模块对文本与自然的处理,保留了有效文本信息;整体网络模型的目标函数包括三元组损失函数与InfoNCE损失函数,考虑到了文本与图像之间的先验相似性,大大优化了图像与文本的目标函数,增加了跨模态检索的泛化性,使其特别适合应用于遥感图像与文本的跨模态检索。

Description

基于多尺度文本对齐的跨模态检索方法及系统
技术领域
本发明属于计算机智能设别技术领域,涉及一种跨模态遥感检索方法及系统。
背景技术
随着互联网技术和智能设备的发展,社交网络和其他信息平台出现了多种多样的属于不同模态的海量多媒体数据,如文本、语音、音频、图像和视频。
在如今大数据时代下,获取不同模态数据之间的关系,挖掘海量数据中的潜在价值尤为重要。跨模态检索任务旨在视觉图像和语言文本两种不同的媒体数据之间准确的找到相同语义的实例,因此如何弥补视觉图像和语言文本之间存在的“语义鸿沟”是该任务的主要问题。目前,往往利用深度学习方法解决跨模态图像-文本检索问题,常见的做法是直接通过计算图像和文本之间的相似度来进行跨模态图像-文本检索,但是这种方法有三点不足:一是由于图像的多尺度特性,该方法不能有效地捕捉不同小目标之间的细微差异;二是该方法通常将文本与图像粗略对齐,导致与图像相关的有效文本信息丢失;三是该方法的损失函数基本是衡量文本特征向量与遥感图像特征向量的相似性,忽略了文本与图像之间的先验相似性。
发明内容
为了解决背景技术中所述的问题,本发明提出了基于多尺度文本对齐的跨模态检索方法及系统。
本发明的方法包括以下步骤:
S1)采集包括图像和文本的跨模态数据,并将其划分为训练数据集和测试数据集;
S2)构建包括图像表示模块、文本表示模块和文本对齐模块的整体网络模型;所述图像表示模块包括多尺度融合模块和显著区域学习模块,所述文本表示模块包括词编码器、双向GRU网络和多层感知器MLP网络;
S3)在图像表示模块中,先使用多尺度融合模块通过不同卷积核大小的卷积对训练数据集的图像进行采样,然后通过三个Transformer块、两个Patch Merging块、冗余序列过滤模块和全连接层组成的显著区域学习模块对图像进行提取,得到图像特征;
在文本表示模块中,先使用词编码器将训练数据集的文本单词转为词向量表示,然后利用双向GRU网络和多层感知器MLP网络将词向量表示提取出来,得到文本特征向量;
在文本对齐模块中,依据图像特征得到图像特征向量,计算图像特征向量和文本特征向量之间的相似度关系,通过构造注意权重得到对齐后的文本特征向量;
S4)通过图像特征向量、文本特征向量、图像特征向量和文本特征向量之间的相似度关系以及对齐后的文本特征向量对整体网络模型进行训练,计算得出整体网络模型包括三元组损失函数与InfoNCE损失函数在内的目标函数,并使用Adam算法优化更新整体网络模型的初始参数,得到最终整体网络模型;
S5)使用测试数据集对最终整体网络模型进行查询图像相关的文本检索任务和查询文本相关的图像检索任务的验证评估,得到检索召回率R@K;
S6)若检索召回率R@K未达到要求,重复步骤S2)至S5),若检索召回率R@K达到要求,输出最终整体网络模型,将其应用于跨模态检索任务。
进一步地,所述步骤S1)中,图像和文本的跨模态数据包括遥感领域常用的RSICD、RSITMD、UCM和SYDNEY图像-文本数据集,选用80%的图像-文本数据集作为训练数据集,剩余20%作为测试数据集。
更进一步地,所述步骤S2)中,显著区域学习模块的Transformer块采用相同步长,通过4×4卷积核、8×8卷积核、16×16卷积核、32×32卷积核对图像进行采样。
更进一步地,所述步骤S3)的文本表示模块中,词编码器将单词映射到d维空间的公式为:
xj=WG(oj)(j∈[1,J]),
其中,xj表示词嵌入向量,WG表示嵌入矩阵,oj为句子中的单词,J为句子中单词的个数;
之后将词嵌入向量xj输入到双向GRU网络中,公式为:
Figure BDA0004044338940000031
Figure BDA0004044338940000041
其中,
Figure BDA0004044338940000042
为t时刻正向GRU网络的隐藏状态,
Figure BDA0004044338940000043
为t时刻反向GRU网络的隐藏状态;
得到初始文本特征向量uj为:
Figure BDA0004044338940000044
通过多层感知器MLP网络对初始文本特征向量ui进行处理,使图像模态和文本模态的特征维度保持一致,得到文本特征向量
Figure BDA0004044338940000045
更进一步地,所述步骤S3)的文本对齐模块中,先通过线性变换第m个图像Im的原始特征向量
Figure BDA0004044338940000046
得到图像特征向量
Figure BDA0004044338940000047
然后计算文本特征向量与图像特征向量的相似度,公式为:
Figure BDA0004044338940000048
其中,
Figure BDA0004044338940000049
表示文本特征向量与图像特征向量的相似度,
Figure BDA00040443389400000410
为文本特征向量,
Figure BDA00040443389400000411
表示图像特征向量;
构造注意权重的公式为:
Figure BDA00040443389400000412
其中,WIT为注意权重矩阵,θ为Sigmoid函数;
最后得到对齐后的文本特征向量
Figure BDA00040443389400000413
Figure BDA00040443389400000414
更进一步地,所述步骤S4)中,整体网络模型目标函数的总表达式为:
Figure BDA0004044338940000051
其中,
Figure BDA0004044338940000052
为三元组损失,
Figure BDA0004044338940000053
为InfoNCE损失,γ为权重参数。
所述三元组损失函数的公式为:
Figure BDA0004044338940000054
其中,
Figure BDA0004044338940000055
为三元组损失,α为边缘参数,[x]+=max(x,0),
Figure BDA0004044338940000056
为对齐后的文本特征向量,
Figure BDA0004044338940000057
为图像特征向量,
Figure BDA0004044338940000058
表示文本模态的负样本,
Figure BDA0004044338940000059
表示图像模态的负样本,S表示某两者之间的相似度;
所述InfoNCE损失函数的公式为:
Figure BDA00040443389400000510
其中,
Figure BDA00040443389400000511
为InfoNCE损失,τ为可学习的参数,M为样本数,
Figure BDA00040443389400000512
为原始特征向量,
Figure BDA00040443389400000513
为文本特征向量,S表示某两者之间的相似度。
所述步骤S4)中,Adam算法优化的学习率设置为2*10-4,词向量维度设置为300,批次大小设置为128,学习率的衰减策略为依据验证集的Loss不再下降进行调整;边缘参数α设置为0.2,权重参数γ设置为0.1,参数τ设置为0.1,通过训练整体网络模型从而得到初始参数:权重参数W和偏置参数B。
本发明的系统包括数据采集模块、模型构建模块、模型训练模块和模型验证应用模块。
所述数据采集模块用于采集包括图像和文本的跨模态数据,并将其划分为训练数据集和测试数据集。
所述模型构建模块用于构建包括图像表示模块、文本表示模块和文本对齐模块的整体网络模型,所述图像表示模块包括多尺度融合模块和显著区域学习模块,所述文本表示模块包括词编码器、双向GRU网络和多层感知器MLP网络。
所述模型训练模块中,在图像表示模块中,先使用多尺度融合模块通过不同卷积核大小的卷积对训练数据集的图像进行采样,然后通过三个Transformer块、两个PatchMerging块、冗余序列过滤模块和全连接层组成的显著区域学习模块对图像进行提取,得到图像特征;在图像表示模块中,先使用词编码器将训练数据集的文本单词转为词向量表示,然后利用双向GRU网络和多层感知器MLP网络将词向量表示提取出来,得到文本特征向量;在文本对齐模块中,依据图像特征得到图像特征向量,计算图像特征向量和文本特征向量之间的相似度关系,通过构造注意权重得到对齐后的文本特征向量;最后通过图像特征向量、文本特征向量、图像特征向量和文本特征向量之间的相似度关系以及对齐后的文本特征向量对整体网络模型进行训练,计算得出包括三元组损失函数与InfoNCE损失函数在内的整体网络模型目标函数,并使用Adam算法优化更新整体网络模型的初始参数,得到最终整体网络模型。
所述模型验证应用模块中,使用测试数据集对最终整体网络模型进行查询图像相关的文本检索任务和查询文本相关的图像检索任务的验证评估,得到检索召回率R@K;若检索召回率R@K未达到要求,重复进行模型构建和训练,若检索召回率R@K达到要求,输出最终整体网络模型,将其应用于跨模态检索任务。
本发明还提出了基于多尺度文本对齐的跨模态检索方法的计算机设备,其包括存储器、处理器和存储在存储器中可供处理器运行的程序指令,其中所述处理器执行所述程序指令以实现上述所述方法中的步骤和上述所述的系统。
本发明还提出了一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述所述方法中的步骤和上述所述的系统。
本发明与现有技术相比,将包括图像和文本的跨模态数据划分为训练数据集和测试数据集,然后构建包括图像表示模块、文本表示模块和文本对齐模块的整体网络模型,接着将训练数据集输入整体网络模型的各个模块中,得到图像特征向量、文本特征向量、图像特征向量和文本特征向量之间的相似度关系以及对齐后的文本特征向量,对整体网络模型进行训练,得出整体网络模型的目标函数,并使用Adam算法更新整体网络模型的初始参数,得到最终整体网络模型,最终整体网络模型评估达到要求后即可应用于跨模态检索任务。本发明提出的方法通过图像表示模块和文本表示模块能有效地捕捉不同小目标之间的细微差异,有效地捕获图像与文本之间的细粒度对应关系;通过文本对齐模块对文本与自然的处理,保留了有效文本信息;整体网络模型的目标函数包括三元组损失函数与InfoNCE损失函数,考虑到了文本与图像之间的先验相似性,大大优化了图像与文本的目标函数,增加了跨模态检索任务的泛化性,使其特别适合应用于遥感图像与文本的跨模态检索。
附图说明
图1为本发明的方法流程图和系统架构图。
图2为本发明的系整体网络模型的训练流程图。
具体实施方式
下面结合附图详细说明本发明的实施情况,但它们并不构成对本发明的限定,仅做举例而已,同时通过说明,将更加清楚地理解本发明的优点。本领域的普通的技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。实施例中所述的位置关系均与附图所示一致,实施例中其他未详细说明的部分均为现有技术。
本发明提出了基于多尺度文本对齐的跨模态检索方法,流程图如图1所示,具体步骤如下:
S1)采集包括图像和文本的跨模态数据,并将其划分为训练数据集和测试数据集。
其中,图像和文本的跨模态数据包括遥感领域常用的RSICD、RSITMD、UCM和SYDNEY图像-文本数据集,选用80%的图像-文本数据集作为训练数据集,剩余20%作为测试数据集。
S2)构建包括图像表示模块、文本表示模块和文本对齐模块的整体网络模型,其中,图像表示模块包括多尺度融合模块和显著区域学习模块,文本表示模块包括词编码器、双向GRU网络和多层感知器MLP网络。
其中,文本对齐模块是基于图像引导构建的。显著区域学习模块的Transformer块采用相同步长,通过4×4卷积核、8×8卷积核、16×16卷积核、32×32卷积核对图像进行采样。
S3)在图像表示模块中,先使用多尺度融合模块通过不同卷积核大小的卷积对训练数据集的图像进行采样,然后通过三个Transformer块、两个Patch Merging块、冗余序列过滤模块和全连接层组成的显著区域学习模块对图像进行提取,得到图像特征。
在文本表示模块中,先使用词编码器将训练数据集的文本单词转为词向量表示,然后利用双向GRU网络和多层感知器MLP网络将词向量表示提取出来,得到文本特征向量。
在文本对齐模块中,依据图像特征得到图像特征向量,计算图像特征向量和文本特征向量之间的相似度关系,通过构造注意权重得到对齐后的文本特征向量。
具体地,在文本表示模块中,词编码器将单词映射到d维空间的公式为:
xj=WG(oj)(j∈[1,J]),
其中,xj表示词嵌入向量,WG表示嵌入矩阵,oj为句子中的单词,J为句子中单词的个数;
之后将词嵌入向量xj输入到双向GRU网络中,公式为:
Figure BDA0004044338940000091
Figure BDA0004044338940000092
其中,
Figure BDA0004044338940000101
为t时刻正向GRU网络的隐藏状态,
Figure BDA0004044338940000102
为t时刻反向GRU网络的隐藏状态;
得到初始文本特征向量uj为:
Figure BDA0004044338940000103
通过多层感知器MLP网络对初始文本特征向量ui进行处理,使图像模态和文本模态的特征维度保持一致,得到文本特征向量
Figure BDA0004044338940000104
具体地,在文本对齐模块中,先通过线性变换第m个图像Im的原始特征向量
Figure BDA0004044338940000105
得到图像特征向量
Figure BDA0004044338940000106
然后计算文本特征向量与图像特征向量的相似度,公式为:
Figure BDA0004044338940000107
其中,
Figure BDA0004044338940000108
表示文本特征向量与图像特征向量的相似度,
Figure BDA0004044338940000109
为文本特征向量,
Figure BDA00040443389400001010
表示图像特征向量;
构造注意权重的公式为:
Figure BDA00040443389400001011
其中,WIT为注意权重矩阵,θ为Sigmoid函数;
最后得到对齐后的文本特征向量
Figure BDA00040443389400001012
Figure BDA00040443389400001013
S4)通过图像特征向量、文本特征向量、图像特征向量和文本特征向量之间的相似度关系以及对齐后的文本特征向量对整体网络模型进行训练,计算得出包括三元组损失函数与InfoNCE损失函数在内的整体网络模型目标函数,并使用Adam算法优化更新整体网络模型的初始参数,得到最终整体网络模型。
整体网络模型的训练流程图如图2所示。
具体地,整体网络模型的目标函数的总表达式为:
Figure BDA0004044338940000111
其中,
Figure BDA0004044338940000112
为三元组损失,
Figure BDA0004044338940000113
为InfoNCE损失,γ为权重参数。
三元组损失函数的公式为:
Figure BDA0004044338940000114
其中,
Figure BDA0004044338940000115
为三元组损失,α为边缘参数,[x]+=max(x,0),
Figure BDA0004044338940000116
为对齐后的文本特征向量,
Figure BDA0004044338940000117
为图像特征向量,
Figure BDA0004044338940000118
表示文本模态的负样本,
Figure BDA0004044338940000119
表示图像模态的负样本,S表示某两者之间的相似度。
InfoNCE损失函数的公式为:
Figure BDA00040443389400001110
其中,
Figure BDA00040443389400001111
为InfoNCE损失,τ为可学习的参数,M为样本数,
Figure BDA00040443389400001112
为原始特征向量,
Figure BDA00040443389400001113
为文本特征向量,S表示某两者之间的相似度。
Adam算法优化中,学习率设置为2*10,词向量维度设置为300,批次大小设置为128,学习率的衰减策略为依据验证集的Loss不再下降进行调整;边缘参数α设置为0.2,权重参数γ设置为0.1,参数τ设置为0.1,通过训练整体网络模型从而得到初始参数:权重参数W和偏置参数B。
S5)使用测试数据集对最终整体网络模型进行查询图像相关的文本检索任务和查询文本相关的图像检索任务的验证评估,得到检索召回率R@K。
S6)若检索召回率R@K未达到要求,重复上述步骤,若检索召回率R@K达到要求,输出最终整体网络模型,将其应用于跨模态检索任务。
一般地,本发明的检索召回率R@K要求大于传统的跨模态检索方法的检索召回率R@K即可。
本发明还提出了基于多尺度文本对齐的跨模态检索系统,如图1所示,由数据采集模块、模型构建模块、模型训练模块和模型验证应用模块组成。
数据采集模块用于采集包括图像和文本的跨模态数据,并将其划分为训练数据集和测试数据集。
模型构建模块用于构建包括图像表示模块、文本表示模块和文本对齐模块的整体网络模型,所述图像表示模块包括多尺度融合模块和显著区域学习模块,所述文本表示模块包括词编码器、双向GRU网络和多层感知器MLP网络。
模型训练模块中,在图像表示模块中,先使用多尺度融合模块通过不同卷积核大小的卷积对训练数据集的图像进行采样,然后通过三个Transformer块、两个PatchMerging块、冗余序列过滤模块和全连接层组成的显著区域学习模块对图像进行提取,得到图像特征;在图像表示模块中,先使用词编码器将训练数据集的文本单词转为词向量表示,然后利用双向GRU网络和多层感知器MLP网络将词向量表示提取出来,得到文本特征向量;在文本对齐模块中,依据图像特征得到图像特征向量,计算图像特征向量和文本特征向量之间的相似度关系,通过构造注意权重得到对齐后的文本特征向量;最后通过图像特征向量、文本特征向量、图像特征向量和文本特征向量之间的相似度关系以及对齐后的文本特征向量对整体网络模型进行训练,计算得出包括三元组损失函数与InfoNCE损失函数在内的整体网络模型目标函数,并使用Adam算法优化更新整体网络模型的初始参数,得到最终整体网络模型。
模型验证应用模块中,使用测试数据集对最终整体网络模型进行查询图像相关的文本检索任务和查询文本相关的图像检索任务的验证评估,得到检索召回率R@K;若检索召回率R@K未达到要求,重复进行模型构建和训练,若检索召回率R@K达到要求,输出最终整体网络模型,将其应用于跨模态检索任务。
该系统中部各个模块的具体实现过程见上述方法中所述,此处不再赘述。
基于上述方法和系统,本发明还提出了基于多尺度文本对齐的跨模态检索方法的计算机设备,其包括存储器、处理器和存储在存储器中可供处理器运行的程序指令,其中所述处理器执行所述程序指令以实现上述所述方法中的步骤和上述所述的系统。本发明还提出了一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述所述方法中的步骤和上述所述的系统。
为了评估本发明方法的有效性,将本发明方法与传统的跨模态检索方法进行了比较,传统的跨模态检索方法有:VSE++、SCAN t2i、SCAN i2t、CAMP-triplet、CAMP-bce、MTFN、LW-MCR和AMFMN。
采用RSICD、RSITMD、UCM和SYDNEY图像-文本数据集。传统的跨模态检索方法中,VSE++分别通过VGG19网络和双向GRU提取图像和文本特征,再利用对比损失进行模型学习,SCAN t2i、SCAN i2t、CAMP-triplet、CAMP-bce、MTFN、LW-MCR和AMFMN方法按原文执行。
表1是本发明与传统的跨模态检索方法在RSICD数据集上跨模态检索任务的比较实验结果;表2是本发明与传统的跨模态检索方法在RSITMD数据集上跨模态检索任务的比较实验结果;表3是本发明与传统的跨模态检索方法在UCM数据集上跨模态检索任务的比较实验结果;表4是本发明与传统的跨模态检索方法在SYDNEY数据集上跨模态检索任务的比较实验结果;其中R@K为检索召回率,MR表示多个R@K的平均值。从表1-表4的结果可知,本发明的检索召回率R@K均高于传统的跨模态检索方法。
表1
Figure BDA0004044338940000141
Figure BDA0004044338940000151
表2
Figure BDA0004044338940000152
表3
Figure BDA0004044338940000153
Figure BDA0004044338940000161
表4
Figure BDA0004044338940000162
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.基于多尺度文本对齐的跨模态检索方法,其特征在于,包括以下步骤:
S1)采集包括图像和文本的跨模态数据,并将其划分为训练数据集和测试数据集;
S2)构建包括图像表示模块、文本表示模块和文本对齐模块的整体网络模型,所述图像表示模块包括多尺度融合模块和显著区域学习模块,所述文本表示模块包括词编码器、双向GRU网络和多层感知器MLP网络;
S3)在图像表示模块中,先使用多尺度融合模块通过不同卷积核大小的卷积对训练数据集的图像进行采样,然后通过三个Transformer块、两个Patch Merging块、冗余序列过滤模块和全连接层组成的显著区域学习模块对图像进行提取,得到图像特征;
在文本表示模块中,先使用词编码器将训练数据集的文本单词转为词向量表示,然后利用双向GRU网络和多层感知器MLP网络将词向量表示提取出来,得到文本特征向量;
在文本对齐模块中,依据图像特征得到图像特征向量,计算图像特征向量和文本特征向量之间的相似度关系,通过构造注意权重得到对齐后的文本特征向量;
S4)通过图像特征向量、文本特征向量、图像特征向量和文本特征向量之间的相似度关系以及对齐后的文本特征向量对整体网络模型进行训练,计算得出包括三元组损失函数与InfoNCE损失函数在内的整体网络模型目标函数,并使用Adam算法优化更新整体网络模型的初始参数,得到最终整体网络模型;
S5)使用测试数据集对最终整体网络模型进行查询图像相关的文本检索任务和查询文本相关的图像检索任务的验证评估,得到检索召回率R@K;
S6)若检索召回率R@K未达到要求,重复步骤S2)至S5),若检索召回率R@K达到要求,输出最终整体网络模型,将其应用于跨模态检索任务。
2.根据权利要求1所述的基于多尺度文本对齐的跨模态检索方法,其特征在于:所述步骤S1)中,图像和文本的跨模态数据包括遥感领域常用的RSICD、RSITMD、UCM和SYDNEY图像-文本数据集,选用80%的图像-文本数据集作为训练数据集,剩余20%作为测试数据集。
3.根据权利要求2所述的基于多尺度文本对齐的跨模态检索方法,其特征在于:所述步骤S2)中,显著区域学习模块的Transformer块采用相同步长,通过4×4卷积核、8×8卷积核、16×16卷积核、32×32卷积核对图像进行采样。
4.根据权利要求3所述的基于多尺度文本对齐的跨模态检索方法,其特征在于:所述步骤S3)的文本表示模块中,词编码器将单词映射到d维空间的公式为:
xj=WG(oj)(j∈[1,J]),
其中,xj表示词嵌入向量,WG表示嵌入矩阵,oj为句子中的单词,J为句子中单词的个数;
之后将词嵌入向量xj输入到双向GRU网络中,公式为:
Figure FDA0004044338930000031
Figure FDA0004044338930000032
其中,
Figure FDA0004044338930000033
为t时刻正向GRU网络的隐藏状态,
Figure FDA0004044338930000034
为t时刻反向GRU网络的隐藏状态;
得到初始文本特征向量uj为:
Figure FDA0004044338930000035
通过多层感知器MLP网络对初始文本特征向量uj进行处理,使图像模态和文本模态的特征维度保持一致,得到文本特征向量
Figure FDA0004044338930000036
5.根据权利要求4所述的基于多尺度文本对齐的跨模态检索方法,其特征在于:所述步骤S3)的文本对齐模块中,先通过线性变换第m个图像Im的原始特征向量
Figure FDA0004044338930000037
得到图像特征向量
Figure FDA0004044338930000038
然后计算文本特征向量与图像特征向量的相似度,公式为:
Figure FDA0004044338930000039
其中,
Figure FDA00040443389300000310
表示文本特征向量与图像特征向量的相似度,
Figure FDA00040443389300000311
为文本特征向量,
Figure FDA00040443389300000312
为图像特征向量;
构造注意权重的公式为:
Figure FDA00040443389300000313
其中,WIT为注意权重矩阵,θ为Sigmoid函数;
最后得到对齐后的文本特征向量
Figure FDA00040443389300000314
Figure FDA0004044338930000041
6.根据权利要求5所述的基于多尺度文本对齐的跨模态检索方法,其特征在于:所述步骤S4)中,整体网络模型目标函数的总表达式为:
Figure FDA0004044338930000042
其中,
Figure FDA0004044338930000043
为三元组损失,
Figure FDA0004044338930000044
为InfoNCE损失,γ为权重参数;
所述三元组损失函数的公式为:
Figure FDA0004044338930000045
其中,
Figure FDA0004044338930000046
为三元组损失,α为边缘参数,[x]+=max(x,0),
Figure FDA0004044338930000047
为对齐后的文本特征向量,
Figure FDA0004044338930000048
为图像特征向量,
Figure FDA0004044338930000049
表示文本模态的负样本,
Figure FDA00040443389300000410
表示图像模态的负样本,S表示某两者之间的相似度;
所述InfoNCE损失函数的公式为:
Figure FDA00040443389300000411
其中,
Figure FDA00040443389300000412
为InfoNCE损失,τ为可学习的参数,M为样本数,
Figure FDA00040443389300000413
为原始特征向量,
Figure FDA00040443389300000414
为文本特征向量,S表示某两者之间的相似度。
7.根据权利要求6所述的基于多尺度文本对齐的跨模态检索方法,其特征在于:所述步骤S4)中,Adam算法优化的学习率设置为2*10-4,词向量维度设置为300,批次大小设置为128,学习率的衰减策略为依据验证集的Loss不再下降进行调整;边缘参数α设置为0.2,权重参数γ设置为0.1,参数τ设置为0.1,通过训练整体网络模型从而得到初始参数:权重参数W和偏置参数B。
8.基于多尺度文本对齐的跨模态检索系统,其特征在于:包括数据采集模块、模型构建模块、模型训练模块和模型验证与应用模块;
所述数据采集模块用于采集包括图像和文本的跨模态数据,并将其划分为训练数据集和测试数据集;
所述模型构建模块用于构建包括图像表示模块、文本表示模块和文本对齐模块的整体网络模型,所述图像表示模块包括多尺度融合模块和显著区域学习模块,所述文本表示模块包括词编码器、双向GRU网络和多层感知器MLP网络;
所述模型训练模块中,在图像表示模块中,先使用多尺度融合模块通过不同卷积核大小的卷积对训练数据集的图像进行采样,然后通过三个Transformer块、两个PatchMerging块、冗余序列过滤模块和全连接层组成的显著区域学习模块对图像进行提取,得到图像特征;在图像表示模块中,先使用词编码器将训练数据集的文本单词转为词向量表示,然后利用双向GRU网络和多层感知器MLP网络将词向量表示提取出来,得到文本特征向量;在文本对齐模块中,依据图像特征得到图像特征向量,计算图像特征向量和文本特征向量之间的相似度关系,通过构造注意权重得到对齐后的文本特征向量;最后通过图像特征向量、文本特征向量、图像特征向量和文本特征向量之间的相似度关系以及对齐后的文本特征向量对整体网络模型进行训练,计算得出包括三元组损失函数与InfoNCE损失函数在内的整体网络模型目标函数,并使用Adam算法优化更新整体网络模型的初始参数,得到最终整体网络模型;
所述模型验证应用模块中,使用测试数据集对最终整体网络模型进行查询图像相关的文本检索任务和查询文本相关的图像检索任务的验证评估,得到检索召回率R@K;若检索召回率R@K未达到要求,重复进行模型构建和训练,若检索召回率R@K达到要求,输出最终整体网络模型,将其应用于跨模态检索任务。
9.基于多尺度文本对齐的跨模态检索方法的计算机设备,其包括存储器、处理器和存储在存储器中可供处理器运行的程序指令,其中所述处理器执行所述程序指令以实现权利要求1至7中任一项所述方法中的步骤和权利要求8所述系统。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法和权利要求8所述系统。
CN202310037420.6A 2023-01-09 2023-01-09 基于多尺度文本对齐的跨模态检索方法及系统 Pending CN116257609A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310037420.6A CN116257609A (zh) 2023-01-09 2023-01-09 基于多尺度文本对齐的跨模态检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310037420.6A CN116257609A (zh) 2023-01-09 2023-01-09 基于多尺度文本对齐的跨模态检索方法及系统

Publications (1)

Publication Number Publication Date
CN116257609A true CN116257609A (zh) 2023-06-13

Family

ID=86681995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310037420.6A Pending CN116257609A (zh) 2023-01-09 2023-01-09 基于多尺度文本对齐的跨模态检索方法及系统

Country Status (1)

Country Link
CN (1) CN116257609A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117195903A (zh) * 2023-11-07 2023-12-08 北京新广视通科技集团有限责任公司 基于噪声感知的生成式、多模态实体关系抽取方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117195903A (zh) * 2023-11-07 2023-12-08 北京新广视通科技集团有限责任公司 基于噪声感知的生成式、多模态实体关系抽取方法及系统
CN117195903B (zh) * 2023-11-07 2024-01-23 北京新广视通科技集团有限责任公司 基于噪声感知的生成式、多模态实体关系抽取方法及系统

Similar Documents

Publication Publication Date Title
CN109858555B (zh) 基于图像的数据处理方法、装置、设备及可读存储介质
CN110555399B (zh) 手指静脉识别方法、装置、计算机设备及可读存储介质
CN110503076B (zh) 基于人工智能的视频分类方法、装置、设备和介质
CN111027576B (zh) 基于协同显著性生成式对抗网络的协同显著性检测方法
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
CN113592007B (zh) 一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质
CN115146068B (zh) 关系三元组的抽取方法、装置、设备及存储介质
TWI803243B (zh) 圖像擴增方法、電腦設備及儲存介質
CN114528912A (zh) 基于渐进式多模态融合网络的虚假新闻检测方法及系统
CN114707589B (zh) 对抗样本的生成方法、装置、存储介质、设备及程序产品
CN116257609A (zh) 基于多尺度文本对齐的跨模态检索方法及系统
CN114692750A (zh) 一种细粒度图像分类方法、装置、电子设备及存储介质
CN116578738B (zh) 一种基于图注意力和生成对抗网络的图文检索方法和装置
CN117951308A (zh) 一种零样本知识图谱补全方法及装置
CN117786058A (zh) 一种多模态大模型知识迁移框架的构建方法
CN117421639A (zh) 多模态数据分类方法、终端设备及存储介质
CN113569094A (zh) 视频推荐方法、装置、电子设备及存储介质
CN115859964B (zh) 基于教育云平台的教育资源共享方法及系统
US10957017B1 (en) Synthetic image detector
CN117011219A (zh) 物品质量检测方法、装置、设备、存储介质和程序产品
CN113434721B (zh) 表情包分类方法、装置、计算机设备和存储介质
CN113850301B (zh) 训练数据的获取方法和装置、模型训练方法和装置
CN115731588B (zh) 模型处理方法及装置
CN114708467B (zh) 基于知识蒸馏的不良场景识别方法及系统及设备
CN116911268B (zh) 一种表格信息处理方法、装置、处理设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination