CN116257609A - 基于多尺度文本对齐的跨模态检索方法及系统 - Google Patents
基于多尺度文本对齐的跨模态检索方法及系统 Download PDFInfo
- Publication number
- CN116257609A CN116257609A CN202310037420.6A CN202310037420A CN116257609A CN 116257609 A CN116257609 A CN 116257609A CN 202310037420 A CN202310037420 A CN 202310037420A CN 116257609 A CN116257609 A CN 116257609A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- feature vector
- module
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 239000013598 vector Substances 0.000 claims description 136
- 238000012549 training Methods 0.000 claims description 44
- 230000006870 function Effects 0.000 claims description 40
- 230000002457 bidirectional effect Effects 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 12
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了基于多尺度文本对齐的跨模态检索方法及系统,首先构建包括图像表示模块、文本表示模块和文本对齐模块的整体网络模型,通过图像表示模块和文本表示模块能有效地捕捉不同小目标之间的细微差异,有效地捕获图像与文本之间的细粒度对应关系;通过文本对齐模块对文本与自然的处理,保留了有效文本信息;整体网络模型的目标函数包括三元组损失函数与InfoNCE损失函数,考虑到了文本与图像之间的先验相似性,大大优化了图像与文本的目标函数,增加了跨模态检索的泛化性,使其特别适合应用于遥感图像与文本的跨模态检索。
Description
技术领域
本发明属于计算机智能设别技术领域,涉及一种跨模态遥感检索方法及系统。
背景技术
随着互联网技术和智能设备的发展,社交网络和其他信息平台出现了多种多样的属于不同模态的海量多媒体数据,如文本、语音、音频、图像和视频。
在如今大数据时代下,获取不同模态数据之间的关系,挖掘海量数据中的潜在价值尤为重要。跨模态检索任务旨在视觉图像和语言文本两种不同的媒体数据之间准确的找到相同语义的实例,因此如何弥补视觉图像和语言文本之间存在的“语义鸿沟”是该任务的主要问题。目前,往往利用深度学习方法解决跨模态图像-文本检索问题,常见的做法是直接通过计算图像和文本之间的相似度来进行跨模态图像-文本检索,但是这种方法有三点不足:一是由于图像的多尺度特性,该方法不能有效地捕捉不同小目标之间的细微差异;二是该方法通常将文本与图像粗略对齐,导致与图像相关的有效文本信息丢失;三是该方法的损失函数基本是衡量文本特征向量与遥感图像特征向量的相似性,忽略了文本与图像之间的先验相似性。
发明内容
为了解决背景技术中所述的问题,本发明提出了基于多尺度文本对齐的跨模态检索方法及系统。
本发明的方法包括以下步骤:
S1)采集包括图像和文本的跨模态数据,并将其划分为训练数据集和测试数据集;
S2)构建包括图像表示模块、文本表示模块和文本对齐模块的整体网络模型;所述图像表示模块包括多尺度融合模块和显著区域学习模块,所述文本表示模块包括词编码器、双向GRU网络和多层感知器MLP网络;
S3)在图像表示模块中,先使用多尺度融合模块通过不同卷积核大小的卷积对训练数据集的图像进行采样,然后通过三个Transformer块、两个Patch Merging块、冗余序列过滤模块和全连接层组成的显著区域学习模块对图像进行提取,得到图像特征;
在文本表示模块中,先使用词编码器将训练数据集的文本单词转为词向量表示,然后利用双向GRU网络和多层感知器MLP网络将词向量表示提取出来,得到文本特征向量;
在文本对齐模块中,依据图像特征得到图像特征向量,计算图像特征向量和文本特征向量之间的相似度关系,通过构造注意权重得到对齐后的文本特征向量;
S4)通过图像特征向量、文本特征向量、图像特征向量和文本特征向量之间的相似度关系以及对齐后的文本特征向量对整体网络模型进行训练,计算得出整体网络模型包括三元组损失函数与InfoNCE损失函数在内的目标函数,并使用Adam算法优化更新整体网络模型的初始参数,得到最终整体网络模型;
S5)使用测试数据集对最终整体网络模型进行查询图像相关的文本检索任务和查询文本相关的图像检索任务的验证评估,得到检索召回率R@K;
S6)若检索召回率R@K未达到要求,重复步骤S2)至S5),若检索召回率R@K达到要求,输出最终整体网络模型,将其应用于跨模态检索任务。
进一步地,所述步骤S1)中,图像和文本的跨模态数据包括遥感领域常用的RSICD、RSITMD、UCM和SYDNEY图像-文本数据集,选用80%的图像-文本数据集作为训练数据集,剩余20%作为测试数据集。
更进一步地,所述步骤S2)中,显著区域学习模块的Transformer块采用相同步长,通过4×4卷积核、8×8卷积核、16×16卷积核、32×32卷积核对图像进行采样。
更进一步地,所述步骤S3)的文本表示模块中,词编码器将单词映射到d维空间的公式为:
xj=WG(oj)(j∈[1,J]),
其中,xj表示词嵌入向量,WG表示嵌入矩阵,oj为句子中的单词,J为句子中单词的个数;
之后将词嵌入向量xj输入到双向GRU网络中,公式为:
得到初始文本特征向量uj为:
构造注意权重的公式为:
其中,WIT为注意权重矩阵,θ为Sigmoid函数;
更进一步地,所述步骤S4)中,整体网络模型目标函数的总表达式为:
所述三元组损失函数的公式为:
所述InfoNCE损失函数的公式为:
所述步骤S4)中,Adam算法优化的学习率设置为2*10-4,词向量维度设置为300,批次大小设置为128,学习率的衰减策略为依据验证集的Loss不再下降进行调整;边缘参数α设置为0.2,权重参数γ设置为0.1,参数τ设置为0.1,通过训练整体网络模型从而得到初始参数:权重参数W和偏置参数B。
本发明的系统包括数据采集模块、模型构建模块、模型训练模块和模型验证应用模块。
所述数据采集模块用于采集包括图像和文本的跨模态数据,并将其划分为训练数据集和测试数据集。
所述模型构建模块用于构建包括图像表示模块、文本表示模块和文本对齐模块的整体网络模型,所述图像表示模块包括多尺度融合模块和显著区域学习模块,所述文本表示模块包括词编码器、双向GRU网络和多层感知器MLP网络。
所述模型训练模块中,在图像表示模块中,先使用多尺度融合模块通过不同卷积核大小的卷积对训练数据集的图像进行采样,然后通过三个Transformer块、两个PatchMerging块、冗余序列过滤模块和全连接层组成的显著区域学习模块对图像进行提取,得到图像特征;在图像表示模块中,先使用词编码器将训练数据集的文本单词转为词向量表示,然后利用双向GRU网络和多层感知器MLP网络将词向量表示提取出来,得到文本特征向量;在文本对齐模块中,依据图像特征得到图像特征向量,计算图像特征向量和文本特征向量之间的相似度关系,通过构造注意权重得到对齐后的文本特征向量;最后通过图像特征向量、文本特征向量、图像特征向量和文本特征向量之间的相似度关系以及对齐后的文本特征向量对整体网络模型进行训练,计算得出包括三元组损失函数与InfoNCE损失函数在内的整体网络模型目标函数,并使用Adam算法优化更新整体网络模型的初始参数,得到最终整体网络模型。
所述模型验证应用模块中,使用测试数据集对最终整体网络模型进行查询图像相关的文本检索任务和查询文本相关的图像检索任务的验证评估,得到检索召回率R@K;若检索召回率R@K未达到要求,重复进行模型构建和训练,若检索召回率R@K达到要求,输出最终整体网络模型,将其应用于跨模态检索任务。
本发明还提出了基于多尺度文本对齐的跨模态检索方法的计算机设备,其包括存储器、处理器和存储在存储器中可供处理器运行的程序指令,其中所述处理器执行所述程序指令以实现上述所述方法中的步骤和上述所述的系统。
本发明还提出了一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述所述方法中的步骤和上述所述的系统。
本发明与现有技术相比,将包括图像和文本的跨模态数据划分为训练数据集和测试数据集,然后构建包括图像表示模块、文本表示模块和文本对齐模块的整体网络模型,接着将训练数据集输入整体网络模型的各个模块中,得到图像特征向量、文本特征向量、图像特征向量和文本特征向量之间的相似度关系以及对齐后的文本特征向量,对整体网络模型进行训练,得出整体网络模型的目标函数,并使用Adam算法更新整体网络模型的初始参数,得到最终整体网络模型,最终整体网络模型评估达到要求后即可应用于跨模态检索任务。本发明提出的方法通过图像表示模块和文本表示模块能有效地捕捉不同小目标之间的细微差异,有效地捕获图像与文本之间的细粒度对应关系;通过文本对齐模块对文本与自然的处理,保留了有效文本信息;整体网络模型的目标函数包括三元组损失函数与InfoNCE损失函数,考虑到了文本与图像之间的先验相似性,大大优化了图像与文本的目标函数,增加了跨模态检索任务的泛化性,使其特别适合应用于遥感图像与文本的跨模态检索。
附图说明
图1为本发明的方法流程图和系统架构图。
图2为本发明的系整体网络模型的训练流程图。
具体实施方式
下面结合附图详细说明本发明的实施情况,但它们并不构成对本发明的限定,仅做举例而已,同时通过说明,将更加清楚地理解本发明的优点。本领域的普通的技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。实施例中所述的位置关系均与附图所示一致,实施例中其他未详细说明的部分均为现有技术。
本发明提出了基于多尺度文本对齐的跨模态检索方法,流程图如图1所示,具体步骤如下:
S1)采集包括图像和文本的跨模态数据,并将其划分为训练数据集和测试数据集。
其中,图像和文本的跨模态数据包括遥感领域常用的RSICD、RSITMD、UCM和SYDNEY图像-文本数据集,选用80%的图像-文本数据集作为训练数据集,剩余20%作为测试数据集。
S2)构建包括图像表示模块、文本表示模块和文本对齐模块的整体网络模型,其中,图像表示模块包括多尺度融合模块和显著区域学习模块,文本表示模块包括词编码器、双向GRU网络和多层感知器MLP网络。
其中,文本对齐模块是基于图像引导构建的。显著区域学习模块的Transformer块采用相同步长,通过4×4卷积核、8×8卷积核、16×16卷积核、32×32卷积核对图像进行采样。
S3)在图像表示模块中,先使用多尺度融合模块通过不同卷积核大小的卷积对训练数据集的图像进行采样,然后通过三个Transformer块、两个Patch Merging块、冗余序列过滤模块和全连接层组成的显著区域学习模块对图像进行提取,得到图像特征。
在文本表示模块中,先使用词编码器将训练数据集的文本单词转为词向量表示,然后利用双向GRU网络和多层感知器MLP网络将词向量表示提取出来,得到文本特征向量。
在文本对齐模块中,依据图像特征得到图像特征向量,计算图像特征向量和文本特征向量之间的相似度关系,通过构造注意权重得到对齐后的文本特征向量。
具体地,在文本表示模块中,词编码器将单词映射到d维空间的公式为:
xj=WG(oj)(j∈[1,J]),
其中,xj表示词嵌入向量,WG表示嵌入矩阵,oj为句子中的单词,J为句子中单词的个数;
之后将词嵌入向量xj输入到双向GRU网络中,公式为:
得到初始文本特征向量uj为:
构造注意权重的公式为:
其中,WIT为注意权重矩阵,θ为Sigmoid函数;
S4)通过图像特征向量、文本特征向量、图像特征向量和文本特征向量之间的相似度关系以及对齐后的文本特征向量对整体网络模型进行训练,计算得出包括三元组损失函数与InfoNCE损失函数在内的整体网络模型目标函数,并使用Adam算法优化更新整体网络模型的初始参数,得到最终整体网络模型。
整体网络模型的训练流程图如图2所示。
具体地,整体网络模型的目标函数的总表达式为:
三元组损失函数的公式为:
InfoNCE损失函数的公式为:
Adam算法优化中,学习率设置为2*10,词向量维度设置为300,批次大小设置为128,学习率的衰减策略为依据验证集的Loss不再下降进行调整;边缘参数α设置为0.2,权重参数γ设置为0.1,参数τ设置为0.1,通过训练整体网络模型从而得到初始参数:权重参数W和偏置参数B。
S5)使用测试数据集对最终整体网络模型进行查询图像相关的文本检索任务和查询文本相关的图像检索任务的验证评估,得到检索召回率R@K。
S6)若检索召回率R@K未达到要求,重复上述步骤,若检索召回率R@K达到要求,输出最终整体网络模型,将其应用于跨模态检索任务。
一般地,本发明的检索召回率R@K要求大于传统的跨模态检索方法的检索召回率R@K即可。
本发明还提出了基于多尺度文本对齐的跨模态检索系统,如图1所示,由数据采集模块、模型构建模块、模型训练模块和模型验证应用模块组成。
数据采集模块用于采集包括图像和文本的跨模态数据,并将其划分为训练数据集和测试数据集。
模型构建模块用于构建包括图像表示模块、文本表示模块和文本对齐模块的整体网络模型,所述图像表示模块包括多尺度融合模块和显著区域学习模块,所述文本表示模块包括词编码器、双向GRU网络和多层感知器MLP网络。
模型训练模块中,在图像表示模块中,先使用多尺度融合模块通过不同卷积核大小的卷积对训练数据集的图像进行采样,然后通过三个Transformer块、两个PatchMerging块、冗余序列过滤模块和全连接层组成的显著区域学习模块对图像进行提取,得到图像特征;在图像表示模块中,先使用词编码器将训练数据集的文本单词转为词向量表示,然后利用双向GRU网络和多层感知器MLP网络将词向量表示提取出来,得到文本特征向量;在文本对齐模块中,依据图像特征得到图像特征向量,计算图像特征向量和文本特征向量之间的相似度关系,通过构造注意权重得到对齐后的文本特征向量;最后通过图像特征向量、文本特征向量、图像特征向量和文本特征向量之间的相似度关系以及对齐后的文本特征向量对整体网络模型进行训练,计算得出包括三元组损失函数与InfoNCE损失函数在内的整体网络模型目标函数,并使用Adam算法优化更新整体网络模型的初始参数,得到最终整体网络模型。
模型验证应用模块中,使用测试数据集对最终整体网络模型进行查询图像相关的文本检索任务和查询文本相关的图像检索任务的验证评估,得到检索召回率R@K;若检索召回率R@K未达到要求,重复进行模型构建和训练,若检索召回率R@K达到要求,输出最终整体网络模型,将其应用于跨模态检索任务。
该系统中部各个模块的具体实现过程见上述方法中所述,此处不再赘述。
基于上述方法和系统,本发明还提出了基于多尺度文本对齐的跨模态检索方法的计算机设备,其包括存储器、处理器和存储在存储器中可供处理器运行的程序指令,其中所述处理器执行所述程序指令以实现上述所述方法中的步骤和上述所述的系统。本发明还提出了一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述所述方法中的步骤和上述所述的系统。
为了评估本发明方法的有效性,将本发明方法与传统的跨模态检索方法进行了比较,传统的跨模态检索方法有:VSE++、SCAN t2i、SCAN i2t、CAMP-triplet、CAMP-bce、MTFN、LW-MCR和AMFMN。
采用RSICD、RSITMD、UCM和SYDNEY图像-文本数据集。传统的跨模态检索方法中,VSE++分别通过VGG19网络和双向GRU提取图像和文本特征,再利用对比损失进行模型学习,SCAN t2i、SCAN i2t、CAMP-triplet、CAMP-bce、MTFN、LW-MCR和AMFMN方法按原文执行。
表1是本发明与传统的跨模态检索方法在RSICD数据集上跨模态检索任务的比较实验结果;表2是本发明与传统的跨模态检索方法在RSITMD数据集上跨模态检索任务的比较实验结果;表3是本发明与传统的跨模态检索方法在UCM数据集上跨模态检索任务的比较实验结果;表4是本发明与传统的跨模态检索方法在SYDNEY数据集上跨模态检索任务的比较实验结果;其中R@K为检索召回率,MR表示多个R@K的平均值。从表1-表4的结果可知,本发明的检索召回率R@K均高于传统的跨模态检索方法。
表1
表2
表3
表4
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.基于多尺度文本对齐的跨模态检索方法,其特征在于,包括以下步骤:
S1)采集包括图像和文本的跨模态数据,并将其划分为训练数据集和测试数据集;
S2)构建包括图像表示模块、文本表示模块和文本对齐模块的整体网络模型,所述图像表示模块包括多尺度融合模块和显著区域学习模块,所述文本表示模块包括词编码器、双向GRU网络和多层感知器MLP网络;
S3)在图像表示模块中,先使用多尺度融合模块通过不同卷积核大小的卷积对训练数据集的图像进行采样,然后通过三个Transformer块、两个Patch Merging块、冗余序列过滤模块和全连接层组成的显著区域学习模块对图像进行提取,得到图像特征;
在文本表示模块中,先使用词编码器将训练数据集的文本单词转为词向量表示,然后利用双向GRU网络和多层感知器MLP网络将词向量表示提取出来,得到文本特征向量;
在文本对齐模块中,依据图像特征得到图像特征向量,计算图像特征向量和文本特征向量之间的相似度关系,通过构造注意权重得到对齐后的文本特征向量;
S4)通过图像特征向量、文本特征向量、图像特征向量和文本特征向量之间的相似度关系以及对齐后的文本特征向量对整体网络模型进行训练,计算得出包括三元组损失函数与InfoNCE损失函数在内的整体网络模型目标函数,并使用Adam算法优化更新整体网络模型的初始参数,得到最终整体网络模型;
S5)使用测试数据集对最终整体网络模型进行查询图像相关的文本检索任务和查询文本相关的图像检索任务的验证评估,得到检索召回率R@K;
S6)若检索召回率R@K未达到要求,重复步骤S2)至S5),若检索召回率R@K达到要求,输出最终整体网络模型,将其应用于跨模态检索任务。
2.根据权利要求1所述的基于多尺度文本对齐的跨模态检索方法,其特征在于:所述步骤S1)中,图像和文本的跨模态数据包括遥感领域常用的RSICD、RSITMD、UCM和SYDNEY图像-文本数据集,选用80%的图像-文本数据集作为训练数据集,剩余20%作为测试数据集。
3.根据权利要求2所述的基于多尺度文本对齐的跨模态检索方法,其特征在于:所述步骤S2)中,显著区域学习模块的Transformer块采用相同步长,通过4×4卷积核、8×8卷积核、16×16卷积核、32×32卷积核对图像进行采样。
7.根据权利要求6所述的基于多尺度文本对齐的跨模态检索方法,其特征在于:所述步骤S4)中,Adam算法优化的学习率设置为2*10-4,词向量维度设置为300,批次大小设置为128,学习率的衰减策略为依据验证集的Loss不再下降进行调整;边缘参数α设置为0.2,权重参数γ设置为0.1,参数τ设置为0.1,通过训练整体网络模型从而得到初始参数:权重参数W和偏置参数B。
8.基于多尺度文本对齐的跨模态检索系统,其特征在于:包括数据采集模块、模型构建模块、模型训练模块和模型验证与应用模块;
所述数据采集模块用于采集包括图像和文本的跨模态数据,并将其划分为训练数据集和测试数据集;
所述模型构建模块用于构建包括图像表示模块、文本表示模块和文本对齐模块的整体网络模型,所述图像表示模块包括多尺度融合模块和显著区域学习模块,所述文本表示模块包括词编码器、双向GRU网络和多层感知器MLP网络;
所述模型训练模块中,在图像表示模块中,先使用多尺度融合模块通过不同卷积核大小的卷积对训练数据集的图像进行采样,然后通过三个Transformer块、两个PatchMerging块、冗余序列过滤模块和全连接层组成的显著区域学习模块对图像进行提取,得到图像特征;在图像表示模块中,先使用词编码器将训练数据集的文本单词转为词向量表示,然后利用双向GRU网络和多层感知器MLP网络将词向量表示提取出来,得到文本特征向量;在文本对齐模块中,依据图像特征得到图像特征向量,计算图像特征向量和文本特征向量之间的相似度关系,通过构造注意权重得到对齐后的文本特征向量;最后通过图像特征向量、文本特征向量、图像特征向量和文本特征向量之间的相似度关系以及对齐后的文本特征向量对整体网络模型进行训练,计算得出包括三元组损失函数与InfoNCE损失函数在内的整体网络模型目标函数,并使用Adam算法优化更新整体网络模型的初始参数,得到最终整体网络模型;
所述模型验证应用模块中,使用测试数据集对最终整体网络模型进行查询图像相关的文本检索任务和查询文本相关的图像检索任务的验证评估,得到检索召回率R@K;若检索召回率R@K未达到要求,重复进行模型构建和训练,若检索召回率R@K达到要求,输出最终整体网络模型,将其应用于跨模态检索任务。
9.基于多尺度文本对齐的跨模态检索方法的计算机设备,其包括存储器、处理器和存储在存储器中可供处理器运行的程序指令,其中所述处理器执行所述程序指令以实现权利要求1至7中任一项所述方法中的步骤和权利要求8所述系统。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法和权利要求8所述系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310037420.6A CN116257609A (zh) | 2023-01-09 | 2023-01-09 | 基于多尺度文本对齐的跨模态检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310037420.6A CN116257609A (zh) | 2023-01-09 | 2023-01-09 | 基于多尺度文本对齐的跨模态检索方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116257609A true CN116257609A (zh) | 2023-06-13 |
Family
ID=86681995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310037420.6A Pending CN116257609A (zh) | 2023-01-09 | 2023-01-09 | 基于多尺度文本对齐的跨模态检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116257609A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117195903A (zh) * | 2023-11-07 | 2023-12-08 | 北京新广视通科技集团有限责任公司 | 基于噪声感知的生成式、多模态实体关系抽取方法及系统 |
-
2023
- 2023-01-09 CN CN202310037420.6A patent/CN116257609A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117195903A (zh) * | 2023-11-07 | 2023-12-08 | 北京新广视通科技集团有限责任公司 | 基于噪声感知的生成式、多模态实体关系抽取方法及系统 |
CN117195903B (zh) * | 2023-11-07 | 2024-01-23 | 北京新广视通科技集团有限责任公司 | 基于噪声感知的生成式、多模态实体关系抽取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109858555B (zh) | 基于图像的数据处理方法、装置、设备及可读存储介质 | |
CN110555399B (zh) | 手指静脉识别方法、装置、计算机设备及可读存储介质 | |
CN110503076B (zh) | 基于人工智能的视频分类方法、装置、设备和介质 | |
CN111027576B (zh) | 基于协同显著性生成式对抗网络的协同显著性检测方法 | |
CN113344206A (zh) | 融合通道与关系特征学习的知识蒸馏方法、装置及设备 | |
CN113592007B (zh) | 一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质 | |
CN115146068B (zh) | 关系三元组的抽取方法、装置、设备及存储介质 | |
TWI803243B (zh) | 圖像擴增方法、電腦設備及儲存介質 | |
CN114528912A (zh) | 基于渐进式多模态融合网络的虚假新闻检测方法及系统 | |
CN114707589B (zh) | 对抗样本的生成方法、装置、存储介质、设备及程序产品 | |
CN116257609A (zh) | 基于多尺度文本对齐的跨模态检索方法及系统 | |
CN114692750A (zh) | 一种细粒度图像分类方法、装置、电子设备及存储介质 | |
CN116578738B (zh) | 一种基于图注意力和生成对抗网络的图文检索方法和装置 | |
CN117951308A (zh) | 一种零样本知识图谱补全方法及装置 | |
CN117786058A (zh) | 一种多模态大模型知识迁移框架的构建方法 | |
CN117421639A (zh) | 多模态数据分类方法、终端设备及存储介质 | |
CN113569094A (zh) | 视频推荐方法、装置、电子设备及存储介质 | |
CN115859964B (zh) | 基于教育云平台的教育资源共享方法及系统 | |
US10957017B1 (en) | Synthetic image detector | |
CN117011219A (zh) | 物品质量检测方法、装置、设备、存储介质和程序产品 | |
CN113434721B (zh) | 表情包分类方法、装置、计算机设备和存储介质 | |
CN113850301B (zh) | 训练数据的获取方法和装置、模型训练方法和装置 | |
CN115731588B (zh) | 模型处理方法及装置 | |
CN114708467B (zh) | 基于知识蒸馏的不良场景识别方法及系统及设备 | |
CN116911268B (zh) | 一种表格信息处理方法、装置、处理设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |