CN116304307A

CN116304307A - 一种图文跨模态检索网络训练方法、应用方法及电子设备

Info

Publication number: CN116304307A
Application number: CN202310126780.3A
Authority: CN
Inventors: 于蒙; 靳志波; 樊成; 刘源; 冀晓婧; 李文锋; 陈宇; 张夏斌; 马正祥; 王腾飞; 刘虎
Original assignee: Tianzhu Science & Technology Co ltd; Wuhan University of Technology WUT; Zhengzhou University of Aeronautics
Current assignee: Tianzhu Science & Technology Co ltd; Wuhan University of Technology WUT; Zhengzhou University of Aeronautics
Priority date: 2023-02-10
Filing date: 2023-02-10
Publication date: 2023-06-23

Abstract

本发明涉及一种图文跨模态检索网络训练方法、应用方法及电子设备,包括：获取图文训练数据集；构建由图像嵌入器、文本嵌入器和图文组合模块组成的图文跨模态检索网络模型；将图文训练数据集作为所述图文跨模态检索网络的输入，依次按照图像不变而文本掩码建模操作、文本不变而图像掩码建模操作、图像文本匹配操作、语义对齐处理操作并迭代训练所述图文跨模态检索网络，得到训练完备的图文跨模态检索网络。本发明基于图像嵌入器、文本嵌入器和图文组合模块将语义信息表示为稠密低纬实值向量，提取数据中的细粒度语义信息；并通过图像文本匹配操作和语义对齐处理操作计算实体和关系的语义联系，实现模态数据之间实体和关系层面上的语义对齐问题。

Description

一种图文跨模态检索网络训练方法、应用方法及电子设备

技术领域

本发明涉及信息检索领域，具体涉及一种图文跨模态检索网络训练方法、应用方法及电子设备。

背景技术

如今，随着互联网技术的快速发展，多媒体网络的各种信息出现了爆炸式增长，人们接收到的信息已经不仅仅局限于文本、图像、声音或视频等单独一种形态的信息，而是多种类型的数据来描述同一物体或同一事件，每种不同类型的数据都可以看作是一种模态。对于常见的图像文本组合的信息，在进行跨模态数据检索的时候，由于不同模态数据的分布特性以及特征表示不一致，现有的跨模态检索方法主要是为不同模态的数据学习统一空间，即将不同模态的特征表示从原始的单模态空间映射到跨模态统一空间，获得可以直接度量跨模态相似性的统一表征。但现有方法主要关注对图像、文本等数据的全局特征学习，而忽略了这些数据中的细粒度语义信息，且无法实现模态数据之间实体乃至关系层面上的语义对齐。

发明内容

有鉴于此，有必要提供一种图文跨模态检索网络训练方法、应用方法及电子设备，用于解决现有技术中，忽略了数据中包含的细粒度语义信息，无法实现模态数据之间实体和关系层面上的语义对齐问题。

为了解决上述问题，本发明提供了一种图文跨模态检索网络训练方法，包括：

获取图文训练数据集；

构建由图像嵌入器、文本嵌入器和图文组合模块组成的图文跨模态检索网络模型；

将图文训练数据集作为所述图文跨模态检索网络的输入，依次按照图像不变而文本掩码建模操作、文本不变而图像掩码建模操作、图像文本匹配操作、语义对齐处理操作并迭代训练所述图文跨模态检索网络，得到训练完备的图文跨模态检索网络。

进一步的，所述图像嵌入器用于对所述图文训练数据集的输入图像进行切片操作得到切片块，编码各切片块并获取各切片块视觉特征向量和位置信息，得到图像输入；

所述文本嵌入器用于对所述图文训练数据集的输入文本进行划分词元操作，编码文本词元并获取每个词元的词嵌入和位置信息，得到文本输入；

所述图文组合模块用于将图像输入和文本输入进行组合得到联合输入，所述联合输入包括将任一图像输入与所有文本输入进行配对组成图像文本对，规定其中相符的图像文本对为正样本，不相符的为负样本，且任一图像输入或文本输入都只有唯一正样本。

进一步的，所述图像不变而文本掩码建模操作，包括：

保持所述图文训练集的图像输入不变，随机掩码部分文本输入，所述被掩码部分文本采取标记、替换或不变的处理；

基于未被掩码处理的文本输入和所有图像输入的交互观察，并以最小化负对数似然函数作为损失函数，训练图文跨模态检索网络模型以预测被掩码的文本输入。

进一步的，所述文本不变而图像掩码建模操作包括：

保持所述图文训练集的文本输入不变，随机掩码部分图像输入，所述被掩码图像输入用零向量替换视觉特征向量；

基于未被掩码处理的图像输入和所有文本输入的交互观察，并以最小化交叉熵损失函数作为损失函数，训练图文跨模态检索网络模型以重建被掩码的图像输入。

进一步的，所述图像文本匹配操作包括：

创建特殊词元输入到所述图文跨模态检索网络，并以所述特殊词元通过图文跨模态检索网络的输出作为联合输入的正样本；

随机替换正样本中的图像输入或文本输入得到负样本对，采用最小化交叉熵损失函数作为损失函数，训练图文跨模态检索网络模型并通过全连接层和激活函数，得到输入图像文本对的匹配分数，且通过正样本对的匹配分数高于负样本对的匹配分数以保持图像输入和文本输入的实例级对齐。

进一步的，创建特殊词元包括：

随机初始化一个与图像输入或文本输入相同维度的初始化向量，并将所述初始化向量与图像文本对拼接后输入到图文跨模态检索网络，通过自注意力分析对初始化向量进行训练优化后得到所述特殊词元。

进一步的，所述语义对齐处理操作包括：

采样正样本进行训练，通过自注意力权重分析文本输入和图像输入之间的对应关系，并利用文本输入自注意力去校准图像输入，以文本输入和图像输入对齐校准两个模态间的注意力分布，保持实体和对应关系的语义对齐，并采用KL散度函数作为损失函数。

进一步的，所述迭代训练所述图文跨模态检索网络，得到训练完备的图文跨模态检索网络包括：

将所述特殊词元输入所述图文跨模态检索网络，得到所述特殊词元通过图文跨模态检索网络的输出作为联合输入的正样本，通过所述全连接层和激活函数，得到输入图像文本对的匹配分数；

迭代训练所有的样本对并学习所述样本对的匹配分数，并采用最小化二元交叉熵函数作为损失函数，直至损失不再降低，训练得到完备的图文跨模态检索网络。

本发明还提供了一种图文跨模态检索网络应用方法，包括：

获取待检索图像或文本；

将待检索图像或文本输入到训练完备的图文跨模态检索网络，检索相似图像和文本，其中，所述训练完备的图文跨模态检索网络根据上述任一项所述的图文跨模态检索网络训练方法确定；

图文跨模态检索网络输出得到相似图像和文本。

本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时，实现如上述任一项所述的图文跨模态检索网络训练方法，和/或如上述的图文跨模态检索网络应用方法。

与现有技术相比，采用上述实施例的有益效果是：本发明通过图像嵌入器和文本嵌入器以及图文组合模块将研究对象的语义信息表示为稠密低纬实值向量，并通过图像文本匹配操作和语义对齐处理操作在低纬空间高效计算实体和关系的语义联系。以此解决在跨模态检索过程中，忽略了数据中包含的细粒度语义信息，无法实现模态数据之间实体和关系层面上的语义对齐问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中需要使用的附图作简单地介绍，显然，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的图文跨模态检索网络训练方法的一个实施例的流程示意图；

图2为本发明提供的一个实施例的图文跨模态检索网络结构示意图；

图3为本发明提供的图文跨模态检索网络应用方法的一个实施例的流程示意图；

图4为本发明提供的电子设备的一个实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所以其他实施例，都属于本发明保护的范围。

应当理解，示意图的附图并未按实物比例绘制。本发明中使用的流程图示出了根据本发明的一些实施例实现的操作。应当理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本发明内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器系统和/或微控制器系统中实现这些功能实体。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

图1为本发明提供的图文跨模态检索网络训练方法的一个实施例流程示意图，如图1所示，图文跨模态检索网络训练方法包括：

S101、获取图文训练数据集；

S102、构建由图像嵌入器、文本嵌入器和图文组合模块组成的图文跨模态检索网络模型；

S103、将图文训练数据集作为所述图文跨模态检索网络的输入，依次按照图像不变而文本掩码建模操作、文本不变而图像掩码建模操作、图像文本匹配操作、语义对齐处理操作并迭代训练所述图文跨模态检索网络，得到训练完备的图文跨模态检索网络。

在本发明提供的图文跨模态检索网络中，通过构建图像嵌入器、文本嵌入器和图文组合模块，将研究对象的语义信息表示为稠密低纬实值向量，提取数据中的细粒度语义信息，并通过图像文本匹配操作和语义对齐处理操作计算实体和关系的语义联系，实现模态数据之间实体和关系层面上的语义对齐。

在本发明的一个具体实施例中，所述图像嵌入器用于对所述图文训练数据集的输入图像进行切片操作得到切片块，编码各切片块并获取各切片块视觉特征向量和位置信息，得到图像输入；

图文组合模块用于将图像输入和文本输入进行组合得到联合输入，所述联合输入包括将任一图像输入与所有文本输入进行配对组成图像文本对，规定其中相符的图像文本对为正样本，不相符的为负样本，且任一图像输入或文本输入都只有唯一正样本。

具体的，本发明实施例中使用的数据集样本通过预处理选取其中图像数据和文本数据作为初始数据，并通过URL匹配算法排除数据集中重复的数据后，根据实施例的检索模型输入要求，将数据集中图像归一化处理为224*224*3格式的图像得到图文训练数据集。

如图2所示，图文跨模态检索网络200由图像嵌入器201、文本嵌入器202和图文组合模块203组成，图像嵌入器201将输入的统一形状的图像切分为16*16大小的切片块，切片块数目固定为196，并用线性投影的方法提取每个切片块的视觉特征，再通过一个7维向量L＝[x₁,y₁,x₂,y₂,w,h,w*h](标准化的上/下/左/右坐标、宽度、高度和面积)对每个切片块的初始位置进行编码。再将视觉特征和位置编码各自通过一个全连接层，将两个全连接层的输出相加并归一化后得到图像输入V＝[v₁,v₂,…,v₁₉₆]。

文本嵌入器202通过构建一个文本词表，并将单词标记映射到从0开始的数字索引中，将输入的文本句子通过词表标记为单个的词元，再将词元分别通过一个嵌入层得到词元及其位置特征的嵌入相加，并归一化后得到文本输入W＝[w₁,w₂,…,w_n]，其中n为词元个数。

图文组合模块203则将图像输入和文本输入进行组合作为联合输入，并将其中任一图像与每个文本都进行配对组成图像文本对，并规定其中相符的为正样本，不相符的为负样本；然后利用标准的Transformer编码器处理每个图像文本对对应的联合输入，其中编码器个数为12，向量维度为768，自注意头数为12，并在联合输入中增加额外的片段区分图像输入和文本输入，在连续多个编码器块中，通过多头自注意力机制学习每个图像切片块和每个词元的联合上下文表示。

在本发明的具体实施例中，所述图像不变而文本掩码建模操作，包括：

具体的，保持输入的图像切片块完整，从输入文本中以15％的概率随机选取部分词元进行掩码，被掩码的词元有10％的概率被替换成其他词元、10％的概率保持不变、80％的概率使用一个特殊标记[MASK]进行表示。通过剩余未被掩码的文本输入和所有图像输入训练图文跨模态检索网络模型以预测被掩码的词元，并在训练过程中，采用以下的最小化负对数似然函数作为损失函数：

L＝-E_(W,V)～D log P(W_m|W_\m,V)

其中，W表示文本，V表示图像，m表示文本词表中被掩码的词元的索引集合，W_m表示被掩码的词元，W_\表示其余未被掩码的词元，(W，V)表示采样于整个图文训练数据集的图像文本对。

在本发明的具体实施例中，所述文本不变而图像掩码建模操作包括：

具体的，保持输入的文本各词元完整，从输入中以15％的概率随机掩码图像切片块，被掩码的图像切片块用零向量替换其视觉特征向量。通过剩余未被掩码的图像输入和所有文本输入训练图文跨模态检索网络模型以重建被掩码的图像输入，并采用以下的最小化交叉熵损失函数作为训练过程中的损失函数：

其中，m表示被掩码图像切片块的数目，

表示第i个掩码部分的模型输出，

表示第i个掩码图像切片块的标签，为掩码图像切片块未遮盖时所含对象类别；

表示第i个掩码图像切片块对应输出属于各图像切片所含对象的概率，并将/>

经过全连接层及softmax函数得到归一化分布；CE表示交叉熵损失函数。

在本发明的具体实施例中，所述图像文本匹配操作包括：

在本发明的具体实施例中，创建特殊词元包括：

具体的，随机初始化一个与图像输入或文本输入特征维度相同的单个初始化向量，并将初始化向量与图像文本对拼接在一起输入到图文跨模态检索网络进行训练，并通过Transformer编码器的自注意力机制不断对初始化向量进行针对性的训练优化得到特殊词元[CLS]。

提取特殊词元[CLS]通过图文跨模态检索网络的输出作为输入图像文本对的联合表示的正样本，并从其他图像文本对中随机选择一个样本替换正样本对中的图像或文本来创建负样本对；训练时同时采样正和负图像文本对，并将输出通过一个全连接层和sigmoid函数，得到图像文本对的匹配分数，记作s(w，v)；学习它们的匹配分数，使得正样本对分数尽可能高，负样本对分数尽可能低，以实现整个输入图像和文本的实例级对齐，并采用以下最小化二元交叉熵函数作为训练过程中的损失函数：

L＝-E_(,)～D[ylogs(W,V)+(1-)log(1-(W,V))]

在本发明的具体实施例中，语义对齐处理操作包括：

具体的，采样正样本的图像文本对作为训练样本，通过图文跨模态检索模型训练生成自注意力权重以分析文本输入各词元和图像输入各切片块的对应关系，查找与各词元对应的图像切片块。在训练过程中，由于图像信息冗余存在噪声，使用利用文本输入自注意力去校准图片输入，并以文本输入和图像输入对齐校准两个模态的注意力分布，以此实现实体和对应关系层面上的语义对齐。在本训练过程中，采用以下KL散度函数作为损失函数：

其中，n表示文本输入的词元个数，

表示第i个词元的文本自注意力权重，/>

表示第i个词元的文本自注意力权重的视觉表示，D_KL表示KL散度。

在本发明的具体实施例中，迭代训练所述图文跨模态检索网络，得到训练完备的图文跨模态检索网络包括：

具体的，提取特殊词元[CLS]通过图文跨模态检索网络的输出作为输入图像文本对的联合表示，将其通过一个全连接层和sigmoid函数，得到输入图像文本对的匹配分数，记作s(w，v)。获取图文训练数据集和实际检索任务对应的数据集中所有的图像文本对，以最小化二元交叉熵函数作为损失函数，训练图文训练数据集中所有的样本对，并学习它们的匹配分数，不断训练优化直至损失不再降低，得到完备的图文跨模态检索网络。

综上，本发明提供的图文跨模态检索网络训练方法基于图像嵌入器、文本嵌入器和图文组合模块将语义信息表示为稠密低纬实值向量，提取数据中的细粒度语义信息；并通过图像文本匹配操作和语义对齐处理操作计算实体和关系的语义联系，实现模态数据之间实体和关系层面上的语义对齐。

本发明实施例还提供了一种图文跨模态检索网络应用方法，结合图3来看，图3为本发明提供的图文跨模态检索网络应用方法的一个实施例的流程示意图，包括步骤S301至步骤S303，其中：

S301、获取待检索图像或文本；

S302、将待检索图像或文本输入到训练完备的图文跨模态检索网络，检索相似图像和文本，其中，所述训练完备图文跨模态检索网络根据如上所述的图文跨模态检索网络训练方法确定；

S303、图文跨模态检索网络输出得到相似图像和文本。

在本发明实施例中，首先，对待检索图像或文本进行有效的获取；然后利用上述训练完备的图文跨模态检索网络对待检索图像或文本进行有效的识别，对其进行跨模态检索，即可输出对应的相似图像和文本。

下面将结合一个具体的应用场景，更清楚地说明本发明的技术方法，同时评估本发明的有效性，具体流程如下：

一、数据集的准备：

获取大规模数据集COCO、Visual Genome(VG)和Conceptual(CC)，选取其中图像文本数据组成图像文本对作为初始数据集；合并个数据集原始分割的训练集和验证集，利用URL匹配算法排除各数据集中重复的数据；并按照图文跨模态检索网络的输入要求，将初始数据集中图像形状归一化为244*244*3，得到图文训练数据集。

二、应用过程：

根据上述的图文跨模态检索网络训练方法的具体实施例，初始模型为标准的Transformer编码器架构，编码器个数为12，向量维度为768，自注意力头数为12，并增加额外的片段嵌入区分图像输入和文本输入；使用图文训练数据集中提取的图像文本对训练图文跨模态检索网络，直至损失不再降低，得到训练好的图文跨模态检索网络。

将待检索图像或文本输入到图文跨模态检索网络，输出得到相似图像和文本。

本发明还提供了一种电子设备，如图4所示，图4为本发明提供的电子设备一实施例的结构示意图，电子设备400包括存储器401、处理器402及存储在存储器401上并可在处理器402上运行的计算机程序，处理器402执行程序时，实现如上所述的图文跨模态检索网络训练方法，和/或如上所述的医学图像检索网络应用方法。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器401中，并由处理器402执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在电子设备400中的执行过程。

电子设备400可以是桌上型计算机、笔记本、掌上电脑或智能手机等设备。

其中，存储器401可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，安全数字(Secure Digital，SD卡)，闪存卡(Flash Card)等。其中，存储器401用于存储程序，所述处理器402在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流程定义的方法可以应用于处理器402中，或者由处理器402实现。

其中，处理器402可能是一种集成电路芯片，具有信号的处理能力。上述的处理器402可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器也可以是微处理器或者该处理器也可以是任何常规的处理器等。

可以理解的是，图4所示的结构仅为电子设备400的一种结构示意图，电子设备400还可以包括比图4所示更多或更少的组件。图4中所示的各组件可以采用硬件、软件或其组合实现。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种图文跨模态检索网络训练方法，其特征在于，包括：

获取图文训练数据集；

2.根据权利要求1所述的图文跨模态检索网络训练方法，其特征在于：

所述图像嵌入器用于对所述图文训练数据集的输入图像进行切片操作得到切片块，编码各切片块并获取各切片块视觉特征向量和位置信息，得到图像输入；

3.根据权利要求2所述的图文跨模态检索网络训练方法，其特征在于，所述图像不变而文本掩码建模操作，包括：

4.根据权利要求3所述的图文跨模态检索网络训练方法，其特征在于，所述文本不变而图像掩码建模操作包括：

5.根据权利要求4所述的图文跨模态检索网络训练方法，其特征在于，所述图像文本匹配操作包括：

6.根据权利要求5所述的图文跨模态检索网络训练方法，其特征在于，创建特殊词元包括：

7.根据权利要求6所述的图文跨模态检索网络训练方法，其特征在于，所述语义对齐处理操作包括：

8.根据权利要求7所述的图文跨模态检索网络训练方法，其特征在于，所述迭代训练所述图文跨模态检索网络，得到训练完备的图文跨模态检索网络包括：

9.一种图文跨模态检索网络应用方法，其特征在于，包括：

获取待检索图像或文本；

将待检索图像或文本输入到训练完备的图文跨模态检索网络，检索相似图像和文本，其中，所述训练完备的图文跨模态检索网络根据权利要求1至8任一项所述的图文跨模态检索网络训练方法确定；

图文跨模态检索网络输出得到相似图像和文本。

10.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时，实现如权利要求1至8任一项所述的图文跨模态检索网络训练方法，和/或如权利要求9所述的图文跨模态检索网络应用方法。