CN113220919A

CN113220919A - 一种大坝缺陷图像文本跨模态检索方法及模型

Info

Publication number: CN113220919A
Application number: CN202110535542.9A
Authority: CN
Inventors: 毛莺池; 陈静; 汪强; 黄倩; 李然; 王龙宝; 方晗; 陈豪; 卢俊; 钟鸣; 李玲; 付琨; 夏旭东; 陈智祥; 张洪伟; 罗松
Original assignee: Hohai University HHU; Huaneng Group Technology Innovation Center Co Ltd; Huaneng Lancang River Hydropower Co Ltd
Current assignee: Hohai University HHU; Huaneng Group Technology Innovation Center Co Ltd; Huaneng Lancang River Hydropower Co Ltd
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2021-08-06
Anticipated expiration: 2041-05-17
Also published as: WO2022242388A1; CN113220919B

Abstract

本发明公开一种基于交叉注意力的大坝缺陷图像文本跨模态检索方法，包括：1)文本‑图像特征提取；2)文本‑图像交互特征提取，将图像特征图和文本特征向量输入到交叉注意力模块，提取每个图像特征图和整段文本的交互特征矩阵；3)文本‑图像特征图全局相似度计算，将交互特征矩阵使用余弦相似度计算得到相似矩阵，然后从文本检索和图像检索两个任务出发分别计算全局相似度，文本检索任务中，计算全局相似度时质量较高的图像特征图赋予更高的权重；4)最小化损失函数优化训练结果：采用改进的铰链三元排序函数作为损失函数，最小化排序函数来优化训练结果。本发明在大坝图像检索文本和大坝缺陷描述文本检索图像任务中取得了较好的检索效果。

Description

一种大坝缺陷图像文本跨模态检索方法及模型

技术领域

本发明涉及一种基于交叉注意力的大坝缺陷图像文本跨模态检索方法及模型，具体是一种对输入大坝缺陷图像检索描述文本或输入大坝描述文本检索缺陷图像，属于跨模态检索技术领域。

背景技术

我国是世界上拥有水库大坝最多的国家之一。大坝的日益老化与环境、灾害等因素的影响导致了缺陷的形成，危害坝体安全。定期巡检是维护大坝工程安全的重要措施，现有的巡检方法主要为人工巡检。巡检人员在巡检过程中会拍摄缺陷图像、记录缺陷描述文本，跨模态检索任务能够充分利用已有数据，回溯历史记录，辅助巡检人员判断与决策。

近年来，图像处理、自然语言处理以及图像-文本跨模态检索领域的发展，为大坝缺陷图像检索文本、文本检索图像提供技术支持。在图像-文本跨模态检索领域，最初通过构建图像-文本联合嵌入空间，比较图像-文本全局特征相似度进行检索，但没有考虑利用图像或文本局部显著特征减少不重要区域影响。

发明内容

发明目的：针对大坝缺陷数据的特点和跨模态检索领域中的“语义鸿沟”问题，本发明提供了一种基于交叉注意力的大坝缺陷图像文本跨模态检索方法及模型。为了捕捉图像和语言间细粒度相互作用，提取有意义的跨模态特征，首先分别独立提取两种模态特征，图像特征基于Faster R-CNN网络提取特征，文本特征通过构建大坝缺陷词典进行文本编码提取特征。然后将两种特征向量输出到交叉注意力模型中，利用交叉注意力模块捕获图像不同区域与文本不同词语潜在对应关系。其次为了增强模型的判断能力，基于提取的ROI样本质量对文本检索任务的损失函数加权，调整ROI样本权重，使质量更高的图像ROI在检索中占有更大的比重。交叉注意力模块有效缩减了异构模态数据间的“语义鸿沟”现象，可以更精确地比较ROI和文本的内容相似性，其次关注ROI样本权重，对文本检索任务的损失函数进行加权，使质量更高的图像ROI在检索中占有更大的比重，训练得到的跨模态检索模型可以获得准确结果。

技术方案：一种基于交叉注意力的大坝缺陷图像文本跨模态检索方法，包括如下步骤：

(1)文本-图像特征独立提取，首先使用Faster R-CNN提取大坝缺陷图像特征图，并获得图像特征图质量评分，其次基于BERT模型提取大坝描述文本特征；

(2)文本-图像交互特征提取，将步骤1)中提取到的图像特征图和文本特征向量输入到交叉注意力模块，利用交叉注意力模块的自注意力机制提取每个图像特征图和整段文本的交互特征矩阵；

(3)文本-图像特征图全局相似度计算，将步骤2)中输出的交互特征矩阵使用余弦相似度计算得到相似矩阵，然后从文本检索和图像检索两个任务出发分别计算全局相似度，特别的文本检索任务中，考虑步骤1)得到图像特征图质量评分，计算全局相似度时质量较高的图像特征图赋予更高的权重；

(4)最小化损失函数优化训练结果：采用改进的铰链三元排序函数Loss(V,E)作为损失函数，最小化排序函数来优化训练结果。

进一步的，所述步骤(1)中文本-图像特征独立提取具体步骤如下：

(1.1)图像特征提取：选取基于ResNet-101的Faster R-CNN提取图像特征图，得到图像特征向量V＝{v₁,v₂,...,v_k}。其中v_i∈V(1≤i≤k)表征图像第i个ROI特征，k为超参数，代表一幅图像提取的ROI总数；

(1.2)预处理原始文本：随机提取1000条尚未标记的大坝缺陷描述原始文本，对原始文本进行预处理，预处理包括以下步骤：删除特殊符号，使用特殊标记[NUM]代替数字；

(1.3)词典构建：将单个语句的文本语料分割为若干个单词，将分割出的每一个单词录入词典。若词典中已存在该单词，则舍弃。所有词典中的单词集合即为大坝缺陷描述词典，词典总词数为voc_size；

(1.4)文本编码：基于大坝缺陷描述词典，使用最大正向匹配算法对每一段文本进行准确分词，若出现新词和变形词则删除该词，分词后直接使用词典对文本进行One-Hot编码得到维度为R^{seq_len*voc_size}的文本编码，与嵌入矩阵相乘转换维度后得到维度为1024的文本编码{x₁,x₂,...,x_n}；

(1.5)文本特征提取：将步骤(1.4)得到的文本编码{x₁,x₂,...,x_n}输入BERT模型中，提取得到文本特征向量E＝{e₁,e₂,...,e_n}。其中e_j∈E(1≤j≤n)表征文本中第j个单词的特征，n为超参数，代表指定最大单个句长；

进一步的，所述步骤(2)中捕捉图像和文本间交互特征向量具体步骤如下：

(2.1)图像-文本特征语义对齐：将步骤(1.1)和(1.5)中得到的特征向量输入到交叉注意力模块(Cross Attention Model,CAM)中。CAM由k个Transformer Encoders(TEs)模块构成，每个TEs模块由m个Transformer叠加而成，利用Transformer的自注意力机制提取每一个ROI与整段文本的交互特征向量；

(2.2)第i个TEs模块交叉特征向量计算：第i(1≤i≤k)个TEs模块的输入向量是{v_i,e₁,e₂,...,e_n}，输入向量{v_i,e₁,e₂,...,e_n}由两部分组成，图像第i个ROI特征v_i和整段文本特征{e₁,e₂,...,e_n}。交叉注意力模块利用Transformer的自注意力机制提取ROI与文本的交互特征，得到输出向量

输出向量包含两部分，融合文本特征的ROI特征a_i与融合ROI特征的文本特征

(2.3)交叉特征矩阵计算：对于每一个TEs模块进行步骤(2.2)中操作，得到所有k个模块的交叉特征向量，将k个模块的交叉特征向量组合得到交叉特征矩阵

进一步的，所述步骤(3)中文本-图像特征图全局相似度计算步骤如下：

(3.1)输入交互特征矩阵

(3.2)利用(3.1)输入内容构造相似性矩阵S∈R^k*n，其中矩阵S表示每一个ROI与每一个单词的相似程度，元素s_i,j∈S表示第i个图像ROI特征a_i和文本第j个单词

的相似性，值越接近1越相似；

(3.3)对(3.2)中得到的相似性矩阵S进行池化，在文本检索任务中得到图像-文本全局相似度S^I2T，在图像检索任务中得到文本-图像的全局相似度S^T2I；

上述(3.2)中相似矩阵计算具体包含以下内容：

①对于输入的交互特征向量

本发明使用余弦相似度来度量第i个区域与第j个单词之间的相似度，构造相似度矩阵S公式定义如下：

其中，相似度矩阵第i行代表第i个ROI与一段文本每个单词的相似度；第j列代表第j个单词与某幅图像每个ROI的相似度。

上述(3.3)中全局相似度计算具体包含以下内容：

①在文本检索任务中：对全局相似矩阵的每一列归一化后进行最大池化，同时考虑基于Faster R-CNN进行目标检测得到的ROI评分[score₁,score₂,...,score_k]，某个ROI分数较高，那么该ROI在检索过程中权重调高。因此增加权重后图像与文本的全局相似度

公式定义如下所示：

②在图像检索任务中：对全局相似度矩阵的每一列进行最大池化，然后对池化结果求和得到图像与文本的全局相似度S^T2I，公式定义如下所示：

进一步的，所述步骤(4)中最小化损失函数优化训练结果步骤如下：

(4.1)对步骤(3)中得到的全局相似度采用改进的铰链三元排序函数Loss(V,E)作为损失函数，用最不相似(最不相似是通过步骤(3)中的全局相似度进行判断的，其中全局相似度值越接近1越相似)负样本作为损失加入计算，最小化排序损失函数对基于交叉注意力的大坝缺陷图像文本跨模态检索模型进行优化。图像检索和文本检索两个任务的检索方向不同，本发明采用不同的目标函数对模型进行优化。最小化损失函数，增强模型判别能力。

上述(4.1)中损失函数的具体计算包含以下内容：

①在文本检索任务中：本发明采用改进的铰链三元排序函数训练跨模态检索模型，排序损失函数L_E(V,E)定义如下所示：

L_E(V,E)＝[α-S(V,E)+S(V,E^-)]₊ (4)

其中，α是间隔参数，[x]₊＝max(x,0)，S为图像与文本的全局相似度。E^-是对于图像V来说最不相似的文本。

②在图像检索任务中：本发明采用改进的铰链三元排序函数训练跨模态检索模型，排序损失函数L_V(V,E)定义如下所示：

L_V(V,E)＝[α-S(V,E)+S(V^-,E)]₊ (6)

其中，α是间隔参数，[x]₊＝max(x,0)，S为图像与文本的全局相似度。V^-是对于文本E来说最不相似的图像。

一种基于交叉注意力的大坝缺陷图像文本跨模态检索模型，其特征在于，包括图像特征提取、构建大坝缺陷描述词典提取文本特征、图像-文本特征语义对齐、图像-文本相似性矩阵构造、图像-文本全局相似度计算和最小化损失函数优化模型六个模块；

所述图像特征提取模块首先提取大坝缺陷图像特征图，并获得图像特征图质量评分，其次提取大坝描述文本特征；

所述构建大坝缺陷描述词典提取文本特征模块，基于大坝缺陷原始描述文本构建大坝缺陷描述词典，基于词典进行分词，将分词结果进行编码，将得到的文本编码输入BERT模型中，提取得到文本特征向量；

所述图像-文本特征语义对齐模块，将特征向量输入到交叉注意力模块中，输出得到图像和文本相互指导的交互特征矩阵；

所述图像-文本相似性矩阵构造模块，输入交互特征矩阵，输入内容构造相似性矩阵，使用余弦相似度来度量第i个区域与第j个单词之间的相似度；

所述图像-文本全局相似度计算模块，对相似性矩阵进行池化，在文本检索任务中得到图像-文本全局相似度S^I2T，在图像检索任务中得到文本-图像的全局相似度S^T2I；

所述最小化损失函数优化模型模块，对全局相似度采用铰链三元排序函数Loss(V,E)作为损失函数，每次检索只用最不相似负样本作为损失加入计算，最小化损失函数来调整网络权重。

参数设置和实验评价指标如下：

A参数设置

以下为几个影响CACRM网络的参数：迭代轮次(Epoch)、批尺寸(Batch Size)、网络学习率(Learning rate)、大坝缺陷图片提取ROI数目k、TEs模块中Transformer个数m、改进铰链三元排序函数间隔参数α。

B实验评价标准：

召回率(Recall@K,R@K)：R@K表示在相似度排行前K个候选项里至少找到一个正确结果的百分比。较高的R@K意味着更好的性能。

附图说明

图1为本发明实施例的基于交叉注意力的图像文本跨模态检索模型(CACRM)的框架图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明涉及到的相关定义如下：

定义1(文本检索)：图像为查询集，文本为检索集。

定义2(图像检索)：文本为查询集，图像为检索集。

图1为本发明提供的基于交叉注意力的图像文本跨模态检索模型的总体流程图，分为6个部分，包括图像特征提取、构建大坝缺陷描述词典提取文本特征、图像-文本特征语义对齐、图像-文本相似性矩阵构造、图像-文本全局相似度计算、最小化损失函数优化模型。

(1)图像特征提取；选取基于ResNet-101的Faster R-CNN提取图像特征得到图像特征向量V＝{v₁,v₂,...,v_k}，其中v_i∈V(1≤i≤k)表征图像第i个ROI特征，在大坝数据集中，每张图像提取10个最显著的ROI，即k被设置为10，代表一幅图像提取的ROI总数；

(2)构建大坝缺陷描述词典提取文本特征：基于大坝缺陷原始描述文本构建大坝缺陷描述词典，基于词典进行分词，将分词结果进行编码，将得到的文本编码输入BERT模型中，提取得到文本特征向量；

构建大坝缺陷描述词典提取文本特征具体步骤描述如下：

(2.1)预处理原始文本：随机提取1000条尚未标记的大坝缺陷描述原始文本，对原始文本进行预处理，预处理包括以下步骤：删除特殊符号，使用特殊标记[NUM]代替数字；

(2.2)词典构建：将单个语句的文本语料分割为若干个单词，将分割出的每一个单词录入词典。若词典中已存在该单词，则舍弃。所有词典中的单词集合即为大坝缺陷描述词典，词典总词数为voc_size；

(2.3)文本编码：基于大坝缺陷描述词典，使用最大正向匹配算法对每一段文本进行准确分词，若出现新词和变形词则删除该词，分词后直接使用词典对文本进行One-Hot编码得到维度为R^{seq_len*voc_size}的文本编码，与嵌入矩阵相乘转换维度后得到维度为1024的文本编码{x₁,x₂,...,x_n}；

(2.4)文本特征提取：将步骤(2.3)得到的文本编码{x₁,x₂,...,x_n}输入BERT模型中，提取得到文本特征向量E＝{e₁,e₂,...,e_n}。其中e_j∈E(1≤j≤n)表征文本中第j个单词的特征，n为超参数，代表指定最大单个句长；

(3)图像-文本特征语义对齐：将步骤(1)和(2)中得到的特征向量输入到交叉注意力模块(Cross Attention Model,CAM)中，输出得到图像和文本相互指导的交互特征矩阵。

交叉注意力模块具体描述如下：

①交叉注意力模块组成：由k个Transformer Encoders(TEs)模块构成，经实验结果表明，每个TEs模块由8个Transformer叠加而成；

②第i个TEs模块交叉特征向量计算：第i(1≤i≤k)个TEs模块的输入向量是{v_i,e₁,e₂,...,e_n}，输入向量{v_i,e₁,e₂,...,e_n}由两部分组成，图像第i个ROI特征v_i和整段文本特征{e₁,e₂,...,e_n}。交叉注意力模块利用Transformer的自注意力机制提取ROI与文本的交互特征，得到输出向量

③交叉特征矩阵计算：对于每一个TEs模块进行步骤(3)中②的操作，得到所有k个模块的交叉特征向量，将k个模块的交叉特征向量组合得到交叉特征矩阵

(4)输入交互特征矩阵

输入内容构造相似性矩阵S∈R^k*n，本发明使用余弦相似度来度量第i个区域与第j个单词之间的相似度，构造相似度矩阵S公式定义如下：

a_i指第i个图像ROI特征，t_j指文本第j个单词，元素s_i,j∈S表示第i个图像ROI特征a_i和文本第j个单词

的相似性，值越接近1越相似；

(5)对步骤(4)中得到的相似性矩阵S进行池化，在文本检索任务中得到图像-文本全局相似度S^I2T，在图像检索任务中得到文本-图像的全局相似度S^T2I，下面具体介绍在文本检索任务和图像检索任务中池化操作定义：

公式定义如下所示：

(6)对步骤(5)中得到的全局相似度采用改进的铰链三元排序函数Loss(V,E)作为损失函数，每次检索只用最不相似负样本作为损失加入计算，最小化损失函数来调整网络权重。本发明采用改进的铰链三元排序函数进行训练。图像检索和文本检索两个任务的检索方向不同，本发明采用不同的目标函数对模型进行优化。

L_E(V,E)＝[α-S(V,E)+S(V,E^-)]₊ (4)

其中，α是间隔参数，在本实验中设置为0.2，[x]₊＝max(x,0)，S为图像与文本的全局相似度。E^-是对于图像V来说最不相似的文本。

L_V(V,E)＝[α-S(V,E)+S(V^-,E)]₊ (6)

其中，α是间隔参数，本实验中设置为0.2，[x]₊＝max(x,0)，S为图像与文本的全局相似度。V^-是对于文本E来说最不相似的图像，即全局相似度最接近0。

参数的设置和实验评价标准如下：

A参数设置

以下为几个影响CACRM模型的参数：迭代轮次(Epoch)、批尺寸(Batch Size)、网络学习率(Learning rate)、大坝缺陷图片提取ROI数目k、TEs模块中Transformer个数m、改进铰链三元排序函数间隔参数α。

表1 CACRM模型训练参数设置

B实验评价标准：

以下为本发明具体实施例的评价指标：

召回率(Recall@K,R@K)：R@K表示在相似度排行前K个候选项里至少找到一个正确结果的百分比，K值被设置为1、5、10。

根据以上实施例可知，针对在实际应用中跨模态检索面临的“语义鸿沟”问题，本发明的利用多个独立TEs模块，每个TEs模块有多个Transformer模块组成，利用Transformer模块的自注意力机制捕获图像与文本的交互特征矩阵，并根据交互特征矩阵构建相似矩阵，计算文本图像全局相似度，减少不同ROI、不同单词间的相互干扰，提取有意义的跨模态特征，更精确地匹配图像与文本。为了增强模型检索效果，根据ROI质量对文本检索任务的全局相似度进行加权计算，图像检索任务中进行最大池化操作计算全局相似度。并且使用铰链三元排序函数作为损失函数训练模型。本发明的方法得到的跨模态检索模型可以获得准确检索结果。

Claims

1.一种基于交叉注意力的大坝缺陷图像文本跨模态检索方法，其特征在于，包括如下步骤：

(1)文本-图像特征独立提取，首先提取大坝缺陷图像特征图，并获得图像特征图质量评分，其次提取大坝描述文本特征；

(3)文本-图像特征图全局相似度计算，基于交互特征矩阵计算得到相似矩阵，然后从文本检索和图像检索两个任务出发分别计算全局相似度，在文本检索任务中，基于图像特征图质量评分，计算全局相似度。

2.根据权利要求1所述的基于交叉注意力的大坝缺陷图像文本跨模态检索方法，其特征在于，所述步骤(1)中，首先使用Faster R-CNN提取大坝缺陷图像特征图，并获得图像特征图质量评分，其次基于BERT模型提取大坝描述文本特征。

3.根据权利要求1所述的基于交叉注意力的大坝缺陷图像文本跨模态检索方法，其特征在于，所述步骤(3)中，将步骤2)中输出的交互特征矩阵使用余弦相似度计算得到相似矩阵，然后从文本检索和图像检索两个任务出发分别计算全局相似度。

4.根据权利要求1所述的基于交叉注意力的大坝缺陷图像文本跨模态检索方法，其特征在于，所述步骤(1)中文本-图像特征独立提取具体步骤如下：

(1.1)图像特征提取：选取基于ResNet-101的Faster R-CNN提取图像特征图，得到图像特征向量V＝{v₁,v₂,...,v_k}；其中v_i∈V(1≤i≤k)表征图像第i个ROI特征，k为超参数，代表一幅图像提取的ROI总数；

(1.2)预处理原始文本：随机提取一部分尚未标记的大坝缺陷描述原始文本，对原始文本进行预处理；

(1.3)词典构建：将单个语句的文本语料分割为若干个单词，将分割出的每一个单词录入词典；若词典中已存在该单词，则舍弃；所有词典中的单词集合即为大坝缺陷描述词典，词典总词数为voc_size；

(1.4)文本编码：基于大坝缺陷描述词典，使用最大正向匹配算法对每一段文本进行准确分词，若出现新词和变形词则删除该词，分词后直接使用词典对文本进行One-Hot编码得到维度为R^{seq_len*voc_size}的文本编码，与嵌入矩阵相乘转换维度后得到文本编码{x₁,x₂,...,x_n}；

(1.5)文本特征提取：将步骤(1.4)得到的文本编码{x₁,x₂,...,x_n}输入BERT模型中，提取得到文本特征向量E＝{e₁,e₂,...,e_n}；其中e_j∈E(1≤j≤n)表征文本中第j个单词的特征，n为超参数，代表指定最大单个句长。

5.根据权利要求4所述的基于交叉注意力的大坝缺陷图像文本跨模态检索方法，其特征在于，所述步骤(2)中捕捉图像和文本间交互特征向量具体步骤如下：

(2.1)图像-文本特征语义对齐：将步骤(1.1)和(1.5)中得到的特征向量输入到交叉注意力模块CAM中；CAM由k个TEs模块构成，每个TEs模块由m个Transformer叠加而成，利用Transformer的自注意力机制提取每一个ROI与整段文本的交互特征向量；

(2.2)第i个TEs模块交叉特征向量计算：第i个TEs模块的输入向量是{v_i,e₁,e₂,...,e_n}，输入向量{v_i,e₁,e₂,...,e_n}由两部分组成，图像第i个ROI特征v_i和整段文本特征{e₁,e₂,...,e_n}。交叉注意力模块利用Transformer的自注意力机制提取ROI与文本的交互特征，得到输出向量