CN113220919B - 一种大坝缺陷图像文本跨模态检索方法及模型 - Google Patents

一种大坝缺陷图像文本跨模态检索方法及模型 Download PDF

Info

Publication number
CN113220919B
CN113220919B CN202110535542.9A CN202110535542A CN113220919B CN 113220919 B CN113220919 B CN 113220919B CN 202110535542 A CN202110535542 A CN 202110535542A CN 113220919 B CN113220919 B CN 113220919B
Authority
CN
China
Prior art keywords
text
image
feature
cross
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110535542.9A
Other languages
English (en)
Other versions
CN113220919A (zh
Inventor
毛莺池
陈静
汪强
黄倩
李然
王龙宝
方晗
陈豪
卢俊
钟鸣
李玲
付琨
夏旭东
陈智祥
张洪伟
罗松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Huaneng Group Technology Innovation Center Co Ltd
Huaneng Lancang River Hydropower Co Ltd
Original Assignee
Hohai University HHU
Huaneng Group Technology Innovation Center Co Ltd
Huaneng Lancang River Hydropower Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU, Huaneng Group Technology Innovation Center Co Ltd, Huaneng Lancang River Hydropower Co Ltd filed Critical Hohai University HHU
Priority to CN202110535542.9A priority Critical patent/CN113220919B/zh
Publication of CN113220919A publication Critical patent/CN113220919A/zh
Priority to PCT/CN2022/087296 priority patent/WO2022242388A1/zh
Application granted granted Critical
Publication of CN113220919B publication Critical patent/CN113220919B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于交叉注意力的大坝缺陷图像文本跨模态检索方法,包括:1)文本‑图像特征提取;2)文本‑图像交互特征提取,将图像特征图和文本特征向量输入到交叉注意力模块,提取每个图像特征图和整段文本的交互特征矩阵;3)文本‑图像特征图全局相似度计算,将交互特征矩阵使用余弦相似度计算得到相似矩阵,然后从文本检索和图像检索两个任务出发分别计算全局相似度,文本检索任务中,计算全局相似度时质量较高的图像特征图赋予更高的权重;4)最小化损失函数优化训练结果:采用改进的铰链三元排序函数作为损失函数,最小化排序函数来优化训练结果。本发明在大坝图像检索文本和大坝缺陷描述文本检索图像任务中取得了较好的检索效果。

Description

一种大坝缺陷图像文本跨模态检索方法及模型
技术领域
本发明涉及一种基于交叉注意力的大坝缺陷图像文本跨模态检索方法及模型,具体是一种对输入大坝缺陷图像检索描述文本或输入大坝描述文本检索缺陷图像,属于跨模态检索技术领域。
背景技术
我国是世界上拥有水库大坝最多的国家之一。大坝的日益老化与环境、灾害等因素的影响导致了缺陷的形成,危害坝体安全。定期巡检是维护大坝工程安全的重要措施,现有的巡检方法主要为人工巡检。巡检人员在巡检过程中会拍摄缺陷图像、记录缺陷描述文本,跨模态检索任务能够充分利用已有数据,回溯历史记录,辅助巡检人员判断与决策。
近年来,图像处理、自然语言处理以及图像-文本跨模态检索领域的发展,为大坝缺陷图像检索文本、文本检索图像提供技术支持。在图像-文本跨模态检索领域,最初通过构建图像-文本联合嵌入空间,比较图像-文本全局特征相似度进行检索,但没有考虑利用图像或文本局部显著特征减少不重要区域影响。
发明内容
发明目的:针对大坝缺陷数据的特点和跨模态检索领域中的“语义鸿沟”问题,本发明提供了一种基于交叉注意力的大坝缺陷图像文本跨模态检索方法及模型。为了捕捉图像和语言间细粒度相互作用,提取有意义的跨模态特征,首先分别独立提取两种模态特征,图像特征基于Faster R-CNN网络提取特征,文本特征通过构建大坝缺陷词典进行文本编码提取特征。然后将两种特征向量输出到交叉注意力模型中,利用交叉注意力模块捕获图像不同区域与文本不同词语潜在对应关系。其次为了增强模型的判断能力,基于提取的ROI样本质量对文本检索任务的损失函数加权,调整ROI样本权重,使质量更高的图像ROI在检索中占有更大的比重。交叉注意力模块有效缩减了异构模态数据间的“语义鸿沟”现象,可以更精确地比较ROI和文本的内容相似性,其次关注ROI样本权重,对文本检索任务的损失函数进行加权,使质量更高的图像ROI在检索中占有更大的比重,训练得到的跨模态检索模型可以获得准确结果。
技术方案:一种基于交叉注意力的大坝缺陷图像文本跨模态检索方法,包括如下步骤:
(1)文本-图像特征独立提取,首先使用Faster R-CNN提取大坝缺陷图像特征图,并获得图像特征图质量评分,其次基于BERT模型提取大坝描述文本特征;
(2)文本-图像交互特征提取,将步骤1)中提取到的图像特征图和文本特征向量输入到交叉注意力模块,利用交叉注意力模块的自注意力机制提取每个图像特征图和整段文本的交互特征矩阵;
(3)文本-图像特征图全局相似度计算,将步骤2)中输出的交互特征矩阵使用余弦相似度计算得到相似矩阵,然后从文本检索和图像检索两个任务出发分别计算全局相似度,特别的文本检索任务中,考虑步骤1)得到图像特征图质量评分,计算全局相似度时质量较高的图像特征图赋予更高的权重;
(4)最小化损失函数优化训练结果:采用改进的铰链三元排序函数Loss(V,E)作为损失函数,最小化排序函数来优化训练结果。
进一步的,所述步骤(1)中文本-图像特征独立提取具体步骤如下:
(1.1)图像特征提取:选取基于ResNet-101的Faster R-CNN提取图像特征图,得到图像特征向量V={v1,v2,...,vk}。其中vi∈V(1≤i≤k)表征图像第i个ROI特征,k为超参数,代表一幅图像提取的ROI总数;
(1.2)预处理原始文本:随机提取1000条尚未标记的大坝缺陷描述原始文本,对原始文本进行预处理,预处理包括以下步骤:删除特殊符号,使用特殊标记[NUM]代替数字;
(1.3)词典构建:将单个语句的文本语料分割为若干个单词,将分割出的每一个单词录入词典。若词典中已存在该单词,则舍弃。所有词典中的单词集合即为大坝缺陷描述词典,词典总词数为voc_size;
(1.4)文本编码:基于大坝缺陷描述词典,使用最大正向匹配算法对每一段文本进行准确分词,若出现新词和变形词则删除该词,分词后直接使用词典对文本进行One-Hot编码得到维度为Rseq_len*voc_size的文本编码,与嵌入矩阵相乘转换维度后得到维度为1024的文本编码{x1,x2,...,xn};
(1.5)文本特征提取:将步骤(1.4)得到的文本编码{x1,x2,...,xn}输入BERT模型中,提取得到文本特征向量E={e1,e2,...,en}。其中ej∈E(1≤j≤n)表征文本中第j个单词的特征,n为超参数,代表指定最大单个句长;
进一步的,所述步骤(2)中捕捉图像和文本间交互特征向量具体步骤如下:
(2.1)图像-文本特征语义对齐:将步骤(1.1)和(1.5)中得到的特征向量输入到交叉注意力模块(Cross Attention Model,CAM)中。CAM由k个Transformer Encoders(TEs)模块构成,每个TEs模块由m个Transformer叠加而成,利用Transformer的自注意力机制提取每一个ROI与整段文本的交互特征向量;
(2.2)第i个TEs模块交叉特征向量计算:第i(1≤i≤k)个TEs模块的输入向量是{vi,e1,e2,...,en},输入向量{vi,e1,e2,...,en}由两部分组成,图像第i个ROI特征vi和整段文本特征{e1,e2,...,en}。交叉注意力模块利用Transformer的自注意力机制提取ROI与文本的交互特征,得到输出向量
Figure BDA0003069683910000031
输出向量包含两部分,融合文本特征的ROI特征ai与融合ROI特征的文本特征
Figure BDA0003069683910000032
(2.3)交叉特征矩阵计算:对于每一个TEs模块进行步骤(2.2)中操作,得到所有k个模块的交叉特征向量,将k个模块的交叉特征向量组合得到交叉特征矩阵
Figure BDA0003069683910000033
进一步的,所述步骤(3)中文本-图像特征图全局相似度计算步骤如下:
(3.1)输入交互特征矩阵
Figure BDA0003069683910000034
(3.2)利用(3.1)输入内容构造相似性矩阵S∈Rk*n,其中矩阵S表示每一个ROI与每一个单词的相似程度,元素si,j∈S表示第i个图像ROI特征ai和文本第j个单词
Figure BDA0003069683910000035
的相似性,值越接近1越相似;
(3.3)对(3.2)中得到的相似性矩阵S进行池化,在文本检索任务中得到图像-文本全局相似度SI2T,在图像检索任务中得到文本-图像的全局相似度ST2I
上述(3.2)中相似矩阵计算具体包含以下内容:
①对于输入的交互特征向量
Figure BDA0003069683910000036
本发明使用余弦相似度来度量第i个区域与第j个单词之间的相似度,构造相似度矩阵S公式定义如下:
Figure BDA0003069683910000037
其中,相似度矩阵第i行代表第i个ROI与一段文本每个单词的相似度;第j列代表第j个单词与某幅图像每个ROI的相似度。
上述(3.3)中全局相似度计算具体包含以下内容:
①在文本检索任务中:对全局相似矩阵的每一列归一化后进行最大池化,同时考虑基于Faster R-CNN进行目标检测得到的ROI评分[score1,score2,...,scorek],某个ROI分数较高,那么该ROI在检索过程中权重调高。因此增加权重后图像与文本的全局相似度
Figure BDA0003069683910000038
公式定义如下所示:
Figure BDA0003069683910000041
②在图像检索任务中:对全局相似度矩阵的每一列进行最大池化,然后对池化结果求和得到图像与文本的全局相似度ST2I,公式定义如下所示:
Figure BDA0003069683910000042
进一步的,所述步骤(4)中最小化损失函数优化训练结果步骤如下:
(4.1)对步骤(3)中得到的全局相似度采用改进的铰链三元排序函数Loss(V,E)作为损失函数,用最不相似(最不相似是通过步骤(3)中的全局相似度进行判断的,其中全局相似度值越接近1越相似)负样本作为损失加入计算,最小化排序损失函数对基于交叉注意力的大坝缺陷图像文本跨模态检索模型进行优化。图像检索和文本检索两个任务的检索方向不同,本发明采用不同的目标函数对模型进行优化。最小化损失函数,增强模型判别能力。
上述(4.1)中损失函数的具体计算包含以下内容:
①在文本检索任务中:本发明采用改进的铰链三元排序函数训练跨模态检索模型,排序损失函数LE(V,E)定义如下所示:
LE(V,E)=[α-S(V,E)+S(V,E-)]+ (4)
Figure BDA0003069683910000043
其中,α是间隔参数,[x]+=max(x,0),S为图像与文本的全局相似度。E-是对于图像V来说最不相似的文本。
②在图像检索任务中:本发明采用改进的铰链三元排序函数训练跨模态检索模型,排序损失函数LV(V,E)定义如下所示:
LV(V,E)=[α-S(V,E)+S(V-,E)]+ (6)
Figure BDA0003069683910000044
其中,α是间隔参数,[x]+=max(x,0),S为图像与文本的全局相似度。V-是对于文本E来说最不相似的图像。
一种基于交叉注意力的大坝缺陷图像文本跨模态检索模型,其特征在于,包括图像特征提取、构建大坝缺陷描述词典提取文本特征、图像-文本特征语义对齐、图像-文本相似性矩阵构造、图像-文本全局相似度计算和最小化损失函数优化模型六个模块;
所述图像特征提取模块首先提取大坝缺陷图像特征图,并获得图像特征图质量评分,其次提取大坝描述文本特征;
所述构建大坝缺陷描述词典提取文本特征模块,基于大坝缺陷原始描述文本构建大坝缺陷描述词典,基于词典进行分词,将分词结果进行编码,将得到的文本编码输入BERT模型中,提取得到文本特征向量;
所述图像-文本特征语义对齐模块,将特征向量输入到交叉注意力模块中,输出得到图像和文本相互指导的交互特征矩阵;
所述图像-文本相似性矩阵构造模块,输入交互特征矩阵,输入内容构造相似性矩阵,使用余弦相似度来度量第i个区域与第j个单词之间的相似度;
所述图像-文本全局相似度计算模块,对相似性矩阵进行池化,在文本检索任务中得到图像-文本全局相似度SI2T,在图像检索任务中得到文本-图像的全局相似度ST2I
所述最小化损失函数优化模型模块,对全局相似度采用铰链三元排序函数Loss(V,E)作为损失函数,每次检索只用最不相似负样本作为损失加入计算,最小化损失函数来调整网络权重。
参数设置和实验评价指标如下:
A参数设置
以下为几个影响CACRM网络的参数:迭代轮次(Epoch)、批尺寸(Batch Size)、网络学习率(Learning rate)、大坝缺陷图片提取ROI数目k、TEs模块中Transformer个数m、改进铰链三元排序函数间隔参数α。
B实验评价标准:
召回率(Recall@K,R@K):R@K表示在相似度排行前K个候选项里至少找到一个正确结果的百分比。较高的R@K意味着更好的性能。
附图说明
图1为本发明实施例的基于交叉注意力的图像文本跨模态检索模型(CACRM)的框架图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明涉及到的相关定义如下:
定义1(文本检索):图像为查询集,文本为检索集。
定义2(图像检索):文本为查询集,图像为检索集。
图1为本发明提供的基于交叉注意力的图像文本跨模态检索模型的总体流程图,分为6个部分,包括图像特征提取、构建大坝缺陷描述词典提取文本特征、图像-文本特征语义对齐、图像-文本相似性矩阵构造、图像-文本全局相似度计算、最小化损失函数优化模型。
(1)图像特征提取;选取基于ResNet-101的Faster R-CNN提取图像特征得到图像特征向量V={v1,v2,...,vk},其中vi∈V(1≤i≤k)表征图像第i个ROI特征,在大坝数据集中,每张图像提取10个最显著的ROI,即k被设置为10,代表一幅图像提取的ROI总数;
(2)构建大坝缺陷描述词典提取文本特征:基于大坝缺陷原始描述文本构建大坝缺陷描述词典,基于词典进行分词,将分词结果进行编码,将得到的文本编码输入BERT模型中,提取得到文本特征向量;
构建大坝缺陷描述词典提取文本特征具体步骤描述如下:
(2.1)预处理原始文本:随机提取1000条尚未标记的大坝缺陷描述原始文本,对原始文本进行预处理,预处理包括以下步骤:删除特殊符号,使用特殊标记[NUM]代替数字;
(2.2)词典构建:将单个语句的文本语料分割为若干个单词,将分割出的每一个单词录入词典。若词典中已存在该单词,则舍弃。所有词典中的单词集合即为大坝缺陷描述词典,词典总词数为voc_size;
(2.3)文本编码:基于大坝缺陷描述词典,使用最大正向匹配算法对每一段文本进行准确分词,若出现新词和变形词则删除该词,分词后直接使用词典对文本进行One-Hot编码得到维度为Rseq_len*voc_size的文本编码,与嵌入矩阵相乘转换维度后得到维度为1024的文本编码{x1,x2,...,xn};
(2.4)文本特征提取:将步骤(2.3)得到的文本编码{x1,x2,...,xn}输入BERT模型中,提取得到文本特征向量E={e1,e2,...,en}。其中ej∈E(1≤j≤n)表征文本中第j个单词的特征,n为超参数,代表指定最大单个句长;
(3)图像-文本特征语义对齐:将步骤(1)和(2)中得到的特征向量输入到交叉注意力模块(Cross Attention Model,CAM)中,输出得到图像和文本相互指导的交互特征矩阵。
交叉注意力模块具体描述如下:
①交叉注意力模块组成:由k个Transformer Encoders(TEs)模块构成,经实验结果表明,每个TEs模块由8个Transformer叠加而成;
②第i个TEs模块交叉特征向量计算:第i(1≤i≤k)个TEs模块的输入向量是{vi,e1,e2,...,en},输入向量{vi,e1,e2,...,en}由两部分组成,图像第i个ROI特征vi和整段文本特征{e1,e2,...,en}。交叉注意力模块利用Transformer的自注意力机制提取ROI与文本的交互特征,得到输出向量
Figure BDA0003069683910000071
输出向量包含两部分,融合文本特征的ROI特征ai与融合ROI特征的文本特征
Figure BDA0003069683910000072
③交叉特征矩阵计算:对于每一个TEs模块进行步骤(3)中②的操作,得到所有k个模块的交叉特征向量,将k个模块的交叉特征向量组合得到交叉特征矩阵
Figure BDA0003069683910000073
(4)输入交互特征矩阵
Figure BDA0003069683910000074
输入内容构造相似性矩阵S∈Rk*n,本发明使用余弦相似度来度量第i个区域与第j个单词之间的相似度,构造相似度矩阵S公式定义如下:
Figure BDA0003069683910000075
ai指第i个图像ROI特征,tj指文本第j个单词,元素si,j∈S表示第i个图像ROI特征ai和文本第j个单词
Figure BDA0003069683910000076
的相似性,值越接近1越相似;
(5)对步骤(4)中得到的相似性矩阵S进行池化,在文本检索任务中得到图像-文本全局相似度SI2T,在图像检索任务中得到文本-图像的全局相似度ST2I,下面具体介绍在文本检索任务和图像检索任务中池化操作定义:
①在文本检索任务中:对全局相似矩阵的每一列归一化后进行最大池化,同时考虑基于Faster R-CNN进行目标检测得到的ROI评分[score1,score2,...,scorek],某个ROI分数较高,那么该ROI在检索过程中权重调高。因此增加权重后图像与文本的全局相似度
Figure BDA0003069683910000077
公式定义如下所示:
Figure BDA0003069683910000078
②在图像检索任务中:对全局相似度矩阵的每一列进行最大池化,然后对池化结果求和得到图像与文本的全局相似度ST2I,公式定义如下所示:
Figure BDA0003069683910000079
(6)对步骤(5)中得到的全局相似度采用改进的铰链三元排序函数Loss(V,E)作为损失函数,每次检索只用最不相似负样本作为损失加入计算,最小化损失函数来调整网络权重。本发明采用改进的铰链三元排序函数进行训练。图像检索和文本检索两个任务的检索方向不同,本发明采用不同的目标函数对模型进行优化。
①在文本检索任务中:本发明采用改进的铰链三元排序函数训练跨模态检索模型,排序损失函数LE(V,E)定义如下所示:
LE(V,E)=[α-S(V,E)+S(V,E-)]+ (4)
Figure BDA0003069683910000081
其中,α是间隔参数,在本实验中设置为0.2,[x]+=max(x,0),S为图像与文本的全局相似度。E-是对于图像V来说最不相似的文本。
②在图像检索任务中:本发明采用改进的铰链三元排序函数训练跨模态检索模型,排序损失函数LV(V,E)定义如下所示:
LV(V,E)=[α-S(V,E)+S(V-,E)]+ (6)
Figure BDA0003069683910000082
其中,α是间隔参数,本实验中设置为0.2,[x]+=max(x,0),S为图像与文本的全局相似度。V-是对于文本E来说最不相似的图像,即全局相似度最接近0。
参数的设置和实验评价标准如下:
A参数设置
以下为几个影响CACRM模型的参数:迭代轮次(Epoch)、批尺寸(Batch Size)、网络学习率(Learning rate)、大坝缺陷图片提取ROI数目k、TEs模块中Transformer个数m、改进铰链三元排序函数间隔参数α。
表1 CACRM模型训练参数设置
Figure BDA0003069683910000083
B实验评价标准:
以下为本发明具体实施例的评价指标:
召回率(Recall@K,R@K):R@K表示在相似度排行前K个候选项里至少找到一个正确结果的百分比,K值被设置为1、5、10。
根据以上实施例可知,针对在实际应用中跨模态检索面临的“语义鸿沟”问题,本发明的利用多个独立TEs模块,每个TEs模块有多个Transformer模块组成,利用Transformer模块的自注意力机制捕获图像与文本的交互特征矩阵,并根据交互特征矩阵构建相似矩阵,计算文本图像全局相似度,减少不同ROI、不同单词间的相互干扰,提取有意义的跨模态特征,更精确地匹配图像与文本。为了增强模型检索效果,根据ROI质量对文本检索任务的全局相似度进行加权计算,图像检索任务中进行最大池化操作计算全局相似度。并且使用铰链三元排序函数作为损失函数训练模型。本发明的方法得到的跨模态检索模型可以获得准确检索结果。

Claims (8)

1.一种基于交叉注意力的大坝缺陷图像文本跨模态检索方法,其特征在于,包括如下步骤:
(1)文本-图像特征独立提取,首先提取大坝缺陷图像特征图,并获得图像特征图质量评分,其次提取大坝描述文本特征;
(2)文本-图像交互特征提取,将步骤1)中提取到的图像特征图和文本特征向量输入到交叉注意力模块,利用交叉注意力模块的自注意力机制提取每个图像特征图和整段文本的交互特征矩阵;
(3)文本-图像特征图全局相似度计算,基于交互特征矩阵计算得到相似矩阵,然后从文本检索和图像检索两个任务出发分别计算全局相似度,在文本检索任务中,基于图像特征图质量评分,计算全局相似度;
所述步骤(2)中捕捉图像和文本间交互特征向量具体步骤如下:
(2.1)图像-文本特征语义对齐:将步骤(1.1)和(1.5)中得到的特征向量输入到交叉注意力模块CAM中;CAM由k个TEs模块构成,每个TEs模块由m个Transformer叠加而成,利用Transformer的自注意力机制提取每一个ROI与整段文本的交互特征向量;
(2.2)第i个TEs模块交叉特征向量计算:第i个TEs模块的输入向量是{vi,e1,e2,...,en},输入向量{vi,e1,e2,...,en}由两部分组成,图像第i个ROI特征vi和整段文本特征{e1,e2,...,en};交叉注意力模块利用Transformer的自注意力机制提取ROI与文本的交互特征,得到输出向量
Figure FDA0003555890560000011
输出向量包含两部分,融合文本特征的ROI特征ai与融合ROI特征的文本特征
Figure FDA0003555890560000012
(2.3)交叉特征矩阵计算:对于每一个TEs模块进行步骤(2.2)中操作,得到所有k个模块的交叉特征向量,将k个模块的交叉特征向量组合得到交叉特征矩阵
Figure FDA0003555890560000013
所述步骤(3)中,将步骤(2)中输出的交叉特征矩阵使用余弦相似度计算得到相似矩阵,然后从文本检索和图像检索两个任务出发分别计算全局相似度。
2.根据权利要求1所述的基于交叉注意力的大坝缺陷图像文本跨模态检索方法,其特征在于,所述步骤(1)中,首先使用Faster R-CNN提取大坝缺陷图像特征图,并获得图像特征图质量评分,其次基于BERT模型提取大坝描述文本特征。
3.根据权利要求1所述的基于交叉注意力的大坝缺陷图像文本跨模态检索方法,其特征在于,所述步骤(1)中文本-图像特征独立提取具体步骤如下:
(1.1)图像特征提取:选取基于ResNet-101的Faster R-CNN提取图像特征图,得到图像特征向量V={v1,v2,...,vk};其中vi∈V(1≤i≤k)表征图像第i个ROI特征,k为超参数,代表一幅图像提取的ROI总数;
(1.2)预处理原始文本:随机提取一部分尚未标记的大坝缺陷描述原始文本,对原始文本进行预处理;
(1.3)词典构建:将单个语句的文本语料分割为若干个单词,将分割出的每一个单词录入词典;若词典中已存在该单词,则舍弃;所有词典中的单词集合即为大坝缺陷描述词典,词典总词数为voc_size;
(1.4)文本编码:基于大坝缺陷描述词典,使用最大正向匹配算法对每一段文本进行准确分词,若出现新词和变形词则删除该词,分词后直接使用词典对文本进行One-Hot编码得到维度为Rseq_len*voc_size的文本编码,与嵌入矩阵相乘转换维度后得到文本编码{x1,x2,...,xn};
(1.5)文本特征提取:将步骤(1.4)得到的文本编码{x1,x2,...,xn}输入BERT模型中,提取得到文本特征向量E={e1,e2,...,en};其中ej∈E(1≤j≤n)表征文本中第j个单词的特征,n为超参数,代表指定最大单个句长。
4.根据权利要求1所述的基于交叉注意力的大坝缺陷图像文本跨模态检索方法,其特征在于,所述步骤(3)中文本-图像特征图全局相似度计算步骤如下:
(3.1)输入交互特征矩阵
Figure FDA0003555890560000021
(3.2)利用(3.1)输入内容构造相似性矩阵
Figure FDA0003555890560000022
其中矩阵S表示每一个ROI与每一个单词的相似程度,元素si,j∈S表示第i个图像ROI特征ai和文本第j个单词
Figure FDA0003555890560000023
的相似性;
(3.3)对(3.2)中得到的相似性矩阵S进行池化,在文本检索任务中得到图像-文本全局相似度SI2T,在图像检索任务中得到文本-图像的全局相似度ST2I
5.根据权利要求4所述的基于交叉注意力的大坝缺陷图像文本跨模态检索方法,其特征在于,所述相似矩阵计算具体包含以下内容:
对于输入的交互特征向量
Figure FDA0003555890560000024
使用余弦相似度来度量第i个区域与第j个单词之间的相似度,构造相似度矩阵S公式定义如下:
Figure FDA0003555890560000031
其中,相似度矩阵第i行代表第i个ROI与一段文本每个单词的相似度;第j列代表第j个单词与某幅图像每个ROI的相似度。
6.根据权利要求4所述的基于交叉注意力的大坝缺陷图像文本跨模态检索方法,其特征在于,所述全局相似度计算具体包含以下内容:
①在文本检索任务中:对全局相似矩阵的每一列归一化后进行最大池化,同时考虑基于Faster R-CNN进行目标检测得到的ROI评分[score1,score2,...,scorek],某个ROI分数较高,那么该ROI在检索过程中权重调高;因此增加权重后图像与文本的全局相似度
Figure FDA0003555890560000032
公式定义如下所示:
Figure FDA0003555890560000033
②在图像检索任务中:对全局相似度矩阵的每一列进行最大池化,然后对池化结果求和得到图像与文本的全局相似度ST2I,公式定义如下所示:
Figure FDA0003555890560000034
7.一种基于交叉注意力的大坝缺陷图像文本跨模态检索模型,其特征在于,包括图像特征提取、构建大坝缺陷描述词典提取文本特征、图像-文本特征语义对齐、图像-文本相似性矩阵构造、图像-文本全局相似度计算和最小化损失函数优化模型六个模块;
所述图像特征提取模块首先提取大坝缺陷图像特征图,并获得图像特征图质量评分,其次提取大坝描述文本特征;
所述构建大坝缺陷描述词典提取文本特征模块,基于大坝缺陷原始描述文本构建大坝缺陷描述词典,基于词典进行分词,将分词结果进行编码,将得到的文本编码输入BERT模型中,提取得到文本特征向量;
所述图像-文本特征语义对齐模块,将特征向量输入到交叉注意力模块中,输出得到图像和文本相互指导的交互特征矩阵;捕捉图像和文本间交互特征向量具体步骤如下:
(2.1)图像-文本特征语义对齐:将步骤(1.1)和(1.5)中得到的特征向量输入到交叉注意力模块CAM中;CAM由k个TEs模块构成,每个TEs模块由m个Transformer叠加而成,利用Transformer的自注意力机制提取每一个ROI与整段文本的交互特征向量;
(2.2)第i个TEs模块交叉特征向量计算:第i个TEs模块的输入向量是{vi,e1,e2,...,en},输入向量{vi,e1,e2,...,en}由两部分组成,图像第i个ROI特征vi和整段文本特征{e1,e2,...,en}; 交叉注意力模块利用Transformer的自注意力机制提取ROI与文本的交互特征,得到输出向量
Figure FDA0003555890560000041
输出向量包含两部分,融合文本特征的ROI特征ai与融合ROI特征的文本特征
Figure FDA0003555890560000042
(2.3)交叉特征矩阵计算:对于每一个TEs模块进行步骤(2.2)中操作,得到所有k个模块的交叉特征向量,将k个模块的交叉特征向量组合得到交叉特征矩阵
Figure FDA0003555890560000043
所述图像-文本相似性矩阵构造模块,输入交互特征矩阵,输入内容构造相似性矩阵,使用余弦相似度来度量第i个区域与第j个单词之间的相似度,在文本检索任务中,基于图像特征图质量评分,计算全局相似度;将交叉特征矩阵使用余弦相似度计算得到相似矩阵,然后从文本检索和图像检索两个任务出发分别计算全局相似度;
所述图像-文本全局相似度计算模块,对相似性矩阵进行池化,在文本检索任务中得到图像-文本全局相似度SI2T,在图像检索任务中得到文本-图像的全局相似度ST2I
所述最小化损失函数优化模型模块,对全局相似度采用铰链三元排序函数Loss(V,E)作为损失函数,每次检索只用最不相似负样本作为损失加入计算,最小化损失函数来调整网络权重,图像特征向量V={v1,v2,...,vk},文本特征向量E={e1,e2,...,en}。
8.根据权利要求7所述的基于交叉注意力的大坝缺陷图像文本跨模态检索模型,其特征在于,所述最小化损失函数优化模型模块中损失函数的具体计算包含以下内容:
①在文本检索任务中:排序损失函数LE(V,E)定义如下所示:
LE(V,E)=[α-S(V,E)+S(V,E-)]+ (4)
Figure FDA0003555890560000044
其中,α是间隔参数,[x]+=max(x,0),S为图像与文本的全局相似度;E-是对于图像V来说最不相似的文本;
②在图像检索任务中:排序损失函数LV(V,E)定义如下所示:
LV(V,E)=[α-S(V,E)+S(V-,E)]+ (6)
Figure FDA0003555890560000045
其中,α是间隔参数,[x]+=max(x,0),S为图像与文本的全局相似度;V-是对于文本E来说最不相似的图像。
CN202110535542.9A 2021-05-17 2021-05-17 一种大坝缺陷图像文本跨模态检索方法及模型 Active CN113220919B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110535542.9A CN113220919B (zh) 2021-05-17 2021-05-17 一种大坝缺陷图像文本跨模态检索方法及模型
PCT/CN2022/087296 WO2022242388A1 (zh) 2021-05-17 2022-04-18 一种大坝缺陷图像文本跨模态检索方法及模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110535542.9A CN113220919B (zh) 2021-05-17 2021-05-17 一种大坝缺陷图像文本跨模态检索方法及模型

Publications (2)

Publication Number Publication Date
CN113220919A CN113220919A (zh) 2021-08-06
CN113220919B true CN113220919B (zh) 2022-04-22

Family

ID=77092399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110535542.9A Active CN113220919B (zh) 2021-05-17 2021-05-17 一种大坝缺陷图像文本跨模态检索方法及模型

Country Status (2)

Country Link
CN (1) CN113220919B (zh)
WO (1) WO2022242388A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220919B (zh) * 2021-05-17 2022-04-22 河海大学 一种大坝缺陷图像文本跨模态检索方法及模型
CN113763291B (zh) * 2021-09-03 2023-08-29 深圳信息职业技术学院 保持边界滤波算法的性能评价方法、智能终端及存储介质
CN113806579A (zh) * 2021-09-17 2021-12-17 中国电信集团系统集成有限责任公司 文本图像检索方法和装置
CN114201621B (zh) * 2021-11-24 2024-04-02 人民网股份有限公司 基于图文协同注意力的跨模态检索模型构建及检索方法
CN114140673B (zh) * 2022-02-07 2022-05-20 人民中科(北京)智能技术有限公司 一种违规图像识别方法、系统及设备
CN114821770B (zh) * 2022-04-11 2024-03-26 华南理工大学 文本到图像的跨模态行人再识别方法、系统、介质和设备
CN114898121B (zh) * 2022-06-13 2023-05-30 河海大学 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法
CN114780690B (zh) * 2022-06-20 2022-09-09 成都信息工程大学 基于多模态矩阵向量表示的专利文本检索方法及装置
CN115410717B (zh) * 2022-09-15 2024-05-21 北京京东拓先科技有限公司 模型训练方法、数据检索方法、影像数据检索方法和装置
CN116704405A (zh) * 2023-05-22 2023-09-05 阿里巴巴(中国)有限公司 行为识别方法、电子设备及存储介质
CN116402063B (zh) * 2023-06-09 2023-08-15 华南师范大学 多模态讽刺识别方法、装置、设备以及存储介质
CN116861361B (zh) * 2023-06-27 2024-05-03 河海大学 一种基于图像-文本多模态融合的大坝形变评估方法
CN117152142B (zh) * 2023-10-30 2024-02-02 菲特(天津)检测技术有限公司 一种轴承缺陷检测模型构建方法及系统
CN117853492A (zh) * 2024-03-08 2024-04-09 厦门微亚智能科技股份有限公司 一种基于融合模型的智能化工业缺陷检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783657A (zh) * 2019-01-07 2019-05-21 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及系统
CN109992686A (zh) * 2019-02-24 2019-07-09 复旦大学 基于多角度自注意力机制的图像-文本检索系统及方法
CN110490946A (zh) * 2019-07-15 2019-11-22 同济大学 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN112148916A (zh) * 2020-09-28 2020-12-29 华中科技大学 一种基于监督的跨模态检索方法、装置、设备及介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4426486B2 (ja) * 2005-03-17 2010-03-03 株式会社リコー 画像処理装置およびプログラム
EP2637128B1 (en) * 2012-03-06 2018-01-17 beyo GmbH Multimodal text input by a keyboard/camera text input module replacing a conventional keyboard text input module on a mobile device
CN110147457B (zh) * 2019-02-28 2023-07-25 腾讯科技(深圳)有限公司 图文匹配方法、装置、存储介质及设备
US11282297B2 (en) * 2019-09-10 2022-03-22 Blue Planet Training, Inc. System and method for visual analysis of emotional coherence in videos
CN110909673B (zh) * 2019-11-21 2022-09-16 河北工业大学 一种基于自然语言描述的行人再识别方法
CN111026894B (zh) * 2019-12-12 2021-11-26 清华大学 基于可信度自适应匹配网络的跨模态图像文本检索方法
CN111639240B (zh) * 2020-05-14 2021-04-09 山东大学 一种基于注意力感知机制的跨模态哈希检索方法及系统
CN111737458B (zh) * 2020-05-21 2024-05-21 深圳赛安特技术服务有限公司 基于注意力机制的意图识别方法、装置、设备及存储介质
CN111858984A (zh) * 2020-07-13 2020-10-30 济南浪潮高新科技投资发展有限公司 一种基于注意力机制哈希检索的图像匹配方法
CN112784092B (zh) * 2021-01-28 2022-03-25 电子科技大学 一种混合融合模型的跨模态图像文本检索方法
CN113220919B (zh) * 2021-05-17 2022-04-22 河海大学 一种大坝缺陷图像文本跨模态检索方法及模型

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783657A (zh) * 2019-01-07 2019-05-21 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及系统
CN109992686A (zh) * 2019-02-24 2019-07-09 复旦大学 基于多角度自注意力机制的图像-文本检索系统及方法
CN110490946A (zh) * 2019-07-15 2019-11-22 同济大学 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN112148916A (zh) * 2020-09-28 2020-12-29 华中科技大学 一种基于监督的跨模态检索方法、装置、设备及介质

Also Published As

Publication number Publication date
WO2022242388A1 (zh) 2022-11-24
CN113220919A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN113220919B (zh) 一种大坝缺陷图像文本跨模态检索方法及模型
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110909673B (zh) 一种基于自然语言描述的行人再识别方法
CN108228915B (zh) 一种基于深度学习的视频检索方法
CN112905827B (zh) 跨模态图文匹配的方法、装置及计算机可读存储介质
CN111680706B (zh) 一种基于编码和解码结构的双通道输出轮廓检测方法
CN106598959B (zh) 一种确定双语语句对互译关系方法及系统
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN113298151A (zh) 一种基于多级特征融合的遥感图像语义描述方法
CN103984943A (zh) 一种基于贝叶斯概率框架的场景文本识别方法
CN114743020A (zh) 一种结合标签语义嵌入和注意力融合的食物识别方法
CN112329760A (zh) 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
CN116775922A (zh) 基于语言与视觉细节特征融合的遥感图像跨模态检索方法
CN112100212A (zh) 一种基于机器学习和规则匹配的案件情节抽取方法
CN115761757A (zh) 基于解耦特征引导的多模态文本页面分类方法
CN112052319B (zh) 一种基于多特征融合的智能客服方法及系统
CN114416979A (zh) 一种文本查询方法、设备和存储介质
Xiao et al. An extended attention mechanism for scene text recognition
CN114647715A (zh) 一种基于预训练语言模型的实体识别方法
CN115019103A (zh) 基于坐标注意力群组优化的小样本目标检测方法
CN109582743B (zh) 一种针对恐怖袭击事件的数据挖掘系统
CN112989830B (zh) 一种基于多元特征和机器学习的命名实体识别方法
CN116935411A (zh) 一种基于字符分解和重构的部首级古文字识别方法
CN113553947B (zh) 生成描述多模态行人重识别方法、装置及电子设备
Wang et al. Robust recognition of Chinese text from cellphone-acquired low-quality identity card images using convolutional recurrent neural network.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant