CN113220919A - 一种大坝缺陷图像文本跨模态检索方法及模型 - Google Patents
一种大坝缺陷图像文本跨模态检索方法及模型 Download PDFInfo
- Publication number
- CN113220919A CN113220919A CN202110535542.9A CN202110535542A CN113220919A CN 113220919 A CN113220919 A CN 113220919A CN 202110535542 A CN202110535542 A CN 202110535542A CN 113220919 A CN113220919 A CN 113220919A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- feature
- cross
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007547 defect Effects 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims abstract description 61
- 239000013598 vector Substances 0.000 claims abstract description 40
- 230000002452 interceptive effect Effects 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 238000004364 calculation method Methods 0.000 claims abstract description 19
- 238000011176 pooling Methods 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 36
- 238000007689 inspection Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 230000032683 aging Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于交叉注意力的大坝缺陷图像文本跨模态检索方法,包括:1)文本‑图像特征提取;2)文本‑图像交互特征提取,将图像特征图和文本特征向量输入到交叉注意力模块,提取每个图像特征图和整段文本的交互特征矩阵;3)文本‑图像特征图全局相似度计算,将交互特征矩阵使用余弦相似度计算得到相似矩阵,然后从文本检索和图像检索两个任务出发分别计算全局相似度,文本检索任务中,计算全局相似度时质量较高的图像特征图赋予更高的权重;4)最小化损失函数优化训练结果:采用改进的铰链三元排序函数作为损失函数,最小化排序函数来优化训练结果。本发明在大坝图像检索文本和大坝缺陷描述文本检索图像任务中取得了较好的检索效果。
Description
技术领域
本发明涉及一种基于交叉注意力的大坝缺陷图像文本跨模态检索方法及模型,具体是一种对输入大坝缺陷图像检索描述文本或输入大坝描述文本检索缺陷图像,属于跨模态检索技术领域。
背景技术
我国是世界上拥有水库大坝最多的国家之一。大坝的日益老化与环境、灾害等因素的影响导致了缺陷的形成,危害坝体安全。定期巡检是维护大坝工程安全的重要措施,现有的巡检方法主要为人工巡检。巡检人员在巡检过程中会拍摄缺陷图像、记录缺陷描述文本,跨模态检索任务能够充分利用已有数据,回溯历史记录,辅助巡检人员判断与决策。
近年来,图像处理、自然语言处理以及图像-文本跨模态检索领域的发展,为大坝缺陷图像检索文本、文本检索图像提供技术支持。在图像-文本跨模态检索领域,最初通过构建图像-文本联合嵌入空间,比较图像-文本全局特征相似度进行检索,但没有考虑利用图像或文本局部显著特征减少不重要区域影响。
发明内容
发明目的:针对大坝缺陷数据的特点和跨模态检索领域中的“语义鸿沟”问题,本发明提供了一种基于交叉注意力的大坝缺陷图像文本跨模态检索方法及模型。为了捕捉图像和语言间细粒度相互作用,提取有意义的跨模态特征,首先分别独立提取两种模态特征,图像特征基于Faster R-CNN网络提取特征,文本特征通过构建大坝缺陷词典进行文本编码提取特征。然后将两种特征向量输出到交叉注意力模型中,利用交叉注意力模块捕获图像不同区域与文本不同词语潜在对应关系。其次为了增强模型的判断能力,基于提取的ROI样本质量对文本检索任务的损失函数加权,调整ROI样本权重,使质量更高的图像ROI在检索中占有更大的比重。交叉注意力模块有效缩减了异构模态数据间的“语义鸿沟”现象,可以更精确地比较ROI和文本的内容相似性,其次关注ROI样本权重,对文本检索任务的损失函数进行加权,使质量更高的图像ROI在检索中占有更大的比重,训练得到的跨模态检索模型可以获得准确结果。
技术方案:一种基于交叉注意力的大坝缺陷图像文本跨模态检索方法,包括如下步骤:
(1)文本-图像特征独立提取,首先使用Faster R-CNN提取大坝缺陷图像特征图,并获得图像特征图质量评分,其次基于BERT模型提取大坝描述文本特征;
(2)文本-图像交互特征提取,将步骤1)中提取到的图像特征图和文本特征向量输入到交叉注意力模块,利用交叉注意力模块的自注意力机制提取每个图像特征图和整段文本的交互特征矩阵;
(3)文本-图像特征图全局相似度计算,将步骤2)中输出的交互特征矩阵使用余弦相似度计算得到相似矩阵,然后从文本检索和图像检索两个任务出发分别计算全局相似度,特别的文本检索任务中,考虑步骤1)得到图像特征图质量评分,计算全局相似度时质量较高的图像特征图赋予更高的权重;
(4)最小化损失函数优化训练结果:采用改进的铰链三元排序函数Loss(V,E)作为损失函数,最小化排序函数来优化训练结果。
进一步的,所述步骤(1)中文本-图像特征独立提取具体步骤如下:
(1.1)图像特征提取:选取基于ResNet-101的Faster R-CNN提取图像特征图,得到图像特征向量V={v1,v2,...,vk}。其中vi∈V(1≤i≤k)表征图像第i个ROI特征,k为超参数,代表一幅图像提取的ROI总数;
(1.2)预处理原始文本:随机提取1000条尚未标记的大坝缺陷描述原始文本,对原始文本进行预处理,预处理包括以下步骤:删除特殊符号,使用特殊标记[NUM]代替数字;
(1.3)词典构建:将单个语句的文本语料分割为若干个单词,将分割出的每一个单词录入词典。若词典中已存在该单词,则舍弃。所有词典中的单词集合即为大坝缺陷描述词典,词典总词数为voc_size;
(1.4)文本编码:基于大坝缺陷描述词典,使用最大正向匹配算法对每一段文本进行准确分词,若出现新词和变形词则删除该词,分词后直接使用词典对文本进行One-Hot编码得到维度为Rseq_len*voc_size的文本编码,与嵌入矩阵相乘转换维度后得到维度为1024的文本编码{x1,x2,...,xn};
(1.5)文本特征提取:将步骤(1.4)得到的文本编码{x1,x2,...,xn}输入BERT模型中,提取得到文本特征向量E={e1,e2,...,en}。其中ej∈E(1≤j≤n)表征文本中第j个单词的特征,n为超参数,代表指定最大单个句长;
进一步的,所述步骤(2)中捕捉图像和文本间交互特征向量具体步骤如下:
(2.1)图像-文本特征语义对齐:将步骤(1.1)和(1.5)中得到的特征向量输入到交叉注意力模块(Cross Attention Model,CAM)中。CAM由k个Transformer Encoders(TEs)模块构成,每个TEs模块由m个Transformer叠加而成,利用Transformer的自注意力机制提取每一个ROI与整段文本的交互特征向量;
(2.2)第i个TEs模块交叉特征向量计算:第i(1≤i≤k)个TEs模块的输入向量是{vi,e1,e2,...,en},输入向量{vi,e1,e2,...,en}由两部分组成,图像第i个ROI特征vi和整段文本特征{e1,e2,...,en}。交叉注意力模块利用Transformer的自注意力机制提取ROI与文本的交互特征,得到输出向量输出向量包含两部分,融合文本特征的ROI特征ai与融合ROI特征的文本特征
进一步的,所述步骤(3)中文本-图像特征图全局相似度计算步骤如下:
(3.3)对(3.2)中得到的相似性矩阵S进行池化,在文本检索任务中得到图像-文本全局相似度SI2T,在图像检索任务中得到文本-图像的全局相似度ST2I;
上述(3.2)中相似矩阵计算具体包含以下内容:
其中,相似度矩阵第i行代表第i个ROI与一段文本每个单词的相似度;第j列代表第j个单词与某幅图像每个ROI的相似度。
上述(3.3)中全局相似度计算具体包含以下内容:
①在文本检索任务中:对全局相似矩阵的每一列归一化后进行最大池化,同时考虑基于Faster R-CNN进行目标检测得到的ROI评分[score1,score2,...,scorek],某个ROI分数较高,那么该ROI在检索过程中权重调高。因此增加权重后图像与文本的全局相似度公式定义如下所示:
②在图像检索任务中:对全局相似度矩阵的每一列进行最大池化,然后对池化结果求和得到图像与文本的全局相似度ST2I,公式定义如下所示:
进一步的,所述步骤(4)中最小化损失函数优化训练结果步骤如下:
(4.1)对步骤(3)中得到的全局相似度采用改进的铰链三元排序函数Loss(V,E)作为损失函数,用最不相似(最不相似是通过步骤(3)中的全局相似度进行判断的,其中全局相似度值越接近1越相似)负样本作为损失加入计算,最小化排序损失函数对基于交叉注意力的大坝缺陷图像文本跨模态检索模型进行优化。图像检索和文本检索两个任务的检索方向不同,本发明采用不同的目标函数对模型进行优化。最小化损失函数,增强模型判别能力。
上述(4.1)中损失函数的具体计算包含以下内容:
①在文本检索任务中:本发明采用改进的铰链三元排序函数训练跨模态检索模型,排序损失函数LE(V,E)定义如下所示:
LE(V,E)=[α-S(V,E)+S(V,E-)]+ (4)
其中,α是间隔参数,[x]+=max(x,0),S为图像与文本的全局相似度。E-是对于图像V来说最不相似的文本。
②在图像检索任务中:本发明采用改进的铰链三元排序函数训练跨模态检索模型,排序损失函数LV(V,E)定义如下所示:
LV(V,E)=[α-S(V,E)+S(V-,E)]+ (6)
其中,α是间隔参数,[x]+=max(x,0),S为图像与文本的全局相似度。V-是对于文本E来说最不相似的图像。
一种基于交叉注意力的大坝缺陷图像文本跨模态检索模型,其特征在于,包括图像特征提取、构建大坝缺陷描述词典提取文本特征、图像-文本特征语义对齐、图像-文本相似性矩阵构造、图像-文本全局相似度计算和最小化损失函数优化模型六个模块;
所述图像特征提取模块首先提取大坝缺陷图像特征图,并获得图像特征图质量评分,其次提取大坝描述文本特征;
所述构建大坝缺陷描述词典提取文本特征模块,基于大坝缺陷原始描述文本构建大坝缺陷描述词典,基于词典进行分词,将分词结果进行编码,将得到的文本编码输入BERT模型中,提取得到文本特征向量;
所述图像-文本特征语义对齐模块,将特征向量输入到交叉注意力模块中,输出得到图像和文本相互指导的交互特征矩阵;
所述图像-文本相似性矩阵构造模块,输入交互特征矩阵,输入内容构造相似性矩阵,使用余弦相似度来度量第i个区域与第j个单词之间的相似度;
所述图像-文本全局相似度计算模块,对相似性矩阵进行池化,在文本检索任务中得到图像-文本全局相似度SI2T,在图像检索任务中得到文本-图像的全局相似度ST2I;
所述最小化损失函数优化模型模块,对全局相似度采用铰链三元排序函数Loss(V,E)作为损失函数,每次检索只用最不相似负样本作为损失加入计算,最小化损失函数来调整网络权重。
参数设置和实验评价指标如下:
A参数设置
以下为几个影响CACRM网络的参数:迭代轮次(Epoch)、批尺寸(Batch Size)、网络学习率(Learning rate)、大坝缺陷图片提取ROI数目k、TEs模块中Transformer个数m、改进铰链三元排序函数间隔参数α。
B实验评价标准:
召回率(Recall@K,R@K):R@K表示在相似度排行前K个候选项里至少找到一个正确结果的百分比。较高的R@K意味着更好的性能。
附图说明
图1为本发明实施例的基于交叉注意力的图像文本跨模态检索模型(CACRM)的框架图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明涉及到的相关定义如下:
定义1(文本检索):图像为查询集,文本为检索集。
定义2(图像检索):文本为查询集,图像为检索集。
图1为本发明提供的基于交叉注意力的图像文本跨模态检索模型的总体流程图,分为6个部分,包括图像特征提取、构建大坝缺陷描述词典提取文本特征、图像-文本特征语义对齐、图像-文本相似性矩阵构造、图像-文本全局相似度计算、最小化损失函数优化模型。
(1)图像特征提取;选取基于ResNet-101的Faster R-CNN提取图像特征得到图像特征向量V={v1,v2,...,vk},其中vi∈V(1≤i≤k)表征图像第i个ROI特征,在大坝数据集中,每张图像提取10个最显著的ROI,即k被设置为10,代表一幅图像提取的ROI总数;
(2)构建大坝缺陷描述词典提取文本特征:基于大坝缺陷原始描述文本构建大坝缺陷描述词典,基于词典进行分词,将分词结果进行编码,将得到的文本编码输入BERT模型中,提取得到文本特征向量;
构建大坝缺陷描述词典提取文本特征具体步骤描述如下:
(2.1)预处理原始文本:随机提取1000条尚未标记的大坝缺陷描述原始文本,对原始文本进行预处理,预处理包括以下步骤:删除特殊符号,使用特殊标记[NUM]代替数字;
(2.2)词典构建:将单个语句的文本语料分割为若干个单词,将分割出的每一个单词录入词典。若词典中已存在该单词,则舍弃。所有词典中的单词集合即为大坝缺陷描述词典,词典总词数为voc_size;
(2.3)文本编码:基于大坝缺陷描述词典,使用最大正向匹配算法对每一段文本进行准确分词,若出现新词和变形词则删除该词,分词后直接使用词典对文本进行One-Hot编码得到维度为Rseq_len*voc_size的文本编码,与嵌入矩阵相乘转换维度后得到维度为1024的文本编码{x1,x2,...,xn};
(2.4)文本特征提取:将步骤(2.3)得到的文本编码{x1,x2,...,xn}输入BERT模型中,提取得到文本特征向量E={e1,e2,...,en}。其中ej∈E(1≤j≤n)表征文本中第j个单词的特征,n为超参数,代表指定最大单个句长;
(3)图像-文本特征语义对齐:将步骤(1)和(2)中得到的特征向量输入到交叉注意力模块(Cross Attention Model,CAM)中,输出得到图像和文本相互指导的交互特征矩阵。
交叉注意力模块具体描述如下:
①交叉注意力模块组成:由k个Transformer Encoders(TEs)模块构成,经实验结果表明,每个TEs模块由8个Transformer叠加而成;
②第i个TEs模块交叉特征向量计算:第i(1≤i≤k)个TEs模块的输入向量是{vi,e1,e2,...,en},输入向量{vi,e1,e2,...,en}由两部分组成,图像第i个ROI特征vi和整段文本特征{e1,e2,...,en}。交叉注意力模块利用Transformer的自注意力机制提取ROI与文本的交互特征,得到输出向量输出向量包含两部分,融合文本特征的ROI特征ai与融合ROI特征的文本特征
(5)对步骤(4)中得到的相似性矩阵S进行池化,在文本检索任务中得到图像-文本全局相似度SI2T,在图像检索任务中得到文本-图像的全局相似度ST2I,下面具体介绍在文本检索任务和图像检索任务中池化操作定义:
①在文本检索任务中:对全局相似矩阵的每一列归一化后进行最大池化,同时考虑基于Faster R-CNN进行目标检测得到的ROI评分[score1,score2,...,scorek],某个ROI分数较高,那么该ROI在检索过程中权重调高。因此增加权重后图像与文本的全局相似度公式定义如下所示:
②在图像检索任务中:对全局相似度矩阵的每一列进行最大池化,然后对池化结果求和得到图像与文本的全局相似度ST2I,公式定义如下所示:
(6)对步骤(5)中得到的全局相似度采用改进的铰链三元排序函数Loss(V,E)作为损失函数,每次检索只用最不相似负样本作为损失加入计算,最小化损失函数来调整网络权重。本发明采用改进的铰链三元排序函数进行训练。图像检索和文本检索两个任务的检索方向不同,本发明采用不同的目标函数对模型进行优化。
①在文本检索任务中:本发明采用改进的铰链三元排序函数训练跨模态检索模型,排序损失函数LE(V,E)定义如下所示:
LE(V,E)=[α-S(V,E)+S(V,E-)]+ (4)
其中,α是间隔参数,在本实验中设置为0.2,[x]+=max(x,0),S为图像与文本的全局相似度。E-是对于图像V来说最不相似的文本。
②在图像检索任务中:本发明采用改进的铰链三元排序函数训练跨模态检索模型,排序损失函数LV(V,E)定义如下所示:
LV(V,E)=[α-S(V,E)+S(V-,E)]+ (6)
其中,α是间隔参数,本实验中设置为0.2,[x]+=max(x,0),S为图像与文本的全局相似度。V-是对于文本E来说最不相似的图像,即全局相似度最接近0。
参数的设置和实验评价标准如下:
A参数设置
以下为几个影响CACRM模型的参数:迭代轮次(Epoch)、批尺寸(Batch Size)、网络学习率(Learning rate)、大坝缺陷图片提取ROI数目k、TEs模块中Transformer个数m、改进铰链三元排序函数间隔参数α。
表1 CACRM模型训练参数设置
B实验评价标准:
以下为本发明具体实施例的评价指标:
召回率(Recall@K,R@K):R@K表示在相似度排行前K个候选项里至少找到一个正确结果的百分比,K值被设置为1、5、10。
根据以上实施例可知,针对在实际应用中跨模态检索面临的“语义鸿沟”问题,本发明的利用多个独立TEs模块,每个TEs模块有多个Transformer模块组成,利用Transformer模块的自注意力机制捕获图像与文本的交互特征矩阵,并根据交互特征矩阵构建相似矩阵,计算文本图像全局相似度,减少不同ROI、不同单词间的相互干扰,提取有意义的跨模态特征,更精确地匹配图像与文本。为了增强模型检索效果,根据ROI质量对文本检索任务的全局相似度进行加权计算,图像检索任务中进行最大池化操作计算全局相似度。并且使用铰链三元排序函数作为损失函数训练模型。本发明的方法得到的跨模态检索模型可以获得准确检索结果。
Claims (10)
1.一种基于交叉注意力的大坝缺陷图像文本跨模态检索方法,其特征在于,包括如下步骤:
(1)文本-图像特征独立提取,首先提取大坝缺陷图像特征图,并获得图像特征图质量评分,其次提取大坝描述文本特征;
(2)文本-图像交互特征提取,将步骤1)中提取到的图像特征图和文本特征向量输入到交叉注意力模块,利用交叉注意力模块的自注意力机制提取每个图像特征图和整段文本的交互特征矩阵;
(3)文本-图像特征图全局相似度计算,基于交互特征矩阵计算得到相似矩阵,然后从文本检索和图像检索两个任务出发分别计算全局相似度,在文本检索任务中,基于图像特征图质量评分,计算全局相似度。
2.根据权利要求1所述的基于交叉注意力的大坝缺陷图像文本跨模态检索方法,其特征在于,所述步骤(1)中,首先使用Faster R-CNN提取大坝缺陷图像特征图,并获得图像特征图质量评分,其次基于BERT模型提取大坝描述文本特征。
3.根据权利要求1所述的基于交叉注意力的大坝缺陷图像文本跨模态检索方法,其特征在于,所述步骤(3)中,将步骤2)中输出的交互特征矩阵使用余弦相似度计算得到相似矩阵,然后从文本检索和图像检索两个任务出发分别计算全局相似度。
4.根据权利要求1所述的基于交叉注意力的大坝缺陷图像文本跨模态检索方法,其特征在于,所述步骤(1)中文本-图像特征独立提取具体步骤如下:
(1.1)图像特征提取:选取基于ResNet-101的Faster R-CNN提取图像特征图,得到图像特征向量V={v1,v2,...,vk};其中vi∈V(1≤i≤k)表征图像第i个ROI特征,k为超参数,代表一幅图像提取的ROI总数;
(1.2)预处理原始文本:随机提取一部分尚未标记的大坝缺陷描述原始文本,对原始文本进行预处理;
(1.3)词典构建:将单个语句的文本语料分割为若干个单词,将分割出的每一个单词录入词典;若词典中已存在该单词,则舍弃;所有词典中的单词集合即为大坝缺陷描述词典,词典总词数为voc_size;
(1.4)文本编码:基于大坝缺陷描述词典,使用最大正向匹配算法对每一段文本进行准确分词,若出现新词和变形词则删除该词,分词后直接使用词典对文本进行One-Hot编码得到维度为Rseq_len*voc_size的文本编码,与嵌入矩阵相乘转换维度后得到文本编码{x1,x2,...,xn};
(1.5)文本特征提取:将步骤(1.4)得到的文本编码{x1,x2,...,xn}输入BERT模型中,提取得到文本特征向量E={e1,e2,...,en};其中ej∈E(1≤j≤n)表征文本中第j个单词的特征,n为超参数,代表指定最大单个句长。
5.根据权利要求4所述的基于交叉注意力的大坝缺陷图像文本跨模态检索方法,其特征在于,所述步骤(2)中捕捉图像和文本间交互特征向量具体步骤如下:
(2.1)图像-文本特征语义对齐:将步骤(1.1)和(1.5)中得到的特征向量输入到交叉注意力模块CAM中;CAM由k个TEs模块构成,每个TEs模块由m个Transformer叠加而成,利用Transformer的自注意力机制提取每一个ROI与整段文本的交互特征向量;
(2.2)第i个TEs模块交叉特征向量计算:第i个TEs模块的输入向量是{vi,e1,e2,...,en},输入向量{vi,e1,e2,...,en}由两部分组成,图像第i个ROI特征vi和整段文本特征{e1,e2,...,en}。交叉注意力模块利用Transformer的自注意力机制提取ROI与文本的交互特征,得到输出向量输出向量包含两部分,融合文本特征的ROI特征ai与融合ROI特征的文本特征
9.一种基于交叉注意力的大坝缺陷图像文本跨模态检索模型,其特征在于,包括图像特征提取、构建大坝缺陷描述词典提取文本特征、图像-文本特征语义对齐、图像-文本相似性矩阵构造、图像-文本全局相似度计算和最小化损失函数优化模型六个模块;
所述图像特征提取模块首先提取大坝缺陷图像特征图,并获得图像特征图质量评分,其次提取大坝描述文本特征;
所述构建大坝缺陷描述词典提取文本特征模块,基于大坝缺陷原始描述文本构建大坝缺陷描述词典,基于词典进行分词,将分词结果进行编码,将得到的文本编码输入BERT模型中,提取得到文本特征向量;
所述图像-文本特征语义对齐模块,将特征向量输入到交叉注意力模块中,输出得到图像和文本相互指导的交互特征矩阵;
所述图像-文本相似性矩阵构造模块,输入交互特征矩阵,输入内容构造相似性矩阵,使用余弦相似度来度量第i个区域与第j个单词之间的相似度;
所述图像-文本全局相似度计算模块,对相似性矩阵进行池化,在文本检索任务中得到图像-文本全局相似度SI2T,在图像检索任务中得到文本-图像的全局相似度ST2I;
所述最小化损失函数优化模型模块,对全局相似度采用铰链三元排序函数Loss(V,E)作为损失函数,每次检索只用最不相似负样本作为损失加入计算,最小化损失函数来调整网络权重。
10.根据权利要求9所述的基于交叉注意力的大坝缺陷图像文本跨模态检索模型,其特征在于,所述最小化损失函数优化模型模块中损失函数的具体计算包含以下内容:
①在文本检索任务中:排序损失函数LE(V,E)定义如下所示:
LE(V,E)=[α-S(V,E)+S(V,E-)]+ (4)
其中,α是间隔参数,[x]+=max(x,0),S为图像与文本的全局相似度;E-是对于图像V来说最不相似的文本;
②在图像检索任务中:排序损失函数LV(V,E)定义如下所示:
LV(V,E)=[α-S(V,E)+S(V-,E)]+ (6)
其中,α是间隔参数,[x]+=max(x,0),S为图像与文本的全局相似度;V-是对于文本E来说最不相似的图像。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110535542.9A CN113220919B (zh) | 2021-05-17 | 2021-05-17 | 一种大坝缺陷图像文本跨模态检索方法及模型 |
PCT/CN2022/087296 WO2022242388A1 (zh) | 2021-05-17 | 2022-04-18 | 一种大坝缺陷图像文本跨模态检索方法及模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110535542.9A CN113220919B (zh) | 2021-05-17 | 2021-05-17 | 一种大坝缺陷图像文本跨模态检索方法及模型 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113220919A true CN113220919A (zh) | 2021-08-06 |
CN113220919B CN113220919B (zh) | 2022-04-22 |
Family
ID=77092399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110535542.9A Active CN113220919B (zh) | 2021-05-17 | 2021-05-17 | 一种大坝缺陷图像文本跨模态检索方法及模型 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113220919B (zh) |
WO (1) | WO2022242388A1 (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763291A (zh) * | 2021-09-03 | 2021-12-07 | 深圳信息职业技术学院 | 保持边界滤波算法的性能评价方法、智能终端及存储介质 |
CN113806579A (zh) * | 2021-09-17 | 2021-12-17 | 中国电信集团系统集成有限责任公司 | 文本图像检索方法和装置 |
CN114140673A (zh) * | 2022-02-07 | 2022-03-04 | 人民中科(济南)智能技术有限公司 | 一种违规图像识别方法、系统及设备 |
CN114201621A (zh) * | 2021-11-24 | 2022-03-18 | 人民网股份有限公司 | 基于图文协同注意力的跨模态检索模型构建及检索方法 |
CN114297424A (zh) * | 2021-11-16 | 2022-04-08 | 天云融创数据科技(北京)有限公司 | 图像检索方法、装置、电子设备、介质和程序产品 |
CN114492646A (zh) * | 2022-01-28 | 2022-05-13 | 北京邮电大学 | 一种基于跨模态互注意力机制的图文匹配方法 |
CN114780690A (zh) * | 2022-06-20 | 2022-07-22 | 成都信息工程大学 | 基于多模态矩阵向量表示的专利文本检索方法及装置 |
CN114821770A (zh) * | 2022-04-11 | 2022-07-29 | 华南理工大学 | 文本到图像的跨模态行人再识别方法、系统、介质和设备 |
CN114898121A (zh) * | 2022-06-13 | 2022-08-12 | 河海大学 | 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法 |
WO2022242388A1 (zh) * | 2021-05-17 | 2022-11-24 | 河海大学 | 一种大坝缺陷图像文本跨模态检索方法及模型 |
CN116402063A (zh) * | 2023-06-09 | 2023-07-07 | 华南师范大学 | 多模态讽刺识别方法、装置、设备以及存储介质 |
CN116861361A (zh) * | 2023-06-27 | 2023-10-10 | 河海大学 | 一种基于图像-文本多模态融合的大坝形变评估方法 |
CN117152142A (zh) * | 2023-10-30 | 2023-12-01 | 菲特(天津)检测技术有限公司 | 一种轴承缺陷检测模型构建方法及系统 |
WO2024055805A1 (zh) * | 2022-09-15 | 2024-03-21 | 北京京东拓先科技有限公司 | 数据检索方法、影像数据检索方法及装置 |
WO2024109223A1 (zh) * | 2023-07-18 | 2024-05-30 | 西北工业大学 | 一种用户需求驱动的关键数据提取方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116704405B (zh) * | 2023-05-22 | 2024-06-25 | 阿里巴巴(中国)有限公司 | 行为识别方法、电子设备及存储介质 |
CN117853492B (zh) * | 2024-03-08 | 2024-08-06 | 厦门微亚智能科技股份有限公司 | 一种基于融合模型的智能化工业缺陷检测方法及系统 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006262187A (ja) * | 2005-03-17 | 2006-09-28 | Ricoh Co Ltd | 画像処理装置およびプログラム |
EP2637128A1 (en) * | 2012-03-06 | 2013-09-11 | beyo GmbH | Multimodal text input by a keyboard/camera text input module replacing a conventional keyboard text input module on a mobile device |
CN109783657A (zh) * | 2019-01-07 | 2019-05-21 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
CN109992686A (zh) * | 2019-02-24 | 2019-07-09 | 复旦大学 | 基于多角度自注意力机制的图像-文本检索系统及方法 |
CN110490946A (zh) * | 2019-07-15 | 2019-11-22 | 同济大学 | 基于跨模态相似度和生成对抗网络的文本生成图像方法 |
CN110909673A (zh) * | 2019-11-21 | 2020-03-24 | 河北工业大学 | 一种基于自然语言描述的行人再识别方法 |
CN111026894A (zh) * | 2019-12-12 | 2020-04-17 | 清华大学 | 基于可信度自适应匹配网络的跨模态图像文本检索方法 |
CN111639240A (zh) * | 2020-05-14 | 2020-09-08 | 山东大学 | 一种基于注意力感知机制的跨模态哈希检索方法及系统 |
CN111737458A (zh) * | 2020-05-21 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 基于注意力机制的意图识别方法、装置、设备及存储介质 |
CN111858984A (zh) * | 2020-07-13 | 2020-10-30 | 济南浪潮高新科技投资发展有限公司 | 一种基于注意力机制哈希检索的图像匹配方法 |
CN112148916A (zh) * | 2020-09-28 | 2020-12-29 | 华中科技大学 | 一种基于监督的跨模态检索方法、装置、设备及介质 |
US20210073526A1 (en) * | 2019-09-10 | 2021-03-11 | Blue Planet Training, Inc. | System and Method for Visual Analysis of Emotional Coherence in Videos |
CN112784092A (zh) * | 2021-01-28 | 2021-05-11 | 电子科技大学 | 一种混合融合模型的跨模态图像文本检索方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147457B (zh) * | 2019-02-28 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 图文匹配方法、装置、存储介质及设备 |
CN113220919B (zh) * | 2021-05-17 | 2022-04-22 | 河海大学 | 一种大坝缺陷图像文本跨模态检索方法及模型 |
-
2021
- 2021-05-17 CN CN202110535542.9A patent/CN113220919B/zh active Active
-
2022
- 2022-04-18 WO PCT/CN2022/087296 patent/WO2022242388A1/zh active Application Filing
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006262187A (ja) * | 2005-03-17 | 2006-09-28 | Ricoh Co Ltd | 画像処理装置およびプログラム |
EP2637128A1 (en) * | 2012-03-06 | 2013-09-11 | beyo GmbH | Multimodal text input by a keyboard/camera text input module replacing a conventional keyboard text input module on a mobile device |
CN109783657A (zh) * | 2019-01-07 | 2019-05-21 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
CN109992686A (zh) * | 2019-02-24 | 2019-07-09 | 复旦大学 | 基于多角度自注意力机制的图像-文本检索系统及方法 |
CN110490946A (zh) * | 2019-07-15 | 2019-11-22 | 同济大学 | 基于跨模态相似度和生成对抗网络的文本生成图像方法 |
US20210073526A1 (en) * | 2019-09-10 | 2021-03-11 | Blue Planet Training, Inc. | System and Method for Visual Analysis of Emotional Coherence in Videos |
CN110909673A (zh) * | 2019-11-21 | 2020-03-24 | 河北工业大学 | 一种基于自然语言描述的行人再识别方法 |
CN111026894A (zh) * | 2019-12-12 | 2020-04-17 | 清华大学 | 基于可信度自适应匹配网络的跨模态图像文本检索方法 |
CN111639240A (zh) * | 2020-05-14 | 2020-09-08 | 山东大学 | 一种基于注意力感知机制的跨模态哈希检索方法及系统 |
CN111737458A (zh) * | 2020-05-21 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 基于注意力机制的意图识别方法、装置、设备及存储介质 |
CN111858984A (zh) * | 2020-07-13 | 2020-10-30 | 济南浪潮高新科技投资发展有限公司 | 一种基于注意力机制哈希检索的图像匹配方法 |
CN112148916A (zh) * | 2020-09-28 | 2020-12-29 | 华中科技大学 | 一种基于监督的跨模态检索方法、装置、设备及介质 |
CN112784092A (zh) * | 2021-01-28 | 2021-05-11 | 电子科技大学 | 一种混合融合模型的跨模态图像文本检索方法 |
Non-Patent Citations (3)
Title |
---|
ZHOU NAN等: "Cross-Modal Search for Social Networks via Adversarial Learning", 《COMPUTATIONAL INTELLIGENCE AND NEUROSCIENCE》 * |
储晶晶: "面向菜谱领域的跨模态检索方法研究", 《HTTPS://D.WANFANGDATA.COM.CN/THESIS/CHJUAGVZAXNOZXDTMJAYMTEYMDESCUQWMJE5MTI5MHOINMPUYWVLC3O%3D》 * |
姚洪磊: "注意力感知深度跨模态哈希方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022242388A1 (zh) * | 2021-05-17 | 2022-11-24 | 河海大学 | 一种大坝缺陷图像文本跨模态检索方法及模型 |
CN113763291B (zh) * | 2021-09-03 | 2023-08-29 | 深圳信息职业技术学院 | 保持边界滤波算法的性能评价方法、智能终端及存储介质 |
CN113763291A (zh) * | 2021-09-03 | 2021-12-07 | 深圳信息职业技术学院 | 保持边界滤波算法的性能评价方法、智能终端及存储介质 |
CN113806579A (zh) * | 2021-09-17 | 2021-12-17 | 中国电信集团系统集成有限责任公司 | 文本图像检索方法和装置 |
CN114297424A (zh) * | 2021-11-16 | 2022-04-08 | 天云融创数据科技(北京)有限公司 | 图像检索方法、装置、电子设备、介质和程序产品 |
CN114201621A (zh) * | 2021-11-24 | 2022-03-18 | 人民网股份有限公司 | 基于图文协同注意力的跨模态检索模型构建及检索方法 |
CN114201621B (zh) * | 2021-11-24 | 2024-04-02 | 人民网股份有限公司 | 基于图文协同注意力的跨模态检索模型构建及检索方法 |
CN114492646A (zh) * | 2022-01-28 | 2022-05-13 | 北京邮电大学 | 一种基于跨模态互注意力机制的图文匹配方法 |
CN114140673A (zh) * | 2022-02-07 | 2022-03-04 | 人民中科(济南)智能技术有限公司 | 一种违规图像识别方法、系统及设备 |
CN114821770A (zh) * | 2022-04-11 | 2022-07-29 | 华南理工大学 | 文本到图像的跨模态行人再识别方法、系统、介质和设备 |
CN114821770B (zh) * | 2022-04-11 | 2024-03-26 | 华南理工大学 | 文本到图像的跨模态行人再识别方法、系统、介质和设备 |
CN114898121A (zh) * | 2022-06-13 | 2022-08-12 | 河海大学 | 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法 |
WO2023241272A1 (zh) * | 2022-06-13 | 2023-12-21 | 华能澜沧江水电股份有限公司 | 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法 |
CN114898121B (zh) * | 2022-06-13 | 2023-05-30 | 河海大学 | 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法 |
CN114780690A (zh) * | 2022-06-20 | 2022-07-22 | 成都信息工程大学 | 基于多模态矩阵向量表示的专利文本检索方法及装置 |
CN114780690B (zh) * | 2022-06-20 | 2022-09-09 | 成都信息工程大学 | 基于多模态矩阵向量表示的专利文本检索方法及装置 |
WO2024055805A1 (zh) * | 2022-09-15 | 2024-03-21 | 北京京东拓先科技有限公司 | 数据检索方法、影像数据检索方法及装置 |
CN116402063A (zh) * | 2023-06-09 | 2023-07-07 | 华南师范大学 | 多模态讽刺识别方法、装置、设备以及存储介质 |
CN116402063B (zh) * | 2023-06-09 | 2023-08-15 | 华南师范大学 | 多模态讽刺识别方法、装置、设备以及存储介质 |
CN116861361A (zh) * | 2023-06-27 | 2023-10-10 | 河海大学 | 一种基于图像-文本多模态融合的大坝形变评估方法 |
CN116861361B (zh) * | 2023-06-27 | 2024-05-03 | 河海大学 | 一种基于图像-文本多模态融合的大坝形变评估方法 |
WO2024109223A1 (zh) * | 2023-07-18 | 2024-05-30 | 西北工业大学 | 一种用户需求驱动的关键数据提取方法 |
CN117152142B (zh) * | 2023-10-30 | 2024-02-02 | 菲特(天津)检测技术有限公司 | 一种轴承缺陷检测模型构建方法及系统 |
CN117152142A (zh) * | 2023-10-30 | 2023-12-01 | 菲特(天津)检测技术有限公司 | 一种轴承缺陷检测模型构建方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2022242388A1 (zh) | 2022-11-24 |
CN113220919B (zh) | 2022-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113220919B (zh) | 一种大坝缺陷图像文本跨模态检索方法及模型 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN112905827B (zh) | 跨模态图文匹配的方法、装置及计算机可读存储介质 | |
CN110909673B (zh) | 一种基于自然语言描述的行人再识别方法 | |
CN108228915B (zh) | 一种基于深度学习的视频检索方法 | |
CN112231472B (zh) | 融入领域术语词典的司法舆情敏感信息识别方法 | |
CN109902175A (zh) | 一种基于神经网络结构模型的文本分类方法及分类系统 | |
CN106598959B (zh) | 一种确定双语语句对互译关系方法及系统 | |
CN103984943A (zh) | 一种基于贝叶斯概率框架的场景文本识别方法 | |
CN113298151A (zh) | 一种基于多级特征融合的遥感图像语义描述方法 | |
CN114743020A (zh) | 一种结合标签语义嵌入和注意力融合的食物识别方法 | |
CN115761757A (zh) | 基于解耦特征引导的多模态文本页面分类方法 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN112052319B (zh) | 一种基于多特征融合的智能客服方法及系统 | |
CN114647715A (zh) | 一种基于预训练语言模型的实体识别方法 | |
Xiao et al. | An extended attention mechanism for scene text recognition | |
CN115019103A (zh) | 基于坐标注意力群组优化的小样本目标检测方法 | |
CN109582743B (zh) | 一种针对恐怖袭击事件的数据挖掘系统 | |
CN112989830B (zh) | 一种基于多元特征和机器学习的命名实体识别方法 | |
CN114722798A (zh) | 一种基于卷积神经网络和注意力机制的反讽识别模型 | |
CN116935411A (zh) | 一种基于字符分解和重构的部首级古文字识别方法 | |
Wang et al. | Robust recognition of Chinese text from cellphone-acquired low-quality identity card images using convolutional recurrent neural network. | |
CN113553947B (zh) | 生成描述多模态行人重识别方法、装置及电子设备 | |
CN117077680A (zh) | 问答意图识别方法及装置 | |
CN110968795B (zh) | 一种公司形象提升系统的数据关联匹配系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |