CN113657400A - 基于跨模态文本检索注意力机制的文本指导图像分割方法 - Google Patents
基于跨模态文本检索注意力机制的文本指导图像分割方法 Download PDFInfo
- Publication number
- CN113657400A CN113657400A CN202110952433.7A CN202110952433A CN113657400A CN 113657400 A CN113657400 A CN 113657400A CN 202110952433 A CN202110952433 A CN 202110952433A CN 113657400 A CN113657400 A CN 113657400A
- Authority
- CN
- China
- Prior art keywords
- text
- modal
- feature
- vector
- visual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
一种基于跨模态文本检索注意力机制的文本指导图像分割方法,该方法将文本作为查询向量,多模态特征作为检索空间,自适应关注多模态特征空间中与文本相似区域,定位目标物体。该方法包括:特征提取、图文信息深度融合、深层次关系捕捉和多层级特征混合。采用卷积网络和长短时记忆网络提取视觉、语言特征;使用哈达玛积将视觉、语言特征信息深度融合;采用基于文本查询的注意力机制获取图片场景中与文本描述相似区域,最后将多个层级的特征混合分割目标物体。该方法能够在复杂场景下有效提高定位目标的准确度,实现区域的精确分割。
Description
技术领域
本发明属于计算机视觉与自然语言处理的交叉技术领域,涉及一种基于跨模态文本检索注意力机制的文本指导图像分割方法。
背景技术
文本指导图像分割任务的目标是根据给定的自然语言定位和分割出文本所描述的物体或区域。它不仅可以识别固定类别,同时能够理解表达丰富多变的自然语言。相比于普通的图像分割任务,该任务能够建立起人类与计算机直接快速沟通的桥梁,在实际应用中更加符合直观需求,可方便应用在人机交互、图片编辑等日常生活中,具有广泛的商用价值及深远的研究意义。文本指导图像分割任务要求计算机对所观察场景下物体的认识不仅停留在“认知”的层面,同时要对物体的种类、大小、形状等属性以及与周边物体之间的相关性正确“理解”。需要将文本与图像的特征信息映射统一,根据语言中提及的物体关系对图片中多实体关系进行推理正确定位,并且需要对定位区域精确分割。
现阶段的文本指导图像分割方法大多采用将文本特征与图像视觉特征直接相加或者级联的简单方式整合多模态信息逐像素分割预测结果。然而这种简单的融合方式低估了文本与图像信息交互的重要性,忽略了文本对于图像信息的引导决策,同时缺乏模型的可解释性。很大程度影响了模型定位目标的准确性,导致模型预测出错误的物体所在区域。
发明内容
为了克服上述现有技术的缺点,本发明提供了一个基于跨模态文本检索注意力机制的文本指导图像分割方法,通过使用自然语言文本显式地检索多模态特征空间,最终指导分割结果的生成。该方法在复杂文本描述或具有多个同类别物体的场景下,能有效的提高分割结果地准确性。
为了实现上述目的,本发明采用的技术方案是:
基于跨模态文本检索注意力机制的文本指导图像分割方法,其包括步骤:
(1)特征提取:
对输入自然语言文本和RGB图片进行特征提取。
对于自然语言文本,使用one-hot方法将每个单词表示为向量,将该向量嵌入成低维向量后输入LSTM长短时记忆网络,将最终隐藏态作为整个自然语言文本的文本表示向量Fl。
对于RGB图片,采用ResNet-101卷积神经网络的Res3,Res4,Res5层提取图片特征作为视觉特征在三层特征图使用相同处理步骤,为方便表示视觉特征统称为Fv。其中卷积神经网络采用DeepLab语义分割模型预训练参数作为初始参数,使用DeepLab预训练参数能有效的减少网络训练时间,提高网络的泛化能力。之后将每个视觉特征向量的位置坐标嵌入视觉特征Fv中,具体过程:对于长宽为w,h的视觉特征图,其中w=h=40。以视觉特征图的中心位置作为坐标原点(0,0),特征图左上角位置坐标记为(-1,-1),右下角位置坐标记为(+1,+1),特征图中第i行j列的像素空间位置坐标为
最后将视觉特征Fv与文本表示向量Fl级联后映射至500维的文本图像多模态特征空间M。
(2)图文信息深度融合:
将步骤(1)中生成的文本表示向量Fl与多模态特征空间M中的每个位置做哈达玛乘积实现对二者多模态信息的建模,实现文本与图像信息深度融合至统一的多模态混合特征空间M′,有利于后面模块对于目标物体所在区域的正确定位。
(3)深层次关系捕捉:
将步骤(1)中生成的文本表示向量Fl作为注意力机制的查询向量,步骤(2)生成的多模态混合特征空间M′作为检索区域,使用基于文本的跨模态注意力机制查询多模态混合特征空间中与文本相似区域,生成具有定位目标物体的特征图R。
基于文本的跨模态注意力机制不同于普通的注意力机制,通过增加二次注意力机制,增强了查询向量与第一次注意力机制结果之间的相关性,以减少查询向量与多模态混合特征之间的不同信息形式的差异性。其中使用第一次注意力结果生成的信息向量I和注意力门控单元G来促进目标物体的正确定位,该方法相比于普通的级联方法能够有效抵抗冗余单词的干扰,在复杂场景下正确定位目标物体所处区域,提高模型的正确率。
(4)多层级特征混合:
步骤(1)中采用的ResNet101视觉编码器能够得到三个来自Res3,Res4,Res5层级的视觉特征Fv。因此在获取方法预测的最终结果需要将三个层级的特征进行混合。
使用R(i)表示步骤(3)生成的第i层的混合信息特征图i∈{3,4,5}。由于R(i)属于不同层深层次关系捕捉模块输出的特征图,具有着不同的通道维度,因此首先使用1×1卷积将所有不同层的混合特征图通道压缩成相同维度数,将映射后的输出结果记为X(i)。之后对于第i个层级,使用一个记忆门单元m(i)和重置门单元联合控制最终结果的生成,记忆门单元m(i)和重置门单元r(i)的作用类似于长短时记忆网络中的门控单元,控制着对应层中特征对于最终结果的贡献度,贡献度权重比例越高,意味着对应层语义信息提供的越多,所处特征层越重要。此外还包含一个上下文控制器C(i),用来表示其他层流至第i层特征的信息。门控多层级混合能够有效融合来自不同层级的特征语义信息,通过学习训练的手段自动生成最佳权重比例,无需人工先验干涉,使模型结果更加准确,提高模型的分割细节精度。
与现有技术相比,本发明能够使基于文本的图像分割方法适应复杂、具有多个描述实体的自然语言情景,正确定位到描述区域。本发明的方法可以应用于人机交互,交互式图片编辑等各个领域。
附图说明
图1为本发明的整体架构图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
图1给出本发明的基于文本的图像分割方法框架设计,主要过程如下:
首先将所有图片大小均调整为320×320。用DeepLab预训练的特征提取网络提取视觉特征Fv。对于自然语言采用随机的方式初始化词向量,将one-hot词向量嵌入至1000维向量,通过LSTM长短时记忆网络得到句子的向量表示。LSTM文本最长单词数取20,长短时记忆网络的具体计算过程如公式所示:ht=LSTM(xt,ht-1);
其中ht表示LSTM输出向量,xt表示LSTM输入向量,ht-1表示上一层LSTM的输出隐状态。将最后一层的隐状态作为文本的向量表示Fl。
之后将视觉特征与文本特征级联混合。
M=Φ(concat(Fv,Fl,Cord))
其中,Cord表示视觉空间位置坐标,Φ表示映射函数,M表示生成的具有文本与图像信息的多模态混合特征。
接着,采用哈达玛积融合多模态特征。
F=M⊙fL
根据上一步骤得到的多模态特征F采用基于文本查询的跨模态注意力机制,获取特征中与文本相似的区域。计算过程如下:
其中将文本表示特征Fl作为查询向量Q,图文多模态混合特征M′作为键向量K和值向量V。第一次采用传统的注意力机制得到具有文本辅助的决策结果记作Att。
Fusion=concat(Att,F)
I=CNN(Fusion)
G=Sigmoid(CNN(Fusion))
R=I⊙G
然后将多模态特征F与第一次注意力结果Att相连后再次进行第二次注意力过程,这里使用两个1×1卷积操作生成信息向量I和注意力门控单元G,其中两个卷积操作参数不能共享。信息向量I相当于第二次注意力的查询向量,相比于文本表示向量Q,与视觉特征间差异性更小,更适用于找出多模态特征空间中与查询向量相似的空间特征向量。注意力门控单元G用于控制第一次注意力生成结果Att和多模态语义特征F之间的贡献度,模型通过训练自动调节Att与F特征之间的权重占比,以实现生成更好的模型结果。
实施例
在本实施例中,在GTX 1080显卡上,采用深度学习框架Tensorflow。
数据集:实验评估是在标准公开数据集G-ref上进行的。该数据集包括26711张图片,104560句自然语言文本,其中文本长度平均在8.43个单词,属于基于文本的图像分割数据集中较为复杂的数据集。
为证明基于跨模态文本检索注意力机制的文本指导图像分割方法的有效性,通过在G-Ref数据集上测试IoU指标。结果如表1所示。实验证明本发明的方法能够有效提高结果的准确度。
从实验结果中可以看出,本发明相比于现有技术对复杂多实体的自然语言文本描述定位更加准确,更具有鲁棒性。
Claims (1)
1.一种基于跨模态文本检索注意力机制的文本指导图像分割方法,其特征在于,步骤如下:
(1)特征提取:
对输入自然语言文本和RGB图片进行特征提取;
对于自然语言文本,使用one-hot方法将每个单词表示为向量,将该向量嵌入成低维向量后输入LSTM长短时记忆网络,将最终隐藏态作为整个自然语言文本的文本表示向量Fl;
对于RGB图片,采用ResNet-1O1卷积神经网络的Res3,Res4,Res5层提取图片特征作为视觉特征在三层特征图使用相同处理步骤,视觉特征统称为Fv;其中卷积神经网络采用DeepLab语义分割模型预训练参数作为初始参数;之后将每个视觉特征向量的位置坐标嵌入视觉特征Fv中,具体过程如下:
对于长宽为w,h的视觉特征图,其中w=h=40;以视觉特征图的中心位置作为坐标原点(0,0),特征图左上角位置坐标记为(-1,-1),右下角位置坐标记为(+1,+1),特征图中第i行j列的像素空间位置坐标为
最后将视觉特征Fv与文本表示向量Fl级联后映射至500维的文本图像多模态特征空间M;
(2)图文信息深度融合:
将步骤(1)中生成的文本表示向量Fl与多模态特征空间M中的每个位置做哈达玛乘积实现对二者多模态信息的建模,实现文本与图像信息深度融合至统一的多模态混合特征空间M′;
(3)深层次关系捕捉:
将步骤(1)中生成的文本表示向量Fl作为注意力机制的查询向量,步骤(2)生成的多模态混合特征空间M′作为检索区域,使用基于文本的跨模态注意力机制查询多模态混合特征空间中与文本相似区域,生成具有定位目标物体的特征图R;
(4)多层级特征混合:
步骤(1)中采用的ResNet101视觉编码器能够得到三个来自Res3,Res4,Res5层级的视觉特征Fv;在获取方法预测的最终结果需要将三个层级的特征进行混合;
使用R(i)表示步骤(3)生成的第i层的混合信息特征图i∈{3,4,5};由于R(i)属于不同层深层次关系捕捉模块输出的特征图,具有着不同的通道维度;首先使用1×1卷积将所有不同层的混合特征图通道压缩成相同维度数,将映射后的输出结果记为X(i);之后对于第i个层级,使用一个记忆门单元m(i)和重置门单元联合控制最终结果的生成,记忆门单元m(i)和重置门单元r(i)的作用类似于长短时记忆网络中的门控单元,控制着对应层中特征对于最终结果的贡献度,贡献度权重比例越高,意味着对应层语义信息提供的越多,所处特征层越重要;此外还包含一个上下文控制器C(i),用来表示其他层流至第i层特征的信息;门控多层级混合能够有效融合来自不同层级的特征语义信息,通过学习训练的手段自动生成最佳权重比例,使模型结果更加准确,提高模型的分割细节精度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110952433.7A CN113657400A (zh) | 2021-08-19 | 2021-08-19 | 基于跨模态文本检索注意力机制的文本指导图像分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110952433.7A CN113657400A (zh) | 2021-08-19 | 2021-08-19 | 基于跨模态文本检索注意力机制的文本指导图像分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113657400A true CN113657400A (zh) | 2021-11-16 |
Family
ID=78481219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110952433.7A Pending CN113657400A (zh) | 2021-08-19 | 2021-08-19 | 基于跨模态文本检索注意力机制的文本指导图像分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657400A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113889281A (zh) * | 2021-11-17 | 2022-01-04 | 重庆邮电大学 | 一种中文医疗智能实体识别方法、装置及计算机设备 |
CN113971209A (zh) * | 2021-12-22 | 2022-01-25 | 松立控股集团股份有限公司 | 一种基于注意力机制增强的无监督跨模态检索方法 |
CN114283127A (zh) * | 2021-12-14 | 2022-04-05 | 山东大学 | 一种多模态信息指导的医学图像分割系统及图像处理方法 |
CN115080880A (zh) * | 2022-08-23 | 2022-09-20 | 山东建筑大学 | 一种基于鲁棒相似保持的跨模态检索方法及系统 |
CN115858847A (zh) * | 2023-02-22 | 2023-03-28 | 成都考拉悠然科技有限公司 | 基于跨模态注意力保留的组合式查询图像检索方法 |
CN116186310A (zh) * | 2023-05-04 | 2023-05-30 | 苏芯物联技术(南京)有限公司 | 一种融合ai通用助手的ar空间标注及展示方法 |
WO2023246822A1 (zh) * | 2022-06-22 | 2023-12-28 | 华为技术有限公司 | 一种图像处理方法和终端设备 |
WO2024012251A1 (zh) * | 2022-07-11 | 2024-01-18 | 北京字跳网络技术有限公司 | 语义分割模型训练方法、装置、电子设备及存储介质 |
-
2021
- 2021-08-19 CN CN202110952433.7A patent/CN113657400A/zh active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113889281A (zh) * | 2021-11-17 | 2022-01-04 | 重庆邮电大学 | 一种中文医疗智能实体识别方法、装置及计算机设备 |
CN113889281B (zh) * | 2021-11-17 | 2024-05-03 | 华美浩联医疗科技(北京)有限公司 | 一种中文医疗智能实体识别方法、装置及计算机设备 |
CN114283127A (zh) * | 2021-12-14 | 2022-04-05 | 山东大学 | 一种多模态信息指导的医学图像分割系统及图像处理方法 |
CN114283127B (zh) * | 2021-12-14 | 2024-04-23 | 山东大学 | 一种多模态信息指导的医学图像分割系统及图像处理方法 |
CN113971209A (zh) * | 2021-12-22 | 2022-01-25 | 松立控股集团股份有限公司 | 一种基于注意力机制增强的无监督跨模态检索方法 |
CN113971209B (zh) * | 2021-12-22 | 2022-04-19 | 松立控股集团股份有限公司 | 一种基于注意力机制增强的无监督跨模态检索方法 |
WO2023246822A1 (zh) * | 2022-06-22 | 2023-12-28 | 华为技术有限公司 | 一种图像处理方法和终端设备 |
WO2024012251A1 (zh) * | 2022-07-11 | 2024-01-18 | 北京字跳网络技术有限公司 | 语义分割模型训练方法、装置、电子设备及存储介质 |
CN115080880A (zh) * | 2022-08-23 | 2022-09-20 | 山东建筑大学 | 一种基于鲁棒相似保持的跨模态检索方法及系统 |
CN115080880B (zh) * | 2022-08-23 | 2022-11-08 | 山东建筑大学 | 一种基于鲁棒相似保持的跨模态检索方法及系统 |
CN115858847A (zh) * | 2023-02-22 | 2023-03-28 | 成都考拉悠然科技有限公司 | 基于跨模态注意力保留的组合式查询图像检索方法 |
CN116186310A (zh) * | 2023-05-04 | 2023-05-30 | 苏芯物联技术(南京)有限公司 | 一种融合ai通用助手的ar空间标注及展示方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113657400A (zh) | 基于跨模态文本检索注意力机制的文本指导图像分割方法 | |
Gao et al. | Video captioning with attention-based LSTM and semantic consistency | |
Zhao et al. | CAM-RNN: Co-attention model based RNN for video captioning | |
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
WO2022161298A1 (zh) | 信息生成方法、装置、设备、存储介质及程序产品 | |
CN112100346B (zh) | 基于细粒度图像特征和外部知识相融合的视觉问答方法 | |
CN109783666B (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN109874053A (zh) | 基于视频内容理解和用户动态兴趣的短视频推荐方法 | |
CN112036276A (zh) | 一种人工智能视频问答方法 | |
CN111598183A (zh) | 一种多特征融合图像描述方法 | |
CN111967272A (zh) | 基于语义对齐的视觉对话生成系统 | |
CN114663915A (zh) | 基于Transformer模型的图像人-物交互定位方法及系统 | |
CN114780777B (zh) | 基于语义增强的跨模态检索方法及装置、存储介质和终端 | |
Qu et al. | Attend to where and when: Cascaded attention network for facial expression recognition | |
CN115146100A (zh) | 一种基于反事实推理的跨模态检索模型、方法及计算机设备 | |
Khurram et al. | Dense-captionnet: a sentence generation architecture for fine-grained description of image semantics | |
Parvin et al. | Transformer-based local-global guidance for image captioning | |
CN110889505A (zh) | 一种图文序列匹配的跨媒体综合推理方法和系统 | |
Xue et al. | LCSNet: End-to-end lipreading with channel-aware feature selection | |
CN115909374A (zh) | 一种信息识别方法、装置、设备及存储介质、程序产品 | |
CN117315249A (zh) | 指代图像分割模型训练和分割方法、系统、设备及介质 | |
CN114511813B (zh) | 视频语义描述方法及装置 | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 | |
Zhou et al. | Joint scence network and attention-guided for image captioning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |