CN116204674A - 一种基于视觉概念词关联结构化建模的图像描述方法 - Google Patents

一种基于视觉概念词关联结构化建模的图像描述方法 Download PDF

Info

Publication number
CN116204674A
CN116204674A CN202310475627.1A CN202310475627A CN116204674A CN 116204674 A CN116204674 A CN 116204674A CN 202310475627 A CN202310475627 A CN 202310475627A CN 116204674 A CN116204674 A CN 116204674A
Authority
CN
China
Prior art keywords
visual
word
concept
semantic
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310475627.1A
Other languages
English (en)
Other versions
CN116204674B (zh
Inventor
张勇东
毛震东
张驰
王朋喆
陈伟东
宋彦
王婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202310475627.1A priority Critical patent/CN116204674B/zh
Publication of CN116204674A publication Critical patent/CN116204674A/zh
Application granted granted Critical
Publication of CN116204674B publication Critical patent/CN116204674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机视觉和自然语言处理领域。本发明提出了一种基于视觉概念词关联结构化建模的图像描述方法,通过图像描述模型对输入的图像,生成所述图像的描述语句。图像描述模型的训练过程包括:将训练数据输入视觉特征提取和编码模块,得到视觉特征;将视觉特征输入视觉概念预测模块,得到对应的视觉概念词,将视觉概念词输入视觉概念关联结构化建模模块,得到结构化视觉语义概念词特征;将视觉特征和结构化视觉语义概念词特征输入描述生成模块,得到描述语句。基于总体损失函数训练模型。本发明提供的方法对单词在文本模态中的语言学先验的提取做了有效的约束。

Description

一种基于视觉概念词关联结构化建模的图像描述方法
技术领域
本发明涉及人工智能领域,具体涉及一种基于视觉概念词关联结构化建模的图像描述方法。
背景技术
随着互联网技术的快速发展和应用,从图像获取信息、以图像传递信息逐渐成为人们日常生活的主流。这些图像为图像描述技术带来了极大的机遇和挑战。图像描述作为现代计算机跨模态领域的一个代表性任务,贯通了计算机视觉与自然语言处理两个领域的技术,旨在让计算机识别、分析和理解给定图像的内容,并准确生成流畅自然的描述性语句,辅助信息传递。图像描述技术在教育、辅助医疗、人机交互等方面具有广阔的实际应用价值和前景。
传统方法通常将预训练的视觉特征提取器作为编码器来挖掘图像中的视觉信息,再联合部分已生成的文本信息,送入Transformer解码器中预测文本描述。这种方式通常存在两方面缺陷:一方面,视觉特征提取器的感知能力受到预定义的类标签的严重限制,使得解码器过度依赖语言先验,有时生成的单词根本不切合图像;另一方面,图像和文本之间存在巨大的语义鸿沟,难以建立它们之间的跨模态语义一致性。
为此,一些技术提出利用视觉概念作为中介以缓解上述缺陷。视觉概念可以定义为语义与视觉内容高度相关的文本单词,同时也是构成对应文本描述的主要关键词,例如涉及的主体、主体间关系、主体的属性等,其丰富而准确的语义信息可以为建立视觉内容到文本描述的对齐映射提供桥梁。
然而,现有的相关技术往往忽略了不同视觉概念词在视觉模态中潜在的语义关联,并不能充分缓解对语言先验的过度依赖。视觉概念词之间的关系并不仅来自于文本模态中单词间天然存在的语言学依赖关系,也来自于视觉模态中不同区域特征间的关联。
这种视觉模态的关联既有助于模型更好地对齐两种模态的语义信息,又可以使模型在遇见未曾见过样本时能够根据实际的视觉内容进行预测,并排除掉语言先验引导的可信度较低的答案,提升模型的鲁棒性。例如,模型从样本中预测出了视觉概念词“喝”和“婴儿”,如果它已经解码出了“婴儿→喝”,那么模型将很容易受语言先验影响没有考虑图像信息直接生成“喝→水”,而不是实际上更贴合视觉内容“喝→牛奶”。
发明内容
为解决上述问题,本发明提供一种基于视觉概念词关联结构化建模的图像描述方法。
该方法包括:
通过图像描述模型对输入的图像,生成描述语句,所述图像描述模型的训练过程,包括以下步骤:
步骤一,准备训练数据集,训练数据集中包括若干图像,以及图像对应的单词标签;
步骤二,图像特征提取和编码:定义训练数据集中的图像为图像I,将图像I进行图像编码,得到初步图像特征,然后将初步图像特征输入若干个Transformer编码器中进一步编码,取最后一个Transformer编码器的输出作为视觉特征
Figure SMS_1
步骤三,视觉概念预测任务:随机初始化一组语义向量
Figure SMS_2
,将视觉特征/>
Figure SMS_3
和语义向量
Figure SMS_4
一起送入若干个Transformer解码器,将最后一个Transformer解码器的输出作为视觉语义特征/>
Figure SMS_5
,则预测的视觉概念词/>
Figure SMS_6
,其中,/>
Figure SMS_7
代表多层感知预测网络;
步骤四,视觉概念关联结构化建模:为视觉概念词
Figure SMS_8
构造图及相应的邻接矩阵,利用图卷积网络探索视觉概念词/>
Figure SMS_9
之间的潜在关系,取图卷积网络最后一层的输出作为结构化视觉语义概念词特征/>
Figure SMS_10
步骤五,描述语句生成任务:以视觉特征
Figure SMS_11
和结构化视觉语义概念词特征/>
Figure SMS_12
作为标准Transformer解码器的输入,按顺序生成描述语句;
步骤六,联合优化:定义所述图像描述模型的总体损失函数L:
Figure SMS_13
其中
Figure SMS_14
为视觉概念预测任务的损失函数,/>
Figure SMS_15
为描述语句生成任务的损失函数;
步骤七,根据所述总体损失函数L训练所述图像描述模型。
进一步的,步骤二具体包括:
步骤二A,通过图像描述模型的视觉特征提取器将所述图像I进行图像编码,得到初步特征编码:
Figure SMS_16
其中,
Figure SMS_17
代表所述图像/>
Figure SMS_18
的初步特征编码,/>
Figure SMS_19
代表视觉特征提取器;
步骤二B,将所述初步特征编码输入若干个Transformer编码器中编码,取最后一个Transformer编码器输出的特征编码作为视觉特征
Figure SMS_20
Figure SMS_21
其中,
Figure SMS_22
表示Transformer编码器的编号,/>
Figure SMS_23
表示第/>
Figure SMS_24
个Transformer编码器输出的图像/>
Figure SMS_25
的特征编码,/>
Figure SMS_26
为层归一化运算,/>
Figure SMS_27
为Transformer的多头注意力机制操作:
Figure SMS_28
其中,Q、K、V分别代表多头注意力机制中的查询值、键值和真值,
Figure SMS_29
和/>
Figure SMS_30
分别是Q、K、V对应的可学习权值矩阵,/>
Figure SMS_31
表示可学习权值矩阵的列数,/>
Figure SMS_32
表示/>
Figure SMS_33
激活函数,T表示转置。
进一步的,步骤三具体包括:
步骤三A,随机初始化一组语义向量
Figure SMS_34
步骤三B,将所述视觉特征
Figure SMS_35
和所述语义向量/>
Figure SMS_36
一起输入若干个Transformer解码器,通过自注意力机制深度编码,输出语义特征,取最后一个Transformer解码器的输出作为视觉语义特征/>
Figure SMS_37
,Transformer解码器的输出计算如下:
Figure SMS_38
Figure SMS_39
其中,
Figure SMS_40
表示Transformer解码器的编号,/>
Figure SMS_41
表示第/>
Figure SMS_42
个Transformer解码器的输出,/>
Figure SMS_43
是Transformer解码器初始的查询值,/>
Figure SMS_44
为层归一化运算,/>
Figure SMS_45
为Transformer的多头注意力机制操作;
步骤三C,得到预测的视觉概念词
Figure SMS_46
Figure SMS_47
其中,
Figure SMS_48
表示多层感知预测网络;
步骤三D,则视觉概念预测任务的损失函数
Figure SMS_49
如下:
Figure SMS_50
其中,
Figure SMS_51
表示不对称损失,/>
Figure SMS_52
表示构建的视觉概念词标签。
进一步的,所述视觉概念词标签
Figure SMS_53
的构建方法包括:
将训练数据集进行清洗后,取出所述训练数据集所有单词中出现频率高于阈值的若干单词,组成一张语义词表
Figure SMS_54
比较所述图像
Figure SMS_55
的每个预测的视觉概念词/>
Figure SMS_56
是否属于所述语义词表/>
Figure SMS_57
,如是,将所述预测的视觉概念词/>
Figure SMS_58
加入所述视觉概念词标签/>
Figure SMS_59
,如否,在所述视觉概念词标签/>
Figure SMS_60
中加入特殊字符串,所述特殊字符串不同于所述语义词表/>
Figure SMS_61
中任意一个单词。
进一步的,步骤四具体包括:
步骤四A,统计所述训练数据集中每个单词出现的概率,以及在规定单词距离内任意两个单词按指定顺序同时出现的概率,然后计算任意两个单词
Figure SMS_62
的点间互信息分数:
Figure SMS_63
其中,
Figure SMS_64
代表/>
Figure SMS_67
的点间互信息分数,/>
Figure SMS_70
分别是
Figure SMS_66
在所述训练数据集中出现的概率,/>
Figure SMS_68
是/>
Figure SMS_71
和/>
Figure SMS_73
在按照/>
Figure SMS_65
在先/>
Figure SMS_69
在后,并且/>
Figure SMS_72
和/>
Figure SMS_74
在所述规定单词距离内出现的概率;
步骤四B,通过所述视觉概念词构造一个图,定义图的节点集合
Figure SMS_75
,k为所述视觉概念词的数量,每个节点代表一个所述视觉概念词,每条边代表该边所连接的两个节点之间的关系;/>
步骤四C,使用邻接矩阵
Figure SMS_76
表述所述图,/>
Figure SMS_77
是代表节点/>
Figure SMS_78
和/>
Figure SMS_79
的关系,
Figure SMS_80
代表节点/>
Figure SMS_81
和/>
Figure SMS_82
有关系或者i与j相等;
步骤四D,建立词典,将所述训练数据集中所有
Figure SMS_83
大于阈值的两个单词建立一个相关词对,将所述相关词对存入所述词典;
步骤四E,根据所述词典初始化所述邻接矩阵A;
步骤四F,通过图卷积网络处理所述图数据,得到所述结构化视觉语义概念词特征
Figure SMS_84
进一步的,根据所述词典初始化所述邻接矩阵A,包括:
Figure SMS_85
所代表的节点/>
Figure SMS_86
和/>
Figure SMS_87
对应的所述视觉概念词组成词对/>
Figure SMS_88
在所述词典中查找所述词对
Figure SMS_89
,如果能找到,则设/>
Figure SMS_90
;如果无法找到,比较i与j是否相等,如果相等,则设/>
Figure SMS_91
,如果不相等,则设/>
Figure SMS_92
进一步的,所述通过图卷积网络处理所述图数据,得到所述结构化视觉语义概念词特征
Figure SMS_93
,包括:
在所述图卷积网络的第
Figure SMS_95
层,对于每一个节点/>
Figure SMS_97
,在所述邻接矩阵中找到所有
Figure SMS_99
的/>
Figure SMS_96
,从第/>
Figure SMS_98
层取所有/>
Figure SMS_100
的隐藏向量/>
Figure SMS_101
,并计算/>
Figure SMS_94
的输出:
Figure SMS_102
其中,
Figure SMS_103
和/>
Figure SMS_108
分别为第/>
Figure SMS_111
层图卷积网络的可训练权重和偏置,/>
Figure SMS_105
为层归一化运算,/>
Figure SMS_106
为/>
Figure SMS_109
激活函数,/>
Figure SMS_112
代表第/>
Figure SMS_104
层里节点/>
Figure SMS_107
的一种整合/>
Figure SMS_110
所有相邻节点隐藏向量的向量;
取最后一层的输出作为所述结构化视觉语义概念词特征
Figure SMS_113
进一步的,步骤五包括:
按照Transformer解码器结构,以所述视觉特征
Figure SMS_114
和所述结构化视觉语义概念词特征/>
Figure SMS_115
作为输入,生成描述语句:
Figure SMS_116
Figure SMS_117
其中,
Figure SMS_118
是生成的描述语句中的第/>
Figure SMS_119
个单词,/>
Figure SMS_120
是中间隐藏状态;
描述语句生成任务的损失函数
Figure SMS_121
为:
Figure SMS_122
其中,
Figure SMS_123
为所述图像描述模型生成的描述语句,/>
Figure SMS_124
表示标注的描述语句,CE代表交叉熵损失。
本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
在思想上提出显式建模视觉概念词之间的关联信息,重点挖掘视觉模态信息以辅助模型学习建立更鲁棒的跨模态映射;在手段上利用图卷积网络来建立视觉概念词之间结构化的关联信息,基于数据集中单词的互信息对图进行初始化,对单词在文本模态中的语言学先验的提取做了有效的约束。
附图说明
图1为本发明实施例提供的训练流程图。
具体实施方式
以下结合附图和具体实施例,对本发明进行详细说明,在详细说明本发明各实施例的技术方案前,对所涉及的名词和术语进行解释说明,在本说明书中,名称相同或标号相同的部件代表相似或相同的结构,且仅限于示意的目的。
本发明提出了一种基于视觉概念词关联结构化建模的图像描述方法,通过图像描述模型对输入的图像,生成所述图像的描述语句。该图像描述模型包括视觉特征提取和编码模块、视觉概念预测模块、视觉概念关联结构化建模模块、描述生成模块。
视觉特征提取和编码模块用于提取视觉特征;视觉概念预测模块增强视觉信息的贡献,缩小图像与文本之间的语义鸿沟;视觉概念关联结构化建模模块根据词的依赖关系,建立视觉语义概念词的拓扑结构,用以控制生成描述的潜在句法结构,缓解对语言先验的过度依赖;描述生成模块利用视觉特征和结构化视觉语义概念词特征,预测图像的描述性句子,以提升图像描述的表现。再将视觉语义概念词预测任务和图像描述任务共同优化,如此,整个网络能够以端到端的方式进行训练,以更好地适应句子解码过程。
下面具体解释本发明的各个模块。
1.视觉特征提取和编码模块:
通过视觉特征提取器(例如预训练模型CLIP)将所述图像I进行图像编码,得到初步特征编码:
Figure SMS_125
其中,
Figure SMS_126
代表所述图像/>
Figure SMS_127
的初步特征编码,/>
Figure SMS_128
代表视觉特征提取器;
将所述初步特征编码输入若干个Transformer编码器中编码,取最后一个Transformer编码器的输出作为视觉特征
Figure SMS_129
,Transformer编码器输出计算如下公式:
Figure SMS_130
其中,
Figure SMS_131
表示Transformer编码器的编号,/>
Figure SMS_132
表示第/>
Figure SMS_133
个Transformer编码器输出的图像/>
Figure SMS_134
的特征编码,/>
Figure SMS_135
为层归一化运算,/>
Figure SMS_136
为Transformer的多头注意力机制操作:
Figure SMS_137
其中,Q,K,V分别代表多头注意力机制中的查询值、键值和真值,
Figure SMS_138
和/>
Figure SMS_139
分别是对应的可学习权值矩阵,/>
Figure SMS_140
表示可学习权值矩阵的列数,/>
Figure SMS_141
表示/>
Figure SMS_142
激活函数。/>
2.视觉概念预测模块
本模块基于编码后的视觉特征
Figure SMS_143
,预测对应的视觉概念词。
首先,随机初始化一组语义向量
Figure SMS_144
,作为注意力机制中的查询值来引导学习主体、主体间关系、主体属性等视觉概念词。
之后,将所述视觉特征
Figure SMS_145
和所述语义向量/>
Figure SMS_146
一起输入若干个Transformer解码器,通过自注意力机制深度编码,学习视觉信息与语义词间的潜在关联,输出语义特征。取最后一个所述Transformer解码器的输出作为视觉语义特征/>
Figure SMS_147
,Transformer解码器输出计算如下公式:
Figure SMS_148
Figure SMS_149
其中,
Figure SMS_150
表示Transformer解码器的编号,/>
Figure SMS_151
表示第/>
Figure SMS_152
个Transformer解码器的输出,/>
Figure SMS_153
是所述语义向量/>
Figure SMS_154
作为Transformer解码器初始的查询值,/>
Figure SMS_155
为层归一化运算;
最后,将视觉语义特征输入到预测网络,得到预测的视觉概念词
Figure SMS_156
Figure SMS_157
其中,
Figure SMS_158
表示预测的视觉概念词,/>
Figure SMS_159
表示多层感知预测网络;
为视觉概念预测模块单独定义损失函数
Figure SMS_160
,使其可以和描述生成模块共同优化,以更好地适应句子解码过程,损失函数/>
Figure SMS_161
如下:
Figure SMS_162
其中,
Figure SMS_163
表示不对称损失,/>
Figure SMS_164
表示视觉概念词标签。
所述视觉概念词标签
Figure SMS_165
的构建方法如下:
取出清洗后的所述训练数据集所有单词中出现频率高于阈值的若干单词组成一张语义词表
Figure SMS_167
;比较所述图像/>
Figure SMS_169
的每个所述预测的视觉概念词/>
Figure SMS_172
是否属于所述语义词表/>
Figure SMS_168
,如果所述预测的视觉概念词/>
Figure SMS_170
属于所述语义词表/>
Figure SMS_173
,将所述预测的视觉概念词/>
Figure SMS_175
加入所述视觉概念词标签/>
Figure SMS_166
,如果所述预测的视觉概念词不属于所述语义词表/>
Figure SMS_171
,在所述视觉概念词标签/>
Figure SMS_174
中加入特殊字符串,所述特殊字符串不同于所述语义词表/>
Figure SMS_176
中任意一个单词。
3.视觉概念关联结构化建模模块
从视觉概念预测模块获得概念词后,以往的方法将其直接送入Transformer的语言解码器。然而,因为这些概念是独立处理的,它们的特征是独立学习的,这种方式会使解码器过度依赖语言先验。而视觉概念是源自于图像信息生成的,相当于视觉的高级语义信息,它们之间的进一步建模并没有被考虑。
本发明提出,来自同一图像的视觉概念之间具有很强的关系,于是为这些视觉概念词构造图及相应的邻接矩阵,利用图卷积网络探索概念之间的潜在关系,实现结构化建模,从而可辅助模型像人类一样按更贴合图像真实内容的语言顺序分配所有概念词。
首先,统计训练数据集中每个单词出现的概率,以及在规定单词距离内任意两个单词按指定顺序同时出现的概率,然后计算任意两个单词
Figure SMS_177
的点间互信息分数:
Figure SMS_178
其中,
Figure SMS_179
代表/>
Figure SMS_182
的点间互信息分数,/>
Figure SMS_185
是/>
Figure SMS_181
在所述训练数据集中出现的概率,/>
Figure SMS_184
是/>
Figure SMS_186
和/>
Figure SMS_188
在按照/>
Figure SMS_180
在先/>
Figure SMS_183
在后,并且/>
Figure SMS_187
Figure SMS_189
在所述规定单词距离内出现的概率。
其次,通过所述视觉概念词构造一个图,定义图的节点集合
Figure SMS_191
,k为所述视觉概念词的数量,每个节点代表一个所述视觉概念词,每条边代表所述边所连接的两个节点之间的关系。使用邻接矩阵/>
Figure SMS_194
表述所述图,/>
Figure SMS_196
代表节点/>
Figure SMS_192
和/>
Figure SMS_193
的关系,/>
Figure SMS_195
代表节点/>
Figure SMS_197
和/>
Figure SMS_190
有关系或者i与j相等;
再次,建立词典,将所述训练数据集中所有
Figure SMS_199
大于阈值的两个词建立一个相关词对,将所述相关词对存入所述词典。将/>
Figure SMS_201
所代表的节点/>
Figure SMS_204
和/>
Figure SMS_200
对应的所述视觉概念词组成词对/>
Figure SMS_202
;在所述词典中查找所述词对/>
Figure SMS_205
,如果能找到,则设/>
Figure SMS_206
,如果找不到,比较i与j是否相等,如果相等,则设/>
Figure SMS_198
,如果不相等,则设/>
Figure SMS_203
最后,在所述图卷积网络的第
Figure SMS_208
层,对于每一个节点/>
Figure SMS_210
,在所述邻接矩阵中找到所有
Figure SMS_212
的/>
Figure SMS_209
,从第/>
Figure SMS_211
层取所有/>
Figure SMS_213
的隐藏向量/>
Figure SMS_214
,并计算/>
Figure SMS_207
的输出。
Figure SMS_215
其中,
Figure SMS_216
和/>
Figure SMS_221
分别为第/>
Figure SMS_224
层图卷积网络的可训练权重和偏置,/>
Figure SMS_218
为层归一化运算,/>
Figure SMS_219
为/>
Figure SMS_222
激活函数,/>
Figure SMS_225
代表第/>
Figure SMS_217
层里节点/>
Figure SMS_220
的一种向量,该向量整合/>
Figure SMS_223
所有相邻节点的隐藏向量;
取最后一层的输出作为所述结构化视觉语义概念词特征
Figure SMS_226
,将其送到语言解码器中,有助于建立文本的语法关系和依赖关系,从而生成更准确的文本描述。
4.描述生成模块
按照Transformer解码器结构,以所述视觉特征
Figure SMS_227
和所述结构化视觉语义概念词特征/>
Figure SMS_228
作为输入,生成描述语句:
Figure SMS_229
Figure SMS_230
其中,
Figure SMS_231
是生成的描述语句中的第/>
Figure SMS_232
个单词,/>
Figure SMS_233
是中间隐藏状态;
描述语句生成任务的损失函数
Figure SMS_234
为:
Figure SMS_235
;/>
其中,
Figure SMS_236
为所述图像描述模型生成的描述语句,/>
Figure SMS_237
表示标注的描述语句,CE代表交叉熵损失。
图像描述模型的上述四个模块依次处理输入的图像,之后定义图像描述模型的总体损失L:
Figure SMS_238
根据总体损失L训练图像描述模型。
之后,用训练好的图像描述模型来处理图像描述任务。
综上所述,本发明在预测视觉概念的基础上,利用图卷积建模其拓扑关联,用以控制生成描述的潜在句法结构,以提升图像描述的表现。
以上所述实施方式仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。

Claims (8)

1.一种基于视觉概念词关联结构化建模的图像描述方法,其特征在于,通过图像描述模型对输入的图像,生成描述语句,所述图像描述模型的训练过程,包括以下步骤:
步骤一,准备训练数据集,训练数据集中包括若干图像,以及图像对应的单词标签;
步骤二,图像特征提取和编码:定义训练数据集中的图像为图像I,将图像I进行图像编码,得到初步图像特征,然后将初步图像特征输入若干个Transformer编码器中进一步编码,取最后一个Transformer编码器的输出作为视觉特征
Figure QLYQS_1
步骤三,视觉概念预测任务:随机初始化一组语义向量
Figure QLYQS_2
,将视觉特征/>
Figure QLYQS_3
和语义向量/>
Figure QLYQS_4
一起送入若干个Transformer解码器,将最后一个Transformer解码器的输出作为视觉语义特征/>
Figure QLYQS_5
,则预测的视觉概念词/>
Figure QLYQS_6
,其中,/>
Figure QLYQS_7
代表多层感知预测网络;
步骤四,视觉概念关联结构化建模:为视觉概念词
Figure QLYQS_8
构造图及相应的邻接矩阵,利用图卷积网络探索视觉概念词/>
Figure QLYQS_9
之间的潜在关系,取图卷积网络最后一层的输出作为结构化视觉语义概念词特征/>
Figure QLYQS_10
步骤五,描述语句生成任务:以视觉特征
Figure QLYQS_11
和结构化视觉语义概念词特征/>
Figure QLYQS_12
作为标准Transformer解码器的输入,按顺序生成描述语句;
步骤六,联合优化:定义所述图像描述模型的总体损失函数L:
Figure QLYQS_13
其中
Figure QLYQS_14
为视觉概念预测任务的损失函数,/>
Figure QLYQS_15
为描述语句生成任务的损失函数;
步骤七,根据所述总体损失函数L训练所述图像描述模型。
2.根据权利要求1所述的基于视觉概念词关联结构化建模的图像描述方法,其特征在于,步骤二具体包括:
步骤二A,通过图像描述模型的视觉特征提取器将所述图像I进行图像编码,得到初步特征编码:
Figure QLYQS_16
其中,
Figure QLYQS_17
代表所述图像/>
Figure QLYQS_18
的初步特征编码,/>
Figure QLYQS_19
代表视觉特征提取器;
步骤二B,将所述初步特征编码输入若干个Transformer编码器中编码,取最后一个Transformer编码器输出的特征编码作为视觉特征
Figure QLYQS_20
Figure QLYQS_21
其中,
Figure QLYQS_22
表示Transformer编码器的编号,/>
Figure QLYQS_23
表示第/>
Figure QLYQS_24
个Transformer编码器输出的图像/>
Figure QLYQS_25
的特征编码,/>
Figure QLYQS_26
为层归一化运算,/>
Figure QLYQS_27
为Transformer的多头注意力机制操作:
Figure QLYQS_28
其中,Q、K、V分别代表多头注意力机制中的查询值、键值和真值,
Figure QLYQS_29
和/>
Figure QLYQS_30
分别是Q、K、V对应的可学习权值矩阵,/>
Figure QLYQS_31
表示可学习权值矩阵的列数,/>
Figure QLYQS_32
表示/>
Figure QLYQS_33
激活函数,T表示转置。
3.根据权利要求1所述的基于视觉概念词关联结构化建模的图像描述方法,其特征在于,步骤三具体包括:
步骤三A,随机初始化一组语义向量
Figure QLYQS_34
步骤三B,将所述视觉特征
Figure QLYQS_35
和所述语义向量/>
Figure QLYQS_36
一起输入若干个Transformer解码器,通过自注意力机制深度编码,输出语义特征,取最后一个Transformer解码器的输出作为视觉语义特征/>
Figure QLYQS_37
,Transformer解码器的输出计算如下:
Figure QLYQS_38
Figure QLYQS_39
其中,
Figure QLYQS_40
表示Transformer解码器的编号,/>
Figure QLYQS_41
表示第/>
Figure QLYQS_42
个Transformer解码器的输出,
Figure QLYQS_43
是Transformer解码器初始的查询值,/>
Figure QLYQS_44
为层归一化运算,/>
Figure QLYQS_45
为Transformer的多头注意力机制操作;
步骤三C,得到预测的视觉概念词
Figure QLYQS_46
Figure QLYQS_47
其中,
Figure QLYQS_48
表示多层感知预测网络;
步骤三D,则视觉概念预测任务的损失函数
Figure QLYQS_49
如下:
Figure QLYQS_50
其中,
Figure QLYQS_51
表示不对称损失,/>
Figure QLYQS_52
表示构建的视觉概念词标签。
4.根据权利要求3所述的基于视觉概念词关联结构化建模的图像描述方法,其特征在于,所述视觉概念词标签
Figure QLYQS_53
的构建方法包括:
将训练数据集进行清洗后,取出所述训练数据集所有单词中出现频率高于阈值的若干单词,组成一张语义词表
Figure QLYQS_54
比较所述图像
Figure QLYQS_55
的每个预测的视觉概念词/>
Figure QLYQS_56
是否属于所述语义词表/>
Figure QLYQS_57
,如是,将所述预测的视觉概念词/>
Figure QLYQS_58
加入所述视觉概念词标签/>
Figure QLYQS_59
,如否,在所述视觉概念词标签/>
Figure QLYQS_60
中加入特殊字符串,所述特殊字符串不同于所述语义词表/>
Figure QLYQS_61
中任意一个单词。
5.根据权利要求1所述的基于视觉概念词关联结构化建模的图像描述方法,其特征在于,步骤四具体包括:
步骤四A,统计所述训练数据集中每个单词出现的概率,以及在规定单词距离内任意两个单词按指定顺序同时出现的概率,然后计算任意两个单词
Figure QLYQS_62
的点间互信息分数:
Figure QLYQS_63
其中,
Figure QLYQS_65
代表/>
Figure QLYQS_67
的点间互信息分数,/>
Figure QLYQS_70
分别是/>
Figure QLYQS_66
在所述训练数据集中出现的概率,/>
Figure QLYQS_69
是/>
Figure QLYQS_71
和/>
Figure QLYQS_73
在按照/>
Figure QLYQS_64
在先/>
Figure QLYQS_68
在后,并且/>
Figure QLYQS_72
和/>
Figure QLYQS_74
在所述规定单词距离内出现的概率;
步骤四B,通过所述视觉概念词构造一个图,定义图的节点集合
Figure QLYQS_75
,k为所述视觉概念词的数量,每个节点代表一个所述视觉概念词,每条边代表该边所连接的两个节点之间的关系;
步骤四C,使用邻接矩阵
Figure QLYQS_76
表述所述图,/>
Figure QLYQS_77
是代表节点/>
Figure QLYQS_78
和/>
Figure QLYQS_79
的关系,/>
Figure QLYQS_80
代表节点/>
Figure QLYQS_81
和/>
Figure QLYQS_82
有关系或者i与j相等;
步骤四D,建立词典,将所述训练数据集中所有
Figure QLYQS_83
大于阈值的两个单词建立一个相关词对,将所述相关词对存入所述词典;
步骤四E,根据所述词典初始化所述邻接矩阵A;
步骤四F,通过图卷积网络处理所述图数据,得到所述结构化视觉语义概念词特征
Figure QLYQS_84
6.根据权利要求5所述的基于视觉概念词关联结构化建模的图像描述方法,其特征在于,根据所述词典初始化所述邻接矩阵A,包括:
Figure QLYQS_85
所代表的节点/>
Figure QLYQS_86
和/>
Figure QLYQS_87
对应的所述视觉概念词组成词对/>
Figure QLYQS_88
在所述词典中查找所述词对
Figure QLYQS_89
,如果能找到,则设/>
Figure QLYQS_90
;如果无法找到,比较i与j是否相等,如果相等,则设/>
Figure QLYQS_91
,如果不相等,则设/>
Figure QLYQS_92
7.根据权利要求5所述的基于视觉概念词关联结构化建模的图像描述方法,其特征在于,所述通过图卷积网络处理所述图数据,得到所述结构化视觉语义概念词特征
Figure QLYQS_93
,包括:
在所述图卷积网络的第
Figure QLYQS_95
层,对于每一个节点/>
Figure QLYQS_100
,在所述邻接矩阵中找到所有/>
Figure QLYQS_101
Figure QLYQS_96
,从第/>
Figure QLYQS_97
层取所有/>
Figure QLYQS_98
的隐藏向量/>
Figure QLYQS_99
,并计算/>
Figure QLYQS_94
的输出:
Figure QLYQS_102
其中,
Figure QLYQS_103
和/>
Figure QLYQS_107
分别为第/>
Figure QLYQS_109
层图卷积网络的可训练权重和偏置,/>
Figure QLYQS_104
为层归一化运算,
Figure QLYQS_105
为/>
Figure QLYQS_108
激活函数,/>
Figure QLYQS_111
代表第/>
Figure QLYQS_106
层里节点/>
Figure QLYQS_110
的一种整合/>
Figure QLYQS_112
所有相邻节点隐藏向量的向量;
取最后一层的输出作为所述结构化视觉语义概念词特征
Figure QLYQS_113
8.根据权利要求1所述的基于视觉概念词关联结构化建模的图像描述方法,其特征在于,步骤五包括:
按照Transformer解码器结构,以所述视觉特征
Figure QLYQS_114
和所述结构化视觉语义概念词特征/>
Figure QLYQS_115
作为输入,生成描述语句:
Figure QLYQS_116
Figure QLYQS_117
其中,
Figure QLYQS_118
是生成的描述语句中的第/>
Figure QLYQS_119
个单词,/>
Figure QLYQS_120
是中间隐藏状态;
描述语句生成任务的损失函数
Figure QLYQS_121
为:/>
Figure QLYQS_122
其中,
Figure QLYQS_123
为所述图像描述模型生成的描述语句,/>
Figure QLYQS_124
表示标注的描述语句,CE代表交叉熵损失。/>
CN202310475627.1A 2023-04-28 2023-04-28 一种基于视觉概念词关联结构化建模的图像描述方法 Active CN116204674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310475627.1A CN116204674B (zh) 2023-04-28 2023-04-28 一种基于视觉概念词关联结构化建模的图像描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310475627.1A CN116204674B (zh) 2023-04-28 2023-04-28 一种基于视觉概念词关联结构化建模的图像描述方法

Publications (2)

Publication Number Publication Date
CN116204674A true CN116204674A (zh) 2023-06-02
CN116204674B CN116204674B (zh) 2023-07-18

Family

ID=86519483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310475627.1A Active CN116204674B (zh) 2023-04-28 2023-04-28 一种基于视觉概念词关联结构化建模的图像描述方法

Country Status (1)

Country Link
CN (1) CN116204674B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115564A (zh) * 2023-10-19 2023-11-24 南方科技大学 基于跨模态概念发现与推理的图像分类方法及智能终端
CN117612170A (zh) * 2024-01-23 2024-02-27 中国科学技术大学 一种结合记忆网络和扩散网络的图像到长文本生成方法
CN117746441A (zh) * 2024-02-20 2024-03-22 浪潮电子信息产业股份有限公司 一种视觉语言理解方法、装置、设备及可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291212A (zh) * 2020-01-24 2020-06-16 复旦大学 基于图卷积神经网络的零样本草图图像检索方法和系统
WO2021223323A1 (zh) * 2020-05-06 2021-11-11 首都师范大学 一种中文视觉词汇表构建的图像内容自动描述方法
CN113837233A (zh) * 2021-08-30 2021-12-24 厦门大学 基于样本自适应语义引导的自注意力机制的图像描述方法
US20220014807A1 (en) * 2019-03-21 2022-01-13 Samsung Electronics Co., Ltd. Method, apparatus, device and medium for generating captioning information of multimedia data
US20220138185A1 (en) * 2020-11-03 2022-05-05 Adobe Inc. Scene graph modification based on natural language commands
CN114677580A (zh) * 2022-05-27 2022-06-28 中国科学技术大学 一种基于自适应增强自注意力网络的图像描述方法
CN114792388A (zh) * 2021-01-25 2022-07-26 北京三星通信技术研究有限公司 图像描述文字生成方法、装置及计算机可读存储介质
US20220246244A1 (en) * 2019-06-07 2022-08-04 Leica Microsystems Cms Gmbh A system and method for training machine-learning algorithms for processing biology-related data, a microscope and a trained machine learning algorithm
WO2022187063A1 (en) * 2021-03-05 2022-09-09 Microsoft Technology Licensing, Llc Cross-modal processing for vision and language
CN115982629A (zh) * 2023-02-10 2023-04-18 厦门大学 一种基于语义引导的特征选择的图像描述方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220014807A1 (en) * 2019-03-21 2022-01-13 Samsung Electronics Co., Ltd. Method, apparatus, device and medium for generating captioning information of multimedia data
US20220246244A1 (en) * 2019-06-07 2022-08-04 Leica Microsystems Cms Gmbh A system and method for training machine-learning algorithms for processing biology-related data, a microscope and a trained machine learning algorithm
CN111291212A (zh) * 2020-01-24 2020-06-16 复旦大学 基于图卷积神经网络的零样本草图图像检索方法和系统
WO2021223323A1 (zh) * 2020-05-06 2021-11-11 首都师范大学 一种中文视觉词汇表构建的图像内容自动描述方法
US20220138185A1 (en) * 2020-11-03 2022-05-05 Adobe Inc. Scene graph modification based on natural language commands
CN114792388A (zh) * 2021-01-25 2022-07-26 北京三星通信技术研究有限公司 图像描述文字生成方法、装置及计算机可读存储介质
WO2022187063A1 (en) * 2021-03-05 2022-09-09 Microsoft Technology Licensing, Llc Cross-modal processing for vision and language
CN113837233A (zh) * 2021-08-30 2021-12-24 厦门大学 基于样本自适应语义引导的自注意力机制的图像描述方法
CN114677580A (zh) * 2022-05-27 2022-06-28 中国科学技术大学 一种基于自适应增强自注意力网络的图像描述方法
CN115982629A (zh) * 2023-02-10 2023-04-18 厦门大学 一种基于语义引导的特征选择的图像描述方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JUNKANG ZHANG等: "Two-Step Registration on Multi-Modal Retinal Images via Deep Neural Networks", IEEE *
徐菲菲;冯东升;: "文本词向量与预训练语言模型研究", 上海电力大学学报, no. 04 *
邓旭冉;闵少波;徐静远;李攀登;谢洪涛;张勇东;: "深度细粒度图像识别研究综述", 南京信息工程大学学报(自然科学版), no. 06 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115564A (zh) * 2023-10-19 2023-11-24 南方科技大学 基于跨模态概念发现与推理的图像分类方法及智能终端
CN117115564B (zh) * 2023-10-19 2024-03-26 南方科技大学 基于跨模态概念发现与推理的图像分类方法及智能终端
CN117612170A (zh) * 2024-01-23 2024-02-27 中国科学技术大学 一种结合记忆网络和扩散网络的图像到长文本生成方法
CN117746441A (zh) * 2024-02-20 2024-03-22 浪潮电子信息产业股份有限公司 一种视觉语言理解方法、装置、设备及可读存储介质
CN117746441B (zh) * 2024-02-20 2024-05-10 浪潮电子信息产业股份有限公司 一种视觉语言理解方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN116204674B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
Zhu et al. Knowledge-based question answering by tree-to-sequence learning
CN116204674B (zh) 一种基于视觉概念词关联结构化建模的图像描述方法
CN111858944B (zh) 一种基于注意力机制的实体方面级情感分析方法
CN114064918B (zh) 一种多模态事件知识图谱构建方法
CN115034224A (zh) 一种融合多种文本语义结构图表示的新闻事件检测方法和系统
CN112100332A (zh) 词嵌入表示学习方法及装置、文本召回方法及装置
CN111651974A (zh) 一种隐式篇章关系分析方法和系统
Zhang et al. A multi-feature fusion model for Chinese relation extraction with entity sense
CN113204611A (zh) 建立阅读理解模型的方法、阅读理解方法及对应装置
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
CN116628186B (zh) 文本摘要生成方法及系统
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN112309528A (zh) 一种基于视觉问答方法的医疗影像报告生成方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
CN114168754A (zh) 一种基于句法依赖和融合信息的关系抽取方法
CN114881042A (zh) 基于图卷积网络融合句法依存与词性的中文情感分析方法
CN116050352A (zh) 文本编码方法和装置、计算机设备及存储介质
Caglayan Multimodal machine translation
CN114880427A (zh) 基于多层级注意力机制的模型、事件论元抽取方法及系统
Zhang et al. Description-Enhanced Label Embedding Contrastive Learning for Text Classification
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN117574904A (zh) 基于对比学习和多模态语义交互的命名实体识别方法
CN117235261A (zh) 一种多模态方面级情感分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant