CN113420834A - 一种基于关系约束自注意力的图像描述自动生成方法 - Google Patents

一种基于关系约束自注意力的图像描述自动生成方法 Download PDF

Info

Publication number
CN113420834A
CN113420834A CN202110825814.9A CN202110825814A CN113420834A CN 113420834 A CN113420834 A CN 113420834A CN 202110825814 A CN202110825814 A CN 202110825814A CN 113420834 A CN113420834 A CN 113420834A
Authority
CN
China
Prior art keywords
image
rcsa
layer
attention
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110825814.9A
Other languages
English (en)
Other versions
CN113420834B (zh
Inventor
冀俊忠
王鸣展
张晓丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110825814.9A priority Critical patent/CN113420834B/zh
Publication of CN113420834A publication Critical patent/CN113420834A/zh
Application granted granted Critical
Publication of CN113420834B publication Critical patent/CN113420834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)

Abstract

本发明采用的技术方案为一种基于关系约束自注意力的图像描述自动生成方法,涉及自然图像处理,计算机视觉和自然语言处理三个领域,所述方法具有以下特点:1)设计了一种基于视觉语义关系约束的自注意力机制(RCSA),约束自注意力更好的聚焦于与生成描述相关的区域,忽略无关区域,从而提高图像描述生成的准确性。2)RCSA包含两个子模块,RCSA‑E和RCSA‑D分别作用于图像描述模型的编码与解码阶段。RCSA‑E使用视觉关系来使自注意力权重更加稀疏;RCSA‑D将先验语义关系信息嵌入输入高层上下文特征中,增强解码阶段语义表达。3)本发明在离线和在线评测方法上做了充分实验,实验结果展示了所提方法的有效性。

Description

一种基于关系约束自注意力的图像描述自动生成方法
技术领域
本发明涉及自然图像处理,计算机视觉和自然语言处理三个领域,针对自然图像描述自动生成目标,设计了一种基于关系约束自注意力的图像描述自动生成方法。
背景技术
图像描述,旨在自动为图像生成自然描述,是一个结合计算机视觉和自然语言处理的跨学科任务。其要求模型不仅要了解图像中的对象,场景及其交互,还需要生成自然语言序列。图像描述的研究与发展依赖于计算机视觉、自然语言处理技术的进步,也有助于带动计算机视觉、自然语言处理等相关领域的发展,更加有助于推动人工智能相关应用的实现,例如视觉障碍辅助、视觉语音导航、智能聊天机器人、幼儿教育以及医学报告自动生成等等。
随着深度神经网络的发展,大多数最近的图像描述方法遵循编码器-解码器(encoder-decoder)框架。其首先通过卷积神经网络(CNN)对图像进行编码,然后通过经循环神经网络(RNN)来解码视觉特征并生成描述。图像描述的难点是将视觉内容适当地对准语言描述,其中模型通常在解码期间应用注意力机制来强调视觉内容区域。
目前,基于自注意力(self-attention)的Transformer结构在序列生成任务中表现出出色的性能,其能取代掉传统图像描述模型中的RNN,并且更好的对齐视觉特征与语义单词。自注意力的优势在于能学习到更完整的图像区域与区域之间的关系和联系。然而自注意力中的关系通常是比较稠密的,难以被模型完全优化,从而导致关系和注意力中存在冗余噪声。同时,一些有用的先验关系信息,比如图像物体之间的视觉和语义关系信息,在当前的自注意力机制中被忽略,这些都直接造成注意力特征获取的不够准确,阻碍了图像描述效果的进一步提高。
发明内容
为了解决由于自注意力机制在图像描述任务中存在的冗余噪声和缺乏先验,导致图像描述效果难以进一步提高问题,本发明公开了一种具有关系约束能力的自注意力模型(Relation Constraint Self-Attention,RCSA),能够将先验关系信息引入自注意力中,来限制自注意力的分布,从而提高自注意力的关系学习能力。相比于Up-Down等传统注意力模型方法,本方法不仅在图像关注的位置上更为准确,图像描述结果更加准确。
本发明采用的技术方案为一种基于关系约束自注意力(Relation ConstraintSelf-Attention,RCSA)的图像描述自动生成方法,该方法包括包含两个子模块:RCSA-E作用于编码器阶段;RCSA-D作用于解码器阶段,RCSA模型具体步骤如下:
步骤(1)获取MS COCO图像描述数据集并预处理,得到训练数据集:
步骤(1.1)获取MS COCO图像描述数据集,包含图像数据I及其对应的groundtruth标准描述数据
Figure BDA0003173756730000021
步骤(1.2)对MS COCO中的ground truth标准描述数据
Figure BDA0003173756730000022
进行预处理。
步骤(1.3)使用特征提取器模型,完成MS COCO图像数据I的预编码,得到图像特征X。
步骤(1.4)采用场景图生成方法获得图像的场景图G,随后通过G生成RCSA-E和RCSA-D分别所需的图像视觉关系图和语义关系对(并非所有的物体之间都会存在视觉和语义关系,没有关系的物体,不会生成图像视觉关系图和语义关系对)。图像视觉关系图是一种有向无环图(Directed Acyclic Graph)结构,由有向边和各个节点组成,如“woman→umbrella”中,“woman”和“umbrella”是节点,存在一条由“woman”指向“umbrella”的有向边。语义关系对是一个三元组(Triple),其表示为<主语,关系,宾语>,如<woman,with,umbrella>中,“woman”为主语,“umbrella”为宾语,“with”为两者之间关系。
步骤(2)构建RCSA-E作用于模型编码器,编码器遵循标准Transformer编码器结构,是一种6层的栈式结构,前一层的输出会作为下一层的输入,每一层的结构相同,其核心为自注意力机制(self-attention)。自注意力机制的输入input会首先经过三次不同线性变换得到Query(简称为QE)、Key(简称为KE)和Value(简称为VE),然后生成自注意力矩阵
Figure BDA0003173756730000031
输出
Figure BDA0003173756730000032
RCSA-E针对编码器中自注意力机制不足,做出改进:
步骤(2.1)由步骤1.4图像视觉关系图作为物体间是否有视觉关系的依据,生成视觉关系矩阵Ω,其大小为N×N(N为图像中物体的数量)其中有视觉关系的对应位置元素置为1,没有关系的置为0。
步骤(2.2)将Ω与编码器中自注意力运算结果相乘,起到约束自注意力的作用,自注意力其他操作不变,这就是完善后的自注意力机制,即RCSA-E。
步骤(2.3)将编码器的每一层含有RCSA-E的编码层栈式累加,前一层的输出作为后一层的输入,累加6层后得到编码器输出
Figure BDA0003173756730000041
步骤(3)构建RCSA-D作用于模型解码器,对
Figure BDA0003173756730000042
进行解码。解码器与编码器相似,也遵循标准Transformer解码器结构,是一种6层的栈式结构,前一层的输出会作为下一层的输入,每一层的结构相同,其核心为自注意力机制(self-attention)。不同的是,解码器每一层的输入变成两项:
Figure BDA0003173756730000043
和描述数据
Figure BDA0003173756730000044
自注意力机制的KD和VD
Figure BDA0003173756730000045
线性变换而来,QD
Figure BDA0003173756730000046
线性变换而来,其他操作不变。输出为图像描述结果Y,Y={y0,y1,…,yT},T为描述的最长时刻,即描述的最大长度。RCSA-D针对解码器中自注意力机制不足,做出改进:
步骤(3.1)由步骤1.4图像语义关系对构建语义关系嵌入E,并与
Figure BDA0003173756730000047
线性变化得到的KD、VD拼接,得到新的具有语义关系信息的图像特征
Figure BDA0003173756730000048
Figure BDA0003173756730000049
步骤(3.2)
Figure BDA00031737567300000410
Figure BDA00031737567300000411
包含了从应用RCSA-E的编码器中得到的视觉关系信息,又包含了先验语义关系信息,再继续进行自注意力计算,这便是RCSA-D对原自注意力机制的改进。按顺序重复每一解码层计算,并栈式叠加最后得到图像描述结果Y。
步骤(4)模型训练。基于产生的描述Y与ground truth标准描述数据
Figure BDA00031737567300000412
计算交叉熵损失或者强化学习梯度损失,使用随机梯度下降算法对模型进行优化,得到最终模型。
步骤(5)对于待描述的图像,应用步骤(1.3)得到其图像特征后送入模型中,便可得到相应的图像描述。
有益效果
相比原基于自注意力机制的图像描述方法,本专利的方法能更好的建模图像中的视觉和语义关系信息,并去除其中无用噪声信息,使得生成的描述句子质量更好;特别地,本专利尤其在描述图像中物体间关系时,能生成更加准确详细的描述。
附图说明
图1:RCSA图像描述方法框架图。
图2:RCSA模型图。
图3:注意力图像对比图。
具体实施方式
下面以MS COCO图像描述数据集为例,说明本发明的具体实施步骤:
步骤(1)获取MS COCO图像描述数据集并预处理,得到训练数据集:
步骤(1.1)获取MS COCO图像描述数据集,其中包含图像数据I及其对应的groundtruth标准描述数据
Figure BDA0003173756730000051
MS COCO数据集下载地址为http://cocodataset.org/#download,数据集共包含164062张图片,其中训练集、验证集和测试集大小分别为82783,40504和40775,除测试集外,每张图片还包含至少5句对应的标准描述作为标签。
步骤(1.2)对MS COCO中的ground truth标准描述数据
Figure BDA0003173756730000061
进行预处理。设置图像描述最大长度为16,将词频小于5的单词替换为“UNK”,减少少数噪声单词的干扰,场景图生成方法中会存在50个关系词或词组,将其也加入词库,最终词库数据中包含的单词数量为9507。
步骤(1.3)使用特征提取器模型,完成MS COCO图像数据I的预编码,得到图像特征X,可以采用深度卷积神经网络,例如ResNet-101,也可以采用目标检测模型,例如RCNN、Faster-RCNN等。本发明采用Faster-RCNN。公式表达为:
X=Faster-RCNN(I)
步骤(1.4)采用场景图生成方法获得图像的场景图G,随后通过G生成RCSA-E和RCSA-D分别所需的图像视觉关系图和语义关系对(并非所有的物体之间都会存在视觉和语义关系,没有关系的物体,不会生成图像视觉关系图和语义关系对)。图像视觉关系图是一种有向无环图(Directed Acyclic Graph)结构,由有向边和各个节点组成,如“woman→umbrella”中,“woman”和“umbrella”是节点,存在一条由“woman”指向“umbrella”的有向边。语义关系对是一个三元组(Triple),其表示为<主语,关系,宾语>,如<woman,with,umbrella>中,“woman”为主语,“umbrella”为宾语,“with”为两者之间关系。
步骤(2)构建RCSA-E作用于模型编码器,编码器遵循标准Transformer编码器结构,是一种6层的栈式结构,前一层的输出会作为下一层的输入,每一层的结构相同,其核心为自注意力机制(self-attention),只用其中一层进行描述:自注意力机制的输入input会首先经过三次不同线性变换得到Query(简称为QE)、Key(简称为KE)和Value(简称为VE),然后生成自注意力矩阵
Figure BDA0003173756730000062
输出
Figure BDA0003173756730000071
对于编码器而言,编码器的输入是提取的图像特征X,输出为编码后的图像特征
Figure BDA0003173756730000072
以最后一层编码层举例,原编码器中自注意力公式表示为:
Figure BDA0003173756730000073
Figure BDA0003173756730000074
Figure BDA0003173756730000075
其中
Figure BDA0003173756730000076
Figure BDA0003173756730000077
分别是训练参数。
步骤(2.1)由步骤1.4图像视觉关系图作为物体间是否有视觉关系的依据,生成视觉关系矩阵Ω,其大小为N×N(N为图像中物体的数量)其中有视觉关系的对应位置元素置为1,没有关系的置为0。
步骤(2.2)将Ω与编码器中自注意力矩阵
Figure BDA0003173756730000078
相乘,起到约束自注意力的作用,自注意力其他操作不变,这就是完善后的自注意力机制,即RCSA-E,公式表达为:
Figure BDA0003173756730000079
Figure BDA00031737567300000710
Figure BDA00031737567300000711
步骤(2.3)将编码器的每一层含有RCSA-E的编码层栈式累加,前一层的输出作为后一层的输入,每一层都采用步骤(2.2)方式,累加6层后得到编码器输出
Figure BDA00031737567300000712
步骤(3)构建RCSA-D作用于模型解码器,对
Figure BDA0003173756730000081
进行解码。解码器与编码器相似,也遵循标准Transformer编码器结构,是一种6层的栈式结构,前一层的输出会作为下一层的输入,每一层的结构相同,其核心为自注意力机制(self-attention)。不同的是,解码器每一层的输入变成两项:
Figure BDA0003173756730000082
和描述数据
Figure BDA0003173756730000083
自注意力机制的KD和VD
Figure BDA0003173756730000084
线性变换而来,QD
Figure BDA0003173756730000085
线性变换而来,其他操作不变。输出为图像描述结果Y,Y={y0,y1,…,yT},T为描述的最长时刻,即描述的最大长度,以最后一层解码层举例,原解码器中的自注意力公式表达为:
Figure BDA0003173756730000086
Figure BDA0003173756730000087
Figure BDA0003173756730000088
步骤(3.1)由步骤1.4图像语义关系对构建语义关系嵌入E,对于区域i来说,其既可以作为关系对中的“主语”出现,又可以作为“宾语”出现,如单词“umbrella”在图1中,是关系对<umbrella,nextto,bench>中的“主语”,也是<woman,with,umbrella>中的“宾语”。语义关系嵌入E的公式定义如下:
Figure BDA0003173756730000089
其中Nsub与Nobj分别是物体出现在所有关系对中主语和宾语的次数,Nrel=Nsub+Nobj,Esub与Eobj分别是其对应关系对中关系单词的嵌入,其公式为:
Esub=Embedding(ysub)
Eobj=Embedding(yobj)
其中Embedding为嵌入函数,ysub和yobj分别为区域i在关系对中作为主语和宾语时的对应关系单词。fsub与fobj分别是两个结构相同的变换函数,由前馈网络加ReLU激活函数组成。
接下来,将E与
Figure BDA0003173756730000091
线性变换得到的KD、VD相拼接(如原来KD,VD,E都是512维度,拼接后的
Figure BDA0003173756730000092
Figure BDA0003173756730000093
应为1024维度),QD保持不变,得到新的具有语义关系信息的图像特征
Figure BDA0003173756730000094
Figure BDA0003173756730000095
公式如下:
Figure BDA0003173756730000096
其中
Figure BDA0003173756730000097
Figure BDA0003173756730000098
分别是训练参数。
步骤(3.2)
Figure BDA0003173756730000099
Figure BDA00031737567300000910
包含了从应用RCSA-E的编码器中得到的视觉关系信息,又包含了先验语义关系信息,再继续进行自注意力计算,这便是RCSA-D对原自注意力机制的改进。重复该栈式叠加操作,最后得到图像描述结果Y,公式如下:
Figure BDA00031737567300000911
Figure BDA00031737567300000912
Figure BDA00031737567300000913
步骤(4)模型训练。整体方法流程图如图1所示,基于产生的描述Y与标准的描述数据
Figure BDA00031737567300000914
计算交叉熵损失或者强化学习梯度损失,使用随机梯度下降算法对模型进行优化,得到最终模型。两种损失函数的定义分别如下所示:
LXE(θ)=-∑log pθ(yt|y1:t-1)
Figure BDA0003173756730000101
使用随机梯度下降算法,例如ADAM对整个方法进行优化,训练参数,得到最终的模型。
步骤(5)对于待描述的图像,应用步骤(1.3)得到其图像特征后送入模型中,便可得到相应的图像描述。
为了充分验证本方法的优越性,采用定量分析和定性分析两种评价方式。定量分析包含离线和在线两种,将其与SCST,Up-Down,AoANet,GCN-LSTM,SGAE,VSUA,NG-SAN等已有的方法进行了效果比较,使用BLEU,METEOR,ROUGE和CIDEr四个评价指标对结果进行了评价,这四种评价指标已经广泛应用于图像描述结果的定量评价中。定性分析采用可视化注意力区域的方式,主要与普通自注意力(SA)方法的进行了对比。
首先对方法进行定量分析。离线测试采用Karpathy划分,将原有的训练集和验证集数据重新划分,生成113287张训练数据、5000张验证数据、5000张测试数据。在线方式则将本方法在原测试集上的结果提交到MS COCO测试服务器上。表1为离线测试结果,从表1可以看到,本发明在BLEU1,METTOR和CIDEr指标上取得了最好结果,相较于同样使用自注意力机制的NG-SAN方法,本发明提出的关系约束机制能够更好地利用图像中的视觉和语义关系来约束自注意力分布,使得注意力特征会更加准确,图像描述效果提升明显。表2和表3分别为MS COCO参考描述数量为5和40时的在线测试结果,与部分已公开的方法结果相比,本方法效果明显,在所有指标上具有绝对优势,尤其CIDEr指标,相比较其它方法至少提升了3。
表1 MS COCO数据集上离线测试
方法 BLEU1 BLEU4 METTOR ROUGLE CIDEr
SCST - 31.3 26.0 54.3 101.3
Up-Down 79.7 37.4 27.7 57.7 123.2
VSUA - 38.4 28.5 58.4 128.6
GCN-LSTM 80.5 38.2 28.5 58.3 127.6
SGAE 80.8 38.4 28.4 58.6 127.8
AoANet 80.2 38.9 29.2 58.8 129.8
NG-SAN - 39.9 29.3 59.2 132.1
RCSA(ours) 81.2 39.5 29.5 58.9 132.5
表2 MS COCO数据集上在线测试(c5)
方法 BLEU1 BLEU2 BLEU3 BLEU4 METTOR ROUGLE CIDEr
SCST 78.1 61.9 47.0 35.2 27.0 56.3 114.7
Up-Down 80.2 64.1 49.1 36.9 27.6 57.1 117.9
VUSA 79.9 64.3 49.5 37..4 28.2 57.9 121.6
GCN-LSTM 80.8 65.5 50.8 38.7 28.5 58.5 125.3
SGAE 81.0 65.6 50.7 38.5 28.2 58.6 123.8
AoANet 81.0 65.8 51.4 39.4 29.1 58.9 126.9
NG-SAN 80.8 65.4 50.8 38.8 29.0 58.7 126.3
RCSA(ours) 81.5 66.3 51.6 39.7 29.4 59.2 130.0
表3 MS COCO数据集上在线测试(c40)
Figure BDA0003173756730000111
Figure BDA0003173756730000121
从上述评价指标定量评价来看,本发明提出基于关系约束自注意力的图像描述自动生成方法具有很强的优越性。为了进行定性分析,我们通过可视化方法展示了普通自注意力模型(SA)和本发明模型(RCSA)在图像描述过程中所关注的区域。如图3所示,自注意力图像中的区域越亮,表示该区域越受到关注很明显,RCSA更加关注相关的区域和它们之间的关系,描述更为准确。比如:在第一个例子,RCSA在“motorcycle”和“truck”上有着更高的注意力;在第一个和第三个例子中,RCSA能识别出关系“in front of a truck”和“under atree”;在所有三个例子中,RCSA有着更精准的注意力关注度,比如“truck”,“cat”和“man”。
无论是定量评价中的离线测试和在线测试,还是定性分析中展示的注意力图像,本发明提出的基于关系约束自注意力的图像描述自动生成方法取得了较好的效果,体现关系约束自注意力模型的强大能力,在未来的实际应用中具有良好的应用前景。

Claims (4)

1.一种基于关系约束自注意力RCSA的图像描述自动生成方法,其特征在于:该方法包括包含两个子模块:RCSA-E作用于编码器阶段;RCSA-D作用于解码器阶段,具体步骤如下:
步骤(1)获取图像描述数据集并预处理,得到训练数据集,包括提取图像特征X,以及生成RCSA-E和RCSA-D分别所需的图像视觉关系图和语义关系对;
步骤(2)构建RCSA-E作用于模型编码器,编码器用于对步骤(1)提取的图像特征X进行编码,输出编码后的图像特征
Figure FDA0003173756720000011
编码器遵循标准Transformer编码器结构,是一种6层的栈式结构,每一层的结构相同,将每一层含有RCSA-E的编码层栈式累加,前一层的输出作为后一层的输入,累加6层后得到编码器输出
Figure FDA0003173756720000012
步骤(3)构建RCSA-D作用于模型解码器,对
Figure FDA0003173756720000013
进行解码。解码器遵循标准Transformer解码器结构,是一种6层的栈式结构,前一层的输出会作为下一层的输入,每一层的结构相同,解码器每一层的输入为两项:
Figure FDA0003173756720000014
和ground truth标准描述数据
Figure FDA0003173756720000015
将每一层含有RCSA-D的编码层栈式累加,前一层的输出作为后一层的输入,累加6层后得到解码器输出,即生成的描述Y,Y={y0,y1,…,yT},T为描述的最长时刻,即描述的最大长度;
步骤(4)模型训练。基于生成的描述Y与ground truth标准描述数据
Figure FDA0003173756720000016
计算交叉熵损失或者强化学习梯度损失,使用随机梯度下降算法对模型进行优化,得到最终模型;
步骤(5)对于待描述的图像,使用与训练过程相同的特征提取方法,得到其图像特征后依次送入编码器和解码器中,便可得到相应的图像描述。
2.根据权利要求1所述的一种基于关系约束自注意力的图像描述自动生成方法,进一步的,步骤(1)包括以下步骤:
步骤(1.1)获取MS COCO图像描述数据集,包含图像数据I及其对应的ground truth标准描述数据
Figure FDA0003173756720000021
步骤(1.2)对MS COCO中的ground truth标准描述数据
Figure FDA0003173756720000022
进行预处理;
步骤(1.3)使用特征提取器模型,完成MS COCO图像数据I的预编码,得到图像特征X;
步骤(1.4)采用场景图生成方法获得图像的场景图G,随后通过G生成RCSA-E和RCSA-D分别所需的图像视觉关系图和语义关系对;图像视觉关系图是一种有向无环图结构,由有向边和各个节点组成,节点为每个物体,有向边用于表示两个物体之间的视觉或语义关系;语义关系对是一个三元组,其表示为<主语,关系,宾语>。
3.根据权利要求2所述的一种基于关系约束自注意力的图像描述自动生成方法,进一步的,
步骤(2)中含有RCSA-E的第i编码层的工作过程具体如下:
步骤(2.1)由步骤1.4图像视觉关系图作为物体间是否有视觉关系的依据,生成视觉关系矩阵Ω,其大小为N×N(N为图像中物体的数量)其中有视觉关系的对应位置元素置为1,没有关系的置为0;
步骤(2.2)利用RCSA-E机制得到本层输出,公式表达为:
Figure FDA0003173756720000023
其中,
Figure FDA0003173756720000024
Figure FDA0003173756720000031
Xi表示当前编码层的输入,
Figure FDA0003173756720000032
表示当前编码层的输出,对于第一编码层,Xi表示原始图像特征
Figure FDA0003173756720000033
对于最后一层编码层,
Figure FDA0003173756720000034
表示编码器的总输出
Figure FDA0003173756720000035
其中
Figure FDA0003173756720000036
Figure FDA0003173756720000037
分别是训练参数。
4.根据权利要求3所述的一种基于关系约束自注意力的图像描述自动生成方法,进一步的,
步骤(3)中含有RCSA-D的第i解码层的工作过程具体如下:
步骤(3.1)由步骤1.4图像语义关系对构建语义关系嵌入E,对于区域a来说,其既可以作为关系对中的“主语”出现,又可以作为“宾语”出现。语义关系嵌入E的公式定义如下:
Figure FDA0003173756720000038
其中Nsub与Nobj分别是物体出现在所有关系对中主语和宾语的次数,Nrel=Nsub+Nobj,Esub与Eobj分别是其对应关系对中关系单词的嵌入,其公式为:
Esub=Embedding(ysub)
Eobj=Embedding(yobj)
其中Embedding为嵌入函数,ysub和yobj分别为区域i在关系对中作为主语和宾语时的对应关系单词。fsub与fobj分别是两个结构相同的变换函数,由前馈网络加ReLU激活函数组成;
步骤(3.2)利用RCSA-D机制得到本层输出,公式表达为:
Figure FDA0003173756720000039
Figure FDA00031737567200000310
Figure FDA0003173756720000041
Figure FDA0003173756720000042
和表示当前解码层的输入,
Figure FDA0003173756720000043
为每层解码层通用输入,Yl表示当前解码层的输出,对于第一解码层,
Figure FDA0003173756720000044
表示ground truth标准描述数据
Figure FDA0003173756720000045
对于最后一层解码层,Yl表示生成的描述Y,其中
Figure FDA0003173756720000046
Figure FDA0003173756720000047
分别是训练参数,[_,_]表示concat操作。
CN202110825814.9A 2021-07-21 2021-07-21 一种基于关系约束自注意力的图像描述自动生成方法 Active CN113420834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110825814.9A CN113420834B (zh) 2021-07-21 2021-07-21 一种基于关系约束自注意力的图像描述自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110825814.9A CN113420834B (zh) 2021-07-21 2021-07-21 一种基于关系约束自注意力的图像描述自动生成方法

Publications (2)

Publication Number Publication Date
CN113420834A true CN113420834A (zh) 2021-09-21
CN113420834B CN113420834B (zh) 2024-05-28

Family

ID=77718001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110825814.9A Active CN113420834B (zh) 2021-07-21 2021-07-21 一种基于关系约束自注意力的图像描述自动生成方法

Country Status (1)

Country Link
CN (1) CN113420834B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114511779A (zh) * 2022-01-20 2022-05-17 电子科技大学 场景图生成模型的训练方法、场景图生成方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144553A (zh) * 2019-12-28 2020-05-12 北京工业大学 一种基于时空记忆注意力的图像描述方法
CN111324758A (zh) * 2020-02-14 2020-06-23 北京工业大学 基于发散-聚合注意力的图像描述方法
WO2020244287A1 (zh) * 2019-06-03 2020-12-10 中国矿业大学 一种图像语义描述的生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020244287A1 (zh) * 2019-06-03 2020-12-10 中国矿业大学 一种图像语义描述的生成方法
CN111144553A (zh) * 2019-12-28 2020-05-12 北京工业大学 一种基于时空记忆注意力的图像描述方法
CN111324758A (zh) * 2020-02-14 2020-06-23 北京工业大学 基于发散-聚合注意力的图像描述方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114511779A (zh) * 2022-01-20 2022-05-17 电子科技大学 场景图生成模型的训练方法、场景图生成方法及装置
CN114511779B (zh) * 2022-01-20 2023-07-25 电子科技大学 场景图生成模型的训练方法、场景图生成方法及装置

Also Published As

Publication number Publication date
CN113420834B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
CN109947912B (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
CN111260740B (zh) 一种基于生成对抗网络的文本到图像生成方法
CN108052512B (zh) 一种基于深度注意力机制的图像描述生成方法
CN109948691B (zh) 基于深度残差网络及注意力的图像描述生成方法和装置
CN109492113B (zh) 一种面向软件缺陷知识的实体、关系联合抽取方法
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN110033008B (zh) 一种基于模态变换与文本归纳的图像描述生成方法
CN113343705B (zh) 一种基于文本语义的细节保持图像生成方法及系统
CN111144553B (zh) 一种基于时空记忆注意力的图像描述方法
CN109461177B (zh) 一种基于神经网络的单目图像深度预测方法
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN111914552A (zh) 一种数据增强模型的训练方法及装置
CN114821050A (zh) 一种基于transformer的指称图像分割方法
CN115965789A (zh) 一种基于场景感知类注意力的遥感图像语义分割方法
CN114708474A (zh) 一种融合局部和全局特征的图像语义理解算法
CN117390151A (zh) 结构健康诊断视觉-语言基础模型和多模态交互系统的建立方法
CN117271792A (zh) 一种基于大模型构建企业领域知识库的方法
CN114581789A (zh) 一种高光谱图像分类方法及系统
CN113420834B (zh) 一种基于关系约束自注意力的图像描述自动生成方法
CN114220095A (zh) 一种基于实例分割的图像语义描述改进方法
CN113096133A (zh) 一种基于注意力机制的语义分割网络的构建方法
CN116226357B (zh) 一种输入中包含错误信息场景下的文档检索方法
CN116958738A (zh) 图片识别模型的训练方法和装置、存储介质及电子设备
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN114820212A (zh) 非连续疾病实体抽取方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant