CN113420834A - 一种基于关系约束自注意力的图像描述自动生成方法 - Google Patents
一种基于关系约束自注意力的图像描述自动生成方法 Download PDFInfo
- Publication number
- CN113420834A CN113420834A CN202110825814.9A CN202110825814A CN113420834A CN 113420834 A CN113420834 A CN 113420834A CN 202110825814 A CN202110825814 A CN 202110825814A CN 113420834 A CN113420834 A CN 113420834A
- Authority
- CN
- China
- Prior art keywords
- image
- rcsa
- layer
- attention
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000000007 visual effect Effects 0.000 claims abstract description 37
- 230000007246 mechanism Effects 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000002787 reinforcement Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims 1
- 239000000126 substance Substances 0.000 claims 1
- 238000011156 evaluation Methods 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 abstract description 5
- 238000012545 processing Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 6
- 235000019987 cider Nutrition 0.000 description 5
- 238000004451 qualitative analysis Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000004445 quantitative analysis Methods 0.000 description 3
- 238000011158 quantitative evaluation Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Processing (AREA)
Abstract
本发明采用的技术方案为一种基于关系约束自注意力的图像描述自动生成方法,涉及自然图像处理,计算机视觉和自然语言处理三个领域,所述方法具有以下特点:1)设计了一种基于视觉语义关系约束的自注意力机制(RCSA),约束自注意力更好的聚焦于与生成描述相关的区域,忽略无关区域,从而提高图像描述生成的准确性。2)RCSA包含两个子模块,RCSA‑E和RCSA‑D分别作用于图像描述模型的编码与解码阶段。RCSA‑E使用视觉关系来使自注意力权重更加稀疏;RCSA‑D将先验语义关系信息嵌入输入高层上下文特征中,增强解码阶段语义表达。3)本发明在离线和在线评测方法上做了充分实验,实验结果展示了所提方法的有效性。
Description
技术领域
本发明涉及自然图像处理,计算机视觉和自然语言处理三个领域,针对自然图像描述自动生成目标,设计了一种基于关系约束自注意力的图像描述自动生成方法。
背景技术
图像描述,旨在自动为图像生成自然描述,是一个结合计算机视觉和自然语言处理的跨学科任务。其要求模型不仅要了解图像中的对象,场景及其交互,还需要生成自然语言序列。图像描述的研究与发展依赖于计算机视觉、自然语言处理技术的进步,也有助于带动计算机视觉、自然语言处理等相关领域的发展,更加有助于推动人工智能相关应用的实现,例如视觉障碍辅助、视觉语音导航、智能聊天机器人、幼儿教育以及医学报告自动生成等等。
随着深度神经网络的发展,大多数最近的图像描述方法遵循编码器-解码器(encoder-decoder)框架。其首先通过卷积神经网络(CNN)对图像进行编码,然后通过经循环神经网络(RNN)来解码视觉特征并生成描述。图像描述的难点是将视觉内容适当地对准语言描述,其中模型通常在解码期间应用注意力机制来强调视觉内容区域。
目前,基于自注意力(self-attention)的Transformer结构在序列生成任务中表现出出色的性能,其能取代掉传统图像描述模型中的RNN,并且更好的对齐视觉特征与语义单词。自注意力的优势在于能学习到更完整的图像区域与区域之间的关系和联系。然而自注意力中的关系通常是比较稠密的,难以被模型完全优化,从而导致关系和注意力中存在冗余噪声。同时,一些有用的先验关系信息,比如图像物体之间的视觉和语义关系信息,在当前的自注意力机制中被忽略,这些都直接造成注意力特征获取的不够准确,阻碍了图像描述效果的进一步提高。
发明内容
为了解决由于自注意力机制在图像描述任务中存在的冗余噪声和缺乏先验,导致图像描述效果难以进一步提高问题,本发明公开了一种具有关系约束能力的自注意力模型(Relation Constraint Self-Attention,RCSA),能够将先验关系信息引入自注意力中,来限制自注意力的分布,从而提高自注意力的关系学习能力。相比于Up-Down等传统注意力模型方法,本方法不仅在图像关注的位置上更为准确,图像描述结果更加准确。
本发明采用的技术方案为一种基于关系约束自注意力(Relation ConstraintSelf-Attention,RCSA)的图像描述自动生成方法,该方法包括包含两个子模块:RCSA-E作用于编码器阶段;RCSA-D作用于解码器阶段,RCSA模型具体步骤如下:
步骤(1)获取MS COCO图像描述数据集并预处理,得到训练数据集:
步骤(1.3)使用特征提取器模型,完成MS COCO图像数据I的预编码,得到图像特征X。
步骤(1.4)采用场景图生成方法获得图像的场景图G,随后通过G生成RCSA-E和RCSA-D分别所需的图像视觉关系图和语义关系对(并非所有的物体之间都会存在视觉和语义关系,没有关系的物体,不会生成图像视觉关系图和语义关系对)。图像视觉关系图是一种有向无环图(Directed Acyclic Graph)结构,由有向边和各个节点组成,如“woman→umbrella”中,“woman”和“umbrella”是节点,存在一条由“woman”指向“umbrella”的有向边。语义关系对是一个三元组(Triple),其表示为<主语,关系,宾语>,如<woman,with,umbrella>中,“woman”为主语,“umbrella”为宾语,“with”为两者之间关系。
步骤(2)构建RCSA-E作用于模型编码器,编码器遵循标准Transformer编码器结构,是一种6层的栈式结构,前一层的输出会作为下一层的输入,每一层的结构相同,其核心为自注意力机制(self-attention)。自注意力机制的输入input会首先经过三次不同线性变换得到Query(简称为QE)、Key(简称为KE)和Value(简称为VE),然后生成自注意力矩阵输出RCSA-E针对编码器中自注意力机制不足,做出改进:
步骤(2.1)由步骤1.4图像视觉关系图作为物体间是否有视觉关系的依据,生成视觉关系矩阵Ω,其大小为N×N(N为图像中物体的数量)其中有视觉关系的对应位置元素置为1,没有关系的置为0。
步骤(2.2)将Ω与编码器中自注意力运算结果相乘,起到约束自注意力的作用,自注意力其他操作不变,这就是完善后的自注意力机制,即RCSA-E。
步骤(3)构建RCSA-D作用于模型解码器,对进行解码。解码器与编码器相似,也遵循标准Transformer解码器结构,是一种6层的栈式结构,前一层的输出会作为下一层的输入,每一层的结构相同,其核心为自注意力机制(self-attention)。不同的是,解码器每一层的输入变成两项:和描述数据自注意力机制的KD和VD由线性变换而来,QD由线性变换而来,其他操作不变。输出为图像描述结果Y,Y={y0,y1,…,yT},T为描述的最长时刻,即描述的最大长度。RCSA-D针对解码器中自注意力机制不足,做出改进:
步骤(3.2)和包含了从应用RCSA-E的编码器中得到的视觉关系信息,又包含了先验语义关系信息,再继续进行自注意力计算,这便是RCSA-D对原自注意力机制的改进。按顺序重复每一解码层计算,并栈式叠加最后得到图像描述结果Y。
步骤(5)对于待描述的图像,应用步骤(1.3)得到其图像特征后送入模型中,便可得到相应的图像描述。
有益效果
相比原基于自注意力机制的图像描述方法,本专利的方法能更好的建模图像中的视觉和语义关系信息,并去除其中无用噪声信息,使得生成的描述句子质量更好;特别地,本专利尤其在描述图像中物体间关系时,能生成更加准确详细的描述。
附图说明
图1:RCSA图像描述方法框架图。
图2:RCSA模型图。
图3:注意力图像对比图。
具体实施方式
下面以MS COCO图像描述数据集为例,说明本发明的具体实施步骤:
步骤(1)获取MS COCO图像描述数据集并预处理,得到训练数据集:
步骤(1.1)获取MS COCO图像描述数据集,其中包含图像数据I及其对应的groundtruth标准描述数据MS COCO数据集下载地址为http://cocodataset.org/#download,数据集共包含164062张图片,其中训练集、验证集和测试集大小分别为82783,40504和40775,除测试集外,每张图片还包含至少5句对应的标准描述作为标签。
步骤(1.2)对MS COCO中的ground truth标准描述数据进行预处理。设置图像描述最大长度为16,将词频小于5的单词替换为“UNK”,减少少数噪声单词的干扰,场景图生成方法中会存在50个关系词或词组,将其也加入词库,最终词库数据中包含的单词数量为9507。
步骤(1.3)使用特征提取器模型,完成MS COCO图像数据I的预编码,得到图像特征X,可以采用深度卷积神经网络,例如ResNet-101,也可以采用目标检测模型,例如RCNN、Faster-RCNN等。本发明采用Faster-RCNN。公式表达为:
X=Faster-RCNN(I)
步骤(1.4)采用场景图生成方法获得图像的场景图G,随后通过G生成RCSA-E和RCSA-D分别所需的图像视觉关系图和语义关系对(并非所有的物体之间都会存在视觉和语义关系,没有关系的物体,不会生成图像视觉关系图和语义关系对)。图像视觉关系图是一种有向无环图(Directed Acyclic Graph)结构,由有向边和各个节点组成,如“woman→umbrella”中,“woman”和“umbrella”是节点,存在一条由“woman”指向“umbrella”的有向边。语义关系对是一个三元组(Triple),其表示为<主语,关系,宾语>,如<woman,with,umbrella>中,“woman”为主语,“umbrella”为宾语,“with”为两者之间关系。
步骤(2)构建RCSA-E作用于模型编码器,编码器遵循标准Transformer编码器结构,是一种6层的栈式结构,前一层的输出会作为下一层的输入,每一层的结构相同,其核心为自注意力机制(self-attention),只用其中一层进行描述:自注意力机制的输入input会首先经过三次不同线性变换得到Query(简称为QE)、Key(简称为KE)和Value(简称为VE),然后生成自注意力矩阵输出对于编码器而言,编码器的输入是提取的图像特征X,输出为编码后的图像特征以最后一层编码层举例,原编码器中自注意力公式表示为:
步骤(2.1)由步骤1.4图像视觉关系图作为物体间是否有视觉关系的依据,生成视觉关系矩阵Ω,其大小为N×N(N为图像中物体的数量)其中有视觉关系的对应位置元素置为1,没有关系的置为0。
步骤(3)构建RCSA-D作用于模型解码器,对进行解码。解码器与编码器相似,也遵循标准Transformer编码器结构,是一种6层的栈式结构,前一层的输出会作为下一层的输入,每一层的结构相同,其核心为自注意力机制(self-attention)。不同的是,解码器每一层的输入变成两项:和描述数据自注意力机制的KD和VD由线性变换而来,QD由线性变换而来,其他操作不变。输出为图像描述结果Y,Y={y0,y1,…,yT},T为描述的最长时刻,即描述的最大长度,以最后一层解码层举例,原解码器中的自注意力公式表达为:
步骤(3.1)由步骤1.4图像语义关系对构建语义关系嵌入E,对于区域i来说,其既可以作为关系对中的“主语”出现,又可以作为“宾语”出现,如单词“umbrella”在图1中,是关系对<umbrella,nextto,bench>中的“主语”,也是<woman,with,umbrella>中的“宾语”。语义关系嵌入E的公式定义如下:
其中Nsub与Nobj分别是物体出现在所有关系对中主语和宾语的次数,Nrel=Nsub+Nobj,Esub与Eobj分别是其对应关系对中关系单词的嵌入,其公式为:
Esub=Embedding(ysub)
Eobj=Embedding(yobj)
其中Embedding为嵌入函数,ysub和yobj分别为区域i在关系对中作为主语和宾语时的对应关系单词。fsub与fobj分别是两个结构相同的变换函数,由前馈网络加ReLU激活函数组成。
步骤(3.2)和包含了从应用RCSA-E的编码器中得到的视觉关系信息,又包含了先验语义关系信息,再继续进行自注意力计算,这便是RCSA-D对原自注意力机制的改进。重复该栈式叠加操作,最后得到图像描述结果Y,公式如下:
LXE(θ)=-∑log pθ(yt|y1:t-1)
使用随机梯度下降算法,例如ADAM对整个方法进行优化,训练参数,得到最终的模型。
步骤(5)对于待描述的图像,应用步骤(1.3)得到其图像特征后送入模型中,便可得到相应的图像描述。
为了充分验证本方法的优越性,采用定量分析和定性分析两种评价方式。定量分析包含离线和在线两种,将其与SCST,Up-Down,AoANet,GCN-LSTM,SGAE,VSUA,NG-SAN等已有的方法进行了效果比较,使用BLEU,METEOR,ROUGE和CIDEr四个评价指标对结果进行了评价,这四种评价指标已经广泛应用于图像描述结果的定量评价中。定性分析采用可视化注意力区域的方式,主要与普通自注意力(SA)方法的进行了对比。
首先对方法进行定量分析。离线测试采用Karpathy划分,将原有的训练集和验证集数据重新划分,生成113287张训练数据、5000张验证数据、5000张测试数据。在线方式则将本方法在原测试集上的结果提交到MS COCO测试服务器上。表1为离线测试结果,从表1可以看到,本发明在BLEU1,METTOR和CIDEr指标上取得了最好结果,相较于同样使用自注意力机制的NG-SAN方法,本发明提出的关系约束机制能够更好地利用图像中的视觉和语义关系来约束自注意力分布,使得注意力特征会更加准确,图像描述效果提升明显。表2和表3分别为MS COCO参考描述数量为5和40时的在线测试结果,与部分已公开的方法结果相比,本方法效果明显,在所有指标上具有绝对优势,尤其CIDEr指标,相比较其它方法至少提升了3。
表1 MS COCO数据集上离线测试
方法 | BLEU1 | BLEU4 | METTOR | ROUGLE | CIDEr |
SCST | - | 31.3 | 26.0 | 54.3 | 101.3 |
Up-Down | 79.7 | 37.4 | 27.7 | 57.7 | 123.2 |
VSUA | - | 38.4 | 28.5 | 58.4 | 128.6 |
GCN-LSTM | 80.5 | 38.2 | 28.5 | 58.3 | 127.6 |
SGAE | 80.8 | 38.4 | 28.4 | 58.6 | 127.8 |
AoANet | 80.2 | 38.9 | 29.2 | 58.8 | 129.8 |
NG-SAN | - | 39.9 | 29.3 | 59.2 | 132.1 |
RCSA(ours) | 81.2 | 39.5 | 29.5 | 58.9 | 132.5 |
表2 MS COCO数据集上在线测试(c5)
方法 | BLEU1 | BLEU2 | BLEU3 | BLEU4 | METTOR | ROUGLE | CIDEr |
SCST | 78.1 | 61.9 | 47.0 | 35.2 | 27.0 | 56.3 | 114.7 |
Up-Down | 80.2 | 64.1 | 49.1 | 36.9 | 27.6 | 57.1 | 117.9 |
VUSA | 79.9 | 64.3 | 49.5 | 37..4 | 28.2 | 57.9 | 121.6 |
GCN-LSTM | 80.8 | 65.5 | 50.8 | 38.7 | 28.5 | 58.5 | 125.3 |
SGAE | 81.0 | 65.6 | 50.7 | 38.5 | 28.2 | 58.6 | 123.8 |
AoANet | 81.0 | 65.8 | 51.4 | 39.4 | 29.1 | 58.9 | 126.9 |
NG-SAN | 80.8 | 65.4 | 50.8 | 38.8 | 29.0 | 58.7 | 126.3 |
RCSA(ours) | 81.5 | 66.3 | 51.6 | 39.7 | 29.4 | 59.2 | 130.0 |
表3 MS COCO数据集上在线测试(c40)
从上述评价指标定量评价来看,本发明提出基于关系约束自注意力的图像描述自动生成方法具有很强的优越性。为了进行定性分析,我们通过可视化方法展示了普通自注意力模型(SA)和本发明模型(RCSA)在图像描述过程中所关注的区域。如图3所示,自注意力图像中的区域越亮,表示该区域越受到关注很明显,RCSA更加关注相关的区域和它们之间的关系,描述更为准确。比如:在第一个例子,RCSA在“motorcycle”和“truck”上有着更高的注意力;在第一个和第三个例子中,RCSA能识别出关系“in front of a truck”和“under atree”;在所有三个例子中,RCSA有着更精准的注意力关注度,比如“truck”,“cat”和“man”。
无论是定量评价中的离线测试和在线测试,还是定性分析中展示的注意力图像,本发明提出的基于关系约束自注意力的图像描述自动生成方法取得了较好的效果,体现关系约束自注意力模型的强大能力,在未来的实际应用中具有良好的应用前景。
Claims (4)
1.一种基于关系约束自注意力RCSA的图像描述自动生成方法,其特征在于:该方法包括包含两个子模块:RCSA-E作用于编码器阶段;RCSA-D作用于解码器阶段,具体步骤如下:
步骤(1)获取图像描述数据集并预处理,得到训练数据集,包括提取图像特征X,以及生成RCSA-E和RCSA-D分别所需的图像视觉关系图和语义关系对;
步骤(2)构建RCSA-E作用于模型编码器,编码器用于对步骤(1)提取的图像特征X进行编码,输出编码后的图像特征编码器遵循标准Transformer编码器结构,是一种6层的栈式结构,每一层的结构相同,将每一层含有RCSA-E的编码层栈式累加,前一层的输出作为后一层的输入,累加6层后得到编码器输出
步骤(3)构建RCSA-D作用于模型解码器,对进行解码。解码器遵循标准Transformer解码器结构,是一种6层的栈式结构,前一层的输出会作为下一层的输入,每一层的结构相同,解码器每一层的输入为两项:和ground truth标准描述数据将每一层含有RCSA-D的编码层栈式累加,前一层的输出作为后一层的输入,累加6层后得到解码器输出,即生成的描述Y,Y={y0,y1,…,yT},T为描述的最长时刻,即描述的最大长度;
步骤(5)对于待描述的图像,使用与训练过程相同的特征提取方法,得到其图像特征后依次送入编码器和解码器中,便可得到相应的图像描述。
2.根据权利要求1所述的一种基于关系约束自注意力的图像描述自动生成方法,进一步的,步骤(1)包括以下步骤:
步骤(1.3)使用特征提取器模型,完成MS COCO图像数据I的预编码,得到图像特征X;
步骤(1.4)采用场景图生成方法获得图像的场景图G,随后通过G生成RCSA-E和RCSA-D分别所需的图像视觉关系图和语义关系对;图像视觉关系图是一种有向无环图结构,由有向边和各个节点组成,节点为每个物体,有向边用于表示两个物体之间的视觉或语义关系;语义关系对是一个三元组,其表示为<主语,关系,宾语>。
4.根据权利要求3所述的一种基于关系约束自注意力的图像描述自动生成方法,进一步的,
步骤(3)中含有RCSA-D的第i解码层的工作过程具体如下:
步骤(3.1)由步骤1.4图像语义关系对构建语义关系嵌入E,对于区域a来说,其既可以作为关系对中的“主语”出现,又可以作为“宾语”出现。语义关系嵌入E的公式定义如下:
其中Nsub与Nobj分别是物体出现在所有关系对中主语和宾语的次数,Nrel=Nsub+Nobj,Esub与Eobj分别是其对应关系对中关系单词的嵌入,其公式为:
Esub=Embedding(ysub)
Eobj=Embedding(yobj)
其中Embedding为嵌入函数,ysub和yobj分别为区域i在关系对中作为主语和宾语时的对应关系单词。fsub与fobj分别是两个结构相同的变换函数,由前馈网络加ReLU激活函数组成;
步骤(3.2)利用RCSA-D机制得到本层输出,公式表达为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110825814.9A CN113420834B (zh) | 2021-07-21 | 2021-07-21 | 一种基于关系约束自注意力的图像描述自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110825814.9A CN113420834B (zh) | 2021-07-21 | 2021-07-21 | 一种基于关系约束自注意力的图像描述自动生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113420834A true CN113420834A (zh) | 2021-09-21 |
CN113420834B CN113420834B (zh) | 2024-05-28 |
Family
ID=77718001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110825814.9A Active CN113420834B (zh) | 2021-07-21 | 2021-07-21 | 一种基于关系约束自注意力的图像描述自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420834B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114511779A (zh) * | 2022-01-20 | 2022-05-17 | 电子科技大学 | 场景图生成模型的训练方法、场景图生成方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144553A (zh) * | 2019-12-28 | 2020-05-12 | 北京工业大学 | 一种基于时空记忆注意力的图像描述方法 |
CN111324758A (zh) * | 2020-02-14 | 2020-06-23 | 北京工业大学 | 基于发散-聚合注意力的图像描述方法 |
WO2020244287A1 (zh) * | 2019-06-03 | 2020-12-10 | 中国矿业大学 | 一种图像语义描述的生成方法 |
-
2021
- 2021-07-21 CN CN202110825814.9A patent/CN113420834B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020244287A1 (zh) * | 2019-06-03 | 2020-12-10 | 中国矿业大学 | 一种图像语义描述的生成方法 |
CN111144553A (zh) * | 2019-12-28 | 2020-05-12 | 北京工业大学 | 一种基于时空记忆注意力的图像描述方法 |
CN111324758A (zh) * | 2020-02-14 | 2020-06-23 | 北京工业大学 | 基于发散-聚合注意力的图像描述方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114511779A (zh) * | 2022-01-20 | 2022-05-17 | 电子科技大学 | 场景图生成模型的训练方法、场景图生成方法及装置 |
CN114511779B (zh) * | 2022-01-20 | 2023-07-25 | 电子科技大学 | 场景图生成模型的训练方法、场景图生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113420834B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109947912B (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
CN111260740B (zh) | 一种基于生成对抗网络的文本到图像生成方法 | |
CN108052512B (zh) | 一种基于深度注意力机制的图像描述生成方法 | |
CN109948691B (zh) | 基于深度残差网络及注意力的图像描述生成方法和装置 | |
CN109492113B (zh) | 一种面向软件缺陷知识的实体、关系联合抽取方法 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN110033008B (zh) | 一种基于模态变换与文本归纳的图像描述生成方法 | |
CN113343705B (zh) | 一种基于文本语义的细节保持图像生成方法及系统 | |
CN111144553B (zh) | 一种基于时空记忆注意力的图像描述方法 | |
CN109461177B (zh) | 一种基于神经网络的单目图像深度预测方法 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN111914552A (zh) | 一种数据增强模型的训练方法及装置 | |
CN114821050A (zh) | 一种基于transformer的指称图像分割方法 | |
CN115965789A (zh) | 一种基于场景感知类注意力的遥感图像语义分割方法 | |
CN114708474A (zh) | 一种融合局部和全局特征的图像语义理解算法 | |
CN117390151A (zh) | 结构健康诊断视觉-语言基础模型和多模态交互系统的建立方法 | |
CN117271792A (zh) | 一种基于大模型构建企业领域知识库的方法 | |
CN114581789A (zh) | 一种高光谱图像分类方法及系统 | |
CN113420834B (zh) | 一种基于关系约束自注意力的图像描述自动生成方法 | |
CN114220095A (zh) | 一种基于实例分割的图像语义描述改进方法 | |
CN113096133A (zh) | 一种基于注意力机制的语义分割网络的构建方法 | |
CN116226357B (zh) | 一种输入中包含错误信息场景下的文档检索方法 | |
CN116958738A (zh) | 图片识别模型的训练方法和装置、存储介质及电子设备 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 | |
CN114820212A (zh) | 非连续疾病实体抽取方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |