CN113298151A - 一种基于多级特征融合的遥感图像语义描述方法 - Google Patents
一种基于多级特征融合的遥感图像语义描述方法 Download PDFInfo
- Publication number
- CN113298151A CN113298151A CN202110577114.2A CN202110577114A CN113298151A CN 113298151 A CN113298151 A CN 113298151A CN 202110577114 A CN202110577114 A CN 202110577114A CN 113298151 A CN113298151 A CN 113298151A
- Authority
- CN
- China
- Prior art keywords
- image
- semantic
- remote sensing
- model
- target detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于多级特征融合的遥感图像语义描述方法,属于遥感图像处理和计算机视觉领域,包括以下步骤:获取高分辨率遥感影像,构建遥感图像语义描述数据集;利用语义标注数据集训练图像的语义分类模型,由图像提取单词描述并进行编码,得到语义特征;利用目标检测数据集训练目标检测模型,提取图像的区域级特征并进行编码,得到视觉特征;将获取的语义和视觉特征进行聚合,即将两组特征拼接在一起;将聚合后的多级特征作为Transformer的输入,训练图像自然语言生成模型。本发明利用了图像的语义和视觉特征,提取的信息包含了场景信息、区域视觉信息和对象的语义关系,生成的图像语义描述可读性强,准确性高。
Description
技术领域
本发明属于遥感图像处理和计算机视觉领域,具体涉及一种基于图像视觉、语义特征融合和注意力机制的遥感图像自然语义描述方法。
背景技术
随着传感器技术的迅速发展,人类对地球的观测能力越来越高,获取的数据量显著增加。但是,信息处理水平严重滞后于遥感数据获取技术的发展,使得海量的数据得不到有效的利用。研究和探索对数据量巨大的遥感图像进行快速准确的理解,提取有用的信息,进而指导在农业、环境、交通、军事等领域的科学决策显得十分重要。
遥感图像语义描述是从图像中提取信息,感知图像所蕴含的场景语义,并对图像中的内容进行描述的过程,是对遥感图像高层次的解析。在遥感场景理解领域,让计算机按照人类认知理解图像一样来认知图像,从遥感图像中自动提取信息,生成容易理解的文本描述受到了广泛研究。
图像描述的研究方法主要分为以下三个类别:基于模板、基于检索和基于深度学习的图像描述。基于模板的图像描述是基于固定的硬编码语句模板方法,根据图像中识别到的对象以及发现的对象关系来匹配句子模板,从而生成图像描述。基于检索的方法把训练集含有的图像和其对应的文本描述映射到同一向量空间,并计算两者之间的距离,然后根据距离排名得到和训练集中图像内容最接近的文本描述。上述两类方法限制了描述文本的多样性,不能生成可变长度、灵活性强的描述语句。
近年来卷积神经网络在图像上的应用,对于提取图片特征信息表现出的强大能力,以及循环神经网络在机器翻译领域发挥出的卓越效果,推动了神经网络在图像描述领域的发展。基于神经网络的图像描述,不依赖于任何模板、语法树或者有限的类别库,不需要制定任何的规则,它们自动地从海量的训练集中去学习图像和文本的信息,能够记忆各种各样的图像信息和其对应文本的对应关系,然后自动推断出测试图像和其相对应的文本,能够生成更灵活、更新颖的文本描述,而且还能够很好地描述从未见过的图像。
发明内容
针对现有技术,本发明提供一种基于多级特征融合的遥感图像语义描述方法,通过深度卷积神经网络训练分类和目标检测模型,在训练好的分类模型中,获取描述图像的多个单词,经过编码得到语义特征,在训练好的检测模型中,获取目标候选区域,得到视觉特征,将语义和视觉特征融合,共同作为图像自然语言生成模型(Transformer解码器)的输入,生成遥感图像的自然语言描述语句。
为了实现遥感图像的自然语言描述,本发明提出基于多级特征融合的遥感图像语义描述方法,采用的技术方案为:
一种基于多级特征融合的遥感图像语义描述方法,所述方法包括以下步骤:
步骤一、获取原始的高分辨率遥感影像,对获取的高分辨率遥感影像进行预处理,得到图像数据集,对于图像数据集中的每个图像,人工添加语义标注,用自然语言的形式描述图像内容,图像与语义标注共同构成遥感图像语义描述数据集;同时获取公开的遥感图像目标检测数据集;
步骤二、将构建的遥感图像语义描述数据集和公开的遥感图像目标检测数据集分别划分为训练集、验证集和测试集;
步骤三、将遥感图像语义描述数据集划分后各个数据集中图像对应的语义标注拆分为单个词,每个单词作为图像的一个标签,利用拆分后的训练集和验证集数据对语义分类模型进行训练及优化调整,利用拆分后的测试集数据对语义分类模型进行验证,获取图像的语义特征;同时利用遥感图像目标检测数据集划分后的训练集和验证集数据对目标检测模型进行训练及优化调整,利用测试集数据对目标检测模型进行验证,获取图像的视觉特征;
步骤四、将步骤三获取的语义特征和视觉特征进行聚合,即将两组特征拼接在一起,得到图像多级特征;
步骤五、将步骤四得到的图像多级特征作为图像自然语言生成模型的输入,训练图像自然语言生成模型;
步骤六、利用步骤二处理后的测试集数据对训练好的图像自然语言生成模型进行验证,生成遥感图像的语义描述。
进一步的,步骤三中利用拆分后的训练集和验证集数据对语义分类模型进行训练及优化调整,利用拆分后的测试集数据对语义分类模型进行验证,获取图像的语义特征,具体包括以下过程:
步骤3.1:设置模型的参数:设置ResNet-101语义分类模型的网络学习率、优化函数、最大迭代次数、批量训练的大小以及模型保存位置;
步骤3.2:训练模型:利用拆分后的训练集数据对ResNet-101语义分类模型的参数进行训练;
步骤3.3:优化模型:根据拆分后的验证集数据调整ResNet-101语义分类模型的参数,优化ResNet-101语义分类模型;
步骤3.4:验证模型:根据拆分后的测试集数据对ResNet-101语义分类模型进行验证;
步骤3.5:获取语义特征:在ResNet-101语义分类模型得到的输出中,根据每个单词的概率值大小排序,选择前K个得分高的单词,将每个单词进行编码,得到语义特征向量;其中,K为设定值。
进一步的,步骤三中利用遥感图像目标检测数据集划分后的训练集和验证集数据对目标检测模型进行训练及优化调整,利用测试集数据对目标检测模型进行验证,获取图像的视觉特征,具体包括以下步骤:
步骤4.2:设置目标检测模型的参数:设置Faster R-CNN目标检测模型的先验框大小、网络学习率、优化函数、最大迭代次数、批量训练的大小和模型保存位置;
步骤4.3:训练模型:利用遥感图像目标检测数据集的训练集数据对Faster R-CNN目标检测模型的参数进行训练;
步骤4.4:优化模型:根据遥感图像目标检测数据集的验证集数据调整Faster R-CNN目标检测模型的训练参数,优化Faster R-CNN目标检测模型;
步骤4.5:验证模型:根据遥感图像目标检测数据集的测试集数据对Faster R-CNN目标检测模型进行验证;
步骤4.6:获取视觉特征:在Faster R-CNN目标检测模型生成的候选区域中,根据区域是待检测目标的概率值排序结果,选择前P个得分高的候选区域,对候选区域提取特征,将P个候选区域特征聚合在一起,得到视觉特征向量;其中P为设定值。
进一步的,步骤五具体包括以下步骤:
步骤5.1:将步骤四获取的图像多级特征作为输入特征向量,将输入特征向量分割为多个片段,按照一定的顺序排列,得到序列化数据,并为每个片段添加一个位置向量,以确定每一个描述单词的位置;
步骤5.2:将每个片段的输入特征向量通过注意力机制后与输入特征向量本身进行相加和归一化;
步骤5.3:相加和归一化后的特征向量经前馈神经网络进行特征提取与组织,将前馈神经网络前后的数据再次进行相加和归一化;
步骤5.4:步骤5.3相加和归一化获得的结果,输出到上一个位置片段的注意力机制上,以持续获得不断片段的排序位置和语言信息;
步骤5.5:将上一个位置片段的注意力机制前后的数据进行相加和归一化,并依次经前馈神经网络和softmax层,得到一个输出向量,输出向量的每个位置代表相应单词的得分,选择概率最大的单词即当前时刻的输出结果;
步骤5.6:重复步骤5.2至步骤5.5,直到生成一个约定的终止符号,表示图像自然语言生成模型完成了输出,将每次得到的单词连接在一起即为对应遥感图像的语义描述。
与现有技术相比,本发明的优点和有益效果:
(1)本发明利用分类网络提取了图像的多标签信息,由每个语句的单词构成,包含丰富的语义信息,有利于模型生成描述目标之间关系的语句。
(2)本发明利用目标检测网络生成候选区域并提取其特征,符合人类理解图像的特点,即描述显著目标之间的语义关系。
(3)本发明语义特征和视觉特征的融合包含了场景信息、区域视觉信息和对象的语义关系,有助于提升生成自然语言描述的可读性和准确性。
(4)本发明Transformer解码器全部由注意力机制组成,可将任意位置的两个单词的距离转换成1,有助于解决语句的长期依赖问题,生成更加可靠的自然语言描述语句。
附图说明
图1是本发明提供的基于多级特征融合的遥感图像语义描述方法流程图。
图2是本发明利用神经网络分类器提取语义单词并进行特征编码的示意图。
图3是本发明利用目标检测网络提取候选区域并进行视觉特征编码的示意图。
图4是本发明利用Transformer解码器生成图像语义描述的示意图。
图5是本发明实施过程中基于多级特征融合的图像语义描述模型生成的实际自然语言描述结果示例。
具体实施方式
下面结合附图和具体实例对本发明作进一步解释说明。
如图1所示,一种基于多级特征融合的遥感图像语义描述方法,包括以下步骤:
步骤一、构建遥感图像语义描述数据集,步骤如下:获取原始的高分辨率遥感影像;对上述获取的高分辨率遥感影像进行预处理,包括图像去噪和裁剪,本实施例得到尺寸大小在300-1000之间的图像数据集;对于每个图像,人工添加语义描述,用自然语言的形式描述图像内容,每张图像由T个语句描述,图像与语义标注共同构成完整的遥感图像语义描述数据集;同时下载公开的遥感图像目标检测数据集DOTA,其包含有16个类别中的40万个带目标标注框的对象实例;
步骤二、数据集划分:将构建的遥感图像语义描述数据集和公开的遥感图像目标检测数据集DOTA分别按照8:1:1的比例划分为训练集、验证集和测试集;
步骤三、利用Resnet-101语义分类模型(神经网络分类器)获取图像的语义特征,如图2所示,步骤如下:
步骤3.1:构建训练分类模型需要的数据集:将图像对应的语义标注拆分为单个词,每个单词作为图像的一个标签,共同组成样本的多标签,在训练过程中,图像作为输入,所有单词构成的多标签作为输出,其中输出向量的维度为T,即整个语义标注数据集所包含的无重复的单词数目;
步骤3.2:设置模型的参数:设置ResNet-101语义分类模型的网络学习率、优化函数、最大迭代次数、批量训练的大小以及模型保存位置;
步骤3.3:训练模型:利用拆分后的训练集数据对ResNet-101语义分类模型的参数进行训练;
步骤3.4:优化模型:根据拆分后的验证集数据调整ResNet-101语义分类模型的参数,优化ResNet-101语义分类模型;
步骤3.5:验证模型:根据拆分后的测试集数据对ResNet-101语义分类模型进行验证;
步骤3.6:获取语义特征:在ResNet-101语义分类模型得到的输出中,根据每个单词的概率值大小排序,选择前K个得分高的单词,将每个单词进行编码,得到N1维语义特征向量;其中,K为设定值。
利用Faster R-CNN目标检测网络(候选区域提取网络)获取图像的视觉特征,如图3所示,步骤如下:
步骤4.2:设置目标检测模型的参数:设置Faster R-CNN目标检测模型的先验框大小、网络学习率、优化函数、最大迭代次数、批量训练的大小和模型保存位置;
步骤4.3:训练模型:利用遥感图像目标检测数据集的训练集数据对Faster R-CNN目标检测模型的参数进行训练;
步骤4.4:优化模型:根据遥感图像目标检测数据集的验证集数据调整Faster R-CNN目标检测模型的训练参数,优化Faster R-CNN目标检测模型;
步骤4.5:验证模型:根据遥感图像目标检测数据集的测试集数据对Faster R-CNN目标检测模型进行验证;
步骤4.6:获取视觉特征:在Faster R-CNN目标检测模型生成的候选区域中,根据区域是待检测目标的概率值排序结果,选择前P个得分高的候选区域,对候选区域提取特征,将P个候选区域特征聚合在一起,得到N2维视觉特征向量;其中P为设定值。
步骤四、多级特征融合,将步骤三获取的语义和视觉特征进行聚合,即将两组特征拼接在一起,得到N(N=N1+N2)维特征;
步骤五、将步骤四得到的N维图像多级特征作为图像自然语言生成模型(Transformer解码器)的输入,输出为图像的自然语义描述,如图4所示,步骤如下:
步骤5.1:将步骤四获取的图像多级特征作为输入特征向量,将输入特征向量分割为多个片段,按照一定的顺序排列,得到序列化数据,并为每个片段添加一个位置向量,以确定每一个描述单词的位置;
步骤5.2:将每个片段的输入特征向量通过注意力机制后与输入特征向量本身进行相加和归一化;
步骤5.3:相加和归一化后的特征向量经前馈神经网络进行特征提取与组织,将前馈神经网络前后的数据再次进行相加和归一化;
步骤5.4:步骤5.3相加和归一化获得的结果,输出到上一个位置片段的注意力机制上,以持续获得不断片段的排序位置和语言信息;
步骤5.5:将上一个位置片段的注意力机制前后的数据进行相加和归一化,并依次经前馈神经网络和softmax层,得到一个输出向量,输出向量的每个位置代表相应单词的得分,选择概率最大的单词即当前时刻的输出结果;
步骤5.6:重复步骤5.2至步骤5.5,直到生成一个约定的终止符号,表示Transformer的解码器已经完成了输出,将每次得到的单词连接在一起即为对应遥感图像的语义描述。
步骤六、模型验证及应用:利用步骤二处理后的测试集数据对训练好的图像自然语言生成模型进行验证,生成遥感图像的语义描述。
如图5所示,是本发明实施过程中基于多级特征融合的图像语义描述模型生成的实际自然语言描述结果示例。
Claims (4)
1.一种基于多级特征融合的遥感图像语义描述方法,其特征在于,所述方法包括以下步骤:
步骤一、获取原始的高分辨率遥感影像,对获取的高分辨率遥感影像进行预处理,得到图像数据集,对于图像数据集中的每个图像,人工添加语义标注,用自然语言的形式描述图像内容,图像与语义标注共同构成遥感图像语义描述数据集;同时获取公开的遥感图像目标检测数据集;
步骤二、将构建的遥感图像语义描述数据集和公开的遥感图像目标检测数据集分别划分为训练集、验证集和测试集;
步骤三、将遥感图像语义描述数据集划分后各个数据集中图像对应的语义标注拆分为单个词,每个单词作为图像的一个标签,利用拆分后的训练集和验证集数据对语义分类模型进行训练及优化调整,利用拆分后的测试集数据对语义分类模型进行验证,获取图像的语义特征;同时利用遥感图像目标检测数据集划分后的训练集和验证集数据对目标检测模型进行训练及优化调整,利用测试集数据对目标检测模型进行验证,获取图像的视觉特征;
步骤四、将步骤三获取的语义特征和视觉特征进行聚合,即将两组特征拼接在一起,得到图像多级特征;
步骤五、将步骤四得到的图像多级特征作为图像自然语言生成模型的输入,训练图像自然语言生成模型;
步骤六、利用步骤二处理后的测试集数据对训练好的图像自然语言生成模型进行验证,生成遥感图像的语义描述。
2.如权利要求1所述的一种基于多级特征融合的遥感图像语义描述方法,其特征在于,步骤三中利用拆分后的训练集和验证集数据对语义分类模型进行训练及优化调整,利用拆分后的测试集数据对语义分类模型进行验证,获取图像的语义特征,具体包括以下过程:
步骤3.1:设置模型的参数:设置ResNet-101语义分类模型的网络学习率、优化函数、最大迭代次数、批量训练的大小以及模型保存位置;
步骤3.2:训练模型:利用拆分后的训练集数据对ResNet-101语义分类模型的参数进行训练;
步骤3.3:优化模型:根据拆分后的验证集数据调整ResNet-101语义分类模型的参数,优化ResNet-101语义分类模型;
步骤3.4:验证模型:根据拆分后的测试集数据对ResNet-101语义分类模型进行验证;
步骤3.5:获取语义特征:在ResNet-101语义分类模型得到的输出中,根据每个单词的概率值大小排序,选择前K个得分高的单词,将每个单词进行编码,得到语义特征向量;其中,K为设定值。
3.如权利要求1所述的一种基于多级特征融合的遥感图像语义描述方法,其特征在于,步骤三中利用遥感图像目标检测数据集划分后的训练集和验证集数据对目标检测模型进行训练及优化调整,利用测试集数据对目标检测模型进行验证,获取图像的视觉特征,具体包括以下步骤:
步骤4.2:设置目标检测模型的参数:设置Faster R-CNN目标检测模型的先验框大小、网络学习率、优化函数、最大迭代次数、批量训练的大小和模型保存位置;
步骤4.3:训练模型:利用遥感图像目标检测数据集的训练集数据对Faster R-CNN目标检测模型的参数进行训练;
步骤4.4:优化模型:根据遥感图像目标检测数据集的验证集数据调整Faster R-CNN目标检测模型的训练参数,优化Faster R-CNN目标检测模型;
步骤4.5:验证模型:根据遥感图像目标检测数据集的测试集数据对Faster R-CNN目标检测模型进行验证;
步骤4.6:获取视觉特征:在Faster R-CNN目标检测模型生成的候选区域中,根据区域是待检测目标的概率值排序结果,选择前P个得分高的候选区域,对候选区域提取特征,将P个候选区域特征聚合在一起,得到视觉特征向量;其中P为设定值。
4.如权利要求1所述的一种基于多级特征融合的遥感图像语义描述方法,其特征在于,步骤五具体包括以下步骤:
步骤5.1:将步骤四获取的图像多级特征作为输入特征向量,将输入特征向量分割为多个片段,按照一定的顺序排列,得到序列化数据,并为每个片段添加一个位置向量,以确定每一个描述单词的位置;
步骤5.2:将每个片段的输入特征向量通过注意力机制后与输入特征向量本身进行相加和归一化;
步骤5.3:相加和归一化后的特征向量经前馈神经网络进行特征提取与组织,将前馈神经网络前后的数据再次进行相加和归一化;
步骤5.4:步骤5.3相加和归一化获得的结果,输出到上一个位置片段的注意力机制上,以持续获得不断片段的排序位置和语言信息;
步骤5.5:将上一个位置片段的注意力机制前后的数据进行相加和归一化,并依次经前馈神经网络和softmax层,得到一个输出向量,输出向量的每个位置代表相应单词的得分,选择概率最大的单词即当前时刻的输出结果;
步骤5.6:重复步骤5.2至步骤5.5,直到生成一个约定的终止符号,表示图像自然语言生成模型完成了输出,将每次得到的单词连接在一起即为对应遥感图像的语义描述。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110577114.2A CN113298151A (zh) | 2021-05-26 | 2021-05-26 | 一种基于多级特征融合的遥感图像语义描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110577114.2A CN113298151A (zh) | 2021-05-26 | 2021-05-26 | 一种基于多级特征融合的遥感图像语义描述方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113298151A true CN113298151A (zh) | 2021-08-24 |
Family
ID=77325187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110577114.2A Pending CN113298151A (zh) | 2021-05-26 | 2021-05-26 | 一种基于多级特征融合的遥感图像语义描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113298151A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609326A (zh) * | 2021-08-25 | 2021-11-05 | 广西师范大学 | 基于外部知识和目标间关系的图像描述生成方法 |
CN113723312A (zh) * | 2021-09-01 | 2021-11-30 | 东北农业大学 | 基于视觉transformer的水稻病害识别方法 |
CN114029963A (zh) * | 2022-01-12 | 2022-02-11 | 北京具身智能科技有限公司 | 一种基于视觉听觉融合的机器人操作方法 |
CN114863407A (zh) * | 2022-07-06 | 2022-08-05 | 宏龙科技(杭州)有限公司 | 一种基于视觉语言深度融合的多任务冷启动目标检测方法 |
CN116385600A (zh) * | 2023-04-10 | 2023-07-04 | 北京卫星信息工程研究所 | 遥感图像目标特性的分布式表征方法、系统及电子设备 |
CN116452931A (zh) * | 2023-04-11 | 2023-07-18 | 北京科技大学 | 一种层级敏感的图像特征聚合方法 |
CN117221391A (zh) * | 2023-11-09 | 2023-12-12 | 天津华来科技股份有限公司 | 基于视觉语义大模型的智能摄像机推送方法、装置及设备 |
CN117252926A (zh) * | 2023-11-20 | 2023-12-19 | 南昌工控机器人有限公司 | 基于视觉定位的手机壳辅料智能装配控制系统 |
CN117830874A (zh) * | 2024-03-05 | 2024-04-05 | 成都理工大学 | 一种多尺度模糊边界条件下的遥感目标检测方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101692224A (zh) * | 2009-07-08 | 2010-04-07 | 南京师范大学 | 融合空间关系语义的高分辨率遥感图像检索方法 |
US20170124432A1 (en) * | 2015-11-03 | 2017-05-04 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
CN107391609A (zh) * | 2017-07-01 | 2017-11-24 | 南京理工大学 | 一种双向多模态递归网络的图像描述方法 |
CN108960330A (zh) * | 2018-07-09 | 2018-12-07 | 西安电子科技大学 | 基于快速区域卷积神经网络的遥感图像语义生成方法 |
CN109711464A (zh) * | 2018-12-25 | 2019-05-03 | 中山大学 | 基于层次化特征关系图构建的图像描述方法 |
CN110287354A (zh) * | 2019-05-16 | 2019-09-27 | 中国科学院西安光学精密机械研究所 | 一种基于多模态神经网络的高分遥感图像语义理解方法 |
CN110390340A (zh) * | 2019-07-18 | 2019-10-29 | 暗物智能科技(广州)有限公司 | 特征编码模型、视觉关系检测模型的训练方法及检测方法 |
CN110490254A (zh) * | 2019-08-20 | 2019-11-22 | 山西潞安环保能源开发股份有限公司五阳煤矿 | 一种基于双重注意力机制层次网络的图像语义生成方法 |
CN111368118A (zh) * | 2020-02-13 | 2020-07-03 | 中山大学 | 一种图像描述生成方法、系统、装置和存储介质 |
CN111523534A (zh) * | 2020-03-31 | 2020-08-11 | 华东师范大学 | 一种图像描述的方法 |
CN111723937A (zh) * | 2019-03-21 | 2020-09-29 | 北京三星通信技术研究有限公司 | 多媒体数据的描述信息的生成方法、装置、设备及介质 |
-
2021
- 2021-05-26 CN CN202110577114.2A patent/CN113298151A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101692224A (zh) * | 2009-07-08 | 2010-04-07 | 南京师范大学 | 融合空间关系语义的高分辨率遥感图像检索方法 |
US20170124432A1 (en) * | 2015-11-03 | 2017-05-04 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
CN107391609A (zh) * | 2017-07-01 | 2017-11-24 | 南京理工大学 | 一种双向多模态递归网络的图像描述方法 |
CN108960330A (zh) * | 2018-07-09 | 2018-12-07 | 西安电子科技大学 | 基于快速区域卷积神经网络的遥感图像语义生成方法 |
CN109711464A (zh) * | 2018-12-25 | 2019-05-03 | 中山大学 | 基于层次化特征关系图构建的图像描述方法 |
CN111723937A (zh) * | 2019-03-21 | 2020-09-29 | 北京三星通信技术研究有限公司 | 多媒体数据的描述信息的生成方法、装置、设备及介质 |
CN110287354A (zh) * | 2019-05-16 | 2019-09-27 | 中国科学院西安光学精密机械研究所 | 一种基于多模态神经网络的高分遥感图像语义理解方法 |
CN110390340A (zh) * | 2019-07-18 | 2019-10-29 | 暗物智能科技(广州)有限公司 | 特征编码模型、视觉关系检测模型的训练方法及检测方法 |
CN110490254A (zh) * | 2019-08-20 | 2019-11-22 | 山西潞安环保能源开发股份有限公司五阳煤矿 | 一种基于双重注意力机制层次网络的图像语义生成方法 |
CN111368118A (zh) * | 2020-02-13 | 2020-07-03 | 中山大学 | 一种图像描述生成方法、系统、装置和存储介质 |
CN111523534A (zh) * | 2020-03-31 | 2020-08-11 | 华东师范大学 | 一种图像描述的方法 |
Non-Patent Citations (1)
Title |
---|
ASHISH VASWANI ET AL.: ""Attention Is All You Need"", 《ARXIV:1706.03762V5》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609326B (zh) * | 2021-08-25 | 2023-04-28 | 广西师范大学 | 基于外部知识和目标间关系的图像描述生成方法 |
CN113609326A (zh) * | 2021-08-25 | 2021-11-05 | 广西师范大学 | 基于外部知识和目标间关系的图像描述生成方法 |
CN113723312B (zh) * | 2021-09-01 | 2024-01-23 | 东北农业大学 | 基于视觉transformer的水稻病害识别方法 |
CN113723312A (zh) * | 2021-09-01 | 2021-11-30 | 东北农业大学 | 基于视觉transformer的水稻病害识别方法 |
CN114029963A (zh) * | 2022-01-12 | 2022-02-11 | 北京具身智能科技有限公司 | 一种基于视觉听觉融合的机器人操作方法 |
CN114863407A (zh) * | 2022-07-06 | 2022-08-05 | 宏龙科技(杭州)有限公司 | 一种基于视觉语言深度融合的多任务冷启动目标检测方法 |
CN114863407B (zh) * | 2022-07-06 | 2022-10-04 | 宏龙科技(杭州)有限公司 | 一种基于视觉语言深度融合的多任务冷启动目标检测方法 |
CN116385600A (zh) * | 2023-04-10 | 2023-07-04 | 北京卫星信息工程研究所 | 遥感图像目标特性的分布式表征方法、系统及电子设备 |
CN116385600B (zh) * | 2023-04-10 | 2023-12-19 | 北京卫星信息工程研究所 | 遥感图像目标特性的分布式表征方法、系统及电子设备 |
CN116452931A (zh) * | 2023-04-11 | 2023-07-18 | 北京科技大学 | 一种层级敏感的图像特征聚合方法 |
CN116452931B (zh) * | 2023-04-11 | 2024-03-19 | 北京科技大学 | 一种层级敏感的图像特征聚合方法 |
CN117221391A (zh) * | 2023-11-09 | 2023-12-12 | 天津华来科技股份有限公司 | 基于视觉语义大模型的智能摄像机推送方法、装置及设备 |
CN117221391B (zh) * | 2023-11-09 | 2024-02-23 | 天津华来科技股份有限公司 | 基于视觉语义大模型的智能摄像机推送方法、装置及设备 |
CN117252926B (zh) * | 2023-11-20 | 2024-02-02 | 南昌工控机器人有限公司 | 基于视觉定位的手机壳辅料智能装配控制系统 |
CN117252926A (zh) * | 2023-11-20 | 2023-12-19 | 南昌工控机器人有限公司 | 基于视觉定位的手机壳辅料智能装配控制系统 |
CN117830874A (zh) * | 2024-03-05 | 2024-04-05 | 成都理工大学 | 一种多尺度模糊边界条件下的遥感目标检测方法 |
CN117830874B (zh) * | 2024-03-05 | 2024-05-07 | 成都理工大学 | 一种多尺度模糊边界条件下的遥感目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN113298151A (zh) | 一种基于多级特征融合的遥感图像语义描述方法 | |
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
CN111881262B (zh) | 基于多通道神经网络的文本情感分析方法 | |
CN111783394B (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN112990296B (zh) | 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统 | |
Peng et al. | Recognition of handwritten Chinese text by segmentation: a segment-annotation-free approach | |
CN112633431B (zh) | 一种基于crnn和ctc的藏汉双语场景文字识别方法 | |
CN111738007A (zh) | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 | |
CN115761757A (zh) | 基于解耦特征引导的多模态文本页面分类方法 | |
CN109947923A (zh) | 一种基于词向量的初等数学题型自动提取方法及系统 | |
CN112541347A (zh) | 一种基于预训练模型的机器阅读理解方法 | |
CN116561274A (zh) | 一种基于数字人技术与自然语言大模型的知识问答方法 | |
CN116049367A (zh) | 一种基于无监督知识增强的视觉-语言预训练方法及装置 | |
CN112860898B (zh) | 一种短文本框聚类方法、系统、设备及存储介质 | |
CN114239730A (zh) | 一种基于近邻排序关系的跨模态检索方法 | |
CN116720520B (zh) | 一种面向文本数据的别名实体快速识别方法及系统 | |
Shah et al. | Line level modi (heritage script) ocr using attention based encoder-decoder architecture | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 | |
CN111523325A (zh) | 一种基于笔画的中文命名实体识别方法 | |
CN116579348A (zh) | 基于不确定语义融合的虚假新闻检测方法及系统 | |
CN112329389B (zh) | 一种基于语义分割与禁忌搜索的汉字笔画自动提取方法 | |
CN115409028A (zh) | 一种知识与数据驱动的多粒度中文文本情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210824 |