CN113449741B - 一种基于语义推断和图像理解的遥感影像定位方法及系统 - Google Patents

一种基于语义推断和图像理解的遥感影像定位方法及系统 Download PDF

Info

Publication number
CN113449741B
CN113449741B CN202110753071.9A CN202110753071A CN113449741B CN 113449741 B CN113449741 B CN 113449741B CN 202110753071 A CN202110753071 A CN 202110753071A CN 113449741 B CN113449741 B CN 113449741B
Authority
CN
China
Prior art keywords
scene graph
features
sentence
language
remote sensing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110753071.9A
Other languages
English (en)
Other versions
CN113449741A (zh
Inventor
米文毓
汪建基
郑南宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202110753071.9A priority Critical patent/CN113449741B/zh
Publication of CN113449741A publication Critical patent/CN113449741A/zh
Application granted granted Critical
Publication of CN113449741B publication Critical patent/CN113449741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于语义推断和图像理解的遥感影像定位方法及系统,在图像理解方面,首先利用faster‑rcnn对遥感影像进行特征提取,再根据提取出的候选区域视觉特征、位置特征建立场景图;在语言推断方面,先利用双向LSTM提取句子特征;其次,引入注意力机制,在句子特征的指导下生成新的视觉场景图注意力,利用此注意力更新后的场景图,得到视觉语言场景图;再次,将视觉语言场景图作为新的指导信息,指导语言注意力更新,直至迭代结束;计算所述最终视觉‑语言联合场景图特征与句子特征匹配程度,所得分数最高的区域就是最终检测结果,并将预测的区域进行前景背景区分,得到目标分割效果,能在给定遥感影像中寻找到语言所指代的物体。

Description

一种基于语义推断和图像理解的遥感影像定位方法及系统
技术领域
本发明属于图像识别领域,具体涉及一种基于语义推断和图像理解的遥感影像定位方法及系统。
背景技术
随着深度学习的发展,目前目标检测和分割任务引入遥感影像处理中,这大力推动了遥感影像处理的发展,但是,仅仅依靠目标检测和分割技术得到的结果往往只能对图像中存在的所有目标进行识别和定位,不能进一步定位到图像中特定的某一个目标。但是,在遥感领域中,经常需要我们能够清晰的定位出某个符合一定条件的物体,如图像中经常存在着大量目标,如铁路、公路、彩钢房、普通房屋等等,而铁路沿线的彩钢房存在安全隐患必须进行拆除处理,但是不在铁路沿线的彩钢房则不需要拆除,因此能准确的识别出“铁路沿线的彩钢房”这类目标,才能采取进一步措施。需求十分迫切。因此,我们提出了一种基于语义推断和图像理解的遥感影像定位系统。
发明内容
为了解决现有技术中存在的问题,本发明提供一种基于语义推断和图像理解的遥感影像定位方法及系统,该系统能够准确的从给定图片中寻找到文本信息所指代物体,并出标记其位置框(也可在像素级别分割出文本信息所指示物体),据了解,这是首次提出将代表示任务应用于遥感影像。
为了实现上述目的,本发明采用的技术方案是:一种基于语义推断和图像理解的遥感影像定位方法,具体过程如下:
利用faster-rcnn对遥感影像进行特征提取,检测出图像中的所有候选区域;
根据所述候选区域与周围其余物体之间的关系建立场景图;
利用双向LSTM提取句子特征;
引入注意力机制,在所述句子特征的指导下生成场景图的注意力分布,利用注意力分布更新场景图,得到视觉-语言联合场景图,汇总所述视觉-语言联合场景图的节点和边特征,并利用前向神经网络将所述节点和边特征与句子特征投影到同一空间形成更新的视觉-语言联合特征;再将所述更新的视觉-语言联合特征作为新的指导信息,赋予句子中每个单词不同的注意力,根据注意力将单词特征进行加权组合,形成新的句子特征,形成的句子特征进一步指导更新视觉-语言联合场景图,视觉-语言联合场景图进一步指导更新句子特征,直至完成预设次迭代,得到最终的视觉-语言联合场景图;
将所述最终视觉-语言联合场景图中每个节点及与其相连接的边特征拼接后投影到句子特征维度,与句子特征计算余弦相似度,所得分数最高的节点对应的候选区域就是最终检测结果,并将预测的区域进行前景背景区分,得到目标分割效果。
采用faster-rcnn的目标检测方法提取遥感影像中的目标区域、目标区域的特征及位置,提取目标区域作为检测的候选区域。
根据候选区域与周围其余物体之间的关系建立场景图时,根据各个候选区域视觉特征和空间位置特征构建场景图,其中场景图以候选区域的视觉特征与位置特征拼接,构成场景图的节点;以包含候选区域与其余候选区域的最小矩形框范围的特征和候选区域与其余候选区域之间的相对位置特征拼接构成场景图的边。
句子特征指导场景图更新具体如下:a)节点注意力:首先,根据句子特征指导节点分配新的注意力值,利用两层全连接网络把节点的特征和句子的特征表示投影到同一空间;
再利用注意力机制,在句子表示的指导下重新赋予场景图各个节点新的权重,最后经过softmax归一化后,得到对应节点的权值;
b)边注意力:将边特征送入两层全连接层进行处理,投射到和句子特征相同的空间,根据当前句子表示,利用注意力机制,求场景图各边的权值分布,进而得到新的边注意力值。
引入注意力机制,在所述句子特征的指导下生成场景图的注意力分布,利用注意力分布更新场景图,得到视觉-语言联合场景图时:利用注意力机制,根据句子特征与场景图中各个节点的相似程度更新节点权值;用句子特征与场景图中各个边的相似程度更新边权值,进而更新节点和边的特征表示,形成融合语言特征的视觉-语言联合场景图。
以视觉-语言联合场景图作为指导信息指导更新句子特征,具体地,将图的节点特征、边特征经过汇总和拼接,映射到和词表示相同维度,计算拼接后的向量与词表示的相似程度,指导生成新的词注意力,加权组合得到新的句子特征,用更新后的句子特征指导更新视觉-语言联合特征;更新的视觉-语言联合特征进一步指导更新句子特征;直至完成N次迭代,得到最终的视觉-语言联合场景图。
一种基于语义推断和图像理解的遥感影像定位系统,包括候选区域提取模块、场景图建立模块、句子特征提取模块、联合特征获取模块以及预测模块;
候选区域提取模块利用faster-rcnn对遥感影像进行特征提取,检测出图像中的所有候选区域;
场景图建立模块用于根据所述候选区域与周围其余物体之间的关系建立场景图;
句子特征提取模块利用双向LSTM提取句子特征;
联合特征获取模块用于引入注意力机制,在所述句子特征的指导下生成场景图的注意力分布,利用注意力分布更新场景图,得到视觉-语言联合场景图,汇总所述视觉-语言联合场景图的节点和边特征,并利用前向神经网络将所述节点和边特征与句子特征投影到同一空间形成更新的视觉-语言联合特征;再将所述更新的视觉-语言联合特征作为新的指导信息,赋予句子中每个单词不同的注意力,根据注意力将单词特征进行加权组合,形成新的句子特征,形成的句子特征进一步指导更新视觉-语言联合场景图,视觉-语言联合场景图进一步指导更新句子特征,直至完成预设次迭代,得到最终的视觉-语言联合场景图;
将所述最终视觉-语言联合场景图特征中,每个节点及与其相连接的对应边特征拼接后投影到句子特征维度,与句子特征计算余弦相似度,所得分数最高的节点对应的候选区域就是最终检测结果,并将预测的区域进行前景背景区分,得到目标分割结果。
本发明还提供一种计算机设备,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取部分或全部所述计算机可执行程序并执行,处理器执行部分或全部计算机可执行程序时能实现本发明所述基于语义推断和图像理解的遥感影像定位方法。
另外,提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现本发明所述的基于语义推断和图像理解的遥感影像定位方法。
与现有技术相比,本发明至少具有以下有益效果:
现有在遥感影像中识别并定位物体的方法包括目标检测或者图像分割,这类方法能检测出图像中存在的物体并识别出类别;但是,在遥感影像领域,有时候需要准确的在图像中定位出符合一定要求的物体,比如“铁路沿线的彩钢房”、“路面有凹陷的道路”等等。识别出这些物体,可进一步采取措施,解决安全隐患。本方法将自然语言推断和图像场景理解结合起来,在检测出图像中目标及其分类的基础上,引入场景图对图像内容进行深度理解,并通过语言推断技术分析理解句子内容,从而在图像中找出句子所指代的物体;这将使得在遥感中,能用文本表达的物体,都能在图像中对其进行准确定位。此外,我们还在定位出的图像中引入二进制掩码,对图像进行前景背景分割,就能得到对文本所指代的图像进行分割的结果(同master-rcnn)。
附图说明
图1为本发明一种可实施的定位方法示意图。
图2为本发明实施过程的一种图像场景图示意。
具体实施方式
下面结合附图对本发明进行详细阐述。
步骤1、构建场景图
首先,利用faster-rcnn提取出图像I中的K个目标候选区域
Figure GDA0004048663840000051
及其视觉特征vi、位置信息loci;假设每个目标区域的位置为loci=(xi,yi,wi,hi),其中(xi,yi)是候选目标区域oi的中心位置,wi和hi分别为该候选区域的宽和高。那么该候选区域的位置特征为:pi=[xi,yi,wi,hi,wihi]。将视觉特征和位置特征进行拼接[vi,pi],作为场景图的节点。在遥感影像中,所有地物图片均为俯视图,图片中各个物体之间的关系也比较简单,基本可以通过物体表面特征和物体之间的位置关系清楚表示,那么,对于候选区域oi(pi=[xi,yi,wi,hi,wihi])和oj(pj=[xj,yj,wj,hj,wihi]),关系向量可表示为同时将oi和oj包含进去最小矩形框部分图像的视觉特征viou与位置差特征向量进行拼接后的特征向量;通过2层卷积层将视觉特征投射到与位置差特征相同维度;其中,位置差为
Figure GDA0004048663840000052
关系特征为rij=[viou;Δp];其中,下标i是当前候选区域,j是其余候选区域。
利用faster-rcnn对遥感影像进行特征提取,检测出图像中的所有候选区域时:首先经过一个13层卷积层和4个池化层堆叠的网络框架进行图像特征提取,其次提取出的图像特征经过区域候选网络Region proposal network提取目标所在的区域;最后将图像特征和区域特征送入感兴趣区域池化层和全连接层进行分类和定位。
步骤2、句子特征的提取与注意力初值的设定
采用双向LSTM模型生成句子特征,利用自注意力机制分配句子的初始注意力值,得到句子中每个单词的表示si和句子表示q;
步骤3、句子指导场景图更新
a)节点注意力:首先,根据句子特征指导节点分配新的注意力值,利用两层全连接网络把节点的特征[vi,pi]和句子的特征表示qk投影到同一空间(相同维度);
Figure GDA0004048663840000061
其中f表示2层全连接层。接下来,利用注意力机制,在句子表示q的指导下重新赋予场景图各个节点新的权重。
Figure GDA0004048663840000062
ai为未进行归一化的权重,其中,参数w、Ws和Wg为可训练的参数,经过softmax归一化后,得到对应节点i的权值
Figure GDA0004048663840000063
k表示第k次迭代;
Figure GDA0004048663840000064
其中N为检测到的候选区域总个数。
b)边注意力:首先将边特征送入两层全连接层进行处理,投射到和句子特征相同的空间:
Figure GDA0004048663840000065
其中,rij为边特征,f为两层前向神经网络。根据当前句子特征,利用注意力机制,求场景图各边的权值分布:
Figure GDA0004048663840000066
其中,h、
Figure GDA0004048663840000067
Figure GDA0004048663840000068
为可训练的参数,m为边总个数,得到新的边注意力值
Figure GDA0004048663840000069
步骤4、更新场景图的节点和边:
Figure GDA0004048663840000071
Figure GDA0004048663840000072
汇总节点特征,边特征,得到节点特征汇总
Figure GDA0004048663840000073
和边特征汇总
Figure GDA0004048663840000074
具体如下:
Figure GDA0004048663840000075
Figure GDA0004048663840000076
其中,Λ为所有节点的集合,
Figure GDA0004048663840000077
为所有边的集合。
步骤5、将场景图的
Figure GDA0004048663840000078
拼接,投射到与单词特征向量st相同空间,投影后的向量记作g,指导句子给不同单词分配新的注意力权值,生成新的句子注意力,
Figure GDA0004048663840000079
Figure GDA00040486638400000710
Figure GDA00040486638400000711
其中,st为句子中第t个单词的词表示;
Figure GDA00040486638400000712
为算出的各个单词的注意力,qk+1为更新后的句子表示,为句子中所有单词表示加权相加的结果。
在上述操作中,为了避免场景图指导更新句子特征时将注意力持续放在某些单词上,可对单词注意力引入一定限制。在生成新的注意力分布时将历史的单词注意力分布也考虑。作为示例,假设历史k-1次迭代过程中,单词的注意力分布为
Figure GDA00040486638400000713
那么,令
Figure GDA00040486638400000714
其中,E是所有元素均为1的向量,可更新ati
Figure GDA0004048663840000081
和qk+1分别为;
Figure GDA0004048663840000082
Figure GDA0004048663840000083
Figure GDA0004048663840000084
步骤6、句子继续指导更新图,同步骤3;迭代n次后,最终获得最终的视觉-语言联合场景图,所述最终的视觉-语言联合场景图中,每个节点及与其相连接的对应边的拼接特征与句子特征进行分数匹配(计算余弦相似度),所得分数最高的特征对应候选区域就是最终检测结果;特征匹配也同样是投影到相同维度,计算他们之间的余弦相似度实现。基于本发明所述方法,能在给定遥感影像中寻找到语言所指代的物体。比如,给定遥感影像中包含铁路、公路、低矮建筑物、彩钢房等,给定指代语句“铁路沿线的彩钢房”,本发明可以迅速找到这一目标并用矩形框将其进行标记。
本发明还会构建出训练数据集,收集大量遥感图片,并为遥感图片打上标签。其中,标签信息为文本信息以及目标区域的定位信息,如loci=(xi,yi,wi,hi),并利用所述数据集作为本发明方法在执行过程中的可训练参数的监督信息;训练过程中选用交叉熵损失函数。
本发明提供一种基于语义推断和图像理解的遥感影像定位系统,包括候选区域提取模块、场景图建立模块、句子特征提取模块、联合特征获取模块以及预测模块;
候选区域提取模块利用faster-rcnn对遥感影像进行特征提取,检测出图像中的所有候选区域;
场景图建立模块用于根据所述候选区域与周围其余物体之间的关系建立场景图;
句子特征提取模块利用双向LSTM提取句子特征;
联合特征获取模块用于引入注意力机制,在所述句子特征的指导下生成场景图的注意力分布,利用注意力分布更新场景图,得到视觉-语言联合场景图,汇总所述视觉-语言联合场景图的节点和边特征,并利用前向神经网络将所述节点和边特征与句子特征投影到同一空间形成更新的视觉-语言联合特征;再将所述更新的视觉-语言联合特征作为新的指导信息,赋予句子中每个单词不同的注意力,根据注意力将单词特征进行加权组合,形成新的句子特征,形成的句子特征进一步指导更新视觉-语言联合场景图,视觉-语言联合场景图进一步指导更新句子特征,直至完成预设次迭代,得到最终的视觉-语言联合场景图;
将所述最终视觉-语言联合场景图特征中,每个节点及与其相连接的对应边特征拼接后投影到句子特征维度,与句子特征计算余弦相似度,所得分数最高的节点对应的候选区域就是最终检测结果,将预测的区域进行前景背景区分,得到目标分割结果。
本发明还可以提供一种计算机设备,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取部分或全部所述计算机可执行程序并执行,处理器执行部分或全部计算机可执行程序时能实现本发明所述基于语义推断和图像理解的遥感影像定位方法。
另一方面,本发明提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现本发明所述的基于语义推断和图像理解的遥感影像定位方法。
所述计算机设备可以采用车载计算机、笔记本电脑、平板电脑、桌面型计算机、手机或工作站。
处理器可以是中央处理器(CPU)、数字信号处理器(DSP)、专用集成电路(ASIC)或现成可编程门阵列(FPGA)。
对于本发明所述存储器,可以是车载计算机、笔记本电脑、平板电脑、桌面型计算机、手机或工作站的内部存储单元,如内存、硬盘;也可以采用外部存储单元,如移动硬盘、闪存卡。
计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance Random Access Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。

Claims (9)

1.一种基于语义推断和图像理解的遥感影像定位方法,其特征在于,具体过程如下:
利用faster-rcnn对遥感影像进行特征提取,检测出图像中的所有候选区域;
根据所述候选区域与周围其余物体之间的关系建立场景图;
利用双向LSTM提取句子特征;
引入注意力机制,在所述句子特征的指导下生成场景图的注意力分布,利用注意力分布更新场景图,得到视觉-语言联合场景图,汇总所述视觉-语言联合场景图的节点和边特征,并利用前向神经网络将所述节点和边特征与句子特征投影到同一空间形成更新的视觉-语言联合特征;再将所述更新的视觉-语言联合特征作为新的指导信息,赋予句子中每个单词不同的注意力,根据注意力将单词特征进行加权组合,形成新的句子特征,形成的句子特征进一步指导更新视觉-语言联合场景图,视觉-语言联合场景图进一步指导更新句子特征,直至完成预设次迭代,得到最终的视觉-语言联合场景图;
将所述最终视觉-语言联合场景图中每个节点及与其相连接的边特征拼接后投影到句子特征维度,与句子特征计算余弦相似度,所得分数最高的节点对应的候选区域就是最终检测结果,并将预测的区域进行前景背景区分,得到目标分割结果。
2.根据权利要求1所述的基于语义推断和图像理解的遥感影像定位方法,其特征在于,采用faster-rcnn的目标检测方法提取遥感影像中的目标区域、目标区域的特征及位置,提取目标区域作为检测的候选区域。
3.根据权利要求1所述的基于语义推断和图像理解的遥感影像定位方法,其特征在于,根据候选区域与周围其余物体之间的关系建立场景图时,根据各个候选区域视觉特征和空间位置特征构建场景图,其中场景图以候选区域的视觉特征与位置特征拼接,构成场景图的节点;以包含候选区域与其余候选区域的最小矩形范围的特征和候选区域与其余候选区域之间的相对位置特征拼接构成场景图的边。
4.根据权利要求3所述的基于语义推断和图像理解的遥感影像定位方法,其特征在于,句子特征指导更新视觉-语言联合场景图具体如下:a)节点注意力:首先,根据句子特征指导节点分配新的注意力值,利用两层全连接网络把节点的特征和句子特征投影到同一空间;
再利用注意力机制,在句子特征的指导下重新赋予场景图各个节点新的权重,最后经过softmax归一化后,得到对应节点的权值;
b) 边注意力:将边特征送入两层全连接层进行处理,投射到和句子特征相同的空间,根据当前句子特征,利用注意力机制,求场景图各边的权值分布,进而得到新的边注意力值。
5.根据权利要求1所述的基于语义推断和图像理解的遥感影像定位方法,其特征在于,引入注意力机制,在所述句子特征的指导下生成场景图的注意力分布,利用注意力分布更新场景图,得到视觉-语言联合场景图时:利用注意力机制,根据句子特征与场景图中各个节点的相似程度更新节点权值;用句子特征与场景图中各个边的相似程度更新边权值,进而更新节点和边的特征,形成融合语言特征的视觉-语言联合场景图。
6.根据权利要求1所述的基于语义推断和图像理解的遥感影像定位方法,其特征在于,以视觉-语言联合场景图作为指导信息指导更新句子特征,具体地,将图的节点特征、边特征经过汇总和拼接,映射到和词表示相同维度,计算拼接后的向量与词表示的相似程度,指导生成新的词注意力,加权组合得到新的句子特征,用更新后的句子特征指导更新视觉-语言联合特征;更新的视觉-语言联合特征进一步指导更新句子特征;直至完成N次迭代,得到最终的视觉-语言联合场景图。
7.一种基于语义推断和图像理解的遥感影像定位系统,其特征在于,包括候选区域提取模块、场景图建立模块、句子特征提取模块、视觉-语言联合场景图获取模块以及预测模块;
候选区域提取模块利用faster-rcnn对遥感影像进行特征提取,检测出图像中的所有候选区域;
场景图建立模块用于根据所述候选区域与周围其余物体之间的关系建立场景图;
句子特征提取模块利用双向LSTM提取句子特征;
视觉-语言联合场景图获取模块用于引入注意力机制,在所述句子特征的指导下生成场景图的注意力分布,利用注意力分布更新场景图,得到视觉-语言联合场景图,汇总所述视觉-语言联合场景图的节点和边特征,并利用前向神经网络将所述节点和边特征与句子特征投影到同一空间形成更新的视觉-语言联合特征;再将所述更新的视觉-语言联合特征作为新的指导信息,赋予句子中每个单词不同的注意力,根据注意力将单词特征进行加权组合,形成新的句子特征,形成的句子特征进一步指导更新视觉-语言联合场景图,视觉-语言联合场景图进一步指导更新句子特征,直至完成预设次迭代,得到最终的视觉-语言联合场景图;
将所述最终视觉-语言联合场景图中,每个节点及与其相连接的对应边特征拼接后投影到句子特征维度,与句子特征计算余弦相似度,所得分数最高的节点对应的候选区域就是最终检测结果,并将预测的区域进行前景背景区分,得到目标分割结果。
8.一种计算机设备,其特征在于,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取部分或全部所述计算机可执行程序并执行,处理器执行部分或全部计算机可执行程序时能实现权利要求1~6中任一项所述基于语义推断和图像理解的遥感影像定位方法。
9.一种计算机可读存储介质,其特征在于,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现如权利要求1~6中任一项所述的基于语义推断和图像理解的遥感影像定位方法。
CN202110753071.9A 2021-07-02 2021-07-02 一种基于语义推断和图像理解的遥感影像定位方法及系统 Active CN113449741B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110753071.9A CN113449741B (zh) 2021-07-02 2021-07-02 一种基于语义推断和图像理解的遥感影像定位方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110753071.9A CN113449741B (zh) 2021-07-02 2021-07-02 一种基于语义推断和图像理解的遥感影像定位方法及系统

Publications (2)

Publication Number Publication Date
CN113449741A CN113449741A (zh) 2021-09-28
CN113449741B true CN113449741B (zh) 2023-05-02

Family

ID=77814982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110753071.9A Active CN113449741B (zh) 2021-07-02 2021-07-02 一种基于语义推断和图像理解的遥感影像定位方法及系统

Country Status (1)

Country Link
CN (1) CN113449741B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113918754A (zh) * 2021-11-01 2022-01-11 中国石油大学(华东) 基于场景图更新与特征拼接的图像字幕生成方法
CN115019037A (zh) * 2022-05-12 2022-09-06 北京百度网讯科技有限公司 对象分割方法及对应模型的训练方法、装置及存储介质
CN115359323B (zh) * 2022-08-31 2023-04-25 北京百度网讯科技有限公司 图像的文本信息生成方法和深度学习模型的训练方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111462282A (zh) * 2020-04-02 2020-07-28 哈尔滨工程大学 一种场景图生成方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112685582A (zh) * 2019-10-18 2021-04-20 微软技术许可有限责任公司 自动生成故事板
CN111814844B (zh) * 2020-03-17 2023-07-11 同济大学 一种基于位置编码融合的密集型视频描述方法
CN111539341B (zh) * 2020-04-26 2023-09-22 香港中文大学(深圳) 目标定位方法、装置、电子设备和介质
CN111612070B (zh) * 2020-05-13 2024-04-26 清华大学 基于场景图的图像描述生成方法及装置
CN111598183B (zh) * 2020-05-22 2023-08-15 上海海事大学 一种多特征融合图像描述方法
CN112101358B (zh) * 2020-11-04 2021-02-26 浙江大学 一种基于解耦和干预的图网络对齐短语和图片区域的方法
CN112948604A (zh) * 2021-02-01 2021-06-11 西北工业大学 具备多语义层级注意能力的遥感影像文本描述生成方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111462282A (zh) * 2020-04-02 2020-07-28 哈尔滨工程大学 一种场景图生成方法

Also Published As

Publication number Publication date
CN113449741A (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN113449741B (zh) 一种基于语义推断和图像理解的遥感影像定位方法及系统
US10762376B2 (en) Method and apparatus for detecting text
EP3690742A1 (en) Method for auto-labeling training images for use in deep learning network to analyze images with high precision, and auto-labeling device using the same
CN112001385B (zh) 一种目标跨域检测与理解方法、系统、设备及存储介质
Zhang et al. A fine-grained image categorization system by cellet-encoded spatial pyramid modeling
Lynen et al. Placeless place-recognition
CN108960184B (zh) 一种基于异构部件深度神经网络的行人再识别方法
Ma et al. Capsule-based networks for road marking extraction and classification from mobile LiDAR point clouds
CN110889318B (zh) 利用cnn的车道检测方法和装置
CN111325318B (zh) 神经网络的训练方法、神经网络的训练装置和电子设备
CN110879961B (zh) 利用车道模型的车道检测方法和装置
Cao et al. Robust vehicle detection by combining deep features with exemplar classification
CN115050064A (zh) 人脸活体检测方法、装置、设备及介质
CN112884802A (zh) 一种基于生成的对抗攻击方法
CN114332893A (zh) 表格结构识别方法、装置、计算机设备和存储介质
CN112784750A (zh) 基于像素和区域特征匹配的快速视频物体分割方法和装置
CN115497122A (zh) 遮挡行人重识别方法、装置、设备和计算机可存储介质
CN114943937A (zh) 行人重识别方法、装置、存储介质及电子设备
CN113435531B (zh) 零样本图像分类方法、系统、电子设备及存储介质
KR102083786B1 (ko) 문자열 식별 방법 및 장치, 그리고 이를 이용한 디스플레이 영상 식별 시스템
Shirke et al. Hybrid optimisation dependent deep belief network for lane detection
CN114764870A (zh) 对象定位模型处理、对象定位方法、装置及计算机设备
CN113706550A (zh) 图像场景识别和模型训练方法、装置和计算机设备
CN112560856A (zh) 车牌检测识别方法、装置、设备及存储介质
US20220164571A1 (en) Model training method and apparatus, electronic device and readable storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant