CN113449741B

CN113449741B - 一种基于语义推断和图像理解的遥感影像定位方法及系统

Info

Publication number: CN113449741B
Application number: CN202110753071.9A
Authority: CN
Inventors: 米文毓; 汪建基; 郑南宁
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2023-05-02
Anticipated expiration: 2041-07-02
Also published as: CN113449741A

Abstract

本发明提出了一种基于语义推断和图像理解的遥感影像定位方法及系统，在图像理解方面，首先利用faster‑rcnn对遥感影像进行特征提取，再根据提取出的候选区域视觉特征、位置特征建立场景图；在语言推断方面，先利用双向LSTM提取句子特征；其次，引入注意力机制，在句子特征的指导下生成新的视觉场景图注意力，利用此注意力更新后的场景图，得到视觉语言场景图；再次，将视觉语言场景图作为新的指导信息，指导语言注意力更新，直至迭代结束；计算所述最终视觉‑语言联合场景图特征与句子特征匹配程度，所得分数最高的区域就是最终检测结果，并将预测的区域进行前景背景区分，得到目标分割效果，能在给定遥感影像中寻找到语言所指代的物体。

Description

一种基于语义推断和图像理解的遥感影像定位方法及系统

技术领域

本发明属于图像识别领域，具体涉及一种基于语义推断和图像理解的遥感影像定位方法及系统。

背景技术

随着深度学习的发展，目前目标检测和分割任务引入遥感影像处理中，这大力推动了遥感影像处理的发展，但是，仅仅依靠目标检测和分割技术得到的结果往往只能对图像中存在的所有目标进行识别和定位，不能进一步定位到图像中特定的某一个目标。但是，在遥感领域中，经常需要我们能够清晰的定位出某个符合一定条件的物体，如图像中经常存在着大量目标，如铁路、公路、彩钢房、普通房屋等等，而铁路沿线的彩钢房存在安全隐患必须进行拆除处理，但是不在铁路沿线的彩钢房则不需要拆除，因此能准确的识别出“铁路沿线的彩钢房”这类目标，才能采取进一步措施。需求十分迫切。因此，我们提出了一种基于语义推断和图像理解的遥感影像定位系统。

发明内容

为了解决现有技术中存在的问题，本发明提供一种基于语义推断和图像理解的遥感影像定位方法及系统，该系统能够准确的从给定图片中寻找到文本信息所指代物体，并出标记其位置框(也可在像素级别分割出文本信息所指示物体)，据了解，这是首次提出将代表示任务应用于遥感影像。

为了实现上述目的，本发明采用的技术方案是：一种基于语义推断和图像理解的遥感影像定位方法，具体过程如下：

利用faster-rcnn对遥感影像进行特征提取，检测出图像中的所有候选区域；

根据所述候选区域与周围其余物体之间的关系建立场景图；

利用双向LSTM提取句子特征；

引入注意力机制，在所述句子特征的指导下生成场景图的注意力分布，利用注意力分布更新场景图，得到视觉-语言联合场景图，汇总所述视觉-语言联合场景图的节点和边特征，并利用前向神经网络将所述节点和边特征与句子特征投影到同一空间形成更新的视觉-语言联合特征；再将所述更新的视觉-语言联合特征作为新的指导信息，赋予句子中每个单词不同的注意力，根据注意力将单词特征进行加权组合，形成新的句子特征，形成的句子特征进一步指导更新视觉-语言联合场景图，视觉-语言联合场景图进一步指导更新句子特征，直至完成预设次迭代，得到最终的视觉-语言联合场景图；

将所述最终视觉-语言联合场景图中每个节点及与其相连接的边特征拼接后投影到句子特征维度，与句子特征计算余弦相似度，所得分数最高的节点对应的候选区域就是最终检测结果，并将预测的区域进行前景背景区分，得到目标分割效果。

采用faster-rcnn的目标检测方法提取遥感影像中的目标区域、目标区域的特征及位置，提取目标区域作为检测的候选区域。

根据候选区域与周围其余物体之间的关系建立场景图时，根据各个候选区域视觉特征和空间位置特征构建场景图，其中场景图以候选区域的视觉特征与位置特征拼接，构成场景图的节点；以包含候选区域与其余候选区域的最小矩形框范围的特征和候选区域与其余候选区域之间的相对位置特征拼接构成场景图的边。

句子特征指导场景图更新具体如下：a)节点注意力：首先，根据句子特征指导节点分配新的注意力值，利用两层全连接网络把节点的特征和句子的特征表示投影到同一空间；

再利用注意力机制，在句子表示的指导下重新赋予场景图各个节点新的权重，最后经过softmax归一化后，得到对应节点的权值；

b)边注意力：将边特征送入两层全连接层进行处理，投射到和句子特征相同的空间，根据当前句子表示，利用注意力机制，求场景图各边的权值分布，进而得到新的边注意力值。

引入注意力机制，在所述句子特征的指导下生成场景图的注意力分布，利用注意力分布更新场景图，得到视觉-语言联合场景图时：利用注意力机制，根据句子特征与场景图中各个节点的相似程度更新节点权值；用句子特征与场景图中各个边的相似程度更新边权值，进而更新节点和边的特征表示，形成融合语言特征的视觉-语言联合场景图。

以视觉-语言联合场景图作为指导信息指导更新句子特征，具体地，将图的节点特征、边特征经过汇总和拼接，映射到和词表示相同维度，计算拼接后的向量与词表示的相似程度，指导生成新的词注意力，加权组合得到新的句子特征，用更新后的句子特征指导更新视觉-语言联合特征；更新的视觉-语言联合特征进一步指导更新句子特征；直至完成N次迭代，得到最终的视觉-语言联合场景图。

一种基于语义推断和图像理解的遥感影像定位系统，包括候选区域提取模块、场景图建立模块、句子特征提取模块、联合特征获取模块以及预测模块；

候选区域提取模块利用faster-rcnn对遥感影像进行特征提取，检测出图像中的所有候选区域；

场景图建立模块用于根据所述候选区域与周围其余物体之间的关系建立场景图；

句子特征提取模块利用双向LSTM提取句子特征；

联合特征获取模块用于引入注意力机制，在所述句子特征的指导下生成场景图的注意力分布，利用注意力分布更新场景图，得到视觉-语言联合场景图，汇总所述视觉-语言联合场景图的节点和边特征，并利用前向神经网络将所述节点和边特征与句子特征投影到同一空间形成更新的视觉-语言联合特征；再将所述更新的视觉-语言联合特征作为新的指导信息，赋予句子中每个单词不同的注意力，根据注意力将单词特征进行加权组合，形成新的句子特征，形成的句子特征进一步指导更新视觉-语言联合场景图，视觉-语言联合场景图进一步指导更新句子特征，直至完成预设次迭代，得到最终的视觉-语言联合场景图；

将所述最终视觉-语言联合场景图特征中，每个节点及与其相连接的对应边特征拼接后投影到句子特征维度，与句子特征计算余弦相似度，所得分数最高的节点对应的候选区域就是最终检测结果，并将预测的区域进行前景背景区分，得到目标分割结果。

本发明还提供一种计算机设备，包括处理器以及存储器，存储器用于存储计算机可执行程序，处理器从存储器中读取部分或全部所述计算机可执行程序并执行，处理器执行部分或全部计算机可执行程序时能实现本发明所述基于语义推断和图像理解的遥感影像定位方法。

另外，提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时，能实现本发明所述的基于语义推断和图像理解的遥感影像定位方法。

与现有技术相比，本发明至少具有以下有益效果：

现有在遥感影像中识别并定位物体的方法包括目标检测或者图像分割，这类方法能检测出图像中存在的物体并识别出类别；但是，在遥感影像领域，有时候需要准确的在图像中定位出符合一定要求的物体，比如“铁路沿线的彩钢房”、“路面有凹陷的道路”等等。识别出这些物体，可进一步采取措施，解决安全隐患。本方法将自然语言推断和图像场景理解结合起来，在检测出图像中目标及其分类的基础上，引入场景图对图像内容进行深度理解，并通过语言推断技术分析理解句子内容，从而在图像中找出句子所指代的物体；这将使得在遥感中，能用文本表达的物体，都能在图像中对其进行准确定位。此外，我们还在定位出的图像中引入二进制掩码，对图像进行前景背景分割，就能得到对文本所指代的图像进行分割的结果(同master-rcnn)。

附图说明

图1为本发明一种可实施的定位方法示意图。

图2为本发明实施过程的一种图像场景图示意。

具体实施方式

下面结合附图对本发明进行详细阐述。

步骤1、构建场景图

首先，利用faster-rcnn提取出图像I中的K个目标候选区域

及其视觉特征v_i、位置信息loc_i；假设每个目标区域的位置为loc_i＝(x_i,y_i,w_i,h_i)，其中(x_i,y_i)是候选目标区域o_i的中心位置，w_i和h_i分别为该候选区域的宽和高。那么该候选区域的位置特征为：p_i＝[x_i,y_i,w_i,h_i,w_ih_i]。将视觉特征和位置特征进行拼接[v_i,p_i]，作为场景图的节点。在遥感影像中，所有地物图片均为俯视图，图片中各个物体之间的关系也比较简单，基本可以通过物体表面特征和物体之间的位置关系清楚表示，那么，对于候选区域o_i(p_i＝[x_i,y_i,w_i,h_i,w_ih_i])和o_j(p_j＝[x_j,y_j,w_j,h_j,w_ih_i])，关系向量可表示为同时将o_i和o_j包含进去最小矩形框部分图像的视觉特征v_iou与位置差特征向量进行拼接后的特征向量；通过2层卷积层将视觉特征投射到与位置差特征相同维度；其中，位置差为

关系特征为r_ij＝[v_iou；Δp]；其中，下标i是当前候选区域，j是其余候选区域。

利用faster-rcnn对遥感影像进行特征提取，检测出图像中的所有候选区域时：首先经过一个13层卷积层和4个池化层堆叠的网络框架进行图像特征提取，其次提取出的图像特征经过区域候选网络Region proposal network提取目标所在的区域；最后将图像特征和区域特征送入感兴趣区域池化层和全连接层进行分类和定位。

步骤2、句子特征的提取与注意力初值的设定

采用双向LSTM模型生成句子特征，利用自注意力机制分配句子的初始注意力值，得到句子中每个单词的表示s_i和句子表示q；

步骤3、句子指导场景图更新

a)节点注意力：首先，根据句子特征指导节点分配新的注意力值，利用两层全连接网络把节点的特征[v_i,p_i]和句子的特征表示q_k投影到同一空间(相同维度)；

其中f表示2层全连接层。接下来，利用注意力机制，在句子表示q的指导下重新赋予场景图各个节点新的权重。

a_i为未进行归一化的权重，其中，参数w、W_s和W_g为可训练的参数，经过softmax归一化后，得到对应节点i的权值

k表示第k次迭代；

其中N为检测到的候选区域总个数。

b)边注意力：首先将边特征送入两层全连接层进行处理，投射到和句子特征相同的空间：

其中，r_ij为边特征，f为两层前向神经网络。根据当前句子特征，利用注意力机制，求场景图各边的权值分布：

其中，h、

和

为可训练的参数，m为边总个数，得到新的边注意力值

步骤4、更新场景图的节点和边：

汇总节点特征，边特征，得到节点特征汇总

和边特征汇总

具体如下：

其中，Λ为所有节点的集合，

为所有边的集合。

步骤5、将场景图的

拼接，投射到与单词特征向量s_t相同空间，投影后的向量记作g，指导句子给不同单词分配新的注意力权值，生成新的句子注意力，

其中，s_t为句子中第t个单词的词表示；

为算出的各个单词的注意力，q_k+1为更新后的句子表示，为句子中所有单词表示加权相加的结果。

在上述操作中，为了避免场景图指导更新句子特征时将注意力持续放在某些单词上，可对单词注意力引入一定限制。在生成新的注意力分布时将历史的单词注意力分布也考虑。作为示例，假设历史k-1次迭代过程中，单词的注意力分布为

那么，令

其中，E是所有元素均为1的向量，可更新a_ti、

和q_k+1分别为；

步骤6、句子继续指导更新图，同步骤3；迭代n次后，最终获得最终的视觉-语言联合场景图，所述最终的视觉-语言联合场景图中，每个节点及与其相连接的对应边的拼接特征与句子特征进行分数匹配(计算余弦相似度)，所得分数最高的特征对应候选区域就是最终检测结果；特征匹配也同样是投影到相同维度，计算他们之间的余弦相似度实现。基于本发明所述方法，能在给定遥感影像中寻找到语言所指代的物体。比如，给定遥感影像中包含铁路、公路、低矮建筑物、彩钢房等，给定指代语句“铁路沿线的彩钢房”，本发明可以迅速找到这一目标并用矩形框将其进行标记。

本发明还会构建出训练数据集，收集大量遥感图片，并为遥感图片打上标签。其中，标签信息为文本信息以及目标区域的定位信息，如loc_i＝(x_i,y_i,w_i,h_i)，并利用所述数据集作为本发明方法在执行过程中的可训练参数的监督信息；训练过程中选用交叉熵损失函数。

本发明提供一种基于语义推断和图像理解的遥感影像定位系统，包括候选区域提取模块、场景图建立模块、句子特征提取模块、联合特征获取模块以及预测模块；

句子特征提取模块利用双向LSTM提取句子特征；

将所述最终视觉-语言联合场景图特征中，每个节点及与其相连接的对应边特征拼接后投影到句子特征维度，与句子特征计算余弦相似度，所得分数最高的节点对应的候选区域就是最终检测结果，将预测的区域进行前景背景区分，得到目标分割结果。

本发明还可以提供一种计算机设备，包括处理器以及存储器，存储器用于存储计算机可执行程序，处理器从存储器中读取部分或全部所述计算机可执行程序并执行，处理器执行部分或全部计算机可执行程序时能实现本发明所述基于语义推断和图像理解的遥感影像定位方法。

另一方面，本发明提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时，能实现本发明所述的基于语义推断和图像理解的遥感影像定位方法。

所述计算机设备可以采用车载计算机、笔记本电脑、平板电脑、桌面型计算机、手机或工作站。

处理器可以是中央处理器(CPU)、数字信号处理器(DSP)、专用集成电路(ASIC)或现成可编程门阵列(FPGA)。

对于本发明所述存储器，可以是车载计算机、笔记本电脑、平板电脑、桌面型计算机、手机或工作站的内部存储单元，如内存、硬盘；也可以采用外部存储单元，如移动硬盘、闪存卡。

计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance Random Access Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。

Claims

1.一种基于语义推断和图像理解的遥感影像定位方法，其特征在于，具体过程如下：

根据所述候选区域与周围其余物体之间的关系建立场景图；

利用双向LSTM提取句子特征；

将所述最终视觉-语言联合场景图中每个节点及与其相连接的边特征拼接后投影到句子特征维度，与句子特征计算余弦相似度，所得分数最高的节点对应的候选区域就是最终检测结果，并将预测的区域进行前景背景区分，得到目标分割结果。

2.根据权利要求1所述的基于语义推断和图像理解的遥感影像定位方法，其特征在于，采用faster-rcnn的目标检测方法提取遥感影像中的目标区域、目标区域的特征及位置，提取目标区域作为检测的候选区域。

3.根据权利要求1所述的基于语义推断和图像理解的遥感影像定位方法，其特征在于，根据候选区域与周围其余物体之间的关系建立场景图时，根据各个候选区域视觉特征和空间位置特征构建场景图，其中场景图以候选区域的视觉特征与位置特征拼接，构成场景图的节点；以包含候选区域与其余候选区域的最小矩形范围的特征和候选区域与其余候选区域之间的相对位置特征拼接构成场景图的边。

4.根据权利要求3所述的基于语义推断和图像理解的遥感影像定位方法，其特征在于，句子特征指导更新视觉-语言联合场景图具体如下：a)节点注意力：首先，根据句子特征指导节点分配新的注意力值，利用两层全连接网络把节点的特征和句子特征投影到同一空间；

再利用注意力机制，在句子特征的指导下重新赋予场景图各个节点新的权重，最后经过softmax归一化后，得到对应节点的权值；

b) 边注意力：将边特征送入两层全连接层进行处理，投射到和句子特征相同的空间，根据当前句子特征，利用注意力机制，求场景图各边的权值分布，进而得到新的边注意力值。

5.根据权利要求1所述的基于语义推断和图像理解的遥感影像定位方法，其特征在于，引入注意力机制，在所述句子特征的指导下生成场景图的注意力分布，利用注意力分布更新场景图，得到视觉-语言联合场景图时：利用注意力机制，根据句子特征与场景图中各个节点的相似程度更新节点权值；用句子特征与场景图中各个边的相似程度更新边权值，进而更新节点和边的特征，形成融合语言特征的视觉-语言联合场景图。

6.根据权利要求1所述的基于语义推断和图像理解的遥感影像定位方法，其特征在于，以视觉-语言联合场景图作为指导信息指导更新句子特征，具体地，将图的节点特征、边特征经过汇总和拼接，映射到和词表示相同维度，计算拼接后的向量与词表示的相似程度，指导生成新的词注意力，加权组合得到新的句子特征，用更新后的句子特征指导更新视觉-语言联合特征；更新的视觉-语言联合特征进一步指导更新句子特征；直至完成N次迭代，得到最终的视觉-语言联合场景图。

7.一种基于语义推断和图像理解的遥感影像定位系统，其特征在于，包括候选区域提取模块、场景图建立模块、句子特征提取模块、视觉-语言联合场景图获取模块以及预测模块；

句子特征提取模块利用双向LSTM提取句子特征；

视觉-语言联合场景图获取模块用于引入注意力机制，在所述句子特征的指导下生成场景图的注意力分布，利用注意力分布更新场景图，得到视觉-语言联合场景图，汇总所述视觉-语言联合场景图的节点和边特征，并利用前向神经网络将所述节点和边特征与句子特征投影到同一空间形成更新的视觉-语言联合特征；再将所述更新的视觉-语言联合特征作为新的指导信息，赋予句子中每个单词不同的注意力，根据注意力将单词特征进行加权组合，形成新的句子特征，形成的句子特征进一步指导更新视觉-语言联合场景图，视觉-语言联合场景图进一步指导更新句子特征，直至完成预设次迭代，得到最终的视觉-语言联合场景图；

将所述最终视觉-语言联合场景图中，每个节点及与其相连接的对应边特征拼接后投影到句子特征维度，与句子特征计算余弦相似度，所得分数最高的节点对应的候选区域就是最终检测结果，并将预测的区域进行前景背景区分，得到目标分割结果。

8.一种计算机设备，其特征在于，包括处理器以及存储器，存储器用于存储计算机可执行程序，处理器从存储器中读取部分或全部所述计算机可执行程序并执行，处理器执行部分或全部计算机可执行程序时能实现权利要求1~6中任一项所述基于语义推断和图像理解的遥感影像定位方法。

9.一种计算机可读存储介质，其特征在于，计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时，能实现如权利要求1~6中任一项所述的基于语义推断和图像理解的遥感影像定位方法。