CN115934990A

CN115934990A - 基于内容理解的遥感影像推荐方法

Info

Publication number: CN115934990A
Application number: CN202211302112.3A
Authority: CN
Inventors: 许晓航; 张广益; 龚启航; 李洁; 段红伟; 邹圣兵
Original assignee: Beijing Shuhui Spatiotemporal Information Technology Co ltd
Current assignee: Beijing Shuhui Spatiotemporal Information Technology Co ltd
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2023-04-07
Anticipated expiration: 2042-10-24
Also published as: WO2024087639A1; CN115934990B

Abstract

本发明提供一种基于内容理解的遥感影像推荐方法，涉及遥感影像处理技术领域，包括：获取遥感样本，构建第一模型和第二模型，通过第一模型得到第一特征和第二特征，其中，第二特征是根据第一特征进行降维得到，并通过第二模型得到目标对象集合、描述文本集合；将第一特征、第二特征、目标对象集合、描述文本集合作为推荐元素项，并基于推荐元素项构建推荐库；获取待推荐影像，将待推荐影像分别输入第一模型和第二模型，得到待推荐影像的各个推荐元素项，并基于筛选策略从推荐库中进行筛选，得到推荐结果。本发明提供的方法能够快速检索到影像，并丰富了影像的语义信息，提高推荐结果的精度。

Description

基于内容理解的遥感影像推荐方法

技术领域

本发明涉及遥感影像处理技术领域，具体涉及一种基于内容理解的遥感影像推荐方法。

背景技术

随着航空航天技术、传感器技术、网络技术、数据库技术的飞速发展，可获取的遥感影像数据正在以惊人的速度（指数级）急剧增长，例如，陆地遥感（LANDSAT）两星期内就可以将全球拍摄一遍；美国宇航局（NASA）实施的地球行星项目每天可以产生1000GB的数据。遥感影像数据的迅速增长为其在环境监测、灾害管理、森林预警、农情监测、城市规划等众多领域日益广泛的应用创造了非常有利的前提条件。然而，如何从众多的大型遥感影像数据库中，快速浏览和高效检索到感兴趣的目标仍然是一件繁琐、艰难的工作，己经成为遥感影像信息提取和共享的瓶颈难题。

基于内容的图像检索(content-based image retrieval，CBIR)技术正是在这种背景下，成为近年来国内外图像数据库技术研究中的一个新的热点，它克服了传统的基于文本的图像检索中人工标注效率低、主观性强等缺点，有着广泛的应用前景。基于内容的图像检索在20世纪90年代初被提出，该方法是对图像按从高到低的层次进行分析和理解的角度来获取图像的各类视觉特征(如颜色、纹理、形状等)，然后再根据这些图像的内容特征来进行图像的检索。这种查询模式是对基于“关键字找图”的一大突破，它不需要或者涉及少量的人为干预，用户可以通过提交样例图像或者草图的检索方式进行图像搜索，系统通过提取样例图像和草图的特征后，与数据库中的图像特征进行相似性匹配，检索得到的图像再通过用户提供的反馈信息再进行重新搜索，经过多次反馈后，最终将检索得到的图像集返回给用户。这种检索方式就可以很好地避免了因人工图像标注导致的“答非所问”的问题，已经成为国际视觉信息领域中的研究热点，在医学图像、电子图书馆、专利商标检索、建筑设计等领域有着广泛的应用。

基于内容的遥感图像的检索CBRSIR(Content-Based Remote Sensing ImageRetrieval)也得到了一定的发展，但仍然存在以下问题：1. 语义鸿沟问题，通常用户对图像的理解会出于高层次的抽象概念而不是低层视觉特征，因此单纯地基于图像各类特征进行的图像匹配并不一定能满足用户的需求；2. 遥感图像相比一般图像目标更为复杂多变，大量前景目标和复杂背景使得基于内容的图像检索有着极大的难度。在遥感影像推荐中同样也会遇到检索中相同的问题。

发明内容

基于上述技术问题，本发明提供一种基于内容理解的遥感影像推荐方法，根据降维后的特征以及富有语义信息的描述文本来对影像进行检索和推荐，大大降低了检索时花费的时间，并且增加了推荐的准确度。

为达到上述技术目的，本发明提供一种基于内容理解的遥感影像推荐方法，包括：

S1获取遥感样本；

S2构建第一模型和第二模型，第一模型包括卷积神经网络，第二模型包括编码器、解码器；

S3将遥感样本输入第一模型，根据卷积神经网络得到第一特征和第二特征，其中，第二特征是根据第一特征进行降维得到；

S4将遥感样本输入第二模型，根据编码器、解码器得到目标对象集合、描述文本集合；

S5将第一特征、第二特征、目标对象集合、描述文本集合作为推荐元素项，并基于推荐元素项构建推荐库；

S6获取待推荐影像，将待推荐影像分别输入第一模型和第二模型，得到待推荐影像的各个推荐元素项，并基于筛选策略从推荐库中进行筛选，得到推荐结果。

于本发明一实施例中，所述筛选策略为：

第一步、将待推荐影像的第二特征与推荐库的第二特征进行差异分析，得到差异性结果，将差异性结果达到第一阈值的影像作为第一影像集；

第二步、将待推荐影像的第一特征与第一影像集的第一特征进行特征度量，得到度量值，将度量值进行排序，选取前K个影像作为第二影像集；

第三步、将待推荐影像的描述文本集合与推荐库的描述文本集合进行文本相似度的计算，将文本相似度达到第二阈值的影像作为第三影像集；

第四步、将待推荐影像的目标对象集合与第三影像集的目标对象集合进行重合分析，得到重合度，将重合度进行排序，选取前M个影像作为第四影像集；

第五步、将第二影像集与第四影像集合并、去重，得到推荐结果。

于本发明一实施例中，步骤S4包括：

S41编码器包括特征提取网络、目标检测网络；

S42根据特征提取网络对遥感样本进行特征提取，得到第三特征；

S43收集遥感资料，结合遥感资料和第三特征构建知识图谱，并将知识图谱保存到编码器中；

S44根据目标检测网络对遥感样本进行目标检测，得到目标对象集合；

S45将目标对象集合输入知识图谱进行学习，得到目标关系描述，将目标对象集合和目标关系描述输入解码器进行解码，得到描述文本集合。

于本发明一实施例中，步骤S43包括：

收集遥感资料，遥感资料包括与遥感影像相关的资料和地学资料，其中，与遥感影像相关的资料包括文本资料、图像资料、场景资料、物候资料、环境资料、建筑资料、区划资料，地学资料包括地学数据资料、地学概念资料、地学规律资料；

进行遥感模式设计，包括概念设计、属性设计、遥感领域规则设计，以确定知识图谱的领域和范围，并明确知识图谱中的概念和属性；

对遥感资料进行知识抽取，并结合实体识别方法和概念形成文本实体，基于第三特征进行多标签分类，根据得到的多标签结果形成影像实体，将文本实体和影像实体合并作为遥感实体；

结合属性对遥感实体间的关系进行抽取，包括空间关系、时间关系、语义关系；

根据遥感实体、遥感实体间的关系构建三元组，并基于三元组构建得到知识图谱。

于本发明一实施例中，步骤S44包括：

将遥感样本输入目标检测网络，将遥感样本分成N个网格，每个网格分别检测其中心落入该网格的对象，以及该对象的类别概率；

设定预设阈值，去除类别概率低于预设阈值的对象，得到目标对象集合，所述目标对象集合包括目标对象及其位置信息。

于本发明一实施例中，步骤S45包括：

将目标对象集合输入知识图谱，将目标对象集合中的目标对象作为遥感实体，在知识图谱中根据知识查询方法进行查询，得到每两个目标对象之间的初始关系；

若两个目标对象之间的初始关系只有一个，则将该两个目标对象之间的初始关系加入目标关系描述；

若两个目标对象之间的初始关系大于一个，则根据信息熵对该两个目标对象之间的初始关系进行筛选，得到唯一的初始关系，并将其加入目标关系描述；

将目标对象集合和目标关系描述分别转化为第一向量和第二向量并输入解码器，根据解码器对第一向量和第二向量分别生成第一单词序列的概率矩阵和第二单词序列的概率矩阵，基于第一单词序列的概率矩阵和第二单词序列的概率矩阵得到对应的预测单词，将预测单词拼接为句子，即得到第一基础描述和第二基础描述，对第一基础描述和第二基础描述进行语义合成得到描述文本集合。

于本发明一实施例中，对第一基础描述和第二基础描述进行语义合成得到描述文本集合，包括：

对第一基础描述和第二基础描述分别做分词处理，并过滤掉无意义词，得到第一分词和第二分词，采用Word2vec方法对第一分词和第二分词进行向量化处理，并对第一分词中所有词的词向量取平均值得到第一词向量，对第二分词中所有词的词向量取平均值得到第二词向量，同时计算第一基础描述和第二基础描述的余弦相似度，得到相似度结果；

将相似度结果分别与第一词向量和第二词向量相乘，取乘积更大的基础描述作为基础文本，另一个基础描述作为嵌入文本，提取第一分词和第二分词的共有词，统计共有词出现的频率，将频率最高的共有词进行合并，并将嵌入文本中除共有词外的其它词嵌入基础文本中重新排列，形成描述文本集合。

于本发明一实施例中，步骤S3包括：

S31卷积神经网络包括输入层、隐藏层、输出层；

S32将遥感样本输进输入层，根据隐藏层对遥感样本进行特征提取，隐藏层包括全连接层和降维层，基于全连接层得到第一特征，将第一特征从输出层进行输出，同时将第一特征集输入降维层进行降维，并从输出层输出得到第二特征。

于本发明一实施例中，降维层为激活函数层，利用激活函数层对第一特征进行二值化操作，得到对应的二进制向量，即第二特征。

于本发明一实施例中，降维层为视觉词包层，采用视觉词包算法对第一特征进行聚类，将聚类中心作为视觉单词，根据视觉单词构建视觉词典，基于视觉词典对第一特征进行视觉单词映射，生成视觉单词分布图，对视觉单词分布图进行LBP直方图变换，得到对应的数值化向量，即第二特征。

与现有技术相比，本发明的有益效果至少包括：

（1）本发明对第一特征进行降维得到的第二特征，能够在不降低搜索精度的情况下，提升检索的速度。

（2）本发明在收集的遥感资料中不仅有遥感影像相关的资料，还有地学资料，极大的增加了遥感资料所涵盖的内容，在进行知识图谱的构建时，能够丰富知识图谱中的实体、关系的数量和内容，使得知识图谱的应用局限性有所改善，提高了知识图谱的应用价值。

（3）本发明根据第三特征学习得到多个标签，这些标签以词汇形式表示，将得到的标签作为影像实体加入到遥感实体中，这样可以丰富遥感实体所包含的内容。本发明不仅从大范围的领域资料内进行知识提取形成实体，还从遥感样本的影像内容中抽取得到实体，使得构建的知识图谱能更好的以结构化形式表示遥感领域各对象间的复杂关系。

（4）本发明利用知识图谱去学习遥感影像的语义内容时，能得到语义信息更为丰富的描述文本集合，利用其进行影像推荐具有更高的准确度。

（5）本发明采用一种精确组合的筛选策略，首先根据第一特征快速筛出第一影像集，然后根据第二特征对第一影像集进行精确筛选得到第二影像集，另外还利用描述文本集合筛出第三影像集，并基于目标对象集合从第三影像集中筛出第四影像集，通过对第二影像集、第四影像集进行合并、去重，得到最终的推荐结果，该推荐结果更符合用户的需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的方法流程图；

图2为本发明实施例中模糊神经网络的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

请参阅图1，本发明提供一种基于内容理解的遥感影像推荐方法，该方法包括：

S1获取遥感样本。

S2构建第一模型和第二模型，第一模型包括卷积神经网络，第二模型包括编码器、解码器。

S3将遥感样本输入第一模型，根据卷积神经网络得到第一特征和第二特征，其中，第二特征根据第一特征进行降维得到。

S4将遥感样本输入第二模型，根据编码器、解码器得到目标对象集合、描述文本集合。

S5将第一特征、第二特征、目标对象集合、描述文本集合作为推荐元素项，并基于推荐元素项构建推荐库。

进一步地，步骤S3包括：

S31卷积神经网络包括输入层、隐藏层、输出层；

S32将遥感样本输进输入层，根据隐藏层对遥感样本进行特征提取，隐藏层包括全连接层和降维层，基于全连接层得到第一特征，将第一特征从输出层进行输出，同时将第一特征输入降维层进行降维，并从输出层输出得到第二特征。

具体地，卷积神经网络包括多个隐藏层，每个隐藏层由一组神经元组成，其中每个神经元连接到前面一层中所有的神经元，并且其中单个神经元完全独立的运行并且不共享任何连接。

本实施例中，采用7层的卷积神经网络，其中前六层为交替设置的卷积层和池化层，第七层为全连接层，遥感样本经输入层进入，经卷积、池化等操作后，由全连接层得到的结果即为第一特征，全连接层的输出可以表示图像的最优特征，即用该层的值可以最好的表达该图像的特征。但第一特征的维度相对较高，根据第一特征来进行检索推荐会比较费时，因此本实施例在全连接层之后增加了一个降维层。

在本发明的一个实施例中，降维层可以是激活函数层，利用激活函数层对第一特征进行二值化操作，得到对应的二进制向量，即第二特征。例如，第一特征中每个特征的值都是零到正无穷的值域，利用激活函数层将每个特征向量的值都约束在[0,1]的范围内，并设置一个数值条件，如数值条件为0.6，则将特征向量中值大于数值条件的就输出为1，小于数值条件的就输出为0，将第一特征中每个特征的值，从原来的零到正无穷的值域，转换为0或者1的值，以此实现第一特征的降维，将得到的结果作为第二特征。

在本发明的另一个实施例中，降维层也可以是视觉词包层，采用聚类算法对第一特征进行聚类，将聚类中心作为视觉单词，根据视觉单词构建视觉词典，基于视觉词典对第一特征进行视觉单词映射，生成视觉单词分布图，对视觉单词分布图进行LBP直方图变换，得到对应的数值化向量，即第二特征。具体操作如下：

对第一特征进行K均值聚类，得到K个聚类中心，每个聚类中是特征相似的第一特征，将这K个聚类中心作为视觉单词，将K个聚类中心的取值，即特征值，与其对应的视觉单词编号构建视觉词典，其中，K为正整数。

计算第一特征与视觉词典中每个视觉单词所对应的特征值之间的欧氏距离，找出欧氏距离最小的视觉单词的编号，将其作为该第一特征的视觉单词映射结果，则每个第一特征均被赋予一个视觉单词编号，以此可生成得到视觉单词分布图。

对视觉单词分布图作为图像进行LBP变换，得到视觉单词分布图的LBP直方图表示，根据直方图进行统计，对第一特征进行数值化，得到一个K维的数值向量，即第二特征。

在利用第二特征来进行检索和推荐时，能够大大提升检索的速度。

进一步地，步骤S4包括：

S41编码器包括特征提取网络、目标检测网络。

S42根据特征提取网络对遥感样本进行特征提取，得到第三特征。

具体地，第三特征是融合特征，其根据底层特征和高层特征进行融合得到。底层特征的提取方法包括：

（1）主成分分析特征提取，提取遥感样本的属性剖面特征的前n个主成分分量，对提取的主成分分量进行叠加，构成主成分特征：

其中，为对提取的第n个主成分分量，为提取的第n个主成分，n为主成分的总个数。

（2）灰度共生矩阵特征提取，对遥感样本进行灰度共生矩阵计算，得到能量、对比度、自相关性、一致性、逆差距、反差的平均值和方差组成的6维灰度特征矢量。

反差的计算方法为：

其中，N为灰度级，i和j为图像空间中相隔固定距离的两像素的灰度值，为每种（i,j）值出现的概率。

能量的计算方法为：

逆差距的计算方法为：

其中，k为常数，。

一致性的计算方法为：

（3）laws纹理能量特征提取，通过估计纹理中三个向量L3(平均)、E3(微分)、S3(斑点)，并将这些向量与他们自身以及相互卷积之后，产生5个向量，再将这些向量进行相互乘积，把第一项作为列向量，第二行作为行向量，产生5×5的Laws掩膜。将掩膜与图像卷积计算出用于描述纹理的特征量。

（4）小波特征提取，将遥感样本进行小波分解：

其中，n和m分别为行下标和列下标；满足小波尺度公式，，h和g是标准滤波器，是h的共轭，c是低频系数，k是小波分解尺度。小波系数处理如下：

序列为的一级二维小波变换，将小波变换的高频部分作为影像特征的提取结果，将小波分解后的子图的均值和方差构成特征矢量。

高层特征可以用基于模糊神经网络的模型进行提取得到。模糊神经网络为包括输入层、隐含层、输出层的三层前向网络，网络结构如图2所示，其中FMF表示模糊隶属函数，w为网络权重。

输入层：输入层中输入量为像素灰度，取集合中的任一元素，其中b=8,...,16为影像的量化位数。在该模型中输入层将数据直接传递给隐含层，即输入层与隐含层间无权重参数。

隐含层：在这一层对每个神经元节点定义一个模糊隶属函数(FMF)，执行模糊操作，神经元节点数与类别数相同。所完成的功能是对输入变量隶属程度的不确定表达。

输出层：该层的输入变量为隐含层各神经元节点输出变量的线性组合，其神经元节点数与类别数相同。该层实现输入变量隶属程度的相关性表达，并设计合理的激活函数，使输出值更加准确地反应输入变量的隶属信息。

将遥感样本输入模糊神经网络。按照最大隶属函数准则，取输出层中最大的值所对应的类别作为该灰度值的输出类别，即

其中表示第j个像素在求和层中的最大值所在的类别。表示明晰的分类结果。

上述分类结果包括地物类型、地物数量、地物面积和地物主角度。对这些数据进行统计，得到遥感样本中关于地物类型、地物数量、地物面积、地物主角度的初步统计数据。将初步统计数据输入一个场景分类模型，得到遥感样本的场景分类结果，将场景分类结果添加至初步统计数据得到最终的统计数据。对统计数据进行特征提取，得到高层特征。

将底层特征和高层特征进行串联融合即可得到第三特征。

S43收集遥感资料，结合遥感资料和第三特征构建知识图谱，并将知识图谱保存到编码器中。

具体地，该步骤包括：

收集遥感资料，遥感资料包括与遥感影像相关的资料和地学资料，其中，遥感影像相关的资料包括文本资料、图像资料、场景资料、物候资料、环境资料、建筑资料、区划资料，地学资料包括地学数据资料、地学概念资料、地学规律资料；

以一具体实施例进行构建知识图谱的说明：

首先需进行遥感资料的收集，遥感资料包括与遥感影像相关的所有结构化、非结构化的数据资料，包括文本资料、图像资料、场景资料、物候资料、环境资料、建筑资料、区划资料等等。如遥感影像的元数据、遥感影像中相关区域的文本资料、环境物候资料、农产品资料、建筑道路资料、城市区划资料、遥感影像中的场景资料、与遥感影像相关的照片资料、图片快照资料等，由于遥感影像是从有限视角上获得的信息，且遥感影像多数是瞬时图像，因此，除了收集与遥感影像的内容相关的资料之外，还需要收集地学资料，包括地学数据资料、地学概念资料、地学规律资料，例如，地学资料中应涵盖多个地域范围以及各个地域范围内的土地利用、土地覆盖、地貌专题数据、生态分区数据、地理实体、样本数据、自然区划、山地垂直带谱、地理概念、地类定义、地物变化的规律、种植作物的农事历区域性差异等。

将上述遥感资料收集之后，可进行知识图谱的框架搭建。

一、进行遥感模式设计，包括概念设计、属性设计、遥感领域规则设计：

确定所构建的知识图谱的领域和范围，例如，所获取的遥感影像的相关资料为一个目标区域内的各类资料，所获取的地学资料为该目标区域以及邻近区域所涵盖的所有地学方面的资料，则遥感领域规则所约束的范围为该目标区域与邻近区域的总和，而遥感领域规则所适用的领域则是遥感领域。

根据遥感影像的相关资料对概念设计、属性设计和遥感领域规则进行初步的设定，概念表示的是遥感领域中的各类对象，例如高分辨率遥感影像、住宅、草地等，属性表示的是对象之间的关系，遥感领域规则表示的是对对象、属性的约束，在进行模式设计时，还需要根据属性与属性约束对概念进行明确。

在得到初步设定的概念后，在此基础上进行概念扩展，逐步补全概念，可根据地学概念资料来补全概念，还可根据遥感领域的术语规范对补全的概念进行术语化，并同时根据地学规律资料和地学数据资料对遥感领域规则进行细化与完善，之后基于属性约束和属性对补全后的概念作进一步的明确。

二、对遥感资料进行知识抽取，并结合实体识别方法和概念形成文本实体，基于第三特征进行多标签分类，根据得到的多标签结果形成影像实体，将文本实体和影像实体合并作为遥感实体：

对遥感资料进行词汇挖掘，以识别出遥感领域相关的重要短语和词汇，并利用命名实体识别方法对短语、词汇进行命名实体的识别，并将其归纳到相应的实体类型中。其中，实体类型包括大类和小类，大类可以是概念的内容，小类是对大类的细分，其细分的具体内容根据遥感资料和领域需求进行确定。识别出命名实体后，即可根据实体类型、命名实体来形成具体的文本实体。

利用神经网络对第三特征进行多标签分类，即基于神经网络训练得到特征和标签的映射关系，根据第三特征学习得到多个标签，这些标签以词汇形式表示，将得到的标签作为影像实体加入到遥感实体中，这样可以丰富遥感实体所包含的内容。本发明不仅从大范围的领域资料内进行知识提取形成实体，还从遥感样本的影像内容中抽取得到实体，使得构建的知识图谱能更好的以结构化形式表示遥感领域各对象间的复杂关系。

三、结合属性对遥感实体间的关系进行抽取，包括空间关系、时间关系、语义关系：

若两个遥感实体间存在关系，则将这两个遥感实体分别作为主体和客体，对主体和客体进行关系抽取即从遥感资料中找出主体与客体之间存在的关系，并根据遥感模式中的属性辅助进行关系抽取。本实施例采用联合学习方法进行关系抽取。现有关于联合学习方法的研究已十分成熟，利用联合学习方法进行关系抽取的详细步骤在此不再赘述，其是以遥感实体做输入来进行关系识别，不仅可以得到遥感实体间的关系，还能够一定程度完善遥感实体的命名识别。由于遥感影像是对地探测地球空间信息，并且遥感影像是对地表进行周期性观测，得到不同时态的对地观测成果，因此，遥感实体之间的关系应包括空间关系、时间关系，而语义关系指的是遥感实体之间从属、等同、相似、互斥等具有语义联系的关系。

四、根据遥感实体、遥感实体间的关系构建三元组，并基于三元组构建得到知识图谱：

在关系抽取之后，即可得到有关主体-关系-客体的三元组，三元组代表的是遥感实体之间的具体联系，通过将三元组进行整合，即可得到知识图谱，在知识图谱中，遥感实体以节点的形式存在，关系以连线的形式存在，即两个点之间连有一条连线，该两点一线即为一个三元组。

本发明实施例在收集的遥感资料中不仅有遥感影像相关的资料，还有地学资料，极大增加的遥感资料所涵盖的内容，在进行知识图谱的构建时，能够丰富知识图谱中的实体、关系的数量和内容，使得知识图谱的应用局限性有所改善，提高了知识图谱的应用价值。

在本发明一个实施例中，还可以对知识图谱进行补全，包括遥感实体类型补全和三元组预测：

A、遥感实体类型补全

在对遥感实体类型进行确定的时候，对于小类的细分还不够明确，则可以对遥感实体类型进行下层的概念搜索，可通过基于链接的类型推理来发现更多的类别描述信息。

具体地，1）根据直观经验，得到三种链接形式，第一种：遥感实体A、B，B存在指向A的链接，A属于概念x，则B也属于概念x，第二种：遥感实体A、B和C，A和B都存在指向C的链接，A属于概念x，则B也属于概念x，第三种：遥感实体A、B和C，C存在同时指向A和B的链接，A属于概念x，则B也属于概念x；2）将属于同一个概念的所有遥感实体当做一个整体，基于链接获取模型对链接进行挖掘，即链接形式的提取，得到链接信息；3）利用贝叶斯网络模型分别对链接信息和内容信息进行处理，并基于概率将链接信息和内容信息合并，对遥感实体进行分类。其中，内容信息描述了遥感实体的属性，链接信息描述了遥感实体间的关系。

B、三元组预测

将知识图谱中的三元组定义为头实体-关系-尾实体，表示为(h,r,t)，其中，h表示头实体，t表示尾实体，r表示头实体和尾实体的关系，则三元组预测包括三个预测任务，即头实体预测、关系预测、尾实体预测。本实施例中可采用TransE进行三元组预测，对知识图谱进行补全。TransE为知识图谱补全任务中的常用模型，利用其进行三元组预测的详细步骤在此不再赘述。

需要明确的是，对知识图谱进行补全操作不仅可以获取到更加丰富的知识，还能够使得后续的描述文本集合能够更加精确和完整。

S44根据目标检测网络对遥感样本进行目标检测，得到目标对象集合。

具体地，步骤S44包括：

本实施例的目标检测网络采用YOLO算法，对遥感样本进行目标检测，具体如下：

首先将遥感样本分割成一个S*S的网格，其中S*S=N。如果一个目标的中心落入网格中，则该网格就负责检测该目标。每个网格中预测B个边界框和置信度，边界框是遥感样本中目标的边界落入的方框，置信度是指预测边界框的准确程度。同时，每个网络还预测C个类别概率，该类别概率表示的是该网格负责预测的边界框其目标属于各个类别的概率。将上述预测的内容编码为S*S*(B*5+C)的张量。在目标检测网络结构的最后一层设置线性激活函数，根据线性激活函数来预测类别概率和边界框坐标，并设定预设阈值，去除类别概率低于预设阈值的对象，本实施例中，预设阈值设为0.5。最终，目标检测网络输出得到目标对象集合，所述目标对象集合包括目标对象及其位置信息。

具体地，步骤S45包括：

将目标对象集合和目标关系描述分别转化为第一向量和第二向量并输入解码器，根据解码器对第一向量和第二向量分别生成第一单词序列的概率矩阵和第二单词序列的概率矩阵，基于第一单词序列的概率矩阵和第二单词序列的概率矩阵得到对应的预测单词，将预测单词拼接为句子，即得到第一基础描述和第二基础描述，将第一基础描述和第二基础描述进行语义合成得到描述文本集合。

具体地，在本发明一实施例中，利用知识图谱得到目标关系描述的过程如下：

将知识图谱记为 D，目标对象集合作为遥感实体输入知识图谱中，使用Sparql（SPARQL Protocol and RDF Query Language）查询方法从知识图谱中查询到目标对象集合中每两个目标对象之间所存在的初始关系，该过程表示为：

其中， x、 y分别表示两个目标对象的名称， R为两个目标对象的初始关系。

利用Sparql查询得到的初始关系有时候不止一条，存在返回的两个目标对象之间有多个初始关系的情况，若是两个目标对象之间的初始关系只有一个，则将该两个目标对象之间的初始关系加入目标关系描述，若两个目标对象之间的初始关系大于一个，则根据信息熵对该两个目标对象之间的初始关系进行筛选，得到唯一的初始关系，并将其加入目标关系描述。具体的筛选过程为：

其中， L为选择函数， i为初始关系的数目。

可采用信息增益的方法来进行关系的选择。信息增益是一种最常用的选择算法，信息增益描述了使用某一种编码方式进行编码时，再使用另一种编码方式进行编码的差异。使用信息熵可以表示目标关系的不确定性，熵越大关系的不确定性就越大，所以可以使用划分前后信息熵的差值来衡量使用当前初始关系对于目标对象划分的好坏。信息增益的公式如下：

其中，R表示从知识图谱中查询出来的多个初始关系，是多个初始关系中的其中一个，H代表相应的信息熵值，其公式如下：

其中，H(R)表示信息熵值，表示初始关系R为的概率。

在筛选初始关系时，的值是一定的，但的值是不定的，的值越小则说明该初始关系的不确定性越小，也就是纯度越高，因此，当的值越大，则纯度上升的更快，只需从信息增益的值当中选择最大的作为最终选择的唯一的初始关系即可。之后将唯一的初始关系加入到目标关系描述中。

编码器中还包括编码网络，其用于将得到的第三特征和目标关系描述编码为第一向量E，编码表示如下：

其中，E₁为第三特征的向量表示，E₂为目标关系描述的向量表示。

同时，编码网络也将目标对象集合编码为第二向量O。

将第一向量E 和第二向量O输入解码器，本实施例中，解码器采用双向的LSTM网络，利用该网络对E和O分别生成第一单词序列的概率矩阵和第二单词序列的概率矩阵，在单个单词序列的概率矩阵中每个概率向量最大值就是所需要预测的单词，将所有预测单词拼接得到句子，即得到第一基础描述和第二基础描述。

在本发明一个实施例中，对第一基础描述和第二基础描述进行语义合成得到描述文本集合，包括：

对第一基础描述和第二基础描述分别做分词处理，并过滤掉无意义词，得到第一分词和第二分词，采用Word2vec方法对第一分词和第二分词进行向量化处理，并对第一分词中所有词的词向量取平均值得到第一词向量，对第二分词中所有词的词向量取平均值得到第二词向量，同时计算第一基础描述和第二基础描述的余弦相似度，得到相似度结果。

进一步地，步骤S5中的推荐库包括遥感样本的影像和遥感样本对应的第一特征、第二特征、目标对象集合、描述文本集合。其可被视为一个索引库，根据索引机制进行影像的检索和推荐。

进一步地，步骤S6中的筛选策略为：

第一步、将待推荐影像的第二特征与推荐库的第二特征进行差异分析，得到差异性结果，将差异性结果达到第一阈值的影像作为第一影像集。

具体地，在本实施例中，差异分析可以是计算余弦相似度，第一阈值可以设置为0.5，例如，将待推荐影像的第二特征与推荐库中的第二特征两两进行余弦相似度的计算，余弦相似度的值的范围为[-1,1]，-1代表两个向量指向的方向截然相反，1代表两个向量的指向完全相同，0表示两个向量之间是独立的，因此将余弦相似度的结果达到0.5及以上的影像筛选出来，作为第一影像集。

第二步、将待推荐影像的第一特征与第一影像集的第一特征进行特征度量，得到度量值，将度量值进行排序，选取前K个影像作为第二影像集。

具体地，在本实施例中，按照第一步能够快速筛选得到第一影像集，其数量通常会很大，且与待推荐影像的相关度有高有低，因此增加第二步来对第一影像集进行精筛，其中，特征度量可以采用欧氏距离，度量值即为欧氏距离的大小，欧氏距离越小，即两个特征之间的相关度越高，因此按照欧氏距离从小到大排序，选取前K个作为第二影像集，K的数值可按实际情况确定，比如选取前40%或前60%的影像。

第三步、将待推荐影像的描述文本集合与推荐库的描述文本集合进行文本相似度的计算，将文本相似度达到第二阈值的影像作为第三影像集。

具体地，在本实施例中，文本相似度可以采用TF-IDF算法和余弦相似度来计算得到，第二阈值可以设置为0.4，即先根据TF-IDF算法提取两个描述文本集合的关键词，计算关键词的词频，之后生成两个描述文本集合的词频向量，然后计算两个词频向量的余弦相似度，其值越大就表示越相似。

第四步、将待推荐影像的目标对象集合与第三影像集的目标对象集合进行重合分析，得到重合度，将重合度进行排序，选取前M个影像作为第四影像集。

具体地，在本实施例中，按照第三步得到的第三影像集也是数量很大的，可利用第四步对第三影像集进行精筛，重合分析指的是两个目标对象集合中相同的目标对象，重合度代表了两个目标对象集合中共同包含的目标对象的数量程度，重合度越大，则表示两个目标对象集合中所包括的目标对象越类似，即两张影像之间的场景越相关，因此根据重合度的大小进行排序，选取前M个作为第四影像集，M的数值可按实际情况确定，比如选取前50%或55%的影像。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于内容理解的遥感影像推荐方法，其特征在于，包括：

S1获取遥感样本；

2.根据权利要求1所述的方法，其特征在于，所述筛选策略为：

3.根据权利要求1所述的方法，其特征在于，步骤S4包括：

S41编码器包括特征提取网络、目标检测网络；

4.根据权利要求3所述的方法，其特征在于，步骤S43包括：

5.根据权利要求3所述的方法，其特征在于，步骤S44包括：

6.根据权利要求3所述的方法，其特征在于，步骤S45包括：

7.根据权利要求6所述的方法，其特征在于，对第一基础描述和第二基础描述进行语义合成得到描述文本集合，包括：

8.根据权利要求1所述的方法，其特征在于，步骤S3包括：

S31卷积神经网络包括输入层、隐藏层、输出层；

9.根据权利要求8所述的方法，其特征在于，降维层为激活函数层，利用激活函数层对第一特征进行二值化操作，得到对应的二进制向量，即第二特征。

10.根据权利要求8所述的方法，其特征在于，降维层为视觉词包层，采用视觉词包算法对第一特征进行聚类，将聚类中心作为视觉单词，根据视觉单词构建视觉词典，基于视觉词典对第一特征进行视觉单词映射，生成视觉单词分布图，对视觉单词分布图进行LBP直方图变换，得到对应的数值化向量，即第二特征。