CN115797795B

CN115797795B - 基于强化学习的遥感影像问答式检索系统及方法

Info

Publication number: CN115797795B
Application number: CN202310075622.XA
Authority: CN
Inventors: 陈宇; 陈莉; 彭哲; 张玥珺; 李洁; 邹圣兵
Original assignee: Beijing Shuhui Spatiotemporal Information Technology Co ltd
Current assignee: Beijing Shuhui Spatiotemporal Information Technology Co ltd
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-04-25
Anticipated expiration: 2043-02-07
Also published as: CN115797795A

Abstract

本发明提供一种基于强化学习的遥感影像问答式检索系统及方法，涉及遥感影像检索技术领域，该系统包括影像存储模块、环境模块、文本处理模块、强化学习模块、关键词分类模块、影像检索模块及输出模块。本发明通过强化学习模块实现了实时地对检索关键词进行修改调整，获取有效的检索关键词；通过关键词分类模块将用户不同的检索需求进行分类，匹配不同的检索策略，通过影像检索模块采取分层次、分类别的检索策略，同时提高检索的效率和精确度。

Description

基于强化学习的遥感影像问答式检索系统及方法

技术领域

本发明涉及遥感影像检索技术领域，尤其涉及一种基于强化学习的遥感影像问答式检索系统及方法。

背景技术

随着卫星对地观测系统的发展，遥感数据逐步呈现多来源，多尺度，多时相和全球覆盖等特征，数据量爆炸性增长，形成TB级，PB级的发展趋势。遥感数据的数据类型复杂、海量存储、更新快等特点从技术上增加了用户检索遥感数据的难度，限制了遥感数据在更多领域中的应用。

遥感影像检索主要包括三种，第一种：基于元数据的影像检索。具体来说，就是遥感卫星的下行卫星遥感数据在由接收系统完成数据的接收、记录以后，需对接收、记录的遥感卫星数据进行解压缩和解格式处理生成0级数据文件，以便于保存到磁盘或磁带等介质中进行存档。为了方便遥感卫星数据的检索和获取，需要在进行存档前对0级数据文件进行编目处理，生成遥感卫星的元数据信息，同时将元数据信息录入到关系数据库。这些元数据信息包含：成像时间、传感器、云量信息、空间范围地理信息、行列号等。用户在需要卫星数据时，可以通过检索数据库中的元数据信息，从而得到对应的遥感卫星数据；第二种：基于内容的影像检索。具体来说，就是通过影像的低层特征，例如影像的颜色、形状和纹理来表征影像内容，从而进行影像间相似性的匹配；第三种基于语义的图像检索，所谓图像语义，是指图像内容的本质，是对图像表达内容的高度抽象，其包括目标区域、空间关系语义等。

目前，上述三种影像检索技术发展较为成熟，具有自动化程度高的特点，但也有其局限性，主要体现在以下三个方面：

1、低层可视化特征不能直观地反映影像的语义信息，通常会产生“所求非所得”的检索结果；

2、对于颜色、纹理这类视觉信息，无法使用基于文本属性的方式进行查询；

3、通过用户输入的关键词在检索数据库中进行检索，由于数据库信息量庞大，导致检索过程十分缓慢，且检索结果与关键词相匹配通常有多种，进而需要再检索后逐一再筛选和剔除，检索效率低。

上述这些限制无疑制约了遥感卫星数据的应用。因此，如何根据不同用户的查询需求，高效精确的为用户提供有效检索信息，成为亟待解决的问题。

发明内容

基于上述技术问题，本发明提供一种基于强化学习的遥感影像问答式检索系统，通过强化学习方法将用户的反馈信息转化为具有指导意义的信息，获取有效的关键词；将关键词进行分类，根据不同类型的关键词匹配不同的检索策略，并结合初级检索和高级检索的方式，实现对遥感影像进行高效、精准且满足用户需求的检索。

为实现上述目的，本发明提供了一种基于强化学习的遥感影像问答式检索系统，包括如下模块：

影像存储模块，包括多张具有影像标签的影像；

环境模块，其配置为获取环境数据，所述环境数据包括用户ID信息和用户ID对应的历史数据，所述历史数据包括历史状态数据、历史动作数据和历史奖励数据，所述环境数据以表格形式或经拟合的神经网络形式存储；

文本处理模块，其配置为获取用户输入的语音信息或文本信息，其中所述语音信息经处理后转化为文本信息，所述文本信息经过分词、停用词去除、冗余词关联、同义词映射处理，得到初级关键词；

强化学习模块，其配置为根据所述环境数据生成强化策略，通过所述强化策略确认动作，接收用户反馈并根据其获取奖励数据，根据所述奖励数据对所述强化策略进行更新，根据更新后的策略对所述初级关键词进行更新；将更新后的初级关键词与系统内预设的检索项进行匹配，去除不匹配的词，得到检索关键词；

关键词分类模块，其配置为用预设的关键词分类器，将检索关键词根据不同语义进行分类，建立语义类别，所述语义类别包括元数据类、特征类；

影像检索模块，其配置为根据元数据类关键词进行初级检索得到初级影像集，在初级影像集中根据特征类关键词进行高级检索，得到高级影像集；

输出模块，其配置为将初级影像集和高级影像集取交集，将结果作为成果影像集，并输出给用户。

进一步地，所述影像检索模块包括：

初级检索单元，其配置为通过影像标签与元数据类关键词进行匹配，根据综合匹配度对影像进行排序，获取初级影像集；

高级检索单元，其配置为在初级影像集中，根据特征类关键词匹配对应的检索策略，进一步进行高级检索，并获取高级影像集，所述高级影像集包括第一影像集、第二影像集、第三影像集；

其中，特征类包括业务特征类、视觉特征类、语义特征类，检索策略包括第一检索策略、第二检索策略、第三检索策略，业务特征类关键词匹配所述第一检索策略、视觉特征类关键词匹配所述第二检索策略、语义特征类关键词匹配所述第三检索策略。

进一步地，所述第一检索策略为通过获取初级影像集中的业务特征描述文本，计算业务特征描述文本与业务特征类关键词的语义相似度，对影像进行排序，获取第一影像集；

所述第二检索策略为通过建立特征提取模型，将初级影像集输入特征提取模型中得到视觉特征向量，同时将视觉特征类关键词向量化，得到视觉特征词类词向量，计算视觉特征向量与视觉特征词类词向量的语义相似度，对影像进行排序，获取第二影像集；

所述第三检索策略为将语义特征类关键词和初级影像集中的语义特征描述文本进行编码预处理，转化为特征向量，将所述特征向量分别输入到预训练的语义相似度模型DSSM中，计算初级影像集中的语义特征描述文本与语义特征类关键词间的语义相似度，对影像进行排序，获取第三影像集。

进一步地，所述初级检索单元中，具体方法为；

其中，N为影像存储模块中所有影像的个数，K为影像标签和元数据的种类，A表示元数据关键词，Li表示影像存储模块中第i幅影像的标签和元数据集合，Wik表示第i幅影像的第k类影像标签和元数据在相似度中所占权值，满足。

进一步地，所述所述关键词分类模块配置为根据词向量Glove对关键词做词嵌入，输入到预设的关键词分类器中，得到关键词表达矩阵，将表达矩阵的首尾两个隐藏单元提取出，用线性变换投射为二分类向量，判断关键词的语义类别，根据不同类别进行分类。

进一步地，所述元数据类包括空间范围、时间范围、影像分辨率、星源、传感器、影像质量；

业务特征类包括影像镶嵌、影像解译、气象观测业务、国土测绘业务、海洋观测业务、农业业务、环境监测业务、和灾害监测业务；

视觉特征类包括形状、颜色、纹理信息；

语义特征类包括影像类型、空间关系信息。

进一步地，所述强化学习模块包括：

强化策略单元，其配置为根据所述环境数据生成强化策略；

动作单元，其配置为根据所述强化策略确定并实施动作，所述动作单元为所述初级关键词；

反馈单元，其配置为接收用户对所选取的初级关键词的反馈，所述反馈单元包括对单个初级关键词的修改请求、删除请求、替换请求和确认请求，以及对所有更新后初级关键词的接受请求；

策略更新单元，其配置为根据所述反馈单元生成奖励数据，并根据所述奖励数据更新所述强化策略；

检索项匹配单元，将更新后的初级关键词与系统内预设的检索项进行匹配，去除不匹配的词，得到检索关键词；

其中，所述动作单元包括：

第一动作单元，其配置为根据所述强化策略确定并实施第一动作，所述第一动作包括对所述初级关键词进行选取；

第二动作单元，其配置为根据所述强化策略确定并实施第二动作，所述第二动作包括对所述初级关键词进行修改；

第三动作单元，其配置为根据所述强化策略确定并实施第三动作，所述第三动作包括对所述初级关键词进行删除；

第四动作单元，其配置为根据所述强化策略确定并实施第四动作，所述第四动作包括对所述初级关键词进行替换，所述替换包括使用所述冗余词的关联词替换原冗余词和使用同义词和中心词替换已建立映射关系的原词；

第五动作单元，其配置为根据所述强化策略确定并实施第五动作，所述第五动作包括对所述初级关键词进行确认，将更新确认后的初级关键词向用户进行展示。

进一步地，所述环境模块包括：

用户ID单元，其配置为获取用户ID信息，所述用户ID信息用于标识和区分用户个体；

历史数据单元，其配置为获取所述用户ID对应的历史状态数据、历史动作数据和历史奖励数据；

表格存储单元，其配置为将所述环境数据以表格形式存储；

神经网络单元，其配置为通过神经网络拟合环境数据，所述神经网络的输入为所述用户ID信息与t时刻历史状态数据的嵌入向量数据，所述神经网络的输出为t+1时刻历史动作数据的拟合数据，对经拟合的神经网络进行存储。

进一步地，所述文本处理模块包括：

语音信息输入单元，其配置为接收用户输入的语音信息；

文本信息输入单元，其配置为接收用户输入的文本信息；

语音信息转化单元，其配置为将所述语音信息转化为标准文本信息；

分词单元，其配置为对所述文本信息进行分词处理，得到第一词集合；

停用词去除单元，其配置为去除第一词集合中的停用词，得到第二词集合，所述停用词由通用停用词集合和遥感领域停用词集合获得；

冗余词关联单元，其配置为通过预设的遥感领域语义模板与第二词集合进行词匹配，将同时出现上位和下位的冗余词进行关联，得到第三词集合；

同义词映射单元，其配置为在遥感同义词库和通用同义词库中检索第三词集合中的同义词，将检索到的同义词和中心词与原词建立映射关系，得到初级关键词。

本发明还提供了一种基于强化学习的遥感影像问答式检索方法，其特征在于，所述方法应用于上述的系统，包括以下步骤：

S1 获取环境数据，所述环境数据包括用户ID信息和用户ID对应的历史数据，所述用户ID信息用于标识和区分用户个体，所述历史数据包括历史状态数据、历史动作数据和历史奖励数据，所述环境数据以表格形式或经拟合的神经网络形式存储；

S2 获取用户输入的语音信息或文本信息，其中所述语音信息经处理后转化为文本信息，所述文本信息经过分词、停用词去除、冗余词关联、同义词映射处理，得到初级关键词，将所述初级关键词和用户ID生成嵌入向量数据，得到当前状态数据；

S3 将所述当前状态数据输入预训练的强化学习模型，强化学习智能体根据所述环境数据生成强化策略，基于所述强化策略，根据所述当前状态数据确定并实施第一动作，所述第一动作包括对所述初级关键词进行选取，将所选取的初级关键词向用户进行展示；

S4 获取当前奖励数据，所述当前奖励数据由用户对所选取的关键词的反馈获得，所述反馈包括对单个初级关键词的修改请求、删除请求、替换请求和确认请求，以及对所有初级关键词的接受请求；

S5 所述强化学习模块根据所述奖励数据、所述环境数据和所述当前状态数据对所述强化策略进行更新，通过所述强化策略确定并实施第二动作、第三动作、第四动作或第五动作，所述第二动作包括对所选取的初级关键词进行修改，所述第三动作包括对所选取的初级关键词进行删除，所述第四动作包括对所选取的初级关键词进行替换，所述第五动作包括对所选取的初级关键词进行确认，将更新确认后的初级关键词向用户进行展示；

S6 重复步骤S4-S5，直至用户接受当前更新的初级关键词；将更新的初级关键词与系统内预设的检索项进行匹配，去除不匹配的词，得到检索关键词；

S7 用预设的关键词分类器，将检索关键词根据不同语义进行分类，分为元数据类关键词和特征类关键词；

S8 将元数据类关键词在影像存储模块中进行初级检索，获取初级影像集；在初级影像集中，根据特征类关键词的类别分别实施第一检索策略、第二检索策略或第三检索策略，进行高级检索，得到高级影像集；

S9 将初级影像集和高级影像集取交集，将结果作为成果影像集，并输出给用户。

相对于现有技术，本发明的有益效果为：

（1）通过强化学习方法将用户的反馈信息转化为具有指导意义的信息，通过反馈式交互降低了系统使用的门槛，不需要使用者熟悉业务知识，获得有效的检索关键词；

（2）强化策略实现了实时地对检索关键词进行修改调整，效率高且不影响用户体验；

（3）关键词分类器和检索策略引入，将用户不同的检索需求进行分类，匹配不同的检索策略，采取分层次、分类别的检索方式，同时提高检索的效率和精确度；

（4）本发明的高级检索模块中，各个检索策略相互独立，可以随着各项技术发展而进行替换更新，有较强的扩展性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的基于强化学习的遥感影像问答式检索系统的结构示意图；

图2为本发明实施例的强化学习模块的结构示意图；

图3为本发明实施例的影像检索模块的结构示意图；

图4为本发明实施例的基于强化学习的遥感影像问答式检索方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

请参阅图1，本发明提供一种基于强化学习的遥感影像问答式检索系统，所述系统包括模块：影像存储模块、环境模块、文本处理模块、强化学习模块、关键词分类模块、影像检索模块和输出模模块。

其中，影像存储模块，其配置为包含多张具有影像标签的遥感影像。

环境模块，其配置为获取环境数据，所述环境数据包括用户ID信息和用户ID对应的历史数据，所述历史数据包括历史状态数据、历史动作数据和历史奖励数据，所述环境数据以表格形式或经拟合的神经网络形式存储。

在本发明一实施例中，环境模块具体包括：

用户ID单元，其配置为获取用户ID信息，所述用户ID信息用于标识和区分用户个体。

历史数据单元，其配置为获取所述用户ID对应的历史状态数据、历史动作数据和历史奖励数据。

表格存储单元，其配置为将所述环境数据以表格形式存储。

文本处理模块，其配置为获取用户输入的语音信息或文本信息，其中所述语音信息经处理后转化为文本信息，所述文本信息经过分词、停用词去除、冗余词关联、同义词映射和检索项匹配处理，得到初级关键词。

在本发明的一实施例中，所述文本处理模块具体包括：

语音信息输入单元，其配置为接收用户输入的语音信息；

文本信息输入单元，其配置为接收用户输入的文本信息；

冗余词关联单元，其配置为通过预设的遥感领域语义模板与第二词集合进行词匹配，将同时出现上位和下位的词进行关联，得到第三词集合；

强化学习模块，其配置为根据所述环境数据生成强化策略，通过所述强化策略确认动作，接收用户反馈并根据其获取奖励数据，根据所述奖励数据对所述强化策略进行更新，根据更新后的策略对所述初级关键词进行更新；将更新后的初级关键词与系统内预设的检索项进行匹配，去除不匹配的词，得到检索关键词。

请参阅图2，在本发明的一实施例中，所述强化学习模块具体包括：

强化策略单元，其配置为根据所述环境数据生成强化策略；

反馈单元，其配置为接收用户对所选取的初级关键词的反馈，所述反馈包括对单个初级关键词的修改请求、删除请求、替换请求和确认请求，以及对所有初级关键词的接受请求；

策略更新单元，其配置为根据所述反馈生成奖励数据，并根据所述奖励数据更新所述强化策略；

检索项匹配单元，将更新后的初级关键词与系统内预设的检索项进行匹配，去除不匹配的词，得到检索关键词。

在本发明一具体实施例中，所述动作单元包括：

第四动作单元，其配置为根据所述强化策略确定并实施第四动作，所述第四动作包括对所述初级关键词进行替换，所述替换的内容包括使用所述冗余词的关联词替换原冗余词和使用同义词和中心词替换与其已建立映射关系的原词；

第五动作单元，其配置为根据所述强化策略确定并实施第五动作，所述第五动作包括对所述初级关键词进行确认，将确认后的初级关键词向用户进行展示。

其中，强化策略单元中，用于生成并更新强化策略的方法可以为使用Q值表的Q学习或使用神经网络的深度Q学习或Actor-Critic方法。需要说明的是，深度强化学习算法按照策略更新方式的不同，可以分为基于值的和基于策略的两类方法。基于值的方法通过估算每个状态-动作对的值函数Q(s,a)来寻找最佳策略，其中典型的就是DQN，它是Q-Learning算法在连续状态空间中的延续。通过一个神经网络来逼近Q函数，在离散动作空间中，可使用Epsilon贪婪算法直接根据Q value得到各个状态下的最佳动作。而基于策略的方法则不同，这种算法不需要估算价值函数，而是直接用神经网络去拟合策略函数，通过训练去更新策略参数，直接生成最佳策略。这其中有代表性的则是策略梯度。Actor-Critic架构则是结合了基于值的和基于策略的两类方法的特点。

在本发明一个具体实施例中，使用Actor-Critic架构来生成并更新强化策略。所述Actor-Critic架构包括两个神经网络：

1）策略网络Actor网络：生成策略，输入状态，输出动作，用于逼近策略模型。Actor网络的损失函数为：

其中，为策略下的累计奖励，W_Actor为Actor网络参数，为在该网络参数下策略出现的概率。

2）评论网络Critic网络：用价值函数评估策略的价值，输入状态s，输出q(s,a)，用于逼近值函数Q(s,a)。Critic网络的损失函数为：

其中，V(S,W_Critic)为当前状态到最终状态的奖励期望，V(S’,W_Critic)为下一状态到最终状态的奖励期望，为系数，W_Critic为Critic网络参数，R为当前的奖励期望。

Actor网络与Critic网络使用同样的双层全连接层结构。

关键词分类模块，其配置为用预设的关键词分类器，将检索关键词根据不同语义进行分类，建立语义类别，所述语义类别包括元数据类、特征类。

在本发明的一实施例中，所述预设的关键词分类器，其配置为通过词向量Glove对检索关键词做词嵌入，输入到预设的关键词分类器中，得到检索关键词表达矩阵，将表达矩阵的首尾两个隐藏单元提取出，用线性变换投射为二分类向量，判断检索关键词的语义类别，根据不同类别进行分类。

影像检索模块，其配置为根据元数据类关键词进行初级检索得到初级影像集，在初级影像集中根据特征类关键词进行高级检索，得到高级影像集。

请参阅图3，在本发明的一实施例中，所述影像检索模块具体包括：

初级检索单元，其配置为通过影像标签与元数据类关键词进行匹配，根据综合匹配度对影像进行排序，获取初级影像集。

其中，初级检索单元，其配置为通过影像标签与元数据关键词进行匹配，根据综合匹配度对影像进行排序，获取初级影像集，匹配公式为：

其中，N为影像存储模块中所有影像的个数，K为影像标签和元数据的种类，A表示元数据类关键词，L_i表示影像存储模块中第i幅影像的标签和元数据集合，W_ik表示第i幅影像的第k类影像标签和元数据在相似度中所占权值，满足。

在本发明的一实施例中，特征类包括业务特征类、视觉特征类、语义特征类，检索策略包括第一检索策略、第二检索策略、第三检索策略，业务特征类关键词匹配所述第一检索策略、视觉特征类关键词匹配所述第二检索策略、语义特征类关键词匹配所述第三检索策略。

具体地，所述元数据类包括空间范围、时间范围、影像分辨率、星源、传感器、影像质量；业务特征类包括影像镶嵌、影像解译、气象观测业务、国土测绘业务、海洋观测业务、农业业务、环境监测业务、和灾害监测业务；视觉特征类包括形状、颜色、纹理；语义特征类包括影像类型、空间关系。

在本发明的一实施例中，所述第一检索策略为通过获取初级影像集的业务特征描述文本，计算业务特征描述文本与业务特征类关键词的语义相似度，对影像进行排序，获取第一影像集。

具体地，本实施例中获取第一影像集的方法为：

其中，N为初级影像集中所有影像的个数，K为业务特征描述文本中的业务特征种类，B表示业务特征类关键词，T_i表示初级影像集中第i幅影像，W_ik表示第i幅影像的第k类业务特征在相似度中所占权值，满足。

在本发明的一实施例中，所述第二检索策略为通过建立特征提取模型，将初级影像集输入特征提取模型中得到视觉特征向量，同时将视觉特征类关键词向量化，得到视觉特征词类词向量，计算视觉特征向量与视觉特征词类词向量的语义相似度，对影像进行排序，获取第二影像集。

具体地，本实施例中获取第二影像集的方法为：

建立特征提取模型，包括输入层、隐藏层、输出层，将初级影像集输进输入层，根据隐藏层对初级影像集进行特征提取，隐藏层包括全连接层和降维层，基于全连接层得到第一特征，将第一特征输入降维层进行降维，并从输出层输出得到视觉特征向量。

同时，对视觉特征类关键词进行向量化，具体可以采用word2vec算法，获取视觉特征词类词向量。

计算视觉特征向量与视觉特征词类词向量的语义相似度，计算公式如下：

其中，N为初级影像集中所有影像的个数，C为视觉特征词类词向量，Di为初级影像集中第i幅影像的视觉特征向量。

在本发明的一实施例中，所述第三检索策略为将语义特征类关键词和初级影像集中的语义特征描述文本进行编码预处理，转化为特征向量，将所述特征向量分别输入到预训练的语义相似度模型DSSM中，计算初级影像集中的语义特征描述文本与语义特征类关键词间的语义相似度，对影像进行排序，获取第三影像集。

具体地，本实施例中获取第三影像集的方法为：

其中，i为初级影像集中所有影像的个数，Q为语义特征类关键词，Ri为初级影像集中语义特征描述文本，y_Q为语义特征类关键词的特征向量，y_Ri表示初级影像集中第i幅影像的语义特征描述文本的特征向量。

具体地，本发明实施例中将初级影像集、第一影像集、第二影像集、第三影像集的所有影像求交集，得到的结果即为成果影像集。

请参阅图4，本发明还提供一种基于强化学习的遥感影像问答式检索方法，所述方法包括以下步骤：

S5 所述强化学习智能体根据所述奖励数据、所述环境数据和所述当前状态数据对所述强化策略进行更新，通过所述强化策略确定并实施第二动作、第三动作、第四动作或第五动作，所述第二动作包括对所选取的初级关键词进行修改，所述第三动作包括对所选取的初级关键词进行删除，所述第四动作包括对所选取的初级关键词进行替换，所述第五动作包括对所选取的初级关键词进行确认，将更新确认后的初级关键词向用户进行展示；

S8 将元数据类关键词在影像存储模块中进行初级检索，获取初级影像集；在初级影像集中，根据特征类关键词的语义类别分别实施第一检索策略、第二检索策略或第三检索策略，进行高级检索，得到高级影像集；

在本发明一实施例中，所述特征类关键词具体包括业务特征类、视觉特征类、语义特征类。

在本发明一实施例中，所述业务特征类关键词匹配所述第一检索策略、视觉特征类关键词匹配所述第二检索策略、语义特征类关键词匹配所述第三检索策略。

在本发明一实施例中，所述第一检索策略为通过获取初级影像集中的业务特征描述文本，计算业务特征描述文本与业务特征类关键词的语义相似度，对影像进行排序，获取第一影像集；所述第二检索策略为通过建立特征提取模型，将初级影像集输入特征提取模型中得到视觉特征向量，同时将视觉特征类关键词向量化，得到视觉特征词类词向量，计算视觉特征向量与视觉特征词类词向量的语义相似度，对影像进行排序，获取第二影像集；所述第三检索策略为将语义特征类关键词和初级影像集中的语义特征描述文本进行编码预处理，转化为特征向量，将所述特征向量分别输入到预训练的语义相似度模型DSSM中，计算初级影像集中的语义特征描述文本与语义特征类关键词间的语义相似度，对影像进行排序，获取第三影像集。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.基于强化学习的遥感影像问答式检索系统，其特征在于，所述系统包括：

影像存储模块，包括多张具有影像标签的影像；

文本处理模块，其配置为获取用户输入的语音信息或文本信息，其中所述语音信息经处理后转化为文本信息，所述文本信息经过分词、停用词去除、冗余词关联、同义词映射处理，得到初级关键词，将所述初级关键词和用户ID生成嵌入向量数据，得到当前状态数据；

强化学习模块，其配置为根据所述环境数据生成强化策略，通过所述强化策略确认动作，接收用户反馈并根据其获取奖励数据，根据所述奖励数据、所述环境数据和所述当前状态数据对所述强化策略进行更新，根据更新后的策略对所述初级关键词进行更新；将更新后的初级关键词与系统内预设的检索项进行匹配，去除不匹配的词，得到检索关键词；

影像检索模块，其配置为根据元数据类检索关键词进行初级检索得到初级影像集，在初级影像集中根据特征类检索关键词进行高级检索，得到高级影像集；

输出模块，其配置为将高级影像集作为成果影像集，并输出给用户。

2.根据权利要求1所述的基于强化学习的遥感影像问答式检索系统，其特征在于，所述影像检索模块包括：

初级检索单元，其配置为通过影像标签与元数据类检索关键词进行匹配，根据综合匹配度对影像进行排序，获取初级影像集；

高级检索单元，其配置为在初级影像集中，根据特征类检索关键词匹配对应的检索策略，进一步进行高级检索，并获取高级影像集，所述高级影像集包括第一影像集、第二影像集、第三影像集；

其中，特征类包括业务特征类、视觉特征类、语义特征类，检索策略包括第一检索策略、第二检索策略、第三检索策略，业务特征类检索关键词匹配所述第一检索策略、视觉特征类检索关键词匹配所述第二检索策略、语义特征类检索关键词匹配所述第三检索策略。

3.根据权利要求2所述的基于强化学习的遥感影像问答式检索系统，其特征在于：

所述第一检索策略为通过获取初级影像集中的业务特征描述文本，计算业务特征描述文本与业务特征类检索关键词的语义相似度，对影像进行排序，获取第一影像集；

所述第二检索策略为通过建立特征提取模型，将初级影像集输入特征提取模型中得到视觉特征向量，同时将视觉特征类检索关键词向量化，得到视觉特征词类词向量，计算视觉特征向量与视觉特征词类词向量的语义相似度，对影像进行排序，获取第二影像集；

所述第三检索策略为将语义特征类关键词和初级影像集中的语义特征描述文本进行编码预处理，转化为特征向量，将所述特征向量分别输入到预训练的语义相似度模型DSSM中，计算初级影像集中的语义特征描述文本与语义特征类检索关键词间的语义相似度，对影像进行排序，获取第三影像集。

4.根据权利要求2所述的基于强化学习的遥感影像问答式检索系统，其特征在于，所述初级检索单元中，匹配公式如下；

其中，N为影像存储模块中所有影像的个数，K为影像标签和元数据的种类，A表示元数据检索关键词，Li表示影像存储模块中第i幅影像的标签和元数据集合，Wik表示第i幅影像的第k类影像标签和元数据在相似度中所占权值，满足

5.根据权利要求1所述的基于强化学习的遥感影像问答式检索系统，其特征在于，所述关键词分类模块还配置为根据词向量Glove对关键词做词嵌入，输入到预设的关键词分类器中，得到关键词表达矩阵，将表达矩阵的首尾两个隐藏单元提取出，用线性变换投射为二分类向量，判断关键词的语义类别，根据不同类别进行分类。

6.根据权利要求2所述的基于强化学习的遥感影像问答式检索系统，其特征在于：

元数据类包括空间范围、时间范围、影像分辨率、星源、传感器、影像质量；

视觉特征类包括形状、颜色、纹理信息；

语义特征类包括影像类型、空间关系信息。

7.根据权利要求1所述的基于强化学习的遥感影像问答式检索系统，其特征在于，所述强化学习模块包括：

强化策略单元，其配置为根据所述环境数据生成强化策略；

动作单元，其配置为根据所述强化策略确定并实施动作，所述动作单元的动作对象为初级关键词；

反馈单元，其配置为接收用户对所选取的初级关键词的反馈，所述反馈包括对单个初级关键词的修改请求、删除请求、替换请求和确认请求，以及对所有更新后初级关键词的接受请求；

策略更新单元，其配置为根据所述反馈生成奖励数据，并根据所述奖励数据更新所述强化策略，所述奖励数据由用户对所选取的初级关键词的反馈获得；

其中，所述动作单元包括：

8.根据权利要求1所述的基于强化学习的遥感影像问答式检索系统，其特征在于，所述环境模块包括：

表格存储单元，其配置为将所述环境数据以表格形式存储；

9.根据权利要求1所述的基于强化学习的遥感影像问答式检索系统，其特征在于，所述文本处理模块包括：

语音信息输入单元，其配置为接收用户输入的语音信息；

文本信息输入单元，其配置为接收用户输入的文本信息；

分词单元，其配置为对所述文本信息和标准文本信息进行分词处理，得到第一词集合；

10.一种基于强化学习的遥感影像问答式检索方法，其特征在于，所述方法应用于上述权利要求1-9中任一项所述的系统，包括以下步骤：

S1获取环境数据，所述环境数据包括用户ID信息和用户ID对应的历史数据，所述用户ID信息用于标识和区分用户个体，所述历史数据包括历史状态数据、历史动作数据和历史奖励数据，所述环境数据以表格形式或经拟合的神经网络形式存储；

S2获取用户输入的语音信息或文本信息，其中所述语音信息经处理后转化为文本信息，所述文本信息经过分词、停用词去除、冗余词关联、同义词映射处理，得到初级关键词，将所述初级关键词和用户ID生成嵌入向量数据，得到当前状态数据；

S3将所述当前状态数据输入预训练的强化学习模型，强化学习模块根据所述环境数据生成强化策略，基于所述强化策略，根据所述当前状态数据确定并实施第一动作，所述第一动作包括对所述初级关键词进行选取，将所选取的初级关键词向用户进行展示；

S4获取当前奖励数据，所述当前奖励数据由用户对所选取的关键词的反馈获得，所述反馈包括对单个初级关键词的修改请求、删除请求、替换请求和确认请求，以及对所有初级关键词的接受请求；

S5所述强化学习模块根据所述奖励数据、所述环境数据和所述当前状态数据对所述强化策略进行更新，通过所述强化策略确定并实施第二动作、第三动作、第四动作或第五动作，所述第二动作包括对所选取的初级关键词进行修改，所述第三动作包括对所选取的初级关键词进行删除，所述第四动作包括对所选取的初级关键词进行替换，所述第五动作包括对所选取的初级关键词进行确认，将更新确认后的初级关键词向用户进行展示；

S6重复步骤S4-S5，直至用户接受当前更新的初级关键词；将更新的初级关键词与系统内预设的检索项进行匹配，去除不匹配的词，得到检索关键词；

S7用预设的关键词分类器，将检索关键词根据不同语义进行分类，分为元数据类检索关键词和特征类检索关键词；

S8将元数据类检索关键词在影像存储模块中进行初级检索，获取初级影像集；在初级影像集中，根据特征类检索关键词的语义类别分别实施第一检索策略、第二检索策略或第三检索策略，进行高级检索，得到高级影像集；

S9将高级影像集作为成果影像集，并输出给用户。