CN115017418B

CN115017418B - 基于强化学习的遥感影像推荐系统及方法

Info

Publication number: CN115017418B
Application number: CN202210953208.XA
Authority: CN
Inventors: 陈宇; 彭哲; 段红伟; 邹圣兵
Original assignee: Beijing Shuhui Spatiotemporal Information Technology Co ltd
Current assignee: Beijing Shuhui Spatiotemporal Information Technology Co ltd
Priority date: 2022-08-10
Filing date: 2022-08-10
Publication date: 2022-11-01
Anticipated expiration: 2042-08-10
Also published as: CN115017418A

Abstract

本发明提供一种基于强化学习的遥感影像推荐系统及方法，涉及数据挖掘和推荐技术领域，所述系统包括影像集获取模块、强化学习模块、用户反馈模块，其中，强化学习模块包括奖励模块、动作模块、状态模块、影像库模块、特征提取模块、特征融合模块。本发明结合强化学习和用户反馈，构建了合理的遥感影像反馈式推荐系统，能够实现实时的反馈式遥感影像推荐，基于用户的反馈内容提供符合用户偏好的影像推荐。

Description

基于强化学习的遥感影像推荐系统及方法

技术领域

本发明涉及数据挖掘和推荐技术领域，尤其涉及一种基于强化学习的遥感影像推荐系统及方法。

背景技术

网络的普及给用户带来了大量的信息，满足了用户对信息的需求，但随着网络上信息的大幅增长，对于用户来说，这些信息中可能仅有小部分是需要的信息，很难从大量的信息中获取到所需的信息，这样就导致了信息超载的问题。为了解决信息超载的问题，推荐系统应运而生，推荐系统可以根据用户的需求和偏好给用户推荐感兴趣的信息、商品等。

在传统的推荐方式中，需要用户对商品的评价信息来体现用户对商品的偏好。而遥感影像与一般的商品或图片不同，遥感影像以景为单位，每景影像覆盖了大面积的真实地面，如资源三号卫星一景标准景面积是50公里×50公里幅宽、高分一号卫星一景标准景面积是32.5公里×32.5公里幅宽、高分二号卫星一景标准景面积是23.5公里×23.5公里幅宽。遥感影像包含的内容复杂繁多，对于整景遥感影像，用户难以给出一个完整客观且一致的评价，因而无法使用传统的推荐方式实现遥感影像推荐。目前在遥感领域尚未出现任何较为合理可行的推荐系统。

发明内容

基于上述技术问题，本发明提供的基于强化学习的遥感影像推荐系统能够根据用户的实时偏好进行推荐策略的调整，避免了冷启动问题；通过本发明的强化学习系统实现了兼顾影像全局特征和局部特征的影像推荐。

为达到上述技术目的，本发明提供一种基于强化学习的遥感影像推荐系统，所述系统包括影像集获取模块、强化学习模块、用户反馈模块：

所述影像集获取模块用于获取推荐影像候选集和初始目标区域；

所述强化学习模块用于根据初始目标区域在推荐影像候选集中进行逐张影像选取，得到推荐影像集；

所述用户反馈模块用于获取用户对推荐影像集的用户反馈，基于用户反馈并结合推荐影像候选集得到筛选影像集或推荐结果；

所述强化学习模块和所述用户反馈模块在执行时为迭代过程，直至接收到用户停止推荐请求，停止迭代，所述用户反馈模块输出推荐结果，其中，所述用户停止推荐请求由所述用户反馈模块输出得到；

其中，所述强化学习模块包括：

奖励模块，用于构建强化学习的奖励项和回报函数；

动作模块，用于构建强化学习的动作空间，动作空间中的动作为从推荐影像候选集中逐个选取推荐影像；

状态模块，用于构建强化学习的状态空间，状态空间由已选取的推荐影像和未覆盖的目标区域经向量化后构成，其中，未覆盖的目标区域为从初始目标区域上去除已选取的推荐影像所覆盖的区域后的区域，输出推荐影像集；

影像库模块，用于存储筛选影像集并对其进行更新；

特征提取模块，用于对筛选影像集中的影像进行前景和后景特征提取，得到筛选影像集中的前景特征和后景特征；

特征融合模块，用于对筛选影像集中的单张影像的前景特征和后景特征进行特征融合，得到该单张影像的融合特征，进而得到筛选影像集中所有影像的融合特征集，对融合特征集进行聚类处理，得到的聚类中心作为融合聚类特征，并基于统计方法得到每个融合聚类特征对应的聚类程度值。

可选地，所述用户反馈模块，包括：

判定单元，用于接收用户的推荐请求并对其进行判定，所述用户的推荐请求为用户继续推荐请求或用户停止推荐请求，当推荐请求为用户继续推荐请求时跳转至影像筛选单元，当推荐请求为用户停止推荐请求时跳转至输出单元；

影像筛选单元，用于获取用户的影像筛选反馈，用户的影像筛选反馈为用户根据个人喜好从推荐影像集和推荐影像候选集中进行影像筛选，得到筛选影像集；

输出单元，用于输出用户停止推荐请求，所述用户停止推荐请求为第一停止推荐请求或第二停止推荐请求，所述第一停止推荐请求为停止推荐并输出推荐结果，所述第二停止推荐请求为停止推荐并进行替换后输出推荐结果。

可选地，所述特征提取模块，包括：

前景特征提取单元，用于对筛选影像集中的影像进行前景特征提取，得到每张影像的前景特征，所述前景特征的提取方法为使用显著性检测网络获取影像的前景掩膜，对前景掩膜进行特征提取；

后景特征提取单元，用于对筛选影像集中的影像进行后景特征提取，得到每张影像的后景特征；

所述前景特征和后景特征的提取方法包括HOG、SIFT、ORB、直方图、灰度共生矩阵、局部二值模式、Gabor、SURF、Harris和深度学习方法。

可选地，所述特征融合模块，包括：

融合单元，用于对筛选影像集中的每张影像的前景特征和后景特征进行特征融合，得到每张影像的融合特征；

聚类单元，用于对所述融合特征进行聚类处理，得到融合聚类特征和其对应的聚类程度值，其中，筛选影像集中的每张影像对每个融合聚类特征都有其相应的聚类程度值，即

，其中，

为聚类程度函数，

为第i类融合聚类特征，I为影像，

为影像I对应的第i类融合聚类特征的聚类程度值。

可选地，所述奖励模块，包括：

奖励单元，用于构建强化学习的奖励项，奖励

，其中，

为影像质量奖励项、

为影像覆盖率奖励项、

为影像时相奖励项，

为用户反馈奖励项，

、

和

为权重系数；

回报函数单元，用于构建强化学习的回报函数，并根据奖励进行回报函数更新：

；

动态奖励更新单元，用于更新用户反馈奖励项的奖励值。

可选地，所述动态奖励更新单元，包括：

特征提取单元，用于对推荐影像候选集进行特征提取；

特征相似度计算单元，用于将推荐影像候选集中每张影像的特征分别与融合聚类特征一一进行相似度计算；

反馈奖励单元，用于根据相似度的计算结果选取与单张影像的特征的相似度最大的融合聚类特征，作为该单张影像的相似融合聚类特征，将相似融合聚类特征对应的聚类程度值以及最大相似度作为相应的该单张影像的用户反馈奖励。

可选地，所述各奖励项还对应其奖励值：

r(q)={(优,+1),(差,-3)}，表示当前动作选取的推荐影像质量优时奖励值为+1，当前动作选取的推荐影像质量差时奖励值为-1；

r(c)={(大,+2),(小,-1)}，表示当前动作选取的推荐影像对未覆盖的目标区域的覆盖率大于等于覆盖率阈值时奖励值为+1，当前动作选取的推荐影像对未覆盖的目标区域的覆盖率小于覆盖率阈值时奖励值为-1；

r(t)={(相近,+1),(不相近,-1)}，表示当前动作选取的推荐影像与其余的已选取的推荐影像的时相相近时奖励值为+1，当前动作选取的推荐影像与其余的已选取的推荐影像的时相不相近时奖励值为-1；

其中，

为单张影像的特征与融合聚类特征的最大相似度，

为该单张影像的相似融合聚类特征对应的聚类程度值，

为奖励范围系数，其决定了用户反馈奖励的范围，

为惩罚系数，其决定了奖励中负奖励的占比。

另外，本发明还提供一种基于强化学习的遥感影像推荐方法，所述方法应用于上述所述的系统中。

本发明提出了一种基于强化学习的遥感影像推荐系统。该系统包括影像集获取模块、强化学习模块、用户反馈模块，其中，强化学习模块包括奖励模块、动作模块、状态模块、影像库模块、特征提取模块、特征融合模块。相对于现有技术，本发明的有益效果至少包括：

（1）构建了一种反馈式的遥感影像推荐系统，能够实现实时的推荐结果的更新；

（2）对用户反馈的内容进行特征分析并转换成奖励值，从而对回报函数进行更新，通过迭代执行上述过程来得到影像推荐结果，以此实现系统根据用户的实时偏好进行推荐策略的调整，能够避免冷启动问题，实现精准的影像推荐；

（3）通过特征提取模块和特征融合模块对影像进行局部特征和全局特征的提取及融合，实现了兼顾影像全局特征和局部特征的影像推荐，充分利用了影像的特征进行推荐。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例中基于强化学习的遥感影像推荐系统的结构示意图；

图2为本发明一实施例中用户反馈模块展开后的基于强化学习的遥感影像推荐系统的结构示意图；

图3为本发明一实施例的基于强化学习的遥感影像推荐方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

请参阅图1，本发明提供一种基于强化学习的遥感影像推荐系统，所述系统包括影像集获取模块、强化学习模块、用户反馈模块。

其中，影像集获取模块，用于获取推荐影像候选集和初始目标区域。

本实施例中，影像集获取模块用于根据用户的检索信息进行初步影像检索，检索信息可以为检索条件、样例图、语义信息，检索条件通常包括影像分辨率、星源、传感器、影像质量、影像等级、影像类型、目标区域。其中，目标区域可以为行政区划区域或用户指定的具体区域，作为初始目标区域。影像类型包括传统的以景为单位的影像和以可用域为单位的影像，可用域影像为去除影像质检缺陷区域的影像，相比传统的以整景为单位的影像，可用域影像的利用率高，在用于后续的镶嵌和解译场景时能够有更好的效果。获取满足上述检索信息的影像集，得到推荐影像候选集。

在另一实施例中，通过构建神经网络获得推荐影像候选集，神经网络的直接作用为对不同的影像进行评分。为避免输出过多类，将评分的范围设置为1-10，共输出10类分值的概率，最大概率的为最终得分。其中，由于一景遥感影像尺寸庞大，需要对影像按行和列进行固定步长滑动裁剪预处理，对裁剪后的影像分幅进行评分，将所有裁剪影像的评分进行加权求和，得到整张影像的评分。神经网络的输入层与裁剪后的影像尺寸相同为256*256，最后一层经过softmax层后输出10个节点对应1-10的10类分值概率。神经网络的结构为3个卷积层、3个最大池化层、2个全连接层、softmax层，激活函数使用ReLu。

根据所述影像的评分由大到小对影像进行排序，选取前预设数量影像，得到推荐影像候选集，在该实施例中预设数量设置为40。

强化学习模块，用于根据初始目标区域在推荐影像候选集中进行逐张影像选取，得到推荐影像集。

于本发明一具体实施例中，所述强化学习模块，包括：

奖励模块，用于构建强化学习的奖励项和回报函数。

奖励模块包括：奖励单元，用于构建强化学习的奖励项，奖励

，其中，

为影像质量奖励项、

为影像覆盖率奖励项、

为影像时相奖励项，

为用户反馈奖励项，

、

和

为权重系数。

。

动态奖励更新单元，用于更新用户反馈奖励项的奖励值。

于本发明一实施例中，动态奖励更新单元，包括：

特征提取单元，用于对推荐影像候选集进行特征提取。

其中，推荐影像候选集中每张影像的特征获取采用与所述后景特征提取相同的方法，保证特征的一致性。

特征相似度计算单元，用于将推荐影像候选集中每张影像的特征分别与融合聚类特征一一进行相似度计算。

其中，特征相似度计算的方式为：

（1）对于相同维度的特征，如同维度可解释特征或同样大小的特征图，使用欧式距离、巴氏距离、余弦相似度、杰卡得相似系数或皮尔森相关系数进行计算。其中，通过余弦相似度计算灰度直方图特征相似度的步骤为：

1）获得两张图像的灰度直方图；

2）将图像每4个灰度级划分成一个区，共64个区；

3）对每个区的4个值进行求和运算，得到64个值，以此作为该图像的向量；

4）计算两个向量的余弦相似度；

5）判断图像的相似性。

基于SIFT算法的相似度计算步骤为：

1）构建尺度空间

① 构建高斯金字塔

高斯卷积核是实现尺度变换的唯一线性核，一幅图像的尺度空间被定义为对其做可变尺度的高斯卷积：

其中，σ为尺度空间因子，表示图像被高斯平滑的程度；(x,y)代表图像像素的位置；m，n表示高斯模板的维度。

对于灰度图像，利用不同大小的σ做高斯平滑。同时，将采样图像划分为不同组，每组有若干图像。一般情况下，上一组图像的长宽取下一组的2倍。

② 构建高斯差分金字塔

③ 极值点检测

将待检测图像与前后两张图像共26个邻域像素点的灰度值逐一比较，检测极值。

2）关键点定位

离散空间的极值点并非真正的极值点，为提高关键点的稳定性，需拟合尺度空间函数。利用Taylor展开式求得极值偏移量。当任一维度的偏移量大于0.5时，改变当前关键点的位置，并在新的位置反复拟合直至收敛。若超出设定迭代次数或偏移量绝对值过小，存在不稳定点，可将该点视为非极值点。

此外，高斯差分函数的边缘效应使特征点在某方向上有较大的曲率，而在垂直方向的主曲率很小，可将该点删除。

3）方向分配

根据高斯差分金字塔中关键点的局部特性计算结果，可为每一点指定方向，使其具备旋转不变性。梯度模型和方向如下：

式中：x,y的正方向分别为右和上；L为关键点映射在尺度空间的灰度值；m(x,y)为梯度幅值；θ(x,y)为关键点所处梯度方向的弧度。按逆时针方向将360°依次划分为36个区域，获取不同方向的直方图。可按照σ=1.5_octv的高斯分布和3σ原则将m(x,y)加成，邻域窗口半径为3×1.5σ_octv。

为增强算法鲁棒性，只保留峰值大于主方向峰值80%的方向为关键点的辅方向。完成上述过程，即获得SIFT特征点。

4）关键点特征描述

在关键点尺度空间内4×4窗口中计算8个方向的梯度信息，共128维向量表征，即为关键点的描述子。具体步骤如下：

① 因划分的16个区域均为3σ_octv像素，则其半边长为2×3σ_octv，根据线性插值法，将半边长设为(4+1)×3σ_octv/2。考虑到旋转因素，实际计算区域半径为：

② 坐标轴旋转至关键点方向。

③ 计算三维坐标与邻域空间的距离，按距离的倒数求权重，并将梯度幅值按权重分配到邻域空间中。

④ 将128维向量归一化。同时，描述子按对应的高斯金字塔尺度大小排序。

5）特征向量匹配

采用最近邻距离法匹配特征向量。根据采样点与两个邻域点的特征向量，计算两者的欧氏距离之比，并同设定的阈值0.6进行比较。若比值小于该阈值，则认定特征向量匹配成功。

6）相似度计算

计算匹配成功的特征点个数占图像中总特征点个数的百分比，即为图像的相似度。

（2）对于不同维度的特征，如不同大小的特征图，先通过下采样或上采样使特征图尺寸一致，再通过方法（1）进行处理。其中，上采样使用双线性插值法：

首先在x方向进行线性插值，

，

，

然后在y方向进行线性插值，

也可以先在y方向进行线性插值，再在x方向进行线性插值，结果不变。其中，

，

，

，

，原图像的大小为

，目标图像的大小为

，其中

，

和

都是1。

特征相似度最后通过归一化处理得到0-1的范围数值，本实施例中归一化处理的方法为使用sigmoid函数

进行归一化。

其中所述各奖励项还对应其奖励值。

r(q)={(优,+1),(差,-3)}，表示当前动作选取的推荐影像质量优时奖励值为+1，当前动作选取的推荐影像质量差时奖励值为-1。

r(c)={(大,+2),(小,-1)}，表示当前动作选取的推荐影像对未覆盖的目标区域的覆盖率大于等于覆盖率阈值时奖励值为+1，当前动作选取的推荐影像对未覆盖的目标区域的覆盖率小于覆盖率阈值时奖励值为-1。

r(t)={(相近,+1),(不相近,-1)}，表示当前动作选取的推荐影像与其余的已选取的推荐影像的时相相近时奖励值为+1，当前动作选取的推荐影像与其余的已选取的推荐影像的时相不相近时奖励值为-1。

上述固定奖励项能够确保系统推荐的方向为推荐高质量且时相相近的影像，并且目标为最大化覆盖目标区域。

其中，

为单张影像的特征与融合聚类特征的最大相似度，

为该单张影像的相似融合聚类特征对应的聚类程度值，

为奖励范围系数，其决定了用户反馈奖励的范围，

为惩罚系数，其决定了奖励中负奖励的占比。

在本实施例中，

设置为8，

设置为0.5，

与

均为归一化的数值，因此能够控制用户反馈奖励

的范围为

，为离散值。

通过上述方法能够获得根据具体的用户反馈进行动态调整且连续的用户反馈奖励值。使用该奖励对总奖励及回报函数进行更新并调整强化策略后，强化学习再次进行影像推荐，能够得到更符合用户当前偏好的推荐结果。

动作模块，用于构建强化学习的动作空间，动作空间中的动作为从推荐影像候选集中逐个选取推荐影像。

状态模块，用于构建强化学习的状态空间，状态空间由已选取的推荐影像和未覆盖的目标区域经向量化后构成，其中，未覆盖的目标区域为从初始目标区域上去除已选取的推荐影像所覆盖的区域后的区域。

其中，对推荐影像进行向量化的步骤为：将影像切分成不重叠的影像块，影像块的尺寸为

，将每个影像块向量化为列向量，得到长度为

的影像列向量，其中N为影像的通道数，将各个列向量按顺序进行拼接，得到整景影像的向量化格式。

于本发明一实施例中，通过构建DQN（深度Q网络）实现强化学习：

通过经验池存储训练DQN时产生的训练样本至经验池

，其中S为当前状态，S’为下一状态，A为动作，R为奖励。

所述DQN为基于马尔可夫决策过程进行建模得到，使用DQN算法进行神经网络权值参数的更新，根据

贪婪策略执行动作

，执行动作a_t后得到下一个状态s_t+1和即时回报r_t，并进行特征化

，将

放入经验池D。随机从经验池D采集一组数据

，设定

，利用梯度下降法，最小化损失函数

，其中r为奖励，利用DQN的网络参数以设定周期更替其对应的目标网络的网络参数。

需要说明的是，整体来说，DQN与Q学习的目标价值以及价值的更新方式都非常相似，主要的不同点在于，DQN相较于Q学习有三大重要的改进：

（1）引入深度学习中的神经网络，利用神经网络去拟合Q-learning中的Q表，解决了Q-learning中，当状态维数过高时产生的“维数灾难”问题。

（2）引入目标网络，利用延后更新的目标网络计算目标Q值，极大的提高了网络训练的稳定性和收敛性。

（3）引入经验回放机制，使得在进行网络更新时输入的数据符合独立同分布，打破了数据间的相关性。

对于本发明的遥感影像推荐系统，输入状态包括影像数据，状态维数很高，因而优先使用DQN完成Q值计算。

影像库模块，用于存储筛选影像集并对其进行更新。

于本发明一具体实施例中，每次迭代获得的筛选影像集都会存入影像库模块中，每次更新为直接使用新影像集扩充现有影像集。

特征提取模块，用于对筛选影像集中的影像进行前景和后景特征提取，得到筛选影像集中的前景特征和后景特征。

于本发明一实施例中，特征提取模块，包括：

前景特征提取单元，用于对筛选影像集中的影像进行前景特征提取，得到每张影像的前景特征，所述前景特征的提取方法为使用显著性检测网络获取影像的前景掩膜，对前景掩膜进行特征提取。

其中，显著性检测网络需要经过预训练，通过损失函数达到收敛：

其中，

为显著性检测网络的损失函数，i为训练图像的索引，j为显著性图的索引，L()为交叉熵损失函数计算，N为训练图片的数量，M为每张图像上的M个前景图，

为显著性检测网络的预测输出，

为真值预测结果。其中，交叉熵损失函数为：

后景特征提取单元，用于对筛选影像集中的影像进行后景特征提取，得到每张影像的后景特征。

于本发明一具体实施例中，使用HOG方法进行特征提取，步骤如下：

读取影像，创建高斯权值模板。将影像转换为灰度图。对灰度图像进行归一化大小之后，计算X方向和Y方向的梯度值。X方向使用[-1,0,1]模板；Y方向使用[-1,0,1]^T进行梯度值计算。然后计算细胞单元的梯度方向直方图。细胞大小是8×8像素大小的区间，采用无符号的方向，每个方向的幅度是20度。然后将细胞单元组合成区间单元，每个区间单元的大小是16×16像素。每个区间包含4个细胞单元，每个区间生成一个36柱的直方图。接着，用前面生成的高斯权值模板计算加权之后的区间梯度直方图。然后做区间归一化操作。这里采用L1-sqrt进行区间归一化操作。

计算完区间的梯度方向直方图之后，以步幅8像素的大小，从左到右，从上到下，在每个窗口中移动，最后将所有区间的梯度方向直方图连接成窗口的梯度直方图，将每个窗口产生的梯度方向直方图连接在一起，组成一个高维特征向量。

于本发明另一具体实施例中，通过预训练的卷积神经网络提取影像的特征向量，卷积神经网络结构为：3个卷积层、3个最大池化层、2个全连接层。预训练中需要对影像进行去雾操作并对样本通过旋转进行数据增强，以增强模型的泛化能力。

其中，由于一景遥感影像尺寸庞大，需要对影像按行和列进行固定步长滑动裁剪预处理，对裁剪后的影像分幅进行特征提取。

于本发明一实施例中，特征融合模块，包括：

融合单元，用于对筛选影像集中的每张影像的前景特征和后景特征进行特征融合，得到每张影像的融合特征。

本实施例中，特征融合的方法为通过构建特征融合网络实现，特征融合网络由六个卷积块构成，每个卷积块包括：一个卷积层、BatchNorm层、激活函数层和池化层，将前景特征和后景特征分别输入特征融合网络的前三个卷积块，对结果进行求和，将求和结果输入后三个卷积块，得到最终的融合特征。

，其中，

为聚类程度函数，

为第i类融合聚类特征，I为影像，

为影像I对应的第i类融合聚类特征的聚类程度值。

本实施例中使用的聚类程度函数为

，其中p为融合聚类特征质心，

为影像I对应的特征点，

为该聚类内第j个特征点，

为该聚类内第j个特征点到融合聚类特征质心的欧氏距离，该聚类内共有W个特征点。聚类程度值经过归一化得到，归一化方式为

，其中

为x的均值

为x的方差，

为归一化控制量。

通过前景和后景特征提取及融合，能够得到既能体现用户对影像全局特征的喜好也能体现用户对影像局部特征喜好的代表性特征。

用户反馈模块，用于获取用户对推荐影像集的用户反馈，基于用户反馈并结合推荐影像候选集得到筛选影像集或推荐结果。

于本发明一具体实施例中，所述用户反馈模块如图2所示，包括：

判定单元，用于接收用户的推荐请求并对其进行判定，所述用户的推荐请求为用户继续推荐请求或用户停止推荐请求，当推荐请求为用户继续推荐请求时跳转至影像筛选单元，当推荐请求为用户停止推荐请求时跳转至输出单元。

影像筛选单元，用于获取用户的影像筛选反馈，用户的影像筛选反馈为用户根据个人喜好从推荐影像集和推荐影像候选集中进行影像筛选，得到筛选影像集。

其中，第一停止推荐请求所输出的推荐结果为推荐影像集。其中，第二停止推荐请求的应用场景为用户仅需要在推荐影像集上替换少量影像即能够得到满足用户需求的所有影像，此时用户在推荐影像集上选取待替换的影像，并从推荐影像候选集中选取替换影像用于替换，用户反馈模块输出经替换后的推荐影像集作为推荐结果。

于本发明一具体实施例中，用户能够在推荐影像集上通过点选的方式，选择需要的影像和不需要的影像。用户可以主动选择需要的影像，默认剩余未选择的影像为不需要的影像，并进行反馈提交，或者主动选择不需要的影像，默认剩余未选择的影像为需要的影像。获得的筛选影像集临时存储至影像库模块。

于本发明另一具体实施例中，用户在推荐影像候选集中进行影像选取，获得的筛选影像集临时存储至影像库模块。

所述强化学习模块和所述用户反馈模块在执行时为迭代过程，直至接收到用户停止推荐请求，停止迭代，所述用户反馈模块输出推荐结果，其中，所述用户停止推荐请求由所述用户反馈模块输出得到。

需要说明的是，在所述强化学习模块和所述用户反馈模块进行迭代执行时，在某一次迭代的过程中，未接收到用户停止推荐请求，则指的是用户反馈模块在该次迭代中输出的是筛选影像集，并将该筛选影像集存入强化学习模块的影像库模块中，进而执行接下来的推荐流程。因此，可以理解的是，在执行过程中，用户反馈模块对某一次强化学习模块输出的推荐影像集的用户反馈的结果是用户停止推荐请求，则系统中的迭代过程停止，并由用户反馈模块输出推荐结果。

于本发明一具体实施例中，包括用户交互的整个系统的运行流程为：

用户输入查询条件，查询条件包括影像的元数据以及需要限定的目标区域，系统在遥感影像库中检索得到所有满足查询条件的与目标区域相交的影像，得到推荐影像候选集。基于推荐影像候选集，系统构建强化学习框架，其中，动作空间为从推荐影像候选集中逐张选取推荐影像，已选取的推荐影像和未覆盖的目标区域的向量形式构成状态空间，每次动作都会改变状态空间的大小。根据奖励项和回报函数决定影像选取的策略，选取完毕得到推荐影像集。用户通过系统界面能够得到所有推荐影像的信息，其中包括以列表的形式展示的每张推荐影像的缩略图和其基本信息以及在虚拟地球上展示每张推荐影像真实的地理覆盖区域和范围。用户可以通过点击按钮的方式选择是否结束推荐，若否，则可以通过点选列表中的项或虚拟地球上的影像来选取感兴趣影像集，确认后系统将感兴趣影像集临时存储于影像库中，并自动完成影像特征提取和特征融合，得到融合聚类特征和其对应的聚类程度值，系统根据融合聚类特征和其对应的聚类程度值更新用户反馈奖励项的奖励值，并重新开始新一轮的影像推荐，从影像候选集中逐张选取推荐影像。更新的奖励值能够改变影像选取的策略，使其反映用户的当前喜好。选取完毕后用户能再次进行反馈，迭代上述过程，直到用户认为当前的推荐影像已满足要求，则可通过点击结束推荐的按钮，得到最终的推荐影像集，完成整个系统流程。

请参阅图3，同时，本发明还提供一种基于强化学习的遥感影像推荐方法，所述方法应用于上述所述的任一系统中。

具体地，所述方法可以包括如下步骤：

S1 获取推荐影像候选集和初始目标区域，构建强化学习的动作空间、状态空间、奖励项和回报函数，通过动作空间中的动作从推荐影像候选集中逐个选取推荐影像，得到推荐影像集，其中，奖励项包括用户反馈奖励项。

S2 获取用户对推荐影像集的反馈，通过反馈结果从推荐影像集中获取筛选影像集。

S3 对筛选影像集中的影像进行前景和后景特征提取，得到每张影像的前景特征和后景特征，对每张影像的前景特征和后景特征进行特征融合，得到每张影像的融合特征，对融合特征进行聚类处理，得到融合聚类特征和其对应的聚类程度值。

S4 根据融合聚类特征和其对应的聚类程度值更新用户反馈奖励项的奖励值。

S5 通过用户反馈奖励更新回报函数，通过动作空间中的动作从推荐影像候选集中选取推荐影像。

S6 重复步骤S2-S5，直至获取用户的结束推荐请求，输出推荐结果。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。