CN108764006B

CN108764006B - 一种基于深度强化学习的sar图像目标检测方法

Info

Publication number: CN108764006B
Application number: CN201810111242.6A
Authority: CN
Inventors: 高飞; 岳振宇; 熊庆旭; 王俊; 孙进平
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-02-05
Filing date: 2018-02-05
Publication date: 2021-11-02
Anticipated expiration: 2038-02-05
Also published as: CN108764006A

Abstract

本发明涉及一种基于深度强化学习的SAR图像目标检测方法，包括以下步骤：S1：设置迭代次数，每次迭代过程中，对训练集中图像依次进行处理；S2：从训练集中输入图像，利用马尔科夫决策过程生成训练样本；S3：随机地选取一定数目的样本，采用梯度下降法对Q‑network进行训练，获取缩小后的观测区域的状态，生成下一个样本，直到满足预先设置的终止条件，该图像的处理过程结束；S4：返回步骤S2，继续从训练集中输入下一图像，直至所有图像处理结束，本次迭代过程结束；S5：继续下一次迭代过程，直至满足设置的迭代次数，Q‑network的网络参数确定；S6：通过已训练好的Q‑network，对测试集中的图像进行目标检测，输出检测结果。本发明在SAR图像目标检测上取得了良好的检测精度。

Description

一种基于深度强化学习的SAR图像目标检测方法

技术领域

本发明属于SAR图像处理领域，涉及一种基于深度强化学习的SAR图像目标检测方法。

背景技术

合成孔径雷达(Synthetic Aperture Radar，SAR)利用微波感知的主动式传感器，不受天气、光照等条件限制，可对感兴趣目标进行全天候、全天时的侦察，在军事及民用领域得到广泛应用。在SAR图像解译应用领域，自动目标识别(Automatic targetrecognition,ATR)一直是该领域的研究重点和热点。SAR图像目标检测是SAR图像自动目标识别的关键步骤，然而由于SAR成像机理较为复杂，目标由较少的散射点组成，而且图像中存在大量的噪声，增大了目标检测的难度。

SAR图像目标检测的本质是根据目标和杂波的散射特性的不同所表现的特征差异来完成目标检测。传统的SAR图像目标检测方法可以分为三类：基于单特征的方法，基于多特征的方法，基于先验的方法。基于单特征的方法通常使用恒虚警率(CFAR)算法对图像进行目标定位；基于多特征的方法通常融合几何结构、扩展分形、小波系数等来检测目标；基于先验的方法将成像参数、经纬度信息等先验知识加入检测流程。这些传统方法在一定程度上取得一定的效果，但是这些方法需要过多借助专家的经验才能较好地提取SAR图像目标的特征，因此限制了检测的精度。

随着深度学习理论的发展，卷积神经网络(CNN)模型开始应用于目标检测中，CNN模型不需要人为提取图像特征，而是利用卷积层等网络自动提取图像的相关特征，这在前期图像特征提取上省去了很大的人力物力。强化学习(RL)是一种重要的机器学习方法，它通过智能体与动态环境之间的交互进行决策，通过不断地尝试来积累经验，从而得到最优的策略，已成功地应用在了图像分割、边缘检测等计算机视觉领域中。基于深度学习与强化学习的优势，深度强化学习(DRL)将二者结合在一起，成为了当下的研究热点，因此目前迫切需要提出一种基于深度强化学习的SAR图像目标检测方法，进一步提升检测精度。

发明内容

本发明要解决的技术问题是：提供一种基于深度强化学习的SAR图像目标检测方法，利用马尔科夫决策过程(MDP)生成训练样本,采用梯度下降法对Q-network进行训练；最后通过训练好Q-network，对图像进行目标检测。获得较高的检测精度，具有良好的推广性。

本发明解决其技术问题所采用的技术方案为：一种基于深度强化学习的SAR图像目标检测方法，其训练过程包括以下几个步骤：

(1)设置一定的迭代次数，每次迭代的过程中，对训练集中图像依次进行处理；

(2)从训练集中输入图像，利用马尔科夫决策过程(MDP)生成训练样本，具体过程为：

定义状态空间S，动作空间A以及奖赏方程R。每一个检测步骤中，假设输入图像处于状态s∈S，从动作空间A中选择动作a，对输入图像进行检测操作，操作结束后图像状态转移为状态s'，根据奖赏函数R反馈一个用于评价本次操作的一个奖赏值r，其中，输入图像的状态s由特征向量与记忆向量组成，特征向量通过已训练好的卷积神经网络(CNN)模型提取，记忆向量中存储了在搜索目标的过程中最近执行的4个动作，CNN模型共包含7层，其中，Conv2D表示二维卷积层，MaxPooling2D表示降采样层，Flatten层将多维的输入一维化，输出层Softmax层采用Softmax分类器；

根据输入图像的状态s，利用ε贪心算法从动作空间A选择一个搜索动作a，缩小图像的观测区域，在ε贪心算法中，ε为预先设定好的数值，范围在[0,1]之间；每次选择时，首先生成一个范围在[0,1]之间的随机数，如果该随机数的范围在[0,ε]之间，就以均匀概率随机选取一个动作，如果该随机数的范围在[ε,1]之间，则根据深度神经网络Q-network选择奖赏最高的动作，Q-network由3层全连接层组成，每层所包含的神经元数目分别为1024,1024,6，Q-network的输入为图像的状态，输出层中6个神经元的激活值代表6种动作的奖赏，选择执行最高奖赏对应的动作，ε的初始值为1，迭代次数每增加一次，ε减小0.1，且减至0.1时不再减小；

动作空间A共包含6种不同的动作，分为两大类，移动动作和结束动作，其中，移动动作共有5种，分别将当前的搜索区域缩小为不同的子区域；结束动作表明当前搜索区域为目标区域，不需要执行移动动作，搜索过程结束；

利用奖赏函数R计算反馈奖赏r，奖赏函数R根据动作种类的不同，计算方法也不同。移动动作的奖赏函数为：

R_m＝sign(IoU(b',g)-IoU(b,g))

其中，R_m表示执行移动动作的奖赏值，下标m表示移动动作(movement action)，b'为执行移动动作之后的观测区域范围，b为执行移动动作之前的观测区域范围，g为目标所在的位置范围(ground truth)，sign为符号函数，IoU为检测评价函数，其计算方法为：检测结果与ground truth的交集与二者并集的比值，即检测准确率，如下式所示，

移动动作奖赏函数的意义为：如果决策使检测准确率提高，则奖赏为正，否则奖赏为负；结束动作的奖赏函数为：

其中，R_t表示结束动作的奖赏值，下标t表示结束动作(terminal action)，η的值为3，即设定的奖赏值，τ为设定的阈值，其数值为0.5，该奖赏函数的意义为：当终止检测过程时，如果检测准确率不小于设定的阈值τ，则奖赏为正，否则奖赏为负；

初始化样本容量为1000的经验池，将本次决策生成的样本(s,a,r,s')存入经验池中，其中，a为执行的动作，s为执行动作a之前的状态，s'为执行动作a之后的状态，r为状态转移过程中获取的奖赏，当经验池存满时，新样本将随机地替换已存样本，经验池可以解决由相邻样本间的连续性造成的Q-network训练过程中的效率低和不稳定等问题；

(3)随机地选取一定数目的样本，采用梯度下降法对Q-network进行训练，获取缩小后的观测区域的状态，生成下一个样本，直到满足预先设置的终止条件，该图像的处理过程结束，具体过程为：

首先，从经验池中随机的抽取100个样本X＝{x|x＝(s,a,r,s')}，将执行动作a之前的状态s作为Q-network的输入，定义损失函数：

其中，Q(s,a,ω)为网络的实际输出，

为网络的期望输出，r为当前的奖赏值，

为下次决策奖赏的最大值，γ为折扣系数，其数值为0.9。网络参数ω关于损失函数的梯度为：

随后，采用随机梯度下降法更新网络的参数ω，对Q-network进行训练；

最后，获取缩小后的观测区域的状态，继续生成下一个样本，直到该图像生成的样本数目超过5个或者ε贪心策略选择结束动作时，该图像的处理过程结束；

(4)返回步骤S2，继续从训练集中输入下一图像，直至所有图像处理结束，本次迭代过程结束；

(5)继续下一次迭代过程，直至满足设置的迭代次数，训练过程结束，Q-network的网络参数确定；

其测试过程为，通过已训练好的神经网络Q-network，对测试集中的图像进行目标检测，输出检测结果，具体过程为：

首先，从测试集中输入图像，利用已训练好的CNN模型提取图像的特征，得到特征向量；初始化记忆向量，并将特征向量与记忆向量组合成为输入图像的状态s；随后，将状态s作为Q-network的输入，并根据其输出选择动作a，缩小目标所在的范围；最后，获取缩小后的观测区域的状态，并根据Q-network选择动作，进一步缩小目标所在的范围，直到根据Q-network的输出选择结束动作或者循环次数超过5次时，检测过程结束，目标位置确定，输出检测结果。

本发明的原理是：利用深度强化学习对SAR图像目标检测问题进行建模；深度强化学习将深度学习与强化学习结合在一起，深度学习的特点是自动特征提取，强化学习的特点是学习环境-动作的最佳映射，使得系统选择的动作在当前的环境中可以得到最多的累计奖赏；利用深度学习提取输入图像的特征，通过强化学习更高效地训练深度神经网络，从而完成目标检测。

本发明与现有技术相比的优点在于：本发明不需要人为提取图像特征，而是利用卷积层等网络自动提取图像的相关特征，在前期图像特征提取上省去了很大的人力物力；基于CNN的图像特征提取方法对目标与背景的对比度要求不高，有助于提高检测精度；本发明将深度学习与强化学习结合在一起，通过不断地尝试来积累经验，从而得到最优的目标检测策略，提高了目标检测的精度。

附图说明

图1为基于深度强化学习的SAR图像目标检测方法的流程图，其中：图1(a)为训练过程流程图，图1(b)为测试过程流程图。

图2为基于马尔科夫决策过程的样本生成过程图。

图3为本发明采用的CNN模型结构图。

图4为移动动作与结束动作示意图。

图5为对实例进行目标检测的过程图，其中：图5(a)为输入图像，图5(b)-图5(e)为目标检测过程，图5(f)为目标检测结果。

具体实施方式

下面结合附图及具体实施方式详细介绍本发明。

如图1所示，本发明的基于深度强化学习的SAR图像目标检测方法的具体实施步骤如下。

(2)从训练集中输入图像，利用马尔科夫决策过程(MDP)生成训练样本，过程具体为：如图2所示，定义状态空间S，动作空间A以及奖赏方程R。每一个检测步骤中，假设输入图像处于状态s∈S，从动作空间A中选择动作a，对输入图像进行检测操作，操作结束后图像状态转移为状态s'，根据奖赏函数R反馈一个用于评价本次操作的一个奖赏值r。

其中，输入图像的状态s由特征向量与记忆向量组成，特征向量通过已训练好的卷积神经网络(CNN)模型提取，记忆向量中存储了在搜索目标的过程中最近执行的4个动作。如图3所示，CNN模型共包含7层，其中，Conv2D表示二维卷积层，MaxPool ing2D表示降采样层，Flatten层将多维的输入一维化，输出层Softmax层采用Softmax分类器。

根据输入图像的状态s，利用ε贪心算法从动作空间A选择一个搜索动作a，缩小图像的观测区域。在ε贪心算法中，ε为预先设定好的数值，范围在[0,1]之间；每次选择时，首先生成一个范围在[0,1]之间的随机数，如果该随机数的范围在[0,ε]之间，就以均匀概率随机选取一个动作，如果该随机数的范围在[ε,1]之间，则根据深度神经网络Q-network选择奖赏最高的动作。Q-network由3层全连接层组成，每层所包含的神经元数目分别为1024,1024,6，Q-network的输入为图像的状态，输出层中6个神经元的激活值代表6种动作的奖赏，选择执行最高奖赏对应的动作。ε的初始值为1，迭代次数每增加一次，ε减小0.1，且减至0.1时不再减小。

动作空间A共包含6种不同的动作，分为两大类，移动动作和结束动作。其中，移动动作共有5种，分别将当前的搜索区域缩小为不同的子区域，如图4中动作1—动作5所示，白色矩形的区域为执行该动作后的搜索区域，5个子区域互相重叠，大小为原区域的3/4；结束动作表明当前搜索区域为目标区域，不需要执行移动动作，搜索过程结束，如图4中动作6所示。

R_m＝sign(IoU(b',g)-IoU(b,g))

其中，R_m表示执行移动动作的奖赏值，下标m表示移动动作(movement action)，b'为执行移动动作之后的观测区域范围，b为执行移动动作之前的观测区域范围，g为目标所在的位置范围(ground truth)，sign为符号函数，IoU为检测评价函数，其计算方法为：检测结果与ground truth的交集与二者并集的比值，即检测准确率，如下式所示。移动动作奖赏函数的意义为：如果决策使检测准确率提高，则奖赏为正，否则奖赏为负。

结束动作的奖赏函数为：

其中，R_t表示结束动作的奖赏值，下标t表示结束动作(terminal action)，η的值为3，即设定的奖赏值，τ为设定的阈值，其数值为0.5。该奖赏函数的意义为：当终止检测过程时，如果检测准确率不小于设定的阈值τ，则奖赏为正，否则奖赏为负。

初始化样本容量为1000的经验池，将本次决策生成的样本(s,a,r,s')存入经验池中，其中，a为执行的动作，s为执行动作a之前的状态，s'为执行动作a之后的状态，r为状态转移过程中获取的奖赏。当经验池存满时，新样本将随机地替换已存样本。经验池可以解决由相邻样本间的连续性造成的Q-network训练过程中的效率低和不稳定等问题。

(3)随机地选取一定数目的样本，采用梯度下降法对Q-network进行训练，获取缩小后的观测区域的状态，生成下一个样本，直到满足预先设置的终止条件，该图像的处理过程结束，过程具体为：首先，从经验池中随机的抽取100个样本X＝{x|x＝(s,a,r,s')}，将执行动作a之前的状态s作为Q-network的输入，定义损失函数：

其中，Q(s,a,ω)为网络的实际输出，

为网络的期望输出，r为当前的奖赏值，

随后，采用随机梯度下降法更新网络的参数ω，对Q-network进行训练。

最后，获取缩小后的观测区域的状态，继续生成下一个样本，直到该图像生成的样本数目超过5个或者ε贪心策略选择结束动作时，该图像的处理过程结束。

(6)通过已训练好的神经网络Q-network，对测试集中的图像进行目标检测，输出检测结果，过程具体为：首先，从测试集中输入图像，利用已训练好的CNN模型提取图像的特征，得到特征向量；初始化记忆向量，并将特征向量与记忆向量组合成为输入图像的状态s。随后，将状态s作为Q-network的输入，并根据其输出选择动作a，缩小目标所在的范围；最后，获取缩小后的观测区域的状态，并根据Q-network选择动作，进一步缩小目标所在的范围，直到根据Q-network的输出选择结束动作或者循环次数超过5次时，检测过程结束，目标位置确定，输出检测结果。

图5中(a)为输入图像，(b)-(e)为目标检测过程，(f)为目标检测结果。可以看出，在检测的过程中，包含目标的范围区域不断缩小，直到确定目标位置。

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

尽管为说明目的公开了本发明的最佳实施例和附图，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。因此，本发明所保护的技术方案不应局限于最佳实施例和附图所公开的内容。

Claims

1.一种基于深度强化学习的SAR图像目标检测方法，其特征在于，其训练过程包括以下几个步骤：

定义状态空间S，动作空间A以及奖赏方程R，每一个检测步骤中，假设输入图像处于状态s∈S，从动作空间A中选择动作a，对输入图像进行检测操作，操作结束后图像状态转移为状态s'，根据奖赏函数R反馈一个用于评价本次操作的一个奖赏值r，其中，输入图像的状态s由特征向量与记忆向量组成，特征向量通过已训练好的卷积神经网络(CNN)模型提取，记忆向量中存储了在搜索目标的过程中最近执行的4个动作，CNN模型共包含7层，其中，Conv2D表示二维卷积层，MaxPooling2D表示降采样层，Flatten层将多维的输入一维化，输出层Softmax层采用Softmax分类器；

动作空间A共包含6种不同的动作，分为两大类，移动动作和结束动作，其中，移动动作共有5种，分别将当前的搜索区域缩小为不同的子区域，结束动作表明当前搜索区域为目标区域，不需要执行移动动作，搜索过程结束；

利用奖赏函数R计算反馈奖赏r，奖赏函数R根据动作种类的不同，计算方法也不同，移动动作的奖赏函数为：

R_m＝sign(IoU(b',g)-IoU(b,g))

其中，R_m表示执行移动动作的奖赏值，下标m表示移动动作(movement action)，b'为执行移动动作之后的观测区域范围，b为执行移动动作之前的观测区域范围，g为目标所在的位置范围，sign为符号函数，IoU为检测评价函数，其计算方法为：执行移动动作之前的观测区域范围与位置范围的交集与二者并集的比值，即检测准确率，如下式所示，

初始化样本容量为1000的经验池，将本次决策生成的样本(s,a,r,s')存入经验池中，其中，a为执行的动作，s为执行动作a之前的状态，s'为执行动作a之后的状态，r为状态转移过程中获取的奖赏，当经验池存满时，新样本将随机地替换已存样本，经验池可以解决由相邻样本间的连续性造成的Q-network训练过程中的效率低和不稳定问题；

其中，Q(s,a,ω)为网络的实际输出，

为网络的期望输出，r为当前的奖赏值，

为下次决策奖赏的最大值，γ为折扣系数，其数值为0.9，网络参数ω关于损失函数的梯度为：