CN108764006B - 一种基于深度强化学习的sar图像目标检测方法 - Google Patents

一种基于深度强化学习的sar图像目标检测方法 Download PDF

Info

Publication number
CN108764006B
CN108764006B CN201810111242.6A CN201810111242A CN108764006B CN 108764006 B CN108764006 B CN 108764006B CN 201810111242 A CN201810111242 A CN 201810111242A CN 108764006 B CN108764006 B CN 108764006B
Authority
CN
China
Prior art keywords
action
network
reward
state
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810111242.6A
Other languages
English (en)
Other versions
CN108764006A (zh
Inventor
高飞
岳振宇
熊庆旭
王俊
孙进平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201810111242.6A priority Critical patent/CN108764006B/zh
Publication of CN108764006A publication Critical patent/CN108764006A/zh
Application granted granted Critical
Publication of CN108764006B publication Critical patent/CN108764006B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明涉及一种基于深度强化学习的SAR图像目标检测方法,包括以下步骤:S1:设置迭代次数,每次迭代过程中,对训练集中图像依次进行处理;S2:从训练集中输入图像,利用马尔科夫决策过程生成训练样本;S3:随机地选取一定数目的样本,采用梯度下降法对Q‑network进行训练,获取缩小后的观测区域的状态,生成下一个样本,直到满足预先设置的终止条件,该图像的处理过程结束;S4:返回步骤S2,继续从训练集中输入下一图像,直至所有图像处理结束,本次迭代过程结束;S5:继续下一次迭代过程,直至满足设置的迭代次数,Q‑network的网络参数确定;S6:通过已训练好的Q‑network,对测试集中的图像进行目标检测,输出检测结果。本发明在SAR图像目标检测上取得了良好的检测精度。

Description

一种基于深度强化学习的SAR图像目标检测方法
技术领域
本发明属于SAR图像处理领域,涉及一种基于深度强化学习的SAR图像目标检测方法。
背景技术
合成孔径雷达(Synthetic Aperture Radar,SAR)利用微波感知的主动式传感器,不受天气、光照等条件限制,可对感兴趣目标进行全天候、全天时的侦察,在军事及民用领域得到广泛应用。在SAR图像解译应用领域,自动目标识别(Automatic targetrecognition,ATR)一直是该领域的研究重点和热点。SAR图像目标检测是SAR图像自动目标识别的关键步骤,然而由于SAR成像机理较为复杂,目标由较少的散射点组成,而且图像中存在大量的噪声,增大了目标检测的难度。
SAR图像目标检测的本质是根据目标和杂波的散射特性的不同所表现的特征差异来完成目标检测。传统的SAR图像目标检测方法可以分为三类:基于单特征的方法,基于多特征的方法,基于先验的方法。基于单特征的方法通常使用恒虚警率(CFAR)算法对图像进行目标定位;基于多特征的方法通常融合几何结构、扩展分形、小波系数等来检测目标;基于先验的方法将成像参数、经纬度信息等先验知识加入检测流程。这些传统方法在一定程度上取得一定的效果,但是这些方法需要过多借助专家的经验才能较好地提取SAR图像目标的特征,因此限制了检测的精度。
随着深度学习理论的发展,卷积神经网络(CNN)模型开始应用于目标检测中,CNN模型不需要人为提取图像特征,而是利用卷积层等网络自动提取图像的相关特征,这在前期图像特征提取上省去了很大的人力物力。强化学习(RL)是一种重要的机器学习方法,它通过智能体与动态环境之间的交互进行决策,通过不断地尝试来积累经验,从而得到最优的策略,已成功地应用在了图像分割、边缘检测等计算机视觉领域中。基于深度学习与强化学习的优势,深度强化学习(DRL)将二者结合在一起,成为了当下的研究热点,因此目前迫切需要提出一种基于深度强化学习的SAR图像目标检测方法,进一步提升检测精度。
发明内容
本发明要解决的技术问题是:提供一种基于深度强化学习的SAR图像目标检测方法,利用马尔科夫决策过程(MDP)生成训练样本,采用梯度下降法对Q-network进行训练;最后通过训练好Q-network,对图像进行目标检测。获得较高的检测精度,具有良好的推广性。
本发明解决其技术问题所采用的技术方案为:一种基于深度强化学习的SAR图像目标检测方法,其训练过程包括以下几个步骤:
(1)设置一定的迭代次数,每次迭代的过程中,对训练集中图像依次进行处理;
(2)从训练集中输入图像,利用马尔科夫决策过程(MDP)生成训练样本,具体过程为:
定义状态空间S,动作空间A以及奖赏方程R。每一个检测步骤中,假设输入图像处于状态s∈S,从动作空间A中选择动作a,对输入图像进行检测操作,操作结束后图像状态转移为状态s',根据奖赏函数R反馈一个用于评价本次操作的一个奖赏值r,其中,输入图像的状态s由特征向量与记忆向量组成,特征向量通过已训练好的卷积神经网络(CNN)模型提取,记忆向量中存储了在搜索目标的过程中最近执行的4个动作,CNN模型共包含7层,其中,Conv2D表示二维卷积层,MaxPooling2D表示降采样层,Flatten层将多维的输入一维化,输出层Softmax层采用Softmax分类器;
根据输入图像的状态s,利用ε贪心算法从动作空间A选择一个搜索动作a,缩小图像的观测区域,在ε贪心算法中,ε为预先设定好的数值,范围在[0,1]之间;每次选择时,首先生成一个范围在[0,1]之间的随机数,如果该随机数的范围在[0,ε]之间,就以均匀概率随机选取一个动作,如果该随机数的范围在[ε,1]之间,则根据深度神经网络Q-network选择奖赏最高的动作,Q-network由3层全连接层组成,每层所包含的神经元数目分别为1024,1024,6,Q-network的输入为图像的状态,输出层中6个神经元的激活值代表6种动作的奖赏,选择执行最高奖赏对应的动作,ε的初始值为1,迭代次数每增加一次,ε减小0.1,且减至0.1时不再减小;
动作空间A共包含6种不同的动作,分为两大类,移动动作和结束动作,其中,移动动作共有5种,分别将当前的搜索区域缩小为不同的子区域;结束动作表明当前搜索区域为目标区域,不需要执行移动动作,搜索过程结束;
利用奖赏函数R计算反馈奖赏r,奖赏函数R根据动作种类的不同,计算方法也不同。移动动作的奖赏函数为:
Rm=sign(IoU(b',g)-IoU(b,g))
其中,Rm表示执行移动动作的奖赏值,下标m表示移动动作(movement action),b'为执行移动动作之后的观测区域范围,b为执行移动动作之前的观测区域范围,g为目标所在的位置范围(ground truth),sign为符号函数,IoU为检测评价函数,其计算方法为:检测结果与ground truth的交集与二者并集的比值,即检测准确率,如下式所示,
Figure BDA0001569246680000031
移动动作奖赏函数的意义为:如果决策使检测准确率提高,则奖赏为正,否则奖赏为负;结束动作的奖赏函数为:
Figure BDA0001569246680000032
其中,Rt表示结束动作的奖赏值,下标t表示结束动作(terminal action),η的值为3,即设定的奖赏值,τ为设定的阈值,其数值为0.5,该奖赏函数的意义为:当终止检测过程时,如果检测准确率不小于设定的阈值τ,则奖赏为正,否则奖赏为负;
初始化样本容量为1000的经验池,将本次决策生成的样本(s,a,r,s')存入经验池中,其中,a为执行的动作,s为执行动作a之前的状态,s'为执行动作a之后的状态,r为状态转移过程中获取的奖赏,当经验池存满时,新样本将随机地替换已存样本,经验池可以解决由相邻样本间的连续性造成的Q-network训练过程中的效率低和不稳定等问题;
(3)随机地选取一定数目的样本,采用梯度下降法对Q-network进行训练,获取缩小后的观测区域的状态,生成下一个样本,直到满足预先设置的终止条件,该图像的处理过程结束,具体过程为:
首先,从经验池中随机的抽取100个样本X={x|x=(s,a,r,s')},将执行动作a之前的状态s作为Q-network的输入,定义损失函数:
Figure BDA0001569246680000033
其中,Q(s,a,ω)为网络的实际输出,
Figure BDA0001569246680000034
为网络的期望输出,r为当前的奖赏值,
Figure BDA0001569246680000035
为下次决策奖赏的最大值,γ为折扣系数,其数值为0.9。网络参数ω关于损失函数的梯度为:
Figure BDA0001569246680000036
随后,采用随机梯度下降法更新网络的参数ω,对Q-network进行训练;
最后,获取缩小后的观测区域的状态,继续生成下一个样本,直到该图像生成的样本数目超过5个或者ε贪心策略选择结束动作时,该图像的处理过程结束;
(4)返回步骤S2,继续从训练集中输入下一图像,直至所有图像处理结束,本次迭代过程结束;
(5)继续下一次迭代过程,直至满足设置的迭代次数,训练过程结束,Q-network的网络参数确定;
其测试过程为,通过已训练好的神经网络Q-network,对测试集中的图像进行目标检测,输出检测结果,具体过程为:
首先,从测试集中输入图像,利用已训练好的CNN模型提取图像的特征,得到特征向量;初始化记忆向量,并将特征向量与记忆向量组合成为输入图像的状态s;随后,将状态s作为Q-network的输入,并根据其输出选择动作a,缩小目标所在的范围;最后,获取缩小后的观测区域的状态,并根据Q-network选择动作,进一步缩小目标所在的范围,直到根据Q-network的输出选择结束动作或者循环次数超过5次时,检测过程结束,目标位置确定,输出检测结果。
本发明的原理是:利用深度强化学习对SAR图像目标检测问题进行建模;深度强化学习将深度学习与强化学习结合在一起,深度学习的特点是自动特征提取,强化学习的特点是学习环境-动作的最佳映射,使得系统选择的动作在当前的环境中可以得到最多的累计奖赏;利用深度学习提取输入图像的特征,通过强化学习更高效地训练深度神经网络,从而完成目标检测。
本发明与现有技术相比的优点在于:本发明不需要人为提取图像特征,而是利用卷积层等网络自动提取图像的相关特征,在前期图像特征提取上省去了很大的人力物力;基于CNN的图像特征提取方法对目标与背景的对比度要求不高,有助于提高检测精度;本发明将深度学习与强化学习结合在一起,通过不断地尝试来积累经验,从而得到最优的目标检测策略,提高了目标检测的精度。
附图说明
图1为基于深度强化学习的SAR图像目标检测方法的流程图,其中:图1(a)为训练过程流程图,图1(b)为测试过程流程图。
图2为基于马尔科夫决策过程的样本生成过程图。
图3为本发明采用的CNN模型结构图。
图4为移动动作与结束动作示意图。
图5为对实例进行目标检测的过程图,其中:图5(a)为输入图像,图5(b)-图5(e)为目标检测过程,图5(f)为目标检测结果。
具体实施方式
下面结合附图及具体实施方式详细介绍本发明。
如图1所示,本发明的基于深度强化学习的SAR图像目标检测方法的具体实施步骤如下。
(1)设置一定的迭代次数,每次迭代的过程中,对训练集中图像依次进行处理;
(2)从训练集中输入图像,利用马尔科夫决策过程(MDP)生成训练样本,过程具体为:如图2所示,定义状态空间S,动作空间A以及奖赏方程R。每一个检测步骤中,假设输入图像处于状态s∈S,从动作空间A中选择动作a,对输入图像进行检测操作,操作结束后图像状态转移为状态s',根据奖赏函数R反馈一个用于评价本次操作的一个奖赏值r。
其中,输入图像的状态s由特征向量与记忆向量组成,特征向量通过已训练好的卷积神经网络(CNN)模型提取,记忆向量中存储了在搜索目标的过程中最近执行的4个动作。如图3所示,CNN模型共包含7层,其中,Conv2D表示二维卷积层,MaxPool ing2D表示降采样层,Flatten层将多维的输入一维化,输出层Softmax层采用Softmax分类器。
根据输入图像的状态s,利用ε贪心算法从动作空间A选择一个搜索动作a,缩小图像的观测区域。在ε贪心算法中,ε为预先设定好的数值,范围在[0,1]之间;每次选择时,首先生成一个范围在[0,1]之间的随机数,如果该随机数的范围在[0,ε]之间,就以均匀概率随机选取一个动作,如果该随机数的范围在[ε,1]之间,则根据深度神经网络Q-network选择奖赏最高的动作。Q-network由3层全连接层组成,每层所包含的神经元数目分别为1024,1024,6,Q-network的输入为图像的状态,输出层中6个神经元的激活值代表6种动作的奖赏,选择执行最高奖赏对应的动作。ε的初始值为1,迭代次数每增加一次,ε减小0.1,且减至0.1时不再减小。
动作空间A共包含6种不同的动作,分为两大类,移动动作和结束动作。其中,移动动作共有5种,分别将当前的搜索区域缩小为不同的子区域,如图4中动作1—动作5所示,白色矩形的区域为执行该动作后的搜索区域,5个子区域互相重叠,大小为原区域的3/4;结束动作表明当前搜索区域为目标区域,不需要执行移动动作,搜索过程结束,如图4中动作6所示。
利用奖赏函数R计算反馈奖赏r,奖赏函数R根据动作种类的不同,计算方法也不同。移动动作的奖赏函数为:
Rm=sign(IoU(b',g)-IoU(b,g))
其中,Rm表示执行移动动作的奖赏值,下标m表示移动动作(movement action),b'为执行移动动作之后的观测区域范围,b为执行移动动作之前的观测区域范围,g为目标所在的位置范围(ground truth),sign为符号函数,IoU为检测评价函数,其计算方法为:检测结果与ground truth的交集与二者并集的比值,即检测准确率,如下式所示。移动动作奖赏函数的意义为:如果决策使检测准确率提高,则奖赏为正,否则奖赏为负。
Figure BDA0001569246680000061
结束动作的奖赏函数为:
Figure BDA0001569246680000062
其中,Rt表示结束动作的奖赏值,下标t表示结束动作(terminal action),η的值为3,即设定的奖赏值,τ为设定的阈值,其数值为0.5。该奖赏函数的意义为:当终止检测过程时,如果检测准确率不小于设定的阈值τ,则奖赏为正,否则奖赏为负。
初始化样本容量为1000的经验池,将本次决策生成的样本(s,a,r,s')存入经验池中,其中,a为执行的动作,s为执行动作a之前的状态,s'为执行动作a之后的状态,r为状态转移过程中获取的奖赏。当经验池存满时,新样本将随机地替换已存样本。经验池可以解决由相邻样本间的连续性造成的Q-network训练过程中的效率低和不稳定等问题。
(3)随机地选取一定数目的样本,采用梯度下降法对Q-network进行训练,获取缩小后的观测区域的状态,生成下一个样本,直到满足预先设置的终止条件,该图像的处理过程结束,过程具体为:首先,从经验池中随机的抽取100个样本X={x|x=(s,a,r,s')},将执行动作a之前的状态s作为Q-network的输入,定义损失函数:
Figure BDA0001569246680000063
其中,Q(s,a,ω)为网络的实际输出,
Figure BDA0001569246680000064
为网络的期望输出,r为当前的奖赏值,
Figure BDA0001569246680000065
为下次决策奖赏的最大值,γ为折扣系数,其数值为0.9。网络参数ω关于损失函数的梯度为:
Figure BDA0001569246680000071
随后,采用随机梯度下降法更新网络的参数ω,对Q-network进行训练。
最后,获取缩小后的观测区域的状态,继续生成下一个样本,直到该图像生成的样本数目超过5个或者ε贪心策略选择结束动作时,该图像的处理过程结束。
(4)返回步骤S2,继续从训练集中输入下一图像,直至所有图像处理结束,本次迭代过程结束;
(5)继续下一次迭代过程,直至满足设置的迭代次数,训练过程结束,Q-network的网络参数确定;
(6)通过已训练好的神经网络Q-network,对测试集中的图像进行目标检测,输出检测结果,过程具体为:首先,从测试集中输入图像,利用已训练好的CNN模型提取图像的特征,得到特征向量;初始化记忆向量,并将特征向量与记忆向量组合成为输入图像的状态s。随后,将状态s作为Q-network的输入,并根据其输出选择动作a,缩小目标所在的范围;最后,获取缩小后的观测区域的状态,并根据Q-network选择动作,进一步缩小目标所在的范围,直到根据Q-network的输出选择结束动作或者循环次数超过5次时,检测过程结束,目标位置确定,输出检测结果。
图5中(a)为输入图像,(b)-(e)为目标检测过程,(f)为目标检测结果。可以看出,在检测的过程中,包含目标的范围区域不断缩小,直到确定目标位置。
本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
尽管为说明目的公开了本发明的最佳实施例和附图,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明所保护的技术方案不应局限于最佳实施例和附图所公开的内容。

Claims (1)

1.一种基于深度强化学习的SAR图像目标检测方法,其特征在于,其训练过程包括以下几个步骤:
(1)设置一定的迭代次数,每次迭代的过程中,对训练集中图像依次进行处理;
(2)从训练集中输入图像,利用马尔科夫决策过程(MDP)生成训练样本,具体过程为:
定义状态空间S,动作空间A以及奖赏方程R,每一个检测步骤中,假设输入图像处于状态s∈S,从动作空间A中选择动作a,对输入图像进行检测操作,操作结束后图像状态转移为状态s',根据奖赏函数R反馈一个用于评价本次操作的一个奖赏值r,其中,输入图像的状态s由特征向量与记忆向量组成,特征向量通过已训练好的卷积神经网络(CNN)模型提取,记忆向量中存储了在搜索目标的过程中最近执行的4个动作,CNN模型共包含7层,其中,Conv2D表示二维卷积层,MaxPooling2D表示降采样层,Flatten层将多维的输入一维化,输出层Softmax层采用Softmax分类器;
根据输入图像的状态s,利用ε贪心算法从动作空间A选择一个搜索动作a,缩小图像的观测区域,在ε贪心算法中,ε为预先设定好的数值,范围在[0,1]之间;每次选择时,首先生成一个范围在[0,1]之间的随机数,如果该随机数的范围在[0,ε]之间,就以均匀概率随机选取一个动作,如果该随机数的范围在[ε,1]之间,则根据深度神经网络Q-network选择奖赏最高的动作,Q-network由3层全连接层组成,每层所包含的神经元数目分别为1024,1024,6,Q-network的输入为图像的状态,输出层中6个神经元的激活值代表6种动作的奖赏,选择执行最高奖赏对应的动作,ε的初始值为1,迭代次数每增加一次,ε减小0.1,且减至0.1时不再减小;
动作空间A共包含6种不同的动作,分为两大类,移动动作和结束动作,其中,移动动作共有5种,分别将当前的搜索区域缩小为不同的子区域,结束动作表明当前搜索区域为目标区域,不需要执行移动动作,搜索过程结束;
利用奖赏函数R计算反馈奖赏r,奖赏函数R根据动作种类的不同,计算方法也不同,移动动作的奖赏函数为:
Rm=sign(IoU(b',g)-IoU(b,g))
其中,Rm表示执行移动动作的奖赏值,下标m表示移动动作(movement action),b'为执行移动动作之后的观测区域范围,b为执行移动动作之前的观测区域范围,g为目标所在的位置范围,sign为符号函数,IoU为检测评价函数,其计算方法为:执行移动动作之前的观测区域范围与位置范围的交集与二者并集的比值,即检测准确率,如下式所示,
Figure FDA0003162996640000021
移动动作奖赏函数的意义为:如果决策使检测准确率提高,则奖赏为正,否则奖赏为负;结束动作的奖赏函数为:
Figure FDA0003162996640000022
其中,Rt表示结束动作的奖赏值,下标t表示结束动作(terminal action),η的值为3,即设定的奖赏值,τ为设定的阈值,其数值为0.5,该奖赏函数的意义为:当终止检测过程时,如果检测准确率不小于设定的阈值τ,则奖赏为正,否则奖赏为负;
初始化样本容量为1000的经验池,将本次决策生成的样本(s,a,r,s')存入经验池中,其中,a为执行的动作,s为执行动作a之前的状态,s'为执行动作a之后的状态,r为状态转移过程中获取的奖赏,当经验池存满时,新样本将随机地替换已存样本,经验池可以解决由相邻样本间的连续性造成的Q-network训练过程中的效率低和不稳定问题;
(3)随机地选取一定数目的样本,采用梯度下降法对Q-network进行训练,获取缩小后的观测区域的状态,生成下一个样本,直到满足预先设置的终止条件,该图像的处理过程结束,具体过程为:
首先,从经验池中随机的抽取100个样本X={x|x=(s,a,r,s')},将执行动作a之前的状态s作为Q-network的输入,定义损失函数:
Figure FDA0003162996640000023
其中,Q(s,a,ω)为网络的实际输出,
Figure FDA0003162996640000024
为网络的期望输出,r为当前的奖赏值,
Figure FDA0003162996640000025
为下次决策奖赏的最大值,γ为折扣系数,其数值为0.9,网络参数ω关于损失函数的梯度为:
Figure FDA0003162996640000026
随后,采用随机梯度下降法更新网络的参数ω,对Q-network进行训练;
最后,获取缩小后的观测区域的状态,继续生成下一个样本,直到该图像生成的样本数目超过5个或者ε贪心策略选择结束动作时,该图像的处理过程结束;
(4)返回步骤S2,继续从训练集中输入下一图像,直至所有图像处理结束,本次迭代过程结束;
(5)继续下一次迭代过程,直至满足设置的迭代次数,训练过程结束,Q-network的网络参数确定;
其测试过程为,通过已训练好的神经网络Q-network,对测试集中的图像进行目标检测,输出检测结果,具体过程为:
首先,从测试集中输入图像,利用已训练好的CNN模型提取图像的特征,得到特征向量;初始化记忆向量,并将特征向量与记忆向量组合成为输入图像的状态s;随后,将状态s作为Q-network的输入,并根据其输出选择动作a,缩小目标所在的范围;最后,获取缩小后的观测区域的状态,并根据Q-network选择动作,进一步缩小目标所在的范围,直到根据Q-network的输出选择结束动作或者循环次数超过5次时,检测过程结束,目标位置确定,输出检测结果。
CN201810111242.6A 2018-02-05 2018-02-05 一种基于深度强化学习的sar图像目标检测方法 Active CN108764006B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810111242.6A CN108764006B (zh) 2018-02-05 2018-02-05 一种基于深度强化学习的sar图像目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810111242.6A CN108764006B (zh) 2018-02-05 2018-02-05 一种基于深度强化学习的sar图像目标检测方法

Publications (2)

Publication Number Publication Date
CN108764006A CN108764006A (zh) 2018-11-06
CN108764006B true CN108764006B (zh) 2021-11-02

Family

ID=63980063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810111242.6A Active CN108764006B (zh) 2018-02-05 2018-02-05 一种基于深度强化学习的sar图像目标检测方法

Country Status (1)

Country Link
CN (1) CN108764006B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109682392B (zh) * 2018-12-28 2020-09-01 山东大学 基于深度强化学习的视觉导航方法及系统
CN109919243A (zh) * 2019-03-15 2019-06-21 天津拾起卖科技有限公司 一种基于cnn的废钢铁种类自动识别方法及装置
CN110148152A (zh) * 2019-04-02 2019-08-20 浙江工业大学 基于卷积神经网络的sar目标交互行为识别方法
CN110084168B (zh) * 2019-04-22 2021-04-23 中国科学院自动化研究所 一种主动目标识别方法及装置
CN113497925A (zh) * 2020-04-02 2021-10-12 深圳光峰科技股份有限公司 一种投影对焦方法及投影对焦装置
CN111639766B (zh) * 2020-05-26 2023-09-12 山东瑞瀚网络科技有限公司 样本数据的生成方法以及装置
CN111914949B (zh) * 2020-08-20 2021-06-11 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于强化学习的零样本学习模型的训练方法及装置
CN113486926B (zh) * 2021-06-08 2022-09-13 同济大学 一种自动化码头设备异常检测系统
CN114088817B (zh) * 2021-10-28 2023-10-24 扬州大学 基于深层特征的深度学习的平板陶瓷膜超声缺陷检测方法
CN114998706B (zh) * 2022-07-18 2022-10-28 中国电子科技集团公司第二十八研究所 一种基于强化学习决策区域细划分的图像目标检测方法
CN115063428B (zh) * 2022-08-18 2022-11-08 中国科学院国家空间科学中心 一种基于深度强化学习的空间暗弱小目标检测方法
CN116363678B (zh) * 2023-05-31 2023-08-11 华南理工大学 一种数学公式图像的识别方法、系统和计算机设备
CN116880164B (zh) * 2023-09-07 2023-11-14 清华大学 一种数据中心末端空调系统运行策略确定方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156744A (zh) * 2016-07-11 2016-11-23 西安电子科技大学 基于cfar检测与深度学习的sar目标检测方法
CN106228124A (zh) * 2016-07-17 2016-12-14 西安电子科技大学 基于卷积神经网络的sar图像目标检测方法
CN106295637A (zh) * 2016-07-29 2017-01-04 电子科技大学 一种基于深度学习与强化学习的车辆识别方法
US20170103532A1 (en) * 2015-09-16 2017-04-13 Siemens Healthcare Gmbh Intelligent Medical Image Landmark Detection
CN106910351A (zh) * 2017-04-19 2017-06-30 大连理工大学 一种基于深度强化学习的交通信号自适应控制方法
CN107632979A (zh) * 2017-10-13 2018-01-26 华中科技大学 一种用于交互式问答的问题解析方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170103532A1 (en) * 2015-09-16 2017-04-13 Siemens Healthcare Gmbh Intelligent Medical Image Landmark Detection
CN106156744A (zh) * 2016-07-11 2016-11-23 西安电子科技大学 基于cfar检测与深度学习的sar目标检测方法
CN106228124A (zh) * 2016-07-17 2016-12-14 西安电子科技大学 基于卷积神经网络的sar图像目标检测方法
CN106295637A (zh) * 2016-07-29 2017-01-04 电子科技大学 一种基于深度学习与强化学习的车辆识别方法
CN106910351A (zh) * 2017-04-19 2017-06-30 大连理工大学 一种基于深度强化学习的交通信号自适应控制方法
CN107632979A (zh) * 2017-10-13 2018-01-26 华中科技大学 一种用于交互式问答的问题解析方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于视觉注意机制深度强化学习的行人检测方法;马技等;《中国科技论文》;20170731;第12卷(第14期);第1571-1577段 *

Also Published As

Publication number Publication date
CN108764006A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN108764006B (zh) 一种基于深度强化学习的sar图像目标检测方法
CN108399362B (zh) 一种快速行人检测方法及装置
CN111724478A (zh) 一种基于深度学习的点云上采样方法
CN112395987B (zh) 基于无监督域适应cnn的sar图像目标检测方法
CN110889318A (zh) 利用cnn的车道检测方法和装置
EP4131077A1 (en) Neural network optimization method and device
JP2020098587A (ja) ワッサースタイン距離を使用する物体形状回帰
CN110879961A (zh) 利用车道模型的车道检测方法和装置
CN112115916A (zh) 域适应Faster R-CNN半监督SAR检测方法
US11367206B2 (en) Edge-guided ranking loss for monocular depth prediction
CN109558803B (zh) 基于卷积神经网络与np准则的sar目标鉴别方法
CN114241314A (zh) 一种基于CenterNet的遥感影像建筑物变化检测模型及算法
Zhang et al. SaltISCG: Interactive salt segmentation method based on CNN and graph cut
CN113191996A (zh) 一种遥感影像变化检测方法、装置及其电子设备
CN116597275A (zh) 一种基于数据增强的高速移动目标识别方法
CN116664823A (zh) 基于元学习和度量学习的小样本sar目标检测识别方法
Wang et al. Research on vehicle detection based on faster R-CNN for UAV images
CN115761393A (zh) 一种基于模板在线学习的无锚目标跟踪方法
Feng et al. Improved deep fully convolutional network with superpixel-based conditional random fields for building extraction
CN115829996A (zh) 基于深度特征图的无监督合成孔径雷达图像变化检测方法
KR102110316B1 (ko) 뉴럴 네트워크를 이용한 변분 추론 방법 및 장치
CN113920311A (zh) 一种基于边缘辅助信息的遥感图像分割方法及系统
Sarmadian et al. Optimizing the snake model using honey-bee mating algorithm for road extraction from very high-resolution satellite images
CN110705695A (zh) 搜索模型结构的方法、装置、设备和存储介质
CN116030347B (zh) 一种基于注意力网络的高分辨率遥感影像建筑物提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant