CN113627480B

CN113627480B - 一种基于强化学习的极化sar影像分类方法

Info

Publication number: CN113627480B
Application number: CN202110775729.6A
Authority: CN
Inventors: 聂雯; 杨杰; 赵伶俐; 史磊; 李平湘; 孙维东; 赵金奇
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2023-08-08
Anticipated expiration: 2041-07-09
Also published as: CN113627480A

Abstract

本发明涉及一种基于强化学习的极化SAR影像分类方法。首先对极化SAR影像进行辐射定标、滤波处理，接着对其进行极化分解得到极化特征参数，并对极化特征参数进行归一化处理，构建极化‑空间联合样本集，然后采用强化学习的开发‑利用学习机制训练FCN模型，在提升样本空间上下文信息和极化特征信息利用效率的同时，通过对样本的学习探索，生成大量的经验数据来训练模型，以达到减少样本量和提升分类精度的双重目的，最后用训练好的FCN模型对极化SAR影像进行分类。与现有需要大量数据驱动的CNN网络模型不同，本发明经过强化学习的经验生成和利用，在不超过2％的标注样本需求下即可获取很高的分类精度，满足极化SAR影像在小样本下高精度分类需求。

Description

一种基于强化学习的极化SAR影像分类方法

技术领域

本发明属于极化SAR影像分类领域，特别是涉及一种基于强化学习的极化SAR影像分类方法。

背景技术

合成孔径雷达(Synthetic Aperture Radar，SAR)采用主动微波遥感手段，基于电磁波的相干测量获取对地观测成像数据，是对地观测遥感技术的重要组成部分。相比于可见光遥感技术而言，SAR不受光照、天气条件的影响，尤其是在云雾等恶劣天气条件下具有全天时、全天候观测能力，在军用及民用领域都发挥着重要作用。全极化SAR系统采用多种天线组合获取目标信息，能获取更全面的地物目标描述信息，在目标地物物理属性描述和散射机理分析研究中都具有很强的应用能力。极化SAR影像分类是极化SAR数据解译和应用的重要前提，自动、高效、精准的分类方法不仅影响了后续应用的可靠性，也决定了极化SAR数据的应用领域和范围。

近年来，随着计算机技术的发展，基于深度学习的极化SAR影像分类方法取得了广泛的关注。然而，这些精准的分类结果大多依赖大量的参考标签信息来揭示不同目标的数据特征，如何在小样本下获取高精度的分类结果依然是一项挑战。不同于普通的监督学习机制，强化学习对样本依赖较小，强调从自身试错中获取经验并优化模型策略，在小样本下的极化SAR影像解译和分类研究中具有优势。基于此，本发明提出一种基于强化学习的极化SAR影像分类方法，在少量标注信息的情况下，提高计划SAR影像分类的精度和效率。

极化SAR影像分类是将影像中的像素分配为对应的类别，现有的极化SAR影像分类方法主要可分为三类：基于统计模型的分类方法，基于散射机理的分类方法和基于机器学习的分类方法。前两者主要基于极化SAR影像本身的数据分布特性，将地物简单分为几个类别，精度较低。基于机器学习的方法联合了极化SAR数据的数据统计特性和散射特征信息，凭借强大的非线性拟合模型，从样本中挖掘有助于分类的信息，可获得精度较高的分类结果。然而，传统的机器学习方法的性能对数据特征表达的区分度有较高要求，且处理流程较分散，不是端到端的方法，工程化程度较低，不利于极化SAR分类应用的进一步提升。

随着计算机硬件技术的发展，基于深度卷积神经网络的方法在计算机视觉领域取得了飞跃式地发展，其中经典的算法如DBN、CNN、RNN、FCN在极化SAR影像解译领域中展现出优异的性能和巨大的潜力。但是这些深度方法往往需要大量的先验标注信息来训练模型，模型性能的好坏与学习样本的数量与质量紧密相关。而SAR数据不同于光学数据，样本的高精度标注，需要丰富的专业领域知识，需要大量的人力物力以及时间消耗来保证模型精度，不利于极化SAR影像的快速分类识别。

本研究从模型学习测量入手，采用面向任务的强化学习策略，从少量的样本中自主探索，生成大量的经验数据对模型进行优化，从而达到减少样本需求和提高极化SAR影像分类精度的目标。具体来说，在特征学习方法方面，采用全连接卷积神经网络(FullyConvolutional Neural network，FCN)自动学习极化SAR数据的空间特征和极化散射特征；在模型训练方面，采用强化学习的试错学习机制，首先从样本学习中生成经验数据，然后基于经验数据而非样本数据对模型进行优化，进而增加标签利用效率，在小样本情况下提升分类模型的精度和效率。

发明内容

本发明针对现有技术的不足，提供一种基于强化学习的极化SAR影像分类方法。首先对获取的极化SAR影像进行辐射定标、滤波等预处理以提升影像质量，接着对预处理后的极化SAR影像进行极化分解得到极化特征参数信息，并对极化特征参数进行归一化处理，构建极化-空间联合样本集，然后采用强化学习的开发-利用学习机制训练FCN模型，在提升样本空间上下文信息和极化特征信息利用效率的同时，通过对样本的学习探索，生成大量的经验数据来训练模型，以达到减少样本量和提升分类精度的双重目的，最后用训练好的FCN模型对极化SAR影像进行分类。与现有需要大量数据驱动的CNN网络模型不同，本发明经过强化学习的经验生成和利用，在不超过2％的标注样本需求下即可获取很高的分类精度，可满足极化SAR影像在小样本下高精度分类需求。

为了达到上述目的，本发明提供的技术方案是一种基于强化学习的极化SAR影像分类方法，包括以下步骤：

步骤1，构建样本数据集；

步骤1.1，提取极化特征参数；

步骤1.2，归一化极化特征参数；

步骤1.3，构建极化-空间联合样本集；

步骤2，基于强化学习的FCN网络模型训练；

步骤2.1，初始化模型参数；

步骤2.2，构建Actor-critic模型训练机制；

步骤2.2.1，构建Actor模块，包括以下几个步骤：

步骤2.2.1.1，以批次的形式随机输入样本集中选取的样本；

步骤2.2.1.2，根据现有的模块参数θ_a，利用FCN网络计算该样本属于所有候选标签类别的Q值及概率P_π(a|s)，并输出预测结果，其中π为模型现行分类策略，对于Actor模块生成的预测结果，Actor-critic模型可根据对比样本标签真值，返回奖励值r，若分类正确，r＝1，反之r＝-1；

步骤2.2.1.3，保存经验数据(s,a,q,r)至记忆池中，其中s为样本特征，a表示预测结果，q是当前模型参数计算下的Q(s,a)值，r是奖励值；

步骤2.2.2，构建Critic模块，包括以下几个步骤：

步骤2.2.2.1，从记忆池中抽取经验数据(s,a,q,r)；

步骤2.2.2.2，根据现有模块参数θ_c，利用FCN网络计算新的Q值Q(s,a；θ_c)；

步骤2.2.2.3，对比Q(s,a；θ_c)与经验数据中的q值的差异，计算损失值并更新Critic模块参数θ_c、Actor模块参数θ_a；

步骤2.3，采用Actor-critic机制训练FCN模型；

步骤2.3.1，Q值的更新；

步骤2.3.2，基于Q值的分类结果预测；

步骤2.3.3，交叉熵损失值的计算；

步骤3，利用训练好的FCN模型进行极化SAR影像分类。

而且，所述步骤1.1中提取极化特征参数是先将获取的极化SAR影像进行辐射定标、滤波等预处理以提升影像质量，然后对预处理后的极化SAR影像进行极化分解得到极化特征参数信息。

而且，所述步骤1.2中归一化极化特征参数是先对极化特征影像进行2％的线性拉伸，将数据分布区间归一化为0～1，然后对拉伸后的特征参数依次开方，增加不同地物的对比度。

而且，所述步骤1.3是采用3D卷积核直接提取每个样本像素的空间域特征和极化域特征，从三维尺度上构建样本的极化-空间特征表达空间，在保持样本空间邻域空间信息的基础上，充分利用极化SAR丰富的极化特征信息，提高特征利用率。

而且，所述步骤2.1中初始化模型参数包括初始化经验记忆池D，容量大小设置为M＝256；初始化Critic模块参数θ_c、Actor模块参数θ_a为随机值，设置Actor模块更新频率τ＝126；设置总训练轮次K＝300，设置每轮次迭代次数T＝256；设置样本批次输入数量N＝128；设置贪心学习测量学习率ε＝1.0。

而且，所述步骤2.3.1中Q值的更新通过FCN拟合实现，完成从样本特征s到Q(s,a)的映射，Q值的计算方式如下：

Q_π(s,a)＝α×r+(1-α)Q_π(s′,a′) (1)

式中，α为本次迭代的折扣奖励率，r是本次迭代的奖励值，π是模型现行分类策略，Q_π(s′,a′)为下一次学习行为的Q值；在单时相极化SAR影像的分类任务中，由于学习目标是对每一个样本点生成唯一正确的分类结果，下一次的学习对象(s′,a′)实际上就是本次的学习对象(s,a)。

而且，所述步骤2.3.2中基于Q值的分类结果预测是采用贪心学习策略实现的，即以ε的概率随机选取预测结果，以1-ε的概率选取Q值最大的类别作为预测结果，来减少模型的局部最优问题，在训练过程中，将ε动态设置为ε＝1-t/K来提高经验利用效率，其中t是迭代次数，K为总训练轮次，即在模型训练初期增加模型预测的随机性来获得更多的经验数据，在模型训练末期减少随机性干扰保持模型的稳定性。

而且，所述步骤2.3.3中交叉熵损失值L_t(θ_t)的计算公式如下：

L_t(θ_t)＝E_s,a～ρ[y_t-Q(s,a；θ_t)] (2)

y_t＝r_t+Q(s_t,a_t；θ_c) (3)

式中，θ_t是t时刻的Critic模块参数，Q(s,a；θ_t)为Actor模块生成的经验Q值，y_t为Critic模块的计算更新的Q值，p是概率，r_t是t时刻的奖励值，Q(s_t,a_t；θ_c)是t时刻critic模块计算得到的(s,a)的Q值。在模型训练过程中，Critic模块参数和Actor模块参数均利用Gradient Descent优化算法更新，Critic模块参数更新频率为每轮次单步迭代更新，Actor模块参数为每轮次间隔τ次更新。

与现有技术相比，本发明具有如下优点：

(1)本发明提出的极化SAR影像分类模型采用强化学习试错机制对样本环境进行经验探索和模型策略优化，与监督学习方法不同，极化SAR影像分类模型训练数据是来自于模型自我探索生成的经验数据，而非直接利用样本标签信息，即从少量的样本中就可获得大量丰富的经验信息，极大地减少了模型的样本量需求，提升了模型的实用性。

(2)本发明同时采用了样本的空间上下文特征和极化特征，通过对三维特征信息的学习，可有效提升模型对极化SAR影像的特征利用率，进而提升影像分类精度。

(3)本发现提出的模型适用于从头开始的学习策略和从预训练开始的学习策略，其中从头开始的学习策略鲁棒性和不同任务的适应能力更好，从预训练开始的学习策略可进一步提升模型的分类效率，能适应不同分类场景的分类需求。

附图说明

图1为本发明实施例的流程图。

图2为本发明实施例极化特征数据归一化预处理的结果图，其中图2(a)、2(b)、2(c)分别为初始极化特征影像、线性拉伸结果、最终处理结果，图2(d)、2(e)、2(f)分别为对应的直方图分布信息。

图3为本发明实施例极化-空间联合样本集构建的过程图。

图4为本发明实施例Actor-critic模型的结构图。

图5为本发明实施例的FCN网络图。

具体实施方式

本发明提供一种基于强化学习的极化SAR影像分类方法，首先对获取的极化SAR影像进行辐射定标、滤波等预处理以提升影像质量，接着对预处理后的极化SAR影像进行极化分解得到极化特征参数信息，并对极化特征参数进行归一化处理，构建极化-空间联合样本集，然后将样本集设定为强化学习的环境要素，通过对样本集的经验探索生成大量的经验数据对FCN模型进行训练，最后将训练好的FCN模型用于极化SAR影像的分类任务。

下面结合附图和实施例对本发明的技术方案作进一步说明。

如图1所示，本发明实施例的流程包括以下步骤：

步骤1，构建样本数据集，包括以下几个子步骤：

步骤1.1，提取极化特征参数。

首先将获取的极化SAR影像进行辐射定标、滤波等预处理以提升影像质量，然后对预处理后的极化SAR影像进行极化分解得到极化特征参数信息，采用的分解方法和获取的极化分解特征如表1所示。

表1极化分解方法及极化特征参数信息

其中，Van Zyl分解方法和Freeman-Durden分解方法主要得到三种典型散射类型(表面散射、二面角散射，以及体散射)的功率信息，H/A/Alpha decomposition方法中提取的极化特征信息主要包括主导散射机制平均参数(lambda)、三种散射机制对应的特征值(L1,L2,L3)和香农熵信息(强度分量SEI和极化分量SE)。

步骤1.2，归一化极化特征参数。

对步骤1.1提取的每个极化特征参数进行归一化处理，以降低数据的噪声，提高不同目标的区分能力。首先对极化特征影像进行2％的线性拉伸，并将数据分布区间归一化为0～1，以减少数据噪声，统一不同极化特征数据量纲，然后对拉伸后的特征参数依次开方，增加不同地物的对比度。极化特征数据归一化处理结果如图2所示，经过上述归一化操作，极化特征影像的质量和不同地物可分性都得到了进一步地提升。

步骤1.3，构建极化-空间联合样本集。

极化SAR数据包含丰富的地物散射特征，其空间纹理特性、统计特性、极化分解参数等特征都能在一定程度上区别不同地物信息。因此，采用3D卷积核直接提取每个样本像素的空间域特征和极化域特征，从三维尺度上构建样本的极化-空间特征表达空间，在保持样本空间邻域空间信息的基础上，充分利用极化SAR丰富的极化特征信息，提高特征利用率。极化-空间联合样本集构建过程如图3所示，每个样本点的特征空间为a×b×c的三维立方体，a×b为空间域，c为极化特征数量。

步骤2，基于强化学习的FCN模型训练。

步骤2.1，初始化模型参数。

初始化经验记忆池D，容量大小设置为M＝256；初始化Critic模块参数θ_c、Actor模块参数θ_a为随机值，设置Actor模块更新频率τ＝126；设置总训练轮次K＝300，设置每轮次迭代次数T＝256；设置样本批次输入数量N＝128；设置贪心学习测量学习率ε＝1.0。

步骤2.2，构建Actor-critic模型训练机制。

Actor-critic模型结构如图4所示，包括Actor模块和Critic模块，其中Actor模块用于生成经验数据，Critic模块用于更新模块参数并传递给Actor模块。

步骤2.2.1，构建Actor模块，包括以下几个步骤：

步骤2.2.1.1，以批次的形式随机输入样本集中选取的样本；

步骤2.2.1.3，保存经验数据(s,a,q,r)至记忆池中，其中s为样本特征，a表示预测结果，q是当前模型参数计算下的Q(s,a)值，r是奖励值。

步骤2.2.2，构建Critic模块，包括以下几个步骤：

步骤2.2.2.1，从记忆池中抽取经验数据(s,a,q,r)；

步骤2.2.2.3，对比Q(s,a；θ_c)与经验数据中的q值的差异，计算损失值并更新Critic模块参数θ_c、Actor模块参数θ_a。

步骤2.3，采用Actor-critic机制训练FCN模型。

采用Actor-critic机制训练FCN模型主要包括：Q值的更新、基于Q值的分类结果预测，以及交叉熵损失值的计算。

步骤2.3.1，Q值的更新。

Q值的计算是通过FCN拟合实现，完成从样本特征s到Q(s,a)的映射。Q值的计算方式如下：

Q_π(s,a)＝α×r+(1-α)Q_π(s′,a′) (1)

式中，α为本次迭代的折扣奖励率，π为模型现行分类策略，Q_π(s′,a′)为下一次学习行为的Q值。在单时相极化SAR影像的分类任务中，由于学习目标是对每一个样本点生成唯一正确的分类结果，下一次的学习对象(s′,a′)实际上就是本次的学习对象(s,a)。

步骤2.3.2，基于Q值的分类结果预测。

基于Q值的分类结果预测采用贪心学习策略(ε-greedy)实现，即以ε的概率随机选取预测结果，以1-ε的概率选取Q值最大的类别作为预测结果，来减少模型的局部最优问题。在训练过程中，将ε动态设置为ε＝1-t/K来提高经验利用效率，其中t是迭代次数，K为总训练轮次，即在模型训练初期增加模型预测的随机性来获得更多的经验数据，在模型训练末期减少随机性干扰保持模型的稳定性。

步骤2.3.3，交叉熵损失值的计算。

损失值L_t(θ_t)的计算公式如下：

L_t(θ_t)＝E_s,a～ρ[y_t-Q(s,a；θ_t)] (2)

y_t＝r_t+Q(s_t,a_t；θ_c) (3)

式中，θ_t是t时刻的Critic模块参数，y_t为Critic模块计算更新的Q值，p是概率，Q(s,a；θ_t)为Actor模块生成的经验Q值，r_t是t时刻的奖励值，Q(s_t,a_t；θ_c)是t时刻Critic模块计算得到的(s,a)的Q值。

在模型训练过程中，Critic模块参数和Actor模块参数均利用GradientDescent优化算法更新，Critic模块参数更新频率为每轮次单步迭代更新，Actor模块参数为每轮次间隔τ次更新。

步骤3，利用训练好的FCN模型进行极化SAR影像分类。

本发明提出的极化SAR影像分类模型为端到端的模型，可直接对输入的极化SAR影像的特征集输出分类结果文件，训练结束后的FCN模型可直接用于极化SAR影像分类任务。

具体实施时，以上流程可采用计算机软件技术实现自动运行流程。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于强化学习的极化SAR影像分类方法，其特征在于，包括如下步骤：

步骤1，构建样本数据集；

步骤2，基于强化学习的FCN网络模型训练；

步骤2.1，初始化模型参数；

步骤2.2，构建Actor-critic模型训练机制；

步骤2.2.1，构建Actor模块，包括以下几个步骤：

步骤2.2.1.1，以批次的形式随机输入样本集中选取的样本；

步骤2.2.1.2，根据现有的模块参数θ_a，利用FCN网络计算该样本属于所有候选标签类别的Q值及概率P_π(a|s)，并输出预测结果，其中π为模型现行分类策略，对于Actor模块生成的预测结果，Actor-critic模型根据对比样本标签真值，返回奖励值r，若分类正确，r＝1，反之r＝-1；

步骤2.2.2，构建Critic模块，包括以下几个步骤：

步骤2.2.2.1，从记忆池中抽取经验数据(s,a,q,r)；

步骤2.3，采用Actor-critic机制训练FCN模型；

采用Actor-critic机制训练FCN模型包括Q值的更新、基于Q值的分类结果预测和交叉熵损失值的计算，其中Q值的更新通过FCN拟合实现，完成从样本特征s到Q(s,a)的映射，Q值的计算方式如下：

Q_π(s,a)＝α×r+(1-α)Q_π(s′,a′) (1)

式中，α为本次迭代的折扣奖励率，r是本次迭代的奖励值，π是模型现行分类策略，Q_π(s′,a′)为下一次学习行为的Q值；在单时相极化SAR影像的分类任务中，由于学习目标是对每一个样本点生成唯一正确的分类结果，下一次的学习对象(s′,a′)实际上就是本次的学习对象(s,a)；

步骤3，利用训练好的FCN模型进行极化SAR影像分类。

2.如权利要求1所述的一种基于强化学习的极化SAR影像分类方法，其特征在于：所述步骤1构建样本数据集包括以下几个子步骤：

步骤1.1，提取极化特征参数；

步骤1.2，归一化极化特征参数；

步骤1.3，构建极化-空间联合样本集。

3.如权利要求2所述的一种基于强化学习的极化SAR影像分类方法，其特征在于：所述步骤1.1中提取极化特征参数是先将获取的极化SAR影像进行辐射定标、滤波以提升影像质量，然后对预处理后的极化SAR影像进行极化分解得到极化特征参数信息。

4.如权利要求2所述的一种基于强化学习的极化SAR影像分类方法，其特征在于：所述步骤1.2中归一化极化特征参数是先对极化特征影像进行2％的线性拉伸，将数据分布区间归一化为0～1，然后对拉伸后的特征参数依次开方，增加不同地物的对比度。

5.如权利要求2所述的一种基于强化学习的极化SAR影像分类方法，其特征在于：所述步骤1.3是采用3D卷积核直接提取每个样本像素的空间域特征和极化域特征，从三维尺度上构建样本的极化-空间特征表达空间，在保持样本空间邻域空间信息的基础上，充分利用极化SAR丰富的极化特征信息，提高特征利用率。

6.如权利要求1所述的一种基于强化学习的极化SAR影像分类方法，其特征在于：所述步骤2.1中初始化模型参数包括初始化经验记忆池D，容量大小设置为M＝256；初始化Critic模块参数θ_c、Actor模块参数θ_a为随机值，设置Actor模块更新频率τ＝126；设置总训练轮次K＝300，设置每轮次迭代次数T＝256；设置样本批次输入数量N＝128；设置贪心学习测量学习率ε＝1.0。

7.如权利要求1所述的一种基于强化学习的极化SAR影像分类方法，其特征在于：所述步骤2.3中基于Q值的分类结果预测是采用贪心学习策略实现的，即以ε的概率随机选取预测结果，以1-ε的概率选取Q值最大的类别作为预测结果，来减少模型的局部最优问题，在训练过程中，将ε动态设置为ε＝1-t/K来提高经验利用效率，其中t是迭代次数，K为总训练轮次，即在模型训练初期增加模型预测的随机性来获得更多的经验数据，在模型训练末期减少随机性干扰保持模型的稳定性。

8.如权利要求7所述的一种基于强化学习的极化SAR影像分类方法，其特征在于：所述步骤2.3中交叉熵损失值L_t(θ_t)的计算公式如下：

y_t＝r_t+Q(s_t,a_t；θ_c)(3)

式中，θ_t是t时刻的Critic模块参数，Q(s,a；θ_t)为Actor模块生成的经验Q值，y_t为Critic模块的计算更新的Q值，p是概率，r_t是t时刻的奖励值，Q(s_t,a_t；θ_c)是t时刻Critic模块计算得到的(s,a)的Q值。