CN114022728B

CN114022728B - 一种基于深度强化学习的合成孔径共相检测方法

Info

Publication number: CN114022728B
Application number: CN202111255579.2A
Authority: CN
Inventors: 郭弘扬; 徐杨杰; 涂琼; 王子豪; 黄永梅; 贺东; 王强
Original assignee: Institute of Optics and Electronics of CAS
Current assignee: Institute of Optics and Electronics of CAS
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2023-04-07
Anticipated expiration: 2041-10-27
Also published as: CN114022728A

Abstract

本发明公开了一种基于深度强化学习的合成孔径共相检测方法，包括：合成孔径成像探测模块负责采集或者模拟多个子孔径的共相图像，为深度强化学习网络提供学习环境和状态；深度强化学习网络模块主要由环境、状态、奖赏和动作组成。在强化学习过程中，Agent选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号(奖或惩)反馈给Agent，Agent根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化(奖)的概率增大，最终实现合成孔径的共相检测。该方法不需要采集大量的样本数据进行训练，而是通过实时在线学习的方式建立输入与输出之间的映射关系，有利于深度强化学习网络共相检测方法的实际应用。

Description

一种基于深度强化学习的合成孔径共相检测方法

技术领域

本发明涉及合成孔径共相检测领域，具体涉及一种基于深度强化学习的合成孔径共相检测方法，主要通过深度强化学习网络模型对合成孔径的共相误差进行检测。

背景技术

合成孔径是一种采用多路分离的子孔径阵列合成的孔径来代替传统的单口径望远镜主镜的技术，等效地达到大口径望远镜系统的高分辨率成像性能。对于光学合成孔径成像技术，在像面上子孔径光束达到同相位叠加是实现合成孔径系统高分辨率成像的重要前提。所以，子孔径之间的共相误差探测是关键技术之一。在传统的共相误差检测方法中，多采用SPGD进行共相误差的探测，其需要的迭代次数多，受噪声影响大。现有的深度学习神经网络共相探测模型也存在样本集和实际数据集有偏差的情况，在这种情况下的准确率会大大下降，大规模样本集的采集也存在困难，这些都制约着深度学习神经网络在共相检测中的实际应用。

针对以上问题，本发明提出一种基于强化学习的合成孔径共相检测方法，采用强化学习的神经网络模型对合成孔径的piston共相误差进行检测。相比传统的共相检测方法，该方法需要迭代的次数少，受噪声影响小。相比于现有的深度学习神经网络共相检测模型，该方法不需要采集大量的样本数据进行训练，有利于神经网络共相检测方法的实际应用。

发明内容

本发明要解决的技术问题为：提出一种基于深度强化学习的合成孔径共相检测方法，主要通过深度强化学习网络共相检测方法解决深度学习共相检测需要大量训练样本的技术瓶颈，有利于神经网络共相检测方法的实际应用。

本发明采用的技术方案为：一种基于深度强化学习的合成孔径共相检测方法，该方法包括如下步骤：

步骤一、合成孔径成像探测模块负责采集或者模拟多个子孔径的共相图像；

步骤二、构建深度强化学习网络共相检测模型；模型由状态、动作、环境、奖赏和网络五部分组成，状态为共相光斑，动作为共相误差的校正，环境为共相成像模型，奖赏为Piston像差的评价函数，强化学习神经网络为DPPO，即Distributed Proximal PolicyOptimization。DPPO包括演员网络和评论家网络，演员网络学习状态到动作的映射，评论家网络学习状态和动作到奖赏的映射；

步骤三、进行深度强化学习网络模型在线学习，实现共相检测。

进一步地，合成孔径成像探测模块负责采集或者模拟多个子孔径的共相图像，为深度强化学习网络提供学习环境和状态。

进一步地，深度强化学习网络模块主要由环境、状态、奖赏和动作组成，具体结构与功能：

1)环境为合成孔径成像探测模块构成或者模拟的多个子孔径的光学成像系统；

2)状态为成像探测器采集得到的共相光斑图像；

3)奖赏为光斑Piston像差的评价函数；评价函数J为：

其中I(x,y)为共相光斑的像素值，b为选取的偏置，例如1.75*10^-3。

4)动作为合成孔径系统对Piston像差的校正量。

进一步地，深度强化学习网络模块的在线学习过程：

1)深度强化学习系统的学习目标是动态地调整参数，以达到奖赏的最大化；

2)Agent选择一个动作用于合成孔径成像探测系统的环境中，环境接受该动作后成像系统的图像状态发生变化，同时根据状态情况产生一个强化信号(奖或惩)反馈给Agent。如果Agent的某个行为策略导致环境出现正的奖赏(强化信号)，那么Agent以后产生这个行为策略的趋势便会加强；

3)Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏之和最大。Agent根据强化信号和合成孔径成像探测系统环境的当前成像状态再选择下一个动作，选择的原则是使受到正强化(奖)的概率增大，最终实现合成孔径的共相检测。

本发明与现有方法相比具有如下优点：

(1)相比传统的共相检测方法，该方法需要迭代的次数少，受噪声影响小。

(2)相比于现有的深度学习神经网络共相检测模型，该方法不需要采集大量的样本数据进行训练，有利于神经网络共相检测方法的实际应用。

(3)该发明结构简单，易于实现。采用在线实时学习方式，避免了传统监督学习需要大量离线训练的问题，提高了算法效率。

附图说明

图1是本发明的基于深度强化学习的合成孔径共相检测流程图；

图2是本发明的合成孔径共相检测的深度强化学习网络示意图；

图3是本发明的合成孔径共相检测的深度强化学习网络的在线学习原理图。

具体实施方式

以下结合附图对本发明的具体实施方式做详细说明。

如图1所示，基于深度强化学习的合成孔径共相检测方法，该方法利用的系统主要由合成孔径成像探测模块，深度强化学习网络模块组成。

具体流程为：

步骤一、合成孔径成像探测模块负责采集或者模拟多个子孔径的共相图像，为深度强化学习网络提供学习环境和状态；

步骤二、深度强化学习网络模块根据成像系统传输的畸变光斑图像进行在线学习。

如图2所示，合成孔径共相检测的深度强化学习网络结构主要包括：环境、状态、奖赏和动作。其具体的结构与功能分别为：环境为合成孔径成像探测模块构成或者模拟的多个子孔径的光学成像系统；状态为成像探测器采集得到的共相光斑图像；奖赏为光斑Piston像差的评价函数；动作为合成孔径系统对Piston像差的校正量。强化学习神经网络为DPPO，即Distributed Proximal Policy Optimization。DPPO包括演员网络和评论家网络，演员网络学习状态到动作的映射，评论家网络学习状态和动作到奖赏的映射。

步骤三、深度强化学习网络学习过程中根据状态情况动态地调整参数，达到奖赏的最大化，最终实现对合成孔径共相误差的检测功能。

如图3所示，合成孔径共相检测的深度强化学习网络的在线学习原理图；深度强化学习系统的学习目标是动态地调整参数，以达到强化信号的最大化；Agent将Piston像差的校正量作为动作用于合成孔径成像探测系统的环境中，环境接受该动作后成像系统的图像状态发生变化，同时根据状态情况产生一个强化信号(奖或惩)反馈给Agent。如果Agent的某个行为策略导致环境正的奖赏(强化信号)，那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。Agent根据强化信号和合成孔径成像探测系统环境的当前成像状态再选择下一个动作，选择的原则是使受到正强化(奖)的概率增大，最终实现合成孔径的共相检测。

通过仿真实验，在两孔或三孔合成孔径共相模型中，可以在一个波长的校正范围以内，实现共相误差的校正，校正残量在1/10个波长以内，迭代次数在5次以内，满足共相探测校正的需求。作为对比，传统的SPGD算法需要40-50次左右的迭代。

Claims

1.一种基于深度强化学习的合成孔径共相检测方法，其特征在于：该方法包括如下步骤：

步骤二、构建强化学习神经网络共相检测模型；模型由状态、动作、环境、奖赏和网络五部分组成，状态为共相光斑，动作为共相误差的校正，环境为共相成像模型，奖赏为Piston像差的评价函数，强化学习神经网络为DPPO，即Distributed Proximal PolicyOptimization，DPPO包括演员网络和评论家网络，演员网络学习状态到动作的映射，评论家网络学习状态和动作到奖赏的映射；

2.根据权利要求1所述的一种基于深度强化学习的合成孔径共相检测方法，其特征在于：合成孔径成像探测模块负责采集或者模拟多个子孔径的共相图像，为深度强化学习网络提供学习环境和状态。

3.根据权利要求1所述的一种基于深度强化学习的合成孔径共相检测方法，其特征在于：强化学习神经网络模块主要由环境、状态、奖赏和动作组成，具体结构与功能：

2)状态为成像探测器采集得到的共相光斑图像；

3)奖赏为光斑Piston像差的评价函数，评价函数J为：

其中，I(x,y)为共相光斑的像素值，b为选取的偏置；

4)动作为合成孔径系统对Piston像差的校正量。

4.根据权利要求1所述的一种基于深度强化学习的合成孔径共相检测方法，其特征在于：在深度强化学习网络模块的在线学习过程：

2)Agent选择一个动作用于合成孔径成像探测系统的环境中，环境接受该动作后成像系统的图像状态发生变化，同时根据状态情况产生一个强化信号即奖或惩反馈给Agent，如果Agent的某个行为策略导致环境出现正的奖赏，那么Agent以后产生这个行为策略的趋势便会加强；

3)Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏之和最大化，Agent根据强化信号和合成孔径成像探测系统环境的当前成像状态再选择下一个动作，选择的原则是使受到正强化即奖的概率增大，最终实现合成孔径的共相检测。