CN104794359B

CN104794359B - 一种迭代步长可变的多步q学习自适应方法

Info

Publication number: CN104794359B
Application number: CN201510212647.5A
Authority: CN
Inventors: 贺知明; 万海川; 高振; 杨庆; 肖雪冬
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2015-04-29
Filing date: 2015-04-29
Publication date: 2017-12-15
Anticipated expiration: 2035-04-29
Also published as: CN104794359A

Abstract

本发明属于雷达信号处理领域，提出一种迭代步长可变的多步Q学习自适应方法，用以解决现有Q学习算法环境适应性差，与急剧变化环境无法工作的问题。本发明提出将步长(最大迭代次数)的大小设置为环境的函数，根据环境的变化程度来决定步长的大小；因此，本发明能够迅速地适应环境，当环境急剧变化的时候，采用更多步的信息来更新当前Q值，有效提高算法预见能力；同时，当环境变化很细微时，采用较少步的信息来更新Q值，有效减少算法复杂度；有效提高算法环境适应能力。

Description

一种迭代步长可变的多步Q学习自适应方法

技术领域

本发明属于雷达信号处理领域，提出了一种迭代步长可变的多步Q学习自适应方法。

背景技术

认知雷达是一种能够根据回波信号认识环境状态的雷达。它通过对回波信号的分析，提取出环境信息并动态地改变发射波形，以达到更高的目标分辨力(包括距离、速度等)。而宽带认知雷达则是在认知雷达的基础上采用了更高的带宽发射波形，这样，可以使雷达具有更高的距离分辨力和超近程的探测能力。由于宽带认知雷达的带宽大，数据更新快，这对波形动态变化的速度也有了更高的要求。而提高自适应算法的计算速度则是在提高宽带认知雷达的认知能力，所以研究宽带认知雷达的自适应波形选择算法有着重要的意义。

在众多的自适应算法中有一部分已经成熟的，并被广泛应用的例子，如价值迭代算法、策略迭代算法，Q-Learning算法以及多步Q-Learning算法。传统的Q学习算法采用一步算法，预见能力不强，对环境适应能力不强。针对这种问题，相关研究提出了增量式步长Q学习算法，但这种算法再后来的实际应用中出现了运算复杂度高，更新速度慢的情况。于是，为了平衡预见能力和预算复杂度的问题，有人提出采用有限多步信息进行更新的思想，即多步Q学习算法，它利用K步信息更新当前的Q值，具有多步预见能力，同时能降低算法复杂度。但是，这种算法步长恒定，无法根据环境变化调整步长，如果遇到环境急剧的变化，那么该算法的适应性将变弱。

发明内容

本发明针对背景技术存在的运算量大和预见能力不强的缺点，提出了一种改进的Q学习算法。本发明提出将步长的大小设置为环境的函数，根据环境的变化程度来决定步长的大小，当环境急剧变化的时候，采用更多步的信息来更新当前Q值，提高预见能力；同时，当环境变化很细微时，采用较少步的信息来更新Q值，减少算法复杂度。

本发明所采用技术方案为：一种迭代步长可变的多步Q学习自适应方法，包括以下步骤：

步骤1：初始化所有的(s,u)，其中s∈S,u∈A(u)，S表示状态集合，s表示集合中一个状态；u为系统选择波形，A(u)为波形集合；令Q(s,u)＝0,k＝0，k表示迭代次数，设定最大迭代次数K_max(t)，以及更新公式：K_max(t+1)＝μK_max(t)，0＜μ＜2，初始值为1；

步骤2：雷达环境学习，令当前状态为s_t，雷达发射波形集合中不同的波形，并记录不同波形所产生的Q值，通过比较确定Q值最大的对应波形u，即：Y(u_t)＝argmaxQ^k(s_t,u_t)；

步骤3：利用更新公式更新Q值：

Q^k+1(s_t,u_t)＝(1-α^k+1)Q^k(s_t,u_t)+α^k+1[R_t(s_t+1|s_t,u_t)+λmaxQ^k(s_t+1,u_t+1)]

其中，s_t代表t时刻状态，u_t代表t时刻发射波形，R_t(s_t+1|s_t,u_t)为t时刻、环境状态为s_t、发射波形为u_t的情况下状态变换到s_t+1产生的报酬函数，λ为设定折扣因子；

步骤4：确定下一状态，根据状态转移矩阵A，测量概率矩阵B，确定下一状态s_t+1：

I为对角矩阵；

步骤5：计算状态变化范数σ＝||s_t+1-s_t||，设定μ值变动的最低门限值l和μ值变动的最高门限值h；当σ＜l时，μ值减0.1，并降低l、使l＝0.6l；当σ＞h时，μ值加0.1，并提高h、使h＝1.2h；否则，μ值不变；

步骤6：k值加1，当k＜K_max(t)，根据公式K_max(t+1)＝μK_max(t)，更新最大迭代次数；令s_t＝s_t+1，跳至步骤2；否则，停止迭代，跳至步骤7；

步骤7：对于每一个状态s∈S，选择d(s_t)∈argmaxQ(s_t,u_t)得到最优策略。

另外，本发明步骤3中Q值更新原则为：反向依次更新，用t+1时刻Q值更新t时刻，直到t为0。当步骤6迭代结束后，每一状态都会有多个Q值分别对应同一状态的不同波形，找到每一状态下最大的Q值所对应的波形，该波形即为状态变化但该状态时所采用的策略，以此类推，每一状态都可以选出了对应的策略，此策略即为本算法的最优策略。

本发明的创新点及优点在于：

本发明能够根据环境状态的变化程度调整Q值的迭代次数，使得在相同的状态变化下，本发明可以用更少的迭代次数(计算量)达到与其他算法(迭代次数多于本算法)同样、甚至更好的波形选择效果。因此，本发明能够迅速地适应环境，当环境急剧变化的时候，采用更多步的信息来更新当前Q值，有效提高算法预见能力；同时，当环境变化很细微时，采用较少步的信息来更新Q值，有效减少算法复杂度；有效提高算法环境适应能力。

附图说明：

图1为本发明迭代步长可变的多步Q学习自适应方法流程图。

图2为最优策略、本专利算法、多步Q学习算法波形选择准确度比较图。

图3为最优策略、本专利算法、增量式Q学习算法波形选择准确度比较图。

具体实施方式：

下面结合具体实施例和附图对本发明作进一步详细说明。

本实施例通过在MATLAB R2010b对不同的环境变化情况下的波形选择准确性的仿真来验证的。本次仿真共设定了6种环境状态，同时，还设定了6种对应环境状态的最优波形，即构成了6个环境状态-动作对。首先，利用状态更新公式改变状态，并比较前后状态变化的程度，根据变化程度调整最大迭代次数，并记录下每次状态变化所后所选择的的波形以及所需的的迭代次数。然后，将选择的波形与最优波形作比较，计算出选择准确率。最后，将选择准确率与迭代次数在图上画出，并与其它算法比较。一种迭代步长可变的多步Q学习自适应方法，包括以下步骤：

步骤1：设定不同的状态-波形对，转移矩阵A以及测量概率矩阵B，对6种不同的状态设定6种不同的最优波形，并且设定状态转移矩阵以及测量概率矩阵；

步骤2：根据当前状态计算出使Q值最大的波形选择计算出使Q值最大时的Y(u_t)值，即

步骤3：更新Q值

Q^k+1(s_t,u_t)＝(1-α^k+1)Q^k(s_t,u_t)+α^k+1[R_t(s_t+1|s_t,u_t)+λmaxQ^k(s_t+1,u_t+1)]；

步骤4：找到下一状态s_t+1；

步骤5：将s_t+1与s_t比较，计算状态变化程度，根据状态变化程度改变K_max(t+1)的值，以调整算法迭代次数；

以此σ＝||s_t+1-s_t||作为环境状态变化的程度，设定μ值变动的最低门限值l和μ值变动的最高门限值h；当σ＜l时，μ值减0.1，并降低l，使l＝0.6l；当σ＞h时，μ值加0.1，并提高h,使h＝1.2h；否则，μ值不变；当σ＜l，说明状态变化非常细微，此时可以减少迭代次数，降低计算量；同时，当σ＞h时，增加迭代次数，保证预测的准确率；

步骤6：判断已经迭代的次数是否已经超出K_max(t)；

将当前k值与最大迭代K_max(t)比较，判断迭代次数是否已经超出最大值，若超出，则停止迭代；否则，由于μ值的改变，使得下一时刻的K_max(t+1)(其中K_max(t+1)＝μK_max(t))也随之改变；则跳回到第二步，进行下一次的迭代；

步骤7：当迭代结束时，对每一状态选择最优策略d(s_t)，该策略为使下一时刻Q值达到最大的策略；

此时，迭代次数已经超过K_max(t)，对于每一个状态s_t，产生了多个Q值，每一个Q值对应一个波形u_t，其中使Q值最大的波形u_t，即为该状态下的最优策略。以此类推，每一个状态都可以找到一个使Q值最大的波形u_t，即最优策略向量d(s_t)。

将每一次状态变化后所确定的K_max(t)与所选择的波形记录下来，并将此波形与最优波形比较差别(即准确率)；将前一步得到的策略与最优策略比较，比较后的差别即为准确率；并且记录下每一状态变化后的K_max(t)；将每一对比较准确率与迭代次数作为横纵坐标，画出图形。如图2所示，基于同样的波形选择准确度，本专利算法使用了更少的测量次数(即迭代次数)，比起多步Q学习算法更为接近最优波形算法的效果。这样，同等的波形选择准确度下，本专利算法便减少了计算量，节约了计算时间，提高了自适应能力。如图3所示，基于同样的波形选择准确度，本专利算法使用了更少的测量次数(即迭代次数)，比起增量式Q学习算法计算量更少，提高了计算效率，提高自适应能力。

Claims

1.一种迭代步长可变的多步Q学习自适应方法，包括以下步骤：

步骤3：利用更新公式更新Q值：

I为对角矩阵；