CN104794359A - 一种迭代步长可变的多步q学习自适应算法 - Google Patents

一种迭代步长可变的多步q学习自适应算法 Download PDF

Info

Publication number
CN104794359A
CN104794359A CN201510212647.5A CN201510212647A CN104794359A CN 104794359 A CN104794359 A CN 104794359A CN 201510212647 A CN201510212647 A CN 201510212647A CN 104794359 A CN104794359 A CN 104794359A
Authority
CN
China
Prior art keywords
value
algorithm
state
waveform
max
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510212647.5A
Other languages
English (en)
Other versions
CN104794359B (zh
Inventor
贺知明
万海川
高振
杨庆
肖雪冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201510212647.5A priority Critical patent/CN104794359B/zh
Publication of CN104794359A publication Critical patent/CN104794359A/zh
Application granted granted Critical
Publication of CN104794359B publication Critical patent/CN104794359B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Radar Systems Or Details Thereof (AREA)

Abstract

本发明属于雷达信号处理领域,提出一种迭代步长可变的多步Q学习自适应算法,用以解决现有Q学习算法环境适应性差,与急剧变化环境无法工作的问题。本发明提出将步长(最大迭代次数)的大小设置为环境的函数,根据环境的变化程度来决定步长的大小;因此,本发明能够迅速地适应环境,当环境急剧变化的时候,采用更多步的信息来更新当前Q值,有效提高算法预见能力;同时,当环境变化很细微时,采用较少步的信息来更新Q值,有效减少算法复杂度;有效提高算法环境适应能力。

Description

一种迭代步长可变的多步Q学习自适应算法
技术领域
本发明属于雷达信号处理领域,提出了一种迭代步长可变的多步Q学习自适应算法。
背景技术
认知雷达是一种能够根据回波信号认识环境状态的雷达。它通过对回波信号的分析,提取出环境信息并动态地改变发射波形,以达到更高的目标分辨力(包括距离、速度等)。而宽带认知雷达则是在认知雷达的基础上采用了更高的带宽发射波形,这样,可以使雷达具有更高的距离分辨力和超近程的探测能力。由于宽带认知雷达的带宽大,数据更新快,这对波形动态变化的速度也有了更高的要求。而提高自适应算法的计算速度则是在提高宽带认知雷达的认知能力,所以研究宽带认知雷达的自适应波形选择算法有着重要的意义。
在众多的自适应算法中有一部分已经成熟的,并被广泛应用的例子,如价值迭代算法、策略迭代算法,Q-Learning算法以及多步Q-Learning算法。传统的Q学习算法采用一步算法,预见能力不强,对环境适应能力不强。针对这种问题,相关研究提出了增量式步长Q学习算法,但这种算法再后来的实际应用中出现了运算复杂度高,更新速度慢的情况。于是,为了平衡预见能力和预算复杂度的问题,有人提出采用有限多步信息进行更新的思想,即多步Q学习算法,它利用K步信息更新当前的Q值,具有多步预见能力,同时能降低算法复杂度。但是,这种算法步长恒定,无法根据环境变化调整步长,如果遇到环境急剧的变化,那么该算法的适应性将变弱。
发明内容
本发明针对背景技术存在的运算量大和预见能力不强的缺点,提出了一种改进的Q学习算法。本发明提出将步长的大小设置为环境的函数,根据环境的变化程度来决定步长的大小,当环境急剧变化的时候,采用更多步的信息来更新当前Q值,提高预见能力;同时,当环境变化很细微时,采用较少步的信息来更新Q值,减少算法复杂度。
本发明所采用技术方案为:一种迭代步长可变的多步Q学习自适应算法,包括以下步骤:
步骤1:初始化所有的(s,u),其中s∈S,u∈A(u),S表示状态集合,s表示集合中一个状态;u为系统选择波形,A(u)为波形集合;令Q(s,u)=0,k=0,k表示迭代次数,设定最大迭代次数Kmax(t),以及更新公式:Kmax(t+1)=μKmax(t),0<μ<2,初始值为1;
步骤2:雷达环境学习,令当前状态为st,雷达发射波形集合中不同的波形,并记录不同波形所产生的Q值,通过比较确定Q值最大的对应波形u,即:Y(ut)=arg maxQk(st,ut);
步骤3:利用更新公式更新Q值:
Qk+1(st,ut)=(1-αk+1)Qk(st,ut)+αk+1[Rt(st+1|st,ut)+λmaxQk(st+1,ut+1)]
其中,st代表t时刻状态,ut代表t时刻发射波形,Rt(st+1|st,ut)为t时刻、环境状态为st、发射波形为ut的情况下状态变换到st+1产生的报酬函数,λ为设定折扣因子;
步骤4:确定下一状态,根据状态转移矩阵A,测量概率矩阵B,确定下一状态st+1
s t + 1 = BA s t I ′ BA s t , I为对角矩阵;
步骤5:计算状态变化范数σ=||st+1-st||,设定μ值变动的最低门限值l和μ值变动的最高门限值h;当σ<l时,μ值减0.1,并降低l、使l=0.6l;当σ>h时,μ值加0.1,并提高h、使h=1.2h;否则,μ值不变;
步骤6:k值加1,当k<Kmax(t),根据公式Kmax(t+1)=μKmax(t),更新最大迭代次数;令st=st+1,跳至步骤2;否则,停止迭代,跳至步骤7;
步骤7:对于每一个状态s∈S,选择d(st)∈arg maxQ(st,ut)得到最优策略。
另外,本发明步骤3中Q值更新原则为:反向依次更新,用t+1时刻Q值更新t时刻,直到t为0。当步骤6迭代结束后,每一状态都会有多个Q值分别对应同一状态的不同波形,找到每一状态下最大的Q值所对应的波形,该波形即为状态变化但该状态时所采用的策略,以此类推,每一状态都可以选出了对应的策略,此策略即为本算法的最优策略。
本发明的创新点及优点在于:
本发明能够根据环境状态的变化程度调整Q值的迭代次数,使得在相同的状态变化下,本发明可以用更少的迭代次数(计算量)达到与其他算法(迭代次数多于本算法)同样、甚至更好的波形选择效果。因此,本发明能够迅速地适应环境,当环境急剧变化的时候,采用更多步的信息来更新当前Q值,有效提高算法预见能力;同时,当环境变化很细微时,采用较少步的信息来更新Q值,有效减少算法复杂度;有效提高算法环境适应能力。
附图说明:
图1为本发明迭代步长可变的多步Q学习自适应算法流程图。
图2为最优策略、本专利算法、多步Q学习算法波形选择准确度比较图。
图3为最优策略、本专利算法、增量式Q学习算法波形选择准确度比较图。
具体实施方式:
下面结合具体实施例和附图对本发明作进一步详细说明。
本实施例通过在MATLAB R2010b对不同的环境变化情况下的波形选择准确性的仿真来验证的。本次仿真共设定了6种环境状态,同时,还设定了6种对应环境状态的最优波形,即构成了6个环境状态-动作对。首先,利用状态更新公式改变状态,并比较前后状态变化的程度,根据变化程度调整最大迭代次数,并记录下每次状态变化所后所选择的的波形以及所需的的迭代次数。然后,将选择的波形与最优波形作比较,计算出选择准确率。最后,将选择准确率与迭代次数在图上画出,并与其它算法比较。一种迭代步长可变的多步Q学习自适应算法,包括以下步骤:
步骤1:设定不同的状态-波形对,转移矩阵A以及测量概率矩阵B,对6种不同的状态设定6种不同的最优波形,并且设定状态转移矩阵以及测量概率矩阵;
步骤2:根据当前状态计算出使Q值最大的波形选择计算出使Q值最大时的Y(ut)值,即 Y ( u t ) = arg max Q t k ( s t , u t ) ;
步骤3:更新Q值
Qk+1(st,ut)=(1-αk+1)Qk(st,ut)+αk+1[Rt(st+1|st,ut)+λmaxQk(st+1,ut+1)];
步骤4:找到下一状态st+1
步骤5:将st+1与st比较,计算状态变化程度,根据状态变化程度改变Kmax(t+1)的值,以调整算法迭代次数;
以此σ=||st+1-st||作为环境状态变化的程度,设定μ值变动的最低门限值l和μ值变动的最高门限值h;当σ<l时,μ值减0.1,并降低l,使l=0.6l;当σ>h时,μ值加0.1,并提高h,使h=1.2h;否则,μ值不变;当σ<l,说明状态变化非常细微,此时可以减少迭代次数,降低计算量;同时,当σ>h时,增加迭代次数,保证预测的准确率;
步骤6:判断已经迭代的次数是否已经超出Kmax(t);
将当前k值与最大迭代Kmax(t)比较,判断迭代次数是否已经超出最大值,若超出,则停止迭代;否则,由于μ值的改变,使得下一时刻的Kmax(t+1)(其中Kmax(t+1)=μKmax(t))也随之改变;则跳回到第二步,进行下一次的迭代;
步骤7:当迭代结束时,对每一状态选择最优策略d(st),该策略为使下一时刻Q值达到最大的策略;
此时,迭代次数已经超过Kmax(t),对于每一个状态st,产生了多个Q值,每一个Q值对应一个波形ut,其中使Q值最大的波形ut,即为该状态下的最优策略。以此类推,每一个状态都可以找到一个使Q值最大的波形ut,即最优策略向量d(st)。
将每一次状态变化后所确定的Kmax(t)与所选择的波形记录下来,并将此波形与最优波形比较差别(即准确率);将前一步得到的策略与最优策略比较,比较后的差别即为准确率;并且记录下每一状态变化后的Kmax(t);将每一对比较准确率与迭代次数作为横纵坐标,画出图形。如图2所示,基于同样的波形选择准确度,本专利算法使用了更少的测量次数(即迭代次数),比起多步Q学习算法更为接近最优波形算法的效果。这样,同等的波形选择准确度下,本专利算法便减少了计算量,节约了计算时间,提高了自适应能力。如图3所示,基于同样的波形选择准确度,本专利算法使用了更少的测量次数(即迭代次数),比起增量式Q学习算法计算量更少,提高了计算效率,提高自适应能力。

Claims (1)

1.一种迭代步长可变的多步Q学习自适应算法,包括以下步骤:
步骤1:初始化所有的(s,u),其中s∈S,u∈A(u),S表示状态集合,s表示集合中一个状态;u为系统选择波形,A(u)为波形集合;令Q(s,u)=0,k=0,k表示迭代次数,设定最大迭代次数Kmax(t),以及更新公式:Kmax(t+1)=μKmax(t),0<μ<2,初始值为1;
步骤2:雷达环境学习,令当前状态为st,雷达发射波形集合中不同的波形,并记录不同波形所产生的Q值,通过比较确定Q值最大的对应波形u,即:Y(ut)=argmaxQk(st,ut);
步骤3:利用更新公式更新Q值:
Qk+1(st,ut)=(1-αk+1)Qk(st,ut)+αk+1[Rt(st+1|st,ut)+λmaxQk(st+1,ut+1)]
其中,st代表t时刻状态,ut代表t时刻发射波形,Rt(st+1|st,ut)为t时刻、环境状态为st、发射波形为ut的情况下状态变换到st+1产生的报酬函数,λ为设定折扣因子;
步骤4:确定下一状态,根据状态转移矩阵A,测量概率矩阵B,确定下一状态st+1
s t + 1 = BSs t I ′ BAs t , I为对角矩阵;
步骤5:计算状态变化范数σ=||st+1-st||,设定μ值变动的最低门限值l和μ值变动的最高门限值h;当σ<l时,μ值减0.1,并降低l、使l=0.6l;当σ>h时,μ值加0.1,并提高h、使h=1.2h;否则,μ值不变;
步骤6:k值加1,当k<Kmax(t),根据公式Kmax(t+1)=μKmax(t),更新最大迭代次数;令st=st+1,跳至步骤2;否则,停止迭代,跳至步骤7;
步骤7:对于每一个状态s∈S,选择d(st)∈argmaxQ(st,ut)得到最优策略。
CN201510212647.5A 2015-04-29 2015-04-29 一种迭代步长可变的多步q学习自适应方法 Expired - Fee Related CN104794359B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510212647.5A CN104794359B (zh) 2015-04-29 2015-04-29 一种迭代步长可变的多步q学习自适应方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510212647.5A CN104794359B (zh) 2015-04-29 2015-04-29 一种迭代步长可变的多步q学习自适应方法

Publications (2)

Publication Number Publication Date
CN104794359A true CN104794359A (zh) 2015-07-22
CN104794359B CN104794359B (zh) 2017-12-15

Family

ID=53559150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510212647.5A Expired - Fee Related CN104794359B (zh) 2015-04-29 2015-04-29 一种迭代步长可变的多步q学习自适应方法

Country Status (1)

Country Link
CN (1) CN104794359B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105388461A (zh) * 2015-10-31 2016-03-09 电子科技大学 一种雷达自适应行为q学习方法
CN106156501A (zh) * 2016-07-04 2016-11-23 厦门大学 一种基于挠度影响线的桥梁局部损伤量化方法
WO2017044842A1 (en) * 2015-09-11 2017-03-16 Google Inc. Training reinforcement learning neural networks

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH086921A (ja) * 1994-06-21 1996-01-12 Nippon Telegr & Teleph Corp <Ntt> 環境適応型プラン生成装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH086921A (ja) * 1994-06-21 1996-01-12 Nippon Telegr & Teleph Corp <Ntt> 環境適応型プラン生成装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张琦 等: "自适应回波抵消中变步长NLMS算法", 《数据采集与处理》 *
王彬 等: "认知雷达中基于Q学习的自适应波形选择算法", 《系统工程与电子技术》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017044842A1 (en) * 2015-09-11 2017-03-16 Google Inc. Training reinforcement learning neural networks
US10733504B2 (en) 2015-09-11 2020-08-04 Deepmind Technologies Limited Training reinforcement learning neural networks
US11886992B2 (en) 2015-09-11 2024-01-30 Deepmind Technologies Limited Training reinforcement learning neural networks
CN105388461A (zh) * 2015-10-31 2016-03-09 电子科技大学 一种雷达自适应行为q学习方法
CN106156501A (zh) * 2016-07-04 2016-11-23 厦门大学 一种基于挠度影响线的桥梁局部损伤量化方法
CN106156501B (zh) * 2016-07-04 2018-07-31 厦门大学 一种基于挠度影响线的桥梁局部损伤量化方法

Also Published As

Publication number Publication date
CN104794359B (zh) 2017-12-15

Similar Documents

Publication Publication Date Title
US10977550B2 (en) Method of converting neural network and recognition apparatus using the same
US20210357726A1 (en) Fusion structure and method of convolutional neural network and spiking neural network
US20210286688A1 (en) Neural Network Quantization Parameter Determination Method and Related Products
JP7273489B2 (ja) 神経網及びそのウェートをプルーニングする方法
CN108508411B (zh) 基于迁移学习的被动雷达外辐射源信号识别方法
KR102336295B1 (ko) 적응적 프루닝 및 가중치 공유를 사용하는 컨볼루션 신경망 시스템 및 그것의 동작 방법
CN107277830A (zh) 一种基于粒子群优化和变异算子的无线传感器网络节点部署方法
CN104794359A (zh) 一种迭代步长可变的多步q学习自适应算法
CN104252469A (zh) 用于模式匹配的方法、设备和电路
CN103413143A (zh) 基于动态稀疏投影的视频目标跟踪方法
CN109151727B (zh) 基于改进的dbn的wlan指纹定位数据库构建方法
CN106355193A (zh) 一种自适应变异粒子群优化算法
Li et al. Artificial immune network-based anti-collision algorithm for dense RFID readers
KR20220059194A (ko) 대상 객체에 적응적인 객체 추적 방법 및 장치
Elsagheer et al. A hybrid model for automatic modulation classification based on residual neural networks and long short term memory
Lukoševicius et al. Time warping invariant echo state networks
Tong et al. A fine-grained channel state information-based deep learning system for dynamic gesture recognition
CN102592038B (zh) 基于ds推理的无线传感器网络多目标跟踪数据关联方法
CN107193044B (zh) 一种混合全局优化算法的叠前地震多参数反演方法
CN103064059B (zh) 一种无线传感器网络声源定位方法
CN105846826A (zh) 基于近似平滑l0范数的压缩感知信号重构方法
CN113191487B (zh) 基于分布式ppo算法的自适应连续功率控制方法
CN102055694B (zh) 基于粒子群的非线性系统辨识方法
CN102831622A (zh) 一种基于Mean shift的目标跟踪方法
CN104517141B (zh) 基于负载平衡与粒子群算法的射频识别网络布局方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171215

Termination date: 20210429