CN104794359B - 一种迭代步长可变的多步q学习自适应方法 - Google Patents

一种迭代步长可变的多步q学习自适应方法 Download PDF

Info

Publication number
CN104794359B
CN104794359B CN201510212647.5A CN201510212647A CN104794359B CN 104794359 B CN104794359 B CN 104794359B CN 201510212647 A CN201510212647 A CN 201510212647A CN 104794359 B CN104794359 B CN 104794359B
Authority
CN
China
Prior art keywords
values
state
waveform
max
iteration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510212647.5A
Other languages
English (en)
Other versions
CN104794359A (zh
Inventor
贺知明
万海川
高振
杨庆
肖雪冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201510212647.5A priority Critical patent/CN104794359B/zh
Publication of CN104794359A publication Critical patent/CN104794359A/zh
Application granted granted Critical
Publication of CN104794359B publication Critical patent/CN104794359B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Radar Systems Or Details Thereof (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于雷达信号处理领域,提出一种迭代步长可变的多步Q学习自适应方法,用以解决现有Q学习算法环境适应性差,与急剧变化环境无法工作的问题。本发明提出将步长(最大迭代次数)的大小设置为环境的函数,根据环境的变化程度来决定步长的大小;因此,本发明能够迅速地适应环境,当环境急剧变化的时候,采用更多步的信息来更新当前Q值,有效提高算法预见能力;同时,当环境变化很细微时,采用较少步的信息来更新Q值,有效减少算法复杂度;有效提高算法环境适应能力。

Description

一种迭代步长可变的多步Q学习自适应方法
技术领域
本发明属于雷达信号处理领域,提出了一种迭代步长可变的多步Q学习自适应方法。
背景技术
认知雷达是一种能够根据回波信号认识环境状态的雷达。它通过对回波信号的分析,提取出环境信息并动态地改变发射波形,以达到更高的目标分辨力(包括距离、速度等)。而宽带认知雷达则是在认知雷达的基础上采用了更高的带宽发射波形,这样,可以使雷达具有更高的距离分辨力和超近程的探测能力。由于宽带认知雷达的带宽大,数据更新快,这对波形动态变化的速度也有了更高的要求。而提高自适应算法的计算速度则是在提高宽带认知雷达的认知能力,所以研究宽带认知雷达的自适应波形选择算法有着重要的意义。
在众多的自适应算法中有一部分已经成熟的,并被广泛应用的例子,如价值迭代算法、策略迭代算法,Q-Learning算法以及多步Q-Learning算法。传统的Q学习算法采用一步算法,预见能力不强,对环境适应能力不强。针对这种问题,相关研究提出了增量式步长Q学习算法,但这种算法再后来的实际应用中出现了运算复杂度高,更新速度慢的情况。于是,为了平衡预见能力和预算复杂度的问题,有人提出采用有限多步信息进行更新的思想,即多步Q学习算法,它利用K步信息更新当前的Q值,具有多步预见能力,同时能降低算法复杂度。但是,这种算法步长恒定,无法根据环境变化调整步长,如果遇到环境急剧的变化,那么该算法的适应性将变弱。
发明内容
本发明针对背景技术存在的运算量大和预见能力不强的缺点,提出了一种改进的Q学习算法。本发明提出将步长的大小设置为环境的函数,根据环境的变化程度来决定步长的大小,当环境急剧变化的时候,采用更多步的信息来更新当前Q值,提高预见能力;同时,当环境变化很细微时,采用较少步的信息来更新Q值,减少算法复杂度。
本发明所采用技术方案为:一种迭代步长可变的多步Q学习自适应方法,包括以下步骤:
步骤1:初始化所有的(s,u),其中s∈S,u∈A(u),S表示状态集合,s表示集合中一个状态;u为系统选择波形,A(u)为波形集合;令Q(s,u)=0,k=0,k表示迭代次数,设定最大迭代次数Kmax(t),以及更新公式:Kmax(t+1)=μKmax(t),0<μ<2,初始值为1;
步骤2:雷达环境学习,令当前状态为st,雷达发射波形集合中不同的波形,并记录不同波形所产生的Q值,通过比较确定Q值最大的对应波形u,即:Y(ut)=argmaxQk(st,ut);
步骤3:利用更新公式更新Q值:
Qk+1(st,ut)=(1-αk+1)Qk(st,ut)+αk+1[Rt(st+1|st,ut)+λmaxQk(st+1,ut+1)]
其中,st代表t时刻状态,ut代表t时刻发射波形,Rt(st+1|st,ut)为t时刻、环境状态为st、发射波形为ut的情况下状态变换到st+1产生的报酬函数,λ为设定折扣因子;
步骤4:确定下一状态,根据状态转移矩阵A,测量概率矩阵B,确定下一状态st+1
I为对角矩阵;
步骤5:计算状态变化范数σ=||st+1-st||,设定μ值变动的最低门限值l和μ值变动的最高门限值h;当σ<l时,μ值减0.1,并降低l、使l=0.6l;当σ>h时,μ值加0.1,并提高h、使h=1.2h;否则,μ值不变;
步骤6:k值加1,当k<Kmax(t),根据公式Kmax(t+1)=μKmax(t),更新最大迭代次数;令st=st+1,跳至步骤2;否则,停止迭代,跳至步骤7;
步骤7:对于每一个状态s∈S,选择d(st)∈argmaxQ(st,ut)得到最优策略。
另外,本发明步骤3中Q值更新原则为:反向依次更新,用t+1时刻Q值更新t时刻,直到t为0。当步骤6迭代结束后,每一状态都会有多个Q值分别对应同一状态的不同波形,找到每一状态下最大的Q值所对应的波形,该波形即为状态变化但该状态时所采用的策略,以此类推,每一状态都可以选出了对应的策略,此策略即为本算法的最优策略。
本发明的创新点及优点在于:
本发明能够根据环境状态的变化程度调整Q值的迭代次数,使得在相同的状态变化下,本发明可以用更少的迭代次数(计算量)达到与其他算法(迭代次数多于本算法)同样、甚至更好的波形选择效果。因此,本发明能够迅速地适应环境,当环境急剧变化的时候,采用更多步的信息来更新当前Q值,有效提高算法预见能力;同时,当环境变化很细微时,采用较少步的信息来更新Q值,有效减少算法复杂度;有效提高算法环境适应能力。
附图说明:
图1为本发明迭代步长可变的多步Q学习自适应方法流程图。
图2为最优策略、本专利算法、多步Q学习算法波形选择准确度比较图。
图3为最优策略、本专利算法、增量式Q学习算法波形选择准确度比较图。
具体实施方式:
下面结合具体实施例和附图对本发明作进一步详细说明。
本实施例通过在MATLAB R2010b对不同的环境变化情况下的波形选择准确性的仿真来验证的。本次仿真共设定了6种环境状态,同时,还设定了6种对应环境状态的最优波形,即构成了6个环境状态-动作对。首先,利用状态更新公式改变状态,并比较前后状态变化的程度,根据变化程度调整最大迭代次数,并记录下每次状态变化所后所选择的的波形以及所需的的迭代次数。然后,将选择的波形与最优波形作比较,计算出选择准确率。最后,将选择准确率与迭代次数在图上画出,并与其它算法比较。一种迭代步长可变的多步Q学习自适应方法,包括以下步骤:
步骤1:设定不同的状态-波形对,转移矩阵A以及测量概率矩阵B,对6种不同的状态设定6种不同的最优波形,并且设定状态转移矩阵以及测量概率矩阵;
步骤2:根据当前状态计算出使Q值最大的波形选择计算出使Q值最大时的Y(ut)值,即
步骤3:更新Q值
Qk+1(st,ut)=(1-αk+1)Qk(st,ut)+αk+1[Rt(st+1|st,ut)+λmaxQk(st+1,ut+1)];
步骤4:找到下一状态st+1
步骤5:将st+1与st比较,计算状态变化程度,根据状态变化程度改变Kmax(t+1)的值,以调整算法迭代次数;
以此σ=||st+1-st||作为环境状态变化的程度,设定μ值变动的最低门限值l和μ值变动的最高门限值h;当σ<l时,μ值减0.1,并降低l,使l=0.6l;当σ>h时,μ值加0.1,并提高h,使h=1.2h;否则,μ值不变;当σ<l,说明状态变化非常细微,此时可以减少迭代次数,降低计算量;同时,当σ>h时,增加迭代次数,保证预测的准确率;
步骤6:判断已经迭代的次数是否已经超出Kmax(t);
将当前k值与最大迭代Kmax(t)比较,判断迭代次数是否已经超出最大值,若超出,则停止迭代;否则,由于μ值的改变,使得下一时刻的Kmax(t+1)(其中Kmax(t+1)=μKmax(t))也随之改变;则跳回到第二步,进行下一次的迭代;
步骤7:当迭代结束时,对每一状态选择最优策略d(st),该策略为使下一时刻Q值达到最大的策略;
此时,迭代次数已经超过Kmax(t),对于每一个状态st,产生了多个Q值,每一个Q值对应一个波形ut,其中使Q值最大的波形ut,即为该状态下的最优策略。以此类推,每一个状态都可以找到一个使Q值最大的波形ut,即最优策略向量d(st)。
将每一次状态变化后所确定的Kmax(t)与所选择的波形记录下来,并将此波形与最优波形比较差别(即准确率);将前一步得到的策略与最优策略比较,比较后的差别即为准确率;并且记录下每一状态变化后的Kmax(t);将每一对比较准确率与迭代次数作为横纵坐标,画出图形。如图2所示,基于同样的波形选择准确度,本专利算法使用了更少的测量次数(即迭代次数),比起多步Q学习算法更为接近最优波形算法的效果。这样,同等的波形选择准确度下,本专利算法便减少了计算量,节约了计算时间,提高了自适应能力。如图3所示,基于同样的波形选择准确度,本专利算法使用了更少的测量次数(即迭代次数),比起增量式Q学习算法计算量更少,提高了计算效率,提高自适应能力。

Claims (1)

1.一种迭代步长可变的多步Q学习自适应方法,包括以下步骤:
步骤1:初始化所有的(s,u),其中s∈S,u∈A(u),S表示状态集合,s表示集合中一个状态;u为系统选择波形,A(u)为波形集合;令Q(s,u)=0,k=0,k表示迭代次数,设定最大迭代次数Kmax(t),以及更新公式:Kmax(t+1)=μKmax(t),0<μ<2,初始值为1;
步骤2:雷达环境学习,令当前状态为st,雷达发射波形集合中不同的波形,并记录不同波形所产生的Q值,通过比较确定Q值最大的对应波形u,即:Y(ut)=argmaxQk(st,ut);
步骤3:利用更新公式更新Q值:
Qk+1(st,ut)=(1-αk+1)Qk(st,ut)+αk+1[Rt(st+1|st,ut)+λmaxQk(st+1,ut+1)]
其中,st代表t时刻状态,ut代表t时刻发射波形,Rt(st+1|st,ut)为t时刻、环境状态为st、发射波形为ut的情况下状态变换到st+1产生的报酬函数,λ为设定折扣因子;
步骤4:确定下一状态,根据状态转移矩阵A,测量概率矩阵B,确定下一状态st+1
I为对角矩阵;
步骤5:计算状态变化范数σ=||st+1-st||,设定μ值变动的最低门限值l和μ值变动的最高门限值h;当σ<l时,μ值减0.1,并降低l、使l=0.6l;当σ>h时,μ值加0.1,并提高h、使h=1.2h;否则,μ值不变;
步骤6:k值加1,当k<Kmax(t),根据公式Kmax(t+1)=μKmax(t),更新最大迭代次数;令st=st+1,跳至步骤2;否则,停止迭代,跳至步骤7;
步骤7:对于每一个状态s∈S,选择d(st)∈argmaxQ(st,ut)得到最优策略。
CN201510212647.5A 2015-04-29 2015-04-29 一种迭代步长可变的多步q学习自适应方法 Expired - Fee Related CN104794359B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510212647.5A CN104794359B (zh) 2015-04-29 2015-04-29 一种迭代步长可变的多步q学习自适应方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510212647.5A CN104794359B (zh) 2015-04-29 2015-04-29 一种迭代步长可变的多步q学习自适应方法

Publications (2)

Publication Number Publication Date
CN104794359A CN104794359A (zh) 2015-07-22
CN104794359B true CN104794359B (zh) 2017-12-15

Family

ID=53559150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510212647.5A Expired - Fee Related CN104794359B (zh) 2015-04-29 2015-04-29 一种迭代步长可变的多步q学习自适应方法

Country Status (1)

Country Link
CN (1) CN104794359B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017044842A1 (en) * 2015-09-11 2017-03-16 Google Inc. Training reinforcement learning neural networks
CN105388461B (zh) * 2015-10-31 2017-12-01 电子科技大学 一种雷达自适应行为q学习方法
CN106156501B (zh) * 2016-07-04 2018-07-31 厦门大学 一种基于挠度影响线的桥梁局部损伤量化方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH086921A (ja) * 1994-06-21 1996-01-12 Nippon Telegr & Teleph Corp <Ntt> 環境適応型プラン生成装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH086921A (ja) * 1994-06-21 1996-01-12 Nippon Telegr & Teleph Corp <Ntt> 環境適応型プラン生成装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
自适应回波抵消中变步长NLMS算法;张琦 等;《数据采集与处理》;20130131;第28卷(第1期);第64-68页 *
认知雷达中基于Q学习的自适应波形选择算法;王彬 等;《系统工程与电子技术》;20110531;第33卷(第5期);第1007-1012页 *

Also Published As

Publication number Publication date
CN104794359A (zh) 2015-07-22

Similar Documents

Publication Publication Date Title
CN107767405B (zh) 一种融合卷积神经网络的核相关滤波目标跟踪方法
CN110824450B (zh) 一种噪声环境下的雷达目标hrrp鲁棒识别方法
CN105142177B (zh) 复数神经网络信道预测方法
CN105307264B (zh) 一种无线传感器网络的移动节点定位方法
CN107944559A (zh) 一种实体关系自动识别方法及系统
Zhu et al. Accurate WiFi-based indoor localization by using fuzzy classifier and mlps ensemble in complex environment
CN104794359B (zh) 一种迭代步长可变的多步q学习自适应方法
CN109151727B (zh) 基于改进的dbn的wlan指纹定位数据库构建方法
CN104820997A (zh) 一种基于分块稀疏表达与hsv特征融合的目标跟踪方法
CN107528650A (zh) 一种基于gcv‑rbf神经网络的认知无线电网络频谱的预测方法
CN110969186B (zh) 基于通道检测的面向无线信号识别的对抗攻击防御方法与装置
CN110426671B (zh) Wsn中基于模型概率实时修正的imm目标跟踪方法及装置
Chen et al. A wifi indoor localization method based on dilated cnn and support vector regression
Tong et al. A fine-grained channel state information-based deep learning system for dynamic gesture recognition
Park et al. Enhanced machine learning algorithms: deep learning, reinforcement learning, and q-learning
CN106054127A (zh) 无线传感器网络智能修正测距定位方法
CN108986083A (zh) 基于阈值优化的sar图像变化检测方法
Zhou et al. Deep radio signal clustering with interpretability analysis based on saliency map
CN115577305B (zh) 一种无人机信号智能识别方法及装置
Li et al. Research on the improvement of vision target tracking algorithm for Internet of things technology and Simple extended application in pellet ore phase
CN109255321A (zh) 一种结合历史与即时信息的视觉追踪分类器构建方法
CN114724245A (zh) 基于csi的增量学习人体动作识别方法
CN104965593B (zh) 基于行为感知的智能手机拍照节能系统及工作方法
Pasha et al. Enhanced fingerprinting based indoor positioning using machine learning
CN113343924A (zh) 一种基于多尺度循环谱特征和自注意力生成对抗网络的调制信号识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171215

Termination date: 20210429

CF01 Termination of patent right due to non-payment of annual fee