CN114531647B - 一种扩散分子通信环境下的多层自适应奖励目标溯源方法 - Google Patents
一种扩散分子通信环境下的多层自适应奖励目标溯源方法 Download PDFInfo
- Publication number
- CN114531647B CN114531647B CN202210040801.5A CN202210040801A CN114531647B CN 114531647 B CN114531647 B CN 114531647B CN 202210040801 A CN202210040801 A CN 202210040801A CN 114531647 B CN114531647 B CN 114531647B
- Authority
- CN
- China
- Prior art keywords
- molecular
- round
- value
- threshold
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000009792 diffusion process Methods 0.000 title claims abstract description 17
- 230000007860 molecular communication Effects 0.000 title claims abstract description 17
- 230000033001 locomotion Effects 0.000 claims abstract description 34
- 230000002787 reinforcement Effects 0.000 claims abstract description 8
- 230000009471 action Effects 0.000 claims description 21
- 239000003068 molecular probe Substances 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 9
- 230000000386 athletic effect Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims 1
- 230000006854 communication Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 241001168730 Simo Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003592 biomimetic effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000012377 drug delivery Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000002906 microbiologic effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000002105 nanoparticle Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000003016 pheromone Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/025—Services making use of location information using location based information parameters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/023—Services making use of location information using mutual or relative location information between multiple location based services [LBS] targets or of distance thresholds
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种扩散分子通信环境下基于强化学习的多层自适应奖励目标溯源方法。首先输入算法所需的参数,设计多层阈值模型和分子探测器的运动方式;然后,让分子探测器探索若干回合获取阈值的初始值并更新奖励信息;最后,以固定回合数更新多层阈值,接收机经过若干次迭代之后找到目标。本发明能够解决复杂扩散分子通信环境下分子探测器的路径规划问题。该方案具有定位精度高、复杂度低、快速定位等优点。
Description
技术领域
本发明涉及一种扩散分子通信环境下基于强化学习的多层自适应奖励目标溯源方法。
背景技术
分子通信(Molecular Communication,MC)是一种基于纳米尺度粒子传输的仿生方法。常规的基于波场激励的通信系统无法应用于小型通信环境,而分子通信具有优秀的生物兼容性和较低的功耗,被广泛应用于环境监测、药物输送和疾病感测领域。因此,MC是未来微型生物纳米网络中最重要的技术之一。
在MC系统中,发射源的位置是一个重要参数。利用分子探测器和发射源之间的位置信息以及菲克定律可以计算出MC的信道冲激响应(CSI)。这样就不需要进行多次信道估计,大大降低了MC的通信复杂度。此外,如果确定了分子探测器和发射源之间的位置信息,分子探测器可以往返到发射源完成许多指定任务,如污染清理、资源补充等工作。
目前,距离估计和信源定位已经在许多论文中进行了研究。在“X.Wang,M.D.Higgins,and M.S.Leeson,“Distance estimation schemes for diffusion basedmolecular communication systems,”IEEE Communications Letters,vol.19,no.3,pp.399–402,2015”中,作者使用浓度峰值时间和接收到的浓度值来估计距离,但它不能准确地得到分子探测器通过距离的位置。“S.Huang,L.Lin,W.Guo,H.Yan,J.Xu,and F.Liu,“Initial distance estimation for diffusive mobile molecular communicationsystems,”in 2019 IEEE/CIC International Conference on CommunicationsWorkshops in China(ICCC Workshops),2019,pp.174–179”只研究了简单场景下的高精度距离估计方案,没有考虑到障碍物。虽然“Y.Miao,W.Zhang,and X.Bao,“Cooperativesource positioning for simo molecular communication via diffusion,”in 2019IEEE 19th International Conference on Communication Technology(ICCT),2019,pp.495–499”通过协作源定位获得了发射机的位置,但它使用多个分子探测器协同工作会消耗很多的资源。“A.Ahmadzadeh,V.Jamali,and R.Schober,“Stochastic channelmodeling for diffusive mobile molecular communication systems,”IEEETransactions on Communications,vol.66,no.12,pp.6205–6220,2018”研究了随机运动下的信道冲激响应(CSI);“Z.Luo,L.Lin,Q.Fu,and H.Yan,“An effective distancemeasurement method for molecular communication systems,”in 2018 IEEEInternational Conference on Sensing,Communication and Networking(SECONWorkshops),2018,pp.1–4”利用已知的信道冲激响应(CSI)推导出接收机和发射机之间的初始距离,但无法解决移动过程中的定位问题。以上问题都是基于已知的CSI来完成距离估计的。然而,随着环境的变化,CSI通常是未知的。复杂环境下的发射源定位问题尚未解决。
本发明基于Q-Learning路径规划方案,提出了适用于扩散环境的多层自适应奖励阈值方案,最终结果表明其可大大降低迭代回合,增加定位效率,并能够在指定时间内完成任务。
发明内容
发明目的:为解决传统扩散系统中定位精度不佳、迭代次数过长等问题,本发明基于Q-Learning的路径规划系统设计出了一种多层自适应的奖励阈值方案,并将此方案与现有的扩散系统相结合,大大提高了扩散系统中分子探测器的定位效率,并能够在有界空间内任意位置找到发射源。
为了达到上述技术效果,本发明的技术方案如下:
一种扩散分子通信环境下基于强化学习的多层自适应奖励目标溯源方法,能够引导分子探测器避开障碍物找到目标位置,具体步骤如下:
步骤1:分子探测器起点位置坐标O,可行位置集合S,分子探测器每步的运动距离d和动作集合A={(0,0,±d),(0,±d,0),(±d,0,0)},学习率α,衰减因子γ,分子探测器每回合的运动时间ttot,探测目标释放分子的时间周期tin,分子探测器每步的运动时间间隔ts,选择运动方向的概率ε∈[0,1],每回合的最大运动步数Wmax=ttot/ts,初始迭代回合数N1,最大更新迭代回合数N2,碰到障碍物给予的惩罚值efail,达到分子数阈值给予的奖励值达到步数阈值给予的奖励值,成功找到目标给予的奖励值esus,设置Q表的初值全为0,Q(i,j)表示Q表第i行、第j列的值,其分别对应第i个状态(si∈S,i=1,···,|S|)和第j个动作(aj∈A,j=1,···,|A|),其中|S|和|A|分别表示集合|S|和|A|的大小;
步骤2:每个训练回合内,分子探测器从初始位置O出发,满足以下3个条件之一则回合终止:1)运动步数达到Wmax;2)分子探测器碰到障碍物;3)分子探测器找到目标;
步骤3:令多层自适应奖励阈值方案的层数为 代表向上取整;分子数阈值Φt和运动步数阈值Ψt表示为:
其中,和/>分别表示为t时刻第l层对应的接收分子数和分子探测器每回合所运动的步数;首先分子探测器探索N1个初始回合,利用平均接收分子数/>得到分子数阈值、运动步数阈值的初值Φ0、Ψ0;
步骤4:分子探测器根据Φt和Ψt设置奖励r并更新Q表;每隔N2个回合更新分子数阈值Φt;直至找到目标则训练停止;
步骤5:输出分子探测器最优运动路径,即从初始位置O出发,在训练得到的Q表中选择当前位置对应的Q值最大的方向进行运动,直至运动到目标位置,该路径即为最优运动路径;
2、步骤3中,分子数初值Φ0和步数初值Ψ0的具体设置步骤如下:
步骤201:设置N1个初始回合,令每个回合接收分子数为其中/>表示当前回合N中第W步的接收分子数;记当前回合数N=1;
步骤202:若N>N1,跳转至步骤206;设置分子探测器当前位置s=O,步数W=0;
步骤203:分子探测器按照下式所示的概率从Q表中选择当前位置s对应的动作aj:
其中,表示si状态下选择aj的概率,argmaxQ(i,j)表示从Q表的第i行找到能使得Q(i,j)最大的j;若6个方向对应的Q值全部相等,则从A中以等概的方式随机选择一个方向运动;
步骤204:分子探测器执行动作aj,当前位置更新为s←s+aj,当前步数W←W+1,当前步数的接收分子数记为
步骤205:若满足步骤2中3个回合终止条件,则开始一个新的回合,N←N+1并跳转至步骤206;否则,跳转至步骤203;
步骤206:对N1个回合的接收分子数mN取平均得:
记表示/>中从第(l-1)·tin·Wmax+1个到第l·tin·Wmax个数据中的最大值,该最大值在/>中的位置记为φl,其中l=1,···,L;
步骤207:令第l层步数阈值初值并得到/>第l层接收分子数阈值/>计算方法为:
表示/>中第W个数值,从而得到/>
3、步骤4中,分子数阈值和运动步数阈值Φt、Ψt以及Q表的更新,步骤如下:
步骤301:令Φt=Φ0,Ψt=Ψ0,记当前回合数N=1;令其中/>表示当前回合N第W步的接收分子数,(N=1,···,∞);
步骤302:设置分子探测器当前位置s=O,步数W=0,当前回合接收的总分子数若N>N2且可以被N2整除,则更新分子数阈值Φt;令当前回合分子数阈值层数lN=1;
步骤303:根据步骤203选择动作aj,分子探测器执行动作aj,当前位置更新为s←s+aj,当前步数W=W+1,当前步数W的接收分子数记为更新当前回合接收的总分子数
步骤304:计算奖励r,并按照如下公式更新Q表
其中,Q(i′,j′)表示在下一状态si′=s+aj做出动作aj′时所对应的Q值;
步骤305:若满足步骤2中3个回合终止条件,则开始一个新的回合,N←N+1并跳转至步骤302;
步骤306:开始新的一步,并跳转至步骤303。
4、所述步骤302中更新分子数阈值Φt的步骤如下:
步骤401:令表示第l层分子数阈值对应的更新指标,其中/>表示第N-N2+1个回合中前/>步的接收分子数;
步骤402:选取ml中最大的数值作为第l层分子数阈值,即 并更新分子数阈值/>
5、所述步骤304中,奖励r的计算步骤如下:
步骤501:令r←0;
步骤502:若达到分子数阈值,则设置分子数奖励r←r+rMol,其中rMol表示达到分子数阈值的奖励,并且若/>则同时设置步数奖励r←r+rW,其中rW表示达到运动步数阈值的奖励;
步骤503:若碰到障碍物,则r←efail,其中efail表示碰到障碍物的惩罚值;
步骤504:若找到目标,则r←esus,其中esus表示找到目标的奖励值;
6、所述步骤502中,分子数奖励和步数奖励的计算方法如下:
步骤601:rMol=0,rW=0;
步骤602:若lN>L,则结束奖励值计算;否则,执行步骤603;
步骤603:若则结束奖励值计算;否则,执行步骤604;
步骤604:令其中,/>为满足分子数阈值时获得的奖励值;若当前步数/>时,则令/>其中,/>为满足运动步数阈值时获得的奖励值;
步骤605:令lN←lN+1,跳转至步骤602;
有益效果:与现有技术相比,本发明所提供的基于强化学习的自适应多层奖励阈值方案,具有如下优点:
(1)应用范围广泛。本发明所提出方案可以灵活地应用于任意规模的扩散环境中,其不受湍流、平流扩散环境的影响,也不受环境中障碍物数目的影响;
(2)定位精度较高。本发明所提出方案简单易行,可跨过障碍物直接找到目标,定位精度较高;
(3)定位效率高。本发明所提出的方案能够以较低的实现复杂度,大大降低实验所需的迭代次数。
附图说明
图1为本发明实例中提出的一种扩散分子通信环境下基于强化学习的多层自适应奖励溯源定位方法实施流程图;
图2为本发明实例中提出的一种扩散分子通信环境下基于强化学习的多层自适应奖励溯源定位方法系统结构图;
图3为本发明实例中提出方案的仿真路径图对比图,红色三角表示本文所述的自适应多层奖励阈值方案方案,黑色圆圈表示基于浓度梯度的路径规划算法;
图4为本发明实例中提出方案的路径规划性能对比图;
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本发明所限定的范围。
如图1所示,本发明的具体实施步骤主要包含以下十三个步骤:
第一步:分子探测器起点位置坐标O,可行位置集合S,分子探测器每步的运动距离d和动作集合A={(0,0,±d),(0,±d,0),(±d,0,0)},学习率α,衰减因子γ,分子探测器每回合的运动时间ttot,探测目标释放分子的时间周期tin,分子探测器每步的运动时间间隔ts,选择运动方向的概率ε∈[0,1],每回合的最大运动步数Wmax=ttot/ts,初始迭代回合数N1,最大更新迭代回合数N2,碰到障碍物给予的惩罚值efail,达到分子数阈值给予的奖励值达到步数阈值给予的奖励值,成功找到目标给予的奖励值esus,设置Q表的初值全为0,Q(i,j)表示Q表第i行、第j列的值,其分别对应第i个状态(si∈S,i=1,···,|S|)和第j个动作(aj∈A,j=1,···,|A|),其中|S|和|A|分别表示集合|S|和|A|的大小;
第二步:每个训练回合内,分子探测器从初始位置O出发,满足以下3个条件之一则回合终止:1)运动步数达到Wmax;2)分子探测器碰到障碍物;3)分子探测器找到目标;
第三步:令多层自适应奖励阈值方案的层数为 代表向上取整;分子数阈值Φt和运动步数阈值Ψt表示为:
其中,和/>分别表示为t时刻第l层对应的接收分子数和分子探测器每回合所运动的步数;首先分子探测器探索N1个初始回合,利用平均接收分子数/>得到分子数阈值、运动步数阈值的初值Φ0、Ψ0;
第四步:分子探测器根据Φt和Ψt设置奖励r并更新Q表;每隔N2个回合更新分子数阈值Φt;直至找到目标则训练停止;
第五步:输出分子探测器最优运动路径,即从初始位置O出发,在训练得到的Q表中选择当前位置对应的Q值最大的方向进行运动,直至运动到目标位置,该路径即为最优运动路径;
第六步:设置分子数初值Φ0和步数初值Ψ0:
步骤601:设置N1个初始回合,令每个回合接收分子数为其中/>表示当前回合N中第W步的接收分子数;记当前回合数N=1;
步骤602:若N>N1,跳转至步骤606;设置分子探测器当前位置s=O,步数W=0;
步骤603:分子探测器按照下式所示的概率从Q表中选择当前位置s对应的动作aj:
其中,表示si状态下选择aj的概率,arg maxQ(i,j)表示从Q表的第i行找到能使得Q(i,j)最大的j;若6个方向对应的Q值全部相等,则从A中以等概的方式随机选择一个方向运动;
步骤604:分子探测器执行动作aj,当前位置更新为s←s+aj,当前步数W←W+1,当前步数的接收分子数记为
步骤605:若满足第二步中3个回合终止条件,则开始一个新的回合,N←N+1并跳转至步骤606;否则,跳转至步骤603;
步骤606:对N1个回合的接收分子数mN取平均得:
记表示/>中从第(l-1)·tin·Wmax+1个到第l·tin·Wmax个数据中的最大值,该最大值在/>中的位置记为φl,其中l=1,···,L;
步骤607:令第l层步数阈值初值并得到/>第l层接收分子数阈值/>计算方法为:
表示/>中第W个数值,从而得到/>
第七步:分子数阈值和运动步数阈值Φt、Ψt以及Q表的更新:
步骤701:令Φt=Φ0,Ψt=Ψ0,记当前回合数N=1;令其中/>表示当前回合N第W步的接收分子数,(N=1,···,∞);
步骤702:设置分子探测器当前位置s=O,步数W=0,当前回合接收的总分子数若N>N2且可以被N2整除,则更新分子数阈值Φt;令当前回合分子数阈值层数lN=1;
步骤703:根据第六步步骤603选择动作aj,分子探测器执行动作aj,当前位置更新为s←s+aj,当前步数W=W+1,当前步数W的接收分子数记为更新当前回合接收的总分子数/>
步骤704:计算奖励r,并按照如下公式更新Q表
其中,Q(i′,j′)表示在下一状态si′=s+aj做出动作aj′时所对应的Q值;
步骤705:若满足第二步中3个回合终止条件,则开始一个新的回合,N←N+1并跳转至步骤702;
步骤706:开始新的一步,并跳转至步骤703。
第八步:第七步所述步骤702中更新分子数阈值Φt的步骤如下:
步骤801:令表示第l层分子数阈值对应的更新指标,其中/>表示第N-N2+1个回合中前/>步的接收分子数;
步骤802:选取ml中最大的数值作为第l层分子数阈值,即(l=1,···,L),并更新分子数阈值/>
第九步:第七步所述步骤704中,奖励r的计算步骤如下:
步骤901:令r←0;
步骤902:若达到分子数阈值,则设置分子数奖励r←r+rMol,其中rMol表示达到分子数阈值的奖励,并且若/>则同时设置步数奖励r←r+rW,其中rW表示达到运动步数阈值的奖励,;
步骤903:若碰到障碍物,则r←efail,其中efail表示碰到障碍物的惩罚值;
步骤904:若找到目标,则r←esus,其中esus表示找到目标的奖励值;
第十步:第九步所述步骤902中,分子数奖励和步数奖励的计算方法如下:
步骤1001:rMol=0,rW=0;
步骤1002:若lN>L,则结束奖励值计算,否则,执行步骤1003;
步骤1003:若则结束奖励值计算;否则,执行步骤1004;
步骤1004:令其中,/>为满足分子数阈值时获得的奖励值;若当前步数/>时,则令/>其中,/>为满足运动步数阈值时获得的奖励值;
步骤1005:令lN←lN+1,跳转至步骤1002;
第十一步:为进一步对本发明的方法进行性能分析,验证本发明所提出的有效性,所述的实现模型如图2所示,该模型拥有3个障碍物,一个发射源,一个分子探测器。验证实验采取基于浓度梯度的路径规划算法、Sarsa算法和蚁群算法作为对比,所述的基于浓度梯度的路径规划算法是一种局部最优信息的驱动式算法,其对比6个移动方向的浓度,选择浓度最大的方向运动,其较易陷入局部最优;Sarsa算法和蚁群算法都是一种启发式智能算法,Sarsa使用更加保守的方式对Q值公式进行更新,整个实现流程仍然采用本文所述的自适应阈值方法,而蚁群算法在走过的路径上叠加信息素,收敛速度较慢,消耗资源较多。
第十二步:图3表示利用本发明所提方法与基于浓度梯度的路径规划算法的路径对比图;实验条件是通过十万个迭代回合运行,选出其中成功的一个进行对比。由图3可知,本发明所提方案可以在限定时间内完美的避开障碍物并完成溯源工作,而基于浓度梯度的路径规划算法陷入局部最优,无法找到发射源。
第十三步:图4表示利用本发明所提方法、蚁群算法和Sarsa算法的探索回合的性能对比图;实验展示了找到发射源的回合数与运动时间(即发射器每个迭代回合的运动步数)之间的关系,有图4可知,本发明所提的基于强化学习的自适应奖励阈值方法可以用最少的步数找到目标,并且在相同运动步数情况下,其找到目标的回合数最少。
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种扩散分子通信环境下基于强化学习的多层自适应奖励目标溯源方法,其特征在于,能够引导分子探测器避开障碍物找到目标位置,具体步骤如下:
步骤1:设定分子探测器起点位置坐标O,可行位置集合S,分子探测器每步的运动距离d和动作集合A={(0,0,±d),(0,±d,0),(±d,0,0)},学习率α,衰减因子γ,分子探测器每回合的运动时间ttot,探测目标释放分子的时间周期tin,分子探测器每步的运动时间间隔ts,选择运动方向的概率ε∈[0,1],每回合的最大运动步数Wmax=ttot/ts,初始迭代回合数N1,最大更新迭代回合数N2,碰到障碍物给予的惩罚值efail,达到分子数阈值给予的奖励值达到步数阈值给予的奖励值,成功找到目标给予的奖励值esus,设置Q表的初值全为0,Q(i,j)表示Q表第i行、第j列的值,其分别对应第i个状态(si∈S,i=1,···,|S|)和第j个动作(aj∈A,j=1,···,|A|),其中|S|和|A|分别表示集合|S|和|A|的大小;
步骤2:每个训练回合内,分子探测器从初始位置O出发,满足以下3个条件之一则回合终止:1)运动步数达到Wmax;2)分子探测器碰到障碍物;3)分子探测器找到目标;
步骤3:令多层自适应奖励阈值方案的层数为 代表向上取整;分子数阈值Φt和运动步数阈值Ψt表示为:
其中,和/>分别表示为t时刻第l层对应的接收分子数和分子探测器每回合所运动的步数;首先分子探测器探索N1个初始回合,利用平均接收分子数/>得到分子数阈值、运动步数阈值的初值Φ0、Ψ0;
步骤4:分子探测器根据Φt和Ψt设置奖励r并更新Q表;每隔N2个回合更新分子数阈值Φt;直至找到目标则训练停止;
步骤5:输出分子探测器最优运动路径,即从初始位置O出发,在训练得到的Q表中选择当前位置对应的Q值最大的方向进行运动,直至运动到目标位置,该路径即为最优运动路径;
分子数初值Φ0和步数初值Ψ0的具体设置步骤如下:
步骤201:设置N1个初始回合,令每个回合接收分子数为其中/>表示当前回合N中第W步的接收分子数;记当前回合数N=1;
步骤202:若N>N1,跳转至步骤206;设置分子探测器当前位置s=O,步数W=0;
步骤203:分子探测器按照下式所示的概率从Q表中选择当前位置s对应的动作aj:
其中,表示si状态下选择aj的概率,argmaxQ(i,j)表示从Q表的第i行找到能使得Q(i,j)最大的j;若6个方向对应的Q值全部相等,则从A中以等概的方式随机选择一个方向运动;
步骤204:分子探测器执行动作aj,当前位置更新为s←s+aj,当前步数W←W+1,当前步数的接收分子数记为
步骤205:若满足所述步骤2中3个回合终止条件,则开始一个新的回合,N←N+1并跳转至步骤206;否则,跳转至步骤203;
步骤206:对N1个回合的接收分子数mN取平均得:
记表示/>中从第(l-1)·tin·Wmax+1个到第l·tin·Wmax个数据中的最大值,该最大值在/>中的位置记为φl,其中l=1,···,L;
步骤207:令第l层步数阈值初值并得到/>第l层接收分子数阈值/>计算方法为:
表示/>中第W个数值,从而得到/>
所述步骤4中,分子数阈值和运动步数阈值Φt、Ψt以及Q表的更新,步骤如下:
步骤301:令Φt=Φ0,Ψt=Ψ0,记当前回合数N=1;令其中表示当前回合N第W步的接收分子数,(N=1,···,∞);
步骤302:设置分子探测器当前位置s=O,步数W=0,当前回合接收的总分子数若N>N2且可以被N2整除,则更新分子数阈值Φt;令当前回合分子数阈值层数lN=1;
步骤303:根据步骤203选择动作aj,分子探测器执行动作aj,当前位置更新为s←s+aj,当前步数W=W+1,当前步数W的接收分子数记为更新当前回合接收的总分子数
步骤304:计算奖励r,并按照如下公式更新Q表
其中,Q(i′,j′)表示在下一状态si′=s+aj做出动作aj′时所对应的Q值;
步骤305:若满足所述步骤2中3个回合终止条件,则开始一个新的回合,N←N+1并跳转至步骤302;
步骤306:开始新的一步,并跳转至步骤303;
所述步骤302中更新分子数阈值Φt的步骤如下:
步骤401:令表示第l层分子数阈值对应的更新指标,其中表示第N-N2+1个回合中前/>步的接收分子数;
步骤402:选取ml中最大的数值作为第l层分子数阈值,即(l=1,···,L),并更新分子数阈值/>
所述步骤304中,奖励r的计算步骤如下:
步骤501:令r←0;
步骤502:若达到分子数阈值,则设置分子数奖励r←r+rMol,其中rMol表示达到分子数阈值的奖励,并且若/>则同时设置步数奖励r←r+rW,其中rW表示达到运动步数阈值的奖励;
步骤503:若碰到障碍物,则r←efail,其中efail表示碰到障碍物的惩罚值;
步骤504:若找到目标,则r←esus,其中esus表示找到目标的奖励值;
所述步骤502中,分子数奖励和步数奖励的计算方法如下:
步骤601:rMol=0,rW=0;
步骤602:若lN>L,则结束奖励值计算,否则,执行步骤603;
步骤603:若(表示为t时刻第lN层对应的接收分子数),则结束奖励值计算;否则,执行步骤604;
步骤604:令其中,/>为满足分子数阈值时获得的奖励值;若当前步数时,则令/>其中,/>为满足运动步数阈值时获得的奖励值;
步骤605:令lN←lN+1,跳转至步骤602。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210040801.5A CN114531647B (zh) | 2022-01-13 | 2022-01-13 | 一种扩散分子通信环境下的多层自适应奖励目标溯源方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210040801.5A CN114531647B (zh) | 2022-01-13 | 2022-01-13 | 一种扩散分子通信环境下的多层自适应奖励目标溯源方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114531647A CN114531647A (zh) | 2022-05-24 |
CN114531647B true CN114531647B (zh) | 2024-03-22 |
Family
ID=81620155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210040801.5A Active CN114531647B (zh) | 2022-01-13 | 2022-01-13 | 一种扩散分子通信环境下的多层自适应奖励目标溯源方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114531647B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107046433A (zh) * | 2017-04-26 | 2017-08-15 | 江苏大学 | 一种大规模mimo系统上行链路低复杂度迭代检测算法 |
CN111443178A (zh) * | 2020-05-11 | 2020-07-24 | 河海大学 | 基于分子通信机理的水污染源快速追踪溯源方法与系统 |
CN111880549A (zh) * | 2020-09-14 | 2020-11-03 | 大连海事大学 | 面向无人船路径规划的深度强化学习奖励函数优化方法 |
CN111896006A (zh) * | 2020-08-11 | 2020-11-06 | 燕山大学 | 一种基于强化学习和启发式搜索的路径规划方法及系统 |
-
2022
- 2022-01-13 CN CN202210040801.5A patent/CN114531647B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107046433A (zh) * | 2017-04-26 | 2017-08-15 | 江苏大学 | 一种大规模mimo系统上行链路低复杂度迭代检测算法 |
CN111443178A (zh) * | 2020-05-11 | 2020-07-24 | 河海大学 | 基于分子通信机理的水污染源快速追踪溯源方法与系统 |
CN111896006A (zh) * | 2020-08-11 | 2020-11-06 | 燕山大学 | 一种基于强化学习和启发式搜索的路径规划方法及系统 |
CN111880549A (zh) * | 2020-09-14 | 2020-11-03 | 大连海事大学 | 面向无人船路径规划的深度强化学习奖励函数优化方法 |
Non-Patent Citations (1)
Title |
---|
复杂扩散环境中分子通信系统溯源定位方法研;娄智波;《中国优秀硕士学位论文全文数据库》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114531647A (zh) | 2022-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111754000B (zh) | 质量感知的边缘智能联邦学习方法及系统 | |
Liu et al. | Energy-efficient UAV crowdsensing with multiple charging stations by deep learning | |
Kim et al. | Landmark-guided subgoal generation in hierarchical reinforcement learning | |
CN114422056B (zh) | 基于智能反射面的空地非正交多址接入上行传输方法 | |
CN110989352B (zh) | 一种基于蒙特卡洛树搜索算法的群体机器人协同搜索方法 | |
CN110234085B (zh) | 基于对抗迁移网络的室内位置指纹地图生成方法及系统 | |
CN106353725A (zh) | 基于rssi的室内移动目标定位方法 | |
CN101820676B (zh) | 传感器节点定位方法 | |
CN107169557A (zh) | 一种对布谷鸟优化算法进行改进的方法 | |
CN106162869B (zh) | 移动自组织网络中高效协作定位方法 | |
CN105828287A (zh) | 一种基于强化学习的无线传感器网络协同跟踪方法 | |
CN113325875B (zh) | 一种实现无人机数目最小化的无人机路径规划方法 | |
CN108882172A (zh) | 一种基于hmm模型的室内移动轨迹数据的预测方法 | |
CN108834047B (zh) | 一种路径损耗模型的ap选择室内定位方法 | |
CN103338491B (zh) | 一种基于蜂群算法的移动信标路径选择方法 | |
CN107367710A (zh) | 一种基于时延和多普勒的分布式自适应粒子滤波直接跟踪定位方法 | |
CN114531647B (zh) | 一种扩散分子通信环境下的多层自适应奖励目标溯源方法 | |
CN112444778A (zh) | 一种基于dbscan的参考点加权三边质心定位方法 | |
CN112330001A (zh) | 一种基于离散蝙蝠算法的物流配送车辆路径优化方法 | |
CN112484733B (zh) | 一种基于拓扑图的强化学习室内导航方法 | |
Junoh et al. | Enhancing indoor localization with semi-crowdsourced fingerprinting and gan-based data augmentation | |
Chen et al. | Rule-based wifi localization methods | |
Sadhukhan et al. | A novel weighted fusion based efficient clustering for improved wi-fi fingerprint indoor positioning | |
CN109041093A (zh) | 一种盲信号源功率位置联合估计方法及系统 | |
WO2022127573A1 (zh) | 一种用户轨迹定位方法、电子设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |