CN114531647B

CN114531647B - 一种扩散分子通信环境下的多层自适应奖励目标溯源方法

Info

Publication number: CN114531647B
Application number: CN202210040801.5A
Authority: CN
Inventors: 张文策; 娄智波; 鲍煦
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2024-03-22
Anticipated expiration: 2042-01-13
Also published as: CN114531647A

Abstract

本发明公开一种扩散分子通信环境下基于强化学习的多层自适应奖励目标溯源方法。首先输入算法所需的参数，设计多层阈值模型和分子探测器的运动方式；然后，让分子探测器探索若干回合获取阈值的初始值并更新奖励信息；最后，以固定回合数更新多层阈值，接收机经过若干次迭代之后找到目标。本发明能够解决复杂扩散分子通信环境下分子探测器的路径规划问题。该方案具有定位精度高、复杂度低、快速定位等优点。

Description

一种扩散分子通信环境下的多层自适应奖励目标溯源方法

技术领域

本发明涉及一种扩散分子通信环境下基于强化学习的多层自适应奖励目标溯源方法。

背景技术

分子通信(Molecular Communication,MC)是一种基于纳米尺度粒子传输的仿生方法。常规的基于波场激励的通信系统无法应用于小型通信环境，而分子通信具有优秀的生物兼容性和较低的功耗，被广泛应用于环境监测、药物输送和疾病感测领域。因此，MC是未来微型生物纳米网络中最重要的技术之一。

在MC系统中，发射源的位置是一个重要参数。利用分子探测器和发射源之间的位置信息以及菲克定律可以计算出MC的信道冲激响应(CSI)。这样就不需要进行多次信道估计，大大降低了MC的通信复杂度。此外，如果确定了分子探测器和发射源之间的位置信息，分子探测器可以往返到发射源完成许多指定任务，如污染清理、资源补充等工作。

目前，距离估计和信源定位已经在许多论文中进行了研究。在“X.Wang,M.D.Higgins,and M.S.Leeson,“Distance estimation schemes for diffusion basedmolecular communication systems,”IEEE Communications Letters,vol.19,no.3,pp.399–402,2015”中，作者使用浓度峰值时间和接收到的浓度值来估计距离，但它不能准确地得到分子探测器通过距离的位置。“S.Huang,L.Lin,W.Guo,H.Yan,J.Xu,and F.Liu,“Initial distance estimation for diffusive mobile molecular communicationsystems,”in 2019 IEEE/CIC International Conference on CommunicationsWorkshops in China(ICCC Workshops),2019,pp.174–179”只研究了简单场景下的高精度距离估计方案，没有考虑到障碍物。虽然“Y.Miao,W.Zhang,and X.Bao,“Cooperativesource positioning for simo molecular communication via diffusion,”in 2019IEEE 19th International Conference on Communication Technology(ICCT),2019,pp.495–499”通过协作源定位获得了发射机的位置，但它使用多个分子探测器协同工作会消耗很多的资源。“A.Ahmadzadeh,V.Jamali,and R.Schober,“Stochastic channelmodeling for diffusive mobile molecular communication systems,”IEEETransactions on Communications,vol.66,no.12,pp.6205–6220,2018”研究了随机运动下的信道冲激响应(CSI)；“Z.Luo,L.Lin,Q.Fu,and H.Yan,“An effective distancemeasurement method for molecular communication systems,”in 2018 IEEEInternational Conference on Sensing,Communication and Networking(SECONWorkshops),2018,pp.1–4”利用已知的信道冲激响应(CSI)推导出接收机和发射机之间的初始距离，但无法解决移动过程中的定位问题。以上问题都是基于已知的CSI来完成距离估计的。然而，随着环境的变化，CSI通常是未知的。复杂环境下的发射源定位问题尚未解决。

本发明基于Q-Learning路径规划方案，提出了适用于扩散环境的多层自适应奖励阈值方案，最终结果表明其可大大降低迭代回合，增加定位效率，并能够在指定时间内完成任务。

发明内容

发明目的：为解决传统扩散系统中定位精度不佳、迭代次数过长等问题，本发明基于Q-Learning的路径规划系统设计出了一种多层自适应的奖励阈值方案，并将此方案与现有的扩散系统相结合，大大提高了扩散系统中分子探测器的定位效率，并能够在有界空间内任意位置找到发射源。

为了达到上述技术效果，本发明的技术方案如下：

一种扩散分子通信环境下基于强化学习的多层自适应奖励目标溯源方法，能够引导分子探测器避开障碍物找到目标位置，具体步骤如下：

步骤1：分子探测器起点位置坐标O，可行位置集合S，分子探测器每步的运动距离d和动作集合A＝{(0,0,±d),(0,±d,0),(±d,0,0)}，学习率α，衰减因子γ，分子探测器每回合的运动时间t_tot，探测目标释放分子的时间周期t_in，分子探测器每步的运动时间间隔t_s，选择运动方向的概率ε∈[0,1]，每回合的最大运动步数W_max＝t_tot/t_s，初始迭代回合数N₁，最大更新迭代回合数N₂，碰到障碍物给予的惩罚值e^fail，达到分子数阈值给予的奖励值达到步数阈值给予的奖励值，成功找到目标给予的奖励值e^sus，设置Q表的初值全为0，Q(i,j)表示Q表第i行、第j列的值，其分别对应第i个状态(s_i∈S,i＝1,···,|S|)和第j个动作(a_j∈A,j＝1,···,|A|)，其中|S|和|A|分别表示集合|S|和|A|的大小；

步骤2：每个训练回合内，分子探测器从初始位置O出发，满足以下3个条件之一则回合终止：1)运动步数达到W_max；2)分子探测器碰到障碍物；3)分子探测器找到目标；

步骤3：令多层自适应奖励阈值方案的层数为代表向上取整；分子数阈值Φ^t和运动步数阈值Ψ^t表示为：

其中，和/>分别表示为t时刻第l层对应的接收分子数和分子探测器每回合所运动的步数；首先分子探测器探索N₁个初始回合，利用平均接收分子数/>得到分子数阈值、运动步数阈值的初值Φ⁰、Ψ⁰；

步骤4：分子探测器根据Φ^t和Ψ^t设置奖励r并更新Q表；每隔N₂个回合更新分子数阈值Φ^t；直至找到目标则训练停止；

步骤5：输出分子探测器最优运动路径，即从初始位置O出发，在训练得到的Q表中选择当前位置对应的Q值最大的方向进行运动，直至运动到目标位置，该路径即为最优运动路径；

2、步骤3中，分子数初值Φ⁰和步数初值Ψ⁰的具体设置步骤如下：

步骤201：设置N₁个初始回合，令每个回合接收分子数为其中/>表示当前回合N中第W步的接收分子数；记当前回合数N＝1；

步骤202：若N＞N₁，跳转至步骤206；设置分子探测器当前位置s＝O，步数W＝0；

步骤203：分子探测器按照下式所示的概率从Q表中选择当前位置s对应的动作a_j：

其中，表示s_i状态下选择a_j的概率，argmaxQ(i,j)表示从Q表的第i行找到能使得Q(i,j)最大的j；若6个方向对应的Q值全部相等，则从A中以等概的方式随机选择一个方向运动；

步骤204：分子探测器执行动作a_j，当前位置更新为s←s+a_j，当前步数W←W+1，当前步数的接收分子数记为

步骤205：若满足步骤2中3个回合终止条件，则开始一个新的回合，N←N+1并跳转至步骤206；否则，跳转至步骤203；

步骤206：对N₁个回合的接收分子数m_N取平均得：

记表示/>中从第(l-1)·t_in·W_max+1个到第l·t_in·W_max个数据中的最大值，该最大值在/>中的位置记为φ_l，其中l＝1,···,L；

步骤207：令第l层步数阈值初值并得到/>第l层接收分子数阈值/>计算方法为：

表示/>中第W个数值，从而得到/>

3、步骤4中，分子数阈值和运动步数阈值Φ^t、Ψ^t以及Q表的更新，步骤如下：

步骤301：令Φ^t＝Φ⁰，Ψ^t＝Ψ⁰，记当前回合数N＝1；令其中/>表示当前回合N第W步的接收分子数，(N＝1,···,∞)；

步骤302：设置分子探测器当前位置s＝O，步数W＝0，当前回合接收的总分子数若N＞N₂且可以被N₂整除，则更新分子数阈值Φ^t；令当前回合分子数阈值层数l_N＝1；

步骤303：根据步骤203选择动作a_j，分子探测器执行动作a_j，当前位置更新为s←s+a_j，当前步数W＝W+1，当前步数W的接收分子数记为更新当前回合接收的总分子数

步骤304：计算奖励r，并按照如下公式更新Q表

其中，Q(i′,j′)表示在下一状态s_i′＝s+a_j做出动作a_j′时所对应的Q值；

步骤305：若满足步骤2中3个回合终止条件，则开始一个新的回合，N←N+1并跳转至步骤302；

步骤306：开始新的一步，并跳转至步骤303。

4、所述步骤302中更新分子数阈值Φ^t的步骤如下：

步骤401：令表示第l层分子数阈值对应的更新指标，其中/>表示第N-N₂+1个回合中前/>步的接收分子数；

步骤402：选取m_l中最大的数值作为第l层分子数阈值，即并更新分子数阈值/>

5、所述步骤304中，奖励r的计算步骤如下：

步骤501：令r←0；

步骤502：若达到分子数阈值，则设置分子数奖励r←r+r_Mol，其中r_Mol表示达到分子数阈值的奖励，并且若/>则同时设置步数奖励r←r+r_W，其中r_W表示达到运动步数阈值的奖励；

步骤503：若碰到障碍物，则r←e^fail，其中e^fail表示碰到障碍物的惩罚值；

步骤504：若找到目标，则r←e^sus，其中e^sus表示找到目标的奖励值；

6、所述步骤502中，分子数奖励和步数奖励的计算方法如下：

步骤601：r_Mol＝0，r_W＝0；

步骤602：若l_N＞L，则结束奖励值计算；否则，执行步骤603；

步骤603：若则结束奖励值计算；否则，执行步骤604；

步骤604：令其中，/>为满足分子数阈值时获得的奖励值；若当前步数/>时，则令/>其中，/>为满足运动步数阈值时获得的奖励值；

步骤605：令l_N←l_N+1，跳转至步骤602；

有益效果：与现有技术相比，本发明所提供的基于强化学习的自适应多层奖励阈值方案，具有如下优点：

(1)应用范围广泛。本发明所提出方案可以灵活地应用于任意规模的扩散环境中，其不受湍流、平流扩散环境的影响，也不受环境中障碍物数目的影响；

(2)定位精度较高。本发明所提出方案简单易行，可跨过障碍物直接找到目标，定位精度较高；

(3)定位效率高。本发明所提出的方案能够以较低的实现复杂度，大大降低实验所需的迭代次数。

附图说明

图1为本发明实例中提出的一种扩散分子通信环境下基于强化学习的多层自适应奖励溯源定位方法实施流程图；

图2为本发明实例中提出的一种扩散分子通信环境下基于强化学习的多层自适应奖励溯源定位方法系统结构图；

图3为本发明实例中提出方案的仿真路径图对比图，红色三角表示本文所述的自适应多层奖励阈值方案方案，黑色圆圈表示基于浓度梯度的路径规划算法；

图4为本发明实例中提出方案的路径规划性能对比图；

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本发明所限定的范围。

如图1所示，本发明的具体实施步骤主要包含以下十三个步骤：

第一步：分子探测器起点位置坐标O，可行位置集合S，分子探测器每步的运动距离d和动作集合A＝{(0,0,±d),(0,±d,0),(±d,0,0)}，学习率α，衰减因子γ，分子探测器每回合的运动时间t_tot，探测目标释放分子的时间周期t_in，分子探测器每步的运动时间间隔t_s，选择运动方向的概率ε∈[0,1]，每回合的最大运动步数W_max＝t_tot/t_s，初始迭代回合数N₁，最大更新迭代回合数N₂，碰到障碍物给予的惩罚值e^fail，达到分子数阈值给予的奖励值达到步数阈值给予的奖励值，成功找到目标给予的奖励值e^sus，设置Q表的初值全为0，Q(i,j)表示Q表第i行、第j列的值，其分别对应第i个状态(s_i∈S,i＝1,···,|S|)和第j个动作(a_j∈A,j＝1,···,|A|)，其中|S|和|A|分别表示集合|S|和|A|的大小；

第二步：每个训练回合内，分子探测器从初始位置O出发，满足以下3个条件之一则回合终止：1)运动步数达到W_max；2)分子探测器碰到障碍物；3)分子探测器找到目标；

第三步：令多层自适应奖励阈值方案的层数为代表向上取整；分子数阈值Φ^t和运动步数阈值Ψ^t表示为：

第四步：分子探测器根据Φ^t和Ψ^t设置奖励r并更新Q表；每隔N₂个回合更新分子数阈值Φ^t；直至找到目标则训练停止；

第五步：输出分子探测器最优运动路径，即从初始位置O出发，在训练得到的Q表中选择当前位置对应的Q值最大的方向进行运动，直至运动到目标位置，该路径即为最优运动路径；

第六步：设置分子数初值Φ⁰和步数初值Ψ⁰：

步骤601：设置N₁个初始回合，令每个回合接收分子数为其中/>表示当前回合N中第W步的接收分子数；记当前回合数N＝1；

步骤602：若N＞N₁，跳转至步骤606；设置分子探测器当前位置s＝O，步数W＝0；

步骤603：分子探测器按照下式所示的概率从Q表中选择当前位置s对应的动作a_j：

其中，表示s_i状态下选择a_j的概率，arg maxQ(i,j)表示从Q表的第i行找到能使得Q(i,j)最大的j；若6个方向对应的Q值全部相等，则从A中以等概的方式随机选择一个方向运动；

步骤604：分子探测器执行动作a_j，当前位置更新为s←s+a_j，当前步数W←W+1，当前步数的接收分子数记为

步骤605：若满足第二步中3个回合终止条件，则开始一个新的回合，N←N+1并跳转至步骤606；否则，跳转至步骤603；

步骤606：对N₁个回合的接收分子数m_N取平均得：

步骤607：令第l层步数阈值初值并得到/>第l层接收分子数阈值/>计算方法为：

表示/>中第W个数值，从而得到/>

第七步：分子数阈值和运动步数阈值Φ^t、Ψ^t以及Q表的更新：

步骤701：令Φ^t＝Φ⁰，Ψ^t＝Ψ⁰，记当前回合数N＝1；令其中/>表示当前回合N第W步的接收分子数，(N＝1,···,∞)；

步骤702：设置分子探测器当前位置s＝O，步数W＝0，当前回合接收的总分子数若N＞N₂且可以被N₂整除，则更新分子数阈值Φ^t；令当前回合分子数阈值层数l_N＝1；

步骤703：根据第六步步骤603选择动作a_j，分子探测器执行动作a_j，当前位置更新为s←s+a_j，当前步数W＝W+1，当前步数W的接收分子数记为更新当前回合接收的总分子数/>

步骤704：计算奖励r，并按照如下公式更新Q表

步骤705：若满足第二步中3个回合终止条件，则开始一个新的回合，N←N+1并跳转至步骤702；

步骤706：开始新的一步，并跳转至步骤703。

第八步：第七步所述步骤702中更新分子数阈值Φ^t的步骤如下：

步骤801：令表示第l层分子数阈值对应的更新指标，其中/>表示第N-N₂+1个回合中前/>步的接收分子数；

步骤802：选取m_l中最大的数值作为第l层分子数阈值，即(l＝1,···,L)，并更新分子数阈值/>

第九步：第七步所述步骤704中，奖励r的计算步骤如下：

步骤901：令r←0；

步骤902：若达到分子数阈值，则设置分子数奖励r←r+r_Mol，其中r_Mol表示达到分子数阈值的奖励，并且若/>则同时设置步数奖励r←r+r_W，其中r_W表示达到运动步数阈值的奖励，；

步骤903：若碰到障碍物，则r←e^fail，其中e^fail表示碰到障碍物的惩罚值；

步骤904：若找到目标，则r←e^sus，其中e^sus表示找到目标的奖励值；

第十步：第九步所述步骤902中，分子数奖励和步数奖励的计算方法如下：

步骤1001：r_Mol＝0，r_W＝0；

步骤1002：若l_N＞L，则结束奖励值计算，否则，执行步骤1003；

步骤1003：若则结束奖励值计算；否则，执行步骤1004；

步骤1004：令其中，/>为满足分子数阈值时获得的奖励值；若当前步数/>时，则令/>其中，/>为满足运动步数阈值时获得的奖励值；

步骤1005：令l_N←l_N+1，跳转至步骤1002；

第十一步：为进一步对本发明的方法进行性能分析，验证本发明所提出的有效性，所述的实现模型如图2所示，该模型拥有3个障碍物，一个发射源，一个分子探测器。验证实验采取基于浓度梯度的路径规划算法、Sarsa算法和蚁群算法作为对比，所述的基于浓度梯度的路径规划算法是一种局部最优信息的驱动式算法，其对比6个移动方向的浓度，选择浓度最大的方向运动，其较易陷入局部最优；Sarsa算法和蚁群算法都是一种启发式智能算法，Sarsa使用更加保守的方式对Q值公式进行更新，整个实现流程仍然采用本文所述的自适应阈值方法，而蚁群算法在走过的路径上叠加信息素，收敛速度较慢，消耗资源较多。

第十二步：图3表示利用本发明所提方法与基于浓度梯度的路径规划算法的路径对比图；实验条件是通过十万个迭代回合运行，选出其中成功的一个进行对比。由图3可知，本发明所提方案可以在限定时间内完美的避开障碍物并完成溯源工作，而基于浓度梯度的路径规划算法陷入局部最优，无法找到发射源。

第十三步：图4表示利用本发明所提方法、蚁群算法和Sarsa算法的探索回合的性能对比图；实验展示了找到发射源的回合数与运动时间(即发射器每个迭代回合的运动步数)之间的关系，有图4可知，本发明所提的基于强化学习的自适应奖励阈值方法可以用最少的步数找到目标，并且在相同运动步数情况下，其找到目标的回合数最少。

显然，本发明的上述实施例仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种扩散分子通信环境下基于强化学习的多层自适应奖励目标溯源方法，其特征在于，能够引导分子探测器避开障碍物找到目标位置，具体步骤如下：

步骤1：设定分子探测器起点位置坐标O，可行位置集合S，分子探测器每步的运动距离d和动作集合A＝{(0,0,±d),(0,±d,0),(±d,0,0)}，学习率α，衰减因子γ，分子探测器每回合的运动时间t_tot，探测目标释放分子的时间周期t_in，分子探测器每步的运动时间间隔t_s，选择运动方向的概率ε∈[0,1]，每回合的最大运动步数W_max＝t_tot/t_s，初始迭代回合数N₁，最大更新迭代回合数N₂，碰到障碍物给予的惩罚值e^fail，达到分子数阈值给予的奖励值达到步数阈值给予的奖励值，成功找到目标给予的奖励值e^sus，设置Q表的初值全为0，Q(i,j)表示Q表第i行、第j列的值，其分别对应第i个状态(s_i∈S,i＝1,···,|S|)和第j个动作(a_j∈A,j＝1,···,|A|)，其中|S|和|A|分别表示集合|S|和|A|的大小；

分子数初值Φ⁰和步数初值Ψ⁰的具体设置步骤如下：

步骤205：若满足所述步骤2中3个回合终止条件，则开始一个新的回合，N←N+1并跳转至步骤206；否则，跳转至步骤203；

步骤206：对N₁个回合的接收分子数m_N取平均得：

表示/>中第W个数值，从而得到/>

所述步骤4中，分子数阈值和运动步数阈值Φ^t、Ψ^t以及Q表的更新，步骤如下：

步骤301：令Φ^t＝Φ⁰，Ψ^t＝Ψ⁰，记当前回合数N＝1；令其中表示当前回合N第W步的接收分子数，(N＝1,···,∞)；

步骤304：计算奖励r，并按照如下公式更新Q表

步骤305：若满足所述步骤2中3个回合终止条件，则开始一个新的回合，N←N+1并跳转至步骤302；

步骤306：开始新的一步，并跳转至步骤303；

所述步骤302中更新分子数阈值Φ^t的步骤如下：

步骤401：令表示第l层分子数阈值对应的更新指标，其中表示第N-N₂+1个回合中前/>步的接收分子数；

步骤402：选取m_l中最大的数值作为第l层分子数阈值，即(l＝1,···,L)，并更新分子数阈值/>

所述步骤304中，奖励r的计算步骤如下：

步骤501：令r←0；

所述步骤502中，分子数奖励和步数奖励的计算方法如下：

步骤601：r_Mol＝0，r_W＝0；

步骤602：若l_N＞L，则结束奖励值计算，否则，执行步骤603；

步骤603：若(表示为t时刻第l_N层对应的接收分子数)，则结束奖励值计算；否则，执行步骤604；

步骤604：令其中，/>为满足分子数阈值时获得的奖励值；若当前步数时，则令/>其中，/>为满足运动步数阈值时获得的奖励值；

步骤605：令l_N←l_N+1，跳转至步骤602。