CN114860396A

CN114860396A - 一种基于强化学习的即时感知即使执行任务分配方法

Info

Publication number: CN114860396A
Application number: CN202210370508.5A
Authority: CN
Inventors: 於志文; 尹厚淳; 韩磊; 王亮; 郭斌
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-04-10
Filing date: 2022-04-10
Publication date: 2022-08-05
Anticipated expiration: 2042-04-10
Also published as: CN114860396B

Abstract

本发明涉及一种基于强化学习的即时感知即使执行任务分配方法，基于贪心思想以及相关效用函数的SPCP+SSFP感知点聚类与传感器选择算法可以根据异构感知点的种类特性以及异构传感器的感知技能特性计算出感知点与传感器之间的稳定匹配关系；基于这种稳定匹配关系，强化学习算法可以将聚类后的POI点分配给最佳的工人完成感知，从而最终提高任务分配的整体执行成功率和感知质量，实现即时感知与即时执行。

Description

一种基于强化学习的即时感知即使执行任务分配方法

技术领域

本发明涉及移动群智感知任务分配和强化学习领域，尤其涉及基于强化学习的移动群智感知任务分配方法。

背景技术

任务分配是移动群智感知领域一个关键的研究问题。从任务紧急程度的角度出发，现有研究工作大致可以被分为两类：延迟容忍型任务和时间敏感型任务。延迟容忍型任务不需要被立刻执行，参与者可以再不改变其原有行动轨迹的基础上捎带完成感知。MCS平台也不需要获取过多的用户的个人信息，因此通常不会侵犯个人隐私，并且产生的感知代价较低。然而由于参与者只执行其行动路线所经过的感知任务，参与者的移动模式对最终的分配结果有十分重要的影响，那些参与者较少的感知区域内的任务往往难以确保被一定执行。与此相反，时间敏感型任务需要被立刻执行，所以附近的参与者需要移动到指定的位置来完成任务。由于MCS平台需要招募附近那些具备足够意愿去执行任务的参与者，这会花费较高的激励成本但是可以保证感知任务被及时执行。现有关注于延迟容忍型或者时间敏感型的研究遵循数个相同的阶段，即任务发现、发布、接收与执行。通过任务发现和任务发布阶段，任务发布者感知到了城市区域内的一些问题，并且将其上报至MCS云平台，称之为“城市上下文感知”(urban context sensing)。通过任务接收和任务执行阶段，MCS平台上的参与者根据任务分配算法运行结果接收任务并执行，称之为“城市上下文执行”(urbancontext actuation)。在这两阶段之间，我们需要通过一些特定的算法来分配感知任务，显然MCS云平台的任务分配过程会造成一些时间延迟。然而在实际的应用场景中，有一类更加紧急的感知任务要求我们需要在发现他们的第一时间就进行执行，这种任务被称为“即时感知即时执行任务”(Instant Sensing and then Instant Actuation，ISIA)。这些ISIA任务如果不被及时的解决，通常会造成更加严重的后果甚至生命财产损失。但是现有的面向延迟容忍型或者时间敏感型的研究工作主要关注于已发布在平台上的感知任务，从感知阶段到执行阶段仍然存在一些时间延迟。对于ISIA任务而言，我们希望实现“即时感知即时执行”，这意味着从感知阶段到执行阶段不应该存在时间延迟，因此传统的任务分配模式并不适用于ISIA任务。

为了解决ISIA任务的分配问题，我们的主要挑战是招募一组参与者在ISIA任务未被感知到时尽可能实现感知区域的有效覆盖。本发明提出了一种新的任务分配处理模式和新的任务分配框架ISIATasker，将MCS云平台的作用阶段移至ISIA感知和执行周期开始之前，并基于历史签到数据对参与者进行预分配。在感知和执行周期内，基于任务分配的结果参与者可以直接与传感器节点进行交互，并且利用自身能力来执行感知任务，使得这些任务可以在本地得到解决而无需上传至MCS云平台，这就实现了即时感知与即使执行。通过这种方式，传感器可以绕过MCS云平台直接向参与者传送实时数据，而利用蓝牙、WiFi或者其他无线通讯方式的短距离传输产生的网络延迟可以忽略不计，数据传输的健壮性和速度也得到保证。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种基于强化学习的即时感知即使执行任务分配方法。基于贪心思想以及相关效用函数的SPCP+SSFP感知点聚类与传感器选择算法可以根据异构感知点的种类特性以及异构传感器的感知技能特性计算出感知点与传感器之间的稳定匹配关系；基于这种稳定匹配关系，强化学习算法可以将聚类后的POI点分配给最佳的工人完成感知，从而最终提高任务分配的整体执行成功率和感知质量，实现即时感知与即时执行。

技术方案

一种基于强化学习的即时感知即使执行任务分配方法，其特征在于包括：

SPCP+SSFP感知点聚类与传感器选择算法：对城市中大量异构感知点的种类特性以及异构传感器的感知技能特性进行建模，并挖掘出感知点与传感器之间的稳定匹配关系；

基于强化学习的POI点分配算法：将大量异构感知点聚类成POI点集合，通过强化学习算法为每个工人分配一条合理路径，得到最终的任务分配结果；

具体步骤如下：

步骤1：对于城市区域内的大量感知点，采用基于K-means的改进算法，根据大量感知点的类型和空间分布将其聚类成数量较少的POI点；每个参与者w_i的感知能力向量可被表示为

步骤2：通过皮尔逊相关系数估计POI点感知需求组成和参与者感知能力之间的相似性

其中

的绝对值与相似度成正比，

越高代表参与者和POI点之间的匹配度越高；然后将皮尔逊相关系数引入到聚类过程以平衡空间分布和相似性两者之间的关系；

步骤3：进行基于皮尔逊相关系数的感知点聚类，对于感知点集合L＝{l₁,l₂,...,l_n}，初始化I＝0，随机从L中选择k个感知点作为初始聚类中心

对集合L进行聚类，在当前结果

中，

表示类lc_j的中心；

步骤4：计算每个类别lc_j中从l_i到中心

的距离，并计算当前相关系数值

如果

则

步骤5：当满足Incre≥maxIncre时，令maxIncre＝Incre，lc_res＝lc_j，并将l_i分类至lc_res，计算当前类别LC的期望，更新类中心

步骤6：为每个POI点选择一个最佳的协作传感器集合，每个感知点-传感器对效用被定义为

其中ω为权重因子，代表该匹配对在历史感知数据中出现的频次；ISIA任务感知质量表示为

其中S_K是对感知点l_j而言具有最高感知效用的K个传感器(K≥Δ(l_j))；基于以上分析，在算法中引入了名为冗余度的中间变量来判定一个感知点-传感器对是否应该从结果集中被移除；每个感知点与其对应的传感器集合的冗余度可被公式化表达为

因此可将POI点的整体冗余度公式化表达为

步骤7：进行基于反向贪心思想的传感器选择过程；对于单个POI点lc_i＝{l₁,l₂,...,l_x}和传感器集合S＝{s₁,s₂,...,s_m}，初始化感知点-传感器资源池Pr_v＝{(l_j,s_k)|l_j∈lc_i,s_k∈S,andΓ(s_k)＝Γ(l_j)}；对于每个感知点l_j，计算感知对数量PrNum(l_j)，当

时，置maxRe＝0；

步骤8：对于每个传感器s_l∈S/S_res，如果Re(lc_i)-Re(S/{s_l})＞maxRe则令maxRe＝Re(lc_i)-Re(S/{s_l})，OptimalS←s_l；

步骤9：从集合中删除该感知点-传感器对

并将该被选择的传感器添加进结果集合S_res＝S_res∪{s_l}；

步骤10：进行POI点分配，为每个参与者分配一个最佳的POI集合，基于传感器的历史感知数据，某单一种类的任务Γ_i产生概率可被公式化表示为：

其中Count(s_j,l_k)表示传感器集合对位置{l₁,l₂,...,l_e}进行感知的总频次，Count(ut_i,s_j,l_k)表示所有的传感器在{l₁,l₂,...,l_e}同时发现问题的频次；对某个POI点中的ε个感知类型而言，可能存在E＝2^ε种紧急任务，我们在聚类过程中将ε的值控制为ε≤10；当至少有一个感知点存在问题时，即假设此POI点存在ISIA任务需要参与者实现即时感知与即使执行；使用向量

表示ut_i的类型，那么ut_i的概率可表示为：

最终任务感知需求与参与者感知能力相匹配的概率p(w_i,lc_j)可以通过

计算得出；

步骤11：POI覆盖率是本问题中另外一个主要考虑的优化目标，需要在一定的时间限制下最大化POI点的覆盖率，参与者的时间消耗T(w_i)主要由三部分组成：移动时间、感知时间和执行时间，即

其中移动和感知时间为固定值，根据当前参与者的位置和POI点之间的距离以及感知点数量计算得到；执行时间和POI点中被检测到的任务数量有关，由于任务数量的不确定性，采用期望时间来代表执行时间；某一POI点的期望任务向量为

其反映了ISIA任务的密集程度，显然每个POI点lc_j的期望执行时间E(AT(lc_j))可由E(AT(lc_j))＝σ(lc_j)×t_b,

表示；

步骤12：将奖励函数设计为

主要由期望收益值和感知成本组成，这代表了参与者可以从POI点巡检过程中获得的预期奖励；当参与者感知能力和任务感知需求之间的匹配程度较高时，可以获得更高的预期收益，这是因为这些参与者可以进行及时的感知；η₁表示单位匹配度所带来的单位收益，除此之外，感知成本包括移动时间成本、感知时间成本和执行时间成本，η₂表示单位时间内所产生的代价；

步骤13：根据所定义的奖励函数基于DDQN网络进行训练，POI集合LC＝{lc₁,lc₂,...,lc_m}；参与者集合W＝{w₁,w₂,...,w_p}；训练迭代周期数M；经验回放池容量N；随机选择概率ε；学习率α；衰减指数γ；目标网络参数更新周期数C；

步骤14：初始化经验回放池D，容量为N；初始化策略网络Q，参数随机初始化为θ；初始化目标网络

参数随机初始化为θ^-＝θ；

步骤15：初始化

对每个episode∈1,M，进行以下操作：重置参与者位置loc_W，初始化合法动作集合A_valid，将初始状态向量s₁的元素全部置0，且令r＝0；对于每个t∈1,T，生成区间[0,1]内的随机数rand，如果rand≤ε则从合法动作集合A_valid中随机选择动作a_t，否则选择动作a_t＝argmax_aQ(s_t,a；θ)；如果a∈A_valid，则获得此步转移所产生的花费r_cost和收益r_profit，并且r＝r+(r_profit-r_cost),done＝0，反之置done＝1；

步骤16：采取动作a_t并转移至下一状态s_t+1，存储当前转移信息向量(s_t,a_t,r,done,s_t+1)至D；从经验回放池D中随机抽取小样本(s_j,a_j,r_j,done,s_j+1)进行训练，更新策略网络Q的参数，且每隔C步重置目标网络参数

步骤17：更新POI点和参与者的当前状态，更新在当前状态下的合法动作集合A_valid；若

则令

并记录任务分配结果LC(w_i):

有益效果

本发明提提出了一个新的任务分配框架ISIATasker。在感知点聚类和传感器选择阶段，首先将大量离散的感知点进行聚类，并将每个结果看作一个POI点，这些POI点都有可能存在ISIA任务。除此之外，对每个POI点需要选择一个最佳的传感器集合来协助参与者完成感知，从这些传感器收到感知信息的参与者可以实现即时感知与即使执行，采用了一个基于下降贪心思想的算法来进行传感器选择，通过循环剔除具备最高冗余度的传感器来保留那些与感知点具备长期稳定匹配关系的传感器作为最终的结果集合，从而使用这些传感器的历史数据指导下一阶段的POI点分配。最终在POI点分配阶段，为了同时最大化整体的POI点覆盖和匹配度，本发明提出了一个基于深度强化学习的方法——PA-DDQN来实现这个双目标优化问题，最终实现即时感知与即使执行。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实例中所提出的ISIA任务处理模式示意图。

图2为ISIATasker的框架流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提出一种新的任务分配框架ISIATasker，该框架主要分为两部分。在感知点聚类和传感器选择阶段，首先将大量离散的感知点进行聚类，并将每个结果看作一个POI点，这些POI点都有可能存在ISIA任务。聚类的目的是使得每个POI点附近发现的任务类型概率分布更符合参与者的感知能力分布，因此引入了皮尔逊相关系数来估计任务和参与者之间的相似性。除此之外，对每个POI点需要选择一个最佳的传感器集合来协助参与者完成感知，从这些传感器收到感知信息的参与者可以实现即时感知与即使执行，除此之外我们定义了每个传感器集合的效用和冗余度，并且采用了一个基于下降贪心思想的算法来进行传感器选择。通过循环剔除具备最高冗余度的传感器可以保留那些与感知点具备长期稳定匹配关系的传感器作为最终的结果集合，从而使用这些传感器的历史数据指导下一阶段的POI点分配。最终，在POI点分配阶段，需要同时最大化整体的POI点覆盖和匹配度，并基于历史签到数据提出了一个基于深度强化学习的方法——PA-DDQN来实现这个双目标优化问题，最终实现即时感知与即使执行。

本发明共有2幅附图，请参阅图2所示，SPCP+SSFP感知点聚类与传感器选择算法：对城市中大量异构感知点的种类特性以及异构传感器的感知技能特性进行建模，并挖掘出感知点与传感器之间的稳定匹配关系；基于强化学习的POI点分配算法：将大量异构感知点聚类成POI点集合，通过强化学习算法为每个工人分配一条合理路径，得到最终的任务分配结果。

本发明的具体步骤如下：

步骤1：对于城市区域内的大量感知点，采用基于K-means的改进算法，根据大量感知点的类型和空间分布将其聚类成数量较少的POI点。每个参与者w_i的感知能力向量可被表示为

其中

的绝对值与相似度成正比，

越高代表参与者和POI点之间的匹配度越高。然后将皮尔逊相关系数引入到聚类过程以平衡空间分布和相似性两者之间的关系。

对集合L进行聚类，在当前结果

中，

表示类lc_j的中心。

步骤4：计算每个类别lc_j中从l_i到中心

的距离，并计算当前相关系数值

如果

则

其中ω为权重因子，代表该匹配对在历史感知数据中出现的频次。ISIA任务感知质量表示为

其中S_K是对感知点l_j而言具有最高感知效用的K个传感器(K≥Δ(l_j))。基于以上分析，我们在算法中引入了名为冗余度的中间变量来判定一个感知点-传感器对是否应该从结果集中被移除。每个感知点与其对应的传感器集合的冗余度可被公式化表达为

因此可将POI点的整体冗余度公式化表达为

步骤7：进行基于反向贪心思想的传感器选择过程。对于单个POI点lc_i＝{l₁,l₂,...,l_x}和传感器集合S＝{s₁,s₂,...,s_m}，初始化感知点-传感器资源池Pr_v＝{(l_j,s_k)|l_j∈lc_i,s_k∈S,andΓ(s_k)＝Γ(l_j)}。对于每个感知点l_j，计算感知对数量PrNum(l_j)，当

时，置maxRe＝0。

步骤8：对于每个传感器s_l∈S/S_res，如果Re(lc_i)-Re(S/{s_l})＞maxRe则令maxRe＝Re(lc_i)-Re(S/{s_l})，OptimalS←s_l。

步骤9：从集合中删除该感知点-传感器对

并将该被选择的传感器添加进结果集合S_res＝S_res∪{s_l}。

其中Count(s_j,l_k)表示传感器集合对位置{l₁,l₂,...,l_e}进行感知的总频次，Count(ut_i,s_j,l_k)表示所有的传感器在{l₁,l₂,...,l_e}同时发现问题的频次。对某个POI点中的ε个感知类型而言，可能存在E＝2^ε种紧急任务，我们在聚类过程中将ε的值控制为ε≤10。当至少有一个感知点存在问题时，即假设此POI点存在ISIA任务需要参与者实现即时感知与即使执行。我们使用向量

表示ut_i的类型，那么ut_i的概率可表示为：

计算得出。

其中移动和感知时间为固定值，根据当前参与者的位置和POI点之间的距离以及感知点数量计算得到。执行时间和POI点中被检测到的任务数量有关，由于任务数量的不确定性，我们采用期望时间来代表执行时间。某一POI点的期望任务向量为

表示。

步骤12：将奖励函数设计为

主要由期望收益值和感知成本组成，这代表了参与者可以从POI点巡检过程中获得的预期奖励。当参与者感知能力和任务感知需求之间的匹配程度较高时，可以获得更高的预期收益，这是因为这些参与者可以进行及时的感知。η₁表示单位匹配度所带来的单位收益，除此之外，感知成本包括移动时间成本、感知时间成本和执行时间成本，η₂表示单位时间内所产生的代价。

步骤13：根据所定义的奖励函数基于DDQN网络进行训练，POI集合LC＝{lc₁,lc₂,...,lc_m}；参与者集合W＝{w₁,w₂,...,w_p}；训练迭代周期数M；经验回放池容量N；随机选择概率ε；学习率α；衰减指数γ；目标网络参数更新周期数C。

参数随机初始化为θ^-＝θ。

步骤15：初始化

对每个episode∈1,M，进行以下操作：重置参与者位置loc_W，初始化合法动作集合A_valid，将初始状态向量s₁的元素全部置0，且令r＝0。对于每个t∈1,T，生成区间[0,1]内的随机数rand，如果rand≤ε则从合法动作集合A_valid中随机选择动作a_t，否则选择动作a_t＝argmax_aQ(s_t,a；θ)。如果a∈A_valid，则获得此步转移所产生的花费r_cost和收益r_profit，并且r＝r+(r_profit-r_cost),done＝0，反之置done＝1。

步骤16：采取动作a_t并转移至下一状态s_t+1，存储当前转移信息向量(s_t,a_t,r,done,s_t+1)至D。从经验回放池D中随机抽取小样本(s_j,a_j,r_j,done,s_j+1)进行训练，更新策略网络Q的参数，且每隔C步重置目标网络参数

步骤17：更新POI点和参与者的当前状态，更新在当前状态下的合法动作集合A_valid。若

则令

并记录任务分配结果LC(w_i):

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明公开的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。