CN114860396B - 一种基于强化学习的即时感知即使执行任务分配方法 - Google Patents

一种基于强化学习的即时感知即使执行任务分配方法 Download PDF

Info

Publication number
CN114860396B
CN114860396B CN202210370508.5A CN202210370508A CN114860396B CN 114860396 B CN114860396 B CN 114860396B CN 202210370508 A CN202210370508 A CN 202210370508A CN 114860396 B CN114860396 B CN 114860396B
Authority
CN
China
Prior art keywords
sensing
poi
point
perception
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210370508.5A
Other languages
English (en)
Other versions
CN114860396A (zh
Inventor
於志文
尹厚淳
韩磊
王亮
郭斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202210370508.5A priority Critical patent/CN114860396B/zh
Publication of CN114860396A publication Critical patent/CN114860396A/zh
Application granted granted Critical
Publication of CN114860396B publication Critical patent/CN114860396B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于强化学习的即时感知即使执行任务分配方法,基于贪心思想以及相关效用函数的SPCP+SSFP感知点聚类与传感器选择算法可以根据异构感知点的种类特性以及异构传感器的感知技能特性计算出感知点与传感器之间的稳定匹配关系;基于这种稳定匹配关系,强化学习算法可以将聚类后的POI点分配给最佳的工人完成感知,从而最终提高任务分配的整体执行成功率和感知质量,实现即时感知与即时执行。

Description

一种基于强化学习的即时感知即使执行任务分配方法
技术领域
本发明涉及移动群智感知任务分配和强化学习领域,尤其涉及基于强化学习的移动群智感知任务分配方法。
背景技术
任务分配是移动群智感知领域一个关键的研究问题。从任务紧急程度的角度出发,现有研究工作大致可以被分为两类:延迟容忍型任务和时间敏感型任务。延迟容忍型任务不需要被立刻执行,参与者可以再不改变其原有行动轨迹的基础上捎带完成感知。MCS平台也不需要获取过多的用户的个人信息,因此通常不会侵犯个人隐私,并且产生的感知代价较低。然而由于参与者只执行其行动路线所经过的感知任务,参与者的移动模式对最终的分配结果有十分重要的影响,那些参与者较少的感知区域内的任务往往难以确保被一定执行。与此相反,时间敏感型任务需要被立刻执行,所以附近的参与者需要移动到指定的位置来完成任务。由于MCS平台需要招募附近那些具备足够意愿去执行任务的参与者,这会花费较高的激励成本但是可以保证感知任务被及时执行。现有关注于延迟容忍型或者时间敏感型的研究遵循数个相同的阶段,即任务发现、发布、接收与执行。通过任务发现和任务发布阶段,任务发布者感知到了城市区域内的一些问题,并且将其上报至MCS云平台,称之为“城市上下文感知”(urban context sensing)。通过任务接收和任务执行阶段,MCS平台上的参与者根据任务分配算法运行结果接收任务并执行,称之为“城市上下文执行”(urbancontext actuation)。在这两阶段之间,我们需要通过一些特定的算法来分配感知任务,显然MCS云平台的任务分配过程会造成一些时间延迟。然而在实际的应用场景中,有一类更加紧急的感知任务要求我们需要在发现他们的第一时间就进行执行,这种任务被称为“即时感知即时执行任务”(Instant Sensing and then Instant Actuation,ISIA)。这些ISIA任务如果不被及时的解决,通常会造成更加严重的后果甚至生命财产损失。但是现有的面向延迟容忍型或者时间敏感型的研究工作主要关注于已发布在平台上的感知任务,从感知阶段到执行阶段仍然存在一些时间延迟。对于ISIA任务而言,我们希望实现“即时感知即时执行”,这意味着从感知阶段到执行阶段不应该存在时间延迟,因此传统的任务分配模式并不适用于ISIA任务。
为了解决ISIA任务的分配问题,我们的主要挑战是招募一组参与者在ISIA任务未被感知到时尽可能实现感知区域的有效覆盖。本发明提出了一种新的任务分配处理模式和新的任务分配框架ISIATasker,将MCS云平台的作用阶段移至ISIA感知和执行周期开始之前,并基于历史签到数据对参与者进行预分配。在感知和执行周期内,基于任务分配的结果参与者可以直接与传感器节点进行交互,并且利用自身能力来执行感知任务,使得这些任务可以在本地得到解决而无需上传至MCS云平台,这就实现了即时感知与即使执行。通过这种方式,传感器可以绕过MCS云平台直接向参与者传送实时数据,而利用蓝牙、WiFi或者其他无线通讯方式的短距离传输产生的网络延迟可以忽略不计,数据传输的健壮性和速度也得到保证。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种基于强化学习的即时感知即使执行任务分配方法。基于贪心思想以及相关效用函数的SPCP+SSFP感知点聚类与传感器选择算法可以根据异构感知点的种类特性以及异构传感器的感知技能特性计算出感知点与传感器之间的稳定匹配关系;基于这种稳定匹配关系,强化学习算法可以将聚类后的POI点分配给最佳的工人完成感知,从而最终提高任务分配的整体执行成功率和感知质量,实现即时感知与即时执行。
技术方案
一种基于强化学习的即时感知即使执行任务分配方法,其特征在于包括:
SPCP+SSFP感知点聚类与传感器选择算法:对城市中大量异构感知点的种类特性以及异构传感器的感知技能特性进行建模,并挖掘出感知点与传感器之间的稳定匹配关系;
基于强化学习的POI点分配算法:将大量异构感知点聚类成POI点集合,通过强化学习算法为每个工人分配一条合理路径,得到最终的任务分配结果;
具体步骤如下:
步骤1:对于城市区域内的大量感知点,采用基于K-means的改进算法,根据大量感知点的类型和空间分布将其聚类成数量较少的POI点;每个参与者wi的感知能力向量可被表示为
步骤2:通过皮尔逊相关系数估计POI点感知需求组成和参与者感知能力之间的相似性其中/> 的绝对值与相似度成正比,/>越高代表参与者和POI点之间的匹配度越高;然后将皮尔逊相关系数引入到聚类过程以平衡空间分布和相似性两者之间的关系;
步骤3:进行基于皮尔逊相关系数的感知点聚类,对于感知点集合L={l1,l2,...,ln},初始化I=0,随机从L中选择k个感知点作为初始聚类中心对集合L进行聚类,在当前结果/>中,/>表示类lcj的中心;
步骤4:计算每个类别lcj中从li到中心的距离,并计算当前相关系数值/>如果/>则/>
步骤5:当满足Incre≥maxIncre时,令maxIncre=Incre,lcres=lcj,并将li分类至lcres,计算当前类别LC的期望,更新类中心
步骤6:为每个POI点选择一个最佳的协作传感器集合,每个感知点-传感器对效用被定义为其中ω为权重因子,代表该匹配对在历史感知数据中出现的频次;ISIA任务感知质量表示为/>其中SK是对感知点lj而言具有最高感知效用的K个传感器(K≥Δ(lj));基于以上分析,在算法中引入了名为冗余度的中间变量来判定一个感知点-传感器对是否应该从结果集中被移除;每个感知点与其对应的传感器集合的冗余度可被公式化表达为/>因此可将POI点的整体冗余度公式化表达为/>
步骤7:进行基于反向贪心思想的传感器选择过程;对于单个POI点lci={l1,l2,...,lx}和传感器集合S={s1,s2,...,sm},初始化感知点-传感器资源池Prv={(lj,sk)|lj∈lci,sk∈S,andΓ(sk)=Γ(lj)};对于每个感知点lj,计算感知对数量PrNum(lj),当时,置maxRe=0;
步骤8:对于每个传感器sl∈S/Sres,如果Re(lci)-Re(S/{sl})>maxRe则令maxRe=Re(lci)-Re(S/{sl}),OptimalS←sl
步骤9:从集合中删除该感知点-传感器对并将该被选择的传感器添加进结果集合Sres=Sres∪{sl};
步骤10:进行POI点分配,为每个参与者分配一个最佳的POI集合,基于传感器的历史感知数据,某单一种类的任务Γi产生概率可被公式化表示为:其中Count(sj,lk)表示传感器集合对位置{l1,l2,...,le}进行感知的总频次,Count(uti,sj,lk)表示所有的传感器在{l1,l2,...,le}同时发现问题的频次;对某个POI点中的ε个感知类型而言,可能存在E=2ε种紧急任务,我们在聚类过程中将ε的值控制为ε≤10;当至少有一个感知点存在问题时,即假设此POI点存在ISIA任务需要参与者实现即时感知与即使执行;使用向量/>表示uti的类型,那么uti的概率可表示为:最终任务感知需求与参与者感知能力相匹配的概率p(wi,lcj)可以通过/>计算得出;
步骤11:POI覆盖率是本问题中另外一个主要考虑的优化目标,需要在一定的时间限制下最大化POI点的覆盖率,参与者的时间消耗T(wi)主要由三部分组成:移动时间、感知时间和执行时间,即其中移动和感知时间为固定值,根据当前参与者的位置和POI点之间的距离以及感知点数量计算得到;执行时间和POI点中被检测到的任务数量有关,由于任务数量的不确定性,采用期望时间来代表执行时间;某一POI点的期望任务向量为其反映了ISIA任务的密集程度,显然每个POI点lcj的期望执行时间E(AT(lcj))可由E(AT(lcj))=σ(lcj)×tb,/>表示;
步骤12:将奖励函数设计为 主要由期望收益值和感知成本组成,这代表了参与者可以从POI点巡检过程中获得的预期奖励;当参与者感知能力和任务感知需求之间的匹配程度较高时,可以获得更高的预期收益,这是因为这些参与者可以进行及时的感知;η1表示单位匹配度所带来的单位收益,除此之外,感知成本包括移动时间成本、感知时间成本和执行时间成本,η2表示单位时间内所产生的代价;
步骤13:根据所定义的奖励函数基于DDQN网络进行训练,POI集合LC={lc1,lc2,...,lcm};参与者集合W={w1,w2,...,wp};训练迭代周期数M;经验回放池容量N;随机选择概率ε;学习率α;衰减指数γ;目标网络参数更新周期数C;
步骤14:初始化经验回放池D,容量为N;初始化策略网络Q,参数随机初始化为θ;初始化目标网络参数随机初始化为θ-=θ;
步骤15:初始化对每个episode∈1,M,进行以下操作:重置参与者位置locW,初始化合法动作集合Avalid,将初始状态向量s1的元素全部置0,且令r=0;对于每个t∈1,T,生成区间[0,1]内的随机数rand,如果rand≤ε则从合法动作集合Avalid中随机选择动作at,否则选择动作at=argmaxaQ(st,a;θ);如果a∈Avalid,则获得此步转移所产生的花费rcost和收益rprofit,并且r=r+(rprofit-rcost),done=0,反之置done=1;
步骤16:采取动作at并转移至下一状态st+1,存储当前转移信息向量(st,at,r,done,st+1)至D;从经验回放池D中随机抽取小样本(sj,aj,rj,done,sj+1)进行训练,更新策略网络Q的参数,且每隔C步重置目标网络参数
步骤17:更新POI点和参与者的当前状态,更新在当前状态下的合法动作集合Avalid;若则令/>并记录任务分配结果LC(wi):/>
有益效果
本发明提提出了一个新的任务分配框架ISIATasker。在感知点聚类和传感器选择阶段,首先将大量离散的感知点进行聚类,并将每个结果看作一个POI点,这些POI点都有可能存在ISIA任务。除此之外,对每个POI点需要选择一个最佳的传感器集合来协助参与者完成感知,从这些传感器收到感知信息的参与者可以实现即时感知与即使执行,采用了一个基于下降贪心思想的算法来进行传感器选择,通过循环剔除具备最高冗余度的传感器来保留那些与感知点具备长期稳定匹配关系的传感器作为最终的结果集合,从而使用这些传感器的历史数据指导下一阶段的POI点分配。最终在POI点分配阶段,为了同时最大化整体的POI点覆盖和匹配度,本发明提出了一个基于深度强化学习的方法——PA-DDQN来实现这个双目标优化问题,最终实现即时感知与即使执行。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实例中所提出的ISIA任务处理模式示意图。
图2为ISIATasker的框架流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提出一种新的任务分配框架ISIATasker,该框架主要分为两部分。在感知点聚类和传感器选择阶段,首先将大量离散的感知点进行聚类,并将每个结果看作一个POI点,这些POI点都有可能存在ISIA任务。聚类的目的是使得每个POI点附近发现的任务类型概率分布更符合参与者的感知能力分布,因此引入了皮尔逊相关系数来估计任务和参与者之间的相似性。除此之外,对每个POI点需要选择一个最佳的传感器集合来协助参与者完成感知,从这些传感器收到感知信息的参与者可以实现即时感知与即使执行,除此之外我们定义了每个传感器集合的效用和冗余度,并且采用了一个基于下降贪心思想的算法来进行传感器选择。通过循环剔除具备最高冗余度的传感器可以保留那些与感知点具备长期稳定匹配关系的传感器作为最终的结果集合,从而使用这些传感器的历史数据指导下一阶段的POI点分配。最终,在POI点分配阶段,需要同时最大化整体的POI点覆盖和匹配度,并基于历史签到数据提出了一个基于深度强化学习的方法——PA-DDQN来实现这个双目标优化问题,最终实现即时感知与即使执行。
本发明共有2幅附图,请参阅图2所示,SPCP+SSFP感知点聚类与传感器选择算法:对城市中大量异构感知点的种类特性以及异构传感器的感知技能特性进行建模,并挖掘出感知点与传感器之间的稳定匹配关系;基于强化学习的POI点分配算法:将大量异构感知点聚类成POI点集合,通过强化学习算法为每个工人分配一条合理路径,得到最终的任务分配结果。
本发明的具体步骤如下:
步骤1:对于城市区域内的大量感知点,采用基于K-means的改进算法,根据大量感知点的类型和空间分布将其聚类成数量较少的POI点。每个参与者wi的感知能力向量可被表示为
步骤2:通过皮尔逊相关系数估计POI点感知需求组成和参与者感知能力之间的相似性其中/> 的绝对值与相似度成正比,/>越高代表参与者和POI点之间的匹配度越高。然后将皮尔逊相关系数引入到聚类过程以平衡空间分布和相似性两者之间的关系。
步骤3:进行基于皮尔逊相关系数的感知点聚类,对于感知点集合L={l1,l2,...,ln},初始化I=0,随机从L中选择k个感知点作为初始聚类中心对集合L进行聚类,在当前结果/>中,/>表示类lcj的中心。
步骤4:计算每个类别lcj中从li到中心的距离,并计算当前相关系数值/>如果/>则/>
步骤5:当满足Incre≥maxIncre时,令maxIncre=Incre,lcres=lcj,并将li分类至lcres,计算当前类别LC的期望,更新类中心
步骤6:为每个POI点选择一个最佳的协作传感器集合,每个感知点-传感器对效用被定义为其中ω为权重因子,代表该匹配对在历史感知数据中出现的频次。ISIA任务感知质量表示为/>其中SK是对感知点lj而言具有最高感知效用的K个传感器(K≥Δ(lj))。基于以上分析,我们在算法中引入了名为冗余度的中间变量来判定一个感知点-传感器对是否应该从结果集中被移除。每个感知点与其对应的传感器集合的冗余度可被公式化表达为/>因此可将POI点的整体冗余度公式化表达为/>
步骤7:进行基于反向贪心思想的传感器选择过程。对于单个POI点lci={l1,l2,...,lx}和传感器集合S={s1,s2,...,sm},初始化感知点-传感器资源池Prv={(lj,sk)|lj∈lci,sk∈S,andΓ(sk)=Γ(lj)}。对于每个感知点lj,计算感知对数量PrNum(lj),当时,置maxRe=0。
步骤8:对于每个传感器sl∈S/Sres,如果Re(lci)-Re(S/{sl})>maxRe则令maxRe=Re(lci)-Re(S/{sl}),OptimalS←sl
步骤9:从集合中删除该感知点-传感器对并将该被选择的传感器添加进结果集合Sres=Sres∪{sl}。
步骤10:进行POI点分配,为每个参与者分配一个最佳的POI集合,基于传感器的历史感知数据,某单一种类的任务Γi产生概率可被公式化表示为:其中Count(sj,lk)表示传感器集合对位置{l1,l2,...,le}进行感知的总频次,Count(uti,sj,lk)表示所有的传感器在{l1,l2,...,le}同时发现问题的频次。对某个POI点中的ε个感知类型而言,可能存在E=2ε种紧急任务,我们在聚类过程中将ε的值控制为ε≤10。当至少有一个感知点存在问题时,即假设此POI点存在ISIA任务需要参与者实现即时感知与即使执行。我们使用向量/>表示uti的类型,那么uti的概率可表示为:/>最终任务感知需求与参与者感知能力相匹配的概率p(wi,lcj)可以通过计算得出。
步骤11:POI覆盖率是本问题中另外一个主要考虑的优化目标,需要在一定的时间限制下最大化POI点的覆盖率,参与者的时间消耗T(wi)主要由三部分组成:移动时间、感知时间和执行时间,即其中移动和感知时间为固定值,根据当前参与者的位置和POI点之间的距离以及感知点数量计算得到。执行时间和POI点中被检测到的任务数量有关,由于任务数量的不确定性,我们采用期望时间来代表执行时间。某一POI点的期望任务向量为其反映了ISIA任务的密集程度,显然每个POI点lcj的期望执行时间E(AT(lcj))可由E(AT(lcj))=σ(lcj)×tb,/>表示。
步骤12:将奖励函数设计为 主要由期望收益值和感知成本组成,这代表了参与者可以从POI点巡检过程中获得的预期奖励。当参与者感知能力和任务感知需求之间的匹配程度较高时,可以获得更高的预期收益,这是因为这些参与者可以进行及时的感知。η1表示单位匹配度所带来的单位收益,除此之外,感知成本包括移动时间成本、感知时间成本和执行时间成本,η2表示单位时间内所产生的代价。
步骤13:根据所定义的奖励函数基于DDQN网络进行训练,POI集合LC={lc1,lc2,...,lcm};参与者集合W={w1,w2,...,wp};训练迭代周期数M;经验回放池容量N;随机选择概率ε;学习率α;衰减指数γ;目标网络参数更新周期数C。
步骤14:初始化经验回放池D,容量为N;初始化策略网络Q,参数随机初始化为θ;初始化目标网络参数随机初始化为θ-=θ。
步骤15:初始化对每个episode∈1,M,进行以下操作:重置参与者位置locW,初始化合法动作集合Avalid,将初始状态向量s1的元素全部置0,且令r=0。对于每个t∈1,T,生成区间[0,1]内的随机数rand,如果rand≤ε则从合法动作集合Avalid中随机选择动作at,否则选择动作at=argmaxaQ(st,a;θ)。如果a∈Avalid,则获得此步转移所产生的花费rcost和收益rprofit,并且r=r+(rprofit-rcost),done=0,反之置done=1。
步骤16:采取动作at并转移至下一状态st+1,存储当前转移信息向量(st,at,r,done,st+1)至D。从经验回放池D中随机抽取小样本(sj,aj,rj,done,sj+1)进行训练,更新策略网络Q的参数,且每隔C步重置目标网络参数
步骤17:更新POI点和参与者的当前状态,更新在当前状态下的合法动作集合Avalid。若则令/>并记录任务分配结果LC(wi):/>
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明公开的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (1)

1.一种基于强化学习的即时感知即使执行任务分配方法,其特征在于包括:
SPCP+SSFP感知点聚类与传感器选择算法:对城市中大量异构感知点的种类特性以及异构传感器的感知技能特性进行建模,并挖掘出感知点与传感器之间的稳定匹配关系;
基于强化学习的POI点分配算法:将大量异构感知点聚类成POI点集合,通过强化学习算法为每个工人分配一条合理路径,得到最终的任务分配结果;
具体步骤如下:
步骤1:对于城市区域内的大量感知点,采用基于K-means的改进算法,根据大量感知点的类型和空间分布将其聚类成数量较少的POI点;每个参与者wi的感知能力向量可被表示为
步骤2:通过皮尔逊相关系数估计POI点感知需求组成和参与者感知能力之间的相似性其中/> 的绝对值与相似度成正比,/>越高代表参与者和POI点之间的匹配度越高;然后将皮尔逊相关系数引入到聚类过程以平衡空间分布和相似性两者之间的关系;
步骤3:进行基于皮尔逊相关系数的感知点聚类,对于感知点集合L={l1,l2,...,ln},初始化I=0,随机从L中选择k个感知点作为初始聚类中心对集合L进行聚类,在当前结果/>中,/>表示类lcj的中心;
步骤4:计算每个类别lcj中从li到中心的距离,并计算当前相关系数值/>如果则/>
步骤5:当满足Incre≥maxIncre时,令maxIncre=Incre,lcres=lcj,并将li分类至lcres,计算当前类别LC的期望,更新类中心
步骤6:为每个POI点选择一个最佳的协作传感器集合,每个感知点-传感器对效用被定义为其中ω为权重因子,代表该匹配对在历史感知数据中出现的频次;ISIA任务感知质量表示为/>其中SK是对感知点lj而言具有最高感知效用的K个传感器(K≥Δ(lj));基于以上分析,在算法中引入了名为冗余度的中间变量来判定一个感知点-传感器对是否应该从结果集中被移除;每个感知点与其对应的传感器集合的冗余度可被公式化表达为/>因此可将POI点的整体冗余度公式化表达为/>
步骤7:进行基于反向贪心思想的传感器选择过程;对于单个POI点lci={l1,l2,...,lx}和传感器集合S={s1,s2,...,sm},初始化感知点-传感器资源池Prv={(lj,sk)|lj∈lci,sk∈S,andΓ(sk)=Γ(lj)};对于每个感知点lj,计算感知对数量PrNum(lj),当时,置maxRe=0;
步骤8:对于每个传感器sl∈S/Sres,如果Re(lci)-Re(S/{sl})>maxRe则令maxRe=Re(lci)-Re(S/{sl}),OptimalS←sl
步骤9:从集合中删除该感知点-传感器对并将该被选择的传感器添加进结果集合Sres=Sres∪{sl};
步骤10:进行POI点分配,为每个参与者分配一个最佳的POI集合,基于传感器的历史感知数据,某单一种类的任务Γi产生概率可被公式化表示为:其中Count(sj,lk)表示传感器集合对位置{l1,l2,...,le}进行感知的总频次,Count(uti,sj,lk)表示所有的传感器在{l1,l2,...,le}同时发现问题的频次;对某个POI点中的ε个感知类型而言,可能存在E=2ε种紧急任务,我们在聚类过程中将ε的值控制为ε≤10;当至少有一个感知点存在问题时,即假设此POI点存在ISIA任务需要参与者实现即时感知与即使执行;使用向量/>表示uti的类型,那么uti的概率可表示为:最终任务感知需求与参与者感知能力相匹配的概率p(wi,lcj)可以通过/>计算得出;
步骤11:POI覆盖率是本问题中另外一个主要考虑的优化目标,需要在一定的时间限制下最大化POI点的覆盖率,参与者的时间消耗T(wi)主要由三部分组成:移动时间、感知时间和执行时间,即其中移动和感知时间为固定值,根据当前参与者的位置和POI点之间的距离以及感知点数量计算得到;执行时间和POI点中被检测到的任务数量有关,由于任务数量的不确定性,采用期望时间来代表执行时间;某一POI点的期望任务向量为其反映了ISIA任务的密集程度,显然每个POI点lcj的期望执行时间E(AT(lcj))可由表示;
步骤12:将奖励函数设计为 主要由期望收益值和感知成本组成,这代表了参与者可以从POI点巡检过程中获得的预期奖励;当参与者感知能力和任务感知需求之间的匹配程度较高时,可以获得更高的预期收益,这是因为这些参与者可以进行及时的感知;η1表示单位匹配度所带来的单位收益,除此之外,感知成本包括移动时间成本、感知时间成本和执行时间成本,η2表示单位时间内所产生的代价;
步骤13:根据所定义的奖励函数基于DDQN网络进行训练,POI集合LC={lc1,lc2,...,lcm};参与者集合W={w1,w2,...,wp};训练迭代周期数M;经验回放池容量N;随机选择概率ε;学习率α;衰减指数γ;目标网络参数更新周期数C;
步骤14:初始化经验回放池D,容量为N;初始化策略网络Q,参数随机初始化为θ;初始化目标网络参数随机初始化为θ-=θ;
步骤15:初始化对每个episode∈1,M,进行以下操作:重置参与者位置locW,初始化合法动作集合Avalid,将初始状态向量s1的元素全部置0,且令r=0;对于每个t∈1,T,生成区间[0,1]内的随机数rand,如果rand≤ε则从合法动作集合Avalid中随机选择动作at,否则选择动作at=argmaxaQ(st,a;θ);如果a∈Avalid,则获得此步转移所产生的花费rcost和收益rprofit,并且r=r+(rprofit-rcost),done=0,反之置done=1;
步骤16:采取动作at并转移至下一状态st+1,存储当前转移信息向量(st,at,r,done,st+1)至D;从经验回放池D中随机抽取小样本(sj,aj,rj,done,sj+1)进行训练,更新策略网络Q的参数,且每隔C步重置目标网络参数
步骤17:更新POI点和参与者的当前状态,更新在当前状态下的合法动作集合Avalid;若则令/>并记录任务分配结果/>
CN202210370508.5A 2022-04-10 2022-04-10 一种基于强化学习的即时感知即使执行任务分配方法 Active CN114860396B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210370508.5A CN114860396B (zh) 2022-04-10 2022-04-10 一种基于强化学习的即时感知即使执行任务分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210370508.5A CN114860396B (zh) 2022-04-10 2022-04-10 一种基于强化学习的即时感知即使执行任务分配方法

Publications (2)

Publication Number Publication Date
CN114860396A CN114860396A (zh) 2022-08-05
CN114860396B true CN114860396B (zh) 2024-02-09

Family

ID=82628906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210370508.5A Active CN114860396B (zh) 2022-04-10 2022-04-10 一种基于强化学习的即时感知即使执行任务分配方法

Country Status (1)

Country Link
CN (1) CN114860396B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018126286A1 (en) * 2017-01-02 2018-07-05 Newvoicemedia Us Inc. System and method for optimizing communication operations using reinforcement learing
CN112306654A (zh) * 2020-10-24 2021-02-02 西北工业大学 一种面向移动群智感知的人机协作任务分配方法
WO2021213293A1 (zh) * 2020-04-24 2021-10-28 西北工业大学 一种面向群智感知的泛在操作系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018126286A1 (en) * 2017-01-02 2018-07-05 Newvoicemedia Us Inc. System and method for optimizing communication operations using reinforcement learing
WO2021213293A1 (zh) * 2020-04-24 2021-10-28 西北工业大学 一种面向群智感知的泛在操作系统
CN112306654A (zh) * 2020-10-24 2021-02-02 西北工业大学 一种面向移动群智感知的人机协作任务分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李建军 ; 汪校铃 ; 杨玉 ; 付佳 ; .基于GACO的群智感知参与者选择方法研究.计算机应用研究.2020,(10),全文. *

Also Published As

Publication number Publication date
CN114860396A (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
Liu et al. Distributed and energy-efficient mobile crowdsensing with charging stations by deep reinforcement learning
Xu et al. Service offloading with deep Q-network for digital twinning-empowered internet of vehicles in edge computing
CN111754000B (zh) 质量感知的边缘智能联邦学习方法及系统
Qi et al. Knowledge-driven service offloading decision for vehicular edge computing: A deep reinforcement learning approach
Gao et al. Truthful incentive mechanism for nondeterministic crowdsensing with vehicles
Arkian et al. A cluster-based vehicular cloud architecture with learning-based resource management
Miao et al. Balancing quality and budget considerations in mobile crowdsourcing
CN110400128B (zh) 一种基于工人偏好感知的空间众包任务分配方法
CN103647671A (zh) 一种基于Gur Game的群智感知网络管理方法及其系统
Gao et al. Budgeted unknown worker recruitment for heterogeneous crowdsensing using CMAB
Akter et al. Time-constrained task allocation and worker routing in mobile crowd-sensing using a decomposition technique and deep Q-learning
Wu et al. A utility-based subcontract method for sensing task in mobile crowd sensing
Cao et al. Trajectory penetration characterization for efficient vehicle selection in HD map crowdsourcing
Yang et al. Toward incentive-compatible vehicular crowdsensing: An edge-assisted hierarchical framework
Liu et al. GA-DRL: Graph Neural Network-Augmented Deep Reinforcement Learning for DAG Task Scheduling over Dynamic Vehicular Clouds
Liu et al. Learn to coordinate for computation offloading and resource allocation in edge computing: A rational-based distributed approach
Hu et al. Autonomous valet parking optimization with two-step reservation and pricing strategy
CN114860396B (zh) 一种基于强化学习的即时感知即使执行任务分配方法
Chen et al. Joint Task and Computing Resource Allocation in Distributed Edge Computing Systems via Multi-Agent Deep Reinforcement Learning
CN115208892B (zh) 基于动态资源需求的车路协同在线任务调度方法及系统
CN113705902B (zh) 一种基于人群管理的交通枢纽客运组织评价方法
Tang et al. A Semi-supervised Sensing Rate Learning based CMAB scheme to combat COVID-19 by trustful data collection in the crowd
CN113420942B (zh) 一种基于深度q学习的环卫车实时路线规划方法
Huq et al. Profit and satisfaction aware order assignment for online food delivery systems exploiting water wave optimization
Zeng et al. An evolutionary multi-task assignment method adapting to travel convenience in mobile crowdsensing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant