CN114860396A - 一种基于强化学习的即时感知即使执行任务分配方法 - Google Patents
一种基于强化学习的即时感知即使执行任务分配方法 Download PDFInfo
- Publication number
- CN114860396A CN114860396A CN202210370508.5A CN202210370508A CN114860396A CN 114860396 A CN114860396 A CN 114860396A CN 202210370508 A CN202210370508 A CN 202210370508A CN 114860396 A CN114860396 A CN 114860396A
- Authority
- CN
- China
- Prior art keywords
- perception
- point
- poi
- sensing
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008447 perception Effects 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000002787 reinforcement Effects 0.000 title claims abstract description 18
- 230000006870 function Effects 0.000 claims abstract description 8
- HCJLVWUMMKIQIM-UHFFFAOYSA-M sodium;2,3,4,5,6-pentachlorophenolate Chemical compound [Na+].[O-]C1=C(Cl)C(Cl)=C(Cl)C(Cl)=C1Cl HCJLVWUMMKIQIM-UHFFFAOYSA-M 0.000 claims abstract description 5
- 230000009471 action Effects 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 5
- 230000008901 benefit Effects 0.000 claims description 3
- 239000006390 lc 2 Substances 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 241000023813 Isia Species 0.000 claims 3
- 238000011160 research Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012358 sourcing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于强化学习的即时感知即使执行任务分配方法,基于贪心思想以及相关效用函数的SPCP+SSFP感知点聚类与传感器选择算法可以根据异构感知点的种类特性以及异构传感器的感知技能特性计算出感知点与传感器之间的稳定匹配关系;基于这种稳定匹配关系,强化学习算法可以将聚类后的POI点分配给最佳的工人完成感知,从而最终提高任务分配的整体执行成功率和感知质量,实现即时感知与即时执行。
Description
技术领域
本发明涉及移动群智感知任务分配和强化学习领域,尤其涉及基于强化学习的移动群智感知任务分配方法。
背景技术
任务分配是移动群智感知领域一个关键的研究问题。从任务紧急程度的角度出发,现有研究工作大致可以被分为两类:延迟容忍型任务和时间敏感型任务。延迟容忍型任务不需要被立刻执行,参与者可以再不改变其原有行动轨迹的基础上捎带完成感知。MCS平台也不需要获取过多的用户的个人信息,因此通常不会侵犯个人隐私,并且产生的感知代价较低。然而由于参与者只执行其行动路线所经过的感知任务,参与者的移动模式对最终的分配结果有十分重要的影响,那些参与者较少的感知区域内的任务往往难以确保被一定执行。与此相反,时间敏感型任务需要被立刻执行,所以附近的参与者需要移动到指定的位置来完成任务。由于MCS平台需要招募附近那些具备足够意愿去执行任务的参与者,这会花费较高的激励成本但是可以保证感知任务被及时执行。现有关注于延迟容忍型或者时间敏感型的研究遵循数个相同的阶段,即任务发现、发布、接收与执行。通过任务发现和任务发布阶段,任务发布者感知到了城市区域内的一些问题,并且将其上报至MCS云平台,称之为“城市上下文感知”(urban context sensing)。通过任务接收和任务执行阶段,MCS平台上的参与者根据任务分配算法运行结果接收任务并执行,称之为“城市上下文执行”(urbancontext actuation)。在这两阶段之间,我们需要通过一些特定的算法来分配感知任务,显然MCS云平台的任务分配过程会造成一些时间延迟。然而在实际的应用场景中,有一类更加紧急的感知任务要求我们需要在发现他们的第一时间就进行执行,这种任务被称为“即时感知即时执行任务”(Instant Sensing and then Instant Actuation,ISIA)。这些ISIA任务如果不被及时的解决,通常会造成更加严重的后果甚至生命财产损失。但是现有的面向延迟容忍型或者时间敏感型的研究工作主要关注于已发布在平台上的感知任务,从感知阶段到执行阶段仍然存在一些时间延迟。对于ISIA任务而言,我们希望实现“即时感知即时执行”,这意味着从感知阶段到执行阶段不应该存在时间延迟,因此传统的任务分配模式并不适用于ISIA任务。
为了解决ISIA任务的分配问题,我们的主要挑战是招募一组参与者在ISIA任务未被感知到时尽可能实现感知区域的有效覆盖。本发明提出了一种新的任务分配处理模式和新的任务分配框架ISIATasker,将MCS云平台的作用阶段移至ISIA感知和执行周期开始之前,并基于历史签到数据对参与者进行预分配。在感知和执行周期内,基于任务分配的结果参与者可以直接与传感器节点进行交互,并且利用自身能力来执行感知任务,使得这些任务可以在本地得到解决而无需上传至MCS云平台,这就实现了即时感知与即使执行。通过这种方式,传感器可以绕过MCS云平台直接向参与者传送实时数据,而利用蓝牙、WiFi或者其他无线通讯方式的短距离传输产生的网络延迟可以忽略不计,数据传输的健壮性和速度也得到保证。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种基于强化学习的即时感知即使执行任务分配方法。基于贪心思想以及相关效用函数的SPCP+SSFP感知点聚类与传感器选择算法可以根据异构感知点的种类特性以及异构传感器的感知技能特性计算出感知点与传感器之间的稳定匹配关系;基于这种稳定匹配关系,强化学习算法可以将聚类后的POI点分配给最佳的工人完成感知,从而最终提高任务分配的整体执行成功率和感知质量,实现即时感知与即时执行。
技术方案
一种基于强化学习的即时感知即使执行任务分配方法,其特征在于包括:
SPCP+SSFP感知点聚类与传感器选择算法:对城市中大量异构感知点的种类特性以及异构传感器的感知技能特性进行建模,并挖掘出感知点与传感器之间的稳定匹配关系;
基于强化学习的POI点分配算法:将大量异构感知点聚类成POI点集合,通过强化学习算法为每个工人分配一条合理路径,得到最终的任务分配结果;
具体步骤如下:
步骤2:通过皮尔逊相关系数估计POI点感知需求组成和参与者感知能力之间的相似性其中 的绝对值与相似度成正比,越高代表参与者和POI点之间的匹配度越高;然后将皮尔逊相关系数引入到聚类过程以平衡空间分布和相似性两者之间的关系;
步骤6:为每个POI点选择一个最佳的协作传感器集合,每个感知点-传感器对效用被定义为其中ω为权重因子,代表该匹配对在历史感知数据中出现的频次;ISIA任务感知质量表示为其中SK是对感知点lj而言具有最高感知效用的K个传感器(K≥Δ(lj));基于以上分析,在算法中引入了名为冗余度的中间变量来判定一个感知点-传感器对是否应该从结果集中被移除;每个感知点与其对应的传感器集合的冗余度可被公式化表达为因此可将POI点的整体冗余度公式化表达为
步骤7:进行基于反向贪心思想的传感器选择过程;对于单个POI点lci={l1,l2,...,lx}和传感器集合S={s1,s2,...,sm},初始化感知点-传感器资源池Prv={(lj,sk)|lj∈lci,sk∈S,andΓ(sk)=Γ(lj)};对于每个感知点lj,计算感知对数量PrNum(lj),当时,置maxRe=0;
步骤8:对于每个传感器sl∈S/Sres,如果Re(lci)-Re(S/{sl})>maxRe则令maxRe=Re(lci)-Re(S/{sl}),OptimalS←sl;
步骤10:进行POI点分配,为每个参与者分配一个最佳的POI集合,基于传感器的历史感知数据,某单一种类的任务Γi产生概率可被公式化表示为:其中Count(sj,lk)表示传感器集合对位置{l1,l2,...,le}进行感知的总频次,Count(uti,sj,lk)表示所有的传感器在{l1,l2,...,le}同时发现问题的频次;对某个POI点中的ε个感知类型而言,可能存在E=2ε种紧急任务,我们在聚类过程中将ε的值控制为ε≤10;当至少有一个感知点存在问题时,即假设此POI点存在ISIA任务需要参与者实现即时感知与即使执行;使用向量表示uti的类型,那么uti的概率可表示为:最终任务感知需求与参与者感知能力相匹配的概率p(wi,lcj)可以通过计算得出;
步骤11:POI覆盖率是本问题中另外一个主要考虑的优化目标,需要在一定的时间限制下最大化POI点的覆盖率,参与者的时间消耗T(wi)主要由三部分组成:移动时间、感知时间和执行时间,即其中移动和感知时间为固定值,根据当前参与者的位置和POI点之间的距离以及感知点数量计算得到;执行时间和POI点中被检测到的任务数量有关,由于任务数量的不确定性,采用期望时间来代表执行时间;某一POI点的期望任务向量为其反映了ISIA任务的密集程度,显然每个POI点lcj的期望执行时间E(AT(lcj))可由E(AT(lcj))=σ(lcj)×tb,表示;
步骤12:将奖励函数设计为 主要由期望收益值和感知成本组成,这代表了参与者可以从POI点巡检过程中获得的预期奖励;当参与者感知能力和任务感知需求之间的匹配程度较高时,可以获得更高的预期收益,这是因为这些参与者可以进行及时的感知;η1表示单位匹配度所带来的单位收益,除此之外,感知成本包括移动时间成本、感知时间成本和执行时间成本,η2表示单位时间内所产生的代价;
步骤13:根据所定义的奖励函数基于DDQN网络进行训练,POI集合LC={lc1,lc2,...,lcm};参与者集合W={w1,w2,...,wp};训练迭代周期数M;经验回放池容量N;随机选择概率ε;学习率α;衰减指数γ;目标网络参数更新周期数C;
步骤15:初始化对每个episode∈1,M,进行以下操作:重置参与者位置locW,初始化合法动作集合Avalid,将初始状态向量s1的元素全部置0,且令r=0;对于每个t∈1,T,生成区间[0,1]内的随机数rand,如果rand≤ε则从合法动作集合Avalid中随机选择动作at,否则选择动作at=argmaxaQ(st,a;θ);如果a∈Avalid,则获得此步转移所产生的花费rcost和收益rprofit,并且r=r+(rprofit-rcost),done=0,反之置done=1;
步骤16:采取动作at并转移至下一状态st+1,存储当前转移信息向量(st,at,r,done,st+1)至D;从经验回放池D中随机抽取小样本(sj,aj,rj,done,sj+1)进行训练,更新策略网络Q的参数,且每隔C步重置目标网络参数
有益效果
本发明提提出了一个新的任务分配框架ISIATasker。在感知点聚类和传感器选择阶段,首先将大量离散的感知点进行聚类,并将每个结果看作一个POI点,这些POI点都有可能存在ISIA任务。除此之外,对每个POI点需要选择一个最佳的传感器集合来协助参与者完成感知,从这些传感器收到感知信息的参与者可以实现即时感知与即使执行,采用了一个基于下降贪心思想的算法来进行传感器选择,通过循环剔除具备最高冗余度的传感器来保留那些与感知点具备长期稳定匹配关系的传感器作为最终的结果集合,从而使用这些传感器的历史数据指导下一阶段的POI点分配。最终在POI点分配阶段,为了同时最大化整体的POI点覆盖和匹配度,本发明提出了一个基于深度强化学习的方法——PA-DDQN来实现这个双目标优化问题,最终实现即时感知与即使执行。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实例中所提出的ISIA任务处理模式示意图。
图2为ISIATasker的框架流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提出一种新的任务分配框架ISIATasker,该框架主要分为两部分。在感知点聚类和传感器选择阶段,首先将大量离散的感知点进行聚类,并将每个结果看作一个POI点,这些POI点都有可能存在ISIA任务。聚类的目的是使得每个POI点附近发现的任务类型概率分布更符合参与者的感知能力分布,因此引入了皮尔逊相关系数来估计任务和参与者之间的相似性。除此之外,对每个POI点需要选择一个最佳的传感器集合来协助参与者完成感知,从这些传感器收到感知信息的参与者可以实现即时感知与即使执行,除此之外我们定义了每个传感器集合的效用和冗余度,并且采用了一个基于下降贪心思想的算法来进行传感器选择。通过循环剔除具备最高冗余度的传感器可以保留那些与感知点具备长期稳定匹配关系的传感器作为最终的结果集合,从而使用这些传感器的历史数据指导下一阶段的POI点分配。最终,在POI点分配阶段,需要同时最大化整体的POI点覆盖和匹配度,并基于历史签到数据提出了一个基于深度强化学习的方法——PA-DDQN来实现这个双目标优化问题,最终实现即时感知与即使执行。
本发明共有2幅附图,请参阅图2所示,SPCP+SSFP感知点聚类与传感器选择算法:对城市中大量异构感知点的种类特性以及异构传感器的感知技能特性进行建模,并挖掘出感知点与传感器之间的稳定匹配关系;基于强化学习的POI点分配算法:将大量异构感知点聚类成POI点集合,通过强化学习算法为每个工人分配一条合理路径,得到最终的任务分配结果。
本发明的具体步骤如下:
步骤2:通过皮尔逊相关系数估计POI点感知需求组成和参与者感知能力之间的相似性其中 的绝对值与相似度成正比,越高代表参与者和POI点之间的匹配度越高。然后将皮尔逊相关系数引入到聚类过程以平衡空间分布和相似性两者之间的关系。
步骤6:为每个POI点选择一个最佳的协作传感器集合,每个感知点-传感器对效用被定义为其中ω为权重因子,代表该匹配对在历史感知数据中出现的频次。ISIA任务感知质量表示为其中SK是对感知点lj而言具有最高感知效用的K个传感器(K≥Δ(lj))。基于以上分析,我们在算法中引入了名为冗余度的中间变量来判定一个感知点-传感器对是否应该从结果集中被移除。每个感知点与其对应的传感器集合的冗余度可被公式化表达为因此可将POI点的整体冗余度公式化表达为
步骤7:进行基于反向贪心思想的传感器选择过程。对于单个POI点lci={l1,l2,...,lx}和传感器集合S={s1,s2,...,sm},初始化感知点-传感器资源池Prv={(lj,sk)|lj∈lci,sk∈S,andΓ(sk)=Γ(lj)}。对于每个感知点lj,计算感知对数量PrNum(lj),当时,置maxRe=0。
步骤8:对于每个传感器sl∈S/Sres,如果Re(lci)-Re(S/{sl})>maxRe则令maxRe=Re(lci)-Re(S/{sl}),OptimalS←sl。
步骤10:进行POI点分配,为每个参与者分配一个最佳的POI集合,基于传感器的历史感知数据,某单一种类的任务Γi产生概率可被公式化表示为:其中Count(sj,lk)表示传感器集合对位置{l1,l2,...,le}进行感知的总频次,Count(uti,sj,lk)表示所有的传感器在{l1,l2,...,le}同时发现问题的频次。对某个POI点中的ε个感知类型而言,可能存在E=2ε种紧急任务,我们在聚类过程中将ε的值控制为ε≤10。当至少有一个感知点存在问题时,即假设此POI点存在ISIA任务需要参与者实现即时感知与即使执行。我们使用向量表示uti的类型,那么uti的概率可表示为:最终任务感知需求与参与者感知能力相匹配的概率p(wi,lcj)可以通过计算得出。
步骤11:POI覆盖率是本问题中另外一个主要考虑的优化目标,需要在一定的时间限制下最大化POI点的覆盖率,参与者的时间消耗T(wi)主要由三部分组成:移动时间、感知时间和执行时间,即其中移动和感知时间为固定值,根据当前参与者的位置和POI点之间的距离以及感知点数量计算得到。执行时间和POI点中被检测到的任务数量有关,由于任务数量的不确定性,我们采用期望时间来代表执行时间。某一POI点的期望任务向量为其反映了ISIA任务的密集程度,显然每个POI点lcj的期望执行时间E(AT(lcj))可由E(AT(lcj))=σ(lcj)×tb,表示。
步骤12:将奖励函数设计为 主要由期望收益值和感知成本组成,这代表了参与者可以从POI点巡检过程中获得的预期奖励。当参与者感知能力和任务感知需求之间的匹配程度较高时,可以获得更高的预期收益,这是因为这些参与者可以进行及时的感知。η1表示单位匹配度所带来的单位收益,除此之外,感知成本包括移动时间成本、感知时间成本和执行时间成本,η2表示单位时间内所产生的代价。
步骤13:根据所定义的奖励函数基于DDQN网络进行训练,POI集合LC={lc1,lc2,...,lcm};参与者集合W={w1,w2,...,wp};训练迭代周期数M;经验回放池容量N;随机选择概率ε;学习率α;衰减指数γ;目标网络参数更新周期数C。
步骤15:初始化对每个episode∈1,M,进行以下操作:重置参与者位置locW,初始化合法动作集合Avalid,将初始状态向量s1的元素全部置0,且令r=0。对于每个t∈1,T,生成区间[0,1]内的随机数rand,如果rand≤ε则从合法动作集合Avalid中随机选择动作at,否则选择动作at=argmaxaQ(st,a;θ)。如果a∈Avalid,则获得此步转移所产生的花费rcost和收益rprofit,并且r=r+(rprofit-rcost),done=0,反之置done=1。
步骤16:采取动作at并转移至下一状态st+1,存储当前转移信息向量(st,at,r,done,st+1)至D。从经验回放池D中随机抽取小样本(sj,aj,rj,done,sj+1)进行训练,更新策略网络Q的参数,且每隔C步重置目标网络参数
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明公开的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。
Claims (1)
1.一种基于强化学习的即时感知即使执行任务分配方法,其特征在于包括:
SPCP+SSFP感知点聚类与传感器选择算法:对城市中大量异构感知点的种类特性以及异构传感器的感知技能特性进行建模,并挖掘出感知点与传感器之间的稳定匹配关系;
基于强化学习的POI点分配算法:将大量异构感知点聚类成POI点集合,通过强化学习算法为每个工人分配一条合理路径,得到最终的任务分配结果;
具体步骤如下:
步骤2:通过皮尔逊相关系数估计POI点感知需求组成和参与者感知能力之间的相似性其中 的绝对值与相似度成正比,越高代表参与者和POI点之间的匹配度越高;然后将皮尔逊相关系数引入到聚类过程以平衡空间分布和相似性两者之间的关系;
步骤6:为每个POI点选择一个最佳的协作传感器集合,每个感知点-传感器对效用被定义为其中ω为权重因子,代表该匹配对在历史感知数据中出现的频次;ISIA任务感知质量表示为其中SK是对感知点lj而言具有最高感知效用的K个传感器(K≥Δ(lj));基于以上分析,在算法中引入了名为冗余度的中间变量来判定一个感知点-传感器对是否应该从结果集中被移除;每个感知点与其对应的传感器集合的冗余度可被公式化表达为因此可将POI点的整体冗余度公式化表达为
步骤7:进行基于反向贪心思想的传感器选择过程;对于单个POI点lci={l1,l2,...,lx}和传感器集合S={s1,s2,...,sm},初始化感知点-传感器资源池Prv={(lj,sk)|lj∈lci,sk∈S,andΓ(sk)=Γ(lj)};对于每个感知点lj,计算感知对数量PrNum(lj),当时,置maxRe=0;
步骤8:对于每个传感器sl∈S/Sres,如果Re(lci)-Re(S/{sl})>maxRe则令maxRe=Re(lci)-Re(S/{sl}),OptimalS←sl;
步骤10:进行POI点分配,为每个参与者分配一个最佳的POI集合,基于传感器的历史感知数据,某单一种类的任务Γi产生概率可被公式化表示为:其中Count(sj,lk)表示传感器集合对位置{l1,l2,...,le}进行感知的总频次,Count(uti,sj,lk)表示所有的传感器在{l1,l2,...,le}同时发现问题的频次;对某个POI点中的ε个感知类型而言,可能存在E=2ε种紧急任务,我们在聚类过程中将ε的值控制为ε≤10;当至少有一个感知点存在问题时,即假设此POI点存在ISIA任务需要参与者实现即时感知与即使执行;使用向量表示uti的类型,那么uti的概率可表示为:最终任务感知需求与参与者感知能力相匹配的概率p(wi,lcj)可以通过计算得出;
步骤11:POI覆盖率是本问题中另外一个主要考虑的优化目标,需要在一定的时间限制下最大化POI点的覆盖率,参与者的时间消耗T(wi)主要由三部分组成:移动时间、感知时间和执行时间,即其中移动和感知时间为固定值,根据当前参与者的位置和POI点之间的距离以及感知点数量计算得到;执行时间和POI点中被检测到的任务数量有关,由于任务数量的不确定性,采用期望时间来代表执行时间;某一POI点的期望任务向量为其反映了ISIA任务的密集程度,显然每个POI点lcj的期望执行时间E(AT(lcj))可由表示;
步骤12:将奖励函数设计为 主要由期望收益值和感知成本组成,这代表了参与者可以从POI点巡检过程中获得的预期奖励;当参与者感知能力和任务感知需求之间的匹配程度较高时,可以获得更高的预期收益,这是因为这些参与者可以进行及时的感知;η1表示单位匹配度所带来的单位收益,除此之外,感知成本包括移动时间成本、感知时间成本和执行时间成本,η2表示单位时间内所产生的代价;
步骤13:根据所定义的奖励函数基于DDQN网络进行训练,POI集合LC={lc1,lc2,...,lcm};参与者集合W={w1,w2,...,wp};训练迭代周期数M;经验回放池容量N;随机选择概率ε;学习率α;衰减指数γ;目标网络参数更新周期数C;
步骤15:初始化对每个episode∈1,M,进行以下操作:重置参与者位置locW,初始化合法动作集合Avalid,将初始状态向量s1的元素全部置0,且令r=0;对于每个t∈1,T,生成区间[0,1]内的随机数rand,如果rand≤ε则从合法动作集合Avalid中随机选择动作at,否则选择动作at=argmaxaQ(st,a;θ);如果a∈Avalid,则获得此步转移所产生的花费rcost和收益rprofit,并且r=r+(rprofit-rcost),done=0,反之置done=1;
步骤16:采取动作at并转移至下一状态st+1,存储当前转移信息向量(st,at,r,done,st+1)至D;从经验回放池D中随机抽取小样本(sj,aj,rj,done,sj+1)进行训练,更新策略网络Q的参数,且每隔C步重置目标网络参数
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210370508.5A CN114860396B (zh) | 2022-04-10 | 2022-04-10 | 一种基于强化学习的即时感知即使执行任务分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210370508.5A CN114860396B (zh) | 2022-04-10 | 2022-04-10 | 一种基于强化学习的即时感知即使执行任务分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114860396A true CN114860396A (zh) | 2022-08-05 |
CN114860396B CN114860396B (zh) | 2024-02-09 |
Family
ID=82628906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210370508.5A Active CN114860396B (zh) | 2022-04-10 | 2022-04-10 | 一种基于强化学习的即时感知即使执行任务分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114860396B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018126286A1 (en) * | 2017-01-02 | 2018-07-05 | Newvoicemedia Us Inc. | System and method for optimizing communication operations using reinforcement learing |
CN112306654A (zh) * | 2020-10-24 | 2021-02-02 | 西北工业大学 | 一种面向移动群智感知的人机协作任务分配方法 |
WO2021213293A1 (zh) * | 2020-04-24 | 2021-10-28 | 西北工业大学 | 一种面向群智感知的泛在操作系统 |
-
2022
- 2022-04-10 CN CN202210370508.5A patent/CN114860396B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018126286A1 (en) * | 2017-01-02 | 2018-07-05 | Newvoicemedia Us Inc. | System and method for optimizing communication operations using reinforcement learing |
WO2021213293A1 (zh) * | 2020-04-24 | 2021-10-28 | 西北工业大学 | 一种面向群智感知的泛在操作系统 |
CN112306654A (zh) * | 2020-10-24 | 2021-02-02 | 西北工业大学 | 一种面向移动群智感知的人机协作任务分配方法 |
Non-Patent Citations (1)
Title |
---|
李建军;汪校铃;杨玉;付佳;: "基于GACO的群智感知参与者选择方法研究", 计算机应用研究, no. 10, 5 October 2020 (2020-10-05) * |
Also Published As
Publication number | Publication date |
---|---|
CN114860396B (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111754000B (zh) | 质量感知的边缘智能联邦学习方法及系统 | |
ul Hassan et al. | Efficient task assignment for spatial crowdsourcing: A combinatorial fractional optimization approach with semi-bandit learning | |
Song et al. | QoI-aware multitask-oriented dynamic participant selection with budget constraints | |
CN110490335A (zh) | 一种计算参与者贡献率的方法及装置 | |
CN110400128B (zh) | 一种基于工人偏好感知的空间众包任务分配方法 | |
CN109325671B (zh) | 一种时空众包在线任务分配方法及系统 | |
CN110458663A (zh) | 一种车辆推荐方法、装置、设备及存储介质 | |
Gao et al. | Budgeted unknown worker recruitment for heterogeneous crowdsensing using CMAB | |
CN112148492B (zh) | 一种考虑多用户移动性的服务部署和资源分配方法 | |
CN108415760B (zh) | 一种基于移动机会网络的群智计算在线任务分配方法 | |
Ji et al. | Quality-driven online task-bundling-based incentive mechanism for mobile crowdsensing | |
CN108197889A (zh) | 一种基于移动性预测的群智感知用户招募方法和系统 | |
Wu et al. | A utility-based subcontract method for sensing task in mobile crowd sensing | |
CN115392776A (zh) | 基于多技能协作的空间众包任务分配方法 | |
CN115511650A (zh) | 确定群智感知任务中传播用户的方法和装置 | |
Chen et al. | A pricing approach toward incentive mechanisms for participant mobile crowdsensing in edge computing | |
CN114201303A (zh) | 工业物联网环境下固定路径agv的任务卸载优化方法 | |
Hu et al. | Autonomous valet parking optimization with two-step reservation and pricing strategy | |
CN111915185B (zh) | 一种基于路径规划策略的时空众包任务分配方法和装置 | |
CN113190342A (zh) | 用于云-边协同网络的多应用细粒度卸载的方法与系统架构 | |
Wang et al. | Distributed game-theoretical route navigation for vehicular crowdsensing | |
Kumar et al. | Traffic scheduling, network slicing and virtualization based on deep reinforcement learning | |
CN111753386B (zh) | 一种数据处理方法及装置 | |
CN114860396A (zh) | 一种基于强化学习的即时感知即使执行任务分配方法 | |
Baccour et al. | RL-PDNN: Reinforcement learning for privacy-aware distributed neural networks in IoT systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |