CN111030764B - 一种基于随机博弈在线学习的众包用户信息年龄管理方法 - Google Patents

一种基于随机博弈在线学习的众包用户信息年龄管理方法 Download PDF

Info

Publication number
CN111030764B
CN111030764B CN201911056486.XA CN201911056486A CN111030764B CN 111030764 B CN111030764 B CN 111030764B CN 201911056486 A CN201911056486 A CN 201911056486A CN 111030764 B CN111030764 B CN 111030764B
Authority
CN
China
Prior art keywords
user
aoi
state
users
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911056486.XA
Other languages
English (en)
Other versions
CN111030764A (zh
Inventor
陈艳姣
朱笑天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201911056486.XA priority Critical patent/CN111030764B/zh
Publication of CN111030764A publication Critical patent/CN111030764A/zh
Application granted granted Critical
Publication of CN111030764B publication Critical patent/CN111030764B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/309Measuring or estimating channel quality parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/042Backward inferencing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/391Modelling the propagation channel

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Electromagnetism (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种基于随机博弈在线学习的众包用户信息年龄管理算法,采取最大化未来期望收益的方法,让众包用户在学习过程中自适应地动态调整数据包产生速率,根据学习结果获取不同状态下的最佳选择策略,使得使用该策略的用户长期收益最大化。解决众包用户在动态环境下自适应选择可以最大化长期收益的最佳选择策略的问题,将众包用户之间的竞争描述为随机博弈模型,使用在线学习算法获得最佳数据包产生速率选择策略。

Description

一种基于随机博弈在线学习的众包用户信息年龄管理方法
技术领域
本发明属于众包和在线学习领域,尤其涉及一种基于随机博弈在线学习的众包用户信息年龄管理方法。
背景技术
随着物联网(IoT)技术的快速发展和便携式设备的广泛普及,对实时信息更新的需求越来越迫切,例如新闻、天气预报和交通状况等。在大多数的情况下,过时的信息几乎没有用处。为了收集实时的交通数据,谷歌地图邀请用户群体在自己的位置提交实时路况信息,比如报告是否存在交通堵塞或者交通事故,使用该地图的其他用户则可以及时看到这些交通消息,并根据这些信息来更好地规划自己的路线。这种众包的做法越来越多,它结合了群体的集体努力来保持信息的实时更新。
众包集结了群体的力量来完成特定的任务。众包平台招募用户来执行特定的感知任务。为了能提供足够及时的数据信息,众包平台需要吸引大量的用户。然而,生成和传输信息会消耗用户移动设备上的资源,因此,众包平台需要设计有效的激励机制来补偿用户对电池、计算能力等资源的消耗,以鼓励用户贡献更多的信息。众包平台通常会根据用户完成任务的数量给予相应的奖励。信息年龄(Age-of-information,AoI)作为一种评价信息新鲜度的新指标被引入,它度量了用户采集的数据信息从生成到被接收之间经过的时间。现有的这类关于AoI 的经济问题更多的是将两个众包平台之间的竞争定义为一种非合作博弈,而对试图从平台得到理想的利润的用户之间的竞争进行研究的文献还比较少。从用户的角度看,特别是用户如何管理AoI以从众包平台获得最优的回报,目前还没有研究。
具体地说,在众包进行过程中,用户根据当前观测到的信道质量和自己当前的AoI来确定数据包的生成速率,生成的数据包会被传输到众包平台上,但是成功传输的数据包的比例会受到信道质量的影响,信道质量越高,传输成功的概率也就越大。接收到新生成的数据包,众包平台将更新用户的AoI。如果在当前时间段中被接收到的数据包越多,那么用户的AoI 将越低,也就意味着信息越新。然后,平台根据接收到的用户数据包数量和信息的AoI计算出用户的贡献,并按贡献的比例向用户分发固定数额的奖励。一般来说,众包平台根据用户对于众包任务的贡献比例,在固定的奖励池中为用户分配不同的奖励。这说明用户获得的奖励不仅取决于自己的贡献,还受到其他用户贡献的影响,这就会导致用户之间的激烈竞争。让问题更加复杂的是,由于无线信道质量的不确定性,并不是所有用户生成的数据都能顺利交付到平台上。如果信道质量较差,即使用户生成大量的数据包,也只有很少比例的数据包能被成功传输到众包平台,考虑到生成数据包的成本,信道质量也会影响用户的收益。
发明内容
本发明针对现有技术的不足,提供一种基于随机博弈学习的众包用户信息年龄管理方法。
本发明的技术方案为一种近似纳什均衡学习算法,包含以下步骤:
步骤1,初始化众包数据和当前信道的属性,具体包括:输入初始随机探索概率参数θ0,折现系数γ,纳什均衡的近似参数∈,用户1和用户2生成数据包对应的单位成本{c1,c2},初始信息年龄AoI{f1(0),f2(0)},以及初始信道状态{q1(0),q2(0)};设置当前迭代数t=0;初始化用户1和用户2的状态均为s(0)={s1(0),s2(0)},在所有离散状态下的状态值{V1[s1(t),s2(t)],V2[s1(t),s2(t)]}及策略对ξ(0)={ξ1(0),ξ2(0)}纳什均衡的近似参数,用户。信息年龄(Age-of-information,AoI)。
步骤2,计算随机探索概率参数
Figure GDA0002823040640000021
步骤3,两个用户均分别选择动作a(t)={a1(t),a2(t)},均以1-θ的概率根据当前策略对ξ(t)={ξ1(t),ξ2(t)}选择动作,或者均以θ的概率随机选择动作;
步骤4,根据两个用户的动作a(t)={a1(t),a2(t)},以及用户当前状态s(t)={s1(t),s2(t)},可以计算得到用户1对于众包平台的贡献比例
Figure GDA0002823040640000022
其中
Figure GDA0002823040640000023
mi(t)是指用户i成功传输到众包平台的数据包数量。用户1 的期望收益为r1[s(t),a(t)]=PoC1[s(t),a(t)]×W(t)-c1a1(t),其中W(t)是众包平台所提供的总奖励。同样,用户2对于众包平台的贡献比例为
Figure GDA0002823040640000024
用户2的期望收益为r2[s(t),a(t)]=PoC2[s(t),a(t)]×W(t)-c2a2(t)。
在Δt时间内,用户i所产生的数据包的总数可表示为Ji(t)=ai(t)×Δt,每一个数据包j 都被标记为{τi,j,j,Ji(t)},分别表示其生成时间、次序和该时段内生成包的总数,τi,j表示用户 i第j个数据包生成时间,对于每一个数据包j来说,其AoI为
Figure GDA0002823040640000025
其中αi,j是数据包j被众包平台成功接收的时间,Δi,l(t-1)是上一个时间段中最后一个被接收的数据包l的AoI。故可计算用户i在该时间段中产生的所有数据包的AoI为
Figure GDA0002823040640000031
pi(t)指时间为t的时候,用户i的信道中,数据包成功传输的概率;用户i在t轮迭代后的AoI由fi(t)更新为
Figure GDA0002823040640000032
众包用户的状态转换包括信道质量的转换和用户AoI的转换,两者是相互独立的。因此,t+1轮迭代中的用户状态s(t+1)={s1(t+1),s2(t+1)}的转移概率均为P[s(t+1)|s(t),a(t)]=P[f1(t+1)|f1(t),a1(t)]×P[f2(t+1)|f2(t),a2(t)]×P[q1(t+ 1)]×P[q2(t+1)],其中,P[f1(t+1)|f1(t),a1(t)]和P[f2(t+1)|f2(t),a2(t)]表示AoI的转移概率,用户1和用户2的信道状态q1和q2的转移概率P[q1(t+1)]和P[q2(t+1)]可根据无线电传播模型进行估计,AoI的转移概率为:
Figure GDA0002823040640000033
步骤5,根据
Figure GDA0002823040640000034
更新用户1的最佳策略ξ1(t+1),根据
Figure GDA0002823040640000035
更新用户2的最佳策略ξ2(t+1)。其中,Pr表示从状态s采集动作
Figure GDA0002823040640000037
转移到s′的概率,s′表示不等于s的状态。
步骤6,根据Vi[s(t+1)]=[1-η(t+1)]Vi[s(t)]+η(t+1)ri[s,a1(t+1),a2(t+1)]+γVi[s′(t)]分别更新两个用户的状态值V1(t+1),V2(t+1),其中η∈[0,1)为用户学习率,在第 t次迭代中,大小为
Figure GDA0002823040640000036
η随着迭代次数的增加而减少,有助于算法后期的收敛。
步骤7,如果用户的策略收敛,结束算法并输出策略对;否则增值t,返回步骤2。
而且,在步骤3中,采取θ探索方法,设置随机探索选择概率参数θ,两个用户分别以1-θ的概率根据当前策略对ξ(t)={ξ1(t),ξ2(t)}选择动作a(t)={a1(t),a2(t)};以θ的概率随机选择动作;θ随着算法的迭代数t的增加逐渐递减,因此算法前期探索性较强,避免过早的局部收敛;后期用户根据最佳策略选择动作的概率增大,有助于后期的收敛。
而且,在步骤4中,用户1和用户2的策略达到近似纳什均衡,两个用户的动作都为近似占优策略。
假设用户1和用户2的最佳策略
Figure GDA0002823040640000041
Figure GDA0002823040640000042
分别最大化它们各自的效益,即最佳策略对。随机博弈中的最佳策略对使得每一轮中的常和博弈达到纳什均衡。
然而在二元矩阵博弈中,标准纳什均衡可能并不存在。因此,我们用∈近似纳什均衡代替,以使得策略对收敛。
Figure GDA0002823040640000043
表示近似最佳策略对,对于任意状态s∈S,S表示状态集,都有
Figure GDA0002823040640000044
其中
Figure GDA0002823040640000045
表示ξ2取的是对于任意ξ1来说,最优的
Figure GDA0002823040640000046
下同,
Figure GDA0002823040640000047
并且∈>0,因此,用户i在状态s下的状态值的计算可以写为
Figure GDA0002823040640000048
其中,ri表示用户的收益,γ是折现系数。
两个用户的近似最佳策略对
Figure GDA0002823040640000049
计算方式分别为
Figure GDA00028230406400000410
Figure GDA00028230406400000411
Figure GDA00028230406400000412
本发明利用众包用户关系随机博弈建模和在线学习算法,通过迭代学习自适应近似最佳策略,采取计算近似纳什均衡的方法获得每一轮迭代的占优策略,从而使得最优策略收敛,提高了用户的期望收益。
附图说明
图1是本发明实施例的在线学习算法的流程图。
图2是本发明实施例的系统示意图。
图3是本发明实施例的近似纳什均衡收敛示意图。
具体实施方式
本发明主要基于众包用户关系随机博弈和在线学习,提出一种众包用户关系随机动态博弈的模型系统以及近似纳什均衡在线学习算法。本方法充分考虑了用户数据包的信息年龄,信道质量与用户当前和未来长期收益之间的相互影响,通过自适应迭代学习的方法来获得最佳策略。通过本发明学习到的策略使得用户期望收益增加。
本发明提供的方法能够用计算机软件技术实现流程。参见图1,实施例以2个用户为例对本发明的流程进行一个具体的阐述,如下:
步骤1,输入初始随机探索概率参数θ0,折现系数γ,纳什均衡的近似参数∈,用户1和用户2生成数据包对应的单位成本{c1,c2},初始AoI{f1(0),f2(0)},以及初始信道状态{q1(0),q2(0)}。设置当前迭代数t=0。初始化用户1和用户2的状态均为s(0)={s1(0),s2(0)},在所有离散状态下的状态值{V1[s1(t),s2(t)],V2[s1(t),s2(t)]}及策略对ξ(0)={ξ1(0),ξ2(0)}。
图2给出了一个描述众包用户与众包平台之间关系的系统示意图,如图所示,用户生成并发送实时数据到众包平台,众包平台根据用户的贡献进行奖励,n个用户之间相互竞争。
实施例具体的实施过程说明如下:
输入初始随机探索概率参数θ0∈[0,1],折现系数γ∈(0,1],用户1和用户2生成数据包的单位成本{c1,c2},初始AoI{f1(0),f2(0)},以及初始信道状态{q1(0),q2(0)}。设置当前迭代数t=0。初始用户的状态s(0)={s1(0),s2(0)},即{f1(0),f2(0),q1(0),q2(0)},初始状态由输入参数给出。分别初始化用户1和用户2在所有离散状态下的状态值 {V1[s1(t),s2(t)],V2[s1(t),s2(t)]}及策略对ξ(0)={ξ1(0),ξ2(0)}。初始化策略对ξ(0)= {ξ1(0),ξ2(0)}时,即将所有离散状态下的数据包产生速率进行初始化。
实施例具体的实施方案如下:
初始随机探索概率参数θ0=0.3,折现系数γ=0.8,用户1和用户2生成数据包的单位成本c1=c2=0.02,初始平均AoIf1(0)=0.2,f2(0)=0.4,以及初始信道状态q1(0)=0.3,q2(0)=0.6。即初始用户的状态s(0)={0.2,0.4,0.3,0.6},纳什均衡的近似参数∈=0.001。初始化用户1、用户2的状态值为V1[s1(t),s2(t)]=0,V2[s1(t),s2(t)]=0,s1,s2∈S。初始化策略对π(t):a1(t)=5,a2(t)=5.
步骤2,计算随机探索概率参数
Figure GDA0002823040640000051
实施例的实施过程如下:
为了使得算法初期,矿池的动作选择具有一定的随机性和探索性,采取θ探索方法,设置随机探索选择概率参数θ,θ随着算法的迭代数t的增加逐渐递减,因此算法前期探索性较强,避免过早的局部收敛;后期矿池根据最佳策略选择动作的概率增大,有助于后期的收敛。当前迭代数为t时,探索概率θ的计算方法为
Figure GDA0002823040640000052
实施例具体的实施方案如下:
实施例中初始探索概率θ0取0.3。当前迭代次数t=0,因此当前探索概率θ为0.3。
步骤3,两个用户分别以1-θ的概率根据当前策略ξ(t)={ξ1(t),ξ2(t)}选择动作 a(t)={a1(t),a2(t)},即数据包产生的速率;以θ的概率随机选择动作a(t)={a1(t),a2(t)};
实施例的实施过程如下:
取[0,1]区间内的随机数R。判断R是否≤θ,是则两个矿池分别随机选择动作 a(t)={a1(t),a2(t)},否则根据当前策略ξ(t)={ξ1(t),ξ2(t)}选择动作。
实施例具体的实施方案为:
取[0,1]区间内的随机数R。判断R是否<=0.3,是则两个矿池分别随机选择动作 a(t)={a1(t),a2(t)},否则根据当前策略ξ(t)={ξ1(t),ξ2(t)}选择动作,即都为5。假设具体实施例中随机数R=0.2,两个矿池分别随机选择动作,随机产生的动作为{6,5},即用户1数据包产生速率为6,即用户2数据包产生速率为5。
步骤4,根据两个用户的动作a(t)={a1(t),a2(t)},以及用户当前状态s(t)={s1(t),s2(t)},可以计算得到用户1对于众包平台的贡献比例
Figure GDA0002823040640000061
其中
Figure GDA0002823040640000062
mi(t)是指用户i成功传输到众包平台的数据包数量。用户1的期望收益为r1[s(t),a(t)]=PoC1[s(t),a(t)]×W(t)-c1a1(t),其中W(t)是众包平台所提供的总奖励。同样,用户2对于众包平台的贡献比例为
Figure GDA0002823040640000063
用户 2的期望收益为r2[s(t),a(t)]=PoC2[s(t),a(t)]×W(t)-c2a2(t)。
在Δt时间内,用户i所产生的数据包的总数可表示为Ji(t)=ai(t)×Δt,每一个数据包j 都被标记为{τi,j,j,Ji(t)},分别表示其生成时间、次序和该时段内生成包的总数,τi,j表示用户i第j个数据包生成时间。对于每一个数据包j来说,其AoI为
Figure GDA0002823040640000064
其中αi,j是数据包j被众包平台成功接收的时间,Δi,l(t-1)是上一个时间段中最后一个被接收的数据包l的AoI。故可计算用户i在该时间段中产生的所有数据包的AoI为
Figure GDA0002823040640000065
其中,pi(t)指时间为t的时候,用户i的信道中,数据包成功传输的概率。用户i在t轮迭代后的AoI fi(t) 更新为
Figure GDA0002823040640000066
众包用户的状态转换包括信道质量的转换和用户AoI的转换,两者是相互独立的。因此, t+1轮迭代中的用户状态s(t+1)={s1(t+1),s2(t+1)}的转移概率为P[s(t+1)|s(t),a(t)]= P[f1(t+1)|f1(t),a1(t)]×P[f2(t+1)|f2(t),a2(t)]×P[q1(t+1)]×P[q2(t+1)],其中, P[f1(t+1)|f1(t),a1(t)]和P[f2(t+1)|f2(t),a2(t)]表示AoI的转移概率,用户1和用户2的信道状态q1和q2的转移概率P[q1(t+1)]和P[q2(t+1)]可根据无线电传播模型进行估计,AoI 的转移概率为:
Figure GDA0002823040640000071
实施例具体的实施过程如下:
当前时间段的收益是当前状态和两个用户动作的函数。更具体地说,用户的收益是由其平均AoI、成功传输的数据包数量和生成数据包的成本决定的,众包平台根据接收到的用户数据包数和其平均AoI来分配奖励。两个用户的动作a(t)={a1(t),a2(t)},以及用户当前状态 s(t)={s1(t),s2(t)},可以计算得到用户1对于众包平台的贡献比例
Figure GDA0002823040640000072
Figure GDA0002823040640000073
其中
Figure GDA0002823040640000074
mi(t)是指用户i成功传输到众包平台的数据包数量,可以由数据包生成速率ai(t)和信道质量qi(t)计算得到。用户1的期望收益为 r1[s(t),a(t)]=PoC1[s(t),a(t)]×W(t)-c1a1(t),其中W(t)是众包平台所提供的总奖励。同样,用户2对于众包平台的贡献比例为
Figure GDA0002823040640000075
用户2的期望收益为r2[s(t),a(t)]=PoC2[s(t),a(t)]×W(t)-c2a2(t)。
当前时间段t中的信道质量qi(t),即用户数据包成功传输到众包平台的概率pi(t)∈[0,1],服从高斯分布。
在Δt时间内,用户i所产生的数据包的总数可表示为Ji(t)=ai(t)×Δt,每一个数据包j 都被标记为{τi,j,j,Ji(t)},分别表示其生成时间、次序和该时段内生成包的总数。对于每一个数据包j来说,其AoI为
Figure GDA0002823040640000076
其中αi,j是数据包j被众包平台成功接受的时间,Δi,l(t-1)是上一个时间段中最后一个被接受的数据包l的AoI。故可计算用户i在该时间段中产生的所有数据包的AoI为
Figure GDA0002823040640000077
用户i在t轮迭代后的AoI由fi(t)更新为
Figure GDA0002823040640000078
众包用户的状态转移包括信道质量的转移和用户AoI的转移,两者是相互独立的。AoI 的转移只依赖于当前的AoI和用户的动作,信道质量服从与用户行为无关的随机分布。因此, t+1轮迭代中的用户状态s(t+1)={s1(t+1),s2(t+1)}的转移概率为P[s(t+1)|s(t),a(t)]= P[f1(t+1)|f1(t),a1(t)]×P[f2(t+1)|f2(t),a2(t)]×P[q1(t+1)]×P[q2(t+1)],其中 P[f1(t+1)|f1(t),a1(t)]和P[f2(t+ 1)|f2(t),a2(t)]表示AoI的转移概率,用户1和用户2的信道状态q1和q2的转移概率P[q1(t+ 1)]和P[q2(t+1)]可根据无线电传播模型进行估计,AoI的转移概率为:
Figure GDA0002823040640000081
实施例具体的实施方案如下:
根据步骤3中选择的动作a(t)={a1(t),a2(t)}={6,5},在简化条件下,用户1和用户2 生成数据包的单位成本被固定为a1=c2=0.02,用户1和用户2的传输成功率(即信道质量) 被固定为q1(t)=0.3,q2(t)=0.6。根据用户状态和动作,可以计算出用户1和用户2本轮收益为{r1(t),r2(t)}={0.325,0.456},用户状态则更新为{f1(t+1),f2(t+1),q1(t+1),q2(t+ 1)}={0.184,0.300,0.3,0.6}。
步骤5,根据
Figure GDA0002823040640000082
更新用户1的最佳策略ξ(t+1),根据
Figure GDA0002823040640000083
更新用户2的最佳策略ξ2(t+1)。
实施例具体的实施过程如下:
随机博弈中,用户的策略为在状态空间S中每个离散状态下采取的行动组合。假设用户1 和用户2的最佳策略
Figure GDA0002823040640000084
Figure GDA0002823040640000085
分别最大化它们各自的效益,即最佳策略对。随机博弈中的最佳策略对使得每一轮中的常和博弈达到纳什均衡。
然而在二元矩阵博弈中,标准纳什均衡可能并不存在。因此,我们用∈近似纳什均衡代替,以使得策略对收敛。
Figure GDA0002823040640000086
表示近似最佳策略对,对于任意状态s∈S,都有
Figure GDA0002823040640000087
Figure GDA0002823040640000088
其中
Figure GDA0002823040640000089
表示ξ2取的是对于任意ξ1来说,最优的
Figure GDA00028230406400000810
Figure GDA00028230406400000811
并且∈>0,因此,用户i在状态s下的状态值的计算可以写为
Figure GDA0002823040640000091
其中,ri表示用户的收益,γ是折现系数;
两个用户的近似最佳策略对
Figure GDA0002823040640000092
计算方式分别为
Figure GDA0002823040640000093
Figure GDA0002823040640000094
Figure GDA0002823040640000095
其中,S表示状态集,Pr表示从状态s采集动作
Figure GDA00028230406400000912
转移到s′的概率,s′表示不等于s的状态。
实施例具体的实施方案如下:
寻找近似纳什均衡从而获得本次迭代的近似最佳策略对的过程,图3给出了一个简化的例子。图中列出了两个矿池分别采取不同动作时的支付矩阵。假设∈=0.03,那么在状态s 下的近似最佳动作最终收敛于{a1(t),a2(t)}={2,5}。最后对最佳策略对
Figure GDA0002823040640000096
在当前状态s(t)={s1(t),s2(t)}={0.42,0.52}的动作选择策略进行更新。
步骤6,根据Vi[s(t+1)]=[1-η(t+1)]Vi[s(t)]+η(t+1)ri[s,a1(t+1),a2(t+1)]+γVi[s′(t)]分别更新两个用户的状态值V1(t+1),V2(t+1),其中η∈[0,1)为用户学习率,在第 t次迭代中,大小为
Figure GDA0002823040640000097
η随着迭代次数的增加而减少,有助于算法后期的收敛。
实施例具体的实施过程如下:
假设用户的初始状态为s(0),那么用户在状态s∈S下的状态值为
Figure GDA0002823040640000098
Figure GDA0002823040640000099
分别表示用户1和用户2在状态s下根据策略ξ选择的动作,那么状态值可以改写为
Figure GDA00028230406400000910
根据Q-学习我们可以得到用户状态更新方法为Vi[s(t+1)]=[1-η(t+1)]Vi[s(t)]+ η(t+1)ri[s,a1(t+1),a2(t+1)]+γVi[s′(t)],其中计算学习率
Figure GDA00028230406400000911
实施例具体的实施方案如下:
首先计算学习率η(t+1)=η(1)=1,V1[s(0)]=V2[s(0)]=0,根据步骤4中计算的用户1、用户2的收益分别为{r1(t),r2(t)}={0.325,0.456},可以计算得到用户1和用户2在当前状态下的状态值分别为V1[s(1)]=(1-1)×0+1×0.325+0.8×0=0.325;V2[s(1)]=(1-1)×0+1×0.456+0.8×0=0.456;分别进行更新即可。
步骤7,如果用户的策略收敛,结束算法并输出策略对;否则增值t,返回步骤2。
在具体实施例中,t=0,增加t至t=1,返回步骤3。
下表给出了在简化条件下,进行五轮迭代的过程中,用户状态的变化情况。
Figure GDA0002823040640000101
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (1)

1.一种基于随机博弈在线学习的众包用户信息年龄管理方法,其特征在于,包含以下步骤:
步骤1,初始化众包数据和当前信道的属性,具体包括:
输入初始随机探索概率参数θ0,折现系数γ,纳什均衡的近似参数∈,用户1和用户2生成数据包对应的单位成本{c1,c2},初始信息年龄AoI{f1(0),f2(0)},以及初始信道状态{q1(0),q2(0)};设置当前迭代数t=0;初始化用户1和用户2的状态均为s(0)={s1(0),s2(0)},在所有离散状态下的状态值{V1[s1(t),s2(t)],V2[s1(t),s2(t)]}及策略对ξ(0)={ξ1(0),ξ2(0)};
步骤2,计算随机探索概率参数
Figure FDA0002823040630000011
步骤3,两个用户均分别选择动作a(t)={a1(t),a2(t)};均以1-θ的概率根据当前策略对ξ(t)={ξ1(t),ξ2(t)}选择动作,或者以θ的概率随机选择动作;
步骤4,根据两个用户的动作以及用户当前状态,计算得到用户1对于众包平台的贡献比例和期望收益,用户2对于众包平台的贡献比例和期望收益;
在Δt时间内,计算用户i,i=1,2,在该时间段中产生的所有数据包的信息年龄AoI,用户i在t轮迭代后的信息年龄AoI;并计算得出t+1轮迭代中的用户信息年龄AoI的转移概率;
根据两个用户的动作a(t)={a1(t),a2(t)},以及用户当前状态s(t)={s1(t),s2(t)},可以计算得到用户1对于众包平台的贡献比例
Figure FDA0002823040630000012
其中
Figure FDA0002823040630000013
i=1,2,mi(t)是指用户i成功传输到众包平台的数据包数量,用户1的期望收益为r1[s(t),a(t)]=PoC1[s(t),a(t)]×W(t)-c1a1(t),其中W(t)是众包平台所提供的总奖励,同样,用户2对于众包平台的贡献比例为
Figure FDA0002823040630000014
用户2的期望收益为r2[s(t),a(t)]=PoC2[s(t),a(t)]×W(t)-c2a2(t);
在Δt时间内,用户i所产生的数据包的总数可表示为Ji(t)=ai(t)×Δt,每一个数据包j都被标记为{τi,j,j,Ji(t)},分别表示其生成时间、次序和该时段内生成包的总数,τi,j表示用户i第j个数据包生成时间,对于每一个数据包j来说,其信息年龄AoI为
Figure FDA0002823040630000015
Figure FDA0002823040630000016
其中αi,j是数据包j被众包平台成功接收的时间,Δi,l(t-1)是上一个时间段中最后一个被接收的数据包l的AoI,故可计算用户i在该时间段中产生的所有数据包的AoI为
Figure FDA0002823040630000021
pi(t)指时间为t的时候,用户i的信道中,数据包成功传输的概率;用户i在t轮迭代后的AoI由fi(t)更新为
Figure FDA0002823040630000022
众包用户的状态转换包括信道质量的转换和用户AoI的转换,两者是相互独立的,因此,t+1轮迭代中的用户状态s(t+1)={s1(t+1),s2(t+1)}的转移概率均为P[s(t+1)|s(t),a(t)]=P[f1(t+1)|f1(t),a1(t)]×P[f2(t+1)|f2(t),a2(t)]×P[q1(t+1)]×P[q2(t+1)],其中,P[f1(t+1)|f1(t),a1(t)]和P[f2(t+1)|f2(t),a2(t)]表示AoI的转移概率,用户1和用户2的信道状态q1和q2的转移概率P[q1(t+1)]和P[q2(t+1)]可根据无线电传播模型进行估计,AoI的转移概率为:
Figure FDA0002823040630000023
使用户1和用户2的策略达到近似纳什均衡,即最佳策略对;
Figure FDA00028230406300000216
表示近似最佳策略对,对于任意状态s∈S,都有
Figure FDA0002823040630000024
Figure FDA0002823040630000025
其中
Figure FDA0002823040630000026
Figure FDA0002823040630000027
表示ξ2取的是对于任意ξ1来说,最优的
Figure FDA00028230406300000217
下同,
Figure FDA0002823040630000028
Figure FDA0002823040630000029
并且∈>0,因此,用户i在状态s下的状态值的计算可以写为
Figure FDA00028230406300000210
其中,ri表示用户的收益,γ是折现系数;
两个用户的近似最佳策略对
Figure FDA00028230406300000211
计算方式分别为
Figure FDA00028230406300000212
Figure FDA00028230406300000213
Figure FDA00028230406300000214
其中,S表示状态集,Pr表示从状态s采集动作
Figure FDA00028230406300000215
转移到s′的概率,s′表示不等于s的状态;
步骤5,利用步骤4中最佳策略对更新用户1用户2的最佳策略;
步骤6,根据步骤4所得结果分别更新两个用户的状态值;
步骤7,如果用户的策略收敛,结束算法并输出策略对;否则增值t,返回步骤2。
CN201911056486.XA 2019-10-31 2019-10-31 一种基于随机博弈在线学习的众包用户信息年龄管理方法 Active CN111030764B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911056486.XA CN111030764B (zh) 2019-10-31 2019-10-31 一种基于随机博弈在线学习的众包用户信息年龄管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911056486.XA CN111030764B (zh) 2019-10-31 2019-10-31 一种基于随机博弈在线学习的众包用户信息年龄管理方法

Publications (2)

Publication Number Publication Date
CN111030764A CN111030764A (zh) 2020-04-17
CN111030764B true CN111030764B (zh) 2021-02-02

Family

ID=70200746

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911056486.XA Active CN111030764B (zh) 2019-10-31 2019-10-31 一种基于随机博弈在线学习的众包用户信息年龄管理方法

Country Status (1)

Country Link
CN (1) CN111030764B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112134602B (zh) * 2020-09-23 2021-12-21 中国人民解放军陆军工程大学 一种大规模mimo系统中用户状态信息的更新方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122786A (zh) * 2016-02-25 2017-09-01 华为技术有限公司 一种众包学习方法及装置
CN109496318A (zh) * 2018-07-30 2019-03-19 东莞理工学院 基于深度强化学习的自适应博弈算法
CN109902756A (zh) * 2019-03-07 2019-06-18 重庆恢恢信息技术有限公司 一种基于主动学习的众包机制辅助排序方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108293174A (zh) * 2015-09-22 2018-07-17 Mc10股份有限公司 用于众包算法开发的方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122786A (zh) * 2016-02-25 2017-09-01 华为技术有限公司 一种众包学习方法及装置
CN109496318A (zh) * 2018-07-30 2019-03-19 东莞理工学院 基于深度强化学习的自适应博弈算法
CN109902756A (zh) * 2019-03-07 2019-06-18 重庆恢恢信息技术有限公司 一种基于主动学习的众包机制辅助排序方法和系统

Also Published As

Publication number Publication date
CN111030764A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
Chen et al. An intelligent task offloading algorithm (iTOA) for UAV edge computing network
CN110520868B (zh) 用于分布式强化学习的方法、程序产品和存储介质
CN110168578B (zh) 具有任务特定路径的多任务神经网络
CN113434212B (zh) 基于元强化学习的缓存辅助任务协作卸载与资源分配方法
CN111754000A (zh) 质量感知的边缘智能联邦学习方法及系统
CN112422644B (zh) 计算任务卸载方法及系统、电子设备和存储介质
CN108962238A (zh) 基于结构化神经网络的对话方法、系统、设备及存储介质
US11861643B2 (en) Reinforcement learning method for driver incentives: generative adversarial network for driver-system interactions
CN112154458A (zh) 使用代理课程的强化学习
CN113469325A (zh) 一种边缘聚合间隔自适应控制的分层联邦学习方法、计算机设备、存储介质
CN114261400B (zh) 一种自动驾驶决策方法、装置、设备和存储介质
CN111523939A (zh) 一种推广内容的投放方法、装置、存储介质和电子设备
CN111030764B (zh) 一种基于随机博弈在线学习的众包用户信息年龄管理方法
Liu et al. Multi-objective deep reinforcement learning for computation offloading in UAV-assisted multi-access edge computing
CN114090108B (zh) 算力任务执行方法、装置、电子设备及存储介质
Gong et al. Slicing-based resource optimization in multi-access edge network using ensemble learning aided DDPG algorithm
Chen et al. A pricing approach toward incentive mechanisms for participant mobile crowdsensing in edge computing
CN117808637A (zh) 一种基于gpt和多智能体强化学习的智能导学方法
CN111510473B (zh) 访问请求处理方法、装置、电子设备和计算机可读介质
Huang et al. An online inference-aided incentive framework for information elicitation without verification
CN117273119A (zh) 一种基于强化学习的动态公平联邦学习方法及装置
CN114943278B (zh) 基于强化学习的持续在线群体激励方法、装置及存储介质
CN114942799B (zh) 云边环境下基于强化学习的工作流调度方法
Chen et al. A vehicle-assisted computation offloading algorithm based on proximal policy optimization in vehicle edge networks
Hong et al. Joint Content Update and Transmission Resource Allocation for Energy-Efficient Edge Caching of High Definition Map

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant