CN106709647A

CN106709647A - 一种基于用户观测质量在线学习的群智感知激励方法

Info

Publication number: CN106709647A
Application number: CN201611211938.3A
Authority: CN
Inventors: 胡天成; 杨涛; 胡波
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2016-12-25
Filing date: 2016-12-25
Publication date: 2017-05-24

Abstract

本发明属于通信技术领域，具体为一种基于用户观测质量在线学习的群智感知激励方法。本发明方法是在连续时间感知任务场景下，利用逆向拍卖框架，采用多臂老虎机模型进行用户感知质量在线学习，得到用户质量信息，并在每个感知周期，根据用户的当前出价和学习的感知质量进行感知用户的选择，优化目标为在任务感知时间内获得最大的系统感知总收益。本发明提出CMAB‑DC算法进行在线学习，每个感知周期内，利用算法给出当前观测质量估计进行用户选择，能有效处理用户出价的动态变化。本发明方法所产生的用户选择策略和理论最优策略之间系统收益损失的上限为，其中为总观测周期数。仿真结果表明本机制所提出的算法相对于对比算法有着明显的性能提升。

Description

一种基于用户观测质量在线学习的群智感知激励方法

技术领域

本发明属于通信技术领域，具体涉及基于用户观测质量在线学习的群智感知激励方法，进一步，具体涉及在连续时间感知任务场景下，利用逆向拍卖框架，采用多臂老虎机(Multi-armed bandits)模型进行用户感知质量在线学习的群智感知激励方法。

背景技术

近年来，智能手机、平板电脑等移动智能设备数量飞速增长，同时它们拥有了越来越强大的计算能力和日益丰富的传感器，如摄像头、陀螺仪、GPS定位模块等，因此具备了数据收集及处理的能力。群智感知(Crowdsensing)正是在这样的背景产生，它是众包(Crowdsourcing)思想和移动感知的结合，通过将感知任务分发给移动用户，利用用户拥有的移动设备形成感知网络，达到数据收集和信息共享的目的，从而为请求用户提供感知服务^[1]，系统结构如图1所示。群智感知是一种全新的数据收集模式，能充分高效的利用移动设备资源，相对于传统的无线传感器网络，具有更广泛的感知覆盖范围、更强的灵活性和更低的感知成本^[2]等优点。目前，群智感知在学术研究和实际应用中都得到了广泛关注，并已应用于空气质量检测^[3]、噪音监测^[4]、室内定位^[5][6]和健康服务等领域。

激励机制(也称激励方法)设计是群智感知系统中重要的研究课题。一方面，移动用户在参与感知的过程中需要付出时间、能量及数据传输成本；另一方面，群智感知系统需要足够多的参与用户来保证充分的收集数据，因此系统需要采用合适的激励机制来调动用户的积极性，吸引更多的用户参与到感知任务中。近年来，针对群智感知系统中的激励问题出现了许多有价值的研究工作，其中相当部分文献^[7-10]都选用了逆向拍卖(Reverseauction)作为机制设计的基本模型。不同于正向拍卖的单卖方多买方形式，逆向拍卖是指存在一位买方和许多潜在卖方的拍卖形式。逆向拍卖能很好地建模群智感知系统中平台和用户的交互过程，感知系统的平台是买方，参与用户作为卖方对感知数据进行出价，由平台选出合适的用户集作为赢家进行任务感知并向他们支付报酬。

在现有激励机制研究中，感知用户选择一般以用户的出价和位置等因素为主要依据，文献[11]指出，由于群智感知系统中参与用户在进行数据收集时的非专业性，感知数据的质量无法得到保障。将用户的观测质量纳入对用户价值的衡量体系中能很好解决这个问题，文献[6]设计了单个感知周期在用户数据质量已知情况下的激励机制，综合出价和数据质量信息进行用户选择，并提出了QDA算法。实际中，用户质量信息往往未知，需要平台通过学习过程得到，文献[12]考虑了在预算有限及用户观测质量不确定情况下的用户选择问题，在学习用户观测质量的框架下，分别讨论了在用户出价确定和服从特定概率分布时的激励机制设计问题。然而现有的研究并不能处理实际应用中各参与用户可以自由修改自身出价的需求，在本发明提出的激励机制中，参与用户可以在不同观测周期更改他们的出价，在每次进行决策时，平台能够根据当前阶段各用户的出价做出用户选择。

发明内容

本发明的目的在于提供一种在连续时间感知任务场景下，利用逆向拍卖框架，采用多臂老虎机(Multi-armed bandits)模型进行用户感知质量在线学习的群智感知激励方法。使参与用户可以在不同观测周期更改他们的出价，在每次进行决策时，平台能够根据当前阶段各用户的出价做出用户选择。

本发明中，设计了一套基于用户观测质量学习的激励方法，以有效处理用户出价的动态变化。本发明方法，在连续时间感知任务场景下，利用逆向拍卖框架，基于多臂老虎机(Multi-armed bandits)模型进行用户感知质量在线学习，在每个感知周期，根据用户的当前出价和学习的感知质量进行感知用户的选择，优化目标为在任务感知时间内获得最大的系统感知收益。

经过性能分析，证明根据本发明CMAB-DC算法所产生的用户选择策略和理论最优策略之间系统收益损失的上限为O(lnn)，其中n为总观测周期数。仿真结果表明本发明所提出的算法相对于对比算法有着明显的性能提升。

1、系统模型

在空气质量监测、污染监测等感知需求中，往往需要进行若干个小时甚至多日的持续观测^[12]，本发明以此类连续时间感知的任务场景为参考，将整个感知任务按时间划分为多个感知周期(每个感知周期可以取为数分钟)进行处理，每个感知周期是一次完整的逆向拍卖过程。考虑一个观测时间为n个感知周期的任务，感知系统由感知平台和m个参与用户组成，用户集记为M＝{1,2,…,m}。

1.1、拍卖模型描述

每个感知周期内，平台和用户之间进行图2所示的拍卖过程，由以下几步组成：1)平台将任务(包含任务描述、任务位置等信息)广播给区域内的用户；2)用户向平台反馈自己的感知成本作为出价；3)平台根据一定准则进行用户的选择并告知用户选出的用户集S，S包含的用户即为本次拍卖的赢家；4)被选中的用户在本感知周期进行数据收集并按时将数据传回平台；5)在当前感知周期结束前，平台确定并支付S中各用户的报酬。

将所有用户在第t个周期的出价记为C_t＝{c_1,t,c_2,t,…,c_i,t,…,c_m,t}，其中c_i,t为第i个用户的出价，不同周期某个用户的出价可能变化。如果在某个周期有部分用户放弃出价，可以将这些用户在当前周期的出价记为无穷大，以此将其从用户选择过程中排除。

本激励机制中的拍卖过程需要满足相应的经济学特性^[7]，主要有以下两条：

1)出价真实性：指用户在拍卖的出价阶段报出自己的真实成本；

2)用户理性：指用户获得的报酬不低于其出价成本，以此来保证用户的积极性。

此外，本发明设计的激励机制将用户观测质量纳入了考虑的范畴，观测质量具体体现为用户在一个周期内的有效观测次数。用户有效观测次数与该用户的观测习惯、所处的通信条件等因素有关，可以看作是一个随机变量^[12]。我们将周期t内用户i的有效观测次数记为L_i,t，不同周期内用户i的有效观测次数独立同分布，随机分布的均值为μ_i，则所有用户的观测质量均值可以记为μ＝{μ₁,μ₂,…,μ_m}。不失一般性，将μ_i归一化至区间[μ_min，1]，其中μ_min＞0为用户最小观测质量。

1.2、用户选择准则

若平台在周期t选择的用户集为S，该周期内任务总有效感知次数的期望可以表示为选择用户观测质量均值之和，即：

平台在该周期的期望收益r_t(S)为任务回报和支付给用户报酬p_i之差，即：

其中，函数f(·)是以L_t(S)为自变量的回报函数，文中取为f(x)＝blog_a(1+x)，a＞1,b＞0均为常数。

若用户i在周期t被平台选中，即i∈S，则其收益为所获报酬和感知成本的差值；否则收益为零，因此i的收益为：

需要指出的是，在后续分析中我们将说明本机制能保证用户出价的真实性，因此上式中用户i的感知成本直接表示为其在该时刻的出价c_i,t。

平台的目标为最大化系统总收益，即平台收益r_t(S)和各用户收益之和，即：

在用户的观测质量μ已知的情况下，平台只需要确定使得R_t(S)最大的用户集S，即可使系统收益最大。本文中平台对μ的信息未知，因此无法进行决策，故采用在线学习的方式学习用户观测质量，从而进行用户选择。

1.3、多臂老虎机学习框架

多臂老虎机(Multi-armed bandits,MAB)问题是从赌场中的多臂老虎机场景中提取出来的数学模型，其中arm指的是老虎机的拉杆，bandits是多个拉杆的集合。MAB问题能有效解决强化学习中尝试新策略和利用已有经验之间的矛盾，被广泛应用于广告推荐系统、无线网络用户接入选择等领域。在群智感知系统中，可以将平台看作老虎机的玩家，用户作为臂被平台选取，由于平台每次可能将多个用户作为用户集选取，因此本文问题属于组合多臂老虎机问题^[13](Combinational Multi-armed bandits,CMAB)。

传统MAB文献一般认为臂的选择是零成本，在我们的问题中用户选择需要成本且用户可以动态进行出价修改，因此不能利用现有文献直接解决。故考虑形成一激励机制设计问题，利用CMAB-DC(CMAB with dynamic cost)算法进行在线学习，每个感知周期平台利用学习算法给出当前观测质量估计并进行用户选择，以保证良好的性能。

2、激励机制设计

本节首先介绍单个周期内，给定μ时的用户选择算法，然后在组合MAB的框架下讨论用户质量的学习问题，提出CMAB-DC算法。最后，对给出算法的性能进行理论分析。

2.1、单个周期的拍卖算法

在给定μ时，要得到最大的系统总回报即为确定用户集S使得式(4)给出的系统收益R_t(S)取得最大值。参考文献[6]讨论了群智感知系统在已知用户观测质量情形下的拍卖问题，文中提出的QDA算法能很好的解决单周期的用户选择问题，即保证找到最优的用户集S以最大化系统收益R_t(S)。QDA算法的用户选择过程主要基于各用户的特殊值，由下式确定：

D_i＝max{x|f(x+μ_i)-f(x)≥c_i} (5)

由于f(·)具有一阶导数大于0二阶导数小于0的性质，在上式中随着x的增加，增量f(x+μ_i)-f(x)将逐渐减小，因此一定能找到使得f(x+μ_i)-f(x)≥c_i成立的最大的x值。在报酬支付阶段，S中用户i的报酬为：

p_i,t＝R_t(S^*)-R_t(S^-i)+c_i,t (6)

其中，R_t(S^*)和R_t(S^-i)分别为选择用户集为最优的S^*和将用户i排除用户选择过程时系统的总收益。文献[6]中的定理4和定理5分别证明了按照上式确定报酬能满足1.1小节介绍的拍卖特性，即真实出价和用户理性。

2.2、CMAB-DC算法

在进行第一个周期的观测时，平台对于用户的观测质量(即μ)没有任何参考信息，本小节将利用多臂老虎机模型，通过在线学习方式得到用户质量信息，并依此确定用户选择策略。

若用户质量信息μ已知，根据周期t的用户出价集C_t，可以由QDA算法得到当前周期最优的选择用户集，因此在本问题中各周期都存在理论最优的选择用户集，将其对应的系统总收益记为由于平台对质量信息μ未知，因此一定会有性能损失，我们希望找到的策略能使得选出用户集带来的总收益尽量接近理论最大值，MAB相关文献一般将两者间的差值称为损失(Regret)，在此处表示为：

其中，为平台在周期t对用户质量的估计，策略确定的选择用户集为对应的总回报为

具体的算法步骤如下所示：

CMAB-DC算法步骤

(1)t＝1时，对于所有用户i：T_i，t←0；

(2)将所有m个用户作为一个超臂选取，即S_t＝M；

(3)更新和T_i，t；

对于所有用户i∈S_t：T_i,t←T_i,t+1；t←t+1；

(4)当2≤t≤n时，

对所有用户，

(5)根据和周期t对应的C_t，按QDA算法得到选择用户集S_t；

(6)按照步骤3更新T_i，t和

第一个观测周期，平台将所有用户选作观测用户，得到一次用户观测质量的采样。分别用和T_i,t表示进入周期t时用户i观测质量的估计值和被平台选择的次数，在每个周期结束，平台按照步骤3更新本周期内选中用户的和T_i,t。在之后的观测周期中，平台调整各用户的观测质量值，用调整后的和当前周期的用户出价C_t依照QDA算法进行用户选择。

2.3算法性能分析

若平台在周期t选择的用户集S_t满足则S_t为次优用户集，定义次优集集合记分别为周期t次优集可能带来的最大和最小性能损失，则δ_max＝max{δ_max(1),δ_max(2),...,δ_max(n)}，δ_min＝min{δ_min(1),δ_min(2),...,δ_min(n)}是各周期次优集的最大和最小损失。

为了方便分析，我们首先定义初始均为0，并按如下的方式进行更新，若某周期平台取得了次优用户集，即将此时S_t中N_i值最小的用户N_j,t-1对应的N_i值加1，如果该用户不唯一，则任选其中一个。若则不做处理。因此，每当平台取得次优用户集时，中都有一个用户对应的N_i增加。

定义对于某一周期n，有

因此，有：

根据文献[13]，可得：

因此，

由此，得到至周期t时次优次数的上限，故CMAB-DC算法的性能损失Regret满足：

注意到若总观测时间n为变量，上式中除lnn外，其余均为常数，因此本文算法的Regret上限为O(lnn)。

附图说明

图1：群智感知系统示例。

图2：拍卖过程示意图。

图3：系统性能损失仿真对比图。

图4：平均感知收益仿真对比图。

具体实施方式

下面通过具体实施例进一步描述本发明。

参数说明

硬件平台：Intel Xeon CPU E5-2643@3.50GHz；32GB内存

操作系统：64位Windows Server 2008 R2 Enterprise

仿真软件：MATLAB B2014a

用户数m：30

任务周期数n：1000

平台收益函数：a＝e,b＝1

仿真平均次数：100

用户出价：c_i,t～U(0.1,0.3)均匀分布

用户观测质量：μ_i～U(0.1,0.5)均匀分布

用户实际观测质量：L_i,t～N(μ_i,0.2)正态分布

具体实施步骤：

见发明内容中2.1和2.2小节激励机制。

仿真结果：

本发明选取两个对比算法与本文的CMAB-DC算法进行性能比较。文献[6]考虑的是单个感知周期时的用户选择问题，在其基础上我们进行改造得到了连续时间QDA算法(Continues Time-QDA,CTQDA),具体做法是平台计算用户历史观测质量的均值，依此确定选择用户集。另一个对比算法是用户集随机算法(Random)，每次决策时，平台随机选择整体用户集的一个子集。

图3给出了在观测进行过程中三种算法Regret的变化情况，为使效果更明显将纵坐标取为Regret/lnt，结果表明在时间逐渐增长时，本文CMAB-DC算法的Regret趋于收敛，并远低于对比算法。CTQDA算法每次决策仅考虑选取依据当前信息确定的最优用户集，导致理论最优集中的部分用户很可能由于观测的不充分而无法被选中，因此系统一直选择次优用户集，Regret呈明显上升的趋势。而随机选择算法每次决策随机，从而导致了Regret的随时间的线性增长。而CMAB-DC算法可以很好的处理当前信息和挖掘未知信息之间的关系，经过一定时间后对各用户观测质量都有了充分的估计，因此可以保持Regret的收敛趋势。类似的说明可以解释图4的结果，图4展示的是系统平均感知收益随时间的变化情况，结果表明CMAB-DC算法在任务感知初期平均收益随时间逐渐增长，最终保持在较高的水平。CTQDA算法由于对用户不充分的估计因此不能取得最优的平均收益；而随机算法决策始终随机，平均收益始终维持在较低水平。

综上所述，本发明设计了一套连续时间群智感知中用户动态出价场景的激励方法，本方法能满足拍卖的经济学特性，同时通过CMAB-DC算法对用户观测质量的在线学习，能保证用户选择策略能取得O(lnn)内的性能损失。仿真结果表明，本文设计的激励机制达到了预期的效果，能获得良好的系统性能。

参考文献：

[1]R.K.Ganti,F.Ye,and H.Lei,“Mobile crowdsensing:current stateandfuture challenges,”IEEE Communications Magazine,vol.49,no.11,pp.32-39,November 2011.

[2]W.Z.Khan,Y.Xiang,M.Y.Aalsalem,and Q.Arshad,“Mobile phonesensingsystems:A survey,”IEEE Communications Surveys Tutorials,vol.15,no.1,pp.402-427,First 2013.

[3]Dutta P,Aoki PM,Kumar N,Mainwaring A,Myers C,Willett W,WoodruffA.Common sense:Participatory urban sensing using a network of handheld airquality monitors.In:Proc.of the 7th ACM Conf.on Embedded Networked SensorSystems.ACM Press,2009.349-350.[doi:10.1145/1644038.1644095]

[4]Rana RK,Chou CT,Kanhere SS,Bulusu N,Hu W.Ear-Phone:An end-to-endparticipatory urban noise mapping system.In:Proc.of the 9th ACM/IEEE Int’lConf.on Information Processing in Sensor Networks.ACM Press,2010.105-116.[doi:10.1145/1791212.1791226]

[5]C.Zhang,K.P.Subbu,J.Luo,and J.Wu,“Groping:Geomagnetismandcrowdsensing powered indoor navigation,”IEEE Transactions onMobile Computing,vol.14,no.2,pp.387-400,Feb 2015.

[6]Y.Wen,J.Shi,Q.Zhang,X.Tian,Z.Huang,H.Yu,Y.Cheng,andX.Shen,“Quality-driven auction-based incentive mechanism for mobilecrowd sensing,”IEEE Transactions on Vehicular Technology,vol.64,no.9,pp.4203-4214,Sept 2015.

[7]D.Yang,G.Xue,X.Fang,and J.Tang,“Incentive mechanismsforcrowdsensing:Crowdsourcing with smartphones,”IEEE/ACM Transactions onNetworking,vol.PP,no.99,pp.1-13,2015.

[8]J.Xu,J.Xiang,and D.Yang,“Incentive mechanisms for time windowdependent tasks in mobile crowdsensing,”IEEE Transactions on WirelessCommunications,vol.14,no.11,pp.6353–6364,Nov 2015.

[9]L.G.Jaimes,I.Vergara-Laurens,and M.A.Labrador,“A location-basedincentive mechanism for participatory sensing systems withbudgetconstraints,”in IEEE International Conference on Pervasive ComputingandCommunications(PerCom),2012,March 2012,pp.103-108.

[10]Y.Fan,H.Sun,Y.Zhu,X.Liu,and J.Yuan,“A truthful online auctionfortempo-spatial crowdsourcing tasks,”in IEEE Symposium on Service-OrientedSystem Engineering(SOSE),2015,March 2015,pp.332-338.

[11]Cheng L,Niu J,Kong L,et al.Compressive Sensing based Data QualityImprovement for Crowd-Sensing Applications[J].Journal of Network&ComputerApplications,2016.

[12]Han K,Zhang C,Luo J.Taming the uncertainty:budget limited robustcrowdsensing through online learning[J].IEEE/ACM Transactions on Networking,2015,24(3):555-563.

[13]Chen W,Wang Y,Yuan Y.Combinatorial multi-armed bandit:Generalframework,results and applications[C]//International Conference on MachineLearning.2013:151-159.。

Claims

1.一种基于用户观测质量在线学习的群智感知激励方法，其特征在于，在连续时间感知任务场景下，利用逆向拍卖框架，采用多臂老虎机模型进行用户感知质量在线学习，得到用户质量信息，并在每个感知周期，根据用户的当前出价和学习的感知质量进行感知用户的选择，优化目标为在任务感知时间内获得最大的系统感知总收益。

2.根据权利要求1所述的基于用户观测质量在线学习的群智感知激励方法，其特征在于，所述逆向拍卖框架描述如下：

将整个感知任务按时间划分为多个感知周期进行处理，每个感知周期是一次完整的逆向拍卖过程；考虑一个观测时间为个感知周期的任务，感知系统由感知平台和个参与用户组成，用户集记为；

每个感知周期内，平台和用户之间进行的拍卖过程为：1）平台将任务广播给区域内的用户；2）用户向平台反馈自己的感知成本作为出价；3）平台根据一定准则进行用户的选择并告知用户选出的用户集，包含的用户即为本次拍卖的赢家；4）被选中的用户在本感知周期进行数据收集并按时将数据传回平台；5）在当前感知周期结束前，平台确定并支付中各用户的报酬；

将所有用户在第个周期的出价记为，其中为第个用户的出价，不同周期某个用户的出价可能变化；如果在某个周期有部分用户放弃出价，可以将这些用户在当前周期的出价记为无穷大，以此将其从用户选择过程中排除；

周期内用户的有效观测次数记为，不同周期内用户的有效观测次数独立同分布，随机分布的均值为，则所有用户的观测质量均值记为；不失一般性，将归一化至区间，其中为用户最小观测质量；

所述用户的选择准则如下：

若在周期选择的用户集为，该周期内任务总有效感知次数的期望表示为选择用户观测质量均值之和，即：

（1）

在该周期的期望收益为任务回报和支付给用户报酬之差，即：

（2）

其中，函数是以为自变量的回报函数，取为，均为常数；

若用户在周期被选中，即，则其收益为所获报酬和感知成本的差值；否则收益为零，因此的收益为：

（3）

上式中用户的感知成本直接表示为其在该时刻的出价；

于是目标为最大化系统总收益，即平台收益和各用户收益之和为：

（4）

在用户的观测质量已知的情况下，只需要确定使得最大的用户集，即可使系统收益最大。

3.根据权利要求2所述的基于用户观测质量在线学习的群智感知激励方法，其特征在于，所述采用多臂老虎机模型进行用户感知质量在线学习，得到用户质量信息，并依此确定用户选择策略的流程如下：

若用户质量信息已知，根据周期的用户出价集，由QDA算法得到当前周期最优的选择用户集，因此在本问题中各周期都存在理论最优的选择用户集，将其对应的系统总收益记为；希望找到的策略能使得选出用户集带来的总收益尽量接近理论最大值，两者间的差值称为损失表示为：

（7）

其中，为平台在周期对用户质量的估计，策略确定的选择用户集为，对应的总汇报为。

4.根据权利要求3所述的基于用户观测质量在线学习的群智感知激励方法，其特征在于，所述在线学习的算法即CMAB-DC算法的步骤如下：

（1）时，对于所有用户：；

（2）将所有个用户作为一个超臂选取，即；

（3）更新和；

对于所有用户：，；；

（4）当时，

对所有用户，；

（5）根据和周期对应的，按QDA算法得到选择用户集；

（6）按照步骤3更新和；

第一个观测周期，将所有用户选作观测用户，得到一次用户观测质量的采样；分别用和表示进入周期时用户观测质量的估计值和被平台选择的次数，在每个周期结束，按照步骤3更新本周期内选中用户的和；在之后的观测周期中，平台调整各用户的观测质量值，用调整后的和当前周期的用户出价依照QDA算法进行用户选择。