CN108681921B

CN108681921B - 一种基于随机博弈获取群智感知激励策略的方法及装置

Info

Publication number: CN108681921B
Application number: CN201810456353.0A
Authority: CN
Inventors: 陈昕; 李卓; 陈莹; 赵禹哲
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2018-05-14
Filing date: 2018-05-14
Publication date: 2021-05-04
Anticipated expiration: 2038-05-14
Also published as: CN108681921A

Abstract

本发明实施例提供一种基于随机博弈获取群智感知激励策略的方法及装置，所述方法包括：获取任务发布者的预算信息、任务参与者当前的位置信息和所述任务参与者已执行的当前任务的所在地信息；根据预设的报酬计算函数、所述预算信息、所述位置信息和所述所在地信息，计算所述任务参与者执行完成当前任务所能获得的直接收益；获取与所述所在地信息位置相关的待完成任务，并获取完成所述待完成任务的期望报酬之和；根据所述直接收益和所述期望报酬之和，构建行为概率的博弈矩阵；并分析博弈矩阵的求解结果以获取群智感知激励策略。所述装置执行上述方法。本发明实施例提供的方法及装置，能够合理获取该行为概率，进而给出有效的激励策略。

Description

一种基于随机博弈获取群智感知激励策略的方法及装置

技术领域

本发明实施例涉及博弈技术领域，具体涉及一种基于随机博弈获取群智感知激励策略的方法及装置。

背景技术

近年来，随着无线通信以及科学技术的迅猛发展，智能手机等智能设备越来越普及，其计算感知能力越来越强大。智能设备内嵌摄像头、加速传感器、全球定位系统(GPS)等感知设备，用户可通过感知设备感知周围环境信息，“移动群智感知”即为这样一种新的感知模式，将参与者携带的智能感知设备看成基本感知单元，大量参与者利用其完成大规模复杂的感知任务，帮助专业人士收集和分析数据。

如果所有智能感知设备都参与获取感知数据任务，感知网络将成为最大的网络。因此用户参与度对系统是否能够获取高质量感知数据起至关重要的作用。然而在机会网络中传输数据时会消耗电池、网络流量，上传数据过程中也会暴露用户的位置信息。由于用户的自私性，用户不愿意自愿完成任务，因此为了确保数据的覆盖率以及可靠性，需要采取适当的激励机制提高用户参与积极性。然而目前关于移动群智感知的激励算法，均未考虑到用户的不确定性，即使给出用户很高的报酬，用户可能出于对任务的难度、任务的距离等问题的考虑，不会选择完成该任务。

因此，如何避免上述缺陷，合理获取反映任务参与者执行待完成任务意愿的行为概率，并分析该行为概率，进而给出有效的激励策略，成为亟须解决的问题。

发明内容

针对现有技术存在的问题，本发明实施例提供一种基于随机博弈获取群智感知激励策略的方法及装置。

第一方面，本发明实施例提供一种基于随机博弈获取群智感知激励策略的方法，所述方法包括：

获取任务发布者的预算信息、任务参与者当前的位置信息和所述任务参与者已执行的当前任务的所在地信息；

根据预设的报酬计算函数、所述预算信息、所述位置信息和所述所在地信息，计算所述任务参与者执行完成当前任务所能获得的直接收益；

获取与所述所在地信息位置相关的待完成任务，并获取完成所述待完成任务的期望报酬之和；

根据所述直接收益和所述期望报酬之和，构建反映所述任务参与者执行所述待完成任务意愿的行为概率的博弈矩阵；求解所述博弈矩阵的纳什均衡，并将所述纳什均衡作为所述博弈矩阵的求解结果，分析所述求解结果以获取群智感知激励策略。

第二方面，本发明实施例提供一种基于随机博弈获取群智感知激励策略的装置，所述装置包括：

第一获取单元，用于获取任务发布者的预算信息、任务参与者当前的位置信息和所述任务参与者已执行的当前任务的所在地信息；

计算单元，用于根据预设的报酬计算函数、所述预算信息、所述位置信息和所述所在地信息，计算所述任务参与者执行完成当前任务所能获得的直接收益；

第二获取单元，用于获取与所述所在地信息位置相关的待完成任务，并获取完成所述待完成任务的期望报酬之和；

构建单元，用于根据所述直接收益和所述期望报酬之和，构建反映所述任务参与者执行所述待完成任务意愿的行为概率的博弈矩阵；求解所述博弈矩阵的纳什均衡，并将所述纳什均衡作为所述博弈矩阵的求解结果，分析所述求解结果以获取群智感知激励策略。

第三方面，本发明实施例提供一种电子设备，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如下方法：

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，包括：

所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如下方法：

本发明实施例提供的基于随机博弈获取群智感知激励策略的方法及装置，通过构建反映任务参与者执行待完成任务意愿的行为概率的博弈矩阵；并分析博弈矩阵的求解结果获取群智感知激励策略，能够合理获取该行为概率，进而给出有效的激励策略。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于随机博弈获取群智感知激励策略的方法流程示意图；

图2为本发明实施例待完成任务的轨迹分布图；

图3为本发明实施例待完成任务的任务转化图；

图4为本发明实施例基于随机博弈获取群智感知激励策略的装置结构示意图；

图5为本发明实施例提供的电子设备实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例基于随机博弈获取群智感知激励策略的方法流程示意图，如图1所示，本发明实施例提供的一种基于随机博弈获取群智感知激励策略的方法，包括以下步骤：

S101：获取任务发布者的预算信息、任务参与者当前的位置信息和所述任务参与者已执行的当前任务的所在地信息。

具体的，装置获取任务发布者的预算信息、任务参与者当前的位置信息和所述任务参与者已执行的当前任务的所在地信息。任务可以包括去某地采集任务发布者所需要的数据，数据类型可以为噪音感知数据、实时公交信息感知数据、空气质量感知数据、交通拥堵情况感知数据和公共基础设施感知数据等。预算信息可以理解为任务发布者让任务参与者完成任务所支付报酬的预算。位置信息和所在地信息可采用地理坐标或经纬度等表示，不作具体限定。

S102：根据预设的报酬计算函数、所述预算信息、所述位置信息和所述所在地信息，计算所述任务参与者执行完成当前任务所能获得的直接收益。

具体的，装置根据预设的报酬计算函数、所述预算信息、所述位置信息和所述所在地信息，计算所述任务参与者执行完成当前任务所能获得的直接收益。可以根据如下公式计算所述直接收益：

其中，R_w为直接收益、α为

占R_w的预设比例、β为l_i×w占R_w的预设比例，且α+β＝1；h_i为第i个任务完成难易程度的大小、K为任务总数、B为任务发布者的总预算、l_i为所述位置信息对应的位置与所述所在地信息对应的位置之间的距离、w为预设单位距离对应的报酬。预设的报酬计算函数可以理解为上述的公式。α和β的具体数值可根据实际情况自主设置。需要说明的是：任务完成难易程度的大小可以用自然数数值大小表示，例如1表示任务最简单，10表示任务最困难。预设单位距离对应的报酬可以由任务发布者设置，报酬的类型不作具体限定，可以为虚拟的金币等，举例说明如下：l_i为4.5公里，预设单位距离对应的报酬为100奖励币/1公里，当任务参与者完成了该任务，就可以获得450个奖励币的奖励。

S103：获取与所述所在地信息位置相关的待完成任务，并获取完成所述待完成任务的期望报酬之和。

具体的，装置获取与所述所在地信息位置相关的待完成任务，并获取完成所述待完成任务的期望报酬之和。可以通过如下步骤实现：

计算所述任务发布者在支付当前任务的报酬为T_i的条件下，所述任务参与者在博弈状态S_l下采取动作W_j的概率

其中，动作W_j表示从所述当前任务的所在地k到待完成任务的待去所在地1的概率；

根据如下公式计算所述期望报酬之和：

其中，T_l为所述任务参与者从所述当前任务的所在地k到所述待去所在地l，并完成所述待完成任务时，所述任务发布者支付的报酬。图2为本发明实施例待完成任务的轨迹分布图，当前任务在图2中“1”的位置，待完成任务是由图2中“2”～“8”表示。为了进一步简化说明，引入图3，图3为本发明实施例待完成任务的任务转化图，如图3所示，博弈状态S_l是图3中的S1～S8，w1～w8为参与组合的动作。p_ij(w_n)表示从状态i(待完成任务i)到状态j(待完成任务j)采取动作w_n的概率。

参照图3，任务参与者集合W＝{W₁,W₂,W₃,W₄}；

其中，W₁＝{w₂,w₃,w₄}，W₂＝{w₅,w₆}，W₃＝{w₇}，W₄＝{w₈}；

任务发布者集合T＝{T₁,T₂,T₃,T₄}；

其中，T₁＝{t₃,t₄,t₅}，T₂＝{t₁,t₂,t₄}，T₃＝{t₂,t₅}，T₄＝{t₂,t₄}，参照上述举例，t₁～t₅分别表示噪音感知数据、实时公交信息感知数据、空气质量感知数据、交通拥堵情况感知数据和公共基础设施感知数据对应的支付报酬，T₁＝{t₃,t₄,t₅}表示与W₁对应的任务发布者要采集的空气质量感知数据、交通拥堵情况感知数据和公共基础设施感知数据，由W₁和T₁构成的博弈矩阵可以表示如下：

其中，R(w₂,t₃)表示任务参与者采取动作w2，获取t3类型的数据所获得的期望报酬；该博弈矩阵的其他元素的说明不再赘述。

参照图3，并以S2为例，假设任务参与者完成任务2后，可能去任务5和6，计算去任务5完成任务的报酬×去任务5的概率+去任务6完成任务的报酬×去任务6的概率，所求之和即博弈状态S2的期望报酬之和，其他博弈状态的期望报酬之和不再赘述。

需要说明的是：

可以采用随机生成的方式获取。

S104：根据所述直接收益和所述期望报酬之和，构建反映所述任务参与者执行所述待完成任务意愿的行为概率的博弈矩阵；求解所述博弈矩阵的纳什均衡，并将所述纳什均衡作为所述博弈矩阵的求解结果，分析所述求解结果以获取群智感知激励策略。

具体的，装置根据所述直接收益和所述期望报酬之和，构建反映所述任务参与者执行所述待完成任务意愿的行为概率的博弈矩阵；求解所述博弈矩阵的纳什均衡，并将所述纳什均衡作为所述博弈矩阵的求解结果，分析所述求解结果以获取群智感知激励策略。可以根据如下公式计算期望总收益，并作为博弈矩阵中的每个元素：

其中，

是所述期望总收益，作为所述博弈矩阵的第i行、第j列的元素；

是对应上述R_w。

参照上述举例说明如下：表1为S1状态下的博弈矩阵，如表1所示：

表1

带有“-”标记的数值为任务发布者支付的报酬、不带有“-”标记的数值为任务参与者得到的报酬。

求解的纳什均衡为

表2为S2状态下的博弈矩阵，如表所示：

表2

可参照表1的具体说明，同理，求解的纳什均衡为

由于S3、S4状态下只有一种任务选择，对应求解的纳什均衡为

需要说明的是：

表示完成任务1后任务参与者完成任务2的概率为

完成任务3的概率为0，完成任务4的概率为

和

为混合策略；

和

为纯策略。任务参与者根据所求结果，在完成任务1后，可从任务2,3,4中选择任务4完成，在完成任务2后，可选择任务5完成。该求解结果可供任务发布者分析，获取群智感知激励策略，即通过分析行为概率的数值大小，如果数值较小，增加报酬；如果数值较大，减少报酬。

本发明实施例提供的基于随机博弈获取群智感知激励策略的方法，通过构建反映任务参与者执行待完成任务意愿的行为概率的博弈矩阵；并分析博弈矩阵的求解结果获取群智感知激励策略，能够合理获取该行为概率，进而给出有效的激励策略。

在上述实施例的基础上，所述根据预设的报酬计算函数、所述预算信息、所述位置信息和所述所在地信息，计算所述任务参与者执行完成当前任务所能获得的直接收益，包括：

根据如下公式计算所述直接收益：

其中，R_w为直接收益、α为

占R_w的预设比例、β为l_i×w占R_w的预设比例，且α+β＝1；h_i为第i个任务完成难易程度的大小、K为任务总数、B为任务发布者的总预算、l_i为所述位置信息对应的位置与所述所在地信息对应的位置之间的距离、w为预设单位距离对应的报酬。

具体的，装置根据如下公式计算所述直接收益：

其中，R_w为直接收益、α为

占R_w的预设比例、β为l_i×w占R_w的预设比例，且α+β＝1；h_i为第i个任务完成难易程度的大小、K为任务总数、B为任务发布者的总预算、l_i为所述位置信息对应的位置与所述所在地信息对应的位置之间的距离、w为预设单位距离对应的报酬。可参照上述实施例，不再赘述。

本发明实施例提供的基于随机博弈获取群智感知激励策略的方法，通过具体的公式能够准确计算直接收益，保证获取群智感知激励策略的正常进行。

在上述实施例的基础上，所述并获取完成所述待完成任务的期望报酬之和，包括：

其中，动作W_j表示从所述当前任务的所在地k到待完成任务的待去所在地l的概率。

具体的，装置计算所述任务发布者在支付当前任务的报酬为T_i的条件下，所述任务参与者在博弈状态S_l下采取动作W_j的概率

其中，动作W_j表示从所述当前任务的所在地k到待完成任务的待去所在地l的概率。可参照上述实施例，不再赘述。

根据如下公式计算所述期望报酬之和：

其中，T_l为所述任务参与者从所述当前任务的所在地k到所述待去所在地l，并完成所述待完成任务时，所述任务发布者支付的报酬。

具体的，装置根据如下公式计算所述期望报酬之和：

其中，T_l为所述任务参与者从所述当前任务的所在地k到所述待去所在地l，并完成所述待完成任务时，所述任务发布者支付的报酬。可参照上述实施例，不再赘述。

本发明实施例提供的基于随机博弈获取群智感知激励策略的方法，通过具体的公式合理计算期望报酬之和，进一步保证获取群智感知激励策略的正常进行。

在上述实施例的基础上，所述根据所述直接收益和所述期望报酬之和，构建反映所述任务参与者执行所述待完成任务意愿的行为概率的博弈矩阵，包括：

根据如下公式计算期望总收益：

其中，

是对应上述R_w。

具体的，装置根据如下公式计算期望总收益：

其中，

是对应上述R_w。可参照上述实施例，不再赘述。

本发明实施例提供的基于随机博弈获取群智感知激励策略的方法，通过具体的公式准确计算期望总收益，进一步保证获取群智感知激励策略的正常进行。

在上述实施例的基础上，所述任务包括使所述任务参与者去指定地采集所述任务发布者所需要的数据。

具体的，装置中的，所述任务包括使所述任务参与者去指定地采集所述任务发布者所需要的数据。可参照上述实施例，不再赘述。

本发明实施例提供的基于随机博弈获取群智感知激励策略的方法，通过将任务选为使任务参与者去指定地采集任务发布者所需要的数据，能够合理获取任务参与者去指定地采集任务发布者所需要的数据的行为概率，进而给出有效的激励策略。

在上述实施例的基础上，所述数据的数据类型包括噪音感知数据、实时公交信息感知数据、空气质量感知数据、交通拥堵情况感知数据和公共基础设施感知数据。

具体的，装置中的所述数据的数据类型包括噪音感知数据、实时公交信息感知数据、空气质量感知数据、交通拥堵情况感知数据和公共基础设施感知数据。可参照上述实施例，不再赘述。

本发明实施例提供的基于随机博弈获取群智感知激励策略的方法，通过将数据类型选为噪音感知数据、实时公交信息感知数据、空气质量感知数据、交通拥堵情况感知数据和公共基础设施感知数据，能够有针对性地获取任务中的数据。

在上述实施例的基础上，，所述方法还包括：

存储获取到的所述群智感知激励策略。

具体的，装置存储获取到的所述群智感知激励策略。可参照上述实施例不再赘述。

本发明实施例提供的基于随机博弈获取群智感知激励策略的方法，通过存储获取到的群智感知激励策略，便于对群智感知激励策略进行管理。

图4为本发明实施例基于随机博弈获取群智感知激励策略的装置结构示意图，如图4所示，本发明实施例提供了一种基于随机博弈获取群智感知激励策略的装置，包括第一获取单元401、计算单元402、第二获取单元403和构建单元404，其中：

第一获取单元401用于获取任务发布者的预算信息、任务参与者当前的位置信息和所述任务参与者已执行的当前任务的所在地信息；计算单元402用于根据预设的报酬计算函数、所述预算信息、所述位置信息和所述所在地信息，计算所述任务参与者执行完成当前任务所能获得的直接收益；第二获取单元403用于获取与所述所在地信息位置相关的待完成任务，并获取完成所述待完成任务的期望报酬之和；构建单元404用于根据所述直接收益和所述期望报酬之和，构建反映所述任务参与者执行所述待完成任务意愿的行为概率的博弈矩阵；求解所述博弈矩阵的纳什均衡，并将所述纳什均衡作为所述博弈矩阵的求解结果，分析所述求解结果以获取群智感知激励策略。

具体的，第一获取单元401用于获取任务发布者的预算信息、任务参与者当前的位置信息和所述任务参与者已执行的当前任务的所在地信息；计算单元402用于根据预设的报酬计算函数、所述预算信息、所述位置信息和所述所在地信息，计算所述任务参与者执行完成当前任务所能获得的直接收益；第二获取单元403用于获取与所述所在地信息位置相关的待完成任务，并获取完成所述待完成任务的期望报酬之和；构建单元404用于根据所述直接收益和所述期望报酬之和，构建反映所述任务参与者执行所述待完成任务意愿的行为概率的博弈矩阵；求解所述博弈矩阵的纳什均衡，并将所述纳什均衡作为所述博弈矩阵的求解结果，分析所述求解结果以获取群智感知激励策略。

本发明实施例提供的基于随机博弈获取群智感知激励策略的装置，通过构建反映任务参与者执行待完成任务意愿的行为概率的博弈矩阵；并分析博弈矩阵的求解结果获取群智感知激励策略，能够合理获取该行为概率，进而给出有效的激励策略。

本发明实施例提供的基于随机博弈获取群智感知激励策略的装置具体可以用于执行上述各方法实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

图5为本发明实施例提供的电子设备实体结构示意图，如图5所示，所述电子设备包括：处理器(processor)501、存储器(memory)502和总线503；

其中，所述处理器501、存储器502通过总线503完成相互间的通信；

所述处理器501用于调用所述存储器502中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取任务发布者的预算信息、任务参与者当前的位置信息和所述任务参与者已执行的当前任务的所在地信息；根据预设的报酬计算函数、所述预算信息、所述位置信息和所述所在地信息，计算所述任务参与者执行完成当前任务所能获得的直接收益；获取与所述所在地信息位置相关的待完成任务，并获取完成所述待完成任务的期望报酬之和；根据所述直接收益和所述期望报酬之和，构建反映所述任务参与者执行所述待完成任务意愿的行为概率的博弈矩阵；求解所述博弈矩阵的纳什均衡，并将所述纳什均衡作为所述博弈矩阵的求解结果，分析所述求解结果以获取群智感知激励策略。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取任务发布者的预算信息、任务参与者当前的位置信息和所述任务参与者已执行的当前任务的所在地信息；根据预设的报酬计算函数、所述预算信息、所述位置信息和所述所在地信息，计算所述任务参与者执行完成当前任务所能获得的直接收益；获取与所述所在地信息位置相关的待完成任务，并获取完成所述待完成任务的期望报酬之和；根据所述直接收益和所述期望报酬之和，构建反映所述任务参与者执行所述待完成任务意愿的行为概率的博弈矩阵；求解所述博弈矩阵的纳什均衡，并将所述纳什均衡作为所述博弈矩阵的求解结果，分析所述求解结果以获取群智感知激励策略。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：获取任务发布者的预算信息、任务参与者当前的位置信息和所述任务参与者已执行的当前任务的所在地信息；根据预设的报酬计算函数、所述预算信息、所述位置信息和所述所在地信息，计算所述任务参与者执行完成当前任务所能获得的直接收益；获取与所述所在地信息位置相关的待完成任务，并获取完成所述待完成任务的期望报酬之和；根据所述直接收益和所述期望报酬之和，构建反映所述任务参与者执行所述待完成任务意愿的行为概率的博弈矩阵；求解所述博弈矩阵的纳什均衡，并将所述纳什均衡作为所述博弈矩阵的求解结果，分析所述求解结果以获取群智感知激励策略。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的电子设备等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。