CN109409739A

CN109409739A - 一种基于部分可观测马尔科夫决策过程的众包平台任务分配方法

Info

Publication number: CN109409739A
Application number: CN201811254337.XA
Authority: CN
Inventors: 刘峰; 夏志伟; 张弛; 曾虎双
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2019-03-01
Anticipated expiration: 2038-10-19
Also published as: CN109409739B

Abstract

一种基于部分可观测马尔科夫决策过程的众包平台任务分配方法包括如下步骤：1)准备阶段，准备平台运营数据，根据一定格式对数据进行标准化处理，形成标准数据集。2)建模阶段，首先根据平台特性建立POMDP平台初步模型，再根据数据集中的数据进行训练补充完成POMDP平台模型，生成POMDP文件。3)决策阶段，使用POMDP求解程序对POMDP文件进行求解，得到策略，应用于实际任务的决策支持当中。

Description

一种基于部分可观测马尔科夫决策过程的众包平台任务分配方法

技术领域

本发明涉及众包平台的任务分配，尤其涉及一种基于部分可观察马尔科夫模型的众包平台任务分配方法。

背景技术

众包模式是一种时兴的商业模式，并且在实际应用中获得了广泛的认可。需求方向众包平台委托任务，众包平台将任务分配给提供方(以下称为工人)。并且平台需要负责对工人返回的结果进行评估，认为满意后反馈给需求方。每次分配任务，平台需要向工人支付报酬，而最终平台从需求方获得的酬金决定于任务的完成质量，获得的酬金与多次支付给工人的报酬之差就是众包平台的利润。随着众包平台的规模逐年扩大，用户数和任务数都数以万计，任务的分配不可能完全通过人工完成。因此，如何根据当前的任务状态选择最合适的工人以获得最大的利润，是一个急需解决的问题。

部分可观察马尔科夫决策过程(POMDP)模型是一个数学模型，用于解决不确定环境下的序贯决策问题。本发明提出了一种基于POMDP模型的众包平台任务分配方法，用于实现众包平台任务分配的决策支持。

发明内容

POMDP模型是一种良好的决策模型，适用于不确定环境下的决策支持。本发明提出了一种基于POMDP模型的众包平台任务分配方法。该方法首先根据众包平台记录的历史数据对 POMDP模型的元素按照众包平台特性进行了重定义，使用数据集建模生成标准POMDP文件。POMDP模型一般由八元组(S，A，Z，b₀，T，O，R，γ)来表示。本发明中，状态集合S表示任务的状态，动作集合A表示对于任务可以进行的动作，观察集合Z表示每次动作后进行任务评估的结果，初始信念状态b₀表示任务刚开始的状态，状态转移函数T，观察函数O，收益函数R都通过数据学习获得，折扣因子γ＝0.95。然后求解POMDP模型后产生策略，最后基于策略实现众包平台的自动化智能决策。

一种基于POMDP模型的众包平台任务分配方法，该方法包括如下步骤：

1)准备阶段

a)准备日常的数据，即历史任务信息。

b)确定常数参数，包括工人等级数、任务种类数等。

c)对历史数据进行格式转换，按照特定的数据格式，对数据进行预处理。

2)建模阶段

a)根据应用的数据，确定状态、动作、观察、折扣银子等POMDP模型中的简单元素。

b)根据数据集进行函数学习，完成收益函数、状态转移函数、观察函数等POMDP 模型中的复杂元素。

c)根据需要提供决策支持的任务种类，确定初始信念状态。

d)将2-a)中的初步模型与2-b)中得到的函数以及2-c)中的初始信念状态结合，得到最终的POMDP平台模型。

e)根据标准POMDP模型文件的格式将POMDP平台模型转化为POMDP文件。

3)决策阶段

a)使用POMDP求解程序求解2-e)中得到的POMDP文件，求解得到从信念状态到动作映射的策略。

b)使用得到的决策，根据当前信念状态得到最优动作。

c)执行最优动作，更新信念状态等信息，重复执行b)直至终止。

其中步骤1-c)所述的数据格式说明：

1)数据格式需要满足特定的数据结构，首先定义的是一些集合：

任务种类集合T，工人等级集合L，任务完成质量集合Q＝{A，B，C，D}，评估结果集合B＝{true，false}。

2)以下是历史信息的结构：

任务记录集合M＝{m₁，m₂，...，m_k}中的每个元素包含了一次任务的全部信息。每条任务记录m_i＝{P，t，r}有其对应任务执行过程集合P＝{p₁，p₂，...，p_n}、任务种类t∈T以及任务请求方支付的酬劳对于每次任务执行过程p_i＝(t_i，l_i，c_i，b_i)，有对应的种类t_i，工人等级l_i，支付的酬劳c_i，评估结果b_i。其中种类t_i∈T，工人等级l_i∈L，支付酬劳关于评估结果b_i，当i＜n时，b_i＝false，当i＝n时，b_i＝true。

其中步骤2-a)所述的模型说明：

1)状态(S)：

一共有两种类型的状态，一种是正在执行中的状态(q，t)，另一种是终止状态。正在执行的状态有两个元素，完成质量q和任务种类t，因此该种状态是种类和完成质量的笛卡尔积，数量是种类数乘以完成质量数。终止状态表示任务被提交，已经返回给需求方。

2)动作(A)：

一共有两种类型的动作：分配(assign)和完成(complete)。

完成动作表示系统将任务终止，并返回给需求方。分配动作表示将任务分配给某一特定的工人群体，工人群体有两个元素，种类t和等级l，因此分配动作的数量为种类数乘以等级数，这里工人的种类与任务种类相同。

3)观察(Z)：

一共有两种观察：true和false。

每次进行动作之后，众包平台都会对任务进行质量评估，评估通过则设观察值为true，否则为false。

其中2-b)的收益函数学习过程说明：

1)收益函数的格式为R：设转移前状态为s，动作为a，转移后状态为s’，关于动作a分情况讨论。

2)如果动作a是分配动作，搜索动作a所对应的任务种类的所有任务执行记录组成的集合M_a＝{m|m∈M，m的种类与a的种类相同}，在集合M_a的任务执行过程中获取与动作a对应工人等级相同的任务执行过程组成的集合P_a＝{p|p∈m.P，m∈M’，p的工人等级与a的工人等级相同}，计算P_a平均支付酬劳，取负后为收益，如果P_a是空集，则设R为负无穷，即：

3)如果动作a是结束动作，如果状态s为终止状态，则R＝0，否则有状态s＝(q，t)检索状态s所对应的任务种类中所有任务执行记录组成的集合M_s＝{m|m∈M，m的种类与s的种类相同}，计算其平均酬劳，如果M_s是空集，则报错，发生数据缺失，即：

其中2-b)的状态转移函数学习过程说明：

τ：设转移前状态为s，动作为a，转移后状态为s’，概率分情况讨论：

1)首先关于动作a分类讨论，如果动作a为完成动作，那么任务必定进入终止状态，即对s’＝e，转移概率τ＝1，对s’≠e时，概率τ＝0。

2)对于a是分配动作，关于转移前状态s分类讨论，如果转移前状态s为终止状态，那么类似情况1)，转移后状态s’也一定是终止状态。如果转移前状态s不是终止状态，此时动作a是分配动作，那么转移后状态一定不是终止状态，即对转移后状态为终止状态，转移概率τ＝0。

3)最后一种情况是转移前后状态s和s’都不是终止状态，动作a是分配动作。如果转移前后状态s和s’的任务种类不同，概率τ＝0。对于转移前后状态s和s’状态任务种类相同，这里使用历史数据进行学习，学习过程如下：

4)以任务种类X为例，从M中取出所有任务种类为X的任务记录的集合M_X＝{m|m ∈M，m的任务种类为X}。关于所有m∈M_X，考察执行序列P＝{p₁，p₂，...，p_n}，新设一个对应的跃迁集合U＝{u₁，u₂，...，u_n}，其中u_i表示p_i发生了质量跃迁的概率，即质量发生了提高的概率。初始质量为D，最终质量为A，发生了3次跃迁。故有在执行了p_n之后，必然发生了质量由B到A的跃迁，即u_n＝1(*)，故u_i的值与p_i对应的工人等级l_i相关，不同工人等级对应的u_i与工人的平均酬劳线性相关，即u_H∶u_M∶u_L＝R_H∶R_M∶R_L，其中R_H，R_M，R_L的计算方法为收益函数中分配动作的计算方法。联立(**)(***)可解得所有u_i，然后对于所有的m∈M_X中对应u_H，u_M，u_L求均值，得到最终的U_H，U_M，U_L。在状态转移函数中，由动作a对应的工人等级l，得到其对应的质量跃迁概率u_l，则对于转移前状态s，如果s的任务质量为A，则转移后状态质量为A的概率为1，其它状态的概率为0。如果任务质量不为A，则状态发生跃迁的概率为u_l，保持原状态的概率为1-u_l，其它状态的概率为0，即：

其中2-b)的观察函数学习过程说明：

O：记动作为a，转移后状态为s，获得的观察为z。如果动作a是终止动作或状态s是结束状态，则观察值为true的概率为1，为false的概率为0，如果动作a 是分配动作，则状态s是执行中状态，此时观察函数取决于状态的完成质量q，关于q分情况讨论：

当q∈{C，D}时，观察值为true的概率为0，为false的概率是1。当q＝B时，观察值为true的概率为0.2，为false的概率是0.8。当q＝A时，观察值为true的概率为0.8，为false的概率是0.2。

其中2-c)的信念状态说明：

1)信念状态是信念空间上的一个概率分布，表示系统对当前状态的判断，用来作为决策的依据。

其中2-e)的文件格式说明：

1)POMDP文件有其特定的标准，需要说明POMDP八元组，其中状态、动作、观察的格式相似，其余的函数格式相似。POMDP文件格式并不单一，相同的模型有多种可选格式，在此只选择最简单的格式。

2)状态、动作、观察这三个元素的说明只需要列举元素的名称和个数。

3)初始信念状态需要说明每个状态的概率，由一个2行矩阵说明，第一行说明状态编号，第二行说明对应状态概率。

4)观察函数、状态转移函数、收益函数的函数输入都是三种元素的笛卡尔积，因此使用多个二维矩阵表示，选取一个元素作为矩阵编号，其余两个元素分别作为每个矩阵的行和列，最后矩阵中的每个元素说明特定输入下的函数值。

其中3-a)的求解程序说明：

1)求解程序基于点的值迭代算法(PBVI)，PBVI算法是一种近似算法，相较于精确算法效果略差，但是复杂度低得多。

2)求解程序的输入是标准POMDP文件，对文件解析后获得模型，再对模型进行求解。

3)求解得到的结果是信念状态空间到动作的映射，即通过信念状态得到动作，实际上需要根据当前信念状态进行计算确定最优动作，而不是直接的映射关系。

其中3-c)的执行过程说明：

1)每次任务执行过程中，首先将当前信念状态代入策略进行计算，得到最优动作后进行动作执行，获得观察之后，根据观察更新信念状态等信息。

2)重复进行步骤1)的过程，直至最优动作为提交动作，此时结束循环。

附图说明

图1整体流程图。

图2准备阶段流程图。

图3建模阶段流程图。

图4执行阶段流程图。

具体实施方式

下面结合附图对本发明进行详细说明。

图1描述了一种基于POMDP模型的众包平台任务分配方法的总体流程，首先准备平台的数据，对数据进行标准化处理，其次进行POMDP建模，先利用平台特性形成初步模型，在通过数据训练补充完成模型，最后对模型进行求解，根据求解出的策略进行模拟任务，检验实际效果。

图2描述了准备阶段，准备阶段的任务是准备数据，并根据一定格式对数据进行标准化处理，为建模过程的数据训练做准备。

步骤2-1进行初始数据的准备，这一阶段视具体情况设置数据格式；

步骤2-2确定常数参数，包括工人等级数、任务质量数、任务种类数等；

步骤2-3对初始数据进行格式转换，使其满足标准数据格式要求；

步骤2-4生成标准数据集，将2-3中标准化后的数据进行整理，得到数据集。

图3描述了建模阶段，首先根据众包平台特性建立初步模型，再通过数据集的数据训练补充完成模型，同时设置初始信念，最后根据模型生成标准POMDP文件。

步骤3-1建立初步模型，根据步骤2-1中设置的常数确定模型的简单元素；

步骤3-2进行数据训练学习，包括状态转移函数、观察函数、收益函数的学习；

步骤3-3选择初始任务种类，生成初始信念状态；

步骤3-4将建模完成的POMDP模型转化为标准POMDP文件。

图4描述了决策阶段，首先求解POMDP文件，生成策略，之后新建任务，根据任务状态使用策略得到当前最优动作，模拟执行动作，最后得到结果检验实际效果。

步骤4-1使用已有POMDP求解程序求解，得到策略；

步骤4-2使用策略根据当前任务状态选择最优动作；

步骤4-3判断是否是分配动作，是则进行步骤4-4，否则进行步骤4-5；

步骤4-4进行分配动作，根据获得的观察更新信息，转回步骤4-2；

步骤4-5进行结束任务。

Claims

1.一种基于部分可观测马尔科夫决策过程的众包平台任务分配方法，该方法包括如下步骤：

1)准备阶段

a)准备日常的数据，即历史任务信息。

b)确定常数参数，包括工人等级数、任务种类数等。

2)建模阶段

b)根据数据集进行函数学习，完成收益函数、状态转移函数、观察函数等POMDP模型中的复杂元素。

c)根据需要提供决策支持的任务种类，确定初始信念状态。

3)决策阶段

b)使用得到的决策，根据当前信念状态得到最优动作。

其中步骤1-c)所述的数据格式说明：

2)以下是历史信息的结构：

其中步骤2-a)所述的模型说明：

1)状态(S)：

2)动作(A)：

一共有两种类型的动作：分配(assign)和完成(complete)。

3)观察(Z)：

一共有两种观察：true和false。

其中2-b)的收益函数学习过程说明：

1)收益函数的格式为设转移前状态为s，动作为a，转移后状态为s’，关于动作a分情况讨论。

其中2-b)的状态转移函数学习过程说明：

设转移前状态为s，动作为a，转移后状态为s’，概率分情况讨论：

4)以任务种类X为例，从M中取出所有任务种类为X的任务记录的集合M_X＝{m|m∈M，m的任务种类为X}。关于所有m∈M_X，考察执行序列P＝{p₁，p₂，...，p_n}，新设一个对应的跃迁集合U＝{u₁，u₂，...，u_n}，其中u_i表示p_i发生了质量跃迁的概率，即质量发生了提高的概率。初始质量为D，最终质量为A，发生了3次跃迁。故有在执行了p_n之后，必然发生了质量由B到A的跃迁，即u_n＝1(*)，故u_i的值与p_i对应的工人等级l_i相关，不同工人等级对应的u_i与工人的平均酬劳线性相关，即u_H∶u_M∶u_L＝R_H∶R_M∶R_L，其中R_H，R_M，R_L的计算方法为收益函数中分配动作的计算方法。联立(**)(***)可解得所有u_i，然后对于所有的m∈M_X中对应u_H，u_M，u_L求均值，得到最终的U_H，U_M，U_L。在状态转移函数中，由动作a对应的工人等级l，得到其对应的质量跃迁概率u_l，则对于转移前状态s，如果s的任务质量为A，则转移后状态质量为A的概率为1，其它状态的概率为0。如果任务质量不为A，则状态发生跃迁的概率为u_l，保持原状态的概率为1-u_l，其它状态的概率为0，即：

其中2-b)的观察函数学习过程说明：

记动作为a，转移后状态为s，获得的观察为z。如果动作a是终止动作或状态s是结束状态，则观察值为true的概率为1，为false的概率为0，如果动作a是分配动作，则状态s是执行中状态，此时观察函数取决于状态的完成质量q，关于q分情况讨论：