CN111861159B

CN111861159B - 一种基于强化学习的任务分配方法

Info

Publication number: CN111861159B
Application number: CN202010634907.9A
Authority: CN
Inventors: 徐连; 王薇
Original assignee: Wuhan Shiwei Information Technology Co ltd
Current assignee: Wuhan Shiwei Information Technology Co ltd
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2024-02-02
Anticipated expiration: 2040-07-03
Also published as: CN111861159A

Abstract

本发明属于强化学习技术领域，公开了一种基于强化学习的任务分配方法，包括收集获取员工信息、任务信息；根据员工信息、任务信息建立强化学习模型，初始化Q矩阵、状态向量S、行动向量A、奖励矩阵R，设置超参数，进行Q矩阵的迭代计算；利用强化学习模型更新员工的当前任务分配阈值；根据每个员工的当前任务分配阈值、当前分配到的任务数量得到每个员工的权重信息；根据待分配任务的所有员工的权重信息进行新任务的分配。本发明解决了现有技术中基于人力成本的任务分配方法无法高效合理地进行任务分配的问题，能够通过强化学习的方法在线自动地进行任务分配，解决人工任务分配存在的弊端。

Description

一种基于强化学习的任务分配方法

技术领域

本发明涉及强化学习技术领域，尤其涉及一种基于强化学习的任务分配方法。

背景技术

任务分配是一个企业机构办公时必须面对的问题，很多领域(例如咨询领域)的任务往往不是重复性的，及其需要工作人员的智力与经验，且耗时较长，不同的任务耗时也不一样，难以量化。具体的，例如大型咨询公司因为专业人员多且专业分布广，每个员工的工作任务较为专一，从而在任务分配上比较简单。而小型公司部门少，人员少，项目经验涉猎较少，且不同员工之间对于一个新到达的任务往往没办法找到最优的分配办法。大型咨询领域的公司传统的任务分配往往由部门主管来简单地根据员工特长进行选择分配，或者随机分配，这种需要人力成本的任务分配方法只能达到一个比较一般的效果。然而咨询领域的中小企业很难进行任务分配，因为每个员工都需要负责项目中的多个部分，不同员工间的擅长领域往往有交叉，人力成本的任务分配方法不够有效。且小公司人员变动很大，新老员工交替较快，公司缺乏对新员工的考量，从而也无法高效合理地进行任务分配。

强化学习用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题，如果智能体的某个行为策略导致环境正的奖赏(强化信号)，那么智能体以后产生这个行为策略的趋势便会加强。智能体的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。强化学习可以根据每个人在公司中的工作经历来学习任务分配的方法从而可以高效自动地进行任务分配。避免了不够合理的人力手动分配。通过将强化学习技术应用到某些领域(例如咨询领域)的任务分配上，可以有效地提高相关领域公司(例如咨询领域公司)完成用户要求的任务的效率。

发明内容

本申请实施例通过提供一种基于强化学习的任务分配方法，解决了现有技术中基于人力成本的任务分配方法无法高效合理地进行任务分配的问题。

本申请实施例提供一种基于强化学习的任务分配方法，包括以下步骤：

步骤1、收集获取员工信息、任务信息；

步骤2、根据所述员工信息、所述任务信息建立强化学习模型，初始化Q矩阵、状态向量S、行动向量A、奖励矩阵R，设置超参数，进行Q矩阵的迭代计算；

步骤3、利用强化学习模型更新员工的当前任务分配阈值；

步骤4、根据每个员工的当前任务分配阈值、当前分配到的任务数量得到每个员工的权重信息；根据待分配任务的所有员工的权重信息进行新任务的分配。

优选的，所述步骤1中，所述员工信息包括员工正在进行的任务数量、员工的当前任务分配阈值；所述任务信息包括任务的分配情况信息、任务的进行情况信息。

优选的，所述步骤2中，所述强化学习模型基于Q学习算法；

所述Q矩阵为二维矩阵，行为状态空间，列为动作空间；每一行对应一种任务分配阈值状态，每一列对应一种行动；行动包括代表任务分配阈值减一的第一行动A₁、代表任务分配阈值不变的第二行动A₂、代表任务分配阈值加一的第三行动A₃；初始化时将所述Q矩阵的值设为0；

所述奖励矩阵R中的每个元素分别代表一种任务分配阈值状态对应的奖励值；初始化时将所述奖励矩阵R设为：在状态为预设任务分配阈值的位置取值为1，其余位置取值为0。

优选的，所述Q矩阵为8×3矩阵，状态代表的任务分配阈值的取值范围为[0,7]，且取正整数。

优选的，所述步骤2中，所述超参数包括：探索次数、迭代轮次、学习率、折扣因子、贪婪因子。

优选的，所述步骤2中，在每一次的迭代中进行如下操作：

(1)选择一个状态S；

(2)重复如下过程直到状态到达终止状态或者超出探索次数：

初始化一个随机数，随机数的取值范围为[0,1]；如果随机数小于贪婪因子，则随机选择行动A_i，i的取值范围为[1,3]，且为正整数；如果随机数大于贪婪因子，则选择状态S行中值最大的元素对应的行动A_i，并在当前状态采取此行动得到一个新的状态S’，更新Q矩阵和状态S；

其中，所述终止状态为奖励矩阵中奖励值最大的状态。

优选的，所述更新Q矩阵和状态S如下式所示：

其中，S_t表示t时刻的状态，A_t表示t时刻在状态S_t下采取的动作；S_t+1表示采取完A_t动作后的t+1时刻的状态，即新的状态S’；A_t+1表示t+1时刻在状态S_t+1下采取的动作，R(S_t+1)表示S_t+1的奖励值，α表示学习率，γ表示折扣因子；A(S_t+1)表示t+1时刻，在S_t+1状态下可以采取的行动集合；表示在t+1时刻的状态S_t+1下，从三种不同行动的Q值中选择最大的那个Q值；Q(S_t,A_t)代表在状态S_t下采取行动A的Q值，Q(S_t+1,A_t+1)代表在状态S_t+1下采取行动A的Q值。

优选的，所述步骤3中，若强化学习模型接收到员工发送的超时信息，则进行如下操作：

将该员工与第一行动A₁对应的Q值乘以第一调整数值，该员工与第二行动A₂、第三行动A₃对应的Q值均保持不变；在该员工的当前任务分配阈值对应的三个Q值中选择最大值，根据最大值对应的Q值代表的行动进行任务分配阈值的修改，并更新该员工的当前任务分配阈值；将修改前的任务分配阈值的奖励转移第一比例至修改后的任务分配阈值的奖励中，并对Q矩阵进行再训练；

若强化学习模型接收到员工发送的空闲信息，则进行如下操作：

将该员工与第三行动A₃对应的Q值乘以第二调整数值，该员工与第一行动A₁、第二行动A₂对应的Q值均保持不变；在该员工的当前任务分配阈值对应的三个Q值中选择最大值，根据最大值对应的Q值代表的行动进行任务分配阈值的修改，并更新该员工的当前任务分配阈值；将修改前的任务分配阈值的奖励转移第二比例至修改后的任务分配阈值的奖励中，并对Q矩阵进行再训练。

优选的，设定超时判定条件为：若一个任务分配到某员工之后连续N₁天都是未开始状态，则判定为处于超时状态，并发送所述超时信号；

设定空闲判定条件为：若某员工正在进行的任务数量小于等于第一任务数量的时间累积达到N₂天，则判定为处于空闲状态，并发送所述空闲信息；其中，所述第一任务数量的取值为该员工的当前任务分配阈值减一。

优选的，所述步骤4中，员工i对应的第一权重值由以下两个部分相加得到：员工i的当前任务分配阈值、员工i的当前任务分配阈值与员工i当前分配到的任务数量的差；

将待分配任务的所有员工对应的第一权重值进行求和，得到权重总值；

员工i对应的第二权重值通过将员工i对应的第一权重值除以所述权重总值得到；

将待分配任务的所有员工对应的第二权重值进行降序排列，并将新任务分配给第二权重值最大的员工。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

在本申请实施例中，首先收集获取员工信息、任务信息，然后根据员工信息、任务信息建立强化学习模型，初始化Q矩阵、状态向量S、行动向量A、奖励矩阵R，设置超参数，进行Q矩阵的迭代计算；之后利用强化学习模型更新员工的当前任务分配阈值；最后根据每个员工的当前任务分配阈值、当前分配到的任务数量得到每个员工的权重信息；根据待分配任务的所有员工的权重信息进行新任务的分配。即本发明使用强化学习算法进行任务分配阈值的训练，在任务分配时能够根据训练好的任务分配阈值进行任务分配，能够根据员工的工作情况动态地调整任务分配阈值与强化学习再训练。本发明通过强化学习的方法能够在线自动地进行任务分配，能够解决人工任务分配存在的弊端。

附图说明

为了更清楚地说明本实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于强化学习的任务分配方法对应的系统框架图；

图2为本发明实施例提供的一种基于强化学习的任务分配方法进行任务分配的流程图。

具体实施方式

本发明提供一种基于强化学习的任务分配方法，其特征在于，包括以下步骤：

步骤1、收集获取员工信息、任务信息。

步骤2、根据所述员工信息、所述任务信息建立强化学习模型，初始化Q矩阵、状态向量S、行动向量A、奖励矩阵R，设置超参数，进行Q矩阵的迭代计算。

其中，所述强化学习模型基于Q学习算法；所述Q矩阵为二维矩阵，行为状态空间，列为动作空间；每一行对应一种任务分配阈值状态，每一列对应一种行动；行动包括代表任务分配阈值减一的第一行动A₁、代表任务分配阈值不变的第二行动A₂、代表任务分配阈值加一的第三行动A₃；初始化时将所述Q矩阵的值设为0；所述奖励矩阵R中的每个元素分别代表一种任务分配阈值状态对应的奖励值；初始化时将所述奖励矩阵R设为：在状态为预设任务分配阈值的位置取值为1，其余位置取值为0。

在Q矩阵的每一次迭代中进行如下操作：

(1)选择一个状态S；

(2)重复如下过程直到状态到达终止状态或者超出探索次数：

初始化一个随机数，随机数的取值范围为[0,1]；如果随机数小于贪婪因子，则随机选择行动A_i，i的取值范围为[1,3]，且为正整数；如果随机数大于贪婪因子，则选择状态S行中值最大的元素对应的行动A_i，并在当前状态采取此行动得到一个新的状态S’，更新Q矩阵和状态S；其中，所述终止状态为奖励矩阵中奖励值最大的状态。

步骤3、利用强化学习模型更新员工的当前任务分配阈值。

其中，若强化学习模型接收到员工发送的超时信息，则进行如下操作：

将该员工与第一行动A₁对应的Q值乘以第一调整数值，该员工与第二行动A₂、第三行动A₃对应的Q值均保持不变；在该员工的当前任务分配阈值对应的三个Q值中选择最大值，根据最大值对应的Q值代表的行动进行任务分配阈值的修改，并更新该员工的当前任务分配阈值；将修改前的任务分配阈值的奖励转移第一比例至修改后的任务分配阈值的奖励中，并对Q矩阵进行再训练。

设定超时判定条件为：若一个任务分配到某员工之后连续N₁天都是未开始状态，则判定为处于超时状态，并发送所述超时信号。

其中，所述第一调整数值、所述第二调整数值可以相同也可以不同，根据应用需要可进行调整。所述第一比例和所述第二比例可以相同也可以不同，根据应用需要可进行调整。

其中，员工i对应的第一权重值由以下两个部分相加得到：员工i的当前任务分配阈值、员工i的当前任务分配阈值与员工i当前分配到的任务数量的差。将待分配任务的所有员工对应的第一权重值进行求和，得到权重总值。员工i对应的第二权重值通过将员工i对应的第一权重值除以所述权重总值得到。将待分配任务的所有员工对应的第二权重值进行降序排列，并将新任务分配给第二权重值最大的员工。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本实施例提供了一种基于强化学习的任务分配方法，参看图1、图2，包括以下步骤：

步骤1、确定咨询领域任务分配涉及对象。

任务分配涉及的对象包括员工信息与任务信息。员工信息包括员工正在进行的任务数量、员工的当前任务分配阈值。任务信息包括任务的分配情况信息(具体体现在：员工i当前分配到的任务数量)、任务的进行情况信息(具体体现在：若一个任务分配到某员工之后连续N₁天都是未开始状态)。

在本实施例中，一个员工的初始任务分配阈值为3，代表一个员工能够同时分配到的最大任务数量。

步骤2、确定强化学习方法。

本发明使用的强化学习方法为Q-learning。首先初始化奖励矩阵R、行动向量A、状态向量S、Q矩阵。然后设定超参数：探索次数、迭代轮次、学习率α、折扣因子γ、贪婪因子ε，开始进行Q矩阵的迭代计算。

在本实施例中，初始化的Q矩阵为0，行S为状态空间，列A为动作空间。并设有一个终止状态，所述终止状态为奖励矩阵中奖励值最大的状态。即Q矩阵是一个8×3的矩阵，每行有3个值，对应当前行的任务分配阈值对应的三个Q值。

初始化的奖励矩阵R为[0,0,0,1,0,0,0,0]分别代表每个状态的奖励值。迭代轮次为episode的个数，设置为1400；探索次数设置为100次。状态代表任务分配阈值的取值，范围为[0,7]，且取正整数。行动有三种，分别为任务分配阈值减一，任务分配阈值不变，任务分配阈值加一。奖励矩阵R初始化时在状态3的时候是1，其余位置为0。

其余超参数的设置可以根据情况而定。

在每一次的迭代中进行如下操作：

(1)选择一个状态S；

(2)重复如下过程直到状态到达终止状态或者超出探索次数：

初始化一个随机数，随机数的取值范围为[0,1]；如果随机数小于贪婪因子ε，那么随机选择行动，如果随机数大于贪婪因子ε，则选择状态S行中最大的元素对应的Action A，并在当前状态采取此行为得到一个新的状态S’，更新Q矩阵和状态S。

如下面的公式所示：

步骤3、根据员工完成任务的情况进行任务分配阈值的重新计算。

员工在工作中被分配到了任务，有可能会面临以下两种情况。

第一种是该员工分配到的任务超时启动，这个情况意味着该员工的任务分配阈值过大，此时向强化学习模块传递一个超时信号，强化学习模块先将员工此时任务分配阈值的三个Q值中，跟任务分配阈值降低行为有关的Q值乘以一个调整数值(例如2)，再根据员工此时任务分配阈值的三个Q值选择最大值，根据这个最大Q值代表的行为进行任务分配阈值的修改并更新员工的任务分配阈值。然后将此任务分配阈值的奖励转移部分比例(例如一半)到比这个任务分配阈值小一的任务分配阈值奖励中，进行Q矩阵的再训练。

第二种是该员工的任务分配阈值与该员工同时进行的任务数量(即员工正在进行的任务)的差大于等于1(以任务分配阈值为3进行举例，员工正在进行的任务为2、1或0)累积一定时间，向强化学习模块传递一个空闲信号，强化学习模块先将员工此时任务分配阈值的三个Q值中，跟任务分配阈值升高行为有关的Q值乘以一个调整数值(例如2)，再根据员工此时任务分配阈值的三个Q值选择最大值，根据这个最大Q值代表的行为进行任务分配阈值的修改并更新员工的任务分配阈值。然后将此任务分配阈值的奖励转移部分比例(例如一半)到比这个任务分配阈值大一的任务分配阈值奖励中，进行Q矩阵的再训练。

在本实施例中，设定超时启动的时间为7天，当一个任务分配到某个员工之后连续7天这个任务都是未开始状态，那么强化学习模块就会收到一个超时信号。假定这个用户此时的任务分配阈值为3，Q矩阵中对应任务分配阈值3的三个Q值分别为0.3、0.3、0.4，强化学习模块会先将跟任务分配阈值降低有关的Q值(0.3)乘以2，得到新的三个Q值分别为0.6、0.3、0.4。选择最大的那个Q值代表的行为，用户的任务分配阈值就会进行减一操作，修改为2。同时，奖励矩阵也会把任务分配阈值为3的奖励分一半到任务分配阈值为2的奖励中，在此时奖励矩阵变成[0,0,0.5,0.5,0,0,0,0]，最后进行强化学习的再训练，训练出新的Q矩阵。

在本实施例中，设定员工的任务分配阈值与员工同时进行的任务数量的差大于等于1的情况累积3天，那么强化学习模块就会收到一个空闲信号。假定这个用户此时的任务分配阈值为3，Q矩阵中对应任务分配阈值3的三个Q值分别为0.3、0.3、0.4，强化学习模块会先将跟任务分配阈值升高有关的Q值(0.4)乘以2，得到新的三个Q值分别为0.3、0.3、0.8。选择最大的那个Q值代表的行为，用户的任务分配阈值就会进行加一操作，修改为4。同时，奖励矩阵也会把任务分配阈值为3的奖励分一半到任务分配阈值为4的奖励中，在此时奖励矩阵变成[0,0,0,0.5,0.5,0,0,0]，最后进行强化学习的再训练，训练出新的Q矩阵。即由于获得了新的奖励矩阵，因此抛弃之前的Q矩阵，从初始化Q矩阵开始从头再来一次Q矩阵的训练。

步骤4、进行任务分配。

当一个新任务需要进行分配时，会根据每个员工i的权重w_i进行任务分配。权重由两个部分相加组成，第一个部分是用户当前任务分配阈值，第二个部分是用户当前任务分配阈值与当前分配到的任务数量的差。将所有人的权重求和记为重新计算每个用户的权重，/>将其降序排列，每次选择拥有最大权重的用户进行分配。

假定三个用户A、B、C，当前任务分配阈值分别为3、5、4，分配到的任务数量分别为3、4、5。那么用户A、B、C的初始权重分别为w_A＝3+(3-3)＝3、w_B＝5+(5-4)＝6、w_C＝4+(4-5)＝3。用户A、B、C的权重求和S＝w_A+w_B+w_C＝12，用户A、B、C的最终权重分别为因此，新的任务会优先分配给用户B。

综上，本发明基于强化学习技术，根据某些领域(例如咨询领域)任务的多样性与员工的特殊性动态自动地进行任务的分配，可以克服人手动分配任务的缺点，增加员工分配到的任务的合理性，提升企业的整体工作效率。

本发明实施例提供的一种基于强化学习的任务分配方法至少包括如下技术效果：

本发明使用强化学习算法进行任务分配阈值的训练，在任务分配时能够根据训练好的任务分配阈值进行任务分配，能够根据员工的工作情况动态地调整任务分配阈值与强化学习再训练。本发明通过强化学习的方法能够在线自动地进行任务分配，能够解决人工任务分配存在的弊端。

最后所应说明的是，以上具体实施方式仅用以说明本发明的技术方案而非限制，尽管参照实例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于强化学习的任务分配方法，其特征在于，包括以下步骤：

步骤1、收集获取员工信息、任务信息；

步骤3、利用强化学习模型更新员工的当前任务分配阈值；

步骤4、根据每个员工的当前任务分配阈值、当前分配到的任务数量得到每个员工的权重信息；根据待分配任务的所有员工的权重信息进行新任务的分配；

其中，所述步骤2中，所述强化学习模型基于Q学习算法；

所述奖励矩阵R中的每个元素分别代表一种任务分配阈值状态对应的奖励值；初始化时将所述奖励矩阵R设为：在状态为预设任务分配阈值的位置取值为1，其余位置取值为0；

所述步骤3中，若强化学习模型接收到员工发送的超时信息，则进行如下操作：

将该员工与第三行动A₃对应的Q值乘以第二调整数值，该员工与第一行动A₁、第二行动A₂对应的Q值均保持不变；在该员工的当前任务分配阈值对应的三个Q值中选择最大值，根据最大值对应的Q值代表的行动进行任务分配阈值的修改，并更新该员工的当前任务分配阈值；将修改前的任务分配阈值的奖励转移第二比例至修改后的任务分配阈值的奖励中，并对Q矩阵进行再训练；

设定超时判定条件为：若一个任务分配到某员工之后连续N₁天都是未开始状态，则判定为处于超时状态，并发送超时信号；

2.根据权利要求1所述的基于强化学习的任务分配方法，其特征在于，所述步骤1中，所述员工信息包括员工正在进行的任务数量、员工的当前任务分配阈值；所述任务信息包括任务的分配情况信息、任务的进行情况信息。

3.根据权利要求1所述的基于强化学习的任务分配方法，其特征在于，所述Q矩阵为8×3矩阵，状态代表的任务分配阈值的取值范围为[0,7]，且取正整数。

4.根据权利要求1所述的基于强化学习的任务分配方法，其特征在于，所述步骤2中，所述超参数包括：探索次数、迭代轮次、学习率、折扣因子、贪婪因子。

5.根据权利要求1所述的基于强化学习的任务分配方法，其特征在于，所述步骤2中，在每一次的迭代中进行如下操作：

(1)选择一个状态S；

(2)重复如下过程直到状态到达终止状态或者超出探索次数：

其中，所述终止状态为奖励矩阵中奖励值最大的状态。

6.根据权利要求5所述的基于强化学习的任务分配方法，其特征在于，所述更新Q矩阵和状态S如下式所示：

其中，S_t表示t时刻的状态，A_t表示t时刻在状态S_t下采取的动作；S_t+1表示采取完A_t动作后的t+1时刻的状态，即新的状态S’；A_t+1表示t+1时刻在状态S_t+1下采取的动作，R(S_t+1)表示S_t+1的奖励值，α表示学习率，γ表示折扣因子；A(S_t+1)表示t+1时刻，在S_t+1状态下可以采取的行动集合；

表示在t+1时刻的状态S_t+1下，从三种不同行动的Q值中选择最大的那个Q值；Q(S_t,A_t)代表在状态S_t下采取行动A的Q值，Q(S_t+1,A_t+1)代表在状态S_t+1下采取行动A的Q值。

7.根据权利要求1所述的基于强化学习的任务分配方法，其特征在于，所述步骤4中，员工i对应的第一权重值由以下两个部分相加得到：员工i的当前任务分配阈值、员工i的当前任务分配阈值与员工i当前分配到的任务数量的差；