CN109767094A

CN109767094A - 智慧云制造任务调度装置

Info

Publication number: CN109767094A
Application number: CN201811619735.7A
Authority: CN
Inventors: 亓晋; 朱华瑜; 孙雁飞
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2019-05-17
Anticipated expiration: 2038-12-27
Also published as: CN109767094B

Abstract

一种智慧云制造任务调度装置，所述装置包括：获取单元，适于获取待执行的当前调度任务；判断单元，适于判断已存储的策略表中是否存在所述当前调度任务对应的策略表；所述策略表中包括当前调度任务在每个状态下选择每个动作的概率的信息；调度单元，适于当确定已存储的策略表中存在所述当前调度任务对应的策略表时，采用所存储的对应的策略表对当前调度任务进行调度。上述的方法，可以提高智慧云制造任务调度的效率。

Description

智慧云制造任务调度装置

技术领域

本发明属于工业物联网技术领域，特别是涉及一种智慧云制造任务调装置。

背景技术

智慧云制造是在“制造即服务”理念基础上，借鉴云计算思想发展起来的一个新概念。

智慧云制造通过建立共享制造资源的公共服务平台，将巨大的社会制造资源池连接在一起，提供各种制造服务，实现制造资源与服务的开放协作，社会资源高度共享。企业用户无需再投入高昂的成本购买加工设备等资源，可以通过咨询公共平台来购买或租赁制造能力。因此，智慧云制造能够避免制造资源的浪费。智慧云制造中资源种类的选择匹配以及资源能否最优化调度成为其是否能够最高效的关键所在。

当前，智慧云制造环境下常用的调度方法在进行任务调度的时候存在着效率低的问题。

发明内容

本发明解决的技术问题是如何提高智慧云制造任务调度的效率。

为了达到上述目的，本发明提供一种智慧云制造任务调度装置，所述装置包括：

获取单元，适于获取待执行的当前调度任务；

判断单元，适于判断已存储的策略表中是否存在所述当前调度任务对应的策略表；所述策略表中包括当前调度任务在每个状态下选择每个动作的概率的信息；

调度单元，适于当确定已存储的策略表中存在所述当前调度任务对应的策略表时，采用所存储的对应的策略表对当前调度任务进行调度。

可选地，所述装置还包括：

训练单元，适于当确定所述已存储的策略表中不存在所述当前调度任务对应的策略表时，训练得到当前调度任务对应的策略表；

所述调度单元，还适于采用训练得到当前调度任务对应的策略表对当前调度任务进行调度。

可选地，所述装置还包括：

存储单元，适于将训练得到的当前调度任务对应的策略表进行存储。

可选地，所述训练单元，适于初始化当前调度任务对应的奖励值表；所述奖励值表中包括在每一状态下选取相应动作对应的奖赏评估值的信息；初始化当前调度任务对应的状态空间和策略表；所述状态空间包括当前调度任务对应的时间和资源池的信息；所述策略表包括每一状态下选择每一动作的概率的信息；按照顺序对预设的多种状态进行遍历，获取遍历至的当前状态；基于前一状态下所选择的动作和所述奖励值表，从对应的任务组合中选取当前状态下对应的当前动作；基于从所述奖励值表中查询得到的当前动作对应的奖赏评估值，对所述策略表中当前状态下选择当前动作的概率进行更新；当确定所述调度任务未调度完成时，进入下一状态，直至所述调度任务调度完成时完成一次迭代；当确定所述调度任务调度完成时，判断迭代次数是否达到预设的次数阈值；当确定迭代次数未达到所述次数阈值时，执行下一次迭代；当确定迭代次数达到所述次数阈值时，输出此时的策略表，作为当前调度任务对应的策略表。

可选地，所述训练单元，适于采用如下的公式计算所述奖励值表中包括在每一状态下选取相应动作对应的奖赏评估值：

R＝0.25*p*q，R∈[0，1]；

其中，R表示所选择的当前动作对应的奖赏评估值，p表示所述调度任务的状态空间中生产能力在有效时间内的安排占比得分，而q表示所述调度任务的状态空间中库存能力在有效时间内的安排占比得分。

可选地，所述训练单元，适于采用如下的公式计算得到对所述策略表中当前状态下选择当前动作的概率进行更新：

Q(s，a)←Q(s，a)+α*[R+γ*max_a′Q(s′，a′)-Q(s，a)]；

其中，Q(s，a)表示在状态s下采取动作a能够获得期望最大利益的权重值，max_a′Q(s′，a′)表示下一个状态s′下采取动作a′能够获得期望最大利益的权重最大估计值，Q(s′，a′)表示表示下一个状态s′下采取动作a′能够获得期望最大利益的估计值，α表示学习效率，γ表示对未来奖励的衰减比例。

可选地，所述调度单元，适于从所述当前调度任务对应的策略表中分别选取每一状态下的最大概率值对应的动作并执行，直至所述当前调度任务全部调度完成。

可选地，所述调度单元，适于从所述当前调度任务对应的策略表中分别按照90％的概率选取每一状态下的最大概率值对应的动作，按照10％的概率随机选取每一状态下的动作并执行，直至所述当前调度任务全部调度完成。

与现有技术相比，本发明的有益效果为：

上述的方案，通过获取待执行的当前调度任务，并当确定已存储的策略表中存在所述当前调度任务对应的策略表时，采用所存储的对应的策略表对当前调度任务进行调度，因在进行智慧云制造任务调度时采用对应的策略表逐步进行任务调度动作的选择，可以避免因按照优先级调度出现的任务冲突问题，故可以提高智慧云制造任务调度的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中的一种智慧云制造任务调度方法的流程示意图；

图2是本发明实施例中的一种策略表的训练方法的流程示意图；

图3是本发明实施例中的状态空间的示意图；

图4是本发明实施例中的一种奖励值表的示意图；

图5是本发明实施例中的一种智慧云制造任务调度装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。本发明实施例中有关方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

如背景技术所述，现有技术当前智慧云制造环境下常用的任务调度方法，通常只考虑采用一个独立特征参数来衡量任务优先级，最后根据任务优先级排序依次执行任务，使得出现多个甚至大量任务优先级相同的情况，导致任务调度出现冲突，无法更有效的给任务分配资源，存在着任务调度效率比较低的问题。

本发明的技术方案通过获取待执行的当前调度任务，并当确定已存储的策略表中存在所述当前调度任务对应的策略表时，采用所存储的对应的策略表对当前调度任务进行调度，因在进行智慧云制造任务调度时采用对应的策略表逐步进行任务调度动作的选择，可以避免因按照优先级调度出现的任务冲突问题，故可以提高智慧云制造任务调度的效率。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例的一种智慧云制造任务调度方法的流程示意图。参见图1，一种智慧云制造任务调度方法，具体可以包括如下的步骤：

步骤S101：获取待执行的当前调度任务。

在具体实施中，所述待执行的当前调度任务为智慧云制造任务调度任务，可以由工业互联网中的设备根据具体的需求生成。

步骤S102：判断已存储的策略表中是否存在所述当前调度任务对应的策略表；当判断结果为是时，可以执行步骤S103；反之，则可以执行步骤S104。

在具体实施中，所存储的策略表与调度任务之间具有预设的对应关系，通过查询该对应关系，便可以确定当前已存储的策略表中是否存在当前调度任务对应的策略表。

步骤S103：采用所存储的对应的策略表对当前调度任务进行调度。

在具体实施中，当确定所述已存储的策略表中存在当前调度任务对应的策略表时，因所述策略表中包括当前调度任务在每个状态下选择每个动作的概率的信息，根据所述策略表中的概率的信息选取每个状态下执行的动作，从而完成当前调度任务的分配。

在本发明一实施例中，在根据所述策略表中的概率的信息选取每个状态下执行的动作时，从所述当前调度任务对应的策略表中分别选取每一状态下的最大概率值对应的动作并执行，直至所述当前调度任务全部调度完成。

在本发明另一实施例中，在根据所述策略表中的概率的信息选取每个状态下执行的动作时，从所述当前调度任务对应的策略表中分别按照90％的概率选取每一状态下的最大概率值对应的动作，按照10％的概率随机选取每一状态下的动作并执行，直至所述当前调度任务全部调度完成，以提高动作选择的灵活性。

步骤S104：训练得到当前调度任务对应的策略表，并采用训练得到当前调度任务对应的策略表对当前调度任务进行调度。

在具体实施中，当确定所述已存储的策略表中不存在当前调度任务对应的策略表时，可以首先通过训练得到当前调度任务对应的策略表，并采用训练得到的策略表对当前调度任务进行调度。其中，如何训练得到当前调度任务对应的策略表的方式请参见图2中的详细介绍。

在具体实施中，为了进一步提高任务调度的效率，本发明实施例中的智慧云制造任务调度方法还可以包括：

步骤S105：将训练得到的当前调度任务对应的策略表进行存储。

在具体实施中，当训练得到当前调度任务对应的策略表时，可以将当前调度任务对应的策略表进行存储，以在下次出现与当前调度任务相同的调度任务时，可以直接使用所存储的策略表进行任务调度，而无需再次进行策略表的训练，故可以进一步提高任务调度的效率。

图2示出了本发明实施例中的一种当前调度任务对应的策略表的训练方法的流程示意图。参见图2，本发明实施例中的一种当前调度任务对应的策略表的训练方法，具体可以包括如下的步骤：

步骤S201：初始化当前调度任务对应的奖励值表。

在具体实施中，所述当前调度任务对应的奖励值表包括在每个(任务分配)状态下选择相应动作的奖赏评估值的信息。在本发明一实施例中，采用如下的公式计算得到每个(任务分配)状态下选择相应动作的奖赏评估值：

在本发明另一实施例中，采用如下的公式计算所选择的当前动作对应的奖赏评估值：

R＝0.25*p*q，R∈[0，1] (1)

从公式(1)可知，R得分越高代表奖赏越高，即在对应的状态下选择该动作的概率也就越大。

步骤S202：初始化当前调度任务对应的状态空间和策略表。

在具体实施中，在训练当前调度任务对应的策略表时，首先开始并初始化当前调度任务的状态空间和策略表。其中，初始化当前调度任务的状态空间，为初始化当前调度任务的包括时间和资源池信息的矩阵；其中，所述时间覆盖当前调度任务的任务分配的全过程，并划分为相同的多个时间段，每一时间段对应任务分配的一个状态；所述策略表包括每一(任务分配)状态下选择每一动作的概率的信息；初始化策略表，即生成对应的一个二维属性的表格，该表格包括“状态state”和“动作action”两种属性，该策略表中记录有在每个状态选择相应动作的概率的信息，初始化的得到的策略表中相应状态下选择相应动作的数值为默认值。

步骤S203：按照顺序对预设的多种状态进行遍历，获取遍历至的当前状态。

在具体实施中，如前所述，当前调度任务的任务分配的全过程划分为对应的多个时间段，每个时间段对应任务分配的一个状态。其中，每个状态与前一状态相关联，也即当前状态的动作的选取与前一状态的动作选取相关。对应的多个状态执行的动作合在一起，构成了完成的当前调度任务的任务执行的全过程。

步骤S204：基于前一状态下所选择的动作和所述奖励值表，从对应的任务组合中选取当前状态下对应的当前动作。

在具体实施中，预设达到多个状态中每个状态下执行的动作构成了当前调度任务分配的全过程。因此，从对应的任务组合中选取当前状态下对应的动作时，需要基于前一状态下的动作选择。换言之，当前状态下所选取的动作与当前状态之前的任务分配状态密切相关。例如，对于任务A和B的调度，在每一状态下的动作选择时，当在前一状态选取的动作为A时，当前状态选取的动作则只能为B；前一状态选取的动作为B时，当前状态选取的动作则只可以为A；前一状态选取的动作为A和B时，则任务A和B在前一状态已经分配完成。

在具体实施中，假如有M个任务需要分配，则在2^M种任务组合中选择动作。其中，在每次选择动作时可以首先判断本次选择的任务的能力总值是否超过上限值，如果超过了上限则会排除本次选择的动作并会继续下一轮的选择动作。其中，任务的能力总值为选择动作的所有任务所需的能力进行相加得到；上限值为根据实际工厂的能力来确定的。每个工厂的能力都不相同，所设定能力总值的上限值也将不同。

在本发明一实施例中，在从基于前一状态下所选择的动作，从对应的任务组合中选取当前状态下对应的当前动作时，从前一状态下选取的动作对应的当前状态的可选的动作中选择所述奖励值表中对应的奖赏评估值最大的动作，作为当前状态所选取的动作。

在本发明另一实施例中，为了提高动作选取的灵活性，在从基于前一状态下所选择的动作，从对应的任务组合中选取当前状态下对应的当前动作时，90％的概率为从策略表中选取当前状态下中的动作中选取所述奖励值表中奖赏评估值最大的动作，10％概率为从可选的动作中随机选取动作。

其中，从策略表所选择的动作都是根据策略表在前一状态下的估计进行选择的，具体请参见后续步骤中的介绍。

步骤S205：基于从所述奖励值表中查询得到的当前动作对应的奖赏评估值，对所述策略表中当前状态下选择当前动作的概率进行更新。

在具体实施中，策略表包括对应的某一状态下选择某一动作的概率的信息表格。当选取当前状态下对应的动作时，通过查询所述奖励值表可以获取该所选取的动作对应的奖赏评估值，再基于查询得到的奖赏评估值，对所述策略表中当前状态下选择当前动作的概率进行更新。

在本发明一实施例中，采用如下的公式对所述策略表中当前状态下选择当前动作的概率进行更新：

Q(s，a)←Q(s，a)+α*[R+γ*max_a′Q(s′，a′)-Q(s，a)] (2)

步骤S206：判断当前调度任务是否调度完成；当判断结果为是时，可以执行步骤S207；反之，则可以执行步骤S208。

在具体实施中，判断当前调度任务是否调度完成，也即判断当前调度任务是否全部分配完成。

步骤S207：进入下一状态，直至所述调度任务调度完成时完成一次迭代。

在具体实施中，当确定所述调度任务未调度完成时，进入下一状态，即将下一状态作为遍历至的当前状态，并从步骤S204开始执行，直至当前调度任务全部分配完成时，执行完毕一次迭代。

步骤S208：判断迭代次数是否达到预设的次数阈值；当判断结果为是时，可以执行步骤S210；反之，则可以执行步骤S209。

在具体实施中，所述次数阈值为迭代次数的上限，通常当迭代次数达到该设定的次数阈值时，训练就会收敛，也就意味着训练结束。

步骤S209：执行下一次迭代。

在具体实施中，当确定迭代次数未达到所述次数阈值时，从步骤S202开始执行下一轮迭代。

步骤S210：输出此时的策略表，作为当前调度任务对应的策略表。

在具体实施中，当确定迭代次数达到所述次数阈值时，在具体实施中，当判断是则输出最终策略表的概率分布并结束整个流程；

下面将结合智慧云轮胎制造任务调度为例对本发明实施例中的智慧云制造任务调度任务进行进一步详细的解释。

单独就拿制造轮胎来说，对于同一个轮胎生产商，此时宝马公司与奔驰公司同时需要该轮胎生产商所制造的轮胎。其中，宝马公司需要的轮胎的质量要求要低一些，因而对于宝马公司的生产任务而言只需要该轮胎生产厂商的一格“生产能力”加上一格“库存能力”；奔驰公司需要的轮胎相对宝马公司需要的轮胎的质量要求高一些，要该轮胎生产商的两格“生产能力”加一格“库存能力”。此外该轮胎生产商可能还会生产其他公司不同类型要求的轮胎，且假定所有的生产任务都是同一批次生产。那么如何协调调度好该轮胎生产厂商的“生产能力”、“库存能力”与客户需求之间的资源分配，就是我们要解决的问题。

参见图3，假定有一批轮胎制造的生产任务需要调度，其中，A、B、C和D分别是四种不同的制造任务。根据轮胎制造的例子来说，可以简单理解为，A为奔驰公司的制造任务，B为宝马公司的制造任务，C为福特公司的制造任务，D为其他公司的生产任务。同时，定义奔驰公司的生产任务所需要的制造能力为2格“生产能力”和2格“库存能力”；宝马公司的生产任务所需要的制造能力为2格“生产能力”和1格“库存能力”；福特公司的生产任务所需要的制造能力为1格“生产能力”和1格“库存能力”。

状态s指的是剩余的可选的所有任务的一种状态。实际中我们在每个时间如T1、T2、T3分别会选择动作如a1、a2、a3。每个时间节点对应着任务分配的一个状态，这里的T1对应着我们的状态s1，T2对应s2，T3对应s3。其中，s1状态为在所有的任务里面选择动作的一个状态；s2状态就是我们在s1状态选完一个动作之后剩余的其余任务里面选择动作的一个状态。

通常而言，在T1(s1)状态选择奔驰公司和福特公司就满足状态的饱和，在T2(s2)状态选择剩下的宝马公司即可，可以在最短的时间内在不闲置资源的情况下又快又好地安排好任务并把任务完成。但是，机器不是智能的，无法主动而又正好挑选这最好的策略，故需要进行训练使其具有该能力。

以轮胎制造案例获取最终的策略表为例，其具体过程包括：第一步初始化奖励值表；第二步为通过训练获取最终的策略表。为什么需要训练呢？直接按照奖励值表不就行了？这是因为，在工业生产中往往会发生意外，可能某一些任务的状态需要事先被安排，那就破坏了原有的计划，而面对这样的状况往往需要重新部署任务的安排，这样就耗费了大量的人力物力在里面。通过训练获得一个策略表，用于记录相关动作选择对应的权重或概率，可以根据实时的事件的变化，仍然能够基于当前的状态做出恰当、智能的选择。具体而言，可以包括：

首先，初始化奖励值表。

如图4所示，该奖励值表是以树状的形式呈现。其中，表格内部的值通过奖赏函数，也即公式(1)计算得到。计算得到的奖励评估值R得分越高代表奖赏越高，即选择该动作的概率也就越大。通过奖励值表最终所选取的路径，为一条累积奖赏评估值最大的路径作为我们的最有效的策略。同时，所选取的累积奖赏值最高的路径必定是最短的路径，同时也会满足资源占比最高的要求。发明人经过研究表明，在对应状态下选择动作时，可以首先挑选组合动作，再挑选单个剩余的动作，可以在满足上述要求的同时，时间安排上也变得更为合理。

需要指出的是，图4中的表格中如果出现预设的数值，如-1等，则代表该动作无法选择且被排除。

在初始化完毕策略表时，接着通过训练获取与当前调度任务对应的最终的策略表。

步骤一：初始化策略表。所谓初始化策略表就是生成一张结构跟图1一样的表格，只是初始值为默认值，如0。

步骤二：选择动作。如上图4所示，每一个状态都会有一系列动作可以被选择。例如，在状态s1下，可以选择7种动作，即a1只选择奔驰公司A，a2只选择宝马公司B，a7同时选择三个公司的制造任务A&B&C；在状态s2和s3下，可以选择的动作分别在各个不同的子表格当中。这里需要指出的是，图4中的表格中“不选择”的动作没有列出。

步骤三：根据公式(2)更新策略表。按照上面的例子，假设当前在状态s1的情况下，90％的概率我们会从奖励值表中按最大值选取动作，10％的概率会随机选择动作。假设我们进入90％的概率需要从奖励值表中按最大值选取动作，则我们会选择动作a5。那么，公式(2)中的R+γ*max_a′Q(s′，a′)的现实值计算得1+0.9*max(0，0，0，0，0，0，0)＝1，Q(s，a)部分的公式估计值为0，则根据完整的公式(2)，更新后的策略表中对应的权重会概率值变为Q(s1，a5)＝0.1。然后，进入下一状态s2，以s1同样的方式进行更新状态s2的策略表，直到最后把所有的任务都安排完，则一轮迭代结束。这里需要指出的是，这个表格学习的过程的速度可以通过调节学习参数α的值进行调整，但是训练的过程本身应该是个循序渐进的过程，需要考虑到一些随机的状态。

之后就是不断地进行迭代更新，迭代更新的次数手动设置，一般可以手动调节以观察其是否最终进入收敛状态。最终所获得的一个强化学习更新过后的策略表，策略表类似图一，但是里面值就不再是奖赏值了，而是学习过后的选择该动作的权重值或者概率值。权重值或概率值越大则代表选择这个动作的概率越大。

最后学习更新好的策略表会被存储进系统的存储装置，接下来再有任务过来先判断其任务情形是否已经存在于存储装置中。如果存在，则直接利用学习好的策略表进行任务的安排，按照权重值大的，按顺序组合好；如果不存在，则重新学习这种情形，并将学习好的该种情形下的策略表最终存储起来，以备后续使用。

上述对本发明实施例中的智慧云制造任务调度方法进行了详细的描述，下面将对上述的方法对应的装置进行介绍。

图5示出了本发明实施例中的一种智慧云制造任务调度装置的结构示意图。参见图5，本发明实施例中的一种智慧云制造任务调度装置50可以包括获取单元501、判断单元502和调度单元503，其中：

所述获取单元501，适于获取待执行的当前调度任务。

所述判断单元502，适于判断已存储的策略表中是否存在所述当前调度任务对应的策略表；所述策略表中包括当前调度任务在每个状态下选择每个动作的概率的信息。

所述调度单元503，适于当确定已存储的策略表中存在所述当前调度任务对应的策略表时，采用所存储的对应的策略表对当前调度任务进行调度。

在本发明一实施例中，所述装置50还可以包括训练单元504，其中：

所述训练单元504，适于当确定所述已存储的策略表中不存在所述当前调度任务对应的策略表时，训练得到当前调度任务对应的策略表。

所述调度单元503，还适于采用训练得到当前调度任务对应的策略表对当前调度任务进行调度。

在本发明另一实施例中，所述装置50还可以包括存储单元504，其中：

所述存储单元504，适于将训练得到的当前调度任务对应的策略表进行存储。

在本发明一实施例中，所述训练单元504，适于初始化当前调度任务对应的奖励值表；所述奖励值表中包括在每一状态下选取相应动作对应的奖赏评估值的信息；初始化当前调度任务对应的状态空间和策略表；所述状态空间包括当前调度任务对应的时间和资源池的信息；所述策略表包括每一状态下选择每一动作的概率的信息；按照顺序对预设的多种状态进行遍历，获取遍历至的当前状态；基于前一状态下所选择的动作和所述奖励值表，从对应的任务组合中选取当前状态下对应的当前动作；基于从所述奖励值表中查询得到的当前动作对应的奖赏评估值，对所述策略表中当前状态下选择当前动作的概率进行更新；当确定所述调度任务未调度完成时，进入下一状态，直至所述调度任务调度完成时完成一次迭代；当确定所述调度任务调度完成时，判断迭代次数是否达到预设的次数阈值；当确定迭代次数未达到所述次数阈值时，执行下一次迭代；当确定迭代次数达到所述次数阈值时，输出此时的策略表，作为当前调度任务对应的策略表。

在本发明另一实施例中，所述训练单元504，适于采用如下的公式计算所述奖励值表中包括在每一状态下选取相应动作对应的奖赏评估值：

R＝0.25*p*q，R∈[0，1]；

在本发明又一实施例中，所述训练单元504，适于采用如下的公式计算得到对所述策略表中当前状态下选择当前动作的概率进行更新：

Q(s，a)←Q(s，a)+α*[R+γ*max_a′Q(s′，a′)-Q(s，a)]；

在本发明一实施例中，所述调度单元503，适于从所述当前调度任务对应的策略表中分别选取每一状态下的最大概率值对应的动作并执行，直至所述当前调度任务全部调度完成。

在本发明另一实施例中，所述调度单元503，适于从所述当前调度任务对应的策略表中分别按照90％的概率选取每一状态下的最大概率值对应的动作，按照10％的概率随机选取每一状态下的动作并执行，直至所述当前调度任务全部调度完成。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述的智慧云制造任务调度方法的步骤。其中，所述的智慧云制造任务调度方法请参见前述部分的详细描述，不再赘述。

本发明实施例还提供了一种终端，包括存储器和处理器，所述存储器上储存有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行所述的智慧云制造任务调度方法的步骤。其中，所述的智慧云制造任务调度方法请参见前述部分的详细描述，不再赘述。

采用本发明实施例中的上述方案，通过获取待执行的当前调度任务，并当确定已存储的策略表中存在所述当前调度任务对应的策略表时，采用所存储的对应的策略表对当前调度任务进行调度，可以提高任务调度效率。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，本发明要求保护范围由所附的权利要求书、说明书及其等效物界定。

Claims

1.一种智慧云制造任务调度装置，其特征在于，包括：

获取单元，适于获取待执行的当前调度任务；

2.根据权利要求1所述的智慧云制造任务调度装置，其特征在于，还包括：

3.根据权利要求2所述的智慧云制造任务调度装置，其特征在于，还包括：

4.根据权利要求2或3所述的智慧云制造任务调度装置，其特征在于，所述训练单元，适于初始化当前调度任务对应的奖励值表；所述奖励值表中包括在每一状态下选取相应动作对应的奖赏评估值的信息；初始化当前调度任务对应的状态空间和策略表；所述状态空间包括当前调度任务对应的时间和资源池的信息；所述策略表包括每一状态下选择每一动作的概率的信息；按照顺序对预设的多种状态进行遍历，获取遍历至的当前状态；基于前一状态下所选择的动作和所述奖励值表，从对应的任务组合中选取当前状态下对应的当前动作；基于从所述奖励值表中查询得到的当前动作对应的奖赏评估值，对所述策略表中当前状态下选择当前动作的概率进行更新；当确定所述调度任务未调度完成时，进入下一状态，直至所述调度任务调度完成时完成一次迭代；当确定所述调度任务调度完成时，判断迭代次数是否达到预设的次数阈值；当确定迭代次数未达到所述次数阈值时，执行下一次迭代；当确定迭代次数达到所述次数阈值时，输出此时的策略表，作为当前调度任务对应的策略表。

5.根据权利要求4所述的智慧云制造任务调度装置，其特征在于，所述训练单元，适于采用如下的公式计算所述奖励值表中包括在每一状态下选取相应动作对应的奖赏评估值：

R＝0.25*p*q，R∈[0，1]；

6.根据权利要求5所述的智慧云制造任务调度装置，其特征在于，所述训练单元，适于采用如下的公式计算得到对所述策略表中当前状态下选择当前动作的概率进行更新：

Q(s，a)←Q(s，a)+α*[R+γ*max_a′Q(s′，a′)-Q(s，a)]；

7.根据权利要求6所述的智慧云制造任务调度装置，其特征在于，所述调度单元，适于从所述当前调度任务对应的策略表中分别选取每一状态下的最大概率值对应的动作并执行，直至所述当前调度任务全部调度完成。

8.根据权利要求6所述的智慧云制造任务调度装置，其特征在于，所述调度单元，适于从所述当前调度任务对应的策略表中分别按照90％的概率选取每一状态下的最大概率值对应的动作，按照10％的概率随机选取每一状态下的动作并执行，直至所述当前调度任务全部调度完成。