CN111798114B

CN111798114B - 一种模型训练、订单处理方法、装置、设备及存储介质

Info

Publication number: CN111798114B
Application number: CN202010601644.1A
Authority: CN
Inventors: 刘颖; 解鑫; 许铭; 齐月震; 白璐; 李瑞锋
Original assignee: Button Internet Beijing Technology Co ltd
Current assignee: Button Internet Beijing Technology Co ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2024-07-02
Anticipated expiration: 2040-06-28
Also published as: CN111798114A

Abstract

本申请实施例公开了一种模型训练、订单处理方法、装置、设备及存储介质，涉及深度学习及云计算领域，包括：获取设定数量的订单序列作为训练数据；其中，所述订单序列包括至少两个订单的订单数据以及各所述订单之间的默认排产顺序，所述订单数据包括订单交付时间和订单生产时间；根据所述训练数据对预设强化学习模型进行训练，得到目标强化学习模型；其中，所述目标强化学习模型用于对待处理订单序列进行排产处理。本申请实施例能够对待生产的订单确定最优的排产方案，从而提高订单的排产效果。

Description

一种模型训练、订单处理方法、装置、设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，具体涉及人工智能技术。

背景技术

车间作业排产指的是对一个生产线上的一些待生产订单，利用各订单的时间需求信息计算各订单的生产顺序，使各订单能够最大程度按期交付。因此，如何对待生产订单计算合理的排产方案，对于各订单能否按期交付的影响意义深远，成为生产调度领域具有挑战性的研究课题。

发明内容

本申请实施例提供了一种模型训练、订单处理方法、装置、设备及存储介质，以对待生产的订单确定最优的排产方案，从而提高订单的排产效果。

第一方面，本申请实施例提供了一种模型训练方法，包括：

获取设定数量的订单序列作为训练数据；其中，所述订单序列包括至少两个订单的订单数据以及各所述订单之间的默认排产顺序，所述订单数据包括订单交付时间和订单生产时间；

根据所述训练数据对预设强化学习模型进行训练，得到目标强化学习模型；

其中，所述目标强化学习模型用于对待处理订单序列进行排产处理。。

第二方面，本申请实施例提供了一种订单处理方法，包括：

获取待处理订单序列；

将所述待处理订单序列的当前状态特征输入至目标强化学习模型中；

根据所述目标强化学习模型的输出结果对所述待处理订单序列进行排产处理；

其中，所述目标强化学习模型通过第一方面所述的模型训练方法获取。

第三方面，本申请实施例提供了一种模型训练装置，包括：

训练数据获取模块，用于获取设定数量的订单序列作为训练数据；其中，所述订单序列包括至少两个订单的订单数据以及各所述订单之间的默认排产顺序，所述订单数据包括订单交付时间和订单生产时间；

模型训练模块，用于根据所述训练数据对预设强化学习模型进行训练，得到目标强化学习模型；

其中，所述目标强化学习模型用于对待处理订单序列进行排产处理。

第四方面，本申请实施例提供了一种订单处理装置，包括：

待处理订单序列获取模块，用于获取待处理订单序列；

当前状态特征输入模块，用于将所述待处理订单序列的当前状态特征输入至目标强化学习模型中；

排产处理模块，用于根据所述目标强化学习模型的输出结果对所述待处理订单序列进行排产处理；

第五方面，本申请实施例提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面实施例所提供的模型训练方法，或执行第二方面实施例所提供的订单处理方法。

第六方面，本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面实施例所提供的模型训练方法，或执行第二方面实施例所提供的订单处理方法。

本申请实施例通过将获取的设定数量的订单序列作为训练数据对预设强化学习模型进行训练，得到目标强化学习模型，并根据训练得到的目标强化学习模型对待处理订单序列进行排产处理，得到待处理订单的排产处理结果，能够对待生产的订单确定最优的排产方案，从而提高订单的排产效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请实施例提供的一种模型训练方法的流程图；

图2是本申请实施例提供的一种模型训练方法的流程图；

图3是本申请实施例提供的一种对预设强化学习模型进行训练的流程示意图；

图4是本申请实施例提供的一种订单处理方法的流程图；

图5是本申请实施例提供的一种强化学习模型的排产处理效果对比图；

图6是本申请实施例提供的一种模型训练装置的结构图；

图7是本申请实施例提供的一种订单处理装置的结构图；

图8是用来实现本申请实施例的模型训练方法或订单处理方法的电子设备的结构示意图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

订单排产问题属于NP（Nondeterministic Polynominal，非确定性多项式）难问题（NP-hard问题）。目前，针对订单排产问题的基本解决方法有两类，一类是针对订单排产建立数学规划模型，使用数学整数规划模型求解。这类方法可为少量订单求得精确最优解，但对于大量订单需要较长的计算时间导致方法不可用，在多项式时间内不可解。第二类是使用启发式算法求解，如人工定义规则算法、遗传算法或模拟退火算法等。这类方法可以在较短时间内求出近似最优解。当订单数量较大时，只能采用第二类方法，但第二类方法求解的得到的排产方案通常不是最优的排产方案，排产效果有待提升。

在一个示例中，图1是本申请实施例提供的一种模型训练方法的流程图，本实施例可适用于确定排产处理的强化学习模型的情况，该方法可以由模型训练装置来执行，该装置可以由软件和/或硬件的方式来实现，并一般可集成在电子设备中。该电子设备可以是计算机等设备。相应的，如图1所示，该方法包括如下操作：

S110、获取设定数量的订单序列作为训练数据；其中，所述订单序列包括至少两个订单的订单数据以及各所述订单之间的默认排产顺序，所述订单数据包括订单交付时间和订单生产时间。

其中，设定数量可以根据强化学习模型的训练需求设定，例如，设定数量可以设置为10万个或15万个，本申请实施例并不对设定数量的具体数值进行限定。默认排产顺序可以是订单序列中各订单之间初始的先后顺序。订单交付时间可以是订单的最晚交付时间，订单生产时间可以是生产订单所需的总时间。

在本申请实施例中，作为训练数据的订单序列可以是订单排产应用场景中历史完成排产的订单序列。每个订单序列可以包括多个订单，可选的，订单序列中订单的数量可以是40、50或60等，具体可以依据订单排产应用场景的订单排产需求设定，本申请实施例并不对订单序列中包括的订单数量进行限定。需要说明的是，各订单序列包括的订单数量可以相同，也可以不同，但需要保证订单数量之间的差值保持在一定范围内。例如，各订单序列的订单数量取值可以在[40,60]的区间内。如果不同订单序列的订单数量差别较大，则模型训练的效果会降低。可选的，训练数据可以按照一定的比例划分为训练集和验证集。

同时，订单序列中每个订单可以包括多维的订单数据。可选的，订单序列中各订单的订单数据可以包括订单交付时间和订单生产时间的二维数据。例如，订单序列可以是{(T1,D1),(T2,D2),(T3,D3),…}的形式。其中，T可以表示订单生产时间，D可以表示订单交付时间。当然，为了进一步提高模型的训练效果，订单数据还可以包括诸如订单最早交付时间等其他相关联的订单数据，从而形成更高维度的订单数据，本申请实施例对此并不进行限制。可选的，各订单序列中订单的订单数据类型和维度可以保持一致。另外，各订单之间的初始先后顺序可以作为订单序列的默认排产顺序。

S120、根据所述训练数据对预设强化学习模型进行训练，得到目标强化学习模型。

其中，所述目标强化学习模型用于对待处理订单序列进行排产处理。所述预设强化学习模型可以包括行动网络模型和评估网络模型。

其中，预设强化学习模型可以是根据实际需求选择的一种强化学习模型，如PPO（Proximal Policy Optimization，基于离线策略的强化学习）模型、A2C（AdvantageActor-Critic）模型或A3C（Asynchronous Advantage Actor-Critic）模型等，本申请实施例并不对预设强化学习模型的类型进行限定。预设强化学习模型可以包括行动网络模型和评估网络模型。其中，行动网络模型用于根据订单序列的当前状态决定下一个时刻施加到订单序列上的最好动作。评估网络模型可以根据订单序列的当前状态和订单排产环境预测标量值的外部强化信号，以单步和多步预报当前由行动网络施加到订单序列上的动作强化信号，可以提前向动作网络提供有关将候选动作的强化信号，以及更多的奖惩信息(内部强化信号)，以减少不确定性并提高预设强化学习模型的学习速度。目标强化学习模型即为利用训练数据对预设强化学习模型训练至收敛后得到的强化学习模型。待处理订单序列可以是尚未进行排产处理的订单序列，也即多个待生产的订单。

相应的，在获取到训练数据后，即可根据训练数据对预设强化学习模型进行训练，得到目标强化学习模型，以根据目标强化学习模型对待处理订单序列进行排产处理。

综上，在本申请实施例中，利用订单序列作为训练数据训练预设强化学习模型，直至其收敛得到目标强化学习模型，从而利用训练得到的目标强化学习模型对待处理订单序列进行排产处理。也即，本申请实施例将强化学习应用到订单排产领域，利用强化学习这一人工智能技术学习从订单序列状态到订单排产行为的映射，使得智能体选择的行为能够获得最大的奖赏，使得订单序列对强化学习模型在某种意义下的评价(或整个模型的运行性能)为最佳。由此可见，本申请实施例中所提供的模型训练方法训练得到的目标强化学习模型不仅可以对大量的待生产的订单进行排产处理，并且可以实现在可接受的时间内，对待生产的订单确定最优的排产方案，进一步提升订单的排产效果。

在一个示例中，图2是本申请实施例提供的一种模型训练方法的流程图。本申请实施例在上述各实施例的技术方案的基础上，进行了优化改进，给出了根据所述训练数据对预设强化学习模型进行训练多种具体可选的实现方式。

如图2所示，本申请实施例中模型训练方法可以包括：

S210、获取设定数量的订单序列作为训练数据。

S220、依次从所述训练数据中获取预设数量的订单序列作为所述当前订单序列。

其中，预设数量可以根据实际需求设定，如8、16或32等，可以是8的倍数，本申请实施例并不对预设数量的具体数值进行限定。当前订单序列可以是当前用于对预设强化学习模型进行训练的订单序列。

可选的，在利用训练数据对预设强化模型进行训练时，可以依次从训练数据中获取多个订单序列同时对预设强化模型进行训练。也即，预设强化学习模型可以同步对多个订单序列同时进行处理。例如，一次性从训练数据中选择8个订单序列作为当前订单序列，每个当前订单序列的序列长度（也即订单的数量）可以在[40,60]的区间内。在当前订单序列训练完成后，可以按照训练数据中各订单序列的顺序再次获取预设数量的订单序列作为当前订单序列，并继续对预设强化模型进行训练。

S230、获取所述预设强化学习模型的当前奖励值以及当前订单序列的当前状态特征。

其中，当前奖励值可以是预设强化学习模型在上一次对订单序列进行排产更新后，利用得到的排产更新结果以及奖励值函数计算得到的奖励值。当前状态特征可以是当前订单序列的状态特征。

可选的，在获取到当前订单序列后，可以进一步获取预设强化学习模型的当前奖励值以及当前订单序列的当前状态特征。

可以理解的是，预设强化学习模型的训练过程是一个迭代更新训练过程。因此，在利用预设强化学习模型首次对当前订单序列进行排产更新时，对应的当前订单序列可以是从训练数据中获取到的原始的订单序列。当进入迭代更新训练过程后，当前订单序列则可以是利用预设强化学习模型在上一次训练结束后得到的排产更新结果，对当前订单序列的当前排产顺序进行更新后得到的订单序列。

在本申请的一个可选实施例中，所述获取当前订单序列的当前状态特征，包括：提取所述当前订单序列中各所述订单的订单特征；将所述订单特征输入至GCN（GraphConvolutional Network，图神经网络）中，以提取所述当前订单序列中各所述订单的前后顺序特征；将所述前后顺序特征作为所述当前状态特征。

其中，订单特征可以是反应当个订单的独立特征。在本申请的一个可选实施例中，订单特征可以包括但不限于订单生产时间以及平均延误程度等。其中，平均延误程度可以用于评价订单的延误情况。示例性的，假设用delay表示平均延误程度，则delay的取值可以为：订单实际结束时间与订单最晚开始时间的差，与该订单的订单生产时间之间的商。相应的，如果delay的取值大于1，则表示该订单出现延误；如果delay的取值等于1，则表示该订单正好按期完成；如果delay的取值小于1，则表示该订单提前完成。前后顺序特征可以是当前订单序列中各订单与其他订单关联的顺序特征。示例性的，假设当前订单序列A中包括3个订单，分别为订单a、订单b、订单c和订单a。则对于订单b来说，前后顺序特征可以为（订单a，订单c）。示例性的，如果订单特征的维度为10维，当前订单序列的长度为50，则当前订单序列的订单特征会包括50个10维的特征。

可以理解的是，当前订单序列每完成一次排产顺序更新后，其订单的前后顺序特征也会相应发生改变。

在申请实施例中，可以提取当前订单序列中各订单的订单特征，并将提取的订单特征输入至GCN中，以根据订单的订单特征提取各订单的前后顺序特征，作为当前订单序列的当前状态特征。也即，当前状态特征建立了各订单之间的内在联系，以使预设强化学习模型可以根据当前订单序列中各订单之间的内在联系进行学习，以确定新的排产方式。

S240、将所述当前状态特征输入至更新后的预设强化学习模型，通过所述更新后的预设强化模型针对所述当前订单序列输出排产更新结果。

其中，排产更新结果可以是更新后的预设强化模型对当前状态特征进行处理所得到结果。示例性的，排产更新结果可以是对当前订单序列中一个或多个订单的顺序进行交换的动作。

在本申请实施例中，可以将当前状态特征输入至根据当前奖励值更新后的预设强化学习模型中，以通过更新后的预设强化模型针对当前订单序列输出匹配的排产更新结果。可以理解的是，在当前订单序列没有确定最终的排产方案时，排产更新结果的数量与当前订单序列的数量相同。

需要说明的是，上述过程描述的是对预设强化学习模型进行一次迭代更新的过程。如果当前订单序列为从训练数据中获取的原始的订单序列，则初始的预设强化学习模型并没有匹配的当前奖励值。此时，无需执行获取预设强化学习模型的当前奖励值，以及根据当前奖励值对预设强化学习模型进行更新的操作，可以直接获取当前订单序列的当前状态特征，并将当前状态特征输入至初始的预设强化学习模型，通过初始的预设强化模型针对当前订单序列输出首次的排产更新结果。也即，只有在预设强化学习模型输出排产更新结果后，才可以根据输出的排产更新结果计算预设强化学习模型的奖励值。

相应的，S240具体可以包括下述操作：

S241、获取所述评估网络模型针对所述当前状态特征的第一输出结果。

S242、根据所述第一输出结果确定所述当前订单序列中的第一待更换订单。

其中，第一输出结果可以是评估网络模型针对当前订单序列的当前状态特征输出的结果。第一待更换订单可以是当前订单序列中需要更换顺序的订单。

在本申请实施例中，可以利用评估网络模型针对当前订单序列的当前状态特征输出第一输出结果，并根据第一输出结果为当前订单序列确定第一待更换订单。可以理解的是，如果当前订单序列的数量为多个，则第一待更换订单的数量也可以是多个。需要说明的是，一个当前订单序列可以匹配确定一个或多个第一待更换订单。

在本申请的一个可选实施例中，所述获取所述评估网络模型针对所述当前状态特征的第一输出结果，可以包括：通过所述评估网络模型根据所述当前状态特征计算所述当前订单序列中各所述订单的订单评分，并将各所述订单的订单评分作为所述第一输出结果；所述根据所述第一输出结果确定所述当前订单序列中的第一待更换订单，可以包括：将满足第一顺序交换条件的订单评分对应的订单，确定为所述第一待更换订单。

其中，订单评分可以是对当前订单序列中各订单进行打分得到的分值。第一顺序交换条件可以用于确定第一待更换订单。示例性的，第一顺序交换条件可以是：获取订单评分中评分最高的一个或多个订单作为第一待更换订单。

可选的，可以通过评估网络模型根据当前订单序列的当前状态特征计算各订单的订单评分。其中，订单评分可以反应该订单的订单顺序需要被更换的程度。相应的，确定第一待更换订单时，则可以将当前订单序列中，满足第一顺序交换条件的订单评分对应的订单，确定为第一待更换订单。

示例性的，假设当前订单序列A中订单a的订单评分为9，订单b的订单评分为8.5，订单c的订单评分为8.8，订单d的订单评分为9.1。则表明相对于订单b和订单c来说，订单a和订单d的顺序被更换后，当前订单序列A对应的更新后的订单序列B的排产效果可能更为理想。也即，订单a和订单d的订单评分为最高的两个订单评分，满足第一顺序交互条件，将订单a和订单d作为第一待更换订单。

上述方案中，通过利用评估网络模型计算各订单的订单评分，以根据订单评分确定第一待更换订单，可以准确确定需要进行顺序更换的订单。

S243、将确定所述第一待更换订单的动作确定为第一动作。

其中，第一动作可以用于表示确定第一待更换订单的动作。

相应的，在确定了第一待更换订单后，可以进一步将确定第一待更换订单的动作确定为第一动作。

在上述示例中，订单a和订单d的订单评分为最高的两个订单评分，满足第一顺序交互条件，则可以将订单a和订单d作为第一待更换订单的动作确定为第一动作。

S244、获取所述行动网络模型针对所述当前状态特征的第二输出结果。

S245、根据所述第二输出结果确定与所述第一待更换订单相关联的第二待更换订单。

其中，第二输出结果可以是行动网络模型针对当前订单序列的当前状态特征输出的结果。第二待更换订单可以是当前订单序列中，与第一待更换订单进行顺序交互的订单。

在本申请实施例中，可以利用行动网络模型针对当前订单序列的当前状态特征输出第二输出结果，并根据第二输出结果为当前订单序列确定与第一待更换订单相关联的第二待更换订单。可以理解的是，如果一个当前订单序列中第一待更换订单的数量为多个，则与第一待更换订单相关联的第二待更换订单的数量也相应为多个。每个第一待更换订单可以对应关联一个第二待更换订单。

在本申请的一个可选实施例中，所述获取所述行动网络模型针对所述当前状态特征的第二输出结果，可以包括：通过所述行动网络模型根据所述当前状态特征计算所述当前订单序列中各所述订单的订单概率，并将各所述订单的订单概率作为所述第二输出结果；所述根据所述第二输出结果确定与所述第一待更换订单相关联的第二待更换订单，可以包括：将满足第二顺序交换条件的订单概率对应的订单，确定为所述第二待更换订单。

其中，订单概率可以是对当前订单序列中各订单进行概率计算得到的概率值。第二顺序交换条件可以用于确定第二待更换订单。示例性的，第二顺序交换条件可以是：获取订单概率中概率最高的订单作为第二待更换订单。

可选的，可以通过行动网络模型根据当前订单序列的当前状态特征计算各订单的订单概率。其中，订单概率可以反应与第一待更换订单的订单顺序进行更换的程度。相应的，确定第二待更换订单时，则可以将当前订单序列中，满足第二顺序交换条件的订单概率对应的订单，确定为第二待更换订单。

示例性的，假设当前订单序列A中确定了一个第一待更换订单：订单e。计算订单概率时，可以针对订单e计算得到订单a的订单概率为0.9，订单b的订单概率为0.85，订单c的订单评分为0.88，订单d的订单评分为0.91。则表明相对于订单e，订单d与订单e的顺序相互更换后，当前订单序列A对应的更新后的订单序列B的排产效果可能更为理想。也即，订单d的订单概率最高，满足第二顺序交互条件，将订单d作为第二待更换订单。

示例性的，假设当前订单序列A中确定了两个第一待更换订单：订单e和订单f。计算订单概率时，可以针对订单e计算得到订单a的订单概率为0.9，订单b的订单概率为0.85，订单c的订单评分为0.88，订单d的订单评分为0.91。针对订单f计算得到订单a的订单概率为0.91，订单b的订单概率为0.82，订单c的订单评分为0.98，订单d的订单评分为0.91。则表明相对于订单e，订单d与订单e的顺序相互更换后，当前订单序列A对应的更新后的订单序列B的排产效果可能更为理想；相对于订单f，订单c与订单f的顺序相互更换后，当前订单序列A对应的更新后的订单序列B的排产效果可能更为理想。也即，针对订单e，订单d的订单概率最高，满足第二顺序交互条件，将订单d作为第二待更换订单。针对订单f，订单c的订单概率最高，满足第二顺序交互条件，将订单c作为第二待更换订单。

上述技术方案中，通过利用行动网络模型计算各订单的订单概率，以根据订单概率为各第一待更换订单确定相关联的第二待更换订单，可以准确确定与第一待更换订单进行顺序更换的订单。

S246、将对所述第一待更换订单和所述第二待更换订单的排产顺序进行交换的动作，确定为第二动作。

其中，第二动作可以用于表示对第一待更换订单和第二待更换订单的排产顺序进行交换的动作。

相应的，在确定了第二待更换订单后，可以进一步将第一待更换订单和第二待更换订单的排产顺序进行交换的动作，确定为第二动作。

在上述示例中，针对订单e，订单d的订单概率最高，满足第二顺序交互条件，将订单d作为第二待更换订单。针对订单f，订单c的订单概率最高，满足第二顺序交互条件，将订单c作为第二待更换订单。则第二动作可以是：

S247、将所述第一动作和所述第二动作作为所述排产更新结果。

在本发明实施例中，当根据评估网络模型确定了第一动作，并根据行动网络模型确定了第二动作后，即可将第一动作和第二动作作为预设强化学习模型的排产更新结果。

需要说明的是，现有技术中，强化学习模型通常是利用评估网络模型针对环境的当前状态的输出结果，对行动网络模型的网络系数进行调整，进而根据调整后的行动网络模型针对环境的当前状态输出一个匹配的动作，该动作可以用于对环境状态进行更新。在本申请实施例中，发明人创造性地首先利用强化学习模型中的评估网络模型确定第一待更换订单的第一动作，再根据第一待更换订单和第二待更换订单确定第二动作。也即，预设强化学习模型在训练的过程中可以输出两个动作，作为排产更新结果，以进一步利用排产更新结果执行更新操作，实现了对预设强化学习模型的应用扩展。

S250、根据所述排产更新结果对所述当前订单序列的当前排产顺序和所述当前奖励值进行更新。

在本申请的一个可选实施例中，所述根据所述排产更新结果对所述当前订单序列的当前排产顺序和所述当前奖励值进行更新，可以包括：根据所述第二动作对所述第一待更换订单和所述第二待更换订单的排产顺序进行交换，得到更新后的当前排产顺序；根据所述更新后的当前排产顺序利用奖励值计算函数重新计算奖励值，作为更新后的当前奖励值；在所述根据所述排产更新结果对所述当前订单序列的当前排产顺序和所述当前奖励值进行更新之后，还包括：根据所述当前状态特征、所述第一动作和所述第二动作对所述更新后的当前奖励值进行标识。

其中，当前排产顺序可以是当前订单序列中各订单之间的前后顺序。奖励值计算函数可以用于根据排产顺序计算当前订单序列的奖励值，具体可以根据实际需求设定，本申请实施例并不对奖励值计算函数的具体函数类型进行限定。

可选的，根据排产更新结果对当前订单序列的当前排产顺序进行更新时，具体可以根据第二动作对第一待更换订单和第二待更换订单的排产顺序进行交换，得到更新后的当前排产顺序。示例性的，假设当前订单序列A中的当前排产顺序为：订单a，订单b，订单c，订单d，订单e。预设强化学习模型为当前订单序列A中确定了一个第一待更换订单：订单e。也即，第一动作为确定订单e的动作；针对订单e确定了订单d作为第二待更换订单。也即，第二动作为对订单e和订单d的排产顺序进行交换的动作。相应的，可以根据第二动作对当前订单序列A中的订单e和订单d的顺序进行交换，得到当前订单序列A更新后的当前排产顺序：订单a，订单b，订单c，订单e，订单d。

相应的，在得到当前订单序列的更新后的排产更新结果后，可以进一步根据更新后的当前排产顺序利用奖励值计算函数重新计算奖励值，作为更新后的当前奖励值。更新后的当前奖励值用于对排产更新结果进行评价，以用于预设强化学习模型在下一次的排产更新结果计算流程中作为参考，让预设强化学习模型可以自动学习如何有效的更新排产方式。可选的，奖励值可以是正向奖励或负向奖励，本申请实施例对此并不进行限制。

在本申请实施例中，在得到当前订单序列的更新后的排产更新结果后，可以进一步根据本次排产更新计算的当前状态特征、第一动作和第二动作对更新后的当前奖励值进行标识，以用于预设强化学习模型对更新后的当前奖励值进行识别。

上述技术方案中，通过根据第二动作对第一待更换订单和第二待更换订单的排产顺序进行交换，得到更新后的当前排产顺序，并根据更新后的当前排产顺序利用奖励值计算函数重新计算奖励值，作为更新后的当前奖励值，实现了利用预设强化学习模型的学习结果对当前订单序列的排产顺序进行调整，以及对预设强化学习模型一次学习过程的奖励值计算。

S260、判断预设强化学习模型的奖励值是否满足训练终止条件，若是，则执行S270，否则，返回执行S230。

其中，训练终止条件可以是用于判断预设强化学习模型训练成功的条件。

在本申请实施例中，当根据排产更新结果对当前订单序列的当前排产顺序和当前奖励值更新完成后，可以判断预设强化学习模型的奖励值是否满足训练终止条件。示例性的，可以对预设强化学习模型中每次训练得到的奖励值进行加权计算，并在得到的加权计算结果满足设定要求时，例如，加权计算结果趋于稳定值时，可以认为预设强化学习模型的奖励值满足训练终止条件。在确定预设强化学习模型的奖励值满足训练终止条件时，表明预设强化学习模型训练成功，最后一次更新获得的预设强化学习模型即为目标强化学习模型。如果预设强化学习模型的奖励值不满足训练终止条件，表明预设强化学习模型尚未训练成功，可以返回执行获取预设强化学习模型的当前奖励值以及当前订单序列的当前状态特征的操作，继续对预设强化学习模型进行训练，直至预设强化学习模型的奖励值满足训练终止条件，得到目标强化学习模型。

S270、终止模型训练过程，得到目标强化学习模型。

S280、在所述当前订单序列完成训练后，根据所述预设强化学习模型生成的奖励值对所述行动网络模型和所述评估网络模型的网络参数进行更新。

示例性的，假设一次性从训练数据中获取了8个订单序列作为当前订单序列对预设强化学习模型进行训练。在训练的过程中，评估网络模型和行动网络模型反复对当前订单序列进行排产更新，每次排产更新都会输出对应的动作和奖励值。假如对当前订单序列进行了100次的排产更新，则在对当前订单序列训练的过程中可以生成800个奖励值。当对8个当前订单序列完成训练后，可以利用生成的800个奖励值对行动网络模型和评估网络模型的网络参数进行更新。预设强化学习模型的网络参数更新完成后，可以重新从训练数据中依次获取8个订单序列作为当前订单序列，并利用更新后的预设强化学习模型对重新获取的当前订单序列重新进行训练。在反复迭代更新的过程中，预设强化学习模型可以学习到如何对一个订单序列进行快速迭代排产，从而得到最优的排产方案。

图3是本申请实施例提供的一种对预设强化学习模型进行训练的流程示意图。示例性的，如图3所示，在一次迭代更新流程中，假设当前订单序列s _t的当前排产顺序为：1->2->3->4…，其中，“1”、“2”、“3”和“4”分别表示一个具体的订单。每个订单具有各自的订单特征。当预设强化学习模型根据当前奖励值完成更新后，可以将当前订单序列s _t中各订单的订单特征输入至GCN中以提取当前订单序列s _t的当前状态特征s _t ’。提取到当前订单序列s _t的当前状态特征s _t ’后，将其输入至预设强化学习模型进行强化学习，得到第一动作和第二动作，进而根据第一动作和第二动作更新当前订单序列s _t得到s _t+1。

上述技术方案，通过获取预设强化学习模型的当前奖励值以及当前订单序列的当前状态特征，以根据当前奖励值对预设强化学习模型进行更新，并将当前状态特征输入至更新后的预设强化学习模型，通过更新后的预设强化模型针对当前订单序列输出排产更新结果，进而根据排产更新结果对当前订单序列的当前排产顺序和当前奖励值进行更新，循环执行上述对预设强化学习模型的训练操作，可以得到收敛的目标强化学习模型，以对待生产的订单确定最优的排产方案，从而提高订单的排产效果。

在一个示例中，图4是本申请实施例提供的一种订单处理方法的流程图，本实施例可适用于利用训练好的强化学习模型对待处理订单进行排产处理的情况，该方法可以由订单处理装置来执行，该装置可以由软件和/或硬件的方式来实现，并一般可集成在电子设备中。该电子设备可以是计算机等设备。相应的，如图4所示，该方法包括如下操作：

S310、获取待处理订单序列。

S320、将所述待处理订单序列的当前状态特征输入至目标强化学习模型中。

S330、根据所述目标强化学习模型的输出结果对所述待处理订单序列进行排产处理。

其中，所述目标强化学习模型通过本申请任一实施例所述的模型训练方法获取。

在本申请实施例中，利用上述实施例所提供的模型训练方法得到目标强化学习模型后，即可将待处理订单序列的当前状态特征输入至目标强化学习模型中。目标强化学习模型针对待处理订单序列的当前状态特征的输出结果可以包括第一动作和第二动作，进而可以根据第二动作对待处理订单序列中各订单的排产顺序进行调整，实现对待处理订单序列进行排产处理。

图5是本申请实施例提供的一种强化学习模型的排产处理效果对比图。如图5所示，横坐标表示对订单序列进行排产处理的应用算法，纵坐标表示各应用算法进行排产处理得到的排产方案中，订单序列的平均延误程度。在图5中，st_dead_EJF、deadline_EJF、st_dead_SJF以及SJF表示四种不同类型的人工设计的规则。其中，st_dead_EJF和deadline_EJF为短作业优先规则，st_dead_SJF和SJF为时间顺序优先规则，上述四种人工设计的规则均属于传统的启发式算法。RL_method为本申请实施例提供的采用目标强化学习模型进行订单处理的算法。由图5可知，本申请实施例提供的采用目标强化学习模型进行订单处理的算法可以排产出最少的平均延误程度，对订单序列的排产效果最好。

本申请实施例通过利用订单序列作为训练数据训练得到的目标强化学习模型，对待处理订单序列进行排产处理，得到待处理订单的排产处理结果，能够对待生产的订单确定最优的排产方案，从而提高订单的排产效果。

在一个示例中，图6是本申请实施例提供的一种模型训练装置的结构图，本申请实施例可适用于确定排产处理的强化学习模型的情况，该装置通过软件和/或硬件实现，并具体配置于电子设备中。该电子设备可以是计算机设备。

如图6所示的一种模型训练装置400，包括：训练数据获取模块410和模型训练模块420。其中，

训练数据获取模块410，用于获取设定数量的订单序列作为训练数据；其中，所述订单序列包括至少两个订单的订单数据以及各所述订单之间的默认排产顺序，所述订单数据包括订单交付时间和订单生产时间；

模型训练模块420，用于根据所述训练数据对预设强化学习模型进行训练，得到目标强化学习模型；

可选的，模型训练模块420具体用于：获取所述预设强化学习模型的当前奖励值以及当前订单序列的当前状态特征；将所述当前状态特征输入至更新后的预设强化学习模型，通过所述更新后的预设强化模型针对所述当前订单序列输出排产更新结果；根据所述排产更新结果对所述当前订单序列的当前排产顺序和所述当前奖励值进行更新；返回执行获取所述预设强化学习模型的当前奖励值以及当前订单序列的当前状态特征的操作，直至所述预设强化学习模型的奖励值满足训练终止条件。

可选的，模型训练装置400还包括：当前订单序列获取模块，用于依次从所述训练数据中获取预设数量的订单序列作为所述当前订单序列。

可选的，模型训练模块420具体用于：提取所述当前订单序列中各所述订单的订单特征；将所述订单特征输入至GCN中，以提取所述当前订单序列中各所述订单的前后顺序特征；将所述前后顺序特征作为所述当前状态特征。

可选的，所述订单特征包括订单生产时间以及平均延误程度。

可选的，所述预设强化学习模型包括行动网络模型和评估网络模型；模型训练装置400还包括：网络参数更新模块，用于在所述当前订单序列完成训练后，根据所述预设强化学习模型生成的奖励值对所述行动网络模型和所述评估网络模型的网络参数进行更新。

可选的，模型训练模块420具体用于：获取所述评估网络模型针对所述当前状态特征的第一输出结果；根据所述第一输出结果确定所述当前订单序列中的第一待更换订单；将确定所述第一待更换订单的动作确定为第一动作；获取所述行动网络模型针对所述当前状态特征的第二输出结果；根据所述第二输出结果确定与所述第一待更换订单相关联的第二待更换订单；将对所述第一待更换订单和所述第二待更换订单的排产顺序进行交换的动作，确定为第二动作；将所述第一动作和所述第二动作作为所述排产更新结果。

可选的，模型训练模块420具体用于：通过所述评估网络模型根据所述当前状态特征计算所述当前订单序列中各所述订单的订单评分，并将各所述订单的订单评分作为所述第一输出结果；将满足第一顺序交换条件的订单评分对应的订单，确定为所述第一待更换订单

可选的，模型训练模块420具体用于：通过所述行动网络模型根据所述当前状态特征计算所述当前订单序列中各所述订单的订单概率，并将各所述订单的订单概率作为所述第二输出结果；将满足第二顺序交换条件的订单概率对应的订单，确定为所述第二待更换订单。

可选的，模型训练模块420具体用于：根据所述第二动作对所述第一待更换订单和所述第二待更换订单的排产顺序进行交换，得到更新后的当前排产顺序；根据所述更新后的当前排产顺序利用奖励值计算函数重新计算奖励值，作为更新后的当前奖励值；根据所述当前状态特征、所述第一动作和所述第二动作对所述更新后的当前奖励值进行标识。

上述模型训练装置可执行本申请任意实施例所提供的模型训练方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请任意实施例提供的模型训练方法。

由于上述所介绍的模型训练装置为可以执行本申请实施例中的模型训练方法的装置，故而基于本申请实施例中所介绍的模型训练方法，本领域所属技术人员能够了解本实施例的模型训练装置的具体实施方式以及其各种变化形式，所以在此对于该模型训练装置如何实现本申请实施例中的模型训练方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中模型训练方法所采用的装置，都属于本申请所欲保护的范围。

在一个示例中，图7是本申请实施例提供的一种订单处理装置的结构图，本申请实施例可适用于利用训练好的强化学习模型对待处理订单进行排产处理的情况，该装置通过软件和/或硬件实现，并具体配置于电子设备中。该电子设备可以是计算机设备。

如图7所示的一种模型训练装置500，包括：待处理订单序列获取模块510、当前状态特征输入模块520和排产处理模块530。其中，待处理订单序列获取模块510，用于获取待处理订单序列；

当前状态特征输入模块520，用于将所述待处理订单序列的当前状态特征输入至目标强化学习模型中；

排产处理模块530，用于根据所述目标强化学习模型的输出结果对所述待处理订单序列进行排产处理；

上述订单处理装置可执行本申请任意实施例所提供的订单处理方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请任意实施例提供的订单处理方法。

由于上述所介绍的订单处理装置为可以执行本申请实施例中的订单处理方法的装置，故而基于本申请实施例中所介绍的订单处理方法，本领域所属技术人员能够了解本实施例的订单处理装置的具体实施方式以及其各种变化形式，所以在此对于该订单处理装置如何实现本申请实施例中的订单处理方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中订单处理方法所采用的装置，都属于本申请所欲保护的范围。

在一个示例中，本申请还提供了一种电子设备和一种可读存储介质。

图8是用来实现本申请实施例的模型训练方法或订单处理方法的电子设备的结构示意图。如图8所示，是根据本申请实施例的模型训练方法或订单处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置（诸如，耦合至接口的显示设备）上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作（例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统）。图8中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的模型训练方法或订单处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的模型训练方法或订单处理方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的模型训练方法或订单处理方法对应的程序指令/模块（例如，附图6所示的训练数据获取模块410和模型训练模块420或附图7所示的待处理订单序列获取模块510、当前状态特征输入模块520和排产处理模块530）。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的模型训练方法或订单处理方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储实现模型训练方法或订单处理方法的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至实现模型训练方法或订单处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现模型训练方法或订单处理方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图8中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与实现模型训练方法或订单处理方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置（例如，LED）和触觉反馈装置（例如，振动电机）等。该显示设备可以包括但不限于，液晶显示器（LCD）、发光二极管（LED）显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC（专用集成电路）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序（也称作程序、软件、软件应用、或者代码）包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置（例如，磁盘、光盘、存储器、可编程逻辑装置（PLD）），包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种模型训练方法，包括：

根据所述训练数据对预设强化学习模型进行训练，得到目标强化学习模型；其中，所述预设强化学习模型包括行动网络模型和评估网络模型；

其中，所述目标强化学习模型用于对待处理订单序列进行排产处理；

其中，所述根据所述训练数据对预设强化学习模型进行训练，包括：

获取所述预设强化学习模型的当前奖励值以及当前订单序列的当前状态特征；

将所述当前状态特征输入至根据所述当前奖励值更新后的预设强化学习模型，通过根据所述当前奖励值更新后的预设强化模型针对所述当前订单序列输出排产更新结果；

所述通过根据所述当前奖励值更新后的预设强化模型针对所述当前订单序列输出排产更新结果，包括：

获取所述评估网络模型针对所述当前状态特征的第一输出结果；

根据所述第一输出结果确定所述当前订单序列中的第一待更换订单；

将确定所述第一待更换订单的动作确定为第一动作；

获取所述行动网络模型针对所述当前状态特征的第二输出结果；

根据所述第二输出结果确定与所述第一待更换订单相关联的第二待更换订单；

将对所述第一待更换订单和所述第二待更换订单的排产顺序进行交换的动作，确定为第二动作；

将所述第一动作和所述第二动作作为所述排产更新结果。

2.根据权利要求1所述的方法，在通过根据所述当前奖励值更新后的预设强化模型针对所述当前订单序列输出排产更新结果之后，还包括；

根据所述排产更新结果对所述当前订单序列的当前排产顺序和所述当前奖励值进行更新；

返回执行获取所述预设强化学习模型的当前奖励值以及当前订单序列的当前状态特征的操作，直至所述预设强化学习模型的奖励值满足训练终止条件。

3.根据权利要求2所述的方法，在所述获取所述预设强化学习模型的当前奖励值以及当前订单序列的当前状态特征之前，还包括：

依次从所述训练数据中获取预设数量的订单序列作为所述当前订单序列。

4.根据权利要求2所述的方法，其中，所述获取当前订单序列的当前状态特征，包括：

提取所述当前订单序列中各所述订单的订单特征；

将所述订单特征输入至图神经网络GCN中，以提取所述当前订单序列中各所述订单的前后顺序特征；

将所述前后顺序特征作为所述当前状态特征。

5.根据权利要求4所述的方法，其中，所述订单特征包括订单生产时间以及平均延误程度。

6.根据权利要求2所述的方法，其中，所述方法还包括：

在所述当前订单序列完成训练后，根据所述预设强化学习模型生成的奖励值对所述行动网络模型和所述评估网络模型的网络参数进行更新。

7.根据权利要求1所述的方法，其中，所述获取所述评估网络模型针对所述当前状态特征的第一输出结果，包括：

通过所述评估网络模型根据所述当前状态特征计算所述当前订单序列中各所述订单的订单评分，并将各所述订单的订单评分作为所述第一输出结果；

所述根据所述第一输出结果确定所述当前订单序列中的第一待更换订单，包括：

将满足第一顺序交换条件的订单评分对应的订单，确定为所述第一待更换订单。

8.根据权利要求1所述的方法，其中，所述获取所述行动网络模型针对所述当前状态特征的第二输出结果，包括：

通过所述行动网络模型根据所述当前状态特征计算所述当前订单序列中各所述订单的订单概率，并将各所述订单的订单概率作为所述第二输出结果；

所述根据所述第二输出结果确定与所述第一待更换订单相关联的第二待更换订单，包括：

将满足第二顺序交换条件的订单概率对应的订单，确定为所述第二待更换订单。

9.根据权利要求7或8所述的方法，其中，所述根据所述排产更新结果对所述当前订单序列的当前排产顺序和所述当前奖励值进行更新，包括：

根据所述第二动作对所述第一待更换订单和所述第二待更换订单的排产顺序进行交换，得到更新后的当前排产顺序；

根据所述更新后的当前排产顺序利用奖励值计算函数重新计算奖励值，作为更新后的当前奖励值；

在所述根据所述排产更新结果对所述当前订单序列的当前排产顺序和所述当前奖励值进行更新之后，还包括：

根据所述当前状态特征、所述第一动作和所述第二动作对所述更新后的当前奖励值进行标识。

10.一种订单处理方法，包括：

获取待处理订单序列；

其中，所述目标强化学习模型通过权利要求1-9任一所述的模型训练方法获取。

11.一种模型训练装置，包括：

模型训练模块，用于根据所述训练数据对预设强化学习模型进行训练，得到目标强化学习模型；其中，所述预设强化学习模型包括行动网络模型和评估网络模型；

其中，所述模型训练模块具体用于：

将确定所述第一待更换订单的动作确定为第一动作；

将所述第一动作和所述第二动作作为所述排产更新结果。

12.根据权利要求11所述的装置，其中，所述模型训练模块具体用于：

13.根据权利要求12所述的装置，所述装置还包括：

当前订单序列获取模块，用于依次从所述训练数据中获取预设数量的订单序列作为所述当前订单序列。

14.根据权利要求12所述的装置，其中，所述模型训练模块具体用于：

提取所述当前订单序列中各所述订单的订单特征；

将所述订单特征输入至GCN中，以提取所述当前订单序列中各所述订单的前后顺序特征；

将所述前后顺序特征作为所述当前状态特征。

15.根据权利要求14所述的装置，其中，所述订单特征包括订单生产时间以及平均延误程度。

16.根据权利要求12所述的装置，其中，所述装置还包括：

网络参数更新模块，用于在所述当前订单序列完成训练后，根据所述预设强化学习模型生成的奖励值对所述行动网络模型和所述评估网络模型的网络参数进行更新。

17.根据权利要求11所述的装置，其中，所述模型训练模块具体用于：

18.根据权利要求11所述的装置，其中，所述模型训练模块具体用于：

19.根据权利要求17或18所述的装置，其中，所述模型训练模块具体用于：

20.一种订单处理装置，包括：

待处理订单序列获取模块，用于获取待处理订单序列；

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的模型训练方法，或执行权利要求10所述的订单处理方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的模型训练方法，或执行权利要求10所述的订单处理方法。