CN117236649B

CN117236649B - 一种用于宠物饲料加工原料需求量的调度方法

Info

Publication number: CN117236649B
Application number: CN202311495613.2A
Authority: CN
Inventors: 李德; 邱望凤; 邱望高; 谷守营
Original assignee: Tianjin Maiwang Biotechnology Co ltd
Current assignee: Tianjin Maiwang Biotechnology Co ltd
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2024-01-26
Anticipated expiration: 2043-11-10
Also published as: CN117236649A

Abstract

本发明提供了一种用于宠物饲料加工原料需求量的调度方法，属于工厂加工预算管理领域，具体调度方法包括利用神经网络模型预测当前加工原料需求量，再通过马尔可夫决策过程模型以获得最优加工原料长期订购量，并将不断地向神经网络模型和马尔可夫决策过程模型反馈新的数据，使模型得以迭代和优化。本发明有益效果：降低采购长期加工原料的总成本，提高决策效率。

Description

一种用于宠物饲料加工原料需求量的调度方法

技术领域

本发明属于工厂加工预算管理领域，尤其是涉及一种用于宠物饲料加工原料需求量的调度方法。

背景技术

宠物饲料行业的原料采购和库存管理一直面临着较大的挑战。由于市场和需求的不确定性,传统的人工经验方法很难准确预测原料需求量,往往导致订购决策不合理,出现原料短缺或过剩的情况。针对这个问题,一些企业开始尝试应用统计模型来预测原料需求,但统计模型依赖大量历史数据,对市场变化反应不敏感。近年来,随着强化学习技术的发展,一些学者提出了利用神经网络进行饲料原料订购决策，如循环神经网络(RNN)预测饲料原料需求、集成了门控循环单元(GRU)的神经网络进行饲料原料采购决策、基于策略梯度的强化学习方法进行订购决策。这些方法使用神经网络预测短期需求,这种方法克服了传统方法对市场变化的适应性差的缺点，但是现有的算法还存在训练时间长,难以解释结果，不满足长期订购成本最低化等问题。

发明内容

有鉴于此，本发明旨在提出一种用于宠物饲料加工原料需求量的调度方法，以降低采购长期加工原料的总成本，提高决策效率。

为达到上述目的，本发明的技术方案是这样实现的：

一种用于宠物饲料加工原料需求量的调度方法。

进一步的，调度方法包括利用神经网络模型预测当前加工原料需求量，再通过马尔可夫决策过程模型以获得最优加工原料长期订购量，并将不断地向神经网络模型和马尔可夫决策过程模型反馈新的数据，使模型得以迭代和优化，调度方法包括以下步骤：

P1、获取当前订购时点之前的加工原料的历史成本、消耗量；

P2、将历史成本、消耗量输入至神经网络模型用于验证和优化神经网络模型，并预测出当前时点加工原料的需求量；

P3、将需求量输入至马尔可夫决策过程模型，并决策出加工原料的最优订购量；

P4、在下一订购时点之前，把当前订购时点与下一订购时点之间时段的加工原料的成本、消耗量反馈给神经网络模型和马尔可夫决策过程模型，实现更新和迭代；

P5、到下一订购时点时返回到P1，并更新加工原料的历史成本、消耗量。

进一步的，所述步骤P2中的神经网络模型为多层前馈神经网络模型，用于预测当前时点加工原料的需求量；

神经网络模型输入特征向量记为：

其中D1,D2,D3,D4分别是当前时点之前N个周期历史加工原料牛肝、牛肉、鸡肉、鱼肉的消耗量；

神经网络模型记为：

表示神经网络模型的所有参数，包括所有层的权重和偏置；

隐藏层使用ReLU激活函数；

损失函数使用均方误差损失函数：

神经网络模型输出为当前订购时点与下一订购时点之间时段的加工原料的预测需求量；

神经网络模型训练完后，用获得的和新的输入历史加工原料需求量进行预测，最终获得最新加工原料的预测需求量：

。

进一步的，所述步骤P3包括以下步骤：

S1、环境建模：建立马尔可夫决策过程模型环境，把当前时点加工原料的存货量定义为一个状态变量，把前时点加工原料的采购量定义为一个动作变量；

S2、输入预测需求量：输入神经网络模型预测出的当前时点加工原料的需求量至马尔可夫决策过程模型；

S3、设置奖励函数：确定库存和订购策略的奖励函数，需满足两个目标：一是保证所有加工原料的加工供应需求，二是最小化长时间的购买成本；

S4、策略迭代和优化并输出最优订购量：初始化策略并使用强化学习算法来迭代更新策略和状态值函数，最终得到一个能够使预期总奖励最大化的最优订购量；

在模拟环境中测试最优策略,逐步在实际环境中应用，并保存最终策略信息，用于为马尔可夫决策过程模型初始化提供结果数据。

进一步的，在所述步骤S1中，状态空间包括：

B1-当前时点牛肝库存量、B2-当前时点牛肉库存量、B3-当前时点鸡肉库存量、B4-当前时点鱼肉库存量；A1-上一时点购买牛肝量、A2-上一时点购买牛肉量、A3-上一时点购买鸡肉量、A4-上一时点购买鱼肉量；动作空间:

a1-当前时点购买牛肝量、a2-当前时点购买牛肉量、a3-当前时点购买鸡肉量、a4-当前时点购买鱼肉量，其中动作空间是连续的；状态转移函数:

其中，-当前时点决策后牛肝库存量；-当前时点决策后牛肉库存量；- 当前时点决策后鸡肉库存量；-当前时点决策后鱼肉库存量。

进一步的，在所述步骤S3中，对于每次行动奖励设为满足需求后产生的利润减去购买得到的饲料的成本，奖励函数如下设计：

其中:R1-满足需求的收益；pi-第i种加工原料的单位利润；Di-第i种加工原料的需求量；Bi-第i种加工原料的库存量；R2-购买成本和超额库存成本；c1-单位购买成本；ai-第i种加工原料的订购量；c2-单位仓储成本；Ti-第i种加工原料的目标库存量。

进一步的，在所述步骤S4中，强化学习算法包括以下步骤：T1、初始化策略、Q函数、状态值函数、状态动作值函数，并设定相关的参数，其中策略为一个基础可行策略，而Q函数设定为所有状态-行动对的预期奖励，具体公式如下：

其中，s表示当前时点的加工原料库存状态即为(B1,B2,B3,B4)；a表示当前时刻的订购动作即为a1,a2,a3,a4；表示奖赏折扣因子；-即时奖励；-在后继状态下采取行动的概率；-表示对应的状态动作值；

T2、进行学习训练迭代，寻找能够最大化总奖励的最优订购策略；

T3、根据最优订购策略,输出最优订购量，即当前时点牛肝、牛肉、鸡肉、鱼肉的最优订购量。

进一步的，所述步骤T2中对每次学习训练迭代都执行以下步骤：

T2.1、初始化环境S和Q函数Q(s,a)，获得初始状态s1；

T2.2、迭代次数episode=1,2,...M，episode的步骤数t=1,2,...,T：根据当前策略π和当前状态s(t)，按ε-贪婪策略选择a(t)，执行a(t)，得到奖赏r(t)和新状态s(t+1)，将(s(t),a(t),r(t),s(t+1))存储至经验回放池D；

T2.3、采样一批数据B={(s,a,r,s')}从经验回放池D；

T2.4、对于每个样本(s,a,r,s')，使用以下更新公式计算Q估值：

T2.5、对每隔K个episode，更新策略π：

T2.6、递归执行步骤T2.1直到达到满足设定的停止准则。

进一步的，所述步骤T2.6的停止准则通过监控在强化学习训练期间连续几个episode的累积奖励的变化情况并决定是否停止训练，包括以下步骤：

T2.6.1、定义一个列表accumulative_rewards=[]用来存储每个episode的累积奖励；

T2.6.2、对每个episode，计算累积奖励R,并添加到列表accumulative_rewards；

T2.6.3、判断accumulative_rewards的长度是否达到了滑动窗口的长度W+1，若达到转到T2.6.4，否则返回到T2.6.2，进行下一个episode；

T2.6.4、计算当前窗口（时间点t-W+1到t）内的平均累积奖励和前一个窗口（时间点t-W到t-1）内的平均累积奖励之间的差值的绝对值ΔR，

T2.6.5、判断ΔR是否低于设定的阈值ΔR_min，若低于则停止训练，否则，减少accumulative_rewards的长度即删除第一个元素，使得窗口向前移动了一步，并回到T2.6.2。

进一步的，一种计算机可读取存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现所述的一种用于宠物饲料加工原料需求量的调度方法，输入为历史加工原料消耗量数据，输出为当前时点的最优加工原料订购量。

相对于现有技术，本发明所述的一种用于宠物饲料加工原料需求量的调度方法具有以下有益效果：

本发明所述的一种用于宠物饲料加工原料需求量的调度方法，可以充分利用历史数据,预测未来需求变化趋势;也可以根据经济成本考量,优化订购策略,实现对原料需求量的智能决策，与传统依赖人工经验决策相比,本方法可以大幅降低订购成本,提高决策效率,并且可以随时根据新数据进行模型迭代和优化。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例所述的调度方法整体流程示意图；

图2为本发明实施例所述的马尔可夫决策过程模型工作流程图示意图；

图3为本发明实施例所述的马尔可夫决策过程模型的学习训练迭代流程图示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面将参考附图并结合实施例来详细说明本发明。

一种用于宠物饲料加工原料需求量的调度方法，调度方法总体思路是联合运用神经网络预测模型和马尔可夫决策过程模型,实现对宠物饲料加工原料的最优订购量进行智能化决策。方法的目的是为了合理确定加工原料的订购量,既能满足生产所需的原料消耗量,又可以降低订购成本,实现成本和效益的最优化。具体来说,方法的第一步是收集历史原料消耗量数据,第二步使用神经网络模型预测未来时段的原料需求量,第三步在此基础上建立马尔可夫决策过程模型,定义状态空间、动作空间和奖励函数,通过强化学习算法迭代学习最优订购策略。学习过程采用经验采样、Q值迭代更新以及策略改进等技术。最终输出一个能够最大化总体奖励的最优订购量结果。应用联合预测模型与决策模型的方法,像这种需求变化较大的宠物饲料生产企业，其加工原料保质期较短，可帮助其节省采购成本,提升经济效益。

具体的，如图1所示，调度方法包括利用神经网络模型预测当前加工原料需求量，再通过马尔可夫决策过程模型以获得最优加工原料长期订购量，并将不断地向神经网络模型和马尔可夫决策过程模型反馈新的数据，使模型得以迭代和优化，调度方法包括以下步骤：

P1、获取当前订购时点之前的加工原料的历史成本、消耗量，历史成本即是过去时间里加工原料的购买成本价格，可以通过市场环境设置历史周期，优选1年；

P3、将需求量输入至马尔可夫决策过程模型，并决策出加工原料的最优订购量，该模型会考虑成本和效益,通过强化学习算法决策出最优的加工原料订购量，以在满足不断加工原料供应生产的情况下，使得长期（比如1年）的加工原料采购成本降低最低；

P4、在下一订购时点之前，把当前订购时点与下一订购时点之间时段的加工原料的成本、消耗量反馈给神经网络模型和马尔可夫决策过程模型，实现更新和迭代，其目的在于：在实际运行过程中,用新产生的数据(当前和下一订购时点之间的成本和消耗数据)不断重新训练神经网络模型和马尔可夫模型,使其迭代更新,提高预测和决策的准确性。

P5、到下一订购时点时返回到P1，并更新加工原料的历史成本、消耗量，启动新一轮的预测和决策过程，以此调度订购加工原料。

具体的，所述步骤P2中的神经网络模型其具体结构设置如下：神经网络模型为多层前馈神经网络模型，用于预测当前时点加工原料的需求量；在本实施例中，神经网络模型输入特征向量优选记为：

其中D1,D2,D3,D4分别是当前时点之前N个周期历史加工原料牛肝、牛肉、鸡肉、鱼肉的消耗量，优选一年作为总周期，一周作为当周期；若预测结果与实际相差较大，可引入更多的输入特征比如季节性(s),宠物数量(p),成本(c)等，则特征向量可扩展为，这样模型将会更加具有普遍性和适应性，并且能够更好地处理更复杂的情况。

神经网络模型主体结构记为：

表示神经网络模型的所有参数，包括所有层的权重和偏置；隐藏层使用ReLU激活函数；损失函数使用均方误差损失函数：

神经网络模型训练完后，用获得的和新的输入历史加工原料需求量进行预测，最终获得最新加工原料的预测需求量，其更新公式如下：

符合上述步骤P4要求的实现神经网络模型更新和迭代。

具体的马尔可夫决策过程模型如图2所示，所述步骤P3包括以下步骤

S2、输入预测需求量：输入将步骤P2中神经网络模型预测出的当前时点加工原料的需求量至马尔可夫决策过程模型中；

S3、设置奖励函数：确定库存和订购策略的奖励函数，考虑到需满足两个目标：一是保证所有加工原料的加工供应需求，二是最小化长时间的购买成本；

S4、策略迭代和优化并输出最优订购量：初始化策略并使用强化学习算法来迭代更新策略和状态值函数，最终得到一个能够使预期总奖励最大化的最优订购量，即当前时点各个加工原料的最佳购买量；

具体的，在马尔可夫决策过程模型中,需要定义状态空间和动作空间，其模型原理是：根据当前状态s和动作a,可以计算出下一状态s'的库存量,这由状态转移函数给出，如比如B1'表示执行完动作后的新牛肝库存量,是当前库存B1加上购买量a1然后减去消耗量D1。在所述步骤S1中，状态空间包括：

动作空间:

状态转移函数:

其中，B1-当前时点牛肝库存量、B2-当前时点牛肉库存量、B3-当前时点鸡肉库存量、B4-当前时点鱼肉库存量；A1-上一时点购买牛肝量、A2-上一时点购买牛肉量、A3-上一时点购买鸡肉量、A4-上一时点购买鱼肉量；a1-当前时点购买牛肝量、a2-当前时点购买牛肉量、a3-当前时点购买鸡肉量、a4-当前时点购买鱼肉量，其中动作空间是连续的；-当前时点决策后牛肝库存量；-当前时点决策后牛肉库存量；-当前时点决策后鸡肉库存量；-当前时点决策后鱼肉库存量。

具体的，奖励函数由两部分组成，满足需求的收益R1和购买成本和超额库存成本R2。其中，对于每种加工原料i,计算满足需求Di带来的收益，收益为单位利润pi乘以实际满足的需求量min(Di,Bi)，其中Di为总需求量,Bi为当前库存量，取二者最小值表示实际能满足的需求量，然后求和得到总的满足需求收益R1；购买成本为每种原料的购买量ai乘以单位购买成本c1,求和得到总购买成本。超额库存成本考虑当前库存Bi超过目标库存量Ti的部分,每单位超额部分的成本为c2,求和得到总超额库存成本R2。因此，在所述步骤S3中，对于每次行动奖励设为满足需求后产生的利润减去购买得到的饲料的成本，奖励函数如下设计：

其中:R1-满足需求的收益；-第i种加工原料的单位利润；-第i种加工原料的需求量；-第i种加工原料的库存量；-购买成本和超额库存成本；-单位购买成本； -第i种加工原料的订购量；-单位仓储成本；-第i种加工原料的目标库存量。

具体的，在所述步骤S4中，强化学习算法包括以下步骤：

T1、初始化策略、Q函数、状态值函数、状态动作值函数，并设定相关的参数，首先初始化一个可行的基础策略,用于选取动作的概率分布，同时初始化状态值函数V(s)和状态动作值函数Q(s,a),用于估计每个状态(或状态-动作对应)的长期期望奖励。具体公式如下：

其中，s表示当前时点的加工原料库存状态即为(B1,B2,B3,B4)；a表示当前时刻的订购动作即为(a1,a2,a3,a4)；表示奖赏折扣因子；表示在后继状态s'下采取行动a'的概率；表示(s',a')对应的状态动作值；表示在状态s下采取行动a 立即获得的回报；表示在状态s下采取行动a的策略概率；表示在后继状态下的状态值；

T2、进行学习训练迭代，利用策略评估和策略改进的思想,不断迭代学习。每次根据当前策略采取动作,观察新的状态和奖励，并更新Q函数或策略π，寻找能够最大化总奖励的最优订购策略；

T3、迭代学习完成后,根据最优订购策略,输出最优订购量，即当前时点牛肝、牛肉、鸡肉、鱼肉的最优订购量。

所述步骤T2中对每次学习训练迭代如图3所示，都执行以下步骤：

T2.1、初始化环境：初始化环境S和Q函数Q(s,a)，获得初始状态s1；

T2.2、迭代学习：进多次学习迭代过程是：每次迭代包含多个时间步，在每个时间步,根据策略π和当前状态s选择动作a,执行后观察奖励r和新状态s',记录经验(s,a,r,s')。具体设置为：迭代次数episode=1,2,...M，episode的时间步骤数t=1,2,...,T，根据当前策略π和当前状态s(t)，优选按ε-贪婪策略选择a(t)，执行a(t)，得到奖赏r(t)和新状态s(t+1)，将(s(t),a(t),r(t),s(t+1))存储至经验回放池D里；

T2.3、经验采样：采样一批数据B={(s,a,r,s')}从经验回放池D；

T2.4、Q值更新：对于每个样本(s,a,r,s')，使用以下更新公式计算Q估值：

其中α是学习率,γ是折扣因子。通过回报r+后续状态s'的最大Q值,更新当前Q(s,a)。

T2.5、策略改进：对每隔K个episode，更新改进的策略π：

T2.6、递归执行：递归执行步骤T2.1直到达到满足设定的停止准则，优选设置累积奖励变化阈值Δ，如Δ=2，当最近W个episode的累积奖励变化值ΔR低于该2时，认为累积奖励收敛,停止训练。具体的停止准则是通过监控在强化学习训练期间连续几个 episode的累积奖励的变化情况并决定是否停止训练，包括以下步骤：

T2.6.4、计算当前窗口（时间点t-W+1到t）内的平均累积奖励和前一个窗口（时间点t-W到t-1）内的平均累积奖励之间的差值的绝对值ΔR，ΔR实际上表示的是当前窗口（时间点t-W+1到t）内的平均累积奖励和前一个窗口（时间点t-W到t-1）内的平均累积奖励之间的差值的绝对值，其计算公式如下：

上述调度方法需要在计算机中实现，一种计算机可读取存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现一种用于宠物饲料加工原料需求量的调度方法，输入为历史加工原料消耗量数据，输出为当前时点的最优加工原料订购量。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和系统，可以通过其它的方式实现。例如，以上所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。上述单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于宠物饲料加工原料需求量的调度方法，其特征在于：调度方法包括利用神经网络模型预测当前加工原料需求量，再通过马尔可夫决策过程模型以获得最优加工原料长期订购量，并将不断地向神经网络模型和马尔可夫决策过程模型反馈新的数据，使模型得以迭代和优化，调度方法包括以下步骤：

P5、到下一订购时点时返回到P1，并更新加工原料的历史成本、消耗量；

所述步骤P3包括以下步骤：

在模拟环境中测试最优策略,逐步在实际环境中应用，并保存最终策略信息，用于为马尔可夫决策过程模型初始化提供结果数据；

在所述步骤S1中，状态空间包括：

；

其中，-当前时点决策后牛肝库存量；/>-当前时点决策后牛肉库存量；/>-当前时点决策后鸡肉库存量；/>-当前时点决策后鱼肉库存量。

2.根据权利要求1所述的一种用于宠物饲料加工原料需求量的调度方法，其特征在于：所述步骤P2中的神经网络模型为多层前馈神经网络模型，用于预测当前时点加工原料的需求量；

神经网络模型输入特征向量记为：

；

神经网络模型记为：

；

表示神经网络模型的所有参数，包括所有层的权重和偏置；

隐藏层使用ReLU激活函数；

损失函数使用均方误差损失函数：

；

。

3.根据权利要求1所述的一种用于宠物饲料加工原料需求量的调度方法，其特征在于：在所述步骤S3中，对于每次行动奖励设为满足需求后产生的利润减去购买得到的饲料的成本，奖励函数如下设计：

；

4.根据权利要求1所述的一种用于宠物饲料加工原料需求量的调度方法，其特征在于：在所述步骤S4中，强化学习算法包括以下步骤：T1、初始化策略、Q函数/>、状态值函数、状态动作值函数/>，并设定相关的参数，其中策略/>为一个基础可行策略，而Q函数设定为所有状态-行动对应的预期奖励，具体公式如下：

；

其中，s表示当前时点的加工原料库存状态即为(B1,B2,B3,B4)；a表示当前时刻的订购动作即为a1,a2,a3,a4；表示奖赏折扣因子；/>表示在后继状态/>下采取行动/>的概率；/>表示/>对应的状态动作值；/>表示在状态s下采取行动a立即获得的回报；表示在状态s下采取行动a的策略概率；/>表示在后继状态/>下的状态值；

T3、根据最优订购策略,输出最优订购量/>，即当前时点牛肝、牛肉、鸡肉、鱼肉的最优订购量。

5.根据权利要求4所述的一种用于宠物饲料加工原料需求量的调度方法，其特征在于：所述步骤T2中对每次学习训练迭代都执行以下步骤：

T2.1、初始化环境S和Q函数Q(s,a)，获得初始状态s1；

T2.2、迭代次数episode=1,2,...M，episode的步骤数t=1,2,...,T；根据当前策略π和当前状态s(t)，按ε-贪婪策略选择a(t)，执行a(t)，得到奖赏r(t)和新状态s(t+1)，将(s(t),a(t),r(t),s(t+1))存储至经验回放池D；

T2.3、采样一批数据B={(s,a,r,s')}从经验回放池D；

T2.4、对于每个样本(s,a,r,s')，使用以下更新公式计算Q估值：

；

T2.5、对每隔K个episode，更新策略π：

；

T2.6、递归执行步骤T2.1直到达到满足设定的停止准则。

6.根据权利要求5所述的一种用于宠物饲料加工原料需求量的调度方法，其特征在于：所述步骤T2.6的停止准则通过监控在强化学习训练期间连续几个episode的累积奖励的变化情况并决定是否停止训练，包括以下步骤：

T2.6.4、计算当前窗口时间点t-W+1到t内的平均累积奖励和前一个窗口时间点t-W到t-1内的平均累积奖励之间的差值的绝对值ΔR，

；

7.一种计算机可读取存储介质，存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1-5任一项所述的一种用于宠物饲料加工原料需求量的调度方法，输入为历史加工原料消耗量数据，输出为当前时点的最优加工原料订购量。