CN117236649B - 一种用于宠物饲料加工原料需求量的调度方法 - Google Patents

一种用于宠物饲料加工原料需求量的调度方法 Download PDF

Info

Publication number
CN117236649B
CN117236649B CN202311495613.2A CN202311495613A CN117236649B CN 117236649 B CN117236649 B CN 117236649B CN 202311495613 A CN202311495613 A CN 202311495613A CN 117236649 B CN117236649 B CN 117236649B
Authority
CN
China
Prior art keywords
processing raw
time point
raw material
current time
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311495613.2A
Other languages
English (en)
Other versions
CN117236649A (zh
Inventor
李德
邱望凤
邱望高
谷守营
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Maiwang Biotechnology Co ltd
Original Assignee
Tianjin Maiwang Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Maiwang Biotechnology Co ltd filed Critical Tianjin Maiwang Biotechnology Co ltd
Priority to CN202311495613.2A priority Critical patent/CN117236649B/zh
Publication of CN117236649A publication Critical patent/CN117236649A/zh
Application granted granted Critical
Publication of CN117236649B publication Critical patent/CN117236649B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种用于宠物饲料加工原料需求量的调度方法,属于工厂加工预算管理领域,具体调度方法包括利用神经网络模型预测当前加工原料需求量,再通过马尔可夫决策过程模型以获得最优加工原料长期订购量,并将不断地向神经网络模型和马尔可夫决策过程模型反馈新的数据,使模型得以迭代和优化。本发明有益效果:降低采购长期加工原料的总成本,提高决策效率。

Description

一种用于宠物饲料加工原料需求量的调度方法
技术领域
本发明属于工厂加工预算管理领域,尤其是涉及一种用于宠物饲料加工原料需求量的调度方法。
背景技术
宠物饲料行业的原料采购和库存管理一直面临着较大的挑战。由于市场和需求的不确定性,传统的人工经验方法很难准确预测原料需求量,往往导致订购决策不合理,出现原料短缺或过剩的情况。针对这个问题,一些企业开始尝试应用统计模型来预测原料需求,但统计模型依赖大量历史数据,对市场变化反应不敏感。近年来,随着强化学习技术的发展,一些学者提出了利用神经网络进行饲料原料订购决策,如循环神经网络(RNN)预测饲料原料需求、集成了门控循环单元(GRU)的神经网络进行饲料原料采购决策、基于策略梯度的强化学习方法进行订购决策。这些方法使用神经网络预测短期需求,这种方法克服了传统方法对市场变化的适应性差的缺点,但是现有的算法还存在训练时间长,难以解释结果,不满足长期订购成本最低化等问题。
发明内容
有鉴于此,本发明旨在提出一种用于宠物饲料加工原料需求量的调度方法,以降低采购长期加工原料的总成本,提高决策效率。
为达到上述目的,本发明的技术方案是这样实现的:
一种用于宠物饲料加工原料需求量的调度方法。
进一步的,调度方法包括利用神经网络模型预测当前加工原料需求量,再通过马尔可夫决策过程模型以获得最优加工原料长期订购量,并将不断地向神经网络模型和马尔可夫决策过程模型反馈新的数据,使模型得以迭代和优化,调度方法包括以下步骤:
P1、获取当前订购时点之前的加工原料的历史成本、消耗量;
P2、将历史成本、消耗量输入至神经网络模型用于验证和优化神经网络模型,并预测出当前时点加工原料的需求量;
P3、将需求量输入至马尔可夫决策过程模型,并决策出加工原料的最优订购量;
P4、在下一订购时点之前,把当前订购时点与下一订购时点之间时段的加工原料的成本、消耗量反馈给神经网络模型和马尔可夫决策过程模型,实现更新和迭代;
P5、到下一订购时点时返回到P1,并更新加工原料的历史成本、消耗量。
进一步的,所述步骤P2中的神经网络模型为多层前馈神经网络模型,用于预测当前时点加工原料的需求量;
神经网络模型输入特征向量记为:
其中D1,D2,D3,D4分别是当前时点之前N个周期历史加工原料牛肝、牛肉、鸡肉、鱼肉的消耗量;
神经网络模型记为:
表示神经网络模型的所有参数,包括所有层的权重和偏置;
隐藏层使用ReLU激活函数;
损失函数使用均方误差损失函数:
神经网络模型输出为当前订购时点与下一订购时点之间时段的加工原料的预测 需求量
神经网络模型训练完后,用获得的和新的输入历史加工原料需求量进行预测, 最终获得最新加工原料的预测需求量:
进一步的,所述步骤P3包括以下步骤:
S1、环境建模:建立马尔可夫决策过程模型环境,把当前时点加工原料的存货量定义为一个状态变量,把前时点加工原料的采购量定义为一个动作变量;
S2、输入预测需求量:输入神经网络模型预测出的当前时点加工原料的需求量至马尔可夫决策过程模型;
S3、设置奖励函数:确定库存和订购策略的奖励函数,需满足两个目标:一是保证所有加工原料的加工供应需求,二是最小化长时间的购买成本;
S4、策略迭代和优化并输出最优订购量:初始化策略并使用强化学习算法来迭代更新策略和状态值函数,最终得到一个能够使预期总奖励最大化的最优订购量;
在模拟环境中测试最优策略,逐步在实际环境中应用,并保存最终策略信息,用于为马尔可夫决策过程模型初始化提供结果数据。
进一步的,在所述步骤S1中,状态空间包括:
B1-当前时点牛肝库存量、B2-当前时点牛肉库存量、B3-当前时点鸡肉库存量、B4-当前时点鱼肉库存量;A1-上一时点购买牛肝量、A2-上一时点购买牛肉量、A3-上一时点购买鸡肉量、A4-上一时点购买鱼肉量;动作空间:
a1-当前时点购买牛肝量、a2-当前时点购买牛肉量、a3-当前时点购买鸡肉量、a4-当前时点购买鱼肉量,其中动作空间是连续的;状态转移函数:
其中,-当前时点决策后牛肝库存量;-当前时点决策后牛肉库存量;- 当前时点决策后鸡肉库存量;-当前时点决策后鱼肉库存量。
进一步的,在所述步骤S3中,对于每次行动奖励设为满足需求后产生的利润减去购买得到的饲料的成本,奖励函数如下设计:
其中:R1-满足需求的收益;pi-第i种加工原料的单位利润;Di-第i种加工原料的需求量;Bi-第i种加工原料的库存量;R2-购买成本和超额库存成本;c1-单位购买成本;ai-第i种加工原料的订购量;c2-单位仓储成本;Ti-第i种加工原料的目标库存量。
进一步的,在所述步骤S4中,强化学习算法包括以下步骤:T1、初始化策略、Q函 数、状态值函数、状态动作值函数,并设定相关的参数,其中策略为一个 基础可行策略,而Q函数设定为所有状态-行动对的预期奖励,具体公式如下:
其中,s表示当前时点的加工原料库存状态即为(B1,B2,B3,B4);a表示当前时刻的 订购动作即为a1,a2,a3,a4;表示奖赏折扣因子;-即时奖励;-在后继 状态下采取行动的概率;-表示对应的状态动作值;
T2、进行学习训练迭代,寻找能够最大化总奖励的最优订购策略
T3、根据最优订购策略,输出最优订购量,即当前时点牛 肝、牛肉、鸡肉、鱼肉的最优订购量。
进一步的,所述步骤T2中对每次学习训练迭代都执行以下步骤:
T2.1、初始化环境S和Q函数Q(s,a),获得初始状态s1;
T2.2、迭代次数episode=1,2,...M,episode的步骤数t=1,2,...,T:根据当前策略π和当前状态s(t),按ε-贪婪策略选择a(t),执行a(t),得到奖赏r(t)和新状态s(t+1),将(s(t),a(t),r(t),s(t+1))存储至经验回放池D;
T2.3、采样一批数据B={(s,a,r,s')}从经验回放池D;
T2.4、对于每个样本(s,a,r,s'),使用以下更新公式计算Q估值:
T2.5、对每隔K个episode,更新策略π:
T2.6、递归执行步骤T2.1直到达到满足设定的停止准则。
进一步的,所述步骤T2.6的停止准则通过监控在强化学习训练期间连续几个episode的累积奖励的变化情况并决定是否停止训练,包括以下步骤:
T2.6.1、定义一个列表accumulative_rewards=[]用来存储每个episode的累积奖励;
T2.6.2、对每个episode,计算累积奖励R,并添加到列表accumulative_rewards;
T2.6.3、判断accumulative_rewards的长度是否达到了滑动窗口的长度W+1,若达到转到T2.6.4,否则返回到T2.6.2,进行下一个episode;
T2.6.4、计算当前窗口(时间点t-W+1到t)内的平均累积奖励和前一个窗口(时间点t-W到t-1)内的平均累积奖励之间的差值的绝对值ΔR,
T2.6.5、判断ΔR是否低于设定的阈值ΔR_min,若低于则停止训练,否则,减少accumulative_rewards的长度即删除第一个元素,使得窗口向前移动了一步,并回到T2.6.2。
进一步的,一种计算机可读取存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现所述的一种用于宠物饲料加工原料需求量的调度方法,输入为历史加工原料消耗量数据,输出为当前时点的最优加工原料订购量。
相对于现有技术,本发明所述的一种用于宠物饲料加工原料需求量的调度方法具有以下有益效果:
本发明所述的一种用于宠物饲料加工原料需求量的调度方法,可以充分利用历史数据,预测未来需求变化趋势;也可以根据经济成本考量,优化订购策略,实现对原料需求量的智能决策,与传统依赖人工经验决策相比,本方法可以大幅降低订购成本,提高决策效率,并且可以随时根据新数据进行模型迭代和优化。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例所述的调度方法整体流程示意图;
图2为本发明实施例所述的马尔可夫决策过程模型工作流程图示意图;
图3为本发明实施例所述的马尔可夫决策过程模型的学习训练迭代流程图示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面将参考附图并结合实施例来详细说明本发明。
一种用于宠物饲料加工原料需求量的调度方法,调度方法总体思路是联合运用神经网络预测模型和马尔可夫决策过程模型,实现对宠物饲料加工原料的最优订购量进行智能化决策。方法的目的是为了合理确定加工原料的订购量,既能满足生产所需的原料消耗量,又可以降低订购成本,实现成本和效益的最优化。具体来说,方法的第一步是收集历史原料消耗量数据,第二步使用神经网络模型预测未来时段的原料需求量,第三步在此基础上建立马尔可夫决策过程模型,定义状态空间、动作空间和奖励函数,通过强化学习算法迭代学习最优订购策略。学习过程采用经验采样、Q值迭代更新以及策略改进等技术。最终输出一个能够最大化总体奖励的最优订购量结果。应用联合预测模型与决策模型的方法,像这种需求变化较大的宠物饲料生产企业,其加工原料保质期较短,可帮助其节省采购成本,提升经济效益。
具体的,如图1所示,调度方法包括利用神经网络模型预测当前加工原料需求量,再通过马尔可夫决策过程模型以获得最优加工原料长期订购量,并将不断地向神经网络模型和马尔可夫决策过程模型反馈新的数据,使模型得以迭代和优化,调度方法包括以下步骤:
P1、获取当前订购时点之前的加工原料的历史成本、消耗量,历史成本即是过去时间里加工原料的购买成本价格,可以通过市场环境设置历史周期,优选1年;
P2、将历史成本、消耗量输入至神经网络模型用于验证和优化神经网络模型,并预测出当前时点加工原料的需求量;
P3、将需求量输入至马尔可夫决策过程模型,并决策出加工原料的最优订购量,该模型会考虑成本和效益,通过强化学习算法决策出最优的加工原料订购量,以在满足不断加工原料供应生产的情况下,使得长期(比如1年)的加工原料采购成本降低最低;
P4、在下一订购时点之前,把当前订购时点与下一订购时点之间时段的加工原料的成本、消耗量反馈给神经网络模型和马尔可夫决策过程模型,实现更新和迭代,其目的在于:在实际运行过程中,用新产生的数据(当前和下一订购时点之间的成本和消耗数据)不断重新训练神经网络模型和马尔可夫模型,使其迭代更新,提高预测和决策的准确性。
P5、到下一订购时点时返回到P1,并更新加工原料的历史成本、消耗量,启动新一轮的预测和决策过程,以此调度订购加工原料。
具体的,所述步骤P2中的神经网络模型其具体结构设置如下:神经网络模型为多层前馈神经网络模型,用于预测当前时点加工原料的需求量;在本实施例中,神经网络模型输入特征向量优选记为:
其中D1,D2,D3,D4分别是当前时点之前N个周期历史加工原料牛肝、牛肉、鸡肉、鱼 肉的消耗量,优选一年作为总周期,一周作为当周期;若预测结果与实际相差较大,可引入 更多的输入特征比如季节性(s),宠物数量(p),成本(c)等,则特征向量可扩展为,这样模型将会更加具有普遍性和适应性,并且能够更好地 处理更复杂的情况。
神经网络模型主体结构记为:
表示神经网络模型的所有参数,包括所有层的权重和偏置;隐藏层使用ReLU激活 函数;损失函数使用均方误差损失函数:
神经网络模型输出为当前订购时点与下一订购时点之间时段的加工原料的预测 需求量
神经网络模型训练完后,用获得的和新的输入历史加工原料需求量进行预测, 最终获得最新加工原料的预测需求量,其更新公式如下:
符合上述步骤P4要求的实现神经网络模型更新和迭代。
具体的马尔可夫决策过程模型如图2所示,所述步骤P3包括以下步骤
S1、环境建模:建立马尔可夫决策过程模型环境,把当前时点加工原料的存货量定义为一个状态变量,把前时点加工原料的采购量定义为一个动作变量;
S2、输入预测需求量:输入将步骤P2中神经网络模型预测出的当前时点加工原料的需求量至马尔可夫决策过程模型中;
S3、设置奖励函数:确定库存和订购策略的奖励函数,考虑到需满足两个目标:一是保证所有加工原料的加工供应需求,二是最小化长时间的购买成本;
S4、策略迭代和优化并输出最优订购量:初始化策略并使用强化学习算法来迭代更新策略和状态值函数,最终得到一个能够使预期总奖励最大化的最优订购量,即当前时点各个加工原料的最佳购买量;
在模拟环境中测试最优策略,逐步在实际环境中应用,并保存最终策略信息,用于为马尔可夫决策过程模型初始化提供结果数据。
具体的,在马尔可夫决策过程模型中,需要定义状态空间和动作空间,其模型原理是:根据当前状态s和动作a,可以计算出下一状态s'的库存量,这由状态转移函数给出,如比如B1'表示执行完动作后的新牛肝库存量,是当前库存B1加上购买量a1然后减去消耗量D1。在所述步骤S1中,状态空间包括:
动作空间:
状态转移函数:
其中,B1-当前时点牛肝库存量、B2-当前时点牛肉库存量、B3-当前时点鸡肉库存 量、B4-当前时点鱼肉库存量;A1-上一时点购买牛肝量、A2-上一时点购买牛肉量、A3-上一 时点购买鸡肉量、A4-上一时点购买鱼肉量;a1-当前时点购买牛肝量、a2-当前时点购买牛 肉量、a3-当前时点购买鸡肉量、a4-当前时点购买鱼肉量,其中动作空间是连续的;-当 前时点决策后牛肝库存量;-当前时点决策后牛肉库存量;-当前时点决策后鸡肉库 存量;-当前时点决策后鱼肉库存量。
具体的,奖励函数由两部分组成,满足需求的收益R1和购买成本和超额库存成本R2。其中,对于每种加工原料i,计算满足需求Di带来的收益,收益为单位利润pi乘以实际满足的需求量min(Di,Bi),其中Di为总需求量,Bi为当前库存量,取二者最小值表示实际能满足的需求量,然后求和得到总的满足需求收益R1;购买成本为每种原料的购买量ai乘以单位购买成本c1,求和得到总购买成本。超额库存成本考虑当前库存Bi超过目标库存量Ti的部分,每单位超额部分的成本为c2,求和得到总超额库存成本R2。因此,在所述步骤S3中,对于每次行动奖励设为满足需求后产生的利润减去购买得到的饲料的成本,奖励函数如下设计:
其中:R1-满足需求的收益;-第i种加工原料的单位利润;-第i种加工原料的 需求量;-第i种加工原料的库存量;-购买成本和超额库存成本;-单位购买成本; -第i种加工原料的订购量;-单位仓储成本;-第i种加工原料的目标库存量。
具体的,在所述步骤S4中,强化学习算法包括以下步骤:
T1、初始化策略、Q函数、状态值函数、状态动作值函数,并设定 相关的参数,首先初始化一个可行的基础策略,用于选取动作的概率分布,同时初始化状 态值函数V(s)和状态动作值函数Q(s,a),用于估计每个状态(或状态-动作对应)的长期期 望奖励。具体公式如下:
其中,s表示当前时点的加工原料库存状态即为(B1,B2,B3,B4);a表示当前时刻的 订购动作即为(a1,a2,a3,a4);表示奖赏折扣因子;表示在后继状态s'下采取行 动a'的概率;表示(s',a')对应的状态动作值;表示在状态s下采取行动a 立即获得的回报;表示在状态s下采取行动a的策略概率;表示在后继状态 下的状态值;
T2、进行学习训练迭代,利用策略评估和策略改进的思想,不断迭代学习。每次根 据当前策略采取动作,观察新的状态和奖励,并更新Q函数或策略π,寻找能够最大化总奖励 的最优订购策略
T3、迭代学习完成后,根据最优订购策略,输出最优订购量 ,即当前时点牛肝、牛肉、鸡肉、鱼肉的最优订购量。
所述步骤T2中对每次学习训练迭代如图3所示,都执行以下步骤:
T2.1、初始化环境:初始化环境S和Q函数Q(s,a),获得初始状态s1;
T2.2、迭代学习:进多次学习迭代过程是:每次迭代包含多个时间步,在每个时间步,根据策略π和当前状态s选择动作a,执行后观察奖励r和新状态s',记录经验(s,a,r,s')。具体设置为:迭代次数episode=1,2,...M,episode的时间步骤数t=1,2,...,T,根据当前策略π和当前状态s(t),优选按ε-贪婪策略选择a(t),执行a(t),得到奖赏r(t)和新状态s(t+1),将(s(t),a(t),r(t),s(t+1))存储至经验回放池D里;
T2.3、经验采样:采样一批数据B={(s,a,r,s')}从经验回放池D;
T2.4、Q值更新:对于每个样本(s,a,r,s'),使用以下更新公式计算Q估值:
其中α是学习率,γ是折扣因子。通过回报r+后续状态s'的最大Q值,更新当前Q(s,a)。
T2.5、策略改进:对每隔K个episode,更新改进的策略π:
T2.6、递归执行:递归执行步骤T2.1直到达到满足设定的停止准则,优选设置累积 奖励变化阈值Δ,如Δ=2,当最近W个episode的累积奖励变化值ΔR低于该2时, 认为累积奖励收敛,停止训练。具体的停止准则是通过监控在强化学习训练期间连续几个 episode的累积奖励的变化情况并决定是否停止训练,包括以下步骤:
T2.6.1、定义一个列表accumulative_rewards=[]用来存储每个episode的累积奖励;
T2.6.2、对每个episode,计算累积奖励R,并添加到列表accumulative_rewards;
T2.6.3、判断accumulative_rewards的长度是否达到了滑动窗口的长度W+1,若达到转到T2.6.4,否则返回到T2.6.2,进行下一个episode;
T2.6.4、计算当前窗口(时间点t-W+1到t)内的平均累积奖励和前一个窗口(时间点t-W到t-1)内的平均累积奖励之间的差值的绝对值ΔR,ΔR实际上表示的是当前窗口(时间点t-W+1到t)内的平均累积奖励和前一个窗口(时间点t-W到t-1)内的平均累积奖励之间的差值的绝对值,其计算公式如下:
T2.6.5、判断ΔR是否低于设定的阈值ΔR_min,若低于则停止训练,否则,减少accumulative_rewards的长度即删除第一个元素,使得窗口向前移动了一步,并回到T2.6.2。
上述调度方法需要在计算机中实现,一种计算机可读取存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现一种用于宠物饲料加工原料需求量的调度方法,输入为历史加工原料消耗量数据,输出为当前时点的最优加工原料订购量。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和系统,可以通过其它的方式实现。例如,以上所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。上述单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种用于宠物饲料加工原料需求量的调度方法,其特征在于:调度方法包括利用神经网络模型预测当前加工原料需求量,再通过马尔可夫决策过程模型以获得最优加工原料长期订购量,并将不断地向神经网络模型和马尔可夫决策过程模型反馈新的数据,使模型得以迭代和优化,调度方法包括以下步骤:
P1、获取当前订购时点之前的加工原料的历史成本、消耗量;
P2、将历史成本、消耗量输入至神经网络模型用于验证和优化神经网络模型,并预测出当前时点加工原料的需求量;
P3、将需求量输入至马尔可夫决策过程模型,并决策出加工原料的最优订购量;
P4、在下一订购时点之前,把当前订购时点与下一订购时点之间时段的加工原料的成本、消耗量反馈给神经网络模型和马尔可夫决策过程模型,实现更新和迭代;
P5、到下一订购时点时返回到P1,并更新加工原料的历史成本、消耗量;
所述步骤P3包括以下步骤:
S1、环境建模:建立马尔可夫决策过程模型环境,把当前时点加工原料的存货量定义为一个状态变量,把前时点加工原料的采购量定义为一个动作变量;
S2、输入预测需求量:输入神经网络模型预测出的当前时点加工原料的需求量至马尔可夫决策过程模型;
S3、设置奖励函数:确定库存和订购策略的奖励函数,需满足两个目标:一是保证所有加工原料的加工供应需求,二是最小化长时间的购买成本;
S4、策略迭代和优化并输出最优订购量:初始化策略并使用强化学习算法来迭代更新策略和状态值函数,最终得到一个能够使预期总奖励最大化的最优订购量;
在模拟环境中测试最优策略,逐步在实际环境中应用,并保存最终策略信息,用于为马尔可夫决策过程模型初始化提供结果数据;
在所述步骤S1中,状态空间包括:
B1-当前时点牛肝库存量、B2-当前时点牛肉库存量、B3-当前时点鸡肉库存量、B4-当前时点鱼肉库存量;A1-上一时点购买牛肝量、A2-上一时点购买牛肉量、A3-上一时点购买鸡肉量、A4-上一时点购买鱼肉量;动作空间:
a1-当前时点购买牛肝量、a2-当前时点购买牛肉量、a3-当前时点购买鸡肉量、a4-当前时点购买鱼肉量,其中动作空间是连续的;状态转移函数:
其中,-当前时点决策后牛肝库存量;/>-当前时点决策后牛肉库存量;/>-当前时点决策后鸡肉库存量;/>-当前时点决策后鱼肉库存量。
2.根据权利要求1所述的一种用于宠物饲料加工原料需求量的调度方法,其特征在于:所述步骤P2中的神经网络模型为多层前馈神经网络模型,用于预测当前时点加工原料的需求量;
神经网络模型输入特征向量记为:
其中D1,D2,D3,D4分别是当前时点之前N个周期历史加工原料牛肝、牛肉、鸡肉、鱼肉的消耗量;
神经网络模型记为:
表示神经网络模型的所有参数,包括所有层的权重和偏置;
隐藏层使用ReLU激活函数;
损失函数使用均方误差损失函数:
神经网络模型输出为当前订购时点与下一订购时点之间时段的加工原料的预测需求量
神经网络模型训练完后,用获得的和新的输入历史加工原料需求量进行预测,最终获得最新加工原料的预测需求量:
3.根据权利要求1所述的一种用于宠物饲料加工原料需求量的调度方法,其特征在于:在所述步骤S3中,对于每次行动奖励设为满足需求后产生的利润减去购买得到的饲料的成本,奖励函数如下设计:
其中:R1-满足需求的收益;pi-第i种加工原料的单位利润;Di-第i种加工原料的需求量;Bi-第i种加工原料的库存量;R2-购买成本和超额库存成本;c1-单位购买成本;ai-第i种加工原料的订购量;c2-单位仓储成本;Ti-第i种加工原料的目标库存量。
4.根据权利要求1所述的一种用于宠物饲料加工原料需求量的调度方法,其特征在于:在所述步骤S4中,强化学习算法包括以下步骤:T1、初始化策略、Q函数/>、状态值函数、状态动作值函数/>,并设定相关的参数,其中策略/>为一个基础可行策略,而Q函数设定为所有状态-行动对应的预期奖励,具体公式如下:
其中,s表示当前时点的加工原料库存状态即为(B1,B2,B3,B4);a表示当前时刻的订购动作即为a1,a2,a3,a4;表示奖赏折扣因子;/>表示在后继状态/>下采取行动/>的概率;/>表示/>对应的状态动作值;/>表示在状态s下采取行动a立即获得的回报;表示在状态s下采取行动a的策略概率;/>表示在后继状态/>下的状态值;
T2、进行学习训练迭代,寻找能够最大化总奖励的最优订购策略
T3、根据最优订购策略,输出最优订购量/>,即当前时点牛肝、牛肉、鸡肉、鱼肉的最优订购量。
5.根据权利要求4所述的一种用于宠物饲料加工原料需求量的调度方法,其特征在于:所述步骤T2中对每次学习训练迭代都执行以下步骤:
T2.1、初始化环境S和Q函数Q(s,a),获得初始状态s1;
T2.2、迭代次数episode=1,2,...M,episode的步骤数t=1,2,...,T;根据当前策略π和当前状态s(t),按ε-贪婪策略选择a(t),执行a(t),得到奖赏r(t)和新状态s(t+1),将(s(t),a(t),r(t),s(t+1))存储至经验回放池D;
T2.3、采样一批数据B={(s,a,r,s')}从经验回放池D;
T2.4、对于每个样本(s,a,r,s'),使用以下更新公式计算Q估值:
T2.5、对每隔K个episode,更新策略π:
T2.6、递归执行步骤T2.1直到达到满足设定的停止准则。
6.根据权利要求5所述的一种用于宠物饲料加工原料需求量的调度方法,其特征在于:所述步骤T2.6的停止准则通过监控在强化学习训练期间连续几个episode的累积奖励的变化情况并决定是否停止训练,包括以下步骤:
T2.6.1、定义一个列表accumulative_rewards=[]用来存储每个episode的累积奖励;
T2.6.2、对每个episode,计算累积奖励R,并添加到列表accumulative_rewards;
T2.6.3、判断accumulative_rewards的长度是否达到了滑动窗口的长度W+1,若达到转到T2.6.4,否则返回到T2.6.2,进行下一个episode;
T2.6.4、计算当前窗口时间点t-W+1到t内的平均累积奖励和前一个窗口时间点t-W到t-1内的平均累积奖励之间的差值的绝对值ΔR,
T2.6.5、判断ΔR是否低于设定的阈值ΔR_min,若低于则停止训练,否则,减少accumulative_rewards的长度即删除第一个元素,使得窗口向前移动了一步,并回到T2.6.2。
7.一种计算机可读取存储介质,存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1-5任一项所述的一种用于宠物饲料加工原料需求量的调度方法,输入为历史加工原料消耗量数据,输出为当前时点的最优加工原料订购量。
CN202311495613.2A 2023-11-10 2023-11-10 一种用于宠物饲料加工原料需求量的调度方法 Active CN117236649B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311495613.2A CN117236649B (zh) 2023-11-10 2023-11-10 一种用于宠物饲料加工原料需求量的调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311495613.2A CN117236649B (zh) 2023-11-10 2023-11-10 一种用于宠物饲料加工原料需求量的调度方法

Publications (2)

Publication Number Publication Date
CN117236649A CN117236649A (zh) 2023-12-15
CN117236649B true CN117236649B (zh) 2024-01-26

Family

ID=89098566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311495613.2A Active CN117236649B (zh) 2023-11-10 2023-11-10 一种用于宠物饲料加工原料需求量的调度方法

Country Status (1)

Country Link
CN (1) CN117236649B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104992258A (zh) * 2012-07-05 2015-10-21 爱利门图供应链管理(开曼)有限公司 用于控制供应链的方法和系统
CN107123004A (zh) * 2017-06-29 2017-09-01 北京京东尚科信息技术有限公司 商品动态定价数据处理方法和系统
CN108009667A (zh) * 2017-07-19 2018-05-08 国家电网公司西南分部 一种能源需求总量及结构预测系统
CN110276483A (zh) * 2019-06-04 2019-09-24 湖北大学 基于神经网络的制糖原材料预测方法
CN111783943A (zh) * 2020-06-09 2020-10-16 南京航空航天大学 一种基于lstm神经网络的驾驶员制动强度预测方法
CN113128770A (zh) * 2021-04-23 2021-07-16 新疆大学 基于dqn的不确定车间环境下物料配送实时优化方法
CN114581159A (zh) * 2022-05-04 2022-06-03 爱迪森(北京)生物科技有限公司 基于大数据分析的仓储预测方法、系统和可读存储介质
CN116247648A (zh) * 2022-12-12 2023-06-09 国网浙江省电力有限公司经济技术研究院 一种考虑源荷不确定性下微电网能量调度的深度强化学习方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104992258A (zh) * 2012-07-05 2015-10-21 爱利门图供应链管理(开曼)有限公司 用于控制供应链的方法和系统
CN107123004A (zh) * 2017-06-29 2017-09-01 北京京东尚科信息技术有限公司 商品动态定价数据处理方法和系统
CN108009667A (zh) * 2017-07-19 2018-05-08 国家电网公司西南分部 一种能源需求总量及结构预测系统
CN110276483A (zh) * 2019-06-04 2019-09-24 湖北大学 基于神经网络的制糖原材料预测方法
CN111783943A (zh) * 2020-06-09 2020-10-16 南京航空航天大学 一种基于lstm神经网络的驾驶员制动强度预测方法
CN113128770A (zh) * 2021-04-23 2021-07-16 新疆大学 基于dqn的不确定车间环境下物料配送实时优化方法
CN114581159A (zh) * 2022-05-04 2022-06-03 爱迪森(北京)生物科技有限公司 基于大数据分析的仓储预测方法、系统和可读存储介质
CN116247648A (zh) * 2022-12-12 2023-06-09 国网浙江省电力有限公司经济技术研究院 一种考虑源荷不确定性下微电网能量调度的深度强化学习方法

Also Published As

Publication number Publication date
CN117236649A (zh) 2023-12-15

Similar Documents

Publication Publication Date Title
KR20210116435A (ko) 재고 관리 및 최적화를 위한 시스템 및 방법
Pan et al. A comparison of neural network backpropagation algorithms for electricity load forecasting
CN111027772B (zh) 基于pca-dbilstm的多因素短期负荷预测方法
WO2020040763A1 (en) Real-time production scheduling with deep reinforcement learning and monte carlo tree search
CN112990556A (zh) 一种基于Prophet-LSTM模型的用户用电能耗预测方法
CN111079989B (zh) 一种基于dwt-pca-lstm的供水公司供水量预测装置
CN108564326A (zh) 订单的预测方法及装置、计算机可读介质、物流系统
Araújo et al. A shift-invariant morphological system for software development cost estimation
CN116562514B (zh) 基于神经网络的企业生产状况即时分析方法及系统
CN114861980A (zh) 一种基于bp-lstm模型的碳预测方法
CN113283671A (zh) 一种预测补货量的方法、装置、计算机设备及存储介质
CN115409563A (zh) 一种多因素影响的农业装备库存需求预测方法
Xie et al. Nonstop: A nonstationary online prediction method for time series
Ding et al. Multi-agent reinforcement learning with shared resources for inventory management
CN117236649B (zh) 一种用于宠物饲料加工原料需求量的调度方法
CN113592240A (zh) 一种mto企业订单处理方法及系统
Zhou et al. Optimization of multi-echelon spare parts inventory systems using multi-agent deep reinforcement learning
CN116880191A (zh) 一种基于时序预测的过程工业生产系统的智能控制方法
Noorul Haq et al. Effect of forecasting on the multi-echelon distribution inventory supply chain cost using neural network, genetic algorithm and particle swarm optimisation
CN116341753A (zh) 一种使用机器学习对区域二氧化碳排放预测的方法
CN117217324A (zh) 一种模型训练方法以及相关设备
Zhang et al. A new adaptive inventory control method for supply chains with non-stationary demand
CN113743784A (zh) 一种基于深度强化学习的生产时序表智能生成方法
CN113344317A (zh) 一种基于双深度时序差分神经网络的紧密协作型供应链任务调度方法
CN113887816A (zh) 一种家用电器社会保有量的智能预测方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant