CN112101695B - 强化学习及基于模拟的工厂内调度方法以及其装置 - Google Patents

强化学习及基于模拟的工厂内调度方法以及其装置 Download PDF

Info

Publication number
CN112101695B
CN112101695B CN202010547171.1A CN202010547171A CN112101695B CN 112101695 B CN112101695 B CN 112101695B CN 202010547171 A CN202010547171 A CN 202010547171A CN 112101695 B CN112101695 B CN 112101695B
Authority
CN
China
Prior art keywords
scheduling
reinforcement learning
plant
decision process
markov decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010547171.1A
Other languages
English (en)
Other versions
CN112101695A (zh
Inventor
李原准
金炳熙
郑求桓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weimusi Solutions Co ltd
Original Assignee
Weimusi Solutions Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weimusi Solutions Co ltd filed Critical Weimusi Solutions Co ltd
Publication of CN112101695A publication Critical patent/CN112101695A/zh
Application granted granted Critical
Publication of CN112101695B publication Critical patent/CN112101695B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/41865Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by job scheduling, process planning, material flow
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/4188Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by CIM planning or realisation
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/41885Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by modeling, simulation of the manufacturing system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/17Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/32Operator till task planning
    • G05B2219/32252Scheduling production, machining, job shop
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/32Operator till task planning
    • G05B2219/32271Decision of job dispatching, select job to process next on each machine
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/32Operator till task planning
    • G05B2219/32334Use of reinforcement learning, agent acts, receives reward
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Manufacturing & Machinery (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Automation & Control Theory (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)

Abstract

本发明提供一种基于强化学习的工厂内调度方法。所述基于强化学习的工厂内调度方法,可包括:对在工厂内调度器的调度动作及由此的奖励以及所述工厂的状态构建马尔可夫决策过程的步骤;对所述构建的马尔可夫决策过程适用强化学习来执行学习的步骤;以及作为所述强化学习的结果,选择将分数化的多个调度规则的加权和最大化的工作的步骤。

Description

强化学习及基于模拟的工厂内调度方法以及其装置
技术领域
本发明涉及一种基于强化学习的工厂内调度方法及其装置,更具体而言,涉及通过在工厂内设有各种设备的环境下,强化学习对调度器所执行的动作的奖励和状态,从而,能显著改善工厂整体的运营性能及效率的基于强化学习的工厂内调度方法和其装置。
背景技术
工厂,例如半导体制造厂是最精致的人工系统之一,其通常由与自动化资源处理系统相连接的数百台或数千个昂贵的设备构成。若在由这种诸多设备构成的工厂内建立最佳的工作计划,则可以显著改善工厂的生产性。
但是,以往,为了对工厂内布置的多个设备建立工作计划,依赖于基于专家等人员调整的参数的启发式解决方案,但是,该方式存在在工厂内建立工作计划时每次都需要人员介入,因此会限制工厂运营效率的缺点。
尤其,在建立选择每个工作场所中执行的可用工作并决定顺序的调度策略时,如上所述的由人进行的启发式解决方案明显有局限性,因此,迫切需要开发和普及能补偿这些局限性的替代方式。
因此,在本领域中对新方式的工厂内调度方法及其装置的需求日益增加,该方法和装置是通过在布置有各种设备的工厂内环境中更有效地实现调度,从而,能同时达到工厂内所追求的各种目的。
发明内容
本发明是为解决上述问题而提出的,其目的在于,提供一种基于强化学习的工厂内调度方法及其装置,该方法及装置通过对工厂内环境中的动作、奖励、状态进行强化学习,从而,选择将多个调度分数的加权和最大化的工作,由此能最大化工厂运营效率。
并且,本发明的目的在于,提供一种基于强化学习的工厂内调度方法及其装置,该方法及装置是通过考虑在工厂内环境中发生的调度器的动作所具有的特性来改变适用马尔可夫决策过程,从而,可以更加适应性地适用于实际工厂环境。
而且,本发明的目的在于,提供一种基于强化学习的工厂内调度方法及其装置,该方法及装置是通过强化学习来学习并选择能同时满足在工厂内环境中所追求的各种目的的调度动作,由此能最大化工厂运营效率。
本发明的技术问题不限于以上所提及的技术问题,本发明所属技术领域的普通技术人员可从以下记载中明确理解未提及的其他技术问题。
为解决所述技术问题的根据本发明的一实施例的基于强化学习的工厂内调度方法,其为基于强化学习的工厂内调度方法,可包括:对在工厂内调度器(dispatcher)的调度动作(action)及由此的奖励(reward)以及所述工厂的状态(state)构建马尔可夫决策过程(MDP;Markov Decision Process)的步骤;对所述构建的马尔可夫决策过程(MDP)适用强化学习(RL;Reinforcement Learning)来执行学习的步骤;以及作为所述强化学习(RL)的结果,选择将分数化的多个调度规则的加权和最大化的工作的步骤。
而且,所述马尔可夫决策过程(MDP)可以被构建为半马尔可夫决策过程(semi-MDP),所述半马尔可夫决策过程基于在连续的时间区间以非预定间隔发生的决策。
而且,所述奖励可以在所述工厂内同时满足多个目的的方向上设定。
而且,所述强化学习(RL)可基于通过值函数的近似化的值函数的估计。
而且,作为所述值函数的近似化的结果,所述值函数可由参数向量和调度分数向量的乘积表现。
而且,所述调度分数向量可对应于对在相应机器上最后选择的工作的调度分数的向量。
而且,选择将所述分数化的多个调度规则的加权和最大化的工作的步骤可包括选择将所述近似化的值函数的值最大化的工作的步骤。
为解决所述技术问题的根据本发明的其他实施例的被构成为执行基于强化学习的工厂内调度动作的调度器,可包括:MDP构建单元,被构成为对在工厂内所述调度器的调度动作及由此的奖励以及所述工厂的状态构建马尔可夫决策过程(MDP);强化学习单元,被构成为对所述构建的马尔可夫决策过程(MDP)适用强化学习(RL)来执行学习;以及工作选择单元,被构成为作为所述强化学习(RL)的结果,选择将分数化的多个调度规则的加权和最大化的工作。
而且,所述MDP构建单元还可以被构成为作为所述半马尔可夫决策过程(semi-MDP)构建所述马尔可夫决策过程(MDP),所述半马尔可夫决策过程基于在连续的时间区间以非预定间隔发生的决策。
根据本发明的一实施例的基于强化学习的工厂内调度方法及其装置,通过对工厂内环境中的动作、奖励、状态进行强化学习,从而,选择将多个调度分数的加权和最大化的工作,由此能最大化工厂运营效率。
并且,根据本发明的一实施例的基于强化学习的工厂内调度方法及其装置,通过考虑在工厂内环境中发生的调度器的动作所具有的特性来改变适用马尔可夫决策过程,从而,可以更加适应性地适用于实际工厂环境。
根据本发明的一实施例的基于强化学习的工厂内调度方法及其装置,通过强化学习来学习并选择能同时满足在工厂内环境中所追求的各种目的的调度动作,由此能最大化工厂运营效率。
附图说明
为了更加充分地理解本发明的详细说明中引用的附图,提供各图面的简单说明。
图1a是用于说明构成强化学习(RL)的基本要素的概略图,图1b是根据本发明的一实施例在工厂环境反应图1a的强化学习(RL)而构成的概念图。
图2a简略地示出成为适用根据本发明的一实施例的调度方法的工厂的基础的可重入生产线模型的基本单位,图2b简略地示出结合多个图2a所示的可重入生产线模型的基本单位而体现的工厂的布置图。
图3a是用于说明根据本发明的一实施例的调度器10选择工作的概念图,图3b是图3a所示的调度器10的详细框图。
图4是有关根据本发明的一实施例的基于强化学习的工厂内调度方法(S400)的顺序图。
符号说明
10:调度器 11:控制单元
12:通信单元 13:MDP构建单元
14:强化学习单元 15:工作选择单元
16:存储单元 17:电源单元
具体实施方式
以下,参照附图来说明本发明的实施例。应当注意,在对各个附图的结构要素赋予附图标记的过程中,即使示出在不同的附图中,对于相同的结构要素也尽可能赋予了相同的附图标记。并且,在说明本发明的过程中,当判断出对相关公知结构或功能的具体说明有可能混淆本发明的主旨时,将省略对其的详细说明。并且,以下将说明本发明的实施例,但本发明的技术思想不受所述实施例的限定或限制,而是可由本发明所属技术领域的普通技术人员通过变形来以各种方式实施。
在说明书全文中,当表示一个部分与另一部分“连接”时,这包括“直接连接”的情况和两者中间存在其他部件的“间接连接”的情况。在说明书全文中,当表示一个部分“包括”另一结构要素时,只要没有特别相反的记载,这并不意味着排除其他结构要素,而是还可包括其他结构要素。并且,在说明本发明的结构要素的过程中,可使用第一、第二、A、B、(a)、(b)等术语。这些术语仅仅用于对其结构要素与其他结构要素进行区分,而相应结构要素的本质或次序或顺序等并不局限于此。
图1a是用于说明构成强化学习(RL)的基本要素的概略图。强化学习(RL:Reinforcement Learning)是机器学习(ML:Machine Learning)的领域之一,相当于在给定环境中预定智能体(Agent)识别当前的状态(State)并在可选动作(Action)中选择使奖励(Reward)最大化的动作或动作顺序的学习方式。
智能体是指通过观察状态来选择动作的主体,环境是在智能体动作时通过交互作用来改变状态并奖励,状态是指表示环境的当前状态的信息,动作是指在当前状态下智能体的动作,奖励相当于表示动作的好坏的信息,对于这种构成增强学习(RL)的智能体、环境、活动、奖励及状态在图1a中进行了概念性说明。这里的重点是,奖励应该与要改进的单个或多个目的很好地匹配,并且状态应该很好地表现环境。
以在动态环境(dynamic environment)中的学习为对象的强化学习(RL)分为监督学习(Supervised Learning)和非监督学习(Unsupervised Learning),监督学习是在静态环境(static environment)中对数据指定标签(lable)(即明确的答案)的状态下学习计算机。非监督学习用于在静态环境中对数据没有指定标签的状态下学习计算机,从而发现数据的隐藏特征或结构。
作为参考,如谷歌(Google)的AlphaGo的游戏领域、智能机器人领域(如Atlas,由Boston Dynamics制造的人形机器人)以及金融领域(如P Morgan的LXOM)、基于附着在汽车上的摄像头或传感器数据的无人驾驶汽车领域等中利用及适用强化学习(RL),或者正在积极地进行研发。
图1b是根据本发明的一实施例在工厂环境中反映图1a的强化学习(RL)而构成的概念图。由智能体、环境、活动、奖励及状态的要素组成的强化学习(RL)用于工厂内调度时,调度器10成为智能体,并将工厂作为环境定义对调度器的调度活动的奖励(费用、性能、不利益等)及状态(WIP、利用率、设置等),其中,状态可以是指调度器10观察工厂而获得的信息。
图2a简略地示出成为适用本发明的一实施例的调度方法的工厂的基础的可重入生产线模型((re-entrant line model)的基本单位。在实际工厂中布置有数百个至数千个设备,并且每个设备执行不同的工艺,工厂内的每个产品在完成生产之前必须经历数百个工艺步骤。为了实现这样的工艺步骤,工厂可以由可重入生产线模型(例如,如图1a所示)表现,并且,在生产期间,每个产品必须经历数百个工艺步骤,还存在产品多次重复相同的工艺步骤的情况。即产品将重新进入已经访问过的局部步骤中。
图2a示出如上所述的可重入生产线的基本单位。将执行相同工艺的机器的组称为工作站,每个工作站包括多台机器和缓冲器。到达缓冲器的工作是直到根据预定的调度逻辑选择适当的机器为止在缓冲器中等候。将表示由哪些机器处理哪些工作的一系列关系称为工作安排(job arrangement)。作为参考,工作安排可根据工作类型而变化,由此,工作中的一部分可布置于工作站内的所有机器上,而工作中的其他部分可以布置在工作站内的仅一台机器上。在图2b简略地示出将这种可重入生产线模型的基本单元结合多个而实现的实际工厂的布置图。
如此,为了实现选择在工厂内的每个工作场所执行的可用工作并建立顺序的调度,建立并利用FIFO(First In First Out,先进先出)、SPT(Shortest Processing Time,最短处理时间)、EDD(Earliest Due Date,最早到期日期)等调度规则,如后述,根据本发明的一实施例的基于强化学习的工厂内调度方法,其特征在于,选择使分数化的多个调度规则的加权和最大化的工作。作为参考,术语调度根据各种实施例中的各种使用例可以与术语“加载(loading)”和“安排(scheduling)”互换使用。
为此,可以利用各种调度分数,调度规则还可以变换为分数而使用,例如,工厂管理人员可以根据工厂的情况和需求将调度规则变换为分数而利用。这些调度分数反映在调度的瞬间工厂情况的全面信息,因此成为代表工厂整体情况的指标。下表1描述了调度分数的例。
<表1>
图3a是用于说明根据本发明的一实施例的调度器10选择工作的概念图,图3b是图3a所示的调度器10的详细框图。根据本发明的一实施例的基于强化学习的工厂内调度方法,其特征在于,(i)建立对在工厂内调度器10的调度动作和由此的奖励及工厂状态构建马尔可夫决策过程(MDP)、(ii)对构建的MDP适用强化学习来执行学习、(iii)选择分数化的调度规则的加权和最大的工件(参见图3a)、以及(iv)利用在(iii)中使用的调度规则对工厂的值函数近似化,作为强化学习的结果寻找带来更好的调度的权重。
下面,通过对成为根据本发明的工厂内调度方法的基础的强化学习(RL)的说明、马尔可夫决策过程(MDP)和半马尔可夫决策过程(Semi-MDP)的说明以及值函数(valuefunction)的近似化的说明,将更具体说明本发明的要达成的基于强化学习的工厂内调度方法及其装置。
马尔可夫决策过程(MDP)及强化学习(RL)
适用强化学习的第一步是以马尔可夫决策过程(MDP)的形态定义要解决的问题。在此,以下本说明书中定义的奖励可以在工厂内同时满足多个目的的方向上设定,并且优选设定为与要实现的多个目的相关的关键绩效指标(KPI)之间的相关性较低。这是因为学习阶段的分散会无意义地增加,从而导致错误的学习方向或学习缓慢。
在马尔可夫决策过程(MDP)中智能体遇到某个状态时,会采取动作,将连接可以针对每种状态采取的动作的函数称为策略,因此,马尔可夫决策过程(MDP)以动作为中心进行价值评价,马尔可夫决策过程(MDP)的最大目的是找到最优秀的决策策略,即找出根据动作的价值的和最大的决策策略。
马尔可夫决策过程(MDP)被特定为对象<T,S,A,P(·|s,a),R(s,a)>的集合,其中,T为离散时间区间,S为状态空间,A为动作空间,P(·|s,a)为状态转移概率(statetransition probability),R(s,a)为补偿函数。由于工厂对应于由各种机器、工作和工艺构成的复合系统,因此,实际上不能准确地计算出状态转移概率P(·|s,a),所以,当给定马尔可夫决策过程处于某种状态的事实时,在行进过程与到达其状态为止的过去过程无关的前提下(即给定当前时,未来独立于过去),可以假设具有充分的信息以将状态转移概率P(·|s,a)利用于用于实现工厂内调度的强化学习,如此,具有与过去完全无关的特征的状态转移概率P(·|s,a)可以如下式表示。
【数学式1】
P(st+1=s′|st,at)=P(st+1=s′|st,at,st-1,at-1,st-2,at-2,st-3,at-3,…,s0,a0)
强化学习是一种算法的集合,其可以在非常大的状态空间、非常大的活动空间以及不确定的状态转移概率下处理基于马尔可夫决策过程(MDP)的控制问题,并且,强化学习算法是基于值函数(value function)的估计,表示状态的价值的值函数可以如下定义。
【数学2】
Vπ(s)=Eπ[rt+1+γrt+22rt+3…|st=s]=Eπ[rt+1+γVπ(st+1)|st=s]
如上面的数学式2所示,值函数表示从当前的状态将来要发生的奖励的折旧(discounted)和的期望值。即值函数被定义为表示在决策者(即本发明中的“调度器”)的策略π下折旧的对未来奖励之和的期望值的状态函数。作为参考,数学式2的值函数可以如下面的数学式3的状态-活动的Q函数定义。
【数学式3】
Qπ(s,a)=Eπ[rt+1+γVπ(st+1)|st=s,at=a]
通过在策略π下估计值函数,可以根据以下数学式导出更优异的策略π`。
【数学式4】
对半马尔可夫决策过程(semi-MDP)的强化学习
一般的马尔可夫决策过程(MDP),其前提是在离散时间区间以预定时间间隔做出决策,与此不同,半马尔可夫决策过程是,其特征在于,在实际工厂中在连续的时间区间以非预定时间间隔做出决策(例如,调度动作等)。考虑到这种工厂内在连续的时间区间以非预定时间间隔发生的决策的特征,对典型的马尔可夫决策过程(MDP)进行一些修改是不可避免的,在以下本说明书中,将此修改的马尔可夫决策过程(MDP)指称为半马尔可夫决策过程(semi-MDP或SMDP)。
换而言之,根据本发明的一实施例的基于强化学习的工厂内调度方法,其特征在于,在构建马尔可夫决策过程(MDP)时基于在连续的时间区间以非预定间隔发生的决策构建半马尔可夫决策过程(semi-MDP),下面将再次描述对其的具体说明。
在典型的马尔可夫决策过程(MDP)中,将未来的价值换算为当前的价值的折旧率(或还可以称为减价率,贴现率等)γ为0和1之间的常数,并且奖励r不从属于时间间隔,但是,在构建要在根据本发明的一实施例的工厂内调度方法中适用的强化学习中的半马尔可夫决策过程(semi-MDP)时,奖励r和折旧率γ被改变为从属于如下决策之间的时间间隔τ的形态并利用。
【数学式5】
【数学式6】
γ→e-βτ
与基于在离散时间区间以预定间隔发生的决策的典型的马尔可夫决策过程(MDP)相比,充分考虑在工厂内制造产品的过程中发生的调度动作的特征,即在连续的时间区间以非预定时间间隔发生的决策的特征,如上所述改变奖励r和折旧率γ的项目,并由此构建运营半马尔可夫决策过程(semi-MDP),从而,在工厂内可以诱导最佳策略。
与基于在离散时间区间以预定间隔发生的决策的典型的马尔可夫决策过程(MDP)相比,充分考虑在工厂内制造产品的过程中发生的调度动作的特征,即在连续的时间区间以非预定时间间隔发生的决策的特征,如上所述改变奖励r和折旧率γ的项目,并由此构建运营半马尔可夫决策过程(semi-MDP),从而,在工厂内可以诱导最佳策略。
可见函数的近似化
如上所述,通常,制造工厂具有很大的状态空间和很大的活动空间,为了估算这种大型系统的值函数,可以进一步考虑值函数的近似化(approximation),在以下说明书中,作为值函数近似化的一例将描述参数化(parameterized)的值函数近似化。
作为参数化的函数近似化的结果,值函数可以具备具有从属于参数向量的状态特征的一般函数、线性函数、非线性函数或神经网结构,并且可以如以下数学式表示。
【数学式7】
在此,V(s)是值函数,是参数向量,/>是用于近似化的基函数。在根据本发明的一实施例的基于强化学习的工厂内调度改进中,用设备的调度分数向量表示/>作为近似化结果,值函数V(s)可以由参数向量/>和调度分数向量/>的乘积表现。
作为参考,通过利用函数近似化,值函数可以以参数空间的形态变更,大规模的近似化动态编程将状态转移概率设定为未知数,因此,如Adam、RMSProp等的各种随机梯度方法(Stochastic Gradient Method,SGD)可以用于备份样本。
在此,当执行值函数的近似化时,重要的关注点之一是使用调度分数向量作为基函数并另外使用参数向量时,该近似化是否会导出最佳的结果,作为一例,与其将整个工厂表现为工件的数量,不如用工件的数量、等待时间、处理时间、产品类型数量等表示,因为它反映工厂的更多信息的方面更优选,如此,若包含工厂的更多的信息,则更优选根据要改进的目标奖励。
为了满足这些条件,引进了上述“调度分数”的概念,因此,可以如下定义作为函数近似化的结果利用的调度分数向量
【数学式8】
此处,表示在机器i上最后选择的工作的调度分数Fi,j(S)的向量,/>表示对所有机器的/>的向量,其中,N是工作站中的机器的数量,M表示调度分数的数量。如上所述,根据本发明的一实施例的基于强化学习的工厂内调度方法用参数向量和调度分数向量的乘积实现值函数的近似化,在生成调度分数向量时,利用针对在相应机器上最后选择的工作的调度分数的向量,调度器10选择并执行使近似化的值函数的值最大化的工作,从而使工厂运营效率最大化。
另外,反映状态特征的调度分数向量具有在很大程度上不依赖于系统大小的特征,因此,根据本发明的一实施例的基于强化学习的工厂内调度方法不仅适用于中小型系统,还可以适用于半导体工厂等大型系统。
图3b是所述调度器10的详细框图的示例图,图4是根据本发明的一实施例的基于强化学习的工厂内调度方法(S400)的流程图。
根据本发明的一实施例的调度器10可以被构成为基于强化学习执行工厂内调度动作,如图3b所示,调度器10可由控制单元11、通信单元12、MDP构建单元13、强化学习单元14、工作选择单元15、存储单元16及电源单元17等构成。
控制单元11用于综合控制调度器10的整体动作、功能等,并控制其他元件(通信单元12、MDP构建单元13、强化学习单元14、工作选择单元15、存储单元16及电源单元17)的动作、功能,例如,可由控制器、微控制器、处理器及微处理器等实现。
MDP构建单元13可以对工厂内调度器10的调度动作、由此的奖励及工厂状态构建马尔可夫决策过程(MDP)(S410)。此处,MDP构建单元13还可以构成为构建所述马尔可夫决策过程(MDP)作为由基于在连续的时间区间以非预定间隔发生的决策的半马尔可夫决策过程(semi-MDP)。
强化学习单元14可以对构建的马尔可夫决策过程(MDP)适用强化学习(RL)来执行学习(S420)。此处,强化学习基于通过值函数的近似化估计值函数,作为值函数近似化的结果,值函数可以由参数向量与调度分数向量的乘积表现,调度分数向量可以对应于对在该机器上最后选择的工作的调度分数的向量。
工作选择单元15作为强化学习(RL)的结果可以选择使分数化的多个调度规则的加权和最大化的工作(S430)。例如,工作选择单元15可以被构成为选择通过参数向量和调度分数向量的乘积来使近似化的值函数的值最大化的工作。如上所述选择使分数化的多个调度规则的加权和最大化的工作的本发明与在多个调度规则中选择最佳调度规则的方式(例如,Ramirez-Hernandez方式)或选择适用于每个调度规则的权重的方式(例如Chen方式)不同。
附加地,通信单元12是用于调度器10与外部的其他元件通信的单元,其可以是有线及/或无线通信单元12。更加具体地,通信单元12可以通过有线或无线传输来自控制单元11、存储单元16等的数据,或者通过有线或无线从外部接收数据来向控制单元11传递或存储于存储单元16。所述数据可包含诸如文本、图像、视频等内容、用户影像等。
通信单元12可通过局域网(LAN)、宽带码分多址(WCDMA,Wideband Code DivisionMultiple Access)、长期演进(LTE,Long Term Evolution)、无线宽带因特网(WiBro,Wireless Broadband Internet)、射频(RF,Radio Frequency)通信、无线局域网(WirelessLAN)、无线保真(Wireless Fidelity)、近场通讯(NFC,Near Field Communication)、蓝牙、红外线通信等进行通信。但是,这仅仅是示例性的,根据适用本发明的实施例,可利用可在本发明所属技术领域中适用的各种有线、无线通信技术。
而且,在存储单元16可以存储有关调度器10的动作、功能的各种数据。在所述数据可以包括调度器10的调度动作、工厂的状态、奖励、构建的MDP及半-MDP模型、强化学习算法、近似化的值函数、参数向量、调度分数向量等,强化学习单元14可以基于存储在存储单元16的学习数据执行学习。
作为参考,如本领域的普通技术人员所知,存储单元16可以被实现为硬盘驱动器(HDD,Hard Disk Drive)、只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、电可擦写可编程只读存储器(EEPROM,Electrically Erasableand Programmable Read Only Memory)、闪存(flash memory)、紧凑型闪存(CF,CompactFlash)卡、安全数字(SD,Secure Digital)卡、智能媒体(SM,Smart Media)卡、多媒体(MMC,Multimedia)卡或记忆棒(Memory Stick)等可以输入输出信息的各种形式的存储装置,如图3b所示,其可设置于调度器10的内部,或者也可设置于单独的外部装置。
附加地,根据本发明调度器10还可以具备用于向调度器10供应电源的电源单元17,如上所述构成的调度器10内置于实时调度器(RTD:real-time dispatcher)或实时调度程序(realtime scheduler),可以构成用于强化学习的解决方案。
如上所述,根据本发明的一实施例的基于强化学习的工厂内调度方法及其装置,通过对工厂内环境的动作、奖励、状态进行强化学习,从而,选择使多个调度分数的加权和最大化的工作,并且,可以由此最大化工厂运营效率。
而且,根据本发明的一实施例的基于强化学习的工厂内调度方法及其装置,通过考虑在工厂内环境中发生的调度器的动作所具有的特性来改变适用马尔可夫决策过程,从而,可以更加适应性地适用于实际工厂环境。
根据本发明的一实施例的基于强化学习的工厂内调度方法及其装置,通过强化学习来学习并选择能同时满足在工厂内环境中所追求的各种目的的调度动作,由此能最大化工厂运营效率。
另一方面,本说明书中所记载的各种实施例可通过硬件、中间件、微代码、软件及/或它们的组合来实现。例如,各种实施例可在一个以上的专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、设计成执行本文提出的功能的其他电子单元或它们的组合中实现。
并且,例如,各种实施例可以被收录在包含指令的计算机可读介质中或在其上编码。在计算机可读介质上收录或编码的指令可以是可编程处理器或其他处理器执行诸如在执行指令时的方法。计算机可读介质包括计算机存储介质,计算机存储介质可以是计算机可以访问的任何可用介质。例如,这种计算机可读介质可以包括随机存取存储器(RAM)、只读存储器(ROM)、点可擦只读存储器(EEPROM)、只读光盘驱动器(CD-ROM)或其他光盘存储介质、磁盘存储介质或其他磁性存储设备。
这些硬件、软件、固件等可以在同一设备内或在单独的设备内实现,以支持本说明书中所描述的各种操作及功能。另外,本发明中被记载为“~部”的结构要素、单元、模块、组件等可以被一同或作为单独但可以相互操作的逻辑设备单独实现。对于模块、单元等的不同特征的描述旨在强调不同的功能实施例,并且不一定意味着它们必须由单独的硬件或软件组件来实现。相反,可以通过单独的硬件或软件组件来执行与一个以上的模块或单元相关的功能,或者可以合并到共同或单独的硬件或软件组件内。
尽管在附图中以特定顺序示出了多个操作,但是不应理解为这些操作以为了实现期望的结果而示出的特定顺序或依次执行,或者需要执行所有示出的操作。在任何环境下,多任务处理及并行处理可能更有利。尤其,所述实施例中的各种结构要素的划分不应被理解为在所有实施例中均需要这种划分,并且应当理解,所描述的结构要素通常可以集成在一起成为一个软件产品,或者封装成多个软件产品。
如上所述,在附图和说明书中公开了最佳实施例。尽管在说明书中使用了特定术语,但它们仅用于说明本发明,而并非用于限定含义或限制发明要求保护范围中所记载的本发明的范围。因此,本发明所属技术领域的普通技术人员可以理解可由此实施各种变形及等同的其他实施例。因此,本发明的真正的技术保护范围应由所附的发明要求保护范围的技术思想而定。

Claims (5)

1.一种基于强化学习的工厂内调度方法,其为基于强化学习的工厂内调度方法,其中,包括:
对在可重入生产线模型的基本单元结合多个而实现的工厂内调度器的调度动作及由此的奖励以及所述工厂的状态,构建基于在连续的时间区间以非预定间隔发生的决策的半马尔可夫决策过程的步骤;
对所述构建的半马尔可夫决策过程适用强化学习来执行学习的步骤;以及
作为所述强化学习结果,选择将分数化的多个调度规则的加权和最大化的工作的步骤,
其中,在所述半马尔可夫决策过程中,用于将未来的价值换算为当前的价值的折旧率以及所述奖励从属于决策之间的时间间隔,
所述强化学习基于通过值函数的近似化的所述值函数的估计,作为参数化的所述值函数的近似化的结果,所述值函数由对应于对在相应机器上最后选择的工作的调度分数的向量的调度分数向量和参数向量的乘积表现,所述调度分数向量作为用于所述值函数的近似化的基函数而被利用。
2.根据权利要求1所述的基于强化学习的工厂内调度方法,其中,所述奖励在所述工厂内同时满足多个目的的方向上设定。
3.根据权利要求1所述的基于强化学习的工厂内调度方法,其中,选择将所述分数化的多个调度规则的加权和最大化的工作的步骤包括选择将所述近似化的值函数的值最大化的工作的步骤。
4.一种计算机可读记录介质,其中,所述计算机可读记录介质中记录有通过计算机执行根据权利要求1至3中任一项所述的方法的程序。
5.一种调度器(10),其为被构成为执行基于强化学习的工厂内调度动作的调度器(10),其中,包括:
马尔可夫决策过程构建单元(13),被构成为对在可重入生产线模型的基本单元结合多个而实现的工厂内所述调度器的调度动作及由此的奖励以及所述工厂的状态,构建基于在连续的时间区间以非预定间隔发生的决策的半马尔可夫决策过程;
强化学习单元(14),被构成为对所述构建的半马尔可夫决策过程适用强化学习来执行学习;以及
工作选择单元(15),被构成为作为所述强化学习的结果,选择将分数化的多个调度规则的加权和最大化的工作,
其中,在所述半马尔可夫决策过程中,用于将未来的价值换算为当前的价值的折旧率以及所述奖励从属于决策之间的时间间隔,
所述强化学习基于通过值函数的近似化的所述值函数的估计,作为参数化的所述值函数的近似化的结果,所述值函数由对应于对在相应机器上最后选择的工作的调度分数的向量的调度分数向量和参数向量的乘积表现,所述调度分数向量作为用于所述值函数的近似化的基函数而被利用。
CN202010547171.1A 2019-06-17 2020-06-16 强化学习及基于模拟的工厂内调度方法以及其装置 Active CN112101695B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190071369A KR102251316B1 (ko) 2019-06-17 2019-06-17 강화 학습 및 시뮬레이션 기반의 공장 내 디스패칭 방법 및 그 장치
KR10-2019-0071369 2019-06-17

Publications (2)

Publication Number Publication Date
CN112101695A CN112101695A (zh) 2020-12-18
CN112101695B true CN112101695B (zh) 2024-06-18

Family

ID=73745984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010547171.1A Active CN112101695B (zh) 2019-06-17 2020-06-16 强化学习及基于模拟的工厂内调度方法以及其装置

Country Status (3)

Country Link
US (1) US11409268B2 (zh)
KR (1) KR102251316B1 (zh)
CN (1) CN112101695B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102020204351A1 (de) * 2020-04-03 2021-10-07 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung und verfahren zum planen einer mehrzahl von aufträgen für eine vielzahl von maschinen
KR20220092227A (ko) * 2020-12-24 2022-07-01 한국공학대학교산학협력단 분산형 엣지 컴퓨팅 기반의 자율화 공장 운영 시스템
CN112633772B (zh) * 2021-01-05 2021-12-10 东华大学 一种纺织面料染色车间多智能体深度强化学习调度方法
CN112987665B (zh) * 2021-02-09 2022-04-12 东北大学 一种基于强化学习的流水车间调度方法
CN113191548A (zh) * 2021-04-29 2021-07-30 南京航空航天大学 一种生产调度方法
CN113419424B (zh) * 2021-07-05 2023-08-18 清华大学深圳国际研究生院 减少过估计的模型化强化学习机器人控制方法及系统
US11860592B2 (en) 2021-12-22 2024-01-02 Ford Global Technologies, Llc Systems and methods for training a reinforcement learning system for pallet routing in a manufacturing environment
CN114862170B (zh) * 2022-04-27 2024-04-19 昆明理工大学 一种用于通信设备制造过程的学习型智能调度方法、系统
CN114610474B (zh) * 2022-05-12 2022-09-02 之江实验室 一种异构超算环境下多策略的作业调度方法及系统
KR102590515B1 (ko) * 2022-11-07 2023-10-19 (주)브이엠에스 솔루션스 공장 상황을 나타내는 이미지에 대한 전처리 장치 및 방법
CN116307440B (zh) * 2022-11-21 2023-11-17 暨南大学 一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用
CN116500994B (zh) * 2023-05-05 2024-05-03 成都理工大学 一种低碳分布式柔性作业车间的动态多目标调度方法
CN118297357B (zh) * 2024-06-05 2024-09-10 中国人民解放军海军航空大学 一种基于图注意力神经网络的飞机保障作业调度方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106850289B (zh) * 2017-01-25 2020-04-24 东南大学 结合高斯过程与强化学习的服务组合方法
US11091211B1 (en) * 2017-12-22 2021-08-17 AI Incorporated Autonomous versatile vehicle system
US11616813B2 (en) * 2018-08-31 2023-03-28 Microsoft Technology Licensing, Llc Secure exploration for reinforcement learning

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于增强学习的平行机调度研究;张智聪;郑力;翁小华;;计算机集成制造系统(第01期);第110-116页 *

Also Published As

Publication number Publication date
KR20200143821A (ko) 2020-12-28
US20200393820A1 (en) 2020-12-17
CN112101695A (zh) 2020-12-18
US11409268B2 (en) 2022-08-09
KR102251316B1 (ko) 2021-05-12

Similar Documents

Publication Publication Date Title
CN112101695B (zh) 强化学习及基于模拟的工厂内调度方法以及其装置
Kuhnle et al. Designing an adaptive production control system using reinforcement learning
Wang et al. Application of reinforcement learning for agent-based production scheduling
JP7301034B2 (ja) 準ニュートン信頼領域法を用いたポリシー最適化のためのシステムおよび方法
JP6975272B2 (ja) 深層強化学習及び転移学習を用いた製造ディスパッチングのためのシステム
US11054812B2 (en) Skill interface for industrial applications
Zhang et al. Flow shop scheduling with reinforcement learning
CN113506048A (zh) 一种柔性作业车间的调度方法
Wang et al. Learning policies for single machine job dispatching
Amirnia et al. A context-aware real-time human-robot collaborating reinforcement learning-based disassembly planning model under uncertainty
Wu et al. Production control in a complex production system using approximate dynamic programming
Gu et al. A distributed physical architecture and data-based scheduling method for smart factory based on intelligent agents
Mohseni-Kabir et al. Efficient robot planning for achieving multiple independent partially observable tasks that evolve over time
CN112514352A (zh) 更新调度规则的方法、设备、系统、存储介质和终端
WO2024015790A1 (en) Machine learning modeling of time series with divergent scale
CN116703104A (zh) 一种基于决策大模型的料箱机器人订单拣选方法及装置
JP7464115B2 (ja) 学習装置、学習方法および学習プログラム
JP7420236B2 (ja) 学習装置、学習方法および学習プログラム
Workneh et al. Deep q network method for dynamic job shop scheduling problem
CN113627646A (zh) 一种基于神经网络的路径规划方法、装置、设备及介质
CN111967641A (zh) 一种基于深度学习的规划子目标合并方法
Chorghe et al. A NOVEL DECENTRALIZED APPROACH FOR PRODUCTION SCHEDULING
US20240362491A1 (en) Transfer reinforcement learning method and apparatus, and multi-task reinforcement learning method and apparatus
EP3965033A1 (en) Method and device for generating logistics configurations for a production facility
US20220414573A1 (en) Method and system for semi-automatic completion of an engineering project

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant