CN114066232B - 基于分布式强化学习和边缘计算的工厂调度方法及系统 - Google Patents

基于分布式强化学习和边缘计算的工厂调度方法及系统 Download PDF

Info

Publication number
CN114066232B
CN114066232B CN202111349982.1A CN202111349982A CN114066232B CN 114066232 B CN114066232 B CN 114066232B CN 202111349982 A CN202111349982 A CN 202111349982A CN 114066232 B CN114066232 B CN 114066232B
Authority
CN
China
Prior art keywords
cloud
model
local action
reinforcement learning
action model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111349982.1A
Other languages
English (en)
Other versions
CN114066232A (zh
Inventor
郭洪飞
陈世帆
郭海全
曾云辉
伍泓韬
刘景顺
何智慧
任亚平
张锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Inner Mongolia North Heavy Industries Group Co Ltd
Inner Mongolia University of Technology
Original Assignee
Jinan University
Inner Mongolia North Heavy Industries Group Co Ltd
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University, Inner Mongolia North Heavy Industries Group Co Ltd, Inner Mongolia University of Technology filed Critical Jinan University
Priority to CN202111349982.1A priority Critical patent/CN114066232B/zh
Publication of CN114066232A publication Critical patent/CN114066232A/zh
Application granted granted Critical
Publication of CN114066232B publication Critical patent/CN114066232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于工业物联网技术领域,公开了基于分布式强化学习和边缘计算的工厂调度方法及系统。所述系统包括本地动作模型、边缘设备、云端数据存储器和云端策略模型。方法为:初始化本地动作模型和边缘设备;本地动作模型实时生成适配不同流水线的调度规则;边缘设备对实时产生的生产信息进行编码,生成两参数元组和五参数元组分别发送至本地动作模型和云端数据存储器;云端策略模型对云端存储的数据进行优先级采样、重要性排序和更新;同步云端策略模型和本地动作模型。本发明将边缘计算与分布式强化学习算法结合应用于工业生产,实现了数据实时传输和工业生产实时调度,并通过本地设备与云端设备的交互,不断提高模型准确性,优化工业生产效率。

Description

基于分布式强化学习和边缘计算的工厂调度方法及系统
技术领域
本发明属于工业物联网技术领域,具体涉及基于分布式强化学习和边缘计算的工厂调度方法及系统。
背景技术
在如今的物联网时代,数据需要比以往更快地发送和接收,而直接将智能设备连接到云的方法存在许多缺点,如时延较大、带宽受限等,故此前的云计算技术无法很好地满足物联网应用的多样化需求。近年来,随着物联网设备日益广泛的部署、5G网络基础的逐渐完善,边缘计算得到迅猛发展,由于边缘计算能够进行实时地数据处理和分析,并且具备安全性高、可扩展性强等优势,较好地弥补了当今云计算的不足之处,受到了人们广泛的关注,并且在车辆互联、医疗保健、智能建筑控制等领域取得了很好的效果,将边缘计算应用于工业制造上,也逐渐成为了新的研究热点。
与此同时,随着工业4.0时代的到来,“智能工厂”成为了新时代背景下推动工业生产的一个重要发展方向,而人工智能技术是实现工厂“智能化”的关键技术之一,其能使工厂完成自动的制造、调度、维护等工业生产环节。其中,强化学习作为一种新兴的人工智能算法,可以在没有给定的初始数据或策略的情况下,通过智能体与环境的不断交互,实现策略的进一步优化,从而生成最优策略,因此,将其应用于工业生产调度领域的相关研究也日益增多。同时,近年来提出的分布式强化学习算法能够生成更丰富的供智能体训练的样本,使其能与实际的工业生产领域更好地结合。
现有技术中,将人工智能技术中的强化学习算法运用于工业生产领域中的研究取得了较多的成果,但受数据传输等多方面限制,使得上述的研究难以应用于现实的工业生产中。专利文献CN2021101771444公开了一种基于深度强化学习的流水车间调度方法,将每个工件的嵌入表示作为策略网络的输入,并依次选择概率最高的工件,直到所有工件选择完毕得到完整的调度序列,具有较好的通用性;申请号为CN2020114067483的专利文献提供了基于深度强化学习的动态生产调度方法、装置及电子设备,通过将各作业的静态特征和动态特征以及系统动态特征输入至调度模型,从而输出各作业在每个生产阶段的作业执行顺序或者批次执行顺序,可以在不超过生产设备处理能力的基础上,减少作业整体处理时间。但是,这两者均未涉及将边缘计算与工业生产领域相结合,且均未涉及分布式强化学习在生产调度中的应用,其在数据实时传输、模型输出的准确性等方面还有待进一步提高。
发明内容
针对上述现有技术的不足,本发明提供了基于分布式强化学习和边缘计算的工厂调度方法,将边缘计算与工业生产相结合,更好地实现数据的实时传输;运用分布式强化学习算法,提高模型输出的准确性;并通过本地动作模型与云端策略模型的交互运行、同步更新,实现模型的不断优化,更优地实现工业生产实时调度的效果,进一步促进技术落地,实现工业生产效率的优化。
为实现上述技术目的,本发明采用以下技术方案:
基于分布式强化学习和边缘计算的工厂调度方法,所述方法包括如下步骤:
步骤S1:初始化本地动作模型和边缘设备;
步骤S2:本地动作模型根据不同流水线的ID生成初始调度规则,并分配到相应的流水线上;
步骤S3:边缘设备对当前环境实时产生的生产信息进行编码,生成能够反映当前时刻生产环境所处状态的特征s,并生成两参数元组(s,ID)和五参数元组(s,a,r,s’,ID),其中的参数分别为:反映当前时刻生产环境状态的特征s,本地动作模型在当前时刻所采取的动作a,生产环境在当前时刻反馈给模型的奖励r,反映下一时刻生产环境的特征s’,流水线的编号ID;
步骤S4:所述边缘设备将两参数元组(s,ID)传输至本地动作模型作为输入,本地动作模型采用分布式强化学习算法,生成适配不同流水线的新的调度规则,然后转入步骤S3;同时,将五参数元组(s,a,r,s’,ID)发送至部署在云端的云端数据存储器中进行存储;
步骤S5:云端策略模型将对云端数据存储器所存储的数据进行优先级采样;
步骤S6:对云端数据存储器所存储的特征数据依据其重要性进行排序,以此更新云端数据存储器;
步骤S7:在一定的时间间隔t后,对云端策略模型和本地动作模型进行同步,依据云端策略模型更新本地动作模型。
进一步地,所述步骤S1中,初始化本地动作模型和边缘设备,具体包括:设定本地动作模型的基本参数,预设不同流水线的初始调度规则分配策略,设定边缘设备的基本参数和编码算法。
进一步地,所述步骤S3中,边缘设备对当前环境实时产生的生产信息进行编码,具体包括:在生产过程中,当每一条流水线根据本地动作模型当前分配的调度规则调度工件时,会在各个流水线上得到相应的调度结果,生产环境根据调度结果将会实时地产生新的生产信息并传输至边缘设备中,由边缘设备对实时产生的生产信息进行编码。
进一步地,步所述骤S4中,本地动作模型采用分布式强化学习算法,生成适配不同流水线的新的调度规则,具体包括:本地动作模型采用分布式强化学习算法,根据不同流水线的ID,在每一个流水线上采用不同的ε,以不同的概率选择随机的动作,为不同的流水线采用ε-greedy算法生成适配该流水线的新的调度规则。
更进一步地,所述分布式强化学习算法具体包括如下步骤:
S41:在不同的生产环境中运行智能体,存储智能体与环境交互产生的样本数据;
S42:远程同步云端策略模型与本地动作模型的参数;
S43:从生产环境中获取初始状态;
S44:对于时间t=1-T,执行以下过程:
利用当前策略选择不同的动作;
将所选的动作运用于当前生产环境中;
利用边缘设备对生产环境状态特征s进行编码,并将数据存储在本地缓存中;
每隔一段时间将本地缓存上传到云端数据存储器样本池中,并将本地缓存清空,同时计算各个样本的优先级;
利用云端数据对策略模型进行更新,并将云端策略模型同步到本地动作模型。
进一步地,所述步骤S5具体包括:部署在云端的云端策略模型将对云端数据存储器所存储的数据进行优先级采样,并将所采样到的数据作为云端策略模型的输入训练云端策略模型,得到更优的云端策略模型参数。
更进一步地,在进行步骤S5和步骤S6时,所述云端策略模型中包含如下算法步骤:
S61:利用从样本池中采样的batch(批量)更新网络;
S62:对于时间t=1-T,执行以下过程:
在后台线程中对已按优先级排列的batch(批量)进行采样;
执行更新策略;
重新计算并更新云端数据存储器样本池中样本的优先级;
移除云端数据存储器样本池中比较早的样本。
基于分布式强化学习和边缘计算的工厂调度系统,所述系统包括:
本地动作模型:部署在本地,执行当前的调度规则分配策略,具体地,在初始化状态时,根据不同流水线的ID,采用预设的初始调度规则分配策略,生成初始调度规则并分配到相应的流水线上;在生产过程中,根据从边缘设备获取到的生产特征s以及流水线ID所构建的两参数元组(s,ID)作为输入,采用分布式强化学习算法,实时为每个不同的流水线输出适合该流水线所处状态的新的调度规则并分配到相应的流水线上;
边缘设备:部署在本地,所述边缘设备进行过预训练,能够实现将生产环境中的实时生产信息进行编码,转化成能够反映当前时刻生产环境所处状态的特征s,并生成两参数元组(s,ID)和五参数元组(s,a,r,s’,ID),并将两参数元组(s,ID)发送至本地动作模型作为本地动作模型的输入,将五参数元组(s,a,r,s’,ID)发送至部署在云端的云端数据存储器中进行存储;
云端数据存储器:部署在云端,作为缓冲器用以存储边缘设备所传输来的五参数元组(s,a,r,s’,ID),以供云端策略模型进行训练和更新;
云端策略模型:部署在云端,对云端数据存储器进行优先级采样,并将所采样到的数据作为模型输入,进行云端策略模型的训练,实现对云端策略模型参数的更新及优化,并在一定的时间间隔t后,对云端策略模型和本地动作模型进行同步,依据云端策略模型更新本地动作模型。
进一步地,所述边缘设备为向企业或服务提供商的核心网络提供入口点的编码器设备。
与现有技术相比,本发明所产生的有益效果是:
(1)本申请将边缘计算与工业生产相结合,更好地实现了数据的实时发送与接收;同时,采用分布式强化学习算法,针对工业生产环境中的多条流水线,进行不同的ID编号,通过本地动作模型为不同ID的流水线生成不同的调度规则与工业生产环境进行交互,能够获取更丰富的训练数据,更好地实现模型优化,以提高本地动作模型输出的准确性,更优地实现工业生产实时调度的效果;
(2)本申请通过本地设备与云端设备的交互,将边缘设备根据实时产生的生产信息进行编码生成的五参数元组(s,a,r,s’,ID)发送存储至云端数据存储器中,由云端策略模型将对云端数据存储器中的数据进行优先级采样,并对云端数据存储器存储的特征数据进行重要性排序,以此更新云端数据存储器;由于云端设备与本地设备存在传输时延,难以做到实时同步,故在一定的时间间隔t后,对云端策略模型和本地动作模型进行同步,依据云端策略模型更新本地动作模型,通过这种方式,能够不断优化本地动作模型,获得更优解,使得本地动作模型所求得的实时调度规则更易于运用到实际的工业生产中,从而进一步促进技术落地,实现工业生产效率的优化;
(3)本申请提供的基于分布式强化学习和边缘计算的工厂调度方法及系统,提出了一种将云端设备与本地设备协同工作的框架,分开部署模型的训练模块与应用模块,将模型的训练部署在云端,而模型在本地中得到运用,使得云端策略模型的训练与本地动作模型的应用可分别同步进行,互不干扰,增加了系统模型的响应速度和灵敏度。
附图说明
图1为本发明实施例的方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供了基于分布式强化学习和边缘计算的工厂调度方法及系统,所述系统包括:本地动作模型、边缘设备Encoder、云端数据存储器和云端策略模型。其中:
所述本地动作模型:部署在本地,执行当前的调度规则分配策略,具体地,在初始状态时,根据不同流水线的ID,采用预设的初始调度规则分配策略,为不同的流水线生成适配该流水线的初始调度规则并分配到相应的流水线上;在生产过程中,根据从边缘设备获取到的生产特征s及流水线ID所构建的两参数元组(s,ID)作为本地动作模型的输入,采用分布式强化学习算法,实时为每个不同的流水线输出适合该流水线所处状态的新的调度规则并分配到相应的流水线上,以实现工业生产的实时调度;
所述边缘设备Encoder:部署在本地,具体可为路由器、路由交换机等向企业或服务提供商的核心网络提供入口点的设备;所述边缘设备Encoder进行过预训练,能够实现对不同的生产环境所产生的生产信息进行实时编码,转化成能够反映当前时刻生产环境所处状态的特征s,并生成作为本地动作模型输入的两参数元组(s,ID)和分布式强化学习框架中所需的五参数元组(s,a,r,s’,ID),其中的五个参数分别为:反映当前时刻生产环境状态的特征s,本地动作模型在当前时刻所采取的动作a,环境在当前时刻反馈给模型的奖励r,反映下一时刻生产环境的特征s’,流水线的编号ID;
所述云端数据存储器:部署在云端,作为所提出的分布式强化学习框架中的缓冲器buffer,用以存储边缘设备Encoder所传输来的五参数元组(s,a,r,s’,ID),以供云端策略模型进行训练和更新;
所述云端策略模型:部署在云端,对云端数据存储器进行优先级采样,并将所采样到的数据作为模型输入,进行云端策略模型的训练,实现对云端策略模型参数的更新及优化,并在一定的时间间隔t后,对云端策略模型和本地动作模型进行同步,依据云端策略模型更新本地动作模型。
结合图1所示,本发明提供的基于分布式强化学习和边缘计算的工厂调度方法,具体包括以下步骤:
步骤S1:初始化本地动作模型与边缘设备Encoder,具体包括:设定本地动作模型的基本参数,预设不同流水线的初始调度规则分配策略,设定边缘设备的基本参数和编码算法;
步骤S2:在初始状态时,本地动作模型根据不同流水线的ID,采用预设的初始调度规则分配策略,生成初始调度规则并分配到相应的流水线上;
步骤S3:在生产过程中,当每一条流水线根据本地动作模型当前分配的调度规则调度工件时,会在各个流水线上得到相应的调度结果,生产环境根据调度结果将会实时地产生新的生产信息并传输至边缘设备中;所述调度规则具体可为FIFO(先入先出),LIFO(后入先出)等动作,所述生产信息具体可包括当前时刻下流水线产能、单位生产时间、设备利用率、单位平均能耗等实时信息;边缘设备Encoder根据当前环境实时产生的生产信息进行编码,形成可处理、可传输的反应当前生产状况的特征s,并生成生产特征s及流水线ID所构建的两参数元组(s,ID),以及由前生产状态特征s、本地动作模型在当前时刻所输出的各个调度规则a、环境在当前时刻反馈给模型的奖励r(具体可为工件的完成时间)、反映下一时刻生产环境的特征s’、流水线的编号ID所构成的五参数元组(s,a,r,s’,ID);
步骤S4:边缘设备将两参数元组(s,ID)发送至本地动作模型作为输入,由于不同的流水线所处的环境不同,本地动作模型采用分布式强化学习算法,根据不同流水线的ID,在每一个流水线上采用不同的ε,以不同的概率选择随机的动作(指不同的调度规则),为不同的流水线采用ε-greedy算法生成适配该流水线的新的调度规则,然后转入步骤S3,继续下一个循环,此过程中无需进行本地设备与云端设备的交互亦可完成工业生产的实时调度;同时,边缘设备将将五参数元组(s,a,r,s’,ID)发送至部署在云端的云端数据存储器中进行存储;
其中,所述分布式强化学习算法具体包括如下步骤:
S41:在不同的生产环境中运行智能体,存储智能体与环境交互产生的样本数据;
S42:远程同步云端策略模型与本地动作模型的参数;
S43:从生产环境中获取初始状态;
S44:对于时间t=1-T,执行以下过程:
利用当前策略选择不同的动作;
将所选的动作运用于当前生产环境中;
利用边缘设备对生产环境状态特征s进行编码,并将数据存储在本地缓存中;
每隔一段时间将本地缓存上传到云端数据存储器样本池中,并将本地缓存清空,同时计算各个样本的优先级;
利用云端数据对策略模型进行更新,并将云端策略模型同步到本地动作模型。
步骤S5:部署在云端的云端策略模型对云端数据存储器所存储的数据进行优先级采样,并将所采样到的数据作为云端策略模型的输入,训练、优化云端策略模型,得到更优的云端策略模型参数;
步骤S6:云端策略模型依据数据的重要性,对存储在云端数据存储器的特征数据进行排序,以此更新云端数据存储器;
其中,在进行步骤S5和步骤S6时,所述云端策略模型中包含如下算法步骤:
S61:利用从样本池中采样的batch(批量)更新网络;
S62:对于时间t=1-T,执行以下过程:
在后台线程中对已按优先级排列的batch(批量)进行采样;
执行更新策略;
重新计算并更新云端数据存储器样本池中样本的优先级;
移除云端数据存储器样本池中比较早的样本。
步骤S7:由于云端设备与本地设备存在传输时延,难以做到实时同步,故在一定的时间间隔t后,对云端策略模型和本地动作模型进行同步,依据云端策略模型更新本地动作模型,使得本地动作模型的参数与云端策略模型参数一致,以此优化本地动作模型。
如此循环反复,通过本地设备与云端设备的不断交互,实现所述云端策略模型与本地动作模型的更新与应用,使得本地动作模型在周期性的更新过程中不断优化,从而获得更优解,能够实时地为各个流水线分配更加适配该流水线的新的调度规则,实现工业生产效率的优化;同时,通过云端设备与本地设备的协同工作,分开部署模型的训练模块与应用模块,将模型的训练部署在云端,而模型在本地中得到运用,使得云端策略模型的训练与本地动作模型的应用分别同步进行,互不干扰,增加了系统模型的响应速度和灵敏度。
以上所述仅为本申请的实施例而已,并不用以限制本发明。凡在本发明的申请范围内所做的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.基于分布式强化学习和边缘计算的工厂调度方法,其特征在于,所述方法包括如下步骤:
步骤S1:初始化本地动作模型和边缘设备;
步骤S2:本地动作模型根据不同流水线的ID生成初始调度规则,并分配到相应的流水线上;
步骤S3:边缘设备对当前环境实时产生的生产信息进行编码,生成能够反映当前时刻生产环境所处状态的特征s,并生成两参数元组(s,ID)和五参数元组(s,a,r,s’,ID),其中的参数分别为:反映当前时刻生产环境状态的特征s,本地动作模型在当前时刻所采取的动作a,生产环境在当前时刻反馈给模型的奖励r,反映下一时刻生产环境的特征s’,流水线的编号ID;
步骤S4:所述边缘设备将两参数元组(s,ID)传输至本地动作模型作为输入,本地动作模型采用分布式强化学习算法,生成适配不同流水线的新的调度规则,然后转入步骤S3;同时,将五参数元组(s,a,r,s’,ID)发送至部署在云端的云端数据存储器中进行存储;
步骤S5:云端策略模型将对云端数据存储器所存储的数据进行优先级采样;
步骤S6:对云端数据存储器所存储的特征数据依据其重要性进行排序,以此更新云端数据存储器;
步骤S7:在一定的时间间隔t后,对云端策略模型和本地动作模型进行同步,依据云端策略模型更新本地动作模型;
所述步骤S4中,本地动作模型采用分布式强化学习算法,生成适配不同流水线的新的调度规则,具体包括:本地动作模型采用分布式强化学习算法,根据不同流水线的ID,在每一个流水线上采用不同的ε,以不同的概率选择随机的动作,为不同的流水线采用ε-greedy算法生成适配该流水线的新的调度规则;
所述分布式强化学习算法具体包括如下步骤:
S41:在不同的生产环境中运行智能体,存储智能体与环境交互产生的样本数据;
S42:远程同步云端策略模型与本地动作模型的参数;
S43:从生产环境中获取初始状态;
S44:对于时间t=1-T,执行以下过程:
利用当前策略选择不同的动作;
将所选的动作运用于当前生产环境中;
利用边缘设备对生产环境状态特征s进行编码,并将数据存储在本地缓存中;
每隔一段时间将本地缓存上传到云端数据存储器样本池中,并将本地缓存清空,同时计算各个样本的优先级;
利用云端数据对策略模型进行更新,并将云端策略模型同步到本地动作模型。
2.根据权利要求1所述的基于分布式强化学习和边缘计算的工厂调度方法,其特征在于,所述步骤S1中,初始化本地动作模型和边缘设备,具体包括:设定本地动作模型的基本参数,预设不同流水线的初始调度规则分配策略,设定边缘设备的基本参数和编码算法。
3.根据权利要求1所述的基于分布式强化学习和边缘计算的工厂调度方法,其特征在于,所述步骤S3中,边缘设备对当前环境实时产生的生产信息进行编码,具体包括:在生产过程中,当每一条流水线根据本地动作模型当前分配的调度规则调度工件时,会在各个流水线上得到相应的调度结果,生产环境根据调度结果将会实时地产生新的生产信息并传输至边缘设备中,由边缘设备对实时产生的生产信息进行编码。
4.根据权利要求1所述的基于分布式强化学习和边缘计算的工厂调度方法,其特征在于,所述步骤S5具体包括:部署在云端的云端策略模型将对云端数据存储器所存储的数据进行优先级采样,并将所采样到的数据作为云端策略模型的输入训练云端策略模型,得到更优的云端策略模型参数。
5.根据权利要求1所述的基于分布式强化学习和边缘计算的工厂调度方法,其特征在于,在进行步骤S5和步骤S6时,所述云端策略模型中包含如下算法步骤:
S61:利用从样本池中采样的batch更新网络;
S62:对于时间t=1-T,执行以下过程:
在后台线程中对已按优先级排列的batch进行采样;
执行更新策略;
重新计算并更新云端数据存储器样本池中样本的优先级;
移除云端数据存储器样本池中比较早的样本。
6.基于分布式强化学习和边缘计算的工厂调度系统,其特征在于:所述系统包括:
本地动作模型:部署在本地,执行当前的调度规则分配策略,具体地,在初始化状态时,根据不同流水线的ID,采用预设的初始调度规则分配策略,生成初始调度规则并分配到相应的流水线上;在生产过程中,根据从边缘设备获取到的生产特征s以及流水线ID所构建的两参数元组(s,ID)作为输入,采用分布式强化学习算法,实时为每个不同的流水线输出适合该流水线所处状态的新的调度规则并分配到相应的流水线上;
边缘设备:部署在本地,所述边缘设备进行过预训练,能够实现将生产环境中的实时生产信息进行编码,转化成能够反映当前时刻生产环境所处状态的特征s,并生成两参数元组(s,ID)和五参数元组(s,a,r,s’,ID),其中的参数分别为:反映当前时刻生产环境状态的特征s,本地动作模型在当前时刻所采取的动作a,生产环境在当前时刻反馈给模型的奖励r,反映下一时刻生产环境的特征s’,流水线的编号ID;然后,所述边缘设备将两参数元组(s,ID)发送至本地动作模型作为本地动作模型的输入,将五参数元组(s,a,r,s’,ID)发送至部署在云端的云端数据存储器中进行存储;
云端数据存储器:部署在云端,作为缓冲器用以存储边缘设备所传输来的五参数元组(s,a,r,s’,ID),以供云端策略模型进行训练和更新;
云端策略模型:部署在云端,对云端数据存储器进行优先级采样,并将所采样到的数据作为模型输入,进行云端策略模型的训练,实现对云端策略模型参数的更新及优化,并在一定的时间间隔t后,对云端策略模型和本地动作模型进行同步,依据云端策略模型更新本地动作模型;
所述本地动作模型中,采用分布式强化学习算法,实时为每个不同的流水线输出适合该流水线所处状态的新的调度规则并分配到相应的流水线上,具体包括:本地动作模型采用分布式强化学习算法,根据不同流水线的ID,在每一个流水线上采用不同的ε,以不同的概率选择随机的动作,为不同的流水线采用ε-greedy算法生成适配该流水线的新的调度规则;
所述分布式强化学习算法具体包括如下步骤:
S41:在不同的生产环境中运行智能体,存储智能体与环境交互产生的样本数据;
S42:远程同步云端策略模型与本地动作模型的参数;
S43:从生产环境中获取初始状态;
S44:对于时间t=1-T,执行以下过程:
利用当前策略选择不同的动作;
将所选的动作运用于当前生产环境中;
利用边缘设备对生产环境状态特征s进行编码,并将数据存储在本地缓存中;
每隔一段时间将本地缓存上传到云端数据存储器样本池中,并将本地缓存清空,同时计算各个样本的优先级;
利用云端数据对策略模型进行更新,并将云端策略模型同步到本地动作模型。
7.根据权利要求6所述的工厂调度系统,其特征在于,所述边缘设备为向企业或服务提供商的核心网络提供入口点的编码器设备。
CN202111349982.1A 2021-11-15 2021-11-15 基于分布式强化学习和边缘计算的工厂调度方法及系统 Active CN114066232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111349982.1A CN114066232B (zh) 2021-11-15 2021-11-15 基于分布式强化学习和边缘计算的工厂调度方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111349982.1A CN114066232B (zh) 2021-11-15 2021-11-15 基于分布式强化学习和边缘计算的工厂调度方法及系统

Publications (2)

Publication Number Publication Date
CN114066232A CN114066232A (zh) 2022-02-18
CN114066232B true CN114066232B (zh) 2022-07-22

Family

ID=80272243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111349982.1A Active CN114066232B (zh) 2021-11-15 2021-11-15 基于分布式强化学习和边缘计算的工厂调度方法及系统

Country Status (1)

Country Link
CN (1) CN114066232B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116594358B (zh) * 2023-04-20 2024-01-02 暨南大学 基于强化学习的多层工厂车间调度方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858009A (zh) * 2020-07-30 2020-10-30 航天欧华信息技术有限公司 基于迁移和强化学习的移动边缘计算系统任务调度方法
CN112685165A (zh) * 2021-01-08 2021-04-20 北京理工大学 一种基于联合强化学习策略的多目标云工作流调度方法
CN113487165A (zh) * 2021-07-01 2021-10-08 福州大学 基于深度强化学习的智能工厂生产作业调度方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191934B (zh) * 2019-12-31 2022-04-15 北京理工大学 一种基于强化学习策略的多目标云工作流调度方法
CN113568727B (zh) * 2021-07-23 2024-05-10 湖北工业大学 一种基于深度强化学习的移动边缘计算任务分配方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858009A (zh) * 2020-07-30 2020-10-30 航天欧华信息技术有限公司 基于迁移和强化学习的移动边缘计算系统任务调度方法
CN112685165A (zh) * 2021-01-08 2021-04-20 北京理工大学 一种基于联合强化学习策略的多目标云工作流调度方法
CN113487165A (zh) * 2021-07-01 2021-10-08 福州大学 基于深度强化学习的智能工厂生产作业调度方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于强化学习的在线协任务调度与分配;曹万里;《中国优秀硕士学位论文全文数据库 信息科技辑》;20210815;I140-60 *

Also Published As

Publication number Publication date
CN114066232A (zh) 2022-02-18

Similar Documents

Publication Publication Date Title
CN111191934B (zh) 一种基于强化学习策略的多目标云工作流调度方法
CN109753751A (zh) 一种基于机器学习的mec随机任务迁移方法
CN110222005A (zh) 用于异构架构的数据处理系统及其方法
CN114066232B (zh) 基于分布式强化学习和边缘计算的工厂调度方法及系统
CN109725988B (zh) 一种任务调度方法和装置
CN106610867B (zh) 一种片上网络任务调度方法及装置
CN109491956B (zh) 一种异构协同计算系统
CN113377531B (zh) 基于无线能量驱动的移动边缘计算分布式服务部署方法
CN115271130B (zh) 面向船舶主动力设备维修订单的动态调度方法及系统
CN109445386A (zh) 一种基于onba的云制造任务最短生产时间调度方法
CN111198550A (zh) 基于案例推理的云端智能生产优化调度在线决策方法及系统
CN114707881A (zh) 一种基于深度强化学习的作业车间自适应调度方法
CN112261725A (zh) 一种基于深度强化学习的数据包传输智能决策方法
CN110764833B (zh) 一种基于边缘计算的任务卸载方法、装置及系统
CN116795535A (zh) 基于车边云协同架构的任务卸载方法、系统以及介质
CN110753366A (zh) 行业短信网关容量的预测处理方法及装置
CN110656385B (zh) 一种基于神经网络的静电纺丝纤维平均直径预测方法
CN113657742A (zh) 车间调度方法、装置、电子设备及存储介质
CN113743784A (zh) 一种基于深度强化学习的生产时序表智能生成方法
CN113821313A (zh) 一种任务调度方法、装置及电子设备
CN112001518A (zh) 一种基于云计算的预测和能量管理方法及系统
CN113240174B (zh) 基于动态偏好匹配的多月基装备协作任务规划方法
Deng et al. Distributed Real-Time Workflow Scheduling for Collaborative Operation of Heterogeneous Industrial Equipment
CN117748500B (zh) 光伏功率预测方法、装置、设备及介质
CN113411765B (zh) 一种基于多传感器协同感知的移动智能终端能耗优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant