CN114147718A - 无人档案库房多任务执行控制方法、装置、设备以及介质 - Google Patents

无人档案库房多任务执行控制方法、装置、设备以及介质 Download PDF

Info

Publication number
CN114147718A
CN114147718A CN202111500932.9A CN202111500932A CN114147718A CN 114147718 A CN114147718 A CN 114147718A CN 202111500932 A CN202111500932 A CN 202111500932A CN 114147718 A CN114147718 A CN 114147718A
Authority
CN
China
Prior art keywords
determining
task
archive
strategy
grabbing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111500932.9A
Other languages
English (en)
Other versions
CN114147718B (zh
Inventor
邓昱晨
何海楠
李刚
张静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenjiang Wanguo Data Information Co ltd
Original Assignee
Shenjiang Wanguo Data Information Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenjiang Wanguo Data Information Co ltd filed Critical Shenjiang Wanguo Data Information Co ltd
Priority to CN202111500932.9A priority Critical patent/CN114147718B/zh
Publication of CN114147718A publication Critical patent/CN114147718A/zh
Application granted granted Critical
Publication of CN114147718B publication Critical patent/CN114147718B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本公开涉及无人档案库房多任务执行控制方法、装置、设备以及介质,该方法包括获取无人档案库房的特征参数,并基于特征参数,确定任务动作关联的初始化参数;基于特征参数和初始化参数,构建基于强化学习的档案抓取过程模型;基于档案抓取过程模型,通过仿真迭代,获取档案抓取过程优化策略集;其中,通过随机策略迭代可能发生的所有任务序列,迭代终止条件为已经迭代了所有的可能发生的任务序列,优化策略集为针对各任务序列的用时最短的策略的集合;基于优化策略集与多个待执行任务,确定任务序列。由此,可形成符合库房特征的最优取档策略,有效优化任务序列的取档时间,提升无人档案库房实际运行效率,提升用户体验。

Description

无人档案库房多任务执行控制方法、装置、设备以及介质
技术领域
本公开涉及无人档案库房技术领域,尤其涉及一种无人档案库房多任务执行控制方法、装置、设备以及介质。
背景技术
档案库房,顾名思义,为用于存储档案的库房。随着自动化技术的发展,其逐渐应用到档案库发中,以降低人工成本。
但是,现有的无人档案库房,运行效率仍较低,导致用户使用体验较差。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了能够提升无人档案库房的运行效率,以提升用户体验的无人档案库房多任务执行控制方法、装置、设备以及介质。
第一方面,本公开提供了一种无人档案库房多任务执行控制方法,该方法包括:
获取无人档案库房的特征参数,并基于所述特征参数,确定任务动作关联的初始化参数;
基于所述特征参数和所述初始化参数,构建基于强化学习的档案抓取过程模型;
基于所述档案抓取过程模型,通过仿真迭代,获取档案抓取过程优化策略集;其中,通过随机策略迭代可能发生的所有任务序列,迭代终止条件为已经迭代了所有的可能发生的任务序列,优化策略集为针对各任务序列的用时最短的策略的集合;
基于所述优化策略集与多个待执行任务,确定任务序列。
在一些实施例中,所述特征参数包括密集架的列数、每列密集架的宽度以及密集架中固定架的位置;
所述确定任务动作关联的初始化参数,包括:
确定密集架的列数编号、密集架开启时间以及自动抓取装置的运行速度。
在一些实施例中,所述档案抓取过程模型满足马尔科夫性质。
在一些实施例中,所述构建基于强化学习的档案抓取过程模型包括:
基于密集架的列数、已开启的密集架的列数以及自动抓取装置所处的列数,确定抓取的状态空间;
基于密集架的列数、将开启的密集架的列数以及自动抓取装置当前所要到达的目标列数,确定抓取的行为空间;
确定抓取的状态转移概率;
建立状态行为的奖励函数;
确定衰减系数;
基于所述状态空间、所述行为空间、所述状态转移概率、所述奖励函数以及所述衰减系数,构建基于强化学习的档案抓取过程模型。
在一些实施例中,所述基于所述档案抓取过程模型,通过仿真迭代,获取档案抓取过程优化策略集,包括:
基于所述档案抓取过程模型,构建任务序列价值函数;
在初始抓取策略为随机策略的情况下,通过迭代计算,确定随机策略下每个状态的价值;
基于更新后的状态的价值,采用更新策略再次迭代计算,得到更新策略下的状态价值;
多次更新并迭代,确定档案抓取过程中的优化策略集;其中,所述优化策略集包括针对各任务的最优策略及最优状态价值。
在一些实施例中,所述更新策略包括贪心算法。
在一些实施例中,所述基于所述优化策略集与多个待执行任务,确定任务序列,包括:
基于所述最优策略及所述最优状态价值,针对多个待执行任务,依次选择当前状态价值最优的行为,形成所述任务序列。
第二方面,本公开提供了一种无人档案库房多任务执行控制装置,该装置包括:
参数获取单元,用于获取无人档案库房的特征参数,并基于所述特征参数,确定任务动作关联的初始化参数;
模型构建单元,用于基于所述特征参数和所述初始化参数,构建基于强化学习的档案抓取过程模型;
仿真迭代单元,用于基于所述档案抓取过程模型,通过仿真迭代,获取档案抓取过程优化策略集;其中,通过随机策略迭代可能发生的所有任务序列,迭代终止条件为已经迭代了所有的可能发生的任务序列,优化策略集为针对各任务序列的用时最短的策略的集合;
序列确定单元,用于基于所述优化策略集与多个待执行任务,确定任务序列。
在一些实施例中,所述特征参数包括密集架的列数、每列密集架的宽度以及密集架中固定架的位置;
所述参数获取单元用于确定任务动作关联的初始化参数,包括:
确定密集架的列数编号、密集架开启时间以及自动抓取装置的运行速度。
在一些实施例中,所述档案抓取过程模型满足马尔科夫性质。
在一些实施例中,所述模型构建单元用于构建基于强化学习的档案抓取过程模型,包括:
基于密集架的列数、已开启的密集架的列数以及自动抓取装置所处的列数,确定抓取的状态空间;
基于密集架的列数、将开启的密集架的列数以及自动抓取装置当前所要到达的目标列数,确定抓取的行为空间;
确定抓取的状态转移概率;
建立状态行为的奖励函数;
确定衰减系数;
基于所述状态空间、所述行为空间、所述状态转移概率、所述奖励函数以及所述衰减系数,构建基于强化学习的档案抓取过程模型。
在一些实施例中,所述仿真迭代单元用于基于所述档案抓取过程模型,通过仿真迭代,获取档案抓取过程优化策略集,包括:
基于所述档案抓取过程模型,构建任务序列价值函数;
在初始抓取策略为随机策略的情况下,通过迭代计算,确定随机策略下每个状态的价值;
基于更新后的状态的价值,采用更新策略再次迭代计算,得到更新策略下的状态价值;
多次更新并迭代,确定档案抓取过程中的优化策略集;其中,所述优化策略集包括针对各任务的最优策略及最优状态价值。
在一些实施例中,所述更新策略包括贪心算法。
在一些实施例中,所述序列确定单元用于基于所述优化策略集与多个待执行任务,确定任务序列,包括:
基于所述最优策略及所述最优状态价值,针对多个待执行任务,依次选择当前状态价值最优的行为,形成所述任务序列。
第三方面,本公开还提供了一种电子设备,包括:处理器和存储器;
处理器通过调用存储器存储的程序或指令,用于执行上述任一方法的步骤。
第四方面,本公开还提供了一种计算机可读存储介质,计算机可读存储介质存储程序或指令,程序或指令使计算机执行上述任一方法的步骤。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例提供的无人档案库房多任务执行控制方法、装置、设备以及介质中,方法包括获取无人档案库房的特征参数,并基于特征参数,确定任务动作关联的初始化参数;基于特征参数和初始化参数,构建基于强化学习的档案抓取过程模型;基于档案抓取过程模型,通过仿真迭代,获取档案抓取过程优化策略集;其中,通过随机策略迭代可能发生的所有任务序列,迭代终止条件为已经迭代了所有的可能发生的任务序列,优化策略集为针对各任务序列的用时最短的策略的集合;基于优化策略集与多个待执行任务,确定任务序列。由此,可针对用户拿取多个档案的需求,结合无人档案库房的特征,形成针对用户需求且符合库房特征的最优取档策略,有效优化任务序列的取档时间,提升无人档案库房实际运行效率,提升用户体验。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种无人档案库房多任务执行控制方法的流程示意图;
图2本公开实施例提供的一种无人档案库房的取档原理示意图;
图3为本公开实施例提供的一种无人档案库房多任务执行控制装置的结构示意图;
图4为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
相关技术中,无人档案库房可包括用于存储档案的密集架、能够实现将档案从密集架中取出的自动抓取装置以及与用户直接交互以便用户拿取档案的自助存取柜。其中,档案自动拿取的时间不仅取决于档案在密集架中的位置、密集架的开合速度、自动抓取装置的运行速度等因素,同时上述因素间也存在相互耦合的关系。在无人档案库房的实际运行过程中,通常存在用户一次性需要拿取多份档案的情况,基于此,对应形成由多个存取档任务构成的任务序列。若任务序列中的各任务分别单独执行,则会导致拿取档案的时间较长,效率较低,用户体验较差。针对此,优化任务序列中各任务的执行顺序,使得任务序列的整体运行时间最小,以提升运行效率,进而提升用户体验,是无人档案库房在进行任务序列规划时亟待解决的问题。
针对此,本公开实施例结合档案在密集架中的位置、密集架的开合速度、自动抓取装置的运行速度等因素,以及各因素之间相互耦合的关系,提出一种无人档案库房多任务执行控制方法,以构建适用于无人档案库房的实际情况和需求的最优取档策略,从而有效优化任务序列的取档时间,提升无人档案库房实际运行效率,提升用户体验。
下面结合图1-图3,对本公开实施例提供的无人档案库房多任务执行控制方法、装置、设备以及介质进行示例性说明。
在一些实施例中,如图1所示,该无人档案库房多任务执行控制方法可包括如下步骤。
S110、获取无人档案库房的特征参数,并基于特征参数,确定任务动作关联的初始化参数。
其中,无人档案库房的特征参数,用于表征无人档案库房的固有特征,并决定了档案存取任务执行时,对应的密集架或者自动抓取装置所执行的动作相关联的初始化参数。
示例性的,如图2所示,特征参数可包括密集架列数(以N示出,为正整数)、每列密集架的宽度L0以及密集架中的固定架的位置。其可被预先存储,以在该步骤中被调用。进一步地,基于无人档案库房的固有特征,对密集架的列数编号、密集架的开合时间、自动抓取装置的运行速度等进行初始化设定,即确定初始化参数。
S120、基于特征参数和初始化参数,构建基于强化学习的档案抓取过程模型。
即根据在S110中获取和确定的无人档案库房的各项参数,构建基于强化学习的档案抓取过程模型,以便后续通过仿真迭代,得到恰当的档案抓取策略,以减少不同需求下的任务执行时间。
其中,该步骤的具体执行过程在后文中以基于马尔科夫过程构建的模型为例进行示例性说明。
S130、基于档案抓取过程模型,通过仿真迭代,获取档案抓取过程优化策略集。
其中,通过随机策略迭代可能发生的所有任务序列,迭代终止条件为已经迭代了所有的可能发生的任务序列,优化策略集为针对各任务序列的用时最短的策略的集合。
如此,以便在针对多个待执行任务时,结合优化策略集,确定任务序列,以减少任务执行时间,提高运行效率。
S140、基于优化策略集与多个待执行任务,确定任务序列。
即根据优化策略和用户实际输入的任务序列,形成优化后的任务序列。示例性的,根据优化策略集和用户实际输入的任务序列,通过进行贪心(greedy)算法来更新任务序列,依次选择下一份档案抓取的最优策略(示例性的,当确定抓取第N-1份档案的策略后,基于此更新第N份档案抓取最优的策略),以此形成优化后的任务序列。
如此,确定了优化后的任务序列。
其后,还可包括基于优化后的任务序列,进行存取档操作。
本公开实施例提供的无人档案库房的多任务执行控制住方法包括获取无人档案库房的特征参数,并基于特征参数,确定任务动作关联的初始化参数;基于特征参数和初始化参数,构建基于强化学习的档案抓取过程模型;基于档案抓取过程模型,通过仿真迭代,获取档案抓取过程优化策略集;其中,通过随机策略迭代可能发生的所有任务序列,迭代终止条件为已经迭代了所有的可能发生的任务序列,优化策略集为针对各任务序列的用时最短的策略的集合;基于优化策略集与多个待执行任务,确定任务序列,由此,针对不确定抓取需求下的档案抓取效率问题,基于无人库房的特征,结合强化学习生成最优的档案抓取策略,以优化任务序列的整体存取档时间,进而提升无人档案库房的用户体验。
在一些实施例中,特征参数包括密集架的列数、每列密集架的宽度以及密集架中固定架的位置;基于此,结合图1,S110中的确定任务动作关联的初始化参数,具体可如包括:
确定密集架的列数编号、密集架开启时间以及自动抓取装置的运行速度。
具体的,如图2所示,无人档案库房的密集架列数N,其为正整数;每列密集架的宽度,其为L0,物理单位可为米(m);密集架中固定架位置,该固定架为密集架中无法移动打开的一列架体。
且,密集架的开启时间取决于所需移动的密集架列的数量。确定单个货架的开启时间为t0,每增加一个货架,开启时间增加△t。
能够理解的是,t0通常不等于△t,△t为单个货架的开启时间与一个货架开启后到下一个货架开启前的间隔时间的总和。当需要连续打开多个货架的时候,并不是一个完全打开之后,下一个才打开的,而是一个货架开始移动或者移动到一定程度之后,另一个货架即开始移动;或者基于货架开启位置,多列货架同步移动,在此不限定。若只打开一个货架,单从时间数值的角度考虑,t0与△t的数值大致相等。
并且,同一时刻,处于完全开启状态的密集架只能有一个,位于两侧最远端的档案无需开启密集架即可取档案。
具体的,如图2所示,无人档案库房中,自动抓取装置的移动速度可为v0,其物理单位可为米/秒;该移动速度也可称为运行速度,其大小由密集架的特征参数决定,可采用本领域技术人员可知的任一种计算方法得到,在此不赘述也不限定。
在一些实施例中,档案抓取过程模型满足马尔科夫性质。
其中,针对多个待执行任务,其抓取过程的总完成时间是由抓取各个档案的时间累积而成,也就是说档案抓取问题可以分解为抓取每个档案的问题。而各个档案的抓取时间只与上一个档案的抓取时间有关,与其他档案的抓取时间无关,该特性符合马尔可夫性质,即当单独计算抓取第M份档案的时间时,只需考虑抓取第M-1份档案的的位置,抓取结束后自主抓手的位置等情况。与第M-2份以及之前的抓取档案的过程无关。其中,1≤M≤N,且M为正数。因此,档案的抓取过程可以理解为一个马尔可夫过程。
在一些实施例中,构建基于强化学习的档案抓取过程模型包括:
基于密集架的列数、已开启的密集架的列数以及自动抓取装置所处的列数,确定抓取的状态空间;
基于密集架的列数、将开启的密集架的列数以及自动抓取装置当前所要到达的目标列数,确定抓取的行为空间;
确定抓取的状态转移概率;
建立状态行为的奖励函数;
确定衰减系数;
基于状态空间、行为空间、状态转移概率、奖励函数以及衰减系数,构建基于强化学习的档案抓取过程模型。
能够理解的是,由于状态空间、行为空间、状态转移概率、奖励函数以及衰减系数均不由彼此决定,因此确定上述各参数的步骤之间,执行的先后顺序不限定。
具体的,将抓取过程描述为<S,A,P,R,γ>。
其中,S为抓取的状态空间,A为抓取的行为空间,P为抓取的状态转移概率,R为状态行为的奖励函数,γ为衰减系数。
基于此,构建档案抓取过程模型可包括:
确定状态空间、行为空间、状态转移概率、奖励函数以及衰减系数,以及基于此构建函数。
其步骤之一为确定状态空间。
示例性的,状态空间S表示为:
Figure BDA0003402535240000101
其中,i取值为0时,s0表示初始状态,对应于密集架紧密排列,自动抓取装置处于固定架位置处;i取值为非0的其他正数时,si表示密集架已开启第i列,自动抓取装置处于i列。
其步骤之二包括确定行为空间。
具体的,行为空间A表示为:
Figure BDA0003402535240000102
其具体表示密集架将开启第i列货架,自动抓取装置向第i列货架移动。
其步骤之三包括确定状态转移概率。
具体的,转移概率P为100%,表示处于任何状态时,当执行某一行为,都将100%的转移到行为指定的状态。
其步骤之四包括确定奖励函数,奖励R可表示为:
Figure BDA0003402535240000103
其中,
Figure BDA0003402535240000104
表示自动抓取装置从i列向j列移动所用的时间,
Figure BDA0003402535240000105
表示货架从i列开启变为j列开启所用的时间;Max表示两者取大,即为取得一个档案所用的时间,此时间取负定义为任意两个状态间转移所得的即时奖励。
并且,具体的:
Figure BDA0003402535240000106
Figure BDA0003402535240000107
示例性的,查表所需的表格如表1所示。
表1当i·i≤0时货架j开启时间表格
Figure BDA0003402535240000111
其步骤之五包括确定衰减系数γ,示例性的,其可为1。
前述五个步骤之间的执行先后顺序不限定,在确定了状态空间、行为空间、状态转移概率、奖励函数以及衰减系数之后,基于状态空间、行为空间、状态转移概率、奖励函数以及衰减系数,构建基于强化学习的档案抓取过程模型,例如构建<S,A,P,R,γ>。
至此,完成档案抓取过程模型的构建。
在一些实施例中,基于档案抓取过程模型,通过仿真迭代,获取档案抓取过程优化策略集,包括:
基于档案抓取过程模型,构建任务序列价值函数;
在初始抓取策略为随机策略的情况下,通过迭代计算,确定随机策略下每个状态的价值;
基于更新后的状态的价值,采用更新策略再次迭代计算,得到更新策略下的状态价值;
多次更新并迭代,确定档案抓取过程中的优化策略集;其中,优化策略集包括针对各任务的最优策略及最优状态价值。
具体的,首先构建任务序列价值函数。
示例性的,每个状态s的价值可表示为:
Figure BDA0003402535240000121
其中,π(ai|s)为一个抓取策略,表示在状态s下执行ai的概率,
Figure BDA0003402535240000122
为在状态s下执行ai获取的奖励,s′为在状态s下执行ai转移到的状态,
Figure BDA0003402535240000123
为在状态s执行a行为转移到状态s′的概率,γ为衰减系数。
其后,通过仿真迭代获得最优策略。
其中,设定每个状态的初始价值为0,即初始抓取策略为随机策略,通过多次迭代计算,可得到随机策略下每个状态的价值。
针对更新的状态价值,可采用更新策略(例如贪心算法),再次进行迭代计算,可得到新策略下的状态价值。如此反复多次,最终可得到最优的策略π*和最优的状态价值V*,如下。
策略π*
Figure BDA0003402535240000124
状态价值V*
Figure BDA0003402535240000125
在其他实施方式中,更新策略还可采用其他算法实现,在此不赘述也不限定。
在一些实施例中,基于优化策略集与多个待执行任务,确定任务序列,包括:
基于最优策略及最优状态价值,针对多个待执行任务,依次选择当前状态价值最优的行为,形成任务序列。
基于得到的最优策略和最优状态价值,可针对任意数量的档案抓取需求,如(s1,s2,s3,…),依次选择使当前状态价值最优的行为,构成对应的行为序列(a1,a2,a3,…),这一行为序列即为最优的档案抓取序列。
由此,确定了用时最短的任务序列,基于此执行多个待执行任务的任务序列时,整体用时较短,提高了无人档案库房的运行效率,进而提升了用户体验。
本公开实施例提供的无人档案库房多任务执行控制方法,能够针对全自动化控制的无人档案库房,提供针对用户包括多个取档任务的不确定需求的、且基于库房的多个关联参数的最优取档策略,从而有效优化任务序列中的多个任务的取档时间,提升无人档案库房实际运行效率,提升用户体验。
在上述实施方式的基础上,本公开实施例还提供了一种无人档案库房多任务执行控制装置,该装置可用于执行上述实施方式中任一种方法的步骤,实现对应的有益效果,具体可结合上文中对方法的解释说明进行理解,在此不赘述。
在一些实施例中,如图3所示,该装置可包括:
参数获取单元201,用于获取无人档案库房的特征参数,并基于特征参数,确定任务动作关联的初始化参数;
模型构建单元202,用于基于特征参数和初始化参数,构建基于强化学习的档案抓取过程模型;
仿真迭代单元203,用于基于档案抓取过程模型,通过仿真迭代,获取档案抓取过程优化策略集;其中,通过随机策略迭代可能发生的所有任务序列,迭代终止条件为已经迭代了所有的可能发生的任务序列,优化策略集为针对各任务序列的用时最短的策略的集合;
序列确定单元204,用于基于优化策略集与多个待执行任务,确定任务序列。
在一些实施例中,特征参数包括密集架的列数、每列密集架的宽度以及密集架中固定架的位置;
参数获取单元201用于确定任务动作关联的初始化参数,包括:
确定密集架的列数编号、密集架开启时间以及自动抓取装置的运行速度。
在一些实施例中,档案抓取过程模型满足马尔科夫性质。
在一些实施例中,模型构建单元202用于构建基于强化学习的档案抓取过程模型,包括:
基于密集架的列数、已开启的密集架的列数以及自动抓取装置所处的列数,确定抓取的状态空间;
基于密集架的列数、将开启的密集架的列数以及自动抓取装置当前所要到达的目标列数,确定抓取的行为空间;
确定抓取的状态转移概率;
建立状态行为的奖励函数;
确定衰减系数;
基于状态空间、行为空间、状态转移概率、奖励函数以及衰减系数,构建基于强化学习的档案抓取过程模型。
在一些实施例中,仿真迭代单元203用于基于档案抓取过程模型,通过仿真迭代,获取档案抓取过程优化策略集,包括:
基于档案抓取过程模型,构建任务序列价值函数;
在初始抓取策略为随机策略的情况下,通过迭代计算,确定随机策略下每个状态的价值;
基于更新后的状态的价值,采用更新策略再次迭代计算,得到更新策略下的状态价值;
多次更新并迭代,确定档案抓取过程中的优化策略集;其中,优化策略集包括针对各任务的最优策略及最优状态价值。
在一些实施例中,更新策略包括贪心算法。
在一些实施例中,序列确定单元204用于基于优化策略集与多个待执行任务,确定任务序列,包括:
基于最优策略及最优状态价值,针对多个待执行任务,依次选择当前状态价值最优的行为,形成任务序列。
以上实施例公开的装置能够实现以上各方法实施例公开的方法的流程,具有相同或相应的有益效果。为避免重复,在此不再赘述。
本公开实施例还提供了能够执行上述任一种方法的电子设备,如图4所示,该电子设备可为手机、PAD等智能终端,该电子设备包括:一个或多个处理器301,图4中以一个处理器301为例;存储器302;该电子设备还可以包括:输入装置303和输出装置304。
该电子设备中的处理器301、存储器302、输入装置303和输出装置304可以通过总线或者其他方式连接,图4中以通过总线连接为例。
存储器302作为一种非暂态计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本公开实施例中的无人档案库房多任务执行控制方法对应的程序指令/模块。处理器301通过运行存储在存储器302中的软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的无人档案库房多任务执行控制方法。
存储器302可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器302可以包括高速随机存取存储器,还可以包括非暂态性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中,存储器302可选包括相对于处理器301远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置303可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置304可包括显示屏等显示设备。
本公开实施例还提供一种包含计算机可读存储介质,该计算机可读存储介质存储程序或指令,该程序或指令使计算机执行行时用于执行一种无人档案库房多任务执行控制方法,该方法包括:
获取无人档案库房的特征参数,并基于特征参数,确定任务动作关联的初始化参数;
基于特征参数和初始化参数,构建基于强化学习的档案抓取过程模型;
基于档案抓取过程模型,通过仿真迭代,获取档案抓取过程优化策略集;其中,通过随机策略迭代可能发生的所有任务序列,迭代终止条件为已经迭代了所有的可能发生的任务序列,优化策略集为针对各任务序列的用时最短的策略的集合;
基于优化策略集与多个待执行任务,确定任务序列。
可选的,该计算机可执行指令在由计算机处理器执行时还可以用于执行本公开任意实施例所提供的无人档案库房多任务执行控制方法的技术方案。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本公开可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例该的方法。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种无人档案库房多任务执行控制方法,其特征在于,包括:
获取无人档案库房的特征参数,并基于所述特征参数,确定任务动作关联的初始化参数;
基于所述特征参数和所述初始化参数,构建基于强化学习的档案抓取过程模型;
基于所述档案抓取过程模型,通过仿真迭代,获取档案抓取过程优化策略集;其中,通过随机策略迭代可能发生的所有任务序列,迭代终止条件为已经迭代了所有的可能发生的任务序列,优化策略集为针对各任务序列的用时最短的策略的集合;
基于所述优化策略集与多个待执行任务,确定任务序列。
2.根据权利要求1所述的方法,其特征在于,所述特征参数包括密集架的列数、每列密集架的宽度以及密集架中固定架的位置;
所述确定任务动作关联的初始化参数,包括:
确定密集架的列数编号、密集架开启时间以及自动抓取装置的运行速度。
3.根据权利要求2所述的方法,其特征在于,所述档案抓取过程模型满足马尔科夫性质。
4.根据权利要求3所述的方法,其特征在于,所述构建基于强化学习的档案抓取过程模型包括:
基于密集架的列数、已开启的密集架的列数以及自动抓取装置所处的列数,确定抓取的状态空间;
基于密集架的列数、将开启的密集架的列数以及自动抓取装置当前所要到达的目标列数,确定抓取的行为空间;
确定抓取的状态转移概率;
建立状态行为的奖励函数;
确定衰减系数;
基于所述状态空间、所述行为空间、所述状态转移概率、所述奖励函数以及所述衰减系数,构建基于强化学习的档案抓取过程模型。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述基于所述档案抓取过程模型,通过仿真迭代,获取档案抓取过程优化策略集,包括:
基于所述档案抓取过程模型,构建任务序列价值函数;
在初始抓取策略为随机策略的情况下,通过迭代计算,确定随机策略下每个状态的价值;
基于更新后的状态的价值,采用更新策略再次迭代计算,得到更新策略下的状态价值;
多次更新并迭代,确定档案抓取过程中的优化策略集;其中,所述优化策略集包括针对各任务的最优策略及最优状态价值。
6.根据权利要求5所述的方法,其特征在于,所述更新策略包括贪心算法。
7.根据权利要求5所述的方法,其特征在于,所述基于所述优化策略集与多个待执行任务,确定任务序列,包括:
基于所述最优策略及所述最优状态价值,针对多个待执行任务,依次选择当前状态价值最优的行为,形成所述任务序列。
8.一种无人档案库房多任务执行控制装置,其特征在于,包括:
参数获取单元,用于获取无人档案库房的特征参数,并基于所述特征参数,确定任务动作关联的初始化参数;
模型构建单元,用于基于所述特征参数和所述初始化参数,构建基于强化学习的档案抓取过程模型;
仿真迭代单元,用于基于所述档案抓取过程模型,通过仿真迭代,获取档案抓取过程优化策略集;其中,通过随机策略迭代可能发生的所有任务序列,迭代终止条件为已经迭代了所有的可能发生的任务序列,优化策略集为针对各任务序列的用时最短的策略的集合;
序列确定单元,用于基于所述优化策略集与多个待执行任务,确定任务序列。
9.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至7任一项所述方法的步骤。
CN202111500932.9A 2021-12-09 2021-12-09 无人档案库房多任务执行控制方法、装置、设备以及介质 Active CN114147718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111500932.9A CN114147718B (zh) 2021-12-09 2021-12-09 无人档案库房多任务执行控制方法、装置、设备以及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111500932.9A CN114147718B (zh) 2021-12-09 2021-12-09 无人档案库房多任务执行控制方法、装置、设备以及介质

Publications (2)

Publication Number Publication Date
CN114147718A true CN114147718A (zh) 2022-03-08
CN114147718B CN114147718B (zh) 2022-10-04

Family

ID=80454159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111500932.9A Active CN114147718B (zh) 2021-12-09 2021-12-09 无人档案库房多任务执行控制方法、装置、设备以及介质

Country Status (1)

Country Link
CN (1) CN114147718B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115439069A (zh) * 2022-09-24 2022-12-06 北京融安特智能科技股份有限公司 无人档案仓库智能盘点方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082210A1 (en) * 2016-09-18 2018-03-22 Newvoicemedia, Ltd. System and method for optimizing communications using reinforcement learning
CN109176532A (zh) * 2018-11-09 2019-01-11 中国科学院自动化研究所 一种机械臂路径规划方法、系统及装置
CN109857534A (zh) * 2019-02-12 2019-06-07 浙江方正印务有限公司 一种基于策略梯度强化学习的智能任务调度策略训练方法
CN112947431A (zh) * 2021-02-03 2021-06-11 海之韵(苏州)科技有限公司 一种基于强化学习的无人船路径跟踪方法
CN113743603A (zh) * 2020-05-29 2021-12-03 京东城市(北京)数字科技有限公司 控制方法、装置、存储介质及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082210A1 (en) * 2016-09-18 2018-03-22 Newvoicemedia, Ltd. System and method for optimizing communications using reinforcement learning
CN109176532A (zh) * 2018-11-09 2019-01-11 中国科学院自动化研究所 一种机械臂路径规划方法、系统及装置
CN109857534A (zh) * 2019-02-12 2019-06-07 浙江方正印务有限公司 一种基于策略梯度强化学习的智能任务调度策略训练方法
CN113743603A (zh) * 2020-05-29 2021-12-03 京东城市(北京)数字科技有限公司 控制方法、装置、存储介质及电子设备
CN112947431A (zh) * 2021-02-03 2021-06-11 海之韵(苏州)科技有限公司 一种基于强化学习的无人船路径跟踪方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115439069A (zh) * 2022-09-24 2022-12-06 北京融安特智能科技股份有限公司 无人档案仓库智能盘点方法、装置、设备及存储介质
CN115439069B (zh) * 2022-09-24 2023-08-01 北京融安特智能科技股份有限公司 无人档案仓库智能盘点方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114147718B (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
Liu et al. Data poisoning attacks on stochastic bandits
Pajarinen et al. Robotic manipulation of multiple objects as a POMDP
CN108885717A (zh) 异步深度强化学习
CN114147718B (zh) 无人档案库房多任务执行控制方法、装置、设备以及介质
Elsayed et al. A surrogate-assisted differential evolution algorithm with dynamic parameters selection for solving expensive optimization problems
WO2023231961A1 (zh) 一种多智能体强化学习方法及相关装置
Bloembergen et al. Influencing Social Networks: An Optimal Control Study.
CN109731338B (zh) 游戏中的人工智能训练方法及装置、存储介质及电子装置
EP3525136A1 (en) Distributed machine learning system
TWI770967B (zh) 一種神經網路的訓練方法、視頻識別方法及電腦設備和電腦可讀儲存介質
CN109063827A (zh) 有限空间内自动拿取特定行李的方法、系统、存储介质和终端
CN109977998B (zh) 信息处理方法及装置、存储介质和电子装置
CN115796300A (zh) 面向DoS攻击下CPSs的安全状态博弈方法、系统、终端及介质
CN112214668B (zh) 一种基于大数据的个性化金融服务推荐装置和方法
US20140006321A1 (en) Method for improving an autocorrector using auto-differentiation
CN113762687B (zh) 一种仓库内的人员排班调度方法和装置
CN113721655A (zh) 一种控制周期自适应的强化学习无人机稳定飞行控制方法
CN113344307A (zh) 基于深度强化学习的无序抓取多目标优化方法及系统
US7107586B2 (en) Intermediate object linking method and unit
CN107748682B (zh) 后台应用管控方法、装置、存储介质及电子设备
CN115392438B (zh) 基于多Agent环境的深度强化学习算法、设备和存储介质
Ikemoto et al. Model-free control of chaos with continuous deep Q-learning
CN114003196B (zh) 矩阵运算装置与矩阵运算方法
CN114580576B (zh) 一种基于知识处理的机器人任务规划方法和装置
CN117150927B (zh) 基于极端新颖度搜索的深度强化学习探索方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant