CN112034843A - 多智能主体协同搬运物件的方法、系统和存储介质 - Google Patents

多智能主体协同搬运物件的方法、系统和存储介质 Download PDF

Info

Publication number
CN112034843A
CN112034843A CN202010797223.0A CN202010797223A CN112034843A CN 112034843 A CN112034843 A CN 112034843A CN 202010797223 A CN202010797223 A CN 202010797223A CN 112034843 A CN112034843 A CN 112034843A
Authority
CN
China
Prior art keywords
intelligent
agent
target
agents
cost function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010797223.0A
Other languages
English (en)
Inventor
于欣佳
程涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Technology University
Original Assignee
Shenzhen Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Technology University filed Critical Shenzhen Technology University
Priority to CN202010797223.0A priority Critical patent/CN112034843A/zh
Publication of CN112034843A publication Critical patent/CN112034843A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0253Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting relative motion information from a plurality of images taken successively, e.g. visual odometry, optical flow
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Electromagnetism (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及群体智能领域,提供了一种多智能主体协同搬运货物的方法、系统和存储介质。所述方法包括:从执行搬运物件这一任务的多智能主体中确定一目标智能主体;根据成本函数,从决策集中为目标智能主体调用相应的至少一策略以控制目标智能主体执行期望行为;按照目标智能主体周围的邻居分布各向异同性以及多智能主体中各个智能主体之间释放的信息素,构建多智能主体协同作业的拓扑结构;在多智能主体协同作业的拓扑结构下,更新目标智能主体的协同作业伙伴;更新目标智能主体的移动速度与位置,直至多智能主体完成搬运物件这一任务。本申请的技术方案使得智能主体能够学习到复杂的合作策略,以有效地解决针对复杂型任务的协同作业。

Description

多智能主体协同搬运物件的方法、系统和存储介质
技术领域
本申请涉及群体智能领域,特别涉及一种多智能主体协同搬运物件的方法、系统和计算机可读存储介质。
背景技术
在群体智能领域中,智能主体(例如传感器、机器人、飞行器等)的个体能力有限,但其群体却能表现出高效的协同合作能力和高级的智能协调水平。随着计算机网络、通信通讯、分布计算等技术的不断发展,许多实际应用系统往往变得非常的庞大和复杂,如何使智能主体的团队合作达到最大化效果,有关智能群体协同理论的研究一直以来为群体智能的重要课题和关键。例如,在无人场景下(例如,无人超市、智能仓储),往往需要多智能主体协同才能搬运一件超过单个智能主体能力的物件。
然而,群体智能系统通常高度复杂,群体行为极其多样,现有的多智能主体协同搬运物件的方法存在一定的局限性,仅仅依靠局部控制策略并不能满足大规模群体智能系统的有效控制。
发明内容
本申请实施例提供了一种多智能主体协同搬运物件的方法、系统和计算机可读存储介质,以解决现有的多智能主体协同搬运物件的方法存在一定的局限性。该技术方案如下:
一方面,提供了一种多智能主体协同搬运物件的方法,该方法包括:
从执行搬运物件这一任务的多智能主体中确定一目标智能主体;
根据成本函数,从决策集中为所述目标智能主体调用相应的至少一策略以控制所述目标智能主体执行期望行为,所述成本函数与所述目标智能主体的激励成本函数以及所述多智能主体中除所述目标智能主体之外的其他智能主体相对所述目标智能主体的交互成本函数相关;
按照所述目标智能主体周围的邻居分布各向异同性以及多智能主体中各个智能主体之间释放的信息素,构建多智能主体协同作业的拓扑结构;
在所述多智能主体协同作业的拓扑结构下,更新所述目标智能主体的协同作业伙伴;
更新所述目标智能主体的移动速度与位置,返回所述构建多智能主体协同作业的拓扑结构的步骤,直至所述多智能主体完成搬运物件这一任务。
一方面,提供了一种多智能主体协同搬运物件的系统,该系统包括:
确定模块,用于从执行搬运物件这一任务的多智能主体中确定一目标智能主体;
策略调用模块,用于根据成本函数,从决策集中为所述目标智能主体调用相应的至少一策略以控制所述目标智能主体执行期望行为,所述成本函数与所述目标智能主体的激励成本函数以及所述多智能主体中除所述目标智能主体之外的其他智能主体相对所述目标智能主体的交互成本函数相关;
构建模块,用于按照所述目标智能主体周围的邻居分布各向异同性以及多智能主体中各个智能主体之间释放的信息素,构建多智能主体协同作业的拓扑结构;
第一更新模块,用于在所述多智能主体协同作业的拓扑结构下,更新所述目标智能主体的协同作业伙伴;
第二更新模块,用于更新所述目标智能主体的移动速度与位置,返回所述构建多智能主体协同作业的拓扑结构的步骤,直至所述多智能主体完成搬运物件这一任务。
一方面,提供了一种多智能主体协同搬运物件的系统,该系统包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,该计算机程序代码由该一个或多个处理器加载并执行以实现该多智能主体协同搬运物件的方法所执行的操作。
一方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序由处理器加载并执行以实现该多智能主体协同搬运物件的方法所执行的操作。
从上述本申请提供的技术方案可知,根据成本函数,为目标智能主体从决策集中调用相应的至少一策略以控制目标智能主体执行期望行为,并且,在多智能主体协同作业的拓扑结构下,更新目标智能主体的协同作业伙伴以及目标智能主体的移动速度与位置,然后,返回构建多智能主体协同作业的拓扑结构的步骤,直至多智能主体完成搬运物件这一任务,由于前述通过设置交互成本函数作为一种内在激励成本函数,使得每个智能主体对有影响力的状态和行为点进行更频繁的探索,通过激励智能主体之间的交互,促使多个智能主体之间产生合作,进而使得智能主体能够学习到复杂的合作策略,以有效地解决针对复杂型任务的协同作业和完成。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的多智能主体协同搬运物件的方法的流程图;
图2是本申请实施例提供的多智能主体协同搬运物件的系统的结构示意图;
图3是本申请另一实施例提供的多智能主体协同搬运物件的系统的功能结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
参见图1,是本申请实施例提供的一种多智能主体协同搬运物件的方法,该方法主要包括以下步骤S101至S105,详细说明如下:
步骤S101:从执行搬运物件这一任务的多智能主体中确定一目标智能主体。
在本申请实施例中,多智能主体包含多个智能主体,例如,多个自动引导车辆(Automated Guided Vehicle,AGV),各个智能主体为执行目标任务而分别执行各自的子任务,例如,无人超市、智能仓储等无人场景下搬运物件。需要的是,目标智能主体并不意味着与多智能主体中其他智能主体有所区别,而是用于指示多智能主体协同搬运物件的方法在此次动作的执行主体,换言之,多智能主体中任一智能主体均能够作为目标智能主体。
在本申请实施例中,搬运物件这一任务,由于物件比较大,超出了单个智能主体的能力,因此,搬运物件这一任务是合作类任务,即需要目标智能主体与多智能主体中其他智能主体协同作业才可坑完成的任务。例如,,需要目标智能主体与多智能主体中其他智能主体通过各自“向前移动”、“向后移动”、“向左移动”、“向右移动”等动作协同才能完成的任务。
步骤S102:根据成本函数,从决策集中为目标智能主体调用相应的至少一策略以控制目标智能主体执行期望行为,其中,成本函数与目标智能主体的激励成本函数以及多智能主体中除目标智能主体之外的其他智能主体相对目标智能主体的交互成本函数相关。
在本申请实施例中,期望行为包括能够使智能主体直接或间接完成某项目标任务的动作。例如,智能主体在当前时刻位于智能仓储或无人超市的某一处,当目标任务为打开智能仓储或无人超市的门,向某个出口搬运物件时,智能主体能够执行的动作包括“向前移动”、“向后移动”、“向左移动”、“向右移动”以及“转动库房门把手”等,则期望行为可以为例如“转动库房门把手”的动作。
本申请实施例所涉及的搬运物件这一任务是根据强化学习(ReinforcementLearning,RL)的任务,该搬运物件任务的应用环境由马尔科夫决策过程(Markov DecisionProcesses,MDP)建模。强化学习通过智能主体从环境学习以使得奖励最大,若智能主体的某个行为策略导致环境正的奖励,则智能主体以后产生这个行为策略的趋势便会加强。因此,在本申请实施例中,多智能主体协同搬运物件的方法还包括确定执行搬运物件这一任务的实施环境的步骤。不同的实施环境有不同的外在激励函数,从而影响目标智能主体的成本函数。马尔科夫决策过程MDP的目标是找到一个最优策略,使期望奖励最大化。成本函数学习算法就是用于通过学习获得最优价值函数,从而找到相应的最优策略,该最优策略要好于(至少是等于)任何其他策略。
作为本申请一个实施例,根据成本函数,为目标智能主体从决策集中调用相应的至少一策略以控制目标智能主体执行期望行为通过如下步骤S1021至S1023实现:
步骤S1021:确定多智能主体中目标智能主体的交互成本函数。
在本申请实施例中,交互成本函数与期望差值相关,该期望差为转移之后的多智能主体中除目标智能主体之外的其他智能主体的动作-成本函数与忽略智能主体的状态和动作的条件下经反真实计算得到的动作-成本函数的期望差值,而反真实计算是一种概率推断方式,用于表示在现实情况为X=x1的情况下、估计X=x2的情况下Y的值。例如,在一个包含有智能主体1和智能主体2的多智能主体中,该反真实计算可以是计算智能主体在假设不存在智能主体2的情况下执行某一动作的概率。
在本申请实施例中,多智能主体中除目标智能主体之外的其他智能主体的动作-成本函数与除目标智能主体之外的其他智能主体的奖励以及其他智能主体在转移之后的期望累计收益之和相关。例如,多智能主体中除目标智能主体之外的其他智能主体的动作-成本函数为除目标智能主体之外的其他智能主体的奖励与其他智能主体在转移之后的期望累计收益之和的和。
步骤S1022:根据交互成本函数和激励成本函数确定目标智能主体的成本函数。
在本申请实施例中,激励成本函数与目标智能主体的外在激励成本函数以及内在激励成本函数相关。在本申请实施例中,目标智能主体的激励成本函数为目标智能主体的外在激励成本函数与内在激励成本函数之和。外在激励成本函数为环境提供的激励成本函数,根据当前动作可能获得的环境的激励成本以影响智能主体以后产生这个动作策略的趋势是否加强或减弱。内在激励成本函数可以为例如好奇心等。好奇心作为内在激励成本函数时,能够促使智能主体根据其对环境的不确定性进行探索,从而一方面能够避免陷入局部最优的情况,另一方面能够更大程度上发现有成本的交互点。
步骤S1023:根据目标智能主体的成本函数,从决策集中获得一策略,根据策略控制目标智能主体执行期望行为。
在执行某一目标任务,例如搬运物件中,可以采取的策略的总体称为决策集。也就是说,在多智能主体协同搬运物件这一任务时,决策集为可供各个智能主体进行选择的策略的集合。策略可以是通过对成熟任务中拥有相当规模的可靠数据样本进行训练而学习得到,或者可以通过一深度神经网络进行训练而学习得到。该深度神经网络中包括一连续参数空间,该连续参数空间中的每一组参数对应一个策略,由此形成了一连续决策集。
步骤S103:按照目标智能主体周围的邻居分布各向异同性以及多智能主体中各个智能主体之间释放的信息素,构建多智能主体协同作业的拓扑结构。
在本申请实施例中,目标智能主体周围的邻居分布各向异同性包括各向异性和各向同性,其中,各向异性是指多智能主体中每个智能主体运动的方向各不相同的特性,而各向同性是指多智能主体中每个智能主体运动的方向大致相同的特性。开始尚未协同作业时,整个多智能主体中的单个智能主体按照自己的方向运动,从整体来看,运动方向是杂乱无章的,表现为各向异性的特征。经过一段时间后,单个智能主体都按照其最邻近的6个或7个邻居进行自我调整,最终,多智能主体从整体上来看其运动方向大致一致,表现为各向同性的特征。此外,多智能主体中单个智能主体之间释放的信息素决定了拓扑距离,体现出拓扑-距离关系,而非度量-距离框架。通过多智能主体中单个智能主体之间释放的信息素决定这种拓扑-距离。因此,可以按照目标智能主体周围的邻居分布各向异同性以及多智能主体中各个智能主体之间释放的信息素,构建多智能主体协同作业的拓扑结构。
步骤S104:在多智能主体协同作业的拓扑结构下,更新目标智能主体的协同作业伙伴。
作为本申请一个实施例,在多智能主体协同作业的拓扑结构下,更新目标智能主体的协同作业伙伴可以是:按照选中概率pj与距离dij成反比原则,在距离目标智能主体的视野半径r范围内从最邻近的m个邻居中选择智能主体作为目标智能主体的预协同作业伙伴Aj,将预协同作业伙伴Aj的合适度与预设合适度函数阈值fthre相比,若预协同作业伙伴Aj的合适度大于fthre,则不将预协同作业伙伴Aj作为目标智能主体的协同作业伙伴,否则,将预协同作业伙伴Aj作为目标智能主体的协同作业伙伴,其中,
Figure BDA0002626098940000071
dij为目标智能主体与预协同作业伙伴Aj之间的距离,m为6或7。
需要说明的是,Aj的合适度函数f(xj)定义为对第j个智能主体Aj趋向于目标点的当前最好位置的评价。
步骤S105:更新目标智能主体的移动速度与位置,返回构建多智能主体协同作业的拓扑结构的步骤,直至多智能主体完成搬运物件这一任务。
具体地,作为本申请一个实施例,更新目标智能主体的移动速度与位置可以是:通过引入的两极分化因子
Figure BDA0002626098940000081
对多智能主体群体进行控制,以更新目标智能主体的移动速度与位置,其中,
Figure BDA0002626098940000082
vi是多智能主体中第i个智能主体的速度,||vi||为计算vi在其度量空间中的范数。在本申请实施例中,两极分化因子
Figure BDA0002626098940000083
用于度量多智能主体的整体有序程度,反映该整体运动方向的一致程度,即,当
Figure BDA0002626098940000084
时,表明多智能主体整体运动方向杂乱无章,当
Figure BDA0002626098940000085
时,表明多智能主体整体基本朝向同一方向运动。
当完成对目标智能主体的移动速度与位置的更新后,返回到步骤S103,即重复步骤S103至步骤S105,直至多智能主体完成搬运物件这一任务。
从上述附图1示例的技术方案可知,根据成本函数,为目标智能主体从决策集中调用相应的至少一策略以控制目标智能主体执行期望行为,并且,在多智能主体协同作业的拓扑结构下,更新目标智能主体的协同作业伙伴以及目标智能主体的移动速度与位置,然后,返回构建多智能主体协同作业的拓扑结构的步骤,直至多智能主体完成搬运物件这一任务,由于前述通过设置交互成本函数作为一种内在激励成本函数,使得每个智能主体对有影响力的状态和行为点进行更频繁的探索,通过激励智能主体之间的交互,促使多个智能主体之间产生合作,进而使得智能主体能够学习到复杂的合作策略,以有效地解决针对复杂型任务的协同作业和完成。
请参阅附图2,是本申请实施例提供的一种多智能主体协同搬运物件的系统的结构示意图,该系统可以包括确定模块201、策略调用模块202、构建模块203、第一更新模块204和第二更新模块205,其中:
确定模块201,用于从执行搬运物件这一任务的多智能主体中确定一目标智能主体;
策略调用模块202,用于根据成本函数,从决策集中为目标智能主体调用相应的至少一策略以控制目标智能主体执行期望行为,其中,成本函数与目标智能主体的激励成本函数以及多智能主体中除目标智能主体之外的其他智能主体相对目标智能主体的交互成本函数相关;
构建模块203,用于按照目标智能主体周围的邻居分布各向异同性以及多智能主体中各个智能主体之间释放的信息素,构建多智能主体协同作业的拓扑结构;
第一更新模块204,用于在多智能主体协同作业的拓扑结构下,更新目标智能主体的协同作业伙伴;
第二更新模块205,用于更新目标智能主体的移动速度与位置,返回构建多智能主体协同作业的拓扑结构的步骤,直至多智能主体完成搬运物件这一任务。
在一种可能实现方式中,策略调用模块202可以包括第一确定单元、第二确定单元和控制单元,其中:
第一确定单元,用于确定多智能主体中目标智能主体的交互成本函数;
第二确定单元,用于根据交互成本函数和激励成本函数确定目标智能主体的成本函数;
控制单元,用于根据目标智能主体的成本函数,从决策集中获得一策略,根据策略控制目标智能主体执行期望行为。
在一种可能实现方式中,第一更新模块204可以包括智选单元和第三确定单元,其中:
智选单元,用于按照选中概率pj与距离dij成反比原则,在距离目标智能主体的视野半径r范围内从最邻近的m个邻居中选择智能主体作为目标智能主体的预协同作业伙伴Aj,其中,
Figure BDA0002626098940000091
dij为目标智能主体与预协同作业伙伴Aj之间的距离,m为6或7;
第三确定单元,用于将预协同作业伙伴Aj的合适度与预设合适度函数阈值fthre相比,若预协同作业伙伴Aj的合适度大于fthre,则不将预协同作业伙伴Aj作为目标智能主体的协同作业伙伴,否则,将预协同作业伙伴Aj作为目标智能主体的协同作业伙伴。
在一种可能实现方式中,第二更新模块205可以包括速度位置更新单元,用于通过引入的两极分化因子
Figure BDA0002626098940000101
对多智能主体群体进行控制,以更新目标智能主体的移动速度与位置,其中,
Figure BDA0002626098940000102
vi是多智能主体中第i个智能主体的速度,||vi||为计算vi在其度量空间中的范数。
在一种可能实现方式中,交互成本函数与期望差值相关,其中,期望差值为转移之后的多智能主体中除目标智能主体之外的其他智能主体的动作-成本函数与忽略智能主体的状态和动作的条件下经反真实计算得到的动作-成本函数的期望差值。
在一种可能实现方式中,多智能主体中除目标智能主体之外的其他智能主体的动作-成本函数与除目标智能主体之外的其他智能主体的奖励以及其他智能主体在转移之后的期望累计收益之和相关。
在一种可能实现方式中,经反真实计算得到的动作-成本函数与除目标智能主体之外的其他智能主体的反真实奖励以及其他智能主体在转移之后的反真实的期望累计收益之和相关。
需要说明的是,上述实施例提供的多智能主体协同搬运物件的系统在多智能主体协同搬运物件时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的多智能主体协同搬运物件的系统与多智能主体协同搬运物件的方法实施例属于同一构思,其具体实现过程以及技术效果详见方法实施例,此处不再赘述。
本申请实施例还提供一种多智能主体协同搬运物件的系统,该多智能主体协同搬运物件的系统如图3所示,其示出了本申请实施例所涉及的多智能主体协同搬运物件的系统的结构示意图,具体来讲:
该多智能主体协同搬运物件的系统可以包括一个或者一个以上处理核心的处理器301、一个或一个以上计算机可读存储介质的存储器302、电源303和输入单元304等部件。本领域技术人员可以理解,图3中示出的多智能主体协同搬运物件的系统结构并不构成对多智能主体协同搬运物件的系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器301是该多智能主体协同搬运物件的系统的控制中心,利用各种接口和线路连接整个多智能主体协同搬运物件的系统的各个部分,通过运行或执行存储在存储器302内的软件程序和/或模块,以及调用存储在存储器302内的数据,执行多智能主体协同搬运物件的系统的各种功能和处理数据,从而对多智能主体协同搬运物件的系统进行整体监控。可选的,处理器301可包括一个或多个处理核心;优选的,处理器301可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器301中。
存储器302可用于存储软件程序以及模块,处理器301通过运行存储在存储器302的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器302可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据多智能主体协同搬运物件的系统的使用所创建的数据等。此外,存储器302可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器302还可以包括存储器控制器,以提供处理器301对存储器302的访问。
多智能主体协同搬运物件的系统还包括给各个部件供电的电源303,可选地,电源303可以通过电源管理系统与处理器301逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源303还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该多智能主体协同搬运物件的系统还可包括输入单元304,该输入单元304可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,多智能主体协同搬运物件的系统还可以包括显示单元等,在此不再赘述。具体在本实施例中,多智能主体协同搬运物件的系统中的处理器301会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器302中,并由处理器301来运行存储在存储器302中的应用程序,从而实现各种功能,如下:从执行搬运物件这一任务的多智能主体中确定一目标智能主体;根据成本函数,从决策集中为目标智能主体调用相应的至少一策略以控制目标智能主体执行期望行为,其中,成本函数与目标智能主体的激励成本函数以及多智能主体中除目标智能主体之外的其他智能主体相对目标智能主体的交互成本函数相关;按照目标智能主体周围的邻居分布各向异同性以及多智能主体中各个智能主体之间释放的信息素,构建多智能主体协同作业的拓扑结构;在多智能主体协同作业的拓扑结构下,更新目标智能主体的协同作业伙伴;更新目标智能主体的移动速度与位置,返回构建多智能主体协同作业的拓扑结构的步骤,直至多智能主体完成搬运物件这一任务。
以上个操作的具体实施例可参见前面的实施例,在此不再赘述。
由以上可知,根据成本函数,为目标智能主体从决策集中调用相应的至少一策略以控制目标智能主体执行期望行为,并且,在多智能主体协同作业的拓扑结构下,更新目标智能主体的协同作业伙伴以及目标智能主体的移动速度与位置,然后,返回构建多智能主体协同作业的拓扑结构的步骤,直至多智能主体完成搬运物件这一任务,由于前述通过设置交互成本函数作为一种内在激励成本函数,使得每个智能主体对有影响力的状态和行为点进行更频繁的探索,通过激励智能主体之间的交互,促使多个智能主体之间产生合作,进而使得智能主体能够学习到复杂的合作策略,以有效地解决针对复杂型任务的协同作业和完成。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种多智能主体协同搬运物件的方法中的步骤。例如,该指令可以执行如下步骤:从执行搬运物件这一任务的多智能主体中确定一目标智能主体;根据成本函数,从决策集中为目标智能主体调用相应的至少一策略以控制目标智能主体执行期望行为,其中,成本函数与目标智能主体的激励成本函数以及多智能主体中除目标智能主体之外的其他智能主体相对目标智能主体的交互成本函数相关;按照目标智能主体周围的邻居分布各向异同性以及多智能主体中各个智能主体之间释放的信息素,构建多智能主体协同作业的拓扑结构;在多智能主体协同作业的拓扑结构下,更新目标智能主体的协同作业伙伴;更新目标智能主体的移动速度与位置,返回构建多智能主体协同作业的拓扑结构的步骤,直至多智能主体完成搬运物件这一任务。
以上各个操作的具体实施方式可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种多智能主体协同搬运物件的方法中的步骤,因此,可以实现本申请实施例所提供的任一种多智能主体协同搬运物件的方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种多智能主体协同搬运物件的方法、设备和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种多智能主体协同搬运物件的方法,其特征在于,所述方法包括:
从执行搬运物件这一任务的多智能主体中确定一目标智能主体;
根据成本函数,从决策集中为所述目标智能主体调用相应的至少一策略以控制所述目标智能主体执行期望行为,所述成本函数与所述目标智能主体的激励成本函数以及所述多智能主体中除所述目标智能主体之外的其他智能主体相对所述目标智能主体的交互成本函数相关;
按照所述目标智能主体周围的邻居分布各向异同性以及多智能主体中各个智能主体之间释放的信息素,构建多智能主体协同作业的拓扑结构;
在所述多智能主体协同作业的拓扑结构下,更新所述目标智能主体的协同作业伙伴;
更新所述目标智能主体的移动速度与位置,返回所述构建多智能主体协同作业的拓扑结构的步骤,直至所述多智能主体完成搬运物件这一任务。
2.根据权利要求1所述的多智能主体协同搬运物件方法,其特征在于,所述根据成本函数,为所述目标智能主体从决策集中调用相应的至少一策略以控制所述目标智能主体执行期望行为,包括:
确定所述多智能主体中目标智能主体的交互成本函数;
根据所述交互成本函数和所述激励成本函数确定所述目标智能主体的成本函数;
根据所述目标智能主体的成本函数,从所述决策集中获得一策略,根据所述策略控制所述目标智能主体执行期望行为。
3.根据权利要求1所述的多智能主体协同搬运物件的方法,其特征在于,所述在所述多智能主体协同作业的拓扑结构下,更新所述目标智能主体的协同作业伙伴,包括:
按照选中概率pj与距离dij成反比原则,在距离所述目标智能主体的视野半径r范围内从最邻近的m个邻居中选择智能主体作为目标智能主体的预协同作业伙伴Aj,所述
Figure FDA0002626098930000021
所述dij为所述目标智能主体与所述预协同作业伙伴Aj之间的距离,所述m为6或7;
将所述预协同作业伙伴Aj的合适度与预设合适度函数阈值fthre相比,若所述预协同作业伙伴Aj的合适度大于所述fthre,则不将所述预协同作业伙伴Aj作为所述目标智能主体的协同作业伙伴,否则将所述预协同作业伙伴Aj作为所述目标智能主体的协同作业伙伴。
4.根据权利要求1所述的多智能主体协同搬运物件的方法,其特征在于,所述更新所述目标智能主体的移动速度与位置,包括:
通过引入的两极分化因子
Figure FDA0002626098930000023
对所述多智能主体群体进行控制,以更新所述目标智能主体的移动速度与位置,所述
Figure FDA0002626098930000022
所述vi是所述多智能主体中第i个智能主体的速度,所述||vi||为计算vi在其度量空间中的范数。
5.根据权利要求1所述的多智能主体协同搬运物件的方法,其特征在于,所述交互成本函数与期望差值相关,所述期望差值为转移之后的多智能主体中除所述目标智能主体之外的其他智能主体的动作-成本函数与忽略所述智能主体的状态和动作的条件下经反真实计算得到的动作-成本函数的期望差值。
6.根据权利要求5所述的多智能主体协同搬运物件的方法,其特征在于,所述多智能主体中除所述目标智能主体之外的其他智能主体的动作-成本函数与除所述目标智能主体之外的其他智能主体的奖励以及所述其他智能主体在转移之后的期望累计收益之和相关。
7.根据权利要求5所述的多智能主体协同搬运物件的方法,其特征在于,所述经反真实计算得到的动作-成本函数与除所述目标智能主体之外的其他智能主体的反真实奖励以及所述其他智能主体在转移之后的反真实的期望累计收益之和相关。
8.一种多智能主体协同搬运物件的系统,其特征在于,所述系统包括:
确定模块,用于从执行搬运物件这一任务的多智能主体中确定一目标智能主体;
策略调用模块,用于根据成本函数,从决策集中为所述目标智能主体调用相应的至少一策略以控制所述目标智能主体执行期望行为,所述成本函数与所述目标智能主体的激励成本函数以及所述多智能主体中除所述目标智能主体之外的其他智能主体相对所述目标智能主体的交互成本函数相关;
构建模块,用于按照所述目标智能主体周围的邻居分布各向异同性以及多智能主体中各个智能主体之间释放的信息素,构建多智能主体协同作业的拓扑结构;
第一更新模块,用于在所述多智能主体协同作业的拓扑结构下,更新所述目标智能主体的协同作业伙伴;
第二更新模块,用于更新所述目标智能主体的移动速度与位置,返回所述构建多智能主体协同作业的拓扑结构的步骤,直至所述多智能主体完成搬运物件这一任务。
9.一种多智能主体协同搬运物件的系统,所述系统包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述计算机程序代码由该一个或多个处理器加载并执行以实现如权利要求1至6任意一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任意一项所述方法的步骤。
CN202010797223.0A 2020-08-10 2020-08-10 多智能主体协同搬运物件的方法、系统和存储介质 Pending CN112034843A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010797223.0A CN112034843A (zh) 2020-08-10 2020-08-10 多智能主体协同搬运物件的方法、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010797223.0A CN112034843A (zh) 2020-08-10 2020-08-10 多智能主体协同搬运物件的方法、系统和存储介质

Publications (1)

Publication Number Publication Date
CN112034843A true CN112034843A (zh) 2020-12-04

Family

ID=73577777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010797223.0A Pending CN112034843A (zh) 2020-08-10 2020-08-10 多智能主体协同搬运物件的方法、系统和存储介质

Country Status (1)

Country Link
CN (1) CN112034843A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830373A (zh) * 2018-06-08 2018-11-16 武汉大学 仿欧椋鸟群集飞行的大规模智能群体自主协同的建模方法
CN110456815A (zh) * 2019-07-04 2019-11-15 北京航空航天大学 一种基于行军蚁启发式智能的无人机集群协同定位方法
CN110471297A (zh) * 2019-07-30 2019-11-19 清华大学 多智能体协同控制方法、系统及设备
CN110597059A (zh) * 2019-09-05 2019-12-20 武汉大学 面向无人系统的椋群式智能群体动态网络拓扑构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830373A (zh) * 2018-06-08 2018-11-16 武汉大学 仿欧椋鸟群集飞行的大规模智能群体自主协同的建模方法
CN110456815A (zh) * 2019-07-04 2019-11-15 北京航空航天大学 一种基于行军蚁启发式智能的无人机集群协同定位方法
CN110471297A (zh) * 2019-07-30 2019-11-19 清华大学 多智能体协同控制方法、系统及设备
CN110597059A (zh) * 2019-09-05 2019-12-20 武汉大学 面向无人系统的椋群式智能群体动态网络拓扑构建方法

Similar Documents

Publication Publication Date Title
Türkyılmaz et al. A research survey: heuristic approaches for solving multi objective flexible job shop problems
Barto et al. Recent advances in hierarchical reinforcement learning
Russell et al. Q-decomposition for reinforcement learning agents
Parker Decision making as optimization in multi-robot teams
Ma et al. Hierarchical reinforcement learning via dynamic subspace search for multi-agent planning
Hafez et al. Topological Q-learning with internally guided exploration for mobile robot navigation
Deepalakshmi et al. Role and impacts of ant colony optimization in job shop scheduling problems: a detailed analysis
Pu et al. 3D path planning for a robot based on improved ant colony algorithm
CN113790729A (zh) 一种基于强化学习算法的无人天车路径规划方法及装置
CN112613608A (zh) 一种强化学习方法及相关装置
Garcia-Aunon et al. Control optimization of an aerial robotic swarm in a search task and its adaptation to different scenarios
Carpin Solving stochastic orienteering problems with chance constraints using monte carlo tree search
Cadenas et al. Using machine learning in a cooperative hybrid parallel strategy of metaheuristics
Kwa et al. Adaptivity: a path towards general swarm intelligence?
Chen et al. Deep reinforcement learning-based robot exploration for constructing map of unknown environment
Li et al. Evolutionary computation and reinforcement learning integrated algorithm for distributed heterogeneous flowshop scheduling
Wang et al. A Feedback Learning-Based Memetic Algorithm for Energy-Aware Distributed Flexible Job-Shop Scheduling With Transportation Constraints
Schneckenreither Average reward adjusted discounted reinforcement learning: Near-blackwell-optimal policies for real-world applications
Gautier et al. Deep Q-learning-based dynamic management of a robotic cluster
Zhang et al. Compiler-level matrix multiplication optimization for deep learning
CN112034841A (zh) 一种无人环境下的提货方法、系统和计算机可读存储介质
CN112034843A (zh) 多智能主体协同搬运物件的方法、系统和存储介质
CN112034844A (zh) 多智能主体编队搬运方法、系统和计算机可读存储介质
El Habib Souidi et al. Multi-agent pursuit-evasion game based on organizational architecture
Fernandez-Gauna et al. Undesired state-action prediction in multi-agent reinforcement learning for linked multi-component robotic system control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201204