CN111308996B

CN111308996B - 教练装置及其合作运作控制方法

Info

Publication number: CN111308996B
Application number: CN201811479876.3A
Authority: CN
Inventors: 王秉丰; 郭忠义; 王蓁蒂
Original assignee: Institute for Information Industry
Current assignee: Institute for Information Industry
Priority date: 2018-11-27
Filing date: 2018-12-05
Publication date: 2023-06-27
Anticipated expiration: 2038-12-05
Also published as: US11275387B2; TW202020589A; TWI680364B; CN111308996A; US20200166952A1

Abstract

一种用于教练式驱动多机器人合作运作系统的教练装置及其合作运作控制方法。教练装置与多个行动机器人连线，并自各行动机器人接收一状态空间数据。教练装置将该等行动机器人划分为多个行动群组。教练装置精简各行动群组中该等行动机器人的该等状态空间数据，以产生各行动群组的一精简状态空间数据，并基于该等精简状态空间数据，训练并生成一合作模型。此外，针对各行动群组，教练装置根据该等精简状态空间数据，选择一群组策略，并将合作模型及群组策略传送至行动群组中各行动机器人，以使其根据合作模型及群组策略执行一行动任务。

Description

教练装置及其合作运作控制方法

技术领域

本发明是关于一种用于教练式驱动多机器人合作运作系统的教练装置及其合作运作控制方法。具体而言，本发明的教练装置将多个行动机器人划分为多个行动群组，并藉由精简各行动群组中该等行动机器人的该等状态空间数据，以降低训练合作模型的数据量。

背景技术

随着科技的发展，机器人已逐渐融入人类的生活，以协助人类完成各种任务。近年来仓储机器人风靡全球，电子商务营运商藉由仓储机器人可有效地进行仓储管理，以节省所需的人工，例如：对货物进行分拣、搬运、放置操作等。除了仓储管理外，机器人亦可运用于港口漂流物清理、巡检、追捕、避障等应用。

在前述这些应用中，机器人间需要通过合作运作来完成目标任务。然而，传统机器人合作运作是基于状态-动作(State-Action)控制，无法即时规划最佳避障路径，难以负荷多机器人的避障合作运作，最终产生机器人冻结(freezing robot)问题。再者，机器人行走处理合作运作问题(例如：避免碰撞、追捕行为、共同清洁等)亦需要短时间内快速反应。有鉴于此，如何提供一种合作运作机制，其能降低数据计算量，提供最佳合作运作行为与反应时间，是为业界亟需解决的一技术问题。

发明内容

本发明的目的在于提供一种合作运作机制，其藉由将多个行动机器人划分为多个行动群组，并藉由精简各行动群组中该等行动机器人的该等状态空间数据，以降低训练合作模型的数据量。据此，本发明能降低机器人合作运作所需的数据计算量，提供最佳合作运作行为与反应时间。

为达上述目的，本发明揭露一种用于一教练式驱动多机器人合作运作系统的教练装置，其包括一存储器、一通信接口以及一处理器。该存储器存储一精简状态空间模型、一合作学习模型及一策略库。该通信接口用以与多个行动机器人连线。该处理器电性连接该存储器及该通信接口，且用以执行以下操作：通过该通信接口，自各该行动机器人接收一状态空间数据及一目标信息；根据该等目标信息及该等状态空间数据，将该等行动机器人划分为多个行动群组；将该等状态空间数据输入至该精简状态空间模型，以产生多个精简状态空间数据，其中各该精简状态空间数据对应至该等该行动群组其中之一，且经由整合所对应的该行动群组中至少一该等行动机器人的至少一该等状态空间数据所产生；将该等精简状态空间数据输入至该合作学习模型，以训练并生成一合作模型；针对各该行动群组，根据该等精简状态空间数据，自该策略库选择一群组策略；以及针对各该行动群组，通过该通信接口，将该合作模型及该群组策略传送至该行动群组中各该行动机器人，以使该行动群组中各该行动机器人根据该合作模型及该群组策略执行一行动任务。

此外，本发明更揭露一种合作运作控制方法。该合作运作控制方法适用于一教练式驱动多机器人合作运作系统的一教练装置。该教练装置包括一存储器、一通信接口以及一处理器。该存储器存储一精简状态空间模型、一合作学习模型及一策略库。该通信接口与多个行动机器人连线。该合作运作控制方法由该处理器执行且包括以下步骤：通过该通信接口，自各该行动机器人接收一状态空间数据及一目标信息；根据该等目标信息及该等状态空间数据，将该等行动机器人划分为多个行动群组；将该等状态空间数据输入至该精简状态空间模型，以产生多个精简状态空间数据，其中各该精简状态空间数据对应至该等该行动群组其中之一，且经由整合所对应的该行动群组中至少一该等行动机器人的至少一该等状态空间数据所产生；将该等精简状态空间数据输入至该合作学习模型，以训练并生成一合作模型；针对各该行动群组，根据该等精简状态空间数据，自该策略库选择一群组策略；以及针对各该行动群组，通过该通信接口，将该合作模型及该群组策略传送至该行动群组中各该行动机器人，以使该行动群组中各该行动机器人根据该合作模型及该群组策略执行一行动任务。

在参阅附图及随后描述的实施方式后，本领域的技术人员便可了解本发明的其他目的，以及本发明的技术手段及实施态样。

附图说明

图1是本发明的教练装置1的示意图；

图2描绘本发明的教练式驱动多机器人合作运作系统的一实施情境；

图3A-3B描绘教练装置1对行动机器人进行分群的示意图；

图4A-4B描绘一群组策略的示意图；

图5A-5B描绘另一群组策略的示意图；以及

图6是本发明的合作运作控制方法的流程图；

具体实施方式

以下将通过实施例来解释本发明内容，本发明的实施例并非用以限制本发明须在如实施例所述的任何特定的环境、应用或特殊方式方能实施。因此，关于实施例的说明仅为阐释本发明的目的，而非用以限制本发明。需说明，以下实施例及附图中，与本发明非直接相关的元件已省略而未绘示，且附图中各元件间的尺寸关系仅为求容易了解，并非用以限制实际比例。

本发明第一实施例如图1-3所示。图1为本发明的教练装置1的示意图。教练装置1适用于一教练式驱动多机器人合作运作系统，如图2所示。教练式驱动多机器人合作运作系统可包括至少一行动机器人(例如：行动机器人2a、2b、2c)。于一些文献中，教练装置1亦可称作为教练机器人或教练代理人，以及行动机器人亦可称作为行动代理人。

为简化说明，于图2中仅绘示行动机器人2a、2b、2c；然而，可理解的是，行动机器人的数量并非用以限制本发明。教练装置1可设置于该等行动机器人的近端或雾端。于其他实施例中，教练装置1亦可同时扮演一行动机器人的角色，亦即教练装置1亦可属于该等行动机器人其中之一。教练装置1与行动机器人2a、2b、2c间的沟通可采用使用一窄频物联网(Narrow Band Internet of Things；NB-IoT)技术、一无线区域网络技术(例如：WiFi)及低功耗广域网络技术(例如：LoRa)其中之一达成，但不限于此。

教练装置1包括一存储器11、一通信接口13以及一处理器15。存储器11存储一精简状态空间模型(Reduce State Space Model)RSSM、一合作学习模型(CooperativeLearning Model)CLM及一策略库(Strategy base)SB。通信接口13用以与多个行动机器人(例如：行动机器人2a、2b、2c)连线。处理器15电性连接存储器11及通信接口13。

处理器15通过通信接口13，自各行动机器人2a、2b、2c接收一状态空间数据及一目标信息。目标信息是记载行动机器人基于教练装置1所传送的策略，从其目标库所选择的需要达到的目标。状态空间数据描述各行动机器人2a、2b、2c周遭环境信息，其包括一自身位置值、一移动物体位置值、一固定物体位置值及一可行走方向值。各行动机器人2a、2b、2c于移动过程中会不断产生新的状态空间数据，并将新的状态空间数据回报给教练装置1。

自身位置值、移动物体位置值、固定物体位置值、可行走方向值及状态空间数据皆可以向量方式表示。举例而言，以二维空间作为说明，自身位置值包括二维空间座标值，其可表示为A_p＝(a_x,a_y)，移动物体位置值包括二维空间座标值，其可表示为M_o＝(m_x,m_y)、固定物体位置值包括二维空间座标值可表示为F_q＝(f_x,f_y)、可行走方向值包括行动机器人的行动角度及行动方向，其可表示为D_n＝(θ,d_y)，故状态空间数据可表示为St＝<A_p,M_o,F_q,D_n>。由于本领域的技术人员可基于二维空间的实施情境轻易了解三维空间的实施情境，故在此不针对三维空间的实施情境加以赘述。

接着，处理器15根据该等目标信息及该等状态空间数据，将该等行动机器人划分为多个行动群组。举例而言，处理器15是根据该等目标信息及该等状态空间数据的该等自身位置值，动态地将该等行动机器人划分为多个行动群组，如图3A-3B所示。各行动群组中的行动机器人彼此邻近且具有相同的行动目标、相同的行动行为或其组合。

于图3A-3B中，圆形代表行动机器人2a、三角形代表行动机器人2b、正方形代表行动机器人2c以及菱形代表行动机器人2d。假设所有行动机器人2a皆往下方移动(即往行动机器人2b的位置移动)，所有行动机器人2b皆往右方移动(即往行动机器人2c的位置移动)、所有行动机器人2c皆往上方移动(即往行动机器人2d的位置移动)，以及所有行动机器人2d皆往左方移动(即往行动机器人2a的位置移动)。教练装置1可根据各行动机器人的自身位置值、行动目标及行动行为，将彼此邻近且具有相同行动行为的行动机器人2a划分为同一行动群组G2a，将行动机器人2b划分为同一行动群组G2b，行动机器人2c划分为同一行动群组G2c，以及行动机器人2d划分为同一行动群组G2d，如图3B所示。

于分群结束后，处理器15将各行动群组中的各行动代理人的状态空间数据输入至精简状态空间模型RSSM，以产生精简状态空间数据。各精简状态空间数据经由整合所对应的行动群组中至少一该等行动机器人的至少一该等状态空间数据所产生。进一步言，针对各行动群组，处理器15根据各行动群组中该等行动机器人的该等状态空间数据中的该等自身位置值、该等移动物体值及该等可行走方向值，通过精简状态空间模型RSSM计算各行动群组的一群组自身位置值、一移动群组值及一群组可行走方向值。

换言之，各行动群组的群组自身位置值可为行动群组中该等行动机器人的该等状态空间数据中的该等自身位置值的平均值或是几何重心值；各行动群组的移动群组值为行动群组中该等行动机器人的该等状态空间数据中的该等移动物体值的平均值或是几何重心值；以及，各行动群组的群组可行走方向值为行动群组中该等行动机器人的该等状态空间数据中的该等可行走方向值的平均值或是几何重心值。据此，行动群组的精简状态空间数据包括群组自身位置值、移动群组值、群组可行走方向值及各行动机器人所感测到的固定物体位置值。

处理器15将该等精简状态空间数据输入至合作学习模型CLM，并基于一增强式学习演算法，训练并生成一合作模型。增强式学习演算法可例如为改良过的贪婪(epsilon-greedy；ε-greedy)演算法，但不限于此。此外，于其他实施例中，通信接口13可更与多个感测装置连线。举例而言，该等感测装置可为感测天气的无人飞行载具(Vehicle)、侦测洋流方向或污泥漂流方向的无人载具(Vehicle)或判断交通状况的摄影机等定点感测装置。在此情况下，处理器15更通过通信接口13自该等感测装置接收多个感测数据，并将该等精简状态空间数据及该等感测数据输入至合作学习模型CLM，以训练并生成合作模型。

针对各行动群组，处理器15根据该等精简状态空间数据，自策略库SB选择一群组策略，并通过通信接口13，将合作模型及群组策略传送至行动群组中的各行动机器人，以使行动群组中的各行动机器人根据合作模型及群组策略执行一行动任务。

进一步言，行动机器人中可存储一目标库(goal base)、一合作模型及一行动库(action base)。群组策略可为一移动策略，例如：一对角线移动策略、死结(deadlock)移动策略等。目标库用于存储行动机器人的行动目标。行动库用于存储行动机器人的基本动作。行动机器人是根据群组策略自目标库选择需要达到的的行动目标，并通过将行动目标输入至合作模型中，以自行动库中选择达到行动目标所需执行的行动行为。因此，各行动机器人所执行的行动任务是由行动目标及行动行为所构成。由于本领域的技术人员可基于已公开的技术文献及本案所揭露的技术内容了解行动机器人如何基于教练装置所提供的合作模型及策略执行相关操作，故在此不再加以赘述。

举例而言，请参考图4A-4B，其是描绘教练装置1选择群组策略的示意图。如图4A所示，假设各行动机器人2a-2h的行动目标的位置均在其对角线的位置，即行动机器人2a的行动目标的位置为行动机器人2e所处位置，行动机器人2b的行动目标的位置为行动机器人2f所处位置，行动机器人2c的行动目标的位置为行动机器人2g所处位置，行动机器人2d的行动目标的位置为行动机器人2h所处位置，行动机器人2e的行动目标的位置为行动机器人2a所处位置，行动机器人2f的行动目标的位置为行动机器人2b所处位置，行动机器人2g的行动目标的位置为行动机器人2c所处位置，行动机器人2h的行动目标的位置为行动机器人2d所处位置。

处理器15判断行动机器人2a-2h具有相同的行动行为(皆为往对角线方向移动)，故将行动机器人2a-2h划分在同一行动群组GR1，如图4B所示。然而，若各行动机器人2a-2h皆以直线方向朝行动目标的位置移动且接近中心点时，容易彼此碰撞。由于接近中心点时，各行动机器人的距离过近，为了避免彼此碰撞，各行动机器人会不断地更改行动速度，因而产生大量数据运算的情况，且亦可能因为不断改变行动路径而增加行动时间。

因此，处理器15判断若行动群组GR1中的行动机器人2a-2h皆以顺时针或逆时针方向旋转移动，可缩短行动机器人2a-2h的行动时间，使各行动机器人2a-2h以最短时间移动至其行动目标时，处理器15可自策略库SB选择最适合行动群组GR1的群组策略(例如：对角线移动策略)。如此一来，行动机器人2a-2h根据对角线移动策略即可皆以顺时针或逆时针方向旋转移动，如图4B所示。

再举例而言，请参考图5A-5B，其描绘教练装置1选择群组策略的示意图。于图5A中亦假设行动机器人2a-2d的行动目标的位置为其对角线的位置，处理器15同样根据行动机器人2a-2d的行动行为将行动机器人2a-2d划分为同一行动群组GR2。为了避免各行动机器人2a-2d产生碰撞，行动机器人2a-2d往行动目标移动的过程中，若与其他行动机器人距离过近时，可先静止等待对方移动后再继续往行动目标移动。然而，若所有行动机器人2a-2d为了避免彼此碰撞接而静止，将造成行动群组出现死结(deadlock)状态，如图5A所示。

为避免行动机器人彼此碰撞或行动群组出现死结状态，教练装置1可自策略库SB中选择死结移动策略。死结移动策略可使行动群组GR2中部分行动机器人(例如：行动机器人2c、2d)于判断其他行动机器人与其距离过于接近时进入静止状态，并于行动机器人2a、2b通过后才继续往行动目标移动，如图5B所示。

如同前述说明，行动机器人于移动过程中会不断产生新的状态空间数据，并将新的状态空间数据回报给教练装置，以供教练装置1更新状态空间数据、合作学习模型CLM及提供给行动机器人的策略。因此，于习知技术中，由于教练装置是直接使用各行动机器人的状态空间数据训练合作模型，故在所需运算的状态空间数据庞大的情况下，习知的教练装置无法即时规划最佳避障路径，因而难以负荷多机器人的避障合作运作。反观本发明，教练装置1是藉由先将该等行动机器人划分为多个行动群组，并通过精简状态空间模型RSSM产生各行动群组的精简状态空间数据后，才使用精简状态空间数据训练合作模型，故本发明可降低训练合作模型的数据量而减少训练时间，进而达到即时规划最佳避障路径。

本发明第二实施例请再次参考图4A-4B及图5A-5B。第二实施例为第一实施例的延伸。不同于第一实施例，于本实施例中，处理器15亦可通过执行一策略选择程序，由各行动群组中的各行动机器人选择其所在群组欲使用的群组策略。详言之，处理器15自策略库SB选择多个候选策略，并产生具有该等候选策略的一策略投票消息，再通过通信接口13传送策略投票消息至行动群组的各行动机器人。候选策略是教练装置1基于行动群组的精简状态空间数据评估策略库SB中哪些策略适用于行动群组。

行动群组中的各行动机器人于接收策略投票消息后，会从候选策略中选择最适合其所在群组的群组策略，并产生及传送一策略选择消息至教练装置1。当处理器15通过通信接口13自行动群组中各行动机器人接收策略选择消息后，根据所有策略选择消息，例如：选择票数最高的群组策略，决定群组策略。

举例而言，教练装置1所选择的候选策略可包括对角线移动策略及死结移动策略。于图4A-4B所描绘的实施情境中，行动群组GR1的8个行动机器人2a-2h中，有5个行动机器人选择对角线移动策略，以及3个行动机器人选择死结移动策略，则教练装置1可根据投票结果，决定行动群组GR1使用对角线移动策略，如图4B所示。

再举例而言，于图5A-5B所描绘的实施情境中，行动群组GR2的4个行动机器人2a-2d中有3个行动机器人选择死结移动策略，以及1个行动机器人选择对角线移动策略，则教练装置1可根据投票结果，决定行动群组GR2使用死结移动策略，如图5B所示。

于其他实施例中，若行动机器人判断目前群组策略不适合其行动行为时，行动机器人亦可直接传送一策略要求消息，以向教练装置1要求更改群组策略。当教练装置1判断行动群组中传送策略要求消息的行动机器人的数量超过行动群组的行动机器人总数的一比例时(例如：超过总数的一半时)，则重新执行策略选择程序。

此外，于其他实施例中，行动机器人除了传送策略要求消息来要求教练装置1更改群组策略外，亦可传送一脱离群组要求消息，以脱离原本的行动群组成为独立个体。

于其他实施例中，若教练装置1自非行动群组中的其他行动机器人接收到状态空间数据及目标信息时，可根据其他行动机器人的状态空间数据及目标信息，判断其与邻近行动群组中的行动机器人是否具有相同行动目标或行动行为，若具有相同行动目标或行动行为时，则将其他行动机器人加入邻近行动群组中。

本发明第三实施例是描述一合作运作控制方法，其流程图如图6所示。合作运作控制方法适用于一教练式驱动多机器人合作运作系统的一教练装置(例如：前述实施例的教练装置1)。教练装置包括一存储器、一通信接口以及一处理器。存储器存储一精简状态空间模型、一合作学习模型及一策略库。通信接口与多个行动机器人连线。合作运作控制方法由处理器执行且包括以下步骤。

首先，于步骤S602中，通过通信接口，自各行动机器人接收一状态空间数据及一目标信息。如第一实施例所述，各状态空间数据包括一自身位置值、一移动物体位置值、一固定物体位置值及一可行走方向值。于步骤S604中，根据该等目标信息及该等状态空间数据，将该等行动机器人划分为多个行动群组。于步骤S606中，将该等状态空间数据输入至精简状态空间模型，以产生多个精简状态空间数据。各精简状态空间数据对应至该等该行动群组其中之一，且经由整合所对应的行动群组中至少一行动机器人的至少一状态空间数据所产生。

接着，于步骤S608中，将该等精简状态空间数据输入至合作学习模型，以训练并生成一合作模型。于一实施例中，合作学习模型基于一增强式学习演算法，训练并生成合作模型。随后，于步骤S610中，针对各行动群组，根据该等精简状态空间数据，自策略库选择一群组策略。于步骤S612中，针对各行动群组，通过通信接口，将合作模型及群组策略传送至行动群组中各行动机器人，以使行动群组中各行动机器人根据合作模型及群组策略执行一行动任务。

于其他实施例中，针对各行动群组，合作运作控制方法更包括步骤：根据行动群组中该等行动机器人的该等状态空间数据中的该等自身位置值、该等移动物体值及该等可行走方向值，计算行动群组的一群组自身位置值、一移动群组值及一群组可行走方向值。行动群组的精简状态空间数据包括群组自身位置值、移动群组值、群组可行走方向值及该等行动机器人的该等固定物体位置值。

于其他实施例中，合作运作控制方法更包括步骤：根据目标信息及该等状态空间数据的该等自身位置值，动态地将该等行动机器人划分为该等行动群组。各行动群组中的至少一该等行动机器人彼此邻近且具有一相同的行动目标、一相同的行动行为或其组合。此外，于其他实施例中，存储器更存储一行动机器人数据库。

于其他实施例中，针对各行动群组，合作运作控制方法更包括步骤：自策略库选择多个候选策略；产生具有该等候选策略的一策略投票消息；通过通信接口传送策略投票消息至行动群组的该等行动机器人；通过通信接口自行动群组中各行动机器人接收一策略选择消息；以及根据该等策略选择消息，自该等候选策略选择群组策略。

于其他实施例中，针对各行动群组，合作运作控制方法更包括步骤：执行一策略选择程序。策略选择程序包括以下步骤：判断是否通过通信接口，自行动群组中该等行动机器人至少其中之一接收一策略要求消息；判断传送策略要求消息的该等行动机器人的一数量是否超过行动群组的该等行动机器人的一总数的一比例；以及当数量超过总数的该比例时，重新执行策略选择程序。

于其他实施例中，通信接口用以与多个感测装置连线，且合作运作控制方法更包括步骤：通过通信接口自该等感测装置接收多个感测数据；以及将该等精简状态空间数据及该等感测数据输入至合作学习模型，以训练并生成合作模型。

于其他实施例中，合作运作控制方法更包括步骤：通过通信接口自该等行动机器人其中之一接收一脱离群组要求消息，以脱离原本的行动群组成为独立个体，如第二实施例所述。于其他实施例中，各行动群组的群组策略是一移动策略。

除了上述步骤，本发明的合作运作控制方法亦能执行在所有前述实施例中所阐述的所有操作并具有所有对应的功能，本领域的技术人员可直接了解此实施例如何基于所有前述实施例执行此等操作及具有该等功能，故不赘述。

综上所述，本发明的合作运作机制藉由根据多个行动机器人所回报的感测信息及目标信息，动态地将该等行动机器人划分为多个行动群组，并藉由精简各行动群组中该等行动机器人的该等状态空间数据，以降低训练合作模型的数据量，进而减少训练时间。此外，本发明的合作运作机制可基于简化后的精简状态空间数据选择适当的群组策略，以增加行动机器人合作运作的效率，达到最佳的合作结果。据此，本发明能降低机器人合作运作所需的数据计算量，提供最佳合作运作行为与反应时间。

上述的实施例仅用来例举本发明的实施态样，以及阐释本发明的技术特征，并非用来限制本发明的保护范畴。本领域的技术人员可轻易完成的改变或均等性的安排均属于本发明所主张的范围，本发明的权利保护范围应以权利要求书为准。

Claims

1.一种用于一教练式驱动多机器人合作运作系统的教练装置，包括：

一存储器，存储一精简状态空间模型、一合作学习模型及一策略库；

一通信接口，用以与多个行动机器人连线；以及

一处理器，电性连接该存储器及该通信接口，用以执行以下操作：

通过该通信接口，自各该行动机器人接收一状态空间数据及一目标信息，各该状态空间数据包括一自身位置值、一移动物体位置值、一固定物体位置值及一可行走方向值；

根据该等目标信息及该等状态空间数据，将该等行动机器人划分为多个行动群组；

针对各该行动群组，根据该行动群组中该等行动机器人的该等状态空间数据中的该等自身位置值、该等移动物体值及该等可行走方向值，计算该行动群组的一群组自身位置值、一移动群组值及一群组可行走方向值，其中该群组自身位置值为该行动群组中该等行动机器人的该等自身位置值的平均值或是几何重心值，该移动群组值为该行动群组中该等行动机器人的该等移动物体值的平均值或是几何重心值，该群组可行走方向值为该行动群组中该等行动机器人的该等可行走方向值的平均值或是几何重心值；

将该等状态空间数据输入至该精简状态空间模型，以产生多个精简状态空间数据，其中各该精简状态空间数据对应至该等行动群组其中之一，且经由整合所对应的该行动群组中至少一该等行动机器人的至少一该等状态空间数据所产生，其中各该行动群组的该精简状态空间数据包括该群组自身位置值、该移动群组值、该群组可行走方向值及该固定物体位置值；

将该等精简状态空间数据输入至该合作学习模型，以训练并生成一合作模型；

针对各该行动群组，根据该等精简状态空间数据，自该策略库选择一群组策略；以及

针对各该行动群组，通过该通信接口，将该合作模型及该群组策略传送至该行动群组中各该行动机器人，以使该行动群组中各该行动机器人根据该合作模型及该群组策略执行一行动任务。

2.如权利要求1所述的教练装置，其特征在于，该处理器是根据该目标信息及该等状态空间数据的该等自身位置值，动态地将该等行动机器人划分为该等行动群组，以及各该行动群组中的至少一该等行动机器人彼此邻近且具有一相同的行动目标、一相同的行动行为或其组合。

3.如权利要求1所述的教练装置，其特征在于，针对各该行动群组，该处理器更执行一策略选择程序，其包括以下操作：

自该策略库选择多个候选策略；

产生具有该等候选策略的一策略投票消息；

通过该通信接口传送该策略投票消息至该行动群组的该等行动机器人；

通过该通信接口自该行动群组中各该行动机器人接收一策略选择消息；以及

根据该等策略选择消息，自该等候选策略选择该群组策略。

4.如权利要求3所述的教练装置，其特征在于，针对各该行动群组，该处理器更执行以下操作：

判断是否通过该通信接口，自该行动群组中该等行动机器人至少其中之一接收一策略要求消息；

判断传送该策略要求消息的该等行动机器人的一数量是否超过该行动群组的该等行动机器人的一总数的一比例；以及

当该数量超过该总数的该比例时，重新执行该策略选择程序。

5.如权利要求1所述的教练装置，其特征在于，该通信接口用以与多个感测装置连线，以及该处理器更通过该通信接口自该等感测装置接收多个感测数据，并将该等精简状态空间数据及该等感测数据输入至该合作学习模型，以训练并生成该合作模型。

6.如权利要求1所述的教练装置，其特征在于，该处理器更通过该通信接口自该等行动机器人其中之一接收一脱离群组要求消息。

7.如权利要求1所述的教练装置，其特征在于，该合作学习模型基于一增强式学习演算法，训练并生成该合作模型。

8.如权利要求1所述的教练装置，其特征在于，各该行动群组的该群组策略是一移动策略。

9.一种合作运作控制方法，适用于一教练式驱动多机器人合作运作系统的一教练装置，该教练装置包括一存储器、一通信接口以及一处理器，该存储器存储一精简状态空间模型、一合作学习模型及一策略库，该通信接口与多个行动机器人连线，该合作运作控制方法由该处理器执行且包括以下步骤：

将该等状态空间数据输入至该精简状态空间模型，以产生多个精简状态空间数据，其中各该精简状态空间数据对应至该等该行动群组其中之一，且经由整合所对应的该行动群组中至少一该等行动机器人的至少一该等状态空间数据所产生，其中各该行动群组的该精简状态空间数据包括该群组自身位置值、该移动群组值、该群组可行走方向值及该固定物体位置值；

10.如权利要求9所述的合作运作控制方法，其特征在于，还包括以下步骤：

根据该目标信息及该等状态空间数据的该等自身位置值，动态地将该等行动机器人划分为该等行动群组，以及各该行动群组中的至少一该等行动机器人彼此邻近且具有一相同的行动目标、一相同的行动行为或其组合。

11.如权利要求9所述的合作运作控制方法，其特征在于，针对各该行动群组，该合作运作控制方法还包括以下步骤：

执行一策略选择程序，其包括以下步骤：

自该策略库选择多个候选策略；

产生具有该等候选策略的一策略投票消息；

根据该等策略选择消息，自该等候选策略选择该群组策略。

12.如权利要求11所述的合作运作控制方法，其特征在于，针对各该行动群组，该合作运作控制方法还包括以下步骤：

当该数量超过该总数的该比例半时，重新执行该策略选择程序。

13.如权利要求9所述的合作运作控制方法，其特征在于，该通信接口用以与多个感测装置连线，以及该合作运作控制方法还包括以下步骤：

通过该通信接口自该等感测装置接收多个感测数据；以及

将该等精简状态空间数据及该等感测数据输入至该合作学习模型，以训练并生成该合作模型。

14.如权利要求9所述的合作运作控制方法，其特征在于，还包括以下步骤：

通过该通信接口自该等行动机器人其中之一接收一脱离群组要求消息。

15.如权利要求9所述的合作运作控制方法，其特征在于，该合作学习模型基于一增强式学习演算法，训练并生成该合作模型。

16.如权利要求9所述的合作运作控制方法，其特征在于，各该行动群组的该群组策略是一移动策略。