CN114879702A

CN114879702A - 多智能体巡检控制方法、装置、系统、设备及介质

Info

Publication number: CN114879702A
Application number: CN202210789163.7A
Authority: CN
Inventors: 张晟东; 焦家辉; 王济宇; 张立华
Original assignee: Ji Hua Laboratory
Current assignee: Ji Hua Laboratory
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2022-08-09
Anticipated expiration: 2042-07-06
Also published as: CN114879702B

Abstract

本发明涉及智能巡检技术领域，具体公开了一种多智能体巡检控制方法、装置、系统、设备及介质，其中，方法包括以下步骤：根据各个所述智能体获取的图像信息分析获取安防检测结果；根据各个所述智能体获取的空间信息加权整合获取空间信息地图，并根据所述安防检测结果、空间信息地图进行种群遗传信息迭代以生成各个所述智能体的规划轨迹信息；根据环境信息生成局部导航信息，以使各个所述智能体能沿规划轨迹信息进行局部避障移动；该方法实现了多智能体巡检的共同检测、高效协同控制，并基于环境信息生成局部导航信息以控制对应的智能体进行局部避障移动，使得多个智能体能在巡检范围进行自动化的安防检测、巡检任务协同跟派。

Description

多智能体巡检控制方法、装置、系统、设备及介质

技术领域

本申请涉及智能巡检技术领域，具体而言，涉及一种多智能体巡检控制方法、装置、系统、设备及介质。

背景技术

现有技术的智能巡检领域中，普遍采用多个智能体按照特定路线进行巡逻检查，在出现异常时，各个智能体一般为根据自身获取的外界信息独立进行处理，各自上报问题给上位机分析后对应指派任务进行移动，智能体之间协调合作能力差；也有通过上位机综合协调控制的处理综合协调控制的手段，但一般只能针对重叠的移动路线进行简易调整来调度智能体移动。

针对上述问题，目前尚未有有效的技术解决方案。

发明内容

本申请的目的在于提供一种多智能体巡检控制方法、装置、系统、设备及介质，实现多智能体巡检的共同检测、高效协同控制。

第一方面，本申请提供了一种多智能体巡检控制方法，用于控制调度多智能体进行巡检任务，所述方法包括以下步骤：

根据各个所述智能体获取的图像信息分析获取安防检测结果；

根据各个所述智能体获取的空间信息加权整合获取空间信息地图，并根据所述安防检测结果、空间信息地图进行种群遗传信息迭代以生成各个所述智能体的规划轨迹信息；

根据环境信息生成局部导航信息，以使各个所述智能体能沿规划轨迹信息进行局部避障移动。

本申请的多智能体巡检控制方法实现了多智能体巡检的共同检测、高效协同控制，并基于环境信息生成局部导航信息以控制对应的智能体进行局部避障移动，使得多个智能体能在巡检范围进行自动化的安防检测、巡检任务协同跟派。

所述的多智能体巡检控制方法，其中，所述根据各个所述智能体获取的图像信息分析获取安防检测结果的步骤包括：

利用预先训练的安防识别模型分析每个所述图像信息生成对应的所述安防检测结果，所述安防识别模型通过以下步骤训练获取：

根据分块处理将所述图像信息划分为动作分块、着装分块及物体分块；

分别针对所述动作分块、所述着装分块及所述物体分块建立网络层以生成归一化的动作等价函数、着装等价函数及物体等价函数；

根据所述动作等价函数、所述着装等价函数及所述物体等价函数建立安防识别损失函数；

更新所述安防识别损失函数至收敛以生成所述安防识别模型。

本申请中的安防识别模型综合三种因素建立损失函数，使得最终分析获取的安防检测结果为综合动作、着装和物件进行分析的结果，从而有效提高安防检测结果的准确性。

所述的多智能体巡检控制方法，其中，所述根据所述安防检测结果、空间信息地图进行种群遗传信息迭代以生成各个所述智能体的规划轨迹信息的步骤包括：

随机初始化物种种群信息，以根据每个所述智能体的位置信息、所述安防检测结果及空间信息地图对应生成对应的可选路径信息；

根据遗传算法迭代更新所述可选路径信息，并根据多个预设的种群适应度函数评价所述可选路径信息；

在迭代更新次数达到预设次数阈值时，根据所述种群适应度函数的评价结果获取所述规划轨迹信息。

本申请设置多个种群适应度函数进行可选路径信息的评价，使得获取规划轨迹信息考虑了多方因素，有效避免规划轨迹信息的确定过程过分片面而制约了智能体协同控制的灵活度。

所述的多智能体巡检控制方法，其中，所述多个预设的种群适应度函数至少包括最小距离适应度函数、优先级适应度函数、活动范围适应度函数中的两种。

所述的多智能体巡检控制方法，其中，所述根据环境信息生成局部导航信息，以使各个所述智能体能沿规划轨迹信息进行局部避障移动的步骤包括：

利用预先训练的综合环境决策模型综合分析所有所述智能体采集的环境信息生成各个所述智能体的局部导航信息，所述综合环境决策模型通过以下步骤训练获取：

综合所有所述智能体采集的环境信息分别建立每个所述智能体的社会注意力层；

分别对各个所述社会注意力层建立网络结构；

基于所有所述网络结构建立综合损失函数；

更新所述综合损失函数至收敛以生成所述综合环境决策模型。

第二方面，本申请还提供了一种多智能体巡检控制装置，用于控制调度多智能体进行巡检任务，所述装置包括：

安检模块，用于根据各个所述智能体获取的图像信息分析获取安防检测结果；

规划模块，用于根据各个所述智能体获取的空间信息加权整合获取空间信息地图，并根据所述安防检测结果、空间信息地图进行种群遗传信息迭代以生成各个所述智能体的规划轨迹信息；

导航模块，用于根据环境信息生成局部导航信息，以使各个所述智能体能沿规划轨迹信息进行局部避障移动。

本申请的多智能体巡检控制装置实现了多智能体巡检的共同检测、协同控制，并基于环境信息生成局部导航信息以控制对应的智能体进行局部避障移动，使得多个智能体能在巡检范围进行自动化的安防检测、巡检任务协同跟派。

第三方面，本申请还提供了一种多智能体巡检控制系统，用于控制调度多智能体进行巡检任务，所述系统包括：

多个所述智能体，每个所述智能体均搭载有辅助定位设备；

中转工作站，与所述智能体及辅助定位设备通信连接；

孪生系统，与所述中转工作站通信连接；

所述中转工作站用于根据各个所述智能体获取的图像信息分析获取安防检测结果；

所述中转工作站还用于根据各个所述智能体获取的空间信息加权整合获取空间信息地图，并根据所述安防检测结果、空间信息地图进行种群遗传信息迭代以生成各个所述智能体的规划轨迹信息；

所述中转工作站还用于根据环境信息生成局部导航信息，以使各个所述智能体能沿规划轨迹信息进行局部避障移动；

所述中转工作站还用于将所述安防检测结果及所述智能体的位姿信息发送给所述孪生系统。

本申请的多智能体巡检控制系统实现了多智能体巡检的共同检测、协同控制，并基于环境信息生成局部导航信息以控制对应的智能体进行局部避障移动，使得多个智能体能在巡检范围进行自动化的安防检测、巡检任务协同跟派，还实现了物理空间的先验信息以及实时信息与虚拟空间的统一。

所述的多智能体巡检控制系统，其中，所述系统中的通信连接均为基于异步信息的时间戳对齐进行通信。

本申请的系统基于该通信同步处理的方式实现了物理空间与虚拟空间的实时同步，从而提高了孪生系统显示数据的实时性。

第四方面，本申请还提供了一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上述第一方面提供的所述方法中的步骤。

第五方面，本申请还提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。

由上可知，本申请提供了多智能体巡检控制方法、装置、系统、设备及介质，其中，方法基于各个智能体获取的图像信息进行分析获取安防检测结果，以安防检测结果来指导确定巡检范围中的异常点以定义智能体需要移动的目的地，再基于智能体获取的空间信息加权构建空间信息地图，并将所有智能体视为一个种群进行种群遗传信息迭代以将合适的目的地分配给对应的智能体并生成不同智能体需要移动的规划轨迹信息，从而实现了多智能体巡检的共同检测、高效协同控制，并基于环境信息生成局部导航信息以控制对应的智能体进行局部避障移动，使得多个智能体能在巡检范围进行自动化的安防检测、巡检任务协同跟派。

附图说明

图1为本申请实施例提供的多智能体巡检控制方法的流程图。

图2为安防识别模型的网络层结构示意图。

图3为综合环境决策模型的网络层结构示意图。

图4为本申请实施例提供的多智能体巡检控制装置的结构示意图。

图5为本申请实施例提供的多智能体巡检控制系统的结构示意图。

图6为本申请实施例提供的电子设备的结构示意图。

附图标记：201、安检模块；202、规划模块；203、导航模块；301、智能体；302、中转工作站；303、孪生系统；401、处理器；402、存储器；403、通信总线。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

第一方面，请参照图1-图3，本申请一些实施例中的一种多智能体巡检控制方法，用于控制调度多智能体进行巡检任务，方法包括以下步骤：

S1、根据各个智能体获取的图像信息分析获取安防检测结果；

具体地，智能体可以是无人车、无人机、移动机器人等用于巡逻检查的可移动智能设备，在本申请实施例中，智能体搭载有多种传感器组成的辅助定位设备，以使智能体能获取各类外界信息，如通过相机采集图像信息、视频信息，通过雷达获取地图信息，通过温湿度传感器获取气象信息等。

更具体地，在本申请实施例中，图像信息优选为通过智能体上的RGB相机采集生成的图片流中的帧图像。

更具体地，各个智能体可以根据独立设定的时间间隔采集图像信息并投入步骤S1中，还可以是同时持续采集图像信息投入步骤S1中。

更具体地，图像信息表征了对应智能体的机器视觉，反映了巡检范围内局部区域的现场情况；本申请实施例同时利用多个智能体获取的图像信息进行分析能同时针对巡检范围内多个位置进行安检。

更具体地，安防检测结果为关于图像信息中是否处于异常安防现象的识别结果，例如行人持刀的危险行为视为异常安防现象。

更具体地，该步骤针对每个智能体获取的图像信息能生成对应的安防检测结果，安防检测结果反映巡检范围不同位置是否出现安全问题，为后续综合指导各个智能体进行移动建立数据基础。

S2、根据各个智能体获取的空间信息加权整合获取空间信息地图，并根据安防检测结果、空间信息地图进行种群遗传信息迭代以生成各个智能体的规划轨迹信息；

具体地，空间信息地图可以是巡检范围内的包含各类实体的立体空间地图，还可以是包含障碍物分布的平面地图，可根据智能体类型进行选用。

更具体地，空间信息为根据智能体搭载的传感器获取的传感器数据综合反映的其自身所处环境的特征信息，如通过图像信息和雷达信息组合生成的局部空间地图，又如通过双目相机直接获取的深度地图。

更具体地，不同智能体获取的空间信息容易由于遮挡或距离等原因导致获取的空间信息的清晰度不同，且不同空间信息之间可能存在一定的重合度，因此，在本申请实施例中优选为采用加权整合的方式将多个空间信息组合构建空间信息地图，其整合处理中加权值可以是根据空间信息中的数据与对应智能体之间的距离关系设置负相关的加权值，还可以根据每个空间信息之间的清晰度设置对应的加权值，还可以是根据智能体的优先级设置加权值，还可以是根据人流密度、环境信息复杂度设置对应的加权值，使得最终获取的空间地图信息更清晰准确，为后续生成综合指导各个智能体进行移动建立地图基础。

更具体地，空间信息地图的整合生成过程可以是基于当前获取的空间信息生成，还可以是基于在前生成的空间信息地图和当前获取的空间信息生成，还可以是基于预设的空间模型和当前获取的空间信息生成，本申请实施例的方法优选为基于预设的空间模型和当前获取的空间信息生成，即在预设的空间模型上加权整合对应的空间信息而生成空间信息地图，其中，预设的空间模型为基于巡检范围内的物理空间场景建立，从而确保最终获取的空间信息地图的真实性，并能根据实时获取的空间信息进行加权修正而生成能准确反映当前物理空间场景状态的空间地图信息。

更具体地，在巡检控制中，出现异常安防现象时，需要控制智能体移动至对应异常安防现象所在地进行对应的巡检任务，故需要指派特定的智能体按照合理的规划路线进行移动，在本申请实施例中，空间地图信息和安防检测结果联合确定了智能体需要移动抵达的目的地，使得本申请实施例的方法能根据安防检测结果、空间信息地图生成用于指导智能体移动的规划轨迹信息；对于多个智能体和多个需要抵达的安防检测结果对应的目的地而言，具有复数种规划轨迹信息的组合方式，对于同一个智能体和同一个目的地，也会产生复数种规划轨迹信息，本申请实施例的方法采用种群遗传信息迭代生成各个智能体的规划轨迹信息，将所有智能体生成规划轨迹信息的过程视为一个遗传迭代过程，以迭代生成多种关于智能体、目的地及规划轨迹信息的组合形式，且对于同一智能体和目的地也能产生多种规划轨迹信息，并基于种群遗传信息迭代的适应度函数获取最优的规划轨迹信息的组合，避免了不同智能体之间产生混乱规划，也避免了针对某一目的地派遣了不合适的智能体或安排了不合适的规划轨迹信息（距离过长等）给相应的智能体。

S3、根据环境信息生成局部导航信息，以使各个智能体能沿规划轨迹信息进行局部避障移动。

具体地，环境信息为智能体针对其所在位置对外界的感知信息，为基于其搭载的传感器采集数据生成的感知信息，用于反映对应智能体局部范围内的空间结构特点，能反映行人、行李、路面特征、建筑特征等障碍。

具体地，规划轨迹信息为指导智能体大致移动至目的地的移动路径，在实际移动过程中可能产生移动的或变化的阻碍智能体沿规划轨迹信息移动的活动障碍或固定障碍，如正在行走的人，本申请实施例的方法在引导智能体沿规划轨迹信息移动的过程中，根据环境信息生成局部导航信息，使得智能体能实时根据环境信息实现局部避障，以确保智能体能顺利抵达目的地。

更具体地，局部导航信息为用于指导智能体在小范围内进行移动而规避障碍的导航路径，即能使得智能体在尽可能不偏离规划轨迹信息的情况下进行避障移动。

本申请实施例的多智能体巡检控制方法，基于各个智能体获取的图像信息进行分析获取安防检测结果，以安防检测结果来指导确定巡检范围中的异常点以定义智能体需要移动的目的地，再基于智能体获取的空间信息加权构建空间信息地图，并将所有智能体视为一个种群进行种群遗传信息迭代以将合适的目的地分配给对应的智能体并生成不同智能体需要移动的规划轨迹信息，从而实现了多智能体巡检的共同检测、高效协同控制，并基于环境信息生成局部导航信息以控制对应的智能体进行局部避障移动，使得多个智能体能在巡检范围进行自动化的安防检测、巡检任务协同跟派。

另外，该方法基于所有智能体获取的图像信息生成安防检测结果实现了巡查范围内的多点巡检，并基于种群遗传信息迭代生成各个智能体的规划轨迹信息，在实现多智能体的快速调度的前提下安排最合适的目的地和最优移动路线，从而解决了巡检任务指派混乱、部分智能体移动路线过长的问题，以提高多智能体巡检的协同能力。

应当理解的是，步骤S2-S3为基于安防检测结果指导智能体导航移动的过程，在安防检测结果未包含异常安防现象或未对智能体进行特定巡检任务安排的情况下，智能体或未赋予规划轨迹信息的智能体可按照预设路线进行巡检或移动至预设位置进行待机或原地待机或返回出发点。

在一些优选的实施方式中，根据各个智能体获取的图像信息分析获取安防检测结果的步骤包括：

S11、利用预先训练的安防识别模型分析每个图像信息生成对应的安防检测结果；其中，安防识别模型为能根据图像信息分析对应场景中是否存在异常安防现象的模型，可以基于特定识别算法进行构建，还可以基于学习模型训练构建，使得该安防识别模型能实时地针对每个智能体采集的图像信息进行分析，并在图像信息中出现异常安防现象时定位对应异常安防现象出现的位置，即为智能体快速设定目的地位置，以作为智能体导航移动的阶段性终点数据。

在本申请实施例的方法中，安防识别模型通过以下步骤训练获取：

A1、根据分块处理将图像信息划分为动作分块、着装分块及物体分块；

A2、分别针对动作分块、着装分块及物体分块建立网络层以生成归一化的动作等价函数、着装等价函数及物体等价函数；

A3、根据动作等价函数、着装等价函数及物体等价函数建立安防识别损失函数；

A4、更新安防识别损失函数至收敛以生成安防识别模型。

具体地，实际巡检过程发现的异常安防现象一般表现为异常行为、异常着装以及持有异常物件等，如攻击性行为、穿着能隐藏危险物品的着装、持有攻击性武器等，也有结合动作和物件产生的异常安防现象等，因此，在申请实施例的方法中，安防识别模型具备关于动作、着装、物体的识别能力，能针对图像信息进行分块处理并进行分析，故根据步骤A1建立分块功能，以将图像信息划分为动作分块、着装分块及物体分块三个部分进行分析；其次，对于实际行人而言，着装及持有物体本身会影响行人的行为动作，单独对某一项数据进行分析会影响分析结果的准确性，因此，本申请实施例中的安防识别模型基于步骤A3来综合三种因素建立损失函数，使得最终分析获取的安防检测结果为综合动作、着装和物件进行分析的结果，从而有效提高安防检测结果的准确性。

更具体地，结合动作、着装、物体进行安防检测结果识别，还能实现对特定人群或个人的追踪，如确定某一危险分子的体型及着装后可利用该安防识别模型识别追踪是否有对应特点的行人来生成安防检测结果。

更具体地，不同分块之间的特征值具有一定差异，因此，步骤A2通过分别建立网络层的方式使对应分块的卷积特征连接形成可进行比较的等价函数，从而便于步骤A3建立损失函数。

在一些优选的实施方式中，图2所示为本申请实施例的方法中的安防识别模型的网络层结构示意图，其中，输入端和输出端分别为安防识别模型的输入端和输出端，分别用于输入图像信息和输出安防检测结果。

具体地，该安防识别模型网络层主要分为三条路线，分别用于进行动作、着装、物体的识别，其中，动作分块的网络层包括图卷积层（GCN层）、3×3 Conv层、1×1 Conv层、全连接层（Full Connect层）和分类网络层（softmax层），其中图卷积层用于动作骨骼提取，即对图像信息进行骨骼特征提取以获取行人的骨骼形态来表征对应行人的动作特点，接着通过3×3 Conv层、1×1 Conv层进行卷积特征提取并利用全连接层将特征整合生成数据化的骨骼特征，最后通过分类网络层转换为动作等价函数；着装分块的网络层包括三行并列且为两级的卷积层、与三行卷积层输出端连接的特征联合层（concatenate层）、全连接层和分类网络层，由于着装数据直接表现在图像信息中，因此，可通过卷积层直接进行卷积来提取特征，其中，衣着包含上衣、下衣等多个部分的数据，因此，在本申请实施例中，着装分块通过多个卷积层进行卷积特征提取，然后通过特征联合层将不同位置的衣着特征连接，再利用全连接层将连接后的衣着特征整合生成数据化的着装特征，最后通过分类网络层转换为着装等价函数；物体分块的网络层包括两个3×3 Conv层、1×1 Conv层、全连接层和分类网络层，同样地，物体数据直接表现在图像信息中，且具有一定的明显的三维特征，因此，优选为采用两个3×3 Conv层进行三维卷积特征提取，再利用1×1 Conv层进行卷积特征提取并利用全连接层将特征整合生成数据化的物体特征，最后通过分类网络层转换为物体等价函数；在本申请实施例中，将图像信息代入输入端后，通过各个分块的网络层进行分析，由对应的分类网络层产生对应的分块输出结果后，将三个输出结果整合至输出端进行输出，输出的安防检测结果可以是包含异常安防行为的识别结果，还可以是基于行人的动作、着装、物体提取的特征数据。

更具体地，对于具有上述网络层结构的安防识别模型，其训练过程为基于动作等价函数、着装等价函数及物体等价函数建立的损失函数进行更新训练而确定各个网络层参数的过程，其具体训练过程如下：

将先验的图片流（包含多个图片）输入至模型中，输入数据表现为

，

为图片流中的一个图片，设定步骤A1中的动作分块

、着装分块

和物体分块

，对应的分类网络层输出的图片流被识别为某一动作的概率集合为

，此处概率集合共10个元素，即代表需要识别的动作为10种，可根据实际巡检需求进行设定，即

分别代表对应动作的概率，其中最大概率的动作为对应的动作识别结果，记对应动作识别的所有网络层的最终识别结果为

，即为步骤A2中的动作等价函数，其中，

为动作分块对应所有网络层的参数集合；同理，可以获得着装等价函数

及物体等价函数

，

和

分别为着装分块和物体分块对应所有网络层的参数集合；故该模型的输出结果表现为：

，即包含动作、着装和物体的识别结果，

和

分别为对应某一着装的集合和对应某一物体的集合；基于该输出结果建立的损失函数为：

（1）

其中，

分别为动作分块、着装分块及物体分块的权重系数，

、

和

分别为对应图片流中的动作、着装及物体的真实结果（即为对应图片流中的先验结果），T为图片流中的图片总数，t为图片流中图片标号，有t=1,2,3……T，在本申请实施例中，优选为30。

在本申请实施例中，

分别优选设定为0.35，0.32，0.33。

基于该损失函数，采用反向传播梯度下降的方式进行更新来确定整合参数

即可完成安防识别模型的训练；其中，反向传播过程满足：

（2）

为学习率，一般设定为0.05，

为

的梯度算子，该模型初始化为各元素满足0，1正太分布的增广矩阵，利用式（2）更新式（1）至收敛，便能获取识别效果准确的安防识别模型；该安防识别模型在训练过程中基于动作、着装及物体特征进行共同训练，使得训练好的安防识别模型能针对图像信息直接准确地分析出图像信息中行人的动作、着装及物体，实现了多特征数据共同识别，以生成高准确率的安防检测结果，能实现对静态或低速物体识别、人体动作识别、高速物体识别以及着装识别等多种识别任务的同步进行。

在一些优选的实施方式中，根据安防检测结果、空间信息地图进行种群遗传信息迭代以生成各个智能体的规划轨迹信息的步骤包括：

S22、随机初始化物种种群信息，以根据每个智能体的位置信息、安防检测结果及空间信息地图对应生成对应的可选路径信息；

S23、根据遗传算法迭代更新可选路径信息，并根据多个预设的种群适应度函数评价可选路径信息；

S24、在迭代更新次数达到预设次数阈值时，根据种群适应度函数的评价结果获取规划轨迹信息。

具体地，步骤S22的可选路径信息表征了智能体在空间信息地图中可以移动的路线，可基于现有的各种有效路线生成策略进行生成，如基于空间信息地图建立包含障碍物的平面栅格地图，基于避障原则对目的地和智能体位置进行栅格连线生成可选路径信息，又如基于空间信息地图生成智能体可移动路线的拓扑地图，并基于避障原则在拓扑地图中对目的地和智能体位置进行连线生成可选路径信息。

更具体地，步骤S22初始化物种种群信息的过程为设定关于智能体随机生成可选路径信息的模型的过程，应当理解的是，初始化物种种群信息后，本申请实施例的方法能综合地根据每个智能体的位置信息、安防检测结果在空间信息地图中的位置为各个智能体安排随机化路线，以使每个目的地的移动任务均安排有智能体进行移动；由于随机初始化的物种种群信息安排的路线、目的地、智能体的搭配组合较为随机，因此，本申请实施例的方法，结合步骤S23- S24进行迭代更新进行路线优化，使得每个目的地的移动任务能安排最合适的智能体进行最合适路线的移动。

更具体地，在本申请实施例中，所有智能体视为一个种群，因此，在遗传算法迭代更新的过程中，所有智能体共同进化更新，以使所有智能体在不同移动路线及不同目的地的组合决策中获取最优搭配，从而在实现多智能体协调控制的同时能高效地获取最优化的调度安排。

更具体地，遗传算法迭代更新的过程为交叉、变异以及更新的过程，在本申请实施例中，对于多智能体构成的种群而言，按顺序执行一次交叉、变异以及更新视为完成该种群的一次更迭，即完成一次迭代更新，从而确保每次迭代更新产生足够数量的可选路径信息，使得可选路径信息数量足以遍及各种可选的形式，从而使得最终获取的规划轨迹信息结果更优、更可靠。

更具体地，步骤S23-S24设置种群适应度函数来评价种群生成的可选路径信息的优劣，可便捷地对可选路径信息进行筛选并促进种群进化，以提高本申请实施例的方法获取规划轨迹信息的效率。

更具体地，步骤S23设置多个种群适应度函数进行可选路径信息的评价，使得获取规划轨迹信息考虑了多方因素，有效避免规划轨迹信息的确定过程过分片面而制约了智能体协同控制的灵活度。

在一些优选的实施方式中，在生成可选路径信息的过程中还可以指派更多任务来安排智能体的移动目的地，如出现着火情况时需要安排智能体采集数据、警示等，又如识别到人群聚集需要进行疏散等，因此，步骤S22可进一步改进为：随机初始化物种种群信息，以根据每个智能体的位置信息、安防检测结果、附加任务及空间信息地图对应生成对应的可选路径信息；在该实施方式中，可根据巡检范围中出现的特殊情况或上级安排的任务增加附加任务，该附加任务至少包含除却安防检测结果位置以外的目的地。

在一些优选的实施方式中，多个预设的种群适应度函数至少包括最小距离适应度函数、优先级适应度函数、活动范围适应度函数中的两种。

具体地，最小距离适应度函数用于根据距离奖惩评价对应可选路径信息，即用于评价智能体与目的地距离的优劣性，最小距离适应度函数对距离较大的可选路径信息赋予更高的惩戒得分；优先级适应度函数用于评价目标点的优先级，优先级主要取决于目的地的严重程度，若目的地属于优先需要进行处理的对象，则优先级适应度函数对关于途径该目的地的可选路径信息赋予更低的惩戒得分；活动范围适应度函数用于评价可选路径是否超出对应智能体的可移动范围或是否超出整个巡检范围，活动范围适应度函数对超出相应范围的可选路径信息赋予极高的惩戒得分。

更具体地，单独利用最小距离适应度函数进行种群遗传能获取叠加距离最小的所有智能体的规划轨迹信息组合方式，在此基础上，叠加优先级适应度函数进行种群遗传能获取综合距离和优先级最优解的规划轨迹信息组合方式。

更具体地，在本申请实施例中，步骤S23优选为同时采用最小距离适应度函数、优先级适应度函数、活动范围适应度函数评价可选路径信息，以使智能体移动兼顾优先级、时效性（移动距离决定时效性）、可移动性三方面的考量。

更具体地，在本申请实施例中，最小距离适应度函数设为

，满足：

（3）

其中，

初始值设为0，D为可选路径信息的长度，D ₁为预设的合理距离，除却可选路径信息的长度进行判断外，该最小距离适应度函数还能对大于合理距离的可选路径信息赋予更大的惩罚得分；该式中1000为可更改的设定值，在本申请实施例中，设定为1000主要是为了便于清楚地与优先级适应度函数、活动范围适应度函数的惩罚程度进行比较。

另外，若采用栅格型地图进行可选路径信息的生成，可选路径信息的长度和合理距离为栅格数量。

更具体地，在申请实施例中，优先级适应度函数为

，满足：

（4）

其中，

初始值设为0，

为可选路径信息的轨迹，

为优先级最高的目的地，

为返回函数。

更具体地，在申请实施例中，活动范围适应度函数为

，满足：

（5）

其中，在本申请实施例中，定义

为智能体活动范围的半径，

为可选路径信息的长度，即可选路径信息超出智能体活动范围的情况下赋予极大的惩罚得分。

在一些优选的实施方式中，多个预设的种群适应度函数还可以包括活跃度适应度函数，活跃度适应度函数用于评价对应的智能体的移动活跃度，活跃度高的智能体可获取更低惩罚得分。

在一些优选的实施方式中，步骤S24中的预设次数阈值为100次，即遗传算法迭代更新100次后输出规划轨迹信息，实现智能体的移动路线的快速规划。

在一些优选的实施方式中，根据环境信息生成局部导航信息，以使各个智能体能沿规划轨迹信息进行局部避障移动的步骤包括：

S31、利用预先训练的综合环境决策模型综合分析所有智能体采集的环境信息生成各个智能体的局部导航信息;其中，综合环境决策模型为能同时获取所有智能体采集的环境信息并基于各个智能体的环境信息的相互关系进行综合考量分析为每个智能体生成最优化局部导航信息的深度模型，该模型综合分析所有智能体采集的环境信息的过程确保了环境信息的完整性，使得每个智能体的局部导航信息为多视觉环境信息进行分析所得的避障决策；其次，该综合环境决策模型能同时作出多智能体的同步决策输出，即基于所有环境信息分析同时产生局部导航信息再发送给对应的智能体进行避障移动，提高了多智能体的决策效率。

在本申请实施例的方法中，综合环境决策模型通过以下步骤训练获取：

B1、综合所有智能体采集的环境信息分别建立每个智能体的社会注意力层（Social attention层）；

B2分别对各个社会注意力层建立网络结构；

B3基于所有网络结构建立综合损失函数；

B4更新综合损失函数至收敛以生成综合环境决策模型。

具体地，如图3所示为综合环境决策模型的网络层结构示意图，智能体 1-智能体n对应为n个智能体，对于每个智能体对应设置有社会注意力层进行环境信息收集，基于图3可见，每个社会注意力层均连接所有智能体来获取所有环境信息，其后依次通过三维卷积层（3D-CNN层）、1×1 Conv层、3×3 Conv层、平滑层（Flattened层）及全连接层（FullConnect层）生成局部导航信息，并由综合环境决策模型输出端进行综合输出。

更具体地，在训练过程中，每个社会注意力层输出的特征定义为：

（6）

其中，t为时刻，n为智能体数量，

、

和

为自注意力参数，

为第i个智能体在t时刻采集到的环境信息（在训练过程中输入的为先验的环境信息），

为第j个智能体在t时刻采集到的环境信息，该特征一般初始化为各元素满足

的矩阵，其位数为

，为简化设置，将三维卷积层至全连接层的网络结构设定为

，对应的网络参数综合标记为

，对应一般初始化为各元素满足

的增广矩阵；于是，对于第i个智能体的局部导航信息

，有：

（7）

基于式（7）建立每个智能体的损失函数

，满足：

（8）

其中，

为基于训练数据设定的最优局部导航信息，结合所有智能体的损失函数设定综合环境决策模型的损失函数

，满足：

（9）

其后通过反向传播梯度下降的方式进行更新式（9）使其收敛便能完成综合环境决策模型的训练，该反向传播满足：

（10）

其中，

为学习率，一般设定为0.05，

为综合所有

的网络参数。

第二方面，请参照图4，图4是本申请一些实施例中提供的一种多智能体巡检控制装置的结构示意图，该装置用于控制调度多智能体进行巡检任务，装置包括：

安检模块201，用于根据各个智能体获取的图像信息分析获取安防检测结果；

规划模块202，用于根据各个智能体获取的空间信息加权整合获取空间信息地图，并根据安防检测结果、空间信息地图进行种群遗传信息迭代以生成各个智能体的规划轨迹信息；

导航模块203，用于根据环境信息生成局部导航信息，以使各个智能体能沿规划轨迹信息进行局部避障移动。

本申请实施例的多智能体巡检控制装置，基于各个智能体获取的图像信息进行分析获取安防检测结果，以安防检测结果来指导确定巡检范围中的异常点以定义智能体需要移动的目的地，再基于智能体获取的空间信息加权构建空间信息地图，并将所有智能体视为一个种群进行种群遗传信息迭代以将合适的目的地分配给对应的智能体并生成不同智能体需要移动的规划轨迹信息，从而实现了多智能体巡检的共同检测、协同控制，并基于环境信息生成局部导航信息以控制对应的智能体进行局部避障移动，使得多个智能体能在巡检范围进行自动化的安防检测、巡检任务协同跟派。

在一些优选的实施方式中，本申请实施例的多智能体巡检控制装置用于执行上述第一方面提供的多智能体巡检控制方法。

第三方面，请参照图5，图5是本申请一些实施例中提供的一种多智能体巡检控制系统的结构示意图，该系统用于控制调度多智能体301进行巡检任务，系统包括：

多个智能体301，每个智能体301均搭载有辅助定位设备；

中转工作站302，与智能体301及辅助定位设备通信连接；

孪生系统303，与中转工作站302通信连接；

中转工作站302用于根据各个智能体301获取的图像信息分析获取安防检测结果；

中转工作站302还用于根据各个智能体301获取的空间信息加权整合获取空间信息地图，并根据安防检测结果、空间信息地图进行种群遗传信息迭代以生成各个智能体301的规划轨迹信息；

中转工作站302还用于根据环境信息生成局部导航信息，以使各个智能体301能沿规划轨迹信息进行局部避障移动；

中转工作站302还用于将安防检测结果及智能体301的位姿信息发送给孪生系统303。

具体地，智能体301搭载的辅助定位设备能获取各类外界参数，至少包括图像信息、空间信息及环境信息。

更具体地，在本申请实施例中，孪生系统303具有巡检环境的空间场景模型，且具有智能体模型和预留有各类通信接口以及各信息展示窗。

更具体地，在本申请实施例中，孪生系统303获取安防检测结果及智能体301的位姿信息后能在空间场景模型中展示基于智能体模型标记的智能体位置、规划轨迹信息、局部导航信息等，也能通过智能体模型展示智能体301的实时位姿，还能基于空间信息地图调整空间场景模型，以及还能在空间场景模型对应位置上展示安防检测结果。

更具体地，在本申请实施例中，该系统通过streamer推流模块将各智能体301所搭载传感器的信息经由通信系统转发至孪生系统303，从而实现物理系统中场景信息与虚拟系统中场景信息的同步。

本申请实施例的多智能体巡检控制系统实现了多智能体301巡检的共同检测、协同控制，并基于环境信息生成局部导航信息以控制对应的智能体301进行局部避障移动，使得多个智能体301能在巡检范围进行自动化的安防检测、巡检任务协同跟派，还实现了物理空间的先验信息以及实时信息与虚拟空间的统一。

在一些优选的实施方中，智能体301、中转工作站302及孪生系统303通过通信系统进行通信，该通信系统中的智能体301的位姿发布器可以部署在各智能体301上也可以部署在中转工作站302上，其可以通过基于TCP/IP的ROS或者基于MQTT的方法进行传输。

在一些优选的实施方式中，系统中的通信连接均为基于异步信息的时间戳对齐进行通信。

具体地，采用异步信息的时间戳对齐进行通信能解决分布式信息时间戳对应问题，使得孪生系统303与智能体301及物理空间实现实时同步，即有效提高了孪生系统303中数据显示的实时性。

更具体地，通信系统处理的各个构件发送的信息出现时间戳不统一的时候会出现系统实时性偏差问题，在本申请实施例中，将任一个构件i（如智能体301、中转工作站302）的在其对应的更新周期

时的信息设定为：

（11）

其中，

标识t时刻中构件i的产生的信息，

表示对应构件发出的实际信息，此时

，n为更新周期调节倍率，基于对应构件i与最大刷新率的构件的刷新率关系进行设定，

为最大刷新率，满足：

（12）

其中，

为每个构件的刷新率。

上述方法的目的是使信息更新较慢的构件，在与更新较快的构件同步时间戳时同步其上一周期的信息，可以视为人为的对该构件的信息进行填充，使其刷新率与最快构件一致从而避免通信系统实时性偏差的问题；本申请实施例的系统基于该通信同步处理的方式实现了物理空间与虚拟空间的实时同步，从而提高了孪生系统303显示数据的实时性。

第四方面，请参照图6，图6为本申请实施例提供的一种电子设备的结构示意图，本申请提供一种电子设备，包括：处理器401和存储器402，处理器401和存储器402通过通信总线403和/或其他形式的连接机构（未标出）互连并相互通讯，存储器402存储有处理器401可执行的计算机程序，当计算设备运行时，处理器401执行该计算机程序，以执行时执行上述实施例的任一可选的实现方式中的方法。

第五方面，本申请实施例提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，执行上述实施例的任一可选的实现方式中的方法。其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random Access Memory, 简称SRAM），电可擦除可编程只读存储器（ElectricallyErasable Programmable Read-Only Memory, 简称EEPROM），可擦除可编程只读存储器（Erasable Programmable Read Only Memory, 简称EPROM），可编程只读存储器（Programmable Red-Only Memory, 简称PROM），只读存储器（Read-Only Memory, 简称ROM），磁存储器，快闪存储器，磁盘或光盘。

综上，本申请实施例提供了多智能体巡检控制方法、装置、系统、设备及介质，其中，方法基于各个智能体获取的图像信息进行分析获取安防检测结果，以安防检测结果来指导确定巡检范围中的异常点以定义智能体需要移动的目的地，再基于智能体获取的空间信息加权构建空间信息地图，并将所有智能体视为一个种群进行种群遗传信息迭代以将合适的目的地分配给对应的智能体并生成不同智能体需要移动的规划轨迹信息，从而实现了多智能体巡检的共同检测、高效协同控制，并基于环境信息生成局部导航信息以控制对应的智能体进行局部避障移动，使得多个智能体能在巡检范围进行自动化的安防检测、巡检任务协同跟派。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种多智能体巡检控制方法，用于控制调度多智能体进行巡检任务，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的多智能体巡检控制方法，其特征在于，所述根据各个所述智能体获取的图像信息分析获取安防检测结果的步骤包括：

3.根据权利要求1所述的多智能体巡检控制方法，其特征在于，所述根据所述安防检测结果、空间信息地图进行种群遗传信息迭代以生成各个所述智能体的规划轨迹信息的步骤包括：

4.根据权利要求3所述的多智能体巡检控制方法，其特征在于，所述多个预设的种群适应度函数至少包括最小距离适应度函数、优先级适应度函数、活动范围适应度函数中的两种。

5.根据权利要求1所述的多智能体巡检控制方法，其特征在于，所述根据环境信息生成局部导航信息，以使各个所述智能体能沿规划轨迹信息进行局部避障移动的步骤包括：

分别对各个所述社会注意力层建立网络结构；

基于所有所述网络结构建立综合损失函数；

6.一种多智能体巡检控制装置，用于控制调度多智能体进行巡检任务，其特征在于，所述装置包括：

7.一种多智能体巡检控制系统，用于控制调度多智能体进行巡检任务，其特征在于，所述系统包括：

多个所述智能体，每个所述智能体均搭载有辅助定位设备；

中转工作站，与所述智能体及辅助定位设备通信连接；

孪生系统，与所述中转工作站通信连接；

8.根据权利要求7所述的多智能体巡检控制系统，其特征在于，所述系统中的通信连接均为基于异步信息的时间戳对齐进行通信。

9.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-5任一项所述方法中的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时运行如权利要求1-5任一项所述方法中的步骤。