CN115097726B

CN115097726B - 一种智能体共识控制方法、装置、设备及存储终端

Info

Publication number: CN115097726B
Application number: CN202210438293.6A
Authority: CN
Inventors: 冀晓强; 李栾; 余弦; 薛凯文; 钱辉环
Original assignee: Chinese University of Hong Kong Shenzhen; Shenzhen Institute of Artificial Intelligence and Robotics
Current assignee: Chinese University of Hong Kong Shenzhen; Shenzhen Institute of Artificial Intelligence and Robotics
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2023-03-10
Anticipated expiration: 2042-04-25
Also published as: CN115097726A

Abstract

本发明涉及智能体控制领域，具体是涉及一种智能体共识控制方法、装置、设备及存储终端。本发明首先计算单个智能体的输出量与其邻居智能体的输出量之间的差值，依据差值判断是否达成共识，如果未达成共识则调整单个智能体的参数和邻居智能体的参数，若调整参数之后的输出量依然未达成共识，则继续调整单个智能体的输入量和邻居智能体的输入量，以使得智能体根据输入量而输出的输出量之间达成共识。从上述分析可知，本发明在达成共识的过程中，只是针对每一智能体进行独立的参数更新以及输入量的调整，从而降低了建立共识所需要的时间，同时由于涉及到的数据复杂性较低，进而提高了建立共识的准确性。

Description

一种智能体共识控制方法、装置、设备及存储终端

技术领域

本发明涉及智能体控制领域，具体是涉及一种智能体共识控制方法、装置、设备及存储终端。

背景技术

智能体如轮船和汽车等，多个轮船组成的轮船舰队，在航行的过程，就要求舰队中的各个轮船的输出量(用于表征轮船状态，如速度、位置)都收敛到相同值，即舰队中的各个轮船达成共识，达成共识之后的各个轮船才便于整个舰队的航行。

智能体包括异构多智能体，异构多智能体系统是一组自主的、相互作用的实体，它们共享一个共同的环境，利用传感器感知，并利用执行器作动。异构多智能体即系统内的多个智能体具有不同的物理结构，因而具有不同的系统动力学，对异构多智能体的控制需要对不同个体实施不同的控制策略。

而多智能体系统中的共识控制是指所有的智能体状态(如速度、位置等)都收敛到相同值，即达成共识。共识算法是一个指定智能体如何根据收集的数据信息达成共识状态的协议或规律。若共识控制算法中每个智能体只需根据其在通信网络拓扑中的邻居的状态决定其控制率时，这个共识算法被称为分布式的。

现有技术通过对智能体内部的控制器上的控制模型(比如将轮船的螺旋桨舵机转速输入到控制模型中，控制模型就会输出轮船的速度)的控制和数据驱动的控制方法，实现对多智能体共识的控制。

基于模型的控制是基于受控对象的数学模型或模型精确已知这个基本假设建立起来的。利用基于模型的控制理论与方法进行控制系统设计时，首先要得到系统的数学模型，然后在得到的系统数学模型基础上设计控制器，最后基于所获取的数学模型进行闭环控制系统分析。随着科学技术的发展，对于复杂系统的数学建模变得越来越困难，而另一方面系统在运行的每时每刻都产生并存储大量数据，这些数据中包含了关于过程运行和设备状态的全部有用信息。在无法获得过程精确模型的情况下，利用这些离线或在线的过程数据直接进行控制器设计，实现对这些过程的有效控制，就是数据驱动控制方法。由上述记载可知，现有技术为了实现多智能体共识，需要对多智能体组成的系统进行建模，而针对系统所建的模型由于涉及到大量的数据，从而提高了针对系统建模所需要的时间，进而导致提高了建立共识所需要的时间。

综上所述，现有技术建立共识所需要的时间较多。

因此，现有技术还有待改进和提高。

发明内容

为解决上述技术问题，本发明提供了一种智能体共识控制方法、装置、设备及存储终端，解决了现有技术建立共识所需要时间较多的问题。

为实现上述目的，本发明采用了以下技术方案：

第一方面，本发明提供一种智能体共识控制方法，其中，包括：

采集单个智能体的当前时段输出量、邻居智能体的当前时段输出量，所述单个智能体能够接收到所述邻居智能体的输出量，所述输出量用于表征智能体的状态信息，所述单个智能体异于所述邻居智能体；

计算所述单个智能体的当前时段输出量与邻居智能体的当前时段输出量之间的差值信息；

当所述差值信息大于设定值时，更新所述单个智能体的参数和更新所述邻居智能体的参数，所述参数用于表征输出量与输入量的映射关系；

若更新之后的所述单个智能体的当前时段输出量未与更新之后的所述邻居智能体的当前时段输出量达成共识，依据所述差值信息、所述单个智能体的上次输入量、所述邻居智能体的上次输入量，完成所述单个智能体的下一时段输出量与所述邻居智能体的下一时段输出量的共识，所述单个智能体的上次输入量与所述单个智能体的当前时段输出量相对应，所述邻居智能体的上次输入量与所述邻居智能体的当前时段输出量相对应；

或者，当所述差值信息大于设定值时，更新所述单个智能体的参数；

若更新之后的所述单个智能体的当前时段输出量未与所述邻居智能体的当前时段输出量达成共识，依据所述差值信息、所述单个智能体的上次输入量、所述邻居智能体的上次输入量，完成所述单个智能体的下一时段输出量与所述邻居智能体的下一时段输出量的共识，所述单个智能体的上次输入量与所述单个智能体的当前时段输出量相对应，所述邻居智能体的上次输入量与所述邻居智能体的当前时段输出量相对应；

或者，当所述差值信息大于设定值时，更新所述邻居智能体的参数；

若所述单个智能体的当前时段输出量未与更新之后的所述邻居智能体的当前时段输出量达成共识，依据所述差值信息、所述单个智能体的上次输入量、所述邻居智能体的上次输入量，完成所述单个智能体的下一时段输出量与所述邻居智能体的下一时段输出量的共识，所述单个智能体的上次输入量与所述单个智能体的当前时段输出量相对应，所述邻居智能体的上次输入量与所述邻居智能体的当前时段输出量相对应。

在一种实现方式中，所述计算所述单个智能体的当前时段输出量与邻居智能体的当前时段输出量之间的差值信息，包括：

依据所述邻居智能体，得到所述邻居智能体所包含的邻居领航智能体和邻居非领航智能体，所述邻居领航智能体的输出量为所述单个智能体和所述邻居非领航智能体的输出量共识的目标；

计算所述单个智能体的当前时段输出量与所述邻居非领航智能体的当前时段输出量之间的差值，得到第一差值；

计算所述单个智能体的当前时段输出量与所述邻居领航智能体的输出量之间的差值，得到第二差值；

依据所述第一差值和所述第二差值，得到差值信息。

在一种实现方式中，所述当所述差值信息大于设定值时，更新所述单个智能体的参数和更新所述邻居智能体的参数，所述参数用于表征输出量与输入量的映射关系，包括：

对于所述单个智能体和所述邻居智能体中的邻居非领航智能体，均采集在上一时段内设定的参数、位于所述上次输入量之前的前次输入量、位于所述当前时段之前的前一时段输出量；

计算所述前次输入量和所述上次输入量之间的差值，记为输入差量；

计算所述当前时段输出量和所述前一时段输出量的差值，记为输出差量；

依据所述单个智能体的输入差量、输出差量、上一时段内设定的参数，更新所述单个智能体的参数，得到与所述单个智能体的当前时段所对应的参数；

依据所述邻居非领航智能体的输入差量、输出差量、上一时段内设定的参数，更新所述邻居非领航智能体的参数，得到与所述邻居非领航智能体的当前时段所对应的参数。

在一种实现方式中，所述依据所述单个智能体的输入差量、输出差量、上一时段内设定的参数，更新所述单个智能体的参数，得到与所述单个智能体的当前时段所对应的参数，包括：

将上一时段内设定的参数乘以输入差量，得到乘积结果；

用所述输出差量减去所述乘积结果，得到运算差值；

将所述输入差量的平方值加上设定常数，得到相加结果；

计算所述运算差值与所述相加结果的比值，得到比值结果；

将所述比值结果乘以输入差量再加上上一时段内设定的参数，得到与所述单个智能体的当前时段所对应的参数。

在一种实现方式中，所述若更新之后的所述单个智能体的当前时段输出量未与更新之后的所述邻居智能体的当前时段输出量达成共识，依据所述差值信息、所述单个智能体的上次输入量、所述邻居智能体的上次输入量，完成所述单个智能体的下一时段输出量与所述邻居智能体的下一时段输出量的共识，所述单个智能体的上次输入量与所述单个智能体的当前时段输出量相对应，所述邻居智能体的上次输入量与所述邻居智能体的当前时段输出量相对应，包括：

对于所述单个智能体和所述邻居非领航智能体均构建合成向量，所述合成向量中的元素为差值信息和上次输入量；

设置用于控制输入量的每次变化量的控制增益向量；

依据所述合成向量、所述控制增益向量、所述上次输入量，更新输入量，更新之后的输入量用于作为位于所述上次输入量下一次的当次输入量；

将所述单个智能体所对应的当次输入量输入到更新之后的所述单个智能体，得到更新之后的所述单个智能体的下一时段输出量；

将所述邻居非领航智能体所对应的当次输入量输入到更新之后的所述邻居非领航智能体，得到更新之后的所述邻居非领航智能体的下一时段输出量；

若更新之后的所述单个智能体的下一时段输出量和更新之后的所述邻居非领航智能体的下一时段输出量未达成共识，则更新输入量，直至更新之后的所述单个智能体的下一时段输出量和更新之后的所述邻居非领航智能体的下一时段输出量未达成共识。

在一种实现方式中，所述依据所述合成向量、所述控制增益向量、所述上次输入量，更新输入量，更新之后的输入量用于作为位于所述上次输入量下一次的当次输入量，包括：

将所述控制增益向量的转置矩阵乘以所述合成向量再加上所述上次输入量，得到更新之后的输入量。

在一种实现方式中，当设置所述单个智能体的控制增益向量时，所述设置用于控制输入量的每次变化量的控制增益向量，包括：

依据所述单个智能体内部的控制器，得到用于确定所述控制器对噪声敏感程度的权重矩阵；

计算上次输入量对应的合成向量和当次输入量对应的合成向量的向量差；

依据所述权重矩阵、上一时段的控制增益向量、所述向量差，设置当前时段的控制增益向量。

第二方面，本发明实施例还提供一种智能体共识控制装置，其中，所述装置包括如下组成部分：

数据采集模块，用于采集单个智能体的当前时段输出量、邻居智能体的当前时段输出量，所述单个智能体能够接收到所述邻居智能体的输出量，所述输出量用于表征智能体的状态信息，所述单个智能体异于所述邻居智能体；

差值计算模块，用于计算所述单个智能体的当前时段输出量与邻居智能体的当前时段输出量之间的差值信息；

更新模块，用于当所述差值信息大于设定值时，更新所述单个智能体的参数和更新所述邻居智能体的参数，所述参数用于表征输出量与输入量的映射关系；

共识模块，用于若更新之后的所述单个智能体的当前时段输出量未与更新之后的所述邻居智能体的当前时段输出量达成共识，依据所述差值信息、所述单个智能体的上次输入量、所述邻居智能体的上次输入量，完成所述单个智能体的下一时段输出量与所述邻居智能体的下一时段输出量的共识，所述单个智能体的上次输入量与所述单个智能体的当前时段输出量相对应，所述邻居智能体的上次输入量与所述邻居智能体的当前时段输出量相对应；

第三方面，本发明实施例还提供一种终端设备，其中，所述终端设备包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的智能体共识控制程序，所述处理器执行所述智能体共识控制程序时，实现上述所述的智能体共识控制方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有智能体共识控制程序，所述智能体共识控制程序被处理器执行时，实现上述所述的智能体共识控制方法的步骤。

有益效果：本发明首先计算单个智能体的输出量与其邻居智能体的输出量之间的差值，依据差值判断是否达成共识，如果未达成共识则调整单个智能体的参数和邻居智能体的参数，若调整参数之后的输出量依然未达成共识，则继续调整单个智能体的输入量和邻居智能体的输入量，以使得智能体根据输入量而输出的输出量之间达成共识。从上述分析可知，本发明在达成共识的过程中，只是针对每一智能体进行独立的参数更新以及输入量的调整，从而降低了建立共识所需要的时间，同时由于涉及到的数据复杂性较低，进而提高了建立共识的准确性。

附图说明

图1为本发明的整体流程他；

图2为实施例中的拓扑图；

图3为本发明实施例提供的终端设备的内部结构原理框图。

具体实施方式

以下结合实施例和说明书附图，对本发明中的技术方案进行清楚、完整地描述。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

经研究发现，智能体如轮船和汽车等，多个轮船组成的轮船舰队，在航行的过程，就要求舰队中的各个轮船的输出量(用于表征轮船状态，如速度、位置)都收敛到相同值，即舰队中的各个轮船达成共识，达成共识之后的各个轮船才便于整个舰队的航行。

现有技术通过对智能体内部的控制器上的控制模型(比如将轮船的螺旋桨舵机转速输入到控制模型中，控制模型就会输出轮船的速度)的控制和数据驱动的控制方法，实现对多智能体共识的控制。基于模型的控制是基于受控对象的数学模型或模型精确已知这个基本假设建立起来的。利用基于模型的控制理论与方法进行控制系统设计时，首先要得到系统的数学模型，然后在得到的系统数学模型基础上设计控制器，最后基于所获取的数学模型进行闭环控制系统分析。随着科学技术的发展，对于复杂系统的数学建模变得越来越困难，而另一方面系统在运行的每时每刻都产生并存储大量数据，这些数据中包含了关于过程运行和设备状态的全部有用信息。在无法获得过程精确模型的情况下，利用这些离线或在线的过程数据直接进行控制器设计，实现对这些过程的有效控制，就是数据驱动控制方法。由上述记载可知，现有技术为了实现多智能体共识，需要对多智能体组成的系统进行建模，而针对系统所建的模型由于涉及到大量的数据，从而提高了针对系统建模所需要的时间，进而导致提高了建立共识所需要的时间。

为解决上述技术问题，本发明提供了一种智能体共识控制方法、装置、设备及存储终端，解决了现有技术建立共识所需要时间较多的问题。具体实施时，采集单个智能体的当前时段输出量、邻居智能体的当前时段输出量，所述单个智能体能够接收到所述邻居智能体的输出量，所述输出量用于表征智能体的状态信息，所述单个智能体异于所述邻居智能体；计算所述单个智能体的当前时段输出量与邻居智能体的当前时段输出量之间的差值信息；当所述差值信息大于设定值时，更新所述单个智能体的参数和更新所述邻居智能体的参数，所述参数用于表征输出量与输入量的映射关系，或者，只更新两个智能体其中一个智能体的参数；若更新之后的所述单个智能体的当前时段输出量未与更新之后的所述邻居智能体的当前时段输出量达成共识，依据所述差值信息、所述单个智能体的上次输入量、所述邻居智能体的上次输入量，完成所述单个智能体的下一时段输出量与所述邻居智能体的下一时段输出量的共识。本实施例在建立共识的过程中缩短了所需要的时间。

举例说明，如图2所示，有四个轮船(智能体)R0、R1、R2、R3，其中R1(单个智能体)可以接收到R0的输出量(船速)，也可以接收到R3的输出量，那么R0和R3就是R1的邻居智能体。

计算R1在当前时段的输出量与R0在当前时段的输出量之差，记为Δ01；计算R1在当前时段的输出量与R3在当前时段的输出量之差，记为Δ02；

将Δ01加上Δ02就是差值信息Δ，当Δ大于设定值(0)时，说明在当前时段内R1、R0、R3三者的输出量未达成共识，需要继续通过调整这三者的输入量使得这三者的输出量在下一时段能够达到共识。本实施例中的时段是一段时间。

示例性方法

本实施例的智能体共识控制方法可应用于终端设备中，所述终端设备可为具有控制放功能的终端产品，比如电脑等。在本实施例中，如图1中所示，所述智能体共识控制方法具体包括如下步骤：

S100，采集单个智能体的当前时段输出量、邻居智能体的当前时段输出量，所述单个智能体能够接收到所述邻居智能体的输出量，所述输出量用于表征智能体的状态信息，所述单个智能体异于所述邻居智能体。

在采集输出量之前，本实施例先建立如图2所示的通信拓扑结构图，图2中的每个节点代表一个智能体，箭头的方向为数据流动的方向，箭头的指向者可以获得箭头的发起者的输出信息(输出量)，双向箭头表示箭头两端的智能体都可以获得对方的状态信息(比如轮船的移动速度)。

构建跟随者的邻接矩阵A，其第p行第q列的元素a_p,q∈A表示第p个智能体能否获得第q个智能体的输出信息，若能则为1，即q是p的邻居，若不能则为0，智能体可以获得自身的输出信息，所以A的对角线的元素为1。

构建对角矩阵W，其第p行对角线上的元素w_p∈W表示第p个智能体能否获得领导者的输出信息(领导者的输出量和输入量均始终保持不变，是其它智能体输出量共识的标准)，若能则为1，即领导者是第p个智能体的邻居，若不能则为0。

选定一个较小的时间间隔Δt，作为时间步长，以初始时刻为时间零点t＝0，所有智能体只在时间步长的整数倍，即t＝kΔt时收集邻居的输出信息，并通过控制器(位于智能体内部，用于控制输出量和输入量之间的关系)更新控制器输入。控制器是分布式的，即每一个智能体自身都有一个控制器控制自身的输出。

S200，计算所述单个智能体的当前时段输出量与邻居智能体的当前时段输出量之间的差值信息。

本实施例的邻居智能体可以只包括邻居非领航智能体(即单个智能体与其邻居智能体的输出量都不是固定不变的，即都是可以通过调整控制器的参数或调整输入量而实现调整输出量的)，也可以包括邻居领航智能体和邻居非领航智能体这两者。当邻居智能体包括邻居领航智能体和邻居非领航智能体这两者时，步骤S200包括的如下的步骤S201、S202、S203、S204：

S201，依据所述邻居智能体，得到所述邻居智能体所包含的邻居领航智能体和邻居非领航智能体，所述邻居领航智能体的输出量为所述单个智能体和所述邻居非领航智能体的输出量共识的目标。

邻居非领航智能体的输出量是可以根据输入量改变的，而邻居领航智能体(领导者)的输出量是固定不变的。如图2所示，R0就是邻居领航智能体。

S202，计算所述单个智能体的当前时段输出量与所述邻居非领航智能体的当前时段输出量之间的差值，得到第一差值。

S203，计算所述单个智能体的当前时段输出量与所述邻居领航智能体的输出量之间的差值，得到第二差值。

S204，依据所述第一差值和所述第二差值，得到差值信息。

步骤S202-步骤S204是通过如下公式计算出在k时段(当前时段)内的差值信息(输出误差)e_p(k)：

e_p(k)＝∑a_p,q(y_q(k)-y_p(k))+w_p(y^*(k)-y_p(k))

当q是p的邻居时，a_p,q为1；否则a_p,q为0。当领导者(输出量始终不变的智能体)还可以向p传输输出量，w_p为1，否则w_p为0。领导者即邻居领航智能体，y^*(k)即邻居领航智能体的输出量。y_p(k)即单个智能体p在当前时段k的输出量。y_q(k)即单个智能体q在当前时段k的输出量，如果p有N个邻居，q的取值就是1至N，∑就是对所有q的输出量与p的输出量之差进行累加，y_q(k)-y_q(k)为第一差值，y*(k)-y_p(k)为第二差值。

S300，当所述差值信息大于设定值时，更新所述单个智能体的参数和/或更新所述邻居智能体的参数，所述参数用于表征输出量与输入量的映射关系。

本实施例设定值为0，本实施例可以只更新单个智能体的参数和所述邻居智能体的参数这两个参数的其中一个，也可以两者都更新。前者可以减少计算量，以保证输出量的准确性，从而保证由输出量而产生的共识准确性。后者能够快速使得更新参数之后的智能体的输出量达到共识。当两者都更新时，步骤S300包括如下的步骤S301、S302、S303、S304、S305、S306、S307、S308、S309：

S301，对于所述单个智能体和所述邻居智能体中的邻居非领航智能体，均采集在上一时段内设定的参数、位于所述上次输入量之前的前次输入量、位于所述当前时段之前的前一时段输出量。

智能体在每个时段内的参数是不一样的，上一时段就是发生在当前时段之前的那一段时间。

S302，计算所述前次输入量和所述上次输入量之间的差值，记为输入差量。

S303，计算所述当前时段输出量和所述前一时段输出量的差值，记为输出差量；

S304，将上一时段内设定的参数乘以输入差量，得到乘积结果；

S305，用所述输出差量减去所述乘积结果，得到运算差值；

S306，将所述输入差量的平方值加上设定常数，得到相加结果；

S307，计算所述运算差值与所述相加结果的比值，得到比值结果；

S308，将所述比值结果乘以输入差量再加上上一时段内设定的参数，得到与所述单个智能体的当前时段所对应的参数；

S309，依据所述邻居非领航智能体的输入差量、输出差量、上一时段内设定的参数，更新所述邻居非领航智能体的参数，得到与所述邻居非领航智能体的当前时段所对应的参数。

本实施例以更新单个智能体参数为例说明参数更新的过程，对于邻居智能体的参数更新与单个智能体参数相同。单个智能体p的参数更新就是通过改变上一时段k-1内设定的参数P_p(k-1)得到当前时段k所对应的参数P_p(k):

式中，Δu_p(k-1)为第p个智能体在上一时段k-1内的这一次输入量u_p(k-1)(上次输入量)与上一时段k-2内的这一次输入量u_p(k-2)(前次输入量)之差，即

Δu_p(k-1)＝u_p(k-1)-u_p(k-2)

同理Δy_p(k)为第p个智能体在第k时段内的输出量y_p(k)(当前时段输出量)与k-1时段内的输出量y_p(k-1)(前一时段输出量)之差，即

Δy_p(k)＝y_p(k)-y_p(k-1)

且定义u_p(0)＝u_p(-1)＝0。P_p(0)为一个预先设定好的初始值，μ是一个预先设定的常数值。

S400，若更新参数之后的单个智能体的当前时段输出量未与所述邻居智能体的当前时段输出量达成共识，依据所述差值信息、所述单个智能体的上次输入量、所述邻居智能体的上次输入量，完成所述单个智能体的下一时段输出量与所述邻居智能体的下一时段输出量的共识。

步骤S400是在更新参数的基础上继续更新智能体的输入量，以改变各个智能体的输出量，以使得各个智能体的输出量达到共识。由于步骤S300可以只更新单个智能体的参数和所述邻居智能体的参数这两个参数的其中一个，也可以两者都更新，当为前者，就将单个智能体更新输入量输入到更新参数之后的单个智能体，以得到单个智能体的输出量，将邻居智能体更新输入量输入到更新参数之后的邻居智能体。当为后者时，就使用没有更新参数的智能体得到对应的输出量。本实施例中的参数就是位于智能体内部的控制内部的模型参数，该模型用于控制当输入量是多少时输出量则应该为多少。

当步骤300为前者时，步骤S400包括如下的步骤S401、S402、S403、S404、S405、S406、S407、S408：

S401，对于所述单个智能体和所述邻居非领航智能体均构建合成向量，所述合成向量中的元素为差值信息和上次输入量。

本实施例中的单个智能体p对应的合成向量H_p(k)和邻居非领航智能体q对应的合成向量H_q(k)结构一样，

S402，依据所述单个智能体内部的控制器，得到用于确定所述控制器对噪声敏感程度的权重矩阵R。

S403，计算上次输入量对应的合成向量和当次输入量对应的合成向量的向量差ΔH_q(k)。

S404，依据所述权重矩阵R、上一时段的控制增益向量K_p(k-1)、所述向量差ΔH_q(k)，设置当前时段的控制增益向量K_p(k)：

其中γ为预先设定的参数，决定K_p更新速度。λ_u和λ_K分别决定u和K的更新速度。R是K的权重矩阵，决定了控制器对测量噪声的敏感程度。通过调整R，可以使控制器在存在测量噪声的情况下仍给系统稳定的输入，防止控制器对测量噪声反应过激，引起震荡。K_p(0)为一个预先设定好的初始向量。

S405，将所述控制增益向量K_p(k)的转置矩阵K^T _p(k)乘以所述合成向量H_p(k)再加上所述上次输入量u_p(k-1)，得到更新之后的输入量u_p(k)：

u_p(k)＝u_p(k-1)+K_p(k)^TH_p(k)

本实施例也可以用u_p表示更新之后的输入量：

S406，将所述单个智能体所对应的当次输入量输入到更新之后的所述单个智能体，得到更新之后的所述单个智能体的下一时段输出量。

S407，将所述邻居非领航智能体所对应的当次输入量输入到更新之后的所述邻居非领航智能体，得到更新之后的所述邻居非领航智能体的下一时段输出量。

S408，若更新之后的所述单个智能体的下一时段输出量和更新之后的所述邻居非领航智能体的下一时段输出量未达成共识，则更新输入量，直至更新之后的所述单个智能体的下一时段输出量和更新之后的所述邻居非领航智能体的下一时段输出量未达成共识。

若更新之后的所述单个智能体的下一时段输出量和更新之后的所述邻居非领航智能体的下一时段输出量未达成共识，即两个输出量不一样，则重复步骤S401至S408以更新智能体的输入量，使得各个智能体根据输入量得到的输出量达到共识。

以图2为例说明本实施例共识控制方法的整体过程：

设置邻接矩阵A：

设置矩阵W：

计算当k为3时，第2个智能体(图2中的R2)的e₂(k)、P₂(3):

e₂(k)＝0(y₁(3)-y₂(3))+1(y₂(3)-y₂(3))+1(y₃(3)-y₂(3))+1(y^*(3)-y₂(3))

P₂(3)＝P₂(2)

-γ([(0+1+1+1)P₂(2)²+λ_u]ΔH_p(3)ΔH_p(3)^T+λ_KR)^-1((-e₂(3)P₂(2)+λ_uK₂ ^T(2)ΔH₂(2))ΔH₂(2)+λ_KRK₂(2))

u₂(3)＝u₂(2)+K₂(3)^TH₂(3)

可以选择的一组参数为λ_u＝1,λ_K＝1,μ＝0.2,γ＝0.1，在测量噪音较小时，可以选择

在测量噪音较大时，可以选择

可以选择的一组初始值为P₂(0)＝0.1,K₂(0)＝[0.1,0.1]^T

综上，本发明首先计算单个智能体的输出量与其邻居智能体的输出量之间的差值，依据差值判断是否达成共识，如果未达成共识则调整单个智能体的参数和邻居智能体的参数，若调整参数之后的输出量依然未达成共识，则继续调整单个智能体的输入量和邻居智能体的输入量，以使得智能体根据输入量而输出的输出量之间达成共识。从上述分析可知，本发明在达成共识的过程中，只是针对每一智能体进行独立的参数更新以及输入量的调整，从而降低了建立共识所需要的时间，同时由于涉及到的数据复杂性较低，进而提高了建立共识的准确性，

另外，本发明的领导者只负责提供参考输出值，并不控制其它智能体，领导者只与部分跟随者建立通信，即只有部分跟随者可以获取领导者的输出信息。每个跟随者自身都有一个控制器，负责更新其系统输入，本发明采用的是分布式控制器，其优势在于每个智能体所需建立的通信连接都是少数几个邻居的数量，从而降低了通信成本。

对于不同的系统，其输入输出关系是各不相同的，若对不同的智能体分别建模并设计各自的控制器，随着被控智能体数量的增多，完成这一任务所需的工作量也随之陡增。本发明是一种数据驱动的控制方法，不依赖对系统各自进行独立的机理分析，而是建立一套统一的规则，每个智能体的控制器只需收集各自的输入输出数据，在这套规则框架下进行变量的更新，从而更新控制输入。

在实际的控制场景中，对物理量的测量往往由于测量噪声的存在产生与真值的偏差，工程中常用误差与不确定度的概念对测量噪声进行分析。常见的测量噪声分布有均匀分布，高斯分布，三角分布等。控制器的设计应该将输出的真实值进行反馈，而避免测量噪声的影响。本发明通过引入权重矩阵R降低控制器对噪声的敏感度，提高控制效果。

在系统运行时，将控制输入的更新离散化，即控制输入在等间隔的较短时间段内为固定值，只在当前时间段的结尾更新输入，并在下一个时间段内保持固定。在每个时间段结束的时刻，智能体记录当前时刻的系统输出和状态，并收集其在通信拓扑中的相邻智能体的输出，根据预设的程序更新参数和输入。

示例性装置

本实施例还提供一种智能体共识控制装置，所述装置包括如下组成部分：

基于上述实施例，本发明还提供了一种终端设备，其原理框图可以如图3所示。该终端设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中，该终端设备的处理器用于提供计算和控制能力。该终端设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该终端设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种智能体共识控制方法。该终端设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该终端设备的温度传感器是预先在终端设备内部设置，用于检测内部设备的运行温度。

本领域技术人员可以理解，图3中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的终端设备的限定，具体的终端设备以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种终端设备，终端设备包括存储器、处理器及存储在存储器中并可在处理器上运行的智能体共识控制程序，处理器执行智能体共识控制程序时，实现如下操作指令：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种智能体共识控制方法，其特征在于，包括：

若所述单个智能体的当前时段输出量未与更新之后的所述邻居智能体的当前时段输出量达成共识，依据所述差值信息、所述单个智能体的上次输入量、所述邻居智能体的上次输入量，完成所述单个智能体的下一时段输出量与所述邻居智能体的下一时段输出量的共识，所述单个智能体的上次输入量与所述单个智能体的当前时段输出量相对应，所述邻居智能体的上次输入量与所述邻居智能体的当前时段输出量相对应；

所述当所述差值信息大于设定值时，更新所述单个智能体的参数和更新所述邻居智能体的参数，所述参数用于表征输出量与输入量的映射关系，包括：

将上一时段内设定的参数乘以输入差量，得到乘积结果；

用所述输出差量减去所述乘积结果，得到运算差值；

将所述输入差量的平方值加上设定常数，得到相加结果；

计算所述运算差值与所述相加结果的比值，得到比值结果；

将所述比值结果乘以输入差量再加上上一时段内设定的参数，得到与所述单个智能体的当前时段所对应的参数；

2.如权利要求1所述的智能体共识控制方法，其特征在于，所述计算所述单个智能体的当前时段输出量与邻居智能体的当前时段输出量之间的差值信息，包括：

依据所述第一差值和所述第二差值，得到差值信息。

3.如权利要求1所述的智能体共识控制方法，其特征在于，所述若更新之后的所述单个智能体的当前时段输出量未与更新之后的所述邻居智能体的当前时段输出量达成共识，依据所述差值信息、所述单个智能体的上次输入量、所述邻居智能体的上次输入量，完成所述单个智能体的下一时段输出量与所述邻居智能体的下一时段输出量的共识，所述单个智能体的上次输入量与所述单个智能体的当前时段输出量相对应，所述邻居智能体的上次输入量与所述邻居智能体的当前时段输出量相对应，包括：

设置用于控制输入量的每次变化量的控制增益向量；

4.如权利要求3所述的智能体共识控制方法，其特征在于，所述依据所述合成向量、所述控制增益向量、所述上次输入量，更新输入量，更新之后的输入量用于作为位于所述上次输入量下一次的当次输入量，包括：

5.如权利要求4所述的智能体共识控制方法，其特征在于，当所述控制增益向量对应所述单个智能体时，所述设置用于控制输入量的每次变化量的控制增益向量，包括：

6.一种智能体共识控制装置，其特征在于，所述装置包括如下组成部分：

将上一时段内设定的参数乘以输入差量，得到乘积结果；

用所述输出差量减去所述乘积结果，得到运算差值；

将所述输入差量的平方值加上设定常数，得到相加结果；

计算所述运算差值与所述相加结果的比值，得到比值结果；

7.一种终端设备，其特征在于，所述终端设备包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的智能体共识控制程序，所述处理器执行所述智能体共识控制程序时，实现如权利要求1-5任一项所述的智能体共识控制方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有智能体共识控制程序，所述智能体共识控制程序被处理器执行时，实现如权利要求1-5任一项所述的智能体共识控制方法的步骤。