CN107967513B

CN107967513B - 多机器人强化学习协同搜索方法及系统

Info

Publication number: CN107967513B
Application number: CN201711416891.9A
Authority: CN
Inventors: 徐雪松; 陈晓红; 杨胜杰; 陈荣元; 蒋伟进
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2019-02-15
Anticipated expiration: 2037-12-25
Also published as: CN107967513A

Abstract

本申请实施例提供的多机器人强化学习协同搜索方法及系统中，第一机器人判断是否搜索到目标物；若是，第一机器人根据第一公式进行Q学习，更新Q函数规则，不断优化并靠近目标物，并发出协同搜索信号；若第二机器人收到协同搜索信号，则第二机器人根据第二公式更新Q函数，并不断靠近第一机器人，同时第二机器人判断是否搜索到目标物；若是，第二机器人根据第一公式进行Q函数更新，靠近目标物。本申请提供的方法会根据f(T)以及f(T^*)的阈值来判断是否进行相应的Q学习，与现有技术中直接不断进行Q学习来迭代Q值的方法相比，由于在迭代Q值之前可以先进行f(T)以及f(T^*)的判断，然后在决定是否进行Q值的迭代，减少了较大的计算量。

Description

多机器人强化学习协同搜索方法及系统

技术领域

本申请涉及人工智能领域，具体而言，涉及一种多机器人强化学习协同搜索方法及系统。

背景技术

随着多机器人技术在工业控制、商业服务、物流、灾害救险等领域的广泛应用，多机器人系统对复杂和不确定环境的适应性能力及协同效率是其技术的重要研究领域。多机器人在执行具体任务过程中，需要完成环境感知、行动规划、群体通讯、综合决策等多目标多任务的协作，为此，机器人对环境的感知、识别、判断并作出相应调节的能力，是多机器人协同控制及算法研究的关键。

然而机器人在协同控制的学习过程中，通常存在如下问题：机器人由于个体性能局限，往往具有邻域结构等特征，在局部范围内进行信息交互，在学习的试错和迭代过程中，消耗了大量的计算资源。机器人个体间需要协同合作，其信息交互需占用较大的通信带宽。学习过程中各智能体间的联合状态和联合动作的感知和相互影响，导致学习策略随状态、动作维数过高，导致结构信度分配、均衡点选择等问题。

发明内容

本申请实施例提供了一种多机器人强化学习协同搜索方法及系统。

一方面，本申请实施例提供了一种多机器人强化学习协同搜索方法，所述方法包括：第一机器人判断是否搜索到目标物；若是，所述第一机器人根据第一公式进行Q学习并根据学习结果移动以靠近所述目标物，所述第一公式包括f(T)；若f(T)超过第一阈值，所述第一机器人发出协同搜索信号；若第二机器人收到所述协同搜索信号，则所述第二机器人根据第二公式进行Q学习并根据学习结果移动以靠近所述第一机器人，所述第二公式包括f(T^*)，同时所述第二机器人判断是否搜索到所述目标物；若是，且所述第二机器人判断f(T)大于f(T)，则所述第二机器人根据所述第一公式进行Q学习并根据学习结果移动以靠近所述目标物。

另一方面，本申请实施例提供了一种多机器人强化学习协同搜索系统，用于多个机器人对目标物进行协同搜索，所述多个机器人包括第一机器人和第二机器人，所述系统包括：第一机器人用于判断是否搜索到目标物；若是，所述第一机器人用于根据第一公式进行Q学习并根据学习结果移动以靠近所述目标物，所述第一公式包括f(T)；若f(T)超过第一阈值，所述第一机器人用于发出协同搜索信号；若第二机器人收到所述协同搜索信号，则所述第二机器人用于根据第二公式进行Q学习并根据学习结果移动以靠近所述第一机器人，所述第二公式包括f(T^*)，同时所述第二机器人判断是否搜索到所述目标物；若是，且所述第二机器人判断f(T)大于f(T)，则所述第二机器人用于根据所述第一公式进行Q学习并根据学习结果移动以靠近所述目标物。

本申请实施例提供的多机器人强化学习协同搜索方法及系统的有益效果为：

本申请实施例提供了一种多机器人强化学习协同搜索方法，所述方法为第一机器人判断是否搜索到目标物；若是，所述第一机器人根据第一公式进行Q学习并根据学习结果移动以靠近所述目标物，所述第一公式包括f(T)；若f(T)超过第一阈值，所述第一机器人发出协同搜索信号；若第二机器人收到所述协同搜索信号，则所述第二机器人根据第二公式进行Q学习并根据学习结果移动以靠近所述第一机器人，所述第二公式包括f(T^*)，同时所述第二机器人判断是否搜索到所述目标物；若是，且所述第二机器人判断f(T)大于f(T^*)，则所述第二机器人根据所述第一公式进行Q学习并根据学习结果移动以靠近所述目标物。本申请实施例提供的多机器人强化学习协同搜索方法会根据f(T)以及f(T^*)的阈值来判断是否进行相应的Q学习，与现有技术中直接不断进行Q学习来迭代Q值的方法相比，由于在迭代Q值之前可以先进行f(T)以及f(T^*)的判断，然后在决定是否进行Q值的迭代，减少了较大的计算量。

本发明的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚的说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的多机器人强化学习协同搜索系统的结构示意图；

图2是本申请实施例提供的多机器人强化学习协同搜索方法的流程示意图；

图3是本申请实施例提供的多机器人强化学习协同搜索系统的一种具体实施方式的结构示意图；

图4是本申请实施例提供的多机器人强化学习协同搜索系统进行协同搜索的工作示意图。

具体实施方式

请参见图1，图1示出了本申请实施例提供的多机器人强化学习协同搜索系统，该系统用于通过多个机器人对目标物进行协同搜索，其中，多个机器人包括第一机器人和第二机器人。

第一机器人与第二机器人可以为相同型号的机器人，即第一机器人与第二机器人可以通过相同的方式来获取目标物的信号，例如通过红外传感器的方式获取目标物，也可以通过摄像头获取目标物。第一机器人与第二机器人获取目标物的具体探测方式不应该理解为是对本申请的限制。

第一机器人与第二机器人相互之间可以通过发送协同搜索信号的方式通信，发送协同搜索信号的过程为广播的过程，即第一机器人或第二机器人以自身为中心向四周扩散协同搜索信号，以使接收到所述协同搜索信号的机器人靠近发送所述协同搜索信号的机器人。

第一实施例

请参见图2，图2示出了本申请第一实施例提供的多机器人强化学习协同搜索方法的流程图，具体包括：

步骤S110，第一机器人判断是否搜索到目标物，若是，则执行步骤S120。

第一机器人在还未发现目标物时，随机地在活动现场移动，可以在较大的活动范围内运行以期望较快地搜索到目标物，第一机器人可以通过红外传感器来搜索目标物，也可以通过其他的传感器例如声波传感器，第一机器人搜索目标物的具体探测方法不应该理解为是对本申请的限制。若第一机器人一旦搜索到目标物，则执行步骤S120。

步骤S120，所述第一机器人根据第一公式进行Q学习并根据学习结果移动以靠近所述目标物，所述第一公式包括f(T)。

所述第一机器人根据所述第一公式进行Q学习，并根据根据学习结果靠近所述目标物。

第一公式具体可以由公式以及公式获得。

对于公式将单机器人马尔科夫过程拓展到多机器人系统，分别用联合动作和联合策略矩阵表示系统的映射关系。因此，将局部信息可观测的多机器人系统用多元组M:<S,Aⁱ,pⁱ,gⁱ>表示，i＝1,2,…,n。其中，n为机器人个数，S代表环境状态集合，表示第i个机器人在t时刻所处的状态，n个机器人个体状态构成联合状态空间。Aⁱ为机器人个体可选择的动作集合，表示第i个机器人在t时刻的动作。多机器人联合动作集可表示为A＝A¹×…×Aⁿ，pⁱ:S×A×S→[0，1]为状态转移概率函数；

gⁱ:S×A×S→R为强化信号函数，也叫做回报函数，表示机器人个体i在状态执行动作到动作得到的立即回报。

设策略π:Sⁱ→Aⁱ为联合状态到联合动作空间的一个映射，以使行为从环境中获得的累积回报值为式(4)

其中，γ∈[0,1]，代表折扣因子。其在策略π下迭代学习规则为式(2)

对于公式设m_k为搜索任务中的第k个目标，k代表目标数量，d_ik代表第i个机器人感知到局部环境中目标m_k时的距离；T_ik(d)以距离为变量的函数，代表了单位机器人检测到信号的强度，定义如公式(5)，r为传感器信号检测范围半径。θ_ik为信号响应阈值，η为距离响应调节参数。我们定义机器人i个体感知触发响应函数为公式(3)。

其中，公式(5)中的P_k是目标信号发射的能量，d_ik≤r时则信号强度与距离平方成反；若d_ik>r，信号强度为零，代表未检测到目标。是正态分布的白噪声样本。

步骤S130，若f(T)超过第一阈值，所述第一机器人发出协同搜索信号。

第一公式中包含f(T)，将f(T)与第一阈值进行比较，当f(T)超过第一阈值时，第一机器人才发出协同搜索信号，第一机器人并不是一搜索到目标物就向四周扩散协同搜索信号，而是先进行f(T)与第一阈值的比较，若f(T)超过第一阈值，则说明需要其他机器人的协助。

步骤S140，若第二机器人收到所述协同搜索信号，则所述第二机器人根据第二公式进行Q学习并根据学习结果移动以靠近所述第一机器人，所述第二公式包括f(T^*)，同时所述第二机器人判断是否搜索到所述目标物，若是，则执行步骤S150。

所述第二机器人具体可以根据所述第二公式：进行Q学习，并根据学习结果靠近所述第一机器人。由于在第二机器人在靠近第一机器人的运动过程中，第一机器人自身也在不停地运动，因此需要第二公式来获取第二Q值，第二机器人在移动过程中需要不断获取并更新第二Q值，并根据第二Q值的变化来获得第二机器人的运动方向。第二机器人同时通过第一公式计算第二机器人与目标物之间的距离以及通过第二公式计算第二机器人与第一机器人之间的距离。

公式：可以通过如下方式获得，其中，单位时间t内，如果有临近其他机器人j同时检测到目标信号k，则以作为刺激量协作参与目标k搜索，其协同触发响应函数如(6)所示：

根据公式(3)的个体响应触发函数值来确定单个体机器人的搜索状态变化，通过公式(6)协同响应触发函数值来调节群体机器人联合状态变化。根据公式(5)中T_ik(d)值强度调整参与目标搜索个体的强化学习回报值。T_ik(d)值与回报成反比，代表了信号搜索初期，通过较大的回报值捕获目标信号的响应，加快目标的感知。当机器感知到目标信号后，将进行局部范围目标精确定位，以较小的学习回报来优化搜索的精度。

第二机器人靠近第一机器人的过程中，第二机器人同时在搜索目标物的信号，由于第一机器人在不断的靠近目标物，则第二机器人靠近第一机器人的过程也是在不断地靠近目标物的过程，当第二机器人搜索到所述目标物时，则执行步骤S140。

步骤S150，所述第二机器人判断f(T)大于f(T^*)，则所述第二机器人根据所述第一公式进行Q学习并根据学习结果移动以靠近所述目标物。

具体地，第二机器人是根据第一公式靠近目标物还是根据第二公司靠近第一机器人，需要根据f(T)与f(T^*)的大小进行判断。若f(T)大于f(T^*)，则第二机器人根据第一公式进行Q学习并根据学习结果移动以靠近目标物，若f(T)小于f(T^*)，则第二机器人根据第二公式进行Q学习并根据学习结果移动以靠近第一机器人。

第二机器人在搜索到目标物后，与第一机器人选择同样的第一公式来靠近目标物。

请参见图3，图3示出了本申请多机器人协同参与目标物搜索的过程，假设多机器人在配置和能力上是同构的，同时单位时间内机器人同时只检测到一个目标信号j。O_j为信号j的位置，m_i为参与目标搜索的机器人个体，i＝1,2,…,5。m₁为当前位置检测到O_j信号最强的机器人，即为第一机器人，代表该机器人将以f(T_1j)概率值进行目标搜索。当m₂和m₃此时也捕获O_j信号，

根据公式分别计算协同响应触发函数，由于从而表明m₂获得的响应概率大于m₃。因此，可以m₂去协同m₁完成协同搜索工作。请参见图4，第二机器人m₂的移动路径为先靠近第一机器人m₁，然后当第二机器人m₂搜索到目标物时，再向目标物O_j靠近。因此，第二机器人m₂的运行轨迹如图4中的曲线b所示，第一机器人m₁的运行轨迹如图4中的曲线a所示。

本发明通过个体-协同触发响应函数进行策略更新的触发因子，同时通过概率阈值调整学习率。在时刻t时，机器人个体通过对环境观测结果计算个体-协同触发响应，定义一次触发过程。个体件触发的对象是单个机器人，目的在于减少通讯量。协同响应触发是局部环境参与协同工作的多机器人团队，触发后的行动是计算联合策略，目的在于减少计算资源消耗。因此，重新定义五元组模型M:<S,Aⁱ,pⁱ,gⁱ，fⁱ>，其中fⁱ表示个体响应触发函数，表明当触发概率达到预定阈值的情况下，开始对Q值迭代计算。定义在s_t时刻的Q函数表达式(6)。

其更新规则为公式(7)

其中l表示个体响应触发时刻和当前时刻的差值。当机器人个体没有响应触发时，将不通过(7)式更新Q值，而直接选择当前状态Q值。当临近机器人j感应到协同触发函数响应时，这些个体选择学习率β对目标进行学习，其中β<α。

在本申请实施例中，在第一机器人搜索到目标物后，第一机器人可以向目标物靠近，并且扩散出协同搜索信号以告知其他机器人第一机器人已搜索到目标物，则第二机器人收到协同搜索信号后，根据协同搜索信号向第一机器人靠近，由于第一机器人自身不断的向目标物靠近，因此第二机器人向第一机器人靠近也意味着第二机器人向目标物靠近，当第二机器人距离目标物在一定距离范围内的时候，则第二机器人采取第一公式来靠近目标物，由于第一机器人在检测到目标物后能够发出协同搜索信号，则可以加速第二机器人乃至其他机器人快速搜索到目标物的位置。

第二实施例

请参见图1和图3，图1和图3共同示出了本申请第二实施例提供的多机器人强化学习协同搜索系统，通过多个机器人对目标物进行协同搜索，多个机器人包括第一机器人和第二机器人，其中：第一机器人用于判断是否搜索到目标物；

若是，所述第一机器人用于根据第一公式进行Q学习并根据学习结果移动以靠近所述目标物，所述第一公式包括f(T)；

若f(T)超过第一阈值，所述第一机器人用于发出协同搜索信号；

若第二机器人收到所述协同搜索信号，则所述第二机器人用于根据第二公式进行Q学习并根据学习结果移动以靠近所述第一机器人，所述第二公式包括f(T^*)，同时所述第二机器人判断是否搜索到所述目标物；

若是，且所述第二机器人判断f(T)大于f(T)，则所述第二机器人用于根据所述第一公式进行Q学习并根据学习结果移动以靠近所述目标物。

所述第一机器人用于根据所述第一公式进行Q学习并根据学习结果移动以靠近所述目标物。

所述第一公式中的f(T)根据公式获得。

所述第二机器人用于根据所述第二公式：进行Q学习并根据学习结果移动以靠近所述第一机器人。

所述第二公式中的f(T^*)根据公式获得。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

本申请实施例提供了一种多机器人强化学习协同搜索方法，所述方法为第一机器人判断是否搜索到目标物；若是，所述第一机器人根据第一公式靠近所述目标物，并发出协同搜索信号；若第二机器人收到所述协同搜索信号，则所述第二机器人根据第二公式靠近所述第一机器人，同时所述第二机器人判断是否搜索到所述目标物；若是，所述第二机器人根据所述第一公式靠近所述目标物。在本申请实施例中，在第一机器人搜索到目标物后，第一机器人可以向目标物靠近，并且扩散出协同搜索信号以告知其他机器人第一机器人已搜索到目标物，则第二机器人收到协同搜索信号后，根据协同搜索信号向第一机器人靠近，由于第一机器人自身不断的向目标物靠近，因此第二机器人向第一机器人靠近也意味着第二机器人向目标物靠近，当第二机器人距离目标物在一定距离范围内的时候，则第二机器人采取第一公式来靠近目标物，由于第一机器人在检测到目标物后能够发出协同搜索信号，则可以加速第二机器人乃至其他机器人快速搜索到目标物的位置。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种多机器人强化学习协同搜索方法，其特征在于，所述方法包括：

第一机器人判断是否搜索到目标物；

若是，所述第一机器人根据第一公式进行Q学习并根据学习结果移动以靠近所述目标物，所述第一公式为：其中，а表示学习率，为常数，为t+1时刻，第i个机器人所处联合状态空间状态，为当前第i个机器人所采用的联合行动，为t+1时刻的学习规则，通过采用策略实现联合状态空间到联合动作空间的一个映射，为个体发生触发响应前t-l时刻的学习规则，l表示个体响应触发和当前时刻的差值，为第i个机器人t+1时刻的即时回报，其中，γ∈[0,1]，代表折扣因子，所述第一公式包括f(T)，所述f(T)根据公式获得，其中，T_ik以距离个体与目标距离d成反比的函数，表示为单位i机器人检测到目标信号k的强度；m_k为群机器人中共同搜索目标信号k的数量，θ_ik为第i个机器人对检测信号的响应阈值，η为距离响应调节参数，用于控制个体对信号敏感度，d^* _ik表示当前机器人i检测到最强目标信号k时的距离；

若f(T)超过第一阈值，所述第一机器人发出协同搜索信号；

若第二机器人收到所述协同搜索信号，则所述第二机器人根据第二公式进行Q学习并根据学习结果移动以靠近所述第一机器人，所述第二公式为：其中，β表示学习率，为常数，为t+1时刻，第i个机器人所处联合状态空间状态，为当前第i个机器人所采用的联合行动，为t+1时刻的学习规则，通过采用策略实现联合状态空间到联合动作空间的一个映射，为个体发生触发响应前t-l时刻的学习规则，l表示个体响应触发和当前时刻的差值，为第i个机器人t+1时刻的即时回报，其中，γ∈[0,1]，代表折扣因子，所述第二公式包括f(T^*)，所述f(T^*)根据公式获得，其中，T_jk以距离个体与目标距离d成反比的函数，表示为单位j机器人检测到目标信号k的强度；m_k为群机器人中共同搜索目标信号k的数量，θ_jk为第j个机器人对检测信号的响应阈值，η为距离响应调节参数，用于控制个体对信号敏感度，d^* _jk表示当前机器人j检测到最强目标信号k时的距离，同时所述第二机器人判断是否搜索到所述目标物；

若是，且所述第二机器人判断f(T)大于f(T^*)，则所述第二机器人根据所述第一公式进行Q学习并根据学习结果移动以靠近所述目标物。

2.一种机器人强化学习协同搜索系统，用于多个机器人对目标物进行协同搜索，所述多个机器人包括第一机器人和第二机器人，其特征在于，所述系统包括：

第一机器人用于判断是否搜索到目标物；

若是，所述第一机器人用于根据第一公式进行Q学习并根据学习结果移动以靠近所述目标物，所述第一公式为其中，а表示学习率，为常数，为t+1时刻，第i个机器人所处联合状态空间状态，为当前第i个机器人所采用的联合行动，为t+1时刻的学习规则，通过采用策略实现联合状态空间到联合动作空间的一个映射，为个体发生触发响应前t-l时刻的学习规则，l表示个体响应触发和当前时刻的差值，为第i个机器人t+1时刻的即时回报，其中，γ∈[0,1]，代表折扣因子，所述第一公式包括f(T)，所述f(T)根据公式获得，其中，T_ik以距离个体与目标距离d成反比的函数，表示为单位i机器人检测到目标信号k的强度；m_k为群机器人中共同搜索目标信号k的数量，θ_ik为第i个机器人对检测信号的响应阈值，η为距离响应调节参数，用于控制个体对信号敏感度，d^* _ik表示当前机器人i检测到最强目标信号k时的距离；

若第二机器人收到所述协同搜索信号，则所述第二机器人用于根据第二公式进行Q学习并根据学习结果移动以靠近所述第一机器人，所述第二公式为：其中，β表示学习率，为常数，为t+1时刻，第i个机器人所处联合状态空间状态，为当前第i个机器人所采用的联合行动，为t+1时刻的学习规则，通过采用策略实现联合状态空间到联合动作空间的一个映射，为个体发生触发响应前t-l时刻的学习规则，l表示个体响应触发和当前时刻的差值，为第i个机器人t+1时刻的即时回报，其中，γ∈[0,1]，代表折扣因子，所述第二公式包括f(T^*)，f(T^*)根据公式获得，其中，T_jk以距离个体与目标距离d成反比的函数，表示为单位j机器人检测到目标信号k的强度；m_k为群机器人中共同搜索目标信号k的数量，θ_jk为第j个机器人对检测信号的响应阈值，η为距离响应调节参数，用于控制个体对信号敏感度，d^* _jk表示当前机器人j检测到最强目标信号k时的距离，同时所述第二机器人判断是否搜索到所述目标物；