CN113613257A

CN113613257A - 基于博弈论的传感器网络自组织协同k覆盖方法

Info

Publication number: CN113613257A
Application number: CN202110806861.9A
Authority: CN
Inventors: 孙昌浩; 周庆瑞; 王晓初; 邱华鑫
Original assignee: China Academy of Space Technology CAST
Current assignee: China Academy of Space Technology CAST
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2021-11-05

Abstract

本发明涉及一种基于博弈论的传感器网络自组织协同k覆盖方法，包括以下步骤：a、以系统有效覆盖面积为指标，建立协同k覆盖全局优化数学模型；b、建立基于网络势博弈的分布式协同决策模型；c、各传感器节点确定当前位置、覆盖区域以及邻居集合，并初始化其行动与记忆向量；d、传感器节点利用邻域信息计算个体支付值、最佳应对、遗憾值与非劣行动集合，并将结果发送给邻居；e、个体利用混合应对规则选择受限最佳应对策略，并更新记忆向量；f、个体以相同概率随机选择记忆向量中的元素，并更新当前行动；g、跳转回所述步骤(d)，循环迭代直至系统稳定，输出分布式优化结果。本发明的方法可有效实现自主协同决策与群体智能涌现。

Description

基于博弈论的传感器网络自组织协同k覆盖方法

技术领域

本发明涉及一种基于博弈论的传感器网络自组织协同k覆盖方法。

背景技术

无线传感器网络泛指由多个具有感知、通信、计算与控制能力的传感器节点组成的分布式网络系统。随着人工智能技术与无线通信技术的发展，传感器网络系统已逐渐成为代替人类执行环境监测与侦查等任务的有效方式。在军事上，由地面、空中与空间机器人组成的无线传感器网络可配置给各级部队用于侦察和监视，为部队提供高清图像、实时战场信息、环境监测及战斗伤亡评估等信息。在民用领域，由于其自组织及无需人为干预的优良特性，可用于山区或更复杂环境的监测，尤其可在一些对人类有安全隐患的场所大显身手。

为获得尽可能详细的探测信息，通常做法是配置尽可能多的传感器节点以覆盖整个目标区域。然而，在某些极为恶劣的战场情况下，上述配置方案无法实现，只能将传感器节点在目标区域进行随机播撒。此外，能源供给方面的限制也决定了各传感器节点仅具有有限的寿命和使用时长。因此，如何有效平衡网络使用寿命与覆盖性能，成为了传感器网络配置的关键问题。为此，工程领域提出对目标区域进行冗余覆盖的解决方案,也被称作传感器网络k覆盖问题。该方案将传感器节点分为k组，每一时间内仅有一组传感器被激活，而其余节点则保持关闭从而节省能量，最终实现在保证整个网络最小使用时长的基础上提高总体有效覆盖面积的目的。

现有技术的k覆盖求解方法大多是在集中式控制框架下进行的，利用集中式节点和全局信息对决策过程进行优化与指导。然而，由于无线传感器网络中所有传感器节点仅可与有限的邻域个体进行交互，不存在可获取全局信息的中央节点。可见，现有技术中这类集中式通信结构不适用于无中心节点的分布式网络系统。因此如何仅利用有限的邻域通信与自主协调，实现系统有效覆盖面积的最大化，成为了无线传感器领域的重要研究问题。

总结来讲，现有技术中的有关多传感器k覆盖问题求解方法的方案，大多关注集中式结构下的近似解决算法，仅有少数分布式解决方案可实现去中心环境下的协同，但仍无法对系统全局性能进行精炼与提升。

发明内容

本发明的目的在于提供一种基于博弈论的传感器网络自组织协同k覆盖方法。

为实现上述发明目的，本发明提供一种基于博弈论的传感器网络自组织协同k覆盖方法，包括以下步骤：

a、以系统有效覆盖面积为指标，建立协同k覆盖全局优化数学模型；

b、建立基于网络势博弈的分布式协同决策模型；

c、各传感器节点确定当前位置、覆盖区域以及邻居集合，并初始化其行动与记忆向量；

d、传感器节点利用邻域信息计算个体支付值、最佳应对、遗憾值与非劣行动集合，并将结果发送给邻居；

e、个体利用混合应对规则选择受限最佳应对策略，并更新记忆向量；

f、个体以相同概率随机选择记忆向量中的元素，并更新当前行动；

g、跳转回所述步骤(d)，循环迭代直至系统稳定，输出分布式优化结果。

根据本发明的一个方面，在所述步骤(a)中，随机散布在二维平面区域内的传感器节点集合为W＝{s_i}_i∈N；

其中，N＝{1,2,…,n}，s_i表示第i个传感器节点，其位置坐标为X_i＝(x_i,y_i)，覆盖区域为以X_i为圆心、r_i为半径的圆型区域Θ_i；

各传感器节点s_i均配备无线通信模块，通信半径为c_i＞2max_i∈Nr_i；

若s_j处于s_i的通信范围内，则s_j为s_i的邻居，记节点s_i的邻居集合为Ω_i＝{s_j∈W|||X_i-X_j||≤c_i}，其中，

根据本发明的一个方面，将传感器网络节点分为k个相互独立的覆盖集合{S_j}_j∈K，其中K＝{1,2,…,k}，同时将探测时间分为k个对应的时间槽{T_j}_j∈K；

在每一时间段T_j内，仅激活覆盖集合S_j中的传感器，其余节点则保持静默；

每一节点s_i均可选择加入k个覆盖集合中的任意一个，其行动集合为A_i＝K，记其行动为a_i∈A_i，表示s_i选择加入第a_i个覆盖集合；

定义a＝(a₁，a₂，…，a_n)为一个分组，A＝Π_i∈NA_i为分组空间，对任意分组a∈A，则第j个覆盖集合表示为S_j＝{s_i∈W|a_i＝j}；

传感器协同k覆盖的目标为通过选择合适的分组a∈A以最大化如下全局目标函数：

其中，

表示覆盖集合S_j中所有节点的覆盖区域并集。根据本发明的一个方面，在所述步骤(b)中，将各传感器节点视为具有感知、通信与计算能力的智能个体，则建立势博弈模型G(P,{A_i},{u_i},φ)的步骤如下：

建立参与者集合P：将系统中每一传感器节点视为独立博弈参与者，则博弈者参与者集合P＝W；

建立行动集A_i：每一个体具有相同的行动集合A_i＝K；

建立支付函数u_i：对于任意分组或行动组合a，个体支付函数定义为

其中，\为集合减操作，该数值的计算仅依赖博弈个体的邻域信息。

建立势函数φ：对于任意分组或行动组合a，定义势函数为：

根据本发明的一个方面，在所述步骤(c)中，各传感器节点s_i利用定位与通信功能，确定当前位置X_i＝(x_i,y_i)、覆盖区域Θ_i以及邻居集合Ω_i；

各传感器节点随机初始化行动

与记忆向量

其中，l为记忆长度，上标t表示迭代次数。

根据本发明的一个方面，在所述步骤(d)中，在第t次协调过程中，个体s_i利用如下步骤进行局部计算：

利用邻域通信，获取邻居个体当前行动信息

计算支付函数值u_i、最佳应对

遗憾值

与非劣行动集合

其中，

表示时刻t除s_i之外其他所有个体的联合行动。

根据本发明的一个方面，在所述步骤(e)中，利用局部通信，个体s_i获取邻居的遗憾值信息

并计算邻域中最大遗憾值

及对应的邻居

个体计算受限最佳应对策略

为：若r_i ^t＝0，则

若(i)r_i ^t＞r_i ^t*或(ii)r_i ^t＝r_i ^t*且i＜j^*，则

否则，以相同的概率在非劣行动集

中选择任意行动作为

利用

更新个体记忆，得

根据本发明的一个方面，在所述步骤(f)中，个体s_i在

中以相同概率进行随机选择，得到更新后的行动

根据本发明的一个方面，在所述步骤(g)中，循环迭代直至所有个体行动均不再变化，则协调过程结束并得到近优或最优的k覆盖协同分组方案。

根据本发明的构思，从博弈论的视角出发，将网络中的传感器节点看作具有通信、感知、计算与决策能力的博弈参与者，通过定义通信拓扑、策略集与支付函数，构建基于网络势博弈的分布式协同优化模型，利用博弈学习设计自组织协调机制与算法，不仅可保证纳什均衡解的快速收敛，同时也可通过记忆长度的调整提供一条纳什均衡选择与精炼的有效途径。作为研究相互影响、互相依赖的理性个体决策行为以及均衡结果的数学理论，博弈论主要包含以下三大要素：参与者，行动集与支付函数。博弈论广泛应用于经济、政治等人文社科领域，但也在分布式系统等工程领域显示了更为广阔的应用前景。具体的，将博弈论用于传感器网络自主协同k覆盖主要原因与动机包含以下几个方面：

首先，在缺少集中式控制节点的分布式系统中，传感器节点仅可进行局部交互与协调，这与网络博弈中个体的局部交互与协调方式相同。因此，博弈论为传感器网络协同k覆盖提供了良好的自主决策框架；

其次，由于协同k覆盖问题的特性，传感器节点间的决策是相互影响的，即一个传感器节点的收益同时受到其邻居决策的影响。因此，博弈论为传感器节点间的冲突与合作分析提供了有效的途径。

再次，由于传感器节点的自主特性，仅基于局部交互与协调的分布式方案可能导致系统层面的性能混乱，难以形成有效的合作方案。势博弈为解决上述困难提供了有效的方法，它是一种可保证个体支付值与全局利益一致的特殊博弈问题。在势博弈中，任意个体单方面改变其行动所带来的个体支付值变化与全局利益变化是严格一致的。该模型保证了纯策略纳什均衡的存在性，也保证了纳什均衡对全局最优解的包含性。

基于以上原因，本发明在势博弈框架下建立了传感器网络自组织协同k覆盖的分布式优化模型，设计了基于同步随机博弈学习的分布式算法，可为分布式环境下的传感器自主协同k覆盖提供有效的解决方案。

根据本发明的方案，将传感器网络协同k覆盖转化为势博弈中的纳什均衡求解与选择问题，利用有限记忆与混合应对策略设计了基于博弈学习的同步随机算法，可有效实现自主协同决策与群体智能涌现。

根据本发明的一个方案，可实现自组织协同决策，无需依赖全局信息与集中式控制，各传感器仅根据邻域信息进行自主决策，可实现群体协同决策的智能涌现，有助于提升系统自主能力与鲁棒性，尤其适用于人工控制无法作用的野外场所。

根据本发明的一个方案，可实现纳什均衡的收敛与精炼，对任意具有无向通信的传感器网络，本方法均可保证纳什均衡的全局收敛性，消除分布式环境下个体利益与全局性能间的冲突。即在任何记忆长度下，本方法均可保证纳什均衡方案的有限时间收敛。

根据本发明的一个方案，计算时间与解最优性的折衷，为满足不同任务场景的不同需求，本方法提供了平衡协商时间与协同效能折衷的自由度。当个体记忆长度l趋近于1时，系统可快速收敛至纳什均衡，优先满足快速协商要求。随着记忆长度的增加，所得纳什均衡所对应的全局性能评价指标逐渐增加，协商效能得到更多的满足。如此，通过记忆长度的调节，既可快速收敛至纳什均衡，亦可利用长时间的协商得到更高效的协同覆盖方案。

根据本发明的一个方案，可移植于其它可描述为势博弈的分布式协调控制与优化决策问题。

附图说明

图1示意性表示本发明的一种实施方式的基于博弈论的自组织协同决策方法流程图；

图2示意性表示本发明的一种实施方式的时间与传感器分组示意图；

图3示意性表示本发明的一种实施方式的传感器节点局部支付函数示意图；

图4示意性表示本发明的一种实施方式的多传感协同k覆盖实例(n＝15,k＝3)；

图5示意性表示本发明的一种实施方式的分布式协同k覆盖算法收敛曲线(m＝1,2,3,4,5)；

图6示意性表示本发明的一种实施方式的分布式协同k覆盖算法收敛曲线(m＝6,10,15)；

图7示意性表示本发明的一种实施方式的分布式协同k覆盖算法收敛曲线(m＝20,25,30)。

具体实施方式

为了更清楚地说明本发明实施方式或现有技术中的技术方案，下面将

对实施方式中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

在针对本发明的实施方式进行描述时，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”所表达的方位或位置关系是基于相关附图所示的方位或位置关系，其仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此上述术语不能理解为对本发明的限制。

下面结合附图和具体实施方式对本发明作详细地描述，实施方式不能在此一一赘述，但本发明的实施方式并不因此限定于以下实施方式。

以下实施方式及附图中，T表示完整时间区域，T_j表示划分的第j个时间槽，S_j表示第j个覆盖集合，s_i表示第i个传感器节点，u_i表示传感器节点s_i的支付函数，t表示迭代次数，Y表示满足条件(是)，N表示不满足条件(否)，n表示传感器个数，k表示分组个数。

参见图1，本发明的基于博弈论与分布式协同决策的传感器网络自组织协同k覆盖方法属于人工智能、多智能体理论与传感器网络的交叉领域，基于博弈论的对地观测卫星系统分布式优化理论与方法的研究提出。本方法首先建立全局数学模型，再建立分布式博弈模型，对算法初始化，并进行局部计算，然后进行记忆更新和行动更新，最后跳转回局部计算的步骤进行循环迭代，直至得到最终方案。

以下以一个具体实施方式来对本发明的方法进行详细描述，实验对象为由n＝15个异构传感器节点组成的分布式传感器网络。为实现网络寿命与覆盖性能的平衡，需将其分为k＝3个独立的覆盖集合。如图4所示，传感器节点随机散布于5km×5km的二维平面。为计算方便，将目标区域划分为10×10的网格。当某一网格的中心点在传感器s_i的覆盖范围内时，则认为该网格被s_i所覆盖。实验环境为MATLAB 2016a版本，操作系统为Win10.0，3.07Ghz，4G内存。

以系统有效覆盖面积为指标，建立协同k覆盖全局优化数学模型。随机散布在二维平面区域内的传感器节点集合为W＝{s_i}_i∈N。其中，N＝{1，2，…，n}，s_i表示第i个传感器节点，其位置坐标为X_i＝(x_i，y_i)，覆盖区域为以X_i为圆心、r_i为半径的圆型区域Θ_i。各传感器节点s_i均配备无线通信模块，通信半径为c_i＞2max_i∈Nr_i。若s_j处于s_i的通信范围内，则s_j为s_i的邻居，记节点s_i的邻居集合为Ω_i＝{s_j∈W|||X_i-X_j||≤c_i}，其中，

本发明中，为实现网络使用寿命与覆盖性能的折衷，将传感器网络节点分为k个相互独立的覆盖集合{S_j}_j∈K，K＝{1，2，…，k}。同时，如图2所示，将探测时间分为k个对应的时间槽{T_j}_j∈K。在每一时间段T_j内，仅激活覆盖集合S_j中的传感器，其余节点则保持静默以节省能量。每一节点s_i均可选择加入k个覆盖集合中的任意一个，即其行动集合为A_i＝K，记其行动为a_i∈A_i，表示s_i选择加入第a_i个覆盖集合。定义a＝(a₁，a₂，…，a_n)为一个分组，A＝Π_i∈NA_i为分组空间，对任意分组a∈A而言，第j个覆盖集合表示为S_j＝{s_i∈W|a_i＝j}。传感器协同k覆盖的目标为通过选择合适的分组a∈A以最大化如下全局目标函数：

其中，

表示覆盖集合S_j中所有节点的覆盖区域并集。

在本实施方式中，针对n＝15及k＝3的协同k覆盖问题，建立如下全局目标函数：

F(a)＝f₁(a)+f₂(a)+f₃(a)。

随后即可建立基于网络势博弈的分布式协同决策模型(也可称分布式博弈模型)。将各传感器节点视为具有感知、通信与计算能力的智能个体，建立势博弈模型G(P,{A_i},{u_i},φ)如下：建立参与者集合P，将系统中每一传感器节点视为独立博弈参与者，则博弈者参与者集合为P＝W；建立行动集A_i，每一个体具有相同的行动集合A_i＝K；建立支付函数u_i，对于任意分组或行动组合a，个体支付函数定义为：

其中，\为集合减操作，该数值的计算仅依赖博弈个体的邻域信息，即个体行动与个体邻居行动信息；建立势函数φ，对于任意分组或行动组合a，定义势函数为：

在本实施方式中，博弈者参与者集合P＝{s₁,s₂,…,s₁₅}，每一个体具有相同的行动集合A_i＝{1,2,3}，个体支付函数为

势函数为φ(a)＝f₁(a)+f₂(a)+f₃(a)。

之后进行算法初始化，即各传感器节点s_i确定当前位置、覆盖区域以及邻居集合，并初始化其行动与记忆向量。具体的，各传感器节点s_i利用定位与通信功能，确定当前位置X_i＝(x_i,y_i)、覆盖区域Θ_i以及邻居集合Ω_i。各传感器节点随机初始化行动

与记忆向量

其中，l为记忆长度，上标t表示迭代次数。

随后进行局部计算，即传感器节点利用邻域信息计算个体支付值、最佳应对、遗憾值与非劣行动集合，并将结果发送给邻居。在第t次协调过程中，个体s_i利用如下步骤进行局部计算，获取邻居个体当前行动信息：

利用邻域通信，获取邻居个体当前行动信息

计算支付函数值u_i(参见图3)、最佳应对

遗憾值

与非劣行动集合

其中，

表示时刻t除s_i之外其他所有个体的联合行动。

在记忆更新的步骤中，个体利用混合应对规则选择受限最佳应对策略，并更新记忆向量。具体的，利用局部通信，个体s_i获取邻居的遗憾值信息

并计算邻域中最大遗憾值

及对应的邻居

则个体计算受限最佳应对策略

为：若r_i ^t＝0，则

若(i)r_i ^t＞r_i ^t*或(ii)r_i ^t＝r_i ^t*且i＜j^*，则

否则，以相同的概率在非劣行动集

中选择任意行动作为

随后，利用

更新个体记忆，得新的记忆向量

随后进行行动更新，即个体以相同概率随机选择记忆向量中的元素，更新当前行动。具体为，个体s_i在

中以相同概率进行随机选择，得到更新后的行动

最后，跳转回上述局部计算的步骤，进行重复运行直至系统稳定，输出分布式优化结果。具体而言，循环迭代直至所有个体行动均不再变化，则协调过程结束并得到近优或最优的k覆盖协同分组方案。

图5、图6与图7为本发明利用不同记忆长度所得到的分布式优化收敛曲线。图5中记忆长度分别取值为1，2，3，4与5，图6中个体记忆长度分别为6，10和15，图7中则为20，25与30。如下表1示出了上述不同记忆长度下500次蒙特卡洛仿真所得到的统计结果：

记忆长度	全局评价函数	收敛时间(s)
			1	28.5900	0.0045
2	28.6010	0.0105
			3	28.6665	0.0111
4	28.6970	0.0222
			5	28.7895	0.0267
6	28.8140	0.0443
			10	28.9140	0.1115
15	28.9730	0.3243
			20	29.0020	0.3953
25	29.0180	0.4812
			30	29.0415	0.7333

表1(不同记忆长度下分布式协同k覆盖优化结果统计表)

由此，随着记忆长度的增加，算法收敛时间变长，所得平衡点处的全局评价函数逐渐增大。上述实验结果表明，本发明所提出的分布式传感器协同k覆盖方法不仅可保证纳什均衡的全局收敛性，同时也可通过记忆长度的调节对解最优性与收敛时间进行平衡与折衷，代表实验成功。

综上所述，本发明将传感器网络中的每一节点视为具有自主通信、计算、决策与控制能力的博弈参与者，通过策略集与个体支付函数的构造，将传感器网络协同k覆盖转化为势博弈中的纳什均衡求解与选择问题，利用有限记忆与混合应对策略，设计了同步随机学习算法，可有效保证纳什均衡解的收敛与精炼选择。由此，本发明从而不依赖全局信息与中央节点的分布式解决方案，消除个体利益与全局性能的冲突，在不损失网络覆盖性能的前提下提高系统的使用寿命。此外，为满足不同任务场景对协调时间与协同效能的不同需求，本方法亦提供了对二者进行有效平衡与折衷的途径。此外，本发明适用于分布式无线传感器网络k覆盖问题自主求解，其分布式协同决策算法亦可移植于其它可描述为势博弈的分布式协调控制与优化决策问题，包括分布式卫星协同任务规划、资源分配、编队控制等。

以上所述仅为本发明的一个实施方式而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。