CN114845353A

CN114845353A - D2d网络中基于确定性估计器学习自动机的定向天线邻居发现方法

Info

Publication number: CN114845353A
Application number: CN202210246181.0A
Authority: CN
Inventors: 卢为党; 翁丽霞; 李晨凯; 曹江; 尹峻松; 孔德照; 高原
Original assignee: Research Institute of War of PLA Academy of Military Science
Current assignee: Research Institute of War of PLA Academy of Military Science
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-08-02

Abstract

一种D2D网络中基于确定性估计器学习自动机的定向天线邻居发现方法，该方法利用学习自动机机制，并引入了确定性估计器，将D2D网络中的节点都建模为一个单独的智能体，并采用Generalized Pursuit算法更新扇区概率分布，通过与环境的交互积累经验，指导下一次的邻居发现过程，有效提升邻居发现的效率。

Description

D2D网络中基于确定性估计器学习自动机的定向天线邻居发现方法

技术领域

本发明属于无线通信领域中的D2D通信技术领域，尤其是一种基于定向天线的邻居节点发现方法。

背景技术

D2D通信作为一种短距离的通信技术，既可以在基站的控制下进行通信，也可以在无基站控制下直接进行终端通信。D2D通信允许两个距离较近的用户终端直接建立通信链路进行数据传输。基于D2D通信技术广阔的应用前景，越来越多的国内外研究学者对其进行了深入的研究。D2D邻居设备发现是D2D技术的主要研究方向之一。

根据不同的天线模式，邻居发现方法可以分为全向邻居发现和定向邻居发现两类。全向天线操作简单，但存在数据传输速率低，链路覆盖距离短，抗干扰能力弱等问题。而使用定向天线能够解决以上问题，因此，定向天线被应用于邻居发现中。使用定向天线后，节点之间需要考虑波束对准问题。现有的定向天线邻居发现方法可以分为两大类，随机型与规划型。在随机型方法里，网络中的每个节点随机选择一个方向进入发送或是接收状态，规划型方法则与之不同，它根据事先设计好的扫描序列与收发序列来收送信息。更进一步，在实际应用中，节点位置不是一成不变的，往往处于运动状态下，需要不断重新发现邻居节点，所以之前邻居发现的信息可以作为历史信息保存下来，为后续邻居发现积累经验。

发明内容

为了克服现有技术的不足，为进一步提升邻居发现的效率，本发明提出了一种D2D网络中基于确定性估计器学习自动机的定向天线邻居发现方法，该方法利用学习自动机机制，并引入了确定性估计器，通过与环境的交互，积累经验，直到下一次的邻居发现过程，达到提高邻居发现效率的目的。

为了解决上述技术问题，本发明提供如下的技术方案：

一种D2D网络中基于确定性估计器学习自动机的定向天线邻居发现方法，假设在一个D2D网络场景中，存在M个节点，每个节点的发送天线均为定向天线，可以指向k个天线扇区中的一个方向，时间被划分为以时隙为单位，在每个时隙节点可以任意选择一个扇区方向进行发送或者接收数据，节点间保持时间同步，当两节点当前时刻的天线指向相对，并满足一个节点发送信息，另一节点接收信息，可以互相发现对方，所述D2D网络中基于确定性估计器学习自动机的定向天线邻居发现方法包括以下步骤：

1)模型建立，D2D网络中的每个节点都作为一个单独的智能体；

2)动作执行，智能体根据当前时刻的概率分布，选择定向天线的指向扇区，并以相等的概率选择发送或者接收模式；

3)状态更新，根据与环境交互得到的反馈，更新估计器，并根据GeneralizedPursuit算法，更新扇区的概率分布；

4)状态转移，循环至步骤2)，直至邻居节点发现完成。

进一步，所述步骤1)中，确定性估计器学习自动机将智能体定义为四元组{A,B,Q,T}：

A＝{a₁,a₂,...,a_k}是学习自动机的输出行为合集，表示智能体定向天线指向；

B＝{0,1}是输入学习自动机的合集，其中“0”代表惩罚，表示智能体没有发现新的邻居节点，“1”代表奖励，表示智能体发现了新的邻居节点；

Q＝<P,E>是学习自动机的状态，其中P＝{p₁(t),p₂(t),...,p_k(t)}是自动机在t时刻的状态，表示智能体在t时刻的扇区概率分布；E＝D(t)，

是自动机在t时刻的确定性估计器向量，每一个行为的奖励估计值

i∈{1,2,…,k}，表示智能体在t时刻扇区的奖励估计值；

T是自动机的状态转移函数，决定自动机如何从t时刻的状态迁移到t+1时刻，表示智能体如何更新扇区概率分布函数。

优选的，所述步骤2)中，t＝0时每个扇区的概率向量相等。

再进一步，所述步骤3)中，更新估计器，每一个行为的奖励估计值

根据下式更新：

R_i(t+1)＝R_i(t)+B (1)

G_i(t+1)＝G_i(t)+1 (2)

其中，R_i(0)＝G_i(0)＝0,R_i(t)表示定向天线扇区累计奖励值，G_i(t)表示定向天线扇区累计选择次数；

更新扇区的概率分布，假设智能体t时刻在扇区j，j∈{1,2,...,k}执行操作，根据Generalized Pursuit算法公式更新概率分布：

max{p_k(t+1)}≤ω (4)

其中，e(t)表示

的数量，即表示奖励估算值比当时所选动作更大的扇区数量，0＜λ＜1表示学习速率参数，ω表示概率向量的阈值。

本发明的技术构思为：本专利利用学习自动机机制，并引入了确定性估计器，将邻居发现过程建模为确定性估计器学习自动机，采用Generalized Pursuit算法更新概率分布，通过与环境的交互积累经验，指导下一次的邻居发现过程，有效提升邻居发现的效率。

本发明的有益效果主要表现在：将邻居发现过程建模为确定性估计器学习自动机，并采用Generalized Pursuit算法提升了D2D网络中邻居发现的效率。

附图说明

图1是本发明方法的系统模型示意图；

图2是节点静止时本发明方法与随机型方法所需时隙数对比图；

图3是节点运动时本发明方法与随机型方法所需时隙数对比图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图3，一种D2D网络中基于确定性估计器学习自动机的定向天线邻居发现方法，利用学习自动机机制，并引入确定性估计器，将D2D网络中的节点都建模为一个单独的智能体，采用Generalized Pursuit提升邻居发现的效率，采用以下过程实现：

本实施方式的方法中，利用学习自动机机制，将D2D网络中的每个节点都作为一个单独的智能体，确定性估计器学习自动机将智能体定义为四元组{A,B,Q,T}；

i∈{1,2,...,k}，表示智能体在t时刻扇区的奖励估计值；

智能体根据当前时刻的概率分布，选择定向天线的指向扇区，并以相等的概率选择发送或者接收模式，其中，t＝0时每个扇区的概率向量相等。

执行动作后，根据与环境交互得到的反馈，更新估计器，每一个行为的奖励估计值

根据下式更新：

R_i(t+1)＝R_i(t)+B (1)

G_i(t+1)＝G_i(t)+1 (2)

max{p_k(t+1)}≤ω (4)

其中，e(t)表示

在本实施方式中，选取了大型网络仿真软件OPNET来验证所提方法的有效性及可实施性。仿真模型配置在1000m×1000m的正方形区域内，20个节点的初始位置随机确定，模拟了静止和运动两种情况，其中运动时速度为10-20km/h。图2和图3分别显示了在这两种情况下，本发明所提出方法所需时隙数相较于随机型对比方案，都有明显减少。

本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举，仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式，本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。

Claims

1.一种D2D网络中基于确定性估计器学习自动机的定向天线邻居发现方法，假设在一个D2D网络场景中，存在M个节点，每个节点的发送天线均为定向天线，可以指向k个天线扇区中的一个方向，时间被划分为以时隙为单位，在每个时隙节点可以任意选择一个扇区方向进行发送或者接收数据，节点间保持时间同步，当两节点当前时刻的天线指向相对，并满足一个节点发送信息，另一节点接收信息，可以互相发现对方，所述D2D网络中基于确定性估计器学习自动机的定向天线邻居发现方法包括以下步骤：

3)状态更新，根据与环境交互得到的反馈，更新估计器，并根据Generalized Pursuit算法，更新扇区的概率分布；

4)状态转移，循环至步骤2)，直至邻居节点发现完成。

2.如权利要求1所述的D2D网络中基于确定性估计器学习自动机的定向天线邻居发现方法，其特征在于：所述步骤1)中，确定性估计器学习自动机将智能体定义为四元组{A,B,Q,T}：

表示智能体在t时刻扇区的奖励估计值；

3.如权利要求1或2所述的D2D网络中基于确定性估计器学习自动机的定向天线邻居发现方法，其特征在于：所述步骤2)中，t＝0时每个扇区的概率向量相等。

4.如权利要求3所述的D2D网络中基于确定性估计器学习自动机的定向天线邻居发现方法，其特征在于：所述步骤3)中，更新估计器，每一个行为的奖励估计值

根据下式更新：

R_i(t+1)＝R_i(t)+B (1)

G_i(t+1)＝G_i(t)+1 (2)

max{p_k(t+1)}≤ω (4)

其中，e(t)表示