CN114710410B

CN114710410B - 基于深度强化学习的网络数据采集效率优化方法及系统

Info

Publication number: CN114710410B
Application number: CN202210634436.0A
Authority: CN
Inventors: 潘成胜; 杨力; 戚耀文
Original assignee: Nanjing University of Science and Technology; Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Science and Technology; Nanjing University of Information Science and Technology
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2022-08-26
Anticipated expiration: 2042-06-07
Also published as: CN114710410A

Abstract

本发明公开了一种基于深度强化学习的网络数据采集效率优化方法及系统，优化方法包括：通过分析网络特征状态数据信息，建立动态多服务台队列模型和异质特征数据信息年龄模型；定义优化前后不同特征数据的信息年龄、服务器接收队列长度以及路由效果为损失函数，建立问题约束模型，通过深度强化学习求解不同特征数据更新频率间隔，改善不同特征状态数据的更新频率对路由性能的影响。网络终端采集特征状态数据并送达控制器的过程满足负指数分布，能够计算服务器接收不同类型特征数据的最佳更新频率，结果表明该优化方法能够有效提升系统时效性和路由选取有效性；能够有效应对车际移动自组网信息时效性差、队列资源受限等问题。

Description

基于深度强化学习的网络数据采集效率优化方法及系统

技术领域

本发明涉及网络数据采集领域，具体涉及一种基于深度强化学习的网络数据采集效率优化方法及系统。

背景技术

车联网的应用场景常伴随着高机动性，复杂地理环境和电磁环境，造成车际移动自组网链路频繁切换，且资源受限。车辆通常搭载多类不同频段电台，在进行全局路由规划时，需实时采集各节点通信设备的工作和故障状态数据，以保证路由规划的合理性和有效性。

为了在数据采集过程中衡量信息的时效性，专家学者提出了信息年龄(AoI, Ageof Information)这一概念。信息年龄是服务器收到传感器发送信息经过的时间间隔。若间隔过大，则证明信息处于过期状态；若间隔过小，则单位时间内信息更新频率过高，易造成处理节点拥塞。为寻找合理的信息更新间隔，专家学者对此进行了大量研究。AlirezaJavani推导了任意数量信息源的AoI表达式，研究了单个源情况下每个服务器的最佳到达率。Yao Zhao解决了在主要用户的平均AoI约束下，通过可约束马尔科夫过程开发新的最优状态更新和数据包中继方案，来最小化平均AoI和能耗的问题。Xi Zhang在多媒体无线网络中验证和评价了基于AoI的统计延迟有界QoS配置方案，提高多媒体无线网络中平稳遍历优先服务M/M/1信道的去有界QoS性能。Melih Bastopcu在最小信息质量更新需求的限制下，通过求解所期望的信息失真水平，来确定接收机更新请求时间和发射机更新处理时间的信息年龄最优策略。Alkan Soysal推导了G/G/1/1系统的信息年龄模型，并利用该模型证明了到达率和服务率的关系，给出了信息年龄上界。Cheng Hu分别从信息年龄和数据率两方面调查了系统的及时性和效率，给出了最优功率分割比和最优加权系数。Yunquan Dong研究了决策时刻的年龄(AuD)来描述在决策时刻接收到信息更新的新鲜度。Vishrant Tripathi基于移动代理随机移动轨迹的最小化信息的峰值和平均信息年龄，作为衡量信息及时性的指标。

学者们的研究对各种情况下的最优信息年龄进行了讨论，能够有效的建立信息时效性模型，但是车际移动自组网呈现出高度动态性的网络状态和稀缺的网络资源需要其具备动态变化的信息感知模型。传统信息年龄模型只对传感器定时发送的网络状态信息进行描述，大多只计算峰值信息年龄和平均信息年龄，尚未能根据特征数据类型不同动态调整信息采集间隔。现有采集技术对感知网络特征状态信息的感知较少，难以根据不同传输需求配置网络资源，尚未有学者研究多特征状态类型对路由规划的影响，并建立信息年龄模型。

发明内容

本发明的目的在于提出一种基于深度强化学习的网络数据采集效率优化方法及系统，用于提升信息采集效率，提升系统时效性，降低网络丢包率。

实现本发明目的的技术解决方案为：第一方面，本发明提供一种基于深度强化学习的网络数据采集效率优化方法，包括：

将采集到的信息与路由规划影响特征参数进行对比，选择对路由规划影响权重更高的特征状态数据集；

建立动态多服务台队列模型，结合队列模型构建异质特征数据信息年龄模型；

通过深度强化学习求解不同特征数据更新频率间隔，定义优化前后各特征数据的信息年龄、服务器接收队列长度以及路由效果为损失函数，建立问题约束模型。

第二方面，本发明提供一种基于深度强化学习的网络数据采集效率优化系统，包括：

特征数据分析模块，用于将采集到的信息与路由规划影响特征参数进行对比，选择对路由规划影响权重更高的特征状态数据集；

处理队列与信息年龄构建模块，用于建立动态多服务台队列模型，结合队列模型构建异质特征数据信息年龄模型；

深度学习求解模块，通过深度强化学习求解不同特征数据更新频率间隔，定义优化前后各特征数据的信息年龄、服务器接收队列长度以及路由效果为损失函数，建立问题约束模型。

第三方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的基于深度强化学习的网络数据采集效率优化方法。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的基于深度强化学习的网络数据采集效率优化方法。

与现有技术相比，本发明的有益效果为：

（1）采用的深度强化学习模型，能够根据系统性能动态调整，找到最优网络信息年龄，所以能够提升系统时效性；

（2）采用的深度强化学习模型，能够在队列长度与信息年龄之间找到动态平衡点，所以能够优化队列负载，降低系统丢包率；

（3）因为采用信息熵预处理状态特征集，能够快速选择高权重特征优化，所以能够提升算法收敛速度。

附图说明

图1是状态更新频率示意图。

图2是特征数据的单链路信息年龄示意图。

图3是深度强化学习过程示意图。

图4是多算法平均信息年龄对比图。

图5是多算法平均队列长度对比图。

图6是多算法平均丢包率对比图。

图7是多算法收敛速度对比图。

具体实施方式

车际移动自组网结构复杂，网络拓扑动态变化，如何实时检测网络状态是优化远程控制的工作重点，为了保证来自传感器的信息尽可能新鲜，本发明提出一种基于深度强化学习的网络数据采集效率优化方法，将对车载移动自组网中影响路由规划的异质特征信息进行分析，建立服务器端多处理队列模型，对信息年龄进行建模并优化。

A.特征状态数据分析

车载移动自组网中产生、承载的网络业务种类繁多，不同类型业务的特征表现差异性较大，特征状态携带的信息对路由规划的影响权重不同，传感器将按照不同频率定期向服务器发送特征状态数据包。为了提高单位长度内传感器向服务器发送数据的重要度，本发明将网络连接状态、电台频率、工作模式、带宽、端到端时延等特征信息记为特征状态集

，其中

表示第

个特征，保留与路由规划影响因子

相关的特征子集

，

满足

。将

中各特征

按照

值的大小进行降序排列，根据

的排序结果定义特征信息状态更新频率。然后取互信息集F与特征子集

的交集

，

满足

，剔除冗余特征

后，使

描述的相关度达到最优并按相关性从大到小排列。

B.系统队列模型

设网络中独立终端被记

，终端将不断收集网络信息，定期将这些信息发送至服务器

，服务器收到信息后对路由组网过程进行全局规划。不同类型的数据对路由决策的影响程度不同，在给定路由影响因子

后，计算

与

的互信息集与对称不确定性，得到按影响路由规划权重从大到小排列的特征数据集

。

独立终端

设置信息处理模块，时刻

获得特征数据集

包含的网络特征信息，将特征数据包记为

以不同的信息更新频率分布

向

发送

状态更新心跳包，

服从负指数分布，且互相独立。如图1所示。

现有车联网服务器具备一定的并行计算能力，假设服务器

的队列单元，满足M/M/h/R多处理队列混合制模型，从独立终端

发送的特征状态信息x_i的到达率服从参数为

的负指数分布，节点

关于所有状态特征信息更新的到达率为

。处理队列数量为

，

的处理队列服务率服从参数为

的负指数分布，系统的剩余队列资源容量为

。当

未被完全占用且暂时无法提供服务时，特征状态信息将进入队列等待；当

被完全占用后，系统将发生丢包。

首先计算稳态条件下

的队列长度的分布

，特征

的到达率和服务率满足以下方程。

记

，当

时，

其中

对多队列排队系统，稳态条件下可得服务器

对特征数据

的平均排队长

为：

特征数据

的平均等待时间为：

C.信息年龄

信息年龄是衡量系统时效性的重要指标，具体表现为不同特征信息的更新频率，相当于在服务器节点采集终端节点的状态信息。而在现有车载移动自组网中限制信息年龄的条件有两点，一是服务器端计算效率，计算效率低可直接体现在队列长度，当终端节点的信息更新频率趋近于0时，相当于泛洪信息攻击，服务器队列长度始终保持大于

，系统会发生严重丢包，破坏网络连通性。二是终端节点发送速率，若将发送状态信息更新的间隔定义为一天，则实时性同样无法保障。

为此，给定信息更新间隔

并假设遍历性，在尽量保证系统队列长度接近阈值

的前提下，可以通过分配各特征状态信息更新间隔，来保证路由策略的实时性。

特征信息

在

时刻进入

的接收队列，记该服务时间为

，

为独立终端

的发送时延，

为

与

的传输时延。特征信息

在

时刻被

响应，记该服务时间为

。

代表特征下次状态更新的时刻，记该等待时间为

。

如图2所示，给定特征信息

的信息年龄过程

并假设其遍历性，可以通过收敛至其相应随机的样本均值来建立平均信息年龄模型。状态更新的平均年龄是图中阴影部分按时间间隔归一化的面积，在时间区间[0, T]内，每个特征数据

的状态更新的平均信息年龄为：

在

趋向于无穷大时，可以认为

,

为图中阴影部分的面积。

是下一次特征数据的发送时延，

是下一次特征数据等待处理的时延，

是离散条件下

的面积，特征信息

的平均信息年龄为:

为提高数据采集效率，本发明设计深度强化学习模型对多目标进行联合优化，在第

次迭代时，根据不同特征数据更新频率

，计算服务器状态更新队列平均长度

以及特征数据的信息年龄

，优化路由后网络系统平均传输时延

，丢包数

，建立问题约束模型，

代表算法迭代次数，计算各特征数据信息年龄对路由规划的影响，根据路由决策的结果设计奖励函数，确定收敛目标，提升不同特征类型的信息新鲜度对通信系统性能的影响。优化问题可被记为以下约束：

Minimize:

Subject to:

当前的特征数据更新频率将会影响信息年龄，优化信息年龄和队列长度会提升数据的时效性，在链路频繁切换、业务局部突发的车载移动自组网，高时效性会优化路由效果。

D.深度强化学习求解

深度强化学习由于其黑盒特性相较于传统方法在求解多因素耦合问题的过程中精确度更高。智能体在训练过程中通过不断地随机迭代，在执行随机动作后环境满足优化约束目标将给予智能体奖励，通过大量迭代累计回报获得多目标最优化策略。

如图3所示，本发明所提的基于深度强化学习的车际移动自组网信息采集间隔优化框架将特征数据

的更新频率视为一个智能体，将网络路由结果的平均时延、丢包数，服务器队列长度视为状态E。每个训练周期中共迭代

次，智能体获取初始环境状态E0，之后执行动作

对

的更新频率进行随机加权分配；执行动作后，智能体获得环境相应的奖励值

，并继续观察下一时刻状态

。

环境状态可以表示为两个部分：第一部分是服务器接收特征数据

时的处理队列长度记为R(t)，以及当前时刻的信息年龄

。系统在接收到数据之后，系统按照现有状态将做一次路由规划，规划完成后计算系统的平均传输时延

，总丢包数

，当前时刻t的系统状态

可表示为：

系统动作可以理解为对不同特征数据更新频率

的改变，对于

,系统在时刻t的动作

可以被定义为：

Q价值函数被定义为

，学习参数

为满足

的常数。

是系统收益奖励函数，系统的动作

将会使

发生改变，对于车载移动自组网的数据信息采集系统，存在特征数据

的更新频率

使得系统的收益为：

其中，

，

是算法总共迭代的次数，定义

为不同特征数据的信息年龄在迭代一次后效果的差值，同理可得服务器状态更新队列平均长度、丢包数、平均传输时延的差，累加整个迭代周期的差值作为系统收益奖励函数。

算法流程

进一步的，本发明还提供一种基于深度强化学习的网络数据采集效率优化系统，包括特征数据分析模块、处理队列与信息年龄构建模块、深度学习求解模块；

特征数据分析模块用于将采集到的信息与路由规划影响特征参数进行对比，选择对路由规划影响更大的特征状态数据集，能够使得算法收敛速度更快；

处理队列与信息年龄构建模块用于建立动态多服务台队列模型，结合队列模型构建异质特征数据信息年龄模型，能够有效描述系统时效性；

深度学习求解模块通过深度强化学习求解不同特征数据更新频率间隔，定义优化前后各特征数据的信息年龄、服务器接收队列长度以及路由效果为损失函数，建立问题约束模型，能够提升不同特征类型数据的更新频率对通信系统性能的影响。

所述特征数据分析模块能够将网络连接状态、电台频率、工作模式、带宽、端到端时延等特征状态信息记为特征状态集

，其中

表示第

个特征，保留与路由规划影响因子

Claims

1.一种基于深度强化学习的网络数据采集效率优化方法，其特征在于，包括：

将采集到的信息与路由规划影响特征集

进行对比，选择对路由规划影响权重更高的特征状态数据集；将包括网络连接状态、电台频率、工作模式、带宽、端到端时延的特征状态信息记为特征状态集

；计算特征状态集

和路由规划影响特征集

两个特征集的对称不确定性

，通过对称不确定性将特征状态集

按照与路由规划影响特征集

的相关性从大到小排序，从而获得特征集

；

2.根据权利要求1所述的基于深度强化学习的网络数据采集效率优化方法，其特征在于，假设特征状态集为

，

可描述路由规划影响因子的k维特征属性，

可描述数据样本的m维特征属性；特征状态集

和

重叠的部分被定义为

：

是路由规划影响特征集

的信息熵，

是已知特征状态集

的情况下，路由规划影响特征集

对

的条件熵，

代表

的值取为

时的边缘概率分布，

代表

的值取为

时的边缘概率分布，

是

的联合分布概率；

固定路由规划影响特征集

，计算互信息

，将互信息集记为

；

在特征状态集

和路由规划影响特征集

两个特征集之间计算对称不确定性

，通过对称不确定性将特征状态集

按照与路由规划影响特征集

的相关性从大到小排序，从而获得对路由规划影响最大的特征；

两个特征集之间对称不确定性

的定义如下所示：

其中

为信息增益，

为特征状态集X的信息熵，

表示路由规划影响特征集Y对特征状态集X进行划分后的条件熵；

的取值范围在0与1之间；

计算每个特征

与

之间的相关性，记为

，用于判断一个特征是否与类别相关；通过序列浮动前向选择算法在大量候选特征

中利用阈值

进行初步筛选，获取与路由规划影响特征集