CN117560696A

CN117560696A - 一种基于经验回放与深度q学习的车载网网络切片选择方法

Info

Publication number: CN117560696A
Application number: CN202311509440.5A
Authority: CN
Inventors: 焦朝俊; 吴国民; 徐秀芳
Original assignee: Yancheng Institute of Technology; Yancheng Institute of Technology Technology Transfer Center Co Ltd
Current assignee: Yancheng Institute of Technology; Yancheng Institute of Technology Technology Transfer Center Co Ltd
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2024-02-13
Also published as: CN117560696A8

Abstract

针对现有技术存在的问题，本发明公开了一种大批量经验回放深度Q学习的网络切片选择方法，针对网络切片选择模型。本发明主要包含四个部分，第一，动作选择策略和经验池的引入，增强了学习的鲁棒性，降低了训练数据之间的相关性；第二，大批量经验回放技术选择了更加重要的经验，提高了经验的利用率和算法的性能；第三，限制损失计算函数的使用，提高了网络训练的效率；第四，基于以上三点提出了一种改进的深度Q学习的训练方法，使得系统决策效率更高，网络效用更好。

Description

一种基于经验回放与深度Q学习的车载网网络切片选择方法

技术领域

本发明属于无线通信领域，通过网络切片技术对通讯网络切片，从而为用户提供针对性的服务。大批量经验回放和深度Q学习相结合，提高了网络的运行效率。大批量经验回放选取更精确的网络状态，深度Q学习选择了更优的网络切片种类。

背景技术

在解决车载网内网络切片资源分配的问题中，现有的深度Q学习算法存在训练数据相关性较大，学习抗干扰能力弱，训练效率低等问题，对算法性能造成了影响。现有的方法搭建神经网络，以提取网络状态的对应特征，根据网络输出的每个动作的奖励值对不同状态下的网络切片进行选择，以达到较高的总体效用值。然而，由于这些方法选择了较为简单的网络结构，并且在网络训练的过程中，使用了最基础的训练方法。这就会导致神经网络在训练过程中会出现训练数据相关性过高和网络训练效率低的问题，不能更准确地实现预测功能。在深度学习和强化学习相结合的过程中，神经网络对奖励Q值进行预测以解决庞大状态空间导致的Q值无法计算的问题。如果不能高效地计算奖励Q值，就不能在网络切片资源分配时做出更优的选择，从而导致网络整体效用的降低。本方法对网络效率适当地提升，对网络整体效用的提升有较大帮助。

本方法应用在车载网的网络资源分配领域中。车载网是一种专门设计用于车辆和移动设备之间通信的网络，主要任务是将信息传输到移动设备，达到信号全面覆盖的目标。由于其具有高度的灵活性和移动性，因此需要采取特定的通信协议和技术来解决这些问题，以确保可靠的通信和数据传输。本方法基于网络切片技术和深度强化学习算法，旨在解决车载网中如何充分提高网络整体性能这一难题。

本发明中采取的大批量经验回放技术筛选了更重要的经验，提高了神经网络训练的效率。

发明内容

一、本发明公布的动作选择策略和经验池的引入，在利用高效策略的同时探索了潜在的高效策略，并且降低了训练数据之间的相关性，加快了神经网络的收敛速度。这一部分主要分为两个步骤：

(1)选择动作时，有设定概率在随机和基于Q值两种策略中选择一项，然后更新状态和所选动作对应的奖励值并组成四元组。算法会取随机参数ε(0<ε<1)，当随机参数ε小于设定概率时，系统随机选择动作a_i；当随机参数大于等于设定概率时，系统会选择神经网络计算的最大Q值进行选择对应动作。在动作选择之后，更新当前状态s→s′，并计算选择动作的奖励值R，将四个参数组成四元组(s,a,s′,R)为一条经验。

(2)将所得四元组存储到经验池当中。根据所选动作更新完状态并得到四元组(s,a,s′,R)后，将这个四元组当做一条经验存储到经验池当中。如此往复，直至经验池的大小达到限定数量。

二、本发明公布的大批量经验回放技术，选择了更加重要的经验，提高了经验的利用率和算法的性能。所提出的经验回放技术主要分为三个步骤：

(1)从经验池中采集经验并更新经验Q值。当若干条经验被存放到经验池中，我们发明的方法会从经验池采集一个大批量的经验集合，记为mB(B为小批量的大小)。然后，根据Q值更新公式更新采集经验的Q值。将下一状态的Q表减去当前Q表得到新的表，取新表中的最大Q值乘以折扣率γ，再加上当前的奖励值，将所得值乘以学习率α作为当前动作的Q值增量更新当前Q值。

(2)根据Q值计算TD误差。更新完Q值之后，更新后的Q值减去未更新的Q值取绝对值可以得到TD误差，计算所有经验的TD误差。

(3)根据TD误差对经验的重要程度进行判断，从采集经验中挑选小批量经验样本。根据经验的TD误差对所有经验的重要程度进行判断，较高重要程度的经验样本会有较高的概率被采集训练。根据采样规律从mB条经验中选择B条经验样本提供给网络训练。

三、本发明公布了限制损失函数的计算，用来提高神经网络的训练效率。计算过程具体包括四个步骤：

(1)使用当前Q值和更新后的Q值计算均方误差。神经网络计算出每个动作对应的Q值之后，根据所选动作更新对应的Q值，计算更新后的Q值与当前Q值的均方误差MS。

(2)计算Q表之间的最大差异。取当前Q值中的最大值与更新后Q值中的最大值相减，得到Q值之间的最大差异QD。由于有N组经验，会有N个最大差异QD。

(3)根据QD计算huber损失。首先取QD的绝对值，对该值是否小于等于1.0进行判断：如果该值小于等于1.0则将QD的平方除以2代替原值；如果该值大于1.0，则将QD绝对值减去0.5代替原值。这样就可以得到N组经验的huber损失组。

(4)使用MS和huber损失计算最终的损失值。将计算得到的huber损失组取平均值后乘以0.1加上MS，对于所得值求平方并取平均值即得到最终的损失。

四、本发明公布了每个时间步中整个算法的运行流程分为如下三个阶段及其详细执行过程。

(1)参数的初始化和处理阶段：将切片请求队列和已分配请求数组成状态，系统将当前的状态作为参考，根据动作选择机制选择相应的动作，动作选择之后会更新状态并计算所选动作的奖励值，将这次选择动作中的状态、动作、更新后的状态、奖励值组成的四元组作为一个经验存储到经验池D当中。

(2)神经网络训练阶段：在经验池存储到设定数量后，根据大批量经验回放算法对经验池进行筛选，得到B条网络训练需要的经验，并使用限制损失函数对神经网络进行梯度下降训练。

(3)网络切片选择阶段：在更新后状态中，使用训练后的神经网络计算M个动作的奖励Q值，并选择最大奖励的动作作为网络切片的选择并保存。重复第二步和第三步的流程，直至分配网络资源达到限制条件。最后，将当前时间步的参数切片请求队列更新至下一个时间步。

本发明中系统的具体运行流程如下：

本发明的另一目的在于提供网络切片选择的计算机程序。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的车载网网络切片选择方法。

本发明的另一目的在于提供一种实现所述的车载网网络切片选择控制系统。

综上所述，本发明的优点及效果为：

本发明是一种改进的网络切片选择算法，涉及了一个使用大批量经验回放的深度Q学习算法。从原方法来看，我们提出了一种动态调整选择策略来对网络切片的选择进行优化，该方法在本发明的优化下，对整体网络资源的效用会有进一步优化。该发明可以应用到在车辆到车辆(V2V)、车辆到基础设施(V2I)通信等车载网络中，改进的算法可用于优化网络切片选择策略，以满足不同车辆和应用程序的需求。

将网络切片技术和深度强化学习相结合用于解决网络资源分配这一领域中，会经常出现一些技术问题。本发明可以解决以下出现的技术问题：

1.数据相关性问题：在对神经网络的训练过程中，通常会使用到大量数据，这就难以避免数据相关性过大的问题，很有可能导致网络训练过拟合、性能下降、泛化能力差等问题。本发明引入了经验池技术，有效地避免了数据相关性过大的问题。

2.网络训练效率问题：在对神经网络的训练过程中，梯度方差等问题经常导致训练效率低下。本发明对网络训练过程基于大批量经验回放的改进,可以明显地减少梯度方差这一问题，提高网络训练的效率。更契合于训练数据的损失计算函数，进一步提高了网络训练的效率。

附图说明

图1为算法应用场景图，在该区域内，网络切片技术将网络资源切分为若干种不同的服务(切片1，切片2，切片3)，系统根据用户需求将不同的网络资源按照算法分配给用户设备。

图2为算法流程运行示意图，本算法会有若干个时间步，每一个时间步都会执行上图流程，得到若干针对不同状态的分配策略。

图3为网络训练流程示意图，本算法在运行过程中会对神经网络不断的更新训练，以建立实时更新的深度Q学习模型，来求解Q值，每一次网络训练都会执行一次上图流程。

图4为仿真实验结果图，本算法在仿真实验中得出的结果图，证明了本算法在应用到场景后，相较于原算法，提升网络训练的效率，更能满足区域内用户的请求，提高整体网络的性能。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的具体实施过程总体上分四个部分，本发明主要包含四个部分，第一，动作选择策略和经验池的引入，增强了学习的鲁棒性，降低了训练数据之间的相关性；第二，大批量经验回放技术选择了更加重要的经验，提高了经验的利用率和算法的性能；第三，限制损失计算函数的使用，提高了网络训练的效率；第四，基于以上三点提出了一种改进的深度Q学习的训练方法，使得系统决策效率更高，网络效用更好。下面结合实例对本发明的每个步骤做进一步的说明。

本发明的动作选择策略和经验池的引入包括：

(1)有10种网络切片种类可供选择，系统设定概率E，接着取随机数ε(0<ε<1)。当ε<E时，我们选取最大Q值对应的网络切片种类；当ε≥E时，系统会随机从十个动作中选择一个。选择了网络切片种类之后，更新当前状态s→s′。接着，根据奖励计算公式计算选择动作的奖励值R，公式为：

其中，λ为自取参数，表示对未来结果的重视。α为百分数，表示取未来奖励值的部分作为当前的奖励值。将这四个参数组成四元组(s,a,s′,R)为一条经验。

(2)根据所选动作更新完状态并得到四元组(s,a,s′,R)后，将这个四元组当做一条经验存储到经验池当中。将经验池设置为大小1000的双端队列，符合先进先出原则。重复(1)的过程，当经验池数量达到1000时，即停止这一工作。

本发明的大批量经验回放技术包括:

(1)当1000条经验被存放到经验池中，我们发明的方法会从经验池随机均匀采集一个大批量的经验集合，记为50*10(50为小批量的大小)。然后，根据Q值更新公式更新采集经验的Q值。其中Q值更新公式如下：

Q(s,a)←Q(s,a)+α(R(s,a)+γmaxQ(s′,a)-Q(s,a))

将下一状态的Q表Q(s′,a)减去当前Q表Q(s,a)得到新的表，取新表中的最大Q值maxQ(s′,a)-Q(s,a)乘以折扣率γ，再加上当前的奖励值R(s,a)，将所得值乘以学习率α作为Q值增量更新Q(s,a)。

(2)更新完Q值之后，使用TD误差公式计算500条经验的TD误差。TD误差公式为：

δ＝|y-Q(s,a)|

更新后的Q值y减去未更新的Q值Q(s,a)取绝对值可以得到TD误差δ。

(3)根据经验的TD误差对所有经验的重要程度进行判断，较高重要程度的经验样本会有较高的概率被采集训练。根据此采样规律从500条经验中选择50条经验样本提供给网络训练。

本发明的限制损失函数的使用包括:

(1)对于使用大批量经验回放技术的50条经验，使用python库中的均方误差计算函数计算更新后的Q值与当前Q值的均方误差MS。

(2)取当前Q值中的最大值与更新后Q值中的最大值相减，得到Q值之间的最大差异QD。由于有50条经验，会有50个最大差异QD。

(3)根据QD计算huber损失。首先取QD的绝对值，对该值是否小于等于1.0进行判断：如果该值小于等于1.0则将QD的平方除以2代替原值；如果该值大于1.0，则将QD绝对值减去0.5代替原值。这样就可以得到50条经验的huber损失组。

(4)将计算得到的huber损失组取平均值后乘以0.1加上MS，对于所得值求平方并取平均值即得到最终的损失。

本发明的改进的深度Q学习的训练方法包括:

(1)初始化10个网络切片种类的请求队列为Queue，1500到1700之间的随机数表示切片请求的数量；已分配请求数为Φ，全为0表示刚开始并没有选择网络切片分配资源。系统将当前的状态s作为参考，其中s为当前切片请求队列Queue和已分配请求Φ的集合，根据动作选择机制选择相应的动作，动作选择之后会更新状态s→s′，即Queue中所选切片种类减去1，Φ所选切片种类加上1，并计算所选动作的奖励值R，将这次选择动作中的状态、动作、更新后的状态、奖励值组成的四元组作为一个经验存储到经验池D当中。

(2)在经验池D存储到1000条之后，根据大批量经验回放算法对经验池进行筛选，得到50条网络训练需要的经验，并使用限制损失函数计算这50条经验的损失值，对神经网络进行梯度下降训练。

(3)在更新后状态中，使用训练后的神经网络计算10个动作的奖励Q值，由动作选择机制选出的动作作为网络切片种类的选择并保存，这个保存的动作集合a就是网络切片选择的优解。重新进行(1)，将得到的经验加入经验池中并退出最先进入的一条经验，满足先进先出规则。继续进行(2)，训练神经网络。最后重新进行(3)，直至分配网络资源达到限制条件，即所选网络切片分配的网络资源大于带宽最大值时，结束这个循环。最后，将当前时间步的参数切片请求队列更新至下一个时间步Queue_t+1＝Q_t。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于经验回放与深度Q学习的车载网网络切片选择方法公布了一种适用于车载网络切片选择的大批量经验回放和深度Q学习的网络切片选择方法，其特征在于，动作选择策略和经验池的引入，增强了学习的鲁棒性，降低了训练数据之间的相关性；大批量经验回放技术选择了更加重要的经验，提高了经验的利用率和算法的性能；限制损失计算函数的使用，提高了网络训练的效率；基于以上三点改进提出了一种改进的深度Q学习的训练方法，该方法的具体过程如下：

2.根据权利要求1所述的一种基于经验回放与深度Q学习的车载网网络切片选择方法，其特征在于，动作选择策略和经验池的引入，在利用高效策略的同时探索了潜在的高效策略，并且降低了训练数据之间的相关性，加快了神经网络的收敛速度。

3.根据权利要求1与权利2所述的一种基于经验回放与深度Q学习的车载网网络切片选择方法，其特征在于，选择动作时，有设定概率在随机和基于Q值两种策略中选择一项，然后更新状态和所选动作对应的奖励值并组成四元组。算法会取随机参数ε(0<ε<1)，当随机参数ε小于设定概率时，系统随机选择动作a_i；当随机参数大于等于设定概率时，系统会选择神经网络计算的最大Q值进行选择对应动作，进而更新当前状态s→s′，并计算选择动作的奖励值R，将四个参数组成四元组(s,a,s′,R)为一条经验，加入到经验池，直至经验池的大小达到限定数量。

4.根据权利要求1所述的一种基于经验回放与深度Q学习的车载网网络切片选择方法，其特征在于，大批量经验回放技术，选择了更加重要的经验，提高了经验的利用率和算法的性能。

5.根据权利要求1与权利要求4所述的一种基于经验回放与深度Q学习的车载网网络切片选择方法，其特征在于，在经验池中采集经验并更新经验Q值时，首先从经验池采集一个大批量的经验集合，记为mB(B为小批量的大小)，然后，根据Q值更新公式更新采集经验的Q值，将下一状态的Q表减去当前Q表得到新的表，取新表中的最大Q值乘以折扣率γ，再加上当前的奖励值，将所得值乘以学习率α作为当前动作的Q值增量更新当前Q值。

6.根据权利要求1与权利要求4所述的一种基于经验回放与深度Q学习的车载网网络切片选择方法，其特征在于，更新后的Q值减去未更新的Q值取绝对值可以得到TD误差，计算所有经验的TD误差，根据TD误差对经验的重要程度进行判断，从采集经验中挑选小批量经验样本参与模型的训练。

7.根据权利要求1所述的一种基于经验回放与深度Q学习的车载网网络切片选择方法，其特征在于，使用均方误差MS和huber损失计算最终的损失值。

8.根据权利要求1与权利要求7所述的一种基于经验回放与深度Q学习的车载网网络切片选择方法，其特征在于，神经网络计算出每个动作对应的Q值之后，根据所选动作更新对应的Q值，计算更新后的Q值与当前Q值的均方误差MS；取当前Q值中的最大值与更新后Q值中的最大值相减，得到Q值之间的最大差异QD，由于有N组经验，会有N个最大差异QD；首先取QD的绝对值，对该值是否小于等于1.0进行判断：如果该值小于等于1.0则将QD的平方除以2代替原值；如果该值大于1.0，则将QD绝对值减去0.5代替原值，这样就可以得到N组经验的huber损失组；将计算得到的huber损失组取平均值后乘以0.1加上MS，对于所得值求平方并取平均值即得到最终的损失。

9.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1所述的一种基于经验回放与深度Q学习的车载网网络切片选择方法。

10.一种实现权利要求1所述的一种基于经验回放与深度Q学习的车载网网络切片选择方法。