CN116939668A

CN116939668A - 车载WiFi-蜂窝异构网络通信资源分配方法、装置

Info

Publication number: CN116939668A
Application number: CN202311191723.XA
Authority: CN
Inventors: 杜军; 陈梓淇; 王劲涛; 侯向往
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-09-15
Filing date: 2023-09-15
Publication date: 2023-10-24
Anticipated expiration: 2043-09-15
Also published as: CN116939668B

Abstract

本申请涉及一种车载WiFi‑蜂窝异构网络通信资源分配方法、装置，应用于车载WiFi‑蜂窝异构网络系统，所述方法包括：获取所述车载WiFi‑蜂窝异构网络系统的状态空间参数及所述状态空间参数的预设约束条件；将所述状态空间参数及所述状态空间参数的预设约束条件输入至目标策略网络中进行处理，得到所述状态空间参数对应的目标动作空间参数；所述目标策略网络为根据任务成功率的约束条件及服务质量的约束条件对近端策略优化PPO算法进行训练得到的；按照所述目标动作空间参数对所述车载WiFi‑蜂窝异构网络系统进行车载WiFi‑蜂窝异构网络通信资源分配。采用本方法能提高车载WiFi‑蜂窝异构网络通信资源分配的准确性。

Description

车载WiFi-蜂窝异构网络通信资源分配方法、装置

技术领域

本申请涉及车联网技术领域，特别是涉及一种车载WiFi-蜂窝异构网络通信资源分配方法、装置。

背景技术

随着智能车辆的飞速发展，产生了对多样化车载应用与服务的巨大需求。为满足这种巨大的需求，有必要建立一个稳定、高速、可靠的网络环境为智能车辆内的车载设备与乘客提供优质的网络服务。

传统技术中，通过对蜂窝无线网络、无线局域网和车载信息技术的集成应用，产生了异构车联网技术，基于异构车联网技术为智能车辆内的车载设备与乘客提供网络服务。

然而，采用传统的异构车联网技术在为智能车辆内的车载设备与乘客提供网络服务的过程中，存在通信资源分配的准确性较低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种车载WiFi-蜂窝异构网络通信资源分配方法、装置，可以提高车载WiFi-蜂窝异构网络通信资源分配的准确性。

第一方面，本申请提供了一种车载WiFi-蜂窝异构网络通信资源分配方法。所述方法包括：

获取所述车载WiFi-蜂窝异构网络系统的状态空间参数及所述状态空间参数的预设约束条件；

将所述状态空间参数及所述状态空间参数的预设约束条件输入至目标策略网络中进行处理，得到所述状态空间参数对应的目标动作空间参数；所述目标策略网络为根据第一约束条件及第二约束条件对近端策略优化PPO算法进行训练得到的；所述第一约束条件为基于任务成功率的约束条件，所述第二约束条件为基于服务质量的约束条件；

按照所述目标动作空间参数对所述车载WiFi-蜂窝异构网络系统进行车载WiFi-蜂窝异构网络通信资源分配。

在其中一个实施例中，所述目标策略网络包括多层感知器及激活函数层；所述将所述状态空间参数及所述状态空间参数的预设约束条件输入至目标策略网络中进行处理，得到所述状态空间参数对应的目标动作空间参数，包括：

将所述状态空间参数及所述状态空间参数的预设约束条件输入至所述多层感知器，通过所述多层感知器对所述状态空间参数进行处理，得到所述状态空间参数对应的动作空间参数；

通过所述激活函数层对所述动作空间参数进行处理，得到所述动作空间参数对应的概率分布结果；

从所述概率分布结果中筛选出任一动作空间参数，将所述任一动作空间参数作为所述状态空间参数对应的目标动作空间参数。

在其中一个实施例中，所述近端策略优化PPO算法包括初始策略网络及初始价值网络；所述方法还包括：

根据所述车载WiFi-蜂窝异构网络系统构建智能体模型；所述智能体模型包括WiFi接入点设备、基站与网络设备；

获取所述智能体模型的初始状态空间参数及所述初始状态空间参数的预设约束条件；

根据所述初始状态空间参数、所述初始状态空间参数的预设约束条件、所述第一约束条件及所述第二约束条件，对所述初始价值网络及所述初始策略网络进行训练，直到所述智能体模型中WiFi接入点设备的能量耗尽为止，得到中间价值网络及中间策略网络；

将所述中间价值网络作为新的初始价值网络，将所述中间策略网络作为新的初始策略网络，根据所述初始状态空间参数、所述初始状态空间参数的预设约束条件、所述第一约束条件及所述第二约束条件，对所述新的初始价值网络及所述新的初始策略网络进行训练，直到达到预设训练次数，将所述预设训练次数对应的中间价值网络及中间策略网络作为目标价值网络及目标策略网络。

在其中一个实施例中，所述根据所述初始状态空间参数、所述初始状态空间参数的预设约束条件、所述第一约束条件及所述第二约束条件，对所述初始价值网络及所述初始策略网络进行训练，直到所述智能体模型中WiFi接入点设备的能量耗尽为止，得到中间价值网络及中间策略网络，包括：

将所述初始状态空间参数及所述初始状态空间参数的预设约束条件输入至所述初始策略网络中进行处理，得到所述初始状态空间参数对应的最优动作空间参数；所述最优动作空间参数满足所述第一约束条件；

通过所述智能体模型执行所述最优动作空间参数，得到即时奖励及所述初始状态空间参数的下一状态空间参数；所述即时奖励满足所述第二约束条件；

将所述下一状态空间参数作为新的初始状态空间参数，将所述新的初始状态空间参数及所述新的初始状态空间参数的预设约束条件输入至所述初始策略网络中进行迭代计算，直到所述智能体模型中WiFi接入点设备的能量耗尽为止，得到每一轮迭代过程所生成的新的即时奖励及所述新的初始状态空间参数的下一状态空间参数；

基于每一轮迭代过程所生成的新的即时奖励及所述新的初始状态空间参数的下一状态空间参数，对所述初始价值网络的初始参数及所述初始策略网络的初始参数进行更新，得到中间价值网络及中间策略网络。

在其中一个实施例中，所述通过所述智能体模型执行所述最优动作空间参数，得到即时奖励及所述初始状态空间参数的下一状态空间参数，包括：

通过所述智能体模型执行所述最优动作空间参数，得到所述最优动作空间参数的执行结果；所述执行结果包括是否执行成功的结果；

通过所述初始价值网络中的奖励函数计算所述执行结果的即时奖励值，基于所述即时奖励值及所述初始状态空间参数，得到所述初始状态空间参数的下一状态空间参数。

在其中一个实施例中，所述基于每一轮迭代过程所生成的新的即时奖励及所述新的初始状态空间参数的下一状态空间参数，对所述初始价值网络的初始参数及所述初始策略网络的初始参数进行更新，得到中间价值网络及中间策略网络，包括：

从所述每一轮迭代过程中所生成的新的即时奖励及所述新的初始状态空间参数的下一状态空间参数中，获取所述智能体模型中WiFi接入点设备的能量耗尽前预设时间段内的转移经验值；所述转移经验值包括预设时间段内各时刻的状态空间参数、最优动作空间参数、即时奖励及下一状态空间参数；

根据所述预设时间段内的转移经验值，对所述初始价值网络的初始参数及所述初始策略网络的初始参数进行更新，得到中间价值网络及中间策略网络。

在其中一个实施例中，所述根据所述预设时间段内的转移经验值，对所述初始价值网络的初始参数及所述初始策略网络的初始参数进行更新，得到中间价值网络及中间策略网络，包括：

根据所述预设时间段内的转移经验值及第一预设损失函数对所述初始价值网络的初始参数进行更新，得到所述初始价值网络的第一中间参数；

根据所述预设时间段内的转移经验值、优势函数及裁剪替代目标函数，得到所述初始策略网络的第二中间参数；

根据所述转移经验值及第二预设损失函数，对所述第一中间参数及所述第二中间参数进行更新，得到第一目标参数及第二目标参数；

基于所述第一目标参数及所述初始价值网络得到中间价值网络，基于所述第二目标参数及所述初始策略网络得到中间策略网络。

在其中一个实施例中，所述根据所述预设时间段内的转移经验值、优势函数及裁剪替代目标函数，得到所述初始策略网络的第二中间参数，包括：

根据所述预设时间段内的转移经验值及优势函数，得到所述转移经验值中各时刻的状态空间参数对应的预测转移经验值；

根据所述预测转移经验值及裁剪替代目标函数，对所述初始策略网络的初始参数进行更新，得到所述初始策略网络的第二中间参数。

在其中一个实施例中，所述根据所述转移经验值及第二预设损失函数，对所述第一中间参数及所述第二中间参数进行更新，得到第一目标参数及第二目标参数，包括：

对所述转移经验值进行第一次采样，得到所述第一次采样对应的初始转移经验值；

根据所述初始转移经验值及第二预设损失函数，对所述第一中间参数及所述第二中间参数进行更新，得到新的第一中间参数及新的第二中间参数；

对所述转移经验值进行下一次采样，得到所述下一次采样对应的转移经验值；将所述下一次采样对应的转移经验值作为下一次迭代的初始转移经验值，并将所述新的第一中间参数及所述新的第二中间参数作为下一次迭代的第一中间参数及第二中间参数进行迭代计算，直到达到预设迭代次数为止，将所述预设迭代次数对应的新的第一中间参数及新的第二中间参数，作为所述第一目标参数及所述第二目标参数。

第二方面，本申请还提供了一种车载WiFi-蜂窝异构网络通信资源分配装置。所述装置包括：

数据获取模块，用于获取车载WiFi-蜂窝异构网络系统的状态空间参数及所述状态空间参数的预设约束条件；

目标动作空间参数获取模块，用于将所述状态空间参数及所述状态空间参数的预设约束条件输入至目标策略网络中进行处理，得到目标动作空间参数；所述目标策略网络为根据第一约束条件及第二约束条件对近端策略优化PPO算法进行训练得到的；所述第一约束条件为基于任务成功率的约束条件，所述第二约束条件为基于服务质量的约束条件；

通信资源分配模块，用于按照所述目标动作空间参数对所述车载WiFi-蜂窝异构网络系统进行车载WiFi-蜂窝异构网络通信资源分配。

上述车载WiFi-蜂窝异构网络通信资源分配方法、装置，应用于计算机设备，所述计算机设备与车载WiFi-蜂窝异构网络系统之间通信连接。目标策略网络为根据第一约束条件及第二约束条件对近端策略优化PPO算法进行训练得到的，而第一约束条件是基于任务成功率的约束条件，第二约束条件是基于服务质量的约束条件。即目标策略网络为从任务成功率、服务质量两个方面的约束条件，对近端策略优化PPO算法进行训练得到的。因此，将所述状态空间参数及所述状态空间参数的预设约束条件输入至目标策略网络中进行处理，得到所述状态空间参数对应的目标动作空间参数，通过该目标策略网络的处理就可以从任务成功率和服务质量两方面来提高目标动作空间参数的准确性。那么，再按照该目标策略网络处理得到的目标动作空间参数对车载WiFi-蜂窝异构网络系统进行车载WiFi-蜂窝异构网络通信资源分配，就能提高车载WiFi-蜂窝异构网络通信资源分配的准确性。

附图说明

图1为一个实施例中车载WiFi-蜂窝异构网络通信资源分配方法的应用环境图；

图2为一个实施例中车载WiFi-蜂窝异构网络通信资源分配方法的流程示意图；

图3为一个实施例中获取目标动作空间参数的流程的流程示意图；

图4为一个实施例中近端策略优化PPO算法的的流程示意图；

图5为一个实施例中获取中间价值网络及中间策略网络的流程示意图；

图6为一个实施例中通过智能体模型执行最优动作空间参数，得到即时奖励及初始状态空间参数的下一状态空间参数的流程示意图；

图7为一个实施例中基于每一轮迭代过程所生成的新的即时奖励及新的初始状态空间参数的下一状态空间参数，对初始价值网络的初始参数及初始策略网络的初始参数进行更新，得到中间价值网络及中间策略网络的流程示意图；

图8为一个实施例中根据预设时间段内的转移经验值，对初始价值网络的初始参数及初始策略网络的初始参数进行更新，得到中间价值网络及中间策略网络的流程示意图；

图9为一个实施例中根据预设时间段内的转移经验值、优势函数及裁剪替代目标函数，得到初始策略网络的第二中间参数的流程示意图；

图10为一个实施例中根据转移经验值及第二预设损失函数，对第一中间参数及第二中间参数进行更新，得到第一目标参数及第二目标参数的流程示意图；

图11为一个示例性的实施例中一种车载WiFi-蜂窝异构网络通信资源分配方法的流程示意图；

图12为一个实施例中一种车载WiFi-蜂窝异构网络通信资源分配装置的示意图；

图13为一个实施例中服务器的内部结构图；

图14为一个实施例中终端的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的车载WiFi-蜂窝异构网络通信资源分配方法，可以应用于如图1所示的应用环境中。其中，该应用环境包括计算机设备120及车载WiFi-蜂窝异构网络系统140，计算机设备120与车载WiFi-蜂窝异构网络系统140之间通信连接。车载WiFi-蜂窝异构网络系统140包括WiFi接入点设备142、网络设备144及基站146。其中，WiFi接入点设备142、网络设备144设置在智能汽车的内部，基站146设置在智能汽车的外部。网络设备144与WiFi接入点设备142或基站146通信连接。计算机设备120获取车载WiFi-蜂窝异构网络系统的状态空间参数及状态空间参数的预设约束条件；将状态空间参数及状态空间参数的预设约束条件输入至目标策略网络中进行处理，得到状态空间参数对应的目标动作空间参数；目标策略网络为根据第一约束条件及第二约束条件对近端策略优化PPO算法进行训练得到的；第一约束条件为基于任务成功率的约束条件，第二约束条件为基于服务质量的约束条件；按照目标动作空间参数对车载WiFi-蜂窝异构网络系统进行车载WiFi-蜂窝异构网络通信资源分配。其中，计算机设备120可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。计算机设备120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种车载WiFi-蜂窝异构网络通信资源分配方法，以该方法应用于图1中的计算机设备120为例进行说明，包括以下步骤：

步骤202，获取车载WiFi-蜂窝异构网络系统的状态空间参数及状态空间参数的预设约束条件。

其中，车载WiFi-蜂窝异构网络系统包括WiFi接入点设备、基站及网络设备，车载异构网络包括WiFi网络与蜂窝网络。状态空间参数表征了在异构网络中，网络设备与WiFi接入点设备、基站的通信状态，状态空间参数的预设约束条件表征了在异构网络中，网络设备与WiFi接入点设备、基站的预设通信状态。

可选地，车载WiFi-蜂窝异构网络系统包括WiFi接入点设备、M个基站及K个网络设备，M个基站的集合表示为M={1,2…,M}，K个网络设备的集合表示为K={1,2…,K}，进一步，根据网络设备的工作约束，将网络设备分为单模网络设备和双模网络设备，U个单模网络设备的集合表示为U={1,2…,U}，V个双模网络设备的集合表示为V={1,2…,V}。其中，单模网络设备只能与WiFi接入点设备连接，双模网络设备既可以与WiFi接入点设备连接，也可以与基站连接。根据WiFi接入点设备、基站及网络设备的连接关系，与WiFi接入点设备连接的网络设备为WiFi设备，与基站连接的网络设备为蜂窝设备，I个WiFi设备的集合表示为I={1,2…,I}，J个蜂窝设备的集合表示为J={1,2…,J}。

此外，设置网络设备的关联指标x _k(t)，当x _k(t)=1时表示网络设备k与WiFi接入点设备连接，当x _k(t)=0时表示网络设备k与基站连接。在此基础上，对车载WiFi-蜂窝异构网络系统作出以下假设：将WiFi接入点设备与基站组合成一个智能体，该智能体用于对WiFi网络与蜂窝网络组成的异构网络的网络资源进行统一分配；单模网络设备只能连接WiFi接入点设备，双模网络设备只能与WiFi接入点设备或者基站的一种进行连接，不能与WiFi接入点设备和基站二者同时建立连接；WiFi接入点设备和基站分别选择5G频段中的不同信道进行通信，因此WiFi设备与蜂窝设备之间不存在同信道干扰的情况；假设M个基站为同一个运营商的基站，那么这M个基站通信时共用同一个信道，将该信道表示为目标信道。

基站使用正交频分多址技术向网络设备提供网络服务。将蜂窝网络的信道均分为N个正交子信道，每个正交子信道带宽为B _sub，N个正交子信道的集合可以表示为N={1,2…,N}。由于M个基站为同一个运营商的基站，那么蜂窝设备与M个基站中的一个基站进行连接时，只能选择目标信道下的一个正交子信道建立连接。若蜂窝设备v与基站m在正交子信道n上建立连接，则蜂窝设备v与基站m传输信息的信噪比可以表示为公式（1）：

(1)

其中表示基站m交子信道n分配的发射功率，N ₀表示噪声谱密度，B _sub为正交子信道n的带宽。同时定义为蜂窝设备v与基站m的正交子信道n建立连接时的信道增益，/>是蜂窝设备v接收基站m发送信息的信噪比。这里的信道增益包括：传输速率，信噪比，信道增益，噪声功率，信道增益描述的是信道本身的衰减及衰落特性。

此外，用ρ _v,n来表示目标信道的分配关系，其中ρ _v,n=1表示蜂窝设备v与正交子信道n建立连接，而ρ _v,n=0表示蜂窝设备v与正交子信道n未建立连接。

根据香农公式，蜂窝设备v与基站m建立连接的正交子信道n上的瞬时可达数据传输速率可以用公式（2）表示：

(2)

公式（2）中，B _sub为正交子信道n的带宽，是蜂窝设备v接收基站m发送信息的信噪比，/>是蜂窝设备v与基站m建立连接的正交子信道n上的瞬时可达数据传输速率。

WiFi网络采用了多用户多输入多输出的技术，该技术使多个用户同时使用同一频段进行通信。同时，假设WiFi网络采用基于QoS（Quality of Service，服务质量）的增强型分布式信道访问技术进行带宽分配。QoS机制可以为不同类型的网络流量分配不同的带宽，以保证网络中的关键应用（如视频流和语音通话）能够获得足够的带宽。

在此基础上，假设I个WiFi设备共用一个带宽为B _w的WiFi信道，并由WiFi接入点设备根据QoS机制进行带宽分配。当WiFi设备i与WiFi接入点设备建立连接，WiFi设备i与WiFi接入点设备传输信息的信噪比可以表示为公式（3）：

(3)

公式（3）中，表示设备i的传输功率，/>表示WiFi设备i与WiFi接入点设备之间的信道增益，N ₀表示噪声谱密度，B _w是WiFi信道的带宽，/>是WiFi设备i与WiFi接入点设备传输信息的信噪比。这里的信道增益包括：传输速率，信噪比，信道增益，噪声功率，信道增益描述的是信道本身的衰减及衰落特性。

根据香农公式，WiFi设备i在WiFi信道完全占用的情况下的传输速率可表示为公式（4）：

(4)

B _w是WiFi信道的带宽，是WiFi设备i与WiFi接入点设备传输信息的信噪比，/>是WiFi设备i在WiFi信道完全占用的情况下的传输速率。

基于QoS机制，进一步得到WiFi设备i与WiFi接入点设备建立连接的瞬时可达的数据传输速率，表示为公式（5）：

(5)

公式（5）中，q _i表示WiFi设备i在WiFi信道的带宽分配权重，取值范围为(0,1]。权重q _i越高，表示WiFi设备i占用的WiFi信道的带宽资源就越多，具有更高的优先级。如果所有WiFi设备的权重相等时，则表示此时所有WiFi设备享有相同的WiFi信道的带宽资源；是WiFi设备i在WiFi信道完全占用的情况下的传输速率，/>是WiFi设备i与WiFi接入点设备建立连接的瞬时可达的数据传输速率。

在本申请的车载WiFi-蜂窝异构网络系统中，将网络设备与WiFi接入点设备或基站通信连接后所执行的传输数据的业务分为时敏业务和非时敏业务。时敏业务是指对时延敏感，必须在严格时间限制内完成的业务，通常需要在特定的时间内完成，并且需要保证数据传输的实时性和可靠性；非时敏业务是指对时延不敏感，时间限制较为宽松的业务，对车载异构网络的时延、丢包率等参数要求较低。在这里，定义二元变量，为时敏业务和非时敏业务对应的任务指示器，其可表示为公式（6）：

(6)

对于时敏业务，采用最小数据传输速率要求来刻画时敏业务是否执行成功，其中R _k,min(t)定义表示网络设备k在时隙t中的最小数据传输速率。此外，定义二元变量来表示网络设备k在时隙t内是否执行时敏业务成功，/>时表示网络设备k在时隙t内时敏业务执行成功，/>则表示网络设备k在时隙t内时敏业务执行失败。当在此基础上可以得到时敏业务的执行成功判决条件，其可表示为公式（7）：

(7)

公式（7）中，R _k(t)是网络设备k在时隙t内的数据传输速率，R _k,min(t)表示网络设备k在时隙t中的最小数据传输速率，当R _k(t)小于R _k,min(t)时，表示时敏业务执行失败，当R _k(t)大于或等于R _k,min(t)时，表示时敏业务执行成功。

对于非时敏业务，则采用最大传输时延来刻画非时敏业务是否执行成功。定义τ _k,max(t)来表示网络设备k的最大传输延迟，用τ _k(t)表示网络设备k所接收的数据包的传输时间，如公式（8）所示：

（8）

公式（8）中，τ _k(t)表示网络设备k所接收的数据包的传输时间，H _k(t)表示网络设备k所接收的数据包大小，R _k(t)是网络设备k在时隙t内的数据传输速率。

同时定义二元变量来表示网络设备k在时隙t内是否执行非时敏业务成功，时表示非时敏业务执行成功，/>则表示非时敏业务执行失败。当在此基础上可以得到非时敏业务的服务成功判决条件，其可表示为公式（9）：

（9）

公式（9）中，τ _k(t)表示网络设备k所接收的数据包的传输时间，τ _k,max(t)来表示网络设备k的最大传输延迟，当τ _k(t)大于τ _k,max(t)时，表示非时敏业务执行失败，当τ _k(t)小于或等于τ _k,max(t)时，表示非时敏业务执行成功。

同时，定义n _task(t)为时隙t内K个网络设备的总业务数量，定义P _su(t)为时隙t内整个车载WiFi-蜂窝异构网络系统中网络设备与WiFi接入点设备或基站通信连接后执行传输数据的业务的成功率，表示为公式（10）：

(10)

公式（10）中，β _k为时敏业务和非时敏业务对应的任务指示器，来表示网络设备k在时隙t内是否执行时敏业务成功，/>时表示网络设备k在时隙t内时敏业务执行成功，/>则表示网络设备k在时隙t内时敏业务执行失败，/>来表示网络设备k在时隙t内是否执行非时敏业务成功，/>时表示非时敏业务执行成功，则表示非时敏业务执行失败。

此外，将WiFi接入点设备的能耗分为静态能耗和动态能耗，静态能耗属于WiFi接入点设备的基线能耗，该基线能耗主要用于维护WiFi接入点设备的基本操作；动态能耗是WiFi接入点设备传输无线信号所需要的能耗。当网络设备i与WiFi接入点设备在时隙t内建立连接时，WiFi接入点设备在时隙t内的总能耗可以表示为公式（11）：

(11)

公式（11）中，表示WiFi接入点设备的静态能耗，η是一个传输功率的缩放因子，是WiFi接入点设备的动态能耗，/>是WiFi接入点设备在时隙t内的总能耗。

定义t _step为一个时间步长的持续时间，并将定义为一个迭代中WiFi接入点设备的总能耗。基于这些定义，可计算出WiFi接入点设备在时隙t剩余的能量，可以表示为公式（12）：

(12)

公式（12）中，t _step为一个时间步长的持续时间，为一个迭代中WiFi接入点设备的总能量，/>是WiFi接入点设备在时隙t内的总能耗，/>为WiFi接入点设备在时隙t剩余的能量。

公式（1）-（12）表征了车载WiFi-蜂窝异构网络系统中，WiFi接入点设备、基站及网络设备之间的通信状态，基于该通信状态，得到车载WiFi-蜂窝异构网络系统的状态空间参数的预设约束条件，如公式（13）所示：

(13)

公式（13）中，C1和C2共同决定了车载WiFi-蜂窝异构网络系统中WiFi设备和蜂窝设备的数量，C3表征与基站相连接的蜂窝设备j是否可以分配到正交子信道n，C4表征了一个正交子信道n只能与一个蜂窝设备j建立连接，C5表示WiFi接入点设备对WiFi设备i的单一射频功率不能超过WiFi接入点设备的最大单一射频功率，C6表示WiFi接入点设备对I个WiFi设备的发射功率之和不应超过WiFi接入点设备的最大总发射功率。

根据马尔可夫决策过程，将车载WiFi-蜂窝异构网络系统的状态空间参数定义为公式（14）：

(14)

公式（14）中，表示双模网络设备与基站之间的N条子信道的信道增益，/>表示时隙t内每个网络设备和WiFi接入点设备之间的信道增益，用以刻画时隙t内每个网络设备执行的传输数据的业务类型及WiFi网络下的QoS要求；/>为WiFi接入点设备在时隙t剩余的能量，s _t为时隙t内车载WiFi-蜂窝异构网络系统的状态空间参数。

步骤204，将状态空间参数及状态空间参数的预设约束条件输入至目标策略网络中进行处理，得到状态空间参数对应的目标动作空间参数；目标策略网络为根据第一约束条件及第二约束条件对近端策略优化PPO算法进行训练得到的；第一约束条件为基于任务成功率的约束条件，第二约束条件为基于服务质量的约束条件。

其中，近端策略优化PPO算法是一种神经网络算法，它包括策略网络及价值网络。任务成功率表征了在整个车载WiFi-蜂窝异构网络系统中，网络设备与WiFi接入点设备或基站通信连接后执行传输数据的业务的成功率。服务质量示在WiFi信道带宽资源有限的条件下，对WiFi信道上各种传输数据的业务的带宽进行合理分配，以保证WiFi信道上各种传输数据的业务的网络服务质量。

可选地，第一约束条件是车载WiFi-蜂窝异构网络系统的任务成功率最大，第二约束条件是车载WiFi-蜂窝异构网络系统的网络服务质量最优。首先，将第一约束条件及第二约束条件输入至近端策略优化PPO算法中，训练后得到目标策略网络；再将状态空间参数及状态空间参数的预设约束条件输入至目标策略网络中，经过目标策略网络的计算，得到目标动作空间参数。

步骤206，按照目标动作空间参数对车载WiFi-蜂窝异构网络系统进行车载WiFi-蜂窝异构网络通信资源分配。

其中，车载WiFi-蜂窝异构网络系统包括WiFi接入点设备、基站及网络设备，车载异构网络包括WiFi网络与蜂窝网络。

可选地，将WiFi接入点设备与基站组合成一个智能体，该智能体依据目标动作空间参数执行最优的动作，该最优的动作即为对WiFi网络与蜂窝网络组成的异构网络的网络资源进行最优的分配。

上述车载WiFi-蜂窝异构网络通信资源分配方法中，通过获取车载WiFi-蜂窝异构网络系统的状态空间参数及状态空间参数的预设约束条件；将状态空间参数及状态空间参数的预设约束条件输入至目标策略网络中进行处理，得到状态空间参数对应的目标动作空间参数；目标策略网络为根据第一约束条件及第二约束条件对近端策略优化PPO算法进行训练得到的；第一约束条件为基于任务成功率的约束条件，第二约束条件为基于服务质量的约束条件；按照目标动作空间参数对车载WiFi-蜂窝异构网络系统进行车载WiFi-蜂窝异构网络通信资源分配。其中，目标策略网络为根据第一约束条件及第二约束条件对近端策略优化PPO算法进行训练得到的，而第一约束条件是基于任务成功率的约束条件，第二约束条件是基于服务质量的约束条件。即目标策略网络为从任务成功率、服务质量两个方面的约束条件，对近端策略优化PPO算法进行训练得到的。因此，将状态空间参数及状态空间参数的预设约束条件输入至目标策略网络中进行处理，得到状态空间参数对应的目标动作空间参数，通过该目标策略网络的处理就可以从任务成功率和服务质量两方面来提高目标动作空间参数的准确性。那么，再按照该目标策略网络处理得到的目标动作空间参数对车载WiFi-蜂窝异构网络系统进行车载WiFi-蜂窝异构网络通信资源分配，就能提高车载WiFi-蜂窝异构网络通信资源分配的准确性。

上一个实施例中，涉及了获取目标动作空间参数、按照目标动作空间对车载WiFi-蜂窝异构网络系统进行车载WiFi-蜂窝异构网络通信资源分配的过程，本实施例中，进一步描述，目标策略网络包括多层感知器及激活函数层；将状态空间参数及状态空间参数的预设约束条件输入至目标策略网络中进行处理，得到目标动作空间参数，获取目标动作空间参数的流程如图3所示，包括：

步骤302，将状态空间参数及状态空间参数的预设约束条件输入至多层感知器，通过多层感知器对状态空间参数进行处理，得到状态空间参数对应的动作空间参数。

其中，多层感知器是目标策略网络下的一种人工神经网络模型，可以将输入的多个数据集映射到单一输出的数据集上。

可选地，将状态空间参数输入到公式（15）中，计算得到状态空间参数对应的动作空间参数。

(15)

公式(15)中，s _t为状态空间参数，MLP _θ为目标策略网络下的多层感知器，v(a _t)为状态空间参数对应的动作空间参数，A _t为动作空间参数的集合。

步骤304，通过激活函数层对动作空间参数进行处理，得到动作空间参数对应的概率分布结果。

其中，激活函数层包括激活函数，激活函数用于对输入的数据进行非线性变换。

可选地，将步骤302计算得到的状态空间参数对应的动作空间参v(a _t)输入至tanh激活函数中，经过tanh激活函数的计算，得到动作空间参数v(a _t)对应的概率分布Y(A _t)的均值与方差。

步骤306，从概率分布结果中筛选出任一动作空间参数，将该任一动作空间参数作为状态空间参数对应的目标动作空间参数。

其中，目标动作空间参数表示智能体有最大概率去执行的动作。

可选地，对步骤304中的概率分布Y(A _t)进行采样，得到目标动作空间参数a _t，a _t可表示为公式（16）：

(16)

公式（16）中，x(t)={x _k(t)}为用户关联变量，ρ(t)={ρ _j,n(t)}为正交子信道的分配变量，q(t)={q _i(t)}为WiFi信道带宽的分配权重，为功率分配。

本实施例中，将状态空间参数及状态空间参数的预设约束条件输入至多层感知器，通过多层感知器对状态空间参数进行处理，得到状态空间参数对应的动作空间参数；通过激活函数层对动作空间参数进行处理，得到动作空间参数对应的概率分布结果；从概率分布结果中筛选出任一动作空间参数，将该任一动作空间参数作为状态空间参数对应的目标动作空间参数。其中，多层感知器及激活函数层在处理非线性分类的问题时表现较好，将状态空间参数及状态空间参数的预设约束条件输入至多层感知器及激活函数层的处理后，得到的概率分布结果能较好地反映动作空间参数的分布，基于这个概率分布筛选出的目标动作空间参数也就较为准确，进而，智能体执行较为准确的目标动作空间参数时就能提高车载WiFi-蜂窝异构网络通信资源分配的准确性。

上一实施例中，涉及了获取目标动作空间参数的过程。本实施例中，进一步描述，近端策略优化PPO算法的流程如图4所示，近端策略优化PPO算法包括初始策略网络及初始价值网络；提供了一种车载WiFi-蜂窝异构网络通信资源分配方法，还包括：

步骤402，根据车载WiFi-蜂窝异构网络系统构建智能体模型，智能体模型包括WiFi接入点设备、基站与网络设备。

可选地，将WiFi接入点设备、基站与网络设备进行组合，得到智能体模型，该智能体模型用于对WiFi网络与蜂窝网络组成的异构网络的网络资源进行统一分配。

步骤404，获取智能体模型的初始状态空间参数及初始状态空间参数的预设约束条件。

其中，初始状态空间参数表征了在异构网络中，网络设备与WiFi接入点设备、基站的初始通信状态，初始状态空间参数的预设约束条件表征了在异构网络中，网络设备与WiFi接入点设备、基站的预设初始通信状态。

可选地，基于步骤202中公式（1）-（13），得到智能体模型的初始状态空间参数及初始状态空间参数的预设约束条件，初始状态空间参数的预设约束条件如公式（13）所示。初始状态空间参数s _t中，/>表示双模网络设备与基站之间的N条子信道的信道增益，/>表示时隙t内每个网络设备和WiFi接入点设备之间的信道增益，/>用以刻画时隙t内每个网络设备执行的传输数据的业务类型及WiFi网络下的QoS要求；/>为WiFi接入点设备在时隙t剩余的能量，s _t为时隙t内车载WiFi-蜂窝异构网络系统的状态空间参数。

步骤406，根据初始状态空间参数、初始状态空间参数的预设约束条件、第一约束条件及第二约束条件，对初始价值网络及初始策略网络进行训练，直到智能体模型中WiFi接入点设备的能量耗尽为止，得到中间价值网络及中间策略网络。

其中，第一约束条件是车载WiFi-蜂窝异构网络系统的任务成功率最大，即公式（10）中的P _su(t) 最大，第二约束条件是车载WiFi-蜂窝异构网络系统的网络服务质量最优，将第一约束条件及第二约束条件表示为如下公式（17）：

(17)

公式（17）中，P _su(t)为时隙t内整个车载WiFi-蜂窝异构网络系统中网络设备与WiFi接入点设备或基站通信连接后执行传输数据的业务的成功率，ω ₁为加权参数，用于权衡最大化任务成功率和最小化智能体模型能量损耗两个优化目标之间的比重，为WiFi接入点设备的总发射功率，/>为WiFi接入点设备对K个网络设备的总传输功率，x(t)={x _k(t)}为用户关联变量，ρ(t)={ρ _j,n(t)}为正交子信道的分配变量，q(t)={q _i(t)}为WiFi信道带宽的分配权重，/>为功率分配。

可选地，将初始状态空间参数初始状态空间参数s _t及初始状态空间参数的预设约束条件输入至初始策略网络，得到初始状态空间参数初始状态空间参数s _t对应的最优动作a _t，最优动作a _t满足第一约束条件，即智能体模型执行最优动作a _t时会使得车载WiFi-蜂窝异构网络系统的任务成功率最大；智能体模型执行最优动作a _t，得到即时奖励r _t及初始状态空间参数的下一状态空间参数s _t+1，其中即时奖励r _t包括三个部分：时敏业务奖励、非时敏业务奖励、WiFi接入点设备工作时长奖励。

时敏业务奖励的计算公式如公式（18）所示：

(18)

公式（18）中，R _k(t)是网络设备k在时隙t内的数据传输速率，R _k,min(t)表示网络设备k在时隙t中的最小数据传输速率，当R _k(t)小于R _k,min(t)时，表示时敏业务执行失败，给予时敏业务奖励r _DS(t)的值为-1；当R _k(t)大于或等于R _k,min(t)时，表示时敏业务执行成功，给予时敏业务奖励r _DS(t)的值为。

非时敏业务奖励的计算公式如公式（19）所示：

(19)

公式（19）中，τ _k(t)表示网络设备k所接收的数据包的传输时间，τ _k,max(t)来表示网络设备k的最大传输延迟。当τ _k(t)大于τ _k,max(t)时，表示非时敏业务执行失败，给予非时敏业务奖励r _NDS(t)的值为-1；当τ _k(t)小于或等于τ _k,max(t)时，表示非时敏业务执行成功，给予非时敏业务奖励r _NDS(t)的值为1。

WiFi接入点设备工作时长奖励的计算公式如公式（20）所示：

(20)

公式（20）中，λ为WiFi接入点设备工作时长奖励r _d(t)的正权重参数，K表示K个网络设备，为WiFi接入点设备的总发射功率，/>为WiFi接入点设备对K个网络设备的总传输功率。

即时奖励r _t满足第二约束条件，即采用即时奖励r _t对智能体模型执行最优动作a _t进行奖励时，会使得车载WiFi-蜂窝异构网络系统的网络服务质量最优。

再将初始状态空间参数的下一状态空间参数s _t+1及初始状态空间参数的预设约束条件输入至初始策略网络，得到s _t+1对应的最优动作a _t+1，最优动作a _t+1满足第一约束条件；智能体模型执行最优动作a _t+1，得到即时奖励r _t+1及初始状态空间参数的下一状态空间参数s _t+2，重复执行上述迭代过程，直到智能体模型中WiFi接入点设备的能量耗尽为止，得到每一轮迭代过程所生成的新的即时奖励及新的初始状态空间参数的下一状态空间参数。智能体模型中WiFi接入点设备的能量指的是WiFi接入点设备的能量，当WiFi接入点设备剩余的能量为0时，表示智能体模型中WiFi接入点设备的能量耗尽。WiFi接入点设备剩余的能量即为初始状态空间参数s _t中的。

基于每一轮迭代过程所生成新的即时奖励及新的初始状态空间参数的下一状态空间参数，对初始价值网络的初始参数及初始策略网络的初始参数进行更新，得到中间价值网络及中间策略网络。

步骤408，将中间价值网络作为新的初始价值网络，将中间策略网络作为新的初始策略网络，根据初始状态空间参数、初始状态空间参数的预设约束条件、第一约束条件及第二约束条件，对新的初始价值网络及新的初始策略网络进行训练，直到达到预设训练次数，将预设训练次数对应的中间价值网络及中间策略网络作为目标价值网络及目标策略网络。

其中，第一约束条件是车载WiFi-蜂窝异构网络系统的任务成功率最大，第二约束条件是车载WiFi-蜂窝异构网络系统的网络服务质量最优。

可选地，将中间价值网络作为新的初始价值网络，将中间策略网络作为新的初始策略网络，将初始状态空间参数s _t、初始状态空间参数的预设约束条件输入至新的初始策略网络，得到初始状态空间参数对应的最优动作空间参数a _t；最优动作空间参数满足第一约束条件；通过智能体模型执行最优动作空间参数a _t，得到即时奖励r _t及初始状态空间参数的下一状态空间参数s _t+1；即时奖励r _t满足第二约束条件；再将初始状态空间参数的下一状态空间参数s _t+1及初始状态空间参数的预设约束条件输入至新的初始策略网络，得到s _t+1对应的最优动作a _t+1，最优动作a _t+1满足第一约束条件；智能体模型执行最优动作a _t+1，得到即时奖励r _t+1及初始状态空间参数的下一状态空间参数s _t+2，重复执行上述迭代过程，直到智能体模型中WiFi接入点设备的能量耗尽为止，基于每一轮迭代过程所生成新的即时奖励及新的初始状态空间参数的下一状态空间参数，对新的初始价值网络的初始参数θ及新的初始策略网络的初始参数φ进行更新，将新的初始价值网络的初始参数θ更新为θ ₁，新的初始策略网络的初始参数φ更新为φ ₁，得到θ ₁对应的新的中间策略网络及φ ₁对应的新的中间价值网络，再将θ ₁对应的新的中间策略网络作为新的初始策略网络，将φ ₁对应的新的中间价值网络作为新的初始价值网络，重复上述迭代过程，直到新的初始价值网络的初始参数θ及新的初始策略网络的初始参数φ更新的次数达到预设训练次数为止，将预设训练次数对应的中间价值网络及中间策略网络作为目标价值网络及目标策略网络。

本实施例中，根据车载WiFi-蜂窝异构网络系统构建智能体模型；获取智能体模型的初始状态空间参数及初始状态空间参数的预设约束条件；根据初始状态空间参数、初始状态空间参数的预设约束条件、第一约束条件及第二约束条件，对初始价值网络及初始策略网络进行训练，直到智能体模型中WiFi接入点设备的能量耗尽为止，得到中间价值网络及中间策略网络；将中间价值网络作为新的初始价值网络，将中间策略网络作为新的初始策略网络，根据初始状态空间参数、初始状态空间参数的预设约束条件、第一约束条件及第二约束条件，对新的初始价值网络及新的初始策略网络进行训练，直到达到预设训练次数，将预设训练次数对应的中间价值网络及中间策略网络作为目标价值网络及目标策略网络。其中，第一约束条件是车载WiFi-蜂窝异构网络系统的任务成功率最大，第二约束条件是车载WiFi-蜂窝异构网络系统的网络服务质量最优，所以基于第一约束条件训练得到的目标策略网络能得到任务成功率最大的最优动作空间，基于第二约束条件训练得到的目标价值网络能使得最优动作空间得到最优的即时奖励，进而提升网络服务的质量。

上一个实施例涉及了初始策略网络及初始价值网络的训练、获取目标价值网络及目标策略网络的过程。本实施例中，进一步描述，根据初始状态空间参数、初始状态空间参数的预设约束条件、第一约束条件及第二约束条件，对初始价值网络及初始策略网络进行训练，直到智能体模型中WiFi接入点设备的能量耗尽为止，得到中间价值网络及中间策略网络，流程如图5所示，包括：

步骤502，将初始状态空间参数及初始状态空间参数的预设约束条件输入至初始策略网络中进行处理，得到初始状态空间参数对应的最优动作空间参数；最优动作空间参数满足第一约束条件。

其中，第一约束条件是车载WiFi-蜂窝异构网络系统的任务成功率最大。

可选地，将初始状态空间参数初始状态空间参数s _t及初始状态空间参数的预设约束条件输入至初始策略网络，得到初始状态空间参数初始状态空间参数s _t对应的最优动作a _t，最优动作a _t满足第一约束条件，即智能体模型执行最优动作a _t时会使得车载WiFi-蜂窝异构网络系统的任务成功率最大。其中，通过初始状态空间参数初始状态空间参数s _t得到其对应的最优动作a _t的过程与步骤302-步骤306相同。

步骤504，通过智能体模型执行最优动作空间参数，得到即时奖励及初始状态空间参数的下一状态空间参数；即时奖励满足第二约束条件。

其中，第二约束条件是车载WiFi-蜂窝异构网络系统的网络服务质量最优。

可选地，智能体模型执行最优动作a _t，得到即时奖励r _t及初始状态空间参数的下一状态空间参数s _t+1，即时奖励r _t满足第二约束条件，即采用即时奖励r _t对智能体模型执行最优动作a _t进行奖励时，会使得车载WiFi-蜂窝异构网络系统的网络服务质量最优。这里得到即时奖励r _t的过程同步骤406。

步骤506，将下一状态空间参数作为新的初始状态空间参数，将新的初始状态空间参数及新的初始状态空间参数的预设约束条件输入至初始策略网络中进行迭代计算，直到智能体模型中WiFi接入点设备的能量耗尽为止，得到每一轮迭代过程所生成的新的即时奖励及新的初始状态空间参数的下一状态空间参数。

可选地，将初始状态空间参数的下一状态空间参数s _t+1及初始状态空间参数的预设约束条件输入至初始策略网络，得到s _t+1对应的最优动作a _t+1，最优动作a _t+1满足第一约束条件；智能体模型执行最优动作a _t+1，得到即时奖励r _t+1及初始状态空间参数的下一状态空间参数s _t+2，重复执行上述迭代过程，直到智能体模型中WiFi接入点设备的能量耗尽为止，得到每一轮迭代过程所生成的新的即时奖励及新的初始状态空间参数的下一状态空间参数。智能体模型中WiFi接入点设备的能量指的是WiFi接入点设备的能量，当WiFi接入点设备剩余的能量为0时，表示智能体模型中WiFi接入点设备的能量耗尽。WiFi接入点设备剩余的能量即为初始状态空间参数s _t中的。

步骤508，基于每一轮迭代过程所生成的新的即时奖励及新的初始状态空间参数的下一状态空间参数，对初始价值网络的初始参数及初始策略网络的初始参数进行更新，得到中间价值网络及中间策略网络。

可选地，基于每一轮迭代过程中所生成的新的即时奖励及新的初始状态空间参数的下一状态空间参数，从中筛选出在智能体模型中WiFi接入点设备的能量耗尽前T时间段内的各时刻的状态空间参数、最优动作空间参数、即时奖励及下一状态空间参数，将智能体模型中WiFi接入点设备的能量耗尽前T时间段内的各时刻的状态空间参数、最优动作空间参数、即时奖励及下一状态空间参数构建为一个集合，根据该集合及初始价值网络的初始参数及初始策略网络的初始参数更新计算公式，对初始价值网络的初始参数及初始策略网络的初始参数进行更新，基于更新后的初始价值网络的初始参数及更新后的初始策略网络的初始参数，得到中间价值网络及中间策略网络。

本实施例中，将初始状态空间参数及初始状态空间参数的预设约束条件输入至初始策略网络中进行处理，得到初始状态空间参数对应的最优动作空间参数；最优动作空间参数满足第一约束条件；通过智能体模型执行最优动作空间参数，得到即时奖励及初始状态空间参数的下一状态空间参数；即时奖励满足第二约束条件；将下一状态空间参数作为新的初始状态空间参数，将新的初始状态空间参数及新的初始状态空间参数的预设约束条件输入至初始策略网络中进行迭代计算，直到智能体模型中WiFi接入点设备的能量耗尽为止，得到每一轮迭代过程所生成的新的即时奖励及新的初始状态空间参数的下一状态空间参数；基于每一轮迭代过程所生成的新的即时奖励及新的初始状态空间参数的下一状态空间参数，对初始价值网络的初始参数及初始策略网络的初始参数进行更新，得到中间价值网络及中间策略网络。其中，将智能体模型中WiFi接入点设备的能量耗尽是为了尽可能地延长WiFi接入点设备的工作时长，就能延长WiFi网络的使用时长，提升WiFi网络的利用率，同时，结合第一约束条件及第二约束条件，从任务成功率及服务质量上提高了车载WiFi-蜂窝异构网络系统的网络资源的分配的准确性。

上一个实施例中，涉及了得到中间价值网络及中间策略网络的过程。本实施例中，进一步描述，通过智能体模型执行最优动作空间参数，得到即时奖励及初始状态空间参数的下一状态空间参数，流程如图6所示，包括：

步骤602，通过智能体模型执行最优动作空间参数，得到最优动作空间参数的执行结果；执行结果包括是否执行成功的结果。

其中，执行结果表征智能体模型执行传输数据的业务是否成功。传输数据的业务包括：时敏业务及非时敏业务。

可选地，若智能体模型执行的是时敏业务，那么智能体模型执行时敏业务对应的最优动作a _t，得到时敏业务的执行结果，执行结果有两个：时敏业务执行成功、时敏业务执行失败。若智能体模型执行的是非时敏业务，那么智能体模型执行非时敏业务对应的最优动作a _t，得到非时敏业务的执行结果，执行结果有两个：非时敏业务执行成功、非时敏业务执行失败。

步骤604，通过初始价值网络中的奖励函数计算执行结果的即时奖励值，基于即时奖励值及初始状态空间参数，得到初始状态空间参数的下一状态空间参数。

可选地，若智能体模型执行的是时敏业务，那么智能体模型执行时敏业务对应的最优动作a _t，得到时敏业务的执行结果，若时敏业务执行成功，根据公式（18）可知，给予时敏业务奖励r _DS(t)的值为，该时敏业务奖励r _DS(t)表明鼓励智能体模型执行时敏业务对应的最优动作a _t，根据时敏业务奖励r _DS(t)及初始状态空间参数s _t，得到初始状态空间参数的下一状态空间参数s _t+1。若智能体执行的是非时敏业务，那么智能体模型执行非时敏业务对应的最优动作a _t，得到非时敏业务的执行结果，若非时敏业务执行成功，根据公式（19）可知，给与非时敏业务奖励r _NDS(t)的值为1，该非时敏业务奖励r _NDS(t)表明鼓励智能体模型执行非时敏业务对应的最优动作a _t，根据非时敏业务奖励r _NDS(t)及初始状态空间参数s _t，得到初始状态空间参数的下一状态空间参数s _t+1。

本实施例中，通过智能体模型执行最优动作空间参数，得到最优动作空间参数的执行结果；执行结果包括是否执行成功的结果；通过初始价值网络中的奖励函数计算执行结果的即时奖励值，基于即时奖励值及初始状态空间参数，得到初始状态空间参数的下一状态空间参数。其中，根据最优动作空间参数的执行结果赋予不同的即时奖励值，可以使智能体更合理地分配网络资源，提高车载WiFi-蜂窝异构网络通信资源分配的准确性。

上一实施例中，涉及了得到初始状态空间参数的下一状态空间参数的过程。本实施例中，进一步描述，基于每一轮迭代过程所生成的新的即时奖励及新的初始状态空间参数的下一状态空间参数，对初始价值网络的初始参数及初始策略网络的初始参数进行更新，得到中间价值网络及中间策略网络，流程如图7所示，包括：

步骤702，从每一轮迭代过程中所生成的新的即时奖励及新的初始状态空间参数的下一状态空间参数中，获取智能体模型中WiFi接入点设备的能量耗尽前预设时间段内的转移经验值；转移经验值包括预设时间段内各时刻的状态空间参数、最优动作空间参数、即时奖励及下一状态空间参数。

可选地，基于每一轮迭代过程中所生成的新的即时奖励及新的初始状态空间参数的下一状态空间参数，从中筛选出在智能体模型中WiFi接入点设备的能量耗尽前T时间段内的各时刻的状态空间参数、最优动作空间参数、即时奖励及下一状态空间参数，将智能体模型中WiFi接入点设备的能量耗尽前T时间段内的各时刻的状态空间参数、最优动作空间参数、即时奖励及下一状态空间参数构建为一个集合，定义该集合为D，表示为公式（21）：

(21)

公式（21）中，s _t为t时刻的状态空间参数，a _t为t时刻的最优动作空间参数，r _t为t时刻即时奖励，s _t+1为相对于s _t的下一状态空间参数。

将集合D作为智能体模型中WiFi接入点设备的能量耗尽前T时间段内的转移经验值。

步骤704，根据预设时间段内的转移经验值，对初始价值网络的初始参数及初始策略网络的初始参数进行更新，得到中间价值网络及中间策略网络。

可选地，根据T时间段内的转移经验值D与第一预设损失函数对初始价值网络的初始参数进行更新，得到初始价值网络的第一中间参数，基于初始价值网络的第一中间参数，得到中间价值网络。根据T时间段内的转移经验值D与优势函数及裁剪替代目标函数，得到初始策略网络的第二中间参数，基于初始策略网络的第二中间参数，得到中间策略网络。

本实施例中，从每一轮迭代过程中所生成的新的即时奖励及新的初始状态空间参数的下一状态空间参数中，获取智能体模型中WiFi接入点设备的能量耗尽前预设时间段内的转移经验值；转移经验值包括预设时间段内各时刻的状态空间参数、最优动作空间参数、即时奖励及下一状态空间参数；根据预设时间段内的转移经验值，对初始价值网络的初始参数及初始策略网络的初始参数进行更新，得到中间价值网络及中间策略网络。其中，中间策略网络是对初始价值网络的初始参数及初始策略网络的初始参数进行更新后得到的，能更好地根据初始状态空间参数及初始状态空间参数的预设约束条件，得到智能体模型执行所需的最优动作空间参数；中间价值网络是对初始价值网络的初始参数进行更新后得到的，能更好地根据智能体模型执行的最优动作空间参数进行即时奖励，因而，当智能体模型执行最优动作空间参数并获得即时奖励时，能对网络资源进行更准确的分配。

上一个实施例中，涉及了得到中间价值网络及中间策略网络的过程。本实施例中，进一步描述，根据预设时间段内的转移经验值，对初始价值网络的初始参数及初始策略网络的初始参数进行更新，得到中间价值网络及中间策略网络，流程如图8所示，包括：

步骤802，根据预设时间段内的转移经验值及第一预设损失函数对初始价值网络的初始参数进行更新，得到初始价值网络的第一中间参数。

可选地，根据T时间段内的转移经验值D与第一预设损失函数对初始价值网络的初始参数进行更新，更新的公式如公式（22）所示：

(22)

公式（22）中，为t时刻的期望，/>是对t时刻状态的评估函数，/>是j时刻的衰减因子，r _j是j时刻的即时奖励，/>是第一预设损失函数。

将转移经验值D中的状态空间参数、即时奖励及下一状态空间参数输入至公式（22），实现对初始价值网络的初始参数φ的更新，将初始参数φ的更新值作为初始价值网络的第一中间参数。

步骤804，根据预设时间段内的转移经验值、优势函数及裁剪替代目标函数，得到初始策略网络的第二中间参数。

其中，优势函数用于对预设时间段内的转移经验值进行预测，裁剪替代目标函数用于对初始策略网络的初始参数进行更新。

可选地，将预设时间段内的转移经验值输入至优势函数中进行计算，得到预设时间段内的转移经验值的预测值，再将该预测值输入至裁剪替代目标函数，实现对初始策略网络的初始参数进行更新，将更新后的初始策略网络的初始参数作为初始策略网络的第二中间参数。

步骤806，根据转移经验值及第二预设损失函数，对第一中间参数及第二中间参数进行更新，得到第一目标参数及第二目标参数。

可选地，可以将转移经验值输入至第二预设损失函数，经过第二预设损失函数的计算，实现对第一中间参数及第二中间参数的更新，将更新后的第一中间参数作为第一目标参数，将更新后的第二中间参数作为第二目标参数。

步骤808，基于第一目标参数及初始价值网络得到中间价值网络，基于第二目标参数及初始策略网络得到中间策略网络。

可选地，根据第一目标参数及初始价值网络，得到中间价值网络；根据第二目标参数及初始策略网络，得到中间策略网络。

本实施例中，根据预设时间段内的转移经验值及第一预设损失函数对初始价值网络的初始参数进行更新，得到初始价值网络的第一中间参数；根据预设时间段内的转移经验值、优势函数及裁剪替代目标函数，得到初始策略网络的第二中间参数；根据转移经验值及第二预设损失函数，对第一中间参数及第二中间参数进行更新，得到第一目标参数及第二目标参数；基于第一目标参数及初始价值网络得到中间价值网络，基于第二目标参数及初始策略网络得到中间策略网络。其中，通过第一预设损失函数对初始价值网络的初始参数进行更新，能减小初始价值网络的初始参数的误差，通过第二预设损失函数得到第一目标参数及第二目标参数，也能减小初始价值网络的初始参数及初始策略网络的初始参数的误差，那么，基于较小误差的初始价值网络的初始参数得到的中间价值网络的误差也较小，基于较小误差的初始策略网络的初始参数得到的中间策略网络的误差也较小，进而，基于误差较小的中间价值网络得到的目标价值网络的误差也较小，基于误差较小的中间策略网络得到的目标策略网络的误差也较小，所以误差较小的目标价值网络与误差较小的目标策略网络进行车载WiFi-蜂窝异构网络通信资源分配时准确性也就更高。

上一实施例中，涉及了基于第一目标参数及初始价值网络得到中间价值网络，基于第二目标参数及初始策略网络得到中间策略网络的过程。本实施例中，进一步描述，根据预设时间段内的转移经验值、优势函数及裁剪替代目标函数，得到初始策略网络的第二中间参数，流程如图9所示，包括：

步骤902，根据预设时间段内的转移经验值及优势函数，得到转移经验值中各时刻的状态空间参数对应的预测转移经验值。

其中，优势函数用于对预设时间段内的转移经验值进行预测。

可选地，对T时间段内的转移经验值D进行小批量采样，得到采样后的T时间段内的转移经验值D _s，根据D _s及公式（23）计算得到转移经验值中各时刻的状态空间参数对应的预测转移经验值。

(23)

公式（23）中，为i时刻的衰减因子，r _t+i为(t+i)时刻的即时奖励，/>为(T-t)时刻的衰减因子，V(s _T)为T时刻状态空间参数的评估值，V(s _t)为t时刻状态空间参数的评估值，/>为t时刻状态空间参数对应的预测转移经验值。

步骤904，根据预测转移经验值及裁剪替代目标函数，对初始策略网络的初始参数进行更新，得到初始策略网络的第二中间参数。

其中，裁剪替代目标函数用于对初始策略网络的初始参数进行更新。

可选地，将步骤902中的各时刻的状态空间参数对应的预测转移经验值输入至裁剪替代目标函数中，实现对初始策略网络的初始参数进行更新。裁剪替代目标函数的公式如公式（24）所示：

(24)

公式（24）中，p _t(θ)为采样加权系数，也叫重要性采样比率，它的计算公式如公式（25）所示，为t时刻状态空间参数对应的预测转移经验值，/>为t时刻的期望，clip为裁减函数，min为取最小值。公式（25）如下：

(25)

公式（25）中，表示新策略下t时刻状态空间参数与最优动作空间参数的关系，/>表示旧策略下t时刻状态空间参数与最优动作空间参数的关系。

将步骤902中的各时刻的状态空间参数对应的预测转移经验值输入至公式（22）中，实现对初始策略网络的初始参数θ的更新，将更新后的θ值作为初始策略网络的第二中间参数。

本实施例中，根据预设时间段内的转移经验值及优势函数，得到转移经验值中各时刻的状态空间参数对应的预测转移经验值；根据预测转移经验值及裁剪替代目标函数，对初始策略网络的初始参数进行更新，得到初始策略网络的第二中间参数。其中，通过裁减替代目标函数对初始策略网络的初始参数进行更新，可以避免过大的策略更新，即将初始策略网络的初始参数的变化范围稳定在一个合理的范围，因而更新得到的第二中间参数也就更合理，那么，基于较为合理的第二中间参数得到的中间策略网络也就更合理，因而能更好地对网络资源进行分配。

上一个实施例中，涉及了得到初始策略网络的第二中间参数的过程。本实施例中，进一步描述，根据转移经验值及第二预设损失函数，对第一中间参数及第二中间参数进行更新，得到第一目标参数及第二目标参数，流程如图10所示，包括：

步骤1002，对转移经验值进行第一次采样，得到第一次采样对应的初始转移经验值。

可选地，对T时间段内的转移经验值D进行小批量采样，得到采样后的T时间段内的转移经验值D ₁，将D ₁作为第一次采样对应的初始转移经验值。

步骤1004，根据初始转移经验值及第二预设损失函数，对第一中间参数及第二中间参数进行更新，得到新的第一中间参数及新的第二中间参数。

可选地，将初始转移经验值D ₁输入至第二预设损失函数，经过计算，实现对第一中间参数及第二中间参数进行更新，第二预设损失函数的计算公式如公式（26）所示：

(26)

公式（26）中，为裁剪目标替代函数，c ₁为价值损失，c ₂为熵系数，/>为第一预设损失函数，/>为t时刻的期望，Z为熵增益，s _t为初始转移经验值D ₁中t时刻的状态空间参数。

将初始转移经验值D ₁输入至公式（26）中，经过计算，得到第一中间参数的更新值φ ₁，第二中间参数的更新值θ ₁。

步骤1006，对转移经验值进行下一次采样，得到下一次采样对应的转移经验值；将下一次采样对应的转移经验值作为下一次迭代的初始转移经验值，并将新的第一中间参数及新的第二中间参数作为下一次迭代的第一中间参数及第二中间参数进行迭代计算，直到达到预设迭代次数为止，将预设迭代次数对应的新的第一中间参数及新的第二中间参数，作为第一目标参数及第二目标参数。

可选地，对T时间段内的转移经验值D进行下一次小批量采样，得到下一次采样对应的转移经验值D ₂，将步骤1004中的第一中间参数的更新值φ ₁作为下一次迭代的第一中间参数，将第二中间参数的更新值θ ₁作为下一次迭代的第二中间参数，再将D ₂、φ ₁、θ ₁输入至公式（26）中进行迭代计算，直到达到预设迭代次数为止，将预设迭代次数对应的新的第一中间参数及新的第二中间参数，作为第一目标参数及第二目标参数。

本申请实施例中，对转移经验值进行第一次采样，得到第一次采样对应的初始转移经验值；根据初始转移经验值及第二预设损失函数，对第一中间参数及第二中间参数进行更新，得到新的第一中间参数及新的第二中间参数；对转移经验值进行下一次采样，得到下一次采样对应的转移经验值；将下一次采样对应的转移经验值作为下一次迭代的初始转移经验值，并将新的第一中间参数及新的第二中间参数作为下一次迭代的第一中间参数及第二中间参数进行迭代计算，直到达到预设迭代次数为止，将预设迭代次数对应的新的第一中间参数及新的第二中间参数，作为第一目标参数及第二目标参数。其中，通过迭代计算得到的第一目标参数及第二目标参数，能保证对第一中间参数及第二中间参数进行更为充分地更新，使得第一目标参数及第二目标参数的值更准确，基于更准确的第一目标参数及第二目标参数得到的中间价值网络及中间策略网络也就更准确，因而能对网络资源进行更准确地分配。

在一个示例性的实施例中，如图11所示，提供了一种车载WiFi-蜂窝异构网络通信资源分配方法，应用于车载WiFi-蜂窝异构网络系统，车载WiFi-蜂窝异构网络系统包括WiFi接入点设备、基站及网络设备，网络设备与WiFi接入点设备或基站通信连接，该方法包括：

步骤1102，根据车载WiFi-蜂窝异构网络系统构建智能体模型，智能体模型包括WiFi接入点设备、基站与网络设备。

步骤1104，获取智能体模型的初始状态空间参数及初始状态空间参数的预设约束条件。

步骤1106，将初始状态空间参数及初始状态空间参数的预设约束条件输入至初始策略网络中进行处理，得到初始状态空间参数对应的最优动作空间参数；最优动作空间参数满足第一约束条件。

步骤1108，通过智能体模型执行最优动作空间参数，得到最优动作空间参数的执行结果；执行结果包括是否执行成功的结果。

步骤1110，通过初始价值网络中的奖励函数计算执行结果的即时奖励值，基于即时奖励值及初始状态空间参数，得到初始状态空间参数的下一状态空间参数；即时奖励满足第二约束条件。

步骤1112，若智能体模型中WiFi接入点设备的能量耗尽，得到每一轮所生成的新的即时奖励及新的初始状态空间参数的下一状态空间参数，并执行步骤1114；若智能体模型中WiFi接入点设备的能量未耗尽，将下一状态空间参数作为新的初始状态空间参数，执行步骤1106。

步骤1114，从每一轮所生成的新的即时奖励及新的初始状态空间参数的下一状态空间参数中，获取智能体模型中WiFi接入点设备的能量耗尽前预设时间段内的转移经验值；转移经验值包括预设时间段内各时刻的状态空间参数、最优动作空间参数、即时奖励及下一状态空间参数。

步骤1116，根据预设时间段内的转移经验值及第一预设损失函数对初始价值网络的初始参数进行更新，得到初始价值网络的第一中间参数。

步骤1118，根据预设时间段内的转移经验值及优势函数，得到转移经验值中各时刻的状态空间参数对应的预测转移经验值。

步骤1120，根据预测转移经验值及裁剪替代目标函数，对初始策略网络的初始参数进行更新，得到初始策略网络的第二中间参数。

步骤1122，对转移经验值进行第一次采样，得到第一次采样对应的初始转移经验值。

步骤1124，根据初始转移经验值及第二预设损失函数，对第一中间参数及第二中间参数进行更新，得到新的第一中间参数及新的第二中间参数。

步骤1126，对转移经验值进行下一次采样，得到下一次采样对应的转移经验值；将下一次采样对应的转移经验值作为下一次迭代的初始转移经验值，并将新的第一中间参数及新的第二中间参数作为下一次迭代的第一中间参数及第二中间参数进行迭代计算。

步骤1128，若步骤1126中的迭代计算未达到预设迭代次数，执行步骤1126；若步骤1126中的迭代计算达到预设迭代次数，执行步骤1130。

步骤1130，将预设迭代次数对应的新的第一中间参数及新的第二中间参数，作为第一目标参数及第二目标参数。

步骤1132，基于第一目标参数及初始价值网络得到中间价值网络，基于第二目标参数及初始策略网络得到中间策略网络。

步骤1134，将中间价值网络作为新的初始价值网络，将中间策略网络作为新的初始策略网络，根据初始状态空间参数、初始状态空间参数的预设约束条件、第一约束条件及第二约束条件，对新的初始价值网络及新的初始策略网络进行训练。

步骤1136，若新的初始价值网络及新的初始策略网络训练次数未达到预设训练次数，执行步骤1130；若新的初始价值网络及新的初始策略网络训练次数达到预设训练次数，执行步骤1138。

步骤1138，将预设训练次数对应的中间价值网络及中间策略网络作为目标价值网络及目标策略网络。

步骤1140，获取车载WiFi-蜂窝异构网络系统的状态空间参数及状态空间参数的预设约束条件。

步骤1142，将状态空间参数及状态空间参数的预设约束条件输入至目标策略网络中的多层感知器，通过多层感知器对状态空间参数进行处理，得到状态空间参数对应的动作空间参数。

步骤1144，通过目标策略网络中的激活函数层对动作空间参数进行处理，得到动作空间参数对应的概率分布结果。

步骤1146，从概率分布结果中筛选出任一动作空间参数，将该任一动作空间参数作为状态空间参数对应的目标动作空间参数。

步骤1148，按照目标动作空间参数对车载WiFi-蜂窝异构网络系统进行车载WiFi-蜂窝异构网络通信资源分配。

本示例性的实施例中，提供了一种车载WiFi-蜂窝异构网络通信资源分配方法，应用于计算机设备，计算机设备与车载WiFi-蜂窝异构网络系统之间通信连接。目标策略网络为根据第一约束条件及第二约束条件对近端策略优化PPO算法进行训练得到的，而第一约束条件是基于任务成功率的约束条件，第二约束条件是基于服务质量的约束条件。即目标策略网络为从任务成功率、服务质量两个方面的约束条件，对近端策略优化PPO算法进行训练得到的。因此，将状态空间参数及状态空间参数的预设约束条件输入至目标策略网络中进行处理，得到状态空间参数对应的目标动作空间参数，通过该目标策略网络的处理就可以从任务成功率和服务质量两方面来提高目标动作空间参数的准确性。那么，再按照该目标策略网络处理得到的目标动作空间参数对车载WiFi-蜂窝异构网络系统进行车载WiFi-蜂窝异构网络通信资源分配，就能提高车载WiFi-蜂窝异构网络通信资源分配的准确性。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的车载WiFi-蜂窝异构网络通信资源分配方法的车载WiFi-蜂窝异构网络通信资源分配装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个车载WiFi-蜂窝异构网络通信资源分配装置实施例中的具体限定可以参见上文中对于车载WiFi-蜂窝异构网络通信资源分配方法的限定，在此不再赘述。

在一个实施例中，如图12所示，提供了一种车载WiFi-蜂窝异构网络通信资源分配装置，包括：数据获取模块1220，目标动作空间参数获取模块1240，通信资源分配模块1260，其中：

数据获取模块1220，用于获取车载WiFi-蜂窝异构网络系统的状态空间参数及状态空间参数的预设约束条件。

目标动作空间参数获取模块1240，用于将状态空间参数及状态空间参数的预设约束条件输入至目标策略网络中进行处理，得到目标动作空间参数；目标策略网络为根据第一约束条件及第二约束条件对近端策略优化PPO算法进行训练得到的；第一约束条件为基于任务成功率的约束条件，第二约束条件为基于服务质量的约束条件。

通信资源分配模块1260，用于按照目标动作空间参数对车载WiFi-蜂窝异构网络系统进行车载WiFi-蜂窝异构网络通信资源分配。

在一个实施例中，目标动作空间参数获取模块1240，还用于：将状态空间参数及状态空间参数的预设约束条件输入至多层感知器，通过多层感知器对状态空间参数进行处理，得到状态空间参数对应的动作空间参数；通过激活函数层对动作空间参数进行处理，得到动作空间参数对应的概率分布结果；从概率分布结果中筛选出任一动作空间参数，将该任一动作空间参数作为状态空间参数对应的目标动作空间参数。

在一个实施例中，提供一种车载WiFi-蜂窝异构网络通信资源分配装置，还包括：

模型训练模块，用于：根据车载WiFi-蜂窝异构网络系统构建智能体模型；智能体模型包括WiFi接入点设备、基站与网络设备；获取智能体模型的初始状态空间参数及初始状态空间参数的预设约束条件；根据初始状态空间参数、初始状态空间参数的预设约束条件、第一约束条件及第二约束条件，对初始价值网络及初始策略网络进行训练，直到智能体模型中WiFi接入点设备的能量耗尽为止，得到中间价值网络及中间策略网络；将中间价值网络作为新的初始价值网络，将中间策略网络作为新的初始策略网络，根据初始状态空间参数、初始状态空间参数的预设约束条件、第一约束条件及第二约束条件，对新的初始价值网络及新的初始策略网络进行训练，直到达到预设训练次数，将预设训练次数对应的中间价值网络及中间策略网络作为目标价值网络及目标策略网络。

在一个实施例中，模型训练模块，包括：

最优动作空间参数获取单元，用于将初始状态空间参数及初始状态空间参数的预设约束条件输入至初始策略网络中进行处理，得到初始状态空间参数对应的最优动作空间参数；最优动作空间参数满足第一约束条件。

执行单元，用于通过智能体模型执行最优动作空间参数，得到即时奖励及初始状态空间参数的下一状态空间参数；即时奖励满足第二约束条件。

迭代计算单元，用于将下一状态空间参数作为新的初始状态空间参数，将新的初始状态空间参数及新的初始状态空间参数的预设约束条件输入至初始策略网络中进行迭代计算，直到智能体模型中WiFi接入点设备的能量耗尽为止，得到每一轮迭代过程所生成的新的即时奖励及新的初始状态空间参数的下一状态空间参数。

中间价值网络及中间策略网络获取单元，用于基于每一轮迭代过程所生成的新的即时奖励及新的初始状态空间参数的下一状态空间参数，对初始价值网络的初始参数及初始策略网络的初始参数进行更新，得到中间价值网络及中间策略网络。

在一个实施例中，迭代计算单元还用于通过智能体模型执行最优动作空间参数，得到最优动作空间参数的执行结果；执行结果包括是否执行成功的结果；通过初始价值网络中的奖励函数计算执行结果的即时奖励值，基于即时奖励值及初始状态空间参数，得到初始状态空间参数的下一状态空间参数。

在一个实施例中，中间价值网络及中间策略网络获取单元，还用于从每一轮迭代过程中所生成的新的即时奖励及新的初始状态空间参数的下一状态空间参数中，获取智能体模型中WiFi接入点设备的能量耗尽前预设时间段内的转移经验值；转移经验值包括预设时间段内各时刻的状态空间参数、最优动作空间参数、即时奖励及下一状态空间参数；根据预设时间段内的转移经验值，对初始价值网络的初始参数及初始策略网络的初始参数进行更新，得到中间价值网络及中间策略网络。

在一个实施例中，中间价值网络及中间策略网络获取单元，还用于根据预设时间段内的转移经验值及第一预设损失函数对初始价值网络的初始参数进行更新，得到初始价值网络的第一中间参数；根据预设时间段内的转移经验值、优势函数及裁剪替代目标函数，得到初始策略网络的第二中间参数；根据转移经验值及第二预设损失函数，对第一中间参数及第二中间参数进行更新，得到第一目标参数及第二目标参数；基于第一目标参数及初始价值网络得到中间价值网络，基于第二目标参数及初始策略网络得到中间策略网络。

在一个实施例中，中间价值网络及中间策略网络获取单元，还用于根据预设时间段内的转移经验值及优势函数，得到转移经验值中各时刻的状态空间参数对应的预测转移经验值；根据预测转移经验值及裁剪替代目标函数，对初始策略网络的初始参数进行更新，得到初始策略网络的第二中间参数。

在一个实施例中，中间价值网络及中间策略网络获取单元，还用于对转移经验值进行第一次采样，得到第一次采样对应的初始转移经验值；根据初始转移经验值及第二预设损失函数，对第一中间参数及第二中间参数进行更新，得到新的第一中间参数及新的第二中间参数；对转移经验值进行下一次采样，得到下一次采样对应的转移经验值；将下一次采样对应的转移经验值作为下一次迭代的初始转移经验值，并将新的第一中间参数及新的第二中间参数作为下一次迭代的第一中间参数及第二中间参数进行迭代计算，直到达到预设迭代次数为止，将预设迭代次数对应的新的第一中间参数及新的第二中间参数，作为第一目标参数及第二目标参数。

上述车载WiFi-蜂窝异构网络通信资源分配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种车载WiFi-蜂窝异构网络通信资源分配方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种车载WiFi-蜂窝异构网络通信资源分配方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图13和图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取车载WiFi-蜂窝异构网络系统的状态空间参数及状态空间参数的预设约束条件；

将状态空间参数及状态空间参数的预设约束条件输入至目标策略网络中进行处理，得到状态空间参数对应的目标动作空间参数；目标策略网络为根据第一约束条件及第二约束条件对近端策略优化PPO算法进行训练得到的；第一约束条件为基于任务成功率的约束条件，第二约束条件为基于服务质量的约束条件；

按照目标动作空间参数对车载WiFi-蜂窝异构网络系统进行车载WiFi-蜂窝异构网络通信资源分配。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（DynamicRandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种车载WiFi-蜂窝异构网络通信资源分配方法，其特征在于，应用于计算机设备，所述计算机设备与车载WiFi-蜂窝异构网络系统之间通信连接；所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述目标策略网络包括多层感知器及激活函数层；所述将所述状态空间参数及所述状态空间参数的预设约束条件输入至目标策略网络中进行处理，得到所述状态空间参数对应的目标动作空间参数，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述近端策略优化PPO算法包括初始策略网络及初始价值网络；所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述初始状态空间参数、所述初始状态空间参数的预设约束条件、所述第一约束条件及所述第二约束条件，对所述初始价值网络及所述初始策略网络进行训练，直到所述智能体模型中WiFi接入点设备的能量耗尽为止，得到中间价值网络及中间策略网络，包括：

5.根据权利要求4所述的方法，其特征在于，所述通过所述智能体模型执行所述最优动作空间参数，得到即时奖励及所述初始状态空间参数的下一状态空间参数，包括：

6.根据权利要求4所述的方法，其特征在于，所述基于每一轮迭代过程所生成的新的即时奖励及所述新的初始状态空间参数的下一状态空间参数，对所述初始价值网络的初始参数及所述初始策略网络的初始参数进行更新，得到中间价值网络及中间策略网络，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述预设时间段内的转移经验值，对所述初始价值网络的初始参数及所述初始策略网络的初始参数进行更新，得到中间价值网络及中间策略网络，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述预设时间段内的转移经验值、优势函数及裁剪替代目标函数，得到所述初始策略网络的第二中间参数，包括：

9.根据权利要求7所述的方法，其特征在于，所述根据所述转移经验值及第二预设损失函数，对所述第一中间参数及所述第二中间参数进行更新，得到第一目标参数及第二目标参数，包括：

10.一种车载WiFi-蜂窝异构网络通信资源分配装置，其特征在于，应用于计算机设备，所述计算机设备与车载WiFi-蜂窝异构网络系统之间通信连接；所述装置包括：

数据获取模块，用于获取所述车载WiFi-蜂窝异构网络系统的状态空间参数及所述状态空间参数的预设约束条件；