CN117596614A

CN117596614A - 一种车联网中信道优化与资源分配方法及系统

Info

Publication number: CN117596614A
Application number: CN202311558066.8A
Authority: CN
Inventors: 靳宇平; 林润韬
Original assignee: China Telecom Digital Intelligence Technology Co Ltd
Current assignee: China Telecom Digital Intelligence Technology Co Ltd
Priority date: 2023-11-21
Filing date: 2023-11-21
Publication date: 2024-02-23

Abstract

本申请公开了一种车联网中信道优化与资源分配方法及系统，用于解决车联网中的信道状态与资源分配的联合问题。本申请公开的车联网中信道优化与资源分配方法包括：边缘端的车辆用户采集不同视角下的视频内容，并得出所述视频内容的语义重要性，边缘服务器获取所述语义重要性，分别进行信道优化和资源分配，所述边缘服务器将所述最优的信道状态以及资源分配结果下发给边缘端的各车辆用户。

Description

一种车联网中信道优化与资源分配方法及系统

技术领域

本申请涉及通信技术领域，尤其涉及一种车联网中信道优化与资源分配方法和系统。

背景技术

6G技术的不断发展，正在将通信系统由事物的连接转变为智能的连接。借由不断发展的人工智能技术，无线网络与边缘智能正在不断深度融合。智能设备的大规模接入，各类新型的智能任务，如目标检测、语义分割的不断涌现，与数据量和计算量的爆炸式增长，无疑让边缘端资源更加紧缺，成为无线网络有限资源的瓶颈。以智能交通系统车联网为例，为保障安全驾驶，车辆端将配备摄像头采集大量视频数据，并通过智能算法，对视频的内容进行理解和分析，从而完成车辆端各种智能业务的决策和处理。在此背景下，大量视频数据的传输，将会给通信资源造成巨大压力。如何合理地分配边缘端的资源，将是亟需解决的问题。

现有的服务质量(QoS)或体验质量(QoE)分配方法通常将资源分配的结果映射到相应的物理量，并将物理量或体验值作为优化目标。传统的通信会传输大量冗余数据，导致不必要的资源浪费，无法缓解边缘的资源压力，因为基于Shannon的信息理论，在不考虑比特的含义的情况下，努力准确地传输每个符号。考虑到智能到智能的通信本质上只需要通信双方之间的互动，以便接收者理解发送者的信息所代表的内容，即“语义”，语义通信不断受到大家的青睐。从如何传输到传输什么，语义通信无疑具有通过提取语义信息和消除冗余来缓解资源约束的巨大潜力。现有技术中，资源分配的方法尽管考虑了语义重要性，却忽略了边缘端的信道条件。而车联网中存在的高速移动特性和信道状态动态变化的问题，将导致原有的算法不能保证信道状态的准确性。因此，如何解决车联网中面向任务的信道优化与资源分配，以更好地适应车联网下的动态时变信道是当前亟待解决的技术问题。

发明内容

针对上述技术问题，本申请实施例提供了一种车联网中信道优化与资源分配方法及系统，通过双层网络在信道层和资源层同时进行优化，获得真实信道状态下的资源分配结果，同时适应车联网中复杂多变的信道环境。

第一方面，本申请实施例提供的一种车联网中信道优化与资源分配方法，包括：

边缘端的车辆用户采集不同视角下的视频内容，并得出所述视频内容的语义重要性，所述车辆用户将所述视频内容和语义重要性发送给边缘服务器；

边缘服务器获取所述语义重要性，分别进行信道优化和资源分配，得出边缘端各车辆用户最优的信道状态以及资源分配结果；

所述边缘服务器将所述最优的信道状态以及资源分配结果下发给边缘端的各车辆用户；

边缘服务器对接收到的视频内容进行解码，对视频进行目标检测，检测完毕后将结果反馈给各车辆用户。

优选的，分别进行信道优化和资源分配包括：

信道优化的部分定义为信道层，资源分配的部分定义为资源层，在信道层和资源层内分别进行优化；

将边缘服务器作为网络中的智能体；

确定状态空间；

确定动作空间；

确定环境反馈；

求解信道层；

求解资源层。

优选的，在信道层内，将车辆的频谱利用率作为奖励函数，采用离散的深度双Q网络进行求解；

在资源层内，将平均目标检测精度作为奖励函数，采用连续的A3C网络进行求解。

优选的，确定状态空间包括：

在信道层，状态空间S_c为M个车辆行驶时所对应的行驶速度，时间间隔和发送载频；

在资源层，状态空间S_r为M个车辆分配的带宽资源，可表示为S_r；

其中：

S_c＝{s_c|s_c＝(v₁,v₂,...,v_M,t_e1.t_e2,...,t_eM.f₁,f₂,...,f_M)}

S_r＝{s_r|s_r＝(B₁,B₂,...,B_M)}，

M是车辆总数，v₁，v₂，…，v_M是M辆车的行驶速度，t₁，t₂，…，t_MM辆车的时间间隔，f₁，f₂，…，f_M是M辆车的发送载频，B₁，B₂，…，B_M是M辆车分配的带宽资源。

优选的，确定动作空间包括：

在信道层，动作空间为M个车辆的行驶速度，时间间隔以及发送载频的变化；

在资源层，动作空间为：

A_r＝{a_r|a_r＝(a_add,a_sub,Δa)}；

其中，a_add表示资源量增加的车辆序号，a_sub表示资源量减少的车辆序号，Δa表示带宽资源变化量的多少。

优选的，确定环境反馈包括：

环境反馈为下一状态和当前状态的奖励函数F的差值；

在信道层，F的值由车辆用户的频谱利用率之和F_c求出；

在资源层，F的值由目标检测精度最大化模型F_r求出；

其中，

其中，P_m表示传输功率，P_n表示噪声功率，M为车辆总数，ρ为补偿因子；I_m为当前视频里的目标密度；P_mAP(B)表示通信资源分配下的平均目标检测精度，B为带宽资源。

优选的，求解信道层包括：

在初始时刻，网络首先初始化双Q网络并创建相应的状态空间；

网络生成一个随机数，如果随机数大于贪婪系数，则网络将随机选择一个动作，如果随机数小于贪婪系数，则网络选择使目标Q网络的Q值最大化的动作；

网络执行所述动作，观察下一个状态和环境反馈，并计算两者之间的奖励函数差；

将所述奖励函数差记录到体验回放中，迭代状态空间，并将信道层的探索步数加一；

判断学习条件是否满足，如果满足，则更新主Q网络和目标Q网络的参数；

判断是否满足边界条件或者是否达到最大迭代次数，如果是，则终止循环并记录最佳信道系数。

优选的，求解资源层包括：

采用A3C网络求解资源层，A3C网络分为GlobalNet和workers；

在初始时刻，初始化GlobalNet和workers的相关参数；

训练过程中，每个worker依据网络策略选出相应的动作；

执行所述动作后，根据下一刻的状态以及环境反馈调整自身的模型参数；

在每个训练轮结束时，workers将其训练的参数更新到GlobalNet，同时将自身的模型参数更改为GlobalNet的模型参数；

当迭代次数达到最大值时，循环终止，获得相应的资源分配结果。

优选的，所述边缘服务器将所述最优的信道状态以及资源分配结果下发给边缘端的各车辆用户之后，还包括：

各个车辆用户依据收到的信道优化建议与资源分配结果，调整行车速度为所收到的最优行驶速度，调整向基站发送视频的载波频率为最优载频，以及确认当前的最优信道稳定间隔。

第二方面，本申请实施例还提供一种车联网中信道优化与资源分配系统，包括：

车辆用户，被配置用于采集不同视角下的视频内容，并得出所述视频内容的语义重要性，所述车辆用户将所述视频内容和语义重要性发送给边缘服务器；

边缘服务器，被配置用于获取所述语义重要性，分别进行信道优化和资源分配，得出边缘端各车辆用户最优的信道状态以及资源分配结果；

所述边缘服务器，还被配置用于将所述最优的信道状态以及资源分配结果下发给边缘端的各车辆用户；

所述边缘服务器，还被配置用于对接收到的视频内容进行解码，对视频进行目标检测，检测完毕后将结果反馈给各车辆用户。

使用本发明的方法，不仅有效地构建了车联网中的信道状态与资源分配的联合问题的解决方案，对其拆解后进行优化，同时可以更加准确地求解出基于语义重要性下的准确的资源分配结果；相比于现有的语义驱动下的资源分配，本发明能够实现对于车联网中不完美的动态时变信道的模拟，同时通过双层网络架构，使得其具有较为良好的抗干扰性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明在车联网边缘端下的多用户接入场景；

图2为本申请实施例提供的车联网中信道优化与资源分配方法流程示意图；

图3为本申请实施例提供的车联网中面向任务的信道优化和资源分配算法流程示意图；

图4为在不同的资源分配方案下的mAP性能与系统总带宽的关系曲线示意图；

图5为在不同的资源分配方案下的mAP性能与系统中各用户的视频语义重要性差异的关系曲线示意图；

图6为在不同的资源分配方案下的mAP性能与系统中总用户数的关系曲线示意图；

图7为通信资源约束下的平均目标检测精度的拟合曲线示意图；

图8为本申请实施例提供的一种车联网中信道优化与资源分配系统示意图；

图9为本申请实施例提供的车联网中信道优化与资源分配车辆用户示意图；

图10为本申请实施例提供的车联网中信道优化与资源分配边缘服务器结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面对文中出现的一些词语进行解释：

1、本发明实施例中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

2、本申请实施例中术语“多个”是指两个或两个以上，其它量词与之类似。

3、TCRS-HRL(task-oriented channel optimization and resource allocationscheme based on a hierarchical reinforcement learning)，即本发明的信道优化与资源分配方法，基于分层强化学习的面向任务的信道优化与资源分配。

4、A3C(Asynchronous Advantage Actor-Critic)：一种强化学习算法，结合了Actor-Critic算法和异步训练的思想。

5、Faster-RCNN算法：一种两阶段目标检测算法。在Faster-RCNN算法中，第一阶段先通过区域选择网络(Region Proposal Network，RPN)生成候选区域(Regionproposals)，然后，将生成的所有候选区域全部输入到CNN中进行特征提取；第二阶段以特征提取的结果为基础，采用全连接层进行二次分类与边框回归，以实现精确的目标检测。

6、SROS(Single resource aspect optimization scheme)：单一资源层优化方案。

7、SCOS(Single channel aspect optimization scheme)：单一信道层优化方案。

8、MVOS(Mean value without optimization scheme)：均值无优化方案。

9、GlobalNet：公共神经网络模型。

10、workers：公共神经网络模型副本。

针对现有技术中存在的问题，针对上述问题，本发明提出了一种基于分层强化学习的面向任务的信道优化与资源分配TCRS-HRL算法(task-oriented channeloptimization and resource allocation scheme based on a hierarchicalreinforcement learning,TCRS-HRL)，通过双层网络在信道层和资源层同时进行优化。该方法同时从边缘端的信道条件和资源条件出发，能够有效地获得真实信道状态下的资源分配结果，同时适应车联网中复杂多变的信道环境。

图1为本发明实施例提供的车联网中信道优化与资源分配方法适用的场景示意图。本发明适用的车联网边缘端下的多用户接入场景，在该场景中，边缘服务器部署在路边单元上，每个路边单元具有一定的无线覆盖区域，边缘服务器将会对路边单元收到的视频任务进行计算。考虑自动驾驶的情形下，在路边单元的覆盖区域内，假定所有的车辆用户均配备了高清摄像头与传感器，随机分布在不同的道路上行驶。因此，由于各个车辆所处的位置不同，采集到的视频内容也不同。以语义理解基础任务之一的目标检测任务为例，目标检测的精度值为正确检测的样本数与总样本数的比值。由于目标检测任务往往对计算能力有着较大的需求，难以在车辆端单独处理，因此，可以将目标检测任务卸载到边缘服务器端进行计算。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例的展示顺序仅代表实施例的先后顺序，并不代表实施例所提供的技术方案的优劣。

参见图2，本申请实施例提供的一种车联网中信道优化与资源分配方法示意图，如图2所示，该方法包括步骤S201到S204：

S201、边缘端的车辆用户采集不同视角下的视频内容，并得出所述视频内容的语义重要性，所述车辆用户将所述视频内容和语义重要性发送给边缘服务器；

S202、边缘服务器获取所述语义重要性，分别进行信道优化和资源分配，得出边缘端各车辆用户最优的信道状态以及资源分配结果；

S203、所述边缘服务器将所述最优的信道状态以及资源分配结果下发给边缘端的各车辆用户；

S204、边缘服务器对接收到的视频内容进行解码，对视频进行目标检测，检测完毕后将结果反馈给各车辆用户。

本发明的信道优化和资源分配，基于分层强化学习，面向任务的信道优化和资源分配算法，不仅有效地构建了车联网中的信道状态与资源分配的联合问题，对其拆解后进行优化，同时可以更加准确地求解出基于语义重要性下的准确的资源分配结果。相比于现有的语义驱动下的资源分配，本发明能够实现对于车联网中不完美的动态时变信道的模拟，同时通过双层网络架构，使得其具有较为良好的抗干扰性。

作为一种优选示例，本发明中，边缘端的车辆用户可以通过车载的高清摄像头和传感器，采集不同视角下的视频内容，并通过预处理得出视频内容的语义重要性。其中，语义重要性被定义为采集到的视频中目标数量的多少，即目标密度。低密度的视频包含的语义信息较少，所具有的检测价值较低，高密度视频包含的语义信息较多，所具有的检测价值较高，即低密度视频的语义重要性较低，高密度视频的语义重要性较高。例如，假设车辆用户数量为3，下表1是目标密度的示例：

表1：目标密度示例

作为一种可选示例，获取完视频的语义重要性后，还可以将述视频内容和语义重要性，其与自身的行驶速度、发送载频共同上传到边缘服务器。同时，边缘服务器获取相关的信道状态信息。

作为一种可选示例，分别进行信道优化和资源分配如图3所示。边缘服务器获取全部信息(包括车辆提供的信息与信道状态信息)后，依据基于分层强化学习的车联网中面向任务的信道优化和资源分配算法，得出边缘端此时各车辆最优的信道状态以及资源分配结果。如图3所示，包括S301到S307：

S301、信道优化的部分定义为信道层，资源分配的部分定义为资源层，在信道层和资源层内分别进行优化。

在信道层内，将车辆的频谱利用率作为奖励函数，采用离散的深度双Q网络进行求解；在资源层内，将平均目标检测精度作为奖励函数，采用连续的A3C网络进行求解。

本发明的信道优化和资源分配算法中，主要对整个系统中的信道与资源分配进行优化。因此，可将整个系统分层，其中，信道优化的部分定义为信道层，资源分配的部分定义为资源层。进一步地，在两个层内分别进行优化，分别设计相应的奖励函数与网络，在两层之间传递信道层的优化结果。考虑到行驶速度变量与发送载频变量不连续，可将信道层的相关参数视为离散的，同时将车辆的频谱利用率作为奖励函数，例如采用离散的深度双Q网络进行求解。在资源层，考虑到带宽变量的连续性，可将资源层的相关参数视为连续的，同时将平均目标检测精度作为奖励函数，例如采用连续的A3C网络进行求解。

S302、将边缘服务器作为网络中的智能体。

智能体针对边缘网络中的信道状态给出相应的建议，以及针对资源状态给出相应的分配决策，因此，将边缘服务器作为网络中的智能体。

S303、确定状态空间。

其中：

S_c＝{s_c|s_c＝(v₁,v₂,...,v_M,t_e1.t_e2,...,t_eM.f₁,f₂,...,f_M)}

S_r＝{s_r|s_r＝(B₁,B₂,...,B_M)}，

S304、确定动作空间。

(1)在信道层，动作为离散动作，动作空间为M个车辆的行驶速度，时间间隔以及发送载频的变化。例如，假设参数变化的最小步长分别为Δv,Δt_e,Δf。假设系统中的用户为3，每次从所有车辆挑选出两辆进行增加和减少的动作，此时总共有6种挑选方式，可表示为K_c：

K_c＝{k_c|k_c∈{(1,2),(1,3),(2,1),(2,3),(3,1),(3,2)}}。

由于存在三维资源，所以每个动作需要从K_c中挑选出一个组合，重复三次，因此，整个动作空间共有6³＝216种动作方式，可以表示为：

A_c＝{a_c|a_c∈{1,2,1,2,1,2},(1,2,1,2,1,3),...(3,2,3,2,3,2)}}；

其中，(i₁,j₁,i₂,j₂,i₃,j₃)表示：

(2)在资源层，动作为连续动作，假设每个动作的维度为3，动作空间可表示为：

A_r＝{a_r|a_r＝(a_add,a_sub,Δa)}；

其中，a_add表示资源量增加的车辆序号，a_sub表示资源量减少的车辆序号，Δa表示带宽资源变化量的多少。上述动作均有连续的动作网络产生，其中，对于前两位车辆序号，将进行相应的取整。

S305、确定环境反馈。

确定环境反馈包括：

环境反馈为下一状态和当前状态的奖励函数F的差值；

在信道层，F的值由车辆用户的频谱利用率之和F_c求出；

在资源层，F的值由目标检测精度最大化模型F_r求出；

其中，

例如：设定环境反馈为下一状态和当前状态的奖励函数F的差值。其中，ΔF＝F―F′：

(1)在信道层，F的值可由车辆用户的频谱利用率之和F_c求出；

(2)在资源层，F的值可由目标检测精度最大化模型F_r得出，具体如下：

其中，P_m表示传输功率，P_n表示噪声功率，M为车辆总数，ρ为补偿因子，补偿归一化对数值的影响；I_m为当前视频里的目标密度，表征当前视频的语义重要性，表示第M辆车所采集视频的码率；P_mAP(B)表示通信资源分配下的平均目标检测精度。此处使用的P_mAP(B)需要依据本发明的实践环境进行对应的拟合。

上述两式中(既F_c和F_r表达式中)，F取得最大值是网络的训练目标，因此希望F的优化能够不断往增大的方向探索。当F增大时，反馈函数为正数，获得奖励，当F减小时，反馈函数为负数，获得惩罚，从而更新网络参数。由于表征视频语义重要性的系数I_m的存在，在资源层时，网络将会倾向于给视频语义更加重要的车辆用户分配更多的资源，从而使得F取得更优的结果。但在两层网络中，均无法事先预知最优结果，因此在设定结束点时，分别使用了信道边界条件和资源边界条件作为结束点。同时，设定了最大步数值结束，从而避免算法探索过度。

S306、求解信道层。

也就是说，上述求解信道层的过程可描述为：网络在第一阶段通过在信道方面的探索来求解最优信道系数，从而在第二阶段实现资源分配并求解相应的资源分配结果。因此，在初始时刻，网络首先初始化双Q网络并创建相应的状态空间。接下来，网络生成一个随机数。如果随机数大于贪婪系数，则网络将随机选择一个动作。如果随机数小于贪婪系数，则网络将选择使目标Q网络的Q值最大化的动作。之后，网络将执行该动作，观察下一个状态和环境反馈，并计算两者之间的奖励函数差。接下来，将其记录到体验回放中，迭代状态空间，并将信道层的探索步数加一。同时判断学习条件是否满足，如果满足，则更新主Q网络和目标Q网络的参数。最后，判断是否满足边界条件或者是否达到最大迭代次数。如果是，则终止循环并记录最佳信道系数。

S307、求解资源层。

求解资源层包括：

采用A3C网络求解资源层，A3C网络分为GlobalNet和workers；

在初始时刻，初始化GlobalNet和workers的相关参数；

训练过程中，每个worker依据网络策略选出相应的动作；

也就是说，上述求解资源层的过程可以描述为：资源层采用A3C网络进行求解。A3C网络可分为GlobalNet和workers。作为一个全局神经网络，GlobalNet接受来自M个worker的训练参数，是要训练和学习的最终模型。Worker具有与GlobalNet相同的网络结构，互不干扰，独立训练。在初始时刻，GlobalNet和workers的相关参数被初始化，每个worker都被独立训练。训练过程中，每个worker将依据网络策略选出相应的动作，执行该动作后，观察下一刻的状态以及环境反馈，从而不断调整自身的模型参数。在每个训练轮结束时，workers会将其训练的参数更新到GlobalNet，同时将自身的模型参数更改为GlobalNet的模型参数，以引导自身与环境交互。当迭代次数达到最大值时，循环终止，获得相应的资源分配结果。

作为一种优选示例，边缘服务器将所述最优的信道状态以及资源分配结果下发给边缘端的各车辆用户之后，还包括：各个车辆用户依据收到的信道优化建议与资源分配结果，调整行车速度为所收到的最优行驶速度v_best，调整向基站发送视频的载波频率为最优载频f_best，以及确认当前的最优信道稳定间隔t_{e_best}。

例如：各个车辆用户依据收到的信道优化建议与资源分配结果，调整自身的行驶状态，包括：调整行车速度为所收到的最优行驶速度v_best，调整向基站发送视频的载波频率为最优载频f_best，以及确认当前的最优信道稳定间隔t_{e_best}。确认上述参数v_best，f_best和t_{e_best}后，求解出最优信道增益h_best，并基于该信道增益，以及所分配到的带宽资源B_m，对视频进行相应的压缩，并将压缩后的视频通过无线信道传输到边缘服务器上。该过程中的视频压缩方案采用HEVC方案，压缩程度的多少取决于所分配到的带宽资源的多少，也表征了最后检测精度的大小。由于视频传输码率必须小于或等于带宽限制下的传输速率，因此需要对视频进行压缩处理。采用HEVC视频编码压缩标准对视频数据进行压缩编码处理，压缩编码过程中不同的QP值对应不同压缩步长，QP值越小，视频量化越精细，压缩步长越小，细节损失越小，视频码率越接近原始视频码率，传输所需的带宽越大。在最优资源分配结果下，视频语义重要性最高的车辆将获得最多的资源，尽可能保留原本的视频质量，从而使得较为精细的目标，如远处的行人，能够在后续的目标检测中被检测出；视频语义重要性最低的车辆将获得最少的资源，尽可能压缩视频，但由于其待检目标数并不多，因此，只需保证相应的目标依然被检测出即可。

作为一种优选示例，边缘服务器接收到的视频进行解码，对视频进行目标检测，目标检测算法采用Faster-RCNN算法，检测完毕后，将结果下行反馈给各车辆用户，同时边缘服务器可将视频存储或用于其他任务，如道路交通情况分析等。进一步，由于不同QP值下的视频数据速率不同，而视频数据速率受到传输过程中通信资源的约束，因此，可以考虑以QP值为过渡，建立通信资源约束下的视频数据速率和目标检测精度的关系，并以此作为算法的优化内容，通过合适的资源分配使其达到最优。

如图7所示，通过采用Faster-RCNN算法进行目标检测，并对实验数据进行曲线拟合曲线拟合的均方根误差为0.208％。最终得到的拟合表达式为：

其中，α＝-2.214e-12，β＝6.741，ω＝0.694，a＝46.27，b＝-7.086e-5。

需要说明的是，本拟合关系式仅为示例，实际使用中，需要采集相应实施路段的行车视频，作为数据集，仿真得出相应的拟合关系式。

下面结合实验数据，对4种算法的效果进行对比。4种算法分别为：

(1)本发明的算法，即基于分层强化学习的车联网中面向任务的信道优化和资源分配算法(task-oriented channel optimization and resource allocation schemebased on a hierarchical reinforcement learning,TCRS-HRL)，本发明提出的该算法，以最大化检测精度为优化目标，对信道和资源进行优化。

(2)单一资源层优化方案(Single resource aspect optimization scheme,SROS)：在该方案中，信道层将保持初始值不变，资源层将根据语义重要性分配资源，优化目标是最大限度地提高检测精度。该解决方案可以独立验证资源方面优化对最终mAP结果的改进。

(3)单一信道层优化方案(Single channel aspect optimization scheme,SCOS)：在该方案中，信道方面将探索最大化信道增益，并且资源方面将资源平均分配给每个用户。该方案可以独立验证通道优化对最终mAP结果的改进。

(4)均值无优化方案(Mean value without optimization scheme,MVOS)：在该方案中，信道方面将保持初始值不变，资源方面将向每个用户平均分配资源。该方案可作为验证其他方案性能改进的基准。

在不同的资源分配方案下的mAP性能与系统总带宽的关系曲线如图4所示。随着系统整体通信资源的改善，上述四种资源分配方案的平均对象检测精度都呈现波动上升趋势。这是因为通信资源的增加可以为车辆端的视频的上行链路传输带来更好的视频质量。由于没有进行优化，MVOS位于列表的底部；TCRS-HRL能够带来最佳的优化；SCOS提供的改进不如SROS。可见，单独优化资源层所带来的提升比单独优化信道层所带来的提升更大。但随着通信资源的增加，两者之间的差距减小。特别地，TCRS-HRL的值比MVOS高出近8％。

在不同的资源分配方案下的mAP性能与系统中各用户的视频语义重要性差异的关系曲线如图5所示。增大视频语义重要性差异时，MVOS的平均对象检测精度最低，并且当增加视频语义重要性差异时基本不变。SCOS的平均目标检测精度高于MVOS，但同样基本没有变化，它们之间的区别是信道方面优化带来的改进。SROS和TCRS-HRL的平均目标检测精度随着视频语义重要性差异的增大逐渐升高，且当视频之间的视频语义重要性差异越大，三者的平均目标检测精度之间的差距也在不断增大。可以看出，本研究中提出的TCRS-HRL倾向于将更多的资源投入到更重要的视频中，以实现更高的检测精度，同时，当视频语义重要性差异更大时，由于其优化了信道，具有更高的效益。特别是，与MVOS相比，TCRS-HRL的值在最高点和最低点分别增加了约2％和11％。

在不同的资源分配方案下的mAP性能与系统中总用户数的关系曲线如图6所示。图6说明了随着系统中车辆数目的增加，每个车辆分配到的通信资源逐渐减少，从而导致传输的视频质量与目标检测的算法性能下降，因此，上述四种资源分配方法的平均目标检测精度都在逐渐降低，且不同方法之间的差距在不断减小。但图中的平均检测精度的大小依然符合TCRS-HRL高于SROS高于SCOS高于MVOS的大小关系。其中，TCRS-HRL相较于MVOS，数值提升了约9％。在增加了系统容量的情况下，本发明所提算法依然能够倾向于为更加重要的视频内容分配更多的资源，同时由于信道层的优化，能够达到更好的目标检测结果。同时，由图6中曲线的下降趋势，还可以得出在实际中应用时，应当根据不同场景的检测精度要求，确定系统中的最大用户数。

通过实施本发明实施例提供的的基于分层强化学习的车联网中面向任务的信道优化和资源分配算法，不仅有效地构建了车联网中的信道状态与资源分配的联合问题，对其拆解后进行优化，同时可以更加准确地求解出基于语义重要性下的准确的资源分配结果。相比于现有的语义驱动下的资源分配，本发明能够实现对于车联网中不完美的动态时变信道的模拟，同时通过双层网络架构，使得其具有较为良好的抗干扰性。

基于同一个发明构思，本发明实施例还提供了一种车联网中信道优化与资源分配装置，如图8所示，该装置包括：

车辆用户801，被配置用于采集不同视角下的视频内容，并得出所述视频内容的语义重要性，所述车辆用户将所述视频内容和语义重要性发送给边缘服务器；

边缘服务器802，被配置用于获取所述语义重要性，分别进行信道优化和资源分配，得出边缘端各车辆用户最优的信道状态以及资源分配结果；

边缘服务器802，还被配置用于将所述最优的信道状态以及资源分配结果下发给边缘端的各车辆用户；

边缘服务器802，还被配置用于对接收到的视频内容进行解码，对视频进行目标检测，检测完毕后将结果反馈给各车辆用户。

作为一种优选示例，边缘服务器802，还被配置用于进行信道优化和资源分配，包括：

将边缘服务器作为网络中的智能体；

确定状态空间；

确定动作空间；

确定环境反馈；

求解信道层；

求解资源层。

作为一种优选示例，在信道层内，将车辆的频谱利用率作为奖励函数，采用离散的深度双Q网络进行求解；在资源层内，将平均目标检测精度作为奖励函数，采用连续的A3C网络进行求解。

作为一种优选示例，边缘服务器802，还被配置用于确定状态空间,包括：

其中：

S_c＝{s_c|s_c＝(v₁,v₂,...,v_M,t_e1.t_e2,...,t_eM.f₁,f₂,...,f_M)}

S_r＝{s_r|s_r＝(B₁,B₂,...,B_M)}，

作为一种优选示例，边缘服务器802，还被配置用于确定动作空间,包括：

在资源层，动作空间为：

A_r＝{a_r|a_r＝(a_add,a_sub,Δa)}；

作为一种优选示例，边缘服务器802，还被配置用于确定环境反馈，包括：

环境反馈为下一状态和当前状态的奖励函数F的差值；

在信道层，F的值由车辆用户的频谱利用率之和F_c求出；

在资源层，F的值由目标检测精度最大化模型F_r求出；

其中，

作为一种优选示例，边缘服务器802，还被配置用于求解信道层，包括：

作为一种优选示例，边缘服务器802，还被配置用于求解资源层,包括：

采用A3C网络求解资源层，A3C网络分为GlobalNet和workers；

在初始时刻，初始化GlobalNet和workers的相关参数；

训练过程中，每个worker依据网络策略选出相应的动作；

作为一种优选示例，车辆用户801，还被配置用于依据收到的信道优化建议与资源分配结果，调整行车速度为所收到的最优行驶速度v_best，调整向基站发送视频的载波频率为最优载频f_best，以及确认当前的最优信道稳定间隔t_{e_best}。

需要说明的是，本实施例二提供的装置与上述方法实施例提供的方法属于同一个发明构思，解决相同的技术问题，达到相同的技术效果，相同之处不再赘述。

基于同一个发明构思，本发明实施例还提供了一种车辆用户，如图9所示，该装置包括：

包括存储器902、处理器901和用户接口903；

所述存储器902，用于存储计算机程序；

所述用户接口903，用于与用户实现交互；

所述处理器901，用于读取所述存储器902中的计算机程序，所述处理器901执行所述计算机程序时，实现：

采集不同视角下的视频内容，并得出所述视频内容的语义重要性，所述车辆用户将所述视频内容和语义重要性发送给边缘服务器。

其中，在图9中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器901代表的一个或多个处理器和存储器902代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。处理器901负责管理总线架构和通常的处理，存储器902可以存储处理器901在执行操作时所使用的数据。

处理器901可以是CPU、ASIC、FPGA或CPLD，处理器901也可以采用多核架构。

作为一种优选示例，处理器901还被配置用于依据收到的信道优化建议与资源分配结果，调整行车速度为所收到的最优行驶速度v_best，调整向基站发送视频的载波频率为最优载频f_best，以及确认当前的最优信道稳定间隔t_{e_best}。

处理器901执行存储器902存储的计算机程序时，实现方法实施例中车辆用户实现的任一车联网中信道优化与资源分配方法。

需要说明的是，本实施例提供的装置与上述方法实施例提供的方法属于同一个发明构思，解决相同的技术问题，达到相同的技术效果，相同之处不再赘述。

基于同一个发明构思，本发明实施例还提供了一种边缘服务器，如图10所示，该装置包括：

包括存储器1002、处理器1001和用户接口1003；

所述存储器1002，用于存储计算机程序；

所述用户接口1003，用于与用户实现交互；

所述处理器1001，用于读取所述存储器1002中的计算机程序，所述处理器1001执行所述计算机程序时，实现：

获取所述语义重要性，分别进行信道优化和资源分配，得出边缘端各车辆用户最优的信道状态以及资源分配结果；

将所述最优的信道状态以及资源分配结果下发给边缘端的各车辆用户；

对接收到的视频内容进行解码，对视频进行目标检测，检测完毕后将结果反馈给各车辆用户。

其中，在图10中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器1001代表的一个或多个处理器和存储器1002代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。处理器1001负责管理总线架构和通常的处理，存储器1002可以存储处理器1001在执行操作时所使用的数据。

处理器1001可以是CPU、ASIC、FPGA或CPLD，处理器1001也可以采用多核架构。

处理器1001执行存储器1002存储的计算机程序时，实现方法实施例中边缘服务器实现的任一车联网中信道优化与资源分配方法。

本申请还提出一种处理器可读存储介质。其中，该处理器可读存储介质存储有计算机程序，所述处理器执行所述计算机程序时实现方法实施例中的车辆用户或者边缘服务器的任一车联网中信道优化与资源分配方法。

需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种车联网中信道优化与资源分配方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述分别进行信道优化和资源分配包括：

将边缘服务器作为网络中的智能体；

确定状态空间；

确定动作空间；

确定环境反馈；

求解信道层；

求解资源层。

3.根据权利要求2所述的方法，其特征在于，所述信道优化的部分定义为信道层，资源分配的部分定义为资源层，在信道层和资源层内分别进行优化包括：

在信道层内，将车辆的频谱利用率作为奖励函数，采用离散的深度双Q网络进行求解；

4.根据权利要求2所述的方法，其特征在于，所述确定状态空间包括：

其中：

S_c＝{s_c|s_c＝(v₁,v₂,...,v_M,t_e1.t_e2,...,t_eM.f₁,f₂,...,f_M)}

S_r＝{s_r|s_r＝(B₁,B₂,...,B_M)}，

5.根据权利要求2所述的方法，其特征在于，所述确定动作空间包括：

在资源层，动作空间为：

A_r＝{a_r|a_r＝(a_add,a_sub,Δa)}；

6.根据权利要求2所述的方法，其特征在于，所述确定环境反馈包括：

环境反馈为下一状态和当前状态的奖励函数F的差值；

在信道层，F的值由车辆用户的频谱利用率之和F_c求出；

在资源层，F的值由目标检测精度最大化模型F_r求出；

其中，

7.根据权利要求2所述的方法，其特征在于，所述求解信道层包括：

8.根据权利要求2所述的方法，其特征在于，所述求解资源层包括：

采用A3C网络求解资源层，A3C网络分为GlobalNet和workers；

在初始时刻，初始化GlobalNet和workers的相关参数；

训练过程中，每个worker依据网络策略选出相应的动作；

9.根据权利要求2所述的方法，其特征在于，所述边缘服务器将所述最优的信道状态以及资源分配结果下发给边缘端的各车辆用户之后，还包括：

10.一种车联网中信道优化与资源分配系统，其特征在于，包括：