CN113068150B

CN113068150B - 策略估计网络的训练方法及装置、传输方法、设备及介质

Info

Publication number: CN113068150B
Application number: CN202110367335.7A
Authority: CN
Inventors: 苗建松; 张骞; 彭昊; 王储
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2022-08-02
Anticipated expiration: 2041-04-06
Also published as: CN113068150A

Abstract

本公开实施例公开了一种策略估计网络的训练方法及装置、传输方法、设备及介质，该策略估计网络的训练方法包括：获取车辆与多个路边单元之间的信道状态数据；将所述信道状态数据输入所述策略估计网络以确定传输策略；基于所述信道状态数据和所述传输策略，确定传输时间数据；以所述传输时间数据作为约束条件，确定优化策略；以及基于所述优化策略训练所述策略估计网络，从而精确控制传输时延，能够生成更优的传输策略，提高车辆与外界通信链路的稳定性。

Description

策略估计网络的训练方法及装置、传输方法、设备及介质

技术领域

本公开涉及信息技术领域，具体涉及一种策略估计网络的训练方法及装置、传输方法、设备及介质。

背景技术

在车联网场景中，车与外界之间经常需要实时地交换数据。由于路边单元(基站)的情况难以预知，如何实时地确定车与路边单元之间的数据传输策略，例如传输节点的选择以及带宽的分配等，成为制约车联网发展的一个技术问题，该问题将直接导致车辆高速移动过程中通信链路不稳定。

发明内容

为了解决相关技术中的问题，本公开实施例提供一种策略估计网络的训练方法及装置、传输方法、设备及介质。

第一方面，本公开实施例提供了一种策略估计网络的训练方法。

具体地，该策略估计网络的训练方法包括：

获取车辆与多个路边单元之间的信道状态数据；

将所述信道状态数据输入所述策略估计网络以确定传输策略；

基于所述信道状态数据和所述传输策略，确定传输时间数据；

以所述传输时间数据作为约束条件，确定优化策略；以及

基于所述优化策略训练所述策略估计网络。

结合第一方面，本公开在第一方面的第一种实现方式中，所述传输策略包括路边单元选择、视频层数以及分配的带宽大小。

结合第一方面，本公开在第一方面的第二种实现方式中，所述传输时间数据包括当前时间周期的时延、第一估计时间以及第二估计时间，其中，所述第一估计时间包括从当前时间周期到回合结束期间的累计传输估计时间，所述第二估计时间包括从下一时间周期到回合结束期间的累计传输估计时间；所述约束条件包括基于所述时延、第一估计时间以及第二估计时间之间数值关系的约束条件。

结合第一方面的第二种实现方式，本公开在第一方面的第三种实现方式中，所述以所述传输时间数据作为约束条件，确定优化策略包括通过线性优化确定优化策略：

所述线性优化的约束条件包括所述时延、第一估计时间以及第二估计时间之间的数值关系以及各个动作的取值范围；

所述线性优化的目标函数包括以下一个或多个：视频质量最高、选择的接收节点与车辆之间距离最短以及分配的带宽最少。

结合第一方面的第三种实现方式，本公开在第一方面的第四种实现方式中，所述线性优化的目标函数包括：

基于所述信道状态数据和所述传输策略确定的从当前时间周期到回合结束期间的累计视频质量的估计值到达最大。

结合第一方面，本公开在第一方面的第五种实现方式中，所述基于所述优化策略训练所述策略估计网络包括：

以所述优化策略与所述传输策略之间的均方差作为损失函数，训练所述策略估计网络。

第二方面，本公开实施例中提供了一种传输方法。

具体地，该传输方法包括：

获取车辆与多个路边单元之间的信道状态数据；

将所述信道状态数据输入至如第一方面、第一方面的第一种至第五种实现方式中任一项的训练方法所训练的策略估计网络以确定传输策略；

基于所述传输策略传输数据。

第三方面，本公开实施例中提供了一种策略估计网络的训练装置。

具体地，该策略估计网络的训练装置包括：

获取模块，被配置为获取车辆与多个路边单元之间的信道状态数据；

第一确定模块，被配置为将所述信道状态数据输入所述策略估计网络以确定传输策略；

第二确定模块，被配置为基于所述信道状态数据和所述传输策略，确定传输时间数据；

第三确定模块，被配置为以所述传输时间数据作为约束条件，确定优化策略；以及

训练模块，被配置为基于所述优化策略训练所述策略估计网络。

第四方面，本公开实施例提供了一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如第一方面、第一方面的第一种至第十一种实现方式或第二方面中任一项所述的方法。

第五方面，本公开实施例中提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现如第一方面、第一方面的第一种至第十一种实现方式或第二方面中任一项所述的方法。

根据本公开实施例提供的技术方案，通过获取车辆与多个路边单元之间的信道状态数据；将所述信道状态数据输入所述策略估计网络以确定传输策略；基于所述信道状态数据和所述传输策略，确定传输时间数据；以所述传输时间数据作为约束条件，确定优化策略；以及基于所述优化策略训练所述策略估计网络，从而精确控制传输时延，能够生成更优的传输策略，提高车辆与外界通信链路的稳定性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本公开实施例的传输方法的应用场景的示意图；

图2示出根据本公开实施例的策略估计网络的训练方法的流程图；

图3示出演员评论家网络的示意图；

图4示出根据本公开实施例的传输方法的流程图；

图5示出根据本公开实施例的策略估计网络的训练装置的框图；

图6示出根据本公开实施例的传输装置的框图；

图7示出根据本公开实施例的电子设备的框图；以及

图8示出适于实现本公开实施例的方法和装置的计算机系统的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施例，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施例无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

如上文所述，如何实时地确定车与路边单元之间的数据传输策略，成为制约车联网发展的一个技术问题。以视频数据为例，一些相关技术提出了基于强化学习的解决方案，该方案以视频质量作为奖励值，将传输时延作为惩罚项，共同计算回报值。然而，在这种方法中，传输时延与视频质量的平衡只能通过研究人员的经验进行调整，对于传输时延无法实现精确控制，从而无法计算最优的传输策略。

图1示出根据本公开实施例的传输方法的应用场景的示意图。需要注意的是，图1所示仅为可以应用本公开实施例的场景的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，车辆110在公路上行驶，多个路边单元，例如基站121-124可以作为通信链路的节点，向车辆110提供通信服务。车辆110可以通过路边单元将数据传输到云端服务器。

由于车辆110在持续移动，在各个时刻，都需要确定传输策略，例如通过哪个路边单元传输数据，带宽如何分配等。策略选择不恰当，将导致车辆与外界通信链路的稳定性差。

本公开实施例提供了一种策略估计网络的训练方法，通过获取车辆与多个路边单元之间的信道状态数据；将所述信道状态数据输入所述策略估计网络以确定传输策略；基于所述信道状态数据和所述传输策略，确定传输时间数据；以所述传输时间数据作为约束条件，确定优化策略；以及基于所述优化策略训练所述策略估计网络，从而精确控制传输时延，能够生成更优的传输策略，提高车辆与外界通信链路的稳定性。

图2示出根据本公开实施例的策略估计网络的训练方法的流程图。

如图2所示，该方法包括操作S210～S250：

在操作S210，获取车辆与多个路边单元之间的信道状态数据；

在操作S220，将所述信道状态数据输入所述策略估计网络以确定传输策略；

在操作S230，基于所述信道状态数据和所述传输策略，确定传输时间数据；

在操作S240，以所述传输时间数据作为约束条件，确定优化策略；以及

在操作S250，基于所述优化策略训练所述策略估计网络。

根据本公开实施例，收集的车辆与路边单元之间的信道状态数据可以被存入缓冲区备用。

信道状态数据，也称信道状态信息(Channel State Information，CSI)，是反映通信链路的信道状态的属性，它描述了信号在每条传输路径上的衰弱因子，如信号散射，环境衰弱，距离衰减等信息。

强化学习，是智能体以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。标准的强化学习模式为，智能体获取外部环境的当前状态信息s，对环境采取试探行为a，并获取环境反馈的对此动作a的评价r和新的环境状态s’。如果智能体的某动作a导致环境正的奖赏，那么智能体以后产生这个动作的趋势便会加强；反之，智能体产生这个动作的趋势将减弱。在学习系统的控制行为与环境反馈的状态及评价的反复的交互作用中，以学习的方式不断修改从状态到动作的映射策略，以达到优化系统性能目的。

根据本公开实施例，策略估计网络作为强化学习的智能体，以信道状态数据作为强化学习中的环境状态s，传输策略作为智能体根据环境状态产生的动作a。

根据本公开实施例，所传输的数据可以为视频数据，所述传输策略包括路边单元选择、视频层数以及分配的带宽大小。其中，视频层数决定了视频质量和视频数据量，视频层数越高则视频质量和视频数据量越高。视频传输时间为视频数据量与传输速率的商，而传输速率与分配带宽和信道状态相关，因此，路边单元选择、视频层数以及分配的带宽大小共同决定了视频传输时间。

根据本公开实施例，策略估计网络可以是全连接神经网络。策略估计网络可以接受信道状态数据的输入，并输出传输策略。路边单元选择和视频层数是离散数据，而分配的带宽是连续数据。针对连续的带宽，策略估计网络可以输出带宽策略集合的均值和方差，然后从满足该均值和方差的高斯分布中选择带宽大小。

根据本公开实施例，均值μ和方差σ的计算方法如下：

μ＝γ(W_μx+b)

其中，W_μ，W_σ为计算均值和方差时使用的神经网络权重，b为神经网络偏置，γ为激活函数，例如ReLu函数。

根据本公开实施例提供的技术方案，通过传输策略包括路边单元选择、视频层数以及分配的带宽大小，从而精确控制视频传输时延，能够生成更优的传输策略，提高车辆与外界通信链路的稳定性。

根据本公开实施例，该策略估计网络需要在使用中不断学习以达到策略优化的目的，学习的过程体现为步骤S230～S250。

根据本公开实施例，在信道状态数据s和传输策略a确定的情况下，可以预测传输时间数据，将该传输时间数据作为约束条件，可以确定出是否存在更优的传输策略，即优化策略a’，从而可以基于传输策略a和优化策略a’训练策略估计网络。

根据本公开实施例，可以采用演员评论家(Actor-Critic)网络结构的强化学习模型实现本公开实施例的方法。

图3示出演员评论家网络的示意图。

如图3所示，演员评论家网络包括演员Actor网络和评论家Critic网络。当从环境获得状态s后，Actor网络根据状态s输出动作a，Critic网络根据状态s和动作a，输出动作的价值Q，用于指导Actor网络训练。执行动作a后，环境状态s产生变化，变为s’，如此往复。其中，每个循环称为一个时间周期或一步(step)，多个时间周期构成一个回合。回合的长度可以根据需要进行定义，例如可以定义到一个视频传输完毕为一个回合，或者到可连接的路边单元发生变化为一个回合。另外，Critic网络根据环境给出的回报值进行训练，而回报值可以根据需要进行定义，例如，可以基于视频质量和/或视频的总传输时长确定回报值。

根据本公开实施例，策略估计网络可以作为Actor网络，在获得车辆与路边单元之间的信道状态数据(即状态s)后，可以输出动作a，例如包括路边单元选择、视频层数以及分配的带宽大小。

根据本公开实施例，Critic网络可以包括视频质量网络和传输时间网络，两者可以是全连接神经网络。视频质量网络和传输时间网络接收信道状态数据和传输策略的输入，并输出视频质量维度的价值Q_q和传输时间的价值Q_D。

根据本公开实施例，视频质量维度的价值Q_q可以是从当前时间周期i到回合结束期间的累计视频质量的估计值Q_q(s_i)，作为对未来视频质量的估计；传输时间的价值Q_D可以是从当前时间周期i到回合结束期间的累计传输时延的估计值Q_D(s_i)。

根据本公开实施例，所述传输时间数据包括当前时间周期的时延d(s,a)、第一估计时间Q_D(s_i)以及第二估计时间Q_D(s_i+1)，其中，所述第一估计时间包括从当前时间周期到回合结束期间的累计传输估计时间，所述第二估计时间包括从下一时间周期到回合结束期间的累计传输估计时间。

根据本公开实施例，当前周期的时延可以通过下式计算得到：

其中，size(layer)为所选的视频层数对应的数据量，B为分配的带宽，g(b,v)为选择的基站或路边单元与车辆之间的功率增益，由两者之间的距离决定，可通过信道状态数据获得，p为车辆的发射功率(设为固定值)，n为自然噪声。

根据本公开实施例，传输时间网络根据当前时间周期的动作a_i和状态s_i，可以输出第一估计时间Q_D(s_i)，并且Actor-Critic网络还可以估计执行动作a_i后，下一时间周期的状态估计值s_i+1，进而可以获得a_i+1和Q_D(s_i+1)。

根据本公开实施例，所述约束条件包括基于所述时延d(s,a)、第一估计时间Q_D(s_i)以及第二估计时间Q_D(s_i+1)之间数值关系的约束条件，从而精确控制传输时延，能够生成更优的传输策略，提高车辆与外界通信链路的稳定性。

根据本公开实施例，基于所述时延d(s,a)、第一估计时间Q_D(s_i)以及第二估计时间Q_D(s_i+1)之间数值关系的约束条件可以是d(s,a)+Q_D(s_i+1)<Q_D(s_i)，也就是说，采取某个策略产生的当前时间周期的时延加上下一周期对传输时延的估计值应当小于当前时间周期对传输时延的估计值，即采取该策略将减少时延的估计值，后面的优化过程在此约束条件下进行。

根据本公开实施例，如果某策略满足上述条件，则该策略进入低时延策略空间。若没有策略满足上述条件，说明当前策略已经是时延最低的策略，无需优化。

根据本公开实施例，所述以所述传输时间数据作为约束条件，确定优化策略包括通过线性优化确定优化策略：

例如：

其物理意义为：通过d(s,a)+Q_D(s_i+1)<Q_D(s_i)找到低时延策略空间，即找到3个动作layer(发送的视频层数)、b(选择接收节点：基站或路边单元)、B(分配的带宽)的集合，即：

再结合0<layer<5、0<b<N、0<B<10⁷三个取值范围，可以确定一个低时延集合，在该集合中选择最优策略，即PSNR(layer)_max,d(b,v)_min,B_min(视频质量最高，选择的接收节点与车辆之间距离最短，分配的带宽最少)。

根据本公开实施例提供的技术方案，通过所述线性优化的约束条件包括所述时延、第一估计时间以及第二估计时间之间的数值关系以及各个动作的取值范围；所述线性优化的目标函数包括以下一个或多个：视频质量最高、选择的接收节点与车辆之间距离最短以及分配的带宽最少，从而精确控制传输时延，能够生成更优的传输策略，提高车辆与外界通信链路的稳定性。

根据本公开实施例，所述线性优化的目标函数包括基于所述信道状态数据和所述传输策略确定的从当前时间周期到回合结束期间的累计视频质量的估计值到达最大。

根据本公开实施例，PSNR(layer)可以选用视频质量网络输出的视频质量维度的价值Q_q作为参考依据，通过基于所述信道状态数据和所述传输策略确定的从当前时间周期到回合结束期间的累计视频质量的估计值到达最大，从而能够生成更优的传输策略，提高车辆与外界通信链路的稳定性。

根据本公开实施例，所述基于所述优化策略训练所述策略估计网络包括以所述优化策略与所述传输策略之间的均方差作为损失函数，训练所述策略估计网络。

根据本公开实施例，可以将当前策略(Actor网络输出的传输策略)与最优策略(通过线性优化产生的优化策略)的均方差作为Actor网络的损失值，更新Actor网络。如果网络已经收敛，则结束训练，否则重复训练过程。

根据本公开实施例提供的技术方案，通过以所述优化策略与所述传输策略之间的均方差作为损失函数，训练所述策略估计网络，从而精确控制传输时延，能够生成更优的传输策略，提高车辆与外界通信链路的稳定性。

本公开实施例提供的方法通过基于时延数据构造约束条件，利用深度学习减少人工复查的成本和存储成本，有效地解决了数据传输的最优化问题。

图4示出根据本公开实施例的传输方法的流程图。

如图4所示，该方法包括操作S410～S430：

在操作S410，获取车辆与多个路边单元之间的信道状态数据；

在操作S420，将所述信道状态数据输入至上文所述的训练方法所训练的策略估计网络以确定传输策略；

在操作S430，基于所述传输策略传输数据。

根据本公开实施例提供的技术方案，通过获取车辆与多个路边单元之间的信道状态数据；将所述信道状态数据输入至上文所述的训练方法所训练的策略估计网络以确定传输策略；基于所述传输策略传输数据，从而精确控制传输时延，能够生成更优的传输策略，提高车辆与外界通信链路的稳定性。

图5示出根据本公开实施例的策略估计网络的训练装置500的框图。其中，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。

如图5所示，所述策略估计网络的训练装置500包括获取模块510、第一确定模块520、第二确定模块530、第三确定模块540以及训练模块550。

获取模块510，被配置为获取车辆与多个路边单元之间的信道状态数据。

第一确定模块520，被配置为将所述信道状态数据输入所述策略估计网络以确定传输策略。

第二确定模块530，被配置为基于所述信道状态数据和所述传输策略，确定传输时间数据。

第三确定模块540，被配置为以所述传输时间数据作为约束条件，确定优化策略。

训练模块550，被配置为基于所述优化策略训练所述策略估计网络。

根据本公开实施例提供的技术方案，通过获取模块510，被配置为获取车辆与多个路边单元之间的信道状态数据；第一确定模块520，被配置为将所述信道状态数据输入所述策略估计网络以确定传输策略；第二确定模块530，被配置为基于所述信道状态数据和所述传输策略，确定传输时间数据；第三确定模块540，被配置为以所述传输时间数据作为约束条件，确定优化策略，从而精确控制传输时延，能够生成更优的传输策略，提高车辆与外界通信链路的稳定性。

根据本公开实施例，所述传输策略包括路边单元选择、视频层数以及分配的带宽大小。

根据本公开实施例，所述传输时间数据包括当前时间周期的时延、第一估计时间以及第二估计时间，其中，所述第一估计时间包括从当前时间周期到回合结束期间的累计传输估计时间，所述第二估计时间包括从下一时间周期到回合结束期间的累计传输估计时间；所述约束条件包括基于所述时延、第一估计时间以及第二估计时间之间数值关系的约束条件。

根据本公开实施例，所述线性优化的目标函数包括：

根据本公开实施例，所述基于所述优化策略训练所述策略估计网络包括：

图6示出根据本公开实施例的传输装置600的框图。其中，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。

如图6所示，所述传输装置600包括获取模块610、第一确定模块620以及传输模块630。

获取模块610，被配置为获取车辆与多个路边单元之间的信道状态数据；

第一确定模块620，被配置为将所述信道状态数据输入至上文所述的训练方法所训练的策略估计网络以确定传输策略；

传输模块630，被配置为基于所述传输策略传输数据。

根据本公开实施例提供的技术方案，通过获取模块610，被配置为获取车辆与多个路边单元之间的信道状态数据；第一确定模块620，被配置为将所述信道状态数据输入至上文所述的训练方法所训练的策略估计网络以确定传输策略；传输模块630，被配置为基于所述传输策略传输数据，从而精确控制传输时延，能够生成更优的传输策略，提高车辆与外界通信链路的稳定性。

本公开还公开了一种电子设备，图7示出根据本公开实施例的电子设备的框图。

如图7所示，所述电子设备700包括存储器701和处理器702，其中，存储器701用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器702执行以实现如下操作：

获取车辆与多个路边单元之间的信道状态数据；

以所述传输时间数据作为约束条件，确定优化策略；以及

基于所述优化策略训练所述策略估计网络。

或者，所述一条或多条计算机指令被所述处理器702执行以实现如下操作：

获取车辆与多个路边单元之间的信道状态数据；

将所述信道状态数据输入至如上文所述的训练方法所训练的策略估计网络以确定传输策略；

基于所述传输策略传输数据。

图8示出适于实现本公开实施例的方法和装置的计算机系统800的结构示意图。

如图8所示，计算机系统800包括处理单元801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行上述实施例中的各种处理。在RAM 803中，还存储有系统800操作所需的各种程序和数据。处理单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。其中，所述处理单元801可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。

特别地，根据本公开的实施例，上文描述的方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行上述方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中电子设备或计算机系统中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种策略估计网络的训练方法，采用演员评论家网络结构的强化学习模型实现，所述方法包括：

获取车辆与多个路边单元之间的信道状态数据；

以所述传输时间数据作为约束条件，确定优化策略；以及

基于所述优化策略训练所述策略估计网络；

其中，所述传输策略包括路边单元选择、视频层数以及分配的带宽大小。

2.根据权利要求1所述的方法，其中：

所述传输时间数据包括当前时间周期的时延、第一估计时间以及第二估计时间，其中，所述第一估计时间包括从当前时间周期到回合结束期间的累计传输估计时间，所述第二估计时间包括从下一时间周期到回合结束期间的累计传输估计时间；

所述约束条件包括基于所述时延、第一估计时间以及第二估计时间之间数值关系的约束条件。

3.根据权利要求2所述的方法，其中，所述以所述传输时间数据作为约束条件，确定优化策略包括通过线性优化确定优化策略：

4.根据权利要求3所述的方法，其中，所述线性优化的目标函数包括：

5.根据权利要求1所述的方法，其中，所述基于所述优化策略训练所述策略估计网络包括：

6.一种传输方法，包括：

获取车辆与多个路边单元之间的信道状态数据；

将所述信道状态数据输入如权利要求1～5任一项所述的训练方法训练得到的策略估计网络以确定传输策略；

基于所述传输策略传输数据。

7.一种策略估计网络的训练装置，采用演员评论家网络结构的强化学习模型实现，所述装置包括：

训练模块，被配置为基于所述优化策略训练所述策略估计网络；

8.一种电子设备，其特征在于，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现权利要求1～6任一项所述的方法步骤。

9.一种可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1～6任一项所述的方法步骤。