CN110113418B

CN110113418B - 一种车联信息中心网络的协同缓存更新方法

Info

Publication number: CN110113418B
Application number: CN201910379979.0A
Authority: CN
Inventors: 马立香; 张悦田; 张科; 罗荣
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2020-06-02
Anticipated expiration: 2039-05-08
Also published as: CN110113418A

Abstract

本发明公开一种车联信息中心网络的协同缓存更新方法，应用于车联信息中心网络技术领域，为了解决现有技术存在的不能很好地综合多因素决策以及车辆之间不进行协同导致的不能充分利用缓存空间的问题；本发明通过增强学习的Policy Gradient算法，使用神经网络用于参数的选取，以观察到的环境因素为神经网络的输入，把神经网络的输出作为缓存更新决策，可以综合考虑多种影响因素，具有现实意义；本发明通过综合缓存更新中的缓存决策与缓存替换两个过程，基于设计的Beacon报文实现多车之间的信息共享，实现了车辆用户之间的协同缓存更新策略，一定程度上避免出现缓存的大量冗余，提高了对车辆用户上有限缓存空间的利用率。

Description

一种车联信息中心网络的协同缓存更新方法

技术领域

本发明属于车联信息中心网络领域，特别涉及一种车联信息中心网络缓存更新技术。

背景技术

随着新型车载网络通信设备的广泛普及和各类车联网应用的发展，车联网从传统的辅助交通管理的安全类应用正在向支持多元化、海量化的娱乐信息服务类应用发展。车联网中的网络服务需求日益增加，由于信息中心网络(Information-Centric Networking,ICN)能提供对大规模的车联网服务及海量内容的有效支持，使得基于ICN的车联网成为了研究中的热门课题，简称为车联ICN。信息中心网络是以内容为中心的新型通信架构，它克服了IP网络许多的限制，能够提供有效的内容交付。网内缓存是ICN的重要特性，ICN中的节点可以对内容进行存储。有效的车联ICN缓存更新策略可以降低网络负载，提高内容请求的成功率，降低内容请求的时延，然而频繁的缓存更新一方面为车辆用户带来较大的开销，另一方面给缓存发现过程也造成一定的困难。ICN场景缓存更新示意图如图1所示。

在现有的缓存更新策略中，有以下两点可以考虑改进的地方。一方面，需要纳入考虑的因素很多，比如内容流行度、车速、邻居节点的缓存情况等，现有的策略选择其中某个因素进行研究或者简单使用线性组合的方式综合考虑多个因素。然而在不同环境下，各因素对结果的影响不同，同时各因素的量纲不同。若使用线性组合的方式，则各参数的设置需要大量的实验比较且具有个体差异性，即不同车辆用户最优的参数不同。另一方面，现有的策略将缓存决策与缓存替换问题分开设计，缓存决策用于分析该内容是否被缓存，缓存替换则分析被替换的内容。然而缓存决策是通过将该内容与缓存的内容进行比较得出结论的，因此缓存决策与缓存替换应该是同时进行的。

发明内容

为解决上述技术问题，本发明提出一种车联信息中心网络的协同缓存更新方法，包括Interest报文缓存命中收益更新，根据Beacon报文进行信息更新，通过PolicyGradient算法更新神经网络参数，根据Data报文基于神经网络进行缓存决策与缓存替换；可以有效降低网络负载，提高内容请求的成功率，降低内容请求的时延。

本发明采用的技术方案为：一种车联信息中心网络的协同缓存更新方法，包括：

S1、若收到的报文为Interest报文，则根据Interest报文请求的内容是否存在于缓存中更新收益；否则收到Data报文，执行步骤S2；

S2、收到Data报文，若为Beacon报文，根据Beacon报文内容进行信息更新；否则执行步骤S3；

S3、当收到非Beacon的Data报文，进行缓存决策与缓存替换。

进一步地，步骤S1所述根据Interest报文请求的内容是否存在于缓存中更新收益，具体为：当Interest报文请求的内容存在于缓存中时，根据公式r＝r+w^step更新收益；当Interest报文请求的内容不存在于缓存中时，根据公式r＝r-m^step更新收益；

其中，r表示收益，w^step表示正收益，m^step表示负收益。

更进一步地，每次命中缓存根据Interest报文的累积跳数，设置正收益w^step；每次命中失败设置负收益m^step。

进一步地，步骤S2所述信息更新，包括：邻居车辆存储的内容、邻居车辆请求内容的期望跳数、邻居车辆对内容流行度的估计、邻居车辆的轨迹信息。

进一步地，步骤S3具体包括以下分步骤：

S31、当收到非Beacon的Data报文，将当前的收益存入轨迹，确定环境状态；

S32、确定当前神经网络的参数θ；

S33、根据步骤S32确定的当前神经网络的参数θ，将步骤S31中的环境状态作为神经网络的输入，得到采取每一种行为的概率，并根据该概率随机选择一个行为执行；

S34、根据步骤S33所选择的行为，若需要替换缓存，则收益r＝-ch；否则令收益r＝0；其中ch为缓存更新的负收益；

S35、将步骤S31的环境状态与步骤S33选择的行为存入轨迹。

进一步地，步骤S32所述的确定当前神经网络的参数θ，计算式为：

其中，t表示时间T中的某个时隙，n表示轨迹的标号，α为学习率，

表示在轨迹n中时隙t对应的行为，

表示在轨迹n中时隙t对应的状态，

表示在轨迹n中时间[t,T]内的收益之和。

进一步地，步骤S35所述轨迹为：{s₁,a₁,r₁,…,s_T,a_T,r_T}～_πθ

其中，r₁、r_T表示收益，π表示策略，θ表示策略π所使用的参数。

本发明的有益效果：通过增强学习的Policy Gradient算法，使用神经网络用于参数的选取，以观察到的环境因素为神经网络的输入，把神经网络的输出作为缓存决策，可以综合考虑多种影响因素，具有现实意义；通过综合缓存决策与缓存替换，基于设计的Beacon报文实现多车之间的信息共享，实现了车辆用户之间的协同缓存更新策略，一定程度上避免出现缓存的大量冗余，提高对车辆用户上有限缓存空间的利用率；本发明的缓存更新策略可以有效的降低网络负载，提高内容请求的成功率，降低内容请求的时延。

附图说明

图1为本发明实施例提供的缓存更新场景；

图2为本发明实施例提供的收到报文的缓存更新决策流程图；

图3为本发明的神经网络决策示意图；

图4为本发明的仿真图。

具体实施方式

为了便于本领域的普通技术人员理解本发明，首先对技术术语做出如下定义：

智能体：Agent。检测环境并执行相应的动作，同时建立自己的策略适应环境的系统。本发明中的智能体为网络中的车辆。

环境：Environment。智能体所处的现实世界。

状态：State。智能体当前所处的现状。

State＝[P_C,Q_C,P_l,Q_l,C_v,VEL,P′_C,Q′_C,N′_C]

其中，C表示当前车辆缓存内容的集合。P′_C表示邻居车辆上对于C的请求概率，Q′_C表示邻居车辆对于C缓存发现过程中需要的期望跳数，N′_C表示邻居车辆对于C存储的数量。

行为：Action。智能体采取的动作。在缓存更新过程中，需要解决的问题有两个：是否缓存以及替换对象。所以此问题中行为的定义即为替换内容标号或者不替换。即假设车辆用户可以缓存的内容总量为N，那么神经网络的输出维度为N+1维，分别表示替换第一个到第N个内容的概率以及不替换的概率。在缓存空间剩余的情况下，必定会缓存收到的Data报文内所包含的内容。

收益：Reward。智能体从环境中得到的反馈。在车联ICN中，期望缓存的内容命中的概率尽量大，所以需要设置相应的收益函数鼓励提高内容命中率的行为。为了防止车辆缓存更新过于频繁，使得周围车辆缓存发现过程中Q表难以收敛，影响缓存发现过程的效果，因此给予一次缓存更新负收益ch。每次命中缓存根据Interest报文的累积跳数step，设置正收益为w^step；同样，命中失败也设置相应的负收益m^step，设当前Data报文到达时刻为T，下一个Data报文到达时刻为T′，首先需要定义一个集合ψ＝{t|b(t)＝1}，对于反馈R_T公式如下：

其中，g_T表示T时刻是否进行缓存更新，b(t)表示在时隙t是否收到Interest报文，δ(t)为脉冲函数，f(t)＝h(t)*w^step(t)-(1-h(t))*m^step(t)，h(t)表示时隙t收到Interest报文请求的内容是否命中，step(t)表示时隙t收到的Interest报文累积跳数。

策略：Policy。智能体学习得到的状态到行为的一个映射。

轨迹：Trajectory。{s₁,a₁,r₁,…,s_T,a_T,r_T}～π_θ表示在一段时间内智能体收集的状态、行为与收益三元组的集合以及对应策略π和策略所使用的参数θ。

Interest报文与Data报文：ICN中的报文分为Interest报文与Data报文两类，Interest报文用于内容的请求，Data报文是内容提供方发出的包含内容的报文。

Beacon报文：一种特殊的Data报文，车辆用户之间通过Beacon报文交互信息，包括共享自身收集的轨迹、缓存发现过程中维护的Q表以及对内容流行度的估计和自身缓存中已有的内容。Beacon报文的内容如表1所示。

表1 Beacon报文

下面结合附图和具体实施例进一步说明本发明的技术方案。

本实施例中，缓存更新场景如图1所示，假设无线网络容量为C_net，车辆与车辆最大通信距离为D_v2v，车辆与路旁系统(Road Side Unit，RSU)最大通信距离为D_v2s，车辆集合为N_v，Data报文内容大小为C_packet，数量为N_packet，Interest报文产生频率为f。

基于上述描述，本实施例提供一种车联信息中心网络的协同缓存更新方法，具体流程如图2所示，包括以下步骤：

S1、车辆集合N_v中任一车辆收到报文，判断是否为Interest报文，根据Interest报文请求的内容是否存在于缓存中更新收益；具体包括以下子步骤：

S11、判断报文是否为Interest报文，若是，则进入步骤S12；若不是，则进入步骤S21；

S12、根据Interest报文请求的内容判断是否存在于缓存中，若存在，则根据公式r＝r+w^step更新收益；若不存在，则根据公式r＝r-m^step更新收益；其中r表示收益，每次命中缓存根据Interest报文的累积跳数step，设置正收益为w^step；同样，命中失败也设置相应的负收益m^step，w与m的取值视具体情况而定，在收益的期望值为0时，算法收敛会更快。因此，当在缓存命中率大约为p的场景中，可以设置w·p-m*(1-p)＝0。例如，在缓存命中率大约为40％的场景中，可以设置w＝0.03，m＝0.02。

S13、结束，等待下一报文。

S2、收到Data报文，判断是否为Beacon报文，根据Beacon报文内容进行信息更新；具体包括如下分步骤：

S21、收到Data报文，判断是否为Beacon报文，若是，进入步骤S22；若不是，则进入步骤S31；

S22、根据Beacon报文内容进行信息更新，包括：邻居车辆存储的内容、邻居车辆请求内容的期望跳数、邻居车辆对内容流行度的估计、邻居车辆的轨迹信息。

S3、收到非Beacon的Data报文，进行缓存决策与缓存替换；本步骤中采用神经网络进行参数的选取，具体决策过程如图3所示；包括如下分步骤：

S31、收到非Beacon的Data报文，将当前的收益r存入轨迹，确定环境状态s；

S32、确定当前神经网络参数θ，若θ未初始化，首先初始化θ，可以使用均值为0的均匀分布随机生成；对于轨迹{s₁,a₁,r₁,…,s_T,a_T,r_T}～π_θ中的每一个轨迹在时间T内的每一个时隙t，通过

更新θ；其中R_t表示在时间[t,T]内的轨迹内的收益之和，本领域的技术人员应知这里的时隙t为整数，t＝1,2,3,…,T，α为学习率；

S33、根据确定的神经网络参数θ，将确定的环境状态s作为神经网络的输入，得到采取每一种行为的概率p(a|s,θ)，并按照概率随机选择一个行为a具体执行；神经网络决策流程如图3所示；

S34、根据S33选择的行为a可以得到替换当前缓存中的第几条缓存或是不进行缓存，若需要缓存，令收益r＝-ch；否则令收益r＝0；其中ch为缓存更新的负收益；

S35、将环境状态s与执行的行为a存入轨迹，结束，等待一下报文。

本实施例中，在收到Data报文时，如果缓存空间在有剩余的情况下，必定会缓存收到的Data报文内所包含的内容。

综上所述，本发明提出了一种基于增强学习的Policy Gradient算法和综合缓存决策与缓存替换的车联信息中心网络缓存更新策略。通过增强学习的Policy Gradient算法，使用神经网络用于参数的选取，可以综合考虑多种影响因素；通过综合缓存决策与缓存替换，基于设计的Beacon报文实现多车之间的信息共享，实现了车辆用户之间的协同缓存更新策略，如图4所示，本发明的方法相比于现有技术，内容请求成功率更高，图4中，PGCD-LRU表示使用PGCD算法决策是否进行缓存，并用LRU算法进行缓存替换；Prob(0.5)-LRU表示使用Prob(0.5)算法决策是否进行缓存，并用LRU算法进行缓存替换；LCE-LRU表示使用LCE算法决策是否进行缓存，并用LRU算法进行缓存替换；C-PGCU为本发明的协同缓存更新方法；PGCU表示不使用Beacon帧对车辆之间进行协同的情况下进行缓存更新；本领域的技术人员应知当内容请求成功率提高时，表明本发明的方法更为有效的利用了车辆上有限的空间，即本发明的方法一定程度上避免出现缓存的大量冗余，并提高对车辆用户上有限缓存空间的利用率。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种车联信息中心网络的协同缓存更新方法，其特征在于，包括：

S2、收到Data报文，若为Beacon报文，则根据Beacon报文内容进行信息更新；否则执行步骤S3；

S3、当收到非Beacon的Data报文，进行缓存决策与缓存替换；步骤S3具体包括以下分步骤：

S32、确定当前神经网络的参数θ；计算式为：

表示在轨迹n中时隙t对应的行为，

表示在轨迹n中时隙t对应的状态，

表示在轨迹n中时间[t,T]内的收益之和；

S35、将步骤S31的环境状态与步骤S33选择的行为存入轨迹。

2.根据权利要求1所述的一种车联信息中心网络的协同缓存更新方法，其特征在于，步骤S1所述根据Interest报文请求的内容是否存在于缓存中更新收益，具体为：当Interest报文请求的内容存在于缓存中时，根据公式r＝r+w^step更新收益；当Interest报文请求的内容不存在于缓存中时，根据公式r＝r-m^step更新收益；

其中，r表示收益，w^step表示正收益，m^step表示负收益。

3.根据权利要求2所述的一种车联信息中心网络的协同缓存更新方法，其特征在于，每次命中缓存根据Interest报文的累积跳数，设置正收益w^step；每次命中失败设置负收益m^step。

4.根据权利要求1所述的一种车联信息中心网络的协同缓存更新方法，其特征在于，步骤S2所述信息更新，包括：邻居车辆存储的内容、邻居车辆请求内容的期望跳数、邻居车辆对内容流行度的估计、邻居车辆的轨迹信息。

5.根据权利要求1所述的一种车联信息中心网络的协同缓存更新方法，其特征在于，步骤S35所述轨迹为：{s₁,a₁,r₁,…,s_T,a_T,r_T}～π_θ

其中，r₁、r_T表示收益，π表示策略，θ表示策略π所使用的参数；s₁表示当前轨迹在时隙t对应的状态，s_T表示当前轨迹在时隙T对应的状态，a₁表示当前轨迹在时隙t对应的行为，a_T表示当前轨迹在时隙T对应的行为。