CN106503238A

CN106503238A - 一种强化学习驱动的网络地图区域聚类预取方法

Info

Publication number: CN106503238A
Application number: CN201610974754.6A
Authority: CN
Inventors: 王昱淇
Original assignee: 王昱淇
Current assignee: Anhui Puhua Big Data Technology Co.,Ltd.
Priority date: 2016-11-07
Filing date: 2016-11-07
Publication date: 2017-03-15
Anticipated expiration: 2036-11-07
Also published as: CN106503238B

Abstract

本发明提供的一种强化学习驱动的网络地图区域聚类预取方法，同一区域内的瓦片小文件合并为区域聚类大文件，建立强化学习驱动的网络地图区域聚类预取模型，模型将记录统计的热点区域和区域空间关系加入Q学习参数中，Q值最大的方向对应的区域为对应预取区域。本发明通过对网络地图用户请求区域的缓存，提高对网络地图服务器缓存空间的利用率，网络地图数据以区域聚类大文件的形式缓存和预取，提高了瓦片的缓存和预取质量，结合网络地图自身的特点和历史访问记录，实时动态预测网络地图未来的热点区域并缓存，实现了一种主动大规模高效预取，动态更新且预测准确，能够提高网络地图服务器的性能。

Description

一种强化学习驱动的网络地图区域聚类预取方法

技术领域

本发明涉及一种网络地图区域聚类预取方法，特别涉及一种强化学习驱动的网络地图区域聚类预取方法，属于网络地图数据预取技术领域。

背景技术

网络地图并发用户多，地图数据量大，传输耗时长。传统网络地图由于服务质量不高，严重制约了网络地图的应用，需要一个性能以上有很大提升的网络地图服务器系统。现有技术的网络地图服务器对于用户频繁访问的瓦片内容和数据，仍然需要每一次都从硬盘中获得，该过程开销大、速度慢，效率低，服务器的缓存没有得到充分的利用，严重影响了服务器的工作效率。

如果将用户频繁访问的地图数据，直接缓存或预取在地图服务器缓存中，避免了每一次都从硬盘中获得数据，缓存中获得地图数据开销小、速度快，效率高，提高了网络地图服务器的工作效率，能解决单一服务器I/O带宽不足、处理能力不足的问题，可以支持高强度、大规模的网络地图用户并发访问，提高网络地图服务的可用性、可靠性。

但网络地图在服务器端以瓦片的形式生成，瓦片大小从1KB到20KB，具有“单个文件小、总个数多”的特点,采用瓦片方法缓存或预取，文件数量大，过多的小文件导致缓存和预取文件过多过杂，容易达到系统的性能瓶颈。

现有技术的网络地图数据预取方法较少，相关专利也较为少见。现有技术中有基于单个瓦片的缓存，但缓存单元小，需要缓存的瓦片多，组织和管理都比较复杂，也缺少对网络地图未来访问热点趋势的预测，更是缺少结合网络地图的访问特点对未来访问热点区域的提前预取。

综合来看，现有技术主要存在以下几点缺陷：一是缺少对网络地图服务器缓存空间的有效利用，对于用户频繁访问的地图内容和数据，仍然需要每一次都从硬盘中获得，该过程开销大、速度慢，效率低，严重影响了服务器的工作效率；二是网络地图数据都是瓦片文件，瓦片文件都是小文件且数量巨大，海量瓦片数据的组织和管理非常复杂，过多的小文件不利于文件的管理、查找和服务，也会导致缓存和预取文件过多过杂；三是缺少先进预取方法对服务器缓存的高效利用，缺少准确预取网络地图热点区域，提高网络地图服务器性能的关键方法，四是缺少结合网络地图自身的特点和历史访问记录，实时动态预测网络地图未来的热点区域的方法。

发明内容

针对现有技术的不足，本发明提供的一种强化学习驱动的网络地图区域聚类预取方法，通过对网络地图用户请求的区域的缓存，提高了对网络地图服务器缓存空间的利用，网络地图数据以区域聚类大文件的形式缓存和预取，提高了瓦片的缓存和管理质量，结合网络地图自身的特点和历史访问记录，动态预测网络地图未来的热点区域，实现了一种实时大规模高效预取，动态更新且预测准确，能够提高网络地图服务器的性能。

为达到以上技术效果，本发明所采用的技术方案如下：

一种强化学习驱动的网络地图区域聚类预取方法，网络地图数据为瓦片小文件，同一区域内的瓦片小文件合并为区域聚类大文件，网络地图数据以区域聚类大文件的形式缓存和预取；

网络地图服务器运行时，统计一段时间内用户对不同区域的访问次数，选择用户访问次数最多的若干个区域作为当前网络地图的热点区域，根据网络地图的区域划分信息确定同一层内各区域聚类大文件的相邻关系；

建立强化学习驱动的网络地图区域聚类预取模型，所述强化学习为Q学习，模型将记录统计到的热点区域和网络地图的区域空间关系加入Q学习参数中，所述Q学习采用轨迹移动试探评价方法，尝试各区域可能的移动方向，通过试探到达热点区域的最优路径，判断各种移动方向的效果，基于各种移动方向的Q学习奖惩值得到各区域各种移动方向上的Q值；

各区域不同移动方向中，Q值最大的方向对应的区域为对应预取区域，网络地图用户的当前请求为某一区域时，将该区域Q值最大的方向对应的区域提前预取；

强化学习驱动的网络地图区域聚类预取方法的步骤为：

第一步，网络地图数据为瓦片小文件，根据区域划分将同一区域内的瓦片小文件合并为区域聚类大文件，网络地图数据以区域聚类大文件的形式组织和缓存；

第二步，网络地图服务器运行，统计一段时间内用户对地图不同区域的访问次数，选择用户访问次数最多的若干个区域作为当前网络地图的热点区域，根据网络地图的区域划分信息确定同一层内各区域聚类大文件的相邻关系，作为强化学习驱动的网络地图区域聚类预取方法所需的信息和数据；

第三步，建立强化学习驱动的网络地图区域聚类预取模型，所述强化学习为Q学习，将记录统计到的热点区域和网络地图的区域空间关系加入Q学习参数中，Q学习的Agent每次学习迭代模拟用户的网络地图访问行为，会收到奖励或惩罚信息，以表示移动行为是否正确，Agent从回报结果中学习，Q学习的预取模型的公式为：

Q(s，a)＝Q(s，a)+alpha*(gama*max Q(s'，a')+r(s，a)-Q(s，a))

s＝s'

强化学习驱动的网络地图区域聚类预取模型采用位置-方向对的奖赏和Q(s，a)作为预测函数，其中s表示当前所处的区域位置，a表示区域不同方向上的移动动作，Q(s，a)表示在位置s下移动动作a得到的Q值，maxQ(s'，a')表示在当前所处的区域位置s'下，向不同的方向a'移动所能够获得的最大Q值，r(s，a)表示当前所处的区域位置s与热点区域相邻时，在当前所处的区域位置s下通过向a方向移动能够直接到达热点区域所获得的奖赏值，alpha和gama为公式参数，alpha和gama的取值范围为0至1；

第四步，启动强化学习驱动的网络地图区域聚类预取模型，Q学习算法迭代计算出不同区域s不同移动方向a上的Q值Q(s，a)；

第五步，求得网络地图各区域不同方向上最大Q值，各区域的Q值最大的方向对应的区域为对应预取区域,记录各区域的对应预取区域；

第六步，判断网络地图用户请求的区域是否已经缓存或预取，若否，则首先将用户请求的区域聚类大文件缓存，然后将用户请求的区域数据发送给用户，若是，则直接在缓存中找到并发送用户请求的区域数据；

第七步，判断网络地图用户当前请求区域的对应预取区域是否已经缓存或预取，对应预取区域是当前用户请求的区域的Q值最大的方向对应的区域，若否，则将对应预取区域缓存后流程结束，若是，则流程直接结束。

一种强化学习驱动的网络地图区域聚类预取方法，进一步的，当前网络地图的热点区域的确定标准为区域地图访问量占全地图访问量的30％以上，或者全地图访问量排名前三的区域。

一种强化学习驱动的网络地图区域聚类预取方法，进一步的，网络地图的区域空间关系为网络地图的所有区域之间的相邻关系，包括每个区域的相邻区域以及二者之间的位置关系。

一种强化学习驱动的网络地图区域聚类预取方法，进一步的，r(s，a)的取值分两种情况，

当前所处的区域s与热点区域相邻时，向a方向移动能够直接到达热点区域，所获得的奖赏值r(s，a)＝100；

当前所处的区域s与热点区域不相邻时，r(s，a)＝0。

一种强化学习驱动的网络地图区域聚类预取方法，进一步的，alpha和gama为参数，alpha＝0.7，gama＝0.3。

一种强化学习驱动的网络地图区域聚类预取方法，进一步的，启动强化学习驱动的网络地图区域聚类预取模型时，Q学习算法迭代计算次数不小于1000次，随机从不同区域不同移动方向上迭代计算出各区域个方向上的Q(s，a)。

与现有技术相比，本发明的优点在于：

1.本发明提供的一种强化学习驱动的网络地图区域聚类预取方法，通过对网络地图用户请求的区域的缓存，提高了对网络地图服务器缓存空间的利用，对于用户频繁访问的地图内容和数据，不再需要每一次都从硬盘中获得，而是从缓存中获取，该过程开销小、速度块，服务器的缓存利用率高，提高了网络地图服务器的工作效率，网络地图数据查找快，用户体验较好。

2.本发明提供的一种强化学习驱动的网络地图区域聚类预取方法，同一区域内的瓦片小文件合并为区域聚类大文件，网络地图数据以区域聚类大文件的形式缓存和预取，提高了瓦片的缓存和管理质量，提高了Q学习方法预测热点区域的速度和准确性，解决了单个瓦片划分的过细过小，使用Q学习预测过程中对象和状态太多，关系过于复杂，预测效率低，不具备实际意义，也不符合用户访问规律的问题。

3.本发明提供的一种强化学习驱动的网络地图区域聚类预取方法，强化学习为Q学习，将记录统计到的热点区域和网络地图的区域空间关系加入Q学习参数中，基于各种移动轨迹的奖惩值得到各区域各种移动方向上的Q值，Q值最大的方向对应的区域为对应预取区域，该方法结合网络地图自身的特点和历史访问记录，动态预测网络地图未来的热点区域，实现了一种强化学习驱动的实时主动大规模高效预取，动态更新且预测准确，能够提高网络地图服务器的性能。

附图说明

图1是本发明提供的一种强化学习驱动的网络地图区域聚类预取方法的步骤图。

具体实施方式

下面结合附图，对本发明提供的一种强化学习驱动的网络地图区域聚类预取方法的技术方案进行进一步的描述，使本领域的技术人员可以更好的理解本发明并能予以实施。

参见图1，一种强化学习驱动的网络地图区域聚类预取方法，网络地图数据为瓦片小文件，同一区域内的瓦片小文件合并为区域聚类大文件，网络地图数据以区域聚类大文件的形式缓存和预取，提高了瓦片的组织和管理质量，提高了Q学习方法预测热点区域的速度和准确性，解决了单个瓦片划分的过细过小，使用Q学习预取过程中对象和状态太多，关系过于复杂，预取效率低，不具备实际意义，也不符合用户访问规律的问题。

网络地图服务器运行时，统计一段时间内用户对不同区域的访问次数，选择用户访问次数最多的若干个区域作为当前网络地图的热点区域，根据网络地图的区域划分信息确定同一层内各区域聚类大文件的相邻关系。

建立强化学习驱动的网络地图区域聚类预取模型，所述强化学习为Q学习，将记录统计到的热点区域和网络地图的区域空间关系加入Q学习参数中，Q学习采用轨迹移动试探评价方法，Agent尝试各个区域可能的移动方向，通过试探到达热点区域的最优路径，判断各种移动方向的效果，基于各种移动方向的Q学习奖惩值得到各区域的各种移动方向上的Q值；

各区域的不同移动方向中，Q值最大的方向对应的区域为对应预取区域，网络地图用户的当前请求为某一区域a时，将该区域a不同方向b上Q值最大的方向Q(a，b')对应的区域提前预取。

强化学习是智能系统从环境到行为映射的学习，以使奖励信号函数值最大。强化学习系统动作的好坏由环境产生的强化信号来评价，在行动与评价的环境中获取知识，改进行动方案以适应环境。Q学习作为模型无关的强化学习算法,该方法非常适合网络地图的热点轨迹预测，

通过不断的网络地图环境感知和学习，预测最优热点轨迹和下一步用户最可能访问的区域。

每次学习迭代时，Q学习的Agent都要考察每个地图移动行为，确保学习过程收敛。当训练Agent在网络地图中做出不同方向的移动动作时，会得到不同的奖惩信号，代表移动的效果。Agent的任务就是从动作的反馈结果中学习，为后续地图移动动作累积知识，通过学习选择达到判断网络地图热点的作用。

Q学习的迭代过程使用位置-移动方向对的奖惩和Q(s，a)为核心，其中s表示当前所处的区域位置，a表示区域不同方向上的移动动作，Q(s，a)表示在位置s下移动动作a得到的Q值，maxQ(s'，a')表示在当前所处的区域位置s'下，向不同的方向a'移动所能够获得的最大Q值，r(s，a)表示当前所处的区域位置s与热点区域相邻时，在当前所处的区域位置s下通过向a方向移动能够直接到达热点区域所获得的奖赏值，alpha和gama为参数，Q学习算法的基本过程如下：

Q(s，a)＝Q(s，a)+alpha*(gama*max Q(s'，a')+r(s，a)-Q(s，a))

s＝s'

作为模型无关的强化学习算法，Q学习适合对网络地图未来的访问热点进行预测。通过统计当前网络地图访问的热点区域，结合用户网络地图访问的的特点和空间关系，使用Q学习算法做出各种地图移动动作，收到奖惩信号，通过学习选择达到网络地图轨迹和热点预测的最优动作，得到用户未来的访问轨迹趋势，从而预测出未来访问概率最大的轨迹区域，并对热点区域预取。

Q学习运用到网络地图区域聚类预取中，提供了一种强化学习驱动的自适应主动预取方法，实现了一种实时预测的大规模高效预取，动态更新且预测准确。

强化学习驱动的网络地图区域聚类预取方法的步骤为：

第一步，网络地图数据为瓦片小文件，根据区域划分将同一区域内的瓦片小文件合并为区域聚类大文件，网络地图数据以区域聚类大文件的形式组织和缓存，此时需要重点记录区域聚类大文件包含的瓦片内容和区域聚类大文件之间的空间关系；

第二步，网络地图服务器运行时，统计一段时间内用户对不同区域的访问次数，选择用户访问次数最多的若干个区域作为当前网络地图的热点区域，根据网络地图的区域划分信息确定同一层内各区域聚类大文件的相邻关系，作为强化学习驱动的网络地图区域聚类预取方法所需的信息和数据；

Q(s，a)＝Q(s，a)+alpha*(gama*max Q(s'，a')+r(s，a)-Q(s，a))

s＝s'

网络地图按照热点区域聚类之后，每一层形成数量相同的聚类区域，不同聚类区域之间存在空间上的关系。网络地图用户在浏览同一层的网络地图信息时，需要按照一定的规则和轨迹平移；

在同一层次内，用户访问区域的变换是平移，平移在空间关系上一般是连续的，依据网络地图的实际历史访问记录，设置当前统计时段内用户访问最多的区域(动态热点)组成热点区域，设定其他聚类区域s直接移动到该聚类区域的移动动作a具有较大的Q值，按照同一层次内区域的空间关系(相邻关系)确定位置s的所有可能移动动作a；

第四步，启动强化学习驱动的网络地图区域聚类预取模型，Q学习算法迭代计算出不同区域s不同移动方向a上的总体回报值Q(s，a)，得到网络地图内的不同区域目前的访问热度，结合区域的空间关系，Q学习驱动尝试所有的移动动作，并实时返回各个移动动作的奖惩值，实时调整聚类区域各个方向上的Q值；

第五步，求得网络地图各区域不同方向上最大Q值，各区域的Q值最大的方向对应的区域为对应预取区域,记录各区域的对应预取区域；Q值直接反映了当前区域不同方向上轨迹的热度，Q值最大的方向，是未来网络地图访问移动概率最大的方向，用于未来热点区域的判定，也是预取最合理的方向；

通过对网络地图用户请求的区域的缓存，提高了对网络地图服务器缓存空间的利用，对于用户频繁访问的地图内容和数据，不再需要每一次都从硬盘中获得，而是从缓存中获取，该过程开销小、速度块，服务器的缓存利用率高，提高了网络地图服务器的工作效率，网络地图数据查找快，用户体验较好。

第七步，判断网络地图用户当前请求的区域对应的预取区域是否已经缓存或预取，对应的预取区域是当前用户请求的区域的Q值最大的方向对应的区域，若否，则将对应的预取区域缓存后流程结束，若是，则流程直接结束。

Q学习能够根据用户当前的网络地图访问行为，动态高效的预测处于不同区域的用户未来的移动方向和轨迹，对预测结果进行判定，如果该区域在缓存中不存在，则提前预取到缓存中，用户以后对预测区域的数据请求，直接在缓存中得到。由于采用Q学习的预测结果准确，对用户未来请求区域提前预取，能够大大加快网络地图瓦片的查找速度，减轻服务器负担，提供更加优质的网络地图服务。

作为一种优选方案，本发明提供的一种强化学习驱动的网络地图区域聚类预取方法，当前网络地图的热点区域的确定标准为区域地图访问量占全地图访问量的30％以上，或者全地图访问量排名前三的区域。

作为一种优选方案，本发明提供的一种强化学习驱动的网络地图区域聚类预取方法，网络地图的区域空间关系为网络地图的所有区域之间的相邻关系，包括每个区域的相邻区域名称以及二者之间的位置关系。

作为一种优选方案，本发明提供的一种强化学习驱动的网络地图区域聚类预取方法，r(s，a)的取值分两种情况，

当前所处的区域s与热点区域不相邻时，r(s，a)＝0。

作为一种优选方案，本发明提供的一种强化学习驱动的网络地图区域聚类预取方法，alpha和gama为参数，alpha＝0.7，gama＝0.3。

作为一种优选方案，本发明提供的一种强化学习驱动的网络地图区域聚类预取方法，启动强化学习驱动的网络地图区域聚类预取模型时，Q学习算法迭代计算次数不小于1000次，随机从不同区域不同移动方向上迭代计算出各区域各方向上的Q(s，a)。

本发明提供的一种强化学习驱动的网络地图区域聚类预取方法，结合网络地图自身的特点和历史访问记录，实时动态预测网络地图未来的热点区域，实现了一种强化学习驱动的主动大规模高效预取，动态更新且预测准确，能够提高网络地图服务器的性能。

Claims

1.一种强化学习驱动的网络地图区域聚类预取方法，其特征在于：网络地图数据为瓦片小文件，同一区域内的瓦片小文件合并为区域聚类大文件，网络地图数据以区域聚类大文件的形式缓存和预取；

建立强化学习驱动的网络地图区域聚类预取模型，所述强化学习为Q学习，模型将记录统计的热点区域和网络地图的区域空间关系加入Q学习参数中，所述Q学习采用轨迹移动试探评价方法，尝试各区域可能的移动方向，通过试探到达热点区域的最优路径，判断各种移动方向的反馈效果，基于各种移动方向的奖惩值得到各区域各种移动方向上的Q值；

各区域不同移动方向中，Q值最大的方向对应的区域为对应预取区域，网络地图用户的当前请求为某一区域时，将这一区域Q值最大的方向对应的区域提前预取；

强化学习驱动的网络地图区域聚类预取方法的步骤为：

第二步，网络地图服务器运行，统计一段时间内用户对不同区域的访问次数，选择用户访问次数最多的若干个区域作为当前网络地图的热点区域，根据网络地图的区域划分信息确定同一层内各区域聚类大文件的相邻关系；

第三步，建立强化学习驱动的网络地图区域聚类预取模型，所述强化学习为Q学习，模型将记录统计的热点区域和网络地图的区域空间关系加入Q学习参数中，Q学习的Agent每次学习迭代模拟用户的网络地图访问行为，会收到奖励或惩罚信息，以表示移动行为是否正确，Agent从回报结果中学习，Q学习的预取模型的公式为：

Q(s，a)＝Q(s，a)+alpha*(gama*max Q(s'，a')+r(s，a)-Q(s，a))

s＝s'

强化学习驱动的网络地图区域聚类预取模型采用位置-方向对的奖赏和Q(s，a)作为预测函数，其中s表示当前所处的区域位置，a表示区域s不同方向上的移动动作，Q(s，a)表示在位置s下移动动作a得到的Q值，maxQ(s'，a')表示在当前所处的区域位置s'下，向不同的方向a'移动所能够获得的最大Q值，r(s，a)表示当前所处的区域位置s与热点区域相邻时，在当前所处的区域位置s下通过向a方向移动能够直接到达热点区域所获得的奖赏值，alpha和gama为公式参数，alpha和gama的取值范围为0至1；

第四步，启动强化学习驱动的网络地图区域聚类预取模型，Q学习算法迭代计算出不同区域s不同移动方向a上的Q(s，a)；

第六步，判断网络地图用户请求的区域是否已经缓存或预取，若否，则首先将用户请求的区域聚类大文件缓存，然后从缓存中将用户请求的区域数据发送给用户，若是，则直接在缓存中找到并发送用户请求的区域数据；

第七步，判断网络地图用户当前请求区域的对应预取区域是否已经缓存或预取，对应预取区域是当前用户请求的区域Q值最大的方向对应的区域，若否，则将对应预取区域缓存后流程结束，若是，则流程直接结束。

2.根据权利要求1所述的一种强化学习驱动的网络地图区域聚类预取方法，其特征在于：当前网络地图的热点区域的确定标准为区域地图访问量占全地图访问量的30％以上，或者全地图访问量排名前三的区域。

3.根据权利要求1所述的一种强化学习驱动的网络地图区域聚类预取方法，其特征在于：网络地图的区域空间关系为网络地图的所有区域之间的相邻关系，包括每个区域的相邻区域以及二者之间的位置关系。

4.根据权利要求1所述的一种强化学习驱动的网络地图区域聚类预取方法，其特征在于：r(s，a)的取值分两种情况，

当前所处的区域s与热点区域相邻时，向a方向移动能够直接到达热点区域，所获得的奖赏值为r(s，a)＝100；

当前所处的区域s与热点区域不相邻时，r(s，a)＝0。

5.根据权利要求1所述的一种强化学习驱动的网络地图区域聚类预取方法，其特征在于：alpha和gama为参数，alpha＝0.7，gama＝0.3。

6.根据权利要求1所述的一种强化学习驱动的网络地图区域聚类预取方法，其特征在于：启动强化学习驱动的网络地图区域聚类预取模型时，Q学习算法迭代计算次数不小于1000次，随机从不同区域不同移动方向上迭代计算出各区域个方向上的Q(s，a)。