CN108829343B

CN108829343B - 一种基于人工智能的缓存优化方法

Info

Publication number: CN108829343B
Application number: CN201810444606.2A
Authority: CN
Inventors: 郭皓明; 魏闫艳
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2018-05-10
Filing date: 2018-05-10
Publication date: 2020-08-04
Anticipated expiration: 2038-05-10
Also published as: CN108829343A

Abstract

本发明公开了一种基于人工智能的缓存优化方法，将存储在磁盘空间中的数据集分割为大小均一的数据块；在增量过程中，统计不同数据块的命中率；在缓存更新过程中，首选根据前述命中率筛选命中较高的数据块并对这些数据块进行时间序列上的状态预测，将状态预测值为热的数据块作为核数据块。同时，根据预设的溢出边界以核数据块为中心建立溢出区，对每个数据块做状态预测，在这一预测过程中，将该数据块的时间序列状态预测与周边数据块的时间序列状态预测值进行统一处理，最终形成该数据块的状态预测值，实现缓存数据集的筛选。

Description

一种基于人工智能的缓存优化方法

技术领域

本发明属于大数据与人工智能领域，具体涉及一种基于人工智能的缓存优化方法。

背景概述

在信息系统中存在大量数据集，这些数据集均存储在磁盘中，受IO技术机制的限制，数据集的读取与检索效率存在瓶颈。当信息系统中数据增量规模较大时，这一瓶颈成为制约系统性能的关键因素。同时由于读写效率低下，系统的可靠性与健壮性也收到较大影响。针对这一问题，随着信息技术的进步与硬件产品价格的降低，一些信息系统采用分布式结构以及多层索引的架构，以期降低IO瓶颈的约束。在这些场景中，存储环境由多台存储设备构成，每一个设备均负责本地的数据读写与检索。大规模的数据集根据一定原则被切分成较小的数据子集，这些数据子集根据一定映射关系(例如：哈希)被分发到不同的存储设备中，存储设备在增量过程中实现本地数据存储以及索引维护。为了提高检索效率，整个系统构建多层索引，实现数据的统一存储管理、查询与提取。

上述方法在一定程度上能够满足大规模数据集的管理与检索服务要求。但是，随着数据规模的增大，为了保证性能与效率，需要不断增大存储设备的规模，导致系统成本与复杂性逐渐升高。同时，随着系统规模的攀升，系统整体可靠性也受到一定程度影响。

另一方面，缓存是一种常用的数据管理技术。它是根据一定原则，筛选一批具有较高检索需求的数据集，将其存储在特定的存储空间(例如：内存)中。在增量过程中，将数据一致性地写入缓存与磁盘。在检索过程中，首先检索缓存中的数据集，如果缓存满足检索任务请求，则直接从缓存中完成数据提取。如果检索数据范围溢出缓存数据集，则在磁盘存储数据集中检索对应溢出部分数据，经过汇聚处理后返回检索任务请求。这些存储空间的读写效率远远高于磁盘读写效率。因此，在应用中能够保证系统数据服务效率。同时，由于缓存中的数据与磁盘中的持久化存储数据是互为副本的关系。因此，不会出现一致性破坏的情况。基于这一机制，缓存技术在数据管理与信息服务系统中发挥重要作用。

缓存技术在应用过程中，一个关键问题是缓存数据集的命中效率。被选择加载到缓存的数据集应该具有较高的检索命中率，这样才能真正发挥缓存技术的优势。因此，在大多数信息系统中，缓存需要进行动态组织，根据一定的时间周期，分析数据集中命中率较高的部分，将其作为“热”数据，加载至缓存。通过这一方式，保证缓存整体效率。在缓存技术中，识别数据“冷”、“热”就成为一个重要技术难题。目前，这一领域多采用基于统计的方法，即在一定周期内，统计数据集中被命中的次数，通过一定阈值或相对比值实现数据冷热的识别。这一技术在实际应用中具有以下一些问题：

(1)从时间维度上看，数据冷热状态本质上是受检索请求影响，每个检索请求的约束范围导致数据冷热性质变换。从时间序列上看，检索请求是随机的、离散的。因此，基于增量的统计并不能真正反映数据冷热状态变化的趋势；

(2)从空间维度上看，数据集具有一定的空间尺度，数据集中数据块之间的冷热性质一定的互相影响的关系。基于统计的方法中，将数据块看做独立对象，其分析过程中，一个数据块的状态仅仅由其自身统计量计算获得，并未考虑其周边数据块状态变化对其影响。这就导致缓存筛选过程中，数据块的碎片化情况较为严重。同时，溢出率较高，影响缓存效率的发挥。

发明内容

本发明提出一种基于时间序列状态预测的缓存优化方法，本发明能够有效保证缓存数据集较高命中率的同时，合理设置溢出边界，提高缓存空间利用效率，在面向大型装备的智能监控、多目标跟踪定位、在线社交系统、电子商务系统以及地理信息服务系统等方面具有较大应用价值。

本发明提出的一种基于人工智能的缓存优化方法，包括步骤如下：

第一步：以定长尺度将原始数据集切分成一组数据块，这些数据块根据位置先后进行序列化组织；

第二步：以一定时间窗口为周期进行缓存更新，每次缓存更新时根据最近一个窗口期中数据块的查询命中统计进行缓存对象的筛选；

第三步：在查询命中统计过程中，以倒排索引为基础进行统计，根据每条命中的数据记录所处位置与长度进行对应数据块的命中统计增量，得到命中统计值；根据命中统计值对数据块的状态进行分类；

第四步：在进行每一次缓存更新操作时，首先筛选特定状态的数据块作为数据块选集；然后结合每个数据块历史状态序列，对相应数据块在下一个周期的状态进行预测，并按照状态预测值对数据块进行热度标记；

第五步：根据第四步预测的结果，将热度标记为“hot”状态的数据块作为核数据块，形成核数据块集，然后对核数据块集中的核数据块进行聚集处理；

第六步：依次获取核数据块集中核数据块对应的聚集，为每个核数据块聚集向前后延伸固定个数据块长度，形成初始溢出区；

第七步：将溢出区以核数据块聚集为基础，向前、向后进行溢出区伸缩操作；在这一过程中依次计算数据块与临近核数据块聚集一侧的邻居数据块的状态预测值，然后通过联合分布预测函数实现当前数据块的状态预测计算；

第八步：完成溢出区的全部数据块的状态预测计算后，检查溢出区当前边界位置上的当前数据块，如果当前数据块的状态满足边界外延条件，则将当前边界向特定方向外延一个数据块，并将新增数据块进行第七步预测处理；如果当前数据块的状态满足边界收缩条件，则将该当前数据块从溢出区中删除，将其靠近核数据块聚集一侧的邻居数据块作为新的边界，继续执行第七步；

第九步：当前边界位置上的当前数据块不满足边界外延条件，则当前缓存完成筛选，执行后续缓存更新操作。

进一步的，上述基于人工智能的缓存优化方法中，所述第五步中对核数据块集中的核数据块进行聚集处理的步骤包括：根据位置距离关系，确定两个核数据块是否聚集，将距离较近的数据块形成聚集，如果一个核数据块与其他核数据块距离较远的，则不与其他核数据块形成聚集。这样可以进一步提高缓存操作效率。

本发明以存储系统中缓存调度优化为应用场景，提供一个数据访问热度分析与预测的处理技术。该缓存优化方法将存储在磁盘空间中的数据集分割为大小均一的数据块，根据不同数据块的状态预测值确定缓存加载\卸载的内容；在增量过程中，统计不同数据块的命中率，在缓存更新过程中，首先，根据前述命中率筛选命中较高的数据块；在这一基础上，对这些数据块进行时间序列上的状态预测，将状态预测值为热的数据块作为核数据块；在这一基础上，根据预设的溢出边界以核数据块为中心建立溢出区；然后，对每个数据块做状态预测，在这一预测过程中，将该数据块的时间序列状态预测与周边数据块的时间序列状态预测值进行统一处理，形成该数据块的状态预测值，最后，根据不同块的预测结果，对溢出区范围进行伸缩，实现缓存数据集的筛选。

综上所述，本发明具有以下技术效果：

(1)由于采用了基于时间序列的状态预测方法，在核数据块的预测精度方面，相较传统方法能够提高15％左右，甚至更高；

(2)采用基于人工智能的边界判断方法，在数据集的范围精度方面，相较传统的方法能够提高10％左右，甚至更高。

附图说明

图1技术结构图；

图2存储结构图；

图3定位命中数据块范围流程图；

图4核数据块筛选与聚集处理流程图；

图5ARIMA方法参数训练流程图；

图6数据块聚集处理流程图；

图7缓存块区识别流程图；

图8溢出区伸缩操作流程图；

图9数据块状态预测模型；

图10数据块伸缩流程图。

具体实施方式

本发明在人工智能的基础上，针对缓存管理提出一种基于时间序列状态预测的缓存优化方法。如图1所示，在本发明中，以数据命中次数为基础，建立状态分类。在实际处理过程中，首先将磁盘中存储的数据集以定长窗口的方式等分为若干数据块dataBlock。缓存以一定时间周期更新，以T_i时刻缓存更新操作为例，在该次操作中首先统计全部dataBlock在T_i-1～T_i时间段中检索命中次数。根据状态判断原则判断数据块的冷热状态。选择一组初选数据块集，而后利用时间序列状态预测方法预测该集合中数据块在T_i～T_i+1时间段的状态，提取出其中预测状态满足要求的数据块作为核数据块。而后，以固定长度，以核数据块为核心建立对应的溢出区。在这一基础上，对溢出区中的邻居数据块的状态进行预测，根据判定原则对溢出区中的邻居数据块进行筛选，并对溢出区的边界进行伸缩，最终完成全部处理后，为每个核数据块形成缓存区，将其加载至缓存，并将缓存中不符合条件的数据块卸载，完成当前时刻更新操作。

下面参考附图2-10，通过以下几个部分对本发明基于人工智能的缓存优化方法的步骤进行详细说明。

1、存储空间构造与状态定义

第一步：以定长尺度将原始数据集dataSet切分成一组数据块，这些数据块根据位置先后进行序列化组织。

第二步：以一定时间窗口为周期进行缓存更新，每次缓存更新时根据最近一个窗口期中数据块的查询命中统计进行缓存对象的筛选。

第三步：在查询命中统计过程中，以倒排索引为基础进行统计，根据每条命中的数据记录所处位置与长度进行对应数据块的命中统计增量，得到命中统计值；根据命中统计值对数据块的状态进行分类。数据记录是指一条原始数据，一个数据块有多个数据记录构成。

数据集dataSet在磁盘中以字节流的方式存储。在数据管理系统中为了便于数据检索，构造多层索引，其中最底层的倒排索引实现一条数据记录dataLine所对应的数据流在数据集中存储的起始位置与占用空间。在优化任务周期中，通过这一倒排索引实现查询的命中统计。为了便于计算处理，将一个dataSet以定长窗口的方式切分成不同的数据块。如此，一个数据集的结构定义如下：

dataSet＝{dataBlock_i|i＝1，2，.....n}

其中dataBlock为一个数据块，这一数据块对应的存储空间长度为固定值L，在整个dataSet中，数据块序列化组织，即：

L＝len(dataSet_i)

pos(dataBlock_i)-pos(dataBlock_i-1)＝L

在缓存更新任务周期期间，数据管理系统统计不同任务在倒排索引中的命中情况，一个倒排索引用于记录一条数据在dataSet中的存储位置以及占用空间。在统计过程中根据数据记录对应的位置变更数据块的统计值。

如图2所示，数据记录长度不一致，在实际执行过程中一条数据记录可能完全属于某个数据块，也可能覆盖多个数据块。在增量过程中，需要根据数据记录长度与数据块长度的匹配，确定一个命中记录覆盖的数据块范围，并将全部被覆盖的数据块命中统计值+1处理。这一过程如图3所示。

经过一个更新周期后，根据每次查询命中的处理，数据集中数据块的命中会形成统计统计量。在这一统计量的基础上本发明定义数据块的状态，这一状态定义如下：

blockStateDef＝{Nan，cold，warm，hot}

其中：

Nan为数据记录异常，无法识别热度的状态定义；

cold为命中统计值较低的数据块，其状态定位为cold；

warm为命中统计值较cold高的状态定义；

hot为命中统计值最高的状态定义。

在本发明中，以全部数据块的命中统计量均值为标准，数据块的状态区分采用如下原则：(1)数据块的命中统计值低于均值，则其状态取值为cold；(2)数据块的命中统计值不低于均值，且不高于均值一倍，则其状态取值为warm；(3)数据块的命中统计值不低于均值的2倍，则其状态取值为hot；

2、核数据块筛选与聚集处理

第四步：在进行每一次缓存更新操作时，首先筛选特定状态的数据块作为数据块选集，特定状态是指较为高频命中率的数据块，如上面定义的“warm”状态，“hot”状态；然后结合每个数据块历史状态序列，对相应数据块在下一个周期的状态进行预测，并按照状态预测值对数据块进行热度标记。

如前所述，在缓存更新操作过程中，根据任务周期内数据块检索命中的统计值确定不同数据块的冷热状态。在这一基础上，筛选出核数据块，作为缓存数据集识别的依据。

在这一过程中，首选根据前述原则，在统计值的基础上，确定各个数据块的冷热状态，而后，将处于热状态的数据块作为初始候选对象。在这一基础上，根据这些数据块历史冷热状态信息基于时间序列函数进行预测，预测这些“热”数据块在下一个周期中是否会持续保持热的状态。将这些持续热的数据块标记为核数据块。而后，在空间上，将一定距离内的核数据块进行聚集，最终形成一组核数据块的选集，为缓存的建立提供依据。如图4所示。

在上述过程中，数据块需要基于时间序列对其在下一个周期中的状态进行预测，经预测判定热状态持续后才会作为核数据块处理。在本发明中，采用ARIMA的时间序列预测方法，对其状态进行预测处理。在预测处理过程中，首先获取该数据库的历史状态记录：

h＝{s_i|i＝1，2，.......n}

其中：si为该数据块在Ti时间段内的冷热状态值

在时间上对该状态序列进行差分处理，采用如下方法：

h′＝{S′_ili＝1，2，.......n}

而后将h‘代入时间序列预测函数，实现对Ti+1周期内状态预测。

这一时间序列函数采用ARIMA方法，其参数经过前期训练获取，参数训练过程如图5所示。

在完成全部核数据块的状态判断后，形成初始选集，这一选集中的数据库均为预测为“hot”状态(“热”状态)的数据块，这些数据块在空间上具有一定的距离关系，为了提高缓存利用效率，需要对这些数据块进行聚集处理，将距离较近的核数据块合并，以提高缓存优化的效率。在这一过程中，将核数据块根据位置关系进行序列化组织，采用从前往后的顺序，依次检索序列中核数据块与下一个核数块的距离关系，当这一距离小于阈值设定时，将这两个核数据块进行聚集处理，标记为一个聚集。否则持续检查序列中后续的核数据块。这一过程如图6所示。

3、聚集构造与优化

第六步：依次获取核数据块集中核数据块对应的聚集，为每个核数据块聚集向前后延伸固定个数据块长度，形成初始溢出区。

第七步：将溢出区以核数据块聚集为基础，向前、向后进行溢出区伸缩操作；在这一过程中依次计算数据块与临近核数据块聚集一侧的邻居数据块的状态预测值，然后通过联合分布预测函数实现当前数据块的状态预测计算。

第八步：完成溢出区的全部数据块的状态预测计算后，检查溢出区当前边界位置上的当前数据块，如果当前数据块的状态满足边界外延条件，则将当前边界向特定方向外延一个数据块，并将新增数据块进行第七步预测处理；如果当前数据块的状态满足边界收缩条件，则将该当前数据块从溢出区中删除，将其靠近核数据块聚集一侧的邻居数据块作为新的边界，继续执行第七步。该步骤中如果当前边界数据块状态满足外延条件，则将溢出区向聚集相反方向外延一个数据块，计算其状态，如果满足缓存要求，则将其作为溢出区新的边界，迭代执行当前操作，直至边界不再外延。如果当前边界数据块状态满足收缩条件，则将溢出区向聚集方向收缩一个数据块，判断新的边界数据块是否满足边界收缩判断条件，如果满足则继续收缩，直至到聚集边界。

在完成核数据块筛选与聚集处理后，以聚集为基础，建立溢出区。溢出区首先以固定长度窗口的方式，在聚集的前后延伸一定范围。而后，以聚集的边界为基础，向溢出区的前后边界延伸，依次计算对应位置上数据块的状态，并根据预测值，判断该数据块是否加载到缓存，完成全部处理后，对溢出区的边界进行调整，最终完成缓存块区的识别。这一过程如图7所示。

溢出区在伸缩操作过程中，需要针对其中每个数据块的热度进行判断，查看其是否在下一个周期中处于特定状态，当溢出区中出现连续数据块可能处于“cold”状态时，可以将溢出区在这一位置截断。当溢出区边界位置的数据库满足缓存状态要求时，需要将溢出区边界外延，直到找到新的边界。在数据块状态判断时，首先在该数块的时间序列上进行预测，获取预测状态值，而后将其靠近聚集一侧的邻居数据块状态预测值进行联合计算，最终形成状态结果进行判断。这一过程如图8所示。

在上述过程中，对数据块的状态进行预测，本发明采用贝叶斯方法实现计算。在这一过程中，将当前块与邻居块的状态值作为输入带入贝叶斯模型，计算联合概率。这一模型如图9所示。

如图9所示，这一贝叶斯模型在上述连接关系的基础上，经过训练形成上述联合概率分布表，在计算过程中将S1、S2带入上述模型中，在计算过程中，每个数据块依靠前述时间序列函数计算其状态值S1，将S1与其临近聚集一侧的数据库预测状态S2带入联合分布函数计算，获取联合概率最大值对应的状态作为结果。

在溢出区全部数据块状态完成预测计算后，判断溢出区边界块的状态，如果该数据块的状态不是特定状态则将其外延或收缩，最终满足溢出区范围合理设置的目标，这一过程如图10所示。

Claims

1.一种基于人工智能的缓存优化方法，其特征在于，包括步骤如下：

第四步：在进行每一次缓存更新操作时，首先筛选特定状态的数据块作为数据块选集；然后结合每个数据块历史状态序列，对相应数据块在下一个周期的状态进行预测，并按照状态预测值对数据块进行热度标记；特定状态是指较为高频命中率的数据块，包括“warm”状态，“hot”状态；

第七步：将所述初始溢出区以核数据块聚集为基础，向前、向后进行溢出区伸缩操作；在这一过程中依次计算数据块与临近核数据块聚集一侧的邻居数据块的状态预测值，然后通过联合分布预测函数实现当前数据块的状态预测计算；

2.如权利要求1所述的基于人工智能的缓存优化方法，其特征在于：所述第五步中对核数据块集中的核数据块进行聚集处理的步骤包括：根据位置距离关系，确定两个核数据块是否聚集，将距离较近的数据块形成聚集，如果一个核数据块与其他核数据块距离较远的，则不与其他核数据块形成聚集。