CN114611572A

CN114611572A - 基于改进rbf神经网络的数据分级存储算法

Info

Publication number: CN114611572A
Application number: CN202210107613.XA
Authority: CN
Inventors: 廉小亲; 刘钰; 龚永罡; 高超; 吴叶兰; 关文洋; 陈彦铭; 杨凯; 吴艳华; 程智博; 冯云梅; 刘哲倩
Original assignee: Beijing Technology and Business University; Institute of Computing Technologies of CARS
Current assignee: Beijing Technology and Business University; Institute of Computing Technologies of CARS
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-06-10
Anticipated expiration: 2042-01-28
Also published as: CN114611572B

Abstract

本发明提供基于改进RBF神经网络的数据分级存储算法：对首次存入的数据进行分级，根据一、二、三级存储设备的性能及容量特征得到存储级别，根据分级结果对数据进行数据存储。数据分级存储系统满足迁移条件时，计算数据迁移因素值，建立数据分级神经网络模型，得到数据迁移因素值与存储级别之间的映射关系。将数据迁移因素值作为数据分级神经网络模型的输入，根据触发条件选择迁移方式，根据差值P筛选迁移数据算法。本发明面向多源、异域、跨系统、多类型数据的分级存储策略及模型，实现数据不同级别之间的数据迁移，有效提高数据的访问效率及数据库的利用效率，提升数据管理决策效率，加快平台存储性能，降低平台存储成本。

Description

基于改进RBF神经网络的数据分级存储算法

技术领域

本发明涉及一种分集存储算法，尤其涉及一种基于改进RBF神经网络的数据分级存储算法。

背景技术

随着新建高铁快速发展，铁路数字化、智能化建设逐步深入，中国新建铁路在建设阶段就已经积累了海量结构化、半结构化、非结构化数据，包括勘察设计数据、工程进度数据、质量监督数据、自然灾害检测数据和视频监控数据等。铁路建设期数据具有数据量大、数据类型多、数据增长快、业务价值大的特点，传统的数据存储方式管理复杂、成本较高、访问速度较低。因此，为了能够满足铁路建设期数据存储量大、不同业务数据存储方式不同的需求，选择分级存储的方式能够有效降低存储成本，提高系统整体性能。

数据从产生到最后归档销毁的过程中，其被访问的频率是不断变化的，通常在应用中，把访问频率高的数据存储到在线存储设备中，而在存储设备中访问频率低的数据则存储到近线或离线存储设备中。

现有的迁移算法通常采用：基于数据访问频率的缓存(Cache)替换迁移算法：基于数据访问频度的Cache替换迁移算法的核心思想来自于虚拟内存的页面置换算法，该算法的原理主要是通过分析数据访问的历史，借鉴虚拟内存页面置换的思想，以实现数据在存储设备间的迁移，将老数据替换出去，为新数据腾出空间，其最终目标是提高存储设备的利用率。Cache替换迁移算法采用一系列的方法移除访问频率低的数据，其替换策略包括最佳置换法(Optimal，OPT)、先进先出页面置换算法(First In First Out，FIFO)、最近最久未使用算法(Least-Recently-Used，LRU)、最近未使用页面淘汰算法(Not Recently Used，NRU)和最少使用置换算法(Least-Frequently-Used，LFU)等，其中最典型的就是LRU和LFU。

Cache替换算法虽然能够保证高性能设备中几乎没有空余的容量，以数据被访问情况这一重要指标作为数据迁移的决定因素，但没有考虑数据本身的特征以及存储设备性能对数据分级存储的影响，各级存储设备未能得到最合理地应用分配。

当前提出的各类数据分级存储算法中数据价值判定方法较简单、考虑因素单一、分级结果准确度较差；固定阈值法、高低水位法、最近最久未使用算法(Least-Recently-Used，LRU)和最少使用置换算法(Least-Frequently-Used，LFU)等经典数据分级算法提出的数据迁移策略较简单，无法满足铁路建设期数据分级存储合理、高效的要求。

所以如何提供一种能够同时对数据存储和迁移自适应的数据分集存储算法成为亟待解决的问题。

发明内容

针对铁路建设期数据的数据特点，本发明提出基于优化神经网络模型的动态阈值数据分级存储算法，实现数据有效分级存储。

为了实现上述目的，本发明技术方案提供了基于改进RBF神经网络的数据分级存储算法，所述算法包括：对首次存入的数据进行分级，得到分级结果；根据一级存储设备、二级存储设备、三级存储设备的性能以及容量特征得到存储级别，根据所述分级结果对所述数据进行数据存储；建立数据分级神经网络模型，包括，S1、计算数据迁移因素值；S2、确定聚类中心作为RBF隐含层神经元的径向基函数中心向量C^j，获取RBF神经网络的扩展常数b；S3、获取惯性权重ω、收缩因子、粒子的速度、粒子的位置后，根据自适应粒子群算法确定权值矩阵，得到所述数据迁移因素值与存储级别之间的映射关系，则所述数据分级神经网络模型构建完毕；在实际数据迁移中，根据所述数据分级神经网络模型的输出值和标签值之差得到差值P，根据差值P筛选需迁移的数据；对于降级迁移算法：第一种情况判断空间占用率是否大于存储设备的高水位，若大于则计算数据差值P，判断所述差值是否小于数据迁移阈值，若小于则将待迁移数据加入迁移队列若迁移队列中的数据小于迁移队列容量，则将数据依次迁移并获取新的迁移阈值，若迁移队列中的数据大于迁移队列容量，则将所述迁移队列中最大差值的数据移出迁移队列后进行再次判断，根据判断结果将数据依次迁移并获取新的迁移阈值；第二种情况判断当前是否达到数据迁移周期，若达到迁移周期则计算数据迁移因素值作为训练完毕的所述数据分级神经网络模型的输入计算数据差值P，根据所述数据价值的计算结果优先执行数据降级迁移，将执行降级迁移数据判断所述差值是否小于数据迁移阈值，若小于则将待迁移数据加入迁移队列，若所述迁移队列中的数据小于迁移队列容量，则将数据依次迁移并获取新的迁移阈值，若所述迁移队列中的数据大于迁移队列容量，则将迁移队列中最大差值的数据移出迁移队列后进行再次判断，根据判断结果将数据依次迁移并获取新的迁移阈值；对于所述升级迁移算法：判断达到数据迁移周期执行完数据降级迁移后，获取数据迁移阈值，将执行升级迁移数据判断所述差值是否小于数据迁移阈值，若小于则加入升级迁移队列；判断迁移数据总量是否大于升级迁移队列的最大容量，若是则将迁移队列中差值最大的数据迁出迁移队列，若否则将迁移队列中的所有数据迁移到以及存储。

作为上述技术方案的优选，较佳的，对首次存入的数据进行分级，得到分级结果包括：根据铁路建设期数据属性特征以及业务特征设置定量二级指标和定性二级指标；通过专家评价的方式根据三级指标内容对所述定性二级指标进行评价，对定性二级指标所述三级指标内容直接设置权重，得到各项定性二级指标结果；根据访问日志获取定量二级指标所述三级指标结果，通过熵值法获取各三级指标的权重关系，通过TOPSIS综合评价方法得到定量二级指标结果；二级指标通过优序图法获取二级指标间的权重；通过加权求和的方式得到数据业务价值因素。

作为上述技术方案的优选，较佳的，得到存储级别，根据所述分级结果对所述数据进行数据存储，包括：一级存储设备中数据业务价值最小值作为数据分级存储系统的高数据分级阈值，所述三级存储设备中数据业务价值最大值作为低数据分级阈值。时刻监听是否有数据首次存入，当接收到新数据存入请求时，计算该数据的业务价值因素，判断数据业务价值因素所在的分级阈值区间，根据数据量大小与存储设备剩余容量之间的关系确定首次存入数据的存储级别。

作为上述技术方案的优选，较佳的，计算数据迁移因素值，包括：数据量大小因素、数据访问时间重要性因素、数据访问频率重要性因素、数据访问量因素、数据访问用户相似度因素、数据业务价值因素。

作为上述技术方案的优选，较佳的，确定聚类中心作为RBF隐含层神经元的径向基函数中心向量C^j，获取RBF神经网络的扩展常数b，包括：按照样本数据间最小欧式距离原则对所有样本进行聚类，并确定聚类中心作为RBF隐含层神经元的径向基函数中心向量C^j，同时以隐含层神经元径向基函数中心向量间的最小距离作为RBF神经网络的扩展常数b。其中，样本数据包括所述迁移因素值以及分级结果。

作为上述技术方案的优选，较佳的，获取惯性权重ω、收缩因子、粒子的速度、粒子的位置，包括：

动态调整所述惯性权重ω：

计算学习因子c1和学习因子c2：

计算粒子运动速度：

计算粒子位置：

作为上述技术方案的优选，较佳的，在获取粒子运动速度时所使用的收缩因子χ为：

作为上述技术方案的优选，较佳的，以自适应粒子群算法确定权值矩阵，自适应粒子群算法的评价函数取最小值时粒子位置则为权值矩阵W的最优解，包括，自适应粒子群算法的评价函数为：

作为上述技术方案的优选，较佳的，确定权值矩阵，得到所述数据迁移因素值与存储级别之间的映射关系，则所述数据分级神经网络模型构建完毕，包括：将径向基函数中心向量、扩展常数和权值矩阵作为RBF神经网络参数。

本发明技术方案提供了一种基于改进RBF神经网络的数据分级存储算法，；对首次存入的数据进行分级，根据一级、二级、三级存储设备的性能以及容量特征得到存储级别，根据分级结果对所述数据进行数据存储。通过计算数据迁移因素值，建立数据分级神经网络模型，得到数据迁移因素值与存储级别之间的映射关系。将数据迁移因素值作为数据分级神经网络模型的输入，根据触发条件选择迁移方式，根据差值P筛选迁移数据算法。

本发明设计面向多源、异域、跨系统、多类型数据的分级存储策略及模型，实现数据不同级别之间的数据迁移，有效提高数据的访问效率及数据库的利用效率，提升数据管理决策效率，加快平台存储性能，降低平台存储成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方案中进行数据分级并存储数据的流程图。

图2为本发明实施方案中铁路建设期数据业务价值指标评价体系结构示意图。

图3为本发明实施方案中数据业务价值计算方法逻辑架构图。

图4为本发明实施方案中高、低数据分级阈值关系示意图。

图5为本发明实施方案中数据分级算法流程图。

图6为本发明实施方案中数据迁移算法逻辑架构图。

图6b为本发明实施方案中改进RBF神经网络模型的构建方法。

图7为本发明提供的改进RBF神经网络的影响数据价值因素与数据价值等级之间的映射关系模型拓扑结构。

图8为本发明提供的改进RBF神经网络映射关系模型算法流程图。

图9为本发明提供的动态阈值迁移算法由高向低迁移流程图。

图10为本发明提供的动态阈值迁移算法由低向高迁移流程图。

图11为梯度下降-RBF神经网络模型输出结果的示意图。

图12为聚类-RBF神经网络模型输出结果的示意图。

图13为ToolBox-RBF神经网络模型输出结果的示意图。

图14为聚类-APSO-RBF神经网络模型输出结果的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

现结合具体实施例对本发明技术方案进行说明，首先如图1所示进行数据分级并存储数据：

步骤101、对首次存入的数据进行数据业务价值指标体系评价。

根据铁路建设期数据属性特征以及业务特征设置定量二级指标和定性二级指标；通过专家评价的方式根据三级指标内容对所述定性二级指标进行评价，对定性二级指标所述三级指标内容直接设置权重，得到各项定性二级指标结果；根据访问日志获取定量二级指标所述三级指标结果，通过熵值法获取各三级指标的权重关系，通过TOPSIS综合评价方法得到定量二级指标结果；二级指标通过优序图法获取二级指标间的权重；通过加权求和的方式得到数据业务价值因素，具体的如图2所示：

构建铁路建设期数据业务价值指标评价体系，提出数据业务价值计算方法，结合即将存入系统的数据量大小以及各级存储设备当前的剩余容量，设计数据分级算法，提出数据分级策略：

针对当前部分铁路建设期数据的业务特点以及存储需求，从铁路建设期数据属性特征以及业务特征两方面设置“数据创建/访问指标”定量二级指标以及“数据业务特征指标”、“数据组成属性指标”以及“数据保密等级指标”定性二级指标。

定性二级指标通过专家评价方式判定数据符合的下一级三级指标内容，根据数据类别重要程度对同一二级指标下的各项三级指标赋1至n的权值，n为该二级指标下的三级指标总数，重要程度越高，权值越大，判定符合的三级指标的权值则为相应二级指标结果。

如图3所示：“数据创建/访问指标”下的三级指标，通过访问日志计算某一时间周期内数据所存储数据库内数据执行“增”、“删”、“改”、“查”操作频次作为对应指标的结果；“数据创建时间指标”计算数据创建时间截止到当前时间的时间范围，分为五个区间等级，“5年以上”、“4-5年”、“3-4年”、“2-3年”和“2年以内”，根据区间范围设定1-5权值，权值越大创建时间截止到当前时间越短，时间范围权值作为该项指标结果。

在计算铁路建设期数据业务价值的过程中，得到铁路建设期数据业务价值指标评价体系各项指标结果后，需要确定“数据创建/访问指标”下各项三级指标之间的一组权重1，“数据创建/访问指标”、“数据业务特征指标”、“数据组成属性指标”以及“数据保密等级指标”二级指标之间的一组权重2，其次要确定各项指标结果与权重之间计算方法。铁路建设期的数据业务价值计算方法的逻辑架构如图3所示。

指标间权重确定方法：“数据创建/访问指标”下的三级指标值均为统计结果，“数据业务特征指标”、“数据组成属性指标”以及“数据保密等级指标”值为专家评价结果。“数据创建/访问指标”下三级指标间的权重1通过熵值法确定；“数据创建/访问指标”、“数据业务特征指标”、“数据组成属性指标”以及“数据保密等级指标”二级指标间的权重2通过优序图法确定。具体的：熵值法根据指标结果确定指标间的一组权重，能够根据数据自身特征进行赋权，避免主观性过强的弊端，更适合应用于定量指标间的权重关系；优序图法确定权重通过专家评价法给出指标间重要性评价矩阵，能更好地贴合不同定性指标间的数据业务重要程度差别，有效性验证也能够保证专家评价法结果的客观性，结果可信度高。选用熵值法-优序图组合方式确定铁路建设期数据业务价值指标评价体系中两组权重关系，能解决单一权重确定方法主客观性不能兼顾的问题，结果可靠，在铁路建设期数据业务价值指标赋权上具有较大的利用价值和意义。

步骤102、计算数据业务价值。

本申请构建的三级铁路建设期数据业务价值指标评价体系中共有两组权重，对应有两次计算过程。具体的：首先计算铁路建设期的数据业务价值，“数据创建/访问指标”下三级指标结果与权重1计算的综合评价结果作为“数据创建/访问指标”值，结合建设期铁路数据量大、评价指标复杂的特点，选用TOPSIS方法。剩余四项二级特征指标结果与权重2通过加权求和法计算得到数据业务价值结果。

步骤103、根据数据业务价值结果获取其分级阈值区间并分级存储。

一级存储设备中数据业务价值最小值作为数据分级存储系统的高数据分级阈值，所述三级存储设备中数据业务价值最大值作为低数据分级阈值，具体的：

根据一级、二级、三级存储设备性能以及容量特征(一级存储即在线存储，二级存储即近线存储，三级存储即离线存储)，将总数据量20％的数据按照数据业务价值排序从高到低依次存入一级存储设备中；将剩余数据中总数据量30％的数据，按照数据业务价值排序从高到低依次存入二级存储设备中；其余数据存储在三级存储设备中。

同时确定一级存储设备中数据业务价值最小值作为数据分级存储系统的高数据分级阈值，确定三级存储设备中数据业务价值最大值作为低数据分级阈值，高、低数据分级阈值首次确定后不再变化，逻辑关系如图4所示。

步骤104、计算新数据的业务价值，根据存储设备的性能以及容量特征得到存储级别，根据分级结果数据进行数据存储。

时刻监听是否有数据首次存入，当接收到新数据存入请求时，计算该数据的业务价值，判断数据业务价值所在的分级阈值区间，根据数据量大小与存储设备剩余容量之间的关系确定首次存入数据的存储级别。

具体的对于步骤104，如图5所示，详细步骤如下：

时刻监听是否有新数据存入，若是则计算新存入系统数据的业务价值，否则持续监听。判断新存入系统数据的业务价值是否高于高数据分级阈值，若是则判断新存入系统数据的业务价值是否小于一级存储设备剩余容量，若是则将新数据存入一级存储设备，否则将新数据存入二级存储设备。若新存入系统数据的业务价值低于高数据分级阈值，则判断新数据业务价值是否高于低数据分级阈值，若是则判断新数据的数据量是否小于二级存储设备的剩余容量，若是则将新数据存入三级存储设备，否则将新数据存入二级存储设备。

通过步骤101至步骤104实现了对首次存入数据分级存储系统的数据提出数据分级算法，根据数据自身的业务价值进行数据存储级别的预判，使数据首次存储的设备级别结果更具有科学性，同时也能够尽可能减少之后数据分级存储系统中迁移操作。

在进行迁移操作之前需建立神经网络模型，本发明改进的RBF神经网络模型是基于聚类-APSO-RBF神经网络，数据迁移算法的逻辑架构如图6所示。

在数据迁移算法中，针对已经存储在数据分级存储系统中的数据，当触发迁移条件时判断数据是否需要迁移，将数据价值相对低的数据迁移到性能较低的存储设备中，从而释放出高性能存储设备中的存储空间，将价值较高的数据保留在高性能设备中，从而实现系统整体性能的最大化。

现对如何建立本申请所需的神经网络模型如下所述，建立流程图如图6b所示：

步骤201、计算数据迁移因素值。

因素值包括：数据量大小因素、数据访问时间重要性因素、数据访问频率重要性因素、数据访问量因素、数据访问用户相似度因素、数据业务价值因素。

现对各因素计算方法进行详细说明：

1、数据量大小因素S(X)：对于数据分级存储系统，高性能存储设备的容量是有限的，较大数据存储在高性能存储设备中，占用存储空间较大同时存储成本较高，导致较小而且重要的数据无法及时被访问，数据分级存储系统性能降低。因此，应优先考虑将小数据存储在高性能存储设备。

2、数据访问时间重要性因素T(X)：访问时间是数据价值高低的重要判定因素，一般最新创建或最近被使用的数据在短时间内再次被访问的可能性更大，其数据价值相对更高，应优先考虑将此类数据存储在高性能存储设备；被访问过后未使用的时间越长，数据被重新访问的可能性也相应减少，数据价值以及重要性就会随之降低，此时就需要将数据迁移到低性能的存储设备。

具体的，在一特定周期下，数据每次被访问和修改的时间集合为{t₁,t₂,...,t_n}，当前时间是t，时间集合内的时间点距离当前时间的间隔为{t-t₁,t-t₂,...,t-t_n}，设以上时间段为{T₁,T₂,...,T_n}，则计算数据X的访问时间重要性因素T(X)如公式(1)所示。

3、数据访问频率重要性因素F(X)：数据访问频率重要性表示数据访问频率的变化趋势，设在T_k时间段内数据访问频率为f_k，在T_k-T_k-1时间段内数据访问频率的变化趋势为f_k-f_k-1，若在一段时间内对数据X的访问频率持续增加，则表示该数据被访问的可能性增加，数据价值以及重要性也相应增大，应优先考虑存储在高性能存储设备。计算数据X的访问频率重要性因素F(X)如式(2)所示。

4、数据访问量因素C(X)：用户访问量是数据价值高低的直接体现，数据被访问的用户数量越多，其数据价值以及重要性就越高，应优先考虑存储在高性能存储设备。

具体的，统计在一特定周期内数据X的访问用户集合为UX＝{u₁,u₂,...,u_i,...,u_n}，u_i为其中第i个用户，通过counter(u_i)函数统计用户u_i对数据X的访问次数。计算数据X的用户访问量因素C(X)如式(3)所示。

5、数据访问用户相似度因素H(X)：通过计算所有访问过数据X用户的相似用户个数之和能够预测文件被访问的可能性，相似性较高的用户，具有较为相似的用户习惯和兴趣，与访问过数据X用户具有较高相似性的用户对数据X的访问可能性较高，访问过数据X用户的相似用户越多，则数据价值以及重要性就越高，应优先考虑存储在高性能存储设备。

以

作为用户u是否访问了数据i的标志量。如果用户u访问了数据i，则

否则

令n表示两个用户访问数据的总数量，

分别表示用户u和用户v各自访问过的数据量，

则表示用户u和用户v共同访问过的数据量，则用户u和用户v的相似性计算如式(4)所示。

计算数据X的访问用户相似度因素H(X)具体计算步骤如下所示：

1)设访问过数据X的用户集合用U来表示，剩余其他用户用V来表示，则有U＝{u₁,u₂,...,u_n}，V＝{v₁,v₂,...,v_m}，其中n和m为各自集合内用户的数量。

2)循环逐一取出用户集合U、V中的用户，通过式(4)分别计算U中用户和V中用户两两之间的相似性，最终得到相似矩阵如式(5)所示。

其中i∈[1,n]，j∈[1,m]。

3)查看相似矩阵中每一行的元素，其值大于1/2(可自行调节)则认定二者为相似用户，选取与U中用户相似度较高的用户成为一个访问过数据X用户的相似用户集合V'，则有V'＝{V₁',V₂',...,V_n'}，V_i'是与u_i的相似用户，用counter(x)函数计算V_i'的总数值，也就是用户u_i的相似用户个数。

4)避免访问过数据X用户集的相似用户集合可能包含有相同的用户，重复的用户应只计算一次，则计算数据X的访问用户相似度因素H(X)如式(6)所示。

H(X)＝counter(V₁′∪V₂′∪...V_n′) (6)

6、数据业务价值因素P(X)：数据迁移算法中数据业务价值因素与数据分级算法中相同，则数据业务价值计算方法也相同。

步骤202、根据聚类算法确定RBF神经网络的径向基中心向量C^j，扩展常数b。

按照样本数据间最小欧式距离原则对所有样本进行聚类，并确定聚类中心作为RBF隐含层神经元的径向基函数中心向量，同时以隐含层神经元径向基函数中心向量间的最小距离作为RBF神经网络的扩展常数b，具体的：

网络隐含层为高斯径向基层，隐含层任一神经元的激活函数

如式(7)所示。

式(7)中，C^j表示第j个隐含层神经元的径向基函数中心向量，||X-C^j||表示输入向量X与中心矢量C^j之间的欧氏距离，b_j表示第j个隐层神经元的扩展常数，

表示第j个隐含层神经元的输出。网络隐含层与输出层间以权值相连接，ω_jk表示第j个隐层神经元与第k个输出神经元间的连接权值，则输出层第k个节点的输出权向量可以表示为W＝[ω_1k,ω_2k,...,ω_jk]^T，j∈[1,3]，k＝1。

RBF神经网络的输出向量Y如式(8)所示。

Y＝W*φ (8)

为提高RBF神经网络收敛性，保证神经网络输出结果的准确性，以上实施方式通过引入自适应粒子群算法(APSO)以及聚类方法，通过聚类确定RBF的径向基函数中心向量C^j以及隐层神经元扩展常数b，利用APSO网络选择隐含层到输出层之间的最佳权值矩阵W，W是使得APSO的评价函数尽可能小的结果的值，以获得最优神经网络模型。

其中，样本数据包括所述迁移因素值以及分级结果。

步骤203、获取惯性权重ω、收缩因子、粒子的速度、粒子的位置。

具体的：

惯性权重ω根据粒子适应度值进行动态调整，如式(9)所示。

式中f表示当前粒子的适应度值，f_avg和f_min表示当前所有粒子的平均适应度值和最小适应度值。若当前粒子的适应度值优于所有粒子的平均适应度值，说明该粒子当前位置接近全局最优解，惯性权重ω择较小值，达到保护该粒子的目的，若当前粒子的适应度值差于平均适应度值，则表明该粒子需要向接近全局最优的搜索区域靠拢，惯性权重ω选择较大值。

两个学习因子以线性变化的方式计算，c₁和c₂分别按照式(10)和式(11)计算：

式中T表示当前迭代次数，T_max表示算法最大迭代次数。自我学习因子c₁先大后小动态变化，社会学习因子c₂则先小后大动态调整，则算法在前期阶段搜索时，移动粒子变化更多依据自身经验，在后期阶段搜索时，粒子位置变化则需要根据整个种群的社会经验，追踪全局最优粒子位置，维持收敛速度与搜索效果的稳定性。

步骤204、计算收缩因子。

收缩因子χ按公式(12)计算：

式中

通常取4.1，能够适当保持种群粒子的多样性。

本发明为了维护算法全局探索能力与局部开发能力的平衡，在标准PSO算法速度的基础上增加了收缩因子，加快收敛速度，保证算法的收敛性。

步骤205、计算粒子的速度和位置。

此时粒子速度更新根据式(13)调整。

计算粒子位置：

步骤206、根据自适应粒子群算法确定权值矩阵并对神经网络进行训练。

APSO算法的适应度函数如式(15)所示，也代表神经网络输出结果的误差函数，通过APSO取得使函数结果最小值时的解。

式中，N为样本数量，

为期望输出，y_k为训练实际输出。

结合步骤202确定的径向基函数中心向量、扩展常数，得到数据迁移因素值与存储级别之间的映射关系，完成数据分级神经网络模型构建。

以上构建神经网络的方式提出了：带压缩因子的自适应惯性权重和线性学习因子的APSO算法。该算法中自适应惯性权重变化可以根据早熟收敛情况和粒子个体适应度值动态调整权重值，学习因子线性变化能够有效解决粒子群算法在后期多样性减少陷入局部最优的问题，引入的压缩因子能够均衡APSO算法局部搜索能力和全局搜索能力，保持算法在整个迭代过程中全局收敛性和收敛速度的动态平衡。

步骤207、判断是否到达降级迁移条件，若到达则计算数据差值P。

具体的，计算数据差值P为：计算数据迁移因素值，并将数据迁移因素值的计算结果作为训练完毕的数据分级神经网络模型的输入，得到输出结果计算数据差值P。

步骤208、判断差值是否小于数据迁移阈值，若是，执行步骤208否则结束。

步骤209、根据差值P筛选需迁移的数据。

具体的，根据步骤206得到数据价值的数据差值P，对相应数据先执行数据降级迁移再执行数据升级迁移。但是，最高级数据(一级)只进行降级迁移，最低级数据(三级)只有进行升级迁移。

具体的，以6个影响数据价值因素作为网络的输入向量，以数据价值等级作为RBF神经网络的输出，设置数据价值高等级标签为“1”、中等级标签为“2”、低等级标签为“3”，根据数据价值等级越高数据应该存储在越好高性能的存储设备，标签“1”、“2”、“3”同时代表着一、二、三级存储。

将神经网络模型直接输出结果与标签值之间的差值作为数据是否迁移的判定依据，如式(18)所示，同时选取当前次差值结果的最大值与上一次迁移阈值取平均作为下一次迁移阈值实现阈值动态调节。

差值P＝|神经网络输出结果-标签值(1或2或3)| (18)

步骤210、执行数据降级迁移。

对于步骤210，如图9所示，算法描述如下：

当首次执行步骤209时的作业为首次触发降级迁移作业，此次使用高低水位法，当高性能存储设备容量达到高水位线时触发降级迁移，通过聚类-APSO-RBF神经网络模型判断高性能设备中数据适合存储的等级结果，将适合存储到低性能存储设备数据的差值P从低到高依次加入到降级迁移队列，执行降级迁移操作，将此次降级迁移队列中差值结果P的最大值作为初始数据迁移阈值P_t。

之后触发降级迁移条件有以下两种情况。

1、当高性能存储设备存储容量不足时触发降级迁移。

通过聚类-APSO-RBF神经网络模型计算出当前高性能存储设备中数据适合存储的级别结果与差值结果P，将适合存储到低性能存储设备数据的差值结果P与初始数据迁移阈值P_t作比较，将小于阈值的数据加入到降级迁移队列中，如果迁移数据总量Y大于降级迁移队列的最大容量，则将队列中差值结果P的最大值依次移出降级迁移队列直至小于降级迁移队列的最大容量，确定最终的降级迁移队列，高性能存储设备的升、降级迁移队列容量Z如式(19)所示。

Z＝(M-N)×S (19)

式中，M为高性能存储设备的高水位线，N为低水位线，S为高性能存储设备的容量。记录此次降级迁移队列中的差值结果P最大值，与上一次的数据降级迁移阈值P_t取平均作为下一次数据降级迁移阈值P_t。

2、达到定时周期自动触发降级迁移，同样是通过神经网络模型计算得到适合存储的等级结果与差值结果P，将差值P小于数据迁移阈值P_t的数据加入到数据降级迁移队列执行降级迁移。动态阈值数据迁移算法降级迁移流程如图9所示。

首先，确定一级存储设备高水位M，低水位存储介质总空间S，计算空间占用率X。空间占用率与存储设备的高水位线进行比较，若大于则采用高低水位法做初次迁移，则得到二级存储的数据迁移阈值P_t。计算空间占用率与计时周期，若到达计时周期且本次空间占用率大于一级存储设备高水位，则计算一级存储设备中数据与二级或三级存储设备的差值P，将差值结果P小于数据迁移阈值P_t的数据加入迁移队列。

判断迁移数据总量Y是否大于迁移队列容量Z，若迁移队列中的数据小于迁移队列容量，则将数据依次迁移，将本次迁移序列中的二级差值P的最大值与迁移阈值P_t取平均值从而获取新的迁移阈值；若迁移队列中的数据大于迁移队列容量，则将迁移队列中最小差值的数据移出迁移队列后，再次判断迁移数据总量Y是否大于迁移队列容量Z，根据判断结果将本次迁移序列中的二级差值P的最大值与迁移阈值P_t取平均值从而获取新的迁移阈值，或仅将迁移队列中最小差值的数据移出迁移队列。

步骤211、执行数据升级迁移。

对于步骤211的升级迁移算法其流程示意图，如图10所示：

利用高性能存储设备数据降级迁移的阈值，同时作为低性能存储设备向高性能存储设备升级迁移的阈值。

判断达到数据迁移周期且执行完数据降级迁移且上一级存储容量充足，若是则获取降级迁移过程中数据迁移阈值P_t，通过聚类-APSO-RBF神经网络模型计算当前存储设备内数据的适合存储级别与差值P，与数据迁移阈值P_t作比较，将小于阈值的数据加入到升级迁移队列中。如果迁移数据总量Y大于高性能存储设备的升级迁移队列的最大容量Z，则按照差值排序将则将队列中差值P最大值的数据依次移出，直至迁移数据总量Y小于升级迁移队列的最大容量，得到最终的升级迁移队列执行升级迁移操作。

现结合具体实施方式对本发明技术方案进行说明：

以当前真实存储的铁路建设期结构化数据作为实验数据，包含了28个铁路建设期数据相关业务系统的数据库以及其中的721张数据表，以一张数据表作为一个数据单位，试验步骤分为：构造数据表访问记录数据、计算数据表业务价值、构造神经网络模型数据集、聚类-APSO-RBF神经网络映射模型结果分析。

构造数据模拟访问记录

参考数据存储系统的数据访问日志内容，针对721张数据表构造随机量的模拟访问记录，每条记录包含了被访问数据的数据库名称、数据表名称、访问用户IP地址、访问时间、访问操作以及执行访问操作后的数据表大小，设定访问IP地址范围从“192.**.**.1”-“192.**.**.20”，访问时间为“2021.04.01”-“2021.04.30”这一周期内任一时刻，访问操作存在“add”、“delete”、“select”和“update”四种操作，执行访问操作后的数据表大小以MB为单位。每一张数据表的访问记录均大于10条，共生成了7583条访问记录，构成原始数据集如表1所示。

表1访问记录原始数据集

计算数据业务价值：“数据业务特征指标”、“数据组成属性指标”以及“数据保密等级指标”的专家评价法打分结果如表2所示。

表2专家评价法打分结果

通过熵值法确定的“数据库‘增’行为量操作指标”、“数据库‘删’行为量操作指标”、“数据库‘改’行为量操作指标”、“数据库‘查’行为量操作指标”和“数据创建时间”指标之间的权重结果如表3所示。

表3熵值法指标权重结果

优序图法的二级指标重要性专家打分结果如表4所示。通过优序图法确定的“数据创建/访问指标”、“数据业务特征指标”、“数据组成属性指标”以及“数据保密等级指标”之间的权重结果如表5所示。

表4二级指标重要性专家评价法打分结果

表5优序图法指标权重结果

构造神经网络模型数据集：

基于铁路建设期数据模拟访问记录原始数据集，根据前述各因素计算公式，计算出每张数据表2021年4月这一周期内的数据量大小因素、数据访问时间重要性因素、数据访问频率重要性因素、数据访问量因素和数据访问用户相似度因素的结果，结合每张数据表业务价值结果作为RBF神经网络模型的输入向量；每张数据表专家评价存储级别作为RBF神经网络模型的输出，构成神经网络模型数据集。

对已构建的神经网络映射模型结果分析：

本具体实施例提供了四组对比实验，梯度下降-RBF神经网络、聚类-RBF神经网络、RBF工具箱神经网络以及聚类-APSO-RBF神经网络分别作为影响数据价值因素与数据价值等级的映射关系模型，分别验证模型对于铁路建设期数据分级结果的有效性，721组样本数据中，随机选择其中500组数据为训练集，221组为测试集，四组对比实验判定数据各存储级别准确率如表6所示。

表6四组对比实验数据分级结果准确率

四组对比实验测试集数据标签结果以及实际网络输出结果散点图如图11-图14所示。

通过上述步骤，本发明构建了多度量指标判定数据价值。实现铁路建设期数据分级存储与管理，有效降低数据存储成本并提高存储设备性能，精准判定数据的价值及其重要性是数据分级存储和迁移的基础。在计算数据价值时除考虑数据被访问的情况之外，还考虑了数据属性信息、业务类型特点以及数据存在的预期价值。本申请从众多的影响数据价值因素中进行选择，并综合权衡考虑这些因素以及因素之间的关系，构建多度量数据价值判定模型及基于RBF神经网络的数据价值映射关系模型，通过这两个模型确定影响数据价值变化的因素与存储设备级别之间的非线性映射关系，从而判定数据价值时综合考虑了数据大小、数据访问时间重要性、数据访问频率重要性、数据访问量、数据访问用户相似度以及数据业务价值多个因素的影响。判定数据价值不仅考虑数据被访问的情况，结合铁路建设期数据的数据特点以及用户对铁路建设期数据的访问需求，从多角度综合考虑多种因素对数据价值的影响，更全面更精准地判定数据价值。

本发明还提供了基于数据业务特征和数据价值制定数据分级/迁移策略。在数据分级存储过程中，固定阈值法以及高低水位法作为数据触发迁移的条件，在设定的阈值条件下发生数据迁移，构建数据迁移策略。使得数据能够实现在高性能存储设备和低性能存储设备之间双向迁移，双向迁移的方式可保证数据能即时地根据价值变化存储在合适的存储设备上，满足数据高低动态变化的存储需求。在数据分级/迁移策略中，设定合理的分级临界阈值，同时结合铁路建设期数据的业务特点、价值标准和存储需求以及用户对铁路建设期数据的访问要求，以保证合适的数据在合适的时间存放于合适的存储级设备。数据迁移算法中的阈值设置结合了动态自适应调节的方式，合理的数据迁移阈值设置使数据迁移行为更贴合系统中数据的分布情况，达到数据分级存储的目的。

本申请提供的铁路建设期数据分级存储算法，能够将数据分级存储的结果更加合理，有效应用数铁路数据存储平台，降低存储成本，在不影响用户访问的前提下提高存储设备的利用率，提高铁路大数据存储平台系统性能。同时，尽可能多地保存铁路行业各方面数据，方便日后对铁路大数据的调用和查看。填补了目前铁路行业有关数据分级存储算法的分析研究和应用少的空白。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于改进RBF神经网络的数据分级存储算法，其特征在于，所述算法包括：

对首次存入的数据进行分级，得到分级结果；

根据一级存储设备、二级存储设备、三级存储设备的性能以及容量特征得到存储级别，根据所述分级结果对所述数据进行数据存储；

建立数据分级神经网络模型，包括，

S1、计算数据迁移因素值；

S2、确定聚类中心作为RBF隐含层神经元的径向基函数中心向量C^j，获取RBF神经网络的扩展常数b；

S3、获取惯性权重ω、收缩因子、粒子的速度、粒子的位置后，根据自适应粒子群算法确定权值矩阵，得到所述数据迁移因素值与存储级别之间的映射关系，则所述数据分级神经网络模型构建完毕；

在实际数据迁移中，根据所述数据分级神经网络模型的输出值和标签值之差得到差值P，根据所述差值P筛选需迁移的数据；

对于所述降级迁移算法：第一种情况判断空间占用率是否大于存储设备的高水位，若大于则计算数据差值P，判断所述差值是否小于数据迁移阈值，若小于则将待迁移数据加入迁移队列若所述迁移队列中的数据小于迁移队列容量，则将数据依次迁移并获取新的迁移阈值，若所述迁移队列中的数据大于迁移队列容量，则将所述迁移队列中最大差值的数据移出迁移队列后进行再次判断，根据判断结果将数据依次迁移并获取新的迁移阈值；第二种情况判断当前是否达到数据迁移周期，若达到迁移周期则计算数据迁移因素值作为训练完毕的所述数据分级神经网络模型的输入计算数据差值P，根据所述数据价值的计算结果优先执行数据降级迁移，将执行降级迁移数据判断所述差值是否小于数据迁移阈值，若小于则将待迁移数据加入迁移队列，若所述迁移队列中的数据小于迁移队列容量，则将数据依次迁移并获取新的迁移阈值，若所述迁移队列中的数据大于迁移队列容量，则将所述迁移队列中最大差值的数据移出迁移队列后进行再次判断，根据判断结果将数据依次迁移并获取新的迁移阈值；

降级迁移后执行升级迁移算法，对于所述升级迁移算法：判断达到数据迁移周期执行完数据降级迁移后，获取数据迁移阈值，将执行升级迁移数据判断所述差值是否小于数据迁移阈值，若小于则加入升级迁移队列；判断迁移数据总量是否大于升级迁移队列的最大容量，若是则将迁移队列中差值最大的数据迁出迁移队列，若否则将迁移队列中的所有数据迁移到以及存储。

2.根据权利要求1所述的算法，其特征在于，所述对首次存入的数据进行分级，得到分级结果包括：根据铁路建设期数据属性特征以及业务特征设置定量二级指标和定性二级指标；通过专家评价的方式根据三级指标内容对所述定性二级指标进行评价，对定性二级指标所述三级指标内容直接设置权重，得到各项定性二级指标结果；根据访问日志获取定量二级指标所述三级指标结果，通过熵值法获取各三级指标的权重关系，通过TOPSIS综合评价方法得到定量二级指标结果；二级指标通过优序图法获取二级指标间的权重；通过加权求和的方式得到数据业务价值因素。

3.根据权利要求1所述的算法，其特征在于，所述得到存储级别，根据所述分级结果对所述数据进行数据存储，包括：

所述一级存储设备中数据业务价值最小值作为数据分级存储系统的高数据分级阈值，所述三级存储设备中数据业务价值最大值作为低数据分级阈值；一级存储为高性能存储介质，二级存储为中性能存储介质，三级存储为低性能存储介质；

时刻监听是否有数据首次存入，当接收到新数据存入请求时，计算该数据的业务价值因素，判断数据业务价值因素所在的分级阈值区间，根据数据量大小与存储设备剩余容量之间的关系确定首次存入数据的存储级别。

4.根据权利要求1所述的算法，其特征在于，所述计算数据迁移因素值，包括：数据量大小因素、数据访问时间重要性因素、数据访问频率重要性因素、数据访问量因素、数据访问用户相似度因素、数据业务价值因素。

5.根据权利要求1所述的算法，其特征在于，所述确定聚类中心作为RBF隐含层神经元的径向基函数中心向量C^j，获取RBF神经网络的扩展常数b，包括：

按照样本数据间最小欧式距离原则对所有样本进行聚类，并确定聚类中心作为RBF隐含层神经元的径向基函数中心向量C^j，同时以隐含层神经元径向基函数中心向量间的最小距离作为RBF神经网络的扩展常数b；

其中，样本数据包括所述迁移因素值以及分级结果。

6.根据权利要求1所述的算法，其特征在于，所述获取惯性权重ω、收缩因子、粒子的速度、粒子的位置，包括：

动态调整所述惯性权重ω：

计算学习因子c1和学习因子c2：

计算粒子运动速度：

计算粒子位置：

7.根据权利要求6所述算法，其特征在于，在获取粒子运动速度时所使用的收缩因子χ为：

8.根据权利要求7所述的算法，其特征在于，所述根据自适应粒子群算法确定权值矩阵，包括，自适应粒子群算法的评价函数取最小值时粒子位置则为权值矩阵W的最优解，自适应粒子群算法的评价函数为：

9.根据权利要求8所述的算法，其特征在于，所述确定权值矩阵，得到所述数据迁移因素值与存储级别之间的映射关系，则所述数据分级神经网络模型构建完毕，包括：将径向基函数中心向量、扩展常数和权值矩阵作为RBF神经网络参数。