CN111142807A

CN111142807A - 基于存储地址遍历的存储优化方法及装置

Info

Publication number: CN111142807A
Application number: CN202010267133.0A
Authority: CN
Inventors: 杨贻宏
Original assignee: Shanghai Feiqi Network Technology Co Ltd
Current assignee: Shanghai Feiqi Network Technology Co Ltd
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2020-05-12
Anticipated expiration: 2040-04-08
Also published as: CN111142807B

Abstract

本发明提供了一种基于储存地址遍历的存储优化方法及装置。首先，在用于表征综合运行指标的评价因子低于设定阈值时获取第一存储区内的待转移数据。其次，按照每个第二存储区的存储地址的序列依次判断待转移数据与每个第二存储区内的原始存储数据是否存在存储干扰。最后，在判断出待转移数据与第二存储区内的原始存储数据不存在存储干扰时将待转移数据从第一存储区内转移至该第二存储区内。如此，能够在第一存储区存储有待转移数据而导致大数据处理端的综合运行指标下降时，通过将待转移数据从第一存储区转移至第二存储区，从而释放第一存储区的存储空间，避免第一存储区出现数据饱和情况而导致大数据处理端的综合运行指标的降低。

Description

基于存储地址遍历的存储优化方法及装置

技术领域

本发明涉及大数据存储性能优化技术领域，具体而言，涉及一种基于储存地址遍历的存储优化方法及装置。

背景技术

随着大数据的发展以及推广，大数据处理端所面临的挑战和需求日益增多。大数据处理端集成有大数据采集、存储、挖掘和分析等功能，大数据处理端可以通过以上功能的相辅相成实现对大数据的有效处理。然而，随着大数据的数据量的增加，大数据处理端的存储功能的不合理规划可能会对大数据的正常处理产生影响。

发明内容

为了改善上述问题，本发明提供了一种基于储存地址遍历的存储优化方法及装置。

本发明实施例的第一方面，提供了一种基于储存地址遍历的存储优化方法，应用于大数据处理端，所述方法包括：

获取用于表征大数据处理端的运行状态的性能参数，所述运行状态包括所述大数据处理端的延时状态、运行稳定度、运行温度曲线轨迹以及数据处理掉包率，所述性能参数包括多个参数向量，每个参数向量用于表征所述运行状态的其中一个类别，每个参数向量中的向量值是实时更新的；

根据所述性能参数中的每个参数向量确定所述性能参数的评价因子，所述评价因子用于表征所述大数据处理端的综合运行指标；

在所述评价因子低于设定阈值时，获取所述大数据处理端中的第一存储区内的待转移数据，所述第一存储区存储有所述大数据处理端的系统数据，所述待转移数据是所述大数据处理端采集到的并存储于所述第一存储区的业务数据；

按照所述大数据处理端的多个第二存储区中每个第二存储区的存储地址的序列，依次判断所述待转移数据与每个第二存储区内的原始存储数据之间是否存在存储干扰；

在判断出所述待转移数据与第二存储区内的原始存储数据之间不存在所述存储干扰时，将所述待转移数据从所述第一存储区内转移至该第二存储区内进行存储。

在一种可替换的实施方式中，所述方法还包括：

在判断出所有第二存储区均存在存储干扰时，确定所述待转移数据的第一优先级以及每个第二存储区内的原始存储数据的第二优先级；

获取小于所述第一优先级的每个第二优先级对应的原始存储数据的数据恢复等级，所述数据恢复等级用于表征将原始存储数据删除之后进行恢复的耗时；

将所述待转移数据转移至最大的数据恢复等级对应的第二存储区内进行存储并将最大的数据恢复等级对应的第二存储区内的原始存储数据进行删除。

在一种可替换的实施方式中，依次判断所述待转移数据与每个第二存储区内的原始存储数据之间是否存在存储干扰的步骤，包括：

从所述待转移数据的第一数据字段中提取第一数据结构信息，获取所述第一数据结构信息中数据结构的特征分布并生成第一特征分布图，所述第一特征分布图中包含所述第一数据字段的整个数据结构；

对所述第一特征分布图进行边界值划分得到所述第一特征分布图对应的多个图像块，确定每相邻两个图像块之间的相关性系数，根据确定出的所有相关性系数生成用于表征所述待转移数据的数据结构的第一结构化描述数组；

确定所述第二存储区内的原始存储数据的第二结构化描述数组；

分别将所述第一结构化描述数组以及所述第二结构化描述数组映射至预设坐标平面得到第一坐标值和第二坐标值，所述预设坐标平面用于对所述大数据处理端内的数据的数据结构进行坐标形式的描述；

判断所述第一坐标值和所述第二坐标值之间的距离是否小于预设距离；

若所述第一坐标值和所述第二坐标值之间的距离大于等于所述预设距离，则判定所述待转移数据与所述第二存储区内的原始存储数据之间存在存储干扰；

若所述第一坐标值和所述第二坐标值之间的距离小于所述预设距离，根据所述待转移数据与所述第二存储区内的原始存储数据之间的数据相似度确定所述待转移数据与所述第二存储区内的原始存储数据之间是否存在存储干扰。

在一种可替换的实施方式中，根据所述待转移数据与所述第二存储区内的原始存储数据之间的数据相似度确定所述待转移数据与所述第二存储区内的原始存储数据之间是否存在存储干扰的步骤，包括：

判断所述待转移数据与所述第二存储区内的原始存储数据之间的数据相似度是否超过设定相似度；

若所述待转移数据与所述第二存储区内的原始存储数据之间的数据相似度超过所述设定相似度，则判定所述待转移数据与所述第二存储区内的原始存储数据之间存在存储干扰；

若所述待转移数据与所述第二存储区内的原始存储数据之间的数据相似度未超过所述设定相似度，则判定所述待转移数据与所述第二存储区内的原始存储数据之间不存在存储干扰。

在一种可替换的实施方式中，所述待转移数据与所述第二存储区内的原始存储数据之间的数据相似度通过以下步骤得到：

提取用于表征所述待转移数据的数据内容的第一数据特征向量；

按照所述第一数据特征向量的向量维度提取用于表征所述第二存储区内的原始存储数据的数据内容的第二数据特征向量，所述第二数据特征向量的向量维度与所述第一数据特征向量的向量维度相同；

确定所述第一数据特征向量与所述第二数据特征向量之间的余弦距离，根据所述余弦距离确定所述待转移数据与所述第二存储区内的原始存储数据之间的数据相似度。

在一种可替换的实施方式中，根据所述性能参数中的每个参数向量确定所述性能参数的评价因子，包括：

根据所述大数据处理端的运行日志确定每个参数向量的向量值更新速率分布以及每个参数向量的各更新列表；

在根据所述向量值更新速率分布确定出每个参数向量中包含有动态向量值的情况下，根据每个参数向量在所述动态向量值对应的列表类别下的更新列表及所述更新列表的列表信息确定每个参数向量在非动态向量值对应的列表类别下的各更新列表与每个参数向量在所述动态向量值对应的列表类别下的各更新列表之间的重叠系数，并将每个参数向量在所述非动态向量值对应的列表类别下的与在所述动态向量值对应的列表类别下的更新列表之间的重叠系数大于设定系数的更新列表调整到每个参数向量的动态向量值对应的列表类别下；

在每个参数向量的非动态向量值对应的列表类别下包含有多个更新列表的情况下，根据每个参数向量在所述动态向量值对应的列表类别下的更新列表及所述更新列表的列表信息确定每个参数向量在所述非动态向量值对应的列表类别下的各更新列表之间的影响权重，并根据所述各更新列表之间的影响权重对所述非动态向量值对应的列表类别下的各更新列表进行筛选；

根据每个参数向量在所述动态向量值对应的列表类别下的更新列表及所述更新列表的列表信息为上述筛选之后保留的每个更新列表设置调整指向信息，并将筛选之后保留的每个更新列表调整到所述调整指向信息指向的所述动态向量值对应的列表类别下；

根据每个参数向量在其动态向量值对应的列表类别下的更新列表确定每个参数向量的评价权重并根据所述评价权重确定所述性能参数的评价因子。

在一种可替换的实施方式中，根据所述评价权重确定所述性能参数的评价因子，包括：

对每个参数向量的评价权重进行加权得到所述性能参数的评价因子。

本发明实施例的第二方面，提供了一种基于储存地址遍历的存储优化装置，应用于大数据处理端，所述装置包括：

参数获取模块，用于获取用于表征大数据处理端的运行状态的性能参数，所述运行状态包括所述大数据处理端的延时状态、运行稳定度、运行温度曲线轨迹以及数据处理掉包率，所述性能参数包括多个参数向量，每个参数向量用于表征所述运行状态的其中一个类别，每个参数向量中的向量值是实时更新的；

因子确定模块，用于根据所述性能参数中的每个参数向量确定所述性能参数的评价因子，所述评价因子用于表征所述大数据处理端的综合运行指标；

数据获取模块，用于在所述评价因子低于设定阈值时，获取所述大数据处理端中的第一存储区内的待转移数据，所述第一存储区存储有所述大数据处理端的系统数据，所述待转移数据是所述大数据处理端采集到的并存储于所述第一存储区的业务数据；

存储判断模块，用于按照所述大数据处理端的多个第二存储区中每个第二存储区的存储地址的序列，依次判断所述待转移数据与每个第二存储区内的原始存储数据之间是否存在存储干扰；

数据转移模块，用于在判断出所述待转移数据与第二存储区内的原始存储数据之间不存在所述存储干扰时，将所述待转移数据从所述第一存储区内转移至该第二存储区内进行存储。

在一种可替换的实施方式中，所述存储判断模块，具体用于：

对所述第一特征分布图进行边界值划分得到所述第一特征分布图对应的多个图像块，确定每相邻两个图像块之间的相关性系数，并根据确定出的所有相关性系数生成用于表征所述待转移数据的数据结构的第一结构化描述数组；

确定所述第二存储区内的原始存储数据的第二结构化描述数组；分别将所述第一结构化描述数组以及所述第二结构化描述数组映射至预设坐标平面得到第一坐标值和第二坐标值，所述预设坐标平面用于对所述大数据处理端内的数据的数据结构进行坐标形式的描述；以及

判断所述第一坐标值和所述第二坐标值之间的距离是否小于预设距离；若所述第一坐标值和所述第二坐标值之间的距离大于等于所述预设距离，则判定所述待转移数据与所述第二存储区内的原始存储数据之间存在存储干扰；若所述第一坐标值和所述第二坐标值之间的距离小于所述预设距离，根据所述待转移数据与所述第二存储区内的原始存储数据之间的数据相似度确定所述待转移数据与所述第二存储区内的原始存储数据之间是否存在存储干扰。

在一种可替换的实施方式中，所述存储判断模块，进一步用于：

判断所述待转移数据与所述第二存储区内的原始存储数据之间的数据相似度是否超过设定相似度；若所述待转移数据与所述第二存储区内的原始存储数据之间的数据相似度超过所述设定相似度，则判定所述待转移数据与所述第二存储区内的原始存储数据之间存在存储干扰；若所述待转移数据与所述第二存储区内的原始存储数据之间的数据相似度未超过所述设定相似度，则判定所述待转移数据与所述第二存储区内的原始存储数据之间不存在存储干扰。

本发明实施例所提供的基于储存地址遍历的存储优化方法及装置，首先根据获取到的性能参数中的每个参数向量确定用于表征大数据处理端的综合运行指标的评价因子，并在评价因子低于设定阈值时获取大数据处理端中的第一存储区内的待转移数据。

其次，按照大数据处理端的多个第二存储区中每个第二存储区的存储地址的序列，依次判断待转移数据与每个第二存储区内的原始存储数据之间是否存在存储干扰。

最后，在判断出待转移数据与第二存储区内的原始存储数据之间不存在存储干扰时将待转移数据从第一存储区内转移至该第二存储区内进行存储。

如此，能够在大数据处理端的第一存储区存储有待转移数据而导致大数据处理端的综合运行指标下降时，将第一存储区中的待转移数据转移至第二存储区进行存储，并且在转移之前确保待转移数据与第二存储区内的原始存储数据之间不存在存储干扰。

可以理解，通过将待转移数据从第一存储区转移至第二存储区，能够释放第一存储区的存储空间，避免第一存储区出现数据饱和情况而导致大数据处理端的综合运行指标的降低。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例所提供的一种基于储存地址遍历的存储优化方法的流程图。

图2为一实施方式中图1所示的步骤S24的子步骤示意图。

图3为一实施方式中图1所示的步骤S22的子步骤示意图。

图4为本发明实施例所提供的一种基于储存地址遍历的存储优化装置的功能模块框图。

图5为本发明实施例所提供的一种大数据处理端的产品模块示意图。

图标：

100-大数据处理端；

101-基于储存地址遍历的存储优化装置；1011-参数获取模块；1012-因子确定模块；1013-数据获取模块；1014-存储判断模块；1015-数据转移模块；

111-处理器；112-存储器；113-总线。

具体实施方式

下面将参照附图更详细地描述本发明公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明，而不是对本发明技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

就大数据处理端的存储功能而言，大数据处理端通常将用于维持大数据处理端的系统正常稳定运行的系统数据以及大数据处理端采集到的业务数据存储在同一片存储区集群中。

当大数据处理端在持续采集外界的业务数据时，可能会将采集到的业务数据存储到系统数据所处的存储区域中，这样会导致系统数据所处的存储区域出现数据饱和的情况，进而影响大数据处理端的系统的正常稳定运行并对大数据的正常处理产生影响。

为此，本发明实施例提供了一种基于储存地址遍历的存储优化方法及装置，能够有效改善上述问题。请参阅图1，为本发明实施例提供的一种基于储存地址遍历的存储优化方法的流程图，该方法应用于大数据处理端，该方法包括的具体内容描述如下。

步骤S21，获取用于表征大数据处理端的运行状态的性能参数。

在本实施例中，所述运行状态包括所述大数据处理端的延时状态、运行稳定度、运行温度曲线轨迹以及数据处理掉包率，所述性能参数包括多个参数向量，每个参数向量用于表征所述运行状态的其中一个类别，每个参数向量中的向量值是实时更新的。

例如，性能参数可以包括以下四个参数向量。

第一参数向量：用于表征大数据处理端的延时状态。第一参数向量具体可以表征大数据处理端的延时频率、每次发生延时的延时时长以及设定时段（例如一天内或一周内）内延时时长和非延时时长的比例。

又例如，第一参数向量可以是

。其中，a可以表征大数据处理端的延时频率，b可以表征每次发生延时的延时时长的加权值，c可以表征设定时段（例如一天内或一周内）内延时时长和非延时时长的比例。在具体实施时，可以通过预设的映射关系将延时频率（单位为hz）、延时时长的加权值（单位为s）进行映射，从而实现对延时频率和延时时长的加权值的归一化处理。这样，第一参数向量中的每个向量值的取值范围均为0~1，便于后续的计算和分析。

第二参数向量：用于表征大数据处理端的运行稳定度。第二参数向量具体用于表征大数据处理端在运行时的掉线率和掉线时段。

再例如，第二参数向量可以是

。其中，d可以表征大数据处理端在运行时的掉线率，t可以表征大数据处理端在运行时的掉线时段。

第三参数向量：用于表征大数据处理端的运行温度曲线轨迹。其中，大数据处理端的运行温度可以通过设置于大数据处理端内的温度传感器采集得到，运行温度曲线轨迹可以根据温度传感器采集到的温度以及对应的采集时刻确定。

进一步地，第三参数向量可以是

。其中，h用于表征大数据处理端的实时温度值，g用于表征实时温度值对应的采集时刻。

第四参数向量：用于表征大数据处理端的数据处理掉包率。例如，大数据处理端与业务终端进行交互时，业务终端请求的数据为data1~data10，而大数据处理端下发的请求数据为data1~data9。在这种情况下，可以确定出数据处理掉包率为10%。当然，在具体实施时，第四参数向量具体可以表征大数据处理端针对不同业务数据进行下发时出现的数据掉包情况。

在一种可能的实现方式中，第四参数向量可以是

。其中，u可以表征数据处理掉包率，y可以表征与大数据处理端通信的业务终端的数量。

可以理解，以上四个参数向量的具体表达方式可以预先在大数据处理端中进行设置。也就是说，当大数据处理端在运行时，可以根据预先植入的代码自动生成上述参数向量，关于植入的代码在本申请实施例中不作详细说明。

步骤S22，根据所述性能参数中的每个参数向量确定所述性能参数的评价因子。

在本实施例中，所述评价因子用于表征所述大数据处理端的综合运行指标。具体地，评价因子可以根据每个参数向量对应的向量特征值和评价权重确定，以上述示例进行说明，第一参数向量的评价权重为q1，第二参数向量的评价权重为q2，第三参数向量的评价权重为q3，第四参数向量的评价权重为q4。进一步地，q1、q2、q3和q4的和值为1。进一步地，向量特征值可以通过每个参数向量的多个向量值确定。

更为具体地，评价因子可以根据向量特征值和评价权重的加权值确定，为便于后续说明，本实施例中可以对每个参数向量对应的向量特征值进行归一化处理。如此，可以将每个参数向量的向量特征值确定在一个统一的范围内。例如，可以将参数向量对应的向量特征值的归一化范围设置在[0,10]这个区间内。进一步地，每个评价权重的取值范围可以是[0,1]。

可以理解，通过上述内容，评价因子的取值范围可以是[0,10]。进一步地，可以将评价因子定义为ap，将第一参数向量到第四参数向量的向量特征值定义为E1~E4。则ap=E1*q1+E2*q2+E3*q3+E4*q4。

步骤S23，在所述评价因子低于设定阈值时，获取所述大数据处理端中的第一存储区内的待转移数据。

在本实施例中，所述第一存储区存储有所述大数据处理端的系统数据，所述待转移数据是所述大数据处理端采集到的并存储于所述第一存储区的业务数据。

在本实施例中，设定阈值可以根据大数据处理端的历史运行指标进行确定。例如，可以根据大数据处理端在一周内或者一个月内的运行指标确定该设定阈值。可以理解，历史运行指标的参考时间段不同，所确定出的设定阈值也不同，在此不做更多限定。

步骤S24，按照所述大数据处理端的多个第二存储区中每个第二存储区的存储地址的序列，依次判断所述待转移数据与每个第二存储区内的原始存储数据之间是否存在存储干扰。

在本实施例中，每个第二存储区设置有存储地址，存储地址用于对每个第二存储区进行区分，也可以指示大数据处理端对每个第二存储区进行定位和查询。进一步地，存储地址可以是二进制数值，存储地址可以按照二进制数值的大小进行排序得到序列。

在本实施例中，存储干扰可以包括以下两种情况。第一种，若待转移数据与原始数据之间存在数据异构性，则会导致第二存储区产生存储逻辑混乱现象。第二种，若待转移数据与原始数据之间的相似性过高，则会影响后续大数据处理端对存储于相同第二存储区内的待转移数据和原始数据的获取。

可以理解，在进行存储干扰的判断时，需要同时考虑以上两种情况，进而确保对待转移数据进行转移之后不会出现上述问题。

步骤S25，在判断出所述待转移数据与第二存储区内的原始存储数据之间不存在所述存储干扰时，将所述待转移数据从所述第一存储区内转移至该第二存储区内进行存储。

综上，通过步骤S21-步骤S25所描述的方法，首先根据获取到的性能参数中的每个参数向量确定用于表征大数据处理端的综合运行指标的评价因子，并在评价因子低于设定阈值时获取大数据处理端中的第一存储区内的待转移数据。

最后，在判断出待转移数据与第二存储区内的原始数据之间不存在存储干扰时将待转移数据从第一存储区内转移至该第二存储区内进行存储。

如此，能够在大数据处理端的第一存储区存储有待转移数据而导致大数据处理端的综合运行指标下降时，将第一存储区中的待转移数据转移至第二存储区进行存储，并且在转移之前确保待转移数据与第二存储区内的原始数据之间不存在存储干扰。

可以理解，通过将待转移数据从第一存储区转移至第二存储区，能够释放第一存储区的存储空间，避免第一存储区出现数据饱和情况导致大数据处理端的综合运行指标的降低。

在具体实施时，若待转移数据与每个第二存储区内的原始存储数据之间均存在存储干扰，为了确保将待转移数据从第一存储区中进行转移以释放第一存储区的存储空间，在上述步骤S21-步骤S25的基础上，该存储优化方法还可以包括以下步骤S26-步骤S28，具体描述如下。

步骤S26，在判断出所有第二存储区均存在存储干扰时，确定所述待转移数据的第一优先级以及每个第二存储区内的原始存储数据的第二优先级。

在本实施例中，优先级用于表征数据的重要程度，优先级越高，数据的重要程度越高。

步骤S27，获取小于所述第一优先级的每个第二优先级对应的原始存储数据的数据恢复等级。

在本实施例中，所述数据恢复等级用于表征将原始存储数据删除之后进行恢复的耗时。数据恢复等级越大，将删除的原始存储数据进行恢复的耗时越短。

步骤S28，将所述待转移数据转移至最大的数据恢复等级对应的第二存储区内进行存储并将最大的数据恢复等级对应的第二存储区内的原始存储数据进行删除。

可以理解，通过上述步骤S26-步骤S28所描述的方法，能够在待转移数据与每个第二存储区内的原始存储数据之间均存在存储干扰时，根据待转移数据的第一优先级以及原始存储数据的第二优先级确定出低于第一优先级的第二优先级对应的原始存储数据的数据恢复等级。

然后将待转移数据转移至最大的数据恢复等级对应的第二存储区内进行存储并将最大的数据恢复等级对应的第二存储区内的原始存储数据进行删除。

由于最大的数据恢复等级对应的原始存储数据的恢复耗时较短，可以先将最大的数据恢复等级对应的原始存储数据进行删除以释放其对应的第二存储区，然后将待转移数据转移至该第二存储区内进行存储。一方面能够避免待存储数据与原始存储数据之间的存储干扰，另一方面还能够确保在需要使用最大的数据恢复等级对应的原始存储数据时，可以快速地恢复该原始存储数据。

在具体实施时，判断待转移数据与原始存储数据之间是否存在存储干扰需要从数据结构异构性以及数据内容相似性两个方面进行判断。为此，请结合参阅图2，在步骤S24中，判断所述待转移数据与所述第二存储区内的原始存储数据之间是否存在存储干扰，一种可替代的具体实现方法可以包括下述步骤S241-步骤S248所描述的方法。

步骤S241，从所述待转移数据的第一数据字段中提取第一数据结构信息，获取所述第一数据结构信息中数据结构的特征分布并生成第一特征分布图。

在本实施例中，待转移数据包括系统字段和第一数据字段。其中，系统字段用于表征待转移数据在第一存储区内实现稳定存储时所对应的字段，详细地，系统字段可以理解为待转移数据中的功能字段，也可以理解为待转移数据与外界进行交互的字段。第一数据字段用于表征待转移数据的实际数据，第一数据字段可以理解为待转移数据的信息字段。其中，第一数据字段可以按照大数据处理端所兼容的编码方式进行编码，例如，第一数据字段可以是二进制字段，也可以是其他进制的字段，只要是大数据处理端能够直接处理的进制方式即可。

进一步地，第一数据结构信息用于表征第一数据字段的数据分段信息，例如，第一数据字段可以是001010100|0101|01|000|11|0100110。则确定出的第一数据结构信息可以是：001010100、0101、01、000、11和0100110。此外，数据结构信息还可以包括数据分隔符“|”在第一数据字段中的位置信息，该位置信息同样可以通过二进制的方式进行记录，在此不做更多说明。

更进一步地，第一数据结构信息中数据结构的特征分布可以理解为第一数据结构信息中每段信息的长度信息以及不同长度的信息的相对序列关系，第一特征分布图可以是数值分布图。

在本实施例中，所述第一特征分布图中包含所述第一数据字段的整个数据结构。

步骤S242，对所述第一特征分布图进行边界值划分得到所述第一特征分布图对应的多个图像块，确定每相邻两个图像块之间的相关性系数，根据确定出的所有相关性系数生成用于表征所述待转移数据的数据结构的第一结构化描述数组。

在本实施例中，边界值划分可以根据第一特征分布图中的不同的数值分布进行。例如，第一特征分布图可以通过“0”和“1”标记值对应的像素块构成，当出现连续三个的像素块的标记值相同，则可以确定这三个像素块形成数值边界。如此，通过确定不同的数值边界，可以将第一特征分布图划分为多个图像块。

进一步地，每相邻两个图像块之间的相关性系数可以通过每相邻两个图像块共有的数值边界占每个图像块的边界的比例确定。在本实施例中，相关性系数的取值范围可以是0~1。

在本实施例中，第一结构化描述数组中包括对待转移数据的数据结构的描述数值，例如，第一结构化描述数组可以为{a，b，c，...}。数组中的每个描述数值用于表征待转移数据的不同维度的数据结构描述。

步骤S243，确定所述第二存储区内的原始存储数据的第二结构化描述数组。

在本实施例中，第二结构化描述数组的确定方式可以参考第一结构化描述数组的确定方式，在此不作更多说明。

步骤S244，分别将所述第一结构化描述数组以及所述第二结构化描述数组映射至预设坐标平面得到第一坐标值和第二坐标值。

在本实施例中，所述预设坐标平面用于对所述大数据处理端内的数据的数据结构进行坐标形式的描述。其中，预设坐标平面可以是二维平面，第一坐标值和第二坐标值分别为二维坐标值。预设坐标平面的横轴和纵轴可以用于结构化描述数组中的部分描述数值之间的加权值，例如，以第一结构化描述数组{a，b，c，d}为例进行说明，预设坐标平面的横轴可以用于表征a和c的加权值，预设坐标平面的纵轴可以表征b和d的加权值。

步骤S245，判断所述第一坐标值和所述第二坐标值之间的距离是否小于预设距离。

若所述第一坐标值和所述第二坐标值之间的距离大于等于所述预设距离，则转向步骤S246。若所述第一坐标值和所述第二坐标值之间的距离小于所述预设距离，则转向步骤S247。

步骤S246，判定所述待转移数据与所述第二存储区内的原始存储数据之间存在存储干扰。

步骤S247，判断所述待转移数据与所述第二存储区内的原始存储数据之间的数据相似度是否超过设定相似度。

在本实施例中，数据相似度可以通过分析待转移数据与原始存储数据的至少部分数据字符之间的一致性确定。

若所述待转移数据与所述第二存储区内的原始存储数据之间的数据相似度超过所述设定相似度，则转向步骤S246。若所述待转移数据与所述第二存储区内的原始存储数据之间的数据相似度未超过所述设定相似度，则转向步骤S248。

步骤S248，判定所述待转移数据与所述第二存储区内的原始存储数据之间不存在存储干扰。

可以理解，基于上述步骤S241-步骤S248所描述的内容，能够从数据结构异构性以及数据内容相似性两个方面判断待转移数据与原始存储数据之间是否存在存储干扰。如此，可以准确地实现待转移数据与原始存储数据之间的存储干扰。

在具体实施时，待转移数据与所述第二存储区内的原始存储数据之间的数据相似度可以通过以下步骤所述描述的内容得到。

提取用于表征所述待转移数据的数据内容的第一数据特征向量。按照所述第一数据特征向量的向量维度提取用于表征所述第二存储区内的原始存储数据的数据内容的第二数据特征向量，所述第二数据特征向量的向量维度与所述第一数据特征向量的向量维度相同。确定所述第一数据特征向量与所述第二数据特征向量之间的余弦距离，根据所述余弦距离确定所述待转移数据与所述第二存储区内的原始存储数据之间的数据相似度。

在本实施例中，待转移数据的数据内容可以是第一数据字段中的内容。

通过上述关于数据相似度的描述内容，可以准确确定出待转移数据与所述第二存储区内的原始存储数据之间的数据相似度。

请结合参阅图3，在步骤S22中，根据所述性能参数中的每个参数向量确定所述性能参数的评价因子，一种可替代的具体实现方法可以包括下述步骤S221到步骤S225所描述的方法。

步骤S221，根据所述大数据处理端的运行日志确定每个参数向量的向量值更新速率分布以及每个参数向量的各更新列表。

在本实施例中，运行日志记录了大数据处理端在进行数据处理和分析时的操作记录。每个参数向量的向量值更新速率分布可以根据不同时段的每个参数向量的向量值更新速率得到。例如，向量值更新速率分布可以是表格，也可以是曲线段，在此作限定。

在上述示例中，各更新列表用于表征每个参数向量中的每个向量值的更新情况。

步骤S222，在根据所述向量值更新速率分布确定出每个参数向量中包含有动态向量值的情况下，根据每个参数向量在所述动态向量值对应的列表类别下的更新列表及所述更新列表的列表信息确定每个参数向量在非动态向量值对应的列表类别下的各更新列表与每个参数向量在所述动态向量值对应的列表类别下的各更新列表之间的重叠系数，并将每个参数向量在所述非动态向量值对应的列表类别下的与在所述动态向量值对应的列表类别下的更新列表之间的重叠系数大于设定系数的更新列表调整到每个参数向量的动态向量值对应的列表类别下。

在本实施例中，动态向量值可以参数向量中更新较为频繁的向量值。其中，更新频率可以通过向量值在每个时间段（例如10分钟或半小时）内的更新次数来确定。当然，在具体实施时，时间段的长短可以进行适当调整，在此不作限定。

在一种可能的实施方式中，重叠系数用于表征不同更新列表之间的行列比例的差值以及不同更新列表在相同位置的列表单元内的信息的相似度。一般而言，重叠系数的取值范围也可以是0~1。

步骤S223，在每个参数向量的非动态向量值对应的列表类别下包含有多个更新列表的情况下，根据每个参数向量在所述动态向量值对应的列表类别下的更新列表及所述更新列表的列表信息确定每个参数向量在所述非动态向量值对应的列表类别下的各更新列表之间的影响权重，并根据所述各更新列表之间的影响权重对所述非动态向量值对应的列表类别下的各更新列表进行筛选。

在本实施例中，影响权重用于表征不同更新列表之间的列表信息的关联程度，影响权重越大，不同更新列表之间的列表信息的关联程度越高。

步骤S224，根据每个参数向量在所述动态向量值对应的列表类别下的更新列表及所述更新列表的列表信息为上述筛选之后保留的每个更新列表设置调整指向信息，并将筛选之后保留的每个更新列表调整到所述调整指向信息指向的所述动态向量值对应的列表类别下。

在本实施例中，调整指向信息用于指示筛选之后保留的每个更新列表的调整路径。

步骤S225，根据每个参数向量在其动态向量值对应的列表类别下的更新列表确定每个参数向量的评价权重并根据所述评价权重确定所述性能参数的评价因子。

通过上述步骤S221-步骤S225所描述的方法，能够对每个参数向量的向量值更新速率分布以及各更新列表进行分析，从而准确确定性能参数的评价因子。

进一步地，在步骤S225中，根据所述评价权重确定所述性能参数的评价因子，一种可替代的具体实现方法可以包括下述所描述的方法：对每个参数向量的评价权重进行加权得到所述性能参数的评价因子。可以理解，在对评价权重进行加权时，可以结合每个参数向量的向量特征值进行。

在上述基础上，请结合参阅图4，为本发明实施例所提供的一种基于储存地址遍历的存储优化装置101的模块框图，该基于储存地址遍历的存储优化装置101可以包括参数获取模块1011、因子确定模块1012、数据获取模块1013、存储判断模块1014和数据转移模块1015。

所述参数获取模块1011，用于获取用于表征大数据处理端的运行状态的性能参数，所述运行状态包括所述大数据处理端的延时状态、运行稳定度、运行温度曲线轨迹以及数据处理掉包率，所述性能参数包括多个参数向量，每个参数向量用于表征所述运行状态的其中一个类别，每个参数向量中的向量值是实时更新的。

关于参数获取模块1011的详细实现方式可以参阅与图1所示的步骤S21的内容，在此不作更多说明。

所述因子确定模块1012，用于根据所述性能参数中的每个参数向量确定所述性能参数的评价因子，所述评价因子用于表征所述大数据处理端的综合运行指标。

关于因子确定模块1012的详细实现方式可以参阅与图1所示的步骤S21的内容，在此不作更多说明。

所述数据获取模块1013，用于在所述评价因子低于设定阈值时，获取所述大数据处理端中的第一存储区内的待转移数据，所述第一存储区存储有所述大数据处理端的系统数据，所述待转移数据是所述大数据处理端采集到的并存储于所述第一存储区的业务数据。

关于数据获取模块1013的详细实现方式可以参阅与图1所示的步骤S21的内容，在此不作更多说明。

所述存储判断模块1014，用于按照所述大数据处理端的多个第二存储区中每个第二存储区的存储地址的序列，依次判断所述待转移数据与每个第二存储区内的原始存储数据之间是否存在存储干扰。

关于存储判断模块1014的详细实现方式可以参阅与图1所示的步骤S21的内容，在此不作更多说明。

所述数据转移模块1015，用于在判断出所述待转移数据与第二存储区内的原始存储数据之间不存在所述存储干扰时，将所述待转移数据从所述第一存储区内转移至该第二存储区内进行存储。

关于数据转移模块1015的详细实现方式可以参阅与图1所示的步骤S21的内容，在此不作更多说明。

在一种可替换的实施方式中，所述存储判断模块1014，具体用于：

对所述第一特征分布图进行边界值划分得到所述第一特征分布图对应的多个图像块，确定每相邻两个图像块之间的相关性系数，并根据确定出的所有相关性系数生成用于表征所述待转移数据的数据结构的第一结构化描述数组；确定所述第二存储区内的原始存储数据的第二结构化描述数组；

分别将所述第一结构化描述数组以及所述第二结构化描述数组映射至预设坐标平面得到第一坐标值和第二坐标值，所述预设坐标平面用于对所述大数据处理端内的数据的数据结构进行坐标形式的描述；以及

在一种可替换的实施方式中，所述存储判断模块1014，进一步用于：

请结合参阅图5，本发明实施例还提供了一种大数据处理端100，包括处理器111，以及与处理器111连接的存储器112和总线113。其中，处理器111和存储器112通过总线113完成相互间的通信。处理器111用于调用存储器112中的程序指令，以执行上述的基于储存地址遍历的存储优化方法。

综上，本发明实施例所提供的一种基于储存地址遍历的存储优化方法及装置，首先根据获取到的性能参数中的每个参数向量确定用于表征大数据处理端的综合运行指标的评价因子，并在评价因子低于设定阈值时获取大数据处理端中的第一存储区内的待转移数据。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于储存地址遍历的存储优化方法，其特征在于，应用于大数据处理端，所述方法包括：

2.根据权利要求1所述的存储优化方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的存储优化方法，其特征在于，依次判断所述待转移数据与每个第二存储区内的原始存储数据之间是否存在存储干扰的步骤，包括：

4.根据权利要求3所述的存储优化方法，其特征在于，根据所述待转移数据与所述第二存储区内的原始存储数据之间的数据相似度确定所述待转移数据与所述第二存储区内的原始存储数据之间是否存在存储干扰的步骤，包括：

5.根据权利要求4所述的存储优化方法，其特征在于，所述待转移数据与所述第二存储区内的原始存储数据之间的数据相似度通过以下步骤得到：

6.根据权利要求1所述的存储优化方法，其特征在于，根据所述性能参数中的每个参数向量确定所述性能参数的评价因子，包括：

7.根据权利要求6所述的存储优化方法，其特征在于，根据所述评价权重确定所述性能参数的评价因子，包括：

8.一种基于储存地址遍历的存储优化装置，其特征在于，应用于大数据处理端，所述装置包括：

9.根据权利要求8所述的存储优化装置，其特征在于，所述存储判断模块，具体用于：

10.根据权利要求9所述的存储优化装置，其特征在于，所述存储判断模块，进一步用于：