具体实施方式
本申请通过提供了一种数据预处理和存储的方法,用于针对解决现有技术中采用磁盘阵列对数据进行存储时,无法根据数据的特征进行有序的存储,容易出现存储过于冗余,数据调用和访问不够准确,数据存储安全性和容错性较低的技术问题。
实施例一
如图1所示,本申请提供了一种数据预处理和存储的方法,所述方法包括:
S100:构建数据存储平台,其中,所述数据存储平台内包括应用软件层、传输层、基础软件层和硬件层,其中,所述硬件层内包括多个存储单元;
本申请实施例中,为进行智能化、自动化的数据预处理和存储,构建数据存储平台,在该平台内基于软件设计,实现数据的预处理和存储策略制定,无需手动设置存储位置等信息。
本申请实施例中的数据存储平台包括应用软件层、传输层、基础软件层和硬件层,其中,应用软件层用于对待存储数据进行分类和重要性分析,并对待存储数据进行预处理,传输层用于进行数据传输,基础软件层用于根据应用软件层的分析结果制定对应的数据存储策略,硬件层内包括多个存储单元,用于根据该数据存储策略对待存储数据进行存储。优选地,该多个存储单元优选为多个磁盘,多个磁盘形成磁盘阵列。
本申请实施例提供的方法中的步骤S100包括:
S110:构建数据分类模型;
S120:构建数据重要性分析模型;
S130:根据所述数据分类模型、和所述数据重要性分析模型,构建获得所述应用软件层;
S140:构建传输层;
S150:构建基础软件层;
S160:基于所述多个存储单元,构建获得所述硬件层;
S170:连接所述应用软件层、传输层、基础软件层和硬件层,获得所述数据存储平台。
具体地,首先构建用于根据数据特征对待存储数据进行分类的数据分类模型,以及构建用于根据数据特征对数据进行重要性分析的数据重要性分析模型。根据该数据分类模型和数据重要性分析模型,获得该应用软件层。
构建用于传输数据的传输层,该传输层连接该应用软件层和基础软件层。其中,应用软件层可设置于用户端,基础软件层可设置于硬件层所在的本地,传输层内基于通信协议通信连接基础软件层和应用软件层,实现远程数据存储。
基于多个存储单元,构建获得用于存储数据的硬件层。优选地,存储单元为磁盘,硬件层内包括多个磁盘形成的磁盘阵列,与基础软件层连接,可在基础软件层的数据存储策略下,进行数据的存储。
连接上述的应用软件层、传输层、基础软件层和硬件层,获得构建完成的数据存储平台。
如图2所示,本申请实施例提供的方法中的步骤S110包括:
S111:获得预设时间周期;
S112:采集获取此前预设时间周期内的存储数据,获得历史存储数据集合;
S113:采集获取所述历史存储数据集合内存储数据的第一类特征信息,获得历史第一类特征信息集合,其中,所述第一类特征信息包括数据类型信息、数据归属信息和数据时间信息;
S114:采用所述第一类特征信息集合,构建所述数据分类模型;
S115:根据所述预设时间周期,对所述数据分类模型进行更新。
具体地,数据分类模型用于根据待存储数据的第一类特征信息,对待存储数据进行分类,其中,第一类特征信息包括数据类型信息、数据归属信息和数据时间信息。数据类型信息为待存储数据的数据类型,数据归属信息包括待存储数据对应的用户或客户等归属信息,可根据待存储数据的归属对其进行标识,获得对应的数据归属信息。数据时间信息包括待存储数据创建时对应的时间。
由于需要根据数据时间信息对待存储数据进行分类,因此,设置获得一预设时间周期,该预设时间周期可为任意长度的时间周期,例如一年、一月等。
采集获取此前历史时间中上一个预设时间周期内需要进行数据存储的存储数据,获得历史存储数据集合。
采集获取该历史存储数据集合内存储数据的第一类特征信息,获得历史第一类特征信息集合,其中,第一类特征信息集合内包括数据类型信息、数据归属信息和数据时间信息,并可形成历史数据类型信息集合、历史数据归属信息集合和历史数据时间信息集合。
采用该历史第一类特征信息集合作为构建数据,构建数据分类模型。其中,基于KNN算法的思想,构建该数据分类模型。
在构建完成获得数据分类模型并投入使用后,在预设时间周期更新后,在新的预设时间周期内,待存储数据会产生新的数据时间信息和数据归属信息,为保证数据分类模型能够适用于新的预设时间周期内待存储数据的分类,需要对数据分类模型进行更新。
具体地,按照该预设时间周期,采集最近的预设时间周期内的存储数据以及存储数据的第一类特征信息,重新构建该数据分类模型,以适应当前时间内待存储数据的数据分类。
本申请实施例提供的方法中的步骤S114包括:
S114-1:根据数据类型、数据归属和数据时间,构建三维坐标空间;
S114-2:将所述历史第一类特征信息集合内的第一类特征信息,输入所述三维坐标空间内,获得多个坐标点;
S114-3:对所述多个坐标点进行聚类,获得多个聚类结果;
S114-4:根据所述多个聚类结果和所述三维坐标空间,获得所述数据分类模型。
具体地,根据上述第一类特征信息内包括的数据类型信息、数据归属信息和数据时间信息,分别以数据类型、数据归属和数据时间内具体的信息参数,构建三维坐标空间。
其中,示例性地,以数据类型为X坐标轴,该坐标轴上的坐标值为不同的数据类型信息,以数据归属为Y坐标轴,该坐标轴上的坐标值为不同的数据归属信息,以数据时间为Z坐标轴,该坐标轴上的坐标值为按照时序设置的时间信息,如此,构建获得三维坐标空间。
基于构建完成的三维坐标空间,将历史第一类特征信息集合内的第一类特征信息,输入该三维坐标空间内,其中,按照各个存储数据第一类特征信息为单位,依次输入该三维坐标空间内,获得多个坐标点。示例性地,每个坐标点的坐标值为(数据类型信息,数据归属信息和数据时间信息)。
对多个坐标点进行聚类,优选地,将同属于一个数据类型信息、同属于一个数据归属信息,且数据时间信息在一预设的时间范围的第一类特征信息的坐标点,聚类为一类,该预设的时间范围可为一天、一周、一月等。如此,获得多个聚类结果。
根据该多个聚类结果和三维坐标空间,获得构建完成的数据分类模型。基于构建完成的数据分类模型,将当前待存储数据的第一类特征信息输入该三维坐标空间中,可获得对应的坐标点,进而获得对应的聚类结果,完成对待存储数据的分类。
在根据预设时间周期,对数据分类模型进行更新时,也基于上述内容中数据分类模型的构建方法,采用新的预设时间周期内的数据,重新构建数据分类模型。
本申请实施例通过基于KNN算法的思想,采集获取此前预设时间周期内的存储数据以及第一类特征信息,构建数据分类模型,能够根据分类需求对待存储数据进行分类,分类过程准确高效,进而作为制定数据存储策略的基础,提升数据存储的稳定性,避免数据存储紊乱不便于访问以及数据的整体管理和移动,提升数据存储效果。
本申请实施例提供的方法中的步骤S120包括:
S121:采集获取所述历史存储数据集合内存储数据的第二类特征信息,获得历史第二类特征信息集合,其中,所述第二类特征信息包括数据重要性信息;
S122:有放回地在所述历史第二类特征信息集合内随机选择M个第二类特征信息,作为第一构建数据集合,构建第一重要性分析子模型;
S123:再次有放回地在所述历史第二类特征信息集合内随机选择M个第二类特征信息,作为第二构建数据集合,构建第二重要性分析子模型;
S124:继续构建多个重要性分析子模型;
S125:合并全部的重要性分析子模型,获得所述数据重要性分析模型。
具体地,基于前述内容中,按照预设时间周期采集获取的此前的历史存储数据集合,采集获取其中的存储数据的第二类特征信息,其中,第二类特征信息包括存储数据的数据重要性信息,该数据重要性信息可在需要进行数据存储时,根据数据的机密程度、重要程度等进行设置,获得能够反映存储数据重要性的数据重要性信息,用于作为对数据进行预处理的数据依据。如此,获得历史第二类特征信息集合。
本申请实施例中,基于随机森林算法的思想,构建该数据重要性分析模型。其中,该数据重要性分析模型由多个子模型合并获得。
具体地,在该历史第二类特征信息集合内有放回地随机选择M个第二类特征信息,作为第一构建数据集合,用于构建第一重要性分析子模型。其中,M为正整数,且小于历史第二类特征信息集合内全部第二类特征信息的数量,优选为历史第二类特征信息集合内全部第二类特征信息的数量的2/3。
本申请实施例提供的方法中的步骤S122包括:
S122-1:在所述第一构建数据集合内随机选择一第二类特征信息,构建所述第一重要性分析子模型的一级分类节点,所述一级分类节点可对输入数据进行二分类;
S122-2:在所述第一构建数据集合内随机选择一第二类特征信息,构建所述第一重要性分析子模型的二级分类节点,所述二级分类节点可对所述一级分类节点的二分类结果进行二分类;
S122-3:继续构建所述第一重要性分析子模型的多级分类节点,直到分类节点的级数达到预设值;
S122-4:对所述多级分类节点的多个分类结果,分别设置不同的预处理方案,获得所述第一重要性分析子模型,其中,不同的预处理方案包括不同的加密方案,或者不同的加密和构建数据镜像的方案。
具体地,在第一构建数据集合内随机选择一第二类特征信息,构建第一重要性分析子模型的一级分类节点,其中,该一级分类节点可将输入数据内大于一级分类节点内第二类特征信息的第二类特征信息分为一类,不大于的第二类特征信息分为另一类,完成二分类,获得二分类结果。
继续在第一构建数据集合内随机选择一第二类特征信息,构建第一重要性分析子模型的二级分类节点,该二级分类节点的输入数据为一级分类节点的二分类结果,可对一级分类节点的二分类结果继续进行二分类,获得四个分类结果。
继续从第一构建数据集合内随机选择第二类特征信息,构建第一重要性分析子模型的多级分类节点,直到分类节点的级数达到预设值。其中,该预设值可根据预处理方案的数量进行设置。
基于构建完成的多级分类节点,可对输入数据进行多级的二分类,获得多个分类结果,每个分类结果均包括一数据重要性信息的区间,对每个分类结果设置不同的对待存储数据进行预处理的预处理方案,获得构建完成的第一重要性分析子模型。
其中,不同的预处理方案包括不同的加密方案,或者不同的加密和构建数据镜像的方案。示例性地,对于多个分类结果中,数据重要性信息水平较低、对应存储数据的重要性较小的分类结果,设置加密复杂程度较低的加密方式,并构建较少数量的数据镜像,或不构建数据镜像,形成低重要性预处理方案,以基本上保证数据的安全性和稳定性。而对于数据重要性信息水平较高、对应存储数据的重要性较大的分类结果,设置复杂程度较高的加密方式,并构建较多数量的数据镜像,形成高重要性预处理方案,以较大程度保证存储数据的安全性和稳定性。
如此,构建获得第一重要性分析子模型,将待存储数据的数据重要性信息输入该第一重要性分析子模型,经过其内多级分类节点的分类,可获得该数据重要性信息对应的分类结果,进而得到对应的预处理方案。
再次有放回地在所述历史第二类特征信息集合内随机选择M个第二类特征信息,作为第二构建数据集合,构建第二重要性分析子模型。第二构建数据集合内的第二类特征信息与第一构建数据集合内的第二类特征信息部分相同,部分不同,第二重要性分析子模型的构建过程与第一重要性分析子模型相同,但是构建数据不同。如此,可构建获得不同的重要性分析子模型。
基于同样的步骤,继续构建数据重要性分析模型的多个重要性分析子模型。重要性分析子模型的数量可自行设置,例如根据历史第二类特征信息集合内第二类特征信息的数量进行设置。
基于构建获得的多个重要性分析子模型,合并全部的重要性分析子模型,具体将全部的重要性分析子模型的输入层和输出层进行合并,获得数据重要性分析模型。
每个重要性分析子模型的构建数据量较小,因此,每个重要性分析子模型为准确率较低的模型,合并多个重要性分析子模型,获得数据重要性分析模型。在进行存储数据的数据重要性分析时,将存储数据的数据重要性信息输入该重要性分析模型,进而输入至多个重要性分析子模型内,每个重要性分析子模型均可根据该数据重要性信息进行多级分类,得到多个分类结果,由于每个重要性分析子模型的构建数据不同,得到的多个分类结果也是不尽相同的,选择其中出现频率最高的分类结果,进而得到对应的预处理方案。如此,集成多个性能较弱的重要性分析子模型,获得性能较强的数据重要性分析模型,能够最为准确地获取适合于当前待存储数据的预处理方案,保证数据存储的稳定性和安全性。
本申请实施例中,基于随机森林算法的思想,从历史第二类特征信息集合中随机选择获得多组构建数据,构建多个子模型,集成获得数据重要性分析模型,结合多个子模型的分析结果,能够获得最为准确的分析结果,提升待存储数据重要性分析和预处理方案制定的准确性,进而提升数据存储的稳定性和安全性。
S200:获取待存储数据,所述待存储数据为需要在所述数据存储平台内进行存储的数据;
获取当前需要进行存储的待存储数据,即需要在该数据存储平台内进行存储的数据。
S300:在所述应用软件层内,采集获取所述待存储数据的第一类特征信息和第二类特征信息;
具体地,在需要存储该待存储数据时,将该待存储数据输入该数据存储平台,待存储数据首先进入应用软件层内,在该应用软件层内,采集获取待存储数据的第一类特征信息和第二类特征信息。
其中,该第一类特征信息和第二类特征信息内分别包括预先对该待存储数据进行标记或备注,或者待存储数据内包括的数据类型信息、数据归属信息和数据时间信息,以及数据重要性信息。
S400:将所述第一类特征信息输入所述应用软件层内的数据分类模型中,获得分类结果;
具体地,将该第一类特征信息输入该应用软件层内的数据分类模型中,进行分类。
本申请实施例提供的方法中的步骤S400包括:
S410:将所述第一类特征信息输入所述三维坐标空间内,获得对应坐标点;
S420:获取所述对应坐标点对应的聚类结果;
S430:将所述对应的聚类结果作为所述分析结果。
具体地,将待存储数据的第一类特征信息输入上述的数据分类模型中的三维坐标空间内,根据第一类特征信息内的数据类型信息、数据归属信息和数据时间信息,在该三维坐标空间内形成第一类特征信息对应的对应坐标点。
获取该对应坐标点对应的聚类结果,具体地,判断该对应坐标点所处的聚类结果,作为对应的聚类结果。该聚类结果内包括与对应坐标点相同的数据类型信息、数据归属信息,以及包括对应坐标点的数据时间信息的数据时间范围。
最终,将该对应的聚类结果作为当前待存储数据的分类结果,并作为最终进行存储单元分配时的基础数据,根据该分类结果,可将待存储数据存储至对应的存储单元内。示例性地,该对应的存储单元内专用于存储对应的同种分类结果的待存储数据。如此,可提升数据存储的规律性,便于访问、调用、管理和移动存储数据。
S500:将所述第二类特征信息输入所述应用软件层内的数据重要性分析模型中,获得分析结果;
将该待存储数据的第二类特征信息输入应用软件层内的数据重要性分析模型中,对待存储数据的重要性进行分析。
如图3所示,本申请实施例提供的方法中的步骤S500包括:
S510:将所述第二类特征信息输入所述数据重要性分析模型内的多个重要性分析子模型中,获得多个子分类结果;
S520:根据所述多个子分类结果,获得多个预处理方案;
S530:获取所述多个预处理方案中出现频率最高的预处理方案,作为所述分析结果。
具体地,将待存储数据的第二类特征信息输入数据重要性分析模型内的多个重要性分析子模型中,分别在多个重要性分析子模型中,经过多级分类节点的分类,获得多个不尽相同的子分类结果。
根据多个子分类结果,获得多个预处理方案,然后选择多个预处理方案中出现频率最高的预处理方案,作为最终的分析结果,作为对待存储数据进行预处理的预处理方案。
其中,基于多个重要性分析子模型的多个子分类结果,能够获得最为准确,最为符合待存储数据的数据重要性信息,最为适用于待存储数据的预处理方案。
S600:根据所述分析结果,对所述待存储数据进行加密预处理或者加密和构建数据镜像的预处理,获得预处理结果;
具体地,根据该分析结果内的预处理方案,对待存储数据进行加密预处理,或者对待存储数据进行加密和构建数据镜像均进行的预处理,具体根据预处理方案进行。其中,加密的加密复杂程度以及构建数据镜像的数据,也根据预处理方案设置。如此,获得预处理结果。
S700:将所述待存储数据、分类结果和预处理结果通过所述传输层传输至所述基础软件层,进行存储分配,获得分配结果;
将该预处理结果、分类结果和预处理结果,通过传输层传输至基础软件层,在该基础软件层,根据分类结果和预处理结果,对待存储数据以及构建的数据镜像,进行存储分配,具体分配具体进行存储待存储数据以及构建的数据镜像的存储单元,获得分配结果。
示例性地,根据该分类结果,将待存储数据存储至对应的用于存储具有相同分类结果待存储数据的存储单元内,以及将构建的数据镜像存储至对应的用于存储具有相同分类结果待存储数据的数据镜像的存储单元内,获得分配结果。
S800:根据所述分配结果,将所述待存储数据和所述预处理结果存储至所述硬件层内的至少两个存储单元内。
基于该分配结果,在硬件层内,将待存储数据和预处理结果中的数据镜像存储至至少两个存储单元内,存储单元的数量根据数据镜像的数量进行确定,将待存储数据和数据镜像存储至不同的存储单元内,保证数据存储的容错性。
综上所述,本申请实施例至少具有如下技术效果:
本申请通过构建包括应用软件层、传输层、基础软件层和硬件层的数据存储平台,在需要存储数据时,自动根据数据的特征对待存储数据进行分类,并分析数据的重要性,进行加密以及构建数据镜像的预处理,根据数据的特征进行适应性的预处理和存储,避免出现存储过于冗余的问题,同时提升了存储性能,达到提升数据存储的稳定性、安全性和容错性的技术效果。
实施例二
基于与前述实施例中一种数据预处理和存储的方法相同的发明构思,如图4所示,本申请提供了一种数据预处理和存储的系统,其中,所述系统包括:
存储平台构建模块11,用于构建数据存储平台,其中,所述数据存储平台内包括应用软件层、传输层、基础软件层和硬件层,其中,所述硬件层内包括多个存储单元;
待存储数据获取模块12,用于获取待存储数据,所述待存储数据为需要在所述数据存储平台内进行存储的数据;
特征信息采集模块13,用于在所述应用软件层内,采集获取所述待存储数据的第一类特征信息和第二类特征信息;
存储数据分类模块14,用于将所述第一类特征信息输入所述应用软件层内的数据分类模型中,获得分类结果;
数据重要性分析模块15,用于将所述第二类特征信息输入所述应用软件层内的数据重要性分析模型中,获得分析结果;
预处理模块16,用于根据所述分析结果,对所述待存储数据进行加密预处理或者加密和构建数据镜像的预处理,获得预处理结果;
存储分配模块17,用于将所述待存储数据、分类结果和预处理结果通过所述传输层传输至所述基础软件层,进行存储分配,获得分配结果;
数据存储模块18,用于根据所述分配结果,将所述待存储数据和所述预处理结果存储至所述硬件层内的至少两个存储单元内。
进一步地,所述存储平台构建模块11用于实现以下功能:
构建所述数据分类模型;
构建所述数据重要性分析模型;
根据所述数据分类模型、和所述数据重要性分析模型,构建获得所述应用软件层;
构建所述传输层;
构建所述基础软件层;
基于所述多个存储单元,构建获得所述硬件层;
连接所述应用软件层、传输层、基础软件层和硬件层,获得所述数据存储平台。
其中,构建所述数据分类模型,包括:
获得预设时间周期;
采集获取此前预设时间周期内的存储数据,获得历史存储数据集合;
采集获取所述历史存储数据集合内存储数据的第一类特征信息,获得历史第一类特征信息集合,其中,所述第一类特征信息包括数据类型信息、数据归属信息和数据时间信息;
采用所述第一类特征信息集合,构建所述数据分类模型;
根据所述预设时间周期,对所述数据分类模型进行更新。
其中,采用所述第一类特征信息集合,构建所述数据分类模型,包括:
根据数据类型、数据归属和数据时间,构建三维坐标空间;
将所述历史第一类特征信息集合内的第一类特征信息,输入所述三维坐标空间内,获得多个坐标点;
对所述多个坐标点进行聚类,获得多个聚类结果;
根据所述多个聚类结果和所述三维坐标空间,获得所述数据分类模型。
其中,构建所述数据重要性分析模型,包括:
采集获取所述历史存储数据集合内存储数据的第二类特征信息,获得历史第二类特征信息集合,其中,所述第二类特征信息包括数据重要性信息;
有放回地在所述历史第二类特征信息集合内随机选择M个第二类特征信息,作为第一构建数据集合,构建第一重要性分析子模型;
再次有放回地在所述历史第二类特征信息集合内随机选择M个第二类特征信息,作为第二构建数据集合,构建第二重要性分析子模型;
继续构建多个重要性分析子模型;
合并全部的重要性分析子模型,获得所述数据重要性分析模型。
其中,所述构建第一重要性分析子模型,包括:
在所述第一构建数据集合内随机选择一第二类特征信息,构建所述第一重要性分析子模型的一级分类节点,所述一级分类节点可对输入数据进行二分类;
在所述第一构建数据集合内随机选择一第二类特征信息,构建所述第一重要性分析子模型的二级分类节点,所述二级分类节点可对所述一级分类节点的二分类结果进行二分类;
继续构建所述第一重要性分析子模型的多级分类节点,直到分类节点的级数达到预设值;
对所述多级分类节点的多个分类结果,分别设置不同的预处理方案,获得所述第一重要性分析子模型,其中,不同的预处理方案包括不同的加密方案,或者不同的加密和构建数据镜像的方案。
进一步地,所述存储数据分类模块14还用于实现以下功能:
将所述第一类特征信息输入所述三维坐标空间内,获得对应坐标点;
获取所述对应坐标点对应的聚类结果;
将所述对应的聚类结果作为所述分析结果。
进一步地,所述数据重要性分析模块15还用于实现以下功能:
将所述第二类特征信息输入所述数据重要性分析模型内的多个重要性分析子模型中,获得多个子分类结果;
根据所述多个子分类结果,获得多个预处理方案;
获取所述多个预处理方案中出现频率最高的预处理方案,作为所述分析结果。
本说明书和附图仅仅是本申请的示例性说明,且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样,倘若本申请的这些修改和变型属于本申请及其等同技术的范围之内,则本申请意图包括这些改动和变型在内。