CN114996769A - 一种数据预处理和存储的方法 - Google Patents

一种数据预处理和存储的方法 Download PDF

Info

Publication number
CN114996769A
CN114996769A CN202210941824.3A CN202210941824A CN114996769A CN 114996769 A CN114996769 A CN 114996769A CN 202210941824 A CN202210941824 A CN 202210941824A CN 114996769 A CN114996769 A CN 114996769A
Authority
CN
China
Prior art keywords
data
classification
stored
result
characteristic information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210941824.3A
Other languages
English (en)
Other versions
CN114996769B (zh
Inventor
郭琦
张立
张毛毛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Shengxin Technology Co ltd
Original Assignee
Xi'an Sensing Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Sensing Technology Development Co ltd filed Critical Xi'an Sensing Technology Development Co ltd
Priority to CN202210941824.3A priority Critical patent/CN114996769B/zh
Publication of CN114996769A publication Critical patent/CN114996769A/zh
Application granted granted Critical
Publication of CN114996769B publication Critical patent/CN114996769B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • G06F11/1451Management of the data involved in backup or backup restore by selection of backup contents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0619Improving the reliability of storage systems in relation to data integrity, e.g. data losses, bit errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/062Securing storage systems
    • G06F3/0623Securing storage systems in relation to content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/065Replication mechanisms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0689Disk arrays, e.g. RAID, JBOD

Abstract

本发明提供了一种数据预处理和存储的方法,涉及数据存储技术领域,该方法包括:构建数据存储平台;获取待存储数据;在应用软件层内,采集获取待存储数据的第一类特征信息和第二类特征信息;根据第一类特征信息获得分类结果;根据第二类特征信息获得分析结果;根据分析结果,对待存储数据进行预处理,获得预处理结果;将待存储数据、分类结果和预处理结果通过传输层传输至基础软件层,进行存储分配,获得分配结果;根据分配结果,将待存储数据和预处理结果存储至硬件层内。本发明解决了现有技术中采用磁盘阵列对数据进行存储时数据存储安全性和容错性较低的技术问题,达到了提升数据存储稳定性、安全性的技术效果。

Description

一种数据预处理和存储的方法
技术领域
本发明涉及数据存储技术领域,具体涉及一种数据预处理和存储的方法。
背景技术
在存储数据的过程中,常会采用多个磁盘集成形成磁盘阵列,为用户提供高性能和个性化的数据存储服务,提升数据存储和访问的稳定性和安全性。
目前采用磁盘阵列进行数据存储的过程中,一般将数据通过分别冗余存储在多个磁盘中的方式,提升I/O性能,并提升数据存储的稳定性和容错性。
现有技术中仅通过并发的将数据存储至磁盘阵列中的多个磁盘中,无法根据数据的特征进行有序的存储,容易出现存储过于冗余,数据调用和访问不够准确,数据存储安全性和容错性较低的技术问题。
发明内容
本申请提供了一种数据预处理和存储的方法,用于针对解决现有技术中采用磁盘阵列对数据进行存储时,无法根据数据的特征进行有序的存储,容易出现存储过于冗余,数据调用和访问不够准确,数据存储安全性和容错性较低的技术问题。
鉴于上述问题,本申请提供了一种数据预处理和存储的方法。
本申请的第一个方面,提供了一种数据预处理和存储的方法,所述方法包括:构建数据存储平台,其中,所述数据存储平台内包括应用软件层、传输层、基础软件层和硬件层,其中,所述硬件层内包括多个存储单元;获取待存储数据,所述待存储数据为需要在所述数据存储平台内进行存储的数据;在所述应用软件层内,采集获取所述待存储数据的第一类特征信息和第二类特征信息;将所述第一类特征信息输入所述应用软件层内的数据分类模型中,获得分类结果;将所述第二类特征信息输入所述应用软件层内的数据重要性分析模型中,获得分析结果;根据所述分析结果,对所述待存储数据进行加密预处理或者加密和构建数据镜像的预处理,获得预处理结果;将所述待存储数据、分类结果和预处理结果通过所述传输层传输至所述基础软件层,进行存储分配,获得分配结果;根据所述分配结果,将所述待存储数据和所述预处理结果存储至所述硬件层内的至少两个存储单元内。
本申请的第二个方面,提供了一种数据预处理和存储的系统,所述系统包括:存储平台构建模块,用于构建数据存储平台,其中,所述数据存储平台内包括应用软件层、传输层、基础软件层和硬件层,其中,所述硬件层内包括多个存储单元;待存储数据获取模块,用于获取待存储数据,所述待存储数据为需要在所述数据存储平台内进行存储的数据;特征信息采集模块,用于在所述应用软件层内,采集获取所述待存储数据的第一类特征信息和第二类特征信息;存储数据分类模块,用于将所述第一类特征信息输入所述应用软件层内的数据分类模型中,获得分类结果;数据重要性分析模块,用于将所述第二类特征信息输入所述应用软件层内的数据重要性分析模型中,获得分析结果;预处理模块,用于根据所述分析结果,对所述待存储数据进行加密预处理或者加密和构建数据镜像的预处理,获得预处理结果;存储分配模块,用于将所述待存储数据、分类结果和预处理结果通过所述传输层传输至所述基础软件层,进行存储分配,获得分配结果;数据存储模块,用于根据所述分配结果,将所述待存储数据和所述预处理结果存储至所述硬件层内的至少两个存储单元内。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本申请通过构建用于自动化分析并进行待存储数据存储的数据存储平台,采集获取待存储数据的第一类特征信息和第二类特征信息,根据第一类特征信息对待存储数据进行分类,根据第二类特征信息对待存储数据的重要性进行分析,然后根据分析结果对待存储数据进行加密以及构建数据镜像的预处理,以及根据分类结果和预处理结果进行存储单元的分配,在数据存储平台内的存储单元阵列进行存储。本申请通过构建包括应用软件层、传输层、基础软件层和硬件层的数据存储平台,在需要存储数据时,自动根据数据的特征对待存储数据进行分类,并分析数据的重要性,进行加密以及构建数据镜像的预处理,根据数据的特征进行适应性的预处理和存储,避免出现存储过于冗余的问题,同时提升了存储性能,达到提升数据存储的稳定性、安全性和容错性的技术效果。
附图说明
图1为本申请实施例提供的一种数据预处理和存储的方法流程示意图;
图2为本申请实施例提供的一种数据预处理和存储的方法中构建数据分类模型的流程示意图;
图3为本申请实施例提供的一种数据预处理和存储的方法中获得分析结果的流程示意图;
图4为本申请实施例提供了一种数据预处理和存储的系统结构示意图。
附图标记说明:存储平台构建模块11,待存储数据获取模块12,特征信息采集模块13,存储数据分类模块14,数据重要性分析模块15,预处理模块16,存储分配模块17,数据存储模块18。
具体实施方式
本申请通过提供了一种数据预处理和存储的方法,用于针对解决现有技术中采用磁盘阵列对数据进行存储时,无法根据数据的特征进行有序的存储,容易出现存储过于冗余,数据调用和访问不够准确,数据存储安全性和容错性较低的技术问题。
实施例一
如图1所示,本申请提供了一种数据预处理和存储的方法,所述方法包括:
S100:构建数据存储平台,其中,所述数据存储平台内包括应用软件层、传输层、基础软件层和硬件层,其中,所述硬件层内包括多个存储单元;
本申请实施例中,为进行智能化、自动化的数据预处理和存储,构建数据存储平台,在该平台内基于软件设计,实现数据的预处理和存储策略制定,无需手动设置存储位置等信息。
本申请实施例中的数据存储平台包括应用软件层、传输层、基础软件层和硬件层,其中,应用软件层用于对待存储数据进行分类和重要性分析,并对待存储数据进行预处理,传输层用于进行数据传输,基础软件层用于根据应用软件层的分析结果制定对应的数据存储策略,硬件层内包括多个存储单元,用于根据该数据存储策略对待存储数据进行存储。优选地,该多个存储单元优选为多个磁盘,多个磁盘形成磁盘阵列。
本申请实施例提供的方法中的步骤S100包括:
S110:构建数据分类模型;
S120:构建数据重要性分析模型;
S130:根据所述数据分类模型、和所述数据重要性分析模型,构建获得所述应用软件层;
S140:构建传输层;
S150:构建基础软件层;
S160:基于所述多个存储单元,构建获得所述硬件层;
S170:连接所述应用软件层、传输层、基础软件层和硬件层,获得所述数据存储平台。
具体地,首先构建用于根据数据特征对待存储数据进行分类的数据分类模型,以及构建用于根据数据特征对数据进行重要性分析的数据重要性分析模型。根据该数据分类模型和数据重要性分析模型,获得该应用软件层。
构建用于传输数据的传输层,该传输层连接该应用软件层和基础软件层。其中,应用软件层可设置于用户端,基础软件层可设置于硬件层所在的本地,传输层内基于通信协议通信连接基础软件层和应用软件层,实现远程数据存储。
基于多个存储单元,构建获得用于存储数据的硬件层。优选地,存储单元为磁盘,硬件层内包括多个磁盘形成的磁盘阵列,与基础软件层连接,可在基础软件层的数据存储策略下,进行数据的存储。
连接上述的应用软件层、传输层、基础软件层和硬件层,获得构建完成的数据存储平台。
如图2所示,本申请实施例提供的方法中的步骤S110包括:
S111:获得预设时间周期;
S112:采集获取此前预设时间周期内的存储数据,获得历史存储数据集合;
S113:采集获取所述历史存储数据集合内存储数据的第一类特征信息,获得历史第一类特征信息集合,其中,所述第一类特征信息包括数据类型信息、数据归属信息和数据时间信息;
S114:采用所述第一类特征信息集合,构建所述数据分类模型;
S115:根据所述预设时间周期,对所述数据分类模型进行更新。
具体地,数据分类模型用于根据待存储数据的第一类特征信息,对待存储数据进行分类,其中,第一类特征信息包括数据类型信息、数据归属信息和数据时间信息。数据类型信息为待存储数据的数据类型,数据归属信息包括待存储数据对应的用户或客户等归属信息,可根据待存储数据的归属对其进行标识,获得对应的数据归属信息。数据时间信息包括待存储数据创建时对应的时间。
由于需要根据数据时间信息对待存储数据进行分类,因此,设置获得一预设时间周期,该预设时间周期可为任意长度的时间周期,例如一年、一月等。
采集获取此前历史时间中上一个预设时间周期内需要进行数据存储的存储数据,获得历史存储数据集合。
采集获取该历史存储数据集合内存储数据的第一类特征信息,获得历史第一类特征信息集合,其中,第一类特征信息集合内包括数据类型信息、数据归属信息和数据时间信息,并可形成历史数据类型信息集合、历史数据归属信息集合和历史数据时间信息集合。
采用该历史第一类特征信息集合作为构建数据,构建数据分类模型。其中,基于KNN算法的思想,构建该数据分类模型。
在构建完成获得数据分类模型并投入使用后,在预设时间周期更新后,在新的预设时间周期内,待存储数据会产生新的数据时间信息和数据归属信息,为保证数据分类模型能够适用于新的预设时间周期内待存储数据的分类,需要对数据分类模型进行更新。
具体地,按照该预设时间周期,采集最近的预设时间周期内的存储数据以及存储数据的第一类特征信息,重新构建该数据分类模型,以适应当前时间内待存储数据的数据分类。
本申请实施例提供的方法中的步骤S114包括:
S114-1:根据数据类型、数据归属和数据时间,构建三维坐标空间;
S114-2:将所述历史第一类特征信息集合内的第一类特征信息,输入所述三维坐标空间内,获得多个坐标点;
S114-3:对所述多个坐标点进行聚类,获得多个聚类结果;
S114-4:根据所述多个聚类结果和所述三维坐标空间,获得所述数据分类模型。
具体地,根据上述第一类特征信息内包括的数据类型信息、数据归属信息和数据时间信息,分别以数据类型、数据归属和数据时间内具体的信息参数,构建三维坐标空间。
其中,示例性地,以数据类型为X坐标轴,该坐标轴上的坐标值为不同的数据类型信息,以数据归属为Y坐标轴,该坐标轴上的坐标值为不同的数据归属信息,以数据时间为Z坐标轴,该坐标轴上的坐标值为按照时序设置的时间信息,如此,构建获得三维坐标空间。
基于构建完成的三维坐标空间,将历史第一类特征信息集合内的第一类特征信息,输入该三维坐标空间内,其中,按照各个存储数据第一类特征信息为单位,依次输入该三维坐标空间内,获得多个坐标点。示例性地,每个坐标点的坐标值为(数据类型信息,数据归属信息和数据时间信息)。
对多个坐标点进行聚类,优选地,将同属于一个数据类型信息、同属于一个数据归属信息,且数据时间信息在一预设的时间范围的第一类特征信息的坐标点,聚类为一类,该预设的时间范围可为一天、一周、一月等。如此,获得多个聚类结果。
根据该多个聚类结果和三维坐标空间,获得构建完成的数据分类模型。基于构建完成的数据分类模型,将当前待存储数据的第一类特征信息输入该三维坐标空间中,可获得对应的坐标点,进而获得对应的聚类结果,完成对待存储数据的分类。
在根据预设时间周期,对数据分类模型进行更新时,也基于上述内容中数据分类模型的构建方法,采用新的预设时间周期内的数据,重新构建数据分类模型。
本申请实施例通过基于KNN算法的思想,采集获取此前预设时间周期内的存储数据以及第一类特征信息,构建数据分类模型,能够根据分类需求对待存储数据进行分类,分类过程准确高效,进而作为制定数据存储策略的基础,提升数据存储的稳定性,避免数据存储紊乱不便于访问以及数据的整体管理和移动,提升数据存储效果。
本申请实施例提供的方法中的步骤S120包括:
S121:采集获取所述历史存储数据集合内存储数据的第二类特征信息,获得历史第二类特征信息集合,其中,所述第二类特征信息包括数据重要性信息;
S122:有放回地在所述历史第二类特征信息集合内随机选择M个第二类特征信息,作为第一构建数据集合,构建第一重要性分析子模型;
S123:再次有放回地在所述历史第二类特征信息集合内随机选择M个第二类特征信息,作为第二构建数据集合,构建第二重要性分析子模型;
S124:继续构建多个重要性分析子模型;
S125:合并全部的重要性分析子模型,获得所述数据重要性分析模型。
具体地,基于前述内容中,按照预设时间周期采集获取的此前的历史存储数据集合,采集获取其中的存储数据的第二类特征信息,其中,第二类特征信息包括存储数据的数据重要性信息,该数据重要性信息可在需要进行数据存储时,根据数据的机密程度、重要程度等进行设置,获得能够反映存储数据重要性的数据重要性信息,用于作为对数据进行预处理的数据依据。如此,获得历史第二类特征信息集合。
本申请实施例中,基于随机森林算法的思想,构建该数据重要性分析模型。其中,该数据重要性分析模型由多个子模型合并获得。
具体地,在该历史第二类特征信息集合内有放回地随机选择M个第二类特征信息,作为第一构建数据集合,用于构建第一重要性分析子模型。其中,M为正整数,且小于历史第二类特征信息集合内全部第二类特征信息的数量,优选为历史第二类特征信息集合内全部第二类特征信息的数量的2/3。
本申请实施例提供的方法中的步骤S122包括:
S122-1:在所述第一构建数据集合内随机选择一第二类特征信息,构建所述第一重要性分析子模型的一级分类节点,所述一级分类节点可对输入数据进行二分类;
S122-2:在所述第一构建数据集合内随机选择一第二类特征信息,构建所述第一重要性分析子模型的二级分类节点,所述二级分类节点可对所述一级分类节点的二分类结果进行二分类;
S122-3:继续构建所述第一重要性分析子模型的多级分类节点,直到分类节点的级数达到预设值;
S122-4:对所述多级分类节点的多个分类结果,分别设置不同的预处理方案,获得所述第一重要性分析子模型,其中,不同的预处理方案包括不同的加密方案,或者不同的加密和构建数据镜像的方案。
具体地,在第一构建数据集合内随机选择一第二类特征信息,构建第一重要性分析子模型的一级分类节点,其中,该一级分类节点可将输入数据内大于一级分类节点内第二类特征信息的第二类特征信息分为一类,不大于的第二类特征信息分为另一类,完成二分类,获得二分类结果。
继续在第一构建数据集合内随机选择一第二类特征信息,构建第一重要性分析子模型的二级分类节点,该二级分类节点的输入数据为一级分类节点的二分类结果,可对一级分类节点的二分类结果继续进行二分类,获得四个分类结果。
继续从第一构建数据集合内随机选择第二类特征信息,构建第一重要性分析子模型的多级分类节点,直到分类节点的级数达到预设值。其中,该预设值可根据预处理方案的数量进行设置。
基于构建完成的多级分类节点,可对输入数据进行多级的二分类,获得多个分类结果,每个分类结果均包括一数据重要性信息的区间,对每个分类结果设置不同的对待存储数据进行预处理的预处理方案,获得构建完成的第一重要性分析子模型。
其中,不同的预处理方案包括不同的加密方案,或者不同的加密和构建数据镜像的方案。示例性地,对于多个分类结果中,数据重要性信息水平较低、对应存储数据的重要性较小的分类结果,设置加密复杂程度较低的加密方式,并构建较少数量的数据镜像,或不构建数据镜像,形成低重要性预处理方案,以基本上保证数据的安全性和稳定性。而对于数据重要性信息水平较高、对应存储数据的重要性较大的分类结果,设置复杂程度较高的加密方式,并构建较多数量的数据镜像,形成高重要性预处理方案,以较大程度保证存储数据的安全性和稳定性。
如此,构建获得第一重要性分析子模型,将待存储数据的数据重要性信息输入该第一重要性分析子模型,经过其内多级分类节点的分类,可获得该数据重要性信息对应的分类结果,进而得到对应的预处理方案。
再次有放回地在所述历史第二类特征信息集合内随机选择M个第二类特征信息,作为第二构建数据集合,构建第二重要性分析子模型。第二构建数据集合内的第二类特征信息与第一构建数据集合内的第二类特征信息部分相同,部分不同,第二重要性分析子模型的构建过程与第一重要性分析子模型相同,但是构建数据不同。如此,可构建获得不同的重要性分析子模型。
基于同样的步骤,继续构建数据重要性分析模型的多个重要性分析子模型。重要性分析子模型的数量可自行设置,例如根据历史第二类特征信息集合内第二类特征信息的数量进行设置。
基于构建获得的多个重要性分析子模型,合并全部的重要性分析子模型,具体将全部的重要性分析子模型的输入层和输出层进行合并,获得数据重要性分析模型。
每个重要性分析子模型的构建数据量较小,因此,每个重要性分析子模型为准确率较低的模型,合并多个重要性分析子模型,获得数据重要性分析模型。在进行存储数据的数据重要性分析时,将存储数据的数据重要性信息输入该重要性分析模型,进而输入至多个重要性分析子模型内,每个重要性分析子模型均可根据该数据重要性信息进行多级分类,得到多个分类结果,由于每个重要性分析子模型的构建数据不同,得到的多个分类结果也是不尽相同的,选择其中出现频率最高的分类结果,进而得到对应的预处理方案。如此,集成多个性能较弱的重要性分析子模型,获得性能较强的数据重要性分析模型,能够最为准确地获取适合于当前待存储数据的预处理方案,保证数据存储的稳定性和安全性。
本申请实施例中,基于随机森林算法的思想,从历史第二类特征信息集合中随机选择获得多组构建数据,构建多个子模型,集成获得数据重要性分析模型,结合多个子模型的分析结果,能够获得最为准确的分析结果,提升待存储数据重要性分析和预处理方案制定的准确性,进而提升数据存储的稳定性和安全性。
S200:获取待存储数据,所述待存储数据为需要在所述数据存储平台内进行存储的数据;
获取当前需要进行存储的待存储数据,即需要在该数据存储平台内进行存储的数据。
S300:在所述应用软件层内,采集获取所述待存储数据的第一类特征信息和第二类特征信息;
具体地,在需要存储该待存储数据时,将该待存储数据输入该数据存储平台,待存储数据首先进入应用软件层内,在该应用软件层内,采集获取待存储数据的第一类特征信息和第二类特征信息。
其中,该第一类特征信息和第二类特征信息内分别包括预先对该待存储数据进行标记或备注,或者待存储数据内包括的数据类型信息、数据归属信息和数据时间信息,以及数据重要性信息。
S400:将所述第一类特征信息输入所述应用软件层内的数据分类模型中,获得分类结果;
具体地,将该第一类特征信息输入该应用软件层内的数据分类模型中,进行分类。
本申请实施例提供的方法中的步骤S400包括:
S410:将所述第一类特征信息输入所述三维坐标空间内,获得对应坐标点;
S420:获取所述对应坐标点对应的聚类结果;
S430:将所述对应的聚类结果作为所述分析结果。
具体地,将待存储数据的第一类特征信息输入上述的数据分类模型中的三维坐标空间内,根据第一类特征信息内的数据类型信息、数据归属信息和数据时间信息,在该三维坐标空间内形成第一类特征信息对应的对应坐标点。
获取该对应坐标点对应的聚类结果,具体地,判断该对应坐标点所处的聚类结果,作为对应的聚类结果。该聚类结果内包括与对应坐标点相同的数据类型信息、数据归属信息,以及包括对应坐标点的数据时间信息的数据时间范围。
最终,将该对应的聚类结果作为当前待存储数据的分类结果,并作为最终进行存储单元分配时的基础数据,根据该分类结果,可将待存储数据存储至对应的存储单元内。示例性地,该对应的存储单元内专用于存储对应的同种分类结果的待存储数据。如此,可提升数据存储的规律性,便于访问、调用、管理和移动存储数据。
S500:将所述第二类特征信息输入所述应用软件层内的数据重要性分析模型中,获得分析结果;
将该待存储数据的第二类特征信息输入应用软件层内的数据重要性分析模型中,对待存储数据的重要性进行分析。
如图3所示,本申请实施例提供的方法中的步骤S500包括:
S510:将所述第二类特征信息输入所述数据重要性分析模型内的多个重要性分析子模型中,获得多个子分类结果;
S520:根据所述多个子分类结果,获得多个预处理方案;
S530:获取所述多个预处理方案中出现频率最高的预处理方案,作为所述分析结果。
具体地,将待存储数据的第二类特征信息输入数据重要性分析模型内的多个重要性分析子模型中,分别在多个重要性分析子模型中,经过多级分类节点的分类,获得多个不尽相同的子分类结果。
根据多个子分类结果,获得多个预处理方案,然后选择多个预处理方案中出现频率最高的预处理方案,作为最终的分析结果,作为对待存储数据进行预处理的预处理方案。
其中,基于多个重要性分析子模型的多个子分类结果,能够获得最为准确,最为符合待存储数据的数据重要性信息,最为适用于待存储数据的预处理方案。
S600:根据所述分析结果,对所述待存储数据进行加密预处理或者加密和构建数据镜像的预处理,获得预处理结果;
具体地,根据该分析结果内的预处理方案,对待存储数据进行加密预处理,或者对待存储数据进行加密和构建数据镜像均进行的预处理,具体根据预处理方案进行。其中,加密的加密复杂程度以及构建数据镜像的数据,也根据预处理方案设置。如此,获得预处理结果。
S700:将所述待存储数据、分类结果和预处理结果通过所述传输层传输至所述基础软件层,进行存储分配,获得分配结果;
将该预处理结果、分类结果和预处理结果,通过传输层传输至基础软件层,在该基础软件层,根据分类结果和预处理结果,对待存储数据以及构建的数据镜像,进行存储分配,具体分配具体进行存储待存储数据以及构建的数据镜像的存储单元,获得分配结果。
示例性地,根据该分类结果,将待存储数据存储至对应的用于存储具有相同分类结果待存储数据的存储单元内,以及将构建的数据镜像存储至对应的用于存储具有相同分类结果待存储数据的数据镜像的存储单元内,获得分配结果。
S800:根据所述分配结果,将所述待存储数据和所述预处理结果存储至所述硬件层内的至少两个存储单元内。
基于该分配结果,在硬件层内,将待存储数据和预处理结果中的数据镜像存储至至少两个存储单元内,存储单元的数量根据数据镜像的数量进行确定,将待存储数据和数据镜像存储至不同的存储单元内,保证数据存储的容错性。
综上所述,本申请实施例至少具有如下技术效果:
本申请通过构建包括应用软件层、传输层、基础软件层和硬件层的数据存储平台,在需要存储数据时,自动根据数据的特征对待存储数据进行分类,并分析数据的重要性,进行加密以及构建数据镜像的预处理,根据数据的特征进行适应性的预处理和存储,避免出现存储过于冗余的问题,同时提升了存储性能,达到提升数据存储的稳定性、安全性和容错性的技术效果。
实施例二
基于与前述实施例中一种数据预处理和存储的方法相同的发明构思,如图4所示,本申请提供了一种数据预处理和存储的系统,其中,所述系统包括:
存储平台构建模块11,用于构建数据存储平台,其中,所述数据存储平台内包括应用软件层、传输层、基础软件层和硬件层,其中,所述硬件层内包括多个存储单元;
待存储数据获取模块12,用于获取待存储数据,所述待存储数据为需要在所述数据存储平台内进行存储的数据;
特征信息采集模块13,用于在所述应用软件层内,采集获取所述待存储数据的第一类特征信息和第二类特征信息;
存储数据分类模块14,用于将所述第一类特征信息输入所述应用软件层内的数据分类模型中,获得分类结果;
数据重要性分析模块15,用于将所述第二类特征信息输入所述应用软件层内的数据重要性分析模型中,获得分析结果;
预处理模块16,用于根据所述分析结果,对所述待存储数据进行加密预处理或者加密和构建数据镜像的预处理,获得预处理结果;
存储分配模块17,用于将所述待存储数据、分类结果和预处理结果通过所述传输层传输至所述基础软件层,进行存储分配,获得分配结果;
数据存储模块18,用于根据所述分配结果,将所述待存储数据和所述预处理结果存储至所述硬件层内的至少两个存储单元内。
进一步地,所述存储平台构建模块11用于实现以下功能:
构建所述数据分类模型;
构建所述数据重要性分析模型;
根据所述数据分类模型、和所述数据重要性分析模型,构建获得所述应用软件层;
构建所述传输层;
构建所述基础软件层;
基于所述多个存储单元,构建获得所述硬件层;
连接所述应用软件层、传输层、基础软件层和硬件层,获得所述数据存储平台。
其中,构建所述数据分类模型,包括:
获得预设时间周期;
采集获取此前预设时间周期内的存储数据,获得历史存储数据集合;
采集获取所述历史存储数据集合内存储数据的第一类特征信息,获得历史第一类特征信息集合,其中,所述第一类特征信息包括数据类型信息、数据归属信息和数据时间信息;
采用所述第一类特征信息集合,构建所述数据分类模型;
根据所述预设时间周期,对所述数据分类模型进行更新。
其中,采用所述第一类特征信息集合,构建所述数据分类模型,包括:
根据数据类型、数据归属和数据时间,构建三维坐标空间;
将所述历史第一类特征信息集合内的第一类特征信息,输入所述三维坐标空间内,获得多个坐标点;
对所述多个坐标点进行聚类,获得多个聚类结果;
根据所述多个聚类结果和所述三维坐标空间,获得所述数据分类模型。
其中,构建所述数据重要性分析模型,包括:
采集获取所述历史存储数据集合内存储数据的第二类特征信息,获得历史第二类特征信息集合,其中,所述第二类特征信息包括数据重要性信息;
有放回地在所述历史第二类特征信息集合内随机选择M个第二类特征信息,作为第一构建数据集合,构建第一重要性分析子模型;
再次有放回地在所述历史第二类特征信息集合内随机选择M个第二类特征信息,作为第二构建数据集合,构建第二重要性分析子模型;
继续构建多个重要性分析子模型;
合并全部的重要性分析子模型,获得所述数据重要性分析模型。
其中,所述构建第一重要性分析子模型,包括:
在所述第一构建数据集合内随机选择一第二类特征信息,构建所述第一重要性分析子模型的一级分类节点,所述一级分类节点可对输入数据进行二分类;
在所述第一构建数据集合内随机选择一第二类特征信息,构建所述第一重要性分析子模型的二级分类节点,所述二级分类节点可对所述一级分类节点的二分类结果进行二分类;
继续构建所述第一重要性分析子模型的多级分类节点,直到分类节点的级数达到预设值;
对所述多级分类节点的多个分类结果,分别设置不同的预处理方案,获得所述第一重要性分析子模型,其中,不同的预处理方案包括不同的加密方案,或者不同的加密和构建数据镜像的方案。
进一步地,所述存储数据分类模块14还用于实现以下功能:
将所述第一类特征信息输入所述三维坐标空间内,获得对应坐标点;
获取所述对应坐标点对应的聚类结果;
将所述对应的聚类结果作为所述分析结果。
进一步地,所述数据重要性分析模块15还用于实现以下功能:
将所述第二类特征信息输入所述数据重要性分析模型内的多个重要性分析子模型中,获得多个子分类结果;
根据所述多个子分类结果,获得多个预处理方案;
获取所述多个预处理方案中出现频率最高的预处理方案,作为所述分析结果。
本说明书和附图仅仅是本申请的示例性说明,且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样,倘若本申请的这些修改和变型属于本申请及其等同技术的范围之内,则本申请意图包括这些改动和变型在内。

Claims (9)

1.一种数据预处理和存储的方法,其特征在于,所述方法包括:
构建数据存储平台,其中,所述数据存储平台内包括应用软件层、传输层、基础软件层和硬件层,其中,所述硬件层内包括多个存储单元;
获取待存储数据,所述待存储数据为需要在所述数据存储平台内进行存储的数据;
在所述应用软件层内,采集获取所述待存储数据的第一类特征信息和第二类特征信息;
将所述第一类特征信息输入所述应用软件层内的数据分类模型中,获得分类结果;
将所述第二类特征信息输入所述应用软件层内的数据重要性分析模型中,获得分析结果;
根据所述分析结果,对所述待存储数据进行加密预处理或者加密和构建数据镜像的预处理,获得预处理结果;
将所述待存储数据、分类结果和预处理结果通过所述传输层传输至所述基础软件层,进行存储分配,获得分配结果;
根据所述分配结果,将所述待存储数据和所述预处理结果存储至所述硬件层内的至少两个存储单元内。
2.根据权利要求1所述的方法,其特征在于,所述构建数据存储平台,包括:
构建所述数据分类模型;
构建所述数据重要性分析模型;
根据所述数据分类模型、和所述数据重要性分析模型,构建获得所述应用软件层;
构建所述传输层;
构建所述基础软件层;
基于所述多个存储单元,构建获得所述硬件层;
连接所述应用软件层、传输层、基础软件层和硬件层,获得所述数据存储平台。
3.根据权利要求2所述的方法,其特征在于,构建所述数据分类模型,包括:
获得预设时间周期;
采集获取此前预设时间周期内的存储数据,获得历史存储数据集合;
采集获取所述历史存储数据集合内存储数据的第一类特征信息,获得历史第一类特征信息集合,其中,所述第一类特征信息包括数据类型信息、数据归属信息和数据时间信息;
采用所述第一类特征信息集合,构建所述数据分类模型;
根据所述预设时间周期,对所述数据分类模型进行更新。
4.根据权利要求3所述的方法,其特征在于,采用所述第一类特征信息集合,构建所述数据分类模型,包括:
根据数据类型、数据归属和数据时间,构建三维坐标空间;
将所述历史第一类特征信息集合内的第一类特征信息,输入所述三维坐标空间内,获得多个坐标点;
对所述多个坐标点进行聚类,获得多个聚类结果;
根据所述多个聚类结果和所述三维坐标空间,获得所述数据分类模型。
5.根据权利要求3所述的方法,其特征在于,构建所述数据重要性分析模型,包括:
采集获取所述历史存储数据集合内存储数据的第二类特征信息,获得历史第二类特征信息集合,其中,所述第二类特征信息包括数据重要性信息;
有放回地在所述历史第二类特征信息集合内随机选择M个第二类特征信息,作为第一构建数据集合,构建第一重要性分析子模型;
再次有放回地在所述历史第二类特征信息集合内随机选择M个第二类特征信息,作为第二构建数据集合,构建第二重要性分析子模型;
继续构建多个重要性分析子模型;
合并全部的重要性分析子模型,获得所述数据重要性分析模型。
6.根据权利要求5所述的方法,其特征在于,所述构建第一重要性分析子模型,包括:
在所述第一构建数据集合内随机选择一第二类特征信息,构建所述第一重要性分析子模型的一级分类节点,所述一级分类节点可对输入数据进行二分类;
在所述第一构建数据集合内随机选择一第二类特征信息,构建所述第一重要性分析子模型的二级分类节点,所述二级分类节点可对所述一级分类节点的二分类结果进行二分类;
继续构建所述第一重要性分析子模型的多级分类节点,直到分类节点的级数达到预设值;
对所述多级分类节点的多个分类结果,分别设置不同的预处理方案,获得所述第一重要性分析子模型,其中,不同的预处理方案包括不同的加密方案,或者不同的加密和构建数据镜像的方案。
7.根据权利要求4所述的方法,其特征在于,将所述第一类特征信息输入所述应用软件层内的数据分类模型中,获得分类结果,包括:
将所述第一类特征信息输入所述三维坐标空间内,获得对应坐标点;
获取所述对应坐标点对应的聚类结果;
将所述对应的聚类结果作为所述分析结果。
8.根据权利要求5所述的方法,其特征在于,所述将所述第二类特征信息输入所述应用软件层内的数据重要性分析模型中,获得分析结果,包括:
将所述第二类特征信息输入所述数据重要性分析模型内的多个重要性分析子模型中,获得多个子分类结果;
根据所述多个子分类结果,获得多个预处理方案;
获取所述多个预处理方案中出现频率最高的预处理方案,作为所述分析结果。
9.一种数据预处理和存储的系统,其特征在于,所述系统包括:
存储平台构建模块,用于构建数据存储平台,其中,所述数据存储平台内包括应用软件层、传输层、基础软件层和硬件层,其中,所述硬件层内包括多个存储单元;
待存储数据获取模块,用于获取待存储数据,所述待存储数据为需要在所述数据存储平台内进行存储的数据;
特征信息采集模块,用于在所述应用软件层内,采集获取所述待存储数据的第一类特征信息和第二类特征信息;
存储数据分类模块,用于将所述第一类特征信息输入所述应用软件层内的数据分类模型中,获得分类结果;
数据重要性分析模块,用于将所述第二类特征信息输入所述应用软件层内的数据重要性分析模型中,获得分析结果;
预处理模块,用于根据所述分析结果,对所述待存储数据进行加密预处理或者加密和构建数据镜像的预处理,获得预处理结果;
存储分配模块,用于将所述待存储数据、分类结果和预处理结果通过所述传输层传输至所述基础软件层,进行存储分配,获得分配结果;
数据存储模块,用于根据所述分配结果,将所述待存储数据和所述预处理结果存储至所述硬件层内的至少两个存储单元内。
CN202210941824.3A 2022-08-08 2022-08-08 一种数据预处理和存储的方法 Active CN114996769B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210941824.3A CN114996769B (zh) 2022-08-08 2022-08-08 一种数据预处理和存储的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210941824.3A CN114996769B (zh) 2022-08-08 2022-08-08 一种数据预处理和存储的方法

Publications (2)

Publication Number Publication Date
CN114996769A true CN114996769A (zh) 2022-09-02
CN114996769B CN114996769B (zh) 2022-10-25

Family

ID=83023039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210941824.3A Active CN114996769B (zh) 2022-08-08 2022-08-08 一种数据预处理和存储的方法

Country Status (1)

Country Link
CN (1) CN114996769B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115543226A (zh) * 2022-12-02 2022-12-30 江苏华存电子科技有限公司 一种闪存数据存储处理方法及系统
CN116628728A (zh) * 2023-07-24 2023-08-22 江苏华存电子科技有限公司 一种基于特征感知的数据存储分析方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080168135A1 (en) * 2007-01-05 2008-07-10 Redlich Ron M Information Infrastructure Management Tools with Extractor, Secure Storage, Content Analysis and Classification and Method Therefor
CN106529499A (zh) * 2016-11-24 2017-03-22 武汉理工大学 基于傅里叶描述子和步态能量图融合特征的步态识别方法
CN109144399A (zh) * 2017-06-16 2019-01-04 杭州海康威视数字技术股份有限公司 一种数据存储方法、装置及电子设备
CN109597890A (zh) * 2018-11-23 2019-04-09 福建榕基软件股份有限公司 一种数据感知自动分发的方法及存储装置
CN110647423A (zh) * 2019-08-15 2020-01-03 苏州浪潮智能科技有限公司 一种基于应用创建存储卷镜像的方法、设备及可读介质
CN112559642A (zh) * 2020-12-08 2021-03-26 爱信诺征信有限公司 数据分类存储方法、装置及相关产品
CN112783445A (zh) * 2020-11-17 2021-05-11 北京旷视科技有限公司 数据存储方法、装置、系统、电子设备及可读存储介质
CN114169451A (zh) * 2021-12-10 2022-03-11 中国建设银行股份有限公司 行为数据分类处理方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080168135A1 (en) * 2007-01-05 2008-07-10 Redlich Ron M Information Infrastructure Management Tools with Extractor, Secure Storage, Content Analysis and Classification and Method Therefor
CN106529499A (zh) * 2016-11-24 2017-03-22 武汉理工大学 基于傅里叶描述子和步态能量图融合特征的步态识别方法
CN109144399A (zh) * 2017-06-16 2019-01-04 杭州海康威视数字技术股份有限公司 一种数据存储方法、装置及电子设备
CN109597890A (zh) * 2018-11-23 2019-04-09 福建榕基软件股份有限公司 一种数据感知自动分发的方法及存储装置
CN110647423A (zh) * 2019-08-15 2020-01-03 苏州浪潮智能科技有限公司 一种基于应用创建存储卷镜像的方法、设备及可读介质
CN112783445A (zh) * 2020-11-17 2021-05-11 北京旷视科技有限公司 数据存储方法、装置、系统、电子设备及可读存储介质
CN112559642A (zh) * 2020-12-08 2021-03-26 爱信诺征信有限公司 数据分类存储方法、装置及相关产品
CN114169451A (zh) * 2021-12-10 2022-03-11 中国建设银行股份有限公司 行为数据分类处理方法、装置、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RAGHURAM BHUKYA等: "Fuzzy associative classification algorithm based on MapReduce framework", 《2015 INTERNATIONAL CONFERENCE ON APPLIED AND THEORETICAL COMPUTING AND COMMUNICATION TECHNOLOGY (ICATCCT)》 *
杨腾飞等: "对象云存储中分类分级数据的访问控制方法", 《软件学报》 *
耿辉等: "数据中心日志集中管理平台研究", 《中国金融电脑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115543226A (zh) * 2022-12-02 2022-12-30 江苏华存电子科技有限公司 一种闪存数据存储处理方法及系统
CN115543226B (zh) * 2022-12-02 2023-05-05 江苏华存电子科技有限公司 一种闪存数据存储处理方法及系统
CN116628728A (zh) * 2023-07-24 2023-08-22 江苏华存电子科技有限公司 一种基于特征感知的数据存储分析方法及系统
CN116628728B (zh) * 2023-07-24 2023-11-14 江苏华存电子科技有限公司 一种基于特征感知的数据存储分析方法及系统

Also Published As

Publication number Publication date
CN114996769B (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
CN114996769B (zh) 一种数据预处理和存储的方法
CA2436352C (en) Process and system for developing a predictive model
JP4327481B2 (ja) データベースシステム、サーバ、問い合わせ投入方法及びデータ更新方法
US20080235168A1 (en) Policy-based management system with automatic policy selection and creation capabilities by using singular value decomposition technique
CN109492536A (zh) 一种基于5g架构的人脸识别方法及系统
Qu et al. Context-aware online client selection for hierarchical federated learning
US9110949B2 (en) Generating estimates for query optimization
FR3030168A1 (fr) Procede de choix d'au moins un service et dispositif associe
CN116050540B (zh) 一种基于联合双维度用户调度的自适应联邦边缘学习方法
CN112163637B (zh) 基于非平衡数据的图像分类模型训练方法、装置
CN106372266A (zh) 一种基于切面和配置文件的云操作系统缓存及访问方法
CN112822051B (zh) 基于业务感知的业务加速方法
CN107018138A (zh) 用于确定权限的方法和装置
AU2011210554A1 (en) Statistical record linkage calibration for geographic proximity matching
US11922210B2 (en) Multiparty computation scheduling
CN112751785B (zh) 待处理请求发送方法、装置、计算机设备及存储介质
CN108073641A (zh) 查询数据表的方法和装置
CN115544029A (zh) 一种数据处理方法及相关装置
CN109600414A (zh) 一种资源分配方法、装置、设备及存储介质
CN110196863A (zh) 数据处理方法、装置、计算设备及存储介质
CN113674072B (zh) 基于金融大数据的企业财务管理风险识别方法
CN113743591B (zh) 一种自动化剪枝卷积神经网络的方法及其系统
RU80604U1 (ru) Автоматизированная система распределения ресурсов для оптимального решения целевых задач
CN112437051B (zh) 网络风险检测模型负反馈训练方法、装置及计算机设备
CN113568888A (zh) 索引推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 710000 5th floor, block B, productivity building, No.3, electronic West Street, electronic industrial park, high tech Zone, Xi'an City, Shaanxi Province

Patentee after: Xi'an Shengxin Technology Co.,Ltd.

Address before: 710000 5th floor, block B, productivity building, No.3, electronic West Street, electronic industrial park, high tech Zone, Xi'an City, Shaanxi Province

Patentee before: XI'AN SENSING TECHNOLOGY DEVELOPMENT CO.,LTD.

CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: Room 810, Building C, 8th Floor, Chuangye Building, No. 16 Gaoxin 1st Road, Xi'an City, Shaanxi Province, 710065

Patentee after: Xi'an Shengxin Technology Co.,Ltd.

Address before: 710000 5th floor, block B, productivity building, No.3, electronic West Street, electronic industrial park, high tech Zone, Xi'an City, Shaanxi Province

Patentee before: Xi'an Shengxin Technology Co.,Ltd.