一种数据处理方法、装置、存储系统及计算机可读存储介质
技术领域
本发明涉及数据处理技术领域,具体为一种数据处理方法、装置、存储系统及计算机可读存储介质。
背景技术
首先进行数据收集,涉及到从不同的数据源和方式收集数据,为后续处理做准备,再进行数据预处理:这一步骤是确保数据质量的关键,主要包括以下几个方面:
数据清理:通过填补缺失值、光滑噪声数据、删除离群点以及解决数据不一致性来“清理”数据;
数据集成:将来自多个源的数据合并在一起,形成一个一致的数据集合;
数据规约:减少数据量,但保持数据的完整性,以提高处理效率;
数据变换:将数据转换成适合分析的格式,例如将分类数据数字化;
数据存储:将处理后的数据存储在适当的介质中,以便于后续的访问和分析。
公开号为CN114840356B的申请提供一种数据处理方法、数据处理系统及相关装置,涉及数据处理领域,包括:获取至少为预设长度的共享数据;将共享数据载入多维化数据空间的共享区域;在共享区域中建立共享数据的多维数据映射,以便各进程构建对多维数据映射的共享数据访问链表;监听各进程对多维数据映射的更新请求,并在进程内部生成变更预处理队列;判断更新请求是否可通过变更坐标映射完成;若是,通过变更共享数据访问链表完成更新请求;若否,拒绝更新请求,并在进程内新建本地变量,并在更新队列中暂存更新请求。本申请可以基于不同维度同时进行操作,避免出现共享数据的占用冲突,提升数据的加密强度和逻辑处理能力。
数据在进行处理过程中,因数据所占容量较大,会导致对应数据在处理时,其数据的精度以及结果准度受到相应影响,且数据在存储时,不同数据之间未进行详细分类,会导致部分不相关的数据存储于同一存储空间位置处,导致存储的数据之间较为混乱,不能达到较好的数据处理效果。
发明内容
针对现有技术的不足,本发明提供了一种数据处理方法、装置、存储系统及计算机可读存储介质,解决了不同数据之间未进行详细分类,会导致部分不相关的数据存储于同一存储空间位置处,导致存储的数据较为混乱的问题。
为实现以上目的,本发明通过以下技术方案予以实现:一种数据处理方法,包括以下步骤:
S1、确认本阶段的处理数据并进行初步清理,优先删除处理数据内部的重复数据,再锁定异常数据,并将本处理数据内部的异常数据进行删除,从而通过处理数据得到标准化数据,包括:
将本阶段需要进行处理的数据进行确定,从所确定的数据中存在完成相同的数据,并删除重复数据,保留其中一组数据,处理完毕后,确认二阶段处理数据;
对二阶段处理数据的结果参数按照从小至大的方式进行排列,生成一组参数序列,将本参数序列按照结果参数的个数划分为四等份,若无法完成四等份,则保持中间两等份的结果参数个数一致;
获取第二等份的首位参数,将其标定为SS,再确认第三等份的末位参数,将其标定为MS,再确认MS与SS之间的差值CZ:CZ=MS-SS,基于所确定的差值CZ确定一组数值区间:[CZ-1.5×CZ,CZ+1.5×CZ],将本参数序列内不属于此数值区间的数据标定为异常数据,并从处理数据中剔除此异常数据,以此得到标准化数据;
S2、针对于不同阶段的标准化数据,进行相似度分析,将不同的标准化数据转变为标准向量,再通过分析不同标准化数据的不同标准向量,来确定对应标准化数据的相应特征,以此将不同阶段的标准化数据进行数据分类,并将属于相同分类的标准化数据存储于同一空间处,包括:
依据操作人员的实操经验,从标准化数据内提取三组不同的特征值,其特征值属于此标准化数据的相关属性数据;
依据不同标准化数据内所对应的不同特征值,按照选定顺序,从三维坐标系内确定对应的空间点位,再从原点出发至空间点位的所在位置,生成此标准数据的标准向量;
从三维坐标系内确定一组基准线,此基准线位于X轴、Y轴及Z轴之间,且基准线分别与X轴、Y轴及Z轴的夹角角度一致,确定标准向量与基准线之间的夹角A,再对其他阶段的标准化数据进行向量化处理,并确定与基准线之间的夹角Ai,其中i代表不同阶段的标准化数据;
依据所确定的夹角Ai以及预设的角度区间,将属于同一角度区间的标准向量划分为同区间向量,其中角度区间为预设区间;
再对同区间向量的标准向量长度进行分类,根据预设值Ys构建若干组长度分类区间:(0,Ys]、(Ys,2Ys]、……、((n-1)Ys,nYs],其中Ys为预设值,且n代表对应长度分类区间的个数,依据不同标准向量的长度,将同区间向量的若干个标准向量划分至若干个不同长度分类区间内,依据划分结果,将同区间向量对应的标准化数据存储于同一主空间内,再将主空间划分为n个次空间,再依次将不同长度分类区间所对应的标准化数据存储至相应的次空间内;
S3、针对于存储于同一空间的标准化数据,首先进行数据统一去重处理,对本空间的重复数据采用重复标记进行替换,再对同一存储空间的标准化数据进行加密处理,确定加密逻辑式,并保留至对应存储空间内,对数据进行统一去重处理的具体方式包括:
首先确认同一次空间内若干个标准化数据的重复数据,将所确认的若干组重复数据采用对应的重复标记进行替换,其重复标记的表现形式为:Ck,其中k=1、2、……、m,m代表重复数据的个数;
采用重复标记Ck对标准化数据内所出现的若干个重复数据进行依次替换,并在替换完成后,生成重复数据标记替换表,并将替换后的主空间标定为待加密空间;
对待加密空间进行加密处理的具体方式包括:
首先确认对应次空间所对应的主空间的加密密钥,并将加密密钥标定为JM;
再依据对应主空间内次空间在构建过程中的时间先后顺序,对次空间进行初排序,对不同次空间内其数据的容量按照排序方式标定为Rt,其中t=1、2、……、g,其中g代表对应次空间的总个数,t为1时,代表此次空间位于主空间内排序位置处的第一位;
采用|R1-R2|+|R2-R3|+……+|Rg-1-Rg|=HB得到若干个次空间其容量差值的合并值HB;
通过合并值以及加密密钥采用(HB-JM)得到中间值ZZ,并在本主空间内设置逻辑式,其逻辑式为:Y=HB-ZZ,并删除本主空间的加密密钥JM,当本主空间内次空间的容量值发生变化时,那么其中间值ZZ便发生相应变化。
优选的,一种数据处理装置,包括:
至少三组处理器:
第一处理器优先删除处理数据内部的重复数据,再锁定异常数据,并将本处理数据内部的异常数据进行删除,从而通过处理数据得到标准化数据;
第二处理器针对于不同阶段的标准化数据,进行相似度分析,将不同的标准化数据转变为标准向量,再通过分析不同标准化数据的不同标准向量,来确定对应标准化数据的相应特征,以此将不同阶段的标准化数据进行数据分类,并将属于相同分类的标准化数据存储于同一空间处;
第三处理器针对于存储于同一空间的标准化数据,首先进行数据统一去重处理,对本空间的重复数据采用重复标记进行替换,再对同一存储空间的标准化数据进行加密处理,确定加密逻辑式,并保留至对应存储空间内。
优选的,一种数据存储系统,对所产生的标准化数据进行存储,依据数据的具体分类,将不同分类的标准化数据存储于不同存储空间位置处,其中存储空间包括若干个主空间,且一个主空间内包括若干个次空间;
供外部操作人员进行密钥设置,基于所设置的密钥以及存储的具体数据,设置换算逻辑式,并删除内部的加密密钥;
且每个主空间为一个单组计算机可读存储介质,其存储介质为固态可读式磁盘,用于对标准化数据进行存储,其内部空间的划分由存储系统进行确认并划分。
本发明提供了一种数据处理方法、装置、存储系统及计算机可读存储介质。与现有技术相比具备以下有益效果:
本发明通过对数据进行去重处理后,再剔除内部的异常数据,以此来保障本待处理数据的整体数据质量,后续,针对于不同的标准化数据,对其进行相似度分析,将不同的标准化数据转变为标准向量,再分析不同向量之间的向量特征,来确定其对应标准化数据的具体特征,以此将不同的标准化数据进行分类,从而使不同的标准化数据均能得到相应的分类以及区分,将具备相似特征的数据存储于一处,便于后续对数据进行分析整理时,其处理效率更好,存储的整体效果更好;
后续,针对于已经完成存储的相应数据,对已经设定的加密密钥进行删除,并基于所拟定的加密密钥,确定其对应存储数据的加密逻辑,保留固有的加密逻辑,删除加密密钥,后续外部人员也很难通过窃取加密密钥的方式,来进行数据窃取,提升其数据存储过程中的安全性以及私密性,提升其数据的整体存储效果。
附图说明
图1为本发明原理框架示意图;
图2为本发明向量夹角确定示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
请参阅图1,本申请提供了一种数据处理方法,包括以下步骤:
S1、确认本阶段的处理数据并进行初步清理,优先删除处理数据内部的重复数据,再锁定异常数据,并将本处理数据内部的异常数据进行删除,从而通过处理数据得到标准化数据,具体的,针对于所出现的数据,其数据内部存在对应的重复数据以及异常数据,故为了保障其处理数据的质量,就需要将数据内对应的重复数据进行删除,同时也剔除对应的异常数据,保持其对应数据的质量,其中,得到标准化数据的具体方式包括:
将本阶段需要进行处理的数据进行确定,其中一般按照周期或者时间期限进行确定,每隔一段时间周期,锁定一组需要进行处理的数据,从所确定的数据中存在完成相同的数据,并删除重复数据,保留其中一组数据,处理完毕后,确认二阶段处理数据;
对二阶段处理数据的结果参数按照从小至大的方式进行排列(具体的,单组数据包括过程中需要用到的相关数据以及结果数据,基于数据内部的具体逻辑关系,便可直接锁定其结果数据,也就是结果参数),生成一组参数序列,将本参数序列按照结果参数的个数划分为四等份,若无法完成四等份,则保持中间两等份的结果参数个数一致(例:假设其结果参数存在10个,分别为1、2、3、4、5、6、7、8、9、10,那么按照上述方式均分为四等份就是:(1,2)、(3、4、5)、(6、7、8)、(9、10));
获取第二等份的首位参数,将其标定为SS,再确认第三等份的末位参数,将其标定为MS,再确认MS与SS之间的差值CZ:CZ=MS-SS,基于所确定的差值CZ确定一组数值区间:[CZ-1.5×CZ,CZ+1.5×CZ],将本参数序列内不属于此数值区间的数据标定为异常数据,并从处理数据中剔除此异常数据,以此得到标准化数据,具体的,此处之所以采用此种方式来确定本数值区间,是因为在异常数据的确定过程中,此处所采用的是箱线图法来识别对应的异常数据,并进行剔除;
S2、结合图2,针对于不同阶段的标准化数据,进行相似度分析,将不同的标准化数据转变为标准向量,再通过分析不同标准化数据的不同标准向量,来确定对应标准化数据的相应特征(具体的,不同的标准化数据,内部均设定有指定的特征参数,通过人为确定其特征参数的对应分类,便可将不同的标准化数据进行分类),以此将不同阶段的标准化数据进行数据分类,并将属于相同分类的标准化数据存储于同一空间处,其中进行数据分类的子步骤包括:
依据操作人员的实操经验,从标准化数据内提取三组不同的特征值,其特征值属于此标准化数据的相关属性数据(可以为数据容量、数据读取速率等一些与数据息息相关的参数,由操作人员提前确定所提取的相应数值);
依据不同标准化数据内所对应的不同特征值,按照选定顺序,从三维坐标系内确定对应的空间点位,再从原点出发至空间点位的所在位置,生成此标准数据的标准向量;
从三维坐标系内确定一组基准线,此基准线位于X轴、Y轴及Z轴之间,且基准线分别与X轴、Y轴及Z轴的夹角角度一致,确定标准向量与基准线之间的夹角A,再对其他阶段的标准化数据进行向量化处理,并确定与基准线之间的夹角Ai,其中i代表不同阶段的标准化数据;
依据所确定的夹角Ai以及预设的角度区间,将属于同一角度区间的标准向量划分为同区间向量,其中角度区间为预设区间,其具体取值由操作人员提前根据经验拟定;
再对同区间向量的标准向量长度进行分类,根据预设值Ys构建若干组长度分类区间:(0,Ys]、(Ys,2Ys]、……、((n-1)Ys,nYs],其中Ys为预设值,其具体取值由操作人员根据经验拟定,且n代表对应长度分类区间的个数,依据不同标准向量的长度,将同区间向量的若干个标准向量划分至若干个不同长度分类区间内,依据划分结果,将同区间向量对应的标准化数据存储于同一主空间内,再将主空间划分为n个次空间,再依次将不同长度分类区间所对应的标准化数据存储至相应的次空间内;
具体的,为了保障需要进行处理的数据在后续分析以及存储过程中,能得到充分的管理,就需要对数据进行相似度分析,来确定其对应的数据的具体分类,从而将若干个不同的标准化数据进行不同方式的处理,提升后续数据处理的准度以及便于后续在处理过程中,进行数据比对,以此来达到相同分类的数据存储于相同空间内,对数据特征进行一一确认并分类。
S3、针对于存储于同一空间的标准化数据,首先进行数据统一去重处理,对本空间的重复数据采用重复标记进行替换,以此缩减本存储空间的存储容量,再对同一存储空间的标准化数据进行加密处理,确定加密逻辑式,并保留至对应存储空间内;
其中,对数据进行统一去重处理的具体方式包括:
首先确认同一次空间内若干个标准化数据的重复数据,将所确认的若干组重复数据采用对应的重复标记进行替换,其重复标记的表现形式为:Ck,其中k=1、2、……、m,m代表重复数据的个数;
采用重复标记Ck对标准化数据内所出现的若干个重复数据进行依次替换,并在替换完成后,生成重复数据标记替换表,并将替换后的同一次空间标定为待加密空间,具体的,步骤S1中所作出的去重处理是针对于同一标准数据所进行的,本步骤S3中所作出的重复数据替换是针对于若干个标准数据所进行的,就是若干个标准化数据中,可能存在多个重复数据,就需要采用对应的重复标记对重复数据进行替换,以此来缩减对应次空间的空间容量,达到较好的空间缩减效果;
其中,对待加密空间进行加密处理的具体方式包括:
首先确认对应次空间所对应的主空间的加密密钥,其中加密密钥由操作人员提前根据经验拟定,并将加密密钥标定为JM;
再依据对应主空间内次空间在构建过程中的时间先后顺序,对次空间进行初排序,对不同次空间内其数据的容量按照排序方式标定为Rt,其中t=1、2、……、g,其中g代表对应次空间的总个数,t为1时,代表此次空间位于主空间内排序位置处的第一位;
采用|R1-R2|+|R2-R3|+……+|Rg-1-Rg|=HB得到若干个次空间其容量差值的合并值HB;
通过合并值以及加密密钥采用(HB-JM)得到中间值ZZ,并在本主空间内设置逻辑式,其逻辑式为:Y=HB-ZZ,并删除本主空间的加密密钥JM,当本主空间内次空间的容量值发生变化时,那么其中间值ZZ便发生相应变化,且本式中HB仅为符号,并未体现任何数字;
具体的,后续,对主空间内所存的数据进行具体加密时,需根据其对应主空间的具体参数进行设定,其主空间内每个次空间所存的数据容量均不相同,那么基于不同次空间的数据容量便可确定其容量差值之间的合并值,随后,并对主空间内所存的加密密钥进行删除:
作为本申请的进一步实施例:
当外部操作人员需要对本主空间的数据进行提取时,输入对应的加密密钥,系统接收到本加密密钥,将其标定为待处理密钥;
基于每个次空间的容量参数,确定对应逻辑式内对应HB的取值,再基于所设定的逻辑式,判定待处理密钥是否与逻辑式所产生的结果相同,若结果完全相同,则直接打开本空间,供外部人员进行数据查找或审阅,若结果不同,那么代表所输入的加密密钥不准确。
实施例二
一种数据处理装置,包括:
至少三组处理器:
第一处理器优先删除处理数据内部的重复数据,再锁定异常数据,并将本处理数据内部的异常数据进行删除,从而通过处理数据得到标准化数据;
第二处理器针对于不同阶段的标准化数据,进行相似度分析,将不同的标准化数据转变为标准向量,再通过分析不同标准化数据的不同标准向量,来确定对应标准化数据的相应特征,以此将不同阶段的标准化数据进行数据分类,并将属于相同分类的标准化数据存储于同一空间处;
第三处理器针对于存储于同一空间的标准化数据,首先进行数据统一去重处理,对本空间的重复数据采用重复标记进行替换,再对同一存储空间的标准化数据进行加密处理,确定加密逻辑式,并保留至对应存储空间内。
存储系统,对处理器处理后的标准化数据进行存储,依据数据的具体分类,将不同分类的标准化数据存储于不同存储空间位置处,其中存储空间包括若干个主空间,且一个主空间内包括若干个次空间;
供外部操作人员进行密钥设置,基于所设置的密钥以及存储的具体数据,设置换算逻辑式,并删除内部的加密密钥;
且每个主空间为一个单组计算机可读存储介质,其存储介质为固态可读式磁盘,用于对标准化数据进行存储,其内部空间的划分由存储系统进行确认并划分。
上述公式中的部分数据均是去其纲量进行数值计算,同时本说明书中未作详细描述的内容均属于本领域技术人员公知的现有技术。
以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。