CN115509463A - 一种基于数据中台的均衡化数据存储方法及系统 - Google Patents

一种基于数据中台的均衡化数据存储方法及系统 Download PDF

Info

Publication number
CN115509463A
CN115509463A CN202211420679.0A CN202211420679A CN115509463A CN 115509463 A CN115509463 A CN 115509463A CN 202211420679 A CN202211420679 A CN 202211420679A CN 115509463 A CN115509463 A CN 115509463A
Authority
CN
China
Prior art keywords
data
storage
subdata
address
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211420679.0A
Other languages
English (en)
Other versions
CN115509463B (zh
Inventor
余纪良
杨琨
何立军
李健
段国强
苏建新
汪进
何亘
王凯飞
杨立寨
王振宇
葛大伟
刘奎阳
李辰辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuncheng Financial Information Service Co ltd
Original Assignee
Beijing Yuncheng Financial Information Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yuncheng Financial Information Service Co ltd filed Critical Beijing Yuncheng Financial Information Service Co ltd
Priority to CN202211420679.0A priority Critical patent/CN115509463B/zh
Publication of CN115509463A publication Critical patent/CN115509463A/zh
Application granted granted Critical
Publication of CN115509463B publication Critical patent/CN115509463B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0635Configuration or reconfiguration of storage systems by changing the path, e.g. traffic rerouting, path reconfiguration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0644Management of space entities, e.g. partitions, extents, pools
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于数据中台的均衡化数据存储方法及系统,其方法及系统包括:基于数据中台中数据采集子中台将采集到的待存储数据发送到数据处理子中台进行数据预处理;基于预处理数据中每个子数据的数据特性,确定对应子数据在数据中台的存储方式;基于所述存储方式,获取对应子数据的均衡权重;基于所有子数据的均衡权重,在所述数据处理子中台对所述待存储数据进行均衡化数据存储。通过对采集到的数据进行处理,确定所述数据在数据中台的存储方式,并得到对应的均衡权重来对所述存储方式进行调整,可以使得数据的存储更加均衡,同时也可以使得数据的存储空间占有率更高,减少了空间的浪费。

Description

一种基于数据中台的均衡化数据存储方法及系统
技术领域
本发明涉及数据存储领域,特别涉及一种基于数据中台的均衡化数据存储方法及系统。
背景技术
目前,计算机已经广泛普及到各行各业以及个人用户。随着计算机及相关领域的发展,计算机与外部设备的数据存储技术得到了飞速的发展。与此同时,对于数据存储的要求也越来越高,均衡化的数据存储也变得常态化,基于数据中台的均衡化存储也开始常见。
然而,现有的均衡化数据存储技术对于均衡化的存储过程中的空间利用率较低,存在一定程度上的资源空间的浪费,从而使得数据存储的成本提高。
因此,本发明提供了一种基于数据中台的均衡化数据存储方法及系统。
发明内容
本发明提供了一种基于数据中台的均衡化数据存储方法及系统,用以通过对采集到的数据进行处理,确定所述数据在数据中台的存储方式,并得到对应的均衡权重来对所述存储方式进行调整,可以使得数据的存储更加均衡,同时也可以使得数据的存储空间占有率更高,减少了空间的浪费。
本发明提供一种基于数据中台的均衡化数据存储方法,包括:
步骤1:基于数据中台中数据采集子中台将采集到的待存储数据发送到数据处理子中台进行数据预处理;
步骤2:基于预处理数据中每个子数据的数据特性,确定对应子数据在数据中台的存储方式;
步骤3:基于所述存储方式,获取对应子数据的均衡权重;
步骤4:基于所有子数据的均衡权重,在所述数据处理子中台对所述待存储数据进行均衡化数据存储。
在一种可能实现的方式中,所述基于数据中台中数据采集子中台将采集到的待存储数据发送到数据处理子中台进行数据预处理,包括:
基于所述数据处理子中台对接收到的待存储数据进行数据标准化处理;
基于标准化处理后的待存储数据进行数据压缩,得到预处理数据;
将所述预处理数据保存在所述数据处理子中台。
在一种可能实现的方式中,所述基于预处理数据中每个子数据的数据特性,确定对应子数据在数据中台的存储方式,包括:
基于每个子数据的数据特性,并基于预设数据存储分析表得到相应子数据的数据存储指数;
基于每个子数据的数据存储指数,判断对应子数据的存储方式;
其中,数据特性包括工业协议、采集频率、数据格式及大小以及数据分析方式中的至少一种特性。
在一种可能实现的方式中,所述基于每个子数据的数据特性,并基于预设数据存储分析表得到相应子数据的数据存储指数,包括:
将每个子数据的数据特性与预设数据存储分析表进行匹配;
基于匹配结果判断对应子数据的数据存储指数;
若所述数据存储指数在预设存储范围内,判定所述数据存储指数正常;
否则,对数据存储指数不在预设存储范围内的子数据重新进行数据预处理以及重新与预设数据分析表进行匹配;
若重新处理的存储指数仍不在预设存储范围内,则基于数据处理子中台提出处理询问。
在一种可能实现的方式中,所述基于每个子数据的存储指数,判断对应子数据的存储方式之后,还包括:确定每个子数据的初始存储地址,具体包括:
按照每个子数据的存储方式,来确定相应子数据对应的待存储地址;
判断所述待存储地址中是否预先存有数据,并判断所述待存储地址中的剩余空间是否足够当前子数据完整写入;
若不够,获取未能完整写入的初始扩充空间,并根据所述当前子数据匹配数据类型的历史存储记录,确定同历史类型数据的历史写入地址的磨损概率;
基于所述磨损概率对所述初始扩充空间进行优化,得到待扩充空间,并基于所述待扩充空间对所述当前子数据的待存储地址进行调整,得到初始存储地址;
否则,将所述待存储地址作为当前子数据的初始存储地址。
在一种可能实现的方式中,所述基于所述存储方式,获取对应子数据的均衡权重,包括:
获取所述子数据的数据特性以及子数据对应的存储方式;
提取资源存储数据库中所有历史子数据的数据特性及历史存储方式,以及每个历史子数据对应的权重分析结果,对初始分析模型进行学习,得到权重分析模型;
基于所述权重分析模型,对相应子数据的数据特性以及存储方式进行权重分析,得到对应子数据的权重分析指数;
基于所述权重分析指数,判断每个子数据对应的均衡权重;
对数据存储指数正常的子数据进行第一均衡权重的确定,对数据存储指数不在预设存储范围内的子数据进行第二均衡权重的确定;
其中,所述均衡权重包括第一均衡权重以及第二均衡权重。
在一种可能实现的方式中,所述基于所有子数据的均衡权重,在所述数据处理子中台对所述待存储数据进行均衡化数据存储,包括:
确定每个子数据所对应初始存储地址的地址权重以及数据存储偏好;
解析对应子数据,并得到对应子数据的第一数据偏好以及获取对应子数据的均衡权重;
根据所述地址权重与均衡权重的第一匹配关系以及数据存储偏好与第一数据偏好的第二匹配关系,确定对应子数据的初始存储地址是否有效;
若有效,将对应子数据的初始存储地址视为有效存储地址;
若无效,将对应的初始存储地址暂留;
确定所有有效的初始存储地址的第一个数A1以及所有无效的初始存储地址的第二个数A2;
Figure 282563DEST_PATH_IMAGE001
时,判定需要基于第一个数的有效初始存储地址对第二个数的无 效初始存储地址进行地址调整,其中,
Figure 945626DEST_PATH_IMAGE002
表示预设比较值,取值为0.4;
否则,判定需要通过第二个数的无效初始存储地址本身以及扩充新的存储地址对无效的初始存储地址进行地址调整;
基于地址调整结果,对所述待存储数据进行均衡化数据存储。
在一种可能实现的方式中,在所述数据处理子中台对所述待存储数据进行均衡化数据存储之后,还包括:对均衡化数据存储结果进行判断,具体包括:
步骤01:基于所述待存储数据的均衡化数据存储结果,提取每组数据存储地址的实际长度,其中,每组数据包括至少一个子数据;
步骤02:基于每组数据存储地址的实际长度与剩余每组数据存储地址的实际长度进行比较,得到比较结果;
步骤03:基于所述比较结果确定所述均衡化数据存储结果的方差;
步骤04:基于所述均衡化数据存储结果的方差与第一预设范围进行比较;
若所述均衡化数据存储结果的方差小于第一预设范围的最小边界值,判定所述均衡化数据存储结果合格;
若所述均衡化数据存储结果的方差处于第一预设范围的边界,则确定所有组数据存储地址的平均长度与标准数据存储地址长度的比值;
若比值小于或等于预设值,则判定所述均衡化数据存储结果合格;
若比值大于预设值,则对所有组数据存储地址中两组相差最大的数据存储地址进行适应性调整;
基于适应性调整后的均衡化数据存储结果的方差再次与预设均衡化差异结果进行比较;若所述比较结果小于第一预设阈值范围,则基于调整后的均衡化数据存储结果,保存至数据处理子中台;若所述比较结果仍然大于第一预设阈值范围,则在数据处理子中台提出处理询问;
若所述均衡化数据存储结果的方差大于第一预设范围的最大边界值,将实际长度超过预设长度的数据组中的数据重新进行数据存储均衡化;
其中,适应性调整指的是调整当前被选中的两组数据内部的若干子数据,以使得当前被选中的两组数据之间的实际数据存储地址差距减小。
本发明提供了一种基于数据中台的均衡化数据存储系统,包括:
数据采集模块:基于数据中台中数据采集子中台将采集到的待存储数据发送到数据处理子中台进行数据预处理;
数据处理模块:根据预处理数据中每个子数据的数据特性,确定对应子数据在数据中台的存储方式;
均衡处理模块:根据所述存储方式,获取对应子数据的均衡权重;
均衡存储模块:基于所有子数据的均衡权重,在所述数据处理子中台对所述待存储数据进行均衡化数据存储。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种基于数据中台的均衡化数据存储方法的流程图;
图2为本发明实施例中一种基于数据中台的均衡化数据存储方法中对均衡化数据存储结果进行判断的流程图;
图3为本发明实施例中一种基于数据中台的均衡化数据存储系统的结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
本发明实施例提供了一种基于数据中台的均衡化数据存储方法,如图1所示,包括:
步骤1:基于数据中台中数据采集子中台将采集到的待存储数据发送到数据处理子中台进行数据预处理;
步骤2:基于预处理数据中每个子数据的数据特性,确定对应子数据在数据中台的存储方式;
步骤3:基于存储方式,获取对应子数据的均衡权重;
步骤4:基于所有子数据的均衡权重,在数据处理子中台对待存储数据进行均衡化数据存储。
该实施例中,数据中台包括数据采集子中台和数据处理子中台,其中,数据采集子中台主要用于待存储数据的采集,数据处理子中台主要用于待存储数据的数据处理及数据存储。
该实施例中,数据预处理是基于待存储数据进行数据标准化处理以及数据压缩得到的。
该实施例中,数据特性包括工业协议、采集频率、数据格式及大小以及数据分析方式中的至少一种特性,其中数据大小是必不可少的一个特性。
该实施例中,存储方式是基于预处理数据中每个子数据的数据特性,从而得到数据存储指数,然后基于数据存储指数进行比较分析,得到每个子数据在数据处理子中台中的待存储地址,其中,用不同的存储地址来区分存储方式。
该实施例中,均衡权重是基于对应子数据的数据特性以及对应的存储方式进行权重分析得到的权重分析指数对应的均衡权重。
该实施例中,均衡化数据存储是基于待存储数据的初始存储地址再经过对应存储地址的地址权重以及子数据的均衡权重,以及数据存储偏好对初始存储地址进行优化调整,并基于优化调整结果对待存储数据进行的数据存储,也就是保证不同子数据在最佳的存储地址,来减少对存储地址的浪费使用以及提高存储的有序性。
上述技术方案的有益效果是:通过对采集到的数据进行处理,确定数据在数据中台的存储方式,并得到对应的均衡权重来对存储方式进行调整,可以使得数据的存储更加均衡,同时也可以使得数据的存储空间占有率更高,减少了空间的浪费。
实施例2:
基于实施例1的基础上,基于数据中台中数据采集子中台将采集到的待存储数据发送到数据处理子中台进行数据预处理,包括:
基于数据处理子中台对接收到的待存储数据进行数据标准化处理;
基于标准化处理后的待存储数据进行数据压缩,得到预处理数据;
将预处理数据保存在数据处理子中台。
该实施例中,数据标准化处理主要是为了处理子数据之间性质不同的问题,可以采用多种方式进行处理,比如,采用减法一致法,基于数据处理中台的数据处理子中台中数据允许存储范围的最大值,依次减去每一个原始子数据,得到标准处理化数据,比如,待存储数据中的若干子数据的数据大小分别为15.0KB、16.3KB、18.8KB、20.0KB、15.2KB,数据处理中台的数据处理子中台中每个存储地址允许的最大存储量为20.0KB,则标准化处理后的数据为5.0KB、3.7KB、1.2KB、0KB、4.8KB。
该实施例中,数据压缩是基于一定的算法对待存储数据进行重新组织,从而实现无损压缩,比如,利用LZW压缩方法实现数据的无损压缩。
该实施例中,预处理数据是基于待存储数据进行数据标准化处理以及数据压缩得到的数据。
技术方案的有益效果是:通过对获取到的数据进行标准化处理及压缩处理,可以使得得到的数据更加易于处理计算,同时也使得数据的存储空间占有率更高,减少了空间的浪费。
实施例3:
基于实施例1的基础上,基于预处理数据中每个子数据的数据特性,确定对应子数据在数据中台的存储方式,包括:
基于每个子数据的数据特性,并基于预设数据存储分析表得到相应子数据的数据存储指数;
基于每个子数据的数据存储指数,判断对应子数据的存储方式;
其中,数据特性包括工业协议、采集频率、数据格式及大小以及数据分析方式中的至少一种特性。
该实施例中,预设数据分析表是基于数据存储分析大数据库中对历史数据数据的数据特性进行分析得到的,其中,预设数据分析表包含数据的数据特性以及基于不同数据特性所对应的数据存储指数。
该实施例中,数据存储指数是基于数据的数据特性在存储过程中的实际存储情况对应的指数,比如一个MP4格式的数据对应的数据存储指数前两位为10,一个JPG格式的数据对应的数据存储指数前两位为02。
该实施例中,数据存储指数是基于每个子数据的数据特性对应匹配预设数据存储分析表中的数据存储指数。
该实施例中,存储方式是基于预处理数据中每个子数据的数据特性,从而得到数据存储指数,然后基于数据存储指数进行比较分析,得到每个子数据在数据处理子中台中的待存储地址,进而得出存储方式。
技术方案的有益效果是:通过对预处理数据的数据特性与数据存储分析表进行匹配,得到对应的数据存储指数,从而判断子数据的存储方式,可以来确定相应子数据对应的待存储地址,再基于均衡权重进行调整后可以使得待存储数据的存储更加均衡化。
实施例4:
基于实施例3的基础上,基于每个子数据的数据特性,并基于预设数据存储分析表得到相应子数据的数据存储指数,包括:
将每个子数据的数据特性与预设数据存储分析表进行匹配;
基于匹配结果判断对应子数据的数据存储指数;
若数据存储指数在预设存储范围内,判定数据存储指数正常;
否则,对数据存储指数不在预设存储范围内的子数据重新进行数据预处理以及重新与预设数据分析表进行匹配;
若重新处理的存储指数仍不在预设存储范围内,则基于数据处理子中台提出处理询问。
该实施例中,预设数据存储分析表是基于数据存储大数据库中对历史存储数据的数据特性与存储方式进行分析得到的。
该实施例中,数据存储指数是基于每个子数据的数据特性对应匹配预设数据存储分析表中的数据存储指数。
该实施例中,预设存储范围可以基于数据中台的数据处理子中台的实际存储地址大小情况进行调整,比如一个预设存储范围为0-20MB,但是数据中台的数据处理子中台的实际存储地址因为磨损等情况,地址大小发生变化,有一定程度的缩小,最大可容纳量为19.5MB,就可以基于实际存储大小对预设存储范围进行调整,调整为小于19.5MB。
该实施例中,处理询问是基于存储指数不在预设存储范围的子数据,向处理中台确认处理意见,比如,是否可以在单独的更大的存储地址进行独立存储等。
技术方案的有益效果是:通过对子数据的数据特性进行分析得到相应的数据存储指数,进而判断子数据的存储方式,可以来确定相应子数据对应的待存储地址,再基于均衡权重进行调整后可以使得待存储数据的存储更加均衡化。
实施例5:
基于实施例3的基础上,基于每个子数据的存储指数,判断对应子数据的存储方式之后,还包括:确定每个子数据的初始存储地址,具体包括:
按照每个子数据的存储方式,来确定相应子数据对应的待存储地址;
判断待存储地址中是否预先存有数据,并判断待存储地址中的剩余空间是否足够当前子数据完整写入;
若不够,获取未能完整写入的初始扩充空间,并根据当前子数据匹配数据类型的历史存储记录,确定同历史类型数据的历史写入地址的磨损概率;
基于磨损概率对初始扩充空间进行优化,得到待扩充空间,并基于待扩充空间对当前子数据的待存储地址进行调整,得到初始存储地址;
否则,将待存储地址作为当前子数据的初始存储地址。
该实施例中,待存储地址是基于对子数据的存储方式进行判断得到的初步的存储地址。
该实施例中,初始扩充空间是预设的存储地址中,若预先存有数据则基于初始扩充空间除去所获取的预先存有的数据所占用的空间之后,得到当前存储地址的剩余地址空间。
该实施例中,历史存储记录是与当前子数据的数据类型一致的子数据的历史存储记录,主要是针对同历史类型子数据的存储地址的一个记录。
该实施例中,磨损概率是当前子数据对应的历史类型数据在历史写入地址时对于地址空间磨损的概率,该概率是针对地址空间的磨损以及若干次写入的磨损,比如是,写入10次,存在1次磨损的情况,且这1次磨损是针对100个写入地址磨损了10个地址。
该实施例中,磨损概率与地址空间的写入次数、写入的数据大小与地址空间的比值有关,磨损概率P为:
Figure 940127DEST_PATH_IMAGE003
其中P为磨损概率;
Figure 222203DEST_PATH_IMAGE004
为写入次数对磨损概率的影响权重;
Figure 720181DEST_PATH_IMAGE005
为写入的数据大小 与地址空间的比值对磨损概率的影响权重;
Figure 757407DEST_PATH_IMAGE006
为写入空间的
Figure 35942DEST_PATH_IMAGE007
个数据中第
Figure 184026DEST_PATH_IMAGE008
个数据的数 据大小;
Figure 739772DEST_PATH_IMAGE009
为写入空间的
Figure 682321DEST_PATH_IMAGE007
个数据中第
Figure 385835DEST_PATH_IMAGE010
个数据的数据磨损大小;ln表示对数函数的符 号;e表示常数,取值为2.7;
Figure 134348DEST_PATH_IMAGE011
表示未磨损下的调节因子。
该实施例中,待扩充空间是基于磨损概率以及子数据对空间大小的存储要求对初始扩充空间进行优化得到的,通过按照该概率对空间进行优化,是为了确定初始扩充空间对应的地址个数与概率的乘积在与对应初始扩充空间的地址个数相加,然后取整后加一,得到待扩充空间。
该实施例中,初始存储地址是基于待存储地址的基础上,对待存储地址进行扩充、优化得到的对应子数据的初始的存储地址。
上述技术方案的有益效果是:通过基于子数据的数据大小对待存储地址进行优化,得到每个子数据的初始存储地址,可以使得数据的存储空间占有率更高,减少了地址空间的浪费。
实施例6:
基于实施例1的基础上,基于存储方式,获取对应子数据的均衡权重,包括:
获取子数据的数据特性以及子数据对应的存储方式;
提取资源存储数据库中所有历史子数据的数据特性及历史存储方式,以及每个历史子数据对应的权重分析结果,对初始分析模型进行学习,得到权重分析模型;
基于权重分析模型,对相应子数据的数据特性以及存储方式进行权重分析,得到对应子数据的权重分析指数;
基于权重分析指数,判断每个子数据对应的均衡权重;
对数据存储指数正常的子数据进行第一均衡权重的确定,对数据存储指数不在预设存储范围内的子数据进行第二均衡权重的确定;
其中,均衡权重包括第一均衡权重以及第二均衡权重。
该实施例中,历史存储方式是资源存储数据库中所有历史子数据进行数据存储时的存储方式。
该实施例中,权重分析结果是基于每个历史子数据的数据特性对于最终数据存储地址的影响的权重结果。
该实施例中,权重分析模型是基于资源存储数据库中所有历史子数据的数据特性及历史存储方式,以及每个历史子数据对应的权重分析结果,对初始分析模型进行学习后得到的。
该实施例中,权重分析指数是基于权重分析模型,然后再基于子数据的数据特性以及存储方式进行分析得到的。
该实施例中,均衡权重包括第一均衡权重以及第二均衡权重。
该实施例中,第一均衡权重是基于数据存储指数正常的子数据对应的权重分析指数得到的均衡权重。
该实施例中,第二均衡权重是基于数据存储指数不正常的子数据对应的权重分析指数得到的均衡权重,其中,数据存储指数不正常是指数据存储指数不在预设存储范围内。
上述技术方案的有益效果是:通过对历史子数据的存储方式等进行分析,从而确定当前子数据的均衡权重,来对子数据对应的存储方式进行优化调整,从而得到更加均衡的数据存储方式,可以使得数据的存储更加均衡,同时也可以使得数据的存储空间占有率更高,减少了空间的浪费。
实施例7:
基于实施例5的基础上,基于所有子数据的均衡权重,在数据处理子中台对待存储数据进行均衡化数据存储,包括:
确定每个子数据所对应初始存储地址的地址权重以及数据存储偏好;
解析对应子数据,并得到对应子数据的第一数据偏好以及获取对应子数据的均衡权重;
根据地址权重与均衡权重的第一匹配关系以及数据存储偏好与第一数据偏好的第二匹配关系,确定对应子数据的初始存储地址是否有效;
若有效,将对应子数据的初始存储地址视为有效存储地址;
若无效,将对应的初始存储地址暂留;
确定所有有效的初始存储地址的第一个数A1以及所有无效的初始存储地址的第二个数A2;
Figure 872497DEST_PATH_IMAGE001
时,判定需要基于第一个数的有效初始存储地址对第二个数的无 效初始存储地址进行地址调整,其中,
Figure 189208DEST_PATH_IMAGE002
表示预设比较值,取值为0.4;
否则,判定需要通过第二个数的无效初始存储地址本身以及扩充新的存储地址对无效的初始存储地址进行地址调整;
基于地址调整结果,对待存储数据进行均衡化数据存储。
该实施例中,地址权重是每个子数据对应的初始存储地址在数据处理子中台的存储地址的权重,数据中台中不同存储地址的权重是不一样的,都是预先设置好的。
该实施例中,数据存储偏好是基于子数据的数据特性不同,从而对子数据的存储地址造成一定影响,比如,子数据的数据格式如果是MP4格式,那可以存储到与当前数据格式相适应的存储地址中。
该实施例中,第一匹配关系是基于子数据对应的初始存储地址的地址权重,以及子数据对应的均衡权重得到的匹配关系。
该实施例中,第二匹配关系是基于子数据对应的数据存储偏好与数据处理子中台的对应存储地址的存储偏好的匹配关系。
其中第一匹配关系与第二匹配关系都是从一个标准映射表(不同的地址权重、均衡权重、数据存储偏好、地址存储偏好等以及不同匹配下的数值在内)进而可以得到对应的关系值,后续通过与标准匹配值(预先设置好的)比较,来确定是否为有效存储地址。
该实施例中,有效存储地址是基于地址权重与均衡权重的第一匹配关系以及数据存储偏好与第一数据偏好的第二匹配关系满足子数据存储需求条件,也就是第一匹配关系满足标准匹配值以及第二匹配关系满足标准匹配值,进而确定出是有效存储地址。
该实施例中,无效初始存储地址是基于地址权重与均衡权重的第一匹配关系或数据存储偏好与第一数据偏好的第二匹配关系不满足子数据存储需要。
该实施例中,地址调整是通过无效初始存储地址本身或扩充新的存储地址等对无效的初始存储地址进行的存储地址调整。
该实施例中,均衡化数据存储是基于待存储数据的初始存储地址再经过对应存储地址的地址权重以及子数据的均衡权重,以及数据存储偏好,对初始存储地址进行优化调整,并基于优化调整结果对待存储数据进行的数据存储,比如,初始存储地址为1号地址,地址大小为50MB,则基于1号地址的地址权重、对应子数据的均衡权重,以及数据存储偏好,可以将1号地址的地址大小调整为53MB。
上述技术方案的有益效果是:通过对子数据的均衡权重,子数据存储地址的地址权重以及子数据的数据存储偏好进行比较,从而对子数据的存储地址进行调整,使得待存储数据均衡化存储更加准确。
实施例8:
基于实施例1的基础上,在数据处理子中台对待存储数据进行均衡化数据存储之后,还包括:对均衡化数据存储结果进行判断,如图2所示,具体包括:
步骤01:基于待存储数据的均衡化数据存储结果,提取每组数据存储地址的实际长度,其中,每组数据包括至少一个子数据;
步骤02:基于每组数据存储地址的实际长度与剩余每组数据存储地址的实际长度进行比较,得到比较结果;
步骤03:基于比较结果确定均衡化数据存储结果的方差;
步骤04:基于均衡化数据存储结果的方差与第一预设范围进行比较;
若均衡化数据存储结果的方差小于第一预设范围的最小边界值,判定均衡化数据存储结果合格;
若均衡化数据存储结果的方差处于第一预设范围的边界,则确定所有组数据存储地址的平均长度与标准数据存储地址长度的比值;
若比值小于或等于预设值,则判定均衡化数据存储结果合格;
若比值大于预设值,则对所有组数据存储地址中两组相差最大的数据存储地址进行适应性调整;
基于适应性调整后的均衡化数据存储结果的方差再次与预设均衡化差异结果进行比较;若比较结果小于第一预设阈值范围,则基于调整后的均衡化数据存储结果,保存至数据处理子中台;若比较结果仍然大于第一预设阈值范围,则在数据处理子中台提出处理询问;
若均衡化数据存储结果的方差大于第一预设范围的最大边界值,将实际长度超过预设长度的数据组中的数据重新进行数据存储均衡化;
其中,适应性调整指的是调整当前被选中的两组数据内部的若干子数据,以使得当前被选中的两组数据之间的实际数据存储地址差距减小。
该实施例中,存储地址的实际长度是指当前存储地址中存储的数据所占地址的长度。
该实施例中,每组数据至少包含一个完整的子数据。
该实施例中,均衡化数据存储结果的方差是基于每组数据存储地址的实际长度与剩余每组数据存储地址的实际长度、数据存储地址的平均长度进行比较得到的数据存储方差结果。
该实施例中,第一预设范围是均衡化数据存储结果是否与所有组数据存储地址的平均长度与标准数据存储地址长度有关的一个预设范围,若所有组数据存储地址的平均长度与标准数据存储地址长度比值小于或等于一定预设值,则均衡化数据存储结果与所有组数据存储地址的平均长度与标准数据存储地址长度无关;若比值大于一定预设值,则均衡化数据存储结果与所有组数据存储地址的平均长度与标准数据存储地址长度有关。
该实施例中,比如,第一预设范围为0.5-1.8,若均衡化存储结果的方差为0.3,则均衡化数据存储结果合格;若均衡化存储结果为1.8,则确定所有组数据存储地址的平均长度与标准数据存储地址长度的比值;若均衡化存储结果的方差为2.8,则对实际存储地址的长度进行判断,若预设长度为20MB,则对实际长度超过20MB的数据组的数据进行重新调整。
该实施例中,最小边界值是均衡化数据存储结果的方差满足均衡化存储要求的最小边界值。
该实施例中,数据存储地址的平均长度是基于所有待存储数据的实际长度除以当前存储地址的数量得到的平均地址长度。
该实施例中,标准数据存储地址长度是基于数据中台的数据处理子中台预设的总的存储地址除以存储地址的数量得到的标准存储地址。
该实施例中,适应性调整指的是调整当前被选中的两组数据内部的若干子数据,以使得当前被选中的两组数据之间的实际数据存储地址差距减小。
该实施例中,预设均衡化差异结果是基于当前数据中台的数据处理子中台的存储地址存储情况确定的。
该实施例中,第一预设阈值范围是基于适应性调整后的均衡化数据存储结果的方差,再次与预设均衡化差异结果进行比较,从而确定当前均衡化数据存储结果是否合格的一个阈值范围。
上述技术方案的有益效果是:通过对均衡化数据存储结果进行比较,并基于比较结果进行调整可以使得数据的存储更加均衡,同时也可以使得数据的存储空间占有率更高,减少了空间的浪费。
实施例9:
本发明实施例提供了一种基于数据中台的均衡化数据存储系统,如图3所示,包括:
数据采集模块:基于数据中台中数据采集子中台将采集到的待存储数据发送到数据处理子中台进行数据预处理;
数据处理模块:根据预处理数据中每个子数据的数据特性,确定对应子数据在数据中台的存储方式;
均衡处理模块:根据存储方式,获取对应子数据的均衡权重;
均衡存储模块:基于所有子数据的均衡权重,在数据处理子中台对待存储数据进行均衡化数据存储。
上述技术方案的有益效果是:通过对采集到的数据进行处理,确定数据在数据中台的存储方式,并得到对应的均衡权重来对存储方式进行调整,可以使得数据的存储更加均衡,同时也可以使得数据的存储空间占有率更高,减少了空间的浪费。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种基于数据中台的均衡化数据存储方法,其特征在于,包括:
步骤1:基于数据中台中数据采集子中台将采集到的待存储数据发送到数据处理子中台进行数据预处理;
步骤2:基于预处理数据中每个子数据的数据特性,确定对应子数据在数据中台的存储方式;
步骤3:基于所述存储方式,获取对应子数据的均衡权重;
步骤4:基于所有子数据的均衡权重,在所述数据处理子中台对所述待存储数据进行均衡化数据存储。
2.如权利要求1所述的一种基于数据中台的均衡化数据存储方法,其特征在于,基于数据中台中数据采集子中台将采集到的待存储数据发送到数据处理子中台进行数据预处理,包括:
基于所述数据处理子中台对接收到的待存储数据进行数据标准化处理;
基于标准化处理后的待存储数据进行数据压缩,得到预处理数据;
将所述预处理数据保存在所述数据处理子中台。
3.如权利要求1所述的一种基于数据中台的均衡化数据存储方法,其特征在于,基于预处理数据中每个子数据的数据特性,确定对应子数据在数据中台的存储方式,包括:
基于每个子数据的数据特性,并基于预设数据存储分析表得到相应子数据的数据存储指数;
基于每个子数据的数据存储指数,判断对应子数据的存储方式;
其中,数据特性包括工业协议、采集频率、数据格式及大小以及数据分析方式中的至少一种特性。
4.如权利要求3所述的一种基于数据中台的均衡化数据存储方法,其特征在于,基于每个子数据的数据特性,并基于预设数据存储分析表得到相应子数据的数据存储指数,包括:
将每个子数据的数据特性与预设数据存储分析表进行匹配;
基于匹配结果判断对应子数据的数据存储指数;
若所述数据存储指数在预设存储范围内,判定所述数据存储指数正常;
否则,对数据存储指数不在预设存储范围内的子数据重新进行数据预处理以及重新与预设数据分析表进行匹配;
若重新处理的存储指数仍不在预设存储范围内,则基于数据处理子中台提出处理询问。
5.如权利要求3所述的一种基于数据中台的均衡化数据存储方法,其特征在于,基于每个子数据的存储指数,判断对应子数据的存储方式之后,还包括:确定每个子数据的初始存储地址,具体包括:
按照每个子数据的存储方式,来确定相应子数据对应的待存储地址;
判断所述待存储地址中是否预先存有数据,并判断所述待存储地址中的剩余空间是否足够当前子数据完整写入;
若不够,获取未能完整写入的初始扩充空间,并根据所述当前子数据匹配数据类型的历史存储记录,确定同历史类型数据的历史写入地址的磨损概率;
基于所述磨损概率对所述初始扩充空间进行优化,得到待扩充空间,并基于所述待扩充空间对所述当前子数据的待存储地址进行调整,得到初始存储地址;
否则,将所述待存储地址作为当前子数据的初始存储地址。
6.如权利要求1所述的一种基于数据中台的均衡化数据存储方法,其特征在于,基于所述存储方式,获取对应子数据的均衡权重,包括:
获取所述子数据的数据特性以及子数据对应的存储方式;
提取资源存储数据库中所有历史子数据的数据特性及历史存储方式,以及每个历史子数据对应的权重分析结果,对初始分析模型进行学习,得到权重分析模型;
基于所述权重分析模型,对相应子数据的数据特性以及存储方式进行权重分析,得到对应子数据的权重分析指数;
基于所述权重分析指数,判断每个子数据对应的均衡权重;
对数据存储指数正常的子数据进行第一均衡权重的确定,对数据存储指数不在预设存储范围内的子数据进行第二均衡权重的确定;
其中,所述均衡权重包括第一均衡权重以及第二均衡权重。
7.如权利要求5所述的一种基于数据中台的均衡化数据存储方法,其特征在于,基于所有子数据的均衡权重,在所述数据处理子中台对所述待存储数据进行均衡化数据存储,包括:
确定每个子数据所对应初始存储地址的地址权重以及数据存储偏好;
解析对应子数据,并得到对应子数据的第一数据偏好以及获取对应子数据的均衡权重;
根据所述地址权重与均衡权重的第一匹配关系以及数据存储偏好与第一数据偏好的第二匹配关系,确定对应子数据的初始存储地址是否有效;
若有效,将对应子数据的初始存储地址视为有效存储地址;
若无效,将对应的初始存储地址暂留;
确定所有有效的初始存储地址的第一个数A1以及所有无效的初始存储地址的第二个数A2;
Figure 415910DEST_PATH_IMAGE001
时,判定需要基于第一个数的有效初始存储地址对第二个数的无效 初始存储地址进行地址调整,其中,
Figure 18929DEST_PATH_IMAGE002
表示预设比较值,取值为0.4;
否则,判定需要通过第二个数的无效初始存储地址本身以及扩充新的存储地址对无效的初始存储地址进行地址调整;
基于地址调整结果,对所述待存储数据进行均衡化数据存储。
8.如权利要求1所述的一种基于数据中台的均衡化数据存储方法,其特征在于,在所述数据处理子中台对所述待存储数据进行均衡化数据存储之后,还包括:对均衡化数据存储结果进行判断,具体包括:
步骤01:基于所述待存储数据的均衡化数据存储结果,提取每组数据存储地址的实际长度,其中,每组数据包括至少一个子数据;
步骤02:基于每组数据存储地址的实际长度与剩余每组数据存储地址的实际长度进行比较,得到比较结果;
步骤03:基于所述比较结果确定所述均衡化数据存储结果的方差;
步骤04:基于所述均衡化数据存储结果的方差与第一预设范围进行比较;
若所述均衡化数据存储结果的方差小于第一预设范围的最小边界值,判定所述均衡化数据存储结果合格;
若所述均衡化数据存储结果的方差处于第一预设范围的边界,则确定所有组数据存储地址的平均长度与标准数据存储地址长度的比值;
若比值小于或等于预设值,则判定所述均衡化数据存储结果合格;
若比值大于预设值,则对所有组数据存储地址中两组相差最大的数据存储地址进行适应性调整;
基于适应性调整后的均衡化数据存储结果的方差再次与预设均衡化差异结果进行比较;若所述比较结果小于第一预设阈值范围,则基于调整后的均衡化数据存储结果,保存至数据处理子中台;若所述比较结果仍然大于第一预设阈值范围,则在数据处理子中台提出处理询问;
若所述均衡化数据存储结果的方差大于第一预设范围的最大边界值,将实际长度超过预设长度的数据组中的数据重新进行数据存储均衡化;
其中,适应性调整指的是调整当前被选中的两组数据内部的若干子数据,以使得当前被选中的两组数据之间的实际数据存储地址差距减小。
9.一种基于数据中台的均衡化数据存储系统,其特征在于,包括:
数据采集模块:基于数据中台中数据采集子中台将采集到的待存储数据发送到数据处理子中台进行数据预处理;
数据处理模块:根据预处理数据中每个子数据的数据特性,确定对应子数据在数据中台的存储方式;
均衡处理模块:根据所述存储方式,获取对应子数据的均衡权重;
均衡存储模块:基于所有子数据的均衡权重,在所述数据处理子中台对所述待存储数据进行均衡化数据存储。
CN202211420679.0A 2022-11-15 2022-11-15 一种基于数据中台的均衡化数据存储方法及系统 Active CN115509463B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211420679.0A CN115509463B (zh) 2022-11-15 2022-11-15 一种基于数据中台的均衡化数据存储方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211420679.0A CN115509463B (zh) 2022-11-15 2022-11-15 一种基于数据中台的均衡化数据存储方法及系统

Publications (2)

Publication Number Publication Date
CN115509463A true CN115509463A (zh) 2022-12-23
CN115509463B CN115509463B (zh) 2023-04-11

Family

ID=84514458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211420679.0A Active CN115509463B (zh) 2022-11-15 2022-11-15 一种基于数据中台的均衡化数据存储方法及系统

Country Status (1)

Country Link
CN (1) CN115509463B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140156913A1 (en) * 2012-12-05 2014-06-05 Phison Electronics Corp. Data processing method, memory controller and memory storage apparatus
CN108694241A (zh) * 2018-05-14 2018-10-23 平安科技(深圳)有限公司 一种数据的存储方法及设备
US20190198115A1 (en) * 2017-12-27 2019-06-27 Phison Electronics Corp. Data writing method, valid data identifying method and memory storage apparatus
CN110781006A (zh) * 2019-10-28 2020-02-11 重庆紫光华山智安科技有限公司 负载均衡方法、装置、节点及计算机可读存储介质
CN112395293A (zh) * 2020-11-27 2021-02-23 浙江诺诺网络科技有限公司 分库分表方法、分库分表装置、分库分表设备及存储介质
CN112650739A (zh) * 2020-12-22 2021-04-13 煤炭科学研究总院 煤矿数据中台的数据存储处理方法和装置
CN113688062A (zh) * 2020-05-18 2021-11-23 北京市商汤科技开发有限公司 用于存储数据的方法和相关产品
CN113885803A (zh) * 2021-09-30 2022-01-04 苏州浪潮智能科技有限公司 数据存储方法、装置、电子设备及存储介质
CN114064588A (zh) * 2021-11-24 2022-02-18 建信金融科技有限责任公司 存储空间调度方法及系统
CN114676444A (zh) * 2022-03-24 2022-06-28 广州大师明信息服务有限公司 一种基于区块链的存储系统
CN114938391A (zh) * 2022-06-09 2022-08-23 中国联合网络通信集团有限公司 数据处理方法、装置、设备及介质
CN115221155A (zh) * 2021-04-16 2022-10-21 中国移动通信集团辽宁有限公司 数据分片方法、装置、电子设备和存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140156913A1 (en) * 2012-12-05 2014-06-05 Phison Electronics Corp. Data processing method, memory controller and memory storage apparatus
US20190198115A1 (en) * 2017-12-27 2019-06-27 Phison Electronics Corp. Data writing method, valid data identifying method and memory storage apparatus
CN108694241A (zh) * 2018-05-14 2018-10-23 平安科技(深圳)有限公司 一种数据的存储方法及设备
CN110781006A (zh) * 2019-10-28 2020-02-11 重庆紫光华山智安科技有限公司 负载均衡方法、装置、节点及计算机可读存储介质
CN113688062A (zh) * 2020-05-18 2021-11-23 北京市商汤科技开发有限公司 用于存储数据的方法和相关产品
CN112395293A (zh) * 2020-11-27 2021-02-23 浙江诺诺网络科技有限公司 分库分表方法、分库分表装置、分库分表设备及存储介质
CN112650739A (zh) * 2020-12-22 2021-04-13 煤炭科学研究总院 煤矿数据中台的数据存储处理方法和装置
CN115221155A (zh) * 2021-04-16 2022-10-21 中国移动通信集团辽宁有限公司 数据分片方法、装置、电子设备和存储介质
CN113885803A (zh) * 2021-09-30 2022-01-04 苏州浪潮智能科技有限公司 数据存储方法、装置、电子设备及存储介质
CN114064588A (zh) * 2021-11-24 2022-02-18 建信金融科技有限责任公司 存储空间调度方法及系统
CN114676444A (zh) * 2022-03-24 2022-06-28 广州大师明信息服务有限公司 一种基于区块链的存储系统
CN114938391A (zh) * 2022-06-09 2022-08-23 中国联合网络通信集团有限公司 数据处理方法、装置、设备及介质

Also Published As

Publication number Publication date
CN115509463B (zh) 2023-04-11

Similar Documents

Publication Publication Date Title
CN109344893B (zh) 一种基于移动终端的图像分类方法
CN108090503B (zh) 多分类器的在线调整方法、装置、存储介质及电子设备
CN111083933B (zh) 数据存储及获取方法和装置
CN111401642A (zh) 自动调整预测值的方法、装置、设备及存储介质
CN111831956A (zh) 高自由度类不平衡性损失函数的调整方法和存储介质
CN110705685A (zh) 一种神经网络量化分类方法与系统
CN113660113A (zh) 面向分布式机器学习的自适应稀疏参数模型设计与量化传输方法
CN114817425A (zh) 一种冷热数据分类的方法、装置、设备及可读存储介质
CN113869420A (zh) 基于对比学习的文本推荐方法及相关设备
CN115509463B (zh) 一种基于数据中台的均衡化数据存储方法及系统
CN109617864B (zh) 一种网站识别方法及网站识别系统
CN110751278A (zh) 一种神经网络比特量化方法和系统
CN110958198A (zh) 一种用于通信系统的判决门限优化方法及系统
CN115038091A (zh) 一种北极海上无线通信频谱感知方法及系统
CN114140238A (zh) 异常交易数据识别方法、装置、计算机设备和存储介质
CN114153760B (zh) 基于权重的健值存储缓存淘汰方法、系统及存储介质
CN111814051B (zh) 一种资源类型确定方法及装置
CN114677535A (zh) 域适应图像分类网络的训练方法、图像分类方法及装置
CN111899092B (zh) 基于二道模型的业务数据筛选方法及装置
TWI710960B (zh) 影像分類系統與方法
CN113988670A (zh) 综合性企业信用风险预警方法及系统
CN114239949A (zh) 一种基于双阶段注意力机制的网站访问量预测方法及系统
CN110134575B (zh) 一种服务器集群的服务能力计算方法及装置
CN113132482A (zh) 一种基于强化学习的分布式消息系统参数自适应优化方法
CN117519992B (zh) 一种基于crush算法的查表型负载均衡方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant