CN114675789A - 一种基于计算机系统的大数据分析存储系统及方法 - Google Patents

一种基于计算机系统的大数据分析存储系统及方法 Download PDF

Info

Publication number
CN114675789A
CN114675789A CN202210418868.8A CN202210418868A CN114675789A CN 114675789 A CN114675789 A CN 114675789A CN 202210418868 A CN202210418868 A CN 202210418868A CN 114675789 A CN114675789 A CN 114675789A
Authority
CN
China
Prior art keywords
data
storage
stored
calling
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210418868.8A
Other languages
English (en)
Other versions
CN114675789B (zh
Inventor
王珊珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Youfang Information Technology Co ltd
Original Assignee
Guoyun Information Technology Jinan Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guoyun Information Technology Jinan Co ltd filed Critical Guoyun Information Technology Jinan Co ltd
Priority to CN202210418868.8A priority Critical patent/CN114675789B/zh
Publication of CN114675789A publication Critical patent/CN114675789A/zh
Application granted granted Critical
Publication of CN114675789B publication Critical patent/CN114675789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0619Improving the reliability of storage systems in relation to data integrity, e.g. data losses, bit errors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Quality & Reliability (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明公开了一种基于计算机系统的大数据分析存储系统及方法,包括:数据采集模块、数据管理中心、存储数据分析模块、数据存储规划模块和预存测试模块,通过数据采集模块采集待存储数据的历史调用信息和存储节点的故障信息,通过数据管理中心存储并管理所述数据采集模块采集到的所有信息,通过存储数据分析模块分析调用信息和故障信息,将数据进行分块,通过数据存储规划模块选择存储方式,对部分数据进行备份处理,通过预存测试模块测试数据存储情况,规划数据存储位置,减少了数据分散存储链路数量,提高了数据调取效率,同时减小了在存储出现故障时的排查难度,降低了数据丢失概率。

Description

一种基于计算机系统的大数据分析存储系统及方法
技术领域
本发明涉及大数据存储技术领域,具体为一种基于计算机系统的大数据分析存储系统及方法。
背景技术
随着信息技术的快速发展,人们的日常活动会产生大量的数据信息,为更好地搜集、处理及应用这些数据,需要将大数据存储到计算机系统中,随着需要存储的数据量越来越大,传统的将数据集中存储技术已经无法满足井喷式的数据量增长,将数据进行分散存储,有效减轻了存储设备的压力;
然而,现有的分散存储数据方式仍然存在一定的弊端和挑战:首先,为满足的数据存储性能,通常会增加存储节点,但是,存储节点的增加导致了数据服务间的链路变多、变长,在存储节点发生故障时的排查难度急剧增长,在无形中提高了故障率;其次,在数据存储时只考虑到数据的重要性,忽略了存储节点的故障情况,导致数据出现丢失的可能性加剧;最后,由于数据过度分散存储,在调取多方数据时需要从不同的存储节点调取,延长了数据调取时间。
所以,人们需要一种基于计算机系统的大数据分析存储系统及方法来解决上述问题。
发明内容
本发明的目的在于提供一种基于计算机系统的大数据分析存储系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种基于计算机系统的大数据分析存储系统,其特征在于:所述系统包括:数据采集模块、数据管理中心、存储数据分析模块、数据存储规划模块和预存测试模块;
所述数据采集模块用于采集待存储数据的历史调用信息和存储节点的故障信息;
所述数据管理中心用于存储并管理所述数据采集模块采集到的所有信息;
所述存储数据分析模块用于分析调用信息和故障信息并将数据进行分块;
所述数据存储规划模块用于选择存储方式并对部分数据进行备份处理;
所述预存测试模块用于测试数据存储情况,规划数据存储位置。
进一步的,所述数据采集模块包括数据调用采集单元和故障信息采集单元,所述数据调用采集单元用于采集待存储数据的历史调用次数和调用所需时间信息;所述故障信息采集单元用于采集当前已有的存储节点的历史发生故障的次数以及故障影响范围信息,将采集到的所有数据传输到所述数据管理中心中。
进一步的,所述存储数据分析模块包括存储数据排布单元和排查难度分析单元,所述存储数据排布单元用于调取并分析待存储数据的历史调用信息,将待存储数据进行分块;所述排查难度分析单元用于若分块后的数据存储到对应节点中,分析在不同存储节点发生故障时排查故障原因的困难程度。
进一步的,所述数据存储规划模块包括调用分析单元、存储方式选择单元和数据备份规划单元,所述调用分析单元用于分析分块后待存储数据的调用频繁程度和历史调用时的信息丢失情况,得到分析结果;所述存储方式选择单元用于依据分析结果为待存储数据选择不同的存储方式;所述数据备份规划单元用于依据分析结果将部分数据进行备份处理。
进一步的,所述预存测试模块包括故障检测分析单元、集群脱离预警单元、存储对象选择单元和二次分块存储单元,所述故障检测分析单元用于测试数据存储情况,在数据预存储过程中对存储节点进行实时故障检测;所述集群脱离预警单元用于在存储节点脱离集群时进行预警;所述存储对象选择单元用于统计存储节点在测试过程中脱离集群的次数、以及历史故障次数,并依据在测试过程中的调用信息分析待存储数据的重要程度;所述二次分块存储单元用于对待存储数据进行重新分块并存储到对应节点中。
一种基于计算机系统的大数据分析存储方法,其特征在于:包括以下步骤:
S1:采集数据调用信息和存储节点故障信息;
S2:分析数据调用信息和故障信息,将待存储数据进行分块处理;
S3:分析分块后数据的调用信息,选择不同的存储方式;
S4:对部分待存储数据进行备份处理;
S5:测试分块后数据存储情况,规划数据存储对象,将数据重新分块后进行存储。
进一步的,在步骤S1-S2中:采集到不同待存储数据历史被调用的次数集合为M={M1,M2,...,Mn},其中,依据调用次数的不同共分为n种待存储数据,在对应数据被调用过程中出现信息丢失的次数集合为N={N1,N2,...,Nn},在出现信息丢失后对应数据被调用的次数集合为N’={N1’,N2’,...,Nn’},信息丢失前后被调用数据的关联系数集合为sim={sim1,sim2,...,simn},采集到当前已有的存储节点历史发生故障次数集合为m={m1,m2,...,mp},对应存储节点发生故障时修复需要的平均时间集合为T={T1,T2,...,Tp},其中,p表示除存储元数据的主节点外的存储节点数量,根据下列公式计算随机一种待存储数据的重要系数Wi:
Figure BDA0003606063210000031
其中,Mi表示随机一种待存储数据历史被调用的次数,Ni表示随机一种待存储数据在被调用过程中信息丢失的次数,Ni’表示对应信息丢失后对应数据被调用的次数,simi表示在信息丢失前后随机一种待存储数据中被调用的数据的关联系数,得到待存储数据的重要系数集合为W={W1,W2,...,Wn},将待存储数据进行分块处理:分为k块,随机选取k种数据,k种数据的重要系数集合为w={w1,w2,...,wj,...,wk},其中,
Figure BDA0003606063210000032
根据下列公式判断随机一种待存储数据的所属块:
Figure BDA0003606063210000033
其中,Ai表示k个分块中数据重要系数与随机一种待存储数据的重要系数差值最小的块,Ai的值是w中的一个,将Ai的值与w中的元素进行匹配,得到与Ai的值相等的重要系数为wj,将对应待存储数据归为第j块,在存储空间充足的前提下,按照待存储数据的重要系数将数据进行分块存储,在调用次数的基础上考虑到历史数据被调用时存在一定的数据丢失的问题,若丢失的是关键数据,会再次对同样的数据进行调用,在一定程度上反映出数据的重要程度,计算重要系数的目的在于将其作为分块依据,同时,考虑到数据可能存在过度分散的问题,将重要数据进行聚类存储,有利于减少数据服务间的链路,进一步减轻了故障时的排查难度。
进一步的,在步骤S3-S4中:分析分块后数据的调用信息:获取到将数据分为k块进行存储后,随机一块数据被单独调用的次数为Ei,被同时调用的次数为Fi,根据公式
Figure BDA0003606063210000034
选择k块待存储数据的存储方式:若Pi>1,将对应块数据进行单独存储;若Pi≤1,将对应块数据与和对应数据被同时调用的数据进行集中存储,对部分待存储数据进行备份处理:比较n种待存储数据的重要系数,将重要系数大于
Figure BDA0003606063210000041
的数据进行备份处理。
进一步的,在步骤S5中:测试数据存储情况:在数据预存储过程中对存储节点进行实时故障检测,在检测到存储节点无响应时,判断对应存储节点脱离集群,发送预警信号,同时统计到存储节点在测试过程中脱离集群的次数集合为L={L1,L2,...,Lp},记录到在测试过程中存储节点的被访问次数集合为Q={Q1,Q2,...,Qp},根据下列公式计算当前已有的随机一个存储节点的存储可靠系数Ki:
Figure BDA0003606063210000042
其中,mi表示对应存储节点历史发生故障的次数,Li表示对应存储节点在测试过程中脱离集群的次数,Ti表示对应存储节点发生故障时修复需要的平均时间,Qi表示在测试过程中对应存储节点被访问的次数,得到可靠系数集合为K={K1,K2,...,Kp},在数据分块后,对数据存储过程进行测试,有利于为对应数据选择合适的存储对象,在计算存储节点可靠系数的同时,考虑到可靠系数不仅受到测试过程中故障情况影响,同时也与历史存储节点存储数据的故障情况影响,提高了计算结果的准确性。
进一步的,规划数据存储对象:将数据重新分块:获取到进行单独存储的数据的重要系数集合为w’={w1’,w2’,...,we’},其中,
Figure BDA0003606063210000043
集中存储到同一位置的数据的平均重要系数集合为w={w集1,w集2,...,w集q},其中,e表示单独存储的数据块数,q表示集中存储的数据块数,比较数据的重要系数:将最大系数对应的数据存储到最可靠的存储节点中,最大系数为wmax,最大可靠系数为Kmax,将存储节点按可靠系数从大到小排列,剩余数据依据重要系数从大到小依次存储到存储节点中,数据分块后调用数据出现了变化,分析分块后数据的被调用情况,为数据选择集中和分散存储两种存储方式,为数据分块后调用提供了便利,将数据的重要系数和存储节点的可靠系数进行匹配,将重要的数据存储到可靠的存储节点中,降低了数据丢失的概率。
与现有技术相比,本发明所达到的有益效果是:
本发明通过采集分析历史数据,按照待存储数据的重要系数将数据进行分块存储,在调用次数的基础上考虑到历史数据被调用时存在一定的数据丢失的问题,结合数据丢失再调用数据和初次调用数据计算待存储数据的重要系数,将数据进行分类,将部分重要数据进行聚类存储,解决了现有技术中数据存储地过于分散导致数据服务间链路增长、加剧故障排查难度的问题;在数据分块后,对数据存储过程进行测试,有利于为对应数据选择合适的存储对象,在考虑到数据重要性的同时分析了存储节点故障情况,将重要的数据存储到可靠的存储节点中,降低了数据丢失的概率。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明一种基于计算机系统的大数据分析存储系统的结构图;
图2是本发明一种基于计算机系统的大数据分析存储方法的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
请参阅图1-图2,本发明提供技术方案:一种基于计算机系统的大数据分析存储系统,其特征在于:系统包括:数据采集模块、数据管理中心、存储数据分析模块、数据存储规划模块和预存测试模块;
数据采集模块用于采集待存储数据的历史调用信息和存储节点的故障信息;
数据管理中心用于存储并管理数据采集模块采集到的所有信息;
存储数据分析模块用于分析调用信息和故障信息并将数据进行分块;
数据存储规划模块用于选择存储方式并对部分数据进行备份处理;
预存测试模块用于测试数据存储情况,规划数据存储位置。
数据采集模块包括数据调用采集单元和故障信息采集单元,数据调用采集单元用于采集待存储数据的历史调用次数和调用所需时间信息;故障信息采集单元用于采集当前已有的存储节点的历史发生故障的次数以及故障影响范围信息,将采集到的所有数据传输到数据管理中心中。
存储数据分析模块包括存储数据排布单元和排查难度分析单元,存储数据排布单元用于调取并分析待存储数据的历史调用信息,将待存储数据进行分块;排查难度分析单元用于若分块后的数据存储到对应节点中,分析在不同存储节点发生故障时排查故障原因的困难程度。
数据存储规划模块包括调用分析单元、存储方式选择单元和数据备份规划单元,调用分析单元用于分析分块后待存储数据的调用频繁程度和历史调用时的信息丢失情况,得到分析结果;存储方式选择单元用于依据分析结果为待存储数据选择不同的存储方式;数据备份规划单元用于依据分析结果将部分数据进行备份处理。
预存测试模块包括故障检测分析单元、集群脱离预警单元、存储对象选择单元和二次分块存储单元,故障检测分析单元用于测试数据存储情况,在数据预存储过程中对存储节点进行实时故障检测;集群脱离预警单元用于在存储节点脱离集群时进行预警;存储对象选择单元用于统计存储节点在测试过程中脱离集群的次数、以及历史故障次数,并依据在测试过程中的调用信息分析待存储数据的重要程度;二次分块存储单元用于对待存储数据进行重新分块并存储到对应节点中。
一种基于计算机系统的大数据分析存储方法,其特征在于:包括以下步骤
S1:采集数据调用信息和存储节点故障信息;
S2:分析数据调用信息和故障信息,将待存储数据进行分块处理;
S3:分析分块后数据的调用信息,选择不同的存储方式;
S4:对部分待存储数据进行备份处理;
S5:测试分块后数据存储情况,规划数据存储对象,将数据重新分块后进行存储。
在步骤S1-S2中:采集到不同待存储数据历史被调用的次数集合为M={M1,M2,...,Mn},其中,依据调用次数的不同共分为n种待存储数据,在对应数据被调用过程中出现信息丢失的次数集合为N={N1,N2,...,Nn},在出现信息丢失后对应数据被调用的次数集合为N’={N1’,N2’,...,Nn’},信息丢失前后被调用数据的关联系数集合为sim={sim1,sim2,...,simn},采集到当前已有的存储节点历史发生故障次数集合为m={m1,m2,...,mp},对应存储节点发生故障时修复需要的平均时间集合为T={T1,T2,...,Tp},其中,p表示除存储元数据的主节点外的存储节点数量,根据下列公式计算随机一种待存储数据的重要系数Wi:
Figure BDA0003606063210000071
其中,Mi表示随机一种待存储数据历史被调用的次数,Ni表示随机一种待存储数据在被调用过程中信息丢失的次数,Ni’表示对应信息丢失后对应数据被调用的次数,simi表示在信息丢失前后随机一种待存储数据中被调用的数据的关联系数,得到待存储数据的重要系数集合为W={W1,W2,...,Wn},将待存储数据进行分块处理:分为k块,随机选取k种数据,k种数据的重要系数集合为w={w1,w2,...,wj,...,wk},其中,
Figure BDA0003606063210000072
根据下列公式判断随机一种待存储数据的所属块:
Figure BDA0003606063210000073
其中,Ai表示k个分块中数据重要系数与随机一种待存储数据的重要系数差值最小的块,Ai的值是w中的一个,将Ai的值与w中的元素进行匹配,得到与Ai的值相等的重要系数为wj,将对应待存储数据归为第j块,减少了数据服务间的链路,在实现数据分散存储、减轻空间存储压力的同时,有效减轻了故障时的排查难度。
在步骤S3-S4中:分析分块后数据的调用信息:获取到将数据分为k块进行存储后,随机一块数据被单独调用的次数为Ei,被同时调用的次数为Fi,根据公式
Figure BDA0003606063210000074
选择k块待存储数据的存储方式:若Pi>1,将对应块数据进行单独存储;若Pi≤1,将对应块数据与和对应数据被同时调用的数据进行集中存储,对部分待存储数据进行备份处理:比较n种待存储数据的重要系数,将重要系数大于
Figure BDA0003606063210000075
的数据进行备份处理。
在步骤S5中:测试数据存储情况:在数据预存储过程中对存储节点进行实时故障检测,在检测到存储节点无响应时,判断对应存储节点脱离集群,发送预警信号,同时统计到存储节点在测试过程中脱离集群的次数集合为L={L1,L2,...,Lp},记录到在测试过程中存储节点的被访问次数集合为Q={Q1,Q2,...,Qp},根据下列公式计算当前已有的随机一个存储节点的存储可靠系数Ki:
Figure BDA0003606063210000081
其中,mi表示对应存储节点历史发生故障的次数,Li表示对应存储节点在测试过程中脱离集群的次数,Ti表示对应存储节点发生故障时修复需要的平均时间,Qi表示在测试过程中对应存储节点被访问的次数,得到可靠系数集合为K={K1,K2,...,Kp},为对应数据选择了合适的存储对象,提高数据存储的可靠性,为数据分块后的调用提供了便利。
规划数据存储对象:将数据重新分块:获取到进行单独存储的数据的重要系数集合为w’={w1’,w2’,...,we’},其中,
Figure BDA0003606063210000082
集中存储到同一位置的数据的平均重要系数集合为w={w集1,w集2,...,w集q},其中,e表示单独存储的数据块数,q表示集中存储的数据块数,比较数据的重要系数:将最大系数对应的数据存储到最可靠的存储节点中,最大系数为wmax,最大可靠系数为Kmax,将存储节点按可靠系数从大到小排列,剩余数据依据重要系数从大到小依次存储到存储节点中,将数据的重要系数和存储节点的可靠系数进行匹配,将重要的数据存储到可靠的存储节点中,降低了数据丢失的概率。
实施例一:采集到不同待存储数据历史被调用的次数集合为M={M1,M2,M3,M4,M5}={20,10,15,2,6},在对应数据被调用过程中出现信息丢失的次数集合为N={N1,N2,N3,N4,N5}={1,5,2,1,3},在出现信息丢失后对应数据被调用的次数集合为N’={N1’,N2’,N3’,N4’,N5’}={2,3,1,0,1},信息丢失前后被调用数据的关联系数集合为sim={sim1,sim2,sim3,sim4,sim5}={0.9,0.8,0.5,0.6,0.1},根据公式
Figure BDA0003606063210000083
得到待存储数据的重要系数集合为W={W1,W2,W3,W4,W5}={2.18,0.67,0.53,0.04,0.15},将待存储数据进行分块处理:分为3块,随机选取3种数据,3种数据的重要系数集合为w={w1,w2,w3}={0.67,0.53,0.15},根据公式
Figure BDA0003606063210000084
判断随机一种待存储数据的所属块:得到A1的值为:0.67=w1,将W1对应的数据归为第1块中,A4的值为:0.15=w3,将W4对应的数据归为第3块中;
实施例二:获取到将数据分为3块进行存储后,数据被单独调用的次数分别为E={1,0,2},被同时调用的次数为F={2,3,1},根据公式
Figure BDA0003606063210000085
待存储数据的存储方式:P1<1,P2<1,P3>1,将第3块数据进行单独存储,将第1、第2块数据进行集中存储,测试数据存储情况:采集到当前已有的存储节点历史发生故障次数集合为m={m1,m2,m3}={10,5,6},对应存储节点发生故障时修复需要的平均时间集合为T={T1,T2,T3}={20,15,30},单位为:分钟,统计到存储节点在测试过程中脱离集群的次数集合为L={L1,L2,L3}={2,3,1},记录到在测试过程中存储节点的被访问次数集合为Q={Q1,Q2,Q3}={10,6,1},根据公式
Figure BDA0003606063210000091
得到当前已有存储节点的可靠系数集合为K={K1,K2,K3}={1.6,1.7,1.3},将数据重新分块:获取到进行单独存储的数据的重要系数为0.15,集中存储到同一位置的数据的平均重要系数为:0.6,比较数据的重要系数:将0.6对应的数据存储到第2个存储节点中,将0.15对应的数据存储到第1个存储节点中。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于计算机系统的大数据分析存储系统,其特征在于:所述系统包括:数据采集模块、数据管理中心、存储数据分析模块、数据存储规划模块和预存测试模块;
所述数据采集模块用于采集待存储数据的历史调用信息和存储节点的故障信息;
所述数据管理中心用于存储并管理所述数据采集模块采集到的所有信息;
所述存储数据分析模块用于分析调用信息和故障信息并将数据进行分块;
所述数据存储规划模块用于选择存储方式并对部分数据进行备份处理;
所述预存测试模块用于测试数据存储情况,规划数据存储位置。
2.根据权利要求1所述的一种基于计算机系统的大数据分析存储系统,其特征在于:所述数据采集模块包括数据调用采集单元和故障信息采集单元,所述数据调用采集单元用于采集待存储数据的历史调用次数和调用所需时间信息;所述故障信息采集单元用于采集当前已有的存储节点的历史发生故障的次数以及故障影响范围信息,将采集到的所有数据传输到所述数据管理中心中。
3.根据权利要求1所述的一种基于计算机系统的大数据分析存储系统,其特征在于:所述存储数据分析模块包括存储数据排布单元和排查难度分析单元,所述存储数据排布单元用于调取并分析待存储数据的历史调用信息,将待存储数据进行分块;所述排查难度分析单元用于若分块后的数据存储到对应节点中,分析在不同存储节点发生故障时排查故障原因的困难程度。
4.根据权利要求1所述的一种基于计算机系统的大数据分析存储系统,其特征在于:所述数据存储规划模块包括调用分析单元、存储方式选择单元和数据备份规划单元,所述调用分析单元用于分析分块后待存储数据的调用频繁程度和历史调用时的信息丢失情况,得到分析结果;所述存储方式选择单元用于依据分析结果为待存储数据选择不同的存储方式;所述数据备份规划单元用于依据分析结果将部分数据进行备份处理。
5.根据权利要求1所述的一种基于计算机系统的大数据分析存储系统,其特征在于:所述预存测试模块包括故障检测分析单元、集群脱离预警单元、存储对象选择单元和二次分块存储单元,所述故障检测分析单元用于测试数据存储情况,在数据预存储过程中对存储节点进行实时故障检测;所述集群脱离预警单元用于在存储节点脱离集群时进行预警;所述存储对象选择单元用于统计存储节点在测试过程中脱离集群的次数、以及历史故障次数,并依据在测试过程中的调用信息分析待存储数据的重要程度;所述二次分块存储单元用于对待存储数据进行重新分块并存储到对应节点中。
6.一种基于计算机系统的大数据分析存储方法,其特征在于:包括以下步骤:
S1:采集数据调用信息和存储节点故障信息;
S2:分析数据调用信息和故障信息,将待存储数据进行分块处理;
S3:分析分块后数据的调用信息,选择不同的存储方式;
S4:对部分待存储数据进行备份处理;
S5:测试分块后数据存储情况,规划数据存储对象,将数据重新分块后进行存储。
7.根据权利要求6所述的一种基于计算机系统的大数据分析存储方法,其特征在于:在步骤S1-S2中:采集到不同待存储数据历史被调用的次数集合为M={M1,M2,...,Mn},其中,依据调用次数的不同共分为n种待存储数据,在对应数据被调用过程中出现信息丢失的次数集合为N={N1,N2,...,Nn},在出现信息丢失后对应数据被调用的次数集合为N’={N1’,N2’,...,Nn’},信息丢失前后被调用数据的关联系数集合为sim={sim1,sim2,...,simn},采集到当前已有的存储节点历史发生故障次数集合为m={m1,m2,...,mp},存储节点发生故障时修复需要的平均时间集合为T={T1,T2,...,Tp},其中,p表示存储节点数量,根据下列公式计算随机一种待存储数据的重要系数Wi:
Figure FDA0003606063200000021
其中,Mi表示随机一种待存储数据历史被调用的次数,Ni表示随机一种待存储数据在被调用过程中信息丢失的次数,Ni’表示对应信息丢失后对应数据被调用的次数,simi表示在信息丢失前后随机一种待存储数据中被调用的数据的关联系数,得到待存储数据的重要系数集合为W={W1,W2,...,Wn},将待存储数据进行分块处理:分为k块,随机选取k种数据,k种数据的重要系数集合为w={w1,w2,...,wj,...,wk},其中,
Figure FDA0003606063200000022
根据下列公式判断随机一种待存储数据的所属块:
Figure FDA0003606063200000023
其中,Ai表示k个分块中数据重要系数与随机一种待存储数据的重要系数差值最小的块,Ai的值是w中的一个,将Ai的值与w中的元素进行匹配,得到与Ai的值相等的重要系数为wj,将对应待存储数据归为第j块。
8.根据权利要求6所述的一种基于计算机系统的大数据分析存储方法,其特征在于:在步骤S3-S4中:分析分块后数据的调用信息:获取到将数据分为k块进行存储后,随机一块数据被单独调用的次数为Ei,被同时调用的次数为Fi,根据公式
Figure FDA0003606063200000031
选择k块待存储数据的存储方式:若Pi>1,将对应块数据进行单独存储;若Pi≤1,将对应块数据与和对应数据被同时调用的数据进行集中存储,对部分待存储数据进行备份处理:比较n种待存储数据的重要系数,将重要系数大于
Figure FDA0003606063200000032
的数据进行备份处理。
9.根据权利要求6所述的一种基于计算机系统的大数据分析存储方法,其特征在于:在步骤S5中:测试数据存储情况:在数据预存储过程中对存储节点进行实时故障检测,在检测到存储节点无响应时,判断对应存储节点脱离集群,发送预警信号,同时统计到存储节点在测试过程中脱离集群的次数集合为L={L1,L2,...,Lp},记录到在测试过程中存储节点的被访问次数集合为Q={Q1,Q2,...,Qp},根据下列公式计算当前已有的随机一个存储节点的存储可靠系数Ki:
Figure FDA0003606063200000033
其中,mi表示对应存储节点历史发生故障的次数,Li表示对应存储节点在测试过程中脱离集群的次数,Ti表示对应存储节点发生故障时修复需要的平均时间,Qi表示在测试过程中对应存储节点被访问的次数,得到可靠系数集合为K={K1,K2,...,Kp}。
10.根据权利要求8或9所述的一种基于计算机系统的大数据分析存储方法,其特征在于:规划数据存储对象:将数据重新分块:获取到进行单独存储的数据的重要系数集合为w’={w1’,w2’,...,we’},其中,
Figure FDA0003606063200000034
集中存储到同一位置的数据的平均重要系数集合为w={w集1,w集2,...,w集q},其中,e表示单独存储的数据块数,q表示集中存储的数据块数,比较数据的重要系数:将最大系数对应的数据存储到最可靠的存储节点中,最大系数为wmax,最大可靠系数为Kmax,将存储节点按可靠系数从大到小排列,剩余数据依据重要系数从大到小依次存储到存储节点中。
CN202210418868.8A 2022-04-20 2022-04-20 一种基于计算机系统的大数据分析存储系统及方法 Active CN114675789B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210418868.8A CN114675789B (zh) 2022-04-20 2022-04-20 一种基于计算机系统的大数据分析存储系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210418868.8A CN114675789B (zh) 2022-04-20 2022-04-20 一种基于计算机系统的大数据分析存储系统及方法

Publications (2)

Publication Number Publication Date
CN114675789A true CN114675789A (zh) 2022-06-28
CN114675789B CN114675789B (zh) 2023-06-16

Family

ID=82078577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210418868.8A Active CN114675789B (zh) 2022-04-20 2022-04-20 一种基于计算机系统的大数据分析存储系统及方法

Country Status (1)

Country Link
CN (1) CN114675789B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116451884A (zh) * 2023-06-19 2023-07-18 艾肯(江苏)工业技术有限公司 一种基于废水处理数据的水质环境检测系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1675007A1 (en) * 2004-12-27 2006-06-28 Hitachi, Ltd. Fault management system in multistage copy configuration
CN106230982A (zh) * 2016-09-08 2016-12-14 哈尔滨工程大学 一种考虑节点可靠性的动态自适应安全云存储方法
CN111428266A (zh) * 2019-09-05 2020-07-17 广州知弘科技有限公司 基于大数据的存储节点空间容量和安全性评估方法
CN112783445A (zh) * 2020-11-17 2021-05-11 北京旷视科技有限公司 数据存储方法、装置、系统、电子设备及可读存储介质
CN114356576A (zh) * 2022-01-07 2022-04-15 泉州市豪创信息技术有限公司 一种基于大数据的云服务分析管理系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1675007A1 (en) * 2004-12-27 2006-06-28 Hitachi, Ltd. Fault management system in multistage copy configuration
CN106230982A (zh) * 2016-09-08 2016-12-14 哈尔滨工程大学 一种考虑节点可靠性的动态自适应安全云存储方法
CN111428266A (zh) * 2019-09-05 2020-07-17 广州知弘科技有限公司 基于大数据的存储节点空间容量和安全性评估方法
CN112783445A (zh) * 2020-11-17 2021-05-11 北京旷视科技有限公司 数据存储方法、装置、系统、电子设备及可读存储介质
CN114356576A (zh) * 2022-01-07 2022-04-15 泉州市豪创信息技术有限公司 一种基于大数据的云服务分析管理系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116451884A (zh) * 2023-06-19 2023-07-18 艾肯(江苏)工业技术有限公司 一种基于废水处理数据的水质环境检测系统及方法
CN116451884B (zh) * 2023-06-19 2023-09-05 艾肯(江苏)工业技术有限公司 一种基于废水处理数据的水质环境检测系统及方法

Also Published As

Publication number Publication date
CN114675789B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
US6353902B1 (en) Network fault prediction and proactive maintenance system
US7165190B1 (en) Method and mechanism for managing traces within a computer system
CN110704231A (zh) 一种故障处理方法及装置
US7647326B2 (en) Method and system for evaluating media-playing sets
CN101997709B (zh) 一种根告警数据分析的方法及其系统
CN105095052B (zh) Soa环境下的故障检测方法及装置
CN113497726B (zh) 告警监控方法、系统、计算机可读存储介质及电子设备
US20100205483A1 (en) Operation management apparatus and method thereof
EP3663919B1 (en) System and method of automated fault correction in a network environment
CN105917625A (zh) 使用附加数据的检测到的网络异常的分类
CN105610648A (zh) 一种运维监控数据的采集方法及服务器
CN111722952A (zh) 业务系统的故障分析方法、系统、设备和存储介质
CN101135715A (zh) 一种北向接口数据完整性的检验方法
CN102055604A (zh) 一种故障定位方法及其系统
CN111756560A (zh) 一种数据处理方法、装置及存储介质
US20130173959A1 (en) Home/building fault analysis system using resource connection map log and method thereof
CN114675789A (zh) 一种基于计算机系统的大数据分析存储系统及方法
CN115038088B (zh) 一种智能网络安全检测预警系统和方法
US20210359899A1 (en) Managing Event Data in a Network
CN109726091A (zh) 一种日志管理方法及相关装置
CN110555452A (zh) 一种基于智能聚类的网络问题处理方法及装置
CN113497725A (zh) 告警监控方法、系统、计算机可读存储介质及电子设备
CN105335266B (zh) 用于确定被检测设备的故障的方法
CN112965990A (zh) 低压联络柜故障解决方案生成方法、装置
EP1545054A1 (en) System and method for selecting measurements of a communication network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230526

Address after: 518100 2nd and 4th floors of Building 2, Yiwang Science and Technology Park, Keji 1st Road, Tangtou Community, Shiyan Street, Bao'an District, Shenzhen, Guangdong Province

Applicant after: Shenzhen Youfang Information Technology Co.,Ltd.

Address before: 250000 social organization innovation park, No. 6086, 2nd Ring South Road, Shizhong District, Jinan City, Shandong Province

Applicant before: Guoyun information technology (Jinan) Co.,Ltd.

GR01 Patent grant
GR01 Patent grant