CN111913852B - 存储系统的健康管理方法和装置 - Google Patents

存储系统的健康管理方法和装置 Download PDF

Info

Publication number
CN111913852B
CN111913852B CN202010804341.XA CN202010804341A CN111913852B CN 111913852 B CN111913852 B CN 111913852B CN 202010804341 A CN202010804341 A CN 202010804341A CN 111913852 B CN111913852 B CN 111913852B
Authority
CN
China
Prior art keywords
indexes
storage system
index
attribute value
performance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010804341.XA
Other languages
English (en)
Other versions
CN111913852A (zh
Inventor
姜旭
黄颢
郑彩平
刘成科
宋弘毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202010804341.XA priority Critical patent/CN111913852B/zh
Publication of CN111913852A publication Critical patent/CN111913852A/zh
Application granted granted Critical
Publication of CN111913852B publication Critical patent/CN111913852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3433Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment for load management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/875Monitoring of systems including the internet
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

根据本发明的实施例提供一种可用于金融领域或其他领域的存储系统的健康管理方法和装置,该方法包括:获取M个第一指标;根据M个第一指标的标准差获得存储系统的第一属性值;根据每个第一指标与标准指标的偏离程度获得M个第二指标,并对M个第二指标加权获得存储系统的第二属性值;对第一属性值和第二属性值加权获得存储系统的健康度。根据本发明实施例的存储系统健康管理方法和装置能够对存储系统的健康程度给出更加全面的、定量的判断。

Description

存储系统的健康管理方法和装置
技术领域
本发明涉及金融技术领域,特别涉及一种存储系统的健康管理办法和装置。
背景技术
随着网络技术的不断发展,分布式存储系统的应用也越来越广泛,对于分布式存储系统的健康运行也提出了更高的要求,具体而言,需要系统中的各种资源均能够的到充分的利用,并且使得整个系统拥有较好的性能。
现有技术中针对分布式存储系统的健康检测却往往局限在定性分析的层面,例如系统中的软硬件运行是否正常,难以对系统中的资源消耗进行整体的、定量的评估,该健康检测的结果也只能够应用于判断系统是否正常运行而无法用于对分配至存储系统的任务进行调整来使得系统中的各资源得到更充分的利用或使得系统拥有更好的性能。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的可用于金融领域或其他领域的存储系统的健康管理方法和装置。
根据本发明的一个方面,提供一种存储系统的健康管理方法,包括:获取M个第一指标,所述M个第一指标分别用于评价存储系统的M种资源的使用情况,所述存储系统包括N个存储节点,M和N为大于1的整数;根据所述M个第一指标的标准差获得所述存储系统的第一属性值;根据每个所述第一指标与标准指标的偏离程度获得M个第二指标,并对所述M个第二指标加权获得所述存储系统的第二属性值,其中所述标准指标是所述资源的使用情况期望值;对所述第一属性值和所述第二属性值加权获得所述存储系统的健康度。
可选地,分别对所述第一属性值和所述第二属性值进行加权以获得所述健康度时,对所述第一属性值进行加权使用的第一权重大于对所述第二属性值进行加权使用的第二权重。
可选地,所述方法还包括在确定所述健康度小于等于第一预设阈值时,根据预设规则调整所述存储系统的任务结构,直到确定所述健康度大于第一预设阈值,其中所述预设规则包括:使调整所述任务结构后的所述M个第一指标或所述M个第二指标与所述标准指标之间的差值减小。
可选地,所述预先获取所述存储系统的性能指标与所述M个第一指标或所述M个第二指标的拟合曲线包括:配置X种任务结构,其中,所述X为大于1的整数,所述X种任务结构具有不同的运行指标;分别将每种所述任务结构分配至所述存储系统并进行性能测试,获取每种所述任务结构对应的所述性能指标,以及所述M个第一指标或所述M个第二指标;获取所述性能指标与所述M个第一指标或所述M个第二指标的拟合曲线。
可选地,所述方法还包括:每间隔预定时间获取所述存储系统的所述性能指标;在所述性能指标小于等于第二预设阈值时,判断所述性能指标与所述拟合曲线的偏离程度;在所述偏离程度小于等于第三预设阈值时,根据所述预定规则调整所述任务结构;在所述偏离程度大于第三预设阈值时,排查所述存储系统的所述N个存储节点。
根据本发明的另一方面,提供一种存储系统的健康管理装置,包括:获取模块,用于获取M个第一指标,所述M个第一指标分别用于评价存储系统的M种资源的使用情况,所述存储系统包括N个存储节点,M和N为大于1的整数;健康评价模块,包括:第一评价单元,用于根据所述M个第一指标的标准差获得第一属性值;第二评价单元,用于根据每个所述第一指标与标准指标的偏离程度获得M个第二指标,并对所述M个第二指标加权获得第二属性值,其中所述标准指标是所述资源的使用情况期望值;第三评价单元,用于对所述第一属性值和所述第二属性值加权获得所述存储系统的健康度。
据本发明的再一方面,提供一种计算设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据如上任一所述的方法。
根据本发明的再一方面,提供一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据如上任一所述的方法。
根据本发明实施例的存储系统的健康管理方法和装置能够对存储系统的健康程度给出更加全面的、定量的判断。
附图说明
图1为根据本发明的一种实施例的健康管理方法示意图;
图2为根据本发明的实施例的健康度小于等于阈值的调整方法示意图;
图3为根据本发明的实施例的拟合曲线获取方法示意图;
图4为根据本发明实施例的性能指标小于等于阈值的调整方法示意图;
图5为根据本发明实施例的健康管理装置示意图;
图6为根据本发明实施例的健康管理装置使用场景示意图;
图7为根据本发明实施例的计算设备示意图;
图8为根据本发明实施例的计算机可读存储介质示意图。
具体实施方式
下面结合附图,对本发明的实施例进行详细地说明。另外,在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本披露实施例的全面理解。然而明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。
需要注意的是,本发明实施例的存储系统的健康管理方法可用于金融领域的分布式存储系统,也可以用于除金融领域外的任意领域,对于本发明实施例的方法和装置的应用领域不做限定。
根据本发明的实施例首先提供一种存储系统的健康管理方法,参照图1,包括:
步骤S102:获取M个第一指标;
步骤S104:根据所述M个第一指标的标准差获得所述存储系统的第一属性值;
步骤S106:根据每个所述第一指标与标准指标的偏离程度获得M个第二指标,并对所述M个第二指标加权获得所述存储系统的第二属性值;
步骤S108:对所述第一属性值和所述第二属性值加权获得所述存储系统的健康度。
在步骤S102中,所述存储系统为生产环境中的存储系统,所述的M个第一指标分别用于评价M种资源的消耗情况,分布式的存储系统中常见的资源包括但不限于:CPU(中央处理器)内存、网络带宽、磁盘IO(输入和输出)、内存等,每个第一指标对应存储系统的一种资源,可以理解的,根据实际应用的需求,本领域技术人员可以自行选择纳入考虑范围的资源的数量,在此不做具体的限定。
进一步的,每个第一指标都是来自于分布式存储系统中的N个存储节点的,也就是说,基于该分布式存储系统中的所有存储节点中的某种资源的使用情况,来获得针对该种资源的一个第一指标,例如某分布式存储系统中存在20个存储节点,针对这20个存储节点的某一资源,例如网络带宽的使用情况,来获得一个第一指标,从而该第一指标代表了该健康系统中某种资源的总体消耗情况。
可以理解的,获得第一指标的具体方法中,可以使用现有技术中常用的iostat、free、dstat等命令来收集每个存储节点的某种资源使用情况,将所有存储节点的该资源使用情况收集完毕后进行运算获得第一指标,上述的运算可以是任何能够合理的反映出存储系统中资源消耗总情况的运算方法,例如将每个存储节点的资源使用情况以百分比来表示,第一指标可以取其平均值,或加权平均值,又例如将每个存储节点的资源使用情况进行量化标识,从而获得整个存储系统中总的资源数以及已经利用的资源数,然后再计算百分比等等,具体的运算方法在此不做限定。本领域技术人员还可以使用其他的方法来获得第一指标,例如通过辅助装置一键获取整个存储系统的各资源使用情况等等,具体的第一指标获取方法在这里也不做限定。
在步骤S104中,根据所述M个第一指标的标准差获得所述存储系统的第一属性值,结合上述内容可以理解,M个第一指标分别表示了存储系统中M种资源的消耗情况,标准差计算是用于反映数据集的离散程度的计算,因此通过对M个第一指标进行标准差的计算后,所获的的第一属性值,可以用来表示系统中各个资源使用情况是否均衡。
以CPU资源、磁盘IO资源、内存资源和网络带宽资源4种资源为例,首先获取到4个第一指标x1、x2、x3、x4,然后计算4个第一指标的标准差,在一些实施方式中,为了能够在后续过程中更好的与其他指标进行预算,可以在传统标准差公式的基础上再进行一些其他运算,例如使用下(1)式来进行标准差计算:
可以理解的,上式中的后半部分为传统标准差公式,其中x为平均值。
在步骤S106中,根据每个所述第一指标与标准指标的偏离程度获得M个第二指标,并对所述M个第二指标加权获得所述存储系统的第二属性值。其中标准指标是指资源使用情况的期望值,具体而言,对于分布式存储系统来说,每种资源消耗较为均衡并且都处在较为合适的范围,例如65%~85%,是比较健康稳定的运行状态,因为这意味着系统中并不会有过多的空闲,又不会出现资源瓶颈的现象,因此,本领域技术人员可以结合实际情况在该范围或其他合适的范围中选择一个期望的标准指标,可以理解的,标准指标和第一指标应当使用同一中数据形式,但是具体选用什么数据形式可以由本领域技术人员自行确定,下面以第一指标采用百分比的形式,标准指标为75%为例进行具体的说明。
同样的,计算第一指标与标准指标的偏离程度的方法可以选择传统的偏离度计算方法,也可以选择在传统的偏离度计算公式基础上增加其他的运算,例如采用下述(2)式来进行偏离程度的计算
进一步的,仍以4种资源为例,则对4个第一指标x1、x2、x3、x4进行计算后,将会得到4个第二指标U(x1)、U(x2)、U(x3)和U(x4),然后对4个第二指标进行加权计算后,得到第二属性值,可以理解的,由于第一指标代表着资源的消耗情况,而第二指标代表着第一指标与标准指标的偏离程度,也就是说第二指标是以标准指标为参照的资源消耗情况,因此对4个第二指标进行加权计算后的第二属性值能够在整体上反应存储系统中所有资源的利用率。在对第二指标进行加权计算的时候,可以根据存储系统的实际情况,包括主要处理的任务类型、各种资源的配置情况等等,来进行权重的选择,在此不做具体的限定。
在步骤S108中,对第一属性值和第二属性值进行加权计算后获得存储系统的健康度,从而该健康度综合考虑了系统中各资源利用的均衡度,以及系统中总的资源利用率,获得了更全面的存储系统的健康信息并且能够定量的描述健康程度。
在一些实施方式中,当健康程度小于等于第一预设阈值时,将发出预警信息,根据该预警信息,本领域技术人员可以选择合适的处理方式来进行下一步的处理。
在一些实施方式中,可以设置成第一属性值的第一权重大于第二属性值的第二权重,从而在考虑健康度的时候更多的考虑资源分配是否均衡,同时也能够对下一步的调整给出更明确地指引。
在一些实施方式中,参照图2,当健康度小于等于第一预设阈值时,可以根据预设规则来对存储系统的任务结构进行调整,直到健康度达到阈值。
进一步的,在一些实施方式中,可以设置成每间隔一定的时间就获取一次健康度,当健康度正常时,则结束,当健康度小于等于第一预设阈值时,按照预设规则调整任务结构后再次获取健康度并进行判断,当健康度正常后结束。
上述预设规则包括:使调整任务结构后的所述M个第一指标或与所述标准指标之间的差值减小,也就是说使得M个第一指标更加接近期望的值,结合前述内容中对于第一指标和标准指标的说明,可以理解,该预设规则实际上是通过调整任务结构来使得各种资源的利用率更加的均衡并且接近预期的指标。结合上述健康度的获取方式可以理解,第一属性值过低和第二属性值过低均会导致健康度小于等于阈值,而导致第一属性值过低的原因是第一指标的离散程度大,导致第二属性值过低的原因一个或多个第一指标小于等于标准指标过多,因此无论第一属性值还是第二属性值过低所导致的健康度评分过低,通过调整任务结构使得M个第一指标接近标准指标是一种提升健康度的有效方法。可以理解的,第一指标接近标准指标,如果按照上述2式的计算方法,意味着第二指标接近1,实际上不管采用何种偏离度的计算方法,第一指标和第二指标的变化都是呈现正相关或负相关,也就是说实际在调整的时候,本领域技术人员可以自行选择以第一指标的数值作为调整的参照还是以第二指标的数值作为调整的参照。
具体而言,仍以4种资源、第一指标以百分比形式、标准指标取75%为例,发现系统健康度小于等于阈值时,进一步获得此时的4个第一指标,x1=46%,x2=94%,x3=70%,x4=79%,可以直观地看出,其中x1和x2偏离标准指标较为严重,若x1代表CPU资源,x2代表带宽资源,则按照预定规则,应当将占用了带宽资源较多的任务移出本系统,并移入一些占用CPU资源较多的任务,从而使得x1和x2的数值更加的接近预期指标。进一步的,结合前述的调整方法,进行该调整时并不需要精确的获得需要移入哪些任务或移出哪些任务,因为大多数的任务都会占用多种资源,并且对于一个庞大的存储系统而言也很难计算需要移入和移出哪些任务才能够使得一个或多个第一指标接近标准指标,因此调整的时候只需要提供一种或几种任务选择的倾向,使用图2中的示出的流程进行动态的、持续的调整,直到健康度恢复正常。
在一些实施方式中,为了更好的进行任务结构的调整,以及使存储系统拥有更好的性能,可以预先获取存储系统的性能指标与M个第一指标或M个第二指标的拟合曲线。
可以理解的,尽管存储系统的M个第一指标都贴近标准指标意味着系统的运行状态较为健康,但这并不意味着存储系统处于最佳的性能状态,一方面,标准指标是在一个预期的范围内选择出来的一个指标,尽管其能够较为可观的反应健康度,但是并不意味着是最佳指标,另一方面,存储系统的性能与所有种类的资源都息息相关,但每种资源的最佳运行状态并不相同,难以用一个指标来进行统一,因此,为了能够在调整任务结构的时候也能够考虑到存储系统的性能,可以预先获取性能指标与各种资源之间的对应关系,也就是获得一条拟合曲线,这样的拟合曲线可以看作是该存储系统的一种相对固有的属性,也就是说保持该存储系统中的存储节点不变的情况下,也就是软件和硬件不变的情况下,该条拟合曲线将一直适用。
需要注意的是,这里的预先获取可以是在该存储系统投入到实际的生产应用前获取性能指标和各种资源消耗之间的对应关系,也就是在测试环境中进行。
由于拟合曲线的绘制需要进行多种任务结构的测试,也就是说需要经过多次读写等操作,将会对存储系统中一些存储节点的性能造成影响,因此在一些实施方式中,与预先获取还可以是在测试环境中搭建一个与实际生产环境中的存储系统完全相同的存储系统来进行测试并获得拟合曲线。
具体而言测试环境中的存储系统拥有与生产环境中的存储系统完全相同的硬件及软件配置,区别仅在与在测试环境中,存储系统用于接受测试,运行预先配置的多种任务结构获得多组数据,并绘制拟合曲线。结合前述内容,生产环境中的存储系统可以直接使用该测试环境中的存储系统的拟合曲线,从而对于生产环境中的存储系统而言,仅需要获取到当前的性能指标就可以与拟合曲线进行比对。
拟合曲线中,性能指标最高点所对应的M种资源的使用率可以看做是该存储系统的一种最高性能运行模式,可以理解的,这里也可以选择绘制性能指标与M个第一指标的拟合曲线,或者性能指标与M个第二指标的拟合曲线。
进一步的,在这些实施方式后中,预设规则还包括使调整所述任务结构后的所述M个第一指标或所述M个第二指标在所述拟合曲线上对应的所述性能指标高于调整前的所述性能指标。
也就是说,在向着贴近标准指标调整的大方向上,尽量使得调整还能够沿着拟合曲线上升的方向,也就是说尽量让存储系统获得更高的性能。本领域技术人员在进行调整的时候可以综合考虑两种方法,在一些情况下,也可以让获得更高的性能变得优先级更高一些,也就是说在进行资源调整的时候更多的参照拟合曲线的上升方向,本领域技术人员还可以使用其他合适的算法等将两种方法来进行综合的考虑后,形成更进一步的、综合了两种考虑的预设规则,也均属于本发明的涵盖范围。
在一些实施方式中,拟合曲线的获取方法可以包括:首先配置X种任务结构,其中,所述X为大于1的整数,所述X种任务结构具有不同的运行指标;
其次,分别将每种所述任务结构分配至所述存储系统或第二存储系统,获取每种所述任务结构对应的所述性能指标,以及所述M个第一指标或所述M个第二指标;
最后获取所述性能指标与所述M个第一指标或所述M个第二指标的拟合曲线。
具体而言,参照图3,首先进行X种任务结构的配置,这些任务结构彼此之间有着不同的运行指标,运行指标可以包括但不限于:颗粒度、读写方式、读写比例、队列深度、并发度等等,这些不同的任务结构输入到存储系统后,将会使得存储系统出现多种资源占用情况,通过这样的任务结构的配置,相当于为存储系统设置了多种使用场景,采集这些数据后,即可以获得M个第一指标或第二指标与性能指标的多组对应数据,来进行进一步的分析。
参照前述内容,这里的存储系统是投入实际生产前的该存储系统,第二存储系统拥有与该存储系统相同的N个存储节点,也就是指测试环境中搭建的与该存储系统完全相同的存储系统,优选地,将X种任务结构分配至第二存储系统来完成拟合曲线的绘制,从而避免存储系统的硬件消耗。
如图3中所示,每种任务机构输入到存储系统或第二存储系统后,都可以根据上述方法获得M个第一指标或第二指标,例如任务结构1对应第一指标1.1、2.1、3.1、...、m.1,进一步,获取此时的性能指标1,也就是说这M个第一指标是和性能指标对应的。获取性能指标的方法可以使用现有技术中常用的Vdbench或FIO,性能指标可以包括常用的集群性能参数,例如IOPS,Bandwidth,Latency等等,本领域技术人员可以根据实际情况自行选择,不再赘述。
通过上述方式获得了多组相互对应的数据后,即可以进行回归分析并获得拟合曲线,该方法中获得的这些数据间的对应关系是典型的多自变量、一因变量的数据,关于多自变量一因变量的回归分析本领域存在多种成熟的方法,在此不再赘述。
在一些实施例中,性能指标还可以作为一项评价指标来使用,换言之,在这些实施例中,性能指标不仅仅作为进行任务结构调整时的一项指标,还作为一项常规或半常规的健康评价指标来使用,即,作为与健康度并列的一项评价指标来使用,每间隔预定时间获取存储系统目前的性能指标,如果性能指标小于等于第二预设阈值,则发出预警信息。可以通过上述获取性能指标的方式来对性能指标进行获取,在此不再赘述。
在一些实施方式中,还可以在性能指标小于等于第二预设阈值时进行如下的调整,参照图4,获取到性能指标后,判断该性能指标是否达到阈值,如果未达到阈值,那么需要判断性能指标是否偏离了拟合曲线,具体而言,结合前述论述可以理解,拟合曲线是该存储系统的一种相对固有的属性,即如果该存储系统正常运行,那么各资源使用率与性能指标的对应关系应当大致如该曲线所示,也就是说如果获得了目前该系统的M个第一指标,那么在该曲线上有一个对应的性能指标,可以称之为预期性能指标,回到本步骤中,需要判断该性能指标与预期性能指标的偏差是否超过了第三预设阈值,如果偏差过大,也就意味着存储系统很可能不是正常运行状态,某个存储节点可能出现了故障,导致存储系统没能够达到该资源应用率下应该达到的性能,这时候需要对存储节点进行排查,具体的排查方法可以参照现有技术中的分布式存储系统中各节点的健康检测方法,在此不再赘述。
如果性能指标没有偏离拟合曲线,那就意味着性能指标低是因为资源分配不够合理,因此可以参照上述预设规则,沿着拟合曲线上升的方向来进行,同时考虑资源的均衡度。
可以理解的,如果将性能指标的第二预设阈值设置在一个相对较低的数值,也就是说对系统的性能指标要求较低,那么实际上当系统的健康度正常时,往往性能指标也是相对正常的,因为尽管性能指标处于最佳状态时,各种资源的使用度不尽相同,但是当各种资源都相对均衡的被利用时,相当于各种硬件都处于一个相对正常的使用模式,性能指标是不会过低的,也就是说健康度正常,性能指标也就处在可接受的范围。这时候可以将性能指标当做一种硬件故障的检测手段,也就是说将性能指标的测试频率降低,日常使用中主要通过健康度来进行健康管理。当然的,本领域技术人员也可以选择将性能指标设置在一个较高的数值,并且提升性能指标的检查频率,从而使得存储系统保持更加优秀的性能。
根据本发明的实施例还提供一种健康管理装置100,参照图5,包括:
获取模块10,用于获取M个第一指标,所述M个第一指标分别用于评价存储系统的M种资源的使用情况,其中每个所述第一指标来自所述存储系统中的N个存储节点,M和N为大于1的整数;
健康评价模块20,包括:
第一评价单元21,用于根据所述M个第一指标的标准差获得第一属性值;
第二评价单元22,用于根据每个所述第一指标与标准指标的偏离程度获得M个第二指标,并对所述M个第二指标加权获得第二属性值,其中所述标准指标是所述资源的使用情况期望值;
第三评价单元23,用于对所述第一属性值和所述第二属性值加权获得所述存储系统的健康度。
在一些实施方式中,所述存储系统健康管理装置100还包括:第一调整模块30,用于在所述健康度小于等于第一预设阈值时,根据预设规则调整所述存储系统的任务结构,并调用所述评价模块评价所述存储系统,直到所述健康度达到第一预设阈值,其中所述预设规则包括:使所述M个第一指标接近所述标准指标。
在一些实施方式中,所述存储系统健康管理装置100还包括性能模块40,用于预先获取所述存储系统的性能指标与所述M个第一指标或所述M个第二指标的拟合曲线;所述预设规则还包括:使所述M个第一指标或所述M个第二指标在所述拟合曲线上对应的所述性能指标接近期望值。
在一些实施方式中,性能模块40可以从其他装置中获取预先绘制好的拟合曲线。
在一些实施方式中,性能模块40还包括:配置单元41,用于配置X种任务结构,其中,所述X为大于1的整数,所述X种任务结构具有不同的运行指标;测试单元42,用于分别将每种所述任务结构分配至所述存储系统并进行性能测试,获取每种所述任务结构对应的所述性能指标,以及所述M个第一指标或所述M个第二指标;拟合单元43,用于获取所述性能指标与所述M个第一指标或所述M个第二指标的拟合曲线。
在一些实施方式中,所述健康管理装置100还包括监测模块50,用于每间隔预定时间获取所述存储系统的所述性能指标,在所述性能指标小于等于阈值时发出预警信息。
在一些实施方式中,所述健康管理装置100还包括第二调整模块60,用于在所述性能指标小于等于第二预设阈值时,判断所述性能指标与所述拟合曲线的偏离程度;并且在所述偏离程度未超过第三预设阈值时,根据所述预定规则调整所述任务结构;在所述偏离程度超过第三预设阈值时,排查所述存储系统的所述N个存储节点。
针对健康管理装置100中各模块与单元的具体实施方式参照上述健康管理方法,在此不再赘述。
根据本发明实施例的健康管理装置100的部分使用场景可以参照图6,处于云环境下的分布式存储系统拥有多个存储节点,可以将多个存储节点中的一个设置为管理节点,也可以选择将一个或多个智能终端接入云端,成为管理节点,智能终端可以是手机、电脑、平板等一切有能力运行该装置的设备,管理节点可以使用上述健康管理装置100来进行存储系统的健康管理,并在需要进行任务调整的时候,向云端发送指令,来变更分配到该存储系统的任务以及将该存储系统中的部分任务移出,被移出的任务可以由管理节点或云端上的其他服务器移动到其他的存储网络中。可以理解的,可以仅在管理节点上安装健康管理装置100,通过调用其他的装置来获得存储节点的资源信息等,也可以在每个存储节点上都安装管理装置100,或安装管理装置100的部分模块以配合管理节点,本领域技术人员可以根据实际情况进行相应的拓展,在此不再赘述。
根据本发明的实施例还提供一种计算设备,参照图7,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行上述任一所述的存储系统健康管理方法。
根据本发明的实施例还提供一种计算机可读存储介质,参照图8,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据上述任一所述的存储系统健康管理方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”、“第三”等仅用于描述目的,用于区别不同的特征,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或者更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,″计算机可读介质″可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (9)

1.一种存储系统的健康管理方法,包括:
获取M个第一指标,所述M个第一指标分别用于评价存储系统的M种资源的使用情况,所述存储系统包括N个存储节点,M和N为大于1的整数;
根据所述M个第一指标的标准差获得所述存储系统的第一属性值;
根据每个所述第一指标与标准指标的偏离程度获得M个第二指标,并对所述M个第二指标加权获得所述存储系统的第二属性值,其中所述标准指标是所述资源的使用情况的期望值;
分别对所述第一属性值和所述第二属性值进行加权以获得所述存储系统的健康度。
2.根据权利要求1所述的方法,其中,分别对所述第一属性值和所述第二属性值进行加权以获得所述健康度时,对所述第一属性值进行加权使用的第一权重大于对所述第二属性值进行加权使用的第二权重。
3.根据权利要求1或2所述的方法,还包括:
在确定所述健康度小于等于第一预设阈值时,根据预设规则调整所述存储系统的任务结构,直到确定所述健康度大于所述第一预设阈值,其中
所述预设规则包括:使调整所述任务结构后的所述M个第一指标与所述标准指标之间的差值减小。
4.根据权利要求3所述的方法,还包括:
预先获取所述存储系统的性能指标与所述M个第一指标或所述M个第二指标的拟合曲线;
所述预设规则还包括:
使调整所述任务结构后的所述M个第一指标或所述M个第二指标在所述拟合曲线上对应的所述性能指标高于调整前的所述性能指标。
5.根据权利要求4所述的方法,其中,所述预先获取所述存储系统的性能指标与所述M个第一指标或所述M个第二指标的拟合曲线包括:
配置X种任务结构,其中,所述X为大于1的整数,所述X种任务结构具有不同的运行指标;
分别将每种所述任务结构分配至所述存储系统或者第二存储系统,获取每种所述任务结构对应的所述性能指标,以及所述M个第一指标或所述M个第二指标,其中所述第二存储系统包括与所述存储系统相同的N个存储节点;
获取所述性能指标与所述M个第一指标的拟合曲线或所述性能指标与所述M个第二指标的拟合曲线。
6.根据权利要求4所述的方法,还包括:
每间隔预定时间获取存储所述存储系统的所述性能指标;
在确定所述性能指标小于等于第二预设阈值时,判断所述性能指标与所述拟合曲线的偏离程度;
在确定所述偏离程度小于等于第三预设阈值时,根据所述预设规则调整所述任务结构;
在确定所述偏离程度大于第三预设阈值时,调整所述存储系统的所述N个存储节点,以使重新计算的偏离程度小于等于所述第三预设阈值。
7.一种存储系统的健康管理装置,包括:
获取模块,用于获取M个第一指标,所述M个第一指标分别用于评价存储系统的M种资源的使用情况,所述存储系统包括N个存储节点,M和N为大于1的整数;
健康评价模块,包括:
第一评价单元,用于根据所述M个第一指标的标准差获得第一属性值;
第二评价单元,用于根据每个所述第一指标与标准指标的偏离程度获得M个第二指标,并对所述M个第二指标加权获得第二属性值,其中所述标准指标是所述资源的使用情况的期望值;
第三评价单元,用于分别对所述第一属性值和所述第二属性值进行加权以获得所述存储系统的健康度小于等于。
8.一种计算设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~6中任一项所述的方法。
CN202010804341.XA 2020-08-11 2020-08-11 存储系统的健康管理方法和装置 Active CN111913852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010804341.XA CN111913852B (zh) 2020-08-11 2020-08-11 存储系统的健康管理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010804341.XA CN111913852B (zh) 2020-08-11 2020-08-11 存储系统的健康管理方法和装置

Publications (2)

Publication Number Publication Date
CN111913852A CN111913852A (zh) 2020-11-10
CN111913852B true CN111913852B (zh) 2023-08-22

Family

ID=73284181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010804341.XA Active CN111913852B (zh) 2020-08-11 2020-08-11 存储系统的健康管理方法和装置

Country Status (1)

Country Link
CN (1) CN111913852B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114442477B (zh) * 2022-04-11 2022-06-07 北京信云筑科技有限责任公司 基于物联网的设备健康管理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016180127A1 (zh) * 2015-09-16 2016-11-17 中兴通讯股份有限公司 一种网络性能的评估方法及系统
CN107992401A (zh) * 2017-11-29 2018-05-04 平安科技(深圳)有限公司 性能测试评价方法、装置、终端设备及存储介质
CA2983495A1 (en) * 2016-11-14 2018-05-14 Accenture Global Solutions Limited Improving performance of communication network based on end to end performance observation and evaluation
CN110101555A (zh) * 2019-06-04 2019-08-09 济南浪潮高新科技投资发展有限公司 一种基于室内定位的地铁盲道导航方法及系统
CN110121142A (zh) * 2019-03-25 2019-08-13 南京理工大学 一种基于Android平台的地铁导盲系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016180127A1 (zh) * 2015-09-16 2016-11-17 中兴通讯股份有限公司 一种网络性能的评估方法及系统
CA2983495A1 (en) * 2016-11-14 2018-05-14 Accenture Global Solutions Limited Improving performance of communication network based on end to end performance observation and evaluation
CN107992401A (zh) * 2017-11-29 2018-05-04 平安科技(深圳)有限公司 性能测试评价方法、装置、终端设备及存储介质
CN110121142A (zh) * 2019-03-25 2019-08-13 南京理工大学 一种基于Android平台的地铁导盲系统及方法
CN110101555A (zh) * 2019-06-04 2019-08-09 济南浪潮高新科技投资发展有限公司 一种基于室内定位的地铁盲道导航方法及系统

Also Published As

Publication number Publication date
CN111913852A (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN109586952B (zh) 服务器扩容方法、装置
CN109358816B (zh) 一种分布式存储系统的流控方法及装置
CN107656807B (zh) 一种虚拟资源的自动弹性伸缩方法及装置
CN110362402B (zh) 一种负载均衡方法、装置、设备及可读存储介质
WO2020093637A1 (zh) 设备状态预测方法、系统、计算机装置及存储介质
CN113485649B (zh) 数据存储方法、系统、装置、介质与电子设备
KR20200052403A (ko) 에지 컴퓨팅 기반 데이터 분석 시스템 및 그 방법
CN114500578A (zh) 分布式存储系统负载均衡调度方法、装置及存储介质
CN111913852B (zh) 存储系统的健康管理方法和装置
CN111562884A (zh) 一种数据存储方法、装置及电子设备
CN104679444A (zh) 虚拟化存储资源的动态调整方法与装置
CN109992408B (zh) 一种资源分配方法、装置、电子设备和存储介质
CN107562608B (zh) 资源指标重要度评估方法及装置
CN112367384A (zh) 基于Kafka集群的动态限速方法、装置以及计算机设备
CN112015326B (zh) 集群数据处理方法、装置、设备及存储介质
CN106686082B (zh) 存储资源调整方法及管理节点
CN114328078A (zh) 一种阈值动态计算方法、装置及计算机可读存储介质
CN111756798B (zh) 基于网关级联的服务调度方法、装置、设备和存储介质
CN113946493A (zh) 一种监控阈值确定及监控报警方法、装置、设备和介质
CN113364648A (zh) 流量控制方法、系统、装置、服务设备及存储介质
CN116057902A (zh) 服务的健康指数
CN116668379B (zh) 数据传输方法及系统、fds管理模块、存储介质及电子装置
US11558271B2 (en) System and method of comparing time periods before and after a network temporal event
CN114598705B (zh) 消息负载均衡方法、装置、设备和介质
JP7457169B2 (ja) データ解析方法、電子機器及び記憶媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant