CN111901399A - 云平台块设备异常审计方法、装置、设备及存储介质 - Google Patents

云平台块设备异常审计方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111901399A
CN111901399A CN202010661550.3A CN202010661550A CN111901399A CN 111901399 A CN111901399 A CN 111901399A CN 202010661550 A CN202010661550 A CN 202010661550A CN 111901399 A CN111901399 A CN 111901399A
Authority
CN
China
Prior art keywords
information
path
state
multipath
cloud platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010661550.3A
Other languages
English (en)
Other versions
CN111901399B (zh
Inventor
轩艳东
亓开元
马豹
张东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010661550.3A priority Critical patent/CN111901399B/zh
Publication of CN111901399A publication Critical patent/CN111901399A/zh
Priority to PCT/CN2021/077591 priority patent/WO2022007418A1/zh
Priority to US18/004,598 priority patent/US11782609B2/en
Application granted granted Critical
Publication of CN111901399B publication Critical patent/CN111901399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0617Improving the reliability of storage systems in relation to availability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0619Improving the reliability of storage systems in relation to data integrity, e.g. data losses, bit errors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0635Configuration or reconfiguration of storage systems by changing the path, e.g. traffic rerouting, path reconfiguration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0653Monitoring storage devices or systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了提供的云平台块设备异常审计方法,通过自动化审计path层、multipath层的异常数据,能快速的分析出主机上multipath、path信息的准确性、链路是否有故障,让运维人员尽早发现问题所在,简化问题排查的步骤,蚌珠运维人员从人工排查的复杂工作中解脱出来,提升云计算平台的故障排查能力,简化运维人员的工作量,使问题快速定位;同时在multipath业务运行过程中实现实时监测,在运行过程中一旦发生异常可以及时告知运维人员提早处理,防止对业务数据造成影响,从而进一步提高云平台业务系统稳定性。本申请还提供了一种云平台块设备异常审计装置、设备及一种可读存储介质,具有上述有益效果。

Description

云平台块设备异常审计方法、装置、设备及存储介质
技术领域
本申请涉及系统通信技术领域,特别涉及一种云平台块设备异常审计方法、装置、设备及一种可读存储介质。
背景技术
在基于SAN(Storage Area Network,存储区域网络)存储的分布式云平台上所运行的虚拟机中所使用的磁盘大部分都是通过scsi(一种数据链路协议,在本申请中指代SAN存储所依赖的FC、iSCSI协议)链路链接的外部存储所提供的磁盘,这其中牵涉到的层面有很多,包含虚拟机所在宿主机(本申请中指代云平台所运行虚拟机的物理节点)操作系统的块设备(本申请中指通过SAN接管过来的scsi块设备)管理层面、物理链路层面、存储层面等。
在多层次的块设备管理机制下,对磁盘的管理(包含磁盘创建、链接、扩容、删除等)操作在每个层面都可能会出现问题,而在出现问题后在各个层面均可能会残留数据及标志,这些残留数据及标志在很大程度上会影响后续磁盘的创建、挂载等操作。例如,如果在存储层残留数据及标志,那么将会造成存储资源浪费;若在宿主机侧残留标志位,将会进一步引起标志位冲突导致的数据不更新。而由于以上问题点所牵涉到的层面多、知识面广,各个层面数据量大,一般情况下运维人员很难预判确定问题所在,往往是再对业务造成影响后才去紧急处理问题,而且问题定位难度较高,处理问题往往需要具备专业知识的人员,浪费了问题处理的黄金时期、对业务影响比较大。
因此,如何提升云平台块设备异常检测速度以及定位精准度,保证系统运行的稳定性,是本领域技术人员急需解决的问题。
发明内容
本申请的目的是提供一种云平台块设备异常审计方法,该方法可以简化命令逻辑以及流程执行,保证存储设备的快速稳定运行;本申请的另一目的是提供一种云平台块设备异常审计装置、设备及一种可读存储介质。
为解决上述技术问题,本申请提供一种云平台块设备异常审计方法,包括:
云平台宿主机节点执行多路径模块业务时,获取multipath-id集合;
确定所述集合中各multipath的磁盘设备path路径信息以及multipath信息,作为待审计设备信息;
识别所述待审计设备信息中各信息项的信息状态,并根据所述信息状态进行待审计状态填充,得到审计状态;
存储所述各multipath对应的所述审计状态。
可选地,识别所述待审计设备信息中各信息项的信息状态,并根据所述信息状态进行待审计状态填充,得到审计状态,包括:
识别所述待审计设备信息中multipath信息的信息状态,并根据所述multipath信息的信息状态进行multipath层面状态填充,得到multipath层面状态;
识别所述待审计设备信息中磁盘设备path路径信息的信息状态,并根据所述path路径信息的信息状态进行path层面状态填充,得到path层面状态;
将所述multipath层面状态以及所述path层面状态作为所述审计状态。
可选地,所述multipath信息中包括:multipath唯一标识、multipath设备大小、子路径设备、子路径、子路径唯一标识、子路径lun-id;则识别所述待审计设备信息中multipath信息的信息状态,并根据所述multipath信息的信息状态进行multipath层面状态填充,得到multipath层面状态,包括:
判断所述子路径数目是否为0,若是,填充状态为LEGACY_PATH;
判断所述multipath唯一标识与所述子路径唯一标识是否一致,若否,填充状态为WWN_NOT_EQUAL;
判断各所述子路径是否畅通,若否,填充状态为PATH_FAILED。
可选地,所述磁盘设备path路径信息包括:设备、唯一标识、路径以及lun-id;则相应的,识别所述待审计设备信息中磁盘设备path路径信息的信息状态,并根据所述path路径信息的信息状态进行path层面状态填充,得到path层面状态,包括:
判断所述唯一标识是否能正常获取,若否,标记为WWN_ERROR;
判断各所述路径是否被multipath聚合,未被聚合标记为NOT_IN_MPATH。
可选地,判断各所述路径是否被multipath聚合,未被聚合标记为NOT_IN_MPATH,包括:
调用二分查找判断各所述路径是否被multipath聚合,未被聚合标记为NOT_IN_MPATH。
可选地,在获取multipath-id集合之后,还包括:
判断所述集合中multipath的数量是否达到单线程处理阈值;
若是,将所述multipath-id集合拆分为若干子集合;
则相应地,确定所述集合中各multipath的磁盘设备path路径信息以及multipath信息,包括:调用多线程分别确定各所述子集合中各multipath的磁盘设备path路径信息以及multipath信息。
可选地,确定所述集合中各multipath的磁盘设备path路径信息以及multipath信息,作为待审计设备信息,包括:
获取所述集合中各multipath的磁盘设备path路径信息以及multipath信息;
根据获取的信息生成对象数据,得到磁盘设备path路径对象以及multipath对象数据;
将所述磁盘设备path路径对象数据以及所述multipath对象数据作为待审计设备信息。
本申请还提供了一种云平台块设备异常审计装置,应用于云平台宿主机节点,该装置包括:
集合获取单元,用于执行多路径模块业务时,获取multipath-id集合;
信息确定单元,用于确定所述集合中各multipath的磁盘设备path路径信息以及multipath信息,作为待审计设备信息;
状态审计单元,用于识别所述待审计设备信息中各信息项的信息状态,并根据所述信息状态进行待审计状态填充,得到审计状态;
状态存储单元,用于存储所述各multipath对应的所述审计状态。
本申请还提供了一种计算机设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现所述的云平台块设备异常审计方法的步骤。
本申请还提供了一种可读存储介质,所述可读存储介质上存储有程序,所述程序被处理器执行时实现所述云平台块设备异常审计方法的步骤。
本申请所提供的云平台块设备异常审计方法,通过自动化审计path层、multipath层的异常数据,能快速的分析出主机上multipath、path信息的准确性、链路是否有故障,让运维人员尽早发现问题所在,简化问题排查的步骤,蚌珠运维人员从人工排查的复杂工作中解脱出来,提升云计算平台的故障排查能力,简化运维人员的工作量,使问题快速定位;同时在multipath业务运行过程中实现实时监测,在运行过程中一旦发生异常可以及时告知运维人员提早处理,防止对业务数据造成影响,从而进一步提高云平台业务系统稳定性。
本申请还提供了一种云平台块设备异常审计装置、设备及一种可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种云平台块设备异常审计方法的流程图;
图2为本申请实施例提供的一种磁盘设备path路径信息以及multipath信息间的层次结构示意图;
图3为本申请实施例提供的一种二分查找的示意图;
图4为本申请实施例提供的一种存储映射拓扑示意图;
图5为本申请实施例提供的一种审计过程的具体流程示意图;
图6为本申请实施例提供的一种云平台块设备异常审计装置的结构框图;
图7为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
本申请的核心是提供一种云平台块设备异常审计方法,该方法可以简化命令逻辑以及流程执行,保证存储设备的快速稳定运行;本申请的另一核心是提供一种云平台块设备异常审计装置、设备及一种可读存储介质。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明提供了一种云平台块设备异常审计方法,该方法基于SAN存储,应用于分布式云平台场景下。
在云计算架构平台下,基于SAN架构的块存储拓扑是比较重要的层面,块存储为云平台提供高速的、容灾特性的数据存储,增加拓扑结构的同时也增加了技术栈的难度、及问题出错的点(物理链路故障等)。
在实际的业务流程中,path设备信息来源与存储卷的挂载之后,操作系统通过命令发现卷(fc、或者iscsi相关命令)、multipath信息来源是根据path信息聚合而成,三个层面(存储映射、path、multipath)的数据产生有依赖关系,而且产生、清理必须保持一致,以防止不同层面的数据残留、影响后续业务。而由于程序异常、或者人为的处理遗漏,将会导致三个层面均会出现不数据的残留、进而造成后续的数据异常。
基于此,本申请基于SAN存储、(FC、iscsi)协议映射到宿主机上的存储磁盘进行审计,能快速的分析出书主机上multipath、path信息的准确性、链路是否有故障,可以在使用以scsi链路链接的SAN存储时针对主机侧实现异常审计,可以提升云计算平台的故障排查能力,同时简化运维人员的工作量。
需要说明的是,本实施例提供的审计方法遵循linux操作系统知识,依赖云平台宿主机操作系统需为linux类型,需要由multipath命令及磁盘设备状态查看权限。
请参考图1,图1为本实施例提供的云平台块设备异常审计方法的流程图,该方法主要包括:
步骤s110、云平台宿主机节点执行多路径模块业务时,获取multipath-id集合;
本实施例提供的异常审计方法是在multipath(多路径模块)业务执行时,启动后续的异常审计流程,而为了确定云平台宿主机节点是否执行多路径模块业务,在获取multipath-id集合之前,可以进一步判断multipath服务是否开启,未开启不启动后续的multipath审计流程,若判定开启,则执行获取multipath-id集合以及后续步骤。本实施例中仅以上述触发条件为例进行介绍,其他触发获取multipath-id集合的方式在此不再赘述,均可参照本实施例的介绍。
在启动异常审计后需要首先获取multipath-id集合,云平台块设备中可能存在多个运行的multipath,需要审计每个multipath判断其是否发生异常,因此需要确定multipath-id集合,根据id实现对于每个multipath的审计。
步骤s120、确定集合中各multipath的磁盘设备path路径信息以及multipath信息,作为待审计设备信息;
在multipath业务场景下,本实施例中主要需要搜集两个层面的信息:磁盘设备path路径信息以及multipath(多路径模块)信息。在磁盘设备path路径信息中主要包含了:磁盘设备、磁盘唯一标识(唯一标识即wwn)、磁盘路径、lun-id逻辑单元设备号;在multipath信息里主要包含了:multipath唯一标识、multipath设备大小、子路径设备、子路径、子路径唯一标识、子路径lun-id。本实施例中对于获取磁盘设备path路径信息以及multipath信息中具体的信息项不做限定,可以根据实际的审计需要进行信息项的配置,在此不再赘述。
其中,multipath里的子路径信息来源是设备path信息,磁盘设备path路径信息以及multipath(多路径模块)信息间的层次结构示意图如图2所示,可以按照该图进行信息的查询以及获取。
需要说明的是,可以直接将获取的路径信息以及multipath信息,作为待审计设备信息,进行后续的信息状态查询,而为了进一步提升信息检索效率,可选地,确定集合中各multipath的磁盘设备path路径信息以及multipath信息,作为待审计设备信息的过程具体可以包括以下步骤:
(1)获取集合中各multipath的磁盘设备path路径信息以及multipath信息;
(2)根据获取的信息生成对象数据,得到磁盘设备path路径对象以及multipath对象数据;
(3)将磁盘设备path路径对象数据以及multipath对象数据作为待审计设备信息。
审计过程中将multipath、path信息转化成对象,在将multipath信息、path信息转换为对象数据时,故障状态已经根据本身数据生成,直接获取即可,这样待审计设备信息的数据格式统一,数据规范,也可以进一步简化程序结构,利用了面向对象简化了状态判断逻辑,可以提高数据审计执行效率。
步骤s130、识别待审计设备信息中各信息项的信息状态,并根据信息状态进行待审计状态填充,得到审计状态;
解析待审计设备信息,根据multipath信息以及path信息详情确定各信息项的信息状态,比如根据子路径数量确定是否存在残留路径等,本实施例中对于具体审计的状态项以及对应的审计方式不做限定,可以根据实际的设备异常类型进行相应的设定,本实施例中对此不再赘述。
步骤s140、存储各multipath对应的审计状态。
存储审计状态,具体地,可以以审计时间命名的文件存储各multipath对应的审计状态,以时间命名,可以防止覆盖,当然,也可以以其他方式存储,在此不做限定。
审计状态存储后,可以便于运维人员不定期检查周期性结果,查看是否有异常。
基于上述介绍,本实施例提供的云平台块设备异常审计方法中,通过自动化审计path层、multipath层的异常数据,能快速的分析出主机上multipath、path信息的准确性、链路是否有故障,让运维人员尽早发现问题所在,简化问题排查的步骤,蚌珠运维人员从人工排查的复杂工作中解脱出来,提升云计算平台的故障排查能力,简化运维人员的工作量,使问题快速定位;同时在multipath业务运行过程中实现实时监测,在运行过程中一旦发生异常可以及时告知运维人员提早处理,防止对业务数据造成影响,从而进一步提高云平台业务系统稳定性。
上述实施例中对于审计项以及具体的审计方式不做限定,本实施例中主要介绍一种审计方式,其他基于本实施例的实现方式均算作本申请的保护范围。
可选地,识别待审计设备信息中各信息项的信息状态,并根据信息状态进行待审计状态填充,得到审计状态可以包括以下三个步骤:
(1)识别待审计设备信息中multipath信息的信息状态,并根据multipath信息的信息状态进行multipath层面状态填充,得到multipath层面状态;
(2)识别待审计设备信息中磁盘设备path路径信息的信息状态,并根据path路径信息的信息状态进行path层面状态填充,得到path层面状态;
(3)将multipath层面状态以及path层面状态作为审计状态。
分别对磁盘设备path路径信息的信息状态以及multipath信息的信息状态进行状态审计,从而分别生成multipath层面状态以及path层面状态作为审计状态,可以帮助运维人员实现对于path路径以及multipath两个层面异常情况的区分输出,可以更加清晰的显示问题的所在,有助于提升运维效率。
而其中,multipath信息具体可以包括以下信息项:multipath唯一标识(即wwn)、multipath设备大小、子路径设备、子路径、子路径唯一标识、子路径lun-id;则相应地,上述步骤(1)中识别待审计设备信息中multipath信息的信息状态,并根据multipath信息的信息状态进行multipath层面状态填充,得到multipath层面状态的过程具体可以按照以下步骤执行:
(1.1)判断子路径数目是否为0,若是,填充状态为LEGACY_PATH(残留路径);
残留路径过多将会影响multipath的执行效率,需要清理掉。
(1.2)判断multipath唯一标识与子路径唯一标识是否一致,若否,填充状态为WWN_NOT_EQUAL;
正常情况下multipath唯一标识与子路径唯一标识必须一致,否则将会影响磁盘的正常使用。
(1.3)判断各子路径是否畅通,若否,填充状态为PATH_FAILED(链路不通)。
路径不通即链路状态为failed,部分路径不通时,暂时不影响磁盘的使用,但是需要及时解决,否则将会引起磁盘性能下降,如果路径全部failed,磁盘将无法使用,影响业务。
以上审计过程可以保证multipath异常状态的有效排查,有效减轻运维人员的问题定位压力。
其中,磁盘设备path路径信息具体可以包括:设备、唯一标识、路径以及lun-id;则相应的,则相应地,上述步骤(2)中识别待审计设备信息中磁盘设备path路径信息的信息状态,并根据path路径信息的信息状态进行path层面状态填充,得到path层面状态的过程具体可以按照以下步骤执行:
(2.1)判断唯一标识是否能正常获取,若否,标记为WWN_ERROR;
(2.2)判断各路径是否被multipath聚合,未被聚合标记为NOT_IN_MPATH。
在path信息中,判断NOT_IN_MPATH状态时,根据获取到的multipath_ids列表,比对path的wwn是否在multipath_ids列表里,如果在,说明path被multipath聚合,未被multipath聚合,将会影响磁盘性能、及容灾能力。
而当multipath_ids过大的时候,用普通的遍历查找可能会降低查找的性能。可选地,可以调用二分查找判断各路径是否被multipath聚合,未被聚合标记为NOT_IN_MPATH。通过二分查找不断地将有序数据集进行对半分割,并检查每个分区的中间元素,可以提高查询速度,以便进一步提高审计效率。
具体地,一种二分查找的实现过程如下,如图3所示为一种二分查找的示意图:
首先,将left和right分别设置为0和size-1。在循环的每次迭代过程中,将middle设置为left和right之间区域的中间值。
如果处于middle的元素比目标值小,将左索引值移动到middle后的一个元素的位置上。即下一组要搜索的区域是当前数据集的上半区。
如果处于middle的元素比目标元素大,将右索引值移动到middle前一个元素的位置上。即下一组要搜索的区域是当前数据集的下半区。
随着搜索的不断进行,left从左向右移,right从右向左移。一旦在middle处找到目标,查找将停止;如果没有找到目标,left和right将重合。
基于上述实施例,在multipath-ids列表过多时,那么顺序查询multipath详情信息、并解析,那么所耗时是根据列表长度线性增长的,为了提高执行速度,可选地,在获取multipath-id集合之后,可以进一步判断集合中multipath的数量是否达到单线程处理阈值;若是,将multipath-id集合拆分为若干子集合;则相应地,确定集合中各multipath的磁盘设备path路径信息以及multipath信息,包括:调用多线程分别确定各子集合中各multipath的磁盘设备path路径信息以及multipath信息。
在进行multipath详情查询、解析时,利用多线程技术进行并发查询、解析。根据列表长度,如果长度大于预先设定的单线程处理阈值(比如10),进行列表的分割,每10个一组,一组对应一个线程进行信息的查找以及解析,多线程并发查询、解析,最终将结果汇总到总列表里,通过多线程可以提升审计速度。
为加深对上述实施例中提供的云平台块设备异常审计步骤的理解,本实施例中以一种具体的实现方式为例进行整体实现流程的介绍,其他基于上述实施例的实现过程均可参照本实施例的介绍,在此不再赘述。
如图4所示为一种存储映射拓扑示意图,其中存储卷通过FC交换机将卷映射给主机1(即宿主机),由于所见物理链路是4条,所以在主机1上表现出为四块磁盘设备(sdfh、sdfw、sdgl、sdo),此四块磁盘设备对应有相应的path路径信息(主机1与交换机间的路径以及交换机与存储间的路径),multipath信息根据path信息而来。
具体地,可以将用于实现本申请提供的审计方法的程序脚本放置到具体的云平台宿主机节点,并赋予该脚本的执行权限,为该脚本配置定时任务,在定时任务周期性触发时执行该脚本中的步骤,使脚本周期性执行,运维人员不定期检查周期性结果,查看是否有异常。
单次脚本执行过程中的审计步骤如下,如图5所示为审计过程的具体流程示意图,具体步骤如下:
(1)初始化日志
用于记录执行过程中输出打印,方便信息核对。
(2)判断multipath服务是否开启,未开启不进行multipath审计,若开启,则执行后续步骤;
(3)获取multipath-id集合;
(4)判断multipath数量是否大于10,若是,则开启多线程;若否,则单线程执行后续步骤;
如果multipath数量过多则开启线程,以提高执行速度。
(5)解析multipath信息(multipath唯一标识、multipath设备大小、子路径设备、子路径、子路径唯一标识、子路径lun-id)生成对象数据,根据multipath对象数据填充multipath层面状态;
具体地,子路径数目为0,填充状态为LEGACY_PATH(残留路径);
wwn与子路径wwn不一致,填充状态为WWN_NOT_EQUAL;
路径不通(failed),填充状态为PATH_FAILED(链路不通)。
(6)解析path信息详情(设备、唯一标识(即wwn)、路径、lun-id)生成对象数据,根据对象数据填充path层面状态;
具体地,判断WWN是否能正常获取,不能正常获取标记为WWN_ERROR;
判断路径是否被multipath聚合,未被聚合标记为NOT_IN_MPATH;
其中(5)和(6)中解析信息生成对象数据的一种实现伪代码如下:
class mutlipath:
string wwn;
string status;
int size;
list<path>paths;
class path:
string wwn;
string device;
string path;
string lun-id;
int size;
(7)将结果保存到文件内。
将文件以时间命名,防止覆盖。
本实施例提供的以上实现方式结合操作系统关于存储链路、磁盘路径状态、multipath磁盘设备链路状态等相关知识,提出了一种能自动审计各个层次状态、差异的信息并进行结果汇总的方案,该方案可以结合现有的自动定时巡检、通知技术,能够使运维人员及时发现磁盘的健康情况,做到故障的提前处理、防止对业务、数据造成影响。
请参考图6,图6为本实施例提供的云平台块设备异常审计装置的结构框图;该装置主要包括:集合获取单元110、信息确定单元120、状态审计单元130以及状态存储单元140。本实施例提供的云平台块设备异常审计装置可与上述实施例中提供的云平台块设备异常审计方法相互对照,在此不再赘述。
集合获取单元110主要用于执行多路径模块业务时,获取multipath-id集合;
信息确定单元120主要用于确定集合中各multipath的磁盘设备path路径信息以及multipath信息,作为待审计设备信息;
状态审计单元130主要用于识别待审计设备信息中各信息项的信息状态,并根据信息状态进行待审计状态填充,得到审计状态;
状态存储单元140主要用于存储各multipath对应的审计状态。
本实施例提供一种计算机设备,主要包括:存储器以及处理器。
其中,存储器用于存储程序;
处理器用于执行程序时实现如上述实施例介绍的云平台块设备异常审计方法的步骤,具体可参照上述云平台块设备异常审计方法的介绍。
请参考图7,为本实施例提供的计算机设备的结构示意图,该计算机设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processingunits,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在计算机设备301上执行存储介质330中的一系列指令操作。
计算机设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上面图1所描述的云平台块设备异常审计方法中的步骤可以由本实施例介绍的计算机设备的结构实现。
本实施例公开一种可读存储介质,其上存储有程序,程序被处理器执行时实现如上述实施例介绍的云平台块设备异常审计方法的步骤,具体可参照上述实施例中对云平台块设备异常审计方法的介绍。
该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的云平台块设备异常审计方法、装置、设备及可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (10)

1.一种云平台块设备异常审计方法,其特征在于,包括:
云平台宿主机节点执行多路径模块业务时,获取multipath-id集合;
确定所述集合中各multipath的磁盘设备path路径信息以及multipath信息,作为待审计设备信息;
识别所述待审计设备信息中各信息项的信息状态,并根据所述信息状态进行待审计状态填充,得到审计状态;
存储所述各multipath对应的所述审计状态。
2.如权利要求1所述的云平台块设备异常审计方法,其特征在于,识别所述待审计设备信息中各信息项的信息状态,并根据所述信息状态进行待审计状态填充,得到审计状态,包括:
识别所述待审计设备信息中multipath信息的信息状态,并根据所述multipath信息的信息状态进行multipath层面状态填充,得到multipath层面状态;
识别所述待审计设备信息中磁盘设备path路径信息的信息状态,并根据所述path路径信息的信息状态进行path层面状态填充,得到path层面状态;
将所述multipath层面状态以及所述path层面状态作为所述审计状态。
3.如权利要求2所述的云平台块设备异常审计方法,其特征在于,所述multipath信息中包括:multipath唯一标识、multipath设备大小、子路径设备、子路径、子路径唯一标识、子路径lun-id;则识别所述待审计设备信息中multipath信息的信息状态,并根据所述multipath信息的信息状态进行multipath层面状态填充,得到multipath层面状态,包括:
判断所述子路径数目是否为0,若是,填充状态为LEGACY_PATH;
判断所述multipath唯一标识与所述子路径唯一标识是否一致,若否,填充状态为WWN_NOT_EQUAL;
判断各所述子路径是否畅通,若否,填充状态为PATH_FAILED。
4.如权利要求2所述的云平台块设备异常审计方法,其特征在于,所述磁盘设备path路径信息包括:设备、唯一标识、路径以及lun-id;则相应的,识别所述待审计设备信息中磁盘设备path路径信息的信息状态,并根据所述path路径信息的信息状态进行path层面状态填充,得到path层面状态,包括:
判断所述唯一标识是否能正常获取,若否,标记为WWN_ERROR;
判断各所述路径是否被multipath聚合,未被聚合标记为NOT_IN_MPATH。
5.如权利要求4所述的云平台块设备异常审计方法,其特征在于,判断各所述路径是否被multipath聚合,未被聚合标记为NOT_IN_MPATH,包括:
调用二分查找判断各所述路径是否被multipath聚合,未被聚合标记为NOT_IN_MPATH。
6.如权利要求1所述的云平台块设备异常审计方法,其特征在于,在获取multipath-id集合之后,还包括:
判断所述集合中multipath的数量是否达到单线程处理阈值;
若是,将所述multipath-id集合拆分为若干子集合;
则相应地,确定所述集合中各multipath的磁盘设备path路径信息以及multipath信息,包括:调用多线程分别确定各所述子集合中各multipath的磁盘设备path路径信息以及multipath信息。
7.如权利要求1所述的云平台块设备异常审计方法,其特征在于,确定所述集合中各multipath的磁盘设备path路径信息以及multipath信息,作为待审计设备信息,包括:
获取所述集合中各multipath的磁盘设备path路径信息以及multipath信息;
根据获取的信息生成对象数据,得到磁盘设备path路径对象以及multipath对象数据;
将所述磁盘设备path路径对象数据以及所述multipath对象数据作为待审计设备信息。
8.一种云平台块设备异常审计装置,其特征在于,应用于云平台宿主机节点,该装置包括:
集合获取单元,用于执行多路径模块业务时,获取multipath-id集合;
信息确定单元,用于确定所述集合中各multipath的磁盘设备path路径信息以及multipath信息,作为待审计设备信息;
状态审计单元,用于识别所述待审计设备信息中各信息项的信息状态,并根据所述信息状态进行待审计状态填充,得到审计状态;
状态存储单元,用于存储所述各multipath对应的所述审计状态。
9.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的云平台块设备异常审计方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有程序,所述程序被处理器执行时实现如权利要求1至7任一项所述云平台块设备异常审计方法的步骤。
CN202010661550.3A 2020-07-08 2020-07-08 云平台块设备异常审计方法、装置、设备及存储介质 Active CN111901399B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010661550.3A CN111901399B (zh) 2020-07-08 2020-07-08 云平台块设备异常审计方法、装置、设备及存储介质
PCT/CN2021/077591 WO2022007418A1 (zh) 2020-07-08 2021-02-24 云平台块设备异常审计方法、装置、设备及存储介质
US18/004,598 US11782609B2 (en) 2020-07-08 2021-02-24 Method and apparatus for auditing abnormality of block device in cloud platform, device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010661550.3A CN111901399B (zh) 2020-07-08 2020-07-08 云平台块设备异常审计方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111901399A true CN111901399A (zh) 2020-11-06
CN111901399B CN111901399B (zh) 2022-12-09

Family

ID=73192513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010661550.3A Active CN111901399B (zh) 2020-07-08 2020-07-08 云平台块设备异常审计方法、装置、设备及存储介质

Country Status (3)

Country Link
US (1) US11782609B2 (zh)
CN (1) CN111901399B (zh)
WO (1) WO2022007418A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113162808A (zh) * 2021-04-30 2021-07-23 中国工商银行股份有限公司 存储链路故障处理方法及装置、电子设备和存储介质
WO2022007418A1 (zh) * 2020-07-08 2022-01-13 苏州浪潮智能科技有限公司 云平台块设备异常审计方法、装置、设备及存储介质
CN114500575A (zh) * 2021-12-27 2022-05-13 天翼云科技有限公司 多路径对象map中路径丢失管理方法、装置及存储介质
CN114625557A (zh) * 2022-03-31 2022-06-14 苏州浪潮智能科技有限公司 一种异常处理方法、装置、电子设备及存储介质
WO2023284174A1 (zh) * 2021-07-12 2023-01-19 苏州浪潮智能科技有限公司 一种清理主机端残留路径的方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1633131A (zh) * 2005-01-14 2005-06-29 清华大学 一种iSCSI存储系统的实现方法
CN103023723A (zh) * 2012-12-14 2013-04-03 创新科软件技术(深圳)有限公司 一种linux环境下进行iSCSI多路径测试的方法
CN103150127A (zh) * 2013-03-21 2013-06-12 浪潮(北京)电子信息产业有限公司 一种存储多路径的访问系统及其配置和访问方法
CN105630715A (zh) * 2015-12-18 2016-06-01 国云科技股份有限公司 一种基于Multipath的存储预警方法
CN105760261A (zh) * 2014-12-16 2016-07-13 华为技术有限公司 业务输入输出io处理方法和装置
CN106060013A (zh) * 2016-05-18 2016-10-26 浪潮电子信息产业股份有限公司 一种基于iSCSI的虚拟化方法
CN106210121A (zh) * 2016-07-29 2016-12-07 浪潮(北京)电子信息产业有限公司 一种实现存储多路径负载均衡的方法及装置
CN109120522A (zh) * 2018-08-21 2019-01-01 郑州云海信息技术有限公司 一种多路径状态监测方法及装置
CN109359484A (zh) * 2018-08-22 2019-02-19 北京中测安华科技有限公司 云平台的安全审计终端日志的处理方法、装置、设备和介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8495636B2 (en) * 2007-12-19 2013-07-23 International Business Machines Corporation Parallelizing single threaded programs by performing look ahead operation on the single threaded program to identify plurality of instruction threads prior to execution
CN103795753A (zh) 2012-10-31 2014-05-14 中国移动通信集团四川有限公司 一种实现san网络数据均衡传输的方法及系统
US20140215077A1 (en) * 2013-01-26 2014-07-31 Lyatiss, Inc. Methods and systems for detecting, locating and remediating a congested resource or flow in a virtual infrastructure
US10291503B2 (en) * 2013-09-26 2019-05-14 Taiwan Semiconductor Manufacturing Co., Ltd. File block placement in a distributed network
CN105162824A (zh) 2015-07-07 2015-12-16 浪潮(北京)电子信息产业有限公司 一种云存储系统中主机多路径部署方法和系统
CN107870832B (zh) * 2016-09-23 2021-06-18 伊姆西Ip控股有限责任公司 基于多维度健康诊断方法的多路径存储设备
US10177968B2 (en) * 2016-11-10 2019-01-08 International Business Machines Corporation Multipath driver cognitive analysis
CN107451014A (zh) 2017-08-01 2017-12-08 郑州云海信息技术有限公司 一种数据恢复方法及装置
US10904096B2 (en) * 2018-12-21 2021-01-26 Cisco Technology, Inc. Deep network path analysis for identifying network segments affecting application performance
CN111901399B (zh) 2020-07-08 2022-12-09 苏州浪潮智能科技有限公司 云平台块设备异常审计方法、装置、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1633131A (zh) * 2005-01-14 2005-06-29 清华大学 一种iSCSI存储系统的实现方法
CN103023723A (zh) * 2012-12-14 2013-04-03 创新科软件技术(深圳)有限公司 一种linux环境下进行iSCSI多路径测试的方法
CN103150127A (zh) * 2013-03-21 2013-06-12 浪潮(北京)电子信息产业有限公司 一种存储多路径的访问系统及其配置和访问方法
CN105760261A (zh) * 2014-12-16 2016-07-13 华为技术有限公司 业务输入输出io处理方法和装置
CN105630715A (zh) * 2015-12-18 2016-06-01 国云科技股份有限公司 一种基于Multipath的存储预警方法
CN106060013A (zh) * 2016-05-18 2016-10-26 浪潮电子信息产业股份有限公司 一种基于iSCSI的虚拟化方法
CN106210121A (zh) * 2016-07-29 2016-12-07 浪潮(北京)电子信息产业有限公司 一种实现存储多路径负载均衡的方法及装置
CN109120522A (zh) * 2018-08-21 2019-01-01 郑州云海信息技术有限公司 一种多路径状态监测方法及装置
CN109359484A (zh) * 2018-08-22 2019-02-19 北京中测安华科技有限公司 云平台的安全审计终端日志的处理方法、装置、设备和介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022007418A1 (zh) * 2020-07-08 2022-01-13 苏州浪潮智能科技有限公司 云平台块设备异常审计方法、装置、设备及存储介质
US11782609B2 (en) 2020-07-08 2023-10-10 Inspur Suzhou Intelligent Technology Co., Ltd. Method and apparatus for auditing abnormality of block device in cloud platform, device, and storage medium
CN113162808A (zh) * 2021-04-30 2021-07-23 中国工商银行股份有限公司 存储链路故障处理方法及装置、电子设备和存储介质
CN113162808B (zh) * 2021-04-30 2023-01-06 中国工商银行股份有限公司 存储链路故障处理方法及装置、电子设备和存储介质
WO2023284174A1 (zh) * 2021-07-12 2023-01-19 苏州浪潮智能科技有限公司 一种清理主机端残留路径的方法、装置、设备及存储介质
CN114500575A (zh) * 2021-12-27 2022-05-13 天翼云科技有限公司 多路径对象map中路径丢失管理方法、装置及存储介质
CN114625557A (zh) * 2022-03-31 2022-06-14 苏州浪潮智能科技有限公司 一种异常处理方法、装置、电子设备及存储介质
CN114625557B (zh) * 2022-03-31 2024-06-28 苏州浪潮智能科技有限公司 一种异常处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111901399B (zh) 2022-12-09
US11782609B2 (en) 2023-10-10
WO2022007418A1 (zh) 2022-01-13
US20230195325A1 (en) 2023-06-22

Similar Documents

Publication Publication Date Title
CN111901399B (zh) 云平台块设备异常审计方法、装置、设备及存储介质
Lou et al. Mining invariants from console logs for system problem detection
Oliner et al. Advances and challenges in log analysis
US8141053B2 (en) Call stack sampling using a virtual machine
Wang et al. A simulation approach to evaluating design decisions in mapreduce setups
CN103399812B (zh) 基于Xen硬件虚拟化的磁盘文件操作监控系统及监控方法
US6651183B1 (en) Technique for referencing failure information representative of multiple related failures in a distributed computing environment
US8225291B2 (en) Automated detection of application performance bottlenecks
US20120054554A1 (en) Problem isolation in a virtual environment
US20070067754A1 (en) Server application state
US20150066470A1 (en) Method and systems for simulating a workload of a storage system
KR20110124733A (ko) 동적 인스트루먼테이션을 통한 커스텀 코드의 진단을 스트림라인하기위한 메소드 콜의 검출
US20090138884A1 (en) Storage management system, a method of monitoring performance and a management server
CN109614276A (zh) 故障处理方法、装置、分布式存储系统和存储介质
US20170034001A1 (en) Isolation of problems in a virtual environment
Gupta et al. Context-aware time series anomaly detection for complex systems
US20080172668A1 (en) Profile-based cpu/core affinity
CN110764980A (zh) 日志处理方法和装置
Chen et al. Invariants based failure diagnosis in distributed computing systems
CN112699007A (zh) 监控机器性能的方法、系统、网络设备及存储介质
Mi et al. Performance problems diagnosis in cloud computing systems by mining request trace logs
Mi et al. Localizing root causes of performance anomalies in cloud computing systems by analyzing request trace logs
Creţu-Ciocârlie et al. Hunting for problems with Artemis
Ezzati-Jivan et al. A framework to compute statistics of system parameters from very large trace files
Ren et al. Otus: resource attribution in data-intensive clusters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant