CN114518985A - 存储系统命令的故障指示 - Google Patents

存储系统命令的故障指示 Download PDF

Info

Publication number
CN114518985A
CN114518985A CN202111215690.9A CN202111215690A CN114518985A CN 114518985 A CN114518985 A CN 114518985A CN 202111215690 A CN202111215690 A CN 202111215690A CN 114518985 A CN114518985 A CN 114518985A
Authority
CN
China
Prior art keywords
storage system
command
storage
bank
signature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111215690.9A
Other languages
English (en)
Other versions
CN114518985B (zh
Inventor
P·库里
R·吉尔伯特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Enterprise Development LP
Original Assignee
Hewlett Packard Enterprise Development LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Enterprise Development LP filed Critical Hewlett Packard Enterprise Development LP
Publication of CN114518985A publication Critical patent/CN114518985A/zh
Application granted granted Critical
Publication of CN114518985B publication Critical patent/CN114518985B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1873Versioning file systems, temporal file systems, e.g. file system supporting different historic versions of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/004Error avoidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及存储系统命令的故障指示。在一些示例中,系统接收涉及存储系统的操作的命令,将与该命令相关联的属性与签名进行比较,其中该签名基于存储体特性和存储系统的配置,并且所述系统响应于与该命令相关联的属性与签名之间的比较,指示与该命令指示的操作相关联的潜在故障。

Description

存储系统命令的故障指示
背景技术
存储系统可以包括一个或若干个存储设备。计算环境可以包括多个存储系统。例如,计算环境可以包含数据中心、云环境、企业环境或任何其他类型的计算环境。
附图说明
关于以下附图描述了本公开的一些实施方式。
图1至图3是根据本公开的一些示例的包括存储系统和命令检查引擎的布置的框图。
图4是根据本公开的一些示例的存储机器可读指令的存储介质的框图。
图5是根据一些示例的系统的框图。
图6是根据进一步示例的过程的流程图。
在所有附图中,相同的附图标记指代相似但不一定相同的元素。附图不一定是按比例绘制的,并且一些部分的尺寸可以被放大以更清楚地图示所示的示例。此外,附图提供了与描述一致的示例和/或实施方式;然而,描述不限于附图中提供的示例和/或实施方式。
具体实施方式
在本公开中,除非上下文另有明确指示,否则使用术语“一个/一种(a/an)”或“所述(the)”旨在同样包括复数形式。并且,当在本公开中使用时,术语“包括/包含(includes/including/comprises/comprising)”、“具有(have/having)”指明存在所述元素,但不排除存在或添加其他元素。
可以下发命令以执行关于存储(storage)系统的操作。存储系统可以包括存储阵列、存储器件等。存储系统可以包括一个或多个存储设备。存储设备的示例包括基于盘的存储设备(例如,硬盘驱动器、光盘驱动器等)、固态驱动器(例如,闪速存储器设备等)或其他类型的存储设备。
另外,存储系统可以包括存储控制器,该存储控制器管理数据访问和与耦接到存储控制器的(多个)存储设备相关的其他操作。存储系统的存储控制器和(多个)存储设备可以被一起容纳在存储系统的壳体中,或者存储控制器可以与(多个)存储设备分开。
命令的示例可以包括如下命令:将数据从一个存储系统迁移到另一个存储系统(如执行故障转移或者将数据移动到升级后的存储系统或移动到负荷较小的存储系统),将数据从一个存储系统复制到另一个存储系统(如为了数据备份的目的),创建存储体(storage volume),删除存储体,配置存储系统,压缩或解压缩存储系统中的数据,对存储系统中的数据执行数据去重(deduplicate),对存储系统中的数据进行加密或解密等。
“存储体”是指提供数据的容器的逻辑存储单元。存储体可以被存储在存储系统中或跨多个存储系统被存储。存储系统可以包括单个存储体或多个存储体(或单个存储体或多个存储体的一些部分)。
在存储系统中可能存储有大量数据的大型计算环境中,某些命令可能需要相对长的时间才能完成。例如,将大量数据从源存储系统迁移到目的存储系统可能需要数小时或甚至数天。
如果指定涉及存储系统的操作的命令由于任何原因而要发生故障,则由于等待操作完成、检测阻止操作完成的故障以及采取措施从故障中恢复并解决故障,可能会浪费大量时间。
故障的示例可以包括以下各项中的任一项或某种组合:正被读取或写入的数据发生错误、程序(包括机器可读指令)崩溃或挂起、硬件部件遇到阻止硬件部件执行所请求的动作(例如,执行机器可读指令、存储数据、通过网络传送数据等)的问题、或阻止存储系统以目标方式完成操作的任何其他问题。
在一些示例中,实体可以关于作为涉及存储系统的操作(例如,读/写操作、数据迁移操作、数据复制操作、数据去重操作、数据压缩/解压缩操作、数据加密/解密操作、存储系统配置操作等)的一部分收集的统计数据而执行分析。执行这种分析的实体可以与存储系统的运营商或用户相关联。可替代地,执行分析的实体可以与不同于存储系统的运营者(operator)或用户的服务提供商相关联。服务提供商或运营者/用户可以包括企业、政府机构、教育组织、另一类型的组织或个人。对作为存储系统的操作的一部分收集的统计数据执行的分析可以由人、机器和/或程序执行。
在一些示例中,对统计数据执行的分析可以包括人类对统计数据的目视检查,或者可以由机器或程序基于使用分类器或其他类型的机器学习模型来执行。
可以对其执行分析的统计数据的示例可以包括以下各项中的任一项或某种组合:与操作相关联的写和/或读的数量、操作中涉及的处理器的数量、操作所使用的存储器的存储容量、与操作相关联的网络业务量、在操作期间接收到的故障的任何指示、与操作的执行相关联的时间量等。
一旦基于对存储系统操作期间收集的统计数据的分析而确认故障,就可以向存储系统的运营者或用户提供报告。“报告”可以指信息的任何集合(例如,电子邮件或其他消息、文档、概要、图形输出等)。
报告可以包括指示计算环境中的某些存储系统可能响应于某些命令而遇到故障的信息。报告还可以包括指定推荐动作的信息,应该采取该推荐动作以防止在存储系统操作期间发生故障。例如,报告中包括的信息指定应该升级存储系统的机器可读指令(例如,软件、固件等),应该升级或更换软件存储系统的硬件部件,应该修改存储体的特性等。
在一些情况下,例如因为运营者或用户不理解报告、由于运营者或用户的疏忽、因为运营者或用户太忙等,运营者或用户可能没有执行报告中的推荐动作。因此,尽管向运营者或用户提供了可以用于防止故障发生的信息,然而运营者或用户仍可能在存储系统操作期间遇到这样的故障。
根据本公开的一些实施方式,系统接收涉及存储系统的操作的命令,将与该命令相关联的属性与签名进行比较,其中,签名基于存储体特性和存储系统的配置,并且该系统响应于该命令的属性与签名之间的比较来指示命令的潜在故障。注意,“涉及存储系统”的操作可以指涉及单个存储系统的操作或涉及多个存储系统的操作。
图1是包括存储系统102-1至102-N的示例布置的框图,其中,N≥2。尽管图1描绘了具有多个存储系统102-1至102-N的示例布置,但应注意,在其他示例中,示例布置可以仅包括一个存储系统。
存储系统102-1包括存储设备104和存储控制器105。存储控制器105和存储设备104可以被容纳在同一壳体中,或者存储控制器105和存储设备104可以彼此分开,例如,设置在分开的壳体中。在其他示例中,存储系统102-1可以仅包括单个存储设备104。
存储系统102-N可以类似地包括存储控制器和单个或多个存储设备。
存储系统102-1包括各种传感器106,所述各种传感器106可以收集与涉及存储系统102-1(以及可能的另一存储系统)的操作相关联的测量值。注意,传感器106可以包括硬件传感器和/或使用机器可读指令实施的传感器,如以在存储系统102-1中执行的监测代理的形式。此外,尽管图1将传感器106示为存储系统102-1的一部分,但是在一些示例中,传感器106可以在存储系统102-1的外部。
存储系统102-N可以类似地包括传感器,所述传感器用于收集与涉及存储系统102-N(以及可能的另一存储系统)的操作相关联的测量值。
存储系统102-1至102-N中的传感器收集的测量值可以通过网络108传输到分析系统110。分析系统110可以是数据中心、云系统、服务器计算机或任何其他类型的计算系统的一部分。网络108的示例可以包括存储区域网(SAN)、局域网(LAN)、广域网(WAN)或任何其他类型的网络。
除了传感器106收集的测量值之外或作为该传感器收集的测量值的替代,存储系统102-1至102-N和/或分析系统110和/或另一系统可以包括与存储系统的操作相关联的其他信息源。其他信息源的示例可以包括以下各项中的任一项或某种组合:写入了与存储系统操作相关的信息的日志、描述了存储系统配置的文件或文件集合、与存储系统操作相关联的数据转储和/或任何其他信息源。
传感器106和/或其他源提供的测量值中的信息可以包括要由统计分析引擎112分析的统计数据。注意,该信息可以包括可以由统计分析引擎112直接分析的统计数据,或者可替代地或另外地,统计分析引擎112可以基于来自传感器和/或其他源的信息得到统计数据。
如这里所使用的,“引擎”可以指硬件处理电路,所述硬件处理电路可以包括微处理器、多核微处理器的核、微控制器、可编程集成电路、可编程门阵列或另一个硬件处理电路中的任何一项或某种组合。可替代地,“引擎”可以指硬件处理电路和可在硬件处理电路上执行的机器可读指令(软件和/或固件)的组合。
分析系统110进一步包括签名提供引擎114,该签名提供引擎基于统计分析引擎112执行的分析来提供签名116。在一些示例中,签名116可以由人(如通过分析系统110的用户界面或通过通信耦接到分析系统110的用户设备)响应于由统计分析引擎112执行的分析而被提供。在其他示例中,签名提供引擎114可以使用分类器或其他机器学习模型来基于统计分析引擎112执行的对统计数据的分析来产生签名116。
“签名”可以包括与潜在故障条件有相互关系的信息模式,所述潜在故障条件与由命令指示的存储系统操作相关联。例如,签名可以包括属性的集合,并且有可能包括与这样的属性相关联的规则。
属性可以包括与存储体特性相关的属性(被称为“存储体属性”)和与存储系统配置相关的属性(被称为“存储系统属性”)。“存储体特性”是指存储体的特性。存储体特性的示例包括以下各项中的任何一项或某种组合:存储体的大小、存储体的文件系统版本、与存储体相关联的操作分支、存储体是否已被调整大小的指示、存储体的加密状态、存储体的压缩状态、存储体的数据去重状态等。
存储体的大小可以指由存储体存储的或能够由存储体存储的数据的量(例如以千兆字节、兆兆字节等表示)。
存储体的文件系统版本可以指与存储体中的哪个版本的文件系统数据相关联。文件系统是指数据可以以文件和目录的形式存储的机制。存储系统的程序(例如固件、软件或其他机器可读指令)的第一版本可以根据第一文件系统版本分块写入数据。程序的第二版本可以根据与第一文件系统版本不同的第二文件系统版本写入数据块。作为示例,如果将执行从运行程序的第一版本的第一存储系统到运行程序的第二版本的第二存储系统的数据迁移操作,则可能会遇到第一文件系统版本的块和第二文件系统版本的块之间的不兼容。对于其他类型的操作,也可能出现这样的不兼容问题。
与存储体相关联的操作分支可以指涉及存储体的操作的层次。例如,涉及存储体的操作的层次可以包括首先拍摄存储体的快照,然后克隆存储体的快照,接下来从存储体的快照恢复等。
存储体是否已被调整大小的指示可以包括如下参数:当被设置为第一值时指示存储体已被调整大小(存储体的大小已增大或减小),并且当被设置为不同的第二值时指示存储体尚未被调整大小。
存储体的加密状态是指存储体的数据是否被加密。
存储体的压缩状态是指存储体的数据是否被压缩。
存储体的数据去重状态是指存储体的数据是否被去重。数据去重是指移除部分数据(例如,数据块)的副本,使得来自不同数据对象(例如,不同文件)的重复数据部分不存储在存储系统中。
存储系统配置(也等同地称为“存储系统特性”)可以指存储系统的配置,如存储系统中的OS、固件或另一程序的版本。存储系统配置可替代地可以指如物理资源特性等硬件配置,例如被包括在存储系统中的处理器的类型,或存储系统中物理资源的资源容量(例如,存储系统中处理器的数量、存储系统中的(多个)处理器的速度、存储系统的存储器(memory)或其他存储装置的存储容量、存储系统的网络接口的通信带宽等)。作为进一步示例,存储系统配置可以指存储系统的负荷状况,如存储系统的处理资源的被消耗或可用的百分比、存储系统的存储资源的被消耗或可用的百分比、存储系统中执行的工作负荷量等。
作为另一示例,存储系统配置可以指存储系统是其一部分的组。命令可以指定将多个存储系统合并到特定组中,在这种情况下,该命令与指示(例如,标识)该特定组的属性相关联。作为另一示例,存储系统配置可以指与存储系统相关联的网络配置。网络配置可以由一个或多个网络属性来定义,如网络地址(例如,因特网协议(IP)地址、媒体访问控制(MAC)地址等)、端口、通信协议、安全协议等。
可以被包括在签名中的规则可以指定如下条件:将属性(或属性的组合)与该条件进行比较以确定属性(或属性的组合)是否满足该条件。例如,如果存储体的大小超过大小阈值,并且存储系统中的固件的版本比固件的最新版本旧,则在执行某种类型的命令(例如,数据迁移命令)以将存储体从源存储系统迁移到目的存储系统的情况下,这可能指示潜在故障状况。注意,被检查的固件版本可以是源存储系统和/或目的存储系统中的固件版本。在上述示例中,签名的属性包括大小属性和固件版本属性,签名中指定的条件包括大小属性阈值和固件版本值。
作为另一示例,签名可以包括文件系统版本属性和OS版本属性,并且签名中的条件可以是由文件系统版本属性指示的文件系统版本是否比指定的文件系统版本值旧,以及OS版本属性是否比OS版本值新。
作为进一步示例,签名可以包括调整大小指示属性和操作分支属性,并且签名中的条件可以是调整大小后的存储体是否与操作分支的某个层次相关联。
还可以提供签名的其他示例。
签名提供引擎114可以将签名116发送到存储系统102-1。在存储系统102-1中,签名116可以被存储在存储系统102-1的存储器(memory)118中。存储器118可以使用一个或多个存储器设备来实施。存储器设备的示例可以包括以下各项中的任何一项或某种组合:动态随机存取存储器(DRAM)设备、静态随机存取存储器(SRAM)设备、闪速存储器设备等。
在根据图1的示例中,存储系统102-1中的存储控制器105包括检查命令的命令检查引擎120,这些命令请求涉及存储系统(包括存储系统102-1)的操作。尽管图1将命令检查引擎120示为存储控制器105的一部分,但是在其他示例中,命令检查引擎120可以与存储控制器105分开(下面结合图2和图3进一步讨论一些其他示例)。
在一些示例中,命令122可以由主机设备124下发。“命令”可以指使存储系统执行由请求指示的操作的任何消息、信息元素或其他指示。
主机设备124通过网络108将命令122发送到存储系统102-1(或多个存储系统)。命令检查引擎120关于存储在存储器118中的签名116检查命令122。
关于签名检查命令可以指将与命令相关联的属性与签名进行比较,或者更具体地说,与由签名指定的条件进行比较。该检查确定与命令相关联的属性相对于签名是否满足签名中指定的条件。与命令相关联的属性可以包括存储体属性和存储系统属性。
基于关于签名116检查命令122,命令检查引擎120能够确定由命令122指示的操作是否可能导致潜在故障。
如果命令检查引擎120确定由命令122指示的操作可能导致潜在故障,则命令检查引擎120可以例如以信号、消息、信息元素等形式提供潜在故障的指示。存储控制器105可以通过采取补救行动来响应潜在故障的指示,该补救行动可以包括以下各项中的任何一项或某种组合:阻止命令执行、停止由存储系统102-1中的命令请求的操作、关闭或禁用存储系统102-1、升级存储系统102-1的程序(例如,OS、固件等)、向用户发送通知等。
多个主机设备124可以通过网络108耦接到存储系统102-1至102-N。主机设备的示例可以包括以下各项的任何一项或某种组合:服务器计算机、用户计算机、或能够向存储系统发送命令以导致涉及存储系统的操作的任何其他类型的电子设备。
图1示出了命令检查引擎120位于同一存储系统102-1中的示例,该命令检查引擎接收请求执行涉及存储系统102-1的操作的命令122。
在一些示例中,命令122请求的操作可以发生在存储系统102-1内,如存储在存储设备104中的数据的读/写操作、对存储设备104中的数据进行去重的数据去重操作、对存储设备104中的数据进行压缩或解压缩的数据压缩或解压缩操作、对存储设备104中的数据进行加密或解密的数据加密或解密操作、配置存储系统的配置操作等。
配置存储系统可以指例如通过改变参数来改变存储系统的设置或其他特性,这些参数控制存储系统的操作系统(OS)、固件或其他程序的操作。配置存储系统可替代地可以指例如通过升级程序、添加程序或删除程序来更改存储系统中的程序。
在一些示例中,除了可以被包括在存储系统102-1或其他地方中的命令检查引擎120之外,分析系统110还可以包括存储系统识别引擎130,该存储系统识别引擎可以识别可能易受故障影响的存储系统。例如,基于统计分析引擎112执行的分析,可以确定如果关于某些存储系统执行某些命令,则具有某些存储系统配置的存储系统可能易受故障影响。该确定可以由人作出,或者可以由机器或程序使用分类器或机器学习模型作出。
存储系统识别引擎130产生被识别为易受故障影响的存储系统的列表132,并将列表132中的存储系统与可能触发相应故障的对应命令相互关联。当分析系统110检测到如命令122等命令时,分析系统110将该命令与存储系统的列表132中有相互关系的命令进行比较。如果该命令与存储系统的列表132中的命令匹配,则分析系统110可以通过存储系统的列表132通知与匹配命令有相互关系的(多个)存储系统,以向被通知的存储系统通知如果命令被执行,则(多个)存储系统可能遇到故障。然后,(多个)存储系统可以采取行动不执行该命令,或停止由该命令发起的操作,或采取另一补救行动。
图2示出了命令检查引擎120在位置远离存储系统202-1至202-N的远程系统200中实施的另一示例。每个存储系统202-i(i=1到N)包括一个或多个存储设备,以及管理对(多个)存储设备的访问的存储控制器。
在一些示例中,远程系统200可以是图1的分析系统110。在其他示例中,远程系统200可以与分析系统110和存储系统202-1至202-N中的每一个分开。
远程系统200包括存储签名116的存储器(memory)204。在远程系统200是分析系统110的示例中,由签名提供引擎114本地提供的签名116被存储在存储器204中。在远程系统200与分析系统110分开的其他示例中,分析系统110的签名提供引擎114例如通过网络108将签名116发送到远程系统200。
主机设备124向存储系统202-1或多个存储系统202-1至202-N发送命令206。命令206也由远程系统200中的命令检查引擎120接收,该命令检查引擎关于签名116执行对命令206的检查。如果命令检查引擎120指示可能发生潜在故障,则命令检查引擎120可以向一个或多个存储系统(可能遇到故障的202-1到202-N中的任何一个)发送这样的指示。从远程系统200接收故障指示的存储系统可以响应于故障指示而采取补救行动。
图3示出了命令检查引擎120被设置在与主存储系统304相关联的备用存储系统302中的另一示例布置。
备用存储系统302是在主存储系统304遇到故障的情况下为了高可用性(HA)目的而被提供的。如果主存储系统304遇到阻止主存储系统304继续正常运行的故障,则备用存储系统302可以代表主存储系统304接管操作。
在图3的示例中,主存储系统304的存储控制器306和备用存储系统302的存储控制器308都可以访问相同的存储设备104集合。在其他示例中,主存储系统304和备用存储系统302中的每一个分别可以包括它们各自不同的存储设备集合。
命令检查引擎120被包括在备用存储系统302的存储控制器308中。存储控制器308包括存储签名116的存储器310,可以从分析系统110(图1)接收该签名。由于备用存储系统302可能是空闲的,或者可能具有比主存储系统304更低的工作负荷,因此在备用存储系统302处执行命令检查更有效地利用了存储系统304和302的资源。
主机设备124可以通过网络108向主存储系统304下发命令312,以请求涉及主存储系统304的操作。命令312也由备用存储系统302中的命令检查引擎120接收。
如果备用存储系统302中的命令检查引擎120检测到与命令312相关联的潜在故障,则命令检查引擎120可以通过网络108或通过主存储系统304和备用存储系统302之间的专用通信链路向主存储系统304发送故障指示。故障指示可以由主存储系统304用来采取补救行动以解决潜在故障条件。
图4是存储有机器可读指令的非暂态机器可读或计算机可读存储介质400的框图,该机器可读指令在执行时使系统执行各种任务。系统可以包括存储系统、远离存储系统的远程系统或备用存储系统。
机器可读指令包括命令接收指令402,用于接收涉及存储系统的操作的命令。例如,可以从图1、图2或图3中的主机设备124接收命令。
机器可读指令包括命令属性比较指令404,用于将与命令相关联的属性与签名进行比较,其中,签名基于存储体特性和存储系统的配置。
例如,存储体特性包括存储体的大小,并且所述比较用于确定存储体的大小是否满足大小条件。
作为另一示例,存储体特性包括与存储体相关联的文件系统版本,并且所述比较用于确定与存储体相关联的文件系统版本是否满足条件(例如,比特定文件系统版本更旧或更新)。
作为进一步示例,存储体特性包括与存储体相关联的操作分支,并且所述比较用于确定与存储体相关联的操作分支是否满足条件(例如,包括操作分支的特定层次)。
作为进一步示例,存储体特性包括存储体是否被调整大小的指示,并且所述比较用于确定存储体是否曾被调整大小。
作为进一步示例,存储体特性包括存储体的加密状态、压缩状态或数据去重状态,并且所述比较用于确定存储体的加密状态、压缩状态或数据去重状态是否满足指定条件。
例如,存储系统的配置包括存储系统中程序(例如,OS、固件或另一程序)的版本,并且所述比较用于确定程序的版本是否满足条件(例如,程序的版本比指定的程序版本更新还是更旧)。
作为进一步示例,存储系统的配置包括存储系统的物理资源特性,并且所述比较用于确定存储系统的物理资源特性是否满足条件。
作为进一步示例,存储系统的配置包括存储系统的负荷状况,并且所述比较用于确定存储系统的负荷状况是否满足条件。
作为进一步示例,存储系统的配置包括存储系统所属的组,并且所述比较用于确定存储系统所属的组是否满足条件。
作为进一步示例,存储系统的配置包括与存储系统相关联的网络配置,并且比较用于确定网络配置是否满足条件。
机器可读指令包括潜在故障指示指令406,其响应于与命令相关联的属性与签名之间的比较,以指示与由命令指示的操作相关联的潜在故障。
图5是包括一个硬件处理器502(或多个硬件处理器)的系统500的框图。系统500进一步包括存储介质504,该存储介质存储可在硬件处理器502上执行以执行各种任务的机器可读指令。
硬件处理器可以包括微处理器、多核微处理器的核、微控制器、可编程集成电路、可编程门阵列、或另一硬件处理电路。可在硬件处理器上执行的机器可读指令可以指可在单个硬件处理器上执行的指令或可在多个硬件处理器上执行的指令。
存储介质504中的机器可读指令包括命令接收指令506,用于接收涉及存储系统的操作的命令。
存储介质504中的机器可读指令包括属性条件确定指令508,用于确定与命令相关联的属性是否满足基于与存储系统的操作相关的统计数据的多个签名中的任何签名,其中,多个签名中的签名对应于存储体特性和存储系统配置。
存储介质504中的机器可读指令包括潜在故障指示指令510,用于响应于确定与命令相关联的属性满足多个签名中的第一签名,提供与由命令指示的操作相关联的潜在故障的指示。
图6是根据一些示例的过程600的流程图,该过程可以由系统(例如,存储系统、图1的分析系统110、图2的远程系统200、图3的备用存储系统302等)执行。
过程600包括(在602处)接收涉及存储系统的操作的命令,其中,该命令与第一属性和第二属性相关联,第一属性与要在其上执行操作的存储体的存储体特性相关,第二属性与存储系统的配置相关联。
过程600包括(在604处)确定与命令相关联的第一属性和第二属性是否满足签名。
过程600包括响应于确定与命令相关联的第一属性和第二属性满足签名,(在606处)指示与由命令指示的操作相关联的潜在故障。
存储介质(例如,图4的400或图5的504)可以包括以下各项的任一项或某种组合:半导体存储器(memory)设备,如动态或静态随机存取存储器(DRAM或SRAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)和闪速存储器或其他类型的非易失性存储器设备;磁盘,如固定的软盘和可移动盘;另一种磁介质,包括磁带;光学介质,如光盘(CD)或数字视频盘(DVD);或另一类型的存储设备。注意,上文讨论的指令可以在一个计算机可读或机器可读存储介质上被提供,或者可替代地,可以在分布在具有可能多个节点的大型系统中的多个计算机可读或机器可读存储介质上被提供。这种一个或多个计算机可读或机器可读存储介质被认为是物品(或制品)的一部分。物品或制品可以指任何制造的单个部件或多个部件。一个或多个存储介质可以位于运行机器可读指令的机器中、或者位于远程站点处,可以通过网络从所述远程站点下载机器可读指令以供执行。
在前述描述中,阐述了许多细节以使得理解本文中所公开的主题。然而,可以在没有这些细节中的一些细节的情况下实践实施方式。其他实施方式可以包括上文所讨论的细节的修改和变化。所附权利要求旨在覆盖这样的修改和变化。

Claims (20)

1.一种非暂态机器可读存储介质,包括指令,所述指令在执行时使系统进行以下操作:
接收涉及存储系统的操作的命令;
将与所述命令相关联的属性与签名进行比较,所述签名基于存储体特性和所述存储系统的配置;以及
响应于与所述命令相关联的所述属性与所述签名之间的比较,指示与由所述命令指示的所述操作相关联的潜在故障。
2.如权利要求1所述的非暂态机器可读存储介质,其中,所述存储体特性包括存储体的大小,并且所述比较用于确定所述存储体的大小是否满足大小条件。
3.如权利要求1所述的非暂态机器可读存储介质,其中,所述存储体特性包括与存储体相关联的文件系统版本,并且所述比较用于确定与所述存储体相关联的所述文件系统版本是否满足条件。
4.如权利要求1所述的非暂态机器可读存储介质,其中,所述存储体特性包括与存储体相关联的操作分支,并且所述比较用于确定与所述存储体相关联的所述操作分支是否满足条件。
5.如权利要求1所述的非暂态机器可读存储介质,其中,所述存储体特性包括存储体是否曾被调整大小的指示,并且所述比较用于确定所述存储体是否曾被调整大小。
6.如权利要求1所述的非暂态机器可读存储介质,其中,所述存储体特性包括存储体的加密状态、压缩状态或数据去重状态,并且所述比较用于确定所述存储体的所述加密状态、所述压缩状态或所述数据去重状态是否满足指定条件。
7.如权利要求1所述的非暂态机器可读存储介质,其中,所述存储系统的配置包括所述存储系统中的程序的版本,并且所述比较用于确定所述程序的版本是否满足条件。
8.如权利要求1所述的非暂态机器可读存储介质,其中,所述存储系统的配置包括所述存储系统的物理资源特性和所述存储系统的负荷状况,并且所述比较用于确定所述存储系统的所述物理资源特性或所述负荷状况是否满足条件。
9.如权利要求1所述的非暂态机器可读存储介质,其中,所述存储系统的配置包括所述存储系统所属的组,并且所述比较用于确定所述存储系统所属的所述组是否满足条件。
10.如权利要求1所述的非暂态机器可读存储介质,其中,所述存储系统的配置包括与所述存储系统相关联的网络配置,并且所述比较用于确定所述网络配置是否满足条件。
11.如权利要求1所述的非暂态机器可读存储介质,其中,所述存储系统是主存储系统,并且所述指令能够在其上执行的所述系统是与所述主存储系统相关联的备用存储系统。
12.如权利要求1所述的非暂态机器可读存储介质,其中,所述指令能够在其上执行的所述系统是存储系统,并且所述指令在执行时使所述存储系统进行以下操作:
从远程系统接收所述签名,其中所述远程系统是基于对与存储系统的操作相关联的统计数据执行的分析而得到所述签名的。
13.如权利要求1所述的非暂态机器可读存储介质,其中,所述指令能够在其上执行的所述系统对于所述存储系统是远程的,并且其中,所述指令在执行时使所述系统进行以下操作:
通过网络向所述存储系统发送与由所述命令指示的操作相关联的所述潜在故障的指示。
14.如权利要求13所述的非暂态机器可读存储介质,其中,所述指令在执行时使所述系统进行以下操作:
识别易受故障影响的多个存储系统;
通过网络从所述多个存储系统中的第一存储系统接收与要在所述第一存储系统处执行的给定命令相关的信息;
确定所述第一存储系统是所述多个存储系统之一;以及
响应于接收到与所述给定命令相关的信息以及确定所述第一存储系统是所述多个存储系统之一,通过网络向所述第一存储系统发送与在所述第一存储系统处由所述给定命令指示的操作相关联的潜在故障的指示。
15.一种系统,包括:
处理器;以及
存储指令的非暂态存储介质,所述指令能够在所述处理器上执行以进行以下操作:
接收涉及存储系统的操作的命令;
确定与所述命令相关联的属性是否满足基于与存储系统的操作相关的统计数据的多个签名中的任何签名,其中,所述多个签名中的签名对应于存储体特性和存储系统配置;以及
响应于确定与所述命令相关联的属性满足所述多个签名中的第一签名,提供与由所述命令指示的所述操作相关联的潜在故障的指示。
16.如权利要求15所述的系统,其中,所述处理器和所述非暂态存储介质是所述存储系统的一部分,并且其中,所述指令能够在所述处理器上执行以进行以下操作:
响应于所述潜在故障的指示,使所述操作暂停或阻止所述命令的执行。
17.如权利要求16所述的系统,其中,所述指令能够在所述处理器上执行以进行以下操作:
通过网络从远程系统接收所述多个签名,其中所述远程系统是基于对与所述存储系统的所述操作相关的统计数据的分析而得到所述多个签名的。
18.如权利要求17所述的系统,其中,所述网络包括管理通信信道,通过所述管理通信信道接收所述多个签名并且通过所述管理通信信道能够在所述处理器上执行所述指令以向所述远程系统发送心跳指示。
19.一种方法,包括:
由包括硬件处理器的系统接收涉及存储系统的操作的命令,其中,所述命令与第一属性和第二属性相关联,所述第一属性与要在其上执行所述操作的存储体的存储体特性相关,所述第二属性与所述存储系统的配置相关联;
由所述系统确定与所述命令相关联的所述第一属性和所述第二属性是否满足签名;以及
响应于确定与所述命令相关联的所述第一属性和所述第二属性满足所述签名,由所述系统指示与由所述命令指示的操作相关联的潜在故障。
20.如权利要求19所述的方法,其中,所述存储系统是主存储系统,并且所述系统是与所述主存储系统相关联的备用存储系统。
CN202111215690.9A 2020-11-18 2021-10-19 存储系统命令的故障指示 Active CN114518985B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/951,460 2020-11-18
US16/951,460 US11436073B2 (en) 2020-11-18 2020-11-18 Fault indications for storage system commands

Publications (2)

Publication Number Publication Date
CN114518985A true CN114518985A (zh) 2022-05-20
CN114518985B CN114518985B (zh) 2023-02-10

Family

ID=81345395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111215690.9A Active CN114518985B (zh) 2020-11-18 2021-10-19 存储系统命令的故障指示

Country Status (3)

Country Link
US (1) US11436073B2 (zh)
CN (1) CN114518985B (zh)
DE (1) DE102021126883A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11755229B2 (en) * 2020-06-25 2023-09-12 EMC IP Holding Company LLC Archival task processing in a data storage system

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100287407A1 (en) * 2009-05-05 2010-11-11 Siemens Medical Solutions Usa, Inc. Computer Storage Synchronization and Backup System
US20110178987A1 (en) * 2010-01-15 2011-07-21 Samsung Electronics Co., Ltd. Apparatus and method for processing data according to remote control in data storage device
US20120036315A1 (en) * 2010-08-09 2012-02-09 International Business Machines Corporation Morphing Memory Architecture
US8117493B1 (en) * 2009-10-30 2012-02-14 Netapp, Inc. Fast recovery in data mirroring techniques
US20140351632A1 (en) * 2010-02-27 2014-11-27 Cleversafe, Inc. Storing data in multiple formats including a dispersed storage format
US20150161000A1 (en) * 2013-12-10 2015-06-11 Snu R&Db Foundation Nonvolatile memory device, distributed disk controller, and deduplication method thereof
US20150242298A1 (en) * 2014-02-27 2015-08-27 International Business Machines Corporation Salvaging hardware transactions
US20150363288A1 (en) * 2014-06-13 2015-12-17 Seagate Technology Llc Redundancies for reconstruction in mass data storage systems
US20160110240A1 (en) * 2014-10-17 2016-04-21 Netapp Inc. Forensics collection for failed storage controllers
US20160179636A1 (en) * 2014-12-17 2016-06-23 International Business Machines Corporation Cluster creation and management for workload recovery
US20180329645A1 (en) * 2017-05-11 2018-11-15 Vmware, Inc. Capacity based load balancing in distributed storage systems with deduplication and compression functionalities
US20190146885A1 (en) * 2015-11-16 2019-05-16 Red Hat, Inc. Recreating a computing environment using tags and snapshots
US20200050769A1 (en) * 2018-08-13 2020-02-13 International Business Machines Corporation Selecting data storage based on data and storage classifications
US20200257583A1 (en) * 2019-02-08 2020-08-13 Hewlett Packard Enterprise Development Lp Localization of potential issues to objects

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6496900B1 (en) 2000-09-12 2002-12-17 3Ware, Inc. Disk array system, controller, and method for verifying command data written to disk drives
US7197669B2 (en) 2003-07-30 2007-03-27 Via Technologies, Inc. Method and circuit for command integrity checking (CIC) in a graphics controller
JP2007310974A (ja) * 2006-05-19 2007-11-29 Fujitsu Ltd 記憶装置および制御装置
US7793264B2 (en) 2006-08-25 2010-09-07 International Business Machines Corporation Command-line warnings
US8473697B1 (en) 2008-10-29 2013-06-25 Netapp, Inc. Method and system for volume based snapshot restore
US8055933B2 (en) * 2009-07-21 2011-11-08 International Business Machines Corporation Dynamic updating of failover policies for increased application availability
US8665750B2 (en) * 2010-12-17 2014-03-04 At&T Mobility Ii Llc Methods, devices, and computer program products for auditing and repairing a wireless telecommunications network configuration
US9213642B2 (en) * 2014-01-20 2015-12-15 International Business Machines Corporation High availability cache in server cluster
US9729524B1 (en) * 2014-12-12 2017-08-08 Amazon Technologies, Inc. Authenticated device-based storage operations
US11017846B2 (en) * 2019-08-26 2021-05-25 Micron Technology, Inc. Updating program files of a memory device using a differential write operation

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100287407A1 (en) * 2009-05-05 2010-11-11 Siemens Medical Solutions Usa, Inc. Computer Storage Synchronization and Backup System
US8117493B1 (en) * 2009-10-30 2012-02-14 Netapp, Inc. Fast recovery in data mirroring techniques
US20110178987A1 (en) * 2010-01-15 2011-07-21 Samsung Electronics Co., Ltd. Apparatus and method for processing data according to remote control in data storage device
US20140351632A1 (en) * 2010-02-27 2014-11-27 Cleversafe, Inc. Storing data in multiple formats including a dispersed storage format
US20120036315A1 (en) * 2010-08-09 2012-02-09 International Business Machines Corporation Morphing Memory Architecture
US20150161000A1 (en) * 2013-12-10 2015-06-11 Snu R&Db Foundation Nonvolatile memory device, distributed disk controller, and deduplication method thereof
US20150242298A1 (en) * 2014-02-27 2015-08-27 International Business Machines Corporation Salvaging hardware transactions
US20150363288A1 (en) * 2014-06-13 2015-12-17 Seagate Technology Llc Redundancies for reconstruction in mass data storage systems
US20160110240A1 (en) * 2014-10-17 2016-04-21 Netapp Inc. Forensics collection for failed storage controllers
US20160179636A1 (en) * 2014-12-17 2016-06-23 International Business Machines Corporation Cluster creation and management for workload recovery
US20190146885A1 (en) * 2015-11-16 2019-05-16 Red Hat, Inc. Recreating a computing environment using tags and snapshots
US20180329645A1 (en) * 2017-05-11 2018-11-15 Vmware, Inc. Capacity based load balancing in distributed storage systems with deduplication and compression functionalities
US20200050769A1 (en) * 2018-08-13 2020-02-13 International Business Machines Corporation Selecting data storage based on data and storage classifications
US20200257583A1 (en) * 2019-02-08 2020-08-13 Hewlett Packard Enterprise Development Lp Localization of potential issues to objects

Also Published As

Publication number Publication date
DE102021126883A1 (de) 2022-05-19
CN114518985B (zh) 2023-02-10
US11436073B2 (en) 2022-09-06
US20220156139A1 (en) 2022-05-19

Similar Documents

Publication Publication Date Title
US11815993B2 (en) Remedial action based on maintaining process awareness in data storage management
US11657146B2 (en) Compressibility metric-based detection of a ransomware threat to a storage system
US11687418B2 (en) Automatic generation of recovery plans specific to individual storage elements
US20210397711A1 (en) Detection of Writing to a Non-header Portion of a File as an Indicator of a Possible Ransomware Attack Against a Storage System
US20210216633A1 (en) Multi-Layer Security Threat Detection for a Storage System
US20210216666A1 (en) Inter-I/O Relationship Based Detection of a Security Threat to a Storage System
US9798629B1 (en) Predicting backup failures due to exceeding the backup window
US9223679B1 (en) Lightweight, non-intrusive, and flexible apparatus to obtain system and process state
US20200110655A1 (en) Proactive data protection on predicted failures
US11720691B2 (en) Encryption indicator-based retention of recovery datasets for a storage system
US20220092180A1 (en) Host-Driven Threat Detection-Based Protection of Storage Elements within a Storage System
US20210383010A1 (en) Measurement Interval Anomaly Detection-based Generation of Snapshots
US11645162B2 (en) Recovery point determination for data restoration in a storage system
US20220244858A1 (en) Storage Element Attribute-based Determination of a Data Protection Policy for Use Within a Storage System
CN114518985B (zh) 存储系统命令的故障指示
US20210382995A1 (en) Host Anomaly-Based Generation of Snapshots
US20210303687A1 (en) Snapshot Delta Metric Based Determination of a Possible Ransomware Attack Against Data Maintained by a Storage System
US11675898B2 (en) Recovery dataset management for security threat monitoring
US10346610B1 (en) Data protection object store
US11226875B2 (en) System halt event recovery
US20210382992A1 (en) Remote Analysis of Potentially Corrupt Data Written to a Storage System
US11625481B2 (en) Selective throttling of operations potentially related to a security threat to a storage system
US20210216631A1 (en) Filesystem Property Based Determination of a Possible Ransomware Attack Against a Storage System
US20240146748A1 (en) Malware identity identification
US20240160534A1 (en) Snappable recovery chain over generic managed volume

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant