CN108027754A - 在计算机处理系统中存储器子系统维护期间减少系统停机时间 - Google Patents

在计算机处理系统中存储器子系统维护期间减少系统停机时间 Download PDF

Info

Publication number
CN108027754A
CN108027754A CN201680047102.6A CN201680047102A CN108027754A CN 108027754 A CN108027754 A CN 108027754A CN 201680047102 A CN201680047102 A CN 201680047102A CN 108027754 A CN108027754 A CN 108027754A
Authority
CN
China
Prior art keywords
memory
computer
memory module
processing system
health status
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680047102.6A
Other languages
English (en)
Other versions
CN108027754B (zh
Inventor
C·A·费尔南德斯
J·D·亨德森
M·L·霍布斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN108027754A publication Critical patent/CN108027754A/zh
Application granted granted Critical
Publication of CN108027754B publication Critical patent/CN108027754B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/073Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1666Error detection or correction of the data by redundancy in hardware where the redundant component is memory or memory area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0617Improving the reliability of storage systems in relation to availability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0653Monitoring storage devices or systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device
    • G06F3/0679Non-volatile semiconductor memory device, e.g. flash memory, one time programmable memory [OTP]
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/70Masking faults in memories by using spares or by reconfiguring
    • G11C29/76Masking faults in memories by using spares or by reconfiguring using address translation or modifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)
  • Hardware Redundancy (AREA)

Abstract

公开了在计算机处理系统中存储器子系统维护期间减少系统停机时间。在一些方面,计算机处理系统包括通信地耦合到多个存储器插槽的计算机处理器,每个存储器插槽与存储器模块对接并且包括选通控制。该计算机处理器被进一步通信地耦合到专用非易失性存储设备。在检测到需要存储器模块的替换的存储器健康状况之际,阻止对该存储器模块的访问,并且将数据从该存储器模块传输到专用非易失性存储设备。存储器模块的存储器地址范围随后被重新映射到专用非易失性存储设备,使得对该存储器模块的后续存储器访问请求被重新路由到专用非易失性存储设备。该存储器模块的存储器插槽随后被门控,从而允许在维持系统可用性的同时执行维护。

Description

在计算机处理系统中存储器子系统维护期间减少系统停机 时间
优先权要求
本申请要求于2015年8月13日提交的题为“REDUCING SYSTEM DOWNTIME DURINGMEMORY SUBSYSTEM MAINTENANCE IN A COMPUTER PROCESSING SYSTEM(在计算机处理系统中存储器子系统维护期间减少系统停机时间)”的美国专利申请序列号14/825,495的优先权,该申请通过援引全部纳入于此。
背景
I.公开领域
本公开的技术一般涉及为随机存取存储器模块提供支持的计算机架构。
II.背景技术
现代计算系统(诸如数据中心服务器)经常负责执行关键任务软件应用。此应用可能代表组织的关键资产,并且因此该应用可能需要近乎恒定的系统可用性。因此,主流的信息技术(IT)实践试图最小化完成任务(诸如对服务器子系统进行维修或升级)所需的任何系统停机时间。
然而,常规的计算机架构可使最小化系统停机时间复杂化,其可能不允许服务器子系统的“实时”系统维护(即,当服务器处于操作状态时执行的维修或升级)。在存储器子系统的特定情形中,基于常规计算机架构的服务器可能在存储器模块(诸如,双列直插式存储器模块(DIMM))被添加到服务器或从服务器中移除时不能继续操作。相反,在维护活动的历时期间,服务器必须“脱机”或完全关闭。这可能导致对整个系统的可用性产生负面影响的系统停机时间。
此外,IT专业人员可能不能抢先检测和诊断服务器的特定存储器模块即将发生的故障。因此,IT专业人员在缓解非预期系统停机时间的影响方面可能面临更大的困难。
公开概述
在详细描述中公开的各方面包括在存储器子系统维护期间减少系统停机时间。还公开了相关系统、装置、方法和计算机可读介质。就此而言,在本文公开的一些示例性方面中,提供了一种用于监视存储器模块的存储器健康状况的计算机处理系统。该计算机处理系统启用存储器模块替换,而不需要使计算机处理系统脱机。作为示例,该计算机处理系统包括通信地耦合到多个存储器插槽的计算机处理器,每个存储器插槽与存储器模块(诸如,双列直插式存储器模块(DIMM))对接。该存储器插槽中的每一者包括启用存储器插槽的电压门控并且在一些方面启用存储器插槽的时钟门控的选通控制。作为非限制性示例,该计算机处理器进一步经由高速串行设备通道通信地耦合到专用非易失性存储设备,诸如固态驱动器(SSD)。作为非限制性示例,该计算机处理系统可与存储器监视代理协同工作以检测和监视存储器健康状况,诸如存储器错误状况和用户发起的升级请求。如果在存储器模块中检测到存储器健康状况,则存储器监视代理可确定存储器模块的替换是有保证的。相应地,可阻止对存储器模块的访问,并且将数据从存储器模块传输到专用非易失性存储设备。存储器模块的存储器地址范围随后可被重新映射到专用非易失性存储设备,使得对存储器模块的后续存储器访问请求被重新路由到专用非易失性存储设备。电压门控(以及可选的时钟门控)可被施加到存储器插槽,从而允许在计算机处理系统保持操作的同时移除和替换存储器模块。以此方式,可在对存储器模块执行维护的同时减少计算机处理系统的停机时间。
在另一方面,提供了一种计算机处理系统。该计算机处理系统包括多个存储器插槽,每个存储器插槽包括选通控制并被配置为与存储器模块对接。该计算机处理系统进一步包括专用非易失性存储设备。该计算机处理系统还包括计算机处理器,其可通信地耦合到多个存储器插槽和专用非易失性存储设备。该计算机处理器被配置为检测与多个存储器插槽中的存储器插槽对接的存储器模块的存储器健康状况。该计算机处理器另外被配置为将与多个存储器插槽中的该存储器插槽对接的该存储器模块标识为存储器健康状况的源。该计算机处理器被进一步配置为将存储在存储器模块中的数据传输到专用非易失性存储设备。该计算机处理器还被配置为使用该存储器插槽的选通控制致使电压门控被施加到该存储器插槽以使存储器插槽成为不活跃。
在另一方面,提供了一种计算机处理系统。该计算机处理系统包括用于检测与多个存储器插槽中的存储器插槽对接的存储器模块的存储器健康状况的装置。该计算机处理系统进一步包括用于将与多个存储器插槽中的该存储器插槽对接的该存储器模块标识为存储器健康状况的源的装置。该计算机处理系统还包括用于将存储在存储器模块中的数据传输到专用非易失性存储设备的装置。该计算机处理系统另外包括用于致使电压门控被施加到该存储器插槽以使存储器插槽成为不活跃的装置。
另一方面,提供了一种促成计算机处理系统的维护的方法。该方法包括接收计算机处理系统的多个存储器模块中的存储器模块的存储器健康状况的指示。该方法进一步包括确定存储器健康状况是否保证存储器模块的替换。该方法还包括响应于确定存储器健康状况保证存储器模块的替换,基于接收到存储器健康状况的指示来阻止对存储器模块的存储器地址范围的访问。该方法另外包括:响应于确定存储器健康状况保证存储器模块的替换,发起存储在存储器模块中的数据到计算机处理系统的专用非易失性存储设备的传输。该方法进一步包括:响应于确定存储器健康状况保证存储器模块的替换,将存储器模块的存储器地址范围重新映射到专用非易失性存储设备。
另一方面,提供了一种其上存储有计算机可执行指令的非瞬态计算机可读介质,该计算机可执行指令在由处理器执行时致使处理器接收计算机处理系统的多个存储器模块中的存储器模块的存储器健康状况的指示。该计算机可执行指令进一步致使处理器确定存储器健康状况是否保证存储器模块的替换。该计算机可执行指令还致使处理器响应于确定存储器健康状况保证存储器模块的替换,基于接收到存储器健康状况的指示来阻止对存储器模块的存储器地址范围的访问。该计算机可执行指令另外致使处理器响应于确定存储器健康状况保证存储器模块的替换,发起存储在存储器模块中的数据到计算机处理系统的专用非易失性存储设备的传输。该计算机可执行指令进一步致使处理器响应于确定存储器健康状况保证存储器模块的替换,将存储器模块的存储器地址范围重新映射到专用非易失性存储设备。
附图简述
图1是包括计算机处理器的示例性计算机处理系统的框图,该计算机处理器被配置为检测存储器健康状况并向专用非易失性存储设备传输数据以及从专用非易失性存储设备传输数据以在存储器子系统维护期间减少系统停机时间;
图2A-2F是解说图1的计算机处理系统的操作的框图,该操作用于响应于存储器模块中的存储器健康状况的检测而启用“实时”存储器子系统维护;
图3A-3C是解说图1的计算机处理系统的软件元件和硬件元件两者的示例性操作的流程图,该操作用于监视存储器健康状况并在存储器子系统维护期间减少系统停机时间;以及
图4是可包括图1的计算机处理系统的基于处理器的示例性系统的框图。
详细描述
现在参照附图,描述本公开的若干示例性方面。措辞“示例性”在本文中用于表示“用作示例、实例、或解说”。本文中描述为“示例性”的任何方面不必然被解释为优于或胜过其他方面。
在详细描述中公开的各方面包括在存储器子系统维护期间减少系统停机时间。还公开了相关系统、装置、方法和计算机可读介质。就此而言,在本文公开的一些示例性方面中,提供了一种用于监视存储器模块的存储器健康状况的计算机处理系统。该计算机处理系统启用存储器模块替换,而不需要使计算机处理系统脱机。作为示例,该计算机处理系统包括通信地耦合到多个存储器插槽的计算机处理器,每个存储器插槽与存储器模块(诸如,双列直插式存储器模块(DIMM))对接。该存储器插槽中的每一者包括启用存储器插槽的电压门控并且在一些方面启用存储器插槽的时钟门控的选通控制。作为非限制性示例,该计算机处理器进一步经由高速串行设备通道通信地耦合到专用非易失性存储设备,诸如固态驱动器(SSD)。作为非限制性示例,该计算机处理系统可与存储器监视代理协同工作以检测和监视存储器健康状况,诸如存储器错误状况和用户发起的升级请求。如果在存储器模块中检测到存储器健康状况,则存储器监视代理可确定存储器模块的替换是有保证的。相应地,可阻止对存储器模块的访问,并且将数据从存储器模块传输到专用非易失性存储设备。存储器模块的存储器地址范围随后可被重新映射到专用非易失性存储设备,使得对存储器模块的后续存储器访问请求被重新路由到专用非易失性存储设备。电压门控(以及可选的时钟门控)可被施加到存储器插槽,从而允许在计算机处理系统保持操作的同时移除和替换存储器模块。以此方式,可在对存储器模块执行维护的同时减少计算机处理系统的停机时间。
就此而言,图1是示例性计算机处理系统100的框图。计算机处理系统100包括计算机处理器102,其被配置为通过启用对存储器健康状况的检测并促成“实时”存储器子系统维护来减少系统停机时间。计算机处理系统100和计算机处理器102可涵盖已知的数字逻辑元件、半导体电路、处理核心和/或存储器结构以及其他元件或其组合中的任何一者。本文描述的各方面不限于元件的任何特定布置,并且所公开的技术可以容易地扩展到半导体管芯或封装上的各种结构和布局。
计算机处理系统100还包括存储器插槽104(0)-104(X),其经由存储器总线106通信地耦合到计算机处理器102的存储器控制器108。存储器插槽104(0)-104(X)被配置为与对应的存储器模块100(0)-100(X)对接,如由双向箭头112、114和116所指示的。作为非限制性示例,一些方面可提供存储器插槽104(0)-104(X)各自包括被配置为与双数据速率同步动态随机存取存储器(DDR SDRAM)、DDR2SDRAM、DDR3SDRAM或DDR4SDRAM对接的DIMM插槽。作为非限制性示例,在一些方面,存储器模块110(0)-110(X)中的每一者可包括提供上面所列举的SDRAM变体中的一者或多者的DIMM模块。
图1的计算机处理器102被配置为执行或以其他方式与软件(未示出)进行通信,除了其他功能之外,该计算机处理器尤其负责为执行进程提供对计算机处理系统100的存储器模块110(0)-110(X)中的每一者的访问。在一些方面,软件可包括创建并管理虚拟机(未示出)内的操作系统软件(未示出)的执行的超监督者(也被称为虚拟机监视器,未示出)。一些方面可提供,超监督者由计算机处理器102直接执行,而在一些方面,超监督者可在由计算机处理器102直接执行的操作系统(未示出)内执行。
在一些情况下,诸如计算机处理系统100负责执行关键任务软件应用(未示出)的那些情况下,计算机处理系统100的系统可用性可能是至关重要的。因此,期望最小化计算机处理系统100的任何系统停机时间。然而,在常规计算机架构中,对计算机处理系统100的特定元件的修理和/或升级可能要求计算机处理系统100在维护活动的历时期间离线,从而对系统可用性产生负面影响。具体而言,在常规计算机架构中存储器模块110(0)-110(X)中的一者的移除和替换可能需要关闭整个计算机处理系统100。计算机处理系统100的系统停机时间在由于意外或不可预测的存储器健康状况而需要对存储器模块110(0)-110(X)进行维护的情况下可能会进一步恶化。
相应地,就此而言,计算机处理系统100提供存储器监视代理118和专用非易失性存储设备120,其每一者可与计算机处理器102协同工作,以促成存储器子系统维护而减少系统停机时间。根据一些方面,存储器监视代理118可包括适当配置的软件、固件和/或硬件,并负责监视每个存储器模块110(0)-110(X)的健康状态。作为非限制性示例,举例来说,存储器监控代理118可驻留于由计算机处理器102执行或以通信方式耦合到计算机处理器102的超监督者和/或操作系统内。作为监视存储器模块110(0)-110(X)的健康状态的一部分,存储器监视代理118可追踪各元素,诸如但不限于,可纠正的存储器错误、不可纠正的存储器错误、环境状况(诸如温度水平和/或电压电平)、存储器模块性能的指示、校准值和/或用户发起的升级请求。如下面关于图2A-2F更详细地讨论的,存储器监视代理118还提供存储器映射122,其使存储器监视代理118能够管理存储器地址范围到存储器模块110(0)-110(X)和专用非易失性存储设备120的映射。
为了在存储器子系统维护期间减少图1的计算机处理系统100的系统停机时间,图1的专用非易失性存储设备120可被用作存储器模块110(0)-110(X)中的一者在维护操作期间的临时替换。如图1所示,专用非易失性存储设备120经由高速串行设备通道126通信地耦合到计算机处理器102的高速串行输入/输出(I/O)控制器124。.作为非限制性示例,在一些方面,专用非易失性存储设备120包括SSD或其他基于闪存的存储设备。一些方面可提供,作为数据安全措施,专用非易失性存储设备120被附加到或以其他方式被集成到计算机处理系统100中,从而不可从计算机处理系统100移除。作为非限制性示例,根据本文中所公开的一些方面,高速串行I/O控制器124可被配置为根据总线标准(诸如,快速外围组件互连(PCIe)、串行AT附件(SATA)和快速非易失性存储器(NVMe)等)经由高速串行设备通道126传送数据。
存储器插槽104(0)-104(X)分别进一步提供选通控制128(0)-128(X)以促成存储器模块110(0)-110(X)的“实时”维护。选通控制128(0)-128(X)中的每一者被配置为致使在计算机处理器102的指示下向对应的存储器插槽104(0)-104(X)中的每一者施加和移除电压门控。在一些方面,选通控制128(0)-128(X)也可被配置为分别致使存储器插槽104(0)-104(X)的时钟门控的施加和移除。以此方式,计算机处理器102可通过移除功率(并且可选地移除时钟信号)来停用存储器插槽104(0)-104(X)中的一者,而留置其余的存储器插槽104(0)-104(X)可操作。
根据一些方面,存储器插槽104(0)-104(X)还可分别提供不活跃指示器130(0)-130(X),其可被配置为向用户提供对应的存储器插槽104(0)-104(X)不活跃的物理可检测指示。在一些方面,不活跃指示器130(0)-130(X)可包括发光二极管(LED),其被配置为提供不活跃的存储器插槽104(0)-104(X)的视觉指示。因此,对计算机处理系统100执行维护的信息技术(IT)专业人员可以能够容易地标识存储器插槽104(0)-104(X)中的哪一者与需要维护的存储器模块110(0)-110(X)对接。
为了提供图1的存储器监视代理118和计算机处理系统100的用于响应于存储器健康状况的检测而启用实时存储器模块替换的示例性操作的概念性解说,提供了图2A-2F。具体而言,图2A-2F解说了图1的存储器监视代理118和计算机处理器102之间在检测和定址存储器健康状况时的交互,同时允许计算机处理系统100继续操作。为了清楚起见,在解说图2A-2F的操作时引用了图1的一些元件,而图1的一些元件已经被省略。
图2A解说了在正常操作情况下图1的计算机处理系统100的操作。存储器监视代理118可被配置为处理从当前执行的进程(未示出)对计算机处理系统100的存储器模块110(0)的存储器访问请求。为了实现这一点,存储器监视代理118被配置为提供可用于将虚拟存储器地址(未示出)映射到与存储器模块110(0)相关联的物理存储器地址(未示出)的存储器映射122。因此,如图2A中的箭头200和202所指示,存储器映射122可被存储器监视代理118用于启用对存储器模块110(0)中数据的访问。
在图2B中,如箭头206所示,计算机处理器102检测存储器健康状况204,并将与存储器插槽104(0)对接的存储器模块110(0)标识为存储器健康状况204的源。作为非限制性示例,根据一些方面,存储器健康状况204可包括在存储器模块110(0)内发生的可纠正的存储器错误或不可纠正的存储器错误。作为非限制性示例,一些方面可提供存储器健康状况204不是明确的错误状况,而是可包括存储器模块110(0)正在操作的环境状况,诸如温度水平或电压电平。作为非限制性示例,根据一些方面,存储器健康状况204可包括存储器模块110(0)的性能的指示,诸如校准值或性能计数器。作为非限制性示例,在一些方面,存储器健康状况204可包括由用户发起的状况,诸如用户发起的升级请求。
如图2B所示,存储器监视代理118在监视存储器模块110(0)-110(X)的健康状态的过程中接收来自计算机处理器102的存储器模块110(0)的存储器健康状况204的指示208。在一些方面中,存储器监视代理118被配置为维护存储器健康状况(诸如,存储器健康状况204)的发生的记录210,如由双向箭头212所指示的。以此方式,存储器监视代理118可随时间跟踪存储器模块110(0)-110(X)的健康状态。
存储器监测代理118随后可基于指示208确定存储器健康状况204是否保证存储器模块110(0)的替换。作为非限制性示例,在一些方面,确定存储器模块110(0)的替换是否被保证可基于存储器健康状况阈值和用户提供的替换指示中的一者或多者。作为非限制性示例,例如,该确定可基于确定记录210是否显示检测到的错误相关的存储器健康状况的数目超过存储器健康状况阈值,或者记录210是否指示存储器模块110(0)-110(X)的利用率过高或者利用率不足。如果存储器监视代理118确定不需要动作,则计算机处理系统100的操作像以前一样继续,而存储器监视代理118继续监视存储器模块110(0)-110(X)的健康状态并且根据需要更新记录210。然而,如果存储器监视代理118确定存储器模块110(0)的替换是适当的,则发起操作序列以促成存储器模块110(0)的移除和替换,同时减少计算机处理系统100的系统停机时间。该操作序列如图2C-2F所示。
现在参照图2C,存储器监视代理118首先基于接收到图2B中所示的存储器健康状况204的指示208,来阻止对存储器模块110(0)的存储器地址范围的访问。通过阻止对存储器模块110(0)的存储器地址范围的访问,存储器模块110(0)的内容对于当前执行的进程(未示出)成为不可访问的。存储器监视代理118随后发起将存储在存储器模块110(0)中的数据到专用非易失性存储设备120的传输,如箭头216和218所指示的。数据传输由计算机处理器102使用例如图1的存储器总线106、存储器控制器108、高速串行I/O控制器124和高速串行设备通道126执行。
在图2D中,存储器监视代理118使用存储器映射122将存储器模块110(0)的存储器地址范围重新映射到专用非易失性存储设备120,如箭头220和222所指示的。结果,从当前执行的进程对存储器模块110(0)的存储器访问请求(未示出)被重新路由到专用非易失性存储设备120。因此,正在执行的进程可继续不间断地执行,同时在存储器模块110(0)上执行维护。
为了促成存储器模块110(0)的替换,存储器监视代理118接下来可发起存储器模块110(0)的存储器插槽104(0)的电压门控(以及可选地,时钟门控)。在一些方面,电压门控和/或时钟门控可由计算机处理器102使用存储器插槽104(0)的选通控制128(0)来执行。在电压门控和/或时钟门控已经被施加到存储器插槽104(0)之后,根据一些方面,计算机处理器102可使用存储器插槽104(0)的不活跃指示器130(0)来提供不活跃的指示224。指示224可提供存储器模块110(0)不活跃的视觉指示。作为非限制性示例,一些方面可提供,不活跃指示器130(0)可包括提供视觉不活跃指示(诸如闪烁灯)的LED。指示224可帮助IT技术人员明确地标识用于维护的存储器模块110(0)。
转向图2E,在该示例中,存储器模块110(0)已经被替换存储器模块(REP MEMORYMODULE)226所替代,以定址和/或纠正存储器健康状况204。在一些方面,计算机处理器102随后可通过使用存储器插槽104(0)的选通控制128(0)移除对存储器插槽104(0)的电压门控和/或时钟门控,来重新激活存储器插槽104(0)。一些方面还提供,计算机处理器102可在替换存储器模块226上执行初始化规程和/或训练规程,以准备将替换存储器模块226用于操作。
存储器监视代理118和计算机处理器102随后将数据从专用非易失性存储设备120传输到替换存储器模块226。存储器监视代理118阻止对重映射到专用非易失性存储设备120的存储器地址范围的访问。以此方式,专用非易失性存储设备120的内容对于正在执行进程是不可访问的。存储器监视代理118随后发起将数据从专用非易失性存储设备120到替换存储器模块226的传输,如箭头230和232所指示的。如上所述,数据传输可由计算机处理器102使用例如图1的存储器总线106、存储器控制器108、高速串行I/O控制器124和高速串行设备通道126执行。
现在参照图2F,存储器监视代理118随后可使用存储器映射122来将专用非易失性存储设备120的存储器地址范围重新映射到替换存储器模块226,如箭头234和236所指示的。然后,计算机处理系统100可随后使用替换存储器模块226来恢复操作。因为计算机处理系统100不必为了执行存储器模块110(0)的替换而必须被脱机,与在常规计算机处理系统上执行类似维护相比减少了计算机处理系统100的系统停机时间。
提供图3A到3C以进一步解说图1的存储器监视代理118和计算机处理器102的用于监视存储器健康状况并且启用实时存储器子系统维护的示范性操作。在图3A-3C中,由存储器监视代理118执行的操作在一些方面由列300中的框表示,而由诸如图1的计算机处理器102的硬件元件执行的操作由列302中的框表示。然而,应理解,在一些方面,存储器监视代理118和计算机处理器102之间的操作划分可不同于图3A-3C所解说的划分。例如,根据一些方面,列300中所描绘的一些或全部操作可由适当配置的固件或硬件执行。为清楚起见,在描述图3A-3C中引述图1和2A-2F的诸元件。
在图3A中,操作开始于计算机处理器102可选地在计算机处理系统100启动处在专用非易失性存储设备120上执行内建自测(BIST)(框304)。可执行BIST以确认在维护期间需要作为对于存储器模块110(0)-110(X)中的一者的临时存储器的情况下专用非易失性存储设备120的可靠性。计算机处理器102随后在计算机处理系统100的操作期间检测存储器健康状况204(框306)。作为非限制性示例,存储器健康状况204可包括可纠正的存储器错误、不可纠正的存储器错误、环境状况(诸如温度水平和/或电压电平)、存储器模块性能的指示、校准值、和/或用户发起的升级请求。响应于检测存储器健康状况204,计算机处理器102将存储器模块110(0)-110(X)中与多个存储器插槽104(0)-104(X)中的存储器插槽104(0)对接的一者(诸如存储器模块110(0))标识为存储器健康状况204的源(框308)。
存储器监视代理118随后从计算机处理器102接收存储器模块110(0)的存储器健康状况204的指示208(框310)。基于存储器健康状况204的指示208,存储器监测代理118确定存储器健康状况204是否保证存储器模块110(0)的替换(框312)。如上所述,作为非限制性实例,该确定可基于确定错误相关的存储器健康状况的数目是否超过存储器健康状况阈值,或者记录210是否指示存储器模块110(0)-110(X)的利用率过高或者利用率不足。如果在判定框312处确定存储器模块110(0)的替换是没有保证的,则处理在图3C的框314处继续。简要参照图3C,存储器监视代理118可维护存储器健康状况204的发生的记录210(框314)。存储器监视代理118随后可返回到监视存储器模块110(0)-110(X)的健康状态。返回图3A,如果存储器监视代理118在判定框312处确定存储器模块110(0)的替换是有保证的,则存储器监视代理118基于接收到存储器健康状况204的指示208,阻止对存储器模块110(0)的存储器地址范围的访问(框316)。处理随后在图3B的框318处恢复。
在图3B中,存储器监视代理118发起存储在存储器模块110(0)中的数据到计算机处理系统100的专用非易失性存储设备120的传输(框318)。作为响应,计算机处理器102将数据从存储器模块110(0)传输到专用非易失性存储设备120(框320)。在数据传输完成之后,存储器监视代理118将存储器模块110(0)的存储器地址范围重新映射到专用非易失性存储设备120(框322)。根据一些方面,重新映射存储器模块110(0)的存储器地址范围可使用图1的存储器映射122来完成。
根据一些方面,操作可以存储器监视代理118发起存储器模块110(0)的存储器插槽104(0)的电压门控和时钟门控中的至少一者(框324)来继续。结果,计算机处理器102可使用存储器插槽104(0)的选通控制128(0)致使电压门控和/或时钟门控被施加到存储器插槽104(0),以使存储器插槽104(0)成为不活跃(框326)。计算机处理器102随后可使用存储器插槽104(0)的不活跃指示器130(0)来提供存储器模块110(0)不活跃的指示224以促成存储器模块110(0)的移除(框328)。如上所述,不活跃指示器130(0)-130(X)可包括被配置为提供存储器插槽104(0)的不活跃状态的视觉指示的LED。存储器插槽104(0)随后可接纳用于存储器插槽104(0)的替换存储器模块226(框330)。处理随后在图3C的框332处恢复。
现在参照图3C,计算机处理器102可使用存储器插槽104(0)的选通控制128(0)移除对存储器插槽104(0)的电压门控和/或时钟门控(框332)。计算机处理器102可以可选地在替换存储器模块226上执行初始化规程,以确保替换存储器模块226起作用(框334)。存储器监视代理118随后阻止对专用非易失性存储设备120的存储器地址范围的访问(框336)。由存储器监视代理118发起将数据从专用非易失性存储设备120到替换存储器模块226的传输(框338)。作为响应,计算机处理器102将数据从专用非易失性存储设备120传输到替换存储器模块226(框340)。存储器监视代理118随后可将存储器地址范围重新映射到替换存储器模块226(框342)。
根据本文所公开的各方面,在存储器子系统维护期间减少系统停机时间可被提供在任何基于处理器的设备中或集成到任何基于处理器的设备中。不作为限定的示例包括机顶盒、娱乐单元、导航设备、通信设备、固定位置数据单元、移动位置数据单元、移动电话、蜂窝电话、计算机、便携式计算机、台式计算机、个人数字助理(PDA)、监视器、计算机监视器、电视机、调谐器、无线电、卫星无线电、音乐播放器、数字音乐播放器、便携式音乐播放器、数字视频播放器、视频播放器、数字视频碟(DVD)播放器、以及便携式数字视频播放器。
就此而言,图4解说了可包括图1中所解说的计算机处理系统100的基于处理器的系统400的示例。在该示例中,基于处理器的系统400包括一个或多个中央处理单元(CPU)402,其各自包括一个或多个处理器404。在一些方面,一个或多个处理器404可以包括图1的计算机处理器102。一个或多个处理器404可以包括图1和图2A-2C的计算机处理器102。(诸)CPU 402可以是主控设备。(诸)CPU 402可具有耦合到(诸)处理器404以用于对临时存储的数据进行快速访问的高速缓存存储器406。(诸)CPU 402被耦合到系统总线408,且可以将基于处理器的系统400中所包括的主控设备和从动设备相互耦合。如众所周知的,(诸)CPU402通过在系统总线408上交换地址、控制、以及数据信息来与这些其他设备通信。例如,(诸)CPU 402可以向作为从动设备的示例的存储器控制器410传达总线事务请求。
其他主控设备和从动设备可被连接到系统总线408。如图4中所解说的,作为示例,这些设备可包括存储器系统412、一个或多个输入设备414、一个或多个输出设备416、一个或多个网络接口设备418、以及一个或多个显示控制器420。(诸)输入设备414可以包括任何类型的输入设备,包括但不限于输入键、开关、语音处理器等。(诸)输出设备416可以包括任何类型的输出设备,包括但不限于音频、视频、其他视觉指示器等。(诸)网络接口设备418可以是被配置成允许往来于网络422的数据交换的任何设备。网络422可以是任何类型的网络,包括但不限于:有线或无线网络、私有或公共网络、局域网(LAN)、广域网(WLAN)、以及因特网。(诸)网络接口设备418可被配置成支持所期望的任何类型的通信协议。存储器系统412可以包括一个或多个存储器单元424(0-N),在一些方面,其可以包括图1的存储器插槽104(0)-104(X)和存储器模块110(0)-110(X)。
(诸)CPU 402还可被配置成在系统总线408上访问(诸)显示控制器420以控制发送给一个或多个显示器426的信息。(诸)显示控制器420经由一个或多个视频处理器428向(诸)显示器426发送要显示的信息,视频处理器426将要显示的信息处理成适于(诸)显示器726的格式。(诸)显示器426可包括任何类型的显示器,包括但不限于阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器等。
本领域技术人员将进一步领会,结合本文所公开的各方面描述的各种解说性逻辑块、模块、电路和算法可被实现为电子硬件、存储在存储器中或另一计算机可读介质中并由处理器或其他处理设备执行的指令、或这两者的组合。作为示例,本文描述的主设备和从设备可用在任何电路、硬件组件、集成电路(IC)、或IC芯片中。本文所公开的存储器可以是任何类型和大小的存储器,并且可被配置成存储所期望的任何类型的信息。为了清楚地解说这种可互换性,各种解说性组件、框、模块、电路和步骤在上文已经以其功能性的形式一般性地作了描述。此类功能性如何被实现取决于具体应用、设计选择、和/或加诸于整体系统上的设计约束。技术人员可针对每种特定应用以不同方式来实现所描述的功能性,但此类实现决策不应被解读为致使脱离本公开的范围。
结合本文所公开的各方面描述的各种解说性逻辑块、模块、以及电路可用被设计成执行本文所描述的功能的处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其任何组合来实现或执行。处理器可以是微处理器,但在替换方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可以被实现为计算设备的组合,例如,DSP与微处理器的组合、多个微处理器、与DSP核心协同的一个或多个微处理器、或任何其它此类配置。
本文所公开的各方面可被体现为硬件和存储在硬件中的指令,并且可驻留在例如随机存取存储器(RAM)、闪存、只读存储器(ROM)、电可编程ROM(EPROM)、电可擦可编程ROM(EEPROM)、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其它形式的计算机可读介质中。示例性存储介质被耦合到处理器,以使得处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在远程站中。在替换方案中,处理器和存储介质可作为分立组件驻留在远程站、基站或服务器中。
还注意到,本文任何示例性方面中所描述的操作步骤是为了提供示例和讨论而被描述的。所描述的操作可按除了所解说的顺序之外的众多不同顺序来执行。此外,在单个操作步骤中描述的操作实际上可在多个不同步骤中执行。另外,可组合示例性方面中讨论的一个或多个操作步骤。应理解,如对本领域技术人员显而易见地,在流程图中解说的操作步骤可进行众多不同的修改。本领域技术人员还将理解,可使用各种不同技术和技艺中的任何一种来表示信息和信号。例如,贯穿上面说明始终可能被述及的数据、指令、命令、信息、信号、比特、码元和码片可由电压、电流、电磁波、磁场或磁粒子、光场或光粒子、或其任何组合来表示。
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员而言将容易是显而易见的,并且本文中所定义的普适原理可被应用到其他变型而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖特征一致的最广义的范围。

Claims (28)

1.一种计算机处理系统,包括:
多个存储器插槽,每个存储器插槽包括选通控制并被配置为与存储器模块对接;
专用非易失性存储设备;以及
计算机处理器,其通信地耦合到所述多个存储器插槽和所述专用非易失性存储设备;
所述计算机处理器被配置为:
检测与所述多个存储器插槽中的存储器插槽对接的存储器模块的存储器健康状况;
将与所述多个存储器插槽中的所述存储器插槽对接的所述存储器模块标识为所述存储器健康状况的源;
将存储在所述存储器模块中的数据传输到所述专用非易失性存储设备;以及
使用所述存储器插槽的所述选通控制致使电压门控被施加到所述存储器插槽,以使所述存储器插槽成为不活跃。
2.如权利要求1所述的计算机处理系统,其特征在于,所述计算机处理器被进一步配置为使用所述存储器插槽的所述选通控制致使时钟门控被施加到所述存储器插槽。
3.如权利要求1所述的计算机处理系统,其特征在于,所述计算机处理器经由高速串行设备通道被通信地耦合到所述专用非易失性存储设备。
4.如权利要求3所述的计算机处理系统,其特征在于,所述高速串行设备通道被配置为根据选自包括以下各项的组的总线标准进行操作:快速外围组件互连(PCIe);串行AT附件(SATA);和快速非易失性存储器(NVMe)。
5.如权利要求1所述的计算机处理系统,其特征在于:
所述多个存储器插槽中的每一者进一步包括不活跃指示器;以及
所述计算机处理器被进一步配置为使用所述存储器插槽的所述不活跃指示器来提供所述存储器模块不活跃的指示以促成所述存储器模块的移除。
6.如权利要求1所述的计算机处理系统,其特征在于,所述计算机处理器被进一步配置为响应于所述存储器插槽接纳替换存储器模块:
使用所述存储器插槽的所述选通控制,恢复对所述存储器插槽的功率;
在所述替换存储器模块上执行初始化规程;以及
将数据从所述专用非易失性存储设备传输到所述替换存储器模块。
7.如权利要求1所述的计算机处理系统,其特征在于,所述计算机处理器被配置为通过针对与所述多个存储器插槽中的所述存储器插槽对接的所述存储器模块检测包括以下各项的组中的至少一项来检测所述存储器健康状况:可纠正的存储器错误、不可纠正的存储器错误、温度水平、电压电平、性能指示、校准值以及用户发起的升级请求,或其任何组合。
8.如权利要求1所述的计算机处理系统,其特征在于,所述计算机处理器被进一步配置为在所述计算机处理系统启动处,在所述专用非易失性存储设备上执行内建自测(BIST)。
9.如权利要求1所述的计算机处理系统,其特征在于,所述计算机处理系统被集成到集成电路(IC)中。
10.如权利要求1所述的计算机系统,其特征在于,所述计算机系统被集成到选自包括以下各项的组中的设备中:机顶盒;娱乐单元;导航设备;通信设备;固定位置数据单元;移动位置数据单元;移动电话;蜂窝电话;计算机;便携式计算机;台式计算机;个人数字助理(PDA);监视器;计算机监视器;电视机;调谐器;无线电;卫星无线电;音乐播放器;数字音乐播放器;便携式音乐播放器;数字视频播放器;视频播放器;数字视频碟(DVD)播放器;以及便携式数字视频播放器。
11.一种计算机处理系统,包括:
用于检测与所述多个存储器插槽中的存储器插槽对接的存储器模块的存储器健康状况的装置;
用于将与所述多个存储器插槽中的所述存储器插槽对接的所述存储器模块标识为所述存储器健康状况的源的装置;
用于将存储在所述存储器模块中的数据传输到所述专用非易失性存储设备的装置;以及
用于致使电压门控被施加到存储器插槽以使存储器插槽成为不活跃的装置。
12.如权利要求11所述的计算机处理系统,其特征在于,进一步包括用于致使时钟门控被施加到所述存储器插槽的装置。
13.如权利要求11所述的计算机处理系统,其特征在于,进一步包括用于提供所述存储器模块不活跃的指示以促成所述存储器模块的移除的装置。
14.如权利要求11所述的计算机处理系统,其特征在于,进一步包括:
用于响应于所述存储器插槽接纳替换存储器模块,以恢复对所述存储器插槽的所述存储器模块的功率的装置;
用于在所述替换存储器模块上执行初始化规程的装置;以及
用于将数据从所述专用非易失性存储设备传输到所述替换存储器模块的装置。
15.如权利要求11所述的计算机处理系统,其特征在于,用于检测所述存储器健康状况的装置包括用于通过针对与所述多个存储器插槽中的所述存储器插槽对接的所述存储器模块检测包括以下各项的组中的至少一项来检测所述存储器健康状况的装置:可纠正的存储器错误、不可纠正的存储器错误、温度水平、电压电平、性能指示、校准值以及用户发起的升级请求,或其任何组合。
16.如权利要求11所述的计算机处理系统,其特征在于,进一步包括用于在所述计算机处理系统启动处,在所述专用非易失性存储设备上执行内建自测(BIST)的装置。
17.一种促成计算机处理系统的维护的方法,包括:
接收计算机处理系统的多个存储器模块中的存储器模块的存储器健康状况的指示;
确定所述存储器健康状况是否保证所述存储器模块的替换;以及
响应于确定所述存储器健康状况保证所述存储器模块的替换:
基于接收到所述存储器健康状况的所述指示,来阻止对所述存储器模块的存储器地址范围的访问;
发起存储在所述存储器模块中的数据到所述计算机处理系统的专用非易失性存储设备的传输;以及
将所述存储器模块的所述存储器地址范围重新映射到所述专用非易失性存储设备。
18.如权利要求17所述的方法,其特征在于,进一步包括发起所述存储器模块的存储器插槽的电压门控和时钟门控中的至少一者。
19.如权利要求17所述的方法,其特征在于,进一步包括:
阻止对所述专用非易失性存储设备的所述存储器地址范围的访问;
发起将数据从所述专用非易失性存储设备到替换存储器模块的传输;以及
将所述存储器地址范围重新映射到所述替换存储器模块。
20.如权利要求17所述的方法,其特征在于,接收所述存储器健康状况的所述指示包括,接收针对所述多个存储器插槽中的所述存储器插槽的包括以下各项的组中的至少一项的指示:可纠正的存储器错误、不可纠正的存储器错误、温度水平、电压电平、性能指示、校准值以及用户发起的升级请求,或其任何组合。
21.如权利要求17所述的方法,进一步包括:响应于确定所述存储器健康状况不保证所述存储器模块的替换,维护所述存储器健康状况的发生的记录。
22.如权利要求17所述的方法,其特征在于,确定所述存储器健康状况是否保证所述存储器模块的替换是基于存储器健康状况阈值和用户提供的替换指示中的至少一者的。
23.一种其上存储有计算机可执行指令的非瞬态计算机可读介质,所述指令在由处理器执行时致使所述处理器:
接收计算机处理系统的多个存储器模块中的存储器模块的存储器健康状况的指示;
确定所述存储器健康状况是否保证所述存储器模块的替换;以及
响应于确定所述存储器健康状况保证所述存储器模块的替换:
基于接收到所述存储器健康状况的所述指示,来阻止对所述存储器模块的存储器地址范围的访问;
发起存储在所述存储器模块中的数据到所述计算机处理系统的专用非易失性存储设备的传输;以及
将所述存储器模块的所述存储器地址范围重新映射到所述专用非易失性存储设备。
24.如权利要求23所述的其上存储有计算机可执行指令的非瞬态计算机可读介质,其特征在于,所述计算机可执行指令在由所述处理器执行时,进一步致使所述处理器发起所述存储器模块的存储器插槽的电压门控和时钟门控中的至少一者。
25.如权利要求23所述的其上存储有计算机可执行指令的非瞬态计算机可读介质,其特征在于,所述指令在由处理器执行时进一步致使所述处理器:
阻止对所述专用非易失性存储设备的所述存储器地址范围的访问;
发起将数据从所述专用非易失性存储设备到替换存储器模块的传输;以及
将所述存储器地址范围重新映射到所述替换存储器模块。
26.如权利要求23所述的其上存储有计算机可执行指令的非瞬态计算机可读介质,其特征在于,所述指令在由处理器执行时进一步致使所述处理器,通过以下操作来接收所述存储器健康状况的所述指示:接收针对所述多个存储器插槽中的所述存储器插槽的包括以下各项的组中的至少一项的指示:可纠正的存储器错误、不可纠正的存储器错误、温度水平、电压电平、性能指示、校准值以及用户发起的升级请求,或其任何组合。
27.如权利要求23所述的其上存储有计算机可执行指令的非瞬态计算机可读介质,其特征在于,所述指令在由处理器执行时进一步致使所述处理器:响应于确定所述存储器健康状况不保证所述存储器模块的替换,维护所述存储器健康状况发生的记录。
28.如权利要求23所述的其上存储有计算机可执行指令的非瞬态计算机可读介质,其特征在于,所述指令在由处理器执行时进一步致使所述处理器:基于存储器健康状况阈值和用户提供的替换指示中的至少一者来确定所述存储器健康状况是否保证所述存储器模块的替换。
CN201680047102.6A 2015-08-13 2016-07-15 计算机处理系统和促成计算机处理系统的维护的方法 Active CN108027754B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/825,495 2015-08-13
US14/825,495 US20170046212A1 (en) 2015-08-13 2015-08-13 Reducing system downtime during memory subsystem maintenance in a computer processing system
PCT/US2016/042492 WO2017027164A1 (en) 2015-08-13 2016-07-15 Reducing system downtime during memory subsystem maintenance in a computer processing system

Publications (2)

Publication Number Publication Date
CN108027754A true CN108027754A (zh) 2018-05-11
CN108027754B CN108027754B (zh) 2022-09-02

Family

ID=56550411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680047102.6A Active CN108027754B (zh) 2015-08-13 2016-07-15 计算机处理系统和促成计算机处理系统的维护的方法

Country Status (3)

Country Link
US (1) US20170046212A1 (zh)
CN (1) CN108027754B (zh)
WO (1) WO2017027164A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113661451A (zh) * 2019-04-16 2021-11-16 三菱电机株式会社 程序创建辅助装置、程序创建辅助方法及程序

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522175B (zh) 2017-09-18 2020-09-04 华为技术有限公司 一种内存评估的方法及装置

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6038680A (en) * 1996-12-11 2000-03-14 Compaq Computer Corporation Failover memory for a computer system
US20020129186A1 (en) * 1999-04-30 2002-09-12 Compaq Information Technologies Group, L.P. Replacement, upgrade and/or addition of hot-pluggable components in a computer system
CN1504908A (zh) * 2002-12-02 2004-06-16 ���ش�洢����ʽ���� 存储器系统及其控制方法
US20040243731A1 (en) * 2003-05-28 2004-12-02 Vu Paul H. Upgrading a memory subsystem
US20060217917A1 (en) * 2005-03-25 2006-09-28 Nec Corporation Memory system having a hot-swap function
US20060218451A1 (en) * 2005-03-24 2006-09-28 Nec Corporation Memory system with hot swapping function and method for replacing defective memory module
CN101542432A (zh) * 2006-11-21 2009-09-23 微软公司 替换系统硬件
US20100005366A1 (en) * 2008-07-01 2010-01-07 International Business Machines Corporation Cascade interconnect memory system with enhanced reliability
US20100162037A1 (en) * 2008-12-22 2010-06-24 International Business Machines Corporation Memory System having Spare Memory Devices Attached to a Local Interface Bus
US20100293439A1 (en) * 2009-05-18 2010-11-18 David Flynn Apparatus, system, and method for reconfiguring an array to operate with less storage elements
US20100293440A1 (en) * 2009-05-18 2010-11-18 Jonathan Thatcher Apparatus, system, and method to increase data integrity in a redundant storage system
CN103069402A (zh) * 2010-08-31 2013-04-24 高通股份有限公司 多通道dram系统中的负载平衡方案
CN103136116A (zh) * 2011-12-05 2013-06-05 财团法人工业技术研究院 存储器存储系统及其中控装置、管理方法与断电恢复方法
US20130227344A1 (en) * 2012-02-29 2013-08-29 Kyo-Min Sohn Device and method for repairing memory cell and memory system including the device
CN103389923A (zh) * 2013-07-25 2013-11-13 苏州国芯科技有限公司 随机存储器访问总线ecc校验装置
CN103455384A (zh) * 2012-06-01 2013-12-18 三星电子株式会社 包括非易失性存储器件的存储设备及修复方法
US8650343B1 (en) * 2007-08-30 2014-02-11 Virident Systems, Inc. Methods for upgrading, diagnosing, and maintaining replaceable non-volatile memory
US20140237292A1 (en) * 2013-02-21 2014-08-21 Advantest Corporation Gui implementations on central controller computer system for supporting protocol independent device testing
US20150039848A1 (en) * 2013-08-02 2015-02-05 Qual Comm Incorporated Methods and apparatuses for in-system field repair and recovery from memory failures

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7498836B1 (en) * 2003-09-19 2009-03-03 Xilinx, Inc. Programmable low power modes for embedded memory blocks
US8661184B2 (en) * 2010-01-27 2014-02-25 Fusion-Io, Inc. Managing non-volatile media
US9003223B2 (en) * 2012-09-27 2015-04-07 International Business Machines Corporation Physical memory fault mitigation in a computing environment
KR102153907B1 (ko) * 2013-12-11 2020-09-10 삼성전자주식회사 전압 레귤레이터, 메모리 컨트롤러 및 그것의 전압 공급 방법
EP2937785B1 (en) * 2014-04-25 2016-08-24 Fujitsu Limited A method of recovering application data
US9378090B2 (en) * 2014-06-16 2016-06-28 Seagate Technology Llc Cell-to-cell program interference aware data recovery when ECC fails with an optimum read reference voltage

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6038680A (en) * 1996-12-11 2000-03-14 Compaq Computer Corporation Failover memory for a computer system
US20020129186A1 (en) * 1999-04-30 2002-09-12 Compaq Information Technologies Group, L.P. Replacement, upgrade and/or addition of hot-pluggable components in a computer system
CN1504908A (zh) * 2002-12-02 2004-06-16 ���ش�洢����ʽ���� 存储器系统及其控制方法
US20040243731A1 (en) * 2003-05-28 2004-12-02 Vu Paul H. Upgrading a memory subsystem
US20060218451A1 (en) * 2005-03-24 2006-09-28 Nec Corporation Memory system with hot swapping function and method for replacing defective memory module
US20060217917A1 (en) * 2005-03-25 2006-09-28 Nec Corporation Memory system having a hot-swap function
CN101542432A (zh) * 2006-11-21 2009-09-23 微软公司 替换系统硬件
US8650343B1 (en) * 2007-08-30 2014-02-11 Virident Systems, Inc. Methods for upgrading, diagnosing, and maintaining replaceable non-volatile memory
US20100005366A1 (en) * 2008-07-01 2010-01-07 International Business Machines Corporation Cascade interconnect memory system with enhanced reliability
US20100162037A1 (en) * 2008-12-22 2010-06-24 International Business Machines Corporation Memory System having Spare Memory Devices Attached to a Local Interface Bus
US20100293440A1 (en) * 2009-05-18 2010-11-18 Jonathan Thatcher Apparatus, system, and method to increase data integrity in a redundant storage system
US20130036327A1 (en) * 2009-05-18 2013-02-07 Fusion-Io, Inc. Apparatus, system, and method for reconfiguring an array of storage elements
US20100293439A1 (en) * 2009-05-18 2010-11-18 David Flynn Apparatus, system, and method for reconfiguring an array to operate with less storage elements
CN103069402A (zh) * 2010-08-31 2013-04-24 高通股份有限公司 多通道dram系统中的负载平衡方案
CN103136116A (zh) * 2011-12-05 2013-06-05 财团法人工业技术研究院 存储器存储系统及其中控装置、管理方法与断电恢复方法
US20130227344A1 (en) * 2012-02-29 2013-08-29 Kyo-Min Sohn Device and method for repairing memory cell and memory system including the device
CN103455384A (zh) * 2012-06-01 2013-12-18 三星电子株式会社 包括非易失性存储器件的存储设备及修复方法
US20140237292A1 (en) * 2013-02-21 2014-08-21 Advantest Corporation Gui implementations on central controller computer system for supporting protocol independent device testing
CN103389923A (zh) * 2013-07-25 2013-11-13 苏州国芯科技有限公司 随机存储器访问总线ecc校验装置
US20150039848A1 (en) * 2013-08-02 2015-02-05 Qual Comm Incorporated Methods and apparatuses for in-system field repair and recovery from memory failures

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
(美(M.刘易斯)MORRIS LEWIS: "《Windows 98 MCSE学习指南》", 30 April 1999, pages: 39 - 40 *
(美)MARK MINASI BILL CAMARDA DAVID J.STANG KRIS ASHTON著: "《MS-DOS 6 技术精粹》", 31 August 1994, pages: 281 - 282 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113661451A (zh) * 2019-04-16 2021-11-16 三菱电机株式会社 程序创建辅助装置、程序创建辅助方法及程序

Also Published As

Publication number Publication date
US20170046212A1 (en) 2017-02-16
WO2017027164A1 (en) 2017-02-16
CN108027754B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN105608027B (zh) 非易失存储设备和访问非易失存储设备的方法
CN103119554B (zh) 提供平台无关的存储器逻辑
US8745323B2 (en) System and method for controller independent faulty memory replacement
CN106557145A (zh) 断电保护系统及其方法
US10255149B2 (en) Redundant storage device, server system having the same, and operation method thereof
US9940021B2 (en) Method and system for memory management and memory storage device thereof
EP3474282A2 (en) Method and apparatus for adjusting demarcation voltages based on cycle count metrics
CN107799150A (zh) 3d nand闪存的错误缓解
CN104335187A (zh) 独立于存储器控制器的存储备份
CN107636600A (zh) 高性能持久存储器
CN103999161A (zh) 用于相变存储器漂移管理的设备和方法
CN106462480A (zh) 用于处理持久存储器中的错误的技术
CN108027711A (zh) 用于管理固态驱动器的保留的高性能存储器区域的技术
US20140140142A1 (en) Memory storage device, memory controller thereof, and method for programming data thereof
CN104094351A (zh) 内存模块缓冲器数据存储
CN106445843A (zh) 使物理页面地址相关用于软判决解码
CN108153622A (zh) 一种故障处理的方法、装置和设备
CN104699577B (zh) 用于在分布式码字存储系统中定位故障管芯的计数器
US10395750B2 (en) System and method for post-package repair across DRAM banks and bank groups
US10866764B2 (en) Memory system with parity cache scheme and method of operating such memory system
CN106164873A (zh) 当到达寿命终止条件时约束写入固态存储器的方法和装置
US11360711B2 (en) Storage device temporarily suspending internal operation to provide short read response time for read request from host
EP3790012A1 (en) Defective bit line management in connection with a memory access
CN104781794A (zh) 用于非易失性存储器中的数据结构的暂时和持久状态之间的原地改变
US9009548B2 (en) Memory testing of three dimensional (3D) stacked memory

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant