CN113672430A

CN113672430A - 运行虚拟机的系统、操作其的方法、介质和存储器件

Info

Publication number: CN113672430A
Application number: CN202110270073.2A
Authority: CN
Inventors: 李钟荣; 金东润; 金玟赫; 吴知赫; 崔仁寿
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2020-05-15
Filing date: 2021-03-12
Publication date: 2021-11-19
Also published as: KR20210141156A; US20210357279A1; US11360837B2

Abstract

提供了运行虚拟机的系统、操作其的方法、介质和存储器件。一种操作运行虚拟机的系统的方法，所述虚拟机执行应用和操作系统(OS)，所述方法包括：执行从第一虚拟地址到第一物理地址的第一地址转换；识别所述第一物理地址当中的故障物理地址，每个故障物理地址对应于与故障存储单元相关联的相应第一物理地址；分析每个故障物理地址的行地址和列地址，并且基于对每个故障物理地址的所述行地址和所述列地址的分析，指定所述故障物理地址的故障类型；和基于故障地址，执行从第二虚拟地址到第二物理地址的第二地址转换，从而从所述第二物理地址中排除所述故障地址。

Description

运行虚拟机的系统、操作其的方法、介质和存储器件

相关申请的交叉引用

本申请要求于2020年5月15日在韩国知识产权局提交的韩国专利申请No.10-2020-0058448的权益，该专利申请的公开内容通过引用整体合并于此。

技术领域

本发明构思涉及数据处理系统，更具体地，涉及基于页面故障(page fault)来预测故障存储器并管理预测的故障存储器的系统以及处理该系统的操作系统的方法。

背景技术

许多公司及其计算机系统托管诸如数据中心的数据处理系统。数据中心用于分配所托管的应用和/或业务，并且包括通常被称为云的网络计算机资源，例如服务器、磁盘、虚拟机等。在这种配置中，公司是数据中心的客户。数据中心为客户提供许多优势，包括降低成本、易于扩展和减轻管理负担。

数据中心对大容量存储器的需求已经增加，以对大量数据进行稳定和快速的实时处理。然而，存储器的性能质量可能会随时间而变化。例如，当应用和/或业务被分配并使用存储器时，由于存储器中的故障可能会发生页面故障。当这种页面故障频繁发生时，指令的正常流程执行可能会中断，因此可能会发生数据中心的可用性约束，例如中止并重启已启动的操作。页面故障可能是由单个位故障或者两个或更多个位故障引起的。因此，当可以基于页面故障识别出故障存储器时，将可以预测由于故障存储器而导致的存储故障(memoryfault)。而且，为了维持数据中心的可用性，将需要预先管理预测的存储故障。

发明内容

本发明构思提供了基于页面故障来预测存储故障并管理预测的存储故障的系统以及处理该系统的操作系统的方法。

根据本发明的示例性实施例，操作运行虚拟机(所述虚拟机执行应用和操作系统(OS))的系统的方法包括：通过所述OS，执行从由所述应用处理的多个第一虚拟地址到用于访问存储器的多个第一物理地址的第一地址转换；通过所述OS，识别所述多个第一物理地址当中的多个故障物理地址，其中，所述多个故障物理地址中的每个故障物理地址对应于所述多个第一物理地址当中的与所述存储器的故障存储单元相关联的相应第一物理地址；通过所述OS，分析所述多个故障物理地址中的每个故障物理地址的行地址和列地址，并且通过所述OS，基于对所述多个故障物理地址中的每个故障物理地址的所述行地址和所述列地址的分析，指定所述多个故障物理地址的故障类型，其中，所述故障类型包括行故障、列故障或块故障；和通过所述OS，基于故障地址，执行从多个第二虚拟地址到多个第二物理地址的第二地址转换，从而从所述多个第二物理地址中排除所述故障地址。所述故障地址对应于所述多个故障物理地址的所述故障类型，并且包括所述行故障的故障行地址、所述列故障的故障列地址或所述块故障的故障块地址。

根据本发明的示例性实施例，一种非暂时性计算机可读记录介质存储用于执行操作运行虚拟机的系统的方法的计算机可执行指令，所述虚拟机执行应用和操作系统(OS)，所述方法包括：使用所述系统的处理器和存储器执行所述应用；执行从分配给所述应用的多个第一虚拟地址到用于访问所述存储器的多个第一物理地址的第一地址转换；在执行所述应用期间，识别从所述多个第一虚拟地址转换的所述多个第一物理地址当中的多个故障物理地址；指定所述多个故障物理地址的故障类型，其中，所述故障类型包括行故障、列故障或块故障；和基于故障地址，执行从多个第二虚拟地址到多个第二物理地址的第二地址转换，从而从所述多个第二物理地址中排除所述故障地址。所述故障地址对应于所述多个故障物理地址的所述故障类型，并且包括所述行故障的故障行地址、所述列故障的故障列地址或所述块故障的故障块地址。

根据本发明的示例性实施例，一种在虚拟机环境中操作的系统包括：存储器；和处理器，所述处理器可操作地耦接到所述存储器。所述处理器与所述存储器合作执行应用；执行从由所述应用处理的多个第一虚拟地址到用于访问所述存储器的多个第一物理地址的第一地址转换；识别所述多个第一物理地址当中的多个故障物理地址，其中，所述多个故障物理地址中的每个故障物理地址对应于所述多个第一物理地址当中的与所述存储器的故障存储单元相关联的第一物理地址；指定所述存储器的所述多个故障物理地址的故障类型，其中，所述故障类型包括行故障、列故障或块故障；和基于故障地址，执行从多个第二虚拟地址到多个第二物理地址的第二地址转换，以防止所述故障地址被用于所述第二地址转换。所述故障地址对应于所述多个故障物理地址的所述故障类型，并且包括所述行故障的故障行地址、所述列故障的故障列地址或所述块故障的故障块地址。所述处理器还被配置为在不使得所述系统重启的情况下，指定所述故障类型，存储所述故障地址，以及执行所述第二地址转换。

根据本发明的示例性实施例，一种存储器件包括：存储单元阵列，所述存储单元阵列包括多个存储单元；和修复控制电路，所述修复控制电路被配置为通过使用所述存储单元阵列中的多个冗余存储单元来修复所述多个存储单元中的多个故障存储单元。所述修复控制电路被配置为在所述存储器件重启期间从所述存储器件可操作地耦接到的处理器接收所述多个故障存储单元的源地址，并且利用所述多个冗余存储单元的目标地址来修复所述源地址。所述多个故障存储单元的所述源地址对应于包括所述多个故障存储单元的公共行地址、所述多个故障存储单元的公共列地址或所述多个故障存储单元的块地址的故障地址。在运行在所述处理器上的虚拟机的执行期间，识别所述多个故障存储单元。所述多个故障存储单元的所述故障地址被包括在由包括所述存储器件的系统用来访问所述存储器件的多个物理地址中。所述多个物理地址是从由所述处理器使用的多个虚拟地址转换而来的。

附图说明

通过以下结合附图的详细描述，将更清楚地理解本发明构思的实施例，在附图中：

图1是概念性地示出根据本发明构思的实施例的系统的框图；

图2是用于描述由图1的处理器执行的用于地址转换的地址映射的示例的图；

图3是示出图2的地址映射表的示例的图；

图4是用于描述图3的地址映射表的页表项的示例的图；

图5是用于描述图3的地址映射表中所示的基于行的故障属性的图；

图6是用于描述图3的地址映射表中所示的基于列的故障属性的表；

图7是用于描述图3的地址映射表中所示的基于块(block-based)的故障属性的图；

图8是根据本发明构思的实施例的处理系统的正在运行的(runtime)OS的方法的流程图；

图9是用于描述当图1的系统被启动时执行的修复操作的概念图；

图10至图12是用于描述在图1的存储器中执行的修复操作的图；和

图13是根据本发明构思的实施例的启动系统的方法的流程图。

具体实施方式

图1是概念性地示出根据本发明构思的实施例的可以用于基于页面故障来预测故障存储器并管理预测的故障存储器的示例系统的框图。

参照图1，系统100可以是包括用于执行数百个虚拟机VM的数十个主机或服务器的数据中心。尽管在图1中示出了下面将要描述的系统100的各个硬件组件，但是本发明构思不限于此，并且可以采用其他组件。系统100可以包括处理器110、存储器120和基本输入/输出系统(BIOS)存储器130。

处理器110可以通过存储器接口140通信地连接到存储器120。处理器110可以通过各种类型的接口150(例如，串行外围接口(SPI)或低引脚数(LPC)总线)连接到BIOS存储器130。连接到处理器110的存储器120和BIOS存储器130可以被称为系统存储器。

可以通过使用表达“连接”和/或“耦接(couple)”及其派生词来描述一些示例。这些术语不一定是彼此的同义词。例如，使用术语“连接”和/或“耦接”的描述可以指示两个或更多个元件彼此直接物理或电接触。另外，术语“连接”和/或“耦接”还可以表示两个或更多个元件彼此不直接接触，但仍彼此协作或相互作用。

根据一些实施例，系统100可以是例如诸如膝上型计算机、台式计算机、服务器计算机、工作站、便携式通信终端、个人数字助理(PDA)、便携式多媒体播放器(PMP)、智能电话或任何其他合适的计算机的计算设备、VM或其虚拟计算设备。或者，系统100可以是包括在计算系统中的组件之一，例如图形卡。

处理器110是用于在系统100中执行通用计算机操作的功能块，并且可以是诸如中央处理单元(CPU)、数字信号处理器(DSP)、网络处理器、应用处理器(AP)的处理器或任何其他用于执行代码的设备。

处理器110可以被配置为执行可以由一台或更多台机器执行的指令、软件、固件或它们的各种组合。处理器110可以包括任何数目的处理器核。例如，处理器110可以包括单核或诸如双核、四核和六核的多核。虽然图1示出了包括一个处理器110的系统100，但是根据实施例，系统100可以包括两个或更多个处理器。

处理器110可以在虚拟环境中执行软件。因此，系统100中的虚拟机VM可以包括应用APP和操作系统(OS)。由于虚拟机VM可以在用户开始和停止使用期间动态地变化，因此可以在处理器110上执行的虚拟机VM的数目可以变化。诸如OS的软件实体将处理器110视为能够同时执行若干虚拟机VM的逻辑处理器或处理元件。例如，n个(n是自然数)OS可以将处理器110视为n个逻辑处理器或n个处理元件。

在虚拟机VM中，每个应用APP使用虚拟地址空间，因此虚拟地址VA(即，可以被软件使用的地址)被使用。每个虚拟机VM中的OS可以控制特定应用APP访问给定存储器120时的时间点，并且可以至少在某种程度上控制由应用APP访问的地址。虚拟机VM中的OS可以执行和管理虚拟机VM中的虚拟地址VA与物理地址PA之间的映射。由OS生成的物理地址PA是系统100的整个存储器120中的物理地址空间的系统物理地址PA(即，可以被存储器控制器112使用以访问存储器120的物理地址)。OS可以执行虚拟地址VA与系统物理地址PA之间的地址转换(例如，地址映射)。

为了简要地说明系统100中的机器虚拟化，图1示出了两个虚拟机160和161。虚拟机160和161均包括OS和至少一个应用APP。根据一些实施例，可以执行多个虚拟机VM，并且处理器110可以通过将硬件加速和软件进行组合，就时间和存储器占用面积而言执行和实现大量应用APP和/或业务。在下文中，为了便于说明，将在系统100运行第一虚拟机160的假定下描述应用170和OS 180访问存储器120。

BIOS存储器130可以存储用于启动系统100的BIOS代码。BIOS存储器130可以由非易失性存储器件来实现。非易失性存储器件可以由电可擦除可编程只读存储器(EEPROM)、闪存、电阻RAM(RRAM)、磁性RAM(MRAM)、相变RAM(PRAM)、铁电体RAM(FRAM)、纳米浮栅存储器(NFGM)、聚合物RAM(PoRAM)或类似存储器来实现。

BIOS代码可以包括用于检测系统100的硬件组件(例如系统板、存储器120、磁盘驱动器和输入/输出(I/O)装置)并检查硬件组件是否正常工作的开机自检(POST)代码和/或POST代码的一部分。BIOS代码可以包括被配置为允许处理器110正常地与存储器120互操作的各种算法。

为了说明的简单起见，存储器接口140被示出为通过一条信号线连接在处理器110与存储器120之间，但是实际上可以通过多条信号线连接。存储器接口140包括用于将存储器控制器112和存储器120彼此连接的连接器。在示例实施例中，连接器可以被实现为引脚、球、信号线或其他硬件组件。例如，可以通过存储器接口140在存储器控制器112与存储器120之间交换时钟、命令、地址、数据等。存储器接口140可以被实现为包括多条信号线的一个信道，或者可以被实现为多个信道。而且，一个或更多个存储器120可以连接到多个信道中的相应信道。

处理器110可以包括存储器控制器112，该存储器控制器112控制发送到存储器120的数据/从存储器120接收的数据。存储器控制器112可以根据处理器110的存储请求来访问存储器120，并且系统物理地址可以被提供以访问存储器120。存储器控制器112可以包括存储器物理层接口，即，用于存储器接口例如选择与存储单元相对应的行和列、将数据写入存储单元或读取所写入的数据的存储器PHY。执行上述功能的存储器控制器112可以以各种形式实现。例如，存储器控制器112可以由一个或更多个硬件组件(例如，模拟电路、逻辑电路)以及软件和/或固件的程序代码来实现。存储器控制器112可以被集成到处理器110中，使得处理器110可以以高速率和/或低功耗来访问存储器120。

用于系统100的操作的数据可以存储在存储器120中或从存储器120加载。处理器110处理或将要处理的数据可以存储在存储器120中或从存储器120读取。存储器120可以包括诸如静态随机存取存储器(SRAM)和动态随机存取存储器(DRAM)的易失性存储器和/或诸如闪存、RRAM、MRAM、PRAM和FRAM的非易失性存储器。

存储器120可以包括用于存储数据的存储单元。可以使用地址来访问存储单元。可以将写入数据写入到由地址指示的存储单元，并且可以从由地址指示的存储单元加载读取数据。在本公开中，存储器120中的一个存储区域可以包括存储单元阵列，存储单元阵列具有使用多个地址被访问的多个存储单元。

存储器120可以被配置为当存储区域中的存储单元故障时用冗余单元来修复故障单元。存储器120能够用冗余单元执行封装后修复(PPR)，该封装后修复修复由于连续使用而另外出现的故障单元。

处理器110可以向存储器120提供地址，以交换在应用170执行期间从存储器120读取以及存储在存储器120中的数据。存储器120可以基于从处理器110接收的请求(例如，命令和地址)来存储或读取数据。

同时，由应用170处理的地址可以被称为虚拟地址VA，而用于访问存储器120的地址可以被称为系统物理地址PA(即，物理地址)。OS 180可以执行由应用APP处理的虚拟地址VA与用于存储器120的系统物理地址PA之间的地址转换。在示例实施例中，由处理器110处理的应用170可以参考虚拟地址VA进行操作，并且在访问存储器时，可以使用从虚拟地址VA转换而来的系统物理地址PA。

图2是用于描述由图1的处理器110执行的用于地址转换的地址映射的示例的图。

参照图1和图2，存储器120的系统物理地址PA范围为从地址零(0)至上级(upperlevel)。应用170可以具有从存储器120的系统物理地址PA范围的上级开始的虚拟地址VA范围。虚拟地址VA的每个地址Pa可以被映射到存储器120的系统物理地址PA的地址Pg(或地址空间)。OS 180可以将由应用170请求进行存储器访问的页面分配给存储器120的页面。这时，从虚拟地址Pa指定给相应系统物理地址Pg的编号(reference)可以作为页表项PTE存储在地址映射表200中。页面可以是地址转换的单位。换句话说，虚拟页面中的地址可以被转换为相应物理页面中的地址。页面可以具有从4千字节到兆字节甚至千兆字节范围内的各种大小。

注意，图2中所示的地址的位置和大小仅是示例，并且不一定是针对实际存储器的地址的示例。而且，图2中所示的示例存储器不代表或暗示对本发明构思的限制。

图3是示出图2的地址映射表200的示例的图。

参照图2和图3，OS 180可以管理地址映射表200。地址映射表200的页表项PTE可以包括关于虚拟地址VA与系统物理地址PA之间的映射关系的信息。例如，地址映射表200可以以查找表的形式实现。OS 180可以通过参考地址映射表200的页表项PTE将虚拟地址VA转换为系统物理地址PA。

例如，虚拟地址Va1可以对应于系统物理地址Pa1。当OS 180从应用170接收到虚拟地址Va1时，OS 180可以将虚拟地址Va1映射到系统物理地址Pa1。OS 180可以与由系统物理地址Pa1指示的存储单元相关联地处理和虚拟地址Va1一起从应用170接收到的请求。

类似地，根据地址映射表200中的相应信息，OS 180可以将虚拟地址Va2和Va3映射到系统物理地址Pa2和Pa3，将虚拟地址Vb1、Vb2和Vb3映射到系统物理地址Pb1、Pb2、Pb3以及将虚拟地址Vc1、Vc2、Vc3、Vc4和Vc5映射到系统物理地址Pc1、Pc2、Pc3、Pc4和Pc5。OS 180可以处理来自应用170的、与由对应于虚拟地址Va2、Va3、Vb1、Vb2、Vb3、Vc1、Vc2和Vc3的系统物理地址Pa2、Pa3、Pb1、Pb2、Pb3、Pc1、Pc2、Pc3、Pc4和Pc5指示的存储单元相关联的请求。

图4是用于描述图3的地址映射表200的页表项PTE的示例的图。

参照图4，地址映射表200的页表项PTE可以是包含转换数据的转换表，转换数据可以用于将虚拟地址VA转换为系统物理地址PA。转换表可以以任何方式存储转换数据。例如，取决于转换级别(translation level)，虚拟地址VA位或系统物理地址PA的各种子集可以用于索引转换表的级别。而且，每个级别可以位于转换的末尾(即，存储用于转换的实际页号)，或者可以以分层的方式指向另一个表(由另一组地址位索引)。

页表项PTE可以以分层的方式包括指向其他页表的指针。页表项PTE可以指示页表层结构中的级别，例如页面映射级别2、3或4，在该级别上需要针对映射到相应页表项PTE的请求开始转换。因此，页面映射级别2、3或4的表的页表项PTE可以包括任意数目的位项。

图4所示的页表项PTE是第一级转换表。在第一级转换表中，提供了与地址转换有关的字段，以将虚拟地址映射到系统物理地址。然而，本发明不限于此。在示例实施例中，本发明可以应用于第二级地址转换表，第二级地址转换表中的单个位字段和/或多个位字段可以被提供，以用于转换级别标识、表的深度、转换无效/有效的指示等。参考一个位字段或更多个位字段可以发生进一步的操作，以完成地址转换。在本实施例中，页表项PTE与虚拟页面地址位到实际系统物理页面地址位的转换有关，并且例如是64位项。

页表项PTE可以包括虚拟地址VA字段和系统物理地址PA字段。虚拟地址VA字段被配置为增加要由应用170使用的虚拟地址空间，并且系统物理地址PA字段指示与虚拟地址VA相对应的存储器120的地址。例如，系统物理地址PA字段可以包括PTE[11:0]位，并且虚拟地址VA字段可以包括PTE[63:12]位。系统物理地址PA字段可以包括行地址R[5：0]位和列地址C[5:0]位。

图5是用于描述图3的地址映射表中所示的基于行的故障属性的图。

参照图5，根据在处理器110上执行的应用170的虚拟地址Va1、Va2和Va3，OS 180可以提供与虚拟地址Va1、Va2和Va3相对应的系统物理地址Pa1、Pa2和Pa3以用于访问存储器120。例如，与虚拟地址Va1相对应的系统物理地址Pa1可以被提供为行地址R[5:0]位011000和列地址C[5:0]位000001。处理器110可以通过存储器控制器112访问由行地址R[5:0]位011000和列地址C[5:0]位000001指示的存储单元来执行应用170。

类似地，与虚拟地址Va2相对应的系统物理地址Pa2可以被提供为行地址R[5:0]位011000和列地址C[5:0]位000010，并且与虚拟地址Va3的相对应的系统物理地址Pa3可以被提供为011000的行地址R[5:0]位和000100的列地址C[5:0]位。处理器110可以通过存储器控制器112访问由系统物理地址Pa2的行地址R[5：0]位011000和列地址C[5:0]位000010指示的存储单元以及由系统物理地址Pa3的行地址R[5:0]位011000和列地址C[5:0]位000100指示的存储单元来执行应用170。

然而，与存储器120的系统物理地址Pa2相关联的执行不能正确地操作。而且，与存储器120的系统物理地址Pa3相关联的执行不能正确地操作。换句话说，可能会发生页面故障。例如，在应用170的多个执行路径当中，在关于存储器120的执行路径中可能会发生错误。详细地，存储错误可能发生在系统物理地址Pa2和Pa3处。此类存储错误的主要原因之一是由系统物理地址Pa2和Pa3寻址的存储单元故障，即检测到硬件异常事件。

通常，当此类异常事件频繁发生时，正在运行的系统100可能会停止，并且可能会尝试恢复系统100(即，重启系统100)。这样的解决方案不能实现系统100的加速。OS 180可以在不停止系统100的情况下执行控制以处理异常事件。OS 180可以通过将来自处理器110的硬件支持与OS代码相结合来继续操作系统100。如下面更详细描述的，可以提供用于该功能的OS 180的机制。

OS 180可以获知(即，识别)系统物理地址Pa2和Pa3的故障页面(即，故障物理地址)。在示例实施例中，故障地址可以指与故障存储单元相关联的物理地址。OS 180可以观察(即，分析)在系统物理地址Pa2和Pa3处识别的行地址R[5:0]的位和列地址C[5:0]的位，从而确定系统物理地址Pa2和Pa3具有相同的行地址R[5:0]位011000。由于由系统物理地址Pa2和Pa3寻址的存储单元具有相同的行地址(即，共同的行地址)，OS 180可以预料通过该行地址访问的存储单元很可能出现故障。因此，OS 180可以将存储器120的存储区域中的通过行地址R[5:0]位011000访问的存储单元的故障类型预测或认为是可能的基于行的故障。在下文中，行地址R[5:0]位011000可以被称为行故障的故障行地址FRA。

尽管通过存储器120的系统物理地址Pa1的行地址R[5:0]位011000访问的存储单元没有故障，但是可以赋予OS 180特权以指定通过行地址R[5:0]位011000访问的存储单元为基于行的故障。当OS 180转换与在处理器110上执行的应用170的虚拟地址VA相对应的系统物理地址PA时，OS 180不将故障行地址FRA提供为系统物理地址PA，从而基于行的故障存储单元不被选择。而且，OS 180可以将故障行地址FRA存储在BIOS存储器130(图1)中。

图6是用于描述图3的地址映射表中所示的基于列的故障属性的表。

参照图6，根据在处理器110上执行的应用170的虚拟地址Vb1、Vb2和Vb3，OS 180可以提供与虚拟地址Vb1、Vb2和Vb3相对应的系统物理地址Pb1、Pb2和Pb3以用于访问存储器120。例如，与虚拟地址Vb1相对应的系统物理地址Pb1可以被提供为行地址R[5:0]位100000和列地址C[5:0]位000011。处理器110可以通过存储器控制器112访问由系统物理地址Pb1的行地址R[5：0]位100000和列地址C[5：0]位000011指示的存储单元来执行应用170。

类似地，与虚拟地址Vb2相对应的系统物理地址Pb2可以被提供为行地址R[5:0]位010000和列地址C[5:0]位000011，并且与虚拟地址Vb3相对应的地址Pb3可以被提供为行地址R[5:0]位001000和列地址C[5:0]位000011。处理器110可以通过存储器控制器112访问由系统物理地址Pb2的行地址R[5:0]位010000和列地址C[5:0]位000011指示的存储单元以及由系统物理地址Pb3的行地址R[5:0]位001000和列地址C[5:0]位000011指示的存储单元来运行应用170。

然而，与存储器120的系统物理地址Pb2相关联的执行和与存储器120系统物理地址Pb3相关联的执行无法正确地操作。在应用170的执行期间，在系统物理地址Pb2和Pb3处可能发生存储错误。OS 180可以获知系统物理地址Pb2和Pb3的故障页面。OS 180可以观察在系统物理地址Pb2和Pb3处识别的行地址R[5:0]的位和列地址C[5:0]的位。OS 180可以确定系统物理地址Pb2和Pb3具有相同的列地址C[5:0]位000011。由于由系统物理地址Pb2和Pb3寻址的存储单元具有相同的列地址，所以OS 180可以预料通过列地址访问的存储单元很可能出现故障。因此，OS 180可以将存储器120的存储区域中的通过列地址C[5:0]位000011访问的存储单元的故障类型预测为或认为是可能的基于列的故障。在下文中，列地址C[5:0]位000011可以被称为列故障的故障列地址FRA。

尽管通过存储器120的系统物理地址Pb1的列地址C[5:0]位000011访问的存储单元没有故障，但是OS 180可以将通过列地址C[5:0]位000011访问的存储单元指定为基于列的故障。当OS 180转换与在处理器110上执行的应用170的虚拟地址VA相对应的系统物理地址PA时，OS 180不将故障列地址FCA提供为系统物理地址PA，使得该基于列的故障存储单元不被选择。而且，OS 180可以将故障列地址FCA存储在图1的BIOS存储器130中。

如图5和图6所示，OS 180可以将如上已经描述的两个故障页面指定为基于行的故障或基于列的故障。本发明不限于此。在示例实施例中，当故障页面的数目超过参考值时，OS 180可以将三个或更多个故障页面指定为基于行的故障或基于列的故障。在该实施例中，参考值可以被设置为n(n是等于或大于2的自然数)。根据其他实施例，参考值可以被不同地设置并且也可以被改变。

图7是用于描述图3的地址映射表中所示的基于块的故障属性的图。

参照图7，根据在处理器110上执行的应用170的虚拟地址Vc1、Vc2、Vc3、Vc4和Vc5，OS 180可以提供与虚拟地址Vc1、Vc2、Vc3、Vc4和Vc5相对应的系统物理地址Pc1、Pc2、Pc3、Pc4和Pc5，以用于访问存储器120。例如，与虚拟地址Vc1相对应的系统物理地址Pc1可以被提供为行地址R[5:0]位110001和列地址C[5:0]位111000。与虚拟地址Vc2相对应的系统物理地址Pc2可以被提供为行地址R[5:0]位110010和列地址C[5:0]位111010，与虚拟地址Vc3相对应的系统物理地址Pc3可以被提供为行地址R[5:0]位110100和列地址C[5:0]位110000，与虚拟地址Vc4相对应的系统物理地址Pc4可以被提供为行地址R[5:0]位111000和列地址C[5:0]位110010，并且与虚拟地址Vc5相对应的物理地址Pc5可以被提供为行地址R[5:0]位111111和列地址C[5:0]位110100。处理器110可以通过存储器控制器112访问由系统物理地址Pc1、Pc2、Pc3、Pc4和Pc5指示的存储单元，从而执行应用170。

然而，与存储器120的系统物理地址Pc1、Pc2、Pc3、Pc4和Pc5相关联的执行无法正确地操作。在应用170的执行期间，在系统物理地址Pc1、Pc2、Pc3、Pc4和Pc5处可能发生存储错误。OS 180可以获知系统物理地址Pc1、Pc2、Pc3、Pc4和Pc5的故障页面。OS 180可以观察在系统物理地址Pc1、Pc2、Pc3、Pc4和Pc5处识别的行地址R[5：0]的位和列地址C[5:0]的位。OS 180可以确定系统物理地址Pc1、Pc2、Pc3、Pc4和Pc5的行地址R[5:0]的最高两个位(即，位R[5:4]11)相同并且列地址C[5:0]的最高两个位(即位C[5:4]11)相同。

通常，为了访问存储单元，存储器120可以被配置为通过使用行译码器顺序地对行地址位进行译码，生成译码后的行地址信号，并且激活与译码后的行地址信号相对应的字线。这里，译码后的行地址信号线可以从存储区域的底部或顶部沿行方向布置，其中，行地址的高位可以用作基于存储区域的中央对上侧或下侧的特定区域进行寻址的信号。类似地，存储器120被配置为通过使用列译码器顺序地对列地址位进行译码，生成译码后的列地址信号，并且激活与译码后的列地址信号相对应的位线。这里，译码后的列地址信号线可以从存储区域的左侧或右侧沿列方向布置，其中列地址的高位可以用作基于存储区域的中央对左侧或右侧的特定区域进行寻址的信号。

由于由系统物理地址Pc1、Pc2、Pc3、Pc4和Pc5寻址的存储单元具有相同的高行地址位和相同的高列地址位，OS 180可以预料通过相同的高行地址位和相同的高列地址位访问的存储单元很可能出现故障。因此，OS 180可以将存储器120的存储区域中的通过高行地址位R[5:4]11和高列地址位C[5:4]11访问的存储单元的故障类型预测或认为是可能的基于块的故障。在下文中，高行地址位R[5:4]11和高列地址位C[5:4]11可以被称为块故障的故障块地址(FBA)。故障行地址、故障列地址、故障块地址可以被称为故障地址，其可以被存储在BIOS中，并且在封装后修复中，可以对应于将被冗余单元的目标地址替换或修复的源地址。

OS 180可以将通过高行地址位R[5:4]11和高列地址位C[5:4]11访问的存储单元指定为基于块的故障。当OS 180转换与在处理器110上执行的应用170的虚拟地址VA相对应的系统物理地址PA时，OS 180不将故障块地址FBA提供为系统物理地址PA，使得基于块的故障存储单元不被选择。而且，OS 180可以将故障块地址FBA存储在BIOS存储器130(图1)中。

如图7所示，上面已经描述了OS 180通过参考五个故障页面来处理OS 180的基于块的故障的权限，但是当故障页面的数目超过参考值时，可以给予这种权限。在该实施例中，参考值可以被设置为n(n是等于或大于5的自然数)。根据其他实施例，参考值可以被不同地设置并且也可以被改变。

图8是根据本发明构思的实施例的处理系统100的正在运行的OS的方法的流程图。

参照图1、图2和图8，当系统100正在工作时，可以在提供机器虚拟化以与处理器110协作执行应用170时执行OS 180(操作S810)。虚拟机VM中的OS 180可以执行要由应用170处理的虚拟地址VA与用于存储器120的系统物理地址PA之间的第一地址转换。在示例实施例中，处理器110(即，在由处理器110执行的虚拟机VM中工作的OS)可以使用虚拟地址VA执行应用170，并且在访问存储器120时可以使用从虚拟地址VA转换的系统物理地址PA。当在应用170的执行期间发生至少一个页面故障时，OS 180可以获知(即，识别)系统物理地址PA当中的故障页面(操作S812)。

OS 180可以对故障页面进行计数并且判定故障页面的数目是否超过参考值(操作S813)。当判定出故障页面的数目超过参考值时，OS 180可以观察(即，分析)从故障页面的系统物理地址PA识别的行地址RA的位和列地址CA的位(操作S814)。当判定出故障页面的数目不超过参考值时，OS 180可以继续操作应用170并且进行到操作S812。

OS 180可以预测在故障页面的系统物理地址PA中的相同的不良地址位处出现的可能的故障地址属性(操作S815)。OS 180可以将系统物理地址PA的可能的故障地址属性(即，故障类型)指定为基于行的故障、基于列的故障或基于块的故障。基于可能的故障地址属性的规范，当OS 180执行虚拟地址与存储器120的系统物理地址之间的第二地址转换时，OS 180不将特定故障类型的故障系统物理地址(例如，基于行的故障或行故障、基于列的故障或列故障、或者基于块的故障或块故障)提供为系统物理地址(操作S816)。本发明不限于此。在示例实施例中，当另一虚拟机与处理器110合作执行应用时，另一虚拟机的OS可以基于故障系统物理地址来执行地址转换，以防止故障系统物理地址在转换中被使用。在示例实施例中，故障系统物理地址可以作为故障地址存储在处理器110的本地系统存储器中，并且可以被至少一个虚拟机参考，或者如果先前存储在BIOS存储器130中，则可以从BIOS存储器130被上传到本地系统存储器。而且，OS 180可以将故障系统物理地址作为故障地址存储在BIOS存储器130中(操作S820)。

在OS 180处理页面故障时，系统100的操作不被中断或不被重启，并且该方法行进到操作S810。因此，可以维持系统100的可用性。

图9是用于描述当图1的系统100被启动时执行的修复操作的概念图。

参照图9，BIOS存储器130可以存储用于启动系统100的BIOS代码。而且，BIOS存储器130可以存储由OS 180指定为故障行地址FRA、故障列地址FCA和/或故障块地址FBA的故障地址。故障行地址FRA、故障列地址FCA和/或故障块地址FBA可以存储在非易失性存储单元(NVM部件)930中。非易失性存储单元930是构成BIOS存储器130的非易失性存储器件的一部分。

系统100可以在系统100通电时执行启动操作，该启动操作为由处理器110执行BIOS存储器130中的部分BIOS代码。用于存储器120的存储训练(memory training)可以被包括在由处理器110执行BIOS代码的启动操作中。可以对存储器控制器112执行存储训练，以确定存储器120的核参数和/或外围电路参数的优化参数。在下文中，为了便于说明，存储器120将被统称为动态随机存取存储器(DRAM)120。DRAM 120可以是同步DRAM(SDRAM)、双倍数据速率SDRAM(DDR SDRAM)、低功耗双倍数据速率SDRAM(LPDDR SDRAM)、图形双倍数据速率SDRAM(GDDR SDRAM)、DDR2SDRAM、DDR3 SDRAM、DDR4 SDRAM、DDR5 SDRAM、宽I/O DRAM、高带宽存储器(HBM)和混合存储器多维数据集(HMC)中的任意一种。

当系统100启动时，存储器控制器112可以根据在寄存器控制字(RCW)中设置的算法来初始化DRAM 120，并且对DRAM 120执行存储训练。通过使用被提供有在存储器控制器112与DRAM 120之间进行有效通信所需的信号、频率、定时、驱动、详细的操作参数以及功能的存储器PHY来执行存储训练。存储器控制器112可以在DRAM 120的存储训练之后将存储在BIOS存储器130的非易失性存储单元930中的故障行地址FRA、故障列地址FCA和/或故障块地址FRA提供给DRAM 120。

DRAM 120可以修复存储单元阵列中的显示故障特征的故障单元。存储单元阵列可以包括多条字线、多条位线以及形成在字线和位线彼此相交的点处的多个存储单元。DRAM120可以包括被配置为用冗余单元来修复故障单元的修复控制电路920。修复控制电路920可以修复在DRAM 120的半导体制造过程之后通过测试检测到的故障单元。而且，修复控制电路920可以执行用冗余单元修复在DRAM 120的连续使用期间发生的故障单元的封装后修复(PPR)。

修复控制电路920可以执行PPR以分别用冗余行地址RRA、冗余列地址RCA和/或冗余块地址RBA替换故障行地址FRA、故障列地址FCA和/或故障块地址FBA。修复控制电路920可以将关于替换了需要被修复的源地址S_ADDR(即，故障行地址FRA、故障列地址FCA和/或故障块地址FBA)的目标地址D_ADDR(即，冗余行地址RRA、冗余列地址RCA和/或冗余块地址RBA)的信息存储在地址存储表921(即，地址存储电路)中。在示例实施例中，地址存储表921可以被包括在修复控制电路920或存储器120中。

地址存储表921可以包括例如反熔丝阵列或内容可寻址存储器(CAM)。反熔丝是电特性与熔丝元件的电特性相反、在未被编程的状态下具有高电阻值并且在被编程的状态下具有低电阻值的电阻熔丝元件。CAM是同时将输入地址与存储在各个CAM项中的源地址S_ADDR进行比较的特殊存储结构，并且CAM的输出指示源地址S_ADDR(如果有)与目标地址D_ADDR匹配。

修复控制电路920可以将地址存储表921提供给存储器控制器112。在示例实施例中，存储器控制器112可以访问地址存储表921以更新存储在地址存储表921中的信息或从地址存储表921读取信息。存储器控制器112可以将地址存储表921信息存储为存储器管理信息910，以用于至少一个处理器110对DRAM 120的一致访问。地址存储表921信息可以被至少一个处理器110共享。当至少一个处理器110在应用170的执行期间执行存储器分配的操作时，基于地址存储表921中的信息执行存储器分配操作。因此，至少一个处理器110可以通过使用存储器管理信息910来执行通常被称为存储器管理器的功能的功能，即，管理DRAM120中的OS 180的地址空间以及为使用DRAM 120的其他虚拟机VM均匀地分配存储区域。

图10至图12是用于描述在图1的存储器120中执行的修复操作的图。

在图10中，假定用冗余行地址RRA修复故障行地址FRA。存储单元阵列1000a可以包括普通单元阵列NMCA和冗余单元阵列RMCA。普通单元阵列NMCA可以包括连接到字线和位线的存储单元，而冗余单元阵列RMCA可以包括连接到冗余字线和冗余位线的存储单元(在本文中也称为冗余单元)。修复控制电路920可以包括行修复器922(即，行修复电路，也称为行修复部件)，行修复器922确定冗余行地址RRA，使得用于修复故障行地址FRA的冗余资源彼此不重叠。

行修复器922可以执行修复操作，使得选择冗余行地址RRA而不是故障行地址FRA。当施加到存储器的访问行地址指定普通单元阵列NMCA的故障行地址FRA时，选择与冗余单元阵列RMCA的冗余行地址RRA相对应的冗余单元。行修复器922停用与故障行地址FRA相对应的字线，并且激活与冗余行地址RRA相对应的冗余字线。因此，选择与冗余行地址RRA相对应的冗余单元而不是与故障行地址FRA相对应的存储单元。

在图11中，假定用冗余列地址RCA修复故障列地址FCA。存储单元阵列1000b可以包括普通单元阵列NMCA和冗余单元阵列RMCA。普通单元阵列NMCA可以包括连接到字线和位线的存储单元，而冗余单元阵列RMCA可以包括连接到冗余字线和冗余位线的存储单元。修复控制电路920可以包括列修复器924(即，列修复部件)，列修复器924确定冗余列地址RCA，使得用于修复故障列地址FRA的冗余资源彼此不重叠。

列修复器924可以执行修复操作，使得选择冗余列地址RCA而不是故障列地址FCA。当施加到存储器的访问列地址指定普通单元阵列NMCA的故障列地址FCA时，选择与冗余单元阵列RMCA的冗余列地址RCA相对应的冗余单元。列修复器924防止与故障列地址FCA相对应的位线被选择，而是选择与冗余列地址RCA相对应的冗余位线。因此，选择与冗余列地址RCA相对应的冗余单元而不是与故障列地址FCA相对应的存储单元。

在图12中，假定用冗余块地址RBA修复故障块地址FBA。存储单元阵列1000c可以包括普通单元阵列NMCA和冗余单元阵列RMCA。普通单元阵列NMCA可以包括连接到字线和位线的存储单元，而冗余单元阵列RMCA可以包括连接到冗余字线和冗余位线的存储单元。修复控制电路920可以包括块修复器926(即，块修复部件)，块修复器926确定冗余块地址RBA，使得用于修复故障块地址FBA的冗余资源彼此不重叠。

块修复器926可以执行修复操作，使得选择冗余块地址RBA而不是故障块地址FBA。当施加到存储器的访问行地址和访问列地址指定指示普通单元阵列NMCA的某个区域的故障块地址FBA时，选择与冗余单元阵列RMCA的冗余块地址RBA相对应的冗余单元区域。块修复器926防止与故障块地址FBA相对应的存储区域中的存储单元被选择，而是选择与冗余块地址RBA相对应的存储区域中的冗余单元。

图13是根据本发明构思的实施例的启动系统100的方法的流程图。

参照图1、图9和图13，当系统100通电时(操作S1310)，存储器120可以执行启动操作，以通过处理器110执行BIOS存储器130中的一部分BIOS代码。可以通过处理器110在执行BIOS代码的启动操作当中执行存储器120的存储训练(操作S1313)。可以对存储器控制器112执行存储训练，以确定存储器120的核参数和/或外围电路参数的优化参数。在存储训练(操作S1313)之后，可以向存储器120发送存储在BIOS存储器130中的故障系统物理地址(例如，故障行地址FRA、故障列地址FCA和/或故障块地址FBA)(操作S1320)。

存储器120可以执行用于修复故障系统物理地址的操作(操作S1314)。如上所述，存储器120可以用冗余行地址RRA修复故障行地址FRA。存储器可以用冗余列地址RCA修复故障列地址FCA。存储器可以用冗余块地址RBA修复故障块地址FBA。存储器120可以修复故障系统物理地址，从而以最大的效率使用存储器120的资源。

本发明构思的实施例可以以许多不同类型的系统实现。此外，本发明构思的实施例可以用代码来实现并且可以被存储在包括非暂时性机器可读存储介质的物品中，该非暂时性机器可读存储介质存储可以被用来对系统进行编程以执行指令的指令。非暂时性存储介质可以包括但不限于任何类型的盘，包括软盘、光盘、固态硬盘(SSD)、光盘只读存储器(CD-ROM)、可擦写光盘(CD-RW)、磁光盘、ROM、诸如动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)的随机存取存储器(RAM)、诸如可擦除可编程只读存储器(EPROM)、闪存和电可擦除可编程只读存储器(EEPROM)的半导体型器件、磁卡或光卡、或者任何其他适合存储电子指令的介质。

尽管已经参照本发明构思的实施例具体示出和描述了本发明构思，但是应当理解的是，在不脱离所附权利要求的精神和范围的情况下，可以对本文进行形式和细节上的各种改变。

Claims

1.一种操作运行虚拟机的系统的方法，所述虚拟机执行应用和操作系统，所述方法包括：

通过所述操作系统，执行从由所述应用处理的多个第一虚拟地址到用于访问存储器的多个第一物理地址的第一地址转换；

通过所述操作系统，识别所述多个第一物理地址当中的多个故障物理地址，其中，所述多个故障物理地址中的每个故障物理地址对应于所述多个第一物理地址当中的与所述存储器的故障存储单元相关联的相应第一物理地址；

通过所述操作系统，分析所述多个故障物理地址中的每个故障物理地址的行地址和列地址，并且通过所述操作系统，基于对所述多个故障物理地址中的每个故障物理地址的所述行地址和所述列地址的分析，指定所述多个故障物理地址的故障类型，其中，所述故障类型包括行故障、列故障或块故障；和

通过所述操作系统，基于故障地址，执行从多个第二虚拟地址到多个第二物理地址的第二地址转换，从而从所述多个第二物理地址中排除所述故障地址，

其中，所述故障地址对应于所述多个故障物理地址的所述故障类型，并且包括所述行故障的故障行地址、所述列故障的故障列地址或所述块故障的故障块地址。

2.根据权利要求1所述的方法，

其中，在不重启所述系统的情况下，执行对所述多个故障物理地址的所述故障类型的指定。

3.根据权利要求1所述的方法，所述方法还包括：

通过所述操作系统，判定所述多个故障物理地址的数目是否大于参考值；

其中，响应于判定出所述多个故障物理地址的数目大于所述参考值，执行对所述多个故障物理地址中的每个故障物理地址的所述行地址和所述列地址的分析以及对所述多个故障物理地址的所述故障类型的指定。

4.根据权利要求1所述的方法，所述方法还包括：

通过所述操作系统，将所述故障地址存储在所述系统的BIOS存储器中。

5.根据权利要求4所述的方法，所述方法还包括：

在存储所述故障地址之后，重启所述系统，

其中，所述的重启所述系统包括：

从所述BIOS存储器读取所述故障地址，并且将所述故障地址提供给所述存储器；和

对所述存储器的所述故障地址执行修复操作。

6.根据权利要求5所述的方法，

其中，所述的执行所述修复操作包括用冗余行地址替换所述故障地址中的所述故障行地址。

7.根据权利要求5所述的方法，

其中，所述的执行所述修复操作包括用冗余列地址替换所述故障地址中的所述故障列地址。

8.根据权利要求5所述的方法，

其中，所述的执行所述修复操作包括用冗余块地址替换所述故障地址中的所述故障块地址。

9.一种非暂时性计算机可读记录介质，所述非暂时性计算机可读记录介质存储用于执行操作运行虚拟机的系统的方法的计算机可执行指令，所述虚拟机执行应用和操作系统，所述方法包括：

使用所述系统的处理器和存储器执行所述应用；

执行从分配给所述应用的多个第一虚拟地址到用于访问所述存储器的多个第一物理地址的第一地址转换；

在执行所述应用期间，识别从所述多个第一虚拟地址转换的所述多个第一物理地址当中的多个故障物理地址；

指定所述多个故障物理地址的故障类型，其中，所述故障类型包括行故障、列故障或块故障；和

基于故障地址，执行从多个第二虚拟地址到多个第二物理地址的第二地址转换，从而从所述多个第二物理地址中排除所述故障地址，

10.根据权利要求9所述的非暂时性计算机可读记录介质，

其中，所述方法还包括判定所述多个故障物理地址的数目是否超过参考值，并且

其中，当所述多个故障物理地址的数目大于所述参考值时，执行所述多个故障物理地址的所述故障类型的指定。

11.根据权利要求9所述的非暂时性计算机可读记录介质，

其中，所述方法还包括：

将所述故障地址存储在所述系统的BIOS存储器中。

12.根据权利要求11所述的非暂时性计算机可读记录介质，

其中，所述方法还包括：

在存储所述故障地址之后重启所述系统，

其中，所述的重启所述系统包括：

从所述BIOS存储器读取所述故障地址，并且将所述故障地址提供给所述存储器。

13.根据权利要求12所述的非暂时性计算机可读记录介质，

其中，所述系统的重启还包括：

对所述存储器的所述故障地址执行修复操作。

14.根据权利要求13所述的非暂时性计算机可读记录介质，

其中，所述的执行所述修复操作包括：

基于所述故障地址，在所述存储器中执行冗余行修复、冗余列修复和冗余块修复中的一者。

15.一种在虚拟机环境中操作的系统，所述系统包括：

存储器；和

处理器，所述处理器可操作地耦接到所述存储器，

其中，所述处理器被配置为：

与所述存储器合作执行应用；

执行从由所述应用处理的多个第一虚拟地址到用于访问所述存储器的多个第一物理地址的第一地址转换；

识别所述多个第一物理地址当中的多个故障物理地址，其中，所述多个故障物理地址中的每个故障物理地址对应于所述多个第一物理地址当中的与所述存储器的故障存储单元相关联的第一物理地址；

指定所述存储器的所述多个故障物理地址的故障类型，其中，所述故障类型包括行故障、列故障或块故障；和

基于故障地址，执行从多个第二虚拟地址到多个第二物理地址的第二地址转换，以防止所述故障地址被用于所述第二地址转换；

其中，所述故障地址对应于所述多个故障物理地址的所述故障类型，并且包括所述行故障的故障行地址、所述列故障的故障列地址或所述块故障的故障块地址；并且

其中，所述处理器还被配置为在不使得所述系统重启的情况下，指定所述故障类型，存储所述故障地址，以及执行所述第二地址转换。

16.根据权利要求15所述的系统，

其中，所述处理器还被配置为：

判定所述多个故障物理地址的数目是否大于参考值；和

响应于判定出所述多个故障物理地址的数目大于所述参考值，指定所述存储器的所述多个故障物理地址的所述故障类型。

17.根据权利要求15所述的系统，所述系统还包括：

BIOS存储器，所述BIOS存储器可操作地耦接到所述处理器，

其中，所述处理器还被配置为将所述故障地址存储在所述BIOS存储器中。

18.根据权利要求17所述的系统，

其中，所述处理器还被配置为在所述系统重启期间，读取存储在所述BIOS存储器中的所述故障地址，并且将所述故障地址提供给所述存储器。

19.根据权利要求18所述的系统，

其中，所述处理器还被配置为在所述系统重启期间，对所述存储器的所述故障地址执行修复操作。

20.根据权利要求19所述的系统，

其中，所述处理器还被配置为基于所述故障地址在所述存储器中执行冗余行修复、冗余列修复和冗余块修复中的一者。