CN100549986C

CN100549986C - 信息处理装置

Info

Publication number: CN100549986C
Application number: CNB2005800492255A
Authority: CN
Inventors: 远藤新
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2005-03-24
Filing date: 2005-03-24
Publication date: 2009-10-14
Anticipated expiration: 2025-03-24
Also published as: JP4523639B2; US20080022154A1; EP1862909A1; CN101147135A; JPWO2006100776A1; WO2006100776A1; EP1862909A4; US8527806B2

Abstract

本发明提供一种采用固件的存储器错误地址管理。所涉及的信息处理装置，具有：执行OS和固件的CPU；连接在CPU上并进行针对多个存储器的写入和读出的控制及错误监视的多个存储器控制器；和分别连接在多个存储器控制器上的多个存储器。存储器控制器依次读入连接在该存储器控制器上的多个存储器的存储区域，并进行错误区域的监视，固件把对应于错误区域的存储器控制器所掌握的地址转换为OS所掌握的逻辑地址，将其提供给OS。

Description

信息处理装置

技术领域

本发明涉及一种使用了存储器控制器的信息处理装置，特别涉及与存储器的安装容量无关地进行存储器的异常监视的信息处理装置。

背景技术

近年来，伴随系统的大规模化，安装的存储器的量增加，要求较高的可靠性。迅速检测存储器的故障部位是维护大容量存储器的高度可靠性所必须的。因此，存储器的诊断和监视是必不可缺的。

图1是说明以往的存储器监视的图。在CPU3中，操作系统(OperatingSystem，以下称为OS)动作。并且，存储器2i～2l连接到CPU3上。

在以往的存储器的异常监视中，根据来自OS的指示，CPU监视存储器2i～2l内的所有存储区域。该情况时，OS对安装的存储器2i～2l内的所有区域，通过CPU3进行读出处理。不能读出的区域被诊断为错误区域，进行将其从可用区域中去除的退出处理。

OS保持OS自身退出的区域的信息，通过自身确保逻辑地址的连续性。并且，OS预先掌握存储器的安装量和硬件结构。

在这种CPU根据来自OS的指示监视所有存储区域的方法中，在存储器容量庞大的大规模系统中，其运行时的负荷过大。并且，也存在监视处理过度花费时间的问题。为了减轻CPU的负荷，可以考虑由CPU之外的硬件进行存储区域的读出的存储器监视。通过由CPU之外的硬件进行存储区域的读出和所读出数据中有无错误的确认，可以减轻CPU的负荷。

图2是CPU之外的硬件进行针对存储区域的访问的存储器监视的示例。在CPU3中，OS动作。并且，进行存储器的控制和监视的硬件即控制器C1～C3连接在CPU3上。另外，存储器2m和2n连接在控制器C1上，存储器2o和2p连接在控制器C2上，存储器2q和2r连接在控制器C3上。

控制器C1～C3在正常访问时控制对按照OS的请求连接的存储器的访问，但在存储器监视时，进行来自存储器的数据读入，在检测到错误时改变保有的寄存器的特定比特，并通知OS。

该情况时，OS也预先掌握存储器的安装量和硬件结构。并且，OS自身保持以前退出的区域的信息，通过自身确保逻辑地址的连续性。

在此，关于减轻CPU负担的硬件监视系统，有专利文献1记载的技术。该技术通过使固件进行错误的处理，抑制因错误造成的应用程序的频繁中断，减轻CPU的负担。但是，专利文献1记载的技术涉及整个硬件，不能进行存储器的监视。

专利文献1：日本特开2000-57016号公报

如图2所示，在利用CPU之外的硬件进行存储器的异常监视时，由于存储器的扩展，存储器的地址有可能被从基于以往的系统结构的地址发生变更。为了对应存储器的扩展，必须进行针对对应每个系统结构的逻辑地址的转换，但是如果使OS进行该转换，将不能利用共用的OS对应所有系统结构。并且，在通过硬件来对应系统结构的变更时，将需要对每个系统结构安装要追加的硬件，导致成本增加和开发工时增加。

发明内容

本发明的目的在于，提供一种信息处理装置，CPU不直接进行存储器的监视，即可实现利用OS和硬件之外的手段进行应对不同系统结构的存储器监视。

为了解决上述问题，根据本发明的第一侧面提供一种信息处理装置，其具有：执行OS和固件的CPU；多个存储器控制器，其连接在所述CPU上，进行针对多个存储器的写入和读出的控制及错误监视；和分别连接在所述多个存储器控制器上的所述多个存储器，该信息处理装置的特征在于，所述存储器控制器依次读入连接在该存储器控制器上的所述多个存储器的存储区域，并进行错误区域的监视，所述固件把对应于所述错误区域的所述存储器控制器所掌握的地址转换为所述OS所掌握的逻辑地址，将其提供给所述OS。

在上述发明的第一侧面中，作为优选实施例的特征在于，所述固件判断由所述存储器控制器检测出的所述错误区域是否是通过以前的读入被检测为错误区域、并被从可用区域中去除的区域，如果相应区域以前已被去除，则再次开始存储区域的读入。

在上述发明的第一侧面中，作为另一优选实施例的特征在于，所述固件进行所述错误区域的数据是否可以修复的判断，如果所述错误区域的数据可以修复，则检测到所述错误区域的所述存储器控制器再次向所述错误区域进行写入。

在上述发明的第一侧面中，作为又一优选实施例的特征在于，所述多个存储器控制器分别独立进行所述存储器的错误监视。

并且，在上述发明的第二侧面中，作为优选实施例，提供一种信息处理装置的存储器异常监视方法，该信息处理装置具有：执行OS和固件的CPU；多个存储器控制器，其连接在所述CPU上，进行针对多个存储器的写入和读出的控制及错误监视；和分别连接在所述多个存储器控制器上的所述多个存储器，所述存储器异常监视方法的特征在于，包括：读入步骤，通过所述存储器控制器，依次读入连接在该存储器控制器上的所述多个存储器的存储区域，并进行错误区域的监视；和转换步骤，通过所述固件，把对应于所述错误区域的所述存储器控制器所掌握的地址转换为所述OS所掌握的逻辑地址，将其提供给所述OS。

在上述发明的第二侧面中，作为优选实施例的特征在于，包括退出判断步骤，在该退出判断步骤中，通过所述固件，判断由所述存储器控制器检测出的所述错误区域是否是通过以前的读入被检测为错误区域、并被从可用区域中去除的区域，如果相应区域以前已被去除，则再次开始存储区域的读入。

在上述发明的第二侧面中，作为优选实施例的特征在于，包括修复判断步骤，在该修复判断步骤中，通过所述固件进行所述错误区域的数据是否可以修复的判断，如果所述错误区域的数据可以修复，则检测到所述错误区域的所述存储器控制器再次向所述错误区域进行写入。

本发明的信息处理装置，通过固件进行伴随系统结构的变更形成的逻辑地址的变更，由此可以将共用OS适用于所有系统结构，而且不必导入追加的硬件，不会导致成本增加和开发工时增加。

附图说明

图1是说明以往的存储器监视的图。

图2是CPU之外的硬件进行向存储区域的访问的存储器监视的示例。

图3是本发明的实施方式的信息处理装置的结构图。

图4是表示存储器控制器的结构和正常访问时的动作的图。

图5是表示存储器控制器的结构和存储器监视时的动作的图。

图6是本发明的实施方式的存储器监视的简单的动作流程。

图7是本发明的实施方式的存储器监视的具体动作流程。

图8是本发明的实施方式的存储器监视停止的动作流程。

图9是本发明的实施方式的存储器监视中的OS的错误监视的动作流程。

具体实施方式

以下，参照附图说明本发明的实施方式。但是，本发明的技术范围不限于这些实施方式，也包括权利要求书记载的事项及其等价物。

图3是本发明的实施方式的信息处理装置的结构图。本实施方式的信息处理装置具有CPU3，其执行OS和固件(在图中表述为Firm)的命令。CPU3通过系统控制器4连接在多个存储器控制器(在图中表述为MAC)1a～1d上。系统控制器4在正常的存储器访问时，将从CPU3接收到的逻辑地址转换为在各个存储器控制器1a～1d中使用的存储器控制器地址。存储器控制器1a～1d是进行针对存储器2a～2h的写入和读出的管理、及存储器监视的硬件。

图4是表示存储器控制器的结构和正常访问时的动作的图。存储器控制器1主要由存储器监视控制部11、寄存器12、错误诊断部13、纠错部14和存储器管理部15构成。在正常访问时，在OS通过CPU3向存储器2进行访问时，首先从CPU3向系统控制器4提供要访问的区域的逻辑地址。系统控制器4接收逻辑地址，并转换为对应的存储器控制器1上的存储器控制器地址(在图中表述为MAC地址)。接收到存储器控制器地址的提供的存储器控制器1内的存储器管理部15，向存储器2上的对应区域的数据进行访问。存储器2将对应区域的数据提供给存储器控制器1内的错误诊断部13和纠错部14。

在从存储器2提供的数据不存在错误时，该数据从存储器控制器1输出，通过CPU3而由OS进行接收。

在从存储器2提供的数据存在错误时，错误诊断部13检测错误，判断该错误是否可以纠正。在所检测的错误不能纠正时，纠错部14附加包括不能纠正的错误的数据即信息，向OS发送数据。此时，错误诊断部13在寄存器12中记录错误可否纠正、错误区域的地址信息、是正常访问时的错误还是存储器诊断时的错误等信息。

纠错部14在所提供的数据的错误可以纠正时，从存储器控制器1输出纠正后的数据，通过CPU3提供给OS。此时，错误诊断部13在寄存器12中记录错误可否纠正、错误区域的地址信息、是正常访问时的错误还是存储器监视时的错误等信息。

另外，在正常时的动作中，不使用存储器监视控制部11。

图5是表示存储器控制器的结构和存储器监视时的动作的图。OS通过CPU3指示固件开始存储器监视。固件通过CPU3向存储器控制器1内的寄存器12进行写入，开始存储器监视。确认到从固件向寄存器12的写入的存储器监视控制部11，依次进行针对存储器2的数据读出。存储器2把从存储器监视控制部11提供的对应于存储器控制器地址的数据提供给存储器控制器1内的错误诊断部13和纠错部14。

在提供给错误诊断部13的数据不存在错误时，错误诊断部13通知存储器监视控制部11不存在错误。接收到该通知，存储器监视控制部11向存储器2进行访问，以便读出下一区域。

在提供给错误诊断部13的数据存在错误时，错误诊断部13判断该错误是否可以纠正。并且，错误诊断部13通知存储器监视控制部11存在错误、以及错误可否纠正、错误区域的地址信息、是正常访问时的错误还是存储器监视时的错误等信息。接收到该通知，存储器监视控制部11临时中断存储器监视。并且，存储器监视控制部11向寄存器12写入从错误诊断部13得到的信息。

存储器控制器1具有寄存器12，以便与固件和OS进行信息交换。进行监视的开始和停止等控制的控制器寄存器包括监视控制寄存器RG1、再开始地址寄存器RG2、重写地址寄存器RG3这三种。

在监视控制寄存器RG1中具有监视开始比特B1、再开始地址比特B2、监视停止比特B3、监视状态比特B4、重写比特B5、重写重设比特B6、可以纠正的错误比特B7、不能纠正的错误比特B8、和比较错误比特B9等各种比特。

并且，在存储器控制器1内的寄存器12中具有保持错误信息等的记录寄存器。记录寄存器主要有错误地址寄存器RG4、错误记录寄存器RG5、固定故障地址寄存器RG6、固定故障记录寄存器RG7四种。

图6是本发明的实施方式的存储器监视的简单的动作流程。在该图中，按照时序从上到下地说明步骤，利用虚线分开的栏目表示由相同硬件或软件执行的步骤。接收到来自OS的指示，固件向所有存储器控制器1a～1d的寄存器12进行写入，指示开始存储器监视(步骤W1)。接收到存储器监视的开始指示的存储器控制器1a～1d，开始与自己连接的存储器2的区域读入(步骤W2a～W2d)。在存储器控制器1b中检测到错误时(步骤W3b)，通过存储器监视控制部11，向存储器控制器1b内的寄存器12写入错误可否纠正、错误区域的地址信息、是正常访问时的错误还是存储器监视时的错误等信息(步骤W4b)。写入寄存器12的信息，在固件进行访问、退出信息的检查、再写入的指示等错误处理后(步骤W5b)，再次开始存储器监视(步骤W6b)。

在其他存储器控制器被检测到错误时(步骤W3c)，也同样通过存储器监视控制部11，向存储器控制器1c内的寄存器12写入错误可否纠正、错误区域的地址信息、是正常访问时的错误还是存储器监视时的错误等信息(步骤W4c)。写入寄存器12的信息，在固件进行访问、退出信息的检查、再写入的指示等错误处理(步骤W5c)后，再次开始存储器监视(步骤W6c)。

OS以一定时间间隔确认是否已向所有存储器控制器1a～1d的寄存器12进行访问、是否产生了错误等(步骤W7)。在存储器控制器1b和1c中确认产生错误时，向固件请求与这些错误相关的信息(步骤W8)。请求与错误相关的信息的固件向产生了错误的存储器控制器1b和1c进行访问，将与错误相关的信息提供给OS(步骤W9)。OS接收到该信息，进行退出等处理(步骤W10)。

在此，虽然属于罕见情况，但是说明在同一存储器控制器中检测到两个错误的情况。在步骤W7中，OS访问错误信息之前，通过存储器控制器1b检测到另一个错误时，在步骤W4b被写入寄存器11的信息被覆盖，OS只获得后产生的错误的信息。

图7是本发明的实施方式的存储器监视的具体动作流程。首先，OS确定开始存储器监视(步骤S1)。此时，OS通过CPU向固件发送存储器监视开始指示I1。接收到存储器监视开始指示I1的固件，把存储器控制器1内的监视控制寄存器RG1的监视开始比特B1设为1(步骤S2)。

OS在确定开始存储器监视后，开始确认错误状态(步骤U1)，结束存储器监视(步骤T1)，关于这些处理将在后面使用图8、图9进行说明。

存储器控制器1接收到监视控制寄存器RG1的监视开始比特B1为1的信息，开始存储器监视(步骤S3)。所开始的存储器监视一直持续到OS向固件发送存储器监视停止指示I2，在此期间，存储器控制器1读入存储器的区域(步骤S4)，在所有区域结束后，相隔一定时间的间隔，再次开始读入(步骤S3)。

此时，存储器控制器1内的错误诊断部13检查存储器2内是否产生了错误(步骤S5)，在产生了错误的时刻，存储器监视控制部11停止存储器监视(步骤S6)。然后，存储器监视控制部11根据错误的类型，把监视控制寄存器RG1的可以纠正错误比特B7或不能纠正错误比特B8设为1(步骤S7)。并且，错误位置的信息被记录在错误地址寄存器RG4和错误记录寄存器RG5等中。

然后，固件接收到监视控制寄存器的可以纠正错误比特B7或不能纠正错误比特B8为1的信息，进行退出的确认。所说退出指将存储器2内的错误区域从可用区域中去除。固件根据记录在存储器控制器1的监视控制寄存器RG1中的信息等，判断是否是已经退出的区域(步骤S8)。

在错误区域是已经退出的区域时，固件避开该区域，再次开始存储器监视(步骤S9)。此时，在存储器控制器1的再开始地址寄存器RG2中设定将要再次开始的区域的地址信息，对监视控制寄存器RG1的再开始地址比特B2设定1。接收到这些寄存器的信息后，存储器监视控制部11再次开始存储器监视。

在错误区域是未退出的区域时，通过寄存器11进行该错误是否可以修复的确认(步骤S10)。在此，说明可以修复的错误是什么样的错误。在本实施方式中，为了实现错误检测，使用ECC(Error Check and Correctmemory，错误检查和纠正)存储器。所说可以修复的错误，指由于存储在存储器中的数据变化而不定期地产生的软错误。所说软错误指不是由于电路问题产生的，在利用错误的修复功能纠正数据时不再发生的数据错误。在错误的修复功能中，根据纠正码对所检测的可以修复的错误进行错误的纠正。纠正码指在MAC和存储器之间处理数据时在MAC内部生成的代码。

如果是可以修复的错误，由于能够确定本来应该写入的数据，所以固件对存储器控制器1输出使再一次写入该数据的指示(步骤S11)。此时，对重写地址寄存器RG3设定应该重写的区域的地址，对监视控制寄存器RG1的重写比特设定1。这些向寄存器11的写入，通过存储器控制器1内的存储器监视控制部11进行处理，存储器监视控制部11开始本来应该写入的数据的重写。此时，监视是否再次产生错误(步骤S13)，如果产生错误，则判断为其是起因于硬件的固定故障(步骤S14)，该信息被记录在固定故障地址寄存器RG6和固定故障记录寄存器RG7中(步骤S15)。并且，在步骤S13没有产生错误时，判断是软错误。该信息被记录在错误地址寄存器RG4和错误记录寄存器RG5中(步骤S15)。在步骤S15中记录在寄存器11中后，固件指示存储器控制器1再次开始存储器监视(步骤S16)。

并且，在步骤S10中判断为其是不能修复的错误时，不在错误区域进行重写，固件指示存储器控制器1再次开始存储器监视(步骤S16)。

存储器控制器1再次开始存储器监视(步骤S17)，返回检测错误的发生(步骤S5)。重复该存储器监视的动作流程，直到进行存储器监视的停止处理。

图8是本发明的实施方式的存储器监视停止的动作流程。首先，OS确定停止存储器监视(步骤T1)。此时，OS通过CPU向固件发送存储器监视停止指示I2。接收到存储器监视停止指示I2的固件，把存储器控制器1内的监视控制寄存器RG1的监视停止比特B3设为1(步骤T2)。存储器控制器1内的存储器监视部11接收到监视控制寄存器RG1的监视停止比特B3为1的信息，停止存储器监视(步骤T3)。

图9是本发明的实施方式的存储器监视中的OS的错误监视的动作流程。OS在开始存储器监视后，开始监视错误的检测状态(步骤U1)。此时，OS通过CPU向固件发送存储器监视确认指示I3。接收到存储器监视确认指示I3的固件，监视存储器控制器1内的监视控制寄存器RG1的各个比特(步骤U2)。此时，如果没有检测到错误，则返回步骤U1，相隔一定时间后，再次开始确认错误的检测状态。

如果在存储器控制器1检测到错误，则OS向固件请求错误信息(步骤U3)。接收到该请求，固件从存储在存储器控制器1的寄存器12中的信息，生成应该通知OS的错误信息并通知(步骤U4)。此处的错误信息指OS能够掌握的逻辑地址和是固定故障还是软错误等信息。从固件向OS通知错误信息后，OS以此为基础进行逻辑地址的处理等(步骤U5)。在步骤U5后，返回步骤U1，相隔一定时间后，再次开始确认错误的检测状态。

固件综合来自所有存储器控制器1的信息，并转换为逻辑地址向OS转发错误信息，所以OS不需要进行向逻辑地址的转换。并且，固件根据系统结构进行存储器控制器1检测出的错误位置的地址转换，将处理后的逻辑地址提供给OS。OS根据从固件接收到的逻辑地址，执行错误处理。

这样，利用固件进行伴随系统结构的变更形成的逻辑地址的变更，由此可以将共用OS适用于所有系统结构，而且不必导入追加的硬件，不会导致成本增加和开发工时增加。

产业上的可利用性

在大规模系统中，存储器安装量增多，而且要求较高的可靠性。迅速检测存储器的故障部位是维护大容量存储器的高度可靠性所必须的，因此存储器的诊断和监视是必不可缺的。本发明与硬件结构的不同无关，可以使用共用的OS进行存储器的监视。

Claims

1.一种信息处理装置，其特征在于，该信息处理装置具有：

执行操作系统和固件的CPU；

多个存储器控制器，其连接在所述CPU上，进行针对多个存储器的写入和读出的控制及错误监视；和

分别连接在所述多个存储器控制器上的所述多个存储器，

所述存储器控制器依次读入连接在该存储器控制器上的所述多个存储器的存储区域，并进行错误区域的监视，

所述固件把对应于所述错误区域的所述存储器控制器所掌握的地址转换为所述操作系统所掌握的逻辑地址，将其提供给所述操作系统。

2.根据权利要求1所述的信息处理装置，其特征在于，所述固件判断由所述存储器控制器检测出的所述错误区域是否是通过以前的读入被检测为错误区域、并被从可用区域中去除的区域，如果所述错误区域以前已被去除，则再次开始存储区域的读入。

3.根据权利要求1所述的信息处理装置，其特征在于，所述固件进行所述错误区域的数据是否可以修复的判断，如果所述错误区域的数据可以修复，则检测出所述错误区域的所述存储器控制器再次向所述错误区域进行写入。

4.根据权利要求1所述的信息处理装置，其特征在于，所述多个存储器控制器分别独立进行所述存储器的错误监视。

5.一种信息处理装置的存储器异常监视方法，该信息处理装置具有：执行操作系统和固件的CPU；多个存储器控制器，其连接在所述CPU上，进行针对多个存储器的写入和读出的控制及错误监视；和分别连接在所述多个存储器控制器上的所述多个存储器，

所述存储器异常监视方法的特征在于，所述存储器异常监视方法包括：

读入步骤，通过所述存储器控制器，依次读入连接在该存储器控制器上的所述多个存储器的存储区域，并进行错误区域的监视；和

转换步骤，通过所述固件，把对应于所述错误区域的所述存储器控制器所掌握的地址转换为所述操作系统所掌握的逻辑地址，将其提供给所述操作系统。

6.根据权利要求5所述的存储器异常监视方法，其特征在于，所述存储器异常监视方法包括退出判断步骤，在该退出判断步骤中，通过所述固件，判断通过所述存储器控制器检测出的所述错误区域是否是通过以前的读入被检测为错误区域、并被从可用区域中去除的区域，如果所述错误区域以前已被去除，则再次开始存储区域的读入。

7.根据权利要求5所述的存储器异常监视方法，其特征在于，所述存储器异常监视方法包括修复判断步骤，在该修复判断步骤中，通过所述固件进行所述错误区域的数据是否可以修复的判断，如果所述错误区域的数据可以修复，则检测出所述错误区域的所述存储器控制器再次向所述错误区域进行写入。