CN104391753A - 一种服务器主板内存系统无故障运行方法 - Google Patents

一种服务器主板内存系统无故障运行方法 Download PDF

Info

Publication number
CN104391753A
CN104391753A CN201410775234.3A CN201410775234A CN104391753A CN 104391753 A CN104391753 A CN 104391753A CN 201410775234 A CN201410775234 A CN 201410775234A CN 104391753 A CN104391753 A CN 104391753A
Authority
CN
China
Prior art keywords
memory
bit cell
address space
region
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410775234.3A
Other languages
English (en)
Other versions
CN104391753B (zh
Inventor
刘涛
倪旭华
宋晓锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201410775234.3A priority Critical patent/CN104391753B/zh
Publication of CN104391753A publication Critical patent/CN104391753A/zh
Application granted granted Critical
Publication of CN104391753B publication Critical patent/CN104391753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

本发明特别涉及一种服务器主板内存系统无故障运行方法。该服务器主板内存系统无故障运行方法,用以解决当前在服务器系统中,当内存出现物理性故障时,无法及时屏蔽该故障区域,严重影响系统的运行稳定性,无法实现真正的系统稳定控制的问题。该服务器主板内存系统无故障运行方法,解决了当前在服务器系统中,无法及时屏蔽内存中物理性故障区域的问题,能够实现服务器主板内存系统自动故障排查,从而保证了服务器主板内存系统自动无故障运行,以及服务器主板内存系统的可靠性、安全性设计,对于服务器系统运行的稳定性具有重要意义。

Description

一种服务器主板内存系统无故障运行方法
技术领域
本发明涉及计算机通信技术领域,特别涉及一种服务器主板内存系统无故障运行方法。
背景技术
当今的服务器主板上内存的使用种类及数量越来越多,服务器主板的内存系统的存储容量空间越来越高。通用服务器主板上内存的数量有12~24条不等,服务器主板内存在系统生成前都经过严格检测,防止故障内存带来的系统问题。由于服务器主板上内存系统参与系统的高负载运算,并不断的进行数据存储与提供运算数据。因而,内存系统的无故障工作直接影响到服务器系统的稳定性,内存问题会造成系统无法正常工作。为了保证当前服务器主板内存系统的工作稳定性,实现服务器内存系统的自动故障排查与继续有效运行,对于服务器系统的正常工作起着至关重要的作用。
当前,服务器主板的内存系统稳定性,逐渐成为影响服务器工作安全、稳定的关键因素。当前存在的问题是内存系统严重依赖于CPU,当CPU监测到内存空间出现问题区域时,由于系统无法识别故障区域,会不断将运算数据继续放于此处。而当重新读取利用该部分数据时,就会产生数据错误的问题,甚至会导致系统应用的异常退出。由于该内存控制方式存在单向因素,很大程度上依靠内存条自身的稳定性,当内存出现物理性故障时,无法及时屏蔽该故障区域,严重影响系统的运行稳定性,无法实现真正的稳定控制。这种单一依靠内存自身稳定性的控制方式,无法实现服务器系统的质量安全需求,系统可靠性较低。随着对服务器系统质量安全要求不断增加,为了保证服务器系统的稳定运行,在实际主板的运行过程中,如何实现服务器主板的内存系统的高效、可靠设计尤为重要,并成为决定服务器质量稳定的关键要素之一。
FPGA(Field-Programmable Gate Array),即现场可编程门阵列,它是在PAL、GAL、CPLD等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC)领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种灵活通用的服务器主板内存系统无故障运行方法。
本发明是通过如下技术方案实现的:
一种服务器主板内存系统无故障运行方法,其特征在于包括以下步骤:
(1)取内置PCIE核的FPGA建立内存空间监控存储单元,并通过PCIE总线连接到CPU的内存控制器上;
(2)将外置的高速FLASH芯片通过SPI总线连接到内存空间监控存储单元,将内存空间分配虚拟地址,虚拟地址从0X0000开始,将所有的虚拟地址存储于外置的高速FLASH芯片上;
(3)服务器运行过程中,在系统内存空闲状态下,内存空间监控存储单元按照预设的测试数据组,启动内存地址空间的读写正确性验证操作,获取安全度较高的可用地址区域,同时获取存在读写问题的地址空间区域;
(4)内存空间监控存储单元将存在读写问题的地址空间区域在外置的高速FLASH芯片中标记为不可用,同时通知系统驱动不再分配此空间的数据分配;
(5)内存空间监控存储单元向系统管理员提供存在读写问题的地址空间区域信息。
所述步骤(1)中,内存空间监控存储单元采用PCIE2.0 X8带宽的总线与CPU PCIE控制器相连,在系统启动阶段,BIOS获取实际的内存地址空间后,将地址空间信息通过PCIE总线一对一传递给内存空间监控存储单元。
所述步骤(2)中,将实际内存空间按照8MB的数据容量块大小进行子集划分,同时将每个空间子集对应的地址空间分配虚拟地址,将虚拟地址存储于外置的高速NOR FLASH芯片,实现虚拟地址与实际地址的区域性对应。
所述步骤(3)中,内存空间监控存储单元将预定的数据写入内存依次写入实际地址空间,然后再依次读取,对于反复读取均一致的区域,即可作为安全度较高的可用地址区域,对于读写数据不一致的区域,即可作为存在读写问题的地址空间区域。
所述步骤(4)中,内存空间监控存储单元将存在读写问题的地址空间区域对应的虚拟地址空间在外置的高速NOR FLASH芯片中标记为不可用,并在系统驱动的可用地址空间分配范围中,关闭此部分空间区域;在系统内存进入工作状态时,内存空间监控存储单元将一直工作在安全度较高的可用地址区域。
所述步骤(5)中,内存空间监控存储单元将存在读写问题的地址空间区域实际的空间所在的通道及插槽slot等信息提供给系统管理员,方便快速定位故障内存。
在系统有问题的内存空间未得到更新前,系统每次启动前均会从内存空间监控存储单元中获取安全度较高的可用地址区域,将一直自动标记为不可用的地址空间区域关闭,防止系统程序使用此空间,以保证系统的高可靠性。
本发明的有益效果是:该服务器主板内存系统无故障运行方法,解决了当前在服务器系统中,无法及时屏蔽内存中物理性故障区域的问题,能够实现服务器主板内存系统自动故障排查,从而保证了服务器主板内存系统自动无故障运行,以及服务器主板内存系统的可靠性、安全性设计,对于服务器系统运行的稳定性具有重要意义。
具体实施方式
该服务器主板内存系统无故障运行方法,包括以下步骤:
(1)取内置PCIE核的FPGA建立内存空间监控存储单元,并通过PCIE2.0 X8带宽的总线连接到CPU PCIE的内存控制器上;在系统启动阶段,BIOS获取实际的内存地址空间后,将地址空间信息通过PCIE总线一对一传递给内存空间监控存储单元。
(2)将外置的高速NOR FLASH芯片通过SPI总线连接到内存空间监控存储单元,将内存空间按照8MB的数据容量块大小进行子集划分,同时将每个空间子集对应的地址空间分配虚拟地址,虚拟地址从0X0000开始,将所有的虚拟地址存储于外置的高速NOR FLASH芯片上,实现虚拟地址与实际地址的区域性对应。
(3)服务器运行过程中,在系统内存空闲状态下,内存空间监控存储单元按照预设的测试数据组,启动内存地址空间的读写正确性验证操作;内存空间监控存储单元将预定的数据写入内存依次写入实际地址空间,然后再依次读取,对于反复读取均一致的区域,即为安全度较高的可用地址区域,对于读写数据不一致的区域,即为存在读写问题的地址空间区域。
(4)内存空间监控存储单元将存在读写问题的地址空间区域对应的虚拟地址空间在外置的高速NOR FLASH芯片中标记为不可用,并在系统驱动的可用地址空间分配范围中,关闭此部分空间区域,不再分配此空间的数据分配;在系统内存进入工作状态时,内存空间监控存储单元将一直工作在安全度较高的可用地址区域,从而使系统进入稳定的内存工作区域。
(5)内存空间监控存储单元将存在读写问题的地址空间区域实际的空间所在的通道及插槽slot等信息提供给系统管理员,方便快速定位故障内存。
在系统有问题的内存空间未得到更新前,系统每次启动前均会从内存空间监控存储单元中获取安全度较高的可用地址区域,将一直自动标记为不可用的存在读写问题的地址空间区域关闭,防止系统程序使用此空间,直到系统存在读写问题的地址空间区域得到更新,以保证系统的高可靠性。

Claims (7)

1.一种服务器主板内存系统无故障运行方法,其特征在于包括以下步骤:
(1)取内置PCIE核的FPGA建立内存空间监控存储单元,并通过PCIE总线连接到CPU的内存控制器上;
(2)将外置的高速FLASH芯片通过SPI总线连接到内存空间监控存储单元,将内存空间分配虚拟地址,虚拟地址从0X0000开始,将所有的虚拟地址存储于外置的高速FLASH芯片上;
(3)服务器运行过程中,在系统内存空闲状态下,内存空间监控存储单元按照预设的测试数据组,启动内存地址空间的读写正确性验证操作,获取安全度较高的可用地址区域,同时获取存在读写问题的地址空间区域;
(4)内存空间监控存储单元将存在读写问题的地址空间区域在外置的高速FLASH芯片中标记为不可用,同时通知系统驱动不再分配此空间的数据分配;
(5)内存空间监控存储单元向系统管理员提供存在读写问题的地址空间区域信息。
2.根据权利要求1所述的服务器主板内存系统无故障运行方法,其特征在于:所述步骤(1)中,内存空间监控存储单元采用PCIE2.0 X8带宽的总线与CPU PCIE控制器相连,在系统启动阶段,BIOS获取实际的内存地址空间后,将地址空间信息通过PCIE总线一对一传递给内存空间监控存储单元。
3.根据权利要求1所述的服务器主板内存系统无故障运行方法,其特征在于:所述步骤(2)中,将实际内存空间按照8MB的数据容量块大小进行子集划分,同时将每个空间子集对应的地址空间分配虚拟地址,将虚拟地址存储于外置的高速NOR FLASH芯片,实现虚拟地址与实际地址的区域性对应。
4.根据权利要求1所述的服务器主板内存系统无故障运行方法,其特征在于:所述步骤(3)中,内存空间监控存储单元将预定的数据写入内存依次写入实际地址空间,然后再依次读取,对于反复读取均一致的区域,即可作为安全度较高的可用地址区域,对于读写数据不一致的区域,即可作为存在读写问题的地址空间区域。
5.根据权利要求1所述的服务器主板内存系统无故障运行方法,其特征在于:所述步骤(4)中,内存空间监控存储单元将存在读写问题的地址空间区域对应的虚拟地址空间在外置的高速NOR FLASH芯片中标记为不可用,并在系统驱动的可用地址空间分配范围中,关闭此部分空间区域;在系统内存进入工作状态时,内存空间监控存储单元将一直工作在安全度较高的可用地址区域。
6.根据权利要求1所述的服务器主板内存系统无故障运行方法,其特征在于:所述步骤(5)中,内存空间监控存储单元将存在读写问题的地址空间区域实际的空间所在的通道及插槽slot等信息提供给系统管理员,方便快速定位故障内存。
7.根据权利要求1所述的服务器主板内存系统无故障运行方法,其特征在于:在系统有问题的内存空间未得到更新前,系统每次启动前均会从内存空间监控存储单元中获取安全度较高的可用地址区域,将一直自动标记为不可用的地址空间区域关闭,防止系统程序使用此空间,以保证系统的高可靠性。
CN201410775234.3A 2014-12-16 2014-12-16 一种服务器主板内存系统无故障运行方法 Active CN104391753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410775234.3A CN104391753B (zh) 2014-12-16 2014-12-16 一种服务器主板内存系统无故障运行方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410775234.3A CN104391753B (zh) 2014-12-16 2014-12-16 一种服务器主板内存系统无故障运行方法

Publications (2)

Publication Number Publication Date
CN104391753A true CN104391753A (zh) 2015-03-04
CN104391753B CN104391753B (zh) 2017-12-05

Family

ID=52609661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410775234.3A Active CN104391753B (zh) 2014-12-16 2014-12-16 一种服务器主板内存系统无故障运行方法

Country Status (1)

Country Link
CN (1) CN104391753B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451051A (zh) * 2017-06-29 2017-12-08 郑州云海信息技术有限公司 一种Linux下进行服务器内存诊断的方法
CN107957923A (zh) * 2016-10-14 2018-04-24 华为技术有限公司 一种内存诊断方法和装置
CN109614056A (zh) * 2018-12-28 2019-04-12 杭州迪普科技股份有限公司 一种应对内存自然老化的方法和装置
CN109656478A (zh) * 2018-12-11 2019-04-19 浪潮(北京)电子信息产业有限公司 一种存储服务器
WO2021185279A1 (zh) * 2020-03-20 2021-09-23 华为技术有限公司 一种内存故障处理方法及相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1560746A (zh) * 2004-02-27 2005-01-05 中国人民解放军国防科学技术大学 基于操作系统反向页表的页迁移和复制方法
CN101110271A (zh) * 2006-07-17 2008-01-23 中兴通讯股份有限公司 一种内存性能的生产测试方法
US20110072234A1 (en) * 2009-09-18 2011-03-24 Chinya Gautham N Providing Hardware Support For Shared Virtual Memory Between Local And Remote Physical Memory
US20120072696A1 (en) * 2010-09-17 2012-03-22 Hon Hai Precision Industry Co., Ltd. Method for diagnosing a memory of an electronic device
CN103700407A (zh) * 2013-12-14 2014-04-02 中国航空工业集团公司第六三一研究所 一种基于航空应用的国产化存储器应用验证方法
CN103838746A (zh) * 2012-11-21 2014-06-04 杭州海康威视数字技术股份有限公司 多cpu系统共享存储数据的方法及该系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1560746A (zh) * 2004-02-27 2005-01-05 中国人民解放军国防科学技术大学 基于操作系统反向页表的页迁移和复制方法
CN101110271A (zh) * 2006-07-17 2008-01-23 中兴通讯股份有限公司 一种内存性能的生产测试方法
US20110072234A1 (en) * 2009-09-18 2011-03-24 Chinya Gautham N Providing Hardware Support For Shared Virtual Memory Between Local And Remote Physical Memory
US20120072696A1 (en) * 2010-09-17 2012-03-22 Hon Hai Precision Industry Co., Ltd. Method for diagnosing a memory of an electronic device
CN103838746A (zh) * 2012-11-21 2014-06-04 杭州海康威视数字技术股份有限公司 多cpu系统共享存储数据的方法及该系统
CN103700407A (zh) * 2013-12-14 2014-04-02 中国航空工业集团公司第六三一研究所 一种基于航空应用的国产化存储器应用验证方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107957923A (zh) * 2016-10-14 2018-04-24 华为技术有限公司 一种内存诊断方法和装置
CN107957923B (zh) * 2016-10-14 2020-06-02 华为技术有限公司 一种内存诊断方法和装置
CN107451051A (zh) * 2017-06-29 2017-12-08 郑州云海信息技术有限公司 一种Linux下进行服务器内存诊断的方法
CN109656478A (zh) * 2018-12-11 2019-04-19 浪潮(北京)电子信息产业有限公司 一种存储服务器
CN109614056A (zh) * 2018-12-28 2019-04-12 杭州迪普科技股份有限公司 一种应对内存自然老化的方法和装置
WO2021185279A1 (zh) * 2020-03-20 2021-09-23 华为技术有限公司 一种内存故障处理方法及相关设备
CN113495799A (zh) * 2020-03-20 2021-10-12 华为技术有限公司 一种内存故障处理方法及相关设备
CN113495799B (zh) * 2020-03-20 2024-04-12 华为技术有限公司 一种内存故障处理方法及相关设备

Also Published As

Publication number Publication date
CN104391753B (zh) 2017-12-05

Similar Documents

Publication Publication Date Title
CN104391753A (zh) 一种服务器主板内存系统无故障运行方法
CN104850485A (zh) 一种基于bmc远程诊断服务器开机故障的方法及系统
WO2016090908A1 (zh) 智能电表嵌入式应用的模拟存储器测试板系统及测试方法
CN110489259B (zh) 一种内存故障检测方法及设备
CN101369240A (zh) 用于在信息处理系统中管理存储错误的系统和方法
CN106201332A (zh) 驱动器阵列策略控制
CN104375915A (zh) 一种利用服务器主板bmc和cpld交互快速诊断主板时序的方法
CN106571166A (zh) 一种可定制流程的mt29f系列nand flash测试老炼系统
US10191827B2 (en) Methods, systems, and computer readable media for utilizing loopback operations to identify a faulty subsystem layer in a multilayered system
US11221933B2 (en) Holdup self-tests for power loss operations on memory systems
CN104317690A (zh) 一种基于ITP工具的Memory Demand Scrub测试方法
WO2016160190A1 (en) Technologies for application validation in persistent memory systems
CN106547653A (zh) 计算机系统故障状态检测方法、装置及系统
CN102750109A (zh) 资料同步系统及方法
EP3895939A1 (en) Electronic control device and security verification method for electronic control device
CN105468390A (zh) Boot在线升级装置及方法
CN113868051B (zh) 一种PCIe故障检测装置、方法、设备和存储介质
US9250942B2 (en) Hardware emulation using on-the-fly virtualization
CN114201360A (zh) 一种aer功能管理方法、装置、服务器和存储介质
KR101300443B1 (ko) 바이패스 경로를 이용하여 신뢰성 검증을 할 수 있는 플래시 메모리 저장 장치, 및 이를 이용한 플래시 메모리 저장 장치의 신뢰성 검증 시스템 및 방법
CN115220968A (zh) 一种具有冗余和容错能力vpd数据管理系统、方法
CN103077104B (zh) 一种片上系统的验证方法、装置和系统
CN109117392A (zh) 一种针对固态硬盘的m.2接口扩展卡
CN113778732A (zh) 业务板卡的故障定位方法及装置
CN106294045B (zh) 一种基于bmc自动化检测烧录主板供电模组芯片数据的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant