CN102968354A - 一种基于Intel Brickland-EX平台的同频锁步模式的自动切换方法 - Google Patents

一种基于Intel Brickland-EX平台的同频锁步模式的自动切换方法 Download PDF

Info

Publication number
CN102968354A
CN102968354A CN2012104531443A CN201210453144A CN102968354A CN 102968354 A CN102968354 A CN 102968354A CN 2012104531443 A CN2012104531443 A CN 2012104531443A CN 201210453144 A CN201210453144 A CN 201210453144A CN 102968354 A CN102968354 A CN 102968354A
Authority
CN
China
Prior art keywords
memory access
error
bios
memory
bmc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012104531443A
Other languages
English (en)
Inventor
李博乐
林楷智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN2012104531443A priority Critical patent/CN102968354A/zh
Publication of CN102968354A publication Critical patent/CN102968354A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供一种基于Intel Brickland-EX平台的同频锁步模式的自动切换方法,将系统默认的工作模式设置为Performance模式,通过监控管理单元收集内存报错信息,并设置阀值,错误超过这个阀值则在系统重启过程中,BIOS将CPU的访存模式自动设置为同频锁步模式以保证系统访存稳定性,这样就降低了总线负荷,降低至1/2cacheline,并提高了ECC的纠错能力,保证系统访存性能。

Description

一种基于Intel Brickland-EX平台的同频锁步模式的自动切换方法
技术领域
本发明涉及计算机应用技术领域,具体地说是一种基于Intel Brickland-EX平台同频锁步模式的自动切换方法。
背景技术
Intel Brickland-EX平台处理器的访存方式共有两种:
其一称作Performance模式,也叫Independent模式,在这种模式下,处理器下游每个内存通道都是独立的,处理器在读写操作时在每个内存通道均以完整cache line传输,可以充分保证访存的高性能;
其二称作Lockstep模式,也称为同频锁步模式,在这种模式下,处理器下游的内存通道两两进行同频锁步,处理器在读写操作时在同频锁步的两个内存通道以一半cache line传输数据,两个同频锁步的内存通道组合起来才是一个完整的cache line,这样做的好处是减少内存通道的负载,使ECC纠错更加游刃有余,大幅提高系统访存的可靠性,但可以看出在Lockstep模式下,处理器访存性能降低了一半。
综上,在Brickland-EX平台下两种处理器访存方式各有利弊,那么在实际应用过程中,如何选择便成为一个难以决定的问题。本文阐述的就是基于Intel Brickland-EX平台的同频锁步模式自动切换方法
在服务器领域,尤其是基于Intel Brickland-EX平台下的高端服务器领域中,由于处理器数量多,内存容量大,加之整个架构和连接非常复杂,给系统的稳定性带来极大的挑战;在实际应用方面,系统不稳定的大多数可能来自于访存错误,访存发生问题,就会可以直接导致系统蓝屏或死机。
服务器生厂商或芯片生产商往往提供一些提高稳定性的功能,它们以损失性能为代价,提高了系统可靠性。本文前部分介绍的同频锁步模式就是这样一种功能。
但性能是很多客户不愿意舍去的,尤其在高性能运算应用中,性能是重中之重,客户不惜花费重金购买多核高主频处理器,构建大容量内存系统,目的就是追求良好的性能。
因此,如何在性能及可靠性之间斡旋,成为一个值得讨论的话题;尽可能保证系统性能,在必要的时候再选择牺牲性能换取稳定性才是正确的理念。本文讲述的同频锁步模式自动切换方法遵循这样的理念,具有极强的实用性和极高的商业价值。
发明内容
本发明的目的是提供一种基于Intel Brickland-EX平台的同频锁步模式自动切换方法。
本发明的目的是按以下方式实现的,自动切换步骤如下:
1)为了保证系统访存性能,BIOS将系统默认的访存模式设置为Performance模式,并开启CPU ECC纠错功能,在Brickland-EX平台表现为SDDC或DDDC功能;
2)如果访存时发生2bit以下的错误,通过ECC功能可以将错误纠正,2bit以上错误则需要启用DDDC功能纠正,同时BIOS需要将记录这一次错误并通过PCH的LPC总线传送给BMC;
3)BMC设置阀值计数器,当接收BIOS传送的错误数量达到10次以上时,阀值计数器溢出,BMC将溢出的1写入EEPROM保存;于此同时BMC设置内存位置编码寄存器记录报错内存的位置,一并写入EEPROM中保存;
4)系统在下一次重启或重新开机时,BMC首先从EEPROM中获取报错内存的位置,并确认此位置内存是否被更换,如果发现已经替换为新的内存,BIOS将启用默认的Performance访存模式,BMC清空内存位置编码寄存器和阀值寄存器;如果发现报错的内存没有被更换,则查看EEPROM中是否记录阀值的溢出,如有溢出则通过拉低与PCH之间的GPIO,告知BIOS需将访存切换为同频锁步模式;
5)通过监控管理单元收集内存报错信息,并设置阀值,错误超过这个阀值则在系统重启过程中, BIOS将CPU的访存模式自动设置为同频锁步模式以保证系统访存稳定性,这样就降低了总线负荷,降低至1/2 cache line,并提高了ECC的纠错能力;
6)维修过故障内存后,或长时间没有发生内存错误时,监控管理单元再通过BIOS将访存方式再次变更Performance模式。
本发明的有益效果是:将系统默认的工作模式设置为Performance模式,通过监控管理单元收集内存报错信息,并设置阀值,错误超过这个阀值则在系统重启过程中, BIOS将CPU的访存模式自动设置为同频锁步模式以保证系统访存稳定性,这样就降低了总线负荷,降低至1/2 cache line,并提高了ECC的纠错能力,保证系统访存性能。
附图说明
图1是Performance模式体系架构图;
图2是同频锁步模式体系架构图;
图3是切换访存模式的体系架构图;
图4是自动切换流程图。
具体实施方式
参照说明书附图对本发明的方法作以下详细地说明。
本发明提出了一种基于Intel Brickland-EX平台的Lockstep自动切换方法,利用监控管理单元收集内存报错信息,并通过BIOS切换处理器访存方式;可以尽可能保证服务器系统的性能,在必要的时候选择牺牲性能换取系统稳定性。
Intel Brickland-EX访存体系架构如图1所示:同频锁步切换访存模式的体系架构如图2所示:
系统自动切换步骤如下:如图3、图4所示;
1)为了保证系统访存性能,BIOS将系统默认的访存模式设置为Performance模式,并开启CPU ECC纠错功能,在Brickland-EX平台表现为SDDC或DDDC功能;
2)如果访存时发生2bit以下的错误,通过ECC功能可以将错误纠正,2bit错误需要启用DDDC功能纠正,同时BIOS需要将记录这一次错误并通过PCH的LPC总线传送给BMC;
3)BMC设置阀值计数器,当接收BIOS传送的错误数量达到10次以上时,阀值计数器溢出,BMC将溢出的1写入EEPROM保存;于此同时BMC设置内存位置编码寄存器记录报错内存的位置,一并写入EEPROM中保存;
4)系统在下一次重启或重新开机时,BMC首先从EEPROM中获取报错内存的位置,并确认此位置内存是否被更换,如果发现已经替换为新的内存,BIOS将启用默认的Performance访存模式,BMC清空内存位置编码寄存器和阀值寄存器;如果发现报错的内存没有被更换,则查看EEPROM中是否记录阀值的溢出,如有溢出则通过拉低与PCH之间的GPIO,告知BIOS需将访存切换为Lockstep模式;
5)系统开机后,BIOS将CPU的访存模式自动设置为Lockstep;这样就降低了总线负荷,降低至1/2 cache line,并提高了ECC的纠错能力;
6)维修过故障内存后,或长时间没有发生内存错误时,监控管理单元再通过BIOS将访存方式再次变更Performance模式。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (1)

1.一种基于Intel Brickland-EX平台的同频锁步模式自动切换方法,其特征在于自动切换步骤如下:
1)为了保证系统访存性能,BIOS将系统默认的访存模式设置为Performance模式,并开启CPU ECC纠错功能,在Brickland-EX平台表现为SDDC或DDDC功能;
2)如果访存时发生2bit以下的错误,通过ECC功能可以将错误纠正,2bit以上错误则需要启用DDDC功能纠正,同时BIOS需要将记录这一次错误并通过PCH的LPC总线传送给BMC;
3)BMC设置阀值计数器,当接收BIOS传送的错误数量达到10次以上时,阀值计数器溢出,BMC将溢出的1写入EEPROM保存;于此同时BMC设置内存位置编码寄存器记录报错内存的位置,一并写入EEPROM中保存;
4)系统在下一次重启或重新开机时,BMC首先从EEPROM中获取报错内存的位置,并确认此位置内存是否被更换,如果发现已经替换为新的内存,BIOS将启用默认的Performance访存模式,BMC清空内存位置编码寄存器和阀值寄存器;如果发现报错的内存没有被更换,则查看EEPROM中是否记录阀值的溢出,如有溢出则通过拉低与PCH之间的GPIO,告知BIOS需将访存切换为同频锁步模式;
5)通过监控管理单元收集内存报错信息,并设置阀值,错误超过这个阀值则在系统重启过程中, BIOS将CPU的访存模式自动设置为同频锁步模式以保证系统访存稳定性,这样就降低了总线负荷,降低至1/2 cache line,并提高了ECC的纠错能力;
6)维修过故障内存后,或长时间没有发生内存错误时,监控管理单元通过BIOS将访存方式再次变更为Performance模式。
CN2012104531443A 2012-11-13 2012-11-13 一种基于Intel Brickland-EX平台的同频锁步模式的自动切换方法 Pending CN102968354A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012104531443A CN102968354A (zh) 2012-11-13 2012-11-13 一种基于Intel Brickland-EX平台的同频锁步模式的自动切换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012104531443A CN102968354A (zh) 2012-11-13 2012-11-13 一种基于Intel Brickland-EX平台的同频锁步模式的自动切换方法

Publications (1)

Publication Number Publication Date
CN102968354A true CN102968354A (zh) 2013-03-13

Family

ID=47798507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012104531443A Pending CN102968354A (zh) 2012-11-13 2012-11-13 一种基于Intel Brickland-EX平台的同频锁步模式的自动切换方法

Country Status (1)

Country Link
CN (1) CN102968354A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302658A (zh) * 2015-12-09 2016-02-03 浪潮电子信息产业股份有限公司 一种存储器数据校正测试方法
TWI602054B (zh) * 2016-04-01 2017-10-11 神雲科技股份有限公司 用於電腦裝置的錯誤狀態資料提供方法
CN108600043A (zh) * 2018-04-02 2018-09-28 郑州云海信息技术有限公司 连接服务器和控制端的方法、服务器Memory功能模块测试方法
CN109101377A (zh) * 2018-07-18 2018-12-28 郑州云海信息技术有限公司 一种内存sddc的测试方法
CN109542525A (zh) * 2018-11-30 2019-03-29 郑州云海信息技术有限公司 一种通过bmc切换系统内存配置的方法、装置、终端及存储介质
WO2020000956A1 (zh) * 2018-06-28 2020-01-02 郑州云海信息技术有限公司 一种bmc监控可恢复ecc错误的方法、装置及设备
CN111045957A (zh) * 2019-12-26 2020-04-21 江南大学 一种与处理器流水线伪同频的ICache实现方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3938153A1 (de) * 1989-04-18 1990-10-25 Mitsubishi Electric Corp Mikroprozessor
CN1871581A (zh) * 2003-10-24 2006-11-29 罗伯特.博世有限公司 在处理器的至少两个工作模式之间切换的方法和装置
CN101126995A (zh) * 2006-08-14 2008-02-20 国际商业机器公司 处理严重硬件错误的方法及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3938153A1 (de) * 1989-04-18 1990-10-25 Mitsubishi Electric Corp Mikroprozessor
CN1871581A (zh) * 2003-10-24 2006-11-29 罗伯特.博世有限公司 在处理器的至少两个工作模式之间切换的方法和装置
CN101126995A (zh) * 2006-08-14 2008-02-20 国际商业机器公司 处理严重硬件错误的方法及设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302658A (zh) * 2015-12-09 2016-02-03 浪潮电子信息产业股份有限公司 一种存储器数据校正测试方法
TWI602054B (zh) * 2016-04-01 2017-10-11 神雲科技股份有限公司 用於電腦裝置的錯誤狀態資料提供方法
CN108600043A (zh) * 2018-04-02 2018-09-28 郑州云海信息技术有限公司 连接服务器和控制端的方法、服务器Memory功能模块测试方法
WO2020000956A1 (zh) * 2018-06-28 2020-01-02 郑州云海信息技术有限公司 一种bmc监控可恢复ecc错误的方法、装置及设备
CN109101377A (zh) * 2018-07-18 2018-12-28 郑州云海信息技术有限公司 一种内存sddc的测试方法
CN109542525A (zh) * 2018-11-30 2019-03-29 郑州云海信息技术有限公司 一种通过bmc切换系统内存配置的方法、装置、终端及存储介质
CN111045957A (zh) * 2019-12-26 2020-04-21 江南大学 一种与处理器流水线伪同频的ICache实现方法
CN111045957B (zh) * 2019-12-26 2023-10-27 江南大学 一种与处理器流水线伪同频的ICache实现方法

Similar Documents

Publication Publication Date Title
CN102968354A (zh) 一种基于Intel Brickland-EX平台的同频锁步模式的自动切换方法
US9928077B2 (en) Chip starting method, multi-core processor chip and storage medium
US20180217915A1 (en) Debugging method, multi-core processor, and debugging device
US10409709B2 (en) Debugging method, multi-core processor and debugging device
WO2021135272A1 (zh) 一种内存异常的处理方法、系统、电子设备及存储介质
CN102681871A (zh) 一种基于通信接口的固件升级系统
US8549277B2 (en) Server system including diplexer
CN110136209B (zh) 一种摄像头标定方法、装置及计算机可读存储介质
CN113176963B (zh) 一种PCIe故障自修复方法、装置、设备及可读存储介质
CN110928719A (zh) Ssd低功耗模式异常处理方法、装置、计算机设备及存储介质
CN104503781A (zh) 硬盘的固件升级方法和存储系统
US10613953B2 (en) Start test method, system, and recording medium
CN109376028B (zh) 一种pcie设备纠错方法与装置
CN100384122C (zh) 网络终端产品的在线升级方法
US20140181496A1 (en) Method, Apparatus and Processor for Reading Bios
CN104850496A (zh) 一种面向低延迟应用的rhel服务器调优方法
CN111124780B (zh) 一种UPI Link降速测试方法、系统、终端及存储介质
CN105868038B (zh) 内存错误处理方法及电子设备
CN101299205A (zh) 基于表决的优先排队仲裁系统总线控制方法
JP2012089049A (ja) 計算機システム及びサーバ
CN106776153B (zh) 作业控制方法及服务器
EP2942714B1 (en) Monitoring method, monitoring apparatus, and electronic device
WO2016101177A1 (zh) 计算机设备内存的检测方法和计算机设备
CN109117302A (zh) 一种内存数据获取方法、系统、内存管理中间件及介质
CN104730993A (zh) 智能仪表分区升级方法及智能仪表

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130313