CN113868161B - 一种基于i3c的设备管理方法、装置、设备及可读介质 - Google Patents
一种基于i3c的设备管理方法、装置、设备及可读介质 Download PDFInfo
- Publication number
- CN113868161B CN113868161B CN202111154341.0A CN202111154341A CN113868161B CN 113868161 B CN113868161 B CN 113868161B CN 202111154341 A CN202111154341 A CN 202111154341A CN 113868161 B CN113868161 B CN 113868161B
- Authority
- CN
- China
- Prior art keywords
- bmc
- connection node
- cpu
- memory device
- communication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007726 management method Methods 0.000 title claims abstract description 48
- 238000004891 communication Methods 0.000 claims abstract description 64
- 238000012544 monitoring process Methods 0.000 claims abstract description 59
- 238000012795 verification Methods 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012806 monitoring device Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 239000002674 ointment Substances 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 241000700605 Viruses Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/14—Handling requests for interconnection or transfer
- G06F13/36—Handling requests for interconnection or transfer for access to common bus or bus system
- G06F13/362—Handling requests for interconnection or transfer for access to common bus or bus system with centralised access control
- G06F13/366—Handling requests for interconnection or transfer for access to common bus or bus system with centralised access control using a centralised polling arbiter
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种基于I3C的设备管理方法,包括:为计算机节点配置第一I3C连接节点,将第一I3C连接节点的第一主端口连接至CPU和BMC,将第一I3C连接节点的第一从端口连接至内存设备,BMC通过I3C通信获取对内存设备的第一监控信息;为计算机节点配置第二I3C连接节点,将第二I3C连接节点的第二主端口连接至CPU和BMC,将第二I3C连接节点的第二从端口连接至监控设备,BMC通过I3C通信获取监控设备的第二监控信息;为计算机节点配置第三I3C连接节点,将第三I3C连接节点的第三主端口连接至BMC和CPLD,将第三I3C连接节点的第三从端口连接至平台控制器,BMC通过I3C通信获取验证Firmware的第三监控信息。本发明还公开了一种基于I3C的设备管理装置、计算机设备和可读存储介质。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种基于I3C的设备管理方法、装置、设备及可读介质。
背景技术
随着信息技术的发展,服务器的应用越来越广泛。在政府、金融、能源等行业中,对于大型核心数据库、虚拟化整合、内存计算、高性能计算的需求越来越高,8路服务器的优点得以广泛应用。随着技术的发展,I3C通信协议开始应用在多路高性能服务器中。此外,模块化设计在服务器研发领域逐渐成熟,使用DC-SCM(Datacenter Secure Control Module,一种管理板卡,包含BMC、CPLD等芯片)作为服务器管理板卡的设计,应用越来越广泛。
以应用DC-SCM卡的通用服务器为例,服务器中每块主板上有两个CPU。通过应用DC-SCM卡,将服务器主板上的BMC(Base Management Controller,基板管理控制器),PCH(Platform Controller Hub,平台控制器)和CPLD(包含CPLD PFR和CPLD Debug等)独立在一张板卡中。主板和DC-SCM卡通过4C+连接器连接在一起,在这样的环境下,基于模块化设计的思路,DC-SCM卡可以在相同架构的产品中通用,大大提高了通用服务器产品设计,出货的速度。
主板和各种拓展板卡上的信号,都需要通过4C+连接器与DC-SCM卡上的BMC,CPLD(复杂可编程逻辑器件)等芯片相连。此外,由于主板上需要的器件越来越多,随之带来的是BMC需要监控的信息越来越多,而现在广泛使用的4C+连接器仅168pin,同时还需要传输一些BMC,CPLD使用的重要信号,所以在主板不断增加设备的环境下,如何解决4C+连接器pin不够是我们需要思考的问题。
例如在进行Debug时,DC-SCM卡上的BMC芯片可通过I3C通信访问主板上连接的DIMM(Dual Inline Memory Module,双列直插内存模块)设备,以获取温度,内存信息等。而随着技术的发展,Intel和AMD下一代CPU均支持12Channels DDR5内存。由于BMC上用于I3C管理的Port是极其有限的,越来越多的DIMM设备会对BMC的I3C链路设计造成一定压力,而现有的技术方案中并无在通用服务器中大规模使用I3C作为主板上设备管理的方案,所以需要新设计一种I3C管理架构应用于通用服务器产品中。
发明内容
有鉴于此,本发明实施例的目的在于提出一种基于I3C的设备管理方法、装置、设备及可读介质,以设计一个全新的I3C架构来实现BMC对计算节点和DC-SCM卡上的重要设备进行监控。
基于上述目的,本发明实施例的一方面提供了一种基于I3C的设备管理方法,包括以下步骤:为计算机节点配置第一I3C连接节点,将第一I3C连接节点的第一主端口分别连接至CPU和BMC,将第一I3C连接节点的第一从端口根据CPU的通道数量连接至内存设备,BMC通过I3C通信获取对内存设备的第一监控信息;
为计算机节点配置第二I3C连接节点,将第二I3C连接节点的第二主端口分别连接至CPU和BMC,将第二I3C连接节点的第二从端口分别连接至若干监控设备,BMC通过I3C通信获取若干监控设备的第二监控信息;
为计算机节点配置第三I3C连接节点,将第三I3C连接节点的第三主端口分别连接至BMC和具有PRF功能的CPLD,将第三I3C连接节点的第三从端口连接至平台控制器,BMC通过I3C通信获取CPLD通过PRF验证Firmware的第三监控信息。
在一些实施方式中,为计算机节点配置第一I3C连接节点,将第一I3C连接节点的第一主端口分别连接至CPU和BMC,将第一I3C连接节点的第一从端口根据CPU的通道数量连接至内存设备,BMC通过I3C通信获取对内存设备的第一监控信息还包括:
响应于内存设备工作正常,通过CPU访问内存设备;
响应于内存设备工作异常,通过BMC访问内存设备,BMC通过轮询每个第一从端口以检查每个第一从端口对应的内存通道。
在一些实施方式中,为计算机节点配置第一I3C连接节点,将第一I3C连接节点的第一主端口分别连接至CPU和BMC,将第一I3C连接节点的第一从端口根据CPU的通道数量连接至内存设备,BMC通过I3C通信获取对内存设备的第一监控信息包括:
计算机节点包括两个第一I3C连接单元,每个第一I3C连接单元包括两个第一主端口,每个第一I3C连接单元中的一个第一主端口分别连接第一CPU和第二CPU,每个第一I3C连接单元中的另一个第一主端口分别连接至BMC;
响应于内存设备工作异常,通过BMC选通第一CPU或第二CPU对应的第一I3C连接单元以访问内存设备。
在一些实施方式中,方法还包括:
将CPLD连接至一个第二从端口,通过CPLD将第二监控信息存储在寄存器中;
BMC通过I3C通信从第二从端口获取寄存器中的第二监控信息。
在一些实施方式中,方法还包括:
将CPLD连接至一个第二从端口,通过CPLD将第二监控信息存储在寄存器中;
CPLD通过I3C通信向BMC发送寄存器信息。
本发明实施例的另一方面,还提供了一种基于I3C通信的设备管理装置,包括:内存设备管理模块,内存设备管理模块配置用于为计算机节点配置第一I3C连接节点,将第一I3C连接节点的第一主端口分别连接至CPU和BMC,将第一I3C连接节点的第一从端口根据CPU的通道数量连接至内存设备,BMC通过I3C通信获取对内存设备的第一监控信息;
监控设备管理模块,监控设备管理模块配置用于为计算机节点配置第二I3C连接节点,将第二I3C连接节点的第二主端口分别连接至CPU和BMC,将第二I3C连接节点的第二从端口分别连接至若干监控设备,BMC通过I3C通信获取若干监控设备的第二监控信息;
Firmware验证管理模块,Firmware验证管理模块配置用于为计算机节点配置第三I3C连接节点,将第三I3C连接节点的第三主端口分别连接至BMC和具有PRF功能的CPLD,将第三I3C连接节点的第三从端口连接至平台控制器,BMC通过I3C通信获取CPLD通过PRF验证Firmware的第三监控信息。
在一些实施方式中,内存设备管理模块进一步配置用于:
响应于内存设备工作正常,通过CPU访问内存设备;
响应于内存设备工作异常,通过BMC访问内存设备,BMC通过轮询每个第一从端口以检查每个第一从端口对应的内存通道。
本发明实施例的再一方面,还提供了一种计算机设备,包括:至少一个处理器;以及存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行时实现上述基于I3C的设备管理方法的步骤。
本发明实施例的再一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。
本发明至少具有以下有益技术效果:在本发明中,设计了一个全新的I3C架构来实现BMC对计算节点和DC-SCM卡上的重要设备进行监控。通过本方案的设计,计算节点上的大量设备均可实现通过OCP 4C+连接器(OCP定义的一种板间连接器,共有168pin)被BMC监控,通过设计I3C Hub(Renesas RG3M87B12A0 I3C Hub芯片)和BMC控制切换,解决了目前方案中4C+连接器Pin数量不够的问题,从而简化了DC-SCM卡的设计和计算节点的方案设计。
I3C通信的设计使得BMC的轮询更加快速和高效,解决了以往I2C链路下挂设备过多时,BMC轮询时间的担忧。I3C通信不但兼容I2C,并且传输速率快得多,Salve还能主动给Master发送数据,大大节省了BMC的计算资源。本方案中部分I3C Hub的Salve Port有空余,在实际设计中,I2C设备也能够接入,进一步节省BMC的I2C Port,并省去大量I2C Switch和MUX,大大节省了物料成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明提供的基于I3C的设备管理方法的实施例的示意图;
图2为本发明提供的基于I3C的设备管理方法的实施例的系统架构图;
图3为本发明提供的基于I3C的设备管理装置的实施例的示意图;
图4为本发明提供的计算机设备的实施例的示意图;
图5为本发明提供的计算机可读存储介质的实施例的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
随着主板上越来越多的设备和信号,BMC需要监控大量的设备,并且数量众多的设备均需要通过I2C来管理,相对I3C通信来说,速度相对较慢且需要大量的I2C MUX等芯片用于切换。此外,众多需要监控的设备,再加上多级MUX,Switch还占用了BMC的计算资源,使得BMC对I2C设备的轮询时间不断被延长。同时,CPLD(PFR)和CPLD(Debug)也需要通过4C+连接器连接到主板,而OCP 4C+连接器的168Pin在应对目前的环境下显然是不够用的。所以本方案设计了一种I3C的通用服务器管理方案,以应对上述中面对的种种问题。
基于上述目的,本发明实施例的第一个方面,提出了基于I3C通信的设备管理方法的实施例。本方案使用I3C通信将一些重要设备作为Salve与BMC等设备连接起来,使得BMC能够快速访问设备的Firmware,温度,Error等信息。图1为本发明提供的基于I3C的设备管理方法的实施例的示意图。如图1所示,本发明实施例的基于I3C通信的设备管理方法包括如下步骤:
001、为计算机节点配置第一I3C连接节点,将第一I3C连接节点的第一主端口分别连接至CPU和BMC,将第一I3C连接节点的第一从端口根据CPU的通道数量连接至内存设备,BMC通过I3C通信获取对内存设备的第一监控信息;
002、为计算机节点配置第二I3C连接节点,将第二I3C连接节点的第二主端口分别连接至CPU和BMC,将第二I3C连接节点的第二从端口分别连接至若干监控设备,BMC通过I3C通信获取若干监控设备的第二监控信息;
003、为计算机节点配置第三I3C连接节点,将第三I3C连接节点的第三主端口分别连接至BMC和具有PRF功能的CPLD,将第三I3C连接节点的第三从端口连接至平台控制器,BMC通过I3C通信获取CPLD通过PRF验证Firmware的第三监控信息。
在本实施例中,主要分为3个设计部分,BMC对DIMM设备的监控,BMC对CPU上主要温度和Error信息,Debug信号的监控和记录,BMC对PFR(Platform Firmware Resilience,Intel的平台固件保护恢复技术)功能的支持和对CPLD(PFR)验证Firmware的监控。
在本实施例中,图2为本发明提供的基于I3C的设备管理方法的实施例的系统架构图,如图2所示,根据步骤001,设计使用I3C通信代替SPD,使得BMC通过I3C访问DIMM设备,监控设备状态,在Debug时获取DIMM设备的Error信息。在现有技术中,正常工作时下CPU通过SPD访问DIMM设备,而本实施例中使用I3C代替SPD的功能,以实现更高速率的访问。I3C通信还能有效减少BMC轮询时间,从而在Debug时快速抓取DIMM设备的信息。
在本实施例中,如图2所示,根据步骤002,设计的Thermal/Error监控同样使用I3C作为SMBus总线的通信方式。
在本实施例中,CPU上有重要的温度信号需要BMC监控。CPU还有一些重要的Error报错信号,如图2所示,以上CPU的温度监控信号和Error信号均通过CPLD并记录在内部的寄存器中,BMC通过I3C通信从Hub2的S5 Port连接到CPLD读取寄存器内的信息,I3C的高速率带来的是BMC的快速读取和记录,特别是在CPU断电和发生致命Error时,从Error发生到宕机仅有非常短的时间,而I3C则可以大大减少在此过程中BMC记录的时间。
此外,除了CPU上的一些重要信号以外,还有其他设备也需要BMC的监控,本方案中以一些计算节点上的重要设备为例说明。如图2所示,CPU的VR电源芯片会给CPU供电,其中部分电压由CPU通过SVID进行调控,意味着电压是在一定区间内浮动的。所以CPU的SVID信号也需要BMC进行监控,并在SVID发生Error时及时记录在日志中,VR芯片的Error信号也是如此,当VR因为Error而发生供电问题时,BMC需要及时记录Log信息。本实施例通过I3C代替传统的I2C作为SMBus总线来传输信息,将VR供电芯片的Error信息和CPU的SVID信息通过Hub2传输给BMC。如图2所示,PCH的Error信号,计算节点上的FRU,Temp Sensor均可通过I3C通信传输给Hub2,然后再由BMC控制Hub2的Master Port读取。
通常来说,计算节点的尺寸相对较大,意味着需要在不同的地方放置更多的TempSensor,再加上计算节点上的其他设备,需要数量众多的SMBus总线,但一些重要信号需要更快速的传输速率以保证Log能够完整的记录。目前的方案中需要加多级Switch和MUX,还要考虑多级切换带来的时间Delay的情况,这对计算节点的设计无疑增加了很多难度。而本实施例设计的I3C管理架构,仅使用1级I3C Hub就能完成切换,设计难度下降的同时,还加快了速率,并且I3C Hub同时兼容I2C,在一些非重要设备上可以仍然使用I2C总线设计,减少了I2C Switch的数量,大大降低了板卡物料成本。
在本实施例中,根据步骤003,在Intel下一代新平台中,RoT对系统安全起着越来越重要的作用,而PFR对系统Firmware的验证和恢复是RoT的核心部分。PFR需要CPLD用于对BIOS Firmware和BMC Flash Firmware的验证,并在发现Firmware出现问题时,主动对Firmware进行恢复,以防止非人为的程序或病毒会系统Firmware的损坏。
如图2所示,本实施例设计的I2C Hub3专门用于PFR功能。在计算节点上,PCH会下挂两个相互冗余的BIOS Flash用于系统启动,PCH下的BIOS Flash需要一个带PFR功能的CPLD用于验证Firmware,并且需要在BIOS Firmware出现问题,启动失败,或CPLD(PFR)验证其内部Firmware被非人为更改时,让BMC能够监控到此事件,并记录在Log日志中,以便后续的Debug。
在本发明的一些实施例中,为计算机节点配置第一I3C连接节点,将第一I3C连接节点的第一主端口分别连接至CPU和BMC,将第一I3C连接节点的第一从端口根据CPU的通道数量连接至内存设备,BMC通过I3C通信获取对内存设备的第一监控信息还包括:
响应于内存设备工作正常,通过CPU访问内存设备;
响应于内存设备工作异常,通过BMC访问内存设备,BMC通过轮询每个第一从端口以检查每个第一从端口对应的内存通道。
在本实施例中,新一代平台的CPU普遍支持12Channels Memory。方案使用两个I3CHub将CPU0和CPU1的12Channels分开。每个I3C Hub具有8个Slave Port和2个Master Port,可实现两个Master选通任意一个Salve Port。
在本实施例中,以CPU0 DIMM为例,使用I3C Hub0上的6个Salve Port S0-S5,每个Salve Port连接两个通道的DIMM。Hub0上的Master Port M0用来连接到BMC,使得BMC能够通过I3C通信访问CPU0上的DIMM设备。Master Port M1连接到CPU0,以便在正常工作时CPU访问DIMM设备。I3C Hub使用两个Master Port分别连接到BMC和CPU0,两个Port就可切换。正常工作时CPU访问DIMM设备,但当DIMM设备出现问题时,BMC可选通M0 Port访问DIMM设备。BMC通过轮询每个Salve Port来依次检查每两个Memory通道,访问DIMM上的Firmware,Error,温度等信息。本方案设计两个I3C Hub上的M0共用一个BMC I3C,在Debug时,BMC可通过GPIO选通任意一个I3C Hub,并切换Master Port0和1。本方案中I3C Hub上的每个SalvePort仅连接两个DIMM Channel,相比现有方案中每个Switch下挂4到6个DIMM Channel,能够减少查错的时间,更快的找到出现问题的DIMM。
在本发明的一些实施例中,为计算机节点配置第一I3C连接节点,将第一I3C连接节点的第一主端口分别连接至CPU和BMC,将第一I3C连接节点的第一从端口根据CPU的通道数量连接至内存设备,BMC通过I3C通信获取对内存设备的第一监控信息包括:
计算机节点包括两个第一I3C连接单元,每个第一I3C连接单元包括两个第一主端口,每个第一I3C连接单元中的一个第一主端口分别连接第一CPU和第二CPU,每个第一I3C连接单元中的另一个第一主端口分别连接至BMC;
响应于内存设备工作异常,通过BMC选通第一CPU或第二CPU对应的第一I3C连接单元以访问内存设备。
在本实施例中,所设计的方案是一种基于未来Intel平台和AMD平台的,应用在基于DC-SCM卡的通用服务器系统的环境中。在该架构下,每个计算节点包含2个CPU,计算节点上会连接一个DC-SCM管理板卡。DC-SCM卡上有BMC,CPLD(PFR),CPLD(Debug)等芯片。板卡通过OCP 4C+连接器连接到主板。BMC在进行监控主板状态,或进行Debug时,可通过I3C通信访问主板上的各类设备,例如DIMM设备,监控CPU状态,获取CPU Error信号,监控主板温度,VR芯片,CPU的SVID信号等信息。
在本实施例中,在计算节电的两个CPU上,有THERMTRIP信号,用于监控CPU的阈值温度并在CPU温度过高时控制CPU断电。PROCHOT信号用于监控CPU的温度,当CPU温度升高时,发送信号给BMC,BMC收到后会提高风扇转速以便进一步散热。MEMTRIP用于记录THERMTRIP信号和系统电源关闭,该信号会发送给BMC记录,并在出现系统电源关闭时,记录在BMC的Log日志中。MEMHOT信号用于当CPU超过阈值温度时,通知BMC发生了热阈值事件,BMC会将该事件记录在Log日志中。
在本实施例中,在DC-SCM卡上,BMC的两个Flash中的Firmware同样需要CPLD(PFR)进行验证和恢复。如图2所示,I3C Hub3的两个Master Port分别为BMC和CPLD(PFR),这样BMC可通过切换Port使用I3C来获取CPLD验证的情况,有问题可及时记录Log日志。
在本发明的一些实施例中,第二监控信息包括:温度监控信号、报错信号、电压调控信号。
在本实施例中,在计算节点上,CPU0和CPU1有一些重要的信号需要监控,例如CPU的各类温度监控信号,CPU的Error信息等。其他设备如VR的报错信息,CPU的SVID电压调控信息等,都设计通过I3C通信交由BMC进行监控。
在本发明的一些实施例中,方法还包括:
将CPLD连接至一个第二从端口,通过CPLD将第二监控信息存储在寄存器中;
BMC通过I3C通信从第二从端口获取寄存器中的第二监控信息。
在本实施例中,Error[2:0]信号是CPU和PCH重要的IO Error信号,用于指示可纠正Error,不可纠正的非致命性Error和不可纠正的致命性Error。该信号由CPU和PCH发送给CPLD,BMC可通过读取CPLD内部的寄存器来获取CPU的Error[2:0]信息,在CPU发生致命Error导致宕机时,能够记录发生Error的CPU IO Port,以便后续Debug。
在本发明的一些实施例中,方法还包括:
将CPLD连接至一个第二从端口,通过CPLD将第二监控信息存储在寄存器中;
CPLD通过I3C通信向BMC发送寄存器信息。
在本实施例中,利用I3C的特性,CPLD还能作为Salve设备,主动发送寄存器信息给BMC,从而减少BMC轮询的计算资源。
在本发明的实施例中,通过设计一个应用在DC-SCM架构中的全新的I3C管理方案,实现BMC通过I3C监控计算节点上的设备,并节省了4C+连接器的Pin。通过I3C通信,解决了以往BMC上I2C Port紧张的问题,并且利用I3C更快的传输速率和Salve能够主动发送数据给Master设备的特性,大大节省了BMC的轮询时间和计算资源。方案中设计使用的I3C Hub,还能兼容I2C,进一步节省了I2C Switch和MUX,大大节省了板卡物料成本。
需要特别指出的是,上述固件诊断功能的验证方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于固件诊断功能的验证方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在实施例之上。
基于上述目的,本发明实施例的第二个方面,提出了一种基于I3C通信的设备管理装置。图3示出的是本发明提供的基于I3C通信的设备管理装置的实施例的示意图。如图3所示,本发明实施例的基于I3C通信的设备管理装置包括如下模块:内存设备管理模块011,配置用于为计算机节点配置第一I3C连接节点,将第一I3C连接节点的第一主端口分别连接至CPU和BMC,将第一I3C连接节点的第一从端口根据CPU的通道数量连接至内存设备,BMC通过I3C通信获取对内存设备的第一监控信息;监控设备管理模块012,配置用于为计算机节点配置第二I3C连接节点,将第二I3C连接节点的第二主端口分别连接至CPU和BMC,将第二I3C连接节点的第二从端口分别连接至若干监控设备,BMC通过I3C通信获取若干监控设备的第二监控信息;Firmware验证管理模块013,配置用于为计算机节点配置第三I3C连接节点,将第三I3C连接节点的第三主端口分别连接至BMC和具有PRF功能的CPLD,将第三I3C连接节点的第三从端口连接至平台控制器,BMC通过I3C通信获取CPLD通过PRF验证Firmware的第三监控信息。
在本发明的一些实施例中,内存设备管理模块011进一步配置用于:响应于内存设备工作正常,通过CPU访问内存设备;
响应于内存设备工作异常,通过BMC访问内存设备,BMC通过轮询每个第一从端口以检查每个第一从端口对应的内存通道。
基于上述目的,本发明实施例的第三个方面,提出了一种计算机设备。图4示出的是本发明提供的计算机设备的实施例的示意图。如图4所示,本发明实施例的计算机设备包括如下装置:至少一个处理器021;以及存储器022,存储器022存储有可在处理器上运行的计算机指令023,指令由处理器执行时实现如上方法的步骤。
本发明还提供了一种计算机可读存储介质。图5示出的是本发明提供的计算机可读存储介质的实施例的示意图。如图5所示,计算机可读存储介质031存储有被处理器执行时执行如上方法的计算机程序032。
本方案使用的I3C通信,相对I2C来说,吸纳了I2C和SPI的关键特性,并将其统一起来,同时在I2C的基础上,保留了两线的串行接口结构。不但可以支持Multi-Master即多主设备,还可以作为Salve设备,主动和Master进行通信,从而节省Master设备的计算资源。此外,不但能兼容现有的I2C设备,且相比较于I2C总线的功耗更低,速度更快,最高可支持到12.5MHz。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,固件诊断功能的验证方法的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,程序的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。
此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现上述的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(D0L)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、D0L或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
Claims (8)
1.一种基于I3C通信的设备管理方法,其特征在于,包括以下步骤:
为计算机节点配置第一I3C连接节点,将所述第一I3C连接节点的第一主端口分别连接至CPU和BMC,将所述第一I3C连接节点的第一从端口根据所述CPU的通道数量连接至内存设备,所述BMC通过I3C通信获取对所述内存设备的第一监控信息;
为所述计算机节点配置第二I3C连接节点,将所述第二I3C连接节点的第二主端口分别连接至所述CPU和所述BMC,将所述第二I3C连接节点的第二从端口分别连接至若干监控设备,所述BMC通过所述I3C通信获取所述若干监控设备的第二监控信息;
为所述计算机节点配置第三I3C连接节点,将所述第三I3C连接节点的第三主端口分别连接至所述BMC和具有PRF功能的CPLD,将所述第三I3C连接节点的第三从端口连接至平台控制器,所述BMC通过所述I3C通信获取所述CPLD通过所述PRF验证Firmware的第三监控信息,
其中所述为计算机节点配置第一I3C连接节点,将所述第一I3C连接节点的第一主端口分别连接至CPU和BMC,将所述第一I3C连接节点的第一从端口根据所述CPU的通道数量连接至内存设备,所述BMC通过I3C通信获取对所述内存设备的第一监控信息还包括:
响应于所述内存设备工作正常,通过所述CPU访问所述内存设备;
响应于所述内存设备工作异常,通过所述BMC访问所述内存设备,所述BMC通过轮询每个所述第一从端口以检查每个第一从端口对应的内存通道。
2.根据权利要求1所述的基于I3C通信的设备管理方法,其特征在于,所述为计算机节点配置第一I3C连接节点,将所述第一I3C连接节点的第一主端口分别连接至CPU和BMC,将所述第一I3C连接节点的第一从端口根据所述CPU的通道数量连接至内存设备,所述BMC通过I3C通信获取对所述内存设备的第一监控信息包括:
所述计算机节点包括两个第一I3C连接单元,每个所述第一I3C连接单元包括两个所述第一主端口,每个所述第一I3C连接单元中的一个第一主端口分别连接第一CPU和第二CPU,每个所述第一I3C连接单元中的另一个第一主端口分别连接至所述BMC;
响应于所述内存设备工作异常,通过所述BMC选通所述第一CPU或所述第二CPU对应的第一I3C连接单元以访问所述内存设备。
3.根据权利要求1所述的基于I3C通信的设备管理方法,其特征在于,所述第二监控信息包括:温度监控信号、报错信号、电压调控信号。
4.根据权利要求1所述的基于I3C通信的设备管理方法,其特征在于,还包括:
将所述CPLD连接至一个所述第二从端口,通过所述CPLD将所述第二监控信息存储在寄存器中;
所述BMC通过所述I3C通信从所述第二从端口获取所述寄存器中的所述第二监控信息。
5.根据权利要求1所述的基于I3C通信的设备管理方法,其特征在于,还包括:
将所述CPLD连接至一个所述第二从端口,通过所述CPLD将所述第二监控信息存储在寄存器中;
所述CPLD通过所述I3C通信向所述BMC发送所述寄存器信息。
6.一种基于I3C通信的设备管理装置,其特征在于,包括:
内存设备管理模块,所述内存设备管理模块配置用于为计算机节点配置第一I3C连接节点,将所述第一I3C连接节点的第一主端口分别连接至CPU和BMC,将所述第一I3C连接节点的第一从端口根据所述CPU的通道数量连接至内存设备,所述BMC通过I3C通信获取对所述内存设备的第一监控信息,并且所述内存设备管理模块进一步配置用于:响应于所述内存设备工作正常,通过所述CPU访问所述内存设备;响应于所述内存设备工作异常,通过所述BMC访问所述内存设备,所述BMC通过轮询每个所述第一从端口以检查每个第一从端口对应的内存通道;
监控设备管理模块,所述监控设备管理模块配置用于为所述计算机节点配置第二I3C连接节点,将所述第二I3C连接节点的第二主端口分别连接至所述CPU和所述BMC,将所述第二I3C连接节点的第二从端口分别连接至若干监控设备,所述BMC通过所述I3C通信获取所述若干监控设备的第二监控信息;
Firmware验证管理模块,所述Firmware验证管理模块配置用于为所述计算机节点配置第三I3C连接节点,将所述第三I3C连接节点的第三主端口分别连接至所述BMC和具有PRF功能的CPLD,将所述第三I3C连接节点的第三从端口连接至平台控制器,所述BMC通过所述I3C通信获取所述CPLD通过所述PRF验证Firmware的第三监控信息。
7. 一种计算机设备,其特征在于,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现权利要求1-5任意一项所述方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111154341.0A CN113868161B (zh) | 2021-09-29 | 2021-09-29 | 一种基于i3c的设备管理方法、装置、设备及可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111154341.0A CN113868161B (zh) | 2021-09-29 | 2021-09-29 | 一种基于i3c的设备管理方法、装置、设备及可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113868161A CN113868161A (zh) | 2021-12-31 |
CN113868161B true CN113868161B (zh) | 2023-08-25 |
Family
ID=79000567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111154341.0A Active CN113868161B (zh) | 2021-09-29 | 2021-09-29 | 一种基于i3c的设备管理方法、装置、设备及可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113868161B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114816939B (zh) * | 2022-05-31 | 2024-06-28 | 苏州浪潮智能科技有限公司 | 一种内存通信方法、系统、设备及介质 |
TWI839123B (zh) * | 2023-02-20 | 2024-04-11 | 神雲科技股份有限公司 | 支持平台韌體恢復的管理系統及其韌體回復方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109471770A (zh) * | 2018-09-11 | 2019-03-15 | 华为技术有限公司 | 一种系统管理方法和装置 |
CN111800298A (zh) * | 2020-07-08 | 2020-10-20 | 苏州浪潮智能科技有限公司 | 一种网络节点的管理方法、装置、设备及可读介质 |
CN112653516A (zh) * | 2020-12-04 | 2021-04-13 | 苏州浪潮智能科技有限公司 | 一种服务器中访问dimm的方法、系统、设备及介质 |
CN113220614A (zh) * | 2021-04-30 | 2021-08-06 | 山东英信计算机技术有限公司 | 一种自适应管理i2c和i3c设备的方法、系统及介质 |
-
2021
- 2021-09-29 CN CN202111154341.0A patent/CN113868161B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109471770A (zh) * | 2018-09-11 | 2019-03-15 | 华为技术有限公司 | 一种系统管理方法和装置 |
CN111800298A (zh) * | 2020-07-08 | 2020-10-20 | 苏州浪潮智能科技有限公司 | 一种网络节点的管理方法、装置、设备及可读介质 |
CN112653516A (zh) * | 2020-12-04 | 2021-04-13 | 苏州浪潮智能科技有限公司 | 一种服务器中访问dimm的方法、系统、设备及介质 |
CN113220614A (zh) * | 2021-04-30 | 2021-08-06 | 山东英信计算机技术有限公司 | 一种自适应管理i2c和i3c设备的方法、系统及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113868161A (zh) | 2021-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI768296B (zh) | 用於組態漂移偵測及補救之系統及方法 | |
CN109471770B (zh) | 一种系统管理方法和装置 | |
CN113868161B (zh) | 一种基于i3c的设备管理方法、装置、设备及可读介质 | |
JP6515132B2 (ja) | シャーシ管理システム及びシャーシ管理方法 | |
TWI618380B (zh) | 管理方法、服務控制器裝置以及非暫態電腦可讀取媒體 | |
EP3349118B1 (en) | Bus hang detection and find out | |
US7917664B2 (en) | Storage apparatus, storage apparatus control method, and recording medium of storage apparatus control program | |
US10579572B2 (en) | Apparatus and method to provide a multi-segment I2C bus exerciser/analyzer/fault injector and debug port system | |
CN105159851A (zh) | 多控存储系统 | |
US20220019561A1 (en) | Event-based generation of context-aware telemetry reports | |
CN112000501A (zh) | 一种多节点分区服务器访问i2c设备的管理系统 | |
US20180267870A1 (en) | Management node failover for high reliability systems | |
US20240103971A1 (en) | Systems and methods for error recovery in rebootless firmware updates | |
TW202338604A (zh) | 固態硬碟機狀態監控方法、系統、伺服器及存儲介質 | |
TWI791913B (zh) | 經由邊帶介面恢復場域可程式閘陣列韌體之系統及方法 | |
CN114189429B (zh) | 一种服务器集群故障的监测系统、方法、装置及介质 | |
CN110985426A (zh) | 一种PCIE Switch产品的风扇控制系统及方法 | |
US20070174667A1 (en) | Apparatus, system, and method for accessing redundant data | |
CN112653516B (zh) | 一种服务器中访问dimm的方法、系统、设备及介质 | |
CN111984471B (zh) | 一种机柜电源bmc冗余管理系统及方法 | |
CN113609036A (zh) | 一种基于u.3接口的硬盘背板 | |
CN113867648B (zh) | 一种服务器存储子系统及其控制方法 | |
US10409940B1 (en) | System and method to proxy networking statistics for FPGA cards | |
JP2003022222A (ja) | 情報処理装置及びその保守方法 | |
TWI851327B (zh) | 計算機系統和將事件活動資料存入系統事件日誌的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |