CN111522280A - 算力设备及其算力芯片故障定位方法 - Google Patents

算力设备及其算力芯片故障定位方法 Download PDF

Info

Publication number
CN111522280A
CN111522280A CN202010460324.9A CN202010460324A CN111522280A CN 111522280 A CN111522280 A CN 111522280A CN 202010460324 A CN202010460324 A CN 202010460324A CN 111522280 A CN111522280 A CN 111522280A
Authority
CN
China
Prior art keywords
force
computing
chip
power
board
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010460324.9A
Other languages
English (en)
Inventor
胡习康
沈志文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Jiemicrochip Technology Co ltd
Original Assignee
Shenzhen Jiemicrochip Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Jiemicrochip Technology Co ltd filed Critical Shenzhen Jiemicrochip Technology Co ltd
Priority to CN202010460324.9A priority Critical patent/CN111522280A/zh
Publication of CN111522280A publication Critical patent/CN111522280A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/04Programme control other than numerical control, i.e. in sequence controllers or logic controllers
    • G05B19/042Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
    • G05B19/0423Input/output
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/20Pc systems
    • G05B2219/24Pc safety
    • G05B2219/24036Test signal generated by microprocessor, for all I-O tests

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Power Sources (AREA)

Abstract

本发明公开了一种算力设备及其算力芯片故障定位方法,包括机体和设置在所述机体上的电源,还包括控制主板和算力板,所述电源与控制主板、算力板电连接,所述机体内设有算力板,所述算力板一侧设有控制主板,所述控制主板上设有MCU芯片,所述算力板端部设有连接接口,所述算力板上嵌设有若干个算力芯片,所述连接接口与算力芯片相互连接,所述控制主板通过所述连接接口与算力板连接,以实现所述MCU芯片对算力芯片的通信定位。本发明通过在控制主板内设置MCU芯片,建立MCU芯片与算力芯片之间的通信连接,使得MCU芯片能够快速定位出算力板中的出现故障的算力芯片位置,减少设备故障对生产效益的影响。

Description

算力设备及其算力芯片故障定位方法
技术领域
本发明涉及一种设备,尤其涉及一种算力设备及其算力芯片故障定位方法。
背景技术
随着科学技术的不断进步,算力板在智能计算、云计算以及其它工业设备上得到了广泛使用,传统的算力板是在一块算力板本体上安装多个算力芯片以增加数据计算和处理能力。
当算力板上的某一个或多个的算力芯片发生故障,则导致整个算力板无法继续工作,需快速排查,而传统的排查是采用万用表不断的检测每一个算力芯片,难以快速查找出故障位置,导致设备运行受阻,影响生产效益。
发明内容
本发明提供一种算力设备及其算力芯片故障定位方法,解决传统设备在算力芯片发生故障时难以快速定位出故障位置,影响设备运行及生产效益。
为实现上述目的,本发明提供如下技术方案:
一种算力设备,包括机体和设置在所述机体上的电源,还包括控制主板和算力板,所述电源与控制主板、算力板电连接,所述机体内设有算力板,所述算力板一侧设有控制主板,所述控制主板上设有MCU芯片,所述算力板端部设有连接接口,所述算力板上嵌设有若干个算力芯片,所述连接接口与算力芯片相互连接,所述控制主板通过所述连接接口与算力板连接,以实现所述MCU芯片对算力芯片的通信定位。
优选地,所述连接接口包括RS232、以太网接口、PCI接口和PCIE接口中的至少一种。
优选地,所述算力板上设有元器件,所述元器件为包括但不限于设置在每一所述算力芯片一侧的晶振。
优选地,所述算力板为铝基材算力板。
优选地,所述算力板上嵌设的若干个算力芯片为一算力链,所述算力链为相邻两个算力芯片的串联连接。
优选地,所述算力板上嵌设的若干个算力芯片为多个算力组,每一所述算力组为MCU芯片通过所述连接接口与每一算力芯片的并联连接。
此外,本发明还提供一种算力设备中的算力芯片故障定位方法,该方法包括:
获取出现故障的算力设备,并接通电源通电,所述算力设备包括控制主板和与所述控制主板通信连接的算力板,其中,所述控制主板内置MCU芯片,所述算力板上嵌设有若干个算力芯片;
根据所述控制主板与算力板通信连接,运行所述MCU芯片与每一算力芯片之间通信测试,并判断所述MCU芯片是否接收到每一所述算力芯片回传的反馈信息;
若某一算力芯片未回传反馈信息至所述MCU芯片,则确定出未回传反馈信息的某一算力芯片为所述算力板中的故障位置,并记录故障位置所在的算力芯片信息。
优选地,所述算力板上嵌设的若干个算力芯片为一算力链或多个算力组。
优选地,所述算力链为相邻两个所述算力芯片的串联连接,且所述算力链上的首个所述算力芯片与MCU芯片连接。
优选地,所述算力组为每一所述算力芯片与MCU芯片的并联连接。
本发明与现有技术相比具有以下有益效果:
本发明提供一种算力设备及其算力芯片故障定位方法,通过在控制主板内设置MCU芯片,建立MCU芯片与算力芯片之间的通信连接,使得MCU芯片能够快速定位出算力板中的出现故障的算力芯片位置,减少设备故障对生产效益的影响。
为更清楚地阐述本发明的结构特征和功效,下面结合附图与具体实施例来对本发明进行详细说明。
附图说明
图1为本发明算力设备的结构示意图;
图2为图1中的算力板的结构示意图;
图3为图1中的算力芯片串联连接的流程示意图;
图4为图1中的算力芯片并联连接的流程示意图;
图5为算力设备中的算力芯片故障定位方法的流程示意图;
附图标记:1、机体;2、电源;3、控制主板;301、MCU芯片;4、算力板;401、算力芯片;402、连接接口;403、晶振。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明实施例提供了一种算力设备,参考图1和图2所示,包括机体1和设置在所述机体1上的电源2,还包括控制主板3和算力板4,所述电源2与控制主板3、算力板4电连接,所述机体1内设有算力板4,所述算力板4一侧设有控制主板3,所述控制主板3上设有MCU芯片301,所述算力板 4端部设有连接接口402,所述算力板4上嵌设有若干个算力芯片401,所述连接接口402与算力芯片401相互连接,所述控制主板3通过所述连接接口 402与算力板4连接,以实现所述MCU芯片301对算力芯片401的通信定位。
本实施例中,算力设备是一种具有超算速率的机器,算力设备内设有控制主板3和算力板4,通过在控制主板3内设置MCU芯片301,在算力板4上嵌设有若干个算力芯片401,并建立MCU芯片301与算力芯片401之间的通信连接,使得MCU芯片301对通信后的算力芯片401获取到反馈,能够获取到算力芯片401的反馈则说明该算力芯片401合格,反之,则该算力芯片401 不合格,从而实现MCU芯片301对算力芯片401的通信定位。相比以往的万用表一个一个测试算力板4中的算力芯片401,本发明的实施例更为简便易用,够快速定位出算力板4中的出现故障的算力芯片401位置,减少设备故障对生产效益的影响。
MCU芯片301具有内存(Memory)、计数器(Timer)、A/D转换、数据传输、记录等芯片功能,能够与算力芯片401进行数据传输及数据处理能力。
连接接口402可以包括串口、RS232(异步传输标准接口)、USB接口、以太网接口、PCI接口和PCIE接口中的至少一种。
其中,PCI借口为外设部件互连标准接口,英文为Peripheral ComponentInterconnect;PCIE接口为外设部件互连标准总线接口,英文为Peripheral ComponentInterconnect Express。
在一个实施例中,算力板4采用有利于快速散热的铝基材质为底材,在算力板4上嵌设若干个算力芯片401,位于铝基底材和算力芯片401背面之间设置有布线层,该布线层用于在算力芯片401背面通信布线,使连接接口402 与算力芯片401互接。
进一步地,所述算力板4上设有元器件,所述元器件为包括但不限于设置在每一所述算力芯片401一侧的晶振403。
为进一步获取到算力芯片401的相应定位信息,可在算力板4上设置多个元器件,每个元器件对应设置在每一算力芯片401一侧,MCU芯片301与算力芯片401通信后便可获取到相应的定位信息,其中,元器件为包括但不限于晶振403、锁相环(PLL)等。
基于上述算力设备中算力板4上嵌设的若干个算力芯片401。
实施例一:
参考图3所示,为图1中的算力芯片401串联连接的流程示意图。所述算力板4上嵌设的若干个算力芯片401为一算力链,所述算力链为相邻两个算力芯片401的串联连接。
本实施例中,算力板4上的算力芯片401采用串联连接,将相邻两个算力芯片401前后连接形成一算力链,并将该算力链的首个算力芯片401与连接接口402连接,使得MCU芯片301与算力链通信连接。
例如,当算力设备出现故障,由MCU芯片301向算力链发送测试数据,若算力链上的第三个算力芯片401未能反馈,则说明第三个算力芯片401有问题,MCU芯片301确定出第三个算力芯片401故障并记录位置信息,供工作人员进一步修检。当第三个算力芯片401修检后,重复MCU芯片301向算力链再次发送测试数据,直到算力链上的所有有故障的算力芯片401全部被确定出并修检,完成算力设备的检修。
实施例二:
参考图4所示,为图1中的算力芯片401并联连接的流程示意图。所述算力板4上嵌设的若干个算力芯片401为多个算力组,每一所述算力组为MCU 芯片301通过所述连接接口402与每一算力芯片401的并联连接。
本实施例中,算力板4上的算力芯片401采用并联连接,将若干个算力芯片401布置在算力板4上,每一算力芯片401分别与连接接口402并联形成多个算力组,每一算力组中的算力芯片401由MCU芯片301通信控制。
例如,对于并联连接的算力设备,当算力设备出现故障时,由MCU芯片 301同时向多个算力组发送测试数据,每一算力组上的算力芯片401接收到测试数据后自动反馈给MCU芯片301,若某一算力组上算力芯片401为反馈,则说明该算力芯片401有故障,MCU芯片301记录该算力芯片401故障的位置信息,供工作人员进一步修检。相比串联连接的算力链,并联连接的多个算力组能够更快速度的定位出故障算力芯片401位置,效率更高。
此外,参考图5所示,为算力设备中的算力芯片故障定位方法的流程示意图。本发明还一种算力设备中的算力芯片故障定位方法,该方法包括:
S1、获取出现故障的算力设备,并接通电源2通电,所述算力设备包括控制主板3和与所述控制主板3通信连接的算力板4,其中,所述控制主板3 内置MCU芯片301,所述算力板4上嵌设有若干个算力芯片401。
S2、根据所述控制主板3与算力板4通信连接,运行所述MCU芯片301 与每一算力芯片401之间通信测试,并判断所述MCU芯片301是否接收到每一所述算力芯片401回传的反馈信息。
S3、若某一算力芯片401未回传反馈信息至所述MCU芯片301,则确定出未回传反馈信息的某一算力芯片401为所述算力板4中的故障位置,并记录故障位置所在的算力芯片401信息。
本实施例中,在算力设备出现故障部分功能无法使用时,需对算力设备进行检修,通过在控制主板3内设置MCU芯片301,使MCU芯片301与算力板 4上的算力芯片401通信连接,由MCU芯片301向每一算力芯片401发出通信测试,看MCU芯片301是否接收到算力芯片401回传的反馈信息,若没有,则未回传反馈信息的算力芯片401存在故障,MCU芯片301记录故障位置所在的算力芯片401信息,供工作人员修检。
MCU芯片301具有内存(Memory)、计数器(Timer)、A/D转换、数据传输、记录等芯片功能,能够与算力芯片401进行数据传输及数据处理能力。
连接接口402可以包括串口、RS232(异步传输标准接口)、USB接口、以太网接口、PCI接口和PCIE接口中的至少一种。
其中,PCI借口为外设部件互连标准接口,英文为Peripheral ComponentInterconnect;PCIE接口为外设部件互连标准总线接口,英文为 Peripheral ComponentInterconnect Express。
进一步地,当所述算力板4上嵌设的若干个算力芯片401为一算力链时,所述算力链为相邻两个所述算力芯片401的串联连接,且所述算力链上的首个所述算力芯片401与MCU芯片301连接。
在一个实施例中,当算力设备出现故障,由MCU芯片301向算力链发送测试数据,若算力链上的第三个算力芯片401未能反馈,则说明第三个算力芯片401有问题,MCU芯片301确定出第三个算力芯片401故障并记录位置信息,供工作人员进一步修检。当第三个算力芯片401修检后,重复MCU芯片 301向算力链再次发送测试数据,直到算力链上的所有有故障的算力芯片401 全部被确定出并修检,完成算力设备的检修。
进一步地,当所述算力板4上嵌设的若干个算力芯片401为多个算力组时,所述算力组为每一所述算力芯片401与MCU芯片301的并联连接。
在另一个实施例中,对于并联连接的算力设备,当算力设备出现故障时,由MCU芯片301同时向多个算力组发送测试数据,每一算力组上的算力芯片401接收到测试数据后自动反馈给MCU芯片301,若某一算力组上算力芯片401 为反馈,则说明该算力芯片401有故障,MCU芯片301记录该算力芯片401故障的位置信息,供工作人员进一步修检。相比串联连接的算力链,并联连接的多个算力组能够更快速度的定位出故障算力芯片401位置,效率更高。
上结合具体实施例描述了本发明的技术原理,仅是本发明的优选实施方式。本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式,这些方式都将落入本发明的保护范围之内。

Claims (10)

1.一种算力设备,包括机体和设置在所述机体上的电源,其特征在于,还包括控制主板和算力板,所述电源与控制主板、算力板电连接,所述机体内设有算力板,所述算力板一侧设有控制主板,所述控制主板上设有MCU芯片,所述算力板端部设有连接接口,所述算力板上嵌设有若干个算力芯片,所述连接接口与算力芯片相互连接,所述控制主板通过所述连接接口与算力板连接,以实现所述MCU芯片对算力芯片的通信定位。
2.根据权利要求1所述的算力设备,其特征在于,所述连接接口包括RS232、以太网接口、PCI接口和PCIE接口中的至少一种。
3.根据权利要求1所述的算力设备,其特征在于,所述算力板上设有元器件,所述元器件为包括但不限于设置在每一所述算力芯片一侧的晶振。
4.根据权利要求1所述的算力设备,其特征在于,所述算力板为铝基材算力板。
5.根据权利要求1-4任意一项所述的算力设备,其特征在于,所述算力板上嵌设的若干个算力芯片为一算力链,所述算力链为相邻两个算力芯片的串联连接。
6.根据权利要求1-4任意一项所述的算力设备,其特征在于,所述算力板上嵌设的若干个算力芯片为多个算力组,每一所述算力组为MCU芯片通过所述连接接口与每一算力芯片的并联连接。
7.一种算力设备中的算力芯片故障定位方法,其特征在于,该方法包括:
获取出现故障的算力设备,并接通电源通电,所述算力设备包括控制主板和与所述控制主板通信连接的算力板,其中,所述控制主板内置MCU芯片,所述算力板上嵌设有若干个算力芯片;
根据所述控制主板与算力板通信连接,运行所述MCU芯片与每一算力芯片之间通信测试,并判断所述MCU芯片是否接收到每一所述算力芯片回传的反馈信息;
若某一算力芯片未回传反馈信息至所述MCU芯片,则确定出未回传反馈信息的某一算力芯片为所述算力板中的故障位置,并记录故障位置所在的算力芯片信息。
8.根据权利要求7所述的算力设备,其特征在于,所述算力板上嵌设的若干个算力芯片为一算力链或多个算力组。
9.根据权利要求8所述的算力设备,其特征在于,所述算力链为相邻两个所述算力芯片的串联连接,且所述算力链上的首个所述算力芯片与MCU芯片连接。
10.根据权利要求8所述的算力设备,其特征在于,所述算力组为每一所述算力芯片与MCU芯片的并联连接。
CN202010460324.9A 2020-05-27 2020-05-27 算力设备及其算力芯片故障定位方法 Pending CN111522280A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010460324.9A CN111522280A (zh) 2020-05-27 2020-05-27 算力设备及其算力芯片故障定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010460324.9A CN111522280A (zh) 2020-05-27 2020-05-27 算力设备及其算力芯片故障定位方法

Publications (1)

Publication Number Publication Date
CN111522280A true CN111522280A (zh) 2020-08-11

Family

ID=71906346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010460324.9A Pending CN111522280A (zh) 2020-05-27 2020-05-27 算力设备及其算力芯片故障定位方法

Country Status (1)

Country Link
CN (1) CN111522280A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113685873A (zh) * 2021-07-30 2021-11-23 江西锋铄新能源科技有限公司 一种生态算力型冷热电气系统
CN113713865A (zh) * 2021-07-30 2021-11-30 江西锋铄新能源科技有限公司 一种算力型恒温恒湿箱

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113685873A (zh) * 2021-07-30 2021-11-23 江西锋铄新能源科技有限公司 一种生态算力型冷热电气系统
CN113713865A (zh) * 2021-07-30 2021-11-30 江西锋铄新能源科技有限公司 一种算力型恒温恒湿箱

Similar Documents

Publication Publication Date Title
CN111522280A (zh) 算力设备及其算力芯片故障定位方法
CN103853686A (zh) 服务器
CN111897398A (zh) 一种异构计算扩展装置及电子设备
CN211906068U (zh) 一种基于blvds高速背板总线的分布式控制器及机箱
CN203133691U (zh) 一种基于cpci架构的服务器计算节点
CN203535549U (zh) 一种适用于多种服务器主板应用的bmc模块
CN211906049U (zh) 算力设备
CN209356635U (zh) 一种基于vpx架构的雷达计算板卡的测试装置
CN205229926U (zh) 一种64路服务器上处理器协同互连板
CN103186180A (zh) 机柜系统及其服务器
CN208172694U (zh) 一种基于vpx架构的雷达计算板卡
CN206710938U (zh) 一种应用于服务器设备的多功能时钟转接卡
CN206479922U (zh) 高密服务器硬盘背板
CN114721991A (zh) 一种电力电子系统仿真装置
CN209462730U (zh) 一种pcb转板
CN206619125U (zh) 一种基于usb的离线诊断系统
CN101609319B (zh) 一种实时监测程序运行状态的电路装置
CN206235979U (zh) 一种应用在purley平台服务器中的整体板卡
CN110568394A (zh) 一种电能表电池功耗检测系统及方法
CN202649354U (zh) 可扩展电能质量监测装置
CN204576496U (zh) 多种io接口的计算机设备
CN202563387U (zh) 一种用于高端服务器进行节点控制器验证的板卡
CN209086805U (zh) 一种带自检的基于龙芯的双处理器cpci主板
CN207301720U (zh) 一种嵌入式控制器模块
CN108008283A (zh) 一种版本号检测系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination