CN116915583B - 通信异常的诊断方法、其装置及电子设备 - Google Patents

通信异常的诊断方法、其装置及电子设备 Download PDF

Info

Publication number
CN116915583B
CN116915583B CN202311174101.6A CN202311174101A CN116915583B CN 116915583 B CN116915583 B CN 116915583B CN 202311174101 A CN202311174101 A CN 202311174101A CN 116915583 B CN116915583 B CN 116915583B
Authority
CN
China
Prior art keywords
scene
management controller
communication
baseboard management
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311174101.6A
Other languages
English (en)
Other versions
CN116915583A (zh
Inventor
陈超凡
曹宇瑞
马文凯
赵凤鸣
杜洪斌
刘宝阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202311174101.6A priority Critical patent/CN116915583B/zh
Publication of CN116915583A publication Critical patent/CN116915583A/zh
Application granted granted Critical
Publication of CN116915583B publication Critical patent/CN116915583B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例涉及计算机领域,具体而言,提供了一种通信异常的诊断方法、其装置及电子设备。其中,该方法包括:根据预设通信条件,构建与目标故障场景对应的模拟测试场景,其中目标故障场景为第一基板管理控制器与管理引擎发生通信异常的场景,模拟测试场景中的第一模拟测试场景用于使第一基板管理控制器与管理引擎之间具有满足预设通信条件的通信链路;根据模拟测试场景的场景信息,判断第一基板管理控制器与管理引擎在模拟测试场景中是否出现与目标故障场景中相同的通信异常;在出现通信异常的情况下,根据模拟测试场景的场景信息,定位与目标故障场景对应的故障原因。通过本申请解决了BMC与ME通信异常时,难以对问题原因进行快速定位的问题。

Description

通信异常的诊断方法、其装置及电子设备
技术领域
本申请实施例涉及计算机领域,具体而言,涉及一种通信异常的诊断方法、其装置及电子设备。
背景技术
近年来随着云计算、大数据、人工智能等领域的快速发展,以服务器为核心基础设施的数据中心建设迅速增长,大规模及超大规模数据中心集群建设正在成为数据中心产业发展的重要趋势。为确保数据中心能够提供稳定的算力支撑,要求作为算力载体的服务器节点必须稳定可靠运行,尤其是当服务器出现故障时,必须及时定位问题原因并给予快速解决,最大限度地降低服务器故障对数据中心业务方面的影响。Intel处理器架构(IntelArchitecture,IA)服务器通常搭载基板管理控制器(baseboard management controller,BMC)管理单元,负责对整个服务器的监控管理工作,同时搭载平台控制器中枢(PlatformController Hub,PCH)中的管理引擎(Management Engine,ME)实现服务器平台的电源和功耗管理功能。
BMC通过向ME发送标准的智能平台管理接口(Intelligent Platform ManagementInterface,IPMI)命令获取CPU、内存等关键部件的监控信息(如温度和功耗等信息),以根据既定管理策略采取具体管理措施,如发起故障日志记录、CPU降频及关机等动作。一旦BMC与ME之间的通信链路出现异常,将直接影响BMC对服务器CPU和内存等关键部件的监控能力,甚至会导致数据中心服务器大范围宕机的严重后果。然而,BMC与ME间的通信异常问题多为偶发性问题,出现概率小,复现难度大。
发明内容
本申请实施例提供了一种通信异常的诊断方法、其装置及电子设备,以至少解决相关技术中在BMC与ME间的通信异常时,难以对问题原因进行快速定位的问题。
根据本申请的一个实施例,提供了一种通信异常的诊断方法,包括:根据预设通信条件,构建与目标故障场景对应的模拟测试场景,其中,目标故障场景为第一基板管理控制器与管理引擎发生通信异常的场景,模拟测试场景至少包括第一模拟测试场景,第一模拟测试场景用于使第一基板管理控制器与管理引擎之间具有满足预设通信条件的通信链路;根据模拟测试场景的场景信息,判断第一基板管理控制器与管理引擎在模拟测试场景中是否出现与目标故障场景中相同的通信异常;在判断结果指示出现通信异常的情况下,根据模拟测试场景的场景信息,定位与目标故障场景对应的故障原因。
在一个示例性实施例中,根据预设通信条件,构建与目标故障场景对应的模拟测试场景,包括:获取第一预设通信条件,第一预设通信条件包括:第一基板管理控制器以第一预设频率向管理引擎发送数据包,管理引擎以第二预设频率向第一基板管理控制器发送数据包,第一预设频率大于第二预设频率;根据第一预设通信条件,构建第一模拟测试场景,以使得第一基板管理控制器与管理引擎在第一模拟测试场景中双向发送数据包,第一基板管理控制器发送数据包的频率为第一预设频率,管理引擎发送数据包的频率为第二预设频率。
在一个示例性实施例中,根据预设通信条件,构建与目标故障场景对应的模拟测试场景,包括:获取第二预设通信条件,第二预设通信条件包括:第一基板管理控制器以第三预设频率向管理引擎发送数据包,管理引擎以第四预设频率向第一基板管理控制器发送数据包,第三预设频率和第四预设频率大于参考频率,其中,参考频率为以下之一:第一基板管理控制器在目标故障场景中向管理引擎发送数据包的历史频率,以及管理引擎在目标故障场景中向第一基板管理控制器发送数据包的历史频率;根据第二预设通信条件,构建第一模拟测试场景,以使得第一基板管理控制器与管理引擎在第一模拟测试场景中双向发送数据包,第一基板管理控制器发送数据包的频率为第三预设频率,管理引擎发送数据包的频率为第四预设频率。
在一个示例性实施例中,根据第二预设通信条件,构建第一模拟测试场景,以使得第一基板管理控制器与管理在第一模拟测试场景中双向发送数据包,包括:向第一基板管理控制器发送第一使能信号,以使第一基板管理控制器根据第一使能信号,在第一模拟测试场景中以第三预设频率向管理引擎发送数据包;向与管理引擎对应的基本输入输出系统发送修改指令,以使得修改后的基本输入输出系统使能管理引擎在目标故障场景中以第四预设频率向第一基板管理控制器发送数据包。
在一个示例性实施例中,根据预设通信条件,构建与目标故障场景对应的模拟测试场景,包括:获取第三预设通信条件,第三预设通信条件包括:第一基板管理控制器与管理引擎通过I2C总线通信,I2C总线接收干扰模块发送的干扰信号;根据第三预设通信条件,构建第一模拟测试场景,以使得在第一基板管理控制器与管理引擎通过I2C总线双向发送数据包的情况下,I2C总线在第一模拟测试场景中接收干扰信号。
在一个示例性实施例中,干扰模块为第一基板管理控制器的通用输入输出模块,干扰信号为通用输入输出模块输出的固定电平。
在一个示例性实施例中,根据第三预设通信条件,构建与目标故障场景对应的模拟测试场景,以使得在第一基板管理控制器与管理引擎通过I2C总线双向发送数据包的情况下,I2C总线在第一模拟测试场景中接收干扰信号,包括:通过I2C总线,建立第一基板管理控制器与管理引擎之间的通信链路;循环执行以下步骤:设置通用输入输出模块的属性为输出,并向通用输入输出模块发送第二使能信号,其中,在通用输入输出模块接收到第二使能信号的情况下,通用输入输出模块顺序执行以下步骤:输出固定电平,以及休眠预设时间;设置通用输入输出模块的属性为输入。
在一个示例性实施例中,根据预设通信条件,构建与目标故障场景对应的模拟测试场景,以使得第一基板管理控制器与管理引擎在模拟测试场景中建立满足预设通信条件的通信链路,包括:获取第四预设通信条件,第四预设通信条件包括:第一基板管理控制器与管理引擎通过I2C总线通信,I2C总线接地或接高电平电源;根据第四预设通信条件,构建第一模拟测试场景,以使得在第一基板管理控制器与管理引擎在第一模拟测试场景中通过I2C总线双向发送数据包。
在一个示例性实施例中,根据预设通信条件,构建与目标故障场景对应的模拟测试场景,包括:获取第五预设通信条件,第五预设通信条件包括:信号发生模块在第二模拟测试场景中向第一基板管理控制器循环发送智能平台管理总线命令,其中,信号发生模块用于模拟管理引擎发送并接收数据包的功能;根据第五预设通信条件,构建与目标故障场景对应的第二模拟测试场景,其中,第二模拟测试场景用于使第一基板管理控制器与信号发生模块之间具有满足第五预设通信条件的通信链路。
在一个示例性实施例中,第一基板管理控制器具有第一通信接口,信号发生模块具有第二通信接口,第一通信接口与第二通信接口通过I2C总线通信连接。
在一个示例性实施例中,根据第五预设通信条件,构建与目标故障场景对应的第二模拟测试场景,包括:建立第一基板管理控制器与信号发生模块之间的通信链路;向信号发生模块发送第三使能信号,以使得信号发生模块在第二模拟测试场景中向第一基板管理控制器循环发送智能平台管理总线命令。
在一个示例性实施例中,诊断方法还包括:构建步骤,在判断结果指示未出现通信异常的情况下,根据更新的预设通信条件,构建与目标故障场景对应的更新的模拟测试场景,其中,更新的预设通信条件为与前一个模拟测试场景对应的预设通信条件不同的预设通信条件;判断步骤,判断第一基板管理控制器与管理引擎在更新的模拟测试场景中是否出现通信异常;在判断结果指示未出现通信异常的情况下,循环执行构建步骤和判断步骤,直到判断结果指示出现通信异常时停止。
在一个示例性实施例中,诊断方法还包括:在执行到第n次构建步骤和判断步骤,判断结果仍指示未出现通信异常的情况下,修改与当前模拟测试场景对应的测试条件,得到更新的测试条件,其中,n为预设通信条件的全部数量,当前模拟测试场景为第n次执行的构建步骤中构建的模拟测试场景,测试条件包括外部条件和/或内部条件,外部条件包括以下至少之一:设置有第一基板管理控制器的主板的供电电压,以及测试设备的测试点在通信链路中的位置;内部条件至少包括:第一基板管理控制器的日志信息;根据更新的测试条件,再次循环执行构建步骤和判断步骤,直到判断结果指示出现通信异常时停止。
在一个示例性实施例中,测试设备包括以下至少之一:示波器,以及逻辑分析仪。
在一个示例性实施例中,场景信息包括测试条件,测试条件包括外部条件,根据模拟测试场景的场景信息,判断第一基板管理控制器与管理引擎在模拟测试场景中是否出现与目标故障场景相同的通信异常,包括:根据测试设备的测试结果,判断第一基板管理控制器与管理引擎在模拟测试场景中是否出现通信异常。
在一个示例性实施例中,场景信息包括测试条件,测试条件包括内部条件,根据模拟测试场景的场景信息,判断第一基板管理控制器与管理引擎在模拟测试场景中是否出现与目标故障场景中相同的通信异常,包括:判断第一基板管理控制器的日志信息中是否出现与目标故障场景对应的异常告警记录,其中,在判断结果指示出现异常告警记录的情况下,确定为第一基板管理控制器与管理引擎在模拟测试场景中出现通信异常。
在一个示例性实施例中,诊断方法还包括:在根据预设通信条件,构建与目标故障场景对应的模拟测试场景之前,将与模拟测试场景对应的测试条件初始化,其中,测试条件包括外部条件和内部条件,外部条件包括以下至少之一:设置有第一基板管理控制器的主板的供电电压,以及测试设备的测试点在通信链路中的位置;内部条件至少包括:第一基板管理控制器的日志信息。
根据本申请的另一个实施例,提供了一种通信异常的诊断装置,包括:第一构建模块,用于根据预设通信条件,构建与目标故障场景对应的模拟测试场景,其中,目标故障场景为第一基板管理控制器与管理引擎发生通信异常的场景,模拟测试场景至少包括第一模拟测试场景,第一模拟测试场景用于使第一基板管理控制器与管理引擎之间具有满足预设通信条件的通信链路;第一判断模块,用于根据模拟测试场景的场景信息,判断第一基板管理控制器与管理引擎在模拟测试场景中是否出现与目标故障场景中相同的通信异常;定位模块,用于在判断结果指示出现通信异常的情况下,根据模拟测试场景的场景信息,定位与目标故障场景对应的故障原因。
根据本申请的又一个实施例,还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本申请的又一个实施例,还提供了一种电子设备,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
本申请的上述方法中,将第一基板管理控制器与管理引擎发生通信异常的场景作为目标故障场景,根据预设通信条件,构建与其对应的模拟测试场景,从而使第一基板管理控制器与管理引擎之间具有满足预设通信条件的通信链路,然后根据模拟测试场景的场景信息,判断第一基板管理控制器与管理引擎在模拟测试场景中是否出现与目标故障场景相同的通信异常,在通信故障场景出现通信异常的情况下,能够实现对通信故障场景的复现,从而在成功复现后,能够基于此时的复现场景进行问题原因分析,最终定位问题原因,输出分析结论,完成BMC与ME之间通信故障的诊断过程。因此,可以解决相关技术中在BMC与ME间的通信异常时,难以对问题原因进行快速定位的问题,达到稳定复现BMC与ME之间通信故障场景,进而快速定位问题原因,提升问题解决效率,最终保障服务器的高效可靠运行的效果。
附图说明
图1是根据本申请实施例的一种通信异常的诊断方法的硬件环境示意图;
图2是根据本申请实施例的一种通信异常的诊断方法的流程示意图;
图3是根据本申请实施例的一种通信异常的诊断方法中,BMC与ME通信交互原理示意图;
图4是根据本申请实施例的一种通信异常的诊断方法中,采用BMC到ME的单向施压法的测试模型的示意图;
图5是根据本申请实施例的一种通信异常的诊断方法中,采用BMC与ME的双向施压法的测试模型的示意图;
图6是根据本申请实施例的一种通信异常的诊断方法中,采用主动干扰法的测试模型的示意图;
图7是根据本申请实施例的一种通信异常的诊断方法中,采用黑盒替代法的测试模型的示意图;
图8是根据本申请实施例的一种通信异常的诊断方法中,BMC与ME通信故障定位的迭代诊断流程示意图;
图9是根据本申请实施例的通信异常的诊断装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请的实施例。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例所提供的方法实施例可以在服务器、计算机终端、设备终端或者类似的运算装置中执行。以运行在服务器上为例,图1是根据本申请实施例的一种嵌入式系统的启动控制方法的硬件环境示意图。如图1所示,服务器可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,在一个示例性实施例中,上述服务器还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述服务器的结构造成限定。例如,服务器还可包括比图1中所示更多或者更少的组件,或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的嵌入式系统的启动控制方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种通信异常的诊断方法,应用于上述服务器,图2是根据本申请实施例的一种通信异常的诊断方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,根据预设通信条件,构建与目标故障场景对应的模拟测试场景,其中,目标故障场景为第一基板管理控制器与管理引擎发生通信异常的场景,模拟测试场景至少包括第一模拟测试场景,第一模拟测试场景用于使第一基板管理控制器与管理引擎之间具有满足预设通信条件的通信链路;
步骤S204,根据模拟测试场景的场景信息,判断第一基板管理控制器与管理引擎在模拟测试场景中是否出现与目标故障场景中相同的通信异常;
步骤S206,在判断结果指示出现上述通信异常的情况下,根据模拟测试场景的场景信息,定位与目标故障场景对应的故障原因。
基板管理控制器(baseboard management controller,BMC)管理单元与管理引擎(Management Engine,ME)之间的通信异常问题多为偶发性问题,出现概率小,复现难度大,针对上述问题,相关技术中通常是同时对多台服务器进行通信链路的波形测量(如在每台服务器上实际挂载示波器探针)监控,该方法通过增加服务器数据来提升问题复现的概率,待问题出现后再进一步分析问题原因。然而,上述方法需要投入大量人力物力,且由于只是被动地等待问题自发出现,有可能需要较长时间才能复现问题,即使问题复现了,也无法保证问题复现状态常驻,一般留给问题分析定位的时间相当有限,最终导致问题解决的时效性较差。
基于此,本申请实施例中通过上述步骤,将第一基板管理控制器与管理引擎发生通信异常的场景作为目标故障场景,根据预设通信条件,构建与其对应的模拟测试场景,从而使第一基板管理控制器与管理引擎之间具有满足预设通信条件的通信链路,然后根据模拟测试场景的场景信息,判断第一基板管理控制器与管理引擎在模拟测试场景中是否出现与目标故障场景相同的通信异常,在通信故障场景出现上述通信异常的情况下,能够实现对通信故障场景的复现,从而在成功复现后,能够基于此时的复现场景进行问题原因分析,最终定位问题原因,输出分析结论,完成BMC与ME之间通信故障的诊断过程。因此,可以解决相关技术中在BMC与ME间的通信异常时,难以对问题原因进行快速定位的问题,达到稳定复现BMC与ME之间通信故障场景,进而快速定位问题原因,提升问题解决效率,最终保障服务器的高效可靠运行的效果。
具体地,判断BMC与ME之间是否通信异常的方式有很多种,例如,可以判断服务器的BMC日志中是否出现ME告警信息,在出现ME告警信息时确定为BMC与ME之间通信异常,以上述判断方式为例,如图3所示,本申请实施例中BMC与ME通信交互原理如下:
在服务器静置或使用中产生最高级别(Critical)告警,告警内容为“ME_FW_Status Transition to Critical from less severe - Assert”。BMC与ME间通过IPMB命令进行交互,物理层为I2C总线。正常通信时,BMC定期向ME发送自检请求命令,即Get SelfTest Results命令(标准IPMI命令,NetFn=0x06, Cmd=0x04),以获取ME的自检结果,ME收到来自BMC的请求命令后,则发送自检响应命令给BMC。BMC则根据ME的响应结果判断ME是否工作正常,当判定结果为异常时,BMC在Web界面记录告警日志并显示。需要注意的是,BMC与ME通信过程中,I2C总线工作于双主模式,即BMC与ME都可作为主机(Master)给对方主动发请求,如ME也会主动向BMC发起平台功耗获取命令,即OEM Get Reading(NetFn=0x30, Cmd=0xE2)命令,以获取平台功耗信息并处理,BMC收到来自ME的获取命令后,则发送平台功耗响应命令给BMC,如图3所示,当BMC为主机时,ME为从机,当ME为主机时,BMC为从机。
在上述步骤S202中,根据预设通信条件,构建与目标故障场景对应的模拟测试场景,其中,目标故障场景为第一基板管理控制器与管理引擎发生通信异常的场景,模拟测试场景至少包括第一模拟测试场景,第一模拟测试场景用于使第一基板管理控制器与管理引擎之间具有满足预设通信条件的通信链路。
上述步骤可以通过对预设通信条件进行设定,从不同角度主动构造第一基板管理控制器与管理引擎之间通信异常的场景,每种预设通信条件均可进行变量控制,使得通信故障场景的复现方法具有灵活、可控和高效的特点,从而能够达到显著提高基板管理控制器(BMC)与管理引擎(ME)之间通信链路异常的复现概率,以及大大提升BMC与ME通信故障问题解决效率的目标。
在一些可选的实施方式中,根据预设通信条件,构建与目标故障场景对应的模拟测试场景,包括:获取第一预设通信条件,第一预设通信条件包括:第一基板管理控制器以第一预设频率向管理引擎发送数据包,管理引擎以第二预设频率向第一基板管理控制器发送数据包,第一预设频率大于第二预设频率;根据第一预设通信条件,构建第一模拟测试场景,以使得第一基板管理控制器与管理引擎在第一模拟测试场景中双向发送数据包,第一基板管理控制器发送数据包的频率为第一预设频率,管理引擎发送数据包的频率为第二预设频率。
在上述可选的实施方式中,在使第一基板管理控制器与管理引擎双向发送数据包的过程中,通过使第一基板管理控制器的发包频率大于管理引擎的发包频率,能够实现BMC到ME的单向施压。
具体地,上述单向施压法的测试模型可以如图4所示,在第一基板管理控制器与管理引擎之间通过I2C总线实现通信的情况下,上述单向施压法能够通过增加I2C总线一方的数据吞吐量提升总线繁忙程度,进而增加问题复现的概率,当BMC为主机时,ME为从机,当ME为主机时,BMC为从机。示例性的,将BMC向ME的发包频率由10us(微秒)改为1us来构造I2C总线冲突,复现BMC I2C控制器异常导致发包失败的场景。
在一些可选的实施方式中,根据预设通信条件,构建与目标故障场景对应的模拟测试场景,包括:获取第二预设通信条件,第二预设通信条件包括:第一基板管理控制器以第三预设频率向管理引擎发送数据包,管理引擎以第四预设频率向第一基板管理控制器发送数据包,第三预设频率和第四预设频率大于参考频率,其中,参考频率为以下之一:第一基板管理控制器在目标故障场景中向管理引擎发送数据包的历史频率,以及管理引擎在目标故障场景中向第一基板管理控制器发送数据包的历史频率;根据第二预设通信条件,构建第一模拟测试场景,以使得第一基板管理控制器与管理引擎在第一模拟测试场景中双向发送数据包,第一基板管理控制器发送数据包的频率为第三预设频率,管理引擎发送数据包的频率为第四预设频率。
在上述可选的实施方式中,在使第一基板管理控制器与管理引擎双向发送数据包的过程中,同时提高第一基板管理控制器和管理引擎的发包频率,能够实现BMC到ME的双向施压。
具体地,上述双向施压法的测试模型可以如图5所示,在第一基板管理控制器与管理引擎之间通过I2C总线实现通信的情况下,双向施压法能够通过增加I2C总线双方的数据吞吐量提升总线繁忙程度,进而增加问题复现的概率,当BMC为主机时,ME为从机,当ME为主机时,BMC为从机。
在上述可选的实施方式中,根据第二预设通信条件,构建第一模拟测试场景,以使得第一基板管理控制器与管理引擎在第一模拟测试场景中双向发送数据包,可以包括:向第一基板管理控制器发送第一使能信号,以使第一基板管理控制器根据第一使能信号,在第一模拟测试场景中以第三预设频率向管理引擎发送数据包;向与管理引擎对应的基本输入输出系统发送修改指令,以使得修改后的基本输入输出系统使能管理引擎在目标故障场景中以第四预设频率向第一基板管理控制器发送数据包。
具体地,为了实现第一基板管理控制器与管理引擎之间的双向施压,上述实施方式中通过修改基本输入输出系统(BIOS)中的配置文件,以使能ME 的HeartBeat功能,来提高ME向BMC的发包频率。由于上述双向施压法能够使I2C总线双向数据量同时增大,从而与单向施压法相比,问题复现的概率更大。
在一些可选的实施方式中,根据预设通信条件,构建与目标故障场景对应的模拟测试场景,包括:获取第三预设通信条件,第三预设通信条件包括:第一基板管理控制器与管理引擎通过I2C总线通信,I2C总线接收干扰模块发送的干扰信号;根据第三预设通信条件,构建第一模拟测试场景,以使得在第一基板管理控制器与管理引擎通过I2C总线双向发送数据包的情况下,I2C总线在第一模拟测试场景中接收干扰信号。
在上述可选的实施方式中,在第一基板管理控制器与管理引擎之间通过I2C总线实现通信的情况下,在I2C总线中引入干扰信号,以增加I2C总线出错的概率,从而提升问题复现的概率。
在上述可选的实施方式中,干扰模块可以为第一基板管理控制器的通用输入输出模块,干扰信号可以为通用输入输出模块输出的固定电平。此时,根据第三预设通信条件,构建与目标故障场景对应的模拟测试场景,以使得在第一基板管理控制器与管理引擎通过I2C总线双向发送数据包的情况下,I2C总线在第一模拟测试场景中接收干扰信号,包括:通过I2C总线,建立第一基板管理控制器与管理引擎之间的通信链路;循环执行以下步骤:设置通用输入输出模块的属性为输出,并向通用输入输出模块发送第二使能信号,其中,在通用输入输出模块接收到第二使能信号的情况下,通用输入输出模块顺序执行以下步骤:输出固定电平,以及休眠预设时间;设置通用输入输出模块的属性为输入。
具体地,上述通过干扰模块在I2C总线中引入干扰信号的方式为主动干扰法,上述主动干扰法的测试模型可以如图6所示,具体为通过通用输入输出模块(General PurposeInput/Output,GPIO)发送特定的信号以引入干扰信号。本申请实施例中将BMC的GPIO接入BMC与ME通信的I2C总线,并通过控制GPIO输出固定电平(如低电平)来制造I2C总线冲突。示例性的,控制GPIO的过程采用自定义脚本实现,控制逻辑为循环执行以下动作:设置随机休眠时间;休眠;设置GPIO属性为输出;设置GPIO输出为低电平;休眠1ms;设置GPIO属性为输入。
在一些可选的实施方式中,根据预设通信条件,构建与目标故障场景对应的模拟测试场景,以使得第一基板管理控制器与管理引擎在模拟测试场景中建立满足预设通信条件的通信链路,包括:获取第四预设通信条件,第四预设通信条件包括:第一基板管理控制器与管理引擎通过I2C总线通信,I2C总线接地或接高电平电源;根据第四预设通信条件,构建第一模拟测试场景,以使得在第一基板管理控制器与管理引擎在第一模拟测试场景中通过I2C总线双向发送数据包。
在上述可选的实施方式中,在第一基板管理控制器与管理引擎之间通过I2C总线实现通信的情况下,将总线信号接地(或接高电平电源),以增加I2C总线出错的概率,从而提升问题复现的概率。
在一些可选的实施方式中,根据预设通信条件,构建与目标故障场景对应的模拟测试场景,包括:获取第五预设通信条件,第五预设通信条件包括:信号发生模块在第二模拟测试场景中向第一基板管理控制器循环发送智能平台管理总线命令,其中,上述信号发生模块用于模拟管理引擎发送并接收数据包的功能;根据第五预设通信条件,构建与目标故障场景对应的第二模拟测试场景,其中,第二模拟测试场景用于使第一基板管理控制器与信号发生模块之间具有满足第五预设通信条件的通信链路。
在上述可选的实施方式中,采用黑盒替代法将第一基板管理控制器替换为第二基板管理控制器,由于BMC的开发人员无法修改ME的代码,导致ME的实现过程完全不可控,从而通过一个能够模拟ME输入输出功能的信号发生模块实现对该ME的替代,能够灵活地控制ME向BMC的发包过程。示例性的,通过另一个BMC实现对ME的替代,控制该替代BMC向测试BMC的发包过程。
在上述可选的实施方式中,第一基板管理控制器具有第一通信接口,信号发生模块具有第二通信接口,第一通信接口与第二通信接口可以通过I2C总线通信连接。
在上述可选的实施方式中,根据第五预设通信条件,构建与目标故障场景对应的第二模拟测试场景,包括:建立第一基板管理控制器与信号发生模块之间的通信链路;向信号发生模块发送第三使能信号,以使得信号发生模块在第二模拟测试场景中向第一基板管理控制器循环发送智能平台管理总线命令。
具体地,上述黑盒替代法的测试模型可以如图7所示,黑盒替代法通过构建第三方模型,引入与黑盒设备功能表现完全一致的模块对黑盒设备进行替代,由于引入的第三方模型对测试人员而言更易于操作与控制,因此能够摆脱对墨盒设备的依赖,实现更多场景下的测试,该方法灵活较高,为存在墨盒设备的测试场景提供更多可能性。本申请实施例中采用另一个BMC(简称替代BMC)的I2C接口实现对ME的替代,向测试BMC循环发送智能平台管理总线(Intelligent Platform Management Bus,IPMB)命令,达到制造总线冲突,提升问题复现概率的目的。示例性的,本申请实施例中通过运行自定义脚本实现替代BMC向测试BMC循环发送IPMB命令。
在一些可选的实施方式中,本申请实施例中的上述诊断方法还包括:构建步骤,在判断结果指示未出现与目标故障场景中相同的通信异常的情况下,根据更新的预设通信条件,构建与目标故障场景对应的更新的模拟测试场景,其中,更新的预设通信条件为与前一个模拟测试场景对应的预设通信条件不同的预设通信条件;判断步骤,判断第一基板管理控制器与管理引擎在更新的模拟测试场景中是否出现上述通信异常;在判断结果指示未出现上述通信异常的情况下,循环执行构建步骤和判断步骤,直到判断结果指示出现上述通信异常时停止。
在上述可选的实施方式中,通过采用不同的预设通信条件,可以从多个角度主动构造I2C总线异常场景,在反复迭代测试中不断验证各种异常场景下的问题复现情况,且每种复现场景均可进行变量控制。
具体地,采用不同的预设通信条件,可以设计单向施压法、双向施压法、黑盒替代法和主动干扰法等测试模型,提升了双主场景下通信故障的复现概率,为问题分析提供足够的时间窗口,保障BMC与ME通信故障问题的高效解决。
在上述可选的实施方式中,本申请实施例中的诊断方法还可以包括:在执行到第n次构建步骤和判断步骤,判断结果仍指示未出现与目标故障场景中相同的通信异常的情况下,修改与当前模拟测试场景对应的测试条件,得到更新的测试条件,其中,n为预设通信条件的全部数量,当前模拟测试场景为第n次执行的构建步骤中构建的模拟测试场景,测试条件包括外部条件和/或内部条件,外部条件包括以下至少之一:设置有第一基板管理控制器的主板的供电电压,以及测试设备的测试点在通信链路中的位置;内部条件至少包括:第一基板管理控制器的日志信息;根据更新的测试条件,再次循环执行构建步骤和判断步骤,直到判断结果指示出现上述通信异常时停止。
在上述可选的实施方式中,本申请实施例中的诊断方法还可以包括:在根据预设通信条件,构建与目标故障场景对应的模拟测试场景之前,将与模拟测试场景对应的测试条件初始化,其中,测试条件包括外部条件和内部条件,外部条件包括以下至少之一:设置有第一基板管理控制器的主板的供电电压,以及测试设备的测试点在通信链路中的位置;内部条件至少包括:第一基板管理控制器的日志信息。
具体地,本申请实施例中BMC与ME通信故障定位的迭代诊断原理可分为两个主要流程,即:复现测试流程和分析定位流程。下面将结合具体示例对迭代诊断流程进行举例说明。
示例性的,本申请实施例中BMC与ME通信故障定位的迭代诊断流程如图8所示,包括:
步骤①:初始化测试条件。该步骤主要完成测试前的准备工作,包括测试前的外部条件与内部条件准备。外部条件准备包括主板的供电准备,挂载示波器进行I2C总线监测准备等;内部条件准备指在BMC固件中的关键处理逻辑处增加日志输出的代码,以备后续问题复现后梳理代码执行状态,辅助问题分析。
步骤②:采用单向施压法测试,验证问题复现情况。若问题成功复现,则跳转至步骤⑥,否则执行步骤③。该步骤主要通过增加I2C总线的单向数据量进行压力测试,提升问题复现的概率。
步骤③:采用双向施压法测试,验证问题复现情况。若问题成功复现,则跳转至步骤⑥,否则执行步骤④。该步骤主要通过增加I2C总线的双向数据量进行压力测试,提升问题复现的概率。
步骤④:采用黑盒替代法测试,验证问题复现情况。若问题成功复现,则跳转至步骤⑥,否则执行步骤⑤。该步骤主要通过将引入ME代替单元模拟ME向BMC发包的各种场景进行压力测试,提升问题复现的概率。
步骤⑤:采用主动干扰法测试,验证问题复现情况。若问题成功复现,则跳转至步骤⑥,否则调整测试条件,返回步骤②。该步骤主要通过在I2C总线中引入干扰信号进行测试,提升问题复现的概率。
步骤⑥:问题分析。该步骤基于问题能成功复现的基本条件,进行具体问题分析,验证导致问题发生的各种可能原因,从硬件与软件层面不断缩小问题排查范围。
步骤⑦:输出结论。该步骤基于步骤⑥的分析,定位引发问题产生的最终原因,作为问题诊断的最终输出。
需要注意的是,本申请实施例中对BMC与ME之间的通信故障场景进行复现,并不局限于上述图8中示出的步骤②至步骤⑤的循环顺序,例如,可以任意调换步骤②至步骤⑤中任意两个步骤的顺序,本申请实施例不作具体限定。
在上述步骤S204中,根据模拟测试场景的场景信息,判断第一基板管理控制器与管理引擎在模拟测试场景中是否出现与目标故障场景中相同的通信异常。
具体地,若BMC与ME间的通信链路出现异常,将直接影响BMC对服务器CPU和内存等关键部件的监控能力,甚至会导致数据中心服务器大范围宕机的严重后果,本申请实施例在构建模拟测试场景之后,能够在模拟测试场景出现通信异常的情况下,实现对通信故障场景的复现。
示例性的,在如图8所示的迭代诊断流程中,在通过步骤②至步骤⑤中的一个或多个步骤实现问题能成功复现后,通过步骤⑥,基于问题能成功复现的基本条件,进行具体问题分析,验证导致问题发生的各种可能原因,从硬件与软件层面不断缩小问题排查范围。
在一些可选的实施方式中,在上述场景信息中的测试条件包括外部条件的情况下,根据模拟测试场景的场景信息,判断第一基板管理控制器与管理引擎在模拟测试场景中是否出现与目标故障场景中相同的通信异常,包括:根据测试设备的测试结果,判断第一基板管理控制器与管理引擎在模拟测试场景中是否出现上述通信异常。
示例性的,上述测试设备可以为挂载在I2C总线上的示波器或逻辑分析仪,还可以为其它测试设备,本申请实施例不做具体限定。
在另一些可选的实施方式中,在上述场景信息中的测试条件包括内部条件的情况下,根据模拟测试场景的场景信息,判断第一基板管理控制器与管理引擎在模拟测试场景中是否出现与目标故障场景中相同的通信异常,可以包括:判断第一基板管理控制器的日志信息中是否出现与目标故障场景相应的异常告警记录,其中,在判断结果指示出现异常告警记录的情况下,确定为第一基板管理控制器与管理引擎在模拟测试场景中出现上述通信异常。
在上述步骤S206中,在判断结果指示出现上述通信异常的情况下,根据模拟测试场景的场景信息,定位与目标故障场景对应的故障原因。
具体地,本申请实施例通过对通信故障场景进行复现,从而在成功复现后,能够基于此时的复现场景进行问题原因分析,最终定位问题原因,输出分析结论,完成BMC与ME之间通信故障的诊断过程。
示例性的,在如图8所示的迭代诊断流程中,通过步骤⑥进行问题分析之后,实现对导致问题发生的各种可能原因进行验证后,通过步骤⑦输出结论,定位引发问题产生的最终原因,作为问题诊断的最终输出。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
在本实施例中还提供了一种通信异常的诊断装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图9是根据本申请实施例的通信异常的诊断装置的结构框图,如图9所示,该装置包括:
第一构建模块10,用于根据预设通信条件,构建与目标故障场景对应的模拟测试场景,其中,目标故障场景为第一基板管理控制器与管理引擎发生通信异常的场景,模拟测试场景至少包括第一模拟测试场景,第一模拟测试场景用于使第一基板管理控制器与管理引擎之间具有满足预设通信条件的通信链路;
第一判断模块20,用于根据模拟测试场景的场景信息,判断第一基板管理控制器与管理引擎在模拟测试场景中是否出现与目标故障场景相同的通信异常;
定位模块30,用于在判断结果指示出现上述通信异常的情况下,根据模拟测试场景的场景信息,定位与目标故障场景对应的故障原因。
本申请上述装置中,将第一基板管理控制器与管理引擎发生通信异常的场景作为目标故障场景,第一构建模块10根据预设通信条件,构建与其对应的模拟测试场景,从而使第一基板管理控制器与管理引擎之间具有满足预设通信条件的通信链路,然后第一判断模块20根据模拟测试场景的场景信息,判断第一基板管理控制器与管理引擎在模拟测试场景中是否出现与目标故障场景相同的通信异常,在通信故障场景出现通信异常的情况下,能够实现对通信故障场景的复现,从而在成功复现后,定位模块30能够基于此时的复现场景进行问题原因分析,最终定位问题原因,输出分析结论,完成BMC与ME之间通信故障的诊断过程。因此,可以解决相关技术中在BMC与ME间的通信异常时,难以对问题原因进行快速定位的问题,达到稳定复现BMC与ME之间通信故障场景,进而快速定位问题原因,提升问题解决效率,最终保障服务器的高效可靠运行的效果。
在一些可选的实施方式中,第一构建模块包括:第一获取子模块,用于获取第一预设通信条件,第一预设通信条件包括:第一基板管理控制器以第一预设频率向管理引擎发送数据包,管理引擎以第二预设频率向第一基板管理控制器发送数据包,第一预设频率大于第二预设频率;第一构建子模块,用于根据第一预设通信条件,构建第一模拟测试场景,以使得第一基板管理控制器与管理引擎在第一模拟测试场景中双向发送数据包,第一基板管理控制器发送数据包的频率为第一预设频率,管理引擎发送数据包的频率为第二预设频率。
在一些可选的实施方式中,第一构建模块包括:第二获取子模块,用于获取第二预设通信条件,第二预设通信条件包括:第一基板管理控制器以第三预设频率向管理引擎发送数据包,管理引擎以第四预设频率向第一基板管理控制器发送数据包,第三预设频率和第四预设频率大于参考频率,其中,参考频率为以下之一:第一基板管理控制器在目标故障场景中向管理引擎发送数据包的历史频率,以及管理引擎在目标故障场景中向第一基板管理控制器发送数据包的历史频率;第二构建子模块,用于根据第二预设通信条件,构建第一模拟测试场景,以使得第一基板管理控制器与管理引擎在第一模拟测试场景中双向发送数据包,第一基板管理控制器发送数据包的频率为第三预设频率,管理引擎发送数据包的频率为第四预设频率。
在一些可选的实施方式中,第二构建子模块包括:第一发送子模块,用于向第一基板管理控制器发送第一使能信号,以使第一基板管理控制器根据第一使能信号,在第一模拟测试场景中以第三预设频率向管理引擎发送数据包;第二发送子模块,用于向与管理引擎对应的基本输入输出系统发送修改指令,以使得修改后的基本输入输出系统使能管理引擎在目标故障场景中以第四预设频率向第一基板管理控制器发送数据包。
在一些可选的实施方式中,第一构建模块包括:第三获取子模块,用于获取第三预设通信条件,第三预设通信条件包括:第一基板管理控制器与管理引擎通过I2C总线通信,I2C总线接收干扰模块发送的干扰信号;第三构建子模块,用于根据第三预设通信条件,构建第一模拟测试场景,以使得在第一基板管理控制器与管理引擎通过I2C总线双向发送数据包的情况下,I2C总线在第一模拟测试场景中接收干扰信号。
在一些可选的实施方式中,干扰模块为第一基板管理控制器的通用输入输出模块,干扰信号为通用输入输出模块输出的固定电平。
在一些可选的实施方式中,第三构建子模块包括:第一建立子模块,用于通过I2C总线,建立第一基板管理控制器与管理引擎之间的通信链路;循环子模块,用于循环执行以下步骤:设置通用输入输出模块的属性为输出,并向通用输入输出模块发送第二使能信号,其中,在通用输入输出模块接收到第二使能信号的情况下,通用输入输出模块顺序执行以下步骤:输出固定电平,以及休眠预设时间;设置通用输入输出模块的属性为输入。
在一些可选的实施方式中,第一构建模块包括:第四获取子模块,用于获取第四预设通信条件,第四预设通信条件包括:第一基板管理控制器与管理引擎通过I2C总线通信,I2C总线接地或接高电平电源;第四构建子模块,用于根据第四预设通信条件,构建第一模拟测试场景,以使得在第一基板管理控制器与管理引擎在第一模拟测试场景中通过I2C总线双向发送数据包。
在一些可选的实施方式中,第一构建模块包括:第五获取子模块,用于获取第五预设通信条件,第五预设通信条件包括:信号发生模块在第二模拟测试场景中向第一基板管理控制器循环发送智能平台管理总线命令,其中,信号发生模块用于模拟管理引擎发送并接收数据包的功能;第五构建子模块,用于根据第五预设通信条件,构建与目标故障场景对应的第二模拟测试场景,其中,第二模拟测试场景用于使第一基板管理控制器与信号发生模块之间具有满足第五预设通信条件的通信链路。
在一些可选的实施方式中,第一基板管理控制器具有第一通信接口,信号发生模块具有第二通信接口,第一通信接口与第二通信接口通过I2C总线通信连接。
在一些可选的实施方式中,第五构建子模块包括:第二建立子模块,用于建立第一基板管理控制器与信号发生模块之间的通信链路;第三发送子模块,用于向信号发生模块发送第三使能信号,以使得信号发生模块在第二模拟测试场景中向第一基板管理控制器循环发送智能平台管理总线命令。
在一些可选的实施方式中,诊断装置还包括:第二构建模块,用于执行构建步骤:在判断结果指示未出现与目标故障场景相同的通信异常的情况下,根据更新的预设通信条件,构建与目标故障场景对应的更新的模拟测试场景,其中,更新的预设通信条件为与前一个模拟测试场景对应的预设通信条件不同的预设通信条件;第二判断模块,用于执行判断步骤:判断第一基板管理控制器与管理引擎在更新的模拟测试场景中是否出现上述通信异常;第一循环模块,用于在判断结果指示未出现上述通信异常的情况下,循环执行构建步骤和判断步骤,直到判断结果指示出现上述通信异常时停止。
在一些可选的实施方式中,诊断装置还包括:修改模块,用于在执行到第n次构建步骤和判断步骤,判断结果仍指示未出现与目标故障场景相同的通信异常的情况下,修改与当前模拟测试场景对应的测试条件,得到更新的测试条件,其中,n为预设通信条件的全部数量,当前模拟测试场景为第n次执行的构建步骤中构建的模拟测试场景,测试条件包括外部条件和/或内部条件,外部条件包括以下至少之一:设置有第一基板管理控制器的主板的供电电压,以及测试设备的测试点在通信链路中的位置;内部条件至少包括:第一基板管理控制器的日志信息;第二循环模块,用于根据更新的测试条件,再次循环执行构建步骤和判断步骤,直到判断结果指示出现上述通信异常时停止。
在一些可选的实施方式中,测试设备包括以下至少之一:示波器,以及逻辑分析仪。
在一些可选的实施方式中,场景信息包括测试条件,测试条件包括外部条件,根据模拟测试场景的场景信息,第一判断模块包括:第一判断子模块,用于根据测试设备的测试结果,判断第一基板管理控制器与管理引擎在模拟测试场景中是否出现与目标故障场景相同的通信异常。
在一些可选的实施方式中,场景信息包括测试条件,测试条件包括内部条件,根据模拟测试场景的场景信息,第一判断模块包括:第二判断子模块,用于判断第一基板管理控制器的日志信息中是否出现与目标故障场景对应的异常告警记录,其中,在判断结果指示出现异常告警记录的情况下,确定为第一基板管理控制器与管理引擎在模拟测试场景中出现上述通信异常。
在在一些可选的实施方式中,诊断装置还包括:初始化模块,用于在根据预设通信条件,构建与目标故障场景对应的模拟测试场景之前,将与模拟测试场景对应的测试条件初始化,其中,测试条件包括外部条件和内部条件,外部条件包括以下至少之一:设置有第一基板管理控制器的主板的供电电压,以及测试设备的测试点在通信链路中的位置;内部条件至少包括:第一基板管理控制器的日志信息。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本申请的实施例还提供了一种电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (18)

1.一种通信异常的诊断方法,其特征在于,包括:
根据预设通信条件,构建与目标故障场景对应的模拟测试场景,其中,所述目标故障场景为第一基板管理控制器与管理引擎发生通信异常的场景,所述模拟测试场景至少包括第一模拟测试场景,所述第一模拟测试场景用于使所述第一基板管理控制器与所述管理引擎之间具有满足所述预设通信条件的通信链路;
根据所述模拟测试场景的场景信息,判断所述第一基板管理控制器与所述管理引擎在所述模拟测试场景中是否出现与所述目标故障场景中相同的通信异常;
在判断结果指示出现所述通信异常的情况下,根据所述模拟测试场景的场景信息,定位与所述目标故障场景对应的故障原因,
所述诊断方法还包括:
构建步骤,在判断结果指示未出现所述通信异常的情况下,根据更新的预设通信条件,构建与所述目标故障场景对应的更新的模拟测试场景,其中,所述更新的预设通信条件为与前一个模拟测试场景对应的预设通信条件不同的预设通信条件;
判断步骤,判断所述第一基板管理控制器与所述管理引擎在所述更新的模拟测试场景中是否出现所述通信异常;
在判断结果指示未出现所述通信异常的情况下,循环执行所述构建步骤和所述判断步骤,直到所述判断结果指示出现所述通信异常时停止;
在执行到第n次所述构建步骤和所述判断步骤,所述判断结果仍指示未出现所述通信异常的情况下,修改与当前模拟测试场景对应的测试条件,得到更新的测试条件,其中,n为所述预设通信条件的全部数量,所述当前模拟测试场景为第n次执行的所述构建步骤中构建的模拟测试场景,所述测试条件包括外部条件和/或内部条件,所述外部条件包括以下至少之一:设置有所述第一基板管理控制器的主板的供电电压,以及测试设备的测试点在所述通信链路中的位置;所述内部条件至少包括:所述第一基板管理控制器的日志信息;
根据所述更新的测试条件,再次循环执行所述构建步骤和所述判断步骤,直到所述判断结果指示出现所述通信异常时停止。
2.在根据权利要求1所述的诊断方法,其特征在于,所述根据预设通信条件,构建与目标故障场景对应的模拟测试场景,包括:
获取第一预设通信条件,所述第一预设通信条件包括:所述第一基板管理控制器以第一预设频率向所述管理引擎发送数据包,所述管理引擎以第二预设频率向所述第一基板管理控制器发送数据包,所述第一预设频率大于所述第二预设频率;
根据所述第一预设通信条件,构建所述第一模拟测试场景,以使得所述第一基板管理控制器与所述管理引擎在所述第一模拟测试场景中双向发送数据包,所述第一基板管理控制器发送数据包的频率为所述第一预设频率,所述管理引擎发送数据包的频率为所述第二预设频率。
3.根据权利要求1所述的诊断方法,其特征在于,所述根据预设通信条件,构建与目标故障场景对应的模拟测试场景,包括:
获取第二预设通信条件,所述第二预设通信条件包括:所述第一基板管理控制器以第三预设频率向所述管理引擎发送数据包,所述管理引擎以第四预设频率向所述第一基板管理控制器发送数据包,所述第三预设频率和所述第四预设频率大于参考频率,其中,所述参考频率为以下之一:所述第一基板管理控制器在所述目标故障场景中向所述管理引擎发送数据包的历史频率,以及所述管理引擎在所述目标故障场景中向所述第一基板管理控制器发送数据包的历史频率;
根据所述第二预设通信条件,构建所述第一模拟测试场景,以使得所述第一基板管理控制器与所述管理引擎在所述第一模拟测试场景中双向发送数据包,所述第一基板管理控制器发送数据包的频率为所述第三预设频率,所述管理引擎发送数据包的频率为所述第四预设频率。
4.根据权利要求3所述的诊断方法,其特征在于,所述根据所述第二预设通信条件,构建所述第一模拟测试场景,以使得所述第一基板管理控制器与所述管理引擎在所述第一模拟测试场景中双向发送数据包,包括:
向所述第一基板管理控制器发送第一使能信号,以使所述第一基板管理控制器根据所述第一使能信号,在所述第一模拟测试场景中以所述第三预设频率向所述管理引擎发送数据包;
向与所述管理引擎对应的基本输入输出系统发送修改指令,以使得修改后的所述基本输入输出系统使能管理引擎在所述目标故障场景中以所述第四预设频率向所述第一基板管理控制器发送数据包。
5.根据权利要求1所述的诊断方法,其特征在于,所述根据预设通信条件,构建与目标故障场景对应的模拟测试场景,包括:
获取第三预设通信条件,所述第三预设通信条件包括:所述第一基板管理控制器与所述管理引擎通过I2C总线通信,所述I2C总线接收干扰模块发送的干扰信号;
根据所述第三预设通信条件,构建所述第一模拟测试场景,以使得在所述第一基板管理控制器与所述管理引擎通过所述I2C总线双向发送数据包的情况下,所述I2C总线在所述第一模拟测试场景中接收所述干扰信号。
6.根据权利要求5所述的诊断方法,其特征在于,所述干扰模块为所述第一基板管理控制器的通用输入输出模块,所述干扰信号为所述通用输入输出模块输出的固定电平。
7.根据权利要求6所述的诊断方法,其特征在于,所述根据所述第三预设通信条件,构建与目标故障场景对应的模拟测试场景,以使得在所述第一基板管理控制器与所述管理引擎通过I2C总线双向发送数据包的情况下,所述I2C总线在所述第一模拟测试场景中接收所述干扰信号,包括:
通过所述I2C总线,建立所述第一基板管理控制器与所述管理引擎之间的通信链路;
循环执行以下步骤:设置所述通用输入输出模块的属性为输出,并向所述通用输入输出模块发送第二使能信号,其中,在所述通用输入输出模块接收到所述第二使能信号的情况下,所述通用输入输出模块顺序执行以下步骤:输出固定电平,以及休眠预设时间;设置所述通用输入输出模块的属性为输入。
8.根据权利要求1所述的诊断方法,其特征在于,所述根据预设通信条件,构建与目标故障场景对应的模拟测试场景,以使得所述第一基板管理控制器与所述管理引擎在所述模拟测试场景中建立满足所述预设通信条件的通信链路,包括:
获取第四预设通信条件,所述第四预设通信条件包括:所述第一基板管理控制器与所述管理引擎通过I2C总线通信,所述I2C总线接地或接高电平电源;
根据所述第四预设通信条件,构建所述第一模拟测试场景,以使得在所述第一基板管理控制器与所述管理引擎在所述第一模拟测试场景中通过所述I2C总线双向发送数据包。
9.根据权利要求1所述的诊断方法,其特征在于,所述根据预设通信条件,构建与目标故障场景对应的模拟测试场景,包括:
获取第五预设通信条件,所述第五预设通信条件包括:信号发生模块在第二模拟测试场景中向所述第一基板管理控制器循环发送智能平台管理总线命令,其中,所述信号发生模块用于模拟所述管理引擎发送并接收数据包的功能;
根据所述第五预设通信条件,构建与所述目标故障场景对应的所述第二模拟测试场景,其中,所述第二模拟测试场景用于使所述第一基板管理控制器与所述信号发生模块之间具有满足所述第五预设通信条件的通信链路。
10.根据权利要求9所述的诊断方法,其特征在于,所述第一基板管理控制器具有第一通信接口,所述信号发生模块具有第二通信接口,所述第一通信接口与所述第二通信接口通过I2C总线通信连接。
11.根据权利要求9所述的诊断方法,其特征在于,所述根据所述第五预设通信条件,构建与目标故障场景对应的第二模拟测试场景,包括:
建立所述第一基板管理控制器与所述信号发生模块之间的通信链路;
向所述信号发生模块发送第三使能信号,以使得所述信号发生模块在所述第二模拟测试场景中向所述第一基板管理控制器循环发送所述智能平台管理总线命令。
12.根据权利要求1所述的诊断方法,其特征在于,所述测试设备包括以下至少之一:示波器,以及逻辑分析仪。
13.根据权利要求1所述的诊断方法,其特征在于,所述场景信息包括所述测试条件,所述测试条件包括外部条件,所述根据所述模拟测试场景的场景信息,判断所述第一基板管理控制器与所述管理引擎在所述模拟测试场景中是否出现与所述目标故障场景中相同的通信异常,包括:
根据所述测试设备的测试结果,判断所述第一基板管理控制器与所述管理引擎在所述模拟测试场景中是否出现所述通信异常。
14.根据权利要求1所述的诊断方法,其特征在于,所述场景信息包括所述测试条件,所述测试条件包括内部条件,所述根据所述模拟测试场景的场景信息,判断所述第一基板管理控制器与所述管理引擎在所述模拟测试场景中是否出现与所述目标故障场景相同的通信异常,包括:
判断所述第一基板管理控制器的日志信息中是否出现与所述目标故障场景对应的异常告警记录,其中,在判断结果指示出现异常告警记录的情况下,确定为所述第一基板管理控制器与所述管理引擎在所述模拟测试场景中出现所述通信异常。
15.根据权利要求1至11中任一项所述的诊断方法,其特征在于,还包括:
在根据所述预设通信条件,构建与所述目标故障场景对应的所述模拟测试场景之前,将与所述模拟测试场景对应的测试条件初始化,其中,所述测试条件包括外部条件和内部条件,所述外部条件包括以下至少之一:设置有所述第一基板管理控制器的主板的供电电压,以及测试设备的测试点在所述通信链路中的位置;所述内部条件至少包括:所述第一基板管理控制器的日志信息。
16.一种通信异常的诊断装置,其特征在于,包括:
第一构建模块,用于根据预设通信条件,构建与目标故障场景对应的模拟测试场景,其中,所述目标故障场景为第一基板管理控制器与管理引擎发生通信异常的场景,所述模拟测试场景至少包括第一模拟测试场景,所述第一模拟测试场景用于使所述第一基板管理控制器与所述管理引擎之间具有满足所述预设通信条件的通信链路;
第一判断模块,用于根据所述模拟测试场景的场景信息,判断所述第一基板管理控制器与所述管理引擎在所述模拟测试场景中是否出现与所述目标故障场景中相同的通信异常;
定位模块,用于在判断结果指示出现所述通信异常的情况下,根据所述模拟测试场景的场景信息,定位与所述目标故障场景对应的故障原因,
所述诊断装置还包括:
第二构建模块,用于执行构建步骤:在判断结果指示未出现所述通信异常的情况下,根据更新的预设通信条件,构建与所述目标故障场景对应的更新的模拟测试场景,其中,所述更新的预设通信条件为与前一个模拟测试场景对应的预设通信条件不同的预设通信条件;
第二判断模块,用于执行判断步骤:判断所述第一基板管理控制器与所述管理引擎在所述更新的模拟测试场景中是否出现所述通信异常;
第一循环模块,用于在判断结果指示未出现所述通信异常的情况下,循环执行所述构建步骤和所述判断步骤,直到所述判断结果指示出现所述通信异常时停止;
修改模块,用于在执行到第n次所述构建步骤和所述判断步骤,所述判断结果仍指示未出现所述通信异常的情况下,修改与当前模拟测试场景对应的测试条件,得到更新的测试条件,其中,n为所述预设通信条件的全部数量,所述当前模拟测试场景为第n次执行的所述构建步骤中构建的模拟测试场景,所述测试条件包括外部条件和/或内部条件,所述外部条件包括以下至少之一:设置有所述第一基板管理控制器的主板的供电电压,以及测试设备的测试点在所述通信链路中的位置;所述内部条件至少包括:所述第一基板管理控制器的日志信息;
第二循环模块,用于根据所述更新的测试条件,再次循环执行所述构建步骤和所述判断步骤,直到所述判断结果指示出现所述通信异常时停止。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求1至15任一项中所述的方法的步骤。
18.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述权利要求1至15任一项中所述的方法的步骤。
CN202311174101.6A 2023-09-12 2023-09-12 通信异常的诊断方法、其装置及电子设备 Active CN116915583B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311174101.6A CN116915583B (zh) 2023-09-12 2023-09-12 通信异常的诊断方法、其装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311174101.6A CN116915583B (zh) 2023-09-12 2023-09-12 通信异常的诊断方法、其装置及电子设备

Publications (2)

Publication Number Publication Date
CN116915583A CN116915583A (zh) 2023-10-20
CN116915583B true CN116915583B (zh) 2024-01-26

Family

ID=88356981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311174101.6A Active CN116915583B (zh) 2023-09-12 2023-09-12 通信异常的诊断方法、其装置及电子设备

Country Status (1)

Country Link
CN (1) CN116915583B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145426A (zh) * 2017-05-09 2017-09-08 郑州云海信息技术有限公司 一种bmc 测试me状态异常的方法
CN112506773A (zh) * 2020-12-03 2021-03-16 安徽听见科技有限公司 一种异常场景测试方法、装置、设备及存储介质
CN115733741A (zh) * 2022-11-08 2023-03-03 苏州浪潮智能科技有限公司 一种针对待测系统的异常场景测试方法和装置
CN116541227A (zh) * 2023-07-05 2023-08-04 苏州浪潮智能科技有限公司 故障诊断方法、装置、存储介质、电子装置及bmc芯片

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017142530A1 (en) * 2016-02-17 2017-08-24 Entit Software Llc Environment simulations

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145426A (zh) * 2017-05-09 2017-09-08 郑州云海信息技术有限公司 一种bmc 测试me状态异常的方法
CN112506773A (zh) * 2020-12-03 2021-03-16 安徽听见科技有限公司 一种异常场景测试方法、装置、设备及存储介质
CN115733741A (zh) * 2022-11-08 2023-03-03 苏州浪潮智能科技有限公司 一种针对待测系统的异常场景测试方法和装置
CN116541227A (zh) * 2023-07-05 2023-08-04 苏州浪潮智能科技有限公司 故障诊断方法、装置、存储介质、电子装置及bmc芯片

Also Published As

Publication number Publication date
CN116915583A (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
US9569325B2 (en) Method and system for automated test and result comparison
KR102064634B1 (ko) 테스트 장치 및 방법
CN102571498B (zh) 故障注入控制方法和装置
CN112929236B (zh) 一种用电信息采集系统宽带微功率无线协议互操作性测试系统
KR101280287B1 (ko) 임베디드 소프트웨어 검증장치 및 그 운용방법
CN108829594A (zh) 一种Linux下自动化测试BMC web资产信息功能的方法及系统
CN112285586A (zh) Bms测试方法、装置、系统、仿真测试设备及存储介质
CN102957567A (zh) 服务器信息管理方法及服务器管理装置
US7475164B2 (en) Apparatus, system, and method for automated device configuration and testing
CN110928795A (zh) 一种存储系统升级的稳定性测试方法及装置
CN116915583B (zh) 通信异常的诊断方法、其装置及电子设备
TWI748652B (zh) 基於基板管理控制器的伺服器測試系統及其方法
CN210666480U (zh) 一种车辆测试系统
CN116225802A (zh) 一种故障测试方法、装置及计算设备
CN114124727B (zh) 一种网管通信压力测试方法及系统
CN112860562B (zh) 自动化测试方法和装置
CN112034296B (zh) 一种航电故障注入系统、方法
US10932148B2 (en) Apparatus, system and method for testing of communication networks with prescribed communication traffic
CN116719712B (zh) 处理器串口日志输出方法、装置、电子设备及存储介质
CN114265734A (zh) 基于基板管理控制器的服务器测试系统及其方法
CN117171025A (zh) 测试数据的获取方法及装置、存储介质、电子设备
CN115563017A (zh) 一种基于总线注入的测试系统、方法及计算机设备
CN117793340A (zh) 一种机顶盒状态监测方法、装置、设备及存储介质
CN116430827A (zh) 一种支持软、硬件故障注入与表决的容错验证系统及方法
CN117319187A (zh) 网关设备与子设备的联调开发方法、云平台、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant