CN113868036B - 服务器时序异常监测方法、系统、终端及存储介质 - Google Patents

服务器时序异常监测方法、系统、终端及存储介质 Download PDF

Info

Publication number
CN113868036B
CN113868036B CN202110998466.5A CN202110998466A CN113868036B CN 113868036 B CN113868036 B CN 113868036B CN 202110998466 A CN202110998466 A CN 202110998466A CN 113868036 B CN113868036 B CN 113868036B
Authority
CN
China
Prior art keywords
time sequence
signal
signals
voltage value
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110998466.5A
Other languages
English (en)
Other versions
CN113868036A (zh
Inventor
杨铖钰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202110998466.5A priority Critical patent/CN113868036B/zh
Publication of CN113868036A publication Critical patent/CN113868036A/zh
Application granted granted Critical
Publication of CN113868036B publication Critical patent/CN113868036B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种服务器时序异常监测方法、系统、终端及存储介质,包括:采集服务器的时序信号和时序相关电压值;对时序信号和时序相关电压值增加时间戳;将带有时间戳的时序信号与时序相关电压值作为实际信号,将实际信号与预先存储的标准信号进行一致性比对,若不一致则生成所述时序信号的报错日志。本发明通过对服务器时序实时信号进行转换,并通过对信号进行分析对比完成对数据的初步监控,从而提供可视化的debug问题定位方式,提高工作效率。

Description

服务器时序异常监测方法、系统、终端及存储介质
技术领域
本发明涉及服务器技术领域,具体涉及一种服务器时序异常监测方法、系统、终端及存储介质。
背景技术
在云计算、大数据时代,海量的数据需要存储和计算,数据中心的服务器部署密度越来越大。在数据量暴增的时代,数据时时刻刻都在被分类存储和计算,这就对数据中心服务器的长期稳定性和可靠性要求越来越高;虽然服务器的稳定性较高,但是随着服务器的使用时间变长,服务器的故障率不可避免的会上升,当整体POST阶段宕机问题出现时,排查问题会花费大量的时间。需要最快的速度去定位问题点,分析出根本原因并提供解决办法,避免大批量机器出现同样问题。
服务器在客户数据中心机房发生数据传输异常时,故障原因通常会和客户当时的使用环境以及运行的业务有一定的相关性,而且故障通常不会稳定的出现,这就给故障的判断和处理的准确性提出了更高的要求,因此,这就要求能够在客户现场第一时间判断故障类型及故障点,然后进行针对性的分析。故障的判断常常需要测量时序信号是否正常,但是时序涉及信号较多,且机房环境量测困难,给故障判断带来了较多的不便。
现有的服务器CPLD会参与时序,但不会实时监控所有异常报警,仅监测使能信号异常拉低的状态。在系统POST阶段,即上电到开机的过程中,当宕机发生时,仅能通过BIOS和BMC Log查看异常,但是没有对于时序异常的准确报警信息。需要实际量测故障时的时序,若是复现概率低的BUG,这种分析过程会严重影响debug效率。
发明内容
针对现有技术存在的服务器启动阶段的故障时概率事件,一旦发生由于没有可追溯的条件,导致故障分析效率十分低下的技术问题,本发明提供一种服务器时序异常监测方法、系统、终端及存储介质,以解决上述技术问题。
第一方面,本发明提供一种服务器时序异常监测方法,包括:
采集服务器的时序信号和时序相关电压值;
对时序信号和时序相关电压值增加时间戳;
将带有时间戳的时序信号与时序相关电压值作为实际信号,将实际信号与预先存储的标准信号进行一致性比对,若不一致则生成所述时序信号的报错日志。
进一步的,采集服务器的时序信号和时序相关电压值,包括:
采集时序管理芯片的模拟时序信号和电压调节器的模拟电压值,并利用模数转换器将模拟时序信号和模拟电压值转换为数字格式的时序信号和电压值。
进一步的,对时序信号和时序相关电压值增加时间戳,包括:
信号格式转换完成时,从基板管理控制器采集时钟信号;
利用所述时钟信号为所述时序信号和电压值增加时间戳。
进一步的,将带有时间戳的时序信号与时序相关电压值作为实际信号,将实际信号与预先存储的标准信号进行一致性比对,若不一致则生成所述时序信号的报错日志,包括:
从带电可擦可编程只读存储器读取与所述时序信号对应的标准信号,所述标准信号包括时序相关的标准电压值和时序信号与时序相关电压值的标准时间差;
比对所述时序相关电压值与所述标准电压值,得到第一比对结果;
将所述时序信号与时序相关电压值的时间戳差值与标准时间差进行比对,得到第二比对结果;
若第一比对结果和第二比对结果均为一致,则判定实际信号与所述标准信号一致,否则判定两者不一致。
进一步的,从带电可擦可编程只读存储器读取与所述时序信号对应的标准信号,包括:
根据设定的编号生成原则为所述时序信号和时序相关电压值生成编号;
根据所述编号从带电可擦可编程只读存储器读取匹配的标准信号。
进一步的,将带有时间戳的时序信号与时序相关电压值作为实际信号,将实际信号与预先存储的标准信号进行一致性比对,若不一致则生成所述时序信号的报错日志,包括:
若第一比对结果或第二比对结果为不一致,则生成报警日志,所述报警日志包括带有时间戳的时序信号与时序相关电压值,和所述时序信号所属的服务器部件名称;
将所述报警日志存储为基板管理控制器日志。
第二方面,本发明提供一种服务器时序异常监测系统,包括:
信号采集单元,用于采集服务器的时序信号和时序相关电压值;
时间标记单元,用于对时序信号和时序相关电压值增加时间戳;
信号比对单元,用于将带有时间戳的时序信号与时序相关电压值作为实际信号,将实际信号与预先存储的标准信号进行一致性比对,若不一致则生成所述时序信号的报错日志。
进一步的,所述信号采集单元用于:
采集时序管理芯片的模拟时序信号和电压调节器的模拟电压值,并利用模数转换器将模拟时序信号和模拟电压值转换为数字格式的时序信号和电压值。
进一步的,所述时间标记单元用于:
信号格式转换完成时,从基板管理控制器采集时钟信号;
利用所述时钟信号为所述时序信号和电压值增加时间戳。
进一步的,所述信号比对单元用于:
从带电可擦可编程只读存储器读取与所述时序信号对应的标准信号,所述标准信号包括时序相关的标准电压值和时序信号与时序相关电压值的标准时间差;
比对所述时序相关电压值与所述标准电压值,得到第一比对结果;
将所述时序信号与时序相关电压值的时间戳差值与标准时间差进行比对,得到第二比对结果;
若第一比对结果和第二比对结果均为一致,则判定实际信号与所述标准信号一致,否则判定两者不一致。
进一步的,从带电可擦可编程只读存储器读取与所述时序信号对应的标准信号,包括:
根据设定的编号生成原则为所述时序信号和时序相关电压值生成编号;
根据所述编号从带电可擦可编程只读存储器读取匹配的标准信号。
进一步的,所述信号比对单元用于:
若第一比对结果或第二比对结果为不一致,则生成报警日志,所述报警日志包括带有时间戳的时序信号与时序相关电压值,和所述时序信号所属的服务器部件名称;
将所述报警日志存储为基板管理控制器日志。
第三方面,提供一种终端,包括:
处理器、存储器,其中,
该存储器用于存储计算机程序,
该处理器用于从存储器中调用并运行该计算机程序,使得终端执行上述的终端的方法。
第四方面,提供了一种计算机存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
本发明的有益效果在于,
本发明提供的服务器时序异常监测方法、系统、终端及存储介质,通过采集服务器的时序信号和时序相关电压值,并对时序信号和时序相关电压值增加时间戳,然后将带有时间戳的时序信号与时序相关电压值作为实际信号,将实际信号与预先存储的标准信号进行一致性比对,若不一致则生成所述时序信号的报错日志。有次时序对异常时序信号的监控和信息保存,时序故障的可追溯性。本发明通过对服务器时序实时信号进行转换,并通过对信号进行分析对比完成对数据的初步监控,从而提供可视化的debug问题定位方式,提高工作效率。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的方法的示意性流程图。
图2是本发明一个实施例的方法的示意性原理图。
图3是本发明一个实施例的方法的另一示意性流程图。
图4是本发明一个实施例的系统的示意性框图。
图5为本发明实施例提供的一种终端的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
以下对服务器上电时序进行简单介绍:
在插上电池或者电源的时候,机器内部的单片机EC就Reset并开始工作,等待用户按下Power键。在此期间的时序是:ALWAYS电开启以后,EC Reset并开始运行,随后发给南桥一个称为‘RSMRST#’的信号(南桥就收到SUSPWROK信号<南桥复位>,32.768时钟开始工作,此时处在待机状态)。这时候南桥的部分功能开始初始化并等待开机信号。这里要注意,这时候的南桥并没有打开全部电源,只有很少一部分的功能可用,比如供检测开机信号的PWRBTN#信号。在按下Power键的时候,EC检测到一个电平变化(一般时序是:高-低-高),然后发送一个开机信号(PWRBTN#)给南桥,南桥收到PWRBTN#信号后依次拉高SLP_S5#,SLP_S4#,SLP_S3#信号(他们的作用参看上页的图),开启了所有的外围电压,主要是+3V,+5V以及DDR1.8V等,VTT_PWRGD、+1_8VDIMM_PG、+1_5VRUN_PG相与并发送ALLSYSPG信号,这信号表明外围电源正常开启。ALLSYSPG将作为一个使能信号发送到KBC,延迟99ms之后,KBC会发出VR_ON到CPU电压芯片来开启VR_CORE(即CPU的核心电压)。至此,整个的电压部分已经全部开启。IMVP_PWRGD正常发出,再用CHIP_PWRGD这个信号通知南桥VR_CORE成功开启后,南桥会发出PCI RST#信号到PCI总线,于是总线上的设备都被初始化(包括北桥),并同时发出H_PWRGD来通知CPU它的核心电压已经成功开启。然后北桥发H_CPURST#信号给CPU,CPU被RESET,并正式开始工作。如需要进入待机模式(S3)的时候,系统的ACPI和windows同时运作,拉低SLP_S3#,并保持SLP_S4#和SLP_S5#被拉高,以关闭了MAIN电,系统则进入待机模式;而在需要进入休眠或者关机模式时,同时拉低SLP_S3#、SLP_S4#和SLP_S5#,关闭除了RTC以外的电源。当然,在这一系列的过程中,需要操作系统和BIOS的共同协作。当电压加电稳定后,南桥就会收到一个CHIP_PWRGD的信号,南桥接到这个信号后,发出CPUPWRGD信号给CPU,CPU开始读取BIOS。之后会产生一个初始的PCIRST#信号,送出到复位的门电路,复位门电路收到这个信号后,通过逻辑转换分为两或三个RST信号,一个是PCIRST1#,另一个是PCIRST2#。PCIRST1#是用来复位板载设备的,如IO,BIOS,网卡,北桥,1394芯片等。PCIRST2#是用来复位PCI槽上的设备的。另外,D6 m#P s(]8L0 J另外另外CPURST#的产生流程。北桥的电压及时钟条件满足后,接到传送来的PCIRST#信号后,便通过内部的一个与门电路转换为CPURST#来对CPU进行复位。
对于多节点服务器,上电时序会包括各节点的上电顺序等,因此多节点服务器的上电时序更为复杂。
以下为本发明中的专业名词解释:
英文缩写:ADC,英文全称:Analog-to-digital converter,中文全称:模拟数字转换器。
英文缩写:BMC,英文全称:Baseboard Manager Controller,中文全称:基板管理控制器。
英文缩写:CPLD,英文全称:Complex Programmable Logic Device,中文全称:复杂可编程逻辑器件。
英文缩写:VR,英文全称:Voltage Regulator,中文全称:电压调节器。
英文缩写:EEPROM,英文全称:Electrically Erasable Programmable Read-OnlyMemory,中文全称:带电可擦可编程只读存储器。
在系统POST阶段,即上电到开机的过程中,当宕机发生时,仅能通过BIOS和BMCLog查看异常,但是没有对于时序异常的准确报警信息。需要实际量测故障时的时序,若是复现概率低的BUG,这种分析过程会严重影响debug效率。为解决上述问题,本发明提供一种服务器时序异常监测方法。
图1是本发明一个实施例的方法的示意性流程图。其中,图1执行主体可以为一种服务器时序异常监测系统。
如图1所示,该方法包括:
步骤110,采集服务器的时序信号和时序相关电压值;
步骤120,对时序信号和时序相关电压值增加时间戳;
步骤130,将带有时间戳的时序信号与时序相关电压值作为实际信号,将实际信号与预先存储的标准信号进行一致性比对,若不一致则生成所述时序信号的报错日志。
请参考图2,本发明提供的服务器时序异常监测方法包括:
CPLD发出EN信号,使能VR,VR使能后电压调节到正常电压并发出PWRGD给CPLD,CPLD也会发出或接收其他时序信号,例如RESET、SLPS3/4/5等,作为时序中重要的一员参与时序。时序中涉及的信号都传输给CPLD,但不包括电压值。ADC模块从CPLD获取时序相关信号,从VR获取电压值,都转换为数字信号。同时ADC模块从BMC获取系统时间,给信号增加时间戳。信号比对单元接收到的时序相关数字信号值和EEPROM中储存的正确正常的时序信号要求进行对比,当有异常时将异常相关信号信息作为报警log打包发给BMC,用户可通过PC连接BMC web读取报警log。
本发明和改进前的方案的差异点在于:
改进前,服务器POST阶段宕机时,仅能够读取BIOS串口信息和BMC日志作为debug信息收集手段,无法直接查看时序,需要重新测量hang机时的时序信号,复现bug时间长,数据量大,问题定位效率低。
改进后,通过CPLD和ADC模块以及分析对比模块实时的监测服务器时序,并对异常时序报警记录log到BMC,可通过BMC远程访问查看,提高Debug工作效率,增强对系统的维护能力,使产品性能更优。
为了便于对本发明的理解,下面以本发明服务器时序异常监测方法的原理,结合实施例中对服务器时序进行异常监测的过程,对本发明提供的服务器时序异常监测方法做进一步的描述。
具体的,请参考图3,所述服务器时序异常监测方法包括:
S1、采集服务器的时序信号和时序相关电压值。
采集时序管理芯片的模拟时序信号和电压调节器的模拟电压值,并利用模数转换器将模拟时序信号和模拟电压值转换为数字格式的时序信号和电压值。
VR与CPLD通讯使能和PWRGD信号,使能VR,上电,其他时序信号均连接到CPLD。时序包括电和信号两种,ADC模块将时序信号和电,转换为数字信号,便于对照时序要求,例如PVNN EN信号和PVNN上电中间的时序要求。
S2、对时序信号和时序相关电压值增加时间戳。
信号格式转换完成时,从基板管理控制器采集时钟信号;利用所述时钟信号为所述时序信号和电压值增加时间戳。
ADC接收到时序相关信号会从BMC抓取时间给信号增加时间戳,便于对比两信号之间的时间差。
S3、将带有时间戳的时序信号与时序相关电压值作为实际信号,将实际信号与预先存储的标准信号进行一致性比对,若不一致则生成所述时序信号的报错日志。
从带电可擦可编程只读存储器读取与时序信号对应的标准信号,标准信号包括时序相关的标准电压值和时序信号与时序相关电压值的标准时间差;具体的,根据设定的编号生成原则为时序信号和时序相关电压值生成编号;根据编号从带电可擦可编程只读存储器读取匹配的标准信号。比对时序相关电压值与标准电压值,得到第一比对结果;将时序信号与时序相关电压值的时间戳差值与标准时间差进行比对,得到第二比对结果;若第一比对结果和第二比对结果均为一致,则判定实际信号与标准信号一致,否则判定两者不一致。若第一比对结果或第二比对结果为不一致,则生成报警日志,报警日志包括带有时间戳的时序信号与时序相关电压值,和时序信号所属的服务器部件名称;将报警日志存储为基板管理控制器日志。
从ADC模块中获取器件实际的时序信号及对应的时间关系,并从EEPROM抓取正常情况下的时序关系,将两者对比。每个时序关系有对应编码,当检测到异常时序,分析对比模块发送报警log给BMC,报警log中包含异常时序关系对应编码。
用户可通过BMC web读取BMC LOG信息,查看机器是否有时序异常。通过此线路设计方案可实时对服务器的时序进行自动监测。另外,对于概率性问题,可对数据进行初步分析,通过LOG信息对服务器宕机时时序进行查看,定位问题范围,提高debug效率。
本实施例通过ADC模块对CPLD时序信号和电,即时序包含的所有信号进行数字转换,并通过BMC抓取时间便于比较时间关系。通过分析对比模块对服务器时序信号自动进行监控和分析。另外,对于概率性问题,可对时序进行初步分析,通过BMC web实时参看报警log信息,快速定位问题范围,提高debug效率。
如图4所示,该系统400包括:
信号采集单元410,用于采集服务器的时序信号和时序相关电压值;
时间标记单元420,用于对时序信号和时序相关电压值增加时间戳;
信号比对单元430,用于将带有时间戳的时序信号与时序相关电压值作为实际信号,将实际信号与预先存储的标准信号进行一致性比对,若不一致则生成所述时序信号的报错日志。
可选地,作为本发明一个实施例,所述信号采集单元用于:
采集时序管理芯片的模拟时序信号和电压调节器的模拟电压值,并利用模数转换器将模拟时序信号和模拟电压值转换为数字格式的时序信号和电压值。
可选地,作为本发明一个实施例,所述时间标记单元用于:
信号格式转换完成时,从基板管理控制器采集时钟信号;
利用所述时钟信号为所述时序信号和电压值增加时间戳。
可选地,作为本发明一个实施例,所述信号比对单元用于:
从带电可擦可编程只读存储器读取与所述时序信号对应的标准信号,所述标准信号包括时序相关的标准电压值和时序信号与时序相关电压值的标准时间差;
比对所述时序相关电压值与所述标准电压值,得到第一比对结果;
将所述时序信号与时序相关电压值的时间戳差值与标准时间差进行比对,得到第二比对结果;
若第一比对结果和第二比对结果均为一致,则判定实际信号与所述标准信号一致,否则判定两者不一致。
可选地,作为本发明一个实施例,从带电可擦可编程只读存储器读取与所述时序信号对应的标准信号,包括:
根据设定的编号生成原则为所述时序信号和时序相关电压值生成编号;
根据所述编号从带电可擦可编程只读存储器读取匹配的标准信号。
可选地,作为本发明一个实施例,所述信号比对单元用于:
若第一比对结果或第二比对结果为不一致,则生成报警日志,所述报警日志包括带有时间戳的时序信号与时序相关电压值,和所述时序信号所属的服务器部件名称;
将所述报警日志存储为基板管理控制器日志。
图5为本发明实施例提供的一种终端500的结构示意图,该终端500可以用于执行本发明实施例提供的服务器时序异常监测方法。
其中,该终端500可以包括:处理器510、存储器520及通信单元530。这些组件通过一条或多条总线进行通信,本领域技术人员可以理解,图中示出的服务器的结构并不构成对本发明的限定,它既可以是总线形结构,也可以是星型结构,还可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中,该存储器520可以用于存储处理器510的执行指令,存储器520可以由任何类型的易失性或带电可擦可编程只读存储器终端或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。当存储器520中的执行指令由处理器510执行时,使得终端500能够执行以下上述方法实施例中的部分或全部步骤。
处理器510为存储终端的控制中心,利用各种接口和线路连接整个电子终端的各个部分,通过运行或执行存储在存储器520内的软件程序和/或模块,以及调用存储在存储器内的数据,以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit,简称IC)组成,例如可以由单颗封装的IC所组成,也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说,处理器510可以仅包括中央处理器(Central Processing Unit,简称CPU)。在本发明实施方式中,CPU可以是单运算核心,也可以包括多运算核心。
通信单元530,用于建立通信信道,从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。
本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
因此,本发明通过采集服务器的时序信号和时序相关电压值,并对时序信号和时序相关电压值增加时间戳,然后将带有时间戳的时序信号与时序相关电压值作为实际信号,将实际信号与预先存储的标准信号进行一致性比对,若不一致则生成所述时序信号的报错日志。有次时序对异常时序信号的监控和信息保存,时序故障的可追溯性。本发明通过对服务器时序实时信号进行转换,并通过对信号进行分析对比完成对数据的初步监控,从而提供可视化的debug问题定位方式,提高工作效率,本实施例所能达到的技术效果可以参见上文中的描述,此处不再赘述。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,包括若干指令用以使得一台计算机终端(可以是个人计算机,服务器,或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于终端实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (9)

1.一种服务器时序异常监测方法,其特征在于,包括:
采集服务器的时序信号和时序相关电压值;
对时序信号和时序相关电压值增加时间戳;
将带有时间戳的时序信号与时序相关电压值作为实际信号,将实际信号与预先存储的标准信号进行一致性比对,若不一致则生成所述时序信号的报错日志;
带有时间戳的时序信号与时序相关电压值作为实际信号,将实际信号与预先存储的标准信号进行一致性比对,若不一致则生成所述时序信号的报错日志,包括:
从带电可擦可编程只读存储器读取与所述时序信号对应的标准信号,所述标准信号包括时序相关的标准电压值和时序信号与时序相关电压值的标准时间差;
比对所述时序相关电压值与所述标准电压值,得到第一比对结果;
将所述时序信号与时序相关电压值的时间戳差值与标准时间差进行比对,得到第二比对结果;
若第一比对结果和第二比对结果均为一致,则判定实际信号与所述标准信号一致,否则判定两者不一致。
2.根据权利要求1所述的方法,其特征在于,采集服务器的时序信号和时序相关电压值,包括:
采集时序管理芯片的模拟时序信号和电压调节器的模拟电压值,并利用模数转换器将模拟时序信号和模拟电压值转换为数字格式的时序信号和电压值。
3.根据权利要求2所述的方法,其特征在于,对时序信号和时序相关电压值增加时间戳,包括:
信号格式转换完成时,从基板管理控制器采集时钟信号;
利用所述时钟信号为所述时序信号和电压值增加时间戳。
4.根据权利要求1所述的方法,其特征在于,从带电可擦可编程只读存储器读取与所述时序信号对应的标准信号,包括:
根据设定的编号生成原则为所述时序信号和时序相关电压值生成编号;
根据所述编号从带电可擦可编程只读存储器读取匹配的标准信号。
5.根据权利要求1所述的方法,其特征在于,将带有时间戳的时序信号与时序相关电压值作为实际信号,将实际信号与预先存储的标准信号进行一致性比对,若不一致则生成所述时序信号的报错日志,包括:
若第一比对结果或第二比对结果为不一致,则生成报警日志,所述报警日志包括带有时间戳的时序信号与时序相关电压值,和所述时序信号所属的服务器部件名称;
将所述报警日志存储为基板管理控制器日志。
6.一种服务器时序异常监测系统,其特征在于,包括:
信号采集单元,用于采集服务器的时序信号和时序相关电压值;
时间标记单元,用于对时序信号和时序相关电压值增加时间戳;
信号比对单元,用于将带有时间戳的时序信号与时序相关电压值作为实际信号,将实际信号与预先存储的标准信号进行一致性比对,若不一致则生成所述时序信号的报错日志;
所述信号比对单元用于:
从带电可擦可编程只读存储器读取与所述时序信号对应的标准信号,所述标准信号包括时序相关的标准电压值和时序信号与时序相关电压值的标准时间差;
比对所述时序相关电压值与所述标准电压值,得到第一比对结果;
将所述时序信号与时序相关电压值的时间戳差值与标准时间差进行比对,得到第二比对结果;
若第一比对结果和第二比对结果均为一致,则判定实际信号与所述标准信号一致,否则判定两者不一致。
7.根据权利要求6所述的系统,其特征在于,所述信号采集单元用于:
采集时序管理芯片的模拟时序信号和电压调节器的模拟电压值,并利用模数转换器将模拟时序信号和模拟电压值转换为数字格式的时序信号和电压值。
8.一种终端,其特征在于,包括:
处理器;
用于存储处理器的执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-5任一项所述的方法。
9.一种存储有计算机程序的计算机可读存储介质,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的方法。
CN202110998466.5A 2021-08-27 2021-08-27 服务器时序异常监测方法、系统、终端及存储介质 Active CN113868036B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110998466.5A CN113868036B (zh) 2021-08-27 2021-08-27 服务器时序异常监测方法、系统、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110998466.5A CN113868036B (zh) 2021-08-27 2021-08-27 服务器时序异常监测方法、系统、终端及存储介质

Publications (2)

Publication Number Publication Date
CN113868036A CN113868036A (zh) 2021-12-31
CN113868036B true CN113868036B (zh) 2023-08-15

Family

ID=78988652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110998466.5A Active CN113868036B (zh) 2021-08-27 2021-08-27 服务器时序异常监测方法、系统、终端及存储介质

Country Status (1)

Country Link
CN (1) CN113868036B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851320A (zh) * 2019-09-29 2020-02-28 苏州浪潮智能科技有限公司 一种服务器宕机监管方法、系统、终端及存储介质
CN112965864A (zh) * 2021-02-20 2021-06-15 山东英信计算机技术有限公司 一种服务器上电故障检测方法、系统及相关装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851320A (zh) * 2019-09-29 2020-02-28 苏州浪潮智能科技有限公司 一种服务器宕机监管方法、系统、终端及存储介质
CN112965864A (zh) * 2021-02-20 2021-06-15 山东英信计算机技术有限公司 一种服务器上电故障检测方法、系统及相关装置

Also Published As

Publication number Publication date
CN113868036A (zh) 2021-12-31

Similar Documents

Publication Publication Date Title
US8510587B2 (en) Time synchronization system and server using a baseboard management controller acquiring time signals to record occurrence time of system logs before than host system
CN110727556A (zh) 一种bmc健康状态监控方法、系统、终端及存储介质
CN100565470C (zh) 一种日志管理方法和装置
CN112286709B (zh) 一种服务器硬件故障的诊断方法、诊断装置及诊断设备
CN111124981B (zh) 一种服务器i2c设备的管理系统及方法
CN108287780A (zh) 一种监控服务器cpld状态的装置及方法
EP3839742A1 (en) A method for diagnosing power supply failure in a wireless communication device
CN110377136A (zh) 一种psu原始值日志记录方法及装置
CN111625389B (zh) 一种vr的故障数据获取方法、装置及相关组件
CN105260286A (zh) 一种实时监控cpu工作状态的方法
CN110191017B (zh) 一种用于监测路由设备异常的监控系统及方法
CN113868036B (zh) 服务器时序异常监测方法、系统、终端及存储介质
CN113742166B (zh) 一种服务器系统器件日志记录方法、装置及系统
CN112463504B (zh) 一种双控存储产品测试方法、系统、终端及存储介质
CN112486785B (zh) 一种服务器定位宕机阶段的方法、系统、终端及存储介质
CN212723938U (zh) 一种在服务器s5状态下监测电源工作状态的装置
CN113076210B (zh) 服务器故障诊断结果通知方法、系统、终端及存储介质
CN211603369U (zh) 一种服务器dc掉电故障定位系统
CN112213980A (zh) 一种单片机故障诊断板卡及方法
CN113419618A (zh) 服务器解码卡下电控制方法、系统、终端及存储介质
CN117493291A (zh) 一种日志采集方法、装置、设备及存储介质
CN109920466B (zh) 一种硬盘测试数据解析方法、装置、终端及存储介质
CN115934446A (zh) 一种自检方法、服务器、设备和存储介质
CN117493065B (zh) 处理器信息的处理方法和装置,存储介质及电子设备
CN113849375A (zh) 一种用于计算机的远程管理方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant