CN114355266A - 一种ate设备的健康监测管理系统及其控制方法 - Google Patents

一种ate设备的健康监测管理系统及其控制方法 Download PDF

Info

Publication number
CN114355266A
CN114355266A CN202111471139.0A CN202111471139A CN114355266A CN 114355266 A CN114355266 A CN 114355266A CN 202111471139 A CN202111471139 A CN 202111471139A CN 114355266 A CN114355266 A CN 114355266A
Authority
CN
China
Prior art keywords
monitoring
temperature
fan
health
monitoring circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111471139.0A
Other languages
English (en)
Inventor
凌云
邬刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Acceleration Technology Co ltd
Original Assignee
Hangzhou Acceleration Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Acceleration Technology Co ltd filed Critical Hangzhou Acceleration Technology Co ltd
Priority to CN202111471139.0A priority Critical patent/CN114355266A/zh
Publication of CN114355266A publication Critical patent/CN114355266A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明提供了一种ATE设备的健康监测管理系统及其控制方法,健康监测管理系统包括监控管理模块、第一监控电路和第二监控电路,主机柜中配置有监控管理模块,主控板上配置有第一监控电路,每个业务板卡上都配置有第二监控电路;监控管理模块对主机柜和各个业务板卡进行监测和控制;第一监控电路,报告主控板和各业务板卡的状态监测;第二监控电路监测各个业务板卡并上报至第一监控电路。本发明的健康监测管理系统能够系统性的对ATE设备进行监控管理,依靠监控管理模块、第一监控电路和第二监控电路,能够有效降低设备管理的复杂度,高效监测和控制ATE设备内部板卡及模块的健康状态,保证ATE设备整体的稳定性和可靠性。

Description

一种ATE设备的健康监测管理系统及其控制方法
技术领域
本发明涉及ATE设备监测领域,具体而言,涉及一种ATE设备的健康监测管理系统及其控制方法。
背景技术
ATE(Automatic Test Equipment)是自动测试设备,它是一种由高性能计算机控制的测试仪器的集合体,是由测试仪和计算机组合而成的测试系统,计算机通过运行测试程序的指令来控制测试硬件。半导体芯片测试机用于检测集成电路的功能和性能的完整性,是集成电路生产制造流程中确保集成电路品质的重要设备。
近年来,随着芯片行业的发展,对ATE测试设备的要求也越来越高。芯片集成度的提升,使得芯片引脚数越来越多,高端芯片引脚数量已高达3000针以上。基于效率考虑,芯片测试要求支持多片并行测试,这使得行业对ATE测试设备引脚数量提出了更高要求。一方面,ATE测试设备引脚数量的增加,导致设备内部各功能板卡数量大幅增加,设备复杂度大幅提升,板卡监控和管理难度加大,设备可靠性和稳定性下降。另一方面,芯片测试对ATE测试机可靠性和稳定性要求却从未下降,甚至有进一步提升的趋势。
而对ATE测试设备进行健康监测管理,是保证可靠性和稳定性的重要手段。由于ATE测试设备内部极为复杂,包含大量硬件设备,设备管理复杂度极高,难以对其进行系统性的监测和管理。
因此,需要一种适用于ATE设备的监测管理方案,能够解决上述问题。
发明内容
基于现有技术存在的问题,本发明提供了一种ATE设备的健康监测管理系统及其控制方法。具体方案如下:
一种ATE设备的健康监测管理系统,适用于包括主机柜和测试机头的ATE设备,所述测试机头包括主控板和多个业务板卡;
所述健康监测管理系统包括监控管理模块、第一监控电路和第二监控电路,所述主机柜中配置有所述监控管理模块,所述主控板上配置有所述第一监控电路,每个所述业务板卡上都配置有所述第二监控电路;
所述监控管理模块,电性连接所述主机柜中的多个硬件设备以及各个业务板卡,以对所述主机柜和各个所述业务板卡进行监测和控制;
所述第一监控电路,负责监测和控制所述主控板,且存在一路总线电性连接所述监控管理模块,以报告所述主控板和各业务板卡的状态,存在另一路总线电性连接各个所述业务板卡上的第二监控电路,以监测各个所述业务板卡;
所述第二监控电路,用以监测和控制各个所述业务板卡并上报至所述第一监控电路。
在一个具体实施例中,所述监控管理模块采用I2C总线和CAN总线连接所述主机柜中的硬件设备,通过CAN总线连接各业务板卡;
所述第一监控电路通过两路CAN总线进行检测和控制,其中一路CAN总线连接所述监控管理模块,另一路CAN总线电性连接各个所述业务板卡上的第二监控电路。
在一个具体实施例中,所述主机柜包括主机、AC-DC模块、UPS组件和水冷设备;
所述监控管理模块采用I2C总线连接所述AC-DC模块,采用CAN总线连接所述UPS组件和所述水冷设备;
所述监控管理模块汇总所述主机柜和所述测试机头的状态信息,通过局域网上传到所述主机。
在一个具体实施例中,还包括第一温度传感单元和第二温度传感单元,所述主机柜还包括设置有风机的风扇模块;
所述第一温度传感单元配置在所述主机柜内,连接所述监控管理模块,用于检测所述主机柜内的温度,并将检测结果传递至所述监控管理模块;
所述第一温度传感单元还用于监测所述风机转轴的温度,以使所述监控管理模块控制所述风扇模块的运行;
所述第二温度传感单元配置在所述测试机头内,连接所述第一监控电路,用于检测所述测试机头内的温度,并传递至所述第一监控电路。
在一个具体实施例中,所述健康检测管理系统具体包括:
通过预设的系统功能函数接口获取所述主机的CPU利用率、内存占用率、进程占用率、硬盘健康状态信息、网络健康状态、软件运行记录和其他外设接口状态信息,以实现对所述主机的健康状态监控;和/或
通过汇总各个所述业务板卡的电压电流信息、温度信息、板卡内部资源使用情况、继电器工作状态信息、FPGA状态信息和其他外设电路工作状态信息,以实现对各个所述业务板卡的健康状态监控;和/或
通过控制所述AC-DC模块上电、监控电压和电流、设置待机模式、记录异常状态、监控模块内部温度信息、监测所述AC-DC模块上电及下电过程,以实现对所述AC-DC模块的健康状态监控;和/或
通过控制所述UPS组件的运行、监控UPS电压和电流、设置主备电切换、充电状态监测与控制、记录异常状态、监控模块内部温度,以实现对所述UPS组件的健康状态监控;和/或
通过控制所述水冷设备的运行、控制调节所述水冷设备功率、监测冷却水温度、监控压缩机状态、记录异常状态,以实现对所述水冷设备的健康状态监控。
在一个具体实施例中,所述健康检测管理系统还包括通过温度检测实现所述风机的早期故障预警,实现过程具体包括:
在待测风机运行初期,长时间运行所述待测风机;
以第一预设频率连续监测所述待测风机的转轴温度以及第一预设位置的第一温度,并计算同一时刻所述转轴温度和所述第一温度之间的第一温差,所述第一预设位置为预设在所述主机柜内、靠近所述风机的位置;
选取第一预设时间段内的转轴温度、第一温度和第一温差,进行加权评估,得到转轴加权温度和第一加权温差;
若存在某一时刻的转轴温度与第一温差的比值满足预设温度条件,则所述待测风机存在早期隐患,进行故障预警,提示更换;
所述预设温度条件具体为:
Figure BDA0003392301850000041
其中,T1表示该时刻的转轴温度,ΔT表示该时刻的第一温差,
Figure BDA0003392301850000042
表示转轴加权温度,
Figure BDA0003392301850000043
表示第一加权温差,aT表示温度近似比。
在一个具体实施例中,所述健康检测管理系统还包括通过电路检测实现所述风机的早期故障预警,实现过程具体包括:
在待测风机运行初期,长时间运行所述待测风机;
以第二预设频率连续监测所述待测风机的第一电压和第一电流;
选取第二预设时间段内的第一电压和第一电流,分别进行加权评估,得到第一加权电压和第一加权电流;
若存在某一时刻的第一电压与第一加权电压满足预设电压条件,则所述待测风机存在早期隐患,进行故障预警,提示更换;
若存在某一时刻的第一电流与第一加权电流满足预设电流条件,则所述待测风机存在早期隐患,进行故障预警,提示更换;
所述预设电压条件具体为:
Figure BDA0003392301850000044
其中,V表示该时刻的第一电压,
Figure BDA0003392301850000045
表示第一加权电压,aV表示电压近似比;
所述预设电流条件具体为:
Figure BDA0003392301850000046
其中,I表示该时刻的第一电流,
Figure BDA0003392301850000047
表示第一加权电流,aI表示电流近似比。
在一个具体实施例中,所述健康检测管理系统还包括通过转速检测实现所述风机的早期故障预警,实现过程具体包括:获取待测风机的设定转速;若存在某一时刻的实际转速与所述设定转速满足预设转速条件,则所述待测风机存在早期隐患;
和/或,所述健康检测管理系统还包括通过运行时长检测实现所述风机的早期故障预警,实现过程具体包括:对待测风机的运行时长进行统计,若所述待测风机累计的运行时长超过规格书规定的70%时,则进行故障预警,提示更换。
在一个具体实施例中,所述温度近似比的取值范围在0.2-0.4,所述电压近似比的取值范围在0.2-0.4,所述电流近似比的取值范围在0.2-0.4;
所述第一预设频率和所述第二预设频率相同。
在一个具体实施例中,所述健康检测管理系统还包括:
汇总各类故障的模式、影响及危害性分析,梳理出ATE设备的各个故障模式及应对措施,并对各个故障模式分配故障代码;
所述监控管理模块获取所述主机柜和所述测试机头的状态信息,若所述状态信息中包含故障信息,则根据所述故障信息解析出对应的故障代码,识别出相应的故障模式,并采取相应的应对措施进行处理,同时上报所述主机。
在一个具体实施例中,所述第二监控电路实时监控对应业务板卡上的FPGA;
若存在FPGA加载失败,则将该FPGA作为异常FPGA,所述第二监控电路上报包含本地时间的加载失败信息至所述监控管理模块,并存储所述失败加载信息;
所述监控管理模块获取所述失败加载信息,通过以下手段进行修复:
控制相应业务板卡中的第二监控电路对异常FPGA进行重新加载;
或,控制相应业务板卡中的第二监控电路,将异常FPGA的启动模式更改为预设的MCU配置模式,所述第二监控电路的MCU读取预设MCU外挂Flash中的FPGA配置文件,将所述FPGA配置文件写入该异常FPGA,并启动该异常FPGA;
或,所述主机下发FPGA配置文件给相应的第二监控电路的MCU,该MCU将所述FPGA配置文件写入该异常FPGA,并启动该异常FPGA。
一种ATE设备的健康监测管理系统的控制方法,适用于上述所述的健康监测管理系统,所述控制方法具体包括:
主机柜中配置有监控管理模块,通过所述监控管理模块对所述主机柜中的硬件设备进行健康状态的监测和控制;
主控板上配置有所述第一监控电路,通过所述第一监控电路对所述主控板进行健康状态的监测和控制,以及对测试机头内部硬件和各业务板卡进行监测和控制,并将所述主控板和所述测试机头的状态信息上报至所述监控管理模块;
每个业务板卡上都配置有第二监控电路,通过所述第二监控电路监测业务板卡内部器件的工作状态,并将各个业务板卡的状态信息上报至所述第一监控电路;
所述监控管理模块根据所述第一监控电路和所述第二监控电路上报的状态信息,对所述测试机头进行监测和控制。
有益效果:
本发明提供了一种ATE设备的健康监测管理系统及其控制方法,适用于高端芯片的ATE设备,健康监测管理系统通过CAN总线对ATE设备内部各板卡及模块进行状态管理和控制。系统集成了主机健康状态监控、板卡健康状态监控、AC-DC模块状态监控、UPS组件状态监控、水冷设备状态监控、早期故障预警、故障识别定位隔离、故障修复、板卡上下电信息记录、校准数据备份恢复和维护接口等功能,能够系统性的对ATE设备进行监控管理,依靠监控管理模块、第一监控电路和第二监控电路,能够有效降低设备管理的复杂度,高效监测和控制ATE设备内部板卡及模块的健康状态,保证ATE设备整体的稳定性和可靠性。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明的ATE设备结构示意图;
图2是本发明实施例健康监测管理系统结构示意图;
图3是本发明实施例监控管理模块的结构示意图;
图4是本发明实施例第一监控电路的结构示意图;
图5是本发明实施例第二监控电路的结构示意图;
图6是本发明实施例健康监测管理系统的控制方法流程示意图。
附图标记:1-监控管理模块;2-第一监控电路;3-第二监控电路;4-第一温度传感单元;5-第二温度传感单元。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中的ATE设备包括主机柜和测试机头,适用于高端芯片的测试。其中,主机柜中包括主机、AC-DC电源、UPS组件、水冷设备等硬件设备,测试机头包括主控板、业务板卡等具体的测试装置。需要说明的是,测试机头中通常包括多个业务板卡,每个业务板卡中都配置有FPGA。ATE设备的组成结构图如说明书附图1所示。
需要说明的是,本发明中的“监控”,具有监测和控制两层含义。
实施例1
本实施例提出了一种ATE设备的健康监测管理系统,通过CAN总线对ATE设备内部各板卡及模块进行状态管理和控制,集成了早期故障预警、故障定位隔离、故障修复、校准数据备份恢复等关键功能,实现有效监控ATE设备的健康状态。健康监测管理系统如说明书附图2所示,具体方案如下:
一种ATE设备的健康监测管理系统,适用于包括主机柜和测试机头的ATE设备。其中,主机柜包括主机、AC-DC模块、UPS组件和水冷设备,测试机头包括主控板和多个业务板卡。
健康监测管理系统包括监控管理模块1、第一监控电路2和第二监控电路3,主机柜中配置有监控管理模块1,主控板上配置有第一监控电路2,每个业务板卡上都配置有第二监控电路3。
监控管理模块1,电性连接主机柜中的多个硬件设备以及各个业务板卡,以对主机柜和各个业务板卡进行监测和控制。
第一监控电路2,负责监测和控制主控板,且存在一路总线电性连接监控管理模块1,以报告主控板和各业务板卡的状态,存在另一路总线电性连接各个业务板卡上的第二监控电路3,以监测和控制各个业务板卡。
第二监控电路3,电性连接第一监控电路2,用以监测和控制各个业务板卡并上报至第一监控电路2。
健康监测管理系统在ATE设备中的应用模式如说明书附图2所示。相较于说明书附图1,在主机柜中增加监控管理模块1和温度传感单元,测试机头中主控板和各业务板卡中分别增加监控电路,在测试机头内部增加温度传感单元。主机柜中的温度传感单元作为第一温度传感单元4,测试机头内的温度传感单元为第二温度传感单元5,主控板中的监控电路为第一监控电路2,业务板卡中的监控电路为第二监控电路3。
在本实施例中,监控管理主要通过CAN总线进行控制。CAN是控制器局域网络(Controller Area Network),是ISO国际标准化的串行通信协议,现已成为国际上应用最广泛的现场总线之一。CAN总线是一种有效支持分布式控制或实时控制的串行通信网络,它的出现为分布式控制系统实现各节点之间实时、可靠的数据通信提供了强有力的技术支持。CAN总线具有连线简单、抗干扰能力强、支持多主模式的特点。CAN总线上任意节点可在任意时刻主动地向网络上其它节点发送信息而不分主次,因此可在各节点之间实现自由通信。其上的每个节点均可作为主机,外挂节点数可达上百个,可满足ATE设备多业务板卡的控制多元化、系统分散化的需求,实现ATE设备高度的系统可靠性和灵活性。
具体地,监控管理模块1采用I2C总线和CAN总线连接主机柜中的硬件设备,通过CAN总线连接各业务板卡;第一监控电路2通过两路CAN总线进行检测和控制,其中一路CAN总线连接监控管理模块1,另一路CAN总线电性连接各个业务板卡;第二监控电路3通过CAN总线连接第一监控电路2。
在本实施例中,监控管理模块1采用AC-DC模块的辅助电源进行供电,主要功能如下:采用I2C总线对AC-DC模块进行健康状态的监测和控制;采集主机柜内部温度传感器信息;对主机柜内部的风扇模块进行管理,对风机转速进行控制和反馈监测,同时利用温度传感单元监测风机转轴处温度,以提前发现风扇早期异常;通过CAN总线对水冷设备进行状态监控;通过CAN总线对UPS组件进行状态监控;通过CAN总线对测试机头进行状态监控;汇总主机柜和测试机头状态信息,通过LAN(局域网)传送到主机。
第一监控电路2主要功能如下:通过CAN总线对各业务板卡进行状态监测和控制;监控主控板内部电源上下电控制监测和记录;监测主控板内部器件工作状态;采集测试机头内部传感器信息;通过CAN总线上报测试机头状态信息。
第二监控电路3主要功能如下:监控业务板卡内部电源上下电控制监测和记录;监测业务板卡内部器件工作状态;通过CAN总线上报业务板卡状态信息。
此外,健康监测管理系统还包括第一温度传感单元4和第二温度传感单元5,主机柜还包括设置有风机的风扇模块;第一温度传感单元4配置在主机柜内,连接监控管理模块1,用于检测主机柜内的温度,并传递至监控管理模块1;第一温度传感单元4还用于监测风机转轴的温度,以使监控管理模块1控制风扇模块的运行;第二温度传感单元5配置在测试机头内,连接第一监控电路2,用于检测测试机头内的温度,并传递至第一监控电路2。
监控管理模块1的硬件框图如说明书附图3所示。在本实施例中,监控管理模块1中配置有主控芯片,主控芯片可选用MCU。MCU选型包括常用的型号,例如ST公司的STM32F系列、NXP公司的LPC21XX系列和TI公司的TM4C123X系列。在实际应用中,需要用到MCU的功能为PWM、多通道ADC、RTC、CAN、I2C和网络MAC控制器功能。
具体地,监控管理模块1与其他硬件设备的连接关系如说明书附图3所示。第一温度传感单元4通过线缆连接到调理电路进行信号调理后进入ADC信号采集,获取传感器温度数据。
在监控管理模块1中,MCU通过IO口输出风扇电源使能信号控制风扇模块中的风扇电源开关,使能风扇;通过PWM信号控制风扇转速,同时监控转速反馈信号获知风扇实际转速;安装在风扇转轴上的温度传感器信号通过调理电路后经ADC采样后获知转轴温度。
在监控管理模块1中,MCU通过IO口获知外部开关状态,并执行相应动作,例如开关、关机和急停等操作,同时通过IO输出相应状态,控制整机面板进行指示灯状态显示。时钟电路为MCU提供工作时钟。RTC功能模块用于为MCU提供可靠的系统时间,包括时分秒和年月日等,为上下电等信息状态记录提供时钟基准。
在监控管理模块1中,MCU通过内部CAN控制器连接外部接口芯片Interface形成CAN总线,对外控制UPS组件、水冷设备和测试机头,获取相关状态并进行监测管理。
在监控管理模块1中,MCU通过I2C控制器,1路控制AC-DC模块进行电源管理,另1路连接内部铁电存储器以存储关键数据(主要为开关机、异常断电、工作状态等监控和诊断数据)。
在监控管理模块1中,MCU通过MAC控制器连接外部PHY芯片后连接RJ45连接器,再通过网线连接主机,上报相关监控信息。MCU对外连接RS232接口,作为预留维护接口,输出状态监控信息。
第一监控电路2的硬件框图如说明书附图4所示。第一监控电路2与监控管理模块1相同,都配置了主控芯片。优选地,第一监控电路2的主控电路选用MCU。MCU选型包括常用的型号,例如ST公司的STM32F系列、NXP公司的LPC21XX系列和TI公司的TM4C123X系列。
其中,第一监控电路2对应的MCU,在时钟电路、电源电路、温度传感单元和RTC功能模块的选择配置上与监控管理模块1相同。
在第一监控电路2中,MCU通过两路CAN总线进行状态获取和监测管理。其中1路连接监控管理模块1,上报各业务板卡及主控板状态,另1路连接各业务板卡,控制和监控各业务板卡。
在第一监控电路2中,MCU通过IO口控制各业务板卡和主控板其他功能电路上电。MCU通过串口UART获取主控板其他功能电路相关信息。MCU通过ADC对主控板内部各路电源电压电流进行采集,监控电路电源状态。
在第一监控电路2中,MCU通过I2C控制器连接内部铁电存储器,存储关键数据(主要为上下电电压电流、异常断电、工作状态等监控和诊断数据);同时,主控板关键芯片附近会设置有相关的温度传感器,用于检测相关芯片的温度,MCU通过I2C总线连接主控板关键芯片侧I2C温度传感器,进行温度监测。
第二监控电路3的硬件框图如说明书附图5所示。第二监控电路3与监控管理模块1相同,都配置了主控芯片。优选地,第二监控电路3的主控电路选用MCU。MCU选型包括常用的型号,例如ST公司的STM32F系列、NXP公司的LPC21XX系列和TI公司的TM4C123X系列。
其中,第二监控电路3对应的MCU,在时钟电路、电源电路、温度传感单元和RTC功能模块的选择配置上与监控管理模块1相同。
在第二监控电路3中,MCU通过CAN总线连接第一监控电路2,上报各业务板卡状态。MCU通过IO口控制各业务板卡其他功能电路上电,检测继电器闭合状态。MCU通过IO口监测FPGA固件程序加载,同时具有重加载和通过SPI总线加载FPGA功能。
在第二监控电路3中,MCU通过串口UART获取业务板卡其他功能电路相关信息。MCU通过ADC对主控板内部各路电源电压电流进行采集,监控电路电源状态。MCU通过I2C控制器连接内部铁电,存储关键数据(主要为业务板卡校准数据、上下电电压电流、异常断电、工作状态等监控和诊断数据),另外额外增加备份铁电,存储业务板卡校准数据,进行备份;同时I2C总线连接主控板关键芯片侧I2C温度传感器,进行温度监测。
在本实施例中,健康监测管理系统集成了主机健康状态监控、板卡健康状态监控、AC-DC模块状态监控、UPS组件状态监控、水冷设备状态监控、早期故障预警、故障识别定位隔离、故障修复、板卡上下电信息记录、校准数据备份恢复和维护接口等功能,能够系统性的对ATE设备进行监控管理,依靠监控管理模块1、第一监控电路2和第二监控电路3,能够降低设备管理的复杂度。
关于主机健康状态监控,通过预设的系统功能函数接口获取主机的CPU利用率、内存占用率、进程占用率、硬盘健康状态信息、网络健康状态、软件运行记录和其他外设接口状态信息,以实现对主机健康状态的监测和控制。其中,硬盘健康状态信息包括硬盘占用率、硬盘读写速率、硬盘擦写次数和寿命,网络健康状态包括速率和丢包率,软件运行记录包括打开、关闭和异常关闭记录。
关于各业务板卡健康状态监控,通过汇总各个业务板卡的电压电流信息、温度信息、板卡内部资源使用情况、继电器工作状态信息、FPGA状态信息和其他外设电路工作状态信息,以实现对各个业务板卡健康状态的监测和控制。
关于AC-DC模块状态监控,通过控制AC-DC模块上电、监控电压和电流、设置待机模式、记录异常状态、监控模块内部温度信息、监测AC-DC模块上电及下电过程,以实现对AC-DC模块健康状态的监测和控制。
关于UPS组件状态监控,通过控制UPS组件的运行、监控UPS电压和电流、设置主备电切换、充电状态监测与控制、记录异常状态、监控模块内部温度,以实现对UPS组件健康状态的监测和控制。
关于水冷设备壮监控,通过控制水冷设备的运行、控制调节水冷设备功率、监测冷却水温度、监控压缩机状态、记录异常状态,以实现对水冷设备健康状态的监测和控制。
关于早期故障预警,本实施例以风机早期故障预警为例。风机一般可靠性指标相对较低,且风机随着长时间运转转轴温度会逐渐升高,最终导致风机损坏不转。提前发现风机潜在的隐患,并提前更换,将减少风机突然损坏而给用户造成的经济损失,提升用户满意度,提高整个ATE设备的可靠性。
在本实施例中,风机早期故障预警具体方法包括通过温度检测、电路检测、转速检测和运行时长检测。
通过温度检测实现风机的早期故障预警,实现过程具体包括:
在待测风机运行初期,长时间运行待测风机;
以第一预设频率连续监测待测风机的转轴温度以及第一预设位置的第一温度,并计算同一时刻转轴温度和第一温度之间的第一温差,第一预设位置为与设在主机柜内、靠近风机的位置;第一预设位置在实际应用中主要为机柜内靠近风机的位置。第一预设频率可自行设置。
选取第一预设时间段内的转轴温度、第一温度和第一温差,进行加权评估,得到转轴加权温度和第一加权温差;
若存在某一时刻的转轴温度与第一温差的比值满足预设温度条件,则待测风机存在早期隐患,进行故障预警,提示更换;
预设温度条件具体为:
Figure BDA0003392301850000141
其中,TI表示该时刻的转轴温度,ΔT表示该时刻的第一温差,
Figure BDA0003392301850000142
表示转轴加权温度,
Figure BDA0003392301850000143
表示第一加权温差,aT表示温度近似比。优选地,aT的取值范围在0.2-0.4,进一步优选地,aT为0.3。
示例性的,实时监测风机转轴温度T1、机柜靠近风机点温度传感器温度T2和两者温度差值ΔT,30秒记录一次。一般ATE设备工作时在空调环境下,外界环境相对固定,在设备运行初期,长时间运行设备,选取连续6小时的T1、T2和ΔT数据的数据进行加权评估,得到
Figure BDA0003392301850000144
Figure BDA0003392301850000145
实际运行中实时监测T1、T2和ΔT,若T1/ΔT与
Figure BDA0003392301850000146
相差大于30%,可判断风机存在早期隐患,进行故障预警,提示更换。
通过电路检测实现风机的早期故障预警,实现过程具体包括:
在待测风机运行初期,长时间运行待测风机;
以第二预设频率连续监测待测风机的第一电压和第一电流;第二预设频率可自行设置。优选地,第一预设频率和第二预设频率相同。
选取第二预设时间段内的第一电压和第一电流,分别进行加权评估,得到第一加权电压和第一加权电流;
若存在某一时刻的第一电压与第一加权电压满足预设电压条件,则待测风机存在早期隐患,进行故障预警,提示更换;
若存在某一时刻的第一电流与第一加权电流满足预设电流条件,则待测风机存在早期隐患,进行故障预警,提示更换;
预设电压条件具体为:
Figure BDA0003392301850000151
其中,V表示该时刻的第一电压,
Figure BDA0003392301850000152
表示第一加权电压,aV表示电压近似比;优选地,电压近似比的取值范围在0.2-0.4,进一步优选地,aV为0.3。
预设电流条件具体为:
Figure BDA0003392301850000153
其中,I表示该时刻的第一电流,
Figure BDA0003392301850000154
表示第一加权电流,aI表示电流近似比。优选地,电流近似比的取值范围在0.2-0.4,进一步优选地,aI为0.3。
示例性的,监测风机工作电压V和电流I,30秒记录一次。在设备运行初期,长时间运行设备,选取连续6小时的V和Ι数据的数据进行加权评估,得到
Figure BDA0003392301850000155
Figure BDA0003392301850000156
实际运行中实时监测电压V和电流Ι,若I与
Figure BDA0003392301850000157
相差大于30%,可判断风机存在早期隐患,进行故障预警,提示更换。
通过转速检测实现风机的早期故障预警,实现过程具体包括:
获取待测风机的设定转速;若存在某一时刻的实际转速与设定转速满足预设转速条件,则待测风机存在早期隐患。示例性的,实际运行中设定风机转速与实际转速相差大于30%,可判断风机存在早期隐患,进行故障预警,提示更换。
通过运行时长检测实现风机的早期故障预警,实现过程具体包括:
对待测风机的运行时长进行统计,若待测风机累计运行时间超过风机规格书规定的70%时,则进行故障预警,提示更换。
汇总各类故障的模式、影响及危害性分析,梳理出ATE设备的各个故障模式及应对措施,并对各个故障模式分配故障代码;
监控管理模块1获取主机柜和测试机头的状态信息,若状态信息中包含故障信息,则根据故障信息解析出对应的故障代码,识别出相应的故障模式,并采取相应的应对措施进行处理,同时上报主机。具体的,在早期根据故障模式、影响及危害性分析(FMECA)梳理出ATE设备的各种故障模式及应对措施,同时分配故障代码。监控管理模块1监控各模块组件及板卡上报的状态信息,若状态信息中包含故障信息,解析出相应的故障模式代码,识别出具体故障模式,并根据应对措施进行隔离,同时上报主机相关信息。
关于故障修复,在本实施例主要指FPGA加载失败修复。在实际过程中由于异常开关设备及其他原因,会遇到FPGA无法加载启动的情况。第二监控电路3能够实时监控对应业务板卡上的FPGA。若存在FPGA加载失败,则将该FPGA作为异常FPGA第二监控电路3上报包含本地RTC时间的加载失败信息至监控管理模块1,同时在本地铁电中存储加载失败信息。监控管理模块1汇总FPGA加载失败信息后,根据前期策略,将进行修复。
监控管理模块1主要通过以下手段进行修复:
1.控制相应业务板卡中的第二监控电路3对异常FPGA进行重新加载。
2.控制相应业务板卡中的第二监控电路3对异常FPGA的启动模式更改为预设的MCU配置模式,第二监控电路3的MCU读取MCU外挂Flash中的FPGA配置文件,将所述FPGA配置文件写入该异常FPGA,并启动该异常FPGA。
3.主机下发FPGA配置文件给相应的第二监控电路3的MCU,该MCU将FPGA配置文件写入该异常FPGA,并启动该异常FPGA。
关于板卡上下电信息记录,主要记录AC-DC模块、主控板和各业务板卡上下电信息。上下电信息包括内部各电压使能信号和各电压反馈PowerGood信号,每条记录信息均包含RTC时间,RTC时基精确到1毫秒。上下电信息存于相应板卡管理电路中的铁电存储器中,其中AC-DC模块存于监控管理模块1的铁电中。优选地,上下电信息记录只记录最新一次的上电和下电记录。
关于校准数据备份恢复,在业务板卡中为保证校准数据可靠,校准数据除了进行常规的CRC校验外,对校准数据进行冗余备份存于备用铁电存储器中。若读取校准数据过程中CRC校验错误或无法读取数据,则启动备用铁电存储器中校准数据应用于业务板卡中。针对CRC校准错误,读取备用铁电校准数据,同步写入到正常铁电存储器中。
关于维护接口,通过RS232接口对外输出,实时输出相应状态信息,主要用于开机阶段的故障辅助诊断。
本实施例提出了一种ATE设备的健康监测管理系统,集成了主机健康状态监控、板卡健康状态监控、AC-DC模块状态监控、UPS组件状态监控、水冷设备状态监控、早期故障预警、故障识别定位隔离、故障修复、板卡上下电信息记录、校准数据备份恢复和维护接口等功能,能够系统性的对ATE设备进行监控管理,依靠监控管理模块、第一监控电路和第二监控电路,能够降低设备管理的复杂度。
实施例2
本实施例提供了一种ATE设备的健康监测管理系统的控制方法,应用于实施例1的健康监测管理系统,控制方法流程图如说明书附图6所示,具体方案如下:
一种ATE设备的健康监测管理系统的控制方法,适用于实施例1的健康监测管理系统,控制方法具体包括:
101、主机柜中配置有监控管理模块,通过监控管理模块对主机柜中的硬件设备进行健康状态的监测和控制;
102、主控板上配置有第一监控电路,通过第一监控电路对主控板进行健康状态的监测和控制,以及对测试机头内部硬件和各业务板卡进行监测和控制,并将主控板和测试机头的状态信息上报至监控管理模块;
103、每个业务板卡上都配置有第二监控电路,通过第二监控电路监测业务板卡内部器件的工作状态,并将各个业务板卡的状态信息上报至第一监控电路;
104、监控管理模块根据第一监控电路和第二监控电路上报的状态信息,对测试机头进行监测和控制。
具体地,监控管理模块采用I2C总线对AC-DC模块进行健康状态的监测和控制;采集主机柜内部温度传感器信息;对主机柜内部的风扇模块进行管理,对风机转速进行控制和反馈监测,同时利用温度传感单元监测风机转轴处温度,以提前发现风扇早期异常;通过CAN总线对水冷设备进行状态监控;通过CAN总线对UPS组件进行状态监控;通过CAN总线对测试机头进行状态监控;汇总主机柜和测试机头状态信息,通过LAN(局域网)传送到主机。
第一监控电路通过CAN总线对各业务板卡进行状态监测和控制;监控主控板内部电源上下电控制监测和记录;监测主控板内部器件工作状态;采集测试机头内部传感器信息;通过CAN总线上报测试机头状态信息。
第二监控电路监控业务板卡内部电源上下电控制监测和记录;监测业务板卡内部器件工作状态;通过CAN总线上报业务板卡状态信息。
本实施例提供了一种ATE设备的健康监测管理系统的控制方法,应用于实施例1的健康监测管理系统,将实施例1的健康监测管理系统方法化,使其更具实用性。
本发明提供了一种ATE设备的健康监测管理系统及其控制方法,适用于高端芯片的ATE设备,健康监测管理系统通过CAN总线对ATE设备内部各板卡及模块进行状态管理和控制。系统集成了主机健康状态监控、板卡健康状态监控、AC-DC模块状态监控、UPS组件状态监控、水冷设备状态监控、早期故障预警、故障识别定位隔离、故障修复、板卡上下电信息记录、校准数据备份恢复和维护接口等功能,能够系统性的对ATE设备进行监控管理,依靠监控管理模块、第一监控电路和第二监控电路,能够降低设备管理的复杂度,有效监测和控制ATE设备内部板卡及模块的健康状态,保证ATE设备整体的稳定性和可靠性。
本领域普通技术人员应该明白,上述的本发明的各模块可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
以上公开的仅为本发明的几个具体实施场景,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (12)

1.一种ATE设备的健康监测管理系统,其特征在于,适用于包括主机柜和测试机头的ATE设备,所述测试机头包括主控板和多个业务板卡;
所述健康监测管理系统包括监控管理模块、第一监控电路和第二监控电路,所述主机柜中配置有所述监控管理模块,所述主控板上配置有所述第一监控电路,每个所述业务板卡上都配置有所述第二监控电路;
所述监控管理模块,电性连接所述主机柜中的多个硬件设备以及各个业务板卡,以对所述主机柜和各个所述业务板卡进行监测和控制;
所述第一监控电路,负责监测和控制所述主控板,且存在一路总线电性连接所述监控管理模块,以报告所述主控板和各业务板卡的状态,存在另一路总线电性连接各个所述业务板卡上的第二监控电路,以监测各个所述业务板卡;
所述第二监控电路,用以监测和控制各个所述业务板卡并上报至所述第一监控电路。
2.根据权利要求1所述的健康监测管理系统,其特征在于,所述监控管理模块采用I2C总线和CAN总线连接所述主机柜中的硬件设备,通过CAN总线连接各业务板卡;
所述第一监控电路通过两路CAN总线进行检测和控制,其中一路CAN总线连接所述监控管理模块,另一路CAN总线电性连接各个所述业务板卡上的第二监控电路。
3.根据权利要求1所述的健康监测管理系统,其特征在于,所述主机柜包括主机、AC-DC模块、UPS组件和水冷设备;
所述监控管理模块采用I2C总线连接所述AC-DC模块,采用CAN总线连接所述UPS组件和所述水冷设备;
所述监控管理模块汇总所述主机柜和所述测试机头的状态信息,通过局域网上传到所述主机。
4.根据权利要求3所述的健康监测管理系统,其特征在于,还包括第一温度传感单元和第二温度传感单元,所述主机柜还包括设置有风机的风扇模块;
所述第一温度传感单元配置在所述主机柜内,连接所述监控管理模块,用于检测所述主机柜内的温度,并将检测结果传递至所述监控管理模块;
所述第一温度传感单元还用于监测所述风机转轴的温度,以使所述监控管理模块控制所述风扇模块的运行;
所述第二温度传感单元配置在所述测试机头内,连接所述第一监控电路,用于检测所述测试机头内的温度,并传递至所述第一监控电路。
5.根据权利要求4所述的健康监测管理系统,其特征在于,所述健康检测管理系统具体包括:
通过预设的系统功能函数接口获取所述主机的CPU利用率、内存占用率、进程占用率、硬盘健康状态信息、网络健康状态、软件运行记录和其他外设接口状态信息,以实现对所述主机的健康状态监控;和/或
通过汇总各个所述业务板卡的电压电流信息、温度信息、板卡内部资源使用情况、继电器工作状态信息、FPGA状态信息和其他外设电路工作状态信息,以实现对各个所述业务板卡的健康状态监控;和/或
通过控制所述AC-DC模块上电、监控电压和电流、设置待机模式、记录异常状态、监控模块内部温度信息、监测所述AC-DC模块上电及下电过程,以实现对所述AC-DC模块的健康状态监控;和/或
通过控制所述UPS组件的运行、监控UPS电压和电流、设置主备电切换、充电状态监测与控制、记录异常状态、监控模块内部温度,以实现对所述UPS组件的健康状态监控;和/或
通过控制所述水冷设备的运行、控制调节所述水冷设备功率、监测冷却水温度、监控压缩机状态、记录异常状态,以实现对所述水冷设备的健康状态监控。
6.根据权利要求5所述的健康监测管理系统,其特征在于,所述健康检测管理系统还包括通过温度检测实现所述风机的早期故障预警,实现过程具体包括:
在待测风机运行初期,长时间运行所述待测风机;
以第一预设频率连续监测所述待测风机的转轴温度以及第一预设位置的第一温度,并计算同一时刻所述转轴温度和所述第一温度之间的第一温差,所述第一预设位置为预设在所述主机柜内、靠近所述风机的位置;
选取第一预设时间段内的转轴温度、第一温度和第一温差,进行加权评估,得到转轴加权温度和第一加权温差;
若存在某一时刻的转轴温度与第一温差的比值满足预设温度条件,则所述待测风机存在早期隐患,进行故障预警,提示更换;
所述预设温度条件具体为:
Figure FDA0003392301840000031
其中,T1表示该时刻的转轴温度,ΔT表示该时刻的第一温差,
Figure FDA0003392301840000032
表示转轴加权温度,
Figure FDA0003392301840000033
表示第一加权温差,aT表示温度近似比。
7.根据权利要求6所述的健康监测管理系统,其特征在于,所述健康检测管理系统还包括通过电路检测实现所述风机的早期故障预警,实现过程具体包括:
在待测风机运行初期,长时间运行所述待测风机;
以第二预设频率连续监测所述待测风机的第一电压和第一电流;
选取第二预设时间段内的第一电压和第一电流,分别进行加权评估,得到第一加权电压和第一加权电流;
若存在某一时刻的第一电压与第一加权电压满足预设电压条件,则所述待测风机存在早期隐患,进行故障预警,提示更换;
若存在某一时刻的第一电流与第一加权电流满足预设电流条件,则所述待测风机存在早期隐患,进行故障预警,提示更换;
所述预设电压条件具体为:
Figure FDA0003392301840000041
其中,V表示该时刻的第一电压,
Figure FDA0003392301840000042
表示第一加权电压,aV表示电压近似比;
所述预设电流条件具体为:
Figure FDA0003392301840000043
其中,I表示该时刻的第一电流,
Figure FDA0003392301840000044
表示第一加权电流,aI表示电流近似比。
8.根据权利要求6或7所述的健康监测管理系统,其特征在于,所述健康检测管理系统还包括通过转速检测实现所述风机的早期故障预警,实现过程具体包括:获取待测风机的设定转速;若存在某一时刻的实际转速与所述设定转速满足预设转速条件,则所述待测风机存在早期隐患;
和/或,所述健康检测管理系统还包括通过运行时长检测实现所述风机的早期故障预警,实现过程具体包括:对待测风机的运行时长进行统计,若所述待测风机累计的运行时长超过规格书规定的70%时,则进行故障预警,提示更换。
9.根据权利要求7所述的健康监测管理系统,其特征在于,所述温度近似比的取值范围在0.2-0.4,所述电压近似比的取值范围在0.2-0.4,所述电流近似比的取值范围在0.2-0.4;
所述第一预设频率和所述第二预设频率相同。
10.根据权利要求5所述的健康监测管理系统,其特征在于,所述健康检测管理系统还包括:
汇总各类故障的模式、影响及危害性分析,梳理出ATE设备的各个故障模式及应对措施,并对各个故障模式分配故障代码;
所述监控管理模块获取所述主机柜和所述测试机头的状态信息,若所述状态信息中包含故障信息,则根据所述故障信息解析出对应的故障代码,识别出相应的故障模式,并采取相应的应对措施进行处理,同时上报所述主机。
11.根据权利要求5所述的健康监测管理系统,其特征在于,所述第二监控电路实时监控对应业务板卡上的FPGA;
若存在FPGA加载失败,则将该FPGA作为异常FPGA,所述第二监控电路上报包含本地时间的加载失败信息至所述监控管理模块,并存储所述失败加载信息;
所述监控管理模块获取所述失败加载信息,通过以下手段进行修复:
控制相应业务板卡中的第二监控电路对异常FPGA进行重新加载;
或,控制相应业务板卡中的第二监控电路,将异常FPGA的启动模式更改为预设的MCU配置模式,第二监控电路的MCU读取预设MCU外挂Flash中的FPGA配置文件,将所述FPGA配置文件写入该异常FPGA,并启动该异常FPGA;
或,所述主机下发FPGA配置文件给相应的第二监控电路的MCU,该MCU将所述FPGA配置文件写入该异常FPGA,并启动该异常FPGA。
12.一种ATE设备的健康监测管理系统的控制方法,其特征在于,适用于权利要求1所述的健康监测管理系统,所述控制方法具体包括:
主机柜中配置有监控管理模块,通过所述监控管理模块对所述主机柜中的硬件设备进行健康状态的监测和控制;
主控板上配置有所述第一监控电路,通过所述第一监控电路对所述主控板进行健康状态的监测和控制,以及对测试机头内部硬件和各业务板卡进行监测和控制,并将所述主控板和所述测试机头的状态信息上报至所述监控管理模块;
每个业务板卡上都配置有第二监控电路,通过所述第二监控电路监测业务板卡内部器件的工作状态,并将各个业务板卡的状态信息上报至所述第一监控电路;
所述监控管理模块根据所述第一监控电路和所述第二监控电路上报的状态信息,对所述测试机头进行监测和控制。
CN202111471139.0A 2021-12-03 2021-12-03 一种ate设备的健康监测管理系统及其控制方法 Pending CN114355266A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111471139.0A CN114355266A (zh) 2021-12-03 2021-12-03 一种ate设备的健康监测管理系统及其控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111471139.0A CN114355266A (zh) 2021-12-03 2021-12-03 一种ate设备的健康监测管理系统及其控制方法

Publications (1)

Publication Number Publication Date
CN114355266A true CN114355266A (zh) 2022-04-15

Family

ID=81096552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111471139.0A Pending CN114355266A (zh) 2021-12-03 2021-12-03 一种ate设备的健康监测管理系统及其控制方法

Country Status (1)

Country Link
CN (1) CN114355266A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115639860A (zh) * 2022-09-07 2023-01-24 杭州国磊半导体设备有限公司 一种ate设备智能温度控制装置及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115639860A (zh) * 2022-09-07 2023-01-24 杭州国磊半导体设备有限公司 一种ate设备智能温度控制装置及方法

Similar Documents

Publication Publication Date Title
US5747889A (en) Redundant power supply and storage system
US7567060B1 (en) System and method for advanced power management
JP2003309934A (ja) 直流バックアップ電源装置とその診断方法
CN103568863A (zh) 电动汽车电池管理系统的实时监测诊断系统及诊断方法
US11846680B2 (en) Battery resistance diagnosis device and method
US20200044461A1 (en) Battery management system
CN114355266A (zh) 一种ate设备的健康监测管理系统及其控制方法
US7212954B2 (en) Information processing apparatus, failure monitoring method and failure monitoring computer program
CN112019455B (zh) 一种基于可编程逻辑器件的交换机监控装置及方法
CN211148838U (zh) 一种空调内机测试装置
CN111475352A (zh) 一种jbod接口测试装置及方法
CN109885437A (zh) 基板管理控制器bmc、终端及上电状态诊断组件、方法
CN113419618A (zh) 服务器解码卡下电控制方法、系统、终端及存储介质
CN112213980A (zh) 一种单片机故障诊断板卡及方法
US10678285B2 (en) Systems and methods of monitoring bridging time
CN108388488A (zh) 一种智能平台管理系统及故障处理方法
CN100458723C (zh) 主机板开机交流电源测试的方法
EP0962862B1 (en) Apparatus and method for remote diagnostic of data processing units
CN213241134U (zh) 一种固态硬盘的生产检测设备
US6972571B2 (en) Load board with embedded relay tracker
CN112098920B (zh) 智能电能表剩余电流监测功能的测试装置、方法及系统
CN220305830U (zh) 一种车载数据采集和记录装置
CN117129902A (zh) 一种电源健康自诊断系统及嵌入式平台
CN108983114B (zh) 带故障诊断功能的身份证解码服务器及其故障诊断方法
CN115856480A (zh) 一种电池管理系统老化过程中的监控方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination