CN113779857A - 用于被测老化装置的智能故障诊断中心的方法和系统 - Google Patents

用于被测老化装置的智能故障诊断中心的方法和系统 Download PDF

Info

Publication number
CN113779857A
CN113779857A CN202010517586.4A CN202010517586A CN113779857A CN 113779857 A CN113779857 A CN 113779857A CN 202010517586 A CN202010517586 A CN 202010517586A CN 113779857 A CN113779857 A CN 113779857A
Authority
CN
China
Prior art keywords
burn
failed
dut
test
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010517586.4A
Other languages
English (en)
Inventor
奚云
林玉煌
蒋萌萌
阙文森
梁华山
兰木寿
翁志健
林琅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dell Products LP
Original Assignee
Dell Products LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dell Products LP filed Critical Dell Products LP
Priority to CN202010517586.4A priority Critical patent/CN113779857A/zh
Priority to US17/181,975 priority patent/US11599437B2/en
Publication of CN113779857A publication Critical patent/CN113779857A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R31/00Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
    • G01R31/003Environmental or reliability tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/24Marginal checking or other specified testing methods not covered by G06F11/26, e.g. race tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/04Ageing analysis or optimisation against ageing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Analysis (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

提供了一种用于自动地检测、诊断、运输和维修在老化测试期间发生故障的装置的机制。实施例提供了一种监测进行老化测试的装置并检测装置或装置内部件何时未通过老化测试的系统。然后,实施例可以向老化测试架监测人员提醒所述装置故障。实施例可以通过对与故障装置相关联的日志文件应用基于机器学习的预测模型来同时确定故障的本质。可以将诊断与推荐的维修策略一起提供给维修中心以帮助加快维修过程。另外,所述诊断还可以用于从备件仓库订购备件进行维修。通过这种方式,实施例可以减少用于检测、诊断和维修所述故障装置的时间。

Description

用于被测老化装置的智能故障诊断中心的方法和系统
发明背景
技术领域
本发明涉及信息处理系统。更具体地,本发明的实施例涉及自动地检测、诊断、运输和维修在老化测试期间出现故障的装置。
背景技术
随着信息的价值和用途持续增长,个人和企业寻求处理和存储信息的附加方式。用户可用的一个选项是信息处理系统。信息处理系统通常处理、编译、存储和/或传达用于商业、个人或其他目的的信息或数据,从而允许用户利用这些信息的价值。由于技术和信息处理需要和需求在不同的用户或应用程序之间有所不同,因此信息处理系统也可关于以下方面有所不同:处理什么信息,如何处理信息,处理、存储或传达多少信息,以及可如何快速且高效地处理、存储或传达信息。信息处理系统中的变化允许信息处理系统是通用的或者针对特定用户或特定用途(诸如财务交易处理、航线预订、企业数据存储或全球通信)进行配置。
为了在处理各种信息处理需求方面提供灵活性,某些信息处理系统包括被配置为处理、存储和传达信息的大量硬件和软件部件(例如,存储装置、通信装置、电源、处理器等)。为了验证这些部件单独地正确且相互正常工作并且为了检测这些部件中的早期故障,可以对新组装的信息处理系统进行老化测试程序。典型的老化测试使用预期的操作周期(持续相当于几天的时间周期)来提供信息处理系统的电气测试。另外,可以执行热应力和环境应力筛选。老化测试检测通常由于制造和包装过程的缺陷引起的故障。此类故障可能会影响信息处理系统中的一个或多个部件。
当信息处理系统在老化测试期间出现故障时,系统被维修并重新测试。传统上,诊断老化故障的原因并确定出现故障的解决方案被手动地执行并且可能消耗大量的人力、时间和金钱资源。
发明内容
公开了一种用于改进对未通过老化测试的装置的诊断、提醒和维修的系统、方法和计算机可读介质。
在一个实施例中,提供了一种用于修复被测装置的老化测试故障的方法。所述方法包括监测一个或多个老化测试装置的状态,确定所述一个或多个老化测试装置中的第一类型的被测装置未通过一项或多项老化测试,以及诊断所述第一类型的所述被测装置未通过所述一项或多项老化测试的一个或多个原因。使用所述第一类型的装置的老化测试故障数据的历史记录集合中的概率机器学习系统训练来执行所述诊断。
在上述实施例的一方面,所述第一类型的所述被测装置包括第一组部件,并且未通过所述第一老化测试与所述第一组部件中的一个或多个部件相关联。在上述实施例的另一方面,所述概率机器学习系统包括朴素贝叶斯分类器。在上述实施例的另一方面,所述方法还包括响应于所述诊断而指示重启所述故障被测装置。
在上述实施例的另一方面,所述方法还包括响应于所述诊断而执行以下一项或多项:向老化测试中心提醒所述故障被测装置;从材料处理系统请求一次或多次故障部件更换;以及将关于所述故障被测装置的所述诊断传输到装置维修系统。在另一实施例中,并行地执行所述提醒、请求和传输。在又一实施例中,所述提醒包括将所述故障被测装置的标识传输到老化测试人员。在另一实施例中,所述提醒还包括将指令传输到自动导向车以将所述故障被测装置运输到选定装置维修站。在又一方面,所述方法还包括为所述故障被测装置选择所述装置维修站。在又一方面,所述提醒包括将所述故障被测装置的所述标识传输到与所述老化测试人员相关联的移动装置。在又一方面,请求所述一次或多次故障部件更换包括响应于所述诊断而确定推荐的维修策略,确定与所述推荐的维修策略相关联的推荐的更换部件,以及将所述推荐的更换部件的标识符传输到材料处理系统。在又一方面,所述方法还包括将指令传输到自动导向车以将所述更换部件运输到选定装置维修站,其中所述故障被测装置也被运输到所述选定装置维修站。在又一方面,所述诊断包括使用与所述故障被测装置的老化测试相关联的日志文件作为所述概率机器学习系统的输入来识别所述故障被测装置的一个或多个故障部件,以及响应于所述识别所述一个或多个故障部件而识别用于所述故障被测装置的一种或多种维修策略。在又一方面,所述方法还包括在选定维修站显示所述诊断,其中所述故障被测装置和更换部件被运输到所述选定维修站。
另一个实施例提供了一种系统,所述系统包括:处理器;数据总线,所述数据总线耦合到所述处理器;网络接口,所述网络接口耦合到所述数据总线和网络;以及体现计算机程序代码的非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质耦合到所述数据总线。所述网络接口被配置为经由所述网络与老化测试监测系统、材料处理系统和装置维修系统进行通信。所述老化测试监测系统耦合到一个或多个老化测试装置。所述老化测试装置各自包括一个或多个部件。所述计算机程序代码与多个计算机操作进行交互并且包括指令,所述指令能够由所述处理器执行并且被配置为监测所述一个或多个老化测试装置的状态,确定所述一个或多个被测装置中的第一类型的被测装置未通过一项或多项老化测试,并诊断所述第一类型的所述被测装置未通过所述一项或多项老化测试的一个或多个原因,其中使用所述第一类型的老化测试失败数据的历史集合中的概率机器学习系统训练执行所述诊断。
在上述实施例的另一方面,所述系统还包括机器学习加速器处理器,所述机器学习加速器处理器耦合到所述数据总线,并且被配置为执行针对所述概率机器学习系统配置的指令。在又一方面,所述概率机器学习系统包括朴素贝叶斯分类器。
在上述实施例的另一方面,所述计算机程序指令还包括可由所述处理器执行的指令,所述指令被配置为向老化测试监测系统提醒所述故障被测装置,从所述材料处理系统请求一次或多次故障部件更换,并将关于所述故障被测装置的所述诊断传输到所述装置维修系统。在另一方面,所述指令还被配置为响应于所述诊断而确定推荐的维修策略,确定与所述推荐的维修策略相关联的推荐的更换部件,并将所述推荐的更换部件的标识符传输到所述材料处理系统。在又一方面,所述指令还被配置为使用与所述故障被测装置的所述老化测试相关联的日志文件作为所述概率机器学习系统的输入来识别所述故障被测装置的一个或多个故障部件,并响应于所述识别所述一个或多个故障部件而识别用于所述故障被测装置的一种或多种维修策略。
附图说明
通过参考附图,本领域那些技术人员可更好地理解本发明,并且本发明的许多目标、特征和优点变得显而易见。贯穿几个附图使用相同的附图标记指代相同或类似的元件。
图1示出了在本发明的系统和方法中实施的信息处理系统的部件的一般图示。
图2是示出根据本发明的实施例的用于老化测试的智能诊断系统的简化框图。
图3是示出根据本发明的实施例的通过智能诊断系统执行的一系列步骤的简化流程图。
具体实施方式
公开了一种用于自动地检测、诊断、运输和维修在老化测试期间出现故障的装置的系统、方法和计算机可读介质。实施例提供了一种监测进行老化测试的装置并检测装置或装置中的部件何时未通过老化测试的系统。实施例然后可以向老化测试架(burn-in-rack)监测人员提醒所述装置故障,同时将自动导向车(AGV)发送到故障装置的地点以便运输到维修中心。实施例可以通过对与故障装置相关联的日志文件应用基于机器学习的预测模型来同时确定故障的本质。可以将诊断与推荐的维修策略一起提供给维修中心以帮助加快维修过程。另外,所述诊断可以用于从备件仓库(parts depot)订购备件以进行维修,同时将AGV发送到备件仓库以将更换备件运输到维修中心。通过这种方式,实施例可以减少用于检测、诊断和维修故障装置的时间。
出于本公开的目的,信息处理系统可以包括可操作用于出于商业、科学、控制或其他目的而计算、分类、处理、传输、接收、检索、发起、切换、存储、显示、显现、检测、记录、重现、处理或利用任何形式的信息、情报或数据的任何工具或工具集合。例如,信息处理系统可以是个人计算机、网络存储装置或任何其他合适的装置,并且可以在大小、形状、性能、功能性和价格上有所不同。信息处理系统可以包括随机存取存储器(RAM)、一个或多个处理资源,诸如中央处理单元(CPU)或硬件或软件控制逻辑、ROM和/或其他类型的非易失性存储器。信息处理系统的附加部件可以包括一个或多个磁盘驱动器、用于与外部装置进行通信的一个或多个网络端口以及各种输入和输出(I/O)装置,诸如键盘、鼠标和视频显示器。信息处理系统还可以包括可操作来在各种硬件部件之间传输通信的一条或多条总线。信息处理系统既可以体现本发明的实施例,又可以体现由此类实施例管理的被测装置。
图1是可以用于实施本发明的系统和方法的信息处理系统100的一般图示。信息处理系统100包括处理器(例如,中央处理器单元或“CPU”)102、输入/输出(I/O)装置104(诸如显示器、键盘、鼠标以及相关联的控制器)、硬盘驱动器或磁盘存储装置106以及其他各种子系统108。在各个实施例中,信息处理系统100还包括网络端口110,所述网络端口可操作以连接到网络140,所述网络同样可由老化测试监测系统142、备件存放系统144和装置维修系统146访问。在各个实施例中,信息处理系统100还包括无线通信端口128,所述无线通信端口可操作以经由一种或多种无线联网协议与远程装置进行通信,所述远程装置包括例如自动导向车150。信息处理系统100同样包括系统存储器112,所述系统存储器经由一条或多条总线114与前述装置互连。系统存储器112还包括操作系统(OS)116,并且在各个实施例中还可以包括智能诊断系统模块118。
智能诊断系统模块118执行与在老化测试监测系统142中监测被测装置、诊断未通过老化测试的装置、如诊断所指示的那样从备件存放系统144订购更换备件、向装置维修系统146推荐维修过程以及在一些实施例中控制故障装置和更换备件向与装置维修系统146相关联的装置维修位置的运输。这些操作将在下面更全面地讨论。使用机器学习故障分析模块120结合训练模块122来执行诊断操作。训练模块122使用存储在例如硬盘驱动器/磁盘106中的被测装置(DUT)测试故障训练数据集124来训练机器学习故障分析模块。在一些实施例中,机器学习加速器处理器126经由总线114耦合到CPU 102和存储器112。机器学习加速器被配置为比与CPU 102相关联的处理器更有效地执行机器学习故障分析模块120中的指令,因此提高了智能诊断系统118的在下文更全面描述的诊断功能的性能。在其他实施例中,由CPU 102而不使用机器学习加速器执行机器学习指令。使用机器学习来将装置故障诊断自动化以及响应于所述诊断而自动订购更换备件提高了老化故障和恢复周期的整体效率。
应当明白,一旦信息处理系统100被配置为执行上述智能诊断操作,信息处理系统100就会成为专门被配置为执行智能诊断操作的专用计算装置,而不是通用计算装置。此外,在信息处理系统100上实施智能诊断操作提供了提高效率并降低与老化故障和恢复周期相关联的成本的有用的和具体的结果。
电子产品(诸如信息处理系统)的老化测试是检测产品部件的早期故障由此提高售出部件可靠性的一种过程。“早期失效期”是部件中出现早期故障并且可能是由于制造过程中的问题所致的周期。在该早期生命周期中,部件可能会以高速率出现故障,但是速率会随时间推移而降低。在一些老化示例中,系统和系统部件在极端工况(例如,升高的温度和电压)下或长时间段运行。这会给被测装置施加压力,并消除了在客户交付之前产品中的弱势群体。
在信息处理系统的传统老化测试期间,老化测试监测系统(例如,老化测试架监测器)可以监测同时进行测试的若干信息处理系统。老化测试监测系统记录每个信息处理系统的日志文件、配置文件和其他数据记录。如果信息处理系统的一个或多个部件在老化测试期间发生故障,则老化测试监测系统会提醒老化测试人员有故障。一旦老化测试员工看到故障通知,他们就可以转到故障系统,从老化测试架中移除故障系统,并且将故障系统发送给装置维修设施。
一旦故障发生装置到达装置维修站,传统上,装置维修设施处的人员就会开始诊断故障原因的手动过程。老化测试监测器中的日志和配置文件被提供给装置维修设施处的技术人员,然后所述技术人员使用所述信息及其经验来诊断故障原因并确定如何修复故障。一旦维修技术人员诊断出故障,所述技术人员就可以从材料处理站请求一个或多个更换备件来维修故障装置。在更换备件到达时,技术人员可以维修所述装置,然后可以将所述装置返回进行老化测试以进行进一步的测试,或者可以在维修设施处完成测试。
老化测试、运输、诊断、订购更换备件和维修装置的传统过程可能会花费大量时间。平均而言,对于信息处理系统老化,从老化故障到完成系统维修的时间可能超过120分钟。在每年大约有250,000个单元无法通过老化测试的设施中,这相当于每年需要500,000个小时的工作量来检测和修复老化故障,这消耗了大量时间、金钱和人力。另外,维修技术人员能够诊断所有类型的故障的要求导致对此类人员进行大量培训,然后才能使他们完全有资格在装置维修站工作。
本发明的实施例试图通过自动地检测故障装置、自动地诊断故障原因以及自动地订购更换备件以帮助维修故障装置来减少检测老化故障和修复故障所需的资源消耗。如下面将更全面描述的,实施例使用机器学习诊断系统来确定故障原因以及如何解决问题。
图2是示出根据本发明的实施例的用于老化测试的智能诊断系统200的简化框图。如上所述,老化测试监测系统210用于管理一组被测装置220(1)至(N)的老化测试。每个被测装置可以是信息处理系统,所述信息处理系统包括许多部件,诸如例如处理器、存储装置、存储器、图形卡、网络通信卡等。替代地,被测装置可以是用于特定目的的专门部件分组(例如,网络附接存储系统、边缘计算资源、媒体服务器等)。老化测试监测系统210将关于每个被测装置220的信息存储在老化记录数据库225中。此类信息可以包括与在被测装置上进行的每次测试相关联的日志文件、配置文件以及任务和分析结果所必需的其他信息。
老化测试监测系统210被配置为通过适合于每一种类型的被测装置的一系列老化测试来监测每个被测装置220的进度。老化测试监测系统210将与老化测试相关联的信息存储在老化记录数据库225中所存储的日志文件中。当被测装置未通过老化测试时,老化测试监测系统将被告知此类故障,或者可以通过其他方式确定发生了故障。
在确定被测装置的故障时,老化测试监测系统210可以经由通信链路通过网络240将被测装置的故障告知智能诊断服务器230。一旦被告知被测装置220有故障,智能诊断服务器230就请求日志文件和与被测装置的老化测试故障相关的其他信息,并且可以将所述信息存储在数据库存储装置235中。另外,智能诊断服务器230可以直接向老化测试架的人员告知故障被测装置的存在和标识。在一个示例中,智能诊断服务器230可以将装置标识信息无线地传达给Andon手表227或其他移动消息传递装置(例如,寻呼机、平板电脑、电话),并通知老化测试人员。这导致缩短了在将故障装置发送到维修站之前所述故障装置在老化测试架上的停留时间。
智能诊断服务器230利用概率机器学习方法使用从老化测试监测系统接收到的信息来对被测装置的老化试测试故障的原因执行诊断。在某些实施例中,历史故障日志、配置文件记录和历史维修数据用于训练朴素贝叶斯机器学习系统以构建维修预测模型,所述维修预测模型可以准确地确定被测装置当中发生老化故障的新实例的原因。与被测装置的部件相关联的一组被跟踪独立预测变量(例如,输入、输出、系统模型、故障信息、系统配置(CPU模型、DIMM大小和类型、硬盘驱动器大小和类型、PCI卡等)、系统固件版本、维修代码和其他类型的部件等)、环境因素、测试时间长度等用于训练机器学习系统。在接收到与被测装置故障相关联的信息时,机器学习系统分析与这些变量相关联的信息以确定最有可能的故障原因。在某些实施例中,利用前三个最有可能的故障原因来生成一组推荐的维修动作作为修复被测装置故障的后续步骤的指导。
在对老化故障的原因执行诊断之后,智能诊断服务器230可以经由网络240将诊断信息提供给装置维修系统250,以供装置维修技术人员在接收到故障被测装置时使用。另外,智能诊断服务器230可以与自动导向车(AGV)260进行无线通信,以向与故障被测装置相关联的老化测试架报告以拾取故障装置并将故障装置运输到指定的维修站255。此外,智能诊断服务器230可以响应于故障诊断而订购被指示用于维修故障装置的备件。可以从材料处理系统270订购备件。与材料处理相关联的人员可以选择所指示的备件并将这些备件提供给另一AGV 265以将这些备件运输到指定的维修站255。
一旦故障装置和所指示的部件到达维修站255,技术人员就可以使用由智能诊断服务器232提供的诊断来对故障装置执行维修。在某些实施例中,当提供多个潜在诊断时,技术人员可能需要确定哪些诊断适合于特定的故障实例。然而,通过建议诊断和执行考虑这些诊断的维修的备件,可以大大加快装置的维修速度。检测、诊断、备件申请以及故障装置和所指示备件的运输的并行动作可以节省大量时间。在某些已知的示例中,从检测故障到维修装置的时间已减少到45分钟,或者占执行此类维修的传统系统的约38%。这可以显著减少解决老化故障所需的年度小时数和用于制造经过老化测试的信息处理系统的总周期时间。
图3是示出根据本发明的实施例的通过智能诊断系统200执行的一系列步骤的简化流程图300。在老化测试期间监测被测装置(例如,220(1)至(N))(305)。如上文所讨论的,这种监测可以由老化测试监测系统210执行,或者可以将信息从老化测试架直接提供给智能诊断服务器230,所述智能诊断服务器可以直接执行装置监测。老化测试监测系统210或智能诊断服务器230检测DUT测试故障(310)。一旦智能诊断服务器230检测到DUT测试故障,或者被告知测试故障,智能诊断服务器就如上文所讨论的那样使用机器学习工具(诸如朴素贝叶斯)来诊断测试故障(315)。如果在诊断之后确定重启可以解决测试故障(320),则智能诊断服务器可以指示老化测试监测系统重启故障被测装置(325)并且可以重新启动老化测试(305)。
如果重启被测装置不能解决故障,则智能诊断或230可以并行执行若干任务。可以向老化测试人员提醒故障DUT(330)。这样的提醒可以包括关于故障DUT的位置以及在某些情况下故障本质的信息。一旦接收到提醒,老化测试人员就可以从老化测试架中移除故障装置,并且将故障装置放在AGV上以运输到维修站(335)。智能诊断服务器230可以指导AGV将故障DUT运输到选定维修站(340)。
在进行与向老化测试人员提醒故障装置有关的过程的同时,智能诊断服务器230还可以从材料处理请求故障装置的更换备件(350)。此类请求可以通过智能诊断服务器230与材料处理系统270之间的服务器间通信来执行,并且可以采用这两个系统利用的任何协议的形式。然后,材料处理人员可以定位更换备件并将备件放置在另一AGV上以运输到选定维修站(355)。智能诊断服务器230可以指导AGV将备件运输到选定装置维修站(360)。
在附加的并行过程中,智能诊断服务器可以将与故障装置有关的诊断传输到与选定装置维修站相关联的装置维修系统(例如,250)(370)。另外,智能诊断服务器可以提供与诊断相关联的建议维修策略。替代地,装置维修系统可以响应于所接收的诊断而提供建议的维修策略,这取决于耦合系统的本质和相关联数据库的分布。然后装置维修技术人员可以使用更换备件、从智能诊断服务器提供的诊断以及由智能诊断服务器提供的建议的维修策略来维修故障装置(375)。一旦被维修,维修装置可以返回到老化测试,或者可以在装置维修站执行进一步的老化测试(380)。
本发明的实施例提供了一种提高信息处理系统的老化测试过程的效率的机制。这部分地是通过使用机器学习程序将对老化测试期间装置故障原因的诊断自动化来完成的,以使关于故障的信息与先前已知的故障相关联。另外,通过向老化测试人员提醒故障和运输需求、从材料处理请求更换备件并同时向装置维修技术人员提供诊断和建议的维修策略来实现效率提高。继而,减少了制造信息处理系统的时间,以及降低了与处理装置老化故障的传统方法固有的延迟相关联的资源成本。另外,通过将对装置故障的诊断自动化,降低了技术人员对故障装置执行维修所需的经验水平。
如本领域的技术人员所明白的,本发明可以被体现为方法、系统或计算机程序产品。这些各个实施例在本文中通常都可以统称为“电路”、“模块”或“系统”。此外,本发明可以采取计算机可用存储介质上的计算机程序产品的形式,所述计算机可用存储介质具有体现在所述介质中的计算机可用程序代码。
可以利用任何合适的计算机可用或计算机可读介质。计算机可用或计算机可读介质可以是例如但不限于电子、磁性、光学、电磁、红外或半导体系统、设备或装置或前述介质的任何合适组合。计算机可读介质的更具体示例(非详尽列表)将包括以下各项:便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程序只读存储器(EPROM或快闪存储器)、便携式光盘只读存储器(CD-ROM)、光存储装置或磁存储装置。在本文档的上下文中,计算机可用或计算机可读存储介质可以是可以含有、存储、传达或传输供指令执行系统、设备或装置使用或与其结合使用的程序的任何介质。
可以诸如Java、Smalltalk、C++等面向对象的编程语言来编写用于执行本发明的操作的计算机程序代码。然而,也可以用诸如“C”编程语言或类似编程语言等常规程序编程语言来编写用于执行本发明的操作的计算机程序代码。程序代码可以完全在用户的计算机上执行,部分地在用户的计算机上执行,作为独立的软件包执行,部分地在用户的计算机上且部分地在远程计算机上执行,或完全在远程计算机或服务器上执行。在后一种场景中,远程计算机可以通过局域网(LAN)或广域网(WAN)连接到用户的计算机,或者可以连接到外部计算机(例如,使用因特网服务提供商通过因特网进行连接)。
参考根据本公开的实施例的方法、设备(系统)和计算机程序产品的流程图图示和/或框图来描述本发明的实施例。应当理解,流程图图示或框图的每个框以及流程图图示或框图的框组合可以通过计算机程序指令来实施。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以便产生一种机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令建立用于实施在流程图和/或框图的一个或多个框中规定的功能/操作的手段。
这些计算机程序指令也可以存储在计算机可读存储器中,所述计算机可读存储器可以引导计算机或其他可编程数据处理设备以特定方式运转,使得存储在计算机可读存储器中的指令产生制品,所述制品包括实施流程图和/或框图的一个或多个框中规定的功能/动作的指令装置。
计算机程序指令还可以加载至计算机或其他可编程数据处理设备上,以引起将在计算机或其他可编程设备上执行的一系列操作步骤,从而产生计算机实施的过程,使得在计算机或其他可编程设备上执行的指令提供用于实施在流程图和/或框图的一个或多个框中规定的功能/操作的步骤。
本发明非常适于获得所提到的优势以及其中固有的其他优势。尽管已通过参考本发明的特定实施例来描绘、描述及限定本发明,但是此类参考并不暗示对本发明的限制,并且不应推断此类限制。本发明能够在形式和功能方面有相当大的修改、更改并具有等效物,如相关领域的技术人员将想到的。所描绘和所描述的实施例仅是示例性的,并且并非本发明的范围的全部。
因此,本发明意图仅由随附权利要求的精神和范围来限制,在所有方面对等效物具有充分的认识。

Claims (20)

1.一种用于修复被测装置的老化测试故障的计算机可实施方法,所述方法包括:
监测一个或多个被老化测试的装置的状态;
确定所述一个或多个被老化测试的装置中的第一类型的被测装置(DUT)未通过一项或多项老化测试;以及
诊断所述第一类型的所述DUT未通过所述一项或多项老化测试的一个或多个原因,其中使用经过所述第一类型的装置的老化测试失败数据的历史记录集合训练的概率机器学习系统来执行所述诊断。
2.如权利要求1所述的方法,其中
所述第一类型的所述DUT包括第一组部件;并且
未通过所述第一老化测试与所述第一组部件中的一个或多个部件相关联。
3.如权利要求1所述的方法,其中所述概率机器学习系统包括朴素贝叶斯分类器。
4.如权利要求1所述的方法,其还包括:
响应于所述诊断而指示重启所述故障DUT。
5.如权利要求1所述的方法,其还包括响应于所述诊断而执行以下一项或多项:
向老化测试中心提醒所述故障DUT;
从材料处理系统请求一次或多次故障部件更换;以及
将关于所述故障DUT的所述诊断传输到装置维修系统。
6.如权利要求5所述的方法,其中并行地执行所述提醒、请求和传输。
7.如权利要求5所述的方法,其中所述提醒包括:
将所述故障DUT的标识传输到老化测试人员。
8.如权利要求7所述的方法,其中所述提醒还包括:
将指令传输到自动导向车(AGV)以将所述故障DUT运输到选定装置维修站。
9.如权利要求8所述的方法,其还包括:
为所述故障DUT选择所述装置维修站。
10.如权利要求7所述的方法,其中所述提醒还包括:
将所述故障DUT的所述标识传输到与所述老化测试人员相关联的移动装置。
11.如权利要求5所述的方法,其中所述请求所述一次或多次故障部件更换包括:
响应于所述诊断而确定推荐的维修策略;
确定与所述推荐的维修策略相关联的推荐的更换备件;以及
将所述推荐的更换部件的标识符传输到材料处理系统。
12.如权利要求11所述的方法,其还包括:
将指令传输到AGV以将所述更换部件运输到选定装置维修站,其中所述故障DUT也被运输到所述选定装置维修站。
13.如权利要求5所述的方法,其中所述诊断包括:
使用与所述故障DUT的老化测试相关联的日志文件作为向所述概率机器学习系统的输入来识别所述故障DUT的一个或多个故障部件;以及
响应于所述识别所述一个或多个故障部件而识别用于所述故障DUT的一种或多种维修策略。
14.如权利要求13所述的方法,其还包括:
在选定维修站显示所述诊断,其中所述故障DUT和更换部件被运输到所述选定维修站。
15.一种系统,其包括:
处理器;
数据总线,所述数据总线耦合到所述处理器;
网络接口,所述网络接口耦合到所述数据总线和网络,并且被配置为经由所述网络与老化测试监测系统、材料处理系统和装置维修系统进行通信,其中
所述老化测试监测系统耦合到一个或多个被老化测试的装置,并且
所述被老化测试的装置各自包括一个或多个部件;以及
体现计算机程序代码的非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质耦合到所述数据总线,所述计算机程序代码与多个计算机操作进行交互并且包括指令,所述指令能够由所述处理器执行并且被配置为
监测所述一个或多个被老化测试的装置的状态,
确定所述一个或多个被测装置中的第一类型的被测装置(DUT)未通过一项或多项老化测试,
诊断所述第一类型的所述DUT未通过所述一项或多项老化测试的一个或多个原因,其中使用经过所述第一类型的装置的老化测试失败数据的历史记录集合训练的概率机器学习系统来执行所述诊断。
16.如权利要求15所述的系统,其还包括:
机器学习加速器处理器,所述机器学习加速器处理器耦合到所述数据总线,并且被配置为执行针对所述概率机器学习系统配置的指令。
17.如权利要求16所述的系统,其中所述概率机器学习系统包括朴素贝叶斯分类器。
18.如权利要求15所述的系统,其中所述计算机程序代码包括能够由所述处理器执行的另外的指令,所述另外的指令还被配置为:
使用所述网络接口向所述老化测试监测系统提醒所述故障DUT;
使用所述网络接口从所述材料处理系统请求一次或多次故障部件更换;以及
使用所述网络接口将关于所述故障DUT的所述诊断传输到所述装置维修系统。
19.如权利要求18所述的系统,其中被配置为请求一次或多次故障部件更换的所述指令包括能够由所述处理器执行的另外的指令,所述另外的指令被配置为
响应于所述诊断而确定推荐的维修策略;
确定与所述推荐的维修策略相关联的推荐的更换备件;以及
使用所述网络接口将所述推荐的更换部件的标识符传输到所述材料处理系统。
20.如权利要求18所述的系统,其中被配置为请求一次或多次故障部件更换的所述指令包括可由处理器执行的另外的指令,所述另外的指令被配置为
使用与所述故障DUT的所述老化测试相关联的日志文件作为所述概率机器学习系统的输入来识别所述故障DUT的一个或多个故障部件;以及
响应于所述识别所述一个或多个故障部件而识别用于所述故障DUT的一种或多种维修策略。
CN202010517586.4A 2020-06-09 2020-06-09 用于被测老化装置的智能故障诊断中心的方法和系统 Pending CN113779857A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010517586.4A CN113779857A (zh) 2020-06-09 2020-06-09 用于被测老化装置的智能故障诊断中心的方法和系统
US17/181,975 US11599437B2 (en) 2020-06-09 2021-02-22 Method and system for intelligent failure diagnosis center for burn-in devices under test

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010517586.4A CN113779857A (zh) 2020-06-09 2020-06-09 用于被测老化装置的智能故障诊断中心的方法和系统

Publications (1)

Publication Number Publication Date
CN113779857A true CN113779857A (zh) 2021-12-10

Family

ID=78817474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010517586.4A Pending CN113779857A (zh) 2020-06-09 2020-06-09 用于被测老化装置的智能故障诊断中心的方法和系统

Country Status (2)

Country Link
US (1) US11599437B2 (zh)
CN (1) CN113779857A (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114563882A (zh) * 2022-01-19 2022-05-31 业成科技(成都)有限公司 一种液晶模组老化测试系统
CN116484268B (zh) * 2023-06-21 2023-09-05 西安黑石智能科技有限公司 基于机器学习的智能化工业设备故障诊断系统

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5557559A (en) * 1992-07-06 1996-09-17 Motay Electronics, Inc. Universal burn-in driver system and method therefor
US7395170B2 (en) * 2001-05-24 2008-07-01 Test Advantage, Inc. Methods and apparatus for data analysis
US6681215B2 (en) * 2001-03-20 2004-01-20 General Electric Company Learning method and apparatus for a causal network
US7120842B2 (en) * 2003-09-22 2006-10-10 Texas Instruments Incorporated Mechanism to enhance observability of integrated circuit failures during burn-in tests
EP1723571A4 (en) * 2004-02-06 2007-05-09 Test Advantage Inc METHOD AND DEVICES FOR DATA ANALYSIS
US7151388B2 (en) * 2004-09-30 2006-12-19 Kes Systems, Inc. Method for testing semiconductor devices and an apparatus therefor
US7519880B1 (en) * 2005-07-05 2009-04-14 Advanced Micro Devices, Inc. Burn-in using system-level test hardware
US9063856B2 (en) * 2012-05-09 2015-06-23 Infosys Limited Method and system for detecting symptoms and determining an optimal remedy pattern for a faulty device
US9322847B2 (en) * 2013-06-24 2016-04-26 The United States Of America As Represented By The Secretary Of The Navy Apparatus and method for integrated circuit forensics
US9244791B2 (en) * 2013-08-27 2016-01-26 The United States Of America As Represented By The Secretary Of The Navy Fusion of multiple modalities for determining a unique microelectronic device signature
EP3250347B1 (en) * 2015-01-26 2023-11-08 Duke University Specialized robot motion planning hardware and methods of making and using same
CA2993824A1 (en) * 2015-07-29 2017-02-02 Illinois Tool Works Inc. System and method to facilitate welding software as a service
US9710364B2 (en) * 2015-09-04 2017-07-18 Micron Technology Licensing, Llc Method of detecting false test alarms using test step failure analysis
JP2018147959A (ja) * 2017-03-02 2018-09-20 東京エレクトロン株式会社 検査システム、ならびに検査システムの故障解析・予知方法
US10902347B2 (en) * 2017-04-11 2021-01-26 International Business Machines Corporation Rule creation using MDP and inverse reinforcement learning
CN111051902B (zh) * 2017-07-25 2022-05-27 皇虎科技(加拿大)有限公司 集成电路装置上自动老化测试的系统和方法
US10777470B2 (en) * 2018-03-27 2020-09-15 Pdf Solutions, Inc. Selective inclusion/exclusion of semiconductor chips in accelerated failure tests
US20190311290A1 (en) * 2018-04-06 2019-10-10 Mentor Graphics Corporation Deep Learning Based Test Compression Analyzer
KR20210147319A (ko) * 2020-05-28 2021-12-07 삼성전자주식회사 번 인 보드 테스트 장치 및 시스템
US20220024607A1 (en) * 2020-07-22 2022-01-27 The Boeing Company Predictive maintenance model design system
US11808812B2 (en) * 2020-11-02 2023-11-07 Advantest Test Solutions, Inc. Passive carrier-based device delivery for slot-based high-volume semiconductor test system
JP2022146749A (ja) * 2021-03-22 2022-10-05 株式会社日立製作所 分散システムおよび診断方法

Also Published As

Publication number Publication date
US20210382801A1 (en) 2021-12-09
US11599437B2 (en) 2023-03-07

Similar Documents

Publication Publication Date Title
US9824002B2 (en) Tracking of code base and defect diagnostic coupling with automated triage
Prytz et al. Predicting the need for vehicle compressor repairs using maintenance records and logged vehicle data
CN100538375C (zh) 建立自诊断和自修复自动系统的方法和系统
US20210064518A1 (en) Methods Circuits Devices Systems and Functionally Associated Machine Executable Code For Automatic Failure Cause Identification in Software Code Testing
CN113228100A (zh) 成像模态智能发现维护系统和方法
RU2757436C9 (ru) Устройство и способ контроля указаний на неисправность от транспортного средства, компьютерочитаемый носитель
US11599437B2 (en) Method and system for intelligent failure diagnosis center for burn-in devices under test
WO2017074506A1 (en) Method and system for allocating jobs to a set of computing nodes based on a hardware health check
US20230239194A1 (en) Node health prediction based on failure issues experienced prior to deployment in a cloud computing system
US20050027487A1 (en) Product defect analysis and resolution system
CN112025766B (zh) 一种机器人系统健康自检的方法、装置以及电子设备
US20210232995A1 (en) System and methods for risk assessment in a multi-tenant cloud environment
Dhanalaxmi et al. A fault prediction approach based on the probabilistic model for improvising software inspection
Chen Some recent advances in design of bayesian binomial reliability demonstration tests
US7900093B2 (en) Electronic data processing system and method for monitoring the functionality thereof
CN113704368A (zh) 检验信息追溯方法、装置、计算机设备和存储介质
Suma et al. Defect prevention approaches in medium scale it enterprises
US11886180B2 (en) Method and system for facilitating predictive maintainance of testing machine
CN113220570B (zh) 一种基于缺陷库实现线上环境测试的方法及装置
CN115907412A (zh) 数据线的缺陷解决方法、装置、设备、介质及产品
Doganaksoy et al. Reliability disasters: technical learnings from past mistakes to mitigate and avoid future catastrophes
WO2020215217A1 (zh) 行李分拣系统中设备故障的告警评估方法、装置和计算机可读介质
CN117648252A (zh) 软件应用的功能测试方法、装置、电子设备及存储介质
CN116909925A (zh) 一种基于敏捷迭代的测试流程管理方法及管理系统
Volotkovskyi Improving the reliability of an operational product quality management system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination