CN112020681A - 通过本地诊断验证的硬件更换预测 - Google Patents

通过本地诊断验证的硬件更换预测 Download PDF

Info

Publication number
CN112020681A
CN112020681A CN201880092877.4A CN201880092877A CN112020681A CN 112020681 A CN112020681 A CN 112020681A CN 201880092877 A CN201880092877 A CN 201880092877A CN 112020681 A CN112020681 A CN 112020681A
Authority
CN
China
Prior art keywords
diagnostic
engine
telemetry data
data
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880092877.4A
Other languages
English (en)
Inventor
C·S·瓦尔瓦索里
L·R·埃雷迪亚
A·凯罗斯德马塞多
M·帕斯夸利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of CN112020681A publication Critical patent/CN112020681A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3457Performance evaluation by simulation
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0224Process history based detection method, e.g. whereby history implies the availability of large amounts of data
    • G05B23/024Quantitative history assessment, e.g. mathematical relationships between available data; Functions therefor; Principal component analysis [PCA]; Partial least square [PLS]; Statistical classifiers, e.g. Bayesian networks, linear regression or correlation analysis; Neural networks
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0259Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterized by the response to fault detection
    • G05B23/0283Predictive maintenance, e.g. involving the monitoring of a system and, based on the monitoring results, taking decisions on the maintenance schedule of the monitored system; Estimating remaining useful life [RUL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2263Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3428Benchmarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2223/00Indexing scheme associated with group G05B23/00
    • G05B2223/04Detection of intermittent failure
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/875Monitoring of systems including the internet
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

一种服务器的示例,包括用于从多个客户端设备接收遥测数据的通信接口。遥测数据用于指示多个客户端设备中的客户端设备的健康状况。服务器还包括预测引擎,用于处理遥测数据以利用预测模型确定客户端设备的健康状况,以识别客户端设备处的硬件问题。服务器还包括与预测引擎通信的诊断评估器。诊断评估器用于在预测引擎识别出硬件问题时从客户端设备请求硬件问题的本地确认。在客户端设备处经由诊断引擎确定本地确认。服务器还包括报告器,用于在接收到本地确认时报告硬件问题。

Description

通过本地诊断验证的硬件更换预测
背景技术
各种设备和装置含有具有不确定寿命预期的部件或组件。部件或组件可能周期性地失效,导致部件或组件被更换。在一些情况下,可以预测出部件的故障,从而允许在故障之前先占地更换该硬件部件。因此,遥测数据可以在设备处进行收集以用于进行预测。
附图说明
现在将仅通过示例的方式参考附图,其中:
图1是用于监视设备的部件或组件的示例性服务器的框图;
图2是用于监视对组件的本地诊断的执行的示例性设备的框图;
图3是由云中的服务器监视设备的部件的示例性系统的表示;
图4是由云中的服务器监视设备的部件或组件的示例性方法的流程图;以及
图5是用于监视设备的部件或组件的另一示例性装置的框图。
具体实施方式
连接到网络的设备可以被广泛接受并且通常可以更便于使用。特别地,已经开发了新的服务来提供设备作为服务,其中消费者简单地使用设备,而服务提供商维护设备并确保其性能被维持在某个水平。
随着任何设备随着时间的推移而重复使用,该设备使用可能随着时间的推移而磨损并最终故障的各种部件或组件。任何设备中的部件的故障都可能对消费者造成显著影响,因为消费者可能通常会依赖于该设备,诸如操作业务或生成输出以供消费。当设备故障时,设备就要离线,并且停机时间用于诊断问题并识别故障的原因。随后,可以修复该设备,这可以包括更换该设备的一个部件或组件。在一些情况下,组件的故障可能会导致意外的副作用,其中附加的组件被损坏。另外,如果故障部件或组件是未知的,则就不可能对该部件或组件进行修复和更换。
为了减少设备的停机时间量,一些部件和组件可能已经估计了以时间、使用或两者的组合来测量的寿命预期。因此,可以抢先更换部件和组件以减少影响设备的停机时间的可能性。为了减少停机时间,部件的估计寿命预期可能低于实际寿命预期,以降低过早失效的概率。即使在估计的寿命预期降低的情况下,部件或组件也可能在其估计的寿命预期之前失效。这可能会导致设备在诊断和修复或更换故障部件期间停止服务。
在一些情况下,遥测数据可以在设备处被收集并且被转发到中央服务器以识别要被更换的部件或组件。遥测数据可以是与部件或组件上的磨损相关联的数据,诸如累积操作时间或其他度量。在其他示例中,遥测数据也可以包括组件的测量结果,诸如部件或组件的数据完整性或电特性。在许多示例中,应当理解,遥测数据是使用不会显著影响可能正在运行其他应用的设备的性能的后台过程来收集的。应当理解,遥测数据可能不提供部件或组件即将发生故障的明确的预测。因此,中央服务器可能过早地识别部件或组件用于更换,导致早在部件或组件出现故障之前就更换了该部件或组件。在本示例中,一旦中央服务器基于遥测数据预测到设备的部件或组件即将发生故障,中央服务器就请求在设备处执行进一步的深度诊断。可以使用本地过程对特定部件或组件执行深度诊断,该本地过程可以比使用后台过程收集的遥测数据更准确地评估部件或组件的健康状况。
参考图1,在10处总体地示出了用于监视设备的部件或组件的硬件更换预测系统的服务器的示例。服务器10可以包括附加组件,诸如各种存储器存储单元、用于与其他设备通信的接口、以及用于与访问服务器10的管理员交互的另外的输入和输出设备。另外,输入和输出外围设备可以用于训练或配置服务器10,如以下更详细地描述的。在本示例中,服务器10包括通信接口15、预测引擎20、诊断评估器25和报告器30。尽管本示例将预测引擎20、诊断评估器25和报告器30示为单独的组件,但在其他示例中,预测引擎20、诊断评估器25和报告器30可以是同一物理组件的一部分,诸如被配置成执行多个功能的微处理器。
通信接口15用于通过网络与设备通信。在本示例中,服务器10可以在云中以管理多个客户端设备。因此,通信接口15可以接收服务器10管理的若干不同客户端设备的遥测数据。遥测数据可以指示客户端设备的健康状况。通信接口15接收遥测数据的方式不受特别限制。在本示例中,服务器10可以是位于远离客户端设备的位置处的云服务器,其可以广泛地分布在大的地理区域上。因此,通信接口15可以是通过因特网通信的网络接口。在其他示例中,通信接口15可以经由对等连接,诸如通过有线或专用网络,连接到客户端设备。
在本示例中,收集的遥测数据不受特别限制。例如,遥测数据可以包括系统设备信息,诸如账户名称、型号、制造商、出生日期、类型等,硬件信息,诸如智能驱动信息、固件修订、磁盘物理信息,如型号、制造商、自测试结果和电池电压。遥测数据可以使用客户端设备处的后台过程来收集。后台过程可使用很少的资源,使得其基本上不影响在设备上运行的前台过程。遥测数据可以由通信接口15以规则的调度间隔来接收。例如,遥测数据可以一天接收一次。在其他示例中,遥测数据可以被更频繁地(诸如每小时)接收,或较不频繁地(诸如每周)接收。
预测引擎20要处理遥测数据以确定从其接收遥测数据的客户端设备的健康状况。具体地,预测引擎20要应用预测模型来识别客户端设备处的潜在硬件问题。硬件问题的识别可以包括剩余寿命预期的确定。在本示例中,预测引擎20可以用预期失效来标记组件,并且在呈现给客户端设备的用户之前继续监视其他部件和组件以搜集多个问题。通过搜集问题,可以理解,设备的用户可以经受更少的对客户机设备执行的深度或繁重诊断的请求。因此,这可以得到对用户来说更少的中断和改进的用户体验。在其他示例中,预测引擎20可以立即提供潜在硬件失效的指示。
预测引擎20所使用的预测模型不受特别限制。在本示例中,预测引擎20可以使用基于规则的预测方法,其中,遥测数据被应用于各种规则以确定从其收集遥测数据的部件或组件是否将演变出硬件问题。在其他示例中,机器学习模型也可以用于预测潜在硬件失效。例如,预测模型可以是神经网络或分类器模型。具体地,预测模型可以包括支持向量机、随机森林树、朴素贝叶斯分类器、循环神经网络和其他类型的神经网络。
诊断评估器25要从预测引擎20接收消息,以指示基于预测模型对从客户端设备接收的遥测数据的应用,已经在客户端设备处预测到潜在的硬件故障。在本示例中,在从预测引擎20接收到对由预测引擎20识别的硬件问题的本地确认的请求消息时,将该消息发送到客户端设备。在本示例中,来自本地设备的对本地确认的请求可以使得客户端设备对所识别的组件执行深度或繁重的诊断过程。例如,诊断过程可以经由下面更详细描述的本地诊断引擎来执行。
在本示例中,诊断引擎可以锁定客户端设备,使得没有其他应用可以被客户端设备的用户使用。因此,应当理解,通过运行繁重的诊断过程,客户端设备的用户可能会感到不方便。因此,为了改善用户体验,诊断评估器25可进一步生成消息并且传输消息以向用户解释潜在的硬件问题。该消息还可以包括针对用户的附加建议,诸如将客户端设备连接到电源。然后,客户端设备可以向用户显示该消息。在该示例中,消息可以征求来自客户端设备的用户的响应以运行诊断过程,从而收集用于提供本地确认的诊断数据。如果用户不能提供授权,诸如当用户不希望在使用客户端设备期间被打断时,诊断评估器25可周期性地为客户端设备重新发送消息或生成后续消息,直到用户提供授权为止。
在其他示例中,诊断评估器25也可以不寻求用户授权,并且提供给客户端设备的消息也可以是信息性的。因此,客户端设备然后可以被强制进入诊断过程并且将用户从所有其他功能中锁定。在进一步的示例中,诊断评估器25可以征求预定次数的响应,然后在没有接收到授权之后强制客户端设备锁定用户。诊断评估器25还可以在预测引擎20预测到严重问题时确定封锁客户端设备的用户,并且在预测到不太严重的问题时征求响应。
报告器30要在从客户端设备接收到本地确认时报告硬件问题。报告器30报告硬件问题的方式不受限制。例如,报告器30可以在服务器10中生成标签,技术人员可以对该标签采取行动以修理或更换客户端设备的硬件。在其他示例中,报告器30可以向另一服务器发送消息以供进一步处理,以确定解决硬件问题要采取的动作的过程。
参考图2,在100处总体地示出了用于监视部件或组件的硬件更换预测系统的设备的示例。设备100可以是客户端设备或连接到服务器10的任何其他设备,诸如共享设备,如扫描仪或打印机。设备100可以包括附加组件,诸如各种存储器存储单元、与其他设备通信的接口,并且可以包括与用户交互的外围输入和输出设备。在本示例中,设备100包括数据收集引擎110、通信接口115、诊断引擎120和确认引擎125。尽管本示例将数据收集引擎110、通信接口115、诊断引擎120和确认引擎125示出为单独的组件,但是在其他示例中,数据收集引擎110、通信接口115、诊断引擎120和确认引擎125也可以是被配置为执行多个功能的同一物理组件(诸如微处理器)的一部分。
数据收集引擎110要从设备100内的多个组件收集遥测数据。数据收集引擎110从其收集数据的组件不受限制,并且可以包括诸如存储器存储设备(例如,硬盘驱动器、固态驱动器、非易失性存储器控制器)、电池、显示器、处理器、应用或在设备100上运行的其他软件之类的组件。在本示例中,数据收集引擎110在设备100的正常操作期间作为后台过程操作以收集遥测数据。后台过程可使用少量处理器资源,使得后台过程基本上不影响在设备100上运行的前台过程。遥测数据可以经由通信接口115以规则的间隔自动地传输到中央服务器10。例如,遥测数据可以从设备100一天传输一次。在其他示例中,遥测数据可以针对经受更快变化的组建而进行更频繁地(诸如每小时)传输,或者针对更稳定的部件较不频繁地(诸如每周)传输。
通信接口115要通过网络与服务器10通信。在本示例中,设备100可以连接到云,以由云中的服务器10来管理。因此,通信接口115可以传输遥测数据以指示客户端设备100的健康状况以供服务器10进一步处理。通信接口115传输遥测数据的方式不受特别限制。在本示例中,设备100可以通过诸如因特网的网络与远处的服务器10连接。在其他示例中,通信接口115可以经由对等连接,诸如通过有线或专用网络,连接到服务器10。在本示例中,服务器10是中央服务器。然而,在其他示例中,服务器10可以是云中存在的虚拟服务器,其中功能可以跨若干物理机器来分布。
诊断引擎120在经由通信接口115从服务器10接收到请求时对设备100的组件执行诊断过程。在本示例中,诊断引擎120要对组件执行深度或繁重的诊断过程。诊断过程要使用各种测量来检查组件的健康状况,以与已知性能度量进行比较。因此,应当理解,诊断引擎120执行比由数据收集引擎110收集遥测数据明显更资源密集的过程。
在本示例中,诊断引擎120可将用户从设备100锁定,使得没有其他应用可同时运行。因此,应当理解,诊断引擎120可能给设备100的用户带来不便。为了改善用户体验,诊断引擎120还可从服务器10接收消息以向用户解释潜在的硬件问题。然后,可以在设备的显示器(未示出)上再现该消息,以供用户查看。在本示例中,消息还可包括针对用户的附加建议,诸如将设备100连接到电源,使得诊断引擎120不会遇到设备100缺少电力的问题。此外,该消息可征求来自设备100的用户的响应以运行诊断过程,从而收集诊断数据以提供硬件问题的本地确认。如果用户不能提供授权,诸如当用户不希望在设备100的使用期间被打断时,诊断引擎120可周期性地接收附加消息以请求得到来自用户的授权。
在其他示例中,应当理解,诊断引擎120还可以生成消息以供用户解释该过程。在这样的示例中,设备100可以包括存储器存储单元,该存储器存储单元包括代码以解释来自服务器的请求,使得由诊断引擎120为设备100的用户生成适当的消息以改进用户体验。
确认引擎125要评估诊断数据以确定从其收集诊断数据的组件的状况。具体地,确认引擎125可以确认组件是否正常操作或即将出现故障。如果设备100的组件即将如预测引擎20所预测的那样出现故障,则确认引擎125将生成确认消息并将该确认发送给服务器10。
在一些示例中,诊断引擎120可以接收对要在设备100的组件上执行的诊断过程的请求,以确认不存在硬件问题。请求的来源不受限制,并且可以在服务器10处随机生成、在设备100处本地随机生成、或者基于从用户接收的输入来生成。由诊断引擎120收集的诊断数据被用于随后确认由数据收集引擎110发送的最后一组遥测数据不对应于硬件问题。因此,这可以用于训练预测模型以在接收到遥测数据时改进预测引擎20的性能。
参考图3,在200处总体地示出了用于监视设备的部件或组件的硬件更换预测系统的示例。在本示例中,服务器10经由网络210与多个设备100通信。应当理解,设备100不是限制,并且可以是由服务器10管理的各种设备100。例如,设备100可为个人计算机、平板计算设备、智能电话或膝上型计算机。
参考图4,在400处总体地示出了硬件更换预测的示例性方法的流程图。为了帮助解释方法400,将假设方法400可以利用系统200来执行。实际上,方法400可以是系统200连同服务器10和设备100一起可以被配置的一种方式。此外,方法400的以下讨论可以导致对系统200以及服务器10和设备100的进一步理解。此外,要强调的是,方法400可以不以所示的精确顺序来执行,并且各个框可以一起并行而不是顺序地执行,或者以不同的顺序来执行。
在框410处开始,从设备100中的多个组件收集遥测数据。在本示例中,数据收集引擎110用于使用后台过程来收集遥测数据。数据收集引擎110从其收集数据的组件不受限制,并且可以包括诸如存储器存储设备(例如,硬盘驱动器)、电池、显示器、处理器、应用或在设备100上运行的其他软件之类的组件。由数据收集引擎执行的后台过程使用相对少量的处理器资源,使得后台过程基本上不影响在设备100上运行的前台过程。因此,设备100的用户可能不会注意到遥测数据在设备的正常使用期间被收集。
作为收集的遥测数据的示例,可以假设设备100包括配备有自监视、分析和报告技术的硬盘驱动器。在该示例中,硬盘驱动器将提供遥测数据,该遥测数据可以由数据收集引擎110以预定义的间隔静默地进行收集。应当理解,遥测数据不受特别限制,并且可以包括系统设备信息,诸如公司名称、主机名、PC型号、PC制造商、出生日期、产品类型等,组件信息,诸如智能驱动信息、固件修订、扇区计数、总容量、已使用容量、电池电压、电流和充电容量。
框420将由数据收集引擎110收集的遥测数据传输到服务器10以进行处理。遥测数据被传输到服务器10的方式不受限制。例如,遥测数据可以经由因特网发送。在其他示例中,设备100也可以经由对等连接,诸如通过有线或专用网络,连接到服务器10。在一些示例中,遥测数据可以经由通信接口115以规则的间隔自动地传输到中央服务器10。例如,遥测数据可以从设备100一天传输一次。在其他示例中,遥测数据可以针对经受更快变化的组件更频繁地(诸如每小时)传输,或者针对更稳定的组件较不频繁地(诸如每周)传输。
框430涉及在服务器10处理遥测数据以确定设备100的健康状况。具体地,服务器的预测引擎20可以使用预测模型来处理遥测数据,以识别设备100中的组件的硬件问题或潜在硬件问题。在本示例中,预测模型可以是基于规则的预测模型,其中,遥测数据被应用于各种规则以确定从其收集遥测数据的部件或组件是否将演变出硬件问题。在其他示例中,机器学习模型可以用于预测潜在硬件失效。例如,预测模型可以是神经网络或分类器模型。具体地,预测模型可以包括支持向量机、随机森林树、朴素贝叶斯分类器、循环神经网络和其他类型的神经网络。
继续以上具有自监视、分析和报告技术的硬盘驱动器的示例,硬盘驱动器可向服务器10的预测引擎20提供遥测数据。预测引擎20然后可应用预测模型来确定硬盘驱动器已超过阈值,诸如累积的操作时间。应当理解,阈值不受限制,并且可以是由制造商设置的预定值。
接下来,框440将消息从服务器10传输到设备100。在本示例中,消息可以由服务器上的诊断评估器25生成。为了保持用户满意度的水平,应当理解,该消息用于向用户提供信息以解释在执行诊断过程时锁定用户的原因。此外,框440可涉及向设备100的用户征求授权以收集诊断数据。
返回到硬盘驱动器的当前示例,消息可以通知用户硬盘驱动器可能已经降级。该消息可以解释硬盘驱动器可能已经降级到可接受的性能标准以下,并且要执行诊断以进行确认。此外,该消息可以在经由弹出提示执行诊断时征求来自用户的授权以使设备100暂时离线。在接收到授权时,可以显示后续消息以通知用户不干扰诊断并且确保设备100具有足够的电力来执行诊断或者确保设备100连接到电源。
框450涉及在从用户接收到授权后从由预测引擎20识别的组件收集诊断数据。在本示例中,诊断数据的收集涉及在设备100处执行诊断过程。特别地,诊断处理是由诊断引擎120执行的本地过程。继续硬盘驱动器的示例,诊断引擎120将执行完整的磁盘自测试,其从硬盘驱动器收集各种数据。要从硬盘驱动器收集的诊断数据不受限制,并且可以包括确定扩展的自测试结果、诸如写入的逻辑扇区、读取命令的数量、温度统计、传输统计等的设备统计。
接下来,框460涉及评估从框450收集的诊断数据,以确定组件的状况是否良好。在本示例中,由设备上的确认引擎125执行评估。在本示例中,确认引擎125可以访问概括被测组件的正常操作状况的信息的数据库。因此,评估可以涉及将由诊断引擎测量的值与由组件制造商提供的或由设备100的管理员设置的数据库中的存储值进行比较。继续上述示例,从硬盘驱动器收集的诊断数据可以与制造商提供的值进行比较,以确定硬盘驱动器是否仍然在可接受的限度内操作。
在评估诊断数据之后,确认引擎125提供对组件是否如服务器10上的预测引擎20所预测的那样将要发生故障或者预测引擎20是否做出不正确的预测的确认。确认引擎125随后可以在框470处生成要从设备100传输到服务器10的消息,以提供确认,其中,服务器10可以采取进一步的动作来修复或更换设备100的组件。
参考图5,在10a处示出了用于监视设备100的部件或组件的硬件更换预测系统的服务器的另一示例。服务器10a的相同组件承载它们在服务器10中的对应物相同的标号,除了后面有后缀“a”。服务器10a包括通信接口15a、预测引擎20a、诊断评估器25a和报告器30a。在本示例中,预测引擎20a、诊断评估器25a和报告器30a由处理器35a来实现。服务器10a还包括训练引擎40a和存储器存储单元45a。尽管本示例将训练引擎40a示出为单独的组件,但是在其他示例中,训练引擎40a也可以由处理器35a来实现。
处理器35a可包括中央处理单元(CPU)、图形处理单元(GPU)、微控制器、微处理器、处理核心、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或类似物。处理器35a和存储器存储单元45a可以协作以执行各种指令。处理器35a可以执行存储在存储器存储单元45a上的指令以执行诸如方法400的过程。在其它示例中,处理器35a可执行存储在存储器存储单元45a上的指令以实施预测引擎20a、诊断评估器25a和报告器30a。在其它示例中,预测引擎20a、诊断评估器25a和报告器30a可以各自在单独的处理器上执行。在另外的示例中,预测引擎20a、诊断评估器25a和报告器30a可以在单独的机器上操作,诸如从软件作为服务提供商或在虚拟云服务器中操作。
训练引擎40a要基于从设备100接收的本地确认来训练由预测引擎使用的预测模型。训练引擎40a训练预测模型的方式不受限制,并且可以取决于所使用的预测模型。例如,如果预测模式是基于规则的模型,其中规则存储在数据库510a中,则所接收的指示组件即将故障或未故障的本地确认可以由训练引擎40a通过将本地确认与由预测引擎20a生成的原始预测进行比较来验证。在有任何差异的情况下,可以更新存储预测模型的规则的数据库510a。
在一些示例中,训练引擎40a可以征求来自设备100的用户的响应以运行诊断过程,从而收集用于提供本地确认的诊断数据。特别地,该消息可以指示没有关于设备100的预测的问题,并且诊断数据是用于训练目的以改进系统200的操作。特别地,该消息可以指示参与可以是自愿的。
在预测模型涉及机器学习或人工智能模型的其它示例中,本地确认可以被添加到数据库510a作为由训练引擎40a用于训练预测模型的附加训练数据。
各种优点现在对于本领域技术人员将变得显而易见。例如,系统200可以受益于具有基于从设备100接收的遥测数据在服务器10上执行的硬件失效预测,以及在实现任何校正措施之前具有来自设备100的本地确认的益处。特别地,这将增加在服务器处生成的预测的准确性,以减少不必要的硬件更换,从而降低成本。此外,通过周期性地对健康机器执行本地诊断过程,服务器10的预测引擎20可被训练以增加未来预测的准确性。
应当认识到,以上提供的各种示例的特征和方面可以被组合到也落入本公开范围内的另外的示例中。

Claims (15)

1.一种服务器,包括:
通信接口,用于从多个客户端设备接收遥测数据,其中,所述遥测数据用于指示所述多个客户端设备中的客户端设备的健康状况;
预测引擎,用于处理所述遥测数据以利用预测模型来确定所述客户端设备的健康状况,以识别所述客户端设备处的硬件问题;
诊断评估器,所述诊断评估器与所述预测引擎通信,其中,所述诊断评估器用于在由所述预测引擎识别所述硬件问题时请求来自所述客户端设备的对所述硬件问题的本地确认,并且其中,所述本地确认是在所述客户端设备处经由诊断引擎确定的;以及
报告器,用于在接收到所述本地确认时报告所述硬件问题。
2.根据权利要求1所述的服务器,其中,所述通信接口用于以规则的间隔接收遥测数据。
3.根据权利要求1所述的服务器,其中,所述诊断评估器传输消息以显示给用户,其中,所述消息用于征求来自所述用户的授权以供所述客户端设备收集诊断数据。
4.根据权利要求3所述的服务器,其中,所述诊断评估器周期性地传输所述消息,直到所述用户提供对所述客户端设备的授权以收集诊断数据为止。
5.根据权利要求1所述的服务器,还包括训练引擎,其中,所述训练引擎用于请求所述本地确认以训练所述预测模型。
6.根据权利要求5所述的服务器,其中,所述训练引擎通过将所述预测模型的应用与具有所述本地确认的所述遥测数据进行比较来验证由所述预测引擎生成的预测。
7.根据权利要求6所述的服务器,其中,所述训练引擎传输消息以显示给所述客户端设备的用户,其中,所述消息用于征求来自所述用户的授权以提供用于训练目的的所述本地确认。
8.一种设备,包括:
数据收集引擎,用于从多个组件收集遥测数据,其中,所述遥测数据是利用后台过程收集的,并且其中,所述遥测数据与所述多个组件相关联;
通信接口,用于与中央服务器通信,其中,所述通信接口用于将所述遥测数据传输至所述中央服务器;
诊断引擎,用于在经由所述通信接口接收到诊断请求时,从所述多个组件中的组件收集诊断数据;以及
确认引擎,用于评估所述诊断数据以确定所述组件的状况以进行确认,且用于将确认传输到所述中央服务器。
9.根据权利要求8所述的设备,其中,所述数据收集引擎用于以规则的间隔收集要被传输到所述中央服务器的遥测数据。
10.根据权利要求8所述的设备,还包括用于向用户输出消息的显示器,其中,所述消息用于征求来自用户的授权以收集所述诊断数据。
11.根据权利要求10所述的设备,其中,诊断请求用于请求所述确认引擎确认所述组件是健康的,以在所述中央服务器上训练预测模型。
12.根据权利要求11所述的设备,其中,由所述数据收集引擎收集的遥测数据将被用作所述预测模型的训练数据。
13.一种方法,包括:
从客户端设备的多个组件收集遥测数据,其中,所述遥测数据是利用后台过程收集的;
将所述遥测数据从所述客户端设备传输到中央服务器;
在所述中央服务器处处理所述遥测数据以确定所述客户端设备的健康状况,其中,利用预测模型处理所述遥测数据以识别所述多个组件中的组件的硬件问题;
将消息从所述中央服务器传输到所述客户端设备,其中,所述消息将被显示给用户,并且其中,所述消息要征求来自所述客户端设备的所述用户的授权以收集诊断数据;
在接收到所述授权后从所述组件收集诊断数据;
评估诊断数据以确定组件的状况;以及
将确认从所述客户端设备传输到所述中央服务器。
14.根据权利要求13所述的方法,其中,收集所述遥测数据包括以规则的间隔收集要被传输到所述中央服务器的所述遥测数据。
15.根据权利要求13所述的方法,还包括向所述用户输出消息以征求来自所述用户的授权以收集所述诊断数据。
CN201880092877.4A 2018-09-11 2018-09-11 通过本地诊断验证的硬件更换预测 Pending CN112020681A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2018/050531 WO2020055386A1 (en) 2018-09-11 2018-09-11 Hardware replacement predictions verified by local diagnostics

Publications (1)

Publication Number Publication Date
CN112020681A true CN112020681A (zh) 2020-12-01

Family

ID=69777775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880092877.4A Pending CN112020681A (zh) 2018-09-11 2018-09-11 通过本地诊断验证的硬件更换预测

Country Status (4)

Country Link
US (1) US11392443B2 (zh)
EP (1) EP3756051A4 (zh)
CN (1) CN112020681A (zh)
WO (1) WO2020055386A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112020681A (zh) * 2018-09-11 2020-12-01 惠普发展公司,有限责任合伙企业 通过本地诊断验证的硬件更换预测
US11704205B2 (en) * 2019-08-16 2023-07-18 Verizon Patent And Licensing Inc. Systems and methods for transitioning from legacy computer systems
US11537459B2 (en) * 2020-03-27 2022-12-27 EMC IP Holding Company LLC Automatically predicting device failure using machine learning techniques
EP3930271B1 (en) * 2020-06-24 2023-10-04 Juniper Networks, Inc. Routing engine switchover based on health determined by support vector machine
US11615010B2 (en) * 2021-04-19 2023-03-28 Micron Technology, Inc. Managing consumables using artificial intelligence
US20230064747A1 (en) * 2021-08-24 2023-03-02 Caterpillar Inc. Systems and methods for optimal replacement component pricing

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101170455A (zh) * 2007-11-20 2008-04-30 中兴通讯股份有限公司 异常信息自动上报方法和装置
CN101442525A (zh) * 2007-11-19 2009-05-27 国际商业机器公司 用于执行电子事务的系统和方法
RU2451874C1 (ru) * 2011-03-29 2012-05-27 Открытое акционерное общество "Гипрогазцентр" Способ мониторинга и оценки технического состояния магистрального трубопровода и система для его реализации
US8204717B2 (en) * 2009-04-01 2012-06-19 Honeywell International Inc. Cloud computing as a basis for equipment health monitoring service
WO2012151150A1 (en) * 2011-05-05 2012-11-08 Siemens Energy, Inc. Method for predicting a remaining useful life of an engine and components thereof
CN104142664A (zh) * 2013-05-09 2014-11-12 洛克威尔自动控制技术股份有限公司 使用大数据的工业产品的预测维护

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6782345B1 (en) * 2000-10-03 2004-08-24 Xerox Corporation Systems and methods for diagnosing electronic systems
US7146542B2 (en) 2002-12-20 2006-12-05 Hewlett-Packard Development Company, L.P. Method and apparatus for diagnosis and repair of computer devices and device drivers
US7434097B2 (en) 2003-06-05 2008-10-07 Copan System, Inc. Method and apparatus for efficient fault-tolerant disk drive replacement in raid storage systems
US7373559B2 (en) 2003-09-11 2008-05-13 Copan Systems, Inc. Method and system for proactive drive replacement for high availability storage systems
US7647131B1 (en) * 2006-03-09 2010-01-12 Rockwell Automation Technologies, Inc. Dynamic determination of sampling rates
US7971093B1 (en) 2008-01-16 2011-06-28 Network Appliance, Inc. Apparatus and method to proactively address hard disk drive inefficiency and failure
US20150046756A1 (en) 2013-08-08 2015-02-12 Lsi Corporation Predictive failure analysis to trigger rebuild of a drive in a raid array
US20160205189A1 (en) 2013-08-15 2016-07-14 Hewlett Packard Enterprise Development Lp Proactive monitoring and diagnostics in storage area networks
US9542296B1 (en) 2014-12-01 2017-01-10 Amazon Technologies, Inc. Disk replacement using a predictive statistical model
US9893952B2 (en) 2015-01-09 2018-02-13 Microsoft Technology Licensing, Llc Dynamic telemetry message profiling and adjustment
US9870282B2 (en) * 2015-05-11 2018-01-16 Dell Products, L.P. Systems and methods for providing service and support to computing devices with boot failure
US9792169B2 (en) * 2015-07-29 2017-10-17 Quest Software Inc. Managing alert profiles
US9916194B2 (en) * 2015-10-01 2018-03-13 International Business Machines Corporation System component failure diagnosis
US10684906B2 (en) 2016-06-15 2020-06-16 Microsoft Technology Licensing, Llc Monitoring peripheral transactions
US20180114120A1 (en) * 2016-10-25 2018-04-26 International Business Machines Corporation Cognitive incident analysis and predictive notification
US11348018B2 (en) * 2017-12-19 2022-05-31 Aspen Technology, Inc. Computer system and method for building and deploying models predicting plant asset failure
US11003561B2 (en) * 2018-01-03 2021-05-11 Dell Products L.P. Systems and methods for predicting information handling resource failures using deep recurrent neural networks
US20190361759A1 (en) * 2018-05-22 2019-11-28 At&T Intellectual Property I, L.P. System and method to identify failed points of network impacts in real time
US20200076833A1 (en) * 2018-08-31 2020-03-05 Sophos Limited Dynamic filtering of endpoint event streams
CN112020681A (zh) * 2018-09-11 2020-12-01 惠普发展公司,有限责任合伙企业 通过本地诊断验证的硬件更换预测
US20200293033A1 (en) * 2019-03-13 2020-09-17 General Electric Company Knowledge-based systematic health monitoring system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101442525A (zh) * 2007-11-19 2009-05-27 国际商业机器公司 用于执行电子事务的系统和方法
CN101170455A (zh) * 2007-11-20 2008-04-30 中兴通讯股份有限公司 异常信息自动上报方法和装置
US8204717B2 (en) * 2009-04-01 2012-06-19 Honeywell International Inc. Cloud computing as a basis for equipment health monitoring service
RU2451874C1 (ru) * 2011-03-29 2012-05-27 Открытое акционерное общество "Гипрогазцентр" Способ мониторинга и оценки технического состояния магистрального трубопровода и система для его реализации
WO2012151150A1 (en) * 2011-05-05 2012-11-08 Siemens Energy, Inc. Method for predicting a remaining useful life of an engine and components thereof
CN104142664A (zh) * 2013-05-09 2014-11-12 洛克威尔自动控制技术股份有限公司 使用大数据的工业产品的预测维护

Also Published As

Publication number Publication date
WO2020055386A1 (en) 2020-03-19
EP3756051A4 (en) 2021-10-20
EP3756051A1 (en) 2020-12-30
US20210191799A1 (en) 2021-06-24
US11392443B2 (en) 2022-07-19

Similar Documents

Publication Publication Date Title
CN112020681A (zh) 通过本地诊断验证的硬件更换预测
US20180276913A1 (en) Remote vehicle network monitoring and failure prediction system
US20160232450A1 (en) Storage device lifetime monitoring system and storage device lifetime monitoring method thereof
US20120143564A1 (en) System and method for predicting remaining useful life of device components
CN101999101B (zh) 系统运行预测的确定方法
US10684906B2 (en) Monitoring peripheral transactions
US20170169342A1 (en) System and method for diagnosing at least one component requiring maintenance in an appliance and/or installation
RU2747474C2 (ru) Способ асинхронного выбора совместимых продуктов
CN112148542A (zh) 一种分布式存储集群的可靠性测试方法、装置及系统
CN111857555B (zh) 避免磁盘阵列的故障事件的方法、设备和程序产品
KR20210108874A (ko) 기계 학습을 사용하여 스토리지 장치 장애를 예측하는 시스템 및 장치
US20170257304A1 (en) Systems and methods for monitoring system performance and availability
Wu et al. Adaptive sequential predictive maintenance policy with nonperiodic inspection for hard failures
US6865512B2 (en) Automated medical imaging system maintenance diagnostics
US20220065935A1 (en) Predicting future battery safety threat events with causal models
JP7320443B2 (ja) 互換性のあるモジュールを特定するシステムおよび方法
US20210182739A1 (en) Ensemble learning model to identify conditions of electronic devices
US20210184916A1 (en) Node health prediction based on failure issues experienced prior to deployment in a cloud computing system
US20230335269A1 (en) Splitting and ordering based log file transfer for medical systems
WO2022000285A1 (en) Health index of a service
Svendsen Online failure prediction in UNIX systems
Shokoohi et al. A novel measure for characterizing ultrasound device use and wear
CN111373426A (zh) 供应商选择
US11520390B2 (en) Receiving thermal data and producing system thermal grades
CN118132317A (zh) 一种基于虚拟化技术的电子信息设备故障诊断系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201201

WD01 Invention patent application deemed withdrawn after publication