CN116670654A - 采用多层架构的设备诊断和故障排除 - Google Patents

采用多层架构的设备诊断和故障排除 Download PDF

Info

Publication number
CN116670654A
CN116670654A CN202180088912.7A CN202180088912A CN116670654A CN 116670654 A CN116670654 A CN 116670654A CN 202180088912 A CN202180088912 A CN 202180088912A CN 116670654 A CN116670654 A CN 116670654A
Authority
CN
China
Prior art keywords
information
mode
state
analysis
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180088912.7A
Other languages
English (en)
Inventor
张卫东
郭彦良
黄柏涵
陈懋德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Innopeak Technology Inc
Original Assignee
Innopeak Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Innopeak Technology Inc filed Critical Innopeak Technology Inc
Publication of CN116670654A publication Critical patent/CN116670654A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • G06F11/3062Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations where the monitored property is the power consumption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

提供了系统和方法,用于:从设备获取信息,该信息表示设备的状态;根据多层分析架构对该信息进行分类,其中该多层分析架构包括第一类别和第二类别,该第一类别表示设备的整体状态,该第二类别表示特定的组件、应用、操作或部件的状态;以及对经分类信息的至少子集执行多种模式的分析,以对设备的异常行为进行故障排除或诊断。

Description

采用多层架构的设备诊断和故障排除
背景技术
大量计算设备以越来越快的速度增长。例如,在2021年,仅移动设备就有近150亿台在全球范围内运行。预计到2025年,这一数字将超过180亿。同时,移动电话用户的数量超过70亿,这意味着全球人口的近90%使用移动电话。在移动设备增加的同时,对此类移动设备进行故障排除和解决诸如硬件、软件和/或应用问题等问题的需求和紧迫性也随之增加。目前,在欧洲和北美,超过一半的被退回移动设备已被认定为“未发现故障”,这表明移动设备本身的内部并没有发现问题。此外,即使诊断出问题,该诊断也往往不能解决移动设备的基础问题。
附图说明
根据一个或多个不同的示例、参照以下附图来详细地描述本公开。这些附图仅被提供用于说明的目的,且仅描述典型或示例性的示例。这些说明性示例并不限制或限定本公开,而是为了提供示例以帮助理解。在具体实施方式中讨论附加的示例,并在其处提供进一步的描述。
图1是根据本公开所描述的示例的计算系统的示例性图示,该计算系统从设备获取信息,以及根据多层分析架构对该信息进行分类或组织,以便对该设备的异常行为进行诊断或故障排除。
图2至图6是根据本公开所描述示例的、表示分析架构的不同层的不同类别信息的示例性图示。
图7是根据本公开所描述示例的计算系统的示例性图示,该计算系统输出对设备的分析的信息或结果。
图8是根据本公开所描述示例的计算系统的示例性图示,该计算系统对设备的异常行为进行下游分析、预测、故障排除和/或诊断。
图9是根据本公开所描述示例的示例性流程图,其示出了计算组件如何在多层分析架构中对信息进行获取、分类以及分析。
图10是一种示例性计算组件,其可以用于实施本公开中描述的示例的各种特征。
这些附图并不是穷尽的,并且不将本公开限制于所公开的确切形式。
具体实施方式
为了对设备如移动设备中发生的问题或麻烦(problem,难题、困难)进行诊断和故障排除,可以获取和分析设备的信息,例如电池容量或电池消耗、信号强度、通话掉线、温度和/或运行的进程。常规地,对这种不同类别的信息或不同操作模式的获取不仅是有限的,还是孤立的。因此,例如不同类别的信息——如电池容量或电池消耗相比于温度——可能与其他类别分开获取,而且对这种不同类别的分析也可能彼此分开。这种非统一的方法不仅在很大程度上不足以解决设备问题,而且还会造成用于获取信息的基础设施——如硬件和/或软件——的部署和构建低效。例如,为了收集每种类别的信息,可能要构建、部署和维护单独的基础设施;而且,每种类别的信息可能并没有联系。因此,对设备行为的分析不仅依赖于每种类别的有限数量的信息,而且还受限制于检验单一的因素或假设,而不是检验因素或假设的组合。
本文描述的示例通过实施从设备获取或收集不同类别或层的信息的计算组件例如服务器来解决这些挑战。在一些示例中,不同类别的信息可以关联于或指代:不同的操作或分析模式、不同的硬件组件、不同的软件组件、不同的进程、不同的应用和/或不同的粒度水平(例如,在整个设备的水平或设备的特定部分的水平上)。因此,对设备中的问题或麻烦进行故障排除和/或诊断可以利用不同类别的信息而非单一类别的信息进行增强。这种方法可能非常具有价值,原因在于设备故障往往可能归因于多种原因而不是单一原因。此外,即使设备故障归因于单一原因,对设备故障的诊断和故障排除也可能是一次完成的,而非分开进行,原因在于不同类别的信息被一起收集而非分别收集。
图1为包括计算组件111的计算系统110的示例性图示。该计算组件111可以包括多个处理器和/或服务器。例如,计算组件111可以包括在平台上运行的群集(cluster,簇),该平台执行数据分析和/或存储等功能。计算组件111可以接收或上传(以下称为“接收”)从设备150获取的信息。尽管为了简洁起见示出了仅单个设备150,但计算组件111可以从多个设备获取信息。该信息可以包括与设备150的操作、设备的硬件组件和/或设备的应用有关的日志、度量和/或参数。例如,如上所述,该信息可以包括或表示不同的类别,例如不同的操作或分析模式、不同的硬件组件、不同的软件组件、不同的进程、不同的应用和/或不同的粒度水平(例如,在整个设备的水平或设备的特定部分的水平上)。作为一个非限制性示例,对于不同的分析模式,该信息可以包括以下信息并根据以下信息进行分离或组织:与设备150的整体相关的第一信息151;与设备150的各个组件相关的第二信息152;与在设备150上进行的不同操作有关的第三信息153;与设备150上的各个应用和进程相关的第四信息154;和/或与设备150上的不同设置相关的第五信息155。上述分离或组织可以对应于分析架构的独立层。该信息可以包括来自设备150的与设备150的操作有关的度量、参数和/或指标。该信息可以为已对从设备150获取的原始信息进行处理的信息。例如,该处理可以包括某种算数和/或处理操作。例如,该信息可以是对度量、参数和/或指标的子集(例如,一部分或全部)进行累加的结果,或者是对子集取最小值、最大值、平均值、中值或取模的结果。该处理可以另外或替代地包括清理、重新格式化和/或富集化。
计算组件111可以包括一个或多个硬件处理器和逻辑装置113,该逻辑装置113实施指令以执行计算组件111的功能。计算组件111可以包括在其上运行服务或微服务的一个或多个物理设备或服务器或云服务器。计算组件111可以在数据库112中存储关于设备150的细节以及接收到的信息。数据库112可以通过索引值115进行索引,以对存储在数据库112中的信息进行分类或归类。例如,数据库112可以包括设备150的信息,例如第一信息151、第二信息152、第三信息153、第四信息154和/或第五信息155中的任何信息。该信息可以包括性能度量、属性或参数。在一些示例中,计算组件111可以将存储在数据库112中的数据的至少一部分缓存在缓存器116中,该缓存器116可以是计算组件111的内部存储器结构的一部分。例如,计算组件111可以对数据库112内可能被频繁地访问、引用或分析并且/或者可能频繁地改变(例如,就时间上而言,比阈值标准偏差大的变化和/或比阈值可变性大的变化)的任何信息进行缓存。这样的数据可以包括来自设备150的会频繁更新和/或被优先处理的信息的一部分。如前所述,被优先处理的信息可以包括或关联于设备150的如下信息:最新的信息,和/或归因于最高水平或比例的能量消耗或计算资源利用的信息。
在一些示例中,设备150可以包括但不限于移动设备。这样的设备可以包括移动电话、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、台式机、笔记本电脑、物联网(Internet of Things,IoT)设备、即插即用(Plug and Play,PnP)设备、处理器,例如中央处理单元(Central Processing Units,CPU)、图形处理单元(GraphicsProcessing Unit,GPU)、现场可编程门阵列(Field-Programmable Gate Arrays,FPGA)、专用集成电路(Application-Specific Integrated Circuits,ASIC)、或片上系统(System-on-Chip,SoC)。设备150可以通过网络与其他设备交换数据。与网络的连接可以经由到网络的一个或多个网络设备120来建立,或者以特定(ad-hoc)方式来建立而无需通过网络设备。网络设备120可以包括接入点、路由器、交换机和/或网关。
设备150上的一个或多个传感器和/或仪表(以下称为“传感器”)可以结合一个或多个守护进程来从设备150获取信息(例如,第一信息151、第二信息152、第三信息153、第四信息154、以及第五信息155)。例如,传感器160可以结合植入到设备150内的守护进程161来从设备150获取信息。然后,计算组件111可以从守护进程161上传或获取信息。或者,守护进程161可以将信息上传到计算组件111。在一些示例中,计算组件111可以根据先前描述的具有第一信息151至第五信息155的架构层,对信息进一步进行分类或组织。换言之,当计算组件111从守护进程161接收信息时,该信息可以并没有根据第五信息151到第五信息155进行过组织或分类。该信息可以被存储在数据库112中,并且该信息的至少一部分可以被缓存在缓存器116中。
图2详细说明了第一信息151,该第一信息可以在设备150整体的范畴。例如,第一信息151可以包括:性能度量,例如所利用或所消耗的计算资源(例如,总存储器如固态存储器、存储量、处理能力或电力);发送、接收或交换的数据的量;发送、接收或交换的帧或包的大小;发送、接收或交换的帧或包的数量;和/或发送、接收或交换如帧或包等数据的频率。第一信息151可以在特定的时间段内汇总,例如在24小时时间段内、每小时时间段内、或每周时间段内进行汇总。在图2中,第一信息151可以例如包括:关于存储器利用211的信息(例如,固态存储器或其他存储器的可用总量、已用总量和/或预留总量);关于电力利用212的信息;和/或关于数据包或帧213的信息,。在一些示例中,第一信息151可以基于设备150内所有进程、操作和/或组件的信息的汇总或合计而获取。第一信息151可以提供与设备150的健康和/或状态有关的总体指示。
图3详细说明了第二信息152,该第二信息可以包括与设备150的各个组件有关的信息。在一些示例中,第二信息152可以包括来自于、关于或关联于特定处理器或组件的信息,例如,来自CPU 311的信息、来自GPU 312的信息、来自FPGA 313的信息、来自特定存储器组件314例如双数据速率(Double Data Rate,DDR)同步动态随机存储(SynchronousDynamic Random Access Memory,SDRAM)的信息、来自无线保真(Wireless Fidelity,WiFi)组件315的信息、来自蜂窝组件316的信息、来自摄像头317的信息、来自扬声器318的信息。例如,第二信息152可以包括:跨设备150的不同组件的资源分配和/或功率分配;特定处理器或组件的就能量和/或数据利用和/或可用能量的性能度量或指示,相似于或类似于关于第一信息151所描述的性能度量。第二信息152可以在特定的时间段内汇总,例如在24小时时间段内、在每小时时间段内、或在每周时间段内进行汇总。
图4详细说明了第三信息153,该第三信息可以包括与正在设备150上执行的不同操作有关的信息。例如,不同的操作可以被分为前台操作411和后台操作412。前台操作411可以包括一个或多个当前活动的操作,例如接入互联网、利用特定的应用、打电话和/或捕获图像或视频。在一些示例中,前台操作411可以实际显示在设备150的屏幕上。在一个特定的时间,可能只有一个前台操作正在运行。同时,后台操作412可以包括:正在运行但对设备150的用户不可见的特定操作或进程;休眠或不可见的进程;和/或正在运行以维持设备150的状态的应用,例如某些操作系统功能、打印和/或确认位置。例如,第三信息153可以包括:设备150的不同操作间的资源分配和/或功率分配;前台操作相比于后台操作就能量和/或数据利用和/或可用能量的性能度量或指示,相似于或类似于关于第一信息151所描述的性能度量。第三信息153可以在特定的时间段内汇总,例如在24小时时间段内、在每小时时间段内或在每周时间段内进行汇总。
图5详细说明了第四信息154,该第四信息可以包括与正在设备150上执行的各个应用和/或进程有关的信息。第四信息154可以包括不同的应用和/或不同类别或类型的应用的信息,或与不同的应用和/或不同类别或类型的应用相关联的信息。例如,第四信息154可以包括关于消息传递应用520的信息、关于组织应用522的信息、关于分类应用524的信息、关于分析应用526的信息和/或关于成像或媒体捕获应用528的信息,仅举一些示例。例如,第四信息154可以包括:设备150的不同应用和/或进程间的资源分配和/或功率分配;就能量和/或数据利用的性能度量或指示,相似于或类似于关于第一信息151所描述的性能度量。第四信息154可以在特定的时间段内汇总,例如在24小时时间段内、在每小时时间段内或在每周时间段内进行汇总。
图6详细说明了第五信息155,该第五信息可以包括与设备150上的不同设置有关的信息。在一些示例中,第五信息155可以包括可能对设备150或其具体组件的功耗或利用产生影响的固定的、可调整的或可变的功率因数或参数(以下简称“功率因数”)。功率因数可以包括:处理器的总的、活动的或运行的内核620的数目;和/或处理器(例如CPU、GPU、FPGA)的时钟621操作或运行的频率、周期、速率;和/或帧率。另外,第五信息155可以包括屏幕或显示器(以下称为“屏幕”)的操作状态(例如,开启或关闭)、屏幕的亮度622和/或屏幕的刷新率623。此外,第五信息155可以包括设备150的充电状态624和/或电池水平,例如设备150是否被插入到外部电源或是否仅使用设备150的内部电池进行操作。第五信息155还可以指示设备150是在降低功率或省电的模式下进行操作,还是在正常模式下进行操作。第五信息155还可以包括设备150或设备150的特定组件的温度状态625,该温度状态指示设备150或该特定组件是否过热(例如,内部温度超出温度的阈值范围)。第五信息155还可以包括设备150在其上进行操作的网络的特性、带宽或速度,该网络例如为第五代(FifthGeneration,5G)或第四代(Fourth Generation,4G)网络。第五信息155还可以包括WiFi组件和/或蜂窝组件的功率因数,例如:信号的发送强度或速率;信号的接收强度或速率;发送、接收或交换的帧或包的大小;发送、接收或交换的帧或包的数量;发送、接收或交换的帧或包的速率;或这种帧或包的大小、数量或速率的模式或变化。第五信息155还可以包括多媒体组件的功率因数,该多媒体组件例如为音频组件和视频组件。这些功率因数可以包括音频通道参数、音量、帧率、比特率、流率或音频或视频组件的分辨率。此外,第五信息155可以包括全球导航卫星系统(Global Navigation Satellite System,GNSS)组件的功率因数,如质量或精度水平、信号收集模式、校正服务或所利用的GNSS接收器。另外,第五信息155可以包括DDR组件的功率系数,例如:数据总线的宽度;接口是否为同步启用端口或异步启用端口,例如控制数据传递的时钟启用端口;和/或数据位是在时钟的上升沿还是下降沿被捕获。
从上述示例可以看出,功率因数可以特定于设备150的特定组件,或者可以适用于设备150的整体操作。第五信息155可以包括设备150的不同设置下的资源分配和/或功率分配信息。
在一些示例中,计算组件111可以同时从设备150收集或获取第一信息151、第二信息152、第三信息153、第四信息154、以及第五信息155。响应于特定类别的信息在阈值或正常范围之外,计算组件111于是可以收集该特定类别的额外信息或与该特定类别相关的额外信息,和/或以更频繁的间隔和/或更多的量来收集额外信息。例如,如果第三信息153的一部分表明前台进程在表示正常行为的阈值范围之外运行,例如以超过阈值范围的速率消耗能量或数据,则计算组件111可以收集第三信息153的额外信息或与第三信息153相关的额外信息,和/或第三信息153的一部分。
在其他示例中,计算组件111可以最初收集或获取第一信息151。如果第一信息151指示设备150的整体操作在表示正常行为的阈值范围内,则计算组件111可以不收集第二信息152、第三信息153、第四信息154和/或第五信息155,或者以较低的速率(例如,较少的量和/或较不频繁的间隔)收集第二信息152、第三信息153、第四信息154和/或第五信息155。然而,如果第一信息151的至少一个参数、度量或指标表明设备的整体操作在至少一个阈值范围之外或以其他方式表明异常行为,则计算组件111可以收集额外的信息,例如第一信息151、第二信息152、第三信息153、第四信息154和/或第五信息155,或以更高的速度收集这些信息(例如,较大的量和/或较频繁的间隔)。因此,计算组件111可以基于设备150的运行状态,例如基于设备150是否运行异常,来定制或调整信息的收集。
在一些示例中,对第一信息151、第二信息152、第三信息153、第四信息154和/或第五信息155中任何信息的收集可以以特定的时间间隔触发,例如每十分钟、每小时、每24小时或每星期触发。可替代地,对第一信息151、第二信息152、第三信息153、第四信息154和/或第五信息155中任何信息的收集可以由特定事件触发,该特定事件例如为任何度量或参数表明设备150或其特定组件、应用、进程或特征的异常行为。可替代地,对第一信息151、第二信息152、第三信息153、第四信息154和/或第五信息155中任何信息的收集可以由特定的应用、进程、特征或组件的开始或运行触发。
使用所收集的信息,计算组件111可以不断地监测设备150的行为,并从所收集的信息来确定一个或多个趋势。计算组件111可以执行进一步的分析,详见下文。
由于计算组件111集中收集信息,包括第一信息151、第二信息152、第三信息153、第四信息154和/或第五信息155,计算组件111可以执行不同的分析模式,和/或从不同的多个角度评估设备150的行为。因此,通过考虑设备150的不同组件、应用和/或设置之间的关系和/或相互作用使分析得以增强,而不是一次只检验设备150的一个组件。这种多角度的方法改善了对设备150中的问题或麻烦的诊断和故障排除。
在一些示例中,计算组件111的分析可以由某些因素所触发,例如,响应于第一信息151、第二信息152、第三信息153、第四信息154和/或第五信息155中的任何信息落在阈值之外和/或以其他方式表示异常行为而触发。计算组件111可以以任何顺序或方式执行分析,例如最初使用第一信息分析设备150的整体操作。可替代地,计算组件111可以在最初跳过第一信息151而分析第四信息154以确定一个或多个特定应用的运行状态。作为又一种可能,计算组件111可以在最初分析第二信息152以确定设备150的一个或多个特定组件的操作状态。可替代地或另外地,计算组件111可以并行地分析第一信息151、第二信息152、第三信息153第四信息154和/或第五信息155中的任何两种或更多种信息。
例如,不同的分析模式可以包括第一模式或基础(ground,地面)模式,在该模式下,计算组件111可以分离和/或分析设备150的前台操作和后台操作。第一模式可以至少部分地依赖第三信息153。特别地,计算组件111可以分析前台操作和后台操作的能量和/或数据消耗。在一种特定情况下,设备150的总体能量消耗可能在表示正常行为的阈值范围内,但是前台能量消耗或后台能量消耗之一可能异常地高或超出阈值范围。在另一种情况下,计算组件111可以分析与后台模式相比,在前台模式下特定的操作、进程或应用的能量和/或数据消耗,以确定该特定的操作、进程或应用具体是在前台模式下运行时还是在后台模式下运行时异常地表现。
同时,第二分析模式可以包括功率模式,在该模式下,计算组件111可以根据设备150的电源状态来分离和/或分析信息,例如根据设备150是正在使用外部电源充电还是仅通过电池在运行。作为另一方面,第二模式可以指示设备50是正以降低功率或省电的模式运行还是以正常模式运行。因此,第二分析模式可以至少部分地依赖第五信息155。
接下来,第三分析模式可以包括屏幕模式,在该模式下,计算组件111可以基于设备150的屏幕或其他显示器的运行状态来分离和/或分析信息,例如基于设备150的屏幕或其他显示器是开启还是关闭、或屏幕的亮度水平。因此,第三模式可以至少部分地依赖第五信息155。
第四分析模式可以包括热模式,在该模式下,计算组件111可以基于设备150或其特定组件的温度来分离和/或分析信息。例如,第四模式可以识别设备是否过热以及过热的程度。
计算组件111可以将不同的分析模式和/或来自第一信息151、第二信息152、第三信息153、第四信息154和第五信息155的不同类别信息相结合,以便丰富其分析并更可靠地对设备150进行诊断或故障排除。由于分析的丰富性,计算组件111可以识别或预测导致设备150的异常行为的特定组件或因素,和/或确定不同组件或因素之间的联系。另外,计算组件111可以预测某些用户行为是否正在引起异常行为。作为一个具体示例,计算组件111可以按时间和能量来确定或分析不同条件下的日常应用使用情况,例如当设备150在充电时相比于设备150基于电池电量进行运行时。作为另一示例,该分析和更可靠地对设备150中的问题或麻烦进行诊断或故障排除。作为具体的示例,计算组件111可以在设备150过热时相比于设备150不过热时,按时间和能量来确定或分析日常的应用使用。计算组件111还可以将上述示例分析与设备150的屏幕的状态相结合。例如,在设备150过热且屏幕关闭的情况下,当特定应用在前台运行,计算组件111可以确定或预测该特定应用可能是引起设备150过热的至少一个原因。通过获取屏幕关闭的信息,计算组件111可以将可能导致设备150的异常行为的某些变量或因素隔离。然而,如果屏幕是打开的,并且设备150过热,当特定应用正在前台运行时,计算组件111可以确定用户行为可能是设备150过热的至少一个原因。作为又一示例,计算组件111可以按时间和能耗来确定或分析CPU利用,以确定CPU利用是否导致设备150例如SoC过热。
计算组件111还可以生成与所收集的信息、趋势和/或所执行的一个或多个分析的结果相关的显示710,如图7所示。
图8示出了计算组件111的下游分析、预测、故障排除和/或诊断组件820。在图8中,该组件820可以例如与机器学习组件810一起进一步对设备150中的异常行为进行分析、故障排除和/或诊断,以确定异常行为的一个或多个原因。作为一个示例,如果在特定应用位于前台的情况下设备150在使用电池电源操作时正常操作,但是在充电状态下异常或反常,则组件820可以确定、推断或预测该充电状态可能使设备150反常地操作,或者至少在上述应用处于前台时使设备150反常地操作。因此,在前台运行的应用与充电状态的结合可能导致设备150的异常操作。根据这样的确定,组件820可以输出或预测这样的指示,并将这样的指示传送到向设备150部署修复的不同计算组件,和/或组件820本身向设备150部署修复。例如,组件820可以在特定应用正在前台运行时预测或建议补救措施,例如限制设备150的充电速度或充电量,或者组件820可以在设备150在充电时禁用该特定应用。另外地或可替代地,组件820可以主动地重新分配或重新调度设备150上的未来任务或操作,以减少设备150的异常操作再次发生的可能性。
机器学习组件810可以被训练用以预测导致设备150行为异常的特定原因的概率,和/或确定待实施的一个或多个纠正措施。该预测和确定可以基于历史数据,例如,指示特定原因和/或纠正措施的数据、和/或指示特定纠正措施解决先前异常行为的效力或程度的数据。机器学习组件810可以按顺序使用第一组训练数据和第二组训练数据进行训练,该第一组训练数据表明导致类似程度或类型的异常行为的原因的正确确定,以及该第二组训练数据表明导致这种类似程度或类型的异常行为的原因的不正确确定。可替代地或者另外地,机器学习组件810可以使用第一组训练数据和第二组训练数据依次进行训练,该第一组训练数据表明具体原因正确的情况,该第二组训练数据表明具体原因不正确的情况。
机器学习组件810可以基于具体的所确定原因来确定一个或多个待实施的纠正措施。例如,如果特定的组件或应用被预测为导致异常行为,机器学习组件810可以针对该特定组件或应用确定具体的补救措施,例如禁用、封存或隔离该特定组件或应用。
图9示出了计算组件900,该计算组件900包括一个或多个硬件处理器902和机器可读存储介质904,该机器可读存储介质904存储有机器可读/机器可执行指令集,这些指令在被执行时使(一个或多个)硬件处理器902执行降低计算成本同时保持网络服务和性能的所说明方法。应理解的是,除非另有说明,否则在本文讨论的各种实施例的范围内,可以存在额外的、较少的或替代的步骤,这些步骤以类似的或替代的顺序执行或者并行执行。计算组件900可以被实施为图1至图8的计算组件111。计算组件900可以包括服务器。机器可读存储介质904可以包括图10中描述的合适的机器可读存储介质。图9总结并进一步阐述了之前描述的一些方面。
在步骤906,(一个或多个)硬件处理器902可以执行存储在机器可读存储介质904中的机器可读/机器可执行指令,以获取来自设备(例如,设备150)的信息(例如,第一信息151、第二信息152、第三信息153、第四信息154和/或第五信息155)。在一些示例中,在(一个或多个)硬件处理器902收集或获取信息时,该信息可能没有被分类。因此,在步骤908,(一个或多个)硬件处理器902可以执行存储在机器可读存储介质904中的机器可读/机器可执行指令,以根据多层分析架构对信息进行分类、组织、集群或分层。该多层分析架构可以至少包括指示设备的整体状态的第一类别(例如,第一信息151)和指示特定组件、应用、操作或部件(feature,特征)的状态的第二类别(例如,第二信息152、第三信息153、第四信息154和/或第五信息155),如关于图1至图6所描述的。
在步骤910,(一个或多个)硬件处理器902可以执行存储在机器可读存储介质904中的机器可读/机器可执行指令,以对经分类信息的至少子集(例如,一部分或全部)执行多种模式的分析,以对设备的异常行为进行故障排除或诊断。多种模式可以包括第一模式、第二模式、第三模式和第四模式中的任何两种模式。因此,(一个或多个)硬件处理器902可以从多个角度对设备的状态进行分析,以隔离异常行为的一个或多个特定原因,和/或识别可能结合起来导致异常行为的不同因素之间的联系。因此,由于分析异常行为的粒度和角度的增加,诊断异常行为或对设备排除故障的功效和效率也大大增加。该分析还可以包括下游机器学习或其他算法,以更具体地预测或确定导致异常行为的原因,并部署补救措施来解决异常行为,如关于图8所描述的。
图10示出了示例性计算机系统1000的框图,本文描述的各种示例可以在该计算机系统中实施。计算机系统1000包括用于传送信息的总线1002或其他通信机构,以及与总线1002耦合以处理信息的一个或多个硬件处理器1004。(一个或多个)硬件处理器1004可以例如是一个或多个通用微处理器。
计算机系统1000还包括与总线1002耦合以用于存储待由处理器1004执行的信息和指令的主存储器1006,例如随机存取存储器(Random Access Memory,RAM)、高速缓存和/或其他动态存储设备。主存储器1006也可以用于在待由处理器1004执行的指令被执行期间存储临时变量或其他中间信息。这样的指令在被存储在处理器1004可访问的存储介质中时使计算机系统1000成为专用机器,该专用机器被定制用以执行指令中指定的操作。
计算机系统1000还包括与总线1002耦合以用于存储用于处理器1004的静态信息和指令的只读存储器(Read Only Memory,ROM)1008或其他静态存储设备。设置有与总线1002耦合以用于存储信息和指令的存储设备1010,例如磁盘、光盘或优盘(USB thumbdrive,闪存盘)等。
计算机系统1000可以通过总线1002耦合到显示器1012,例如液晶显示器(LiquidCrystal Display,LCD)(或触摸屏),以用于向计算机用户显示信息。包括字母数字和其他按键的输入设备1014被耦合到总线1002,以用于将信息和命令选择传达给处理器1004。另一种类型的用户输入设备是光标控制装置1016,例如鼠标、轨迹球或光标方向键,以用于将方向信息和命令选择传达给处理器1004并控制光标在显示器1012上的移动。在一些示例中,与光标控制装置相同的方向信息和命令选择可以通过在没有光标的触摸屏上接收触摸来实现。
计算系统1000可以包括用于实施GUI的用户界面模块,该模块可以作为由(一个或多个)计算设备执行的可执行软件代码存储在大容量存储设备中。该模块和其他模块可以包括例如组件,诸如软件组件、面向对象的软件组件、类组件和任务组件、进程、函数、属性、程序、子程序、程序代码段、驱动程序、固件、微码、电路、数据、数据库、数据结构、表、数组和变量。
一般来说,本文所用的词语“组件”、“系统”、“部件”、“数据库”、“数据存储”等可以指以硬件或固件实施的逻辑,或指可能具有入口点和出口点、以编程语言(例如,Java、C或C++)编写的软件指令的集合。软件组件可以被编译和连接成可执行程序、安装在动态链接库中,或者可以用解释性编程语言(例如,BASIC、Perl或Python)编写。将理解的是,软件组件可以从其他组件或其本身被调用,并且/或者可以被调用以响应检测到的事件或中断。被配置为在计算设备上执行的软件组件可以设置于计算机可读介质上,例如光盘、数字视频光盘、闪存驱动器、磁盘或任何其他有形介质,或作为数字下载(并且可能最初以压缩或可安装格式存储,其在执行前需要安装、解压或解密)。这种软件代码可以部分或全部存储在执行计算设备的存储设备上,以供计算设备执行。软件指令可以嵌入固件中,例如EPROM。还将理解的是,硬件组件可以由连接的逻辑单元组成,上述逻辑单元例如为门和触发器,和/或可以由可编程单元组成,上述可编程单元例如为可编程门阵列或处理器。
计算机系统1000可以使用下述来实施本文所描述的技术:定制的硬连线逻辑装置、一个或多个ASIC或FPGA、固件和/或程序逻辑装置,其与计算机系统相结合以使计算机系统1000成为专用机器或将其编程为专用机器。根据一个示例,本文的技术由计算机系统1000响应于(一个或多个)处理器1004执行主存储器1006中包含的一个或多个指令的一个或多个序列而执行。这样的指令可以从另一个存储介质例如存储设备1010读入主存储器1006。执行包含在主存储器1006中的指令的序列会使(一个或多个)处理器1004执行本文描述的处理步骤。在可替代的示例中,可以用硬连线电路来代替软件指令或与软件指令结合使用。.
本文使用的术语“非暂时性介质”及类似术语是指存储下述数据和/或指令的任何介质,上述数据和/或指令使机器以特定方式运行。这种非暂时性介质可以包括非易失性介质和/或易失性介质。非易失性介质包括例如光盘或磁盘,如存储设备1010。易失性介质包括动态存储器,如主存储器1006。非暂时性介质的常见形式包括例如软盘、软磁盘、硬盘、固态驱动器、磁带或任何其他磁性数据存储介质、CD-ROM、任何其他光学数据存储介质、任何具有孔的图案的物理介质、RAM、PROM和EPROM、FLASH-EPROM、NVRAM、任何其他存储芯片或盒、以及相同的网络版本。
非暂时性介质与传输介质不同,但可与传输介质一起使用。传输介质参与非暂时性介质之间的信息传输。例如,传输介质包括同轴电缆、铜线和光纤,包括构成总线1002的导线。传输介质也可以采用声波或光波的形式,例如在无线电波和红外数据通信过程中产生的那些。
计算机系统1000还包括耦合到总线1002的通信接口1018。网络接口1018提供与一个或多个网络链路耦合的双向数据通信,上述一个或多个网络链路与一个或多个本地网络连接。例如,通信接口1018可以是综合服务数字网络(Integrated Services DigitalNetwork,ISDN)卡、电缆调制解调器、卫星调制解调器或提供与相应类型的电话线的之间的数据通信连接的调制解调器。作为另一示例,网络接口1018可以是局域网(Local AreaNetwork,LAN)卡,以提供与兼容的局域网的数据通信连接(或是利用WAN进行通信的WAN组件)。也可以实施无线链路。在任何这样的实施中,网络接口1018发送和接收电信号、电磁信号或光学信号,这些信号携带表示各种类型信息的数字数据流。
网络链路通常通过一个或多个网络向其他数据设备提供数据通信。例如,网络链路可以通过本地网络提供与主机或与数据设备的连接,该主机或数据设备由互联网服务提供商(Internet Service Provider,ISP)运营。ISP转而通过世界范围内的分组数据通信网络——现在通常被称为“互联网”——来提供数据通信服务。本地网络和互联网都使用携带数字数据流的电信号、电磁信号或光学信号。通过各种网络的信号、以及在网络链路上的信号——它们通过通信接口1018且将数字数据带入和带出计算机系统1000——是传输媒体的示例形式。
计算机系统1000可以通过(一个或多个)网络、网络链路和通信接口1018发送消息和接收数据,包括程序代码。在互联网的示例中,服务器可以通过互联网、ISP、本地网络和通信接口1018来传输用于应用程序的所请求代码。收到的代码可以由处理器1004在其收到时执行,和/或存储在存储设备1010中或其他非易失性存储装置中,以便后续执行。
前文所描述的每个过程、方法和算法可以以代码组件实施并且通过代码组件完全或部分地自动化,上述代码组件由包括计算机硬件的一个或多个计算机系统或计算机处理器执行。上述一个或多个计算机系统或计算机处理器也可以在“云计算”环境下或作为“软件即服务”(Software as a Service,SaaS)运行以支持相关操作的执行。这些过程和算法可以部分或全部在专用电路中实施。上述的各种特征和过程可以相互独立使用,也可以以各种方式组合。不同的组合和子组合旨在落入本公开的范围内,某些方法或过程块在一些实施中可以省略。本文描述的方法和过程也不限于任何特定的顺序,与之相关的块或状态可以以其他适当的顺序执行,或者可以并行执行,或者以其他方式执行。块或状态可以被添加到所公开的示例中,或从所公开的示例中删除。某些操作或过程的性能可以分布在计算机系统或计算机处理器之间,不仅仅驻留在一台机器内,而且部署在多个机器上。
如本文所用,电路可以利用任何形式的硬件、软件或其组合来实现。例如,一个或多个处理器、控制器、ASIC、PLA、PAL、CPLD、FPGA、逻辑组件、软件程序或其他机制可被实施以构成电路。在实施过程中,本文所描述的各种电路可以作为分立电路来实现,或者所描述的功能和特征可以在一个或多个电路中部分或全部共享。即使各种特征或功能要素可以被单独描述或宣称为单独的电路,但这些特征和功能可以在一个或多个共同的电路之间共享,这样的描述不应要求或暗示需要单独的电路来实现这些特征或功能。在电路全部或部分使用软件实现的情况下,这样的软件可以被实施以与计算系统或处理系统例如计算机系统1000一起运行,该计算系统或处理系统能够执行关于其所描述的功能。
如本文所使用的,术语“或”可被解释为包含性的或排他的意义。此外,对资源、操作或结构的单数描述不应理解为排除复数。条件性语言例如“可”、“也许”、“可能”或“可以”,除非特别说明或在使用的上下文中以其他方式理解,否则一般旨在表示某些示例包括某些特征、要素和/或步骤,而其他示例不包括这些特征、要素和/或步骤。
本文件中使用的术语和短语及其变化,除非另有明确说明,否则应被理解为开放式的,而不是限制性的。诸如“常规”、“传统”、“正常”、“标准”、“已知”等形容词以及类似含义的术语不应解释为将所描述的项目限制在给定时间段或截至给定时间可用的项目,而是应理解为包括可能在现在或将来任何时候都可用或已知的常规、传统、正常或标准的技术。所存在的扩宽性词语和短语,诸如“一个或多个”、“至少”、“但不限于”或类似短语,在某些情况下不应理解为,在可能没有这种扩宽性短语的情况下意欲或要求采用较窄的情况。
除非上下文另有要求,否则在本说明书和权利要求书中,词语“包括”及其变体,例如“包括”和“包含”应理解为开放、包容的意义,即“包括但不限于”。在整个说明书中记载的数值范围旨在作为一种简化符号,其单独提及落在范围内的每个单独的值,包括定义范围的值;并且每个单独的值均被纳入说明书中,如同在此单独记载那样。此外,单数形式的“一(a)”、“一(an)”和“该(the)”包括复数指称,除非上下文有明确规定。短语“至少一个”、“选自…组的至少一个”或“选自由…构成的组的至少一个”等应解释为非连接词(例如,不能解释为A中的至少一个和B中的至少一个)。

Claims (20)

1.一种计算机实施的方法,包括:
从设备获取信息,所述信息表示所述设备的状态;
根据多层分析架构对所述信息进行分类,其中所述多层分析架构包括第一类别和第二类别,所述第一类别表示所述设备的整体状态,所述第二类别表示特定的组件、应用、操作或部件的状态;以及
对经分类信息的至少子集执行多种模式的分析,以对所述设备的异常行为进行故障排除或诊断。
2.根据权利要求1所述的计算机实施的方法,其中所述第二类别表示特定组件的状态;以及所述多层分析架构还包括第三类别,所述第三类别表示所述设备的特定操作的状态,所述特定操作表示在所述设备上运行的特定应用或进程的前台或后台状态。
3.根据权利要求2所述的计算机实施的方法,其中所述多层分析架构还包括第四类别,所述第四类别表示特定应用或进程的功率或数据利用。
4.根据3所述的计算机实施的方法,其中所述多层分析架构还包括第五类别,所述第五类别表示所述设备的特定变量设置。
5.根据权利要求4所述的计算机实施的方法,其中所述特定变量设置包括在中央处理单元(CPU)上运行的内核的数量或所述CPU的时钟的频率。
6.根据权利要求4所述的计算机实施的方法,其中所述特定变量设置包括所述设备的屏幕或显示器的亮度或刷新率。
7.根据权利要求1所述的计算机实施的方法,其中执行所述多种模式的分析包括根据第一模式、第二模式、第三模式和第四模式中的至少两种模式来执行分析,其中:
所述第一模式基于一个或多个应用或进程的前台或后台状态;
所述第二模式基于所述设备的电源充电状态;
所述第三模式基于所述设备的屏幕或显示器的状态;以及
所述第四模式基于所述设备的温度。
8.根据权利要求7所述的计算机实施的方法,其中执行所述多种模式的分析包括根据至少所述第二模式来执行分析,其中所述电源充电状态表示所述设备是在使用外部电源进行充电,还是在消耗所述设备的内部电池而没有使用外部电源进行充电。
9.根据权利要求7所述的计算机实施的方法,其中执行所述多种模式的分析包括根据至少所述第三模式来执行分析,其中所述屏幕或显示器的状态表示所述屏幕或显示器是打开还是关闭。
10.根据权利要求7所述的计算机实施的方法,其中执行所述多种模式的分析包括根据至少所述第四模式来执行分析,其中所述设备的温度表示所述设备是否过热。
11.一种计算系统,包括:
一个或多个处理器;以及
存储有指令的存储器,所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器:
从设备获取信息,所述信息表示所述设备的状态;
根据多层分析架构对所述信息进行分类,其中所述多层分析架构包括第一类别和第二类别,所述第一类别表示所述设备的整体状态,所述第二类别表示特定的组件、应用、操作或部件的状态;以及
对经分类信息的至少子集执行多种模式的分析,以对所述设备的异常行为进行故障排除或诊断。
12.根据权利要求11所述的计算系统,其中所述第二类别表示特定组件的状态;以及所述多层分析架构还包括第三类别,所述第三类别表示所述设备的特定操作的状态,所述特定操作表示在所述设备上运行的特定应用或进程的前台或后台状态。
13.根据权利要求12所述的计算系统,其中所述多层分析架构还包括第四类别,所述第四类别表示特定应用或进程的功率或数据利用。
14.根据权利要求13所述的计算系统,其中所述多层分析架构还包括第五类别,所述第五类别表示所述设备的特定变量设置。
15.根据权利要求14所述的计算系统,其中所述特定变量设置包括在中央处理单元(CPU)上运行的内核的数量或所述CPU的时钟的频率。
16.根据权利要求14所述的计算系统,其中所述特定变量设置包括所述设备的屏幕或显示器的亮度或刷新率。
17.根据权利要求10所述的计算系统,其中执行所述多种模式的分析包括根据第一模式、第二模式、第三模式和第四模式中的至少两种模式来执行分析,其中:
所述第一模式基于一个或多个应用或进程的前台或后台状态;
所述第二模式基于所述设备的电源充电状态;
所述第三模式基于所述设备的屏幕或显示器的状态;以及
所述第四模式基于所述设备的温度。
18.一种非暂态存储介质,所述非暂态存储介质存储有指令,所述指令在由计算系统的至少一个处理器执行时使所述计算系统执行包括下述的方法:
从设备获取信息,所述信息表示所述设备的状态;
根据多层分析架构对所述信息进行分类,其中所述多层分析架构包括第一类别和第二类别,所述第一类别表示所述设备的整体状态,所述第二类别表示特定的组件、应用、操作或部件的状态;以及
对经分类信息的至少子集执行多种模式的分析,以对所述设备的异常行为进行故障排除或诊断。
19.根据权利要求18所述的非暂态存储介质,其中所述第二类别表示特定组件的状态;以及所述多层分析架构还包括第三类别,所述第三类别表示所述设备的特定操作的状态,所述特定操作表示在所述设备上运行的特定应用或进程的前台或后台状态。
20.根据权利要求18所述的非暂态存储介质,其中执行所述多种模式的分析包括根据第一模式、第二模式、第三模式和第四模式中的至少两种模式来执行分析,其中:
所述第一模式基于一个或多个应用或进程的前台或后台状态;
所述第二模式基于所述设备的电源充电状态;
所述第三模式基于所述设备的屏幕或显示器的状态;以及
所述第四模式基于所述设备的温度。
CN202180088912.7A 2020-12-31 2021-12-30 采用多层架构的设备诊断和故障排除 Pending CN116670654A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063132851P 2020-12-31 2020-12-31
US63/132,851 2020-12-31
PCT/US2021/065751 WO2022126036A1 (en) 2020-12-31 2021-12-30 Diagnosis and troubleshooting of devices using multiple layer architecture

Publications (1)

Publication Number Publication Date
CN116670654A true CN116670654A (zh) 2023-08-29

Family

ID=81974773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180088912.7A Pending CN116670654A (zh) 2020-12-31 2021-12-30 采用多层架构的设备诊断和故障排除

Country Status (3)

Country Link
US (1) US20230333958A1 (zh)
CN (1) CN116670654A (zh)
WO (1) WO2022126036A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103270466B (zh) * 2010-12-27 2016-08-10 微软技术许可有限责任公司 经由对定时器相关任务的协调和选择性操作的功率管理
CN103765409A (zh) * 2011-09-06 2014-04-30 英特尔公司 有功率效率的处理器体系结构
US9483344B2 (en) * 2012-04-05 2016-11-01 Assurant, Inc. System, method, apparatus, and computer program product for providing mobile device support services
US10949316B2 (en) * 2018-06-03 2021-03-16 Apple Inc. Detection and analysis of energy consumption of software applications

Also Published As

Publication number Publication date
US20230333958A1 (en) 2023-10-19
WO2022126036A1 (en) 2022-06-16

Similar Documents

Publication Publication Date Title
JP7451479B2 (ja) コンピューティング・デバイスについてのシステム性能およびイベント・データを収集、追跡、および記憶するためのシステムおよび方法
US11321210B2 (en) System and method for cloud-device collaborative real-time user experience and performance abnormality detection
US11811588B2 (en) Configuration management and analytics in cellular networks
US11175974B2 (en) Management of a fault condition in a computing system
CN104956715B (zh) 对移动设备上的行为特征的自适应观察
EP2850864B1 (en) System, apparatus, and method for adaptive observation of mobile device behavior
US9495537B2 (en) Adaptive observation of behavioral features on a mobile device
CN111491552B (zh) 按照情景分组用于健康护理监测的传感器通道
US10795750B2 (en) Auto bug capture
US11212188B2 (en) Communication network out-of-capacity predictions
WO2022127944A2 (zh) 一种用于电子设备的监控方法、装置及电子设备
Theera-Ampornpunt et al. Using big data for more dependability: a cellular network tale
US20230333958A1 (en) Diagnosis and troubleshooting of devices using multiple layer architecture
US12066908B2 (en) System and method for predicting and avoiding hardware failures using classification supervised machine learning
US20230388208A1 (en) Collecting and visualizing health profile data of radio access network components
CN114116128A (zh) 容器实例的故障诊断方法、装置、设备和存储介质
CN116701127B (zh) 一种基于大数据的应用性能监控方法及平台
WO2019011727A1 (en) UPGRADE RECOMMENDATION ENGINE
CN116582406B (zh) 监控数据的上传方法及装置
US20170264664A1 (en) Moderating application communications according to network conditions
US20240356977A1 (en) System and method for managing compliance failures based on estimations for remediation
CN117215812A (zh) 硬盘故障预测方法、装置、设备及存储介质
CN115242513A (zh) 广域网链路流量异常告警方法、装置、设备、介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination