CN108255669A - 监视计算机基础设施中执行的应用的批处理的方法和系统 - Google Patents

监视计算机基础设施中执行的应用的批处理的方法和系统 Download PDF

Info

Publication number
CN108255669A
CN108255669A CN201711466696.7A CN201711466696A CN108255669A CN 108255669 A CN108255669 A CN 108255669A CN 201711466696 A CN201711466696 A CN 201711466696A CN 108255669 A CN108255669 A CN 108255669A
Authority
CN
China
Prior art keywords
batch
data
failure
monitoring software
consumption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711466696.7A
Other languages
English (en)
Inventor
J·I·艾尔瓦兹·马考斯
B·德美利兹
F·罗谢特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bull SA
Original Assignee
Bull SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bull SA filed Critical Bull SA
Publication of CN108255669A publication Critical patent/CN108255669A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3414Workload generation, e.g. scripts, playback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • G06F11/3062Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations where the monitored property is the power consumption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3419Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3428Benchmarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3433Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment for load management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/83Indexing scheme relating to error detection, to error correction, and to monitoring the solution involving signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/835Timestamp
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/865Monitoring of software

Abstract

本发明涉及监视计算机基础设施中执行的应用的批处理的方法和系统。本发明涉及一种监视在计算机基础设施(FW)中执行的应用的按批即批次(BA)处理的方法和系统,该方法由监视软件(LS)实施,该监视软件(LS)被配置为借助以下步骤来检测(60)所述基础设施(FW)的计算机资源的至少一个故障(EC),并识别(70)可能是所述故障(EC)来源的至少一个批次(BA):·记录(50)批次(BA)对所述资源的惯常消耗(CM);·随着时间追踪(51)批次(BA)的执行;·通过监视工具(SU)测量(52)所述资源的瞬时消耗(CI);·为了该识别(70),对于在临近故障(EC)的时段(PE)期间执行的每个批次(BA),比较(53)瞬时消耗(CI)和惯常消耗(CM)。

Description

监视计算机基础设施中执行的应用的批处理的方法和系统
技术领域
本发明涉及计算机基础设施的监视领域,并且尤其是在这些计算机基础设施内执行的应用中的批处理(英文术语为“batch processing”)监视领域。这些批处理出现在大多数应用中,并且是在无用户介入的情况下在计算机上的命令(进程)之后自动运行的。只要一个批次处理结束(不论结果如何),计算机就会处理下一批次。只要堆栈中的所有的批次执行完毕,批处理即结束。
这些处理的启动也可以是自动化的,比如通过一台调度器。批处理必须被调度,以便避免竞争访问问题或为了平缓应用负载。因此,调度器的一般目的是还保证处理的优先次序。实际上,一些处理只能在其他处理结束后再开始执行。批处理被特别用于自动化的任务,例如对于公有或私有实体的全部计算机上的账户管理。成批运行的任务总体上只采用交互或事物任务不使用的处理器周期。它们一般在应用的标准使用时段之外执行(夜晚和周末)但不仅限于此。
背景技术
应用的批处理领域的一个问题是这些处理经常是长时间的且关键性的,上述处理对于在生产期间,即对于用户而言的工作时间,保证应用的良好运行是有必要的。尤其,批处理的执行有时候会导致计算机基础设施资源层面的拥塞,这危害生产中的应用运行。这种拥塞故障经常表征为一个或多个服务器上的一个或多个资源饱和、以及由于资源拥塞而导致的其持续时间的大幅增加。由于执行时间的延长,在一些情况下出现在规定时间内无法执行全部处理。在一些情况下,如果处理不能在想要的时间进行,那么生产也必须停止。因此,在生产中突然产生故障时,为了确定故障的来源应进行分析。一个具体的问题涉及该分析较困难这一事实,特别是当故障与批处理相关时,因为唯一可获得的信息一般与调度机制相关。
在这一背景下,有利地提出一种方案,所述方案提出用于批处理监视的工具、并且允许进行识别可能是在生产中突然发生的拥塞故障的来源的一个或多个处理的诊断。
发明内容
本发明的目的是通过提出一种允许诊断在计算机基础设施中的拥塞故障的方法来解决现有技术的某些不足。
上述目的是通过以下方法来实现的,所述方法监视在计算机基础设施中根据由调度器确定的规划表执行的应用的按批即批次处理,所述方法的特征在于,所述方法由监视软件实施,所述监视软件被配置用于借助实施以下步骤来检测所述基础设施的计算机资源的至少一个拥塞事件,即故障,并且识别可能参与到所述故障的原因的至少一个批次:
-在能由监视软件存取的存储器中,根据代表所述规划表的数据记录代表由批次随着时间对所述基础设施的计算机资源的惯常消耗的数据;
-借助代表所述规划表的数据来随着时间追踪所有批次的执行;
-通过监视工具随着时间测量所述基础设施的计算机资源的瞬时消耗;
-对于在临近检测到的故障的时段期间执行的批次中的每个批次,比较代表瞬时消耗的数据和代表惯常消耗的数据,以允许所述识别。
根据另一个特征,检测所述基础设施的计算机资源的至少一个故障的步骤触发对所述故障加时间戳。
根据另一个特征,对所述故障加时间戳的步骤跟随有由监视软件确定临近该事件的时段,该时段可被扩展到该事件之前和/或随后的时间区间。
根据另一个特征,记录代表计算机资源的惯常消耗的数据的步骤包括对于批次中的每个批次,记录在该批次的整个执行期间的资源消耗简档的步骤。
根据另一个特征,在故障分析时获得的识别步骤触发由监视软件生成诊断报告,所述诊断报告允许为监视软件的用户提供分析和/或决定帮助,以便确定为了避免在未来执行批次时的其他故障而要采取的措施并由此在需要时修改规划表。
根据另一个特征,由监视软件检测至少一个故障的步骤触发在能由监视软件存取的存储器中记录针对在临近故障的所述时段期间执行的批次中的每个批次的标记,该记录尤其借助在测量瞬时消耗的步骤中获得的数据。
根据另一个特征,由监视软件检测至少一个故障的步骤触发在能由监视软件存取的存储器中记录故障历史,记录故障历史尤其借助在测量瞬时消耗的步骤中获得的数据。
根据另一个特征,由监视软件在代表瞬时消耗的数据和代表惯常消耗的数据之间进行比较的步骤,允许对能参与到所述故障的原因的至少一个批次的所述识别。
根据另一个特征,对能参与到所述故障的原因的至少一个批次的所述识别基于关于检测到的且正在分析的故障的数据与关于先前故障的数据之间的至少一个相关性。
根据另一个特征,所述相关性包括以下步骤中的至少一个步骤:
-代表批次的标记的数据和代表故障历史的数据之间的比较性分析;
-代表批次的标记的数据和代表惯常消耗的数据之间的比较性分析。
根据另一个特征,测量瞬时消耗的步骤是借助预先布置的测量各种参数的多个传感器来进行的,其中监视工具将代表如此测量的值的数据传送到监视软件。
根据另一个特征,在测量瞬时消耗的步骤中生成的数据被监视软件用于计算在记录惯常消耗的步骤时存储的数据。
根据另一个特征,借助代表所述规划表的数据来随着时间追踪批次的执行的步骤是在由监视软件的用户进行的预先规划步骤之后获得的,所述预先规划步骤允许监视软件记录代表规划表的数据。
本发明的另一目的是通过提出一种允许诊断在计算机基础设施中的拥塞故障的系统,来解决现有技术的某些不足。
这一目的是通过以下系统来实现的,所述系统为监视在计算机基础设施中根据由调度器确定的规划表执行的应用的按批即批次处理的系统,所述系统的特征在于,所述系统包括计算机部件,在所述计算机部件上执行监视软件,所述监视软件被配置用于借助实施根据本发明的方法来检测所述基础设施的计算机资源的至少一个拥塞事件,即故障,并且识别能参与到所述故障的原因的至少一个批次。
本发明的另一目是通过提出一种允许诊断在计算机基础设施中的拥塞故障的程序,来解决现有技术的某些不足。
这一目的是通过一种计算机程序产品来实现的,所述计算机程序产品存储在能由计算机部件读取的介质上,并包含能被这些计算机部件执行以实施根据本发明的方法的指令。
附图说明
本发明的其他特征和优点在阅读以下参考附图进行的描述之后将会更加明晰,附图中:
-图1表示根据本发明的实施方式的方法的步骤。
-图2表示根据本发明的实施方式的系统。
具体实施方式
本发明涉及监视计算机基础设施中执行的应用的批处理的方法和系统,以及用于实施上述方法的计算机程序产品。
本描述中使用的术语“调度器”和“规划表(CA)”按它们的代表性含义分别表示“调度程序”和“执行的时间规划”或者本领域技术人员的范围内的等价物,并且它们不应以超出它们所指代的功能的限制性的方式被解释。
总的来说,本申请参考功能性特征,并采用术语“一个”或“一”,但很明显对于本领域技术人员而言,这指的是“至少一个”或“至少一”,而不是特指具体数目,除非在本文中有明确说明。此外,本申请涉及计算机部件和计算机基础设施,而没有提供具体的结构性特征或所涉及的终端类型的细节,因为本领域技术人员在阅读本申请中提供的功能性考虑后,将清楚认识到可能的变型。因此,本申请涉及的本说明书和附图不应作限制性的解读。
本申请还涉及一种监视在计算机基础设施(FW)中根据由调度器确定的规划表(CA)执行的应用的按批即批次(batch,BA)处理的方法。该方法一般由监视软件(LS)实施,所述监视软件被配置用于,一方面检测(60)所述基础设施(FW)的计算机资源的至少一个拥塞事件,即故障(EC),并且另一方面识别(70)可能参与到所述故障(EC)的原因的至少一个批次(BA)。优选地,该检测(60)和该识别(70)是借助实施以下步骤而获得的:
-在可由监视软件(LS)存取的存储器中,根据代表所述规划表(CA)的数据记录(50)代表由批次(BA)随着时间对所述基础设施(FW)的计算机资源的惯常消耗(CM)的数据;
-借助代表所述规划表(CA)的数据来随着时间追踪(51)所有批次(BA)的执行;
-通过监视工具(SU)随着时间测量(52)所述基础设施(FW)的计算机资源的瞬时消耗(CI);
-对于在临近检测到的故障(EC)的时段(PE)执行的批次(BA)中的每个批次,比较(53)代表瞬时消耗(CI)的数据和代表惯常消耗(CM)的数据,以允许所述识别(70)。
在一些实施方式中,记录(50)代表计算机资源的惯常消耗(CM)的数据的步骤包括对于批次(BA)中的每个批次记录(500)在该批次的整个执行期间的资源消耗简档(PC)的步骤。实际上,资源消耗在执行时段上不是恒定的,需要考虑在批次的整个执行期间的资源消耗。在一些实施方式中,代表惯常消耗(CM)的数据包括例如代表如下信息的数据,所述信息如处理器功耗、已使用和/或空闲的存储器、存储装置的存储器和/或网络的输入/输出量、机器上运行中的进程等。
在一些实施方式中,检测(60)所述基础设施(FW)的计算机资源的至少一个故障(EC)的步骤触发对所述故障(EC)加时间戳(61)。在一些实施方式中,对所述故障(EC)加时间戳(61)跟随有由监视软件(LS)确定(610)临近该事件的时段(PE),该时段可被扩展到该事件之前和/或随后的时间区间。
在一些实施方式中,由监视软件(LS)对至少一个故障(EC)的检测(60)步骤触发在可由监视软件(LS)存取的存储器中记录(62)针对在临近故障(EC)的所述时段(PE)期间执行的批次(BA)中的每个批次的标记(EB),该记录(62)尤其借助在测量(52)瞬时消耗(CI)的步骤中获得的数据。优选地,在记录(62)批次(BA)的标记(EB)时,监视软件(LS)通过监视工具(SU)采用来自瞬时消耗(CI)的测量(52)的信息,以便生成真实的而不是基于规划表(CA)(并且因此对资源使用的较不精确的估计)的标记。在一些实施方式中,代表这种标记(EB)的数据包括例如代表如下信息的数据,所述信息诸如:总的资源消耗、时间戳、输入/输出数据、可能还有资源消耗简档(PC),例如通过记录(50)惯常消耗(CM)获得的简档之类。此外,输入/输出数据可以是不同形式的,比如使用的或生成的文件、数据库、来源于网络(内联网、外联网、因特网……)的数据等。
在一些实施方式中,由监视软件(LS)对至少一个故障(EC)的检测(60)步骤触发在可由监视软件(LS)存取的存储器中记录(63)故障历史(HI),记录(63)故障历史(HI)尤其借助在测量(52)瞬时消耗(CI)的步骤中获得的数据。在一些实施方式中,代表该故障历史(HI)的数据包括例如代表如下信息的数据,所述信息诸如:时间戳、故障时段上执行的批次的上下文、总的资源消耗、可能还有来自于在先前故障的分析期间获得的识别(70)的诊断(RD)之类。
在一些实施方式中,由监视软件(LS)在代表瞬时消耗(CI)的数据和代表惯常消耗(CM)的数据之间进行比较(53)的步骤,允许对可能参与到所述故障(EC)的原因的至少一个批次(BA)的所述识别(70)。该比较(53)步骤尤其可以与至少一个变量计算相对应,其例如对于相对于阈值或与惯常平均值的比较确认,识别每个批次的资源使用水平。优选地,可能参与到所述故障(EC)的原因的至少一个批次(BA)的所述识别(70)基于关于检测到的且正在分析的故障(EC)的数据与关于先前故障的数据之间的至少一个相关性(700)。在一些实施方式中,所述相关性(700)至少包括以下步骤之一:
-代表批次的标记(EB)的数据和代表故障历史(HI)的数据之间的比较性分析(701);
-代表批次的标记(EB)的数据和代表惯常消耗(CM)的数据之间的比较性分析(702)。
在一些实施方式中,在故障(EC)分析时获得的识别(70)步骤触发由监视软件(LS)生成(71)诊断报告(RD),所述诊断报告(RD)允许为监视软件(LS)的用户提供分析和/或决定帮助,以便确定为了避免在未来执行批次(BA)时的其他故障(CE)而要采取的措施并由此在需要时修改规划表(CA)。实际上,诊断报告可以例如以资源使用的综合表格的形式呈现,表明例如相对于惯常消耗的使用水平。这种类型的报告或表格可以将作为故障特征的资源突出体现出来,例如列出检测到的故障特征。因此,访问与在拥塞时缺少的资源相关的信息的用户可以识别可能在故障中涉及到的每个批次,这允许修改批次的规划表或者甚至重新组织计算机基础设施。
在一些实施方式中,测量(52)瞬时消耗(CI)的步骤是借助预先布置(520)的测量各种参数的多个传感器来进行的,其中监视工具(SU)将代表如此测量的值的数据传送到监视软件(LS)。为了监视计算机基础设施(FW),通常优选布置一般由多个特定工具进行管理的多个传感器,所述多个传感器中的每个传感器对各种类型的的参数(通常为物理参数)中的至少一个参数进行监视,诸如例如处理器功耗、已使用和/或空闲的存储器、存储装置的存储器和/或网络的输入/输出量、机器上运行中的进程等。监视软件(LS)可以被配置用于与该述监视工具(SU)直接通信,或者以后访问由该监视工具(SU)测量的数据。
在一些实施方式中,在测量(52)瞬时消耗(CI)的步骤中生成的数据被监视软件(LS)用于计算在记录(50)惯常消耗(CM)的步骤时存储的数据。
在一些实施方式中,借助代表所述规划表(CA)的数据来随着时间追踪(51)批次(BA)的执行的步骤是在由监视软件(LS)的用户进行的预先规划步骤(59)之后获得的,所述预先规划步骤(59)允许监视软件(LS)记录代表规划表(CA)的数据。
因此本申请还涉及批处理的监视系统。该系统包括计算机部件,在所述计算机部件上执行被配置为实施根据本发明的各种实施方式的方法的监视软件(LS)。如图2所示,借助它们之间并且尤其在计算机基础设施(FW)中的监视工具(SU)与监视软件之间的通信,这样的计算机部件可以与在被监视的计算机基础设施(FW)中的计算机部件分开,但是当然可以在该计算机基础设施(FW)内执行监视。所述基础设施(FW)的计算机资源与这些计算机部件自然包括例如在彼此通信的服务器上实现的至少一个处理器和至少一个存储器或数据库。另一方面,本申请还涉及一种计算机程序产品,所述计算机程序产品存储在能由计算机部件读取的介质上,并包含能被这些计算机部件执行以实施根据本发明的方法的指令。因此,由本方法提出的功能可以布置在各种计算机部件上,以便监视各种计算机基础设施(FW)。
本申请参考附图和/或各种实施方式描述了各种技术特征和优点。本领域技术人员将理解给定实施方式的技术特征实际上可以与另一种实施方式的特征相结合,只要不明确提及相反的情况,或者只要这些特征不明显不一致或者该结合不能提供与本申请中提及的至少一个技术问题的解决方案即可。此外,给定实施方式中描述的技术特征可以独立于该实施方式中的其他特征,只要不明确提及相反的情况即可。
显然,对于本领域技术人员来说,在不脱离要求保护的本发明的应用范围的情况下,本发明可使实施方式具有许多其他具体形式。因此,所述实施方式应视为说明性例子,并且可以在由所附权利要求的范围限定的范围内进行修改,并且本发明不应局限于以上给出的细节。

Claims (15)

1.一种监视在计算机基础设施(FW)中根据由调度器确定的规划表(CA)执行的应用的按批即批次(BA)处理的方法,所述方法的特征在于,所述方法由监视软件(LS)实施,所述监视软件(LS)被配置用于借助实施以下步骤来检测(60)所述基础设施(FW)的计算机资源的至少一个拥塞事件,即故障(EC),并且识别(70)能参与到所述故障(EC)的原因的至少一个批次(BA):
●在能由监视软件(LS)存取的存储器中,根据代表所述规划表(CA)的数据来记录(50)代表由批次(BA)随着时间对所述基础设施(FW)的计算机资源的惯常消耗(CM)的数据;
●借助代表所述规划表(CA)的数据来随着时间追踪(51)所有批次(BA)的执行;
●通过监视工具(SU)随着时间测量(52)所述基础设施(FW)的计算机资源的瞬时消耗(CI);
●对于在临近检测到的故障(EC)的时段(PE)期间执行的批次(BA)中的每个批次,比较(53)代表瞬时消耗(CI)的数据和代表惯常消耗(CM)的数据,以允许所述识别(70)。
2.根据权利要求1所述的方法,其特征在于,检测(60)所述基础设施(FW)的计算机资源的至少一个故障(EC)的步骤触发对所述故障(EC)加时间戳(61)。
3.根据权利要求2所述的方法,其特征在于,对所述故障(EC)加时间戳(61)的步骤跟随有由监视软件(LS)确定(610)临近该事件的时段(PE),该时段可被扩展到该事件之前和/或随后的时间区间。
4.根据权利要求1至3之一所述的方法,其特征在于,记录(50)代表计算机资源的惯常消耗(CM)的数据的步骤包括对于批次(BA)中的每个批次,记录(500)在该批次的整个执行期间的资源消耗简档(PC)的步骤。
5.根据权利要求1至4之一所述的方法,其特征在于,在故障(EC)分析时获得的识别(70)步骤触发由监视软件(LS)生成(71)诊断报告(RD),所述诊断报告(RD)允许为监视软件(LS)的用户提供分析和/或决定帮助,以便确定为了避免在未来执行批次(BA)时的其他故障(CE)而要采取的措施并由此在需要时修改规划表(CA)。
6.根据权利要求1至5之一所述的方法,其特征在于,由监视软件(LS)检测(60)至少一个故障(EC)的步骤触发在能由监视软件(LS)存取的存储器中记录(62)针对在临近故障(EC)的所述时段(PE)期间执行的批次(BA)中的每个批次的标记(EB),该记录(62)尤其借助在测量(52)瞬时消耗(CI)的步骤中获得的数据。
7.根据权利要求1至6之一所述的方法,其特征在于,由监视软件(LS)检测(60)至少一个故障(EC)的步骤触发在能由监视软件(LS)存取的存储器中记录(63)故障历史(HI),记录(63)故障历史(HI)尤其借助在测量(52)瞬时消耗(CI)的步骤中获得的数据。
8.根据权利要求1至7之一所述的方法,其特征在于,由监视软件(LS)在代表瞬时消耗(CI)的数据和代表惯常消耗(CM)的数据之间进行比较(53)的步骤,允许对能参与到所述故障(EC)的原因的至少一个批次(BA)的所述识别(70)。
9.根据权利要求6或7所述的方法,其特征在于,对能参与到所述故障(EC)的原因的至少一个批次(BA)的所述识别(70)基于关于检测到的且正在分析的故障(EC)的数据与关于先前故障的数据之间的至少一个相关性(700)。
10.根据权利要求9所述的方法,其特征在于,所述相关性(700)包括以下步骤中的至少一个步骤:
-代表批次的标记(EB)的数据和代表故障历史(HI)的数据之间的比较性分析(701);
-代表批次的标记(EB)的数据和代表惯常消耗(CM)的数据之间的比较性分析(702)。
11.根据权利要求1至10之一所述的方法,其特征在于,测量(52)瞬时消耗(CI)的步骤是借助预先布置(520)的测量各种参数的多个传感器来进行的,其中监视工具(SU)将代表如此测量的值的数据传送到监视软件(LS)。
12.根据权利要求1至11之一所述的方法,其特征在于,在测量(52)瞬时消耗(CI)的步骤中生成的数据被监视软件(LS)用于计算在记录(50)惯常消耗(CM)的步骤时存储的数据。
13.根据权利要求1至12之一所述的方法,其特征在于,借助代表所述规划表(CA)的数据来随着时间追踪(51)批次(BA)的执行的步骤是在由监视软件(LS)的用户进行的预先规划步骤(59)之后获得的,所述预先规划步骤(59)允许监视软件(LS)记录代表规划表(CA)的数据。
14.一种监视在计算机基础设施(FW)中根据由调度器(ORD)确定的规划表(CA)执行的应用的按批即批次(BA)处理的系统,所述系统的特征在于,所述系统包括计算机部件,在所述计算机部件上执行监视软件(LS),所述监视软件(LS)被配置用于借助实施根据权利要求1至13之一所述的方法来检测(60)所述基础设施(FW)的计算机资源的至少一个拥塞事件,即故障(EC),并且识别(70)能参与到所述故障(EC)的原因的至少一个批次(BA)。
15.一种计算机程序产品,所述计算机程序产品存储在能由计算机部件读取的介质上,并包含能被这些计算机部件执行以实施根据权利要求1至13之一所述的方法的指令。
CN201711466696.7A 2016-12-29 2017-12-29 监视计算机基础设施中执行的应用的批处理的方法和系统 Pending CN108255669A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1663518 2016-12-29
FR1663518A FR3061571B1 (fr) 2016-12-29 2016-12-29 Procede et systeme de surveillance de traitements par lots d'applications executees dans une infrastructure informatique

Publications (1)

Publication Number Publication Date
CN108255669A true CN108255669A (zh) 2018-07-06

Family

ID=58992945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711466696.7A Pending CN108255669A (zh) 2016-12-29 2017-12-29 监视计算机基础设施中执行的应用的批处理的方法和系统

Country Status (6)

Country Link
US (1) US10635568B2 (zh)
EP (1) EP3343375B1 (zh)
JP (1) JP2018113028A (zh)
CN (1) CN108255669A (zh)
BR (1) BR102017028326A2 (zh)
FR (1) FR3061571B1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10931513B2 (en) * 2019-01-31 2021-02-23 Cisco Technology, Inc. Event-triggered distributed data collection in a distributed transaction monitoring system

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7870244B2 (en) * 2002-06-25 2011-01-11 International Business Machines Corporation Monitoring performance of applications in a distributed environment
US7721288B2 (en) * 2004-08-31 2010-05-18 Sap Ag Organizing transmission of repository data
US9135048B2 (en) * 2012-09-20 2015-09-15 Amazon Technologies, Inc. Automated profiling of resource usage
US9400728B2 (en) * 2013-01-14 2016-07-26 Wal-Mart Stores, Inc. Cross platform workflow management
US9451017B2 (en) * 2013-07-24 2016-09-20 Dynatrace Llc Method and system for combining trace data describing multiple individual transaction executions with transaction processing infrastructure monitoring data
JP6260130B2 (ja) * 2013-07-25 2018-01-17 富士通株式会社 ジョブ遅延検知方法、情報処理装置、およびプログラム
US9800651B2 (en) * 2014-04-04 2017-10-24 Ca, Inc. Application-specific assessment of cloud hosting suitability

Also Published As

Publication number Publication date
FR3061571B1 (fr) 2019-04-19
US10635568B2 (en) 2020-04-28
JP2018113028A (ja) 2018-07-19
EP3343375A1 (fr) 2018-07-04
EP3343375B1 (fr) 2019-08-07
US20180246798A1 (en) 2018-08-30
FR3061571A1 (fr) 2018-07-06
BR102017028326A2 (pt) 2019-01-02

Similar Documents

Publication Publication Date Title
Luo et al. Correlating events with time series for incident diagnosis
Wang et al. Self-adaptive cloud monitoring with online anomaly detection
US9921937B2 (en) Behavior clustering analysis and alerting system for computer applications
US20150205691A1 (en) Event prediction using historical time series observations of a computer application
EP2814218A1 (en) Detecting anomalies in work practice data by combining multiple domains of information
WO2013042789A1 (ja) 運用管理装置、運用管理方法、及びプログラム
US11966778B2 (en) Cloud application scaler
Jiang et al. Efficient fault detection and diagnosis in complex software systems with information-theoretic monitoring
US11620539B2 (en) Method and device for monitoring a process of generating metric data for predicting anomalies
US20190311297A1 (en) Anomaly detection and processing for seasonal data
Xuejie et al. Reliability evaluation of cloud computing systems using hybrid methods
Chen et al. Predicting job completion times using system logs in supercomputing clusters
US20160259714A1 (en) Production sampling for determining code coverage
EP3503473A1 (en) Server classification in networked environments
Hong et al. DAC‐Hmm: detecting anomaly in cloud systems with hidden Markov models
CN109308225B (zh) 一种虚拟机异常检测方法、装置、设备及存储介质
CN113949652B (zh) 基于人工智能的用户异常行为检测方法、装置及相关设备
CN109976986B (zh) 异常设备的检测方法及装置
CN108255669A (zh) 监视计算机基础设施中执行的应用的批处理的方法和系统
Rebuge et al. A process mining analysis on a virtual electronic patient record system
Lee et al. Detecting anomaly teletraffic using stochastic self-similarity based on Hadoop
Minh et al. Parallel workload modeling with realistic characteristics
Omoregbee et al. Performability requirements in making a rescaling decision for streaming applications
Giordano et al. Anomaly detection in the CERN cloud infrastructure
Jehangiri et al. Distributed predictive performance anomaly detection for virtualised platforms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180706