CN108255669A

CN108255669A - 监视计算机基础设施中执行的应用的批处理的方法和系统

Info

Publication number: CN108255669A
Application number: CN201711466696.7A
Authority: CN
Inventors: J·I·艾尔瓦兹·马考斯; B·德美利兹; F·罗谢特
Original assignee: Bull SA
Current assignee: Bull SA
Priority date: 2016-12-29
Filing date: 2017-12-29
Publication date: 2018-07-06
Also published as: JP2018113028A; US20180246798A1; FR3061571B1; EP3343375B1; FR3061571A1; EP3343375A1; US10635568B2; BR102017028326A2

Abstract

本发明涉及监视计算机基础设施中执行的应用的批处理的方法和系统。本发明涉及一种监视在计算机基础设施(FW)中执行的应用的按批即批次(BA)处理的方法和系统，该方法由监视软件(LS)实施，该监视软件(LS)被配置为借助以下步骤来检测(60)所述基础设施(FW)的计算机资源的至少一个故障(EC)，并识别(70)可能是所述故障(EC)来源的至少一个批次(BA)：·记录(50)批次(BA)对所述资源的惯常消耗(CM)；·随着时间追踪(51)批次(BA)的执行；·通过监视工具(SU)测量(52)所述资源的瞬时消耗(CI)；·为了该识别(70)，对于在临近故障(EC)的时段(PE)期间执行的每个批次(BA)，比较(53)瞬时消耗(CI)和惯常消耗(CM)。

Description

监视计算机基础设施中执行的应用的批处理的方法和系统

技术领域

本发明涉及计算机基础设施的监视领域，并且尤其是在这些计算机基础设施内执行的应用中的批处理(英文术语为“batch processing”)监视领域。这些批处理出现在大多数应用中，并且是在无用户介入的情况下在计算机上的命令(进程)之后自动运行的。只要一个批次处理结束(不论结果如何)，计算机就会处理下一批次。只要堆栈中的所有的批次执行完毕，批处理即结束。

这些处理的启动也可以是自动化的，比如通过一台调度器。批处理必须被调度，以便避免竞争访问问题或为了平缓应用负载。因此，调度器的一般目的是还保证处理的优先次序。实际上，一些处理只能在其他处理结束后再开始执行。批处理被特别用于自动化的任务，例如对于公有或私有实体的全部计算机上的账户管理。成批运行的任务总体上只采用交互或事物任务不使用的处理器周期。它们一般在应用的标准使用时段之外执行(夜晚和周末)但不仅限于此。

背景技术

应用的批处理领域的一个问题是这些处理经常是长时间的且关键性的，上述处理对于在生产期间，即对于用户而言的工作时间，保证应用的良好运行是有必要的。尤其，批处理的执行有时候会导致计算机基础设施资源层面的拥塞，这危害生产中的应用运行。这种拥塞故障经常表征为一个或多个服务器上的一个或多个资源饱和、以及由于资源拥塞而导致的其持续时间的大幅增加。由于执行时间的延长，在一些情况下出现在规定时间内无法执行全部处理。在一些情况下，如果处理不能在想要的时间进行，那么生产也必须停止。因此，在生产中突然产生故障时，为了确定故障的来源应进行分析。一个具体的问题涉及该分析较困难这一事实，特别是当故障与批处理相关时，因为唯一可获得的信息一般与调度机制相关。

在这一背景下，有利地提出一种方案，所述方案提出用于批处理监视的工具、并且允许进行识别可能是在生产中突然发生的拥塞故障的来源的一个或多个处理的诊断。

发明内容

本发明的目的是通过提出一种允许诊断在计算机基础设施中的拥塞故障的方法来解决现有技术的某些不足。

上述目的是通过以下方法来实现的，所述方法监视在计算机基础设施中根据由调度器确定的规划表执行的应用的按批即批次处理，所述方法的特征在于，所述方法由监视软件实施，所述监视软件被配置用于借助实施以下步骤来检测所述基础设施的计算机资源的至少一个拥塞事件，即故障，并且识别可能参与到所述故障的原因的至少一个批次：

-在能由监视软件存取的存储器中，根据代表所述规划表的数据记录代表由批次随着时间对所述基础设施的计算机资源的惯常消耗的数据；

-借助代表所述规划表的数据来随着时间追踪所有批次的执行；

-通过监视工具随着时间测量所述基础设施的计算机资源的瞬时消耗；

-对于在临近检测到的故障的时段期间执行的批次中的每个批次，比较代表瞬时消耗的数据和代表惯常消耗的数据，以允许所述识别。

根据另一个特征，检测所述基础设施的计算机资源的至少一个故障的步骤触发对所述故障加时间戳。

根据另一个特征，对所述故障加时间戳的步骤跟随有由监视软件确定临近该事件的时段，该时段可被扩展到该事件之前和/或随后的时间区间。

根据另一个特征，记录代表计算机资源的惯常消耗的数据的步骤包括对于批次中的每个批次，记录在该批次的整个执行期间的资源消耗简档的步骤。

根据另一个特征，在故障分析时获得的识别步骤触发由监视软件生成诊断报告，所述诊断报告允许为监视软件的用户提供分析和/或决定帮助，以便确定为了避免在未来执行批次时的其他故障而要采取的措施并由此在需要时修改规划表。

根据另一个特征，由监视软件检测至少一个故障的步骤触发在能由监视软件存取的存储器中记录针对在临近故障的所述时段期间执行的批次中的每个批次的标记，该记录尤其借助在测量瞬时消耗的步骤中获得的数据。

根据另一个特征，由监视软件检测至少一个故障的步骤触发在能由监视软件存取的存储器中记录故障历史，记录故障历史尤其借助在测量瞬时消耗的步骤中获得的数据。

根据另一个特征，由监视软件在代表瞬时消耗的数据和代表惯常消耗的数据之间进行比较的步骤，允许对能参与到所述故障的原因的至少一个批次的所述识别。

根据另一个特征，对能参与到所述故障的原因的至少一个批次的所述识别基于关于检测到的且正在分析的故障的数据与关于先前故障的数据之间的至少一个相关性。

根据另一个特征，所述相关性包括以下步骤中的至少一个步骤：

-代表批次的标记的数据和代表故障历史的数据之间的比较性分析；

-代表批次的标记的数据和代表惯常消耗的数据之间的比较性分析。

根据另一个特征，测量瞬时消耗的步骤是借助预先布置的测量各种参数的多个传感器来进行的，其中监视工具将代表如此测量的值的数据传送到监视软件。

根据另一个特征，在测量瞬时消耗的步骤中生成的数据被监视软件用于计算在记录惯常消耗的步骤时存储的数据。

根据另一个特征，借助代表所述规划表的数据来随着时间追踪批次的执行的步骤是在由监视软件的用户进行的预先规划步骤之后获得的，所述预先规划步骤允许监视软件记录代表规划表的数据。

本发明的另一目的是通过提出一种允许诊断在计算机基础设施中的拥塞故障的系统，来解决现有技术的某些不足。

这一目的是通过以下系统来实现的，所述系统为监视在计算机基础设施中根据由调度器确定的规划表执行的应用的按批即批次处理的系统，所述系统的特征在于，所述系统包括计算机部件，在所述计算机部件上执行监视软件，所述监视软件被配置用于借助实施根据本发明的方法来检测所述基础设施的计算机资源的至少一个拥塞事件，即故障，并且识别能参与到所述故障的原因的至少一个批次。

本发明的另一目是通过提出一种允许诊断在计算机基础设施中的拥塞故障的程序，来解决现有技术的某些不足。

这一目的是通过一种计算机程序产品来实现的，所述计算机程序产品存储在能由计算机部件读取的介质上，并包含能被这些计算机部件执行以实施根据本发明的方法的指令。

附图说明

本发明的其他特征和优点在阅读以下参考附图进行的描述之后将会更加明晰，附图中：

-图1表示根据本发明的实施方式的方法的步骤。

-图2表示根据本发明的实施方式的系统。

具体实施方式

本发明涉及监视计算机基础设施中执行的应用的批处理的方法和系统，以及用于实施上述方法的计算机程序产品。

本描述中使用的术语“调度器”和“规划表(CA)”按它们的代表性含义分别表示“调度程序”和“执行的时间规划”或者本领域技术人员的范围内的等价物，并且它们不应以超出它们所指代的功能的限制性的方式被解释。

总的来说，本申请参考功能性特征，并采用术语“一个”或“一”，但很明显对于本领域技术人员而言，这指的是“至少一个”或“至少一”，而不是特指具体数目，除非在本文中有明确说明。此外，本申请涉及计算机部件和计算机基础设施，而没有提供具体的结构性特征或所涉及的终端类型的细节，因为本领域技术人员在阅读本申请中提供的功能性考虑后，将清楚认识到可能的变型。因此，本申请涉及的本说明书和附图不应作限制性的解读。

本申请还涉及一种监视在计算机基础设施(FW)中根据由调度器确定的规划表(CA)执行的应用的按批即批次(batch，BA)处理的方法。该方法一般由监视软件(LS)实施，所述监视软件被配置用于，一方面检测(60)所述基础设施(FW)的计算机资源的至少一个拥塞事件，即故障(EC)，并且另一方面识别(70)可能参与到所述故障(EC)的原因的至少一个批次(BA)。优选地，该检测(60)和该识别(70)是借助实施以下步骤而获得的：

-在可由监视软件(LS)存取的存储器中，根据代表所述规划表(CA)的数据记录(50)代表由批次(BA)随着时间对所述基础设施(FW)的计算机资源的惯常消耗(CM)的数据；

-借助代表所述规划表(CA)的数据来随着时间追踪(51)所有批次(BA)的执行；

-通过监视工具(SU)随着时间测量(52)所述基础设施(FW)的计算机资源的瞬时消耗(CI)；

-对于在临近检测到的故障(EC)的时段(PE)执行的批次(BA)中的每个批次，比较(53)代表瞬时消耗(CI)的数据和代表惯常消耗(CM)的数据，以允许所述识别(70)。

在一些实施方式中，记录(50)代表计算机资源的惯常消耗(CM)的数据的步骤包括对于批次(BA)中的每个批次记录(500)在该批次的整个执行期间的资源消耗简档(PC)的步骤。实际上，资源消耗在执行时段上不是恒定的，需要考虑在批次的整个执行期间的资源消耗。在一些实施方式中，代表惯常消耗(CM)的数据包括例如代表如下信息的数据，所述信息如处理器功耗、已使用和/或空闲的存储器、存储装置的存储器和/或网络的输入/输出量、机器上运行中的进程等。

在一些实施方式中，检测(60)所述基础设施(FW)的计算机资源的至少一个故障(EC)的步骤触发对所述故障(EC)加时间戳(61)。在一些实施方式中，对所述故障(EC)加时间戳(61)跟随有由监视软件(LS)确定(610)临近该事件的时段(PE)，该时段可被扩展到该事件之前和/或随后的时间区间。

在一些实施方式中，由监视软件(LS)对至少一个故障(EC)的检测(60)步骤触发在可由监视软件(LS)存取的存储器中记录(62)针对在临近故障(EC)的所述时段(PE)期间执行的批次(BA)中的每个批次的标记(EB)，该记录(62)尤其借助在测量(52)瞬时消耗(CI)的步骤中获得的数据。优选地，在记录(62)批次(BA)的标记(EB)时，监视软件(LS)通过监视工具(SU)采用来自瞬时消耗(CI)的测量(52)的信息，以便生成真实的而不是基于规划表(CA)(并且因此对资源使用的较不精确的估计)的标记。在一些实施方式中，代表这种标记(EB)的数据包括例如代表如下信息的数据，所述信息诸如：总的资源消耗、时间戳、输入/输出数据、可能还有资源消耗简档(PC)，例如通过记录(50)惯常消耗(CM)获得的简档之类。此外，输入/输出数据可以是不同形式的，比如使用的或生成的文件、数据库、来源于网络(内联网、外联网、因特网……)的数据等。

在一些实施方式中，由监视软件(LS)对至少一个故障(EC)的检测(60)步骤触发在可由监视软件(LS)存取的存储器中记录(63)故障历史(HI)，记录(63)故障历史(HI)尤其借助在测量(52)瞬时消耗(CI)的步骤中获得的数据。在一些实施方式中，代表该故障历史(HI)的数据包括例如代表如下信息的数据，所述信息诸如：时间戳、故障时段上执行的批次的上下文、总的资源消耗、可能还有来自于在先前故障的分析期间获得的识别(70)的诊断(RD)之类。

在一些实施方式中，由监视软件(LS)在代表瞬时消耗(CI)的数据和代表惯常消耗(CM)的数据之间进行比较(53)的步骤，允许对可能参与到所述故障(EC)的原因的至少一个批次(BA)的所述识别(70)。该比较(53)步骤尤其可以与至少一个变量计算相对应，其例如对于相对于阈值或与惯常平均值的比较确认，识别每个批次的资源使用水平。优选地，可能参与到所述故障(EC)的原因的至少一个批次(BA)的所述识别(70)基于关于检测到的且正在分析的故障(EC)的数据与关于先前故障的数据之间的至少一个相关性(700)。在一些实施方式中，所述相关性(700)至少包括以下步骤之一：

-代表批次的标记(EB)的数据和代表故障历史(HI)的数据之间的比较性分析(701)；

-代表批次的标记(EB)的数据和代表惯常消耗(CM)的数据之间的比较性分析(702)。

在一些实施方式中，在故障(EC)分析时获得的识别(70)步骤触发由监视软件(LS)生成(71)诊断报告(RD)，所述诊断报告(RD)允许为监视软件(LS)的用户提供分析和/或决定帮助，以便确定为了避免在未来执行批次(BA)时的其他故障(CE)而要采取的措施并由此在需要时修改规划表(CA)。实际上，诊断报告可以例如以资源使用的综合表格的形式呈现，表明例如相对于惯常消耗的使用水平。这种类型的报告或表格可以将作为故障特征的资源突出体现出来，例如列出检测到的故障特征。因此，访问与在拥塞时缺少的资源相关的信息的用户可以识别可能在故障中涉及到的每个批次，这允许修改批次的规划表或者甚至重新组织计算机基础设施。

在一些实施方式中，测量(52)瞬时消耗(CI)的步骤是借助预先布置(520)的测量各种参数的多个传感器来进行的，其中监视工具(SU)将代表如此测量的值的数据传送到监视软件(LS)。为了监视计算机基础设施(FW)，通常优选布置一般由多个特定工具进行管理的多个传感器，所述多个传感器中的每个传感器对各种类型的的参数(通常为物理参数)中的至少一个参数进行监视，诸如例如处理器功耗、已使用和/或空闲的存储器、存储装置的存储器和/或网络的输入/输出量、机器上运行中的进程等。监视软件(LS)可以被配置用于与该述监视工具(SU)直接通信，或者以后访问由该监视工具(SU)测量的数据。

在一些实施方式中，在测量(52)瞬时消耗(CI)的步骤中生成的数据被监视软件(LS)用于计算在记录(50)惯常消耗(CM)的步骤时存储的数据。

在一些实施方式中，借助代表所述规划表(CA)的数据来随着时间追踪(51)批次(BA)的执行的步骤是在由监视软件(LS)的用户进行的预先规划步骤(59)之后获得的，所述预先规划步骤(59)允许监视软件(LS)记录代表规划表(CA)的数据。

因此本申请还涉及批处理的监视系统。该系统包括计算机部件，在所述计算机部件上执行被配置为实施根据本发明的各种实施方式的方法的监视软件(LS)。如图2所示，借助它们之间并且尤其在计算机基础设施(FW)中的监视工具(SU)与监视软件之间的通信，这样的计算机部件可以与在被监视的计算机基础设施(FW)中的计算机部件分开，但是当然可以在该计算机基础设施(FW)内执行监视。所述基础设施(FW)的计算机资源与这些计算机部件自然包括例如在彼此通信的服务器上实现的至少一个处理器和至少一个存储器或数据库。另一方面，本申请还涉及一种计算机程序产品，所述计算机程序产品存储在能由计算机部件读取的介质上，并包含能被这些计算机部件执行以实施根据本发明的方法的指令。因此，由本方法提出的功能可以布置在各种计算机部件上，以便监视各种计算机基础设施(FW)。

本申请参考附图和/或各种实施方式描述了各种技术特征和优点。本领域技术人员将理解给定实施方式的技术特征实际上可以与另一种实施方式的特征相结合，只要不明确提及相反的情况，或者只要这些特征不明显不一致或者该结合不能提供与本申请中提及的至少一个技术问题的解决方案即可。此外，给定实施方式中描述的技术特征可以独立于该实施方式中的其他特征，只要不明确提及相反的情况即可。

显然，对于本领域技术人员来说，在不脱离要求保护的本发明的应用范围的情况下，本发明可使实施方式具有许多其他具体形式。因此，所述实施方式应视为说明性例子，并且可以在由所附权利要求的范围限定的范围内进行修改，并且本发明不应局限于以上给出的细节。

Claims

1.一种监视在计算机基础设施(FW)中根据由调度器确定的规划表(CA)执行的应用的按批即批次(BA)处理的方法，所述方法的特征在于，所述方法由监视软件(LS)实施，所述监视软件(LS)被配置用于借助实施以下步骤来检测(60)所述基础设施(FW)的计算机资源的至少一个拥塞事件，即故障(EC)，并且识别(70)能参与到所述故障(EC)的原因的至少一个批次(BA)：

●在能由监视软件(LS)存取的存储器中，根据代表所述规划表(CA)的数据来记录(50)代表由批次(BA)随着时间对所述基础设施(FW)的计算机资源的惯常消耗(CM)的数据；

●借助代表所述规划表(CA)的数据来随着时间追踪(51)所有批次(BA)的执行；

●通过监视工具(SU)随着时间测量(52)所述基础设施(FW)的计算机资源的瞬时消耗(CI)；

●对于在临近检测到的故障(EC)的时段(PE)期间执行的批次(BA)中的每个批次，比较(53)代表瞬时消耗(CI)的数据和代表惯常消耗(CM)的数据，以允许所述识别(70)。

2.根据权利要求1所述的方法，其特征在于，检测(60)所述基础设施(FW)的计算机资源的至少一个故障(EC)的步骤触发对所述故障(EC)加时间戳(61)。

3.根据权利要求2所述的方法，其特征在于，对所述故障(EC)加时间戳(61)的步骤跟随有由监视软件(LS)确定(610)临近该事件的时段(PE)，该时段可被扩展到该事件之前和/或随后的时间区间。

4.根据权利要求1至3之一所述的方法，其特征在于，记录(50)代表计算机资源的惯常消耗(CM)的数据的步骤包括对于批次(BA)中的每个批次，记录(500)在该批次的整个执行期间的资源消耗简档(PC)的步骤。

5.根据权利要求1至4之一所述的方法，其特征在于，在故障(EC)分析时获得的识别(70)步骤触发由监视软件(LS)生成(71)诊断报告(RD)，所述诊断报告(RD)允许为监视软件(LS)的用户提供分析和/或决定帮助，以便确定为了避免在未来执行批次(BA)时的其他故障(CE)而要采取的措施并由此在需要时修改规划表(CA)。

6.根据权利要求1至5之一所述的方法，其特征在于，由监视软件(LS)检测(60)至少一个故障(EC)的步骤触发在能由监视软件(LS)存取的存储器中记录(62)针对在临近故障(EC)的所述时段(PE)期间执行的批次(BA)中的每个批次的标记(EB)，该记录(62)尤其借助在测量(52)瞬时消耗(CI)的步骤中获得的数据。

7.根据权利要求1至6之一所述的方法，其特征在于，由监视软件(LS)检测(60)至少一个故障(EC)的步骤触发在能由监视软件(LS)存取的存储器中记录(63)故障历史(HI)，记录(63)故障历史(HI)尤其借助在测量(52)瞬时消耗(CI)的步骤中获得的数据。

8.根据权利要求1至7之一所述的方法，其特征在于，由监视软件(LS)在代表瞬时消耗(CI)的数据和代表惯常消耗(CM)的数据之间进行比较(53)的步骤，允许对能参与到所述故障(EC)的原因的至少一个批次(BA)的所述识别(70)。

9.根据权利要求6或7所述的方法，其特征在于，对能参与到所述故障(EC)的原因的至少一个批次(BA)的所述识别(70)基于关于检测到的且正在分析的故障(EC)的数据与关于先前故障的数据之间的至少一个相关性(700)。

10.根据权利要求9所述的方法，其特征在于，所述相关性(700)包括以下步骤中的至少一个步骤：

11.根据权利要求1至10之一所述的方法，其特征在于，测量(52)瞬时消耗(CI)的步骤是借助预先布置(520)的测量各种参数的多个传感器来进行的，其中监视工具(SU)将代表如此测量的值的数据传送到监视软件(LS)。

12.根据权利要求1至11之一所述的方法，其特征在于，在测量(52)瞬时消耗(CI)的步骤中生成的数据被监视软件(LS)用于计算在记录(50)惯常消耗(CM)的步骤时存储的数据。

13.根据权利要求1至12之一所述的方法，其特征在于，借助代表所述规划表(CA)的数据来随着时间追踪(51)批次(BA)的执行的步骤是在由监视软件(LS)的用户进行的预先规划步骤(59)之后获得的，所述预先规划步骤(59)允许监视软件(LS)记录代表规划表(CA)的数据。

14.一种监视在计算机基础设施(FW)中根据由调度器(ORD)确定的规划表(CA)执行的应用的按批即批次(BA)处理的系统，所述系统的特征在于，所述系统包括计算机部件，在所述计算机部件上执行监视软件(LS)，所述监视软件(LS)被配置用于借助实施根据权利要求1至13之一所述的方法来检测(60)所述基础设施(FW)的计算机资源的至少一个拥塞事件，即故障(EC)，并且识别(70)能参与到所述故障(EC)的原因的至少一个批次(BA)。

15.一种计算机程序产品，所述计算机程序产品存储在能由计算机部件读取的介质上，并包含能被这些计算机部件执行以实施根据权利要求1至13之一所述的方法的指令。