CN110569155A

CN110569155A - 数据处理方法及其系统、电子设备和介质

Info

Publication number: CN110569155A
Application number: CN201910799064.5A
Authority: CN
Inventors: 李秀婧; 易蕾; 朱仲毅; 张家越; 张慧芳; 朱怡雯
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2019-12-13

Abstract

本公开提供了一种数据处理方法，包括：收集测试环境的第一属性数据和生产环境的第二属性数据，其中，测试环境配置有与生产环境不同的硬件环境，第一属性数据用于表征测试环境的数据处理性能，第二属性数据用于表征生产环境的数据处理性能；获取待处理批量作业，其中，待处理批量作业包括多个批量作业；确定在测试环境中处理每个批量作业所需要的第一运行时间；以及基于第一运行时间、第一属性数据和第二属性数据，确定在生产环境中处理每个批量作业所需要的第二运行时间。本公开还提供了一种数据处理系统，电子设备和介质。

Description

数据处理方法及其系统、电子设备和介质

技术领域

本公开涉及大型机技术测试领域，更具体地，涉及一种数据处理方法及其装置、电子设备和介质。

背景技术

测试环境相对于生产环境通常都有硬件配置较差，数据量相差大等问题。由于大型机价格非常昂贵，因此针对大型机而言，测试环境相对于生产环境的硬件差异更加明显，主要包括CPU配置、磁盘配置、作业并行度。由于受到环境差异的影响，针对同一批量作业，在测试环境中运行效率要低于在生产环境中运行效率的几倍甚至十几倍，从而导致在测试环境中整体运行时间达到在生产环境中整体运行时间的几倍甚至十几倍。

针对一个批量作业在生产环境中的运行时间，相关技术提供了一些测算方法，例如，根据经验值，将在测试环境中批量作业的运行时间直接进行简单折算。但是，该折算存在如下问题：测试环境由于工作负载安排不稳定导致作业的运行时间波动较大，且物理CPU和存储等硬件设备的差异对于不同应用类型的批量作业影响程度也不尽相同。

因此，相关技术提供的测算方法，无法根据测试环境的运行情况准确评估投产后在生产环境中的运行时间，准确性较低。

发明内容

有鉴于此，本公开提供了一种数据处理方法及其装置、电子设备和介质。本公开针对大型主机提出一种跨环境批量运行时间测算方法和装置。一方面，通过提取不同环境(测试环境和生产环境)之间批量作业的共性指标，根据共性指标在不同环境下的不同性能表现，评估单个批量作业在不同环境下运行时间的差异，可以得到在生产环境中单个批量作业运行时间的预估值。另一方面，综合单个批量作业运行时间的预估值和各个批量作业之间的排程关系，可以计算出批量关键路径，根据关键路径上所有单个批量作业运行时间的预估值之和，最终预估整个批量作业在生产环境中的时间窗口。

本公开的一个方面提供了一种数据处理方法，包括：收集测试环境的第一属性数据和生产环境的第二属性数据，其中，上述测试环境配置有与上述生产环境不同的硬件环境，上述第一属性数据用于表征上述测试环境的数据处理性能，上述第二属性数据用于表征上述生产环境的数据处理性能，获取待处理批量作业，其中，上述待处理批量作业包括多个批量作业，确定在上述测试环境中处理每个批量作业所需要的第一运行时间，以及基于上述第一运行时间、上述第一属性数据和上述第二属性数据，确定在上述生产环境中处理上述每个批量作业所需要的第二运行时间。

根据本公开的实施例，上述方法还包括：针对上述待处理批量作业，确定作业关键路径，基于上述作业关键路径，从上述多个批量作业中确定出至少一个批量作业，以及基于在上述生产环境中处理上述至少一个批量作业中的每个批量作业所需要的第二运行时间，确定在上述生产环境中处理上述待处理批量作业所需要的第三运行时间。

根据本公开的实施例，上述收集测试环境的第一属性数据和生产环境的第二属性数据包括以下至少之一：收集上述测试环境的硬件配置信息和上述生产环境的硬件配置信息，收集在上述测试环境中已处理批量作业的运行时间和在上述生产环境中上述已处理批量作业的运行时间，收集在上述测试环境中上述已处理批量作业的性能报表和在上述生产环境中上述已处理批量作业的性能报表。

根据本公开的实施例，上述确定在上述测试环境中处理每个批量作业所需要的第一运行时间包括：确定在上述测试环境的数据库中处理上述每个批量作业所需要的数据库运行时间，确定在上述测试环境的非数据库中处理上述每个批量作业所需要的非数据库运行时间，以及基于上述数据库运行时间和上述非数据库运行时间，确定上述第一运行时间。

根据本公开的实施例，上述针对上述待处理批量作业，确定作业关键路径包括：基于确定出的在上述生产环境中处理上述每个批量作业所需要的第二运行时间，生成第一可识别要素，针对上述待处理批量作业，确定执行上述多个批量作业的先后顺序关系，基于上述先后顺序关系，生成第二可识别要素，以及基于上述第一可识别要素和上述第二可识别要素，确定作业关键路径。

本公开的另一个方面提供了一种数据处理系统，包括：收集模块，被配置为收集测试环境的第一属性数据和生产环境的第二属性数据，其中，上述测试环境配置有与上述生产环境不同的硬件环境，上述第一属性数据用于表征上述测试环境的数据处理性能，上述第二属性数据用于表征上述生产环境的数据处理性能，获取模块，被配置为获取待处理批量作业，其中，上述待处理批量作业包括多个批量作业，第一确定模块，被配置为确定在上述测试环境中处理每个批量作业所需要的第一运行时间，以及第二确定模块，被配置为基于上述第一运行时间、上述第一属性数据和上述第二属性数据，确定在上述生产环境中处理上述每个批量作业所需要的第二运行时间。

根据本公开的实施例，上述系统还包括：第三确定模块，被配置为针对上述待处理批量作业，确定作业关键路径，第四确定模块，被配置为基于上述作业关键路径，从上述多个批量作业中确定出至少一个批量作业，以及第五确定模块，被配置为基于在上述生产环境中处理上述至少一个批量作业中的每个批量作业所需要的第二运行时间，确定在上述生产环境中处理上述待处理批量作业所需要的第三运行时间。

根据本公开的实施例，上述收集模块被配置为以下至少之一：收集上述测试环境的硬件配置信息和上述生产环境的硬件配置信息，收集在上述测试环境中已处理批量作业的运行时间和在上述生产环境中上述已处理批量作业的运行时间，收集在上述测试环境中上述已处理批量作业的性能报表和在上述生产环境中上述已处理批量作业的性能报表。

根据本公开的实施例，上述第一确定模块包括：第一确定子模块，被配置为确定在上述测试环境的数据库中处理上述每个批量作业所需要的数据库运行时间，第二确定子模块，被配置为确定在上述测试环境的非数据库中处理上述每个批量作业所需要的非数据库运行时间，以及第三确定子模块，被配置为基于上述数据库运行时间和上述非数据库运行时间，确定上述第一运行时间。

根据本公开的实施例，上述第三确定模块包括：第一生成子模块，被配置为基于确定出的在上述生产环境中处理上述每个批量作业所需要的第二运行时间，生成第一可识别要素，第四确定子模块，被配置为针对上述待处理批量作业，确定执行上述多个批量作业的先后顺序关系，第二生成子模块，被配置为基于上述先后顺序关系，生成第二可识别要素，以及第五确定子模块，被配置为基于上述第一可识别要素和上述第二可识别要素，确定作业关键路径。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

根据本公开的实施例，提供了一种在大型机测试领域中，跨环境的批量作业运行时间评估测算方法，即利用批量作业在测试环境中的运行时间的估算值，估算该批量作业在生产环境中的运行时间的以小估大的测算方法，可以至少部分地克服由于测试环境硬件配置不足导致的跨环境作业运行时间估算困难的技术问题，并因此可以实现根据测试环境批量的运行情况准确评估生产环境单作业运行时间的技术效果。通过测试环境批量运行情况准确评估新版本在生产环境投产后批量整体运行情况，包括批量作业的运行时间和批量整体时间窗口，对提高批量测试质量及测试评估能力具有重要意义。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的数据处理方法和数据处理系统的应用场景；

图2示意性示出了根据本公开实施例的数据处理方法的流程图；

图3示意性示出了根据本公开另一实施例的数据处理方法的流程图；

图4示意性示出了根据本公开实施例的数据处理系统的框图；

图5示意性示出了根据本公开实施例的数据处理装置的框图；

图6示意性示出了根据本公开实施例的批量信息收集单元的框图；

图7示意性示出了根据本公开实施例的批量单作业运行时间测算单元的框图；

图8示意性示出了根据本公开实施例的批量关键路径测算单元的框图；以及

图9示意性示出了根据本公开实施例的适于实现数据处理方法和系统的计算机系统的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

本公开的实施例提供了一种数据处理方法，包括：首先，收集测试环境的第一属性数据和生产环境的第二属性数据，其中，测试环境配置有与生产环境不同的硬件环境，第一属性数据用于表征测试环境的数据处理性能，第二属性数据用于表征生产环境的数据处理性能。其次，获取待处理批量作业，其中，待处理批量作业包括多个批量作业。然后，确定在测试环境中处理每个批量作业所需要的第一运行时间。最后，基于第一运行时间、第一属性数据和第二属性数据，可以确定在生产环境中处理每个批量作业所需要的第二运行时间。

图1示意性示出了根据本公开实施例的数据处理方法和数据处理系统的应用场景100。需要注意的是，图1所示仅为可以应用本公开实施例的应用场景的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，本公开可以应用在大型机的测试场景中，大型机也称为大型主机，其使用专用的处理器指令集、操作系统和应用软件。该应用场景100可以包括大型机110、大型机110的测试环境120、大型机110的生产环境130、待处理批量作业140。该应用场景100实现了相同应用版本基础下，不同硬件环境之间，单个批量作业以及批量整体运行时间的测算，能够有效的解决基于测试环境预估生产环境的问题。

大型机110的测试环境120相对于生产环境130通常都有硬件配置较差，数据量相差大等问题。由于大型机110价格非常昂贵，因此大型机110的测试环境120与生产环境130硬件差异更加明显，测试环境120批量运行情况由于受到环境差异的影响，主要包括CPU配置、磁盘配置、作业并行度等因素影响，待处理批量作业140在测试环境120中的运行效率要低于在生产环境130中的运行效率的几倍甚至十几倍，导致待处理批量作业140在测试环境120中批量整体运行时间达到生产环境130中生产运行时间的几倍以上。

待处理批量作业140可以包括多个批量作业。如图1中所示的单个批量作业141、单个批量作业142、单个批量作业143和单个批量作业144。多个批量作业之间具有排程关系，即单个批量作业运行的先后顺序。

基于相关技术提供的测算技术，测算单个批量作业的生产环境130运行时间方法为将测试环境130批量运行时间直接使用经验值进行简单折算，但该折算存在如下问题：测试环境130由于工作负载安排不稳定导致批量作业的运行时间波动较大，且物理中央处理器(CPU)和存储等硬件设备的差异对于不同应用类型的批量作业影响程度也不一样。

可以理解，多个批量作业在测试环境120中运行，可以得到多个批量作业分别对应的运行时间150。如图1中所示的单个批量作业141对应第一运行时间151、单个批量作业142对应第一运行时间152、单个批量作业143对应第一运行时间153和单个批量作业144对应第一运行时间154。结合多个批量作业之间的作业排程关系，可以得到待处理批量作业140在生产环境130中的测算运行时间，即第二运行时间160。

应该理解，图1中的待处理批量作业包括的批量作业的数目仅仅是示意性的。根据实现需要，待处理批量作业可以具有任意数目的批量作业。为了描述的需要，上下文中，“单个批量作业”，“批量单作业”、“单作业”，“批量各作业”具有相同的含义。

图2示意性示出了根据本公开实施例的数据处理方法的流程图。

如图2所示，该方法可以包括操作S210～操作S240。

在操作S210，收集测试环境的第一属性数据和生产环境的第二属性数据。

在本公开中，属性数据用于表征不同环境的数据处理性能。不同环境包括测试环境和生产环境，且测试环境配置有与生产环境不同的硬件环境。属性数据可以包括但不限于静态属性数据和动态属性数据。测试环境具有第一属性数据，第一属性数据用于表征测试环境的数据处理性能，第二属性数据用于表征生产环境的数据处理性能。

可以理解的是，属性数据可以包括静态属性数据和动态属性数据。静态属性数据可以包括但不限于主机应用版本信息管理系统中登记的程序版本信息、物理中央处理器(CPU)配置，即每台物理主机的CPU颗数及MIPS数。动态属性数据可以包括但不限于所有批量作业运行时间、批量作业的性能报表(Performance Monitor Accounting Trace)，报表中可以包含各个批量作业在数据库中处理的详细指标，可以包括但不限于运行时间、CPU时间、同步IO等待时间、异步IO等待时间、锁等待时间、开关数据库文件时间、COMMIT时间、报表非统计时间(NOT ACCOUNT)。

因此，作为一种可选的实施例，上述收集测试环境的第一属性数据和生产环境的第二属性数据包括以下至少之一：收集上述测试环境的硬件配置信息和上述生产环境的硬件配置信息，收集在上述测试环境中已处理批量作业的运行时间和在上述生产环境中上述已处理批量作业的运行时间，收集在上述测试环境中上述已处理批量作业的性能报表和在上述生产环境中上述已处理批量作业的性能报表。

在操作S220，获取待处理批量作业。

根据本公开的实施例，待处理批量作业包括多个批量作业。

在操作S230，确定在测试环境中处理每个批量作业所需要的第一运行时间。

作为一种可选的实施例，可以根据在DB2数据库中执行的性能情况，通过PM报表中的性能指标进行分析，提取出以下共性指标作为测算因子：

1)CPU时间：程序执行时所占用的CPU时间；

2)同步IO次数：数据库执行同步数据IO的次数；

3)OTHER READ IO次数：执行异步IO时程序同步等待的次数；

4)LOCK/LATCH等待次数：数据库同一个分区上工作负载之间的访问冲突造成的锁等待次数；

5)GLOBAL CONTENTION等待次数：数据库不同分区上工作负载之间的访问冲突造成的锁等待次数；

6)SERVICE TASK SWITCH等待次数：包含数据集扩展/删除/定义、打开/关闭数据集以及一阶段提交时写LOG等情况的等待次数；

7)NOT_ACCOUNTED时间：报表非统计时间，这部分时间主要包括等待CPU调度、数据库DRDA连接等耗时。

基于提取的共性指标，可以根据共性指标在不同环境的不同性能表现，评估批量作业在不同环境下运行时间的差异，得到批量作业运行时间预估值。

作为一种可选的实施例，可以将在上述测试环境中处理每个批量作业所需要的第一运行时间分为在DB2数据库中的处理时间和在DB2以外的非数据库中的处理时间，再综合这部分的处理时间，可以计算出每个批量作业的总运行时间，即第一运行时间。

在操作S240，基于第一运行时间、第一属性数据和第二属性数据，确定在生产环境中处理每个批量作业所需要的第二运行时间。

作为一种可选的实施例，在获得每个批量作业所需要的第一运行时间之后，可以根据共性指标在不同的环境之间的差异，即利用不同的转换折算系数，得到每个批量作业在生产环境中所需要的运行时间，为单个批量作业的运行时间计算结果求总和，可以得到在生产环境中处理每个批量作业所需要的第二运行时间。

通过本公开的实施例，可以弥补现有测算技术的不足，通过提取不同环境之间批量作业的共性指标，根据共性指标在不同环境的性能表现，评估批量作业在不同环境下运行时间的差异，大幅提升测算评估的准确率。

作为一种可选的实施例，在上述实施例的基础上，还可以综合作业运行时间预估值和作业排程关系，计算批量关键路径，根据关键路径上所有作业运行时间之和预估批量时间窗口。

根据本公开的实施例，上述方法除了可以包括前述操作S210～S240之外，还可以包括：针对上述待处理批量作业，确定作业关键路径，基于上述作业关键路径，从上述多个批量作业中确定出至少一个批量作业，以及基于在上述生产环境中处理上述至少一个批量作业中的每个批量作业所需要的第二运行时间，确定在上述生产环境中处理上述待处理批量作业所需要的第三运行时间。

通过本公开的实施例，使用关键路径算法准确评估新版本在生产环境投产后批量关键路径及整体时间窗口，对提高批量测试质量及测试评估能力具有重要意义。

作为一种可选的实施例，可以将每个批量作业根据版本情况(发版和未发版)分类，并将每类作业转化为统一可识别的测算变量，可以得到每个批量作业的运行时间作为关键路径计算的第一可识别要素。

作为一种可选的实施例，还可以将主机TWS批量管理工具作业前后关系文件转化为拓扑有序向量，转化为多条弧，建立拓扑有序图的存储结构，作为批量关键路径计算的第二可识别要素。

根据本公开的实施例，可以基于第一可识别要素和第二可识别要素，使用关键路径算法进行关键路径计算。具体地，可以从起始作业节点出发，按拓扑有序序列求其余各作业节点的可能最早发生时间；从结束作业节点出发，按逆拓扑有序求其余各节点作业允许的最晚发生时间，当某活动满足最早发生时间等于最晚发生时间，则是关键路径活动。

以下将结合图3详细描述本公开的上述数据处理方法。

图3示意性示出了根据本公开另一实施例的数据处理方法的流程图。

如图3所示，该方法可以包括操作S310～S380。

在操作S310，选取某一生产批量作为测试版本投产后在生产处理时间预估的基础，同时选取某一次压力测试批量作为测试分析数据。

在操作S320，分别生成生产环境、测试环境的核心和数交批量的的PM报表(ACCOUNTING REPORT)。

在操作S330，通过联合查询MVIMS表，获取所有批量作业的版本信息。

在操作S340，获取生产和测试物理主机CPU资源MIPS总数，并计算出折算系数。

在操作S350，将上述测算数据导入到测算数据库中。

在操作S360，计算共性指标的参数和折算率，根据测算公式对所有关键性能要素进行测算，预估单批量作业在生产环境的运行时间。

在操作S370，使用关键路径算法，以批量单作业预估运行时间和批量排程作为输入，生成生产环境的批量关键路径。

在操作S380，基于关键路径作业时间，计算出批量整体运行时间窗口评估。

针对大型机环境的以小估大测算方法，通过本公开的实施例，能够根据测试环境批量的运行情况准确评估生产环境单个批量作业运行时间。

图4示意性示出了根据本公开实施例的数据处理系统的框图。

如图4所示，该数据处理系统400可以包括收集模块410、获取模块420、第一确定模块430以及第二确定模块440。

收集模块410，被配置为收集测试环境的第一属性数据和生产环境的第二属性数据，其中，上述测试环境配置有与上述生产环境不同的硬件环境，上述第一属性数据用于表征上述测试环境的数据处理性能，上述第二属性数据用于表征上述生产环境的数据处理性能。

获取模块420，被配置为获取待处理批量作业，其中，上述待处理批量作业包括多个批量作业。

第一确定模块430，被配置为确定在上述测试环境中处理每个批量作业所需要的第一运行时间。

第二确定模块440，被配置为基于上述第一运行时间、上述第一属性数据和上述第二属性数据，确定在上述生产环境中处理上述每个批量作业所需要的第二运行时间。

根据本公开的实施例，上述收集模块410被配置为以下至少之一：收集上述测试环境的硬件配置信息和上述生产环境的硬件配置信息，收集在上述测试环境中已处理批量作业的运行时间和在上述生产环境中上述已处理批量作业的运行时间，收集在上述测试环境中上述已处理批量作业的性能报表和在上述生产环境中上述已处理批量作业的性能报表。

根据本公开的实施例，上述第一确定模块430可以包括：第一确定子模块，被配置为确定在上述测试环境的数据库中处理上述每个批量作业所需要的数据库运行时间，第二确定子模块，被配置为确定在上述测试环境的非数据库中处理上述每个批量作业所需要的非数据库运行时间，以及第三确定子模块，被配置为基于上述数据库运行时间和上述非数据库运行时间，确定上述第一运行时间。

根据本公开的实施例，上述系统除了可以包括前述收集模块410、获取模块420、第一确定模块430以及第二确定模块440之外，还可以包括：第三确定模块，被配置为针对上述待处理批量作业，确定作业关键路径，第四确定模块，被配置为基于上述作业关键路径，从上述多个批量作业中确定出至少一个批量作业，以及第五确定模块，被配置为基于在上述生产环境中处理上述至少一个批量作业中的每个批量作业所需要的第二运行时间，确定在上述生产环境中处理上述待处理批量作业所需要的第三运行时间。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，收集模块410、获取模块420、第一确定模块430、第二确定模块440、第三确定模块、第四确定模块、第五确定模块、第一确定子模块、第二确定子模块、第三确定子模块、第一生成子模块、第四确定子模块、第二生成子模块和第五确定子模块中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，收集模块410、获取模块420、第一确定模块430、第二确定模块440、第三确定模块、第四确定模块、第五确定模块、第一确定子模块、第二确定子模块、第三确定子模块、第一生成子模块、第四确定子模块、第二生成子模块和第五确定子模块中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，收集模块410、获取模块420、第一确定模块430、第二确定模块440、第三确定模块、第四确定模块、第五确定模块、第一确定子模块、第二确定子模块、第三确定子模块、第一生成子模块、第四确定子模块、第二生成子模块和第五确定子模块中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图5示意性示出了根据本公开实施例的数据处理装置的框图。

如图5所示，该数据处理装置500可以包括批量信息收集单元501、批量单作业运行时间测算单元502、批量关键路径测算单元503和批量时间窗口测算单元504。

批量信息收集单元501，用于收集的各类指标数据为批量单作业运行时间测算单元502的数据基础。

批量单作业运行时间测算单元502，用于根据测算规则评估单批量作业在不同环境下运行时间，得到批量作业运行时间预估值。

批量关键路径测算单元503，用于根据批量作业运行时间预估值以及批量排程计算出批量关键路径作业信息。该单元测算批量关键路径，主要原理为先将所有批量作业按照版本发布情况分类，各类作业按照计算规则得出批量每一个作业的运行时间；根据TWS批量管理工具中作业前后关系的有向无环拓扑序列使用关键路径算法得出批量关键路径作业清单。

批量时间窗口测算单元504，用于根据关键路径得出批量整体时间窗口。

图6示意性示出了根据本公开实施例的批量信息收集单元的框图。

如图6所示，前述批量信息收集单元501可以包括：批量作业运行时间收集装置601、性能报表收集装置602、程序版本收集装置603和硬件配置收集装置604。

批量作业运行时间收集装置601，用于收集测试环境测试版本和生产环境当前版本的所有批量作业运行时间，将收集结果存储在数据库表中。

性能报表收集装置602，用于打印测试环境及生产环境批量作业的PerformanceMonitor Accounting Trace性能报表，报表中包含各个批量作业在数据库中处理的详细指标，包括运行时间、CPU时间、同步IO等待时间、异步IO等待时间、锁等待时间、开关数据库文件时间、COMMIT时间、NOTACCOUNT时间等，并将收集结果存储在数据库表中。

程序版本收集装置603，用于收集测试环境MVIMS(主机应用版本信息管理系统)中登记的程序版本信息，并将收集结果存储在数据库表中。

硬件配置收集装置604，用于收集测试环境和生产环境的物理CPU配置，包括每台物理主机的CPU颗数及MIPS数。

图7示意性示出了根据本公开实施例的批量单作业运行时间测算单元的框图。

如图7所示，前述批量单作业运行时间测算单元502可以包括：共性指标提取装置701、单作业DB2处理时间测算装置702、单作业非DB2处理时间测算装置703和单作业总时间测算装置704。

在本公开中，共性指标提取装置701，用于根据程序在DB2数据库中执行的性能情况，通过PM报表中的性能指标进行分析，提取出以下共性指标作为测算因子：

1)CPU时间：程序执行时所占用的CPU时间；

2)同步IO次数：数据库执行同步数据IO的次数；

3)OTHER READ IO次数：执行异步IO时程序同步等待的次数；

在本公开中，单作业DB2处理时间测算装置702，用于测算批量作业在DB2内处理时间的跨环境耗时。测算步骤如下：

1)CPU时间测算

T₁：生产CPU时间。

t₁：测试CPU时间。

p₁：CPU系数。

n₁：测试环境每台物理主机的MIPS值。

N₁：生产环境每台物理主机的MIPS值。

2)NOT_ACCOUNTED时间测算

T₂：生产NOT_ACCOUNTED时间。

t₂：测试NOT ACCOUNTED时间。

p₂：折算系数。

3)OTHER READ IO时间测算

T₃＝f(c₃，T₀)＝c₃*avg(T₃)

T₃：生产OTHER READ IO时间。

c₃：测试OTHER READ IO次数。

4)LOCK/LATCH等待时间测算

T₄：生产LOCK/LATCH等待时间。

C₁：生产LOCK/LATCH等待次数。

C₂：生产DML数。

c₂：测试DML数。

5)同步IO时间测算

T₅＝f(c₁)＝c₁*avg(T₅)

T₅：生产同步I/O时间。

c₁：测试同步IO次数。

6)GLOBAL CONTENTION时间测算

T₆：生产GLOBAL CONTENTION时间。

C₂：生产DML数。

C₃：生产GLOBAL CONTION等待次数。

c₂：测试DML数。

7)SERVICE TASK SWITCH时间测算

T₇：生产SERVICE TASK SWITCH时间。

C₂：生产DML数。

C₄：生产SER TASK SWITCH等待次数。

c₂：测试DML数。

8)其他指标测算：CLAIMER SUSP TIME，PAGE LATCH TIME等指标在批量运行过程中消耗占比小，直接使用测试环境的消耗值如下：

t₃：测试OTHER_WRITE_IO_TIME时间。

t₄：测试DRAIN_LOCK_TIME时间。

t₅：测试CLAIM_RELEASE_TIME时间。

t₆：测试PAGE LATCH TIME。

9)测算批量作业的DB2内处理时间生产总耗时，测算公式如下：

单作业非DB2处理时间测算装置703，用于计算非DB2数据库运行时间，主要包括文件定义、删除、读取、数据FTP传输等，由于此部分时间占比及与生产时间差异小，使用测试环境的时间值：

Tf＝Tt

Tf表示预测生产时间。

Tt表示测试时间。

在本公开中，单作业总时间测算装置704，用于测算单批量作业所有作业步的运行总时间，为单作业DB2处理时间测算装置702与单作业非DB2处理时间测算装置703计算结果的总和。计算公式如下：

Ti(d)：DB2数据库中运行时间。

Ti(f)：DB2数据库外运行时间。

i表示批量作业的各作业步。

图8示意性示出了根据本公开实施例的批量关键路径测算单元的框图。

如图8所示，前述批量关键路径测算单元503可以包括批量作业分类转化装置801、批量作业排程转化装置802，批量关键路径计算装置803。

在本公开中，批量作业分类转化装置801用于将所有批量作业根据版本变化情况分为两类，并将每类作业转化为统一可识别的测算变量。

1)发版作业运行时间

J_c＝T_c

T_c：单作业总时间测算装置504的输出时间。

2)未发版作业运行时间

J_f＝T_p

T_p：生产环境作业运行时间

综合T_c和T_p，得出整个批量的每个作业运行时间作为关键路径计算的第一可识别要素。

在本公开中，批量作业排程转化装置802，用于将主机TWS批量管理工具作业前后关系文件转化为拓扑有序向量，转化为e条弧<V_i，V_k>，建立拓扑有序图的存储结构，作为批量关键路径计算的一项可识别要素。

在本公开中，批量关键路径计算装置803，用于根据批量作业分类转化装置801和批量作业排程转化装置802的输出数据使用关键路径算法进行关键路径计算。工作原理为：从起始作业节点出发，按拓扑有序序列求其余各作业节点的可能最早发生时间；从结束作业节点出发，按逆拓扑有序求其余各节点作业允许的最晚发生时间，当某活动满足最早发生时间等于最晚发生时间，则是关键路径活动。具体计算流程表示为：

1)从起始作业节点V₁出发，令Ve(1)＝0，按拓扑有序序列求其余各节点的可能最早发生时间：

V_e(k)＝max{V_e(j)+len(<j，k>)}，j∈T

Ve(k)是指从始点开始到顶点Vk的最大路径长度，决定从顶点V_k发出的活动能够开始的最早时间。

len(<j，k>)表示弧<j，k>活动的持续时间。

T表示以顶点V_k为尾的所有弧的头节点的集合(2≤k≤n)。

2)从结束作业节点V_n出发，按逆拓扑有序求其余各节点的允许的最晚发生时间：

V1(j)＝min{V1(k)-len(<j，k>)}，k∈S

V1任)是指V_k允许的最晚发生时间。

len(<j，k>)表示弧<j，k>活动的持续时间。

S是以顶点V_j为起始点的所有弧的尾顶点集合(1≤j≤n)。

3)计算每一项活动J_i的最早开始时间和最晚开始时间：

活动最早开始时间：E(i)＝V_e(j)

活动最晚开始时间：L(i)＝V1(k)-len(<j，k>)。

若某活动满足E(i)＝L(i)，则它为关键路径活动。由此可计算出所有批量的关键路径作业清单。

前述批量时间窗口测算单元504为该单元为整体批量时间窗口测算单元。计算公式为：

T＝E(n)

n表示尾节点。

图9示意性示出了根据本公开实施例的适于实现数据处理方法和系统的计算机系统的方框图。图9示出的计算机系统仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，根据本公开实施例的计算机系统900包括处理器901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 903中，存储有系统900操作所需的各种程序和数据。处理器901、ROM 902以及RAM 903通过总线904彼此相连。处理器901通过执行ROM 902和/或RAM 903中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 902和RAM 903以外的一个或多个存储器中。处理器901也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，系统900还可以包括输入/输出(I/O)接口905，输入/输出(I/O)接口905也连接至总线904。系统900还可以包括连接至I/O接口905的以下部件中的一项或多项：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被处理器901执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 902和/或RAM 903和/或ROM 902和RAM 903以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种数据处理方法，包括：

收集测试环境的第一属性数据和生产环境的第二属性数据，其中，所述测试环境配置有与所述生产环境不同的硬件环境，所述第一属性数据用于表征所述测试环境的数据处理性能，所述第二属性数据用于表征所述生产环境的数据处理性能；

获取待处理批量作业，其中，所述待处理批量作业包括多个批量作业；

确定在所述测试环境中处理每个批量作业所需要的第一运行时间；以及

基于所述第一运行时间、所述第一属性数据和所述第二属性数据，确定在所述生产环境中处理所述每个批量作业所需要的第二运行时间。

2.根据权利要求1所述的方法，其中，所述方法还包括：

针对所述待处理批量作业，确定作业关键路径；

基于所述作业关键路径，从所述多个批量作业中确定出至少一个批量作业；以及

基于在所述生产环境中处理所述至少一个批量作业中的每个批量作业所需要的第二运行时间，确定在所述生产环境中处理所述待处理批量作业所需要的第三运行时间。

3.根据权利要求1所述的方法，其中，所述收集测试环境的第一属性数据和生产环境的第二属性数据包括以下至少之一：

收集所述测试环境的硬件配置信息和所述生产环境的硬件配置信息；

收集在所述测试环境中已处理批量作业的运行时间和在所述生产环境中所述已处理批量作业的运行时间；

收集在所述测试环境中所述已处理批量作业的性能报表和在所述生产环境中所述已处理批量作业的性能报表。

4.根据权利要求1所述的方法，其中，所述确定在所述测试环境中处理每个批量作业所需要的第一运行时间包括：

确定在所述测试环境的数据库中处理所述每个批量作业所需要的数据库运行时间；

确定在所述测试环境的非数据库中处理所述每个批量作业所需要的非数据库运行时间；以及

基于所述数据库运行时间和所述非数据库运行时间，确定所述第一运行时间。

5.根据权利要求2所述的方法，其中，所述针对所述待处理批量作业，确定作业关键路径包括：

基于确定出的在所述生产环境中处理所述每个批量作业所需要的第二运行时间，生成第一可识别要素；

针对所述待处理批量作业，确定执行所述多个批量作业的先后顺序关系；

基于所述先后顺序关系，生成第二可识别要素；以及

基于所述第一可识别要素和所述第二可识别要素，确定作业关键路径。

6.一种数据处理系统，包括：

收集模块，被配置为收集测试环境的第一属性数据和生产环境的第二属性数据，其中，所述测试环境配置有与所述生产环境不同的硬件环境，所述第一属性数据用于表征所述测试环境的数据处理性能，所述第二属性数据用于表征所述生产环境的数据处理性能；

获取模块，被配置为获取待处理批量作业，其中，所述待处理批量作业包括多个批量作业；

第一确定模块，被配置为确定在所述测试环境中处理每个批量作业所需要的第一运行时间；以及

第二确定模块，被配置为基于所述第一运行时间、所述第一属性数据和所述第二属性数据，确定在所述生产环境中处理所述每个批量作业所需要的第二运行时间。

7.根据权利要求6所述的系统，其中，所述系统还包括：

第三确定模块，被配置为针对所述待处理批量作业，确定作业关键路径；

第四确定模块，被配置为基于所述作业关键路径，从所述多个批量作业中确定出至少一个批量作业；以及

第五确定模块，被配置为基于在所述生产环境中处理所述至少一个批量作业中的每个批量作业所需要的第二运行时间，确定在所述生产环境中处理所述待处理批量作业所需要的第三运行时间。

8.根据权利要求6所述的系统，其中，所述收集模块被配置为以下至少之一：

9.根据权利要求6所述的系统，其中，所述第一确定模块包括：

第一确定子模块，被配置为确定在所述测试环境的数据库中处理所述每个批量作业所需要的数据库运行时间；

第二确定子模块，被配置为确定在所述测试环境的非数据库中处理所述每个批量作业所需要的非数据库运行时间；以及

第三确定子模块，被配置为基于所述数据库运行时间和所述非数据库运行时间，确定所述第一运行时间。

10.根据权利要求7所述的系统，其中，所述第三确定模块包括：

第一生成子模块，被配置为基于确定出的在所述生产环境中处理所述每个批量作业所需要的第二运行时间，生成第一可识别要素；

第四确定子模块，被配置为针对所述待处理批量作业，确定执行所述多个批量作业的先后顺序关系；

第二生成子模块，被配置为基于所述先后顺序关系，生成第二可识别要素；以及

第五确定子模块，被配置为基于所述第一可识别要素和所述第二可识别要素，确定作业关键路径。

11.一种电子设备，包括：

一个或多个处理器；以及

存储器，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至5中任一项所述的方法。

12.一种计算机可读存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现权利要求1至5中任一项所述的方法。