CN112800013B

CN112800013B - 大数据处理系统

Info

Publication number: CN112800013B
Application number: CN202110167886.9A
Authority: CN
Inventors: 岳国军; 王建业
Original assignee: Beijing Tianhua Xinghang Technology Co ltd
Current assignee: Beijing Tianhua Xinghang Technology Co ltd
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2021-08-03
Anticipated expiration: 2041-02-07
Also published as: CN112800013A

Abstract

本发明涉及一种大数据处理系统，包括分析界面、历史任务数据库、处理器和存储有计算机程序的存储器，其中，所述历史任务数据库用于存储任务日志信息记录，所述任务日志信息记录的字段包括任务I D、数据源、数据量、AI算法I D、任务起始时间、任务结束时间和用户I D；所述分析界面用于接收用户输入的数据源，数据量和AI算法，并基于输入的数据源，数据量和AI算法构建待处理任务，还用于向用户呈现目标预估时间数据，所述目标预估时间数据为执行所述待处理任务所需的预估执行时间数据。本发明能够快速准确地执行所述待处理任务所需的预估执行时间数据，供用户参考。

Description

大数据处理系统

技术领域

本发明涉及大数据处理技术领域，尤其涉及一种大数据处理系统。

背景技术

随着大数据技术的快速发展，很多大数据智能分析技术应运而生，例如THE BDA大数据智能分析技术，其拥有数据读取、ETL(Extraction-Transformation-Loading，数据的抽取、清洗、转换、装载)、特征工程、模型训练、模型应用、模型评估等全流程拖拽式建模的能力，无需编写代码即可完成可视化建模。

在进行大数据智能分析过程中，AI算法需要处理海量的大数据，在AI算法处理海量大数据时，需要较多的运行时间，因此通常需要向用户提示预估的时间。现有的一种AI算法时间预估方式是根据处理器和存储器等计算资源，以及带宽资源等系统资源的可提供程度等进行估算时间。但是由于系统资源是未来占用时间，这样的估算结果准确度较低，尤其是异构情况下。由此可知，如何提供一种快速准确的AI算法处理海量大数据的时间数据预估技术成为亟待解决的技术问题。

发明内容

本发明目的在于，提供一种大数据处理系统，能够快速准确地执行所述待处理任务所需的预估执行时间数据，供用户参考。

根据本发明一方面，提供了一种大数据处理系统,包括分析界面、历史任务数据库、处理器和存储有计算机程序的存储器，其中，所述历史任务数据库用于存储任务日志信息记录，所述任务日志信息记录的字段包括任务ID、数据源、数据量、AI算法ID、任务起始时间、任务结束时间和用户ID；所述分析界面用于接收用户输入的数据源，数据量和AI算法，并基于输入的数据源，数据量和AI算法构建待处理任务，还用于向用户呈现目标预估时间数据，所述目标预估时间数据为执行所述待处理任务所需的预估执行时间数据；

所述处理器在执行计算机程序时，实现以下步骤：

步骤S1、获取待处理任务对应的用户ID和AI算法ID，从所述历史任务数据库中获取与所述待处理任务对应的用户ID和AI算法ID均相同的任务日志信息记录，构建第一数据集；

步骤S2、判断所述第一数据集中的任务日志信息记录数量是否低于预设的第一阈值，若低于，则基于所述第一数据集中的所有任务日志信息记录生成目标预估时间数据，否者执行步骤S3；

步骤S3、基于所述待处理任务对应的数据量N，设定第一数据量阈值区间为[(1-p)N,(1+p)N,]，p从0到1之间取值，从所述第一数据集获取数据量在所述第一数据量阈值区间中的任务日志信息记录，构建第二数据集；

步骤S4、判断所述第二数据集中的任务日志信息记录数量是否低于所述第一阈值，若低于，则基于所述第二数据集中的所有任务日志信息记录生成目标预估时间数据，否则，执行步骤S5；

步骤S5、从所述第二数据集中获取距离当前时间最近的预设M个任务起始时间对应的任务日志信息记录生成目标预估时间数据，或者，从所述第二数据集中获取距离当前时间最近的预设M个任务结束时间对应的任务日志信息记录生成目标预估时间数据，所述M小于等于所述第一阈值。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种大数据处理系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明能够基于历史任务数据库中存储的任务日志信息记录，快速准确地生成执行所述待处理任务所需的预估执行时间数据，供用户参考。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明实施例提供的大数据处理系统示意图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种大数据处理系统的具体实施方式及其功效，详细说明如后。

本发明实施例提供了一种大数据处理系统，如图1所示，包括分析界面、历史任务数据库、处理器和存储有计算机程序的存储器，其中，所述历史任务数据库用于存储任务日志信息记录，所述任务日志信息记录的字段包括任务ID、数据源、数据量、AI算法ID、任务起始时间、任务结束时间和用户ID，可以理解的是，任务日志信息记录还可包括数据类型等字段。所述分析界面用于接收用户输入的数据源，数据量和AI算法，并基于输入的数据源，数据量和AI算法构建待处理任务，还用于向用户呈现目标预估时间数据，所述目标预估时间数据为执行所述待处理任务所需的预估执行时间数据。

所述处理器在执行计算机程序时，实现以下步骤：

其中，作为一种示例，所述第一阈值的取值区间可设置为[5,10],例如，将第一阈值设置为10。

其中，作为一种示例，p取值为0.1。

步骤S5、从所述第二数据集中获取距离当前时间最近的预设M个任务起始时间对应的任务日志信息记录生成目标预估时间数据，或者，从所述所述第二数据集中获取距离当前时间最近的预设M个任务结束时间对应的任务日志信息记录生成目标预估时间数据，所述M小于等于所述第一阈值。

作为一种实施例，M等于所述第一阈值，也可取值为10，可以理解的是，步骤S5尤其适用于同一用户ID由多个不同的用户使用的场景，因为，如果用户ID仅有同一个唯一用户使用，当其对应的任务日志信息记录超过预设的第一阈值时，证明该用户已多次执行过待处理任务，无需再预估执行时间了。

作为一种实施例，所述处理器在执行计算机程序时，还实现步骤S6、将所述目标预估时间数据输出至所述分析界面进行呈现，所述目标预估时间数据包括生成所述目标预估时间数据的任务日志信息记录对应的数据量、起始时间和终止时间，即直接从生成所述目标预估时间数据的任务日志信息记录获取对应的目标数据段进行呈现。但可以理解的是，根据用户的具体需求也可以在目标预估时间数据中也可设置任务日志信息记录中所包括的其他字段进行呈现，例如算法ID、数据类型等。也可设置基于日志信息记录中的字段生成的数据来呈现，例如，可以直接将任务日志信息记录中的任务起始时间和任务结束时间生成对应的任务执行时间，来直接在分析界面上呈现，供用户参考。

根据本发明实施例，所述系统可以物理实现为一个服务器，也可以实现为包括多个服务器的服务器群组。本领域技术人员知晓，服务器型号、规格等参数并不影响本发明的保护范围。

本发明实施例所述系统能够基于历史任务数据库中存储的任务日志信息记录，快速准确地生成执行所述待处理任务所需的预估执行时间数据，供用户参考。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

当所述第一数据集中的任务日志信息记录数量过少时，说明待处理任务对应的用户ID刚开始使用待处理任务对应的AI算法ID，此时，直接第一数据集中的任务日志信息记录来获取目标预估时间数据，可能无法保正时间预估准确性，为了提高此应用场景下时间预估的准确性，作为一种实施例，本发明实施例在执行所述步骤S1之后进一步的包括：

步骤S20、判断所述第一数据集中的任务日志信息记录数量是否低于预设的第二阈值，若是，则执行步骤S21，所述第二阈值小于所述第一阈值；

作为一种示例，第二阈值可取值为3。

步骤S21、基于所述待处理任务对应的数据量N，设定第二数据量阈值区间为[(1-q)N,(1+q)N,]，q从0到1之间取值，从所述历史任务数据库中获取数据量在所述第二数据量阈值区间中的任务日志信息记录，构建第三数据集；

其中，q和p的值可以相同也可以不同，作为一种示例，q和p均取值为0.1。

步骤S22、判断所述第三数据集中的任务日志信息记录数量是否低于预设的第一阈值，若低于，则基于所述第三数据集中的所有任务日志信息记录生成目标预估时间数据。

作为一种实施例，所述系统还包括第一映射表，所述第一映射表的字段包括AI算法ID和AI算法时间复杂度，所述步骤S22中，若所述第三数据集中的任务日志信息记录数量不低于预设的第一阈值，所述步骤S22之后还包括：

步骤S23、获取所述第三数据集中每一任务日志信息记录对应的任务执行时间，所述任务执行时间＝任务结束时间-任务起始时间；

步骤S24、根据所述待处理任务对应的AI算法ID从所述第一映射表中获取对应的AI算法时间复杂度，根据所述待处理任务对应的数据量、AI算法时间复杂度以及所述第三数据集中每一任务日志信息记录对应的数据量、任务执行时间，获取将所述第三数据集中每一任务日志信息记录对应的数据量校正为所述待处理任务对应的数据量所对应的任务执行时间，构建第四数据集，执行步骤S25；

需要说明的是，每一AI算法时间复杂度是已知的，因此，基于所述第三数据集中每一任务日志信息记录对应的数据量、任务执行时间，可以对应换算出一个数据量为所述待处理任务对应的数据量对应的执行时间。

步骤S25、判断所述第四数据集中的任务执行时间是否存在数据偏离，若不存在偏离，则从所述第三数据集中获取距离当前时间最近的预设N个任务起始时间对应的任务日志信息记录生成目标预估时间数据，或者，从所述所述第三数据集中获取距离当前时间最近的预设N个任务结束时间对应的任务日志信息记录生成目标预估时间数据，所述N小于等于所述第一阈值，若存在偏离，则执行步骤S26；

其中，N的取值可以与M相同也可以与M不同，作为一种实施例，M和N可都取10。

步骤S26、获取所述第四数据集中的平均任务执行时间、最长任务执行时间和最短任务执行时间，获取所述平均任务执行时间、最长任务执行时间、最短任务执行时间在第三数据集中对应的任务日志信息记录，基于所述平均任务执行时间、最长任务执行时间、最短任务执行时间在第三数据集中对应的任务日志信息记录，以及所述第三数据集中距离当前时间最近的预设N个任务起始时间对应的任务日志信息记录或者所述第三数据集中获取距离当前时间最近的预设N个任务结束时间对应的任务日志信息记录生成目标预估时间数据。

可以理解的是，所述第四数据集中的任务执行时间存在数据偏离时，证明此时第四数据集中存在噪声时间，因此此时可以将所述平均任务执行时间、最长任务执行时间、最短任务执行时间再加上第三数据集中距离当前时间最近的预设N个任务起始时间对应的任务日志信息记录中的任务起始时间和任务结束时间，或者加上所述第三数据集中获取距离当前时间最近的预设N个任务结束时间对应的任务日志信息记录对应的任务起始时间和任务结束时间呈现在分析界面上，供用户参考。

作为一种实施例，所述步骤S25中，所述判断所述第四数据集中的任务执行时间是否存在数据偏离，包括：

步骤S251、获取所述第四数据集中任务执行时间最大值与任务执行时间最小值之间的差值，并与预设的第三阈值对比，若所述差值小于所述第三阈值，则判断所述第四数据集中的任务执行时间不存在数据偏离，否则，执行步骤S252；

其中，所述第三阈值基于所述第四数据集中任务执行时间的均值确定，例如为第四数据集中任务执行时间的均值的10％。

步骤S252、判断所述第四数据集中任务执行时间是否符合正态分布，若符合，则判断所述第四数据集中的任务执行时间不存在数据偏离，否则，判断存在数据偏离。

可以理解的是，通常情况下相同的算法复杂度做出来的任务执行时间应该是相同的，若存在一些随机因素的影响，那么随机因素应该是符合正态分布的，因此，在不存在数据偏离的情况下，所述第四数据集中任务执行时间也应该是否符合正态分布。

作为一种实施例，所述第四数据集包括z个任务执行时间T＝(T1,T2,...,Tz)，其中，T1≤T2≤...≤Tz，T1,T2,...,Tz的平均任务执行时间为Tavg，所述第三阈值为D3，所述步骤S252中，具体可通过下述过程判断所述第四数据集中任务执行时间是否符合正态分布，包括：

步骤S2521、设置三个箱体B1、B2和B3，其中B1的范围为[T1，Tavg-D3/2)，B2的范围为[Tavg-D3/2，Tavg+D3/2]，B3的范围为(Tavg+D3/2，Tz]；

步骤S2522、根据箱体B1、B2和B3的取值范围将T1,T2,...,Tz划分至对应的箱体中，并获取箱体B1、B2和B3中所划分的任务执行时间的数量C1、C2和C3；

步骤S2523、比较C1、C2和C3的大小，若C2>C1，C2>C3，且C1和C3的差值的绝对值小于预设的第四阈值，则确定所述第四数据集中任务执行时间符合正态分布。

需要说明的是，第四阈值根据具体的数据处理精确度等需求来设定，但可以理解的是，当C1和C3的差值的绝对值小于预设的第四阈值的情况下，C1和C3的数据是相差不大的，在误差容忍范围内的。

作为一种实施例，所述步骤S24中，构建第四数据集之后，还可直接执行步骤S27：获取所述第四数据集中的执行时间置信区间，基于在所述执行时间置信区间内的任务执行时间在所述第三数据集中对应的任务日志信息记录生成目标预估时间数据。可以理解的是，在基于步骤S27中的置信区间来生成目标预估时间数据，无需再考虑数据偏移。

进一步的，所述步骤S27中，获取所述第四数据集中的执行时间置信区间，可包括：

步骤S271、获取所述第四数据集中任务时间的最大值、最小值以及执行时间方差；

步骤S272、基于所述任务时间的最大值、最小值、均值μ以及执行时间方差σ确定执行区间步长m；

步骤S273、基于任务时间的均值μ以及执行时间方差σ确定执行区间步长m确定所述第四数据集中的执行时间置信区间为(μ-mσ,μ+mσ)。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种大数据处理系统,其特征在于，

包括分析界面、历史任务数据库、处理器和存储有计算机程序的存储器，其中，所述历史任务数据库用于存储任务日志信息记录，所述任务日志信息记录的字段包括任务ID、数据源、数据量、AI算法ID、任务起始时间、任务结束时间和用户ID；所述分析界面用于接收用户输入的数据源，数据量和AI算法，并基于输入的数据源，数据量和AI算法构建待处理任务，还用于向用户呈现目标预估时间数据，所述目标预估时间数据为执行所述待处理任务所需的预估执行时间数据；

所述处理器在执行计算机程序时，实现以下步骤：

步骤S3、基于所述待处理任务对应的数据量N，设定第一数据量阈值区间为[(1-p)N,(1+p)N]，p从0到1之间取值，从所述第一数据集获取数据量在所述第一数据量阈值区间中的任务日志信息记录，构建第二数据集；

步骤S5、从所述第二数据集中获取距离当前时间最近的预设M个任务起始时间对应的任务日志信息记录生成目标预估时间数据，或者，从所述第二数据集中获取距离当前时间最近的预设M个任务结束时间对应的任务日志信息记录生成目标预估时间数据，所述M小于等于所述第一阈值；

执行所述步骤S1之后还包括：

步骤S21、基于所述待处理任务对应的数据量N，设定第二数据量阈值区间为[(1-q)N,(1+q)N]，q从0到1之间取值，从所述历史任务数据库中获取数据量在所述第二数据量阈值区间中的任务日志信息记录，构建第三数据集；

2.根据权利要求1所述的系统，其特征在于，

所述系统还包括第一映射表，所述第一映射表的字段包括AI算法ID和AI算法时间复杂度，所述步骤S22中，若所述第三数据集中的任务日志信息记录数量不低于预设的第一阈值，所述步骤S22之后还包括：

步骤S25、判断所述第四数据集中的任务执行时间是否存在数据偏离，若不存在偏离，则从所述第三数据集中获取距离当前时间最近的预设N个任务起始时间对应的任务日志信息记录生成目标预估时间数据，或者，从所述第三数据集中获取距离当前时间最近的预设N个任务结束时间对应的任务日志信息记录生成目标预估时间数据，所述N小于等于所述第一阈值，若存在偏离，则执行步骤S26；

3.根据权利要求2所述的系统，其特征在于，

所述步骤S25中，所述判断所述第四数据集中的任务执行时间是否存在数据偏离，包括：

4.根据权利要求3所述的系统，其特征在于，

所述第四数据集包括z个任务执行时间T＝(T1,T2,...,Tz)，其中，T1≤T2≤...≤Tz，T1,T2,...,Tz的平均任务执行时间为Tavg，所述第三阈值为D3，所述步骤S252中，判断所述第四数据集中任务执行时间是否符合正态分布，包括：

5.根据权利要求2所述的系统，其特征在于，

所述步骤S24中，构建第四数据集之后，直接执行步骤S27：获取所述第四数据集中的执行时间置信区间，基于所述第三数据集中对应的任务执行时间在所述执行时间置信区间内的任务日志信息记录，生成目标预估时间数据。

6.根据权利要求5所述的系统，其特征在于，

所述步骤S27中，获取所述第四数据集中的执行时间置信区间，包括：

7.根据权利要求1-6中任意一项所述的系统，其特征在于，

所述处理器在执行计算机程序时，还实现步骤S6、将所述目标预估时间数据输出至所述分析界面进行呈现，所述目标预估时间数据包括生成所述目标预估时间数据的任务日志信息记录对应的数据量、起始时间和终止时间。