CN117492982A

CN117492982A - 一种面向云计算的工单大数据智能处理方法

Info

Publication number: CN117492982A
Application number: CN202311381636.0A
Authority: CN
Inventors: 王延松; 霍龙双; 章程; 冯威; 蔡海辉; 吴成龙
Original assignee: Chery Huiyin Auto Finance Co ltd
Current assignee: Chery Huiyin Auto Finance Co ltd
Priority date: 2023-10-23
Filing date: 2023-10-23
Publication date: 2024-02-02

Abstract

本发明公开一种面向云计算的工单大数据智能处理方法，包括如下步骤：(1)确定当前待处理任务的资源使用模型；(2)确定不同资源使用模型的探索空间；(3)将当前待处理任务在对应的探索空间内进行搜索，输出执行时间均小于最大完成时间，且执行成本最低的最优云资源分配方案。本发明无需分析数据类型及任务处理逻辑以进行性能建模，适用于多种类型工单数据处理任务，具有较好的可扩展性；基于概率分布迭代式智能化探索最优云资源分配方案，能够智能化提高工单数据处理效率并减少云资源使用的成本开销；同时，通过判定工单数据处理任务类型设定初始值及探索空间以提高优化的执行效率。

Description

一种面向云计算的工单大数据智能处理方法

技术领域

本发明属于云计算技术领域，更具体地，本发明涉及一种面向云计算的工单大数据智能处理方法。

背景技术

在当今数字经济浪潮推动下，数据作为一种新型资产已经成为保障企业正常运营，以及制定企业长远发展战略的关键。汽车金融行业的工单数据是定期存款、汽车贷款、保证金、债券等各个业务的一个或多个任务组成的工作任务计划，由上级部门下达任务并由一个或多个相关下级部门领受任务。工单数据处理是指对工单数据进行收集、记录、跟踪、存储、加工、变换、传输、统计、分析和挖掘的活动。工单数据处理是企业管理中的一个重要环节，可以有效地协调和管理金融机构各个部门之间的信息流通，提高工作效率，降低成本，提高服务质量。同时，帮助金融行业数据分析，提供决策支持，优化业务流程，提高企业竞争力。

汽车金融行业数据类型已经从传统单一结构化表单数据过渡到文本、语音、图形、图像等多种类型。在全球化布局及产业分布的背景下，金融行业工单数据呈现出来源广泛、种类繁多、结构多样、数据体量巨大、价值密度低、处理速度要求高和商业价值高等特点，因而急需研究面向金融行业多源异构工单大数据的处理技术。

云计算将计算任务分布在大量计算机组成的资源池上，使各种应用系统能够按需获取计算力、存储空间和信息服务，具有动态可扩展、按需部署、灵活性高、可靠性高、性价比高等特点，为工单大数据处理提供了良好的运行基础环境。在云计算场景下，为金融行业多源异构工单大数据处理按需分配资源具有以下挑战：

(1)工单数据处理任务建模的复杂性：工单数据处理任务的数据处理时间与云计算资源的类型和数量、处理数据的类型和数量、工单数据处理的工作流程等诸多因素都有着联系，难以建模这种复杂关系。(2)数据处理性能的动态性：云计算环境具有动态性，网络拥塞和抖动、网络拓扑结构变化、新工单到达等都会引起原有工单数据处理性能发生变化，因而工单数据处理任务的执行效率具有不确定性。(3)数据处理任务的异构性：不同类型工单具有不同的内部数据处理流程和依赖性，针对单个应用手动构建性能模型难以适用于其他工单数据处理任务，因而工单数据处理性能建模具有不可扩展性。

发明内容

本发明提供一种面向云计算的工单大数据智能处理方法，旨在改善上述问题中的至少一个。

本发明是这样实现的，一种面向云计算的工单大数据智能处理方法，所述方法包括如下步骤：

(1)确定当前待处理任务的资源使用模型；

(2)确定不同资源使用模型的探索空间；

(3)将当前待处理任务在对应的探索空间内进行搜索，输出执行时间均小于最大完成时间，且执行成本最低的最优云资源分配方案。

其中，资源使用模型包括：资源使用和输入数据集大小之间存在线性关系的线性型资源使用模式；资源使用和输入数据集大小之间没有明显的相关性的确定型资源使用模式；资源使用量和任务输入数据集大小之间没有线性相关性的不确定型资源使用模式。

进一步的，当前待处理任务的资源使用模型识别方法具体如下：

采用少量的样本数据离线训练线性回归模型；

计算不同类型任务的样本数据的线性相关性R_j ²，基于线性相关性R_j ²确定不同任务类型的资源使用模型；

确定待处理任务的任务类型，读取任务类型对应的资源使用模型。

进一步的，基于线性相关性R_j ²的资源使用模型分类方法具体如下：

线性相关性R_j ²大于阈值1的任务认定为线性型资源使用模式，线性相关性R_j ²小于阈值2的任务认定为确定型资源使用模式，线性相关性位于阈值2至阈值1之间的任务认定为不确定型资源使用模式。

进一步的，线性资源使用模式的探索空间确定方法具体如下：

确定待处理数据集中线性型资源使用模式的数据量大小x_i，采用线性回归模型预测数据量大小x_i的资源使用数量y_i，将探索空间为L_low＝(y_i/2+A)到L_up＝(y_i+A)×2之间；

其中，A为固定的云资源开销。

进一步的，确定型资源使用模式的探索空间确定方法具体如下：

对待处理数据集中的所有确定型资源使用模式的任务使用线性回归模型预测对应的资源使用数量，进而计算资源使用数量的平均值为探索空间为/>到之间；

其中，A为为固定的云资源开销。

进一步的，不确定资源使用模式的探索空间不约束。

进一步的，最优云资源分配方案的搜索过程具体如下：

(1)读取搜索过程中云资源分配向量的初始值，将初始值作为待探索的云资源分配向量

(2)计算待探索的云资源分配向量的执行成本，将云资源分配向量/>加入集合X_t中，输出执行时间均小于最大完成时间的最小执行成本对应云资源分配向量X_t为已探索的云资源分配向量集合；

(2)计算云资源分配向量集合X_t中云资源分配向量x的平均值为和标准差为而后正态化处理为/>计算下个云资源分配向量其中，CDF(Z)为参数为Z的正态分布的累计分布函数值，PDF(Z)为参数为Z的正态分布的概率密度函数值；

(3)当则令/>当/>则令/>重复执行直到符合续资源探索空间的上限及下限约束，将/>作为待探索的云资源分配向量/>执行步骤(2)；

(4)直至当前云资源分配向量与上一次云资源分配向量的成本差小于成本差阈值，则当前云资源分配向量即为最优的云资源分配方案。

进一步的，读取搜索过程中云资源分配向量的初始值的确定方法具体如下：

线性资源使用模式，搜索过程中的云资源分配向量的初始值为y_i+A；

确定型资源使用模式，搜索过程中的云资源分配向量的初始值为

不确定资源使用模式，搜索过程中的云资源分配向量的初始值设为随机值y_r，y_r＞A。

本发明无需分析数据类型及任务处理逻辑以进行性能建模，适用于多种类型工单数据处理任务，具有较好的可扩展性；基于概率分布迭代式智能化探索最优云资源分配方案，能够智能化提高工单数据处理效率并减少云资源使用的成本开销；同时，通过判定工单数据处理任务类型设定初始值及探索空间以提高优化的执行效率。

附图说明

图1为本发明实施例提供的面向云计算的工单大数据智能处理方法流程图；

图2为本发明实施例提供的面向云计算的工单大数据智能处理系统的结构示意图。

具体实施方式

下面对照附图，通过对实施例的描述，对本发明的具体实施方式作进一步详细的说明，以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。

本发明提出一种面向云计算环境的工单大数据智能处理方法，首先通过少量样本离线训练回归模型，进而确定待处理数据集中的待处理样本的资源使用模型，为线性、确定型或不确定的资源使用模型；对云资源分配方案的各维度资源进行编码形成向量，形式化描述云资源分配优化目标；根据任务资源使用类型初始化云资源分配方案并约束各类型任务的探索空间；搜集云计算平台上任务处理时间及产生的成本，以在线迭代自优化的方式调整云资源分配方案；当相邻方案改进小于阈值且取得足够采样，则找到最优资源分配方案并停止探索。

图1为本发明实施例提供的面向云计算的工单大数据智能处理方法流程图，该方法具体如下：

1、任务资源使用离线测试

在实验环境下单台个人计算机上完成任务资源使用测试，初步评估单位工单数据处理任务的资源需求，而不是对工单数据处理的整个执行流程建模，因而该单个计算机不需要与目标集群基础设施具有相同的资源类型以避免集群资源挤占。

从待处理数据集中选择n组样本数据集，样本数量使得实际任务处理过程执行5分钟后完成，为测量数据处理的实际资源占用提供足够时间。第i组样本数据集的数据量大小x_i和相应各类资源使用数量y_i，形成样本数据集数量为n的训练数据集{(x₁,y₁),(x₂,y₂),...,(x_n,y_n)}。从具体实施角度而言，最初可以选择待处理数据集样本数量的0.50％，然后根据实际和目标执行时间之间的差距进行迭代调整。如果运行时间长于10分钟，则可以取消该次数据处理任务，并且用该样本数量的一半重新开始执行。如果运行时间小于5分钟，则可以取消该次数据处理任务，并且用该样本数量的两倍重新开始执行。而后，选择额外n-1个不同的样本数据子集重复进行测试，以搜集更多的执行结果数据。使用在操作系统级别监控资源使用的系统调用接口，在每次开始执行之前计算系统所分配的初始资源数量如内存占用，以准确计算任务实际执行所需要的各类资源。

2、资源使用分类

在收集了不同类型任务的资源使用数据之后，需要对任务的资源使用进行分类，以加速探索给定任务的最佳资源分配方案，将任务资源使用划分为以下三种模式：

1)线性型资源使用模式：资源使用和输入数据集大小之间存在线性关系。例如，迭代任务一次性将整个数据集加载到内存中，并在整个执行过程中缓存，那么内存占用量就随数据集大小变化。

2)确定型资源使用模式：资源使用和输入数据集大小之间没有明显的相关性。例如，一次性执行任务不需要节点的内存容量，在分布式数据流任务的各个阶段之间将数据写入磁盘，随着输入数据集大小的增加内存使用保持不变

3)不确定型资源使用模式：资源使用量和任务输入数据集大小之间没有线性相关性。例如，迭代任务一次对整个数据集或大部分数据集进行操作，并以快于垃圾回收速度不断生成新的对象，因此内存使用随时间增加，但是由于定期垃圾回收，通常不会呈线性而是指数或对数增长。

根据样本数据集训练线性回归模型y＝ax+b，样本数据集包括数据集大小和相应资源数量信息，其中，x是样本数据集的数据量，y为相应各类资源使用数量，a和b是可由训练得到的参数。构建每类任务的样本数据集，基于第j类任务的样本数据集I_j计算第j类任务的线性相关性系数R_j ²，其中，y_ji表示样本数据集I_j中第i个样本数据的实际资源使用量，/>表示使用线性回归模型预测得到的样本数据集I_j中第i个样本数据的资源使用量，/>表示样本数据集I_j中n个样本(所有样本)实际资源使用量的平均值。

任务资源使用分类判定如下：当R_j ²≥0.85，则判断第j类任务为第一类线性资源使用模式，根据输入数据集的大小，使用训练好的模型来估计实际生产任务的资源需求；当R_j ²≤0.85，则判断第j类任务为第二类确定型资源使用模式，输入数据集大小和资源使用之间的关系不相关；当0.15＜R_j ²＜0.85，则判断第j类任务为第三类不确定资源使用模式。

之后基于在离线测试时判定的任务类型即可确定其对应完整工单数据集处理的任务类型，当然，为了避免出现新的任务类型，需要对新提交工单数据处理任务的资源使用模式进行分类。

3、云资源分配方案编码

将内核数量、内核CPU速度、内核RAM、磁盘空间、磁盘速度和网络带宽等特征值进行标准化和离散化。云资源分配方案其中，core表示内核数量，cpu表示内核CPU速度，ram表示内核RAM，disk表示磁盘空间，speed表示磁盘速度，network表示网络带宽。

4、云资源分配优化目标定义

对每种云资源分配方案使用向量进行编码表示，迭代探索选择新的云资源分配方案，在资源使用模式的约束下，随机尝试五种初始资源分配方案，观察由此产生的成本开销，探索缩小的探索空间。对于剩余的未探索的探索空间，使用先前可用样本点估计后验分布。随后的每次迭代，使用估计改进函数选择下一个云资源分配方案。当估计改进函数不足以在比先前最佳云资源配置方案带来足够更小的成本开销，探索过程结束。对于给定的工单大数据处理任务，目标是探索最佳的云资源分配方案，以满足处理完成时间要求并最大限度地减少总执行成本，形式化表示为同时满足条件/>其中，/>表示云资源分配向量，包括CPU、RAM和其他资源数量；/>是云配置/>的总成本；表示所有资源的单位时间价格；/>表示数据处理任务完成时间；T_max是容许的最大完成时间。

数据处理任务完成时间取决于云资源分配数量/>探索候选云资源分配方案得到相应的/>计算最小的/>能够求解得到最优的候选资源分配方案，以达到全局近似最优，即在所有待处理任务的执行时间均小于最大完成时间的条件下，整体执行成本最低，本发明利用概率分布高效探索最优资源分配方案。

5、云资源分配方案探索初始化及探索空间约束

为了在完整数据集上执行数据处理任务，需要为其分配合理资源，通过约束任务资源使用模式可以减少探索空间，具体包括以下三类：对于线性资源需求，资源需求随输入数据集大小线性增长，将任务的资源需求与数据处理框架资源开销相加，可以估计得到任务对云资源的总需求；对于确定型资源需求，将优先探索空间限制为具有相对较低总资源，因为对于这些任务，额外的资源只会增加成本，而不会提高性能；对于不确定资源需求，不能限制探索空间，否则会导致得不到期望的资源数量。

假设数据处理软件的固定的云资源开销已知为A，根据判定的工单数据处理任务资源使用模式；

对于第一类线性资源使用模式，确定待处理数据集中线性型资源使用模式的数据量大小x_i，采用线性回归模型预测数据量大小x_i的资源使用数量y_i，将搜索过程中的云资源分配向量的初始值设为y_i+A，并且约束后续资源探索空间为L_low＝(y_i/2+A)到L_up＝(y_i+A)×2之间；

对于第二类确定型资源使用模式，对待处理数据集中的所有确定型资源使用模式的任务使用线性回归模型预测对应的资源使用数量，进而计算资源使用数量的平均值为y，将搜索过程中的云资源分配向量的初始值设为并且约束后续资源探索空间为到/>之间；

对于第三类不确定资源使用模式，将搜索过程中的云资源分配向量的初始值设为随机值y_r，y_r＞A，不约束后续资源探索空间。

6、最优云资源分配方案的搜索

目标函数事先未知，假设符合高斯随机过程，根据多个样本/>采样值计算的置信区间，即/>概率密度函数曲线具有最高概率通过的区域。给定输入点/>由于无法直接得到函数/>只能监测到近似的实际值/>那么，/>其中，ξ是均值为零的高斯噪声。因为/>也是高斯分布，根据/>和ξ能够推断出/>的置信区间。这样，能够快速学习目标函数/>并且仅在最可能包含最小值点的置信区间中进行采样。

使用高斯过程作为云资源分配向量x的总成本为的先验函数，可计算得到均值和方差。假设待处理数据集的云资源分配向量/>符合高斯随机过程，工单数据处理任务云资源分配的目标函数为/>最优云资源分配方案的搜索过程具体如下：

(2)计算待探索的云资源分配向量的执行成本，将云资源分配向量x加入集合X_t中，输出执行时间均小于最大完成时间的最小执行成本的云资源分配向量X_t为已探索的云资源分配向量集合；

(2)计算云资源分配向量集合X_t中云资源分配向量的平均值为/>和标准差为而后正态化处理为/>计算下个云资源分配向量其中，CDF(Z)为参数为Z的正态分布的累计分布函数值，PDF(Z)为参数为Z的正态分布的概率密度函数值；

(4)直至当两次相邻采集样本点的函数值差别小于阈值8％，并且已经探索到至少8种云资源分配方案，从而确保不会过快停止探索以陷入局部最优状态，当前/>值最小的云资源分配方案/>为最终云资源分配方案。

图2为本发明实施例提供的面向云计算的工单大数据智能处理系统的结构示意图，为了便于说明，仅示出与本发明实施例相关的部分。该系统包括：

任务资源评估器部署在离线测试环境，通过在个人计算机上执行少量工单数据样本的数据处理任务判断数据处理任务为线性、确定型或不确定资源需求类型；数据处理监测器搜集云计算平台上任务处理时间及产生的成本；云资源分配方案探索器根据得到的任务处理成本，所有最优的云资源分配向量；云资源分配器调用云计算平台的资源分配接口调整任务执行的各类资源。

本发明提供的面向云计算的工单大数据智能处理方法具有如下有益技术效果：

(1)采用非参数化智能优化探索方法探索工单大数据处理任务的云资源分配方案，无需预先定义大数据处理的性能模型进行训练，适用于工单大数据的复杂任务处理。与传统人工构建模型的方法相比，可以有效降低构建模型的难度和分配云资源的复杂性。估计每个候选云资源分配方案的任务执行完成时间和成本开销的置信区间，通过搜集更多实际运行中获得的样本数据改善置信区间，通过探索减少当前云资源调整的不确定性以接近最优解。

(2)利用来自先前运行时搜集的工单大数据任务完成时间和云资源分配的监测信息，在执行过程中动态迭代反馈式地更新集群资源分配，无需此前同样类型任务的执行记录作为参考，适用于工单大数据的异构任务类型。与传统参考同类数据处理任务历史执行记录的方法相比，可以适用于不具有先前执行记录的全新任务类型。

(3)在实验环境下开展小规模测试以发现工单大数据任务处理数量和资源需求的关系，限定各类任务资源分配方案的探索范围，通过减少探索空间来快速探索合适的资源分配方案，进而对资源分配方案进行优先排序，从而减少了运行时方案探索时间，降低了大范围探索云资源分配方案空间所带来的资源代价。

本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。

Claims

1.一种面向云计算的工单大数据智能处理方法，其特征在于，所述方法包括如下步骤：

(1)确定当前待处理任务的资源使用模型；

(2)确定不同资源使用模型的探索空间；

2.如权利要求1所述面向云计算的工单大数据智能处理方法，其特征在于，资源使用模型包括：

资源使用和输入数据集大小之间存在线性关系的线性型资源使用模式；资源使用和输入数据集大小之间没有明显的相关性的确定型资源使用模式；资源使用量和任务输入数据集大小之间没有线性相关性的不确定型资源使用模式。

3.如权利要求1所述面向云计算的工单大数据智能处理方法，其特征在于，当前待处理任务的资源使用模型识别方法具体如下：

采用少量的样本数据离线训练线性回归模型；

4.如权利要求3所述面向云计算的工单大数据智能处理方法，其特征在于，基于线性相关性R_j ²的资源使用模型分类方法具体如下：

5.如权利要求1所述面向云计算的工单大数据智能处理方法，其特征在于，线性资源使用模式的探索空间确定方法具体如下：

其中，A为固定的云资源开销。

6.如权利要求1所述面向云计算的工单大数据智能处理方法，其特征在于，确定型资源使用模式的探索空间确定方法具体如下：

其中，A为为固定的云资源开销。

7.如权利要求1所述面向云计算的工单大数据智能处理方法，其特征在于，不确定资源使用模式的探索空间不约束。

8.如权利要求1所述面向云计算的工单大数据智能处理方法，其特征在于，最优云资源分配方案的搜索过程具体如下：

9.如权利要求8所述面向云计算的工单大数据智能处理方法，其特征在于，读取搜索过程中云资源分配向量的初始值的确定方法具体如下：