CN117492982A - 一种面向云计算的工单大数据智能处理方法 - Google Patents

一种面向云计算的工单大数据智能处理方法 Download PDF

Info

Publication number
CN117492982A
CN117492982A CN202311381636.0A CN202311381636A CN117492982A CN 117492982 A CN117492982 A CN 117492982A CN 202311381636 A CN202311381636 A CN 202311381636A CN 117492982 A CN117492982 A CN 117492982A
Authority
CN
China
Prior art keywords
cloud
resource allocation
resource
resource usage
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311381636.0A
Other languages
English (en)
Inventor
王延松
霍龙双
章程
冯威
蔡海辉
吴成龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chery Huiyin Auto Finance Co ltd
Original Assignee
Chery Huiyin Auto Finance Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chery Huiyin Auto Finance Co ltd filed Critical Chery Huiyin Auto Finance Co ltd
Priority to CN202311381636.0A priority Critical patent/CN117492982A/zh
Publication of CN117492982A publication Critical patent/CN117492982A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种面向云计算的工单大数据智能处理方法,包括如下步骤:(1)确定当前待处理任务的资源使用模型;(2)确定不同资源使用模型的探索空间;(3)将当前待处理任务在对应的探索空间内进行搜索,输出执行时间均小于最大完成时间,且执行成本最低的最优云资源分配方案。本发明无需分析数据类型及任务处理逻辑以进行性能建模,适用于多种类型工单数据处理任务,具有较好的可扩展性;基于概率分布迭代式智能化探索最优云资源分配方案,能够智能化提高工单数据处理效率并减少云资源使用的成本开销;同时,通过判定工单数据处理任务类型设定初始值及探索空间以提高优化的执行效率。

Description

一种面向云计算的工单大数据智能处理方法
技术领域
本发明属于云计算技术领域,更具体地,本发明涉及一种面向云计算的工单大数据智能处理方法。
背景技术
在当今数字经济浪潮推动下,数据作为一种新型资产已经成为保障企业正常运营,以及制定企业长远发展战略的关键。汽车金融行业的工单数据是定期存款、汽车贷款、保证金、债券等各个业务的一个或多个任务组成的工作任务计划,由上级部门下达任务并由一个或多个相关下级部门领受任务。工单数据处理是指对工单数据进行收集、记录、跟踪、存储、加工、变换、传输、统计、分析和挖掘的活动。工单数据处理是企业管理中的一个重要环节,可以有效地协调和管理金融机构各个部门之间的信息流通,提高工作效率,降低成本,提高服务质量。同时,帮助金融行业数据分析,提供决策支持,优化业务流程,提高企业竞争力。
汽车金融行业数据类型已经从传统单一结构化表单数据过渡到文本、语音、图形、图像等多种类型。在全球化布局及产业分布的背景下,金融行业工单数据呈现出来源广泛、种类繁多、结构多样、数据体量巨大、价值密度低、处理速度要求高和商业价值高等特点,因而急需研究面向金融行业多源异构工单大数据的处理技术。
云计算将计算任务分布在大量计算机组成的资源池上,使各种应用系统能够按需获取计算力、存储空间和信息服务,具有动态可扩展、按需部署、灵活性高、可靠性高、性价比高等特点,为工单大数据处理提供了良好的运行基础环境。在云计算场景下,为金融行业多源异构工单大数据处理按需分配资源具有以下挑战:
(1)工单数据处理任务建模的复杂性:工单数据处理任务的数据处理时间与云计算资源的类型和数量、处理数据的类型和数量、工单数据处理的工作流程等诸多因素都有着联系,难以建模这种复杂关系。(2)数据处理性能的动态性:云计算环境具有动态性,网络拥塞和抖动、网络拓扑结构变化、新工单到达等都会引起原有工单数据处理性能发生变化,因而工单数据处理任务的执行效率具有不确定性。(3)数据处理任务的异构性:不同类型工单具有不同的内部数据处理流程和依赖性,针对单个应用手动构建性能模型难以适用于其他工单数据处理任务,因而工单数据处理性能建模具有不可扩展性。
发明内容
本发明提供一种面向云计算的工单大数据智能处理方法,旨在改善上述问题中的至少一个。
本发明是这样实现的,一种面向云计算的工单大数据智能处理方法,所述方法包括如下步骤:
(1)确定当前待处理任务的资源使用模型;
(2)确定不同资源使用模型的探索空间;
(3)将当前待处理任务在对应的探索空间内进行搜索,输出执行时间均小于最大完成时间,且执行成本最低的最优云资源分配方案。
其中,资源使用模型包括:资源使用和输入数据集大小之间存在线性关系的线性型资源使用模式;资源使用和输入数据集大小之间没有明显的相关性的确定型资源使用模式;资源使用量和任务输入数据集大小之间没有线性相关性的不确定型资源使用模式。
进一步的,当前待处理任务的资源使用模型识别方法具体如下:
采用少量的样本数据离线训练线性回归模型;
计算不同类型任务的样本数据的线性相关性Rj 2,基于线性相关性Rj 2确定不同任务类型的资源使用模型;
确定待处理任务的任务类型,读取任务类型对应的资源使用模型。
进一步的,基于线性相关性Rj 2的资源使用模型分类方法具体如下:
线性相关性Rj 2大于阈值1的任务认定为线性型资源使用模式,线性相关性Rj 2小于阈值2的任务认定为确定型资源使用模式,线性相关性位于阈值2至阈值1之间的任务认定为不确定型资源使用模式。
进一步的,线性资源使用模式的探索空间确定方法具体如下:
确定待处理数据集中线性型资源使用模式的数据量大小xi,采用线性回归模型预测数据量大小xi的资源使用数量yi,将探索空间为Llow=(yi/2+A)到Lup=(yi+A)×2之间;
其中,A为固定的云资源开销。
进一步的,确定型资源使用模式的探索空间确定方法具体如下:
对待处理数据集中的所有确定型资源使用模式的任务使用线性回归模型预测对应的资源使用数量,进而计算资源使用数量的平均值为探索空间为/>之间;
其中,A为为固定的云资源开销。
进一步的,不确定资源使用模式的探索空间不约束。
进一步的,最优云资源分配方案的搜索过程具体如下:
(1)读取搜索过程中云资源分配向量的初始值,将初始值作为待探索的云资源分配向量
(2)计算待探索的云资源分配向量的执行成本,将云资源分配向量/>加入集合Xt中,输出执行时间均小于最大完成时间的最小执行成本对应云资源分配向量Xt为已探索的云资源分配向量集合;
(2)计算云资源分配向量集合Xt中云资源分配向量x的平均值为和标准差为而后正态化处理为/>计算下个云资源分配向量其中,CDF(Z)为参数为Z的正态分布的累计分布函数值,PDF(Z)为参数为Z的正态分布的概率密度函数值;
(3)当则令/>当/>则令/>重复执行直到符合续资源探索空间的上限及下限约束,将/>作为待探索的云资源分配向量/>执行步骤(2);
(4)直至当前云资源分配向量与上一次云资源分配向量的成本差小于成本差阈值,则当前云资源分配向量即为最优的云资源分配方案。
进一步的,读取搜索过程中云资源分配向量的初始值的确定方法具体如下:
线性资源使用模式,搜索过程中的云资源分配向量的初始值为yi+A;
确定型资源使用模式,搜索过程中的云资源分配向量的初始值为
不确定资源使用模式,搜索过程中的云资源分配向量的初始值设为随机值yr,yr>A。
本发明无需分析数据类型及任务处理逻辑以进行性能建模,适用于多种类型工单数据处理任务,具有较好的可扩展性;基于概率分布迭代式智能化探索最优云资源分配方案,能够智能化提高工单数据处理效率并减少云资源使用的成本开销;同时,通过判定工单数据处理任务类型设定初始值及探索空间以提高优化的执行效率。
附图说明
图1为本发明实施例提供的面向云计算的工单大数据智能处理方法流程图;
图2为本发明实施例提供的面向云计算的工单大数据智能处理系统的结构示意图。
具体实施方式
下面对照附图,通过对实施例的描述,对本发明的具体实施方式作进一步详细的说明,以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。
本发明提出一种面向云计算环境的工单大数据智能处理方法,首先通过少量样本离线训练回归模型,进而确定待处理数据集中的待处理样本的资源使用模型,为线性、确定型或不确定的资源使用模型;对云资源分配方案的各维度资源进行编码形成向量,形式化描述云资源分配优化目标;根据任务资源使用类型初始化云资源分配方案并约束各类型任务的探索空间;搜集云计算平台上任务处理时间及产生的成本,以在线迭代自优化的方式调整云资源分配方案;当相邻方案改进小于阈值且取得足够采样,则找到最优资源分配方案并停止探索。
图1为本发明实施例提供的面向云计算的工单大数据智能处理方法流程图,该方法具体如下:
1、任务资源使用离线测试
在实验环境下单台个人计算机上完成任务资源使用测试,初步评估单位工单数据处理任务的资源需求,而不是对工单数据处理的整个执行流程建模,因而该单个计算机不需要与目标集群基础设施具有相同的资源类型以避免集群资源挤占。
从待处理数据集中选择n组样本数据集,样本数量使得实际任务处理过程执行5分钟后完成,为测量数据处理的实际资源占用提供足够时间。第i组样本数据集的数据量大小xi和相应各类资源使用数量yi,形成样本数据集数量为n的训练数据集{(x1,y1),(x2,y2),...,(xn,yn)}。从具体实施角度而言,最初可以选择待处理数据集样本数量的0.50%,然后根据实际和目标执行时间之间的差距进行迭代调整。如果运行时间长于10分钟,则可以取消该次数据处理任务,并且用该样本数量的一半重新开始执行。如果运行时间小于5分钟,则可以取消该次数据处理任务,并且用该样本数量的两倍重新开始执行。而后,选择额外n-1个不同的样本数据子集重复进行测试,以搜集更多的执行结果数据。使用在操作系统级别监控资源使用的系统调用接口,在每次开始执行之前计算系统所分配的初始资源数量如内存占用,以准确计算任务实际执行所需要的各类资源。
2、资源使用分类
在收集了不同类型任务的资源使用数据之后,需要对任务的资源使用进行分类,以加速探索给定任务的最佳资源分配方案,将任务资源使用划分为以下三种模式:
1)线性型资源使用模式:资源使用和输入数据集大小之间存在线性关系。例如,迭代任务一次性将整个数据集加载到内存中,并在整个执行过程中缓存,那么内存占用量就随数据集大小变化。
2)确定型资源使用模式:资源使用和输入数据集大小之间没有明显的相关性。例如,一次性执行任务不需要节点的内存容量,在分布式数据流任务的各个阶段之间将数据写入磁盘,随着输入数据集大小的增加内存使用保持不变
3)不确定型资源使用模式:资源使用量和任务输入数据集大小之间没有线性相关性。例如,迭代任务一次对整个数据集或大部分数据集进行操作,并以快于垃圾回收速度不断生成新的对象,因此内存使用随时间增加,但是由于定期垃圾回收,通常不会呈线性而是指数或对数增长。
根据样本数据集训练线性回归模型y=ax+b,样本数据集包括数据集大小和相应资源数量信息,其中,x是样本数据集的数据量,y为相应各类资源使用数量,a和b是可由训练得到的参数。构建每类任务的样本数据集,基于第j类任务的样本数据集Ij计算第j类任务的线性相关性系数Rj 2其中,yji表示样本数据集Ij中第i个样本数据的实际资源使用量,/>表示使用线性回归模型预测得到的样本数据集Ij中第i个样本数据的资源使用量,/>表示样本数据集Ij中n个样本(所有样本)实际资源使用量的平均值。
任务资源使用分类判定如下:当Rj 2≥0.85,则判断第j类任务为第一类线性资源使用模式,根据输入数据集的大小,使用训练好的模型来估计实际生产任务的资源需求;当Rj 2≤0.85,则判断第j类任务为第二类确定型资源使用模式,输入数据集大小和资源使用之间的关系不相关;当0.15<Rj 2<0.85,则判断第j类任务为第三类不确定资源使用模式。
之后基于在离线测试时判定的任务类型即可确定其对应完整工单数据集处理的任务类型,当然,为了避免出现新的任务类型,需要对新提交工单数据处理任务的资源使用模式进行分类。
3、云资源分配方案编码
将内核数量、内核CPU速度、内核RAM、磁盘空间、磁盘速度和网络带宽等特征值进行标准化和离散化。云资源分配方案其中,core表示内核数量,cpu表示内核CPU速度,ram表示内核RAM,disk表示磁盘空间,speed表示磁盘速度,network表示网络带宽。
4、云资源分配优化目标定义
对每种云资源分配方案使用向量进行编码表示,迭代探索选择新的云资源分配方案,在资源使用模式的约束下,随机尝试五种初始资源分配方案,观察由此产生的成本开销,探索缩小的探索空间。对于剩余的未探索的探索空间,使用先前可用样本点估计后验分布。随后的每次迭代,使用估计改进函数选择下一个云资源分配方案。当估计改进函数不足以在比先前最佳云资源配置方案带来足够更小的成本开销,探索过程结束。对于给定的工单大数据处理任务,目标是探索最佳的云资源分配方案,以满足处理完成时间要求并最大限度地减少总执行成本,形式化表示为同时满足条件/>其中,/>表示云资源分配向量,包括CPU、RAM和其他资源数量;/>是云配置/>的总成本;表示所有资源的单位时间价格;/>表示数据处理任务完成时间;Tmax是容许的最大完成时间。
数据处理任务完成时间取决于云资源分配数量/>探索候选云资源分配方案得到相应的/>计算最小的/>能够求解得到最优的候选资源分配方案,以达到全局近似最优,即在所有待处理任务的执行时间均小于最大完成时间的条件下,整体执行成本最低,本发明利用概率分布高效探索最优资源分配方案。
5、云资源分配方案探索初始化及探索空间约束
为了在完整数据集上执行数据处理任务,需要为其分配合理资源,通过约束任务资源使用模式可以减少探索空间,具体包括以下三类:对于线性资源需求,资源需求随输入数据集大小线性增长,将任务的资源需求与数据处理框架资源开销相加,可以估计得到任务对云资源的总需求;对于确定型资源需求,将优先探索空间限制为具有相对较低总资源,因为对于这些任务,额外的资源只会增加成本,而不会提高性能;对于不确定资源需求,不能限制探索空间,否则会导致得不到期望的资源数量。
假设数据处理软件的固定的云资源开销已知为A,根据判定的工单数据处理任务资源使用模式;
对于第一类线性资源使用模式,确定待处理数据集中线性型资源使用模式的数据量大小xi,采用线性回归模型预测数据量大小xi的资源使用数量yi,将搜索过程中的云资源分配向量的初始值设为yi+A,并且约束后续资源探索空间为Llow=(yi/2+A)到Lup=(yi+A)×2之间;
对于第二类确定型资源使用模式,对待处理数据集中的所有确定型资源使用模式的任务使用线性回归模型预测对应的资源使用数量,进而计算资源使用数量的平均值为y,将搜索过程中的云资源分配向量的初始值设为并且约束后续资源探索空间为到/>之间;
对于第三类不确定资源使用模式,将搜索过程中的云资源分配向量的初始值设为随机值yr,yr>A,不约束后续资源探索空间。
6、最优云资源分配方案的搜索
目标函数事先未知,假设符合高斯随机过程,根据多个样本/>采样值计算的置信区间,即/>概率密度函数曲线具有最高概率通过的区域。给定输入点/>由于无法直接得到函数/>只能监测到近似的实际值/>那么,/>其中,ξ是均值为零的高斯噪声。因为/>也是高斯分布,根据/>和ξ能够推断出/>的置信区间。这样,能够快速学习目标函数/>并且仅在最可能包含最小值点的置信区间中进行采样。
使用高斯过程作为云资源分配向量x的总成本为的先验函数,可计算得到均值和方差。假设待处理数据集的云资源分配向量/>符合高斯随机过程,工单数据处理任务云资源分配的目标函数为/>最优云资源分配方案的搜索过程具体如下:
(1)读取搜索过程中云资源分配向量的初始值,将初始值作为待探索的云资源分配向量
(2)计算待探索的云资源分配向量的执行成本,将云资源分配向量x加入集合Xt中,输出执行时间均小于最大完成时间的最小执行成本的云资源分配向量Xt为已探索的云资源分配向量集合;
(2)计算云资源分配向量集合Xt中云资源分配向量的平均值为/>和标准差为而后正态化处理为/>计算下个云资源分配向量其中,CDF(Z)为参数为Z的正态分布的累计分布函数值,PDF(Z)为参数为Z的正态分布的概率密度函数值;
(3)当则令/>当/>则令/>重复执行直到符合续资源探索空间的上限及下限约束,将/>作为待探索的云资源分配向量/>执行步骤(2);
(4)直至当两次相邻采集样本点的函数值差别小于阈值8%,并且已经探索到至少8种云资源分配方案,从而确保不会过快停止探索以陷入局部最优状态,当前/>值最小的云资源分配方案/>为最终云资源分配方案。
图2为本发明实施例提供的面向云计算的工单大数据智能处理系统的结构示意图,为了便于说明,仅示出与本发明实施例相关的部分。该系统包括:
任务资源评估器部署在离线测试环境,通过在个人计算机上执行少量工单数据样本的数据处理任务判断数据处理任务为线性、确定型或不确定资源需求类型;数据处理监测器搜集云计算平台上任务处理时间及产生的成本;云资源分配方案探索器根据得到的任务处理成本,所有最优的云资源分配向量;云资源分配器调用云计算平台的资源分配接口调整任务执行的各类资源。
本发明提供的面向云计算的工单大数据智能处理方法具有如下有益技术效果:
(1)采用非参数化智能优化探索方法探索工单大数据处理任务的云资源分配方案,无需预先定义大数据处理的性能模型进行训练,适用于工单大数据的复杂任务处理。与传统人工构建模型的方法相比,可以有效降低构建模型的难度和分配云资源的复杂性。估计每个候选云资源分配方案的任务执行完成时间和成本开销的置信区间,通过搜集更多实际运行中获得的样本数据改善置信区间,通过探索减少当前云资源调整的不确定性以接近最优解。
(2)利用来自先前运行时搜集的工单大数据任务完成时间和云资源分配的监测信息,在执行过程中动态迭代反馈式地更新集群资源分配,无需此前同样类型任务的执行记录作为参考,适用于工单大数据的异构任务类型。与传统参考同类数据处理任务历史执行记录的方法相比,可以适用于不具有先前执行记录的全新任务类型。
(3)在实验环境下开展小规模测试以发现工单大数据任务处理数量和资源需求的关系,限定各类任务资源分配方案的探索范围,通过减少探索空间来快速探索合适的资源分配方案,进而对资源分配方案进行优先排序,从而减少了运行时方案探索时间,降低了大范围探索云资源分配方案空间所带来的资源代价。
本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。

Claims (9)

1.一种面向云计算的工单大数据智能处理方法,其特征在于,所述方法包括如下步骤:
(1)确定当前待处理任务的资源使用模型;
(2)确定不同资源使用模型的探索空间;
(3)将当前待处理任务在对应的探索空间内进行搜索,输出执行时间均小于最大完成时间,且执行成本最低的最优云资源分配方案。
2.如权利要求1所述面向云计算的工单大数据智能处理方法,其特征在于,资源使用模型包括:
资源使用和输入数据集大小之间存在线性关系的线性型资源使用模式;资源使用和输入数据集大小之间没有明显的相关性的确定型资源使用模式;资源使用量和任务输入数据集大小之间没有线性相关性的不确定型资源使用模式。
3.如权利要求1所述面向云计算的工单大数据智能处理方法,其特征在于,当前待处理任务的资源使用模型识别方法具体如下:
采用少量的样本数据离线训练线性回归模型;
计算不同类型任务的样本数据的线性相关性Rj 2,基于线性相关性Rj 2确定不同任务类型的资源使用模型;
确定待处理任务的任务类型,读取任务类型对应的资源使用模型。
4.如权利要求3所述面向云计算的工单大数据智能处理方法,其特征在于,基于线性相关性Rj 2的资源使用模型分类方法具体如下:
线性相关性Rj 2大于阈值1的任务认定为线性型资源使用模式,线性相关性Rj 2小于阈值2的任务认定为确定型资源使用模式,线性相关性位于阈值2至阈值1之间的任务认定为不确定型资源使用模式。
5.如权利要求1所述面向云计算的工单大数据智能处理方法,其特征在于,线性资源使用模式的探索空间确定方法具体如下:
确定待处理数据集中线性型资源使用模式的数据量大小xi,采用线性回归模型预测数据量大小xi的资源使用数量yi,将探索空间为Llow=(yi/2+A)到Lup=(yi+A)×2之间;
其中,A为固定的云资源开销。
6.如权利要求1所述面向云计算的工单大数据智能处理方法,其特征在于,确定型资源使用模式的探索空间确定方法具体如下:
对待处理数据集中的所有确定型资源使用模式的任务使用线性回归模型预测对应的资源使用数量,进而计算资源使用数量的平均值为探索空间为/>之间;
其中,A为为固定的云资源开销。
7.如权利要求1所述面向云计算的工单大数据智能处理方法,其特征在于,不确定资源使用模式的探索空间不约束。
8.如权利要求1所述面向云计算的工单大数据智能处理方法,其特征在于,最优云资源分配方案的搜索过程具体如下:
(1)读取搜索过程中云资源分配向量的初始值,将初始值作为待探索的云资源分配向量
(2)计算待探索的云资源分配向量的执行成本,将云资源分配向量/>加入集合Xt中,输出执行时间均小于最大完成时间的最小执行成本对应云资源分配向量Xt为已探索的云资源分配向量集合;
(2)计算云资源分配向量集合Xt中云资源分配向量的平均值为/>和标准差为而后正态化处理为/>计算下个云资源分配向量其中,CDF(Z)为参数为Z的正态分布的累计分布函数值,PDF(Z)为参数为Z的正态分布的概率密度函数值;
(3)当则令/>当/>则令/>重复执行直到符合续资源探索空间的上限及下限约束,将/>作为待探索的云资源分配向量/>执行步骤(2);
(4)直至当前云资源分配向量与上一次云资源分配向量的成本差小于成本差阈值,则当前云资源分配向量即为最优的云资源分配方案。
9.如权利要求8所述面向云计算的工单大数据智能处理方法,其特征在于,读取搜索过程中云资源分配向量的初始值的确定方法具体如下:
线性资源使用模式,搜索过程中的云资源分配向量的初始值为yi+A;
确定型资源使用模式,搜索过程中的云资源分配向量的初始值为
不确定资源使用模式,搜索过程中的云资源分配向量的初始值设为随机值yr,yr>A。
CN202311381636.0A 2023-10-23 2023-10-23 一种面向云计算的工单大数据智能处理方法 Pending CN117492982A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311381636.0A CN117492982A (zh) 2023-10-23 2023-10-23 一种面向云计算的工单大数据智能处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311381636.0A CN117492982A (zh) 2023-10-23 2023-10-23 一种面向云计算的工单大数据智能处理方法

Publications (1)

Publication Number Publication Date
CN117492982A true CN117492982A (zh) 2024-02-02

Family

ID=89683882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311381636.0A Pending CN117492982A (zh) 2023-10-23 2023-10-23 一种面向云计算的工单大数据智能处理方法

Country Status (1)

Country Link
CN (1) CN117492982A (zh)

Similar Documents

Publication Publication Date Title
US10846643B2 (en) Method and system for predicting task completion of a time period based on task completion rates and data trend of prior time periods in view of attributes of tasks using machine learning models
US10748072B1 (en) Intermittent demand forecasting for large inventories
US20060164997A1 (en) Dependency structure from temporal data
CN103778474A (zh) 资源负载量预测方法、分析预测系统及业务运营监控系统
CN113037877B (zh) 云边端架构下时空数据及资源调度的优化方法
US8762314B2 (en) Predictions using aggregate information
Chen et al. $ d $ d-Simplexed: Adaptive Delaunay Triangulation for Performance Modeling and Prediction on Big Data Analytics
US11860905B2 (en) Scanning for information according to scan objectives
CN112181659B (zh) 云仿真内存资源预测模型构建方法与内存资源预测方法
US20210392055A1 (en) Managing computation load in a fog network
US11977993B2 (en) Data source correlation techniques for machine learning and convolutional neural models
US20200050982A1 (en) Method and System for Predictive Modeling for Dynamically Scheduling Resource Allocation
US12051009B2 (en) Automatic and self-optimized determination of execution parameters of a software application on an information processing platform
US20220027758A1 (en) Information processing apparatus and information processing method
CN113220466A (zh) 一种基于长短期记忆模型的云服务负载通用预测方法
EP2541409B1 (en) Parallelization of large scale data clustering analytics
US20230267007A1 (en) System and method to simulate demand and optimize control parameters for a technology platform
CN116992253A (zh) 与目标业务关联的目标预测模型中超参数的取值确定方法
Singh et al. A feature extraction and time warping based neural expansion architecture for cloud resource usage forecasting
CN117492982A (zh) 一种面向云计算的工单大数据智能处理方法
US11656887B2 (en) System and method to simulate demand and optimize control parameters for a technology platform
Zhou et al. Waste Not, Want Not: Service Migration-Assisted Federated Intelligence for Multi-Modality Mobile Edge Computing
Sun An influence diagram based cloud service selection approach in dynamic cloud marketplaces
CN113313313B (zh) 一种面向城市感知的移动节点任务规划方法
CN110796234B (zh) 一种用于预测计算机状态的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination