CN116643961A - 性能数据补全方法、装置、设备和存储介质 - Google Patents

性能数据补全方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN116643961A
CN116643961A CN202310575948.9A CN202310575948A CN116643961A CN 116643961 A CN116643961 A CN 116643961A CN 202310575948 A CN202310575948 A CN 202310575948A CN 116643961 A CN116643961 A CN 116643961A
Authority
CN
China
Prior art keywords
tensor
performance data
low
historical performance
rank
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310575948.9A
Other languages
English (en)
Inventor
谭健楠
李力卡
吴秉佺
王谦
段俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Research Institute China Telecom Co ltd
China Telecom Corp Ltd
Original Assignee
Guangdong Research Institute China Telecom Co ltd
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Research Institute China Telecom Co ltd, China Telecom Corp Ltd filed Critical Guangdong Research Institute China Telecom Co ltd
Priority to CN202310575948.9A priority Critical patent/CN116643961A/zh
Publication of CN116643961A publication Critical patent/CN116643961A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种性能数据补全方法、装置、设备和存储介质。方法包括:获取云平台的目标主机的历史性能数据;根据历史性能数据所属目标主机的机器信息对历史性能数据进行分组,并根据历史性能数据的日期信息和时间点信息对每组历史性能数据进行排序;根据每组排序后的历史性能数据的机器信息、日期信息和时间点信息,构建历史性能数据的待补全三维张量;将待补全三维张量分解为待求解的低秩张量和稀疏张量,并构建求解低秩张量和稀疏张量的优化模型;按照优化模型迭代地依次优化低秩张量和稀疏张量,直至符合停止条件,得到最优的低秩张量和稀疏张量,并根据最优的低秩张量确定补全后的历史性能数据。采用本方法能够提高性能数据补全的准确性。

Description

性能数据补全方法、装置、设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种性能数据补全方法、装置、设备和存储介质。
背景技术
云平台上的主机是云计算在基础设施应用上的重要组成部分,比如:云主机和云虚机,但是由于采集设备故障、传输过程丢失以及保存数据过程出错等原因,往往会导致云平台上的主机的关键性能指标(Key Performance Indicators,KPI)数据缺失的情况。云平台上的主机的关键性能指标数据的完整性在智能云节能等方面起到关键作用,因此,如何对数据存在缺失的云平台主机的关键性能指标数据进行数据补全成为了一个非常重要的问题。
传统方法中,一般是采用深度学习网络训练得到模型,然后使用预先训练的模型对待补全的历史性能数据(即,关键性能指标数据)进行补全。然而,这种方法往往需要依赖大量的有效训练样本进行模型训练才能得到准确的模型,在训练样本不足的情况下,往往难以得到准确的模型,导致基于不准确的模型进行数据补全的准确性不高。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高准确性的性能数据补全方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种性能数据补全方法。所述方法包括:
获取云平台的目标主机的历史性能数据;
根据所述历史性能数据所属目标主机的机器信息对所述历史性能数据进行分组,并根据所述历史性能数据的日期信息和时间点信息对每组所述历史性能数据进行排序;
根据每组排序后的所述历史性能数据的机器信息、日期信息和时间点信息,构建所述历史性能数据的待补全三维张量;
将所述待补全三维张量分解为待求解的低秩张量和稀疏张量,并构建求解所述低秩张量和所述稀疏张量的优化模型;
按照所述优化模型迭代地依次优化所述低秩张量和所述稀疏张量,直至符合停止条件,得到最优的低秩张量和稀疏张量,并根据所述最优的低秩张量确定补全后的历史性能数据。
第二方面,本申请还提供了一种性能数据补全装置。所述装置包括:
数据获取模块,用于获取云平台的目标主机的历史性能数据;
数据预处理模块,用于根据所述历史性能数据所属目标主机的机器信息对所述历史性能数据进行分组,并根据所述历史性能数据的日期信息和时间点信息对每组所述历史性能数据进行排序;
张量构建模块,用于根据每组排序后的所述历史性能数据的机器信息、日期信息和时间点信息,构建所述历史性能数据的待补全三维张量;
优化模型构建模块,用于将所述待补全三维张量分解为待求解的低秩张量和稀疏张量,并构建求解所述低秩张量和所述稀疏张量的优化模型;
求解模块,用于按照所述优化模型迭代地依次优化所述低秩张量和所述稀疏张量,直至符合停止条件,得到最优的低秩张量和稀疏张量,并根据所述最优的低秩张量确定补全后的历史性能数据。
在其中一个实施例中,所述求解模块还用于以目标结果等于所述待补全三维张量为约束条件,迭代地依次优化所述低秩张量和所述稀疏张量,以求解使得目标项最小时的低秩张量和稀疏张量,直至符合停止条件,得到最优的低秩张量和稀疏张量;
其中,所述目标结果是所述低秩张量和所述稀疏张量之和;所述目标项,是所述低秩张量的核范数和所述稀疏张量的L1范数的加权之和。
在其中一个实施例中,所述求解模块还用于对所述待补全三维张量进行奇异值分解,得到所述待补全三维张量对应的多个奇异值;将所述多个奇异值按照从大到小的顺序进行排序,保留排在前预设数量的奇异值,得到低管秩处理后的待补全三维张量;以目标结果等于所述低管秩处理后的待补全三维张量为约束条件,迭代地依次优化所述低秩张量和所述稀疏张量,以求解使得目标项最小时的低秩张量和稀疏张量,直至符合停止条件,得到最优的低秩张量和稀疏张量。
在其中一个实施例中,所述求解模块还用于朝着使损失函数的值减小的方向,迭代地依次优化所述损失函数中的所述低秩张量、所述稀疏张量和优化参数,直至符合停止条件,得到最优的低秩张量、稀疏张量和优化参数,并根据所述最优的低秩张量确定补全后的历史性能数据;
其中,所述损失函数包括所述目标项和通过所述优化参数加权后的条件项;所述条件项是根据所述目标结果与所述待补全三维张量之间的差值确定的。
在其中一个实施例中,所述数据预处理模块还用于根据所述历史性能数据所属目标主机所处地区的地区信息,将所述历史性能数据划分为多个地区组;不同地区组中的历史性能数据所属的目标主机处于不同地区;
所述张量构建模块还用于根据同一地区组中每组排序后的所述历史性能数据的机器信息、日期信息和时间点信息,构建所述地区组对应的地区的历史性能数据的待补全三维张量。
在其中一个实施例中,所述历史性能数据包括中央处理器利用率、内存利用率、磁盘读写速度和流量中的至少一种性能指标对应的数据;
所述张量构建模块还用于根据同一地区组中属于同一种性能指标的每组排序后的所述历史性能数据的机器信息、日期信息和时间点信息,构建所述地区组对应的地区在所述性能指标下的历史性能数据的待补全三维张量。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行本申请各实施例所述的性能数据补全方法中的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行本申请各实施例所述的性能数据补全方法中的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,使得所述处理器执行本申请各实施例所述的性能数据补全方法中的步骤。
上述性能数据补全方法、装置、计算机设备、存储介质和计算机程序产品,根据历史性能数据所属云平台的目标主机的机器信息对历史性能数据进行分组,并根据历史性能数据的日期信息和时间点信息对每组历史性能数据进行排序,根据每组排序后的历史性能数据的机器信息、日期信息和时间点信息,构建历史性能数据的待补全三维张量,求解将待补全的三维张量分解成的最优的低秩张量和稀疏张量,根据最优的低秩张量确定补全后的历史性能数据,通过分组和排序后构建张量能够充分利用历史性能数据中的上下文时序信息和缺失数据前后的数据特征,使得数据补全更加准确,而且无需依赖于训练样本进行模型训练,避免了在训练样本数据量较小的情况下难以实现准确的数据补全的问题,进一步提高了性能数据补全的准确性。
附图说明
图1为一个实施例中性能数据补全方法的应用环境图;
图2为一个实施例中性能数据补全方法的流程示意图;
图3为一个实施例中历史性能数据和三维张量的示意图;
图4为一个实施例中性能数据补全方法的整体流程示意图;
图5为一个实施例中性能数据补全装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的性能数据补全方法,可以应用于如图1所示的应用环境中。其中,云平台的各个目标主机102与处理设备104通过网络进行通信。云平台的各个目标主机102可以将各自的历史性能数据上报至处理设备104,处理设备104可以执行本申请各实施例中的性能数据补全方法,以对历史性能数据进行补全。其中,云平台的目标主机102可以是云主机或云虚机。处理设备104可以是终端或服务器。终端可以但不限于是各种个人计算机、笔记本电脑、智能手机或平板电脑等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一些实施例中,如图2所示,提供了一种性能数据补全方法,以该方法应用于图1中的处理设备104为例进行说明,包括以下步骤:
步骤202,获取云平台的目标主机的历史性能数据。
其中,云平台(即,云计算平台),是基于硬件资源和软件资源的服务,提供计算、网络和存储能力的平台。云平台的目标主机,是云平台上用于提供计算、网络和存储能力的主机。历史性能数据,是云平台的目标主机在过去的运行过程中产生的用于反映运行性能的数据。
在一些实施例中,云平台的目标主机可以包括云主机和云虚机中的至少一种。处理设备可以分别根据云主机和云虚机的历史性能数据,构建云主机和云虚机分别对应的待补全三维张量。其中,云主机,是用于提供云计算服务的服务器。云虚机,是用于提供云计算服务器的虚拟机。
在一些实施例中,历史性能数据可以包括中央处理器利用率、内存利用率、磁盘读写速度和流量等中的至少一种性能指标对应的数据。
在一些实施例中,云平台的目标主机可以按照预设时间间隔定期将自身的历史性能数据上报至处理设备。例如:目标主机可以每分钟读取自身的性能数据,并每间隔30分钟将过去30分钟内产生的历史性能数据一起上报至处理设备。
步骤204,根据历史性能数据所属目标主机的机器信息对历史性能数据进行分组,并根据历史性能数据的日期信息和时间点信息对每组历史性能数据进行排序。
其中,机器信息,是用于唯一表征目标主机的信息。例如:机器信息可以是目标主机的序号。日期信息,用于表征读取到相应历史性能数据时的日期。时间点信息,用于表征读取到相应历史性能数据时的时间点。比如:某一条历史性能数据是序号为25的云主机在2023年5月18日14点20分读取的,则该历史性能数据所属目标主机的机器信息为25,该历史性能数据的日期信息为2023年5月18日,时间点信息为14点20分。
在一些实施例中,处理设备可以将相同的机器信息对应的历史性能数据划分至同一组。例如:将序号为25的云主机对应的历史性能数据划分至同一组。
在一些实施例中,处理设备可以将每组历史性能数据先按照日期信息进行排序,然后针对日期信息相同的历史性能数据按照进一步按照时间点信息进行排序。
步骤206,根据每组排序后的历史性能数据的机器信息、日期信息和时间点信息,构建历史性能数据的待补全三维张量。
其中,待补全三维张量,是指其中存在数据缺失的三维张量。
在一些实施例中,处理设备可以针对每组排序后的历史性能数据中数据缺失的位置处进行补零,然后根据补零后的每组排序后的历史性能数据的机器信息、日期信息和时间点信息,构建历史性能数据的待补全三维张量。比如:16点35分和18点23分的历史性能数据存在缺失,则将16点35分和18点23分处进行补零。
在一些实施例中,处理设备可以分别以机器信息、日期信息和时间点信息作为待补全三维张量的三个维度,构建历史性能数据的待补全三维张量。
如图3所示,i表示机器信息,j表示时间点信息,k表示日期信息,根据机器信息i将历史性能数据划分为n组,并将每组中的j×k个性能数据按照时间顺序进行排序,然后根据每组排序后的历史性能数据的机器信息、日期信息和时间点信息,构建历史性能数据的待补全三维张量。
步骤208,将待补全三维张量分解为待求解的低秩张量和稀疏张量,并构建求解低秩张量和稀疏张量的优化模型。
其中,稀疏张量,是有少部分元素是非零、且其余元素均为零的张量。
在一些实施例中,处理设备可以将待补全三维张量分解为待求解的低秩张量和稀疏张量之和。具体可以用如下公式表示:
M=M0+M1
其中,M表示待补全三维张量,M0表示低秩张量,M1表示稀疏张量。
可以理解,上述将待补全三维张量分解为待求解的低秩张量和稀疏张量的原理可以理解为:补全后的完整的三维张量相当于低秩张量,稀疏张量相当于干扰或噪声,在低秩张量的基础上加上稀疏张量的扰动后遗失一些元素形成了待补全三维张量(即,存在数据缺失的三维张量),可以通过求解最优的低秩张量和稀疏张量,来根据最优的低秩张量确定补全后的历史性能数据。
在一些实施例中,优化模型,是以目标结果等于待补全三维张量为约束条件,求解最优的低秩张量和稀疏张量。其中,目标结果为低秩张量和稀疏张量之和。
步骤210,按照优化模型迭代地依次优化低秩张量和稀疏张量,直至符合停止条件,得到最优的低秩张量和稀疏张量,并根据最优的低秩张量确定补全后的历史性能数据。
在一些实施例中,处理设备可以在每轮迭代中,以目标结果等于待补全三维张量为约束条件,先将低秩张量作为变量并将稀疏张量作为常量来优化低秩张量,再将稀疏张量作为变量并将低秩张量作为常量来优化稀疏张量,然后进入下一轮迭代,直至符合停止条件,得到最优的低秩张量和稀疏张量。
在一些实施例中,停止条件可以是迭代次数大于或等于预设次数阈值。在另一些实施例中,停止条件可以是优化模型收敛。在其他实施例中,停止条件还可以是低秩张量和稀疏张量的不再变化。
在一些实施例中,处理设备可以将最优的低秩张量作为补全后的历史性能数据。处理设备可以将补全后的历史性能数据存入数据库中。在一些实施例中,处理设备可以将补全后的历史性能数据存入数据库的HIVE表(一种数据仓储工具中的数据表)中。
在一些实施例中,补全后的历史性能数据可以作为人工智能云节能系统的数字化底座,或者可以为云平台上的主机的业务角色识别模型、负荷预测模型或缩容节能决策模型等提供训练数据和测试验证数据。
上述性能数据补全方法,根据历史性能数据所属云平台的目标主机的机器信息对历史性能数据进行分组,并根据历史性能数据的日期信息和时间点信息对每组历史性能数据进行排序,根据每组排序后的历史性能数据的机器信息、日期信息和时间点信息,构建历史性能数据的待补全三维张量,求解将待补全的三维张量分解成的最优的低秩张量和稀疏张量,根据最优的低秩张量确定补全后的历史性能数据,通过分组和排序后构建张量能够充分利用历史性能数据中的上下文时序信息和缺失数据前后的数据特征,使得数据补全更加准确,而且自动学习历史性能数据的特征,属于无监督学习,无需依赖于训练样本进行模型训练,避免了在训练样本数据量较小的情况下容易导致过拟合的问题,进一步提高了性能数据补全的准确性,还降低了对硬件的需求,提高了数据补全的效率。实验证明,本申请各实施例中提供的性能数据补全方法能够在性能数据缺数率≤60%的情况下,以误差MAPE≤5%,恢复缺失的数据。使用本申请各实施例中提供的性能数据补全方法在相同数据量的历史性能数据集测试,相较于传统的生成对抗网络方法,补数误差MAPE指标降低10%以上,模型推理速度提升80%以上。
在一些实施例中,按照优化模型迭代地依次优化低秩张量和稀疏张量,直至符合停止条件,得到最优的低秩张量和稀疏张量包括:以目标结果等于待补全三维张量为约束条件,迭代地依次优化低秩张量和稀疏张量,以求解使得目标项最小时的低秩张量和稀疏张量,直至符合停止条件,得到最优的低秩张量和稀疏张量。其中,目标结果是低秩张量和稀疏张量之和。目标项,是低秩张量的核范数和稀疏张量的L1范数的加权之和。
在一些实施例中,优化模型可以是以目标结果等于待补全三维张量为约束条件,求解使得目标项最小时的低秩张量和稀疏张量。
在一些实施例中,目标项可以是稀疏张量的L1范数与正则化参数的乘积加上低秩张量的核范数。其中,正则化参数用于平衡低秩项(即,低秩张量对应的项)和稀疏项(即,稀疏张量对应的项)。优化模型可以用如下公式表示:
其中,M表示待补全三维张量,M0表示低秩张量,M1表示稀疏张量,λ表示正则化参数,||M1||1表示稀疏张量的L1范数,||M0||*表示低秩张量的核范数。
在一些实施例中,处理设备可以在每轮迭代中,以目标结果等于待补全三维张量为约束条件,先将低秩张量作为变量并将稀疏张量作为常量来朝着使得目标项减少的方向优化低秩张量,再将稀疏张量作为变量并将低秩张量作为常量来朝着使得目标项减少的方向优化稀疏张量,然后进入下一轮迭代,直至符合停止条件,得到最优的低秩张量和稀疏张量。
上述实施例中,以低秩张量和稀疏张量之和等于待补全三维张量为约束条件,迭代地依次优化低秩张量和稀疏张量,以求解使得低秩张量的核范数和稀疏张量的L1范数的加权之和最小时的低秩张量和稀疏张量,能够在低秩张量的核范数和稀疏张量的L1范数的加权之和最小时使得降噪效果最优,从而使从待补全三维张量中分离出稀疏张量后得到的低秩张量更加准确,提高了数据补全的准确性。
在一些实施例中,方法还包括:对待补全三维张量进行奇异值分解,得到待补全三维张量对应的多个奇异值;将多个奇异值按照从大到小的顺序进行排序,保留排在前预设数量的奇异值,得到低管秩处理后的待补全三维张量;以目标结果等于待补全三维张量为约束条件,迭代地依次优化低秩张量和稀疏张量,以求解使得目标项最小时的低秩张量和稀疏张量,直至符合停止条件,得到最优的低秩张量和稀疏张量包括:以目标结果等于低管秩处理后的待补全三维张量为约束条件,迭代地依次优化低秩张量和稀疏张量,以求解使得目标项最小时的低秩张量和稀疏张量,直至符合停止条件,得到最优的低秩张量和稀疏张量。
其中,低管秩处理后的待补全三维张量,是指将待补全三维张量保留最大的前预设数量的奇异值后得到的三维张量。可以理解,低管秩处理后的待补全三维张量,能够近似表征待补全三维张量的整体信息,数据规模更低。
在一些实施例中,优化模型可以是以目标结果等于低管秩处理后的待补全三维张量为约束条件,求解使得目标项最小时的低秩张量和稀疏张量。
在一些实施例中,优化模型可以用如下公式表示:
其中,τ表示待补全三维张量的奇异值保留率,Mτ表示以奇异值保留率τ进行低管秩处理后的待补全三维张量,M0表示低秩张量,M1表示稀疏张量,λ表示正则化参数,||M1||1表示稀疏张量的L1范数,||M0||*表示低秩张量的核范数。
在一些实施例中,处理设备可以在每轮迭代中,以目标结果等于低管秩处理后的待补全三维张量为约束条件,先将低秩张量作为变量并将稀疏张量作为常量来朝着使得目标项减少的方向优化低秩张量,再将稀疏张量作为变量并将低秩张量作为常量来朝着使得目标项减少的方向优化稀疏张量,然后进入下一轮迭代,直至符合停止条件,得到最优的低秩张量和稀疏张量。
如图4所示,是上述实施例中的性能数据补全方法的整体流程示意图,首先输入待补全的历史性能数据,然后根据排序后的待补全的历史性能数据构建待补全三维张量(即,高维时序张量的构建),再对低管秩张量分解模型(即,使用低管秩处理后的待补全三维张量的情况下的优化模型)进行求解,输出补全后的历史性能数据。
上述实施例中,采用低管秩张量核范数的思想,通过求得低管秩处理后的待补全三维张量,来近似表征待补全三维张量的整体信息,然后以目标结果等于低管秩处理后的待补全三维张量为约束条件,迭代地依次优化低秩张量和稀疏张量,降低了数据量,提高了处理效率,对于目标主机的数量和性能数据的数据量非常庞大的情况也能够实现高效的数据补全。
在一些实施例中,以目标结果等于待补全三维张量为约束条件,迭代地依次优化低秩张量和稀疏张量,以求解使得目标项最小时的低秩张量和稀疏张量,直至符合停止条件,得到最优的低秩张量和稀疏张量包括:朝着使损失函数的值减小的方向,迭代地依次优化损失函数中的低秩张量、稀疏张量和优化参数,直至符合停止条件,得到最优的低秩张量、稀疏张量和优化参数,并根据最优的低秩张量确定补全后的历史性能数据。其中,损失函数包括目标项和通过优化参数加权后的条件项;条件项是根据目标结果与待补全三维张量之间的差值确定的。
在一些实施例中,优化参数可以包括惩罚参数和拉格朗日乘子。处理设备可以朝着使损失函数的值减小的方向,迭代地依次优化损失函数中的低秩张量、稀疏张量、拉格朗日乘子和惩罚参数,直至符合停止条件,得到最优的低秩张量、稀疏张量、拉格朗日乘子和惩罚参数,并根据最优的低秩张量确定补全后的历史性能数据。其中,损失函数包括目标项、通过惩罚参数加权后的条件项和通过拉格朗日乘子加权后的条件项。
在一些实施例中,在每轮迭代中,处理设备可以分别依次将低秩张量、稀疏张量、拉格朗日乘子和惩罚参数作为变量,并将其余的作为常量,朝着使损失函数的值减小的方向对变量进行优化,直至符合停止条件,得到最优的低秩张量、稀疏张量、拉格朗日乘子和惩罚参数。
在一些实施例中,通过惩罚参数加权后的条件项可以是条件项的L2范数的平方与惩罚参数的乘积。拉格朗日乘子加权后的条件项可以是拉格朗日乘子的转置与条件项的乘积。条件项是目标结果与待补全三维张量之间的差值。损失函数可以用如下公式表示:
其中,M表示待补全三维张量,M0表示低秩张量,M1表示稀疏张量。λ表示正则化参数,||M1||1表示稀疏张量的L1范数,||M0||*表示低秩张量的核范数。λM1||1+||M0||*表示目标项,M0+M1-M表示条件项。||M0+M1-M||F表示条件项的L2范数,α表示惩罚参数,β表示拉格朗日乘子。根据优化模型和损失函数推导得到每轮迭代中低秩张量、稀疏张量、拉格朗日乘子和惩罚参数的计算公式如下:
αk+1=min(αkmax)
其中,βk+1和αk+1分别表示第k+1轮迭代中优化后的低秩张量、稀疏张量、拉格朗日乘子和惩罚参数,/>βk和αk分别表示第k轮迭代中优化后的稀疏张量、拉格朗日乘子和惩罚参数。||||*表示核范数,||||F表示L2范数,||||1表示L1范数。M表示待补全三维张量。λ表示正则化参数,αmax表示前k轮迭代中得到的优化后的惩罚参数中的最大值。
在另一些实施例中,在使用低管秩处理后的待补全三维张量的情况下,损失函数中的条件项是目标结果与低管秩处理后的待补全三维张量之间的差值。损失函数可以用如下公式表示:
其中,τ表示待补全三维张量的奇异值保留率,Mτ表示以奇异值保留率τ进行低管秩处理后的待补全三维张量,M0表示低秩张量,M1表示稀疏张量。λ表示正则化参数,||M1||1表示稀疏张量的L1范数,||M0||*表示低秩张量的核范数。λ||M1||1+||M0||*表示目标项,M0+M1-Mτ表示条件项。||M0+M1-Mτ||F表示条件项的L2范数,α表示惩罚参数,β表示拉格朗日乘子。根据优化模型和损失函数推导得到每轮迭代中低秩张量、稀疏张量、拉格朗日乘子和惩罚参数的计算公式如下:
αk+1=min(αkmax)
其中,βk+1和αk+1分别表示第k+1轮迭代中优化后的低秩张量、稀疏张量、拉格朗日乘子和惩罚参数,/>βk和αk分别表示第k轮迭代中优化后的稀疏张量、拉格朗日乘子和惩罚参数。||||*表示核范数,||||F表示L2范数,||||1表示L1范数。τ表示待补全三维张量的奇异值保留率,Mτ表示以奇异值保留率τ进行低管秩处理后的待补全三维张量。λ表示正则化参数,αmax表示前k轮迭代中得到的优化后的惩罚参数中的最大值。
上述实施例中,使用增广拉格朗日乘子法对优化模型进行求解,提高了数据补全的效率和准确性。
在一些实施例中,在获取云平台的目标主机的历史性能数据之后,方法还包括:根据历史性能数据所属目标主机所处地区的地区信息,将历史性能数据划分为多个地区组;不同地区组中的历史性能数据所属的目标主机处于不同地区;每组排序后的历史性能数据的机器信息、日期信息和时间点信息,构建历史性能数据的待补全三维张量包括:根据同一地区组中每组排序后的的历史性能数据的机器信息、日期信息和时间点信息,构建地区组对应的地区的历史性能数据的待补全三维张量。
在一些实施例中,地区信息可以是省、市或区等。
例如:在地区信息是市的情况下,处理设备可以将处于不同市的目标主机的历史性能数据划分为多个地区组,同一地区组中的历史性能数据所属目标主机处于同一个市,不同地区组的历史性能数据所属目标主机处于不同的市。处理设备可以构建各个市分别对应的待补全三维张量。
上述实施例中,针对不同的地区分别构建相应的待补全三维张量,能够实现对多省份多地区的大规模性能数据进行数据补全。
在一些实施例中,历史性能数据包括中央处理器利用率、内存利用率、磁盘读写速度和流量中的至少一种性能指标对应的数据;根据同一地区组中每组排序后的历史性能数据的机器信息、日期信息和时间点信息,构建地区组对应的地区的历史性能数据的待补全三维张量包括:根据同一地区组中属于同一种性能指标的每组排序后的历史性能数据的机器信息、日期信息和时间点信息,构建地区组对应的地区在性能指标下的历史性能数据的待补全三维张量。
上述实施例中,不同性能指标下的性能数据都可以使用同一优化模型进行数据补全,相较于采用深度学习方法的情况需要分别建立模型并进行模型训练而言,通用性更强,灵活性更高,可操作性强,提高了数据补全的效率。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的性能数据补全方法的性能数据补全装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个性能数据补全装置实施例中的具体限定可以参见上文中对于性能数据补全方法的限定,在此不再赘述。
在一些实施例中,如图5所示,提供了一种性能数据补全装置500,包括:数据获取模块502、数据预处理模块504、张量构建模块506、优化模型构建模块508和求解模块510,其中:
数据获取模块502,用于获取云平台的目标主机的历史性能数据。
数据预处理模块504,用于根据历史性能数据所属目标主机的机器信息对历史性能数据进行分组,并根据历史性能数据的日期信息和时间点信息对每组历史性能数据进行排序。
张量构建模块506,用于根据每组排序后的历史性能数据的机器信息、日期信息和时间点信息,构建历史性能数据的待补全三维张量。
优化模型构建模块508,用于将待补全三维张量分解为待求解的低秩张量和稀疏张量,并构建求解低秩张量和稀疏张量的优化模型。
求解模块510,用于按照优化模型迭代地依次优化低秩张量和稀疏张量,直至符合停止条件,得到最优的低秩张量和稀疏张量,并根据最优的低秩张量确定补全后的历史性能数据。
在一些实施例中,求解模块510还用于以目标结果等于待补全三维张量为约束条件,迭代地依次优化低秩张量和稀疏张量,以求解使得目标项最小时的低秩张量和稀疏张量,直至符合停止条件,得到最优的低秩张量和稀疏张量。其中,目标结果是低秩张量和稀疏张量之和;目标项,是低秩张量的核范数和稀疏张量的L1范数的加权之和。
在一些实施例中,求解模块510还用于对待补全三维张量进行奇异值分解,得到待补全三维张量对应的多个奇异值;将多个奇异值按照从大到小的顺序进行排序,保留排在前预设数量的奇异值,得到低管秩处理后的待补全三维张量;以目标结果等于低管秩处理后的待补全三维张量为约束条件,迭代地依次优化低秩张量和稀疏张量,以求解使得目标项最小时的低秩张量和稀疏张量,直至符合停止条件,得到最优的低秩张量和稀疏张量。
在一些实施例中,求解模块510还用于朝着使损失函数的值减小的方向,迭代地依次优化损失函数中的低秩张量、稀疏张量和优化参数,直至符合停止条件,得到最优的低秩张量、稀疏张量和优化参数,并根据最优的低秩张量确定补全后的历史性能数据。其中,损失函数包括目标项和通过优化参数加权后的条件项;条件项是根据目标结果与待补全三维张量之间的差值确定的。
在一些实施例中,数据预处理模块504还用于根据历史性能数据所属目标主机所处地区的地区信息,将历史性能数据划分为多个地区组;不同地区组中的历史性能数据所属的目标主机处于不同地区。张量构建模块506还用于根据同一地区组中每组排序后的历史性能数据的机器信息、日期信息和时间点信息,构建地区组对应的地区的历史性能数据的待补全三维张量。
在一些实施例中,历史性能数据包括中央处理器利用率、内存利用率、磁盘读写速度和流量中的至少一种性能指标对应的数据。张量构建模块506还用于根据同一地区组中属于同一种性能指标的每组排序后的历史性能数据的机器信息、日期信息和时间点信息,构建地区组对应的地区在性能指标下的历史性能数据的待补全三维张量。
上述性能数据补全装置,根据历史性能数据所属云平台的目标主机的机器信息对历史性能数据进行分组,并根据历史性能数据的日期信息和时间点信息对每组历史性能数据进行排序,根据每组排序后的历史性能数据的机器信息、日期信息和时间点信息,构建历史性能数据的待补全三维张量,求解将待补全的三维张量分解成的最优的低秩张量和稀疏张量,根据最优的低秩张量确定补全后的历史性能数据,通过分组和排序后构建张量能够充分利用历史性能数据中的上下文时序信息和缺失数据前后的数据特征,使得数据补全更加准确,而且自动学习历史性能数据的特征,属于无监督学习,无需依赖于训练样本进行模型训练,避免了在训练样本数据量较小的情况下容易导致过拟合的问题,进一步提高了性能数据补全的准确性,还降低了对硬件的需求,提高了数据补全的效率。
上述性能数据补全装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储历史性能数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种性能数据补全方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种性能数据补全方法,其特征在于,所述方法包括:
获取云平台的目标主机的历史性能数据;
根据所述历史性能数据所属目标主机的机器信息对所述历史性能数据进行分组,并根据所述历史性能数据的日期信息和时间点信息对每组所述历史性能数据进行排序;
根据每组排序后的所述历史性能数据的机器信息、日期信息和时间点信息,构建所述历史性能数据的待补全三维张量;
将所述待补全三维张量分解为待求解的低秩张量和稀疏张量,并构建求解所述低秩张量和所述稀疏张量的优化模型;
按照所述优化模型迭代地依次优化所述低秩张量和所述稀疏张量,直至符合停止条件,得到最优的低秩张量和稀疏张量,并根据所述最优的低秩张量确定补全后的历史性能数据。
2.根据权利要求1所述的方法,其特征在于,所述按照所述优化模型迭代地依次优化所述低秩张量和所述稀疏张量,直至符合停止条件,得到最优的低秩张量和稀疏张量包括:
以目标结果等于所述待补全三维张量为约束条件,迭代地依次优化所述低秩张量和所述稀疏张量,以求解使得目标项最小时的低秩张量和稀疏张量,直至符合停止条件,得到最优的低秩张量和稀疏张量;
其中,所述目标结果是所述低秩张量和所述稀疏张量之和;所述目标项,是所述低秩张量的核范数和所述稀疏张量的L1范数的加权之和。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对所述待补全三维张量进行奇异值分解,得到所述待补全三维张量对应的多个奇异值;
将所述多个奇异值按照从大到小的顺序进行排序,保留排在前预设数量的奇异值,得到低管秩处理后的待补全三维张量;
所述以目标结果等于所述待补全三维张量为约束条件,迭代地依次优化所述低秩张量和所述稀疏张量,以求解使得目标项最小时的低秩张量和稀疏张量,直至符合停止条件,得到最优的低秩张量和稀疏张量包括:
以目标结果等于所述低管秩处理后的待补全三维张量为约束条件,迭代地依次优化所述低秩张量和所述稀疏张量,以求解使得目标项最小时的低秩张量和稀疏张量,直至符合停止条件,得到最优的低秩张量和稀疏张量。
4.根据权利要求2所述的方法,其特征在于,所述以目标结果等于所述待补全三维张量为约束条件,迭代地依次优化所述低秩张量和所述稀疏张量,以求解使得目标项最小时的低秩张量和稀疏张量,直至符合停止条件,得到最优的低秩张量和稀疏张量包括:
朝着使损失函数的值减小的方向,迭代地依次优化所述损失函数中的所述低秩张量、所述稀疏张量和优化参数,直至符合停止条件,得到最优的低秩张量、稀疏张量和优化参数,并根据所述最优的低秩张量确定补全后的历史性能数据;
其中,所述损失函数包括所述目标项和通过所述优化参数加权后的条件项;所述条件项是根据所述目标结果与所述待补全三维张量之间的差值确定的。
5.根据权利要求1至4中任一项所述的方法,其特征在于,在所述获取云平台的目标主机的历史性能数据之后,所述方法还包括:
根据所述历史性能数据所属目标主机所处地区的地区信息,将所述历史性能数据划分为多个地区组;不同地区组中的历史性能数据所属的目标主机处于不同地区;
所述每组排序后的所述历史性能数据的机器信息、日期信息和时间点信息,构建所述历史性能数据的待补全三维张量包括:
根据同一地区组中每组排序后的的所述历史性能数据的机器信息、日期信息和时间点信息,构建所述地区组对应的地区的历史性能数据的待补全三维张量。
6.根据权利要求5所述的方法,其特征在于,所述历史性能数据包括中央处理器利用率、内存利用率、磁盘读写速度和流量中的至少一种性能指标对应的数据;
所述根据同一地区组中每组排序后的所述历史性能数据的机器信息、日期信息和时间点信息,构建所述地区组对应的地区的历史性能数据的待补全三维张量包括:
根据同一地区组中属于同一种性能指标的每组排序后的所述历史性能数据的机器信息、日期信息和时间点信息,构建所述地区组对应的地区在所述性能指标下的历史性能数据的待补全三维张量。
7.一种性能数据补全装置,其特征在于,所述装置包括:
数据获取模块,用于获取云平台的目标主机的历史性能数据;
数据预处理模块,用于根据所述历史性能数据所属目标主机的机器信息对所述历史性能数据进行分组,并根据所述历史性能数据的日期信息和时间点信息对每组所述历史性能数据进行排序;
张量构建模块,用于根据每组排序后的所述历史性能数据的机器信息、日期信息和时间点信息,构建所述历史性能数据的待补全三维张量;
优化模型构建模块,用于将所述待补全三维张量分解为待求解的低秩张量和稀疏张量,并构建求解所述低秩张量和所述稀疏张量的优化模型;
求解模块,用于按照所述优化模型迭代地依次优化所述低秩张量和所述稀疏张量,直至符合停止条件,得到最优的低秩张量和稀疏张量,并根据所述最优的低秩张量确定补全后的历史性能数据。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202310575948.9A 2023-05-19 2023-05-19 性能数据补全方法、装置、设备和存储介质 Pending CN116643961A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310575948.9A CN116643961A (zh) 2023-05-19 2023-05-19 性能数据补全方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310575948.9A CN116643961A (zh) 2023-05-19 2023-05-19 性能数据补全方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN116643961A true CN116643961A (zh) 2023-08-25

Family

ID=87622313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310575948.9A Pending CN116643961A (zh) 2023-05-19 2023-05-19 性能数据补全方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN116643961A (zh)

Similar Documents

Publication Publication Date Title
CN103116639B (zh) 基于用户-物品二分图模型的物品推荐方法及系统
WO2019144066A1 (en) Systems and methods for preparing data for use by machine learning algorithms
US11841839B1 (en) Preprocessing and imputing method for structural data
Gupta et al. Faster as well as early measurements from big data predictive analytics model
CN115099461A (zh) 基于双分支特征提取的太阳辐射预测方法及系统
CN114266421A (zh) 基于复合气象特征构建与选择的新能源功率预测方法
Pan et al. A sequential addressing subsampling method for massive data analysis under memory constraint
CN115270921B (zh) 基于组合预测模型的电力负载预测方法、系统及存储介质
CN116154768A (zh) 采用点预测误差经验分布逆变换的功率区间预测方法
CN107609194B (zh) 一种面向云计算的时间冗余电力负荷数据的存储方法
CN116643961A (zh) 性能数据补全方法、装置、设备和存储介质
CN116191398A (zh) 负荷预测方法、装置、计算机设备和存储介质
CN115905654A (zh) 业务数据的处理方法、装置、设备、存储介质和程序产品
CN114925919A (zh) 业务资源处理方法、装置、计算机设备和存储介质
Bhatnagar Data mining-based big data analytics: parameters and layered framework
CN117745423B (zh) 一种异常账户的识别方法
CN114238258B (zh) 数据库数据处理方法、装置、计算机设备、存储介质
Gou et al. A Momentum-incorporated Fast Parallelized Stochastic Gradient Descent for Latent Factor Model in Shared Memory Systems
Gao et al. Finding the best box-cox transformation in big data with meta-model learning: A case study on qct developer cloud
CN116755627A (zh) 空间数据存储方法、装置、计算机设备和存储介质
CN118279057A (zh) 异常交易数据确定方法、装置、设备、存储介质和程序产品
CN117633531A (zh) 光伏出力场景缩减方法、模型训练方法、装置和存储介质
Zou Rapid Discovery Approach of Abnormal Stocks Based on Temporal Convolutional Autoencoder
CN118363949A (zh) 对大数据平台进行数据清理的方法、装置、设备、可读存储介质和程序产品
CN113159129A (zh) 一种电力用户的分类方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination