CN116431355B - 一种基于电力领域超算平台的计算负载预测方法及系统 - Google Patents

一种基于电力领域超算平台的计算负载预测方法及系统 Download PDF

Info

Publication number
CN116431355B
CN116431355B CN202310691660.8A CN202310691660A CN116431355B CN 116431355 B CN116431355 B CN 116431355B CN 202310691660 A CN202310691660 A CN 202310691660A CN 116431355 B CN116431355 B CN 116431355B
Authority
CN
China
Prior art keywords
data
unit
node
neural network
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310691660.8A
Other languages
English (en)
Other versions
CN116431355A (zh
Inventor
粟海斌
刘珺
詹柱
刘斌
欧阳宏剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fangxin Technology Co ltd
Original Assignee
Fangxin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fangxin Technology Co ltd filed Critical Fangxin Technology Co ltd
Priority to CN202310691660.8A priority Critical patent/CN116431355B/zh
Publication of CN116431355A publication Critical patent/CN116431355A/zh
Application granted granted Critical
Publication of CN116431355B publication Critical patent/CN116431355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于电力领域超算平台的计算负载预测方法及系统,通过对收集到的超算平台历史计算负载数据集进行数据预处理,数据预处理包括数据裁剪、空值处理、数据清理和数据归一化处理;将处理好的数据进行划分,一半作为训练集,一半作为测试集;在神经网络架构搜索模型上搜索最佳神经网络模型;将重新划分的数据集在搜索到的所述最佳神经网络模型上进行训练测试。本发明大大提高了神经网络架构搜索的速度和超算平台计算负载的预测准确率;对原始数据进行了预处理并提出了健康特征并对数据进行了随机掩码和随机噪声处理,提高了数据鲁棒性,可以产生更加有意义的特征表示。

Description

一种基于电力领域超算平台的计算负载预测方法及系统
技术领域
本发明涉及电力控制技术领域,尤其公开了一种神经网络架构搜索的电力领域超算平台的计算负载预测方法及系统。
背景技术
机器学习模型:机器学习模型种类繁多,包括回归模型、分类模型和聚类模型等等。需要根据具体问题选择合适的模型,如支持向量机、决策树、随机森林等。基于机器学习的模型是预测计算负载方法的研究热点。在计算负载预测中最具代表性的机器学习模型为线性回归模型。但是此类机器学习模型使用的前提是负载变化趋势在短期内必须是线性的。这大大限制了机器学习模型的使用范围。
深度学习模型:在计算负载预测中,目前最具代表性深度学习模型为卷积神经网络(convolutional neural network,CNN),卷积神经网络是一种深度学习模型,通常用于图像识别、计算机视觉等任务。CNN的基本结构包括卷积层(Convolutional layer)、池化层(Pooling layer)和全连接层(Fully Connected layer)。其中卷积层是CNN的核心部分,它通过一系列卷积操作提取图像的特征。池化层通常跟在卷积层后面,用于降低特征图的维度,减少计算量,同时可以防止过拟合。全连接层则将特征图映射到输出空间中,得到最终的分类结果。CNN在计算负载预测上有着以下优势:处理序列数据能力强:收集到的历史负载可以被看做是一系列时间序列数据,卷积神经网络具有处理序列数据的能力,能够对这些序列数据进行分析和预测;可以自动提取特征:计算负载预测需要从大量的数据中提取特征,而传统的方法需要手工设计特征提取器,费时费力且效果不一。卷积神经网络可以通过卷积操作自动提取特征,减少了特征工程的复杂度;对异常数据具有较强的鲁棒性。卷积神经网络在训练过程中可以通过dropout等技术对数据进行正则化,提高对异常数据的鲁棒性。
因此,现有计算负载预测方法需要专业的人员耗费大量的时间设计预测超算平台计算负载的神经网络模型,而人工设计的神经网络模型复杂,实现过程困难导致评估过程运行时间过长,是目前亟待解决的技术问题。
发明内容
本发明提供了一种基于电力领域超算平台的计算负载预测方法,旨在解决有计算负载预测方法需要专业的人员耗费大量的时间设计预测超算平台计算负载的神经网络模型,而人工设计的神经网络模型复杂,实现过程困难导致评估过程运行时间过长的技术问题。
本发明的一方面涉及一种基于电力领域超算平台的计算负载预测方法,包括以下步骤:
对收集到的超算平台历史计算负载数据集进行数据预处理,数据预处理包括数据裁剪、空值处理、数据清理和数据归一化处理;
将处理好的数据进行划分,一半作为训练集,一半作为测试集;在神经网络架构搜索模型上搜索最佳神经网络模型;
将重新划分的数据集在搜索到的最佳神经网络模型上进行训练测试。
进一步地,对收集到的超算平台历史计算负载数据集进行数据预处理的步骤包括:
将收集到的历史计算负载数据加载到服务器中;
裁剪历史计算负载数据,保证数据的连续性;
对裁剪后的历史计算负载数据进行相关性分析;
在裁剪后的历史计算负载数据中选取多组相关性最强的健康特征数据;
将健康特征数据分别划分成搜索数据集和重训练数据集,以便下一步分别添加随机掩码和噪声处理做准备;
对重训练数据集进行随机掩码处理;
将重训练数据集划分为添加随机掩码的数据,并按照设定的比例通过调用python中numpy库进行随机掩盖;
将划分为添加随机噪声的数据按照设定的比例随机将数据中的特征替换为中位数、标准差、方差以及0值;
通过不断的循环和迭代,将随机掩码和随机噪声添加到数据集中的不同位置;
将添加了随机掩码的数据和添加了随机噪声的数据合并后随机打乱顺序;
将打乱顺序的数据集按照最大值、最小值进行归一化处理。
进一步地,将打乱顺序的数据集按照最大值、最小值进行归一化处理的步骤包括:
将原始数据线性化的方法转换到[0 1]的范围,归一化公式为:,其中,/>为归一化处理结果值,xmax为样本数据的最大值,xmin为样本数据的最小值。
进一步地,将处理好的数据进行划分,一半作为训练集,一半作为测试集;在神经网络架构搜索模型上搜索最佳神经网络模型的步骤包括:
构造基于单元格的搜索空间;
构建基于梯度下降的神经网络架构搜索网络,为每一个候选操作初始化权重;
把训练集的数据输入神经网络架构搜索网络,输入的数据会在每一个候选操作算子上进行特征提取;
使用测试集更新梯度更新网络架构参数,并使用sofmax函数对候选操作进行松弛操作,使搜索空间连续化并更新每个操作的权重;
搜索多个训练轮数,选择训练轮数权重较大的操作和边来构建最佳单元格;
堆叠最佳单元格,构建超算平台,计算负载预测网络;
把重训练数据以设定的比例划分为训练集、测试集和验证集;
把训练集里面的数据输入网络进行特征提取,测试集里面的数据用于验证并使用损失函数计算损失,更新梯度和网络权重;
将归一化好的验证集里面的数据输入到训练好的网络模型中进行测试;
把训练好的网络模型部署到超算平台上。
进一步地,搜索空间分别定义了七个候选操作算子,包含了3x3和5x5的普通卷积、3x3和5x5的深度了可分离卷积、步长分别为2和步长为3的两种池化单元、以及跳跃连接;单元格包括普通单元格和缩减单元格,构造基于单元格的搜索空间的步骤中,每个同类型单元格的结构相同且共享权重,其内部由若干节点组成,每个节点可看作一个表示或者特征图;单元格由二个输入节点、一个输出和若干中间节点组成;中间节点与前序节点的连接关系表示为:,其中,/>表示中间节点与前序节点的连接关系;x代表节点的特征,o代表操作,i和j分别表示节点的序号;中间节点是所有前继节点经过操作后之和;为节点i到节点j的操作,/>为节点上的特征图;
两个节点之间的操作表示为:,其中,表示两个节点之间的操作;/>为第i个特征图到第j个特征图之间的某个操作的权重;/>为第i个特征图到第j个特征图之间的所有操作/>的权重之和;/>为特征图在某个操作上计算;/>为一组候选操作,/>为架构参数;/>为搜索空间的某个操作,/>为所有架构参数之和。
本发明的另一方面涉及一种电力领域超算平台的计算负载预测系统,包括:
数据预处理模块,用于对收集到的超算平台历史计算负载数据集进行数据预处理,数据预处理包括数据裁剪、空值处理、数据清理和数据归一化处理;
划分搜索模块,用于将处理好的数据进行划分,一半作为训练集,一半作为测试集;在神经网络架构搜索模型上搜索最佳神经网络模型;
训练测试模块,用于将重新划分的数据集在搜索到的最佳神经网络模型上进行训练测试。
进一步地,数据预处理模块包括:
加载单元,用于将收集到的历史计算负载数据加载到服务器中;
裁剪单元,用于裁剪历史计算负载数据,保证数据的连续性;
分析单元,用于对裁剪后的历史计算负载数据进行相关性分析;
选取单元,用于在裁剪后的历史计算负载数据中选取多组相关性最强的健康特征数据;
第一划分单元,用于将健康特征数据分别划分成搜索数据集和重训练数据集,以便下一步分别添加随机掩码和噪声处理做准备;
掩码处理单元,用于对重训练数据集进行随机掩码处理;
掩盖单元,用于将重训练数据集划分为添加随机掩码的数据,并按照设定的比例通过调用python中numpy库进行随机掩盖;
替换单元,用于将划分为添加随机噪声的数据按照设定的比例随机将数据中的特征替换为中位数、标准差、方差以及0值;
添加单元,用于通过不断的循环和迭代,将随机掩码和随机噪声添加到数据集中的不同位置;
合并单元,用于将添加了随机掩码的数据和添加了随机噪声的数据合并后随机打乱顺序;
归一化处理单元,用于将打乱顺序的数据集按照最大值、最小值进行归一化处理。
进一步地,归一化处理单元中,将原始数据线性化的方法转换到[0 1]的范围,归一化公式为:,其中,/>为归一化处理结果值,xmax为样本数据的最大值,xmin为样本数据的最小值。
进一步地,划分搜索模块包括:
构造单元,用于构造基于单元格的搜索空间;
构建单元,用于构建基于梯度下降的神经网络架构搜索网络,为每一个候选操作初始化权重;
输入单元,用于把训练集的数据输入神经网络架构搜索网络,输入的数据会在每一个候选操作算子上进行特征提取;
操作单元,用于使用测试集更新梯度更新网络架构参数,并使用sofmax函数对候选操作进行松弛操作,使搜索空间连续化并更新每个操作的权重;
搜索单元,用于搜索多个训练轮数,选择训练轮数权重较大的操作和边来构建最佳单元格;
计算单元,用于堆叠最佳单元格,构建超算平台,计算负载预测网络;
第二划分单元,用于把重训练数据以设定的比例划分为训练集、测试集和验证集;
提取单元,用于把训练集里面的数据输入网络进行特征提取,测试集里面的数据用于验证并使用损失函数计算损失,更新梯度和网络权重;
测试单元,用于将归一化好的验证集里面的数据输入到训练好的网络模型中进行测试;
部署单元,用于把训练好的网络模型部署到超算平台上。
进一步地,搜索空间分别定义了七个候选操作算子,包含了3x3和5x5的普通卷积、3x3和5x5的深度了可分离卷积、步长分别为2和步长为3的两种池化单元、以及跳跃连接;单元格包括普通单元格和缩减单元格,构造单元(201)中,每个同类型单元格的结构相同且共享权重,其内部由若干节点组成,每个节点可看作一个表示或者特征图;单元格由二个输入节点、一个输出和若干中间节点组成;中间节点与前序节点的连接关系表示为:,其中,/>表示中间节点与前序节点的连接关系;x代表节点的特征,o代表操作,i和j分别表示节点的序号;中间节点是所有前继节点经过操作后之和;/>为节点i到节点j的操作,/>为节点上的特征图;
两个节点之间的操作表示为:,其中,/>表示两个节点之间的操作;/>为第i个特征图到第j个特征图之间的某个操作/>的权重;/>为第i个特征图到第j个特征图之间的所有操作/>的权重之和;/>为特征图在某个操作上计算;/>为一组候选操作(例如卷积操作、池化操作、跳跃连接),/>为架构参数;/>为搜索空间的某个操作,/>为所有架构参数之和。
本发明所取得的有益效果为:
本发明提供一种基于电力领域超算平台的计算负载预测方法及系统,通过对收集到的超算平台历史计算负载数据集进行数据预处理,数据预处理包括数据裁剪、空值处理、数据清理和数据归一化处理;将处理好的数据进行划分,一半作为训练集,一半作为测试集;在神经网络架构搜索模型上搜索最佳神经网络模型;将重新划分的数据集在搜索到的所述最佳神经网络模型上进行训练测试。本发明提供的基于电力领域超算平台的计算负载预测方法及系统,大大提高了神经网络架构搜索的速度和超算平台计算负载的预测准确率;对原始数据进行了预处理并提出了健康特征并对数据进行了随机掩码和随机噪声处理,提高了数据鲁棒性,可以产生更加有意义的特征表示;采用神经网络架构搜索的技术搜索最优网络模型,节省了大量的人力去设计网络模型,并且所有参数直观透明,只需提供数据集就能搜索到适合此数据集场景下的神经网络架构模型。
附图说明
图1为本发明提供的基于电力领域超算平台的计算负载预测方法一实施例的流程示意图;
图2为图1中所示的对收集到的超算平台历史计算负载数据集进行数据预处理的步骤一实施例的细化流程示意图;
图3为图1中所示的将处理好的数据进行划分,一半作为训练集,一半作为测试集;在神经网络架构搜索模型上搜索最佳神经网络模型的步骤一实施例的细化流程示意图;
图4为为本发明提供的电力领域超算平台的计算负载预测系统一实施例的功能框图;
图5为图4中所示的数据预处理模块一实施例的功能模块示意图;
图6为图4中所示的划分搜索模块一实施例的功能模块示意图。
附图标号说明:
10、数据预处理模块;20、划分搜索模块;30、训练测试模块;101、加载单元;102、裁剪单元;103、分析单元;104、选取单元;105、第一划分单元;106、掩码处理单元;107、掩盖单元;108、替换单元;109、添加单元;110、合并单元;111、归一化处理单元;201、构造单元;202、构建单元;203、输入单元;204、操作单元;205、搜索单元;206、计算单元;207、第二划分单元;208、提取单元;209、测试单元;210、部署单元。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
如图1所示,本发明第一实施例提出一种基于电力领域超算平台的计算负载预测方法,包括以下步骤:
步骤S100、对收集到的超算平台历史计算负载数据集进行数据预处理,数据预处理包括数据裁剪、空值处理、数据清理和数据归一化处理。
步骤S200、将处理好的数据进行划分,一半作为训练集,一半作为测试集;在神经网络架构搜索模型上搜索最佳神经网络模型。
步骤S300、将重新划分的数据集在搜索到的最佳神经网络模型上进行训练测试。
进一步地,请见图2,图2为图1中步骤S100一实施例的细化流程示意图,在本实施例中,步骤S100包括:
步骤S101、将收集到的历史计算负载数据加载到服务器中。
步骤S102、裁剪历史计算负载数据,保证数据的连续性。
步骤S103、对裁剪后的历史计算负载数据进行相关性分析。
步骤S104、在裁剪后的历史计算负载数据中选取多组相关性最强的健康特征数据。
在本实施例中,选取5组相关性最强的健康特征数据。
步骤S105、将健康特征数据分别划分成搜索数据集和重训练数据集,以便下一步分别添加随机掩码和噪声处理做准备。
步骤S106、对重训练数据集进行随机掩码处理。
步骤S107、将重训练数据集划分为添加随机掩码的数据,并按照设定的比例通过调用python中numpy库进行随机掩盖。
在本实施例中,按照20%的比例通过调用python中numpy库进行随机掩盖。
步骤S108、将划分为添加随机噪声的数据按照设定的比例随机将数据中的特征替换为中位数、标准差、方差以及0值。
步骤S109、通过不断的循环和迭代,将随机掩码和随机噪声添加到数据集中的不同位置。
步骤S110、将添加了随机掩码的数据和添加了随机噪声的数据合并后随机打乱顺序。
步骤S111、将打乱顺序的数据集按照最大值、最小值进行归一化处理。
将原始数据线性化的方法转换到[0 1]的范围,归一化公式为:,公式(1)中,/>为归一化处理结果值,xmax为样本数据的最大值,xmin为样本数据的最小值。
优选地,参见图2,图3为图1中步骤S200一实施例的细化流程示意图,在本实施例中,步骤S200包括:
步骤S201、构造基于单元格的搜索空间。
搜索空间分别定义了七个候选操作算子,包含了3x3和5x5的普通卷积、3x3和5x5的深度了可分离卷积、步长分别为2和步长为3的两种池化单元、以及跳跃连接;单元格分为两种,普通单元格和缩减单元格,每个同类型单元格的结构相同且共享权重,其内部由若干节点(节点)组成,每个节点可看作一个表示(representation)或者特征图(feature map);单元格由二个输入节点、一个输出和若干中间节点组成;中间节点与前序节点(包括之前的中间节点以及2个输入节点)的连接关系表示为:,公式(2)中,/>表示中间节点与前序节点的连接关系;x代表节点的特征,o代表操作,i和j分别表示节点的序号;中间节点是所有前继节点经过操作后之和;/>为节点i到节点j的操作,/>为节点上的特征图。
两个节点之间的操作表示为:,公式(3)中,/>表示两个节点之间的操作;/>为第i个特征图到第j个特征图之间的某个操作/>的权重;/>为第i个特征图到第j个特征图之间的所有操作/>的权重之和;为特征图在某个操作上计算;/>为一组候选操作(例如卷积操作、池化操作、跳跃连接),/>为架构参数;/>为搜索空间的某个操作,/>为所有架构参数之和。公式(3)表示两个节点之间的操作是两个节点之间所有操作的softmax之和。
步骤S202、构建基于梯度下降的神经网络架构搜索网络,为每一个候选操作初始化权重。
步骤S203、把训练集的数据输入神经网络架构搜索网络,输入的数据会在每一个候选操作算子上进行特征提取。
步骤S204、使用测试集更新梯度更新网络架构参数,并使用sofmax函数对候选操作进行松弛操作,使搜索空间连续化并更新每个操作的权重。
步骤S205、搜索多个训练轮数,选择训练轮数权重较大的操作和边来构建最佳单元格。
在本实施例中,搜索50个训练轮数,选择权重较大的操作和边构建最佳单元格。
步骤S206、堆叠最佳单元格,构建超算平台,计算负载预测网络。
步骤S207、把重训练数据以设定的比例划分为训练集、测试集和验证集。
在本实施例中,把重训练数据以7:2:1的比例划分为训练集、测试集和验证集。
步骤S208、把训练集里面的数据输入网络进行特征提取,测试集里面的数据用于验证并使用损失函数计算损失,更新梯度和网络权重。
步骤S209、将归一化好的验证集里面的数据输入到训练好的网络模型中进行测试。
步骤S210、把训练好的网络模型部署到超算平台上。
本实施例提供的基于电力领域超算平台的计算负载预测方法,同现有技术相比,通过对收集到的超算平台历史计算负载数据集进行数据预处理,数据预处理包括数据裁剪、空值处理、数据清理和数据归一化处理;将处理好的数据进行划分,一半作为训练集,一半作为测试集;在神经网络架构搜索模型上搜索最佳神经网络模型;将重新划分的数据集在搜索到的所述最佳神经网络模型上进行训练测试。本实施例提供的基于电力领域超算平台的计算负载预测方法,大大提高了神经网络架构搜索的速度和超算平台计算负载的预测准确率;对原始数据进行了预处理并提出了健康特征并对数据进行了随机掩码和随机噪声处理,提高了数据鲁棒性,可以产生更加有意义的特征表示;采用神经网络架构搜索的技术搜索最优网络模型,节省了大量的人力去设计网络模型,并且所有参数直观透明,只需提供数据集就能搜索到适合此数据集场景下的神经网络架构模型。
如图4所示,图4为本发明提供的电力领域超算平台的计算负载预测系统一实施例的功能框图,在本实施例中,该电力领域超算平台的计算负载预测系统包括数据预处理模块10、划分搜索模块20和训练测试模块30,其中,数据预处理模块10,用于对收集到的超算平台历史计算负载数据集进行数据预处理,数据预处理包括数据裁剪、空值处理、数据清理和数据归一化处理;划分搜索模块20,用于将处理好的数据进行划分,一半作为训练集,一半作为测试集;在神经网络架构搜索模型上搜索最佳神经网络模型;训练测试模块30,用于将重新划分的数据集在搜索到的最佳神经网络模型上进行训练测试。
进一步地,请见图5,图5为图4中所示的数据预处理模块一实施例的功能模块示意图,在本实施例中,数据预处理模块10包括加载单元101、裁剪单元102、分析单元103、选取单元104、第一划分单元105、掩码处理单元106、掩盖单元107、替换单元108、添加单元109、合并单元110和归一化处理单元111,其中,加载单元101,用于将收集到的历史计算负载数据加载到服务器中;裁剪单元102,用于裁剪历史计算负载数据,保证数据的连续性;分析单元103,用于对裁剪后的历史计算负载数据进行相关性分析;选取单元104,用于在裁剪后的历史计算负载数据中选取多组相关性最强的健康特征数据;第一划分单元105,用于将健康特征数据分别划分成搜索数据集和重训练数据集,以便下一步分别添加随机掩码和噪声处理做准备;掩码处理单元106,用于对重训练数据集进行随机掩码处理;掩盖单元107,用于将重训练数据集划分为添加随机掩码的数据,并按照设定的比例通过调用python中numpy库进行随机掩盖;替换单元108,用于将划分为添加随机噪声的数据按照设定的比例随机将数据中的特征替换为中位数、标准差、方差以及0值;添加单元109,用于通过不断的循环和迭代,将随机掩码和随机噪声添加到数据集中的不同位置;合并单元110,用于将添加了随机掩码的数据和添加了随机噪声的数据合并后随机打乱顺序;归一化处理单元111,用于将打乱顺序的数据集按照最大值、最小值进行归一化处理。
归一化处理单元111中,将原始数据线性化的方法转换到[0 1]的范围,归一化公式为:,公式(4)中,/>为归一化处理结果值,xmax为样本数据的最大值,xmin为样本数据的最小值。
优选地,请见图6,图6为图4中所示的划分搜索模块一实施例的功能模块示意图,在本实施例中,划分搜索模块20包括构造单元201、构建单元202、输入单元203、操作单元204、搜索单元205、计算单元206、第二划分单元207、提取单元208、测试单元209和部署单元210,构造单元201,用于构造基于单元格的搜索空间;构建单元202,用于构建基于梯度下降的神经网络架构搜索网络,为每一个候选操作初始化权重;输入单元203,用于把训练集的数据输入神经网络架构搜索网络,输入的数据会在每一个候选操作算子上进行特征提取;操作单元204,用于使用测试集更新梯度更新网络架构参数,并使用sofmax函数对候选操作进行松弛操作,使搜索空间连续化并更新每个操作的权重;搜索单元205,用于搜索多个训练轮数,选择训练轮数权重较大的操作和边来构建最佳单元格;计算单元206,用于堆叠最佳单元格,构建超算平台,计算负载预测网络;第二划分单元207,用于把重训练数据以设定的比例划分为训练集、测试集和验证集;提取单元208,用于把训练集里面的数据输入网络进行特征提取,测试集里面的数据用于验证并使用损失函数计算损失,更新梯度和网络权重;测试单元209,用于将归一化好的验证集里面的数据输入到训练好的网络模型中进行测试;部署单元210,用于把训练好的网络模型部署到超算平台上。
搜索空间分别定义了七个候选操作算子,包含了3x3和5x5的普通卷积、3x3和5x5的深度了可分离卷积、步长分别为2和步长为3的两种池化单元、以及跳跃连接;单元格包括普通单元格和缩减单元格,构造单元201中,每个同类型单元格的结构相同且共享权重,其内部由若干节点组成,每个节点可看作一个表示或者特征图;单元格由二个输入节点、一个输出和若干中间节点组成;中间节点与前序节点的连接关系表示为:,公式(5)中,/>表示中间节点与前序节点的连接关系;x代表节点的特征,o代表操作,i和j分别表示节点的序号;中间节点是所有前继节点经过操作后之和;/>为节点i到节点j的操作,/>为节点上的特征图。
两个节点之间的操作表示为:,公式(6)中,/>表示两个节点之间的操作;/>为第i个特征图到第j个特征图之间的某个操作/>的权重;/>为第i个特征图到第j个特征图之间的所有操作/>的权重之和;为特征图在某个操作上计算;/>为一组候选操作(例如卷积操作、池化操作、跳跃连接),/>为架构参数;/>为搜索空间的某个操作,/>为所有架构参数之和。
本实施例提供的电力领域超算平台的计算负载预测系统,同现有技术相比,采用数据预处理模块10、划分搜索模块20和训练测试模块30,通过对收集到的超算平台历史计算负载数据集进行数据预处理,数据预处理包括数据裁剪、空值处理、数据清理和数据归一化处理;将处理好的数据进行划分,一半作为训练集,一半作为测试集;在神经网络架构搜索模型上搜索最佳神经网络模型;将重新划分的数据集在搜索到的所述最佳神经网络模型上进行训练测试。本实施例提供的电力领域超算平台的计算负载预测系统,大大提高了神经网络架构搜索的速度和超算平台计算负载的预测准确率;对原始数据进行了预处理并提出了健康特征并对数据进行了随机掩码和随机噪声处理,提高了数据鲁棒性,可以产生更加有意义的特征表示;采用神经网络架构搜索的技术搜索最优网络模型,节省了大量的人力去设计网络模型,并且所有参数直观透明,只需提供数据集就能搜索到适合此数据集场景下的神经网络架构模型。
下面以具体的实施例对本申请提供的基于电力领域超算平台的计算负载预测方法及系统进行说明:
一、数据集
本实施例收集了电力领域超算平台上一周的各个特征的历史数据,其中包括了GPU使用率,CPU使用率、内存使用率,网络带宽的输入输出和磁盘使用率,采集频率约为10秒钟一次。本文使用了超算平台一周的历史数据,为保证时序数据的连续性,对不连续的时间数据进行裁剪,最终保留了54000条超算平台上的计算负载历史数据。
为了提高数据集的特征质量,避免无效特征的影响对54000条历史计算负载数据进行了健康特征构建。本研究构建了五组历史计算负载数据的健康特征,具体如表1所示。
表1 五组健康特征
特征编号 特征含义
F1 GPU利用率
F2 CPU利用率
F3 内存使用率
F4 网络带宽
F5 磁盘使用率
二、方法(包括相关性分析、随机噪声和随机掩码)
为了在框架内重建未受污染的输入,实验使用交换噪声的方法对电力领域超算平台上收集的历史数据进行预处理,首先裁剪出了42000条连续性数据进行相关性分析,构建了5组健康特征数据;然后将交换噪声随机添加到输入数据中,增加数据的鲁棒性,产生有意义的特征表示。为了模拟因数据缺失造成的性能过低的问题,实验随机将部分特征值设置为零。由于本实施例的方法不能访问编码器的所有特征,这使得编码器对噪声和缺失的数据具有鲁棒性,因此可以产生有意义的特征表示。
本实施例提供的基于电力领域超算平台的计算负载预测方法及系统,所取得的有益效果为:
1、本实施例在超算平台下,通过国产ARM(Advanced RISC Machines,RISC微处理器)架构的超级计算机,可以更加快速搜索出最优的神经网络架构模型,以更快的速度和更高的准确率预测出超算平台的计算负载。
2、本实施例提出的方法搜索到的神经网络模型与传统的单一预测模型ARIMA(Autoregressive Integrated Moving Average model,差分整合移动平均自回归模型)、LSTM(Long Short-Term Memory,长短期记忆网络)、GRU(Gate Recurrent Unit,门控循环神经网络)以及现有的组合预测模型ARIMA-LSTM(Autoregressive Integrated MovingAverage model-Long Short-Term Memory Neural Network,差分整合移动平均自回归模型-长短期记忆网络)、Refined LSTM(Refined Long Short-Term Memory,精致长短期记忆网络)等相比,在超算平台计算负载数据上预测结果的均方误差减少5~8,预测时间平均缩短约10%。
3、本实施例采用神经网络架构技术搜索出最优模型,并对原始特征进行健康特征提取,并像数据添加随机掩码和交换噪声来增加数据的鲁棒性,可以较好预测出超算平台计算负载。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种基于电力领域超算平台的计算负载预测方法,其特征在于,包括以下步骤:
对收集到的超算平台历史计算负载数据集进行数据预处理,数据预处理包括数据裁剪、空值处理、数据清理和数据归一化处理;
将处理好的数据进行划分,一半作为训练集,一半作为测试集;在神经网络架构搜索模型上搜索最佳神经网络模型;
将重新划分的数据集在搜索到的所述最佳神经网络模型上进行训练测试;
所述对收集到的超算平台历史计算负载数据集进行数据预处理的步骤包括:
将收集到的历史计算负载数据加载到服务器中;
裁剪所述历史计算负载数据,保证数据的连续性;
对裁剪后的所述历史计算负载数据进行相关性分析;
在裁剪后的所述历史计算负载数据中选取多组相关性最强的健康特征数据;
将所述健康特征数据分别划分成搜索数据集和重训练数据集,以便下一步分别添加随机掩码和噪声处理做准备;
对所述重训练数据集进行随机掩码处理;
将所述重训练数据集划分为添加随机掩码的数据,并按照设定的比例通过调用python中numpy库进行随机掩盖;
将划分为添加随机噪声的数据按照设定的比例随机将数据中的特征替换为中位数、标准差、方差以及0值;
通过不断的循环和迭代,将随机掩码和随机噪声添加到数据集中的不同位置;
将添加了随机掩码的数据和添加了随机噪声的数据合并后随机打乱顺序;
将打乱顺序的数据集按照最大值、最小值进行归一化处理。
2.如权利要求1所述的基于电力领域超算平台的计算负载预测方法,其特征在于,所述将打乱顺序的数据集按照最大值、最小值进行归一化处理的步骤包括:
将原始数据线性化的方法转换到[0 1]的范围,归一化公式为:其中,/>为归一化处理结果值,xmax为样本数据的最大值,xmin为样本数据的最小值。
3.如权利要求1所述的基于电力领域超算平台的计算负载预测方法,其特征在于,所述将处理好的数据进行划分,一半作为训练集,一半作为测试集;在神经网络架构搜索模型上搜索最佳神经网络模型的步骤包括:
构造基于单元格的搜索空间;
构建基于梯度下降的神经网络架构搜索网络,为每一个候选操作初始化权重;
把训练集的数据输入神经网络架构搜索网络,输入的数据会在每一个候选操作算子上进行特征提取;
使用测试集更新梯度更新网络架构参数,并使用sofmax函数对候选操作进行松弛操作,使搜索空间连续化并更新每个操作的权重;
搜索多个训练轮数,选择训练轮数权重较大的操作和边来构建最佳单元格;
堆叠最佳单元格,构建超算平台,计算负载预测网络;
把重训练数据以设定的比例划分为训练集、测试集和验证集;
把所述训练集里面的数据输入网络进行特征提取,所述测试集里面的数据用于验证并使用损失函数计算损失,更新梯度和网络权重;
将归一化好的所述验证集里面的数据输入到训练好的网络模型中进行测试;
把训练好的网络模型部署到所述超算平台上。
4.如权利要求3所述的基于电力领域超算平台的计算负载预测方法,其特征在于,所述搜索空间分别定义了七个候选操作算子,包含了3x3和5x5的普通卷积、3x3和5x5的深度了可分离卷积、步长分别为2和步长为3的两种池化单元、以及跳跃连接;所述单元格包括普通单元格和缩减单元格,所述构造基于单元格的搜索空间的步骤中,每个同类型单元格的结构相同且共享权重,其内部由若干节点组成,每个节点可看作一个表示或者特征图;单元格由二个输入节点、一个输出和若干中间节点组成;中间节点与前序节点的连接关系表示为:其中,/>表示中间节点与前序节点的连接关系;x代表节点的特征,o代表操作,i和j分别表示节点的序号;中间节点是所有前继节点经过操作后之和;/>节点i到节点j的操作,/>为节点上的特征图;
两个节点之间的操作表示为:其中,/>表示两个节点之间的操作;/>为第i个特征图到第j个特征图之间的某个操作/>的权重;/>为第i个特征图到第j个特征图之间的所有操作/>的权重之和;/>为特征图在某个操作上计算;/>为一组候选操作,/>为架构参数;/>为搜索空间的某个操作,/>为所有架构参数之和。
5.一种电力领域超算平台的计算负载预测系统,其特征在于,包括:
数据预处理模块(10),用于对收集到的超算平台历史计算负载数据集进行数据预处理,数据预处理包括数据裁剪、空值处理、数据清理和数据归一化处理;
划分搜索模块(20),用于将处理好的数据进行划分,一半作为训练集,一半作为测试集;在神经网络架构搜索模型上搜索最佳神经网络模型;
训练测试模块(30),用于将重新划分的数据集在搜索到的所述最佳神经网络模型上进行训练测试;
所述数据预处理模块(10)包括:
加载单元(101),用于将收集到的历史计算负载数据加载到服务器中;
裁剪单元(102),用于裁剪所述历史计算负载数据,保证数据的连续性;
分析单元(103),用于对裁剪后的所述历史计算负载数据进行相关性分析;
选取单元(104),用于在裁剪后的所述历史计算负载数据中选取多组相关性最强的健康特征数据;
第一划分单元(105),用于将所述健康特征数据分别划分成搜索数据集和重训练数据集,以便下一步分别添加随机掩码和噪声处理做准备;
掩码处理单元(106),用于对所述重训练数据集进行随机掩码处理;
掩盖单元(107),用于将所述重训练数据集划分为添加随机掩码的数据,并按照设定的比例通过调用python中numpy库进行随机掩盖;
替换单元(108),用于将划分为添加随机噪声的数据按照设定的比例随机将数据中的特征替换为中位数、标准差、方差以及0值;
添加单元(109),用于通过不断的循环和迭代,将随机掩码和随机噪声添加到数据集中的不同位置;
合并单元(110),用于将添加了随机掩码的数据和添加了随机噪声的数据合并后随机打乱顺序;
归一化处理单元(111),用于将打乱顺序的数据集按照最大值、最小值进行归一化处理。
6.如权利要求5所述的电力领域超算平台的计算负载预测系统,其特征在于,所述归一化处理单元(111)中,将原始数据线性化的方法转换到[0 1]的范围,归一化公式为:其中,/>为归一化处理结果值,xmax为样本数据的最大值,xmin为样本数据的最小值。
7.如权利要求5所述的电力领域超算平台的计算负载预测系统,其特征在于,所述划分搜索模块(20)包括:
构造单元(201),用于构造基于单元格的搜索空间;
构建单元(202),用于构建基于梯度下降的神经网络架构搜索网络,为每一个候选操作初始化权重;
输入单元(203),用于把训练集的数据输入神经网络架构搜索网络,输入的数据会在每一个候选操作算子上进行特征提取;
操作单元(204),用于使用测试集更新梯度更新网络架构参数,并使用sofmax函数对候选操作进行松弛操作,使搜索空间连续化并更新每个操作的权重;
搜索单元(205),用于搜索多个训练轮数,选择训练轮数权重较大的操作和边来构建最佳单元格;
计算单元(206),用于堆叠最佳单元格,构建超算平台,计算负载预测网络;
第二划分单元(207),用于把重训练数据以设定的比例划分为训练集、测试集和验证集;
提取单元(208),用于把所述训练集里面的数据输入网络进行特征提取,所述测试集里面的数据用于验证并使用损失函数计算损失,更新梯度和网络权重;
测试单元(209),用于将归一化好的所述验证集里面的数据输入到训练好的网络模型中进行测试;
部署单元(210),用于把训练好的网络模型部署到所述超算平台上。
8.如权利要求7所述的电力领域超算平台的计算负载预测系统,其特征在于,所述搜索空间分别定义了七个候选操作算子,包含了3x3和5x5的普通卷积、3x3和5x5的深度了可分离卷积、步长分别为2和步长为3的两种池化单元、以及跳跃连接;所述单元格包括普通单元格和缩减单元格,所述构造单元(201)中,每个同类型单元格的结构相同且共享权重,其内部由若干节点组成,每个节点可看作一个表示或者特征图;单元格由二个输入节点、一个输出和若干中间节点组成;中间节点与前序节点的连接关系表示为:其中,/>表示中间节点与前序节点的连接关系;x代表节点的特征,o代表操作,i和j分别表示节点的序号;中间节点是所有前继节点经过操作后之和;/>为节点i到节点j的操作,/>为节点上的特征图;
两个节点之间的操作表示为:其中,/>表示两个节点之间的操作;/>为第i个特征图到第j个特征图之间的某个操作/>的权重;/>为第i个特征图到第j个特征图之间的所有操作/>的权重之和;/>为特征图在某个操作上计算;/>为一组候选操作,/>为架构参数;/>为搜索空间的某个操作,/>为所有架构参数之和。
CN202310691660.8A 2023-06-13 2023-06-13 一种基于电力领域超算平台的计算负载预测方法及系统 Active CN116431355B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310691660.8A CN116431355B (zh) 2023-06-13 2023-06-13 一种基于电力领域超算平台的计算负载预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310691660.8A CN116431355B (zh) 2023-06-13 2023-06-13 一种基于电力领域超算平台的计算负载预测方法及系统

Publications (2)

Publication Number Publication Date
CN116431355A CN116431355A (zh) 2023-07-14
CN116431355B true CN116431355B (zh) 2023-08-22

Family

ID=87087586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310691660.8A Active CN116431355B (zh) 2023-06-13 2023-06-13 一种基于电力领域超算平台的计算负载预测方法及系统

Country Status (1)

Country Link
CN (1) CN116431355B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8306931B1 (en) * 2009-08-06 2012-11-06 Data Fusion & Neural Networks, LLC Detecting, classifying, and tracking abnormal data in a data stream
EP2978095A1 (en) * 2014-07-23 2016-01-27 ABB Technology AG Power system operation
WO2021002930A1 (en) * 2019-07-01 2021-01-07 Oracle International Corporation Intelligent data preprocessing technique to facilitate loadshape forecasting for a utility system
CN112561156A (zh) * 2020-12-11 2021-03-26 国网江苏省电力有限公司南通供电分公司 基于用户负荷模式分类的短期电力负荷预测方法
CN112734128A (zh) * 2021-01-19 2021-04-30 重庆大学 一种基于优化rbf的7日电力负荷峰值预测方法
CN115719116A (zh) * 2022-11-21 2023-02-28 重庆大学 一种电力负荷预测方法、装置及终端设备
CN115800245A (zh) * 2022-11-03 2023-03-14 三峡大学 基于sarima-随机森林组合模型的短期负荷预测方法
CN115994575A (zh) * 2023-03-22 2023-04-21 方心科技股份有限公司 一种电力故障诊断神经网络架构设计方法及系统
WO2023084279A1 (en) * 2021-11-11 2023-05-19 Telefonaktiebolaget Lm Ericsson (Publ) Modeling of adversarial artificial intelligence in blind false data injection against ac state estimation in smart grid security, safety and reliability

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11315044B2 (en) * 2018-11-08 2022-04-26 Vmware, Inc. Multi dimensional scale analysis using machine learning
US11663523B2 (en) * 2019-09-14 2023-05-30 Oracle International Corporation Machine learning (ML) infrastructure techniques
CN114071484A (zh) * 2020-07-30 2022-02-18 华为技术有限公司 基于人工智能的通信方法和通信装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8306931B1 (en) * 2009-08-06 2012-11-06 Data Fusion & Neural Networks, LLC Detecting, classifying, and tracking abnormal data in a data stream
EP2978095A1 (en) * 2014-07-23 2016-01-27 ABB Technology AG Power system operation
WO2021002930A1 (en) * 2019-07-01 2021-01-07 Oracle International Corporation Intelligent data preprocessing technique to facilitate loadshape forecasting for a utility system
CN112561156A (zh) * 2020-12-11 2021-03-26 国网江苏省电力有限公司南通供电分公司 基于用户负荷模式分类的短期电力负荷预测方法
CN112734128A (zh) * 2021-01-19 2021-04-30 重庆大学 一种基于优化rbf的7日电力负荷峰值预测方法
WO2023084279A1 (en) * 2021-11-11 2023-05-19 Telefonaktiebolaget Lm Ericsson (Publ) Modeling of adversarial artificial intelligence in blind false data injection against ac state estimation in smart grid security, safety and reliability
CN115800245A (zh) * 2022-11-03 2023-03-14 三峡大学 基于sarima-随机森林组合模型的短期负荷预测方法
CN115719116A (zh) * 2022-11-21 2023-02-28 重庆大学 一种电力负荷预测方法、装置及终端设备
CN115994575A (zh) * 2023-03-22 2023-04-21 方心科技股份有限公司 一种电力故障诊断神经网络架构设计方法及系统

Also Published As

Publication number Publication date
CN116431355A (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
Kang et al. Operation-aware soft channel pruning using differentiable masks
CN112418320B (zh) 一种企业关联关系识别方法、装置及存储介质
CN106681305A (zh) 一种Fast RVM污水处理在线故障诊断方法
CN111027629A (zh) 基于改进随机森林的配电网故障停电率预测方法及系统
CN111680759B (zh) 一种电网巡检绝缘子检测分类方法
CN114693624A (zh) 一种图像检测方法、装置、设备及可读存储介质
CN114742211B (zh) 一种面向微控制器的卷积神经网络部署和优化方法
CN112766421A (zh) 基于结构感知的人脸聚类方法和装置
CN113822419A (zh) 一种基于结构信息的自监督图表示学习运行方法
CN113268370A (zh) 一种根因告警分析方法、系统、设备及存储介质
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN114021425A (zh) 电力系统运行数据建模与特征选择方法、装置、电子设备和存储介质
CN116431355B (zh) 一种基于电力领域超算平台的计算负载预测方法及系统
CN110807159B (zh) 数据标记方法、装置、存储介质及电子设备
CN112244863A (zh) 信号识别方法、信号识别装置、电子设备及可读存储介质
CN112200862A (zh) 目标检测模型的训练方法、目标检测方法及装置
CN109460872B (zh) 一种面向移动通信用户流失不平衡数据预测方法
CN115936926A (zh) 一种基于smote-gbdt的不平衡窃电数据分类方法、装置、计算机设备和存储介质
CN113378866B (zh) 图像分类方法、系统、存储介质及电子设备
Liu et al. Swarm intelligence for classification of remote sensing data
CN116226693A (zh) 基于密度峰值聚类的高斯混合模型核电运行工况划分方法
Ji et al. Fast progressive differentiable architecture search based on adaptive task granularity reorganization
US20240054346A1 (en) Systems and methods for simultaneous network pruning and parameter optimization
CN113449304B (zh) 一种基于策略梯度降维的恶意软件检测方法及装置
CN114357219A (zh) 一种面向移动端实例级图像检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant