CN117113235A - 一种云计算数据中心能耗优化方法及系统 - Google Patents

一种云计算数据中心能耗优化方法及系统 Download PDF

Info

Publication number
CN117113235A
CN117113235A CN202311360097.2A CN202311360097A CN117113235A CN 117113235 A CN117113235 A CN 117113235A CN 202311360097 A CN202311360097 A CN 202311360097A CN 117113235 A CN117113235 A CN 117113235A
Authority
CN
China
Prior art keywords
component data
data
cluster
sub
principal component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311360097.2A
Other languages
English (en)
Other versions
CN117113235B (zh
Inventor
汪镜波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Humeng Technology Co ltd
Original Assignee
Shenzhen Humeng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Humeng Technology Co ltd filed Critical Shenzhen Humeng Technology Co ltd
Priority to CN202311360097.2A priority Critical patent/CN117113235B/zh
Publication of CN117113235A publication Critical patent/CN117113235A/zh
Application granted granted Critical
Publication of CN117113235B publication Critical patent/CN117113235B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • G06F11/3062Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations where the monitored property is the power consumption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及电子数字数据处理技术领域,具体涉及一种云计算数据中心能耗优化方法及系统,包括:对多维数据集降维获得主成分数据,获取由若干主成分数据形成的样本簇类;根据样本簇类中数据点的平均值获得离散程度;对样本簇类进行划分获得子簇类,根据子簇类之间的差异获得新子簇类;获取由多个随机树形成的孤立森林;利用孤立森林对所有服务器进行能耗优化。本发明通过将多维数据集降维获取若干个主成分数据在一定程度上降低了数据量,根据子簇类之间的差异获得随机树中各节点对应的子节点,使多个随机树形成的孤立森林中样本簇类对应节点的两个子节点差异最大,提高了对孤立森林进行异常检测的准确性,进一步提高了对服务器的能耗优化效果。

Description

一种云计算数据中心能耗优化方法及系统
技术领域
本发明涉及电子数字数据处理技术领域,具体涉及一种云计算数据中心能耗优化方法及系统。
背景技术
数据中心的能源消耗量较大,其能源成本占据了其运营成本的重要部分,通过优化能耗可以降低能源成本进而提高运营效率。有效的管理和规划数据中心的能源需求,可以满足不断增长的计算需求,推动数据中心的可扩展性和业务发展。而对于数据中心的诸多服务器,不同服务器的功耗有所差异,为了避免部分服务器过载而导致的能耗较高的问题,需要将负载较高的服务器进行负载均衡化处理,以节约资源消耗。
对于数据中心的诸多服务器,采用孤立森林算法,对于负载较高或较低的服务器进行检测。而在传统的孤立森林算法中,将每个非叶子节点分割成两个子节点的过程中,采用的是随机超平面的方式进行划分的,但这样的划分方式会由于各点对应的特征取值范围的不同、不同特征的重要性或权重的差异,而导致选取的特征不能很好地划分出异常样本,进而造成算法检测效果较差的问题。
发明内容
本发明提供一种云计算数据中心能耗优化方法及系统,以解决现有的问题。
本发明的一种云计算数据中心能耗优化方法及系统采用如下技术方案:
本发明一个实施例提供了一种云计算数据中心能耗优化方法,该方法包括以下步骤:
获取数据中心中各服务器的多种运行数据所形成的多维数据集,一个服务器对应一个多维数据集;
对任意多维数据集进行降维获得若干个主成分数据,将若干个相同层的主成分数据所形成的集合记为对应层下的一个样本簇类;将任意主成分数据的一阶差分结果记为主成分数据对应的差分数据;根据样本簇类中所有差分数据和主成分数据中数据点的平均值获得样本簇类的离散程度;对样本簇类进行随机划分获得子簇类,根据子簇类之间的差异获得划分优度,根据划分优度的大小获得新子簇类;
利用样本簇类的划分方法对其他层的样本簇类进行划分,获取不同层的新子簇类之间的差异获得余-主成分数据,将余-主成分数据重新划分获得最终的孤立森林;
利用孤立森林对所有服务器进行能耗优化。
进一步的,所述对任意多维数据集进行降维获得若干个主成分数据,包括的具体方法为:
利用主成分分析算法将所有服务器对应的多维数据集进行降维,获得若干个主成分数据,一个服务器对应若干层的主成分数据;
获取各主成分数据的方差贡献率,选取服务器对应若干层的主成分数据中方差贡献率大于预设超参数的前/>个主成分数据。
进一步的,所述根据样本簇类中所有差分数据和主成分数据中数据点的平均值获得样本簇类的离散程度,包括的具体方法为:
首先,将任意主成分数据中所有数据点的平均值记为主成分数据的均值参数;获取任意主成分数据的一阶差分结果记为主成分数据对应的差分数据;
然后,任意样本簇类的离散程度的具体计算方法为:
其中,表示样本簇类的离散程度;/>表示样本簇类中主成分数据的数量;/>表示主成分数据中数据点的数量;/>表示样本簇类中第/>个主成分数据对应差分数据的第/>个数据点的数值;/>表示获取绝对值;/>表示以自然常数为底数的指数函数;/>表示样本簇类中第/>个主成分数据的均值参数;/>表示样本簇类中所有主成分数据的均值参数的平均值。
进一步的,所述对样本簇类进行随机划分获得子簇类,根据子簇类之间的差异获得划分优度,根据划分优度的大小获得新子簇类,包括的具体方法为:
首先,构建随机树,将一个样本簇类作为随机树中的一个节点,将样本簇类中的主成分数据随机划分为两个含有若干主成分数据的集合,记为样本簇类的子簇类;将子簇类在随机树中对应的节点作为样本簇类对应节点的子节点;
然后,根据子簇类中所有主成分数据的所有数据点的平均值以及差分数据中数据点的数值,获得子簇类的差异因子,将两个子簇类的差异因子的差值记为两个子簇类之间的差异性;
最后,将子类簇包含的主成分数据的数量与子类簇的离散程度的乘积记为子簇类的第一数值,将两个子簇类的第一数值的和值记为两个子簇类的第二数值,将两个子簇类的差异性与第二数值的比值记为两个子簇类时对应的划分优度,划分优度最大时,将样本簇类划分的两个子簇类记为样本簇类的新子簇类。
进一步的,所述差异因子的具体获取方法为:
其中,表示第/>个子簇类的差异因子;/>表示第/>个子簇类中所有主成分数据的所有数据点的平均值;/>表示第/>个子类簇包含的主成分数据的数量;/>表示主成分数据中数据点的数量;/>表示预设的主成分数据对应差分数据中第/>个数据点的权重系数;/>表示第/>个主成分数据对应差分数据的第/>个数据点的数值。
进一步的,所述获取不同层的新子簇类之间的差异获得余-主成分数据,包括的具体方法为:
获取第层和第/>层样本簇类的新子簇类,当第/>层样本簇类的任意新子簇类与第/>层样本簇类的任意新子簇类对应交集中,元素数量最大时,将两个新子簇类记为匹配簇类,将两个匹配簇类中所有元素作为全集,并获取第/>层样本簇类的匹配簇类的补集中各元素对应的主成分数据,记为余-主成分数据。
进一步的,所述将余-主成分数据重新划分获得最终的孤立森林,包括的具体方法为:
首先,判断第层的余-主成分数据所对应的服务器,与第/>层样本簇类的第一个新子簇类中主成分数据对应服务器之间的异同,设置调整参数;根据余-主成分数据的余-主成分数据与主成分数据之间的皮尔逊相关系数、方差贡献率以及调整参数获得余-主成分数据的划分系数;
然后,当余-主成分数据的划分系数大于等于0时,将余-主成分数据划分至第一个新子簇类中,当余-主成分数据的划分系数小于0时,将余-主成分数据划分至第二个新子簇类中;通过孤立森林算法,并结合划分优度和划分系数将所有服务器的所有主成分数据进行划分,获得若干个随机树形成的孤立森林,所述最终的孤立森林中每一个叶节点对应一个服务器。
进一步的,所述判断第层的余-主成分数据所对应的服务器,与第/>层样本簇类的第一个新子簇类中主成分数据对应服务器之间的异同,设置调整参数;根据余-主成分数据的余-主成分数据与主成分数据之间的皮尔逊相关系数、方差贡献率以及调整参数获得余-主成分数据的划分系数,包括的具体方法为:
首先,当第层的余-主成分数据所对应的服务器与第/>层样本簇类的第一个新子簇类中主成分数据对应服务器相同,设置调整参数/>为1,当第/>层的余-主成分数据所对应的服务器与第/>层样本簇类的第二个新子簇类中主成分数据对应服务器相同,设置调整参数/>为-1;
然后,对于第层和第/>层样本簇类的新子簇类,将任意余-主成分数据所在的匹配簇类记为余簇类,获取任意余-主成分数据的划分系数,具体计算方法为:
其中,表示余-主成分数据的划分系数;/>表示线性归一化函数;/>表示余-主成分数据的方差贡献率;/>表示余-主成分数据的相关因子;/>表示调整参数;/>表示余簇类中主成分数据的数量;/>表示余簇类的所有主成分数据中,除余-主成分数据以外的第/>个主成分数据与余-主成分数据之间的皮尔逊相关系数。
进一步的,所述利用孤立森林对所有服务器进行能耗优化,包括的具体方法为:
利用孤立森林算法对孤立森林进行异常检测,获取各个节点的异常评分,当节点的异常评分大于预设的评分标准时,将节点对应的服务器标记为负载异常的服务器,通过数据中心降低负载异常的服务器的任务量,降低负载异常的服务器的能耗。
进一步的,一种云计算数据中心能耗优化系统包括以下模块:
数据采集模块:用于获取数据中心中各服务器的多种运行数据所形成的多维数据集,一个服务器对应一个多维数据集;
划分优度模块:用于对任意多维数据集进行降维获得若干个主成分数据,将若干个相同层的主成分数据所形成的集合记为对应层下的一个样本簇类;将任意主成分数据的一阶差分结果记为主成分数据对应的差分数据;根据样本簇类中所有差分数据和主成分数据中数据点的平均值获得样本簇类的离散程度;对样本簇类进行随机划分获得子簇类,根据子簇类之间的差异获得划分优度,根据划分优度的大小获得新子簇类;
孤立森林模块:用于利用样本簇类的划分方法对其他层的样本簇类进行划分,获取不同层的新子簇类之间的差异获得余-主成分数据,将余-主成分数据重新划分获得最终的孤立森林;
能耗优化模块:用于利用孤立森林对所有服务器进行能耗优化。
本发明的技术方案的有益效果是:通过将多维数据集降维获取若干个主成分数据在一定程度上降低了数据量,将样本簇类进行划分获得子簇类后,根据子簇类之间的差异获得随机树中各节点对应的子节点,使多个随机树形成的孤立森林中样本簇类对应节点的两个子节点差异最大,提高异常检测的准确性,进一步提高了对服务器的能耗优化效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种云计算数据中心能耗优化方法的步骤流程图;
图2为本发明的一种云计算数据中心能耗优化系统的结构框图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种云计算数据中心能耗优化方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种云计算数据中心能耗优化方法及系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种云计算数据中心能耗优化方法的步骤流程图,该方法包括以下步骤:
步骤S001:获取数据中心中各服务器的多种运行数据所形成的多维数据集。
需要说明的是,本实施例针对数据中心运行过程中的各服务器,对其进行实时的异常检测,避免某些服务器过载而其他服务器处于低负载状态,通过负载均衡技术提高服务器的利用率并减少能耗。
具体的,为了实现本实施例提出的一种云计算数据中心能耗优化方法,首先需要采集数据中心的多维数据集,具体过程为:
通过数据中心获取多个服务器的运行数据,对于单个服务器所对应的运行数据包括CPU利用率、内存利用率、磁盘I/O、网络流量、功耗数据以及温度数据,将CPU利用率、内存利用率、磁盘I/O、网络流量、功耗数据以及温度数据形成的集合记为服务器的多维数据集,多维数据集中的元素称为服务器的运行数据。
至此,通过上述方法得到各个服务器对应多个运行数据形成的多维数据集。
步骤S002:对多维数据集进行降维获得若干个主成分数据,对主成分数据进行划分获得子簇类,根据子簇类之间的差异获得划分优度,根据划分优度的大小获得新子簇类。
需要说明的是,对于任意一个节点,其代表着诸多样本的集合,一个样本代表着一个服务器的多维度数据,利用不同的主成分进行划分即代表利用不同的数据来对各样本进行划分,而划分后结果的优劣需要里利用其划分结果中各簇类的离散程度来度量;传统的度量数据离散程度的方式无法直接利用到时间序列离散性的度量上,故对于同一主成分对应的数据序列簇而言,不仅需要考虑各样本序列的平均差异(表示各服务器的平均负载的离散),还应当考虑各个序列自身的波动变化情况,进而得到更加精确的离散性度量以进行划分优度的判断。
具体的,步骤(1),首先,利用主成分分析算法将所有服务器对应的多维数据集进行降维,获得若干个主成分数据,一个服务器对应若干层的主成分数据。
需要说明的是,主成分分析算法为现有算法,因此本实施例不进行过多赘述。
然后,获取各主成分数据的方差贡献率;选取方差贡献率大于的前/>个主成分数据,其中/>为预设的超参数。
需要说明的是,根据经验预设超参数为/>,可根据实际情况进行调整,本实施例不进行具体限定。
步骤(2),将若干个相同层的主成分数据所形成的集合,记为对应层下的一个样本簇类;将任意主成分数据中所有数据点的平均值记为主成分数据的均值参数;获取任意主成分数据的一阶差分结果记为主成分数据对应的差分数据;根据样本簇类中各主成分数据获取任意样本簇类的离散程度,具体计算方法为:
其中,表示样本簇类的离散程度;/>表示样本簇类中主成分数据的数量;/>表示主成分数据中数据点的数量;/>表示样本簇类中第/>个主成分数据对应差分数据的第/>个数据点的数值;/>表示获取绝对值;/>表示以自然常数为底数的指数函数;/>表示样本簇类中第/>个主成分数据的均值参数;/>表示样本簇类中所有主成分数据的均值参数的平均值;
需要说明的是,获取样本簇类中各主成分数据中所有数据点的均值,对于两个均值参数相同的主成分数据而言,若仅仅采用均值参数评估主成分数据的离散程度,这两个均值参数对于离散程度的贡献是相同的,但实际上应当是不同的;故在计算各均值的方差时,应当对不同的离差平方进行加权平均,将主成分数据的一阶差分的绝对值之和在归一化之后作为离差平方的权重系数,以得到更加精确的离散程度的度量。
步骤(3),需要说明的是,对于孤立森林中任意一个节点,当其包含的主成分数据个数超过2时,可以对其进行进一步划分,而对于不同的划分,其对应两类的差异性会有所不同;为了使得孤立主成分数据更好的被分离开来,即对于负载异常的服务器需要尽可能缩短其对应主成分数据在二叉树中的路径长度,进而保证其受到随机性的干扰较小,而上述步骤可以得到单个样本簇类的离散程度,但对于分类结果,应当在保证类内的离散程度小的同时,尽可能放大两个类别之间的差异性,进而得到划分优度的度量。
首先,构建随机树,将一个样本簇类作为随机树中的一个节点,将样本簇类中的主成分数据随机划分为两个含有若干主成分数据的集合,记为样本簇类的子簇类;将子簇类在随机树中对应的节点作为样本簇类对应节点的子节点;两个子簇类之间的差异性的具体计算方法为:
其中,表示第1个子簇类和第2个子簇类之间的差异性;/>表示第1个子簇类的差异因子;/>表示第2个子簇类的差异因子;/>表示第/>个子簇类的差异因子;/>表示第/>个子簇类中所有主成分数据的所有数据点的平均值;/>表示第/>个子类簇包含的主成分数据的数量;/>表示主成分数据中数据点的数量;/>表示预设的主成分数据对应差分数据中第个数据点的权重系数;/>表示第/>个主成分数据对应差分数据的第/>个数据点的数值。
需要说明的是,本实施例选择在10分钟内,每30秒采样一次,获得服务器的运行数据,因此预设差分数据中数据点的权重系数,使得/>;具体采样时间和采样频率可根据实际情况进行调整,本实施例不进行具体限定。
需要说明的是,将样本簇类划分为两个子簇类时,应使第一个子簇类中所有主成分数据的所有数据点的平均值,大于等于第二个子簇类中所有主成分数据的所有数据点的平均值。
需要说明的是,利用子簇类中所有主成分数据的所有数据点的平均值,来表示各子簇类中所有主成分数据的所有数据点的平均大小,但考虑到对于各服务器进行检测时,所有主成分数据的所有数据点的平均大小反映了各服务器在当前时刻邻域内的平均负载情况,而未考虑后续可能的变化情况,故在的基础上,利用簇类中各主成分数据的平均变化情况以进行修正,故利用相邻五个数据点的加权平均差分,后对各个主成分数据对应差分数据求均值,在子簇类中所有主成分数据的所有数据点的平均值基础上进行了修正。若第一个子簇类中所有主成分数据的所有数据点的平均值,较第二个子簇类中所有主成分数据的所有数据点的平均值更大,且在后续变化中,第一个子簇类中所有主成分数据的数据点有变小趋势,第二个子簇类中所有主成分数据的数据点有变大趋势,则两类的差异性应当缩小,反之应当放大。
步骤(4),首先,根据差异性和离散程度获得样本簇类划分为两个子簇类时对应的划分优度,具体计算方法为:
其中,表示样本簇类划分为两个子簇类时对应的划分优度;/>表示第1个子簇类和第2个子簇类之间的差异性;/>表示第1个子类簇包含的主成分数据的数量,/>表示第2个子类簇包含的主成分数据的数量;/>表示第1个子类簇的离散程度;/>表示第2个子类簇的离散程度。
需要说明的是,所述子簇类的离散程度与样本簇类的离散程度的获取方法相同。
需要说明的是,划分优度的计算方法中,为了防止分母为0。
需要说明的是,当两子簇类的离散程度小且子簇类之间的差异性达到最大时,得到样本簇类的最优划分结果。
然后,划分优度最大时,将样本簇类划分的两个子簇类记为样本簇类的新子簇类。
需要说明的是,在获取的多维度数据中,可能存在一些冗余的维度或变量,这些变量可能显的在分析中不具有明区分能力。本实施例通过PCA主成分分析,可以识别和去除这些冗余信息,从而提高数据的效率和清晰度。
至此,通过上述方法得到样本簇类的新子簇类。
步骤S003:利用样本簇类的划分方法对其他层的样本簇类进行划分,获取不同层的新子簇类之间的差异获得余-主成分数据,将余-主成分数据重新划分获得最终的孤立森林。
需要说明的是,在对各主成分数据进行划分时,各主成分数据的划分结果会有所差异,需要对不同的划分结果与同类型的服务器进行匹配,例如当服务器的散热功率较高时,可能会对应较低的温度数据,需要利用不同分类对应的相似度进行类别的匹配,对于部分样本在不同的主成分中划分结果不同的情况,利用其不同主成分之间的相关性,结合各主成分的方差贡献率,判断给点最终属于的类别。
具体的,首先,获取第层和第/>层样本簇类的新子簇类,当第/>层样本簇类的任意新子簇类与第/>层样本簇类的任意新子簇类对应交集中,元素数量最大时,将两个新子簇类记为匹配簇类,将两个匹配簇类中所有元素作为全集,并获取第/>层样本簇类的匹配簇类的补集中各元素对应的主成分数据,记为余-主成分数据。
需要说明的是,不采用数据大小进行匹配的原因是,主成分数据之间并不一定是正相关的。
需要说明的是,得到各主成分数据在划分后子簇类的匹配关系,而对于同一个服务器,其在不同层的主成分数据下产生的划分结果可能不同,即产生了余-主成分数据,因此需要判断余-主成分数据最终应当划分在哪一个子簇类中。
然后,当第层的余-主成分数据所对应的服务器与第/>层样本簇类的第一个新子簇类中主成分数据对应服务器相同,设置调整参数/>为1,当第/>层的余-主成分数据所对应的服务器与第/>层样本簇类的第二个新子簇类中主成分数据对应服务器相同,设置调整参数/>为-1;对于第/>层和第/>层样本簇类的新子簇类,将任意余-主成分数据所在的匹配簇类记为余簇类,获取任意余-主成分数据的划分系数,具体计算方法为:
其中,表示余-主成分数据的划分系数;/>表示线性归一化函数;/>表示余-主成分数据的方差贡献率;/>表示余-主成分数据的相关因子;/>表示调整参数;/>表示余簇类中主成分数据的数量;/>表示余簇类的所有主成分数据中,除余-主成分数据以外的第/>个主成分数据与余-主成分数据之间的皮尔逊相关系数。
最后,当余-主成分数据的划分系数大于等于0时,将余-主成分数据划分至第一个新子簇类中,当余-主成分数据的划分系数小于0时,将余-主成分数据划分至第二个新子簇类中;通过孤立森林算法,并结合划分优度和划分系数将所有服务器的所有主成分数据进行划分,获得若干个随机树形成的孤立森林,所述最终的孤立森林中每一个叶节点对应一个服务器。
需要说明的是,服务器对应的主成分数据在不同层的样本簇类产生了不同的划分结果,即产生的新子簇类不相同,因此需要判断哪个划分结果更加可靠,故本实施例通过余-主成分数据与其他主成分数据之间的相关系数,说明主成分数据之间的相似程度,相似程度较高说明样本簇类产生的划分结果更加可靠,而不同的主成分数据对原始数据的贡献不同,故利用各主成分的方差贡献率作为权重系数,在进行归一化之后,对分类结果进行加权平均,以得到最终的划分结果。
需要说明的是,本实施例中,由于多维数据中可能会存在诸多冗余的数据,因此需要进行降维处理。在获取二叉树的过程中,即需要对每次分类进行自适应,而非传统的随机划分,划分的目的是为了使得遗产样本更早的被分离,即每次划分需要保证结果的两类之间差异尽可能大,而一类中各样本的差异尽可能小,即对于多个服务器而言,需要尽可能将负载差异较大服务器分为不同的簇类;故对需要针对不同样本间各主成分之间的关系进行分析,对同一主成分下进行簇类内以及簇类间的差异性进行度量,以对不同样本在该主成分上的划分效果进行评价,最后结合各主成分之间的相关性,对分类结果进行综合,进而获取样本簇类对应的子簇类。
至此,通过上述方法得到最终的孤立森林。
步骤S004:利用孤立森林对所有服务器进行能耗优化。
具体的,利用孤立森林算法对孤立森林进行异常检测,获取各个节点的异常评分,当节点的异常评分大于预设的评分标准时,将节点对应的服务器标记为负载异常的服务器,通过数据中心降低负载异常的服务器的任务量,降低负载异常的服务器的能耗,从而对各服务器的能耗进行优化。
需要说明的是,根据经验预设评分标准为0.8,可根据实际情况进行调整,本实施例不进行具体限定。
需要说明的是,孤立森林算法为现有的异常检测算法,因此本实施例不进行过多赘述。
通过以上步骤,完成对所有服务器的能耗优化。
请参阅图2,其示出了本发明一个实施例提供的一种云计算数据中心能耗优化系统的结构框图,该系统包括以下模块:
数据采集模块:用于获取数据中心中各服务器的多种运行数据所形成的多维数据集,一个服务器对应一个多维数据集;
划分优度模块:用于对任意多维数据集进行降维获得若干个主成分数据,将若干个相同层的主成分数据所形成的集合记为对应层下的一个样本簇类;将任意主成分数据的一阶差分结果记为主成分数据对应的差分数据;根据样本簇类中所有差分数据和主成分数据中数据点的平均值获得样本簇类的离散程度;对样本簇类进行随机划分获得子簇类,根据子簇类之间的差异获得划分优度,根据划分优度的大小获得新子簇类;
孤立森林模块:用于利用样本簇类的划分方法对其他层的样本簇类进行划分,获取不同层的新子簇类之间的差异获得余-主成分数据,将余-主成分数据重新划分获得最终的孤立森林;
能耗优化模块:用于利用孤立森林对所有服务器进行能耗优化。
本实施例通过将多维数据集降维获取若干个主成分数据在一定程度上降低了数据量,将样本簇类进行划分获得子簇类后,根据子簇类之间的差异获得随机树中各节点对应的子节点,使多个随机树形成的孤立森林中样本簇类对应节点的两个子节点差异最大,提高异常检测的准确性,进一步提高了对服务器的能耗优化效果。
需要说明的是,本实施例中所用的模型仅用于表示负相关关系和约束模型输出的结果处于/>区间内,具体实施时,可替换成具有同样目的的其他模型,本实施例只是以/>模型为例进行叙述,不对其做具体限定,其中/>是指该模型的输入。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种云计算数据中心能耗优化方法,其特征在于,该方法包括以下步骤:
获取数据中心中各服务器的多种运行数据所形成的多维数据集,一个服务器对应一个多维数据集;
对任意多维数据集进行降维获得若干个主成分数据,将若干个相同层的主成分数据所形成的集合记为对应层下的一个样本簇类;将任意主成分数据的一阶差分结果记为主成分数据对应的差分数据;根据样本簇类中所有差分数据和主成分数据中数据点的平均值获得样本簇类的离散程度;对样本簇类进行随机划分获得子簇类,根据子簇类之间的差异获得划分优度,根据划分优度的大小获得新子簇类;
利用样本簇类的划分方法对其他层的样本簇类进行划分,获取不同层的新子簇类之间的差异获得余-主成分数据,将余-主成分数据重新划分获得最终的孤立森林;
利用孤立森林对所有服务器进行能耗优化。
2.根据权利要求1所述一种云计算数据中心能耗优化方法,其特征在于,所述对任意多维数据集进行降维获得若干个主成分数据,包括的具体方法为:
利用主成分分析算法将所有服务器对应的多维数据集进行降维,获得若干个主成分数据,一个服务器对应若干层的主成分数据;
获取各主成分数据的方差贡献率,选取服务器对应若干层的主成分数据中方差贡献率大于预设超参数的前/>个主成分数据。
3.根据权利要求1所述一种云计算数据中心能耗优化方法,其特征在于,所述根据样本簇类中所有差分数据和主成分数据中数据点的平均值获得样本簇类的离散程度,包括的具体方法为:
首先,将任意主成分数据中所有数据点的平均值记为主成分数据的均值参数;获取任意主成分数据的一阶差分结果记为主成分数据对应的差分数据;
然后,任意样本簇类的离散程度的具体计算方法为:
其中,表示样本簇类的离散程度;/>表示样本簇类中主成分数据的数量;/>表示主成分数据中数据点的数量;/>表示样本簇类中第/>个主成分数据对应差分数据的第/>个数据点的数值;/>表示获取绝对值;/>表示以自然常数为底数的指数函数;/>表示样本簇类中第/>个主成分数据的均值参数;/>表示样本簇类中所有主成分数据的均值参数的平均值。
4.根据权利要求1所述一种云计算数据中心能耗优化方法,其特征在于,所述对样本簇类进行随机划分获得子簇类,根据子簇类之间的差异获得划分优度,根据划分优度的大小获得新子簇类,包括的具体方法为:
首先,构建随机树,将一个样本簇类作为随机树中的一个节点,将样本簇类中的主成分数据随机划分为两个含有若干主成分数据的集合,记为样本簇类的子簇类;将子簇类在随机树中对应的节点作为样本簇类对应节点的子节点;
然后,根据子簇类中所有主成分数据的所有数据点的平均值以及差分数据中数据点的数值,获得子簇类的差异因子,将两个子簇类的差异因子的差值记为两个子簇类之间的差异性;
最后,将子类簇包含的主成分数据的数量与子类簇的离散程度的乘积记为子簇类的第一数值,将两个子簇类的第一数值的和值记为两个子簇类的第二数值,将两个子簇类的差异性与第二数值的比值记为两个子簇类时对应的划分优度,划分优度最大时,将样本簇类划分的两个子簇类记为样本簇类的新子簇类。
5.根据权利要求4所述一种云计算数据中心能耗优化方法,其特征在于,所述差异因子的具体获取方法为:
其中,表示第/>个子簇类的差异因子;/>表示第/>个子簇类中所有主成分数据的所有数据点的平均值;/>表示第/>个子类簇包含的主成分数据的数量;/>表示主成分数据中数据点的数量;/>表示预设的主成分数据对应差分数据中第/>个数据点的权重系数;/>表示第/>个主成分数据对应差分数据的第/>个数据点的数值。
6.根据权利要求1所述一种云计算数据中心能耗优化方法,其特征在于,所述获取不同层的新子簇类之间的差异获得余-主成分数据,包括的具体方法为:
获取第层和第/>层样本簇类的新子簇类,当第/>层样本簇类的任意新子簇类与第层样本簇类的任意新子簇类对应交集中,元素数量最大时,将两个新子簇类记为匹配簇类,将两个匹配簇类中所有元素作为全集,并获取第/>层样本簇类的匹配簇类的补集中各元素对应的主成分数据,记为余-主成分数据。
7.根据权利要求1所述一种云计算数据中心能耗优化方法,其特征在于,所述将余-主成分数据重新划分获得最终的孤立森林,包括的具体方法为:
首先,判断第层的余-主成分数据所对应的服务器,与第/>层样本簇类的第一个新子簇类中主成分数据对应服务器之间的异同,设置调整参数;根据余-主成分数据的余-主成分数据与主成分数据之间的皮尔逊相关系数、方差贡献率以及调整参数获得余-主成分数据的划分系数;
然后,当余-主成分数据的划分系数大于等于0时,将余-主成分数据划分至第一个新子簇类中,当余-主成分数据的划分系数小于0时,将余-主成分数据划分至第二个新子簇类中;通过孤立森林算法,并结合划分优度和划分系数将所有服务器的所有主成分数据进行划分,获得若干个随机树形成的孤立森林,所述最终的孤立森林中每一个叶节点对应一个服务器。
8.根据权利要求7所述一种云计算数据中心能耗优化方法,其特征在于,所述判断第层的余-主成分数据所对应的服务器,与第/>层样本簇类的第一个新子簇类中主成分数据对应服务器之间的异同,设置调整参数;根据余-主成分数据的余-主成分数据与主成分数据之间的皮尔逊相关系数、方差贡献率以及调整参数获得余-主成分数据的划分系数,包括的具体方法为:
首先,当第层的余-主成分数据所对应的服务器与第/>层样本簇类的第一个新子簇类中主成分数据对应服务器相同,设置调整参数/>为1,当第/>层的余-主成分数据所对应的服务器与第/>层样本簇类的第二个新子簇类中主成分数据对应服务器相同,设置调整参数/>为-1;
然后,对于第层和第/>层样本簇类的新子簇类,将任意余-主成分数据所在的匹配簇类记为余簇类,获取任意余-主成分数据的划分系数,具体计算方法为:
其中,表示余-主成分数据的划分系数;/>表示线性归一化函数;/>表示余-主成分数据的方差贡献率;/>表示余-主成分数据的相关因子;/>表示调整参数;/>表示余簇类中主成分数据的数量;/>表示余簇类的所有主成分数据中,除余-主成分数据以外的第/>个主成分数据与余-主成分数据之间的皮尔逊相关系数。
9.根据权利要求1所述一种云计算数据中心能耗优化方法,其特征在于,所述利用孤立森林对所有服务器进行能耗优化,包括的具体方法为:
利用孤立森林算法对孤立森林进行异常检测,获取各个节点的异常评分,当节点的异常评分大于预设的评分标准时,将节点对应的服务器标记为负载异常的服务器,通过数据中心降低负载异常的服务器的任务量,降低负载异常的服务器的能耗。
10.一种云计算数据中心能耗优化系统,采用如权利要求1-9中任意一项所述的一种云计算数据中心能耗优化方法,其特征在于,该系统包括以下模块:
数据采集模块:用于获取数据中心中各服务器的多种运行数据所形成的多维数据集,一个服务器对应一个多维数据集;
划分优度模块:用于对任意多维数据集进行降维获得若干个主成分数据,将若干个相同层的主成分数据所形成的集合记为对应层下的一个样本簇类;将任意主成分数据的一阶差分结果记为主成分数据对应的差分数据;根据样本簇类中所有差分数据和主成分数据中数据点的平均值获得样本簇类的离散程度;对样本簇类进行随机划分获得子簇类,根据子簇类之间的差异获得划分优度,根据划分优度的大小获得新子簇类;
孤立森林模块:用于利用样本簇类的划分方法对其他层的样本簇类进行划分,获取不同层的新子簇类之间的差异获得余-主成分数据,将余-主成分数据重新划分获得最终的孤立森林;
能耗优化模块:用于利用孤立森林对所有服务器进行能耗优化。
CN202311360097.2A 2023-10-20 2023-10-20 一种云计算数据中心能耗优化方法及系统 Active CN117113235B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311360097.2A CN117113235B (zh) 2023-10-20 2023-10-20 一种云计算数据中心能耗优化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311360097.2A CN117113235B (zh) 2023-10-20 2023-10-20 一种云计算数据中心能耗优化方法及系统

Publications (2)

Publication Number Publication Date
CN117113235A true CN117113235A (zh) 2023-11-24
CN117113235B CN117113235B (zh) 2024-01-26

Family

ID=88813141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311360097.2A Active CN117113235B (zh) 2023-10-20 2023-10-20 一种云计算数据中心能耗优化方法及系统

Country Status (1)

Country Link
CN (1) CN117113235B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117370898A (zh) * 2023-12-08 2024-01-09 钛合联(深圳)科技有限公司 一种电子数据安全管控系统
CN117454120A (zh) * 2023-12-20 2024-01-26 山西思极科技有限公司 电力通信系统数据的采集分析方法
CN117493921A (zh) * 2024-01-03 2024-02-02 智洁云服(大连)信息技术有限公司 基于大数据的人工智能节能管理方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740842A (zh) * 2016-03-01 2016-07-06 浙江工业大学 基于快速密度聚类算法的无监督人脸识别方法
CN108985632A (zh) * 2018-07-16 2018-12-11 国网上海市电力公司 一种基于孤立森林算法的用电数据异常检测模型
CN111338897A (zh) * 2020-02-24 2020-06-26 京东数字科技控股有限公司 应用主机中异常节点的识别方法、监测设备和电子设备
US20200374720A1 (en) * 2018-06-04 2020-11-26 Jiangnan University Method for Detecting Abnormal Data in Sensor Network
CN112308108A (zh) * 2020-07-08 2021-02-02 湖北大学 一种基于网格分类的异常数据检测技术
CN112434208A (zh) * 2020-12-03 2021-03-02 百果园技术(新加坡)有限公司 一种孤立森林的训练及其网络爬虫的识别方法与相关装置
CN112905583A (zh) * 2021-04-01 2021-06-04 辽宁工程技术大学 一种高维大数据离群点检测方法
CN113537321A (zh) * 2021-07-01 2021-10-22 汕头大学 一种基于孤立森林和x均值的网络流量异常检测方法
CN116011894A (zh) * 2023-03-28 2023-04-25 河北长发铝业股份有限公司 一种铝合金棒生产数据管理系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740842A (zh) * 2016-03-01 2016-07-06 浙江工业大学 基于快速密度聚类算法的无监督人脸识别方法
US20200374720A1 (en) * 2018-06-04 2020-11-26 Jiangnan University Method for Detecting Abnormal Data in Sensor Network
CN108985632A (zh) * 2018-07-16 2018-12-11 国网上海市电力公司 一种基于孤立森林算法的用电数据异常检测模型
CN111338897A (zh) * 2020-02-24 2020-06-26 京东数字科技控股有限公司 应用主机中异常节点的识别方法、监测设备和电子设备
CN112308108A (zh) * 2020-07-08 2021-02-02 湖北大学 一种基于网格分类的异常数据检测技术
CN112434208A (zh) * 2020-12-03 2021-03-02 百果园技术(新加坡)有限公司 一种孤立森林的训练及其网络爬虫的识别方法与相关装置
CN112905583A (zh) * 2021-04-01 2021-06-04 辽宁工程技术大学 一种高维大数据离群点检测方法
CN113537321A (zh) * 2021-07-01 2021-10-22 汕头大学 一种基于孤立森林和x均值的网络流量异常检测方法
CN116011894A (zh) * 2023-03-28 2023-04-25 河北长发铝业股份有限公司 一种铝合金棒生产数据管理系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIANSHENG YANG 等: "SPiForest: An Anomaly Detecting Algorithm Using Space Partition Constructed by Probability Density-Based Inverse Sampling", IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, pages 1 - 13 *
马俊彦 等: "基于孤立森林算法的电涌保护器异常参数监测研究", 电子测量与仪器学报, vol. 34, no. 07, pages 58 - 63 *
高骞 等: "基于预测模型的发电厂异常数据辨识方法", 电力工程技术, vol. 39, no. 04, pages 164 - 170 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117370898A (zh) * 2023-12-08 2024-01-09 钛合联(深圳)科技有限公司 一种电子数据安全管控系统
CN117370898B (zh) * 2023-12-08 2024-03-12 钛合联(深圳)科技有限公司 一种电子数据安全管控系统
CN117454120A (zh) * 2023-12-20 2024-01-26 山西思极科技有限公司 电力通信系统数据的采集分析方法
CN117454120B (zh) * 2023-12-20 2024-03-15 山西思极科技有限公司 电力通信系统数据的采集分析方法
CN117493921A (zh) * 2024-01-03 2024-02-02 智洁云服(大连)信息技术有限公司 基于大数据的人工智能节能管理方法及系统
CN117493921B (zh) * 2024-01-03 2024-03-19 智洁云服(大连)信息技术有限公司 基于大数据的人工智能节能管理方法及系统

Also Published As

Publication number Publication date
CN117113235B (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
CN117113235B (zh) 一种云计算数据中心能耗优化方法及系统
WO2022110557A1 (zh) 一种台区户变关系异常诊断方法及装置
WO2016101628A1 (zh) 一种数据建模中的数据处理方法及装置
CN110795690A (zh) 风电场运行异常数据检测方法
CN117454255B (zh) 一种智慧建筑能耗数据优化存储方法
CN109597757B (zh) 一种基于多维时间序列熵的软件网络间相似度的度量方法
CN113569462A (zh) 一种计及天气因素的配电网故障等级预测方法及系统
CN111861781A (zh) 一种居民用电行为聚类中的特征优选方法及系统
CN117131449A (zh) 面向数据治理的具有传播学习能力的异常识别方法及系统
CN117234301A (zh) 一种基于人工智能的服务器热管理方法
CN117170979B (zh) 一种大规模设备的能耗数据处理方法、系统、设备及介质
CN113094448B (zh) 住宅空置状态的分析方法及分析装置、电子设备
CN115034278A (zh) 性能指标异常检测方法、装置、电子设备和存储介质
CN110781959A (zh) 基于birch算法和随机森林算法的电力客户分群方法
CN116089012A (zh) 一种基于容器资源指标的自适应容器异常检测方法
CN111400122A (zh) 一种硬盘健康度评估方法及装置
CN113127464A (zh) 农业大数据环境特征处理方法、装置及电子设备
CN113723835B (zh) 火电厂用水评估方法和终端设备
CN113705920B (zh) 火电厂用水数据样本集的生成方法和终端设备
CN116992488B (zh) 一种差分隐私保护方法及系统
CN117992808B (zh) 一种基于大数据的计算机网络管理方法及系统
CN113487080B (zh) 一种基于风速分类的风速动态场景生成方法、系统及终端
CN112884167B (zh) 一种基于机器学习的多指标异常检测方法及其应用系统
CN113705920A (zh) 火电厂用水数据样本集的生成方法和终端设备
Tian et al. Nonlinear Data Classification of Power Internet of Things Considering Transient and Steady State

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant