CN109558905A - 一种基于K-means的能耗感知的数据分类方法 - Google Patents

一种基于K-means的能耗感知的数据分类方法 Download PDF

Info

Publication number
CN109558905A
CN109558905A CN201811403709.0A CN201811403709A CN109558905A CN 109558905 A CN109558905 A CN 109558905A CN 201811403709 A CN201811403709 A CN 201811403709A CN 109558905 A CN109558905 A CN 109558905A
Authority
CN
China
Prior art keywords
data
energy consumption
classification method
different
seasonal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811403709.0A
Other languages
English (en)
Inventor
游新冬
吕学强
董志安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN201811403709.0A priority Critical patent/CN109558905A/zh
Publication of CN109558905A publication Critical patent/CN109558905A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于K‑means的能耗感知的数据分类方法,包括:首先从存储系统中提取指定数据指定时间段中每一天的访问频次,然后针对每一个数据构建相应的季节性特性数组,进而利用K‑means算法对数据进行聚类,设定相应的类别,具有不同季节特性的数据存储在不同的季节性存储区域,而针对不同的季节性存储区域中的数据进一步挖掘其潮汐特性,并将不同潮汐特性的数据分布在不同的存储区域。本发明通过提取数据的潮汐特性和季节性特性,利用K‑means对数据进行聚类存储,将具有相似访问特性的数据进行聚类存储,通过控制磁盘转速的方式,在不同的时间阶段上对不同的存储区域实施不同的能耗和性能模式,达到在季节和周的粒度范畴上的极佳降耗效果,能耗低。

Description

一种基于K-means的能耗感知的数据分类方法
技术领域
本发明属于计算机数据管理技术领域,具体涉及一种基于K-means的能耗感知的数据分类方法。
背景技术
近年来随着互联网数据量的爆发式增长,数据以云存储的方式进行集中管理成为了一种安全,可靠的通用方式,然而由此也带来了另外一个严峻的问题:数据中心消耗着巨大的电力资源,大大提高了数据中心的运营成本的同时还会对环境产生恶劣的影响。云存储系统消耗着数据中心30%~40%的能量,因此如何降低云存储系统中的能耗是一个迫切需要解决的问题。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的基于K-means的能耗感知的数据分类方法。
为了实现上述发明目的,本发明提供的技术方案如下:
一种基于K-means的能耗感知的数据分类方法,包括:提取数据的潮汐特性和季节性特性;利用K-means算法对数据进行聚类存储。
进一步地,所述数据分类方法具体为:首先从存储系统中提取指定数据指定时间段中每一天的访问频次,然后针对每一个数据构建相应的季节性特性数组,进而利用K-means算法对数据进行聚类,设定相应的类别,具有不同季节特性的数据存储在不同的季节性存储区域,而针对不同的季节性存储区域中的数据进一步挖掘其潮汐特性,并将不同潮汐特性的数据分布在不同的存储区域。
进一步地,分类所基于的数据集表示为D={d1,d2,…,dm},数据集的大小为m,m为正整数。
进一步地,数据的潮汐特性表示为
其中cxi=[pi,1 vi,1 pi,2 vi,2 … pi,z vi,z],
其中z为数据所涉及到的周次个数,z为正整数。
进一步地,数据的季节性特性表示为假设采集的是数据y年的季节性特性,每年有四个季节的搜索指数占比维度值,因此每个数据的季节性特性用
Sei=[se1,se2,…,se4*y]表示。
进一步地,在所述数据分类方法中,根据数据的季节性特性的提取算法SCEA针对每一个数据构建相应的季节性特性数组。
进一步地,在所述的分类方法中,提取数据的季节性特性后,利用K-means算法将数据分成5类:冬季、秋季、夏季、春季、其他。
进一步地,在所述的分类方法中,针对不同的数据类别,通过数据的潮汐特性提取算法TCEA,提取数据的潮汐特性,构建一个数组存储数据的潮汐特性。
进一步地,在所述的分类方法中,提取数据的潮汐特性后,利用K-means算法将数据分成3类:与工作相关的数据、与娱乐相关的数据、其他数据。
进一步地,在所述的分类方法中,数据被分成5大类和15小类,每一个大类包含3个小类,相应地将存储系统也划分成5个大存储区和15个小存储区。
本发明提供的基于K-means的能耗感知的数据分类方法,通过提取数据的潮汐特性和季节性特性,利用K-means对数据进行聚类存储,将具有相似访问特性的数据进行聚类存储,通过控制磁盘转速的方式,在不同的时间阶段上对不同的存储区域实施不同的能耗和性能模式,达到在季节和周的粒度范畴上的极佳降耗效果,能耗低,可以很好地满足实际应用的需要。
附图说明
图1为本发明的流程图;
图2为高速磁盘中的系统利用率是系统总体利用率的1.6倍的实验结果图;
图3为高速磁盘中的系统利用率是系统总体利用率的1.8倍的实验结果图;
图4为高速磁盘中的系统利用率是系统总体利用率的2.0倍的实验结果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出的一种基于K-means的能耗感知的数据分类方法,是在基于数据的潮汐特性和季节性特性提取算法的基础上展开深入的。因此,下面在阐述数据的潮汐特性提取算法和数据的季节性特征提取算法的基础上对基于K-means的能耗感知的数据分类方法(简称K-ear)进行描述。在描述下述算法之前,对如下词汇进行定义和详细描述:
代表数据集(Representation Data Set):D={d1,d2,…,dm}分类基于的代表数据集,数据集的大小为m,m为正整数,上述分类的示例中m=70。
数据的潮汐特性(Data Tidal Characteristics):
其中cxi=[pi,1 vi,1 pi,2 vi,2 … pi,z vi,z]
其中z为样本数据所涉及到的周次个数(一般来说一年有52周),z为正整数。
数据的季节性特性(Data Seasonal Charcteristics):利用进行描述m个数据的季节特性,m为正整数,假设采集的是数据y年的季节性特性,每年有四个季节的搜索指数占比维度值,因此每个数据的季节性特性可以用
Sei=[se1,se2,…,se4*y]表示。
如图1所示,一种基于K-means的能耗感知的数据分类方法,基本步骤为:首先从存储系统中提取指定数据指定时间段中每一天的访问频次,然后根据数据的季节性特性的提取算法SCEA针对每一个数据构建相应的季节性特性数组,进而利用K-means的机器学习的算法对数据进行聚类,设定相应的类别,具有不同季节特性的数据存储在不同的季节性存储区域,而针对不同的季节性存储区域中的数据进一步挖掘其以周为单位的潮汐特性,并将与工作相关的数据(即以工作日为潮点,休息日为汐点的数据)、与娱乐相关的数据(即以休息日为潮点,以工作日为汐点)以及其他没有明显潮汐特性的数据分布在不同的存储区域。
该数据分类方法具有降耗能力的主要原理是:基于磁盘的具有两种转速(高速和低速)的假设前提下,高速状态下具有高转速,快响应和高能耗的特点。而低速状态下则具有低转速,慢响应和低能耗的特点。而根据数据的季节性特性和潮汐特性进行分类存储则可以根据特定的时间段时不同的数据特性,在不同的区域实施不同的能耗模式,以牺牲微量的系统性能,在满足用户QoS要求的前提下,尽可能地减少磁盘空转所带来的能耗损失。例如在春季的工作时段中,整个存储系统的磁盘的能耗模式为:夏季特性、秋季特性和冬季特性的存储区域因数据的访问量极小,实施低能耗模式,减少系统的空转时间。而具体到春季特性和其他特性的存储区域,则将存储与娱乐相关数据的存储区域实施低能耗模式,以减少系统空转的现象,达到降耗的效果。
本发明在现有存储系统中数据在时间访问上具有潮汐特性和季节性特性的基础上,通过提取数据的潮汐特性和季节性特性,利用机器学习的方法K-means对数据进行聚类存储,将具有相似访问特性的数据进行聚类存储,通过控制磁盘转速的方式,在不同的时间阶段上对不同的存储区域实施不同的能耗和性能模式,达到在季节和周的粒度范畴上的极佳降耗效果。
基于K-means的能耗感知的数据分类方法(K-ear)的详细描述如下:
为了验证本发明的方法的低能耗性能,与未分类的存储系统(Hadoop系统默认的方式)以及SEA算法进行了模拟对比实验。
影响存储模式的能耗的参数如表1所示。
表1 能耗模型中所涉及的各个符号的含义
表2 对比实验中的通用参数值
参数 参数
p<sup>h</sup> 30.26J/秒 i<sup>l</sup> 2.17J/秒
i<sup>h</sup> 5.26J/秒 τ<sup>l</sup> 9.3Mb/秒
τ<sup>h</sup> 31Mb/秒 n 1000
p<sup>l</sup> 21.33J/秒 T 31536000
而其中H1~H8,L1~L8,以及各个时间段的访问次数(即区域负载)则用季节性特性参数和潮汐特性参数计算而得。因此在不同情况的对比实验中,主要设定了季节性参数和潮汐特性参数。基于上述推导公式,在C++的环境中对磁盘,负载,以及磁盘分区进行模拟。得到的一系列的模拟结果如下所示。
进行不同的高速磁盘利用率与系统利用率的比值对比实验:
表3 实验1参数值的设置
为了计算SEA算法中的系统能耗,在本模拟实验中将热冷数据的比例设置为4∶6。当高速磁盘中的系统利用率是系统总体利用率的1.6、1.8、2.0倍时,三种算法所消耗的能量的实验的结果如图2-图4所示。
由对比实验结果可知,在高速磁盘利用率是系统利用的不同倍数的情况下(1.6,1.8,2.0)。在此种参数的设置下基于K-ear算法分类存储的系统所消耗的能量最少,而未实现分区存储的Hadoop存储系统的所消耗能量最多。另外,同样基于双速磁盘系统假设的对数据进行冷热划分存储的SEA算法消耗的能量比Hadoop默认的存储系统的能耗少,但是比基于K-ear分类算法的存储系统的能耗多。
2)不同的季节性数据比例的对比实验结果表明,基于K-ear算法的数据存储系统所消耗的能量是三种方法中最少的。
3)根据不同潮汐特性数据比例的对比实验结果发现:基于K-ear算法分类存储的系统是三种方法中所消耗的能量最少的。而且,具有潮汐特性的数据与无潮汐特性数据的比例越高的,K-ear算法相较于SEA算法在能耗上的优势越明显,并且二者均优于未实现分类的Hadoop默认存储系统。
4)不同冷热数据比例的对比实验结果表明,基于K-ear算法分类存储的系统是三种方法中所消耗的能量最少的,而且,当热冷数据的比例比较越大时,相较于SEA算法和未实现分类的Hadoop默认存储系统,K-ear算法的低能耗优势越明显。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于K-means的能耗感知的数据分类方法,其特征在于,包括:提取数据的潮汐特性和季节性特性;利用K-means对数据进行聚类存储。
2.根据权利要求1所述的基于K-means的能耗感知的分类方法,其特征在于,所述数据分类方法具体为:首先从存储系统中提取指定数据指定时间段中每一天的访问频次,然后针对每一个数据构建相应的季节性特性数组,进而利用K-means算法对数据进行聚类,设定相应的类别,具有不同季节特性的数据存储在不同的季节性存储区域,而针对不同的季节性存储区域中的数据进一步挖掘其潮汐特性,并将不同潮汐特性的数据分布在不同的存储区域。
3.根据权利要求1-2所述的基于K-means的能耗感知的分类方法,其特征在于,分类所基于的数据集表示为D={d1,d2,…,dm},数据集的大小为m,m为正整数。
4.根据权利要求1-3所述的基于K-means的能耗感知的分类方法,其特征在于,数据的潮汐特性表示为
其中cxi=[pi,1 vi,1 pi,2 vi,2 … pi,z vi,z],
其中z为数据所涉及到的周次个数,z为正整数。
5.根据权利要求1-4所述的基于K-means的能耗感知的分类方法,其特征在于,数据的季节性特性表示为
假设采集的是数据y年的季节性特性,每年有四个季节的搜索指数占比维度值,因此每个数据的季节性特性用
Sei=[se1,se2,…,se4*y]表示。
6.根据权利要求1-5所述的基于K-means的能耗感知的分类方法,其特征在于,在所述数据分类方法中,根据数据的季节性特性的提取算法SCEA针对每一个数据构建相应的季节性特性数组。
7.根据权利要求1-6所述的基于K-means的能耗感知的分类方法,其特征在于,在所述的分类方法中,提取数据的季节性特性后,利用K-means算法将数据分成5类:冬季、秋季、夏季、春季、其他。
8.根据权利要求1-7所述的基于K-means的能耗感知的分类方法,其特征在于,在所述的分类方法中,针对不同的数据类别,通过数据的潮汐特性提取算法TCEA,提取数据的潮汐特性,构建一个数组存储数据的潮汐特性。
9.根据权利要求1-8所述的基于K-means的能耗感知的分类方法,其特征在于,在所述的分类方法中,提取数据的潮汐特性后,利用K-means算法将数据分成3类:与工作相关的数据、与娱乐相关的数据、其他数据。
10.根据权利要求1-9所述的基于K-means的能耗感知的分类方法,其特征在于,在所述的分类方法中,数据被分成5大类和15小类,每一个大类包含3个小类,相应地将存储系统也划分成5个大存储区和15个小存储区。在不同季节下不同的潮汐日,对相应的存储区域实施不同的能耗模型,在保证性能的前提下最大程度地降低能耗。
CN201811403709.0A 2018-11-23 2018-11-23 一种基于K-means的能耗感知的数据分类方法 Pending CN109558905A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811403709.0A CN109558905A (zh) 2018-11-23 2018-11-23 一种基于K-means的能耗感知的数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811403709.0A CN109558905A (zh) 2018-11-23 2018-11-23 一种基于K-means的能耗感知的数据分类方法

Publications (1)

Publication Number Publication Date
CN109558905A true CN109558905A (zh) 2019-04-02

Family

ID=65867150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811403709.0A Pending CN109558905A (zh) 2018-11-23 2018-11-23 一种基于K-means的能耗感知的数据分类方法

Country Status (1)

Country Link
CN (1) CN109558905A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860700A (zh) * 2020-09-22 2020-10-30 深圳须弥云图空间科技有限公司 一种能耗分类方法、装置、存储介质及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103411A (zh) * 2017-04-08 2017-08-29 东北电力大学 基于改进马尔科夫链的模拟风电功率时间序列生成方法
US20170249376A1 (en) * 2016-02-29 2017-08-31 Oracle International Corporation System for detecting and characterizing seasons
CN107944630A (zh) * 2017-12-01 2018-04-20 华北电力大学 一种季节性分时电价优化制定方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170249376A1 (en) * 2016-02-29 2017-08-31 Oracle International Corporation System for detecting and characterizing seasons
CN107103411A (zh) * 2017-04-08 2017-08-29 东北电力大学 基于改进马尔科夫链的模拟风电功率时间序列生成方法
CN107944630A (zh) * 2017-12-01 2018-04-20 华北电力大学 一种季节性分时电价优化制定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王政英 等: ""分布式文件系统数据块聚类存储节能策略"", 《计算机应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860700A (zh) * 2020-09-22 2020-10-30 深圳须弥云图空间科技有限公司 一种能耗分类方法、装置、存储介质及设备
CN111860700B (zh) * 2020-09-22 2020-12-15 深圳须弥云图空间科技有限公司 一种能耗分类方法、装置、存储介质及设备

Similar Documents

Publication Publication Date Title
Wang et al. Are natural resources a blessing or a curse for economic development? The importance of energy innovations
Janssen Understanding artificial anasazi
CN103020423B (zh) 基于copula函数获取风电场出力相关特性的方法
CN103942612A (zh) 基于自适应粒子群优化算法的梯级水库优化调度方法
CN109190851B (zh) 一种基于改进鱼群算法的独立风光储微网的优化配置方法
CN106451567B (zh) 一种分布式电源集群动态划分的方法及系统
CN104462253A (zh) 一种面向网络文本大数据的话题检测或跟踪方法
CN110111003A (zh) 一种基于改进fcm聚类算法的新能源典型场景构建方法
CN103400208A (zh) 基于锥优化的配电网分布式电源最优接入容量确定方法
CN102323972A (zh) 一种相控阵雷达资源管理方法
CN105681052A (zh) 一种用于数据中心分布式文件存储的节能方法
CN106296315A (zh) 基于用户用电数据的情境感知系统
CN109558905A (zh) 一种基于K-means的能耗感知的数据分类方法
Sivasekaran India’s Contribution on Renewable Energy Research Output: A Scientometric Study
CN109802440B (zh) 基于尾流效应因子的海上风电场等值方法、系统和装置
Erdeljan et al. Distributed PSO algorithm for data model partitioning in power distribution systems
CN101540689B (zh) 一种自适应xml内容发布方法
CN107069743A (zh) 电网断面潮流的自动调整计算方法
CN114362239A (zh) 一种综合考虑多因素的电网电源极限配置策略
Sasaki et al. Academic landscape of hydropower: citation-analysis-based method and its application
Xu et al. Classification method of marine tourism resource of least square support vector machines based on particle swarm algorithm
CN104715148A (zh) 一种基于Markov过程的可再生能源电力建模方法
Xiqiao et al. Analysis of large-scale electricity load profile using clustering method
Oprea et al. Methods for electricity load profile calculation within deregulated markets
CN104462406A (zh) 一种提取文本模型特征进行分类算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190402