CN107315642A - 一种绿色云服务提供中的最小能耗计算方法 - Google Patents
一种绿色云服务提供中的最小能耗计算方法 Download PDFInfo
- Publication number
- CN107315642A CN107315642A CN201710483284.8A CN201710483284A CN107315642A CN 107315642 A CN107315642 A CN 107315642A CN 201710483284 A CN201710483284 A CN 201710483284A CN 107315642 A CN107315642 A CN 107315642A
- Authority
- CN
- China
- Prior art keywords
- cloud platform
- energy consumption
- word segmentation
- training set
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005265 energy consumption Methods 0.000 title claims abstract description 94
- 238000000205 computational method Methods 0.000 title abstract 2
- 238000000034 method Methods 0.000 claims abstract description 75
- 230000008569 process Effects 0.000 claims abstract description 42
- 241000282461 Canis lupus Species 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000011218 segmentation Effects 0.000 claims description 68
- 238000012360 testing method Methods 0.000 claims description 51
- 238000012549 training Methods 0.000 claims description 46
- 238000013508 migration Methods 0.000 claims description 23
- 230000005012 migration Effects 0.000 claims description 23
- 238000005457 optimization Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000009849 deactivation Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 7
- 230000000116 mitigating effect Effects 0.000 claims description 6
- 230000008602 contraction Effects 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 2
- 230000003247 decreasing effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 239000002245 particle Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 208000019206 urinary tract infection Diseases 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241001183967 Isodon Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000265 homogenisation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
- G06F9/5088—Techniques for rebalancing the load in a distributed system involving task migration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
为了克服移动终端的资源瓶颈问题,本发明提供了一种绿色云服务提供中的最小能耗计算方法,包括以下步骤:A.构建关键词词库L的过程;B.词频分类过程;C.对移动用户进行移动微学习而发送的新的用户请求进行资源部署;D.对于新的用户请求,构建最小能耗函数。本发明采用动态TF‑IDF进行文本分类,将高正确率的资源放置在本地云,将低正确率的资源放置在公共云上,构建两层云架构模型,完成移动微学习资源的部署,并立足于网络环境和设备状态实时变化的特性,利用灰狼优化算法,预估当前环境状态下,系统处理每字节的能耗,最后,通过分析用户请求与两层云架构服务提供之间的关系,构建绿色、高效的总能耗函数。
Description
技术领域
本发明涉及移动微学习领域,具体涉及一种绿色云服务提供中的最小能耗计算方法。
背景技术
绿色云服务是指在服务提供的过程中,综合考虑能量和性能因素,在满足用户性能的前提下,寻求能耗代价最小的方案。本文立足于本地云和公共云协同服务提供过程,研究服务提供过程中的最小能耗问题。
移动微学习是随着云计算、移动互联网的不断发展与融合而产生的一种新型学习模式,可被定义为一种通过移动网络以按需、易扩展的方式从云端获得所需的学习资源或(信息)服务,并借助移动终端设备呈现学习内容的学习模式。移动微学习的核心目标是保证学习者不受时间和空间的限制方便快捷地访问/获取云服务平台所提供的各种在线学习资源。移动微学习的提供与完成需要能量、存储和计算资源之间的持续性支持,但移动终端的移动性很大程度上限制了其尺寸和重量,导致它的处理能力、内存容量、网络连接和电池容量等方面的问题日益突出。
现有对移动微学习的研究主要集中在移动微学习学习者的学习风格和偏好的挖掘,移动微学习学习轨迹的挖掘,移动微学习学习资源的组织和管理,移动微学习学习平台的搭建,移动微学习学习框架的研究等,但针对移动微学习服务提供过程中能耗问题的研究屈指可数。所以,如何在当前移动微学习资源多样化,移动终端用户需求呈动态性、个性化、爆炸式增长趋势的背景下,立足移动终端的固有缺陷(资源局限),向合法用户提供低耗、连续的服务,对于促进移动微学习的推广和发展显得尤为重要。
发明内容
为了克服移动终端的资源瓶颈问题,本发明提供了一种绿色云服务提供中的最小能耗计算方法,保证移动微学习服务提供过程中的最小能耗。
所述的一种绿色云服务提供中的最小能耗计算方法,其技术方案是:包括以下步骤:
A.构建关键词词库L的过程:
A101.收集移动微学习中的历史资源,组成样本集合;
A102.将A101步骤中的样本集合分为训练集和测试集,其中训练集为测试集为在U和V中,u1,u2,...,uφ和v1,v2,...,vφ为字节数较多的大样本类,和为字节数较少的小样本类;
A103.利用类别均化方法对A102步骤中的训练集U中的小样本类进行重组,形成与大样本字节数量相对均匀的新的训练集U′={u1,u2,...,uφ,u′φ+1,u′φ+2},其中u′φ+1={uφ+1,uφ+2},
A104.利用ICTCLAS2013分词系统对A103步骤获得的训练集U′进行分词处理,得到训练集分词结果;
A105.利用现有技术中的停用词表,对A104步骤中的训练集分词结果进行去噪处理,得到训练集低噪分词结果;
A106.将步骤A105中得到的训练集低噪分词结果与ICTCLAS2013分词系统中的各个类别进行对比,统计训练集低噪分词结果中的每个词在ICTCLAS2013分词系统各个类别中出现的频率,得到训练集频率统计;
A107.统计A106步骤中的训练集频率出现频次最高的个词称为训练集关键词;
A108.重复A103步骤~A107步骤,直至训练集U′的样本全部处理完成,得到训练集U′的样本的全部关键词,得到关键词词库L;
B.词频分类过程:
B101.利用ICTCLAS2013分词系统对A102步骤的测试集V进行分词处理,得到测试集分词结果;
B102.利用现有技术中的停用词表,对B101步骤中的分词结果进行去噪处理,得到测试集低噪分词结果;
B103.将测试集低噪分词结果与ICTCLAS2013分词系统中的各个类别进行对比,统计测试集低噪分词结果中的每个词在ICTCLAS2013分词系统各个类别中出现的频率,得到测试集频率统计;
B104.将B103步骤中的测试集频率统计,将出现频次最高的个词称为测试集关键词;
B105.将B104步骤得到的测试集关键词与A108步骤得到的关键词词库L进行匹对,对于匹对成功的关键词,将该测试集关键词在对应的ICTCLAS2013分词系统的类别中出现的频率加1,得到匹对后的频率统计;
B106.采用动态TF-IDF方法,根据公式得到B105步骤中的匹对后的频率统计中的各个关键词分别相对于全部关键词的权重d-tf-idfi:v;其中,wi是关键词;vj是ICTCLAS2013分词系统的类别中的某一个文件;ni,j是关键词wi在文件vj中出现的次数,∑knk,j是文件vj中所有关键词出现的次数之和,|V|是语料库中文件总数,|{j:wi∈vj}|是包含关键词wi的文件数目,ε和θ是用于缓和样本大小对分类正确率的影响所引进的缓和系数;
B107.令ε=θ,在[0,10]区间内调节ε和θ,并以0.2的步长对分类正确率进行测试;
B108.重复执行B107步骤,直到ε>10且θ>10成立;
B109.重复B101~B108步骤,直至测试集V中样本处理完成;
B1010.根据公式得到测试集V相对于ICTCLAS2013分词系统中的各个类别的分类正确率Wj;其中,是ICTCLAS2013分词系统中的某个类别中关键词的个数;
B1011.根据公式得到测试集V中所有样本的平均分类正确率,并利用B107步骤得到分类正确率最高时ε和θ的值以及最高分类正确率
C.对移动用户进行移动微学习而发送的新的用户请求,采用以下处理步骤:
C101.将云平台划分为本地云平台和公共云平台;
C102.针对任意的用户请求,利用ICTCLAS2013提取关键词;
C103.将C102步骤中得到的关键词与A步骤得到的关键词词库L进行匹配,得到匹配正确率
C104.若则将该资源部署在本地云平台上,反之,则将该资源部署在公共云平台上;
D.对于新的用户请求,构建最小能耗函数:
D1.利用灰狼寻优算法,得到最优能耗值:
D101.设定云平台随机产生Q个单字节的请求,且云平台将该请求按照灰狼的层次结构分为α、β、δ和ω,并设置最大迭代次数T;随机初始化t时,云平台提供服务的能耗为Et,用户能够忍受服务的最大能耗为Emax,云平台完成请求的最优能耗Eq;
如果当前执行次数t<T,继续灰狼寻优过程;否则,结束本次优化过程,开始下一次迭代;以Et>Emax作为本次迭代结束的条件,如果成立,结束本次迭代过程,开始下一次迭代;
D102根据公式:
Dt=|C*Et-Eq|;A=2*a*r1-a;C=2*r2和Et=Eq-A*Dt得到下一个时刻t云平台完成请求所需要的能耗,直到t=T;其中,其中a是从2到0的线性下降过程,r1是0到1之间的随机数,r2为0到1的随机数;其中,A为灰狼算法中的用于随机发散或收缩的第一指引系数;C为灰狼算法中的用于随机发散或收缩的第二指引系数;
D103.根据公式计算D102步骤中得到的所有能耗Et的平均值,Pt是提供本次请求服务的理想最小能耗值Eq的接近值;
D2.构建总能耗函数:
D201.利用公式得到B步骤的能量消耗Rloc;其中,Sdoc表示A101步骤中的用户历史资源总的字节数;Sk表示对Sdoc进行C102步骤所得到的关键词的总字节数;Stask表示当前系统待处理的字节数;Tloc表示完成A101步骤中的历史资源的分类所花费的时间;N表示系统中的任务分配给了N个处理机进行处理;
D202.如果该用户请求能够在本地云平台找到,则提供服务的过程中消耗的时间为:其中,Scdoc表示在当前用户请求的字节数;Sck表示对Scdoc通过C102步骤所得到的关键词的总字节数;M表示系统中的任务分配给了M个处理机进行处理;
D203.则该用户请求在本地云平台找到所需要的总能耗为Eideal=q*Pt l*Tideal;q为用户请求的数量;
D204:如果该用户请求需要上传到公共云平台查找,则该用户请求消耗的时间为:其中,Tth是云平台为了不影响用户满意度设定的用户请求在本地云平台的最大执行时间;如果当前用户在本地云平台的执行时间为Tnow,如果Tth>Tnow成立,那么该请求仍然在本地云平台进行,反之,上传到公共云平台,其中T是用户请求在本地执行的时间;Smig是迁移到公共云平台的字节大小,Tmig表示迁移所花费的时间,M′表示系统分配的处理机数量,Rclo表示公共云平台的执行速率;
D205.设置用于提高能耗计算准确率的实际运行中影响迁移性能的因素,根据公式得到本地云平台的执行时间Tnow,其中,Vmem表示迁移期间虚拟机内存的大小,Rmig表示迁移过程中的迁移速率;其中,D表示迁移过程中内存的脏化率;
D206.根据D204~D205步骤得出在该用户请求需要上传到公共云平台时所需要的能耗为:En-ideal=q*Pt c*Tn-ideal;
D3:根据C步骤,本地云平台存放分类精度高于的资源,共享云平台上存放的是分类精度低于的资源;通过D1步骤的优化,得到该次移动微学习过程中找到该用户请求所需的最小能耗为:
优选的,所述B106步骤中的ε=θ且ε=2.6。
优选的,所述的A105步骤和B102步骤中的现有技术中的停用词表为哈尔滨工业大学停用词表。
本发明的有益效果是:本发明采用动态TF-IDF进行文本分类,利用本地云平台低时延、低能耗和公共云平台弹性、可伸缩性的优点,将高正确率的资源放置在本地云,将低正确率的资源放置在公共云上,构建两层云架构模型,完成移动微学习资源的部署,并立足于网络环境和设备状态实时变化的特性,利用灰狼优化算法,预估当前环境状态下,系统处理每字节的能耗,最后,通过分析用户请求与两层云架构服务提供之间的关系,构建总能耗函数,并在灰狼优化算法预估的能耗代价下找到绿色、高效的服务。本发明结构清晰,算法简洁,能耗计算准确率高,具有广泛的应用价值。
附图说明
图1为本发明服务框架图。
图2为词频分类模块框架图。
图3为两层云架构资源部署模型示意图。
图4为本发明流程图。
图5为平均分类正确率随ε的变化过程曲线图。
图6为大样本类正确率的变化过程。
图7为小样本类正确率的变化过程。
图8为不同算法下的平均分类正确率对比图。
图9为不同算法下的单字节能耗预估图。
图10为迁移速率对总能耗的影响图。
图11为系统中待处理的字节数对总能耗的影响图。
图12为不同算法下的总能耗图。
具体实施方式
如图1~4所示,一种绿色云服务提供中的最小能耗计算方法,其技术方案是:包括以下步骤:
A.构建关键词词库L的过程:
A101.收集移动微学习中的历史资源,组成样本集合;
A102.将A101步骤中的样本集合分为训练集和测试集,其中训练集为测试集为在U和V中,u1,u2,...,uφ和v1,v2,...,vφ为字节数较多的大样本类,和为字节数较少的小样本类;
A103.利用类别均化方法对A102步骤中的训练集U中的小样本类进行重组,形成与大样本字节数量相对均匀的新的训练集U′={u1,u2,...,uφ,u′φ+1,u′φ+2},其中u′φ+1={uφ+1,uφ+2},
需要明确的是:类别均化方法是将多个小样本相加至与大样本字节数相差不大后再进行后续计算的方法,该方法为现有技术,其公开文献是:张启蕊,张凌,董守斌等,训练集类别分布对文本分类的影响[J].清华大学学报自然科学版,2005,45(s1):76-79。
A104.利用ICTCLAS2013分词系统对A103步骤获得的训练集U′进行分词处理,得到训练集分词结果;
A105.利用现有技术中的停用词表,对A104步骤中的训练集分词结果进行去噪处理,得到训练集低噪分词结果;
A106.将步骤A105中得到的训练集低噪分词结果与ICTCLAS2013分词系统中的各个类别进行对比,统计训练集低噪分词结果中的每个词在ICTCLAS2013分词系统各个类别中出现的频率,得到训练集频率统计;
A107.统计A106步骤中的训练集频率出现频次最高的个词称为训练集关键词;
A108.重复A103步骤~A107步骤,直至训练集U′的样本全部处理完成,得到训练集U′的样本的全部关键词,得到关键词词库L;
B.词频分类过程:
B101.利用ICTCLAS2013分词系统对A102步骤的测试集V进行分词处理,得到测试集分词结果;
B102.利用现有技术中的停用词表,对B101步骤中的分词结果进行去噪处理,得到测试集低噪分词结果;
B103.将测试集低噪分词结果与ICTCLAS2013分词系统中的各个类别进行对比,统计测试集低噪分词结果中的每个词在ICTCLAS2013分词系统各个类别中出现的频率,得到测试集频率统计;
B104.将B103步骤中的测试集频率统计,将出现频次最高的个词称为测试集关键词;
B105.将B104步骤得到的测试集关键词与A108步骤得到的关键词词库L进行匹对,对于匹对成功的关键词,将该测试集关键词在对应的ICTCLAS2013分词系统的类别中出现的频率加1,得到匹对后的频率统计;
B106.采用动态TF-IDF方法,根据公式得到B105步骤中的匹对后的频率统计中的各个关键词分别相对于全部关键词的权重d-tf-idfi:v;其中,wi是关键词;vj是ICTCLAS2013分词系统的类别中的某一个文件;ni,j是关键词wi在文件vj中出现的次数,∑knk,j是文件vj中所有关键词出现的次数之和,|V|是语料库中文件总数,|{j:wi∈vj}|是包含关键词wi的文件数目,ε和θ是用于缓和样本大小对分类正确率的影响所引进的缓和系数;
B107.令ε=θ,在[0,10]区间内调节ε和θ,并以0.2的步长对分类正确率进行测试;
B108.重复执行B107步骤,直到ε>10且θ>10成立;
B109.重复B101~B108步骤,直至测试集V中样本处理完成;
B1010.根据公式得到测试集V相对于ICTCLAS2013分词系统中的各个类别的分类正确率Wj;其中,是ICTCLAS2013分词系统中的某个类别中关键词的个数;
B1011.根据公式得到测试集V中所有样本的平均分类正确率,并利用B107步骤得到分类正确率最高时ε和θ的值以及最高分类正确率
C.对移动用户进行移动微学习而发送的新的用户请求,采用以下处理步骤:
C101.将云平台划分为本地云平台和公共云平台;
C102.针对任意的用户请求,利用ICTCLAS2013提取关键词;
C103.将C102步骤中得到的关键词与A步骤得到的关键词词库L进行匹配,得到匹配正确率
C104.若则将该资源部署在本地云平台上,反之,则将该资源部署在公共云平台上;
D.对于新的用户请求,构建最小能耗函数:
D1.利用灰狼寻优算法,得到最优能耗值:
D101.设定云平台随机产生Q个单字节的请求,且云平台将该请求按照灰狼的层次结构分为α、β、δ和ω,并设置最大迭代次数T;随机初始化t时,云平台提供服务的能耗为Et,用户能够忍受服务的最大能耗为Emax,云平台完成请求的最优能耗Eq;
如果当前执行次数t<T,继续灰狼寻优过程;否则,结束本次优化过程,开始下一次迭代;以Et>Emax作为本次迭代结束的条件,如果成立,结束本次迭代过程,开始下一次迭代;
D102根据公式:
Dt=|C*Et-Eq|;A=2*a*r1-a;C=2*r2和Et=Eq-A*Dt得到下一个时刻t云平台完成请求所需要的能耗,直到t=T;其中,其中a是从2到0的线性下降过程,r1是0到1之间的随机数,r2为0到1的随机数;其中,A为灰狼算法中的用于随机发散或收缩的第一指引系数;C为灰狼算法中的用于随机发散或收缩的第二指引系数;
需要明确的是:如果A、C的值随机发散则表示灰狼算法中的灰狼四处游走找寻猎物;如果A、C的值随机收缩则表示灰狼算法中的灰狼找到猎物并开始攻击猎物;
D103.根据公式计算D102步骤中得到的所有能耗Et的平均值,Pt是提供本次请求服务的理想最小能耗值Eq的接近值;
D2.构建总能耗函数:
D201.利用公式得到B步骤的能量消耗Rloc;其中,Sdoc表示A101步骤中的用户历史资源总的字节数;Sk表示对Sdoc进行C102步骤所得到的关键词的总字节数;Stask表示当前系统待处理的字节数;Tloc表示完成A101步骤中的历史资源的分类所花费的时间;N表示系统中的任务分配给了N个处理机进行处理;
D202.如果该用户请求能够在本地云平台找到,则提供服务的过程中消耗的时间为:其中,Scdoc表示在当前用户请求的字节数;Sck表示对Scdoc通过C102步骤所得到的关键词的总字节数;M表示系统中的任务分配给了M个处理机进行处理;
D203.则该用户请求在本地云平台找到所需要的总能耗为Eideal=q*Pt l*Tideal;q为用户请求的数量;
D204:如果该用户请求需要上传到公共云平台查找,则该用户请求消耗的时间为:其中,Tth是云平台为了不影响用户满意度设定的用户请求在本地云平台的最大执行时间;如果当前用户在本地云平台的执行时间为Tnow,如果Tth>Tnow成立,那么该请求仍然在本地云平台进行,反之,上传到公共云平台,其中T是用户请求在本地执行的时间;Smig是迁移到公共云平台的字节大小,Tmig表示迁移所花费的时间,M′表示系统分配的处理机数量,Rclo表示公共云平台的执行速率;
D205.设置用于提高能耗计算准确率的实际运行中影响迁移性能的因素,根据公式得到本地云平台的执行时间Tnow,其中,Vmem表示迁移期间虚拟机内存的大小,Rmig表示迁移过程中的迁移速率;其中,D表示迁移过程中内存的脏化率;
D206.根据D204~D205步骤得出在该用户请求需要上传到公共云平台时所需要的能耗为:En-ideal=q*Pt c*Tn-ideal;
D3:根据C步骤,本地云平台存放分类精度高于的资源,共享云平台上存放的是分类精度低于的资源;通过D1步骤的优化,得到该次移动微学习过程中找到该用户请求所需的最小能耗为:
优选的,所述B106步骤中的ε=θ且ε=2.6。
优选的,所述的A105步骤和B102步骤中的现有技术中的停用词表为哈尔滨工业大学停用词表。
本发明的验证过程:
1.分类正确率的验证:
如表I和表II我们可以看出,在小样本类中,几乎所有关键词出现的概率都为0,同时,针对某一个关键词,它并不能很好的代表各类的技术方案。例如“宇航”,它在大样本类中C11,C19,C31中都曾出现。“含”字在C4,C23,C29,C35类中都有出现,但是“含”本身并没有很好的代表性,不能作为各类的关键词。引发这种情况出现的主要原因是,样本中包含的信息量较少,导致我们提取的关键词不准确。
表I:利用TF-IDF方法获得的各个单词在大样本类中的权重(部分)
word | C3 | C7 | C11 | C19 | C31 | C32 | C34 | C38 | C39 |
宇航 | 0 | 0 | 0.986 | 0 | 0 | 0.014 | 0.014 | 0 | 0 |
JOURNAL | 0 | 0 | 0.374 | 0.479 | 0.086 | 0.060 | 0.060 | 0 | 0 |
OF | 0 | 0 | 0.221 | 0.404 | 0.301 | 0.066 | 0.066 | 0 | 0.001 |
1999年 | 0.002 | 0 | 0.158 | 0.233 | 0.266 | 0.127 | 0.127 | 0 | 0.012 |
含 | 0.061 | 0 | 0.069 | 0.094 | 0.514 | 0.090 | 0.090 | 0 | 0.020 |
液 | 0.017 | 0 | 0.193 | 0.006 | 0.751 | 0 | 0 | 0 | 0 |
滴 | 0 | 0 | 0.486 | 0 | 0.429 | 0.057 | 0.057 | 0 | 0 |
表II:TF-IDF方法获得的各个单词在小样本类中的权重(部分)
word | C4 | C5 | C6 | C15 | C16 | C17 | C23 | C29 | C35 | C36 | C37 |
宇航 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
JOURNAL | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
OF | 0.005 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
1999年 | 0.094 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.108 | 0 | 0 |
含 | 0.041 | 0 | 0 | 0 | 0 | 0 | 0.004 | 0.004 | 0.078 | 0 | 0 |
液 | 0.011 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.022 |
滴 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
需要明确的是:表I、表II中的C4、C7等均为ICTCLAS2013分词系统的类别;word所属的一列中的为关键词;C4~C37所属列代表某关键词在对应类别中的权重。
可见利用TF-IDF的方法存在一定的弊端,本发明采用B106步骤的动态TF-IDF方法后简称为D-TF-IDF法进行分类,结果如下:
表III:D-TF-IDF方法获得的大样本类的分类正确率(部分)
表IV:D-TF-IDF方法获得的小样本类的分类正确率(部分)
ε | C4 | C5 | C6 | C15 | C16 | C17 | C23 | C29 | C35 | C36 | C37 |
0 | 0.705 | 0.8 | 0 | 0.545 | 0.536 | 0.370 | 0.676 | 0.831 | 0.811 | 0.921 | 0 |
0.6 | 0.738 | 0.822 | 0 | 0.515 | 0.536 | 0.370 | 0.676 | 0.831 | 0.830 | 0.921 | 0 |
1 | 0.549 | 0.378 | 0.962 | 0.424 | 0.357 | 0.333 | 0.588 | 0.814 | 0.811 | 0.934 | 0 |
1.6 | 0.148 | 0.133 | 0.979 | 0.303 | 0.25 | 0.111 | 0.353 | 0.644 | 0.604 | 0.789 | 0.009 |
2 | 0.098 | 0.044 | 0.887 | 0.212 | 0.179 | 0.111 | 0.235 | 0.525 | 0.472 | 0.566 | 0.515 |
2.2 | 0.066 | 0.022 | 0.829 | 0.212 | 0.143 | 0.037 | 0.235 | 0.508 | 0.396 | 0.395 | 0.729 |
2.4 | 0.049 | 0.022 | 0.763 | 0.242 | 0.107 | 0.037 | 0.147 | 0.441 | 0.358 | 0.276 | 0.819 |
2.6 | 0 | 0.022 | 0.705 | 0.212 | 0.036 | 0.037 | 0.118 | 0.407 | 0.321 | 0.184 | 0.845 |
2.8 | 0 | 0 | 0.645 | 0.182 | 0 | 0 | 0.059 | 0.373 | 0.302 | 0.158 | 0.833 |
需要明确的是:表III、表IV中的C4、C7等均为ICTCLAS2013分词系统的类别;word所属的一列中的为关键词;C4~C37所属列代表某关键词在对应类别中的权重。
从表III和表IV可以看出,因为ε=θ,所以本发明仅对ε进行说明。随着ε的增大,大样本类C3,C7,C19,C38都处于完全增长的趋势,C11,C32处于先增加后下降的趋势,C34和C39则处于下降的趋势。但是整体而言,各类样本的正确率增长的趋势远大于下降的趋势。例如,C3的分类正确率达到了94.6%,C7的分类正确率达到了79.6%。对于小样本类,除了C6和C37类,其它各类的分类正确率都处于下降的趋势。例如,C5的分类正确率下降了80%,C17的分类正确率下降了37%。这证明了本发明提出的D-TF-IDF方法在一定程度上提高的大样本的分类正确率,损害了小样本类的分类正确率,所以,需要找到对大样本和小样本都公平的分类正确率。
如图5,当ε从0到2.6时,平均分类正确率的增长趋势是陡峭的,在ε从2.6到10的变化范围内,平均分类正确率的趋势是缓慢下降的,所以,当ε=2.6时,可以得到对大样本类和小样本类都公平的分类正确率。
如图6~7,当ε=2.6时,大样本和小样本分类正确率的变化过程曲线可以明确得出:当ε=2.6时,本发明提出的D-TF-IDF方法能够明显提高各类样本的分类正确率。
如图8,本发明所述的D-TF-IDF算法与传统的TF-IDF方法、NaiveBayes方法和Rocchio方法进行对比,本发明提出的D-TF-IDF方法的平均分类正确率明显优于其它算法。其中,D-TF-IDF的平均分类正确率为83.91,相对于TF-IDF、Nave Bayes和Rocchio,它分别提高了7.64%、2.92%和3.65%。
2.能耗的验证:
将本发明所述的灰狼优化算法简称GWO(Grey Wolf Optimizer GWO)和大多数实验采用的粒子群算法简称PSO(Particle Swarm Optimization PSO)进行对比,当发送一个字节探测信号,灰狼优化算法和粒子群算法预估的能耗情况。
如图9,可以明确得知:GWO预估的最大能耗稍逊于PSO算法,它们之间仅仅相差0.71,但是针对平均能耗和最小能耗,可以明显看出GWO算法优于PSO算法。这证明了GWO算法具有更强的寻优能力,它能找到当前环境条件下,处理每个字节的最优能耗值。
在灰狼算法预估的能耗基础上,进行移动微学习服务提供过程中总能耗的分析。
如图10,看到在最大能耗方面,GWO算法计算所得的能耗比PSO算法所得的能耗高,但是该差距是非常小的。同时,在平均能耗和最小能耗方面,虽然GWO算法具有优势,但该优势并不是非常明显。这证明了对于100字节的任务量,迁移速率对能耗的影响并不是特别明显。
如图11,在最大能耗、最小能耗以及平均能耗方面PSO算法所获得的能耗值都大于GWO算法所获得的能耗值,并且我们发现在最大能耗和平均能耗上,两者之间的差距特别大。虽然在最小能耗方面两者之间的差距相对较小,但是我们仍然可以认为系统中待处理的字节数量越多,系统需要消耗的能耗越多。
如图12,为了更好的模拟真实环境的动态多变性,放宽所有的条件限制,例如随机设置Scdoc、Stask和Rmig,使本发明设定的能耗模型中所有的可变参数都随机变化。从图12的结果中我们可以看到虽然在最大能耗方面GWO算法不如PSO算法,但是最小能耗和平均能耗方面,GWO算法都明显优于PSO算法,并且差距是非常明显的,这证明了本发明采用的GWO算法在总能耗方面优于PSO算法。
以上所述仅为发明的较佳实施例而己,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种绿色云服务提供中的最小能耗计算方法,其特征是:包括以下步骤:
A.构建关键词词库L的过程:
A101.收集移动微学习中的历史资源,组成样本集合;
A102.将A101步骤中的样本集合分为训练集和测试集,其中训练集为测试集为在U和V中,u1,u2,...,uφ和v1,v2,...,vφ为字节数较多的大样本类,和为字节数较少的小样本类;
A103.利用类别均化方法对A102步骤中的训练集U中的小样本类进行重组,形成与大样本字节数量相对均匀的新的训练集U′={u1,u2,...,uφ,u′φ+1,u′φ+2},其中u′φ+1={uφ+1,uφ+2},
A104.利用ICTCLAS2013分词系统对A103步骤获得的训练集U′进行分词处理,得到训练集分词结果;
A105.利用现有技术中的停用词表,对A104步骤中的训练集分词结果进行去噪处理,得到训练集低噪分词结果;
A106.将步骤A105中得到的训练集低噪分词结果与ICTCLAS2013分词系统中的各个类别进行对比,统计训练集低噪分词结果中的每个词在ICTCLAS2013分词系统各个类别中出现的频率,得到训练集频率统计;
A107.统计A106步骤中的训练集频率出现频次最高的个词称为训练集关键词;
A108.重复A103步骤~A107步骤,直至训练集U′的样本全部处理完成,得到训练集U′的样本的全部关键词,得到关键词词库L;
B.词频分类过程:
B101.利用ICTCLAS2013分词系统对A102步骤的测试集V进行分词处理,得到测试集分词结果;
B102.利用现有技术中的停用词表,对B101步骤中的分词结果进行去噪处理,得到测试集低噪分词结果;
B103.将测试集低噪分词结果与ICTCLAS2013分词系统中的各个类别进行对比,统计测试集低噪分词结果中的每个词在ICTCLAS2013分词系统各个类别中出现的频率,得到测试集频率统计;
B104.将B103步骤中的测试集频率统计,将出现频次最高的个词称为测试集关键词;
B105.将B104步骤得到的测试集关键词与A108步骤得到的关键词词库L进行匹对,对于匹对成功的关键词,将该测试集关键词在对应的ICTCLAS2013分词系统的类别中出现的频率加1,得到匹对后的频率统计;
B106.采用动态TF-IDF方法,根据公式得到B105步骤中的匹对后的频率统计中的各个关键词分别相对于全部关键词的权重d-tf-idfi,v;其中,wi是关键词;vj是ICTCLAS2013分词系统的类别中的某一个文件;ni,j是关键词wi在文件vj中出现的次数,∑knk,j是文件vj中所有关键词出现的次数之和,|V|是语料库中文件总数,|{j:wi∈vj}|是包含关键词wi的文件数目,ε和θ是用于缓和样本大小对分类正确率的影响所引进的缓和系数;
B107.令ε=θ,在[0,10]区间内调节ε和θ,并以0.2的步长对分类正确率进行测试;
B108.重复执行B107步骤,直到ε>10且θ>10成立;
B109.重复B101~B108步骤,直至测试集V中样本处理完成;
B1010.根据公式得到测试集V相对于ICTCLAS2013分词系统中的各个类别的分类正确率Wj;其中,是ICTCLAS2013分词系统中的某个类别中关键词的个数;
B1011.根据公式得到测试集V中所有样本的平均分类正确率,并利用B107步骤得到分类正确率最高时ε和θ的值以及最高分类正确率
C.对移动用户进行移动微学习而发送的新的用户请求,采用以下处理步骤:
C101.将云平台划分为本地云平台和公共云平台;
C102.针对任意的用户请求,利用ICTCLAS2013提取关键词;
C103.将C102步骤中得到的关键词与A步骤得到的关键词词库L进行匹配,得到匹配正确率
C104.若则将该资源部署在本地云平台上,反之,则将该资源部署在公共云平台上;
D.对于新的用户请求,构建最小能耗函数:
D1.利用灰狼寻优算法,得到最优能耗值:
D101.设定云平台随机产生Q个单字节的请求,且云平台将该请求按照灰狼的层次结构分为α、β、δ和ω,并设置最大迭代次数T;随机初始化t时,云平台提供服务的能耗为Et,用户能够忍受服务的最大能耗为Emax,云平台完成请求的最优能耗Eq;
如果当前执行次数t<T,继续灰狼寻优过程;否则,结束本次优化过程,开始下一次迭代;对于每一次迭代,以Et>E max作为本次迭代结束的条件,如果成立,结束本次迭代过程,开始下一次迭代;
D102根据公式:
Dt=|C*Et-Eq|;A=2*a*r1-a;C=2*r2和Et=Eq-A*Dt得到下一个时刻t云平台完成请求所需要的能耗,直到t=T;其中,其中a是从2到0的线性下降过程,r1是0到1之间的随机数,r2为0到1的随机数;其中,A为灰狼算法中的用于随机发散或收缩的第一指引系数;C为灰狼算法中的用于随机发散或收缩的第二指引系数;
D103.根据公式计算D102步骤中得到的所有能耗Et的平均值,Pt是提供本次请求服务的理想最小能耗值Eq的接近值;
D2.构建总能耗函数:
D201.利用公式得到B步骤的能量消耗Rloc;其中,Sdoc表示A101步骤中的用户历史资源总的字节数;Sk表示对Sdoc进行C102步骤所得到的关键词的总字节数;Stask表示当前系统待处理的字节数;Tloc表示完成A101步骤中的历史资源的分类所花费的时间;N表示系统中的任务分配给了N个处理机进行处理;
D202.如果该用户请求能够在本地云平台找到,则提供服务的过程中消耗的时间为:其中,Scdoc表示在当前用户请求的字节数;Sck表示对Scdoc通过C102步骤所得到的关键词的总字节数;M表示系统中的任务分配给了M个处理机进行处理;
D203.则该用户请求在本地云平台找到所需要的总能耗为Eideal=q*Pt l*Tideal;q为用户请求的数量;
D204:如果该用户请求需要上传到公共云平台查找,则该用户请求消耗的时间为:其中,Tth是云平台为了不影响用户满意度设定的用户请求在本地云平台的最大执行时间;如果当前用户在本地云平台的执行时间为Tnow,如果Tth>Tnow成立,那么该请求仍然在本地云平台进行,反之,上传到公共云平台,其中T是用户请求在本地执行的时间;Smig是迁移到公共云平台的字节大小,Tmig表示迁移所花费的时间,M′表示系统分配的处理机数量,Rclo表示公共云平台的执行速率;
D205.设置用于提高能耗计算准确率的实际运行中影响迁移性能的因素,根据公式得到本地云平台的执行时间Tnow,其中,Vmem表示迁移期间虚拟机内存的大小,Rmig表示迁移过程中的迁移速率;其中,D表示迁移过程中内存的脏化率;
D206.根据D204~D205步骤得出在该用户请求需要上传到公共云平台时所需要的能耗为:En-ideal=q*Pt c*Tn-ideal;
D3:根据C步骤,本地云平台存放分类精度高于的资源,共享云平台上存放的是分类精度低于的资源;通过D1步骤的优化,得到该次移动微学习过程中找到该用户请求所需的最小能耗为:
2.根据权利要求1所述的一种绿色云服务提供中的最小能耗计算方法,其特征是:所述B106步骤中的ε=θ且ε=2.6。
3.根据权利要求1所述的一种绿色云服务提供中的最小能耗计算方法,其特征是:所述的A105步骤和B102步骤中的现有技术中的停用词表为哈尔滨工业大学停用词表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710483284.8A CN107315642B (zh) | 2017-06-22 | 2017-06-22 | 一种绿色云服务提供中的最小能耗计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710483284.8A CN107315642B (zh) | 2017-06-22 | 2017-06-22 | 一种绿色云服务提供中的最小能耗计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107315642A true CN107315642A (zh) | 2017-11-03 |
CN107315642B CN107315642B (zh) | 2020-06-26 |
Family
ID=60179479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710483284.8A Active CN107315642B (zh) | 2017-06-22 | 2017-06-22 | 一种绿色云服务提供中的最小能耗计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107315642B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109324953A (zh) * | 2018-10-11 | 2019-02-12 | 北京理工大学 | 一种虚拟机能耗预测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104793993A (zh) * | 2015-04-24 | 2015-07-22 | 江南大学 | 基于Levy飞行的人工蜂群粒子群算法的云计算任务调度方法 |
CN105323166A (zh) * | 2015-11-17 | 2016-02-10 | 东北大学 | 一种面向云计算的基于网络能效优先的路由方法 |
-
2017
- 2017-06-22 CN CN201710483284.8A patent/CN107315642B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104793993A (zh) * | 2015-04-24 | 2015-07-22 | 江南大学 | 基于Levy飞行的人工蜂群粒子群算法的云计算任务调度方法 |
CN105323166A (zh) * | 2015-11-17 | 2016-02-10 | 东北大学 | 一种面向云计算的基于网络能效优先的路由方法 |
Non-Patent Citations (4)
Title |
---|
A. ALAHMADI: ""Enhanced first-fit decreasing algorithm for energy-aware job cheduling in cloud"", 《2014 INTERNATIONALCONFERENCE ON COMPUTATIONAL SCIENCE AND COMPUTATIONAL INTELIGENCE》 * |
X. F. LIU,: ""Energy awarevirtual machine placement scheduling in cloud computing based on ant colony optimization approach"", 《2014 ANNUAL CONFERENCE ON GENETIC AND EVOLUTIONARY COMPUTATION》 * |
徐小龙: ""面向绿色云计算数据中心的动态数据聚集算法"", 《系统工程与电子技术》 * |
王柏翔 等: ""云计算环境下面向能耗降低的虚拟机管理模型"", 《电脑知识与技术》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109324953A (zh) * | 2018-10-11 | 2019-02-12 | 北京理工大学 | 一种虚拟机能耗预测方法 |
CN109324953B (zh) * | 2018-10-11 | 2020-08-04 | 北京理工大学 | 一种虚拟机能耗预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107315642B (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107220295B (zh) | 一种人民矛盾调解案例搜索和调解策略推荐方法 | |
CN109858028B (zh) | 一种基于概率模型的短文本相似度计算方法 | |
CN105808590B (zh) | 搜索引擎实现方法、搜索方法以及装置 | |
CN109960786A (zh) | 基于融合策略的中文词语相似度计算方法 | |
WO2013151546A1 (en) | Contextually propagating semantic knowledge over large datasets | |
CN107577782B (zh) | 一种基于异质数据的人物相似度刻画方法 | |
CN108710611A (zh) | 一种基于词网络和词向量的短文本主题模型生成方法 | |
CN114707516B (zh) | 一种基于对比学习的长文本语义相似度计算方法 | |
Hu et al. | Text sentiment analysis: A review | |
CN107832467A (zh) | 一种基于改进的Single‑pass聚类算法的微博话题检测方法 | |
CN102662987B (zh) | 一种基于百度百科的网络文本语义的分类方法 | |
CN109960791A (zh) | 判断文本情感的方法及存储介质、终端 | |
Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
CN104572915B (zh) | 一种基于内容环境增强的用户事件相关度计算方法 | |
CN109086443A (zh) | 基于主题的社交媒体短文本在线聚类方法 | |
Yajian et al. | A short text classification algorithm based on semantic extension | |
CN105912563A (zh) | 一种基于心理学知识赋予机器人工智能学习的方法 | |
CN111767404B (zh) | 一种事件挖掘方法和装置 | |
CN107315642B (zh) | 一种绿色云服务提供中的最小能耗计算方法 | |
CN107122420A (zh) | 一种旅游热点事件检测方法及系统 | |
Xiao et al. | Web services clustering based on HDP and SOM neural network | |
CN108694165B (zh) | 面向产品评论的跨领域对偶情感分析方法 | |
CN111178038B (zh) | 一种基于潜在语义分析的文档相似度识别方法及装置 | |
CN113761125A (zh) | 动态摘要确定方法和装置、计算设备以及计算机存储介质 | |
CN113705217A (zh) | 一种面向电力领域知识学习的文献推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |