CN107315642B - 一种绿色云服务提供中的最小能耗计算方法 - Google Patents

一种绿色云服务提供中的最小能耗计算方法 Download PDF

Info

Publication number
CN107315642B
CN107315642B CN201710483284.8A CN201710483284A CN107315642B CN 107315642 B CN107315642 B CN 107315642B CN 201710483284 A CN201710483284 A CN 201710483284A CN 107315642 B CN107315642 B CN 107315642B
Authority
CN
China
Prior art keywords
cloud platform
energy consumption
word segmentation
training set
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710483284.8A
Other languages
English (en)
Other versions
CN107315642A (zh
Inventor
郑瑞娟
张明川
吴庆涛
朱军龙
张茉莉
白秀玲
魏汪洋
杨丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Science and Technology
Original Assignee
Henan University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Science and Technology filed Critical Henan University of Science and Technology
Priority to CN201710483284.8A priority Critical patent/CN107315642B/zh
Publication of CN107315642A publication Critical patent/CN107315642A/zh
Application granted granted Critical
Publication of CN107315642B publication Critical patent/CN107315642B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • G06F9/5088Techniques for rebalancing the load in a distributed system involving task migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

为了克服移动终端的资源瓶颈问题,本发明提供了一种绿色云服务提供中的最小能耗计算方法,包括以下步骤:A.构建关键词词库L的过程;B.词频分类过程;C.对移动用户进行移动微学习而发送的新的用户请求进行资源部署;D.对于新的用户请求,构建最小能耗函数。本发明采用动态TF‑IDF进行文本分类,将高正确率的资源放置在本地云,将低正确率的资源放置在公共云上,构建两层云架构模型,完成移动微学习资源的部署,并立足于网络环境和设备状态实时变化的特性,利用灰狼优化算法,预估当前环境状态下,系统处理每字节的能耗,最后,通过分析用户请求与两层云架构服务提供之间的关系,构建绿色、高效的总能耗函数。

Description

一种绿色云服务提供中的最小能耗计算方法
技术领域
本发明涉及移动微学习领域,具体涉及一种绿色云服务提供中的最小能耗计算方法。
背景技术
绿色云服务是指在服务提供的过程中,综合考虑能量和性能因素,在满足用户性能的前提下,寻求能耗代价最小的方案。本文立足于本地云和公共云协同服务提供过程,研究服务提供过程中的最小能耗问题。
移动微学习是随着云计算、移动互联网的不断发展与融合而产生的一种新型学习模式,可被定义为一种通过移动网络以按需、易扩展的方式从云端获得所需的学习资源或(信息)服务,并借助移动终端设备呈现学习内容的学习模式。移动微学习的核心目标是保证学习者不受时间和空间的限制方便快捷地访问/获取云服务平台所提供的各种在线学习资源。移动微学习的提供与完成需要能量、存储和计算资源之间的持续性支持,但移动终端的移动性很大程度上限制了其尺寸和重量,导致它的处理能力、内存容量、网络连接和电池容量等方面的问题日益突出。
现有对移动微学习的研究主要集中在移动微学习学习者的学习风格和偏好的挖掘,移动微学习学习轨迹的挖掘,移动微学习学习资源的组织和管理,移动微学习学习平台的搭建,移动微学习学习框架的研究等,但针对移动微学习服务提供过程中能耗问题的研究屈指可数。所以,如何在当前移动微学习资源多样化,移动终端用户需求呈动态性、个性化、爆炸式增长趋势的背景下,立足移动终端的固有缺陷(资源局限),向合法用户提供低耗、连续的服务,对于促进移动微学习的推广和发展显得尤为重要。
发明内容
为了克服移动终端的资源瓶颈问题,本发明提供了一种绿色云服务提供中的最小能耗计算方法,保证移动微学习服务提供过程中的最小能耗。
所述的一种绿色云服务提供中的最小能耗计算方法,其技术方案是:包括以下步骤:
A.构建关键词词库L的过程:
A101.收集移动微学习中的历史资源,组成样本集合;
A102.将A101步骤中的样本集合分为训练集和测试集,其中训练集为
Figure GDA0002492211760000021
测试集为
Figure GDA0002492211760000022
在U和V中,u1,u2,...,uφ和v1,v2,...,vφ为字节数较多的大样本类,
Figure GDA0002492211760000023
Figure GDA0002492211760000024
为字节数较少的小样本类;
A103.利用类别均化方法对A102步骤中的训练集U中的小样本类进行重组,形成与大样本字节数量相对均匀的新的训练集U′={u1,u2,...,uφ,u'φ+1,u'φ+2},其中u'φ+1={uφ+1,uφ+2},
Figure GDA0002492211760000025
A104.利用ICTCLAS2013分词系统对A103步骤获得的训练集U′进行分词处理,得到训练集分词结果;
A105.利用现有技术中的停用词表,对A104步骤中的训练集分词结果进行去噪处理,得到训练集低噪分词结果;
A106.将步骤A105中得到的训练集低噪分词结果与ICTCLAS2013分词系统中的各个类别进行对比,统计训练集低噪分词结果中的每个词在ICTCLAS2013分词系统各个类别中出现的频率,得到训练集频率统计;A107.统计A106步骤中的训练集频率出现频次最高的
Figure GDA0002492211760000031
个词称为训练集关键词;
A108.重复A103步骤~A107步骤,直至训练集U′的样本全部处理完成,得到训练集U′的样本的全部关键词,得到关键词词库L;
B.词频分类过程:
B101.利用ICTCLAS2013分词系统对A102步骤的测试集V进行分词处理,得到测试集分词结果;
B102.利用现有技术中的停用词表,对B101步骤中的分词结果进行去噪处理,得到测试集低噪分词结果;
B103.将测试集低噪分词结果与ICTCLAS2013分词系统中的各个类别进行对比,统计测试集低噪分词结果中的每个词在ICTCLAS2013分词系统各个类别中出现的频率,得到测试集频率统计;
B104.将B103步骤中的测试集频率统计,将出现频次最高的
Figure GDA0002492211760000032
个词称为测试集关键词;
B105.将B104步骤得到的测试集关键词与A108步骤得到的关键词词库L进行匹对,对于匹对成功的关键词,将该测试集关键词在对应的ICTCLAS2013分词系统的类别中出现的频率加1,得到匹对后的频率统计;
B106.采用动态TF-IDF方法,根据公式
Figure GDA0002492211760000041
得到B105步骤中的匹对后的频率统计中的各个关键词分别相对于全部关键词的权重d-tf-idfi:v;其中,wi是关键词;vj是ICTCLAS2013分词系统的类别中的某一个文件;ni,j是关键词wi在文件vj中出现的次数,∑knk,j是文件vj中所有关键词出现的次数之和,|V|是语料库中文件总数,|{j:wi∈vj}|是包含关键词wi的文件数目,ε和θ是用于缓和样本大小对分类正确率的影响所引进的缓和系数;
B107.令ε=θ,在[0,10]区间内调节ε和θ,并以0.2的步长对分类正确率进行测试;
B108.重复执行B107步骤,直到ε>10且θ>10成立;
B109.重复B101~B108步骤,直至测试集V中样本处理完成;
B1010.根据公式
Figure GDA0002492211760000042
得到测试集V相对于ICTCLAS2013分词系统中的各个类别的分类正确率Wj;其中,
Figure GDA0002492211760000045
是ICTCLAS2013分词系统中的某个类别中关键词的个数;
B1011.根据公式
Figure GDA0002492211760000043
得到测试集V中所有样本的平均分类正确率,并利用B107步骤得到分类正确率最高时ε和θ的值以及最高分类正确率
Figure GDA0002492211760000044
C.对移动用户进行移动微学习而发送的新的用户请求,采用以下处理步骤:
C101.将云平台划分为本地云平台和公共云平台;
C102.针对任意的用户请求,利用ICTCLAS2013提取关键词;
C103.将C102步骤中得到的关键词与A步骤得到的关键词词库L进行匹配,得到匹配正确率
Figure GDA0002492211760000051
C104.若
Figure GDA0002492211760000052
则将该资源部署在本地云平台上,反之,则将该资源部署在公共云平台上;
D.对于新的用户请求,构建最小能耗函数:
D1.利用灰狼寻优算法,得到最优能耗值:
D101.设定云平台随机产生Q个单字节的请求,且云平台将该请求按照灰狼的层次结构分为α、β、δ和ω,并设置最大迭代次数T;随机初始化t时,云平台提供服务的能耗为Et,用户能够忍受服务的最大能耗为Emax,云平台完成请求的最优能耗Eq
如果当前执行次数t<T,继续灰狼寻优过程;否则,结束本次优化过程,开始下一次迭代;以Et>Emax作为本次迭代结束的条件,如果成立,结束本次迭代过程,开始下一次迭代;
D102根据公式:
Dt=|C*Et-Eq|;A=2*a*r1-a;C=2*r2和Et=Eq-A*Dt得到下一个时刻t云平台完成请求所需要的能耗,直到t=T;其中,其中a是从2到0的线性下降过程,r1是0到1之间的随机数,r2为0到1的随机数;其中,A为灰狼算法中的用于随机发散或收缩的第一指引系数;C为灰狼算法中的用于随机发散或收缩的第二指引系数;
D103.根据公式
Figure GDA0002492211760000061
计算D102步骤中得到的所有能耗Et的平均值,Pt是提供本次请求服务的理想最小能耗值Eq的接近值;
D2.构建总能耗函数:
D201.利用公式
Figure GDA0002492211760000062
得到B步骤的能量消耗Rloc
其中,Sdoc表示A101步骤中的用户历史资源总的字节数;Sk表示对Sdoc进行C102步骤所得到的关键词的总字节数;Stask表示当前系统待处理的字节数;Tloc表示完成A101步骤中的历史资源的分类所花费的时间;N表示系统中的任务分配给了N个处理机进行处理;
D202.如果该用户请求能够在本地云平台找到,则提供服务的过程中消耗的时间为:
Figure GDA0002492211760000063
其中,Scdoc表示在当前用户请求的字节数;Sck表示对Scdoc通过C102步骤所得到的关键词的总字节数;M表示系统中的任务分配给了M个处理机进行处理;
D203.则该用户请求在本地云平台找到所需要的总能耗为Eideal=q*Pt l*Tideal;q为用户请求的数量;
D204:如果该用户请求需要上传到公共云平台查找,则该用户请求消耗的时间为:
Figure GDA0002492211760000064
其中,Tth是云平台为了不影响用户满意度设定的用户请求在本地云平台的最大执行时间;如果当前用户在本地云平台的执行时间为Tnow,如果Tth>Tnow成立,那么该请求仍然在本地云平台进行,反之,上传到公共云平台,其中T是用户请求在本地执行的时间;Smig是迁移到公共云平台的字节大小,Tmig表示迁移所花费的时间,M′表示系统分配的处理机数量,Rclo表示公共云平台的执行速率;
D205.设置用于提高能耗计算准确率的实际运行中影响迁移性能的因素,根据公式
Figure GDA0002492211760000071
得到迁移所花费的时间Tmig,其中,Vmem表示迁移期间虚拟机内存的大小,Rmig表示迁移过程中的迁移速率;其中,
Figure GDA0002492211760000072
D表示迁移过程中内存的脏化率;
D206.根据D204~D205步骤得出在该用户请求需要上传到公共云平台时所需要的能耗为:En-ideal=q*Pt c*Tn-ideal
D3:根据C步骤,本地云平台存放分类精度高于
Figure GDA0002492211760000073
的资源,共享云平台上存放的是分类精度低于
Figure GDA0002492211760000074
的资源;通过D1步骤的优化,得到该次移动微学习过程中找到该用户请求所需的最小能耗为:
Figure GDA0002492211760000075
优选的,所述B106步骤中的ε=θ且ε=2.6。
优选的,所述的A105步骤和B102步骤中的现有技术中的停用词表为哈尔滨工业大学停用词表。
本发明的有益效果是:本发明采用动态TF-IDF进行文本分类,利用本地云平台低时延、低能耗和公共云平台弹性、可伸缩性的优点,将高正确率的资源放置在本地云,将低正确率的资源放置在公共云上,构建两层云架构模型,完成移动微学习资源的部署,并立足于网络环境和设备状态实时变化的特性,利用灰狼优化算法,预估当前环境状态下,系统处理每字节的能耗,最后,通过分析用户请求与两层云架构服务提供之间的关系,构建总能耗函数,并在灰狼优化算法预估的能耗代价下找到绿色、高效的服务。本发明结构清晰,算法简洁,能耗计算准确率高,具有广泛的应用价值。
附图说明
图1为本发明服务框架图。
图2为词频分类模块框架图。
图3为两层云架构资源部署模型示意图。
图4为本发明流程图。
图5为平均分类正确率随ε的变化过程曲线图。
图6为大样本类正确率的变化过程。
图7为小样本类正确率的变化过程。
图8为不同算法下的平均分类正确率对比图。
图9为不同算法下的单字节能耗预估图。
图10为迁移速率对总能耗的影响图。
图11为系统中待处理的字节数对总能耗的影响图。
图12为不同算法下的总能耗图。
具体实施方式
如图1~4所示,一种绿色云服务提供中的最小能耗计算方法,其技术方案是:包括以下步骤:
A.构建关键词词库L的过程:
A101.收集移动微学习中的历史资源,组成样本集合;
A102.将A101步骤中的样本集合分为训练集和测试集,其中训练集为
Figure GDA0002492211760000091
测试集为
Figure GDA0002492211760000092
在U和V中,u1,u2,...,uφ和v1,v2,...,vφ为字节数较多的大样本类,
Figure GDA0002492211760000093
Figure GDA0002492211760000094
为字节数较少的小样本类;
A103.利用类别均化方法对A102步骤中的训练集U中的小样本类进行重组,形成与大样本字节数量相对均匀的新的训练集U′={u1,u2,...,uφ,u'φ+1,u'φ+2},其中u'φ+1={uφ+1,uφ+2},
Figure GDA0002492211760000095
需要明确的是:类别均化方法是将多个小样本相加至与大样本字节数相差不大后再进行后续计算的方法,该方法为现有技术,其公开文献是:张启蕊,张凌,董守斌等,训练集类别分布对文本分类的影响[J].清华大学学报自然科学版,2005,45(s1):76-79。
A104.利用ICTCLAS2013分词系统对A103步骤获得的训练集U′进行分词处理,得到训练集分词结果;
A105.利用现有技术中的停用词表,对A104步骤中的训练集分词结果进行去噪处理,得到训练集低噪分词结果;
A106.将步骤A105中得到的训练集低噪分词结果与ICTCLAS2013分词系统中的各个类别进行对比,统计训练集低噪分词结果中的每个词在ICTCLAS2013分词系统各个类别中出现的频率,得到训练集频率统计;
A107.统计A106步骤中的训练集频率出现频次最高的
Figure GDA0002492211760000096
个词称为训练集关键词;
A108.重复A103步骤~A107步骤,直至训练集U′的样本全部处理完成,得到训练集U′的样本的全部关键词,得到关键词词库L;
B.词频分类过程:
B101.利用ICTCLAS2013分词系统对A102步骤的测试集V进行分词处理,得到测试集分词结果;
B102.利用现有技术中的停用词表,对B101步骤中的分词结果进行去噪处理,得到测试集低噪分词结果;
B103.将测试集低噪分词结果与ICTCLAS2013分词系统中的各个类别进行对比,统计测试集低噪分词结果中的每个词在ICTCLAS2013分词系统各个类别中出现的频率,得到测试集频率统计;
B104.将B103步骤中的测试集频率统计,将出现频次最高的
Figure GDA0002492211760000102
个词称为测试集关键词;
B105.将B104步骤得到的测试集关键词与A108步骤得到的关键词词库L进行匹对,对于匹对成功的关键词,将该测试集关键词在对应的ICTCLAS2013分词系统的类别中出现的频率加1,得到匹对后的频率统计;
B106.采用动态TF-IDF方法,根据公式
Figure GDA0002492211760000101
得到B105步骤中的匹对后的频率统计中的各个关键词分别相对于全部关键词的权重d-tf-idfi:v;其中,wi是关键词;vj是ICTCLAS2013分词系统的类别中的某一个文件;ni,j是关键词wi在文件vj中出现的次数,∑knk,j是文件vj中所有关键词出现的次数之和,|V|是语料库中文件总数,|{j:wi∈vj}|是包含关键词wi的文件数目,ε和
Figure GDA0002492211760000103
是用于缓和样本大小对分类正确率的影响所引进的缓和系数;
B107.令ε=
Figure GDA0002492211760000117
在[0,10]区间内调节ε和
Figure GDA0002492211760000118
并以0.2的步长对分类正确率进行测试;
B108.重复执行B107步骤,直到ε>10且
Figure GDA0002492211760000119
成立;
B109.重复B101~B108步骤,直至测试集V中样本处理完成;
B1010.根据公式
Figure GDA0002492211760000111
得到测试集V相对于ICTCLAS2013分词系统中的各个类别的分类正确率Wj;其中,
Figure GDA0002492211760000112
是ICTCLAS2013分词系统中的某个类别中关键词的个数;
B1011.根据公式
Figure GDA0002492211760000113
得到测试集V中所有样本的平均分类正确率,并利用B107步骤得到分类正确率最高时ε和
Figure GDA00024922117600001110
的值以及最高分类正确率
Figure GDA0002492211760000114
C.对移动用户进行移动微学习而发送的新的用户请求,采用以下处理步骤:
C101.将云平台划分为本地云平台和公共云平台;
C102.针对任意的用户请求,利用ICTCLAS2013提取关键词;
C103.将C102步骤中得到的关键词与A步骤得到的关键词词库L进行匹配,得到匹配正确率
Figure GDA0002492211760000115
C104.若
Figure GDA0002492211760000116
则将该资源部署在本地云平台上,反之,则将该资源部署在公共云平台上;
D.对于新的用户请求,构建最小能耗函数:
D1.利用灰狼寻优算法,得到最优能耗值:
D101.设定云平台随机产生Q个单字节的请求,且云平台将该请求按照灰狼的层次结构分为α、β、δ和ω,并设置最大迭代次数T;随机初始化t时,云平台提供服务的能耗为Et,用户能够忍受服务的最大能耗为Emax,云平台完成请求的最优能耗Eq
如果当前执行次数t<T,继续灰狼寻优过程;否则,结束本次优化过程,开始下一次迭代;以Et>Emax作为本次迭代结束的条件,如果成立,结束本次迭代过程,开始下一次迭代;
D102根据公式:
Dt=|C*Et-Eq|;A=2*a*r1-a;C=2*r2和Et=Eq-A*Dt得到下一个时刻t云平台完成请求所需要的能耗,直到t=T;其中,其中a是从2到0的线性下降过程,r1是0到1之间的随机数,r2为0到1的随机数;其中,A为灰狼算法中的用于随机发散或收缩的第一指引系数;C为灰狼算法中的用于随机发散或收缩的第二指引系数;
需要明确的是:如果A、C的值随机发散则表示灰狼算法中的灰狼四处游走找寻猎物;如果A、C的值随机收缩则表示灰狼算法中的灰狼找到猎物并开始攻击猎物;
D103.根据公式
Figure GDA0002492211760000121
计算D102步骤中得到的所有能耗Et的平均值,Pt是提供本次请求服务的理想最小能耗值Eq的接近值;
D2.构建总能耗函数:
D201.利用公式
Figure GDA0002492211760000122
得到B步骤的能量消耗Rloc
其中,Sdoc表示A101步骤中的用户历史资源总的字节数;Sk表示对Sdoc进行C102步骤所得到的关键词的总字节数;Stask表示当前系统待处理的字节数;Tloc表示完成A101步骤中的历史资源的分类所花费的时间;N表示系统中的任务分配给了N个处理机进行处理;
D202.如果该用户请求能够在本地云平台找到,则提供服务的过程中消耗的时间为:
Figure GDA0002492211760000131
其中,Scdoc表示在当前用户请求的字节数;Sck表示对Scdoc通过C102步骤所得到的关键词的总字节数;M表示系统中的任务分配给了M个处理机进行处理;
D203.则该用户请求在本地云平台找到所需要的总能耗为Eideal=q*Pt l*Tideal;q为用户请求的数量;
D204:如果该用户请求需要上传到公共云平台查找,则该用户请求消耗的时间为:
Figure GDA0002492211760000132
其中,Tth是云平台为了不影响用户满意度设定的用户请求在本地云平台的最大执行时间;如果当前用户在本地云平台的执行时间为Tnow,如果Tth>Tnow成立,那么该请求仍然在本地云平台进行,反之,上传到公共云平台,其中T是用户请求在本地执行的时间;Smig是迁移到公共云平台的字节大小,Tmig表示迁移所花费的时间,M′表示系统分配的处理机数量,Rclo表示公共云平台的执行速率;
D205.设置用于提高能耗计算准确率的实际运行中影响迁移性能的因素,根据公式
Figure GDA0002492211760000141
得到本地云平台的执行时间Tnow,其中,Vmem表示迁移期间虚拟机内存的大小,Rmig表示迁移过程中的迁移速率;其中,
Figure GDA0002492211760000142
D表示迁移过程中内存的脏化率;D206.根据D204~D205步骤得出在该用户请求需要上传到公共云平台时所需要的能耗为:En-ideal=q*Pt c*Tn-ideal
D3:根据C步骤,本地云平台存放分类精度高于
Figure GDA0002492211760000143
的资源,共享云平台上存放的是分类精度低于
Figure GDA0002492211760000144
的资源;通过D1步骤的优化,得到该次移动微学习过程中找到该用户请求所需的最小能耗为:
Figure GDA0002492211760000145
优选的,所述B106步骤中的
Figure GDA0002492211760000146
且ε=2.6。
优选的,所述的A105步骤和B102步骤中的现有技术中的停用词表为哈尔滨工业大学停用词表。
本发明的验证过程:
1.分类正确率的验证:
如表I和表II我们可以看出,在小样本类中,几乎所有关键词出现的概率都为0,同时,针对某一个关键词,它并不能很好的代表各类的技术方案。例如“宇航”,它在大样本类中C11,C19,C31中都曾出现。“含”字在C4,C23,C29,C35类中都有出现,但是“含”本身并没有很好的代表性,不能作为各类的关键词。引发这种情况出现的主要原因是,样本中包含的信息量较少,导致我们提取的关键词不准确。
表I:利用TF-IDF方法获得的各个单词在大样本类中的权重(部分)
word C3 C7 C11 C19 C31 C32 C34 C38 C39
宇航 0 0 0.986 0 0 0.014 0.014 0 0
JOURNAL 0 0 0.374 0.479 0.086 0.060 0.060 0 0
OF 0 0 0.221 0.404 0.301 0.066 0.066 0 0.001
1999年 0.002 0 0.158 0.233 0.266 0.127 0.127 0 0.012
0.061 0 0.069 0.094 0.514 0.090 0.090 0 0.020
0.017 0 0.193 0.006 0.751 0 0 0 0
0 0 0.486 0 0.429 0.057 0.057 0 0
表II:TF-IDF方法获得的各个单词在小样本类中的权重(部分)
word C4 C5 C6 C15 C16 C17 C23 C29 C35 C36 C37
宇航 0 0 0 0 0 0 0 0 0 0 0
JOURNAL 0 0 0 0 0 0 0 0 0 0 0
OF 0.005 0 0 0 0 0 0 0 0 0 0
1999年 0.094 0 0 0 0 0 0 0 0.108 0 0
0.041 0 0 0 0 0 0.004 0.004 0.078 0 0
0.011 0 0 0 0 0 0 0 0 0 0.022
0 0 0 0 0 0 0 0 0 0 0
需要明确的是:表I、表II中的C4、C7等均为ICTCLAS2013分词系统的类别;word所属的一列中的为关键词;C4~C37所属列代表某关键词在对应类别中的权重。
可见利用TF-IDF的方法存在一定的弊端,本发明采用B106步骤的动态TF-IDF方法后简称为D-TF-IDF法进行分类,结果如下:
表III:D-TF-IDF方法获得的大样本类的分类正确率(部分)
Figure GDA0002492211760000151
Figure GDA0002492211760000161
表IV:D-TF-IDF方法获得的小样本类的分类正确率(部分)
ε C4 C5 C6 C15 C16 C17 C23 C29 C35 C36 C37
0 0.705 0.8 0 0.545 0.536 0.370 0.676 0.831 0.811 0.921 0
0.6 0.738 0.822 0 0.515 0.536 0.370 0.676 0.831 0.830 0.921 0
1 0.549 0.378 0.962 0.424 0.357 0.333 0.588 0.814 0.811 0.934 0
1.6 0.148 0.133 0.979 0.303 0.25 0.111 0.353 0.644 0.604 0.789 0.009
2 0.098 0.044 0.887 0.212 0.179 0.111 0.235 0.525 0.472 0.566 0.515
2.2 0.066 0.022 0.829 0.212 0.143 0.037 0.235 0.508 0.396 0.395 0.729
2.4 0.049 0.022 0.763 0.242 0.107 0.037 0.147 0.441 0.358 0.276 0.819
2.6 0 0.022 0.705 0.212 0.036 0.037 0.118 0.407 0.321 0.184 0.845
2.8 0 0 0.645 0.182 0 0 0.059 0.373 0.302 0.158 0.833
需要明确的是:表III、表IV中的C4、C7等均为ICTCLAS2013分词系统的类别;word所属的一列中的为关键词;C4~C37所属列代表某关键词在对应类别中的权重。
从表III和表IV可以看出,因为
Figure GDA0002492211760000162
所以本发明仅对ε进行说明。随着ε的增大,大样本类C3,C7,C19,C38都处于完全增长的趋势,C11,C32处于先增加后下降的趋势,C34和C39则处于下降的趋势。但是整体而言,各类样本的正确率增长的趋势远大于下降的趋势。例如,C3的分类正确率达到了94.6%,C7的分类正确率达到了79.6%。对于小样本类,除了C6和C37类,其它各类的分类正确率都处于下降的趋势。例如,C5的分类正确率下降了80%,C17的分类正确率下降了37%。这证明了本发明提出的D-TF-IDF方法在一定程度上提高的大样本的分类正确率,损害了小样本类的分类正确率,所以,需要找到对大样本和小样本都公平的分类正确率。
如图5,当ε从0到2.6时,平均分类正确率的增长趋势是陡峭的,在ε从2.6到10的变化范围内,平均分类正确率的趋势是缓慢下降的,所以,当ε=2.6时,可以得到对大样本类和小样本类都公平的分类正确率。
如图6~7,当ε=2.6时,大样本和小样本分类正确率的变化过程曲线可以明确得出:当ε=2.6时,本发明提出的D-TF-IDF方法能够明显提高各类样本的分类正确率。
如图8,本发明所述的D-TF-IDF算法与传统的TF-IDF方法、Naive Bayes方法和Rocchio方法进行对比,本发明提出的D-TF-IDF方法的平均分类正确率明显优于其它算法。其中,D-TF-IDF的平均分类正确率为83.91,相对于TF-IDF、Nave Bayes和Rocchio,它分别提高了7.64%、2.92%和3.65%。
2.能耗的验证:
将本发明所述的灰狼优化算法简称GWO(Grey Wolf Optimizer GWO)和大多数实验采用的粒子群算法简称PSO(Particle Swarm Optimization PSO)进行对比,当发送一个字节探测信号,灰狼优化算法和粒子群算法预估的能耗情况。
如图9,可以明确得知:GWO预估的最大能耗稍逊于PSO算法,它们之间仅仅相差0.71,但是针对平均能耗和最小能耗,可以明显看出GWO算法优于PSO算法。这证明了GWO算法具有更强的寻优能力,它能找到当前环境条件下,处理每个字节的最优能耗值。
在灰狼算法预估的能耗基础上,进行移动微学习服务提供过程中总能耗的分析。
如图10,看到在最大能耗方面,GWO算法计算所得的能耗比PSO算法所得的能耗高,但是该差距是非常小的。同时,在平均能耗和最小能耗方面,虽然GWO算法具有优势,但该优势并不是非常明显。这证明了对于100字节的任务量,迁移速率对能耗的影响并不是特别明显。
如图11,在最大能耗、最小能耗以及平均能耗方面PSO算法所获得的能耗值都大于GWO算法所获得的能耗值,并且我们发现在最大能耗和平均能耗上,两者之间的差距特别大。虽然在最小能耗方面两者之间的差距相对较小,但是我们仍然可以认为系统中待处理的字节数量越多,系统需要消耗的能耗越多。
如图12,为了更好的模拟真实环境的动态多变性,放宽所有的条件限制,例如随机设置Scdoc、Stask和Rmig,使本发明设定的能耗模型中所有的可变参数都随机变化。从图12的结果中我们可以看到虽然在最大能耗方面GWO算法不如PSO算法,但是最小能耗和平均能耗方面,GWO算法都明显优于PSO算法,并且差距是非常明显的,这证明了本发明采用的GWO算法在总能耗方面优于PSO算法。
以上所述仅为发明的较佳实施例而己,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种绿色云服务提供中的最小能耗计算方法,其特征是:包括以下步骤:
A.构建关键词词库L的过程:
A101.收集移动微学习中的历史资源,组成样本集合;
A102.将A101步骤中的样本集合分为训练集和测试集,其中训练集为
Figure FDA0002492211750000011
测试集为
Figure FDA0002492211750000012
在U和V中,u1,u2,...,uφ和v1,v2,...,vφ为字节数较多的大样本类,
Figure FDA0002492211750000013
Figure FDA0002492211750000014
为字节数较少的小样本类;
A103.利用类别均化方法对A102步骤中的训练集U中的小样本类进行重组,形成与大样本字节数量相对均匀的新的训练集U′={u1,u2,...,uφ,u′φ+1,u′φ+2},其中u′φ+1={uφ+1,uφ+2},
Figure FDA0002492211750000015
A104.利用ICTCLAS2013分词系统对A103步骤获得的训练集U′进行分词处理,得到训练集分词结果;
A105.利用现有技术中的停用词表,对A104步骤中的训练集分词结果进行去噪处理,得到训练集低噪分词结果;
A106.将步骤A105中得到的训练集低噪分词结果与ICTCLAS2013分词系统中的各个类别进行对比,统计训练集低噪分词结果中的每个词在ICTCLAS2013分词系统各个类别中出现的频率,得到训练集频率统计;
A107.统计A106步骤中的训练集频率出现频次最高的
Figure FDA0002492211750000016
个词称为训练集关键词;
A108.重复A103步骤~A107步骤,直至训练集U′的样本全部处理完成,得到训练集U′的样本的全部关键词,得到关键词词库L;
B.词频分类过程:
B101.利用ICTCLAS2013分词系统对A102步骤的测试集V进行分词处理,得到测试集分词结果;
B102.利用现有技术中的停用词表,对B101步骤中的分词结果进行去噪处理,得到测试集低噪分词结果;
B103.将测试集低噪分词结果与ICTCLAS2013分词系统中的各个类别进行对比,统计测试集低噪分词结果中的每个词在ICTCLAS2013分词系统各个类别中出现的频率,得到测试集频率统计;
B104.将B103步骤中的测试集频率统计,将出现频次最高的
Figure FDA0002492211750000022
个词称为测试集关键词;
B105.将B104步骤得到的测试集关键词与A108步骤得到的关键词词库L进行匹对,对于匹对成功的关键词,将该测试集关键词在对应的ICTCLAS2013分词系统的类别中出现的频率加1,得到匹对后的频率统计;
B106.采用动态TF-IDF方法,根据公式
Figure FDA0002492211750000021
得到B105步骤中的匹对后的频率统计中的各个关键词分别相对于全部关键词的权重d-tf-idfi,v;其中,wi是关键词;vj是ICTCLAS2013分词系统的类别中的某一个文件;ni,j是关键词wi在文件vj中出现的次数,∑knk,j是文件vj中所有关键词出现的次数之和,|V|是语料库中文件总数,|{j:wi∈vj}|是包含关键词wi的文件数目,ε和θ是用于缓和样本大小对分类正确率的影响所引进的缓和系数;
B107.令ε=θ,在[0,10]区间内调节ε和θ,并以0.2的步长对分类正确率进行测试;
B108.重复执行B107步骤,直到ε>10且θ>10成立;
B109.重复B101~B108步骤,直至测试集V中样本处理完成;
B1010.根据公式
Figure FDA0002492211750000031
得到测试集V相对于ICTCLAS2013分词系统中的各个类别的分类正确率Wj;其中,
Figure FDA0002492211750000036
是ICTCLAS2013分词系统中的某个类别中关键词的个数;
B1011.根据公式
Figure FDA0002492211750000032
得到测试集V中所有样本的平均分类正确率,并利用B107步骤得到分类正确率最高时ε和θ的值以及最高分类正确率
Figure FDA0002492211750000033
C.对移动用户进行移动微学习而发送的新的用户请求,采用以下处理步骤:
C101.将云平台划分为本地云平台和公共云平台;
C102.针对任意的用户请求,利用ICTCLAS2013提取关键词;
C103.将C102步骤中得到的关键词与A步骤得到的关键词词库L进行匹配,得到匹配正确率
Figure FDA0002492211750000034
C104.若
Figure FDA0002492211750000035
则将该资源部署在本地云平台上,反之,则将该资源部署在公共云平台上;
D.对于新的用户请求,构建最小能耗函数:
D1.利用灰狼寻优算法,得到最优能耗值:
D101.设定云平台随机产生Q个单字节的请求,且云平台将该请求按照灰狼的层次结构分为α、β、δ和ω,并设置最大迭代次数T;随机初始化t时,云平台提供服务的能耗为Et,用户能够忍受服务的最大能耗为Emax,云平台完成请求的最优能耗Eq
如果当前执行次数t<T,继续灰狼寻优过程;否则,结束本次优化过程,开始下一次迭代;对于每一次迭代,以Et>Emax作为本次迭代结束的条件,如果成立,结束本次迭代过程,开始下一次迭代;
D102根据公式:
Dt=|C*Et-Eq|;A=2*a*r1-a;C=2*r2和Et=Eq-A*Dt得到下一个时刻t云平台完成请求所需要的能耗,直到t=T;其中,其中a是从2到0的线性下降过程,r1是0到1之间的随机数,r2为0到1的随机数;其中,A为灰狼算法中的用于随机发散或收缩的第一指引系数;C为灰狼算法中的用于随机发散或收缩的第二指引系数;
D103.根据公式
Figure FDA0002492211750000041
计算D102步骤中得到的所有能耗Et的平均值,Pt是提供本次请求服务的理想最小能耗值Eq的接近值;
D2.构建总能耗函数:
D201.利用公式
Figure FDA0002492211750000042
得到B步骤的能量消耗Rloc;其中,Sdoc表示A101步骤中的用户历史资源总的字节数;Sk表示对Sdoc进行C102步骤所得到的关键词的总字节数;Stask表示当前系统待处理的字节数;Tloc表示完成A101步骤中的历史资源的分类所花费的时间;N表示系统中的任务分配给了N个处理机进行处理;
D202.如果该用户请求能够在本地云平台找到,则提供服务的过程中消耗的时间为:
Figure FDA0002492211750000051
其中,Scdoc表示在当前用户请求的字节数;Sck表示对Scdoc通过C102步骤所得到的关键词的总字节数;M表示系统中的任务分配给了M个处理机进行处理;
D203.则该用户请求在本地云平台找到所需要的总能耗为Eideal=q*Pt l*Tideal;q为用户请求的数量;
D204:如果该用户请求需要上传到公共云平台查找,则该用户请求消耗的时间为:
Figure FDA0002492211750000052
其中,Tth是云平台为了不影响用户满意度设定的用户请求在本地云平台的最大执行时间;如果当前用户在本地云平台的执行时间为Tnow,如果Tth>Tnow成立,那么该请求仍然在本地云平台进行,反之,上传到公共云平台,其中T是用户请求在本地执行的时间;Smig是迁移到公共云平台的字节大小,Tmig表示迁移所花费的时间,M′表示系统分配的处理机数量,Rclo表示公共云平台的执行速率;
D205.设置用于提高能耗计算准确率的实际运行中影响迁移性能的因素,根据公式
Figure FDA0002492211750000053
得到迁移所花费的时间Tmig,其中,Vmem表示迁移期间虚拟机内存的大小,Rmig表示迁移过程中的迁移速率;其中,
Figure FDA0002492211750000054
D表示迁移过程中内存的脏化率;
D206.根据D204~D205步骤得出在该用户请求需要上传到公共云平台时所需要的能耗为:En-ideal=q*Pt c*Tn-ideal
D3:根据C步骤,本地云平台存放分类精度高于
Figure FDA0002492211750000061
的资源,共享云平台上存放的是分类精度低于
Figure FDA0002492211750000062
的资源;通过D1步骤的优化,得到该次移动微学习过程中找到该用户请求所需的最优能耗值为:
Figure FDA0002492211750000063
2.根据权利要求1所述的一种绿色云服务提供中的最小能耗计算方法,其特征是:所述B106步骤中的ε=θ且ε=2.6。
3.根据权利要求1所述的一种绿色云服务提供中的最小能耗计算方法,其特征是:所述的A105步骤和B102步骤中的现有技术中的停用词表为哈尔滨工业大学停用词表。
CN201710483284.8A 2017-06-22 2017-06-22 一种绿色云服务提供中的最小能耗计算方法 Active CN107315642B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710483284.8A CN107315642B (zh) 2017-06-22 2017-06-22 一种绿色云服务提供中的最小能耗计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710483284.8A CN107315642B (zh) 2017-06-22 2017-06-22 一种绿色云服务提供中的最小能耗计算方法

Publications (2)

Publication Number Publication Date
CN107315642A CN107315642A (zh) 2017-11-03
CN107315642B true CN107315642B (zh) 2020-06-26

Family

ID=60179479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710483284.8A Active CN107315642B (zh) 2017-06-22 2017-06-22 一种绿色云服务提供中的最小能耗计算方法

Country Status (1)

Country Link
CN (1) CN107315642B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109324953B (zh) * 2018-10-11 2020-08-04 北京理工大学 一种虚拟机能耗预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104793993A (zh) * 2015-04-24 2015-07-22 江南大学 基于Levy飞行的人工蜂群粒子群算法的云计算任务调度方法
CN105323166A (zh) * 2015-11-17 2016-02-10 东北大学 一种面向云计算的基于网络能效优先的路由方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104793993A (zh) * 2015-04-24 2015-07-22 江南大学 基于Levy飞行的人工蜂群粒子群算法的云计算任务调度方法
CN105323166A (zh) * 2015-11-17 2016-02-10 东北大学 一种面向云计算的基于网络能效优先的路由方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Energy awarevirtual machine placement scheduling in cloud computing based on ant colony optimization approach";X. F. Liu,;《2014 Annual Conference on Genetic and Evolutionary Computation》;20141231;第41-48页 *
"Enhanced first-fit decreasing algorithm for energy-aware job cheduling in cloud";A. Alahmadi;《2014 InternationalConference on Computational Science and Computational Inteligence》;20141231;第69-74页 *
"云计算环境下面向能耗降低的虚拟机管理模型";王柏翔 等;《电脑知识与技术》;20170228;第13卷(第1期);第221-223页 *
"面向绿色云计算数据中心的动态数据聚集算法";徐小龙;《系统工程与电子技术》;20120930;第34卷(第9期);第1923-1929页 *

Also Published As

Publication number Publication date
CN107315642A (zh) 2017-11-03

Similar Documents

Publication Publication Date Title
CN107220295B (zh) 一种人民矛盾调解案例搜索和调解策略推荐方法
CN107862027B (zh) 检索意图识别方法、装置、电子设备及可读存储介质
CN109858028B (zh) 一种基于概率模型的短文本相似度计算方法
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN108763348B (zh) 一种扩展短文本词特征向量的分类改进方法
WO2013151546A1 (en) Contextually propagating semantic knowledge over large datasets
CN103970866B (zh) 基于微博文本的微博用户兴趣发现方法及系统
Abbasi-Moud et al. Detecting tourist's preferences by sentiment analysis in smart cities
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
Zou et al. Collaborative community-specific microblog sentiment analysis via multi-task learning
CN105912563A (zh) 一种基于心理学知识赋予机器人工智能学习的方法
Tian et al. Leveraging auxiliary knowledge for web service clustering
Yajian et al. A short text classification algorithm based on semantic extension
CN107315642B (zh) 一种绿色云服务提供中的最小能耗计算方法
Nguyen et al. Improving topic coherence with latent feature word representations in map estimation for topic modeling
Xiao et al. Web services clustering based on HDP and SOM neural network
CN107122420A (zh) 一种旅游热点事件检测方法及系统
He et al. Construction of Diachronic Ontologies from People's Daily of Fifty Years.
CN108763349B (zh) 基于社交媒体数据的城市土地利用混合度测算方法及系统
US8886651B1 (en) Thematic clustering
Vicente-López et al. Personalization of Parliamentary Document Retrieval Using Different User Profiles.
Bindra SocialLDA: scalable topic modeling in social networks
Yan et al. Improving document clustering for short texts by long documents via a dirichlet multinomial allocation model
CN111178038B (zh) 一种基于潜在语义分析的文档相似度识别方法及装置
Van Le et al. A content-based approach for user profile modeling and matching on social networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant