CN107315642A

CN107315642A - 一种绿色云服务提供中的最小能耗计算方法

Info

Publication number: CN107315642A
Application number: CN201710483284.8A
Authority: CN
Inventors: 郑瑞娟; 张明川; 吴庆涛; 朱军龙; 张茉莉; 白秀玲; 魏汪洋; 杨丽
Original assignee: Henan University of Science and Technology
Current assignee: Henan University of Science and Technology
Priority date: 2017-06-22
Filing date: 2017-06-22
Publication date: 2017-11-03
Anticipated expiration: 2037-06-22
Also published as: CN107315642B

Abstract

为了克服移动终端的资源瓶颈问题，本发明提供了一种绿色云服务提供中的最小能耗计算方法，包括以下步骤：A.构建关键词词库L的过程；B.词频分类过程；C.对移动用户进行移动微学习而发送的新的用户请求进行资源部署；D.对于新的用户请求，构建最小能耗函数。本发明采用动态TF‑IDF进行文本分类，将高正确率的资源放置在本地云，将低正确率的资源放置在公共云上，构建两层云架构模型，完成移动微学习资源的部署，并立足于网络环境和设备状态实时变化的特性，利用灰狼优化算法，预估当前环境状态下，系统处理每字节的能耗，最后，通过分析用户请求与两层云架构服务提供之间的关系，构建绿色、高效的总能耗函数。

Description

一种绿色云服务提供中的最小能耗计算方法

技术领域

本发明涉及移动微学习领域，具体涉及一种绿色云服务提供中的最小能耗计算方法。

背景技术

绿色云服务是指在服务提供的过程中，综合考虑能量和性能因素，在满足用户性能的前提下，寻求能耗代价最小的方案。本文立足于本地云和公共云协同服务提供过程，研究服务提供过程中的最小能耗问题。

移动微学习是随着云计算、移动互联网的不断发展与融合而产生的一种新型学习模式，可被定义为一种通过移动网络以按需、易扩展的方式从云端获得所需的学习资源或(信息)服务，并借助移动终端设备呈现学习内容的学习模式。移动微学习的核心目标是保证学习者不受时间和空间的限制方便快捷地访问/获取云服务平台所提供的各种在线学习资源。移动微学习的提供与完成需要能量、存储和计算资源之间的持续性支持，但移动终端的移动性很大程度上限制了其尺寸和重量，导致它的处理能力、内存容量、网络连接和电池容量等方面的问题日益突出。

现有对移动微学习的研究主要集中在移动微学习学习者的学习风格和偏好的挖掘，移动微学习学习轨迹的挖掘，移动微学习学习资源的组织和管理，移动微学习学习平台的搭建，移动微学习学习框架的研究等，但针对移动微学习服务提供过程中能耗问题的研究屈指可数。所以，如何在当前移动微学习资源多样化，移动终端用户需求呈动态性、个性化、爆炸式增长趋势的背景下，立足移动终端的固有缺陷(资源局限)，向合法用户提供低耗、连续的服务，对于促进移动微学习的推广和发展显得尤为重要。

发明内容

为了克服移动终端的资源瓶颈问题，本发明提供了一种绿色云服务提供中的最小能耗计算方法，保证移动微学习服务提供过程中的最小能耗。

所述的一种绿色云服务提供中的最小能耗计算方法，其技术方案是：包括以下步骤：

A.构建关键词词库L的过程：

A101.收集移动微学习中的历史资源，组成样本集合；

A102.将A101步骤中的样本集合分为训练集和测试集，其中训练集为测试集为在U和V中，u₁，u₂，...，u_φ和v₁，v₂，...，v_φ为字节数较多的大样本类，和为字节数较少的小样本类；

A103.利用类别均化方法对A102步骤中的训练集U中的小样本类进行重组，形成与大样本字节数量相对均匀的新的训练集U′＝{u₁，u₂，...，u_φ，u′_φ+1，u′_φ+2}，其中u′_φ+1＝{u_φ+1，u_φ+2}，

A104.利用ICTCLAS2013分词系统对A103步骤获得的训练集U′进行分词处理，得到训练集分词结果；

A105.利用现有技术中的停用词表，对A104步骤中的训练集分词结果进行去噪处理，得到训练集低噪分词结果；

A106.将步骤A105中得到的训练集低噪分词结果与ICTCLAS2013分词系统中的各个类别进行对比，统计训练集低噪分词结果中的每个词在ICTCLAS2013分词系统各个类别中出现的频率，得到训练集频率统计；

A107.统计A106步骤中的训练集频率出现频次最高的个词称为训练集关键词；

A108.重复A103步骤～A107步骤，直至训练集U′的样本全部处理完成，得到训练集U′的样本的全部关键词，得到关键词词库L；

B.词频分类过程：

B101.利用ICTCLAS2013分词系统对A102步骤的测试集V进行分词处理，得到测试集分词结果；

B102.利用现有技术中的停用词表，对B101步骤中的分词结果进行去噪处理，得到测试集低噪分词结果；

B103.将测试集低噪分词结果与ICTCLAS2013分词系统中的各个类别进行对比，统计测试集低噪分词结果中的每个词在ICTCLAS2013分词系统各个类别中出现的频率，得到测试集频率统计；

B104.将B103步骤中的测试集频率统计，将出现频次最高的个词称为测试集关键词；

B105.将B104步骤得到的测试集关键词与A108步骤得到的关键词词库L进行匹对，对于匹对成功的关键词，将该测试集关键词在对应的ICTCLAS2013分词系统的类别中出现的频率加1，得到匹对后的频率统计；

B106.采用动态TF-IDF方法，根据公式得到B105步骤中的匹对后的频率统计中的各个关键词分别相对于全部关键词的权重d-tf-idf_i：v；其中，w_i是关键词；v_j是ICTCLAS2013分词系统的类别中的某一个文件；n_i，j是关键词w_i在文件v_j中出现的次数，∑_kn_k，j是文件v_j中所有关键词出现的次数之和，|V|是语料库中文件总数，|{j：w_i∈v_j}|是包含关键词w_i的文件数目，ε和θ是用于缓和样本大小对分类正确率的影响所引进的缓和系数；

B107.令ε＝θ，在[0，10]区间内调节ε和θ，并以0.2的步长对分类正确率进行测试；

B108.重复执行B107步骤，直到ε＞10且θ＞10成立；

B109.重复B101～B108步骤，直至测试集V中样本处理完成；

B1010.根据公式得到测试集V相对于ICTCLAS2013分词系统中的各个类别的分类正确率W_j；其中，是ICTCLAS2013分词系统中的某个类别中关键词的个数；

B1011.根据公式得到测试集V中所有样本的平均分类正确率，并利用B107步骤得到分类正确率最高时ε和θ的值以及最高分类正确率

C.对移动用户进行移动微学习而发送的新的用户请求，采用以下处理步骤：

C101.将云平台划分为本地云平台和公共云平台；

C102.针对任意的用户请求，利用ICTCLAS2013提取关键词；

C103.将C102步骤中得到的关键词与A步骤得到的关键词词库L进行匹配，得到匹配正确率

C104.若则将该资源部署在本地云平台上，反之，则将该资源部署在公共云平台上；

D.对于新的用户请求，构建最小能耗函数：

D1.利用灰狼寻优算法，得到最优能耗值：

D101.设定云平台随机产生Q个单字节的请求，且云平台将该请求按照灰狼的层次结构分为α、β、δ和ω，并设置最大迭代次数T；随机初始化t时，云平台提供服务的能耗为E_t，用户能够忍受服务的最大能耗为E_max，云平台完成请求的最优能耗E_q；

如果当前执行次数t＜T，继续灰狼寻优过程；否则，结束本次优化过程，开始下一次迭代；以E_t＞Emax作为本次迭代结束的条件，如果成立，结束本次迭代过程，开始下一次迭代；

D102根据公式：

D_t＝|C*E_t-E_q|；A＝2*a*r₁-a；C＝2*r₂和E_t＝E_q-A*D_t得到下一个时刻t云平台完成请求所需要的能耗，直到t＝T；其中，其中a是从2到0的线性下降过程，r₁是0到1之间的随机数，r₂为0到1的随机数；其中，A为灰狼算法中的用于随机发散或收缩的第一指引系数；C为灰狼算法中的用于随机发散或收缩的第二指引系数；

D103.根据公式计算D102步骤中得到的所有能耗E_t的平均值，P_t是提供本次请求服务的理想最小能耗值E_q的接近值；

D2.构建总能耗函数：

D201.利用公式得到B步骤的能量消耗R_loc；其中，S_doc表示A101步骤中的用户历史资源总的字节数；S_k表示对S_doc进行C102步骤所得到的关键词的总字节数；S_task表示当前系统待处理的字节数；T_loc表示完成A101步骤中的历史资源的分类所花费的时间；N表示系统中的任务分配给了N个处理机进行处理；

D202.如果该用户请求能够在本地云平台找到，则提供服务的过程中消耗的时间为：其中，S_cdoc表示在当前用户请求的字节数；S_ck表示对S_cdoc通过C102步骤所得到的关键词的总字节数；M表示系统中的任务分配给了M个处理机进行处理；

D203.则该用户请求在本地云平台找到所需要的总能耗为E_ideal＝q*P_t ^l*T_ideal；q为用户请求的数量；

D204：如果该用户请求需要上传到公共云平台查找，则该用户请求消耗的时间为：其中，T_th是云平台为了不影响用户满意度设定的用户请求在本地云平台的最大执行时间；如果当前用户在本地云平台的执行时间为T_now，如果T_th＞T_now成立，那么该请求仍然在本地云平台进行，反之，上传到公共云平台，其中T是用户请求在本地执行的时间；S_mig是迁移到公共云平台的字节大小，T_mig表示迁移所花费的时间，M′表示系统分配的处理机数量，R_clo表示公共云平台的执行速率；

D205.设置用于提高能耗计算准确率的实际运行中影响迁移性能的因素，根据公式得到本地云平台的执行时间T_now，其中，V_mem表示迁移期间虚拟机内存的大小，R_mig表示迁移过程中的迁移速率；其中，D表示迁移过程中内存的脏化率；

D206.根据D204～D205步骤得出在该用户请求需要上传到公共云平台时所需要的能耗为：E_n-ideal＝q*P_t ^c*T_n-ideal；

D3：根据C步骤，本地云平台存放分类精度高于的资源，共享云平台上存放的是分类精度低于的资源；通过D1步骤的优化，得到该次移动微学习过程中找到该用户请求所需的最小能耗为：

优选的，所述B106步骤中的ε＝θ且ε＝2.6。

优选的，所述的A105步骤和B102步骤中的现有技术中的停用词表为哈尔滨工业大学停用词表。

本发明的有益效果是：本发明采用动态TF-IDF进行文本分类，利用本地云平台低时延、低能耗和公共云平台弹性、可伸缩性的优点，将高正确率的资源放置在本地云，将低正确率的资源放置在公共云上，构建两层云架构模型，完成移动微学习资源的部署，并立足于网络环境和设备状态实时变化的特性，利用灰狼优化算法，预估当前环境状态下，系统处理每字节的能耗，最后，通过分析用户请求与两层云架构服务提供之间的关系，构建总能耗函数，并在灰狼优化算法预估的能耗代价下找到绿色、高效的服务。本发明结构清晰，算法简洁，能耗计算准确率高，具有广泛的应用价值。

附图说明

图1为本发明服务框架图。

图2为词频分类模块框架图。

图3为两层云架构资源部署模型示意图。

图4为本发明流程图。

图5为平均分类正确率随ε的变化过程曲线图。

图6为大样本类正确率的变化过程。

图7为小样本类正确率的变化过程。

图8为不同算法下的平均分类正确率对比图。

图9为不同算法下的单字节能耗预估图。

图10为迁移速率对总能耗的影响图。

图11为系统中待处理的字节数对总能耗的影响图。

图12为不同算法下的总能耗图。

具体实施方式

如图1～4所示，一种绿色云服务提供中的最小能耗计算方法，其技术方案是：包括以下步骤：

A.构建关键词词库L的过程：

A101.收集移动微学习中的历史资源，组成样本集合；

需要明确的是：类别均化方法是将多个小样本相加至与大样本字节数相差不大后再进行后续计算的方法，该方法为现有技术，其公开文献是：张启蕊，张凌，董守斌等，训练集类别分布对文本分类的影响[J].清华大学学报自然科学版，2005，45(s1)：76-79。

B.词频分类过程：

B108.重复执行B107步骤，直到ε＞10且θ＞10成立；

B109.重复B101～B108步骤，直至测试集V中样本处理完成；

C101.将云平台划分为本地云平台和公共云平台；

C102.针对任意的用户请求，利用ICTCLAS2013提取关键词；

D.对于新的用户请求，构建最小能耗函数：

D1.利用灰狼寻优算法，得到最优能耗值：

D102根据公式：

需要明确的是：如果A、C的值随机发散则表示灰狼算法中的灰狼四处游走找寻猎物；如果A、C的值随机收缩则表示灰狼算法中的灰狼找到猎物并开始攻击猎物；

D2.构建总能耗函数：

优选的，所述B106步骤中的ε＝θ且ε＝2.6。

本发明的验证过程：

1.分类正确率的验证：

如表I和表II我们可以看出，在小样本类中，几乎所有关键词出现的概率都为0，同时，针对某一个关键词，它并不能很好的代表各类的技术方案。例如“宇航”，它在大样本类中C11，C19，C31中都曾出现。“含”字在C4，C23，C29，C35类中都有出现，但是“含”本身并没有很好的代表性，不能作为各类的关键词。引发这种情况出现的主要原因是，样本中包含的信息量较少，导致我们提取的关键词不准确。

表I：利用TF-IDF方法获得的各个单词在大样本类中的权重(部分)

word	C3	C7	C11	C19	C31	C32	C34	C38	C39
										宇航	0	0	0.986	0	0	0.014	0.014	0	0
JOURNAL	0	0	0.374	0.479	0.086	0.060	0.060	0	0
										OF	0	0	0.221	0.404	0.301	0.066	0.066	0	0.001
1999年	0.002	0	0.158	0.233	0.266	0.127	0.127	0	0.012
										含	0.061	0	0.069	0.094	0.514	0.090	0.090	0	0.020
液	0.017	0	0.193	0.006	0.751	0	0	0	0
										滴	0	0	0.486	0	0.429	0.057	0.057	0	0

表II：TF-IDF方法获得的各个单词在小样本类中的权重(部分)

word	C4	C5	C6	C15	C16	C17	C23	C29	C35	C36	C37
												宇航	0	0	0	0	0	0	0	0	0	0	0
JOURNAL	0	0	0	0	0	0	0	0	0	0	0
												OF	0.005	0	0	0	0	0	0	0	0	0	0
1999年	0.094	0	0	0	0	0	0	0	0.108	0	0
												含	0.041	0	0	0	0	0	0.004	0.004	0.078	0	0
液	0.011	0	0	0	0	0	0	0	0	0	0.022
												滴	0	0	0	0	0	0	0	0	0	0	0

需要明确的是：表I、表II中的C4、C7等均为ICTCLAS2013分词系统的类别；word所属的一列中的为关键词；C4～C37所属列代表某关键词在对应类别中的权重。

可见利用TF-IDF的方法存在一定的弊端，本发明采用B106步骤的动态TF-IDF方法后简称为D-TF-IDF法进行分类，结果如下：

表III：D-TF-IDF方法获得的大样本类的分类正确率(部分)

表IV：D-TF-IDF方法获得的小样本类的分类正确率(部分)

ε	C4	C5	C6	C15	C16	C17	C23	C29	C35	C36	C37
												0	0.705	0.8	0	0.545	0.536	0.370	0.676	0.831	0.811	0.921	0
0.6	0.738	0.822	0	0.515	0.536	0.370	0.676	0.831	0.830	0.921	0
												1	0.549	0.378	0.962	0.424	0.357	0.333	0.588	0.814	0.811	0.934	0
1.6	0.148	0.133	0.979	0.303	0.25	0.111	0.353	0.644	0.604	0.789	0.009
												2	0.098	0.044	0.887	0.212	0.179	0.111	0.235	0.525	0.472	0.566	0.515
2.2	0.066	0.022	0.829	0.212	0.143	0.037	0.235	0.508	0.396	0.395	0.729
												2.4	0.049	0.022	0.763	0.242	0.107	0.037	0.147	0.441	0.358	0.276	0.819
2.6	0	0.022	0.705	0.212	0.036	0.037	0.118	0.407	0.321	0.184	0.845
												2.8	0	0	0.645	0.182	0	0	0.059	0.373	0.302	0.158	0.833

需要明确的是：表III、表IV中的C4、C7等均为ICTCLAS2013分词系统的类别；word所属的一列中的为关键词；C4～C37所属列代表某关键词在对应类别中的权重。

从表III和表IV可以看出，因为ε＝θ，所以本发明仅对ε进行说明。随着ε的增大，大样本类C3，C7，C19，C38都处于完全增长的趋势，C11，C32处于先增加后下降的趋势，C34和C39则处于下降的趋势。但是整体而言，各类样本的正确率增长的趋势远大于下降的趋势。例如，C3的分类正确率达到了94.6％，C7的分类正确率达到了79.6％。对于小样本类，除了C6和C37类，其它各类的分类正确率都处于下降的趋势。例如，C5的分类正确率下降了80％，C17的分类正确率下降了37％。这证明了本发明提出的D-TF-IDF方法在一定程度上提高的大样本的分类正确率，损害了小样本类的分类正确率，所以，需要找到对大样本和小样本都公平的分类正确率。

如图5，当ε从0到2.6时，平均分类正确率的增长趋势是陡峭的，在ε从2.6到10的变化范围内，平均分类正确率的趋势是缓慢下降的，所以，当ε＝2.6时，可以得到对大样本类和小样本类都公平的分类正确率。

如图6～7，当ε＝2.6时，大样本和小样本分类正确率的变化过程曲线可以明确得出：当ε＝2.6时，本发明提出的D-TF-IDF方法能够明显提高各类样本的分类正确率。

如图8，本发明所述的D-TF-IDF算法与传统的TF-IDF方法、NaiveBayes方法和Rocchio方法进行对比，本发明提出的D-TF-IDF方法的平均分类正确率明显优于其它算法。其中，D-TF-IDF的平均分类正确率为83.91，相对于TF-IDF、Nave Bayes和Rocchio，它分别提高了7.64％、2.92％和3.65％。

2.能耗的验证：

将本发明所述的灰狼优化算法简称GWO(Grey Wolf Optimizer GWO)和大多数实验采用的粒子群算法简称PSO(Particle Swarm Optimization PSO)进行对比，当发送一个字节探测信号，灰狼优化算法和粒子群算法预估的能耗情况。

如图9，可以明确得知：GWO预估的最大能耗稍逊于PSO算法，它们之间仅仅相差0.71，但是针对平均能耗和最小能耗，可以明显看出GWO算法优于PSO算法。这证明了GWO算法具有更强的寻优能力，它能找到当前环境条件下，处理每个字节的最优能耗值。

在灰狼算法预估的能耗基础上，进行移动微学习服务提供过程中总能耗的分析。

如图10，看到在最大能耗方面，GWO算法计算所得的能耗比PSO算法所得的能耗高，但是该差距是非常小的。同时，在平均能耗和最小能耗方面，虽然GWO算法具有优势，但该优势并不是非常明显。这证明了对于100字节的任务量，迁移速率对能耗的影响并不是特别明显。

如图11，在最大能耗、最小能耗以及平均能耗方面PSO算法所获得的能耗值都大于GWO算法所获得的能耗值，并且我们发现在最大能耗和平均能耗上，两者之间的差距特别大。虽然在最小能耗方面两者之间的差距相对较小，但是我们仍然可以认为系统中待处理的字节数量越多，系统需要消耗的能耗越多。

如图12，为了更好的模拟真实环境的动态多变性，放宽所有的条件限制，例如随机设置S_cdoc、S_task和R_mig，使本发明设定的能耗模型中所有的可变参数都随机变化。从图12的结果中我们可以看到虽然在最大能耗方面GWO算法不如PSO算法，但是最小能耗和平均能耗方面，GWO算法都明显优于PSO算法，并且差距是非常明显的，这证明了本发明采用的GWO算法在总能耗方面优于PSO算法。

以上所述仅为发明的较佳实施例而己，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种绿色云服务提供中的最小能耗计算方法，其特征是：包括以下步骤：

A.构建关键词词库L的过程：

A101.收集移动微学习中的历史资源，组成样本集合；

B.词频分类过程：

B106.采用动态TF-IDF方法，根据公式得到B105步骤中的匹对后的频率统计中的各个关键词分别相对于全部关键词的权重d-tf-idf_i，v；其中，w_i是关键词；v_j是ICTCLAS2013分词系统的类别中的某一个文件；n_i，j是关键词w_i在文件v_j中出现的次数，∑_kn_k，j是文件v_j中所有关键词出现的次数之和，|V|是语料库中文件总数，|{j：w_i∈v_j}|是包含关键词w_i的文件数目，ε和θ是用于缓和样本大小对分类正确率的影响所引进的缓和系数；

B108.重复执行B107步骤，直到ε＞10且θ＞10成立；

B109.重复B101～B108步骤，直至测试集V中样本处理完成；

C101.将云平台划分为本地云平台和公共云平台；

C102.针对任意的用户请求，利用ICTCLAS2013提取关键词；

D.对于新的用户请求，构建最小能耗函数：

D1.利用灰狼寻优算法，得到最优能耗值：

如果当前执行次数t＜T，继续灰狼寻优过程；否则，结束本次优化过程，开始下一次迭代；对于每一次迭代，以E_t＞E max作为本次迭代结束的条件，如果成立，结束本次迭代过程，开始下一次迭代；

D102根据公式：

D2.构建总能耗函数：

2.根据权利要求1所述的一种绿色云服务提供中的最小能耗计算方法，其特征是：所述B106步骤中的ε＝θ且ε＝2.6。

3.根据权利要求1所述的一种绿色云服务提供中的最小能耗计算方法，其特征是：所述的A105步骤和B102步骤中的现有技术中的停用词表为哈尔滨工业大学停用词表。