CN111258824A - 一种云计算中基于人工势场的增量检查点容错方法 - Google Patents

一种云计算中基于人工势场的增量检查点容错方法 Download PDF

Info

Publication number
CN111258824A
CN111258824A CN202010056403.3A CN202010056403A CN111258824A CN 111258824 A CN111258824 A CN 111258824A CN 202010056403 A CN202010056403 A CN 202010056403A CN 111258824 A CN111258824 A CN 111258824A
Authority
CN
China
Prior art keywords
checkpoint
potential field
node
check
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010056403.3A
Other languages
English (en)
Other versions
CN111258824B (zh
Inventor
何利
袁征
杨迪
吴伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Hongfan Energy Technology Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010056403.3A priority Critical patent/CN111258824B/zh
Publication of CN111258824A publication Critical patent/CN111258824A/zh
Application granted granted Critical
Publication of CN111258824B publication Critical patent/CN111258824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2107File encryption

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Bioethics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明请求保护一种云计算中基于人工势场的增量检查点容错方法,包括步骤:S1.根据不同故障概率将检查点类型设置为三类检查点;S2.构建检查点的开销模型,以最小化预期检查点开销为目标,计算各类型检查点频率函数;S3.通过建立不同影响因素下的引力势场、斥力势场以及总势场叠加模型,把检验点布局定位问题转化为在人工势场中搜索势能极值位置问题;S4.采用栅格模型对布局检验点的环境信息进行描述,得到布局检验点的状态数字势场模型;S5.运用连续蚁群优化算法进行求解得到最优的检查点布局结果,其中检查点文件数据上传模块和验证模块中使用了非对称加密中的哈希算法和数字签名算法,运用区块链技术思想确保检查点文件安全性。

Description

一种云计算中基于人工势场的增量检查点容错方法
技术领域
本发明属于云计算领域,尤其涉及一种基于人工势场的增量检查点容错方法。
背景技术
随着大数据时代的到来,数据的处理能力已经愈发成为用户的关注焦点。相较于传统的集群技术,云计算的按需提供服务,可靠弹性服务引起了全世界的瞩目。虽然云计算有很多的优点,是迎合网络时代发展孕育出来的技术,但是由于构建云计算平台的基础组件的多样性、任务调度异常等种种原因,云计算总是出现种种故障,这是无法避免的。这些故障通常会导致提交的任务无法按照预期进行交付,甚至可能造成用户的经济损失,这是用户无法容忍的。由于动态服务架构以及基础设备的复杂特性,容错成为云计算中不可忽视的问题。
基于云计算的可靠弹性服务特性,云计算得到广泛关注,但是故障的处理能力并没有得到妥善的解决。优质的服务提供策略是云计算领域研究的主要课题。检查点技术是云计算中最常用的容错技术,常常作为云计算中的容错资源调度的依据,然而现阶段研究内容中冗余资源的布局是静态且有预设条件的,如果任务执行过程中的内存占用量发生变化或者网络可达性变化,均会导致故障的概率分布发生变化,检查点成本也可能会在执行期间发生变化。为了解决上述技术问题,首先针对容错策略对现阶段的基于检查点的容错策略进行分析。一方面,检查点设置一般都是基于单结构检查点的设置,不能有效适用于不同故障。另一方面,针对检查点布局问题,现阶段往往采用随机存储的方式进行检查点布局策略,不能有效利用资源,相关研究将有助于节省检查点恢复开销。
针对上述问题针对上述研究内容的具体研究内容如下:
1)基于任务完成时间和故障概率设计精确的检验点部署和调度模型;
2)研究检查点的文件特性,提出基于人工势能场的检查点文件存储策略;
3)针对检查点文件安全问题,提出基于非对称加密算法的检查点文件加密策略;
发明内容
本发明旨在解决以上现有技术的问题。提出了一种云计算中基于人工势场的增量检查点容错方法。本发明的技术方案如下:
一种云计算中基于人工势场的增量检查点容错方法,其包括以下步骤:
S1.根据不同故障概率将检查点类型设置为存储在远程节点的全局检查点、存储在本地设备全局检查单和存储在内存的增量检查点三类检查点;
S2.构建检查点的开销模型,以最小化预期检查点开销为目标,计算各类型检查点频率函数;
S3.通过建立不同影响因素下的引力势场、斥力势场以及总势场叠加模型,把检验点布局定位问题转化为在人工势场中搜索势能极值位置问题;
S4.采用栅格模型对布局检验点的环境信息进行描述,得到布局检验点的状态数字势场模型;
S5.运用连续蚁群优化算法进行求解得到最优的检查点布局结果,其中检查点文件数据上传模块和验证模块中使用了非对称加密中的哈希算法和数字签名算法,运用区块链技术思想确保检查点文件安全性。
进一步的,所述步骤S1根据不同故障概率将检查点类型设置为三种类型的检查点,存储在远程节点的全局检查点、存储在本地设备全局检查单和存储在内存的增量检查点三类检查点,分别表示为N-checkpoint,m-checkpoint和i-checkpoint,参数pn是从N型检查点恢复的概率,并且
Figure BDA0002373030000000021
是设置i-checkpoint和m-checkpoint的开销的比率,u的范围是(0,1),当u=0时,表示i-checkpoint的开销Oi为0;当u=1时,表示i-checkpoint的开销Oi等于m-checkpoint的开销Om;在这两种情况下,两级增量检查点恢复方案将退化为两级检查点恢复方案并不符合实际情况,pn的范围是(0,1);情况,pn=0=或pn=1,表示系统中只发生永久性故障或仅发生瞬时故障,与实际情况不符,因此也不考虑这两种情况。
进一步的,所述步骤S2构建检查点的开销模型,以最小化预期检查点开销为目标,计算各类型检查点频率函数,具体包括:设定检查点总开销Ttotal=Tcheckpoint+Trecovery+Trecompute,其中Tcheckpoint为设置检查点的总开销,Trecovery为发生故障时从故障恢复计算时间开销,Trecomput为重新计算的时间开销,假设N-checkpoint,m-checkpoint和i-checkpoint检查点的数量分别是n、m和i,开销分别为为Om、On和Oi,为确定获得检查点布局策略,设定检查点频率函数
Figure BDA0002373030000000031
其中ti(i=1,2,...)是第i个检查点得位置,最终以最小化Ttotal为目的,得到检查点频率函数。
进一步的,通过最小化全局平均检查点开销的最佳检查点频率函数可表示为
Figure BDA0002373030000000032
假设N-checkpoint,m-checkpoint和i-checkpoint检查点的数量分别是n、m和i,
开销分别为为Om、On和Oi,f(t)表示故障概率函数
进一步的,所述步骤S3中,人工势能场函数模型设计如下:
S31.针对云计算节高可用性,定义引力系数,其中ξ表示目标节点对其他其他节点的引力的权力系数,若目标节点无N-checkpoint,则ξ=1,当目标节点存储过N-checkpoint,则ξ=(0.8)n其中n表示节点存储的数量;
S32定义为目标节点的资源使用相关加权函数
Figure BDA0002373030000000033
其中qcpu、qmem、qram分别表示目标节点的cpu使用百分比、内存使用百分比和节点存储已使用百分比,
Figure BDA0002373030000000034
β、η分别是qcpu、qmem、qram的权重系数且
Figure BDA0002373030000000035
所述
Figure BDA0002373030000000036
的取值范围为0.3~0.5,所述β的取值范围为0.3~0.5,所述c的取值范围为0.15~0.3,最终得到节点的势能值函数
Figure BDA0002373030000000037
进一步的,所述步骤S4采用栅格模型对布局检验点的环境信息进行描述,得到布局检验点的状态数字势场模型,具体包括:
.S41设LS(layout scope)为布局检查点文件在三维布局空间里的装填可行区域,其中q个节点待布局,按检查点文件要布置在LS中建立笛卡尔坐标系,以横向为X轴,纵向为Y轴;
S42以s为步长将X,Y分别进行划分,由此生成一系列栅格,每行的栅格单元数
Figure BDA0002373030000000041
每列的栅格单元数
Figure BDA0002373030000000042
xmax、ymax分别表示栅格模型中x轴最大值与y轴最大值。
S43对于节点位置,x轴表示节点的地理位置,当节点直接为直连时,x=1,其中y=Nbps,Nbps表示该节点带宽使用情况,构成A×B={(x,y)|x∈A∧y∈B}其中A为节点之间的地理分布情况,B为当前节点的带宽占用情况;
S45依据S32得到每个节点的势能场函数
Figure BDA0002373030000000043
根据S43构建的栅格模型将节点的势能场函数得到布局检验点的三维状态数字势场模型。其中x轴代表节点之间的物理距离,y轴代表节点的带宽占用情况,z轴表示为节点的势场值。
进一步的,所述步骤S5中运用连续蚁群优化算法进行求解得到良好的检查点布局结果,具体包括:
S51对蚁群算法参数进行初始化,包括信息素影响系数a,期望值影响系数P,蚂蚁个体数量m,信息素挥发系数P;
S52判断当前迭代次数是否达到算法设定的最大迭代次数,若达到算法设定的最大迭代次数,转到步骤S56;
S53某个蚂蚁K在自身留存的未分配的集合N中,根据算法概率公式,概率性的选择一个设备S,分配给节点i,然后蚂蚁K再次在集合N中选择一个设备S2分配给节点i2,如此一直下去,直到蚂蚁K将N个设备都分配到N个节点上去为止,然后下一个蚂蚁K+1,直到每个蚂蚁都将N个设备分配给N个节点,本次迭代结束;
S54根据本次迭代m个蚂蚁寻找出的解,找出本次迭代最优解,对本次迭代最优解按照局部最优算法处理,判断是否更新本次迭代最优解;局部最优算法将给定个数的蚂蚁随机分布在设计变量定义域内划分好的子空间里进行一定范围的局部搜索,记录具有最好评价函数值的优秀蚂蚁,并进行信息素局部更新。
S55判断是否需要更新当前全局最优解,如果更新当前全局最优解,同时也需要根据更新信息素公式,对更新后的全局最优解路径上的信息素进行更新判断是否达到最大迭代次数,如未达到,转步骤S52,如果不需要更新当前全局最优解,转到步骤2;
S56输出当前最优解,按转移概率移动各蚂蚁在不同子空间之间进行转移,并嵌入邻域搜索机制,寻找更好的解,然后按信息素更新规则进行全局更新通过不断地重复上述过程,使算法能找到问题的最优解.。
进一步的,所述检查点文件数据上传模块和验证模块中使用了非对称加密中的哈希算法和数字签名算法,运用区块链技术思想确保检查点文件安全性,具体包括:
首先使用MD5算法计算出需要上传文件的哈希值,其次系统将生成私钥,最后根据数字签名算法对系统所生成的私钥进行签名操作。将所形成的签名的数据通过P2P网络通讯技术传播至各个节点,每个节点设置记录文件,记录文件定时更新上传信息,系统每隔3分钟检测记录文件各个节点是否一致,若不一致则立即修复。
本发明的优点及有益效果如下:
通过本发明,采用增量式检查点技术,跟据故障概率函数动态自适应设置增量检查点设置间隔,构造检查点开销模型,以最小化检查点开销为目的设置检查点频率,有效减少检查点设置开销。根据网络资源与节点资源完成基于人工势场的检查点布局,动态调整检查点文件部署,减少检查点恢复开销。最后结合区块链思想提出基于非对称加密算法确保检查点文件的安全问题。本发明创新点主要在于采用多级增量式检查点策略,根据不同故障概率设置不同容错策略,有效的降低了云环境下容错系统开销,其次对检查点文件布局情况,多方面考虑节点之间资源动态变化过程,使得云环境中节点整体资源利用率的到提升,节点文件的安全性采用数字签名与哈希算法结合的思想对文件进行加密,采用区块链的思想增加记录模块,确保节点之间的上传数据一致性问题,增强了云环境中节点文件安全性。
附图说明
图1是本发明提供优选实施例云计算中基于人工势场的增量检查点容错方法流程图。
图2表示连续蚁群算法流程图
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明提供的一种基于工势场的增量检查点容错方法,包括如下步骤:
第一步,根据不同故障概率将检查点类型设置为存储在远程节点的全局检查点、存储在本地设备全局检查单和存储在内存的增量检查点三类检查点,
第二步,构建检查点的开销模型,以最小化预期检查点开销为目的,计算各类型检查点频率函数
第三步,通过建立不同影响因素下的引力势场和斥力势场以及总势场叠加模型,把检验点布局定位问题转化为在人工势场中搜索势能极值位置问题。
第四步,采用栅格模型对布局检验点的环境信息进行描述,得到布局检验点的状态数字势场模型
第五步,运用连续蚁群优化算法进行求解得到良好的检查点布局结果,其中检查点文件数据上传模块和验证模块中使用了非对称加密中的哈希算法(MD5)和数字签名算法(MD5withRSA),运用区块链技术思想确保检查点文件安全性.
以下以一个具体实例对本发明进行进一步说明:
本实施实例,步骤一中根据不同故障概率将检查点类型设置为三种类型的检查点,即N-checkpoint,m-checkpoint和i-checkpoint,参数pn是从N型检查点恢复的概率,并且
Figure BDA0002373030000000071
是设置i-checkpoint和m-checkpoint的开销的比率。u的范围是(0,1)。当u=0时,表示i-checkpoint的开销为0;当u=1时,表示i-checkpoint的开销等于m-checkpoint的开销。在这两种情况下,两级增量检查点恢复方案将退化为两级检查点恢复方案并不符合实际情况。pn的范围是(0,1)。情况,pn=0=或pn=1,表示系统中只发生永久性故障或仅发生瞬时故障,与实际情况不符,因此也不考虑这两种情况。
在本实施例,步骤二中,假设故障概率函数服从指数分布时,通过将指数分布的CDF(分布函数)数和PDF(概率密度函数)代入S26式中可得s(η)opt=Aexp其中
Figure BDA0002373030000000072
根据S2可得
Figure BDA0002373030000000073
因此
Figure BDA0002373030000000074
通过归纳可得
Figure BDA0002373030000000075
依据不同故障概率假设永久故障的速率参数λp=10-5和瞬时故障率参数λ1=10-6其他参数值有下表给出
参数 p<sub>n</sub> O<sub>m</sub> O<sub>n</sub> O<sub>i</sub> R<sub>m</sub> R<sub>n</sub> R<sub>i</sub> k
0.05 0.1 1.0 0.005 0.1 1.0 0.005 0.5
1.首先初始化参数k,m和n。设k0=0.5,m0=1,n0=1.(当m=0或n=0时,两级增量检查点恢复方案退化为两级检查点恢复方案,因此值m=0或n=0没有任何意义。)
2.输入k0,m0和n。使用s(η)opt=Aexp计算最佳检查点频率函数。输出s(η)opt=Aexp
3.输入s(η)opt=Aexp。带入
Figure BDA0002373030000000081
计算m和n的最小值。输出mmin和nmin
3.输入k0,mmin和nmin。带入
Figure BDA0002373030000000082
Figure BDA0002373030000000083
计算与k0,m0和n0相关的检查点放置时间。输出t1,t2,...,tN。当确定k和m和n的最小值时,可以使用
Figure BDA0002373030000000084
计算检查点放置时间,然后最终确定两级增量检查点放置策略。
则i-checkpoint检查点的数量如下表所示
Figure BDA0002373030000000091
结果表明,检查点比率u越大,给定参数pn的i型检验点的最佳数量越小。特别是当值u足够大时,不会设置i-checkpoint。pn=0.25并且u=Oi/Om=0.9时,将没有i-checkpoints,只存在N-checkpoint和m-checkpoint,现在两级增量检查点恢复方案退化为两级检
查点恢复方案。这是因为当值u变得越来越大时,这导致设置i-checkpoints的开销变得越来越大,并逐渐接近设置m-checkpoint的开销。上述情况导致i-checkpoint的开销大约等于m-checkpoint的开销,因此i-checkpoint逐渐变为m-checkpoint直到它消失。
本实施实例,步骤三中对云计算节高可用性,定义引力系数,其中ξ表示目标节点对其他其他节点的引力的权力系数,若目标节点无N-checkpoint,则ξ=1,当目标节点存储过N-checkpoint,则ξ=(0.8)n其中n表示节点存储的数量。
定义为目标节点的资源使用相关加权函数
Figure BDA0002373030000000092
其中qcpu、qmem、qram分别表示目标节点的cpu使用百分比、内存使用百分比和节点存储已使用百分比,
Figure BDA0002373030000000093
β、η分别是qcpu、qmem、qram的权重系数且
Figure BDA0002373030000000094
所述
Figure BDA0002373030000000095
的取值为0.4,所述β的取值为0.4,所述c的取值为0.2。最终得到节点的势能值函数
Figure BDA0002373030000000096
x轴表示节点的地理位置,当节点直接为直连时,x=1。其中y=Nbps,Nbps表示该节点带宽使用情况,构成A×B={(x,y)|x∈A∧y∈B}其中A为节点之间的地理分布情况,B为当前节点的带宽占用情况,本实例中各节点部分势能表格如下
数据节点 Cpu利用率 内存使用率 节点剩余存储 势能值U<sub>rep</sub>(q)
DateNode3 21% 37% 96% 0.3088
DateNode1 37% 25% 98% 0.4656
DateNode4 11% 14% 96% 0.292
DateNode8 71% 53% 92% 0.5096
DateNode15 69% 65% 98% 0.5664
最后用局部优化的蚁群算法搜索最佳N型检查文件部署策略。
Figure BDA0002373030000000101
哈希散列算法的设计。针对用户选定上传的文件,系统将对其生产MD5值,故在此需要通过相关的算法和代码设计来实现生产文件的MD5值。在Java开发包中,java.security.MseeageDigest类实现了主流的哈希散列算法,通过.MseeageDigest.getInstance(“MD5”)实现在该类中MD5算法的初始化。由于是对文件生产MD5值,所以还需要java.nio.MappedByteBuffer和java.nio.channels.FileChannel类来对输入的文件进行处理。在生成MD5值时,通过MseeageDigest类中的update()方法将处理后的文件数据进行初始化,然后调用digest()方法即可得到字节数据形式表示的MD5值,只需要通过字节数组转字符串处理即可得到字符串形式的MD5值。数字签名算法的设计。根据数字签名算法的特性,如果直接对原始文件信息进行数字签名,由于文件的大小不一致,签名输出的长度也不一致,签名输入数据的大小还影响到签名过程的时间,基于该特性的考虑,所以在签名前需要先对文件生产MD5值,然后将文件名、上传作者、上传时间、MD5值和文件描述信息进行拼接再作为数字签名的输入,这将大大的减小签名时间和校验时间。在签名算法的设计上,使用的数字签名算法是MD5withRSA。在Java开发包,Java.security.KeyPairGenerator类提供了实例化和生产密钥对的方法,需要结合KeyPair、RSAPrivateKey和RSAPublicKey使用方可实现签名和验证数据时的公私钥。通过KeyPairGenerator.getInstance(″MD5withRSA″)实例化MD5withRSA算法,再通过调用方法generateKeyPair()实例化密钥对。在数字签名实现时,java.security.Signature类中就提供了数字签名的方法。在签名前,需要先调用initSign()和update()方法对签名私钥初始化和数据更新,然后通过Sign()方法即可获得字节数组数字签名,对该数组进行处理即可获得字符串形式的签名后的信息。兙
如图2所示算法的搜索过程主要分两阶段:第一阶段是将给定个数的蚂蚁随机分布在设计变量定义域内划分好的子空间里进行一定范围的局部搜索,记录具有最好评价函数值的优秀蚂蚁,并进行信息素局部更新第二阶段是按转移概率移动各蚂蚁在不同子空间之间进行转移,并嵌入邻域搜索机制,寻找更好的解,然后按信息素更新规则进行全局更新.
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (8)

1.一种云计算中基于人工势场的增量检查点容错方法,其特征在于,包括以下步骤:
S1.根据不同故障概率将检查点类型设置为存储在远程节点的全局检查点、存储在本地设备全局检查单和存储在内存的增量检查点三类检查点;
S2.构建检查点的开销模型,以最小化预期检查点开销为目标,计算各类型检查点频率函数;
S3.通过建立不同影响因素下的引力势场、斥力势场以及总势场叠加模型,把检验点布局定位问题转化为在人工势场中搜索势能极值位置问题;
S4.采用栅格模型对布局检验点的环境信息进行描述,得到布局检验点的状态数字势场模型;
S5.运用连续蚁群优化算法进行求解得到最优的检查点布局结果,其中检查点文件数据上传模块和验证模块中使用了非对称加密中的哈希算法和数字签名算法,运用区块链技术思想确保检查点文件安全性。
2.根据权利要求1所述的一种云计算中基于人工势场的增量检查点容错方法,其特征在于,所述步骤S1根据不同故障概率将检查点类型设置为三种类型的检查点,存储在远程节点的全局检查点、存储在本地设备全局检查单和存储在内存的增量检查点三类检查点,分别表示为N-checkpoint,m-checkpoint和i-checkpoint,参数pn是从N型检查点恢复的概率,并且
Figure FDA0002373029990000011
是设置i-checkpoint和m-checkpoint的开销的比率,u的范围是(0,1),当u=0时,表示i-checkpoint的开销Oi为0;当u=1时,表示i-checkpoint的开销Oi等于m-checkpoint的开销Om;在这两种情况下,两级增量检查点恢复方案将退化为两级检查点恢复方案并不符合实际情况,pn的范围是(0,1);情况,pn=0=或pn=1,表示系统中只发生永久性故障或仅发生瞬时故障,与实际情况不符,因此也不考虑这两种情况。
3.根据权利要求2所述的一种云计算中基于人工势场的增量检查点容错方法,其特征在于,所述步骤S2构建检查点的开销模型,以最小化预期检查点开销为目标,计算各类型检查点频率函数,具体包括:设定检查点总开销Ttotal=Tcheckpoint+Trecovery+Trecompute,其中Tcheckpoint为设置检查点的总开销,Trecovery为发生故障时从故障恢复计算时间开销,Trecomput为重新计算的时间开销,假设N-checkpoint,m-checkpoint和i-checkpoint检查点的数量分别是n、m和i,开销分别为为Om、On和Oi,为确定获得检查点布局策略,设定检查点频率函数
Figure FDA0002373029990000021
其中ti(i=1,2,...)是第i个检查点得位置,最终以最小化Ttotal为目的,得到检查点频率函数。
4.根据权利要求3所述的一种云计算中基于人工势场的增量检查点容错方法,其特征在于,通过最小化全局平均检查点开销的最佳检查点频率函数可表示为
Figure FDA0002373029990000022
假设N-checkpoint,m-checkpoint和i-checkpoint检查点的数量分别是n、m和i,开销分别为为Om、On和Oi,f(t)表示故障概率函数。
5.根据权利要求3所述的一种云计算中基于人工势场的增量检查点容错方法,其特征在于,所述步骤S3中,人工势能场函数模型设计如下:
S31.针对云计算节高可用性,定义引力系数,其中ξ表示目标节点对其他其他节点的引力的权力系数,若目标节点无N-checkpoint,则ξ=1,当目标节点存储过N-checkpoint,则ξ=(0.8)n其中n表示节点存储的数量;
S32定义为目标节点的资源使用相关加权函数
Figure FDA0002373029990000023
其中qcpu、qmem、qram分别表示目标节点的cpu使用百分比、内存使用百分比和节点存储已使用百分比,
Figure FDA0002373029990000024
β、η分别是qcpu、qmem、qram的权重系数且
Figure FDA0002373029990000025
所述
Figure FDA0002373029990000026
的取值范围为0.3~0.5,所述β的取值范围为0.3~0.5,所述c的取值范围为0.15~0.3,最终得到节点的势能值函数
Figure FDA0002373029990000027
6.根据权利要求5所述的一种云计算中基于人工势场的增量检查点容错方法,其特征在于,所述步骤S4采用栅格模型对布局检验点的环境信息进行描述,得到布局检验点的状态数字势场模型,具体包括:
S41设LS为布局检查点文件在三维布局空间里的装填可行区域,其中q个节点待布局,按检查点文件要布置在LS中建立笛卡尔坐标系,以横向为X轴,纵向为Y轴;
S42以s为步长将X,Y分别进行划分,由此生成一系列栅格,每行的栅格单元数
Figure FDA0002373029990000031
每列的栅格单元数
Figure FDA0002373029990000032
xmax、ymax分别表示栅格模型中x轴最大值与y轴最大值;
S43对于节点位置,x轴表示节点的地理位置,当节点直接为直连时,x=1,其中y=Nbps,Nbps表示该节点带宽使用情况,构成A×B={(x,y)|x∈A∧y∈B}其中A为节点之间的地理分布情况,B为当前节点的带宽占用情况;
S45依据S32得到每个节点的势能场函数
Figure FDA0002373029990000033
根据S43构建的栅格模型将节点的势能场函数得到布局检验点的三维状态数字势场模型。其中x轴代表节点之间的物理距离,y轴代表节点的带宽占用情况,z轴表示为节点的势场值。
7.根据权利要求5所述的一种云计算中基于人工势场的增量检查点容错方法,其特征在于,所述步骤S5中运用连续蚁群优化算法进行求解得到良好的检查点布局结果,具体包括:
S51对蚁群算法参数进行初始化,包括信息素影响系数a,期望值影响系数P,蚂蚁个体数量m,信息素挥发系数P;
S52判断当前迭代次数是否达到算法设定的最大迭代次数,若达到算法设定的最大迭代次数,转到步骤S56;
S53某个蚂蚁K在自身留存的未分配的各集合N中,根据算法概率公式,概率性的选择一个设备S,分配给节点i,然后蚂蚁K再次在集合N中选择一个设备S2分配给节点i2,如此一直下去,直到蚂蚁K将N个设备都分配到N个节点上去为止,然后下一个蚂蚁K+1,直到每个蚂蚁都将N个设备分配给N个节点,本次迭代结束;
S54根据本次迭代m个蚂蚁寻找出的解,找出本次迭代最优解,对本次迭代最优解按照局部最优算法处理,判断是否更新本次迭代最优解;局部最优算法将给定个数的蚂蚁随机分布在设计变量定义域内划分好的子空间里进行一定范围的局部搜索,记录具有最好评价函数值的优秀蚂蚁,并进行信息素局部更新。
S55判断是否需要更新当前全局最优解,如果更新当前全局最优解,同时也需要根据更新信息素公式,对更新后的全局最优解路径上的信息素进行更新判断是否达到最大迭代次数,如未达到,转步骤S52,如果不需要更新当前全局最优解,转到步骤2;
S56输出当前最优解,按转移概率移动各蚂蚁在不同子空间之间进行转移,并嵌入邻域搜索机制,寻找更好的解,然后按信息素更新规则进行全局更新通过不断地重复上述过程,使算法能找到问题的最优解。
8.根据权利要求7所述的一种云计算中基于人工势场的增量检查点容错方法,其特征在于,所述检查点文件数据上传模块和验证模块中使用了非对称加密中的哈希算法和数字签名算法,运用区块链技术思想确保检查点文件安全性,具体包括:
首先使用MD5算法计算出需要上传文件的哈希值,其次系统将生成私钥,最后根据数字签名算法对系统所生成的私钥进行签名操作。将所形成的签名的数据通过P2P网络通讯技术传播至各个节点,每个节点设置记录文件,记录文件定时更新上传信息,系统每隔3分钟检测记录文件各个节点是否一致,若不一致则立即修复。
CN202010056403.3A 2020-01-18 2020-01-18 一种云计算中基于人工势场的增量检查点容错方法 Active CN111258824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010056403.3A CN111258824B (zh) 2020-01-18 2020-01-18 一种云计算中基于人工势场的增量检查点容错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010056403.3A CN111258824B (zh) 2020-01-18 2020-01-18 一种云计算中基于人工势场的增量检查点容错方法

Publications (2)

Publication Number Publication Date
CN111258824A true CN111258824A (zh) 2020-06-09
CN111258824B CN111258824B (zh) 2024-02-27

Family

ID=70952359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010056403.3A Active CN111258824B (zh) 2020-01-18 2020-01-18 一种云计算中基于人工势场的增量检查点容错方法

Country Status (1)

Country Link
CN (1) CN111258824B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115469665A (zh) * 2022-09-16 2022-12-13 广东工业大学 一种适应于动态环境的智能轮椅目标跟踪控制方法和系统
CN116016543A (zh) * 2022-12-15 2023-04-25 浪潮云信息技术股份公司 一种基于蚁群算法的区块链网络部署方法及系统
CN116361060A (zh) * 2023-05-25 2023-06-30 中国地质大学(北京) 一种多特征感知的流计算系统容错方法和系统
CN116627659A (zh) * 2023-07-21 2023-08-22 科大讯飞股份有限公司 模型检查点文件保存方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778031A (zh) * 2014-01-15 2014-05-07 华中科技大学 一种云环境下的分布式系统多级故障容错方法
US20140172803A1 (en) * 2012-12-19 2014-06-19 Microsoft Corporation Main-memory database checkpointing
CN104272787A (zh) * 2012-05-14 2015-01-07 高通股份有限公司 用于自主还原到行为检查点的技术
US20150324236A1 (en) * 2014-05-12 2015-11-12 The Research Foundation For The State University Of New York Gang migration of virtual machines using cluster-wide deduplication
US20170033930A1 (en) * 2015-07-31 2017-02-02 Microsoft Technology Licensing, Llc Techniques to secure computation data in a computing environment
CN106843235A (zh) * 2017-03-31 2017-06-13 深圳市靖洲科技有限公司 一种面向无人自行车的人工势场路径规划法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104272787A (zh) * 2012-05-14 2015-01-07 高通股份有限公司 用于自主还原到行为检查点的技术
US20140172803A1 (en) * 2012-12-19 2014-06-19 Microsoft Corporation Main-memory database checkpointing
CN103778031A (zh) * 2014-01-15 2014-05-07 华中科技大学 一种云环境下的分布式系统多级故障容错方法
US20150324236A1 (en) * 2014-05-12 2015-11-12 The Research Foundation For The State University Of New York Gang migration of virtual machines using cluster-wide deduplication
US20170033930A1 (en) * 2015-07-31 2017-02-02 Microsoft Technology Licensing, Llc Techniques to secure computation data in a computing environment
CN106843235A (zh) * 2017-03-31 2017-06-13 深圳市靖洲科技有限公司 一种面向无人自行车的人工势场路径规划法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JOSE PERGENTINO DE ARAUJO NETO等: ""MULTS: A Multi-cloud Fault-tolerant Architecture to Manage Transient Servers in Cloud Computing"", 《JOURNAL OF SYSTEMS ARCHITECTURE》 *
周益帆等: ""一种基于行为特征的文件检查点优化策略"", 《软件》 *
宋杰等: "MapReduce大数据处理平台与算法研究进展", 《软件学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115469665A (zh) * 2022-09-16 2022-12-13 广东工业大学 一种适应于动态环境的智能轮椅目标跟踪控制方法和系统
CN116016543A (zh) * 2022-12-15 2023-04-25 浪潮云信息技术股份公司 一种基于蚁群算法的区块链网络部署方法及系统
CN116361060A (zh) * 2023-05-25 2023-06-30 中国地质大学(北京) 一种多特征感知的流计算系统容错方法和系统
CN116361060B (zh) * 2023-05-25 2023-09-15 中国地质大学(北京) 一种多特征感知的流计算系统容错方法和系统
CN116627659A (zh) * 2023-07-21 2023-08-22 科大讯飞股份有限公司 模型检查点文件保存方法、装置、设备及存储介质
CN116627659B (zh) * 2023-07-21 2023-12-01 科大讯飞股份有限公司 模型检查点文件保存方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111258824B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN111258824A (zh) 一种云计算中基于人工势场的增量检查点容错方法
CN112085204A (zh) 一种用于量子编译的线路变换方法
CN103699606A (zh) 一种基于顶点切割与社区聚集的大规模图划分方法
CN112087329B (zh) 一种网络服务功能链部署方法
CN112348518B (zh) 一种区块链交易证明的方法及装置
Lin et al. Feedback delay-tolerant proactive caching scheme based on federated learning at the wireless edge
Candan et al. A dynamic island model for adaptive operator selection
Fadaei et al. Enhanced K-means re-clustering over dynamic networks
CN113011529A (zh) 文本分类模型的训练方法、装置、设备及可读存储介质
CN113228059A (zh) 面向跨网络的表示学习算法
Xiong et al. Straggler-resilient distributed machine learning with dynamic backup workers
CN115941206A (zh) 一种基于区块链技术的碳排放数据上链方法
CN113076319B (zh) 基于离群值检测技术和位图索引的动态数据库填充方法
Jothi et al. Soft set based quick reduct approach for unsupervised feature selection
Li et al. An effective model for edge-side collaborative storage in data-intensive edge computing
WO2024066143A1 (zh) 分子碰撞截面的预测方法、装置、设备及存储介质
CN115865912B (zh) 网络边缘在线服务功能链部署方法、系统和设备
Chang et al. Dynamic practical byzantine fault tolerance and its blockchain system: A large-scale markov modeling
Chiu et al. A genetic algorithm for reliability-oriented task assignment with k/spl tilde/duplications in distributed systems
Reitmaier et al. Active classifier training with the 3DS strategy
Guan et al. A multi‐controller placement method for software defined network based on improved firefly algorithm
CN112953781B (zh) 网络切片下基于粒子群的虚拟业务故障恢复方法及装置
CN114461730A (zh) 基于余数系统的自适应区块数据压缩方法
ELSHQEIRAT et al. A practical algorithm for reliable network topology design
JP6961950B2 (ja) 格納方法、格納装置および格納プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230904

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Applicant after: Guangzhou Dayu Chuangfu Technology Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240118

Address after: 401120 15-1, Building 1, No. 62, East Section of Mount Taishan Avenue, Tiangongdian Street, Liangjiang New District, Yubei District, Chongqing (independent commitment)

Applicant after: Chongqing Hongfan Energy Technology Co.,Ltd.

Address before: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Applicant before: Guangzhou Dayu Chuangfu Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant