CN113268376B - 基于遗传算法的数据中心对象存储方法及系统 - Google Patents
基于遗传算法的数据中心对象存储方法及系统 Download PDFInfo
- Publication number
- CN113268376B CN113268376B CN202110412999.0A CN202110412999A CN113268376B CN 113268376 B CN113268376 B CN 113268376B CN 202110412999 A CN202110412999 A CN 202110412999A CN 113268376 B CN113268376 B CN 113268376B
- Authority
- CN
- China
- Prior art keywords
- genetic algorithm
- data
- object storage
- individuals
- data center
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1448—Management of the data involved in backup or backup restore
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1458—Management of the backup or restore process
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0614—Improving the reliability of storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/067—Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Quality & Reliability (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Genetics & Genomics (AREA)
- Physiology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于高速数据备份领域,提供了一种基于遗传算法的数据中心对象存储方法及系统。其中,该方法包括获取数据中心对象存储装置接口的备份数据信息,随机生成设定规模的种群,每个种群中的个体包括两条染色体,第一染色体的基因为所有任务与可选备份数据信息的随机顺序组合,第二染色体的基因为定时备份的数据信息;基于随机生成设定规模的种群及遗传算法,通过设定的适应度函数来筛选出设定数量的最优个体,最终确定出多个并行存储的最优备份数据信息且以提高数据存储效率和空间利用率。
Description
技术领域
本发明属于高速数据备份领域,尤其涉及一种基于遗传算法的数据中心对象存储方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
数据中心机房是存放网络、计算、存储的中心。存储方式有很多,如块存储、文件存储和对象存储。其中,块存储读写快,不利于共享;文件存储读写慢,利于共享;对象存储是为了克服块存储与文件存储各自的缺点,发扬它俩各自的优点,读写快,同时利于共享。对象存储是用来描述解决和处理离散单元的方法的通用术语。对象在一个层结构中不会再有层级结构,是以扩展元数据为特征的。对象分为三个部分:数据、元数据以及对象id。
由于不同节点的位置不同,数据同步时可能会有一定时间的延迟或者错误;不易做数据库:对象存储比较适合存储那些变动不大甚至不变的文件,而对于像数据库这种需要直接与存储裸盘相互映射的应用,对象存储不合适。因此,发明人发现,对象存储存在数据存储效率和空间利用率等问题。
发明内容
针对数据中心备份可伸缩要求的数据存储效率和空间利用率等问题,本发明提供一种基于遗传算法的数据中心对象存储方法及系统,其通过对数据中心对象存储装置接口获取的数据进行种群初始化,并采用遗传算法来确定出最优的备份数据信息,实现对象存储装置调用的属性值优化存储,可提高数据存储效率和空间利用率。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于遗传算法的数据中心对象存储方法。
一种基于遗传算法的数据中心对象存储方法,其包括:
获取数据中心对象存储装置接口的备份数据信息,随机生成设定规模的种群,每个种群中的个体包括两条染色体,第一染色体的基因为所有任务与可选备份数据信息的随机顺序组合,第二染色体的基因为定时备份的数据信息;
基于随机生成设定规模的种群及遗传算法,通过设定的适应度函数来筛选出设定数量的最优个体,最终确定出多个并行存储的最优备份数据信息且以提高数据存储效率和空间利用率;其中,适应度函数为个体的平均权值、个体的相似度及个体编码中的0的个数均值这三者的加权和。
本发明的第二个方面提供一种基于遗传算法的数据中心对象存储系统。
一种基于遗传算法的数据中心对象存储系统,其包括:
种群初始化模块,其用于获取数据中心对象存储装置接口的备份数据信息,随机生成设定规模的种群,每个种群中的个体包括两条染色体,第一染色体的基因为所有任务与可选备份数据信息的随机顺序组合,第二染色体的基因为定时备份的数据信息;
个体筛选模块,其用于基于随机生成设定规模的种群及遗传算法,通过设定的适应度函数来筛选出设定数量的最优个体,最终确定出多个并行存储的最优备份数据信息且以提高数据存储效率和空间利用率;其中,适应度函数为个体的平均权值、个体的相似度及个体编码中的0的个数均值这三者的加权和。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于遗传算法的数据中心对象存储方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于遗传算法的数据中心对象存储方法中的步骤。
与现有技术相比,本发明的有益效果是:
为了解决对象存储效率低且空间利用率低的问题,本发明利用获取的数据中心对象存储装置接口的备份数据信息,随机生成设定规模的种群,基于随机生成设定规模的种群及遗传算法,通过设定的适应度函数来筛选出设定数量的最优个体,最终确定出多个并行存储的最优备份数据信息且,提高了数据存储效率和空间利用率。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例的基于遗传算法的数据中心对象存储方法流程图;
图2是本发明实施例的高速数据采集存储回放设备硬件组成;
图3是本发明实施例的备份存储卡框图;
图4是本发明实施例的写操作流水软件流程图;
图5是本发明实施例的FPGA程序总体框图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
如图1所示,本实施例的一种基于遗传算法的数据中心对象存储方法,其具体包括如下步骤:
S101:获取数据中心对象存储装置接口的备份数据信息,随机生成设定规模的种群,每个种群中的个体包括两条染色体,第一染色体的基因为所有任务与可选备份数据信息的随机顺序组合,第二染色体的基因为定时备份的数据信息。
在具体实施中,首先建立编码表示模型,最常用的编码模型是向量空间模型(Vector Space Modal,简称VSM),在该模型中,备份数据的文档空间被视为一组正交词条向量组成的向量空间,每个备份文本di都可以映射为此空间中的一个特征向量,V(di)=((ti1,wi1),(ti2,wi2),…,(tin,win)),其中tij为特征项,wij表示特征项的权重,即特征项在表示备份文本内容上的重要程度,确定权重的方法很多,采用TF-IDE方法,把di简化为以特征项权重为分量的向量(wi1,wi2,…,win)表示,数据信息的特征选择就转化为向量空间的特征选择问题,通过特征选择来建立关键词汇表。
利用存储中常用到的关键词建立关键词词汇表,而关键词汇表的长度就是遗传算法中个体编码的长度。由于遗传算法中种群个体采用二进制编码,而且种群是由机器随机生成的,所以只需要确定编码的长度,即获得专业词汇表的长度。遗传算法种群初始化时随机产生个体。个体的长度与上述关键词汇表的长度相同。关于种群大小,建议群体的个数取值范围一般取20到100之间,所以此处初始化种群的大小取值100。得到初始化种群后,如何选择进入下一代的个体,则需要判断每个个体是否适应环境,下面描述如何判断种群个体的适应度。
S102:基于随机生成设定规模的种群及遗传算法,通过设定的适应度函数来筛选出设定数量的最优个体,最终确定出多个并行存储的最优备份数据信息且以提高数据存储效率和空间利用率;其中,适应度函数为个体的平均权值、个体的相似度及个体编码中的0的个数均值这三者的加权和。
在具体实施中,遗传算法的具体过程为:从种群中随机选择两个双亲进行基因重组;将重组产生的子代个体加入到种群中;从种群中随机选择部分个体进行基因变异;将变异产生的个体加入到种群中;计算任务的生产开始与结束时间;计算目标函数值;筛选出所有的非支配个体;优胜劣汰;进化迭代。
由于关键词的选取并不一定能够参考一些优秀的适应度设计方法的基础上,这里需要解决一个随机变量与多个变量的相关关系的问题,由于存储备份数据中大多数关键词的相关度计算都是在数据信息分析的基础上的,所以可以假设备份数据的相关度和以有欲备份信息数据之间存在着某种线性的关系。通过个体中基因位中为1的基因对应的备份数据信息训练集中的列的词频,与记录在独立搜索引擎中位置和之间的线性关系,来判定个体的适应度,根据我们对SEO的分析,在适应度函数中考虑了如下几点:
(1)备份数据的代表性可通过其基因的重要性来体现,其代表性越突出,词条的平均权值就越大,所以定义平均权值为n为关键词在备份数据中出现的次数。ωik为平均权值,计算关键词在整个备份文件出现次数的平均加权计算后的数值。
(2)在备份数据时,能将信息同其它信息相区分,可以通过相似度来度量,一个较优的个体在表示为同一目标的种群内应具有更多的相似个体,而一个较差的个体则具有很少的相似个体,第i个个体的相似度可采用下式计算:simnum(xi)={set(xi)|i≠j∧sim(xi,xj)≥θ},|simnum(xi)|为与xi相似程度超过θ的个体数目,θ为设定的相似程度域值,sim(xi,xj)表示个体xi和个体xj的相似程度,可用余弦相似度计算;set(xi)为xi函数不定积分固定数值。
交叉操作模仿了自然界中生物体进化过程中基因重组过程,遗传算法通过交叉操作将上一代中的优良基因遗传给下一代个体。交叉操作的目的是获取新优良个体,保持种群多样性。
变异操作模仿自然界中生物体进化过程中染色体基因位上发生的突变现象。变异操作目的有两个:一是改善遗传算法中的局部搜索能力,二是维持群体多样性,防止出现早熟现象。
变异的作用主要在于阻止未成熟收敛和提供算法局部搜索能力,在QGA中,通过编码非门设计了一种编码变异操作。具体方法如下:
(1)以一定的概率Pm从种群中随机选取若干个个体;
(2)对选中的个体按确定的概率随机确定一个或多个变异位;
(3)对选中位编码比特的概率幅执行非门操作,使该编码位的两个概率幅互换,即完成该编码比特的变异操作。
编码变异操作实际上是更改了该编码比特态叠加的状态,使得原来倾向于坍塌到状态“1”的变为倾向于坍塌到状态“0”,或者相反。显然,该变异操作对染色体的所有叠加态均同时有效。
实施例二
本实施例提供了一种基于遗传算法的数据中心对象存储系统,其包括:
种群初始化模块,其用于获取数据中心对象存储装置接口的备份数据信息,随机生成设定规模的种群,每个种群中的个体包括两条染色体,第一染色体的基因为所有任务与可选备份数据信息的随机顺序组合,第二染色体的基因为定时备份的数据信息;
个体筛选模块,其用于基于随机生成设定规模的种群及遗传算法,通过设定的适应度函数来筛选出设定数量的最优个体,最终确定出多个并行存储的最优备份数据信息且以提高数据存储效率和空间利用率;其中,适应度函数为个体的平均权值、个体的相似度及个体编码中的0的个数均值这三者的加权和。
此处需要说明的是,本实施例的基于遗传算法的数据中心对象存储系统中的各个模块,与实施例一中各个步骤的具体实施过程相同,此处不再累述。
在另一实施例中,对于实际硬件来说,数据中心对象存储系统中涉及的对象存储装置主要部件由控制单元和存储单元组成,控制单元作为固态硬盘的大脑,负责数据的读取和写入,作用一是合理调配数据在各个存储芯片上的负荷,二是承担了全部数据的中转,连接存储芯片与外部接口。
控制器用来将存储的数据和计算机之间沟通,控制器就是一个内置的处理器,运行可刷新的固件,因此控制器的优劣,就是处理器的优劣再加上固件程序的优劣。其主要的任务如下:
误区校正:确保数据的正确性。
平衡技术:每个存储系统中的组件都能被平均使用到。
坏块区标注:当有坏单元出现时,可以标注并对应到正常的区块。
读取涤净:使用比如来更正错误的功能。
读取干扰:读取时让临近比特不被干扰的技术。
垃圾回收:不被使用又没标注的区块必须回收使用。
密文:数据传输时必须先加密(安全、速度及兼容性)。
为了适应高速、大容量的数据传输和数据存储,存储系统必须进行系统结构的优化与调整,控制器的控制算法也必须能够使存储系统性能有更大的提升。因此,为了扩大系统的容量与带宽,首先,在存储结构上,由早期的单通道串行输入输出而逐步采用利用信息划分遗传算法的多通道并行输入输出数据。
多通道并行控制机制:由于目前的数据线与地址线复用,其中数据线为8bit,约能达到3MB/s的写速度和25MB/s的读速度,明显地这样的低速数据传输效率无法满足实时的数据记录与回放需求。目前,固态存储器普遍采用了多通道同时并行的控制操作,将多片芯片的数据总线并行扩展,采用类似的存储技术,使存储器的读写带宽得到了极大提升。
存储目标由单一的一片芯片,本发明改造成利用信息划分技术的多片并行复用,最终形成基于遗传算法多通道并行的存储阵列,可以极大的利于存储容量的成倍扩增。同时,每个存储复用组采用的总线拓宽技术与阵列的并行流水控制技术,显著的提高了大容量存储系统的数据传输带宽,目前大规模的存储系统容量已经达到了级,速率达到了十几Gbps。
为了满足高速大容量的系统设计的需求,存储目标通常采用多片的阵列结构。应用或者作为主控制器,采用片上软核或微处理器负责系统参数设置、地址运算、文件信息管理等工作。为了确保存储系统的通用性和扩展性,对外数据传输接口可采用标准或者、等常用接口,也可采用如光纤等高速总线互联接口,不仅仅将复杂的芯片读写控制逻辑屏蔽在系统内部,更实现了存储结构的最大优化,改善了系统带宽提升的瓶颈,可以轻松实现系统存储容量的扩展。
存储控制器是按照一定的时序规则对存储器的访问进行必要控制的设备,包括地址信号、数据信号以及各种命令信号的控制,使主设备(访问存储器的设备)能够根据自己的要求使用存储器上的存储资源。
因此,首先建立基于对象存储装置数据中心备份基础设施架构;
然后在此基础上实现通过对象存储装置控制单元接口数据的信息扩散划分,并将划分结果用遗传算法进行优化存储;
最后通过在设计一个例子验证,该方法有效提高对象存储装置的备份的效率、节约了存储空间。
对象存储最常用的方案,就是多台服务器内置大容量硬盘,再装上对象存储软件,通过部署几台服务作为管理节点,安装上对象存储管理软件。管理节点可以管理其他服务器对外提供读写访问功能。对象的数据通常是无结构的数据,图片、视频或文档等;对象的元数据则指的是对象的相关描述,图片的大小、文档的拥有者等;对象id则是一个全局的唯一标识符,用来区分对象的。
本实施例的高速数据采集存储回放设备硬件是由两块大容量NAND FLASH存储板卡并行扩展而成。每块板卡均由一片FPGA控制NAND FLASH阵列的存储,可实现约3.0TB的容量。对外可提供两路3GB的4X SRIO接口,一路2.5GB的4X PCI EXpress接口,一个以太网接口和一个的USB 3.0快速转存接口。其中SRIO接口与交换板卡相连,实现数据的传输,PCIEXpress接口与主控板卡相连,完成系统的控制。其具体的硬件组成架构如图2示。
在此测试中,采用遗传算法对存储备份的效率进行计算,并在此基础上执行遗传算法训练模板,从而得出代表问题空间的最优特征子集。有关参数设置如下:初始种群大小取80,变异概率Pm=0.06,适应度函数中,α=0.1,β=0.6,γ=0.3,设置遗传终止条件的相邻几代的平均适应度差值为0.0001,最大遗传代数为1000。
本发明结合数据的文本分类的特点,针对对象存储在数据存储效率和空间利用率等问题上的不足,对低频数据和类间分布差异不大的特征的作出了处理,提出了一种基于遗传算法的对象存储方法,很大程度地提高了系统的分类精度,是一种有效的文本特征选择方法。在今后的工作中,将进一步改善特征选择方法,并在多种分类算法尝试,比较其性能。
图3存储板卡的硬件实现框图。其设计架构主要分为三大部分,存储阵列部分、控制器部分和对外接口部分。
内嵌处理器通过实现与各个硬件模块的命令交互,主要包括了高速互连模块、数据交换模块、数据缓存模块、数据纠错模块以及存储接口模块五大部分。其不仅仅作为内部的最高指挥,担负着对高速存储数据流的状态控制,并且通过逻辑设计完成了多组、多通道的芯片阵列的并行流水操作。从而,使高速、大容量的存储板卡实现了其高性能的设计指标。
通过判断前端输入数据的数据量,决定是否开启一次整板写操作。当缓存空间满后,使数据一边传输给接口模块并输出给芯片,一边传输给编码译码模块进行数据编码。最后,将数据和校验码一同存入存储空间中。由于芯片的页容量大小为并多出字节,所以每一页数据所产生的字节冗余码,能够全部存入实际的一页空间之中,数据与冗余码相间完成数据的保存。每一页的数据将分成四次写入,每次写入数据,每组片即每次共写入的数据。依次轮询组芯片的两个的存储空间,完成一次整板的数据页编程操作。此过程充分利用了每一组数据页编程的时间,设计选取足够大的流水级数,实现数据的实时记录,极大地确保了高速的存储写带宽,如图4和图5所示。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于遗传算法的数据中心对象存储方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于遗传算法的数据中心对象存储方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于遗传算法的数据中心对象存储方法,其特征在于,包括:
获取数据中心对象存储装置接口的备份数据信息,随机生成设定规模的种群,每个种群中的个体包括两条染色体,第一染色体的基因为所有任务与可选备份数据信息的随机顺序组合,第二染色体的基因为定时备份的数据信息;
每个种群中的个体的编码的长度为关键词汇表的长度,关键词汇表通过特征选择来建立;利用存储中常用到的关键词建立关键词词汇表;
基于随机生成设定规模的种群及遗传算法,通过设定的适应度函数来筛选出设定数量的最优个体,最终确定出多个并行存储的最优备份数据信息且以提高数据存储效率和空间利用率;其中,适应度函数为个体的平均权值、个体的相似度及个体编码中的0的个数均值这三者的加权和。
2.如权利要求1所述的基于遗传算法的数据中心对象存储方法,其特征在于,每个种群中的个体采用二进制编码。
3.如权利要求1所述的基于遗传算法的数据中心对象存储方法,其特征在于,建立关键词汇表所选择的特征为:数据信息的特征,该特征映射为备份数据的文档空间中的一个特征向量;特征向量由特征项和特征项的权重构成。
4.如权利要求3所述的基于遗传算法的数据中心对象存储方法,其特征在于,备份数据的文档空间被为一组正交词条向量组成的向量空间。
5.如权利要求1所述的基于遗传算法的数据中心对象存储方法,其特征在于,在遗传算法筛选最优个体的过程中,若未达到停止条件之前,选择通过适应度函数来计算个体的适应度,选择超过设定适应度的个体依次进行繁殖、交叉和变异操作。
6.如权利要求5所述的基于遗传算法的数据中心对象存储方法,其特征在于,变异操作的过程为:
以一定的概率Pm从种群中随机选取若干个个体;
对选中的个体按确定的概率随机确定一个或多个变异位;
对选中位编码比特的概率幅执行非门操作,使该编码位的两个概率幅互换,即完成该编码比特的变异操作。
7.一种基于遗传算法的数据中心对象存储系统,其特征在于,包括:
种群初始化模块,其用于获取数据中心对象存储装置接口的备份数据信息,随机生成设定规模的种群,每个种群中的个体包括两条染色体,第一染色体的基因为所有任务与可选备份数据信息的随机顺序组合,第二染色体的基因为定时备份的数据信息;每个种群中的个体的编码的长度为关键词汇表的长度,关键词汇表通过特征选择来建立;利用存储中常用到的关键词建立关键词词汇表;数据中心对象存储系统模块,其涉及的对象存储装置主要部件由控制单元和存储单元组成,控制单元作为固态硬盘的大脑,负责数据的读取和写入;在存储结构上,由早期的单通道串行输入输出而逐步采用利用信息划分遗传算法的多通道并行输入输出数据;存储控制器是按照一定的时序规则对存储器的访问进行必要控制的设备,包括地址信号、数据信号以及各种命令信号的控制,使主设备(访问存储器的设备)能够根据自己的要求使用存储器上的存储资源;
个体筛选模块,其用于基于随机生成设定规模的种群及遗传算法,通过设定的适应度函数来筛选出设定数量的最优个体,最终确定出多个并行存储的最优备份数据信息且以提高数据存储效率和空间利用率;其中,适应度函数为个体的平均权值、个体的相似度及个体编码中的0的个数均值这三者的加权和。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的基于遗传算法的数据中心对象存储方法中的步骤。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一项所述的基于遗传算法的数据中心对象存储方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110412999.0A CN113268376B (zh) | 2021-04-16 | 2021-04-16 | 基于遗传算法的数据中心对象存储方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110412999.0A CN113268376B (zh) | 2021-04-16 | 2021-04-16 | 基于遗传算法的数据中心对象存储方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113268376A CN113268376A (zh) | 2021-08-17 |
CN113268376B true CN113268376B (zh) | 2023-01-31 |
Family
ID=77228891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110412999.0A Active CN113268376B (zh) | 2021-04-16 | 2021-04-16 | 基于遗传算法的数据中心对象存储方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113268376B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107918561A (zh) * | 2017-11-17 | 2018-04-17 | 东北大学 | 一种工业分布式数据采集系统中的任务分配方法 |
CN109800071A (zh) * | 2019-01-03 | 2019-05-24 | 华南理工大学 | 一种基于改进遗传算法的云计算任务调度方法 |
CN111966495A (zh) * | 2020-08-21 | 2020-11-20 | 内蒙古工业大学 | 数据处理方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL172657A0 (en) * | 2005-12-18 | 2006-04-10 | Aljamiado Ltd | Adaptive computer-based evaluation with constrained genetic algorithm |
CN106295806A (zh) * | 2016-07-29 | 2017-01-04 | 浪潮(北京)电子信息产业有限公司 | 确定规定时间内访问存储服务器的存储容量的方法及装置 |
CN108287666B (zh) * | 2018-01-16 | 2021-01-26 | 中国人民公安大学 | 用于云存储环境的数据存储方法及装置 |
-
2021
- 2021-04-16 CN CN202110412999.0A patent/CN113268376B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107918561A (zh) * | 2017-11-17 | 2018-04-17 | 东北大学 | 一种工业分布式数据采集系统中的任务分配方法 |
CN109800071A (zh) * | 2019-01-03 | 2019-05-24 | 华南理工大学 | 一种基于改进遗传算法的云计算任务调度方法 |
CN111966495A (zh) * | 2020-08-21 | 2020-11-20 | 内蒙古工业大学 | 数据处理方法和装置 |
Non-Patent Citations (1)
Title |
---|
基于量子遗传算法的文本特征选择方法研究;邱烨等;《计算机工程与应用》;20080901;第2、3节 * |
Also Published As
Publication number | Publication date |
---|---|
CN113268376A (zh) | 2021-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11354601B2 (en) | Learning classification device and learning classification method | |
TWI751458B (zh) | 神經網路搜索方法及裝置、處理器、電子設備和電腦可讀儲存媒體 | |
CN107622020B (zh) | 一种数据存储方法、访问方法及装置 | |
US11436538B2 (en) | Learning by gradient boosting using a classification method with the threshold for the feature amount | |
US20200265045A1 (en) | Technologies for refining stochastic similarity search candidates | |
US12001716B2 (en) | Key-value data storage system using content addressable memory | |
JP2019212171A (ja) | 学習装置および学習方法 | |
JP2020030699A (ja) | 学習装置および学習方法 | |
JP7196542B2 (ja) | 学習装置および学習方法 | |
JP7069897B2 (ja) | 学習識別装置および学習識別方法 | |
JP7069898B2 (ja) | 学習識別装置および学習識別方法 | |
CN113268376B (zh) | 基于遗传算法的数据中心对象存储方法及系统 | |
US20200143285A1 (en) | Learning device and learning method | |
US20230041801A1 (en) | Transmission of data for a machine learning operation using different microbumps | |
JP7243084B2 (ja) | 学習方法、プログラムおよび学習装置 | |
CN109582911B (zh) | 用于实行卷积的计算装置及实行卷积的计算方法 | |
CN110175172A (zh) | 基于稀疏二分图的极大二分团并行枚举方法 | |
CN115827511A (zh) | 设置缓存的方法以及装置 | |
CN115099309A (zh) | 一种为图数据的存储和索引设计代价评估模型的方法 | |
JP2019160254A (ja) | 学習識別装置および学習識別方法 | |
CN114118443A (zh) | 基于Optane DIMM的大规模图嵌入训练方法及系统 | |
RU2771750C1 (ru) | Обучающее устройство и способ обучения | |
US12086458B2 (en) | Programming content addressable memory | |
US11442643B2 (en) | System and method for efficiently converting low-locality data into high-locality data | |
CN113609310B (zh) | 单机大规模知识图谱嵌入系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |