CN104866248A - 一种量化语义块关系的方法及装置 - Google Patents

一种量化语义块关系的方法及装置 Download PDF

Info

Publication number
CN104866248A
CN104866248A CN201510324120.1A CN201510324120A CN104866248A CN 104866248 A CN104866248 A CN 104866248A CN 201510324120 A CN201510324120 A CN 201510324120A CN 104866248 A CN104866248 A CN 104866248A
Authority
CN
China
Prior art keywords
semantic chunk
semantic
access
chromosome
gene expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510324120.1A
Other languages
English (en)
Inventor
陈云亮
李方圆
陈小岛
邓泽
杜波
陈佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201510324120.1A priority Critical patent/CN104866248A/zh
Publication of CN104866248A publication Critical patent/CN104866248A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种量化语义块关系的方法及装置,所述方法包括:获取访问数据流;对所述访问数据流中的访问序列进行量化预处理,获取适合所述访问序列访问特征的各个语义块的长度,并量化统一所述各个语义块的地址;构建适合所述访问序列访问特征的基因表达式算法;根据所述基因表达式算法对各个语义块进行拟合,获取所述各个语义块之间的定量关系集合;如此,所述方法通过对存储系统中多个语义块块之间的关系进行量化,依据实时数据流的变化,总结数据流的规律、推断各个语义块之间的定量表达的语义关系;降低数据访问时磁盘的寻道和旋转延迟,缩短吞吐量和响应时间,达到高效访问的目的。

Description

一种量化语义块关系的方法及装置
技术领域
本发明计算机存储技术领域,尤其涉及一种量化语义块关系的方法及装置。
背景技术
基于互联网的大数据应用系统的发展对我国的科学进步与国民经济的发展具有战略性作用,多元学科的发展和社会应用的需求也给大数据系统带来了巨大的挑战,但作为大数据系统末端的存储系统在响应速度上越来越不能适应前端应用系统的需求。
存储块的语义关系成为存储系统的高速缓存、磁盘调度、数据放置、数据预取等环节的理论依据。比如对存储系统进行访问时,存储系统能依据块的语义关系将正确的数据块预取到缓存中,以便后面的访问可以命中这些块而不需要到磁盘中再次调用,缩短了数据访问时间,提高了存储系统访问效率。但以往的存储系统只能基于某些局部访问特征,比如时间局限性、空间局限性、顺序性等来设计优化存储系统的组织与管理,导致语义块之间完整语义关系的缺失,存储系统在语义块一级的层面无法有效对数据进行组织和管理,这样就不能即时满足前端应用系统的调用需求。
现有技术中的解决方法多数集中在利用访问序列的分析进行应用数据的预取、替换或者是数据放置等。但这些方法在占用系统大量资源的前提下,依然不能为后续的数据访问预测提供准确的信息来提高数据访问的命中率,缩短数据访问时间。
发明内容
针对现有技术存在的问题,本发明实施例提供了一种量化语义块关系的方法及装置,用于解决现有技术中在存储系统的数据访问中,数据访问时间过长,访问效率低,不能适应前端应用系统的调用需求的技术问题。
本发明提供一种量化语义块关系的方法,所述方法包括:
获取访问数据流;
对所述访问数据流中的访问序列进行量化预处理,获取适合所述访问序列访问特征的各个语义块的长度,并量化统一所述各个语义块的地址;
构建适合所述访问序列访问特征的基因表达式算法;
根据所述基因表达式算法对所述各个语义块进行拟合,获取所述各个语义块之间的定量关系集合。
上述方案中,所述构建适合访问序列访问特征的基因表达式算法包括:
初始化所述访问序列的染色体种群,构造所述基因表达式算法解的结构;
计算染色体的第一适应值,根据预设的第一标准适应值对所述染色体进行淘汰;
根据预设的机率对保留下的所述染色体进行有限次迭代操作,确定所述染色体的高阶表达式。
上述方案中,根据预设的机率对保留下的所述染色体进行有限次迭代操作包括,确定所述染色体的高阶表达式:
步骤a,根据预设的机率对保留下的所述染色体进行杂交、变异操作,获取所述染色体的子代;
步骤b,计算所述染色体子代的第二适应值,根据预设的第二标准适应值对所述染色体子代进行淘汰;
按照预设的迭代次数循环步骤a~步骤b,收敛所述染色体,获取所述染色体的高阶表达式。
上述方案中,所述根据所述基因表达式算法对所述各个语义块进行拟合,获取所述各个语义块之间的定量关系集合包括:
根据所述基因表达式算法计算所述各个语义块中每个语义块与其他语义块之间的高阶表达式,完成所述各个语义块的回归,获取所述各个语义块之间的定量关系集合。
上述方案中,所述访问序列包括:trace序列。
本发明同时还提供一种量化语义块关系的装置,所述装置包括:
获取单元,所述获取单元用于获取访问数据流;
预处理单元,所述预处理单元用于对所述访问数据流中的访问序列进行量化预处理,获取适合所述访问序列访问特征的各个语义块的长度,并量化统一所述各个语义块的地址;
构建单元,所述构建单元用于构建适合所述访问序列访问特征的基因表达式算法;
拟合单元,所述拟合单元用于根据所述基因表达式算法对所述各个语义块进行拟合,获取所述各个语义块之间的定量关系集合。
上述方案中,所述构建单元用于构建适合所述访问序列访问特征的基因表达式算法包括:
所述构建单元初始化所述访问序列的染色体种群,构造所述基因表达式算法解的结构;
计算染色体的第一适应值,根据预设的第一标准适应值对所述染色体进行淘汰;
根据预设的机率对保留下的所述染色体进行有限次迭代操作,确定所述染色体的高阶表达式。
上述方案中,所述构建单元用于根据预设的机率对保留下的所述染色体进行有限次迭代操作,确定所述染色体的高阶表达式具体包括:
步骤a,根据预设的机率对保留下的所述染色体进行杂交、变异操作,获取所述染色体的子代;
步骤b,计算所述染色体子代的第二适应值,根据预设的第二标准适应值对所述染色体子代进行淘汰;
所述构建单元按照预设的迭代次数循环步骤a~步骤b,收敛所述染色体,获取所述染色体的高阶表达式。
上述方案中,所述拟合单元根据所述基因表达式算法对所述各个语义块进行拟合,获取所述各个语义块之间的定量关系集合包括:
所述拟合单元根据所述基因表达式算法计算所述各个语义块中每个语义块与其他语义块之间的高阶表达式,完成所述各个语义块的回归,获取所述各个语义块之间的定量关系集合。
上述方案中,所述访问序列包括:trace序列。
本发明提供了一种量化语义块关系的方法及装置,所述方法包括:获取访问数据流;对所述访问数据流中的访问序列进行量化预处理,获取适合所述访问序列访问特征的各个语义块的长度,并量化统一所述各个语义块的地址;构建适合所述访问序列访问特征的基因表达式算法;根据所述基因表达式算法对各个语义块进行拟合,获取所述各个语义块之间的定量关系集合;如此,所述方法通过对存储系统中多个语义块块之间的关系进行量化,依据实时数据流的变化,总结数据流的规律、推断各个语义块之间的定量表达的语义关系;降低数据访问时磁盘的寻道和旋转延迟,缩短吞吐量和响应时间,达到高效访问的目的。
附图说明
图1为本发明实施例一提供的量化语义块关系的方法流程示意图;
图2为本发明实施例一提供的分割访问序列的示意图;
图3为本发明实施例二提供的量化语义块关系的装置结构示意图。
具体实施方式
为了能更好地理解本发明的内容,本文先阐述对语义块关系进行定量的必要性。具有时间局限性、空间局限性访问特征的序列模式,语义块的语义关系是存储系统中固有的,稳定的,不依赖于数据流。通常情况下,因为语义的关系相互有联系的语义块都会被一起访问,存储系统的应用也会遵从语义的关系来访问语义块。比如在访问一个文件块之前,网络文件系统(NFS,Network FileSystem)服务器需要去访问一个索引节点inode。同样的道理,一个数据库去访问子节点前肯定要去访问父节点。但由于存储系统中请求和事务的交叉,这些访问命令是不连续的,但是他们在某个段距离内是接近的;因而,在访问数据流中,某些语义块的访问依赖于前面已经被访问的语义块。
例如,在一个NFS文件服务器中,一个inode块通常与其对应的文件块分开存放,目录块与这个目录中文件的inode块分开存放。虽然在访问数据流中,这些语义块彼此联系,但是它们有可能分别存放在不同的磁盘上。在某些情况下,一个语义块的相关性有可能牵涉到多个语义块,如果前面有某些语义块被访问,那么下一个逻辑关联的语义块就很可能会被访问。
而目前,这些语义块的之间的语义关系的衡量没有用形式化的方法来表示,进而不能将数据块预取到缓存中,为了在存储系统的数据访问中,提高数据访问效率,本发明提供了一种量化语义块关系的方法及装置,所述方法包括:获取访问数据流;对所述访问数据流中的访问序列进行量化预处理,获取适合所述访问序列访问特征的各个语义块的长度,并量化统一所述各个语义块的地址;构建适合所述访问序列访问特征的基因表达式算法;根据所述基因表达式算法对所述各个训练语义块进行拟合,获取所述各个训练语义块之间的定量关系集合。
下面通过附图及具体实施例对本发明的技术方案做进一步的详细说明。
实施例一
本实施例提供一种量化语义块关系的方法,如图1所示,所述方法包括以下步骤:
步骤110,获取访问数据流。
本步骤中,可以从存储系统中的存储日志中直接获取访问数据流,所述访问数据流可以是动态的访问数据,也可以是静态的访问数据。
步骤111,对所述访问数据流中的访问序列进行量化预处理。
本步骤中,获取到所述访问数据流后,提取所述访问数据流中的访问序列,对所述访问序列进行量化预处理,建立动态访问数据流驱动下的语义块。具体地,通过对所述访问序列多次的分割长度选择,获取适合所述访问序列访问特征的各个语义块的长度,以适应基因表达式算法解的结构;并量化统一所述各个语义块的地址,提高访问效率。
这里,所述访问序列可以包括:文件访问trace序列,比如TPC-C trace或Cello-92等。
步骤112,构建适合所述访问序列访问特征的基因表达式算法。
本步骤中,构建适合所述访问序列访问特征的基因表达式算法时,首先要初始化所述访问序列的染色体种群,构造所述基因表达式算法解的结构。
具体地,设置染色体参数,利用均匀设计的思想,构造基因表达式算法解的结构,形成所述访问序列的染色体初始种群。其中,所述染色体参数包括:头长、函数符号集、变量符号集、尾长、基因个数及染色体个数等。所述均匀设计的目标是均匀的抽取少数元素来代表整个元素的集合,这样被抽取的元素就能代表均匀分布。这里,每个染色体对应一个解的结构,所述一个解的结构为一个语义块的语义关系定量表达式。
例如,一个染色体为{sqrt.*.+.*.a.*.sqrt.a.b.c/.1.-.c.d},按照树的中序遍历规则即可得到该染色体的语义块关系表达式
其次,计算所述染色体的适应值,根据预设的第一标准适应值对所述染色体进行淘汰,采用精英保留策略将距离小的染色体保留下。当距离越小,表明计算得出的适应值与第一标准适应值之间的差值越小。
其中,本实施例采用的是逻辑合成适应度函数来计算染色体的适应值。具体地,根据公式(1)(2)(3)来计算染色体的适应值。
f i = Σ j = 1 C t ( M - | C ( i , j ) - T ( j ) | ) - - - ( 1 )
f i = Σ j = 1 C t ( M - | C ( i , j ) - T ( j ) T ( j ) × 100 | ) - - - ( 2 )
所述公式(1)(2)用于解决染色体初始种群中测试数据集的符号回归,所述公式(3)用于逻辑合成;M为常量,用于控制适应度函数fi的取值范围,C(i,j)表示第i个基因对应的函数表达式中利用第j个样本变量数据求得的函数值;所述T(j)为第j个样本中包含的实际测得的该目标函数的真实值,Ct为测试样本数据的总数,n为正确适例的个数。
所述第一标准适应值是根据测试数据集在作用于适应度函数所得到的值预测的。
然后,根据预设的机率对保留下的所述染色体进行有限次迭代操作,所述染色体会收敛到一个最优解,所述最优解就是需要确定的所述染色体的高阶表达式。其中,预设的机率需要根据测试数据集的测试结果进行设定,一般为5%。
具体地,可按照预设的迭代次数循环步骤a~步骤b,收敛所述染色体,获取所述染色体的高阶表达式。其中,
步骤a为:根据预设的机率对保留下的所述染色体进行杂交、变异等遗传操作,获取所述染色体的子代;
步骤b为,计算所述染色体子代的第二适应值,根据预设的第二标准适应值对所述染色体子代进行淘汰。
这里,所述第二适应值的计算方法与所述第一适应值得计算方法相同,所述第二标准适应值的确定方法与所述第一标准适应值的确定方法相同。最后按照相同的方法,获取其他语义块的高阶表达式。
步骤113,根据所述基因表达式算法对所述各个语义块进行拟合,获取所述各个训练语义块之间的定量关系集合。
本步骤中,当获取到各个语义块的高阶表达式后,根据所述基因表达式算法计算所述各个语义块中每个语义块与其他语义块之间的高阶表达式,完成所述各个语义块的回归,获取所述各个语义块之间的定量关系集合。
比如,对于trace序列{a,b,c,d,e,f}进行拟合时,对所述trace序列进行预处理后,建立trace序列的语义块,通过对所述访问序列多次的分割长度选择,确定4为各个语义块适合的长度,利用滑动窗口法对各个语义块进行数据的训练,获取e=F(a,b,c,d)和f=F(b,c,d,e)两个高阶方程。
具体地,在存储系统中,基因表达式算法首先要对输入的访问序列做预处理,将访问序列分为固定长度的子序列。每个子序列称为一个窗口大小。将一个长的访问序列分为多个子序列可以有2种方法:第一种方法是有重复分割,第二种方法是无重复分割。有重复分割是指将访问序列分割后,各个子序列之间有块的重复。无重复分割是指将访问序列直接分为无重复块的等长子序列。为了提高计算效率,本实施例中利用滑动窗口法对各个语义块进行数据的训练时,采用无重复分割方法对访问序列进行分割。
例如,图2中是将访问序列{abcabdabeabf}分为长度为4的子序列。可以利用有重复分割的方法得到5个子序列{abca;cabd;bdab;abea;eabf},增加了子序列的个数。这里,可以看出{ca}这个子串被{abca}、{cabd}计算了2次,而在原序列中只出现了一次。因此利用有重复分割的方法很难计算被重复累积的子串。
无重复分割将原访问序列分割为3个子序列{abca;bdab;eabf},在该情况下,子串{ca}的支持度为3,但是子串{ca}在原序列中支持度为4。支持度丢失的原因是因为第二个ab被两个窗口分割开来。但实际在无重复分割中,当分割窗口很大时,子串的支持度损失是比较小的。在寻找语义块之间关联时,语义块之间的距离是被限制的,因而只有很少的子序列会被窗口分割。
从上述高阶方程的函数的具体形式中可以看出,语义块e和语义块f存在定量关系,语义块f作为语义块e的后续块,语义块e也被囊括语义块f的高阶方程中,并且具备一定的权重。并且随着滑动窗口的推移,语义块e和语义块f的特征也是随着数据流的特征而改变。
而传统的对trace的语义块进行时间序列分析时,均是通过训练某一段数据得到语义块之间的关系,对于后续块的访问并不能对已经训练得到的语义块的关系产生影响。
这里,还可以对trace序列的拟合结果进行有效性和可靠性的测试,以测试该方法适应动态变化访问特征的回归能力。具体地,可以对不同维度的语义块的高阶表达式进行有效性和可靠性的测试,来衡量一个语义块与其他语义块之间的定量关系。理论上来说,高阶表达式维度越高,语义块的语义关系越能得到准确的表达,但是时空消耗也最多。所以应当选择合适的表达式的维度,兼顾块的语义关系的有效性和时空消耗之间的平衡。
对拟合结果进行有效性和可靠性的测试可以是在两种情况下进行:第一,所述trace序列为单一访问特征的序列;第二,所述trace序列为复合访问特征的序列。
其中,所述单一访问特征是指有的trace序列适合顺序预取访问,如Cello-96序列,包含很多顺序访问模式;而有的序列可能适合多种访问模式,如顺序、无预取等等。
另外,实际应用中,本实施例可以通过获得各个语义块之间的定量关系集合进行数据块的预取,以对数据块进行缓存,提高数据访问效率。
具体地,预取和替换属于数据管理操作分级管理方案中的两个部分,预取属于主动式的管理方式。对数据块进行预取时,基因表达式算法会根据发现的规律形成一个高阶表达式,该高阶表达式是能对用户将要访问的数据做出迅速的预测。根据预测,会得出某个文件或者语义块即将被访问,就将某个文件或者语义块放到高一级的设备中,因为这样的块极其有可能被访问到,达到提高访问效率的目的。
例如,在进行预取操作时,已知访问序列{a,b,c,d,e,f}中,若存在{a、b},{a,c}这样的关系,那么当a出现的时,存储系统在预取b和预取c上存在较大的偶然性,定性表述语义块的语义关系必然带来预取的不确定性。但若语义块之间存在定量关系,则可以衡量a和b、c这两个语义块关系的权重,给预取操作带来更多的理论依据。
再比如,用一个定量表达式e=F(a,b,d)来表达语义块e和a、b、d的关系,那么语义块与语义块之间关系的权重可以由函数F确定。这样,与频繁访问序列{a,b,d,e}或者聚类的方法来形容语义块之间的关系相比,利用定量表达式来形容语义块之间的关系要更具体。
当然,本实施例可以通过获得各个语义块之间的定量关系集合进行数据块的数据放置、调度等数据管理操作。
本实施例提供的量化语义块关系的方法,通过对存储系统中多个语义块块之间的关系进行量化,依据实时数据流的变化,总结数据流的规律、推断各个语义块之间的定量表达的语义关系及权重关系,通过定量表达的语义关系能对用户将要访问的数据做出迅速的预测,对存储系统的数据块进行预取缓存,降低数据访问时磁盘的寻道和旋转延迟,缩短吞吐量和响应时间,达到高效访问的目的。
实施例二
相应于实施例一,本实施例还提供了一种量化语义块关系的装置,如图3所示,所述装置包括:获取单元31、预处理单元32、构建单元33、拟合单元34;其中,
所述获取单元31用于获取访问数据流;具体地,所述获取单元31可以从存储系统中的存储日志中直接获取访问数据流,所述访问数据流可以是动态的访问数据,也可以是静态的访问数据。
当所述获取单元31获取到访问数据流后,所述预处理单元32用于对所述访问数据流中的访问序列进行量化预处理,提取所述访问数据流中的访问序列,对所述访问序列进行量化预处理,建立动态访问数据流驱动下的语义块。具体地,通过对所述访问序列多次的分割长度选择,获取适合所述访问序列访问特征的各个语义块的长度,以适应基因表达式算法解的结构;并量化统一所述各个语义块的地址,提高访问效率。
这里,所述访问序列可以包括:文件访问trace序列,比如TPC-C trace或Cello-92等。
当所述预处理单元32用于对所述访问数据流中的访问序列进行量化预处理后,所述构建单元33用于构建适合所述访问序列访问特征的基因表达式算法;具体地,所述构建单元33首先要初始化所述访问序列的染色体种群,构造所述基因表达式算法解的结构。
具体地,所述构建单元33设置染色体参数,利用均匀设计的思想,构造基因表达式算法解的结构,形成所述访问序列的染色体初始种群。其中,所述染色体参数包括:头长、函数符号集、变量符号集、尾长、基因个数及染色体个数等。所述均匀设计的目标是均匀的抽取少数元素来代表整个元素的集合,这样被抽取的元素就能代表均匀分布。这里,每个染色体对应一个解的结构,所述一个解的结构为一个语义块的语义关系定量表达式。
例如,一个染色体为{sqrt.*.+.*.a.*.sqrt.a.b.c/.1.-.c.d},按照树的中序遍历规则即可得到该染色体的语义块关系表达式为
其次,所述构建单元33计算所述染色体的适应值,根据预设的第一标准适应值对所述染色体进行淘汰,采用精英保留策略将距离小的染色体保留下。当距离越小,表明计算得出的适应值与第一标准适应值之间的差值越小。
其中,本实施例采用的是逻辑合成适应度函数来计算染色体的适应值。具体地,根据公式(1)(2)(3)来计算染色体的适应值。
f i = Σ j = 1 C t ( M - | C ( i , j ) - T ( j ) | ) - - - ( 1 )
f i = Σ j = 1 C t ( M - | C ( i , j ) - T ( j ) T ( j ) × 100 | ) - - - ( 2 )
其中,所述公式(1)(2)用于解决染色体初始种群中测试数据集的符号回归,所述公式(3)用于逻辑合成;M为常量,用于控制适应度函数fi的取值范围,C(i,j)表示第i个基因对应的函数表达式中利用第j个样本变量数据求得的函数值;所述T(j)为第j个样本中包含的实际测得的该目标函数的真实值,Ct为测试样本数据的总数,n为正确适例的个数。
所述第一标准适应值是根据测试数据集在作用于适应度函数所得到的值预测的。
然后,所述构建单元33根据预设的机率对保留下的所述染色体进行有限次迭代操作,所述染色体会收敛到一个最优解,所述最优解就是需要确定的所述染色体的高阶表达式。其中,预设的机率需要根据测试数据集的测试结果进行设定,一般为5%。
具体地,所述构建单元33可按照预设的迭代次数循环步骤a~步骤b,收敛所述染色体,获取所述染色体的高阶表达式。其中,
步骤a为:根据预设的机率对保留下的所述染色体进行杂交、变异等遗传操作,获取所述染色体的子代;
步骤b为,计算所述染色体子代的第二适应值,根据预设的第二标准适应值对所述染色体子代进行淘汰。
这里,所述第二适应值的计算方法与所述第一适应值得计算方法相同,所述第二标准适应值的确定方法与所述第一标准适应值的确定方法相同。最后按照相同的方法,所述构建单元33获取其他语义块的高阶表达式。
当所述构建单元33获取到所有语义块的高阶表达式后,所述拟合单元34用于根据所述基因表达式算法对所述各个训练语义块进行拟合,获取所述各个训练语义块之间的定量关系集合。
比如,所述拟合单元34对于trace序列{a,b,c,d,e,f}进行拟合时,对所述trace序列进行预处理后,建立trace序列的语义块,通过对所述访问序列多次的分割长度选择,确定4为各个语义块适合的长度,利用滑动窗口法对各个语义块进行数据的训练,获取e=F(a,b,c,d)和f=F(b,c,d,e)两个高阶方程。具体地,在存储系统中,所述拟合单元34利用基因表达式算法首先要对输入的访问序列做预处理,将访问序列分为固定长度的子序列。每个子序列称为一个窗口大小。将一个长的访问序列分为多个子序列可以有2种方法:第一种方法是有重复分割,第二种方法是无重复分割。有重复分割是指将访问序列分割后,各个子序列之间有块的重复。无重复分割是指将访问序列直接分为无重复块的等长子序列。为了提高计算效率,本实施例中利用滑动窗口法对各个语义块进行数据的训练时,采用无重复分割方法对访问序列进行分割。
例如,图2中是将访问序列{abcabdabeabf}分为长度为4的子序列。可以利用有重复分割的方法得到5个子序列{abca;cabd;bdab;abea;eabf},增加了子序列的个数。这里,可以看出{ca}这个子串被{abca}、{cabd}计算了2次,而在原序列中只出现了一次。因此利用有重复分割的方法很难计算被重复累积的子串。
无重复分割将原访问序列分割为3个子序列{abca;bdab;eabf},在该情况下,子串{ca}的支持度为3,但是子串{ca}在原序列中支持度为4。支持度丢失的原因是因为第二个ab被两个窗口分割开来。但实际在无重复分割中,当分割窗口很大时,子串的支持度损失是比较小的。在寻找语义块之间关联时,语义块之间的距离是被限制的,因而只有很少的子序列会被窗口分割。
从上述高阶方程的函数的具体形式中可以看出,语义块e和语义块f存在定量关系,语义块f作为语义块e的后续块,语义块e也被囊括语义块f的高阶方程中,并且具备一定的权重。并且随着滑动窗口的推移,语义块e和语义块f的特征也是随着数据流的特征而改变。
而传统的对trace的语义块进行时间序列分析时,均是通过训练某一段数据得到语义块之间的关系,对于后续块的访问并不能对已经训练得到的语义块的关系产生影响。
这里,所述拟合单元34还可以对trace序列的拟合结果进行有效性和可靠性的测试,以测试该方法适应动态变化访问特征的回归能力。具体地,可以对不同维度的语义块的高阶表达式进行有效性和可靠性的测试,来衡量一个语义块与其他语义块之间的定量关系。理论上来说,高阶表达式维度越高,语义块的语义关系越能得到准确的表达,但是时空消耗也最多。所以应当选择合适的表达式的维度,兼顾块的语义关系的有效性和时空消耗之间的平衡。
所述拟合单元34对拟合结果进行有效性和可靠性的测试可以是在两种情况下进行:第一,所述trace序列为单一访问特征的序列;第二,所述trace序列为复合访问特征的序列。其中,所述单一访问特征是指有的trace序列适合顺序预取访问,如Cello-96序列,包含很多顺序访问模式;而有的序列可能适合多种访问模式,如顺序、无预取等等。
进一步地,所述装置还包括:预取单元35,实际应用中,预取单元35可以通过获得各个语义块之间的定量关系集合进行数据块的预取,以对数据块进行缓存,提高数据访问效率。
具体地,预取和替换属于数据管理操作分级管理方案中的两个部分,预取属于主动式的管理方式。所述预取单元35对数据块进行预取时,利用基因表达式算法会根据发现的规律形成一个高阶表达式,该高阶表达式是能对用户将要访问的数据做出迅速的预测。预取单元35根据预测,会得出某个文件或者语义块即将被访问,就将某个文件或者语义块放到高一级的设备中,因为这样的块极其有可能被访问到,达到提高访问效率的目的。
例如,所述预取单元35在进行预取操作时,已知访问序列{a,b,c,d,e,f}中,若存在{a、b},{a,c}这样的关系,那么当a出现的时,存储系统在预取b和预取c上存在较大的偶然性,定性表述语义块的语义关系必然带来预取的不确定性。但若语义块之间存在定量关系,则可以衡量a和b、c这两个语义块关系的权重,给预取操作带来更多的理论依据。
再比如,用一个定量表达式e=F(a,b,d)来表达语义块e和a、b、d的关系,那么语义块与语义块之间关系的权重可以由函数F确定。这样,与频繁访问序列{a,b,d,e}或者聚类的方法来形容语义块之间的关系相比,利用定量表达式来形容语义块之间的关系要更具体。
实际应用中,所述获取单元31、预处理单元32、构建单元33、拟合单元34及预取单元35可由该装置中的中央处理器(CPU,Central Processing Unit)、数字信号处理器(DSP,Digtal Signal Processor)、可编程逻辑阵列(FPGA,FieldProgrammable Gate Array)、微控制单元(MCU,Micro Controller Unit)实现。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种量化语义块关系的方法,其特征在于,所述方法包括:
获取访问数据流;
对所述访问数据流中的访问序列进行量化预处理,获取适合所述访问序列访问特征的各个语义块的长度,并量化统一所述各个语义块的地址;
构建适合所述访问序列访问特征的基因表达式算法;
根据所述基因表达式算法对所述各个语义块进行拟合,获取所述各个语义块之间的定量关系集合。
2.如权利要求1所述的方法,其特征在于,所述构建适合访问序列访问特征的基因表达式算法包括:
初始化所述访问序列的染色体种群,构造所述基因表达式算法解的结构;
计算染色体的第一适应值,根据预设的第一标准适应值对所述染色体进行淘汰;
根据预设的机率对保留下的所述染色体进行有限次迭代操作,确定所述染色体的高阶表达式。
3.如权利要求1所述的方法,其特征在于,根据预设的机率对保留下的所述染色体进行有限次迭代操作包括,确定所述染色体的高阶表达式:
步骤a,根据预设的机率对保留下的所述染色体进行杂交、变异操作,获取所述染色体的子代;
步骤b,计算所述染色体子代的第二适应值,根据预设的第二标准适应值对所述染色体子代进行淘汰;
按照预设的迭代次数循环步骤a~步骤b,收敛所述染色体,获取所述染色体的高阶表达式。
4.如权利要求1所述的方法,其特征在于,所述根据所述基因表达式算法对所述各个语义块进行拟合,获取所述各个语义块之间的定量关系集合包括:
根据所述基因表达式算法计算所述各个语义块中每个语义块与其他语义块之间的高阶表达式,完成所述各个语义块的回归,获取所述各个语义块之间的定量关系集合。
5.如权利要求1所述的方法,其特征在于,所述访问序列包括:trace序列。
6.一种量化语义块关系的装置,其特征在于,所述装置包括:
获取单元,所述获取单元用于获取访问数据流;
预处理单元,所述预处理单元用于对所述访问数据流中的访问序列进行量化预处理,获取适合所述访问序列访问特征的各个语义块的长度,并量化统一所述各个语义块的地址;
构建单元,所述构建单元用于构建适合所述访问序列访问特征的基因表达式算法;
拟合单元,所述拟合单元用于根据所述基因表达式算法对所述各个语义块进行拟合,获取所述各个语义块之间的定量关系集合。
7.如权利要求6所述的装置,其特征在于,所述构建单元用于构建适合所述访问序列访问特征的基因表达式算法包括:
所述构建单元初始化所述访问序列的染色体种群,构造所述基因表达式算法解的结构;
计算染色体的第一适应值,根据预设的第一标准适应值对所述染色体进行淘汰;
根据预设的机率对保留下的所述染色体进行有限次迭代操作,确定所述染色体的高阶表达式。
8.如权利要求7所述的装置,其特征在于,所述构建单元用于根据预设的机率对保留下的所述染色体进行有限次迭代操作,确定所述染色体的高阶表达式具体包括:
步骤a,根据预设的机率对保留下的所述染色体进行杂交、变异操作,获取所述染色体的子代;
步骤b,计算所述染色体子代的第二适应值,根据预设的第二标准适应值对所述染色体子代进行淘汰;
所述构建单元按照预设的迭代次数循环步骤a~步骤b,收敛所述染色体,获取所述染色体的高阶表达式。
9.如权利要求6所述的装置,其特征在于,所述拟合单元根据所述基因表达式算法对所述各个语义块进行拟合,获取所述各个语义块之间的定量关系集合包括:
所述拟合单元根据所述基因表达式算法计算所述各个语义块中每个语义块与其他语义块之间的高阶表达式,完成所述各个语义块的回归,获取所述各个语义块之间的定量关系集合。
10.如权利要求6所述的装置,其特征在于,所述访问序列包括:trace序列。
CN201510324120.1A 2015-06-12 2015-06-12 一种量化语义块关系的方法及装置 Pending CN104866248A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510324120.1A CN104866248A (zh) 2015-06-12 2015-06-12 一种量化语义块关系的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510324120.1A CN104866248A (zh) 2015-06-12 2015-06-12 一种量化语义块关系的方法及装置

Publications (1)

Publication Number Publication Date
CN104866248A true CN104866248A (zh) 2015-08-26

Family

ID=53912112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510324120.1A Pending CN104866248A (zh) 2015-06-12 2015-06-12 一种量化语义块关系的方法及装置

Country Status (1)

Country Link
CN (1) CN104866248A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919645A (zh) * 2017-01-17 2017-07-04 广西师范学院 复杂地貌大景区的景点气象要素智能精细预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1836234A (zh) * 2003-07-04 2006-09-20 麦迪赛尔公司 用于生物化学信息的信息管理系统
CN103399948A (zh) * 2013-08-16 2013-11-20 南京农业大学 一种基因组代谢网络初模型信息挖掘方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1836234A (zh) * 2003-07-04 2006-09-20 麦迪赛尔公司 用于生物化学信息的信息管理系统
CN103399948A (zh) * 2013-08-16 2013-11-20 南京农业大学 一种基因组代谢网络初模型信息挖掘方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈云亮: "分级存储系统中基于进化算法的数据管理与保护关键技术研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919645A (zh) * 2017-01-17 2017-07-04 广西师范学院 复杂地貌大景区的景点气象要素智能精细预测方法

Similar Documents

Publication Publication Date Title
Solomon et al. Fast search of thousands of short-read sequencing experiments
Zhou et al. An unsupervised model for exploring hierarchical semantics from social annotations
US10311096B2 (en) Online image analysis
CN113610239B (zh) 针对机器学习的特征处理方法及特征处理系统
CN110390408B (zh) 交易对象预测方法和装置
CN105718598A (zh) 基于at的时间模型构建方法与网络突发事件预警方法
CN113535984A (zh) 一种基于注意力机制的知识图谱关系预测方法及装置
EP3356951B1 (en) Managing a database of patterns used to identify subsequences in logs
CN104253855A (zh) 一种面向内容中心网络中基于内容分类的类别流行度缓存替换方法
CN104679738A (zh) 互联网热词挖掘方法及装置
CN111881447B (zh) 恶意代码片段智能取证方法及系统
Camac et al. Partitioning mortality into growth-dependent and growth-independent hazards across 203 tropical tree species
CN102479217A (zh) 一种分布式数据仓库中实现计算均衡的方法及装置
CN112395875A (zh) 一种关键词提取方法、装置、终端以及存储介质
US20210109912A1 (en) Multi-layered key-value storage
US11874798B2 (en) Smart dataset collection system
CN104598539A (zh) 一种互联网事件热度计算方法及终端
CN110968564B (zh) 一种数据处理方法及数据状态预测模型的训练方法
Zhu et al. Massive Files Prefetching Model Based on LSTM Neural Network with Cache Transaction Strategy.
CN106776370A (zh) 基于对象关联性评估的云存储方法及装置
Fageeri et al. An efficient log file analysis algorithm using binary-based data structure
Duan et al. Distributed in-memory vocabulary tree for real-time retrieval of big data images
CN104866248A (zh) 一种量化语义块关系的方法及装置
Mahinthakumar et al. Reconstructing groundwater source release histories using hybrid optimization approaches
Moise The technical hashtag in Twitter data: A hadoop experience

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150826