CN101105799A

CN101105799A - 评价文件重要性程度的方法

Info

Publication number: CN101105799A
Application number: CNA2007100529015A
Authority: CN
Inventors: 冯丹; 王芳; 夏鹏; 王娟; 庞丽萍; 周可; 华宇
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2007-08-02
Filing date: 2007-08-02
Publication date: 2008-01-16
Anticipated expiration: 2027-08-02
Also published as: CN101105799B

Abstract

评价文件重要性程度的方法，属于计算机存储技术领域，其目的是根据文件关联度对文件重要性程度进行量化评价，用于对重要性程度不同的文件采取相应策略。本发明包括：计算文件关联度步骤，计算文件重要性程度步骤；为方便起见，可以先建立访问链接图。本发明将文件访问关系和文件语义信息作为量化评价文件重要性程度的因素，能够更好的描述实际用户访问行为和文件特征，为提出优化策略提供了基础，在此基础上评价文件的重要性程度更加深入，更加具有价值，可以使机器能够自动的定量分析数据的重要性程度，并分而治之。

Description

评价文件重要性程度的方法

技术领域

本发明属于计算机存储技术领域，具体涉及一种评价文件重要性程度的方法。

背景技术

在存储领域中，一直有性能和价格的平衡，将最重要的数据放在最安全的设备上，将常被访问的数据放在性能最好的设备上，对整个系统的性能和安全性都是一个提升。传统的数据重要性的评价主要是根据访问频率或者访问时间间隔得到的热点数据进行被动式的记录，这已经远不能满足当今数据复杂性日益增大的存储需求。

在互联网领域，Google针对网页超级链接提出了页面级别(PageRank)技术，见L.Page，S.Brin，R.Motwani，and T.Winograd.The PageRank Citation Ranking：Bringing Order to the Web.Technicalreport，Stanford Digital Library Technologies Project，1998.，这种技术的核心就是通过网页链接的价值传递来计算一个网页的重要性，用这种技术对互联网上成千上万的网页按照其级别值进行排序。Google通过页面级别(PageRank)来调整搜索结果，使那些更具有重要性的网页在搜索结果中的网站排名获得提升，从而提高搜索结果的相关性和质量。在该技术中，网页链接的访问矩阵中的文件关联度仅仅用1(代表有访问关联)或者0(代表无访问关联)来表示。而在存储系统中文件访问关联度仅仅用1(代表有访问关联)或者0(代表无访问关联)来表示是不够的，而应当是能够体现相互关联度的一个范围，从0到1的一个值表示两个文件相关性的高低，1表示完全相关，0表示完全不相关。

文件的关联度研究主要涵盖了两个方面：一个是语义方面的研究，见David K.Gifford，Pierre Jouvelot，Mark A.Sheldon，James W.O’Toole，Jr.，Semantic file systems，Proceedings of the thirteenthACM symposium on Operating systems principles，p.16-25，October13-16，1991，Pacific Grove，Caiifornia，United States[doi＞10.1145/121133.121138]；另一个则是关联度量化及性能评价方面的研究，见Geoffrey(Zhengfu)Liu.Semantic vector space model：Implementation and evaluation.Journal of the American Society forInformation Science，1997.48(5)，395-417。语义文件系统最早从传统的文件系统中提取语义方面的信息，并提出相应的策略；关联性量化和性能评价方面的研究更多的体现在对语义向量相关性的计算方面，语义向量空间模型提出将语义向量通过矩阵的模型来表示，并提出计算不同语义向量之间匹配度的方法。通过这种对语义向量的量化分析，更容易显式的评价出各种语义的关联情况。仅仅针对提取的语义信息来评价两个文件之间的关联度而忽略了文件间访问次序的关系，会造成实际不可能发生访问次序的两个高语义相关性文件对象之间评价产生误差。

基于文件访问次序的预取算法从另一个角度即文件访问次序方面关注了文件的关联度，见Thomas Kroeger，Darrell D.E.Long，The casefor efficient file access pattern modeling，Proceedings of the 7thIEEE Workshop on Hot Topics in Operating Systems(HotOS-VII)，March1999，pages 14-19。而对文件访问关系的描述现在依旧停留在人为主观的为其赋予初值并根据“访问距离”远近递减的阶段。这实际上是一个粗略的文件访问关系的评价。

上述的算法均将文件访问次序和文件语义信息分隔开来研究，文件的访问次序与访问程序有关，与系统有关，所有这些都不是人可以控制的，即文件访问次序不一定能够表现用户的实际的访问功能次序，因为在系统中CPU具有线程调度功能，不同的线程会轮流被调入访问，那么这些线程所涉及的文件也会依次被访问，哪怕这两个文件没有任何的关联性，在这样的情况下对文件次序的记录会有相当的误差；即使考虑访问程序这个因素也不能够完全保证，因为很多关联访问由于文件类型的对象不同会涉及到不同程序，尤其是在分布式的存储系统中，如果仅考虑程序而不考虑其他因素，诸如用户权限，安全级别的话，那么不考虑文件关联的访问次序的记录实际上总会有相当大的误差。同样的，针对提取的语义信息来评价关联度而忽略了访问次序的关系，造成对实际不可能发生访问次序的两个高语义相关性文件对象的关联度评价产生误差。

发明内容

本发明提出一种评价文件重要性程度的方法，其目的是根据文件关联度对文件重要性程度进行量化的评价，用于对重要性程度不同的文件采取相应策略。

本发明的一种评价文件重要性程度的方法，顺序包括：

(1)计算文件关联度步骤，用语义向量S_i＝{V_i1，V_i2……V_in}表示文件F_i的语义，每一个语义向量元素V_ix表示该文件的一个语义属性，1＜x＜n，类似地，S_j＝{V_j1，V_j2，……V_jn}表示文件F_j的语义，计算文件F_i到文件F_j的关联度W(F_i，F_j)：

W(F_i，F_j)＝p×Sim(S_i，S_j)+(1-p)×AP(F_i，F_j)

式中，文件F_i和文件F_j的语义向量相似度Sim(S_i，S_j)：

Sim (S_{i}, S_{j}) = \frac{| S_{i} \cap S_{j} |}{| \max (S_{i}, S_{j}) |}

|S_i∩S_j|表示文件F_i和文件F_j中语义向量元素值相同的个数，max(S_i，S_j)表示文件F_i和文件F_j中最多的语义向量元素个数；

访问文件F_i后再访问文件F_j的访问概率AP(F_i，F_j)：

AP(F_i，F_j)＝N_ij/N_i

N_i为文件F_i的访问次数，N_ij为访问文件F_i后再访问文件F_j的访问次数；权值p取值范围为[0，1]；

(2)计算文件重要性程度步骤，

文件F_j的重要性程度R_j为：

R_{j} = \underset{F_{i} &Element; S_{j}}{Σ} \frac{R_{i} \times W (F_{i}, F_{j}) \times Q}{N O_{i}} + (1 - Q)

其中，文件F_i传递给它链接的文件F_j的重要性程度值R_ij为：

R_ij＝R_i×W(F_i，F_j)/NO_i

建立下列每个访问文件重要性程度的方程组，求解得到每一个访问文件的重要性程度：

R_{1} = \underset{F_{x} &Element; S_{1}}{Σ} \frac{R_{x} \times W (F_{x}, F_{1}) \times Q}{N O_{x}} + (1 - Q)

……

R_{j} = \underset{F_{i} &Element; S_{j}}{Σ} \frac{R_{i} \times W (F_{i}, F_{j}) \times Q}{N O_{i}} + (1 - Q)

……

上述方程组中，S₁为所有链接到文件F₁的文件的集合，链接到文件F₁的文件之一F_x的重要性程度R_x，文件F_x到文件F₁的关联度W(F_x，F₁)，文件F_x链出链接的个数NO_x；S_j为所有链接到文件F_j的文件的集合，链接到文件F_j的文件之一F_i的重要性程度R_i，文件F_i到文件F_j的关联度W(F_i，F_j)，文件F_i链出链接的个数NO_i；跳转因子Q取值范围为[0，1]。

所述的评价文件重要性程度的方法，其特征在于，所述计算文件关联度步骤之前，先按照文件访问次序建立一个访问链接图G(F，L)，其中F表示每一个访问的文件F_i、F_j、…的集合，L表示文件之间有向链接的集合，有向链接表示源文件和目标文件的访问次序。

所述的评价文件重要性程度的方法，其特征在于，所述计算文件关联度步骤中，所述语义向量中的各语义向量元素V_ix分别为进程、用户名、一级路径名、二级路径名，…，各表示该文件的一个语义属性。

本发明以图的形式表示文件关系，以有向链接的形式表示访问次序的关系，并通过对源文件到目标文件的关联度来表示该有向链接的两个文件的关联度，这是计算文件重要程度的基础。在计算文件的重要性程度值的过程中，由于对文件关系予以量化，使得以数学方式的研究文件访问特性对结果的影响成为可能。

本发明利用文件关联度来评价访问次序的链接，更加符合现实中文件关系的特性。在存储系统中，为了提高IO性能，将文件关联度高的小文件合并成大文件进行统一操作，可以增加带宽的流量，从而提高整个系统的性能。根据统计文件的平均大小大概在150KB到300KB之间，尤其是1M以下的文件占到了整个文件数量的99％，所以通过定量的评价文件之间的关联度，为提出优化策略提供了基础，在此基础上评价文件的重要性程度将会更加深入，更加具有价值。本发明可以使机器能够自动的定量分析数据的重要性程度，并分而治之。

附图说明

图1为本发明流程框图；

图2为本发明实施例建立的三个文件之间的访问链接图；

图3为本发明计算关联度步骤中计算语义向量相似度的实例；

图4为本发明计算关联度步骤中计算文件间访问概率的实例；

图5为根据图2、图3、图4所建立的三个文件之间的访问链接图及其关联度评价。

具体实施方式

下面举例对本发明加以说明。

首先可以建立文件访问链接图，如图2所示，文件F_j的后继文件分别为文件F_i和文件F_m，文件F_m的后继文件为文件F_i，文件F_i的后继文件为文件F_j。然后，需要计算文件之间的关联度，文件的关联度和它们之间的语义向量相似度以及访问概率有关，图3为一个实际的计算语义向量相似度的例子。从图3中(1)的部分可以看到，每一个文件的信息都分为访问进程，用户名和各级路径名，将这些信息表示成为形如{V₁，V₂……V_n}的语义向量，其中语义向量元素分别为进程、用户名、一级路径名、二级路径名，…，如图3中(1)、(2)所示，其中中间一个文件的进程名：AdobeReader.exe，用户名：李明，文件路径名：/论文/对象存储/对象级别/xxx.PDF；其语义向量可以表示为{AdobeReader，李明，论文，对象存储，对象级别}。然后利用公式计算两个语义向量之间的相似度，如图3中(3)所示。从上面的计算我们可以看到，max(S_i，S_j)表示文件F_i和文件F_j中最多的语义向量元素个数，这里是5，|S_i∩S_j|表示文件F_i和文件F_j中语义向量元素值相同的个数，这里是2。所以文件F_i和文件F_j之间的语义向量相似度Sim(S_j，S_j)＝0.4，同理计算出其它文件两两之间的语义向量相似度。

图4展示的是每个文件的访问次数以及访问该文件后访问其后继文件的次数，利用公式可以计算出两两文件之间的访问概率，如文件F_j的后继文件分别为文件F_i和文件F_m，其中文件F_j总共被访问了5次，这5次访问中有2次接着访问了文件F_m，有3次接着访问了文件F_i，那么计算出的结果就是从文件F_j到文件F_m的访问概率是0.4，而从文件F_j到文件F_i的访问概率是0.6。

在得到了文件之间的语义向量相似度和访问概率后就可以计算文件之间的关联度，利用公式：

W(F_i，F_j)＝p×Sim(S_i，S_j)+(1-p)×AP(F_i，F_j)

这里权重P可以为0.5，于是计算出W(F_i，F_j)的值为0.7，按照同样的方法可以求得其它文件之间链接的关联度。图5描述了三个文件之间的访问关系图及其关联度评价。

利用访问关系图和计算文件重要性程度公式可以建立以下方程组，这里跳转因子Q可以取0.5：

R_i＝0.5+0.5×(R_j×0.5/2+R_m×0.6)

R_j＝0.5+0.5×R_i×0.7

R_m＝0.5+0.5×R_j×0.6/2

计算该方程组得到三个文件的重要性程度：R_i＝0.7815，R_j＝0.7735，R_m＝0.6160.我们可以对结果进行分析，从图5可以看到文件F_i被文件F_j和文件F_m链入，并且在图4中它的访问频率也是最高的，所以它的重要性程度最高。文件F_j和文件F_m虽然链入链接的个数一样，但是链接到文件F_j的文件F_i的重要性程度相对较高，所以文件F_j的重要性高于文件F_m。

Claims

1.一种评价文件重要性程度的方法，顺序包括：

(1)计算文件关联度步骤，用语义向量S_i＝{V_i1，V_i2，……V_in}表示文件F_i的语义，每一个语义向量元素V_ix表示该文件的一个语义属性，1＜x＜n，类似地，S_j＝{V_j1，V_j2，……V_jn}表示文件F_j的语义，计算文件F_i到文件F_j的关联度W(F_i，F_j)：

W(F_i，F_j)＝p×Sim(S_i，S_j)+(1-p)×AP(F_i，F_j)

式中，文件F_i和文件F_j的语义向量相似度Sim(S_i，S_j)：

Sim (S_{i}, S_{j}) = \frac{{| S}_{i} \cap S_{j} |}{| \max (S_{i}, S_{j}) |}

访问文件F_i后再访问文件F_j的访问概率AP(F_i，F_j)：

AP(F_i，F_j)＝N_ij/N_i

(2)计算文件重要性程度步骤，

文件F_j的重要性程度R_j为：

R_{j} = \underset{F_{i} &Element; S_{j}}{Σ} \frac{R_{i} \times W (F_{i}, F_{j}) \times Q}{{NQ}_{i}} + (1 - Q)

其中，文件F_i传递给它链接的文件F_j的重要性程度值R_ij为：

R_ij＝R_i×W(F_i，F_j)/NO_i

R_{1} = \underset{F_{x} &Element; S_{1}}{Σ} \frac{R_{x} \times W (F_{x}, F_{1}) \times Q}{{NO}_{x}} + (1 - Q)

……

R_{j} = \underset{F_{i} &Element; S_{j}}{Σ} \frac{R_{i} \times W (F_{i}, F_{j}) \times Q}{{NO}_{i}} + (1 - Q)

……

2.如权利要求1所述的评价文件重要性程度的方法，其特征在于，所述计算文件关联度步骤之前，先按照文件访问次序建立一个访问链接图G(F，L)，其中F表示每一个访问的文件F_i、F_j、…的集合，L表示文件之间有向链接的集合，有向链接表示源文件和目标文件的访问次序。

3.如权利要求1或2所述的评价文件重要性程度的方法，其特征在于，所述计算文件关联度步骤中，所述语义向量中的各语义向量元素V_ix分别为进程、用户名、一级路径名、二级路径名，…，各表示该文件的一个语义属性。