CN101105799B - 评价文件重要性程度的方法 - Google Patents
评价文件重要性程度的方法 Download PDFInfo
- Publication number
- CN101105799B CN101105799B CN2007100529015A CN200710052901A CN101105799B CN 101105799 B CN101105799 B CN 101105799B CN 2007100529015 A CN2007100529015 A CN 2007100529015A CN 200710052901 A CN200710052901 A CN 200710052901A CN 101105799 B CN101105799 B CN 101105799B
- Authority
- CN
- China
- Prior art keywords
- file
- degree
- access
- importance
- importance degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 32
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000011156 evaluation Methods 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000011158 quantitative evaluation Methods 0.000 abstract description 3
- 230000006399 behavior Effects 0.000 abstract 1
- 239000011159 matrix material Substances 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012917 library technology Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
评价文件重要性程度的方法,属于计算机存储技术领域,其目的是根据文件关联度对文件重要性程度进行量化评价,用于对重要性程度不同的文件采取相应策略。本发明包括:计算文件关联度步骤,计算文件重要性程度步骤;为方便起见,可以先建立访问链接图。本发明将文件访问关系和文件语义信息作为量化评价文件重要性程度的因素,能够更好的描述实际用户访问行为和文件特征,为提出优化策略提供了基础,在此基础上评价文件的重要性程度更加深入,更加具有价值,可以使机器能够自动的定量分析数据的重要性程度,并分而治之。
Description
技术领域
本发明属于计算机存储技术领域,具体涉及一种评价文件重要性程度的方法。
背景技术
在存储领域中,一直有性能和价格的平衡,将最重要的数据放在最安全的设备上,将常被访问的数据放在性能最好的设备上,对整个系统的性能和安全性都是一个提升。传统的数据重要性的评价主要是根据访问频率或者访问时间间隔得到的热点数据进行被动式的记录,这已经远不能满足当今数据复杂性日益增大的存储需求。
在互联网领域,Google针对网页超级链接提出了页面级别(PageRank)技术,见L.Page,S.Brin,R.Motwani,and T.Winograd.The PageRank Citation Ranking:Bringing Order to the Web.Technicalreport,Stanford Digital Library Technologies Project,1998.,这种技术的核心就是通过网页链接的价值传递来计算一个网页的重要性,用这种技术对互联网上成千上万的网页按照其级别值进行排序。Google通过页面级别(PageRank)来调整搜索结果,使那些更具有重要性的网页在搜索结果中的网站排名获得提升,从而提高搜索结果的相关性和质量。在该技术中,网页链接的访问矩阵中的文件关联度仅仅用1(代表有访问关联)或者0(代表无访问关联)来表示。而在存储系统中文件访问关联度仅仅用1(代表有访问关联)或者0(代表无访问关联)来表示是不够的,而应当是能够体现相互关联度的一个范围,从0到1的一个值表示两个文件相关性的高低,1表示完全相关,0表示完全不相关。
文件的关联度研究主要涵盖了两个方面:一个是语义方面的研究,见David K.Gifford,Pierre Jouvelot,Mark A.Sheldon,James W.O’Toole,Jr.,Semantic file systems,Proceedings of the thirteenthACM symposium on Operating systems principles,p.16-25,October13-16,1991,Pacific Grove,California,United States[doi>10.1145/121133.121138];另一个则是关联度量化及性能评价方面的研究,见Geoffrey(Zhengfu)Liu.Semantic vector space model:Implementation and evaluation.Journal of the American Society forInformation Science,1997.48(5),395-417。语义文件系统最早从传统的文件系统中提取语义方面的信息,并提出相应的策略;关联性量化和性能评价方面的研究更多的体现在对语义向量相关性的计算方面,语义向量空间模型提出将语义向量通过矩阵的模型来表示,并提出计算不同语义向量之间匹配度的方法。通过这种对语义向量的量化分析,更容易显式的评价出各种语义的关联情况。仅仅针对提取的语义信息来评价两个文件之间的关联度而忽略了文件间访问次序的关系,会造成实际不可能发生访问次序的两个高语义相关性文件对象之间评价产生误差。
基于文件访问次序的预取算法从另一个角度即文件访问次序方面关注了文件的关联度,见Thomas Kroeger,Darrell D.E.Long,The casefor efficient file access pattern modeling,Proceedings of the 7thIEEE Workshop on Hot Topics in Operating Systems(HotOS-VII),March1999,pages 14-19。而对文件访问关系的描述现在依旧停留在人为主观的为其赋予初值并根据“访问距离”远近递减的阶段。这实际上是一个粗略的文件访问关系的评价。
上述的算法均将文件访问次序和文件语义信息分隔开来研究,文件的访问次序与访问程序有关,与系统有关,所有这些都不是人可以控制的,即文件访问次序不一定能够表现用户的实际的访问功能次序,因为在系统中CPU具有线程调度功能,不同的线程会轮流被调入访问,那么这些线程所涉及的文件也会依次被访问,哪怕这两个文件没有任何的关联性,在这样的情况下对文件次序的记录会有相当的误差;即使考虑访问程序这个因素也不能够完全保证,因为很多关联访问由于文件类型的对象不同会涉及到不同程序,尤其是在分布式的存储系统中,如果仅考虑程序而不考虑其他因素,诸如用户权限,安全级别的话,那么不考虑文件关联的访问次序的记录实际上总会有相当大的误差。同样的,针对提取的语义信息来评价关联度而忽略了访问次序的关系,造成对实际不可能发生访问次序的两个高语义相关性文件对象的关联度评价产生误差。
发明内容
本发明提出一种评价文件重要性程度的方法,其目的是根据文件关联度对文件重要性程度进行量化的评价,用于对重要性程度不同的文件采取相应策略。
本发明的一种评价文件重要性程度的方法,顺序包括:
(1)计算文件关联度步骤,用语义向量Si={Vi1,Vi2,……Vin}表示文件Fi的语义,每一个语义向量元素Vix表示该文件的一个语义属性,1≤x≤n,语义向量Sj={Vj1,Vj2,……Vjn}表示文件Fj的语义,计算文件Fi到文件Fj的关联度W(Fi,Fj):
W(Fi,Fj)=p×Sim(Si,Sj)+(1-p)×AP(Fi,Fj)
式中,文件Fi和文件Fj的语义向量相似度Sim(Si,Sj):
|Si∩Sj|表示文件Fi和文件Fj中语义向量元素值相同的个数,max(Si,Sj)表示文件Fi和文件Fj中最多的语义向量元素个数;
访问文件Fi后再访问文件Fj的访问概率AP(Fi,Fj):
AP(Fi,Fj)=Nij/Ni
Ni为文件Fi的访问次数,Nij为访问文件Fi后再访问文件Fj的访问次数;权值p取值范围为[0,1];
(2)计算文件重要性程度步骤,
文件Fj的重要性程度Rj为:
其中,文件Fi传递给它链接的文件Fj的重要性程度值Rij为:
Rij=Ri×W(Fi,Fj)/NOi
建立下列每个访问文件重要性程度的方程组,求解得到每一个访问文件的重要性程度:
上述方程组中,文件F1的重要性程度R1,S1为所有链接到文件F1的文件的集合,链接到文件F1的文件之一Fx的重要性程度Rx,文件Fx到文件F1的关联度W(Fx,F1),文件Fx链出链接的个数NOx;Sj为所有链接到文件Fj的文件的集合,链接到文件Fj的文件之一Fi的重要性程度Ri,文件Fi到文件Fj的关联度W(Fi,Fj),文件Fi链出链接的个数NOi;跳转因子Q取值范围为[0,1]。
所述的评价文件重要性程度的方法,其特征在于,所述计算文件关联度步骤之前,先按照文件访问次序建立一个访问链接图G(F,L),其中F表示每一个访问的文件的集合,L表示文件之间有向链接的集合,有向链接表示源文件和目标文件的访问次序。
所述的评价文件重要性程度的方法,其特征在于,所述计算文件关联度步骤中,所述语义向量中的各语义向量元素Vix分别为进程、用户名、一级路径名、二级路径名、…,各表示该文件的一个语义属性。
本发明以图的形式表示文件关系,以有向链接的形式表示访问次序的关系,并通过对源文件到目标文件的关联度来表示该有向链接的两个文件的关联度,这是计算文件重要程度的基础。在计算文件的重要性程度值的过程中,由于对文件关系予以量化,使得以数学方式的研究文件访问特性对结果的影响成为可能。
本发明利用文件关联度来评价访问次序的链接,更加符合现实中文件关系的特性。在存储系统中,为了提高IO性能,将文件关联度高的小文件合并成大文件进行统一操作,可以增加带宽的流量,从而提高整个系统的性能。根据统计文件的平均大小大概在150KB到300KB之间,尤其是1M以下的文件占到了整个文件数量的99%,所以通过定量的评价文件之间的关联度,为提出优化策略提供了基础,在此基础上评价文件的重要性程度将会更加深入,更加具有价值。本发明可以使机器能够自动的定量分析数据的重要性程度,并分而治之。
附图说明
图1为本发明流程框图;
图2为本发明实施例建立的三个文件之间的访问链接图;
图3为本发明计算关联度步骤中计算语义向量相似度的实例;
图4为本发明计算关联度步骤中计算文件间访问概率的实例;
图5为根据图2、图3、图4所建立的三个文件之间的访问链接图及其关联度评价。
具体实施方式
下面举例对本发明加以说明。
首先可以建立文件访问链接图,如图2所示,文件Fj的后继文件分别为文件Fi和文件Fm,文件Fm的后继文件为文件Fi,文件Fi的后继文件为文件Fj。然后,需要计算文件之间的关联度,文件的关联度和它们之间的语义向量相似度以及访问概率有关,图3为一个实际的计算语义向量相似度的例子。从图3中(1)的部分可以看到,每一个文件的信息都分为访问进程,用户名和各级路径名,将这些信息表示成为形如{V1,V2……Vn}的语义向量,其中语义向量元素分别为进程、用户名、一级路径名、二级路径名,…,如图3中(1)、(2)所示,其中中间一个文件的进程名:AdobeReader.exe,用户名:李明,文件路径名:/论文/对象存储/对象级别/xxx.PDF;其语义向量可以表示为{AdobeReader,李明,论文,对象存储,对象级别}。然后利用公式计算两个语义向量之间的相似度,如图3中(3)所示。从上面的计算我们可以看到,max(Si,Sj)表示文件Fi和文件Fj中最多的语义向量元素个数,这里是5,|Si∩Sj|表示文件Fi和文件Fj中语义向量元素值相同的个数,这里是2。所以文件Fi和文件Fj之间的语义向量相似度Sim(Si,Sj)=0.4,同理计算出其它文件两两之间的语义向量相似度。
图4展示的是每个文件的访问次数以及访问该文件后访问其后继文件的次数,利用公式可以计算出两两文件之间的访问概率,如文件Fj的后继文件分别为文件Fi和文件Fm,其中文件Fj总共被访问了5次,这5次访问中有2次接着访问了文件Fm,有3次接着访问了文件Fi,那么计算出的结果就是从文件Fj到文件Fm的访问概率是0.4,而从文件Fj到文件Fi的访问概率是0.6。
在得到了文件之间的语义向量相似度和访问概率后就可以计算文件之间的关联度,利用公式:
W(Fi,Fj)=p×Sim(Si,Sj)+(1-p)×AP(Fi,Fj)
这里权重P可以为0.5,于是计算出W(Fi,Fj)的值为0.7,按照同样的方法可以求得其它文件之间链接的关联度。图5描述了三个文件之间的访问关系图及其关联度评价。
利用访问关系图和计算文件重要性程度公式可以建立以下方程组,这里跳转因子Q可以取0.5:
Ri=0.5+0.5×(Rj×0.5/2+Rm×0.6)
Rj=0.5+0.5×Ri×0.7
Rm=0.5+0.5×Rj×0.6/2
计算该方程组得到三个文件的重要性程度:Ri=0.7815,Rj=0.7735,Rm=0.6160.我们可以对结果进行分析,从图5可以看到文件Fi被文件Fj和文件Fm链入,并且在图4中它的访问频率也是最高的,所以它的重要性程度最高。文件Fj和文件Fm虽然链入链接的个数一样,但是链接到文件Fj的文件Fi的重要性程度相对较高,所以文件Fj的重要性高于文件Fm。
Claims (2)
1.一种评价文件重要性程度的方法,顺序包括:
(1)计算文件关联度步骤,用语义向量Si={Vi1,Vi2,……Vin}表示文件Fi的语义,每一个语义向量元素Vix表示该文件的一个语义属性,1≤x≤n;语义向量Sj={Vj1,Vj2,……Vjn}表示文件Fj的语义,计算文件Fi到文件Fj的关联度W(Fi,Fj):
W(Fi,Fj)=p×Sim(Si,Sj)+(1-p)×AP(Fi,Fj)
式中,文件Fi和文件Fj的语义向量相似度Sim(Si,Sj):
|Si∩Sj|表示文件Fi和文件Fj中语义向量元素值相同的个数,max(Si,Sj)表示文件Fi和文件Fj中最多的语义向量元素个数;
访问文件Fi后再访问文件Fj的访问概率AP(Fi,Fj):
AP(Fi,Fj)=Nij/Ni
Ni为文件Fi的访问次数,Nij为访问文件Fi后再访问文件Fj的访问次数;权值p取值范围为[0,1];
(2)计算文件重要性程度步骤,
文件Fj的重要性程度Rj为:
其中,文件Fi传递给它链接的文件Fj的重要性程度值Rij为:
Rij=Ri×W(Fi,Fj)/NOi
建立下列每个访问文件重要性程度的方程组,求解得到每一个访问文件的重要性程度:
上述方程组中,文件F1的重要性程度R1,S1为所有链接到文件F1的文件的集合,链接到文件F1的文件之一Fx的重要性程度Rx,文件Fx到文件F1的关联度W(Fx,F1),文件Fx链出链接的个数NOx;Sj为所有链接到文件Fj的文件的集合,链接到文件Fj的文件之一Fi的重要性程度Ri,文件Fi到文件Fj的关联度W(Fi,Fj),文件Fi链出链接的个数NOi;跳转因子Q取值范围为[0,1]。
2.如权利要求1所述的评价文件重要性程度的方法,其特征在于,所述计算文件关联度步骤之前,先按照文件访问次序建立一个访问链接图G(F,L),其中F表示每一个访问的文件的集合,L表示文件之间有向链接的集合,有向链接表示源文件和目标文件的访问次序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007100529015A CN101105799B (zh) | 2007-08-02 | 2007-08-02 | 评价文件重要性程度的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007100529015A CN101105799B (zh) | 2007-08-02 | 2007-08-02 | 评价文件重要性程度的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101105799A CN101105799A (zh) | 2008-01-16 |
CN101105799B true CN101105799B (zh) | 2010-04-07 |
Family
ID=38999697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007100529015A Expired - Fee Related CN101105799B (zh) | 2007-08-02 | 2007-08-02 | 评价文件重要性程度的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101105799B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100169326A1 (en) * | 2008-12-31 | 2010-07-01 | Nokia Corporation | Method, apparatus and computer program product for providing analysis and visualization of content items association |
CN101770339B (zh) | 2009-01-05 | 2012-12-19 | 深圳富泰宏精密工业有限公司 | 使用者行为追踪及记录系统与方法 |
CN102117324B (zh) * | 2011-02-24 | 2012-09-05 | 上海北大方正科技电脑系统有限公司 | 应用模糊矩阵的文件管理方法及管理系统 |
CN105335363B (zh) * | 2014-05-28 | 2018-12-07 | 华为技术有限公司 | 一种对象推送方法及系统 |
CN106202070A (zh) * | 2015-04-29 | 2016-12-07 | 中国电信股份有限公司 | 文件存储处理方法与系统 |
CN106682020B (zh) * | 2015-11-10 | 2021-01-26 | 北京京东尚科信息技术有限公司 | 评估模型重要性的方法和装置 |
CN110069466B (zh) * | 2019-04-15 | 2021-02-19 | 武汉大学 | 一种面向分布式文件系统的小文件存储方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1341899A (zh) * | 2000-09-07 | 2002-03-27 | 国际商业机器公司 | 为文字文档自动生成摘要的方法 |
CN1912874A (zh) * | 2006-08-30 | 2007-02-14 | 北京大学 | 一种提取见报资料数据信息的方法 |
-
2007
- 2007-08-02 CN CN2007100529015A patent/CN101105799B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1341899A (zh) * | 2000-09-07 | 2002-03-27 | 国际商业机器公司 | 为文字文档自动生成摘要的方法 |
CN1912874A (zh) * | 2006-08-30 | 2007-02-14 | 北京大学 | 一种提取见报资料数据信息的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101105799A (zh) | 2008-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bilal et al. | Big Data in the construction industry: A review of present status, opportunities, and future trends | |
CN101105799B (zh) | 评价文件重要性程度的方法 | |
Borges et al. | Evaluating variable-length markov chain models for analysis of user web navigation sessions | |
CN1702654B (zh) | 计算显示页面中块的重要度的方法和系统 | |
AU2020101885A4 (en) | A Novel Tensor Factorization Using Trust and Rating for Recommendation, system and method thereof | |
CN104361102B (zh) | 一种基于群组匹配的专家推荐方法及系统 | |
CN105069103A (zh) | App搜索引擎利用用户评论的方法及系统 | |
Wagh et al. | Enhanced web personalization for improved browsing experience | |
US11269896B2 (en) | System and method for automatic difficulty level estimation | |
Salminen et al. | Using machine learning to predict ranking of webpages in the gift industry: factors for search-engine optimization | |
Santamarina et al. | How to code a million missions: Developing bespoke nonprofit activity codes using machine learning algorithms | |
CN113010771B (zh) | 搜索引擎中的个性化语义向量模型的训练方法及装置 | |
Zhang et al. | A multi-level matching method with hybrid similarity for document retrieval | |
Aliakbary et al. | Web page classification using social tags | |
Ullah et al. | Estimation of finite population mean in simple and stratified random sampling by utilizing the auxiliary, ranks, and square of the auxiliary information | |
Amzad et al. | Tourism recommendation system: a systematic review | |
CN117009621A (zh) | 信息搜索方法、装置、电子设备、存储介质及程序产品 | |
Silva et al. | Design and development of a custom system of technology surveillance and competitive intelligence in SMEs | |
Poornima et al. | Prediction of water consumption using machine learning algorithm | |
Twardowski et al. | Metric learning for session-based recommendations | |
JP6617605B2 (ja) | 需要量予測プログラム、需要量予測方法、及び情報処理装置 | |
Wilson et al. | Fuzzy logic ranking for personalized geographic information retrieval | |
Antoniou et al. | Context-similarity based hotlinks assignment: Model, metrics and algorithm | |
Maratea et al. | An heuristic approach to page recommendation in web usage mining | |
Sejal et al. | Wnpwr: Web navigation prediction framework for webpage recommendation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100407 |