CN101105799A - 评价文件重要性程度的方法 - Google Patents

评价文件重要性程度的方法 Download PDF

Info

Publication number
CN101105799A
CN101105799A CNA2007100529015A CN200710052901A CN101105799A CN 101105799 A CN101105799 A CN 101105799A CN A2007100529015 A CNA2007100529015 A CN A2007100529015A CN 200710052901 A CN200710052901 A CN 200710052901A CN 101105799 A CN101105799 A CN 101105799A
Authority
CN
China
Prior art keywords
file
document
importance
degree
access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007100529015A
Other languages
English (en)
Other versions
CN101105799B (zh
Inventor
冯丹
王芳
夏鹏
王娟
庞丽萍
周可
华宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN2007100529015A priority Critical patent/CN101105799B/zh
Publication of CN101105799A publication Critical patent/CN101105799A/zh
Application granted granted Critical
Publication of CN101105799B publication Critical patent/CN101105799B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

评价文件重要性程度的方法,属于计算机存储技术领域,其目的是根据文件关联度对文件重要性程度进行量化评价,用于对重要性程度不同的文件采取相应策略。本发明包括:计算文件关联度步骤,计算文件重要性程度步骤;为方便起见,可以先建立访问链接图。本发明将文件访问关系和文件语义信息作为量化评价文件重要性程度的因素,能够更好的描述实际用户访问行为和文件特征,为提出优化策略提供了基础,在此基础上评价文件的重要性程度更加深入,更加具有价值,可以使机器能够自动的定量分析数据的重要性程度,并分而治之。

Description

评价文件重要性程度的方法
技术领域
本发明属于计算机存储技术领域,具体涉及一种评价文件重要性程度的方法。
背景技术
在存储领域中,一直有性能和价格的平衡,将最重要的数据放在最安全的设备上,将常被访问的数据放在性能最好的设备上,对整个系统的性能和安全性都是一个提升。传统的数据重要性的评价主要是根据访问频率或者访问时间间隔得到的热点数据进行被动式的记录,这已经远不能满足当今数据复杂性日益增大的存储需求。
在互联网领域,Google针对网页超级链接提出了页面级别(PageRank)技术,见L.Page,S.Brin,R.Motwani,and T.Winograd.The PageRank Citation Ranking:Bringing Order to the Web.Technicalreport,Stanford Digital Library Technologies Project,1998.,这种技术的核心就是通过网页链接的价值传递来计算一个网页的重要性,用这种技术对互联网上成千上万的网页按照其级别值进行排序。Google通过页面级别(PageRank)来调整搜索结果,使那些更具有重要性的网页在搜索结果中的网站排名获得提升,从而提高搜索结果的相关性和质量。在该技术中,网页链接的访问矩阵中的文件关联度仅仅用1(代表有访问关联)或者0(代表无访问关联)来表示。而在存储系统中文件访问关联度仅仅用1(代表有访问关联)或者0(代表无访问关联)来表示是不够的,而应当是能够体现相互关联度的一个范围,从0到1的一个值表示两个文件相关性的高低,1表示完全相关,0表示完全不相关。
文件的关联度研究主要涵盖了两个方面:一个是语义方面的研究,见David K.Gifford,Pierre Jouvelot,Mark A.Sheldon,James W.O’Toole,Jr.,Semantic file systems,Proceedings of the thirteenthACM symposium on Operating systems principles,p.16-25,October13-16,1991,Pacific Grove,Caiifornia,United States[doi>10.1145/121133.121138];另一个则是关联度量化及性能评价方面的研究,见Geoffrey(Zhengfu)Liu.Semantic vector space model:Implementation and evaluation.Journal of the American Society forInformation Science,1997.48(5),395-417。语义文件系统最早从传统的文件系统中提取语义方面的信息,并提出相应的策略;关联性量化和性能评价方面的研究更多的体现在对语义向量相关性的计算方面,语义向量空间模型提出将语义向量通过矩阵的模型来表示,并提出计算不同语义向量之间匹配度的方法。通过这种对语义向量的量化分析,更容易显式的评价出各种语义的关联情况。仅仅针对提取的语义信息来评价两个文件之间的关联度而忽略了文件间访问次序的关系,会造成实际不可能发生访问次序的两个高语义相关性文件对象之间评价产生误差。
基于文件访问次序的预取算法从另一个角度即文件访问次序方面关注了文件的关联度,见Thomas Kroeger,Darrell D.E.Long,The casefor efficient file access pattern modeling,Proceedings of the 7thIEEE Workshop on Hot Topics in Operating Systems(HotOS-VII),March1999,pages 14-19。而对文件访问关系的描述现在依旧停留在人为主观的为其赋予初值并根据“访问距离”远近递减的阶段。这实际上是一个粗略的文件访问关系的评价。
上述的算法均将文件访问次序和文件语义信息分隔开来研究,文件的访问次序与访问程序有关,与系统有关,所有这些都不是人可以控制的,即文件访问次序不一定能够表现用户的实际的访问功能次序,因为在系统中CPU具有线程调度功能,不同的线程会轮流被调入访问,那么这些线程所涉及的文件也会依次被访问,哪怕这两个文件没有任何的关联性,在这样的情况下对文件次序的记录会有相当的误差;即使考虑访问程序这个因素也不能够完全保证,因为很多关联访问由于文件类型的对象不同会涉及到不同程序,尤其是在分布式的存储系统中,如果仅考虑程序而不考虑其他因素,诸如用户权限,安全级别的话,那么不考虑文件关联的访问次序的记录实际上总会有相当大的误差。同样的,针对提取的语义信息来评价关联度而忽略了访问次序的关系,造成对实际不可能发生访问次序的两个高语义相关性文件对象的关联度评价产生误差。
发明内容
本发明提出一种评价文件重要性程度的方法,其目的是根据文件关联度对文件重要性程度进行量化的评价,用于对重要性程度不同的文件采取相应策略。
本发明的一种评价文件重要性程度的方法,顺序包括:
(1)计算文件关联度步骤,用语义向量Si={Vi1,Vi2……Vin}表示文件Fi的语义,每一个语义向量元素Vix表示该文件的一个语义属性,1<x<n,类似地,Sj={Vj1,Vj2,……Vjn}表示文件Fj的语义,计算文件Fi到文件Fj的关联度W(Fi,Fj):
W(Fi,Fj)=p×Sim(Si,Sj)+(1-p)×AP(Fi,Fj)
式中,文件Fi和文件Fj的语义向量相似度Sim(Si,Sj):
Sim ( S i , S j ) = | S i ∩ S j | | max ( S i , S j ) |
|Si∩Sj|表示文件Fi和文件Fj中语义向量元素值相同的个数,max(Si,Sj)表示文件Fi和文件Fj中最多的语义向量元素个数;
访问文件Fi后再访问文件Fj的访问概率AP(Fi,Fj):
AP(Fi,Fj)=Nij/Ni
Ni为文件Fi的访问次数,Nij为访问文件Fi后再访问文件Fj的访问次数;权值p取值范围为[0,1];
(2)计算文件重要性程度步骤,
文件Fj的重要性程度Rj为:
R j = Σ F i ∈ S j R i × W ( F i , F j ) × Q N O i + ( 1 - Q )
其中,文件Fi传递给它链接的文件Fj的重要性程度值Rij为:
Rij=Ri×W(Fi,Fj)/NOi
建立下列每个访问文件重要性程度的方程组,求解得到每一个访问文件的重要性程度:
R 1 = Σ F x ∈ S 1 R x × W ( F x , F 1 ) × Q N O x + ( 1 - Q )
……
R j = Σ F i ∈ S j R i × W ( F i , F j ) × Q N O i + ( 1 - Q )
……
上述方程组中,S1为所有链接到文件F1的文件的集合,链接到文件F1的文件之一Fx的重要性程度Rx,文件Fx到文件F1的关联度W(Fx,F1),文件Fx链出链接的个数NOx;Sj为所有链接到文件Fj的文件的集合,链接到文件Fj的文件之一Fi的重要性程度Ri,文件Fi到文件Fj的关联度W(Fi,Fj),文件Fi链出链接的个数NOi;跳转因子Q取值范围为[0,1]。
所述的评价文件重要性程度的方法,其特征在于,所述计算文件关联度步骤之前,先按照文件访问次序建立一个访问链接图G(F,L),其中F表示每一个访问的文件Fi、Fj、…的集合,L表示文件之间有向链接的集合,有向链接表示源文件和目标文件的访问次序。
所述的评价文件重要性程度的方法,其特征在于,所述计算文件关联度步骤中,所述语义向量中的各语义向量元素Vix分别为进程、用户名、一级路径名、二级路径名,…,各表示该文件的一个语义属性。
本发明以图的形式表示文件关系,以有向链接的形式表示访问次序的关系,并通过对源文件到目标文件的关联度来表示该有向链接的两个文件的关联度,这是计算文件重要程度的基础。在计算文件的重要性程度值的过程中,由于对文件关系予以量化,使得以数学方式的研究文件访问特性对结果的影响成为可能。
本发明利用文件关联度来评价访问次序的链接,更加符合现实中文件关系的特性。在存储系统中,为了提高IO性能,将文件关联度高的小文件合并成大文件进行统一操作,可以增加带宽的流量,从而提高整个系统的性能。根据统计文件的平均大小大概在150KB到300KB之间,尤其是1M以下的文件占到了整个文件数量的99%,所以通过定量的评价文件之间的关联度,为提出优化策略提供了基础,在此基础上评价文件的重要性程度将会更加深入,更加具有价值。本发明可以使机器能够自动的定量分析数据的重要性程度,并分而治之。
附图说明
图1为本发明流程框图;
图2为本发明实施例建立的三个文件之间的访问链接图;
图3为本发明计算关联度步骤中计算语义向量相似度的实例;
图4为本发明计算关联度步骤中计算文件间访问概率的实例;
图5为根据图2、图3、图4所建立的三个文件之间的访问链接图及其关联度评价。
具体实施方式
下面举例对本发明加以说明。
首先可以建立文件访问链接图,如图2所示,文件Fj的后继文件分别为文件Fi和文件Fm,文件Fm的后继文件为文件Fi,文件Fi的后继文件为文件Fj。然后,需要计算文件之间的关联度,文件的关联度和它们之间的语义向量相似度以及访问概率有关,图3为一个实际的计算语义向量相似度的例子。从图3中(1)的部分可以看到,每一个文件的信息都分为访问进程,用户名和各级路径名,将这些信息表示成为形如{V1,V2……Vn}的语义向量,其中语义向量元素分别为进程、用户名、一级路径名、二级路径名,…,如图3中(1)、(2)所示,其中中间一个文件的进程名:AdobeReader.exe,用户名:李明,文件路径名:/论文/对象存储/对象级别/xxx.PDF;其语义向量可以表示为{AdobeReader,李明,论文,对象存储,对象级别}。然后利用公式计算两个语义向量之间的相似度,如图3中(3)所示。从上面的计算我们可以看到,max(Si,Sj)表示文件Fi和文件Fj中最多的语义向量元素个数,这里是5,|Si∩Sj|表示文件Fi和文件Fj中语义向量元素值相同的个数,这里是2。所以文件Fi和文件Fj之间的语义向量相似度Sim(Sj,Sj)=0.4,同理计算出其它文件两两之间的语义向量相似度。
图4展示的是每个文件的访问次数以及访问该文件后访问其后继文件的次数,利用公式可以计算出两两文件之间的访问概率,如文件Fj的后继文件分别为文件Fi和文件Fm,其中文件Fj总共被访问了5次,这5次访问中有2次接着访问了文件Fm,有3次接着访问了文件Fi,那么计算出的结果就是从文件Fj到文件Fm的访问概率是0.4,而从文件Fj到文件Fi的访问概率是0.6。
在得到了文件之间的语义向量相似度和访问概率后就可以计算文件之间的关联度,利用公式:
W(Fi,Fj)=p×Sim(Si,Sj)+(1-p)×AP(Fi,Fj)
这里权重P可以为0.5,于是计算出W(Fi,Fj)的值为0.7,按照同样的方法可以求得其它文件之间链接的关联度。图5描述了三个文件之间的访问关系图及其关联度评价。
利用访问关系图和计算文件重要性程度公式可以建立以下方程组,这里跳转因子Q可以取0.5:
Ri=0.5+0.5×(Rj×0.5/2+Rm×0.6)
Rj=0.5+0.5×Ri×0.7
Rm=0.5+0.5×Rj×0.6/2
计算该方程组得到三个文件的重要性程度:Ri=0.7815,Rj=0.7735,Rm=0.6160.我们可以对结果进行分析,从图5可以看到文件Fi被文件Fj和文件Fm链入,并且在图4中它的访问频率也是最高的,所以它的重要性程度最高。文件Fj和文件Fm虽然链入链接的个数一样,但是链接到文件Fj的文件Fi的重要性程度相对较高,所以文件Fj的重要性高于文件Fm

Claims (3)

1.一种评价文件重要性程度的方法,顺序包括:
(1)计算文件关联度步骤,用语义向量Si={Vi1,Vi2,……Vin}表示文件Fi的语义,每一个语义向量元素Vix表示该文件的一个语义属性,1<x<n,类似地,Sj={Vj1,Vj2,……Vjn}表示文件Fj的语义,计算文件Fi到文件Fj的关联度W(Fi,Fj):
W(Fi,Fj)=p×Sim(Si,Sj)+(1-p)×AP(Fi,Fj)
式中,文件Fi和文件Fj的语义向量相似度Sim(Si,Sj):
Sim ( S i , S j ) = | S i ∩ S j | | max ( S i , S j ) |
|Si∩Sj|表示文件Fi和文件Fj中语义向量元素值相同的个数,max(Si,Sj)表示文件Fi和文件Fj中最多的语义向量元素个数;
访问文件Fi后再访问文件Fj的访问概率AP(Fi,Fj):
AP(Fi,Fj)=Nij/Ni
Ni为文件Fi的访问次数,Nij为访问文件Fi后再访问文件Fj的访问次数;权值p取值范围为[0,1];
(2)计算文件重要性程度步骤,
文件Fj的重要性程度Rj为:
R j = Σ F i ∈ S j R i × W ( F i , F j ) × Q NQ i + ( 1 - Q )
其中,文件Fi传递给它链接的文件Fj的重要性程度值Rij为:
Rij=Ri×W(Fi,Fj)/NOi
建立下列每个访问文件重要性程度的方程组,求解得到每一个访问文件的重要性程度:
R 1 = Σ F x ∈ S 1 R x × W ( F x , F 1 ) × Q NO x + ( 1 - Q )
……
R j = Σ F i ∈ S j R i × W ( F i , F j ) × Q NO i + ( 1 - Q )
……
上述方程组中,S1为所有链接到文件F1的文件的集合,链接到文件F1的文件之一Fx的重要性程度Rx,文件Fx到文件F1的关联度W(Fx,F1),文件Fx链出链接的个数NOx;Sj为所有链接到文件Fj的文件的集合,链接到文件Fj的文件之一Fi的重要性程度Ri,文件Fi到文件Fj的关联度W(Fi,Fj),文件Fi链出链接的个数NOi;跳转因子Q取值范围为[0,1]。
2.如权利要求1所述的评价文件重要性程度的方法,其特征在于,所述计算文件关联度步骤之前,先按照文件访问次序建立一个访问链接图G(F,L),其中F表示每一个访问的文件Fi、Fj、…的集合,L表示文件之间有向链接的集合,有向链接表示源文件和目标文件的访问次序。
3.如权利要求1或2所述的评价文件重要性程度的方法,其特征在于,所述计算文件关联度步骤中,所述语义向量中的各语义向量元素Vix分别为进程、用户名、一级路径名、二级路径名,…,各表示该文件的一个语义属性。
CN2007100529015A 2007-08-02 2007-08-02 评价文件重要性程度的方法 Active CN101105799B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007100529015A CN101105799B (zh) 2007-08-02 2007-08-02 评价文件重要性程度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007100529015A CN101105799B (zh) 2007-08-02 2007-08-02 评价文件重要性程度的方法

Publications (2)

Publication Number Publication Date
CN101105799A true CN101105799A (zh) 2008-01-16
CN101105799B CN101105799B (zh) 2010-04-07

Family

ID=38999697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007100529015A Active CN101105799B (zh) 2007-08-02 2007-08-02 评价文件重要性程度的方法

Country Status (1)

Country Link
CN (1) CN101105799B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117324A (zh) * 2011-02-24 2011-07-06 上海北大方正科技电脑系统有限公司 应用模糊矩阵的文件管理方法及管理系统
CN102272784A (zh) * 2008-12-31 2011-12-07 诺基亚公司 用于提供内容项关联的分析和可视化的方法、装置和计算机程序产品
US8151217B2 (en) 2009-01-05 2012-04-03 Chi Mei Communication Systems, Inc. System and method for dynamically displaying application shortcut icons of an electronic device
CN105335363A (zh) * 2014-05-28 2016-02-17 华为技术有限公司 一种对象推送方法及系统
CN106202070A (zh) * 2015-04-29 2016-12-07 中国电信股份有限公司 文件存储处理方法与系统
CN106682020A (zh) * 2015-11-10 2017-05-17 北京京东尚科信息技术有限公司 评估模型重要性的方法和装置
CN110069466A (zh) * 2019-04-15 2019-07-30 武汉大学 一种面向分布式文件系统的小文件存储方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1145899C (zh) * 2000-09-07 2004-04-14 国际商业机器公司 为文字文档自动生成摘要的方法
CN1912874A (zh) * 2006-08-30 2007-02-14 北京大学 一种提取见报资料数据信息的方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102272784A (zh) * 2008-12-31 2011-12-07 诺基亚公司 用于提供内容项关联的分析和可视化的方法、装置和计算机程序产品
US8151217B2 (en) 2009-01-05 2012-04-03 Chi Mei Communication Systems, Inc. System and method for dynamically displaying application shortcut icons of an electronic device
CN101770339B (zh) * 2009-01-05 2012-12-19 深圳富泰宏精密工业有限公司 使用者行为追踪及记录系统与方法
CN102117324A (zh) * 2011-02-24 2011-07-06 上海北大方正科技电脑系统有限公司 应用模糊矩阵的文件管理方法及管理系统
CN102117324B (zh) * 2011-02-24 2012-09-05 上海北大方正科技电脑系统有限公司 应用模糊矩阵的文件管理方法及管理系统
CN105335363A (zh) * 2014-05-28 2016-02-17 华为技术有限公司 一种对象推送方法及系统
CN105335363B (zh) * 2014-05-28 2018-12-07 华为技术有限公司 一种对象推送方法及系统
CN106202070A (zh) * 2015-04-29 2016-12-07 中国电信股份有限公司 文件存储处理方法与系统
CN106682020A (zh) * 2015-11-10 2017-05-17 北京京东尚科信息技术有限公司 评估模型重要性的方法和装置
CN106682020B (zh) * 2015-11-10 2021-01-26 北京京东尚科信息技术有限公司 评估模型重要性的方法和装置
CN110069466A (zh) * 2019-04-15 2019-07-30 武汉大学 一种面向分布式文件系统的小文件存储方法及装置
CN110069466B (zh) * 2019-04-15 2021-02-19 武汉大学 一种面向分布式文件系统的小文件存储方法及装置

Also Published As

Publication number Publication date
CN101105799B (zh) 2010-04-07

Similar Documents

Publication Publication Date Title
Shi et al. Semantic path based personalized recommendation on weighted heterogeneous information networks
Zhang et al. Optimizing top-n collaborative filtering via dynamic negative item sampling
RU2501078C2 (ru) Ранжирование результатов поиска с использованием расстояния редактирования и информации о документе
US10210179B2 (en) Dynamic feature weighting
US7984035B2 (en) Context-based document search
RU2608886C2 (ru) Ранжиратор результатов поиска
US9116894B2 (en) Method and system for tagging objects comprising tag recommendation based on query-based ranking and annotation relationships between objects and tags
US9330104B2 (en) Indexing and searching heterogenous data entities
US20100036828A1 (en) Content analysis simulator for improving site findability in information retrieval systems
CN101105799A (zh) 评价文件重要性程度的方法
KR20130119981A (ko) 서치 결과를 향상시키기 위해 사용자로부터의 피드백을 적용하는 서치 엔진
Leung et al. Intelligent social media indexing and sharing using an adaptive indexing search engine
Boratto et al. Consumer fairness in recommender systems: Contextualizing definitions and mitigations
Bouadjenek et al. Using social annotations to enhance document representation for personalized search
KR100896336B1 (ko) 영상 정보 기반의 동영상 연관 검색 시스템 및 방법
Peng et al. Hierarchical visual-textual knowledge distillation for life-long correlation learning
Salminen et al. Using machine learning to predict ranking of webpages in the gift industry: factors for search-engine optimization
Xiang et al. Demographic attribute inference from social multimedia behaviors: A cross-OSN approach
Jelassi et al. Towards more targeted recommendations in folksonomies
Cui et al. Improving image annotation via ranking‐oriented neighbor search and learning‐based keyword propagation
US11755671B2 (en) Projecting queries into a content item embedding space
Poornalatha et al. Web sessions clustering using hybrid sequence alignment measure (HSAM)
Ferdaous et al. Recommendation using a clustering algorithm based on a hybrid features selection method
JP5613536B2 (ja) 利用者の要求に応じて動的にもっとも適したイメージを抽出して提供するための方法、システム及びコンピューター判読可能な記録媒体
Twardowski et al. Metric learning for session-based recommendations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant