CN105447062A - 热点数据识别方法和装置 - Google Patents

热点数据识别方法和装置 Download PDF

Info

Publication number
CN105447062A
CN105447062A CN201410515821.9A CN201410515821A CN105447062A CN 105447062 A CN105447062 A CN 105447062A CN 201410515821 A CN201410515821 A CN 201410515821A CN 105447062 A CN105447062 A CN 105447062A
Authority
CN
China
Prior art keywords
file
coefficient
accessed
focus
access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410515821.9A
Other languages
English (en)
Inventor
龚靖
冯明
秦达
雷俊智
段勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201410515821.9A priority Critical patent/CN105447062A/zh
Publication of CN105447062A publication Critical patent/CN105447062A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种热点数据识别方法和装置,涉及云计算领域。其中方法包括:根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件;确定被访问热点文件与其关联文件之间的文件关联度;根据被访问热点文件与其关联文件之间的文件关联度以及关联文件的访问热度信息确定关联文件的热度权重;根据关联文件的热度权重从关联文件中识别出热点文件。本发明在确定文件热度时增加对文件相关性的参考,从而提升热点文件的预判能力,提高用户所需要的热点数据的命中率。

Description

热点数据识别方法和装置
技术领域
本发明涉及云计算领域,特别涉及一种热点数据识别方法和装置。
背景技术
在云存储系统中,热点数据多依据数据的访问频度、数据访问时间等信息来确定。用户通常可以将热点数据从云端迁移至本地,从而提高访问效率。
但是,按照目前的热点数据识别方法,识别的各个热点数据之间很可能毫无关系,受限于存储资源、网络资源等因素,用户通常很难将全部热点数据从云端迁移至本地,即便可以将全部热点数据从云端迁移至本地,其中大部分热点数据很可能不是用户需要的,从而造成宝贵的存储资源和网络资源的浪费。
因此,有必要改进热点数据的识别方案,提高用户所需要的热点数据的命中率。
发明内容
本发明实施例的一个目的是:提出一种新的热点数据识别方案,以提高用户所需要的热点数据的命中率。
根据本发明实施例的一个方面,提出一种热点数据识别方法,包括:根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件;确定被访问热点文件与其关联文件之间的文件关联度;根据被访问热点文件与其关联文件之间的文件关联度以及关联文件的访问热度信息确定关联文件的热度权重;根据关联文件的热度权重从关联文件中识别出热点文件。
在一个实施例中,根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件包括:计算被访问热点文件与其他文件之间的文件名关联系数,选取文件名关联系数最大的预设数量的文件作为第一关联集合;计算被访问热点文件与其他文件之间的文件内容关联系数,选取文件内容关联系数最大的预设数量的文件作为第二关联集合;获取在被访问热点文件之前最近被访问的预设数量的文件作为第三关联集合;获取与被访问热点文件在同一目录下的文件作为第四关联集合;将第一关联集合、第二关联集合、第三关联集合和第四关联集合中至少一个集合中的文件作为被访问热点文件的关联文件。
在一个实施例中,通过Apriori算法计算被访问热点文件与其他文件之间的文件名关联系数和文件内容关联系数。
在一个实施例中,确定被访问热点文件与其关联文件之间的文件关联度包括:计算被访问热点文件与其关联文件之间的文件名关联系数;计算被访问热点文件与其关联文件之间的文件内容关联系数;根据各个关联文件的访问顺序计算每个关联文件的文件访问顺序系数;根据被访问热点文件与关联文件是否在同一目录下确定关联文件的文件位置系数;根据被访问热点文件与其关联文件之间的文件名关联系数和文件内容关联系数、以及关联文件的文件访问顺序系数和文件位置系数,使用欧几里德距离算法确定被访问热点文件与其关联文件之间的文件关联度。
在一个实施例中,根据被访问热点文件与其关联文件之间的文件关联度以及关联文件的访问热度信息确定关联文件的热度权重包括:设置文件关联度和访问热度信息在热度权重中所占的热度系数;根据被访问热点文件与其关联文件之间的文件关联度及其热度系数,并且结合关联文件的访问热度信息及其热度系数,综合确定关联文件的热度权重;其中,访问热度信息包括访问时间和/或访问频率。
在一个实施例中,识别出热点文件之后,还包括:如果本地缓存中没有识别出的热点文件,从云端下载该热点文件;和/或,如果本地缓存中存留有非热点文件,从本地缓存中删除该非热点文件。
根据本发明实施例的再一个方面,提出一种热点数据识别装置,包括:关联文件确定单元,用于根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件;文件关联度确定单元,用于确定被访问热点文件与其关联文件之间的文件关联度;热度权重确定单元,用于根据被访问热点文件与其关联文件之间的文件关联度以及关联文件的访问热度信息确定关联文件的热度权重;热点文件识别单元,用于根据关联文件的热度权重从关联文件中识别出热点文件。
在一个实施例中,关联文件确定单元,具体用于根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件:计算被访问热点文件与其他文件之间的文件名关联系数,选取文件名关联系数最大的预设数量的文件作为第一关联集合;计算被访问热点文件与其他文件之间的文件内容关联系数,选取文件内容关联系数最大的预设数量的文件作为第二关联集合;获取在被访问热点文件之前最近被访问的预设数量的文件作为第三关联集合;获取与被访问热点文件在同一目录下的文件作为第四关联集合;将第一关联集合、第二关联集合、第三关联集合和第四关联集合中至少一个集合中的文件作为被访问热点文件的关联文件。
在一个实施例中,通过Apriori算法计算被访问热点文件与其他文件之间的文件名关联系数和文件内容关联系数。
在一个实施例中,文件关联度确定单元,具体用于:计算被访问热点文件与其关联文件之间的文件名关联系数;计算被访问热点文件与其关联文件之间的文件内容关联系数;根据各个关联文件的访问顺序计算每个关联文件的文件访问顺序系数;根据被访问热点文件与关联文件是否在同一目录下确定关联文件的文件位置系数;根据被访问热点文件与其关联文件之间的文件名关联系数和文件内容关联系数、以及关联文件的文件访问顺序系数和文件位置系数,使用欧几里德距离算法确定被访问热点文件与其关联文件之间的文件关联度。
在一个实施例中,热度权重确定单元,具体用于:设置文件关联度和访问热度信息在热度权重中所占的热度系数;根据被访问热点文件与其关联文件之间的文件关联度及其热度系数,并且结合关联文件的访问热度信息及其热度系数,综合确定关联文件的热度权重;其中,访问热度信息包括访问时间和/或访问频率。
在一个实施例中,热点数据识别装置还包括:热点文件处理单元,用于在识别出热点文件之后,如果本地缓存中没有识别出的热点文件,从云端下载该热点文件;和/或,如果本地缓存中存留有非热点文件,从本地缓存中删除该非热点文件。
本发明实施例在确定文件热度时增加对文件相关性的参考,从而提升热点文件的预判能力,提高用户所需要的热点数据的命中率。并且,将识别出的热点文件下载到本地缓存,可以提高用户对本地文件的访问速度。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明热点数据识别方法一个实施例的流程示意图。
图2是本发明热点数据识别装置一个实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了提高用户所需要的热点数据的命中率,本发明提出一种新的热点数据识别方案,包括热点数据识别方法和热点数据识别装置。本发明提出的热点数据识别方案可以应用于云存储领域,例如公有云和私有云结合的混合云存储,还可以应用于分层分级存储。下面分别具体说明热点数据识别方案。
图1是本发明热点数据识别方法一个实施例的流程示意图。如图1所示,本实施例的热点数据识别方法包括以下步骤:
步骤S102,根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件。
步骤S104,确定被访问热点文件与其关联文件之间的文件关联度。
步骤S106,根据被访问热点文件与其关联文件之间的文件关联度以及关联文件的访问热度信息确定关联文件的热度权重。其中,访问热度信息例如包括访问时间和/或访问频率等信息。
步骤S108,根据关联文件的热度权重从关联文件中识别出热点文件。
本实施例在确定文件热度时增加对文件相关性的参考,从而提升热点文件的预判能力,提高用户所需要的热点数据的命中率。
在步骤S102中,根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件的一种实现方法具体如下:
步骤S102a,计算被访问热点文件与其他文件之间的文件名关联系数,选取文件名关联系数最大的预设数量的文件作为第一关联集合。
一种示例性的方法,可以通过Apriori算法(例如k-means算法)计算被访问热点文件与其他文件之间的文件名关联系数。具体来说,可以建立文件名关键字索引表(如表1所示),根据文件名关键字索引表例如采用以下公式计算被访问热点文件与其他文件之间的文件名关联系数:
Ni=support({Fi,F})/support({F})
其中,Ni表示被访问热点文件F与文件Fi之间的文件名关联系数,support(.)表示相关数据在索引表中出现的次数,例如,support({Fi,F})表示{Fi,F}在文件名关键字索引表中出现的次数,support({F})表示{F}在文件名关键字索引表中出现的次数。
表1
另外,例如可以选取文件名关联系数最大的m个文件作为第一关联集合FN,FN={fn1,fn2,…,fnm},m值可以根据热点文件识别精度需要进行设置。
步骤S102b,计算被访问热点文件与其他文件之间的文件内容关联系数,选取文件内容关联系数最大的预设数量的文件作为第二关联集合。
一种示例性的方法,可以通过Apriori算法(例如k-means算法)计算被访问热点文件与其他文件之间的文件内容关联系数。具体来说,可以建立文件内容关键字索引表(如表2所示),根据文件内容关键字索引表例如采用以下公式计算被访问热点文件与其他文件之间的文件内容关联系数:
Ci=support({Fi,F})/support({F})
其中,Ci表示被访问热点文件F与文件Fi之间的文件内容关联系数,support(.)表示相关数据在索引表中出现的次数,例如,support({Fi,F})表示{Fi,F}在文件内容关键字索引表中出现的次数,support({F})表示{F}在文件内容关键字索引表中出现的次数。
表2
另外,例如可以选取文件内容关联系数最大的m个文件作为第二关联集合FC,FC={fc1,fc2,…,fcm},m值可以根据热点文件识别精度需要进行设置。
步骤S102c,获取在被访问热点文件之前最近被访问的预设数量的文件作为第三关联集合。
例如,获取在被访问热点文件F之前最近被访问的m个文件作为第三关联集合FA,FA={fa1,fa2,…,fam},m值可以根据热点文件识别精度需要进行设置。
步骤S102d,获取与被访问热点文件在同一目录下的文件作为第四关联集合FD,FD={fd1,fd2,…,fdm,…}。
步骤S102e,将第一关联集合、第二关联集合、第三关联集合和第四关联集合中至少一个集合中的文件作为被访问热点文件的关联文件。例如,可以将四个集合中的文件作为被访问热点文件的关联文件,也可以选取任意一个集合、任意两个集合或任意三个集合中的文件作为被访问热点文件的关联文件。选取的关联集合越多,所确定的关联文件的范围也越大,热点文件的命中率也就越高。
通过上述步骤S102a~S102e就可以确定出某一文件的关联文件,本实施例应用上述方法可以确定被访问热点文件的关联文件。
在步骤S104中,确定被访问热点文件与其关联文件之间的文件关联度的一种实现方法具体如下:
步骤S104a,计算被访问热点文件与其关联文件之间的文件名关联系数,具体的计算方法可以参考前述。另外,如果S102a计算结果中已经包括被访问热点文件与其关联文件之间的文件名关联系数,则此处无需重复计算,可以直接采用S102a中的计算结果。
步骤S104b,计算被访问热点文件与其关联文件之间的文件内容关联系数,具体的计算方法可以参考前述。另外,如果S102b计算结果中已经包括被访问热点文件与其关联文件之间的文件内容名关联系数,则此处无需重复计算,可以直接采用S102b中的计算结果。
步骤S104c,根据各个关联文件的访问顺序计算每个关联文件的文件访问顺序系数。
一种示例性的文件访问顺序系数计算方法如下:按照访问顺序对所有的关联文件进行排序,并设置访问值,越近被访问的文件对应的访问值越大,然后可以根据如下公式计算文件访问顺序系数:
A i = a i / Σ j = 1 m a j
其中,Ai表示关联文件FRi的文件访问顺序系数,ai表示关联文件FRi的访问值,m表示被访问热点文件的关联文件的数量。
步骤S104d,根据被访问热点文件与关联文件是否在同一目录下确定关联文件的文件位置系数。
一种示例性的关联文件的文件位置系数确定方法如下:如果被访问热点文件与关联文件在同一目录下,则该关联文件的文件位置系数Di设置为1,如果被访问热点文件与关联文件不在同一目录下,则该关联文件的文件位置系数Di设置为0。
步骤S104e,根据被访问热点文件与其关联文件之间的文件名关联系数和文件内容关联系数、以及关联文件的文件访问顺序系数和文件位置系数,使用欧几里德距离算法确定被访问热点文件与其关联文件之间的文件关联度。
一种示例性的文件关联度计算方法的公式表示如下:
R i = Wn | N i - 1 | 2 + Wc | C i - 1 | 2 + Wa | A i - 1 | 2 + Wd | D i - 1 | 2
其中,Ri表示被访问热点文件F与其关联文件FRi之间的文件关联度,Wn、Wc、Wa、Wd分别表示文件名关联系数Ni、文件内容关联系数Ci、文件访问顺序系数Ai、文件位置系数Di对应的权重值。
在步骤S106中,根据被访问热点文件与其关联文件之间的文件关联度以及关联文件的访问热度信息确定关联文件的热度权重的一种实现方法如下:设置文件关联度和访问热度信息在热度权重中所占的热度系数;根据被访问热点文件与其关联文件之间的文件关联度及其热度系数,并且结合关联文件的访问热度信息及其热度系数,综合确定关联文件的热度权重。以访问热度信息使访问时间和访问频率为例,计算关联文件的热度权重的公式表示如下:
H i = ( Wr × R i ) 2 + ( Wt | T i - T f | ) 2 + ( Wp | P i - P max | ) 2
其中,Hi表示关联文件FRi的热度权重,Tf表示被访问热点文件F的访问时间,Ti表示关联文件FRi的访问时间,Pmax表示文件访问的最大频率,Pi表示关联文件FRi的访问频率,Wr、Wt、Wp分别表示文件关联度、文件访问时间、文件访问频率的权重值。
在步骤S108中,根据关联文件的热度权重从各关联文件中识别热点文件,例如,可以选取热度权重最大的预设数量的关联文件作为热点文件,也可以选取热度权重大于预设权重阈值的关联文件作为热点文件。
在识别出热点文件之后,如果本地缓存中没有识别出的热点文件,从云端下载该热点文件,从而提高本地文件访问速度;和/或,如果本地缓存中存留有非热点文件(热点文件之外的其他文件),从本地缓存中删除该非热点文件,从而节省存储资源。
上述实施例通过文件名、文件内容、访问顺序、文件位置等信息计算文件关联度,再结合访问时间、访问频度预判文件热度,提高用户所需要的热点数据的命中率,提高本地文件访问速度。
本发明实施例还提出一种热点数据识别装置。图2是本实施例热点数据识别装置一个实施例的结构示意图。如图2所示,本实施例的热点数据识别装置包括:
关联文件确定单元202,用于根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件;
文件关联度确定单元204,用于确定被访问热点文件与其关联文件之间的文件关联度;
热度权重确定单元206,用于根据被访问热点文件与其关联文件之间的文件关联度以及关联文件的访问热度信息确定关联文件的热度权重;
热点文件识别单元208,用于根据关联文件的热度权重从关联文件中识别出热点文件。
在一个实施例中,关联文件确定单元202,具体用于根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件:计算被访问热点文件与其他文件之间的文件名关联系数,选取文件名关联系数最大的预设数量的文件作为第一关联集合;计算被访问热点文件与其他文件之间的文件内容关联系数,选取文件内容关联系数最大的预设数量的文件作为第二关联集合;获取在被访问热点文件之前最近被访问的预设数量的文件作为第三关联集合;获取与被访问热点文件在同一目录下的文件作为第四关联集合;将第一关联集合、第二关联集合、第三关联集合和第四关联集合中至少一个集合中的文件作为被访问热点文件的关联文件。
在一个实施例中,通过Apriori算法计算被访问热点文件与其他文件之间的文件名关联系数和文件内容关联系数。
在一个实施例中,文件关联度确定单元204,具体用于:计算被访问热点文件与其关联文件之间的文件名关联系数;计算被访问热点文件与其关联文件之间的文件内容关联系数;根据各个关联文件的访问顺序计算每个关联文件的文件访问顺序系数;根据被访问热点文件与关联文件是否在同一目录下确定关联文件的文件位置系数;根据被访问热点文件与其关联文件之间的文件名关联系数和文件内容关联系数、以及关联文件的文件访问顺序系数和文件位置系数,使用欧几里德距离算法确定被访问热点文件与其关联文件之间的文件关联度。
在一个实施例中,热度权重确定单元206,具体用于:设置文件关联度和访问热度信息在热度权重中所占的热度系数;根据被访问热点文件与其关联文件之间的文件关联度及其热度系数,并且结合关联文件的访问热度信息及其热度系数,综合确定关联文件的热度权重;其中,访问热度信息包括访问时间和/或访问频率。
热点文件识别单元208,具体用于选取热度权重最大的预设数量的关联文件作为热点文件,或者,选取热度权重大于预设权重阈值的关联文件作为热点文件。
在一个实施例中,热点数据识别装置还包括:热点文件处理单元,用于在识别出热点文件之后,如果本地缓存中没有识别出的热点文件,从云端下载该热点文件;和/或,如果本地缓存中存留有非热点文件,从本地缓存中删除该非热点文件。
上述实施例在确定文件热度时增加对文件相关性的参考,从而提升热点文件的预判能力,提高用户所需要的热点数据的命中率。并且,将识别出的热点文件下载到本地缓存,可以提高用户对本地文件的访问速度。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种热点数据识别方法,其特征在于,包括:
根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件;
确定被访问热点文件与其关联文件之间的文件关联度;
根据被访问热点文件与其关联文件之间的文件关联度以及关联文件的访问热度信息确定关联文件的热度权重;
根据关联文件的热度权重从关联文件中识别出热点文件。
2.根据权利要求1所述的方法,其特征在于,所述根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件包括:
计算被访问热点文件与其他文件之间的文件名关联系数,选取文件名关联系数最大的预设数量的文件作为第一关联集合;
计算被访问热点文件与其他文件之间的文件内容关联系数,选取文件内容关联系数最大的预设数量的文件作为第二关联集合;
获取在被访问热点文件之前最近被访问的预设数量的文件作为第三关联集合;
获取与被访问热点文件在同一目录下的文件作为第四关联集合;
将第一关联集合、第二关联集合、第三关联集合和第四关联集合中至少一个集合中的文件作为被访问热点文件的关联文件。
3.根据权利要求2所述的方法,其特征在于,通过Apriori算法计算被访问热点文件与其他文件之间的文件名关联系数和文件内容关联系数。
4.根据权利要求1所述的方法,其特征在于,所述确定被访问热点文件与其关联文件之间的文件关联度包括:
计算被访问热点文件与其关联文件之间的文件名关联系数;
计算被访问热点文件与其关联文件之间的文件内容关联系数;
根据各个关联文件的访问顺序计算每个关联文件的文件访问顺序系数;
根据被访问热点文件与关联文件是否在同一目录下确定关联文件的文件位置系数;
根据被访问热点文件与其关联文件之间的文件名关联系数和文件内容关联系数、以及关联文件的文件访问顺序系数和文件位置系数,使用欧几里德距离算法确定被访问热点文件与其关联文件之间的文件关联度。
5.根据权利要求1所述的方法,其特征在于,所述根据被访问热点文件与其关联文件之间的文件关联度以及关联文件的访问热度信息确定关联文件的热度权重包括:
设置文件关联度和访问热度信息在热度权重中所占的热度系数;
根据被访问热点文件与其关联文件之间的文件关联度及其热度系数,并且结合关联文件的访问热度信息及其热度系数,综合确定关联文件的热度权重;
其中,访问热度信息包括访问时间和/或访问频率。
6.根据权利要求1所述的方法,其特征在于,识别出热点文件之后,还包括:
如果本地缓存中没有识别出的热点文件,从云端下载该热点文件;
和/或,
如果本地缓存中存留有非热点文件,从本地缓存中删除该非热点文件。
7.一种热点数据识别装置,其特征在于,包括:
关联文件确定单元,用于根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件;
文件关联度确定单元,用于确定被访问热点文件与其关联文件之间的文件关联度;
热度权重确定单元,用于根据被访问热点文件与其关联文件之间的文件关联度以及关联文件的访问热度信息确定关联文件的热度权重;
热点文件识别单元,用于根据关联文件的热度权重从关联文件中识别出热点文件。
8.根据权利要求7所述的装置,其特征在于,所述关联文件确定单元,具体用于根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件:
计算被访问热点文件与其他文件之间的文件名关联系数,选取文件名关联系数最大的预设数量的文件作为第一关联集合;
计算被访问热点文件与其他文件之间的文件内容关联系数,选取文件内容关联系数最大的预设数量的文件作为第二关联集合;
获取在被访问热点文件之前最近被访问的预设数量的文件作为第三关联集合;
获取与被访问热点文件在同一目录下的文件作为第四关联集合;
将第一关联集合、第二关联集合、第三关联集合和第四关联集合中至少一个集合中的文件作为被访问热点文件的关联文件。
9.根据权利要求8所述的装置,其特征在于,通过Apriori算法计算被访问热点文件与其他文件之间的文件名关联系数和文件内容关联系数。
10.根据权利要求7所述的装置,其特征在于,所述文件关联度确定单元,具体用于:
计算被访问热点文件与其关联文件之间的文件名关联系数;
计算被访问热点文件与其关联文件之间的文件内容关联系数;
根据各个关联文件的访问顺序计算每个关联文件的文件访问顺序系数;
根据被访问热点文件与关联文件是否在同一目录下确定关联文件的文件位置系数;
根据被访问热点文件与其关联文件之间的文件名关联系数和文件内容关联系数、以及关联文件的文件访问顺序系数和文件位置系数,使用欧几里德距离算法确定被访问热点文件与其关联文件之间的文件关联度。
11.根据权利要求7所述的装置,其特征在于,所述热度权重确定单元,具体用于:
设置文件关联度和访问热度信息在热度权重中所占的热度系数;
根据被访问热点文件与其关联文件之间的文件关联度及其热度系数,并且结合关联文件的访问热度信息及其热度系数,综合确定关联文件的热度权重;
其中,访问热度信息包括访问时间和/或访问频率。
12.根据权利要求7所述的装置,其特征在于,还包括:
热点文件处理单元,用于在识别出热点文件之后,如果本地缓存中没有识别出的热点文件,从云端下载该热点文件;和/或,如果本地缓存中存留有非热点文件,从本地缓存中删除该非热点文件。
CN201410515821.9A 2014-09-30 2014-09-30 热点数据识别方法和装置 Pending CN105447062A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410515821.9A CN105447062A (zh) 2014-09-30 2014-09-30 热点数据识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410515821.9A CN105447062A (zh) 2014-09-30 2014-09-30 热点数据识别方法和装置

Publications (1)

Publication Number Publication Date
CN105447062A true CN105447062A (zh) 2016-03-30

Family

ID=55557244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410515821.9A Pending CN105447062A (zh) 2014-09-30 2014-09-30 热点数据识别方法和装置

Country Status (1)

Country Link
CN (1) CN105447062A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106210015A (zh) * 2016-07-05 2016-12-07 福州大学 一种混合云结构中热度数据缓存的云存储方法
CN106228074A (zh) * 2016-07-14 2016-12-14 广州华多网络科技有限公司 存储对象老化方法及装置
CN106502789A (zh) * 2016-10-12 2017-03-15 阔地教育科技有限公司 一种资源访问方法及装置
CN106709068A (zh) * 2017-01-22 2017-05-24 郑州云海信息技术有限公司 一种热点数据识别方法及其装置
CN108156193A (zh) * 2016-12-02 2018-06-12 阿里巴巴集团控股有限公司 一种热点确定方法及系统
CN110351374A (zh) * 2019-07-16 2019-10-18 深圳市网心科技有限公司 一种文件部署方法、装置及设备
CN111052072A (zh) * 2018-03-28 2020-04-21 华为技术有限公司 一种免安装应用程序下载方法及装置
CN111881346A (zh) * 2020-07-15 2020-11-03 北京浪潮数据技术有限公司 一种热点数据的识别方法、系统及相关装置
CN114595279A (zh) * 2022-05-06 2022-06-07 中国信息通信研究院 区块链数据的处理方法和装置
WO2022217987A1 (zh) * 2021-04-12 2022-10-20 华为云计算技术有限公司 数据表热度区分方法、装置以及相关设备
US11650812B2 (en) 2020-12-11 2023-05-16 International Business Machines Corporation Asset identification for collaborative projects in software development

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473335A (zh) * 2013-09-18 2013-12-25 浪潮(北京)电子信息产业有限公司 一种热点数据检测方法及装置
CN103646040A (zh) * 2013-11-15 2014-03-19 天脉聚源(北京)传媒科技有限公司 一种信息的显示方法及装置
CN104008106A (zh) * 2013-02-25 2014-08-27 腾讯科技(深圳)有限公司 一种获取热点话题的方法及装置
CN104063450A (zh) * 2014-06-23 2014-09-24 百度在线网络技术(北京)有限公司 热点信息分析方法及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008106A (zh) * 2013-02-25 2014-08-27 腾讯科技(深圳)有限公司 一种获取热点话题的方法及装置
CN103473335A (zh) * 2013-09-18 2013-12-25 浪潮(北京)电子信息产业有限公司 一种热点数据检测方法及装置
CN103646040A (zh) * 2013-11-15 2014-03-19 天脉聚源(北京)传媒科技有限公司 一种信息的显示方法及装置
CN104063450A (zh) * 2014-06-23 2014-09-24 百度在线网络技术(北京)有限公司 热点信息分析方法及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑尚志等: "《操作系统》", 30 April 2014 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106210015B (zh) * 2016-07-05 2019-12-31 福州大学 一种混合云结构中热度数据缓存的云存储方法
CN106210015A (zh) * 2016-07-05 2016-12-07 福州大学 一种混合云结构中热度数据缓存的云存储方法
CN106228074A (zh) * 2016-07-14 2016-12-14 广州华多网络科技有限公司 存储对象老化方法及装置
CN106502789A (zh) * 2016-10-12 2017-03-15 阔地教育科技有限公司 一种资源访问方法及装置
CN108156193A (zh) * 2016-12-02 2018-06-12 阿里巴巴集团控股有限公司 一种热点确定方法及系统
CN108156193B (zh) * 2016-12-02 2022-08-19 阿里巴巴集团控股有限公司 一种热点确定方法及系统
CN106709068B (zh) * 2017-01-22 2020-11-20 苏州浪潮智能科技有限公司 一种热点数据识别方法及其装置
CN106709068A (zh) * 2017-01-22 2017-05-24 郑州云海信息技术有限公司 一种热点数据识别方法及其装置
CN111052072B (zh) * 2018-03-28 2022-05-24 华为技术有限公司 一种免安装应用程序下载方法及装置
US11262995B2 (en) 2018-03-28 2022-03-01 Huawei Technologies Co., Ltd. Method and apparatus for downloading installation-free application
CN111052072A (zh) * 2018-03-28 2020-04-21 华为技术有限公司 一种免安装应用程序下载方法及装置
CN110351374B (zh) * 2019-07-16 2022-04-01 深圳市网心科技有限公司 一种文件部署方法、装置及设备
CN110351374A (zh) * 2019-07-16 2019-10-18 深圳市网心科技有限公司 一种文件部署方法、装置及设备
CN111881346A (zh) * 2020-07-15 2020-11-03 北京浪潮数据技术有限公司 一种热点数据的识别方法、系统及相关装置
CN111881346B (zh) * 2020-07-15 2022-06-17 北京浪潮数据技术有限公司 一种热点数据的识别方法、系统及相关装置
US11650812B2 (en) 2020-12-11 2023-05-16 International Business Machines Corporation Asset identification for collaborative projects in software development
WO2022217987A1 (zh) * 2021-04-12 2022-10-20 华为云计算技术有限公司 数据表热度区分方法、装置以及相关设备
CN114595279A (zh) * 2022-05-06 2022-06-07 中国信息通信研究院 区块链数据的处理方法和装置

Similar Documents

Publication Publication Date Title
CN105447062A (zh) 热点数据识别方法和装置
EP2608075B1 (en) Dynamic hierarchical bloom filters for network data routing
US9628582B2 (en) Social-driven precaching of accessible objects
CN102930060B (zh) 一种数据库快速索引的方法及装置
CN110321325B (zh) 文件索引节点查找方法、终端、服务器、系统及存储介质
CN102790915B (zh) 一种用于向p2p节点预推送视频资源的方法与装置
JP5032210B2 (ja) 制御計算機、計算機システム及びアクセス制御方法
US9336255B2 (en) Techniques for traversal and storage of directory entries of a storage volume
CN105593828A (zh) 管理文件的方法、分布式存储系统和管理节点
JP2003122508A5 (zh)
CN103064906B (zh) 文件管理方法及装置
CN106951179B (zh) 一种数据迁移方法及装置
US9584388B2 (en) Domain name server traffic volume estimation
GB2559465A (en) Database memory monitoring and defragmentation of database indexes
CN109471971B (zh) 一种面向教育领域资源云存储的语义预取方法及系统
KR101686346B1 (ko) 하이브리드 ssd 기반 하둡 분산파일 시스템의 콜드 데이터 축출방법
US11636081B2 (en) Dynamic index management for computing storage resources
CN102129454A (zh) 一种基于云存储的百科数据处理方法及系统
CN113127515A (zh) 面向电网的调控数据高速缓存方法、装置、计算机设备和存储介质
CN107741968A (zh) 一种文件检索的方法、系统、装置及计算机可读存储介质
CN104537023A (zh) 一种反向索引记录的存储方法及装置
CN107943558A (zh) 基于霍尔特指数平滑法的状态预测模型生成方法
US9292610B2 (en) Location identification using hierarchical nature of geographic locations
US20130024450A1 (en) Converter traversal using power of two-based operations
US20210042038A1 (en) Techniques to identify segments of information space through active adaption to environment context

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160330

RJ01 Rejection of invention patent application after publication