CN105447062A

CN105447062A - 热点数据识别方法和装置

Info

Publication number: CN105447062A
Application number: CN201410515821.9A
Authority: CN
Inventors: 龚靖; 冯明; 秦达; 雷俊智; 段勇
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2014-09-30
Filing date: 2014-09-30
Publication date: 2016-03-30

Abstract

本发明公开了一种热点数据识别方法和装置，涉及云计算领域。其中方法包括：根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件；确定被访问热点文件与其关联文件之间的文件关联度；根据被访问热点文件与其关联文件之间的文件关联度以及关联文件的访问热度信息确定关联文件的热度权重；根据关联文件的热度权重从关联文件中识别出热点文件。本发明在确定文件热度时增加对文件相关性的参考，从而提升热点文件的预判能力，提高用户所需要的热点数据的命中率。

Description

热点数据识别方法和装置

技术领域

本发明涉及云计算领域，特别涉及一种热点数据识别方法和装置。

背景技术

在云存储系统中，热点数据多依据数据的访问频度、数据访问时间等信息来确定。用户通常可以将热点数据从云端迁移至本地，从而提高访问效率。

但是，按照目前的热点数据识别方法，识别的各个热点数据之间很可能毫无关系，受限于存储资源、网络资源等因素，用户通常很难将全部热点数据从云端迁移至本地，即便可以将全部热点数据从云端迁移至本地，其中大部分热点数据很可能不是用户需要的，从而造成宝贵的存储资源和网络资源的浪费。

因此，有必要改进热点数据的识别方案，提高用户所需要的热点数据的命中率。

发明内容

本发明实施例的一个目的是：提出一种新的热点数据识别方案，以提高用户所需要的热点数据的命中率。

根据本发明实施例的一个方面，提出一种热点数据识别方法，包括：根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件；确定被访问热点文件与其关联文件之间的文件关联度；根据被访问热点文件与其关联文件之间的文件关联度以及关联文件的访问热度信息确定关联文件的热度权重；根据关联文件的热度权重从关联文件中识别出热点文件。

在一个实施例中，根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件包括：计算被访问热点文件与其他文件之间的文件名关联系数，选取文件名关联系数最大的预设数量的文件作为第一关联集合；计算被访问热点文件与其他文件之间的文件内容关联系数，选取文件内容关联系数最大的预设数量的文件作为第二关联集合；获取在被访问热点文件之前最近被访问的预设数量的文件作为第三关联集合；获取与被访问热点文件在同一目录下的文件作为第四关联集合；将第一关联集合、第二关联集合、第三关联集合和第四关联集合中至少一个集合中的文件作为被访问热点文件的关联文件。

在一个实施例中，通过Apriori算法计算被访问热点文件与其他文件之间的文件名关联系数和文件内容关联系数。

在一个实施例中，确定被访问热点文件与其关联文件之间的文件关联度包括：计算被访问热点文件与其关联文件之间的文件名关联系数；计算被访问热点文件与其关联文件之间的文件内容关联系数；根据各个关联文件的访问顺序计算每个关联文件的文件访问顺序系数；根据被访问热点文件与关联文件是否在同一目录下确定关联文件的文件位置系数；根据被访问热点文件与其关联文件之间的文件名关联系数和文件内容关联系数、以及关联文件的文件访问顺序系数和文件位置系数，使用欧几里德距离算法确定被访问热点文件与其关联文件之间的文件关联度。

在一个实施例中，根据被访问热点文件与其关联文件之间的文件关联度以及关联文件的访问热度信息确定关联文件的热度权重包括：设置文件关联度和访问热度信息在热度权重中所占的热度系数；根据被访问热点文件与其关联文件之间的文件关联度及其热度系数，并且结合关联文件的访问热度信息及其热度系数，综合确定关联文件的热度权重；其中，访问热度信息包括访问时间和/或访问频率。

在一个实施例中，识别出热点文件之后，还包括：如果本地缓存中没有识别出的热点文件，从云端下载该热点文件；和/或，如果本地缓存中存留有非热点文件，从本地缓存中删除该非热点文件。

根据本发明实施例的再一个方面，提出一种热点数据识别装置，包括：关联文件确定单元，用于根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件；文件关联度确定单元，用于确定被访问热点文件与其关联文件之间的文件关联度；热度权重确定单元，用于根据被访问热点文件与其关联文件之间的文件关联度以及关联文件的访问热度信息确定关联文件的热度权重；热点文件识别单元，用于根据关联文件的热度权重从关联文件中识别出热点文件。

在一个实施例中，关联文件确定单元，具体用于根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件：计算被访问热点文件与其他文件之间的文件名关联系数，选取文件名关联系数最大的预设数量的文件作为第一关联集合；计算被访问热点文件与其他文件之间的文件内容关联系数，选取文件内容关联系数最大的预设数量的文件作为第二关联集合；获取在被访问热点文件之前最近被访问的预设数量的文件作为第三关联集合；获取与被访问热点文件在同一目录下的文件作为第四关联集合；将第一关联集合、第二关联集合、第三关联集合和第四关联集合中至少一个集合中的文件作为被访问热点文件的关联文件。

在一个实施例中，文件关联度确定单元，具体用于：计算被访问热点文件与其关联文件之间的文件名关联系数；计算被访问热点文件与其关联文件之间的文件内容关联系数；根据各个关联文件的访问顺序计算每个关联文件的文件访问顺序系数；根据被访问热点文件与关联文件是否在同一目录下确定关联文件的文件位置系数；根据被访问热点文件与其关联文件之间的文件名关联系数和文件内容关联系数、以及关联文件的文件访问顺序系数和文件位置系数，使用欧几里德距离算法确定被访问热点文件与其关联文件之间的文件关联度。

在一个实施例中，热度权重确定单元，具体用于：设置文件关联度和访问热度信息在热度权重中所占的热度系数；根据被访问热点文件与其关联文件之间的文件关联度及其热度系数，并且结合关联文件的访问热度信息及其热度系数，综合确定关联文件的热度权重；其中，访问热度信息包括访问时间和/或访问频率。

在一个实施例中，热点数据识别装置还包括：热点文件处理单元，用于在识别出热点文件之后，如果本地缓存中没有识别出的热点文件，从云端下载该热点文件；和/或，如果本地缓存中存留有非热点文件，从本地缓存中删除该非热点文件。

本发明实施例在确定文件热度时增加对文件相关性的参考，从而提升热点文件的预判能力，提高用户所需要的热点数据的命中率。并且，将识别出的热点文件下载到本地缓存，可以提高用户对本地文件的访问速度。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明热点数据识别方法一个实施例的流程示意图。

图2是本发明热点数据识别装置一个实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了提高用户所需要的热点数据的命中率，本发明提出一种新的热点数据识别方案，包括热点数据识别方法和热点数据识别装置。本发明提出的热点数据识别方案可以应用于云存储领域，例如公有云和私有云结合的混合云存储，还可以应用于分层分级存储。下面分别具体说明热点数据识别方案。

图1是本发明热点数据识别方法一个实施例的流程示意图。如图1所示，本实施例的热点数据识别方法包括以下步骤：

步骤S102，根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件。

步骤S104，确定被访问热点文件与其关联文件之间的文件关联度。

步骤S106，根据被访问热点文件与其关联文件之间的文件关联度以及关联文件的访问热度信息确定关联文件的热度权重。其中，访问热度信息例如包括访问时间和/或访问频率等信息。

步骤S108，根据关联文件的热度权重从关联文件中识别出热点文件。

本实施例在确定文件热度时增加对文件相关性的参考，从而提升热点文件的预判能力，提高用户所需要的热点数据的命中率。

在步骤S102中，根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件的一种实现方法具体如下：

步骤S102a，计算被访问热点文件与其他文件之间的文件名关联系数，选取文件名关联系数最大的预设数量的文件作为第一关联集合。

一种示例性的方法，可以通过Apriori算法(例如k-means算法)计算被访问热点文件与其他文件之间的文件名关联系数。具体来说，可以建立文件名关键字索引表(如表1所示)，根据文件名关键字索引表例如采用以下公式计算被访问热点文件与其他文件之间的文件名关联系数：

N_i＝support({F_i,F})/support({F})

其中，N_i表示被访问热点文件F与文件F_i之间的文件名关联系数，support(.)表示相关数据在索引表中出现的次数，例如，support({F_i,F})表示{F_i,F}在文件名关键字索引表中出现的次数，support({F})表示{F}在文件名关键字索引表中出现的次数。

表1

另外，例如可以选取文件名关联系数最大的m个文件作为第一关联集合FN，FN＝{fn1,fn2,…，fnm}，m值可以根据热点文件识别精度需要进行设置。

步骤S102b，计算被访问热点文件与其他文件之间的文件内容关联系数，选取文件内容关联系数最大的预设数量的文件作为第二关联集合。

一种示例性的方法，可以通过Apriori算法(例如k-means算法)计算被访问热点文件与其他文件之间的文件内容关联系数。具体来说，可以建立文件内容关键字索引表(如表2所示)，根据文件内容关键字索引表例如采用以下公式计算被访问热点文件与其他文件之间的文件内容关联系数：

C_i＝support({F_i,F})/support({F})

其中，C_i表示被访问热点文件F与文件F_i之间的文件内容关联系数，support(.)表示相关数据在索引表中出现的次数，例如，support({F_i,F})表示{F_i,F}在文件内容关键字索引表中出现的次数，support({F})表示{F}在文件内容关键字索引表中出现的次数。

表2

另外，例如可以选取文件内容关联系数最大的m个文件作为第二关联集合FC，FC＝{fc1,fc2,…，fcm}，m值可以根据热点文件识别精度需要进行设置。

步骤S102c，获取在被访问热点文件之前最近被访问的预设数量的文件作为第三关联集合。

例如，获取在被访问热点文件F之前最近被访问的m个文件作为第三关联集合FA，FA＝{fa1,fa2,…，fam}，m值可以根据热点文件识别精度需要进行设置。

步骤S102d，获取与被访问热点文件在同一目录下的文件作为第四关联集合FD，FD＝{fd1,fd2,…，fdm，…}。

步骤S102e，将第一关联集合、第二关联集合、第三关联集合和第四关联集合中至少一个集合中的文件作为被访问热点文件的关联文件。例如，可以将四个集合中的文件作为被访问热点文件的关联文件，也可以选取任意一个集合、任意两个集合或任意三个集合中的文件作为被访问热点文件的关联文件。选取的关联集合越多，所确定的关联文件的范围也越大，热点文件的命中率也就越高。

通过上述步骤S102a～S102e就可以确定出某一文件的关联文件，本实施例应用上述方法可以确定被访问热点文件的关联文件。

在步骤S104中，确定被访问热点文件与其关联文件之间的文件关联度的一种实现方法具体如下：

步骤S104a，计算被访问热点文件与其关联文件之间的文件名关联系数，具体的计算方法可以参考前述。另外，如果S102a计算结果中已经包括被访问热点文件与其关联文件之间的文件名关联系数，则此处无需重复计算，可以直接采用S102a中的计算结果。

步骤S104b，计算被访问热点文件与其关联文件之间的文件内容关联系数，具体的计算方法可以参考前述。另外，如果S102b计算结果中已经包括被访问热点文件与其关联文件之间的文件内容名关联系数，则此处无需重复计算，可以直接采用S102b中的计算结果。

步骤S104c，根据各个关联文件的访问顺序计算每个关联文件的文件访问顺序系数。

一种示例性的文件访问顺序系数计算方法如下：按照访问顺序对所有的关联文件进行排序，并设置访问值，越近被访问的文件对应的访问值越大，然后可以根据如下公式计算文件访问顺序系数：

A_{i} = a_{i} / Σ_{j = 1}^{m} a_{j}

其中，A_i表示关联文件FR_i的文件访问顺序系数，a_i表示关联文件FR_i的访问值，m表示被访问热点文件的关联文件的数量。

步骤S104d，根据被访问热点文件与关联文件是否在同一目录下确定关联文件的文件位置系数。

一种示例性的关联文件的文件位置系数确定方法如下：如果被访问热点文件与关联文件在同一目录下，则该关联文件的文件位置系数D_i设置为1，如果被访问热点文件与关联文件不在同一目录下，则该关联文件的文件位置系数D_i设置为0。

步骤S104e，根据被访问热点文件与其关联文件之间的文件名关联系数和文件内容关联系数、以及关联文件的文件访问顺序系数和文件位置系数，使用欧几里德距离算法确定被访问热点文件与其关联文件之间的文件关联度。

一种示例性的文件关联度计算方法的公式表示如下：

R_{i} = \sqrt{Wn {| N_{i} - 1 |}^{2} + Wc {| C_{i} - 1 |}^{2} + Wa {| A_{i} - 1 |}^{2} + Wd {| D_{i} - 1 |}^{2}}

其中，R_i表示被访问热点文件F与其关联文件FR_i之间的文件关联度，Wn、Wc、Wa、Wd分别表示文件名关联系数N_i、文件内容关联系数C_i、文件访问顺序系数A_i、文件位置系数D_i对应的权重值。

在步骤S106中，根据被访问热点文件与其关联文件之间的文件关联度以及关联文件的访问热度信息确定关联文件的热度权重的一种实现方法如下：设置文件关联度和访问热度信息在热度权重中所占的热度系数；根据被访问热点文件与其关联文件之间的文件关联度及其热度系数，并且结合关联文件的访问热度信息及其热度系数，综合确定关联文件的热度权重。以访问热度信息使访问时间和访问频率为例，计算关联文件的热度权重的公式表示如下：

H_{i} = \sqrt{{(Wr \times R_{i})}^{2} + {(Wt | T_{i} - T_{f} |)}^{2} + {(Wp | P_{i} - P_{\max} |)}^{2}}

其中，Hi表示关联文件FRi的热度权重，Tf表示被访问热点文件F的访问时间，Ti表示关联文件FRi的访问时间，P_max表示文件访问的最大频率，Pi表示关联文件FRi的访问频率，Wr、Wt、Wp分别表示文件关联度、文件访问时间、文件访问频率的权重值。

在步骤S108中，根据关联文件的热度权重从各关联文件中识别热点文件，例如，可以选取热度权重最大的预设数量的关联文件作为热点文件，也可以选取热度权重大于预设权重阈值的关联文件作为热点文件。

在识别出热点文件之后，如果本地缓存中没有识别出的热点文件，从云端下载该热点文件，从而提高本地文件访问速度；和/或，如果本地缓存中存留有非热点文件(热点文件之外的其他文件)，从本地缓存中删除该非热点文件，从而节省存储资源。

上述实施例通过文件名、文件内容、访问顺序、文件位置等信息计算文件关联度，再结合访问时间、访问频度预判文件热度，提高用户所需要的热点数据的命中率，提高本地文件访问速度。

本发明实施例还提出一种热点数据识别装置。图2是本实施例热点数据识别装置一个实施例的结构示意图。如图2所示，本实施例的热点数据识别装置包括：

关联文件确定单元202，用于根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件；

文件关联度确定单元204，用于确定被访问热点文件与其关联文件之间的文件关联度；

热度权重确定单元206，用于根据被访问热点文件与其关联文件之间的文件关联度以及关联文件的访问热度信息确定关联文件的热度权重；

热点文件识别单元208，用于根据关联文件的热度权重从关联文件中识别出热点文件。

在一个实施例中，关联文件确定单元202，具体用于根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件：计算被访问热点文件与其他文件之间的文件名关联系数，选取文件名关联系数最大的预设数量的文件作为第一关联集合；计算被访问热点文件与其他文件之间的文件内容关联系数，选取文件内容关联系数最大的预设数量的文件作为第二关联集合；获取在被访问热点文件之前最近被访问的预设数量的文件作为第三关联集合；获取与被访问热点文件在同一目录下的文件作为第四关联集合；将第一关联集合、第二关联集合、第三关联集合和第四关联集合中至少一个集合中的文件作为被访问热点文件的关联文件。

在一个实施例中，文件关联度确定单元204，具体用于：计算被访问热点文件与其关联文件之间的文件名关联系数；计算被访问热点文件与其关联文件之间的文件内容关联系数；根据各个关联文件的访问顺序计算每个关联文件的文件访问顺序系数；根据被访问热点文件与关联文件是否在同一目录下确定关联文件的文件位置系数；根据被访问热点文件与其关联文件之间的文件名关联系数和文件内容关联系数、以及关联文件的文件访问顺序系数和文件位置系数，使用欧几里德距离算法确定被访问热点文件与其关联文件之间的文件关联度。

在一个实施例中，热度权重确定单元206，具体用于：设置文件关联度和访问热度信息在热度权重中所占的热度系数；根据被访问热点文件与其关联文件之间的文件关联度及其热度系数，并且结合关联文件的访问热度信息及其热度系数，综合确定关联文件的热度权重；其中，访问热度信息包括访问时间和/或访问频率。

热点文件识别单元208，具体用于选取热度权重最大的预设数量的关联文件作为热点文件，或者，选取热度权重大于预设权重阈值的关联文件作为热点文件。

上述实施例在确定文件热度时增加对文件相关性的参考，从而提升热点文件的预判能力，提高用户所需要的热点数据的命中率。并且，将识别出的热点文件下载到本地缓存，可以提高用户对本地文件的访问速度。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种热点数据识别方法，其特征在于，包括：

根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件；

确定被访问热点文件与其关联文件之间的文件关联度；

根据被访问热点文件与其关联文件之间的文件关联度以及关联文件的访问热度信息确定关联文件的热度权重；

根据关联文件的热度权重从关联文件中识别出热点文件。

2.根据权利要求1所述的方法，其特征在于，所述根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件包括：

计算被访问热点文件与其他文件之间的文件名关联系数，选取文件名关联系数最大的预设数量的文件作为第一关联集合；

计算被访问热点文件与其他文件之间的文件内容关联系数，选取文件内容关联系数最大的预设数量的文件作为第二关联集合；

获取在被访问热点文件之前最近被访问的预设数量的文件作为第三关联集合；

获取与被访问热点文件在同一目录下的文件作为第四关联集合；

将第一关联集合、第二关联集合、第三关联集合和第四关联集合中至少一个集合中的文件作为被访问热点文件的关联文件。

3.根据权利要求2所述的方法，其特征在于，通过Apriori算法计算被访问热点文件与其他文件之间的文件名关联系数和文件内容关联系数。

4.根据权利要求1所述的方法，其特征在于，所述确定被访问热点文件与其关联文件之间的文件关联度包括：

计算被访问热点文件与其关联文件之间的文件名关联系数；

计算被访问热点文件与其关联文件之间的文件内容关联系数；

根据各个关联文件的访问顺序计算每个关联文件的文件访问顺序系数；

根据被访问热点文件与关联文件是否在同一目录下确定关联文件的文件位置系数；

根据被访问热点文件与其关联文件之间的文件名关联系数和文件内容关联系数、以及关联文件的文件访问顺序系数和文件位置系数，使用欧几里德距离算法确定被访问热点文件与其关联文件之间的文件关联度。

5.根据权利要求1所述的方法，其特征在于，所述根据被访问热点文件与其关联文件之间的文件关联度以及关联文件的访问热度信息确定关联文件的热度权重包括：

设置文件关联度和访问热度信息在热度权重中所占的热度系数；

根据被访问热点文件与其关联文件之间的文件关联度及其热度系数，并且结合关联文件的访问热度信息及其热度系数，综合确定关联文件的热度权重；

其中，访问热度信息包括访问时间和/或访问频率。

6.根据权利要求1所述的方法，其特征在于，识别出热点文件之后，还包括：

如果本地缓存中没有识别出的热点文件，从云端下载该热点文件；

和/或，

如果本地缓存中存留有非热点文件，从本地缓存中删除该非热点文件。

7.一种热点数据识别装置，其特征在于，包括：

关联文件确定单元，用于根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件；

文件关联度确定单元，用于确定被访问热点文件与其关联文件之间的文件关联度；

热度权重确定单元，用于根据被访问热点文件与其关联文件之间的文件关联度以及关联文件的访问热度信息确定关联文件的热度权重；

热点文件识别单元，用于根据关联文件的热度权重从关联文件中识别出热点文件。

8.根据权利要求7所述的装置，其特征在于，所述关联文件确定单元，具体用于根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件：

9.根据权利要求8所述的装置，其特征在于，通过Apriori算法计算被访问热点文件与其他文件之间的文件名关联系数和文件内容关联系数。

10.根据权利要求7所述的装置，其特征在于，所述文件关联度确定单元，具体用于：

计算被访问热点文件与其关联文件之间的文件名关联系数；

11.根据权利要求7所述的装置，其特征在于，所述热度权重确定单元，具体用于：

其中，访问热度信息包括访问时间和/或访问频率。

12.根据权利要求7所述的装置，其特征在于，还包括：

热点文件处理单元，用于在识别出热点文件之后，如果本地缓存中没有识别出的热点文件，从云端下载该热点文件；和/或，如果本地缓存中存留有非热点文件，从本地缓存中删除该非热点文件。