CN108932288A

CN108932288A - 一种基于Hadoop的海量小文件缓存方法

Info

Publication number: CN108932288A
Application number: CN201810500093.2A
Authority: CN
Inventors: 魏文国; 彭建烽; 谢桂园; 戴青云; 蔡君; 赵慧民
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2018-05-22
Filing date: 2018-05-22
Publication date: 2018-12-04
Anticipated expiration: 2038-05-22
Also published as: JP2019204475A; CN108932288B; JP6696062B2

Abstract

本发明公开了一种基于Hadoop的海量小文件缓存方法，该方法包括：获取用户访问日志记录，并从用户访问日志记录中统计得出活跃用户集；结合对数线性模型，计算出活跃用户集中每个活跃用户访问过的文件的热度预测值，并按照热度预测值由大到小将各文件进行排序，将排名前20％的文件标记为热点文件；获取所述热点文件，并采用Hbase数据库缓存所述热点文件的相关信息。采用本发明技术方案能提高缓存的命中率，加快文件的读取效率。

Description

一种基于Hadoop的海量小文件缓存方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于Hadoop的海量小文件缓存方法。

背景技术

Hadoop是Apache基金会在2005年作为Lucene的子项目Nutch中的一部分正式引入。Hadoop最关键的两大设计HDFS和MapReduce。而HDFS负责存储海量的数据，文件以数据块的形式存储在系统上。而HDFS的数据块比普通磁盘定义的数据块(一般是512B)大得多，HDFS目前默认的数据块大小是128MB。如果HDFS存储的文件大小大于128MB，它会将该文件切分成块大小的若干个分块，分开单独存储。而当HDFS不断的存储小文件量达到TB甚至PB级别时，小文件的问题就会产生，这是因为会有大量的元数据存储在HDFS的主节点namenode中，大大增加namenode的负载，从而会影响到系统的读取性能。其中，小文件的大小定义为2MB，即在HDFS存储文件中，当文件大小小于或等于2M，即被定义为小文件。

为了提高文件的读取效率，HDFS引入了缓存机制，而现有的缓存策略是：当用户读取某个文件时，与该文件相关的文件以及索引文件都会被加载到内存。该策略能提高文件的读取效率的前提是用户访问命中内存里的文件。但是其没有考虑到该文件集是否被频繁访问，即该文件集是否属于热门数据。现有技术的其他缓存方法也没有从热门数据的方面考虑，如果耗费大量的内存来缓存用户不经常访问的文件，不仅不能提高文件的读取效率，反而影响了整个文件系统的性能。

发明内容

本发明实施例提出一种基于Hadoop的海量小文件缓存方法，通过HBase缓存热度文件，不仅提高了缓存的命中率，而且加快了文件的读取效率。

本发明实施例提供一种基于Hadoop的海量小文件缓存方法，包括：

获取用户访问日志记录，并从所述用户访问日志记录中统计得出活跃用户集；

结合对数线性模型，计算出所述活跃用户集中每个活跃用户访问过的文件的热度预测值，并按照热度预测值由大到小将各文件进行排序，将排名前20％的文件标记为热点文件；

获取所述热点文件，并采用Hbase数据库缓存所述热点文件的相关信息。

进一步的，所述从所述用户访问日志记录中统计得出活跃用户集，具体为：

筛选出所述用户访问日志记录中访问资源后缀名以jpg结尾的记录行；其中，所述记录行包括：用户IP、访问页面URL、访问起始时间、访问状态、访问流量；

编写日志解析类对所述记录行进行解析，并使用一个二维数组来存储访问者IP和小文件名；

遍历所述二维数组中的访问者IP，并使用HashMap集合统计每一个访问者IP访问量；所述HashMap集合的Key值为访问者IP，Value值是访问量；

对所述HashMap集合按照Value值来进行降序排序，筛选出排名靠前20％的访问者IP，使用ArrayList集合存储该IP子集，并标记为活跃用户集。

进一步的，所述结合对数线性模型，计算出所述活跃用户集中每个活跃用户访问过的文件的热度预测值，并按照热度预测值由大到小将各文件进行排序，将排名前20％的文件标记为热点文件，具体为：

将从所述ArrayList集合提取出的访问者IP，与从所述二维数组中提取出访问者IP进行匹配；

当匹配成功后，以匹配成功的访问者IP作为关键词，查询出每个用户的访问起始时间，再结合对数线性模型，计算出所述活跃用户集中每个活跃用户访问过的文件的热度预测值，并按照热度预测值由大到小将各文件进行排序，将排名前20％的文件标记为热点文件；

所述对数线性模型为：lnN_i＝k(t)lnN_i(t)+b(t)；

其中，N_i为文件i的热度预测值，N_i(t)为文件i在观察时间内的访问量，观察时间长度为t。

实施本发明实施例，具有如下有益效果：

本发明实施例提供的基于Hadoop的海量小文件缓存方法，包括：获取用户访问日志记录，并从用户访问日志记录中统计得出活跃用户集；结合对数线性模型，计算出活跃用户集中每个活跃用户访问过的文件的热度预测值，并按照热度预测值由大到小将各文件进行排序，将排名前20％的文件标记为热点文件；获取所述热点文件，并采用Hbase数据库缓存所述热点文件的相关信息。相比于现有技术没有考虑用户访问的热点文件，本发明技术方案通过HBase缓存热度文件，不仅提高了缓存的命中率，而且加快了文件的读取效率。

附图说明

图1是本发明提供的基于Hadoop的海量小文件缓存方法的一种实施例的流程示意图；

图2是本发明提供的基于Hadoop的海量小文件缓存方法的另一种实施例的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明提供的基于Hadoop的海量小文件缓存方法的一种实施例的流程示意图，该流程包括步骤101至步骤103，其中各步骤具体如下：

步骤101：获取用户访问日志记录，并从用户访问日志记录中统计得出活跃用户集。

在本实施例中，步骤101中从用户访问日志记录中统计得出活跃用户集，具体为：筛选出用户访问日志记录中访问资源后缀名以jpg结尾的记录行；其中，记录行包括：用户IP、访问页面URL、访问起始时间、访问状态、访问流量；编写日志解析类对记录行进行解析，并使用一个二维数组来存储访问者IP和小文件名；遍历二维数组中的访问者IP，并使用HashMap集合统计每一个访问者IP访问量；HashMap集合的Key值为访问者IP，Value值是访问量；对HashMap集合按照Value值来进行降序排序，筛选出排名靠前20％的访问者IP，使用ArrayList集合存储该IP子集，并标记为活跃用户集。

本发明的步骤101要计算出活跃用户集的目的是，用户关于小文件的访问接近于帕累托分布规律而不是均匀的随机分布。即大部分的I/O请求访问少量的热门数据，大多数80％的访问量集中在20％的数据上。因此，如果能从文件系统存储的海量小文件通过模型预测出热点文件，再进行缓存，一定能将节省提高用户访问数据的效率。

步骤102：结合对数线性模型，计算出活跃用户集中每个活跃用户访问过的文件的热度预测值，并按照热度预测值由大到小将各文件进行排序，将排名前20％的文件标记为热点文件。

在本实施例中，步骤102具体为：将从ArrayList集合提取出的访问者IP，与从二维数组中提取出访问者IP进行匹配；当匹配成功后，以匹配成功的访问者IP作为关键词，查询出每个用户的访问起始时间，再结合对数线性模型，计算出活跃用户集中每个活跃用户访问过的文件的热度预测值，并按照热度预测值由大到小将各文件进行排序，将排名前20％的文件标记为热点文件；

对数线性模型为：lnN_i＝k(t)lnN_i(t)+b(t)；

其中，N_i为文件i的热度预测值，N_i(t)为文件i在观察时间内的访问量，观察时间长度为t。k(t)与b(t)是线性关系的相关参数，可以使用线性回归方法计算得到最优值。本发明的对数线性模型所提及到的观察时间长度t的定义是：用户访问日志记录中记录行的访问起始时间元素与收集到用户访问日志记录的时间差。例如收集到的用户访问日志记录的时间点是30/Jan/2018:17:38:20，而用户访问日志记录中记录行的访问起始时间为29/Jan/2018:10:35:15，观察时间长度是29/Jan/2018:10:35:15到30/Jan/2018:17:38:20之间的时间差，为了方便计算，时间长度以小时作为单位。

步骤103：获取热点文件，并采用Hbase数据库缓存热点文件的相关信息。

在本实施例中，采用Hbase数据库缓存热点文件的相关信息，HBase的表名值为访问者ID，HBase的RowKey设为小文件名，HBase的列族名为”file content”，Value值即单元格值为小文件内容。当用户访问HBase中的小文件时，只需根据用户ID作为表名和所要访问的小文件名作为HBase的get()方法的参数，就可以获取对应的小文件内容。

为了更好的说明本发明的缓存方法，参见图2，图2是本发明提供的基于Hadoop的海量小文件缓存方法的另一种实施例的流程示意图。如图2所示，该流程包括：用户访问记录集→正则表达式过滤筛选出所需的记录行→解析记录行→使用bean对象封装好记录行信息→调研JDBC API将bean对象持久化到Mysql数据库→使用一个二维数组存储访问者IP与小文件名信息→遍历数组，统计出用户访问量→根据用户访问量进行排序，使用ArrayList集合存储活跃用户集的用户IP→将二维数组和活跃用户集中的访问者IP进行匹配→匹配成功时，以访问者IP作为关键词，提取出用户访问起始时间和访问量→使用文件热度预测公式计算出文件热度值→对文件热度值进行排序，标记处热点文件→HBase缓存热点文件相关信息。

由上可见，本发明实施例提供的基于Hadoop的海量小文件缓存方法，包括：获取用户访问日志记录，并从用户访问日志记录中统计得出活跃用户集；结合对数线性模型，计算出活跃用户集中每个活跃用户访问过的文件的热度预测值，并按照热度预测值由大到小将各文件进行排序，将排名前20％的文件标记为热点文件；获取所述热点文件，并采用Hbase数据库缓存所述热点文件的相关信息。相比于现有技术没有考虑用户访问的热点文件，本发明技术方案通过HBase缓存热度文件，不仅提高了缓存的命中率，而且加快了文件的读取效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于Hadoop的海量小文件缓存方法，其特征在于，包括：

2.根据权利要求1所述的基于Hadoop的海量小文件缓存方法，其特征在于，所述从所述用户访问日志记录中统计得出活跃用户集，具体为：

3.根据权利要求2所述的基于Hadoop的海量小文件缓存方法，其特征在于，所述结合对数线性模型，计算出所述活跃用户集中每个活跃用户访问过的文件的热度预测值，并按照热度预测值由大到小将各文件进行排序，将排名前20％的文件标记为热点文件，具体为：

所述对数线性模型为：lnN_i＝k(t)lnN_i(t)+b(t)；