CN113312353A

CN113312353A - 一种跟踪带日志的存储方法及系统

Info

Publication number: CN113312353A
Application number: CN202110648797.6A
Authority: CN
Inventors: 朱敬茹; 李湘滨; 乔玉洁; 张红宇; 蔡盛
Original assignee: China Travelsky Holding Co
Current assignee: China Travelsky Technology Co Ltd; China Travelsky Holding Co
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-08-27

Abstract

本发明提供了一种跟踪带日志的存储方法及装置，在应用层重新设计数据存储表，HBase的数据存储表包括主表、一级索引表和二级索引表。基于预分区将跟踪带日志数据存储到主表、一级索引表和二级索引表中，减少总的数据存储量，但不降低信息量。主表存储跟踪带日志的控制头、扩展区和内容区的字段，一级索引表存储跟踪带日志中预设字段与日期的组合的哈希值，二级索引表存储跟踪带日志的扩展区的字段，实现跟踪带日志在HBase中主键均匀分布，避免热点问题的发生，解决由于热点问题导致的写入延迟、读取缓慢的问题。

Description

一种跟踪带日志的存储方法及系统

技术领域

本发明涉及计算机技术领域，更具体的，涉及一种跟踪带日志的存储方法及系统。

背景技术

中国航信业务系统是民航信息化发展的核心，随着民航业及IT技术的发展，中航信PSS系统越来越多的功能逐步从主机外移到开放系统，各个开放系统之间错综复杂，支撑着航信各业务的交易及服务等，这些系统每天都产生大量的日志数据，其中包含了大量的系统日志数据、用户输入输出数据、交易数据及结果等，这些日志数据是用户行为审计的基础、是复杂业务故障分析的基础。

为了便于对中国航信的主要应用进行日志审计、用户行为分析等工作，对各开放系统的日志数据建立了一套全局跟踪带。全局跟踪带主要目的是在符合法律法规要求的前提下，满足用户和航信自身对行为数据的应用需求。全局跟踪带主要采集了中航信各开放系统的日志数据，日志数据日均增量10TB级，峰值可达20TB或更大。

现有技术中，跟踪带日志被统一采集推送至Kafka，解析后存储至HBase，但是，跟踪带日志数据存储至HBase时存在写入延迟，读取缓慢等问题。

发明内容

有鉴于此，本发明提供了一种跟踪带日志的存储方法及系统，解决了跟踪带日志写入延迟，读取缓慢的问题。

为了实现上述发明目的，提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

一种跟踪带日志的存储方法，其特征在于，包括：

调用独立的日志采集进程采集跟踪带日志，并按预设格式将所述跟踪带日志存储到kafka相应的主题中；

将kafka中相同格式不同主题的所述跟踪带日志数据，基于预分区存储到HBase中相应日期的主表、一级索引表和二级索引表中，所述主表存储所述跟踪带日志的控制头、扩展区和内容区的字段，所述一级索引表存储所述跟踪带日志中预设字段与日期的组合的哈希值，所述二级索引表存储所述跟踪带日志的扩展区的字段。

一种跟踪带日志的存储装置，包括：

数据采集单元，用于调用独立的日志采集进程采集跟踪带日志，并按预设格式将所述跟踪带日志存储到kafka相应的主题中；

数据存储单元，用于将kafka中相同格式不同主题的所述跟踪带日志数据，基于预分区存储到HBase中相应日期的主表、一级索引表和二级索引表中，所述主表存储所述跟踪带日志的控制头、扩展区和内容区的字段，所述一级索引表存储所述跟踪带日志中预设字段与日期的组合的哈希值，所述二级索引表存储所述跟踪带日志的扩展区的字段。

相对于现有技术，本发明的有益效果如下：

本发明公开的一种跟踪带日志的存储方法，在应用层重新设计数据存储表，数据存储表包括主表、一级索引表和二级索引表。基于预分区将跟踪带日志数据存储到主表、一级索引表和二级索引表中，减少总的数据存储量，但不降低信息量。主表存储跟踪带日志的控制头、扩展区和内容区的字段，一级索引表存储跟踪带日志中预设字段与日期的组合的哈希值，二级索引表存储跟踪带日志的扩展区的字段，实现跟踪带日志在HBase中主键均匀分布，避免热点问题的发生，解决由于热点问题导致的写入延迟、读取缓慢的问题。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1为本发明实施例公开的一种跟踪带日志的存储方法的流程示意图；

图2为本发明实施例公开的一种主表的结构示意图；

图3为本发明实施例公开的一种一级索引表的结构示意图；

图4为本发明实施例公开的一种二级索引表的结果示意图；

图5为本发明实施例公开的一种跟踪带调整前数据分布示意图；

图6为本发明实施例公开的一种跟踪带调整后数据分布示意图；

图7为本发明实施例公开的一种跟踪带日志的存储装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本发明提供了一种跟踪带日志的存储方法，在应用层重新设计数据存储表，HBase的数据存储表包括主表、一级索引表和二级索引表，基于预分区将跟踪带日志数据存储到主表、一级索引表和二级索引表中，减少总的数据存储量，但不降低信息量，实现跟踪带日志在HBase中主键均匀分布，避免热点问题的发生，解决由于热点问题导致的写入延迟、读取缓慢的问题。

具体的，请参阅图1，本实施例公开的一种跟踪带日志的存储方法包括以下步骤：

S101：调用独立的日志采集进程采集跟踪带日志，并按预设格式将跟踪带日志存储到kafka相应的主题中；

调用独立的日志采集进程采集跟踪带日志，以提高跟踪带日志的采集效率。

日志采集进程将跟踪带日志中的文件名、文件大小、记录格式和通用字段转换为统一预设格式，预设格式包括控制头、扩展区和内容区，如[#％&*^]控制头0x0A扩展区0x0A内容区0x0A。

各应用的跟踪带日志统一采用UTF-8编码，将不同应用的数据存储到kafka相应的主题topic中。

S102：将kafka中相同格式不同主题的跟踪带日志数据，基于预分区存储到HBase中相应日期的主表、一级索引表和二级索引表中，主表存储跟踪带日志的控制头、扩展区和内容区的字段，一级索引表存储跟踪带日志中预设字段与日期的组合的哈希值，二级索引表存储跟踪带日志的扩展区的字段。

具体的，可以采用分布式实时大数据处理框架Storm解析从Kafka中读取到的跟踪带日志数据，将kafka中相同格式不同主题的所述跟踪带日志数据，基于预分区存储到HBase中相应日期的主表、一级索引表和二级索引表中。

请参阅图2，图2为主表的结构示意图，前缀(int)offset％region转换为byte[]的后两位，region表示预分区设置为N，则预分区数为N，N为正整数。由于HBase是字典序存储，offset是连续的值，offset模除预分区数N后，使得前缀范围在0～N，从而达到均匀分布，避免热点的发生的目的。

请参阅图3，图3为第一索引表的结构示意图，计算跟踪带日志数据中预设字段与日期的组合的哈希值，并将预设位置的哈希值作为rowkey存储在相应日期的第一索引表中，如计算字段N与日期的组合的哈希值，取哈希值前两位作为rowkey，即hashCode：hashCode(字段N+yyyyMMddHH).subString(0,2)，来达到跟踪带日志HBase主键均匀分布的目的。

请参阅图4，图4为二级索引表的结构示意图，二级索引表rowkey存储跟踪带日志扩展区的字段，扩展区字段的映射表记录了扩展区字段与字段代码之间的映射关系，将扩展区字段对应的字段代码作为rowkey存储在相应日期的第二索引表中，每个扩展区字段根据数据量大小预先设置了预分区的数量，并且可以通过扩展区字段的写入情况，修改其对应的扩展区映射表，灵活调整预分区的数量，从而避免热点问题。

本实施例公开的一种跟踪带日志的存储方法，在应用层重新设计数据存储表，数据存储表包括主表、一级索引表和二级索引表。基于预分区将跟踪带日志数据存储到主表、一级索引表和二级索引表中，减少总的数据存储量，但不降低信息量。主表存储跟踪带日志的控制头、扩展区和内容区的字段，一级索引表存储跟踪带日志中预设字段与日期的组合的哈希值，二级索引表存储跟踪带日志的扩展区的字段，实现跟踪带日志在HBase中主键均匀分布，避免热点问题的发生，解决由于热点问题导致的写入延迟、读取缓慢的问题。

发明人经过研究发现：HBase数据库作为分布式数据库，大量的新数据接入及原有数据膨胀，必然会导致数据热点问题，频繁的split、compaction，导致单点的大量GC(Garbage Collection，垃圾回收)，甚至FullGC，造成节点响应超时，响应超时必然会导致整个集群的可用性降低。

为了解决上述技术问题，上述实施例公开的一种跟踪带日志的存储方法在应用层通过重新设计数据存储表，实现跟踪带日志在HBase中主键均匀分布，避免热点问题的发生，解决由于热点问题导致的写入延迟、读取缓慢的问题。

在此基础上，本实施例还对平台层进行了线程调整，具体的，调整FLUSH(清空)线程数；调整SPLIT(分裂)线程数；调整COMPACTION(合并文件)线程数；调整REGION(分区)打开关闭线程数；调整WALSPLIT(日志拆分)线程数。

具体的，将HBase中合并文件的最小线程数调高到第一预设值，避免过多的合并文件线程数，并将合并文件的最大线程数调低到第二预设值，缩短合并文件的时间。其中第一预设值和第二预设值可以根据实际情况预先进行设定。

本实施例还在平台层对缓存进行调整，开启HBase中堆外内存记录L2读缓存，堆内只剩L1缓存，缓存META数据，所以尽可能多的比例给写。

本实施例还在平台层进行GC调整，弃用JDK1.7下的G1GC，增加幸存区对象回收比例，避免单点的大量GC。

也就是说，本发明从平台层和应用层分别对现有的跟踪带日志的存储方法进行改进，对平台层进行了线程调整、缓存调整和GC调整，从应用层重设计数据存储表，提出一种在增加预分区的基础上，基于哈希值的跟踪带日志HBase主键均匀分布方法，减少总的数据存储量，而不降低信息量，预分区降低HBase表split次数，对于未来的数据膨胀可扩展，避免主键分布不均导致的热点问题，跟踪带调整前后数据的分布情况如图5和图6所示。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

基于上述实施例公开的一种跟踪带日志的存储方法，本实施例对应公开了一种跟踪带日志的存储装置，描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，请参阅图7，该装置包括：

数据采集单元100，用于调用独立的日志采集进程采集跟踪带日志，并按预设格式将所述跟踪带日志存储到kafka相应的主题中；

数据存储单元200，用于将kafka中相同格式不同主题的所述跟踪带日志数据，基于预分区存储到HBase中相应日期的主表、一级索引表和二级索引表中，所述主表存储所述跟踪带日志的控制头、扩展区和内容区的字段，所述一级索引表存储所述跟踪带日志中预设字段与日期的组合的哈希值，所述二级索引表存储所述跟踪带日志的扩展区的字段。

可选的，所述数据采集单元100，具体用于：

将所述跟踪带日志中的文件名、文件大小、记录格式和通用字段转换为统一预设格式，所述预设格式包括控制头、扩展区和内容区；

将所述跟踪带日志按所述预设格式存储到kafka相应的主题中。

可选的，所述数据存储单元200，具体用于：

根据kafka中相同格式不同主题的所述跟踪带日志数据的日期，确定所述跟踪带日志数据存储在HBase中的主表、一级索引表和二级索引表；

将所述跟踪带日志数据中的控制头中的前缀值转换为在预分区范围内的前缀值，并将转换后的前缀值、扩展区和内容区字段存储到相应日期的主表中；

计算所述跟踪带日志数据中预设字段与日期的组合的哈希值，并将预设位置的哈希值作为rowkey存储在相应日期的第一索引表中；

根据预分区的数量确定所述跟踪带日志数据中扩展区字段对应的字段代码，并将扩展区字段对应的字段代码作为rowkey存储在相应日期的第二索引表中。

可选的，所述装置还包括：

线程调整单元，用于将HBase中合并文件的最小线程数调高到第一预设值，并将合并文件的最大线程数调低到第二预设值。

可选的，所述装置还包括：

缓存调整单元，用于开启HBase中堆外内存记录读缓存。

可选的，所述装置还包括：

垃圾回收调整单元，用于弃用JDK1.7下的G1GC，并增加幸存区对象回收比例。

本实施例公开的一种跟踪带日志的存储装置，在应用层重新设计数据存储表，数据存储表包括主表、一级索引表和二级索引表。基于预分区将跟踪带日志数据存储到主表、一级索引表和二级索引表中，减少总的数据存储量，但不降低信息量。主表存储跟踪带日志的控制头、扩展区和内容区的字段，一级索引表存储跟踪带日志中预设字段与日期的组合的哈希值，二级索引表存储跟踪带日志的扩展区的字段，实现跟踪带日志在HBase中主键均匀分布，避免热点问题的发生，解决由于热点问题导致的写入延迟、读取缓慢的问题。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

根据本公开的一个或多个实施例，示例1提供了一种跟踪带日志的存储方法，包括：

进一步，所述按预设格式将所述跟踪带日志存储到kafka相应的主题中，包括：

进一步，所述将kafka中相同格式不同主题的所述跟踪带日志数据，基于预分区存储到HBase中相应日期的主表、一级索引表和二级索引表中，包括：

进一步，所述方法还包括：

将HBase中合并文件的最小线程数调高到第一预设值，并将合并文件的最大线程数调低到第二预设值。

进一步，所述方法还包括：

开启HBase中堆外内存记录读缓存。

进一步，所述方法还包括：

弃用JDK1.7下的G1GC；

增加幸存区对象回收比例。

根据本公开的一个或多个实施例，示例2提供了一种跟踪带日志的存储装置，包括：

进一步，所述数据采集单元，具体用于：

进一步，所述数据存储单元，具体用于：

进一步，所述装置还包括：

缓存调整单元，用于开启HBase中堆外内存记录读缓存。

进一步，所述装置还包括：

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种跟踪带日志的存储方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述按预设格式将所述跟踪带日志存储到kafka相应的主题中，包括：

3.根据权利要求1所述的方法，其特征在于，所述将kafka中相同格式不同主题的所述跟踪带日志数据，基于预分区存储到HBase中相应日期的主表、一级索引表和二级索引表中，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

开启HBase中堆外内存记录读缓存。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

弃用JDK1.7下的G1GC；

增加幸存区对象回收比例。

7.一种跟踪带日志的存储装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述数据采集单元，具体用于：

9.根据权利要求7所述的装置，其特征在于，所述数据存储单元，具体用于：

10.根据权利要求7所述的装置，其特征在于，所述装置还包括：

11.根据权利要求7所述的装置，其特征在于，所述装置还包括：

缓存调整单元，用于开启HBase中堆外内存记录读缓存。

12.根据权利要求7所述的装置，其特征在于，所述装置还包括：