CN110362549A

CN110362549A - 日志存储检索方法、电子装置及计算机设备

Info

Publication number: CN110362549A
Application number: CN201910522489.1A
Authority: CN
Inventors: 袁康
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2019-10-22

Abstract

本发明公开了一种日志存储检索方法。将风险控制系统的多条日志数据存储到第一数据库；根据所述多笔日志数据建立多个键值和组成所述多个键值的各个字段的映射关系，并将所述多个键值与每一个键值的申请号存储到第二数据库；当要检索一条日志数据时，根据某个或某些字段去第二数据库查出对应所述条日志数据的键值；及根据在所述第二数据库查出对应所述条日志数据的键值，再去所述第一数据库查出对应所述键值的日志数据。本发明还提供使用日志存储检索方法的电子装置，通过整合ElasticSearch数据库与HBase数据库，实现海量日志的存储和快速检索。

Description

日志存储检索方法、电子装置及计算机设备

技术领域

本发明涉及过程优化的技术领域，尤其涉及一种日志存储检索方法、电子装置、计算机设备及存储介质。

背景技术

目前业内通过关系型数据库如Oracle存储检索日志，面临着存储容量有限问题，当数据量剧增时检索效率较低；通过非关系型数据库如MongoDB存储检索日志，日志量剧增时，存储空间相应的增长，耗费昂贵的费用。

由于风险控控系统每天的日志量很大，传统的关系型数据库难以满足海量日志的存储需求，所以需要将日志存储到非关系型数据库。当数据量很大时，检索效率明显降低。

发明内容

有鉴于此，本发明提出一种日志存储检索方法，通过整合ElasticSearch数据库与HBase数据库，实现海量日志的存储和快速检索。

为实现上述目的，本发明提出一种日志存储检索方法，应用于电子装置中，该方法包括步骤：将风险控制系统的多条日志数据存储到第一数据库，其中，一条日志数据对应一个行键的键值；根据所述多条日志数据建立多个键值和组成所述多个键值的各个字段的映射关系，并将所述映射关系存储到第二数据库；当检索目标日志数据时，根据所述目标日志数据对应的字段从第二数据库查找对应所述目标日志数据的键值；及根据所述目标日志数据的键值，从所述第一数据库查找对应所述目标日志数据的的日志数据。

进一步地，所述多个键值的各个字段包括申请号和日期，根据所述申请号和所述日期两个字段查所述日志数据时，先根据所述申请号和所述日期去所述第二数据库找到所述键值；及通过所述第二数据库的二级索引组合多个查询字段。

进一步地，所述键值由多个字段拼成，格式为：递增序号_申请号_调用ID_策略集编码_查询类型_日期_序列号。

进一步地，所述日志数据至少包括申请号、入参、出参、处理器ID、请求开始时间和请求结束时间。

进一步地，所述第一数据库为HBase数据库，所述第二数据库为ElasticSearch数据库。

为实现上述目的，本发明还提出一种电子装置，包括存储模块、建立模块与查找模块。所述存储模块用于将风险控制系统的多条日志数据存储到第一数据库，其中，一条日志数据对应一个行键的键值。所述建立模块用于根据所述多条日志数据建立多个键值和组成所述多个键值的各个字段的映射关系，并将所述映射关系储到第二数据库。所述查找模块用于当检索目标日志数据时，根据所述目标日志数据对应的字段从第二数据库找出对应所述目标日志数据的键值，及根据所述目标日志数据的键值，从所述第一数据库找出对应所述目标日志数据的日志数据。

进一步地，所述多个键值的各个字段包括申请号和日期，所述查找模块根据所述申请号和所述日期两个字段查所述日志数据时，先根据所述申请号和所述日期去所述第二数据库找到所述键值，及通过所述第二数据库的二级索引组合多个查询字段。

为实现上述目的，本发明还提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述日志存储检索方法的步骤。

为实现上述目的，本发明还提供计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述日志存储检索方法的步骤。

相较于现有技术，本发明之日志存储检索方法应用在风险控制系统中，通过整合ElasticSearch数据库与HBase数据库，实现海量日志的存储和快速检索。

附图说明

图1系显示本发明实施例之电子装置的硬件架构示意图；

图2系显示本发明实施例之电子装置的功能方块图；

图3系显示本发明实施例之日志存储检索方法的步骤流程图；及

图4系显示本发明实施例之步骤303的具体实施流程图。

附图标记：

电子装置	10
		存储器	110
处理器	120
		日志存储检索系统	130
存储模块	210
		建立模块	220
查找模块	230

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

图1系显示本发明实施例之电子装置的硬件架构示意图。电子装置10，但不仅限于，可通过系统总线相互通信连接存储器110、处理器120以及日志存储检索系统130，图1仅示出了具有组件110-130的电子装置10，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器110至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器110可以是所述电子装置10的内部存储单元，例如该电子装置10的硬盘或内存。在另一些实施例中，所述存储器也可以是所述电子装置10的外部存储设备，例如该电子装置10上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。当然，所述存储器110还可以既包括所述电子装置100的内部存储单元也包括其外部存储设备。本实施例中，所述存储器110通常用于存储安装于所述电子装置10的操作系统和各类应用软件，例如日志存储检索系统130的程序代码等。此外，所述存储器110还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器120在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器120通常用于控制所述电子装置10的总体操作。本实施例中，所述处理器120用于运行所述存储器110中存储的程序代码或者处理数据，例如，运行所述日志存储检索系统130等。

图2系显示本发明实施例之电子装置的功能方块图。本发明实施例之电子装置10包括存储模块210、建立模块220与查找模块230。

存储模块210将风险控制系统的日志数据存储到HBase数据库(又称第一数据库)，其中，一行日志数据对应一个行键(RowKey)的键值，行键(RowKey)表示为键值(KeyValue)的Key，表示唯一一行。所述日志数据包括申请号，入参，出参，处理器ID，请求开始时间，结束时间。

本发明的风险控制系统是通过采集征信报告，设备指纹等数据，对客户进行风险评级。产生的日志记录了数据采集和风控决策的过程，主要由申请号，入参，出参，处理器ID，请求开始时间，结束时间组成，是JSON格式。本发明方法不止适用于风险系统，还适用于其它日志量大的场景。

HBase全称为Hadoop Database，即HBase是Hadoop的数据库，是一个分布式面向列的数据库的存储系统。Hadoop是一个由Apache基金会所开发的分布式系统基础架构。HBase利用Hadoop的HDFS作为其文件存储系统，利用Hadoop的MapReduce来处理HBase中的海量数据。利用ZooKeeper作为其协调工具。

HBase和一般关系型数据库的最大区别是：HBase很适合于存储非结构化的数据，还有就是它基于列的而不是基于行的模式。HBase是采用键值(KeyValue)的列存储，RowKey就是KeyValue的Key，表示唯一一行。RowKey也是一段二进制码流，最大长度为64KB，内容可以由使用的用户自定义。数据加载时，一般也是根据RowKey的二进制序由小到大进行的HBase是根据RowKey来进行检索的，系统通过找到某个RowKey(或者某个RowKey范围)所在的区域(Region)，然后将查询数据的请求路由到该Region获取数据。

RowKey是HBase的主键，可以唯一标识一行记录。RowKey由递增序号和申请号拼接而成。递增序号是指是指序号的大小是递增的，如1，2，3，4，就是递增序号。主键是唯一的，行键RowKey就是列名，键值就是行键具体的值。

在HBase数据库中查询日志相关的字段有递增序号、申请号、调用ID、策略集编码、查询类型、日期和序列号。RowKey由这几个字段拼成，格式如：递增序号_申请号_调用ID_策略集编码_查询类型_日期_序列号。

RowKey的值如下所示：

1000000_123456_id1_policy1_apply_20181009_1234568901、1000001_123456_id2_policy2_pboc_20181009_1234567890、...。

建立模块220根据存储在HBase数据库中的日志数据建立RowKey和组成RowKey的各个字段的映射关系，并将RowKey与RowKey的申请号存储到Elasticsearch数据库(又称第二数据库)。

Elasticsearch数据库是分布式的实时分析搜索引擎，适合处理大规模PB级数据。Elasticsearch可以搜索每个字段，性能强大。

PB是衡量数据大小的单位，1PB＝1024TB，1TB＝1024GB，1GB＝1024MB，1MB＝1024KB，1KB＝1024bytes。

当要检索某条日志数据时，查找模块230先根据某个或某些字段(例如，申请号，或是申请号+日期)去Elasticsearch数据库查出对应该条日志数据的RowKey。

查找模块230根据申请号和日期两个字段查日志时，先根据申请号和日期去Elasticsearch数据库找到精确的RowKey。接着，查找模块230通过Elasticsearch数据库的二级索引自由组合若干查询字段，满足丰富的查询场景，同时可以保证快速的查询效率。

所谓的二级索引，就是对除了RowKey之外的其他列进行索引。因为HBase本身只支持RowKey的索引，如果要以其他列的数据为约束进行查询，就需要建立二级索引。二级索引即在要查询的字段与一级索引建立一种映射关系。根据映射关系的存入位置，有如下两种方案。

业务表Sample如下：

表索引

使用单独的HBase表存储映射关系，查询条件组成一个RowKey，Value即为对应的一级索引。对于表Sample，现在需通过cid-did查询表中的数据，可建立索引表Index，该表RowKey为cid-did，value为表Sample中对应的aid-bid-datetime。

列索引

列索引即将索引列建在业务表上。为避免带来副作用，需要在逻辑上和物理上将索引数据与业务数据区分开。为提高性能，最好将索引数据与业务数据放在同一个Region中，此后查找一级RowKey直接在Region进行，而不再需要全表扫描。通过合理的设计RowKey前缀，可将索引数据全排在业务数据前面，这样做到了数据的逻辑区分。由于Region由一个或多个存储(Store)文件组成，每个Store只存储一个列族，因此索引列单独使用一个列族，可在物理上隔离索引数据与业务数据。

在本实施例中，以Sample表为例说明RowKey的设计。首先，建表时指定分区[0000,0099],[0100,0199]...[9900,9999]，这样有100个分区，对于业务数据的RowKey，格式为四位hash前缀-aid-bid。各RowKey的hash前缀值为其所在Region起始值外的其他任意值，如对于Region1，其hash前缀为[0001,0099]，其余依此类推。对于索引数据，RowKey格式曾四位hash前缀-查询条件代码-查询条件值-aid-bid，四位hash值为各Region的起始值，如0000。若分别查询cid＝01,did＝02，其RowKey可以为0000-cid|bid-01|02-aa-02，查看aid＝aa，cid＝03，did＝05，则RowKey为0000-aid|cid|did-aa|03|05-aa-03。

查找模块230根据Elasticsearch数据库中查找到的RowKey，再去HBase查出对应所述RowKey的日志数据。

图3系显示本发明实施例之日志存储检索方法的步骤流程图。

步骤301，将风险控制系统的日志数据存储到HBase数据库(又称第一数据库)，其中，一行日志数据对应一个行键(RowKey)的键值，行键(RowKey)表示为KeyValue的Key，表示唯一一行。所述日志数据包括申请号，入参，出参，处理器ID，请求开始时间，结束时间。

RowKey是HBase的主键，可以唯一标识一行记录。RowKey由递增序号和申请号拼接而成。递增序号是指是指序号的大小是递增的，如1，2，3，4，就是递增序号。

RowKey的值如下所示：

步骤302，根据存储在HBase数据库中的日志数据建立RowKey和组成RowKey的各个字段的映射关系，并将RowKey与RowKey的申请号存储到Elasticsearch数据库(又称第二数据库)。

步骤303，当要检索某条日志数据时，先根据某个或某些字段(例如，申请号，或是申请号+日期)去Elasticsearch数据库查出对应该条日志数据的RowKey。

图4系显示本发明实施例之步骤303的具体实施流程图。

步骤401，根据申请号和日期两个字段查日志时，先根据申请号和日期去Elasticsearch数据库找到精确的RowKey。

步骤402，通过Elasticsearch数据库的二级索引自由组合若干查询字段，满足丰富的查询场景，同时可以保证快速的查询效率。

业务表Sample如下：

RowKey	CF(Infor)
		aid-bid-datatime	Info:aid

表索引

列索引

步骤304：根据Elasticsearch数据库中查找到的RowKey，再去HBase查出对应所述RowKey的日志数据。

本发明可之大规模高性能日志存储检索系统应用在风险控制系统中，通过整合ElasticSearch与HBase，实现海量日志的存储和快速检索。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种日志存储检索方法，应用于电子装置中，其特征在于，所述方法包括步骤：

将风险控制系统的多条日志数据存储到第一数据库，其中，一条日志数据对应一个行键的键值；

根据所述多条日志数据建立多个键值和组成所述多个键值的各个字段的映射关系，并将所述映射关系存储到第二数据库；

当检索目标日志数据时，根据所述目标日志数据对应的字段从第二数据库查找对应所述目标日志数据的键值；及

根据所述目标日志数据的键值，从所述第一数据库查找对应所述目标日志数据的日志数据。

2.如权利要求1所述之日志存储检索方法，其特征在于，所述方法还包括步骤：

所述多个键值的各个字段包括申请号和日期，根据所述申请号和所述日期两个字段查所述日志数据时，先根据所述申请号和所述日期去所述第二数据库找到所述键值；及

通过所述第二数据库的二级索引组合多个查询字段。

3.如权利要求1所述之日志存储检索方法，其特征在于，所述键值由多个字段拼成，格式为：递增序号_申请号_调用ID_策略集编码_查询类型_日期_序列号。

4.如权利要求1所述之日志存储检索方法，其特征在于，所述日志数据至少包括申请号、入参、出参、处理器ID、请求开始时间和请求结束时间。

5.如权利要求1所述之日志存储检索方法，其特征在于，所述第一数据库为HBase数据库，所述第二数据库为ElasticSearch数据库。

6.一种电子装置，其特征在于，包括：

存储模块，用于将风险控制系统的多条日志数据存储到第一数据库，其中，一条日志数据对应一个行键的键值；

建立模块，用于根据所述多条日志数据建立多个键值和组成所述多个键值的各个字段的映射关系，并将所述映射关系存储到第二数据库；及

查找模块，用于当检索目标日志数据时，根所述目标日志数据对应的字段从第二数据库查找对应所述目标日志数据的键值，及根据所述目标日志数据的键值，从所述第一数据库查找对应所述目标日志数据的日志数据。

7.如权利要求6所述之电子装置，其特征在于，所述多个键值的各个字段包括申请号和日期，所述查找模块根据所述申请号和所述日期两个字段查所述日志数据时，先根据所述申请号和所述日期去所述第二数据库找到所述键值，及通过所述第二数据库的二级索引组合多个查询字段。

8.如权利要求6所述之学习模型优化与选择方法，其特征在于，所述键值由多个字段拼成，格式为：递增序号_申请号_调用ID_策略集编码_查询类型_日期_序列号。

9.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任一项之日志存储检索方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至5任一项之日志存储检索方法的步骤。