CN111008183B

CN111008183B - 一种用于业务风控日志数据的存储方法及系统

Info

Publication number: CN111008183B
Application number: CN201911135046.3A
Authority: CN
Inventors: 许守明; 陈国庆; 谢强
Original assignee: Wuhan Jiyi Network Technology Co ltd
Current assignee: Wuhan Jiyi Network Technology Co ltd
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2023-09-15
Anticipated expiration: 2039-11-19
Also published as: CN111008183A

Abstract

本发明实施例提供一种用于业务风控日志数据的存储方法及系统，该方法包括：根据业务风控日志数据的当前时间戳和业务场景标识，生成所述业务风控日志数据的block ID；将所述业务风控日志数据的block ID和多个现有block ID进行匹配，若匹配成功，则将匹配成功的现有block ID对应的block作为目标block，并获取所述目标block关联的数据索引字典；根据所述数据索引字典中排序在末尾的数据块文件编号，获取所述数据块文件编号在数据块文件的目标偏移量；将写指针移位到所述目标偏移量，以对所述业务风控日志数据进行存储写入。本发明实施例提高了数据的检索效率，降低了数据存储的维护成本。

Description

一种用于业务风控日志数据的存储方法及系统

技术领域

本发明涉及互联网风控技术领域，尤其涉及一种用于业务风控日志数据的存储方法及系统。

背景技术

当下各个互联网企业，时刻都在遭受着黑产的恶意网络攻击，这些黑产通过企业的门户网站和移动应用等互联网资产的攻击，从中谋取暴利。因此，企业也在不断加强自身的风控建设和网络安全建设，以此来抵御黑产的攻击行为。当前的风控产品，越来越与企业的业务紧密结合，结合深度学习技术，从海量的企业的业务日志数据中发掘出黑产的蛛丝马迹，并不断优化算法，以对黑产进行更加精准和持续的跟踪定位。而对于海量企业的业务日志数据进行黑产特征挖掘的前提，首先需要有一种低成本，高效检索的日志数据存储方案。

一般情况下，多数企业的业务日志数据的体量非常巨大，同时还具有明显的时序要求(业务日志数据只在有限的时间段内有最大价值，且为了分析得出各个日志行为中的关联关系，还需要日志数据按时间序列进行存储及可以按时序进行检索查询)。如果采用传统数据库进行存储，相关数据库的费用及维护成本都将非常高，尤其采用时序数据库，目前市场上相关产品的售价都非常高昂；如果直接采用日志文件存储的方式，又会存在数据内容过于松散，对磁盘浪费较大，数据检索效率较低。

因此，现在亟需一种用于业务风控日志数据的存储方法及系统来解决上述问题。

发明内容

针对现有技术存在的问题，本发明实施例提供一种用于业务风控日志数据的存储方法及系统。

第一方面，本发明实施例提供了一种用于业务风控日志数据的存储方法，包括：

根据业务风控日志数据的当前时间戳和业务场景标识，生成所述业务风控日志数据的block ID；

将所述业务风控日志数据的block ID和多个现有block ID进行匹配，若匹配成功，则将匹配成功的现有block ID对应的block作为目标block，并获取所述目标block关联的数据索引字典；

根据所述数据索引字典中排序在末尾的数据块文件编号，获取所述数据块文件编号在数据块文件的目标偏移量；

将写指针移位到所述目标偏移量，以对所述业务风控日志数据进行存储写入。

进一步地，所述block是由数据块、数据索引字典和元数据文件构成的。

进一步地，所述将所述业务风控日志数据的block ID和多个现有block ID进行匹配，包括：

若匹配失败，则根据所述业务风控日志数据的block ID生成新block，并按照时间戳对所述新block进行排序，以使得所述业务风控日志数据写入到所述新block中。

进一步地，在所述将写指针移位到所述目标偏移量，以对所述业务风控日志数据进行存储写入之后，所述方法还包括：

根据待查询的目标业务风控日志数据，获取所述目标业务风控日志数据对应的查询时间段，并获取所述查询时间段内每个block的block ID；

根据时间戳的先后顺序，对所述查询时间段内的block ID进行排序，按照排序后的block ID顺序，获取每个block关联的数据索引字典；

根据每个block关联的数据索引字典，获取所述查询时间段内每个业务风控日志数据对应的数据块文件；

对所述数据块文件进行遍历，获取所述目标业务风控日志数据。

将预设时间段内的多个原始block进行压缩合并，并将所述多个原始block占用的内存进行释放，以得到压缩合并后的block。

进一步地，所述将写指针移位到所述目标偏移量，以对所述业务风控日志数据进行存储写入，包括：

对所述业务风控日志数据进行转换，得到所述业务风控日志数据对应的数据块文件形式或元数据文件形式，以用于存储在本地磁盘中。

第二方面，本发明实施例提供了一种用于业务风控日志数据的存储系统，包括：

block ID生成模块，用于根据业务风控日志数据的当前时间戳和业务场景标识，生成所述业务风控日志数据的block ID；

block ID匹配模块，用于将所述业务风控日志数据的block ID和多个现有blockID进行匹配，若匹配成功，则将匹配成功的现有block ID对应的block作为目标block，并获取所述目标block关联的数据索引字典；

处理模块，用于根据所述数据索引字典中排序在末尾的数据块文件编号，获取所述数据块文件编号在数据块文件的目标偏移量；

存储写入模块，用于将写指针移位到所述目标偏移量，以对所述业务风控日志数据进行存储写入。

进一步地，所述系统还包括：读写接口模块，用于提供所述业务风控日志数据的写入和查询的读写接口。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的用于业务风控日志数据的存储方法及系统，通过在每个block的ID中创建时间戳，从而对业务风控日志数据进行时序存储和时序查询，相比现有技术，提高了业务风控日志数据的检索效率，降低了数据存储的维护成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的用于业务风控日志数据的存储方法的流程示意图；

图2为本发明实施例提供的block结构示意图；

图3为本发明实施例提供的block压缩合并示意图；

图4为本发明实施例提供的用于业务风控日志数据的存储系统的结构示意图；

图5为本发明实施例提供的电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的用于业务风控日志数据的存储方法的流程示意图，如图1所示，本发明实施例提供了一种用于业务风控日志数据的存储方法，包括：

步骤101，根据业务风控日志数据的当前时间戳和业务场景标识，生成所述业务风控日志数据的block ID。

在本发明实施例中，单个业务风控日志数据的结构为：

业务场景标识{标签：值，标签：值，标签：值}时间戳；

其中，业务场景标识为应用业务场景中的关键操作名称，例如“登入”，支付等；标签：值为应用业务场景中的特征参数，例如，账户ID，支付金额等；时间戳为该业务风控日志数据的创建时间。在本发明实施例中，基于上述结构的业务风控日志数据，在系统内存中以block为单位进行组织，将一个小时为一个时间戳内的业务风控日志数据保存在block中。因此，每个待进行存储写入的业务风控日志数据可根据当前时间戳(截断到小时，例如，2019-10-23-16：XX，XX表示该小时内的任意分钟)和业务场景标识，生成待进行存储写入的业务风控日志数据的block ID。具体地，block ID的生成方式为表1所示：

表1

字段	长度
		时间戳(截断到小时)	8字节
业务场景标识	1字节

从表1可知，由于每个block的ID都与该block中的数据创建时间相关，因此，在后续的业务风控日志数据查询时，可按照时间先后顺序对block进行排序，以提高查询速度。

步骤102，将所述业务风控日志数据的block ID和多个现有block ID进行匹配，若匹配成功，则将匹配成功的现有block ID对应的block作为目标block，并获取所述目标block关联的数据索引字典。

在本发明实施例中，将待进行存储写入的业务风控日志数据的block ID，和系统中当前已有的block的ID进行匹配，以业务场景标识和时间戳(两者之间的时间戳为同一年月日)一致作为匹配条件，在满足该匹配条件后，则将系统中当前已有的block作为目标block，同时获取该目标block关联的数据索引字典(data_index_dict)。

在上述实施例的基础上，若匹配失败，则根据所述业务风控日志数据的block ID生成新block，并按照时间戳对所述新block进行排序，以使得所述业务风控日志数据写入到所述新block中。

步骤103，根据所述数据索引字典中排序在末尾的数据块文件编号，获取所述数据块文件编号在数据块文件的目标偏移量。

在本发明实施例中，获取目标block关联的数据索引字典中，排在最后的业务风控日志数据所在的数据块(data_chunk)文件编号，并根据该数据块文件编号获取对应的偏移量，以作为作为目标偏移量用于后续的存储写入。

步骤104，将写指针移位到所述目标偏移量，以对所述业务风控日志数据进行存储写入。

在本发明实施例中，首先，将写指针移位到目标偏移量，再将业务风控日志数据(即待进行存储写入的日志数据)写入到排在最后的业务风控日志数据所在的数据块文件中，从而将新的业务风控日志数据进行存储。

本发明实施例提供的用于业务风控日志数据的存储方法，通过在每个block的ID中创建时间戳，从而对业务风控日志数据进行时序存储和时序查询，相比现有技术，提高了业务风控日志数据的检索效率，降低了数据存储的维护成本。

在上述实施例的基础是，所述block是由数据块、数据索引字典和元数据文件构成的。

图2为本发明实施例提供的block结构示意图，可参考图2所示，在本发明实施例中，每个block是由数据块(data_chunks)、数据索引字典(data_index_dict)和元数据文件(data_meta.toml)构成的。其中，data_chunks，用于对单个业务风控日志进行保存，每一个data_chunk的大小均为512M，如单个data_chunk中的数据大小超过512M，则将data_chunks截断成多个data_chunk进行保存，并且以0至1的数字编号为data_chunk依次进行命名；data_index_dict为一个内存的映射表，用于对业务风控日志数据进行查询，在data_index_dict中，保存有每条业务风控日志数据的时间戳，所在的data_chunk文件的编号，以及该data_chunk文件的偏移量，data_index_dict的具体结构为：

{

//"时间戳"：{data_chunk编号，业务风控日志数据偏移量}，

"2019-10-23-17-07"：{0，0x0001}，

"2019-10-23-17-08"：{0，0x0002}，

//...

}

data_meta.toml记录了block的元数据信息，主要为block中保存的业务风控日志数据的起始时间、结束时间和日志条数等。

在上述实施例的基础上，在所述将写指针移位到所述目标偏移量，以对所述业务风控日志数据进行存储写入之后，所述方法还包括：

在本发明实施例中，在获取到业务风控日志数据的查询任务之后，先根据查询任务，获取该目标业务风控日志数据对应的查询时间段，并将该查询时间段内的全部block加载到内存中，同时将每个block的ID按照时间先后顺序进行递增排序；然后，依次获取每个block关联数据索引字典，获取查询时间段内的所有记录数据，即获取查询时间段内所有业务风控日志数据所在的数据块和数据块文件内的偏移量。最后，对上述查询时间段内的数据块文件进行遍历，从而获取查询任务所需的目标业务风控日志数据。

图3为本发明实施例提供的block压缩合并示意图，可参考图3所示，在本发明实施例中，首先定期遍历系统中所有data_meta.toml文件，根据data_meta.toml文件的内容，获取到最近12小时内，所有尚未被合并的，保存了单个小时业务风控日志数据的block，其中，对于已被合并过的block，则不再做压缩合并处理。在进行压缩合并之后，会生成一个新的block，随后将合并压缩前的所有block关联的data_index_dict和data_meta.toml按时间戳增序进行合并，同时关联到新的block。最后，将内存中合并压缩前的所有block及相关资源进行释放，从而节省内存空间的消耗。

在上述实施例的基础上，所述将写指针移位到所述目标偏移量，以对所述业务风控日志数据进行存储写入，包括：

在本发明实施例中，业务风控日志数据最终chunk或meta等物理文件的形式在磁盘中进行存储和管理。

图4为本发明实施例提供的用于业务风控日志数据的存储系统的结构示意图，如图4所示，本发明实施例提供了一种用于业务风控日志数据的存储系统，包括block ID生成模块401、block ID匹配模块402、处理模块403和存储写入模块404，其中，block ID生成模块401用于根据业务风控日志数据的当前时间戳和业务场景标识，生成所述业务风控日志数据的block ID；blockID匹配模块402用于将所述业务风控日志数据的block ID和多个现有blockID进行匹配，若匹配成功，则将匹配成功的现有block ID对应的block作为目标block，并获取所述目标block关联的数据索引字典；处理模块403用于根据所述数据索引字典中排序在末尾的数据块文件编号，获取所述数据块文件编号在数据块文件的目标偏移量；存储写入模块404用于将写指针移位到所述目标偏移量，以对所述业务风控日志数据进行存储写入。

本发明实施例提供的用于业务风控日志数据的存储系统，通过在每个block的ID中创建时间戳，从而对业务风控日志数据进行时序存储和时序查询，相比现有技术，提高了业务风控日志数据的检索效率，降低了数据存储的维护成本。

在上述实施例的基础上，所述系统还包括：读写接口模块，用于提供所述业务风控日志数据的写入和查询的读写接口。

本发明实施例提供的系统是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

图5为本发明实施例提供的电子设备结构示意图，参照图5，该电子设备可以包括：处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令，以执行如下方法：根据业务风控日志数据的当前时间戳和业务场景标识，生成所述业务风控日志数据的block ID；将所述业务风控日志数据的block ID和多个现有block ID进行匹配，若匹配成功，则将匹配成功的现有block ID对应的block作为目标block，并获取所述目标block关联的数据索引字典；根据所述数据索引字典中排序在末尾的数据块文件编号，获取所述数据块文件编号在数据块文件的目标偏移量；将写指针移位到所述目标偏移量，以对所述业务风控日志数据进行存储写入。

此外，上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的用于业务风控日志数据的存储方法，例如包括：根据业务风控日志数据的当前时间戳和业务场景标识，生成所述业务风控日志数据的block ID；将所述业务风控日志数据的block ID和多个现有block ID进行匹配，若匹配成功，则将匹配成功的现有block ID对应的block作为目标block，并获取所述目标block关联的数据索引字典；根据所述数据索引字典中排序在末尾的数据块文件编号，获取所述数据块文件编号在数据块文件的目标偏移量；将写指针移位到所述目标偏移量，以对所述业务风控日志数据进行存储写入。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于业务风控日志数据的存储方法，其特征在于，包括：

根据业务风控日志数据的一个小时内的时间戳和业务场景标识，生成所述业务风控日志数据的block ID；

将所述业务风控日志数据的block ID和多个现有block ID进行匹配，若匹配成功，则将匹配成功的现有block ID对应的block作为目标block，并获取所述目标block关联的数据索引字典，其中，每个block是由数据块、数据索引字典和元数据文件构成的；

2.根据权利要求1所述的用于业务风控日志数据的存储方法，其特征在于，所述将所述业务风控日志数据的block ID和多个现有block ID进行匹配，包括：

若匹配失败，则根据所述业务风控日志数据的block ID生成新block，并按照时间戳对所述新block 进行排序，以使得所述业务风控日志数据写入到所述新block中。

3.根据权利要求1所述的用于业务风控日志数据的存储方法，其特征在于，在所述将写指针移位到所述目标偏移量，以对所述业务风控日志数据进行存储写入之后，所述方法还包括：

4.根据权利要求1所述的用于业务风控日志数据的存储方法，其特征在于，在所述将写指针移位到所述目标偏移量，以对所述业务风控日志数据进行存储写入之后，所述方法还包括：

5.根据权利要求1所述的用于业务风控日志数据的存储方法，其特征在于，所述将写指针移位到所述目标偏移量，以对所述业务风控日志数据进行存储写入，包括：

6.一种用于业务风控日志数据的存储系统，其特征在于，包括：

block ID生成模块，用于根据业务风控日志数据的一个小时内的时间戳和业务场景标识，生成所述业务风控日志数据的block ID，其中，每个block是由数据块、数据索引字典和元数据文件构成的；

block ID匹配模块，用于将所述业务风控日志数据的block ID和多个现有block ID进行匹配，若匹配成功，则将匹配成功的现有block ID对应的block作为目标block，并获取所述目标block关联的数据索引字典；

7.根据权利要求6所述的用于业务风控日志数据的存储系统，其特征在于，所述系统还包括：读写接口模块，用于提供所述业务风控日志数据的写入和查询的读写接口。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述用于业务风控日志数据的存储方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5任一项所述用于业务风控日志数据的存储方法的步骤。