CN114722014B

CN114722014B - 基于数据库日志文件的批量数据时间序列传输方法及系统

Info

Publication number: CN114722014B
Application number: CN202210645807.5A
Authority: CN
Inventors: 石杰; 廖家林; 伍星
Original assignee: Hangyin Consumer Finance Co ltd
Current assignee: Hangyin Consumer Finance Co ltd
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2022-09-02
Anticipated expiration: 2042-06-09
Also published as: CN114722014A

Abstract

本发明涉及数据处理技术领域，具体涉及基于数据库日志文件的批量数据时间序列传输方法及系统，该方法包括获取日志数据，并将日志数据解析为流式数据，获取流式数据之间的逻辑关系，得到数据序列，根据数据序列中系统周期性自检索操作对应的数据的操作时间及系统自检索周期获取系统非周期性自检操作对应的目标数据及目标数据序列，将目标数据序列等距划分为多个子序列，计算每个目标数据序列的重要程度，根据重要程度计算数据序列的滑动窗口大小，根据数据序列的滑动窗口大小利用LZ77算法实现对每个数据序列中的流式数据进行压缩并传输，本发明方法提高了传输效率，并在保证数据传输情况下提高数据的调用速度，从而提高数据检索效率。

Description

基于数据库日志文件的批量数据时间序列传输方法及系统

技术领域

本发明涉及数据处理技术领域，具体涉及基于数据库日志文件的批量数据时间序列传输方法及系统。

背景技术

信息的世界，各行各业在管理生产的过程中都会建立属于自己的数据库，而基于数据库的操作都会产生大量的日志文件，且这些日志文件进行本地存储，

由于日志文件数据属于动态数据，在数据库中用日志文件记录数据的进行修改操作时，长久以来会产生大量的批量日志数据，而大量的批量日志数据不仅占用存储资源大，并且后续查找和审阅数据库中以前的数据修改操作时，会导致查找回溯的需要日志数据过于困难，检索效率低，使得设备负载增大，进而导致处理速度特别慢。

因此，需要提供一种基于数据库日志文件的批量数据时间序列传输方法及系统，予以解决上述问题。

发明内容

本发明提供一种基于数据库日志文件的批量数据时间序列传输方法及系统，以解决现有的问题。

本发明的基于数据库日志文件的批量数据时间序列传输方法采用如下技术方案：该方法包括：

获取数据库中每个日志文件对应的日志数据，将日志数据解析成流式数据；

获取所有流式数据之间的逻辑关系，根据所有流式数据的逻辑关系获取多个数据关系网，根据所有数据关系网获取关系网序列，并获取关系网序列中每个数据关系网对应数据序列；

获取数据序列中每个流式数据对应的操作时间，根据每个流式数据对应的操作时间及系统自检索周期确定数据序列中系统非周期性自检操作对应的目标数据并获取目标数据序列；

将目标数据序列等距划分为多个子序列，根据每个目标数据在其对应的数据序列中出现的概率、子序列的个数、子序列中目标数据的个数及数据序列中系统自检索周期操作对应的流式数据的总数计算每个目标数据序列的重要程度；根据下式（1）计算每个目标数据序列的重要程度：

（1）

其中，

为目标数据序列中目标数据的总数；

表示子序列的总数；

表示第j个子序列内目标数据的个数；

为第j个子序列内的第n个目标数据，

为第j个子序列内的第n个目标数据出现的概率；

为第j个子序列内的第b个数据出现的概率，S表示目标数据序列所在的数据序列中系统自检索周期操作对应的数据的总个数；

表示第a个目标数据序列的重要程度；

根据目标数据序列的重要程度及目标数据序列对应的数据序列中所有流式数据的个数计算数据序列的滑动窗口大小，基于每个数据序列的滑动窗口大小利用LZ77算法实现对每个数据序列中的流式数据进行压缩并传输。

优选的，按照每个日志数据的操作时间、操作方式及操作结果对日志数据进行规范记录得到预处理数据，采用基于最长公共子序列的Spell的在线流式日志解析方法将预处理数据解析成流式数据。

优选的，操作方式包括新增一个流式数据或者对流式数据进行删除或者查看固定的流式数据或者将流式数据修改为其他数据。

优选的，日志文件对应的数据包括系统周期性自检操作所产生的日志数据及系统非周期性自检操作所产生的日志数据。

优选的，根据每个流式数据对应的操作时间及系统自检索周期确定数据序列中系统非周期性自检操作对应的目标数据并获取目标数据序列的步骤包括：

获取系统周期性自检操作的系统自检索周期；

根据数据序列中每个流式数据对应的操作时间及系统自检索周期计算每个流式数据的符合度；

若流式数据的符合度为整数，则该数据为系统周期性自检操作所产生的数据，若流式数据的符合度为非整数，则该数据为系统非周期性自检操作所产生的数据；

将系统非周期性自检操作所产生的数据所产生的数据记为目标数据；

根据每个目标数据的操作时间对目标数据进行排序获取目标数据序列。

优选的，根据目标数据序列的重要程度及目标数据序列对应的数据序列中流式数据的总数计算数据序列的滑动窗口大小的步骤包括：

获取所有目标数据序列的重要程度中的最大重要程度和最小重要程度；

根据最大重要程度、最小重要程度及每个目标数据序列的重要程度获取该序列的归一化重要程度；

根据目标数据序列的归一化重要程度及目标数据序列对应的数据序列中流式数据的总数计算数据序列的滑动窗口大小。

优选的，根据压缩后的流式数据的压缩顺序获取压缩后的流式数据的时间序列标签；对时间序列标签及对应的压缩后的流式数据进行存储并传输。

本发明的基于数据库日志文件的批量数据时间序列传输系统，该系统包括：

数据解析模块，用于获取数据库中每个日志文件对应的日志数据，将日志数据解析成流式数据；

第一数据处理模块，用于获取所有流式数据之间的逻辑关系，根据所有流式数据的逻辑关系获取多个数据关系网，根据所有数据关系网获取关系网序列，并获取关系网序列中每个数据关系网对应数据序列；

第二数据处理模块，用于获取数据序列中每个流式数据对应的操作时间，根据每个流式数据对应的操作时间及系统自检索周期确定数据序列中系统非周期性自检操作对应的目标数据并获取目标数据序列；

参数计算模块，用于将目标数据序列等距划分为多个子序列，根据每个目标数据在其对应的数据序列中出现的概率、子序列的个数、子序列中目标数据的个数及数据序列中系统自检索周期操作对应的流式数据的总数计算每个目标数据序列的重要程度；根据下式（1）计算每个目标数据序列的重要程度：

（1）

其中，

为目标数据序列中目标数据的总数；

表示子序列的总数；

表示第j个子序列内目标数据的个数；

为第j个子序列内的第n个目标数据，

为第j个子序列内的第n个目标数据出现的概率；

表示第a个目标数据序列的重要程度；

压缩传输模块，用于根据目标数据序列的重要程度及目标数据序列对应的数据序列中所有流式数据的个数计算数据序列的滑动窗口大小，基于每个数据序列的滑动窗口大小利用LZ77算法实现对每个数据序列中的流式数据进行压缩并传输。

本发明的有益效果是：本发明的基于数据库日志文件的批量数据时间序列传输方法及系统，通过对数据库的日志文件的日志数据解析成流式数据，然后对流式数据进行分析，依据流式数据的构成数据序列中目标数据序列对应的重要程度选择滑动窗口大小，然后根据滑动窗口大小利用LZ77算法实现对流式数据进行数据压缩，实现压缩时所需要的时间，从而提高传输效率，而后将压缩数据基于时间维度的进行存储，保证数据传输情况下提高数据的调用速度，从而提高数据检索效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的基于数据库日志文件的批量数据时间序列传输方法及系统的实施例总体步骤的流程图；

图2为实施例的S3步骤中获取目标数据及目标数据序列的流程图；

图3为实施例的S5步骤中获取数据序列的滑动窗口大小的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的基于数据库日志文件的批量数据时间序列传输方法的实施例，如图1所示，该方法包括：

S1、获取数据库中每个日志文件对应的日志数据，将日志数据解析成流式数据，具体的，由于数据库的批量日志文件数据在处理时因为其海量的存储占用，导致处理速度特别慢，无法满足即时性，因此将数据库的批量日志文件数据解析为流式数据可以使其获得流式数据的即时性，高效性，可分析性，且流式数据存在形式为随用随扔，对流式数据的持久化可以提升其使用效率，使其具备多次处理的基础，对流式数据进行压缩可以使其在持久化的过程中较少存储资源和带宽的使用，提升即时性和传输速度，故，按照每个日志数据的操作时间、操作方式及操作结果对日志数据进行规范记录得到预处理数据，采用基于最长公共子序列的Spell的在线流式日志解析方法将预处理数据解析成流式数据，其中，操作方式包括新增一个流式数据或者对流式数据进行删除或者查看固定的流式数据或者将流式数据修改为其他数据，例如，日志数据规范记录后的预处理数据为：操作时间（

）+操作方式+操作对象+操作结果，若日志数据为：“2022年5月12日15:23:23将a类别下b数据修改为c”，其中“2022年5月12日15:23:23”为预处理数据的操作时间，“修改”为预处理数据的操作方式，“a类别下b数据”为预处理数据的操作对象，“a类别下b数据修改为c”则c为操作结果。

S2、获取所有流式数据之间的逻辑关系，根据所有流式数据的逻辑关系获取多个数据关系网，根据所有数据关系网获取关系网序列，并获取关系网序列中每个数据关系网对应数据序列，具体的，逻辑关系即为每个流式数据的操作方式及操作结果之间的联系，例如，流式数据a依据操作时间依次进行了查看操作、查看操作、删除操作、新增操作、查看操作及修改操作得到当前流式数据，则从流式数据a到当前流式数据的操作方式就构成的一个逻辑关系。

具体的，本发明中初始数据源为数据库的多个日志文件的日志数据，所以日志数据之间常规逻辑关系只有四种：新增

、删除

、查找

和修改

；因此，每个日志数据包括系统周期性自检操作所得到的日志数据与系统非周期性自检操作所得到的日志数据，具体的，关系网序列为

，其中，

表示数据关系网中流式数据的数量为B的第a个数据关系网，每个数据关系网中B的值可不相等，为方便叙述统一用符号

来表示，具体的，数据序列为

，其中，

表示第a个数据关系网中的第B个流式数据，其中，数据排序为基于每个流式数据的操作时间

进行排序的。

S3、获取数据序列中每个流式数据对应的操作时间，根据每个流式数据对应的操作时间及系统自检索周期确定数据序列中系统非周期性自检操作对应的目标数据并获取目标数据序列。

具体的，如图2所示，S31、获取系统周期性自检操作的系统自检索周期；S32、根据数据序列中每个流式数据对应的操作时间及系统自检索周期计算每个流式数据的符合度，符合度

，其中，

表示系统周期性自检的数据对应的操作时间，T表示系统自检索周期，其中，S33、若流式数据的符合度为整数，则该数据为系统周期性自检操作所产生的数据，若流式数据的符合度为非整数，则该数据为系统非周期性自检操作所产生的数据；S34、将系统非周期性自检操作所产生的数据所产生的数据记为目标数据；根据每个目标数据的操作时间对目标数据进行排序获取目标数据序列。

S4、将目标数据序列等距划分为多个子序列，具体的，由于数据类型比较贫乏，故对目标数据序列进行等距划分为

个子序列，其中每个子序列中有

个目标数据，根据每个目标数据在其对应的数据序列中出现的概率、子序列的个数、子序列中目标数据的个数及数据序列中系统自检索周期操作对应的流式数据的总数计算每个目标数据序列的重要程度，具体的，根据下式（1）计算每个目标数据序列的重要程度：

（1）

其中，

为目标数据序列中目标数据的总数；

表示子序列的总数；

表示第j个子序列内目标数据的个数；

为第j个子序列内的第n个目标数据，

为第j个子序列内的第n个目标数据出现的概率；

表示第a个目标数据序列的重要程度，其中，根据数据序列中每个目标数据的个数与该序列中所有流式数据的总数计算每个目标数据在其对应的数据序列出现的概率。

S5、根据目标数据序列的重要程度及目标数据序列对应的数据序列中所有流式数据的个数计算数据序列的滑动窗口大小，基于每个数据序列的滑动窗口大小利用LZ77算法实现对每个数据序列中的流式数据进行压缩并传输。

具体的，根据目标数据序列的重要程度及目标数据序列对应的数据序列中所有流式数据的个数计算数据序列的滑动窗口大小的步骤包括：如图3所示，S51、获取所有目标数据序列的重要程度中的最大重要程度和最小重要程度；S52、根据最大重要程度、最小重要程度及每个目标数据序列的重要程度获取该序列的归一化重要程度；具体的，归一化重要程度

，其中，

表示所有目标数据序列的重要程度中的最大重要程度、

表示所有目标数据序列的重要程度中的最小重要程度，S53、根据目标数据序列的归一化重要程度及目标数据序列对应的数据序列中流式数据的总数计算数据序列的滑动窗口大小，具体的，滑动窗口大小

，其中，

为超参数，可根据实际数据大小以及实际需求进行调节，B表示目标数据序列对应的数据序列中流式数据的总数，

表示目标数据序列的归一化重要程度。

还包括：根据压缩顺序获取压缩后的流式数据的时间序列标签；对时间序列标签及对应的压缩后的流式数据进行存储并传输，具体的，对每一个不同关系网构成的数据序列中的目标数据序列对应的数据根据其压缩顺序生成相应时间序列标签，目标数据序列对应的所有数据均对应一个唯一的时间序列标签，而每个单独的时间序列标签对应可能有多个压缩数据，利用HDFS对压缩数据进行数据存储，数据存储方式为时间序列标签与压缩后的流式数据，因为时间序列标签是根据数据库日志文件的批量数据规范化记录的产物，所以在后续的回溯中可以有效地对日志文件进行基于产生时间的定位。

本发明还提供了一种基于数据库日志文件的批量数据时间序列传输系统，该系统包括：数据解析模块、第一数据处理模块、第二数据处理模块、参数计算模块及压缩传输模块，具体的，数据解析模块，用于获取数据库中每个日志文件对应的日志数据，将日志数据解析成流式数据；第一数据处理模块用于获取所有流式数据之间的逻辑关系，根据所有流式数据的逻辑关系获取多个数据关系网，根据所有数据关系网获取关系网序列，并获取关系网序列中每个数据关系网对应数据序列；第二数据处理模块用于获取数据序列中每个流式数据对应的操作时间，根据每个流式数据对应的操作时间及系统自检索周期确定数据序列中系统非周期性自检操作对应的目标数据并获取目标数据序列；参数计算模块用于将目标数据序列等距划分为多个子序列，根据每个目标数据在其对应的数据序列中出现的概率、子序列的个数、子序列中目标数据的个数及数据序列中系统自检索周期操作对应的流式数据的总数计算每个目标数据序列的重要程度；压缩传输模块用于根据目标数据序列的重要程度及目标数据序列对应的数据序列中所有流式数据的个数计算数据序列的滑动窗口大小，基于每个数据序列的滑动窗口大小利用LZ77算法实现对每个数据序列中的流式数据进行压缩并传输。

综上所述，本发明提供基于数据库日志文件的批量数据时间序列传输方法及系统，通过对数据库的日志文件的日志数据解析成流式数据，然后对流式数据进行分析，依据流式数据的构成数据序列中目标数据序列对应的重要程度选择滑动窗口大小，然后根据滑动窗口大小利用LZ77算法实现对流式数据进行数据压缩，实现压缩时所需要的时间，从而提高传输效率，而后将压缩数据基于时间维度的进行存储，保证数据传输情况下提高数据的调用速度，从而提高数据检索效率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。