CN114722014B - 基于数据库日志文件的批量数据时间序列传输方法及系统 - Google Patents
基于数据库日志文件的批量数据时间序列传输方法及系统 Download PDFInfo
- Publication number
- CN114722014B CN114722014B CN202210645807.5A CN202210645807A CN114722014B CN 114722014 B CN114722014 B CN 114722014B CN 202210645807 A CN202210645807 A CN 202210645807A CN 114722014 B CN114722014 B CN 114722014B
- Authority
- CN
- China
- Prior art keywords
- data
- sequence
- target data
- data sequence
- streaming
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000000737 periodic effect Effects 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000007906 compression Methods 0.000 claims description 11
- 230000006835 compression Effects 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000007405 data analysis Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000013144 data compression Methods 0.000 description 2
- 230000002688 persistence Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1744—Redundancy elimination performed by the file system using compression, e.g. sparse files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及基于数据库日志文件的批量数据时间序列传输方法及系统,该方法包括获取日志数据,并将日志数据解析为流式数据,获取流式数据之间的逻辑关系,得到数据序列,根据数据序列中系统周期性自检索操作对应的数据的操作时间及系统自检索周期获取系统非周期性自检操作对应的目标数据及目标数据序列,将目标数据序列等距划分为多个子序列,计算每个目标数据序列的重要程度,根据重要程度计算数据序列的滑动窗口大小,根据数据序列的滑动窗口大小利用LZ77算法实现对每个数据序列中的流式数据进行压缩并传输,本发明方法提高了传输效率,并在保证数据传输情况下提高数据的调用速度,从而提高数据检索效率。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及基于数据库日志文件的批量数据时间序列传输方法及系统。
背景技术
信息的世界,各行各业在管理生产的过程中都会建立属于自己的数据库,而基于数据库的操作都会产生大量的日志文件,且这些日志文件进行本地存储,
由于日志文件数据属于动态数据,在数据库中用日志文件记录数据的进行修改操作时,长久以来会产生大量的批量日志数据,而大量的批量日志数据不仅占用存储资源大,并且后续查找和审阅数据库中以前的数据修改操作时,会导致查找回溯的需要日志数据过于困难,检索效率低,使得设备负载增大,进而导致处理速度特别慢。
因此,需要提供一种基于数据库日志文件的批量数据时间序列传输方法及系统,予以解决上述问题。
发明内容
本发明提供一种基于数据库日志文件的批量数据时间序列传输方法及系统,以解决现有的问题。
本发明的基于数据库日志文件的批量数据时间序列传输方法采用如下技术方案:该方法包括:
获取数据库中每个日志文件对应的日志数据,将日志数据解析成流式数据;
获取所有流式数据之间的逻辑关系,根据所有流式数据的逻辑关系获取多个数据关系网,根据所有数据关系网获取关系网序列,并获取关系网序列中每个数据关系网对应数据序列;
获取数据序列中每个流式数据对应的操作时间,根据每个流式数据对应的操作时间及系统自检索周期确定数据序列中系统非周期性自检操作对应的目标数据并获取目标数据序列;
将目标数据序列等距划分为多个子序列,根据每个目标数据在其对应的数据序列中出现的概率、子序列的个数、子序列中目标数据的个数及数据序列中系统自检索周期操作对应的流式数据的总数计算每个目标数据序列的重要程度;根据下式(1)计算每个目标数据序列的重要程度:
其中,为目标数据序列中目标数据的总数;表示子序列的总数;表示第j个子序列内目标数据的个数;为第j个子序列内的第n个目标数据,为第j个子序列内的第n个目标数据出现的概率;为第j个子序列内的第b个数据出现的概率,S表示目标数据序列所在的数据序列中系统自检索周期操作对应的数据的总个数;表示第a个目标数据序列的重要程度;
根据目标数据序列的重要程度及目标数据序列对应的数据序列中所有流式数据的个数计算数据序列的滑动窗口大小,基于每个数据序列的滑动窗口大小利用LZ77算法实现对每个数据序列中的流式数据进行压缩并传输。
优选的,按照每个日志数据的操作时间、操作方式及操作结果对日志数据进行规范记录得到预处理数据,采用基于最长公共子序列的Spell的在线流式日志解析方法将预处理数据解析成流式数据。
优选的,操作方式包括新增一个流式数据或者对流式数据进行删除或者查看固定的流式数据或者将流式数据修改为其他数据。
优选的,日志文件对应的数据包括系统周期性自检操作所产生的日志数据及系统非周期性自检操作所产生的日志数据。
优选的,根据每个流式数据对应的操作时间及系统自检索周期确定数据序列中系统非周期性自检操作对应的目标数据并获取目标数据序列的步骤包括:
获取系统周期性自检操作的系统自检索周期;
根据数据序列中每个流式数据对应的操作时间及系统自检索周期计算每个流式数据的符合度;
若流式数据的符合度为整数,则该数据为系统周期性自检操作所产生的数据,若流式数据的符合度为非整数,则该数据为系统非周期性自检操作所产生的数据;
将系统非周期性自检操作所产生的数据所产生的数据记为目标数据;
根据每个目标数据的操作时间对目标数据进行排序获取目标数据序列。
优选的,根据目标数据序列的重要程度及目标数据序列对应的数据序列中流式数据的总数计算数据序列的滑动窗口大小的步骤包括:
获取所有目标数据序列的重要程度中的最大重要程度和最小重要程度;
根据最大重要程度、最小重要程度及每个目标数据序列的重要程度获取该序列的归一化重要程度;
根据目标数据序列的归一化重要程度及目标数据序列对应的数据序列中流式数据的总数计算数据序列的滑动窗口大小。
优选的,根据压缩后的流式数据的压缩顺序获取压缩后的流式数据的时间序列标签;对时间序列标签及对应的压缩后的流式数据进行存储并传输。
本发明的基于数据库日志文件的批量数据时间序列传输系统,该系统包括:
数据解析模块,用于获取数据库中每个日志文件对应的日志数据,将日志数据解析成流式数据;
第一数据处理模块,用于获取所有流式数据之间的逻辑关系,根据所有流式数据的逻辑关系获取多个数据关系网,根据所有数据关系网获取关系网序列,并获取关系网序列中每个数据关系网对应数据序列;
第二数据处理模块,用于获取数据序列中每个流式数据对应的操作时间,根据每个流式数据对应的操作时间及系统自检索周期确定数据序列中系统非周期性自检操作对应的目标数据并获取目标数据序列;
参数计算模块,用于将目标数据序列等距划分为多个子序列,根据每个目标数据在其对应的数据序列中出现的概率、子序列的个数、子序列中目标数据的个数及数据序列中系统自检索周期操作对应的流式数据的总数计算每个目标数据序列的重要程度;根据下式(1)计算每个目标数据序列的重要程度:
其中,为目标数据序列中目标数据的总数;表示子序列的总数;表示第j个子序列内目标数据的个数;为第j个子序列内的第n个目标数据,为第j个子序列内的第n个目标数据出现的概率;为第j个子序列内的第b个数据出现的概率,S表示目标数据序列所在的数据序列中系统自检索周期操作对应的数据的总个数;表示第a个目标数据序列的重要程度;
压缩传输模块,用于根据目标数据序列的重要程度及目标数据序列对应的数据序列中所有流式数据的个数计算数据序列的滑动窗口大小,基于每个数据序列的滑动窗口大小利用LZ77算法实现对每个数据序列中的流式数据进行压缩并传输。
本发明的有益效果是:本发明的基于数据库日志文件的批量数据时间序列传输方法及系统,通过对数据库的日志文件的日志数据解析成流式数据,然后对流式数据进行分析,依据流式数据的构成数据序列中目标数据序列对应的重要程度选择滑动窗口大小,然后根据滑动窗口大小利用LZ77算法实现对流式数据进行数据压缩,实现压缩时所需要的时间,从而提高传输效率,而后将压缩数据基于时间维度的进行存储,保证数据传输情况下提高数据的调用速度,从而提高数据检索效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于数据库日志文件的批量数据时间序列传输方法及系统的实施例总体步骤的流程图;
图2为实施例的S3步骤中获取目标数据及目标数据序列的流程图;
图3为实施例的S5步骤中获取数据序列的滑动窗口大小的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的基于数据库日志文件的批量数据时间序列传输方法的实施例,如图1所示,该方法包括:
S1、获取数据库中每个日志文件对应的日志数据,将日志数据解析成流式数据,具体的,由于数据库的批量日志文件数据在处理时因为其海量的存储占用,导致处理速度特别慢,无法满足即时性,因此将数据库的批量日志文件数据解析为流式数据可以使其获得流式数据的即时性,高效性,可分析性,且流式数据存在形式为随用随扔,对流式数据的持久化可以提升其使用效率,使其具备多次处理的基础,对流式数据进行压缩可以使其在持久化的过程中较少存储资源和带宽的使用,提升即时性和传输速度,故,按照每个日志数据的操作时间、操作方式及操作结果对日志数据进行规范记录得到预处理数据,采用基于最长公共子序列的Spell的在线流式日志解析方法将预处理数据解析成流式数据,其中,操作方式包括新增一个流式数据或者对流式数据进行删除或者查看固定的流式数据或者将流式数据修改为其他数据,例如,日志数据规范记录后的预处理数据为:操作时间()+操作方式+操作对象+操作结果,若日志数据为:“2022年5月12日15:23:23将a类别下b数据修改为c”,其中“2022年5月12日15:23:23”为预处理数据的操作时间,“修改”为预处理数据的操作方式,“a类别下b数据”为预处理数据的操作对象,“a类别下b数据修改为c”则c为操作结果。
S2、获取所有流式数据之间的逻辑关系,根据所有流式数据的逻辑关系获取多个数据关系网,根据所有数据关系网获取关系网序列,并获取关系网序列中每个数据关系网对应数据序列,具体的,逻辑关系即为每个流式数据的操作方式及操作结果之间的联系,例如,流式数据a依据操作时间依次进行了查看操作、查看操作、删除操作、新增操作、查看操作及修改操作得到当前流式数据,则从流式数据a到当前流式数据的操作方式就构成的一个逻辑关系。
具体的,本发明中初始数据源为数据库的多个日志文件的日志数据,所以日志数据之间常规逻辑关系只有四种:新增、删除、查找和修改;因此,每个日志数据包括系统周期性自检操作所得到的日志数据与系统非周期性自检操作所得到的日志数据,具体的,关系网序列为,其中,表示数据关系网中流式数据的数量为B的第a个数据关系网,每个数据关系网中B的值可不相等,为方便叙述统一用符号来表示,具体的,数据序列为,其中,表示第a个数据关系网中的第B个流式数据,其中,数据排序为基于每个流式数据的操作时间进行排序的。
S3、获取数据序列中每个流式数据对应的操作时间,根据每个流式数据对应的操作时间及系统自检索周期确定数据序列中系统非周期性自检操作对应的目标数据并获取目标数据序列。
具体的,如图2所示,S31、获取系统周期性自检操作的系统自检索周期;S32、根据数据序列中每个流式数据对应的操作时间及系统自检索周期计算每个流式数据的符合度,符合度,其中,表示系统周期性自检的数据对应的操作时间,T表示系统自检索周期,其中,S33、若流式数据的符合度为整数,则该数据为系统周期性自检操作所产生的数据,若流式数据的符合度为非整数,则该数据为系统非周期性自检操作所产生的数据;S34、将系统非周期性自检操作所产生的数据所产生的数据记为目标数据;根据每个目标数据的操作时间对目标数据进行排序获取目标数据序列。
S4、将目标数据序列等距划分为多个子序列,具体的,由于数据类型比较贫乏,故对目标数据序列进行等距划分为个子序列,其中每个子序列中有个目标数据,根据每个目标数据在其对应的数据序列中出现的概率、子序列的个数、子序列中目标数据的个数及数据序列中系统自检索周期操作对应的流式数据的总数计算每个目标数据序列的重要程度,具体的,根据下式(1)计算每个目标数据序列的重要程度:
其中,为目标数据序列中目标数据的总数;表示子序列的总数;表示第j个子序列内目标数据的个数;为第j个子序列内的第n个目标数据,为第j个子序列内的第n个目标数据出现的概率;为第j个子序列内的第b个数据出现的概率,S表示目标数据序列所在的数据序列中系统自检索周期操作对应的数据的总个数;表示第a个目标数据序列的重要程度,其中,根据数据序列中每个目标数据的个数与该序列中所有流式数据的总数计算每个目标数据在其对应的数据序列出现的概率。
S5、根据目标数据序列的重要程度及目标数据序列对应的数据序列中所有流式数据的个数计算数据序列的滑动窗口大小,基于每个数据序列的滑动窗口大小利用LZ77算法实现对每个数据序列中的流式数据进行压缩并传输。
具体的,根据目标数据序列的重要程度及目标数据序列对应的数据序列中所有流式数据的个数计算数据序列的滑动窗口大小的步骤包括:如图3所示,S51、获取所有目标数据序列的重要程度中的最大重要程度和最小重要程度;S52、根据最大重要程度、最小重要程度及每个目标数据序列的重要程度获取该序列的归一化重要程度;具体的,归一化重要程度,其中,表示所有目标数据序列的重要程度中的最大重要程度、表示所有目标数据序列的重要程度中的最小重要程度,S53、根据目标数据序列的归一化重要程度及目标数据序列对应的数据序列中流式数据的总数计算数据序列的滑动窗口大小,具体的,滑动窗口大小,其中,为超参数,可根据实际数据大小以及实际需求进行调节,B表示目标数据序列对应的数据序列中流式数据的总数,表示目标数据序列的归一化重要程度。
还包括:根据压缩顺序获取压缩后的流式数据的时间序列标签;对时间序列标签及对应的压缩后的流式数据进行存储并传输,具体的,对每一个不同关系网构成的数据序列中的目标数据序列对应的数据根据其压缩顺序生成相应时间序列标签,目标数据序列对应的所有数据均对应一个唯一的时间序列标签,而每个单独的时间序列标签对应可能有多个压缩数据,利用HDFS对压缩数据进行数据存储,数据存储方式为时间序列标签与压缩后的流式数据,因为时间序列标签是根据数据库日志文件的批量数据规范化记录的产物,所以在后续的回溯中可以有效地对日志文件进行基于产生时间的定位。
本发明还提供了一种基于数据库日志文件的批量数据时间序列传输系统,该系统包括:数据解析模块、第一数据处理模块、第二数据处理模块、参数计算模块及压缩传输模块,具体的,数据解析模块,用于获取数据库中每个日志文件对应的日志数据,将日志数据解析成流式数据;第一数据处理模块用于获取所有流式数据之间的逻辑关系,根据所有流式数据的逻辑关系获取多个数据关系网,根据所有数据关系网获取关系网序列,并获取关系网序列中每个数据关系网对应数据序列;第二数据处理模块用于获取数据序列中每个流式数据对应的操作时间,根据每个流式数据对应的操作时间及系统自检索周期确定数据序列中系统非周期性自检操作对应的目标数据并获取目标数据序列;参数计算模块用于将目标数据序列等距划分为多个子序列,根据每个目标数据在其对应的数据序列中出现的概率、子序列的个数、子序列中目标数据的个数及数据序列中系统自检索周期操作对应的流式数据的总数计算每个目标数据序列的重要程度;压缩传输模块用于根据目标数据序列的重要程度及目标数据序列对应的数据序列中所有流式数据的个数计算数据序列的滑动窗口大小,基于每个数据序列的滑动窗口大小利用LZ77算法实现对每个数据序列中的流式数据进行压缩并传输。
综上所述,本发明提供基于数据库日志文件的批量数据时间序列传输方法及系统,通过对数据库的日志文件的日志数据解析成流式数据,然后对流式数据进行分析,依据流式数据的构成数据序列中目标数据序列对应的重要程度选择滑动窗口大小,然后根据滑动窗口大小利用LZ77算法实现对流式数据进行数据压缩,实现压缩时所需要的时间,从而提高传输效率,而后将压缩数据基于时间维度的进行存储,保证数据传输情况下提高数据的调用速度,从而提高数据检索效率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.基于数据库日志文件的批量数据时间序列传输方法,其特征在于,该方法包括:
获取数据库中每个日志文件对应的日志数据,将日志数据解析成流式数据;
获取所有流式数据之间的逻辑关系,根据所有流式数据的逻辑关系获取多个数据关系网,根据所有数据关系网获取关系网序列,并获取关系网序列中每个数据关系网对应数据序列;
获取数据序列中每个流式数据对应的操作时间,根据每个流式数据对应的操作时间及系统自检索周期确定数据序列中系统非周期性自检操作对应的目标数据并获取目标数据序列;
将目标数据序列等距划分为多个子序列,根据每个目标数据在其对应的数据序列中出现的概率、子序列的个数、子序列中目标数据的个数及数据序列中系统自检索周期操作对应的流式数据的总数计算每个目标数据序列的重要程度;根据下式(1)计算每个目标数据序列的重要程度:
其中,为目标数据序列中目标数据的总数;表示子序列的总数;表示第j个子序列内目标数据的个数;为第j个子序列内的第n个目标数据,为第j个子序列内的第n个目标数据出现的概率;为第j个子序列内的第b个数据出现的概率,S表示目标数据序列所在的数据序列中系统自检索周期操作对应的数据的总个数;表示第a个目标数据序列的重要程度;其中,根据数据序列中每个目标数据的个数与该序列中所有流式数据的总数计算每个目标数据在其对应的数据序列出现的概率;
根据目标数据序列的重要程度及目标数据序列对应的数据序列中所有流式数据的个数计算数据序列的滑动窗口大小,基于每个数据序列的滑动窗口大小利用LZ77算法实现对每个数据序列中的流式数据进行压缩并传输。
2.根据权利要求1所述的基于数据库日志文件的批量数据时间序列传输方法,其特征在于,按照每个日志数据的操作时间、操作方式及操作结果对日志数据进行规范记录得到预处理数据,采用基于最长公共子序列的Spell的在线流式日志解析方法将预处理数据解析成流式数据。
3.根据权利要求1所述的基于数据库日志文件的批量数据时间序列传输方法,其特征在于,操作方式包括新增一个流式数据或者对流式数据进行删除或者查看固定的流式数据或者将流式数据修改为其他数据。
4.根据权利要求1所述的基于数据库日志文件的批量数据时间序列传输方法,其特征在于,日志文件对应的数据包括系统周期性自检操作所产生的日志数据及系统非周期性自检操作所产生的日志数据。
5.根据权利要求1所述的基于数据库日志文件的批量数据时间序列传输方法,其特征在于,根据每个流式数据对应的操作时间及系统自检索周期确定数据序列中系统非周期性自检操作对应的目标数据并获取目标数据序列的步骤包括:
获取系统周期性自检操作的系统自检索周期;
根据数据序列中每个流式数据对应的操作时间及系统自检索周期计算每个流式数据的符合度;
若流式数据的符合度为整数,则该数据为系统周期性自检操作所产生的数据,若流式数据的符合度为非整数,则该数据为系统非周期性自检操作所产生的数据;
将系统非周期性自检操作所产生的数据所产生的数据记为目标数据;
根据每个目标数据的操作时间对目标数据进行排序获取目标数据序列。
6.根据权利要求1所述的基于数据库日志文件的批量数据时间序列传输方法,其特征在于,根据目标数据序列的重要程度及目标数据序列对应的数据序列中流式数据的总数计算数据序列的滑动窗口大小的步骤包括:
获取所有目标数据序列的重要程度中的最大重要程度和最小重要程度;
根据最大重要程度、最小重要程度及每个目标数据序列的重要程度获取该序列的归一化重要程度;
根据目标数据序列的归一化重要程度及目标数据序列对应的数据序列中流式数据的总数计算数据序列的滑动窗口大小。
7.根据权利要求1所述的基于数据库日志文件的批量数据时间序列传输方法,其特征在于,根据压缩后的流式数据的压缩顺序获取压缩后的流式数据的时间序列标签;对时间序列标签及对应的压缩后的流式数据进行存储并传输。
8.基于数据库日志文件的批量数据时间序列传输系统,其特征在于,该系统包括:
数据解析模块,用于获取数据库中每个日志文件对应的日志数据,将日志数据解析成流式数据;
第一数据处理模块,用于获取所有流式数据之间的逻辑关系,根据所有流式数据的逻辑关系获取多个数据关系网,根据所有数据关系网获取关系网序列,并获取关系网序列中每个数据关系网对应数据序列;
第二数据处理模块,用于获取数据序列中每个流式数据对应的操作时间,根据每个流式数据对应的操作时间及系统自检索周期确定数据序列中系统非周期性自检操作对应的目标数据并获取目标数据序列;
参数计算模块,用于将目标数据序列等距划分为多个子序列,根据每个目标数据在其对应的数据序列中出现的概率、子序列的个数、子序列中目标数据的个数及数据序列中系统自检索周期操作对应的流式数据的总数计算每个目标数据序列的重要程度;根据下式(1)计算每个目标数据序列的重要程度:
其中,为目标数据序列中目标数据的总数;表示子序列的总数;表示第j个子序列内目标数据的个数;为第j个子序列内的第n个目标数据,为第j个子序列内的第n个目标数据出现的概率;为第j个子序列内的第b个数据出现的概率,S表示目标数据序列所在的数据序列中系统自检索周期操作对应的数据的总个数;表示第a个目标数据序列的重要程度;
压缩传输模块,用于根据目标数据序列的重要程度及目标数据序列对应的数据序列中所有流式数据的个数计算数据序列的滑动窗口大小,基于每个数据序列的滑动窗口大小利用LZ77算法实现对每个数据序列中的流式数据进行压缩并传输。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210645807.5A CN114722014B (zh) | 2022-06-09 | 2022-06-09 | 基于数据库日志文件的批量数据时间序列传输方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210645807.5A CN114722014B (zh) | 2022-06-09 | 2022-06-09 | 基于数据库日志文件的批量数据时间序列传输方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114722014A CN114722014A (zh) | 2022-07-08 |
CN114722014B true CN114722014B (zh) | 2022-09-02 |
Family
ID=82232415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210645807.5A Active CN114722014B (zh) | 2022-06-09 | 2022-06-09 | 基于数据库日志文件的批量数据时间序列传输方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114722014B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115078892B (zh) * | 2022-08-19 | 2022-11-01 | 深圳天川电气技术有限公司 | 一种单机大传动变频器状态远程监测系统 |
CN115269526B (zh) * | 2022-09-19 | 2023-03-24 | 誉隆半导体设备(江苏)有限公司 | 一种半导体生产数据的处理方法及系统 |
CN117792403B (zh) * | 2024-02-26 | 2024-05-07 | 成都农业科技职业学院 | 基于流式大数据技术的分布式农业数据存储管理方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106385343A (zh) * | 2016-09-05 | 2017-02-08 | Tcl集团股份有限公司 | 一种分布式系统下监控客户端的方法及装置、分布式系统 |
CN107943841A (zh) * | 2017-10-30 | 2018-04-20 | 深圳前海微众银行股份有限公司 | 流式数据处理方法、系统和计算机可读存储介质 |
CN107992840A (zh) * | 2017-12-12 | 2018-05-04 | 清华大学 | 多分段多阈值约束的时间序列模式查找方法和系统 |
WO2019060326A1 (en) * | 2017-09-20 | 2019-03-28 | University Of Utah Research Foundation | ANALYSIS OF SYSTEM EVENT LOGS DURING CONTINUOUS TRANSMISSION |
CN110232054A (zh) * | 2019-06-19 | 2019-09-13 | 北京百度网讯科技有限公司 | 日志传输系统及流式日志传输方法 |
CN110609852A (zh) * | 2019-07-16 | 2019-12-24 | 招联消费金融有限公司 | 流式数据处理方法、装置、计算机设备和存储介质 |
CN110855625A (zh) * | 2019-10-17 | 2020-02-28 | 新华三信息安全技术有限公司 | 基于流式处理的异常分析方法、装置及存储介质 |
CN111625342A (zh) * | 2020-06-07 | 2020-09-04 | 智博云信息科技(广州)有限公司 | 一种数据溯源方法、装置及服务器 |
CN112818022A (zh) * | 2021-02-25 | 2021-05-18 | 北京新致君阳信息技术有限公司 | 数据流式同步系统、设备以及方法 |
CN114185885A (zh) * | 2021-11-05 | 2022-03-15 | 中国科学院计算技术研究所 | 一种基于列存数据库的流式数据处理方法及系统 |
CN114185884A (zh) * | 2021-11-05 | 2022-03-15 | 中国科学院计算技术研究所 | 基于列存数据的流式数据处理方法及系统 |
WO2022101156A1 (de) * | 2020-11-11 | 2022-05-19 | Cortex Innovations Gmbh | Listenbasierte datenspeicherung zur datensuche |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10284568B2 (en) * | 2016-08-23 | 2019-05-07 | Guardtime Ip Holdings Limited | System and method for secure transmission of streamed data frames |
CN112526559B (zh) * | 2020-12-03 | 2024-05-10 | 北京航空航天大学 | 一种多工况条件下的系统关联性状态监测方法 |
-
2022
- 2022-06-09 CN CN202210645807.5A patent/CN114722014B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106385343A (zh) * | 2016-09-05 | 2017-02-08 | Tcl集团股份有限公司 | 一种分布式系统下监控客户端的方法及装置、分布式系统 |
WO2019060326A1 (en) * | 2017-09-20 | 2019-03-28 | University Of Utah Research Foundation | ANALYSIS OF SYSTEM EVENT LOGS DURING CONTINUOUS TRANSMISSION |
CN107943841A (zh) * | 2017-10-30 | 2018-04-20 | 深圳前海微众银行股份有限公司 | 流式数据处理方法、系统和计算机可读存储介质 |
CN107992840A (zh) * | 2017-12-12 | 2018-05-04 | 清华大学 | 多分段多阈值约束的时间序列模式查找方法和系统 |
CN110232054A (zh) * | 2019-06-19 | 2019-09-13 | 北京百度网讯科技有限公司 | 日志传输系统及流式日志传输方法 |
CN110609852A (zh) * | 2019-07-16 | 2019-12-24 | 招联消费金融有限公司 | 流式数据处理方法、装置、计算机设备和存储介质 |
CN110855625A (zh) * | 2019-10-17 | 2020-02-28 | 新华三信息安全技术有限公司 | 基于流式处理的异常分析方法、装置及存储介质 |
CN111625342A (zh) * | 2020-06-07 | 2020-09-04 | 智博云信息科技(广州)有限公司 | 一种数据溯源方法、装置及服务器 |
WO2022101156A1 (de) * | 2020-11-11 | 2022-05-19 | Cortex Innovations Gmbh | Listenbasierte datenspeicherung zur datensuche |
CN112818022A (zh) * | 2021-02-25 | 2021-05-18 | 北京新致君阳信息技术有限公司 | 数据流式同步系统、设备以及方法 |
CN114185885A (zh) * | 2021-11-05 | 2022-03-15 | 中国科学院计算技术研究所 | 一种基于列存数据库的流式数据处理方法及系统 |
CN114185884A (zh) * | 2021-11-05 | 2022-03-15 | 中国科学院计算技术研究所 | 基于列存数据的流式数据处理方法及系统 |
Non-Patent Citations (2)
Title |
---|
面向套牌甄别的流式计算系统;乔通等;《计算机应用》;20170110(第01期);第153-158页 * |
面向推荐系统的用户行为记录数据实时预处理研究与实现;韦智勇;《企业科技与发展》;20180810(第08期);第86-89页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114722014A (zh) | 2022-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114722014B (zh) | 基于数据库日志文件的批量数据时间序列传输方法及系统 | |
US6047277A (en) | Self-organizing neural network for plain text categorization | |
US8280915B2 (en) | Binning predictors using per-predictor trees and MDL pruning | |
US9235651B2 (en) | Data retrieval apparatus, data storage method and data retrieval method | |
US20140372346A1 (en) | Data intelligence using machine learning | |
US9760593B2 (en) | Data dictionary with a reduced need for rebuilding | |
US20180196835A1 (en) | Root cause analysis of performance problems | |
EP3356951B1 (en) | Managing a database of patterns used to identify subsequences in logs | |
CN109325032B (zh) | 一种索引数据存储及检索方法、装置及存储介质 | |
EP2657884A2 (en) | Identifying multimedia objects based on multimedia fingerprint | |
CN112994701A (zh) | 数据压缩方法、装置、电子设备及计算机可读介质 | |
CN117081602B (zh) | 基于区块链的资金结算数据优化处理方法 | |
CN1783092A (zh) | 数据分析装置和数据分析方法 | |
CN111930751A (zh) | 一种时序数据的存储方法及装置 | |
CN110995273A (zh) | 电力数据库的数据压缩方法、装置、设备及介质 | |
Tavakoli et al. | Clustering time series data through autoencoder-based deep learning models | |
Wilbur | Non-parametric significance tests of retrieval performance comparisons | |
US20030126138A1 (en) | Computer-implemented column mapping system and method | |
CN116561230B (zh) | 一种基于云计算的分布式存储与检索系统 | |
CN113743453A (zh) | 一种基于随机森林的人口数量预测方法 | |
CN110807082B (zh) | 质量抽检项目确定方法、系统、电子设备及可读存储介质 | |
WO2023070424A1 (zh) | 一种数据库数据的压缩方法及存储设备 | |
CN113204676B (zh) | 基于图结构数据的压缩存储方法 | |
CN109299260B (zh) | 数据分类方法、装置以及计算机可读存储介质 | |
CN117216490B (zh) | 一种智能大数据采集系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |