CN114722014A - 基于数据库日志文件的批量数据时间序列传输方法及系统 - Google Patents

基于数据库日志文件的批量数据时间序列传输方法及系统 Download PDF

Info

Publication number
CN114722014A
CN114722014A CN202210645807.5A CN202210645807A CN114722014A CN 114722014 A CN114722014 A CN 114722014A CN 202210645807 A CN202210645807 A CN 202210645807A CN 114722014 A CN114722014 A CN 114722014A
Authority
CN
China
Prior art keywords
data
sequence
data sequence
target data
streaming
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210645807.5A
Other languages
English (en)
Other versions
CN114722014B (zh
Inventor
石杰
廖家林
伍星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangyin Consumer Finance Co ltd
Original Assignee
Hangyin Consumer Finance Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangyin Consumer Finance Co ltd filed Critical Hangyin Consumer Finance Co ltd
Priority to CN202210645807.5A priority Critical patent/CN114722014B/zh
Publication of CN114722014A publication Critical patent/CN114722014A/zh
Application granted granted Critical
Publication of CN114722014B publication Critical patent/CN114722014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及基于数据库日志文件的批量数据时间序列传输方法及系统,该方法包括获取日志数据,并将日志数据解析为流式数据,获取流式数据之间的逻辑关系,得到数据序列,根据数据序列中系统周期性自检索操作对应的数据的操作时间及系统自检索周期获取系统非周期性自检操作对应的目标数据及目标数据序列,将目标数据序列等距划分为多个子序列,计算每个目标数据序列的重要程度,根据重要程度计算数据序列的滑动窗口大小,根据数据序列的滑动窗口大小利用LZ77算法实现对每个数据序列中的流式数据进行压缩并传输,本发明方法提高了传输效率,并在保证数据传输情况下提高数据的调用速度,从而提高数据检索效率。

Description

基于数据库日志文件的批量数据时间序列传输方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及基于数据库日志文件的批量数据时间序列传输方法及系统。
背景技术
信息的世界,各行各业在管理生产的过程中都会建立属于自己的数据库,而基于数据库的操作都会产生大量的日志文件,且这些日志文件进行本地存储,
由于日志文件数据属于动态数据,在数据库中用日志文件记录数据的进行修改操作时,长久以来会产生大量的批量日志数据,而大量的批量日志数据不仅占用存储资源大,并且后续查找和审阅数据库中以前的数据修改操作时,会导致查找回溯的需要日志数据过于困难,检索效率低,使得设备负载增大,进而导致处理速度特别慢。
因此,需要提供一种基于数据库日志文件的批量数据时间序列传输方法及系统,予以解决上述问题。
发明内容
本发明提供一种基于数据库日志文件的批量数据时间序列传输方法及系统,以解决现有的问题。
本发明的基于数据库日志文件的批量数据时间序列传输方法采用如下技术方案:该方法包括:
获取数据库中每个日志文件对应的日志数据,将日志数据解析成流式数据;
获取所有流式数据之间的逻辑关系,根据所有流式数据的逻辑关系获取多个数据关系网,根据所有数据关系网获取关系网序列,并获取关系网序列中每个数据关系网对应数据序列;
获取数据序列中每个流式数据对应的操作时间,根据每个流式数据对应的操作时间及系统自检索周期确定数据序列中系统非周期性自检操作对应的目标数据并获取目标数据序列;
将目标数据序列等距划分为多个子序列,根据每个目标数据在其对应的数据序列中出现的概率、子序列的个数、子序列中目标数据的个数及数据序列中系统自检索周期操作对应的流式数据的总数计算每个目标数据序列的重要程度;
根据目标数据序列的重要程度及目标数据序列对应的数据序列中所有流式数据的个数计算数据序列的滑动窗口大小,基于每个数据序列的滑动窗口大小利用LZ77算法实现对每个数据序列中的流式数据进行压缩并传输。
优选的,按照每个日志数据的操作时间、操作方式及操作结果对日志数据进行规范记录得到预处理数据,采用基于最长公共子序列的Spell的在线流式日志解析方法将预处理数据解析成流式数据。
优选的,操作方式包括新增一个流式数据或者对流式数据进行删除或者查看固定的流式数据或者将流式数据修改为其他数据。
优选的,日志文件对应的数据包括系统周期性自检索操作所产生的日志数据及系统非周期性自检索操作所产生的日志数据。
优选的,根据每个流式数据对应的操作时间及系统自检索周期确定数据序列中系统非周期性自检操作对应的目标数据并获取目标数据序列的步骤包括:
获取系统周期性自检索操作的系统自检索周期;
根据数据序列中每个流式数据对应的操作时间及系统自检索周期计算每个流式数据的符合度;
若流式数据的符合度为整数,则该数据为系统周期性自检操作所产生的数据,若流式数据的符合度为非整数,则该数据为系统非周期性自检操作所产生的数据;
将系统非周期性自检操作所产生的数据所产生的数据记为目标数据;
根据每个目标数据的操作时间对目标数据进行排序获取目标数据序列。
优选的,根据每个目标数据在其对应的数据序列中出现的概率、子序列的个数、子序列中目标数据的个数及数据序列中系统自检索周期操作对应的数据的总个数计算每个目标数据序列的重要程度的步骤包括:
根据下式(1)计算每个目标数据序列的重要程度:
Figure DEST_PATH_IMAGE001
(1)
其中,
Figure 696900DEST_PATH_IMAGE002
为目标数据序列中目标数据的总数;
Figure DEST_PATH_IMAGE003
表示子序列的总数;
Figure 298914DEST_PATH_IMAGE004
表示第j个子序列内目标数据的个数;
Figure DEST_PATH_IMAGE005
为第j个子序列内的第n个目标数据,
Figure 932021DEST_PATH_IMAGE006
为第j个子序列内的第n个目标数据出现的概率;
Figure DEST_PATH_IMAGE007
为第j个子序列内的第b个数据出现的概率,S表示目标数据序列所在的数据序列中系统自检索周期操作对应的数据的总个数;
Figure 501542DEST_PATH_IMAGE008
表示第a个目标数据序列的重要程度。
优选的,根据目标数据序列的重要程度及目标数据序列对应的数据序列中流式数据的总数计算数据序列的滑动窗口大小的步骤包括:
获取所有目标数据序列的重要程度中的最大重要程度和最小重要程度;
根据最大重要程度、最小重要程度及每个目标数据序列的重要程度获取该序列的归一化重要程度;
根据目标数据序列的归一化重要程度及目标数据序列对应的数据序列中流式数据的总数计算数据序列的滑动窗口大小。
优选的,根据压缩后的流式数据的压缩顺序获取压缩后的流式数据的时间序列标签;对时间序列标签及对应的压缩后的流式数据进行存储并传输。
本发明的基于数据库日志文件的批量数据时间序列传输系统,该系统包括:
数据解析模块,用于获取数据库中每个日志文件对应的日志数据,将日志数据解析成流式数据;
第一数据处理模块,用于获取所有流式数据之间的逻辑关系,根据所有流式数据的逻辑关系获取多个数据关系网,根据所有数据关系网获取关系网序列,并获取关系网序列中每个数据关系网对应数据序列;
第二数据处理模块,用于获取数据序列中每个流式数据对应的操作时间,根据每个流式数据对应的操作时间及系统自检索周期确定数据序列中系统非周期性自检操作对应的目标数据并获取目标数据序列;
参数计算模块,用于将目标数据序列等距划分为多个子序列,根据每个目标数据在其对应的数据序列中出现的概率、子序列的个数、子序列中目标数据的个数及数据序列中系统自检索周期操作对应的流式数据的总数计算每个目标数据序列的重要程度;
压缩传输模块,用于根据目标数据序列的重要程度及目标数据序列对应的数据序列中所有流式数据的个数计算数据序列的滑动窗口大小,基于每个数据序列的滑动窗口大小利用LZ77算法实现对每个数据序列中的流式数据进行压缩并传输。
本发明的有益效果是:本发明的基于数据库日志文件的批量数据时间序列传输方法及系统,通过对数据库的日志文件的日志数据解析成流式数据,然后对流式数据进行分析,依据流式数据的构成数据序列中目标数据序列对应的重要程度选择滑动窗口大小,然后根据滑动窗口大小利用LZ77算法实现对流式数据进行数据压缩,实现压缩时所需要的时间,从而提高传输效率,而后将压缩数据基于时间维度的进行存储,保证数据传输情况下提高数据的调用速度,从而提高数据检索效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于数据库日志文件的批量数据时间序列传输方法及系统的实施例总体步骤的流程图;
图2为实施例的S3步骤中获取目标数据及目标数据序列的流程图;
图3为实施例的S5步骤中获取数据序列的滑动窗口大小的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的基于数据库日志文件的批量数据时间序列传输方法的实施例,如图1所示,该方法包括:
S1、获取数据库中每个日志文件对应的日志数据,将日志数据解析成流式数据,具体的,由于数据库的批量日志文件数据在处理时因为其海量的存储占用,导致处理速度特别慢,无法满足即时性,因此将数据库的批量日志文件数据解析为流式数据可以使其获得流式数据的即时性,高效性,可分析性,且流式数据存在形式为随用随扔,对流式数据的持久化可以提升其使用效率,使其具备多次处理的基础,对流式数据进行压缩可以使其在持久化的过程中较少存储资源和带宽的使用,提升即时性和传输速度,故,按照每个日志数据的操作时间、操作方式及操作结果对日志数据进行规范记录得到预处理数据,采用基于最长公共子序列的Spell的在线流式日志解析方法将预处理数据解析成流式数据,其中,操作方式包括新增一个流式数据或者对流式数据进行删除或者查看固定的流式数据或者将流式数据修改为其他数据,例如,日志数据规范记录后的预处理数据为:操作时间(
Figure DEST_PATH_IMAGE009
)+操作方式+操作对象+操作结果,若日志数据为:“2022年5月12日15:23:23将a类别下b数据修改为c”,其中“2022年5月12日15:23:23”为预处理数据的操作时间,“修改”为预处理数据的操作方式,“a类别下b数据”为预处理数据的操作对象,“a类别下b数据修改为c”则c为操作结果。
S2、获取所有流式数据之间的逻辑关系,根据所有流式数据的逻辑关系获取多个数据关系网,根据所有数据关系网获取关系网序列,并获取关系网序列中每个数据关系网对应数据序列,具体的,逻辑关系即为每个流式数据的操作方式及操作结果之间的联系,例如,流式数据a依据操作时间依次进行了查看操作、查看操作、删除操作、新增操作、查看操作及修改操作得到当前流式数据,则从流式数据a到当前流式数据的操作方式就构成的一个逻辑关系。
具体的,本发明中初始数据源为数据库的多个日志文件的日志数据,所以日志数据之间常规逻辑关系只有四种:新增
Figure 88250DEST_PATH_IMAGE010
、删除
Figure DEST_PATH_IMAGE011
、查找
Figure 59617DEST_PATH_IMAGE012
和修改
Figure DEST_PATH_IMAGE013
;因此,每个日志数据包括系统周期性自检操作所得到的日志数据与系统非周期性自检操作所得到的日志数据,具体的,关系网序列为
Figure 473412DEST_PATH_IMAGE014
,其中,
Figure DEST_PATH_IMAGE015
表示数据关系网中流式数据的数量为B的第a个数据关系网,每个数据关系网中B的值可不相等,为方便叙述统一用符号
Figure 264651DEST_PATH_IMAGE016
来表示,具体的,数据序列为
Figure DEST_PATH_IMAGE017
,其中,
Figure 546727DEST_PATH_IMAGE015
表示第a个数据关系网中的第B个流式数据,其中,数据排序为基于每个流式数据的操作时间
Figure 890377DEST_PATH_IMAGE009
进行排序的。
S3、获取数据序列中每个流式数据对应的操作时间,根据每个流式数据对应的操作时间及系统自检索周期确定数据序列中系统非周期性自检操作对应的目标数据并获取目标数据序列。
具体的,如图2所示,S31、获取系统周期性自检索操作的系统自检索周期;S32、根据数据序列中每个流式数据对应的操作时间及系统自检索周期计算每个流式数据的符合度,符合度
Figure 396445DEST_PATH_IMAGE018
,其中,
Figure 940559DEST_PATH_IMAGE009
表示系统周期性自检索的数据对应的操作时间,T表示系统自检索周期,其中,S33、若流式数据的符合度为整数,则该数据为系统周期性自检操作所产生的数据,若流式数据的符合度为非整数,则该数据为系统非周期性自检操作所产生的数据;S34、将系统非周期性自检操作所产生的数据所产生的数据记为目标数据;根据每个目标数据的操作时间对目标数据进行排序获取目标数据序列。
S4、将目标数据序列等距划分为多个子序列,具体的,由于数据类型比较贫乏,故对目标数据序列进行等距划分为
Figure 291906DEST_PATH_IMAGE003
个子序列,其中每个子序列中有
Figure DEST_PATH_IMAGE019
个目标数据,根据每个目标数据在其对应的数据序列中出现的概率、子序列的个数、子序列中目标数据的个数及数据序列中系统自检索周期操作对应的流式数据的总数计算每个目标数据序列的重要程度,具体的,根据下式(1)计算每个目标数据序列的重要程度:
Figure 723018DEST_PATH_IMAGE020
(1)
其中,
Figure 134408DEST_PATH_IMAGE002
为目标数据序列中目标数据的总数;
Figure 165818DEST_PATH_IMAGE003
表示子序列的总数;
Figure 55277DEST_PATH_IMAGE004
表示第j个子序列内目标数据的个数;
Figure 370589DEST_PATH_IMAGE005
为第j个子序列内的第n个目标数据,
Figure 218459DEST_PATH_IMAGE006
为第j个子序列内的第n个目标数据出现的概率;
Figure 737166DEST_PATH_IMAGE007
为第j个子序列内的第b个数据出现的概率,S表示目标数据序列所在的数据序列中系统自检索周期操作对应的数据的总个数;
Figure 430315DEST_PATH_IMAGE008
表示第a个目标数据序列的重要程度,其中,根据数据序列中每个目标数据的个数与该序列中所有流式数据的总数计算每个目标数据在其对应的数据序列出现的概率。
S5、根据目标数据序列的重要程度及目标数据序列对应的数据序列中所有流式数据的个数计算数据序列的滑动窗口大小,基于每个数据序列的滑动窗口大小利用LZ77算法实现对每个数据序列中的流式数据进行压缩并传输。
具体的,根据目标数据序列的重要程度及目标数据序列对应的数据序列中所有流式数据的个数计算数据序列的滑动窗口大小的步骤包括:如图3所示,S51、获取所有目标数据序列的重要程度中的最大重要程度和最小重要程度;S52、根据最大重要程度、最小重要程度及每个目标数据序列的重要程度获取该序列的归一化重要程度;具体的,归一化重要程度
Figure DEST_PATH_IMAGE021
,其中,
Figure 570440DEST_PATH_IMAGE022
表示所有目标数据序列的重要程度中的最大重要程度、
Figure DEST_PATH_IMAGE023
表示所有目标数据序列的重要程度中的最小重要程度,S53、根据目标数据序列的归一化重要程度及目标数据序列对应的数据序列中流式数据的总数计算数据序列的滑动窗口大小,具体的,滑动窗口大小
Figure 182687DEST_PATH_IMAGE024
,其中,
Figure DEST_PATH_IMAGE025
为超参数,可根据实际数据大小以及实际需求进行调节,B表示目标数据序列对应的数据序列中流式数据的总数,
Figure 798477DEST_PATH_IMAGE026
表示目标数据序列的归一化重要程度。
还包括:根据压缩顺序获取压缩后的流式数据的时间序列标签;对时间序列标签及对应的压缩后的流式数据进行存储并传输,具体的,对每一个不同关系网构成的数据序列中的目标数据序列对应的数据根据其压缩顺序生成相应时间序列标签,目标数据序列对应的所有数据均对应一个唯一的时间序列标签,而每个单独的时间序列标签对应可能有多个压缩数据,利用HDFS对压缩数据进行数据存储,数据存储方式为时间序列标签与压缩后的流式数据,因为时间序列标签是根据数据库日志文件的批量数据规范化记录的产物,所以在后续的回溯中可以有效地对日志文件进行基于产生时间的定位。
本发明还提供了一种基于数据库日志文件的批量数据时间序列传输系统,该系统包括:数据解析模块、第一数据处理模块、第二数据处理模块、参数计算模块及压缩传输模块,具体的,数据解析模块,用于获取数据库中每个日志文件对应的日志数据,将日志数据解析成流式数据;第一数据处理模块用于获取所有流式数据之间的逻辑关系,根据所有流式数据的逻辑关系获取多个数据关系网,根据所有数据关系网获取关系网序列,并获取关系网序列中每个数据关系网对应数据序列;第二数据处理模块用于获取数据序列中每个流式数据对应的操作时间,根据每个流式数据对应的操作时间及系统自检索周期确定数据序列中系统非周期性自检操作对应的目标数据并获取目标数据序列;参数计算模块用于将目标数据序列等距划分为多个子序列,根据每个目标数据在其对应的数据序列中出现的概率、子序列的个数、子序列中目标数据的个数及数据序列中系统自检索周期操作对应的流式数据的总数计算每个目标数据序列的重要程度;压缩传输模块用于根据目标数据序列的重要程度及目标数据序列对应的数据序列中所有流式数据的个数计算数据序列的滑动窗口大小,基于每个数据序列的滑动窗口大小利用LZ77算法实现对每个数据序列中的流式数据进行压缩并传输。
综上所述,本发明提供基于数据库日志文件的批量数据时间序列传输方法及系统,通过对数据库的日志文件的日志数据解析成流式数据,然后对流式数据进行分析,依据流式数据的构成数据序列中目标数据序列对应的重要程度选择滑动窗口大小,然后根据滑动窗口大小利用LZ77算法实现对流式数据进行数据压缩,实现压缩时所需要的时间,从而提高传输效率,而后将压缩数据基于时间维度的进行存储,保证数据传输情况下提高数据的调用速度,从而提高数据检索效率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.基于数据库日志文件的批量数据时间序列传输方法,其特征在于,该方法包括:
获取数据库中每个日志文件对应的日志数据,将日志数据解析成流式数据;
获取所有流式数据之间的逻辑关系,根据所有流式数据的逻辑关系获取多个数据关系网,根据所有数据关系网获取关系网序列,并获取关系网序列中每个数据关系网对应数据序列;
获取数据序列中每个流式数据对应的操作时间,根据每个流式数据对应的操作时间及系统自检索周期确定数据序列中系统非周期性自检操作对应的目标数据并获取目标数据序列;
将目标数据序列等距划分为多个子序列,根据每个目标数据在其对应的数据序列中出现的概率、子序列的个数、子序列中目标数据的个数及数据序列中系统自检索周期操作对应的流式数据的总数计算每个目标数据序列的重要程度;
根据目标数据序列的重要程度及目标数据序列对应的数据序列中所有流式数据的个数计算数据序列的滑动窗口大小,基于每个数据序列的滑动窗口大小利用LZ77算法实现对每个数据序列中的流式数据进行压缩并传输。
2.根据权利要求1所述的基于数据库日志文件的批量数据时间序列传输方法,其特征在于,按照每个日志数据的操作时间、操作方式及操作结果对日志数据进行规范记录得到预处理数据,采用基于最长公共子序列的Spell的在线流式日志解析方法将预处理数据解析成流式数据。
3.根据权利要求1所述的基于数据库日志文件的批量数据时间序列传输方法,其特征在于,操作方式包括新增一个流式数据或者对流式数据进行删除或者查看固定的流式数据或者将流式数据修改为其他数据。
4.根据权利要求1所述的基于数据库日志文件的批量数据时间序列传输方法,其特征在于,日志文件对应的数据包括系统周期性自检索操作所产生的日志数据及系统非周期性自检索操作所产生的日志数据。
5.根据权利要求1所述的基于数据库日志文件的批量数据时间序列传输方法,其特征在于,根据每个流式数据对应的操作时间及系统自检索周期确定数据序列中系统非周期性自检操作对应的目标数据并获取目标数据序列的步骤包括:
获取系统周期性自检索操作的系统自检索周期;
根据数据序列中每个流式数据对应的操作时间及系统自检索周期计算每个流式数据的符合度;
若流式数据的符合度为整数,则该数据为系统周期性自检操作所产生的数据,若流式数据的符合度为非整数,则该数据为系统非周期性自检操作所产生的数据;
将系统非周期性自检操作所产生的数据所产生的数据记为目标数据;
根据每个目标数据的操作时间对目标数据进行排序获取目标数据序列。
6.根据权利要求1所述的基于数据库日志文件的批量数据时间序列传输方法,其特征在于,根据每个目标数据在其对应的数据序列中出现的概率、子序列的个数、子序列中目标数据的个数及数据序列中系统自检索周期操作对应的数据的总个数计算每个目标数据序列的重要程度的步骤包括:
根据下式(1)计算每个目标数据序列的重要程度:
Figure 501446DEST_PATH_IMAGE001
(1)
其中,
Figure 884498DEST_PATH_IMAGE002
为目标数据序列中目标数据的总数;
Figure 929815DEST_PATH_IMAGE003
表示子序列的总数;
Figure 528286DEST_PATH_IMAGE004
表示第j个子序列内目标数据的个数;
Figure 811500DEST_PATH_IMAGE005
为第j个子序列内的第n个目标数据,
Figure 899542DEST_PATH_IMAGE006
为第j个子序列内的第n个目标数据出现的概率;
Figure 369837DEST_PATH_IMAGE007
为第j个子序列内的第b个数据出现的概率,S表示目标数据序列所在的数据序列中系统自检索周期操作对应的数据的总个数;
Figure 834317DEST_PATH_IMAGE008
表示第a个目标数据序列的重要程度。
7.根据权利要求1所述的基于数据库日志文件的批量数据时间序列传输方法,其特征在于,根据目标数据序列的重要程度及目标数据序列对应的数据序列中流式数据的总数计算数据序列的滑动窗口大小的步骤包括:
获取所有目标数据序列的重要程度中的最大重要程度和最小重要程度;
根据最大重要程度、最小重要程度及每个目标数据序列的重要程度获取该序列的归一化重要程度;
根据目标数据序列的归一化重要程度及目标数据序列对应的数据序列中流式数据的总数计算数据序列的滑动窗口大小。
8.根据权利要求1所述的基于数据库日志文件的批量数据时间序列传输方法,其特征在于,根据压缩后的流式数据的压缩顺序获取压缩后的流式数据的时间序列标签;对时间序列标签及对应的压缩后的流式数据进行存储并传输。
9.基于数据库日志文件的批量数据时间序列传输系统,其特征在于,该系统包括:
数据解析模块,用于获取数据库中每个日志文件对应的日志数据,将日志数据解析成流式数据;
第一数据处理模块,用于获取所有流式数据之间的逻辑关系,根据所有流式数据的逻辑关系获取多个数据关系网,根据所有数据关系网获取关系网序列,并获取关系网序列中每个数据关系网对应数据序列;
第二数据处理模块,用于获取数据序列中每个流式数据对应的操作时间,根据每个流式数据对应的操作时间及系统自检索周期确定数据序列中系统非周期性自检操作对应的目标数据并获取目标数据序列;
参数计算模块,用于将目标数据序列等距划分为多个子序列,根据每个目标数据在其对应的数据序列中出现的概率、子序列的个数、子序列中目标数据的个数及数据序列中系统自检索周期操作对应的流式数据的总数计算每个目标数据序列的重要程度;
压缩传输模块,用于根据目标数据序列的重要程度及目标数据序列对应的数据序列中所有流式数据的个数计算数据序列的滑动窗口大小,基于每个数据序列的滑动窗口大小利用LZ77算法实现对每个数据序列中的流式数据进行压缩并传输。
CN202210645807.5A 2022-06-09 2022-06-09 基于数据库日志文件的批量数据时间序列传输方法及系统 Active CN114722014B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210645807.5A CN114722014B (zh) 2022-06-09 2022-06-09 基于数据库日志文件的批量数据时间序列传输方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210645807.5A CN114722014B (zh) 2022-06-09 2022-06-09 基于数据库日志文件的批量数据时间序列传输方法及系统

Publications (2)

Publication Number Publication Date
CN114722014A true CN114722014A (zh) 2022-07-08
CN114722014B CN114722014B (zh) 2022-09-02

Family

ID=82232415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210645807.5A Active CN114722014B (zh) 2022-06-09 2022-06-09 基于数据库日志文件的批量数据时间序列传输方法及系统

Country Status (1)

Country Link
CN (1) CN114722014B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115078892A (zh) * 2022-08-19 2022-09-20 深圳天川电气技术有限公司 一种单机大传动变频器状态远程监测系统
CN115269526A (zh) * 2022-09-19 2022-11-01 誉隆半导体设备(江苏)有限公司 一种半导体生产数据的处理方法及系统
CN117792403A (zh) * 2024-02-26 2024-03-29 成都农业科技职业学院 基于流式大数据技术的分布式农业数据存储管理方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106385343A (zh) * 2016-09-05 2017-02-08 Tcl集团股份有限公司 一种分布式系统下监控客户端的方法及装置、分布式系统
US20180063139A1 (en) * 2016-08-23 2018-03-01 Guardtime Ip Holdings Limited System and Method for Secure Transmission of Streamed Data Frames
CN107943841A (zh) * 2017-10-30 2018-04-20 深圳前海微众银行股份有限公司 流式数据处理方法、系统和计算机可读存储介质
CN107992840A (zh) * 2017-12-12 2018-05-04 清华大学 多分段多阈值约束的时间序列模式查找方法和系统
WO2019060326A1 (en) * 2017-09-20 2019-03-28 University Of Utah Research Foundation ANALYSIS OF SYSTEM EVENT LOGS DURING CONTINUOUS TRANSMISSION
CN110232054A (zh) * 2019-06-19 2019-09-13 北京百度网讯科技有限公司 日志传输系统及流式日志传输方法
CN110609852A (zh) * 2019-07-16 2019-12-24 招联消费金融有限公司 流式数据处理方法、装置、计算机设备和存储介质
CN110855625A (zh) * 2019-10-17 2020-02-28 新华三信息安全技术有限公司 基于流式处理的异常分析方法、装置及存储介质
CN111625342A (zh) * 2020-06-07 2020-09-04 智博云信息科技(广州)有限公司 一种数据溯源方法、装置及服务器
CN112526559A (zh) * 2020-12-03 2021-03-19 北京航空航天大学 一种多工况条件下的系统关联性状态监测方法
CN112818022A (zh) * 2021-02-25 2021-05-18 北京新致君阳信息技术有限公司 数据流式同步系统、设备以及方法
CN114185885A (zh) * 2021-11-05 2022-03-15 中国科学院计算技术研究所 一种基于列存数据库的流式数据处理方法及系统
CN114185884A (zh) * 2021-11-05 2022-03-15 中国科学院计算技术研究所 基于列存数据的流式数据处理方法及系统
WO2022101156A1 (de) * 2020-11-11 2022-05-19 Cortex Innovations Gmbh Listenbasierte datenspeicherung zur datensuche

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180063139A1 (en) * 2016-08-23 2018-03-01 Guardtime Ip Holdings Limited System and Method for Secure Transmission of Streamed Data Frames
CN106385343A (zh) * 2016-09-05 2017-02-08 Tcl集团股份有限公司 一种分布式系统下监控客户端的方法及装置、分布式系统
WO2019060326A1 (en) * 2017-09-20 2019-03-28 University Of Utah Research Foundation ANALYSIS OF SYSTEM EVENT LOGS DURING CONTINUOUS TRANSMISSION
CN107943841A (zh) * 2017-10-30 2018-04-20 深圳前海微众银行股份有限公司 流式数据处理方法、系统和计算机可读存储介质
CN107992840A (zh) * 2017-12-12 2018-05-04 清华大学 多分段多阈值约束的时间序列模式查找方法和系统
CN110232054A (zh) * 2019-06-19 2019-09-13 北京百度网讯科技有限公司 日志传输系统及流式日志传输方法
CN110609852A (zh) * 2019-07-16 2019-12-24 招联消费金融有限公司 流式数据处理方法、装置、计算机设备和存储介质
CN110855625A (zh) * 2019-10-17 2020-02-28 新华三信息安全技术有限公司 基于流式处理的异常分析方法、装置及存储介质
CN111625342A (zh) * 2020-06-07 2020-09-04 智博云信息科技(广州)有限公司 一种数据溯源方法、装置及服务器
WO2022101156A1 (de) * 2020-11-11 2022-05-19 Cortex Innovations Gmbh Listenbasierte datenspeicherung zur datensuche
CN112526559A (zh) * 2020-12-03 2021-03-19 北京航空航天大学 一种多工况条件下的系统关联性状态监测方法
CN112818022A (zh) * 2021-02-25 2021-05-18 北京新致君阳信息技术有限公司 数据流式同步系统、设备以及方法
CN114185885A (zh) * 2021-11-05 2022-03-15 中国科学院计算技术研究所 一种基于列存数据库的流式数据处理方法及系统
CN114185884A (zh) * 2021-11-05 2022-03-15 中国科学院计算技术研究所 基于列存数据的流式数据处理方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
乔通等: "面向套牌甄别的流式计算系统", 《计算机应用》 *
韦智勇: "面向推荐系统的用户行为记录数据实时预处理研究与实现", 《企业科技与发展》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115078892A (zh) * 2022-08-19 2022-09-20 深圳天川电气技术有限公司 一种单机大传动变频器状态远程监测系统
CN115078892B (zh) * 2022-08-19 2022-11-01 深圳天川电气技术有限公司 一种单机大传动变频器状态远程监测系统
CN115269526A (zh) * 2022-09-19 2022-11-01 誉隆半导体设备(江苏)有限公司 一种半导体生产数据的处理方法及系统
CN117792403A (zh) * 2024-02-26 2024-03-29 成都农业科技职业学院 基于流式大数据技术的分布式农业数据存储管理方法
CN117792403B (zh) * 2024-02-26 2024-05-07 成都农业科技职业学院 基于流式大数据技术的分布式农业数据存储管理方法

Also Published As

Publication number Publication date
CN114722014B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN114722014B (zh) 基于数据库日志文件的批量数据时间序列传输方法及系统
US9053386B2 (en) Method and apparatus of identifying similar images
CN110019218B (zh) 数据存储与查询方法及设备
US6047277A (en) Self-organizing neural network for plain text categorization
US8719884B2 (en) Video identification and search
US10719767B2 (en) Computer implemented system for automating the generation of a business decision analytic model
US8244767B2 (en) Composite locality sensitive hash based processing of documents
US20070185896A1 (en) Binning predictors using per-predictor trees and MDL pruning
CN109325032B (zh) 一种索引数据存储及检索方法、装置及存储介质
WO2021068513A1 (zh) 异常对象识别方法、装置、介质及电子设备
Axelsson Using normalized compression distance for classifying file fragments
CN111930751A (zh) 一种时序数据的存储方法及装置
US11620547B2 (en) Estimating number of distinct values in a data set using machine learning
CN110995273A (zh) 电力数据库的数据压缩方法、装置、设备及介质
WO2021103401A1 (zh) 数据对象分类方法、装置、计算机设备和存储介质
CN117081602B (zh) 基于区块链的资金结算数据优化处理方法
Wilbur Non-parametric significance tests of retrieval performance comparisons
CN114741368A (zh) 基于人工智能的日志数据统计方法及相关设备
CN116561230B (zh) 一种基于云计算的分布式存储与检索系统
CN113687773A (zh) 数据压缩模型训练方法及装置、存储介质
CN113743453A (zh) 一种基于随机森林的人口数量预测方法
CN111428821A (zh) 一种基于决策树的资产分类方法
CN116243869A (zh) 数据处理方法、装置及电子设备
CN113691548A (zh) 一种数据采集和分类存储方法及其系统
CN109299260B (zh) 数据分类方法、装置以及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant