CN111723098A - 基于位图索引的日志数据模式查询方法、装置及设备 - Google Patents

基于位图索引的日志数据模式查询方法、装置及设备 Download PDF

Info

Publication number
CN111723098A
CN111723098A CN202010605525.3A CN202010605525A CN111723098A CN 111723098 A CN111723098 A CN 111723098A CN 202010605525 A CN202010605525 A CN 202010605525A CN 111723098 A CN111723098 A CN 111723098A
Authority
CN
China
Prior art keywords
log
data
log data
query
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010605525.3A
Other languages
English (en)
Other versions
CN111723098B (zh
Inventor
王鹏
乔帆
陈佳
汪卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Fudan Innovation Research Institute
Original Assignee
Zhuhai Fudan Innovation Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Fudan Innovation Research Institute filed Critical Zhuhai Fudan Innovation Research Institute
Priority to CN202010605525.3A priority Critical patent/CN111723098B/zh
Publication of CN111723098A publication Critical patent/CN111723098A/zh
Application granted granted Critical
Publication of CN111723098B publication Critical patent/CN111723098B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于位图索引的日志数据模式查询方法、装置及设备,方法包括:接收日志模式数据查询方案;基于预先构建的日志特征数据索引关系,在原始日志数据集中筛选所述日志模式数据查询方案相关联的有效日志数据;利用SASE系统对所述有效日志数据进行模式匹配,得到结果日志数据;输出所述结果日志数据。通过对历史日志进行日志模式查询,利用位图索引的方式对日志数据查询,使得解决了每次查询都需要扫描整个数据流的问题,而且还实现了模式匹配,有效地提高了日志模式查询的效率。

Description

基于位图索引的日志数据模式查询方法、装置及设备
技术领域
本发明涉及日志查询技术领域,具体涉及一种基于位图索引的日志数据模式查询方法、装置及设备。
背景技术
系统日志作为丰富的信息来源,其中包含许多系统相关的重要信息,如执行路径、程序运行状态等,可以用于异常检测、故障监控、性能诊断等系统日志挖掘工作,帮助系统分析人员获得有用信息。日志模式是指在给定的时间间隔内,不同日志类型的日志事件按照指定的顺序,各事件满足给定查询关联条件的一个新的日志事件组合。日志的模式查询是指将日志事件与复杂的查询模式进行匹配,将匹配每个模式的日志事件组合在一起,转换为一个新的日志事件序列作为结果事件输出。模式查询可以定义一套完备的查询内容,因此可以更加清晰有效地完成查询需求。如果系统管理维护人员能够通过历史日志查询不同需求的模式来获取有意义的系统行为信息,就能高效便捷地完成系统维护的相应需求。
现有的商业或开源的日志数据管理工具,如Splunk和Elastic Search,可以提供日志查询分析功能,但是这些工具只支持事件的简单查询,例如关键字查询、类似SQL的关系查询,不支持显式的模式查询。目前已经出现可以处理流数据上模式查询的复杂事件处理系统,例如SASE、Cayuga等,但是这些系统多针对于实时数据的处理,因此对于每一次模式查询都需要扫描整个数据流。日志数据集数量庞大,且针对历史日志数据集的查询处理,若直接使用现有的复杂事件处理系统进行日志的模式匹配,将造成高耗时的问题。
因此,如何提高日志模式查询的效率是本领域的技术人员亟需解决的技术问题。
发明内容
有鉴于此,本发明的目的在于克服现有技术的不足,提供一种基于位图索引的日志数据模式查询方法、装置及设备。
为实现以上目的,本发明采用如下技术方案:
一方面,一种基于位图索引的日志数据模式查询方法,包括:
接收日志模式数据查询方案;
基于预先构建的日志特征数据索引关系,在原始日志数据集中筛选与所述日志模式数据查询方案相关联的有效日志数据;
利用SASE系统对所述有效日志数据进行模式匹配,得到结果日志数据;
输出所述结果日志数据。
可选的,上述所述接收日志模式数据查询方案之前,包括:
识别所述原始日志数据集中所有数据的数据特征;
根据所述数据特征构建所述日志特征数据索引关系,所述日志特征数据索引关系包括:日志类型位图索引、数值型属性位图索引和字符型属性位图索引。
可选的,上述所述根据所述数据特征构建日志类型位图索引,包括:
按照定长时间窗口,对所述原始日志数据集进行日志块划分;
以所述日志块作为日志索引基本单元,构建所述日志类型位图索引。
可选的,上述所述根据所述数据特征构建数值型属性位图索引,包括:
按照预设数值间隔,划分所述原始日志数据集为多个范围段;
根据每个所述范围段,构建所述数值型属性位图索引。
可选的,上述所述划分所述原始日志数据集为多个范围段,包括:
对所述原始日志数据集中的数据进行排序;
根据所述排序的结果,滤除最大数值间隔,得到紧凑区间范围段,作为所述多个范围段。
可选的,上述所述根据所述数据特征构建字符型属性位图索引,包括:
获取所述原始数据集的字符型属性;
根据倒排索引理论,为所述字符型属性构建所述字符型属性位图索引。
可选的,上述所述基于预先构建的日志特征数据索引关系,在原始日志数据集中筛选与所述日志模式数据查询方案相关联的有效日志数据,包括:
读取所述查询方案中的日志类型条件和最大时间间隔条件;
基于所述日志类型条件和所述最大时间间隔条件,利用所述日志类型位图索引和所述日志索引基本单元,在原始日志数据集中筛选所述日志模式数据查询方案相关联的有效日志数据。
可选的,上述所述基于预先构建的日志特征数据索引关系,在原始日志数据集中筛选与所述日志模式数据查询方案相关联的有效日志数据,还包括:
读取所述查询方案中的时间条件、数值型属性条件和字符型属性条件;
基于所述时间条件,利用所述日志类型位图索引和所述日志索引基本单元,在原始日志数据集中筛选所述日志模式数据查询方案相关联的有效日志数据;
基于所述数值型属性条件,利用所述数值型属性位图索引,在原始日志数据集中筛选所述日志模式数据查询方案相关联的有效日志数据;
基于所述字符型属性条件,利用所述字符型属性位图索引,在原始日志数据集中筛选所述日志模式数据查询方案相关联的有效日志数据。
可选的,上述所述在原始日志数据集中筛选与所述日志模式数据查询方案相关联的有效日志数据之后,还包括:
取所述日志类型条件、所述最大时间间隔条件、所述时间条件、所述数值型属性条件和所述字符型属性条件下获取到的初始有效日志数据的交集;
以所述取交集的初始有效日志数据作为所述有效日志数据。
可选的,上述所述利用SASE系统对所述有效日志数据进行模式匹配,得到结果日志数据,包括:
定义所述SASE系统的接口部分;
通过所述接口部分将所述有效日志数据与所述SASE系统对接;
输入所述有效日志数据至所述SASE系统,进行模式匹配,得到所述结果日志数据。
另一方面,一种基于位图索引的日志数据模式查询装置,包括:
接收模块,用于接收日志模式数据查询方案;
筛选模块,用于基于预先构建的日志特征数据索引关系,在原始日志数据集中筛选与所述日志模式数据查询方案相关联的有效日志数据;
匹配模块,用于利用SASE系统对所述有效日志数据进行模式匹配,得到结果日志数据;
输出模块,用于输出所述结果日志数据。
再一方面,一种基于位图索引的日志数据模式查询设备,包括:处理器,以及与所述处理器相连接的存储器;
所述存储器用于存储计算机程序,所述计算机程序至少用于上述任一项所述的基于位图索引的日志数据模式查询方法;
所述处理器用于调用并执行所述存储器中的所述计算机程序。
本申请的有益效果为:
本申请提供的一种基于位图索引的日志数据模式查询方法、装置及设备,方法包括:接收日志模式数据查询方案;基于预先构建的日志特征数据索引关系,在原始日志数据集中筛选所述日志模式数据查询方案相关联的有效日志数据;利用SASE系统对所述有效日志数据进行模式匹配,得到结果日志数据;输出所述结果日志数据。通过对历史日志进行日志模式查询,利用位图索引的方式对日志数据查询,使得解决了每次查询都需要扫描整个数据流的问题,而且还实现了模式匹配,有效地提高了日志模式查询的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于位图索引的日志数据模式查询方法的一种流程图;
图2为本发明实施例提供的一种字符型属性位图索引构建的示意图;
图3为本发明实施例提供的日志模式查询条件的类型及含义示意图;
图4是本发明实施例提供的基于位图索引的日志数据模式查询装置的一种流结构示意图;
图5是本发明实施例提供的基于位图索引的日志数据模式查询设备的一种结构示意图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
图1是本发明实施例提供的基于位图索引的日志数据模式查询方法的一种流程图,图2为本发明实施例提供的一种字符型属性位图索引构建的示意图,图3为本发明实施例提供的日志模式查询条件的类型及含义示意图。
如图1所示,本实施例的一种基于位图索引的日志数据模式查询方法,包括以下步骤:
S11、接收日志模式数据查询方案。
日志模式数据查询方案,是用户选择的,具体的输入方式不进行要求,能够获取到用户的查询方案即可,获取查询方案的目的是进行有效日志的查询。其中,在获取查询方案之前,需要构建日志特征数据索引关系,具体的可以是包括首先识别原始日志数据集中所有数据的数据特征,然后根据数据特征构建日志特征数据索引关系,日志特征数据索引关系包括:日志类型位图索引、数值型属性位图索引和字符型属性位图索引。
其中,若是构建日志类型位图索引,则可以是按照定长时间窗口,对原始日志数据集进行日志块划分;以日志块作为日志索引基本单元,构建日志类型位图索引。在具体的实现过程中,可以定义时间窗口长度为δ,则每个日志块的长度等于时间窗口的长度,可以根据时间窗口将日志数据集S中的日志划分成不相交的日志块。在整个日志数据集的时间线上根据定义好的时间窗口对其进行划分,tsi表示每条日志对应的时间点,lsk和rsk分别表示第k个单元块的起始时间和终止时间,lsk=(k-1)×δ+ts1,rsk=k×δ+ts1,lsk和rsk构成的左闭右开区间即为第k个时间窗口。对于第i条日志,根据其发生的时间点tsi,判断tsi属于的时间窗口位置,将其归于某个日志块中。值得说明的是,此处对实例的符号举例仅为了更好地解释实施方式,并无特殊意义限定,下文公式表述和此处目的相同。根据所述日志索引基本单元,为日志数据集中的不同日志类型构建日志类型位图索引。为日志数据集中的每类日志类型维护一个相应的日志块位图,在该日志类型对应的有效日志块的位图位置1,其余位图位置0。
若是构建数值型属性位图索引,则可以是按照预设数值间隔,划分原始日志数据集为多个范围段;根据每个范围段,构建数值型属性位图索引。将原始日志数据集划分为多个范围段时,首先对原始日志数据集中的数据进行排序;根据排序的结果,滤除最大数值间隔,得到紧凑区间范围段,作为多个范围段。具体地,划分日志数据集中的数值型属性对应属性域的范围段采用的方法是,对某一数值型属性域的整段数据范围进行划分,去掉从大到小排列的一些最大范围间隔,这里要去除的最大范围间隔个数由使用者自行定义,则剩余的小范围都是较为紧凑的范围区间,以此得到划分好的数值型属性对应属性域的范围段。例如,在一个具体的实施过程中,某一数值型属性对应属性域的整段数据范围为{v1,v2...,vI},vi表示属性域中具体数值,I表示该数值域中所有取值的总个数,定义划分后的范围段总数为r。将I个数升序排列,排序后的序列为vmin=x1<x2<…<xI=vmax,其中{x1,x2...,xI}为原数值序列{v1,v2...,vI}升序排序后对应的序列。若I≤r,则可直接分成I个范围,即取r=I,每个数值范围为数值序列中的数值本身。若I≤r,则依次计算序列{x1,x2...,xI}中两两数值间的间隔,将每个间隔定义为gapi,gapi=xi+1-xi。对所有的gap降序排列,找出最大的前r-1个间隔,这些间隔为需要消除的间隔,消除后剩余的r个区间为最终所需要的划分后区间。为不同数值型属性对应属性域划分后的范围段构建数值型位图索引。对于每一个划分后的数值范围,找到与该范围段有交集日志的日志块,维护有效日志块序列的位图,在该日志类型对应的有效日志块的位图位置1,其余位图位置0。
再若是构建字符型属性位图索引,则可以是获取原始数据集的字符型属性;根据倒排索引理论,为字符型属性构建字符型属性位图索引。如图2所示,为本发明实施例提供的一种字符型属性位图索引构建的示意图,在一个具体的实施过程中,已知两个日志块中对应的具体字符型属性值,通过倒排索引理论,可以得到图2右半部分的结果,即具体属性值对应有效日志块序列,从而构建相应位图。如属性值‘aaaa’对应位图索引为11。值得说明的是,本例对日志块个数、字符型属性值均为列举,并不是限定,任何字符型属性对应属性值均可通过该方法处理。
通过以上方式,便成功地构建了日志特征数据索引关系,方便了后续步骤的查询,有效地节约了查询时间。
S12、基于预先构建的日志特征数据索引关系,在原始日志数据集中筛选与日志模式数据查询方案相关联的有效日志数据。
具体的,筛选有效数据的过程,首先是获取查询方案中的查询条件,如图3所示,可以是必需条件和其他条件,必需条件包括日志类型条件和最大时间间隔条件,其他条件包括时间条件、数值型属性条件和字符型属性条件,根据对应的查询条件获取到有效日志数据以后,对数据进行有效整合,可以是对不同条件查询到的数据取交集,从而便得到了最终的有效数据。
其中,通过位图索引的方式获取有效数据包括读取查询方案中的日志类型条件和最大时间间隔条件;基于日志类型条件和最大时间间隔条件,利用日志类型位图索引和日志索引基本单元,在原始日志数据集中筛选日志模式数据查询方案相关联的有效日志数据。还包括:读取查询方案中的时间条件、数值型属性条件和字符型属性条件;基于时间条件,利用日志类型位图索引和日志索引基本单元,在原始日志数据集中筛选日志模式数据查询方案相关联的有效日志数据;基于数值型属性条件,利用数值型属性位图索引,在原始日志数据集中筛选日志模式数据查询方案相关联的有效日志数据;基于字符型属性条件,利用字符型属性位图索引,在原始日志数据集中筛选日志模式数据查询方案相关联的有效日志数据。
例如,在一个具体实施过程中,有m个日志类型组成的日志类型序列A1,A2,...,Ai(1≤i≤m)。设日志模式规定的最大时间间隔为T,转换为日志块的个数,定义为w,表示一个模式的任意两个日志间的最大日志块数目,所述日志块长度为δ,因此
Figure BDA0002560969910000081
定义rf表示向右填充操作,lf(bitmap,c)表示对于bitmap的每个“1”位,将其右边连续c个位置上的数都置为“1”。同理,lf表示向左填充操作,lf(bitmap,c)表示对于bitmap的每个“1”位,将其左边连续c个位置上的数都置为“1”。对于任一日志类型,满足条件的前缀子模式的日志块序列位图可以表示为
Figure BDA0002560969910000091
Figure BDA0002560969910000092
其中,
Figure BDA0002560969910000093
表示日志类型Ai对应所述日志类型位图索引。
同理,满足条件的后缀子模式的日志块序列位图可以表示为
Figure BDA0002560969910000094
Figure BDA0002560969910000095
最后,将前缀子模式和后缀子模式的日志块序列位图取交集,即可得到基于最大时间间隔条件的有效日志数据。
S13、利用SASE系统对有效日志数据进行模式匹配,得到结果日志数据。
具体地,利用SASE系统对筛选后的日志数据进行模式匹配,获取日志模式结果集,包括:自定义SASE系统接口部分,应用于日志数据模式匹配;将筛选后的日志数据集作为输入数据集对接SASE系统,对SASE系统提供的事件接口根据日志数据特征进行自定义,使SASE系统可应用于日志数据的模式匹配,将筛选后的日志数据集封装为所述SASE自定义的日志事件接口类型事件,作为输入数据集对接SASE系统,进行模式匹配,获取最后结果日志数据。
S14、输出结果日志数据。
本申请提供的一种基于位图索引的日志数据模式查询方法,包括:接收日志模式数据查询方案;基于预先构建的日志特征数据索引关系,在原始日志数据集中筛选所述日志模式数据查询方案相关联的有效日志数据;利用SASE系统对所述有效日志数据进行模式匹配,得到结果日志数据;输出所述结果日志数据。通过对历史日志进行日志模式查询,利用位图索引的方式对日志数据查询,使得解决了每次查询都需要扫描整个数据流的问题,而且还实现了模式匹配,有效地提高了日志模式查询的效率。
图4是本发明实施例提供的基于位图索引的日志数据模式查询装置的一种流结构示意图。
如图4所示,本实施例提供一种基于位图索引的日志数据模式查询装置,包括:
接收模块10,用于接收日志模式数据查询方案;
筛选模块20,用于基于预先构建的日志特征数据索引关系,在原始日志数据集中筛选与日志模式数据查询方案相关联的有效日志数据;
匹配模块30,用于利用SASE系统对有效日志数据进行模式匹配,得到结果日志数据;
输出模块40,用于输出结果日志数据。
本申请提供的一种基于位图索引的日志数据模式查询装置,包括:接收日志模式数据查询方案;基于预先构建的日志特征数据索引关系,在原始日志数据集中筛选所述日志模式数据查询方案相关联的有效日志数据;利用SASE系统对所述有效日志数据进行模式匹配,得到结果日志数据;输出所述结果日志数据。通过对历史日志进行日志模式查询,利用位图索引的方式对日志数据查询,使得解决了每次查询都需要扫描整个数据流的问题,而且还实现了模式匹配,有效地提高了日志模式查询的效率。
进一步地,本实施例还包括,日志特征数据索引关系构建模块,用于:
识别原始日志数据集中所有数据的数据特征;
根据数据特征构建日志特征数据索引关系,日志特征数据索引关系包括:日志类型位图索引、数值型属性位图索引和字符型属性位图索引。
进一步地,本实施例的日志特征数据索引关系构建模块,具体用于:
按照定长时间窗口,对原始日志数据集进行日志块划分;
以日志块作为日志索引基本单元,构建日志类型位图索引。
进一步地,本实施例的日志特征数据索引关系构建模块,具体用于:
按照预设数值间隔,划分原始日志数据集为多个范围段;
根据每个范围段,构建数值型属性位图索引。
进一步地,本实施例的日志特征数据索引关系构建模块,具体用于:
对原始日志数据集中的数据进行排序;
根据排序的结果,滤除最大数值间隔,得到紧凑区间范围段,作为多个范围段。
进一步地,本实施例的日志特征数据索引关系构建模块,具体用于:
获取原始数据集的字符型属性;
根据倒排索引理论,为字符型属性构建字符型属性位图索引。
进一步地,本实施例的筛选模块20,具体用于:
读取查询方案中的日志类型条件和最大时间间隔条件;
基于日志类型条件和最大时间间隔条件,利用所述日志类型位图索引和所述日志索引基本单元,在原始日志数据集中筛选日志模式数据查询方案相关联的有效日志数据。
进一步地,本实施例的筛选模块20,具体用于:
读取查询方案中的时间条件、数值型属性条件和字符型属性条件;
基于时间条件,利用所述日志类型位图索引和所述日志索引基本单元,在原始日志数据集中筛选日志模式数据查询方案相关联的有效日志数据;
基于数值型属性条件,利用数值型属性位图索引,在原始日志数据集中筛选日志模式数据查询方案相关联的有效日志数据;
基于字符型属性条件,利用字符型属性位图索引,在原始日志数据集中筛选日志模式数据查询方案相关联的有效日志数据。
进一步地,本实施例的筛选模块20,具体用于:
取日志类型条件、最大时间间隔条件、时间条件、数值型属性条件和字符型属性条件下获取到的初始有效日志数据的交集;
以取交集的初始有效日志数据作为有效日志数据。
进一步地,本实施例的匹配模块20,具体用于:
定义SASE系统的接口部分;
通过所述接口部分将所述有效日志数据与所述SASE系统对接;
输入所述有效日志数据至所述SASE系统,进行模式匹配,得到结果日志数据。
关于上述装置部分的实施例,在对应的方法部分已经做了详细的说明,因此在对应的装置部分不再进行具体阐述,可以相互参照进行理解。
图5是本发明实施例提供的基于位图索引的日志数据模式查询设备的一种结构示意图;
如图5所示,本实施例保护一种基于位图索引的日志数据模式查询设备,包括:处理器100,以及与处理器100相连接的存储器200;
存储器200用于存储计算机程序,计算机程序至少用于执行上述任一实施例的基于位图索引的日志数据模式查询方法;
处理器100用于调用并执行存储器200中的计算机程序。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种基于位图索引的日志数据模式查询方法,其特征在于,包括:
接收日志模式数据查询方案;
基于预先构建的日志特征数据索引关系,在原始日志数据集中筛选与所述日志模式数据查询方案相关联的有效日志数据;
利用SASE系统对所述有效日志数据进行模式匹配,得到结果日志数据;
输出所述结果日志数据。
2.根据权利要求1所述的方法,其特征在于,所述接收日志模式数据查询方案之前,包括:
识别所述原始日志数据集中所有数据的数据特征;
根据所述数据特征构建所述日志特征数据索引关系,所述日志特征数据索引关系包括:日志类型位图索引、数值型属性位图索引和字符型属性位图索引。
3.根据权利要求2所述的方法,其特征在于,所述根据所述数据特征构建日志类型位图索引,包括:
按照定长时间窗口,对所述原始日志数据集进行日志块划分;
以所述日志块作为日志索引基本单元,构建所述日志类型位图索引。
4.根据权利要求2所述的方法,其特征在于,所述根据所述数据特征构建数值型属性位图索引,包括:
按照预设数值间隔,划分所述原始日志数据集为多个范围段;
根据每个所述范围段,构建所述数值型属性位图索引。
5.根据权利要求4所述的方法,其特征在于,所述划分所述原始日志数据集为多个范围段,包括:
对所述原始日志数据集中的数据进行排序;
根据所述排序的结果,滤除最大数值间隔,得到紧凑区间范围段,作为所述多个范围段。
6.根据权利要求2所述的方法,其特征在于,所述根据所述数据特征构建字符型属性位图索引,包括:
获取所述原始数据集的字符型属性;
根据倒排索引理论,为所述字符型属性构建所述字符型属性位图索引。
7.根据权利要求3所述的方法,其特征在于,所述基于预先构建的日志特征数据索引关系,在原始日志数据集中筛选与所述日志模式数据查询方案相关联的有效日志数据,包括:
读取所述查询方案中的日志类型条件和最大时间间隔条件;
基于所述日志类型条件和所述最大时间间隔条件,利用所述日志类型位图索引和所述日志索引基本单元,在原始日志数据集中筛选所述日志模式数据查询方案相关联的有效日志数据。
8.根据权利要求3所述的方法,其特征在于,所述基于预先构建的日志特征数据索引关系,在原始日志数据集中筛选与所述日志模式数据查询方案相关联的有效日志数据,还包括:
读取所述查询方案中的时间条件、数值型属性条件和字符型属性条件;
基于所述时间条件,利用利用所述日志类型位图索引和所述日志索引基本单元,在原始日志数据集中筛选所述日志模式数据查询方案相关联的有效日志数据;
基于所述数值型属性条件,利用所述数值型属性位图索引,在原始日志数据集中筛选所述日志模式数据查询方案相关联的有效日志数据;
基于所述字符型属性条件,利用所述字符型属性位图索引,在原始日志数据集中筛选所述日志模式数据查询方案相关联的有效日志数据。
9.根据权利要求7或8任一项所述的方法,其特征在于,所述在原始日志数据集中筛选与所述日志模式数据查询方案相关联的有效日志数据之后,还包括:
取所述日志类型条件、所述最大时间间隔条件、所述时间条件、所述数值型属性条件和所述字符型属性条件下获取到的初始有效日志数据的交集;
以所述取交集的初始有效日志数据作为所述有效日志数据。
10.根据权利要求1所述的方法,其特征在于,所述利用SASE系统对所述有效日志数据进行模式匹配,得到结果日志数据,包括:
定义所述SASE系统的接口部分;
通过所述接口部分将所述有效日志数据与所述SASE系统对接;
输入所述有效日志数据至所述SASE系统,进行模式匹配,得到所述结果日志数据。
11.一种基于位图索引的日志数据模式查询装置,其特征在于,包括:
接收模块,用于接收日志模式数据查询方案;
筛选模块,用于基于预先构建的日志特征数据索引关系,在原始日志数据集中筛选与所述日志模式数据查询方案相关联的有效日志数据;
匹配模块,用于利用SASE系统对所述有效日志数据进行模式匹配,得到结果日志数据;
输出模块,用于输出所述结果日志数据。
12.一种基于位图索引的日志数据模式查询设备,其特征在于,包括:处理器,以及与所述处理器相连接的存储器;
所述存储器用于存储计算机程序,所述计算机程序至少用于执行权利要求1-10任一项所述的基于位图索引的日志数据模式查询方法;
所述处理器用于调用并执行所述存储器中的所述计算机程序。
CN202010605525.3A 2020-06-29 2020-06-29 基于位图索引的日志数据模式查询方法、装置及设备 Active CN111723098B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010605525.3A CN111723098B (zh) 2020-06-29 2020-06-29 基于位图索引的日志数据模式查询方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010605525.3A CN111723098B (zh) 2020-06-29 2020-06-29 基于位图索引的日志数据模式查询方法、装置及设备

Publications (2)

Publication Number Publication Date
CN111723098A true CN111723098A (zh) 2020-09-29
CN111723098B CN111723098B (zh) 2023-06-30

Family

ID=72569653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010605525.3A Active CN111723098B (zh) 2020-06-29 2020-06-29 基于位图索引的日志数据模式查询方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111723098B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100115000A1 (en) * 2008-10-30 2010-05-06 International Business Machines Corporation Journaling Database Changes Using a Bit Map for Zones Defined in Each Page
CN104182522A (zh) * 2014-08-26 2014-12-03 中国科学院信息工程研究所 一种基于循环位图模型的辅助索引方法及装置
CN104281672A (zh) * 2014-09-28 2015-01-14 网神信息技术(北京)股份有限公司 日志数据的处理方法和装置
CN107038162A (zh) * 2016-02-03 2017-08-11 滴滴(中国)科技有限公司 基于数据库日志的实时数据查询方法和系统
CN109947715A (zh) * 2018-09-07 2019-06-28 网联清算有限公司 日志告警方法及装置
WO2019228573A2 (en) * 2019-09-12 2019-12-05 Alibaba Group Holding Limited Log-structured storage systems
US20200192947A1 (en) * 2018-12-18 2020-06-18 Runtime Collective Limited Distributed Indexing and Aggregation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100115000A1 (en) * 2008-10-30 2010-05-06 International Business Machines Corporation Journaling Database Changes Using a Bit Map for Zones Defined in Each Page
CN104182522A (zh) * 2014-08-26 2014-12-03 中国科学院信息工程研究所 一种基于循环位图模型的辅助索引方法及装置
CN104281672A (zh) * 2014-09-28 2015-01-14 网神信息技术(北京)股份有限公司 日志数据的处理方法和装置
CN107038162A (zh) * 2016-02-03 2017-08-11 滴滴(中国)科技有限公司 基于数据库日志的实时数据查询方法和系统
CN109947715A (zh) * 2018-09-07 2019-06-28 网联清算有限公司 日志告警方法及装置
US20200192947A1 (en) * 2018-12-18 2020-06-18 Runtime Collective Limited Distributed Indexing and Aggregation
WO2019228573A2 (en) * 2019-09-12 2019-12-05 Alibaba Group Holding Limited Log-structured storage systems

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JONG-WON ROH ET AL.: "Efficient bitmap-based indexing of time-based interval sequences" *
张延松;苏明川;张宇;王方舟;: "位图连接索引服务机制研究" *
赵厚宝 等: "数据仓库中位图连接索引的自动选择" *

Also Published As

Publication number Publication date
CN111723098B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
US11372851B2 (en) Systems and methods for rapid data analysis
Mishra et al. Sublinear time approximate clustering.
US11755938B2 (en) Graphical user interface indicating anomalous events
US20180225339A1 (en) System and process for searching massive amounts of time-series data
US9081834B2 (en) Process for gathering and special data structure for storing performance metric data
US20080071748A1 (en) Method and system for storing, organizing and processing data in a relational database
CN108647249B (zh) 舆情数据预测方法、装置、终端及存储介质
KR20150079689A (ko) 소스 추적으로 데이터 프로파일링
US7284011B1 (en) System and methods for processing a multidimensional database
US20130031143A1 (en) Large scale real-time multistaged analytic system using data contracts
CN109684328B (zh) 一种高维时序数据压缩存储方法
Gazzarri et al. End-to-end task based parallelization for entity resolution on dynamic data
EP2979201A2 (en) Organizing and fast searching of data
CN112527824B (zh) 分页查询方法、装置、电子设备和计算机可读存储介质
CN111723098A (zh) 基于位图索引的日志数据模式查询方法、装置及设备
CN106776704B (zh) 统计信息收集方法和装置
KR100810257B1 (ko) 데이터스트림 관리 시스템에서 다수의 연속질의들에 표현된선택조건들의 효율적인 처리장치 및 처리방법
US20160078071A1 (en) Large scale offline retrieval of machine operational information
CN116910685A (zh) 一种基于关联分析模型的数据融合分析方法及系统
CN111522918A (zh) 数据汇聚方法、装置、电子设备及计算机可读存储介质
US10223529B2 (en) Indexing apparatus and method for search of security monitoring data
CN111522805B (zh) 分布式批量数据清理方法及系统
CN113380414A (zh) 基于大数据的数据采集方法及系统
Ferreira Experimental Evaluation Among Reblocking Techniques Applied to the Entity Resolution
CN117290405A (zh) 一种大规模设备数据快速查询的物联网系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant