CN105389352A - 日志处理方法和装置 - Google Patents

日志处理方法和装置 Download PDF

Info

Publication number
CN105389352A
CN105389352A CN201510729426.5A CN201510729426A CN105389352A CN 105389352 A CN105389352 A CN 105389352A CN 201510729426 A CN201510729426 A CN 201510729426A CN 105389352 A CN105389352 A CN 105389352A
Authority
CN
China
Prior art keywords
daily record
time granularity
tables
data
rank
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510729426.5A
Other languages
English (en)
Inventor
马元文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201510729426.5A priority Critical patent/CN105389352A/zh
Publication of CN105389352A publication Critical patent/CN105389352A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种日志处理方法和装置,其中所述方法,包括:实时接收日志流,并对接收的日志流中的各条日志进行格式化,以从格式化的日志中获取有效信息;待满足当前时间粒度条件的全部日志的有效信息均提取完成后,根据预处理规则对提取出的各条日志的有效信息进行预处理,生成预处理结果;将所述预处理结果存储至开源列存储数据库中与所述当前时间粒度对应的数据表中。通过本发明实施例提供的日志处理方法,能够缩短日志的查询时间,从而提升日志的查询效率。

Description

日志处理方法和装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种日志处理方法和装置。
背景技术
目前,基于互联网技术的公司的各种业务每天会产生大量的日志,正如技术人员所熟知的对这些日志进行分析具有很大的价值,如通过产生的日志可以获得QPS(QueryPerSecond,每秒查询率),各个时间粒度上的统计指标,对出现的问题及时报警以及对一个域上的值进行过滤等等。而对日志进行分析前,需要查询相关日志。而业务每天产生的日志的数据量巨大,从这些数量巨大的日志中查询出分析所需的日志需要花费很长的时间。
现有的对日志查询的技术主要包括对近期日志进行查询分析的技术以及对时间间隔较大的日志进行查询分析的技术。
现有的对近期日志进行查询的技术包括:开源的ElasticSearch,商用的Splunk。其中,ElasticSearch是一个基于Lucene的搜索服务器,Splunk是机器数据的引擎,二者均通过对日志建索引,来提高所需日志的查询速度。但由于日志的数据量巨大,而为日志建立的索引大小比日志还要大,因此,为了节省资源,提高日志查询的响应速度,现有的这两种日志查询工具只能支持对近期的日志进行快速查询。而对于时间间隔较大的查询,目前常见的查询方式是通过MR(MapReduce,批处理任务)对日志进行处理,但通过MR对日志进行查询的方式,日志查询花费的时间长。
可见,现有的日志查询方式无法满足对时间间隔较大的日志、进行快速查询的需求。
发明内容
鉴于上述现有的日志查询方法无法满足对时间间隔较大的日志、进行快速查询的需求的问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的日志处理方法和装置。
依据本发明的一个方面,提供了日志处理方法,包括:实时接收日志流,并对接收的日志流中的各条日志进行格式化,以从格式化的日志中获取有效信息;待满足当前时间粒度条件的全部日志的有效信息均提取完成后,根据预处理规则对提取出的各条日志的有效信息进行预处理,生成预处理结果;将所述预处理结果存储至开源列存储数据库中与所述当前时间粒度对应的数据表中。
可选地,所述方法还包括:按照设定时间间隔,将存储在所述开源列存储数据库中的、同级别时间粒度对应的数据表整合成一个高一级别对应的数据表,其中,时间粒度级别由高至低依次为:天、小时、分钟以及秒。
可选地,所述方法还包括:接收对日志的查询请求;从所述开源列存储数据库中查询与所述查询请求匹配的记录;依据所述匹配的记录生成查询结果并发送。
可选地,所述查询请求中携带有设置的时间粒度以及待查询内容;所述从所述开源列存储数据库中查询与所述查询请求匹配的记录的步骤包括:确定所述设置的时间粒度所属的级别;从所述开源列存储数据库中确定与所述级别匹配的时间粒度对应的数据表;从确定的所述数据表中确定与所述设置的时间粒度相匹配的数据表;依据所述待查询内容从与所述设置的时间粒度相匹配的数据表中查询相关记录。
可选地,所述预处理规则包括以下至少之一:统计总次数、统计最大值、统计最小值、统计平均值、统计每个值的百分比以及报错的日志。
依据本发明的另一个方面,提供了一种日志处理装置,包括:格式化模块,用于实时接收日志流,并对接收的日志流中的各条日志进行格式化,以从格式化的日志中获取有效信息;预处理模块,用于待满足当前时间粒度条件的全部日志的有效信息均提取完成后,根据预处理规则对提取出的各条日志的有效信息进行预处理,生成预处理结果;存储模块,用于将所述预处理结果存储至开源列存储数据库中与所述当前时间粒度对应的数据表中。
可选地,所述装置还包括:整合模块,用于按照设定时间间隔,将存储在所述开源列存储数据库中的、同级别时间粒度对应的数据表整合成一个高一级别对应的数据表,其中,时间粒度级别由高至低依次为:天、小时、分钟以及秒。
可选地,所述装置还包括:请求接收模块,用于接收对日志的查询请求;查询模块,用于从所述开源列存储数据库中查询与所述查询请求匹配的记录;生成模块,用于依据所述匹配的记录生成查询结果并发送。
可选地,所述查询请求中携带有设置的时间粒度以及待查询内容;查询模块包括:级别确定子模块,用于确定所述设置的时间粒度所属的级别;第一匹配子模块,用于从所述开源列存储数据库中确定与所述级别匹配的时间粒度对应的数据表;第二匹配子模块,用于从确定的所述数据表中确定与所述设置的时间粒度相匹配的数据表;记录查询子模块,用于依据所述待查询内容从与所述设置的时间粒度相匹配的数据表中查询相关记录。
可选地,所述预处理规则包括以下至少之一:统计总次数、统计最大值、统计最小值、统计平均值、统计每个值的百分比以及报错的日志。
与现有技术相比,本发明具有以下优点:
本发明实施例提供的日志处理方案,将接收到的日志流进行预处理,然后按照设定的时间粒度将预处理后的结果存储至开源列存储数据库中。当需要查询日志时,直接确定查询的日志对应的时间粒度、然后从对应时间粒度下查询日志即可。本发明实施例提供的日志处理方案,相较于现有的对时间间隔较大的日志的处理方案只是盲目地从存储的所有日志中查询日志,能够缩短日志的查询时间,从而提升日志的查询效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是根据本发明实施例一的一种日志处理方法的步骤流程图;
图2是根据本发明实施例二的一种日志处理方法的步骤流程图;
图3是采用实施例二中所示的日志处理方法进行日志处理的流程示意图;
图4是根据本发明实施例三的一种日志处理装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
参照图1,示出了本发明实施例一的一种日志处理方法的步骤流程图。
本发明实施例的日志处理方法包括以下步骤:
步骤S102:实时接收日志流,并对接收的日志流中的各条日志进行格式化,以从格式化的日志中获取有效信息。
其中,对各条日志进行格式化的具体实现方式参见相关技术即可,本发明实施例对此不作具体限制。
例如:格式化可以为:对日志中的某一个、或多个字段进行定义,然后提取日志中定义的字段下对应的数据。
步骤S104:待满足当前时间粒度条件的全部日志的有效信息均提取完成后,根据预处理规则对提取出的各条日志的有效信息进行预处理,生成预处理结果。
其中,时间粒度可以是一秒钟,一分钟或者一小时,时间粒度的设定可以由本领域技术人员根据实际需求进行设定。当前时间粒度即当前秒、当前分钟或当前小时。
例如:时间粒度为秒,那么,当前时间粒度即当前秒。满足当前时间粒度条件的全部日志即当前秒下接收到的全部日志。
预处理规则可以由本领域技术人员根据实际需求进行设置。例如:预处理规则可以设置成从当前秒下接收到的全部日志中确定某一参数的最大值、最小值,或者是,设置成对某一参数出现的总次数进行统计。
步骤S106:将预处理结果存储至开源列存储数据库中与当前时间粒度对应的数据表中。
在开源列存储数据库中存储有多个数据表,每个数据表均有对应的时间粒度,用于存储对应的时间粒度下的预处理结果。
通过本发明实施例提供的日志处理方法,将接收到的日志流进行预处理,然后按照设定的时间粒度将预处理后的结果存储至开源列存储数据库中。当需要查询日志时,直接确定查询的日志对应的时间粒度、然后从对应时间粒度下查询日志即可。本发明实施例提供的日志处理方法,相较于现有的对时间间隔较大的日志的处理方法只是盲目地从存储的所有日志中查询日志,能够缩短日志的查询时间,从而提升日志的查询效率。
实施例二
参照图2,示出了本发明实施例二的日志处理方法的步骤流程图。
本发明实施例的日志处理方法具体包括以下步骤:
步骤S202:处理平台实时接收日志流,并对接收的日志流中的各条日志进行格式化,以从格式化的日志中获取有效信息。
每条日志均包含多个字段,每个字段下写有对应的信息。在从日志中提取信息前,则需要对提取的字段进行设置。在设置完需要提取的字段后,则对日志进行格式化,然后从格式化的日志中提取设置字段下对应的信息,即获取日志中的有效信息。
步骤S204:待满足当前时间粒度条件的全部日志的有效信息均提取完成后,处理平台根据预处理规则对提取出的各条日志的有效信息进行预处理,生成预处理结果。
其中,时间粒度级别由高至低依次为:天、小时、分钟以及秒。优选地在实际实现过程中,将时间粒度设置为秒。时间粒度设置为秒,则表示时间精确到秒;时间粒度设置为分钟,则表示时间精确到分钟。
预处理规则包括以下至少之一:统计总次数、统计最大值、统计最小值、统计平均值、统计每个值的百分比以及报错的日志。在具体实现过程中,可以由本领域技术人员根据实际需求对预处理规则进行设置,并不局限于上述所列举的预处理规则。
由于预处理规则不同,相应的得到的预处理结果也不同。例如:预处理规则为统计最大值、统计最小值、统计平均值,相应的得到的预处理结果则是某一对象的最大值、最小值以及平均值。再例如:预处理及规则为统计总次数,则得到的预处理结果则是某一对象出现的总次数。
步骤S206:处理平台将预处理结果存储至开源列存储数据库中与当前时间粒度对应的数据表中。
其中,开源列存储数据库可以为HBase,其中,HBase是开源列存储数据库的一种。数据表可以设置成包含统计信息和关注事件两个列族,当然,可以包含其他的列族。
将预处理结果存储至开源列存储数据库中后,一种优选的处理方式为,开源列存储数据库还会对存储的数据表进行整合管理,具体地:按照设定时间间隔,将存储在开源列存储数据库中的、同级别时间粒度对应的数据表整合成一个高一级别对应的数据表。也就是说,将秒级别的数据表进行整合,整合成分钟级别的数据表,将分钟级别的数据表进行整合,整合成小时级别的数据表,将小时级别的数据表进行整合,整合成天级别的数据表,依次类推,对开源列存储数据库中存储的数据表进行整合。
其中,设定时间间隔可以设定成间隔一天进行一次整合、间隔一周进行一次整合,或者间隔两天进行一次整合等。时间间隔的具体设定,可以由本领域技术人员依据实际需求进行设置,本发明实施例对此不作具体限制。
需要说明的是,在对数据表进行整合时,可以设置成依然保留整合前的数据表,当然,也可以设置成在整合后不对整合前的数据表进行保留。
步骤S208:处理平台接收对日志的查询请求。
其中,查询请求中携带有设置的时间粒度以及待查询内容。
待查询内容为用户关心的查询指标,查询指标可以由本领域技术人员根据实际需求进行设置。待查询内容与预处理规则具有相关联性,也就是说,可以依据用户关心的查询指标来确定预处理规则,通过预处理规则从日志中提取出用户关心的指标,将其预先存储到开源列存储数据库中。
步骤S210:处理平台从开源列存储数据库中查询与查询请求匹配的记录。
一种优选的从开源列存储数据库中查询与查询请求匹配的记录的方式如下:
S1:确定设置的时间粒度所属的级别;
其中,时间粒度所属的级别可以为秒、分钟、小时或者天等。
例如:查询请求为:查找2015.1.1-2015.7.1一个Web服务每星期出现404的次数。则可确定当前查询的时间粒度所属的级别为天。
S2:从开源列存储数据库中确定与待查询的时间粒度所属的级别匹配的时间粒度对应的数据表;
例如:当前的查询的时间粒度所属的级别为天,则将开源列存储数据库中所有天对应的数据表确定为查询对象。
S3:从确定的数据表中确定与设置的时间粒度相匹配的数据表;
例如:当前的查询的时间粒度所属的级别为天,查找2015.1.1-2015.7.1天的日志,则从开源列存储数据库中所有天对应的数据表中,查询2015.1.1-2015.7.1的数据表。
S4:依据待查询内容从与设置的时间粒度相匹配的数据表中查询相关记录。
其中,相关记录即从与设置的时间粒度匹配的数据表中查询到的信息。
例如:从2015.1.1-2015.7.1的数据表中分别获取Web服务出现404的次数。
步骤S212:处理平台依据匹配的记录生成查询结果并发送。
本步骤中即将查询到的相关记录进行处理,得到最终的查询结果。
例如:将2015.1.1-2015.7.1中,Web服务每天出现404的次数进行统计求和,得到这期间内Web服务出现404的总次数。
通过本发明实施例提供的日志处理方法,将接收到的日志流进行预处理,然后按照设定的时间粒度将预处理后的结果存储至开源列存储数据库中。当需要查询日志时,直接确定查询的日志对应的时间粒度、然后从对应时间粒度下查询日志即可。本发明实施例提供的日志处理方法,相较于现有的对时间间隔较大的日志的处理方法只是盲目地从存储的所有日志中查询日志,能够缩短日志的查询时间,从而提升日志的查询效率。
下面参照图3,以一具体实例对本发明实施例的日志处理方法进行说明。
本具体实例中使用开源的实时分析平台(如Storm,SparkStreaming)实时的对日志进行处理,将日志的处理结果存储在开源的列存储数据库HBase中。并且,定时的对HBase中的处理结果按不同的时间粒度基于用户定义的规则进行整合。实时分析平台包括处理模块和查询模块两个模块,日志处理的具体的流程分别由实时处理平台包含的上述两个模块执行。
其中,处理模块用于对日志流进行处理,以及将日志预处理结果存储至HBase中。处理模块对日志流进行处理的具体流程如图3所示。
首先,实时分析平台接收日志流,对其中的事件按照用户定义的解析规则进行解析。其次,根据用户定义的预处理规则对事件进行预处理,并将预处理的结果存储到HBase中。
预处理的结果按照不同的时间粒度进行组织,对日志的处理结果可以按照秒、分钟、小时,天进行组织,每种时间粒度对应HBase中的一张数据表。其中,每个数据表包括两个列族:统计信息和关注事件。表的rowkey即行键为精确到相应粒度的时间。
预处理规则包括统计总数,最值,平均值,每个值得百分比,出现异常的事件等等。
本具体实例中考虑到系统的吞吐量和资源的利用率,实时处理平台离线的将HBase中存储的秒级的日志处理结果整理为分钟级,将分钟级的日志处理结果整理为小时级,将小时级的日志处理结果整理为天级。将一种级别的日志整理为另一种级别时,原级别的数据依然保留。并且,根据不同的规则,完成相应域的转化,如将秒级的处理结果转化为分钟级时,对于计数直接求和,对于最值则要找出一分钟之内的最值,而对于用户关心的事件则需要直接做连接即可。
本实例中使用预处理的方式,针对用户关心的指标设定预处理规则,然后,依据预处理规则对日志流进行预处理,得到预处理结果,以实现将用户关心的指标预先处理存储到HBase中,当用户查询关心的指标时,直接从HBase中查询即可,因此,能够提高日志查询速度。由于本实例中使用不同的时间粒度存储预处理结果,所以可根据用户选择的时间粒度,查询相应的表来生成查询结果。日志查询的操作则由查询模块执行,具体步骤如下:
S1:判断查询的时间粒度,由大到小判断,如果可以整除当前时间粒度所属级别,则这个查询的级别为当前级别,否则继续往小级别遍历(级别的遍历顺序:天->小时->分钟->秒)。
S2:根据查询的级别到相应的数据表中查找满足条件的记录。
S3:根据满足条件的记录,生成相应的查询结果。
例如:用户预查找2015.1.1-2015.7.1一个Web服务每星期出现404的次数。查询模块首先判断当前的查询的时间粒度为天,然后查找HBase中天对应的数据表,进一步查找到2015.1.1-2015.7.1对应的数据表,然后从查找到的数据表中查找每天404出现错误的次数,然后根据每天404出现的次数,生成每周的404出现的总次数即相应的查询结果,以将查询结果反馈至用户。
本具体实例提供的日志实时分析平台可以通过实时分析工具在日志到达时,进行预处理,并将处理的结果存入数据库。当用户进行查询时,只需要对数据库中的结果进行再处理即可返回结果,而无需对原始的日志进行处理。更近一步本具体实例中对处理结果按不同的时间粒度进行整理,进一步地提高了日志的查询速度。
实施例三
参照图4,示出了本发明实施例三的日志处理装置的结构框图。
本发明实施例提供的日志处理装置包括:格式化模块402,用于实时接收日志流,并对接收的日志流中的各条日志进行格式化,以从格式化的日志中获取有效信息;预处理模块404,用于待满足当前时间粒度条件的全部日志的有效信息均提取完成后,根据预处理规则对提取出的各条日志的有效信息进行预处理,生成预处理结果;存储模块406,用于将所述预处理结果存储至开源列存储数据库中与所述当前时间粒度对应的数据表中。
优选地,所述装置还包括:整合模块408,用于按照设定时间间隔,将存储在所述开源列存储数据库中的、同级别时间粒度对应的数据表整合成一个高一级别对应的数据表,其中,时间粒度级别由高至低依次为:天、小时、分钟以及秒。
优选地,所述装置还包括:请求接收模块410,用于接收对日志的查询请求;查询模块412,用于从所述开源列存储数据库中查询与所述查询请求匹配的记录;生成模块414,用于依据所述匹配的记录生成查询结果并发送。
优选地,所述查询请求中携带有设置的时间粒度以及待查询内容;查询模块412包括:级别确定子模块4122,用于确定所述设置的时间粒度所属的级别;第一匹配子模块4124,用于从所述开源列存储数据库中确定与所述级别匹配的时间粒度对应的数据表;第二匹配子模块4126,用于从确定的所述数据表中确定与所述设置的时间粒度相匹配的数据表;记录查询子模块4128,用于依据所述待查询内容从与所述设置的时间粒度相匹配的数据表中查询相关记录。
优选地,所述预处理规则包括以下至少之一:统计总次数、统计最大值、统计最小值、统计平均值、统计每个值的百分比以及报错的日志。
本发明实施例的日志处理装置用于实现前述实施例一、二中相应的日志处理方法,并具有与方法实施例相应的有益效果,在此不再赘述。
在此提供的日志处理方案不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造具有本发明方案的系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的日志处理方案中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种日志处理方法,其特征在于,包括:
实时接收日志流,并对接收的日志流中的各条日志进行格式化,以从格式化的日志中获取有效信息;
待满足当前时间粒度条件的全部日志的有效信息均提取完成后,根据预处理规则对提取出的各条日志的有效信息进行预处理,生成预处理结果;
将所述预处理结果存储至开源列存储数据库中与所述当前时间粒度对应的数据表中。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
按照设定时间间隔,将存储在所述开源列存储数据库中的、同级别时间粒度对应的数据表整合成一个高一级别对应的数据表,其中,时间粒度级别由高至低依次为:天、小时、分钟以及秒。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
接收对日志的查询请求;
从所述开源列存储数据库中查询与所述查询请求匹配的记录;
依据所述匹配的记录生成查询结果并发送。
4.根据权利要求3所述的方法,其特征在于,所述查询请求中携带有设置的时间粒度以及待查询内容;
所述从所述开源列存储数据库中查询与所述查询请求匹配的记录的步骤包括:
确定所述设置的时间粒度所属的级别;
从所述开源列存储数据库中确定与所述级别匹配的时间粒度对应的数据表;
从确定的所述数据表中确定与所述设置的时间粒度相匹配的数据表;
依据所述待查询内容从与所述设置的时间粒度相匹配的数据表中查询相关记录。
5.根据权利要求4所述的方法,其特征在于,所述预处理规则包括以下至少之一:统计总次数、统计最大值、统计最小值、统计平均值、统计每个值的百分比以及报错的日志。
6.一种日志处理装置,其特征在于,包括:
格式化模块,用于实时接收日志流,并对接收的日志流中的各条日志进行格式化,以从格式化的日志中获取有效信息;
预处理模块,用于待满足当前时间粒度条件的全部日志的有效信息均提取完成后,根据预处理规则对提取出的各条日志的有效信息进行预处理,生成预处理结果;
存储模块,用于将所述预处理结果存储至开源列存储数据库中与所述当前时间粒度对应的数据表中。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
整合模块,用于按照设定时间间隔,将存储在所述开源列存储数据库中的、同级别时间粒度对应的数据表整合成一个高一级别对应的数据表,其中,时间粒度级别由高至低依次为:天、小时、分钟以及秒。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
请求接收模块,用于接收对日志的查询请求;
查询模块,用于从所述开源列存储数据库中查询与所述查询请求匹配的记录;
生成模块,用于依据所述匹配的记录生成查询结果并发送。
9.根据权利要求8所述的装置,其特征在于,所述查询请求中携带有设置的时间粒度以及待查询内容;所述查询模块包括:
级别确定子模块,用于确定所述设置的时间粒度所属的级别;
第一匹配子模块,用于从所述开源列存储数据库中确定与所述级别匹配的时间粒度对应的数据表;
第二匹配子模块,用于从确定的所述数据表中确定与所述设置的时间粒度相匹配的数据表;
记录查询子模块,用于依据所述待查询内容从与所述设置的时间粒度相匹配的数据表中查询相关记录。
10.根据权利要求9所述的装置,其特征在于,所述预处理规则包括以下至少之一:统计总次数、统计最大值、统计最小值、统计平均值、统计每个值的百分比以及报错的日志。
CN201510729426.5A 2015-10-30 2015-10-30 日志处理方法和装置 Pending CN105389352A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510729426.5A CN105389352A (zh) 2015-10-30 2015-10-30 日志处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510729426.5A CN105389352A (zh) 2015-10-30 2015-10-30 日志处理方法和装置

Publications (1)

Publication Number Publication Date
CN105389352A true CN105389352A (zh) 2016-03-09

Family

ID=55421642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510729426.5A Pending CN105389352A (zh) 2015-10-30 2015-10-30 日志处理方法和装置

Country Status (1)

Country Link
CN (1) CN105389352A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682097A (zh) * 2016-12-01 2017-05-17 北京奇虎科技有限公司 一种处理日志数据的方法和装置
CN107038200A (zh) * 2016-12-15 2017-08-11 平安科技(深圳)有限公司 业务数据处理方法及系统
CN107577805A (zh) * 2017-09-26 2018-01-12 华南理工大学 一种面向日志大数据分析的业务服务系统
CN107844402A (zh) * 2017-11-17 2018-03-27 北京联想超融合科技有限公司 一种基于超融合存储系统的资源监控方法、装置及终端
CN108460094A (zh) * 2018-01-30 2018-08-28 上海天旦网络科技发展有限公司 存储统计数据的方法和系统
CN108920516A (zh) * 2018-05-31 2018-11-30 北京字节跳动网络技术有限公司 实时分析方法、系统、装置及计算机可读存储介质
CN109165193A (zh) * 2018-07-27 2019-01-08 阿里巴巴集团控股有限公司 日志数据的存储方法、装置、客户端及服务器
CN109376174A (zh) * 2018-12-30 2019-02-22 北京奇艺世纪科技有限公司 一种选择数据库的方法和装置
CN109783330A (zh) * 2018-12-10 2019-05-21 北京京东金融科技控股有限公司 日志处理方法、显示方法和相关装置、系统
CN109918349A (zh) * 2019-02-25 2019-06-21 网易(杭州)网络有限公司 日志处理方法、装置、存储介质和电子装置
CN112100138A (zh) * 2020-09-16 2020-12-18 北京天融信网络安全技术有限公司 一种日志查询方法、装置、存储介质和电子设备
CN112182043A (zh) * 2020-10-27 2021-01-05 网易(杭州)网络有限公司 日志数据查询方法、装置、设备及存储介质
CN115769196A (zh) * 2020-04-14 2023-03-07 谷歌有限责任公司 管理实时数据流处理

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1641637A (zh) * 2004-01-02 2005-07-20 联想(北京)有限公司 联机分析处理系统及方法
CN1642097A (zh) * 2004-01-02 2005-07-20 联想(北京)有限公司 日志统计方法和系统
CN1980381A (zh) * 2005-12-08 2007-06-13 厦门雅迅网络股份有限公司 出租车联网广告播放效果数据处理方法
CN103942210A (zh) * 2013-01-21 2014-07-23 中国移动通信集团上海有限公司 海量日志信息的处理方法、装置与系统
CN104063441A (zh) * 2014-06-12 2014-09-24 北京东进航空科技股份有限公司 数据库运维系统及其对数据的运维方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1641637A (zh) * 2004-01-02 2005-07-20 联想(北京)有限公司 联机分析处理系统及方法
CN1642097A (zh) * 2004-01-02 2005-07-20 联想(北京)有限公司 日志统计方法和系统
CN1980381A (zh) * 2005-12-08 2007-06-13 厦门雅迅网络股份有限公司 出租车联网广告播放效果数据处理方法
CN103942210A (zh) * 2013-01-21 2014-07-23 中国移动通信集团上海有限公司 海量日志信息的处理方法、装置与系统
CN104063441A (zh) * 2014-06-12 2014-09-24 北京东进航空科技股份有限公司 数据库运维系统及其对数据的运维方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
长沙市城乡规划局编: "《转型时期的规划信息化创新 中国城市规划信息化年会论文集》", 30 September 2014, 湖南大学出版社 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682097A (zh) * 2016-12-01 2017-05-17 北京奇虎科技有限公司 一种处理日志数据的方法和装置
CN107038200A (zh) * 2016-12-15 2017-08-11 平安科技(深圳)有限公司 业务数据处理方法及系统
WO2018107610A1 (zh) * 2016-12-15 2018-06-21 平安科技(深圳)有限公司 业务数据处理方法、系统、设备及计算机可读存储介质
CN107577805A (zh) * 2017-09-26 2018-01-12 华南理工大学 一种面向日志大数据分析的业务服务系统
CN107577805B (zh) * 2017-09-26 2020-08-18 华南理工大学 一种面向日志大数据分析的业务服务系统
CN107844402A (zh) * 2017-11-17 2018-03-27 北京联想超融合科技有限公司 一种基于超融合存储系统的资源监控方法、装置及终端
CN108460094A (zh) * 2018-01-30 2018-08-28 上海天旦网络科技发展有限公司 存储统计数据的方法和系统
CN108920516A (zh) * 2018-05-31 2018-11-30 北京字节跳动网络技术有限公司 实时分析方法、系统、装置及计算机可读存储介质
CN108920516B (zh) * 2018-05-31 2022-03-22 北京字节跳动网络技术有限公司 实时分析方法、系统、装置及计算机可读存储介质
CN109165193A (zh) * 2018-07-27 2019-01-08 阿里巴巴集团控股有限公司 日志数据的存储方法、装置、客户端及服务器
CN109165193B (zh) * 2018-07-27 2022-03-04 创新先进技术有限公司 日志数据的存储方法、装置、客户端及服务器
CN109783330A (zh) * 2018-12-10 2019-05-21 北京京东金融科技控股有限公司 日志处理方法、显示方法和相关装置、系统
CN109376174A (zh) * 2018-12-30 2019-02-22 北京奇艺世纪科技有限公司 一种选择数据库的方法和装置
CN109376174B (zh) * 2018-12-30 2021-04-27 北京奇艺世纪科技有限公司 一种选择数据库的方法和装置
CN109918349A (zh) * 2019-02-25 2019-06-21 网易(杭州)网络有限公司 日志处理方法、装置、存储介质和电子装置
CN109918349B (zh) * 2019-02-25 2021-05-25 网易(杭州)网络有限公司 日志处理方法、装置、存储介质和电子装置
CN115769196A (zh) * 2020-04-14 2023-03-07 谷歌有限责任公司 管理实时数据流处理
CN115769196B (zh) * 2020-04-14 2023-09-01 谷歌有限责任公司 管理实时数据流处理
CN112100138A (zh) * 2020-09-16 2020-12-18 北京天融信网络安全技术有限公司 一种日志查询方法、装置、存储介质和电子设备
CN112182043A (zh) * 2020-10-27 2021-01-05 网易(杭州)网络有限公司 日志数据查询方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN105389352A (zh) 日志处理方法和装置
US6745177B2 (en) Method and system for retrieving data from multiple data sources using a search routing database
CN100565526C (zh) 一种针对网页作弊的反作弊方法及系统
CN102667761B (zh) 可扩展的集群数据库
CN106709012A (zh) 一种大数据分析方法及装置
CN102855309B (zh) 一种基于用户行为关联分析的信息推荐方法及装置
CN103150362B (zh) 一种视频搜索方法及系统
CN106951557B (zh) 日志关联方法、装置和应用其的计算机系统
CN107783985B (zh) 一种分布式数据库查询方法、装置及管理系统
CN101118555A (zh) 关键词的联想信息生成系统和生成方法
CN101546308B (zh) 一种基于检索过期的网页搜索方法及其系统
CN112988863A (zh) 一种基于Elasticsearch的异构多数据源的高效搜索引擎方法
CN102955802B (zh) 从数据报表中获取数据的方法和装置
CN110727663A (zh) 数据清洗方法、装置、设备及介质
CN104361115A (zh) 一种基于共同点击的词条权重确定方法及装置
CN104376115A (zh) 一种基于全局搜索的模糊词确定方法及装置
CN106126721A (zh) 一种实时计算平台的数据处理方法和装置
CN102937977A (zh) 一种搜索服务器及搜索方法
CN103605744A (zh) 网站搜索引擎流量数据的分析方法及装置
CN111797095B (zh) 索引构建方法和json数据查询方法
CN113553341A (zh) 多维数据分析方法、装置、设备及计算机可读存储介质
CN117251414A (zh) 一种基于异构技术的数据存储及处理方法
CN106557483A (zh) 一种数据处理、数据查询方法及设备
CN104778233A (zh) 一种基于点击量的搜索方法和装置
CN116303628A (zh) 基于Elasticsearch的告警数据查询方法、系统及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160309

RJ01 Rejection of invention patent application after publication