CN105700989A - 一种日志文件的异常检测与处理的方法与装置 - Google Patents

一种日志文件的异常检测与处理的方法与装置 Download PDF

Info

Publication number
CN105700989A
CN105700989A CN201610021281.8A CN201610021281A CN105700989A CN 105700989 A CN105700989 A CN 105700989A CN 201610021281 A CN201610021281 A CN 201610021281A CN 105700989 A CN105700989 A CN 105700989A
Authority
CN
China
Prior art keywords
file
abnormal
log server
packing
mistake
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610021281.8A
Other languages
English (en)
Other versions
CN105700989B (zh
Inventor
邹凤莲
陈静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Focus Technology Co Ltd
Original Assignee
Focus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Focus Technology Co Ltd filed Critical Focus Technology Co Ltd
Priority to CN201610021281.8A priority Critical patent/CN105700989B/zh
Publication of CN105700989A publication Critical patent/CN105700989A/zh
Application granted granted Critical
Publication of CN105700989B publication Critical patent/CN105700989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种日志文件的异常检测与处理的方法,包括如下:1)BI日志服务器日志与数据源MD5异常监控与处理,(1)BI日志服务器日志与数据源MD5比对,检测是否异常;(2)处理BI日志服务器日志文件与数据源日志文件不一致的异常情况;2)BI日志服务器日志文件异常检测与处理,(1)检测BI日志服务器日志文件是否出现异常;(2)通过识别文件中的内容判断,当在该文件夹下有文件中存在非该文件夹日期下的记录,或文件中既存在该日期的又存在部分非该日期的记录,则日志文件出现打包错误;(3)BI日志服务器日志文件异常处理,当对BI日志服务器日志文件进行异常检测并发现异常后及时处理;3)HDFS文件异常检测与处理。

Description

一种日志文件的异常检测与处理的方法与装置
技术领域
本发明涉及网站日志分析领域,具体而言,是一种日志文件的异常检测与处理的方法与装置。
背景技术
迅速发展的互联网技术使得网站积累了更加庞大的访问日志。对访问日志的完整全面地分析可以挖掘用户行为特征,提升网站自身运营效率获取更大利润。然而,由于访问日志文件庞大且分散,且在整个分析过程中日志文件需要历经几次传输存储,这个过程中日志文件的完整性和准确性不能保证。以中国制造网(以下简称MIC)为例,整个日志分析流程及可能出现的问题可归纳如下:
1.每日凌晨运维部门将前一日日志进行打包,存放在服务器上形成了日志文件的数据源。BI日志服务器从数据源处下载日志文件形成BI日志原始文件。该过程可能出现数据源文件异常,或者BI日志服务器文件缺失或者文件受损等问题。
2.将BI日志服务器日志PUT到HDFS。该过程中,可能出现HDFS文件缺失或文件受损等异常。
3.HADOOP程序日志解析。该过程中可能由于某个程序的Bug而出现最终结果不准确的情况。
如若日志文件的完整性和准确性不能得到保证,则会造成网站对用户行为的分析不准确进而影响整个网站的分析效果甚至运营效果。因此,日志的完整性和准确性对日志分析具有至关重要的作用。本发明对网站日志文件的异常检测提出一种解决方法,并针对各个环节的各种异常情况提出了处理办法,以确保日志文件最终能完整准确地被解析从而提升网站分析效果。
发明内容
本发明目的是,针对基于HADOOP平台(适合大数据的分布式存储和计算的平台)的日志解析系统提出了一种日志文件的异常检测与处理方法,解决日志文件从数据源到数据表过程中可能出现的各种异常。
一种日志文件的异常检测与处理的方法,其特征是包括如下步骤:
1)BI日志服务器日志与数据源MD5异常监控与处理,
(1)BI日志服务器日志与数据源MD5比对,检测是否异常;运维打包挂载数据源日志文件与BI日志服务器下载日志时分别以相同的MD5加密方式给每个文件生成MD5值,并分别存至两张表中,通过数据源文件的MD5值与BI日志服务器原始日志文件的MD5值比对就能判断BI日志服务器日志是否与数据源文件一致,对于异常情况给出相应预警;
(2)处理BI日志服务器日志文件与数据源日志文件不一致的异常情况,
从数据源到BI日志服务器可能出现数据源异常、日志未挂到BI日志服务器、挂载的文件大小异常。对于数据源异常,需要联系运维相关维护人员及时解决;对于日志未挂载到BI日志服务器以及挂载的文件大小异常,则BI部门需及时查看修复程序,并重新挂载。
2)BI日志服务器日志文件异常检测与处理,
(1)检测BI日志服务器日志文件是否出现异常,即使BI日志服务器日志与数据源一致,仍有可能出现其他异常;
文件数量异常:在业务不发生变化的情况下,每日的日志文件数量是固定的。当BI日志服务器上文件数量比以往出现偏多或偏少时,一方面是业务发生变化导致文件数量发生变化,另一方面也有可能是由于文件出现了命名或者打包错误,此时需结合文件命名错误、打包错误与人工判断,根据业务作出判断,对于异常情况给出相应预警;
文件大小异常:文件大小异常是随着文件数量异常问题出现而存在的;通常为这个异常值设置一个阈值,当当日文件大小超过(或低于)比上一日或(上周)的20%时给出预警提示,并结合文件数量一起判断是否出现异常;
文件命名错误:文件名通常由业务主题、站点名、文件日期、打包时间等组成,通过两种方法识别文件命名错误:(1)从文件名判断:当日凌晨打包的日志文件其业务发生时间通常都是前一日,此时文件名中的文件日期应为打包的前一日,若存在文件打包时间为当日凌晨且文件名上日期也为打包当日时则可判断文件命名错误;(2)通过识别文件中的内容判断:日志文件通常都记录了业务发生的时间,通过比对文件名中的日期与文件内容中的业务发生日期判断该日志文件是否命名错误;
文件打包错误:文件打包错误是指将属于当天的日志文件打包到另外一天的文件中;日志文件打包后通常被放置在以业务发生日期命名的文件夹下;
与文件命名错误类似,文件打包错误也有两种检测方法:(1)通过文件夹名判断;若某个不属于该文件名日期的文件被放至该文件下时则出现了打包错误;(2)通过识别文件中的内容判断,当在该文件夹下有文件中存在非该文件夹日期下的记录,或者文件中既存在该日期的又存在部分非该日期的记录,则可认为日志文件出现了打包错误;
通常文件命名错误与文件打包错误都是随着文件数量异常同时存在,当判断文件数量出现异常且非业务变化原因而引起时,需人工结合文件命名错误和文件打包错误共同判断,对于异常情况给出相应的预警提示;
(2)BI日志服务器日志文件异常处理,
当对BI日志服务器日志文件进行异常检测并发现异常后需要及时处理;对于文件数量异常,需结合文件命名错误以及文件打包错误一起处理;当出现命名错误时需要对文件重新命名,当出现文件打包错误时需重新对日志文件进行打包;而文件大小异常则需结合文件数量异常判断,当文件数量正确时文件大小也会相应正常;
3)HDFS文件异常检测与处理
(1)HDFS文件异常检测
日志文件从BI日志服务器PUT到HDFS上的过程中,会出现文件未PUT到HDFS或者HDFS上的文件不全的问题;将HDFS上的文件信息存至一张表中,通过与BI日志服务器表中的日志信息进行对比,能发现异常,若有异常,则给出预警信息;
(2)HDFS日志文件异常处理
对于HDFS文件异常,一般只需将日志文件从BI日志服务器重新PUT到HDFS即可解决。若重新PUT后还未解决,则可能是PUT程序有异常或者BI日志服务器上日志有异常,这种情况需结合上文BI日志服务器日志文件异常检测与处理解决;
4)目标表数据量异常监控与处理
日志文件的最终去处是经HADOOP程序解析到目标表中;因此,为确保最终的数据是完整并准确的,需对目标表的数据量进行监控,以便及时发现并修复HADOOP程序中可能出现的Bug;
该步骤需将目标表或其衍生表配置成监控表,每日监控表的数据量,并为其设置阈值,例如当目标表数据量超过(或低于)前一天(或上周同一天)50%时,给出相关预警。
有益效果,本发明提出的方法得到日志的完整性和准确性对日志分析,并对网站日志文件的异常检测与处理提出一种解决方法,并针对各个环节的各种异常情况提出了处理办法(解决日志文件从数据源到数据表过程中可能出现的各种异常),以确保日志文件最终能完整准确地被解析从而提升网站分析效果。
附图说明
图1为本发明实施例一种日志文件异常检测与处理方法的流程图;
图2为本发明实施例一种日志文件异常检测与处理方法装置的结构示意图。
具体实施方式
图1展示了本发明实施例的一种日志文件异常检测与处理方法的流程图。
一种日志文件的异常检测与处理的方法与装置,包括:
1)、BI日志服务器日志与数据源MD5异常监控与处理
(1)BI日志服务器日志与数据源MD5比对,检测是否异常
运维打包挂载数据源日志文件与BI日志服务器下载日志时分别以相同的MD5加密方式给每个文件生成MD5值,并分别存至两张表中,通过数据源文件的MD5值与BI日志服务器原始日志文件的MD5值比对就可以判断BI日志服务器日志是否与数据源文件一致,对于异常情况给出相应预警。
(2)处理BI日志服务器日志文件与数据源日志文件不一致的异常情况
从数据源到BI日志服务器可能出现数据源异常、日志未挂到BI日志服务器、挂载的文件大小异常。对于数据源异常,需要联系运维相关维护人员及时解决;对于日志未挂载到BI日志服务器以及挂载的文件大小异常,则BI部门需及时查看修复程序,并重新挂载。
2)、BI日志服务器日志文件异常检测与处理
(1)检测BI日志服务器日志文件是否出现异常
即使BI日志服务器日志与数据源一致,仍有可能出现其他异常。
文件数量异常:一般在业务不发生变化的情况下,每日的日志文件数量是固定的。当BI日志服务器上文件数量比以往(例如上一日或上周)出现偏多或偏少时,一方面是业务发生变化导致文件数量发生变化,另一方面也有可能是由于文件出现了命名或者打包错误,此时需结合文件命名错误、打包错误与人工判断,根据业务作出判断,对于异常情况给出相应预警。
文件大小异常:文件大小异常一般是随着文件数量异常问题出现而存在的。通常可为这个异常值设置一个阈值,例如当当日文件大小超过(或低于)比上一日或(上周)的20%时给出预警提示,并结合文件数量一起判断是否出现异常。
文件命名错误:文件名通常由业务主题、站点名、文件日期、打包时间等组成,例如MIC的某个多语言访问日志文件名为:
“mlan-local.acess.log-cnc-2015.1227.235001.gz”;
表明这是多语言的本地的网通站点2015年12月27日的日志,打包时间为27日晚23点50分01秒。
一般可通过两种方法识别文件命名错误:(1)从文件名判断。当日凌晨打包的日志文件其业务发生时间通常都是前一日,此时文件名中的文件日期应为打包的前一日,若存在文件打包时间为当日凌晨且文件名上日期也为打包当日时(例如2015.1228.000101)则可判断文件命名错误。(2)通过识别文件中的内容判断。日志文件通常都记录了业务发生的时间,通过比对文件名中的日期与文件内容中的业务发生日期可以判断该日志文件是否命名错误。
文件打包错误:文件打包错误是指将属于当天的日志文件打包到另外一天的文件中。日志文件打包后通常被放置在以业务发生日期命名的文件夹下。例如MIC的某个多语言访问日志的完整文件名为:
“/mnt/mlan/2015-12-27/mlan-local.acess.log-cnc-2015.1227.235001.gz”。
与文件命名错误类似,文件打包错误也有两种检测方法:(1)通过文件夹名判断。若某个不属于该文件名日期的文件被放至该文件下时则出现了打包错误。(2)通过识别文件中的内容判断。当在该文件夹下有文件中存在非该文件夹日期下的记录,或者文件中既存在该日期的又存在部分非该日期的记录,则可认为日志文件出现了打包错误。
通常文件命名错误与文件打包错误都是随着文件数量异常同时存在,当判断文件数量出现异常且非业务变化原因而引起时,需人工结合文件命名错误和文件打包错误共同判断,对于异常情况给出相应的预警提示。
(2)BI日志服务器日志文件异常处理
当对BI日志服务器日志文件进行异常检测并发现异常后需要及时处理。对于文件数量异常,需结合文件命名错误以及文件打包错误一起处理。当出现命名错误时需要对文件重新命名,当出现文件打包错误时需重新对日志文件进行打包。而文件大小异常则需结合文件数量异常判断,一般当文件数量正确时文件大小也会相应正常。例如,对于出现命名错误的文件:
“/mnt/mlan/2015-12-27/mlan-local.acess.log-cnc-2015.1228.000101.gz”,我们将其重新命名为:
“/mnt/mlan/2015-12-27/mlan-local.acess.log-cnc-2015.1227.000101.gz”。
3)、HDFS文件异常检测与处理
(1)HDFS文件异常检测
日志文件从BI日志服务器PUT到HDFS上的过程中,可能出现文件未PUT到HDFS或者HDFS上的文件不全的问题。将HDFS上的文件信息存至一张表中,通过与BI日志服务器表中的日志信息进行对比,可发现异常,若有异常,则给出预警信息。
(2)HDFS日志文件异常处理
对于HDFS文件异常,一般只需将日志文件从BI日志服务器重新PUT到HDFS即可解决。若重新PUT后还未解决,则可能是PUT程序有异常或者BI日志服务器上日志有异常,这种情况需结合上文BI日志服务器日志文件异常检测与处理解决。
4)、目标表数据量异常监控与处理
日志文件的最终去处是经HADOOP程序解析到目标表中。因此,为确保最终的数据是完整并准确的,需对目标表的数据量进行监控,以便及时发现并修复HADOOP程序中可能出现的Bug。
该步骤需将目标表或其衍生表配置成监控表,每日监控表的数据量,并为其设置阈值,例如当目标表数据量超过(或低于)前一天(或上周同一天)50%时,给出相关预警。
如图1,本发明实施例的日志文件异常检测与处理具体步骤包括:
步骤11:数据源日志打包时生成的MD5值与BI日志服务器下载日志文件时以同样规则生成的MD5值进行对比,检测BI日志服务器日志文件与数据源是否一致。
创建表A和表B,分别存储数据源日志文件信息和BI日志服务器日志文件信息,包含如下字段:
(1)日期:ADD_DATE;
(2)日志文件名:FILE_NAME;
(3)加密MD5值:MD5;
(4)挂载时间:ADD_TIME。
每日比对A表中与B表中每个文件的MD5值,判断A表中的文件与B表中的文件MD5值是否一致进而判断是否发生异常。
步骤12:对于BI日志与数据源不一致的异常情况进行处理,全部重新下载日志文件或者增量下载未挂载正确的日志文件。
若数据源上未挂载日志,应及时联系相关维护人员以解决;若BI日志服务器日志与数据源不一致,则重新挂载。
步骤13:对BI日志服务器日志异常进行检测,检测其是否存在文件数量异常、文件大小异常、文件命名错误、文件打包错误等异常。
●文件数量异常:若当日日志文件与上周同一天的日志文件数量不相等,则给出预警提示,结合人工判断,识别是否因业务变化引起,判定是否异常。
●文件大小异常:在文件数量未出现异常的情况下,若当日日志文件大小比上周同一天的日志文件大小超出20%或低于80%则给出预警,同时结合目标表或其衍生表的数据量判断日志是否发生异常。
●文件命名错误:(1)从文件名判断。当日凌晨打包的日志文件其业务发生时间通常都是前一日,此时文件名中的文件日期应为打包的前一日,若存在文件打包时间为当日凌晨且文件名上日期也为打包当日时则可判断文件命名错误。(2)通过识别文件中的内容判断。日志文件通常都记录了业务发生的时间,通过比对文件名中的日期与文件内容中的业务发生日期可以判断该日志文件是否命名错误。
●文件打包错误:(1)通过文件夹名判断。若某个不属于该文件名日期的文件被放至该文件下时则出现了打包错误。(2)通过识别文件中的内容判断。当在该文件夹下有文件中存在非该文件夹日期下的记录,或者文件中既存在该日期的又存在部分非该日期的记录,则可认为日志文件出现了打包错误。
步骤14:针对BI日志服务器日志文件数量异常、文件大小异常、文件命名错误、文件打包错误等异常分别进行处理,直至不存在异常。
在业务不发生变化的情况下,BI日志服务器日志文件数量异常通常与文件大小异常、文件命名错误与、文件打包错误等异常共同存在,在判断BI日志服务器日志是否发生异常时一方面需结合业务来判断,另一方面也需将几种异常结合起来判断。对于异常处理,则也是根据相应的异常分别进行处理。
例如,在业务未发生变化的前提下,发现2015年12月27日的日志文件数量比上周(2015年12月20日)少一个,同时发现存在如下目录文件:
“/mnt/mlan/2015-12-27/mlan-local.acess.log-cnc-2015.1228.000101.gz”;而以此名命名为文件则是被程序认为是2015年12月28日的,然而其打包时间为凌晨,表明实际业务发生时间确实是27日的,由此判定该文件命名有误,将其重新命名存放至如下目录:
“/mnt/mlan/2015-12-27/mlan-local.acess.log-cnc-2015.1227.000101.gz”,文件数量回归正常。
步骤15:对HDFS上的日志文件进行异常检测,检测其是否存在文件数量、大小异常,并对异常的文件重新PUT,直至不存在异常。
创建表C,存放HDFS上日志文件的日期、文件名、文件大小、下载时间等相关信息,将其与表B中日志文件的日期、文件名、文件大小想对比,判断是否存在异常,并对异常的文件重新进行PUT,直至HDFS文件与BI日志服务器日志文件完全一致。
步骤16:对日志解析目标表进行数据量监控,检测其是否出现异常。
将目标表或其衍生表配置成监控表,每日监控表的数据量,并为其设置阈值,例如当目标表数据量超过(或低于)前一天(或上周同一天)50%时,给出相关预警。根据预警信息及时发现并修复HADOOP程序中可能存在的BUG,结合人工判断并重新解析日志直至不存在异常。
步骤17:将上述信息形成报表和报告,并进行预警。
将以上表A、表B和表C中的信息汇总,以报表的形式展现,并标注预警信息,同时对于异常情况还将异常以短信和邮件的形式发给相关人员,以便相关人员更方便地监控并处理日志异常。
整个监控过程及其可能出现的异常及解决办法可参见如下表1:
表1
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (1)

1.一种日志文件的异常检测与处理的方法,其特征是包括如下步骤:
1)BI日志服务器日志与数据源MD5异常监控与处理,
(1)BI日志服务器日志与数据源MD5比对,检测是否异常;运维打包挂载数据源日志文件与BI日志服务器下载日志时分别以相同的MD5加密方式给每个文件生成MD5值,并分别存至两张表中,通过数据源文件的MD5值与BI日志服务器原始日志文件的MD5值比对就能判断BI日志服务器日志是否与数据源文件一致,对于异常情况给出相应预警;
(2)处理BI日志服务器日志文件与数据源日志文件不一致的异常情况,
从数据源到BI日志服务器可能出现数据源异常、日志未挂到BI日志服务器、挂载的文件大小异常;对于数据源异常,需要联系运维相关维护人员及时解决;对于日志未挂载到BI日志服务器以及挂载的文件大小异常,则BI部门需及时查看修复程序,并重新挂载;
2)BI日志服务器日志文件异常检测与处理,
(1)检测BI日志服务器日志文件是否出现异常,即使BI日志服务器日志与数据源一致,仍有可能出现其他异常;
文件数量异常:在业务不发生变化的情况下,每日的日志文件数量是固定的;当BI日志服务器上文件数量比以往出现偏多或偏少时,一方面是业务发生变化导致文件数量发生变化,另一方面也有可能是由于文件出现了命名或者打包错误,此时需结合文件命名错误、打包错误与人工判断,根据业务作出判断,对于异常情况给出相应预警;
文件大小异常:文件大小异常是随着文件数量异常问题出现而存在的;通常为这个异常值设置一个阈值,当当日文件大小超过(或低于)比上一日或(上周)的20%时给出预警提示,并结合文件数量一起判断是否出现异常;
文件命名错误:文件名通常由业务主题、站点名、文件日期、打包时间等组成,通过两种方法识别文件命名错误:(1)从文件名判断:当日凌晨打包的日志文件其业务发生时间通常都是前一日,此时文件名中的文件日期应为打包的前一日,若存在文件打包时间为当日凌晨且文件名上日期也为打包当日时则可判断文件命名错误;(2)通过识别文件中的内容判断:日志文件通常都记录了业务发生的时间,通过比对文件名中的日期与文件内容中的业务发生日期判断该日志文件是否命名错误;
文件打包错误:文件打包错误是指将属于当天的日志文件打包到另外一天的文件中;日志文件打包后通常被放置在以业务发生日期命名的文件夹下;
与文件命名错误类似,文件打包错误也有两种检测方法:(1)通过文件夹名判断;若某个不属于该文件名日期的文件被放至该文件下时则出现了打包错误;(3)通过识别文件中的内容判断,当在该文件夹下有文件中存在非该文件夹日期下的记录,或者文件中既存在该日期的又存在部分非该日期的记录,则可认为日志文件出现了打包错误;
通常文件命名错误与文件打包错误都是随着文件数量异常同时存在,当判断文件数量出现异常且非业务变化原因而引起时,需人工结合文件命名错误和文件打包错误共同判断,对于异常情况给出相应的预警提示;
(2)BI日志服务器日志文件异常处理,
当对BI日志服务器日志文件进行异常检测并发现异常后需要及时处理;对于文件数量异常,需结合文件命名错误以及文件打包错误一起处理;当出现命名错误时需要对文件重新命名,当出现文件打包错误时需重新对日志文件进行打包;而文件大小异常则需结合文件数量异常判断,当文件数量正确时文件大小也会相应正常;
3)HDFS文件异常检测与处理
(1)HDFS文件异常检测
日志文件从BI日志服务器PUT到HDFS上的过程中,会出现文件未PUT到HDFS或者HDFS上的文件不全的问题;将HDFS上的文件信息存至一张表中,通过与BI日志服务器表中的日志信息进行对比,能发现异常,若有异常,则给出预警信息;
(2)HDFS日志文件异常处理
对于HDFS文件异常,一般只需将日志文件从BI日志服务器重新PUT到HDFS即可解决;若重新PUT后还未解决,则可能是PUT程序有异常或者BI日志服务器上日志有异常,这种情况需结合上文BI日志服务器日志文件异常检测与处理解决;
4)目标表数据量异常监控与处理
日志文件的最终去处是经HADOOP程序解析到目标表中;因此,为确保最终的数据是完整并准确的,需对目标表的数据量进行监控,以便及时发现并修复HADOOP程序中可能出现的Bug;
该步骤需将目标表或其衍生表配置成监控表,每日监控表的数据量,并为其设置阈值;当目标表数据量超过或低于前一天或上周同一天的50%时,给出相关预警。
CN201610021281.8A 2016-01-13 2016-01-13 一种日志文件的异常检测与处理的方法与装置 Active CN105700989B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610021281.8A CN105700989B (zh) 2016-01-13 2016-01-13 一种日志文件的异常检测与处理的方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610021281.8A CN105700989B (zh) 2016-01-13 2016-01-13 一种日志文件的异常检测与处理的方法与装置

Publications (2)

Publication Number Publication Date
CN105700989A true CN105700989A (zh) 2016-06-22
CN105700989B CN105700989B (zh) 2018-05-04

Family

ID=56227180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610021281.8A Active CN105700989B (zh) 2016-01-13 2016-01-13 一种日志文件的异常检测与处理的方法与装置

Country Status (1)

Country Link
CN (1) CN105700989B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649458A (zh) * 2016-09-26 2017-05-10 福建中金在线信息科技有限公司 一种文件更新量检测方法及系统
CN106709069A (zh) * 2017-01-25 2017-05-24 焦点科技股份有限公司 高可靠性的大数据日志采集与传输方法
CN107959673A (zh) * 2017-11-17 2018-04-24 广东省信息安全测评中心 异常登录检测方法、装置、存储介质和计算机设备
CN108334417A (zh) * 2018-01-26 2018-07-27 阿里巴巴集团控股有限公司 确定数据异常的方法和装置
CN108897665A (zh) * 2018-06-29 2018-11-27 平安科技(深圳)有限公司 日志管理方法、装置、计算机设备及存储介质
CN108959374A (zh) * 2018-05-24 2018-12-07 北京三快在线科技有限公司 数据存储方法、装置及电子设备
CN109460343A (zh) * 2018-09-10 2019-03-12 平安科技(深圳)有限公司 基于日志的系统异常监控方法、装置、设备及存储介质
CN110245057A (zh) * 2019-06-21 2019-09-17 南京焦点领动云计算技术有限公司 一种浏览器端javascript异常的问卷式反馈方法及系统
CN110378154A (zh) * 2019-07-24 2019-10-25 秒针信息技术有限公司 一种文件集完整性校验的方法及装置
CN110377703A (zh) * 2019-07-22 2019-10-25 中国工商银行股份有限公司 报错信息处理方法、装置和设备
CN115982703A (zh) * 2023-03-22 2023-04-18 新兴际华集团财务有限公司 用户行为数据处理方法、装置、电子设备和计算机可读介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110179314A1 (en) * 2010-01-21 2011-07-21 Patel Nehal K Method and system of error logging
CN104539690A (zh) * 2014-12-24 2015-04-22 大连理工大学 一种基于反馈机制和md5码检测的服务器远程数据同步方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110179314A1 (en) * 2010-01-21 2011-07-21 Patel Nehal K Method and system of error logging
CN104539690A (zh) * 2014-12-24 2015-04-22 大连理工大学 一种基于反馈机制和md5码检测的服务器远程数据同步方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
STEFAN HOMMES ETC.: "A Distance-Based Method to Detect Anomalous Attributes in Log Files", 《NETWORK OPERATIONS AND MANAGEMENT SYMPOSIUM (NOMS)》 *
杨斌,纪东升: "商务智能系统中客户行为数据挖掘研究综述", 《甘肃科技》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649458A (zh) * 2016-09-26 2017-05-10 福建中金在线信息科技有限公司 一种文件更新量检测方法及系统
CN106709069A (zh) * 2017-01-25 2017-05-24 焦点科技股份有限公司 高可靠性的大数据日志采集与传输方法
CN106709069B (zh) * 2017-01-25 2018-06-15 焦点科技股份有限公司 高可靠性的大数据日志采集与传输方法
CN107959673B (zh) * 2017-11-17 2020-11-10 广东省信息安全测评中心 异常登录检测方法、装置、存储介质和计算机设备
CN107959673A (zh) * 2017-11-17 2018-04-24 广东省信息安全测评中心 异常登录检测方法、装置、存储介质和计算机设备
CN108334417A (zh) * 2018-01-26 2018-07-27 阿里巴巴集团控股有限公司 确定数据异常的方法和装置
US11061994B2 (en) 2018-01-26 2021-07-13 Advanced New Technologies Co., Ltd. Abnormal data detection
US11003739B2 (en) 2018-01-26 2021-05-11 Advanced New Technologies Co., Ltd. Abnormal data detection
CN108959374B (zh) * 2018-05-24 2020-12-29 北京三快在线科技有限公司 数据存储方法、装置及电子设备
CN108959374A (zh) * 2018-05-24 2018-12-07 北京三快在线科技有限公司 数据存储方法、装置及电子设备
CN108897665B (zh) * 2018-06-29 2021-06-15 平安科技(深圳)有限公司 日志管理方法、装置、计算机设备及存储介质
CN108897665A (zh) * 2018-06-29 2018-11-27 平安科技(深圳)有限公司 日志管理方法、装置、计算机设备及存储介质
CN109460343A (zh) * 2018-09-10 2019-03-12 平安科技(深圳)有限公司 基于日志的系统异常监控方法、装置、设备及存储介质
CN110245057A (zh) * 2019-06-21 2019-09-17 南京焦点领动云计算技术有限公司 一种浏览器端javascript异常的问卷式反馈方法及系统
CN110245057B (zh) * 2019-06-21 2022-12-13 南京焦点领动云计算技术有限公司 一种浏览器端javascript异常的问卷式反馈方法及系统
CN110377703A (zh) * 2019-07-22 2019-10-25 中国工商银行股份有限公司 报错信息处理方法、装置和设备
CN110378154A (zh) * 2019-07-24 2019-10-25 秒针信息技术有限公司 一种文件集完整性校验的方法及装置
CN110378154B (zh) * 2019-07-24 2021-04-02 秒针信息技术有限公司 一种文件集完整性校验的方法及装置
CN115982703A (zh) * 2023-03-22 2023-04-18 新兴际华集团财务有限公司 用户行为数据处理方法、装置、电子设备和计算机可读介质

Also Published As

Publication number Publication date
CN105700989B (zh) 2018-05-04

Similar Documents

Publication Publication Date Title
CN105700989A (zh) 一种日志文件的异常检测与处理的方法与装置
US10621212B2 (en) Language tag management on international data storage
Wu et al. Crashlocator: Locating crashing faults based on crash stacks
Nguyen et al. The (un) reliability of nvd vulnerable versions data: An empirical experiment on google chrome vulnerabilities
US20110161938A1 (en) Including defect content in source code and producing quality reports from the same
US20180357214A1 (en) Log analysis system, log analysis method, and storage medium
Corley et al. Recovering traceability links between source code and fixed bugs via patch analysis
JP6713954B2 (ja) ファイル管理装置及びファイル管理方法
CN104135387A (zh) 一种基于元模型拓扑的网管数据处理可视化监控方法
Steidl et al. Incremental origin analysis of source code files
US11941113B2 (en) Known-deployed file metadata repository and analysis engine
Göde et al. Oops!... I changed it again
CN108153643A (zh) 日志监控系统及方法
CN106649577A (zh) 一种检测Oracle数据库同步软件运行状态的方法
CN109582504A (zh) 一种用于苹果设备的数据恢复方法和装置
US11023229B2 (en) Self-learning automated techniques for detecting the usage of software packages
Kerzazi et al. Botched releases: Do we need to roll back? Empirical study on a commercial web app
US9372745B2 (en) Analytics output for detection of change sets system and method
CN108665237A (zh) 一种基于业务系统建立自动巡检模型和定位异常的方法
US20240193272A1 (en) Known Deployed File Metadata Repository and Analysis Engine
Sureka et al. Applying fellegi-sunter (fs) model for traceability link recovery between bug databases and version archives
CN105975865A (zh) 一种基于可信计算的Hadoop平台度量方法
CN112256532A (zh) 测试界面生成方法、装置、计算机设备及可读存储介质
US20240202333A1 (en) Method and apparatus for disarming ole object in ms-ooxml
CN110008108B (zh) 回归范围确定方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant