CN107688619A - 一种日志数据处理方法及装置 - Google Patents

一种日志数据处理方法及装置 Download PDF

Info

Publication number
CN107688619A
CN107688619A CN201710680824.1A CN201710680824A CN107688619A CN 107688619 A CN107688619 A CN 107688619A CN 201710680824 A CN201710680824 A CN 201710680824A CN 107688619 A CN107688619 A CN 107688619A
Authority
CN
China
Prior art keywords
timestamp
session
monitored
conversion
daily record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710680824.1A
Other languages
English (en)
Other versions
CN107688619B (zh
Inventor
白敏�
高浩浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qianxin Technology Group Co Ltd
Secworld Information Technology Beijing Co Ltd
Original Assignee
Beijing Qianxin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qianxin Technology Co Ltd filed Critical Beijing Qianxin Technology Co Ltd
Priority to CN201710680824.1A priority Critical patent/CN107688619B/zh
Publication of CN107688619A publication Critical patent/CN107688619A/zh
Application granted granted Critical
Publication of CN107688619B publication Critical patent/CN107688619B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例提供一种日志数据处理方法及装置。所述方法包括:实时获取被监测会话对应的被监测日志数据,对被监测日志数据进行解析获得时间戳;将时间戳进行格式转换获得预设格式的转换后时间戳;若判断获知转换后时间戳与被监测会话的会话开始时间不在同一天,则对转换后时间戳进行修正,获得修正后时间戳;若判断获知修正后时间戳为被监测会话的会话结束时间,则根据会话开始时间和会话结束时间进行聚类分析,获得分析结果。所述装置用于执行所述方法。本发明实施例通过将被监测日志数据的时间戳转换成预设格式,并对时间戳进行修正,实现了会话时间的连续性,从而提高了聚类分析的准确性。

Description

一种日志数据处理方法及装置
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种日志数据处理方法及装置。
背景技术
随着信息技术的飞速发展和集群规模的不断扩大,随之产生海量日志数据,日志数据记录了系统的运行信息,而且当用户对在系统上进行操作时,也会产生日志数据,因此,通过日志数据可以来分析用户的行为,从而判断该用户是否发生异常。
通过对日志监控,可以对软件系统运行中产生的各类日志进行采集、过滤、存储、分析、检测异常的一系列过程,是软件监控系统中的重要组成部分,通过对日志进行不同角度的分析,可以达到对系统安全性监控的目的。现有技术中,对日志分析的方法有通过监控用户访问某一个进程的时间或者频率来进行分析,例如:可以获取用户在正常情况下每天产生日志数据的时间段,当监听到用户产生日志的时间段偏离了正常时间段,则判断出该用户的操作可能出现了异常,从而达到对系统安全的监控。但是,现有技术中,通过以天来分割,将每天的日志进行归类,即,若用户是在前一天的23:30分登陆系统,在第二天的1:00退出系统,此时,是会将用户的该次操作分开归类,没有体现出日志产生时间的连续性,从而导致了对日志数据分类不准确的问题。
发明内容
针对现有技术存在的问题,本发明实施例提供一种日志数据处理方法及装置。
第一方面,本发明实施例提供一种日志数据处理方法,包括:
实时获取被监测会话对应的被监测日志数据,对所述被监测日志数据进行解析,获得时间戳;
将所述时间戳进行格式转换,获得预设格式的转换后时间戳;
若判断获知所述转换后时间戳与所述被监测会话的会话开始时间不在同一天,则对所述转换后时间戳进行修正,获得修正后时间戳;
若判断获知所述修正后时间戳为所述被监测会话的会话结束时间,则根据所述会话开始时间和所述会话结束时间进行聚类分析,获得分析结果。
第二方面,本发明实施例提供一种日志数据处理装置,包括:
第一获取模块,用于实时获取被监测会话对应的被监测日志数据,对所述被监测日志数据进行解析,获得时间戳;
第一转换模块,用于将所述时间戳进行格式转换,获得预设格式的转换后时间戳;
修正模块,用于若判断获知所述转换后时间戳与所述被监测会话的会话开始时间不在同一天,则对所述转换后时间戳进行修正,获得修正后时间戳;
分析模块,用于若判断获知所述修正后时间戳为所述被监测会话的会话结束时间,则根据所述会话开始时间和所述会话结束时间进行聚类分析,获得分析结果。
第三方面,本发明实施例提供一种电子设备,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面的方法步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,包括:
所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面的方法步骤。
本发明实施例提供的一种日志数据处理方法及装置,通过将被监测日志数据的时间戳转换成预设格式,并若判断被监测日志数据与被监测会话的会话开始时间不在同一天,则对该时间戳进行修正,获得修正后时间戳,若修正后时间戳为会话结束时间,则根据会话开始时间和会话结束时间进行聚类分析,获得分析结果,实现了会话时间的连续性,从而提高了分析的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种日志数据处理方法流程示意图;
图2为本发明另一实施例提供的一种日志数据处理方法流程示意图;
图3为本发明实施例提供的一种日志数据处理装置结构示意图;
图4为本发明实施例提供的电子设备实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种日志数据处理方法流程示意图,如图1所示,所述方法,包括:
步骤101:实时获取被监测会话对应的被监测日志数据,对所述被监测日志数据进行解析,获得时间戳;
具体的,当用户登录系统,在系统上进行操作时会产生被监测会话,其中被监测会话中包括被监测日志数据,装置会将用户在登录系统后的操作,用日志的形式记录下来构成被监测日志数据。从用户登录系统开始,装置实时获取被监测会话对应的被监测日志数据,其中,被监测日志数据包括时间戳,通过对获取到的被监测日志数据的解析,可以获得对应的时间戳。应当说明的是,由于装置是实时获取的被监测日志数据,因此,系统每产生一条用户操作的被监测日志数据,该装置就获取一条,并对该条被监测日志数据进行解析等处理。可以理解的是,被监测日志数据中还可以包括其他参数,本发明实施例对此不作具体限定。
步骤102:将所述时间戳进行格式转换,获得预设格式的转换后时间戳;
具体的,将被监测日志数据中的时间戳进行格式转换,获得预设格式的转换后时间戳,因为,在被监测日志数据中时间戳是从格林威治时间1970年01月01日00时00分00秒起至当前时间的总秒数,因此可以将时间戳的格式转换成二十四小时制,从而获得转换后时间戳。例如:时间戳为1499854164,那么转换成二十四小时制的转换后时间戳为2017年7月12日18:09:24。通过转换成二十四小时制可以方便的判断出当前获取到的被监测日志数据对应的日期。
步骤103:若判断获知所述转换后时间戳与所述被监测会话的会话开始时间不在同一天,则对所述转换后时间戳进行修正,获得修正后时间戳;
具体的,将被监测日志数据的时间戳转换成二十四小时制后,可以获取到对应的日期及时间,将被监测日志数据的转换后时间戳与该被监测日志数据的日志开始时间进行比较,判断是否在同一天,如果不在同一天,则需要对转换后时间戳进行修正,获得修正后时间戳。例如:用户的操作时间开始于晚上,一直持续到第二天凌晨才结束,那么,装置在获取到第二天凌晨的被监测日志数据时,需要对其转换后时间戳进行修正,从而保证时间上的连续性。
步骤104:若判断获知所述修正后时间戳为所述被监测会话的会话结束时间,则根据所述会话开始时间和所述会话结束时间进行聚类分析,获得分析结果。
具体的,当装置判断获知获取到的被监测日志数据是最后一条,则说明该装置获取到了该被监测会话的所有日志数据,根据装置获取到的第一条被监测日志数据可以获取到会话开始时间,根据获取到的最后一条被监测日志数据可以获取到会话结束时间,根据会话开始时间和会话结束时间便可以得到被监测会话对应的时间段。根据会话开始时间和会话结束时间进行聚类分析,从而可以得到分析结果。
本发明实施例通过将被监测日志数据的时间戳转换成预设格式,并若判断被监测日志数据与被监测会话的会话开始时间不在同一天,则对该时间戳进行修正,获得修正后时间戳,若修正后时间戳为会话结束时间,则根据会话开始时间和会话结束时间进行聚类分析,获得分析结果,实现了会话时间的连续性,从而提高了分析的准确性。
在上述实施例的基础上,所述方法,还包括:
将二十四小时制预设格式的转换后时间戳转换成十进制格式。
具体的,在将时间戳转换成二十四小时制的格式后,为了计算方便,可以再将转换后时间戳转换成十进制格式。应当说明的是,由于时间戳中带有日期和时刻,在进行十进制转换时,将时刻值进行转换,其中,转换方法为:假如转换后时间戳的时刻值为A时B分C秒,则转换成十进制为A+(B*60+C)/3600.00,保留两位小数,即,如果时刻值为18:09:24,经十进制转换后可以得到18.16。
本发明实施例将二十四小时制的转换后时间戳经过再次转换为十进制,可以较好的反应被监测用户在一天的登录时间,便于之后的数据处理计算。
在上述实施例的基础上,所述若判断获知所述转换后时间戳与所述被监测会话的会话开始时间不在同一天,则对所述转换后时间戳进行修正,获得修正后时间戳,包括:
若判断所述转换后时间戳与所述被监测会话的会话开始时间不在同一天,则获取转换后时间戳与所述会话开始时间的日期间隔;
根据所述日期间隔对所述转换后时间戳进行修正,获得修正后时间戳。
具体的,在将被监测日志数据的时间戳转换成二十四小时制后,可以获得该被监测日志数据对应的日期,从而可以判断该被监测日志数据与被监测会话的会话开始时间是否在同一天,如果不在同一天,则可以计算得到对应的日期间隔,根据日期间隔,需要对转换后时间戳进行修正,获得修正后时间戳。例如:装置在2017年7月12日23:30:00获取到被监测会话的第一条被监测日志数据,装置在2017年7月13日0:30:00获取到被监测会话的第二条被监测日志数据,显然,第二条被监测日志数据相对于第一条被监测日志数据是第二天获取到的,此时,第二条被监测日志数据与第一条被监测日志数据的日期间隔为1,对第二条被监测日志数据的时间戳进行修正后获得的修正后时间戳为24:30:00。
本发明实施例通过计算被监测日志数据的时间戳与会话开始时间的日期间隔来对转换后时间戳进行修正,保证了连夜操作时在时间上的连续性,避免了时间上的隔离,从而提高了对被监测会话的聚类分析的准确性。
在上述实施例的基础上,所述方法,还包括:
获取预设时间段内,被监测用户对应的所有会话集样本,所述会话集样本包括样本会话开始时间和样本会话结束时间;
根据所述会话集样本的样本会话开始时间和样本会话结束时间,利用kmeans算法建立聚类模型,并提取出聚合中心点。
具体的,装置获取预设时间段内,被监测用户对应的所有会话集样本,例如:可以获取最近一个星期内,被监测用户访问系统时产生的所有的会话集样本,这些会话集样本都对应样本会话开始时间和样本会话结束时间,根据多个会话集样本的样本会话开始时间和样本会话结束时间,利用Kmeans算法建立聚类模型,并提取这些会话集样本的聚合中心点,其中,聚合中心点的个数可以预先设定,例如,可以设定3个。应当说明的是,聚类分析的算法有很多,例如:CLARANS算法、FCM算法等,本发明实施例对此不做具体限定。
本发明实施例通过获取预设时间段内的会话集样本的样本会话开始时间和样本会话结束时间,利用Kmeans算法建立聚类模型,根据聚类模型能够对被监测会话在时间上的聚类分析。
在上述实施例的基础上,所述根据所述会话开始时间和所述会话结束时间进行聚类分析,获得分析结果,包括:
将所述会话开始时间和所述会话结束时间输入到所述聚类模型中,计算所述被监测会话与所述聚合中心点的偏离值;
根据所述偏离值判断所述被监测会话是否异常。
具体的,当把被监测日志的会话开始时间和会话结束时间输入到聚类模型中后,聚类模型会计算会话开始时间到会话结束时间这一时间段与聚合中心点进行比较,将这一时间段归为距离最近的那一个聚合中心点,并计算出对应的偏离值。例如:聚合中心点为8:00:00、16:00:00、24:00:00,被监测会话的会话开始时间为6:30:00,会话结束时间为8:20:00,那么,被监测会话应归为8:00:00这一类,并且聚类模型根据会话开始时间和会话结束时间以及聚合中心点计算出被监测会话对应的偏离值。设定一个预设阈值,如果计算得出的偏离值大于预设阈值,则说明被监测会话对应的时间段为用户不经常登录系统进行操作的时间段,因此,将被监测会话判断为异常;如果偏离值小于或等于预设阈值,则将被监测会话判断为正常。
本发明实施例通过聚类模型计算得出被监测会话与聚合中心点的偏离值,根据偏离值判断该被监测会话是否异常,实现了会话时间的连续性,从而提高了分析的准确性。
在上述实施例的基础上,所述根据所述日期间隔对所述转换后时间戳进行修正,获得修正后时间戳,包括:
若所述转换后时间戳与所述开始时间的日期间隔为n,则修正后时间戳的小时数=转换后时间戳的小时数+n×24;
所述修正后时间戳的天数=所述转换后时间戳的天数-n,其中,n为整数。
具体的,如果装置在获取到被监测会话的一个日志数据后,对该日志数据进行解析处理,得到转换后时间戳,若判断获知该转换后时间戳与会话开始时间的日期间隔为n,那么说明该日志数据在会话开始时间对应的日期的后n天,此时,应该对日志数据进行修正,最终的修正后时间戳的小时数为转换后时间戳的小时数+n×24,相应的,将修正后的时间戳的天数为转换后时间戳的天数-n。应当说明的是,小时数可以理解为:转换后时间戳和修正后时间戳都是以年、月、日、时、分、秒的格式,单位为“时”对应的数值为小时数,天数可以理解为:转换后时间戳和修正后时间戳中,单位为“日”对应的数据。例如,被监测会话的会话开始时间为2017年7月12日23:30:00,装置持续获取该被监测会话的日志数据,此时,23为小时数,12为天数,当装置获取到某一条日志数据后,对该日志数据解析处理后的转换后时间戳为2017年7月14日2:45:00,由此可知,该条日志数据与会话开始时间的日期间隔为2,对该条日志数据修正后的小时数应为2:45:00+2×24=50:45:00,将该条日志数据修正后的天数为12。应当说明的是,也可以不对转换后时间戳的天数进行修改,这是因为,在利用聚类模型进行分析时,只需要修正后时间戳的时刻值,不需要日期。
本发明实施例通过将被监测日志数据的时间戳转换成预设格式,并若判断被监测日志数据与被监测会话的会话开始时间不在同一天,则对该时间戳进行修正,获得修正后时间戳,若修正后时间戳为会话结束时间,则根据会话开始时间和会话结束时间进行聚类分析,获得分析结果,实现了会话时间的连续性,从而提高了分析的准确性。
图2为本发明另一实施例提供的一种日志数据处理方法流程示意图,如图2所示,所述方法,包括:
步骤201:获取被监测会话的日志数据;装置实时获取被监测会话的日志数据,由于用户可能是断断续续操作的,所以日志数据会根据用户的操作依次产生。对日志数据进行解析后可以获取到对应的时间戳,时间戳表示该日志数据的产生时间。
步骤202:转换为二十四小时制;由于日志数据中的时间戳是以秒来计算的,为了能够简便的判断被监测会话是否跨天,可以将其转换成二十四小时制,从而得到日志数据对应的转换后时间戳,转换后时间戳包括年月日以及具体时刻。
步骤203:转换为十进制;进一步的,还可以将转换后时间戳的时刻值再次转换为十进制,并保留两位小数。其具体转换方式已在上述实施例中描述,此处不再赘述。应当说明的是转换后时间戳的年月日不做转换。
步骤204:与会话开始时间是否为同一天;通过日志数据的转换后时间戳可以判断与会话开始时间是否为同一天,如果为同一天,则执行步骤206,否则执行步骤205。
步骤205:修正;根据转换后时间戳和会话开始时间可以获得日期间隔,即日志数据在会话开始时间的后几天产生,根据日期间隔对转换后时间戳进行修正,获得修正后时间戳。
步骤206:被监测会话是否结束;判断被监测会话是否结束,如果结束,则执行步骤207,否则执行步骤201。
步骤207:聚类分析;获取被监测会话的会话开始时间和会话结束时间,将会话开始时间和会话结束时间输入到聚类模型中,聚类模型可以计算得出该被监测会话与聚合中心点的偏离值,根据偏离值大小得出该被监测会话是否异常。
本发明实施例通过将被监测日志数据的时间戳转换成二十四小时制,并若判断被监测日志数据与被监测会话的会话开始时间不在同一天,则对该时间戳进行修正,获得修正后时间戳,若修正后时间戳为会话结束时间,则根据会话开始时间和会话结束时间进行聚类分析,获得分析结果,实现了会话时间的连续性,从而提高了分析的准确性。
图3为本发明实施例提供的一种日志数据处理装置结构示意图,如图3所示,所述装置包括:第一获取模块301、第一转换模块302、修正模块303和分析模块304,其中:
第一获取模块301用于实时获取被监测会话对应的被监测日志数据,对所述被监测日志数据进行解析,获得时间戳;第一转换模块302用于将所述时间戳进行格式转换,获得预设格式的转换后时间戳;修正模块303用于若判断获知所述转换后时间戳与所述被监测会话的会话开始时间不在同一天,则对所述转换后时间戳进行修正,获得修正后时间戳;分析模块304用于若判断获知所述修正后时间戳为所述被监测会话的会话结束时间,则根据所述会话开始时间和所述会话结束时间进行聚类分析,获得分析结果。
具体的,系统会将用户在登录系统后的操作,用日志的形式记录下来构成被监测日志数据。从用户登录系统开始,第一获取模块301实时获取被监测会话对应的被监测日志数据,其中,被监测日志数据包括时间戳,通过对获取到的被监测日志数据的解析,可以获得对应的时间戳。第一转换模块302将被监测日志数据中的时间戳进行格式转换,因为,在被监测日志数据中时间戳是从格林威治时间1970年01月01日00时00分00秒起至当前时间的总秒数,因此可以将时间戳的格式转换成二十四小时制,从而获得转换后时间戳。第一转换模块302将被监测日志数据的时间戳转换成二十四小时制后,可以获取到对应的日期及时间,修正模块303将被监测日志数据的转换后时间戳与该被监测日志数据的日志开始时间进行比较,判断是否在同一天,如果不在同一天,则需要对转换后时间戳进行修正,获得修正后时间戳。当分析模块304判断获知获取到的被监测日志数据是最后一条,则说明该第一获取模块301获取到了该被监测会话的所有日志数据,根据第一获取模块301获取到的第一条被监测日志数据可以获取到会话开始时间,根据获取到的最后一条被监测日志数据可以获取到会话结束时间,根据会话开始时间和会话结束时间便可以得到被监测会话对应的时间段。根据会话开始时间和会话结束时间进行聚类分析,从而可以得到分析结果。
本发明提供的装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
本发明实施例通过将被监测日志数据的时间戳转换成预设格式,并若判断被监测日志数据与被监测会话的会话开始时间不在同一天,则对该时间戳进行修正,获得修正后时间戳,若修正后时间戳为会话结束时间,则根据会话开始时间和会话结束时间进行聚类分析,获得分析结果,实现了会话时间的连续性,从而提高了分析的准确性。
在上述实施例的基础上,所述装置,还包括:
第二转换模块,用于将预设格式的转换后时间戳转换成十进制格式。
具体的,在将时间戳转换成二十四小时制的格式后,为了计算方便,可以通过第二转换模块再将转换后时间戳转换成十进制格式。应当说明的是,由于时间戳中带有日期和时刻,在进行十进制转换时,可以不对日期进行转换,只将时刻值进行转换,
本发明实施例将二十四小时制的转换后时间戳经过再次转换为十进制,可以较好的反应被监测用户在一天的登录时间,便于之后的数据处理计算。
在上述实施例的基础上,所述修正模块,具体用于:
若判断所述转换后时间戳与所述被监测会话的会话开始时间不在同一天,则获取转换后时间戳与所述会话开始时间的日期间隔;
根据所述日期间隔对所述转换后时间戳进行修正,获得修正后时间戳。
具体的,在将被监测日志数据的时间戳转换成二十四小时制后,修正模块可以获得该被监测日志数据对应的日期,从而可以判断该被监测日志数据与被监测会话的会话开始时间是否在同一天,如果不在同一天,则可以计算得到对应的日期间隔,根据日期间隔,需要对转换后时间戳进行修正,获得修正后时间戳。
本发明实施例通过计算被监测日志数据的时间戳与会话开始时间的日期间隔来对转换后时间戳进行修正,保证了连夜操作时在时间上的连续性,避免了时间上的隔离,从而提高了对被监测会话的聚类分析的准确性。
在上述实施例的基础上,所述装置,还包括:
第二获取模块,用于获取预设时间段内,被监测用户对应的所有会话集样本,所述会话集样本包括样本会话开始时间和样本会话结束时间;
模型建立模块,用于根据所述会话集样本的样本会话开始时间和样本会话结束时间,利用Kmeans算法建立聚类模型,并提取出聚合中心点。
具体的,第二获取模块获取预设时间段内,被监测用户对应的所有会话集样本,例如:可以获取最近一个星期内,被监测用户访问系统时产生的所有的会话集样本,这些会话集样本都对应样本会话开始时间和样本会话结束时间,模型建立模块根据多个会话集样本的样本会话开始时间和样本会话结束时间,利用Kmeans算法建立聚类模型,并提取这些会话集样本的聚合中心点。
本发明实施例通过获取预设时间段内的会话集样本的样本会话开始时间和样本会话结束时间,利用Kmeans算法建立聚类模型,根据聚类模型能够对被监测会话在时间上的聚类分析。
在上述实施例的基础上,所述分析模块,具体用于:
将所述会话开始时间和所述会话结束时间输入到所述聚类模型中,计算所述被监测会话与所述聚合中心点的偏离值;
根据所述偏离值判断所述被监测会话是否异常。
具体的,当把被监测日志的会话开始时间和会话结束时间输入到聚类模型中后,分析模块会计算会话开始时间到会话结束时间这一时间段与聚合中心点进行比较,将这一时间段归为距离最近的那一个聚合中心点,并计算出对应的偏离值。如果计算得出的偏离值大于预设阈值,则说明被监测会话对应的时间段为用户不经常登录系统进行操作的时间段,因此,将被监测会话判断为异常;如果偏离值小于或等于预设阈值,则将被监测会话判断为正常。
本发明实施例通过聚类模型计算得出被监测会话与聚合中心点的偏离值,根据偏离值判断该被监测会话是否异常,实现了会话时间的连续性,从而提高了分析的准确性。
在上述实施例的基础上,所述修正模块,具体用于:
若所述转换后时间戳与所述开始时间的日期间隔为n,则修正后时间戳的小时数=转换后时间戳的小时数+n×24;
所述修正后时间戳的天数=所述转换后时间戳的天数-n,其中,n为整数。
具体的,如果第一获取模块在获取到被监测会话的一个日志数据后,对该日志数据进行解析处理,得到转换后时间戳,修正模块如判断获知该转换后时间戳与会话开始时间的日期间隔为n,那么说明该日志数据在会话开始时间对应的日期的后n天,此时,应该对日志数据进行修正,最终的修正值为转换后时间戳+n×24,修正后时间戳的天数为转换后时间戳的天数-n。
本发明提供的装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
本发明实施例通过将被监测日志数据的时间戳转换成预设格式,并若判断被监测日志数据与被监测会话的会话开始时间不在同一天,则对该时间戳进行修正,获得修正后时间戳,若修正后时间戳为会话结束时间,则根据会话开始时间和会话结束时间进行聚类分析,获得分析结果,实现了会话时间的连续性,从而提高了分析的准确性。
图4为本发明实施例提供的电子设备实体结构示意图,如图4所示,所述电子设备,包括:处理器(processor)401、存储器(memory)402和总线403;其中,
所述处理器401和存储器402通过所述总线403完成相互间的通信;
所述处理器401用于调用所述存储器402中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:实时获取被监测会话对应的被监测日志数据,对所述被监测日志数据进行解析,获得时间戳;将所述时间戳进行格式转换,获得预设格式的转换后时间戳;若判断获知所述转换后时间戳与所述被监测会话的会话开始时间不在同一天,则对所述转换后时间戳进行修正,获得修正后时间戳;若判断获知所述修正后时间戳为所述被监测会话的会话结束时间,则根据所述会话开始时间和所述会话结束时间进行聚类分析,获得分析结果。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:实时获取被监测会话对应的被监测日志数据,对所述被监测日志数据进行解析,获得时间戳;将所述时间戳进行格式转换,获得预设格式的转换后时间戳;若判断获知所述转换后时间戳与所述被监测会话的会话开始时间不在同一天,则对所述转换后时间戳进行修正,获得修正后时间戳;若判断获知所述修正后时间戳为所述被监测会话的会话结束时间,则根据所述会话开始时间和所述会话结束时间进行聚类分析,获得分析结果。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:实时获取被监测会话对应的被监测日志数据,对所述被监测日志数据进行解析,获得时间戳;将所述时间戳进行格式转换,获得预设格式的转换后时间戳;若判断获知所述转换后时间戳与所述被监测会话的会话开始时间不在同一天,则对所述转换后时间戳进行修正,获得修正后时间戳;若判断获知所述修正后时间戳为所述被监测会话的会话结束时间,则根据所述会话开始时间和所述会话结束时间进行聚类分析,获得分析结果。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (14)

1.一种日志数据处理方法,其特征在于,包括:
实时获取被监测会话对应的被监测日志数据,对所述被监测日志数据进行解析,获得时间戳;
将所述时间戳进行格式转换,获得预设格式的转换后时间戳;
若判断获知所述转换后时间戳与所述被监测会话的会话开始时间不在同一天,则对所述转换后时间戳进行修正,获得修正后时间戳;
若判断获知所述修正后时间戳为所述被监测会话的会话结束时间,则根据所述会话开始时间和所述会话结束时间进行聚类分析,获得分析结果。
2.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
将预设格式的转换后时间戳转换成十进制格式。
3.根据权利要求1所述的方法,其特征在于,所述若判断获知所述转换后时间戳与所述被监测会话的会话开始时间不在同一天,则对所述转换后时间戳进行修正,获得修正后时间戳,包括:
若判断所述转换后时间戳与所述被监测会话的会话开始时间不在同一天,则获取转换后时间戳与所述会话开始时间的日期间隔;
根据所述日期间隔对所述转换后时间戳进行修正,获得修正后时间戳。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述方法,还包括:
获取预设时间段内,被监测用户对应的所有会话集样本,所述会话集样本包括样本会话开始时间和样本会话结束时间;
根据所述会话集样本的样本会话开始时间和样本会话结束时间,利用Kmeans算法建立聚类模型,并提取出聚合中心点。
5.根据权利要求4所述的方法,其特征在于,所述根据所述会话开始时间和所述会话结束时间进行聚类分析,获得分析结果,包括:
将所述会话开始时间和所述会话结束时间输入到所述聚类模型中,计算所述被监测会话与所述聚合中心点的偏离值;
根据所述偏离值判断所述被监测会话是否异常。
6.根据权利要求3所述的方法,其特征在于,所述根据所述日期间隔对所述转换后时间戳进行修正,获得修正后时间戳,包括:
若所述转换后时间戳与所述开始时间的日期间隔为n,则修正后时间戳的小时数=转换后时间戳的小时数+n×24;
所述修正后时间戳的天数=所述转换后时间戳的天数-n,其中,n为整数。
7.一种日志数据处理装置,其特征在于,包括:
第一获取模块,用于实时获取被监测会话对应的被监测日志数据,对所述被监测日志数据进行解析,获得时间戳;
第一转换模块,用于将所述时间戳进行格式转换,获得预设格式的转换后时间戳;
修正模块,用于若判断获知所述转换后时间戳与所述被监测会话的会话开始时间不在同一天,则对所述转换后时间戳进行修正,获得修正后时间戳;
分析模块,用于若判断获知所述修正后时间戳为所述被监测会话的会话结束时间,则根据所述会话开始时间和所述会话结束时间进行聚类分析,获得分析结果。
8.根据权利要求7所述的装置,其特征在于,所述装置,还包括:
第二转换模块,用于将预设格式的转换后时间戳转换成十进制格式。
9.根据权利要求7所述的装置,其特征在于,所述修正模块,具体用于:
若判断所述转换后时间戳与所述被监测会话的会话开始时间不在同一天,则获取转换后时间戳与所述会话开始时间的日期间隔;
根据所述日期间隔对所述转换后时间戳进行修正,获得修正后时间戳。
10.根据权利要求7-9任一项所述的装置,其特征在于,所述装置,还包括:
第二获取模块,用于获取预设时间段内,被监测用户对应的所有会话集样本,所述会话集样本包括样本会话开始时间和样本会话结束时间;
模型建立模块,用于根据所述会话集样本的样本会话开始时间和样本会话结束时间,利用Kmeans算法建立聚类模型,并提取出聚合中心点。
11.根据权利要求10所述的装置,其特征在于,所述分析模块,具体用于:
将所述会话开始时间和所述会话结束时间输入到所述聚类模型中,计算所述被监测会话与所述聚合中心点的偏离值;
根据所述偏离值判断所述被监测会话是否异常。
12.根据权利要求9所述的装置,其特征在于,所述修正模块,具体用于:
若所述转换后时间戳与所述开始时间的日期间隔为n,则修正后时间戳的小时数=转换后时间戳的小时数+n×24;
所述修正后时间戳的天数=所述转换后时间戳的天数-n,其中,n为整数。
13.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1-6任一项所述的方法。
14.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1-6任一项所述的方法。
CN201710680824.1A 2017-08-10 2017-08-10 一种日志数据处理方法及装置 Active CN107688619B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710680824.1A CN107688619B (zh) 2017-08-10 2017-08-10 一种日志数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710680824.1A CN107688619B (zh) 2017-08-10 2017-08-10 一种日志数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN107688619A true CN107688619A (zh) 2018-02-13
CN107688619B CN107688619B (zh) 2020-06-16

Family

ID=61153195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710680824.1A Active CN107688619B (zh) 2017-08-10 2017-08-10 一种日志数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN107688619B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111367958A (zh) * 2019-11-19 2020-07-03 杭州海康威视系统技术有限公司 一种数据分析方法、装置、电子设备及存储介质
CN113342744A (zh) * 2021-06-02 2021-09-03 北京优特捷信息技术有限公司 调用链的并行构建方法、装置、设备及存储介质
CN113364863A (zh) * 2021-06-03 2021-09-07 上海微盟企业发展有限公司 一种行为数据会话id分配的方法、系统及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751248A (zh) * 2008-11-28 2010-06-23 国际商业机器公司 为Web应用设计时间敏感的性能测试用例的方法和系统
CN103178982A (zh) * 2011-12-23 2013-06-26 阿里巴巴集团控股有限公司 日志分析方法和装置
CN104317811A (zh) * 2014-09-25 2015-01-28 小米科技有限责任公司 业务指标的统计方法、装置及服务器
US9430501B1 (en) * 2012-12-31 2016-08-30 Emc Corporation Time sanitization of network logs from a geographically distributed computer system
CN106685984A (zh) * 2017-01-16 2017-05-17 东北大学 一种基于数据包捕获技术的网络威胁分析系统及方法
CN106682097A (zh) * 2016-12-01 2017-05-17 北京奇虎科技有限公司 一种处理日志数据的方法和装置
CN106776622A (zh) * 2015-11-20 2017-05-31 北京国双科技有限公司 访问日志的查询方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751248A (zh) * 2008-11-28 2010-06-23 国际商业机器公司 为Web应用设计时间敏感的性能测试用例的方法和系统
CN103178982A (zh) * 2011-12-23 2013-06-26 阿里巴巴集团控股有限公司 日志分析方法和装置
US9430501B1 (en) * 2012-12-31 2016-08-30 Emc Corporation Time sanitization of network logs from a geographically distributed computer system
CN104317811A (zh) * 2014-09-25 2015-01-28 小米科技有限责任公司 业务指标的统计方法、装置及服务器
CN106776622A (zh) * 2015-11-20 2017-05-31 北京国双科技有限公司 访问日志的查询方法和装置
CN106682097A (zh) * 2016-12-01 2017-05-17 北京奇虎科技有限公司 一种处理日志数据的方法和装置
CN106685984A (zh) * 2017-01-16 2017-05-17 东北大学 一种基于数据包捕获技术的网络威胁分析系统及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111367958A (zh) * 2019-11-19 2020-07-03 杭州海康威视系统技术有限公司 一种数据分析方法、装置、电子设备及存储介质
CN111367958B (zh) * 2019-11-19 2024-03-08 杭州海康威视系统技术有限公司 一种数据分析方法、装置、电子设备及存储介质
CN113342744A (zh) * 2021-06-02 2021-09-03 北京优特捷信息技术有限公司 调用链的并行构建方法、装置、设备及存储介质
CN113364863A (zh) * 2021-06-03 2021-09-07 上海微盟企业发展有限公司 一种行为数据会话id分配的方法、系统及设备
CN113364863B (zh) * 2021-06-03 2022-12-30 上海微盟企业发展有限公司 一种行为数据会话id分配的方法、系统及设备

Also Published As

Publication number Publication date
CN107688619B (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN110910982A (zh) 自编码模型训练方法、装置、设备及存储介质
CN107748782A (zh) 查询语句处理方法及装置
CN107688619A (zh) 一种日志数据处理方法及装置
CN108491991B (zh) 基于工业大数据产品工期的约束条件分析系统与方法
WO2020125929A1 (en) Apparatus and method for detecting an anomaly among successive events and computer program product therefor
CN112685215A (zh) 一种云平台异常日志分析方法
CN112506750A (zh) 一种用于海量日志分析预警的大数据处理系统
CN108228785A (zh) 设备参数的核查方法和核查装置
CN111078457A (zh) 一种基于大数据的存储故障分析方法与装置
CN110750299A (zh) 智能软件质量跟踪系统、方法及存储介质
CN113633296A (zh) 反应时间预测模型构建方法、装置、设备及可读存储介质
CN113421116A (zh) 用户召回分析方法、装置、设备及存储介质
CN111193631B (zh) 信息处理方法、系统和计算机可读存储介质
CN115271933B (zh) 贷款决策方法及装置、决策设备及计算机可读存储介质
CN111352820A (zh) 一种高性能应用运行状态预测和监控方法、设备和装置
CN114465875A (zh) 故障处理方法及装置
CN114238383A (zh) 一种用于供应链监控的大数据提取方法及装置
Jing et al. A microservice fault identification method based on LightGBM
CN114566964A (zh) 一种配电网馈线自动化控制方法、装置、设备及存储介质
CN113313615A (zh) 一种对企业司法风险进行量化评分定级的方法及装置
CN107402970A (zh) 信息生成方法及装置
CN113918636A (zh) 一种基于etl的数据处理量分析方法
CN113407495A (zh) 一种基于simhash的文件相似度判定方法及系统
CN113190844B (zh) 一种检测方法、相关方法及相关装置
CN111858270A (zh) 一种基于数据挖掘算法的联锁系统故障定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190328

Address after: 100015 15, 17 floor 1701-26, 3 building, 10 Jiuxianqiao Road, Chaoyang District, Beijing.

Applicant after: BEIJING QIANXIN TECHNOLOGY Co.,Ltd.

Applicant after: LEGENDSEC INFORMATION TECHNOLOGY (BEIJING) Inc.

Address before: 100015 15, 17 floor 1701-26, 3 building, 10 Jiuxianqiao Road, Chaoyang District, Beijing.

Applicant before: BEIJING QIANXIN TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100088 Building 3 332, 102, 28 Xinjiekouwai Street, Xicheng District, Beijing

Applicant after: Qianxin Technology Group Co.,Ltd.

Applicant after: LEGENDSEC INFORMATION TECHNOLOGY (BEIJING) Inc.

Address before: 100015 Jiuxianqiao Chaoyang District Beijing Road No. 10, building 15, floor 17, layer 1701-26, 3

Applicant before: BEIJING QIANXIN TECHNOLOGY Co.,Ltd.

Applicant before: LEGENDSEC INFORMATION TECHNOLOGY (BEIJING) Inc.

GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Room 332, 3 / F, Building 102, 28 xinjiekouwei street, Xicheng District, Beijing 100088

Patentee after: Qianxin Technology Group Co.,Ltd.

Patentee after: Qianxin Wangshen information technology (Beijing) Co.,Ltd.

Address before: Room 332, 3 / F, Building 102, 28 xinjiekouwei street, Xicheng District, Beijing 100088

Patentee before: Qianxin Technology Group Co.,Ltd.

Patentee before: LEGENDSEC INFORMATION TECHNOLOGY (BEIJING) Inc.