CN112988670A - 一种日志数据的处理方法和装置 - Google Patents

一种日志数据的处理方法和装置 Download PDF

Info

Publication number
CN112988670A
CN112988670A CN202110507995.0A CN202110507995A CN112988670A CN 112988670 A CN112988670 A CN 112988670A CN 202110507995 A CN202110507995 A CN 202110507995A CN 112988670 A CN112988670 A CN 112988670A
Authority
CN
China
Prior art keywords
data
log
log data
address
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110507995.0A
Other languages
English (en)
Other versions
CN112988670B (zh
Inventor
夏文昊
姜海昆
范宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changyang Technology Beijing Co ltd
Original Assignee
Changyang Tech Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changyang Tech Beijing Co ltd filed Critical Changyang Tech Beijing Co ltd
Priority to CN202110507995.0A priority Critical patent/CN112988670B/zh
Publication of CN112988670A publication Critical patent/CN112988670A/zh
Application granted granted Critical
Publication of CN112988670B publication Critical patent/CN112988670B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Library & Information Science (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种日志数据的处理方法和装置,该方法包括:接收终端设备发来的日志数据;其中,所述日志数据携带有该终端设备的IP地址;确定所述日志数据携带的IP地址是否为目标IP地址,如果是,则将该日志数据确定为合法日志数据;根据所述合法日志数据携带的IP地址,确定与所述合法日志数据对应的至少一个日志模板;利用确定出的至少一个日志模板对所述合法日志数据进行匹配解析。本发明的方案能够提高日志服务器对日志数据的解析速度。

Description

一种日志数据的处理方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及日志数据的处理方法和装置。
背景技术
在工控产品领域,各个厂商都有自己的系列产品,但是在此领域为重中之重的日志格式却没有一项统一的标准,这就导致不同的厂商有自己不同的标准。在接入其它厂商的产品时,每一次都需要对该产品进行功能开发,延长了产品的开发周期并造成了功能模块的严重耦合。
在需要对其它厂商的工控设备进行接入时候,通常采用日志模板技术,该技术的实现具体是预先定义日志模板,终端采集到数据之后,将日志数据与所有的日志模板进行数据匹配,若匹配成功则使用该模板对日志进行格式化并持久化存储。然而,日志模板技术虽然可以简化开发过程,但随着日志模板的日益增多,每一条日志数据都需要对所有的日志模板进行数据匹配,直到匹配到正确的日志模板。如此,在大数据量的采集中,可能会使日志服务器对日志数据的解析速度降低。
因此,针对以上不足,需要提供一种日志数据的处理方法和装置。
发明内容
本发明要解决的技术问题在于日志服务器对日志数据的解析速度降低,针对现有技术中的缺陷,提供一种日志数据的处理方法和装置。
为了解决上述技术问题,本发明提供了一种日志数据的处理方法,包括:
接收终端设备发来的日志数据;其中,所述日志数据携带有该终端设备的IP地址;
确定所述日志数据携带的IP地址是否为目标IP地址,如果是,则将该日志数据确定为合法日志数据;
根据所述合法日志数据携带的IP地址,确定与所述合法日志数据对应的至少一个日志模板;
利用确定出的至少一个日志模板对所述合法日志数据进行匹配解析。
在一种可能的实现方式中,所述目标IP地址是通过如下步骤确定的:
获取已经注册的终端设备的唯一标识信息;其中,所述唯一标识信息包括IP地址;
根据所述唯一标识信息包括的IP地址,确定与该唯一标识信息对应的终端设备是否受信任;
如果受信任,则将该终端设备的IP地址确定为目标IP地址。
在一种可能的实现方式中,所述确定所述日志数据携带的IP地址是否为目标IP地址,包括:
将受信任的终端设备的IP地址进行哈希计算,得到目标IP地址哈希值;
将所述日志数据携带的IP地址进行哈希计算,得到与所述日志数据对应的待比较IP地址哈希值;
确定所述待比较IP地址哈希值是否为所述目标IP地址哈希值。
在一种可能的实现方式中,所述对用于存储协议规则的内存进行初始化,得到预设数量的规则分组,包括:
根据预设的协议规则类型,对用于存储协议规则的内存进行初始化,得到预设数量的规则分组;其中,每一个规则分组对应至少一个协议规则类型,不同的规则分组所对应的协议规则类型不同。
在一种可能的实现方式中,所述利用确定出的至少一个日志模板对所述合法日志数据进行匹配解析,包括:
对确定出的至少一个日志模板进行降序排列;
将经降序排列后的至少一个日志模板按照由高至低的顺序依次对所述合法日志数据进行匹配解析。
在一种可能的实现方式中,所述对确定出的至少一个日志模板进行降序排列,包括:
针对每一个日志模板,计算该日志模板在开始对所述合法日志数据进行匹配解析后的预设时长内的数据解析量;
根据每一个日志模板对应的数据解析量,对确定出的至少一个日志模板进行降序排列;其中,高顺序的日志模板对应的数据解析量大于低顺序的日志模板对应的数据解析量。
在一种可能的实现方式中,在所述利用确定出的至少一个日志模板对所述合法日志数据进行匹配解析之后,进一步包括:
在匹配解析成功后,得到对应不同类型的解析结果;其中,每一种类型的解析结果以队列的形式存在;
当所述队列包含的解析结果的数量达到预设的数量阈值或所述解析结果在所述队列中占用的时长达到预设的时长阈值时,将该队列包含的解析结果进行存储。
在一种可能的实现方式中,在所述利用确定出的至少一个日志模板对所述合法日志数据进行匹配解析之后,进一步包括:
根据匹配解析成功后的结果,确定待检测用户的待检测数据和历史数据;其中,所述待检测用户的待检测数据和历史数据均包括用户行为数据,所述历史数据为在所述待检测数据产生的时间点之前的预设时长的数据;
根据所述待检测用户的待检测数据和历史数据包括的用户行为数据,判断所述待检测用户的行为类型是否发生变化;
如果所述待检测用户的行为类型发生变化,则将所述待检测用户确定为异常用户。
本发明还提供了一种日志数据的处理装置,包括:
接收模块,用于接收终端设备发来的日志数据;其中,所述日志数据携带有该终端设备的IP地址;
第一确定模块,用于确定所述日志数据携带的IP地址是否为目标IP地址,如果是,则将该日志数据确定为合法日志数据;
第二确定模块,用于根据所述合法日志数据携带的IP地址,确定与所述合法日志数据对应的至少一个日志模板;
匹配解析模块,用于利用确定出的至少一个日志模板对所述合法日志数据进行匹配解析。
本发明还提供了一种日志数据的处理装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行如上述所述的方法。
本发明还提供了一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行如上述所述的方法。
实施本发明的日志数据的处理方法和装置,具有以下有益效果:
本发明所提供的技术方案,通过日志数据携带的IP地址是否为目标IP地址,可以对接收的日志数据进行初次鉴别,将非法数据优先剔除,减少无效解析次数,提高了日志服务器对日志数据的解析速度;然后通过利用合法日志数据携带的IP地址确定与合法日志数据对应的至少一个日志模板,可以进一步提高日志服务器对日志数据的解析速度。
附图说明
图1是本发明一个实施例提供的日志数据的处理方法的流程图;
图2是本发明另一个实施例提供的日志数据的处理方法的流程图;
图3是本发明一个实施例提供的日志数据的处理装置的示意图;
图4是本发明一个实施例提供的日志数据的处理装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1示出根据一个实施例的日志数据的处理方法的流程图。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。下面以该方法通过日志服务器来执行进行说明。
参见图1,该方法包括:
步骤101:接收终端设备发来的日志数据。
在一些实施方式中,日志数据携带有该终端设备的IP地址。日志服务器所支持的终端设备可以向日志服务器上传原始日志数据,日志服务器所支持的终端设备的日志源可以为应用程序、数据库、操作系统、或者诸如防火墙、路由器、或交换机等网络设备。终端设备与日志服务器可以基于UDP/TCP协议进行通信。在TCP/IP网络体系结构中,TCP(传输控制协议,Transport Control Protocol)、UDP(用户数据报协议,User Data Protocol)是传输层最重要的两种协议,为上层用户提供级别的通信可靠性。
在本申请实施例中,目标终端设备可以使用任意采集方式采集自身的原始日志数据并上传至日志服务器,该采集方式例如包括但不限于使用Kafka协议的采集方式、使用Syslog协议的采集方式等。
Kafka协议是基于TCP的二进制协议,该协议定义了所有API的请求及响应消息。所有消息都是通过长度来分隔,并且由后面描述的基本类型组成。Kafka协议更多介绍详见相关技术。
而Syslog协议广泛应用于系统日志,此外任何需要记录和发送日志的场景,都可以使用Syslog协议。终端设备产生的Syslog日志数据既可以记录在终端设备的本地文件中,也可以通过网络发送到接收Syslog日志数据的日志服务器。在诸如网络管理工具、安全管理系统、日志审计系统等较为常见的应用场景中,日志服务器可以接收多个终端设备产生的Syslog日志数据并进行统一的存储,或者解析其中的内容做相应的处理。
步骤102:确定日志数据携带的IP地址是否为目标IP地址,如果是,则将该日志数据确定为合法日志数据。
由于日志服务器在接收终端设备发来的日志数据时,存在一些终端设备不是该日志服务器想要解析的,因此这些日志数据包括合法日志数据(即该日志服务器想要解析的日志数据)和非法日志数据(即该日志服务器不想要解析的)。为了提高日志服务器对日志数据的解析速度,有必要对日志服务器接收的日志数据进行鉴别。
在一些实施方式中,目标IP地址是通过如下步骤确定的:
获取已经注册的终端设备的唯一标识信息;其中,唯一标识信息包括IP地址;
根据唯一标识信息包括的IP地址,确定与该唯一标识信息对应的终端设备是否受信任;
如果受信任,则将该终端设备的IP地址确定为目标IP地址。
在本实施例中,通过事先在日志服务器注册终端设备的唯一标识信息,然后根据唯一标识信息包括的IP地址,来确定该终端设备是否受信任,如果受信任,则将该终端设备的IP地址确定为目标IP地址。也就是说,由IP地址为目标IP地址的终端设备发来的日志数据是日志服务器想要解析的。
进一步地,唯一标识信息还可以包括开放端口号,通过IP地址和开放端口号来访问该终端设备,如果能够访问则可以确定该终端设备是可以访问的。
在一些实施方式中,步骤102具体可以包括如下步骤:
将受信任的终端设备的IP地址进行哈希计算,得到目标IP地址哈希值;
将日志数据携带的IP地址进行哈希计算,得到与日志数据对应的待比较IP地址哈希值;
确定待比较IP地址哈希值是否为目标IP地址哈希值。
在本实施例中,在终端设备向日志服务器发送日志数据时,可能会受到非法设备的侵入,如此可能会将日志数据携带的IP地址进行篡改,从而将本来为受信任的终端设备的IP地址篡改为不受信任的状态,导致日志服务器不会对该日志数据进行解析。为了避免出现这种情况,有必要对日志数据携带的IP地址进行加密处理,例如采用哈希计算,同时日志服务器也对事先注册好的IP地址按照相同的哈希加密算法进行计算,因此通过对IP地址的哈希值校验可以大大增加对日志数据的可信性。
步骤103:根据合法日志数据携带的IP地址,确定与合法日志数据对应的至少一个日志模板。
在步骤103中,为了使得日志服务器能够应对不同终端设备采用不同数据格式记录日志正文内容的情形,可以预先在日志服务器中存储日志服务器所支持的日志模板以及在日志服务器中预先创建好日志模板和终端设备类型(例如利用IP地址的分类来表征终端设备的类型)的对应关系,以便在识别出合法日志数据之后,基于IP地址和上述对应关系,确定与合法日志数据对应的至少一个日志模板。由此,日志服务器可以不用对存储在日志服务器中所有的日志模板进行逐一匹配,这有利于提高日志服务器对日志数据的解析速度。
步骤104:利用确定出的至少一个日志模板对合法日志数据进行匹配解析。
虽然上述利用IP地址对日志数据进行鉴别以及利用IP地址查找对应的日志模板的方案可以有效提高了日志服务器对日志数据的解析速度,但是在大数据量的接收与解析的状况下,日志数据与日志模板的匹配效率也将会成为性能瓶颈。
为了解决该技术问题,在一些实施方式中,步骤104具体包括如下步骤:
对确定出的至少一个日志模板进行降序排列;
将经降序排列后的至少一个日志模板按照由高至低的顺序依次对合法日志数据进行匹配解析。
在本实施例中,通过对确定出的至少一个日志模板进行降序排列,有利于提高日志数据与日志模板的匹配效率。
在一些实施方式中,步骤104中的对确定出的至少一个日志模板进行降序排列,具体包括如下步骤:
针对每一个日志模板,计算该日志模板在开始对合法日志数据进行匹配解析后的预设时长内的数据解析量;
根据每一个日志模板对应的数据解析量,对确定出的至少一个日志模板进行降序排列;其中,高顺序的日志模板对应的数据解析量大于低顺序的日志模板对应的数据解析量。
在本实施例中,通过利用数据解析量对于合法日志数据对应的至少一个日志模板进行降序排列,日志模板按照高低顺序依次与合法日志数据进行匹配解析,在大数据量的采集过程中可以做到不必比较所有对应的日志模板,理论上而言,最少只需一次便可匹配成功。
举例来说,终端设备向日志服务器发来的时刻为第一时刻,当前时刻为第二时刻,计算第一时刻和第二时刻之间的每一个确定出的日志模板的数据解析量,例如A日志模板的数据解析量为10条,B日志模板的数据解析量为8条,C日志模板的数据解析量为11条,则按照降序排列依次为:C日志模板、A日志模板、B日志模板。
可见,在上述图1所示过程中,通过日志数据携带的IP地址是否为目标IP地址,可以对接收的日志数据进行初次鉴别,将非法数据优先剔除,减少无效解析次数,提高了日志服务器对日志数据的解析速度;然后通过利用合法日志数据携带的IP地址确定与合法日志数据对应的至少一个日志模板,可以进一步提高日志服务器对日志数据的解析速度。
在一些实施例中,在步骤104之后,上述方法还包括如下步骤:
在匹配解析成功后,得到对应不同类型的解析结果;其中,每一种类型的解析结果以队列的形式存在;
当队列包含的解析结果的数量达到预设的数量阈值或解析结果在队列中占用的时长达到预设的时长阈值时,将该队列包含的解析结果进行存储。
在本实施例中,日志数据格式化为对象后将存入不同的队列中,每一个队列对应一个种类的数据插入,当数据的存储的队列到达一定的数量级或者一个规定的时间节点,则将这个队列中的数据批量插入数据库中保存,采取批处理数据插入的方案,可以提高数据库的输入输出效率。
当对日志数据进行解析成功后,可以利用日志服务器对解析结果进行分析,以筛选出异常用户。在相关技术中,企业一般在终端设备上安装有用于检测用户异常行为的软件,这种软件虽然内置了一些基于规则、签名的检测手段,也收集了大量的终端日志数据,但异常用户行为检测的准确度依然不高。
为了解决该技术问题,在一些实施例中,在步骤104之后,上述方法还包括如下步骤:
步骤S1:根据匹配解析成功后的结果,确定待检测用户的待检测数据和历史数据。
在步骤S1中,待检测用户的待检测数据和历史数据均包括用户行为数据,历史数据为在待检测数据产生的时间点之前的预设时长的数据。发送日志数据的终端设备可以是移动终端也可以是电脑终端。
例如,该终端设备为移动终端时,可以通过动态监听模块对用户的系统行为、短信、通话、网络情况和位置信息进行监听,以获取用户的行为数据信息。例如,可以借助于Android系统的Framework中的一个重要基类Broadcast Receiver来实现。BroadcastReceiver是Android系统中用来监听广播的组件,在系统没有被破坏的情况下,只有通过Broadcast Receiver才能对触发事件的Intent进行回应调用相关的组件,所以只要对Broadcast Receiver进行监听就可以得知调用组件情况。动态监听模块主要对短信、通话、位置信息与网络情况等进行监控。
再例如,该终端设备为电脑终端时,在Windows系统中,使用电脑进行登录,电脑自身会记录日志,可以通过查看记录的日志查看电脑登录记录。在Windows中可以使用事件查看器来查看网络访问日志,并可以结合日志ID进行日志筛选,一般情况下,事件查看器的位置在C:\WINDOWS\system32,名字为eventvwr.msc。
步骤S2:根据待检测用户的待检测数据和历史数据包括的用户行为数据,判断待检测用户的行为类型是否发生变化。
由于异常用户的用户行为数据会有所不同,因此通过根据用户行为数据可以判断待检测用户的行为类型是否发生变化,进而可以确定待检测用户是否为异常用户。
在一些实施方式中,步骤S2具体包括如下步骤:
步骤S21:按照预设的时间间隔对待检测用户的历史数据包括的用户行为数据进行划分,得到多个短序列。
在本步骤中,根据获取的用户行为数据,选取预设的时间间隔θ,当业务发生变化时,各行为之间的时间间隔会大于阈值θ,据此便可将用户行为数据划分为多个短序列。这样,以行为类型为基本元素,进而降低因序列扰动造成检测准确率低的问题。
步骤S22:对得到的多个短序列进行聚类处理并按照时间顺序排列,得到用户行为序列。
在本步骤中,例如可以对划分出来的短序列,利用莱温斯坦比相似度和KMeans聚类,将相似的短序列聚类到同一行为类型中。
步骤S23:将得到的用户行为序列作为输入,输入到预先构建好的行为预测模型中,输出预测行为类型和该预测行为类型的概率。
在本步骤中,行为预测模型是通过如下方式进行构建的:
步骤A1:获取多个用户的第一用户数据。
在本步骤中,每一个用户的第一用户数据包括该用户的位于第一时间段内的用户行为数据。
步骤A2:针对每一个用户,均执行如下操作:按照预设的时间间隔对该用户的第一用户数据包括的用户行为数据进行划分,得到多个短序列;对得到的多个短序列进行聚类处理并按照时间顺序排列,得到用户行为序列;对得到的用户行为序列中的每一类别的短序列进行行为类型映射,得到用户业务行为序列。
在本步骤中,用户业务行为序列可表示为
Figure 596935DEST_PATH_IMAGE001
,其中bi表示用户 在第i时刻的短序列所对应的行为类型。将各短序列对应的行为类型按时间顺序排列,即得 到用户业务行为序列。
步骤A3:将各用户的用户业务行为序列作为输入,输入到基于粒子群算法的GRU模型中进行训练,以构建出行为预测模型。
在本步骤中,GRU模型的网络结构中通过更新门zt和重置门rt实现对输入信息以 及上一时刻隐含层状态信息的保留和更新。隐含层状态可表示为
Figure 248497DEST_PATH_IMAGE002
,其中
Figure 824971DEST_PATH_IMAGE003
为时刻t隐含层的激活状态,它是由上一个隐含层数 据经过重置门处理后与当前输入结合通过Tanh激活函数得到的,
Figure 297146DEST_PATH_IMAGE004
。重置门可表示为
Figure 970573DEST_PATH_IMAGE005
,更新门可表示为
Figure 261877DEST_PATH_IMAGE006
,其中
Figure 856806DEST_PATH_IMAGE007
为 sigmoid函数,可以将
Figure 790127DEST_PATH_IMAGE008
Figure 177115DEST_PATH_IMAGE009
限制在0和1之间。模型的输出为
Figure 232796DEST_PATH_IMAGE010
可知
Figure 49442DEST_PATH_IMAGE011
为GRU神经网络模型需要训 练的权值。与传统的随机梯度下降法相比,本发明利用可实现全局优化的粒子群算法(例如 PSO算法)对GRU神经网络进行优化,PSO算法是进化算法的一种,通过种群进化的方式,以输 出误差作为目标函数,迭代取得最优解,实现全局寻优。本发明将GRU神经网络的权值作为 一个粒子的属性,通过粒子群的共同寻优对最优粒子进行更新,最后将最优粒子的值赋予 各个权值,就得到了所需要的权值。
在一些实施方式中,预设的概率差值是通过如下方式确定的:
步骤B1:获取多个用户的第二用户数据。
在本步骤中,每一个用户的第二用户数据包括该用户的位于第二时间段内的用户行为数据,第二时间段与第一时间段相邻且位于第一时间段之后。例如,选取用户前200天(即第一时间段)的行为数据作为训练数据(即第一用户数据),后100天(即第二时间段)为测试数据(即第二用户数据)。利用正常用户行为历史数据(即第一时间段的第一用户数据)进行模型训练,得到最优权值并保存模型。
步骤B2:针对每一个用户,均执行如下操作:对该用户的第二用户数据进行分析,确定该用户的第二用户数据对应的实际行为类型和该实际行为类型的概率。
在本步骤中,利用预设的行为概率分析算法对该用户的第二用户数据进行分析,确定该用户的第二用户数据对应的实际行为类型和该实际行为类型的概率。在此对行为概率分析算法不进行具体限定。
步骤B3:将由各用户的第一用户数据得到的用户行为序列作为输入,输入到构建好的行为预测模型中,输出预测行为类型和该预测行为类型的概率。
步骤B4:将各用户的第二用户数据对应的实际行为类型的概率和各用户的第一用户数据对应的预测行为类型的概率的差值的绝对值之和的平均值作为预设的概率差值。
在本步骤中,通过利用第一用户数据和第二用户数据确定预设的概率差值,可以在进行异常用户行为检测时,只需将待测行为和预测行为概率差和该预设的概率差值进行对比,即可完成异常用户行为的检测。
步骤S24:对待检测用户的待检测数据包括的用户行为数据进行分析,确定待检测用户的待检测数据对应的实际行为类型和该实际行为类型的概率。
在本步骤中,利用预设的行为概率分析算法对对待检测用户的待检测数据包括的用户行为数据进行分析,确定待检测用户的待检测数据包括的用户行为数据对应的实际行为类型和该实际行为类型的概率。在此对行为概率分析算法不进行具体限定。
步骤S25:根据预测行为类型的概率和实际行为类型的概率之差与预设的概率差值,判断待检测用户的行为类型是否发生变化。
在本步骤中,如果预测行为类型的概率小于实际行为类型的概率之差,或预测行为类型和实际行为类型相同,则可以判定待检测用户的行为类型未发生变化,否则可以判定待检测用户的行为类型发生变化,即该待检测用户是存在异常表现的。
步骤S26:如果待检测用户的行为类型发生变化,则将待检测用户确定为异常用户。
在本实施例中,上述技术方案根据待检测用户的行为类型变化来判断待检测用户是否为异常用户,如此可以达到对数据有效利用和对异常用户有效检测的目的,并可以有效地帮助安全管理人员把握企业内部人员的行为特征和安全态势,以便进行响应处置,从而可以提高企业内部的异常用户行为检测的准确度。
图2示出根据另一个实施例的日志数据的处理方法的流程图。参见图2,该方法包括:
步骤201:接收终端设备发来的日志数据。
步骤202:确定日志数据携带的IP地址是否为目标IP地址,如果是,则将该日志数据确定为合法日志数据。
步骤203:根据合法日志数据携带的IP地址,确定与合法日志数据对应的至少一个日志模板。
步骤204:针对每一个日志模板,计算该日志模板在开始对合法日志数据进行匹配解析后的预设时长内的数据解析量。
步骤205:根据每一个日志模板对应的数据解析量,对确定出的至少一个日志模板进行降序排列。
步骤206:将经降序排列后的至少一个日志模板按照由高至低的顺序依次对合法日志数据进行匹配解析。
步骤207:根据匹配解析成功后的结果,确定待检测用户的待检测数据和历史数据。
步骤208:根据待检测用户的待检测数据和历史数据包括的用户行为数据,判断待检测用户的行为类型是否发生变化。
步骤209:如果待检测用户的行为类型发生变化,则将待检测用户确定为异常用户。
如图3和图4所示,本发明实施例提供了一种日志数据的处理装置和日志数据的处理装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图3所示,为本发明实施例提供的日志数据的处理装置的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其它硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图4所示,作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。
如图4所示,本实施例提供的日志数据的处理装置,包括:
接收模块401,用于接收终端设备发来的日志数据;其中,所述日志数据携带有该终端设备的IP地址;
第一确定模块402,用于确定所述日志数据携带的IP地址是否为目标IP地址,如果是,则将该日志数据确定为合法日志数据;
第二确定模块403,用于根据所述合法日志数据携带的IP地址,确定与所述合法日志数据对应的至少一个日志模板;
匹配解析模块404,用于利用确定出的至少一个日志模板对所述合法日志数据进行匹配解析。
在本发明实施例中,接收模块401可用于执行上述方法实施例中的步骤101,第一确定模块402可用于执行上述方法实施例中的步骤102,第二确定模块403可用于执行上述方法实施例中的步骤103,匹配解析模块404可用于执行上述方法实施例中的步骤104。
在本发明的一个实施例中,所述目标IP地址是通过如下步骤确定的:
获取已经注册的终端设备的唯一标识信息;其中,所述唯一标识信息包括IP地址;
根据所述唯一标识信息包括的IP地址,确定与该唯一标识信息对应的终端设备是否受信任;
如果受信任,则将该终端设备的IP地址确定为目标IP地址。
在本发明的一个实施例中,第一确定模块402,用于执行如下操作:
将受信任的终端设备的IP地址进行哈希计算,得到目标IP地址哈希值;
将所述日志数据携带的IP地址进行哈希计算,得到与所述日志数据对应的待比较IP地址哈希值;
确定所述待比较IP地址哈希值是否为所述目标IP地址哈希值。
在本发明的一个实施例中,匹配解析模块404,用于执行如下操作:
对确定出的至少一个日志模板进行降序排列;
将经降序排列后的至少一个日志模板按照由高至低的顺序依次对所述合法日志数据进行匹配解析。
在本发明的一个实施例中,匹配解析模块404在执行所述对确定出的至少一个日志模板进行降序排列时,用于执行如下操作:
针对每一个日志模板,计算该日志模板在开始对所述合法日志数据进行匹配解析后的预设时长内的数据解析量;
根据每一个日志模板对应的数据解析量,对确定出的至少一个日志模板进行降序排列;其中,高顺序的日志模板对应的数据解析量大于低顺序的日志模板对应的数据解析量。
在本发明的一个实施例中,进一步包括:存储模块;
所述存储模块,用于执行如下操作:
在匹配解析成功后,得到对应不同类型的解析结果;其中,每一种类型的解析结果以队列的形式存在;
当所述队列包含的解析结果的数量达到预设的数量阈值或所述解析结果在所述队列中占用的时长达到预设的时长阈值时,将该队列包含的解析结果进行存储。
在本发明的一个实施例中,进一步包括:异常用户检测模块;
所述异常用户检测模块,用于执行如下操作:
根据匹配解析成功后的结果,确定待检测用户的待检测数据和历史数据;其中,所述待检测用户的待检测数据和历史数据均包括用户行为数据,所述历史数据为在所述待检测数据产生的时间点之前的预设时长的数据;
根据所述待检测用户的待检测数据和历史数据包括的用户行为数据,判断所述待检测用户的行为类型是否发生变化;
如果所述待检测用户的行为类型发生变化,则将所述待检测用户确定为异常用户。
在本发明的一个实施例中,所述异常用户检测模块在执行所述根据所述待检测用户的待检测数据和历史数据包括的用户行为数据,判断所述待检测用户的行为类型是否发生变化,用于执行如下操作:
按照预设的时间间隔对待检测用户的历史数据包括的用户行为数据进行划分,得到多个短序列;
对得到的多个短序列进行聚类处理并按照时间顺序排列,得到用户行为序列;
将得到的用户行为序列作为输入,输入到预先构建好的行为预测模型中,输出预测行为类型和该预测行为类型的概率;
对待检测用户的待检测数据包括的用户行为数据进行分析,确定待检测用户的待检测数据对应的实际行为类型和该实际行为类型的概率;
根据预测行为类型的概率和实际行为类型的概率之差与预设的概率差值,判断待检测用户的行为类型是否发生变化。
在本发明的一个实施例中,行为预测模型是通过如下方式进行构建的:
获取多个用户的第一用户数据;其中,每一个用户的第一用户数据包括该用户的位于第一时间段内的用户行为数据;
针对每一个用户,均执行如下操作:按照预设的时间间隔对该用户的第一用户数据包括的用户行为数据进行划分,得到多个短序列;对得到的多个短序列进行聚类处理并按照时间顺序排列,得到用户行为序列;对得到的用户行为序列中的每一类别的短序列进行行为类型映射,得到用户业务行为序列;
将各用户的用户业务行为序列作为输入,输入到基于粒子群算法的GRU模型中进行训练,以构建出行为预测模型。
在本发明的一个实施例中,预设的概率差值是通过如下方式确定的:
获取多个用户的第二用户数据;其中,每一个用户的第二用户数据包括该用户的位于第二时间段内的用户行为数据,第二时间段与第一时间段相邻且位于第一时间段之后;
针对每一个用户,均执行如下操作:对该用户的第二用户数据进行分析,确定该用户的第二用户数据对应的实际行为类型和该实际行为类型的概率;
将由各用户的第一用户数据得到的用户行为序列作为输入,输入到构建好的行为预测模型中,输出预测行为类型和该预测行为类型的概率;
将各用户的第二用户数据对应的实际行为类型的概率和各用户的第一用户数据对应的预测行为类型的概率的差值的绝对值之和的平均值作为预设的概率差值。
可以理解的是,本发明实施例示意的结构并不构成对日志数据的处理装置的具体限定。在本发明的另一些实施例中,日志数据的处理装置可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
上述装置内的各模块之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例还提供了一种日志数据的处理装置,包括:至少一个存储器和至少一个处理器;
至少一个存储器,用于存储机器可读程序;
至少一个处理器,用于调用机器可读程序,执行本发明任一实施例中的日志数据的处理方法。
本发明实施例还提供了一种计算机可读介质,存储用于使一计算机执行如本文的日志数据的处理方法的指令。具体地,可以提供配有存储介质的方法或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该方法或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作方法等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修复,或者对其中部分技术特征进行等同替换;而这些修复或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种日志数据的处理方法,其特征在于,包括:
接收终端设备发来的日志数据;其中,所述日志数据携带有该终端设备的IP地址;
确定所述日志数据携带的IP地址是否为目标IP地址,如果是,则将该日志数据确定为合法日志数据;
根据所述合法日志数据携带的IP地址,确定与所述合法日志数据对应的至少一个日志模板;
利用确定出的至少一个日志模板对所述合法日志数据进行匹配解析。
2.根据权利要求1所述的方法,其特征在于,所述目标IP地址是通过如下步骤确定的:
获取已经注册的终端设备的唯一标识信息;其中,所述唯一标识信息包括IP地址;
根据所述唯一标识信息包括的IP地址,确定与该唯一标识信息对应的终端设备是否受信任;
如果受信任,则将该终端设备的IP地址确定为目标IP地址。
3.根据权利要求2所述的方法,其特征在于,所述确定所述日志数据携带的IP地址是否为目标IP地址,包括:
将受信任的终端设备的IP地址进行哈希计算,得到目标IP地址哈希值;
将所述日志数据携带的IP地址进行哈希计算,得到与所述日志数据对应的待比较IP地址哈希值;
确定所述待比较IP地址哈希值是否为所述目标IP地址哈希值。
4.根据权利要求1所述的方法,其特征在于,所述利用确定出的至少一个日志模板对所述合法日志数据进行匹配解析,包括:
对确定出的至少一个日志模板进行降序排列;
将经降序排列后的至少一个日志模板按照由高至低的顺序依次对所述合法日志数据进行匹配解析;
其中,所述对确定出的至少一个日志模板进行降序排列,包括:
针对每一个日志模板,计算该日志模板在开始对所述合法日志数据进行匹配解析后的预设时长内的数据解析量;
根据每一个日志模板对应的数据解析量,对确定出的至少一个日志模板进行降序排列;其中,高顺序的日志模板对应的数据解析量大于低顺序的日志模板对应的数据解析量。
5.根据权利要求1-4中任一项所述的方法,其特征在于,在所述利用确定出的至少一个日志模板对所述合法日志数据进行匹配解析之后,进一步包括:
在匹配解析成功后,得到对应不同类型的解析结果;其中,每一种类型的解析结果以队列的形式存在;
当所述队列包含的解析结果的数量达到预设的数量阈值或所述解析结果在所述队列中占用的时长达到预设的时长阈值时,将该队列包含的解析结果进行存储。
6.根据权利要求1-4中任一项所述的方法,其特征在于,在所述利用确定出的至少一个日志模板对所述合法日志数据进行匹配解析之后,进一步包括:
根据匹配解析成功后的结果,确定待检测用户的待检测数据和历史数据;其中,所述待检测用户的待检测数据和历史数据均包括用户行为数据,所述历史数据为在所述待检测数据产生的时间点之前的预设时长的数据;
根据所述待检测用户的待检测数据和历史数据包括的用户行为数据,判断所述待检测用户的行为类型是否发生变化;
如果所述待检测用户的行为类型发生变化,则将所述待检测用户确定为异常用户。
7.一种日志数据的处理装置,其特征在于,包括:
接收模块,用于接收终端设备发来的日志数据;其中,所述日志数据携带有该终端设备的IP地址;
第一确定模块,用于确定所述日志数据携带的IP地址是否为目标IP地址,如果是,则将该日志数据确定为合法日志数据;
第二确定模块,用于根据所述合法日志数据携带的IP地址,确定与所述合法日志数据对应的至少一个日志模板;
匹配解析模块,用于利用确定出的至少一个日志模板对所述合法日志数据进行匹配解析。
8.一种日志数据的处理装置,其特征在于,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行权利要求1-6中任一项所述的方法。
9.一种计算机可读介质,其特征在于,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行权利要求1-6中任一项所述的方法。
CN202110507995.0A 2021-05-11 2021-05-11 一种日志数据的处理方法和装置 Active CN112988670B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110507995.0A CN112988670B (zh) 2021-05-11 2021-05-11 一种日志数据的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110507995.0A CN112988670B (zh) 2021-05-11 2021-05-11 一种日志数据的处理方法和装置

Publications (2)

Publication Number Publication Date
CN112988670A true CN112988670A (zh) 2021-06-18
CN112988670B CN112988670B (zh) 2021-08-24

Family

ID=76337478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110507995.0A Active CN112988670B (zh) 2021-05-11 2021-05-11 一种日志数据的处理方法和装置

Country Status (1)

Country Link
CN (1) CN112988670B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806321A (zh) * 2021-09-02 2021-12-17 北京天融信网络安全技术有限公司 一种日志处理方法及系统
CN115150166A (zh) * 2022-06-30 2022-10-04 广东电网有限责任公司 一种日志收集与分析管理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070099657A1 (en) * 2005-11-01 2007-05-03 Research In Motion Limited System and method for collecting and presenting records in a journal on an electronic device
CN102158748A (zh) * 2010-05-14 2011-08-17 青岛海信传媒网络技术有限公司 一种日志收集与上传方法及系统
CN106656607A (zh) * 2016-12-27 2017-05-10 上海爱数信息技术股份有限公司 设备日志解析方法、系统及具有该系统的服务器端
CN108989150A (zh) * 2018-07-19 2018-12-11 新华三信息安全技术有限公司 一种登录异常检测方法及装置
CN112764747A (zh) * 2019-11-05 2021-05-07 广州凡科互联网科技股份有限公司 一种其他类页面展示模板的排序方式

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070099657A1 (en) * 2005-11-01 2007-05-03 Research In Motion Limited System and method for collecting and presenting records in a journal on an electronic device
CN102158748A (zh) * 2010-05-14 2011-08-17 青岛海信传媒网络技术有限公司 一种日志收集与上传方法及系统
CN106656607A (zh) * 2016-12-27 2017-05-10 上海爱数信息技术股份有限公司 设备日志解析方法、系统及具有该系统的服务器端
CN108989150A (zh) * 2018-07-19 2018-12-11 新华三信息安全技术有限公司 一种登录异常检测方法及装置
CN112764747A (zh) * 2019-11-05 2021-05-07 广州凡科互联网科技股份有限公司 一种其他类页面展示模板的排序方式

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806321A (zh) * 2021-09-02 2021-12-17 北京天融信网络安全技术有限公司 一种日志处理方法及系统
CN113806321B (zh) * 2021-09-02 2023-11-10 北京天融信网络安全技术有限公司 一种日志处理方法及系统
CN115150166A (zh) * 2022-06-30 2022-10-04 广东电网有限责任公司 一种日志收集与分析管理系统
CN115150166B (zh) * 2022-06-30 2024-03-12 广东电网有限责任公司 一种日志收集与分析管理系统

Also Published As

Publication number Publication date
CN112988670B (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
US11985169B2 (en) Classification of unknown network traffic
Viegas et al. BigFlow: Real-time and reliable anomaly-based intrusion detection for high-speed networks
CN112417439A (zh) 账号检测方法、装置、服务器及存储介质
CN112988670B (zh) 一种日志数据的处理方法和装置
US9298913B2 (en) Method of detecting intrusion based on improved support vector machine
US11475368B2 (en) Machine learning model abstraction layer for runtime efficiency
US20230418943A1 (en) Method and device for image-based malware detection, and artificial intelligence-based endpoint detection and response system using same
CN116303290B (zh) 一种office文档检测方法及装置、设备及介质
CN114679292B (zh) 基于网络空间测绘的蜜罐识别方法、装置、设备及介质
CN112272186A (zh) 一种网络流量检测框架、方法及电子设备和存储介质
US20210357194A1 (en) Compiling domain-specific language code to generate executable code targeting an appropriate type of processor of a network device
WO2024007615A1 (zh) 模型训练方法、装置及相关设备
CN111935185B (zh) 基于云计算构建大规模诱捕场景的方法及系统
CN115550049A (zh) 一种物联网设备的漏洞检测方法及系统
CN111614507A (zh) 一种网络协议特征识别方法
Ravi Kiran Varma et al. Enhanced Elman spike neural network based intrusion attack detection in software defined Internet of Things network
US11496394B2 (en) Internet of things (IoT) device identification on corporate networks via adaptive feature set to balance computational complexity and model bias
CN112699369A (zh) 一种通过栈回溯检测异常登录的方法及装置
CN112436969A (zh) 一种物联网设备管理方法、系统、设备及介质
CN114205146B (zh) 一种多源异构安全日志的处理方法及装置
CN111224890A (zh) 一种云平台的流量分类方法、系统及相关设备
KR20230156262A (ko) 기계 학습 기반 멀웨어 검출을 위한 시스템 및 방법
CN111314326A (zh) Http漏洞扫描主机的确认方法、装置、设备及介质
CN116260643A (zh) 一种物联网web服务的安全测试方法、装置及设备
CN115333848A (zh) 容器云平台网络安全防护方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 01, floor 1, building 104, No. 3 minzhuang Road, Haidian District, Beijing 100195

Patentee after: Changyang Technology (Beijing) Co.,Ltd.

Address before: 100195 room 01, 2 / F, building 103, 3 minzhuang Road, Haidian District, Beijing

Patentee before: CHANGYANG TECH (BEIJING) Co.,Ltd.