CN111866016B - 日志的分析方法及系统 - Google Patents

日志的分析方法及系统 Download PDF

Info

Publication number
CN111866016B
CN111866016B CN202010746175.2A CN202010746175A CN111866016B CN 111866016 B CN111866016 B CN 111866016B CN 202010746175 A CN202010746175 A CN 202010746175A CN 111866016 B CN111866016 B CN 111866016B
Authority
CN
China
Prior art keywords
operator
log file
alarm rule
log
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010746175.2A
Other languages
English (en)
Other versions
CN111866016A (zh
Inventor
卿哲嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202010746175.2A priority Critical patent/CN111866016B/zh
Publication of CN111866016A publication Critical patent/CN111866016A/zh
Application granted granted Critical
Publication of CN111866016B publication Critical patent/CN111866016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1491Countermeasures against malicious traffic using deception as countermeasure, e.g. honeypots, honeynets, decoys or entrapment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及日志监控领域,提供一种日志的分析方法,包括步骤:根据预设的采集代理获取待监测系统的至少一个日志文件,其中,每个日志文件包括对应的操作人ID;将所述日志文件发送给预设的服务器,并对所述日志文件进行分片存储;对每个日志文件进行字段解析,得到每个日志文件中的多个目标字段值,并根据多个目标字段值判断与每个日志文件对应的操作人ID是否符合预设的告警规则,其中,所述告警规则包括第一告警规则、第二告警规则和第三告警规则;当所述操作人ID符合所述告警规则时,发送相应的告警信息给风控平台,以使所述风控平台对所述操作人ID执行阻断操作。通过本发明实施例,能够对外网环境的爬虫行为进行实时监测和阻断。

Description

日志的分析方法及系统
技术领域
本发明实施例涉及日志监控领域,尤其涉及一种日志的分析方法、系统、计算机设备及存储介质。
背景技术
现有的业务系统中,需要给公司的合作伙伴、业务员和供应商等开通拥有业务系统权限的账号,但是由于这些账号通过外网登录,无法对其进行实时监控。若外网的账号通过爬虫爬取业务系统,现有技术无法对其实时进行监控,只能事后通过日志分析来识别外网账号的爬虫行为。即使发现进行中的爬虫行为,如果爬虫有维持会话功能,也无法及时遏止爬虫行为。
因此,本方案旨在解决现有技术中无法对外网环境的爬虫行为进行实时监测和阻断的问题。
发明内容
有鉴于此,本发明实施例提供了一种日志的分析方法、系统、计算机设备及计算机可读存储介质,能够对外网环境的爬虫行为进行实时监测和阻断。
本发明实施例是通过下述技术方案来解决上述技术问题:
一种日志的分析方法,包括:
根据预设的采集代理获取待监测系统的至少一个日志文件,其中,每个日志文件包括对应的操作人ID;
将所述日志文件发送给预设的服务器,并对所述日志文件进行分片存储;
对每个日志文件进行字段解析,得到每个日志文件中的多个目标字段值,并根据多个目标字段值判断与每个日志文件对应的操作人ID是否符合预设的告警规则,其中,所述告警规则包括第一告警规则、第二告警规则和第三告警规则;
当所述操作人ID符合所述告警规则时,发送相应的告警信息给风控平台,以使所述风控平台对所述操作人ID执行阻断操作。
进一步地,所述对每个日志文件进行字段解析,得到每个日志文件中的多个目标字段值,并根据多个目标字段值判断与每个日志文件对应的操作人ID是否符合预设的告警规则,包括:
根据字段提取器对每个日志文件中的字段进行提取,以得到多个目标字段值,其中,所述目标字段值的数据类型至少包括:源IP、请求时间、操作人ID和请求链接;
计算预设时间段内每个操作人ID的数量,并将每个操作人ID的数量与预设的阈值进行比较;
若目标操作人ID的数量大于所述阈值,则判断所述目标操作人ID符合所述第一告警规则。
进一步地,所述根据字段提取器对每个日志文件中的字段进行提取,以得到多个目标字段值之后,还包括:
将所述请求链接与预设的告警请求链接进行比对,若所述请求链接中存在与所述告警请求链接相同的目标请求链接,则判定与所述目标请求链接对应的目标操作人ID符合所述第二告警规则。
进一步地,所述根据字段提取器对每个日志文件中的字段进行提取,以得到多个目标字段值之后,还包括:
基于决策树算法、所述第一告警规则和所述第二告警规则建立安全模型;
根据符合所述第一告警规则或所述第二告警规则的字段值及预设的样本数据对所述安全模型进行训练,以调整所述安全模型的参数;
将所述多个目标字段值输入到所述安全模型中,以通过所述安全模型判断与所述多个目标字段值对应的目标操作人ID是否符合第三告警规则。
为了实现上述目的,本发明实施例还提供一种日志的分析系统,包括:
采集模块,用于根据预设的采集代理获取待监测系统的操作日志,以得到日志文件 ,其中,所述日志文件包括对应的操作人ID;
存储模块,用于将所述日志文件发送给预设的服务器,并对所述日志文件进行分片存储;
解析模块,用于对每个日志文件进行字段解析,得到每个日志文件中的多个目标字段值,并根据多个目标字段值判断与每个日志文件对应的操作人ID是否符合预设的告警规则,其中,所述告警规则包括第一告警规则、第二告警规则和第三告警规则;
阻断模块,用于当所述操作人ID符合所述告警规则时,发送相应的告警信息给预设的风控平台,以使所述风控平台对所述操作人ID执行阻断操作。
为了实现上述目的,本发明实施例还提供一种计算机设备,所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述日志的分析方法的步骤。
为了实现上述目的,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的日志的分析方法的步骤。
本发明实施例提供的日志的分析方法、系统、计算机设备及计算机可读存储介质,通过对待检测系统的日志进行解析,并判断操作人ID是否符合告警规则,当判断出所述操作人ID符合告警规则时,将告警信息发送给风控平台,使风控平台对操作人ID执行阻断操作。本发明实施例通过结合日志和风控平台,实现了对外网环境的爬虫行为进行实时监测和阻断。
以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。
附图说明
图1为本发明实施例一之日志的分析方法的步骤流程图;
图2为本发明实施例二之日志的分析系统的程序模块示意图;
图3为本发明实施例三之计算机设备的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
实施例一
请参阅图1,示出了本发明实施例一之日志的分析方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备为执行主体进行示例性描述,具体如下:
步骤S100,根据预设的采集代理获取待监测系统的至少一个日志文件,其中,每个日志文件包括对应的操作人ID。
日志是由系统或服务器自动创建和维护的日志文件,其中包含其所执行活动的列表。日志主要包括系统日志、应用程序日志和安全日志,每条日志都记载着时间戳、主机名、使用者及操作行为等相关的描述,系统运维和开发人员可以通过日志了解服务器软硬件信息、检查配置过程中的错误及错误发生的原因等。在本实施例中,通过在待监测系统中安装采集代理,从而对待监测系统中产生的日志进行采集,日志中包含了所有用户对系统访问而产生的行为,在后续步骤中通过对日志进行分析,可以判断待监测系统中是否存被爬虫爬取的行为。常见的采集代理有Scribe、Fluent、Flume、Logstash、Rsysiog、Scripts和Filebeat,其中,Filebeat是一个轻量级的采集代理,采用go语言开发,相比于其他采集代理,所要耗费的系统资源更少。
具体的,在一较佳实施例中,将Filebeat作为采集代理安装在待监测系统上,并配置Filebeat所要采集的日志目录,从而实现对待监测系统中产生的日志文件的实施监控。待监测系统产生的日志首先会由中间件进行打印,其中,中间件即所述待监测系统的容器,例如:weblogic或springboot的实例。相关人员在对待监测系统进行访问操作时,中间件会对访问操作发送的http请求进行记录,从而打印出操作日志,其中,本实施例所述的操作日志至少包括系统服务器自身日志、系统服务器上部署应用的日志、第三方应用日志和系统服务日志,每一种类型的日志中至少包括源IP地址、服务器IP地址、操作人ID、请求时间、请求链接、请求接口等HTTP头信息。中间件打印出操作日志后,Filebeat通过启动一个或多个查找器(prospector)去监测日志目录中的日志文件;对于查找器监测到的每一个日志文件,再通过启动多个采集器(harvester)来读取日志内容,其中,每个采集器读取一个日志文件的新内容,并将新内容通过处理程序集合成新的日志文件,最后Filebeat采集代理将日志文件发送到指定目录中,其中,查找器和采集器是Filebeat的组件。
在另一较佳实施例中,还可以通过安装Logstash采集代理来采集待监测系统产生的日志文件。Logstash工具是一种开源工具,可以对待监测系统中的日志文件进行收集、分析,并将其存储。Logstash的工作流程至少包括日志采集、日志转换和日志传输三个阶段。原始日志文件被Logstash采集后,并不是以原始数据的形式流转,而是在日志转换过程中,处理成目标格式的日志文件,以便于后续对日志文件的解析,目标格式可以是结构化类型的日志文件、Json类型的日志文件或非结构化类型的日志文件。原始日志在被转换成目标格式的日志文件后,再传输给日志处理平台。本实施例通过Logstash采集待监测系统的日志文件并发送给日志处理平台,日志处理平台只需定时接收不同子系统的日志文件即可,日志文件的采集简单方便。
步骤S102,将所述日志文件发送给预设的服务器,并对所述日志文件进行分片存储。
Elasticsearch是一种分布式搜索服务器,由一个数据搜索引擎和分布式NoSQL(非关系型)数据库组成,用于对数据进行分片存储。Kafka是一种高吞吐量的分布式发布-订阅消息系统,可以处理消费者规模的网站中的所有动作流数据,其中,kafka至少包括生产者(Producer)、主题(Topic)和消费者(Consumer)。消费者是消息的产生的源头,负责生成消息并发送到Kafka服务器上;消费者是消息的使用方,负责消费Kafka服务器上的消息;主题由用户定义并配置在Kafka服务器,用于建立生产者和消息者之间的订阅关系:生产者发送消息到指定的Topic下,消息者从这个Topic下消费消息。
在本实施例中,通过搭建Elasticsearch集群,并将Filebeat采集到的日志传输到Elasticsearch集群进行分片和存储。为了保证日志数据传输的实时性和完整性,在本实施例中,通过Kafka来实现日志的传输,其中,Filebeat相当于生产者,日志相当于消息,Elasticsearch相当于消费者。
具体的,在待监测系统中安装Filebeat时,一并在Filebeat的配置文件Filebeat.yml中添加output.kafka命令,以通过output.kafka命令配置需要导入消息的Kafka信息,例如:IP地址、端口号和主题,从而将Filebeat采集到的日志文件作为消息传输到Kafka的topic中。然后,将Kafka的topic中的消息分发给对应的消费者,即Elasticsearch集群中的服务器。Elasticsearch集群的服务器在接收到Kafka分发的日志后,对日志建立索引,并根据日志的类型对日志进行分片,并将分片后的日志存储到Elasticsearch集群的数据库中。
示例性的,在待监测系统中安装Filebeat时,在Filebeat的配置文件Filebeat.yml中添加output.kafka命令,并通过“host:192.168.0.1:9092”命令配置要将日志导入的Kafka的IP和端口地址,通过“topic:test”命令将日志导向kafka的“test”主题中。当Filebeat采集到待监测系统的日志后,首先通过IP地址和端口号“192.168.0.1:9092”传输到Kafka的“test”主题中。如果大量的日志被传输到Kafka中,Kafka会形成消息队列以进行缓冲,然后再按照消息队列的顺序将日志分发给Elasticsearch集群的服务器,以此保证日志实时传输的稳定性。
Elasticsearch集群的服务器在接收到日志后,首先根据待监测系统的名称对日志文件建立索引,应当理解的是,本实施例所述的索引是指在Elasticsearch集群中的日志文件的存储集合,区别于数据库中用于快速定位指定文档的索引。然后,Elasticsearch集群的服务器根据日志的类型对日志文件进行分片,例如:将系统日志分成一个分片,将应用程序日志分成一个分片,将安全日志分成一个分片。
步骤S104,对每个日志文件进行字段解析,得到每个日志文件中的多个目标字段值,并根据多个目标字段值判断与每个日志文件对应的操作人ID是否符合预设的告警规则,其中,所述告警规则包括第一告警规则、第二告警规则和第三告警规则。
具体的,首先对日志文件中的源IP地址、服务器IP地址、操作人ID、请求时间、请求链接、请求接口等信息进行提取,然后根据其中的请求时间对操作ID的数量进行统计,判断数量是否大于预设的阈值,如果大于预设的阈值,则判断符合预设的第一预警规则;或者判断请求链接中是否存在目标请求链接,如果存在目标请求链接,则判断符合预设的第二告警规则。
在一较佳实施例中,所述对所述至少一个日志文件进行解析,得到解析结果,并根据所述解析结果判断与每个日志文件对应的操作人ID是否符合预设的告警规则时,首先根据字段提取器对每个日志文件中的字段进行提取,以得到多个目标字段值,其中,所述目标字段值的数据类型至少包括:源IP、请求时间、操作人ID和请求链接。然后计算预设时间段内每个操作人ID的数量,并将每个操作人ID的数量与预设的阈值进行比较;若目标操作人ID的数量大于预设的阈值,则判断所述目标操作人ID符合所述第一告警规则。
具体的,本实施例的字段提取器可以是Json提取器或gork提取器。Json提取器提取Json类型的日志文件,Json提取器预设有key分隔符、kv分隔符,通过Json提取器对日志文件中的字段进行解析,得到多个有效字段信息。gork提取器通过正则表达式提取非结构化类型的日志文件,gork提取器预设有多个gork正则表达式,通过gork正则表达式对日志文件中的字段进行解析,得到多个有效字段信息。例如,在预设gork正则表达式时,可以把一些通用的匹配规则保存为模板直接引用,比如通过{%IPV4}可以匹配IP地址。同样的,除了IP地址外,操作人ID、请求时间、请求链接和请求接口也可以通过gork提取器的正则表达式来获得。
获取到日志文件中的字段后,再对预设时间段内的每个操作人ID的数量进行统计,并将每个操作人ID的数量与预设的阈值进行比较,若某个操作人ID的数量大于预设的阈值,则判定该操作人ID符合所述第一告警规则。
在另一较佳实施例中,根据字段提取器对每个日志文件中的字段进行提取以得到多个目标字段值之后,将所述请求链接与预设的告警请求链接进行比对,若所述请求链接中存在与所述告警请求链接相同的目标请求链接,则判定与所述目标请求链接对应的目标操作人ID符合所述第二告警规则。
具体的,在待监测系统的页面中设置隐藏的蜜罐链接,操作人员无法通过页面直接访问蜜罐链接,如果使用爬虫爬取待监测系统的页面,爬虫会自动访问隐藏的蜜罐链接。因此,在本实施例中,通过判断操作日志中是否存在蜜罐链接的访问记录,进而判断该访问是否是爬虫所为。
示例性的,预设的蜜罐链接为:192.168.0.0,如果操作日志中存在与该蜜罐链接相同的请求链接,则判断与该请求链接对应的操作人ID符合第二告警规则。
在另一较佳实施例中,根据字段提取器对每个日志文件中的字段进行提取,以得到多个目标字段值之后,还将所述多个目标字段值输入到预设安全模型中,并根据所述安全模型识别所述多个目标字段值是否符合第三告警规则。
具体的,基于决策树和异常检测的方法建立安全模型,并结合从数据供应商获取的威胁情报库和通过第一告警规则和第二告警规则识别出的负样本对安全模型进行训练,以调整安全模型的参数,提高安全模型对低频规律访问的识别能力,其中,所述威胁情报库指的是从第三方购买的情报库,例如:360的异常IP。
在本实施例中,通过将目标字段值中的源IP、请求时间、操作人ID和请求链接输入到安全模型中,若所述安全模型判断所述目标字段值符合前期训练得到的低频规律访问,则判断相应的操作人ID符合第三告警规则。
步骤S106,当所述操作人ID符合所述告警规则时,发送相应的告警信息给风控平台,以使所述风控平台对所述操作人ID执行阻断操作。
具体的,当判断某一操作人ID符合预设的告警规则时,则将包含操作人ID、源IP地址、请求时间、相应的日志文件和风险等级的告警信息发送给预设的风控平台,其中,所述风险等级至少包括低风险等级和高风险等级。所述风控平台接收到所述告警信息后,根据所述风险等级和所述操作人ID执行阻断操作:若是低风险等级,则对所述操作人ID采取临时冻结操作,暂时限制该操作人ID登录待监测系统;若是高风险等级,则对所述操作人ID采取拉黑操作,永久解除该操作人ID的访问权限。
本实施例通过对待检测系统的日志进行解析,并判断操作人ID是否符合告警规则,从而实现对外网环境的爬虫行为进行实时监测和阻断。
实施例二
请参阅图2,示出了本发明实施例二之日志的分析系统的程序模块示意图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。在本实施例中,日志的分析系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述日志的分析方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述日志的分析系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
采集模块200,用于根据预设的采集代理获取待监测系统的至少一个日志文件 ,其中,所述日志文件包括对应的操作人ID。
日志是由系统或服务器自动创建和维护的日志文件,其中包含其所执行活动的列表。日志主要包括系统日志、应用程序日志和安全日志,每条日志都记载着时间戳、主机名、使用者及操作行为等相关的描述,系统运维和开发人员可以通过日志了解服务器软硬件信息、检查配置过程中的错误及错误发生的原因等。在本实施例中,通过在待监测系统中安装采集代理,从而对待监测系统中产生的日志进行采集,日志中包含了所有用户对系统访问而产生的行为,在后续步骤中通过对日志进行分析,可以判断待监测系统中是否存被爬虫爬取的行为。常见的采集代理有Scribe、Fluent、Flume、Logstash、Rsysiog、Scripts和Filebeat,其中,Filebeat是一个轻量级的采集代理,采用go语言开发,相比于其他采集代理,所要耗费的系统资源更少。
具体的,在一较佳实施例中,将Filebeat作为采集代理安装在待监测系统上,并配置Filebeat所要采集的日志目录,从而实现对待监测系统中产生的日志文件进行实施监控。待监测系统产生的日志首先会由中间件进行打印,其中,中间件即所述待监测系统的容器,例如:weblogic或springboot的实例。相关人员在对待监测系统进行访问操作时,中间件会对访问操作发送的http请求进行记录,从而打印出操作日志,其中,本实施例所述的操作日志至少包括系统服务器自身日志、系统服务器上部署应用的日志、第三方应用日志和系统服务日志,每一种类型的日志中至少包括源IP地址、服务器IP地址、操作人ID、请求时间、请求链接、请求接口等HTTP头信息。中间件打印出操作日志后,Filebeat通过启动一个或多个查找器(prospector)去监测日志目录中的日志文件;对于查找器监测到的每一个日志文件,再通过启动多个采集器(harvester)来读取日志内容,其中,每个采集器读取一个日志文件的新内容,并将新内容通过处理程序集合成新的日志文件,最后Filebeat采集代理将日志文件发送到指定目录中,其中,查找器和采集器是Filebeat的组件。
在另一较佳实施例中,还可以通过安装Logstash采集代理来采集待监测系统产生的日志文件。Logstash工具是一种开源工具,可以对待监测系统中的日志文件进行收集、分析,并将其存储。Logstash的工作流程至少包括日志采集、日志转换和日志传输三个阶段。原始日志文件被Logstash采集后,并不是以原始数据的形式流转,而是在日志转换过程中,处理成目标格式的日志文件,以便于后续对日志文件的解析,目标格式可以是结构化类型的日志文件、Json类型的日志文件或非结构化类型的日志文件。原始日志在被转换成目标格式的日志文件后,再传输给日志处理平台。本实施例通过Logstash采集待监测系统的日志文件并发送给日志处理平台,日志处理平台只需定时接收不同子系统的日志文件即可,日志文件的采集简单方便。
存储模块202,用于将所述日志文件发送给预设的服务器,并对所述日志文件进行分片存储。
Elasticsearch是一种分布式搜索服务器,由一个数据搜索引擎和分布式NoSQL(非关系型)数据库组成,用于对数据进行分片存储。Kafka是一种高吞吐量的分布式发布-订阅消息系统,可以处理消费者规模的网站中的所有动作流数据,其中,kafka至少包括生产者(Producer)、主题(Topic)和消费者(Consumer)。消费者是消息的产生的源头,负责生成消息并发送到Kafka服务器上;消费者是消息的使用方,负责消费Kafka服务器上的消息;主题由用户定义并配置在Kafka服务器,用于建立生产者和消息者之间的订阅关系:生产者发送消息到指定的Topic下,消息者从这个Topic下消费消息。
在本实施例中,通过搭建Elasticsearch集群,并将Filebeat采集到的日志传输到Elasticsearch集群进行分片和存储。为了保证日志数据传输的实时性和完整性,在本实施例中,通过Kafka来实现日志的传输,其中,Filebeat相当于生产者,日志相当于消息,Elasticsearch相当于消费者。
具体的,在待监测系统中安装Filebeat时,一并在Filebeat的配置文件Filebeat.yml中添加output.kafka命令,以通过output.kafka命令配置需要导入消息的Kafka信息,例如:IP地址、端口号和主题,从而将Filebeat采集到的日志文件作为消息传输到Kafka的topic中。然后,将Kafka的topic中的消息分发给对应的消费者,即Elasticsearch集群中的服务器。Elasticsearch集群的服务器在接收到Kafka分发的日志后,对日志建立索引,并根据日志的类型对日志进行分片,并将分片后的日志存储到Elasticsearch集群的数据库中。
示例性的,在待监测系统中安装Filebeat时,在Filebeat的配置文件Filebeat.yml中添加output.kafka命令,并通过“host:192.168.0.1:9092”命令配置要将日志导入的Kafka的IP和端口地址,通过“topic:test”命令将日志导向kafka的“test”主题中。当Filebeat采集到待监测系统的日志后,首先通过IP地址和端口号“192.168.0.1:9092”传输到Kafka的“test”主题中。如果大量的日志被传输到Kafka中,Kafka会形成消息队列以进行缓冲,然后再按照消息队列的顺序将日志分发给Elasticsearch集群的服务器,以此保证日志实时传输的稳定性。
Elasticsearch集群的服务器在接收到日志后,首先根据待监测系统的名称对日志文件建立索引,应当理解的是,本实施例所述的索引是指在Elasticsearch集群中的日志文件的存储集合,区别于数据库中用于快速定位指定文档的索引。然后,Elasticsearch集群的服务器根据日志的类型对日志文件进行分片,例如:将系统日志分成一个分片,将应用程序日志分成一个分片,将安全日志分成一个分片。
解析模块204,用于对每个日志文件进行字段解析,得到每个日志文件中的多个目标字段值,并根据多个目标字段值判断与每个日志文件对应的操作人ID是否符合预设的告警规则,其中,所述告警规则包括第一告警规则、第二告警规则和第三告警规则。
具体的,首先对日志文件中的源IP地址、服务器IP地址、操作人ID、请求时间、请求链接、请求接口等信息进行提取,然后根据其中的请求时间对操作ID的数量进行统计,判断数量是否大于预设的阈值,如果大于预设的阈值,则判断符合预设的第一预警规则;或者判断请求链接中是否存在目标请求链接,如果存在目标请求链接,则判断符合预设的第二告警规则。
在一较佳实施例中,所述对所述至少一个日志文件进行解析,得到解析结果,并根据所述解析结果判断与每个日志文件对应的操作人ID是否符合预设的告警规则时,首先根据字段提取器对每个日志文件中的字段进行提取,以得到多个目标字段值,其中,所述目标字段值的数据类型至少包括:源IP、请求时间、操作人ID和请求链接。然后计算预设时间段内每个操作人ID的数量,并将每个操作人ID的数量与预设的阈值进行比较;若目标操作人ID的数量大于预设的阈值,则判断所述目标操作人ID符合所述第一告警规则。
具体的,本实施例的字段提取器可以是Json提取器或gork提取器。Json提取器提取Json类型的日志文件,Json提取器预设有key分隔符、kv分隔符,通过Json提取器对日志文件中的字段进行解析,得到多个有效字段信息。gork提取器通过正则表达式提取非结构化类型的日志文件,gork提取器预设有多个gork正则表达式,通过gork正则表达式对日志文件中的字段进行解析,得到多个有效字段信息。例如,在预设gork正则表达式时,可以把一些通用的匹配规则保存为模板直接引用,比如通过{%IPV4}可以匹配IP地址。同样的,除了IP地址外,操作人ID、请求时间、请求链接和请求接口也可以通过gork提取器的正则表达式来获得。
获取到日志文件中的字段后,再对预设时间段内的每个操作人ID的数量进行统计,并将每个操作人ID的数量与预设的阈值进行比较,若某个操作人ID的数量大于预设的阈值,则判定该操作人ID符合所述第一告警规则。
在另一较佳实施例中,根据字段提取器对每个日志文件中的字段进行提取以得到多个目标字段值之后,将所述请求链接与预设的告警请求链接进行比对,若所述请求链接中存在与所述告警请求链接相同的目标请求链接,则判定与所述目标请求链接对应的目标操作人ID符合所述第二告警规则。
具体的,在待监测系统的页面中设置隐藏的蜜罐链接,操作人员无法通过页面直接访问蜜罐链接,如果使用爬虫爬取待监测系统的页面,爬虫会自动访问隐藏的蜜罐链接。因此,在本实施例中,通过判断操作日志中是否存在蜜罐链接的访问记录,进而判断该访问是否是爬虫所为。
示例性的,预设的蜜罐链接为:192.168.0.0,如果操作日志中存在与该蜜罐链接相同的请求链接,则判断与该请求链接对应的操作人ID符合第二告警规则。
在另一较佳实施例中,根据字段提取器对每个日志文件中的字段进行提取,以得到多个目标字段值之后,还将所述多个目标字段值输入到预设安全模型中,并根据所述安全模型识别所述多个目标字段值是否符合第三告警规则。
具体的,基于决策树和异常检测的方法建立安全模型,并结合从数据供应商获取的威胁情报库和通过第一告警规则和第二告警规则识别出的负样本对安全模型进行训练,以调整安全模型的参数,提高安全模型对低频规律访问的识别能力,其中,所述威胁情报库指的是从第三方购买的情报库,例如:360的异常IP。
在本实施例中,通过将目标字段值中的源IP、请求时间、操作人ID和请求链接输入到安全模型中,若所述安全模型判断所述目标字段值符合前期训练得到的低频规律访问,则判断相应的操作人ID符合第三告警规则。
阻断模块206,用于当所述操作人ID符合所述告警规则时,发送相应的告警信息给预设的风控平台,以使所述风控平台对所述操作人ID执行阻断操作。
具体的,当判断某一操作人ID符合预设的告警规则时,则将包含操作人ID、源IP地址、请求时间、相应的日志文件和风险等级的告警信息发送给预设的风控平台,其中,所述风险等级至少包括低风险等级和高风险等级。所述风控平台接收到所述告警信息后,根据所述风险等级和所述操作人ID执行阻断操作:若是低风险等级,则对所述操作人ID采取临时冻结操作,暂时限制该操作人ID登录待监测系统;若是高风险等级,则对所述操作人ID采取拉黑操作,永久解除该操作人ID的访问权限。
本实施例通过对待检测系统的日志进行解析,并判断操作人ID是否符合告警规则,从而实现对外网环境的爬虫行为进行实时监测和阻断。
实施例三
参阅图3,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图3所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及日志的分析系统20。其中:
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例二的日志的分析系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行日志的分析系统20,以实现实施例一的日志的分析方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图3仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述日志的分析系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
例如,图2示出了所述日志的分析系统20的程序模块示意图,该实施例中,所述日志的分析系统20可以被划分为采集模块200、存储模块202、解析模块204和阻断模块206。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述日志的分析系统20在所述计算机设备2中的执行过程。所述程序模块200-206的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储日志的分析系统20,被处理器执行时实现实施例一的日志的分析方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (4)

1.一种日志的分析方法,其特征在于,包括:
根据预设的采集代理获取待监测系统的至少一个日志文件,其中,每个日志文件包括对应的操作人ID;
将所述日志文件发送给预设的服务器,并对所述日志文件进行分片存储;
对每个日志文件进行字段解析,得到每个日志文件中的多个目标字段值,并根据多个目标字段值判断与每个日志文件对应的操作人ID是否符合预设的告警规则,其中,所述告警规则包括第一告警规则、第二告警规则和第三告警规则;
当所述操作人ID符合所述告警规则时,发送相应的告警信息给风控平台,以使所述风控平台对所述操作人ID执行阻断操作;
所述对每个日志文件进行字段解析,得到每个日志文件中的多个目标字段值,并根据多个目标字段值判断与每个日志文件对应的操作人ID是否符合预设的告警规则,包括:
根据字段提取器对每个日志文件中的字段进行提取,以得到多个目标字段值,其中,所述目标字段值的数据类型至少包括:源IP、请求时间、操作人ID和请求链接;
计算预设时间段内每个操作人ID的数量,并将每个操作人ID的数量与预设的阈值进行比较;
若目标操作人ID的数量大于所述阈值,则判断所述目标操作人ID符合所述第一告警规则;
所述根据字段提取器对每个日志文件中的字段进行提取,以得到多个目标字段值之后,还包括:
将所述请求链接与预设的告警请求链接进行比对,若所述请求链接中存在与所述告警请求链接相同的目标请求链接,则判定与所述目标请求链接对应的目标操作人ID符合所述第二告警规则;
所述根据字段提取器对每个日志文件中的字段进行提取,以得到多个目标字段值之后,还包括:
基于决策树算法、所述第一告警规则和所述第二告警规则建立安全模型;
根据符合所述第一告警规则或所述第二告警规则的字段值及预设的样本数据对所述安全模型进行训练,以调整所述安全模型的参数;
将所述多个目标字段值输入到所述安全模型中,以通过所述安全模型判断与所述多个目标字段值对应的目标操作人ID是否符合第三告警规则,若所述安全模型判断所述目标字段值符合前期训练得到的低频规律访问,则判断相应的操作人ID符合所述第三告警规则。
2.一种日志的分析系统,其特征在于,包括:
采集模块,用于根据预设的采集代理获取待监测系统的至少一个日志文件,其中,所述日志文件包括对应的操作人ID;
存储模块,用于将所述日志文件发送给预设的服务器,并对所述日志文件进行分片存储;
解析模块,用于对每个日志文件进行字段解析,得到每个日志文件中的多个目标字段值,并根据多个目标字段值判断与每个日志文件对应的操作人ID是否符合预设的告警规则,其中,所述告警规则包括第一告警规则、第二告警规则和第三告警规则;
阻断模块,用于当所述操作人ID符合所述告警规则时,发送相应的告警信息给预设的风控平台,以使所述风控平台对所述操作人ID执行阻断操作;
所述解析模块还用于:
根据字段提取器对每个日志文件中的字段进行提取,以得到多个目标字段值,其中,所述目标字段值的数据类型至少包括:源IP、请求时间、操作人ID和请求链接;
计算预设时间段内每个操作人ID的数量,并将每个操作人ID的数量与预设的阈值进行比较;
若目标操作人ID的数量大于所述阈值,则判断所述目标操作人ID符合所述第一告警规则;
所述解析模块还用于:
将所述请求链接与预设的告警请求链接进行比对,若所述请求链接中存在与所述告警请求链接相同的目标请求链接,则判定与所述目标请求链接对应的目标操作人ID符合所述第二告警规则;
所述解析模块还用于:
基于决策树算法、所述第一告警规则和所述第二告警规则建立安全模型;
根据符合所述第一告警规则或所述第二告警规则的字段值及预设的样本数据对所述安全模型进行训练,以调整所述安全模型的参数;
将所述多个目标字段值输入到所述安全模型中,以通过所述安全模型判断与所述多个目标字段值对应的目标操作人ID是否符合第三告警规则,若所述安全模型判断所述目标字段值符合前期训练得到的低频规律访问,则判断相应的操作人ID符合所述第三告警规则。
3.一种计算机设备,所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征于,所述处理器执行所述计算机程序时实现如权利要求1所述的日志的分析方法的步骤。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1所述的日志的分析方法的步骤。
CN202010746175.2A 2020-07-29 2020-07-29 日志的分析方法及系统 Active CN111866016B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010746175.2A CN111866016B (zh) 2020-07-29 2020-07-29 日志的分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010746175.2A CN111866016B (zh) 2020-07-29 2020-07-29 日志的分析方法及系统

Publications (2)

Publication Number Publication Date
CN111866016A CN111866016A (zh) 2020-10-30
CN111866016B true CN111866016B (zh) 2023-04-18

Family

ID=72945478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010746175.2A Active CN111866016B (zh) 2020-07-29 2020-07-29 日志的分析方法及系统

Country Status (1)

Country Link
CN (1) CN111866016B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269825A (zh) * 2020-11-13 2021-01-26 中盈优创资讯科技有限公司 一种etl解析异常数据留存的方法及装置
CN112434949A (zh) * 2020-11-25 2021-03-02 平安普惠企业管理有限公司 基于人工智能的业务预警处理方法、装置、设备和介质
CN112714118B (zh) * 2020-12-24 2023-06-06 新浪技术(中国)有限公司 网络流量检测方法和装置
CN112612680A (zh) * 2020-12-29 2021-04-06 永辉云金科技有限公司 一种消息告警方法、系统、计算机设备及存储介质
CN115297037A (zh) * 2021-04-19 2022-11-04 中国移动通信集团安徽有限公司 拨测方法、装置、设备及存储介质
CN113326415A (zh) * 2021-05-17 2021-08-31 上海中通吉网络技术有限公司 一种Kafka消息体的查询方法
CN113934547B (zh) * 2021-08-30 2024-05-17 山东浪潮科学研究院有限公司 一种集群环境下告警日志的记录方法、装置、设备及产品
CN113722183A (zh) * 2021-09-02 2021-11-30 北京金山云网络技术有限公司 日志告警方法、装置及电子设备
CN114070624B (zh) * 2021-11-16 2024-01-23 北京天融信网络安全技术有限公司 一种报文监测的方法、装置、电子设备及介质
CN114328121A (zh) * 2021-12-31 2022-04-12 奇安信科技集团股份有限公司 终端设备的安全告警方法及安全告警系统
CN114598525A (zh) * 2022-03-09 2022-06-07 中国医学科学院阜外医院 一种针对网络攻击的ip自动封禁的方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359263A (zh) * 2018-10-16 2019-02-19 杭州安恒信息技术股份有限公司 一种用户行为特征提取方法及系统
CN111209171A (zh) * 2019-12-23 2020-05-29 中国平安财产保险股份有限公司 安全风险的闭环处置方法、装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10673928B2 (en) * 2016-02-29 2020-06-02 Red Hat, Inc. Syslog advertisements

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359263A (zh) * 2018-10-16 2019-02-19 杭州安恒信息技术股份有限公司 一种用户行为特征提取方法及系统
CN111209171A (zh) * 2019-12-23 2020-05-29 中国平安财产保险股份有限公司 安全风险的闭环处置方法、装置及存储介质

Also Published As

Publication number Publication date
CN111866016A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN111866016B (zh) 日志的分析方法及系统
CN113176978B (zh) 基于日志文件的监控方法、系统、设备及可读存储介质
CN112636957B (zh) 基于日志的预警方法、装置、服务器及存储介质
CN110266670A (zh) 一种终端网络外联行为的处理方法及装置
CN117744087B (zh) 基于静态分析的智能设备远程代码执行漏洞检测方法
CN114528457A (zh) Web指纹检测方法及相关设备
CN112612680A (zh) 一种消息告警方法、系统、计算机设备及存储介质
CN110442582B (zh) 场景检测方法、装置、设备和介质
CN114357447A (zh) 攻击者威胁评分方法及相关装置
CN116346456A (zh) 业务逻辑漏洞攻击检测模型训练方法及装置
CN113779573B (zh) 一种基于系统溯源图的大规模勒索软件分析方法和分析装置
CN113282920B (zh) 日志异常检测方法、装置、计算机设备和存储介质
CN108763916B (zh) 业务接口安全评估方法及装置
CN114327967A (zh) 设备修复方法及装置、存储介质、电子装置
CN110955890A (zh) 恶意批量访问行为的检测方法、装置和计算机存储介质
CN113032341A (zh) 一种基于可视化配置的日志处理方法
CN112436969A (zh) 一种物联网设备管理方法、系统、设备及介质
CN116738369A (zh) 一种流量数据的分类方法、装置、设备及存储介质
CN113849810B (zh) 风险操作行为的识别方法、装置、设备及存储介质
CN109190408B (zh) 一种数据信息的安全处理方法及系统
US20230048076A1 (en) Cyber threat information processing apparatus, cyber threat information processing method, and storage medium storing cyber threat information processing program
US20230254340A1 (en) Apparatus for processing cyber threat information, method for processing cyber threat information, and medium for storing a program processing cyber threat information
CN114969450A (zh) 一种用户行为分析方法、装置、设备及存储介质
CN114124555A (zh) 报文回放方法、装置、电子设备及计算机可读介质
CN116155519A (zh) 威胁告警信息处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant