CN107590227A - 一种结合爬虫的日志分析方法 - Google Patents
一种结合爬虫的日志分析方法 Download PDFInfo
- Publication number
- CN107590227A CN107590227A CN201710791558.XA CN201710791558A CN107590227A CN 107590227 A CN107590227 A CN 107590227A CN 201710791558 A CN201710791558 A CN 201710791558A CN 107590227 A CN107590227 A CN 107590227A
- Authority
- CN
- China
- Prior art keywords
- attack
- crawled
- reptile
- analysis
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种结合爬虫的日志分析方法,包括以下步骤:步骤1:对指定的网站进行可正常访问的链接爬取,将整个网站的结构记录下来;步骤2:将爬取的结果存入数据库中;步骤3:依据数据库中爬虫爬取的URL列表对Web日志进行筛选;步骤4:将各种异常日志自动标记出它的攻击类型,再将这些攻击日志进一步细化分析,包括通过特征区分攻击成功或者攻击不成功的Webshell,最后将分析结果进行UI展示等等。本发明在分析单个网站的海量日志时,能够提高分析的准确性,同时也减少人力投入的成本。
Description
技术领域
本发明涉及日志分析领域,特别是一种结合爬虫的日志分析方法。
背景技术
现有的日志分析方法大致从两点出发去清洗日志:一是通过机器学习算法,二是人为根据网站的特点去添加规则进行清洗。通常,机器学习模型是为了做一个“通用”的分析装置,以期望通过机器学习算法来尽可能避免人工干预,但在实际的复杂场景中,机器学习的明显缺点就是容易产生误报和漏报,比如有时会出现扫描器请求多于人类正常访问,这种情况就很可能引起机器学习的误判。
而根据网站本身的结构去制定一些分析规则(比如网站有哪些页面),虽然一定程度上可以保证精准度,但需要投入很多人力成本去制定这些规则。网站若非自主开发,那要了解网站本身结构也很困难(需要先通过阅读源码、逆向等方式去了解网站整体的架构)。
正则表达式:被用来检索、替换那些符合某个模式(规则)的文本。
SQL注入:通过控制SQL语句的字符串,可让数据库执行了预期以外的SQL语句。
XSS:跨站脚本攻击,Web页面输出的脚本代码可被控制,导致黑客可以构造恶意的代码。
发明内容
本发明所要解决的技术问题是提供一种结合爬虫的日志分析方法,在分析单个网站的海量日志时,能够提高分析的准确性,同时也减少人力投入的成本。
为解决上述技术问题,本发明采用的技术方案是:
一种结合爬虫的日志分析方法,包括以下步骤:
步骤1:对指定的网站进行可正常访问的链接爬取,将整个网站的结构记录下来;
步骤2:将步骤1中爬取的结果存入数据库中;
步骤3:依据数据库中爬虫爬取的URL列表对Web日志进行筛选;即:1)从数据库中将爬取的轨迹URL列表加载到内存中,2)对Web日志进行逐行处理,对每一行日志都从中提取出URL,然后判断该URL是否存在于爬取的列表中,如果存在于列表中,则该访问是正常访问,否则将该行判断为异常日志;
步骤4:将各种异常日志自动标记出它的攻击类型,再将这些攻击日志进一步细化分析,包括通过特征区分攻击成功或者攻击不成功的Webshell,最后将分析结果进行UI(User Interface,用户界面)展示、高危的进行告警、辅助人工分析。
进一步的,所述步骤3中,判断该URL是否存在于爬取的列表中,其采用的方法包括绝对字符串匹配、字符串相似度匹配。
进一步的,所述步骤4中,将各种异常日志自动标记出它的攻击类型,其标记攻击类型的方式是使用规则匹配,此规则是人工预先定义好的正则表达式。
与现有技术相比,本发明的有益效果是:通过模拟人的正常访问行为,将访问页面记录下来后对日志进行筛选,精准筛选出异常访问日志,能够从日志中识别出黑客留下的Webshell、被黑的页面、恶意的广告页面、扫描器的扫描请求等等。模拟人的访问,指的是网站页面中的链接都是可以通过正常点击来访问,爬虫所做的工作就是记录下这些链接;而日志中的访问记录中如果不存在于这些链接列表中,可认为是通过非正常手段来访问的。
附图说明
图1是本发明一种结合爬虫的日志分析方法流程示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明通过使用Web爬虫预先模拟正常方可访问的行为,去爬取网站整体可正常访问的链接列表,然后再根据这些列表进行自动化日志分析,以达到分析单个网站的日志时既节省人力投入,又能提高分析精准度的目的。详述如下:
步骤一:对指定的网站进行可正常访问的链接爬取
一个正常的访客访问某一个网站时,他的浏览器会发送相应的请求去加载网页中的图片、样式文件、视频等,并且能访问的绝大多数页面都已存在于页面中的超链接中。本步骤的目的就是模拟正常访客去“深入”访问要被分析的网站。整个过程中,爬虫会不断访问每一个页面,并抓取每个页面能访问的链接、图片、视频、能下载的文件链接等等,最终将整个网站的结构记录下来。
步骤二:将爬取的结果存入数据库中
步骤一中所记录的访问轨迹会存储到内置的数据库中,以便于后续异常日志过滤过程加载使用。
步骤三:以网站的Web日志作为输入数据,依据爬虫爬取的URL列表对Web日志筛选,具体实施以下步骤:
1、从数据库中将爬取的轨迹URL列表加载到内存中;
2、对Web日志进行逐行处理,对每一行日志都从中提取出URL,然后判断该URL是否存在于爬取的列表中(主要使用的技术有:绝对字符串匹配、字符串相似度匹配等等)。如果存在于列表中,就认为该访问是正常访问,并且不对检测结果做记录,否则将该行判断为异常日志。
过滤完之后的访问日志全部被认定为普通访客无法通过正常浏览行为访问的,将其定义为异常日志。这些异常的访问记录都被单独存储在结果文件中,便于后续日志分析。
步骤四:对异常日志进行深入分析
将各种异常日志自动标记出它的攻击类型。标记攻击类型的方式主要是使用规则匹配,而这些规则是人工预先定义好的正则表达式。凡是被表达式匹配成功的日志行,都算作攻击是攻击日志,并标记出相应的攻击类型(例如Webshell、SQL注入、XSS等等)。再将这些攻击日志进一步细化分析,比如将Webshell通过特征区分出哪些是攻击成功的、哪些是不成功的。最后根据自动分析结果,将分析的结果进行UI展示、高危的进行告警、辅助人工分析等等用途。虽然规则不一定能百分之百匹配到所有异常日志,倘若存在未能匹配到的日志,也可以作为人工分析的样本,以助于发现“未知攻击”。
Claims (3)
1.一种结合爬虫的日志分析方法,其特征在于,包括以下步骤:
步骤1:对指定的网站进行可正常访问的链接爬取,将整个网站的结构记录下来;
步骤2:将步骤1中爬取的结果存入数据库中;
步骤3:依据数据库中爬虫爬取的URL列表对Web日志进行筛选;即:1)从数据库中将爬取的轨迹URL列表加载到内存中,2)对Web日志进行逐行处理,对每一行日志都从中提取出URL,然后判断该URL是否存在于爬取的列表中,如果存在于列表中,则该访问是正常访问,否则将该行判断为异常日志;
步骤4:将各种异常日志自动标记出它的攻击类型,再将这些攻击日志进一步细化分析,包括通过特征区分攻击成功或者攻击不成功的Webshell,最后将分析结果进行UI展示、高危的进行告警、辅助人工分析。
2.如权利要求1所述的一种结合爬虫的日志分析方法,其特征在于,所述步骤3中,判断该URL是否存在于爬取的列表中,其采用的方法包括绝对字符串匹配、字符串相似度匹配。
3.如权利要求1所述的一种结合爬虫的日志分析方法,其特征在于,所述步骤4中,将各种异常日志自动标记出它的攻击类型,其标记攻击类型的方式是使用规则匹配,此规则是人工预先定义好的正则表达式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710791558.XA CN107590227A (zh) | 2017-09-05 | 2017-09-05 | 一种结合爬虫的日志分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710791558.XA CN107590227A (zh) | 2017-09-05 | 2017-09-05 | 一种结合爬虫的日志分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107590227A true CN107590227A (zh) | 2018-01-16 |
Family
ID=61051953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710791558.XA Pending CN107590227A (zh) | 2017-09-05 | 2017-09-05 | 一种结合爬虫的日志分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107590227A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108282478A (zh) * | 2018-01-23 | 2018-07-13 | 湖南科技学院 | 一种web站点安全检测方法、装置及计算机可读介质 |
CN110020512A (zh) * | 2019-04-12 | 2019-07-16 | 重庆天蓬网络有限公司 | 一种反爬虫的方法、装置、设备及存储介质 |
CN111031025A (zh) * | 2019-12-07 | 2020-04-17 | 杭州安恒信息技术股份有限公司 | 一种自动化检测验证Webshell的方法及装置 |
CN111092879A (zh) * | 2019-12-13 | 2020-05-01 | 杭州迪普科技股份有限公司 | 日志关联方法及装置、电子设备、存储介质 |
CN112788035A (zh) * | 2021-01-13 | 2021-05-11 | 深圳震有科技股份有限公司 | 一种5g下upf终端的网络攻击告警方法和终端 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120216279A1 (en) * | 2006-04-20 | 2012-08-23 | Webroot, Inc. | Backward researching time stamped events to find an origin of pestware |
CN103401849A (zh) * | 2013-07-18 | 2013-11-20 | 盘石软件(上海)有限公司 | 一种网站日志异常会话分析方法 |
CN103428196A (zh) * | 2012-12-27 | 2013-12-04 | 北京安天电子设备有限公司 | 一种基于url白名单的web应用入侵检测方法和装置 |
CN104468477A (zh) * | 2013-09-16 | 2015-03-25 | 杭州迪普科技有限公司 | 一种WebShell的检测方法及系统 |
-
2017
- 2017-09-05 CN CN201710791558.XA patent/CN107590227A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120216279A1 (en) * | 2006-04-20 | 2012-08-23 | Webroot, Inc. | Backward researching time stamped events to find an origin of pestware |
CN103428196A (zh) * | 2012-12-27 | 2013-12-04 | 北京安天电子设备有限公司 | 一种基于url白名单的web应用入侵检测方法和装置 |
CN103401849A (zh) * | 2013-07-18 | 2013-11-20 | 盘石软件(上海)有限公司 | 一种网站日志异常会话分析方法 |
CN104468477A (zh) * | 2013-09-16 | 2015-03-25 | 杭州迪普科技有限公司 | 一种WebShell的检测方法及系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108282478A (zh) * | 2018-01-23 | 2018-07-13 | 湖南科技学院 | 一种web站点安全检测方法、装置及计算机可读介质 |
CN110020512A (zh) * | 2019-04-12 | 2019-07-16 | 重庆天蓬网络有限公司 | 一种反爬虫的方法、装置、设备及存储介质 |
CN111031025A (zh) * | 2019-12-07 | 2020-04-17 | 杭州安恒信息技术股份有限公司 | 一种自动化检测验证Webshell的方法及装置 |
CN111031025B (zh) * | 2019-12-07 | 2022-04-29 | 杭州安恒信息技术股份有限公司 | 一种自动化检测验证Webshell的方法及装置 |
CN111092879A (zh) * | 2019-12-13 | 2020-05-01 | 杭州迪普科技股份有限公司 | 日志关联方法及装置、电子设备、存储介质 |
CN111092879B (zh) * | 2019-12-13 | 2022-05-31 | 杭州迪普科技股份有限公司 | 日志关联方法及装置、电子设备、存储介质 |
CN112788035A (zh) * | 2021-01-13 | 2021-05-11 | 深圳震有科技股份有限公司 | 一种5g下upf终端的网络攻击告警方法和终端 |
CN112788035B (zh) * | 2021-01-13 | 2023-02-28 | 深圳震有科技股份有限公司 | 一种5g下upf终端的网络攻击告警方法和终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107590227A (zh) | 一种结合爬虫的日志分析方法 | |
KR101130505B1 (ko) | 검색 결과 관련성의 자동화된 최적화를 위한 시스템 및방법 | |
CN104123500B (zh) | 一种基于深度学习的Android平台恶意应用检测方法及装置 | |
US11550856B2 (en) | Artificial intelligence for product data extraction | |
TWI492071B (zh) | 針對應用程式搜尋引擎用於產生基於主題的語言模型之方法、非暫態電腦可讀取媒體及裝置 | |
US20090158249A1 (en) | System and method for testing a software module | |
CN108229156A (zh) | Url攻击检测方法、装置以及电子设备 | |
CN107360137A (zh) | 用于验证码识别的神经网络模型的构建方法和装置 | |
CN108227955A (zh) | 一种基于用户历史搜索推荐输入联想的方法及装置 | |
CN105446864B (zh) | 缓存文件删除影响的校验方法、装置及移动终端 | |
CN107908959A (zh) | 网站信息检测方法、装置、电子设备及存储介质 | |
CN104156307A (zh) | 一种浏览器兼容性检测方法和系统 | |
CN107437026B (zh) | 一种基于广告网络拓扑的恶意网页广告检测方法 | |
CN110046293B (zh) | 一种用户身份关联方法及装置 | |
WO2018113468A1 (zh) | 搜索词推荐方法、装置、程序及介质 | |
CN105260469B (zh) | 一种处理网站地图的方法、装置及设备 | |
CN101617310A (zh) | 对网页进行分类和组织相应内容的方法 | |
CN106407316B (zh) | 基于主题模型的软件问答推荐方法和装置 | |
CN107508809A (zh) | 识别网址类型的方法及装置 | |
CN106598991A (zh) | 一种使用会话方式实现与网站交互表单自动提取的网络爬虫系统 | |
CN105100065B (zh) | 基于云的webshell攻击检测方法、装置及网关 | |
US20200327178A1 (en) | Intelligent search engine | |
CN107016023B (zh) | 累加检索处理方法和装置 | |
Oza et al. | Elimination of noisy information from web pages | |
CN103383697B (zh) | 确定对象标题的对象表征信息的方法与设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180116 |