CN110932928B - 基于http响应的网站资产失活检测和更新方法 - Google Patents
基于http响应的网站资产失活检测和更新方法 Download PDFInfo
- Publication number
- CN110932928B CN110932928B CN201911090163.2A CN201911090163A CN110932928B CN 110932928 B CN110932928 B CN 110932928B CN 201911090163 A CN201911090163 A CN 201911090163A CN 110932928 B CN110932928 B CN 110932928B
- Authority
- CN
- China
- Prior art keywords
- website
- domain name
- executing
- redirected
- title
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Environmental & Geological Engineering (AREA)
- Health & Medical Sciences (AREA)
- Cardiology (AREA)
- General Health & Medical Sciences (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供一种基于HTTP响应的网站资产失活检测和更新方法:包括以下步骤:获取待检测的网站域名;向服务器请求该域名获取HTTP状态码,判断是否属于失活状态码,如果属于失活状态码,网站状态正常,网站不需要更新,流程结束,获取重定向后的网站域名,判断重定向后的网站域名与待检测的网站域名是否相同,爬取重定向后网站的标题、主办单位和域名备案信息;本发明主要解决网络安全监管部门监管的网站失活但却不能及时更新的问题。监管部门监管的网站大多属于关键信息基础设施,当网站发生域名、IP的更换,而被监管单位并未及时报备到监管部门时,监管部门将不会对新的网站进行网络安全等方面的监管,将导致网站安全监管不到位的问题。
Description
技术领域
本发明涉及网站资产信息状态的检测技术,具体涉及一种基于HTTP响应的网站资产失活检测和更新方法。
背景技术
目前,互联网信息发展飞速,网站域名、备案信息等更新也十分频繁。党政机关、大型国企等单位的重要网站属于网络安全监管部门监管的关键信息基础设备。当这些网站资产发生变化而信息不能及时更新时,底层资产的准确性就无法得到保证,将导致监管部门无法对关键信息基础设备的网络安全及时监管的情况。
因此,如何及时地更新网站资产、确保监管网站的活跃状态,是本领域需要解决的难题。
发明内容
本发明要解决的技术问题是提供一种高效的基于HTTP响应的网站资产失活检测和更新方法。
为解决上述技术问题,本发明提供一种基于HTTP响应的网站资产失活检测和更新方法:包括以下步骤:
1)、获取待检测的网站域名;执行步骤2);
2)、向服务器请求该域名获取HTTP状态码,判断是否属于失活状态码,如果属于失活状态码,进行步骤11);如果不属于则执行步骤3);
3)、判断HTTP响应状态码是否为301或302,如果不是则执行步骤4);如果是则执行步骤5);
4)、网站状态正常,网站不需要更新,流程结束;
5)、获取重定向后的网站域名;执行步骤6);
6)、判断重定向后的网站域名与待检测的网站域名是否相同,如果相同,执行步骤4);如果不相同,执行步骤7);
7)、爬取重定向后网站的标题、主办单位和域名备案信息;执行步骤8);
8)、判断重定向后网站的网站标题、主办单位、备案信息是否接近原网站关键词信息,如果接近执行步骤9),如果不接近执行步骤10);
9)、将待检测的网站域名替换成重定向后的网站域名,结束;
10)、丢弃重定向的网站域名,执行步骤11);
11)、根据原网站关键词信息获取网站的关键词,执行步骤12);
12)、根据关键词从搜索引擎爬取网站信息,获取搜索引擎搜索到的网站域名作为搜索所得网站;执行步骤13);
13)、依序请求每个网站域名,获取HTTP响应状态码;执行步骤14);
14)、判断HTTP响应状态码是否为200,如果不是则执行步骤15);如果是则执行步骤16);
15)、丢弃网站,执行步骤18);
16)、爬取搜索所得网站的标题、主办单位和备案信息;执行步骤17);
17)、将标题、主办单位、备案信息分别与原网站关键词信息比较获取相似度,取三者相似度的平均值作为最终的准确率;执行步骤18);
18)、判断是否还有搜索所得网站未处理,如果有则执行步骤13),没有则进行步骤19);
19)、比较所有的搜索所得网站的准确率,获取准确率最高的搜索所得网站的域名作为新的域名;执行步骤20);
20)、将监管的网站资产列表中待检测的网站域名替换成新的域名,结束。
作为对本发明基于HTTP响应的网站资产失活检测和更新方法的改进:
失活状态码包括307、400、421、422、502、503、504、550、552和553。
作为对本发明基于HTTP响应的网站资产失活检测和更新方法的进一步改进:
重定向码包括301和302。
作为对本发明基于HTTP响应的网站资产失活检测和更新方法的进一步改进:
搜索引擎为百度搜索引擎。
作为对本发明基于HTTP响应的网站资产失活检测和更新方法的进一步改进:
步骤12)获取搜索引擎排名前十的网站域名作为搜索所得网站。
作为对本发明基于HTTP响应的网站资产失活检测和更新方法的进一步改进:
原网站关键词信息在第一次录入该网站时便同时录入,关键词获取方式是爬虫爬取网站,匹配网站标题、主办单位的关键词。
本发明基于HTTP响应的网站资产失活检测和更新方法的技术优势为:
本发明主要解决网络安全监管部门监管的网站失活但却不能及时更新的问题。监管部门监管的网站大多属于关键信息基础设施,当网站发生域名、IP的更换,而被监管单位并未及时报备到监管部门时,监管部门将不会对新的网站进行网络安全等方面的监管,将导致网站安全监管不到位的问题。
本发明可以帮助监管部门及时检测到监管网站的失活状态,并且更新失活网站域名,保证监管部门对网站资产的网络安全进行及时的监管,减轻监管不到位的情况。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细说明。
图1为本发明基于HTTP响应的网站资产失活检测和更新方法的工作流程图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此。
实施例1、基于HTTP响应的网站资产失活检测和更新方法,如图1所示,包括以下步骤:
1)、从监管的网站资产列表中获取一条待检测的网站域名;执行步骤2);
2)、向服务器请求该域名获取HTTP(HyperText Transfer Protocol,超文本传输协议响应)状态码,经过实验验证归类为失活状态码的有307、400、421、422、502、503、504、550、552和553,当向服务器请求时返回失活状态码时,网站都属于关闭或请求失败等失活状态。判断是否属于失活状态码,如果属于失活状态码,进行步骤11),如果不属于则执行步骤3);
3)、301、302重定向码表示网站将可能会进行域名或链接的跳转。判断HTTP响应状态码是否为301或302(重定向码),如果不是则执行步骤4),如果是则执行步骤5);
4)、表示网站状态正常,网站不需要更新,流程结束;
5)、获取重定向后的网站域名;执行步骤6);
6)、当重定向后的网站域名与待检测的网站域名不同,存在可能的情况是网站更新了域名或者IP,访问原网站即转移到新地址。判断重定向后的网站域名与待检测的网站域名是否相同,如果相同,执行步骤4),如果不相同,执行步骤7);
7)、爬取重定向后网站的标题、主办单位和域名备案信息;执行步骤8);
8)、当重定向后网站的网站标题、主办单位、备案信息接近原网站关键词信息(如果重定向后网站的标题、主办单位和域名备案信息中含有超过80%原网站关键词信息,则判定为接近;否则,判定为不接近),代表其是资产更新后的域名的可能性较高。判断网站标题、主办单位、备案信息是否接近原网站关键词信息,如果接近执行步骤9),如果不接近执行步骤10);
第一次录入该网站时便录入了关键词作为原网站关键词信息,关键词获取方式是爬虫爬取网站,匹配网站标题、主办单位等关键词。
9)、将监管的网站资产列表中待检测的网站域名替换成重定向后的网站域名,结束;
10)、丢弃重定向的网站域名,执行步骤11);
11)、根据原网站关键词信息获取网站的关键词,比如“某市人民政府”;执行步骤12);
12)、根据关键词从搜索引擎(百度搜索)爬取网站信息,获取搜索引擎排名前十的网站域名作为搜索所得网站;执行步骤13);
13)、依序请求每个网站域名,获取HTTP响应状态码;执行步骤14);
14)、当HTTP响应状态为200时,网站可用。判断HTTP响应状态码是否为200,如果不是则执行步骤15);如果是则执行步骤16);
15)、丢弃网站,执行步骤18);
16)、爬取搜索所得网站(百度网站)的标题、主办单位和备案信息;执行步骤17);
17)、根据原网站关键词信息和搜索所得网站的标题、主办单位、备案信息计算此网站为新网站的准确率,计算方法采用比较相似度的方法,将标题、主办单位、备案信息分别与原网站关键词比较获取百分值,取三者相似度的平均值作为最终的准确率;执行步骤18);
18)、判断是否还有搜索引擎搜索到的排名前十的网站域名未处理,如果有则执行步骤13),没有则进行步骤19);
19)、比较所有的搜索所得网站的准确率,获取准确率最高的搜索所得网站的域名作为新的域名;执行步骤20);
20)、将监管的网站资产列表中待检测的网站域名替换成新的域名,结束流程。
具体实施例1:
以下为网站未失活且未重定向(即正常情况)的实施例,执行流程如下:
(1)从监管的网站资产列表中获取一条待检测的网站域名:www.abc.com.cn;
(2)向该网站请求获取到HTTP状态码为200,判断200不属于失活状态码,且不属于重定向状态码;
该网站状态正常,不需要进行失活更新,结束流程。
具体实施例2:
以下为网站重定向的实施例,执行流程如下:
(1)从监管的网站资产列表中获取一条待检测的网站域名:www.123.com.cn;
(2)向该网站请求获取到HTTP状态码为301,301不属于失活状态码;
(3)判断301是属于重定向码,请求HTTP并获取响应,获取到重定向后的网站域名为:www.456.com.cn;
(4)网站域名www.456.com.cn和www.123.com.cn不一致;
(5)爬取www.456.com.cn的网站标题为“安全测试”、主办单位“花音安全有限公司”,这些关键词接近原网站记录的网站标题“网站安全测试平台”、主办单位“花音安全有限公司”接近;
(6)将监管的网站资产列表www.123.com.cn更新成www.456.com.cn,关键词更新网站标题“网站安全测试平台”、主办单位“花音安全有限公司”,结束流程。
具体实施例3:
以下为网站状态为失活的实施例,执行流程如下:
(1)从监管的网站资产列表中获取一条待检测的网站域名:www.789.com.cn;
(2)向该网站请求获取到HTTP状态码为502,502属于失活状态码;
(3)获取该网站原录入的标题关键词“X县人民医院”,根据关键字爬取搜索引擎的前10条网站域名及关键词信息,依次判断每个网站是否是正常状态的网站,并且比较每个关键词和原录入网站关键词的相似度,相似度最高的网站域名;
(4)将监管的网站资产列表www.789.com.cn更新成相似度最高的网站域名,原录入关键词更新成该网站域名的关键词,结束流程。
最后,还需要注意的是,以上列举的仅是本发明的若干个具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。
Claims (3)
1.基于HTTP响应的网站资产失活检测和更新方法,其特征在于:包括以下步骤:
1)、获取待检测的网站域名;执行步骤2);
2)、向服务器请求该域名获取HTTP响应状态码,判断是否属于失活状态码,如果属于失活状态码,进行步骤3);如果不属于则执行步骤11);
归类为失活状态码的有307、400、421、422、502、503、504、550、552和553,当向服务器请求时返回失活状态码时,网站都属于关闭或请求失败的失活状态;
3)、判断HTTP响应状态码是否为重定向码301或302,如果不是则执行步骤4);如果是则执行步骤5);
4)、网站状态正常,网站不需要更新,流程结束;
5)、获取重定向后的网站域名;执行步骤6);
6)、判断重定向后的网站域名与待检测的网站域名是否相同,如果相同,执行步骤4);如果不相同,执行步骤7);
当重定向后的网站域名与待检测的网站域名不同,存在情况为以下任一:网站更新了域名或者IP,访问原网站即转移到新地址;
7)、爬取重定向后网站的标题、主办单位和域名备案信息;执行步骤8);
8)、判断重定向后网站的网站标题、主办单位、域名备案信息是否接近原网站关键词信息,如果接近执行步骤9),如果不接近执行步骤10);
原网站关键词信息在第一次录入该网站时便同时录入,关键词获取方式是爬虫爬取网站,匹配网站标题、主办单位的关键词;
如果重定向后网站的标题、主办单位和域名备案信息中含有超过80%原网站关键词信息,则判定为接近;否则,判定为不接近;
9)、将待检测的网站域名替换成重定向后的网站域名,结束;
10)、丢弃重定向的网站域名,执行步骤11);
11)、根据原网站关键词信息获取网站的关键词,执行步骤12);
12)、根据关键词从搜索引擎爬取网站信息,获取搜索引擎搜索到的网站域名作为搜索所得网站;执行步骤13);
13)、依序请求每个网站域名,获取HTTP响应状态码;执行步骤14);
14)、判断HTTP响应状态码是否为200,如果不是则执行步骤15);如果是则执行步骤16);
15)、丢弃网站,执行步骤18);
16)、爬取搜索所得网站的标题、主办单位和域名备案信息;执行步骤17);
17)、将标题、主办单位、域名备案信息分别与原网站关键词信息比较获取相似度,取三者相似度的平均值作为最终的准确率;执行步骤18);
具体为:根据原网站关键词信息和搜索所得网站的标题、主办单位、域名备案信息计算此网站为新网站的准确率,计算方法采用比较相似度的方法,将标题、主办单位、域名备案信息分别与原网站关键词比较获取百分值,取三者相似度的平均值作为最终的准确率;
18)、判断是否还有搜索所得网站未处理,如果有则执行步骤13),没有则进行步骤19);
19)、比较所有的搜索所得网站的准确率,获取准确率最高的搜索所得网站的域名作为新的域名;执行步骤20);
20)、将监管的网站资产列表中待检测的网站域名替换成新的域名,结束。
2.根据权利要求1所述的基于HTTP响应的网站资产失活检测和更新方法,其特征在于:
搜索引擎为百度搜索引擎。
3.根据权利要求2所述的基于HTTP响应的网站资产失活检测和更新方法,其特征在于:
步骤12)获取搜索引擎排名前十的网站域名作为搜索所得网站。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911090163.2A CN110932928B (zh) | 2019-11-08 | 2019-11-08 | 基于http响应的网站资产失活检测和更新方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911090163.2A CN110932928B (zh) | 2019-11-08 | 2019-11-08 | 基于http响应的网站资产失活检测和更新方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110932928A CN110932928A (zh) | 2020-03-27 |
CN110932928B true CN110932928B (zh) | 2022-03-18 |
Family
ID=69853627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911090163.2A Active CN110932928B (zh) | 2019-11-08 | 2019-11-08 | 基于http响应的网站资产失活检测和更新方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110932928B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102819554A (zh) * | 2012-06-26 | 2012-12-12 | 北京奇虎科技有限公司 | 一种收藏夹数据的处理方法、装置和服务器 |
CN103812715A (zh) * | 2012-11-07 | 2014-05-21 | 江苏仕德伟网络科技股份有限公司 | 一种判断网站运行状态的方法 |
CN105069011A (zh) * | 2015-07-07 | 2015-11-18 | 安一恒通(北京)科技有限公司 | 用于管理网页收藏夹的方法、装置及系统 |
CN105912573A (zh) * | 2016-03-30 | 2016-08-31 | 北京网康科技有限公司 | 数据更新方法及装置 |
CN107832428A (zh) * | 2017-11-14 | 2018-03-23 | 北京知行锐景科技有限公司 | 基于网站页面的网页状态监控方法及系统 |
CN108900554A (zh) * | 2018-08-22 | 2018-11-27 | 杭州安恒信息技术股份有限公司 | Http协议资产检测方法、系统、设备及计算机介质 |
-
2019
- 2019-11-08 CN CN201911090163.2A patent/CN110932928B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102819554A (zh) * | 2012-06-26 | 2012-12-12 | 北京奇虎科技有限公司 | 一种收藏夹数据的处理方法、装置和服务器 |
CN103812715A (zh) * | 2012-11-07 | 2014-05-21 | 江苏仕德伟网络科技股份有限公司 | 一种判断网站运行状态的方法 |
CN105069011A (zh) * | 2015-07-07 | 2015-11-18 | 安一恒通(北京)科技有限公司 | 用于管理网页收藏夹的方法、装置及系统 |
CN105912573A (zh) * | 2016-03-30 | 2016-08-31 | 北京网康科技有限公司 | 数据更新方法及装置 |
CN107832428A (zh) * | 2017-11-14 | 2018-03-23 | 北京知行锐景科技有限公司 | 基于网站页面的网页状态监控方法及系统 |
CN108900554A (zh) * | 2018-08-22 | 2018-11-27 | 杭州安恒信息技术股份有限公司 | Http协议资产检测方法、系统、设备及计算机介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110932928A (zh) | 2020-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Amato et al. | Recognizing human behaviours in online social networks | |
CN103297435B (zh) | 一种基于web日志的异常访问行为检测方法与系统 | |
US9614862B2 (en) | System and method for webpage analysis | |
CN101350822B (zh) | 一种Internet恶意代码的发现和追踪方法 | |
Alrizah et al. | Errors, misunderstandings, and attacks: Analyzing the crowdsourcing process of ad-blocking systems | |
CN101971591B (zh) | 分析网址的系统及方法 | |
US7987173B2 (en) | Systems and methods of handling internet spiders | |
JP5513434B2 (ja) | パーペチュアルカレンダページを含むウェブページのトラップ検出及びこれを用いた検索データベース構築方法、システム及びコンピュータ読取可能な記録媒体 | |
US9465828B2 (en) | Computer implemented methods and apparatus for identifying similar labels using collaborative filtering | |
US9667644B2 (en) | Risk identification | |
US20150207811A1 (en) | Vulnerability vector information analysis | |
Chyrun et al. | Web Resource Changes Monitoring System Development. | |
Achsan et al. | A fast distributed focused-web crawling | |
US11443006B2 (en) | Intelligent browser bookmark management | |
CN109768992A (zh) | 网页恶意扫描处理方法及装置、终端设备、可读存储介质 | |
KR102509748B1 (ko) | 메타데이터 및 딥러닝 보안제어를 이용한 가명처리 서비스 제공 시스템 | |
WO2020211130A1 (zh) | 一种网站暗链检测方法和装置 | |
Vavilis et al. | An anomaly analysis framework for database systems | |
Li | [Retracted] Internet Tourism Resource Retrieval Using PageRank Search Ranking Algorithm | |
Garcia et al. | Web attack detection using ID3 | |
CN110932928B (zh) | 基于http响应的网站资产失活检测和更新方法 | |
CN116662987A (zh) | 业务系统监控方法、装置、计算机设备及存储介质 | |
KR20120090131A (ko) | 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 | |
Guo et al. | A web crawler detection algorithm based on web page member list | |
CN109558526A (zh) | 一种基于关键字检测的网站篡改告警方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |