CN105391812A - 一种网站自检系统及其自检方法 - Google Patents

一种网站自检系统及其自检方法 Download PDF

Info

Publication number
CN105391812A
CN105391812A CN201410447681.6A CN201410447681A CN105391812A CN 105391812 A CN105391812 A CN 105391812A CN 201410447681 A CN201410447681 A CN 201410447681A CN 105391812 A CN105391812 A CN 105391812A
Authority
CN
China
Prior art keywords
url
website
domain name
self
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410447681.6A
Other languages
English (en)
Inventor
陈国辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Fuwang Information Technology Co Ltd
Original Assignee
Shanghai Fuwang Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Fuwang Information Technology Co Ltd filed Critical Shanghai Fuwang Information Technology Co Ltd
Priority to CN201410447681.6A priority Critical patent/CN105391812A/zh
Publication of CN105391812A publication Critical patent/CN105391812A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种采用无深度限制技术的网站自检方法及系统。所述网站自检方法包括以下步骤:步骤S1,读取需要扫描的网站域名;步骤S2,获取当前域名内所有的URL;步骤S3,解析URL地址;步骤S4,识别URL地址是否属于当前域名;当URL地址属于当前域名,则跳转到S1步骤,进行重新读取;当URL地址不属于当前域名,则执行步骤S5;步骤S5,获取解析后的URL状态码;步骤S6,将URL状态码保存到数据库。本发明的网站自检方法采用了无深度限制技术,能够采集到网站最深层的链接的状态码。为网站运营人员了解和优化网站提供了基础数据,同时运营人员不用为了获得网站基础性能的数据而购买多种软件。

Description

一种网站自检系统及其自检方法
技术领域
本发明涉及网络技术领域,具体涉及一种网站自检系统及其自检方法。
背景技术
网络技术是从1990年代中期发展起来的新技术,它把分散的资源融为有机整体,实现资源的全面共享和有机协作,使人们能够使用资源的整体能力并按需获取信息。
互联网检索是指通过向搜索引擎等检索系统输入检索条件,由检索系统返回检索结果的互联网应用方式。
现有互联网检索过程主要如下:
(1)用户打开浏览器,在浏览器的地址栏中输入检索系统的域名地址,浏览器将该域名地址发送给域名系统(DomainNameSystem,简称:DNS)服务器。
(2)所述DNS服务器根据该完整域名地址,经过若干次域名查询过程最终查询到相应检索服务器的地址信息,并将该地址信息返回给所述浏览器。
(3)所述浏览器根据所述地址信息访问所述检索服务器,并显示该检索服务器提供的检索页面,用户在该检索页面中输入检索条件,由浏览器将该检索条件发送所述检索服务器。
(4)所述检索服务器根据所述检索条件进行检索,并向所述浏览器返回检索结果,浏览器将该检索结果显示给用户。
这些互联网的检索过程中或者涉及计算机网路安全领域(例如判断网站是否存在诸如CGI漏洞,SQL注入漏洞、跨站脚本漏洞等各种安全漏洞,需要从网站外部,即远程对网站进行安全漏洞扫描,以确定网站是否存在这些安全漏洞),都必须使用到互联网网站扫描工具。现有的检索过程和扫描工具存在扫描到相应网站链接的时候,仅能返回相应网站链接的固定状态;而不能够在扫描到相应网站连接的时候,返回相应网站链接的所有状态。例如,目前大家习惯上使用爬虫程序老虎sitemap生产工具,其就只能够获取到相应链接的404状态码,而不能获取到相应链接的所有状态码,譬如301跳转码。
发明内容
为了解决现有技术中存在的问题,本发明的目的是提供一种采用无深度限制技术,能够扫描到相应网站最深层的链接状态码,从而获取所有链接的状态码的网站自检系统及其自检方法。
根据本发明的一个方面,提供一种采用无深度限制技术的网站自检方法,其包括以下步骤:
步骤S1,读取需要扫描的网站域名;
步骤S2,获取当前域名内所有的URL;
步骤S3,解析URL地址;
步骤S4,识别URL地址是否属于当前域名;当URL地址属于当前域名,则跳转到S1步骤,进行重新读取;当URL地址不属于当前域名,则执行步骤S5;
步骤S5,获取解析后的URL状态码;
步骤S6,将URL状态码保存到数据库。
所述步骤S4采用一次迭代。
本发明的网站自检方法采用了无深度限制技术,能够采集到网站最深层的链接的状态码。为网站运营人员了解和优化网站提供了基础数据,同时运营人员不用为了获得网站基础性能的数据而购买多种软件。
根据本发明的另一个方面,提供一种采用无深度限制技术的网站自检系统,包括以下部件:
网站域名读取单元,其用于读取需要扫描的网站入口域名;
网站域名获取单元,其用于获取当前网站域名内所有的URL地址;
URL解析单元,其用于解析网站域名内所有的URL地址;
域名判断单元,其用于识别URL地址是否属于当前域名;
URL状态码获取单元,其用于获取经URL解析单元解析出来的URL状态码;
数据库存储单元,其用于储存URL状态码获取单元获取到的各种URL状态码。
所述系统支持并行多线处理,且总线程数没有上限限制。
根据本发明的网站自检系统采用了无深度限制技术,能够采集到网站最深层的链接的状态码。为网站运营人员了解和优化网站提供了基础数据,同时运营人员不用为了获得网站基础性能的数据而购买多种软件。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1是本发明的一种网站自检方法的流程示意图;
图2是本发明的一种网站自检系统的结构框图连接示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
图1显示了本发明的网站自检方法的流程示意图。
参见图1所示,本发明的一种采用无深度限制技术的网站自检方法,包括以下步骤,包括以下步骤:
步骤S1,读取需要扫描的网站域名。
此为本发明的网站自检方法的第一步,也即为网站入口。在本步骤中,网站域名读取单元开始读取网站的域名,也即是网站的各种URL地址。
步骤S2,获取当前域名内所有的URL。
在该步骤中,URL地址获取单元开始获取到当前网站域名内所有的URL地址。
步骤S3,解析URL地址。
URL地址解析单元在S3步骤中对网站内所有的URL地址进行解析。
步骤S4,识别URL地址是否属于当前域名;当URL地址属于当前域名,则跳转到S1步骤,进行重新读取;当URL地址不属于当前域名,则执行步骤S5。
在该步骤中,域名判断单元采用一次迭代的方法对解析后的URL地址进行识别和判断。当识别出URL地址属于当前域名,则跳转到S1步骤,进行重新读取;当识别出URL地址不属于当前域名,则执行步骤S5。
步骤S5,解析URL,获取URL状态码。在本步骤中,URL状态码获取单元将经URL解析单元解析出来的URL状态码进行获取。
步骤S6,将URL状态码保存到数据库。在结束的时候,网站自检系统将获取单元获取到的各种URL状态码存储于数据库存储单元。
通过采用上述流程,本发明的网站自检方法采用无深度限制技术,对URL地址进行循环判断和循环解析,进而能够采集到网站最深层的链接的状态码。为网站运营人员了解和优化网站提供了基础数据,同时运营人员不用为了获得网站基础性能的数据而购买多种软件。
图2是本发明的一种网站自检系统的结构框图连接示意图。
本发明一种采用无深度限制技术的网站自检系统,包括以下部件:
网站域名读取单元,其用于读取需要扫描的网站入口域名;
网站域名获取单元,其用于获取当前网站域名内所有的URL地址;
URL解析单元,其用于解析网站域名内所有的URL地址;
域名判断单元,其用于识别URL地址是否属于当前域名;
URL状态码获取单元,其用于获取经URL解析单元解析出来的URL状态码;
数据库存储单元,其用于储存URL状态码获取单元获取到的各种URL状态码。
所述系统支持并行多线处理,且总线程数没有上限限制。
所述网站域名读取单元的输出接口与网站域名获取单元的输入接口连接;所述网站域名获取单元的输出接口连接到URL解析单元的输入接口;URL解析单元的输出接口连接到域名判断单元的输入接口;域名判断单元的输出接口分别连接到网站域名读取单元和URL状态码获取单元;URL状态码获取单元的输出接口连接到数据库存储单元的输入口。
根据本发明的网站自检系统采用了无深度限制技术,能够采集到网站最深层的链接的状态码。为网站运营人员了解和优化网站提供了基础数据,同时运营人员不用为了获得网站基础性能的数据而购买多种软件。
本发明一种采用无深度限制技术的网站自检系统的工程原理如下:
首先,网站域名读取单元作为网站入口开始读取需要扫描的网站入口域名。然后,网站域名获取单元进行获取当前网站域名内所有的URL地址。其次,URL解析单元进行解析网站域名内所有的URL地址。第四步,域名判断单元进行一次迭代,开始分别识别所有的URL地址是否属于当前域名。当URL地址属于当前域名,则跳转到第一步让网站域名读取单元进行重新读取。当URL地址不属于当前域名,则进入下一步,让URL状态码获取单元获取经URL解析单元解析出来的URL状态码。最后,系统将从URL状态码获取单元获取到的各种URL状态码存储到数据库存储单元。整个系统支持并行多线处理,且总线程数没有上限限制。
综上所述,本发明的网站自检系统采用了无深度限制技术,能够采集到网站最深层的链接的状态码。为网站运营人员了解和优化网站提供了基础数据,同时运营人员不用为了获得网站基础性能的数据而购买多种软件。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (4)

1.一种网站自检方法,其特征在于,包括以下步骤:
步骤S1,读取需要扫描的网站域名;
步骤S2,获取当前域名内所有的URL;
步骤S3,解析URL地址;
步骤S4,识别URL地址是否属于当前域名;当URL地址属于当前域名,则跳转到S1步骤,进行重新读取;当URL地址不属于当前域名,则执行步骤S5;
步骤S5,获取URL状态码;
步骤S6,将URL状态码保存到数据库。
2.根据权利要求1所述的一种网站自检方法,其特征在于:所述步骤S4采用一次迭代。
3.一种网站自检系统,其特征在于:所述网站自检系统包括以下部件:
网站域名读取单元,其用于读取需要扫描的网站入口域名;
网站域名获取单元,其用于获取当前网站域名内所有的URL地址;
URL解析单元,其用于解析网站域名内所有的URL地址;
域名判断单元,其用于识别URL地址是否属于当前域名;
URL状态码获取单元,其用于获取经URL解析单元解析出来的URL状态码;
数据库存储单元,其用于储存URL状态码获取单元获取到的各种URL状态码。
4.根据权利要求3所述的一种网站自检系统,其特征在于:所述系统支持并行多线处理,且总线程数没有上限限制。
CN201410447681.6A 2014-09-04 2014-09-04 一种网站自检系统及其自检方法 Pending CN105391812A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410447681.6A CN105391812A (zh) 2014-09-04 2014-09-04 一种网站自检系统及其自检方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410447681.6A CN105391812A (zh) 2014-09-04 2014-09-04 一种网站自检系统及其自检方法

Publications (1)

Publication Number Publication Date
CN105391812A true CN105391812A (zh) 2016-03-09

Family

ID=55423641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410447681.6A Pending CN105391812A (zh) 2014-09-04 2014-09-04 一种网站自检系统及其自检方法

Country Status (1)

Country Link
CN (1) CN105391812A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1433615A (zh) * 2000-05-05 2003-07-30 诺玛迪克斯公司 网络使用情况监视设备和相关方法
CN101453424A (zh) * 2009-01-06 2009-06-10 中国人民解放军信息工程大学 一种网络信息资源访问控制方法和系统
CN101510195A (zh) * 2008-02-15 2009-08-19 刘峰 基于爬虫技术的网站安全防护与测试诊断系统构造方法
CN102541937A (zh) * 2010-12-22 2012-07-04 北大方正集团有限公司 一种网页信息探测方法及系统
CN102752154A (zh) * 2012-07-29 2012-10-24 西北工业大学 Web网站死链检测方法
CN103428186A (zh) * 2012-05-24 2013-12-04 中国移动通信集团公司 一种检测钓鱼网站的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1433615A (zh) * 2000-05-05 2003-07-30 诺玛迪克斯公司 网络使用情况监视设备和相关方法
CN101510195A (zh) * 2008-02-15 2009-08-19 刘峰 基于爬虫技术的网站安全防护与测试诊断系统构造方法
CN101453424A (zh) * 2009-01-06 2009-06-10 中国人民解放军信息工程大学 一种网络信息资源访问控制方法和系统
CN102541937A (zh) * 2010-12-22 2012-07-04 北大方正集团有限公司 一种网页信息探测方法及系统
CN103428186A (zh) * 2012-05-24 2013-12-04 中国移动通信集团公司 一种检测钓鱼网站的方法及装置
CN102752154A (zh) * 2012-07-29 2012-10-24 西北工业大学 Web网站死链检测方法

Similar Documents

Publication Publication Date Title
Malik et al. Information extraction using web usage mining, web scrapping and semantic annotation
CN108052632B (zh) 一种网络信息获取方法、系统及企业信息搜索系统
CN101546309B (zh) 对计算机网络中的资源内容构建索引的方法和设备
CN104572777B (zh) 基于UIWebView组件的网页加载方法及装置
CN108664559A (zh) 一种网站网页源代码自动爬取方法
US10754628B2 (en) Extracting web API endpoint data from source code to identify potential security threats
CN102404281A (zh) 一种网站扫描设备和方法
CN104901975A (zh) 网站日志安全分析方法、装置及网关
US20090083266A1 (en) Techniques for tokenizing urls
CN106446113A (zh) 移动大数据解析方法及装置
Steinmetz et al. Web service search on large scale
CN103823907A (zh) 一种整合在线视频资源地址的方法、装置及引擎
CN101727471A (zh) 网站内容检索系统及方法
CN104317857A (zh) 一种房屋信息采集服务系统
US8037073B1 (en) Detection of bounce pad sites
CN1960371A (zh) 一种访问Web应用程序文件的方法及系统
Bross et al. Mapping the blogosphere with rss-feeds
CN107526833B (zh) 一种url管理方法、系统
CN103838865A (zh) 用于挖掘时效性种子页的方法及装置
CN105930385A (zh) 一种数据爬取方法及系统
CN102917053B (zh) 一种用于判断网页网址重写的方法、设备和系统
KR102214990B1 (ko) 북마크관리 및 정보검색 서비스 제공시스템 및 이를 이용한 북마크관리 및 정보검색 서비스 제공방법
CN105306462A (zh) 网页链接检测方法及装置
CN105391812A (zh) 一种网站自检系统及其自检方法
Zhou et al. An analysis of urls generated from javascript code

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160309

RJ01 Rejection of invention patent application after publication