CN107729395B - 一种冗余页面的发现方法 - Google Patents
一种冗余页面的发现方法 Download PDFInfo
- Publication number
- CN107729395B CN107729395B CN201710854632.8A CN201710854632A CN107729395B CN 107729395 B CN107729395 B CN 107729395B CN 201710854632 A CN201710854632 A CN 201710854632A CN 107729395 B CN107729395 B CN 107729395B
- Authority
- CN
- China
- Prior art keywords
- page
- redundant
- stage
- pages
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明涉及网页搜索引擎技术领域以及网页漏洞检测领域,旨在提供一种冗余页面的发现方法。该种冗余页面的发现方法包括:探测页面收集阶段、探测页面处理阶段、目标页面处理阶段、目标页面识别阶段。本发明通过同类型页面的相似度比较,为了避免服务器对不同类型页面做不同处理导致判断出错,先通过发送该类型确定不存在的页面获取服务器对该类型冗余页面处理结果,基于此信息来判断目标页面是否为冗余页面,弥补了业内对该种页面无法识别的痛点,通过类型判断可以更为精准的来判断是否是冗余页面,避免了服务器对不同类型不同处理导致的判断失败。
Description
技术领域
本发明是关于网页搜索引擎技术领域以及网页漏洞检测领域,特别涉及一种冗余页面的发现方法。
背景技术
网站技术日新月异,为了追求用户体验,很多网站将一些原本应该返回错误代码的冗余页面,通过一系列的处理,返回了正常页面的代码,这样会造成一系列自动化工具的困扰。
例如:
1、搜索引擎会将这种页面收录,给用户查询资料造成了困扰。
2、网站漏洞检测,会认为这是一个有效的页面,从而进行不必要的测试,浪费了时间。
现有的很多技术都是通过返回码来判断是否是冗余页面,如果一个冗余页面按照正常的返回码则会对自动化的东西造成困扰。而且冗余页面多种多样,市面上并没有很好的解决方案。
发明内容
本发明的主要目的在于克服现有技术中的不足,提供一种能够智能识别冗余页面的方法。为解决上述技术问题,本发明的解决方案是:
提供一种冗余页面的发现方法,用于判断网站的目标页面是否为冗余页面,所述冗余页面的发现方法包括探测页面收集阶段、探测页面处理阶段、目标页面处理阶段、目标页面识别阶段;
所述探测页面收集阶段,用于收集网站冗余页面:通过对站点发送不同页面类型的确定不存在的页面(即对站点发送确定不存在的页面,且为不同类型的页面,例如html、asp、jsp、jpg、png、css、js等之类的网页常见类型),收集网站对不同类型不存在页面的处理回应,以及对该不存在页面返回的HTTP返回码;
所述探测页面处理阶段,用于对探测页面收集阶段返回的结果做处理:将探测页面收集阶段收集的网站冗余页面(即探测页面收集阶段对站点发送不同页面类型的确定不存在的页面)进行降维处理(例如特征提取,将网页信息降维成特征;例如网页结构特征,网页内容特征),求得特征值,并记录下HTTP返回码;
所述目标页面处理阶段,对目标页面做特征提取处理,求得特征值(该目标网页的特征值,和探测页面处理阶段对网站冗余页面相同的特征值求取方式相同),将目标页面的HTTP返回码与目标页面计算所得的特征值保存下来;
所述目标页面识别阶段,用于将目标页面与和其页面类型相同的网站冗余页面做识别对比(例如目标页面为js类型的页面,则取探测页面处理阶段中获得的不存在的js类型页面的特征值与HTTP返回码):先比较目标页面和该网站冗余页面的HTTP返回码是否一致,若HTTP返回码一致,则将目标页面的特征值与该网站冗余页面的特征值做相似度匹配,若相似(即相似度超过预设的阈值),则判断该目标页面为冗余页面。
在本发明中,所述探测页面收集阶段采用HTTP发送库实现,且不限该HTTP发送库的实现语言。
在本发明中,所述探测页面处理阶段中的特征值,通过下述任意一种计算方式获得:
1)通过simhash计算页面的特征值;
2)通过词频来算特征值;
3)对页面做降维处理形成特征值;
4)通过局部敏感hash求得特征值。
在本发明中,目标页面识别阶段中页面间特征值的相似度,是指两个特征值的余弦距离、欧氏距离或者杰卡德相似性度量。
在本发明中,所述页面类型,是用http头部中的content-type来区分的页面类型、用URL的文件后缀名来区分的页面类型或者用返回数据的文件头来区分的页面类型。
本发明的工作原理:使用通过同类型页面的相似度比较,先通过发送该类型确定不存在的页面获取服务器对该类型冗余页面处理结果,并先比对返回码是否一致,若不一致,则可以认为不是冗余页面,若一致则判断两个页面中的相似度,若相似,则判断为冗余页面。
与现有技术相比,本发明的有益效果是:
本发明使用通过同类型页面的相似度比较,为了避免服务器对不同类型页面做不同处理导致判断出错,先通过发送该类型确定不存在的页面获取服务器对该类型冗余页面处理结果,基于此信息来判断目标页面是否为冗余页面,弥补了业内对该种页面无法识别的痛点,通过类型判断可以更为精准的来判断是否是冗余页面,避免了服务器对不同类型不同处理导致的判断失败。
附图说明
图1为本发明的工作示意图。
具体实施方式
首先需要说明的是,本发明涉及冗余页面发现方法,是计算机技术在网页搜索引擎技术领域以及网页漏洞检测领域的一种应用。在本发明的实现过程中,会涉及到多个算法的应用。申请人认为,如在仔细阅读申请文件、准确理解本发明的实现原理和发明目的以后,在结合现有公知技术的情况下,本领域技术人员完全可以运用其掌握的软件编程技能实现本发明。凡本发明申请文件提及的均属此范畴,申请人不再一一列举。
下面结合附图与具体实施方式对本发明作进一步详细描述:
如图1所示的一种冗余页面的发现方法包括探测页面收集阶段、探测页面处理阶段、目标页面处理阶段、目标页面识别阶段,用来识别目标URL是否为冗余页面。具体步骤如下:
1、预先确定一系列探测的文件类型,并构造这些文件类型的探测包;
2、对服务器发送该文件类型探测包的HTTP请求,并记录该请求的响应头以及响应内容;
3、对步骤2所得页面进行HTTP返回码进行记录,并对页面做特征值提取;
4、对目标页面做特征提取并记录HTTP返回码;
5、确认目标页面的文件类型;
6、在已有的探测文件类型中查找该类型的探测数据,包括探测页面的特征数据以及HTTP返回码;
7、若找到,则进行跳到步骤9;
8、若找不到,则构造一个该文件类型的探测包,重复步骤2、3,之后跳至步骤9;
9、对目标页面以及探测页面做HTTP返回码的比较;
10、若返回码不一致,则不为冗余页面,结束;
11、若返回码一致,则对特征值做相似度匹配;
12、若不相似,则不为冗余页面,结束;
13、若相似则为冗余页面,结束。
最后,需要注意的是,以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有很多变形。本领域的普通技术人员能从本发明公开的内容中直接导出或联想到的所有变形,均应认为是本发明的保护范围。
Claims (3)
1.一种冗余页面的发现方法,用于判断网站的目标页面是否为冗余页面,其特征在于,所述冗余页面的发现方法包括探测页面收集阶段、探测页面处理阶段、目标页面处理阶段、目标页面识别阶段;
所述探测页面收集阶段,用于收集网站冗余页面:通过对站点发送不同页面类型的确定不存在的页面,收集网站对不同类型不存在页面的处理回应,以及对该不存在页面返回的HTTP返回码;
所述探测页面处理阶段,用于对探测页面收集阶段返回的结果做处理:将探测页面收集阶段收集的网站冗余页面进行降维处理,求得特征值,并记录下HTTP返回码;所述特征值通过下述任意一种计算方式获得:1)通过simhash计算页面的特征值;2)通过词频来算特征值;3)对页面做降维处理形成特征值;4)通过局部敏感hash求得特征值;
所述目标页面处理阶段,对目标页面做特征提取处理,求得特征值,将目标页面的HTTP返回码与目标页面计算所得的特征值保存下来;
所述目标页面识别阶段,用于将目标页面与和其页面类型相同的网站冗余页面做识别对比:先比较目标页面和该网站冗余页面的HTTP返回码是否一致,若HTTP返回码一致,则将目标页面的特征值与该网站冗余页面的特征值做相似度匹配,若相似,则判断该目标页面为冗余页面;
其中,页面间特征值的相似度,是指两个特征值的余弦距离、欧氏距离或者杰卡德相似性度量。
2.根据权利要求1所述的一种冗余页面的发现方法,其特征在于,所述探测页面收集阶段采用HTTP发送库实现,且不限该HTTP发送库的实现语言。
3.根据权利要求1所述的一种冗余页面的发现方法,其特征在于,所述页面类型,是用http头部中的content-type来区分的页面类型、用URL的文件后缀名来区分的页面类型或者用返回数据的文件头来区分的页面类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710854632.8A CN107729395B (zh) | 2017-09-20 | 2017-09-20 | 一种冗余页面的发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710854632.8A CN107729395B (zh) | 2017-09-20 | 2017-09-20 | 一种冗余页面的发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107729395A CN107729395A (zh) | 2018-02-23 |
CN107729395B true CN107729395B (zh) | 2020-11-24 |
Family
ID=61206676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710854632.8A Active CN107729395B (zh) | 2017-09-20 | 2017-09-20 | 一种冗余页面的发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107729395B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799647A (zh) * | 2012-06-30 | 2012-11-28 | 华为技术有限公司 | 网页去重方法和设备 |
CN104317938A (zh) * | 2014-10-31 | 2015-01-28 | 北京国双科技有限公司 | 网页链接有效性验证方法及装置 |
CN104750741A (zh) * | 2013-12-30 | 2015-07-01 | 中国移动通信集团湖南有限公司 | 一种无效链接处理方法及装置 |
CN105022824A (zh) * | 2015-07-21 | 2015-11-04 | 北京神州绿盟信息安全科技股份有限公司 | 无效链接的识别方法和装置 |
CN105069011A (zh) * | 2015-07-07 | 2015-11-18 | 安一恒通(北京)科技有限公司 | 用于管理网页收藏夹的方法、装置及系统 |
CN105975526A (zh) * | 2016-04-29 | 2016-09-28 | 国家计算机网络与信息安全管理中心 | 一种url链接有效性的验证方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080172404A1 (en) * | 2007-01-17 | 2008-07-17 | International Business Machines Corporation | Method and apparatus for bookmarking uniform resource identifiers that are subject to redirection |
CN102938041B (zh) * | 2012-10-30 | 2015-04-15 | 北京神州绿盟信息安全科技股份有限公司 | 一种页面篡改的综合检测方法及系统 |
US20180276304A1 (en) * | 2015-09-21 | 2018-09-27 | Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd | Advanced computer implementation for crawling and/or detecting related electronically catalogued data using improved metadata processing |
-
2017
- 2017-09-20 CN CN201710854632.8A patent/CN107729395B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799647A (zh) * | 2012-06-30 | 2012-11-28 | 华为技术有限公司 | 网页去重方法和设备 |
CN104750741A (zh) * | 2013-12-30 | 2015-07-01 | 中国移动通信集团湖南有限公司 | 一种无效链接处理方法及装置 |
CN104317938A (zh) * | 2014-10-31 | 2015-01-28 | 北京国双科技有限公司 | 网页链接有效性验证方法及装置 |
CN105069011A (zh) * | 2015-07-07 | 2015-11-18 | 安一恒通(北京)科技有限公司 | 用于管理网页收藏夹的方法、装置及系统 |
CN105022824A (zh) * | 2015-07-21 | 2015-11-04 | 北京神州绿盟信息安全科技股份有限公司 | 无效链接的识别方法和装置 |
CN105975526A (zh) * | 2016-04-29 | 2016-09-28 | 国家计算机网络与信息安全管理中心 | 一种url链接有效性的验证方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107729395A (zh) | 2018-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017113677A1 (zh) | 处理用户行为数据的方法和系统 | |
US7860870B2 (en) | Detection of abnormal user click activity in a search results page | |
US20130086677A1 (en) | Method and device for detecting phishing web page | |
CN102915295B (zh) | 文档检测方法及装置 | |
US20140122458A1 (en) | Anchor Image Identification for Vertical Video Search | |
CN102752288A (zh) | 网络访问行为识别方法和装置 | |
CN108900554B (zh) | Http协议资产检测方法、系统、设备及计算机介质 | |
CN107888606B (zh) | 一种域名信誉度评估方法及系统 | |
CN103297394A (zh) | 网站安全检测方法和装置 | |
US20140006435A1 (en) | Searching apparatus, searching method, and searching system | |
CN111159514B (zh) | 网络爬虫的任务有效性检测方法、装置和设备及存储介质 | |
CN106874165B (zh) | 网页检测方法和装置 | |
CN108667766B (zh) | 文件探测方法及文件探测装置 | |
US20090259649A1 (en) | System and method for detecting templates of a website using hyperlink analysis | |
CN114528457A (zh) | Web指纹检测方法及相关设备 | |
CN103246675B (zh) | 一种用于抓取网站数据的方法与设备 | |
CN111597490A (zh) | Web指纹识别方法、装置、设备及计算机存储介质 | |
CN107729395B (zh) | 一种冗余页面的发现方法 | |
US20090055931A1 (en) | Device and method for detecting vulnerability of web server using multiple search engines | |
CN110555147A (zh) | 网站数据抓取方法、装置、设备及其介质 | |
CN110855635A (zh) | Url识别方法、装置及数据处理设备 | |
CN104899320A (zh) | 网页修复方法、终端、服务器及系统 | |
CN105653625B (zh) | 一种异常数据分析方法及装置 | |
CN114492576A (zh) | 一种异常用户检测方法、系统、存储介质及电子设备 | |
KR101005871B1 (ko) | 대용량 웹로그마이닝 및 공격탐지를 위한 비트리인덱스벡터기반 웹로그 복구방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 310051 No. 188 Lianhui Street, Xixing Street, Binjiang District, Hangzhou City, Zhejiang Province Applicant after: Hangzhou Anheng Information Technology Co.,Ltd. Address before: Zhejiang Zhongcai Building No. 68 Binjiang District road Hangzhou City, Zhejiang Province, the 310051 and 15 layer Applicant before: DBAPPSECURITY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |