CN106844475A - 确定隐藏的url的方法及装置 - Google Patents

确定隐藏的url的方法及装置 Download PDF

Info

Publication number
CN106844475A
CN106844475A CN201611206116.6A CN201611206116A CN106844475A CN 106844475 A CN106844475 A CN 106844475A CN 201611206116 A CN201611206116 A CN 201611206116A CN 106844475 A CN106844475 A CN 106844475A
Authority
CN
China
Prior art keywords
url
extended
relevant information
extension
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611206116.6A
Other languages
English (en)
Inventor
王照旗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Beijing Qianxin Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Beijing Qianxin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Beijing Qianxin Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201611206116.6A priority Critical patent/CN106844475A/zh
Publication of CN106844475A publication Critical patent/CN106844475A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种确定隐藏的URL的方法及装置,涉及互联网技术领域,能够基于网站的已知URL来确定出其隐藏的URL。本发明的方法主要包括:获取网站的已知统一资源定位符URL的相关信息,所述已知URL为爬虫能够爬取到的URL,所述已知URL的相关信息包括用于扩展URL的特征信息;根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL;将所述扩展后的URL发送给所述网站的服务器;根据所述服务器返回的结果,确定所述扩展后的URL是否为所述网站隐藏的URL。本发明主要适用于利用爬虫技术爬取网页的场景中。

Description

确定隐藏的URL的方法及装置
技术领域
本发明涉及互联网技术领域,特别是涉及一种确定隐藏的URL的方法及装置。
背景技术
搜索引擎是网络信息搜索的主要工具,它能够自动从因特网搜集信息,并在经过一定整理以后,提供给用户进行查询的系统。搜索引擎在网络中抓取网页时,通常使用网络爬虫进行网页的抓取,最终将重要的网页展示给用户。抓取的策略中最常用的方法为先抓取起始网页中链接的所有网页,然后再选择其中一个链接的网页,继续抓取在该网页中链接的所有网页。然而网站中的某些URL是对外隐藏的,且对于这种隐藏的URL,爬虫无法抓取到,由此使得搜索引擎搜索网页的全面性降低,从而无法满足用户的搜索需求。
发明内容
有鉴于此,本发明提供的确定隐藏的URL的方法及装置,能够基于网站的已知URL来确定出其隐藏的URL。
本发明的目的是采用以下技术方案来实现的:
一方面,本发明提供了一种确定隐藏的URL的方法,所述方法包括:
获取网站的已知统一资源定位符URL的相关信息,所述已知URL为爬虫能够爬取到的URL,所述已知URL的相关信息包括用于扩展URL的特征信息;
根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL;
将所述扩展后的URL发送给所述网站的服务器;
根据所述服务器返回的结果,确定所述扩展后的URL是否为所述网站隐藏的URL。
可选的,若所述已知URL的相关信息包括用于指导搜索引擎爬取网站内容的文件的文件名,则所述根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL包括:
将所述文件名添加至所述已知URL中,获得所述扩展后的URL。
可选的,若所述已知URL的相关信息包括所述已知URL,则所述根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL包括:
根据所述已知URL中特定位置处的特定字符,确定所述网站的开发语言类型;
根据确定的开发语言类型所对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。
可选的,若所述已知URL的相关信息包括所述已知URL对应的超文本传送协议HTTP请求的响应头,则所述根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL包括:
对所述响应头进行解析,获得所述已知URL请求的文件类型以及服务器的基本信息;
根据所述文件类型对应的固有目录特征和/或所述服务器的基本信息对应的固有目录,对所述已知URL进行扩展,获得所述扩展后的URL。
可选的,所述服务器的基本信息包括以下任意一种或者几种的组合:
服务器的类型、服务器的版本、开发语言的类型以及开发语言的版本。
可选的,若所述已知URL的相关信息包括所述已知URL的超文本标记语言HTML页面,则所述根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL包括:
当所述HTML页面中记载有其他URL时,根据所述其他URL对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL;
当所述HTML页面中记载有其他开发语言的语句时,根据其他开发语言的语句对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。
可选的,所述服务器返回的结果包括HTTP状态码。
另一方面,本发明提供了一种确定隐藏的URL的装置,所述装置包括:
获取单元,用于获取网站的已知统一资源定位符URL的相关信息,所述已知URL为爬虫能够爬取到的URL,所述已知URL的相关信息包括用于扩展URL的特征信息;
扩展单元,用于根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL;
发送单元,用于将所述扩展单元获得的所述扩展后的URL发送给所述网站的服务器;
确定单元,用于根据所述服务器返回的结果,确定所述扩展后的URL是否为所述网站隐藏的URL。
可选的,所述扩展单元包括:
添加模块,用于当所述已知URL的相关信息包括用于指导搜索引擎爬取网站内容的文件的文件名时,将所述文件名添加至所述已知URL中,获得所述扩展后的URL。
可选的,所述扩展单元包括:
确定模块,用于当所述已知URL的相关信息包括所述已知URL时,根据所述已知URL中特定位置处的特定字符,确定所述网站的开发语言类型;
第一扩展模块,用于根据所述确定模块确定的开发语言类型所对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。
可选的,所述扩展单元包括:
解析模块,用于当所述已知URL的相关信息包括所述已知URL对应的超文本传送协议HTTP请求的响应头时,对所述响应头进行解析,获得所述已知URL请求的文件类型以及服务器的基本信息;
第二扩展模块,用于根据所述解析模块获得的所述文件类型对应的固有目录特征和/或所述服务器的基本信息对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。
可选的,所述服务器的基本信息包括以下任意一种或者几种的组合:
服务器的类型、服务器的版本、开发语言的类型以及开发语言的版本。
可选的,所述扩展单元包括:
第三扩展模块,用于在所述已知URL的相关信息包括所述已知URL的超文本标记语言HTML页面的情况下,当所述HTML页面中记载有其他URL时,根据所述其他URL对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL;
第四扩展模块,用于当所述HTML页面中记载有其他开发语言的语句时,根据其他开发语言的语句对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。
可选的,所述服务器返回的结果包括HTTP状态码。
借由上述技术方案,本发明提供的确定隐藏的URL的方法及装置,能够根据已知URL的相关信息中用于扩展URL的特征信息,对该已知URL进行扩展,获得已知URL所属网站可能存在的URL,并通过将扩展后的URL发送给网站服务器进行验证,来进一步确定该扩展后的URL是否为网站隐藏的URL,从而使得搜索引擎可以抓取之前难以抓取到的网页,进而提高了搜索引擎搜索网页的全面性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种确定隐藏的URL的方法的流程图;
图2示出了本发明实施例提供的一种确定隐藏的URL的装置的组成框图;
图3示出了本发明实施例提供的另一种确定隐藏的URL的装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了确定网站隐藏的URL,本发明实施例提供了一种确定隐藏的URL的方法,如图1所示,所述方法主要包括:
101、获取网站的已知URL的相关信息。
其中,所述已知URL为爬虫能够爬取到的URL,所述已知URL的相关信息包括用于扩展URL的特征信息。URL可以由多级目录组成,且每级目录由一些能够代表网站、区域、主题的字符串构成。
由于为了使得网络中的URL规范化,在为网站中的各个网页创建URL时,往往会基于某些固有目录特征来创建出不同URL,所以可以先确定固有目录特征,再根据固有目录特征对已知URL进行扩展。又由于当网站服务器的类型、服务器的版本、开发语言的类型、开发语言的版本以及文件类型等不同时,固有目录特征往往有所不同,所以用于扩展URL的特征信息可以包括网站服务器的类型、网站服务器的版本、开发语言的类型、开发语言的版本以及文件类型等信息。
在实际应用中,包含上述用于扩展URL的特征信息的内容包括但不限于:已知URL、所述已知URL对应的HTTP(HyperText Transfer Protocol,超文本传输协议)请求的响应头、所述已知URL的HTML(HyperText Markup Language,超文本标记语言)页面,因此已知URL的相关信息包括但不限于:已知URL、所述已知URL对应的HTTP请求的响应头、所述已知URL的HTML页面。
此外,由于用于指导搜索引擎爬取网站内容的文件也可能有对应的网页,所以也可以基于用于指导搜索引擎爬取网站内容的文件来扩展URL。相应地,已知URL的相关信息还可以包括用于指导搜索引擎爬取网站内容的文件的文件名,用于扩展URL的特征信息还可以包括用于指导搜索引擎爬取网站内容的文件的文件名。
102、根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL。
在上述步骤中提及,当所述已知URL的相关信息中包括已知URL、所述已知URL对应的HTTP请求的响应头、所述已知URL的HTML页面时,不同用于扩展URL的特征信息可能对应有不同的固有目录特征,并且网站的URL往往根据固有目录特征而创建,因此在获取已知URL的相关信息后,可以先从该已知URL的相关信息中提取用于扩展URL的特征信息,然后再根据提取的用于扩展URL的特征信息对应的固有目录特征,对所述已知URL进行扩展,获得扩展后的URL;当所述已知URL的相关信息中包括用于指导搜索引擎爬取网站内容的文件的文件名时,可以根据所述文件名对所述已知URL进行扩展,获得扩展后的URL。
103、将所述扩展后的URL发送给所述网站的服务器。
由于基于已知URL的相关信息创建出的URL并不一定真实存在,所以在获得所述扩展后的URL后,可以将所述扩展后的URL发送给网站服务器,以便网站服务器查找所述扩展后的URL是否存在。
104、根据所述服务器返回的结果,确定所述扩展后的URL是否为所述网站隐藏的URL。
当网站服务器接收到URL确定终端发送的URL后,可以在预设存储空间(例如数据库)中查找该URL,并将查找结果反馈给URL确定终端,以便URL确定终端根据反馈的结果,确定所述扩展后的URL是否为所述网站隐藏的URL。
具体的,由于HTTP状态码是用以表示网站服务器HTTP响应状态的3位数字代码,所以URL确定终端可以接收到HTTP状态码,并且根据HTTP状态码直接来确定所述扩展后的URL是否为所述网站隐藏的URL。例如,当HTTP状态码为200时,URL确定终端能够确定请求已成功,并请求所希望的响应头或数据体将随此响应返回,从而能够确定所述扩展后的URL为所述网站隐藏的URL;当HTTP状态码为404时,URL确定终端能够确定请求失败,并请求所希望得到的资源未被在服务器上发现,从而确定所述扩展后的URL不是所述网站隐藏的URL。
本发明实施例提供的确定隐藏的URL的方法,能够根据已知URL的相关信息中用于扩展URL的特征信息,对该已知URL进行扩展,获得已知URL所属网站可能存在的URL,并通过将扩展后的URL发送给网站服务器进行验证,来进一步确定该扩展后的URL是否为网站隐藏的URL,从而使得搜索引擎可以抓取之前难以抓取到的网页,进而提高了搜索引擎搜索网页的全面性。
可选的,下面对不同已知URL的相关信息所对应的不同URL扩展方法进行详细介绍:
(一)若所述已知URL的相关信息包括用于指导搜索引擎爬取网站内容的文件的文件名,则将所述文件名添加至所述已知URL中,获得所述扩展后的URL。
其中,用于指导搜索引擎爬取网站内容的文件主要包括robots.txt、sitemap.xml。由于用于指导搜索引擎爬取网站内容的文件也可能有对应的网页,所以可以将该文件的文件名添加至已知URL中(例如添加至已知URL的尾部),从而获得扩展后的URL。
示例性的,若已知URL为http://abc.com/d.php,则可以在该URL的后面增加robots.txt或者sitemap.xml,即扩展后的URL可以包括http://abc.com/d.php/robots.txt以及http://abc.com/d.php/sitemap.xml。
此外,由于robots.txt、sitemap.xml可以指导搜索引擎哪些网页可以爬取,哪些网页不能爬取,所以若robots.txt、sitemap.xml对应的网页存在,则还可以从这些网页中爬取之前爬取不到的URL。
(二)若所述已知URL的相关信息包括所述已知URL,则根据所述已知URL中特定位置处的特定字符,确定所述网站的开发语言类型;根据确定的开发语言类型所对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。
其中,特定位置可以为已知URL的尾部,也可以为其他位置,特定字符可以为文件名的后缀,也可以为其他信息。
示例性的,若已知URL为http://abc.com/d.php,则URL确定终端可以根据“d.php”的后缀确定网站的开发语言类型为php,从而可以根据php类型的开发语言对应的固有目录特征,对该已知URL进行扩展,获得扩展后的URL。
(三)若所述已知URL的相关信息包括所述已知URL对应的HTTP请求的响应头,则对所述响应头进行解析,获得所述已知URL请求的文件类型以及服务器的基本信息;根据所述文件类型对应的固有目录特征和/或所述服务器的基本信息对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。
其中,所述服务器的基本信息包括以下任意一种或者几种的组合:服务器的类型、服务器的版本、开发语言的类型以及开发语言的版本。在获得文件类型、服务器的类型、服务器的版本、开发语言的类型以及开发语言的版本后,可以分别根据文件类型对应的固有目录特征、由服务器的类型以及服务器的版本相结合所对应的固有目录特征、由开发语言的类型以及开发语言的版本相结合所对应的固有目录特征,对所述已知URL进行扩展,也可以将上述固有目录特征进行相结合或者上述用于扩展URL的特征信息相结合所对应的固有目录特征,对所述已知URL进行扩展。
示例性的,若响应头包括:{'Date':['Fri,04Mar 2016 07:27:26GMT'],'Content-Type':['text/html'],'X-Powered-By':['PHP/7.0.13'],'Server':['nginx/1.4.1']},则可以确定文件类型为“text/html”,服务器的基本信息中开发语言的类型及版本为“PHP/7.0.13”,服务器类型及版本为“nginx/1.4.1”,从而可以根据文件类型对应的固有目录特征和/或服务器的基本信息对应的固有目录特征对所述已知URL进行扩展,获得所述扩展后的URL。
(四)若所述已知URL的相关信息包括所述已知URL的HTML页面,则当所述HTML页面中记载有其他URL时,根据所述其他URL对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL;当所述HTML页面中记载有其他开发语言的语句时,根据其他开发语言的语句对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。
其中,HTML页面中记载的其他URL可能为单个URL,也可能为URL集合。确定HTML页面中是否含有其他开发语言的语句的实现方式可以为关键词搜索的方式,也可以为正则表达式匹配的方式。由于HTML页面的body部分存在其他开发语言的语句的可能性比较大,所以可以直接从body部分搜索是否含有其他开发语言的语句。
示例性的,若HTML页面中含有URL集合["http://testphp.vulnweb.com/login.php","http://testphp.vulnweb.com/flash/","http://testphp.vulnweb.com/blacklist/","http://testphp.vulnweb.com/activity/bac kup.tar"],则可以根据该URL集合对应的固有目录特征,对已知URL进行扩展,获得扩展后的URL。
进一步的,依据图1所示的方法,本发明的另一个实施例还提供了一种确定隐藏的URL的装置,如图2所示,所述装置主要包括:获取单元21、扩展单元22、发送单元23以及确定单元24。其中,
获取单元21,用于获取网站的已知统一资源定位符URL的相关信息,所述已知URL为爬虫能够爬取到的URL,所述已知URL的相关信息包括用于扩展URL的特征信息;
其中,URL可以由多级目录组成,且每级目录由一些能够代表网站、区域、主题的字符串构成。已知URL的相关信息包括但不限于:已知URL、所述已知URL对应的HTTP请求的响应头、所述已知URL的HTML页面。以及用于指导搜索引擎爬取网站内容的文件的文件名。用于扩展URL的特征信息可以包括网站服务器的类型、网站服务器的版本、开发语言的类型、开发语言的版本、文件类型以及用于指导搜索引擎爬取网站内容的文件的文件名等信息。
扩展单元22,用于根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL;
发送单元23,用于将所述扩展单元22获得的所述扩展后的URL发送给所述网站的服务器;
确定单元24,用于根据所述服务器返回的结果,确定所述扩展后的URL是否为所述网站隐藏的URL。
可选的,如图3所示,所述扩展单元22包括:
添加模块221,用于当所述已知URL的相关信息包括用于指导搜索引擎爬取网站内容的文件的文件名时,将所述文件名添加至所述已知URL中,获得所述扩展后的URL。
可选的,如图3所示,所述扩展单元22包括:
确定模块222,用于当所述已知URL的相关信息包括所述已知URL时,根据所述已知URL中特定位置处的特定字符,确定所述网站的开发语言类型;
第一扩展模块223,用于根据所述确定模块222确定的开发语言类型所对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。
可选的,如图3所示,所述扩展单元22包括:
解析模块224,用于当所述已知URL的相关信息包括所述已知URL对应的超文本传送协议HTTP请求的响应头时,对所述响应头进行解析,获得所述已知URL请求的文件类型以及服务器的基本信息;
第二扩展模块225,用于根据所述解析模块224获得的所述文件类型对应的固有目录特征和/或所述服务器的基本信息对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。
可选的,所述服务器的基本信息包括以下任意一种或者几种的组合:
服务器的类型、服务器的版本、开发语言的类型以及开发语言的版本。
可选的,如图3所示,所述扩展单元22包括:
第三扩展模块226,用于在所述已知URL的相关信息包括所述已知URL的超文本标记语言HTML页面的情况下,当所述HTML页面中记载有其他URL时,根据所述其他URL对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL;
第四扩展模块227,用于当所述HTML页面中记载有其他开发语言的语句时,根据其他开发语言的语句对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。
可选的,所述服务器返回的结果包括HTTP状态码。
由于HTTP状态码是用以表示网站服务器HTTP响应状态的3位数字代码,所以URL确定终端可以接收到HTTP状态码,并且根据HTTP状态码直接来确定所述扩展后的URL是否为所述网站隐藏的URL。
本发明实施例提供的确定隐藏的URL的装置,能够根据已知URL的相关信息中用于扩展URL的特征信息,对该已知URL进行扩展,获得已知URL所属网站可能存在的URL,并通过将扩展后的URL发送给网站服务器进行验证,来进一步确定该扩展后的URL是否为网站隐藏的URL,从而使得搜索引擎可以抓取之前难以抓取到的网页,进而提高了搜索引擎搜索网页的全面性。
本发明实施例还提供了:
A1、一种确定隐藏的URL的方法,所述方法包括:
获取网站的已知统一资源定位符URL的相关信息,所述已知URL为爬虫能够爬取到的URL,所述已知URL的相关信息包括用于扩展URL的特征信息;
根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL;
将所述扩展后的URL发送给所述网站的服务器;
根据所述服务器返回的结果,确定所述扩展后的URL是否为所述网站隐藏的URL。
A2、根据A1所述的方法,若所述已知URL的相关信息包括用于指导搜索引擎爬取网站内容的文件的文件名,则所述根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL包括:
将所述文件名添加至所述已知URL中,获得所述扩展后的URL。
A3、根据A1所述的方法,若所述已知URL的相关信息包括所述已知URL,则所述根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL包括:
根据所述已知URL中特定位置处的特定字符,确定所述网站的开发语言类型;
根据确定的开发语言类型所对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。
A4、根据A1所述的方法,若所述已知URL的相关信息包括所述已知URL对应的超文本传送协议HTTP请求的响应头,则所述根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL包括:
对所述响应头进行解析,获得所述已知URL请求的文件类型以及服务器的基本信息;
根据所述文件类型对应的固有目录特征和/或所述服务器的基本信息对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。
A5、根据A4所述的方法,所述服务器的基本信息包括以下任意一种或者几种的组合:
服务器的类型、服务器的版本、开发语言的类型以及开发语言的版本。
A6、根据A1所述的方法,若所述已知URL的相关信息包括所述已知URL的超文本标记语言HTML页面,则所述根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL包括:
当所述HTML页面中记载有其他URL时,根据所述其他URL对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL;
当所述HTML页面中记载有其他开发语言的语句时,根据其他开发语言的语句对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。
A7、根据A1至A6中任一项所述的方法,所述服务器返回的结果包括HTTP状态码。
B8、一种确定隐藏的URL的装置,所述装置包括:
获取单元,用于获取网站的已知统一资源定位符URL的相关信息,所述已知URL为爬虫能够爬取到的URL,所述已知URL的相关信息包括用于扩展URL的特征信息;
扩展单元,用于根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL;
发送单元,用于将所述扩展单元获得的所述扩展后的URL发送给所述网站的服务器;
确定单元,用于根据所述服务器返回的结果,确定所述扩展后的URL是否为所述网站隐藏的URL。
B9、根据B8所述的装置,所述扩展单元包括:
添加模块,用于当所述已知URL的相关信息包括用于指导搜索引擎爬取网站内容的文件的文件名时,将所述文件名添加至所述已知URL中,获得所述扩展后的URL。
B10、根据B9所述的装置,所述扩展单元包括:
确定模块,用于当所述已知URL的相关信息包括所述已知URL时,根据所述已知URL中特定位置处的特定字符,确定所述网站的开发语言类型;
第一扩展模块,用于根据所述确定模块确定的开发语言类型所对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。
B11、根据B8所述的装置,所述扩展单元包括:
解析模块,用于当所述已知URL的相关信息包括所述已知URL对应的超文本传送协议HTTP请求的响应头时,对所述响应头进行解析,获得所述已知URL请求的文件类型以及服务器的基本信息;
第二扩展模块,用于根据所述解析模块获得的所述文件类型对应的固有目录特征和/或所述服务器的基本信息对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。
B12、根据B11所述的装置,所述服务器的基本信息包括以下任意一种或者几种的组合:
服务器的类型、服务器的版本、开发语言的类型以及开发语言的版本。
B13、根据B8所述的装置,所述扩展单元包括:
第三扩展模块,用于在所述已知URL的相关信息包括所述已知URL的超文本标记语言HTML页面的情况下,当所述HTML页面中记载有其他URL时,根据所述其他URL对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL;
第四扩展模块,用于当所述HTML页面中记载有其他开发语言的语句时,根据其他开发语言的语句对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。
B14、根据B8至B13中任一项所述的装置,所述服务器返回的结果包括HTTP状态码。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的确定隐藏的URL的方法及装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种确定隐藏的URL的方法,其特征在于,所述方法包括:
获取网站的已知统一资源定位符URL的相关信息,所述已知URL为爬虫能够爬取到的URL,所述已知URL的相关信息包括用于扩展URL的特征信息;
根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL;
将所述扩展后的URL发送给所述网站的服务器;
根据所述服务器返回的结果,确定所述扩展后的URL是否为所述网站隐藏的URL。
2.根据权利要求1所述的方法,其特征在于,若所述已知URL的相关信息包括用于指导搜索引擎爬取网站内容的文件的文件名,则所述根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL包括:
将所述文件名添加至所述已知URL中,获得所述扩展后的URL。
3.根据权利要求1所述的方法,其特征在于,若所述已知URL的相关信息包括所述已知URL,则所述根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL包括:
根据所述已知URL中特定位置处的特定字符,确定所述网站的开发语言类型;
根据确定的开发语言类型所对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。
4.根据权利要求1所述的方法,其特征在于,若所述已知URL的相关信息包括所述已知URL对应的超文本传送协议HTTP请求的响应头,则所述根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL包括:
对所述响应头进行解析,获得所述已知URL请求的文件类型以及服务器的基本信息;
根据所述文件类型对应的固有目录特征和/或所述服务器的基本信息对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。
5.根据权利要求4所述的方法,其特征在于,所述服务器的基本信息包括以下任意一种或者几种的组合:
服务器的类型、服务器的版本、开发语言的类型以及开发语言的版本。
6.根据权利要求1所述的方法,其特征在于,若所述已知URL的相关信息包括所述已知URL的超文本标记语言HTML页面,则所述根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL包括:
当所述HTML页面中记载有其他URL时,根据所述其他URL对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL;
当所述HTML页面中记载有其他开发语言的语句时,根据其他开发语言的语句对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述服务器返回的结果包括HTTP状态码。
8.一种确定隐藏的URL的装置,其特征在于,所述装置包括:
获取单元,用于获取网站的已知统一资源定位符URL的相关信息,所述已知URL为爬虫能够爬取到的URL,所述已知URL的相关信息包括用于扩展URL的特征信息;
扩展单元,用于根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL;
发送单元,用于将所述扩展单元获得的所述扩展后的URL发送给所述网站的服务器;
确定单元,用于根据所述服务器返回的结果,确定所述扩展后的URL是否为所述网站隐藏的URL。
9.根据权利要求8所述的装置,其特征在于,所述扩展单元包括:
添加模块,用于当所述已知URL的相关信息包括用于指导搜索引擎爬取网站内容的文件的文件名时,将所述文件名添加至所述已知URL中,获得所述扩展后的URL。
10.根据权利要求9所述的装置,其特征在于,所述扩展单元包括:
确定模块,用于当所述已知URL的相关信息包括所述已知URL时,根据所述已知URL中特定位置处的特定字符,确定所述网站的开发语言类型;
第一扩展模块,用于根据所述确定模块确定的开发语言类型所对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。
CN201611206116.6A 2016-12-23 2016-12-23 确定隐藏的url的方法及装置 Pending CN106844475A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611206116.6A CN106844475A (zh) 2016-12-23 2016-12-23 确定隐藏的url的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611206116.6A CN106844475A (zh) 2016-12-23 2016-12-23 确定隐藏的url的方法及装置

Publications (1)

Publication Number Publication Date
CN106844475A true CN106844475A (zh) 2017-06-13

Family

ID=59135317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611206116.6A Pending CN106844475A (zh) 2016-12-23 2016-12-23 确定隐藏的url的方法及装置

Country Status (1)

Country Link
CN (1) CN106844475A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020076A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 网页数据爬取的方法和装置
CN111782914A (zh) * 2020-06-22 2020-10-16 杭州迪普科技股份有限公司 一种Web服务器防护方法、装置和网络设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1992594A (zh) * 2005-12-31 2007-07-04 中兴通讯股份有限公司 一种适用于流媒体系统的url扩展方法
CN101715004A (zh) * 2009-11-12 2010-05-26 中国科学院计算技术研究所 面向网络视频的分布式采集方法和系统
CN103268361A (zh) * 2013-06-07 2013-08-28 百度在线网络技术(北京)有限公司 网页中隐藏url的提取方法、装置和系统
CN103310012A (zh) * 2013-07-02 2013-09-18 北京航空航天大学 一种分布式网络爬虫系统
CN105022824A (zh) * 2015-07-21 2015-11-04 北京神州绿盟信息安全科技股份有限公司 无效链接的识别方法和装置
US20160112456A1 (en) * 2013-12-12 2016-04-21 Hewlett-Packard Development Company, L.P. Policy-based data management

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1992594A (zh) * 2005-12-31 2007-07-04 中兴通讯股份有限公司 一种适用于流媒体系统的url扩展方法
CN101715004A (zh) * 2009-11-12 2010-05-26 中国科学院计算技术研究所 面向网络视频的分布式采集方法和系统
CN103268361A (zh) * 2013-06-07 2013-08-28 百度在线网络技术(北京)有限公司 网页中隐藏url的提取方法、装置和系统
CN103310012A (zh) * 2013-07-02 2013-09-18 北京航空航天大学 一种分布式网络爬虫系统
US20160112456A1 (en) * 2013-12-12 2016-04-21 Hewlett-Packard Development Company, L.P. Policy-based data management
CN105022824A (zh) * 2015-07-21 2015-11-04 北京神州绿盟信息安全科技股份有限公司 无效链接的识别方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020076A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 网页数据爬取的方法和装置
CN111782914A (zh) * 2020-06-22 2020-10-16 杭州迪普科技股份有限公司 一种Web服务器防护方法、装置和网络设备
CN111782914B (zh) * 2020-06-22 2023-05-26 杭州迪普科技股份有限公司 一种Web服务器防护方法、装置和网络设备

Similar Documents

Publication Publication Date Title
CN104063460B (zh) 一种在浏览器中加载网页的方法和装置
US8474048B2 (en) Website content regulation
US8185621B2 (en) Systems and methods for monitoring webpages
CN102333122B (zh) 一种下载资源提供方法、装置及系统
US10491618B2 (en) Method and apparatus for website scanning
CN104572843B (zh) 一种页面的加载方法及装置
US20090288099A1 (en) Apparatus and method for accessing and indexing dynamic web pages
KR20130065802A (ko) 키워드를 이용한 애플리케이션 추천 시스템 및 방법
Szeredi et al. The semantic web explained: The technology and mathematics behind web 3.0
CN106951451A (zh) 一种网页内容提取方法、装置及计算设备
CN106844486A (zh) 爬取动态网页的方法及装置
CN105354337A (zh) 一种网络爬虫实现方法和网络爬虫系统
CN102521257A (zh) 一种用于根据缩略图提供对应的在线图片的方法与设备
Sirovich et al. Professional search engine optimization with PHP
US20120054598A1 (en) Method and system for viewing web page and computer Program product thereof
CN104065736A (zh) 一种url重定向方法、装置及系统
CN106844475A (zh) 确定隐藏的url的方法及装置
Roumeliotis et al. An effective SEO techniques and technologies guide-map
US20070198491A1 (en) System and method for searching and filtering web pages
CN103905434A (zh) 一种网络数据处理方法和装置
CN103838865B (zh) 用于挖掘时效性种子页的方法及装置
KR20120071827A (ko) 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치 및 수집 방법
CN104317929A (zh) 搜索结果呈现优化方法和装置
CN109246069B (zh) 网页登录方法、装置和可读存储介质
US20160171120A1 (en) Generation of mapping definitions for content management system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100088 Beijing city Xicheng District xinjiekouwai Street 28, block D room 112 (Desheng Park)

Applicant after: Beijing Qihu Technology Co., Ltd.

Applicant after: Qianxin Technology Group Co., Ltd.

Address before: 100088 Beijing city Xicheng District xinjiekouwai Street 28, block D room 112 (Desheng Park)

Applicant before: Beijing Qihu Technology Co., Ltd.

Applicant before: BEIJING QI'ANXIN SCIENCE & TECHNOLOGY CO., LTD.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170613