CN105335511A - 网页的访问方法及装置 - Google Patents

网页的访问方法及装置 Download PDF

Info

Publication number
CN105335511A
CN105335511A CN201510725908.3A CN201510725908A CN105335511A CN 105335511 A CN105335511 A CN 105335511A CN 201510725908 A CN201510725908 A CN 201510725908A CN 105335511 A CN105335511 A CN 105335511A
Authority
CN
China
Prior art keywords
proxy server
webpage
access
information
restricted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510725908.3A
Other languages
English (en)
Inventor
庞凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510725908.3A priority Critical patent/CN105335511A/zh
Publication of CN105335511A publication Critical patent/CN105335511A/zh
Priority to JP2017548061A priority patent/JP6488508B2/ja
Priority to PCT/CN2016/082981 priority patent/WO2017071189A1/zh
Priority to US15/745,987 priority patent/US20180225387A1/en
Priority to EP16858633.7A priority patent/EP3273362A4/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/563Data redirection of data network streams

Abstract

本发明提供一种网页的访问方法及装置。本发明实施例通过确定网页的访问受到限制,进而获取代理服务器的信息,使得能够利用所述代理服务器的信息,访问所述网页,由于能够自动获取代理服务器的信息,因此,使得无需用户手动搜索发布代理服务器的网站,操作简单,并且成功率高,从而提高了网页访问的效率和可靠性。

Description

网页的访问方法及装置
【技术领域】
本发明涉及互联网技术,尤其涉及一种网页的访问方法及装置。
【背景技术】
随着互联网行业的发展,网页内容所提供的信息日渐丰富,网页上所展示的数据内容也随之越来越丰富。在访问网页的过程中,由于一些网页所属的网站为访问受限网站,例如,外国网站或学校网站等,使得这些网页无法正常访问。
在这种情况之下,用户需要利用相关的关键词例如,代理服务器发布网站等,进行搜索操作,以获得发布代理服务器的网站入口。用户访问所获得的发布代理服务器的网站,利用其所发布的代理服务器,分别进行访问代理设置,以使得能够利用可用的代理服务器,访问这些网页。这样,会导致操作复杂,操作时间长,并且成功率不高,从而降低了网页访问的效率和可靠性。
【发明内容】
本发明的多个方面提供一种网页的访问方法及装置,用以提高网页访问的效率和可靠性。
本发明的一方面,提供一种网页的访问方法,包括:
确定网页的访问受到限制;
获取代理服务器的信息;
利用所述代理服务器的信息,访问所述网页。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述确定网页的访问受到限制,包括:
获取所述网页的访问请求;
根据所述网页的访问请求,确定所述网页无法访问;
根据访问受限列表,确定所述网页所属网站为访问受限网站;
确定所述网页的访问受到限制。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取代理服务器的信息,包括:
根据所述网页的网页标识,获取所述代理服务器的信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取代理服务器的信息之前,还包括:
利用网络爬虫,获取代理服务器集合,所述代理服务器集合中包括可用的至少一个代理服务器中每个代理服务器的信息,以供根据所述代理服务器集合,获取所述代理服务器的信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用网络爬虫,获取代理服务器集合之后,还包括:
对所述至少一个代理服务器进行质量验证;
对没有通过质量验证的代理服务器的信息,进行过滤处理。
本发明的另一方面,提供一种网页的访问装置,包括:
访问单元,用于确定网页的访问受到限制;
获取单元,用于获取代理服务器的信息;
所述访问单元,还用于利用所述代理服务器的信息,访问所述网页。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述访问单元,还用于
获取所述网页的访问请求;
根据所述网页的访问请求,确定所述网页无法访问;
根据访问受限列表,确定所述网页所属网站为访问受限网站;以及
确定所述网页的访问受到限制。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取单元,具体用于
根据所述网页的网页标识,获取所述代理服务器的信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述装置还包括采集单元,用于
利用网络爬虫,获取代理服务器集合,所述代理服务器集合中包括可用的至少一个代理服务器中每个代理服务器的信息,以供根据所述代理服务器集合,获取所述代理服务器的信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述采集单元,还用于
对所述至少一个代理服务器进行质量验证;以及
对没有通过质量验证的代理服务器的信息,进行过滤处理。
由上述技术方案可知,本发明实施例通过确定网页的访问受到限制,进而获取代理服务器的信息,使得能够利用所述代理服务器的信息,访问所述网页,由于能够自动获取代理服务器的信息,因此,使得无需用户手动搜索发布代理服务器的网站,操作简单,并且成功率高,从而提高了网页访问的效率和可靠性。
另外,采用本发明所提供的技术方案,通过对所获取的代理服务器集合中所包括的可用的至少一个代理服务器中每个代理服务器进行质量验证,进而对没有通过质量验证的代理服务器的信息,进行过滤处理,能够有效保证所获取的代理服务器的质量。
另外,采用本发明所提供的技术方案,无需用户手动搜索发布代理服务器的网站,对用户完全透明,能够有效提高用户的访问体验。
【附图说明】
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的网页的访问方法的流程示意图;
图2为本发明另一实施例提供的网页的访问装置的结构示意图;
图3为本发明另一实施例提供的网页的访问装置的结构示意图。
【具体实施方式】
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本发明保护的范围。
可以理解的是,本发明所涉及的网页,也可以称为网页或Web网页,可以是基于超文本标记语言(HyperTextMarkupLanguage,HTML)编写的网页(WebPage),即HTML网页,或者还可以是基于HTML和Java语言编写的网页,即Java服务器网页(JavaServerPage,JSP),或者还可以为其他语言编写的网页,本实施例对此不进行特别限定。Web网页可以包括由一个或者多个网页标签例如,超文本标记语言(HyperTextMarkupLanguage,HTML)标签、JSP标签等,定义的一个显示区块,称为网页元素,例如,文字、图片、超链接、按钮、输入框、下拉框等。
需要说明的是,本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(PersonalDigitalAssistant,PDA)、无线手持设备、平板电脑(TabletComputer)、个人电脑(PersonalComputer,PC)、MP3播放器、MP4播放器、可穿戴设备(例如,智能眼镜、智能手表、智能手环等)等。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本发明一实施例提供的网页的访问方法的流程示意图,如图1所示。
101、确定网页的访问受到限制。
102、获取代理服务器的信息。
103、利用所述代理服务器的信息,访问所述网页。
需要说明的是,101~103的执行主体可以为位于本地终端的应用,或者还可以为位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopmentKit,SDK)等功能单元,或者还可以为位于网络侧的服务器中的搜索引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),例如,浏览器应用、手机百度应用等,或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行特别限定。
这样,通过确定网页的访问受到限制,进而获取代理服务器的信息,使得能够利用所述代理服务器的信息,访问所述网页,由于能够自动获取代理服务器的信息,因此,使得无需用户手动搜索发布代理服务器的网站,操作简单,并且成功率高,从而提高了网页访问的效率和可靠性。
需要说明的是,本实施例中所涉及的网页,可以为PC网站的网页,或者还可以为移动网站的网页,本实施例对此不进行特别限定。
目前,一个应用例如,浏览器或百度APP访问网页时,需要先下载网页主资源,进而解析并渲染网页主资源。当解析到网页主资源中所引用的网页子资源的统一资源定位符(UniformResourceLocator,URL)时,开始下载网页子资源,并根据网页子资源,进一步渲染网页主资源。如果网页所属网站为访问受限网站,则无法下载网页的主资源,那么,则直接输出用于指示网页无法访问的提示信息。
可选地,在本实施例的一个可能的实现方式中,在101中,具体可以获取所述网页的访问请求,并根据所述网页的访问请求,确定所述网页无法访问,以及根据访问受限列表,确定所述网页所属网站为访问受限网站,进而,则可以确定所述网页的访问受到限制。
在获取到用户所触发的一个网页的访问请求之后,将该访问请求发送给网页所属网站的服务器。如果该网站为访问受限网站,该访问请求则会被拦截,无法发送到网站的服务器。接着,接收到用于指示网页无法访问的提示信息。此时,则可以确定该网页无法访问。
由于网页无法访问的原因有很多,因此,在确定网页无法访问之后,还需要进一步在访问受限列表中进行查询,以确定该网页所属网站是否为访问受限网站。如果该网页所属网站在访问受限列表中,则可以确定该网页所属网站为访问受限网站。
综上,由于用户将要访问的网页无法访问,并且该网页所属网站为访问受限网站,因此,可以确定该网页的访问受到限制。
本发明中,在102中,所获取的代理服务器的信息可以包括但不限于代理服务器的统一资源定位符(UniformResourceLocator,URL)或统一资源名称(UniformResourceName,URN)、IP地址或其他访问标识,本实施例对此不进行特别限定。
可选地,在本实施例的一个可能的实现方式中,在102中,具体可以获取一个代理服务器的信息,或者还可以获取多个代理服务器的信息。
如果获取一个代理服务器的信息,那么,则利用这个代理服务器的信息,执行后续的103。
如果获取多个代理服务器的信息,那么,则可以采用预先设置的选择策略,先选择一个代理服务器的信息,然后,则可以利用这个代理服务器的信息,执行后续的103。如果所述网页的访问仍然受到限制,再继续选择下一个代理服务器的信息,继续前面的操作,直到所述网页的访问不再受到限制为止。
可选地,在本实施例的一个可能的实现方式中,在102中,具体可以根据所述网页的网页标识,获取所述代理服务器的信息。具体地,可以预先存储一个网页与可用的代理服务器的信息的映射关系,用以将网页与其可用的代理服务器进行关联。这样,则可以根据所述网页的网页标识,并利用所述映射关系,获得与所述网页标识所对应的代理服务器的信息,能够保证所获取的代理服务器的信息的可用性。
在一个具体的实现过程中,具体可以将所述网页的标识与所述代理服务器的信息,对应存储在数据库或文件系统中。
具体地,具体可以将所述网页的标识,以及该网页的标识所对应的代理服务器的信息,对应存储在数据库中或文件系统中。
其中,所述网页的标识可以包括但不限于网页的标识的参数名和网页的标识的参数值,本实施例对此不进行特别限定;所述代理服务器的信息可以包括但不限于代理服务器的信息的参数名和代理服务器的信息的参数值,本实施例对此不进行特别限定。
其中,所述数据库可以采用关系型数据库,例如,Oracle数据库、DB2数据库、结构化查询语言(StructuredQueryLanguage,SQL)服务器(Server)数据库、MySQL数据库等,或者还可以采用键值(Key-Value)型数据库,例如,非SQL(NotOnlySQL)NoSQL数据库、Redis数据库等,本实施例对此不进行特别限定。
例如,具体可以将所述每个网页的标识的参数名和参数值,以及该网页的标识所对应的代理服务器的信息的参数值,对应存储在数据库中或文件系统中。如可以以每个网页的标识所对应的代理服务器的信息的参数值,作为Key;可以以该网页的标识的参数名和参数值,作为Value,将二者对应存储在Key-Value型数据库中。
或者,再例如,具体可以将所述每个网页的标识的参数名和参数值,以及该网页的标识所对应的代理服务器的信息的参数名和参数值,对应存储在数据库中或文件系统中。如可以以每个网页的标识所对应的代理服务器的信息的参数名和参数值,作为Key;可以以该网页的标识的参数名和参数值,作为Value,将二者对应存储在Key-Value型数据库中。
需要说明的是,在对所述网页的标识和所述代理服务器的信息,进行存储处理的同时,还需要进一步对第一次存储的时间(Init_time),以及后续更新存储的时间(update_time)中的至少一项,进行记录,以供满足后续管理操作的一般需求。
具体地,所述数据库或所述文件系统,具体可以部署在终端的存储设备上。
例如,所述终端的存储设备可以慢速存储设备,具体可以为计算机系统的硬盘,或者还可以为手机的非运行内存即物理内存,例如,只读存储器(Read-OnlyMemory,ROM)和内存卡等,本实施例对此不进行特别限定。
或者,再例如,所述终端的存储设备还可以为快速存储设备,具体可以为计算机系统的内存,或者还可以为手机的运行内存即系统内存,例如,随机存储器(RandomAccessMemory,RAM)等,本实施例对此不进行特别限定。
可选地,在本实施例的一个可能的实现方式中,在102之前,还可以进一步利用网络爬虫,获取代理服务器集合,所述代理服务器集合中包括可用的至少一个代理服务器中每个代理服务器的信息,以供根据所述代理服务器集合,获取所述代理服务器的信息。
在利用网络爬虫,获取代理服务器集合之后,还可以进一步对所述至少一个代理服务器进行质量验证,进而,则可以对没有通过质量验证的代理服务器的信息,进行过滤处理。这样,通过对所获取的代理服务器集合中所包括的可用的至少一个代理服务器中每个代理服务器进行质量验证,进而对没有通过质量验证的代理服务器的信息,进行过滤处理,能够有效保证所获取的代理服务器的质量。
所谓的质量验证,是指对代理服务器进行稳定性、时效性等验证,以确保代理服务器能够可用。可以理解的是,所述质量验证可以定时进行,例如,每天一次、每周一次,这样,能够进一步保证所获取的代理服务器的质量。
本实施例中,通过确定网页的访问受到限制,进而获取代理服务器的信息,使得能够利用所述代理服务器的信息,访问所述网页,由于能够自动获取代理服务器的信息,因此,使得无需用户手动搜索发布代理服务器的网站,操作简单,并且成功率高,从而提高了网页访问的效率和可靠性。
另外,采用本发明所提供的技术方案,通过对所获取的代理服务器集合中所包括的可用的至少一个代理服务器中每个代理服务器进行质量验证,进而对没有通过质量验证的代理服务器的信息,进行过滤处理,能够有效保证所获取的代理服务器的质量。
另外,采用本发明所提供的技术方案,无需用户手动搜索发布代理服务器的网站,对用户完全透明,能够有效提高用户的访问体验。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图2为本发明另一实施例提供的网页的访问装置的结构示意图,如图2所示。本实施例的网页的访问装置可以包括访问单元21和获取单元22。其中,访问单元21,用于确定网页的访问受到限制;获取单元22,用于获取代理服务器的信息;所述访问单元21,还用于利用所述代理服务器的信息,访问所述网页。
需要说明的是,本实施例所提供的网页的访问装置可以为位于本地终端的应用,或者还可以为位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopmentKit,SDK)等功能单元,或者还可以为位于网络侧的服务器中的搜索引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行特别限定。
可选地,在本实施例的一个可能的实现方式中,所述访问单元21,还可以进一步用于获取所述网页的访问请求;根据所述网页的访问请求,确定所述网页无法访问;根据访问受限列表,确定所述网页所属网站为访问受限网站;以及确定所述网页的访问受到限制。
可选地,在本实施例的一个可能的实现方式中,所述获取单元22,具体可以用于根据所述网页的网页标识,获取所述代理服务器的信息。
可选地,在本实施例的一个可能的实现方式中,如图3所示,本实施例所提供的网页的访问装置还可以进一步包括采集单元31,可以用于利用网络爬虫,获取代理服务器集合,所述代理服务器集合中包括可用的至少一个代理服务器中每个代理服务器的信息,以供根据所述代理服务器集合,获取所述代理服务器的信息。
进一步地,所述采集单元31,还可以进一步用于对所述至少一个代理服务器进行质量验证;以及对没有通过质量验证的代理服务器的信息,进行过滤处理。
需要说明的是,图1对应的实施例中方法,可以由本实施例提供的网页的访问装置实现。详细描述可以参见图1对应的实施例中的相关内容,此处不再赘述。
本实施例中,通过访问单元确定网页的访问受到限制,进而由获取单元获取代理服务器的信息,使得所述访问单元能够利用所述代理服务器的信息,访问所述网页,由于能够自动获取代理服务器的信息,因此,使得无需用户手动搜索发布代理服务器的网站,操作简单,并且成功率高,从而提高了网页访问的效率和可靠性。
另外,采用本发明所提供的技术方案,通过采集单元对所获取的代理服务器集合中所包括的可用的至少一个代理服务器中每个代理服务器进行质量验证,进而对没有通过质量验证的代理服务器的信息,进行过滤处理,能够有效保证所获取的代理服务器的质量。
另外,采用本发明所提供的技术方案,无需用户手动搜索发布代理服务器的网站,对用户完全透明,能够有效提高用户的访问体验。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种网页的访问方法,其特征在于,包括:
确定网页的访问受到限制;
获取代理服务器的信息;
利用所述代理服务器的信息,访问所述网页。
2.根据权利要求1所述的方法,其特征在于,所述确定网页的访问受到限制,包括:
获取所述网页的访问请求;
根据所述网页的访问请求,确定所述网页无法访问;
根据访问受限列表,确定所述网页所属网站为访问受限网站;
确定所述网页的访问受到限制。
3.根据权利要求1所述的方法,其特征在于,所述获取代理服务器的信息,包括:
根据所述网页的网页标识,获取所述代理服务器的信息。
4.根据权利要求1~3任一权利要求所述的方法,其特征在于,所述获取代理服务器的信息之前,还包括:
利用网络爬虫,获取代理服务器集合,所述代理服务器集合中包括可用的至少一个代理服务器中每个代理服务器的信息,以供根据所述代理服务器集合,获取所述代理服务器的信息。
5.根据权利要求4所述的方法,其特征在于,所述利用网络爬虫,获取代理服务器集合之后,还包括:
对所述至少一个代理服务器进行质量验证;
对没有通过质量验证的代理服务器的信息,进行过滤处理。
6.一种网页的访问装置,其特征在于,包括:
访问单元,用于确定网页的访问受到限制;
获取单元,用于获取代理服务器的信息;
所述访问单元,还用于利用所述代理服务器的信息,访问所述网页。
7.根据权利要求6所述的装置,其特征在于,所述访问单元,还用于
获取所述网页的访问请求;
根据所述网页的访问请求,确定所述网页无法访问;
根据访问受限列表,确定所述网页所属网站为访问受限网站;以及
确定所述网页的访问受到限制。
8.根据权利要求6所述的装置,其特征在于,所述获取单元,具体用于
根据所述网页的网页标识,获取所述代理服务器的信息。
9.根据权利要求6~8任一权利要求所述的装置,其特征在于,所述装置还包括采集单元,用于
利用网络爬虫,获取代理服务器集合,所述代理服务器集合中包括可用的至少一个代理服务器中每个代理服务器的信息,以供根据所述代理服务器集合,获取所述代理服务器的信息。
10.根据权利要求9所述的装置,其特征在于,所述采集单元,还用于
对所述至少一个代理服务器进行质量验证;以及
对没有通过质量验证的代理服务器的信息,进行过滤处理。
CN201510725908.3A 2015-10-30 2015-10-30 网页的访问方法及装置 Pending CN105335511A (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201510725908.3A CN105335511A (zh) 2015-10-30 2015-10-30 网页的访问方法及装置
JP2017548061A JP6488508B2 (ja) 2015-10-30 2016-05-23 ウェブページのアクセス方法、装置、デバイス及びプログラム
PCT/CN2016/082981 WO2017071189A1 (zh) 2015-10-30 2016-05-23 网页的访问方法、装置、设备及非易失性计算机存储介质
US15/745,987 US20180225387A1 (en) 2015-10-30 2016-05-23 Method and apparatus for accessing webpage, apparatus and non-volatile computer storage medium
EP16858633.7A EP3273362A4 (en) 2015-10-30 2016-05-23 Webpage access method, apparatus, device and non-volatile computer storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510725908.3A CN105335511A (zh) 2015-10-30 2015-10-30 网页的访问方法及装置

Publications (1)

Publication Number Publication Date
CN105335511A true CN105335511A (zh) 2016-02-17

Family

ID=55286038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510725908.3A Pending CN105335511A (zh) 2015-10-30 2015-10-30 网页的访问方法及装置

Country Status (5)

Country Link
US (1) US20180225387A1 (zh)
EP (1) EP3273362A4 (zh)
JP (1) JP6488508B2 (zh)
CN (1) CN105335511A (zh)
WO (1) WO2017071189A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017071189A1 (zh) * 2015-10-30 2017-05-04 百度在线网络技术(北京)有限公司 网页的访问方法、装置、设备及非易失性计算机存储介质
CN108769278A (zh) * 2018-04-11 2018-11-06 北京中科闻歌科技股份有限公司 一种社交媒体账号管理方法及系统
CN110147271A (zh) * 2019-05-15 2019-08-20 重庆八戒传媒有限公司 提升爬虫代理质量的方法、装置及计算机可读存储介质
CN111428179A (zh) * 2020-03-19 2020-07-17 北大方正集团有限公司 图片监测方法、装置及电子设备
CN111767450A (zh) * 2020-07-27 2020-10-13 深圳快学教育科技有限公司 浏览器数据采集系统及方法
CN112583780A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 使用代理ip访问网站数据的方法、装置、系统和设备

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8560604B2 (en) 2009-10-08 2013-10-15 Hola Networks Ltd. System and method for providing faster and more efficient data communication
US9241044B2 (en) 2013-08-28 2016-01-19 Hola Networks, Ltd. System and method for improving internet communication by using intermediate nodes
US11057446B2 (en) 2015-05-14 2021-07-06 Bright Data Ltd. System and method for streaming content from multiple servers
US11190374B2 (en) 2017-08-28 2021-11-30 Bright Data Ltd. System and method for improving content fetching by selecting tunnel devices
LT3754520T (lt) 2017-08-28 2022-02-25 Bright Data Ltd Būdas pagerinti turinio parsisiuntimą, pasirenkant tunelinius įrenginius
EP3750079A4 (en) 2019-02-25 2022-01-12 Bright Data Ltd SYSTEM AND METHOD FOR URL EXTRACTION CHALLENGE MECHANISM
CN111641664B (zh) * 2019-03-01 2023-12-05 北京京东尚科信息技术有限公司 一种爬虫设备业务请求方法、装置、系统和存储介质
EP4027618A1 (en) 2019-04-02 2022-07-13 Bright Data Ltd. Managing a non-direct url fetching service
US10637956B1 (en) * 2019-10-01 2020-04-28 Metacluster It, Uab Smart proxy rotator
CN111488392B (zh) * 2020-04-16 2023-07-07 北京思特奇信息技术股份有限公司 一种查询方法、系统及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101102313A (zh) * 2007-06-21 2008-01-09 潘晓梅 自动更换代理服务器的网络下载系统及方法
US20080195665A1 (en) * 2007-02-09 2008-08-14 Proctor & Stevenson Limited Tracking web server
CN101931635A (zh) * 2009-06-18 2010-12-29 北京搜狗科技发展有限公司 网络资源访问方法及代理装置
CN102694772A (zh) * 2011-03-23 2012-09-26 腾讯科技(深圳)有限公司 一种访问互联网网页的装置、系统及方法
CN104462570A (zh) * 2014-12-26 2015-03-25 小米科技有限责任公司 网页内容获取方法及装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6829638B1 (en) * 2000-08-03 2004-12-07 International Business Machines Corporation System and method for managing multiple proxy servers
US7483910B2 (en) * 2002-01-11 2009-01-27 International Business Machines Corporation Automated access to web content based on log analysis
US20030145046A1 (en) * 2002-01-31 2003-07-31 Keller S. Brandon Generating a list of addresses on a proxy server
CN101800758B (zh) * 2009-02-09 2012-09-05 华为终端有限公司 一种移动终端访问网络的方法、系统及网关
US20100205215A1 (en) * 2009-02-11 2010-08-12 Cook Robert W Systems and methods for enforcing policies to block search engine queries for web-based proxy sites
US9634993B2 (en) * 2010-04-01 2017-04-25 Cloudflare, Inc. Internet-based proxy service to modify internet responses
US9049244B2 (en) * 2011-04-19 2015-06-02 Cloudflare, Inc. Registering for internet-based proxy services
CN103024933B (zh) * 2011-09-28 2016-01-20 腾讯科技(深圳)有限公司 一种移动互联网访问系统及访问移动互联网的方法
CN103678311B (zh) * 2012-08-31 2018-11-13 腾讯科技(深圳)有限公司 基于中转模式的网页访问方法及系统、抓取路径服务器
US9241044B2 (en) * 2013-08-28 2016-01-19 Hola Networks, Ltd. System and method for improving internet communication by using intermediate nodes
CN104767837B (zh) * 2014-01-08 2018-08-24 阿里巴巴集团控股有限公司 一种识别代理ip地址的方法及装置
CN103973682B (zh) * 2014-04-30 2018-09-04 北京奇虎科技有限公司 进行网页访问的方法及装置
CN105335511A (zh) * 2015-10-30 2016-02-17 百度在线网络技术(北京)有限公司 网页的访问方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080195665A1 (en) * 2007-02-09 2008-08-14 Proctor & Stevenson Limited Tracking web server
CN101102313A (zh) * 2007-06-21 2008-01-09 潘晓梅 自动更换代理服务器的网络下载系统及方法
CN101931635A (zh) * 2009-06-18 2010-12-29 北京搜狗科技发展有限公司 网络资源访问方法及代理装置
CN102694772A (zh) * 2011-03-23 2012-09-26 腾讯科技(深圳)有限公司 一种访问互联网网页的装置、系统及方法
CN104462570A (zh) * 2014-12-26 2015-03-25 小米科技有限责任公司 网页内容获取方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017071189A1 (zh) * 2015-10-30 2017-05-04 百度在线网络技术(北京)有限公司 网页的访问方法、装置、设备及非易失性计算机存储介质
CN108769278A (zh) * 2018-04-11 2018-11-06 北京中科闻歌科技股份有限公司 一种社交媒体账号管理方法及系统
CN110147271A (zh) * 2019-05-15 2019-08-20 重庆八戒传媒有限公司 提升爬虫代理质量的方法、装置及计算机可读存储介质
CN110147271B (zh) * 2019-05-15 2020-04-28 重庆八戒传媒有限公司 提升爬虫代理质量的方法、装置及计算机可读存储介质
CN112583780A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 使用代理ip访问网站数据的方法、装置、系统和设备
CN112583780B (zh) * 2019-09-30 2023-04-07 北京国双科技有限公司 使用代理ip访问网站数据的方法、装置、系统和设备
CN111428179A (zh) * 2020-03-19 2020-07-17 北大方正集团有限公司 图片监测方法、装置及电子设备
CN111428179B (zh) * 2020-03-19 2023-09-19 新方正控股发展有限责任公司 图片监测方法、装置及电子设备
CN111767450A (zh) * 2020-07-27 2020-10-13 深圳快学教育科技有限公司 浏览器数据采集系统及方法

Also Published As

Publication number Publication date
US20180225387A1 (en) 2018-08-09
JP2018514846A (ja) 2018-06-07
EP3273362A1 (en) 2018-01-24
EP3273362A4 (en) 2018-04-25
WO2017071189A1 (zh) 2017-05-04
JP6488508B2 (ja) 2019-03-27

Similar Documents

Publication Publication Date Title
CN105335511A (zh) 网页的访问方法及装置
US9734257B2 (en) Exported overlays
CN104965764A (zh) 静态资源的处理方法及装置
CN101452453B (zh) 一种输入法网址导航的方法和一种输入法系统
CN101262450B (zh) 用于相关博客发布的内联显示的装置和方法
CN104142826A (zh) 页面的构建方法、装置及系统
US20120323898A1 (en) Surfacing applications based on browsing activity
US9251283B2 (en) Instrumenting a website with dynamically generated code
CN103729285A (zh) 一种网页测试方法、设备及系统
CN104331474A (zh) 页面处理方法及装置
CN104731869A (zh) 页面的展现方法及装置
CN103177096A (zh) 基于文本属性的页面元素定位方法及设备
US20120072598A1 (en) Use of generic universal resource indicators
CN105468627A (zh) 屏蔽与过滤网页内容的方法与系统
CN109074401B (zh) 对链接列表的主要内容的提取
CN104750824A (zh) 应用功能数据的处理方法及装置
CN111061522B (zh) 基于后端生成前端卡片组件的方法、装置、设备及存储介质
WO2021189766A1 (zh) 数据可视化方法及相关设备
CN104573120A (zh) 用于终端获取推荐信息的方法和装置
CN104951536B (zh) 搜索方法及装置
US11539800B2 (en) Electronic device and control method therefor
CN112384940A (zh) 用于web爬取电子商务资源页面的机制
CN111221711A (zh) 用户行为数据处理方法、服务器及存储介质
CN104484415A (zh) 提供电子书的方法及装置
CN115291872A (zh) 数据处理方法及电子设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160217