CN103455492B - 一种搜索网页的方法和装置 - Google Patents

一种搜索网页的方法和装置 Download PDF

Info

Publication number
CN103455492B
CN103455492B CN201210171234.3A CN201210171234A CN103455492B CN 103455492 B CN103455492 B CN 103455492B CN 201210171234 A CN201210171234 A CN 201210171234A CN 103455492 B CN103455492 B CN 103455492B
Authority
CN
China
Prior art keywords
webpage
information
web page
page address
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210171234.3A
Other languages
English (en)
Other versions
CN103455492A (zh
Inventor
袁建发
廖志
叶方正
宁京
王伟
郭宗飞
李洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210171234.3A priority Critical patent/CN103455492B/zh
Publication of CN103455492A publication Critical patent/CN103455492A/zh
Application granted granted Critical
Publication of CN103455492B publication Critical patent/CN103455492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种搜索网页的方法和装置,属于网络技术领域。所述方法包括:根据第一网页地址,访问所述第一网页地址指示的网页;获取访问的所述网页的网页信息;从所述网页信息中提取第二网页地址。本发明通过根据已经获得的第一网页地址,访问该第一网页地址指示的网页,获取到访问网页的网页信息,每个网页的网页信息中含有大量网页地址信息,通过遍历此网页信息,从网页信息中提取大量第二网页地址,解决了现有技术中手动搜索网页方法搜索网页的数量受到局限、效率低下的问题,同时解决了现有技术中手动搜索网页方法成本高的问题。

Description

一种搜索网页的方法和装置
技术领域
本发明涉及网络技术领域,特别涉及一种搜索网页的方法和装置。
背景技术
随着互联网技术的迅速发展、网页内容的不断丰富,网页浏览的速度会受到影响。为了优化网页,提高网页浏览的速度,现有技术通常通过搜索网页并获取网页的网页信息,对网页信息加以分析,从而得到网页优化的方法,进而提高网页浏览的速度。而其中搜索网页的方法一般是通过手动搜索网页,该手动搜索网页的过程包括:技术人员手动填写指定网页,并对其进行访问,每当访问完成时,继续对其他指定网页进行访问,在访问过程中获取网页信息,直到所有指定网页访问完毕。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
手动对指定网页进行搜索,在整个搜索过程中均需要技术人员参与,不仅搜索网页的数量受到局限、效率低下,且成本高。
发明内容
为了解决搜索网页时数量受到局限、效率低下,成本高的问题,本发明实施例提供了一种搜索网页的方法和装置。所述技术方案如下:
一种搜索网页的方法,所述方法包括:
根据第一网页地址,访问所述第一网页地址指示的网页;
获取访问的所述网页的网页信息;
从所述网页信息中提取第二网页地址。
根据第一网页地址,访问所述第一网页地址指示的网页,之前包括:
获取预先配置的搜索配置信息,所述搜索配置信息包括第一网页地址;
和/或,
获取提取到的所述第二网页地址,将所述第二网页地址作为所述第一网页地址。
所述搜索配置信息还包括预设网页深度;
相应地,从所述网页信息中提取第二网页地址,之后包括:
当所述第二网页地址达到所述预设网页深度时,结束;
当所述第二网页地址未达到所述预设网页深度时,继续执行搜索网页过程。
所述搜索配置信息还包括预设线程数,所述预设线程数用于指示同时访问的网页数量;
相应地,根据第一网页地址,访问所述第一网页地址指示的网页,包括:
根据所述搜索配置信息指示的符合所述预设线程数的多个第一网页地址,同时访问所述多个第一网页地址指示的网页。
所述搜索配置信息还包括日志配置信息,所述日志配置信息用于指示待保存的信息类型;
相应地,获取访问的所述网页的网页信息,包括:
根据所述日志配置信息,获取访问的所述网页的网页信息中符合所述日志配置信息的信息。
根据第一网页地址,访问所述第一网页地址指示的网页,之后包括:
检测所述搜索配置信息是否发生变化,当所述搜索配置信息中的任一项发生变化时,根据变化后的搜索配置信息更新所述搜索配置信息。
所述搜索配置信息还包括预设网页类型,
相应地,从所述网页信息中提取第二网页地址,包括:
遍历所述网页信息中的网页地址;
从所述网页信息的网页地址中提取符合所述预设网页类型的第二网页地址。
获取访问的所述网页的网页信息,之后包括:
当获取到访问的所述网页的网页信息时,判断是否已保存过所述网页信息,如果是,则丢弃所述网页信息,如果否,则保存所述网页信息。
所述网页信息为所访问网页的源代码。
一种搜索网页的装置,所述装置包括:
访问模块,用于根据第一网页地址访问所述第一网页地址指示的网页;
第一获取模块,用于获取访问的所述网页的网页信息;
提取模块,用于从所述网页信息中提取第二网页地址。
所述装置还包括:
第二获取模块,用于获取预先配置的搜索配置信息,所述搜索配置信息包括第一网页地址;
和/或,
第三获取模块,用于获取提取到的所述第二网页地址,将所述第二网页地址作为所述第一网页地址。
所述搜索配置信息还包括预设网页深度;
相应地,所述装置还包括:
第一判断模块,用于判断所述第二网页地址是否达到所述预设网页深度;
当所述第二网页地址达到所述预设网页深度时,结束;
当所述第二网页地址未达到所述预设网页深度时,继续执行搜索网页过程。
所述搜索配置信息还包括预设线程数,所述预设线程数用于指示同时访问的网页数量;
相应地,所述访问模块具体用于根据所述搜索配置信息指示的符合所述预设线程数的多个第一网页地址,同时访问所述多个第一网页地址指示的网页。
所述搜索配置信息还包括日志配置信息,所述日志配置信息用于指示待保存的信息类型;
相应地,所述第一获取模块具体用于根据所述日志配置信息,获取访问的所述网页的网页信息中符合所述日志配置信息的信息。
所述装置还包括:
检测模块,用于检测所述搜索配置信息是否发生变化,所述搜索配置信息中的任一项发生变化时,则触发用于根据变化后的搜索配置信息更新所述搜索配置信息的更新模块。
所述搜索配置信息还包括预设网页类型,
相应地,所述提取模块包括:
遍历单元,用于遍历所述网页信息中的网页地址;
提取单元,用于从所述网页信息的网页地址中提取符合所述预设网页类型的第二网页地址。
所述装置还包括:
第二判断模块,用于当获取到访问的所述网页的网页信息时,判断是否已保存过所述网页信息;
处理模块,用于根据所述第二判断模块判断的结果处理所述网页信息;
当所述第二判断模块确定已经保存过所述网页信息,则触发所述处理模块丢弃所述网页信息,当所述判断模块确定未保存过所述网页信息,则触发所述处理模块保存所述网页信息。
所述网页信息为所访问网页的源代码。
本发明实施例提供的技术方案带来的有益效果是:
通过根据已经获得的第一网页地址,访问该第一网页地址指示的网页,获取到访问网页的网页信息,每个网页的网页信息中含有大量网页地址信息,通过遍历此网页信息,从网页信息中提取大量第二网页地址,解决了现有技术中手动搜索网页方法搜索网页的数量受到局限、效率低下的问题,同时解决了现有技术中手动搜索网页方法成本高的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种搜索网页的方法流程图;
图2是本发明实施例提供的一种搜索网页的方法流程图;
图3是本发明实施例提供的一种搜索网页的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
图1是本发明实施例提供的一种搜索网页的方法的流程图。该实施例的执行主体为搜索网页的装置,该装置可位于具有网络功能的终端或服务器上,参见图1,该实施例具体包括:
101、根据第一网页地址,访问所述第一网页地址指示的网页;
102、获取访问的所述网页的网页信息;
103、从所述网页信息中提取第二网页地址。
可选地,
根据第一网页地址,访问所述第一网页地址指示的网页,之前包括:
获取预先配置的搜索配置信息,所述搜索配置信息包括第一网页地址;
和/或,
获取提取到的所述第二网页地址,将所述第二网页地址作为所述第一网页地址。
可选地,
所述搜索配置信息还包括预设网页深度;
相应地,从所述网页信息中提取第二网页地址,之后包括:
当所述第二网页地址达到所述预设网页深度时,结束;
当所述第二网页地址未达到所述预设网页深度时,继续执行搜索网页过程。
可选地,
所述搜索配置信息还包括预设线程数,所述预设线程数用于指示同时访问的网页数量;
相应地,根据第一网页地址,访问所述第一网页地址指示的网页,包括:
根据所述搜索配置信息指示的符合所述预设线程数的多个第一网页地址,同时访问所述多个第一网页地址指示的网页。
可选地,
所述搜索配置信息还包括日志配置信息,所述日志配置信息用于指示待保存的信息类型;
相应地,获取访问的所述网页的网页信息,包括:
根据所述日志配置信息,获取访问的所述网页的网页信息中符合所述日志配置信息的信息。
可选地,
根据第一网页地址,访问所述第一网页地址指示的网页,之后包括:
检测所述搜索配置信息是否发生变化,当所述搜索配置信息中的任一项发生变化时,根据变化后的搜索配置信息更新所述搜索配置信息。
可选地,
所述搜索配置信息还包括预设网页类型,
相应地,从所述网页信息中提取第二网页地址,包括:
遍历所述网页信息中的网页地址;
从所述网页信息的网页地址中提取符合所述预设网页类型的第二网页地址。
在本发明实施例中,通过根据已经获得的第一网页地址,访问该第一网页地址指示的网页,获取到访问网页的网页信息,每个网页的网页信息中含有大量网页地址信息,通过遍历此网页信息,从网页信息中提取大量第二网页地址,解决了现有技术中手动搜索网页方法搜索网页的数量受到局限、效率低下的问题,同时解决了现有技术中手动搜索网页方法成本高的问题。
实施例二
图2是本发明实施例提供的一种搜索网页的方法的流程图,该实施例的执行主体为搜索网页的装置,该装置可位于具有网络功能的终端或服务器上,参见图2,该实施例具体包括:
201:获取预先配置的搜索配置信息,该搜索配置信息至少包括第一网页地址;
在本实施例中,搜索配置信息的获取可以有多种方式,包括但不限于下述两种:(1)为技术人员提供用于设置搜索配置信息的接口,由技术人员在操作过程中输入数据,当该装置接收到数据时,将数据作为搜索配置信息。(2)该搜索配置信息还可以为技术人员在开发该搜索功能的过程中设置的默认搜索配置信息,每当启动该搜索功能时,即将该默认搜索配置信息获取为预先配置的搜索配置信息。
第一网页地址是该搜索网页过程开始时所使用的网址,第一网页地址可以是技术人员在操作过程中,通过为技术人员提供的用于设置搜索配置信息的接口,输入网页的网址,该装置通过接口接收到网页的网址后,将该接收到的网页的网址作为第一网页地址;该第一网页地址也可以是技术人员在开发该搜索功能的过程中设置的,例如:技术人员在开发该搜索功能的过程中,将第一网页地址设置为www.a.com,每当启动该搜索功能时,获取预先配置的搜索配置信息,该搜索配置信息包含第一网页地址www.a.com。
需要说明的是,该搜索配置信息至少包括两个或两个以上第一网页地址,也即是,在该搜索网页过程开始时所使用的第一网页地址可以是一个,还可以是两个或两个以上,本发明对此不做具体限定。
本领域技术人员可以获知,当用户有搜索网页的需求时,启动搜索网页功能,步骤201即为该搜索网页过程的第一步。
202、根据第一网页地址,访问所述第一网页地址指示的网页;
本领域技术人员可以获知,根据网页地址访问所指示的网页是现有技术,在本发明中不做赘述。
进一步地,搜索配置信息还包括预设线程数,预设线程数是用于指示同时访问的网页数量,其中,该预设线程数由技术人员进行设置或调整,本发明实施例对此不做具体限定。
相应地,步骤202具体包括:当搜索配置信息包括两个或两个以上第一网页地址时,终端同时访问两个或两个以上第一网页地址中符合预设线程数所指示的网页。
例如,当搜索配置信息包括的预设线程数为10,则当搜索配置信息包括两个或两个以上第一网页地址时,终端同时对两个或两个以上第一网页地址中10个地址所指示的网页进行访问。
进一步地,终端记录每次搜索网页过程时所使用的线程数及该次搜索网页过程的搜索速度,根据线程数和搜索速度进行分析,获取使得搜索网页过程搜索速度最快、效果最好的线程数作为最优线程数,在后续的搜索过程中,可应用该最优线程数,以使搜索网页的效率大大提高。
203、获取访问的所述网页的网页信息;
其中,网页信息是指当前访问网页的源代码。源代码(source code)是指未编译的按照一定的程序设计语言规范书写的文本文件。在对网页进行访问时,获取该网页的源代码。
进一步地,当获取到访问的所述网页的网页信息时,获取该网页的URL(UniversalResource Locator,统一资源定位符),相应地,当获取到访问的网页的网页信息时,判断是否保存过该网页的网页信息。具体地,,判断是否保存过该网页的网页信息包括:判断是否保存过该网页的URL,如果是,则认为保存过该网页的网页信息,丢弃(或不保存)获取到的所述网页信息;如果否,则认为未保存过该网页的网页信息,保存获取到的所述网页信息。需要说明的是,由于每个网页的URL具有唯一性,即一个网页对应一个唯一的URL,因此可将网页的URL作为判断是否已保存过该网页的网页信息的条件。
当搜索配置信息包括两个或两个以上第一网页地址时,分别获取所访问的两个或两个以上第一网页地址中每一个第一网页地址所指示网页的网页信息。
进一步地,搜索配置信息还包括日志配置信息,日志配置信息用于指示保存的信息类型,该日志配置信息可以由技术人员进行设置和调整,本发明实施例对此不做具体限定。由于每个网页的网页信息很多,终端仅对获取到的网页信息中符合日志配置信息所指示的信息类型的信息进行保存,达到了有针对性保存信息,并节约了存储空间。
204、从所述网页信息中提取第二网页地址;
具体地,该步骤204包括:遍历该网页的网页信息,在遍历过程中从所述网页信息中提取第二网页地址。
其中,在遍历过程中从所述网页信息中提取第二网页地址,具体包括:提取获取到的源代码中的超文本引用外部链接中的网页地址,将超文本引用外部链接中的网页地址作为第二网页地址。本领域技术人员可以获知,该超文本引用外部链接是指<a href="URL">name</a>。
进一步地,所述搜索配置信息还包括预设网页类型,该预设网页类型用于指示该次搜索的目标网页类型,该预设网页类型可以根据网页链接的后缀区分,如后缀为css,jsp,png。
相应地,该步骤204包括:根据预设网页类型,遍历所述网页信息中的网页地址;从所述网页信息的网页地址中提取符合所述预设网页类型的第二网页地址。例如,当用户需要对后缀为css的网页进行搜索时,可将网页类型预设为css,根据预设网页类型,遍历所述网页信息中的网页地址;从所述网页信息的网页地址中提取后缀为css的第二网页地址。
进一步地,搜索配置信息还包括预设网页深度,其中,该网页深度为网站域名的级别,该级别可以包括一级网页、二级网页、三级网页等等。
例如:登录首页为www.a.com/的网页,在首页里有很多子网页可供选择,其中“视频”网页的网址为v.a.com/,则定义此“视频”网页为一级网页;在“视频”网页里按分类索引有“电影”、“电视剧”、“动漫”、“综艺”等,其中“电影”网页的网址为v.a.com/movie/index.html/,则定义此“电影”网页为二级网页;在“电影”网页里按类型索引有“动作”、“喜剧”、“爱情”等,其中“动作”网页的网址为v.a.com/list2/1_0_-1_-1_1_0_0_20_-1_-1.html/,则定义此“动作”网页为三级网页,依次类推;
在所述网页信息中提取到第二网页地址之后,该实施例还包括:判断该第二网页地址的网页深度是否达到搜索配置信息所包括的预设网页深度;当第二网页地址达到搜索配置信息里的网页深度时,则结束搜索网页过程;当第二网页地址未达到搜索配置信息里的网页深度时,则继续搜索网页过程。
例如,搜索配置信息所包括的预设网页深度为一级网页,比如搜索到的首页为www.b.com,则首页所包括的所有子网页地址指示的网页均为一级网页,当提取到的第二网页地址已经包括了所有的一级网页时,则认为该第二网页地址的网页深度达到了搜索配置信息所包括的预设网页深度。
需要说明的是,由于每个网页所含有的网页信息都不同,因此网页信息中所包含的第二网页地址也就不同,因此需要对各个网页的网页信息分别进行提取。
205:把第二网页地址作为第一网页地址,并执行202;
通过把第二网页地址作为第一网页地址,并执行202,以达到循环往复的搜索网页,直到第二网页地址达到搜索配置信息的网页深度,则搜索结束,因而达到了搜索大量网页的目的,使得网页搜索可以持续进行,并根据已得到的第二网页地址获取到更多的网页;
进一步地,该实施例还包括:实时检测搜索配置信息是否发生变化,当在搜索网页的过程中,检测到搜索配置信息的任一项发生变化时,则更新所述搜索配置信息。其中,搜索配置信息具体包括第一网页地址、预设线程数、日志配置信息、网页类型和网页深度中的任一项或几项,
例如:检测到搜索配置信息中的第一网页地址发生变化,则在步骤202中,根据变化后的第一网页地址访问该所述变化后的第一网页地址指示的网页,之后再继续进行后续步骤;又如,在步骤202之前,检测到搜索配置信息中的预设线程数发生变化,则步骤202中,终端同时访问第一网页地址指示的网页的数量要根据变化后的预设线程数进行同时访问,之后再继续进行后续步骤;又如,在步骤203之前,检测到搜索配置信息中的日志配置信息发生变化,则步骤203中,保存的网页信息要根据变化后的日志配置信息进行保存,之后再继续进行后续步骤;又如,在步骤204之前,检测到搜索配置信息中的网页类型发生变化,则步骤204中,从所述网页信息的网页地址中提取的第二网页地址要根据变化后的网页类型进行提取,之后再继续进行后续步骤;再如,在步骤204之前,检测到搜索配置信息中的网页深度发生变化,则步骤204中,第二网页地址要达到变化后的网页深度,之后再继续进行后续步骤。
进一步地,该步骤205之后,还包括:
根据获取的网页信息,对网页信息进行分析,从而可以获知网页信息的中各个类型信息的数据量,并根据访问需要以及各个类型信息的数据量对网页浏览方法进行设置和调整,可以优化网页,提高网页浏览的速度。
在本发明实施例中,通过根据已经获得的第一网页地址,访问该第一网页地址指示的网页,获取到访问网页的网页信息,每个网页的网页信息中含有大量网页地址信息,通过遍历此网页信息,从网页信息中提取大量第二网页地址,解决了现有技术中手动搜索网页方法搜索网页的数量受到局限、效率低下的问题,同时解决了现有技术中手动搜索网页方法成本高的问题。进一步地,从网页信息中提取大量第二网页地址后,把第二网页地址作为第一网页地址,再继续访问第一网页地址所指示的网页,使得对网页的搜索可以循环往复。
实施例三
图3是本发明实施例提供的一种搜索网页的装置结构示意图,参见图3,该装置包括:
访问模块301,用于根据第一网页地址访问所述第一网页地址指示的网页;
第一获取模块302,用于获取访问的所述网页的网页信息;
提取模块303,用于从所述网页信息中提取第二网页地址。
可选地,所述装置还包括:
第二获取模块304,用于获取预先配置的搜索配置信息,所述搜索配置信息包括第一网页地址;
和/或,
第三获取模块305,用于获取提取到的所述第二网页地址,将所述第二网页地址作为所述第一网页地址。
可选地,所述搜索配置信息还包括预设网页深度;
相应地,所述装置还包括:
第一判断模块306,用于判断所述第二网页地址是否达到所述预设网页深度;
当所述第二网页地址达到所述预设网页深度时,结束;
当所述第二网页地址未达到所述预设网页深度时,继续执行搜索网页过程。
可选地,所述搜索配置信息还包括预设线程数,所述预设线程数用于指示同时访问的网页数量;
相应地,所述访问模块301具体用于根据所述搜索配置信息指示的符合所述预设线程数的多个第一网页地址,同时访问所述多个第一网页地址指示的网页。
可选地,所述搜索配置信息还包括日志配置信息,所述日志配置信息用于指示待保存的信息类型;
相应地,所述第一获取模块302具体用于根据所述日志配置信息,获取访问的所述网页的网页信息中符合所述日志配置信息的信息。
可选地,所述装置还包括:
检测模块307,用于检测所述搜索配置信息是否发生变化,所述搜索配置信息中的任一项发生变化时,则触发用于根据变化后的搜索配置信息更新所述搜索配置信息的更新模块308。
可选地,所述搜索配置信息还包括预设网页类型,
相应地,所述提取模块303包括:
遍历单元,用于遍历所述网页信息中的网页地址;
提取单元,用于从所述网页信息的网页地址中提取符合所述预设网页类型的第二网页地址。
可选地,所述装置还包括:
第二判断模块309,用于当获取到访问的所述网页的网页信息时,判断是否已保存过所述网页信息;
处理模块310,用于根据所述第二判断模块判断的结果处理所述网页信息;
当所述第二判断模块309确定已经保存过所述网页信息,则触发所述处理模块310丢弃所述网页信息,当所述第二判断模块309确定未保存过所述网页信息,则触发所述处理模块310保存所述网页信息。
可选地,所述网页信息为所访问网页的源代码。
需要说明的是:上述实施例提供的搜索网页的装置在搜索网页时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的一种搜索网页的方法和一种搜索网页的装置实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种搜索网页的方法,其特征在于,所述方法包括:
获取每次在进行搜索网页过程中所使用的线程数以及每次搜索网页过程的搜索速度;
根据获取到的线程数以及获取到的搜索速度确定最优线程数;
根据符合所述最优线程数的多个第一网页地址,并行访问所述多个第一网页地址指示的网页;
获取访问的所述网页的网页信息;
遍历所述网页的网页信息,在遍历过程中提取获取到的网页信息中的超文本引用外部链接中的网页地址,将所述超文本引用外部链接中的网页地址作为第二网页地址;
将提取到的所述第二网页地址作为所述第一网页地址再次执行搜索网页过程,并对获取到的网页信息进行分析,得到所述获取到的网页信息中各个类型信息的数据量,根据访问需要以及所述各个类型信息的数据量对网页浏览方法进行设置和调整。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取预先配置的搜索配置信息,所述搜索配置信息包括第一网页地址。
3.根据权利要求2所述的方法,其特征在于,
所述搜索配置信息还包括预设网页深度;
相应地,从所述网页信息中提取第二网页地址,之后包括:
当所述第二网页地址达到所述预设网页深度时,结束;
当所述第二网页地址未达到所述预设网页深度时,继续执行搜索网页过程。
4.根据权利要求2所述的方法,其特征在于,
所述搜索配置信息还包括预设线程数,所述预设线程数用于指示同时访问的网页数量;
相应地,所述方法还包括:
根据所述搜索配置信息指示的符合所述预设线程数的多个第一网页地址,同时访问所述多个第一网页地址指示的网页。
5.根据权利要求2所述的方法,其特征在于,
所述搜索配置信息还包括日志配置信息,所述日志配置信息用于指示待保存的信息类型;
相应地,获取访问的所述网页的网页信息,包括:
根据所述日志配置信息,获取访问的所述网页的网页信息中符合所述日志配置信息的信息。
6.根据权利要求2-5任一项所述的方法,其特征在于,所述方法还包括:
检测所述搜索配置信息是否发生变化,当所述搜索配置信息中的任一项发生变化时,根据变化后的搜索配置信息更新所述搜索配置信息。
7.根据权利要求1所述的方法,其特征在于,
所述搜索配置信息还包括预设网页类型,
相应地,从所述网页信息中提取第二网页地址,包括:
遍历所述网页信息中的网页地址;
从所述网页信息的网页地址中提取符合所述预设网页类型的第二网页地址。
8.根据权利要求1所述的方法,其特征在于,获取访问的所述网页的网页信息,之后包括:
当获取到访问的所述网页的网页信息时,判断是否已保存过所述网页信息,如果是,则丢弃所述网页信息,如果否,则保存所述网页信息。
9.根据权利要求1所述的方法,其特征在于,所述网页信息为所访问网页的源代码。
10.一种搜索网页的装置,其特征在于,所述装置用于获取每次在进行搜索网页过程中所使用的线程数以及每次搜索网页过程的搜索速度;根据获取到的线程数以及获取到的搜索速度确定最优线程数,
所述装置包括:
访问模块,用于根据符合所述最优线程数的多个第一网页地址,并行访问所述多个第一网页地址指示的网页;
第一获取模块,用于获取访问的所述网页的网页信息;
提取模块,用于遍历所述网页的网页信息,在遍历过程中提取获取到的源代码中的超文本引用外部链接中的网页地址,将所述超文本引用外部链接中的网页地址作为第二网页地址;
第三获取模块,用于获取提取到的所述第二网页地址,将所述第二网页地址作为所述第一网页地址;
所述装置还用于对获取到的网页信息进行分析,得到所述获取到的网页信息中各个类型信息的数据量,根据访问需要以及所述各个类型信息的数据量对网页浏览方法进行设置和调整。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取预先配置的搜索配置信息,所述搜索配置信息包括第一网页地址。
12.根据权利要求11所述的装置,其特征在于,
所述搜索配置信息还包括预设网页深度;
相应地,所述装置还包括:
第一判断模块,用于判断所述第二网页地址是否达到所述预设网页深度;
当所述第二网页地址达到所述预设网页深度时,结束;
当所述第二网页地址未达到所述预设网页深度时,继续执行搜索网页过程。
13.根据权利要求11所述的装置,其特征在于,
所述搜索配置信息还包括预设线程数,所述预设线程数用于指示同时访问的网页数量;
相应地,所述访问模块还用于根据所述搜索配置信息指示的符合所述预设线程数的多个第一网页地址,同时访问所述多个第一网页地址指示的网页。
14.根据权利要求11所述的装置,其特征在于,
所述搜索配置信息还包括日志配置信息,所述日志配置信息用于指示待保存的信息类型;
相应地,所述第一获取模块具体用于根据所述日志配置信息,获取访问的所述网页的网页信息中符合所述日志配置信息的信息。
15.根据权利要求11-14任一项所述的装置,其特征在于,所述装置还包括:
检测模块,用于检测所述搜索配置信息是否发生变化,所述搜索配置信息中的任一项发生变化时,则触发用于根据变化后的搜索配置信息更新所述搜索配置信息的更新模块。
16.根据权利要求11所述的装置,其特征在于,
所述搜索配置信息还包括预设网页类型,
相应地,所述提取模块包括:
遍历单元,用于遍历所述网页信息中的网页地址;
提取单元,用于从所述网页信息的网页地址中提取符合所述预设网页类型的第二网页地址。
17.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第二判断模块,用于当获取到访问的所述网页的网页信息时,判断是否已保存过所述网页信息;
处理模块,用于根据所述第二判断模块判断的结果处理所述网页信息;
当所述第二判断模块确定已经保存过所述网页信息,则触发所述处理模块丢弃所述网页信息,当所述第二判断模块确定未保存过所述网页信息,则触发所述处理模块保存所述网页信息。
18.根据权利要求10所述的装置,其特征在于,所述网页信息为所访问网页的源代码。
CN201210171234.3A 2012-05-29 2012-05-29 一种搜索网页的方法和装置 Active CN103455492B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210171234.3A CN103455492B (zh) 2012-05-29 2012-05-29 一种搜索网页的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210171234.3A CN103455492B (zh) 2012-05-29 2012-05-29 一种搜索网页的方法和装置

Publications (2)

Publication Number Publication Date
CN103455492A CN103455492A (zh) 2013-12-18
CN103455492B true CN103455492B (zh) 2018-10-30

Family

ID=49737873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210171234.3A Active CN103455492B (zh) 2012-05-29 2012-05-29 一种搜索网页的方法和装置

Country Status (1)

Country Link
CN (1) CN103455492B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808545A (zh) * 2014-12-30 2016-07-27 Tcl集团股份有限公司 一种论坛数据提取方法和论坛数据提取装置
CN106708828A (zh) * 2015-07-31 2017-05-24 北京国双科技有限公司 友情链接的获取方法和装置
CN106649371A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 用于爬虫的数据处理方法及装置
CN105938496A (zh) * 2016-05-27 2016-09-14 深圳市永兴元科技有限公司 网页内容提取方法及装置
CN106934006B (zh) * 2017-03-08 2020-07-10 中国银行股份有限公司 基于多叉树模型的页面推荐方法及装置
CN108062413B (zh) * 2017-12-30 2019-05-28 平安科技(深圳)有限公司 网页数据处理方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452463A (zh) * 2007-12-05 2009-06-10 浙江大学 定向抓取页面资源的方法和装置
CN101520798A (zh) * 2009-03-06 2009-09-02 苏州锐创通信有限责任公司 基于垂直搜索和聚焦爬虫的网页分类技术
CN101561814A (zh) * 2009-05-08 2009-10-21 华中科技大学 基于社会标注的主题爬虫系统
CN101635718A (zh) * 2009-08-26 2010-01-27 中兴通讯股份有限公司 网络爬虫系统及其获取资源的方法和网络资源抓取装置
CN101676907A (zh) * 2008-09-16 2010-03-24 北京雷速科技有限公司 一种互联网资源定向获取方法及系统
CN102262635A (zh) * 2010-05-25 2011-11-30 北京启明星辰信息技术股份有限公司 一种网页爬虫系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040220954A1 (en) * 2003-04-29 2004-11-04 International Business Machines Corporation Translation of data from a hierarchical data structure to a relational data structure
JP2012003618A (ja) * 2010-06-18 2012-01-05 Sony Corp 情報処理システム、情報処理方法、情報処理装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452463A (zh) * 2007-12-05 2009-06-10 浙江大学 定向抓取页面资源的方法和装置
CN101676907A (zh) * 2008-09-16 2010-03-24 北京雷速科技有限公司 一种互联网资源定向获取方法及系统
CN101520798A (zh) * 2009-03-06 2009-09-02 苏州锐创通信有限责任公司 基于垂直搜索和聚焦爬虫的网页分类技术
CN101561814A (zh) * 2009-05-08 2009-10-21 华中科技大学 基于社会标注的主题爬虫系统
CN101635718A (zh) * 2009-08-26 2010-01-27 中兴通讯股份有限公司 网络爬虫系统及其获取资源的方法和网络资源抓取装置
CN102262635A (zh) * 2010-05-25 2011-11-30 北京启明星辰信息技术股份有限公司 一种网页爬虫系统及方法

Also Published As

Publication number Publication date
CN103455492A (zh) 2013-12-18

Similar Documents

Publication Publication Date Title
CN103455492B (zh) 一种搜索网页的方法和装置
US8645453B2 (en) Method and system of processing cookies across domains
CN108363815B (zh) 一种网页页面的预读取方法、装置及智能终端设备
US9485240B2 (en) Multi-account login method and apparatus
CN108566399B (zh) 钓鱼网站识别方法及系统
CN109684575A (zh) 网页数据的处理方法及装置、存储介质、计算机设备
US20140337716A1 (en) Displaying content on a mobile device
US8739024B2 (en) Method and apparatus for processing world wide web page
CN108664559A (zh) 一种网站网页源代码自动爬取方法
KR20160024293A (ko) 통신 시스템에서 페이지 로딩 시간 단축 방법 및 장치
US20220114269A1 (en) Page processing method, electronic apparatus and non-transitory computer-readable storage medium
CN105095175B (zh) 获取截短的网页标题的方法及装置
CN106844486A (zh) 爬取动态网页的方法及装置
CN106649313B (zh) 用于处理缓存数据的方法和设备
CN106326261A (zh) 一种网页页面的预读取方法、装置及智能终端设备
CN105376311B (zh) 一种基于终端访问的页面停留时长确定方法及装置
CN104731817B (zh) 一种网页展现方法和装置
CN107436940A (zh) 基于用户信息行为分析的web前端动态展示数据的方法
US20140351681A1 (en) Method, apparatus and system for controlling address input
CN104680063B (zh) 一种信息拦截方法及终端
CN103905434A (zh) 一种网络数据处理方法和装置
CN103678312B (zh) 一种推荐网址的方法与客户端
CN111125704A (zh) 一种网页挂马识别方法及系统
CN106919595A (zh) 一种用于Cookie映射的方法、装置及电子设备
CN109492146A (zh) 一种防web爬虫的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant