CN102867053A - 收集网站信息中有效信息网页的方法、装置及系统 - Google Patents
收集网站信息中有效信息网页的方法、装置及系统 Download PDFInfo
- Publication number
- CN102867053A CN102867053A CN201210337847XA CN201210337847A CN102867053A CN 102867053 A CN102867053 A CN 102867053A CN 201210337847X A CN201210337847X A CN 201210337847XA CN 201210337847 A CN201210337847 A CN 201210337847A CN 102867053 A CN102867053 A CN 102867053A
- Authority
- CN
- China
- Prior art keywords
- website
- pages
- list
- page
- links
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000009191 jumping Effects 0.000 claims description 10
- 230000009193 crawling Effects 0.000 abstract description 13
- 230000000694 effects Effects 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 241000270322 Lepidosauria Species 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开一种收集网站信息中有效信息网页的方法、装置及系统,该方法主要包括:根据预先配置的列表页的网址链接模板识别被收集网站中的列表页,获取每个列表页包所含的全部内部网址链接;根据预先配置的商品页的网址链接模板,在每个列表页包含的全部内部网址链接中进行匹配,获取其中商品页的网址链接,其中,所述预先配置的商品页的网址链接模板包含产品属性信息;收集所获取的所有商品页的网址链接。本发明以解决网络爬虫系统中爬取的结果不稳定以及网络爬虫系统消耗很大资源的问题。
Description
技术领域
本发明属于网络技术领域,具体地说,涉及一种收集网站信息中有效信息网页的方法、装置及系统。
背景技术
所述网络爬虫,是一种自动获取网页内容的程序,是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。
网络爬虫在爬取一个网站的时候,为了尽可能完整抓取整个网站,通常会对整个网站采取深度遍历的形式,采用这种方式在某些垂直领域,会存在效率低下,循环爬取等诸多问题。在垂直抓取的领域,对于一个网站的抓取,通常不需要抓取整个网站所有的网面,而只需要对某些重点页面进行抓取,然后提取出有效的信息。
尤其是,对于网络上的一些购物网站而言,重点抓取的网页自然是商品页,商品页包含了商品的名称、价格、图片,库存等关键的信息。为了尽可能的抓取到整个购物网站的所有商品,需要采取各种方法,尽可能多的去遍历整个网站的URL,然后判定这些URL里面哪些是商品页,才能提取出有效的商品信息。
在现有的技术中,网络爬虫系统一般采用深度遍历和广度遍历相结合的技术,例如:
1、网络爬虫系统从网络获取到一个入口的URL(一般采用的是网站的首页),然后将这个URL的所有的外部网址链接(也就是新打开窗口的链接)提取出来,然后除去向别的网站跳出的部分,将剩下的URL放入调度的队列。
2、将新获取的页面不停的重复步骤1这个过程,这个网站的URL就会不停的发散。
3、网络爬虫系统会根据URL的层次来控制爬取当前网站的深度,这样可以作为终止的爬取条件。
在上述现有技术,缺陷为:
1、现有的网络爬虫系统的爬取效率比较低下,对于单个网站,采取的策略是尽可能的将单个网站抓全,然后在按照某些规则提取出有效的URL,提取出有用的数据;但这样缺陷是收取不稳定,由于爬取过程全靠爬虫自己控制,按照深度遍历的方式爬取一个站点,会对爬取的深度进行控制来保证爬虫不会进入死循环。这样,对于某个目录层级比较多的商品,就会存在爬取不到位的情况,从而影响商品的收录数量,因为每次抓取的内容中依据的URL不一致,所以结果也是不一致的。
2、现有的网络爬虫系统本身会消耗机器很大的带宽资源;每次调度的时候,对于不是商品的URL也需要去做更新,浪费了很大的机器资源和网络带宽。
因此,上述提到的网络爬虫系统中爬取的结果不稳定以及网络爬虫系统消耗很大资源,便成为亟待解决的技术问题。
发明内容
有鉴于此,本申请所要解决的技术问题是提供了一种收集网站信息中有效信息网页的装置及方法,以解决网络爬虫系统中爬取的结果不稳定以及网络爬虫系统消耗很大资源的问题。
为了解决上述技术问题,本申请公开了一种收集网站信息中有效信息网页的方法,其中,包括:根据预先配置的列表页的网址链接模板识别被收集网站中的列表页,获取每个列表页包所含的全部内部网址链接;根据预先配置的商品页的网址链接模板,在每个列表页包含的全部内部网址链接中进行匹配,获取其中商品页的网址链接,其中,所述预先配置的商品页的网址链接模板包含产品属性信息;收集所获取的所有商品页的网址链接。
进一步地,其中,所述预先配置的列表页的网址链接模板,包括:抓取所述被收集网站中列表页的可访问的网址链接,将相似一组列表页的网址链接通过使用占位符的方式编辑成这一组列表页的网址链接模板。
进一步地,其中,所述列表页的可访问的网址链接,包含有:列表页的起始页字段、步长字段、总页数字段和当前页数字段。
进一步地,其中,包括:根据预先配置的列表页的网址链接模板,以一组列表页的起始页字段为当前页数,并不断根据步长字段的数值修正当前页数,识别出所述这一组列表页的可访问的网址链接,针对所述可访问的网址链接的每一个,获取其中所包含的全部内部网址链接。
进一步地,其中,还包括:当监控到每组所述列表页的可访问的网址链接中的当前页数字段的值大于等于总页数字段的值时,跳转到下一组未识别的所述列表页的可访问的网址链接继续识别所述可访问的网址链接的每一个,获取其中所包含的全部内部网址链接,直到所述被收集网站中列表页的可访问的网址链接全部识别完为止。
进一步地,其中,根据预先配置的商品页的网址链接模板,在每个列表页包含的全部内部网址链接中进行匹配,获取其中商品页的网址链接,还包括:丢弃与所述商品页的网址链接模板不匹配的内部网址链接。
为了解决上述技术问题,本申请还公开了一种收集网站信息中有效信息网页的装置,其中,包括:配置识别单元和查找调度单元;其中,所述配置识别单元,用于根据预先配置的列表页的网址链接模板识别被收集网站中的列表页,获取每个列表页包所含的全部内部网址链接,输出给所述查找调度单元;所述查找调度单元,用于根据预先配置的商品页的网址链接模板,在每个列表页包含的全部内部网址链接中进行匹配,获取其中商品页的网址链接,收集所获取的所有商品页的网址链接,其中,所述预先配置的商品页的网址链接模板包含产品属性信息。
进一步地,其中,所述配置识别单元,还用于抓取所述被收集网站中列表页的可访问的网址链接,将相似一组列表页的网址链接通过使用占位符的方式编辑成这一组列表页的网址链接模板。
进一步地,其中,所述配置识别单元中所预先配置的列表页的网址链接模板包含有:所述列表页的起始页字段、步长字段、总页数字段和当前页数字段。
进一步地,其中,所述配置识别单元,进一步用于根据预先配置的列表页的网址链接模板,以一组列表页的起始页字段为当前页数,并不断根据步长字段的数值修正当前页数,识别出所述这一组列表页的可访问的网址链接,针对所述可访问的网址链接的每一个,获取其中所包含的全部内部网址链接。
进一步地,其中,所述配置识别单元,还用于当监控到每组所述列表页的可访问的网址链接中的当前页数字段的值大于等于总页数字段的值时,跳转到下一组未识别的所述列表页的可访问的网址链接继续识别所述可访问的网址链接的每一个,获取其中所包含的全部内部网址链接,直到所述被收集网站中列表页的可访问的网址链接全部识别完为止。
进一步地,其中,所述查找调度单元,还用于丢弃与所述商品页的网址链接模板不匹配的内部网址链接。
为了解决上述技术问题,本申请还公开了一种收集网站信息中有效信息网页的系统,其中,包括:内容管理装置、链接库和网页收集装置;其中,所述内容管理装置,用于预先配置的列表页的网址链接模板和商品页的网址链接模板,其中,所述预先配置的商品页的网址链接模板包含产品属性信息;所述链接库,用于将所述内容管理装置中配置的列表页的网址链接模板和商品页的网址链接模板发送给所述网页收集装置;并接收所述网页收集装置反馈的所获取的所有商品页的网址链接;所述网页收集装置,用于根据从所述链接库获取的列表页的网址链接模板识别被收集网站中的列表页,获取每个列表页包所含的全部内部网址链接,然后再根据从所述链接库获取的商品页的网址链接模板,在每个列表页包含的全部内部网址链接中进行匹配,获取其中商品页的网址链接,收集所获取的所有商品页的网址链接并发送给所述链接库。
进一步地,其中,所述内容管理装置,还用于抓取所述被收集网站中列表页的可访问的网址链接,将相似一组列表页的网址链接通过使用占位符的方式编辑成这一组列表页的网址链接模板。
进一步地,其中,所述内容管理装置中所预先配置的列表页的网址链接模板包含有:所述列表页的起始页字段、步长字段、总页数字段和当前页数字段。
进一步地,其中,所述网页收集装置,进一步用于根据从所述链接库获取的列表页的网址链接模板,以一组列表页的起始页字段为当前页数,并不断根据步长字段的数值修正当前页数,识别出所述这一组列表页的可访问的网址链接,针对所述可访问的网址链接的每一个,获取其中所包含的全部内部网址链接。
进一步地,其中,所述网页收集装置,还用于当监控到每组所述列表页的可访问的网址链接中的当前页数字段的值大于等于总页数字段的值时,跳转到下一组未识别的所述列表页的可访问的网址链接继续识别所述可访问的网址链接的每一个,获取其中所包含的全部内部网址链接,直到所述被收集网站中列表页的可访问的网址链接全部识别完为止。
进一步地,其中,所述网页收集装置,还用于丢弃与所述商品页的网址链接模板不匹配的内部网址链接。
与现有的方案相比,本申请所获得的技术效果:
1)提高了网络爬虫系统的爬取结果的稳定性。而且对于网络上的一些购物网站而言,能够将重要商品的商品页进行完整的抓取。
2)解决了网络爬虫系统中消耗资源问题,提高了机器和带宽的利用率。
3)本发明还提高了找到种子链接的入口的准确性,能够将网站的分类页作为种子入口页,减少了将首页或者随机页面作为种子页所带来的干扰。
当然,实施本申请的任一产品必不一定需要同时达到以上所述的所有技术效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本发明实施例一所述的一种收集网站信息中有效信息网页的方法流程示意图;
图2是本发明实施例二所述的一种收集网站信息中有效信息网页的装置结构示意图。
图3是本发明实施例三所述的一种收集网站信息中有效信息网页的系统结构示意图。
具体实施方式
以下将配合图式及实施例来详细说明本申请的实施方式,藉此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
本申请可以应用于计算机系统/服务器,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
本发明实施例中:
被搜索的商品可能被同时收录在被收集网站中的多组列表页中,例如http://www.xxx.com/list----[xx].html、http://www.xxx.com/brand----[xx].html等等多组列表页,其中[xx]即为占位符的表示方式。所以,针对每组列表页都需要对应配置一个网址链接模板,因此,所述预先配置的列表页的网址链接模板包括至少一个网址链接模板。
所述列表页是多个商品的集合展示,所述列表页中通过点击具体商品可以开启对应的商品页,当然,所述列表页中还可以包括其他新开启页面,这些商品页和新开启页面就构成了每个列表页所包含的全部内部网址链接,其中,所述商品页则展现商品的详细信息,如商品的名称、价格以及对应图片等内容,而其他新开启页面则不是本申请所关心的,是需要排除的信息,也是本发明所要解决的技术问题。
如图1所示,是本发明实施例一所述的一种收集网站信息中有效信息网页的方法流程。
步骤101,在URL(Uniform/Universal Resource Locator,网页地址)的调度模块中,根据预先配置的列表页的网址链接模板识别被收集网站中的列表页,获取每个列表页包所含的全部内部网址链接。
其中,所述预先配置的列表页的网址链接模板,包括:
抓取所述被收集网站中列表页的可访问的网址链接(所谓可访问为真实存在的网址链接),将相似一组列表页的网址链接通过使用占位符的方式编辑成这一组列表页的网址链接模板。
所述列表页的可访问的网址链接,包含有:列表页的起始页字段、步长字段、总页数字段和当前页数字段。当然这里还可以包含:网页类型字段。
步骤101具体为:
在URL的调度模块中,根据预先配置的列表页的网址链接模板,以一组列表页的起始页字段为当前页数,并不断根据步长字段的数值修正当前页数,识别出所述这一组列表页的可访问的网址链接,针对所述可访问的网址链接的每一个,获取其中所包含的全部内部网址链接,
之后的操作依次类推;同时,当监控到每组所述列表页的可访问的网址链接中的当前页数字段的值大于等于总页数字段的值时(说明当前列表页即为这一组列表页中的最后一个,这一组中的所有列表页都已处理),跳转到下一组未识别的所述列表页的可访问的网址链接继续识别所述可访问的网址链接的每一个,获取其中所包含的全部内部网址链接,直到所述被收集网站中列表页的可访问的网址链接全部识别完为止。
步骤102,根据预先配置的商品页的网址链接模板,在每个列表页包含的全部内部网址链接中进行匹配,获取其中商品页的网址链接;其中,所述预先配置的商品页的网址链接模板包含产品属性信息(如:product这类字段);
另外,与所述商品页的网址链接模板不匹配的内部网址链接,即为非商品页,属于无效数据,直接丢弃。
步骤103,收集所获取的所有商品页的网址链接。
对于步骤103的收集所获取的所有商品页的网址链接来说,用户就可以利用所有商品页的网址链接,获取商品的名称、价格、图片以及评论信息等内容,对于一些购物搜索或者比价类的应用程序来说还可以利用这些信息进行分析处理。步骤103本身还具有提高收录的覆盖率的技术效果。
本发明的实施例一以在B2C(Business to Customer,企业对消费者的电子商务模式)类网站中为背景,具体操作可以为:
在网页地址调度模块中配置出被收集的B2C网站中列表页的网址链接(URL)模板,配置的具体过程为进行预处理(即通过B2C网站中的列表页里面的URL后面的参数得出真实存在的可访问的网址链接,然后进行抽象处理);
其中,所述列表页的网址链接模板(还可以称为种子网址链接)中包含:网页类型字段、起始页字段、步长字段(所谓步长就是每一页之间的偏移或者为下一页和上一页两页之间的差值)、总页数字段以及当前页字段;
例如:{http://www.xxx.com/list----[xx].html,start,step,count,current},其中,html,start,step,count,current分别对应的中文为:网页类型,起始页,步长,总的页数有多少,当前是多少页;
其中所谓抽象处理,这里以列表页的网址链接模板为例说明:就是将列表页中相类似的所述商品页的网址链接通过使用占位符的方式抽象(或编辑)成列表页中的一个网址链接,即:当出现
http://www.xxx.com/list----1.html;http://www.xxx.com/list----2.html;......http://www.xxx.com/list----10.html时;对于这里同类类型的网址链接合并,并抽象成:http://www.xxx.com/list----[xx].html;
其中,[xx]表示占位符。对于列表页中的每个网址链接来说,至少需要知道它的起始页字段、步长字段(所谓步长就是每一页之间的偏移)、总页数字段以及当前页字段。目的是为了便于根据本发明方法所设置的收集系统或爬虫系统能够根据总页数字段的值知道该列表页的总体页数是多少,然后通过当前页字段的值。起始页字段的值和步长字段判断出收集系统所处位置,并了解所要继续操作的整体过程,也就是采用本发明方法的收集系统或爬虫系统需要翻页的次数和当前是否翻页到了最后一页需要跳出该列表页,执行下一个列表页的收集过程的判断。
所述商品页的网址链接在初始时可以设置为空,也可以直接配置已有的商品页的网址链接。如:http://www.xxx.com/product-1.html,主要包括有商品相关的产品属性信息,例如:product或者goods等商品字段,通过产品属性信息来匹配网址链接,就能够直接判断出该网址链接是否是商品页的网址链接。
以下再以一应用实例特别说明下。
以这一组列表页为例:
http://www.xxx.com/list----1.html
http://www.xxx.com/list----2.html
http://www.xxx.com/list----12.html。
这组列表页的网址链接模板为http://www.xxx.com/list----[xx].html,其中列表页的网址链接模板中所设置的这组列表页的起始字段为1,步长为1,总的页数为12,当前页数为0;
起始字段为1的网址链接所对应的被收集网站的列表页http://www.xxx.com/list----1.html即为这一组的起始的第一列表页,此时当前页数为1,针对这个列表页http://www.xxx.com/list----1.html获取其中所包含的全部内部网址链接;
步长字段的值为1,当前页数字段的值为1,在当前页数的基础上再加上步长即可得到新的当前页数2;字段为2的网址链接所对应的列表页http://www.xxx.com/list----2.html,即为这一组的第二列表页,针对这个列表页http://www.xxx.com/list----2.html获取其中所包含的全部内部网址链接;
之后的操作依次类推;同时还要实时监控当前页数字段的值是否大于或等于这一组列表页的总页数字段的值12,如果不是,说明这一组中还有列表页没有处理,则继续查找;如果是,则说明当前列表页即为这一组列表页中的最后一个,这一组中的所有列表页都已处理;
跳转到所述被收集网站的列表页的网址链接模板中的下一个继续识别下一组列表页,直到所述被收集网站的列表页的网址链接模板全部用完为止。
下一组列表页如下:
http://www.xxx.com/brand----1.html
http://www.xxx.com/brand----2.html
http://www.xxx.com/brand----12.html。
这组列表页的网址链接模板为http://www.xxx.com/brand----[xx].html,其中列表页的网址链接模板中所设置的这组列表页的起始字段为1,步长为1,总的页数为12,当前页数为0;具体处理同上,此时不再赘述。
针对这个列表页http://www.xxx.com/list----1.html获取其中所包含的全部内部网址链接的操作,以下再以一应用实例进行说明。
这个列表页http://www.xxx.com/list----1.html中内部网址链接的标记,获取其中所包含的全部内部网址链接,假设包括:
http://www.xxx.com/product-1.html
http://www.xxx.com/product-2.html
......http://www.xxx.com/product-20.html
http://www.xxx.com/contactus.html。
预先配置的商品页的网址链接模板中包括产品属性信息product,根据product在上述内部网址链接中进行匹配,获取其中商品页的网址链接包括:http://www.xxx.com/product-1.html、http://www.xxx.com/product-2.html......http://www.xxx.com/product-20.html,而http://www.xxx.com/contactus.html是与所述商品页的网址链接模板不匹配的内部网址链接,即为非商品页,属于无效数据,直接丢弃。
如图2所示,是本发明实施例二所述的一种收集网站信息中有效信息网页的装置,包括:配置识别单元201和查找调度单元202;其中,
所述配置识别单元201,用于根据预先配置的列表页的网址链接模板识别被收集网站中的列表页,获取每个列表页包所含的全部内部网址链接,输出给所述查找调度单元202;
其中,所述网址链接模板,为抓取所述被收集网站中列表页的可访问的网址链接,将相似一组列表页的网址链接通过使用占位符的方式编辑成这一组列表页的网址链接模板。
其中,所述配置识别单元201中所预先配置的列表页的网址链接模板包含有:所述列表页的起始页字段、步长字段、总页数字段和当前页数字段。当然这里还可以包含:网页类型字段。
所述查找调度单元202,用于接收所述配置识别单元201输出的内容,根据预先配置的商品页的网址链接模板,在每个列表页包含的全部内部网址链接中进行匹配,获取其中商品页的网址链接,收集所获取的所有商品页的网址链接,其中,所述预先配置的商品页的网址链接模板包含产品属性信息。
另外,所述查找调度单元202,还用于丢弃与所述商品页的网址链接模板不匹配的内部网址链接(即为非商品页)。
其中,所述配置识别单元201,进一步还包括:预先配置的列表页的网址链接模板的过程,即进行预处理的过程,所述预处理为抓取所述被收集网站中列表页的可访问的网址链接,将相似一组列表页的网址链接通过使用占位符的方式编辑成这一组列表页的网址链接模板。具体可参见上述实施例。
其中,所述配置识别单元201,具体为:
根据预先配置的列表页的网址链接模板,以一组列表页的起始页字段为当前页数,并不断根据步长字段的数值修正当前页数,识别出所述这一组列表页的可访问的网址链接,针对所述可访问的网址链接的每一个,获取其中所包含的全部内部网址链接;
之后的操作依次类推;同时,当监控到每组所述列表页的可访问的网址链接中的当前页数字段的值大于等于总页数字段的值时,跳转到下一组未识别的所述列表页的可访问的网址链接继续识别所述可访问的网址链接的每一个,获取其中所包含的全部内部网址链接,直到所述被收集网站中列表页的可访问的网址链接全部识别完为止。
实施例二所述的一种收集网站信息中有效信息网页的装置的具体实施方式可以参考上述内容进行执行,相对来说,对本装置以在B2C(Business toCustomer,企业对消费者的电子商务模式)类网站中为背景进行的操作可以参考前面提及的方法进行,这里不在详细赘述。
如图3所示,是本发明实施例三所述的一种收集网站信息中有效信息网页的系统,包括:内容管理装置(CMS,Content Management System)301、链接库(URLDB)302和网页收集装置(Crawler)303;其中,
所述内容管理装置301,与所述链接库302相耦接,用于预先配置的列表页的网址链接模板和商品页的网址链接模板,其中,所述预先配置的商品页的网址链接模板包含产品属性信息。
其中,所述网址链接模板,为抓取所述被收集网站中列表页的可访问的网址链接,将相似一组列表页的网址链接通过使用占位符的方式编辑成这一组列表页的网址链接模板。
其中,所述内容管理装置301中所预先配置的列表页的网址链接模板包含有:所述列表页的起始页字段、步长字段、总页数字段和当前页数字段。当然这里还可以包含:网页类型字段。
所述链接库302,与所述内容管理装置301和网页收集装置303相耦接,用于将所述内容管理装置301中配置的列表页的网址链接模板和商品页的网址链接模板发送给所述网页收集装置303;并接收所述网页收集装置303反馈的所获取的所有商品页的网址链接。
所述网页收集装置303,与所述链接库302相耦接,用于根据从所述链接库302获取的列表页的网址链接模板识别被收集网站中的列表页,获取每个列表页包所含的全部内部网址链接,然后再根据从所述链接库302获取的商品页的网址链接模板,在每个列表页包含的全部内部网址链接中进行匹配,获取其中商品页的网址链接,收集所获取的所有商品页的网址链接并发送给所述链接库302。
另外,所述网页收集装置303,还用于丢弃与所述商品页的网址链接模板不匹配的内部网址链接(即为非商品页)。
其中,所述内容管理装置301,进一步还包括:预先配置的列表页的网址链接模板的过程,即进行预处理的过程,所述预处理为抓取所述被收集网站中列表页的可访问的网址链接,将相似一组列表页的网址链接通过使用占位符的方式编辑成这一组列表页的网址链接模板。具体可参见上述实施例。
其中,所述网页收集装置303,具体为:
根据所述内容管理装置301预先配置的列表页的网址链接模板,以一组列表页的起始页字段为当前页数,并不断根据步长字段的数值修正当前页数,识别出所述这一组列表页的可访问的网址链接,针对所述可访问的网址链接的每一个,获取其中所包含的全部内部网址链接;
之后的操作依次类推;同时,当监控到每组所述列表页的可访问的网址链接中的当前页数字段的值大于等于总页数字段的值时,跳转到下一组未识别的所述列表页的可访问的网址链接继续识别所述可访问的网址链接的每一个,获取其中所包含的全部内部网址链接,直到所述被收集网站中列表页的可访问的网址链接全部识别完为止。
上述实施例三所述的一种收集网站信息中有效信息网页的系统的具体实施方式可以参考上述内容进行执行,相对来说,对本系统以在B2C(Business to Customer,企业对消费者的电子商务模式)类网站中为背景进行的操作可以参考前面提及的方法进行,这里不在详细赘述。
与现有的方案相比,本申请所获得的技术效果:
1)提高了网络爬虫系统的爬取结果的稳定性。而且对于网络上的一些购物网站而言,能够将重要商品的商品页进行完整的抓取。
2)解决了网络爬虫系统中消耗资源问题,提高了机器和带宽的利用率。
3)本发明还提高了找到种子链接的入口的准确性,能够将网站的列表页作为种子入口页,减少了将首页或者随机页面作为种子页所带来的干扰,不仅能保证商品收录全,而且可以保证热门商品的优先收录。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。
Claims (18)
1.一种收集网站信息中有效信息网页的方法,其中,包括:
根据预先配置的列表页的网址链接模板识别被收集网站中的列表页,获取每个列表页包所含的全部内部网址链接;
根据预先配置的商品页的网址链接模板,在每个列表页包含的全部内部网址链接中进行匹配,获取其中商品页的网址链接,其中,所述预先配置的商品页的网址链接模板包含产品属性信息;
收集所获取的所有商品页的网址链接。
2.如权利要求1所述的收集网站信息中有效信息网页的方法,其中,所述预先配置的列表页的网址链接模板,包括:
抓取所述被收集网站中列表页的可访问的网址链接,将相似一组列表页的网址链接通过使用占位符的方式编辑成这一组列表页的网址链接模板。
3.如权利要求2所述的收集网站信息中有效信息网页的方法,其中,所述列表页的可访问的网址链接,包含有:列表页的起始页字段、步长字段、总页数字段和当前页数字段。
4.如权利要求3所述的收集网站信息中有效信息网页的方法,其中,进一步包括:
根据预先配置的列表页的网址链接模板,以一组列表页的起始页字段为当前页数,并不断根据步长字段的数值修正当前页数,识别出所述这一组列表页的可访问的网址链接,针对所述可访问的网址链接的每一个,获取其中所包含的全部内部网址链接。
5.如权利要求4所述的收集网站信息中有效信息网页的方法,其中,进一步还包括:
当监控到每组所述列表页的可访问的网址链接中的当前页数字段的值大于等于总页数字段的值时,跳转到下一组未识别的所述列表页的可访问的网址链接继续识别所述可访问的网址链接的每一个,获取其中所包含的全部内部网址链接,直到所述被收集网站中列表页的可访问的网址链接全部识别完为止。
6.如权利要求1所述的收集网站信息中有效信息网页的方法,其中,根据预先配置的商品页的网址链接模板,在每个列表页包含的全部内部网址链接中进行匹配,获取其中商品页的网址链接,还包括:
丢弃与所述商品页的网址链接模板不匹配的内部网址链接。
7.一种收集网站信息中有效信息网页的装置,其中,包括:配置识别单元和查找调度单元;其中,
所述配置识别单元,用于根据预先配置的列表页的网址链接模板识别被收集网站中的列表页,获取每个列表页包所含的全部内部网址链接,输出给所述查找调度单元;
所述查找调度单元,用于根据预先配置的商品页的网址链接模板,在每个列表页包含的全部内部网址链接中进行匹配,获取其中商品页的网址链接,收集所获取的所有商品页的网址链接,其中,所述预先配置的商品页的网址链接模板包含产品属性信息。
8.如权利要求7所述的收集网站信息中有效信息网页的装置,其中,
所述配置识别单元,还用于抓取所述被收集网站中列表页的可访问的网址链接,将相似一组列表页的网址链接通过使用占位符的方式编辑成这一组列表页的网址链接模板。
9.如权利要求8所述的收集网站信息中有效信息网页的装置,其中,
所述配置识别单元中所预先配置的列表页的网址链接模板包含有:所述列表页的起始页字段、步长字段、总页数字段和当前页数字段。
10.如权利要求9所述的收集网站信息中有效信息网页的装置,其中,
所述配置识别单元,进一步用于根据预先配置的列表页的网址链接模板,以一组列表页的起始页字段为当前页数,并不断根据步长字段的数值修正当前页数,识别出所述这一组列表页的可访问的网址链接,针对所述可访问的网址链接的每一个,获取其中所包含的全部内部网址链接。
11.如权利要求10所述的收集网站信息中有效信息网页的装置,其中,
所述配置识别单元,还用于当监控到每组所述列表页的可访问的网址链接中的当前页数字段的值大于等于总页数字段的值时,跳转到下一组未识别的所述列表页的可访问的网址链接继续识别所述可访问的网址链接的每一个,获取其中所包含的全部内部网址链接,直到所述被收集网站中列表页的可访问的网址链接全部识别完为止。
12.如权利要求7所述的收集网站信息中有效信息网页的装置,其中,
所述查找调度单元,还用于丢弃与所述商品页的网址链接模板不匹配的内部网址链接。
13.一种收集网站信息中有效信息网页的系统,其中,包括:内容管理装置、链接库和网页收集装置;其中,
所述内容管理装置,用于预先配置的列表页的网址链接模板和商品页的网址链接模板,其中,所述预先配置的商品页的网址链接模板包含产品属性信息;
所述链接库,用于将所述内容管理装置中配置的列表页的网址链接模板和商品页的网址链接模板发送给所述网页收集装置;并接收所述网页收集装置反馈的所获取的所有商品页的网址链接;
所述网页收集装置,用于根据从所述链接库获取的列表页的网址链接模板识别被收集网站中的列表页,获取每个列表页包所含的全部内部网址链接,然后再根据从所述链接库获取的商品页的网址链接模板,在每个列表页包含的全部内部网址链接中进行匹配,获取其中商品页的网址链接,收集所获取的所有商品页的网址链接并发送给所述链接库。
14.如权利要求13所述的收集网站信息中有效信息网页的系统,其中,
所述内容管理装置,还用于抓取所述被收集网站中列表页的可访问的网址链接,将相似一组列表页的网址链接通过使用占位符的方式编辑成这一组列表页的网址链接模板。
15.如权利要求14所述的收集网站信息中有效信息网页的系统,其中,
所述内容管理装置中所预先配置的列表页的网址链接模板包含有:所述列表页的起始页字段、步长字段、总页数字段和当前页数字段。
16.如权利要求15所述的收集网站信息中有效信息网页的系统,其中,
所述网页收集装置,进一步用于根据从所述链接库获取的列表页的网址链接模板,以一组列表页的起始页字段为当前页数,并不断根据步长字段的数值修正当前页数,识别出所述这一组列表页的可访问的网址链接,针对所述可访问的网址链接的每一个,获取其中所包含的全部内部网址链接。
17.如权利要求16所述的收集网站信息中有效信息网页的系统,其中,
所述网页收集装置,还用于当监控到每组所述列表页的可访问的网址链接中的当前页数字段的值大于等于总页数字段的值时,跳转到下一组未识别的所述列表页的可访问的网址链接继续识别所述可访问的网址链接的每一个,获取其中所包含的全部内部网址链接,直到所述被收集网站中列表页的可访问的网址链接全部识别完为止。
18.如权利要求13所述的收集网站信息中有效信息网页的系统,其中,
所述网页收集装置,还用于丢弃与所述商品页的网址链接模板不匹配的内部网址链接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210337847XA CN102867053A (zh) | 2012-09-12 | 2012-09-12 | 收集网站信息中有效信息网页的方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210337847XA CN102867053A (zh) | 2012-09-12 | 2012-09-12 | 收集网站信息中有效信息网页的方法、装置及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102867053A true CN102867053A (zh) | 2013-01-09 |
Family
ID=47445922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210337847XA Pending CN102867053A (zh) | 2012-09-12 | 2012-09-12 | 收集网站信息中有效信息网页的方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102867053A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103606096A (zh) * | 2013-11-15 | 2014-02-26 | 北京奇虎科技有限公司 | 一种用于实现商品状态变化提醒的方法、装置、客户端及系统 |
CN103793462A (zh) * | 2013-12-02 | 2014-05-14 | 北京奇虎科技有限公司 | 网址净化方法及装置 |
CN104050037A (zh) * | 2014-06-13 | 2014-09-17 | 淮阴工学院 | 一种基于指定电子商务网站的定向爬虫的实现方法 |
CN104461491A (zh) * | 2013-09-24 | 2015-03-25 | 阿里巴巴集团控股有限公司 | 一种Hybrid组件的运行方法和系统 |
WO2015067179A1 (zh) * | 2013-11-07 | 2015-05-14 | 北京奇虎科技有限公司 | 一种检测商品模板失效的方法及装置 |
WO2015070795A1 (zh) * | 2013-11-15 | 2015-05-21 | 北京奇虎科技有限公司 | 用于实现商品收藏及状态变化提醒的方法、装置、客户端及系统 |
CN105205061A (zh) * | 2014-06-12 | 2015-12-30 | 中国银联股份有限公司 | 一种电商网站的页面信息获取方法 |
CN105719162A (zh) * | 2016-01-20 | 2016-06-29 | 北京京东尚科信息技术有限公司 | 监测推广链接有效性的方法及装置 |
CN103793461B (zh) * | 2013-12-02 | 2017-05-31 | 北京奇虎科技有限公司 | 网页信息的解析方法及装置 |
CN108334585A (zh) * | 2018-01-29 | 2018-07-27 | 湖北省楚天云有限公司 | 一种网页爬虫方法、装置以及电子设备 |
CN109460527A (zh) * | 2018-09-25 | 2019-03-12 | 中国平安人寿保险股份有限公司 | 产品数据配置方法、装置、计算机设备和存储介质 |
CN110309386A (zh) * | 2018-02-28 | 2019-10-08 | 腾讯科技(深圳)有限公司 | 一种网页爬取的方法和装置 |
CN113010639A (zh) * | 2021-02-26 | 2021-06-22 | 济南浪潮高新科技投资发展有限公司 | 一种基于电商平台的商品分析方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1845098A (zh) * | 2006-02-20 | 2006-10-11 | 南京工业大学 | 仿人工细粒度网页信息采集方法 |
CN101017490A (zh) * | 2006-02-10 | 2007-08-15 | 鸿富锦精密工业(深圳)有限公司 | 自动下载和过滤网页的系统及方法 |
CN101661468A (zh) * | 2008-08-29 | 2010-03-03 | 中国科学院计算技术研究所 | 一种从论坛帖子列表页面中抽取帖子元数据的方法 |
CN102495847A (zh) * | 2011-11-16 | 2012-06-13 | 浙江盘石信息技术有限公司 | 一种网络商品信息抽取方法 |
-
2012
- 2012-09-12 CN CN201210337847XA patent/CN102867053A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101017490A (zh) * | 2006-02-10 | 2007-08-15 | 鸿富锦精密工业(深圳)有限公司 | 自动下载和过滤网页的系统及方法 |
CN1845098A (zh) * | 2006-02-20 | 2006-10-11 | 南京工业大学 | 仿人工细粒度网页信息采集方法 |
CN101661468A (zh) * | 2008-08-29 | 2010-03-03 | 中国科学院计算技术研究所 | 一种从论坛帖子列表页面中抽取帖子元数据的方法 |
CN102495847A (zh) * | 2011-11-16 | 2012-06-13 | 浙江盘石信息技术有限公司 | 一种网络商品信息抽取方法 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104461491B (zh) * | 2013-09-24 | 2017-10-27 | 阿里巴巴集团控股有限公司 | 一种Hybrid组件的运行方法和系统 |
CN104461491A (zh) * | 2013-09-24 | 2015-03-25 | 阿里巴巴集团控股有限公司 | 一种Hybrid组件的运行方法和系统 |
WO2015067179A1 (zh) * | 2013-11-07 | 2015-05-14 | 北京奇虎科技有限公司 | 一种检测商品模板失效的方法及装置 |
WO2015070795A1 (zh) * | 2013-11-15 | 2015-05-21 | 北京奇虎科技有限公司 | 用于实现商品收藏及状态变化提醒的方法、装置、客户端及系统 |
CN103606096A (zh) * | 2013-11-15 | 2014-02-26 | 北京奇虎科技有限公司 | 一种用于实现商品状态变化提醒的方法、装置、客户端及系统 |
CN103793462B (zh) * | 2013-12-02 | 2016-08-31 | 北京奇虎科技有限公司 | 网址净化方法及装置 |
CN103793461B (zh) * | 2013-12-02 | 2017-05-31 | 北京奇虎科技有限公司 | 网页信息的解析方法及装置 |
CN103793462A (zh) * | 2013-12-02 | 2014-05-14 | 北京奇虎科技有限公司 | 网址净化方法及装置 |
CN105205061A (zh) * | 2014-06-12 | 2015-12-30 | 中国银联股份有限公司 | 一种电商网站的页面信息获取方法 |
CN105205061B (zh) * | 2014-06-12 | 2018-08-10 | 中国银联股份有限公司 | 一种电商网站的页面信息获取方法 |
CN104050037A (zh) * | 2014-06-13 | 2014-09-17 | 淮阴工学院 | 一种基于指定电子商务网站的定向爬虫的实现方法 |
CN105719162A (zh) * | 2016-01-20 | 2016-06-29 | 北京京东尚科信息技术有限公司 | 监测推广链接有效性的方法及装置 |
CN108334585A (zh) * | 2018-01-29 | 2018-07-27 | 湖北省楚天云有限公司 | 一种网页爬虫方法、装置以及电子设备 |
CN110309386A (zh) * | 2018-02-28 | 2019-10-08 | 腾讯科技(深圳)有限公司 | 一种网页爬取的方法和装置 |
CN110309386B (zh) * | 2018-02-28 | 2023-02-07 | 腾讯科技(深圳)有限公司 | 一种网页爬取的方法和装置 |
CN109460527A (zh) * | 2018-09-25 | 2019-03-12 | 中国平安人寿保险股份有限公司 | 产品数据配置方法、装置、计算机设备和存储介质 |
CN109460527B (zh) * | 2018-09-25 | 2024-05-03 | 中国平安人寿保险股份有限公司 | 产品数据配置方法、装置、计算机设备和存储介质 |
CN113010639A (zh) * | 2021-02-26 | 2021-06-22 | 济南浪潮高新科技投资发展有限公司 | 一种基于电商平台的商品分析方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102867053A (zh) | 收集网站信息中有效信息网页的方法、装置及系统 | |
Khder | Web scraping or web crawling: State of art, techniques, approaches and application. | |
Zhao | Web scraping | |
CN104077402B (zh) | 数据处理方法和数据处理系统 | |
US20070136263A1 (en) | Discovering web-based multimedia using search toolbar data | |
US20120066380A1 (en) | Update notification method and system | |
CN103455600B (zh) | 一种视频url抓取方法、装置及服务器设备 | |
WO2013163615A2 (en) | Application representation for application editions | |
CN104899306B (zh) | 信息处理方法、信息显示方法及装置 | |
CN104394211A (zh) | 一种基于Hadoop用户行为分析系统设计与实现方法 | |
CN104615627B (zh) | 一种基于微博平台的事件舆情信息提取方法及系统 | |
CN105302815B (zh) | 网页的统一资源定位符url的过滤方法和装置 | |
CN101441629A (zh) | 一种非结构化网页信息的自动采集方法 | |
US11308141B2 (en) | Template generation using directed acyclic word graphs | |
CN114528457A (zh) | Web指纹检测方法及相关设备 | |
KR20190058141A (ko) | 문서로부터 추출되는 데이터를 생성하는 방법 및 그 장치 | |
CN103778156A (zh) | 数据搜索的方法和装置以及用于数据搜索的服务器 | |
Parvatikar et al. | Analysis of user behavior through web usage mining | |
US11477161B1 (en) | Systems and methods for detecting DNS communications through time-to-live analyses | |
CN103810191B (zh) | 一种用于向用户提供呈现信息的方法和设备 | |
CN110245314A (zh) | 一种网页指纹生成方法 | |
CN103354546A (zh) | 报文过滤方法与装置 | |
Bakariya et al. | An inclusive survey on data preprocessing methods used in web usage mining | |
US9756064B2 (en) | Apparatus and method for collecting harmful website information | |
CN110069691A (zh) | 用于处理点击行为数据的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130109 |