CN100543741C

CN100543741C - 自动下载和过滤网页的系统及方法

Info

Publication number: CN100543741C
Application number: CNB2006100335759A
Authority: CN
Inventors: 李良普; 李忠一; 叶建发
Original assignee: Hongfujin Precision Industry Shenzhen Co Ltd; Hon Hai Precision Industry Co Ltd
Current assignee: Hongfujin Precision Industry Shenzhen Co Ltd; Hon Hai Precision Industry Co Ltd
Priority date: 2006-02-10
Filing date: 2006-02-10
Publication date: 2009-09-23
Anticipated expiration: 2026-02-10
Also published as: US20070198491A1; CN101017490A

Abstract

本发明提供一种自动下载和过滤网页的方法，该方法包括如下步骤：接收用户输入的搜索关键字和搜索平台的网址；将该关键字和网址转换成网站链接的脚本，并解析执行该脚本，获得资讯列表网页；将该资讯列表网页转换成处理资讯列表的脚本，并解析执行该脚本，获得资讯网页；将该资讯网页转换成处理资讯网页的脚本，并解析执行该脚本，获得无广告链接的资讯网页。利用本发明可以过滤掉网页中的无关链接，而且搜索的可配置性好。

Description

自动下载和过滤网页的系统及方法

【技术领域】

本发明涉及一种下载和过滤网页的系统及方法，特别涉及一种自动下载和过滤网页的系统及方法。

【背景技术】

网上浏览资讯已成为人们日常工作、学习和生活中不可或缺的一个重要部分，网络的信息量大，已成为全球“最大的图书馆”。

网站发布资讯的一般做法是在一个网页里面列出今天所发布的所有资讯的标题和这条资讯对应的链接，用户点击某条资讯后，在新打开的网页里面显示这条资讯的全部内容，这个网页里面包括资讯内容，广告和其它与此资讯无关的内容。

目前网络上的搜索引擎一般只能提供搜索结果的标题，搜索内容需要链接到原来的网页，而原来的网页一般含有很多广告或者原有网站的和搜索内容无关的资讯。而且目前网络上的搜索引擎一般采用某种语言开发，比如C++，Java，这些搜索引擎功能比较单一，可配置性较差，针对不同网站需要重新开发程序，重新编译部署程序。

【发明内容】

鉴于以上内容，有必要提供一种自动下载和过滤网页的系统，其可以自动将搜索结果中的广告和其他与所搜索的内容无关的其他信息过滤掉，而且搜索的可配置性好，不需重新编译部署程序。

此外，还有必要提供一种自动下载和过滤网页的方法，其可以自动将搜索结果中的广告和其他与所搜索的内容无关的其他信息过滤掉，而且搜索的可配置性好，不需重新编译部署程序。

一种自动下载和过滤网页的系统，包括客户端及服务器。其中，客户端，用于接收搜索关键字和搜索平台的网址信息，并将该关键字和网址信息发送给服务器；服务器根据客户端发送过来的信息从因特网上下载网页，并发送搜索结果信息给客户端。所述的服务器包括：脚本转换模块，用于将关键字和网址信息转换成网站链接的脚本，及将资讯列表网页转换成处理资讯列表的脚本，将资讯网页转换成处理资讯网页的脚本；脚本解析模块，用于将网站链接的脚本解析成网站链接的指令文件，将处理资讯列表的脚本解析成下载资讯链接的指令文件，及将处理资讯网页的脚本解析成保存资料库的指令文件；指令执行模块，用于在执行网站链接的指令文件时下载资讯列表网页，在执行下载资讯链接的指令文件时下载资讯列表网页里所链接的资讯网页，包括资讯网页内容和资讯链接，在执行保存资料库的指令文件时，下载资讯网页所链接的与资讯内容相关的图片，并删除资讯网页里的无关链接。

进一步地，所述的指令文件为可扩展标记语言的指令文件，所述的脚本为一种基于可扩展标记语言的查询语言的脚本。

一种自动下载和过滤网页的方法。该方法包括如下步骤：(a)接收搜索关键字和搜索平台的网址；(b)将该关键字和网址转换成网站链接的脚本，并解析执行该脚本，获得资讯列表网页；(c)将该资讯列表网页转换成处理资讯列表的脚本，并解析执行该脚本，获得资讯网页；(d)将该资讯网页转换成处理资讯网页的脚本，并解析执行该脚本，获得无广告链接的资讯网页。

进一步地，所述的将该关键字和网址转换成网站链接的脚本，并解析执行该脚本包括如下步骤：(e)将该关键字和网址转换成网站链接的脚本；(f)解析该网站链接的脚本，获得网站链接的指令文件；

(g)将该指令文件的指令放入指令队列，以及从指令队列中取出指令并执行该指令的动作，获得资讯列表网页。

进一步地，所述的将该资讯列表网页转换成处理资讯列表的脚本，并解析执行该脚本包括如下步骤：(h)将该资讯列表网页转换成处理资讯列表的脚本；(i)解析该处理资讯列表的脚本，获得下载资讯链接的指令文件；(j)将该指令文件的指令放入指令队列，以及从指令队列中取出指令并执行该指令的动作，获得资讯网页。

进一步地，所述的将该资讯网页转换成处理资讯网页的脚本，并解析执行该脚本包括如下步骤：(k)将该资讯网页转换成处理资讯网页的脚本；(1)解析该处理资讯网页的脚本，获得保存资料库的指令文件；(m)将该指令文件的指令放入指令队列，以及从指令队列中取出指令并执行该指令的动作，获得无广告链接的资讯网页。

相较于现有技术，所述的自动下载和过滤网页的系统及方法，其利用基于XML(可扩展标记语言)的虚拟机系统来作为搜索引擎的基础，可以过滤掉搜索结果中的广告和其他无关内容，而且搜索的可配置性好，不需重新编译部署程序。

【附图说明】

图1是本发明自动下载和过滤网页的系统的较佳实施例的硬件框架图。

图2是本发明自动下载和过滤网页的系统的较佳实施例的服务器的功能模块图。

图3是本发明自动下载和过滤网页的方法的较佳实施例的流程图。

【具体实施方式】

如图1所示，是本发明自动下载和过滤网页的系统的较佳实施例的硬件框架图。该自动下载和过滤网页的系统根据客户端50中用户输入的关键字通过服务器20从因特网10下载和过滤网页，排除重复资讯，并将结果存入资料库30和文件服务器40中以及发送给客户端50。具体而言，首先通过客户端50接收用户输入的搜索关键字和搜索平台的网址，然后，基于XQuery的搜索引擎200分析处理用户输入的关键字和网址，生成XQuery脚本文件和可扩展标记语言(Extensible Markup Language，简称XML)指令文件，并对该XQuery脚本和该XML指令文件进行处理，从因特网10上下载资讯和与资讯内容有关的图片，过滤掉与资讯内容无关的链接，并将该资讯的资讯列表网页发送给客户端50，将该资讯的非图片部分内容存入资料库30中，将与该资讯内容相关的图片存入文件服务器40中。

所述的服务器20使用的搜索引擎是基于XQuery(一种基于XML的查询语言)的搜索引擎。所述的资料库30用于储存非图片部分的资讯内容，所述的文件服务器40用于储存与资讯内容有关的图片。该资料库30和该文件服务器40可独立于服务器20，也可位于服务器20内。该资料库30和文件服务器40可以是硬盘或者闪存盘等存储设备。所述的客户端50用于接收用户输入的搜索关键字和搜索平台的网址等信息，并将该信息发送给服务器20，以及接收服务器20发回的搜索结果信息。

如图2所示，是本发明自动下载和过滤网页的系统较佳实施例的服务器的的功能模块图。该服务器20包括脚本转换模块110，脚本解析模块120，以及指令执行模块130。

所述的脚本转换模块110，用于根据所接收的用户输入的关键字及搜索平台的网址信息转换生成XQuery脚本文件。该转换所生成的XQuery脚本文件包括：网站链接的脚本、处理资讯列表的脚本、处理资讯网页的脚本。在本较佳实施例中，基于XQuery的搜索引擎200包括三个XQuery脚本模块：第一脚本模块、第二脚本模块、第三脚本模块。所述的脚本转换模块110转换生成XQuery脚本文件动作具体如下：第一脚本模块将用户所输入的关键字和网址等信息转换成网站链接的脚本，第二脚本模块将资讯列表网页转换成处理资讯列表的脚本，第三脚本模块将资讯网页转换成处理资讯网页的脚本。其中，所述的资讯网页包含有广告图片等无关链接。

所述的脚本解析模块120，用于将上述所转换成的XQuery脚本解析成XML指令文件。即将网站链接的脚本解析成网站链接的XML指令文件，将处理资讯列表的脚本解析成下载资讯链接的XML指令文件，将处理资讯网页的脚本解析成保存资料库的XML指令文件。

所述的指令执行模块130，用于从XML指令文件中取出XML指令，并将该指令放入指令队列，以及执行XML指令文件中的XML指令。

所述的将该指令放入指令队列是根据该XML指令的属性来完成的，若该XML指令的属性为queue＝‘top’，就将该指令放到指令队列的头部；若该XML指令的属性为queue＝‘bottom’，就将该指令放到指令队列的尾部。

其中，执行XML指令文件中的XML指令是先从指令队列头部取出该指令，然后再执行其所代表的动作。该XML指令所代表的动作包括下载网页、写资料库30、写文件服务器40、发送电子邮件等。其中，下载网页是从因特网10上下载与搜索关键字相关的网页；写资料库30是将网页中的非图片部分内容写入资料库30中；写文件服务器40是将与资讯内容相关的图片写入文件服务器40中，发邮件是将资讯列表网页发送给客户端50。在本较佳实施例中，当执行网站链接的XML指令文件的指令时，该指令执行模块130从因特网10下载资讯列表网页，并将该资讯列表网页写入资料库30中，同时将其发送给客户端50，借此用户可点击该资讯列表网页上的资讯链接来打开相关资讯网页；当处理下载资讯链接的XML指令文件的指令时，该指令执行模块130从上述资讯列表网页里抽取所有链接，根据每个链接及该链接的资讯标题来判断资料库30中是否存在这条资讯，若存在，则忽视这条资讯，若不存在，则下载该链接的资讯网页(该资讯网页包含资讯内容以及广告图片等无关链接)，将所下载的资讯网页及该资讯网页的链接和资讯标题写入资料库30中；当处理保存资料库的XML指令文件的指令时，该指令执行模块130抽取资料库30中资讯网页的所有链接，根据该链接是否包含于所设定的无关链接规则来判断该链接是否为无关链接，若该链接包含于所设定的无关链接规则，则该链接为无关链接，并将该链接删除，若该链接不包含于所设定的无关链接规则，则该链接为与资讯内容相关的链接，并继而判断该链接是否为图片链接，当该链接为图片链接时，则从因特网10上下载该链接的图片，同时将所下载的图片写入文件服务器40中，当该链接为非图片链接时，则抽取该链接，重新让指令执行模块130根据处理下载资讯链接的XML指令文件的指令的情况来判断是否要下载该资讯。

通过上述的各功能模块，于自动下载和过滤网页的步骤，如下所述。

于本实施例中，首先，接受用户输入的搜索关键字和搜索平台的网址；然后脚本转换模块110将该关键字和网址等信息转换成网站链接的脚本；继而，脚本解析模块120将该网站链接的脚本解析成网站链接的XML指令文件；指令执行模块130处理该网站链接的XML指令文件，下载得到资讯列表网页，并将其写入资料库30中，以及发送给客户端50；然后，脚本转换模块110将该资讯列表网页转换成处理资讯列表的脚本；继而，脚本解析模块120将该处理资讯列表的脚本解析成下载资讯链接的XML指令文件；指令执行模块130处理该下载资讯链接的XML指令文件，下载得到资讯网页，并将其写入资料库30中；然后，脚本转换模块110将该资讯网页转换成处理资讯网页的脚本；继而，脚本解析模块120将该处理资讯网页的脚本解析成保存资料库的XML指令文件；指令执行模块130处理该保存资料库的XML指令文件，将资料库30中资讯网页的无关链接删除，并下载与资讯内容有关的链接的图片，同时将该图片写入文件服务器40中，最终得到不含广告图片等无关链接的资讯网页。

如图3所示，是本发明自动下载和过滤网页的方法的较佳实施例的流程图。首先，步骤S11，用户输入搜索关键字和搜索平台的网址。

步骤S12，脚本转换模块110将该关键字和网址等信息转换成网站链接的脚本。

步骤S13，脚本解析模块120将该网站链接的脚本解析成网站链接的XML指令文件。

步骤S14，指令执行模块130从该网站链接的XML指令文件中取出指令，并将该指令放入指令队列的头部或尾部，以及从指令队列头部取出指令并执行该指令所代表的动作，得到资讯列表网页。从该指令队列头部取出指令并执行该指令包括从因特网10下载资讯列表网页，并将该资讯列表网页写入资料库30中，同时将其发送给客户端50，借此用户可点击该资讯列表网页上的资讯链接来打开相关资讯网页。

步骤S15，脚本转换模块110将该资讯列表网页转换成处理资讯列表的脚本。

步骤S16，脚本解析模块120将该处理资讯列表的脚本解析成下载资讯链接的XML指令文件。

步骤S17，指令执行模块130从该下载资讯链接的XML指令文件中取出指令，并将该指令放入指令队列的头部或尾部，以及从指令队列头部取出指令并执行该指令所代表的动作，得到资讯网页。其中，执行该下载资讯链接的XML指令文件的指令是从上述资讯列表网页里抽取链接，根据该链接及链接的资讯标题来判断资料库30中是否存在这条资讯，若存在，则忽视这条资讯，若不存在，则下载该链接的资讯网页(该资讯网页包含资讯内容以及广告图片等无关链接)，并将所下载的资讯网页及该资讯网页的链接和资讯标题写入资料库30中。

步骤S18，脚本转换模块110将该资讯网页转换成处理资讯网页的脚本。

步骤S19，脚本解析模块120将该处理资讯网页的脚本解析成保存资料库的XML指令文件。

步骤S20，指令执行模块130从该保存资料库的XML指令文件中取出指令，并将该指令放入指令队列的头部或尾部，以及从指令队列头部取出指令并执行该指令所代表的动作。其中，执行该保存资料库的XML指令文件的指令是抽取资料库30中资讯网页的所有链接，并对链接进行操作，具体操作方式见下述步骤。

步骤S21，根据链接是否包含于所设定的无关链接规则来逐一判断所抽取的链接是否为无关链接。

步骤S22，若链接包含于所设定的无关链接规则，即该链接为无关链接，则将该链接删除。

步骤S23，若链接不包含于所设定的无关链接规则，即该链接为与资讯内容相关的链接，则继而判断该链接是否为图片链接。

步骤S24，若链接为与资讯内容相关的图片链接时，则从因特网10上下载该链接的图片，同时将所下载的图片写入文件服务器40中。

在步骤S23中，当该链接为非图片链接时，则返回到步骤S15。

Claims

1.一种自动下载和过滤网页的系统，包括客户端及服务器，其中，

客户端接收搜索关键字和搜索平台的网址信息，并将该关键字和网址信息发送给服务器，

服务器根据客户端发送过来的信息从因特网上下载网页，并发送搜索结果信息给客户端，

其特征在于，所述的服务器包括：

脚本转换模块，用于将所述的关键字和网址信息转换成网站链接的脚本，将资讯列表网页转换成处理资讯列表的脚本，及将资讯网页转换成处理资讯网页的脚本；

脚本解析模块，用于将网站链接的脚本解析成网站链接的指令文件，将处理资讯列表的脚本解析成下载资讯链接的指令文件，及将处理资讯网页的脚本解析成保存资料库的指令文件；

指令执行模块，用于在执行网站链接的指令文件时下载资讯列表网页，在执行下载资讯链接的指令文件时下载资讯列表网页里所链接的资讯网页，包括资讯网页内容和资讯链接，在执行保存资料库的指令文件时，下载资讯网页所链接的与资讯内容相关的图片，并删除资讯网页里的无关链接。

2.如权利要求1所述的自动下载和过滤网页的系统，其特征在于，所述的指令文件为可扩展标记语言的指令文件，所述的脚本为一种基于可扩展标记语言的查询语言的脚本。

3.如权利要求1所述的自动下载和过滤网页的系统，其特征在于，所述的指令执行模块还用于将指令文件中的指令放入指令队列中，执行指令时从该指令队列中取出指令执行。

4.一种自动下载和过滤网页的方法，其特征在于，该方法包括如下步骤：

接收搜索关键字和搜索平台的网址；

将该关键字和网址转换成网站链接的脚本，并解析执行该脚本，获得资讯列表网页；

将该资讯列表网页转换成处理资讯列表的脚本，并解析执行该脚本，获得资讯网页；

将该资讯网页转换成处理资讯网页的脚本，并解析执行该脚本，获得无广告链接的资讯网页。

5.如权利要求4所述的自动下载和过滤网页的方法，其特征在于，所述的将该关键字和网址转换成网站链接的脚本，并解析执行该脚本包括如下步骤：

将该关键字和网址转换成网站链接的脚本；

解析该网站链接的脚本，获得网站链接的指令文件；

将该指令文件的指令放入指令队列，以及从指令队列中取出指令并执行该指令的动作，获得资讯列表网页。

6.如权利要求4所述的自动下载和过滤网页的方法，其特征在于，所述的将该资讯列表网页转换成处理资讯列表的脚本，并解析执行该脚本包括如下步骤：

将该资讯列表网页转换成处理资讯列表的脚本；

解析该处理资讯列表的脚本，获得下载资讯链接的指令文件；

将该指令文件的指令放入指令队列，以及从指令队列中取出指令并执行该指令的动作，获得资讯网页。

7.如权利要求4所述的自动下载和过滤网页的方法，其特征在于，所述的将该资讯网页转换成处理资讯网页的脚本，并解析执行该脚本包括如下步骤：

将该资讯网页转换成处理资讯网页的脚本；

解析该处理资讯网页的脚本，获得保存资料库的指令文件；

将该指令文件的指令放入指令队列，以及从指令队列中取出指令并执行该指令的动作，获得无广告链接的资讯网页。

8.如权利要求5或6或7所述的自动下载和过滤网页的方法，其特征在于，所述的指令文件为可扩展标记语言的指令文件，所述的脚本为一种基于可扩展标记语言的查询语言的脚本。