CN100543741C - 自动下载和过滤网页的系统及方法 - Google Patents

自动下载和过滤网页的系统及方法 Download PDF

Info

Publication number
CN100543741C
CN100543741C CNB2006100335759A CN200610033575A CN100543741C CN 100543741 C CN100543741 C CN 100543741C CN B2006100335759 A CNB2006100335759 A CN B2006100335759A CN 200610033575 A CN200610033575 A CN 200610033575A CN 100543741 C CN100543741 C CN 100543741C
Authority
CN
China
Prior art keywords
information
script
webpage
instruction
command file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2006100335759A
Other languages
English (en)
Other versions
CN101017490A (zh
Inventor
李良普
李忠一
叶建发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Industry Shenzhen Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Industry Shenzhen Co Ltd
Priority to CNB2006100335759A priority Critical patent/CN100543741C/zh
Priority to US11/614,988 priority patent/US20070198491A1/en
Publication of CN101017490A publication Critical patent/CN101017490A/zh
Application granted granted Critical
Publication of CN100543741C publication Critical patent/CN100543741C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/30Managing network names, e.g. use of aliases or nicknames

Abstract

本发明提供一种自动下载和过滤网页的方法,该方法包括如下步骤:接收用户输入的搜索关键字和搜索平台的网址;将该关键字和网址转换成网站链接的脚本,并解析执行该脚本,获得资讯列表网页;将该资讯列表网页转换成处理资讯列表的脚本,并解析执行该脚本,获得资讯网页;将该资讯网页转换成处理资讯网页的脚本,并解析执行该脚本,获得无广告链接的资讯网页。利用本发明可以过滤掉网页中的无关链接,而且搜索的可配置性好。

Description

自动下载和过滤网页的系统及方法
【技术领域】
本发明涉及一种下载和过滤网页的系统及方法,特别涉及一种自动下载和过滤网页的系统及方法。
【背景技术】
网上浏览资讯已成为人们日常工作、学习和生活中不可或缺的一个重要部分,网络的信息量大,已成为全球“最大的图书馆”。
网站发布资讯的一般做法是在一个网页里面列出今天所发布的所有资讯的标题和这条资讯对应的链接,用户点击某条资讯后,在新打开的网页里面显示这条资讯的全部内容,这个网页里面包括资讯内容,广告和其它与此资讯无关的内容。
目前网络上的搜索引擎一般只能提供搜索结果的标题,搜索内容需要链接到原来的网页,而原来的网页一般含有很多广告或者原有网站的和搜索内容无关的资讯。而且目前网络上的搜索引擎一般采用某种语言开发,比如C++,Java,这些搜索引擎功能比较单一,可配置性较差,针对不同网站需要重新开发程序,重新编译部署程序。
【发明内容】
鉴于以上内容,有必要提供一种自动下载和过滤网页的系统,其可以自动将搜索结果中的广告和其他与所搜索的内容无关的其他信息过滤掉,而且搜索的可配置性好,不需重新编译部署程序。
此外,还有必要提供一种自动下载和过滤网页的方法,其可以自动将搜索结果中的广告和其他与所搜索的内容无关的其他信息过滤掉,而且搜索的可配置性好,不需重新编译部署程序。
一种自动下载和过滤网页的系统,包括客户端及服务器。其中,客户端,用于接收搜索关键字和搜索平台的网址信息,并将该关键字和网址信息发送给服务器;服务器根据客户端发送过来的信息从因特网上下载网页,并发送搜索结果信息给客户端。所述的服务器包括:脚本转换模块,用于将关键字和网址信息转换成网站链接的脚本,及将资讯列表网页转换成处理资讯列表的脚本,将资讯网页转换成处理资讯网页的脚本;脚本解析模块,用于将网站链接的脚本解析成网站链接的指令文件,将处理资讯列表的脚本解析成下载资讯链接的指令文件,及将处理资讯网页的脚本解析成保存资料库的指令文件;指令执行模块,用于在执行网站链接的指令文件时下载资讯列表网页,在执行下载资讯链接的指令文件时下载资讯列表网页里所链接的资讯网页,包括资讯网页内容和资讯链接,在执行保存资料库的指令文件时,下载资讯网页所链接的与资讯内容相关的图片,并删除资讯网页里的无关链接。
进一步地,所述的指令文件为可扩展标记语言的指令文件,所述的脚本为一种基于可扩展标记语言的查询语言的脚本。
一种自动下载和过滤网页的方法。该方法包括如下步骤:(a)接收搜索关键字和搜索平台的网址;(b)将该关键字和网址转换成网站链接的脚本,并解析执行该脚本,获得资讯列表网页;(c)将该资讯列表网页转换成处理资讯列表的脚本,并解析执行该脚本,获得资讯网页;(d)将该资讯网页转换成处理资讯网页的脚本,并解析执行该脚本,获得无广告链接的资讯网页。
进一步地,所述的将该关键字和网址转换成网站链接的脚本,并解析执行该脚本包括如下步骤:(e)将该关键字和网址转换成网站链接的脚本;(f)解析该网站链接的脚本,获得网站链接的指令文件;
(g)将该指令文件的指令放入指令队列,以及从指令队列中取出指令并执行该指令的动作,获得资讯列表网页。
进一步地,所述的将该资讯列表网页转换成处理资讯列表的脚本,并解析执行该脚本包括如下步骤:(h)将该资讯列表网页转换成处理资讯列表的脚本;(i)解析该处理资讯列表的脚本,获得下载资讯链接的指令文件;(j)将该指令文件的指令放入指令队列,以及从指令队列中取出指令并执行该指令的动作,获得资讯网页。
进一步地,所述的将该资讯网页转换成处理资讯网页的脚本,并解析执行该脚本包括如下步骤:(k)将该资讯网页转换成处理资讯网页的脚本;(1)解析该处理资讯网页的脚本,获得保存资料库的指令文件;(m)将该指令文件的指令放入指令队列,以及从指令队列中取出指令并执行该指令的动作,获得无广告链接的资讯网页。
相较于现有技术,所述的自动下载和过滤网页的系统及方法,其利用基于XML(可扩展标记语言)的虚拟机系统来作为搜索引擎的基础,可以过滤掉搜索结果中的广告和其他无关内容,而且搜索的可配置性好,不需重新编译部署程序。
【附图说明】
图1是本发明自动下载和过滤网页的系统的较佳实施例的硬件框架图。
图2是本发明自动下载和过滤网页的系统的较佳实施例的服务器的功能模块图。
图3是本发明自动下载和过滤网页的方法的较佳实施例的流程图。
【具体实施方式】
如图1所示,是本发明自动下载和过滤网页的系统的较佳实施例的硬件框架图。该自动下载和过滤网页的系统根据客户端50中用户输入的关键字通过服务器20从因特网10下载和过滤网页,排除重复资讯,并将结果存入资料库30和文件服务器40中以及发送给客户端50。具体而言,首先通过客户端50接收用户输入的搜索关键字和搜索平台的网址,然后,基于XQuery的搜索引擎200分析处理用户输入的关键字和网址,生成XQuery脚本文件和可扩展标记语言(Extensible Markup Language,简称XML)指令文件,并对该XQuery脚本和该XML指令文件进行处理,从因特网10上下载资讯和与资讯内容有关的图片,过滤掉与资讯内容无关的链接,并将该资讯的资讯列表网页发送给客户端50,将该资讯的非图片部分内容存入资料库30中,将与该资讯内容相关的图片存入文件服务器40中。
所述的服务器20使用的搜索引擎是基于XQuery(一种基于XML的查询语言)的搜索引擎。所述的资料库30用于储存非图片部分的资讯内容,所述的文件服务器40用于储存与资讯内容有关的图片。该资料库30和该文件服务器40可独立于服务器20,也可位于服务器20内。该资料库30和文件服务器40可以是硬盘或者闪存盘等存储设备。所述的客户端50用于接收用户输入的搜索关键字和搜索平台的网址等信息,并将该信息发送给服务器20,以及接收服务器20发回的搜索结果信息。
如图2所示,是本发明自动下载和过滤网页的系统较佳实施例的服务器的的功能模块图。该服务器20包括脚本转换模块110,脚本解析模块120,以及指令执行模块130。
所述的脚本转换模块110,用于根据所接收的用户输入的关键字及搜索平台的网址信息转换生成XQuery脚本文件。该转换所生成的XQuery脚本文件包括:网站链接的脚本、处理资讯列表的脚本、处理资讯网页的脚本。在本较佳实施例中,基于XQuery的搜索引擎200包括三个XQuery脚本模块:第一脚本模块、第二脚本模块、第三脚本模块。所述的脚本转换模块110转换生成XQuery脚本文件动作具体如下:第一脚本模块将用户所输入的关键字和网址等信息转换成网站链接的脚本,第二脚本模块将资讯列表网页转换成处理资讯列表的脚本,第三脚本模块将资讯网页转换成处理资讯网页的脚本。其中,所述的资讯网页包含有广告图片等无关链接。
所述的脚本解析模块120,用于将上述所转换成的XQuery脚本解析成XML指令文件。即将网站链接的脚本解析成网站链接的XML指令文件,将处理资讯列表的脚本解析成下载资讯链接的XML指令文件,将处理资讯网页的脚本解析成保存资料库的XML指令文件。
所述的指令执行模块130,用于从XML指令文件中取出XML指令,并将该指令放入指令队列,以及执行XML指令文件中的XML指令。
所述的将该指令放入指令队列是根据该XML指令的属性来完成的,若该XML指令的属性为queue=‘top’,就将该指令放到指令队列的头部;若该XML指令的属性为queue=‘bottom’,就将该指令放到指令队列的尾部。
其中,执行XML指令文件中的XML指令是先从指令队列头部取出该指令,然后再执行其所代表的动作。该XML指令所代表的动作包括下载网页、写资料库30、写文件服务器40、发送电子邮件等。其中,下载网页是从因特网10上下载与搜索关键字相关的网页;写资料库30是将网页中的非图片部分内容写入资料库30中;写文件服务器40是将与资讯内容相关的图片写入文件服务器40中,发邮件是将资讯列表网页发送给客户端50。在本较佳实施例中,当执行网站链接的XML指令文件的指令时,该指令执行模块130从因特网10下载资讯列表网页,并将该资讯列表网页写入资料库30中,同时将其发送给客户端50,借此用户可点击该资讯列表网页上的资讯链接来打开相关资讯网页;当处理下载资讯链接的XML指令文件的指令时,该指令执行模块130从上述资讯列表网页里抽取所有链接,根据每个链接及该链接的资讯标题来判断资料库30中是否存在这条资讯,若存在,则忽视这条资讯,若不存在,则下载该链接的资讯网页(该资讯网页包含资讯内容以及广告图片等无关链接),将所下载的资讯网页及该资讯网页的链接和资讯标题写入资料库30中;当处理保存资料库的XML指令文件的指令时,该指令执行模块130抽取资料库30中资讯网页的所有链接,根据该链接是否包含于所设定的无关链接规则来判断该链接是否为无关链接,若该链接包含于所设定的无关链接规则,则该链接为无关链接,并将该链接删除,若该链接不包含于所设定的无关链接规则,则该链接为与资讯内容相关的链接,并继而判断该链接是否为图片链接,当该链接为图片链接时,则从因特网10上下载该链接的图片,同时将所下载的图片写入文件服务器40中,当该链接为非图片链接时,则抽取该链接,重新让指令执行模块130根据处理下载资讯链接的XML指令文件的指令的情况来判断是否要下载该资讯。
通过上述的各功能模块,于自动下载和过滤网页的步骤,如下所述。
于本实施例中,首先,接受用户输入的搜索关键字和搜索平台的网址;然后脚本转换模块110将该关键字和网址等信息转换成网站链接的脚本;继而,脚本解析模块120将该网站链接的脚本解析成网站链接的XML指令文件;指令执行模块130处理该网站链接的XML指令文件,下载得到资讯列表网页,并将其写入资料库30中,以及发送给客户端50;然后,脚本转换模块110将该资讯列表网页转换成处理资讯列表的脚本;继而,脚本解析模块120将该处理资讯列表的脚本解析成下载资讯链接的XML指令文件;指令执行模块130处理该下载资讯链接的XML指令文件,下载得到资讯网页,并将其写入资料库30中;然后,脚本转换模块110将该资讯网页转换成处理资讯网页的脚本;继而,脚本解析模块120将该处理资讯网页的脚本解析成保存资料库的XML指令文件;指令执行模块130处理该保存资料库的XML指令文件,将资料库30中资讯网页的无关链接删除,并下载与资讯内容有关的链接的图片,同时将该图片写入文件服务器40中,最终得到不含广告图片等无关链接的资讯网页。
如图3所示,是本发明自动下载和过滤网页的方法的较佳实施例的流程图。首先,步骤S11,用户输入搜索关键字和搜索平台的网址。
步骤S12,脚本转换模块110将该关键字和网址等信息转换成网站链接的脚本。
步骤S13,脚本解析模块120将该网站链接的脚本解析成网站链接的XML指令文件。
步骤S14,指令执行模块130从该网站链接的XML指令文件中取出指令,并将该指令放入指令队列的头部或尾部,以及从指令队列头部取出指令并执行该指令所代表的动作,得到资讯列表网页。从该指令队列头部取出指令并执行该指令包括从因特网10下载资讯列表网页,并将该资讯列表网页写入资料库30中,同时将其发送给客户端50,借此用户可点击该资讯列表网页上的资讯链接来打开相关资讯网页。
步骤S15,脚本转换模块110将该资讯列表网页转换成处理资讯列表的脚本。
步骤S16,脚本解析模块120将该处理资讯列表的脚本解析成下载资讯链接的XML指令文件。
步骤S17,指令执行模块130从该下载资讯链接的XML指令文件中取出指令,并将该指令放入指令队列的头部或尾部,以及从指令队列头部取出指令并执行该指令所代表的动作,得到资讯网页。其中,执行该下载资讯链接的XML指令文件的指令是从上述资讯列表网页里抽取链接,根据该链接及链接的资讯标题来判断资料库30中是否存在这条资讯,若存在,则忽视这条资讯,若不存在,则下载该链接的资讯网页(该资讯网页包含资讯内容以及广告图片等无关链接),并将所下载的资讯网页及该资讯网页的链接和资讯标题写入资料库30中。
步骤S18,脚本转换模块110将该资讯网页转换成处理资讯网页的脚本。
步骤S19,脚本解析模块120将该处理资讯网页的脚本解析成保存资料库的XML指令文件。
步骤S20,指令执行模块130从该保存资料库的XML指令文件中取出指令,并将该指令放入指令队列的头部或尾部,以及从指令队列头部取出指令并执行该指令所代表的动作。其中,执行该保存资料库的XML指令文件的指令是抽取资料库30中资讯网页的所有链接,并对链接进行操作,具体操作方式见下述步骤。
步骤S21,根据链接是否包含于所设定的无关链接规则来逐一判断所抽取的链接是否为无关链接。
步骤S22,若链接包含于所设定的无关链接规则,即该链接为无关链接,则将该链接删除。
步骤S23,若链接不包含于所设定的无关链接规则,即该链接为与资讯内容相关的链接,则继而判断该链接是否为图片链接。
步骤S24,若链接为与资讯内容相关的图片链接时,则从因特网10上下载该链接的图片,同时将所下载的图片写入文件服务器40中。
在步骤S23中,当该链接为非图片链接时,则返回到步骤S15。

Claims (8)

1.一种自动下载和过滤网页的系统,包括客户端及服务器,其中,
客户端接收搜索关键字和搜索平台的网址信息,并将该关键字和网址信息发送给服务器,
服务器根据客户端发送过来的信息从因特网上下载网页,并发送搜索结果信息给客户端,
其特征在于,所述的服务器包括:
脚本转换模块,用于将所述的关键字和网址信息转换成网站链接的脚本,将资讯列表网页转换成处理资讯列表的脚本,及将资讯网页转换成处理资讯网页的脚本;
脚本解析模块,用于将网站链接的脚本解析成网站链接的指令文件,将处理资讯列表的脚本解析成下载资讯链接的指令文件,及将处理资讯网页的脚本解析成保存资料库的指令文件;
指令执行模块,用于在执行网站链接的指令文件时下载资讯列表网页,在执行下载资讯链接的指令文件时下载资讯列表网页里所链接的资讯网页,包括资讯网页内容和资讯链接,在执行保存资料库的指令文件时,下载资讯网页所链接的与资讯内容相关的图片,并删除资讯网页里的无关链接。
2.如权利要求1所述的自动下载和过滤网页的系统,其特征在于,所述的指令文件为可扩展标记语言的指令文件,所述的脚本为一种基于可扩展标记语言的查询语言的脚本。
3.如权利要求1所述的自动下载和过滤网页的系统,其特征在于,所述的指令执行模块还用于将指令文件中的指令放入指令队列中,执行指令时从该指令队列中取出指令执行。
4.一种自动下载和过滤网页的方法,其特征在于,该方法包括如下步骤:
接收搜索关键字和搜索平台的网址;
将该关键字和网址转换成网站链接的脚本,并解析执行该脚本,获得资讯列表网页;
将该资讯列表网页转换成处理资讯列表的脚本,并解析执行该脚本,获得资讯网页;
将该资讯网页转换成处理资讯网页的脚本,并解析执行该脚本,获得无广告链接的资讯网页。
5.如权利要求4所述的自动下载和过滤网页的方法,其特征在于,所述的将该关键字和网址转换成网站链接的脚本,并解析执行该脚本包括如下步骤:
将该关键字和网址转换成网站链接的脚本;
解析该网站链接的脚本,获得网站链接的指令文件;
将该指令文件的指令放入指令队列,以及从指令队列中取出指令并执行该指令的动作,获得资讯列表网页。
6.如权利要求4所述的自动下载和过滤网页的方法,其特征在于,所述的将该资讯列表网页转换成处理资讯列表的脚本,并解析执行该脚本包括如下步骤:
将该资讯列表网页转换成处理资讯列表的脚本;
解析该处理资讯列表的脚本,获得下载资讯链接的指令文件;
将该指令文件的指令放入指令队列,以及从指令队列中取出指令并执行该指令的动作,获得资讯网页。
7.如权利要求4所述的自动下载和过滤网页的方法,其特征在于,所述的将该资讯网页转换成处理资讯网页的脚本,并解析执行该脚本包括如下步骤:
将该资讯网页转换成处理资讯网页的脚本;
解析该处理资讯网页的脚本,获得保存资料库的指令文件;
将该指令文件的指令放入指令队列,以及从指令队列中取出指令并执行该指令的动作,获得无广告链接的资讯网页。
8.如权利要求5或6或7所述的自动下载和过滤网页的方法,其特征在于,所述的指令文件为可扩展标记语言的指令文件,所述的脚本为一种基于可扩展标记语言的查询语言的脚本。
CNB2006100335759A 2006-02-10 2006-02-10 自动下载和过滤网页的系统及方法 Expired - Fee Related CN100543741C (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CNB2006100335759A CN100543741C (zh) 2006-02-10 2006-02-10 自动下载和过滤网页的系统及方法
US11/614,988 US20070198491A1 (en) 2006-02-10 2006-12-22 System and method for searching and filtering web pages

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006100335759A CN100543741C (zh) 2006-02-10 2006-02-10 自动下载和过滤网页的系统及方法

Publications (2)

Publication Number Publication Date
CN101017490A CN101017490A (zh) 2007-08-15
CN100543741C true CN100543741C (zh) 2009-09-23

Family

ID=38429566

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100335759A Expired - Fee Related CN100543741C (zh) 2006-02-10 2006-02-10 自动下载和过滤网页的系统及方法

Country Status (2)

Country Link
US (1) US20070198491A1 (zh)
CN (1) CN100543741C (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071433B (zh) * 2007-05-10 2010-08-18 腾讯科技(深圳)有限公司 一种图片下载系统及方法
US9239862B2 (en) * 2012-05-01 2016-01-19 Qualcomm Incorporated Web acceleration based on hints derived from crowd sourcing
US9189555B2 (en) * 2012-09-07 2015-11-17 Oracle International Corporation Displaying customized list of links to content using client-side processing
CN102867053A (zh) * 2012-09-12 2013-01-09 北京奇虎科技有限公司 收集网站信息中有效信息网页的方法、装置及系统
CN103745006B (zh) * 2014-01-24 2017-05-03 吕书成 一种互联网信息搜索系统及方法
CN104809119A (zh) * 2014-01-24 2015-07-29 贝壳网际(北京)安全技术有限公司 一种网页广告过滤方法及装置
CN108153865A (zh) * 2017-12-22 2018-06-12 中山市小榄企业服务有限公司 一种互联网的网络应用采集系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001033371A1 (en) * 1999-11-05 2001-05-10 Surfmonkey.Com, Inc. System and method of filtering adult content on the internet
US20020049704A1 (en) * 1998-08-04 2002-04-25 Vanderveldt Ingrid V. Method and system for dynamic data-mining and on-line communication of customized information
US20020103797A1 (en) * 2000-08-08 2002-08-01 Surendra Goel Displaying search results
CN1402156A (zh) * 2001-08-22 2003-03-12 威瑟科技股份有限公司 网站信息提取系统与方法
JP2003271642A (ja) * 2002-03-15 2003-09-26 Nippon Telegr & Teleph Corp <Ntt> コンテンツ配信システム及びコンテンツ配信方法及びプログラム及び記録媒体

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6356899B1 (en) * 1998-08-29 2002-03-12 International Business Machines Corporation Method for interactively creating an information database including preferred information elements, such as preferred-authority, world wide web pages
US6615247B1 (en) * 1999-07-01 2003-09-02 Micron Technology, Inc. System and method for customizing requested web page based on information such as previous location visited by customer and search term used by customer
US6687696B2 (en) * 2000-07-26 2004-02-03 Recommind Inc. System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models
US7233955B2 (en) * 2002-07-08 2007-06-19 Ntt Docomo, Inc. System and method for searching and retrieving information regarding related goods and services
US9158855B2 (en) * 2005-06-16 2015-10-13 Buzzmetrics, Ltd Extracting structured data from weblogs

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020049704A1 (en) * 1998-08-04 2002-04-25 Vanderveldt Ingrid V. Method and system for dynamic data-mining and on-line communication of customized information
WO2001033371A1 (en) * 1999-11-05 2001-05-10 Surfmonkey.Com, Inc. System and method of filtering adult content on the internet
US20020103797A1 (en) * 2000-08-08 2002-08-01 Surendra Goel Displaying search results
CN1402156A (zh) * 2001-08-22 2003-03-12 威瑟科技股份有限公司 网站信息提取系统与方法
JP2003271642A (ja) * 2002-03-15 2003-09-26 Nippon Telegr & Teleph Corp <Ntt> コンテンツ配信システム及びコンテンツ配信方法及びプログラム及び記録媒体

Also Published As

Publication number Publication date
US20070198491A1 (en) 2007-08-23
CN101017490A (zh) 2007-08-15

Similar Documents

Publication Publication Date Title
US10042828B2 (en) Rich text handling for a web application
US8196039B2 (en) Relevant term extraction and classification for Wiki content
CN100543741C (zh) 自动下载和过滤网页的系统及方法
US6012068A (en) Media manager for access to multiple media types
US7721214B2 (en) Web browser with multilevel functions
CN102073725B (zh) 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
EP1587009A2 (en) Content propagation for enhanced document retrieval
US9183004B2 (en) System and method for representing user interaction with a web service
US20130073536A1 (en) Indexing of urls with fragments
JP2005501302A (ja) メディア・オブジェクトからの統合抽出システム
CN107766107A (zh) 基于Xpath 语言的xml文件通用解析器的解析方法
CN101571860A (zh) 动态网页生成方法和装置、提取结构化数据的方法和装置
US20130232424A1 (en) User operation detection system and user operation detection method
CN101763432A (zh) 一种轻量级网页动态视图快速构建方法
CN101216836B (zh) 一种网页锚文本去噪系统及方法
Kienle et al. Evolution of web systems
CN112612943A (zh) 一种基于异步处理框架的具有自动测试功能的数据爬取方法
US20120324326A1 (en) Method and apparatus for outputting a multimedia file of a web page
EP2711838A1 (en) Documentation parser
JP2009259248A (ja) ウェブページに含まれるイメージに対してタグ付けを実行し、その結果を利用してウェブ検索サービスを提供するための方法、装置及びコンピュータ読み取り可能な記録媒体
CN100573516C (zh) 虚拟机系统及利用该系统执行指令的方法
TWI320144B (en) System and method for downloading static web page
CN104778070B (zh) 隐藏变量抽取方法和设备以及信息提取方法和设备
EP2810194A2 (en) A method for tracking user interaction with a web page
Stemle Hybrid Sweeping: Streamlined Perceptual Structured-Text Refinement

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090923

Termination date: 20150210

EXPY Termination of patent right or utility model