CN101042709A

CN101042709A - 主动式搜索

Info

Publication number: CN101042709A
Application number: CNA2007102004280A
Authority: CN
Inventors: 芦树鹏; 乔水旺; 向以恒
Original assignee: Individual
Current assignee: Individual
Priority date: 2007-04-11
Filing date: 2007-04-11
Publication date: 2007-09-26

Abstract

如果用户对某一网站的特定内容感兴趣，为及时获取最新信息，用户需要经常浏览这个网站。例如，登录“首都之窗——北京市政务门户网站”，获取北京市政府最新的通知、会议等信息。如果用户需关注多个网站的不同内容，他就要经常登陆这些网站，以免遗漏重要信息。这需要花费大量的时间和精力，往往又是一无所获，造成无谓的浪费。如何使用户及时搜索到某一网站的特定信息，传统搜索引擎无能为力。“主动式搜索”，是相对于传统搜索引擎的搜索方式而提出来的一种新的搜索方案。针对上面的问题，它提供一种解决办法。主动式搜索引擎工作原理主动搜索引擎的“爬虫程序”是一种网络上的软件，用户可以下载使用，也可以在指定的服务器上使用，由用户控制。用户可以设定目标网站、关键字、搜索频率等参数。该爬虫定期(由用户设定)，到目标网站上，根据关键字筛选出需要的内容，并发送到用户指定的地方，例如：邮箱、论坛、博客、手机里。用户看到有需要的新信息后，再去浏览目标网站，从而节约大量的时间和精力。

Description

主动式搜索

【技术领域】：

本发明涉及因特网领域的搜索技术，特别是涉及搜索引擎的搜索方式。

【背景技术】：

过去、现在与将来，信息的获取对人类都是一种基本需求。网上信息浩如烟海，获取有用的信息难于大海捞针。如果缺乏强有力的搜索工具，那么想在网络上寻找一个特定网站及相关信息，其难度将如在一个没有卡片目录、藏书方法完全随机的图书馆内寻找一本书一样。所以需要搜索服务，将网上繁杂的内容整理成为可随心使用的信息。网络搜索引擎也应运而生，例如Google、百度、Yahoo等传统搜索引擎。

传统搜索引擎的工作原理

传统搜索引擎使用“Spider”网络软件，它遍历Web空间，能够扫描一定IP地址范围内的网站，并沿着网络上的链接从一个网页到另一个网页，从一个网站到另一个网站采集网页资料，并定期回访网页，以保证资料更新。Spider采集的网页，经其它程序进行分析，根据一定的相关度算法进行计算后建立网页索引，并添加到索引数据库中。我们平时看到的搜索引擎，实际上只是一个搜索引擎系统的检索界面，当你输入关键词进行查询时，搜索引擎是从服务器数据库中找到符合该关键词的所有相关网页的索引，并按一定的排名规则呈现给我们。

传统搜索引擎的原理，可以看作三步：从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。

1、从互联网上抓取网页

利用能够从互联网上自动收集网页的Spider系统程序，自动访问互联网，并沿着任何网页中的所有URL爬到其它网页，重复这过程，并把爬过的所有网页收集回来。

2、建立索引数据库

由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等)，根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性)，然后用这些相关信息建立网页索引数据库。

3、在索引数据库中搜索排序

当用户输入关键词搜索后，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。最后，由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来呈现给用户。

搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同，可能是几天、几周或几月，也可能对不同重要性的网页有不同的更新频率)，更新网页索引数据库，以反映出网页内容的更新情况，增加新的网页信息，去除死链接，并根据网页内容和链接关系的变化重新排序。这样，网页的具体内容和变化情况就会反映到用户查询的结果中。

互联网虽然只有一个，但各搜索引擎的能力和偏好不同，所以抓取的网页各不相同，排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引，数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库，也只能占到互联网上普通网页的不到30％，不同搜索引擎之间的网页数据重叠率一般在70％以下。我们使用不同搜索引擎的重要原因，就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容，是搜索引擎无法抓取索引的，也是我们无法用搜索引擎搜索到的。

当今传统搜索引擎只能搜到它网页索引数据库里储存的内容，并加以呈现。用户只是被动地接受。

RSS搜索技术：

在时效性比较强的内容上，通过使用RSS订阅能更快速获取信息，网站提供RSS输出，有利于让用户获取网站内容的最新更新。

什么是RSS？简单来说，RSS(Really Simple Syndication)就是一种简单的信息发布和传递方式，使得一个网站可以方便地调用其它提供RSS订阅服务的网站的内容，从从而形成“信息聚合”，让网站发布的内容在更大的范围内传播。

如果从RSS阅读者的角度来看，RSS获取信息的模式与加入邮件列表获取信息有一定的相似之处，也就是可以不必登录各个提供信息的网站而通过客户端浏览方式(称为“RSS阅读器”)或者在线RSS阅读方式这些内容。例如，通过一个RSS阅读器，可以同时浏览新浪新闻，也可以浏览搜狐或者百度的新闻(如果你采用了RSS订阅的话)。

但该技术在本质上仍然属于传统搜索方式，仍然沿用传统搜索引擎的搜索原理。

问题需求：

如果用户对某一网站的特定内容感兴趣，为及时获取最新信息，用户需要经常浏览这个网站。例如，登录“首都之窗北京市政务门户网站”，获取北京市政府最新的通知、会议等信息。如果用户需关注多个网站的不同内容，他就要经常登陆这些网站，以免遗漏重要信息。这需要花费大量的时间和精力，往往又是一无所获，造成无谓的浪费。

如何使用户及时搜索到某一网站的特定信息，传统搜索引擎无能为力。使用RSS技术，虽然时效性要好一些，但如果目标网站不提供RSS输出，或者所需的信息不在RSS输出内，则用户仍然不能及时获得需要的信息。

【发明内容】：

“主动式搜索”，是相对于传统搜索引擎的搜索方式而提出来的一种新的搜索方式。针对上面的问题，它提供一种解决方案。

主动式搜索引擎工作原理

主动搜索引擎的“爬虫程序”是一种网络上的软件，用户可以下载使用，也可以在指定的服务器上使用，由用户控制。用户可以设定目标网站、关键字、搜索频率、信息保存位置等参数。该爬虫程序定期(由用户设定)，到目标网站上，根据关键字筛选出需要的内容，并发送到用户指定的地方，例如：邮箱、论坛、博客、手机里。用户看到有需要的新信息后，再去浏览目标网站，从而节约大量的时间和精力。

它突出的实质性特点：

传统搜索方式，要求用户首先要具备访问互联网的条件才能进行搜索，需要与用户的互动，用户提交一次关键字，就显示一次搜索结果。

主动搜索方式，使用户在不联网时也可以实施搜索，不需要与用户的互动，设置好参数后，自动搜索，不需要用户参与。

传统搜索方式，访问一个网站时，将爬过的所有网页收集回来，按一定规则，建立网页索引数据库。在用户输入关键词查询时，是从庞大的网页索引数据库中搜索。数据库里没有的，用户是得不到的，用户是被动的。

主动搜索方式，是用户控制的爬虫程序，直接搜索目标网站。将爬过的网页进行关键字过滤，如果需要，则发送到用户指定的地方。它不需要为爬过的网页建索引数据库。

传统搜索方式，其Spider一般要定期重新访问所有网页，其运行方式，例如：搜索频率、访问方式等都由搜索引擎提供公司控制。

主动搜索方式，其爬虫程序，只访问设定的目标网站，其运行方式，由用户自己控制。用户可设定爬虫的搜索频率、关键字等参数。

【具体实施方式】：

向用户提供一个爬虫程序，它可以运行在指定的服务器上，也可以让用户下载，运行在用户的电脑里。该爬虫程序由用户自己控制。

用户使用该爬虫程序时，可指定目标网站、关键字、搜索频率、信息保存位置等各种参数。

该爬虫程序定期到目标网站上，根据关键字筛选出网页及其相关信息，发送到用户指定的位置。

Claims

1.用户通过爬虫程序，定期直接到目标网站进行搜索，并将结果保存到用户指定的位置。从而实现主动搜索的目的。

其技术特征如下：

主动搜索引擎的“爬虫程序”是由用户控制的，用户可以下载使用，也可以在指定的服务器上使用。用户可以设定目标网站、关键字、搜索频率等参数。

该爬虫程序定期到目标网站上，根据关键字进行筛选，并发送到用户指定的位置。

它不需要用户联在网络上，也可进行搜索。搜索时，也不需要与用户的互动。

它不需要为爬过的网页建索引数据库。

它不是在网页索引数据库进行搜索，而是直接搜索目标网站。

该爬虫程序不是由搜索引擎公司控制，而是由用户自己控制。