CN1906612A - 用于记录通信网络中跨一个或多个搜索引擎的搜索轨迹的方法和系统 - Google Patents

用于记录通信网络中跨一个或多个搜索引擎的搜索轨迹的方法和系统 Download PDF

Info

Publication number
CN1906612A
CN1906612A CNA200480040538XA CN200480040538A CN1906612A CN 1906612 A CN1906612 A CN 1906612A CN A200480040538X A CNA200480040538X A CN A200480040538XA CN 200480040538 A CN200480040538 A CN 200480040538A CN 1906612 A CN1906612 A CN 1906612A
Authority
CN
China
Prior art keywords
search
track
automated process
client computer
inquiry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA200480040538XA
Other languages
English (en)
Inventor
奈杰尔·汉密尔顿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from AU2004900248A external-priority patent/AU2004900248A0/en
Application filed by Individual filed Critical Individual
Publication of CN1906612A publication Critical patent/CN1906612A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)

Abstract

一种用于记录客户机在通信网络中访问的网站的自动方法,该方法包括下列步骤:检测搜索查询(10)从客户机向一个或多个搜索引擎的提交;并在将搜索查询结果返回给客户机后记录依次访问的网站的一个或多个参数的搜索轨迹(11)。

Description

用于记录通信网络中跨一个或多个搜索引擎的搜索轨迹的方法和系统
本发明涉及一种用于自动记录由通信网络中的客户机访问的网站的方法和系统,尤其涉及由客户机依次访问的多个网站的轨迹的记录。本发明适用于客户机从形成一部分因特网的一个或多个服务器访问网站的应用,且结合示例性应用来说明本发明将会是方便的。然而,应理解本发明不限于该应用。
每天数百万的搜索通过使用因特网搜索引擎在因特网上进行。这些搜索引擎是根据一些标准搜索数据的软件。通常,用户输入搜索查询,且一算法被用来基于由搜索引擎执行的搜索算法确定与该搜索查询相匹配的超文本标记语言(HTML)文件或其它内容。一旦执行了搜索算法,就返回由到多个相关HTML文件或其它内容的链接列表组成的搜索结果用于向客户机显示。用户将点击这些链接之一,且位于该链接上的内容将被提供给客户机。该内容可向其它网站提供一个或多个链接,并且取决于其相关性,用户可选择点击这些进一步的链接之一。这样,用户创建了由一系列依次访问的网站组成的搜索轨迹。
当前的搜索引擎要求搜索者在每次创建了一个新的搜索查询时重新发现一条到达期望搜索结果的路径。由个人或其它用户形成的搜索轨迹目前尚不能用于提高在因特网上进行的搜索的效率和相关性。
相当多的学术研究致力于分析网络搜索者的行为。通常这种研究依靠web服务器日志来记录web使用数据。然而,合并来自多个服务器的用户数据并不可行,因为这需要服务器所有者之间的合作。另外,服务器日志只记录超文本传输协议(HTTP)GET请求中所使用的有限数量的参数,并且不能记录有意义的信息用于构成搜索轨迹。将用户访问的所有页面记录在web服务器日志中导致许多用户对隐私的担忧。另外,web服务器日志不能将用户的页面访问记录在第三方服务器上。记录所有页面访问还消耗相当大的盘存储空间。
对用户浏览因特网时的行为的其它研究已描述了使用HTTP代理来截取客户机方浏览器和因特网之间的HTTP请求。这些系统着重于用户的一般web浏览行为但没有针对用户的搜索行为。用于记录用户浏览行为的基于代理的解决方案还有许多重大限制,即所有请求都经由代理并耗费额外的网络带宽,新的页面请求因为它们必须经由代理而传送缓慢,且用户的隐私因为所有页面请求均被截取而未得到充分的保护。
希望提供一种用于记录客户机在通信网络中访问的网站的自动方法和系统,它使因特网搜索者能记录搜索及找到相关结果所遵循的搜索轨迹。
还希望使得搜索轨迹能跨多个引擎记录。
还希望使得先前生成的搜索轨迹能在随后检索,并使搜索者能跟随先前由他们自己或其它因特网搜索所生成的搜索轨迹。
本发明的一个方面提供一种用于记录客户机在通信网络中访问的网站的自动方法,该方法包括下列步骤:
检测搜索查询从客户机向多个搜索引擎之一的提交;并
在将搜索查询结果返回给客户机之后记录依次访问的网站的一个或多个参数的搜索轨迹。
所述检测搜索查询的提交的步骤可包括:
检测完整表单对象从客户机的提交;并
确定一部分表单对象是否与多个搜索引擎中任一个的已知搜索命令格式相匹配。
搜索命令格式可包括用于执行搜索查询的搜索引擎程序的网络地址。
搜索命令格式还可包括标识用户输入的搜索查询的一个或多个搜索参数。
检测由客户机对完整表单对象的提交的步骤可包括:
在提供给客户机的内容的对象模型中定位表单对象;并
将例程加到各表单对象中以使得完整表单对象能在提交后截取。
在提供给客户机的内容的文档对象模型中定位所有表单对象的步骤在所述内容已提供给客户机之后执行。
该内容可以是HTML文档,并且一旦出现DocumentComplete事件,就可定位HTML文档的文档对象模型中的所有表单对象。
HTML文档可包括GET或POST表单。
一旦检测到搜索查询,就可在客户机处随意地选择记录根据搜索查询结果依次访问的网站的一个或多个参数的步骤。
记录根据搜索查询结果依次访问的网站的一个或多个参数的步骤可包括:
记录依次访问的网站的网址。
记录根据搜索查询结果依次访问的网站的一个或多个参数的步骤还可包括:
记录搜索标识符、访问网站的网址、客户机的网址、以及用户在客户机处输入的一个或多个搜索词中的一个或多个。
记录根据搜索查询结果依次访问的网站的一个或多个参数的步骤还可包括:
向用于记录的轨迹记录器服务器传送在客户机处标识的一个或多个参数。
该方法还可包括将一个或多个参数初始记录在轨迹记录器服务器上的RAM表格中。
该方法还包括周期性地将RAM表格保存到轨迹记录器服务器上的基于盘片表格中。
第一基于盘片表格可存储表征其搜索轨迹的数据。
第二基于盘片表格可存储表征在各搜索轨迹中依次访问网站的数据。
可将依次访问网站的数量限制为预定的最大值。
该方法还可包括下列步骤:
保存用于多个搜索引擎的公知搜索命令格式的适配器表格。
该方法还可包括下列步骤:
周期性地使适配器表格中所保存的搜索命令格式生效。
该方法还可包括下列步骤:
自动标识新搜索引擎的搜索命令格式;并
更新该适配器表格。
该方法还可包括下列步骤:
收集标识搜索引擎的搜索框页面的搜索信息;并
从搜索信息中标识搜索命令格式。
收集搜索信息的步骤可包括:
收集搜索框的HTML代码;并
解析该HTML代码以标识搜索命令格式。
该方法还可包括下列步骤:
将该搜索查询与先前的搜索查询相匹配以标识相关的搜索轨迹。
将该搜索查询与先前的搜索查询相匹配的步骤可包括:
对该搜索查询和先前的搜索查询进行全文搜索。
将该搜索查询与先前的搜索查询相匹配的步骤可包括:
将相关搜索轨迹限制于从来自同一用户的搜索查询得到的搜索轨迹。
或者,相关搜索轨迹可包括从来自同一用户和其它诸用户的搜索查询得到的搜索轨迹。
该方法还可包括下列步骤:
在客户机上呈现相关搜索轨迹。
呈现相关搜索轨迹的步骤可包括:
按一个或多个等级标准对相关搜索结果排序。
等级标准可包括日期、反向文档频率匹配、目标搜索引擎、用户标识符、或指示用户对相关搜索轨迹中步骤的访问的累积频率的轨迹权重中的一个或多个。
本发明的另一方面提供一种用于记录客户机在通信网络中访问的网站的系统,该系统包括:
搜索查询检测器,用于检测搜索查询从客户机向多个搜索引擎之一的提交;以及
搜索轨迹记录器,用于在向客户机返回搜索查询结果后记录依次访问网站的一个或多个参数的搜索轨迹;
该系统还可包括:
适配器管理器,用于保存用于多个搜索引擎的已知搜索命令格式的适配器表格。
该系统还可包括:
轨迹搜索器,用于将该搜索查询与先前的搜索查询相匹配以标识相关的搜索轨迹。
本发明的另一方面提供一种用于与上述系统一起使用的搜索查询检测器。
本发明的又一方面提供一种用于与上述系统一起使用的搜索轨迹记录器。
本发明的又一方面提供一种用于与上述系统一起使用的适配器管理器。
本发明的又一方面提供一种用于与上述系统一起使用的轨迹搜索器。
本发明的其它方面包括计算机软件,其中包括用于执行由搜索查询检测器、搜索轨迹记录器、适配器管理器和/或轨迹搜索器执行的方法的一组指令。
以下描述更详细地涉及本发明的各个特征。为便于理解,在描述中参考附图,其中示出较佳实施例中的自动方法和系统。然而,应理解本发明并不限于附图中所示的较佳实施例。
现参见附图:
图1示出浏览器工具栏,它构成根据本发明的用于记录客户机在通信网络中访问的网站的系统的搜索查询检测器的一部分;
图2是根据本发明的用于记录客户机在通信网络中访问的网站的系统的相互关联组件的示意图;
图3是构成图2系统的一部分的搜索查询搜索器的示意图;
图4是构成图2系统的一部分的搜索轨迹记录器;
图5是构成图2系统的一部分的适配器管理器的示意图;以及
图6是构成图2系统的一部分的轨迹搜索器的示意图。
现参见图1和2,根据本发明一实施例的用于记录客户机在通信网络(在本例中为因特网)中访问的网站的系统包括下列四个主要组件:搜索查询检测器10、搜索轨迹记录器11、适配器管理器12和轨迹搜索器13。搜索查询检测器10是检测搜索查询从客户机向一个或多个搜索引擎的提交的客户机方应用程序。在图1所示的例子中,搜索查询检测器10体现为可在客户机处安装的因特网浏览器中操作的工具栏20。在本发明的其它实施例中,搜索查询检测器10可体现为浏览器添加或扩展、桌面栏、代理程序、代理或类似的从中可解释来自搜索表单的数据的客户机方应用程序。通过检测来自客户机的搜索查询的提交,轨迹监视器捕获搜索轨迹的开始和后续网络链接或搜索轨迹步骤,这些链接或步骤是用户在浏览提供给客户机的各种内容时采取的,以寻找满足他们搜索查询的信息。对用户输入搜索表单中的每个新搜索轨迹都记录单独的搜索轨迹。轨迹记录器11随后记录在浏览器窗口21中向客户机返回搜索查询结果之后依次访问网站的一个或多个参数的搜索轨迹。
轨迹记录器11还可适用于捕获用户的IP地址(或其它网络标识符)。这样,随后可分析多个用户的IP地址以按国家、组织、部门等标准将用户分组。
搜索查询检测器10适用于捕获诸如DocumentComplete之类的web浏览器事件。无论浏览器何时完成加载和显示新的页面都会发生DocumentComplete事件。在发生DocumentComplete事件时浏览器已基于文档对象模型(DOM)创建了内部居先结构以存储该页面。诸如Javascript之类的客户机方描述语言能操纵在浏览器的存储器内部的这一数据结构,而该数据结构又操纵网页的相应元素,诸如所显示的表格和图象。在本示例中搜索查询检测器10体现为形成因特网浏览器中的工具栏的Javascript程序,并对网页的DOM具有部分或完全访问权。当搜索用户14点击在因特网浏览器窗口21中显示的链接、并请求从因特网提供内容时,加载新的网页。
一旦内容已向客户机提供,在步骤30捕获的DocumentComplete事件就发生,如图3所示。对于在网页中找到的每个表单对象,搜索查询检测器10包括使完整表单对象能在搜索用户14提交搜索查询之后截取的例程。在本实施例中,搜索查询检测器14向客户机所提供的网页的文档对象模型内的每个表单对象添加一个onSubmit事件处理程序。如果事件发生,则onSubmit处理程序动作以捕获文档所有表单的onSubmit事件。在用户向远程服务器提交web表单内容的任何时候,onSubmit事件发生。通过捕获该事件,搜索查询检测器截取表单的提交并确保在将文件中的任一表单提交给第三方web服务器之前执行新的onSubmit事件。例如,如果用户正在使用Google搜索引擎,则无论用户何时提交搜索表单搜索查询检测器都进行截取。在将搜索变量提交给Google服务器之前,首先将它们提交给搜索轨迹记录器11从而能记录新的搜索轨迹的开始。OnSubmit处理程序的插入发生在图3中的步骤31,同时文档对象模型的更新发生在步骤32。
表格1中示出简单搜索框的HTML源代码的一个例子;
<html>
<head>
</head>
<body>
<form name=“search form”
       method=“POST”
       action=http://turbo10.com/x/search.cgi>
Search<input type=“text”size=“20”name=“query”>
<input type=“submit”value=“Search”>
</form>
</body>
                                       </html>
                          表格1
HTML源代码包括一属性,即处理搜索请求的服务器方描述的统一资源定位符(URL)。HTML源代码还包括确定如何将参数传送给服务器的方法属性。向服务器提交HTML表单的两种请求方法是“GET”(获取)和“POST”(邮送)方法。在步骤33,插入提供给客户机的网页服务器的每个表单对象的onSubmit处理程序确保截取所有完整的搜索表单。在步骤34,搜索表单的动作属性被传送至轨迹记录器11以便于确定该动作属性是否对应于已知搜索引擎的动作属性。搜索查询检测器10可有利地截取GET和POST表单提交。通过只传送搜索表单提交的动作属性,搜索查询检测器10还确保私密表单数据(例如包含用户名和密码、信用卡细节等的记录表单)没有被不安全地传送至服务器方轨迹记录器11,否则这会危及用户隐私的安全。动作属性的值是用于执行搜索查询的搜索引擎程序的URL或网络地址。例如,在表格1中示出的HTML源代码的例子中动作属性的值为 http://turbo10.com/x/search.cgi。在步骤31插入表单对象的onSubmit处理程序在步骤35将单独HTTP GET请求中的动作属性传送给轨迹记录器11。现参见图4,轨迹记录器11在接收到来自搜索查询检测器10的HTTP GET请求后剥去用于执行搜索查询的搜索引擎程序的网址或URL的任何参数部分从而仅保留模式(scheme)、主机名和路径。为了维护用户的隐私,此时不将表单参数提交给轨迹记录器11。只将动作属性的值发送给服务器。例如,表格1示出的例子中的搜索引擎URL的剥离后版本为http://turbo10.com/x/search.cgi
使用这部分URL,轨迹记录器11在“搜索引擎适配器”的表格40中搜索与从搜索查询检测器10发送的动作属性值相匹配的动作属性。如果适配器URL不匹配,则搜索查询检测器10确定由用户提交的搜索查询是新搜索轨迹的开始。更一般地,在检测到来自客户机的完整表单对象的提交时,搜索查询检测器10和搜索轨迹记录器11确定部分表单对象是否与已知搜索引擎搜索命令格式的数据库中所保存的多个搜索引擎的任一个的已知搜索命令格式相匹配。
由搜索轨迹记录器11进行的匹配过程对于确定从客户机提交的表单是不是搜索表单或另一类型的表单提交(诸如联系我们表单、登录表单等)很重要。该匹配过程对于确定旨在执行搜索的特定搜索引擎、以及由该搜索引擎使用的搜索查询参数也是重要的。搜索轨迹记录器已知的各种搜索引擎的已知搜索命令格式的适配器表格40用于标识哪些搜索查询参数为默认值而哪些由搜索者输入。例如,按照表格1中示出的例子,对搜索引擎URL的搜索HTTP GET请求可以是 http://turbo10.com/x/search.cgi?=cars&fmt=html。从这一请求中出现两个可能的搜索查询参数,即“q”和“fmt”。一个由用户输入搜索表单,而另一个为默认值。适配器表格40存储哪个参数对应于由用户输入的搜索查询。在此情况下,存储在适配器表格40中的搜索查询参数为“q”,因此搜索轨迹记录器11能确定这是“cars”而不是“html”的搜索轨迹的开始。存储在适配器表格40中的适配器定义因而能在由搜索者输入的表单参数和诸如对话标识符、用户标识符或其它隐变量之类的默认值之间进行区分。更一般地说,由适配器表格40保存的搜索命令格式不仅包括用于执行搜索查询的搜索引擎程序的网络地址,还包括标识用户所输入的搜索查询的一个或多个搜索参数。
如果发现构成由客户机提交的表单对象的一部分的相应动作属性与适配器表格40中所存储的动作属性相匹配,则搜索轨迹记录器11确定将要提交的表单为搜索表单。当搜索轨迹记录器在步骤41找到搜索表单时,在步骤42将适配器标识符发送至搜索查询检测器10以指示已检测到已知搜索表单查询的提交。返回至搜索查询检测器10的适配器标识符被保存在当前的适配器标识符表格35中。
当适配器标识符被返回至搜索查询检测器10时,工具栏20上的按钮22显示记录符号以向用户指示将要记录的搜索轨迹。如果没有找到搜索表单,且没有返回适配器标识符,则不显示记录图标。搜索用户14能点击轨迹记录器按钮22以便于打开或关闭记录按钮,从而有选择地激活搜索轨迹记录器的搜索轨迹记录特征。在图3的步骤37执行搜索轨迹记录器的开或关,它具有改变搜索查询检测器10所保存的搜索轨迹记录器状态数据38的状态的效果。在步骤39,搜索查询检测器10确定搜索轨迹记录器状态数据38的状态是否指示记录应发生,以及已知适配器标识符被轨迹记录器11返回,搜索查询检测器10在向客户机返回搜索查询结果后开始记录在搜索轨迹中依次访问的网站的网址。完好的搜索轨迹由一“串”从浏览器发送的访问者(Referrer)URL构成。如果用户键入URL、关闭浏览器或按压‘Home’(主页)按钮,则轨迹被中断,因为这些动作不会使‘Referrer’发送到服务器。
因此,当搜索轨迹记录器功能为打“开”时,对于在步骤30检测到的每个DocumentComplete事件,由搜索查询检测器10在步骤40将一独立的HTTPGET请求发送至搜索轨迹记录器11以在搜索轨迹中记录一步骤。在GET请求中发送的参数包括唯一的用户标识符、当前页面的URL、访问URL、页面的标题、客户机的网址、搜索引擎的适配器标识符和由用户使用的一个或多个搜索词。服务器公共网关接口(CGI)程序在步骤43接收这些参数并将它们存储在由远程服务器保存的基于RAM的数据库表格44中。基于RAM的数据库表格提供使描述每个步骤的参数能快速插入并存储在搜索轨迹中的优点。
周期性地,基于RAM的数据库表格44由搜索轨迹记录器11保存的清空例程47清空到两个基于盘片的表格45和46之一。第一个基于盘片的表格45存储表征各搜索轨迹的数据,而第二个基于盘片的表格存储表征各搜索轨迹中依次访问的网站。无论在步骤41中定位的适配器标识符何时不为空(即,用户已向搜索轨迹记录器11已知的搜索引擎输入搜索查询和搜索表单),都创建一个新的轨迹。基于RAM的数据库表格44中的后续输入然后形成用户遵循的搜索轨迹中的多个步骤。
对于各个唯一用户,搜索轨迹中每一后继步骤都被依次输入数据库表格44中。有时,搜索者可能会迷失搜索路径或以其它方式偏离方向。在此情况下,数据库表格44将记录与原先由用户输入的一个或多个搜索词不相关的URL。为有助于不记录太多无关的轨迹步骤,搜索轨迹记录器11可将搜索轨迹的长度限制于在搜索轨迹的开始和当前搜索轨迹步骤之间的最大步骤数或预定最大占用时间。
在基于RAM的表格44和基于盘片的表格45和46中保存的数据的类型的一个例子列举如下。TrailBucket表格44为了速度和可缩放性不访问盘驱动器而临时将数据存储在RAM中。表格2示出表格44中所存储的数据的一个例子。
TrailBucket(轨迹存储段)
userid 唯一的数值用户标识
url 用户最后访问的URL
referrer 将搜索者引向当前URL的URL
title 页面的标题
context 在页面上找到搜索词的简短上下文
ipaddress 客户机的因特网协议地址
adapterid 轨迹开始处的搜索引擎的唯一标识符
searchterm 所输入的启动轨迹的搜索词
visitedon 访问页面/表单的日期和时间
               表格2
Trail(轨迹)
trailid 标识轨迹的唯一数字
searchterm 用户最后访问的URL
adapterid 将搜索者引向当前URL的URL
ipaddress 所使用机器的IP地址
userid 页面的标题
createdonday 在页面上找到搜索词的简短上下文
visitcount 访问轨迹中步骤的总次数
                   表格3
TrailStep表格46记录关于表格4中所示的所访问URL的细节。
TrailStep(轨迹步骤)
stepid 标识轨迹中一个步骤的唯一数字
title URL的页面标题
url 步骤中页面的URL
sequence 步骤在轨迹中的次序
context 示出目标页面上上下文中关键字的文本的简短片段
adapterid 将搜索者引向当前URL的URL
clickedon 点击步骤的日期和时间
visitcount 访问这一步骤的次数
createdonday 在页面中找到搜索词的简短上下文
weight 访问此轨迹步骤的累计次数。所有步骤的总数是轨迹访问计数值
trailid 外来关键字,唯一地标识此TrailStep所属的轨迹
                           表格4
如表格5所示,适配器表格40存储驱动下层搜索引擎的搜索表单参数的细节。
Adapter(适配器)
adapterid 标识轨迹中的一个步骤的唯一数字
shorttitle 用于适配器的简短标题(例如,google)
title 该适配器连接的搜索引擎的名称(例如,Google搜索引擎)
url 搜索引擎的URL(例如, http://www.google.com)
searchboxurl 搜索框所出现的页面的URL(例如,http://www.google.com)
status 适配器的当前状态(例如,有效、失效、断开、理存)
timetolive 在状态变成失效之前断开适配器必须有效的天数(例如:4)
formmethod 搜索表单的HTTP提交方法(例如,GET或POST)
action 表单动作属性的值(例如,http://www.google.com/search)
queryparamemter 用户输入以使用引擎的查询参数的值(例如q)
testquery 用于测试引擎的示例测试查询词(例如,test)
parameters 包含在搜索表单中的其它参数(例如,ht)
lastupdatedon 记录最后更新的时间
                              表格5
如前所述,用于搜索轨迹记录器11所知的各种搜索引擎的已知搜索命令格式的适配器表格40由适配器管理器12管理。保存在适配器表格40中的搜索命令格式由适配器管理器12周期性地生效。适配器表格40包含唯一标识搜索引擎的搜索表单的说明。适配器管理器12周期性地(例如一天一次)测试现有的搜索命令格式,并连接至新的搜索引擎以导出新的搜索命令格式。如果发现搜索命令格式被破坏,则适配器管理器将尝试修补被破坏的格式。适应搜索引擎所需的唯一信息是包含搜索框的网页的URL。
在本发明的这一例子中,适配器管理器12自动收集所有其它信息。在本发明的其它实施例中,半自动和/或手动处理也可用于增加适应正确表单的准确度。因此,当搜索表单URL由搜索用户14传送至适配器管理器12时,该适配器管理器最初在步骤50确定现有的适配器标识符是否呈现于适配器表格40中,从而确认位于该URL的搜索引擎是已知的。如果是这样,则将确认返回给搜索用户14。否则,将搜索表单URL传送至表单寻找程序组件,它自动收集关于目标搜索引擎搜索表单的细节,包括搜索表单提交方法(即GET或POST)和动作属性的值(即,http://google.com.search)。
因此,在步骤51,表单发现程序组件向外部搜索引擎52发送对搜索表单的请求。然后在步骤53将来自相应外部搜索引擎52的搜索页面返回至表单发现程序组件。在步骤54,表单发现程序组件根据搜索页面的文档对象模型定位搜索表单,并标识驱动下层搜索引擎所需的参数,包括查询参数、表单提交方法、cookie设置和搜索URL。此参数标识步骤通过请求搜索框表单页面的HTML源、并用HTML解析器解析HTML源代码来执行。常常有页面上的第一表单是搜索页面的情况。一旦找到表单,在步骤55就用表单中的第一文字框来对外部搜索引擎52测试搜索命令格式(适配器)。在步骤56发送测试查询,然后由外部搜索引擎52对其进行处理。当以正确的搜索命令格式发送测试查询时,由适配器管理器12在步骤57接收测试结果页面。如果对测试词找到了结果页面,则在适配器表格40中将适配器状态设置为“有效”。
轨迹搜索器13使搜索者能搜索与给定搜索查询相匹配的他们自己的轨迹或由其它人创建的轨迹。在接收到来自搜索用户14的搜索查询时,轨迹搜索器13在步骤60将搜索查询与存储在轨迹表格45中的先前搜索查询相匹配,以标识相关的搜索轨迹。执行对搜索词字段的全文索引,以使匹配能在去除非用词并计算各匹配的反向文档频率(IDF)值之后执行。轨迹搜索器13适于使用户能将搜索仅限于他们自己的轨迹,或可任选地将搜索扩展为包括其它人的搜索轨迹。在步骤61,要将相关搜索结果呈现给搜索用户的次序根据一个或多个等级标准确定。呈现轨迹搜索结果的次序可以按日期、反向文档频率匹配、目标搜索引擎、用户标识符和/或轨迹权重来确定。可以由用户选择这些等级标准中任一个或多个的组合。在其它实施例中,可根据客户机的网址和/或与首先遍历轨迹的用户的地理邻近度来呈现轨迹。
在通过轨迹记录器11捕获用户的IP地址的本发明实施例中,用户能选择用他们自己的国家、部门、组织或其它子分组来搜索由其它用户创建的轨迹,从而相似的用户能得益于彼此过去的搜索经验。
用户可有选择地决定是否与其它人共享他们的搜索轨迹。这可通过添加用户搜索轨迹记录器11中轨迹的访问权限数据来实现。访问权限数据可以由用户从轨迹监视器10添加(例如通过选择工具栏20上的按钮)或通过随后编辑由轨迹记录器11存储的数据添加。然后轨迹搜索器13可适于仅检索已授予第三方访问权限的搜索轨迹数据。
每当用户访问轨迹上的一个步骤时轨迹权重就增加。轨迹的权重是轨迹中所有步骤的累计权重,且最初为零。无论轨迹步骤何时显示且用户何时点击步骤,服务器方CGI程序都会将轨迹步骤的总权重加1(例如,http://turbo10.com/cgi-bin/addweight.cgi?stepid=2132213)。更频繁点击的步骤12获得更高的权重。轨迹的权重是其轨迹步骤的所有权重之和。结果步骤中的轨迹的次序按权重递减的次序显示,其中首先出现遍历更多的轨迹。在其它实施例中,轨迹的权重随时间逐渐变小,直至较新的轨迹通过在结果集中更早出现而变得流行。用户还可选择查看用户已遍历的其它轨迹。因此,在步骤62中格式化之后,将经排序的搜索轨迹结果呈现给用户。在步骤63对轨迹权重的任何调整具有将权重施加于轨迹步骤表格46中所保存的搜索轨迹的多个步骤的效果,这在步骤61对相关搜索结果排序时作考虑。
将理解,由搜索查询检测器10、搜索轨迹记录器11、适配器管理器12和轨迹搜索器13执行的上述客户机方和服务器方的功能是通过包括使可编程装置或设备执行期望功能的一系列指令的计算机程序来执行的。在上述实施例中,搜索查询检测器通过安装在客户机中的计算机程序来体现,而轨迹记录器11、适配器管理器12和轨迹搜索器13是保存在远程服务器上的计算机程序或的计算机程序组件。在本发明的其它实施例中,轨迹记录器11、适配器管理器12和轨迹搜索器13不一定在同一物理服务器上。类似地,执行上述功能所需的适配器表格40、轨迹表格45、轨迹步骤表格46、轨迹存储段表格44和其它表格以及数据库可位于与访问那些数据库或表格的一个或多个计算机程序相同或不同的服务器上。
最后,应理解可以对本发明进行各种修改和/或添加而不背离所附权利要求中限定的精神或范围。例如,本发明的上述实施例涉及客户机访问的因特网网站的记录,而本发明的其它实施例中,可从内联网、外联网或运行客户机/服务器应用程序的其它网络访问网站。

Claims (40)

1.一种用于记录客户机在通信网络中访问的网站的自动方法,所述方法包括下列步骤:
检测搜索查询从客户机向一个或多个搜索引擎的提交;并
在将搜索查询结果返回给客户机后记录依次访问的网站的一个或多个参数的搜索轨迹。
2.如权利要求1所述的自动方法,其特征在于,所述检测搜索查询的提交的步骤包括:
检测完整表单对象从客户机的提交;并确定部分所述表单对象是否与所述多个搜索引擎中任一个的已知搜索命令格式相匹配。
3.如权利要求2所述的自动方法,其特征在于,所述搜索命令格式包括用于执行所述搜索查询的搜索引擎程序的网络地址。
4.如权利要求3所述的自动方法,其特征在于,所述搜索命令格式还包括标识用户所输入的搜索查询的一个或多个搜索参数。
5.如权利要求2-4的任一个所述的自动方法,其特征在于,所述检测完整表单对象由客户机提交的步骤包括:
在提供给客户机的内容的对象模型中定位表单对象;并将例程添加到各表单对象以使完整表单对象能在提交后截取。
6.如权利要求5所述的自动方法,其特征在于,在提供给客户机的内容的文档对象模型中定位所有表单对象的所述步骤在所述内容已提供给客户机之后执行。
7.如权利要求6所述的自动方法,其特征在于,所述内容是HTML文档,并且一旦出现DocumentComplete事件,就在HTML文档的文档对象模型中定位所有表单对象。
8.如权利要求7所述的自动方法,其特征在于,所述HTML文档包括GET或POST表单。
9.如前面权利要求的任一项所述的自动方法,其特征在于,一旦检测到搜索查询,记录根据搜索查询结果依次访问的网站的一个或多个参数的步骤就可在客户机处任选。
10.如前面权利要求的任一项所述的自动方法,其特征在于,记录根据搜索查询结果依次访问的网站的一个或多个参数的所述步骤包括:
记录所述依次访问的网站的网址。
11.如权利要求10所述的自动方法,其特征在于,记录根据搜索查询结果依次访问的网站的一个或多个参数的所述步骤还包括:
记录用户标识符、访问网站的网址、客户机的网址、和用户在客户机上输入的一个或多个搜索词中的一个或多个。
12.如权利要求10或11中任一项所述的自动方法,其特征在于,记录根据搜索查询结果依次访问的网站的一个或多个参数的所述步骤还包括:
向轨迹记录器服务器传送在客户机处标识的一个或多个参数以便记录。
13.如权利要求12所述的自动方法,其特征在于,还包括:
开始时将一个或多个参数记录在轨迹记录器服务器上的RAM表格中。
14.如权利要求13所述的自动方法,其特征在于,还包括:
周期性地将RAM表格数据保存到轨迹记录器服务器上的基于盘片的表格中。
15.如权利要求14所述的自动方法,其特征在于,第一个基于盘片的表格存储表征各搜索轨迹的数据。
16.如权利要求14或15中任一项所述的自动方法,其特征在于,第二个基于盘片的表格存储表征在各搜索轨迹中所依次访问的网站的数据。
17.如前面权利要求的任一项所述的自动方法,其特征在于,依次访问的网站的数量被限制于预定最大值。
18.如前面权利要求的任一项所述的自动方法,其特征在于,还包括:
保存用于多个搜索引擎的已知搜索命令格式的适配器表格。
19.如权利要求18所述的自动方法,其特征在于,还包括:
周期性地使适配器表格中所保存的搜索命令格式生效。
20.如权利要求18或19中任一项所述的自动方法,其特征在于,还包括:
自动地标识新搜索引擎的搜索命令格式;并更新所述适配器表格。
21.如权利要求18-20中任一项所述的自动方法,其特征在于,还包括:
收集标识搜索引擎的搜索框页面的搜索信息;并从所述搜索信息中标识搜索命令格式。
22.如权利要求21所述的自动方法,其特征在于,所述收集搜索信息的步骤包括:
收集所述搜索框的HTML代码;并解析所述HTML代码以标识所述搜索命令格式。
23.如权利要求9-17中任一项所述的自动方法,其特征在于,还包括:
将所述搜索查询与先前的搜索查询相匹配,以标识相关的搜索轨迹。
24.如权利要求23所述的自动方法,其特征在于,将所述搜索查询与先前的搜索查询相匹配的所述步骤包括:
对所述搜索查询和先前的搜索查询进行全文搜索。
25.如权利要求23或24中任一项所述的自动方法,其特征在于,将所述搜索查询与先前的搜索查询相匹配的所述步骤包括:
将所述相关搜索轨迹限制于从来自同一用户的搜索查询得到的搜索轨迹。
26.如权利要求23或24中任一项所述的自动方法,其特征在于,所述相关搜索轨迹包括从来自同一用户和其它用户的搜索查询得到的搜索轨迹。
27.如权利要求23-26中任一项所述的自动方法,其特征在于,还包括:
在客户机上呈现所述相关搜索轨迹。
28.如权利要求27所述的自动方法,其特征在于,呈现所述相关搜索轨迹的步骤包括:
根据一个或多个等级标准对所述相关搜索结果排序。
29.如权利要求28所述的自动方法,其特征在于,所述等级标准包括日期、反向文档频率匹配、目标搜索引擎、用户标识符、或指示用户对相关搜索轨迹中步骤的访问的累计频率的轨迹权重中的一个或多个。
30.如前面权利要求的任一项所述的自动方法,其特征在于,所述通信网络为因特网、内联网、外联网、或运行客户机/服务器应用程序的其它网络。
31.如前面权利要求的任一项所述的自动方法,其特征在于,在客户机上维持一个或多个搜索引擎。
32.一种用于记录客户机在通信网络中访问的网站的系统,所述系统包括:
搜索查询检测器,用于检测搜索查询从客户机向多个搜索引擎的提交;以及
搜索轨迹记录器,用于在向客户机返回搜索查询结果后记录依次访问的网站的一个或多个参数的搜索轨迹。
33.如权利要求32所述的系统,其特征在于,还包括:
适配器管理器,用于保存用于多个搜索引擎的已知搜索命令格式的适配器表格。
34.如权利要求32或33中任一项所述的系统,其特征在于,还包括:
轨迹搜索器,用于将所述搜索查询与先前的搜索查询相匹配,以标识相关的搜索轨迹。
35.如权利要求32-34中任一项所述的系统,其特征在于,所述搜索查询检测器为工具栏、浏览器添加或扩展、桌面栏、代理程序、代理等客户机方应用程序。
36.一种用于与如权利要求32-34中任一项所述的系统一起使用的搜索查询检测器。
37.一种用于与如权利要求32-34中任一项所述的系统一起使用的搜索轨迹记录器。
38.一种用于与如权利要求33所述的系统一起使用的适配器管理器。
39.一种用于与如权利要求33所述的系统一起使用的轨迹搜索器。
40.一种包括多个指令的计算机软件,所述指令用于实现由如权利要求32-39的任一项所述的搜索查询检测器、搜索轨迹记录器、适配器管理器和/或轨迹搜索器执行的方法。
CNA200480040538XA 2004-01-19 2004-12-15 用于记录通信网络中跨一个或多个搜索引擎的搜索轨迹的方法和系统 Pending CN1906612A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
AU2004900248A AU2004900248A0 (en) 2004-01-19 Method and system for recording search trails across one or more search engines in a communications network
AU2004900248 2004-01-19

Publications (1)

Publication Number Publication Date
CN1906612A true CN1906612A (zh) 2007-01-31

Family

ID=34754158

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA200480040538XA Pending CN1906612A (zh) 2004-01-19 2004-12-15 用于记录通信网络中跨一个或多个搜索引擎的搜索轨迹的方法和系统

Country Status (9)

Country Link
US (2) US8572100B2 (zh)
EP (1) EP1716508A4 (zh)
JP (1) JP2007519106A (zh)
CN (1) CN1906612A (zh)
BR (1) BRPI0418413A (zh)
CA (1) CA2552791A1 (zh)
IL (1) IL176743A0 (zh)
RU (1) RU2006129938A (zh)
WO (1) WO2005069161A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103713894A (zh) * 2013-11-28 2014-04-09 百度时代网络技术(北京)有限公司 一种用于确定用户的访问需求信息的方法与设备

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8838622B2 (en) 2002-07-13 2014-09-16 Cricket Media, Inc. Method and system for monitoring and filtering data transmission
US20040122692A1 (en) 2002-07-13 2004-06-24 John Irving Method and system for interactive, multi-user electronic data transmission in a multi-level monitored and filtered system
US8943035B2 (en) 2005-11-14 2015-01-27 Patrick J. Ferrel Distributing web applications across a pre-existing web
US8949217B2 (en) * 2006-01-09 2015-02-03 Google Inc. Server bookmarks
US20080010252A1 (en) * 2006-01-09 2008-01-10 Google, Inc. Bookmarks and ranking
US8019777B2 (en) * 2006-03-16 2011-09-13 Nexify, Inc. Digital content personalization method and system
EP1826943A1 (en) * 2006-07-31 2007-08-29 Siemens Aktiengesellschaft Method for searching information in a network
US20080091637A1 (en) * 2006-10-17 2008-04-17 Terry Dwain Escamilla Temporal association between assets in a knowledge system
WO2008073655A2 (en) 2006-11-08 2008-06-19 Epals, Inc. Dynamic characterization of nodes in a semantic network
US20080176194A1 (en) 2006-11-08 2008-07-24 Nina Zolt System for developing literacy skills using loosely coupled tools in a self-directed learning process within a collaborative social network
US20080176985A1 (en) * 2006-11-13 2008-07-24 Verrall Andrew P Water-soluble film
JP2008146207A (ja) * 2006-12-07 2008-06-26 Yuichiro Matsuda コンテンツ検索方法、コンテンツ検索プログラム、および記録媒体
US20080294626A1 (en) * 2007-03-08 2008-11-27 Amarnath Mukherjee Method and apparatus for leveraged search and discovery - leveraging properties of trails and resources within
US7827184B2 (en) * 2007-04-10 2010-11-02 Yahoo! Inc. System and method for modeling user selection feedback in a search result page
US7743047B2 (en) * 2007-05-08 2010-06-22 Microsoft Corporation Accounting for behavioral variability in web search
US7774339B2 (en) * 2007-06-11 2010-08-10 Microsoft Corporation Using search trails to provide enhanced search interaction
US20090248661A1 (en) * 2008-03-28 2009-10-01 Microsoft Corporation Identifying relevant information sources from user activity
US20090254529A1 (en) * 2008-04-04 2009-10-08 Lev Goldentouch Systems, methods and computer program products for content management
US8589395B2 (en) * 2008-04-15 2013-11-19 Yahoo! Inc. System and method for trail identification with search results
US8051068B2 (en) * 2008-04-21 2011-11-01 Yahoo! Inc. Trail-based exploration of a repository of documents
US20100042476A1 (en) * 2008-08-14 2010-02-18 Gauri Dinesh K Method and system for target marketing and category based search
WO2011046899A1 (en) 2009-10-13 2011-04-21 Epals, Inc. Dynamic collaboration in social networking environment
US7716205B1 (en) * 2009-10-29 2010-05-11 Wowd, Inc. System for user driven ranking of web pages
US10289735B2 (en) * 2010-04-27 2019-05-14 Microsoft Technology Licensing, Llc Establishing search results and deeplinks using trails
US8983996B2 (en) * 2011-10-31 2015-03-17 Yahoo! Inc. Assisted searching
US9858313B2 (en) 2011-12-22 2018-01-02 Excalibur Ip, Llc Method and system for generating query-related suggestions
CN102567497B (zh) * 2011-12-23 2013-07-24 浙江大学 一种最匹配模糊轨迹问题的查询方法
JP5861545B2 (ja) * 2012-03-30 2016-02-16 富士通株式会社 情報処理装置、履歴制御方法および履歴制御プログラム
US20130290830A1 (en) * 2012-04-30 2013-10-31 Salesforce.Com, Inc. System and method for managing a viewstate of a web application
US9699272B2 (en) * 2012-09-29 2017-07-04 Oracle International Corporation Mechanism for initiating behavior in a native client application from a web client application via a custom URL scheme
US9424352B2 (en) 2012-12-20 2016-08-23 Ebay Inc. View item related searches
US9672288B2 (en) * 2013-12-30 2017-06-06 Yahoo! Inc. Query suggestions
US9767172B2 (en) * 2014-10-03 2017-09-19 Palantir Technologies Inc. Data aggregation and analysis system
US9501851B2 (en) 2014-10-03 2016-11-22 Palantir Technologies Inc. Time-series analysis system
IN2015CH02762A (zh) * 2015-06-01 2015-07-17 Wipro Ltd
CN105701231B (zh) * 2016-01-20 2018-04-20 深圳市迅雷网络技术有限公司 网络资源搜索系统及方法

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6206829B1 (en) * 1996-07-12 2001-03-27 First Opinion Corporation Computerized medical diagnostic and treatment advice system including network access
US5890172A (en) * 1996-10-08 1999-03-30 Tenretni Dynamics, Inc. Method and apparatus for retrieving data from a network using location identifiers
JP3560758B2 (ja) * 1997-03-17 2004-09-02 シャープ株式会社 データ管理方法およびそれを用いたデータ管理装置
US6035332A (en) * 1997-10-06 2000-03-07 Ncr Corporation Method for monitoring user interactions with web pages from web server using data and command lists for maintaining information visited and issued by participants
US6243091B1 (en) * 1997-11-21 2001-06-05 International Business Machines Corporation Global history view
US6195679B1 (en) * 1998-01-06 2001-02-27 Netscape Communications Corporation Browsing session recording playback and editing system for generating user defined paths and allowing users to mark the priority of items in the paths
US6636886B1 (en) * 1998-05-15 2003-10-21 E.Piphany, Inc. Publish-subscribe architecture using information objects in a computer network
US6377983B1 (en) * 1998-08-31 2002-04-23 International Business Machines Corporation Method and system for converting expertise based on document usage
US20050257400A1 (en) * 1998-11-06 2005-11-24 Microsoft Corporation Navigating a resource browser session
JP3278406B2 (ja) * 1998-12-10 2002-04-30 富士通株式会社 ドキュメント検索仲介装置、ドキュメント検索システム、および、ドキュメント検索仲介プログラムを記録した記録媒体
US6633316B1 (en) * 1999-05-13 2003-10-14 International Business Machines Corporation Method and apparatus for implementing direct link selection of cached, previously visited links in nested web pages
WO2000072199A2 (en) * 1999-05-21 2000-11-30 The Brodia Group Autonomous browsing agent
AUPQ475799A0 (en) * 1999-12-20 2000-01-20 Youramigo Pty Ltd An internet indexing system and method
US7543078B2 (en) * 1999-12-31 2009-06-02 Subdomain Identity Partners Individuals' URL identity exchange and communications
US6519648B1 (en) * 2000-01-24 2003-02-11 Friskit, Inc. Streaming media search and continuous playback of multiple media resources located on a network
WO2001057720A2 (en) 2000-02-04 2001-08-09 America Online Incorporated Automated client-server data validation
IL134893A0 (en) * 2000-03-06 2001-05-20 Joinweb Inc Method and system for locating internet users having similar navigation patterns
AU2001247789A1 (en) * 2000-03-22 2001-10-03 Sidestep, Inc. Method and apparatus for dynamic information connection engine
US6968332B1 (en) * 2000-05-25 2005-11-22 Microsoft Corporation Facility for highlighting documents accessed through search or browsing
US7725526B1 (en) * 2000-06-23 2010-05-25 International Business Machines Corporation System and method for web based sharing of search engine queries
US6785666B1 (en) * 2000-07-11 2004-08-31 Revenue Science, Inc. Method and system for parsing navigation information
US7451099B2 (en) * 2000-08-30 2008-11-11 Kontera Technologies, Inc. Dynamic document context mark-up technique implemented over a computer network
GB2368410A (en) * 2000-10-23 2002-05-01 Navigationzone Ltd A user interface for assisting navigation through a network
US20020087522A1 (en) * 2000-12-29 2002-07-04 Macgregor Robert Method and apparatus for facilitating internet based sales transactions by local vendors
US7047294B2 (en) 2001-05-02 2006-05-16 Microsoft Corporation Page-view recording with click-thru tracking
US6934702B2 (en) * 2001-05-04 2005-08-23 Sun Microsystems, Inc. Method and system of routing messages in a distributed search network
US7099871B2 (en) * 2001-05-04 2006-08-29 Sun Microsystems, Inc. System and method for distributed real-time search
US6968334B2 (en) * 2001-05-15 2005-11-22 Nokia Corporation Method and business process to maintain privacy in distributed recommendation systems
US6795820B2 (en) * 2001-06-20 2004-09-21 Nextpage, Inc. Metasearch technique that ranks documents obtained from multiple collections
US7188141B2 (en) * 2001-06-29 2007-03-06 International Business Machines Corporation Method and system for collaborative web research
JP4066621B2 (ja) * 2001-07-19 2008-03-26 富士通株式会社 全文検索システム及び全文検索プログラム
US7254526B2 (en) * 2001-08-24 2007-08-07 International Business Machines Corporation Apparatus and method for determining compatibility of web sites with designated requirements based on functional characteristics of the web sites
JP2003157259A (ja) * 2001-09-05 2003-05-30 Fuji Xerox Co Ltd 情報検索システム
US20020156779A1 (en) * 2001-09-28 2002-10-24 Elliott Margaret E. Internet search engine
US6988240B2 (en) * 2002-03-29 2006-01-17 Global Knowledge, Inc. Methods and apparatus for low overhead enhancement of web page and markup language presentations
US7225407B2 (en) * 2002-06-28 2007-05-29 Microsoft Corporation Resource browser sessions search
US20040003351A1 (en) * 2002-06-28 2004-01-01 Microsoft Corporation Navigating a resource browser session
WO2004008348A1 (en) * 2002-07-16 2004-01-22 Horn Bruce L Computer system for automatic organization, indexing and viewing of information from multiple sources
US20040193612A1 (en) * 2003-03-31 2004-09-30 Chang William I. System and method for testing, monitoring, and tracking distributed transactions using a search engine
US20050097189A1 (en) * 2003-10-30 2005-05-05 Avaya Technology Corp. Automatic detection and dialing of phone numbers on web pages
US20060062252A1 (en) * 2004-06-30 2006-03-23 Jung Edward K Mote appropriate network power reduction techniques
US7389295B2 (en) * 2004-06-25 2008-06-17 Searete Llc Using federated mote-associated logs
US8856145B2 (en) * 2006-08-04 2014-10-07 Yahoo! Inc. System and method for determining concepts in a content item using context

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103713894A (zh) * 2013-11-28 2014-04-09 百度时代网络技术(北京)有限公司 一种用于确定用户的访问需求信息的方法与设备
CN103713894B (zh) * 2013-11-28 2017-04-05 百度时代网络技术(北京)有限公司 一种用于确定用户的访问需求信息的方法与设备

Also Published As

Publication number Publication date
BRPI0418413A (pt) 2007-05-15
US20090030876A1 (en) 2009-01-29
EP1716508A1 (en) 2006-11-02
IL176743A0 (en) 2006-10-31
RU2006129938A (ru) 2008-02-27
US8572100B2 (en) 2013-10-29
US20140032519A1 (en) 2014-01-30
WO2005069161A1 (en) 2005-07-28
JP2007519106A (ja) 2007-07-12
EP1716508A4 (en) 2008-01-23
CA2552791A1 (en) 2005-07-28

Similar Documents

Publication Publication Date Title
CN1906612A (zh) 用于记录通信网络中跨一个或多个搜索引擎的搜索轨迹的方法和系统
US11809504B2 (en) Auto-refinement of search results based on monitored search activities of users
CN1279475C (zh) 用于在数据网络中搜索和分析信息的方法
US8271546B2 (en) Method and system for URL autocompletion using ranked results
US7487145B1 (en) Method and system for autocompletion using ranked results
US6665658B1 (en) System and method for automatically gathering dynamic content and resources on the world wide web by stimulating user interaction and managing session information
US9723018B2 (en) System and method of analyzing web content
US11163802B1 (en) Local search using restriction specification
US7499965B1 (en) Software agent for locating and analyzing virtual communities on the world wide web
CN1858733A (zh) 信息检索系统和检索方法
US7653654B1 (en) Method and system for selectively accessing files accessible through a network
CN1834965A (zh) 用于评估搜索引擎的质量的方法和系统
CN1588879A (zh) 一种互联网内容过滤系统及过滤方法
JP2006164246A (ja) エンティティ固有の調整された検索
CN1601526A (zh) 用于在计算机网络内搜索的方法和设备
CN1784679A (zh) 广域网搜索中搜索列表项的内容性能评估优化
Sujatha Improved user navigation pattern prediction technique from web log data
US8661069B1 (en) Predictive-based clustering with representative redirect targets
US8521746B1 (en) Detection of bounce pad sites
US7886217B1 (en) Identification of web sites that contain session identifiers
WO2000048057A2 (en) Bookmark search engine
US20040205049A1 (en) Methods and apparatus for user-centered web crawling
CN1313956C (zh) 利用实名访问网页的系统和方法
JP2005010899A (ja) ウェブサイト診断・支援装置、該方法及び該プログラム
JP2007087358A (ja) ウェブログにおいて自動でトラックバックを作成する装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication