CN101133415A - 使用页面集而提供信息搜索服务的服务器、方法和系统 - Google Patents
使用页面集而提供信息搜索服务的服务器、方法和系统 Download PDFInfo
- Publication number
- CN101133415A CN101133415A CNA2006800066318A CN200680006631A CN101133415A CN 101133415 A CN101133415 A CN 101133415A CN A2006800066318 A CNA2006800066318 A CN A2006800066318A CN 200680006631 A CN200680006631 A CN 200680006631A CN 101133415 A CN101133415 A CN 101133415A
- Authority
- CN
- China
- Prior art keywords
- group
- url
- web
- information
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
披露的是提供信息搜索服务的方法、系统和服务器。提供组搜索服务的方法,包括:通过分析所收集数据最初定位的位置信息,来创建这些数据的位置信息模式;根据已经创建的位置信息模式,将所收集数据分组为数据组;以及从数据组中选择一个与关键字相关的数据组并且提供一个组搜索结果。
Description
技术领域
本发明涉及一种信息搜索服务,更确切的说,是一种使用页面组而提供信息搜索服务的方法、系统和服务器。
背景技术
随着因特网的发展,网络信息搜索技术已经得到了很大的发展,而使得大量的信息在网络上可被处理和堆积,而且用户可以又快又准地搜索到信息。
网络信息搜索技术使得用户能够使用web浏览器(网络浏览器)轻松的从网上搜索到各种各样的信息,例如图片,声音,电影图像等。然而,搜索技术存在着一个不利的因素就是,随着网址以几何级数增长,它们无法提供用户真正必需的信息。最常见的一种解决这种问题的方法就是使用搜索引擎。
搜索引擎是一种被设计用来帮助发现信息的程序,这些信息存储在计算机系统中,例如存储于公共或私人网络或个人电脑内的万维网。搜索引擎通过搜索程序,例如搜索机器人或者网络蜘蛛,来创建网址信息的索引,并且将索引信息存储到数据库中。它允许用户查询符合特定规则的内容(特别是那些含有给定单词或者短语的内容),并返回一个和特定规则相匹配的参考列表。
搜索引擎使用网络索引方法,网络路径方法和元搜索方法。网络索引方法是一种最通用的搜索方法。它通过搜索程序例如搜索机器人或者网络蜘蛛,来创建网址信息的索引,并且将索引信息存储到数据库中,它允许用户查询符合特定规则的内容,并返回一个和特定规则相匹配的参考列表。
网络路径方法按照主题和层次对因特网上的页面进行分类以编辑一个数据库,然后创建条目的路径,它允许用户选择和需要信息最接近的条目,进而逐渐的缩小搜索的范围。
元搜索方法是一种高级网络索引方法,它在网络索引方法中创建一个可提供搜索服务的搜索引擎的列表,使得用户可以选择一个搜索引擎进行搜索。
但是,这些搜索引擎各自都存在着以下的不足。网络路径方法不能获得实质性的搜索结果,因为在搜索结果内只包含了相对少量的网页。此外,网络路径方法搜索很耗时,因为它需要很多步骤来获得信息。网络索引方法和元搜索方法使得用户在大量的搜索结果前感到困惑,而且其搜索结果可靠性很低,因为它们提供给用户所有的页面,包括查询页面。
元搜索方法和网络索引方法首先使用它们自己的算法来提供可靠性高的网页。但是,这些页面未必提供给用户他们想要的信息,因为包括查询在内的所有页面都被提供了。
例如,以上提及的搜索方法会提供书中一页的存储信息,而不会提供一本或多本书的存储信息,而使得复杂搜索是不可能的。因此,要解决搜索结果的低可靠性问题,辅助内容,例如网络咖啡馆博客(Internet caf◎ blog),或者信息服务,就被应用到搜索引擎中了。
发明内容
技术方案
本发明提供了能够提供信息搜索服务的一种方法,系统和服务器,这种服务可以对符合特定规则的一组页面进行索引,并在这组页面内进行搜索。
有益效果
根据本发明,用户可以又快又准的在因特网上查到信息,因为一组网页被分析用以创建一个位置信息模式,使用位置信息模式将含有类似信息的网页分组为多组,接着含有与查询相关信息的多个页面,也就是一个代表页面和一些低级别的页面的形式被划为一组后再提供给用户。
附图说明
通过示意性实施例的详细描述,本发明的以上及其他特征和优势将更清楚,其中参照下述附图:
图1是根据本发明的一个实施例,使用一组页面来提供信息搜索服务的系统的方框图;
图2根据本发明的一个实施例,一个组搜索服务器的方框图;
图3和4是说明根据本发明的一个实施例的URL(统一资源定位符)模式和一个URL模式树(UP树)的示意图;
图5是根据本发明的一个实施例,使用一组页面来提供信息搜索服务的方法的流程图;以及
图6是根据本发明的一个实施例的一个组检索结果。
实施发明的最优方式
根据本发明的一个方面,它提供了一种提供组搜索服务的方法,包括:(a)通过分析所收集数据最初定位的位置信息来创建这些数据的位置信息模式;(b)根据已经创建的位置信息模式对所收集数据进行分组;以及(c)从数据组中选择一个与关键字相关的数据组并且提供一个组搜索结果。
根据本发明的另一个方面,它提供了在一个系统中提供一种组搜索服务的方法,该系统包括一个发送查询并输出搜索结果的用户终端,一个提供多个页面的web服务器,以及一个从用户终端接收查询并创建和发送搜索结果到用户终端的组搜索服务器,该方法包括:(a)从用户终端接收查询和查询请求信号;(b)接收来自web服务器的网页;(c)分析网页以创建一个URL模式,并且用该URL模式把这些网页分到一个网页组;(d)从网页组中提取索引,创建索引信息,并创建索引所参照的网页组的URL信息;以及(e)比较查询和索引来创建一个组搜索结果并将该结果发送给用户终端。
根据本发明的另一个方面,它提供了一个提供组搜索服务的系统,该组搜索服务通过搜索在无线/有线网络中多个网页内的信息而获得,系统包括:一个在无线/有线通讯网络上实现网上冲浪的用户终端,它通过传送查询和搜索请求信号来产生搜索请求,接收该请求对应的组搜索结果,并且输出组搜索结果到显示单元;一个从信息中创建网页并提供网页的web服务器;以及一个接收和分析网页以创建URL模式,并使用URL模式而把网页分组为网页组,对网页组进行索引,在网页组中搜索信息并创建和传送组搜索结果给用户终端的组搜索服务器。
根据本发明的另一个方面,它提供了一个组搜索服务器,其包括:一个位置信息模式生成模块,它通过分析所收集数据最初定位的位置信息来创建这些数据的位置信息模式;一个网页分组模块,它根据已创建的位置信息模式将所收集数据分组为数据组;以及一个控制器,它从数据组中选择一个与关键字相关的一个数据组并且提供一个组搜索结果。
根据本发明的另一个方面,它提供了一个组搜索服务器,该服务器接收在无线/有线通讯网络上实现网上冲浪的用户终端发送的查询和搜索请求,在web服务器提供的网页中搜索信息,并发送搜索结果给用户终端,该组搜索服务器包括:一个网页收集模块,它执行网页收集程序,用以自web服务器接收web服务器访问无线/有线通讯网络而获得的网页,并存储这些网页;一个URL模式生成模块,它通过分析网页收集模块接收到的网页来创建URL模式;一个网页分组模块,它利用URL模式生成模块创建的URL模式将网页分组为网页组;一个索引管理模块,它从网页分组模块分组的网页组中提取索引,用以创建并存储索引信息和索引所参照的网页组的URL信息;一个查询管理模块,它根据收到的查询和搜索请求信号而搜索索引信息,将具有与查询相关的索引的网页组的URL信息创建为组搜索结果,以及将组搜索结果传送至用户终端;以及一个控制器,它控制网页收集模块,URL模式生成模块,网页分组模块,索引管理模块,查询管理模块,使得组搜索服务器能够使用网页组来完成搜索,并通过无线/有线通讯网络与客户终端和web服务器进行通讯。
发明实施方式
现在用结合附图,对本发明的示意性实施例进行详细描述。
图1是根据本发明的一个实施例,使用页面分组而提供信息搜索服务的系统的方框图。
根据本发明的一个实施例,使用页面分组而提供信息搜索服务的系统包括一个用户终端110,一个无线/有线通讯网络120,一个web服务器130,一个组搜索服务器140,一个组搜索数据库(此后都用DB来表示数据库)141,一个索引服务器150,和一个索引数据库151。
用户终端110通过无线/有线通讯网络120访问组搜索服务器140,发送一个查询和搜索请求信号,并接收来自组搜索服务器140的组搜索结果,再输出组搜索结果到显示单元。
用户终端110包括一个有线通讯单元,该单元包括一个因特网调制解调器,例如极高比特速率数字用户线路(VDSL)调制解调器和电缆调制解调器,和/或一个移动通讯单元,该单元包括一个移动通讯调制解调器,例如码分多址(CDMA)2000调制解调器和宽带CDMA(W-CDMA)调制解调器。用户终端110使用包含的通讯单元通过无线/有线通讯网络120来访问组搜索服务器140。用户终端进一步包括一个包含一块内存和一个微处理器的控制器。内存存放网络浏览器程序,这些程序被用来接收用户查询,请求信息搜索,以及输出搜索结果给显示单元。微处理器控制用户终端110的运行。
用户终端110的例子包括一台个人计算机(PC),例如一台桌上电脑或者一台膝上电脑,以及一个通讯终端,例如个人数码助理(PDA)、手机、个人通讯服务电话、掌上电脑、全球移动通讯系统(GSM)电话、W-CDMA手机、CDMA-2000手机和移动宽带系统(MBS)手机。
无线/有线通讯网络120将用户终端110、web服务器130、组搜索服务器140、索引服务器150连接起来,使得它们可以使用有线或无线的方式重复它们之间发送和接收的数据。
web服务器130是一个典型的网络服务器,包括用网页形式提供各种信息的多个计算机系统或计算机软件。网络服务器指一个计算机系统和计算机软件(网络服务器程序),它被连接到一个子单元,而与其他网络服务器通过计算机网络,例如企业内部互联网或者因特网,进行通信,接收运行请求并提供运行结果。然而,除了网络服务器程序,网络服务器应该被解释为包括运行在网络服务器上的应用程序以及存储在上面的各种数据库。网络服务器被具体化为根据操作系统,例如DOS、Windows、Linux、UNIX或者MacOS,而使用相应的网络服务器程序。
索引服务器150执行一个数据收集程序,通常是一个web机器人,从连接到无线/有线通讯网络120的web服务器130上收集数据。索引服务器150定时更新收集的数据,且索引数据库151使用一个翻转文件或者类似的机制存放收集到的数据。
组搜索服务器140与索引服务器150以及索引数据库151相通讯以阅读网络数据,组搜索服务器140还分析网络数据的位置信息以创建多种位置信息模式。位置信息是指包括收集到的网络数据的因特网路径。它优选包括网络数据的统一资源定位符(URLs)。它分析在位置信息模式之间的联系以执行分组操作。上述过程能包括使用一个URL模式树而创建在多个不同URL模式之间的一个联系,还包括对具有相同URL模式分组域值的网页进行分组。可选择地或另外地,创建和URL模式分组的过程能包括参照一个预定的URL模式路径。
组搜索服务器140提取在网页组单元内的索引,创建由索引参照的网页的索引信息和URL信息,并且在组搜索数据库141内储存索引信息和URL信息。当组搜索服务器140从用户终端接收一个查询和一个信息搜索需求时,它将该查询与搜索相对比以创建关于组搜索结果的信息。组搜索结果与关于查询的其他搜索结果一起,能被传送至用户终端110。组搜索服务器140将会参照图2而被详细描述。
即使组搜索服务器140没有从用户接收到关于查询的组搜索结果,它也能被用于提供一个关于一个确定关键字的组搜索结果。例如,它能使用一个包含用户查询的更高水平的概念或一个关于用户查询的确定的关键字以提供一个组搜索结果。进一步地,它能使用一个关于情报的关键字以提供一个组搜索结果。
组搜索数据库141储存网页组的索引信息和位置信息(包括URL信息),这些信息由组搜索服务器140所创建。它能进一步地储存组的中心词。数据库是指通过DBMS(数据库管理系统)程序而在计算机系统的存储区内形成的数据结构,在其中数据被取得、删除、编辑和添加。数据库能使用一个相关的DBMS而适应于本发明,例如,Oracle,Informix,Sybase,MS SQL(微软结构查询语言),或DB2的数据库管理系统。数据库包括存储、取得、删除、编辑和添加数据所需的域和元素。进一步地,组搜索数据库141和索引数据库151能彼此分开,或为完整一体。
图2根据本发明的一个实施例,一个组搜索服务器的方框图。
一个组搜索服务器140是包括一个网页收集模块210、一个URL模式生成模块220、一个网页分组模块230、一个索引管理模块240、一个查询管理模块250和一个控制器260的网络服务器。
网页收集模块210通过无线/有线通讯网络而访问web服务器130以收集数据。网页收集模块210能选择性地包括在组搜索服务器140内,以反映被位置信息所参照的数据的变化,该位置信息由索引服务器150所收集且存储于索引数据库151内。
URL模式生成模块220分析控制器260或网页收集模块210所需的网页的URLs以创建URL模式。URL模式是指网页的URL的预定模式,且其被创建以管理具有相同内容的一组网页或以同样模式写成的一组网页。在本发明中,相同网页被分组和被管理以用于信息搜索。此时,URL模式被用作选择相同网页的一个标准。
URL模式生成模块220分析控制器260或网页收集模块210接收的网页的URLs,以创建包括分组域的URL模式。例如,在由Neowiz公司提供的SayClub主页服务器内,每一个ID(身份)的代表页的URL被分析,ID被设置为一个分组域,因此创建了一个http://hompy.sayclub.com/[ID]的URL模式。URL模式将会参照图3而被详细描述。除了分组域,URL模式能基于超文本传输协议(HyperText MarkupLanguage,HTML)模版而创建,该模版由两个网页或网页内容所共享。
HTML模版是指通常使用的基础结构,以使得网页能够易于被写入。例如,它以标签形式被书写,如<Table...><TD>[text number]</TD><TD>[title]</TD>...</TABLE>,其常用于写入网页。
写入为网页的一个HTML文件典型地是一个HTML标签和一个文本的组合,它遵守HTML的语法。HTML文件由多个功能块组成,如,菜单块、用于与其他入口站点相连的连接块、和一个用于包含内容的信息块。功能块经常用于网页内,且因此用模版写入以方便用户。
由同样操作件创建的网页能包含于多个由web服务器所管理的网页内,而该服务器提供了公告服务、博客服务、最小化主页服务及其类似物。即,共享一个相同HTML模版的多个网页趋向于由相同的操作件所创建,且趋向于包含相同的内容。
因为提供了公告服务、博客服务和最小化主页服务的web服务器130使用相同的HTML模版以写入由web服务器130所管理的最多的网页,所以由相同web服务器130所管理的网页共享同样的HTML模版。相应地,共享同样HTML模版的网页能具有同样的URL模式。
基于所需URL模式之间的通过UP树信息的联系,网页分组模块230对由URL模式生成模块220创建的不同URL模式进行分组,而且在URL模式组内对具有同样分组域的网页进行分组。即,网页分组模块230对URL模式进行分组,该URL模式与由URL模式生成模块220创建的URL模式不同,但是它们又相互相关,基于所需URL模式之间的通过UP树信息的联系,网页分组模块230在URL模式组内对具有相同URL模式分组域值的网页进行分组。
例如,登记于SayClub主页内网页的URLs能够概括为大约20种不同的URL模式。基于UP树信息,这20种不同URL模式被分组在一个单个组。在它们中,具有同一个用户ID的网页作为一个分组域值而被分组在一个网页组内。相应地,当登记于SayClub主页的网页被依据用户ID而分组,网页的分组数等同于登记于SayClub主页的用户ID的数量。进一步地,这能等同地应用于登记于Naver博客的网页,以使得网页的分组数等同于登记于Naver博客的用户ID的数量。
然而,在本发明中,用于分组网页的标准不局限于分组域值。例如,能通过对分组域执行“和”或“或”操作的而对网页分组。本发明可进一步包括对在一个索引和一个相应组之间的联系进行评价,以对页面组进行细分或改变,该索引由索引管理模块240提取。例如,当自页面组提取的索引涉及两个或多个域时,页面可被整合为一个组或基于域而被细分两个或多个子组。当从一组页面提取的一个索引不正确地表示其内容,该组可被删除以产生一个可靠的搜索结果。
索引管理模块240从一个由网页分组模块230分组的页面组提取一个索引,以及存储在组搜索数据库141内网页的索引信息和URL信息。即,索引管理模块240从一个页面组提取一个索引以创建索引信息,以及在组搜索数据库141的索引数据库151内储存索引信息。另外,索引管理模块240使用UP树信息以创建网页组的URL信息和在组搜索数据库141内储存URL信息。
在从用户终端110接收一个查询或关键字时,查询管理模块250搜索索引数据库151,从组搜索数据库141接收具有匹配查询索引的网页组信息和创建组搜索结果。在查询或关键字与索引之间的匹配可通过使用指定术语词典或共有信息(MI)值而执行。另外,可使用公知算法而执行。
控制器260控制网页收集模块210、URL模式生成模块220、网页分组模块230、索引管理模块240和查询管理模块250,以使得组搜索服务器能够使用一组网页进行查询。另外,控制器与索引服务器150和索引数据151进行通讯,从用户终端110接收查询搜索请求,和发送组搜索结果。
图3和图4是根据本发明的一个实施例,对URL模式和UP树的进行解释的示意图。
图3说明了使用Neowiz SayClub主页(http://hompy.sayclub.com,此后称之为hompy)服务的用户主页的URL,以及其相关页面的URL。用户主页包括一些在用户URL内含有其ID的网页。在SayClubhompy,URL被表现为查询形式,如被“变量名称=变量值”跟随的“◎”符号。相应地,在图3中,当跟随“targetmsr1=”的值被认为是确认用户ID的标准时,URL模式被如图4所示而创建。另外,在由门户站点所提供的私人博客服务或公告服务中,服务提供商的域名可被一个分隔符所跟随用以区别用户和公告。
图4是通过分析在hompy内网页的URL而得到的URL的树状结构的模式。参照图3,每一个网页在其URL内包括用户的ID。因此,在网页的URL中,“用户ID”的部分可被转换为[ID]的分组域,而包含在hompy内的“公告类型”部分可被转换为[公告类型]的分组域。即使是分组域值变化了,而当URL浏览的内容实质上没有改变时,分组域可被设置为[忽略]域,而[忽略]域在分组URL模式的过程中被忽略。基于分组域值的变化,可通过分析在相应组内文件的囊括和联系而确定分组域之间的优先。
当URL模式通过上述过程而被创建,被创建的URL模式能被用于概括Neowiz hompy所有用户的网页。分组域能自动地被形成于分析URL地址的过程中。在由门户站点或社区站点提供的私人博客或公告中,URL模式被统一地按照服务提供商的策略而创建。在这种情况下,创建和对URL模式分组的过程能通过参照关于分组域的预定URL模式和路径而被执行。
图5是根据本发明的一个实施例,使用一组页面而提供信息搜索服务的方法的流程图。
一个因特网用户使用用户终端以输入一个信息搜索的查询,且发送该查询和搜索请求至组搜索服务器140(操作S410)。操作S410可被省略。即,一个组搜索服务器可通过分析储存数据而被执行,而无需用户输入查询或查询请求。在从用户终端110接收查询和搜索请求信号后,组搜索服务器140从索引数据库151接收关于网页的信息(包括地址信息),而该索引数据库151由索引服务器150所预先收集和编译(操作S420)。组搜索服务器140可选择性地操作网页收集模块210以从索引数据库151接收附助材料。
期间,根据一个预定方法,web机器人程序可被执行以接收网页和存储数据,而无需从用户接收查询或搜索请求。接收的数据通过索引服务器150而存储于索引数据库151内。
在从索引服务器150接收网页后,组搜索服务器140分析网页以创建URL模式(S430)。
在创建URL模式后,基于通过UP树信息获得的URL模式与网页组的联系,而该网页组在一组URL模式内具有同样的URL模式的分组域值(操作S440),组搜索服务器140对不同的URL模式进行分组。
在分组网页后,组搜索服务器140从组单元内的网页组提取索引,以创建索引信息和由索引参照的网页组的URL信息(操作S450),以及在组搜索数据库150内存储索引信息和网页组的URL信息(操作S460)。
在组搜索数据库150内存储索引信息和网页组的URL信息后,组搜索服务器140对接收自用户终端110的查询和存储于组搜索数据库150内的索引进行对比,进行搜索,创建和发送组搜索结果至用户终端110(操作S470)。
在从组搜索服务器140接收搜索结果后,用户终端110输出搜索结果至显示单元。根据本发明,即使是查询没有从用户被输出,也可提供组搜索服务。
根据本发明,组搜索服务将多个网页分组为一个网页组,且搜索与该网页相关的实体,而不是搜索包含于网页内的一个术语。搜索服务可与公告搜索服务一起而被使用。
最近,公告服务广泛地用于网页上,在其中用户登记关于特定信息的材料,写入信息的问题和解答。公告服务可包括含有比用户搜索更多信息的网页。
相应地,当一个用户输入查询以请求搜索,一个代表性的网页和共享关于该查询信息的低水平的公告网页,被分组在一起以及以预定次序被提供,而不是简单地提供包含该查询的网页。
根据本发明的一个实施例,组搜索服务在下午中采取为公告服务。然而,本发明并不局限至此,而是可被应用为使用网页组以进行搜索的多种服务。
图6是根据本发明的一个实施例,解释组搜索结果的示意图。
在提供组搜索结果的方面,其输出顺序可取决于用户查询和关键字、组内文件的数目、在现实期间内组内文件数目的增加、组和组文件的创建时间或普及度之间的联系,而所述普及度如用户访问单个组的数量。为了评价该联系,评价技术可被使用,其中使用了在相应组内和预定术语路径内,用户使用查询和关键字的频次。普及度可取决于在相应组内文件查询的数目,用户访问组的数目以及在预定时间内在相应组内创建的数据量。
当一个用户在网页内的输入窗口510内输入“psp”查询,即输出一个组搜索结果530,所述网页输出至用户终端110以提供组搜索服务和选择“搜索”。组搜索结果530按照“Neo rank order(新登记次序)”而在分类菜单520内被分类。用户可在分类菜单520内的“相关文章次序”或“普及度次序”内对组搜索结果530进行分类。
组搜索结果530可显示网络文件的名称、文章名称等以有效地提供信息。页面组信息540可进一步包括关于页面组分类和所囊括文件的数目的信息。另外,可提供单个页面组内单个文件的清单550以方便用户。进一步地,可提供关于单个页面组来源信息的分类项560以有效地提供信息。
虽然本发明被参照其说明性实施例而被描述,但是本领域技术人员能够理解,在下述权利要求的范围内,可以作出形式和细节上的多种变化,而不会脱离本发明的保护范围。
工业实用性
本发明能被有效地适用于提供信息搜索服务的方法、系统和服务器。
Claims (22)
1.一种提供组搜索服务的方法,包括:
(a)通过分析所收集数据最初定位的位置信息,来创建这些数据的位置信息模式;
(b)根据已经创建的位置信息模式,将所收集数据分组为数据组;以及
(c)从数据组中选择一个与关键字相关的数据组并且提供一个组搜索结果。
2.根据权利要求1所述的方法,其中所述位置信息包括所收集数据的统一资源定位符(此后称为URL)信息,而且所述位置信息模式包括用于分组数据的分组域,该分组域作为所收集数据共享的预定模式。
3.根据权利要求1或2任一权利要求所述的方法,其中所述操作(b)包括:
(b1)基于所需位置信息模式之间通过位置信息模式树信息的联系,而对不同的位置信息模式进行分组,以创建一个位置信息模式组;以及
(b2)基于在位置信息模式组之间的位置信息模式的分组域,将网页分组为一个网页组。
4.根据权利要求1或2任一权利要求所述的方法,其中所述组搜索结果的获得取决于来自下述因素之间的至少一个联系,这些因素包括:每一个数据组和关键字、在预定时间内创建的文件数量,以及访问至每一个数据组的数量。
5.根据权利要求3所述的方法,其中所述组搜索结果取决于来自下述因素之间的至少一个联系,这些因素包括:每一个数据组和关键字、在预定时间内创建的文件数量,以及访问至每一个数据组的数量。
6.根据权利要求1所述的方法,其中进一步包括在操作(a)之前在因特网上预先收集数据,和对收集的数据进行索引。
7.在一个系统中提供一种组搜索服务的方法,该系统包括一个发送查询并输出搜索结果的用户终端,一个提供多个页面的web服务器,以及一个从用户终端接收查询并创建和发送搜索结果到用户终端的组搜索服务器,该方法包括:
(a)从用户终端接收查询和查询请求信号;
(b)接收来自web服务器的网页;
(c)分析网页以创建一个URL模式,并且用该URL模式把这些网页分到一个网页组;
(d)从网页组中提取索引,创建索引信息,并创建索引所参照的网页组的URL信息;以及
(e)比较查询和索引来创建一个组搜索结果并将该结果发送给用户终端。
8.根据权利要求7所述的方法,其中所述操作(c)包括:
(c1)分析网页以创建多个URL模式;
(c2)基于所需URL模式之间的通过URL模式树(此后称为UP树)信息的联系,将不同URL模式分组以创建多个URL模式组;
(c3)基于URL模式的分组域,将网页分组为多个网页组。
9.根据权利要求7所述的方法,其中所述操作(d)包括:
(d1)从包含于网页组内的网页提取索引,以创建索引信息和在组搜索数据库(此后称为DB)内存储索引信息;以及
(d2)在组搜索数据库内存储由索引所参照的网页组的URL信息,以使得URL信息与索引相对应。
10.根据权利要求7所述的方法,其中所述操作(e)包括:
(e1)搜索与查询相关的索引;
(e2)搜索由索引所参照的网页组的URL信息,所述索引是在操作(e1)中搜索到的;
(e3)创建操作(e2)搜索到的网页组的URL信息,将其作为组搜索结果;以及
(e4)发送组搜索结果至用户终端。
11.根据权利要求7-10任一权利要求所述的方法,其中所述组搜索结果的获得取决于来自下述因素之间的至少一个联系,这些因素包括:每一个数据组和关键字、在预定时间内创建的文件数量,以及访问至每一个数据组的数量。
12.一个提供组搜索服务的系统,该组搜索服务通过搜索在无线/有线网络中多个网页内的信息而获得,系统包括:
一个在无线/有线通讯网络上实现网上冲浪的用户终端,它通过传送查询和搜索请求信号来产生搜索请求,接收该请求对应的组搜索结果,并且输出组搜索结果到显示单元;
一个从信息中创建网页并提供网页的web服务器;以及
一个接收和分析网页以创建URL模式,并使用URL模式而把网页分组为网页组,对网页组进行索引,在网页组中搜索信息,并创建和传送组搜索结果给用户终端的组搜索服务器。
13.根据权利要求12所述的系统,其中所述组搜索服务器包括:
一个网页收集模块,它执行网页收集程序,用以自web服务器接收web服务器访问无线/有线通讯网络而获得的网页,并存储这些网页;
一个URL模式生成模块,它通过分析网页收集模块接收到的网页来创建URL模式;
一个网页分组模块,它利用URL模式生成模块创建的URL模式将网页分组为网页组;
一个索引管理模块,它从网页分组模块分组的网页组中提取索引,用以创建并存储索引信息和索引所参照的网页组的URL信息;
一个查询管理模块,它根据收到的查询和搜索请求信号而搜索索引信息,将具有与查询相关的索引的网页组的URL信息创建为组搜索结果,以及将组搜索结果传送至用户终端;以及
一个控制器,它控制网页收集模块,URL模式生成模块,网页分组模块,索引管理模块,查询管理模块,使得组搜索服务器能够使用网页组来完成搜索,并通过无线/有线通讯网络与客户终端和web服务器进行通讯。
14.根据权利要求12所述的系统,其中所述URL模式生成模块创建用作标准的URL模式,所述标准用于以预定模式对网页分组,该预定模式由具有相同信息的网页所共享,URL模式生成模块还创建有分组域的URL模式,该分组域用于分组网页。
15.根据权利要求12所述的系统,其中所述网页分组模块
基于所需URL模式之间的通过UP信息的联系,将不同URL模式分组以创建多个URL模式组,以及
将具有相同分组域的网页分组为网页组,所述分组域是URL模式组之间的URL模式的分组域。
16.根据权利要求12所述的系统,其中所述网页分组模块将具有相同值的网页分组为网页组,所述值通过对URL模式的分组域执行“和”或“或”操作的而获得。
17.根据权利要求12所述的系统,其中所述索引管理模块
从包含于网页组内的网页提取索引,以创建和存储索引信息,以及
创建和存储由索引所参照的网页组的URL信息,以使得URL信息与索引相对应。
18.根据权利要求12所述的系统,其中进一步包括一个组搜索数据库,该组搜索数据库包括一个索引数据库和一个URL数据库,所述索引数据库存储接收自组搜索服务器的索引信息,所述URL数据库存储网页组的URL信息。
19.一个组搜索服务器,其包括:
一个位置信息模式生成模块,它通过分析所收集数据最初定位的位置信息来创建这些数据的位置信息模式;
一个网页分组模块,它根据已创建的位置信息模式将所收集数据分组为数据组;以及
一个控制器,它从数据组中选择一个与关键字相关的一个数据组并且提供一个组搜索结果。
20.根据权利要求12所述的组搜索服务器,其中位置信息包括所收集数据的URL信息和位置信息模式,该位置信息模式包括作为所收集数据所共享的预定模式而对数据分组的分组域。
21.一个组搜索服务器,该服务器接收在无线/有线通讯网络上实现网上冲浪的用户终端发送的查询和搜索请求,在web服务器提供的网页中搜索信息,并发送搜索结果给用户终端,该组搜索服务器包括:
一个网页收集模块,它执行网页收集程序,用以自web服务器接收web服务器访问无线/有线通讯网络而获得的网页,并存储这些网页;
一个URL模式生成模块,它通过分析网页收集模块接收到的网页来创建URL模式;
一个网页分组模块,它利用URL模式生成模块创建的URL模式将网页分组为网页组;
一个索引管理模块,它从网页分组模块分组的网页组中提取索引,用以创建并存储索引信息和索引所参照的网页组的URL信息;
一个查询管理模块,它根据收到的查询和搜索请求信号而搜索索引信息,将具有与查询相关的索引的网页组的URL信息创建为组搜索结果,以及将组搜索结果传送至用户终端;以及
一个控制器,它控制网页收集模块,URL模式生成模块,网页分组模块,索引管理模块,查询管理模块,使得组搜索服务器能够使用网页组来完成搜索,并通过无线/有线通讯网络与客户终端和web服务器进行通讯。
22.根据权利要求21所述的组搜索服务器,进一步包括一个组搜索数据库,该组搜索数据库包括一个索引数据库和一个URL数据库,所述索引数据库存储接收自组搜索服务器的索引信息,所述URL数据库存储网页组的URL信息。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20050018309 | 2005-03-04 | ||
KR1020050018309 | 2005-03-04 | ||
KR10-2005-0018309 | 2005-03-04 | ||
KR1020060020346 | 2006-03-03 | ||
KR10-2006-0020346 | 2006-03-03 | ||
PCT/KR2006/000739 WO2006107141A1 (en) | 2005-03-04 | 2006-03-03 | Server, method and system for providing information search service by using sheaf of pages |
KR20060020346A KR100671077B1 (ko) | 2005-03-04 | 2006-03-03 | 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210008279.9A Division CN102622402B (zh) | 2005-03-04 | 2006-03-03 | 使用页面集而提供信息搜索服务的服务器、方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101133415A true CN101133415A (zh) | 2008-02-27 |
CN101133415B CN101133415B (zh) | 2012-03-21 |
Family
ID=37623990
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210008279.9A Active CN102622402B (zh) | 2005-03-04 | 2006-03-03 | 使用页面集而提供信息搜索服务的服务器、方法和系统 |
CN2006800066318A Active CN101133415B (zh) | 2005-03-04 | 2006-03-03 | 使用页面集而提供信息搜索服务的服务器、方法和系统 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210008279.9A Active CN102622402B (zh) | 2005-03-04 | 2006-03-03 | 使用页面集而提供信息搜索服务的服务器、方法和系统 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP4769822B2 (zh) |
KR (1) | KR100671077B1 (zh) |
CN (2) | CN102622402B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104158890A (zh) * | 2014-08-21 | 2014-11-19 | 广州唯品会网络技术有限公司 | 电子商务网站的咨询反馈方法及装置 |
WO2015074455A1 (zh) * | 2013-11-25 | 2015-05-28 | 北京奇虎科技有限公司 | 一种计算关联网页URL模式pattern的方法和装置 |
CN105045684A (zh) * | 2015-07-16 | 2015-11-11 | 北京京东尚科信息技术有限公司 | 索引切换和索引控制的方法及装置 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010014954A2 (en) * | 2008-08-01 | 2010-02-04 | Google Inc. | Providing posts to discussion threads in response to a search query |
US8892537B2 (en) | 2009-07-15 | 2014-11-18 | Neopad Inc. | System and method for providing total homepage service |
RU2668726C2 (ru) | 2014-06-25 | 2018-10-02 | Гугл Инк. | Глубинные ссылки для нативных приложений |
KR101647596B1 (ko) * | 2015-04-20 | 2016-08-10 | 숭실대학교산학협력단 | 콘텐츠 서비스를 제공하는 방법 및 서버 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0934911A (ja) * | 1995-07-18 | 1997-02-07 | Fuji Xerox Co Ltd | 情報検索装置 |
JP2001134616A (ja) * | 1999-10-25 | 2001-05-18 | Nec Corp | 特定の話題に関するウェブ情報の構成方法とその構成システム |
JP2001306947A (ja) * | 2000-04-20 | 2001-11-02 | Ntt Data Corp | アクセス分析システム、アクセス分析方法および記録媒体 |
GB2378026B (en) * | 2000-05-01 | 2004-03-24 | R R Donnelley And Sons Company | Methods and apparatus for serving a web page to a client device based on printed publications and publisher controlled links |
KR20010104871A (ko) * | 2000-05-16 | 2001-11-28 | 임갑철 | 검색결과의 자동분류 기능을 갖는 인터넷 사이트 검색서비스 시스템 |
KR100643979B1 (ko) * | 2000-05-18 | 2006-11-13 | 엘지전자 주식회사 | 인터넷을 이용한 정보검색 결과 제공방법 |
JP2002288074A (ja) * | 2001-03-28 | 2002-10-04 | Nec Corp | 電子コミュニケーションシステム、電子コミュニケーション方法、およびコンピュータプログラム |
JP3922693B2 (ja) * | 2002-06-17 | 2007-05-30 | Necシステムテクノロジー株式会社 | インターネット情報検索システム |
JP4231298B2 (ja) * | 2003-01-14 | 2009-02-25 | 日本電信電話株式会社 | 情報抽出規則作成システム、情報抽出規則作成プログラム、情報抽出システム及び情報抽出プログラム |
JP2004341942A (ja) * | 2003-05-16 | 2004-12-02 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類用プログラムおよびコンテンツ分類用プログラムを記憶した記憶媒体 |
-
2006
- 2006-03-03 KR KR20060020346A patent/KR100671077B1/ko active IP Right Grant
- 2006-03-03 CN CN201210008279.9A patent/CN102622402B/zh active Active
- 2006-03-03 CN CN2006800066318A patent/CN101133415B/zh active Active
- 2006-03-03 JP JP2007557935A patent/JP4769822B2/ja active Active
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015074455A1 (zh) * | 2013-11-25 | 2015-05-28 | 北京奇虎科技有限公司 | 一种计算关联网页URL模式pattern的方法和装置 |
CN104158890A (zh) * | 2014-08-21 | 2014-11-19 | 广州唯品会网络技术有限公司 | 电子商务网站的咨询反馈方法及装置 |
CN104158890B (zh) * | 2014-08-21 | 2018-05-22 | 广州品唯软件有限公司 | 电子商务网站的咨询反馈方法及装置 |
CN105045684A (zh) * | 2015-07-16 | 2015-11-11 | 北京京东尚科信息技术有限公司 | 索引切换和索引控制的方法及装置 |
CN105045684B (zh) * | 2015-07-16 | 2018-06-15 | 北京京东尚科信息技术有限公司 | 索引切换和索引控制的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102622402A (zh) | 2012-08-01 |
JP2008537809A (ja) | 2008-09-25 |
CN102622402B (zh) | 2014-12-03 |
CN101133415B (zh) | 2012-03-21 |
KR20060096356A (ko) | 2006-09-11 |
JP4769822B2 (ja) | 2011-09-07 |
KR100671077B1 (ko) | 2007-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4648455B2 (ja) | 個人化検索方法および個人化検索システム | |
US7797295B2 (en) | User content feeds from user storage devices to a public search engine | |
CN1858733B (zh) | 信息检索系统和检索方法 | |
JP4846922B2 (ja) | ネットワーク上の情報へのアクセス方法及びシステム | |
US6247021B1 (en) | Searchable bookmark sets as an internet advertising medium | |
US8949217B2 (en) | Server bookmarks | |
US20090006388A1 (en) | Search result ranking | |
CN102521251A (zh) | 个性化搜索直达的方法、实现该方法的装置和搜索服务器 | |
CN101133415B (zh) | 使用页面集而提供信息搜索服务的服务器、方法和系统 | |
US20200175081A1 (en) | Server, method and system for providing information search service by using sheaf of pages | |
US20080065632A1 (en) | Server, method and system for providing information search service by using web page segmented into several inforamtion blocks | |
KR20100094021A (ko) | 이동통신 단말기와 아이피 기반 정보 단말기를 이용한 맞춤, 지능형 심볼, 아이콘 인터넷 정보 검색시스템 | |
EP1266300A1 (en) | System and method for creating a semantic web and its applications in browsing, searching, profiling, personalization and advertising | |
WO2012149223A2 (en) | Composite code with dynamic linking to internet addresses | |
WO2008089294A1 (en) | System and method for automatically organizing bookmarks through the use of tag data | |
CN101866347A (zh) | 对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统 | |
US20100169756A1 (en) | Automated bookmarking | |
JP4430598B2 (ja) | 情報共有システムおよび情報共有方法 | |
CN100414869C (zh) | 一种互联网上实现资讯订阅的方法及系统 | |
CN101676901A (zh) | 搜索调度方法及搜索服务器 | |
KR101637016B1 (ko) | 이용자 반응형 웹페이지 제공 방법 | |
CN101788981A (zh) | 一种深层网移动搜索方法、服务器及系统 | |
CN107665226A (zh) | 一种信息的推送方法及推送装置 | |
CN101923548A (zh) | 一种互联网信息搜索方法及一种搜索引擎 | |
KR20000054294A (ko) | 디렉토리 데이터베이스 서비스 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
ASS | Succession or assignment of patent right |
Owner name: FINDINGWAYS CO.LTD. Free format text: FORMER OWNER: CHUTNOON COMPANY Effective date: 20100429 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20100429 Address after: Gyeonggi Do, South Korea Applicant after: Chutnoon Co., Ltd. Address before: Gyeonggi Do, South Korea Applicant before: CHUTNOON Inc. |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |