CN1114880C - 信息检索装置和方法 - Google Patents
信息检索装置和方法 Download PDFInfo
- Publication number
- CN1114880C CN1114880C CN 99104149 CN99104149A CN1114880C CN 1114880 C CN1114880 C CN 1114880C CN 99104149 CN99104149 CN 99104149 CN 99104149 A CN99104149 A CN 99104149A CN 1114880 C CN1114880 C CN 1114880C
- Authority
- CN
- China
- Prior art keywords
- data
- information data
- scoring
- search engine
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明揭示一种包括多个搜索引擎,从而可迅速得到文献目录的信息检索装置。该装置包括:传送经客户单元接收的检索请求的通信单元,多个根据要求的检索条件检索数据并分类检索的数据的搜索引擎,分类全部搜索引擎检索的数据的总分类单元。用上述构成,通过部分取出各搜索引擎检索的数据,即可迅速制订期望的文献目录。
Description
本发明涉及具有多个搜索引擎(search engine)的信息检索装置和方法,借助于该装置和方法,可通过检索文献的电子数据,迅速制订文献目录(著录项目)。
近年来,随着字处理器和个人计算机的普及,人们关注文献数据库,在该数据库中储存大量的文献信息并可在任何时候,从存储的数据检索需要的文献信息。一种称为全文检索系统的检索系统正引人注目,在该系统中可从文献内容检索无关键字文献数据。该系统用于检索来自因特网等网络的主页。通过把用户计算机连至服务器/客户机模型或全球网信息服务系统(万维网)(WWW),用户可使用该检索系统。在该系统中,通过显示各自有检索文献数据的文献目录,可同时处理多个用户的检索请求,即,多个用户可同时检索储存的数据。而且,在该系统中,检索的数据不按进入的顺序输出,而是根据按照数据和检索条件之间预定的标准加至各数据的评分输出。该系统可响应于用户请求输出数据。通过赋予序号并根据对各数据所给定的权重给评分来执行上述对数据加评分,例如,对具有较少词的文献给较高评分或按所用词给不同评分(如根据预定词出现的频度给出权重)等。文献目录除文献号外还包括主页标题或URL(Universal ResourceLocator)(统一资源定位器)。
下文叙述一传统的信息检索装置。图12表示以往信息检索装置的框图,它包括客户单元121-1、121-2、……121-n,通信单元122,搜索引擎123,索引存储单元124和文献目录存储单元125。
下文叙述具有上述构成的常规的信息检索装置的工作。首先,客户单元121-1、121-2、……121-n向通信单元122传送来自多个用户的检索请求。然后,通信单元122存储该请求并向搜索引擎123传送该请求。搜索引擎123以索引存储单元124读出索引,快速检索该索引数据并把命中数送回通信单元122。然后,通信单元122把命中数送回客户单元121-1、121-2、…121-n。
然后,客户单元121-1、121-2、……121-n向通信单元122传送获得具有上述索引检索所命中的文献数据的文献目录的请求。通信单元122向搜索引擎123传送该请求。搜索引擎123从文献目录存储单元125读出文献数据,制订文献目录并向通信单元122回送。通信单元122又把它回送至客户单元121-1、121-2、……121-n。
在上述常规构成中,存在当存储几千万文献时,硬盘和存储器的存储量和性能不足的问题。在这种情况下,由于一台计算机难于处理数据,必须使用多台计算机,所以检索涉及多个搜索引擎。这样,搜索引擎间的通信负荷就变大,因而检索性能不足。
本发明信息检索装置和方法的第1个特点是,它包括至少多个各自独立地检索文献数据,制订文献目录并按预定标准分类检索所得文献的搜索引擎、存储执行检索用的索引数据的索引存储单元、存储文献目录数据的文献目录存储单元和分类由搜索引擎检索的所有数据的总分类单元(global sort unit)。在上述构成中,能用部分取出各搜索引擎检索的数据(即按照从始端起的位置顺序取出预定量的数据)的方法,快速制订文献目录。在这种情况下,根据按预定标准加至各数据的评分分类数据。
本发明第2个特点是,在从位于全部检索数据的后半部分的数据获得文献目录时,总分类单元以从末端起的位置顺序,取搜索引擎检索的数据。换句话说,总分类单元根据待取数据从始端或末端数的位置号及待取数据量,部分取出各搜索引擎检索历史中的数据。用这种方法,可快速制订文献目录。
本发明第3个特点是,总分类单元首先从各搜索引擎接收命中分布,即,按照使各级间包含的范围相等,把评分划分“p”(“p”是不小于2的整数)级,并汇总评分不小于各级最低值的数据量,由此可找出所要求文献目录的数据所处的范围。基于此,总分类单元再次从各搜索引擎取命中分布。然后,从该分布,通过计算找出所需数据的位置,从而部分取出评分。用这种方法可迅速制订所需的文献目录。
图1是本发明第1示范实施例的信息检索装置的框图。
图2A至图2C表示第1示范实施例中搜索引擎工作的一个例子。
图3表示第1示范实施例中总分类单元工作的一个例子。
图4A至4D表示第1示范实施例中制订文献目录的一个例子。
图5是本发明第2示范实施例的信息检索装置的框图。
图6是本发明第3示范实施例的信息检索装置的框图。
图7A至7D表示本发明第3示范实施例中,创建评分分布的一个例子。
图8表示在第1示范实施例中,文献数据命中数搜索过程的流程图。
图9是第1示范实施例中制订文献目录过程的流程图。
图10是第2示范实施例中制订文献目录过程的流程图。
图11是第3示范实施例中制订文献目录过程的流程图。
图12是以往信息检索装置的框图。
第1示范实施例
下文参照图1-4、8及图9,叙述本发明第1示范实施例的信息检索装置。
如图1所示,信息检索装置包括:客户单元11-1、11-2、…11-n,通信单元12,搜索引擎13-1、13-2、……13-n,总分类单元14,评分存储单元15,索引存储单元16和文献目录存储单元17。
下文说明具有上述构成的信息检索装置的工作。
图8是本示范实施例搜索文献命中数的处理流程图。首先,各客户单元11-1、11-2…11-n接收用户检索请求(图8的801框)并向通信单元12传送该请求。然后,通信单元12请求各搜索引擎13-1、13-2、…13-n搜索命中数(802)。各搜索引擎13-1、13-2、…13-n搜索索引数据(803),检索索引数据(804)并向通信单元12回送各命中数。通信单元12汇总从各搜索引擎13-1、13-2、…13-n接收的命中数(805),并向客户单元回送该汇总的命中数。
图9是本示范实施例制订文献目录的处理流程图。客户单元11-1、11-2、…11-n接收用户对文献目录的请求(图9框901)并向通信单元12传送该请求。通信单元12向总分类单元14传送文献目录所用信息数据的起始号码及该数据待取出的数量(902)。总分类单元14请求各搜索引擎13-1、13-2、…13-n搜索作为检索结果的检索历史的信息数据。同时,总分类单元14请求搜索引擎13-1、13-2、…13-n对从{取数据的起始号}至({取数据的起始号}+{待取数据数}-1)命中段,按预定标准提供评分并送回带评分的命中数。然后,搜索引擎13-1、13-2、…13-n检索检索历史的数据(903),给检索数据评分,以评分顺序分类数据,并向总分类单元14回送要求数量的含评分检索历史数据(904),总分类单元14在分类存储单元15中存储接收的评分并以评分的顺序分类数据(905)。总分类单元14通过计算为各搜索引擎13-1、13-2、…13-n找出待取数据的起始号码和数量(906)。然后,总分类单元14向各搜索引擎13-1、13-2、…13-n传送待取数据的起始号码和数量(907)。各搜索引擎13-1、13-2、…13-n从起始号起依序读出检索历史的文献号,并从文献目录存储单元17读出与各文献号相应的文献目录数据(908)后,向总分类单元14送回读出的文献数据。总分类单元14汇总、分类从搜索引擎13-1、13-2、…13-n接收的数据并制订所要求的文献目录(909),然后向通信单元12回送。通信单元12向客户单元11-1、11-2、…11-n回送文献目录,从而过程完成(910)。
图2A至图2C表示存储在搜索引擎13-1、13-2、…13-n中,作为检索结果数据的检索历史的一个例子。这里,叙述n=3,即3个搜索引擎的例子。第1搜索引擎的检索历史21、第2搜索引擎的检索历史22、第3搜索引擎的检索历史23分别示于图2A、2B、2C。在各检索历史中,数据按评分递减的顺序分类。在这些检索历史中,当通过取从起始号为“1”开始的10个数据评分制订文献目录时,总分类单元14请求搜索引擎13-1、13-2、…13-n各取10(1+10-1=10)个待取数据的评分。搜索引擎13-1、13-2、…13-n按照请求取出10个评分的例子示于图2A、2B、2C的标号24、25和26。本例中,取出有较高评分的数据。来自第1、第2、第3搜索引擎的10个评分24、25和26分别示于图2A、2B、2C。这样,各搜索引擎可取出有较高评分的数据。
图3的表31表示图2A至2C的24、25和26中数据汇总结果的30个评分,即从3个搜索引擎各取10个检索数据的检索历史,它们由总分类单元14分类。在该例子中,因取出数据的起始号是“1”且待取数据数是“10”,具有图3号“1”至号“10”的检索数据的历史构成文献目录,向客户单元11-1、11-2、…11-n回送。图3的标号32表示由图3中标号31得到的3个搜索引擎上待取数据的起始号和数据量。在本例子中,第1搜索引擎待取出数据的起始号是“1”,数据数量是“2”,第2搜索引擎的待取出数据的起始号是“1”且数据数量是“4”;第3搜索引擎的待取数据的起始号是“1”且数据量是“4”。如上例所述,通过由总分类单元14把评分分类,可为各搜索引擎13-1、13-2、…13-n找出待取数据的起始号和数据量。
图4A至4D表示通过根据待取数据的起始号和数据数量取数据而制订文献目录的过程。
在图4A至4C中,各搜索引擎13-1、13-2、…13-n从各检索历史41、42、43中找出文献号,从文献目录存储单元17读出与这些文献号相应的文献数据并向总分类单元14回送读出的文献数据。然后,总分类单元14,通过以评分顺序分类文献数据,从搜索引擎13-1、13-2、…13-n接收的文献数据制订要求的文献目录并向通信单元12回送该文献目录。
如上所述,通过按照各检索引擎上待取数据的起始号和数据数量取出数据并对该取出数据分类,可制订文献目录。
如上所述,在本示范实施例中,即使信息检索装置使用多个搜索引擎时,通过设置总分类单元和评分存储单元,能以部分取出检索历史中的必要数据的方式,从按预定标准给予评分的数据,迅速制订要求的文献目录。
在本示范实施例中,可有各种情况,即一台计算机包括客户单元、通信单元、搜索引擎和总分类单元,但上述各单元的功能由分开的多个计算机各自执行,或者上述单元的某些功能由一台计算机执行。
同时,在本示范实施例中,通信单元保持各搜索引擎的命中数并向总分类单元传送该命中数。于是,总分类单元不请求把数据取至未命中的搜索引擎,由此,可缩短与总分类单元的通信时间。第2示范实施例
下文,参照图5和图10叙述第2示范实施例的信息检索装置。
如图5所示,本示范实施例的信息检索装置包括:客户单元51-1、51-2、…51-n,通信单元52,搜索引擎53-1、53-2、…53-n,索引存储单元56和文献目录存储单元57。上述构成部件的结构和功能与图1的第1示范实施例的相同。与第1示范实施例的不同处在于,总分类单元及评分存储单元的功能,在本示范实施例中,根据从搜索引擎的检索历史取数据的起始号,自动选择以高评分或低评分的顺序取出数据,而在第1示范实施例中,以高评分的顺序取出并存储数据。在这种情况下,根据预定标准,给各数据评分。
例如,当新的报纸文章在该文章未按日期顺序存储而希望取出时,新文章可通过从末端搜索而有效地检索。
下文叙述具有上述构成的信息检索装置的工作。
搜索文献数据命中数的过程与第1示范实施例中所述的图8的过程相同。即,客户单元51-1、51-2、…51-n向通信单元52传送用户检索请求。然后,通信单元52请求各搜索引擎53-1、53-2、…53-n搜索命中数。各搜索引擎53-1、53-2、…53-n读出并检索存储在索引存储单元56中的索引数据并向通信单元52回送命中数。通信单元52汇总从搜索引擎53-1、53-2、…53-n接收的命中数并向客户单元51回送汇总的命中数。
图10是本示范实施例中制订文献目录过程的流程图。客户单元51-1、51-2、…51-n接收用户的文献目录请求(图10的标号1001)并向通信单元52传送该请求。然后,通信单元52向总分类单元54传送取数据的起始号及待取数据数(1002)。总分类单元54请求各搜索引擎53-1、53-2、…53-n搜索检索历史的数据。
在这种情况下,当起始号大于命中总数的一半时(1004),总分类单元54请求各搜索引擎53-1、53-2、…53-n根据预定标准给位于从各历史末尾起顺序计算的位置“a”至“b”的数据评分,并把所给的评分回送给总分类单元54。在这种情况下,“b”=({总命中数}-{起始号}-{待取数据数}+2);而“a”=({总命中数}-{起始号}+1)。然后,搜索引擎53-1、53-2、…53-n检索各检索历史的数据(1003),加上评分,以评分递降的顺序分类检索数据并通过以从存储数据末尾起的位置顺序取数据,向总分类单元54回送要求数量的含评分检索历史数据(1005)。
而当取数据的起始号小于命中总数的一半时,总分类单元54请求搜索引擎53-1、53-2、…53-n,给从各检索历史始端顺序计算的{取数据的起始号}位置至({取数据的起始号}+{待取数据数}-1)位置的数据评分,并回送该评分至总分类单元54。然后,搜索引擎53-1、53-2、…53-n检索检索历史的数据,加上评分,以降序分类并通过从存储数据始端起的位置顺序取出数据,向总分类单元54回送要求数量的含评分检索历史(1006)。然后,总分类单元54汇总接收的数据并在评分存储单元55中存储数据。在这种情况下,在存储单元55中存储前,数据以下述方式分类:当接收数据是按从始端起的位置顺序取出时,评分以降序分类(1008),而当接收数据是按从末端起的位置顺序取出时,评分在升序分类(1007)。总分类单元54从上述存储数据选择要求数量的数据,并对各搜索引擎53-1、53-2、…53-n找出所取数据的起始号及待取数据量(1009)并向各搜索引擎53-1、53-2、…53-n传送这些数(1010)。然后,各搜索引擎53-1、53-2、…53-n从起始号开始按序读出检索历史的文献号,再从文献目录存储单元57读出相应于该文献号的文献(1011),向总分类单元54传送读出的文献数据。总分类单元54以评分顺序汇总并分类接收的文献数据,从而完成文献目录(1012),然后向通信单元52回送。通信单元52又把它回送至客户单元51-1、51-2、…51-n,从而过程完成(1013)。
如上所述,由于总分类单元依照文献目录数据的取出位置,从始端或末端部分取出检索历史的数据,可减少送回总分类单元的数据量。因此,可减少总分类单元分类的数据量,由此,可更迅速地得到文献目录。
在本示范实施例的上述叙述中,当取数据的起始号小于命中数据总数的一半时,在搜索引擎中以降序分类数据并按从检索历史末端起的位置顺序取出数据。但是,通过把搜索引擎的分类方法从降序变为升序,可从始端起的位置顺序取出数据。
当制订具有位于整个数据A%(A≤50)以后的文献数据的文献目录时,还有一种首先取出从末端至B%(B≤50)数据的方法。该方法在命中数大时,是较有效的检索数据方法。第3示范实施例
下文,参照图6、7和11,叙述本发明第3示范实施例的信息检索装置。
图6表示本示范实施例的信息检索装置的框图。如图6所示,本示范实施例的信息检索装置包括:客户单元61-1、61-2、…61-n,通信单元62,搜索引擎63-1、63-2、…63-n,索引存储单元67,和文献目录存储单元68。上述构成部件的结构与功能与图1的第1示范实施例的部件相同。与第1示范实施例的不同点在于,总分类单元64、评分存储单元65和评分分布存储单元66的构成和功能。在获取文献目录时,总分类单元64从各搜索引擎63-1、63-2、…63-n取出预定评分范围的命中分布信息并按各评分级汇总命中数(累加),由此,可减少从搜索引擎63-1、63-2、…63-n取出的评分数。
下文叙述具有上述构成的信息检索装置的工作。
搜索文献数据命中数的过程与第1示范实施例的图8所示相同。即,客户单元61-1、61-2、…61-n接收用户检索请求并向通信单元62传送该请求。然后,通信单元62请求各搜索引擎63-1、63-2、…63-n搜索命中数。搜索引擎63-1、63-2、…63-n从索引存储单元67读出索引数据并检索该索引数据,向通信单元62回送命中数。通信单元62汇总从搜索引擎63-1、63-2、…63-n接收的命中数并向客户单元61-1、61-2、…61-n回送汇总的命中数。
图11是本示范实施例中制订文献目录过程的流程图。首先,客户单元61-1、61-2、…61-n接收文献目录请求(图11的框1101),然后,向通信单元62传送该请求。通信单元向总分类单元64传送数据的起始号及待取数据的数量(1102)。然后,全球分类单元64请求搜索引擎63-1、63-2、…63-n以下述方式搜索检索历史的数据。即,按照使各级间包含的范围相等,把最大评分为“m”(这时最小评分为“0”)的整个命中评分划为“p”级,汇总评分不低于各级最低值的命中数,从而找出各评分级的命中分布(1103)。详细而言,搜索引擎63-1、63-2、…63-n搜索检索功史的数据(1104),找出评分不小于各评分级最低值的命中数(1105),向总分类单元64回送该结果。总分类单元64汇总接收的数据并得出汇总评分分布(1106),然后,在评分分布存储单元66中存储汇总的评分分布(1106)。从汇总的评分分布可找出取所请求文献目录数据的起始号的评分范围。根据上述结果,总分类单元64通过计算找出值小于“s”的“c”个评分及该评分的序号并请求搜索引擎63-1、63-2、…63-n再次回送检索历史数据(1107)。在这种情况下,“c”=({取数据的起始号}-{评分不小于起始号所处上述评分范围最低值的命中数}+{待取数据数}-1)。搜索引擎63-1、63-2、…63-n读出要求的数据并向总分类单元64回送读出的数据(1108)。总分类单元64以评分顺序汇总接收的数据并分类该数据,找出取数据的起始号位置(1109)并向各搜索引擎63-1、63-2、…63-n传送该起始号和待取数据的数量(1110)。各搜索引擎63-1、63-2、…63-n按照从起始号起的位置顺序读出检索历史的文献号并从文献目录存储单元68读出相应于该文献号的文献数据(1111)后,向总分类单元64回送读出数据。总分类单元64汇总从各搜索引擎63-1、63-2、…63-n接收的数据并按评分顺序分类该数据,由此制订要求的文献目录表(1112)并向通信单元62回送。通信单元62向客户单元61-1、61-2、…61-n送回文献目录表,从而完成过程(1113)。
图7A至7D表示上述评分分布的一个例子。图7A、7B和7C表示各搜索引擎中的分布,从中可找出评分不小于各评分级最低值的命中总数。然后,向分类单元64回送各分布并由总分类单元64如图7D所示加以汇总。在本例中,当取数据的起始号是501及待取数据数是20时,因评分不小于800的命中数是476而评分不小于600的命中数是750,所以起始号501的评分小于800但大于600。于是,总分类单元64从搜索引擎取出44(501-476+20-1=44)个评分(其评分值小于800)及相应的序号。总分类单元64以降序分类接收的评分并从第25(501-476)起取20个评分。然后,总分类单元64从搜索引擎63-1、63-2、…63-n取出要求的文献目录的数据。
在第3示范实施例中,按照使各级间包含的范围相等,把检索历史分成“p”级,它可根据命中数改变。当命中数大时,“p”设置得大,而当命中数小时,“p”设置得小。而且,“p”可以调节成使各评分范围内的命中数变得大致彼此相等。
同时,在第3示范实施例中,总分类单元可根据命中数及要求的文献目录的取出位置,组合第1和第2示范实施例的方法进行检索。例如,当命中数小(如约100)时,检索最好以第1示范实施例的方式进行而不必做出评分分布。即使选中数大,若待取数据仅是从始端起大约20时,也最好用第1示范实施例的方法进行检索而不必作出评分分布。
第3示范实施例中,在总分类单元把最大评分值设定为“m”。“m”值可是搜索命中数时最大评分值中的一个。
在第1示范实施例中,根据为表明检索请求和文献数据之间关系而加的评分进行检索历史分类。评分可以是日期等第2和第3示范实施例可用的数字信息。
如上所述,本发明可取得下述效果。
首先,本发明的信息检索装置包括多个各自可独立检索文献数据,制订文献目录并根据预定标准分类检索所得文献数据的搜索引擎、存储执行检索用的索引数据的索引存储单元、存储文献目录数据的文献目录存储单元,和分类由搜索引擎检索的全部数据的总分类单元。在上述构成中,能用部分取出各搜索引擎检索数据(即按照从始端起的位置顺序取出预定量数据)的方法,迅速制订文献目录。在这种情况下,根据按预定标准加至各数据的评分分类数据。
第二,在从位于全部检索数据后半部分的数据获得文献目录时,总分类单元按从未端起的位置顺序取搜索引擎检索的数据。换句话说,总分类单元根据从待取数据始端或末端待取数据的位置号及数据量,部分取出各搜索引擎的检索历史中的数据。用这种方法,可迅速制订文献目录。
第三,总分类单元首先从各搜索引擎接收命中分布,即,按照使各级间包含的范围相等,把评分划分p级(p是不小于2的整数),并汇总评分不小于各级最低值的数据数,由此,可找出所要求文献目录的数据所处的范围。基于此,总分类单元再次从各搜索引擎取命中分布。由该分布,通过计算可找出所需数据的位置,从而部分取出评分。用这种方法,可迅速制订所需的文献目录。
Claims (15)
1、一种信息检索装置,其特征在于包括:
(a)多个索引存储单元,每个用于存储索引信息数据;
(b)多个文献目录存储单元,每个用于存储文献目录信息数据;
(c)多个搜索引擎,可各自检索存储在所述索引存储单元中的所述索引信息数据,获得作为检索结果的命中数,检索存储在所述文献目录存储单元中的文献目录信息数据,根据预定标准给所述检索的文献目录信息数据评分,并以所述评分顺序分类所述检索的文献目录信息数据;
(d)总分类单元,该单元选择一些检索的文献目录信息数据,汇总所述选择的数据,根据所述搜索引擎所加的评分分类所述汇总的数据,根据所述分类的数据制定表,所述表根据所述评分整理。
2、如权利要求1所述的信息检索装置,其特征在于,进一步包括:
(a)处理检索请求的客户单元;
(b)通信单元,该单元向所述搜索引擎和所述总分类单元传送经所述客户单元的所述检索请求,并向所述客户单元回送所述搜索引擎和所述总分类单元进行的分类结果。
3、如权利要求1所述的信息检索装置,其特征在于,所述总分类单元,当所述信息数据由所述搜索引擎以降序分类时,从所述分类结果的始端起从所述搜索引擎获得一些所述分类数据;当数据信息数据以升序分类时,从所述分类结果的末端起从所述搜索引擎获得一些所述分类数据。
4、如权利要求2所述的信息检索装置,其特征在于,所述通信单元保持各搜索引擎的命中数,不请求不命中的来自所述搜索引擎的检索数据。
5、如权利要求1所述的信息检索装置,其特征在于,当取出位于作为检索结果的命中的后半部的所述信息数据时,若所述信息数据由所述搜索引擎以降序分类,则所述总分类单元从未端起从所述搜索引擎取出一些所述分类信息数据;若所述信息数据由所述搜索引擎以升序分类,则从始端起取出一些所述分类信息数据。
6、如权利要求1所述的信息检索装置,其特征在于,所述总分类单元(a)按照使各级间包含的范围相等,把最大评分划为“p”级;(b)从所述搜索引擎取出评分不小于各评分级最低值的所述信息数据的命中数;(c)汇总所述命中数;(d)根据文献目录的所述数据的位置制订文献目录表;其中“p”是不小于2的整数。
7、如权利要求6所述的信息检索装置,其特征在于,“p”根据命中数设置。
8、如权利要求1所述的信息检索装置,其特征在于,所述总分类单元,以下述两种方法之一,从所述搜索引擎接收一些所述信息数据;
(a)当所述信息数据由所述搜索引擎以降序分类时,从始端起取出信息数据,和
(b)当所述信息数据由所述搜索引擎以升序分类时,从末端起取出信息数据;及
从所述搜索引擎取出评分不小于各评分级最低值的所述信息数据命中数,所述评分级设置成,按照使各级间包含的范围相等,把全部评分划成“p”级,其中“p”是不小于2的整数。
9、如权利要求1所述的信息检索装置,其特征在于,所述总分类单元包括存储从所述各搜索引擎接收的评分的评分存储单元。
10、如权利要求1所述的信息检索装置,其特征在于,所述总分类单元进一步包括存储从所述各搜索引擎获得的所述命中数分布的评分分布存储单元。
11、如权利要求1所述的信息检索装置,其特征在于,当取位于从所述全部命中数始端起大于A%的后半部分的信息数据时,若所述信息数据以降序分类,则所述总分类单元从所述搜索引擎取出从所述分类信息数据未端至B%该分类信息数据的预定数量所述信息数据;若所述数据以升序分类,则取出从所述分类数据始端至B%该分类数据的预定数量所述信息数据;其中A≤50、B≤50。
12、一种检索信息的方法,其特征在于包括下述步骤:
(a)检索信息数据;
(b)给所述检索的信息数据评分并按所加评分的顺序分类加有评分的所述信息数据;
(c)汇总一些所述分类的信息数据,以所加评分的顺序分类汇总的所述信息数据,通过从所述分类的信息数据始端起按序使用一些所述信息数据制订文献目录表。
13、如权利要求12所述的检索信息方法,其特征在于,进一步包括下述步骤:当所述信息数据由所述各搜索引擎按降序分类时,从所述分类结果始端起按序从所述搜索引擎取出一些所述分类信息数据;当所述信息数据按升序分类时,从所述分类结果末端起按序取出一些所述分类信息数据。
14、如权利要求12所述的检索信息方法,其特征在于,进一步包括下述步骤:按照使各级间包含的范围相等,把最大评分划分“p”级;从所述搜索引擎取出评分不小于各评分级最低值的所述信息数据的命中数;汇总所述命中数;根据文献目录的数据位置制订文献目录表;其中“p”是不小于2的整数。
15、如权利要求12所述的检索信息方法,其特征在于,进一步包括下述步骤:
(a)并行检索索引数据并传送作为检索结果的命中数;
(b)取出所述信息数据;给所述信息数据评分;分类加有所述评分的所述信息数据;
(c)取出一些所述分类的信息数据;汇总所述信息数据;分类加有评分的信息数据;通过从所述分类的信息数据始端起以所加评分的顺序使用一些所述信息数据制订文献目录。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP066585/1998 | 1998-03-17 | ||
JP066585/98 | 1998-03-17 | ||
JP06658598A JP3564999B2 (ja) | 1998-03-17 | 1998-03-17 | 情報検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1229218A CN1229218A (zh) | 1999-09-22 |
CN1114880C true CN1114880C (zh) | 2003-07-16 |
Family
ID=13320180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 99104149 Expired - Fee Related CN1114880C (zh) | 1998-03-17 | 1999-03-17 | 信息检索装置和方法 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP3564999B2 (zh) |
CN (1) | CN1114880C (zh) |
HK (1) | HK1022538A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100410936C (zh) * | 2004-03-23 | 2008-08-13 | 株式会社东芝 | 可用于数据搜索的数据分类系统和方法 |
CN100520777C (zh) * | 2004-05-19 | 2009-07-29 | 索尼株式会社 | 信息处理装置和信息处理方法 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NO992269D0 (no) * | 1999-05-10 | 1999-05-10 | Fast Search & Transfer Asa | S°kemotor med todimensjonalt skalerbart, parallell arkitektur |
KR20000006664A (ko) * | 1999-09-29 | 2000-02-07 | 문성일 | 엔드유저 컴퓨터에 세팅되는 메타검색엔진 |
KR100382600B1 (ko) * | 2000-01-31 | 2003-05-01 | 주식회사 제이.이.씨 | 네트워크 시스템을 이용한 통합웹검색서비스 제공방법 및그 방법을 기록한 컴퓨터로 읽을 수 있는 기록매체 |
JP3555869B2 (ja) | 2000-09-28 | 2004-08-18 | Necソフト株式会社 | 暗号化ファイル検索方法及びその装置並びにコンピュータ可読記録媒体 |
AUPR894801A0 (en) * | 2001-11-20 | 2001-12-13 | Unisearch Limited | A system and method for searching data sources |
US9805032B2 (en) | 2002-06-14 | 2017-10-31 | Koninklijke Philips N.V. | Client-server protocol |
CN100401300C (zh) * | 2006-04-29 | 2008-07-09 | 上海世纪互联信息系统有限公司 | 具有自动分类功能的搜索引擎 |
CN100456293C (zh) * | 2006-10-19 | 2009-01-28 | 腾讯科技(深圳)有限公司 | 一种信息快捷搜索客户端、系统及方法 |
JP5374881B2 (ja) * | 2008-02-05 | 2013-12-25 | 日本電気株式会社 | 情報検索システム、情報検索方法およびプログラム |
WO2010001464A1 (ja) * | 2008-07-01 | 2010-01-07 | 富士通株式会社 | 検索装置および検索方法 |
JP2010092401A (ja) * | 2008-10-10 | 2010-04-22 | Panasonic Corp | ネットワーク機器、機器、その情報検索方法、およびそのプログラム |
US20110213771A1 (en) * | 2008-11-18 | 2011-09-01 | Kyota Kanno | Hybrid search system, hybrid search method, and hybrid search program |
CN101546342B (zh) * | 2009-05-08 | 2012-07-04 | 阿里巴巴集团控股有限公司 | 实现搜索服务的方法与系统 |
JP5281516B2 (ja) * | 2009-08-18 | 2013-09-04 | 日本電信電話株式会社 | 文書格納装置及び文書格納プログラム |
JP6027473B2 (ja) * | 2013-03-25 | 2016-11-16 | 株式会社Nttドコモ | コンテンツ検索結果提供装置、コンテンツ検索結果提供方法、及びコンテンツ検索結果提供システム |
CN116910232B (zh) * | 2023-09-13 | 2024-01-09 | 之江实验室 | 天文文献检索方法和天文文献搜索方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3395208B2 (ja) * | 1991-07-10 | 2003-04-07 | 株式会社日立製作所 | 分散データベースのソート方法およびアクセス方法 |
JPH1021250A (ja) * | 1996-06-14 | 1998-01-23 | Infoseek Corp | 複数個のデータベースを探索する方法および複数個のデータベース間で文献を探索する方法 |
-
1998
- 1998-03-17 JP JP06658598A patent/JP3564999B2/ja not_active Expired - Fee Related
-
1999
- 1999-03-17 CN CN 99104149 patent/CN1114880C/zh not_active Expired - Fee Related
-
2000
- 2000-03-01 HK HK00101297A patent/HK1022538A1/xx not_active IP Right Cessation
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100410936C (zh) * | 2004-03-23 | 2008-08-13 | 株式会社东芝 | 可用于数据搜索的数据分类系统和方法 |
CN100520777C (zh) * | 2004-05-19 | 2009-07-29 | 索尼株式会社 | 信息处理装置和信息处理方法 |
Also Published As
Publication number | Publication date |
---|---|
JPH11265393A (ja) | 1999-09-28 |
JP3564999B2 (ja) | 2004-09-15 |
CN1229218A (zh) | 1999-09-22 |
HK1022538A1 (en) | 2000-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1114880C (zh) | 信息检索装置和方法 | |
CN1389811A (zh) | 搜索引擎的智能化搜索方法 | |
US8117256B2 (en) | Methods and systems for exploring a corpus of content | |
Gauch et al. | ProFusion*: Intelligent fusion from multiple, distributed search engines | |
US8707313B1 (en) | Scheduler for search engine crawler | |
US6411950B1 (en) | Dynamic query expansion | |
CN1858733A (zh) | 信息检索系统和检索方法 | |
US6321228B1 (en) | Internet search system for retrieving selected results from a previous search | |
US8027974B2 (en) | Method and system for URL autocompletion using ranked results | |
CN1752980A (zh) | 搜索结构化文档的设备和方法 | |
CN101639831B (zh) | 一种搜索方法、装置及系统 | |
CN1818908A (zh) | 一种在搜索引擎中应用搜索者反馈信息的方法 | |
US20060041606A1 (en) | Indexing system for a computer file store | |
CN1809803A (zh) | 将异源的搜索引擎结果混合为一个搜索结果的方法与系统 | |
CN101079064A (zh) | 一种网页排序方法及装置 | |
US20090077078A1 (en) | Methods and systems for merging data sets | |
RU2003105262A (ru) | Способ поиска и выборки информации с повышенной релевантностью | |
GB2439843A (en) | Relevance ranked faceted metadata search method | |
CN101136027B (zh) | 用于数据库索引、搜索和数据检索的系统和方法 | |
WO2009039392A1 (en) | A system for entity search and a method for entity scoring in a linked document database | |
CN1916905A (zh) | 基于倒排表进行检索提示的方法 | |
CN101051309A (zh) | 在数字图书馆中所采用的检索系统和检索方法 | |
US7840557B1 (en) | Search engine cache control | |
CN108228663A (zh) | 一种分页检索方法及装置 | |
US6711569B1 (en) | Method for automatic selection of databases for searching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20030716 Termination date: 20100317 |