CN1417709A - 信息检索系统及其信息检索方法 - Google Patents

信息检索系统及其信息检索方法 Download PDF

Info

Publication number
CN1417709A
CN1417709A CN02149848A CN02149848A CN1417709A CN 1417709 A CN1417709 A CN 1417709A CN 02149848 A CN02149848 A CN 02149848A CN 02149848 A CN02149848 A CN 02149848A CN 1417709 A CN1417709 A CN 1417709A
Authority
CN
China
Prior art keywords
key word
mark
retrieval
html
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN02149848A
Other languages
English (en)
Inventor
寺西俊裕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN1417709A publication Critical patent/CN1417709A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

为了提供能够轻易地发现类似于用户最喜爱网站的信息检索系统,而与每个用户和在获得信息步骤获得的检索结果没有差别。HTML文件获得装置从互联网网站获得HTML文件。还原密钥提取装置分析用户指定URL所示HTML文件的内容和提取关键字作为还原密钥。检索结果存储装置根据提取的还原密钥检索索引表和存储检索结果。检索结果显示装置改造检索结果用于用户看到和输出结果。计分装置计算HTML标记和关键字的分数。索引表存储装置存储提取的索引。

Description

信息检索系统及其信息检索方法
技术领域
本发明涉及一种信息检索系统和用于该系统的信息检索方法,更具体地涉及检索公开具体内容的网站的方法。
背景技术
按常规,在使用互联网的方法中,当输入用作还原密钥的关键字时,使用利用关键字检索的搜索引擎,其中希望的内容在网络浏览器中公开。
在这种情况下,因为检索过程利用搜索引擎中输入的关键字进行,用户选择关键字和规定检索条件是有效检索的关键点。利用用户输入关键字的检索方法在日本专利2001-52014中公开。
但是,因为在检索方法中使用用户输入的关键字,检索结果依赖用户选择的关键字,所以存在这样一个问题,即每个用户获得的检索结果和获得信息的步骤在每种情况下都不同。
发明内容
本发明的目的在于解决上述的问题,提供一种信息检索系统和用于该系统的信息检索方法,其能够轻易地检索到类似于用户最喜爱网站的站点,而不必改变每个用户获得的任何检索结果和获得信息的步骤。
根据本发明的信息检索系统是一种检索由超文本文件所表示内容的记录网站的信息检索系统,包括:提取装置,用于从外部规定的超文本文件中提取关键字;和检索装置,用于利用提取装置提取的关键字检索内容的记录网站。
根据本发明的信息检索方法是一种检索由超文本文件所表示内容的记录站点的信息检索方法,包括:从外部规定的超文本文件中提取关键字的步骤;和利用提取的关键字检索内容的记录网站的步骤。
也就是说,根据本发明的网站检索系统(信息检索系统)可以轻易地检索到类似于用户指定网站的网站。
在根据本发明的网站检索系统中,用户可以检索到类似于指定网站的网站而不必输入关键字。因此,可以不必烦恼关键字选择的执行检索过程。
根据本发明,可以省略输入关键字的步骤,从而能够利用装有浏览器的小移动信息终端(例如,PDA(个人数字助理)等等)和手持电话机等等更容易地执行检索,这些终端通常对输入字符的装置具有严格的限制。
在根据本发明的网站检索系统中,关键字可以自动地从规定网站的HTML文件提取,控制信息也可以提取。在这种情况下,不仅可以考虑规定网站的内容,还可以考虑包含在用于规定网站的HTML(超文本标记语言)的控制信息,例如,标记的相似性等等。因此,相比较只使用关键字的情况,可以检索到更相似的网站,从而更容易地执行检索过程。
附图说明
图1是根据本发明第一个实施方式的网站检索系统配置的方框图;
图2是根据本发明第一个实施方式的产生网站检索系统中的索引表的过程流程图;
图3是根据本发明第一个实施方式的网站检索系统中的相似网站检索过程的流程图;
图4表示图1所示网络浏览器的显示屏;
图5表示在图4所示网络浏览器显示屏的URL输入的例子;
图6表示根据本发明第二实施方式的网站检索系统中显示屏的例子;
图7是根据本发明第二实施方式的网站检索系统的操作流程图;
图8表示根据本发明第二实施方式的网站检索系统中显示屏的另一个例子;和
图9表示根据本发明第三实施方式的网站检索系统中显示屏的例子。
具体实施方式
然后,本发明的实施方式将在下文参照附图描述。图1是根据本发明第一个实施方式的网站检索系统配置的方框图。在图1中,根据本发明第一实施方式的网站检索系统包括用户终端1和检索服务器2,用户终端1和检索服务器2分别连接到互联网100。网络(WWW(全球网)的缩写)网站(也称为WWW服务器)6连接到互联网100。
用户终端1包括计算机,网络浏览器10可以作为互联网用户(以下简称为用户)的接口工作。网络浏览器10主要提供用户接口11的功能。用户接口11包括超级文本标志语言(超文本标记语言)显示装置12、字符输入装置13、和检索方法规定装置14。用户终端1不局限于个人计算机,而可以是装载有浏览器的小的移动信息终端(例如,PDA(个人数字助理)等等)和手持电话机等等,只要可以操作网络浏览器10。
URL(通用资源定位器)利用字符输入装置13输入到网络浏览器10。检索方法规定装置14提供一用户接口,来使用根据本实施方式的检索方法。
检索服务器2处理来自网络浏览器10的请求。检索服务器2是一网站,例如装有搜索引擎的门户网站,包括相似网站检索装置3和索引表产生装置4。
相似网站检索装置3提供实现根据本实施方式检索方法的装置,包括HTML文件获得装置31、还原密钥提取装置、检索结果存储装置32和检索结果显示装置33。
HTML文件获得装置31获得来自互联网100存在的网站6的HTML文件。HTML文件获得装置31在执行相似网站检索时获得URL规定的HTML文件,当索引表产生装置4产生索引表时,利用机器人等等全面收集来自互联网100网站6的HTML文件。
还原密钥提取装置5分析用户指定URL所示HTML文件的内容和提取关键字作为还原密钥。提取关键字的方法可以是由关键字提取装置利用形态分析从HTML文件提取词素(词性)的方法,词素可以是关键字,例如名词等等。
当一名词从HTML文件提取为关键字,通常考虑从HTML文件提取多个关键字。当提取多个关键字时,关键字集被用作还原密钥。
还原密钥提取装置5包括检测包含在HTML文件中的控制信息的装置。根据本实施方式,它包括HTML标记信息提取装置52,作为检测控制信息的装置。关于HTML标记的信息由HTML标记信息提取装置52提取,HTML文件所用每个HTML标记的特征也被提取。
检索结果存储装置32根据还原密钥提取装置5提取的还原密钥检索索引表,和存储器检索中获得的检索结果。检索结果显示装置3 3改造保存在检索结果存储装置32的检索结果,以使用户可以很容易看到检索结果,然后输出改造后的结果。当存在多个检索结果时,多个HTML文件由计分装置41排列,因此文件可以按顺序显示。当网络浏览器10被用作显示接口时,提供从HTML文件的检索服务器输出响应的功能。
索引表产生装置4包括与相似网站检索装置3共享的还原密钥提取装置5,计分计算装置41用于计算所提取HTML标记和关键字的分数,索引表存储装置42存储已提取的索引和产生要求实现相似网站检索的索引表。
作为相似网站检索装置3,还原密钥提取装置5提取HTML标记和关键字作为还原密钥。计分装置41计算表示已提取HTML标记和关键字优先级的分数和分别为HTML标记和关键字分配权值。也就是说,执行这样的计算,即关键字和HTML标记越重要,分数越高,关键字和HTML标记越不重要,分配的分数越低。根据本实施方式,不规定计分方法。
分配给关键字和HTML标记的分数记录在保存在存储装置42的索引表中。当执行检索时,相似网站检索装置3参照索引表。
图2是根据本发明第一个实施方式的产生网站检索系统的索引表的过程流程图。根据本发明第一实施方式的产生网站检索系统中的索引表的处理将在下文参照图1和2描述。为了实现根据本实施方式的检索方法,应当预先产生索引表。
首先,HTML文件获得装置31全面收集要检索网站6中的HTML文件(图2的步骤S1)。HTML文件由HTML文件收集机器人收集,以便收集互联网100中所有的文件。但是,在本实施方式中,不规定收集HTML文件的范围。
还原密钥提取装置5的HTML标记信息提取装置52从HTML文件获得装置31收集的每个HTML文件提取HTML标记,和获得正使用的的标记信息(图2所示的S3)。HTML标记利用脚本语言,例如Perl(实际提取和报告语言)等等提取。
然后,还原密钥提取装置5的关键字提取装置51从HTML文件提取关键字作为还原密钥(图2所示的步骤S4)。在提取关键字中,通过自然语言过程,例如形态分析从HTML文件中提取词素(一部分语音),例如名词(词组)等等。
因为一具体HTML标记规定的字符串,例如由充当文件摘要信息的TITLE标记封闭的字符串、显示为用规定加强的大字符的字符串可以是重要的关键字,这种字符串可以提取为关键字。
计分装置41为在步骤S3和S4提取的HTML标记和关键字计分,从提取的HTML标记和关键字选择用作重要索引的还原密钥的HTML标记和关键字(图2所示的步骤S5)。因为在提取的HTML标记或与HTML文件内容无关的标记中存在调整布局和风格的标记,对已提取HTML标记和关键字执行这样的处理,即HTML标记和关键字越重要,分配的分数越高,HTML标记和关键字越不重要,分配的分数越低。
在步骤S3和S4提取的HTML标记和关键字清楚地反映了它们所提取的HTML文件内容,当检索HTML文件时可以是索引。此后,该索引表示从HTML文件提取的HTML标记和关键字。
索引表产生装置4由在索引表中记录在步骤S3到S5的过程中获得的索引和HTML文件(图2所示的步骤S6)之间的对应关系更新索引表,和对所有收集的HTML文件执行步骤S3到S5的过程(图2所示的步骤S7)。
由HTML文件获得装置31收集的所有HTML文件在一循环过程重复上述的过程来处理。此外,已更新的索引表最终保存在索引表存储装置42。
作为本发明第一实施方式的变型,计分装置41计算由还原密钥提取装置5提取的HTML标记和关键字的分数,而是只计算关键字的分数。在这种情况下,计分装置41计算表示已提取关键字优先级的分数,和向每个关键字分配一权值。
也就是说,执行这样的计算,即关键字越重要,分配的分数越高,关键字越不重要,分配的分数越低。提取的关键字清楚地反映它们所提取的HTML文件的内容和当检索到HTML文件时可以是一个索引。该索引表示从HTML文件提取的关键字。
图3是根据本发明第一个实施方式的网站检索系统的相似网站检索过程的流程图。图4表示图1所示网络浏览器10的显示屏。图5表示在图4所示网络浏览器10的显示屏上URL的输入的例子。参见图1、图3到图5,根据本发明第一实施方式的网站检索系统的相似网站检索过程描述如下。在此过程中,从每个HTML文件提取的HTML标记和关键字被用作索引。
首先,假设用户利用网络浏览器10看到互联网100的网站6(图3所示的步骤S11)。此时,如果用户发现最喜爱的网站,和执行相似网站检索,以便检索到类似于最喜爱网站的网站(图3所示的步骤S12)。
下文描述的是当用户喜欢公告牌系统(BBS)时执行的相似网站检索,其中例如进行新产品,例如移动电话机的讨论和试图查找相似的网站。
当执行相似网站检索时,网络浏览器10将用户规定的URL(最喜爱网站的URL)传送到检索服务器2(图3所示的步骤S13)。此时,网络浏览器10有必要预先存入要传送请求的检索服务器2的URL。
在根据本实施方式的网络浏览器10中,假定已经合并插入式相似网站检索。当合并插入时,例如如图4所示,假设例如“执行相似网站检索”的菜单可以增加到网络浏览器10编辑菜单的列表。
通过选择和执行“执行相似网站检索”菜单,用户指定的URL从网络浏览器10传送到检索服务器2。当合并用于相似网站检索的时,网络浏览器10传送HTTP(超文本传输协议)到检索服务器2(获得http://′IP address of retrieval server/cgi-bin/retrieval?url′URL to be retrieved′HTTP/1.0)如图5所示。
一从网络浏览器10收到图5所示的请求,检索服务器2由HTML文件获得装置31获得由“要检索的URL”规定的HTML文件(图3所示的步骤S14)。
当检索服务器2获得指定的HTML文件时,它由HTML标记信息提取装置52从获得的HTML文件中提取HTML标记,和由关键字提取装置提取的关键字(图3所示的步骤S15)。
也就是说,HTML标记和关键字从用户正在浏览的′讨论移动电话机公告牌′的HTML文件中提取。在′讨论移动电话机的公告牌′的HTML文件的情况下,期待提取的关键字是:来自HTML标记的TITLE标记中的字符串的′公告牌′、来自HTML文件的内容的′新产品名称′、′通信公司名称′、′制造商名称′、′价格′、′价值′、′功能′、′振铃音′、′液晶′、′邮件′等等。
提取的关键字越多,可以提取的HTML文件的内容和主题(在这种情况下,用于讨论移动电话机的公告牌)越多。利用关键字集作为还原密钥,检索可以开始,用于讨论相似主题的BBS网站可以检索。
保存在索引表存储装置42的索引表利用从HTML文件提取的HTML标记和关键字的还原密钥检索(图3所示的步骤S16)。还原密钥找到(应用)的检索结果保存在检索结果存储装置中。检索结果是否找到(应用于)还原密钥由还原密钥是不是索引表中的索引确定。
例如,当′公告牌′、新产品名称′、′通信公司名称′、′制造商名称′、′价格′、′价值′、′功能′、′令牌环′、′液晶′、′邮件′等等从′用于讨论移动电话机′的HTML文件中提取为还原密钥,它校验该还原密钥是否已经记录为索引表中的索引。
如果当参照检索结果存储装置32时没有检索结果(图3所示的步骤S17),然后′没有相似网站′显示在网络浏览器10上(图3所示的步骤S19)。
如果检索结果存储装置32中有一个以上的检索结果(图3所示的步骤S17),则检索结果显示装置33向网络浏览器10传送检索结果,该检索结果显示在上面(图3所示的步骤S18)。
如果存在多个检索结果,根据任何参考执行计分,检索结果可以从最高分依次显示。例如,计算可以这样执行,即包含越多标记和关键字作为还原密钥的检索结果(相似网站)分数越高,此结果可以在检索结果显示装置33显示的越高。但是,根据本实施方式,不规定计分方法。
在上述的操作中,相似网站检索可以在根据本实施方式的网站检索系统中执行。
因此,因为用户可以检索到与用户正在浏览的网站内容相似的网站(相似网站),所以可以轻易检索到最喜爱的相似网站。
此外,因为相似网站检索可以不必输入任何关键字执行,所以当用户请求检索相似网站时用户可以立即执行相似网站检索。
另外,因为关键字由检索服务器2自动提取,可以省略输入关键字的麻烦操作,根据网站内容可以提取多个关键字。
另外,不仅自动提取关键字,而且考虑到用于网站的标记信息。可以检索到更多的相似网站。
在上述本发明的实施方式中,标记信息提取为控制信息,但控制信息不局限于标记信息。例如可以提取表示字符位置或特征的控制信息。
图6表示根据本发明第二实施方式的网站检索系统中显示屏的例子。在本发明的第一实施方式中,检索到与正在显示的网站内容相似的网站。但是,根据第二实施方式,如图6所示,识别出锚点显示(anchor-displayed)链接,根据链接目标的URL执行相似网站检索。
图7是根据本发明第二实施方式的网站检索系统的操作流程图。图8表示根据本发明第二实施方式的网站检索系统中显示屏的另一个例子。参见图6到8,描述了根据本发明第二实施方式的网站检索系统的操作。根据本发明第二实施方式的网站检索系统在结构上与图1所示的网站检索系统相同。
根据第二实施方式,假设附图中未示出的鼠标被用作规定链接的指示设备,同时用户利用网络浏览器10观看网站。当用户利用网络浏览器10浏览网站时,显示在网络浏览器10上的鼠标指针利用鼠标在网络浏览器10上移动(图7所示的步骤S21)。
此时,当不单击鼠标右键时(图7所示的步骤S22),鼠标指针继续在网络浏览器上移动直到按下鼠标右键。当单击鼠标右键时(图7所示的步骤S22),确定鼠标指针是否指向锚点显示链接(图7所示的步骤S23)。
如果鼠标指针指向锚点显示链接,则图6所示的′利用链接目标的URL执行相似网站检索′通过按右键显示在菜单上(图7所示的步骤S27)。
当用户选择和确定′利用链接目标的URL执行相似网站检索′时(图7所示的步骤S28),相似网站检索利用链接目标的URL执行(图7所示的步骤S29)。
如果鼠标指针没有指向锚点显示链接,那就是说,如果它指向除锚点显示链接之外的区域,则图8所示的′执行相似网站检索′通过按右键显示在菜单上(图7所示的步骤S24)。
当用户选择和确定′执行相似网站检索′时(图7所示的步骤S25),利用正在显示的网站URL执行相似网站检索(图7所示的步骤S26)。
相似网站检索方法与根据本发明第一实施方式的网站检索系统方法相同。如果响应来自于检索服务器2,则检索结果显示在网络浏览器10上(图7所示的步骤S30)。
图9表示根据本发明第三实施方式的网站检索系统中显示屏的例子。在根据本发明第三实施方式的网站检索系统的检索方法中,当执行检索时规定URL。因此,如果URL可以规定,则相似网站检索可以立即执行。
因此,如图9所示,当用户选择记录在网络浏览器10的书签上的URL时,相似网站检索能力可以通过按鼠标右键执行。相似网站检索方法与根据本发明第一实施方式的网站检索系统方法相同。
如上所述,本发明可以得到轻易发现类似于最喜爱网站的效果,而与每个用户或在获得信息的步骤中获得的检索结果没有差别,即利用在网站检索系统中从外部规定网站的HTML文件提取的关键字检索网站,该网站检索系统用于检索公开了HTML文件所表示内容的网站。

Claims (10)

1.一种检索由超文本文件所表示内容的记录网站的信息检索系统,包括:
提取装置,用于从外部规定的超文本文件提取关键字;和
检索装置,用于利用所述提取装置提取的所述关键字检索内容的记录网站。
2.根据权利要求1的信息检索系统,其中所述提取装置从由包含在所述外部规定的超文本文件中的预定控制信息规定的字符串提取所述关键字。
3.根据权利要求1的信息检索系统,进一步包括计算装置,用于计算表示由所述提取装置提取的所述关键字优先级的分数。
4.根据权利要求3的信息检索系统,其中所述计算装置从通过分配所述分数和分配预定权值到预定控制信息的所述提取关键字以及从控制信息规定的字符串提取的所述关键字选择用作还原密钥的关键字。
5.根据权利要求4的信息检索系统,进一步包括存储装置,用于在组合所述关键字与被提取所述关键字的超文本文件之后存储控制信息和由所述计算装置计算所述分数的所述关键字,
其中所述检索装置通过搜索所述存储装置检索内容的记录网站。
6.根据权利要求2的信息检索系统,其中所述提取装置提取包含在所述超文本文件的标记信息作为所述控制信息,和从标记信息规定的字符串提取所述关键字。
7.一种检索由超文本文件所表示内容的记录网站的信息检索方法,包括步骤:
从外部规定的超文本文件中提取关键字;和
利用所述提取的关键字检索内容的记录网站。
8.根据权利要求7的信息检索方法,进一步包括计算表示所述提取关键字和包含在所述外部规定超文本文件的标记信息优先级分数的计算步骤。
9.根据权利要求8的信息检索方法,其中所述计算步骤向更重要的HTML(超文本标记语言)标记和关键字分配更高分,较不重要的HTML标记和关键字分配较低的分数,因此还原密钥可以选择为重要的索引。
10.根据权利要求9的信息检索方法,其中搜索存储装置,该存储装置存储组合所述关键字与从中被提取的所说关键字已被检索的HTML文件之后分配所述分数的所述HTML标记和所述关键字,因此可以检索到内容的记录网站。
CN02149848A 2001-11-07 2002-11-07 信息检索系统及其信息检索方法 Pending CN1417709A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2001341330 2001-11-07
JP341330/2001 2001-11-07
JP295531/2002 2002-10-09
JP2002295531A JP2003208434A (ja) 2001-11-07 2002-10-09 情報検索システム及びそれに用いる情報検索方法

Publications (1)

Publication Number Publication Date
CN1417709A true CN1417709A (zh) 2003-05-14

Family

ID=26624386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN02149848A Pending CN1417709A (zh) 2001-11-07 2002-11-07 信息检索系统及其信息检索方法

Country Status (4)

Country Link
US (1) US20030088559A1 (zh)
EP (1) EP1310884A3 (zh)
JP (1) JP2003208434A (zh)
CN (1) CN1417709A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100437561C (zh) * 2003-12-17 2008-11-26 国际商业机器公司 电子文档的处理方法和装置及其系统
WO2008154873A1 (fr) * 2007-06-20 2008-12-24 Huawei Technologies Co., Ltd. Procédé, système d'association de publicités dans un moteur de recherche vertical et dispositif d'extraction de mots-clés
CN102073675A (zh) * 2009-11-20 2011-05-25 索尼公司 信息处理装置、信息处理方法、程序和信息处理系统
CN101317174B (zh) * 2005-11-30 2012-02-01 微软公司 使用网络地址提供聚焦搜索的方法和系统
US8515887B2 (en) 2005-11-10 2013-08-20 Koninklijke Philips Electronics N.V. Decision support system with embedded clinical guidelines
US10346414B2 (en) 2013-10-21 2019-07-09 Xi'an Zhongxing New Software Co. Ltd. Information collection method and device

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7640267B2 (en) 2002-11-20 2009-12-29 Radar Networks, Inc. Methods and systems for managing entities in a computing device using semantic objects
US7433876B2 (en) 2004-02-23 2008-10-07 Radar Networks, Inc. Semantic web portal and platform
US7606793B2 (en) 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US7644107B2 (en) * 2004-09-30 2010-01-05 Microsoft Corporation System and method for batched indexing of network documents
JP2006236221A (ja) * 2005-02-28 2006-09-07 Kazuhiko Mori ウエブページ検索のための管理サーバ装置
DE102006057525A1 (de) * 2006-12-06 2008-06-12 Siemens Ag Verfahren zur Ermittlung von zumindest zwei ähnlichen Webseiten
JP4810469B2 (ja) 2007-03-02 2011-11-09 株式会社東芝 検索支援装置、プログラム及び検索支援システム
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US7895181B2 (en) * 2008-02-01 2011-02-22 Intuit Inc. Configuration-based search
US8812493B2 (en) 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US10025855B2 (en) 2008-07-28 2018-07-17 Excalibur Ip, Llc Federated community search
US8200617B2 (en) 2009-04-15 2012-06-12 Evri, Inc. Automatic mapping of a location identifier pattern of an object to a semantic type using object metadata
WO2010120925A2 (en) 2009-04-15 2010-10-21 Evri Inc. Search and search optimization using a pattern of a location identifier
WO2010120934A2 (en) 2009-04-15 2010-10-21 Evri Inc. Search enhanced semantic advertising
CN102105875B (zh) * 2009-07-15 2013-05-01 呢哦派豆株式会社 用于提供全面主页服务的系统和方法
JP2010134952A (ja) * 2010-01-20 2010-06-17 Seiko Epson Corp 画像データの管理
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
CN102541862B (zh) 2010-12-14 2014-05-07 阿里巴巴集团控股有限公司 跨网站的信息显示方法及系统
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
JP7290304B2 (ja) * 2017-12-08 2023-06-13 株式会社ダハ 検索システム

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0510634B1 (en) * 1991-04-25 1999-07-07 Nippon Steel Corporation Data base retrieval system
JP2000506650A (ja) * 1996-03-15 2000-05-30 エイ・ティ・アンド・ティ・コーポレーション 電子メッセージから取り出した資源評価情報を使用するネットワーク資源検出方式及び方法
US5873107A (en) * 1996-03-29 1999-02-16 Apple Computer, Inc. System for automatically retrieving information relevant to text being authored
US6144973A (en) * 1996-09-06 2000-11-07 Kabushiki Kaisha Toshiba Document requesting system and method of receiving related document in advance
US6327387B1 (en) * 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
JP3579204B2 (ja) * 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
US6415319B1 (en) * 1997-02-07 2002-07-02 Sun Microsystems, Inc. Intelligent network browser using incremental conceptual indexer
US6018735A (en) * 1997-08-22 2000-01-25 Canon Kabushiki Kaisha Non-literal textual search using fuzzy finite-state linear non-deterministic automata
US5848410A (en) * 1997-10-08 1998-12-08 Hewlett Packard Company System and method for selective and continuous index generation
US6539378B2 (en) * 1997-11-21 2003-03-25 Amazon.Com, Inc. Method for creating an information closure model
US6094649A (en) * 1997-12-22 2000-07-25 Partnet, Inc. Keyword searches of structured databases
JPH11265388A (ja) * 1998-03-16 1999-09-28 Nippon Telegr & Teleph Corp <Ntt> 情報検索支援方法、システムおよび情報検索支援プログラムを記録した記録媒体
JP3665480B2 (ja) * 1998-06-24 2005-06-29 富士通株式会社 文書整理装置および方法
JP2000029902A (ja) * 1998-07-15 2000-01-28 Nec Corp 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体
JP2000067080A (ja) * 1998-08-18 2000-03-03 Ricoh Co Ltd 文書情報抽出方法および文書情報抽出方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体
JP2000187611A (ja) * 1998-12-21 2000-07-04 Matsushita Electric Ind Co Ltd ハイパーテキスト表示装置
JP2000339321A (ja) * 1999-05-25 2000-12-08 Nippon Telegr & Teleph Corp <Ntt> 関連情報随時自動送信装置及び方法並びに関連情報随時自動送信プログラムを記録した記録媒体
JP3702414B2 (ja) * 1999-08-11 2005-10-05 株式会社日立製作所 情報検索支援方法、コンピュータ読み取り可能な記憶媒体および情報検索装置
JP2001167124A (ja) * 1999-12-13 2001-06-22 Sharp Corp 文書分類装置及び文書分類プログラムを記録した記録媒体
JP3476185B2 (ja) * 1999-12-27 2003-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報抽出システム、情報処理装置、情報収集装置、文字列抽出方法及び記憶媒体
US6665658B1 (en) * 2000-01-13 2003-12-16 International Business Machines Corporation System and method for automatically gathering dynamic content and resources on the world wide web by stimulating user interaction and managing session information
US6604099B1 (en) * 2000-03-20 2003-08-05 International Business Machines Corporation Majority schema in semi-structured data
US7418440B2 (en) * 2000-04-13 2008-08-26 Ql2 Software, Inc. Method and system for extraction and organizing selected data from sources on a network
JP2001306587A (ja) * 2000-04-27 2001-11-02 Fujitsu Ltd 情報検索装置、情報検索方法、及び記憶媒体
CN1308875C (zh) * 2000-08-07 2007-04-04 夏普公司 用于根据终端位置信息处理信息的服务器装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100437561C (zh) * 2003-12-17 2008-11-26 国际商业机器公司 电子文档的处理方法和装置及其系统
US8515887B2 (en) 2005-11-10 2013-08-20 Koninklijke Philips Electronics N.V. Decision support system with embedded clinical guidelines
CN101305374B (zh) * 2005-11-10 2014-05-07 皇家飞利浦电子股份有限公司 具有嵌入式临床指引的决策支持设备、装置和方法
CN101317174B (zh) * 2005-11-30 2012-02-01 微软公司 使用网络地址提供聚焦搜索的方法和系统
US8645352B2 (en) 2005-11-30 2014-02-04 Microsoft Corporation Focused search using network addresses
WO2008154873A1 (fr) * 2007-06-20 2008-12-24 Huawei Technologies Co., Ltd. Procédé, système d'association de publicités dans un moteur de recherche vertical et dispositif d'extraction de mots-clés
CN102073675A (zh) * 2009-11-20 2011-05-25 索尼公司 信息处理装置、信息处理方法、程序和信息处理系统
CN102073675B (zh) * 2009-11-20 2014-12-24 索尼公司 信息处理装置、信息处理方法、程序和信息处理系统
US10346414B2 (en) 2013-10-21 2019-07-09 Xi'an Zhongxing New Software Co. Ltd. Information collection method and device

Also Published As

Publication number Publication date
JP2003208434A (ja) 2003-07-25
EP1310884A2 (en) 2003-05-14
EP1310884A3 (en) 2004-04-07
US20030088559A1 (en) 2003-05-08

Similar Documents

Publication Publication Date Title
CN1417709A (zh) 信息检索系统及其信息检索方法
CN1296853C (zh) 网页的预测性浏览的方法和系统
CN1317661C (zh) 通过提供万维网文件布局图像简化因特网搜索的系统和方法
US7702681B2 (en) Query-by-image search and retrieval system
KR100461019B1 (ko) 소형 화면 단말기를 위한 웹 컨텐츠 변환 시스템 및 방법
CA2636429C (en) Presenting digitized content on a network
US20020129011A1 (en) System for collecting specific information from several sources of unstructured digitized data
Xie et al. Efficient browsing of web search results on mobile devices based on block importance model
US20070226321A1 (en) Image based document access and related systems, methods, and devices
WO2003017023A2 (en) System and method for extracting content for submission to a search engine
CN1443326A (zh) 获取和存储延迟浏览信息的系统和方法
US20100169756A1 (en) Automated bookmarking
CN101452453A (zh) 一种输入法网址导航的方法和一种输入法系统
TW201142628A (en) Method and system for compiling a unique sample code for specific web content
CN1955952A (zh) 用于自动提取副标题信息的系统和方法
CN1728134A (zh) 基于超文本的多语言网络信息搜索方法和系统
CN1434948A (zh) 处理网络文档的方法和装置
US7975238B2 (en) Identifying previously bookmarked hyperlinks in a received Web page in a World Wide Web network browser system for searching
CN1758243A (zh) 用于从网站提取标注日期的内容的方法和系统
CN100456293C (zh) 一种信息快捷搜索客户端、系统及方法
WO2007139913A2 (en) Locating a portion of data on a computer network
CN101051325A (zh) 一种Web页面动作收藏方法和装置
US20100332491A1 (en) Method and system for utilizing user selection data to determine relevance of a web document for a search query
CN1620053A (zh) 标记网页的方法和设备
CN1383517A (zh) 网络中智能信息处理的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1055815

Country of ref document: HK