CN1417709A - 信息检索系统及其信息检索方法 - Google Patents
信息检索系统及其信息检索方法 Download PDFInfo
- Publication number
- CN1417709A CN1417709A CN02149848A CN02149848A CN1417709A CN 1417709 A CN1417709 A CN 1417709A CN 02149848 A CN02149848 A CN 02149848A CN 02149848 A CN02149848 A CN 02149848A CN 1417709 A CN1417709 A CN 1417709A
- Authority
- CN
- China
- Prior art keywords
- key word
- mark
- retrieval
- html
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 39
- 238000000605 extraction Methods 0.000 claims abstract description 35
- 239000000284 extract Substances 0.000 claims abstract description 23
- 230000033228 biological regulation Effects 0.000 claims description 16
- 230000005055 memory storage Effects 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 5
- 238000003860 storage Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 13
- 230000009467 reduction Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/81—Indexing, e.g. XML tags; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Abstract
为了提供能够轻易地发现类似于用户最喜爱网站的信息检索系统,而与每个用户和在获得信息步骤获得的检索结果没有差别。HTML文件获得装置从互联网网站获得HTML文件。还原密钥提取装置分析用户指定URL所示HTML文件的内容和提取关键字作为还原密钥。检索结果存储装置根据提取的还原密钥检索索引表和存储检索结果。检索结果显示装置改造检索结果用于用户看到和输出结果。计分装置计算HTML标记和关键字的分数。索引表存储装置存储提取的索引。
Description
技术领域
本发明涉及一种信息检索系统和用于该系统的信息检索方法,更具体地涉及检索公开具体内容的网站的方法。
背景技术
按常规,在使用互联网的方法中,当输入用作还原密钥的关键字时,使用利用关键字检索的搜索引擎,其中希望的内容在网络浏览器中公开。
在这种情况下,因为检索过程利用搜索引擎中输入的关键字进行,用户选择关键字和规定检索条件是有效检索的关键点。利用用户输入关键字的检索方法在日本专利2001-52014中公开。
但是,因为在检索方法中使用用户输入的关键字,检索结果依赖用户选择的关键字,所以存在这样一个问题,即每个用户获得的检索结果和获得信息的步骤在每种情况下都不同。
发明内容
本发明的目的在于解决上述的问题,提供一种信息检索系统和用于该系统的信息检索方法,其能够轻易地检索到类似于用户最喜爱网站的站点,而不必改变每个用户获得的任何检索结果和获得信息的步骤。
根据本发明的信息检索系统是一种检索由超文本文件所表示内容的记录网站的信息检索系统,包括:提取装置,用于从外部规定的超文本文件中提取关键字;和检索装置,用于利用提取装置提取的关键字检索内容的记录网站。
根据本发明的信息检索方法是一种检索由超文本文件所表示内容的记录站点的信息检索方法,包括:从外部规定的超文本文件中提取关键字的步骤;和利用提取的关键字检索内容的记录网站的步骤。
也就是说,根据本发明的网站检索系统(信息检索系统)可以轻易地检索到类似于用户指定网站的网站。
在根据本发明的网站检索系统中,用户可以检索到类似于指定网站的网站而不必输入关键字。因此,可以不必烦恼关键字选择的执行检索过程。
根据本发明,可以省略输入关键字的步骤,从而能够利用装有浏览器的小移动信息终端(例如,PDA(个人数字助理)等等)和手持电话机等等更容易地执行检索,这些终端通常对输入字符的装置具有严格的限制。
在根据本发明的网站检索系统中,关键字可以自动地从规定网站的HTML文件提取,控制信息也可以提取。在这种情况下,不仅可以考虑规定网站的内容,还可以考虑包含在用于规定网站的HTML(超文本标记语言)的控制信息,例如,标记的相似性等等。因此,相比较只使用关键字的情况,可以检索到更相似的网站,从而更容易地执行检索过程。
附图说明
图1是根据本发明第一个实施方式的网站检索系统配置的方框图;
图2是根据本发明第一个实施方式的产生网站检索系统中的索引表的过程流程图;
图3是根据本发明第一个实施方式的网站检索系统中的相似网站检索过程的流程图;
图4表示图1所示网络浏览器的显示屏;
图5表示在图4所示网络浏览器显示屏的URL输入的例子;
图6表示根据本发明第二实施方式的网站检索系统中显示屏的例子;
图7是根据本发明第二实施方式的网站检索系统的操作流程图;
图8表示根据本发明第二实施方式的网站检索系统中显示屏的另一个例子;和
图9表示根据本发明第三实施方式的网站检索系统中显示屏的例子。
具体实施方式
然后,本发明的实施方式将在下文参照附图描述。图1是根据本发明第一个实施方式的网站检索系统配置的方框图。在图1中,根据本发明第一实施方式的网站检索系统包括用户终端1和检索服务器2,用户终端1和检索服务器2分别连接到互联网100。网络(WWW(全球网)的缩写)网站(也称为WWW服务器)6连接到互联网100。
用户终端1包括计算机,网络浏览器10可以作为互联网用户(以下简称为用户)的接口工作。网络浏览器10主要提供用户接口11的功能。用户接口11包括超级文本标志语言(超文本标记语言)显示装置12、字符输入装置13、和检索方法规定装置14。用户终端1不局限于个人计算机,而可以是装载有浏览器的小的移动信息终端(例如,PDA(个人数字助理)等等)和手持电话机等等,只要可以操作网络浏览器10。
URL(通用资源定位器)利用字符输入装置13输入到网络浏览器10。检索方法规定装置14提供一用户接口,来使用根据本实施方式的检索方法。
检索服务器2处理来自网络浏览器10的请求。检索服务器2是一网站,例如装有搜索引擎的门户网站,包括相似网站检索装置3和索引表产生装置4。
相似网站检索装置3提供实现根据本实施方式检索方法的装置,包括HTML文件获得装置31、还原密钥提取装置、检索结果存储装置32和检索结果显示装置33。
HTML文件获得装置31获得来自互联网100存在的网站6的HTML文件。HTML文件获得装置31在执行相似网站检索时获得URL规定的HTML文件,当索引表产生装置4产生索引表时,利用机器人等等全面收集来自互联网100网站6的HTML文件。
还原密钥提取装置5分析用户指定URL所示HTML文件的内容和提取关键字作为还原密钥。提取关键字的方法可以是由关键字提取装置利用形态分析从HTML文件提取词素(词性)的方法,词素可以是关键字,例如名词等等。
当一名词从HTML文件提取为关键字,通常考虑从HTML文件提取多个关键字。当提取多个关键字时,关键字集被用作还原密钥。
还原密钥提取装置5包括检测包含在HTML文件中的控制信息的装置。根据本实施方式,它包括HTML标记信息提取装置52,作为检测控制信息的装置。关于HTML标记的信息由HTML标记信息提取装置52提取,HTML文件所用每个HTML标记的特征也被提取。
检索结果存储装置32根据还原密钥提取装置5提取的还原密钥检索索引表,和存储器检索中获得的检索结果。检索结果显示装置3 3改造保存在检索结果存储装置32的检索结果,以使用户可以很容易看到检索结果,然后输出改造后的结果。当存在多个检索结果时,多个HTML文件由计分装置41排列,因此文件可以按顺序显示。当网络浏览器10被用作显示接口时,提供从HTML文件的检索服务器输出响应的功能。
索引表产生装置4包括与相似网站检索装置3共享的还原密钥提取装置5,计分计算装置41用于计算所提取HTML标记和关键字的分数,索引表存储装置42存储已提取的索引和产生要求实现相似网站检索的索引表。
作为相似网站检索装置3,还原密钥提取装置5提取HTML标记和关键字作为还原密钥。计分装置41计算表示已提取HTML标记和关键字优先级的分数和分别为HTML标记和关键字分配权值。也就是说,执行这样的计算,即关键字和HTML标记越重要,分数越高,关键字和HTML标记越不重要,分配的分数越低。根据本实施方式,不规定计分方法。
分配给关键字和HTML标记的分数记录在保存在存储装置42的索引表中。当执行检索时,相似网站检索装置3参照索引表。
图2是根据本发明第一个实施方式的产生网站检索系统的索引表的过程流程图。根据本发明第一实施方式的产生网站检索系统中的索引表的处理将在下文参照图1和2描述。为了实现根据本实施方式的检索方法,应当预先产生索引表。
首先,HTML文件获得装置31全面收集要检索网站6中的HTML文件(图2的步骤S1)。HTML文件由HTML文件收集机器人收集,以便收集互联网100中所有的文件。但是,在本实施方式中,不规定收集HTML文件的范围。
还原密钥提取装置5的HTML标记信息提取装置52从HTML文件获得装置31收集的每个HTML文件提取HTML标记,和获得正使用的的标记信息(图2所示的S3)。HTML标记利用脚本语言,例如Perl(实际提取和报告语言)等等提取。
然后,还原密钥提取装置5的关键字提取装置51从HTML文件提取关键字作为还原密钥(图2所示的步骤S4)。在提取关键字中,通过自然语言过程,例如形态分析从HTML文件中提取词素(一部分语音),例如名词(词组)等等。
因为一具体HTML标记规定的字符串,例如由充当文件摘要信息的TITLE标记封闭的字符串、显示为用规定加强的大字符的字符串可以是重要的关键字,这种字符串可以提取为关键字。
计分装置41为在步骤S3和S4提取的HTML标记和关键字计分,从提取的HTML标记和关键字选择用作重要索引的还原密钥的HTML标记和关键字(图2所示的步骤S5)。因为在提取的HTML标记或与HTML文件内容无关的标记中存在调整布局和风格的标记,对已提取HTML标记和关键字执行这样的处理,即HTML标记和关键字越重要,分配的分数越高,HTML标记和关键字越不重要,分配的分数越低。
在步骤S3和S4提取的HTML标记和关键字清楚地反映了它们所提取的HTML文件内容,当检索HTML文件时可以是索引。此后,该索引表示从HTML文件提取的HTML标记和关键字。
索引表产生装置4由在索引表中记录在步骤S3到S5的过程中获得的索引和HTML文件(图2所示的步骤S6)之间的对应关系更新索引表,和对所有收集的HTML文件执行步骤S3到S5的过程(图2所示的步骤S7)。
由HTML文件获得装置31收集的所有HTML文件在一循环过程重复上述的过程来处理。此外,已更新的索引表最终保存在索引表存储装置42。
作为本发明第一实施方式的变型,计分装置41计算由还原密钥提取装置5提取的HTML标记和关键字的分数,而是只计算关键字的分数。在这种情况下,计分装置41计算表示已提取关键字优先级的分数,和向每个关键字分配一权值。
也就是说,执行这样的计算,即关键字越重要,分配的分数越高,关键字越不重要,分配的分数越低。提取的关键字清楚地反映它们所提取的HTML文件的内容和当检索到HTML文件时可以是一个索引。该索引表示从HTML文件提取的关键字。
图3是根据本发明第一个实施方式的网站检索系统的相似网站检索过程的流程图。图4表示图1所示网络浏览器10的显示屏。图5表示在图4所示网络浏览器10的显示屏上URL的输入的例子。参见图1、图3到图5,根据本发明第一实施方式的网站检索系统的相似网站检索过程描述如下。在此过程中,从每个HTML文件提取的HTML标记和关键字被用作索引。
首先,假设用户利用网络浏览器10看到互联网100的网站6(图3所示的步骤S11)。此时,如果用户发现最喜爱的网站,和执行相似网站检索,以便检索到类似于最喜爱网站的网站(图3所示的步骤S12)。
下文描述的是当用户喜欢公告牌系统(BBS)时执行的相似网站检索,其中例如进行新产品,例如移动电话机的讨论和试图查找相似的网站。
当执行相似网站检索时,网络浏览器10将用户规定的URL(最喜爱网站的URL)传送到检索服务器2(图3所示的步骤S13)。此时,网络浏览器10有必要预先存入要传送请求的检索服务器2的URL。
在根据本实施方式的网络浏览器10中,假定已经合并插入式相似网站检索。当合并插入时,例如如图4所示,假设例如“执行相似网站检索”的菜单可以增加到网络浏览器10编辑菜单的列表。
通过选择和执行“执行相似网站检索”菜单,用户指定的URL从网络浏览器10传送到检索服务器2。当合并用于相似网站检索的时,网络浏览器10传送HTTP(超文本传输协议)到检索服务器2(获得http://′IP address of retrieval server/cgi-bin/retrieval?url′URL to be retrieved′HTTP/1.0)如图5所示。
一从网络浏览器10收到图5所示的请求,检索服务器2由HTML文件获得装置31获得由“要检索的URL”规定的HTML文件(图3所示的步骤S14)。
当检索服务器2获得指定的HTML文件时,它由HTML标记信息提取装置52从获得的HTML文件中提取HTML标记,和由关键字提取装置提取的关键字(图3所示的步骤S15)。
也就是说,HTML标记和关键字从用户正在浏览的′讨论移动电话机公告牌′的HTML文件中提取。在′讨论移动电话机的公告牌′的HTML文件的情况下,期待提取的关键字是:来自HTML标记的TITLE标记中的字符串的′公告牌′、来自HTML文件的内容的′新产品名称′、′通信公司名称′、′制造商名称′、′价格′、′价值′、′功能′、′振铃音′、′液晶′、′邮件′等等。
提取的关键字越多,可以提取的HTML文件的内容和主题(在这种情况下,用于讨论移动电话机的公告牌)越多。利用关键字集作为还原密钥,检索可以开始,用于讨论相似主题的BBS网站可以检索。
保存在索引表存储装置42的索引表利用从HTML文件提取的HTML标记和关键字的还原密钥检索(图3所示的步骤S16)。还原密钥找到(应用)的检索结果保存在检索结果存储装置中。检索结果是否找到(应用于)还原密钥由还原密钥是不是索引表中的索引确定。
例如,当′公告牌′、新产品名称′、′通信公司名称′、′制造商名称′、′价格′、′价值′、′功能′、′令牌环′、′液晶′、′邮件′等等从′用于讨论移动电话机′的HTML文件中提取为还原密钥,它校验该还原密钥是否已经记录为索引表中的索引。
如果当参照检索结果存储装置32时没有检索结果(图3所示的步骤S17),然后′没有相似网站′显示在网络浏览器10上(图3所示的步骤S19)。
如果检索结果存储装置32中有一个以上的检索结果(图3所示的步骤S17),则检索结果显示装置33向网络浏览器10传送检索结果,该检索结果显示在上面(图3所示的步骤S18)。
如果存在多个检索结果,根据任何参考执行计分,检索结果可以从最高分依次显示。例如,计算可以这样执行,即包含越多标记和关键字作为还原密钥的检索结果(相似网站)分数越高,此结果可以在检索结果显示装置33显示的越高。但是,根据本实施方式,不规定计分方法。
在上述的操作中,相似网站检索可以在根据本实施方式的网站检索系统中执行。
因此,因为用户可以检索到与用户正在浏览的网站内容相似的网站(相似网站),所以可以轻易检索到最喜爱的相似网站。
此外,因为相似网站检索可以不必输入任何关键字执行,所以当用户请求检索相似网站时用户可以立即执行相似网站检索。
另外,因为关键字由检索服务器2自动提取,可以省略输入关键字的麻烦操作,根据网站内容可以提取多个关键字。
另外,不仅自动提取关键字,而且考虑到用于网站的标记信息。可以检索到更多的相似网站。
在上述本发明的实施方式中,标记信息提取为控制信息,但控制信息不局限于标记信息。例如可以提取表示字符位置或特征的控制信息。
图6表示根据本发明第二实施方式的网站检索系统中显示屏的例子。在本发明的第一实施方式中,检索到与正在显示的网站内容相似的网站。但是,根据第二实施方式,如图6所示,识别出锚点显示(anchor-displayed)链接,根据链接目标的URL执行相似网站检索。
图7是根据本发明第二实施方式的网站检索系统的操作流程图。图8表示根据本发明第二实施方式的网站检索系统中显示屏的另一个例子。参见图6到8,描述了根据本发明第二实施方式的网站检索系统的操作。根据本发明第二实施方式的网站检索系统在结构上与图1所示的网站检索系统相同。
根据第二实施方式,假设附图中未示出的鼠标被用作规定链接的指示设备,同时用户利用网络浏览器10观看网站。当用户利用网络浏览器10浏览网站时,显示在网络浏览器10上的鼠标指针利用鼠标在网络浏览器10上移动(图7所示的步骤S21)。
此时,当不单击鼠标右键时(图7所示的步骤S22),鼠标指针继续在网络浏览器上移动直到按下鼠标右键。当单击鼠标右键时(图7所示的步骤S22),确定鼠标指针是否指向锚点显示链接(图7所示的步骤S23)。
如果鼠标指针指向锚点显示链接,则图6所示的′利用链接目标的URL执行相似网站检索′通过按右键显示在菜单上(图7所示的步骤S27)。
当用户选择和确定′利用链接目标的URL执行相似网站检索′时(图7所示的步骤S28),相似网站检索利用链接目标的URL执行(图7所示的步骤S29)。
如果鼠标指针没有指向锚点显示链接,那就是说,如果它指向除锚点显示链接之外的区域,则图8所示的′执行相似网站检索′通过按右键显示在菜单上(图7所示的步骤S24)。
当用户选择和确定′执行相似网站检索′时(图7所示的步骤S25),利用正在显示的网站URL执行相似网站检索(图7所示的步骤S26)。
相似网站检索方法与根据本发明第一实施方式的网站检索系统方法相同。如果响应来自于检索服务器2,则检索结果显示在网络浏览器10上(图7所示的步骤S30)。
图9表示根据本发明第三实施方式的网站检索系统中显示屏的例子。在根据本发明第三实施方式的网站检索系统的检索方法中,当执行检索时规定URL。因此,如果URL可以规定,则相似网站检索可以立即执行。
因此,如图9所示,当用户选择记录在网络浏览器10的书签上的URL时,相似网站检索能力可以通过按鼠标右键执行。相似网站检索方法与根据本发明第一实施方式的网站检索系统方法相同。
如上所述,本发明可以得到轻易发现类似于最喜爱网站的效果,而与每个用户或在获得信息的步骤中获得的检索结果没有差别,即利用在网站检索系统中从外部规定网站的HTML文件提取的关键字检索网站,该网站检索系统用于检索公开了HTML文件所表示内容的网站。
Claims (10)
1.一种检索由超文本文件所表示内容的记录网站的信息检索系统,包括:
提取装置,用于从外部规定的超文本文件提取关键字;和
检索装置,用于利用所述提取装置提取的所述关键字检索内容的记录网站。
2.根据权利要求1的信息检索系统,其中所述提取装置从由包含在所述外部规定的超文本文件中的预定控制信息规定的字符串提取所述关键字。
3.根据权利要求1的信息检索系统,进一步包括计算装置,用于计算表示由所述提取装置提取的所述关键字优先级的分数。
4.根据权利要求3的信息检索系统,其中所述计算装置从通过分配所述分数和分配预定权值到预定控制信息的所述提取关键字以及从控制信息规定的字符串提取的所述关键字选择用作还原密钥的关键字。
5.根据权利要求4的信息检索系统,进一步包括存储装置,用于在组合所述关键字与被提取所述关键字的超文本文件之后存储控制信息和由所述计算装置计算所述分数的所述关键字,
其中所述检索装置通过搜索所述存储装置检索内容的记录网站。
6.根据权利要求2的信息检索系统,其中所述提取装置提取包含在所述超文本文件的标记信息作为所述控制信息,和从标记信息规定的字符串提取所述关键字。
7.一种检索由超文本文件所表示内容的记录网站的信息检索方法,包括步骤:
从外部规定的超文本文件中提取关键字;和
利用所述提取的关键字检索内容的记录网站。
8.根据权利要求7的信息检索方法,进一步包括计算表示所述提取关键字和包含在所述外部规定超文本文件的标记信息优先级分数的计算步骤。
9.根据权利要求8的信息检索方法,其中所述计算步骤向更重要的HTML(超文本标记语言)标记和关键字分配更高分,较不重要的HTML标记和关键字分配较低的分数,因此还原密钥可以选择为重要的索引。
10.根据权利要求9的信息检索方法,其中搜索存储装置,该存储装置存储组合所述关键字与从中被提取的所说关键字已被检索的HTML文件之后分配所述分数的所述HTML标记和所述关键字,因此可以检索到内容的记录网站。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001341330 | 2001-11-07 | ||
JP341330/2001 | 2001-11-07 | ||
JP295531/2002 | 2002-10-09 | ||
JP2002295531A JP2003208434A (ja) | 2001-11-07 | 2002-10-09 | 情報検索システム及びそれに用いる情報検索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1417709A true CN1417709A (zh) | 2003-05-14 |
Family
ID=26624386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN02149848A Pending CN1417709A (zh) | 2001-11-07 | 2002-11-07 | 信息检索系统及其信息检索方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20030088559A1 (zh) |
EP (1) | EP1310884A3 (zh) |
JP (1) | JP2003208434A (zh) |
CN (1) | CN1417709A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100437561C (zh) * | 2003-12-17 | 2008-11-26 | 国际商业机器公司 | 电子文档的处理方法和装置及其系统 |
WO2008154873A1 (fr) * | 2007-06-20 | 2008-12-24 | Huawei Technologies Co., Ltd. | Procédé, système d'association de publicités dans un moteur de recherche vertical et dispositif d'extraction de mots-clés |
CN102073675A (zh) * | 2009-11-20 | 2011-05-25 | 索尼公司 | 信息处理装置、信息处理方法、程序和信息处理系统 |
CN101317174B (zh) * | 2005-11-30 | 2012-02-01 | 微软公司 | 使用网络地址提供聚焦搜索的方法和系统 |
US8515887B2 (en) | 2005-11-10 | 2013-08-20 | Koninklijke Philips Electronics N.V. | Decision support system with embedded clinical guidelines |
US10346414B2 (en) | 2013-10-21 | 2019-07-09 | Xi'an Zhongxing New Software Co. Ltd. | Information collection method and device |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7640267B2 (en) | 2002-11-20 | 2009-12-29 | Radar Networks, Inc. | Methods and systems for managing entities in a computing device using semantic objects |
US7433876B2 (en) | 2004-02-23 | 2008-10-07 | Radar Networks, Inc. | Semantic web portal and platform |
US7606793B2 (en) | 2004-09-27 | 2009-10-20 | Microsoft Corporation | System and method for scoping searches using index keys |
US7644107B2 (en) * | 2004-09-30 | 2010-01-05 | Microsoft Corporation | System and method for batched indexing of network documents |
JP2006236221A (ja) * | 2005-02-28 | 2006-09-07 | Kazuhiko Mori | ウエブページ検索のための管理サーバ装置 |
DE102006057525A1 (de) * | 2006-12-06 | 2008-06-12 | Siemens Ag | Verfahren zur Ermittlung von zumindest zwei ähnlichen Webseiten |
JP4810469B2 (ja) | 2007-03-02 | 2011-11-09 | 株式会社東芝 | 検索支援装置、プログラム及び検索支援システム |
US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
US7895181B2 (en) * | 2008-02-01 | 2011-02-22 | Intuit Inc. | Configuration-based search |
US8812493B2 (en) | 2008-04-11 | 2014-08-19 | Microsoft Corporation | Search results ranking using editing distance and document information |
US10025855B2 (en) | 2008-07-28 | 2018-07-17 | Excalibur Ip, Llc | Federated community search |
US8200617B2 (en) | 2009-04-15 | 2012-06-12 | Evri, Inc. | Automatic mapping of a location identifier pattern of an object to a semantic type using object metadata |
WO2010120925A2 (en) | 2009-04-15 | 2010-10-21 | Evri Inc. | Search and search optimization using a pattern of a location identifier |
WO2010120934A2 (en) | 2009-04-15 | 2010-10-21 | Evri Inc. | Search enhanced semantic advertising |
CN102105875B (zh) * | 2009-07-15 | 2013-05-01 | 呢哦派豆株式会社 | 用于提供全面主页服务的系统和方法 |
JP2010134952A (ja) * | 2010-01-20 | 2010-06-17 | Seiko Epson Corp | 画像データの管理 |
US8738635B2 (en) | 2010-06-01 | 2014-05-27 | Microsoft Corporation | Detection of junk in search result ranking |
CN102541862B (zh) | 2010-12-14 | 2014-05-07 | 阿里巴巴集团控股有限公司 | 跨网站的信息显示方法及系统 |
US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
JP7290304B2 (ja) * | 2017-12-08 | 2023-06-13 | 株式会社ダハ | 検索システム |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0510634B1 (en) * | 1991-04-25 | 1999-07-07 | Nippon Steel Corporation | Data base retrieval system |
JP2000506650A (ja) * | 1996-03-15 | 2000-05-30 | エイ・ティ・アンド・ティ・コーポレーション | 電子メッセージから取り出した資源評価情報を使用するネットワーク資源検出方式及び方法 |
US5873107A (en) * | 1996-03-29 | 1999-02-16 | Apple Computer, Inc. | System for automatically retrieving information relevant to text being authored |
US6144973A (en) * | 1996-09-06 | 2000-11-07 | Kabushiki Kaisha Toshiba | Document requesting system and method of receiving related document in advance |
US6327387B1 (en) * | 1996-12-27 | 2001-12-04 | Fujitsu Limited | Apparatus and method for extracting management information from image |
JP3579204B2 (ja) * | 1997-01-17 | 2004-10-20 | 富士通株式会社 | 文書要約装置およびその方法 |
US6415319B1 (en) * | 1997-02-07 | 2002-07-02 | Sun Microsystems, Inc. | Intelligent network browser using incremental conceptual indexer |
US6018735A (en) * | 1997-08-22 | 2000-01-25 | Canon Kabushiki Kaisha | Non-literal textual search using fuzzy finite-state linear non-deterministic automata |
US5848410A (en) * | 1997-10-08 | 1998-12-08 | Hewlett Packard Company | System and method for selective and continuous index generation |
US6539378B2 (en) * | 1997-11-21 | 2003-03-25 | Amazon.Com, Inc. | Method for creating an information closure model |
US6094649A (en) * | 1997-12-22 | 2000-07-25 | Partnet, Inc. | Keyword searches of structured databases |
JPH11265388A (ja) * | 1998-03-16 | 1999-09-28 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索支援方法、システムおよび情報検索支援プログラムを記録した記録媒体 |
JP3665480B2 (ja) * | 1998-06-24 | 2005-06-29 | 富士通株式会社 | 文書整理装置および方法 |
JP2000029902A (ja) * | 1998-07-15 | 2000-01-28 | Nec Corp | 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体 |
JP2000067080A (ja) * | 1998-08-18 | 2000-03-03 | Ricoh Co Ltd | 文書情報抽出方法および文書情報抽出方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体 |
JP2000187611A (ja) * | 1998-12-21 | 2000-07-04 | Matsushita Electric Ind Co Ltd | ハイパーテキスト表示装置 |
JP2000339321A (ja) * | 1999-05-25 | 2000-12-08 | Nippon Telegr & Teleph Corp <Ntt> | 関連情報随時自動送信装置及び方法並びに関連情報随時自動送信プログラムを記録した記録媒体 |
JP3702414B2 (ja) * | 1999-08-11 | 2005-10-05 | 株式会社日立製作所 | 情報検索支援方法、コンピュータ読み取り可能な記憶媒体および情報検索装置 |
JP2001167124A (ja) * | 1999-12-13 | 2001-06-22 | Sharp Corp | 文書分類装置及び文書分類プログラムを記録した記録媒体 |
JP3476185B2 (ja) * | 1999-12-27 | 2003-12-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報抽出システム、情報処理装置、情報収集装置、文字列抽出方法及び記憶媒体 |
US6665658B1 (en) * | 2000-01-13 | 2003-12-16 | International Business Machines Corporation | System and method for automatically gathering dynamic content and resources on the world wide web by stimulating user interaction and managing session information |
US6604099B1 (en) * | 2000-03-20 | 2003-08-05 | International Business Machines Corporation | Majority schema in semi-structured data |
US7418440B2 (en) * | 2000-04-13 | 2008-08-26 | Ql2 Software, Inc. | Method and system for extraction and organizing selected data from sources on a network |
JP2001306587A (ja) * | 2000-04-27 | 2001-11-02 | Fujitsu Ltd | 情報検索装置、情報検索方法、及び記憶媒体 |
CN1308875C (zh) * | 2000-08-07 | 2007-04-04 | 夏普公司 | 用于根据终端位置信息处理信息的服务器装置 |
-
2002
- 2002-10-09 JP JP2002295531A patent/JP2003208434A/ja active Pending
- 2002-11-06 EP EP02024933A patent/EP1310884A3/en not_active Withdrawn
- 2002-11-06 US US10/288,498 patent/US20030088559A1/en not_active Abandoned
- 2002-11-07 CN CN02149848A patent/CN1417709A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100437561C (zh) * | 2003-12-17 | 2008-11-26 | 国际商业机器公司 | 电子文档的处理方法和装置及其系统 |
US8515887B2 (en) | 2005-11-10 | 2013-08-20 | Koninklijke Philips Electronics N.V. | Decision support system with embedded clinical guidelines |
CN101305374B (zh) * | 2005-11-10 | 2014-05-07 | 皇家飞利浦电子股份有限公司 | 具有嵌入式临床指引的决策支持设备、装置和方法 |
CN101317174B (zh) * | 2005-11-30 | 2012-02-01 | 微软公司 | 使用网络地址提供聚焦搜索的方法和系统 |
US8645352B2 (en) | 2005-11-30 | 2014-02-04 | Microsoft Corporation | Focused search using network addresses |
WO2008154873A1 (fr) * | 2007-06-20 | 2008-12-24 | Huawei Technologies Co., Ltd. | Procédé, système d'association de publicités dans un moteur de recherche vertical et dispositif d'extraction de mots-clés |
CN102073675A (zh) * | 2009-11-20 | 2011-05-25 | 索尼公司 | 信息处理装置、信息处理方法、程序和信息处理系统 |
CN102073675B (zh) * | 2009-11-20 | 2014-12-24 | 索尼公司 | 信息处理装置、信息处理方法、程序和信息处理系统 |
US10346414B2 (en) | 2013-10-21 | 2019-07-09 | Xi'an Zhongxing New Software Co. Ltd. | Information collection method and device |
Also Published As
Publication number | Publication date |
---|---|
JP2003208434A (ja) | 2003-07-25 |
EP1310884A2 (en) | 2003-05-14 |
EP1310884A3 (en) | 2004-04-07 |
US20030088559A1 (en) | 2003-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1417709A (zh) | 信息检索系统及其信息检索方法 | |
CN1296853C (zh) | 网页的预测性浏览的方法和系统 | |
CN1317661C (zh) | 通过提供万维网文件布局图像简化因特网搜索的系统和方法 | |
US7702681B2 (en) | Query-by-image search and retrieval system | |
KR100461019B1 (ko) | 소형 화면 단말기를 위한 웹 컨텐츠 변환 시스템 및 방법 | |
CA2636429C (en) | Presenting digitized content on a network | |
US20020129011A1 (en) | System for collecting specific information from several sources of unstructured digitized data | |
Xie et al. | Efficient browsing of web search results on mobile devices based on block importance model | |
US20070226321A1 (en) | Image based document access and related systems, methods, and devices | |
WO2003017023A2 (en) | System and method for extracting content for submission to a search engine | |
CN1443326A (zh) | 获取和存储延迟浏览信息的系统和方法 | |
US20100169756A1 (en) | Automated bookmarking | |
CN101452453A (zh) | 一种输入法网址导航的方法和一种输入法系统 | |
TW201142628A (en) | Method and system for compiling a unique sample code for specific web content | |
CN1955952A (zh) | 用于自动提取副标题信息的系统和方法 | |
CN1728134A (zh) | 基于超文本的多语言网络信息搜索方法和系统 | |
CN1434948A (zh) | 处理网络文档的方法和装置 | |
US7975238B2 (en) | Identifying previously bookmarked hyperlinks in a received Web page in a World Wide Web network browser system for searching | |
CN1758243A (zh) | 用于从网站提取标注日期的内容的方法和系统 | |
CN100456293C (zh) | 一种信息快捷搜索客户端、系统及方法 | |
WO2007139913A2 (en) | Locating a portion of data on a computer network | |
CN101051325A (zh) | 一种Web页面动作收藏方法和装置 | |
US20100332491A1 (en) | Method and system for utilizing user selection data to determine relevance of a web document for a search query | |
CN1620053A (zh) | 标记网页的方法和设备 | |
CN1383517A (zh) | 网络中智能信息处理的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: WD Ref document number: 1055815 Country of ref document: HK |