CN100568230C - 基于超文本的多语言网络信息搜索方法和系统 - Google Patents

基于超文本的多语言网络信息搜索方法和系统 Download PDF

Info

Publication number
CN100568230C
CN100568230C CNB200410055624XA CN200410055624A CN100568230C CN 100568230 C CN100568230 C CN 100568230C CN B200410055624X A CNB200410055624X A CN B200410055624XA CN 200410055624 A CN200410055624 A CN 200410055624A CN 100568230 C CN100568230 C CN 100568230C
Authority
CN
China
Prior art keywords
hypertext
keyword
hyperlink
search
inquire
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB200410055624XA
Other languages
English (en)
Other versions
CN1728134A (zh
Inventor
张岭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CNB200410055624XA priority Critical patent/CN100568230C/zh
Priority to US11/192,477 priority patent/US7711682B2/en
Publication of CN1728134A publication Critical patent/CN1728134A/zh
Application granted granted Critical
Publication of CN100568230C publication Critical patent/CN100568230C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于超文本的多语言网络信息搜索方法和系统,用于在网络上搜索要查询的关键词,该搜索方法包括以下步骤:接收用户输入的关键词的步骤;本语言超文本搜索步骤,用于根据要查询的关键词,在网络上搜索表示语言与表示关键词的语言相同的、与要查询的关键词匹配的所有超文本;从搜索到的所有超文本提取有关任意语言的超链接;超链接排序步骤,用于按照超链接与要查询的关键词的相关程度对所述提取的超链接进行排序;以及向用户返回所述排序的搜索结果。由此,可提供准确的交叉语言搜索而不需要进行额外的机器翻译工作,比机器甚至人工翻译更准确和客观。

Description

基于超文本的多语言网络信息搜索方法和系统
技术领域
本发明涉及一种网络信息搜索方法和系统,并具体涉及一种基于超文本的多语言网络信息搜索方法和系统。
背景技术
随着互联网的普及,互联网上的内容信息急剧增长,因而通过关键词在互联网上搜索要查询的内容的方法也广泛使用开来。特别是非英语语言的用户代表着互联网用户的最快的增长,而他们不仅要求从以其母语表达的信息源获得信息,而且要求从大量的多语言文档获得信息。另一方面,用于互联网应用全球化的技术使用统一的方法来建立多语言的网络站点以服务于来自全世界的访问者。
由于多数用户更喜欢使用其母语去搜索网络,或者他们难于以其它语言表达关键词,比如以互联网内容最常使用的英语来表达关键词对很多非英语国家的用户而言可能会是困难的,所以这些用户根据现有的内容匹配方法,只能找到有限的或者相对局限的信息。为了解决这个问题,提出了基于翻译的方法。这些方法使用翻译引擎,将用户查询翻译为不同语言,然后提交给不同的搜索引擎。这些解决方案的缺点是:首先,机器翻译不如人工翻译准确,而有些词语难于被翻译为搜索引擎可以理解的目标语言;其次,基于翻译的解决方案难于有效和低成本地扩展,因为所有查询在提交前都必须首先被捕捉和翻译。巨大数量的查询会给翻译引擎带来沉重的负担。
发明内容
本发明要解决的问题是在多语言网络信息搜索中如何解决语言翻译问题。本发明使用另外的方法即超链接来解决语言翻译问题。本发明有助于全球的互联网用户通过以其母语进行查询而找到权威网页(如后所述)。
为了实现上述目的,本发明提供一种基于超文本的多语言网络信息搜索方法,用于在网络上搜索要查询的关键词,该搜索方法包括以下步骤:接收步骤,用于接收用户输入的关键词;本语言超文本搜索步骤,用于根据要查询的关键词,在网络上搜索表示语言与表示关键词的语言相同的、与要查询的关键词匹配的所有超文本;超链接提取步骤,用于从搜索到的所有超文本提取有关任意语言的超链接;超链接排序步骤,用于按照超链接与要查询的关键词的相关程度对所述提取的超链接进行排序;以及输出步骤,用于向用户返回所述排序的搜索结果。
本发明还提供一种基于超文本的多语言网络信息搜索系统,用于在网络上搜索要查询的关键词,该搜索系统包括:接收装置,用于接收用户输入的关键词;本语言超文本搜索装置,用于根据要查询的关键词,在网络上搜索表示语言与表示关键词的语言相同的、与要查询的关键词匹配的所有超文本;超链接提取装置,用于从搜索到的所有超文本提取有关任意语言的超链接;超链接排序装置,用于按照超链接与要查询的关键词的相关程度对所述提取的超链接进行排序;以及输出装置,用于向用户返回所述排序的搜索结果。
通过本发明提出的基于超文本的多语言网络信息搜索方法和系统,可以提供准确的交叉语言搜索而不需要进行额外的机器翻译工作。而且,利用超文本进行多语言网络信息搜索,比机器甚至人工翻译更准确和客观。
附图说明
通过下面结合附图进行的描述,本发明的上述目的和特点将会变得更加清楚,其中:
图1显示了应用本发明的一种实现方式的搜索系统的示意图;
图2更详细地描述了图1中网络爬虫1的配置;
图3显示了根据本发明的基于超文本的多语言网络信息搜索方法的流程图;
图4显示了URL DB(数据库)的结构;以及
图5显示了根据本发明的基于超文本的多语言网络信息搜索系统的框图。
具体实施方式
本发明的基本思想是:通过识别网络超链接结构并且从多语言网页收集链接了网页的HTML超链接文本(简称为“超文本”),建立以用户母语(本语言)表达的关键词与各目标文档之间的关系,而不进行翻译。
本发明的发明人从对网络的研究中发现:首先,虽然多数高质量网络内容以英语写成,但在网络上散布着各翻译版本,并且这些多语言化的内容不是被裁剪,就是仅仅是其初始版本位置的超链接;其次,许多网络冲浪者希望找到一个起始点以解决其具体问题,而这些问题会是编程技巧、官方FAQ(最常问的问题和解答)或如何开始新搜索主题。对于这样的搜索要求,用户想要解决方案的权威网页,而不管这些网页是否以其母语所表示。权威网页和中心网页显示一种相互加强的关系:好的中心网页表示一个网页指向许多好的权威网页;而好的权威网页表示一个网页由许多好的中心网页指向。
网络文档通过在网页上放置超链接而包含浏览链接。通常网页的作者会给超链接分配描述文本,以告知读者超链接有关什么内容,该描述称为超文本或锚定文本。一个网页可被几千网页链接,对于受欢迎的网页,甚至有几百万网页链接。指向同一URL(统一资源定位符)的每个超文本可由于不同的网页编写者及其优选语言而不同。例如,“卡内基梅隆大学”的主页是http://www.cmu.edu,而在英语等字母文字的网页上,其超链接文本可能是“Carnage Mellon University”或“CMU”;然而,在中文等包括汉字的网页上,该大学的超链接文本会是“卡内基梅隆大学”,等。再如,“京都大学”的主页是http://www.kyoto-u.ac.jp,而在中文、日文等包括汉字的网页上,该大学的超链接文本会是“京都大学”。在此,“京都大学”即是日文超文本,也是中文超文本。可以理解,随着国际交流的发展,同一网页或网站上可以提供不同语言的超文本,以便于读者查询。例如,在日文或英文网站上均可提供中文超文本,在中文的网页上也可以提供其它语言的超文本,如英文的超文本。在读者根据其所熟悉的语言进行超文本查询之后,再选择是否阅读该超文本所链接的原文内容。
本发明仅仅限定所要搜索的超文本的表示语言与关键词的表示语言相同。本领域的普通技术人员可以理解,限定所要搜寻的网页语言的类型并非是本发明所必需的。
因此,对于同一URL(网页)存在多语言超文本,而这些不同语言的超文本是最佳“翻译”,因为这些超文本不是词到词的翻译,而是告诉访问者该网页的内容概要。而且,超文本比机器甚至人工翻译更准确和客观。
即,基于超文本的多语言网络搜索的基本思想在于根据超文本及其目标URL搜索相关URL。利用“概念”翻译和通过迭代搜索扩展查询,识别有用的互联网资源而不管各网页使用的语言。此外,通过统计的手段,基于超文本的搜索还消除了类似“click it”这样的价值不大的超链接。
例如,假定一个中国的互联网用户希望查询“读者文摘”杂志的主页,他/她会输入中文表示的“读者文摘”(关键词),由于有许多中文网页包含指向“读者文摘”杂志网站的超链接,而且多数对应该超链接的超文本包含中文表示的“读者文摘”,因此,通过超文本与关键词的匹配和超链接分布分析,就可以搜索到“读者文摘”杂志的URL(http://www.rd.com)。
以下,参照附图来详细说明本发明的实施例。
图1显示了应用本发明的一种实现方式的搜索系统的示意图。参照图1,该搜索系统包括网络爬虫(Web crawler)1,其与互联网2连接,并且网络爬虫1从互联网2下载网页;还包括数据索引模块3、分析评估模块5以及搜索界面6。
下面说明本发明的搜索系统提供搜索服务的过程。
在提供搜索服务前,由网络爬虫1从互联网2下载尽可能多的网页,然后存储在网页库31中。然后数据索引模块3从各网页提取所有超链接文本和对应的超链接地址,此外还包括网页标题,并提供了快速访问的索引。数据索引模块3完成了数据的原始加工,将上述索引数据形成URL DB(数据库)并存入网页库31中。网页库31包含URL DB和URL索引项(Registry)。URL索引项用于快速访问URL DB中的数据项,也就是说,一旦指定了某个URL就可以根据URL索引项在URL DB中直接找到对应URL的数据,而不必从URL DB的第一条搜索到最后一条。在图1中,URL索引33是每个URL在URL DB中对应的独一无二的索引值,而文本索引32指的是对应超链接文本的索引,即对文本进行索引从而实现快速查找。URL DB的结构将在后面详细说明。
通过搜索界面6,用户提交搜索服务请求,即提交要查询的关键词,然后搜索界面6将要查询的关键词传递给分析评估模块5。分析评估模块5根据已有的索引数据与要查询的关键词进行动态匹配。分析评估模块5包括超文本IR(信息检索)51和超链接分析52,超文本IR 51计算各超文本对于要查询的关键词的相似程度S,而超链接分析52计算各网页(URL)的重要程度,然后分析评估模块5根据超文本IR 51和超链接分析52的计算结果进行综合评估,并且将综合评估的结果进行排序。最后,分析评估模块5把排序结果通过搜索界面6返回给用户,用户就可找到最符合要求的URL。
图2更详细地描述了图1中网络爬虫1的配置。在图2中,网络爬虫1包括管理控制台11、主机器人12和从机器人13-16,即,显示了网络爬虫1的一种分布式配置。当然,网络爬虫1也可以配置为单一的主机。管理控制台11通过主机器人12的控制,与从机器人13-16协同,从互联网2下载网页并且存储在图1中所示的网页库31中。
参照图3,说明根据本发明的基于超文本的多语言网络信息搜索方法的流程。首先在步骤101,用户以A语言(即本语言)提交关键词请求查询。本语言,通常是用户的母语,例如A语言是中文,而关键词是“上海交通大学”。在接收到A语言(如中文)的如“上海交通大学”的关键词后,在步骤102,搜索以A语言表达的所有超文本,同时与关键词如“上海交通大学”进行匹配。优选地,利用由数据索引模块3从互联网上下载并建立好的URLDB中的索引数据,可以使该搜索快速完成。如上所述,图1所示的文本索引32是对应超链接文本的索引,通过对文本进行索引从而能够实现快速查找。因此,可获得与关键词匹配的以A语言表达的所有超文本。如下面在图4中所述,在URL DB中,与关键词“上海交通大学”匹配的超文本包括“交大”、“上海交大”、“交通大学”、“上海交通大学”、“上交大”和“上海交大”。
在步骤103,从匹配的以A语言表达的所有超文本提取URL,提取的URL不仅涉及指向A语言表示的网页,而且涉及指向A语言以外的其它语言表示的网页。因此,通过提取超文本对应的URL,实现了向多语言信息搜索的扩展。优选地,利用下面在图4中所述的URL DB中的“URL索引”,可以快速提取对应各超文本的URL。
在步骤104,计算所述超文本对于要查询的关键词的相似程度S。超文本di和关键词Q都可以用矢量来表示,两个矢量夹角之间的余弦值就代表了它们的相似程度S,引入下面的公式表示的VSM(矢量空间模型)进行文本相似程度S的计算。
S ( d i , Q ) = Σ j = 1 n d ij · q j Σ j = 1 n d ij 2 · Σ j = 1 n q j 2 - - - ( 1 )
其中,di表示的是网页d中第i个的超文本,dij表示第i个超文本的第j维,qj表示关键词Q的第j维;第j维的意思是,无论是超链接文本还是关键词,都可以划分为多维矢量,比如说超链接文本“IBM software group”是一个3维的矢量,而关键词“IBM software development tool”是一个4维矢量,对于中文来说,每个汉字对应1维,对于英文则是每个单词对应1维。如果超文本di和关键词Q完全一致,则S值为1;如果超文本di里没有一个词在关键词Q中出现,则S值为0。
同时,在步骤105,计算URL(网页)重要程度。可以通过超链接追溯来发现受欢迎的网页,而高质量网页具有比平均情况更多的超链接。URL(网页)重要程度可通过下面的递归和/或迭代计算来获得。
PR ( v ) = ϵ / n + ( 1 - ϵ ) Σ u , v ∈ G PR ( u ) / outlink ( u ) - - - ( 2 )
其中,PR(v)指网页v的重要程度,它由全体包含了指向它的网页的PR值所决定,比如网页v被10个网页所链接,那么这10个网页的重要程度就决定了网页v的重要程度;outlink(u)指的是网页u(它一定包含了指向v的超链接)内所有超链接的数量;n为所有网页的数量;ε是一个调节参数,代表公式(2)的页面中链接到v页面的超链接对计算结果的影响程度,该值越大表示链接到该页面的单个超链接的对v的PR值贡献越多,ε的值一般在0-1之间,优选为0.1-0.2,这是根据实验估计的最优值。
接着,在步骤106,通过结合超链接(超文本)相似程度S和URL(网页)重要程度PR(v),进行综合评估,得到下面的结果。
R(d)=PR(d){1+δ·S(d,Q)}    (3)
其中,R(d)是组合公式1和公式2的综合评估结果值,它根据每个网页d固定的重要程度值PR(d)和关键词Q,动态计算各网页对应某个关键词的重要程度。其中,S代表网页d包含的超文本di和关键词Q的相似程度;参数δ用来调节公式1和公式2在公式3中的权重;δ代表公式(3)中超链接分析对公式结果的影响程度高还是文本相关性分析的结果对公式结果的影响程度高,其值在0-1之间,δ越大表示文本相关性对公式结果影响程度高,优选取0.4。
由此,根据公式3的综合评估结果进行排序,例如根据R(d)值的大小排序,其中与要查询的关键词最相关的网址的R(d)值最大。然后在步骤107,将排序结果以例如超文本列表形式返回给用户。在超文本列表中,通常使用公知的HTML表示形式:每个超文本对应其URL地址,该URL地址可链接到所指向的网页。
作为选择,在超链接排序步骤中,可以按照超链接被指向的数量来确定超链接的重要程度。被指向最多的超链接具有与要查询的关键词最匹配的信息,与要查询的关键词最相关,因而该链接排在首位。
图4显示了URL DB(数据库)的结构。在图4中,URL DB中的每条数据通过URL索引项来索引,利用索引可以快速地在URL DB中定位到一条记录数据,每个URL对应一个网页。在图4中,“索引”字段表示URL的索引号;“URL”字段代表网页的地址,即URL;“链接数”字段表示该网页内的超链接数;“标题”字段表示该网页的标题;“网页重要程度值”字段表示该网页的重要程度值(即PR,PageRank),该值使用上述的公式2所述的算法获得;“锚定文本(anchor text)”字段代表所有链接了该网页的超链接文本(超文本),将所有锚定文本索引形成文本索引,即文本索引类似一个目录,用来快速检索URL DB中的超链接文本;而“URL索引”字段表示包含该网页的超链接的网页在URL DB中的索引值。例如,图4中的一个网页,其“URL”为“www.sjtu.edu.cn”,在URL DB中的索引值为0,该网页内的超链接数为63,其网页标题是“上海交通大学”,其PR值是3.455E-7,所有链接该网页的超链接文本显示在“锚定文本”字段,即包括“交大”、“上海交大”、“交通大学”、“上海交通大学”、“上交大”和“上海交大”,而分别与上述超链接文本一一对应,包含该网页的超链接的网页在URL DB中的索引值显示在“URL索引”字段,即对应地分别是“5894”、“23658”、“584521”、“296”、“99”和“3257”。
参照图5,说明根据本发明的基于超文本的多语言网络信息搜索系统的框图。在图5中,该搜索系统包括接收装置501、搜索装置502、超链接提取装置503、排序装置504和输出装置505。接收装置501接收用户以A语言(即本语言)输入的关键词,然后传递给搜索装置502。搜索装置502搜索以A语言表达的所有超文本,同时与关键词如“上海交通大学”进行匹配。如上所述,优选地,利用由数据索引模块3从互联网上下载并建立好的索引数据,搜索装置502可以使该搜索更快速。超链接提取装置503从与关键词匹配的所有超文本提取URL,这可以通过图4所示的URL DB快速实现。所述提取的URL不仅涉及指向A语言表示的网页,而且涉及指向A语言以外的其它语言表示的网页。所述提取的URL被传递给排序装置504,由排序装置504根据上述公式1计算URL对应的超文本对于要查询的关键词的相似程度,还根据上述公式2计算各URL(网页)的重要程度,然后根据综合上述公式1和2的上述公式3对提取的URL进行分析计算,以进行综合评估。排序装置504还根据综合评估的结果进行排序,例如根据上述公式3计算的综合评估结果R(d)值的大小排序,其中与要查询的关键词最相关的网址的R(d)值最大。最后,输出装置505将排序结果以例如超文本列表形式返回给用户,其中被指向最多的超链接(即R(d)值最大)对应的网页具有与要查询的关键词最匹配的信息。
以上说明了本发明的具体实施方式,但本发明不限于上述实施方式,在不脱离本发明范围的情况下,可以进行各种变形和修改。

Claims (8)

1.一种基于超文本的多语言网络信息搜索方法,用于在网络上搜索要查询的关键词,该搜索方法包括以下步骤:
接收步骤,用于接收用户输入的关键词;
本语言超文本搜索步骤,用于根据要查询的关键词,在网络上搜索表示语言与表示关键词的语言相同的、与要查询的关键词匹配的所有超文本;
超链接提取步骤,用于从搜索到的所有超文本提取有关任意语言的超链接;
超链接排序步骤,用于按照超链接与要查询的关键词的相关程度对所述提取的超链接进行排序;以及
输出步骤,用于向用户返回所述排序的搜索结果。
2.根据权利要求1所述的基于超文本的多语言网络信息搜索方法,其中:
在超链接排序步骤中,被指向最多的超链接具有与要查询的关键词最匹配的信息。
3.根据权利要求1所述的基于超文本的多语言网络信息搜索方法,其中:
在本语言超文本搜索步骤,预先从互联网上下载网页并进行数据索引,用于快速搜索与要查询的关键词匹配的超文本;并且
超链接排序步骤按照超文本对于要查询的关键词的相似程度和超链接重要程度对所述超链接进行排序。
4.根据权利要求3所述的基于超文本的多语言网络信息搜索方法,其中所述超文本对于要查询的关键词的相似程度如下确定:
S ( d i , Q ) = Σ j = 1 n d ij · q j Σ j = 1 n d ij 2 · Σ j = 1 n q j 2
其中,di表示网页d的第i个的超文本,dij表示第i个超文本的第j维,qj表示关键词Q的第j维,n为第i个超文本di的最大维数,而S代表了超文本di和关键词Q的相似程度。
5.一种基于超文本的多语言网络信息搜索系统,用于在网络上搜索要查询的关键词,该搜索系统包括:
接收装置,用于接收用户输入的关键词;
本语言超文本搜索装置,用于根据要查询的关键词,在网络上搜索表示语言与表示关键词的语言相同的、与要查询的关键词匹配的所有超文本;
超链接提取装置,用于从搜索到的所有超文本提取有关任意语言的超链接;
超链接排序装置,用于按照超链接与要查询的关键词的相关程度对所述提取的超链接进行排序;以及
输出装置,用于向用户返回所述排序的搜索结果。
6.根据权利要求5所述的基于超文本的多语言网络信息搜索系统,其中在超链接排序装置排序后,被指向最多的超链接具有与要查询的关键词最匹配的信息。
7.根据权利要求5所述的基于超文本的多语言网络信息搜索系统,其中:
本语言超文本搜索装置预先从互联网上下载网页并进行数据索引,用于快速搜索与要查询的关键词匹配的超文本;并且
超链接排序装置按照超文本对于要查询的关键词的相似程度和超链接重要程度对所述超链接进行排序。
8.根据权利要求7所述的基于超文本的多语言网络信息搜索系统,其中所述超文本对于要查询的关键词的相似程度如下确定:
S ( d i , Q ) = Σ j = 1 n d ij · q j Σ j = 1 n d ij 2 · Σ j = 1 n q j 2
其中,di表示网页d的第i个的超文本,dij表示第i个超文本的第j维,qj表示关键词Q的第j维,n为第i个超文本di的最大维数而S代表了超文本di和关键词Q的相似程度。
CNB200410055624XA 2004-07-30 2004-07-30 基于超文本的多语言网络信息搜索方法和系统 Expired - Fee Related CN100568230C (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CNB200410055624XA CN100568230C (zh) 2004-07-30 2004-07-30 基于超文本的多语言网络信息搜索方法和系统
US11/192,477 US7711682B2 (en) 2004-07-30 2005-07-29 Searching hypertext based multilingual web information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB200410055624XA CN100568230C (zh) 2004-07-30 2004-07-30 基于超文本的多语言网络信息搜索方法和系统

Publications (2)

Publication Number Publication Date
CN1728134A CN1728134A (zh) 2006-02-01
CN100568230C true CN100568230C (zh) 2009-12-09

Family

ID=35927410

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200410055624XA Expired - Fee Related CN100568230C (zh) 2004-07-30 2004-07-30 基于超文本的多语言网络信息搜索方法和系统

Country Status (2)

Country Link
US (1) US7711682B2 (zh)
CN (1) CN100568230C (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101025737B (zh) * 2006-02-22 2011-08-17 王东 基于关注度的同源信息搜索引擎聚合显示方法
CN101042692B (zh) * 2006-03-24 2010-09-22 富士通株式会社 基于语义预测的译文获取方法和设备
WO2007133625A2 (en) * 2006-05-12 2007-11-22 Eij Group Llc Multi-lingual information retrieval
US9575953B2 (en) * 2006-09-07 2017-02-21 Nec Corporation Natural-language processing system and dictionary registration system
CN101166211A (zh) * 2006-10-16 2008-04-23 琥珀媒体有限公司 一种提供网络资源信息以及对应服务的方法和系统
US8346763B2 (en) * 2007-03-30 2013-01-01 Microsoft Corporation Ranking method using hyperlinks in blogs
US8117194B2 (en) * 2007-05-07 2012-02-14 Microsoft Corporation Method and system for performing multilingual document searches
US7890493B2 (en) * 2007-07-20 2011-02-15 Google Inc. Translating a search query into multiple languages
WO2009039524A1 (en) * 2007-09-21 2009-03-26 Google Inc. Cross-language search
CN101546309B (zh) * 2008-03-26 2012-07-04 国际商业机器公司 对计算机网络中的资源内容构建索引的方法和设备
US7698688B2 (en) 2008-03-28 2010-04-13 International Business Machines Corporation Method for automating an internationalization test in a multilingual web application
US8510262B2 (en) * 2008-05-21 2013-08-13 Microsoft Corporation Promoting websites based on location
US8543580B2 (en) 2008-12-23 2013-09-24 Microsoft Corporation Mining translations of web queries from web click-through data
CN102193932B (zh) * 2010-03-09 2012-12-19 北京金山软件有限公司 一种确定搜索项的方法和系统
US9411793B2 (en) 2010-07-13 2016-08-09 Motionpoint Corporation Dynamic language translation of web site content
US8271869B2 (en) 2010-10-08 2012-09-18 Microsoft Corporation Identifying language translations for source documents using links
US20120239667A1 (en) * 2011-03-15 2012-09-20 Microsoft Corporation Keyword extraction from uniform resource locators (urls)
CN102891874B (zh) * 2011-07-21 2017-10-31 腾讯科技(深圳)有限公司 一种基于会话提供搜索提示信息的方法、装置及系统
CN102693279B (zh) * 2012-04-28 2014-09-03 合一网络技术(北京)有限公司 一种快速计算评论相似度的方法、装置及系统
JP2014056503A (ja) * 2012-09-13 2014-03-27 International Business Maschines Corporation 多言語環境でのコミュニケーションに適する非テキスト要素を特定するためのコンピュータ実装方法、プログラム、および、システム
TWI502381B (zh) 2013-04-24 2015-10-01 Ind Tech Res Inst 別名查詢系統及其方法
CN103491165B (zh) * 2013-09-22 2017-04-12 复旦大学 自动检测屏蔽的通用分布式爬虫系统
US10452786B2 (en) * 2014-12-29 2019-10-22 Paypal, Inc. Use of statistical flow data for machine translations between different languages
CN106033428B (zh) * 2015-03-11 2019-08-30 北大方正集团有限公司 统一资源定位符的选择方法和统一资源定位符的选择装置
HK1220319A2 (zh) * 2016-07-29 2017-04-28 李應樵 基於結構化網絡知識的自動中文本體庫建構方法、系統及計算機可讀介質
CN108090060A (zh) * 2016-11-21 2018-05-29 中兴通讯股份有限公司 问答系统、问题答案的显示方法及终端
US10691734B2 (en) * 2017-11-21 2020-06-23 International Business Machines Corporation Searching multilingual documents based on document structure extraction
US10387576B2 (en) * 2017-11-30 2019-08-20 International Business Machines Corporation Document preparation with argumentation support from a deep question answering system
CN110930208B (zh) * 2018-09-19 2023-05-05 阿里巴巴集团控股有限公司 对象搜索方法及装置
CN110347904A (zh) * 2019-05-28 2019-10-18 成都美美臣科技有限公司 一个多语言电子商务网站处理语言搜索方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6285999B1 (en) * 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US5999929A (en) 1997-09-29 1999-12-07 Continuum Software, Inc World wide web link referral system and method for generating and providing related links for links identified in web pages
US6112203A (en) 1998-04-09 2000-08-29 Altavista Company Method for ranking documents in a hyperlinked environment using connectivity and selective content analysis
US6691108B2 (en) 1999-12-14 2004-02-10 Nec Corporation Focused search engine and method
US6757646B2 (en) * 2000-03-22 2004-06-29 Insightful Corporation Extended functionality for an inverse inference engine based web search
WO2002063481A1 (en) 2001-02-07 2002-08-15 Infodraw Inc. A dynamic object type for information management and real time graphic collaboration
US7010527B2 (en) 2001-08-13 2006-03-07 Oracle International Corp. Linguistically aware link analysis method and system
US20030225763A1 (en) 2002-04-15 2003-12-04 Microsoft Corporation Self-improving system and method for classifying pages on the world wide web
US7092938B2 (en) 2002-08-28 2006-08-15 International Business Machines Corporation Universal search management over one or more networks

Also Published As

Publication number Publication date
US7711682B2 (en) 2010-05-04
CN1728134A (zh) 2006-02-01
US20060059132A1 (en) 2006-03-16

Similar Documents

Publication Publication Date Title
CN100568230C (zh) 基于超文本的多语言网络信息搜索方法和系统
US6289342B1 (en) Autonomous citation indexing and literature browsing using citation context
US6714905B1 (en) Parsing ambiguous grammar
KR101450358B1 (ko) 구조형 지리적 데이터 검색
US7243095B2 (en) Prose feedback in information access system
US7376641B2 (en) Information retrieval from a collection of data
US6604101B1 (en) Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network
US20070022085A1 (en) Techniques for unsupervised web content discovery and automated query generation for crawling the hidden web
CN102073726B (zh) 搜索引擎系统的结构化数据的引入方法和装置
US20090106203A1 (en) Method and apparatus for a web search engine generating summary-style search results
Manjari et al. Extractive Text Summarization from Web pages using Selenium and TF-IDF algorithm
US20070198727A1 (en) Method, apparatus and system for extracting field-specific structured data from the web using sample
CN102073725A (zh) 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
US7024405B2 (en) Method and apparatus for improved internet searching
WO2002027541A1 (en) A method and apparatus for concept-based searching across a network
CN101393565A (zh) 基于本体的面向虚拟博物馆的搜索方法
CN101661490A (zh) 搜索引擎、其客户端及搜索网页的方法
US20030018617A1 (en) Information retrieval using enhanced document vectors
US8640017B1 (en) Bootstrapping in information access systems
KR100234271B1 (ko) 이동 검색 엔진을 이용한 실시간 정보검색 방법
Seger A bounded delay race model
US7127450B1 (en) Intelligent discard in information access system
Liu et al. Digging for gold on the Web: Experience with the WebGather
JP2006529044A (ja) 定義付けシステムおよび方法
US8478732B1 (en) Database aliasing in information access system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20091209

Termination date: 20150730

EXPY Termination of patent right or utility model