CN102385609B - 对于包含非编码字符的查询使用统一资源定位符来增强搜索结果相关性排序 - Google Patents
对于包含非编码字符的查询使用统一资源定位符来增强搜索结果相关性排序 Download PDFInfo
- Publication number
- CN102385609B CN102385609B CN201110252294.3A CN201110252294A CN102385609B CN 102385609 B CN102385609 B CN 102385609B CN 201110252294 A CN201110252294 A CN 201110252294A CN 102385609 B CN102385609 B CN 102385609B
- Authority
- CN
- China
- Prior art keywords
- nec
- url
- word
- character
- webpage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002708 enhancing effect Effects 0.000 title abstract description 3
- 230000004044 response Effects 0.000 claims abstract description 14
- 238000013507 mapping Methods 0.000 claims description 50
- 238000000034 method Methods 0.000 claims description 42
- 238000005728 strengthening Methods 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 12
- 230000008878 coupling Effects 0.000 description 8
- 238000010168 coupling process Methods 0.000 description 8
- 238000005859 coupling reaction Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000013011 mating Effects 0.000 description 4
- 230000000712 assembly Effects 0.000 description 3
- 238000000429 assembly Methods 0.000 description 3
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 244000089409 Erythrina poeppigiana Species 0.000 description 1
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
计算机可读媒体、计算机系统以及计算设备有助于利用统一资源定位符(URL)/非编码字符(NEC)字对来增强网页索引,以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序。URL从网页中接收,并从URL中提取子串。附加的元素从网页中接收、被断字成NEC字序列并被转换成编码语言表示,其中编码语言表示相对于URL子串进行匹配,以标识候选URL/NEC对,以便在相关性排序中使用。
Description
背景技术
与网页相对应的统一资源定位符(URL)已显示为包含用于测量网页对于搜索查询的相关性的有用信息。已执行了大量的解决利用URL来改善搜索结果相关性排序的质量的问题的工作。这种工作传统上集中于西方语言网页,其字母集合例如能够通过编码诸如ASCII字符之类的字符来表示,这是因为URL由US-ASCII字符集(在这里称为编码字符)中的字符的字符串组成。
对于包括不允许在URL中使用的字符(即,“非编码字符”(NEC),例如,其可以包括中文、日文,韩文和其他的类似语言)的语言而言,由于URL利用编码字符来表示,所以将查询与URL匹配往往是困难的。为了更有效地将URL用于NEC语言市场中的相关性排序,所希望的是以相同的格式来表示搜索查询和相应的URL。能够采用两种方式之一来实现一致的格式。第一种方式是在在线服务时间改变查询,其中NEC查询基于映射表被变换为英文单词、拼音表示(即,中文字符的发音)、数字字符或这些的组合,其中映射表根据NEC字与其对应的编码语言形式之间类似的含义或发音的规则离线建立。另一种更坚固的方案是将URL中的有意义部分转换成NEC字,并在索引生成期间将转换的URL内置到网页索引中。
发明内容
这个概述部分用于以简化形式介绍下面在详细描述部分中进一步描述的概念的选择。这个概述部分不打算标识所请求保护的主题的关键特征或基本特征,也不打算被孤立用作辅助手段来确定所请求保护的主题的范围。
本发明的实施例用于执行离线程序,其中这些离线程序通过包括URL与相应NEC字的配对来有助于增强网页索引,以便于NEC语言搜索的搜索结果相关性排序。在实施例中,网页的URL被接收。URL子串从URL中进行提取,并与消除歧义信息进行比较,以推断出该URL的恰当的相应NEC表示。在实施例中,例如,诸如标题、锚(anchor)、层次结构中的字符串等之类的元素从网页中进行提取。每一个元素被断字(word-broken)为NEC字的序列。参考NEC-编码语言映射表来标识元素中的每个NEC字的所有可能的编码语言表示。在实施例中,代表断字元素的格被生成,其中每一个节点对应于NEC字的可能的编码语言表示。
使用这些格,能够采用遍历这些格的算法,其定义能够与所提取的URL子串进行比较的格路径,以标识匹配。连同与相应匹配相关联的置信度分数(confidence score)一起,与URL子串相匹配的格路径被添加到潜在的候选字符串列表。这些潜在的候选字符串能够与相应URL子串进行配对,并被并入网页索引中,以便于在线采用的NEC语言搜索结果相关性排序。
附图说明
下面参考附图详细描述本发明的实施例,其中:
图1是适合于实施本发明的实施例的示例性计算设备的框图;
图2是适合于用于实施本发明的实施例的示例性网络环境的框图;
图3描述用于根据本发明的实施例利用NEC语言/编码语言配对来增强网页索引的处理组件的说明性的实施方式;
图4描述根据本发明的实施例的说明性的映射表;
图5描述根据本发明的实施例的显示其各子串的说明性的URL;
图6描述根据本发明的实施例的说明性的中文语言网页;
图7描述根据本发明的实施例的代表网页元素的说明性的格集合;
图8描述根据本发明的实施例的说明性的URL候选字符串匹配处理;
图9描述根据本发明的实施例的说明性的修剪格;
图10是说明根据本发明的实施例、利用URL/NEC字对来增强网页索引以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序的示例性方法的流程图;和
图11是说明根据本发明的实施例、利用URL/NEC字对来增强网页索引以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序的示例性方法的另一流程图。
具体实施方式
在这里披露的本发明的实施例的主题利用特异性来描述,以满足法定要求。但是,该描述本身并不打算来限制这个专利的范围。相反,发明人已考虑:配合其他的当前或未来的技术,所请求保护的主题也可能以其他的方式来实现,以包括不同的步骤或与这个文献中所描述的相类似的步骤的组合。此外,虽然在这里可能使用术语“步骤”和/或“方框”来暗示所采用的方法的不同元素,但是除非且除了明确地描述各步骤的顺序之外,这些术语不应被解释为暗指在这里所公开的各种步骤之中或之间任何特定的顺序。
在这里所描述的本发明的实施例包括计算设备和计算机可读媒体,用于使得计算设备执行利用URL/NEC字对来增强网页索引的方法,以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序。在实施例中,该说明性方法包括:接收与网页相对应的统一资源定位符(URL),其中URL包括编码字符的第一字符串。在实施例中,该说明性方法也包括:将编码字符的第一字符串变换为一个或多个NEC字;以及将NEC字的集合包括在网页索引中。
在第二说明性的实施例中,计算机可执行指令使得计算设备执行利用URL/NEC字对来增强网页索引的方法,以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序。在实施例中,该说明性方法包括:创建包括NEC语言与字符编码语言之间的映射的映射表。接收与网页相对应的统一资源定位符(URL)字符串。该方法的实施例也包括:参考来自网页的多个元素,并且基于这些元素,将URL字符串转换成NEC字的序列。在实施例中,该说明性方法也包括:构建包括NEC字集合的网页索引。
在第三说明性的实施例中,计算机可执行指令集提供利用URL/NEC字对来增强网页索引的示例性方法,以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序。在实施例中,该方法包括:接收与网页相对应的统一资源定位符(URL),以及从该URL中提取URL子串。从网页中接收元素,其中该元素利用NEC语言来表示,并且参考映射表来标识该元素的可能的编码字符表示。在实施例中,该说明性方法进一步包括:确定该元素的多个可能的编码字符表示之一与URL子串相匹配;以及将所选择的编码字符表示和相应NEC字包括在网页索引中。
本发明的实施例的各方面可以在计算机程序产品的一般语境中进行描述,其中计算机程序产品包括计算机代码或机器可用指令,这些指令包括由计算机或诸如个人数据助理或其他手持设备之类的其他机器执行的计算机可执行指令,诸如程序模块。一般,包括例程、程序、对象、组件、数据结构等等的程序模块指的是执行特定任务或实施特定的抽象数据类型的代码。本发明的实施例可以在各种系统配置中进行实践,其中系统配置包括专用服务器、通用计算机、膝上型计算机、更专业计算设备等等。本发明也可以在分布式计算环境中进行实践,其中任务由通过通信网络链接的远程处理设备来执行。
计算机可读媒体包括易失性和非易失性媒体、可拆卸和不可拆卸媒体二者,并考虑可由数据库、处理器和各种其他联网的计算设备读取的媒体。利用示例并且不是限制,计算机可读媒体包括以用于存储信息的任何方法或技术来实施的媒体。存储信息的示例包括计算机可执行指令、数据结构、程序模块和其他的数据表示。媒体示例包括但不限于RAM、ROM、EEPROM、闪存和其他的存储技术、CD-ROM、数字多功能盘(DVD)、全息媒体和其他的光盘存贮器、磁带盒、磁带、磁盘存贮器以及其他的磁存储设备。这些技术能够瞬间、暂时或永久存储数据。
下面描述其中可以实施本发明的各方面的示例性操作环境,以便提供对于本发明的各方面的一般背景。特别地,最初参见图1,用于实施本发明的实施例的示例性操作环境被显示,并一般被指定为计算设备100。计算设备100只是适当的计算环境的一个示例,并且不打算暗示针对本发明的使用或功能的范围的任何限制。计算设备100也不应该被解释为具有与所说明的任一组件或组件的组合有关的任何依赖或要求。
计算设备100包括直接或间接耦合下列设备的总线110:存储器112,一个或多个处理器114,一个或多个演示组件116,输入/输出端口118,输入/输出组件120,以及说明性的电源122。总线110代表的可能是一条或多条总线(例如,地址总线、数据总线或其组合)。虽然为了清晰起见而利用线条来显示图1的各个方块,但在现实中,划定各个组件并不是如此清晰的,并且用比喻而言,这些线条将更准确地是灰色和模糊的。例如,可以考虑诸如显示设备之类的演示组件是I/O组件。同样,处理器具有存储器。我们认识到,这是本领域的特性,并且重申:图1的框图仅仅说明能够与本发明的一个或多个实施例结合使用的示例性计算设备。不区分诸如“工作站”、“服务器”、“膝上型计算机”、“手持设备”等之类的类别,因为所有这些被考虑在图1的范围之内并称为“计算设备”。
存储器112包括存储在易失性和/或非易失性存储器中的计算机可执行指令113。该存储器可以是可拆卸的、不可拆卸的或其组合。示例性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等等。计算设备100包括与系统总线110耦合的一个或多个处理器114,其中处理器从诸如存储器112或I/O组件120之类的各种实体中读取数据。在实施例中,一个或多个处理器114执行计算机可执行指令113,以执行由计算机可执行指令115定义的各种任务和方法。一个或多个演示组件116被耦合到系统总线110,并且向用户或其他设备呈现数据指示。示例性演示组件116包括显示设备、扬声器、打印组件等。
I/O端口118允许将计算设备110逻辑耦合到包括I/O组件120的其他设备,其中的一些设备可以被内置。说明性组件包括麦克风、操纵杆、游戏手柄、卫星天线、扫描仪、打印机、无线设备、键盘、笔、语音输入设备、触摸输入设备、触摸屏设备、交互式显示设备或鼠标。I/O组件120也能够包括通信连接121,其能够有助于将计算设备100通信连接到远程设备,例如,诸如其他的计算设备、服务器、路由器等等。
由于URL通常由编码语言字符(例如,ASCII字符)组成,所以例如在中文网页设计者创建新的页面时,他往往使用英文单词、拼音、数字字符串或这些的组合来表示其中文名称。例如,如果该网页包括在线游戏(注意:用于“online games(在线游戏)”的相应断字中文是“网络 游戏”),则网页所有者可能例如为该URL选择以下ACSII名称:“online games”、“wangluoyouxi”(全拼音表示)或“wlyx”(缩写拼音)。因而,为了便于搜索结果相关性排序,搜索查询和网页索引信息应以类似方式来表示。
虽然将查询变更为其ASCII格式是将URL用于NEC(中文、日文和韩文语言)页面的相关性改进的一种解决方案,但是其往往是相对无效的和低效的。本发明的实施例反而便于将URL变换处理移到脱机(离线)环境,其中URL的有意义部分被转换为NEC字。在这种处理中,诸如标题和锚之类的重要页面内容能够用于决定或消除候选NEC字之间的歧义。这些NEC字能够被内置到网页索引中作为备用元流(metastream),以替换或补充用于NEC页面排序的原始URL元流。
现在转到图2,显示适合于用于实施本发明的实施例的示例性网络环境200的框图。网络环境200包括用户设备210、网络211、搜索引擎212、网页索引216(这包括与网页218和220相关联的可搜索的索引的信息,其能够由web服务器提供)以及NEC索引服务222。用户设备210通过网络211与搜索引擎212通信,其中所述网络可以包括任何数量的网络,例如,诸如局域网(LAN)、广域网(WAN)、因特网、蜂窝网络、对等(P2P)网络、移动网络或网络的组合。图2中所示的示例性网络环境200是一个合适的网络环境200的示例,并且不打算暗指对于在这个文献中公开的本发明的实施例的使用或功能的范围的任何限制。示例性网络环境200也不应被解释为具有与在这里说明的任何单个组件或组件的组合相关的任何依赖或要求。
用户设备210可以是能够允许用户向搜索引擎212提交搜索查询以及响应于搜索查询而从搜索引擎212接收搜索结果页面的任何类型的计算设备。例如,在实施例中,用户设备210可以是计算设备,诸如在上面参考图1所描述的计算设备100。在实施例中,用户设备210可以是个人计算机(PC)、膝上型计算机、工作站、移动计算设备、PDA、蜂窝电话等等。
搜索引擎212以及索引216和NEC索引服务222能够被实施为服务器系统、程序模块、虚拟机、一个或多个服务器的组件、网络等等。在一个实施例中,例如,组件212、216和222之中的每一个被实施为单独的服务器。在另一个实施例中,所有的组件212、216和222在单个服务器或服务器组上进行实施。
在一个实施例中,用户设备210与搜索引擎212和/或图2所示的其他组件相分离并且有别于这些组件。在另一个实施例中,用户设备210与搜索引擎212相集成。为了解释清楚,我们应描述其中用户设备210以及组件212、216和222之中的每一个是分开的实施例,同时明白:在本发明内考虑的各种配置中,可能并非如此。
如图2所示,用户设备210与搜索引擎212通信。搜索引擎212接收由用户经由用户设备210提交的搜索查询,即,搜索请求。从用户接收的搜索查询能够包括由用户手动或口头输入的搜索查询、向用户建议并由用户选择的查询以及由搜索引擎212接收的被用户以某种方式认可的任何其他的搜索查询。在实施例中,搜索查询包括一个或多个NEC字。由于在这里使用术语,所以“NEC字”指的是与NEC语言(例如,中文、日文、韩文等等)相关联的任何类型的符号、字符、标记、图画等等。“NEC字”也能够包括符号、字符、标记、图画等等的序列。也就是说,遍及目前披露的内容,“NEC字”能够指字、字的一部分、短语、缩写词或者书面或口头NEC语言的任何其他部分。
在一些实施例中,搜索查询能够仅包括NEC字,而在其他实施例中,例如,搜索查询能够包括NEC字和某些其他类型的字或字符诸如编码字符的组合。例如,搜索引擎212可以是或者包括搜索引擎、履带(crawler)等等。在一些实施例中,搜索引擎212被配置成使用通过用户设备210提交的查询来执行搜索。在各种实施例中,搜索引擎212能够为与用户设备210进行通信的用户提供用户界面,以有助于搜索体验。在一个实施例中,搜索引擎212监视搜索活动,并且能够产生一个或多个记录或日志,其表示搜索活动、所提交的先前查询、所获得的搜索结果等。这些服务能够进行杠杆作用(leverage),以便以许多不同的方式来改善搜索体验。根据本发明的不同实施例,搜索引擎212参考相关联的网页索引216来标识与从用户接收的搜索查询相关的搜索结果。
如图2所示,搜索引擎212与NEC索引服务222通信。在本发明的一个实施例中,索引服务222有助于利用URL/NEC字对来增强网页索引216,以便在网页索引216中标识的搜索结果的相关性排序中使用。在实施例中,NEC索引服务222脱机执行这样的增强,并提供最终得到的URL/NEC字对给网页索引216。
在一个实施例中,搜索引擎212被配置成接收所提交的查询,并且使用该查询来执行搜索。在一个实施例中,一旦标识满足搜索查询的搜索结果,搜索引擎212就利用诸如搜索结果页面之类的图形界面返回一组搜索结果给用户设备210。一组搜索结果包括被认为与用户定义的搜索查询相关的内容或内容网站(例如,包含内容的网页、数据库等等)的表示。例如,搜索结果可以被呈现为内容链接、片段、缩略图、概要等等。内容链接指的是与相关联内容的地址相对应的内容或内容网站的可选择的表示。例如,内容链接可以是与统一资源定位符(URL)、IP地址或其他类型的地址相对应的可选择的表示。这样,内容链接的选择能够导致用户的浏览器重定向至相应地址,由此用户能够访问相关联的内容。内容链接的一个常用示例是超链接(在这里可以互换地称为锚)。
如图2所示,搜索引擎212参考索引216。本领域普通技术人员应明白:索引216是可缩放的,并且实际上可能具有许多的与搜索引擎212相关联的索引模块。索引216能够驻留在与搜索引擎212相同的机器上。在另一个实施例中,索引216远离搜索引擎212,并且在任一种情况中,搜索引擎212与索引216通信,以执行搜索和检索存储在索引216或未在图2中示出的某一其他存储模块上的内容、索引项等等。
继续参考图2,NEC索引服务222包括URL字符串管道226、候选字符串管道228和匹配组件230。URL字符串管道226包括用于处理从网页218和220接收的URL的软件、组件、模块等等。在实施例中,URL字符串管道从URL中提取子串,以便在相对于从相应网页的元素中提取的候选字符串进行匹配中使用。在一些实施例中,例如,URL字符串管道从网页218或220接收URL、根据特殊字符(例如,“/”、“.”、“&”等等)来分割URL并且从分离的URL中提取子串(例如,子域、基域、路径等等)。URL子串随后能够被提供给匹配组件230,以便相对于候选字符串(或者,互换地,候选路径)进行匹配。
候选字符串管道228接收来自网页218和220的元素、从这些元素中提取NEC字,并且从这些NEC字中生成候选字符串,以便与所提取的URL子串进行匹配。在实施例中,元素能够包括任何类型的对象、文本、HTML元素等等,例如,诸如网页标题、锚、层次结构中的字符串以及来自网页主体的文本。例如,在一个实施例中,候选字符串管道228从网页218或220中提取网页的标题以及网页218或220的层次结构中的字符串。
在一些实施例中,如图2所示,网页220能够包括以另一个网页218为目标的锚221。由于在这里使用术语,所以“锚”指的是以网页为目标的一组超文本。在实施例中,锚221能够从网页220中进行提取,并与网页218相关联。每当接收到具有与锚221相同的超文本的锚时,能够更新与锚221的特定超文本相对应的频率指示,以反映该锚的频率,其中所述频率指的是在语法分析其他网页期间遭遇到具有以特定网页为目标的特定超文本集合的锚的次数。
候选字符串管道228将所提取的元素分为NEC字的序列。对于每一个NEC字,候选字符串管道在映射表232中查找NEC-编码字符映射,以找到所有其可能的编码表示,其中所述映射表例如可以保持在与NEC索引服务222相关联的存贮器234中。
暂时转到图4,描绘说明性的映射表400。图4中所示的说明性映射表是一个适当的映射表400的示例,并且不打算暗指任何的对于在这个文献中公开的本发明的实施例的使用或功能的范围的限制。该说明性映射表400也不应被解释为具有与在这里说明的任何单个组件或组件的组合相关联的任何依赖或要求。
如图4所示,例如,说明性映射表400包括NEC语言410与诸如ASCII字符、UTF-8字符等等的编码语言字符412之间的映射。在所说明的实施例中,映射表400包括中文字410与中文字的全拼音表示414之间的映射、中文字410与中文字的缩写拼音表示416之间的映射以及中文字410与相应的英文翻译418之间的映射。在实施例中,例如,映射表400可以从三个源中生成:汉-英词典(其包含446,908个翻译对);中文-拼音映射表(其包含60,878个中文字及其相应的拼音发音);以及一组各种不规则的但是流行的中文-ASCII映射对,诸如“sina<->新浪”和“elong<->艺龙”。在映射表400的各实施例中能够包括任何数量的其他源、NEC语言、映射等等。
返回到图2,并且根据本发明的实施例,候选字符串管道228生成与每一个处理的元素相对应的格。在实施例中,格的每个节点是与NEC字相对应的编码表示(例如,拼音或英文单词),并且通过该格的每条路径是该元素的候选编码字符串。因为网页218或220的主体通常包含大量的字,其中的大多数与URL字符串是无关的,因此,在一些实施例中,在这里描述的匹配处理中不使用该主体。然而,在一些实施例中,网页218或220的主体可以用于提供额外的信息,从中能够推断出URL子串的可能的NEC翻译。
根据本发明的实施例,NEC索引服务222利用URL字符串管道226、候选字符串管道228以及匹配组件230来标识URL子串与匹配NEC字的配对。相关领域的技术人员应该意识到:因为NEC语言的特性以及NEC语言与诸如编码字符(例如,拼音、英文等等)之类的西方语言之间翻译的特性,特定URL子串可能与许多不同的NEC字相匹配。在实施例中,NEC索引服务222也计算与匹配的配对相关联的置信度分数,其中这些分数可以与这些配对一起被提供给网页索引216,以便在搜索结果相关性排序程序中使用,如本领域中所公知的。
现在转到图3,描绘本发明的实施例的示例性实施方式300。示例性实施方式300包括具有相应URL 312以及一组元素314的网页310。如图3中所示,URL字符串管道316从网页310接收URL 312。候选字符串管道318从网页310接收元素314,并将这些元素变换为NEC字的序列,以便由匹配组件320使用。
一旦接收到URL 312,URL字符串管道从URL 312中提取URL 子串324。在实施例中,构成URL 312的每一个子串能够被提取,而在其他的实施例中,仅提取特定类型的子串。暂时转到图5,描绘示例性URL 500。如图5中所示,URL 500具有三个主要部分:方案512、域514和路径516。该方案代表与URL 500相关联的HTML文件所使用的协议。该域包括三个不同的子串:子域518、基域520和顶级域522。基域520通常是主办(host)网页310的网站的注册名称,而子域518通常代表网站的通道。顶级域522通常包含网站的类型和位置信息。路径516对主机网站上的网页410的目录和文件名进行编码(为了清楚起见而没有示出)。基于上面的URL结构分析,有意义的信息应一般在子域518、基域520和路径516中找到。基域520和子域518名称通常是导航查询的目标,而路径516能够提供有关网页310内容和类别的有用信息。
返回到图3,由于站点的官方名称经常出现在站点的页面标题、主体内容以及指向该站点的主页的锚文本等等中,所以这些类型的元素能够被杠杆作用,以推断出至从网页310中提取的URL 312的基域和子域部分的中文名称映射。此外,在URL的路径部分中的最后斜杠(或文件名称部分)之后的最后部分通常与页面标题以及可见标题具有密切相关性。在最后斜杠之前的路径部分有时也能够映射到该页面中的层次结构中的字符串。
继续参考图3,在URL字符串管道316中,例如,URL 312字符串被诸如“/”、“.”、“&”等之类的特殊字符分割。在实施例中,由URL字符串管道316提取URL子串324。例如,所提取的子串324能够包括子域、基域、路径等等。这些URL子串324是将与从元素314(例如,页面标题、锚、层次结构中的字符串等等)变换的候选编码字符串进行匹配的候选字符串。
如图3所示,候选字符串管道318包括将元素315分成NEC字328的序列的断字器(word breaker)326。每一个NEC字328被提供给变换器330,其中变换器330参考映射表322来确定每一个NEC字328的所有可能的编码语言表示。在实施例中,映射表322能够包括NEC语言与编码字符之间的映射。例如,在一个实施例中,映射表322包括中文字与英语表示之间的映射以及中文字与那些字的拼音表示之间的映射。一旦获得NEC字328的可能的编码语言表示,候选字符串管道328生成与每一个处理的元素相对应的格。在实施例中,格的每一个节点是与NEC字相对应的编码表示(例如,拼音或英文单词),并且通过该格的每一条路径是该元素的候选编码字符串。
候选字符串格322被提供给匹配组件320。匹配组件320接收每个提取的URL子串324,并将这些(子串)与从元素314中变换的每一个候选编码字符串进行匹配。根据一些实施例,在匹配之前,使用启发式规则来修剪该格,以使得匹配处理是有效的。例如,在一些实施例中,匹配处理开始于具有与URL子串相同的初始编码字符的格节点,其中所述格节点将与所述URL子串进行匹配。此外,在实施例中,因为观察显示与少于三个字符的英文单词的匹配往往是不可靠的,所以对于该格中的英文单词节点来说,如果由该英文单词的前三个字母字符构成的子串没有出现在任何的URL子串中,那么能够从该格中剪除该节点。进一步,在一些实施例中,能够假定:URL一般包括标题、锚和/或层次结构中的字符串的缩写,并因而应该在长度上短于这些元素。因此,在实施例中,当在该格的候选编码字符串中包含的拼音或英文项的数量超过将要匹配的URL子串的长度时,匹配组件320能够停止匹配处理。
根据实施例,由匹配组件320执行的候选匹配对搜索算法能够被描述为如下:
。
在上面的算法中,称为“MatchURLSubStringWithLattice”的函数将输入URL子串与每一个可能的格路径进行匹配,并输出匹配的格路径及其各自的置信度分数。在实施例中,这个函数能够被描述为如下:
。
在这个函数中,从具有与URL子串相同的初始字母或数字字符的格节点开始生成路径。首先,具有一个格节点的路径(即,长度=1)将与URL子串进行匹配,随后将匹配长度=2、长度=3等等的路径。匹配函数“MatchingTermInitialCharactersWithURL”被设计成将每一个项的初始子串与URL子串进行匹配。例如,如果候选路径是包含三个项“zhang”、“bo”、“zhi”的“zhang bo zhi”并且URL子串是“zbozh”,那么匹配处理能够如图8中所示。
暂时转到图8,说明示例性的格路径810“zhang bo zhi”和示例性的URL子串812“zbozh”。因而,例如,如利用箭头814所示,URL子串中的第一字符“z”能够匹配“zhang”的开头。类似地,如利用箭头816所示,由URL中的第二和第三字符组成的字符串“bo”能够匹配“bo”的开头。此外,如利用箭头818所示, 由URL中的第四和第五字符组成的字符串“zh”能够匹配“zhi”的开头。因此,这将是有效的匹配,并因而导致候选匹配对的标识。
随后,所有匹配的格路径将被添加到候选路径列表,并且能够为其中的每条格路径计算置信度分数。在实施例中,例如,置信度分数可以基于路径长度、匹配部分长度、跳过的节点号等等。在一些实施例中,可以采用各种量度来使得该算法是更坚固的。例如,在一些实施例中,能够使用人工智能、用户反馈、统计评估等等来调节在这里描述的NEC索引处理和算法的方面。在一个实施例中,匹配处理能够被配置成跳过一定数量的格节点,从而允许一些部分匹配进入最后的候选路径列表。
返回到图3,匹配组件20将最终得到的URL/NEC字对334(并且,在一些实施例中,相应的置信度分数)提供给映射表322。这样,在每次执行匹配处理时,能够更新映射表322,从而增加能够从映射表322中参考的可用映射的数量。此外,在实施例中,最终得到的URL/NEC字对334被包括在网页索引336中。在一些实施方式中,最终得到的URL/NEC字对334能够被添加到现有网页索引336。在其他的实施方式中,最终得到的URL/NEC字对334能够在创建网页索引336时被并入网页索引336中。在进一步实施例中,最终得到的URL/NEC字对334可以被保持在与网页索引336分离但是相关联的数据结构(例如,表格,数据库等等)中。
为了说明操作中的本发明的实施例,参考图6-9。在图6中说明示例性的中文网页600。示例性的中文网页包括标题610和层次结构中的字符串612。此外,如图2所示,来自以网页600为目标的其他网页的锚221能够被提取,并且频率指示与之相关联。在实施例中,三个最常发生的超文本集合(例如,作为其他网页上的锚)被选择(并且在这里可以被称为“前三位锚”)。
对于图6中描绘的示例性网页600,假定:基于目标网页600的频率,前三位锚是“张柏芝NSN首页”、“张柏芝”以及“女明星张柏芝”。如图6所示,网页600的标题是“张柏芝_明星主页_娱乐_资讯与娱乐_MSN中国”。在断字之后,前三位锚可以被表示成“张柏芝 msn 首页”、“张柏芝”以及“女 明星 张柏芝”。类似地,断字的标题是“张柏芝 明星 主页 娱乐 资讯 与 娱乐 msn 中国”。
为了本示例的目的,假设:对应于这些字的中文-编码语言(在这种情况中,利用拼音和英文表示来表征的ASCII)映射表类似于表1。
表1. 字的拼音和英文映射
中文字 | 拼音 | 英文 |
张柏芝 | zhang bo zhi | Cecilia |
首页 | shou ye | homepage |
女 | nv | female |
明星 | ming xing | star |
主页 | zhu ye | homepage |
娱乐 | yu le | entertainment |
资讯 | zi xun | news |
与 | yu | and |
中国 | zhong guo | China |
因此,在实施例中,前三位锚文本字符串和页面标题的候选ASCII字符串格可以如图7所示。暂时转到图7,说明示例性的候选ASCII字符串格的集合。如图7所示,从断字的锚和标题中生成格,这产生与前三名锚中的第一锚相对应的格710、与前三名锚中的第二锚相对应的格712以及与前三名锚中的第三锚相对应的格714。此外,如图7所示,断字的标题能够利用格716来表示。如先前所述,每一个格包括一组节点,每一个节点对应于NEC字的编码语言表示。例如,第一锚格710包括与拼音表示“zhang bo zhi”相对应的节点718、与英文表示“Cecilia”相对应的节点720、与英文单词“msn”(注意:这个单词不是从NEC字翻译而来的,因为它是以英文形式出现在网页600上)相对应的节点722、与拼音表示“zhu ye”相对应的节点724以及与英文表示“home-page”相对应的节点726。
根据一些实施例,对于网页600,利用第一锚短语“张柏芝 msn 主页”以及网页600的URL子串生成的格710的匹配处理可以被表征为如下。首先,URL被分割,并且能够提取以下URL子串:子域-“msn”;基域-“ynet”;以及路径-“ent stars zhangbozhi”。如先前所述,为了流线化匹配处理,能够修剪格710。例如,在实施例中,为了英文单词保留在格710中,该英文单词需要具有至少三个匹配的字符。因而,在一些实施方式中,由于“Cecillia”的前三个字符构成的子串是未在任一URL子串的初始部分中出现的“cec”,所以相应节点720从该格中被剪除。根据相同的算法,与英文表示“homepage”相对应的节点726也能够被剪除。因此,在修剪之后,格710显现为如图9所示。如图9所示,修剪的格900包括三个剩余节点:节点920“zhang bo zhi”,节点922“msn”,和节点924“zhu ye”。
然后,对于每一个URL子串,现在将描述示例性的匹配处理。首先,URL子串“msn”被选择。在修剪的格900中只有第二节点以“msn”中的第一字母“m”开始。因而,将要匹配的长度=1的第一路径是“msn”。当然,URL子串“msn”与路径“msn”完全匹配。因此,这条路径作为第一候选路径被添加到候选路径列表(为了简洁明了而没有示出)。接下来,定义长度=2的路径(即,“msn” “zhu ye”)。由于URL子串“msn”不包含节点“zhu ye”的任何初始子串,所以这条路径将不生成候选匹配路径。由于到达该格的末端,所以不能匹配其他路径。因此,对于URL子串“msn”,匹配处理产生一条候选路径:“msn”。然而,由于“msn”不是中文名称的映射,所以它没有被包括在最终的URL/中文字对列表中。
继续参考图9,下一个URL子串是“ynet”。由于在修剪的格900中没有节点以“y”开始,所以这个URL字符串没有候选匹配路径。接下来的URL子串是“ent”,并且在该格中没有节点以“e”开始。因此,URL子串相对于第一锚不具有候选匹配路径。类似地,由于在修剪的格900中没有节点以“s”开始,所以URL子串“stars”不具有候选匹配路径。但是,URL子串“zhangbozhi”的确具有候选匹配路径。该格中的第一节点以“z”开始。因而,将要匹配的长度=1的第一路径是“zhang bo zhi”。这条路径与URL子串“zhangbozhi”完美地匹配,并因此该候选路径被添加到候选路径列表。
继续该示例性的匹配处理,长度=2的路径(即,“zhang bo zhi” “msn”)被定义并相对于URL子串“zhangbozhi”进行匹配。由于URL子串“zhangbozhi”不包含节点“msn”的任何初始子串,所以这条路径无法产生候选匹配路径。因此,节点“msn”将被添加到JumpNodeList。接下来,定义长度=3的路径(即,“zhang bo zhi” “msn” “zhu ye”)。由于“msn”节点在JumpNodeList中,所以从该路径中移除它。因而,该路径变成“zhang bo zhi” “zhu ye”。URL字符串“zhangbozhi”不包含节点“zhu ye”的任何初始子串,并因此这条路径也无法产生候选匹配路径。因此,对于URL子串“zhangbozhi”,只有一条候选路径“zhang bo zhi”。与这条候选路径相对应的中文字是“张柏芝”。因而,匹配处理的输出包括一个URL/中文字对“zhangbozhi/张柏芝”。
利用上述的示例性的匹配处理的实施例,对于URL http://msn.ynet.com/ent/stars/zhangbozhi/,使用第一锚短语“张柏芝msn主页”获得一个URL/中文字对(即,zhangbozhi/张柏芝)。类似地,使用第三锚短语“女明星 张柏芝”获得一个配对(“stars/明星”);以及使用标题,获得三个配对(“zhangbozhi/张柏芝”)、(“stars/明星”)、(“ent/娱乐”)。因而,一起,基于上面的示例性的匹配算法,从URL http://msn.ynet.com/ent/stars/zhangbozhi/中获得三个不同的配对(“zhangbozhi/张柏芝”,“stars/明星”和“ent/娱乐”)。
为了扼要重述,上面的公开内容描述了用于利用URL/NEC字对来增强网页索引以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序的系统、机器、媒体、方法、技术、处理和选项。转到图10,说明显示根据本发明的实施例、用于利用URL/NEC字对来增强网页索引的示例性方法1000的流程图。在一些实施例中,说明性方法1000的实施例的各方面能够作为计算机可执行指令而被存储在计算机可读媒体上,其中计算机可执行指令由计算设备中的处理器来执行,从而使得计算设备实施该方法1000的各方面。当然,对于图11中所描绘的说明性方法或这些方法的其他任何的实施例来说,情况也是如此。例如,计算设备能够与搜索服务等等相关联。
在步骤1010,从网页中检索URL。该URL可以包括任意数量的字符、字和/或短语并且能够利用例如任何适当的诸如ASCII、UTF-8、UTF-16以及UTF-32之类的编码语言来表示。在步骤1020,该URL被转换成NEC字的序列。在实施例中,该URL能够被转换成NEC字的若干不同的候选序列,其中每一个序列能够响应于用户提交的搜索查询而被参考,以便于响应于该查询而提供的搜索结果的排序。在最后的说明性步骤,即步骤1030,NEC字的序列被包括在网页索引中,以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序。在一些实施例中,NEC字能够被集成到现有网页索引中,并且在其他实施例中,NEC字可以在生成索引时被集成到网页索引中。在一些实施例中,NEC字可以在网页索引内与URL相关联。在其他实施例中,NEC字(并且,一般地,其与URL的相关联性)能够被保持在与网页索引相分离但是相关联的索引、数据库、表格等等中。
现在转到图11,作为流程图来说明根据本发明的实施例、利用URL/NEC字对来增强网页索引的另一个说明性方法1100。该说明性方法1100的实施例包括创建映射表,如步骤1110所示。在实施例中,例如,该映射表包括一个或多个NEC字与诸如拼音、英文、数字等之类的相应编码字符之间的映射。在一些实施例中,该映射表能够被生成为表格、关系数据库、矩阵等等。
在步骤1120,与网页相对应的URL字符串被接收。在步骤1130,从URL中提取URL子串。在实施例中,例如,URL子串能够包括子域、基域、路径等等。在步骤11140(1140),从网页接收元素。根据本发明的各种实施例,该元素能够包括HTML元素、对象、文本、图像等等。在一个实施例中,例如,该元素是网页的标题。在另一个实施例中,例如,该元素能够是锚或层次结构中的字符串。
在步骤1150,定义候选路径。在实施例中,该候选路径通过遍历与该元素相对应的格来定义。例如,该元素可以被断字成NEC字的序列。每一个NEC字的所有可能的编码语言表示能够从映射表中获得。因而,该格能够包括一组节点,其中每一个节点对应于NEC字的潜在的候选编码语言表示。
在步骤1160,该系统确定:URL子串与候选路径相匹配。在实施例中,可以采取任意数量的措施将不同水平的效率和性能引入匹配处理,例如,诸如在定义候选路径之前修剪该格,省略与URL子串的特定部分不相匹配的节点等等。在步骤1170,计算与候选路径相关联的置信度分数。在实施例中,例如,能够基于路径长度、匹配部分长度、跳过的节点号等等来计算置信度分数。在最后的说明性步骤1180,例如,匹配URL/候选路径对被包括在网页索引中,其中它能够用于增强响应于用户提交的搜索查询的搜索结果相关性排序。
本发明的各种实施例已描述为说明性的而非限制性的。替代实施例将不时地变成明显的而不脱离本发明的实施例的范围。将明白:某些特征和子组合是实用的,并且可以被采用而不参考其他的特征和子组合。这利用权利要求书的范畴来预期并落入权利要求书的范畴之内。
Claims (10)
1.一种利用统一资源定位符URL/非编码字符NEC字对来增强网页索引的方法,以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序,所述方法包括:
接收与所述网页相对应的统一资源定位符URL,所述URL包括编码字符的第一字符串;
从所述URL中提取URL子串,所述URL子串包括编码字符的第一序列;
接收来自所述网页的元素,其中所述元素利用NEC语言来表示,其中所述元素包括从网页的标题、用于网页的锚文本和网页的主体内容中选择的网页的至少一个元素;
参考映射表,所述映射表包括多个NEC字与相应的编码字符之间的映射;
借助于所述映射表,标识所述元素的多个可能的编码字符表示;
确定所述元素的多个可能的编码字符表示之一与所述URL子串相匹配;以及
将所确定的编码字符表示和相应NEC字包括在网页索引中。
2.权利要求1所述的方法,其中标识所述元素的多个可能的编码字符表示包括:
将NEC字的第一字符串分成NEC子串的序列;以及
从所述映射表中检索每一个NEC子串的多个可能的编码字符表示。
3.权利要求2所述的方法,进一步包括:
创建与所述元素相关联的格,所述格包括多个节点,其中所述多个节点中的每一个节点对应于NEC子串的多个可能的编码字符表示之一;
定义候选字符串,其中所述候选字符串包括格路径;
确定所述候选字符串与所述URL子串相匹配;以及
确定与所述候选字符串相关联的路径置信度分数,其中所述确定所述元素的多个可能的编码字符表示之一至少部分地基于所述路径置信度分数。
4.权利要求1所述的方法,其中所述编码字符的第一字符串包括一个或多个英文字符。
5.权利要求1所述的方法,其中所述编码字符的第一字符串包括中文字的一个或多个拼音表示。
6.权利要求1所述的方法,其中所述NEC字包括中文字、日文字或韩文字。
7.一种利用统一资源定位符URL/非编码字符NEC字对来增强网页索引的设备,以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序,所述设备包括:
用于接收与所述网页相对应的统一资源定位符URL的装置,所述URL包括编码字符的第一字符串;
用于从所述URL中提取URL子串的装置,所述URL子串包括编码字符的第一序列;
用于接收来自所述网页的元素的装置,其中所述元素利用NEC语言来表示,其中所述元素包括从网页的标题、用于网页的锚文本和网页的主体内容中选择的网页的至少一个元素;
用于参考映射表的装置,所述映射表包括多个NEC字与相应的编码字符之间的映射;
用于借助于所述映射表来标识所述元素的多个可能的编码字符表示的装置;
用于确定所述元素的多个可能的编码字符表示之一与所述URL子串相匹配的装置;以及
用于将所确定的编码字符表示和相应NEC字包括在网页索引中的装置。
8.权利要求7所述的设备,其中所述编码字符的第一字符串包括一个或多个英文字符。
9.权利要求7所述的设备,其中所述编码字符的第一字符串包括中文字的一个或多个拼音表示。
10.权利要求7所述的设备,其中所述NEC字包括中文字、日文字或韩文字。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/871576 | 2010-08-30 | ||
US12/871,576 US8977624B2 (en) | 2010-08-30 | 2010-08-30 | Enhancing search-result relevance ranking using uniform resource locators for queries containing non-encoding characters |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102385609A CN102385609A (zh) | 2012-03-21 |
CN102385609B true CN102385609B (zh) | 2015-04-01 |
Family
ID=45698517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110252294.3A Active CN102385609B (zh) | 2010-08-30 | 2011-08-30 | 对于包含非编码字符的查询使用统一资源定位符来增强搜索结果相关性排序 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8977624B2 (zh) |
CN (1) | CN102385609B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8285719B1 (en) * | 2008-08-08 | 2012-10-09 | The Research Foundation Of State University Of New York | System and method for probabilistic relational clustering |
US9864809B2 (en) | 2010-07-13 | 2018-01-09 | Motionpoint Corporation | Dynamic language translation of web site content |
US8799310B2 (en) * | 2010-07-23 | 2014-08-05 | Hewlett-Packard Development Company, L.P. | Method and system for processing a uniform resource locator |
US9110904B2 (en) * | 2011-09-21 | 2015-08-18 | Verizon Patent And Licensing Inc. | Rule-based metadata transformation and aggregation for programs |
US9342615B2 (en) * | 2011-12-07 | 2016-05-17 | Google Inc. | Reducing redirects |
KR101911906B1 (ko) * | 2012-09-26 | 2018-10-25 | 에스케이플래닛 주식회사 | 3차원 객체 생성 장치 및 그 방법 |
JP5708608B2 (ja) * | 2012-10-04 | 2015-04-30 | コニカミノルタ株式会社 | ブラウザプログラム |
US9342908B2 (en) * | 2012-10-08 | 2016-05-17 | Auckland Uniservices Limited | Information retrieval and presentation methods and systems |
US9027128B1 (en) * | 2013-02-07 | 2015-05-05 | Trend Micro Incorporated | Automatic identification of malicious budget codes and compromised websites that are employed in phishing attacks |
US9195716B2 (en) * | 2013-02-28 | 2015-11-24 | Facebook, Inc. | Techniques for ranking character searches |
US9189557B2 (en) * | 2013-03-11 | 2015-11-17 | Xerox Corporation | Language-oriented focused crawling using transliteration based meta-features |
US9602616B2 (en) * | 2013-11-06 | 2017-03-21 | Neustar, Inc. | System and method for facilitating routing |
KR101911904B1 (ko) | 2016-09-30 | 2018-10-25 | 에스케이플래닛 주식회사 | 3차원 객체 생성 장치 및 그 방법 |
US11449495B2 (en) * | 2017-02-01 | 2022-09-20 | United Parcel Service Of America, Inc. | Indexable database profiles comprising multi-language encoding data and methods for generating the same |
CN111178065B (zh) * | 2019-12-12 | 2023-06-27 | 建信金融科技有限责任公司 | 分词识别词库构建方法、中文分词方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1332876A (zh) * | 1998-09-29 | 2002-01-23 | 埃里·阿博 | 更改因特网资源识别符和地址的方法和系统 |
CN1376981A (zh) * | 2002-04-28 | 2002-10-30 | 中国科学院计算机网络信息中心 | 在计算机网络资源中定位中文资源的智能寻址方法及其装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6738827B1 (en) | 1998-09-29 | 2004-05-18 | Eli Abir | Method and system for alternate internet resource identifiers and addresses |
CN1176432C (zh) | 1999-07-28 | 2004-11-17 | 国际商业机器公司 | 提供本国语言查询服务的方法和系统 |
US7412644B2 (en) | 2000-02-04 | 2008-08-12 | Aol Llc, A Delaware Limited Liability Company | System and process for delivering and rendering scalable web pages |
US6604101B1 (en) | 2000-06-28 | 2003-08-05 | Qnaturally Systems, Inc. | Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network |
US6766320B1 (en) | 2000-08-24 | 2004-07-20 | Microsoft Corporation | Search engine with natural language-based robust parsing for user query and relevance feedback learning |
US7401072B2 (en) | 2003-06-10 | 2008-07-15 | Google Inc. | Named URL entry |
CN1707476A (zh) | 2005-05-06 | 2005-12-14 | 贺方升 | 辅助翻译搜索引擎系统及其方法 |
-
2010
- 2010-08-30 US US12/871,576 patent/US8977624B2/en active Active
-
2011
- 2011-08-30 CN CN201110252294.3A patent/CN102385609B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1332876A (zh) * | 1998-09-29 | 2002-01-23 | 埃里·阿博 | 更改因特网资源识别符和地址的方法和系统 |
CN1376981A (zh) * | 2002-04-28 | 2002-10-30 | 中国科学院计算机网络信息中心 | 在计算机网络资源中定位中文资源的智能寻址方法及其装置 |
Also Published As
Publication number | Publication date |
---|---|
US8977624B2 (en) | 2015-03-10 |
US20120054192A1 (en) | 2012-03-01 |
CN102385609A (zh) | 2012-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102385609B (zh) | 对于包含非编码字符的查询使用统一资源定位符来增强搜索结果相关性排序 | |
JP5608766B2 (ja) | ターゲットページとは異なる文字セットおよび/または言語で書かれたクエリを使用する検索のためのシステムおよび方法 | |
CN101878476B (zh) | 用于查询扩展的机器翻译 | |
CN101868797B (zh) | 跨语言搜索 | |
US8010344B2 (en) | Dictionary word and phrase determination | |
US8332205B2 (en) | Mining transliterations for out-of-vocabulary query terms | |
US8626486B2 (en) | Automatic spelling correction for machine translation | |
US8412517B2 (en) | Dictionary word and phrase determination | |
CN102982021B (zh) | 用于消除语言转换中的多个读法的歧义的方法 | |
CN107690634B (zh) | 自动查询模式生成方法及系统 | |
JP2007122509A (ja) | 語句配列の自然度判定装置、方法及びプログラム | |
US20100286978A1 (en) | Aligning hierarchial and sequential document trees to identify parallel data | |
JP2005267638A (ja) | 改善されたスペルチェックのためのシステムおよび方法 | |
CN101794307A (zh) | 基于互联网分词思想的车载导航poi搜索引擎 | |
CN101743544A (zh) | 跨语言信息检索 | |
KR20140056231A (ko) | 검색 질의들의 소스 언어들 검출 | |
CN102163234A (zh) | 一种基于纠错相关度对查询序列进行纠错的设备和方法 | |
CN104169912A (zh) | 信息处理终端和方法,以及信息管理设备和方法 | |
JP2011204225A (ja) | 属性抽出装置および方法 | |
CN104281565A (zh) | 语义词典构建方法和装置 | |
Sarkar | Part-of-speech tagging for code-mixed indian social media text at icon 2015 | |
CN107169124B (zh) | 一种双语双解词典的查询方法 | |
CN101083550A (zh) | 一种实现网络实名的系统及方法 | |
JP2012243130A (ja) | 情報検索装置、方法、及びプログラム | |
JP5137140B2 (ja) | 出現表記レコード同定装置、削除規則生成装置、その方法、プログラム及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
ASS | Succession or assignment of patent right |
Owner name: MICROSOFT TECHNOLOGY LICENSING LLC Free format text: FORMER OWNER: MICROSOFT CORP. Effective date: 20150702 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20150702 Address after: Washington State Patentee after: Micro soft technique license Co., Ltd Address before: Washington State Patentee before: Microsoft Corp. |