CN102483748A - 用于地图搜索的查询解析 - Google Patents
用于地图搜索的查询解析 Download PDFInfo
- Publication number
- CN102483748A CN102483748A CN2009801610261A CN200980161026A CN102483748A CN 102483748 A CN102483748 A CN 102483748A CN 2009801610261 A CN2009801610261 A CN 2009801610261A CN 200980161026 A CN200980161026 A CN 200980161026A CN 102483748 A CN102483748 A CN 102483748A
- Authority
- CN
- China
- Prior art keywords
- sequence
- tokens
- score
- token
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Remote Sensing (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
用于基于用户查询解析的地图搜索的基于计算机的系统、装置和方法的实现。例如,提供了一种计算机实现的地图搜索方法,该方法包括:将来自用户的、用于地图搜索的输入条目解析成用于指示输入搜索条目中的位置信息的位置部分以及用于指示与该输入条目中的该位置部分相关联的搜索目标的查询部分;以及实施地图搜索以便基于该位置部分获得地理区域或位置、以及以便搜索关于与该查询部分相关联并且位于所获得的地理区域或位置处、之内或附近的一个或多个实体的信息。
Description
技术领域
本专利文献涉及地图搜索,包括用于地图搜索的系统、装置和方法。
背景技术
地图搜索是在由一个或多个通信网络(诸如因特网)中的一个或多个计算机服务器提供的数字地理地图和数据库中的基于计算机的搜索。计算机用户可以使用地图搜索引擎来从数字地理地图和相关联的数据库搜索并且获取文档、文件或数据,其中该地图搜索引擎是计算机程序。
发明内容
提供了用于基于用户查询解析的地图搜索的基于计算机的系统、装置和方法的实现。
在一个方面中,提供了一种计算机实现的地图搜索方法,该方法包括:将来自用户的、用于地图搜索的输入条目解析成用于指示输入搜索条目中的位置信息的位置部分以及用于指示与该输入条目中的该位置部分相关联的搜索目标的查询部分;以及实施地图搜索以便基于该位置部分获得地理区域或位置、以及以便搜索关于与该查询部分相关联并且位于所获得的地理区域或位置处、之内或附近的一个或多个实体的信息。
在另一个方面中,提供了一种计算机实现的地图搜索方法,该方法包括:将从用户接收的、用于地图搜索的输入条目分解成包括一个或多个令牌(token)的令牌序列,其中每个令牌包括用于表示该输入条目的段的项以及给该项注释的、用于指示该项的类型的类型;以及确定该令牌序列的可能的分割位置,其中,可能的分割位置将该令牌序列分割成一个或两个子序列。该方法还包括:对于每个该可能的分割位置确定可能的分割方式,其中,每个可能的分割方式将该令牌序列分割成以下中的至少一个:(1)用于指示位置信息的可能的位置部分和(2)用于指示与该位置部分相关联的搜索目标的可能的查询部分;对于每个该可能的分割方式的正确性的概率确定分割得分;以及选择具有最高分割得分的该可能的分割方式作为结果分割方式。
在另一个方面中,提供了一种用于提供计算机实现的地图搜索的系统,该系统包括:解析模块,用于将从用户接收的、用于地图搜索的输入条目解析成位置部分和查询部分中的至少一个;以及搜索模块,用于接收来自该解析模块的输出并且在接收到所解析的位置部分和查询部分之后搜索与该解析的位置部分和查询部分相关的信息以便向该用户返回地图搜索结果。在一个实现中,该系统可以包括:计算机网络,用于向该解析模块和该搜索模块并且向计算机提供通信;以及客户端计算机,该客户端计算机与该计算机网络通信以便从该用户接收用于地图搜索的该输入条目并且以便从该搜索模块接收结果。该计算机网络将来自该客户端计算机的该输入条目导向该解析模块并且将来自该搜索模块的结果导向该客户端计算机。
在另一个方面中,提供了一种用于提供计算机实现的地图搜索的系统,该系统包括:令牌模块,用于将从用户接收的、用于地图搜索的输入条目用令牌表示成包括至少一个令牌的令牌序列,其中每个令牌包括用于表示该输入条目的段的项以及给该项注释的类型;用于确定该令牌序列的可能的分割位置的装置,其中,可能的分割位置将该令牌序列分割成一个或两个子序列;用于对于每个该可能的分割位置确定可能的分割方式的装置,其中每个可能的分割方式将该令牌序列分割成可能的查询部分和可能的位置部分中的至少一个;用于对于每个该可能的分割方式确定分割得分的装置;用于选择具有最高分割得分的该可能的分割方式作为结果分割方式的装置;以及搜索模块,用于接收来自该令牌模块的输出以实施地图搜索并且生成到该用户的地图搜索结果。
在另一个方面中,提供了一种用于提供计算机实现的地图搜索的系统,该系统包括:用于接收由用户输入的输入条目的接口;以及处理单元,用于解析该输入条目以便将该输入条目分割成位置部分和查询部分中的至少一个并且基于解析结果搜索与该输入条目相关的信息。如果该输入条目被分割成位置部分和查询部分,则该处理单元基于该位置部分确定地理区域并且搜索关于与该查询部分相关联并且位于该地理区域中的实体的信息。
在另一个方面中,提供了一种用于提供计算机实现的地图搜索的系统,该系统包括:用于接收由用户输入的输入条目的接口;处理单元,用于将该输入条目令牌化成包括至少一个令牌的令牌序列并且确定该令牌序列的可能的分割位置。每个令牌包括用于表示该输入条目的段的项以及给该项注释的类型,并且可能的分割位置将该令牌序列分割成一个或两个子序列。该处理单元对于每个该可能的分割位置确定可能的分割方式,每个可能的分割方式将该令牌序列分割成可能的位置部分和/或可能的查询部分;对于每个可能的分割方式确定分割得分;以及选择具有最高分割得分的该可能的分割方式作为结果分割方式。
在另一个方面中,提供了一种用于存储指令的机器可读记录介质。当该指令由机器执行时使得该机器执行以下步骤:在基于来自用户的、用于地图搜索的输入条目实施该地图搜索之前,将该输入条目解析成用于指示该输入搜索条目中的位置信息的位置部分和用于指示与该输入条目中的该位置部分相关联的搜索目标的查询部分;以及实施地图搜索以便基于该位置部分获得地理区域或位置、以及以便搜索关于与该查询部分相关联并且位于所获得的地理区域或位置处、之内或附近的一个或多个实体的信息。
在另一个方面中,提供了一种用于记录多个指令的机器可读记录介质。当该指令由机器执行时使得该机器执行以下动作:将从用户接收的输入条目令牌化成包括至少一个令牌的令牌序列,其中每个令牌包括用于表示该输入条目的段的项以及给该项注释的类型;确定该令牌序列的可能的分割位置,其中可能的分割位置将该令牌序列分割成一个或两个子序列;对于每个该可能的分割位置确定可能的分割方式,其中每个可能的分割方式将该令牌序列分割成可能的查询部分和/或可能的位置部分;对于每个可能的分割方式确定分割得分;以及选择具有最高分割得分的该可能的分割方式作为结果分割方式。
在又一个方面中,提供了一种计算机实现的地图搜索方法,该方法包括:使得在基于来自用户的、用于地图搜索的输入条目实施该地图搜索之前,将该输入条目解析成用于指示输入搜索条目中的位置信息的位置部分和用于指示与该输入条目中的该位置部分相关联的搜索目标的查询部分。执行对该输入条目的该解析,而无需在先搜索对应于由该输入条目所指示的位置的地理编码。该方法包括使得实施地图搜索以便基于该位置部分获得地理区域或位置、以及以便搜索关于与该查询部分相关联并且位于所获得的地理区域或位置处、之内或附近的一个或多个实体的信息。
可以实现本文所述的用于计算机实现的地图搜索的以上以及其他方面,以实现一个或多个以下优点,包括有效的地图搜索、地图搜索结果的高准确性以及地图搜索结果到用户的快速递送。
在附图、说明书和权利要求中详细描述了用于计算机实现的地图搜索的系统、装置和方法的以上以及其他方面的示例和实现。
附图说明
图1是其中实现地图搜索的系统和方法的网络系统100的示例图。
图2是用于将输入条目分割成位置部分和查询部分的解析系统200的概念图。
图3是用于示出在图2中示出的字典240的示例性结构的示意图。
图4是用于图示训练统计模型的示例的流程图。
图5是用于示出在图2中示出的模型250的示例性结构的示意图。
图6A是用于图示解析输入条目的示例性过程的流程图。
图6B是用于图示解析输入条目的另一个示例性过程的流程图。
图7A图示了用于计算令牌序列的位置统计得分的示例性过程。
图7B图示了用于确定令牌序列的项位置得分的示例性过程。
图7C图示了用于确定令牌序列的类型位置得分的示例性过程。
图8A图示了用于计算令牌序列的查询统计得分的示例性过程。
图8B图示了用于确定令牌序列的项查询得分的示例性过程。
图8C图示了用于确定令牌序列的类型查询得分的示例性过程。
图9是用于图示执行地图搜索的示例性过程的流程图。
图10是用于实现本文档所描述的技术的示例性设备1000的框图。
在各种附图中相似的附图标记指示相似的元素。
具体实施方式
在本文档所描述的地图搜索方法中,地图搜索引擎处理由用户输入的、用于查询的输入条目,并且基于该输入条目中的信息提供用于反映该用户的兴趣的一个或多个搜索结果。例如,用户可能想要搜索关于特定条目(例如,商业)或关于位于具体地理位置处、之内或附近的特定种类的实体的信息。可以实现本文中所述的地图搜索方法和系统,以允许用户在单个框中录入输入条目,智能地识别该输入条目的用于表示在该输入条目中所包括的地理位置的位置部分,以及该输入条目的可以将实体或特定种类的实体表示为搜索目标的查询部分。例如,可以处理录入到单个框中的用户输入条目“烟台酒店”,以解析出用于指定地理位置的位置部分“烟台”以及用于表示位于该地理位置处、之内或附近的搜索目标的查询部分“酒店”。因此,地图搜索引擎识别出用户旨在查找在烟台市之中或周边的酒店并且执行地图搜索。
在将输入条目分割或解析成位置部分和查询部分时,首先将该输入条目解析为一个或多个段,并且对段进行分组以构造位置部分和查询部分。在解析期间,如此识别用于表示地址相关信息的符号、字母、词或短语的序列,并且相应地将该序列解析成在本文档中被称为“项”的单个有意义的段。可以通过例如使用一个或多个包括地址相关信息的字典或数据库来实现对地址相关信息的识别。
在对输入条目进行解析期间,可以将参数“类型”分配给或者注释给项,以指示该项是否包括地址相关信息,并且如果包括地址相关信息,则指示该项所表示的地址相关信息的类型。该类型注释可用于增加地图搜索的准确性。可以通过例如参考解析操作中所使用的、包括地址相关信息的一个或多个字典或数据库来执行类型注释。
可以预定义给项注释的类型。例如,类型可以包括行政区域的等级,诸如“省”、“市”、“区”、“县”、“乡”、“镇”、“村”,以便注释用于表示此类行政区域的项。类型还可以包括类型“路”,以指示表示路或街的项。类型还可以包括用于指示对应于具体地址后缀或前缀的项的地址后缀或前缀,诸如“地址名后缀”、“方向后缀”(例如,南、北等)以及“量词后缀”。值得注意的是,定义类型“空”以注释不表示地址相关信息的项。对是否将类型“空”分配给一个项的确定取决于由地图搜索引擎使用的、包括地址相关信息的一个或多个字典或数据库中的条目,并且可以将类型“空”分配给用于表示真实地理位置但是在解析操作中所使用的包括地址相关信息的一个或多个字典或数据库中不具有匹配的项。对于不同的语言,可以基于语言的特点具体定义用于对项进行注释的类型。
在一些实现中,可以在实施地图搜索之前执行解析。就这点而言,搜索引擎可以使用解析操作的结果的位置部分来首先确定位置,例如通过当相关联的类型指示地址相关信息并且不是“空”时,搜索地理编码数据库以获得由经度和纬度或由其他方法标记的地理坐标码(被称为地理编码)。当项的类型是“空”时,不执行例如通过项的地理编码的搜索所进行的位置确定。在确定位置之后,例如,在找到与位置部分相关联的地理编码之后,执行对于由例如该地理编码定义的位置处或附近的查询部分的搜索,并且向用户递送搜索结果。可以使用该方法的这样一种实现来避免依赖于基于初始输入条目或其段来执行地图搜索,而无需预处理,例如,在针对匹配的地理编码的搜索中通过无需预处理就将初始输入条目或其段发送到地理编码数据库,其中该实现首先解析输入条目以提取并且标识位置部分和查询部分并且随后通过例如获取位置部分的地理编码来确定位置。并且上述实现可以支持按照有效的方式并且在短的搜索时间内执行并且递送地图搜索,该有效的方式在相关地图搜索结果的查找中具有高的准确性。
在本文档中,将解析和类型注释的操作统称为“令牌化”。可以将用于将输入条目解析成段并且向输入条目的段注释类型的解析操作描述为将输入条目令牌化成令牌的序列或令牌序列,其中由用于表示该输入条目的段的项以及注释给该项的、用于指示该项表示哪种种类的地址相关信息的类型来定义每个令牌。可以通过将令牌序列分割成位置部分和查询部分来确定输入条目的位置部分和查询部分。
在实现将输入条目解析为位置部分和查询部分时,可以使用统计模型来提供统计评分,以对该输入条目的各种可能段的不同分组进行评级,并且可以选择具有最高统计得分的段作为解析操作的结果。可以基于训练模型并且使用从不同数据源(诸如数据提供商、政府机构、诸如黄页之类的电话目录等)获得的训练数据来训练本文中的统计模型。训练数据包括地址和标题,标题是实体的名称(诸如商号)。在训练模型中,将每个标题和地址令牌化为令牌序列,并且对于项、类型以及令牌序列中所包括的特定项序列和类型序列,记录在标题中出现的频率以及在地址中出现的频率,当将令牌序列分割成位置部分和查询部分时,基于统计模型中记录的频率,对每个可能的分割计算得分。基于由统计模型提供的得分,可以应用特定过滤规则来排除不正确的分割并且选择正确的分割。
图1是适用于实现本文档所描述的地图搜索系统和方法的网络系统100的示例。网络系统100包括一个或多个客户端110,客户端110经由网络130连接到一个或多个服务器120或者与一个或多个服务器120通信,网络130提供客户端110和服务器120的通信。图1中的示例为了简单起见示出了两个客户端110和两个服务器120。在各种实现中,网络系统100可以包括更多或更少的客户端110和服务器120。在一些实现中,客户端110可以执行服务器120的一些功能,并且服务器120可以执行客户端110的一些功能。可以按照各种配置中在网络系统100中实现地图搜索引擎,例如在一个或多个服务器120中或者在一个或多个服务器120和一个或多个客户端110这两者中。
可以按照各种形式实现客户端110,这些形式包括诸如移动电话、个人计算机、个人数字助理(PDA)、膝上型计算机等的设备或者运行在这些设备之一上的线程或进程和/或可由这些设备之一执行的对象。每个客户端110包括用于从用户接收输入条目并且向该用户呈现对于该输入条目的搜索结果的地图搜索接口,以及用于经由网络130向一个或多个服务器120传输该输入条目并且从一个或多个服务器120接收搜索结果的通信接口。
在图1中的示例中,每个服务器120包括服务器实体,该服务器实体包括地图搜索引擎的、用于解析经由网络130接收的输入条目的解析系统200以及地图搜索引擎的、用于基于解析系统200的解析结果来执行地图搜索并且返回搜索结果的地图搜索系统140。经由网络130向客户端110传输搜索结果。在一些实现中,解析系统200和地图搜索系统140位于各自不同的服务器中。在其他实现中,将解析系统200集成为地图搜索系统140的一部分。可以将客户端110和服务器120中的每一个经由一个或多个通信链路(例如,有线的和无线的通信链路和连接)连接到网络130。
可以按照各种通信网络配置实现网络130,这些配置诸如局域网(LAN)、广域网(WAN)、城域网(MAN)、电话网、内联网、因特网或者两个或更多个这些与其他网络的组合。
图2示出了用于将来自用户的查询的输入条目分割或解析成位置部分“哪里”以及查询部分“什么”的解析系统200的示例,其中位置部分“哪里”表示由该输入条目所指定的位置,并且查询部分“什么”表示用于搜索与该位置相关联的目标的请求。例如,输入条目可以是“上海餐厅”(Shanghai Restaurant),其中“餐厅”是用于指示用户搜索的目标是餐厅的查询部分,并且“上海”是用于指示该查询目标的位置是在上海市中或附近的位置部分。基于由解析系统200进行的该解析,地图搜索系统140搜索在“上海”中或附近的“餐厅”并且返回搜索结果以用于递送给用户。
解析系统200被设计为将输入条目解析成较小的片段(piece)并且处理该较小的片段或段,以构造位置部分和查询部分。由解析系统200解析的该较小的片段或段不能过小以至于段彼此几乎不具有统计相关性并且需要相当多的处理和时间延迟来从该小片段构造有意义的位置部分和查询部分。例如,可以将以上输入条目“上海餐厅”的示例分割成各种段:(1)单独的中文字符“上”、“海”、“餐”、和“厅”;(2)“上”、“海餐”和“厅”;以及(3)“上海”和“餐厅”。示例(1)和(2)中的解析出的段对于构造位置部分和查询部分是较无用的并且需要对较小的片段的附加分段和分组来构造希望的位置部分和查询部分。相反,示例(3)中的解析出的片段是正确的位置部分(“上海”)和查询部分(“餐厅”)。由于特定语言的特定属性,该特定语言对来自用户的输入条目的解析提出了挑战。例如,英文的用户查询由英文单词构成,英文单词由字母构成,在两个相邻的单词之间具有间隔,诸如在“ShanghaiRestaurant”中“Shanghai”和“Restaurant”由一个空格隔开。在英文中的两个相邻单词之间的该间隔提供了用于分割输入条目的天然边界。然而,用户查询的中文、日文或韩文输入条目可能是在两个相邻的字符之间没有间隔的连续字符的序列,例如“上海餐厅”(“Shanghai Restaurant”)。本文档所描述的解析系统200可以被设计为具有基于地址相关信息的一个或多个字典以及其他位置或名称数据库的解析智能(该与地址相关的信息包括用于表示地址的位置和名称和后缀以及前缀),以从输入条目提取位置信息并且以构造正确的位置部分和查询部分。
作为一个示例,可以将解析系统200实现为包括基于地址相关信息的一个或多个字典或数据库的令牌化器,以解析用户查询的输入条目,从而使得由令牌化器保持将输入条目中的位置名称作为单个段。该令牌化器可以使用包括管理实体名称、区域名称和路名以及各种后缀和前缀的字典来执行对输入条目的解析,以最小化对于输入条目中的作为位置名称的段的不希望的分隔。例如,解析系统200可以将中文输入条目中所包括的中文街道名“城府路”(ChengfuRoad)保持为一个段而不是将其分割成更小的片段。该地址信息识别解析的搜索准确性和搜索响应时间往往优于使用以下划分器系统的解析的搜索准确性和搜索响应时间,其中该划分器系统不识别地址相关信息并且将输入条目中所包括的位置名称划分成更小的片段,诸如将中文街道名“城府路”划分成单独的中文字符“城”、“府”、“路”。在各种实现中,令牌化器可以向输入条目的段注释类型,以指示该段是否表示地址相关信息,并且如果表示地址相关信息则指示该段所表示的地址相关信息的种类。
图2中的解析系统200是基于令牌的解析系统并且在所示的示例中,包括令牌化模块210、模型训练模块220、解析模块230、字典240和模型250。这些模块共同进行操作以使得解析模块230能够将输入条目解析成位置部分和查询部分以用于执行地图搜索。令牌化模块210基于来自位置名称的字典240的位置信息,将输入条目令牌化为令牌。解析模块230从外部接收输入条目、向令牌化模块210发送输入条目以用于令牌化、从令牌化模块210接收令牌并且基于令牌、令牌序列和来自模型250的其他项目的统计评分处理所接收的令牌,以执行解析操作。模型训练模块220生成并且训练模型250,模型训练模块220接收并且处理从一个或多个数据源获得的训练数据。
令牌化模块210基于可以从例如字典240获得的地址相关和位置相关信息,将输入条目令牌化成令牌。在实现中,可以将令牌定义为包括用于表示输入条目的段的项以及注释给该项的类型,该类型用于指示该项是否表示地址相关信息并且如果是则指示该项表示什么种类的地址相关信息。令牌化模块210可以识别地址相关信息,并且将地址相关信息令牌化成有意义的令牌。例如,可以由令牌化模块210将输入条目中的中文短语“城府路”识别为路名并且将其令牌化为单个令牌,该单个令牌包括短语“城府路”作为项以及用于指示短语“城府路”表示路名的类型“路”参数。令牌化模块210可以使用地址相关或位置相关信息的字典240来执行令牌化。字典240存储地址相关信息。
图3是用于示出字典240的示例性结构的示意图。字典240具有字典条目(DE)300,并且每个DE 300具有两个字段:项字段310和类型字段320。项字段310存储表示地址相关信息的项或短语。该项可以是地址名称,例如,行政区域的名称(诸如“北京市”、“朝阳区”、“朝阳”)或路名(诸如“常德道”和“城府路”)。项还可以表示地址相关后缀或地址相关前缀。例如,项可以是地址名称后缀(诸如“省”、“市”、“区”、“县”、“乡”、“镇”、“村”、“路”、“道”)、方向前缀或后缀(诸如“东”、“西”、“南”、“北”、“东北”、“东南”、“西北”、“西南”)或量词后缀(诸如“号”)。项还可以是可以用于描述地址的其他词和表达,例如,数字。DE300的类型字段320包括用于指示该项所表示的地址相关信息的类型的类型。可以定义不同的类型。例如,类型包括行政区域的级别(诸如“省”、“市”、“区”、“县”、“乡”、“镇”、“村”)、地址后缀或前缀(诸如“地址名称后缀”、“方向后缀”和“量词后缀”)。类型还可以包括被定义为用于指示表示路名的对应项的类型“路”,以及被定义为用于指示表示号(例如,街道号)的对应项的类型“号”。还可以根据需要定义其他类型。可选地,字典240的DE 300还具有语言字段330,以指示该项的语言,例如,阿拉伯文、中文、英文、德文、日文、韩文等。在一些实现中,基于现有数据(诸如现有地址信息数据库)来构建字典240。在一些实现中,还可以根据需要预定义字典的字典条目。
返回参考图2,令牌化模块210接收输入条目,将输入条目令牌化为令牌,并且输出令牌化结果作为令牌序列。在一些实现中,令牌化模块210首先基于字典240执行令牌化,以便识别输入条目中的地址相关词或段。作为示例,令牌化模块210使用前向最大匹配(FMM)方法来基于字典240执行令牌化。FMM方法选择包括若干字符(例如,中文字符)的字串作为初始最大字串,并且确定初始最大字串是否与字典240中的项匹配。如果初始最大字串与字典240中的任何项都不匹配,则通过从该初始最大字串减去一个字符来继续对该匹配的确定,并且确定包括其余字符的字串是否与字典240中的项匹配,直到在字典240中找到匹配项或者该字串被减为空为止。在字典240中找到的匹配项和与该匹配项相关联的类型成为令牌的项和类型。除了FMM方法之外,还可以使用其他方法,例如,后向最大匹配(BMM)方法和双向匹配(BM)方法。可以在公开文献中找到用于实现FMM方法、BMM方法和BM方法的一些示例。
基于字典240的以上处理标识输入条目的可能表示位置的一个或多个部分。在一些实现中,即使特定的号未被作为项存储在字典240中,令牌化模块210也可以识别号,并且将其令牌化成具有类型“号”的令牌。在一些实现中,对于输入条目的未被识别为地址相关信息的部分,即输入条目的在字典240中不具有匹配项的部分,令牌化模块210可以将其划分成词,使得这些词成为令牌的项,并且将该令牌的类型注释为“空”。类型“空”指示对应项不属于字典240中定义的任何类型,并且对应项不表示地址相关信息。例如,当对中文输入条目“城大灯具城”进行令牌化时,令牌化模块210可以通过参考不具有将“城大”的字典条目作为位置名称的字典240来确定中文短语“城大”不是位置名称。
由令牌化模块210生成的令牌与由统计模型250提供的统计得分的相关联,并且解析模块230在将输入条目解析成位置部分和查询部分时考虑该统计得分。提供解析系统200的模型训练模块220以用于训练并且更新统计模型250。
图4是用于图示由模型训练模块220为了训练统计模型250而执行的过程400的示例的流程图。
在步骤S410,模型训练模块220从一个或多个源获得训练数据。在一些实现中,可以从双框查询日志获得训练数据。在双框日志的质量不足以用于高性能搜索的应用中,可以从其他源获得训练数据。例如,可以由诸如商业实体或政府部门的数据提供方提供训练数据。还可以从其他源(诸如黄页、地图数据库等)获得训练数据。训练数据包括地址和标题。标题表示实体的名称,例如,如“Google”的公司名称、如“科建大厦”的建筑名称、如“北京市政府”的政府机构名称。地址的示例包括“北京市海淀区中关村大街29号”。在一些实现中,在将原始获得的原始数据作为训练数据来使用之前需要对该始原数据进行预处理。对原始数据的预处理是为了去除该数据的不必要部分,例如,标题中的行政区域的前缀名称(prefixingname)、地址中的尾标题(trailing title)等。
例如,如果标题的原始数据的片段是“北京市海淀区海淀医院”,那么该预处理通过去除前缀的行政区域名称“北京市海淀区”,将其过滤成纯标题“海淀医院”。作为另一个示例,对于地址“北京市海淀区中关村大街29号海淀医院”的原始数据的片段,该预处理通过去除后缀的医院名称“海淀医院”将其过滤成纯地址“北京市海淀区中关村大街29号”。
在步骤S420,模型训练模块220向令牌化模块(例如,令牌化模块210)传输已被预处理的训练数据中的标题和地址中的一个以执行令牌化,并且从该令牌化模块接收将项和类型作为令牌化结果的令牌的令牌序列。可选地,在步骤S430执行类型改正,以改正在该令牌序列中错误地注释的类型。根据一些预定义的规则执行类型改正。例如,规则可以规定如果具有类型“量词后缀”的项未紧随具有类型“号”的项,那么将类型“量词后缀”改为类型“空”。例如,在对地址“中关村大街29号”进行令牌化之后,获得具有类型“号”的项“29”并且获得具有类型“量词后缀”的项“号”。由于具有类型“量词后缀”的项“号”紧随具有类型“号”的项“29”,因此将不改变项“号”。然而,在对标题“中华老字号东来顺”进行令牌化之后,可能获得具有类型“量词后缀”的项“号”,但是相同的中文字符“号”不再表示号而是表示商业机构的商标。因此,该类型将被改成类型“空”。可选择地,在步骤S440,可以将令牌序列中项属于相同的后缀或前缀类型的相邻的令牌组合成单个令牌。
在步骤S450,对于令牌序列中的类型和项,分别对标题和地址中出现的次数进行计数。在一些实现中,对于令牌序列中的特定类型序列和项序列执行计数。在一些实现中,对于以下项目在标题和地址中出现的次数进行计数:
-项一元模型,其为单个项,
-项二元模型,其为由两个相邻的项组成的项序列,
-类型为“空”的相邻的项的序列,
-全部项的序列,
-类型一元模型,其为单个类型,
-类型二元模型,其为由两个相邻的类型组成的类型序列,以及
-全部类型的序列
例如,当将地址“北京朝阳大屯路”令牌化为包括多个令牌:[项:北京,类型:市]、[项:朝阳,类型:区]以及[项:大屯路,类型:路]的令牌序列时,将对于以下项在地址中的出现进行计数:
项一元模型:“北京”、“朝阳”、“大屯路”;
项二元模型:“北京朝阳”、朝阳大屯路“;
全部项的序列:“北京朝阳大屯路”;
类型一元模型:“市”、“区”、“路”;
类型二元模型:“市、区”“区、路”;
全部类型的序列:“市、区、路”;
在该示例中未对相邻项的序列中类型为“空”的上述项进行计数,这是因为在令牌序列[项:北京,类型:市]、[项:朝阳,类型:区]以及[项:大屯路,类型:路]中不存在类型为“空”的项。
在步骤S460,对于每个被计数的项目,分别在模型250中存储其在标题中出现的次数和在地址出现的次数。
图5示出了模型250的示例性结构。模型250包括模型条目(ME)500。每个被计数的项目在模型250中具有对应的模型条目。在一个实现中,模型条目具有4个字段:
-“项目”字段510,用于记录项一元模型、类型一元模型和包括类型为“空”的相邻项的序列的项或类型序列、全部项的序列、类型二元模型和全部类型的序列中的一个或多个的内容;
-“项目类型”字段520,用于记录该项目的类型是以下哪种项目类型:项一元模型、类型一元模型、类型二元模型、项二元模型、类型为“空”的相邻项的序列、全部项的序列、全部类型的序列;
-“在标题中出现的次数”字段530,其记录对应的项目在标题中出现多少次;以及
-“在地址中出现的次数”字段540,其记录对应的项目在地址中出现多少次。
在一些实现中,模型条目还可以具有第五字段“语言”字段550,用于指示该项目的语言。
考虑在步骤S450针对地址“北京朝阳大屯路”对项目“朝阳大屯路”进行计数的示例。如果不存在如下现有模型条目,其“项目”字段、“项目类型”字段以及“语言”字段如果存在则全部与项目“朝阳大屯路”匹配,则用值为“朝阳大屯路”的“项目”字段、值为“项二元模型”的“项目类型”字段、值为0的“在标题中出现的次数”字段、值为1的“在地址中出现的次数”字段以及值为“中文”的“语言”字段,来创建“朝阳大屯路”的模型条目。
当已存在其“项目”字段、“项目类型”字段以及“语言”字段全部与项目“朝阳大屯路”匹配的现有模型条目时,则将该模型条目的“在地址中出现的次数”字段的值增加1,并且该模型条目的其他字段的值保持不变。作为一个具体的示例,考虑对于地址“北京朝阳大屯路”,对项目“市、区、路”(其类型是“全部类型序列”)进行计数的另一个示例。如果存在其“项目”字段是“市、区、路”、“项目类型”字段是“全部类型序列”并且“语言”字段是“中文”的现有模型条目,即存在其“项目”字段、“项目类型”字段和“语言”字段全部与项目“市、区、路”匹配的现有条目,则模型条目的“在标题中出现的次数”字段和“语言”字段的值保持不变,并且将该模型条目的“在地址中出现的次数”字段的值增加1。
在步骤470,训练模型检查是否处理了全部标题和地址。如果处理了全部标题和地址,则完成了用于训练统计模型250的过程400,并且生成或更新统计模型250以供由解析模块230在解析来自用户查询的输入条目时使用。否则,过程400返回到步骤S420以处理下一个标题或地址。
可以按照各种方式实现由模型训练模块220进行的对统计模型250的训练。在一些实现中,例如,模型训练模块220在系统200的操作的开始时训练统计模型250,并且周期性地或者当特定事件发生时(例如当更新训练数据时)更新统计模型250。
解析模块230可以使用由模型训练模块220生成的统计模型250来确定针对项目、令牌或令牌序列的位置统计得分和查询统计得分。“项目”在此处指示这样一种项目,对于该项目在标题和地址中出现的次数进行计数,即项一元模型、项二元模型、类型为“空”的相邻的项的序列、全部项的序列、类型一元模型、类型二元模型或全部类型的序列。项目、令牌或令牌序列的位置统计得分指示该项目、令牌或令牌序列与位置相关的概率。项目、令牌或令牌序列的查询统计得分指示该项目、令牌或令牌序列与查询(即实体名称或实体类别)相关的概率。
在一些实现中,如果项目在统计模型250中具有对应的条目,那么可以通过分别使用等式(1)和(2)来计数该项目的位置统计得分和查询统计得分:
项目的位置统计得分=log(l_count)*l_count/(l_count+q_count)……等式(1);
项目的查询统计得分=log(q_count)*q_count/(l_count+q_count)……等式(2),
其中l_count和q_count分别表示在统计模型250中存储的、该项目在地址和标题中出现的次数。例如,当对于项一元模型“朝阳”的项目计算位置统计得分和查询统计得分时,如果项一元模型“朝阳”在地址和标题中出现的次数分别是N1和N2,则将该项目的位置统计得分计算为logN1*N1/(N1+N2),并且将该项目的查询统计得分计算为logN2*N2/(N1+N2)。如果项目在统计模型250中不具有对应的条目,那么对于该项目的位置统计得分和查询统计得分赋值为“0”。
在一些实现中,将令牌的位置统计得分定义为该令牌的项(项一元模型)的位置统计得分与该令牌的类型(类型一元模型)的位置统计得分的和。
下文描述用于基于统计模型250对于令牌序列计算位置统计得分和查询统计得分的示例性方法。
图7A图示了用于计算令牌序列的位置统计得分的示例性过程700A。在步骤S710,对于令牌序列确定项位置得分。项位置得分是基于关于该令牌序列的项的项目的位置统计得分确定的统计得分。在图7B中图示并且在下文中描述在一个实现中、用于确定令牌序列的项位置得分的过程。在步骤S720,对于令牌序列确定类型位置得分。类型位置得分是基于关于该令牌序列的类型的项目的位置统计得分确定的统计得分。在图7C中图示并且在下文中描述在一个实现中、用于确定令牌序列的类型位置得分的过程。在步骤S730,通过对令牌序列的项位置得分和类型位置得分求和来确定该令牌序列的位置统计得分。
图7B示出了用于确定令牌序列的项位置得分的示例性过程700B。在步骤S7102,将令牌序列中的第一令牌定义为当前令牌。在步骤S7104,通过参考统计模型250来确定令牌序列的下列项目(如果存在这种项目)的位置统计得分:当前令牌的“项一元模型”以及以当前令牌的项开始的“项二元模型”和“类型为‘空’的相邻的项的序列”。在步骤S7108,选择在步骤S7104中确定的位置统计得分中最高的位置统计得分作为当前令牌的项位置得分。在步骤S7112,确定在该令牌序列中是否存在下一个令牌,并且如果该确定的结果为是(在步骤S7112中为是),则在步骤S7114,确定在确定当前令牌的项位置得分时是否已考虑过该下一个令牌。如果已考虑过该下一个令牌(在步骤S7114中为是),则跳过已考虑的令牌,并且过程700B继续进行步骤S7112,否则(在步骤S7114中为否),如果在确定当前令牌的项位置得分时未考虑过该下一个令牌,则将该下一个令牌定义为当前令牌(步骤S7116),并且过程700B返回到步骤S7104。在步骤S7112,如果确定在该令牌序列中不存在下一个令牌(在步骤S7112中为否),则过程700B前进到步骤S7118以对令牌的结果项位置得分求和,作为得分S1。接下来,在步骤S7120通过参考统计模型250,确定令牌序列的项目“全部项的序列”的位置统计得分(标记为得分S2)。在步骤S7126,比较得分S1与S2,并且如果得分S1等于或大于得分S2(在步骤S7126中为是),则将该令牌序列的项位置得分确定为得分S1(步骤S7128),否则,如果得分S1小于得分S2(在步骤S7126中为否),则将该令牌序列的项位置得分确定为得分S2(步骤S7130),继而过程700B完成。
接下来,通过参考图7C来描述用于确定令牌序列的类型位置得分的示例性过程700C。在步骤S7202,将令牌序列中的第一令牌定义为当前令牌。在步骤S7204,通过参考统计模型250来确定令牌序列的下列项目的位置统计得分:当前令牌的“类型一元模型”以及(如果存在的话)以当前令牌的类型开始的“类型二元模型”。在步骤S7208,选择在步骤S7204中确定的较高位置统计得分作为当前令牌的类型位置得分。在当前令牌是令牌序列中的最后一个令牌时,当然不存在以当前令牌的类型开始的“类型二元模型”,并且该当前令牌的类型位置是“类型一元模型”的位置统计得分。在步骤S7212,确定在该令牌序列中是否存在下一个令牌,并且如果该确定的结果为是(在步骤S7212中为是),则在步骤S7214,确定在确定当前令牌的类型位置得分时是否已考虑过该下一个令牌。如果已考虑过该下一个令牌(在步骤S7214中为是),则跳过已考虑的令牌,并且过程700C继续进行步骤S7212,否则,如果在确定当前令牌的类型位置得分时未考虑过该下一个令牌(在步骤S7214中为否),则将该下一个令牌定义为当前令牌(步骤S7216),并且过程700C返回到步骤S7204。在步骤S7212,如果确定在该令牌序列中不存在下一个令牌(在步骤S7212中为否),则过程700C前进到步骤S7218以对令牌的结果类型位置得分求和,并且结果被标记为得分S3。接下来,在步骤S7220,通过参考统计模型250,确定令牌序列的项目“全部类型的序列”的位置统计得分(该得分被标记为得分S4)。在步骤S7226,比较得分S3与S4,并且如果得分S3等于或大于得分S4(在步骤S7226中为是),则将该令牌序列的类型位置得分确定为得分S3(步骤S7228),否则,如果得分S3小于得分S4(在步骤S7226中为否),则将该令牌序列的类型位置得分确定为得分S4(步骤S7230),继而过程700C完成。
可以与位置统计得分类似地确定令牌序列的查询统计得分。图8A图示了计算令牌序列的查询统计得分的示例性过程800A。可以通过对令牌序列的项查询得分和类型查询得分求和来确定令牌序列的查询统计得分,其中,项查询得分是基于关于该令牌序列的项的项目的查询统计得分确定的统计得分,并且类型查询得分是基于关于该令牌序列的类型的项目的查询统计得分确定的统计得分。
图8B图示了计算令牌序列的项查询得分的示例性过程800B,并且图8C图示了计算令牌序列的类型查询得分的示例性过程800C。通过参考对于图7A-图7C的相关描述可以理解图8A-图8C的详细操作。
以下是用于确定具有以下三个令牌的输入令牌序列的查询统计得分的示例:
项:北京,类型:市
项;朝阳,类型:区
项:大屯路,类型:路
首先计算令牌序列的项查询得分。该计算始于定义第一令牌“项:北京,类型:市”作为当前令牌,并且确定该当前令牌的项查询得分:通过参考统计模型250来确定该当前令牌的项一元模型“北京”和以该当前令牌的项开始的项二元模型“北京朝阳”的查询统计得分,比较两个结果查询统计得分并且选择较高的查询统计得分(例如,“北京朝阳”的查询统计得分)作为当前令牌的项查询得分,将其标记为得分ST1。继而,跳过令牌“项:朝阳,类型:区”,因为当确定具有项“北京”的该当前令牌的项查询得分时已经考虑了该令牌的该项。下一个令牌是“项:大屯路,类型:路”,当确定当前令牌的项查询得分时未考虑该令牌,所以将该令牌“项:大屯路,类型:路”定义为当前令牌,并且将该当前令牌的项查询得分确定为存储在模型中的一元模型项的查询统计得分,标记为得分ST2。将得分ST1与得分ST2求和,并且将结果与整个项序列(全部项的序列)“北京朝阳大屯路”的查询统计得分进行比较,选择较高的查询统计得分作为该令牌序列的项查询得分。
接下来,计算输入令牌序列的类型查询得分。如上所述,将该令牌序列中的第一令牌“项:北京,类型:市”定义为当前令牌,并且对输入令牌序列的类型查询得分的计算始于确定该当前令牌“项:北京,类型:市”的类型查询得分:通过参考模型250来确定该当前令牌的类型一元模型“市”和以该当前令牌的类型开始的类型二元模型“市区”的查询统计得分,比较所获得的查询统计得分并且选择较高的查询统计得分(例如“市”的查询统计得分)作为第一令牌的类型查询得分,将其标记为得分ST3。继而,将下一个令牌“项:朝阳,类型:区”定义为当前令牌,并且通过参考统计模型250来确定类型一元模型“区”和类型二元模型“区路”的查询统计得分,并且选择较高的查询统计得分(例如,类型二元模型“区路”的查询统计得分)作为第二令牌的类型查询得分,标记为得分ST4。跳过第三令牌,因为当确定先前的令牌“项:朝阳,类型:区”的类型查询得分时已经考虑了该第三令牌。将得分ST3与得分ST4求和,并且将结果与整个类型序列(全部类型的序列)“市区路”的查询统计得分进行比较,选择较高的查询统计得分作为该令牌序列的类型查询得分。
在此时,将令牌序列的项查询得分和类型查询得分加在一起,并且结果是令牌序列的查询统计得分。
返回参考图2,系统200的解析模块230将输入条目解析成位置部分和查询部分。图6A是用于图示用于由解析模块230解析输入条目的示例性过程600A的流程图。
在步骤S610,例如通过使用令牌化模块210来接收输入条目并且对其进行令牌化,并且获得令牌序列。将输入条目令牌化为用类型来注释的令牌的序列。如上所述,该输入条目可以由用户在客户端终端210处输入并且被经由网络130传输到解析模块230。
可选地,在步骤S620,可以执行后处理以使用预定义的类型改正规则来改正该令牌序列中明显错误的类型。类型改正规则用于改正给令牌注释的明显错误的类型。在各种实现中,可以通过两个部分来定义规则:条件和目标动作或值。如果满足条件,则执行目标动作或返回目标值。例如,类型改正规则可以规定如果具有类型“量词后缀”的令牌不是紧跟具有类型“号”的令牌,则将类型“量词后缀”改变为类型“空”。如之前的示例中所述的,将标题“中华老字号东来顺”的项“号”的初始注释类型“量词后缀”改成类型“空”,因为项“号”虽然使用与“号”相同的中文字符,但是项“号”表示企业的商标并且其与项“老字”组合使用以表示“老字号”。
在步骤S630,对于令牌序列中两个相邻的令牌之间的每个位置,例如,通过使用预定义的不分割规则确定其是否是能够被分割的可能的位置,并且如果其明显是不可能的位置则过滤掉该位置。不分割规则用于规定不应该是分割位置的位置。例如,不分割规则可以规定具有类型“街”的令牌与具有类型“号”的令牌之间的位置不应该是分割位置。过滤掉明显错误的分割位置的操作可以减少统计模型250中的噪声效应(effects of noises)。
在步骤S640,对于每个可能的分割方式计算分割得分。分割得分指示该可能的分割方式的正确性的统计概率。由查询部分和位置部分定义分割方式。每个可能的分割方式对应于一个可能的分割位置。可能的分割位置可以是令牌序列中的两个相邻的令牌之间的位置,其将令牌序列分成两个部分。可能的分割位置还可以是该令牌序列的第一令牌之前的位置或者最后一个令牌之后的位置,其将该令牌序列“分成”一个子令牌序列。更具体而言,关于令牌序列中的两个相邻的令牌之间的可能的分割位置并且将令牌序列分成两个部分,即两个子令牌序列,对于该两个子令牌序列中的每一个子令牌序列,通过使用例如图7A-图7C和图8A-图8C中所示的过程来确定查询统计得分和位置统计得分。子令牌序列的位置统计得分指示该子令牌序列是位置部分的概率,并且子令牌序列的查询统计得分指示该子令牌序列是查询部分的概率。在由可能的分割位置分成的两个子令牌序列之间,将具有较高位置统计得分的一个子令牌序列视为输入条目的可能的位置部分,并且将另一个子令牌序列视为该输入条目的可能的查询部分。基于分割的位置部分的位置统计得分以及分割的查询部分的查询统计得分,确定该对应的可能的分割的得分。作为示例,通过对该可能的位置部分的位置统计得分与该可能的查询部分的查询统计得分求和,确定该分割的得分。此外,关于将令牌序列分成一个子令牌序列的可能的分割位置,对于整个令牌序列确定位置统计得分和查询统计得分。通过将整个令牌序列视为位置部分,确定对应于该位置的可能的分割方式,并且如果整个令牌序列的位置统计得分高于该整个令牌序列的查询统计得分,则将该分割得分确定为该整个令牌序列的位置统计得分。类似地,通过将整个令牌序列视为查询部分,来确定对应于将令牌序列分成一个子令牌序列的位置的可能的分割方式,并且如果整个令牌序列的查询统计得分高于整个令牌序列的位置统计得分,则将该分割得分确定为整个令牌序列的查询统计得分。
可选地,可以确定包括用于查询部分的查询乘数和用于位置部分的位置乘数的两个乘数,以用于调整查询部分的查询统计得分和位置部分的位置统计得分。如果可能的分割的查询乘数和位置乘数中的任意一个是零则可以排除该可能的分割。可以如下确定乘数。首先确定包括用于查询部分的基本查询乘数和用于位置部分的基本位置乘数在内的两个基本乘数。在一个实现中,将基本乘数预定义为预定值。在另一个实现中,基于两个部分的项和长度来确定基本乘数。可以直接将基本乘数用作为查询乘数和位置乘数。备选地,可以通过提升或降低来调整位置基本乘数,并且将经调整位置基本乘数用作位置乘数。例如,如果位置部分的令牌序列包括按等级次序的地址分量(诸如[省+市+区+街]),则可以提升位置乘数。可以计算分等级管理地址(诸如市、区)的长度和分等级常规地址(诸如街、楼)的长度,并且可以向位置基本乘数增加加权值。作为另一个示例,如果位置部分的令牌序列包括不按等级次序的地址分量,则降低位置基本乘数。作为又一个示例,如果在令牌序列中存在重复的地址分量(诸如“北京市北京”),则降低位置基本乘数。在确定查询乘数和位置乘数之后,使用所确定查询乘数和位置乘数来调整查询部分的查询统计得分和位置部分的位置统计得分。具体而言,将查询部分的查询统计得分与查询乘数相乘,并且将位置部分的位置统计得分与位置乘数相乘。可以通过将调整后的查询统计得分和位置统计得分求和来确定该分割的得分。
可选地,在步骤S650,向每个可能的分割分配优先权。可以使用两个级别的优先权并且可以将其表示成两个数字1和0,其中1是较高优先权并且0是较低优先权。可以如下分配优先权。例如,关于对应于令牌序列中的两个相邻的令牌之间的分割位置的分割,如果该分割是由诸如空格、逗号等之类的分隔符分割的,则该分割的优先权是1。否则,如果该分割不是由分隔符分割的,则该分割的优先权是0。对于整个令牌序列是查询部分或位置部分的分割,如果输入条目包括分隔符,则该分割的优先权是1,否则该分割的优先权是0。
在步骤S660,对可能的分割进行排序,并且选择最高可能的分割作为解析结果。在一个实现中,通过分割得分对可能的分割进行排序。在向每个可能的分割分配优先权的另一个实现中,可以首先通过优先权继而再通过得分来对可能的分割进行排序。如上所述,通过结果分割的查询部分和位置部分来表示该结果分割。
可选地,在步骤S670,确定整个输入条目是否是可能的位置。如果输入条目满足任何以下条件则将其确定为可能的位置:1)该输入条目满足一些特定条件,例如,该输入条目以数字结尾;以及2)整个位置分割(即整个令牌序列是位置部分)是具有第二最高得分的分割并且该分割的得分与最高分割得分的比值高于预定阈值。如果整个输入条目被确定为可能的位置,则将整个输入条目是位置部分的该分割视为附加结果分割,可以将该附加结果分割作为参考来输出。
可选地,在步骤S680,对于每个结果分割确定分割置信度(confidence)得分。分割置信度得分指示对于该分割的正确性的置信度。在一个实现中,将分割信息得分如下定义。首先,通过等式(3)和(4)来定义对于项目(包括项一元模型、项二元模型、类型为空的相邻的项的序列、全部项的序列、类型一元模型、类型二元模型、全部类型的序列)的查询置信度得分和位置置信度得分:
query_conf=query_score/(query_score+location_score)……等式(3)
location_conf=location_score/(query_score+location_score)……等式(4)
其中,query_conf和location_conf分别是项目的查询置信度得分和位置置信度得分,并且query_score和location_score分别是该项目的查询统计得分和位置统计得分。其次,将该分割的查询部分的查询置信度得分定义为用于确定该查询部分的项查询得分的项目(图8B)的查询置信度得分的平均值,并且将该分割的位置部分的位置置信度得分定义为用于确定该位置部分的项位置置信度得分的项目(图7B)的位置置信度得分的平均值。将该分割的分割置信度得分定义为该分割的位置部分的位置置信度得分与该分割的查询部分的查询置信度得分的平均值。作为示例,分割置信度得分具有范围为[0,1]的值,并且分割置信度得分越高,则对该分割的正确性的置信度越高。分割置信度得分也是可以由解析模块230作为参考来输出的附加解析结果。
参考图6A,在步骤S690,由解析模块230输出解析结果。该解析结果包括在步骤S660获得的结果分割。在示例性过程600A中,该解析结果还包括在步骤S670和步骤S680获得的附加结果,系统200的用户可以将其用作为参考。系统200的用户包括使用系统200的结果的模块、组件或系统。例如,地图搜索系统140是系统200的用户之一。
可以通过备选处理来实现图6A中的以上过程的各种处理操作。图6B是图示用于由解析模块230解析输入条目的另一个示例性过程600B的流程图。在过程600B中的处理步骤S610、S640、S660和S690本质上与在图6A的过程600A中具有相同的参考标号的那些步骤相同。
已经关于图2-图8C描述了图2中用于为了地图搜索而将输入条目解析成位置部分和查询部分的解析系统200的各种特征,以下部分基于解析系统200的输出描述地图搜索。在图1的示例中,由服务器120处的解析系统200以及地图搜索系统140执行地图搜索。
图9是图示用于执行地图搜索的示例性过程的流程图。在步骤S902,由解析系统200接收输入条目。可以由用户在客户端110处将该输入条目输入到地图搜索接口,并且经由网络130传输到解析系统200。在步骤S904,由解析系统200解析输入条目,并且将包括位置部分和查询部分中的至少一个的解析结果转发到地图搜索系统140。地图搜索系统140基于或通过参考该解析结果来执行地图搜索。在一些实现中,在步骤S906,地图搜索系统140基于位置部分确定目标地理区域。例如,地图搜索系统140可以对位置部分进行地理编码,以获得目标地理区域。可以通过经度和纬度定义目标地理区域。在步骤S908,地图搜索系统140搜索关于由该目标地理区域之内的查询部分所表示的一个或多个目标的信息,并且在步骤S910例如向客户端110返回搜索结果,并且向用户呈现搜索结果。
图10是可用于实现本文所述的地图搜索系统和方法的示例性设备1000的框图。设备1000包括处理设备1002、第一数据存储区1004、第二数据存储区1006、输入设备1008、输出设备1010以及网络接口1012。可以使用包括例如数据总线和母板的总线系统1014来建立并且控制组件1002、1004、1006、1008、1010和1012之间的数据通信。也可以使用其他示例性系统架构。
处理设备1002包括例如一个或多个微处理器。第一数据存储区1004包括例如随机访问存储器(RAM)存储设备,诸如动态随机访问存储器(DRAM),或其他类型的计算机可读介质存储器设备。第二数据存储区1006包括例如一个或多个硬盘驱动器、闪存和/或只读存储器(ROM),或其他类型的计算机可读介质存储器设备。
在一些实现中,设备1000包括数据存储区(诸如第二数据存储区1006)中的代码。可以由指令来定义该代码,其中该指令在被执行时使得处理设备1002执行解析系统200和/或地图搜索系统140的功能。数据存储区(诸如第二数据存储区1006)可以存储字典240和/或统计模型250。
示例性输入设备1008包括键盘、鼠标、触针等,并且示例性输出设备1010包括显示器设备、音频设备等。在一些实现中,输入设备1008接收用于训练统计模型250的训练数据。网络接口1012包括例如可操作来向例如网络130传达数据并从例如网络130接收数据的有线或无线网络设备。网络接口1012可以从远程设备接收输入条目,并且向该远程设备传输搜索结果。
设备1000可以响应于处理设备1002执行计算机可读介质(诸如第一数据存储区1004)中所包括的软件指令,执行本文档描述的特定操作或过程。可以将计算机可读介质定义为物理的或逻辑的存储器设备和/或载波。可以经由网络接口1012,从另一个计算机可读介质(诸如盘片)或者从另一个设备向第一数据存储区1004读入软件指令。第一数据存储区1004中所包括的软件指令可以使得处理设备1002执行本文档所描述的过程。
在实现中,可以独立地应用或者与其他地图搜索或数据处理技术结合地应用本文档所描述的用于解析输入条目并且执行地图搜索的过程。例如,可以由同样从用于解析或处理输入条目的其他系统获得附加结果的系统使用解析系统200的解析结果,并且决断将哪个结果用于地图搜索。该示例中的系统可以使用由解析模块230输出的分割置信度得分来进行决断。作为另一个示例,地图搜索系统可以执行本文档所描述的地图搜索过程,以及使用其他技术的其他地图搜索过程,以获得多个搜索结果,并且将不同过程的结果合成为最终的搜索结果以用于递送给用户。
可以将本文档所描述的主题和功能性操作的实施方式实现为数字电子电路或计算机软件、固件或硬件,包括本文档中所公开的结构和其结构等效物,或者它们中的一个或多个的组合。可以将本文档所描述的主题的实施方式实现为一个或多个计算机程序产品,即编码在有形程序载体上的、用于由数据处理装置执行或者用于控制数据处理装置的操作的计算机程序指令的一个或多个模块。该有形程序载体可以是传播信号或计算机可读介质。该传播信号是人工生成的信号,例如机器生成的电信号、光信号或电磁信号,该信号被生成来编码用于向合适的接收装置传输以用于由计算机执行的信息。计算机可读介质可以是机器可读存储设备、机器可读存储衬底、存储器设备、用于产生机器可读传播信号的物质的组成物或者它们中的一个或多个的组合。
术语“系统”涵盖了用于执行在此所述的主题的功能的全部系统、装置、设备和机器,作为示例包括例如可编程处理器、计算机或多处理器或计算机。系统除了硬件之外还可以包括用于创建用于所述计算机程序的执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。
可以用任意形式的编程语言来编写计算机程序(又被称为程序、软件、软件应用、脚本或代码),这些编程语言包括编译语言或解释语言、或声明语言或过程语言,并且可以用任意形式来对其进行部署,包括作为独立的程序或者作为模块、组件、子例程或者适用于在计算机环境中使用的其他单元。计算机程序无需对应于文件系统中的文件。可以将程序存储在文件的用于保持其他程序或数据(例如,存储在标记语言文档中的一个或多个脚本)的部分中、在专用于所述程序的单个文件中、或者在多个协同文件中(例如,用于存储一个或多个模块、子程序或代码部分的文件)。可以将计算机程序部署为在一个计算机或多个计算机上执行,其中该多个计算机位于一个地点或者跨多个地点分布并且通过通信网络互连。
可以由用于执行一个或多个计算机程序以通过在输入数据上进行操作并且生成输出来执行功能的一个或多个可编程处理器来执行本文中所述的过程和逻辑流程。还可以由专用逻辑电路(例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路))来执行该过程或逻辑流程并且实现装置。
适用于执行计算机程序的处理器包括例如通用微处理器和专用微处理器两者,以及任意种类的数字计算机的任意一个或多个处理器。总体而言,处理器将从只读存储器或随机访问存储器或这两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。总体而言,计算机还将包括(或被可操作地被耦合到)用于存储数据的一个或多个大容量存储设备(例如,磁盘、磁光盘或光盘),以从该大容量存储设备接收数据或向该大容量存储设备传递数据或接收并传递数据。然而,计算机不必具有此类设备。此外,可以将计算机嵌入到另一个设备中,聊举数例,如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位系统(GPS)接收器等。
适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,包括例如半导体存储器设备(例如,EPROM、EEPROM和闪存设备)、磁盘(例如,内部硬盘或可移动盘片)、磁光盘以及CD ROM和DVD ROM盘片。处理器和存储器可以由专用逻辑电路补充或者并入该专用逻辑电路。
为了提供与用户的交互,可以在具有用于向用户显示信息的显示器设备(例如,CRT(阴极射线管)或LCD(液晶显示器)监视器)和用户可以用来向计算机提供输入的键盘和指点设备(例如,鼠标或追踪球)的计算机上实现本文档所描述的主题的实施方式。还可以使用其他种类的设备来提供与用户的交互;例如,提供给用户的反馈可以是任意形式的感官反馈,例如,可视反馈、可听反馈或可触反馈;并且可以按照任意形式接收来自用户的输入,包括声学输入、语音输入或触觉输入。
可以在包括后端组件以例如作为数据服务器或者包括中间件组件(例如,应用服务器)或者包括前端组件(例如,具有图形用户界面或Web浏览器的客户端计算机,用户可以通过该图形用户界面或网络浏览器与本文档所描述的主题的实现交互)或者包括一个或多个此类后端组件、中间件组件或前端组件的任意组合的计算系统中实现本文档所描述的主题的实施方式。系统的组件可以通过任意的数字数据通信形式或介质(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”),例如,因特网。
计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络交互。依靠运行在各自的计算机上并且与彼此具有客户端服务器关系的计算机程序建立客户端和服务器的关系。
与本文档所描述的地图搜索相关联的过程和操作的位置可以位于被用户用来执行地图搜索的一个计算机网络或多个相连接的计算机网络中的一个或多个位置。响应于用于地图搜索的用户输入条目,在一个或多个计算机处由用于与地图搜索相关联的过程和操作(包括本文档所描述的解析操作和基于该解析操作的结果的搜索操作)的各自的计算机程序触发或引起执行与地图搜索相关联的过程和操作。作为一个示例,提供了计算机实现的地图搜索方法以使得在将来自用户的用于地图搜索的输入条目解析成用于指示输入搜索条目中的位置信息的位置部分和用于指示与该输入条目中的该位置部分相关联的搜索目标的查询部分之后,才基于该输入条目实施地图搜索。该方法还使得实施地图搜索以基于该位置部分获得地理区域或位置并且以搜索关于与该查询部分相关联并且位于所获得的地理区域或位置处、之内或附近的一个或多个实体的信息。
尽管本文包括多个具体的实现细节,但是不应该将这些细节理解为是作为对于任何发明或可能要求的发明的范围的限制,而是作为对特定发明的特定实施方式所特有的特征的描述。还可以在单个实施方式的组合中实现在本文档中独立的实施方式的背景中所描述的特定特征。相反,也可以在多个独立的实施方式或者在多个独立的实施方式的任意合适的子组合中实现本文在单个实施方式的背景中所述的特定特征。此外,虽然上文可能将特征描述为在特定组合中动作并且甚至最初要求这样,但是在一些情况中可以去除所要求的组合的一个或多个特征,并且所要求的组合可以指向子组合或子组合的变形。
类似地,尽管在附图中按照特定次序来描述操作,但是不应该将其理解为需要按照所示的特定次序或者按照顺序次序地执行该操作,或者需要执行全部所示的操作来实现希望的结果。在某些情况中,多任务和并行处理可能是有利的。此外,不应该将以上所述的实施方式中的各种系统组件的分离理解为在全部实施方式中都需要该分离,并且应该理解大体上可以将所述程序组件和系统一起集成为单个软件产品或包装成多个软件产品。
已描述了地图搜索系统、装置和方法的特定实施方式。可以基于本文中所述的内容来做出对所描述的实施方式和其他实施方式的变形和增强。例如,可以按照不同的次序执行所述动作并且仍然实现希望的结果。作为一个示例,附图中所描绘的过程不必要求所示的特定次序或者按照顺序次序来实现希望的结果。在某些实现中,多任务和并行处理可能是有利的。
Claims (57)
1.一种计算机实现的地图搜索方法,包括:
将来自用户的、用于地图搜索的输入条目解析成用于指示输入搜索条目中的位置信息的位置部分以及用于指示与所述输入条目中的所述位置部分相关联的搜索目标的查询部分;以及
实施地图搜索,以便基于所述位置部分获得地理区域或位置,以及以便搜索关于与所述查询部分相关联并且位于所获得的地理区域或位置处、之内或附近的一个或多个实体的信息。
2.如权利要求1所述的地图搜索方法,其中在基于所述输入条目实施所述地图搜索之前执行所述解析。
3.如权利要求1所述的地图搜索方法,其中所述解析包括:
将所述输入条目解析成一个或多个令牌的令牌序列,每个令牌包括用于表示所述输入条目的段的项以及给所述项注释的类型;以及
使用给每个项的实施类型来指示所述项是否包括与地址相关信息以及所述与地址相关信息的类型。
4.如权利要求3所述的地图搜索方法,包括:
在获得与具有指示所述项不包括地址相关信息的类型的令牌相关联的地理区域或位置时不执行动作。
5.如权利要求3所述的地图搜索方法,其中将所述输入条目解析成所述令牌序列包括:
将所述输入条目中的地址相关词标识为令牌的项;以及
将所述地址相关词的类型标识为所述令牌的所述类型。
6.如权利要求5所述的地图搜索方法,其中标识所述输入条目中的地址相关词包括:
使用地址相关词的字典中的条目及其类型来标识所述地址相关词和所述令牌类型。
7.如权利要求5所述的地图搜索方法,其中所述字典的地址相关词包括行政区域名称、路名、地址相关后缀、地址相关前缀、以及号中的至少一个。
8.如权利要求7所述的地图搜索方法,其中地址相关后缀和地址相关前缀包括地理名称后缀、方向前缀或方向后缀、以及量词后缀中的至少一个。
9.如权利要求5所述的地图搜索方法,包括:
将所述输入条目中的词标识为与地址无关的令牌的项;以及
分配“空”作为所述令牌的所述类型,以指示所述令牌的所述项不包括地址相关信息。
10.如权利要求3所述的地图搜索方法,其中对所述输入条目的所述解析还包括:
确定所述令牌序列可能的分割位置,每个可能的分割位置将所述令牌序列分割成一个或两个子令牌序列;
对于每个所述可能的分割位置确定可能的分割方式,每个可能的分割方式将所述令牌序列分割成(1)可能的查询部分和(2)可能的位置部分中的至少一个;
确定用于指示每个所述可能的分割方式的正确性的统计概率的分割得分;以及
选择具有最高分割得分的所述可能的分割方式作为结果分割方式。
11.如权利要求10所述的地图搜索方法,其中:
排除将具有“路”类型的令牌与具有“号”类型的令牌之间的位置作为分割位置。
12.如权利要求10所述的地图搜索方法,其中:
对于将所述令牌序列分割成两个子令牌序列的可能的分割位置:
确定所述两个子令牌序列中的每个子令牌序列的位置统计得分和查询统计得分,以及通过将具有较高位置统计得分的所述子令牌序列视为所述可能的位置部分、并且将另一个子令牌序列视为所述可能的查询部分来确定对应于所述可能的分割位置的所述可能的分割方式;
对于将所述令牌序列分割成一个子令牌序列的可能的分割位置:
通过当所述子令牌序列的所述位置统计得分高于所述子令牌序列的所述查询统计得分时,将所述子令牌序列视为所述位置部分,以及当所述子令牌序列的所述查询统计得分高于所述子令牌序列的所述位置统计得分时,将所述子令牌序列视为所述查询部分,来确定对应于所述可能的分割位置的所述可能的分割方式。
13.如权利要求12所述的地图搜索方法,其中对用于指示每个所述可能的分割方式的正确性的统计概率的所述分割得分的确定包括:
基于所述位置部分的所述位置统计得分和所述查询部分的所述查询统计得分中的任意一个或两者,对于每个可能的分割方式确定用于指示每个可能的分割方式的正确性的概率的分割得分。
14.如权利要求12所述的地图搜索方法,其中通过参考统计模型来确定令牌序列的所述位置统计得分和所述查询统计得分中的至少一个,并且其中令牌序列的所述位置统计得分指示所述令牌序列是位置的概率,并且令牌序列的所述查询统计得分指示所述令牌序列是查询的概率。
15.如权利要求14所述的地图搜索方法,其中基于包括标题和地址在内的训练数据生成所述统计模型。
16.如权利要求15所述的地图搜索方法,其中在将原始地址和原始标题用作训练数据之前,对所述原始地址进行预处理以去除其中的尾标题,并且对所述原始标题进行预处理以去除其中的前缀行政区域名称。
17.如权利要求15所述的地图搜索方法,其中通过以下步骤生成所述统计模型:
将所述训练数据的包括标题和地址在内的每个片段解析成包括一个或多个令牌的令牌序列,每个令牌包括项和注释到所述项以指示所述项的属性的类型;
对于在所述标题和地址的所述令牌序列中所包括的每个项目,分别对在标题中出现的次数和在地址中出现的次数进行计数和存储,
其中,每个项目是任意以下项目:具有单个项的项一元模型、具有两个相邻的项的项序列的项二元模型、类型为“空”的相邻的项的序列、全部项的序列、涉及单个类型的类型一元模型、涉及两个相邻的类型的类型序列的类型二元模型、以及全部类型的序列。
18.如权利要求13所述的地图搜索方法,其中通过将位置部分的所述位置统计得分与所述查询部分的所述查询统计得分求和,来确定用于将所述令牌序列分割成所述位置部分和所述查询部分的所述可能的分割方式的所述分割得分。
19.如权利要求13所述的地图搜索方法,其中将用于将所述令牌序列分割成位置部分或查询部分的所述可能的分割方式的所述分割得分定义为所述位置部分的所述位置统计得分或所述查询部分的所述查询统计得分。
20.如权利要求13所述的地图搜索方法,包括:
对于每个可能的分割方式,确定所述查询部分的查询乘数和/或所述位置部分的位置乘数;
(1)通过与所述位置乘数相乘来调整所述位置部分的所述位置统计得分,并且(2)通过与所述查询乘数相乘来调整所述查询部分的所述查询统计得分;
通过将所述位置部分的调整后的位置统计得分与所述查询部分的调整后的查询统计得分求和,确定用于将所述令牌序列分割成位置部分和查询部分的所述可能的分割方式的所述分割得分;以及
将用于将所述令牌序列分割成位置部分或查询部分的所述可能的分割方式的所述分割得分确定为所述位置部分的所述调整后的位置统计得分或所述查询部分的所述调整后的查询统计得分。
21.如权利要求20所述的地图搜索方法,其中确定所述查询乘数包括:
基于所述查询部分的所述项目和长度确定所述查询乘数。
22.如权利要求20所述的地图搜索方法,其中,确定所述位置乘数包括:
确定与所述位置部分相关联的基本位置乘数;
根据预定规则调整所述基本位置乘数;以及
将所述位置乘数确定为调整后的基本位置乘数。
23.如权利要求22所述的地图搜索方法,其中根据预定规则调整所述基本位置乘数包括:
如果所述位置部分包括按照等级顺序的地址相关词,则提升所述基本位置乘数。
24.如权利要求22所述的地图搜索方法,其中根据预定规则调整所述基本位置乘数包括:
如果所述位置部分包括不按照等级顺序的地址相关词,则降低所述基本位置乘数。
25.如权利要求22所述的地图搜索方法,其中根据预定规则调整所述基本位置乘数包括:
如果所述位置部分包括重复的地址相关词,则降低所述基本位置乘数。
26.如权利要求17所述的地图搜索方法,其中确定令牌序列的位置统计得分包括:
基于关于所述令牌序列的项的项目的位置统计得分,确定所述令牌序列的项位置得分;
基于关于所述令牌序列的类型的项目的位置统计得分,确定所述令牌序列的类型位置得分;以及
通过将所述令牌序列的所述项位置得分和所述类型位置得分求和,确定所述令牌序列的所述位置统计得分,
其中,将项目的位置统计得分与项目的查询统计得分分别定义为:
项目的位置统计得分=log(l_count)*l_count/(l_count+q_count),以及
项目的查询统计得分=log(q_count)*q_count/(l_count+q_count),
其中,l_count和q_count分别表示当所述项目在地址和标题中出现的次数被存储在所述统计模型中时所述项目在地址和标题中出现的次数;以及
当所述项目在所述统计模型中不具有对应的条目时,将所述项目的所述位置统计得分和查询统计得分定义为0。
27.如权利要求26所述的地图搜索方法,其中对所述令牌序列的所述项位置得分的确定包括:
选取所述令牌序列中的第一令牌作为当前令牌;
确定所述当前令牌的“项一元模型”的所述位置统计得分、以及以所述当前令牌的所述项开始的所述令牌序列的项目“项二元模型”和“类型为“空”的相邻的项的序列”的所述位置统计得分;
选择最高位置统计得分作为所述当前令牌的项位置得分;
将当确定所述当前令牌的所述项位置得分时不纳入考虑的下一个令牌视为新当前令牌,以生成一个或多个新当前令牌,直到所述令牌序列的结束为止,并且确定每个新当前令牌的项位置得分;
将获得的全部所述项位置得分求和以生成第一值;
将所述令牌序列的全部项的序列的位置统计得分确定为第二值;以及
选择所述第一值与第二值之中较大的值作为所述令牌序列的所述项位置得分。
28.如权利要求26所述的地图搜索方法,其中确定所述令牌序列的所述类型位置得分包括:
选取所述令牌序列中的第一令牌作为当前令牌;
确定所述当前令牌的所述类型一元模型的位置统计得分,以及从所述当前令牌的类型开始的所述令牌序列的所述类型二元模型的位置统计得分;
选择所述类型一元模型的所确定位置统计得分与所述类型二元模型的所述位置统计得分之中较高位置统计得分作为所述当前令牌的类型位置得分;
将当确定所述当前令牌的所述类型位置得分时不纳入考虑的下一个令牌视为新当前令牌,以生成一个或多个新当前令牌,直到所述令牌序列的结束为止,并且确定每个新当前令牌的类型位置得分;
将获得的全部所述类型位置得分求和以生成第一值;
将所述令牌序列的全部类型的序列的位置统计得分确定为第二值;
选择所述第一值与第二值之中较大的值作为所述令牌序列的所述类型位置得分。
29.如权利要求26所述的地图搜索方法,其中确定令牌序列的查询统计得分包括:
f1)基于关于所述令牌序列的项的项目的查询统计得分,确定所述令牌序列的项查询得分;
f2)基于关于所述令牌序列的类型的项目的查询统计得分,确定所述令牌序列的类型查询得分;以及
f3)通过将所述令牌序列的所述项查询得分和所述类型查询得分求和,确定所述令牌序列的所述查询统计得分。
30.如权利要求29所述的地图搜索方法,其中步骤f1)包括:
f11)选取所述令牌序列中的第一令牌作为当前令牌;
f12)确定所述当前令牌的“项一元模型”的所述查询统计得分,以及以所述当前令牌的所述项开始的所述令牌序列的项目“项二元模型”和“类型为“空”的相邻的项的序列”的所述查询统计得分;
f13)选择最高查询统计得分作为所述当前令牌的项查询得分;
f14)将当确定所述当前令牌的所述项查询得分时不纳入考虑的下一个令牌视为新当前令牌,并且重复步骤f11)-步骤f14)以确定所述新当前令牌的项查询得分,直到所述令牌序列的结束为止;
f15)将获得的全部所述项查询得分求和;
f16)确定所述令牌序列的项目“全部项的序列”的查询统计得分;以及
f17)将在步骤f16)和步骤f17)处获得的结果之中较大的结果确定为所述令牌序列的所述项查询得分。
31.如权利要求29所述的地图搜索方法,其中步骤f2)包括:
f21)选取所述令牌序列中的第一令牌作为当前令牌;
f22)确定所述当前令牌的“类型一元模型”的所述查询统计得分,以及从所述当前令牌的所述类型开始的所述令牌序列的项目“类型二元模型”的所述查询统计得分;
f23)选择较高的查询统计得分作为所述当前令牌的类型查询得分;
f24)将当确定所述当前令牌的所述类型查询得分时不纳入考虑的下一个令牌视为新当前令牌,并且重复步骤f21)-步骤f24)以确定所述新当前令牌的所述类型查询得分,直到所述令牌序列结束位置;
f25)将获得的全部所述类型查询得分求和;
f26)确定所述令牌序列的项目“全部类型的序列”的查询统计得分;以及
f27)将在步骤f26)和步骤f27)处获得的结果之中较大的结果确定为所述令牌序列的所述类型查询得分。
32.如权利要求3所述的地图搜索方法,其中所述将所述输入条目解析成所述令牌序列包括:
改正在所述令牌序列中错误地注释的类型。
33.如权利要求32所述的地图搜索方法,其中改正在所述令牌序列中错误地注释的类型包括:
如果所述项不是跟随在类型为“号”的项之后,则将项目的所述类型“量词后缀”改成所述类型“空”。
34.一种计算机实现的地图搜索方法,包括:
将从用户接收的、用于地图搜索的输入条目分解成包括一个或多个令牌的令牌序列,每个令牌包括用于表示所述输入条目的段的项以及给所述项注释的、用于指示所述项的类型的类型;
确定所述令牌序列的可能的分割位置,其中可能的分割位置将所述令牌序列分割成一个或两个子序列;
对于每个所述可能的分割位置确定可能的分割方式,其中每个可能的分割方式将所述令牌序列分割成以下至少一个(1)用于指示位置信息的可能的位置部分和(2)用于指示与所述位置部分相关联的搜索目标的可能的查询部分;
对于每个所述可能的分割方式的正确性的概率确定分割得分;以及
选择具有最高分割得分的所述可能的分割方式作为结果分割方式。
35.如权利要求34所述的地图搜索方法,其中:
对于将所述令牌序列分割成两个子令牌序列的可能的分割位置:
确定用于所述两个子令牌序列中的每一个子令牌序列的位置统计得分和查询统计得分,并且通过将具有较高位置统计得分的所述子令牌序列当作所述可能的位置部分并且将另一个子令牌序列当作所述可能的查询部分来确定对应于所述可能的分割位置的所述可能的分割方式;
对于将所述令牌序列分割成一个子令牌序列的可能的分割位置:
通过当所述子令牌序列的所述位置统计得分高于所述子令牌序列的所述查询统计得分时将所述子令牌序列当作所述位置部分,并且当所述子令牌序列的所述查询统计得分高于所述子令牌序列的所述位置统计得分时将所述子令牌序列当作所述查询部分,确定对应于所述可能的分割位置的所述可能的分割方式。
36.如权利要求35所述的地图搜索方法,其中,对用于指示每个所述可能的分割方式的正确性的统计概率的所述分割得分的确定包括:
基于所述位置部分的所述位置统计得分和所述查询部分的所述查询统计得分中的任意一个或两者,对于每个可能的分割方式确定用于指示每个所述可能的分割方式的正确性的概率的分割得分。
37.如权利要求35所述的地图搜索方法,其中通过参考统计模型来确定令牌序列的所述位置统计得分和所述查询统计得分中的至少一个,并且其中令牌序列的所述位置统计得分指示所述令牌序列是位置的概率,并且令牌序列的所述查询统计得分指示所述令牌序列是查询的概率。
38.如权利要求37所述的地图搜索方法,其中基于包括标题和地址的训练数据生成所述统计模型。
39.如权利要求38所述的地图搜索方法,其中在将原始地址和原始标题用作训练数据之前,对所述原始地址进行预处理以去除其中的尾标题,并且对所述原始标题进行预处理以去除其中的前缀行政区域名称。
40.如权利要求38所述的地图搜索方法,其中通过以下步骤生成所述统计模型:
将所述训练数据的包括标题和地址的每个片段解析成包括一个或多个令牌的令牌序列,每个令牌包括项和注释给所述项以指示所述项的属性的类型;
对于所述标题和地址的所述令牌序列中所包括的每个项目,分别对在标题中出现的次数和在地址中出现的次数进行计数和存储,
其中,每个项目是以下之中任意项目:具有单个项的项一元模型、具有两个相邻的项的项序列的项二元模型、类型为“空”的相邻的项的序列、全部项的序列、涉及单个类型的类型一元模型、涉及两个相邻的类型的类型序列的类型二元模型以及全部类型的序列。
41.一种用于提供计算机实现的地图搜索的系统,包括:
解析模块,用于将从用户接收的、用于地图搜索的输入条目解析成位置部分和查询部分中的至少一个;以及
搜索模块,用于接收来自所述解析模块的输出,并且在接收到所解析位置部分和查询部分之后搜索与所述所解析位置部分和查询部分相关的信息,以便向所述用户返回地图搜索结果。
42.如权利要求41所述的系统,其中所述解析模块包括:
用于将所述输入条目解析成一个或多个令牌的令牌序列的装置,每个令牌包括用于表示所述输入条目的段的项以及给所述项注释的类型;以及
用于使用给每个项的该类型来指示所述项是否包括地址相关信息以及所述地址相关信息的类型的装置。
43.如权利要求42所述的系统,其中所述用于将所述输入条目解析成所述令牌序列的装置包括:
用于将所述输入条目中的地址相关词标识为令牌的项的装置;以及
用于将所述地址相关词的类型标识为所述令牌的所述类型的装置。
44.如权利要求43所述的系统,其中所述用于标识所述输入条目中的地址相关词的装置包括:
用于使用地址相关词的字典中的条目及其类型来标识所述地址相关词和所述令牌类型的装置。
45.如权利要求43所述的系统,其中所述字典的地址相关词包括行政区域名称、路名、地址相关后缀、地址相关前缀和号中的至少一个。
46.如权利要求43所述的系统,包括:
用于将所述输入条目中的词标识为与地址无关的令牌的项的装置;以及
用于分配“空”作为所述令牌的所述类型,以指示所述令牌的所述项不包括地址相关信息的装置。
47.如权利要求43所述的系统,其中所述解析模块包括:
用于确定所述令牌序列的可能的分割位置的装置,每个可能的分割位置将所述令牌序列分割成一个或两个子令牌序列;
用于对于每个所述可能的分割位置确定可能的分割方式的装置,每个可能的分割方式将所述令牌序列分割成以下至少一个(1)可能的查询部分和(2)可能的位置部分;
用于确定用于指示每个所述可能的分割方式的正确性的统计概率的分割得分的装置;以及
用于选择具有最高分割得分的所述可能的分割方式作为结果分割方式的装置。
48.如权利要求43所述的系统,包括:
计算机网络,用于向所述解析模块和所述搜索模块并且向计算机提供通信;以及
客户端计算机,所述客户端计算机与所述计算机网络通信以便从所述用户接收用于地图搜索的所述输入条目,以及以便从所述搜索模块接收结果,
其中所述计算机网络将来自所述客户端计算机的所述输入条目导向所述解析模块并且将来自所述搜索模块的所述结果导向所述客户端计算机。
49.一种用于提供计算机实现的地图搜索的系统,包括:
令牌模块,用于将从用户接收的、用于地图搜索的输入条目用令牌表示成包括至少一个令牌的令牌序列,每个令牌包括用于表示所述输入条目的段的项以及给所述项注释的类型;
用于确定所述令牌序列的可能的分割位置的装置,其中可能的分割位置将所述令牌序列分割成一个或两个子序列;
用于对于每个所述可能的分割位置确定可能的分割方式的装置,其中每个可能的分割方式将所述令牌序列分割成可能的查询部分和可能的位置部分中的至少一个;
用于对于每个可能的分割方式确定分割得分的装置;
用于选择具有最高分割得分的所述可能的分割方式作为结果分割方式的装置;以及
搜索模块,用于接收所述结果分割方式以实施地图搜索并且生成到所述用户的地图搜索结果。
50.如权利要求49所述的系统,包括:
计算机网络,用于向所述令牌模块、全部所述装置以及所述搜索模块并且向计算机提供通信;以及
客户端计算机,所述客户端计算机与所述计算机网络通信以便从所述用户接收用于地图搜索的所述输入条目,
其中所述计算机网络将来自所述客户端计算机的所述输入条目导向所述令牌模块并且将来自所述搜索模块的所述结果导向所述客户端计算机。
51.一种用于提供计算机实现的地图搜索的系统,包括:
用于接收由用户输入的输入条目的接口;
处理单元,用于:
解析所述输入条目以便将所述输入条目分割成位置部分和查询部分中的至少一个;以及
基于所述解析结果搜索与所述输入条目相关的信息,
其中,如果所述输入条目被分割成位置部分和查询部分,则所述处理单元基于所述位置部分确定地理区域,并且搜索关于与所述查询部分相关联并且位于所述地理区域中的实体的信息。
52.如权利要求51所述的系统,包括:
计算机网络,用于向所述处理单元提供通信;以及
客户端计算机,所述客户端计算机与所述计算机网络通信以便从所述用户接收用于地图搜索的所述输入条目,
其中所述计算机网络经由所述接口将来自所述客户端计算机的所述输入条目导向所述处理单元、并且将来自所述处理单元的所述结果导向所述客户端计算机。
53.一种用于提供计算机实现的地图搜索的系统,包括:
用于接收由用户输入的输入条目的接口;
处理单元,用于:
将所述输入条目令牌化成包括至少一个令牌的令牌序列,每个令牌包括用于表示所述输入条目的段的项以及给所述项注释的类型;
确定所述令牌序列的可能的分割位置,可能的分割位置将所述令牌序列分割成一个或两个子序列;
对于每个所述可能的分割位置确定可能的分割方式,每个可能的分割方式将所述令牌序列分割成可能的查询部分和/或可能的位置部分;
对于每个可能的分割方式确定分割得分;以及
选择具有最高分割得分的所述可能的分割方式作为结果分割方式。
54.一种用于存储指令的机器可读记录介质,当所述指令由机器执行时使得所述机器执行以下步骤:
在基于来自用户的、用于地图搜索的输入条目实施所述地图搜索之前,将所述输入条目解析成用于指示输入搜索条目中的位置信息的位置部分和用于指示与所述输入条目中的所述位置部分相关联的搜索目标的查询部分;以及
实施地图搜索以便基于所述位置部分获得地理区域或位置,以及以便搜索关于与所述查询部分相关联并且位于所获得的地理区域或位置处、之内或附近的一个或多个实体的信息。
55.一种用于记录多个指令的机器可读记录介质,当所述指令由机器执行时使得所述机器执行以下动作:
将从用户接收的输入条目令牌化成包括至少一个令牌的令牌序列,其中每个令牌包括用于表示所述输入条目的段的项以及给所述项注释的类型;
确定所述令牌序列的可能的分割位置,其中可能的分割位置将所述令牌序列分割成一个或两个子序列;
对于每个所述可能的分割位置确定可能的分割方式,其中每个可能的分割方式将所述令牌序列分割成可能的查询部分和/或可能的位置部分;
对于每个可能的分割方式确定分割得分;
选择具有最高分割得分的所述可能的分割方式作为结果分割方式。
56.一种计算机实现的地图搜索方法,包括:
使得在基于来自用户的、用于地图搜索的输入条目实施所述地图搜索之前,将所述输入条目解析成用于指示输入搜索条目中的位置信息的位置部分和用于指示与所述输入条目中的所述位置部分相关联的搜索目标的查询部分,其中执行对所述输入条目的所述解析,而无需在先搜索对应于由所述输入条目所指示的位置的地理编码;以及
使得实施地图搜索以便基于所述位置部分获得地理区域或位置,以及以便搜索关于与所述查询部分相关联并且位于所获得的地理区域或位置处、之内或附近的一个或多个实体的信息。
57.如权利要求56所述的地图搜索方法,其中所述使得解析来自用户的、用于地图搜索的输入条目包括:
使得将所述输入条目解析成一个或多个令牌的令牌序列,每个令牌包括用于表示所述输入条目的段的项以及给所述项注释的类型;以及
使得给每个项的所述类型指示所述项是否包括地址相关信息和所述地址相关信息的类型。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2009/072667 WO2011003232A1 (en) | 2009-07-07 | 2009-07-07 | Query parsing for map search |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102483748A true CN102483748A (zh) | 2012-05-30 |
CN102483748B CN102483748B (zh) | 2016-04-20 |
Family
ID=43428731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980161026.1A Active CN102483748B (zh) | 2009-07-07 | 2009-07-07 | 用于地图搜索的方法和系统 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8745065B2 (zh) |
JP (1) | JP5462361B2 (zh) |
KR (1) | KR101516858B1 (zh) |
CN (1) | CN102483748B (zh) |
WO (1) | WO2011003232A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103631839A (zh) * | 2013-06-27 | 2014-03-12 | 西南科技大学 | 一种页面地域权重模型实现方法 |
CN105209858A (zh) * | 2013-03-15 | 2015-12-30 | 邓白氏公司 | 企业场所数据的非确定性消岐和匹配 |
CN106055994A (zh) * | 2015-04-16 | 2016-10-26 | 国际商业机器公司 | 信息处理方法、系统和装置 |
CN106104532A (zh) * | 2014-01-23 | 2016-11-09 | 洛茨平有限公司 | 用于创建多个信息令牌的计算机系统和方法 |
CN107209778A (zh) * | 2015-01-07 | 2017-09-26 | 微软技术许可有限责任公司 | 地理编码多实体查询 |
CN107491489A (zh) * | 2017-07-18 | 2017-12-19 | 深圳天珑无线科技有限公司 | 一种地图搜索方法、装置及计算机可读存储介质 |
CN108256117A (zh) * | 2014-03-20 | 2018-07-06 | 脸谱公司 | 方法、计算机可读非易失性存储介质和系统 |
CN117786242A (zh) * | 2024-02-26 | 2024-03-29 | 腾讯科技(深圳)有限公司 | 一种基于位置的搜索方法及相关装置 |
CN118349618A (zh) * | 2024-06-17 | 2024-07-16 | 成都中航智飞科技有限公司 | 一种基于协同办公软件的地理空间信息实时展示方法 |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8150848B2 (en) * | 2008-01-04 | 2012-04-03 | Google Inc. | Geocoding multi-feature addresses |
US8255379B2 (en) * | 2009-11-10 | 2012-08-28 | Microsoft Corporation | Custom local search |
US8739262B2 (en) * | 2009-12-18 | 2014-05-27 | Sabre Glbl Inc. | Tokenized data security |
US8473431B1 (en) | 2010-05-14 | 2013-06-25 | Google Inc. | Predictive analytic modeling platform |
CA2712028C (en) * | 2010-08-25 | 2011-12-20 | Ibm Canada Limited - Ibm Canada Limitee | Geospatial database integration using business models |
US8533224B2 (en) * | 2011-05-04 | 2013-09-10 | Google Inc. | Assessing accuracy of trained predictive models |
US20120317104A1 (en) * | 2011-06-13 | 2012-12-13 | Microsoft Corporation | Using Aggregate Location Metadata to Provide a Personalized Service |
CN102426596B (zh) * | 2011-11-03 | 2014-07-30 | 北京地拓科技发展有限公司 | 地图加载方法和装置 |
US9009183B2 (en) * | 2011-11-03 | 2015-04-14 | Microsoft Technology Licensing, Llc | Transformation of a system change set from machine-consumable form to a form that is readily consumable by a human |
CN102571910B (zh) * | 2011-11-16 | 2014-08-13 | 腾讯科技(深圳)有限公司 | 在社交网络中查找附近用户的方法和服务器 |
US9275147B2 (en) * | 2012-06-18 | 2016-03-01 | Google Inc. | Providing query suggestions |
US9268822B2 (en) * | 2012-07-18 | 2016-02-23 | Salesforce.Com, Inc. | System and method for determining organizational hierarchy from business card data |
EP2883152A4 (en) * | 2012-08-10 | 2016-03-16 | Nokia Technologies Oy | METHOD AND DEVICE FOR PROVIDING A CROWD SOURCE-FINANCED GEOCODING |
US9767121B2 (en) * | 2013-02-12 | 2017-09-19 | C/O Vmobo, Inc. | Location-based mobile search |
CN110222069A (zh) | 2013-03-15 | 2019-09-10 | 美国结构数据有限公司 | 用于批量和实时数据处理的设备、系统和方法 |
US9047325B2 (en) * | 2013-04-08 | 2015-06-02 | International Business Machines Corporation | Modularizing complex XML data for generation and extraction |
WO2014173965A1 (en) * | 2013-04-23 | 2014-10-30 | Face Recording And Measurements Ltd. | Database management system |
US10204139B2 (en) * | 2013-05-06 | 2019-02-12 | Verizon Patent And Licensing Inc. | Systems and methods for processing geographic data |
US9619499B2 (en) | 2013-08-07 | 2017-04-11 | International Business Machines Corporation | Hardware implementation of a tournament tree sort algorithm |
US9251218B2 (en) | 2013-08-07 | 2016-02-02 | International Business Machines Corporation | Tunable hardware sort engine for performing composite sorting algorithms |
US9495418B2 (en) | 2013-08-07 | 2016-11-15 | International Business Machines Corporation | Scalable acceleration of database query operations |
US9830354B2 (en) * | 2013-08-07 | 2017-11-28 | International Business Machines Corporation | Accelerating multiple query processing operations |
US9727595B2 (en) * | 2013-09-20 | 2017-08-08 | Uber Technologies, Inc. | Location searching with category indices |
US9582515B1 (en) | 2014-04-11 | 2017-02-28 | Google Inc. | Detecting queries for specific places |
US9519802B2 (en) | 2014-05-07 | 2016-12-13 | American Express Travel Related Services Company, Inc. | Systems and methods for document and data protection |
SG11201610354RA (en) * | 2014-06-12 | 2017-01-27 | Vasan Sun | Searching for a map using an input image as a search query |
US10127275B2 (en) | 2014-07-11 | 2018-11-13 | International Business Machines Corporation | Mapping query operations in database systems to hardware based query accelerators |
US9953171B2 (en) * | 2014-09-22 | 2018-04-24 | Infosys Limited | System and method for tokenization of data for privacy |
US10310813B2 (en) | 2014-12-29 | 2019-06-04 | International Business Machines Corporation | Hardware implementation of a tournament tree sort algorithm using an external memory |
US10002128B2 (en) | 2015-09-09 | 2018-06-19 | Samsung Electronics Co., Ltd. | System for tokenizing text in languages without inter-word separation |
US10268756B2 (en) | 2015-12-18 | 2019-04-23 | Here Global B.V. | Method and apparatus for providing natural language input in a cartographic system |
US10282466B2 (en) * | 2015-12-31 | 2019-05-07 | Samsung Electronics Co., Ltd. | Machine processing of search query based on grammar rules |
US10671932B1 (en) * | 2017-01-27 | 2020-06-02 | Intuit Inc. | Software application selection models integration |
US11640436B2 (en) | 2017-05-15 | 2023-05-02 | Ebay Inc. | Methods and systems for query segmentation |
CN110019617B (zh) * | 2017-12-05 | 2022-05-20 | 腾讯科技(深圳)有限公司 | 地址标识的确定方法和装置、存储介质、电子装置 |
US10606851B1 (en) * | 2018-09-10 | 2020-03-31 | Palantir Technologies Inc. | Intelligent compute request scoring and routing |
US10783175B2 (en) * | 2018-09-28 | 2020-09-22 | Microsoft Technology Licensing, Llc | Expanding search queries using query term weighting |
US11010376B2 (en) * | 2018-10-20 | 2021-05-18 | Verizon Patent And Licensing Inc. | Methods and systems for determining search parameters from a search query |
CN109657034A (zh) * | 2018-11-05 | 2019-04-19 | 阿里巴巴集团控股有限公司 | 地址相似度计算方法及其系统 |
US10409641B1 (en) | 2018-11-26 | 2019-09-10 | Palantir Technologies Inc. | Module assignment management |
US11120007B2 (en) | 2018-11-26 | 2021-09-14 | Palantir Technologies Inc. | Module expiration management |
US11293776B2 (en) * | 2018-11-27 | 2022-04-05 | Verizon Patent And Licensing Inc. | Smart geocoding of road intersections |
US12067009B2 (en) * | 2018-12-10 | 2024-08-20 | Teradata Us, Inc. | Predictive query parsing time and optimization |
CN109783589B (zh) * | 2018-12-13 | 2023-07-25 | 中国平安人寿保险股份有限公司 | 电子地图解析地址的方法、装置及存储介质 |
US11631047B2 (en) * | 2019-04-12 | 2023-04-18 | Flipkart Internet Pvt. Ltd. | System and method of geocoding |
CN111159239B (zh) * | 2019-12-31 | 2024-03-05 | 北京四维图新科技股份有限公司 | 搜索方法和设备 |
CN113094600A (zh) * | 2020-01-08 | 2021-07-09 | 百度在线网络技术(北京)有限公司 | 电子地图的搜索方法、装置、设备和介质 |
CN113849531B (zh) * | 2021-09-23 | 2024-03-22 | 北京百度网讯科技有限公司 | 查询方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070015119A1 (en) * | 2005-07-13 | 2007-01-18 | Atenasio Christopher M | Identifying locations |
CN101128824A (zh) * | 2004-12-30 | 2008-02-20 | 谷歌公司 | 位置提取 |
CN101136028A (zh) * | 2006-07-10 | 2008-03-05 | 日电(中国)有限公司 | 基于自然语言的位置查询系统以及基于关键词的位置查询系统 |
CN101350013A (zh) * | 2007-07-18 | 2009-01-21 | 北京灵图软件技术有限公司 | 一种地理信息的搜索方法和系统 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2583879B2 (ja) * | 1987-03-16 | 1997-02-19 | 日本電信電話株式会社 | 情報検索装置 |
JP3199093B2 (ja) * | 1993-12-13 | 2001-08-13 | シャープ株式会社 | 住所情報検索装置 |
JP2001249922A (ja) * | 1999-12-28 | 2001-09-14 | Matsushita Electric Ind Co Ltd | 単語分割方式及び装置 |
AU2001273111A1 (en) | 2000-06-30 | 2002-01-14 | Anthony Romito | Method and apparatus for a GIS based search engine utilizing real time advertising |
US20070027672A1 (en) * | 2000-07-31 | 2007-02-01 | Michel Decary | Computer method and apparatus for extracting data from web pages |
US7207012B1 (en) * | 2003-01-30 | 2007-04-17 | Sprint Communications Company L.P. | System and method for mapping deployment status of high bandwidth metropolitan area networks |
US8037078B2 (en) | 2003-03-18 | 2011-10-11 | Nokia Corporation | Corpus clustering, confidence refinement, and ranking for geographic text search and information retrieval |
US7752210B2 (en) * | 2003-11-13 | 2010-07-06 | Yahoo! Inc. | Method of determining geographical location from IP address information |
JP4246055B2 (ja) * | 2003-12-19 | 2009-04-02 | アルパイン株式会社 | 車載用ナビゲーション装置及び周辺施設検索表示方法 |
US20070168370A1 (en) * | 2004-11-16 | 2007-07-19 | Hardy Mark D | System and methods for provisioning geospatial data |
JP2006162516A (ja) * | 2004-12-09 | 2006-06-22 | Fujitsu Ten Ltd | 情報端末装置 |
US7506254B2 (en) * | 2005-04-21 | 2009-03-17 | Google Inc. | Predictive conversion of user input |
US20080086356A1 (en) * | 2005-12-09 | 2008-04-10 | Steve Glassman | Determining advertisements using user interest information and map-based location information |
WO2008005102A2 (en) * | 2006-05-13 | 2008-01-10 | Sap Ag | Consistent set of interfaces derived from a business object model |
JP4926689B2 (ja) * | 2006-12-18 | 2012-05-09 | 三菱電機株式会社 | 施設検索装置 |
US8359309B1 (en) * | 2007-05-23 | 2013-01-22 | Google Inc. | Modifying search result ranking based on corpus search statistics |
EP2158540A4 (en) * | 2007-06-18 | 2010-10-20 | Geographic Services Inc | NAME SYSTEM FOR SELECTING GEOGRAPHICAL CHARACTERISTICS |
US7983913B2 (en) * | 2007-07-31 | 2011-07-19 | Microsoft Corporation | Understanding spoken location information based on intersections |
JP4962959B2 (ja) * | 2007-07-31 | 2012-06-27 | ヤフー株式会社 | 地図上の領域を求める方法 |
JP2009104450A (ja) | 2007-10-24 | 2009-05-14 | Nagoya Institute Of Technology | Webチャットの観測に基づく商品推薦システム |
US8364470B2 (en) * | 2008-01-15 | 2013-01-29 | International Business Machines Corporation | Text analysis method for finding acronyms |
US20090210388A1 (en) * | 2008-02-20 | 2009-08-20 | Microsoft Corporation | Efficiently discovering and synthesizing maps from a large corpus of maps |
GB2460045A (en) | 2008-05-13 | 2009-11-18 | Triad Group Plc | Analysing multiple data sources for a user request using business and geographical data, with selected rule sets to filter the data on the databases. |
US8364462B2 (en) * | 2008-06-25 | 2013-01-29 | Microsoft Corporation | Cross lingual location search |
US8521731B2 (en) * | 2008-07-09 | 2013-08-27 | Yahoo! Inc. | Systems and methods for query expansion in sponsored search |
US8666652B2 (en) * | 2008-09-30 | 2014-03-04 | Sas Institute Inc. | System and method for running stored statistical processes using a web-based graphical information system |
US8015172B1 (en) * | 2009-07-03 | 2011-09-06 | eBridge, Inc. | Method of conducting searches on the internet to obtain selected information on local entities and provide for searching the data in a way that lists local businesses at the top of the results |
KR101289082B1 (ko) | 2009-09-02 | 2013-07-22 | 한국전자통신연구원 | 지역 정보 서비스 제공 시스템 및 그 방법 |
US8255379B2 (en) | 2009-11-10 | 2012-08-28 | Microsoft Corporation | Custom local search |
-
2009
- 2009-07-07 CN CN200980161026.1A patent/CN102483748B/zh active Active
- 2009-07-07 US US13/383,181 patent/US8745065B2/en not_active Expired - Fee Related
- 2009-07-07 JP JP2012518721A patent/JP5462361B2/ja active Active
- 2009-07-07 KR KR1020127000638A patent/KR101516858B1/ko active IP Right Grant
- 2009-07-07 WO PCT/CN2009/072667 patent/WO2011003232A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101128824A (zh) * | 2004-12-30 | 2008-02-20 | 谷歌公司 | 位置提取 |
US20070015119A1 (en) * | 2005-07-13 | 2007-01-18 | Atenasio Christopher M | Identifying locations |
CN101136028A (zh) * | 2006-07-10 | 2008-03-05 | 日电(中国)有限公司 | 基于自然语言的位置查询系统以及基于关键词的位置查询系统 |
CN101350013A (zh) * | 2007-07-18 | 2009-01-21 | 北京灵图软件技术有限公司 | 一种地理信息的搜索方法和系统 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105209858B (zh) * | 2013-03-15 | 2018-11-16 | 邓白氏公司 | 企业场所数据的非确定性消岐和匹配 |
CN105209858A (zh) * | 2013-03-15 | 2015-12-30 | 邓白氏公司 | 企业场所数据的非确定性消岐和匹配 |
CN103631839B (zh) * | 2013-06-27 | 2017-08-29 | 西南科技大学 | 一种页面地域权重模型实现方法 |
CN103631839A (zh) * | 2013-06-27 | 2014-03-12 | 西南科技大学 | 一种页面地域权重模型实现方法 |
CN106104532A (zh) * | 2014-01-23 | 2016-11-09 | 洛茨平有限公司 | 用于创建多个信息令牌的计算机系统和方法 |
CN108256117B (zh) * | 2014-03-20 | 2021-12-28 | 脸谱公司 | 用于识别与位置相关联的地点的方法、系统和存储介质 |
CN108256117A (zh) * | 2014-03-20 | 2018-07-06 | 脸谱公司 | 方法、计算机可读非易失性存储介质和系统 |
CN107209778A (zh) * | 2015-01-07 | 2017-09-26 | 微软技术许可有限责任公司 | 地理编码多实体查询 |
US10354078B2 (en) | 2015-04-16 | 2019-07-16 | International Business Machines Corporation | Multi-focused fine-grained security framework |
CN106055994B (zh) * | 2015-04-16 | 2019-08-27 | 国际商业机器公司 | 信息处理方法、系统和装置 |
CN106055994A (zh) * | 2015-04-16 | 2016-10-26 | 国际商业机器公司 | 信息处理方法、系统和装置 |
CN107491489A (zh) * | 2017-07-18 | 2017-12-19 | 深圳天珑无线科技有限公司 | 一种地图搜索方法、装置及计算机可读存储介质 |
CN117786242A (zh) * | 2024-02-26 | 2024-03-29 | 腾讯科技(深圳)有限公司 | 一种基于位置的搜索方法及相关装置 |
CN117786242B (zh) * | 2024-02-26 | 2024-05-28 | 腾讯科技(深圳)有限公司 | 一种基于位置的搜索方法及相关装置 |
CN118349618A (zh) * | 2024-06-17 | 2024-07-16 | 成都中航智飞科技有限公司 | 一种基于协同办公软件的地理空间信息实时展示方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5462361B2 (ja) | 2014-04-02 |
JP2012532388A (ja) | 2012-12-13 |
KR101516858B1 (ko) | 2015-05-04 |
US20120278339A1 (en) | 2012-11-01 |
KR20120123241A (ko) | 2012-11-08 |
US8745065B2 (en) | 2014-06-03 |
WO2011003232A1 (en) | 2011-01-13 |
CN102483748B (zh) | 2016-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102483748A (zh) | 用于地图搜索的查询解析 | |
CN101313300B (zh) | 本地搜索 | |
CN101918945B (zh) | 用于执行自动扩展的语言搜索的方法和系统 | |
CN100405371C (zh) | 一种提取新词的方法和系统 | |
KR101225467B1 (ko) | 웹사이트의 웹 페이지들과 같은, 관계된 웹 페이지들간의 유용한 정보 전파 | |
CN111782965A (zh) | 意图推荐方法、装置、设备及存储介质 | |
US20090094189A1 (en) | Methods, systems, and computer program products for managing tags added by users engaged in social tagging of content | |
CN102289467A (zh) | 确定目标网点的方法和装置 | |
CN101350013A (zh) | 一种地理信息的搜索方法和系统 | |
CN103064956A (zh) | 用于搜索电子内容的方法、计算系统和计算机可读介质 | |
US8977625B2 (en) | Inference indexing | |
CN101772766B (zh) | 以用户为中心的信息搜索的方法和系统 | |
CN102693272A (zh) | 从统一资源定位符(url)的关键字提取 | |
CN101911069A (zh) | 用于数据聚类和同义词的发现和修改的方法和系统 | |
CN104572955A (zh) | 一种基于聚类确定poi名称的系统及方法 | |
CN106021336A (zh) | 一种对批量地址信息进行自动行政区划划分的方法 | |
KR100835290B1 (ko) | 문서 분류 시스템 및 문서 분류 방법 | |
CN106021418A (zh) | 新闻事件的聚类方法及装置 | |
CN104572957A (zh) | 一种基于聚类的poi名称确定系统及方法 | |
US20130031458A1 (en) | Hyperlocal content determination | |
JP5221664B2 (ja) | 情報マップ管理システムおよび情報マップ管理方法 | |
CN109284362B (zh) | 一种内容检索方法及系统 | |
CN115168401A (zh) | 数据分级处理方法及装置、电子设备及计算机可读介质 | |
CN103226601A (zh) | 一种图片搜索的方法和装置 | |
US20210042315A1 (en) | Search system using multiple search streams |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: American California Patentee after: Google limited liability company Address before: American California Patentee before: Google Inc. |
|
CP01 | Change in the name or title of a patent holder |