CN101782923A - 使用自然语言文档中的地理信息的基于位置的系统 - Google Patents
使用自然语言文档中的地理信息的基于位置的系统 Download PDFInfo
- Publication number
- CN101782923A CN101782923A CN200910263722A CN200910263722A CN101782923A CN 101782923 A CN101782923 A CN 101782923A CN 200910263722 A CN200910263722 A CN 200910263722A CN 200910263722 A CN200910263722 A CN 200910263722A CN 101782923 A CN101782923 A CN 101782923A
- Authority
- CN
- China
- Prior art keywords
- location
- geography information
- information
- geographic position
- based system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Abstract
一种用于操作基于位置的系统的方法,包括:识别非结构化电子文本中的地理信息。提取所识别的地理信息,其包括街道信息、地址信息或位置名称。确定所识别的地理信息能够指代的多个候选地理位置。选择所述多个候选地理位置之一。在基于位置的服务中使用所选择的地理位置的字母数字表示。本发明的系统执行前述步骤中的每一个。所述系统支持提取所述非结构化文本中提及的所有位置,并应用上述步骤。
Description
版权声明
本文档的各部分受版权保护。本版权拥有者不反对当美国专利商标局使本专利文档有效时,对其进行复制。但是,本版权拥有者保留在本文中描述并在附图中示出的软件的所有版权。下面的声明适用于在本文中描述和说明的软件:2008,Robert Bosch GmbH,All Rights Reserved。
技术领域
本发明涉及用于向基于位置的系统提供数据的装置和方法。
背景技术
典型的基于位置的系统可以接收位置数据,并且使用该数据来在电子地图上建立显示,或者在汽车中提供路线引导信息。当今,可以获得这样的系统,其能够连接到互联网、访问诸如网络服务这样的数量有限的互联网数据源,并且使用它们来提供不同的基于位置的服务。这些系统依赖于向设备传送以公知的格式存在的位置数据。通常,这种位置数据必须遵从标准化的结构,以便设备能够识别并使用它。例如,存在可用的标准化的XML格式,其使得可以对位置信息进行编码。多种互联网服务提供这些格式的信息。支持这些特定格式的每种设备能够使用这些互联网服务提供的位置信息。
基于这种方式的系统从提供非常特定格式的信息的源中提取地理信息。这样的系统仅仅可以处理有限的一组数据提供者,并且考虑到它们不能处理处于一系列的不同且在发生变化的格式下的位置数据,因此这样的系统是不灵活的。如果格式发生改变或者系统要支持新的格式,则该系统需要被适当地扩展。这可能要花费很大努力,并且对于本领域的设备来说,通常这根本是不可能的。
近来的技术通过处理使得系统能够支持大量不同的结构化的数据格式。这种技术综合了如何从结构化数据提取位置信息和如何集成基于位置的服务所需的处理的方式。这种技术的优点之一在于,其使得本领域的系统能够访问新的数据源,并且其可以应对数据格式的结构改变。虽然该技术在处理结构化数据格式方面引入了灵活性,但是它处理不了以非结构化形式存在的地址位置信息,诸如具有系统未知的内容和结构的文本文档或者互联网网页中的地址位置信息。
当今有一些方式能够识别非结构化文本资源中有限的一组地理信息类型。但是,这些系统不适合于基于位置的服务,因为它们中的大多数仅仅识别洲、国家、州和(主要)城市级的地理分辨率的位置。还没有系统允许同时识别诸如国家、州等的粗粒度地理信息,和街道与地址级的细粒度位置信息。对文档中包含的所有地理信息的访问,无论其地理分辨率如何,对于根据由被分析的资源提供的信息进行的导航和其他基于位置的服务来说都是极重要的。
非结构化的内容在互联网上到处都可以找到,但是在现有技术中,还不能被基于位置的服务和设备自主地访问。因为这个原因,在现有技术中,无法实现诸如制定旅行计划这样的一系列应用,因其依赖于对具有丰富但未结构化的地理内容的信息源的访问。
总之,互联网和其他电子源可以提供大量数据,这些数据包括非结构化格式的、与地点的名称和它们的地址有关的位置信息。本领域中既未公开又未启示有一种可以利用这种非结构化地理数据的基于位置的系统,诸如汽车中的导航系统、便携式导航系统,或蜂窝电话。
发明内容
本发明向导航系统提供了以下功能:访问可以在诸如网页这样的非结构化文本文档中找到的诸如地址和兴趣点这样的许多种地理信息。本发明的功能解除了用户的手动提取和数据输入的负担。本发明的设备可以自主地访问来自于之前仅可以被人读取的源的位置信息。
本发明可以提供基于位置的设备,其具有互联网连接,能够访问可以在非结构化或者半结构化文本资源中找到的诸如地址和兴趣点这样的许多种地理信息。本发明使得能够从自然语言构成的任何文档中识别并提取位置信息。这包括纯粹由文本构成的文档,以及像网页或者电子邮件这样的半格式化文档。本发明能够提取这些文档中的所有地理信息,并且使用该信息来提供基于位置的服务,例如通过导航系统和移动电话来提供路线引导。
本发明使得之前不可使用的非结构化数据可被基于位置的系统访问。本发明使得能够处理非结构化的自然语言,以便从中提取位置信息,并且使用所找到的位置向用户提供基于位置的服务。因为从机器的角度看,互联网上现在可用的大多数内容(人可读的网页等)是非结构化的,因此这种方式向基于位置的系统开放了广泛的另外的内容。
在一个实施例中,本发明包括一种用于操作基于位置的系统的方法,所述方法包括识别非结构化电子文本中的地理信息。提取所识别的地理信息,其中包括街道信息、地址信息和/或兴趣点的名称等。确定所识别的地理信息可以指代的多个候选地理位置。选择所述多个候选地理位置之一。在基于位置的服务中使用所选择的地理位置的字母数字表示。本发明的系统执行前述步骤中的每一个。
在另一实施例中,本发明包括一种用于操作基于位置的系统的方法,所述方法包括手动选择互联网网页。识别所述网页中的地理信息。所述地理信息包括地址信息和/或对兴趣点的参考信息。从所述网页中提取所识别的地理信息。在导航服务和/或地图服务中使用所提取的地理信息。通过本发明的系统来自动执行所述识别、提取和使用步骤。
在又一实施例中,本发明包括一种用于操作基于位置的系统的方法,所述方法包括识别非结构化电子文本中的多个部分的地理信息。从所述文本中提取所识别的多个部分的地理信息。确定所识别的多个部分的地理信息其中之一可以指代的多个候选地理位置。选择所述多个候选地理位置之一。所述选择步骤取决于所识别的多个部分的地理信息中的其他部分。查明所选择的地理位置的地理坐标。在基于位置的服务中使用所选择的地理位置的地理坐标。
本发明的优点在于,其解决了互联网和其他源上找到的非结构化内容与基于位置的服务所提供的功能之间的鸿沟。
另一个优点在于,本发明使基于位置的系统能够使用许多非结构化地理信息源。
附图说明
通过参照下面结合附图对本发明的实施例进行的描述,本发明的上述及其他特征和目的,以及获得它们的方式将变得更加显而易见,并且将更好地理解本发明本身,在附图中:
图1a是根据本发明的一个实施例、从网站wikitravel.org获得的与旅行和旅行者相关的地理解析文本的样本;
图1b是根据本发明的一个实施例、对从图1a的文本中获得的地理编码位置参考信息进行的地图可视化;
图2是本发明的基于位置的装置的一个实施例的框图;以及
图3是本发明的用于操作基于位置的系统的方法的一个实施例的流程图。
对应的标号指示全部数个视图中对应的部分。虽然附图表示本发明的实施例,但是附图并不必然按照比例绘制,并且可以放大某些特征以便更好地说明和解释本发明。虽然本文中阐述的示例以数种形式说明了本发明的实施例,但是下面公开的实施例并不意图是穷举性的,或者被解释为将本发明的范围限制在所公开的精确形式。
具体实施方式
后文所公开的实施例并不意图是穷举性的,或者将本发明限制在在以下说明中公开的精确形式。相反,选择和描述这些实施例是为了使本领域内技术人员可以使用其教导。
本发明可以使用的地理信息源包括:在线旅行指南、旅行报告、黄页以及示出(联系)地址的企业和个人主页等。另外,本发明使得可以处理电子邮件和个人消息中包含的地理信息。图1a用粗字体示出具有有价值的地理信息的旅行指南的提取。图1a是来自互联网网站wikitravel.org的与旅行和旅行者相关的地理解析(geo-parsed)文本的样本。出于在本文中进行说明的目的,用粗字体示出被本发明识别为位置参考的参考信息(reference)。但是,应当理解,网页并不一定要用粗体或者任何其他特殊字体来提供这些参考信息。尽管该地理信息是在非结构化的自然语言文本中,但是该地理信息也可以被本发明识别。
本发明的设备提取地理信息,并且提供基于位置的服务。可以以许多方式来使用图1a的文本的地理内容。例如,该设备可以将这些位置呈现在地图上,在地图上可以用这些位置进行路线引导。在图1b中示出了这种示例性的使用情况,其示出了在地图中对来自图1a的文本的地理编码(geo-coded)位置参考信息进行的可视化。该特定可视化的地理区域是旧金山市。
本发明的设备能够提取任何地理分辨率的地理信息。所述地理信息可以包括标示特定地点位置的地理坐标,以及任意大小的地理区域和地理政治实体(例如,国家、州、县、省等)。所述地理信息还可以包括诸如山、丘陵、湖泊、河流等的地理特征,和诸如城市、城镇、村庄、居民区和辖区这样的居住地。本发明的设备能够找到兴趣点,诸如景点、机场、火车站和在文化与历史上重要的地理实体。此外,该设备能够识别许多种交通基础设施,诸如公路、高速公路、州际公路、道路、街道,以及骑行和步行径和路径。另外,本发明涵盖的可识别实体组可以包括:街道地址与完整地址、邮政编码以及电话号码。电话号码间接地标示地理区域或者特定地点位置(例如,旅馆或者饭店)。
为了检测地理信息,本发明的系统可以执行位置识别工作流中的数个处理步骤。首先,为了分离出可能的地理位置,可以将各种语言学方法应用于非结构化文本。然后,所提取的位置信息可以在地理上被消除歧义,并且以标准化数据格式被存储。本发明的处理可以使设备能够被配备各种不同的基于位置的服务,本发明使这些基于位置的服务能够利用经分析的地理数据。图2说明了与本发明的基于位置的装置10的一个实施例相关联的系统工作流。
第一处理步骤可以是获取数据,所述数据需要被分析以获得位置信息。出于此目的,本发明的基于位置的设备12能够访问一系列的处于不同格式和不同位置的非结构化和半非结构化文档。例如,本发明的设备可以访问可以被存储在该设备自身上的文本文档14,诸如纯文本TXT文件、AdobePDF、Microsoft Word文档等。该设备还可以使用语音识别技术(例如,语音文本转换),以允许用户通过向系统讲话来输入内容。使用标准的无线或者有线数据连接,该设备还可以访问在其外部存储的信息16,诸如网页、电子邮件、文本消息等。即,设备12可以具有网络浏览、收发电子邮件和传送文本消息的能力。
除了访问可以存储在网络服务器上的基于网络的电子文档之外,设备12还能够访问诸如智能电话、膝上型计算机等的其他设备上的文档16。标准的通信和连接技术可以用来使得本发明的设备能够访问智能电话、膝上型计算机等上的此类文档。
在非结构化的自然语言文档对于本发明的设备为完全可用之后,可以在地理解析模块18中开始对文档进行地理解析的语言分析阶段。在此阶段期间,可以将文本分解成语句和单词。基于语义和语法分析的语言解析可以应用于文档和语句结构。因此,可以确定文档的每个元素的词语类型,诸如动词、名词、代词、命名实体(named entity)等。
基于这种分解成结构元素的处理,可以从文本中提取可能的位置对象(location referent)20。这可以通过考虑词语类型和它们的文本顺序来实现。基于概率,例如,动词几乎不可能是位置对象,而前面是介词的命名实体(即,与具体语言的语法没有直接关系的名词/词语/名称)更可能是可能的位置对象。
本发明可以应用的另一种方法使用指示位置的关键字,诸如“Red RockCanyon”(红石峡谷)中的“Canyon”、“Chestnut Street”(栗树街)中的“Street”、“Mt.Whitney”(惠特尼山)中的“Mt.”等。在一个实施例中,本发明还考虑了以下情况:诸如完整地址这样的更复杂的位置对象包括诸如街道号码、街道名称、邮政编码、城市名等多个部分。电话号码和邮政编码也标示位置,并且也可以在地理解析处理中被识别。
为了获得可行的地理解析结果,本发明可以采用通常用于信息提取任务的不同方式。一些这样的方式在文献Eikvil L.(1999),InformationExtraction from World Wide Web-A survey,Technical Report 945,NorwegianComputing Center中有描述,特此通过引用将该文献并入本文。
本发明也可以采用信息提取技术,诸如来自知识工程领域的语言规则集。一些这样的语言规则集在文献Cunningham,H.,Wilks,Y.,and Gaizauskas,R.(1996),GATE-A General Architecture for Text Engineering中有描述,特此通过引用将该文献并入本文。这种方式采用由有经验的语言学家手动编制的语言规则集。这些规则可以被调整来应用在本发明中,以使得能够提取位置对象。
本发明还可以采用可以被监督或者不被监督的自动训练。自动训练的一些技术在文献Nadeau,D.,Turney,P.,and Matwin,S.(2006),Unsupervisednamed-entity recognition:Generating gazetteers and resolving ambiguity,inAdvances in Artificial Intelligence,pages 266-277,Springer Berlin中有描述,特此通过引用将该文献并入本文。基于一定数量的适当训练数据,可以训练出一模型,该模型进一步用于从先前未见的文本中提取位置对象。
本发明还可以采用在之前两个段落中描述的语言规则集和自动训练的混合或者组合。一些这样的混合方式在文献Mikheev,A.,Grover,C.,andMoens,M.(1998),Description of the LTG system used for MUC-7中有描述,特此通过引用将该文献并入本文。可以使用语言规则来收集数据集,然后可以在该数据集上对系统进行训练。这种方式可以统一基于机器学习的系统的灵活性与欠灵活的知识工程方式的高识别率两种优点。
语言解析可以使得能够识别任何地理分辨率和任何形式的位置对象。可以完整地(例如,“100 Main Street”(主街100号),“San FranciscoInternational Airport”(旧金山国际机场))或者以缩写形式(例如,“100Main”,“San Francisco International”或者“SFO”)写出地理对象。还可以考虑位置同义词,诸如“The Big Apple”(纽约市)或者“The Windy City”(芝加哥)。
可以对所提取的地理信息进行地理编码。本发明可以从文本资源中提取位置对象,并且进一步消除这些位置对象在地理上的歧义。该处理步骤可以被称为位置对象的“地理编码”或者“确立地理空间背景(geospatialgrounding)”,并且可以使得向对象分配准确的地理坐标。一些现有的地理编码方法和启发式方法(heuristics)的概述在文献Leidner,J.L.(2007),Toponym Resolution in Text,PhD thesis,University of Edinburgh中有描述,特此通过引用将该文献并入本文。
本发明的地理编码步骤可以基于从先前的地理解析阶段所提取的位置对象。响应于位置名称可能有歧义的事实,本发明的系统可以首先确定每个对象的一组可能的候选。对于像“New York City”或者“3157 Fillmore St,San Francisco,CA”这样的对象可能仅有一个候选,但是对于诸如“Georgia”(乔治亚)、“Springfield”(斯普林菲尔德)或者“100 Main Street”这样的对象可能有数个位置候选。基于不同的启发式方法,本发明可以对各个位置候选进行加权。这些启发式方法中的一些可以根据这些候选和地理中心之间的地理距离而分配权重。可以通过考虑文档中所提及的所有位置来确定该中心。其他启发式方法依赖于文本上下文和到无歧义的对象的地理距离,并且依赖于各个位置候选之间的地理关系。在选择多个候选地理位置之一的操作中也可以考虑这些候选地理位置的地理中心。
在上述的启发式处理期间,本发明的系统可以分辨像“Downtown”(商业区)或者“Chinatown”(唐人街)这样的位置对象,并且将它们分配给文本中的某处提及的特定城市。该系统还可以使诸如“466 University Ave”(大学街466号)这样的部分地址变完整。使用该技术使得可以使地址变完整,即使当该地址的各部分散布在文档中的数个段落中时也是如此。
在地理信息已经被提取并提炼之后,可以将其移交给基于位置的服务。系统的最终输出可以是一组已确立地理背景的位置对象,其包括完全合格的地址和/或一组地理坐标。这些位置可以被转换为本发明的设备提供的基于位置的服务所能理解的结构化格式(包括地理坐标)。可以被所述系统识别的地理编码位置对象的示例包括:“Coit Tower”→Coit Tower,SanFrancisco,USA(37.802650,-122.405720);“466 University Ave”→466University Avenue,Palo Alto,CA 94301,USA(37.44773,-122.159735);以及“LAX”→Los Angeles International Airport,Los Angeles,USA(33.944080,-118.408260)。
所产生的位置对象20可以被移交给本发明的基于位置的服务22。例如,本发明的设备可以在地图可视化模块24中显示所产生的位置对象。可替代地,本发明的设备的导航模块26可以计算前往所产生的位置对象的路线。
基于位置的服务22可以包括其他服务30,诸如基于位置的游戏、地理营销服务和移动约会服务。更一般而言,其他服务30可以包括依赖于用户的位置或者用户感兴趣的位置的任何电子服务。
可以在本发明的设备内部或者外部执行包括地理解析和地理编码的所有上述处理步骤,以适应不同的设备限制。如果在设备外部执行,则可以在设备和服务器之间建立无线或者有线数据连接。该设备可以向服务器发送要处理的地理信息资源,并且在处理结束之后,可以从该服务器接收一组已确立地理空间背景的位置对象。
现在将描述本发明的多个不同的应用或者使用情况。在第一种使用情况下,本发明用于制定旅行计划。例如,假定个人A在他的计算机上计划到旧金山的旅程。还假定个人A从未去过旧金山,因此他试图从互联网获得关于该城市的更多信息。在浏览了一段时间后,他找到两个信息源,这两个信息源提供了关于要看什么、要做什么、在哪里吃饭和住宿等有价值的信息。他发现的有用的两个信息源是网站wikitravel.org/en/San_Francisco和该城市的官方游客网站onlyinsanfrancisco.com,这两个信息源均与个人A的兴趣点(旧金山)有关。
个人A现在根据现有技术通常所做的是打印出这些网页,因为这些网页的内容不能被他的导航系统自主地访问。然后,他必须向导航设备手动输入他想要拜访的每个位置。
但是,使用本发明,个人A所要做的仅仅是告诉设备他在使用其家庭计算机时找到的网页的互联网地址。这可以通过以下方式中的任意一种来执行:通过将网页地址键入或复制到设备中来手动选择网页;或者在另一实施例中,家庭计算机直接将网页地址传输给设备。接着,该设备(其可以是导航设备、移动电话等形式)自主地访问网页的内容、处理它们,并且使一个包含所有提及位置的列表对用户可用。现在,用户A能够通过从所识别的位置的列表中选择目的地而在设备上直接计划旅程。使用本发明,不像使用现有技术那样需要用户A手动输入期望的位置。用户A能够导航到在源中提及的特定兴趣点,诸如饭店或者旅馆,或者他可以计划从一个兴趣点到另一个兴趣点的旅程。用户A可以在不用手动输入位置信息的情况下计划整个观光旅行。
在另一使用情况下,用户A在本发明的设备自身上使用其内置的网络浏览器来计划旅程。在他找到感兴趣的网页后,他使用该网络浏览器的一个功能,该功能用来将网页地址自动传送到该设备的提取位置信息的部件。该附加功能消除了用户必须手动重新输入网页地址的负担。
在涉及制定旅行计划的另一使用情况下,本发明被应用到个人旅行报告和旅途。假定旅行者B对关于一段旅途的个人旅行报告感兴趣(其中,可以在网页travelpod.com/travel-blog-entries/twittg/rtw/1127319060/tpod.html中找到该个人旅行报告的示例),并且假定旅行者B想要跟随作者的足迹。本发明的设备可以分析个人旅行报告,并且提取所有有价值的地理信息。基于文本出现的顺序,旅行者B可以在他的旅程中跟随作者的足迹,并且参观相同的地点。
在又一使用情况下,本发明用于个人位置推荐或者通知。假定用户C的朋友最近迁居到了新的地点。该朋友向用户C发送电子邮件,邀请用户C参加他的暖房派对。用户C的本发明的导航系统从电子邮件中提取所提及的地址,并且引导C前往他的朋友的新住处。
几天后,用户C从朋友那收到邀请他前往在Middlefield Rd和UniversityAve十字路口处新开的饭馆。用户C的本发明的导航设备处理这封电子邮件,并且基于Palo Alto,CA(帕罗奥多,加州)是这些街道交叉的仅有城市这一事实,将用户C引导到该市的所述十字路口处的饭馆。在多个城市都有十字路口(诸如Chestnut Street和Main Street)的情况下,本发明的导航设备可以选择最接近用户C的当前位置的位置。用于处理有歧义的位置的附加策略可以使用文本中包含的进一步的地理信息来确定文中可能指代哪个位置候选。
在本发明的再一使用情况下,一位朋友发送电子邮件消息来请求从“LAX”接他。本发明的导航设备将LAX识别为Los Angeles InternationalAirport的通用缩写。基于该信息和用户的当前位置,导航设备计算路线和估计到达该机场的时间。
在又一使用情况下,骑行者或者步行者可以使用本发明。假定用户D喜欢骑车和步行。因此,用户D经常使用诸如traillink.com或者trails.com这样的网站来寻找新的和感兴趣的路径。本发明的导航设备能够从网页中提取出路径或者步行径,并且将它们用于路线引导的目的。
在再一使用情况下,网络浏览器具有丰富的位置标签。假定用户E使用在本发明的设备上运行的网络浏览器来浏览旅行相关的网站。在向用户E显示内容的同时,该设备还识别文本中所提及的位置。该设备的网络浏览器以其可以利用所识别的位置的方式被扩展。例如,该设备的网络浏览器可以对所显示的网页中的这些位置进行高亮,并且使用户E能够选择所高亮的位置之一。在用户E进行选择后,该浏览器可以使用户E能够从针对该位置的一系列基于位置的服务中进行选择,诸如在地图上显示该位置或者计算前往该位置的路线。
本发明提供的另一基于位置的服务使用户能够获得更多关于特定位置的信息。例如,可以是关于饭店或者旅馆的信息。基于所提供的企业名、街道地址或者电话号码,本发明的系统可以查找额外的信息,诸如用户/客人的评论、维基百科(Wikipeida)上的描述、官方主页等。该信息可以显示在在浏览器中,或者该信息可以以更适合于基于位置的设备的方式被处理并显示。
如上所述,本发明可以提供移动或者非移动的系统,其可以使用在非结构化电子文档中提供的大量地理信息。在此类文档中嵌入的信息不能由现有技术的系统以自动的方式进行处理。而本发明自主地提取位置信息,并且针对找到的位置提供一系列基于位置的服务。
本发明的另一新颖方面在于,用户不需要向他们的设备手动输入互联网上或者其他电子文档中已有的信息。而是从这些文档中自动提取该信息,并且将该信息发送到本发明的设备。
本发明的又一新颖方面在于,不需要适应数据格式和数据源的改变。这是因为所述系统独立于结构化的位置信息,并且数据源的改变不会对处理有不利影响。
再一新颖方面在于,本发明的系统能够识别从洲级到地址级(包括街道名和房屋号)的任何地理分辨率的位置对象,并为这些位置对象确立地理空间背景。现有技术的系统不能识别特定地理分辨率以下的位置对象和为这些位置对象确立地理空间背景。
又一新颖方面在于,本发明提供了对电子文本文档中所提及的所有地理位置进行高亮的诸如网络浏览器这样的内容查看器。该内容查看器在用户选择了这些位置之一后进一步提供基于位置的服务。
文档可以驻留在设备12内部或者外部。如果文档驻留在外部,则可以使用浏览器28或者使用其他手段来访问它们,以将该文档传送到设备内。
步骤302识别地址、部分地址、兴趣点的名称等。所有这些描述是对地理位置的直接参考信息。但是,地理解析模块18还能够识别对位置的间接参考信息,诸如称作“the bridge”(桥)或者“spans the Golden Gate”(跨越金门海峡)。如果文本上下文使其清楚,则地理解析模块18将这些间接参考信息设置为与“Golden Gate Bridge”(金门大桥)相关。
在图3中说明了本发明的用于操作基于位置的系统的方法300的一个实施例。在第一步骤302中,识别非结构化电子文本中多个部分的地理信息。该地理信息包括街道信息、地址信息和/或对兴趣点的参考信息。例如,如图1a中所示,网页的非结构化电子文本包括用粗字体指示的各个部分的地理信息。基于位置的设备12可以使用地理解析模块18(图2)来识别这些部分的地理信息。所述地理信息包括形式为“899 Pine Street”(松树街899号)、“Washington Square”(华盛顿广场)和“Union Square”(协和广场)的街道信息和地址信息。所述地理信息包括对兴趣点的参考信息,诸如“Telegraph Hill”(电报山)、“Golden Gate Bridge”和“Chinatown”。
接着,在步骤304中,从文本中提取所识别的多个部分的地理信息。即,地理解析模块18从先前处理的文档中提取上述地理信息。
在下一步骤306中,确定所识别的多个部分的地理信息其中之一可以指代的多个候选地理位置。某些所识别部分的地理信息指代的特定地理位置(诸如“San Francisco”、“United States”和“899 Pine Street,San Francisco,California 94108”)可能是清楚的。但是,其他的所识别部分的地理信息在它们指代的特定地理位置方面可能是有歧义的。因此,通过地理编码模块20来编辑出这种有歧义的地理信息的可能解释的列表。例如,“WashingtonSquare”、“Chinatown”和“Union Square”可能都是有歧义的,因为,孤立地考虑这些部分的地理信息中的每一个时,有可能无法确定这些部分的地理信息指代哪些特定地理位置。这种歧义性可能是因为以下事实:可能在世界上的多个城市中找到“Washington Square”、“Chinatown”和“UnionSquare”中的每一个。因此,设备12可以与互联网进行交互,以编辑出具有“Washington Square”的城市的第一列表;具有“Chinatown”的城市的第二列表;以及具有“Union Square”的城市的第三列表。另外,设备12可以在编辑候选地理位置的列表时考虑在同一电子文档中讨论的城市、县和国家。其他有歧义的地理信息可能在县级(即,Marin County(马林县))、城市级(即,“Springfield”)或者州级(即,“Georgia”)。
在步骤308中,选择多个候选地理位置中的一个。这意味着:地理编码模块20通过从有歧义的候选的列表中选择一个候选来消除歧义。该选择取决于所识别的多个部分的地理信息中的其他部分。例如,“WashingtonSquare”的候选位置的列表可能包括世界上具有“Washington Square”的数百个城市。为了在该列表上选择这些候选位置中的一个,可以考虑该列表上的其他所识别部分的地理信息。即,地理编码模块20可以考虑以下情况:“San Francisco”在该电子文档中的其他所识别部分的地理信息中被包括了四次。地理编码模块20可以进一步考虑以下情况:San Francisco在候选位置的列表上,或者可以无歧义地作为该电子文档中的其他所识别部分的地理信息(诸如“North Beach”(北沙滩)和“Golden Gate Bridge”)的唯一候选位置。此外,地理编码模块20可以进一步考虑以下情况:San Francisco邻近或者接近“Marin County”的一个候选位置,该候选位置位于跨金门海峡水体与旧金山相对的另一端。因此,地理编码模块20可以将旧金山的华盛顿广场选择为该电子文档中的“Washington Square”所指代的位置。
接着,在步骤310中,查明形式为所选择的地理位置的地理坐标的字母数字表示。例如,通过使用某个在线地图网站或者设备12中存储的数据库,可以查明旧金山的华盛顿广场的地理坐标。可以用经度和纬度或者用某种其他坐标系统来表示地理坐标。还可以查明唯一地标识所选择的地理位置的位置的某种其他类型的字母数字表示。所选择的候选的坐标和完整地址被设置为与文档中的文本描述相关。这种相关对于一些使用情况(诸如在浏览器中对文本进行高亮)来说是必要的。
在最后的步骤312中,在基于位置的服务中使用所选择的地理位置的地理坐标。例如,可以在基于位置的地图服务中使用金门大桥的地理坐标,来可视地指示该大桥的位置,如图1b中所示。
虽然已经将本发明描述为具有示例性设计,但是可以在本公开的精神和范围内进一步修改本发明。因此,本申请意图使用其一般性原理来涵盖本发明的任何变型、使用或者改编。此外,本申请意图涵盖落入本发明所属领域中的已知或者惯用实践范围内的针对本公开的此类偏离。
Claims (25)
1.一种用于操作基于位置的系统的方法,其中,所述基于位置的系统执行以下步骤:
识别非结构化电子文本中的地理信息,所述地理信息包括街道信息、地址信息和位置名称中的至少一个;
提取所识别的地理信息;以及
确定所识别的地理信息能够指代的多个候选地理位置。
2.根据权利要求1所述的方法,还包括以下步骤:
通过使用所述系统,自动选择所述多个候选地理位置之一;以及
在基于位置的服务中使用所选择的地理位置的字母数字表示。
3.根据权利要求2所述的方法,其中,所述选择步骤取决于所述基于位置的系统的当前位置。
4.根据权利要求2所述的方法,其中,所述字母数字表示包括一组坐标。
5.根据权利要求2所述的方法,其中,所述确定步骤包括:确定所识别的地理信息可能指代的多个候选地理位置。
6.根据权利要求2所述的方法,其中,所述选择步骤取决于所述多个候选地理位置的地理中心。
7.根据权利要求2所述的方法,其中,所述字母数字表示包括所选择的候选地理位置的名称。
8.根据权利要求2所述的方法,其中,所述基于位置的服务是导航服务和地图服务其中之一。
9.根据权利要求1所述的方法,其中,所述地理信息包括在所述文本中描述的全部多个位置。
10.一种用于操作基于位置的系统的方法,包括以下步骤:
手动选择互联网网页;
识别所述网页中的地理信息,所述地理信息包括地址信息和对兴趣点的参考信息中的至少一个;
从所述网页中提取所识别的地理信息;以及
在导航服务和地图服务中的至少一个中使用所提取的地理信息,其中,通过所述基于位置的系统来自动执行所述识别、提取和使用步骤。
11.根据权利要求10所述的方法,其中,所述手动选择步骤包括:
用户找到与兴趣点有关的网页;以及
将所述网页的互联网地址复制到所述基于位置的系统中。
12.根据权利要求10所述的方法,还包括以下步骤:
确定所识别的地理信息能够指代的多个候选地理位置;以及
选择所述多个候选地理位置之一,所述使用步骤包括:在导航服务和地图服务中的所述至少一个中使用所选择的地理位置的字母数字表示。
13.根据权利要求12所述的方法,其中,所述选择步骤取决于所述基于位置的系统的当前位置。
14.根据权利要求12所述的方法,其中,所述字母数字表示包括一组坐标。
15.根据权利要求12所述的方法,其中,所述选择步骤取决于所述多个候选地理位置的地理中心。
16.根据权利要求12所述的方法,其中,所述字母数字表示包括所选择的候选地理位置的名称。
17.根据权利要求10所述的方法,其中,所述网页包含多个位置,所述多个位置中的每一个都被识别并提取。
18.一种用于操作基于位置的系统的方法,其中,所述基于位置的系统执行以下步骤:
识别非结构化电子文本中的多个部分的地理信息;
从所述文本中提取所识别的多个部分的地理信息;以及
确定所识别的多个部分的地理信息其中之一能够指代的多个候选地理位置。
19.根据权利要求18所述的方法,还包括以下步骤:
选择所述多个候选地理位置之一,所述选择步骤取决于所识别的多个部分的地理信息中的其他部分;
查明所选择的地理位置的地理坐标;以及
在基于位置的服务中使用所选择的地理位置的地理坐标。
20.根据权利要求19所述的方法,其中,所述非结构化电子文本是在所述基于位置的系统中存储的电子文档内。
21.根据权利要求20所述的方法,其中,所述基于位置的系统具有收发电子邮件的能力,所述电子文档包括电子邮件。
22.根据权利要求19所述的方法,其中,所述基于位置的服务是导航服务和地图服务其中之一。
23.根据权利要求19所述的方法,其中,所述选择步骤取决于所述基于位置的系统的当前位置。
24.根据权利要求19所述的方法,其中,所述选择步骤取决于所述多个候选地理位置的地理中心。
25.根据权利要求18所述的方法,其中,所述文本包括多个位置,所述多个位置中的每一个都被识别并提取。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/354,094 | 2009-01-15 | ||
US12/354,094 US20100179754A1 (en) | 2009-01-15 | 2009-01-15 | Location based system utilizing geographical information from documents in natural language |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101782923A true CN101782923A (zh) | 2010-07-21 |
Family
ID=42018658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910263722A Pending CN101782923A (zh) | 2009-01-15 | 2009-12-30 | 使用自然语言文档中的地理信息的基于位置的系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20100179754A1 (zh) |
EP (1) | EP2209073A1 (zh) |
CN (1) | CN101782923A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102404681A (zh) * | 2010-09-09 | 2012-04-04 | 富士通株式会社 | 提供定制信息的方法和装置及终端设备和信息提供设备 |
CN103609144A (zh) * | 2011-06-16 | 2014-02-26 | 诺基亚公司 | 用于解析地理标识的方法和装置 |
CN105159940A (zh) * | 2015-08-03 | 2015-12-16 | 北京奇虎科技有限公司 | 挖掘地理信息的方法、装置以及服务器 |
CN108241678A (zh) * | 2016-12-26 | 2018-07-03 | 北京搜狗信息服务有限公司 | 兴趣点数据的挖掘方法和装置 |
CN108563631A (zh) * | 2018-03-23 | 2018-09-21 | 江苏速度信息科技股份有限公司 | 一种自然语言地址描述的自动识别方法 |
CN109084750A (zh) * | 2018-09-21 | 2018-12-25 | 联想(北京)有限公司 | 一种导航方法及电子设备 |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110055253A1 (en) * | 2009-08-26 | 2011-03-03 | Electronics And Telecommunications Research Institute | Apparatus and methods for integrated management of spatial/geographic contents |
US8281246B2 (en) * | 2009-09-29 | 2012-10-02 | Microsoft Corporation | Travelogue-based contextual map generation |
US8275546B2 (en) * | 2009-09-29 | 2012-09-25 | Microsoft Corporation | Travelogue-based travel route planning |
US8977632B2 (en) * | 2009-09-29 | 2015-03-10 | Microsoft Technology Licensing, Llc | Travelogue locating mining for travel suggestion |
US20110099507A1 (en) | 2009-10-28 | 2011-04-28 | Google Inc. | Displaying a collection of interactive elements that trigger actions directed to an item |
US9116916B2 (en) * | 2010-02-16 | 2015-08-25 | Nec Corporation | Information organizing sytem and information organizing method |
US8676807B2 (en) | 2010-04-22 | 2014-03-18 | Microsoft Corporation | Identifying location names within document text |
US8572076B2 (en) | 2010-04-22 | 2013-10-29 | Microsoft Corporation | Location context mining |
US8970733B2 (en) | 2010-05-28 | 2015-03-03 | Robert Bosch Gmbh | Visual pairing and data exchange between devices using barcodes for data exchange with mobile navigation systems |
US20120099717A1 (en) * | 2010-10-26 | 2012-04-26 | Geoffrey Langos | Systems and methods for integrating information from voice over internet protocol systems and social networking systems |
US8949277B1 (en) | 2010-12-30 | 2015-02-03 | Google Inc. | Semantic geotokens |
EP2592384A1 (en) * | 2011-11-14 | 2013-05-15 | Harman Becker Automotive Systems GmbH | Navigation System with preparsed and unparsed Navigation Data |
WO2013144435A1 (en) * | 2012-03-28 | 2013-10-03 | Nokia Corporation | Method and apparatus for geo-coding unstructured address information |
US8965693B2 (en) | 2012-06-05 | 2015-02-24 | Apple Inc. | Geocoded data detection and user interfaces for same |
CN103684979B (zh) * | 2012-09-13 | 2017-09-08 | 阿里巴巴集团控股有限公司 | 一种获取聊天内容中地理位置的方法及设备 |
WO2014074317A1 (en) * | 2012-11-08 | 2014-05-15 | Evernote Corporation | Extraction and clarification of ambiguities for addresses in documents |
GB201301485D0 (en) * | 2013-01-28 | 2013-03-13 | Traveltext As | Data entry |
US9262438B2 (en) * | 2013-08-06 | 2016-02-16 | International Business Machines Corporation | Geotagging unstructured text |
CN104252518B (zh) * | 2014-03-13 | 2016-08-24 | 腾讯科技(深圳)有限公司 | 信息展示方法和装置 |
WO2015165522A1 (en) * | 2014-04-30 | 2015-11-05 | Longsand Limited | Geographical information extraction |
US20160073228A1 (en) * | 2014-09-04 | 2016-03-10 | Mastercard International Incorporated | System and method for generating expected geolocations of mobile computing devices |
CN104697519A (zh) * | 2015-03-31 | 2015-06-10 | 黄利文 | 一种周边厕所定位方法及移动终端 |
US9639524B2 (en) | 2015-08-26 | 2017-05-02 | International Business Machines Corporation | Linguistic based determination of text creation date |
US9659007B2 (en) * | 2015-08-26 | 2017-05-23 | International Business Machines Corporation | Linguistic based determination of text location origin |
US10275446B2 (en) | 2015-08-26 | 2019-04-30 | International Business Machines Corporation | Linguistic based determination of text location origin |
US10558339B1 (en) * | 2015-09-11 | 2020-02-11 | Palantir Technologies Inc. | System and method for analyzing electronic communications and a collaborative electronic communications user interface |
US10234295B2 (en) * | 2015-11-06 | 2019-03-19 | Sap Se | Address remediation using geo-coordinates |
JP6880859B2 (ja) * | 2017-03-14 | 2021-06-02 | 富士通株式会社 | 位置情報出力プログラム、位置情報出力方法および情報処理装置 |
WO2018179425A1 (ja) * | 2017-03-31 | 2018-10-04 | 株式会社オプティム | 音声内容記録システム、方法及びプログラム |
US11120086B2 (en) | 2018-02-13 | 2021-09-14 | Oracle International Corporation | Toponym disambiguation |
EP3811244A4 (en) * | 2018-06-20 | 2021-07-28 | Fivecast Pty Ltd | COMPUTER-IMPLEMENTED SYSTEM AND PROCESS FOR EXTRACTION OF GEOGRAPHICAL OBJECTS FOR BRIEF |
CN109145219B (zh) * | 2018-09-10 | 2020-12-25 | 百度在线网络技术(北京)有限公司 | 基于互联网文本挖掘的兴趣点有效性判断方法和装置 |
US20220180184A1 (en) * | 2020-12-09 | 2022-06-09 | Here Global B.V. | Method, apparatus, and system for providing a location representation for machine learning tasks |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003177027A (ja) * | 2001-12-11 | 2003-06-27 | Nissan Motor Co Ltd | ナビゲーションシステム、携帯型情報処理装置及びその制御プログラム |
US20050234991A1 (en) * | 2003-11-07 | 2005-10-20 | Marx Peter S | Automated location indexing by natural language correlation |
US20050278378A1 (en) * | 2004-05-19 | 2005-12-15 | Metacarta, Inc. | Systems and methods of geographical text indexing |
CN1780390A (zh) * | 2004-11-25 | 2006-05-31 | 乐金电子(中国)研究开发中心有限公司 | 一种显示拍摄场所的移动通信终端相片拍摄系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8331958B2 (en) * | 2007-12-13 | 2012-12-11 | Garmin Switzerland Gmbh | Automatically identifying location information in text data |
-
2009
- 2009-01-15 US US12/354,094 patent/US20100179754A1/en not_active Abandoned
- 2009-11-04 EP EP09175016A patent/EP2209073A1/en not_active Ceased
- 2009-12-30 CN CN200910263722A patent/CN101782923A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003177027A (ja) * | 2001-12-11 | 2003-06-27 | Nissan Motor Co Ltd | ナビゲーションシステム、携帯型情報処理装置及びその制御プログラム |
US20050234991A1 (en) * | 2003-11-07 | 2005-10-20 | Marx Peter S | Automated location indexing by natural language correlation |
US20050278378A1 (en) * | 2004-05-19 | 2005-12-15 | Metacarta, Inc. | Systems and methods of geographical text indexing |
CN1780390A (zh) * | 2004-11-25 | 2006-05-31 | 乐金电子(中国)研究开发中心有限公司 | 一种显示拍摄场所的移动通信终端相片拍摄系统及方法 |
Non-Patent Citations (2)
Title |
---|
ARNO SCHARL ET AL: "《Annotating and Visualizing Location Data in Geospatial Web Applications》", 《CONFERENCE PROCEEDINGS LOCWEB 2008,BEIJING,CHINA》 * |
JOCHEN L. LEIDNER: "《Toponym Resolution in Text: "Which Sheffield is it?"》", 《CONFERENCE PROCEEDINGS SIGIR 2004 SHEFFIELD, UK》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102404681A (zh) * | 2010-09-09 | 2012-04-04 | 富士通株式会社 | 提供定制信息的方法和装置及终端设备和信息提供设备 |
CN103609144A (zh) * | 2011-06-16 | 2014-02-26 | 诺基亚公司 | 用于解析地理标识的方法和装置 |
CN105159940A (zh) * | 2015-08-03 | 2015-12-16 | 北京奇虎科技有限公司 | 挖掘地理信息的方法、装置以及服务器 |
CN108241678A (zh) * | 2016-12-26 | 2018-07-03 | 北京搜狗信息服务有限公司 | 兴趣点数据的挖掘方法和装置 |
CN108241678B (zh) * | 2016-12-26 | 2021-10-15 | 北京搜狗信息服务有限公司 | 兴趣点数据的挖掘方法和装置 |
CN108563631A (zh) * | 2018-03-23 | 2018-09-21 | 江苏速度信息科技股份有限公司 | 一种自然语言地址描述的自动识别方法 |
CN109084750A (zh) * | 2018-09-21 | 2018-12-25 | 联想(北京)有限公司 | 一种导航方法及电子设备 |
CN109084750B (zh) * | 2018-09-21 | 2021-07-16 | 联想(北京)有限公司 | 一种导航方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
US20100179754A1 (en) | 2010-07-15 |
EP2209073A1 (en) | 2010-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101782923A (zh) | 使用自然语言文档中的地理信息的基于位置的系统 | |
Xu et al. | Big data or small data? A methodological review of sustainable tourism | |
US10176729B2 (en) | Navigable topological maps | |
US8374791B2 (en) | Method of operating a navigation system to provide route guidance | |
US20220179857A1 (en) | Method, apparatus, and system for providing a context-aware location representation | |
Rice et al. | Supporting Accessibility for Blind and Vision‐impaired People With a Localized Gazetteer and Open Source Geotechnology | |
JP5529092B2 (ja) | 注記データ翻訳装置、注記データ翻訳方法および注記データ翻訳プログラム | |
JP2007219655A (ja) | 施設情報管理システム、施設情報管理方法および施設情報管理プログラム | |
AU2015278591B2 (en) | Survey (bird's-eye)-type navigation system | |
JP5587281B2 (ja) | 注記表記変換装置、注記表記変換方法および注記表記変換プログラム | |
Singh et al. | Design and implementation of a location–based multimedia mobile tourist guide system | |
WO2019070412A1 (en) | SYSTEM FOR GENERATING AND USING GEOGRAPHIC HASH EXPRESSIONS | |
Nissen et al. | Small-display cartography | |
Coetzee et al. | Standards—Making Geographic Information Discoverable, Accessible and Usable for Modern Cartography | |
Tiwari et al. | Extracting region of interest (roi) details using lbs infrastructure and web-databases | |
Iijima et al. | A mobility service based on Japanese linked data | |
Mikulowski et al. | An Approach for Discovering Space by the Blind using an Ontology-based Map and Data from Existing Open Maps | |
Aburizaiza | A Geospatial Footprint Library for Validating Volunteered Geographic Information | |
Wealands | Cartographic user interface design models for mobile Location-Based Services applications | |
Behr | Geocoding: Fundamentals, Techniques, Commercial and Open Services | |
Rahim et al. | GNSS-and-GIS based android integration of mobile based virtual guide application ExpLahore for walled city Lahore, Pakistan | |
El Ali et al. | Technology literacy in poor infrastructure environments: characterizing wayfinding strategies in Lebanon | |
Binski et al. | Wikipedia Entries as a Source of Car Navigation Landmarks | |
Deshmukh et al. | Remote Sensing and Geographic Information System-Based Route Planning | |
Tiwari et al. | The Region of Interest Based Infotainment Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20100721 |
|
RJ01 | Rejection of invention patent application after publication |