CN102456046B - 对文档中的地理位置数据进行处理的方法和系统 - Google Patents

对文档中的地理位置数据进行处理的方法和系统 Download PDF

Info

Publication number
CN102456046B
CN102456046B CN201010526403.1A CN201010526403A CN102456046B CN 102456046 B CN102456046 B CN 102456046B CN 201010526403 A CN201010526403 A CN 201010526403A CN 102456046 B CN102456046 B CN 102456046B
Authority
CN
China
Prior art keywords
position data
geographic position
classification
document
predetermined condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010526403.1A
Other languages
English (en)
Other versions
CN102456046A (zh
Inventor
马瑞
费奔
吴贤
陈健
苏中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN201010526403.1A priority Critical patent/CN102456046B/zh
Priority to US13/277,405 priority patent/US8589780B2/en
Publication of CN102456046A publication Critical patent/CN102456046A/zh
Application granted granted Critical
Publication of CN102456046B publication Critical patent/CN102456046B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B29/00Maps; Plans; Charts; Diagrams, e.g. route diagram
    • G09B29/10Map spot or coordinate position indicators; Map reading aids
    • G09B29/106Map spot or coordinate position indicators; Map reading aids using electronic means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种对文档中的地理位置数据进行处理的技术将文档中的地理位置数据与电子地图技术进行结合,开创了一种全新的信息浏览方式。利用本发明用户可以容易的、直观的、自动的在电子地图上看到其所浏览的文档中的地理位置数据及地理位置数据的相互关系。具体而言,本发明提供一种对文档中的地理位置数据进行处理的方法,包括:获取所述文档中的地理位置数据;按照预定条件对所述地理位置数据进行分级以确定地理位置数据的相互关联关系;在电子地图上对所述地理位置数据的相互关联关系进行标注;以及呈现经标注后的电子地图。此外,本发明还提供一种对文档中的地理位置数据进行处理的系统。

Description

对文档中的地理位置数据进行处理的方法和系统
技术领域
本发明总体上涉及对数据进行处理的方法和系统,特别的本发明涉及对文档中的地理位置数据进行处理的方法和系统。
背景技术
地理位置数据在各个应用领域被广为运用。围绕地理位置数据已经开发有多种应用产品向用户提供服务。这些服务背后的一项基础技术就是电子地图技术。电子地图是以数字方式存储和查阅的地图。电子地图存储信息的方法,一般使用向量式图像存储,地图比例可放大、缩小或旋转而不影响显示效果,早期使用位图式存储,地图比例不能放大或缩小,现代电子地图软件一般利用地理信息系统来储存和传送地图数据,也有其他的信息系统。在电子地图上,人们可以检索并浏览全世界各个地方。电子地图服务包括:地图浏览、地址搜索、地理位置周边搜索、行车路线搜索、公交路线搜索、卫星图片浏览、风景图片浏览以及定位与导航等。甚至有些网站还提供专门查找参观、旅店、租房信息的电子地图服务。电子地图目前已经成为人们生活中不可缺少的一项重要应用技术。
发明内容
然而,本发明的发明人注意到现有的电子地图服务存在一些特点:首先现有的电子地图服务往往是专门的地图服务,没有和用户在网络浏览中关注的信息结合起来,比如当用户在浏览新闻时,新闻事件的发生地没有能够直接的展现在电子地图中供用户浏览;其次现有的电子地图服务无法自动的将两个相关联的地址呈现出来。
本发明提出了一种对文档中的地理位置数据进行处理的技术将文档中的地理位置数据与电子地图技术进行结合,开创了一种全新的信息浏览方式。利用本发明用户可以容易的、直观的、自动的在电子地图上看到其所浏览的文档中的地理位置数据及地理位置数据的相互关系。
具体而言,本发明提供一种对文档中的地理位置数据进行处理的方法,包括:获取所述文档中的地理位置数据;按照预定条件对所述地理位置数据进行分级以确定地理位置数据的相互关联关系;在电子地图上对所述地理位置数据的相互关联关系进行标注;以及呈现经标注后的电子地图。
本发明还提供一种对文档中的地理位置数据进行处理的系统,包括:地理位置数据获取装置,用于获取所述文档中的地理位置数据;关联关系确定装置,用于按照预定条件对所述地理位置数据进行分级以确定地理位置数据的相互关联关系;标注装置,用于在电子地图上对所述地理位置数据的相互关联关系进行标注;以及呈现装置,用于呈现经标注后的电子地图。
附图说明
本说明中所参考的附图只用于示例本发明的典型实施例,不应该认为是对本发明范围的限制。
图1示出了按照本发明的一种实施例对文档中的地理位置数据进行处理的方法流程图。
图2示出了按照本发明的另一种实施例对文档中的地理位置数据进行处理的方法流程图。
图3A示出了本发明的一个实施例中按照地理位置数据的重要程度进行分级的流程图。
图3B示出了本发明的一个实施例中按照地理位置数据所代表的事件的因果关系进行分级的流程图。
图3C示出了本发明的一个实施例中按照地理位置数据所代表的事件的时间顺序进行分级的流程图。
图4A示出了本发明的一个实施例中一篇文档的示意图。
图4B示出了按照本发明的一种实施例对图4A的地理位置数据进行处理后所呈现的电子地图。
图4C示出了按照本发明的另一种实施例对图4A的地理位置数据进行处理后所呈现的电子地图。
图5示出了按照本发明的一个实施例将同一主题下的多篇文档中的地理位置数据进行处理后所呈现的电子地图。
图6示出了按照本发明的另一个实施例将不同主题下的多篇文档中的地理位置数据进行处理后所呈现的电子地图。
图7示出了按照本发明的一种实施例对文档中的地理位置数据进行处理的系统框图。
图8示出了按照本发明的另一种实施例对文档中的地理位置数据进行处理的系统框图。
具体实施方式
下列讨论中,提供大量具体的细节以帮助彻底了解本发明。然而,很显然对于本领域技术人员来说,即使没有这些具体细节,并不影响对本发明的理解。并且应该认识到,使用如下的任何具体术语仅仅是为了方便描述,因此,本发明不应当局限于只用在这样的术语所表示和/或暗示的任何特定应用中。
图1示出了按照本发明的一种实施例对文档中的地理位置数据进行处理的方法流程图。首先在步骤101获取所述文档中的地理位置数据。所述文档可以来自服务器上存储的Blog、新闻等,也可以来自本地存储的任何文件。所述地理位置数据可以是任何范围的地理数据,包括大到一个洲或者小到某条街的某座楼。该步骤的目的是为了将文档中所包含的所有地理位置数据抽取出来。该步骤可以利用现有的命名实体识别(NER)技术。命名实体识别技术可以分辨出输入的一篇或多篇文章中的人名、地名和组织名等。步骤101可以从输入的一篇或多篇文档中输出所包含的地理位置数据,包括洲、国家、地区、城市,甚至可以具体到街道、门牌号等。对于带有多义性的名词,如“华盛顿”,NER技术可以根据上下文判断此处引用的“华盛顿”是人名还是地名。关于命名实体识别技术,可以参见AddressStandardization with Latent Semantic Association,作者HongleiGuo,Huijia Zhu,Zhili Guo,XiaoXun Zhang and Zhong Su,发表于KDD2009(http://kdd09.crowdvine.com/talks/4934),以及Domain Adaptation with Latent Semantic Association for NamedEntity Recognition,作者Honglei Guo Huijia Zhu Zhili GuoXiaoxun Zhang Xian Wu and Zhong Su,发表于NAACL2009(http://portal.acm.org/citation.cfm?id=1620754.1620795)。
在步骤103按照预定条件对所述地理位置数据进行分级以确定地理位置数据的相互关联关系。对地理位置数据进行分级可以有助于进一步呈现地理位置数据的相互关系。其中所述预定条件进一步包括下面各项中的一项或多项:按照所述地理位置数据的重要程度进行分级(比如将地理位置数据分成焦点地理位置和非焦点地理位置);按照所述地理位置数据所代表的事件的因果关系进行分级(比如将地理位置数据分成事件起因地理位置以及事件结果地理位置);或者按照所述地理位置数据所代表的事件的时间顺序进行分级(比如将地理位置数据分成在先地理位置和在后地理位置)。当然所述分级并不限于上文列举的两层分级结构、而是可以有多层级联分级结构。并且所述分级也不仅限于上述列举三种分级方式,而是还可以包括其它需要的分级方式,也就是说分级方式可以根据用户需要进行进一步扩展。并且上述分级方式可以单独使用、也可以综合使用。
如果所述预定条件为按照所述地理位置数据的重要程度进行分级,则步骤103中的按照预定条件对所述地理位置数据进行分级以确定地理位置数据的相互关联关系可以被进一步细化为图3A中的步骤。参见图3A,首先在步骤301A中获取重要程度分级训练数据。所述重要程度分级训练数据可以是多篇文档,按照本发明的一个实施例,用户可以手工的对所述多篇文档进行标注以确定焦点地理位置和非焦点地理位置。然后在步骤303A中按照下列各项中的一项或多项对所述经过手工标注的训练数据进行分析:地理位置数据在文档中的出现位置、地理位置数据在文档中的出现次数,从而自动的获得成为焦点地理位置的地理位置数据特征。通常情况下,出现在文档标题中的地理位置数据往往都代表了焦点地理位置。并且在大多数情况下,出现在文档每段段首句中的地理位置数据也代表了焦点地理位置。当然,那些频繁出现的地理位置数据往往也表示焦点地理位置。可以理解,上述出现位置和出现次数既可以单独用来确定成为焦点地理位置的地理位置数据特征,也可以结合用来确定成为焦点地理位置的地理位置数据特征。在步骤305A中按照分析结果确定地理位置数据的重要程度,比如按照焦点地理位置的地理位置数据特征就可以确定在新输入的文档中的某个地理位置数据是否是焦点地理位置。
进一步、可以根据文档的性质选择不同的重要程度分级训练数据,从而获得不同的焦点地理位置的地理位置数据特征。比如对于新闻类文档而言,标题中出现的地理位置数据在99%以上都可能成为文档中的焦点地理位置。而对于blog、散文等作品而言,标题中出现的地理位置数据成为焦点地理位置的可能性可能只占80%,因此还需要综合考虑地理位置数据的出现次数,从而全面判断地理位置数据的重要程度。
此外、在能够通过手工或图3A中的方法确定判断地理位置数据的重要程度的特征(比如成为焦点地理位置的地理位置数据特征)的情况下,不必在每次获得文档的情况下都获取训练数据并且进行分析,而是可以直接利用已知的判断地理位置数据的重要程度的特征(比如成为焦点地理位置的地理位置数据特征)对文档中的地理位置数据的重要程度进行判断,其中所述特征包括下列各项中的一项或多项:地理位置数据在文档中的出现位置、地理位置数据在文档中的出现次数。
回到图1,如果所述预定条件为按照所述地理位置数据所代表的事件的因果关系进行分级,则步骤103按照预定条件对所述地理位置数据进行分级以确定地理位置数据的相互关联关系可以进一步被细化为图3B中的流程:在步骤301B对所述地理位置数据出现的上下文按照语法结构进行分词,所述上下文可以是包含所述地理位置数据的一段话、一个句子、多个短语或者一个短语等。本发明对分词的方法和方式没有任何限制。现有技术中已经提供了一些分词方法,比如参见下面这个网站中就提供了对上下文进行分词的一种方案:http://nlp.stanford.edu/software/lex-parser.shtml(TheStanford Parser:A statistical parser)。在步骤303B根据所述分词结果判断所述上下文中是否包含表达地理位置数据所代表的事件的因果关系的词语。比如对“希腊的债务危机波及(spilling into)其它欧洲国家,扰乱(roiling)了美国和亚洲的经济市场”这样一段上下文中,动词“波及”以及“扰乱”都可以被判断为表达因果关系的词语。在一种实施例中表达因果关系的词语可以被限定为一系列特定的词语或其同义词,比如“导致”、“致使”等,在这一实施例中,可以比较确切的找到存在因果关系的两个地理位置,但是这一实施例的不足是由于很难穷举所有表达因果关系的词语,因此步骤303B中可能会遗漏一些事先没有定义的同样表达了因果关系的词语。在另一种实施例中所有的动词都可以被认为是表达因果关系的词语,这样可以避免上文中提到的遗漏现象,但是可能引入一些判断中的噪声。在实际应用中,可以根据不同的应用需求,选取不同的判断策略。在步骤305B中按照所述判断结果确定地理位置数据所代表的事件之间的因果关系,比如在上文中的例子中确定希腊与欧洲其它国家之间存在因果关系。
回到图1,如果所述预定条件为按照所述地理位置数据所代表的事件的时间顺序进行分级,则步骤103中按照预定条件对所述地理位置数据进行分级以确定地理位置数据的相互关联关系可以被进一步细化为图3C中的流程:在步骤301C中,对所述地理位置数据出现的上下文按照语法结构进行分词。在步骤303C中,根据所述分词结果判断所述上下文中是否包含表达地理位置数据所代表的事件的时间顺序的词语。比如对于“今天李市长在海淀区进行参观访问,明天李市长还要去朝阳区进行视察”这段上下文而言,代表时间顺序的词语“今天”和“明天”将两个地理位置数据“海淀区”和“朝阳区”关联起来。在步骤305C中按照所述判断结果确定地理位置数据所代表的事件之间的时间顺序。
回到图1,步骤103按照预定条件对所述地理位置数据进行分级以确定地理位置数据的相互关联关系还可以进一步包括:根据地理位置数据出现的上下文,过滤掉不需要被标注的地理位置数据。比如在新闻稿中,经常会出现类似“北京电视台记者报道”的信息,通常情况下“北京电视台”中的地理位置“北京”与所报道的新闻事件并没有直接的关联关系,因此可以根据地理位置数据出现的上下文中的特定词语(比如“电视台”等)过滤掉那些不需要被关注的地理位置数据。
继续图1中的步骤,在步骤105中在电子地图上对所述地理位置数据的相互关联关系进行标注。在步骤107中呈现经标注后的电子地图。根据本发明的一个实施例对相互关联关系进行标注的方式没有限制,而是可以采用任何标注方式。根据本发明的又一个实施例可以使用连线将具有关联关系的至少两个地理位置数据相连(参见图4B、图5和图6),所述连线可以是直线、虚线、抛物线等,并且所述连线既可以以带箭头的连线表示也可以以不带箭头的连线表示。根据本发明的再一个实施例也可以使用等高线将具有关联关系的至少两个地理位置数据进行标注(参见图4C)。根据本发明的还一个实施例,可以使用所述文档中连接地理位置数据的动词(比如上文中的动词“波及”)标注所述地理位置数据的相互关联关系。除此以外,还可以突出显示具有相互关联关系的至少两个地理位置数据,比如对于上文中的例子“今天李市长在海淀区进行参观访问,明天李市长还要去朝阳区进行视察”,可以在电子地图上突出显示“海淀区”和“朝阳区”从而表示二者之间的关联关系,而无需使用明示的连线或者等高线。本发明对如何突出显示具有相互关联关系的至少两个地理位置也没有特别限定。当然,还可以采用其它的方式对地理位置数据的相互关联关系进行标注。
图2示出了按照本发明的另一种实施例对文档中的地理位置数据进行处理的方法流程图。与图1中的方法流程相比,图2中的方法流程增加了三个步骤(用虚线框表示的203、207、211)从而使得地理位置数据的处理效果更加完善。
首先在步骤201中获取所述文档的地理位置数据,该步骤与图1中的步骤101相应,其具体实现方式在此不再赘述。
在步骤203对所获取的地理位置数据进行消歧。消歧的内容可以是下列各项中的一种或多种:(1)纠正从文档中获得的地理位置数据的错误表示方法,比如纠正错误的地理位置数据的拼写或书写,(2)用统一的方式表达所述地理位置数据,比如在文档中,美国可能有多种表示方式,有“United States”,“American”,“USA”等,但是对应到电子地图上,应当用统一的方式进行表达,比如将各种关于美国的表达方式统一为“United States”。
在步骤205中按照预定条件对所述地理位置数据进行分级以确定地理位置数据的相互关联关系,该步骤与图1中步骤103相应,其具体内容在此不再赘述。
在步骤207对所述地理位置数据进行具体定位,从而用所述地理位置数据的细粒度表示代表所述地理位置数据。在以连线方法对地理位置数据的相互关联关系进行标注的过程中,如果其中一个地理位置数据是一个相对较大的地理范围(比如“中国”),那么在进行标注时可能存在难度。因此可以考虑用地理位置数据的细粒度表示代表所述地理位置数据(比如用“北京”这个地理位置代表“中国”这个地理位置数据)。同样,也可以按照文档数据的性质来确定是否进行步骤207中的定位,比如对于政治新闻类的文档则可以采用步骤207中的用地理位置数据的细粒度表示代表地理位置数据本身的方法,而对娱乐新闻类的文档,则可以不执行步骤207。同样步骤207的执行顺序也存在多种实施方案,其即可以在步骤205后执行,也可以在步骤205前执行。
在步骤209中,在电子地图上对所述地理位置数据的相互关联关系进行标注。步骤209的内容与图1中步骤105的内容相应,在此不再赘述。
在步骤211确定经标注后的电子地图的用于呈现的首选层次。本领域的普通技术人员理解,电子地图中的地理位置数据按照地理数据的粒度是分层次的,比如5层、10层、20层等。以5层数据为例,在第1层电子地图中只能呈现出各大洲和国家,而在第2层电子地图中可以呈现出各个国家的城市,在第3层电子地图中可以呈现出各个城市的主要街道,依次类推。通过不断的Zoom In和Zoom Out动作,用户可以查看不同层次下的电子地图。为了在步骤213中更完善的呈现经标注后的电子地图。在步骤211中可以确定经标注后的电子地图的用于呈现的首选层次。确定首选层次的方式可以有很多种,比如确定焦点地理位置数据出现的层次为首选的显示层次,或者确定大多数地理位置数据所在的层次为首选的显示层次等。按照本发明的一个实施例,在确定了用于呈现的首选层次后,用户仍然可以通过Zoom In和Zoom Out的动作来查看不同粒度上的经标注的电子地图。比如在以细粒度呈现电子地图时,呈现地理位置数据的相互关联关系的连线可能指向多塞特郡(位于英格兰西南英吉利海峡沿岸的一个郡),但是如果用户Zoom Out为相对粗粒度的电子地图时,所述呈现地理位置数据的相互关联关系的连线则指向英格兰。
在不同的实施例中,可以选择性的应用步骤203、207、211中的一种或多种,甚至可以选择不采用步骤203、207、211中的任何一种。
图4A示出了本发明的一个实施例中一篇文档的示意图。该篇文档介绍的是希腊债务危机对世界上其它国家和地区的影响,受影响的国家包括美国、德国、西班牙、葡萄牙、英国、日本。图4A中所示文档可能是网络上的一篇新闻报道,也可以是本地存储的一篇文章。本发明可以对图4A中这样的文档中的地理位置数据进行处理,最终呈现出经标注后的电子地图。
图4B示出了按照本发明的一种实施例对图4A的地理位置数据进行处理后所呈现的电子地图。图中三角所示的地区是希腊,6条有箭头的连线表示受希腊债务危机影响的6个国家。下面以图2中所示的实施例对获得图4B中电子地图的过程进行示例性说明。在步骤201中首先获取图4A中文档的所有地理位置数据,包括、希腊、美国、德国、西班牙、葡萄牙、英国、日本。在步骤203对所获取的地理位置数据进行消歧,包括将“United States”、“U.S.”和“American”等进行统一。在步骤205按照预定条件对所述地理位置数据进行分级以确定地理位置数据的相互关联关系,在本实施例中可以按照地理位置数据所代表的事件的因果关系对地理位置数据进行分级,以确定地理位置数据的相互关联关系,即希腊与其它各国之间的关联关系。在步骤207对所述地理位置数据进行具体定位,比如以美国的首府“华盛顿”代表美国。为了能够在有限的空间清晰的显示带有箭头的连线,图4B中有些箭头所指的地点可能不是该国家的首府。在步骤209中在电子地图上对所述地理位置数据及其相互关联关系进行标注,即标注带有箭头的连线。在其它的实施例中也可以使用不带箭头的连线进行标注。在步骤211中确定经标注后的电子地图的用于呈现的首选层次,比如选择5层中的第3层作为首选层次。在步骤213中呈现经标注后的电子地图,如图4B所示。
图4C示出了按照本发明的另一种实施例对图4A的地理位置数据进行处理后所呈现的电子地图。与图4B不同,图4C中使用等高线、而不是连线的方式表示受希腊债务危机影响的国家。
图5示出了按照本发明的一个实施例将同一主题下的多篇文档中的地理位置数据进行处理后所呈现的电子地图。在图5所示的实施例中,可以处理同一主题下的多篇文档(包括来自CNN、Washingtonpost和Foxnews的新闻)中的地理位置数据并且在同一电子地图进行展示。除了连线以外,图5中的实施例还可以标注连接两个地理位置数据的动词,如用动词“threatening”对连接希腊和美国的连线进行额外标注。
图6示出了按照本发明的另一个实施例将不同主题下的多篇文档中的地理位置数据进行处理后所呈现的电子地图。图6中的两篇文档,一篇是关于希腊债务危机的,另一篇是关于冰岛火山爆发的。可以使用不同颜色的连线在同一电子地图上呈现关于不同主题的地理位置数据的相互关联关系。
图7示出了按照本发明的一种实施例对文档中的地理位置数据进行处理的系统框图。图7中的系统包括地理位置数据获取装置、关联关系确定装置、标注装置和呈现装置。其中地理位置数据获取装置用于获取所述文档中的地理位置数据。关联关系确定装置用于按照预定条件对所述地理位置数据进行分级以确定地理位置数据的相互关联关系。标注装置用于在电子地图上对所述地理位置数据的相互关联关系进行标注。呈现装置用于呈现经标注后的电子地图。
其中关联关系确定装置所依据的预定条件包括下面各项中的一项或多项:按照所述地理位置数据的重要程度进行分级;按照所述地理位置数据所代表的事件的因果关系进行分级;按照所述地理位置数据所代表的事件的时间顺序进行分级。
如果所述预定条件为按照所述地理位置数据的重要程度进行分级,则所述关联关系确定装置进一步包括:重要程度特征确定装置,用于确定判断地理位置数据的重要程度的特征;以及重要程度判断装置,用于按照上述判断地理位置数据的重要程度的特征对文档中的地理位置数据的重要程度进行判断,其中所述特征包括下列各项中的一项或多项:地理位置数据在文档中的出现位置、地理位置数据在文档中的出现次数。
如果所述预定条件为按照所述地理位置数据所代表的事件的因果关系进行分级,则所述关联关系确定装置进一步包括:语法结构分析装置、因果关系判断装置和因果关系确定装置。其中语法结构分析装置用于对所述地理位置数据出现的上下文按照语法结构进行分词。因果关系判断装置用于根据所述分词结果判断所述上下文中是否包含表达地理位置数据所代表的事件的因果关系的词语。因果关系确定装置用于按照所述判断结果确定地理位置数据所代表的事件之间的因果关系。
如果所述预定条件为按照所述地理位置数据所代表的事件的时间顺序进行分级,则所述关联关系确定装置进一步包括:语法结构分析装置、时间顺序判断装置以及时间顺序确定装置。其中语法结构分析装置用于对所述地理位置数据出现的上下文按照语法结构进行分词。时间顺序判断装置用于根据所述分词结果判断所述上下文中是否包含表达地理位置数据所代表的事件的时间顺序的词语。时间顺序确定装置用于按照所述判断结果确定地理位置数据所代表的事件之间的时间顺序。
按照本发明的一种实施例,所述关联关系确定装置还可以进一步包括一个过滤装置。所述过滤装置用于根据地理位置数据出现的上下文,过滤掉不需要被标注的地理位置数据。
按照本发明的一种实施例,所述标注装置进一步用于使用连线标注所述地理位置数据的相互关联关系。
按照本发明的另一种实施例,所述标注装置进一步用于使用等高线标注所述地理位置数据的相互关联关系。
图7中的各个装置与图1中的各个步骤对应,因此在介绍图1中的方法时所描述的各种具体实施方式在下文中不再做重复描述。
图8示出了按照本发明的另一种实施例对文档中的地理位置数据进行处理的系统框图。图8中的系统包括地理位置数据获取装置、消歧装置、关联关系确定装置、定位装置、标注装置、首选层次确定装置以及呈现装置。其中地理位置数据获取装置、关联关系确定装置、标注装置以及呈现装置与图7中的各个装置相同,对于其具体功能和实现方式在此不再重复描述。图8中的系统比图7中的系统多了三个装置:消歧装置、定位装置、呈现装置。其中消歧装置用于对所获取的地理位置数据进行消歧,包括用统一的方式表达所述地理位置数据。定位装置用于对所述地理位置数据进行具体定位,从而用所述地理位置数据的细粒度表示代表所述地理位置数据。首选层次确定装置用于确定经标注后的电子地图的用于呈现的首选层次,从而使得所述呈现装置进一步按照所述首选层次呈现经标注后的电子地图。
图8中的各个装置与图2中的各个步骤对应,因此在介绍图2中的方法时所描述的各种具体实施方式在下文中不再做重复描述。
所属技术领域的技术人员知道,本发明可以体现为系统、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即,可以是完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、或者本文一般称为“电路”、“模块”或“系统”的软件部分与硬件部分的组合。此外,本发明还可以采取体现在任何有形的表达介质(medium of expression)中的计算机程序产品的形式,该介质中包含计算机可用的程序码。
可以使用一个或多个计算机可用的或计算机可读的介质的任何组合。计算机可用的或计算机可读的介质例如可以是——但不限于——电的、磁的、光的、电磁的、红外线的、或半导体的系统、装置、器件或传播介质。计算机可读介质的更具体的例子(非穷举的列表)包括以下:有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、诸如支持因特网或内部网的传输介质、或者磁存储器件。注意计算机可用的或计算机可读的介质甚至可以是上面印有程序的纸张或者其它合适的介质,这是因为,例如可以通过电扫描这种纸张或其它介质,以电子方式获得程序,然后以适当的方式加以编译、解释或处理,并且必要的话在计算机存储器中存储。在本文件的语境中,计算机可用的或计算机可读的介质可以是任何含有、存储、传达、传播、或传输供指令执行系统、装置或器件使用的或与指令执行系统、装置或器件相联系的程序的介质。计算机可用的介质可包括在基带中或者作为载波一部分传播的、由其体现计算机可用的程序码的数据信号。计算机可用的程序码可以用任何适当的介质传输,包括-但不限于-无线、电线、光缆、RF等等。
用于执行本发明的操作的计算机程序码,可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++之类,还包括常规的过程式程序设计语言-诸如”C”程序设计语言或类似的程序设计语言。程序码可以完全地在用户的计算上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户的计算机,或者,可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。
以下参照按照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。要明白的是,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得通过计算机或其它可编程数据处理装置执行的这些指令,产生实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能指令计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品。
也可以把计算机程序指令加载到计算机或其它可编程数据处理装置上,使得在计算机或其它可编程数据处理装置上执行一系列操作步骤,以产生计算机实现的过程,从而在计算机或其它可编程装置上执行的指令就提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本文中所用的术语,仅仅是为了描述特定的实施例,而不意图限定本发明。本文中所用的单数形式的“一”和“该”,旨在也包括复数形式,除非上下文中明确地另外指出。还要知道,“包含”一词在本说明书中使用时,说明存在所指出的特征、整体、步骤、操作、单元和/或组件,但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件,以及/或者它们的组合。
权利要求中的对应结构、材料、操作以及所有功能性限定的装置(means)或步骤的等同替换,旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。所给出的对本发明的描述其目的在于示意和描述,并非是穷尽性的,也并非是要把本发明限定到所表述的形式。对于所属技术领域的普通技术人员来说,在不偏离本发明范围和精神的情况下,显然可以作出许多修改和变型。对实施例的选择和说明,是为了最好地解释本发明的原理和实际应用,使所属技术领域的普通技术人员能够明了,本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。

Claims (18)

1.一种对文档中的地理位置数据进行处理的方法,包括:
获取所述文档中的地理位置数据;
按照预定条件对所述地理位置数据进行分级以确定地理位置数据的相互关联关系;
在电子地图上对所述地理位置数据的相互关联关系进行标注;以及
呈现经标注后的电子地图,
其中所述预定条件进一步包括下面各项中的一项或多项:
按照所述地理位置数据的重要程度进行分级;
按照所述地理位置数据所代表的事件的因果关系进行分级;
按照所述地理位置数据所代表的事件的时间顺序进行分级。
2.如权利要求1所述的方法,进一步包括:
对所获取的地理位置数据进行消歧,包括用统一的方式表达所述地理位置数据。
3.如权利要求1所述的方法,
其中如果所述预定条件为按照所述地理位置数据的重要程度进行分级,则所述按照预定条件对所述地理位置数据进行分级以确定地理位置数据的相互关联关系进一步包括:
确定判断地理位置数据的重要程度的特征;
按照上述判断地理位置数据的重要程度的特征对文档中的地理位置数据的重要程度进行判断,其中所述特征包括下列各项中的一项或多项:地理位置数据在文档中的出现位置、地理位置数据在文档中的出现次数。
4.如权利要求1所述的方法,
其中如果所述预定条件为按照所述地理位置数据所代表的事件的因果关系进行分级,则所述按照预定条件对所述地理位置数据进行分级以确定地理位置数据的相互关联关系进一步包括:
对所述地理位置数据出现的上下文按照语法结构进行分词;
根据所述分词结果判断所述上下文中是否包含表达地理位置数据所代表的事件的因果关系的词语;以及
按照所述判断结果确定地理位置数据所代表的事件之间的因果关系。
5.如权利要求1所述的方法,
其中如果所述预定条件为按照所述地理位置数据所代表的事件的时间顺序进行分级,则所述按照预定条件对所述地理位置数据进行分级以确定地理位置数据的相互关联关系进一步包括:
对所述地理位置数据出现的上下文按照语法结构进行分词;
根据所述分词结果判断所述上下文中是否包含表达地理位置数据所代表的事件的时间顺序的词语;以及
按照所述判断结果确定地理位置数据所代表的事件之间的时间顺序。
6.如权利要求1所述的方法,其中所述按照预定条件对所述地理位置数据进行分级以确定地理位置数据的相互关联关系进一步包括:
根据地理位置数据出现的上下文,过滤掉不需要被标注的地理位置数据。
7.如权利要求1所述的方法,进一步包括:
对所述地理位置数据进行具体定位,从而用所述地理位置数据的细粒度表示代表所述地理位置数据。
8.如权利要求1所述的方法,进一步包括:
确定经标注后的电子地图的用于呈现的首选层次,
并且所述呈现经标注后的电子地图进一步包括按照所述首选层次呈现经标注后的电子地图。
9.如权利要求1-8中任意一个所述的方法,所述在电子地图上对所述地理位置数据及其相互关联关系进行标注进一步包括:
使用下列各项中的一项或多项标注所述地理位置数据的相互关联关系:连线、等高线、所述文档中连接地理位置数据的动词。
10.一种对文档中的地理位置数据进行处理的系统,包括:
地理位置数据获取装置,用于获取所述文档中的地理位置数据;
关联关系确定装置,用于按照预定条件对所述地理位置数据进行分级以确定地理位置数据的相互关联关系;
标注装置,用于在电子地图上对所述地理位置数据的相互关联关系进行标注;以及
呈现装置,用于呈现经标注后的电子地图,
其中所述预定条件进一步包括下面各项中的一项或多项:
按照所述地理位置数据的重要程度进行分级;
按照所述地理位置数据所代表的事件的因果关系进行分级;
按照所述地理位置数据所代表的事件的时间顺序进行分级。
11.如权利要求10所述的系统,进一步包括:
消歧装置,用于对所获取的地理位置数据进行消歧,包括用统一的方式表达所述地理位置数据。
12.如权利要求10所述的系统,
其中如果所述预定条件为按照所述地理位置数据的重要程度进行分级,则所述关联关系确定装置进一步包括:
重要程度特征确定装置,用于确定判断地理位置数据的重要程度的特征;以及
重要程度判断装置,用于按照上述判断地理位置数据的重要程度的特征对文档中的地理位置数据的重要程度进行判断,其中所述特征包括下列各项中的一项或多项:地理位置数据在文档中的出现位置、地理位置数据在文档中的出现次数。
13.如权利要求10所述的系统,
其中如果所述预定条件为按照所述地理位置数据所代表的事件的因果关系进行分级,则所述关联关系确定装置进一步包括:
语法结构分析装置,用于对所述地理位置数据出现的上下文按照语法结构进行分词;
因果关系判断装置,用于根据所述分词结果判断所述上下文中是否包含表达地理位置数据所代表的事件的因果关系的词语;以及
因果关系确定装置,用于按照所述判断结果确定地理位置数据所代表的事件之间的因果关系。
14.如权利要求10所述的系统,
其中如果所述预定条件为按照所述地理位置数据所代表的事件的时间顺序进行分级,则所述关联关系确定装置进一步包括:
语法结构分析装置,用于对所述地理位置数据出现的上下文按照语法结构进行分词;
时间顺序判断装置,用于根据所述分词结果判断所述上下文中是否包含表达地理位置数据所代表的事件的时间顺序的词语;以及
时间顺序确定装置,用于按照所述判断结果确定地理位置数据所代表的事件之间的时间顺序。
15.如权利要求10所述的系统,其中所述关联关系确定装置进一步包括:
过滤装置,用于根据地理位置数据出现的上下文,过滤掉不需要被标注的地理位置数据。
16.如权利要求10所述的系统,进一步包括:
定位装置,用于对所述地理位置数据进行具体定位,从而用所述地理位置数据的细粒度表示代表所述地理位置数据。
17.如权利要求16所述的系统,进一步包括:
首选层次确定装置,确定经标注后的电子地图的用于呈现的首选层次,并且
所述呈现装置进一步按照所述首选层次呈现经标注后的电子地图。
18.如权利要求10-17中任意一个所述的系统,所述标注装置进一步用于使用下列各项中的一项或多项标注所述地理位置数据的相互关联关系:连线、等高线、所述文档中连接地理位置数据的动词。
CN201010526403.1A 2010-10-25 2010-10-25 对文档中的地理位置数据进行处理的方法和系统 Active CN102456046B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201010526403.1A CN102456046B (zh) 2010-10-25 2010-10-25 对文档中的地理位置数据进行处理的方法和系统
US13/277,405 US8589780B2 (en) 2010-10-25 2011-10-20 Processing geographical location data in a document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010526403.1A CN102456046B (zh) 2010-10-25 2010-10-25 对文档中的地理位置数据进行处理的方法和系统

Publications (2)

Publication Number Publication Date
CN102456046A CN102456046A (zh) 2012-05-16
CN102456046B true CN102456046B (zh) 2015-05-20

Family

ID=46039243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010526403.1A Active CN102456046B (zh) 2010-10-25 2010-10-25 对文档中的地理位置数据进行处理的方法和系统

Country Status (2)

Country Link
US (1) US8589780B2 (zh)
CN (1) CN102456046B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9495359B1 (en) * 2013-08-21 2016-11-15 Athena Ann Smyros Textual geographical location processing
US20160171101A1 (en) * 2013-11-27 2016-06-16 Rita Wouhaybi High level of detail news maps and image overlays
US9659007B2 (en) * 2015-08-26 2017-05-23 International Business Machines Corporation Linguistic based determination of text location origin
US10275446B2 (en) 2015-08-26 2019-04-30 International Business Machines Corporation Linguistic based determination of text location origin
US9639524B2 (en) 2015-08-26 2017-05-02 International Business Machines Corporation Linguistic based determination of text creation date
US11132816B2 (en) 2016-12-21 2021-09-28 Intel Corporation Large scale CNN regression based localization via two-dimensional map
US10652592B2 (en) 2017-07-02 2020-05-12 Comigo Ltd. Named entity disambiguation for providing TV content enrichment
CN108509589B (zh) * 2018-03-29 2022-02-18 阿里巴巴(中国)有限公司 信息流展示方法及系统、计算机可读存储介质
CN110095129A (zh) * 2019-06-06 2019-08-06 广东电网有限责任公司 一种用于道路规划勘察的导航系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101427104A (zh) * 2005-04-21 2009-05-06 微软公司 虚拟地球
CN101852620A (zh) * 2009-04-03 2010-10-06 上海任登信息科技有限公司 在电子地图中显示多个兴趣点集中于一个地理位置的方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7116977B1 (en) * 2000-12-19 2006-10-03 Bellsouth Intellectual Property Corporation System and method for using location information to execute an action
JP4839603B2 (ja) * 2004-11-22 2011-12-21 ソニー株式会社 表示装置、表示方法、表示プログラム及び表示プログラムを記録した記録媒体
US7801897B2 (en) * 2004-12-30 2010-09-21 Google Inc. Indexing documents according to geographical relevance
US7689557B2 (en) * 2005-06-07 2010-03-30 Madan Pandit System and method of textual information analytics
US7353114B1 (en) * 2005-06-27 2008-04-01 Google Inc. Markup language for an interactive geographic information system
US9002638B2 (en) 2005-09-13 2015-04-07 Michael John Safoutin Method and apparatus for geometric search and display for a digital map
US20070174770A1 (en) * 2006-01-20 2007-07-26 Michael John Safoutin Time conditioned digital map and information display
US20080010273A1 (en) 2006-06-12 2008-01-10 Metacarta, Inc. Systems and methods for hierarchical organization and presentation of geographic search results
US7720844B2 (en) * 2007-07-03 2010-05-18 Vulcan, Inc. Method and system for continuous, dynamic, adaptive searching based on a continuously evolving personal region of interest
US20090100018A1 (en) * 2007-10-12 2009-04-16 Jonathan Roberts System and method for capturing, integrating, discovering, and using geo-temporal data
US9626685B2 (en) 2008-01-04 2017-04-18 Excalibur Ip, Llc Systems and methods of mapping attention
US20090193007A1 (en) * 2008-01-28 2009-07-30 Andrea Filippo Mastalli Systems and methods for ranking search engine results
US20090292626A1 (en) 2008-04-22 2009-11-26 Oxford J Craig System and method for interactive map, database, and social networking engine
US8014943B2 (en) 2008-05-08 2011-09-06 Gabriel Jakobson Method and system for displaying social networking navigation information
US8401771B2 (en) * 2008-07-22 2013-03-19 Microsoft Corporation Discovering points of interest from users map annotations
US8583668B2 (en) * 2008-07-30 2013-11-12 Yahoo! Inc. System and method for context enhanced mapping
US8433998B2 (en) * 2009-01-16 2013-04-30 International Business Machines Corporation Tool and method for annotating an event map, and collaborating using the annotated event map
US8539359B2 (en) * 2009-02-11 2013-09-17 Jeffrey A. Rapaport Social network driven indexing system for instantly clustering people with concurrent focus on same topic into on-topic chat rooms and/or for generating on-topic search results tailored to user preferences regarding topic
US8713003B2 (en) * 2009-07-24 2014-04-29 Peer Belt Inc. System and method for ranking content and applications through human assistance
US20110046881A1 (en) * 2009-08-20 2011-02-24 Jeyhan Karaoguz Personal mapping system
US8239130B1 (en) * 2009-11-12 2012-08-07 Google Inc. Enhanced identification of interesting points-of-interest
US8903837B2 (en) * 2010-04-13 2014-12-02 Yahoo!, Inc. Incorporating geographical locations in a search process

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101427104A (zh) * 2005-04-21 2009-05-06 微软公司 虚拟地球
CN101852620A (zh) * 2009-04-03 2010-10-06 上海任登信息科技有限公司 在电子地图中显示多个兴趣点集中于一个地理位置的方法

Also Published As

Publication number Publication date
US20120271624A1 (en) 2012-10-25
CN102456046A (zh) 2012-05-16
US8589780B2 (en) 2013-11-19

Similar Documents

Publication Publication Date Title
CN102456046B (zh) 对文档中的地理位置数据进行处理的方法和系统
Finkelstein et al. Investigating the relationship between price, rating, and popularity in the Blackberry World App Store
Gregory et al. Visual GISting: bringing together corpus linguistics and Geographical Information Systems
US9858314B2 (en) System and method for refining search results
US20130018894A1 (en) System and method of sentiment data generation
US20100185600A1 (en) Apparatus and method for integration search of web site
US10650186B2 (en) Device, system and method for displaying sectioned documents
US8977632B2 (en) Travelogue locating mining for travel suggestion
US8572118B2 (en) Computer method and apparatus of information management and navigation
JP5587989B2 (ja) 観点別特許マップの提供方法
US8370119B2 (en) Website design pattern modeling
EP2546764A1 (en) System and method of sentiment data use
US20150269691A1 (en) Legal reasoning graphs and usage thereof
Akgül Web content accessibility of municipal web sites in Turkey
Wicaksono et al. Mining advices from weblogs
US20150066480A1 (en) Non-transitory computer-readable storage medium for storing acronym-management program, acronym-management device, non-transitory computer-readable storage medium for storing expanded-display program, and expanded-display device
Paternò et al. The role of tool support in public policies and accessibility
JP2007140603A (ja) アーリーアダプタ抽出方法及び装置及びプログラム及び話題語予測方法及び装置及びプログラム
Shi et al. Extraction of geospatial information on the Web for GIS applications
US8001138B2 (en) Word relationship driven search
JP2008262506A (ja) 情報抽出システム、情報抽出方法および情報抽出用プログラム
Rubáček et al. Accessibility of websites of the European national tourism boards
US20130311449A1 (en) Identifying Referred Documents Based on a Search Result
KR101421819B1 (ko) 온라인 환경에서의 벌룬을 이용한 키워드 검색 결과 제공 방법
CN104317888B (zh) 一种全文检索测试数据生成方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant