CN110110055A

CN110110055A - 一种从文本中提取地理位置信息的方法及装置

Info

Publication number: CN110110055A
Application number: CN201910227849.5A
Authority: CN
Inventors: 翁韬; 陈震
Original assignee: Hangzhou Niu Network Technology Co Ltd
Current assignee: Hangzhou Niu Network Technology Co Ltd
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2019-08-09
Anticipated expiration: 2039-03-25
Also published as: CN110110055B

Abstract

本发明提供的一种从文本中提取地理位置信息的方法，在获取文本中的目标信息后，通过查询数据模型或数据库获取与目标信息关联的第二位置信息和第三位置信息，生成至少两组包含有目标信息、第二位置信息和第三位置信息的地理位置信息，并且统计在文本中获取的第二位置信息或/和第三位置信息在文本中出现的频次，最后，根据第二位置信息、第三位置信息在文本中出现的频次计算出地理位置信息的总体匹配度值，并获取总体匹配度值最大的地理位置信息，总体匹配度值最大的地理位置信息即最终获取的地理位置信息。

Description

一种从文本中提取地理位置信息的方法及装置

技术领域

本发明涉及地理位置信息提取方法，尤其涉及一种从文本中提取地理位置信息的方法及装置。

背景技术

随着互联网技术的飞速发展，智能化服务在终端上应用越来越多，例如，用户在一款应用上公开一篇文章，然后终端即可根据该文章获取用户在文章中描述的地理位置。

现有技术中，终端由文本中提取位置信息时，对于短语，例如文本中仅具有一个地理名称时，终端提取位置信息的准确度较高，但是，对于用户公开一篇文章、并且该文章中具有多种地理名称时，终端获取位置信息的精度将大幅下降，即，终端仅简单的提取地理名称将无法准确地获取地理位置信息。另外，由于地理名称可能具有重名现象，例如在首都北京及台湾省均具有故宫博物院，当文章中提及故宫博物院时，终端可能会获取两个不同的地理位置，从而进一步造成终端获取的位置信息精度降低。

发明内容

本发明提供了一种从文本中提取地理位置信息的方法，用于解决现有技术中从文本中提取地理位置信息精度低的技术问题。

为了解决以上技术问题，本发明通过以下技术方案实现：

一种从文本中提取地理位置信息的方法，包括：

获取文本中的目标信息；

根据文本中获取的目标信息查询数据模型获得与文本中目标信息关联的第二位置信息或/和第三位置信息，当查询数据模型获无法获取第二位置信息或/和第三位置信息时，查询包含有位置信息的数据库获取与文本中目标信息关联的第二位置信息或/和第三位置信息，生成至少两组包含有目标信息、第二位置信息和第三位置信息的地理位置信息，其中，第二位置信息与第三位置信息关联，生成的至少两组地理位置信息中每组地理位置信息与其它组地理位置信息具有不同的第二位置信息或/和第三位置信息，并统计文本中第二位置信息或/和第三位置信息出现的频次；

根据第二位置信息或/和第三位置信息在文本中出现的频次计算地理位置信息的总体匹配度值，并获取总体匹配度值最大的地理位置信息。

优选的，所述获取文本中的目标信息包括：

建立数据模型；

根据数据模型查询文本内容，获取文本中包含的目标信息。

采用数据模型获取文本中的目标信息，提高了目标信息的获取速度，并提高了目标信息获取的自动化程度。

优选的，所述建立数据模型包括：

手工标注游记类文本中的位置信息生成训练样本；

基于BERT框架优化训练样本生成数据模型，所述数据模型包含有目标信息、第二位置信息和第三位置信息。

手工标注游记类文本中的位置信息，提高了训练样本中位置信息的精确度，即，手工标注时可以对不规范用语进行修正，进而提高了训练样本中位置信息的精确度。

优选的，统计文本中第二位置信息或/和第三位置信息出现的频次，并根据第二位置信息或/和第三位置信息在文本中出现的频次排序。

根据在文本中出现的频次对第二位置信息、第三位置信息排序，有利于后续对地理位置信息的处理。

优选的，统计文本中第二位置信息或/和第三位置信息出现的频次，并根据第二位置信息或/和第三位置信息在文本中出现的频次降序排列。

优选的，根据如下公式计算地理位置信息的总体匹配度值：

公式：A＝100*(1+S*1+D*2+F*0.5)；

式中：

A：总体匹配度值；

S：文本中仅有第三位置信息时，第三位置信息在文本中出现的频次；

D：文本中既有第三位置信息又有第二位置信息时，第二位置信息在文本中出现频次；

F：文本中仅有第二位置信息时，第二位置信息在文本中出现的频次。

一种从文本中提取地理位置信息的装置，包括储存单元，用于储存包含有目标信息、第二位置信息和第三位置信息的数据模型；

位置信息获取单元，用于获取文本中的目标信息、第二位置信息或/和第三位置信息；

查询单元，用于查询包含有位置信息的数据库以获取文本中缺少的第二位置信息或/和第三位置信息；

和数据处理单元，用于处理获取的至少两组包含有目标信息、第二位置信息及第三位置信息的地理位置信息，并根据第二位置信息或/和第三位置信息在文本中出现的频次计算地理位置信息总体匹配度值，得出地理位置信息总体匹配度值的最大值。

本发明提供的一种从文本中提取地理位置信息的装置，根据第二位置信息、第三位置信息在文本中出现有频次计算地理位置信息的总体匹配度值，相对于现有技术提高了从文本中提取地理位置信息的精度。

优选的，所述查询单元与至少一个包含有第二位置信息、第三位置信息的数据库通讯。

一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如上述的从文本中提取地理位置信息的方法。

一种存储有计算机程序的计算机可读存储介质，所述计算机程序使计算机执行时实现如上述的从文本中提取地理位置信息的方法。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它相关的附图。

图1为本发明第一实施例的流程图。

图2为本发明第二实施例的流程图。

具体实施方式

下面结合具体实施例介绍本发明的技术方案，以下实施例仅用于帮助本领域技术人员更好地理解本发明的技术方案，并非是对本发明的限制。

本说明书中：

目标信息可以为一个特定的位置信息，例如可以为城市中的建筑物或景区或其它场所。

第二位置信息可以为城市信息，例如目标信息所在的城市。

第三位置信息可以为国家信息，例如第二位置信息所在的国家。

或/和是指，以文本中包含第二位置信息或/和第三位置信息为例，指文本中可以仅包含第二位置信息，文本中也可以仅包含第二位置信息，文本中也可以同时包含第二位置信息和第三位置信息。

文本是指至少包含目标信息并由用户发表的文字类文章。

频次是指相关信息在文本中出现的总次数。

数据模型应至少包括两种不同的语言，以识别不同语言编写的文本。

本发明的第一实施例

如图1所示，一种从文本中提取地理位置信息的方法，包括：

S100,获取文本中的目标信息；

例如可以通过查询或标注或其它方法获取一个确定的位置信息；

S200，根据文本中获取的目标信息查询数据模型获得与文本中目标信息关联的第二位置信息或/和第三位置信息；

当查询数据模型获无法获取第二位置信息或/和第三位置信息时，查询包含有位置信息的数据库获取与文本中目标信息关联的第二位置信息或/和第三位置信息；

本文中的数据模型是指存储有地理位置信息的本地数据中心，数据库是指现有技术应用所存储的位置信息数据库。通过数据库获取信息时可采用有线或无线网络。

也就是说，本步骤通过数据模型或数据库对目标信息进行补充，形成生成至少两组包含有目标信息、第二位置信息和第三位置信息的地理位置信息，其中，第二位置信息与第三位置信息关联，生成的至少两组地理位置信息中每组地理位置信息与其它组地理位置信息具有不同的第二位置信息或/和第三位置信息，目标信息与第二位置信息关联，实质上，本步骤最终获取的多组地理位置信息均包括目标信息、第二位置信息和第三位置信息，即多组地理位置信息均是一个确定的地理位置，例如包括国家名称、城市名称和具体的建筑物名称。

并统计文本中第二位置信息或/和第三位置信息出现的频次；当文本中仅包含目标信息和第二位置信息时，统计第二位置信息出现的频次，当文本中仅包含第三位置信息时，统计第三位置信息出现的频次，当文本中既包含目标信息又包含第二位置信息、第三位置信息时，统计第二位置信息、第三位置信息出现的频次。

S300，根据第二位置信息或/和第三位置信息在文本中出现的频次计算地理位置信息的总体匹配度值，并获取总体匹配度值最大的地理位置信息。

本实施例先获取目标信息，然后对目标信息进行补充，得出多组包含目标信息、第二位置信息和第三位置信息的地理位置信息，最后，根据文本中第二位置信息、第三位置信息出现的频次计算出地理位置信息总体匹配度值，地理位置信息总体匹配度值最大的那组地理位置信息即为最终获取的地理位置信息，最终获取的地理位置信息包含目标信息、第二位置信息和第三位置信息。

本发明的第二实施例

如图2所示，一种从文本中提取地理位置信息的方法，包括：

S010，手工标注游记类文本中的位置信息生成训练样本；游记类文本可以由小红书、马蜂窝等相关应用中获取，该游记类文本中具有更多、更精确的目标信息、第二位置信息、第三位置信息，训练样本中包含有多组目标信息、第二位置信息和第三位置信息，采用手工标注可以对不规范的用词进行修正，以提高训练样本数据的精确度。

S030，基于BERT框架优化训练样本生成数据模型，所述数据模型包含有目标信息、第二位置信息和第三位置信息，数据模型对训练样本中的数据分组，每组数据包含目标信息、第二位置信息或/和第三位置信息。由于游记类文本描述可能缺少相关的第二位置信息或第三位置信息，因此，每组数据中可能缺少第二位置信息或第三位置信息。

S100,根据数据模型查询文本内容，获取文本中包含的目标信息；也就是说，本步骤中通过将数据模型中的数据与文本对比，匹配文本的内容，以获取目标信息，例如，数据模型中具有目标信息“西湖”，而文本中也具有“西湖”的描述，此时即获取了目标信息“西湖”。

当查询数据模型获无法获取第二位置信息或/和第三位置信息时，查询包含有位置信息的数据库获取与文本中目标信息关联的第二位置信息或/和第三位置信息，其中，第二位置信息与第三位置信息关联，生成的至少两组地理位置信息中每组地理位置信息与其它组地理位置信息具有不同的第二位置信息或/和第三位置信息，目标信息与第二位置信息关系，并统计文本中第二位置信息或/和第三位置信息出现的频次；

例如，在数据模型中有数据“杭州”，而文本中也有“杭州”的描述，则获取第二位置信息，对于第三位置信息，当文本和数据模型中均没有“中国”的数据时，则查询数据库获取第三位置信息“中国”，最终得出一组地理位置信息：中国、杭州、西湖。当然本示例仅用于帮助本领域技术人员理解技术方案，并非是实质性的介绍，具体应用将在下文中通过一个具体的示例进行详细介绍。

S250，统计文本中第二位置信息或/和第三位置信息出现的频次，并根据第二位置信息或/和第三位置信息在文本中出现的频次排序。统计文本中第二位置信息或/和第三位置信息出现的频次，并根据第二位置信息或/和第三位置信息在文本中出现的频次降序排列。该排序有利于后续总本匹配度值的计算，例如，在计算总体匹配度值时，为减轻运算压力，可以仅计算几组频次最高的地理位置信息。

本实施例中采用数据模型获取目标信息，即目标信息自动获取，提高了地理位置信息的获取效率。

本发明的第三实施例

本实施例是对第一实施例或第二实施例中S300进一步介绍，可以理解的是，本实施例应包括第一实施例或第二实施例的全部步骤，计算地理位置信息的总体匹配度值的公式为：

公式：A＝100*(1+S*1+D*2+F*0.5)；

式中：

A：总体匹配度值；

本实施例公开的计算公式运算简单，减轻了计算总体匹配度值时设备的计算压力，提高了从文本中提取地理位置信息的速度。

本公式仅是给出一种示例，其目的仅在于介绍根据第二位置信息、第三位置信息在文本中出现的频次计算地理位置信息总体匹配度值的一种方法，而不是在于对方法的限定，本领域技术人员也可以根据实际需求推出其它公式。

本发明的第四实施例

所述查询单元与至少一个包含有第二位置信息、第三位置信息的数据库通讯。所述数据库为现有技术应用所存储的位置信息数据库。

具体地说，本装置还包括芯片，该芯片可以为具有学习能力的人工智能芯片和内部存储器，内部存储器内存储有执行上述方法的程序，芯片与内部存储器通讯，位置信息获取单元、查询单元和数据处理单元均由芯片配合程序实现相应的功能。本装置相对于现有技术，提高从文本中获取地理位置信息的精度。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器中，并由处理器执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机设备中的执行过程。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，本实施例仅仅是计算机设备的示例，并不构成对计算机设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以是计算机设备的内部存储单元，例如计算机设备的硬盘或内存。存储器也可以是计算机设备的外部存储设备，例如计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器还可以用于暂时地存储已经输出或者将要输出的数据。

以下示例将使本领域技术人员更好地理解本发明的技术方案，并且，通过以下示例可以得出本方案相对于现有技术大幅提高了获取地理位置信息的准确度。但是，以下示例仅是示例性的介绍本方案相对于现有技术的优势，并非是对文本长度或文本内容或文本格式的限定。本方案可以应用于任意格式、长度、内容的文本。

示例：

示例文本：梵蒂冈，罗马城中的国家。梵蒂冈、罗马圣彼得大教堂、梵蒂冈博物馆是欧洲旅行攻略和意大利旅行攻略推荐的热点。来到罗马的第三天去到了梵蒂冈，这是全球面积最小的国家。梵蒂冈城内主要两个景点是圣彼得大教堂和梵蒂冈博物馆。接下来就聊聊这两个必打卡的景点。圣彼得大教堂，我们是上午9点40左右到的广场排队，很快差不多10分钟就可以安检进入教堂了，但是我们选择先登穹顶再下来好好欣赏教堂。进入教堂是免费的，但是上穹顶是要钱的，走楼梯8欧，坐电梯10欧，门票只能现场买。然而坐电梯只能上到一半左右的位置接下来还要爬三百多级台阶，这简直就是对生命的考验！爬楼的路上真的很怕自己猝死在楼梯间。但是！楼上的风景真的很值得爬个楼！所以我建议有体力的小仙女可以登顶一下。接着就是去教堂内部参观，这里建议大家可以租个讲解器边听边看，如果不想花钱租可以下载一个APP叫口袋导游，我的小伙伴推荐给我，在教堂里的参观我全靠了这个APP，简洁明了，完全沉浸在讲解中，也没有拍很多照片。总的让我感觉内容十分丰富。梵蒂冈博物馆，吃过午饭从教堂走到博物馆，我们是在TB提前订票下午14:00的，差不多过去就能换票进场了。TB上买的票有语音导览，每到一处有耳机的地方可以输入数字听讲解，建议自备耳机，不然手拿还是挺累的，整个博物馆给我感觉没有预期的那么好看，可能是因为太累太热了，博物馆里只有少数几个展馆有空调开放，所以我也建议自带一把扇子或者小电风扇。整个展馆里西斯廷礼拜堂最为著名，里面人真的超级多，不过解说内容也多，可以坐在一边听讲解一边歇脚。在出口处的螺旋走道也非常好看！除了这两个景点，我觉得梵蒂冈城里的皇家卫队也是一大亮点！不同于欧洲其他士兵的穿着，他们穿的相比之下很华丽了。黄蓝红相间的服装据说是米开朗基罗设计的。也非常建议大家去看一下哦。下一站：佛罗伦萨。

从文本中提取位置信息时，数据模型匹配文本中的内容，获取如下信息：

示例文本中的目标信息：

圣彼得大教堂，梵蒂冈博物馆，西斯廷礼拜堂。

示例文本中的第二位置信息和第三位置信息，以及第二位置信息、第三位置信息在文本中出现的频次：

国家：梵蒂冈，城市：梵蒂冈，频次：8。

国家：意大利，城市：罗马，频次：3。

国家：意大利，城市：佛罗伦萨，频次：1。

国家：意大利，频次：1。

以圣彼得大教堂为目标信息为例，现有技术中匹配的地理位置信息如下：

圣彼得大教堂,威尼斯,意大利,匹配度:100。

圣彼得大教堂,博洛尼亚,意大利,匹配度:100。

圣彼得大教堂,梵蒂冈,梵蒂冈,匹配度:100。

圣彼得大教堂,日内瓦,瑞士,匹配度:100。

圣彼得大教堂,特里尔,德国,匹配度:100。

可见，现有技术仅简单的提取目标信息并进行相关匹配，造成地理位置信息不准确，即目标信息可能会提取多个地理信息位置。

下面通过本方案根据第二位置信息、第三位置信息在文本中出现的频次并通过公式计算出总体匹配值，列表如下：

圣彼得大教堂,威尼斯,意大利,最终匹配度:200。

圣彼得大教堂,博洛尼亚,意大利,最终匹配度:200。

圣彼得大教堂,梵蒂冈,梵蒂冈,最终匹配度:1600。

圣彼得大教堂,日内瓦,瑞士,最终匹配度:100。

圣彼得大教堂,特里尔,德国,最终匹配度:100。

总体匹配度值最高的地理位置信息是：圣彼得大教堂,梵蒂冈,梵蒂冈,最终匹配度:1600，与示例文本中描述的地理位置信息一致。

以上所述仅为本发明的具体实施例，但本发明的技术特征并不局限于此，任何本领域的技术人员在本发明的领域内，所作的变化或修饰皆涵盖在本发明的专利范围之中。

Claims

1.一种从文本中提取地理位置信息的方法，其特征在于：包括：

获取文本中的目标信息；

2.根据权利要求1所述的一种从文本中提取地理位置信息的方法，其特征在于：所述获取文本中的目标信息包括：

建立数据模型；

根据数据模型查询文本内容，获取文本中包含的目标信息。

3.根据权利要求2所述的一种从文本中提取地理位置信息的方法，其特征在于：所述建立数据模型包括：

手工标注游记类文本中的位置信息生成训练样本；

4.根据权利要求1所述的一种从文本中提取地理位置信息的方法，其特征在于：统计文本中第二位置信息或/和第三位置信息出现的频次，并根据第二位置信息或/和第三位置信息在文本中出现的频次排序。

5.根据权利要求4所述的一种从文本中提取地理位置信息的方法，其特征在于：统计文本中第二位置信息或/和第三位置信息出现的频次，并根据第二位置信息或/和第三位置信息在文本中出现的频次降序排列。

6.根据权利要求6所述的一种从文本中提取地理位置信息的方法，其特征在于：根据如下公式计算地理位置信息的总体匹配度值：

公式：A＝100*(1+S*1+D*2+F*0.5)；

式中：

A：总体匹配度值；

7.一种从文本中提取地理位置信息的装置，其特征在于：包括储存单元，用于储存包含有目标信息、第二位置信息和第三位置信息的数据模型；

8.根据权利要求7所述的一种从文本中提取地理位置信息的装置，其特征在于：所述查询单元与至少一个包含有第二位置信息、第三位置信息的数据库通讯。

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如权利要求1-6中任一项所述的从文本中提取地理位置信息的方法。

10.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序使计算机执行时实现如权利要求1-6中任一项所述的从文本中提取地理位置信息的方法。