CN111797628B - 一种基于时间地理学的游记地名消歧方法 - Google Patents
一种基于时间地理学的游记地名消歧方法 Download PDFInfo
- Publication number
- CN111797628B CN111797628B CN202010495378.9A CN202010495378A CN111797628B CN 111797628 B CN111797628 B CN 111797628B CN 202010495378 A CN202010495378 A CN 202010495378A CN 111797628 B CN111797628 B CN 111797628B
- Authority
- CN
- China
- Prior art keywords
- place name
- time
- ambiguous
- disambiguation
- longitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 230000002123 temporal effect Effects 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 abstract description 2
- 239000013589 supplement Substances 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 241000167854 Bourreria succulenta Species 0.000 description 2
- 235000019693 cherries Nutrition 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- Navigation (AREA)
Abstract
本发明公开了一种基于时间地理学的游记地名消歧方法,该方法包括以下步骤:1)提取游记文本中的地名及其时间标签,将提取的地名分为歧义地名和无歧义地名,对无歧义地名分配唯一的经纬度位置,对歧义地名列出该地名对应的全部可能的经纬度位置;2)利用PPA进行消歧;3)利用确定时刻的可达域进行消歧;4)利用概率时间地理学进行排序;为每个余下的歧义地名计算概率,并按照计算结果降序排列。本发明提供了基于时间地理学的消歧方法,不同于之前基于规则等方法,适用于游记地名消歧,补充了在细粒度地名方面的消歧方法,让地名消歧更加准确。
Description
技术领域
本发明涉及自然语言处理技术,尤其涉及一种基于时间地理学的游记地名消歧方法。
背景技术
网络的不断发展和日益普及使得网上的信息量飞速增长,网络已成为一个包含众多数字文本的大型资料库,成为人们获取地理信息的主要来源,据统计至少70%的文本文档包含以地名形式表达的地理位置参考信息。在现实生活中,这些信息往往存在着歧义,如中山公园,同名的地理现象会造成位置语义的不确定性,因此需要对有歧义的位置语义进行消歧,为其分配一个唯一的经纬度。
现有方法一般根据文本中歧义地名附近的证据和地理关联度的计算进行消歧,但随着证据数目的过度增多反而会对消歧效果产生负面影响。此外,由于地理尺度为省级、市级、县级三类,许多细粒度和行政地名无法区分地理关联度的差异,这也会导致消歧发生错误。
具有代表性的文本——游记是旅游者基于自身旅游体验主动发表的主要描述旅行过程和感受的文本,被较多地用来提取地理信息。虽然现在有非常多的地名消歧方法,但是不同的消歧方法对应不同类型的文本,而目前还没有专门针对游记的消歧方法。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于时间地理学的游记地名消歧方法。
本发明解决其技术问题所采用的技术方案是:一种基于时间地理学的游记地名消歧方法,包括以下步骤:
1)提取游记文本中的地名及其时间标签,将提取的地名分为歧义地名和无歧义地名,对无歧义地名分配唯一的经纬度位置,对歧义地名列出该地名对应的全部可能的经纬度位置;
2)利用PPA进行消歧;
设游客在时刻t所在的地名L存在多个歧义的位置,其任一位置的经纬度记为L(x,y);选择在时间上前后两个无歧义地名位置Li(xi,yi)和Lj(xj,yj)及其时间信息ti和tj,ti<t<tj,作为一段游览的起止点信息;然后根据旅客的最大可能速度Vm,利用时间地理学原理计算旅客在起止点约束下的潜在路径区域(Potential Path Area,PPA),并作为消歧的依据,即歧义地名位置L(x,y)如果不位于PPA则不是地名的正确位置;消减后若歧义地名对应的剩余的经纬度位置唯一,则游记地名消歧结束,否则转入步骤3);
所述PPA为包含了游客在给定时间预算(tj-ti)和速度Vm限制下所有可访问位置的区域;
其中,根据歧义地名L的任一经纬度L(x,y),消减不位于PPA区域内的歧义位置点,判断采用以下公式:
其中,gij为PPA区域即游客在起点Li和终点Lj约束下所有可访问的位置集合,(xi,yi)和(xj,yj)分别为起点和终点的坐标,ti、tj分别为起点时间和终点时间,Vm为旅客的最大可能速度;
3)利用确定时刻的可达域进行消歧;
根据游记提取出个体出现在歧义地名的时刻t,建立时刻t的可达域,消减不位于可达域的歧义地名的经纬度位置;消减后若歧义地名对应的剩余的经纬度位置唯一,则游记地名消歧结束,否则转入步骤4);
4)对剩下的n个歧义地名的经纬度位置进行概率计算,为每个余下的歧义地名的经纬度位置计算概率,并按照计算结果降序排列。
按上述方案,所述步骤3)中时刻t的可达域为fi(t)∩pj(t),其中,fi(t)为旅客从起点Li位置出发在时刻t的可达域,pj(t)为旅客前往终点Lj位置前在时刻t的可达域;表示如下:
按上述方案,所述步骤4)中概率计算采用以下公式
式中,c0为起点Li和终点Lj之间对应于时刻t的位置点c0(x0,y0),且ck为歧义地名的索引号为k的位置点;k为区间[1,n]中的一个自然数;n为歧义地名的所有位置点的总数。
本发明产生的有益效果是:本发明提供了基于时间地理学的消歧方法,不同于之前基于规则等方法,适用于带时间标签的游记地名的消歧,补充了在细粒度地名方面的消歧方法,让地名消歧更加准确。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的方法流程图;
图2是本发明实施例的游记中提取出的时间和地名示意图;
图3是本发明实施例的歧义和无歧义地名的显示示意图;
图4是本发明实施例的PPA消歧结果示意图;
图5是本发明实施例的可达域消歧结果示意图;
图6是本发明实施例的概率消歧结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,一种基于时间地理学的游记地名消歧方法,包括以下步骤:
1)提取游记文本中的地名及其时间标签,将提取的地名分为歧义地名和无歧义地名,对无歧义地名分配唯一的经纬度位置,对歧义地名列出该地名对应的全部可能的经纬度位置;
2)利用PPA进行消歧。
在游记中,游客会记录一些地名和出现在地名的时间信息。其中,有些地名对应多个不同的经纬度位置,从而产生歧义。设游客在时刻t所在的地名L存在多个歧义的位置,其任一位置的经纬度记为L(x,y);选择在时间上前后两个无歧义地名位置Li(xi,yi)和Lj(xj,yj)及其时间信息ti和tj,ti<t<tj,作为一段游览的起止点信息;然后根据旅客的最大可能速度Vm,利用时间地理学原理计算旅客在起止点约束下的潜在路径区域(Potential PathArea,PPA),并作为消歧的依据,即歧义地名位置L(x,y)如果不位于PPA则不是地名的正确位置;消减后若歧义地名对应的剩余的经纬度位置唯一,则游记地名消歧结束,否则转入步骤3);
最大可能速度Vm可根据无歧义地名及其时间信息估算这段游览中旅客的最大可能速度;
所述PPA为包含了游客在给定时间预算(tj-ti)和速度Vm限制下所有可访问位置的区域;
其中,根据歧义地名L的任一经纬度L(x,y),消减不位于PPA区域内的歧义位置点,判断采用以下公式:
其中,gij为PPA区域即游客在起点Li和终点Lj约束下所有可访问的位置集合,(xi,yi)和(xj,yj)分别为起点和终点的坐标,ti、tj分别为起点时间和终点时间,Vm为旅客的最大可能速度;
时间地理学:
时空棱镜是在已知起点、终点、出发时刻、结束时刻和最大行驶速度的情况下,展示出个体所能到达的所有时空区域。时空棱镜在时间t∈(ti,tj)的任意时刻定义为:
Zij(t)={(x,y;t)|fi(t)∩pj(t)} (2)
棱镜在t时刻处的空间范围由两个范围的交集决定:(1)从起点开始在t时刻可能到达的所有位置fi(t);(2)在t时刻可能到达终点的所有位置pj(t)。将棱镜投射到地理空间会生成一个潜在的路径区域(PPA),即图中的gij,PPA是二维地理空间中的一个椭圆,该区域包含了给定时间预算和速度限制的地理空间中的所有可访问位置,即在[ti,tj]期间内个体可能出现的范围。PPA表示的是时间段内的个体活动的所有范围,而可达域表示的是个体在该时刻的活动范围。
3)利用确定时刻的可达域进行消歧;提取出个体出现在歧义地名的时刻t,然后建立时刻t的可达域,消减不位于可达域的歧义地名的经纬度位置;消减后若歧义地名对应的剩余的经纬度位置唯一,则游记地名消歧结束,否则转入步骤4);
4)利用概率时间地理学进行排序;对剩下的n个歧义地名的经纬度位置进行概率计算,为每个余下的歧义地名的经纬度位置计算概率,并按照计算结果降序排列;
概率时间地理学是时间地理学基于位置概率的一种延伸,将位置概率分配给可达域,可达域上的概率计算采用以下公式
式中,c0为起点和终点之间对应于t时刻的位置点;ck为歧义地名的索引号为k的一个位置点。本实施例中取起点和终点直线最短路径。
一个具体示例:
设:进行消歧的游记是携程平台上的一篇在武汉一天内游玩而记录的游记,在这篇游记当中每个游玩的地点都说明了明确的时间,符合本方法的要求,进行示例说明的网址是:
https://you.ctrip.com/travels/wuhan145/3787772.html?tdsourcetag=s_pctim_aiomsg。
步骤1:读取用户输入的网址(URL),然后利用百度AI的自然语言处理功能从游记中提取出所有的地名和时间。在这篇游记中可以提取到早上、九点、春分、中午十二点、两个小时和两点这些时间点,以及武汉大学、樱花大道、海底捞、武汉和黄鹤楼这些地名,如图2。
步骤2:确定起始点。通过百度JavaScript API中的geocodeSearch方法将地名分为歧义地名海底捞和无歧义地名武汉大学、樱花大道和黄鹤楼两组,然后从无歧义地名中选出两个地名作为起止点,为了使方法更具普遍性,选择的是无歧义地名数组中第一个和最后一个地名,这里也就是武汉大学和黄鹤楼这两个地名作为起止点。并将起止点武汉大学和黄鹤楼这两个地名通过地址解析转换成经纬度。
步骤3:得到歧义地名数组。不同于定量地理参照系统,地名通常只在一定的地理范围内具有唯一性,因此通过百度的LocalSearch方法得到歧义地名数组,本次示例中得到歧义地名“海底捞”在武汉市的数量为19。为了更直观地看到消歧过程,将歧义地名组和无歧义地名在地图上进行显示,如图3。
步骤4:确定时间和最大速度。起止点武汉大学和黄鹤楼这两个地名对应的时间九点和下午两点记为起始时间和终点时间,之后根据起始时间和终点时间以及两地之间的距离来估计游记中旅客的最大速度的下界;并在此基础上结合旅客的交通方式确定最大可能的移动速度。
步骤5:消歧。整个消歧过程分为三部分,具体消歧过程如下:
第一步,利用PPA进行消歧。如公式(1)所示,代入歧义地名“海底捞”的每个经纬度进行计算。地理椭圆由栅格单元构成,每个单元到两个焦点的距离不超过椭圆的长轴。这里,两个焦点为被选择的两个确定地名(即起止点),长轴是起止点之间的时间间隔乘以最大速度。如图4所示,歧义地名位于PPA外的位置点可以消除,歧义地名位于PPA内的位置点还需要进一步确认。
第二步,利用确定时刻的可达域进行消歧。根据游记能够提取出个体出现在歧义地名的时刻t,然后计算时刻t的可达域。具体操作就是计算公式(6)和(7)得到两个圆,其交集就是可达域。结果如图5所示,歧义地名位于可达域外的位置点可以消除,歧义地名位于可达域内的三个位置点还需要进一步确认。其中,图5所示的可达域内有四个点,其中有一个点是确定的止点(即黄鹤楼),剩余的三个点是歧义点。
第三步,因为前两种方法还是无法确定歧义点的位置,所以最后要利用概率时间地理学进行消歧。利用公式(8)计算剩下的三个地点的概率,分别为0.157,0.683和0.160,概率大的则更可能为歧义点所代表的地点。
排序后将概率最大的点做为建议结果输出,并且结果点的覆盖物为红色图标,如图6。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (3)
1.一种基于时间地理学的游记地名消歧方法,其特征在于,包括以下步骤:
1)提取游记文本中的地名及其时间标签,将提取的地名分为歧义地名和无歧义地名,对无歧义地名分配唯一的经纬度位置,对歧义地名列出该地名对应的全部可能的经纬度位置;
2)利用PPA进行消歧;
设游客在时刻t所在的地名L存在多个歧义的位置,其任一位置的经纬度记为L(x,y);选择在时间上前后两个无歧义地名位置Li(xi,yi)和Lj(xj,yj)及其时间信息ti和tj,ti<t<tj,作为一段游览的起止点信息;然后根据旅客的最大可能速度Vm,利用时间地理学原理计算旅客在起止点约束下的潜在路径区域,并作为消歧的依据,即歧义地名位置L(x,y)如果不位于PPA则不是地名的正确位置;消减后若歧义地名对应的剩余的经纬度位置唯一,则游记地名消歧结束,否则转入步骤3);
所述PPA为包含了游客在给定时间预算(tj-ti)和速度Vm限制下所有可访问位置的区域;
其中,根据歧义地名L的任一经纬度L(x,y),消减不位于PPA区域内的歧义位置点,判断采用以下公式:
其中,gij为PPA区域即游客在起点Li和终点Lj约束下所有可访问的位置集合,(xi,yi)和(xj,yj)分别为起点和终点的坐标,ti、tj分别为起点时间和终点时间,Vm为旅客的最大可能速度;
3)利用确定时刻的可达域进行消歧;
根据游记提取出个体出现在歧义地名的时刻t,建立时刻t的可达域,消减不位于可达域的歧义地名的经纬度位置;消减后若歧义地名对应的剩余的经纬度位置唯一,则游记地名消歧结束,否则转入步骤4);
4)对剩下的n个歧义地名的经纬度位置进行概率计算,为每个余下的歧义地名的经纬度位置计算概率,并按照计算结果降序排列。
2.根据权利要求1所述的基于时间地理学的游记地名消歧方法,其特征在于,所述步骤3)中时刻t的可达域为fi(t)∩pj(t),其中,fi(t)为旅客从起点Li位置出发在时刻t的可达域,pj(t)为旅客前往终点Lj位置前在时刻t的可达域;表示如下:
3.根据权利要求1所述的基于时间地理学的游记地名消歧方法,其特征在于,所述步骤4)中概率计算采用以下公式
式中,c0为起点Li和终点Lj之间对应于时刻t的位置点c0(x0,y0),且ck为歧义地名的索引号为k的位置点;k为区间[1,n]中的一个自然数;n为歧义地名的所有位置点的总数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010495378.9A CN111797628B (zh) | 2020-06-03 | 2020-06-03 | 一种基于时间地理学的游记地名消歧方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010495378.9A CN111797628B (zh) | 2020-06-03 | 2020-06-03 | 一种基于时间地理学的游记地名消歧方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111797628A CN111797628A (zh) | 2020-10-20 |
CN111797628B true CN111797628B (zh) | 2024-03-08 |
Family
ID=72806278
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010495378.9A Active CN111797628B (zh) | 2020-06-03 | 2020-06-03 | 一种基于时间地理学的游记地名消歧方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111797628B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014074317A1 (en) * | 2012-11-08 | 2014-05-15 | Evernote Corporation | Extraction and clarification of ambiguities for addresses in documents |
CN104572992A (zh) * | 2015-01-06 | 2015-04-29 | 武汉工程大学 | 基于多约束推理的互联网地理位置信息规范化方法 |
CN107045532A (zh) * | 2017-01-20 | 2017-08-15 | 中国科学院电子学研究所 | 时空地理空间可视化的分析方法 |
CN108388559A (zh) * | 2018-02-26 | 2018-08-10 | 中译语通科技股份有限公司 | 地理空间应用下的命名实体识别方法及系统、计算机程序 |
CN109614620A (zh) * | 2018-12-10 | 2019-04-12 | 齐鲁工业大学 | 一种基于HowNet的图模型词义消歧方法和系统 |
CN110781670A (zh) * | 2019-10-28 | 2020-02-11 | 合肥工业大学 | 基于百科知识库和词向量的中文地名语义消歧方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090327877A1 (en) * | 2008-06-28 | 2009-12-31 | Yahoo! Inc. | System and method for disambiguating text labeling content objects |
-
2020
- 2020-06-03 CN CN202010495378.9A patent/CN111797628B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014074317A1 (en) * | 2012-11-08 | 2014-05-15 | Evernote Corporation | Extraction and clarification of ambiguities for addresses in documents |
CN104572992A (zh) * | 2015-01-06 | 2015-04-29 | 武汉工程大学 | 基于多约束推理的互联网地理位置信息规范化方法 |
CN107045532A (zh) * | 2017-01-20 | 2017-08-15 | 中国科学院电子学研究所 | 时空地理空间可视化的分析方法 |
CN108388559A (zh) * | 2018-02-26 | 2018-08-10 | 中译语通科技股份有限公司 | 地理空间应用下的命名实体识别方法及系统、计算机程序 |
CN109614620A (zh) * | 2018-12-10 | 2019-04-12 | 齐鲁工业大学 | 一种基于HowNet的图模型词义消歧方法和系统 |
CN110781670A (zh) * | 2019-10-28 | 2020-02-11 | 合肥工业大学 | 基于百科知识库和词向量的中文地名语义消歧方法 |
Non-Patent Citations (1)
Title |
---|
地名知识辅助的中文地名消歧方法;马雷雷;李宏伟;连世伟;梁汝鹏;龚竞;;地理与地理信息科学;20160715(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111797628A (zh) | 2020-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zheng et al. | Computing with spatial trajectories | |
Zheng et al. | Mining interesting locations and travel sequences from GPS trajectories | |
Chen et al. | Indoor cartography | |
Jiang et al. | Learning from contextual information of geo-tagged web photos to rank personalized tourism attractions | |
Liu et al. | Investigating urban metro stations as cognitive places in cities using points of interest | |
US11216499B2 (en) | Information retrieval apparatus, information retrieval system, and information retrieval method | |
CN110472066A (zh) | 一种城市地理语义知识图谱的构建方法 | |
CN104881472B (zh) | 一种基于网络数据收集的旅游线路景点组合推荐方法 | |
CN106462624A (zh) | 基于图块的地理编码器 | |
CN102915326A (zh) | 一种基于gps和图像搜索技术的移动终端景物辨识系统 | |
JP2021009720A (ja) | 情報検索装置及び情報検索システム | |
CN105117494B (zh) | 模糊语境中的空间实体映射方法 | |
Tammet et al. | Sightsmap: crowd-sourced popularity of the world places | |
Becker et al. | Photowalking the city: Comparing hypotheses about urban photo trails on Flickr | |
Cai et al. | Mining mobility patterns from geotagged photos through semantic trajectory clustering | |
John et al. | Deriving incline values for street networks from voluntarily collected GPS traces | |
CN110597945B (zh) | 城市地铁站域的认知场所特征识别方法及系统 | |
CN108549649B (zh) | 一种基于季节特征和位置特征的乡村旅游推荐方法与系统 | |
Tiwari et al. | Mining popular places in a geo-spatial region based on GPS data using semantic information | |
Hollenstein | Capturing vernacular geography from georeferenced tags | |
CN103226559B (zh) | 用于组合的soi对象与内容的空间信息索引系统 | |
CN111797628B (zh) | 一种基于时间地理学的游记地名消歧方法 | |
Cao et al. | Multi-type and fine-grained urban green space function mapping based on BERT model and multi-source data fusion | |
Dugani et al. | Automated adaptive sequential recommendation of travel route | |
JP7090779B2 (ja) | 情報処理装置、情報処理方法及び情報処理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |