一种基于知识图谱的定性位置空间范围构建方法
技术领域
本发明涉及一种基于知识图谱的定性位置空间范围构建方法,属于地理工程技术领域。
背景技术
目前,传感网、物联网和智能移动终端技术的飞速发展,极大地丰富了人类获取信息的手段和内容,任何人在任何地方都能通过泛在网络获取需要的任何信息。位置是组织、描述和理解现实世界和网络世界中人、事、物之间的关系,实现多时态、多尺度、多层次、多粒度的动态信息融合的重要纽带(朱欣焰,2015;闾国年,2017)。自然语言描述的位置更符合人类的认知习惯,是对常识空间认知的一种最自然的表达方式。目前少部分位置描述以经纬度形式进行定量化表达,更多的位置以地名实体、地址、地名实体与空间关系组合等定性的方式进行描述。例如,今天凌晨在北京南部发生3.5级地震。通常采用地名数据库匹配的方法,或者基于互联网地图,借助地址编码(Geocoding)技术,将自然语言描述的地名实体映射为特定的地理坐标进行空间化表达(Purves,2007)。针对空间大尺度地名、规则地名地址,多数学者采用ArcGIS、Yahoo、Google、百度地图等成熟地理编码软件或者互联网地图服务提供的Geocoding API,结合GIS技术实现位置信息的空间展示(Chasin,2014)。针对不规则地名和详细地名,部分学者通过构建专有地名数据库、地名简称词典、网络地名数据库,并结合现有地理编码软件实现空间位置的地理匹配(张春菊,2013)。然而,自然语言对位置的描述具有定性化、模糊性和不确定性,很难通过GIS进行描述、表达和计算。GIS的大众化必然需要打破专家用户和普通用户之间的障碍,为普通用户提供有效的人机交互方式,具备理解并处理常识性地理空间位置的能力。
目前针对地名的模糊空间建模方法归纳为三类:(1)基于认知实验的位置建模。主要通过问卷形式获取公众对被研究地物模糊性的判断。例如,部分学者以“Santa Barbara城区范围”、“中关村地区”和“司马口范围”等为研究实例(Montello,2003;刘瑜,2008;颜芬,2018),通过设计基于地标的问卷调查,计算每个地标属于“Santa Barbara城区范围”、“中关村地区”和“司马口范围”的隶属度,进而采用支持向量回归方法,得到该要素的隶属度函数,以此来拟合研究区边界和模糊带。虽然认知实验法易于实施,但是需要大量的问卷调查,工作量较大,只适应于个别领域的试验而不支持大规模的推广应用。(2)基于地名共现密度的位置建模。通过签到数据、兴趣点以及网络文本等多源数据的地名点集反映公众对于该地名范围的认同度,通过核密度法、K最邻近法等计算模糊地名的空间范围(Jones,2008;Grothe,2009;黄潇莹,2016)。(3)基于上下文空间关系的位置空间范围构建。自然语言中获取的位置信息在空间参考中进行空间化表达,地名和空间关系是最重要的参考信息。基于RCC模型,构建中文空间关系词汇的语义计算模型,通过简单叠加目标地理实体的上下文空间关系,实现地理实体空间范围的近似表达(
2003;张春菊,2015),但是,上述仅考虑上下文有限的空间关系数量且不符合人类的空间认知规律,不具有实用性。综上,目前自然语言表达的位置空间化方法侧重于采用空间认知实验法或者基于单一空间关系进行模糊空间建模,不符合人类空间认知结果,也无法与信息世界中的地理位置进行有机结合。
知识图谱通过有向图的方式对客观世界中概念、实体、属性及其语义关系进行知识表达,使概念、实体间相互联结,能够提供系统的、深层次的结构化领域知识,将人类知识建构为一种计算机可理解、可计算、可推理的大型语义网络,已成为领域知识管理服务的关键基础设施。泛在地理信息在语义和知识层次透过位置进行深度感知关联。自然语言描述的位置空间范围较为模糊,但是绝大多数情况下依赖于地理实体与属性以及地理实体之间的空间位置关系进行界定。对于某一位置来讲,如果描述它的地理实体以及地理实体之间的关系越多,那么空间范围构建的结果更加精确。得益于泛在地理信息提供的得天独厚的数据资源优势,以及知识图谱技术的快速发展与应用。而本发明能够很好地解决上面的问题。
发明内容
本发明目的在于解决上述现有技术的不足,提供了一种基于知识图谱的定性位置空间范围构建方法,该方法利用泛在地理知识来源,采用信息抽取和知识图谱技术,学习与理解自然语言表达的位置空间语义内容,并产生事实性知识以实现定性位置的空间范围构建,有效解决了GIS对定性化、模糊化和常识性地理空间位置的表达能力问题。
本发明解决其技术问题所采用的技术方案是:一种基于知识图谱的定性位置空间范围构建方法,该方法包括如下步骤:
步骤1:位置知识概念模型构建。
分析地名实体、时间信息、属性信息、地名实体之间的空间关系以及地名实体与属性的关联关系等描述特征,总结位置知识组成内容,构建位置知识概念模型。
步骤2:构建位置信息标注语料库,利用标注的语料库分别对BERT+BiGRU+CRF模型和BERT+BiGRU+CRF模型进行训练,进行文本中地名实体、属性和关系知识抽取,实现文本中位置知识的结构化表达,具体步骤包括:
步骤2-1:基于位置知识概念模型的内容,利用自主开发的地名语料库标注软件对位置信息进行语料标注,构建位置信息标注语料库,将语料按照一定比例划分为训练数据集、测试数据集和验证数据集,为位置知识抽取提供标准的训练和测试数据;
步骤2-2:利用BERT预训练语言模型获取地名实体与属性信息的描述特征,将输入的字符转化为词向量的形式,随后通过BiGRU模型对输入的词向量进行深层次的特征提取,充分学习上下文信息,最后根据CRF模型计算标注序列的概率分布,从而获取文本中所包含的地名实体与属性知识;
步骤2-3:基于标注的语料库,采用PCNN模型进行关系抽取模型的训练,将步骤2-2识别出来的地名实体对或地名实体和属性信息输入到关系抽取模型中,对地名实体之间的空间关系以及地名实体与属性关联关系进行抽取,模型输出为空间关系三元组{地名实体1,空间关系类型,地名实体2}或地名实体与属性的关联关系三元组{地名实体,属性类别,属性值}。
步骤3:采用基于词向量的地名实体消歧方法,对同名、多名和简称等现象进行地名消歧和共指消解,具体步骤包括:
步骤3-1:输入歧义地名所在的文本;
步骤3-2:使用融合通名特征的BERT+BiGRU+CRF模型进行文本中地名实体识别;
步骤3-3:将识别的地名链接到百度地图和百度百科知识库中进行地名消歧,若该地名不存在多个地名义项,则进行步骤3-7,无需消歧,若存在,则进行步骤3-4;
步骤3-4:将歧义地名链接到百度地图和百度百科知识库获取义项地名及其描述文本信息;
步骤3-5:采用词向量模型word2vec,获取歧义地名的词向量表示与义项地名的词向量表示;
步骤3-6:计算歧义地名词向量与义项地名词向量的余弦相似度,余弦值最大者,为歧义地名的最佳义项地名,完成地名消歧;
步骤3-7:将无歧义地名保存到地名数据库。
步骤4:采用图数据库进行位置知识的存储与可视化表达,具体步骤包括:
步骤4-1:位置知识图谱的知识来源包括结构化的地名数据库、POI数据源和文本中抽取的位置知识,文本中抽取的位置知识直接为三元组形式,结构化的地名数据库、POI数据源能够通过数据映射,转化为{地名实体,属性类型,属性值}或{地名实体1,隶属关系,地名实体2}的形式;
步骤4-2:采用图数据库Neo4j对位置知识进行存储与可视化表达,图数据存储的方式采用SPO三元组形式,即使用“<主语,谓语,宾语>”,形成由“点-边”组成的大规模有向图,其中,“点”表示地理概念、地名实体及属性值,“边”表示概念与概念之间的关系、概念与地名实体的关系、地名实体与地名实体间的关系、地名实体与属性的关系、属性与属性值的关系等。每个“属性-属性值”对可用来刻画地名实体的内在特性,而关系可用来连接两个地名实体,刻画它们之间的关联。
步骤4-3:所述步骤4采用图数据库Neo4j对位置知识进行存储与可视化表达中,概念模型形成位置知识图谱的模式层,数据层则由一系列结构化和非结构化数据源抽取的位置相关的事实实例组成,而知识以事实为单位进行存储。
步骤5:基于知识图谱的位置知识查询,主要内容包括:
A1:对于定性位置实体A,基于上述步骤构建的位置知识图谱,查询与位置实体A具有显性与隐性空间关系的其他地名实体,形成位置实体A的空间关系语义网络;
A2:基于上述步骤构建的位置知识图谱,查询位置实体A的属性知识,以及与位置实体A具有关联关系的属性知识,形成位置实体A的结构化语义知识库;
步骤6:基于空间关系语义网络的位置空间范围构建,具体步骤包括:
S1:构建空间关系计算模型,基于九交模型和空间八方向锥形模型,进行基于单一空间关系计算模型的空间范围构建;
S2:将多个单一空间关系计算模型组合在一起,进行多个空间关系对于定性位置空间范围的约束,构建基于复合空间关系计算模型的定性位置空间范围;
S3:基于步骤5位置知识查询形成的位置实体A的空间关系语义网络,按照“方向关系—拓扑关系—距离关系”以及“单一位置模式-复杂位置模式-多层位置模式”的次序进行定性位置空间范围构建,并对计算结果进行融合获得较为粗略的空间范围,包括:
(1)单一位置模式:目标地理实体与其他地理实本只存在一个空间关系;
(2)复杂位置模式:目标地理实体与一个参照地理实体之间存在多种空间关系,或是目标地理实体与多个参照地理实体存在空间关系;
(3)多层嵌套位置模式:层叠式空间关系描述或嵌套空间关系描述,即将一个空间关系实例看作一个位置语义单元,进一步描述该位置表达式与其它实体之间的关系;依靠这种空间关系表达与推理方式,能够补充目标位置的空间位置信息;
步骤7:基于多层次属性约束模型的位置空间范围构建,具体步骤包括:
A1:基于步骤5位置知识查询形成的位置实体A的结构化语义知识库,构建基于时间、属性、地理要素、关系特征的多层次地理属性约束模型,使得位置的空间范围构建结果更加精确,更加逼近现实世界的客观情况以及人们的空间认知结果;
A2:对定性位置的空间范围构建结果,设置空间区域所含有的空间关系数量阈值,将复合空间关系计算模型所得的区域分为核心区域空间范围和边缘区域空间范围。
有益效果:
1、本发明运用信息抽取和知识图谱技术,基于多源结构化和非结构化的泛在地理信息来源,学习与理解自然语言表达的位置空间语义内容,构建位置知识图谱并产生事实性知识,实现了基于知识图谱的定性位置空间范围构建,有效解决了人类对现实世界尚未明确空间范围的模糊性位置认知的问题,为地理知识服务和位置智能感知提供参考。
2、本发明基于模糊、离散、独立的多源位置信息构建位置知识图谱,实现了位置信息的形式化和知识化表达,能够很好地综合多源网络文本所蕴含的丰富语义描述、地理要素、空间关系、属性特征等多层次地理位置知识。
附图说明
图1为本发明的位置知识图谱构建方法流程图。
图2为本发明的位置知识概念模型图。
图3为本发明的BERT+BiGRU+CRF模型结构图。
图4为本发明的定性位置空间范围计算流程图。
具体实施方式
下面结合说明书附图和实施例对本发明创造作进一步详细描述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
如图1至图4所示,本发明提供了一种基于知识图谱的定性位置空间范围构建方法,该方法包括位置知识图谱的构建和定性位置空间范围的构建,该方法包括如下步骤:
步骤1:位置知识图谱的构建。
如图1所示,本发明综合采用已有基础地理信息、地名数据库等高质量、结构化GIS数据源以及泛在网络文本数据,采用自顶向下和自底向上相结合的方法构建位置知识图谱。位置知识图谱的构建主要包括地名实体与属性的识别、地名实体之间的空间关系抽取和地名实体与属性关联关系的抽取、地名消歧与融合以及位置知识图谱的存储和可视化表达。位置知识图谱实现位置信息的形式化和知识化表达,为定性位置的空间范围计算提供网状、结构化的位置语义知识库。
步骤1-1:位置概念模型构建。分析地名实体、时间信息、属性信息、地名实体之间的空间关系以及地名实体与属性的关联关系等描述特征,总结位置知识组成内容,构建位置知识概念模型,如图2所示。
步骤1-2:位置信息语料库的标注。将《中国大百科全书中国地理》语料、《微软》语料、《互联网文本》语料等作为地名实体信息、空间关系、时间信息、属性信息抽取的语料库标注来源。利用自主开发的地名语料库标注软件对位置信息语料进行标注。语料库规模达到100余万字,将语料按8:1:1的比例进行划分训练数据集、测试数据集和验证数据集,用于位置实体、属性和关系信息的识别。
步骤1-3:地名实体与属性知识的识别。利用标注的语料库对BERT+BiGRU+CRF模型进行训练,实现地名实体与属性知识的识别。如图3所示,首先利用BERT预训练语言模型获取地名实体与属性信息的描述特征,将输入的字符转化为词向量的形式,随后通过BiGRU模型对输入的词向量进行深层次的特征提取,充分学习上下文信息,最后根据CRF模型计算标注序列的概率分布,从而确定文本中所包含的地名实体与属性知识。
步骤1-4:地名实体之间的空间关系和地名实体与属性之间的关联关系的抽取。基于标注的语料库,采用PCNN模型进行关系抽取模型的训练,将步骤1-3识别出来的地名实体对或地名实体和属性信息输入到关系抽取模型中,实现地名实体之间的空间关系以及地名实体与属性关联关系抽取,模型输出为空间关系三元组{地名实体1,空间关系类型,地名实体2}或地名实体与属性的关联关系三元组{地名实体,属性类别,属性值}。
步骤1-5:地名实体的消歧。采用基于词向量的地名实体消歧方法,对地名的同名、多名和简称等现象进行消歧和共指消解,具体步骤包括:
S1:输入歧义地名所在的文本;
S2:使用融合通名特征的BERT+BiGRU+CRF模型进行文本中地名实体识别;
S3:将识别的地名链接到百度地图和百度百科知识库中进行地名消歧,若该地名不存在多个地名义项,则进行步骤S7,无需消歧,若存在,则进行步骤S4;
S4:将歧义地名链接到百度地图和百度百科知识库获取义项地名及其描述文本信息;
S5:采用词向量模型word2vec,获取歧义地名的词向量表示与义项地名的词向量表示;
S6:计算歧义地名词向量与义项地名词向量的余弦相似度,余弦值最大者,为歧义地名的最佳义项地名,完成地名消歧;
S7:将无歧义地名结果保存到标准地名数据库。
步骤1-6:位置知识图谱的存储和可视化表达,主要步骤包括:
S1:位置知识图谱的知识来源包括结构化的地名数据库、POI数据源和文本中抽取的位置知识,文本中抽取的位置知识直接为三元组形式,结构化的地名数据库、POI数据源能够通过数据映射,转化为{地名实体,属性类型,属性值}或{地名实体1,隶属关系,地名实体2}的形式;
S2:采用图数据库Neo4j对位置知识进行存储与可视化表达,图数据库存储的方式采用SPO三元组形式,即使用“<主语,谓语,宾语>”,形成由“点-边”组成的大规模有向图,其中,“点”表示地理概念、地名实体及属性值,“边”表示概念与概念之间的关系、概念与地名实体的关系、地名实体与地名实体间的关系、地名实体与属性的关系、属性与属性值的关系等。每个“属性-属性值”对可用来刻画地名实体的内在特性,而关系可用来连接两个地名实体,刻画它们之间的关联。
S3:在步骤S2构建的位置知识图谱中,概念模型形成位置知识图谱的模式层,数据层则由一系列结构化和非结构化数据源抽取的位置相关的事实实例组成,而位置知识以事实为单位进行存储。
步骤2:定性位置空间范围的构建。
如图4所示,基于位置知识图谱的显性与隐性空间关系查询,形成空间关系语义网络,为定性位置的空间范围构建提供地理知识库,可以有效补充目标位置的空间范围。构建基于时间、属性、地理要素、关系特征的多层次地理属性约束模型,使得位置的空间范围构建结果更加精确,更加逼近现实世界的客观情况以及人们的空间认知结果。本发明以“XX步行街”定性位置为例,通过位置知识图谱查询结果,利用空间关系计算模型,实现空间范围的构建。
步骤2-1:基于知识图谱的位置知识查询。首先确定待构建的位置实体“XX步行街”,通过Cypher语言查询步骤1构建的位置知识图谱,得到与位置实体“XX步行街”具有显性与隐性空间关系的地名实体,以及与位置实体“XX步行街”具有关联关系的属性知识,形成位置实体“XX步行街”的结构化语义知识库。具体包括:
(1)位置实体“XX步行街”的属性知识查询;
(2)位置实体“XX步行街”的空间关系查询;
(3)与位置实体“XX步行街”具有空间关系的地名实体查询;
(4)位置实体“XX步行街”与属性关联关系查询。
步骤2-2:构建空间关系计算模型,基于九交模型和空间八方向锥形模型,进行基于单一空间关系计算模型的“XX步行街”空间范围构建。将多个单一空间关系计算模型组合在一起,进行基于多个空间关系对“XX步行街”空间范围的约束,构建基于复合空间关系计算模型的定性位置“XX步行街”空间范围构建。
步骤2-3:按照“方向关系—拓扑关系—距离关系”以及“单一位置模式-复杂位置模式-多层位置模式”的次序进行定性位置“XX步行街”空间范围构建,通过计算结果的融合获得较为粗略的空间范围。具体包括:
(1)单一位置模式:目标地理实体与其他地理实本只存在一个空间关系,例如“XX步行街”位于XX市中部偏西;
(2)复杂位置模式:目标地理实体与一个参照地理实体之间存在多种空间关系,或是目标地理实体与多个参照地理实体存在空间关系,例如“XX步行街”位于XX市中部偏西,XX湖西侧;
(3)多层嵌套位置模式:层叠式空间关系描述或嵌套空间关系描述,即将一个空间关系实例看作一个位置语义单元,进一步描述该位置表达式与其它实体之间的关系;依靠这种空间关系表达与推理方式,可以有效补充目标位置的空间位置信息。例如“XX步行街”位于XX市中部偏西,为瑶海区、包河区和庐阳区交汇处,东为徽州大道北段,往西安门方向,距西安门隧道2千米。
步骤2-4:基于位置概念模型与知识图谱中显性与隐性知识查询,构建基于时间、属性、地理要素、关系特征的多层次地理属性约束模型,使得位置的空间范围构建结果更加精确,更加逼近现实世界的客观情况以及人们的空间认知结果。对定性位置“XX步行街”的空间范围构建结果,设置空间区域所含有的空间关系数量阈值,核心区域所含空间关系数量的阈值设定为该地名所含空间关系总数的80%,边缘区域的阈值设定为60%,将复合空间关系计算模型所得的区域分为核心区域空间范围和边缘区域空间范围。
对于本领域技术人员而言,本发明不限于上述所述的示范性实施例,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及构思加以替换或改变,都应涵盖在本发明技术的保护范围内。