CN116663662B - 基于多源语义网络的地理实体多层次关系构建方法及装置 - Google Patents
基于多源语义网络的地理实体多层次关系构建方法及装置 Download PDFInfo
- Publication number
- CN116663662B CN116663662B CN202310944844.0A CN202310944844A CN116663662B CN 116663662 B CN116663662 B CN 116663662B CN 202310944844 A CN202310944844 A CN 202310944844A CN 116663662 B CN116663662 B CN 116663662B
- Authority
- CN
- China
- Prior art keywords
- geographic
- geographic entity
- entity
- network
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 64
- 239000013598 vector Substances 0.000 claims description 63
- 238000004364 calculation method Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000005259 measurement Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000011524 similarity measure Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 2
- 238000012098 association analyses Methods 0.000 abstract description 6
- 230000008569 process Effects 0.000 abstract description 6
- 238000003860 storage Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000003213 activating effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003973 irrigation Methods 0.000 description 1
- 230000002262 irrigation Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于多源语义网络的地理实体多层次关系构建方法及装置,包括:获取待处理的多个地理实体;从多源语义网络中提取地理实体同名同义的节点及节点关联信息,以构建同名同义关系网;从第一地理实体对应的同名同义关系网中,提取第二地理实体同名同义的节点及节点关联信息,以构建目标实体对关系网;基于目标实体对关系网抽取直接关系;以及,基于第一地理实体、第二地理实体对应的同名同义关系网,确定隐含关系;将直接关系和/或隐含关系,作为实体多层次关系构建结果。本发明可以显著降低构建地理实体关系过程中所需的人工工作量,而且可以挖掘实体间更深层次的隐含关系,从而较好地支撑地理实体关联分析及空间规划决策。
Description
技术领域
本发明涉及地理数据处理技术领域,尤其是涉及一种基于多源语义网络的地理实体多层次关系构建方法及装置。
背景技术
实体对象之间的联动维护、相关分析等应用,都是以关联关系为桥梁完成的。地理实体关系的构建是实体表达的重要组成部分,可用于实现物理世界中实体的相互联动,一方面能够支持各种地理空间分析和决策,如路径规划、灾害评估、地理推荐等;另一方面也为孪生世界的动态关联提供了重要的基础。地理实体间的关联关系是根据实体的空间位置、时间特征、属性特征等形成的,包括语义关系(如隶属关系、组成关系、合作关系等)和空间关系(如拓扑关系、方位关系、距离关系等)。大数据时代之前,地理实体空间关系的计算主要利用基于计算几何的方法,这种方法计算量大、效率低,且无法处理地理文本数据。
随着数据的海量增长,地理实体关系抽取得到了更深入的研究。现有的地理实体关系生成技术包括基于模板匹配、基于机器学习的方法等。其中,基于匹配的方法可解释性强、精度高,但过于依赖专业知识、人工定义模板的可提取特征数少,无法在实际应用中实现关联关系的实时自动构建。基于机器学习的方法增加了可提取的特征数量,但因计算量过大、需要人为提取特征,导致无法投入大规模的工程应用。此外,现有的地理实体关系抽取主要针对实体间的直接关联关系,没有挖掘实体间更深层次的隐含关系,难以支撑地理实体关联分析及空间规划决策。
发明内容
有鉴于此,本发明的目的在于提供一种基于多源语义网络的地理实体多层次关系构建方法及装置,可以显著降低构建地理实体关系过程中所需的人工工作量,而且可以挖掘实体间更深层次的隐含关系,从而较好地支撑地理实体关联分析及空间规划决策。
第一方面,本发明实施例提供了一种基于多源语义网络的地理实体多层次关系构建方法,包括:
获取待处理的多个地理实体;
从多源语义网络中提取所述地理实体同名同义的节点及节点关联信息,以构建所述地理实体对应的同名同义关系网;
对于所述地理实体中的任意两个地理实体,从第一地理实体对应的所述同名同义关系网中,提取第二地理实体同名同义的节点及节点关联信息,以构建所述第一地理实体与所述第二地理实体之间的目标实体对关系网;
基于所述目标实体对关系网抽取所述第一地理实体与所述第二地理实体之间的直接关系;以及,基于所述第一地理实体对应的所述同名同义关系网和所述第二地理实体对应的所述同名同义关系网,确定所述第一地理实体与所述第二地理实体之间的隐含关系;
将所述直接关系和/或所述隐含关系,作为所述第一地理实体与所述第二地理实体之间的实体多层次关系构建结果。
在一种实施方式中,从多源语义网络中提取所述地理实体同名同义的节点及节点关联信息,以构建所述地理实体对应的同名同义关系网,包括:
通过基于图注意力网络的词义消歧模型,从多源语义网络中提取所述地理实体同义的节点及节点关联信息,以构建所述地理实体对应的同义关系网;
通过距离编辑模型,从所述同义关系网中提取所述地理实体同名的节点及节点关联信息,以构建所述地理实体对应的同名同义关系网。
在一种实施方式中,所述词义消歧模型包括实体词向量化单元、图注意力网络单元、相似度计算单元;通过基于图注意力网络的词义消歧模型,从多源语义网络中提取所述地理实体同义的节点及节点关联信息,以构建所述地理实体对应的同义关系网,包括:
通过所述实体词向量化单元,对多源语义网络包含的节点进行词嵌入得到节点词向量;
通过所述图注意力网络单元,提取每个所述节点对应的特征向量;其中,所述特征向量用于表征所述节点的深层语义信息;
通过所述相似度计算单元,基于所述地理实体和每个所述节点对应的所述特征向量,对每个节点进行阈值法筛选,得到所述地理实体同义的节点及节点关联信息,并将所述地理实体同义的节点作为目标节点集合;
以所述地理实体同义的节点、与同义节点直接关联的节点作为关系网节点,以所述地理实体同义节点的关联信息作为关系网边,构建所述地理实体对应的同义关系网。
在一种实施方式中,通过所述图注意力网络单元,提取每个所述节点对应的特征向量,包括:
通过所述图注意力网络单元,基于所述节点词向量确定任意两个节点之间的相似性度量;
对任意两个节点之间的所述相似性度量进行正则化处理和归一化处理,得到任意两个节点之间的注意力系数;
通过激活函数,基于所述注意力系数对一阶邻近节点特征进行加权求和,得到每个所述节点对应的特征向量。
在一种实施方式中,通过所述相似度计算单元,基于所述地理实体和每个所述节点对应的所述特征向量,对每个所述节点进行阈值法筛选,得到所述地理实体同义的节点及节点关联信息,并将所述地理实体同义的节点作为目标节点集合,包括:
通过所述相似度计算单元,基于每个所述节点对应的所述特征向量,计算所述地理实体和每个所述节点之间的语义相似度;
对于每个所述节点,如果该节点对应的所述语义相似度不小于语义相似度阈值,则将该节点作为目标节点集合。
在一种实施方式中,通过距离编辑模型,从所述同义关系网中提取所述地理实体同名的节点及节点关联信息,以构建所述地理实体对应的同名同义关系网,包括:
通过所述距离编辑模型,确定所述目标节点集合中每个节点与所述地理实体之间的名称相似度;
对于所述目标节点集合中每个节点,如果该节点对应的所述名称相似度小于1,则将该节点确定为所述地理实体对应的异名同义节点;如果该节点对应的所述名称相似度等于1,则将该节点确定为所述地理实体对应的同名同义节点;
将所述同义关系网中,所述同名同义节点的节点关联信息与所述异名同义节点的节点关联信息合并,并将合并后节点关联信息中的重复关系信息剔除,得到所述地理实体对应的同名同义关系网。
在一种实施方式中,基于所述第一地理实体对应的所述同名同义关系网和所述第二地理实体对应的所述同名同义关系网,确定所述第一地理实体与所述第二地理实体之间的隐含关系,包括:
基于所述第一地理实体对应的所述同名同义关系网中除所述第一地理实体之外的节点,构建第一相邻节点集合;基于所述第二地理实体对应的所述同名同义关系网中除所述第二地理实体之外的节点,构建第二相邻节点集合;
通过结构相似度函数,基于所述第一相邻节点集合和所述第二相邻节点集合,确定所述第一地理实体与所述第二地理实体之间的结构相似度值;
判断所述结构相似度值是否不小于结构相似度阈值;
如果是,确定所述第一地理实体与所述第二地理实体之间的隐含关系为类属关系;
如果否,基于所述第一地理实体对应的所述同名同义关系网的语义信息和所述第二地理实体对应的所述同名同义关系网的语义信息,确定所述第一地理实体与所述第二地理实体之间的隐含关系。
在一种实施方式中,基于所述第一地理实体对应的所述同名同义关系网的语义信息和所述第二地理实体对应的所述同名同义关系网的语义信息,确定所述第一地理实体与所述第二地理实体之间的隐含关系,包括:
分别对所述第一地理实体对应的所述同名同义关系网中的节点、所述第二地理实体对应的所述同名同义关系网中的节点进行向量化,得到向量矩阵;
通过图卷积网络提取所述向量矩阵的语义信息,并基于所述语义信息确定每个所述候选隐含关系对应的概率值;
基于每个所述概率值从所述候选隐含关系中,确定所述第一地理实体与所述第二地理实体之间的目标隐含关系。
第二方面,本发明实施例还提供一种基于多源语义网络的地理实体多层次关系构建装置,包括:
实体获取模块,用于获取待处理的多个地理实体;
第一关系网构建模块,用于从多源语义网络中提取所述地理实体同名同义的节点及节点关联信息,以构建所述地理实体对应的同名同义关系网;
第二关系网构建模块,用于对于所述地理实体中的任意两个地理实体,从第一地理实体对应的所述同名同义关系网中,提取第二地理实体同名同义的节点及节点关联信息,以构建所述第一地理实体与所述第二地理实体之间的目标实体对关系网;
关系确定模块,用于基于所述目标实体对关系网抽取所述第一地理实体与所述第二地理实体之间的直接关系;以及,基于所述第一地理实体对应的所述同名同义关系网和所述第二地理实体对应的所述同名同义关系网,确定所述第一地理实体与所述第二地理实体之间的隐含关系;
结果确定模块,用于将所述直接关系和/或所述隐含关系,作为所述第一地理实体与所述第二地理实体之间的实体多层次关系构建结果。
第三方面,本发明实施例还提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现第一方面提供的任一项所述的方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现第一方面提供的任一项所述的方法。
本发明实施例提供的一种基于多源语义网络的地理实体多层次关系构建方法及装置,首先获取待处理的多个地理实体,然后从多源语义网络中提取地理实体同名同义的节点及节点关联信息,以构建地理实体对应的同名同义关系网;然后,对于地理实体中的任意两个地理实体,从第一地理实体对应的同名同义关系网中,提取第二地理实体同名同义的节点及节点关联信息,以构建第一地理实体与第二地理实体之间的目标实体对关系网;然后,基于目标实体对关系网抽取第一地理实体与第二地理实体之间的直接关系,以及,基于第一地理实体对应的同名同义关系网和第二地理实体对应的同名同义关系网,确定第一地理实体与第二地理实体之间的隐含关系;最后将直接关系和/或隐含关系,作为第一地理实体与第二地理实体之间的实体多层次关系构建结果。上述方法提供了一种完整的基于多源语义网络构建地理实体关联关系的流程,可以支持多种地理信息应用,为地理空间分析和决策提供了重要的基础;另外,本发明实施例基于多源语义网络构建同名同义关系网,并在此基础上构建目标实体对关系网,从而基于目标实体对关系网和同名同义关系网确定地理实体之间的多层次关系,包括直接关系和隐含关系。本发明实施例不仅可以显著降低构建地理实体关系过程中所需的人工工作量,而且可以挖掘实体间更深层次的隐含关系,从而较好地支撑地理实体关联分析及空间规划决策。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于多源语义网络的地理实体多层次关系构建方法的流程示意图;
图2为本发明实施例提供的一种地理实体的同义关系网集合;
图3为本发明实施例提供的一种地理实体的同名同义关系网;
图4为本发明实施例提供的另一种基于多源语义网络的地理实体多层次关系构建方法的流程示意图;
图5为本发明实施例提供的一种基于多源语义网络的地理实体多层次关系构建装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,现有的地理实体关系生成技术包括基于模板匹配、基于机器学习的方法,但是上述方法存在人工工作量较大、无法挖掘实体间更深层次的隐含关系等问题。
语义网络具有数据多源、信息丰富的特点,为地理实体关系抽取提供了一种新的解决思路。语义网络通过从冗余的数据与知识文本中抽取有用信息,有效表达了实体之间的内在关联,并以结构化的形式进行可视化显示。目前,语义网络已广泛应用于搜索引擎、智能问答、个性化推荐及辅助决策等场景,构建了多种专业领域的大型语义网络数据集,如金融领域FR2KG、医学领域DiaKG、电商领域AliCoCo2、地理领域LinkedGeoData等,利用现有的语义网络数据集可以实现多种领域的实体关系抽取。
基于此,本发明实施提供了一种基于多源语义网络的地理实体多层次关系构建方法及装置,可以显著降低构建地理实体关系过程中所需的人工工作量,而且可以挖掘实体间更深层次的隐含关系,从而较好地支撑地理实体关联分析及空间规划决策。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种基于多源语义网络的地理实体多层次关系构建方法进行详细介绍,参见图1所示的一种基于多源语义网络的地理实体多层次关系构建方法的流程示意图,该方法主要包括以下步骤S102至步骤S110:
步骤S102,获取待处理的多个地理实体。其中,地理实体的数量为至少两个。
步骤S104,从多源语义网络中提取地理实体同名同义的节点及节点关联信息,以构建地理实体对应的同名同义关系网。其中,同义是指现有多源语义网络中节点所对应对象和地理实体的名称文本一致或二者名称的文本表述不同,但代表同一个实体,如“喜马拉雅山脉”与“喜马拉雅山”为同义实体。异义是指多源语义网络中节点所对应对象和地理实体的名称文本一致,但二者表示不同的实体,如武汉一中和武汉实验中学都含有名为“逸夫楼”的子实体,但二者的属性和关系信息可能完全不同。同名同义也即节点所对应对象和地理实体的名称文本一致,且代表同一个实体。
在一种实施方式中,可以先从多源语义网络中提取地理实体同义的节点及节点关联信息,以构建地理实体对应的同义关系网,再从同义关系网中提取地理实体同名的节点及节点关联信息,以构建地理实体对应的同名同义关系网。同名同义关系网中包括地理实体的同名同义节点、各同名同义节点所关联的节点及关系信息。
步骤S106,对于地理实体中的任意两个地理实体,从第一地理实体对应的同名同义关系网中,提取第二地理实体同名同义的节点及节点关联信息,以构建第一地理实体与第二地理实体之间的目标实体对关系网。其中,目标实体对关系网包括第一地理实体、第二地理实体同名同义的节点及关系信息。
在一种实施方式中,可以从第一地理实体同名同义的节点所关联的节点中,提取出第二地理实体同名同义的节点,以构建第一地理实体与第二地理实体之间的目标实体对关系网,也即目标实体对关系网中的一部分节点与第一地理实体同名同义,另一部分节点与第二地理实体同名同义。
步骤S108,基于目标实体对关系网抽取第一地理实体与第二地理实体之间的直接关系;以及,基于第一地理实体对应的同名同义关系网和第二地理实体对应的同名同义关系网,确定第一地理实体与第二地理实体之间的隐含关系。其中,隐含关系可以包括类属关系或其他隐含关系,类属关系可以包括第一地理实体与第二地理实体属于同一类实体,诸如第一地理实体为办公楼,第二地理实体为教学楼,两者即为同类关系。
在一种实施方式中,可以直接从目标实体对关系网中抽取第一地理实体与第二地理实体之间的直接关系;可以根据第一地理实体与第二地理实体之间的结构相似度,确定提取第一地理实体和第二地理实体之间的隐含关系所采用的方式,具体的,如果结构相似度值不小于结构相似度阈值,则确定第一地理实体与第二地理实体之间的隐含关系为类属关系;如果结构相似度值小于结构相似度阈值,则基于第一地理实体对应的同名同义关系网的语义信息和第二地理实体对应的同名同义关系网的语义信息,确定第一地理实体与第二地理实体之间的隐含关系。
步骤S110,将直接关系和/或隐含关系,作为第一地理实体与第二地理实体之间的实体多层次关系构建结果。
在一种实施方式中,基于抽取的地理实体对关联关系构建直接关系三元组和/或隐含关系三元组,可以直接将直接关系和/或隐含关系,作为第一地理实体与第二地理实体之间的实体多层次关系构建结果。
本发明实施例提供了一种完整的基于多源语义网络构建地理实体关联关系的流程,可以支持多种地理信息应用,为地理空间分析和决策提供了重要的基础;另外,本发明实施例基于多源语义网络构建同名同义关系网,并在此基础上构建目标实体对关系网,从而基于目标实体对关系网和同名同义关系网确定地理实体之间的多层次关系。本发明实施例不仅可以显著降低构建地理实体关系过程中所需的人工工作量,而且可以挖掘实体间更深层次的隐含关系,从而较好地支撑地理实体关联分析及空间规划决策。
为便于理解,本发明实施例提供了一种基于多源语义网络的地理实体多层次关系构建方法的具体实施方式。
对于前述步骤S104,本发明实施例提供了一种从多源语义网络中提取地理实体同名同义的节点及节点关联信息,以构建地理实体对应的同名同义关系网的实施方式,参见如下步骤a至步骤b:
步骤a,通过基于图注意力网络的词义消歧模型,从多源语义网络中提取地理实体同义的节点及节点关联信息,以构建地理实体对应的同义关系网。
在一种实施方式中,构建基于图注意力网络的词义消歧模型,以连续向量表示的方式提取与每个地理实体同义的节点及节点关联信息,实现同义关系网的构建。其中,词义消歧模型包括实体词向量化单元、图注意力网络单元、相似度计算单元,具体的:实体词向量化单元的输入为多源语义网络,输出为节点词向量;图注意力单元的输入为节点词向量和邻接矩阵,输出为多源语义网络中每个节点的特征向量,该特征向量用于表征节点的深层语义信息;相似度计算单元的输入为地理实体和每个节点的特征向量,输出为目标节点集合,该目标节点集合包括地理实体同义的节点。
示例性的,假设共获取两个地理实体,也即包括第一地理实体A和第二地理实体B,则需要将多源语义网络、第一地理实体A、第二地理实体B输入至词义消歧模型,以得到第一地理实体的同义关系网集合和第二地理实体的同义关系网集合。
在此基础上,本发明实施例提供了一种构建同义关系网的实施方式,可以首先利用实体词向量化单元将多源语义网络中的节点表示为向量,然后利用图注意力网络单元获取节点的深层语义信息,并基于相似度计算模块提取与地理实体同义的节点及节点关联信息。最后利用图数据库Neo4j构建地理实体的同义关系网。
在具体实现时,可以参见如下步骤a1至步骤a4:
步骤a1,通过实体词向量化单元,对多源语义网络包含的节点进行词嵌入得到节点词向量。
在一种实施方式中,为了使多源语义网络中节点信息转换为计算机可处理的数值表示,首先需要对多源语义网络中的节点进行词向量化。本发明实施例利用Word2vec词嵌入技术将节点信息表示为连续、密集的向量,其中向量中的每个维度均包含了实体的语义信息和上下文信息。
步骤a2,通过图注意力网络单元,提取每个节点对应的特征向量。
在一种实施方式中,图注意力网络适用于不同类型的图数据,具有上下文感知能力、结合多种信息源能力(包括节点属性、关系属性和全局图特征),是目前处理图结构化数据的主流方法。本发明实施例采用图注意力网络单元获取多源语义网络中节点的深层语义信息。
在一种具体的实施方式中,可以参见如下步骤a2-1至步骤a2-3:
步骤a2-1,通过所述图注意力网络单元,基于所述节点词向量确定任意两个节点之间的相似性度量。
在一例中,图注意力网络单元的输入为词嵌入后的语义网络,其一系列节点用词向量表示,节点间的关联关系用邻接矩阵表示。其中,n表示节点数量,F是每个节点的词向量的维度。图注意力网络单元通过计算节点之间的相似性度量获取注意力系数,然后基于注意力系数利用注意力机制对一阶邻近节点特征进行加权求和得到节点的深层语义信息。
在一例中,可以利用如下公式确定任意两个节点之间的相似性度量:
;
其中,表示节点j的词向量对节点i的词向量之间的相似性度量,W为权值矩阵,初始化为随机值。
步骤a2-2,对任意两个节点之间的相似性度量进行正则化处理和归一化处理,得到任意两个节点之间的注意力系数。
在一例中,本申请采用softmax函数对所有的节点进行归一化,并利用LeakyReLU非线性函数进行正则化,其公式如下:
;
;
其中,为注意力系数;为多源语义网络中节点i的所有相邻节点,在本发明实施例中只包含i的一阶邻近点;k为节点i任一相邻节点,和为节点的词向量,为注意参数向量,初始值为随机取值。
步骤a2-3,通过激活函数,基于所述注意力系数对一阶邻近节点特征进行加权求和,得到每个节点对应的特征向量。
在一例中,计算注意力系数后,利用如下公式获取每个节点的输出特征向量,该特征向量蕴含语义网络中节点的深层语义信息。
;
其中,X为每个节点的特征向量,为激活函数。
步骤a3,通过相似度计算单元,基于地理实体和多源语义网络中每个节点对应的特征向量,对每个节点进行阈值法筛选,得到地理实体同义的节点及节点关联信息,并将地理实体同义的节点作为目标节点集合。
在一种实施方式中,基于语义网络中节点的深层语义信息,利用余弦相似度公式,计算地理实体与多源语义网络中节点的语义相似度值;然后对语义相似度值进行正序排序,并设置一定的相似度阈值,选取不小于阈值的节点作为相似度计算单元的输出结果。基于相似度计算单元输出结果提取地理实体同义节点、与地理实体同义节点直接关联的节点及关系信息,将同义节点作为目标节点集合。
在一种具体的实施方式中,可以按照如下步骤a3-1至步骤a3-2确定目标节点集合:
步骤a3-1,通过相似度计算单元,基于多源语义网络中每个节点对应的特征向量,计算地理实体和每个节点之间的语义相似度。
在一例中,可以采用余弦相似度公式,计算地理实体和每个节点之间的语义相似度,余弦相似度计算公式如下:
;
其中,代表多源语义网络中节点信息的n维向量化表达,代表地理实体的n维向量化表达,P是多源语义网络中节点与地理实体的语义相似度。
示例性的,可以将第一地理实体A和多源语义网络中每个节点对应的特征向量输入至相似度计算单元,以通过相似度计算单元确定第一地理实体A和每个节点之间的语义相似度;同理,可以将第二地理实体B和多源语义网络中每个节点对应的特征向量输入至相似度计算单元,以通过相似度计算单元确定第二地理实体B和每个节点之间的语义相似度。
步骤a3-2,对于多源语义网络中每个节点,如果该节点对应的语义相似度不小于语义相似度阈值,则将该节点作为目标节点集合。
在一例中,如果某个节点与地理实体之间的语义相似度不小于语义相似度阈值,则确定该节点属于目标节点集合。
示例性的,将与第一地理实体A之间的语义相似度不小于语义相似度阈值的节点构建为第一地理实体A对应的目标节点集合;同理,将与第二地理实体B之间的语义相似度不小于语义相似度阈值的节点构建为第二地理实体B对应的目标节点集合。
步骤a4,以地理实体同义的节点、与同义节点直接关联的节点作为关系网节点,以地理实体同义节点的关联信息作为关系网边,构建地理实体对应的同义关系网。
在一例中,将步骤a3提取的地理实体同义节点、与其直接关联的节点导入图数据库Neo4j中作为关系网的节点;将节点之间的关联关系导入图数据库作为关系网的边,即可实现关系网的构建。构建的同义关系网包含节点属性信息、关联关系属性信息。
例如构建目标地理实体“北京”的同义关系网集合。已获取的多源语义网络中每个节点蕴含多种属性信息。其中,节点“北京”的属性信息包括“实体名称:北京,人口数量:2154万,面积:16410.54m2,经纬度:39.9042°N、116.4074°E”等;节点“北京市”的属性包括“实体名称:北京市,人口数量:2154万,面积:16410.54m2,经纬度:39.9042°N、116.4074°E”等;节点“京”的属性包括“实体名称:京,人口数量:2154万,面积:16410.54m2,经纬度:39.9042°N、116.4074°E”等。此外,语义网络中可能存在与城市“北京”名称相同,但指代实体不同的情况。利用步骤a1至步骤a4获取语义网络中的上下文信息,提取目标地理实体“北京”的同义节点及其关系信息。将地理实体“北京”同义节点、与其直接关联的节点、节点之间的关联关系以CSV文件导入图数据库Neo4j中作为关系网的节点及关系边,最终构建目标地理实体“北京”的同义关系网集合,诸如图2所示的一种地理实体的同义关系网集合。
综上步骤a1至a4,针对第一地理实体A:首先利用词嵌入技术将多源语义网络中的节点信息表示为连续、密集的向量,并利用图注意力网络获取节点的深层语义信息,接着计算第一目标实体A与多源语义网络中节点的语义相似度值,将语义相似度值进行正序排序,并预先设置相似度阈值,选取不小于阈值的节点作为模型的输出结果,提取第一地理实体A同义节点、与其直接关联的节点及关系信息,将同义节点作为目标节点集合,最后基于图数据库构建同名关系网集合,构建的同义关系网集合包含节点属性信息、关联关系属性信息。
同理,针对第二地理实体B:首先利用词嵌入技术将多源语义网络中的节点信息表示为连续、密集的向量,并利用图注意力网络获取节点的深层语义信息,接着计算第二地理实体B与多源语义网络中节点的语义相似度值,将语义相似度值进行正序排序,并预先设置相似度阈值,选取不小于阈值的节点作为模型的输出结果,提取第二地理实体B同义节点、与其直接关联的节点及关系信息,将同义节点作为目标节点集合,最后基于图数据库构建同义关系网集合。
进一步的,对于前述词义消歧模型,本发明实施例还提供了一种训练词义消歧模型的实施方式,首先获取包括多源语义网络及其节点标签的训练样本;然后随机初始化词义消歧模型参数,并将样本中的语义网络数据输入至初始模型,得到预测的语义相似度值;最后基于预测的语义相似度值和训练样本中的标签数据构建交叉熵损失函数,对模型进行迭代优化。通过不断迭代优化提高语义相似度精度。损失函数如下式所示:
;
其中,N为模型每次迭代输入的图谱数;M表示图谱中节点的数目;为人工标注的样本类别,即与地理实体同义的标注为1,反之标注为0;为模型输出的语义相似度值。
步骤b,通过距离编辑模型,从同义关系网中提取地理实体同名的节点及节点关联信息,以构建地理实体对应的同名同义关系网。
其中,异名同义是指目标节点集合中的节点和地理实体代表的虽是同一个实体,但二者名称的文本表述不同。
本发明实施例提供了一种构建地理实体对应的同名同义关系网的具体实施方式,参见如下步骤b1至步骤b3:
步骤b1,通过距离编辑模型,确定目标节点集合中每个节点与地理实体之间的名称相似度。
在一例中,首先计算目标节点集合中所有节点与地理实体之间的名称相似度。在计算相似度之前对数据进行预处理,减少噪声,统一实体名称表现形式。本发明实施例采用距离编辑模型计算节点与地理实体之间的名称相似度,其计算公式如下:
;
其中,s和t表示两个实体的名称,表示名称相似度,表示名称的最小编辑距离,表示两个名称字符串长度中的较大值。
例如“喜马拉雅山脉”和“喜马拉雅”两个字符串指代相同,若将“喜马拉雅山脉”转化为“喜马拉雅”,最小编辑距离为2,则“喜马拉雅山脉”和“喜马拉雅”的名称相似度为2/3。
示例性的,按照上述公式计算目标节点集合中所有节点与第一地理实体A之间的名称相似度;同理,按照上述公式计算目标节点集合中所有节点与第二地理实体B之间的名称相似度。
步骤b2,对于目标节点集合中每个节点,如果该节点对应的名称相似度小于1,则将该节点确定为地理实体对应的异名同义节点;如果该节点对应的名称相似度等于1,则将该节点确定为地理实体对应的同名同义节点。
在一种实施方式中,根据名称相似度结果,明确是否为地理实体的同名节点。若计算的名称相似度值为1,则表明节点与地理实体同名同义;若计算的名称相似度值在01之间,表明节点与地理实体异名同义,则在图数据库更新地理实体异名节点,保留节点间的关系。
步骤b3,将同义关系网中,同名同义节点的节点关联信息与异名同义节点的节点关联信息合并,并将合并后节点关联信息中的重复关系信息剔除,得到地理实体对应的同名同义关系网。
在一种实施方式,可以采用基于规则的方法剔除重复关系信息,最终在图数据库中实现同名同义关系网的构建,包括第一地理实体A的同名同义关系网和第二地理实体B的同名同义关系网。
例如构建地理实体“北京”的同名同义关系网。基于已构建的地理实体“北京”的同义关系网集合,利用距离编辑模型计算关系网集合中所有节点与地理实体“北京”的名称相似度。其中,节点“北京”的相似度为1,节点“北京市”的相似度为2/3,节点“京”的相似度为1/2。将相似度值在01的节点“北京市”及“京”进行更新,并保留节点间的关联关系,最后基于预先设定规则的剔除5条重复关系,实现目标地理实体“北京”的同名同义关系网的构建,诸如图3所示的一种地理实体的同名同义关系网。
综上步骤b1至步骤b3,针对第一地理实体A:采用距离编辑模型计算目标节点集合中节点与第一地理实体A之间的名称相似度。根据名称相似度结果,明确是否为第一地理实体A的同名节点。在图数据库中将同义关系网集合与第一地理实体A异名的节点名称更新为第一地理实体A的名称,并保留节点间的关系。最后,采用基于规则的方法将重复关系信息进行剔除,最终实现同名同义关系网的构建。
同理,针对第二地理实体B:采用距离编辑模型计算目标节点集合中节点与第二地理实体B之间的名称相似度。根据名称相似度结果,明确是否为第二地理实体B的同名节点。在图数据库中将同义关系网集合与第二地理实体B异名的节点名称更新为第二地理实体B的名称,并保留节点间的关系。最后采用基于规则的方法将重复关系信息进行剔除,最终实现同名同义关系网的构建。
对于前述步骤S106,本发明实施例提供了一种从第一地理实体对应的同名同义关系网中,提取第二地理实体同名同义的节点及节点关联信息,以构建第一地理实体与第二地理实体之间的目标实体对关系网的实施方式,参见如下步骤c1至步骤c2:
步骤c1,采用步骤a1至步骤a4中余弦相似度公式计算同名同义关系网中节点与第二地理实体B的语义相似度。根据预先设定的阈值,明确同名同义关系网的节点是否为第二地理实体B的同义节点。若相似度值不小于设定的阈值,则该节点为同义节点,提取该同义节点、与其直接关联的节点及节点之间的关系信息,并将同义节点作为目标节点集合。最后,基于第一地理实体A节点、第二地理实体B同义节点及关联信息利用图数据库构建关系网。
步骤c2,采用步骤b1至步骤b3中距离编辑模型计算目标节点集合中节点与第二地理实体B之间的名称相似度。根据名称相似度结果,明确是否为第二地理实体B的同名节点。在图数据库中更新第二地理实体B异名节点,并保留节点间的关系。最后,采用基于规则的方法在图数据库中剔除重复关系信息,最终实现目标实体对关系网的构建。
对于前述步骤S108,本发明实施例提供了一种确定第一地理实体与第二地理实体之间的直接关系和隐含关系的实施方式,可以基于目标实体对关系网抽取地理实体对<A,B>间的直接关系,联合结构相似度、图卷积网络模型基于同名同义关系网及同名同义关系网计算地理实体对<A,B>间的隐含关系,最终实现地理实体对<A,B>之间关联关系的构建。其中,直接关系和隐含关系又可分为方位关系、距离关系、类属关系等。
(一)抽取直接关系:基于目标实体对关系网可直接获取第一地理实体A、第二地理实体B之间的直接关系,并形成“实体A,关系,实体B”三元组。第一地理实体A、第二地理实体B之间存在一种或多种关联关系,从而形成一种或多种三元组信息。
例如第一地理实体A(北京)、第二地理实体B(上海)之间的关系网包含多条边,可以直接抽取第一地理实体A、第二地理实体B间的关联关系,形成关系三元组<北京,连通关系,上海>、<北京,东南方,上海>、<北京,合作关系,上海>。
(二)确定隐含关系:由于通过爬虫算法、统计分析等多种方式获取的语义网络数据质量有高有低,现有数据中可能不存在直接关联第一地理实体A、第二地理实体B的关系信息。本发明实施例利用结构相似度和图卷积网络计算目标地理实体对<A,B>间的隐含关系。
在具体实现时,可以参见如下步骤d1至步骤d5:
步骤d1,基于第一地理实体对应的同名同义关系网中除第一地理实体之外的节点,构建第一相邻节点集合;基于第二地理实体对应的同名同义关系网中除第二地理实体之外的节点,构建第二相邻节点集合。
步骤d2,通过结构相似度函数,基于第一相邻节点集合和第二相邻节点集合,确定第一地理实体与第二地理实体之间的结构相似度值。
在一种实施方式中,结构相似度是计算两个节点之间实例与实例的相似程度,可以通过比较两个节点与其相邻节点之间的网络结构计算两个节点的相似程度。结构相似度的函数表示如下:
;
其中,表示第一地理实体A、第二地理实体B之间的结构相似度值,第一地理实体A相邻的节点集合表示为,第二地理实体B相邻的节点集合表示为。其中,k 。
步骤d3,判断结构相似度值是否不小于结构相似度阈值。如果是,执行步骤d4;如果否,执行步骤d5。
步骤d4,确定第一地理实体与第二地理实体之间的隐含关系为类属关系。
在一种实施方式中,根据预先设定的结构相似度阈值,明确关系网中第一地理实体A、第二地理实体B是否为同类。若计算的相似度值不小于设定的阈值,则表明第一地理实体A、第二地理实体B为同类,获取第一地理实体A、第二地理实体B之间的类属关系,并形成类属关系三元组。
例如第一地理实体A为办公楼,第二地理实体B为教学楼,第一地理实体A关系网中存在<办公楼,属于,建筑>、<办公楼,相离,和平路>、<办公楼,南方,图书馆>、<办公楼,相邻,公园>多种关系,第二地理实体B关系网存在<教学楼,属于,建筑>、<教学楼,相离,行政楼>、<教学楼,北方,餐厅>、<教学楼,位于,武汉市>多种关系,通过结构相似度计算第一地理实体A、第二地理实体B间的相似度为0.832,大于预先设定的阈值,则第一地理实体A、第二地理实体B之间的存在类属关系,即<办公楼,同类关系,教学楼>。
步骤d5,基于第一地理实体对应的同名同义关系网的语义信息和第二地理实体对应的同名同义关系网的语义信息,确定第一地理实体与第二地理实体之间的隐含关系。
在一种实施方式中,若计算的结构相似度小于阈值,则表明第一地理实体A、第二地理实体B属于不同类,本申请采用图卷积网络(GCN)获取同名同义关系网及同名同义关系网的语义信息,实现第一地理实体A、第二地理实体B之间的隐含关系的计算。
具体实现时,可以参见如下步骤d5-1至步骤d5-3:
步骤d5-1,分别对第一地理实体对应的同名同义关系网中的节点、第二地理实体对应的同名同义关系网中的节点进行向量化,得到向量矩阵。
在一种实施方式中,可以利用知识图谱嵌入技术将同名同义关系网及同名同义关系网中的节点进行向量化,表示为。其中,实体向量,R为边的集合。
步骤d5-2,通过图卷积网络提取向量矩阵的语义信息。
在一种实施方式中,图卷积网络输入层为向量矩阵,通过网络训练获取关系网的语义信息。图卷积网络信息传递公式如下所示:
;
其中,为图卷积网络中的ReLU激活函数,是相邻节点索引,是边的归一化常数,是实体向量在隐藏层中第层的值,是第层的学习参数。
步骤d5-3,基于语义信息得到每个候选隐含关系的概率值,并从候选隐含关系中,基于概率值确定第一地理实体与第二地理实体之间的目标隐含关系。
在一种实施方式中,由于关系推理是预测关系网中不存在的关系边,在进行图卷积计算后,首先利用Softmax函数计算候选隐含关系的概率值,并设置阈值,若最大概率值不小于阈值,则第一地理实体与第二地理实体之间存在隐含关系,反之不存在隐含关系。
若存在隐含关系,则概率值最大的候选隐含关系为第一地理实体与第二地理实体之间的目标隐含关系。
Softmax函数如下所示:
;
;
其中,c为地理实体A、B之间的候选关系数量,为实体A、B在图卷积网络最终输出层的值,为实体A、B之间第i个关系的概率值。
示例性的,第一地理实体A为黄河,第二地理实体B为山东,第一地理实体A关系网中存在<黄河,流经,济南>、<黄流,支流,汾河>、<黄流,流经,德州市>、<黄流,灌溉,农田>多种关系,第二地理实体B关系网存在<山东,行政包含,济南>、<山东,相邻,河北>、<山东,合作关系,上海>、<山东,包含,孔庙>多种关系,利用图卷积网络获取第一地理实体A、第二地理实体B关系网的深层语义信息,并计算黄河、山东两个实体候选关系的概率值。其中最高的为“流经”关系,且概率值大于预设的阈值,即黄河、山东两个地理实体间的隐含关系为<黄河,流经,山东>。
综上所述,本发明实施例提供的基于多源语义网络的地理实体多层次关系构建方法,至少具有以下特点:
(1)本发明实施例提供了完整的基于多源语义网络构建地理实体关联关系的流程,可以支持各种地理信息应用,为地理空间分析和决策提供了重要的基础。
(2)本发明实施例构建了基于图注意力网络的词义消歧模型,可以深层次的获取语义网络中实体的上下文信息,支撑地理实体关系网的构建。
(3)本发明实施例利用多源语义网络数据多样性、高维度的特点,挖掘实体潜在的语义信息、上下文信息及关联结构信息,实现地理实体多层次关系的构建。
为便于理解,本发明实施例提供了另一种基于多源语义网络的地理实体多层次关系构建方法,本发明实施例基于现有的语义网络数据多源、信息丰富的特点,采用结构相似度与图神经网络方法,计算地理实体之间的多层次关系,包含直接关系和隐含关系,为地理实体关联分析及空间规划决策提供支持。具体的,参见图4所示的另一种基于多源语义网络的地理实体多层次关系构建方法的流程示意图,该方法主要包括以下步骤S402至步骤S410:
步骤S402,基于图注意力网络的词义消歧模型提取与头实体同义的节点及其关联信息,构建头实体同义关系网集合。其中,头实体也即前述第一地理实体。具体的,构建基于图注意力网络的词义消歧模型,以连续向量表示的方式提取与第一地理实体A同义的节点及其关联信息,实现同义关系网集合的构建。
步骤S404,基于距离编辑模型提取同义关系网集合中头实体的同名节点及其关联信息,构建头实体同名同义关系网。具体的,基于同义关系网集合利用距离编辑模型提取第一地理实体A同名节点及其关联信息,构建第一地理实体A同名同义关系网。
步骤S406,基于头实体同名同义关系网,通过余弦相似度及距离编辑模型构建目标实体对关系网。具体的,通过余弦相似度和距离编辑模型,基于同名同义关系网提取第二地理实体B同名同义节点及其关联信息,构建目标实体对关系网。
步骤S408,联合图注意力网络的词义消歧模型及距离编辑模型基于多源语义网络构建尾实体同名同义关系网。具体的,基于词义消歧模型与距离编辑模型,从多源语义网络中提取第二地理实体B同名同义节点及其关联信息,构建第二地理实体B同名同义关系网。
步骤S410,基于目标实体对关系网抽取实体间的直接关系,联合结构相似度及图卷积网络模型计算实体间的隐含关系,最终实现地理实体对之间多层次关系的构建。具体的,基于目标实体对关系网抽取地理实体对<A,B>间的直接关系,联合结构相似度、图卷积网络模型基于同名同义关系网及同名同义关系网计算地理实体对<A,B>间的隐含关系,最终实现地理实体对<A,B>之间关联关系的构建。
综上所述,本发明实施例利用多源语义网络数据多样性、高维度的特点,挖掘实体潜在的语义信息、关联结构信息,实现了地理实体之间多层次关系的构建,为地理空间分析和决策提供了重要的基础。
对于前述实施例提供的基于多源语义网络的地理实体多层次关系构建方法,本发明实施例提供了一种基于多源语义网络的地理实体多层次关系构建装置,参见图5所示的一种基于多源语义网络的地理实体多层次关系构建装置的结构示意图,该装置主要包括以下部分:
实体获取模块502,用于获取待处理的多个地理实体;
第一关系网构建模块504,用于从多源语义网络中提取地理实体同名同义的节点及节点关联信息,以构建地理实体对应的同名同义关系网;
第二关系网构建模块506,用于对于地理实体中的任意两个地理实体,从第一地理实体对应的同名同义关系网中,提取第二地理实体同名同义的节点及节点关联信息,以构建第一地理实体与第二地理实体之间的目标实体对关系网;
关系确定模块508,用于基于目标实体对关系网抽取第一地理实体与第二地理实体之间的直接关系;以及,基于第一地理实体对应的同名同义关系网和第二地理实体对应的同名同义关系网,确定第一地理实体与第二地理实体之间的隐含关系;
结果确定模块510,用于将直接关系和/或隐含关系,作为第一地理实体与第二地理实体之间的实体多层次关系构建结果。
在一种实施方式中,第一关系网构建模块504还用于:
通过基于图注意力网络的词义消歧模型,从多源语义网络中提取地理实体同义的节点及节点关联信息,以构建地理实体对应的同义关系网;
通过距离编辑模型,从同义关系网中提取地理实体同名的节点及节点关联信息,以构建地理实体对应的同名同义关系网。
在一种实施方式中,词义消歧模型包括实体词向量化单元、图注意力网络单元、相似度计算单元;第一关系网构建模块504还用于:
通过实体词向量化单元,对多源语义网络包含的节点进行词嵌入得到节点词向量;
通过图注意力网络单元,提取多源语义网络每个节点对应的特征向量;其中,特征向量用于表征节点的深层语义信息;
通过相似度计算单元,基于地理实体和每个节点对应的特征向量,对每个节点进行阈值法筛选,得到地理实体同义的节点及节点关联信息,并将地理实体同义的节点作为目标节点集合;
以地理实体同义的节点、与同义节点直接关联的节点作为关系网节点,以地理实体同义节点的关联信息作为关系网边,构建地理实体对应的同义关系网。
在一种实施方式中,第一关系网构建模块504还用于:
通过图注意力网络单元,基于节点词向量确定任意两个节点之间的相似性度量;
对任意两个节点之间的相似性度量进行正则化处理和归一化处理,得到任意两个节点之间的注意力系数;
通过激活函数,基于注意力系数对一阶邻近节点特征进行加权求和,得到每个节点对应的特征向量。
在一种实施方式中,第一关系网构建模块504还用于:
通过相似度计算单元,基于每个节点对应的特征向量,计算地理实体和每个节点之间的语义相似度;
对于每个节点,如果该节点对应的语义相似度不小于语义相似度阈值,则将该节点作为目标节点集合。
在一种实施方式中,第一关系网构建模块504还用于:
通过距离编辑模型,确定目标节点集合中每个节点与地理实体之间的名称相似度;
对于目标节点集合中每个节点,如果该节点对应的名称相似度小于1,则将该节点确定为地理实体对应的异名同义节点;如果该节点对应的名称相似度等于1,则将该节点确定为地理实体对应的同名同义节点;
将同义关系网中,同名同义节点的节点关联信息与异名同义节点的节点关联信息合并,并将合并后节点关联信息中的重复关系信息剔除,得到地理实体对应的同名同义关系网。
在一种实施方式中,关系确定模块508还用于:
基于第一地理实体对应的同名同义关系网中除第一地理实体之外的节点,构建第一相邻节点集合;基于第二地理实体对应的同名同义关系网中除第二地理实体之外的节点,构建第二相邻节点集合;
通过结构相似度函数,基于第一相邻节点集合和第二相邻节点集合,确定第一地理实体与第二地理实体之间的结构相似度值;
判断结构相似度值是否不小于结构相似度阈值;
如果是,确定第一地理实体与第二地理实体之间的隐含关系为类属关系;
如果否,基于第一地理实体对应的同名同义关系网的语义信息和第二地理实体对应的同名同义关系网的语义信息,确定第一地理实体与第二地理实体之间的隐含关系。
在一种实施方式中,关系确定模块508还用于:
分别对第一地理实体对应的同名同义关系网中的节点、第二地理实体对应的同名同义关系网中的节点进行向量化,得到向量矩阵;
通过图卷积网络提取向量矩阵的语义信息,并基于语义信息确定每个候选隐含关系对应的概率值;
基于每个概率值从候选隐含关系中,确定第一地理实体与第二地理实体之间的目标隐含关系。
本发明实施例提供了一种电子设备,具体的,该电子设备包括处理器和存储装置;存储装置上存储有计算机程序,计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法。
图6为本发明实施例提供的一种电子设备的结构示意图,该电子设备100包括:处理器60,存储器61,总线62和通信接口63,所述处理器60、通信接口63和存储器61通过总线62连接;处理器60用于执行存储器61中存储的可执行模块,例如计算机程序。
其中,存储器61可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线62可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器61用于存储程序,所述处理器60在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器60中,或者由处理器60实现。
处理器60可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61,处理器60读取存储器61中的信息,结合其硬件完成上述方法的步骤。
本发明实施例所提供的可读存储介质的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见前述方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (9)
1.一种基于多源语义网络的地理实体多层次关系构建方法,其特征在于,包括:
获取待处理的多个地理实体;
从多源语义网络中提取所述地理实体同名同义的节点及节点关联信息,以构建所述地理实体对应的同名同义关系网;
对于所述地理实体中的任意两个地理实体,从第一地理实体对应的所述同名同义关系网中,提取第二地理实体同名同义的节点及节点关联信息,以构建所述第一地理实体与所述第二地理实体之间的目标实体对关系网;
基于所述目标实体对关系网抽取所述第一地理实体与所述第二地理实体之间的直接关系;以及,基于所述第一地理实体对应的所述同名同义关系网和所述第二地理实体对应的所述同名同义关系网,确定所述第一地理实体与所述第二地理实体之间的隐含关系;
将所述直接关系和/或所述隐含关系,作为所述第一地理实体与所述第二地理实体之间的实体多层次关系构建结果;
基于所述第一地理实体对应的所述同名同义关系网和所述第二地理实体对应的所述同名同义关系网,确定所述第一地理实体与所述第二地理实体之间的隐含关系,包括:
基于所述第一地理实体对应的所述同名同义关系网中除所述第一地理实体之外的节点,构建第一相邻节点集合;基于所述第二地理实体对应的所述同名同义关系网中除所述第二地理实体之外的节点,构建第二相邻节点集合;
通过结构相似度函数,基于所述第一相邻节点集合和所述第二相邻节点集合,确定所述第一地理实体与所述第二地理实体之间的结构相似度值;
判断所述结构相似度值是否不小于结构相似度阈值;
如果是,确定所述第一地理实体与所述第二地理实体之间的隐含关系为类属关系;
如果否,基于所述第一地理实体对应的所述同名同义关系网的语义信息和所述第二地理实体对应的所述同名同义关系网的语义信息,确定所述第一地理实体与所述第二地理实体之间的隐含关系。
2.根据权利要求1所述的基于多源语义网络的地理实体多层次关系构建方法,其特征在于,从多源语义网络中提取所述地理实体同名同义的节点及节点关联信息,以构建所述地理实体对应的同名同义关系网,包括:
通过基于图注意力网络的词义消歧模型,从多源语义网络中提取所述地理实体同义的节点及节点关联信息,以构建所述地理实体对应的同义关系网;
通过距离编辑模型,从所述同义关系网中提取所述地理实体同名的节点及节点关联信息,以构建所述地理实体对应的同名同义关系网。
3.根据权利要求2所述的基于多源语义网络的地理实体多层次关系构建方法,其特征在于,所述词义消歧模型包括实体词向量化单元、图注意力网络单元、相似度计算单元;通过基于图注意力网络的词义消歧模型,从多源语义网络中提取所述地理实体同义的节点及节点关联信息,以构建所述地理实体对应的同义关系网,包括:
通过所述实体词向量化单元,对多源语义网络包含的节点进行词嵌入得到节点词向量;
通过所述图注意力网络单元,提取每个所述节点对应的特征向量;其中,所述特征向量用于表征所述节点的深层语义信息;
通过所述相似度计算单元,基于所述地理实体和每个所述节点对应的所述特征向量,对每个所述节点进行阈值法筛选,得到所述地理实体同义的节点及节点关联信息,并将所述地理实体同义的节点作为目标节点集合;
以所述地理实体同义的节点、与同义节点直接关联的节点作为关系网节点,以所述地理实体同义节点的关联信息作为关系网边,构建所述地理实体对应的同义关系网。
4.根据权利要求3所述的基于多源语义网络的地理实体多层次关系构建方法,其特征在于,通过所述图注意力网络单元,提取每个所述节点对应的特征向量,包括:
通过所述图注意力网络单元,基于所述节点词向量确定任意两个节点之间的相似性度量;
对任意两个节点之间的所述相似性度量进行正则化处理和归一化处理,得到任意两个节点之间的注意力系数;
通过激活函数,基于所述注意力系数对一阶邻近节点特征进行加权求和,得到每个所述节点对应的特征向量。
5.根据权利要求3所述的基于多源语义网络的地理实体多层次关系构建方法,其特征在于,通过所述相似度计算单元,基于所述地理实体和每个所述节点对应的所述特征向量,对每个所述节点进行阈值法筛选,得到所述地理实体同义的节点及节点关联信息,并将所述地理实体同义的节点作为目标节点集合,包括:
通过所述相似度计算单元,基于每个所述节点对应的所述特征向量,计算所述地理实体和每个所述节点之间的语义相似度;
对于每个所述节点,如果该节点对应的所述语义相似度不小于语义相似度阈值,则将该节点作为目标节点集合。
6.根据权利要求3所述的基于多源语义网络的地理实体多层次关系构建方法,其特征在于,通过距离编辑模型,从所述同义关系网中提取所述地理实体同名的节点及节点关联信息,以构建所述地理实体对应的同名同义关系网,包括:
通过所述距离编辑模型,确定所述目标节点集合中每个节点与所述地理实体之间的名称相似度;
对于所述目标节点集合中每个节点,如果该节点对应的所述名称相似度小于1,则将该节点确定为所述地理实体对应的异名同义节点;如果该节点对应的所述名称相似度等于1,则将该节点确定为所述地理实体对应的同名同义节点;
将所述同义关系网中,所述同名同义节点的节点关联信息与所述异名同义节点的节点关联信息合并,并将合并后节点关联信息中的重复关系信息剔除,得到所述地理实体对应的同名同义关系网。
7.根据权利要求1所述的基于多源语义网络的地理实体多层次关系构建方法,其特征在于,基于所述第一地理实体对应的所述同名同义关系网的语义信息和所述第二地理实体对应的所述同名同义关系网的语义信息,确定所述第一地理实体与所述第二地理实体之间的隐含关系,包括:
分别对所述第一地理实体对应的所述同名同义关系网中的节点、所述第二地理实体对应的所述同名同义关系网中的节点进行向量化,得到向量矩阵;
通过图卷积网络提取所述向量矩阵的语义信息,并基于所述语义信息确定每个候选隐含关系对应的概率值;
基于每个所述概率值从所述候选隐含关系中,确定所述第一地理实体与所述第二地理实体之间的目标隐含关系。
8.一种基于多源语义网络的地理实体多层次关系构建装置,其特征在于,包括:
实体获取模块,用于获取待处理的多个地理实体;
第一关系网构建模块,用于从多源语义网络中提取所述地理实体同名同义的节点及节点关联信息,以构建所述地理实体对应的同名同义关系网;
第二关系网构建模块,用于对于所述地理实体中的任意两个地理实体,从第一地理实体对应的所述同名同义关系网中,提取第二地理实体同名同义的节点及节点关联信息,以构建所述第一地理实体与所述第二地理实体之间的目标实体对关系网;
关系确定模块,用于基于所述目标实体对关系网抽取所述第一地理实体与所述第二地理实体之间的直接关系;以及,基于所述第一地理实体对应的所述同名同义关系网和所述第二地理实体对应的所述同名同义关系网,确定所述第一地理实体与所述第二地理实体之间的隐含关系;
结果确定模块,用于将所述直接关系和/或所述隐含关系,作为所述第一地理实体与所述第二地理实体之间的实体多层次关系构建结果;
关系确定模块还用于:
基于所述第一地理实体对应的所述同名同义关系网中除所述第一地理实体之外的节点,构建第一相邻节点集合;基于所述第二地理实体对应的所述同名同义关系网中除所述第二地理实体之外的节点,构建第二相邻节点集合;
通过结构相似度函数,基于所述第一相邻节点集合和所述第二相邻节点集合,确定所述第一地理实体与所述第二地理实体之间的结构相似度值;
判断所述结构相似度值是否不小于结构相似度阈值;
如果是,确定所述第一地理实体与所述第二地理实体之间的隐含关系为类属关系;
如果否,基于所述第一地理实体对应的所述同名同义关系网的语义信息和所述第二地理实体对应的所述同名同义关系网的语义信息,确定所述第一地理实体与所述第二地理实体之间的隐含关系。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310944844.0A CN116663662B (zh) | 2023-07-31 | 2023-07-31 | 基于多源语义网络的地理实体多层次关系构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310944844.0A CN116663662B (zh) | 2023-07-31 | 2023-07-31 | 基于多源语义网络的地理实体多层次关系构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116663662A CN116663662A (zh) | 2023-08-29 |
CN116663662B true CN116663662B (zh) | 2023-10-20 |
Family
ID=87713961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310944844.0A Active CN116663662B (zh) | 2023-07-31 | 2023-07-31 | 基于多源语义网络的地理实体多层次关系构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116663662B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116882407B (zh) * | 2023-09-05 | 2023-12-15 | 航天宏图信息技术股份有限公司 | 多粒度地理实体的层次连通关系构建方法、装置及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1435778A (zh) * | 2002-01-30 | 2003-08-13 | 上海众恒信息产业有限公司 | 地理信息系统联机分析数据模型与属性数据面向对象型关联方法 |
CN1435790A (zh) * | 2002-01-30 | 2003-08-13 | 上海众恒信息产业有限公司 | 地理信息系统联机分析数据模型与属性数据关联方法 |
CN102156726A (zh) * | 2011-04-01 | 2011-08-17 | 中国测绘科学研究院 | 基于语义相似度的地理要素查询扩展方法 |
US8429179B1 (en) * | 2009-12-16 | 2013-04-23 | Board Of Regents, The University Of Texas System | Method and system for ontology driven data collection and processing |
CN115374786A (zh) * | 2022-08-30 | 2022-11-22 | 中国科学院上海高等研究院 | 实体和关系联合抽取方法及装置、存储介质和终端 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7899666B2 (en) * | 2007-05-04 | 2011-03-01 | Expert System S.P.A. | Method and system for automatically extracting relations between concepts included in text |
-
2023
- 2023-07-31 CN CN202310944844.0A patent/CN116663662B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1435778A (zh) * | 2002-01-30 | 2003-08-13 | 上海众恒信息产业有限公司 | 地理信息系统联机分析数据模型与属性数据面向对象型关联方法 |
CN1435790A (zh) * | 2002-01-30 | 2003-08-13 | 上海众恒信息产业有限公司 | 地理信息系统联机分析数据模型与属性数据关联方法 |
US8429179B1 (en) * | 2009-12-16 | 2013-04-23 | Board Of Regents, The University Of Texas System | Method and system for ontology driven data collection and processing |
CN102156726A (zh) * | 2011-04-01 | 2011-08-17 | 中国测绘科学研究院 | 基于语义相似度的地理要素查询扩展方法 |
CN115374786A (zh) * | 2022-08-30 | 2022-11-22 | 中国科学院上海高等研究院 | 实体和关系联合抽取方法及装置、存储介质和终端 |
Also Published As
Publication number | Publication date |
---|---|
CN116663662A (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112434169B (zh) | 一种知识图谱的构建方法及其系统和计算机设备 | |
CN106570148A (zh) | 一种基于卷积神经网络的属性抽取方法 | |
CN107463658B (zh) | 文本分类方法及装置 | |
CN104750798B (zh) | 一种应用程序的推荐方法和装置 | |
CN112966091B (zh) | 一种融合实体信息与热度的知识图谱推荐系统 | |
CN111753189A (zh) | 一种少样本跨模态哈希检索共同表征学习方法 | |
CN111124487B (zh) | 代码克隆检测方法、装置以及电子设备 | |
CN116663662B (zh) | 基于多源语义网络的地理实体多层次关系构建方法及装置 | |
CN109857457B (zh) | 一种在双曲空间中学习源代码中的函数层次嵌入表示方法 | |
CN105893362A (zh) | 获取知识点语义向量的方法、确定相关知识点的方法及系统 | |
Sun et al. | Graph force learning | |
CN116362243A (zh) | 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置 | |
CN111339258B (zh) | 基于知识图谱的大学计算机基础习题推荐方法 | |
CN117010373A (zh) | 一种电力设备资产管理数据所属类别和组的推荐方法 | |
CN116883746A (zh) | 一种基于分区池化超图神经网络的图节点分类方法 | |
CN115238075B (zh) | 一种基于超图池化的文本情感分类方法 | |
CN114840717B (zh) | 面向图数据的挖掘方法、装置、电子设备及可读存储介质 | |
CN115762706A (zh) | 一种基于深度学习的药物表征方法及存储介质 | |
CN113836244B (zh) | 样本获取方法、模型训练方法、关系预测方法及装置 | |
CN115906080A (zh) | 一种以太坊网络钓鱼检测方法、系统、电子设备及介质 | |
CN114925203A (zh) | 一种基于图嵌入方法的冲突文本预测方法 | |
CN113821571A (zh) | 基于bert和改进pcnn的食品安全关系抽取方法 | |
CN113836260A (zh) | 一种基于知识增强的深度学习的总氮含量预测方法 | |
Huang et al. | Graph neural network-based identification of ditch matching patterns across multi-scale geospatial data | |
CN117056550B (zh) | 长尾图像检索方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |