CN114564966A - 一种基于知识图谱的空间关系语义分析的方法 - Google Patents

一种基于知识图谱的空间关系语义分析的方法 Download PDF

Info

Publication number
CN114564966A
CN114564966A CN202210208390.6A CN202210208390A CN114564966A CN 114564966 A CN114564966 A CN 114564966A CN 202210208390 A CN202210208390 A CN 202210208390A CN 114564966 A CN114564966 A CN 114564966A
Authority
CN
China
Prior art keywords
geographic
relationship
spatial
spatial relationship
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210208390.6A
Other languages
English (en)
Inventor
许珺
胡蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Geographic Sciences and Natural Resources of CAS
Original Assignee
Institute of Geographic Sciences and Natural Resources of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Geographic Sciences and Natural Resources of CAS filed Critical Institute of Geographic Sciences and Natural Resources of CAS
Priority to CN202210208390.6A priority Critical patent/CN114564966A/zh
Publication of CN114564966A publication Critical patent/CN114564966A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及语义分析领域,公开了一种基于知识图谱的空间关系语义分析的方法,具体包括:从大规模语料库中提取地理实体及其关系表达,并通过语义计算的方法对地理实体及其关系描述进行语义量化,结合地理实体类型分析地理实体和关系表达之间的对应关系,以及地理实体/关系描述的相似性、相异性,最后结合空间关系的几何定性/定量化模型,细化空间关系语义的几何特征。实施本发明有利于丰富空间关系的自然语言表达,提升地理实体‑关系三元组的链接预测效果,通过融合地理实体类型,增强地名与关系描述的嵌入结果,使得能够更准确地预测地名和空间关系。

Description

一种基于知识图谱的空间关系语义分析的方法
技术领域
本发明涉及语义分析领域,尤其涉及一种基于知识图谱的空间关系语义分析的方法。
背景技术
空间关系作为人们认知现实地理空间的重要组成,成为了地理信息系统(GIS)研究的 主要内容,其研究进展直接影响着空间数据模型、空间数据库查询、空间分析、空间推理 制图综合、地图理解、自然语言界面标准化等方面的研究发展和应用。大多数情况下,GIS 用户可以用图形和数字量化拓扑,距离以及方向关系,但除此之外更广泛的空间关系则存 在于用户的认知和语言表达当中。20世纪九十年代,美国国家地理信息分析中心(NCGIA) 将空间关系的自然语言表达作为重要议题之一,旨在通过形式化更真实的神经认知来处理 地理信息的语义,从而将其应用于地理信息科学。在此研究议题下,Egenhofer和Mark进 一步提出了“朴素地理学”的概念,它被定义为人们具有的对周围地理世界的知识,这些 知识中包含着一套遵循人类认知直觉的理论体系,可利用于地理信息系统的设计从而使得 非专业GIS用户更易使用。从空间关系的语义表达的角度来看,这些直觉中包括人类对地 理空间的几何认知,地物本身具有的语义特征、地物抽象类型等非几何属性,相对于基于 坐标的空间关系计算,这种高度抽象概念化的空间关系描述更为模糊和不确定,但却更接 近人们的使用习惯以及认知过程。
为了建立GIS系统与人类空间认知表达之间的语义映射,研究者们通过进行认知实验, 开发设计本体,建立地理语义网(Semantic Web)等手段加以实现,但受制于语义研究方 法以及数据来源,对于空间关系的语义研究有限,随着自然语言处理技术以及链接数据 (Geo Linked Data)的不断发展和完善,语义计算成为了我们进一步理解文本表达的新视 角,再加上大量可获取的自然语言描述,一方面从统计的角度,便于分析人们对不同地理 实体所使用的不同空间关系描述,另一方面从计算的角度,便于结合各种外在因子计算空 间关系描述的差别与相似之处。在大数据时代,人们的语言表达被大量采集记录,形成了 各种各样的不同领域不同语言的文本语料库,即主题不限,内容不限的开放域,这些文本 中蕴含着人们对所生活的现实环境的大量且多种的地理空间描述,这对研究自然语言中的 空间关系语义的识别提供了巨大的数据支持。此外,深度学习以及自然语言处理(NLP)技 术的出现与飞速发展也为空间关系的语义研究提供了巨大的便利,使得自然语言可计算和 度量,比如Word2vec模型已经可以通过训练得到“Germany-Berlin+France=Paris” 这样隐含空间关系的语义关系,我们可以深入考虑应用这些技术来发现更多的空间关系。 但是如何从巨大的结构化、半结构化以及非结构化文本中提取并有效组织地理信息,知识 图谱的出现提供了一种有效的解决思路,首先,RDF三元组的数据组织形式可以明确描述 地理实体与空间关系,此外在知识图上发展的一系列技术手段也有助于分析地理实体及其 对应的空间关系描述。
而现有技术中研究者为了描述地理实体及其关系,起初将空间关系描述局限在单一的 空间关系上,存在表达位置信息不足的问题,之后研究者尝试组合多种空间关系进行描述, 张珂等人基于四叉树直方图来描述空间方向关系或细节方向关系,之后根据不同的应用人 工建立在外部参考框架下的空间方向关系词和程度修饰词词典,并基于模糊规则选取适当 的方向关系词,程度修饰词和距离关系词生成类似人的空间关系自然语言描述;对于电子 地图导航中常用的路径描述,张雪英等人通过人工收集词汇库,建立描述句法模式以及获 取路径补充信息,基于路径的方向判断生成自然语言路径描述,张彩丽等人通过分解移动 点的运动轨迹,描述移动点与参考物的拓扑关系,之后综合考虑整个轨迹与地物间的方向 关系和距离关系,进行集成描述。
然而,从空间关系模型表达出发以及人工定义描述词典却并不能准确涵盖所有人们习 惯的空间关系描述,且需耗费大量的人力进行语言表达规则的总结,无法有效建立空间关 系与自然语言描述的映射关系。
发明内容
为了解决现有技术中因空间关系模型表达以及人工定义描述词典无法准确涵盖所有人 们习惯的空间关系描述无法有效建立空间关系与自然语言描述的映射关系的技术问题,本 发明公开了一种基于知识图谱的空间关系语义分析的方法,从大规模语料库中提取地理实 体及其关系表达,并通过语义计算的方法对地理实体及其关系描述进行语义量化,结合地 理实体类型分析地理实体和关系表达之间的对应关系,以及地理实体/关系描述的相似性、 相异性,最后结合空间关系的几何定性/定量化模型,细化空间关系语义的几何特征。
具体实现的技术方案包括:
一种基于知识图谱的空间关系语义分析的方法,包括:
以维基百科英文正文文本为数据源,使用命名实体识别算法spaCy识别地理实体;
通过关系抽取算法Stanford OpenIE抽取所述地理实体之间的空间关系描述,获取地 理实体三元组,并根据所述地理实体和所述地理实体三元组构建地名关系知识图谱;
利用Google Map的地理编码API进行地名搜索,获取所述地理实体三元组的地名类型 以及地名坐标;
基于地名关系知识图谱并利用预设模型,通过联合训练的方式,结合地物类型,对地 名-空间关系三元组进行嵌入计算,得到所述地理实体、地物类型和空间关系的嵌入向量, 所述预设模型包括TransE、TransD或RotatE;
针对所述嵌入向量进行相似性计算和聚类分析,得到不同地理实体类型所对应的空间 关系描述,以及相似性超过预设阈值的空间关系描述所对应的不同类型的地理实体。
优选地,所述方法还包括:
利用坐标匹配方法使用Geonames地名词典分类体系对自然地物类型进行细化分类。
优选地,所述利用Google Map的地理编码API进行地名搜索,获取所述地理实体三元 组的地名类型以及地名坐标,具体包括:
从识别的所述地理实体中提取所有Google Map类型为Natural_feature的地名,以及利 用地名编码所获取的地名坐标与Geonames地名词典分类体系的地名坐标进行最短距离匹 配,得到Geonames中与所查找地名匹配成功的地名类型。
优选地,将未获取到地名类型以及地名坐标的地理实体三元组剔除。
优选地,所述得到所述地理实体和空间关系的嵌入向量,之后还包括:利用T-SNE将 所述嵌入向量进行降维并可视化。
优选地,利用T-SNE将所述嵌入向量进行降维并可视化具体为:利用T-SNE对大量的 地名及空间关系描述词嵌入进行语义层面的相似性可视化。
优选地,得到不同地理实体类型所对应的空间关系描述,以及相似性超过预设阈值的 空间关系描述所对应的不同类型的地理实体,之后还包括:在对地理实体及空间关系描述 进行语义量化的基础上,进一步结合空间关系的定量化表达模型分析相似的空间关系描述 与点线面几何构型的对应关系,从而从几何构型上细化空间关系表达的语义差异。
优选地,从几何构型上细化空间关系表达的语义差异,具体包括:对于拓扑关系,采 用九交模型加以刻画,对于方向关系,度量方法包括锥形方法、投影方法、MBR方法以及方向关系矩阵,对于度量关系,通过欧氏距离定量表达或Voronoi距离来定性表达
优选地,所述方法还包括:
通过嵌入向量的相似性计算,将存在包含关系的地名及空间关系的地理实体三元组聚 为一类;
和/或,通过嵌入向量的相似性计算,将存在位置以及方位关系描述的地名及空间关系 的地理实体三元组聚为一类。
本发明相比于现有技术具有的技术效果:
1、通过在维基百科大语料库中抽取地名实体及空间关系表达,有利于丰富空间关系的 自然语言表达。
2、利用知识图谱语义计算的方法,通过联合训练,融合地物类型,使得空间关系描述 及地名具有地物类型语义,提升地理实体-关系三元组的链接预测效果。
3、融合地理实体类型,增强地名与关系描述的嵌入结果,使得地名和空间关系能够更 准确的预测。
4、利用增强后的嵌入模型进一步分析空间关系描述的相似性,关系描述下的地名相似 性,以及二者之间的对应关系,针对部分空间关系描述词,利用所获取的地物Bbox边框数 据,利用定性/定量的空间关系模型,细化空间关系语义研究,分析空间关系词与几何关系 的映射。
附图说明
1、图1为本发明实施例中一种基于知识图谱的空间关系语义分析的方法的流程示意 图;
2、图2为本发明实施例中地名关系知识图谱示意图;
3、图3为本发明实施例中地名类型分类体系示意图;
4、图4为本发明实施例中TransE模型图;
5、图5为本发明实施例中模型评价对比图;
6、图6为本发明实施例中地名关系知识图谱嵌入降维可视化图;
7、图7为本发明实施例中关键字为Mississippi River的三元组嵌入及关系描述词云 图;
8、图8为本发明实施例中关键字为Hawaii的三元组嵌入及关系描述词云图;
9、图9为本发明实施例中类型关键字为route的三元组嵌入及关系描述词云图;
10、图10为本发明实施例中类型关键字为T的三元组嵌入及关系描述词云图;
11、图11为本发明实施例中类型关键字为H的三元组嵌入及关系描述词云图。
具体实施方式
为了使本领域技术人员更清楚的理解本发明所提供的,下面将结合附图对其进行详细 的说明。
由于现有技术中因空间关系模型表达以及人工定义描述词典无法准确涵盖所有人们习 惯的空间关系描述,且需耗费大量的人力进行语言表达规则的总结,无法有效建立空间关 系与自然语言描述的映射关系。因此本发明实施例公开了一种基于知识图谱的空间关系语 义分析的方法,通过从大规模语料库中提取地理实体及其关系表达,并结合地理实体类型, 通过语义计算的方法对地理实体及其关系描述进行语义量化,分析地理实体和关系表达之 间的对应关系,以及地理实体/关系描述的相似性、相异性,最后结合空间关系的几何定性 /定量化模型,细化空间关系语义的几何特征。
如图1所示,一种基于知识图谱的空间关系语义分析的方法,具体包括以下步骤:
(1)构建地名关系知识图谱
以维基百科英文正文文本(可通过http://dumps.wikimedia.org/这个网站下载)为 数据源,使用命名实体识别算法spaCy识别地理实体,以及结合关系抽取算法StanfordOpenIE抽取地理实体之间的空间关系描述,抽取地名数量两个以上的句子中的地理实体三元组对,构造地名关系知识图谱。
在识别抽取地理实体之间的空间关系描述方面,国内研究者们尝试对更具规律性的空 间表达句法结构进行分析,刘瑜等人研究基于言语表达路径的文法特点,定义了词典以及 受限的NLRP文法结构,识别中文文本表达并通过PRA算法将路径重建,张雪英等人对自然 语言空间关系概括为[前缀]+[空间词汇]+[后缀]的句法模式并将其应用于GIS查询过程, Zhang等人从自然语言中基于规则通过命名实体识别和空间关系标注开放式提取空间关系, 朱少楠等人尝试从大规模标注语料库出发,采用序列对比方法计算空间关系实例的相似度, 聚合得到泛化的空间关系描述句法模式,邓敏等人通过统计空间关系谓词和量词,分析自 然语言的解析和切分问题,提出4类查询空间关系的自然语言句法模式,袁等人考虑词性、 词汇相似度,句法规则等构成的语义知识来主要识别文本中的方向空间关系描述,其中词 语的语义相似度是模式匹配的软性约束条件,张秀红等人除了定义句法模式之外,还利用 地理本体对空间关系三元组进行语义扩展,利用地理本体的footprint信息查询方向关系, 但是这些方法均不支持复杂的关系查询,对于自定义句法模式,虽然准确率较高,但由于 定义模式有限,无法穷尽涵盖人们的语言表达习惯,适用于小语料库,存在局限性。而国 外研究者则先进行文本预处理,根据语法提取两个地理实体之间的依赖关系,之后使用 nearest-prototype分类器基于所提取的依赖关系和空间本体之间的语义相似性来对关系 进行无监督分类提取,Wallgrün等人通过四个模块,根据特定的实体列表(hotel),查 询URL,保存网页,识别地理实体及其坐标形状等附加信息、以及特定的空间关系,从网 页中提取地理实体及空间关系三元组,但是这一套方法只有一套识别模板(lo-rel-ro), 此外,余丽等人使用bootstrapping技术来统计词语的词性,位置和距离特征来计算语境 中词语权值,确定描述地理实体关系的关键词,针对网络文本中地理实体关系分布稀疏而 无法适用于基于频率的提取方法的问题,余等人还提出通过语境合并和融合来创建增强的 语境,并在此基础上自动创建大规模语料库,选择特征并统计其权值,最后使用词法特征 对增强语境中的词语进行评估生成空间关系关键词实例,高嘉良等人则针对已抽取的地理 实体关系,利用“本体知识”、“事实知识”和“同义词知识”筛选高质量的空间关系,仇 等人则使用了BERT生成的结合了上下文的预训练词向量计算语义相似度合并术语,增加同 类型术语的频率,便于生成相同类型的地理实体对的增强上下文。
为了考虑更多的空间关系的自然语言表达,国外的研究者在语义网发展的基础上也开 发了许多从文本中提取实体及关系的工具,Gangemi对这些工具使用非结构化文本在不同 自然语言处理任务上进行了比较分析。其中,DBpedia的开发人员利用DBpediaSpotlight 工具从结构化、半结构化Wikipedia百科知识中抽取了数百万条三元组,但是经统计这些 三元组还远远不能涵盖地理空间描述,例如,在英文DBPedia中有53.86%的湖泊实体缺少 其水源,85.80%的山地实体没有描述其母峰位置,其次,对于地理实体,大多以描述其属 性为主,无法提供大量关于地理实体之间的空间关系描述,最后,这些三元组并不适应地 理空间描述的更新频率,大量的地理空间实体及其关系的描述数据还存在于开放域中的非 结构化文本中,所以如何有效抽取则成为利用自然语言文本研究地理空间首要解决的问题。
语料库研究具有覆盖大空间范围、不同尺度、纳入不同类型的语境信息和获得大样本 的潜力,但目前,对于语料库的研究还不足,除了实体和关系的抽取工作,针对所抽取的 地理实体和关系文本的深入分析还研究不足。因此,本发明实施例以维基百科英文正文文 本(可通过http://dumps.wikimedia.org/这个网站下载)为数据源,使用命名实体识别算法spaCy识别地理实体,以及结合关系抽取算法Stanford OpenIE抽取地理实体之间的空间关系描述,从而获取地理实体三元组。
需要说明的是,spaCy是现有最快的工业级自然语言处理工具,可用于处理64种语言, 其主要功能包括分词,词性标注,词干化,命名实体识别以及文本分类等。它主要基于Python和Cython开发,最新版本v3.0利用网络文本通过深度学习模型进行预训练,构建Pipeline多组件流程化的自然语言处理工具,目前根据训练集大小、训练方式、包含内容方面的不同,spaCy推出en_core_web_sm/md/lg/trf四种Pipeline模型,其中en_core_web_sm模型使用网络文本OntoNotes5、ClearNLP Constituent-to-Dependency Conversion以及WordNet3.0,通过“Embed,encode,attend,predict”四个步骤将输入的句子进行词向量转化, 利用卷积神经网络(CNN)计算句子矩阵,将句子矩阵的上下文信息引入词向量生成单个 向量,以及用该向量分类进行训练得到预训练模型,对于命名实体识别任务来说,在识别 实体之前首先需要进行分句,分词,分类结果则是该实体所属的实体类别。该模型在效率 和准确率之间达到较好的平衡。相比于基于规则的NER方法,基于机器学习的NER可以涵盖更全面的命名实体。
Stanford OpenIE是目前较为成熟可用于从纯文本中自动提取二元关系三元组的模型, 相比于基于传统模式的信息抽取技术,OpenIE无需提前指定关系,它使用基于依存句法树 的分类器从长句中提取短句,然后从短句中进行自然逻辑推断最大化缩减句子长度,最终 使用14个人工构建的规则模板提取关系元组。目前该工具只支持英文关系抽取。
例如,将下载的维基百科英文正文文本解析提取至MySQL数据库,共导入6194630条正文文本,测试比较了SpaCy,Stanza以及NeuroTPR模型对随机抽取的一篇百科文本 的命名实体识别时间,结果如表1所示:
NER Model SpaCy_sm SpaCy_trf Stanza Neuro TPR
Time(s) 1.05 92.33 124.82 461.45
表1不同命名实体识别工具识别效率
由于语料库规模庞大,考虑到时间效率,本发明实施例采用SpaCy_sm (en_core_web_sm 3.0.0)完成全文分句以及与地理实体相关的“LOC(Companies, agencies,institutions,etc.)”,“GPE(Countries,cities,states.)”,“FAC (Buildings,airports,highways,bridges,etc.)”命名实体抽取作为地理实体集,当 句中地理实体数≥2,利用Stanford OpenIE抽取三元组并以SpaCy识别出的地理实体集过 滤出地理实体三元组,抽取564846条地理实体-关系三元组(即地理实体三元组)。之后, 实验依次去除了抽取过程中同一句内同一关系词重复抽取的三元组3109条,头尾为同一地 理实体的三元组27249条,并且对于同一关系不同长度关系词重复抽取的三元组(如is city of、is largestcity of以及is also largest city of),保留语义更丰富的最长 关系三元组,去除90789条,最终剩余443,699条三元组,具体如表2所示。三元组集合 中出现频率最高的前50个关系词和地理实体如表3-4所示,构建的地名关系知识图谱局部 如图2所示。
元素 三元组 地理实体 关系
数量 443699 169204 90623
表2知识图谱三元组统计
Figure BDA0003532103340000071
Figure BDA0003532103340000081
表3三元组中出现频率最高的前30个关系描述词
Geoname Count Geoname Count Geoname Count
Japan 8748 Russia 6494 Paris 3404
London 8587 England 6414 Chicago 3385
Australia 8330 California 5994 New Zealand 3267
France 8048 Spain 5612 Iran 3230
India 7688 Europe 4465 Los Angeles 3146
Canada 7614 US 4182 Mexico 3046
China 7397 New York City 4153 Texas 2971
New York 6822 Italy 3818 Pakistan 2962
United States 6813 Britain 3651 Washington 2941
Germany 6738 U.S. 3576 Israel 2905
表4三元组中出现频率最高的前30个地名
(2)获取地名解析及地理实体类型
为了分析地理实体空间关系表达的过程中,考虑地理实体类型,本发明实施例利用 Google Map的地理编码API,对地名进行搜索并获取地名类型以及地名坐标。
由于Google Map中对自然要素(Natural_feature)分类粗糙,对于未充分分类的地物 类型,通过坐标匹配方法使用Geonames地名词典分类体系进行类型细化,因此还融合了 Geonames地名分类体系(如图3中的四级标签,图3示出了完整地名类型分类体系),细化自然地物类型。GeoNames(http://www.geonames.org)具有1000万的地名规模,对多地物类型具有九大类以及更加详细的类型划分,可用于地理实体的类型信息补充。
对于地理实体集合,首先提取所有Google Map类型为Natural_feature的地名,由于 Geonames存在大量同名的地物,利用地名编码(地理编码API)所获取的坐标与Geonames数据库(地名词典分类体系)的坐标进行最短距离匹配,得到Geonames中与所 查找地名匹配的地名类型。
由于在地名解析以及类型获取的过程中,存在部分地名未得到类型信息,共23746条 三元组,根据后续实验需要,将该部分三元组剔除,剩余419953条三元组。
(3)地名关系知识图谱语义计算
在地理实体及其关系所构建的地理知识图谱当中,相似度计算从认知上来说是度量实 体间语义的有效方法,过于寻求清晰逻辑的语义推理并不适用于人们的思考过程,应用相 似度进行计算的搜索引擎的成功已经证明了其在度量认知表达过程中的有效性。知识图谱 中的相似度计算需要先将实体和关系映射为向量嵌入的形式,这个过程也叫做知识图谱嵌 入(Knowledge graph embedding)。根据所定义的打分函数形式的不同,这些模型主要分 为平移距离模型,语义匹配模型以及神经网络模型等。
平移距离模型主要是利用基于距离的评分函数,通过两个实体之间的距离对事实的合 理性进行度量。受到Word2vec模型中所发现的词向量空间的平移不变现象所启发,Border 等人提出了TransE模型,将知识中的关系看作实体之间的某种平移/翻译向量,通过使用 单词嵌入之间的加减运算来构成知识图谱嵌入,但这种方法认为当头实体和关系不变时, 尾实体的嵌入也是固定不变的,这使得模型善于解决1-1的关系,对于1-N,N-1,N-N的 关系无法有效解决。基于以上问题,研究者又提出TransH,尝试将头尾实体映射到关系所 在的超平面中,一定程度上解决多对多的关系,TransR的提出则认为将实体、关系都放在 同一空间中考虑是不准确的,所以构建了实体空间和关系空间进行映射;此外研究者考虑 到同一个关系也有不同的类型,实体也有不同的类型,所以映射矩阵不应只与关系有关, 还应与头尾实体有关,进而提出TransD模型,对TransR进行更细粒度的扩展。以上模型均首先通过投影策略将实体和关系映射到对应的语义空间,其次均使用得分函数 f(h,t)=||h+r-t||表示实体对的评分。另外使用负采样生成错误样本进行训练,使得正确 的样本得分函数值降低,错误样本的得分函数值升高。RotatE尝试将头尾实体与关系之间 投影在复数空间中进行训练,将关系定义为头实体和尾实体之间的旋转,这种方法可以有 效应对知识图谱中出现的对称/反对称,倒装,复合的关系。
除了单纯训练一个知识图谱映射空间之外,研究者还考虑了添加额外的信息,如实体 类型,来丰富增强语义嵌入过程,实体类型相比于实体本身具有较少的噪声,更易提取实 体的通用语义。TKRL利用层次类型投影矩阵将头尾实体转化为类型,再利用h+r=t的平移 距离公式进行训练;TransT则认为在一个关系下,一个三元组由于实体的类型多样性,具 有多对语义存在,一个三元组的训练则变成了多种语义概率的加和;JOIE模型则将实体连 接到其本体层,训练实体映射空间和本体映射空间之间的转换,利用本体增强实体嵌入训 练效果;AutoETER模型不需要实体类型显式存在,通过设置类型感知投影矩阵,自动学习 嵌入类型的潜在信息。
综上,目前研究者们只对有限的地理实体和关系表达提取分析,随着实体和关系提取 技术以及知识图谱嵌入方法的成熟,利用语义计算来分析更全面、广泛的地理实体及其空 间关系的语义表达成为可能。
因此,本发明实施例中地名关系知识图谱(下称知识图谱)的嵌入计算具体实施方法 为:在抽取的关系表达的基础上,利用基于知识图谱的嵌入方法,量化关系表达的语义信 息,可通过加入地理实体类型等外部特征扩展和增强语义信息。其中地理实体类型是通过 对抽取的地理实体,通过Google Map Geocoding API进行地名解析获取地名坐标及类型, 可进行地名库坐标匹配,从而获取地名对应的地理实体类型,用于地名关系知识图谱嵌入 表示。对于分类粗略的自然地物,结合Geonames地名词典,细化自然地物类型。
在一个优选的实施例中,对于抽取的地物三元组,需要对同一句中的关系重复抽取的 三元组、头尾实体一致的三元组以及同一关系抽取不同长度描述词的三元组进行筛除。
在一个优选的实施例中,利用地理编码以及地名词典获取的地名类型对知识图谱嵌入 进行语义增强,并将高维嵌入结果投影至二维空间可视化。
具体的,可利用构建的地理实体关系知识图谱利用知识图谱嵌入算法,如TransE、TransD、RotatE等算法的基础上,通过添加地物类型约束,以联合训练的方式计算地名及关系嵌入。通过贝叶斯优化算法寻找最佳超参组合,对地名关系知识图谱进行嵌入计算,并利用多种评价指标比较嵌入效果。
在相同的训练条件下,RotatE模型训练准确率更高。利用TransE模型对地名-关系三 元组以及地物类型-关系三元组进行了嵌入计算以及高维向量的T-SNE降维可视化。
为了在关系描述中增强目标物和参照物的语义特征,结合地理实体-空间关系三元组, 使用知识图谱嵌入方法对目标物(h)、关系描述(r)以及参照物(t)三元组进行语义的嵌入表 示。
需要说明的是,TransE是知识图谱嵌入基于距离的方法中最基本的模型,它将知识图 谱三元组转化为向量之间的加减运算(如图4所示),在嵌入计算的过程中,实体表达为 n×d维的矩阵(n为实体个数,d为实体向量维度),关系表达为r×d维的矩阵(r为实 体个数,d为关系向量为维度),TransE的训练目标是从实体和关系矩阵中各抽取一个向 量,使得二者的加和能等于实体矩阵中的另一个实体向量,即h+r=t,从而得到知识图 谱中每个节点的词向量表示。训练过程通过随机初始化实体/关系向量,随机替换三元组的 头/尾实体来生成训练负例,并根据给定的超参数Marginγ通过随机梯度下降最大化损失 函数L,损失函数如公式(1)所示:
Figure BDA0003532103340000101
其中d()表示h+r与t之间的差异性度量,由L1或L2范数定义。S′(h,r,t)表示生成的负例数据集。
评价指标选取:知识图嵌入效果主要通过链接预测任务来评估,它采用不依赖于负例 是否存在的基于排名的指标进行计算,如平均排名(MR),平均倒数排名(MRR)和Hits@N (N=1、3、5、10)指标。其计算方法是将真实以及采样的三元组合成一个列表,然后利用知识图谱嵌入模型得到每个三元组的分数,并将列表根据分数进行排序。平均排名计算所有真实三元组排名的算数平均值,平均倒数排名计算所有真实三元组排名倒数的算数平均值,Hits@N计算了出现在排名第N个实体的真实实体的比例,当平均排名越小,平均倒数 排名越大,Hits@N越大,说明链接预测结果越准确,嵌入模型训练结果越好。此外,实验 还利用过滤操作(Filter)将测试集中所构造的恰好属于当前知识图谱中的负例三元组剔 除后进行评价,这些负例三元组由于本身就存在于原本知识图谱中得到了训练,所以大概 率会出现在链接预测结果中靠前的位置,这会影响对模型评价的准确性。
语义嵌入的降维可视化:使用T-SNE(t-distributed stochastic neighborembedding)对大量的地名及关系描述词嵌入进行语义层面的相似性可视化。T-SNE是一种将高维数据非线性降维并可视化的算法。T-SNE由SNE算法改进而来,SNE算法认为如果点对在高维空间内相近,即一个点在另一个点的邻域分布内,则在低维空间内也相近,所以高维空间用于衡量两点相似性的条件概率应等于低维空间的条件概率,损失函数中用K-L散度来衡量高低维空间概率分布的差异。但是,SNE算法并未考虑概率的对称性造成计算量增大,并且高低维空间内距离分布存在差异,使得降维显示非常拥挤,所以研究者引入联合概率分布解决SNE算法的对称性问题,在低维空间中利用t分布的长尾性解决拥挤问题,提出T-SNE算法,其概率损失函数C如公式2所示。
Figure BDA0003532103340000111
其中pij表示高维空间i和j两点的联合概率,qij表示高维空间i和j两点投影至低维 空间的联合概率。
具体例如,首先将上述所抽取的地名关系三元组按照6:2:2划分为训练集、验证集以 及测试集,具体数据量如表5所示,数据集划分过程中测试集和验证集内不存在重复三元 组,且仅包含同样出现在训练集中的实体和关系。本发明实施例尝试利用了基于距离的嵌 入方法TransE及其改进变体TransD、RotatE。所有实施方法均基于Intel(R)Xeon(R)Silver 4110 16核CPU,NVIDIA Quadro P4000 GPU进行。
数据集 训练集 验证集 测试集
数量 251972 83990 83991
表5地名-关系三元组数据集
各模型均在正式训练前通过贝叶斯优化算法在小测试集(原始测试集规模的0.05倍, 即4200条三元组)下训练选取了最优训练参数组合。在100次测试下,最优参数选取如表 6所示。
Model TransE TransD RotatE
learning_rate 0.0001 0.001 0.0001
batch_size 1024 1024 732
hidden_size 256 256 256
optimizer adam adagrad adam
sampling uniform bern adversarial_negative_sampling
regularization L2 L1 L2
表6模型最优参数选取
利用最优参数组合,图5展示了基于距离的TransE、TransD以及RotatE模型利用地理 实体-关系数据集在100个epoch训练后的链接预测测试结果以及过滤后的结果,比较之下, 对于模型准确率RotatE模型优于TransD模型,TransE模型在准确率上表现最弱。对于平 均排序指标,模型整体准确率最高的模型为Rotate模型,其次是TransE模型,TransD模型 整体预测准确率最低。
目前,实验利用TransE模型在完整数据集上利用最优参数组合进行了1000个epoch 的训练,并使用早停机制在损失函数收敛时停止训练(Patience设置为3,表示在3个epoch内训练效果没有增长就停止训练),对于地理实体-关系知识图谱,在750个epoch时停止训练,Filtered Hits@10指标在测试集上达到43%,对于地理实体类型-关系知识图谱, 经过1000个epoch训练后,Filtered Hits@10指标在测试集上达到89%,具体结果如表7所 示:
Figure BDA0003532103340000121
表7训练结果
经上述训练结果比较发现,实体少,噪音少的地理实体类型-关系知识图谱的训练准确 率远高于多地名的地理实体-关系知识图谱,利用地理实体类型可有效增强地理实体-关系 知识图谱的嵌入表达能力。
(3)基于语义计算的空间关系语义分析:利用上述地理实体和关系的嵌入向量,通过 相似性计算和聚类分析不同实体类型所对应的空间关系表达,以及类似空间关系表达对应 的不同类型的地理实体。
在得到基于知识图的词嵌入的基础上,将高维词向量进行低维可视化(T-SNE),分析 地名及其关系描述的对应及相似信息。分析相似关系词所描述的地理实体的差异、用于描 述同一种地理实体的空间关系词的差异,并在语义分析的基础上,结合地理实体类型,完 成地物类型增强下基于语义计算的可能性关系或地理实体推理。
地理实体-关系知识图谱和地理实体-类型知识图谱经过TransE模型嵌入,并将256维 的高维向量按照“头实体-关系-尾实体”进行拼接,将输出向量利用T-SNE降维并可视化, 如图6所示,图中每一个点代表一个地名、关系描述、地理实体类型或三元组。相比于地 名-关系三元组嵌入,由于地名多,关系描述多样使得投影效果分散,存在大量噪声,而对 于地理实体类型-关系嵌入,成团效果明显。说明地理实体类型对于增强地名-关系嵌入, 去除噪声具有很强的利用价值。
本发明实施例实验选取特定的地理实体,地理实体类型以及关系词的嵌入,并通过 kmeans算法进行分类。聚类结果中,类似地名及关系的地理实体三元组会被聚到一类。
具体的,K-means聚类由于处理速度快,算法简单,对大数据集适用等特点,仍然是使用最广泛的聚类方法。对于实体及关系嵌入向量,本发明实施例中采用更关注向量方向相似性的余弦相似度计算方法进行聚类,聚类过程中通过多次随机选取K个初始聚类中心,计算每个向量与K个聚类中心的相似度并分类到最相似的类内,直到簇内误差平方和E (公式3)收敛。
Figure BDA0003532103340000131
其中Xi表示K个簇中的第i个簇,p为Xi中的样本对象,mi为Xi的聚类中心。
例如,对于描述自然地物的地理实体,实验选取了“Mississippi River”作为关键词, 其相关的三元嵌入以及相关的关系描述词词云,如图7所示,其中包括cross,connec等与线状地物有关的描述,此外还有join、tributary、span等与河流属性相关的关系描述词。对于描述行政区划的地理实体,大多为不同等级区划,如各国和省市之间的包含关系,即“is in、in province of、in located is、has、includes”等词,这些词在嵌入空间 内聚集并被划分为一大类,此外,还包括非包含的关系,主要有“face、meet、of east is、rightof”等与面状实体有关的关系描述词。例如,对于描述行政区划的地理实体, 实验选取了“Hawaii”作为关键字,其嵌入以及相关的关系描述词词云,如图8所示。除 了出现次数最多的“is in”以外,还存在beats、on attack is等非空间语义描述。
针对不考虑地物类型的单个实体而言,关系描述杂乱,噪声很多,想要直接通过现有 知识图谱嵌入,难以完成较准确的链接预测任务,即给定头尾实体预测关系描述或给定关 系描述预测头尾实体,考虑到对于地物之间的空间关系大多与地理实体类型有关,所以实 验尝试通过地理实体类型过滤噪声,增强地理实体及关系描述的语义嵌入。
对于地理实体类型,实验选取了道路、山脉、河流等典型地物类型进行嵌入分析及相 关关系描述词词云,如图9-11所示。
对于道路类型,对于两条道路之间,存在大量如“extension of、begins at、easton、south by、join、cross、become、with intersection is、continue east into、 northto、north of、south by、turns at、road near”等关系描述词,对于道路和河流 之间,存在如“spanning、looking downstream from、is connected with、forms boundary From”等关系描述词,对于道路与面/点状地物(如“locality、 administrative_area、point_of_interest”)之间的关系,具有“is in、pass through、 continues along、is accessiblevia”等关系描述词,对于不同地物类型,其空间关系 描述具有不同的用词习惯。
对于类型“T(mountain,hill,rock,...)”地物,主要是行政实体与山/岛等自然地物 之间的互相包含关系,即“is in、is located near、islands of、near province of、in Mountain is”等词,对于都是T类型的地物,主要存在方位关系描述,如Northeast of,is behind,east of、on adj is(邻接)等等,此外,还有“in summit is、now known as”等非空间关系描述词。
在类型“H(stream,lake,...)”地物中,对于steam类型地物,其与route之间的 主要关系描述词为“spanning、join、follow”等等,其与stream或行政实体之间的主要 关系描述词为“flows via、flows into、flows from、dump in、creek in、stream in”, 这些关系词因为精细地物类型的不同而各有不同的使用场景;对于lake面状类型地物,其 主要与行政实体之间有大量位置以及方位描述,比如“is in、of NW is、of SSW is、 east of、intributary is”,以及“begins in、crosses into、flow through、 empties into”等拓扑关系描述。
本发明实施例中以选定的特定实体“Mississippi River”、“Hawaii”和特定地理实体 类型“route、H(河流湖泊)、T(山脉岛屿)”进行三元组向量二维可视化为例,并通过聚类添加同类标签进行分析,对于不同实体或类型之间的关系,使用词云进行可视化分析。
(4)结合空间关系定性和定量化计算的语义分析:
在对地理实体及空间关系描述进行语义量化的基础上,进一步结合空间关系的定量化 表达模型分析相似的空间关系描述与点线面几何构型的对应关系,从而从几何构型上细化 空间关系表达的语义差异。对于拓扑关系,可采用九交模型加以刻画,对于方向关系,度 量方法包括锥形方法、投影方法、MBR方法以及方向关系矩阵等等,对于度量关系,则主 要通过欧氏距离定量表达或Voronoi距离来定性表达。
如对于“flow through”、“run through”、“pass”以及“cross”等同义近义表达而言, 通过几何指标的计算,分析同义近义描述词所描述的地理实体之间的几何构型差异,挖掘 更贴近人们对空间几何构型的认知以及对空间关系描述词使用习惯的空间关系表达。
以上对本发明实施例进行了详细介绍,本文中应用了具体个例对本发明的原理及实施 方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的核心思想;同时,对于本 领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处, 综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.一种基于知识图谱的空间关系语义分析的方法,其特征在于,包括:
以维基百科英文正文文本为数据源,使用命名实体识别算法spaCy识别地理实体;
通过关系抽取算法Stanford OpenIE抽取所述地理实体之间的空间关系描述,获取地理实体三元组,并根据所述地理实体和所述地理实体三元组构建地名关系知识图谱;
利用Google Map的地理编码API进行地名搜索,获取所述地理实体三元组的地名类型以及地名坐标;
基于地名关系知识图谱并利用预设模型,通过联合训练的方式,结合地物类型,对地名-空间关系三元组进行嵌入计算,得到所述地理实体、地物类型和空间关系的嵌入向量,所述预设模型包括TransE、TransD或RotatE;
针对所述嵌入向量进行相似性计算和聚类分析,得到不同地理实体类型所对应的空间关系描述,以及相似性超过预设阈值的空间关系描述所对应的不同类型的地理实体。
2.如权利要求1所述的一种基于知识图谱的空间关系语义分析的方法,其特征在于,还包括:
利用坐标匹配方法使用Geonames地名词典分类体系对自然地物类型进行细化分类。
3.如权利要求2所述的一种基于知识图谱的空间关系语义分析的方法,其特征在于,所述利用Google Map的地理编码API进行地名搜索,获取所述地理实体三元组的地名类型以及地名坐标,具体包括:
从识别的所述地理实体中提取所有Google Map类型为Natural_feature的地名,以及利用地名编码所获取的地名坐标与Geonames地名词典分类体系的地名坐标进行最短距离匹配,得到Geonames中与所查找地名匹配成功的地名类型。
4.如权利要求1-3任一项所述的一种基于知识图谱的空间关系语义分析的方法,其特征在于,将未获取到地名类型以及地名坐标的地理实体三元组剔除。
5.如权利要求1所述的一种基于知识图谱的空间关系语义分析的方法,其特征在于,所述得到所述地理实体和空间关系的嵌入向量,之后还包括:利用T-SNE将所述嵌入向量进行降维并可视化。
6.如权利要求5所述的一种基于知识图谱的空间关系语义分析的方法,其特征在于,利用T-SNE将所述嵌入向量进行降维并可视化具体为:利用T-SNE对大量的地名及空间关系描述词嵌入进行语义层面的相似性可视化。
7.如权利要求6所述的一种基于知识图谱的空间关系语义分析的方法,其特征在于,得到不同地理实体类型所对应的空间关系描述,以及相似性超过预设阈值的空间关系描述所对应的不同类型的地理实体,之后还包括:在对地理实体及空间关系描述进行语义量化的基础上,进一步结合空间关系的定量化表达模型分析相似的空间关系描述与点线面几何构型的对应关系,从而从几何构型上细化空间关系表达的语义差异。
8.如权利要求7所述的一种基于知识图谱的空间关系语义分析的方法,其特征在于,从几何构型上细化空间关系表达的语义差异,具体包括:对于拓扑关系,采用九交模型加以刻画,对于方向关系,度量方法包括锥形方法、投影方法、MBR方法以及方向关系矩阵,对于度量关系,通过欧氏距离定量表达或Voronoi距离来定性表达。
9.如权利要求1所述的一种基于知识图谱的空间关系语义分析的方法,其特征在于,所述方法还包括:
通过嵌入向量的相似性计算,将存在包含关系的地名及空间关系的地理实体三元组聚为一类;
和/或,通过嵌入向量的相似性计算,将存在位置以及方位关系描述的地名及空间关系的地理实体三元组聚为一类。
CN202210208390.6A 2022-03-04 2022-03-04 一种基于知识图谱的空间关系语义分析的方法 Pending CN114564966A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210208390.6A CN114564966A (zh) 2022-03-04 2022-03-04 一种基于知识图谱的空间关系语义分析的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210208390.6A CN114564966A (zh) 2022-03-04 2022-03-04 一种基于知识图谱的空间关系语义分析的方法

Publications (1)

Publication Number Publication Date
CN114564966A true CN114564966A (zh) 2022-05-31

Family

ID=81717689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210208390.6A Pending CN114564966A (zh) 2022-03-04 2022-03-04 一种基于知识图谱的空间关系语义分析的方法

Country Status (1)

Country Link
CN (1) CN114564966A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114743059A (zh) * 2022-06-13 2022-07-12 自然资源部第二海洋研究所 一种综合地形地貌特征的海底地理实体自动分类方法
CN115080764A (zh) * 2022-07-21 2022-09-20 神州医疗科技股份有限公司 基于知识图谱及聚类算法的医学相似实体分类方法及系统
CN115129719A (zh) * 2022-06-28 2022-09-30 深圳市规划和自然资源数据管理中心 一种基于知识图谱的定性位置空间范围构建方法
CN116049501A (zh) * 2023-01-30 2023-05-02 北京化工大学 一种空间场景空间关系自然语言描述生成方法
CN116108059A (zh) * 2023-04-13 2023-05-12 中国科学院空天信息创新研究院 地理测绘分幅矢量数据单体化方法、装置及电子设备
CN116361399A (zh) * 2023-03-13 2023-06-30 北京百度网讯科技有限公司 知识推理方法、装置、设备和介质
CN116578676A (zh) * 2023-07-12 2023-08-11 中国测绘科学研究院 一种地名时空演化查询方法及系统
CN116975313A (zh) * 2023-09-25 2023-10-31 国网江苏省电力有限公司电力科学研究院 一种基于电力物资语料的语义标签生成方法和装置
CN117520485A (zh) * 2024-01-08 2024-02-06 卓世科技(海南)有限公司 基于知识图谱集成的大语言模型向量检索方法
CN117807252A (zh) * 2024-02-29 2024-04-02 创意信息技术股份有限公司 一种基于知识图谱的数据处理方法、装置、系统及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180045A (zh) * 2016-03-10 2017-09-19 中国科学院地理科学与资源研究所 一种互联网文本蕴含地理实体关系的抽取方法
CN112256888A (zh) * 2020-10-30 2021-01-22 南京师范大学 地理知识获取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180045A (zh) * 2016-03-10 2017-09-19 中国科学院地理科学与资源研究所 一种互联网文本蕴含地理实体关系的抽取方法
CN112256888A (zh) * 2020-10-30 2021-01-22 南京师范大学 地理知识获取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SAMONWISE: "mysql地名模糊匹配合并_调用百度地图API批量搜索地名并返回地址及坐标", 《HTTPS://BLOG.CSDN.NET/WEIXIN_33345728/ARTICLE/DETAILS/113948271》 *
开放知识图谱: "论文浅尝 | 基于属性嵌入的知识图谱实体对齐", 《HTTPS://BLOG.CSDN.NET/TGQDT3GGAMDKHASLZV/ARTICLE/DETAILS/88839814》 *
杜冲等: "基于地理语义的空间关系查询和推理", 《地球信息科学学报》 *
理查德•M.里斯: "《Java自然语言处理》", 31 July 2020, 机械工业出版社 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114743059A (zh) * 2022-06-13 2022-07-12 自然资源部第二海洋研究所 一种综合地形地貌特征的海底地理实体自动分类方法
CN114743059B (zh) * 2022-06-13 2022-09-06 自然资源部第二海洋研究所 一种综合地形地貌特征的海底地理实体自动分类方法
CN115129719A (zh) * 2022-06-28 2022-09-30 深圳市规划和自然资源数据管理中心 一种基于知识图谱的定性位置空间范围构建方法
CN115080764A (zh) * 2022-07-21 2022-09-20 神州医疗科技股份有限公司 基于知识图谱及聚类算法的医学相似实体分类方法及系统
CN115080764B (zh) * 2022-07-21 2022-11-01 神州医疗科技股份有限公司 基于知识图谱及聚类算法的医学相似实体分类方法及系统
CN116049501A (zh) * 2023-01-30 2023-05-02 北京化工大学 一种空间场景空间关系自然语言描述生成方法
CN116361399B (zh) * 2023-03-13 2024-04-02 北京百度网讯科技有限公司 知识推理方法、装置、设备和介质
CN116361399A (zh) * 2023-03-13 2023-06-30 北京百度网讯科技有限公司 知识推理方法、装置、设备和介质
CN116108059B (zh) * 2023-04-13 2023-07-14 中国科学院空天信息创新研究院 地理测绘分幅矢量数据单体化方法、装置及电子设备
CN116108059A (zh) * 2023-04-13 2023-05-12 中国科学院空天信息创新研究院 地理测绘分幅矢量数据单体化方法、装置及电子设备
CN116578676A (zh) * 2023-07-12 2023-08-11 中国测绘科学研究院 一种地名时空演化查询方法及系统
CN116578676B (zh) * 2023-07-12 2023-10-20 中国测绘科学研究院 一种地名时空演化查询方法及系统
CN116975313A (zh) * 2023-09-25 2023-10-31 国网江苏省电力有限公司电力科学研究院 一种基于电力物资语料的语义标签生成方法和装置
CN116975313B (zh) * 2023-09-25 2023-12-05 国网江苏省电力有限公司电力科学研究院 一种基于电力物资语料的语义标签生成方法和装置
CN117520485A (zh) * 2024-01-08 2024-02-06 卓世科技(海南)有限公司 基于知识图谱集成的大语言模型向量检索方法
CN117520485B (zh) * 2024-01-08 2024-03-29 卓世科技(海南)有限公司 基于知识图谱集成的大语言模型向量检索方法
CN117807252A (zh) * 2024-02-29 2024-04-02 创意信息技术股份有限公司 一种基于知识图谱的数据处理方法、装置、系统及存储介质
CN117807252B (zh) * 2024-02-29 2024-04-30 创意信息技术股份有限公司 一种基于知识图谱的数据处理方法、装置、系统及存储介质

Similar Documents

Publication Publication Date Title
CN114564966A (zh) 一种基于知识图谱的空间关系语义分析的方法
CN111639171B (zh) 一种知识图谱问答方法及装置
CN111353030B (zh) 基于旅游领域知识图谱的知识问答检索方法及装置
CN111522910B (zh) 一种基于文物知识图谱的智能语义检索方法
CN105512209A (zh) 一种基于特征自动学习的生物医学事件触发词识别方法
CN110309268A (zh) 一种基于概念图的跨语言信息检索方法
CN113535917A (zh) 基于旅游知识图谱的智能问答方法及系统
CN105045875A (zh) 个性化信息检索方法及装置
CN113515632B (zh) 基于图路径知识萃取的文本分类方法
Wang et al. Preference-based spatial co-location pattern mining
CN108763348A (zh) 一种扩展短文本词特征向量的分类改进方法
CN103440315B (zh) 一种基于主题的Web页面清洗方法
CN115438674B (zh) 实体数据处理、实体链接方法、装置和计算机设备
Chen et al. Georeferencing places from collective human descriptions using place graphs
CN112988917A (zh) 一种基于多种实体上下文的实体对齐方法
Xu et al. Extracting interrogative intents and concepts from geo-analytic questions
CN115129719B (zh) 一种基于知识图谱的定性位置空间范围构建方法
Mokhtari et al. Tagging address queries in maps search
CN114997288A (zh) 一种设计资源关联方法
CN114897167A (zh) 生物领域知识图谱构建方法及装置
Ma et al. Matching descriptions to spatial entities using a Siamese hierarchical attention network
CN112084312B (zh) 一种基于知识图构建的智能客服系统
Tang et al. Extracting invariant characteristics of sketch maps: Towards place query‐by‐sketch
Fornaciari et al. Identifying linguistic areas for geolocation
Wang et al. Road network link prediction model based on subgraph pattern

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination