CN111368011B - 知识图谱构建方法及装置、计算机设备及介质 - Google Patents

知识图谱构建方法及装置、计算机设备及介质 Download PDF

Info

Publication number
CN111368011B
CN111368011B CN202010141643.3A CN202010141643A CN111368011B CN 111368011 B CN111368011 B CN 111368011B CN 202010141643 A CN202010141643 A CN 202010141643A CN 111368011 B CN111368011 B CN 111368011B
Authority
CN
China
Prior art keywords
entity
main
attribute
exists
secondary entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010141643.3A
Other languages
English (en)
Other versions
CN111368011A (zh
Inventor
杨卓士
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN202010141643.3A priority Critical patent/CN111368011B/zh
Publication of CN111368011A publication Critical patent/CN111368011A/zh
Application granted granted Critical
Publication of CN111368011B publication Critical patent/CN111368011B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种知识图谱构建方法及装置、计算机设备及介质。该方法的一具体实施方式包括:根据是否带有属性将实体分为主要实体和次要实体,并进行数据表模式标定,得到主要实体、次要实体及主要实体与次要实体之间的关系;判断各次要实体在Neo4j图数据库中是否存在,若否,则导入次要实体;依次判断各主要实体在Neo4j图数据库中是否存在及存在的主要实体的属性属否存在,根据判断结果生成对应的Cypher语句;执行语句,以导入主要实体、其属性及其与次要实体之间的关系,实现知识图谱构建。该实施方式无需构建数据字典及抽取三元组,可对实体及关系进行自动导入,且在导入时不需暂停知识图谱对问答系统等提供的服务,可便捷快速地实现知识图谱的构建及扩展。

Description

知识图谱构建方法及装置、计算机设备及介质
技术领域
本发明涉及知识图谱技术领域。更具体地,涉及一种知识图谱构建方法及装置、计算机设备及介质。
背景技术
知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它能为学科研究提供切实的、有价值的参考。
Neo4j图数据库是一个高性能的NOSQL图形数据库,它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。目前,Neo4j图数据库在进行知识图谱构建时,在获取清洗后的数据后需要进行数据字典的构建以及三元组的抽取,这两个步骤需要消耗大量的时间,而Neo4j图数据库在进行大批量导入时又需要将抽取出来的属性表及关系表转换成固定的格式,并且需要将已经开始提供服务的图数据库暂停以重新导入所有数据,这无疑又增加了数据融合的难度。综上,现有的Neo4j图数据库进行知识图谱构建的方式存在工作量大、效率较低等诸多问题,且在实体导入时需要暂停Neo4j图数据库的运行,无法为可视化展示系统、问答系统等提供可靠的不间断运行服务。
因此,需要提供一种新的知识图谱构建方法及装置、计算机设备及介质。
发明内容
本发明的目的在于提供一种知识图谱构建方法及装置、计算机设备及介质,以解决现有技术存在的问题中的至少一个。
为达到上述目的,本发明采用下述技术方案:
本发明第一方面提供了一种知识图谱构建方法,包括:
根据实体是否带有属性将实体分为主要实体和次要实体,并进行数据表模式标定,得到主要实体、次要实体及主要实体与次要实体之间的关系;
判断各次要实体在Neo4j图数据库中是否存在,若否,则导入次要实体;
依次判断各主要实体在Neo4j图数据库中是否存在及存在的主要实体的属性属否存在,根据判断结果生成对应的Cypher语句;
执行所述Cypher语句,以导入主要实体、其属性及其与次要实体之间的关系,实现知识图谱构建。
本发明第一方面提供的知识图谱构建方法,无需构建数据字典及抽取三元组,可对实体及关系进行自动导入,且在导入时不需暂停知识图谱对可视化展示系统、问答系统等提供的运行服务,可便捷快速地实现知识图谱的构建及扩展。
可选地,所述依次判断各主要实体在Neo4j图数据库中是否存在及存在的主要实体的属性属否存在,根据判断结果生成对应的Cypher语句包括:
判断各主要实体在Neo4j图数据库中是否存在:
若主要实体不存在,则生成创建主要实体、其属性及其与次要实体之间的关系的Cypher语句;
若主要实体存在,则判断主要实体的属性属否存在:
若主要实体的属性不存在,则生成更新其属性及其与次要实体之间的关系的Cypher语句;
若主要实体的属性存在,则生成更新其与次要实体之间的关系的Cypher语句。
此可选方式可根据主要实体的具体情况自动生成对应的Cypher语句,从而可实现一次性导入主要实体、其所有属性及其与次要实体之间的所有关系,且在导入时不需暂停知识图谱对可视化展示系统、问答系统等提供的运行服务,可便捷快速地实现知识图谱的构建及扩展。
可选地,所述若主要实体不存在,则生成创建主要实体、其属性及其与次要实体之间的关系的Cypher语句包括:
若主要实体不存在,则为该主要实体赋予全局唯一标识,并生成创建主要实体、其属性及其与次要实体之间的关系的Cypher语句。
可选地,所述生成对应的Cypher语句包括:将预设结构的Cypher语句中的数据值进行相应替换,得到对应的Cypher语句。
此可选方式可简化Cypher语句自动生成的流程,可实现根据主要实体的具体情况快速准确地自动生成对应的Cypher语句。
可选地,所述执行所述Cypher语句包括:利用Python中的Py2neo外部库执行所述Cypher语句。
此可选方式可实现在导入时不需暂停知识图谱对可视化展示系统、问答系统等提供的运行服务,保证便捷快速地实现知识图谱的构建及扩展。
可选地,所述判断各次要实体在Neo4j图数据库中是否存在,若否,则导入次要实体包括:
判断各次要实体在Neo4j图数据库中是否存在:
若次要实体不存在,则判断次要实体是否存在于别名中:
若存在于别名中,则更新数据表中的次要实体名称;
若不存在于别名中,则为该次要实体赋予全局唯一标识,并导入次要实体。
可选地,所述导入次要实体包括采用Neo4j图数据库的Cypher语句的Unwind模式批量导入次要实体。
此可选方式可节省次要实体导入的时间,加快次要实体的导入速度。
可选地,所述知识图谱为艺术知识图谱,所述主要实体包括艺术作品,所述次要实体包括艺术家、艺术机构、艺术媒介、艺术流派中的至少一项。
本发明第二方面提供了一种执行本发明第一方面提供的方法的知识图谱构建装置,包括:
数据表模式标定模块,用于根据实体是否带有属性将实体分为主要实体和次要实体,并进行数据表模式标定,得到主要实体、次要实体及主要实体与次要实体之间的关系;
次要实体导入模块,用于判断各次要实体在Neo4j图数据库中是否存在,若否,则导入次要实体;
Cypher语句自动生成模块,用于依次判断各主要实体在Neo4j图数据库中是否存在及存在的主要实体的属性属否存在,根据判断结果生成对应的Cypher语句;
主要实体导入模块,用于执行所述Cypher语句,以导入主要实体、其属性及其与次要实体之间的关系,实现知识图谱构建。
本发明第三方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明第一方面提供的方法。
本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明第一方面提供的方法。
本发明的有益效果如下:
本发明所述技术方案,无需构建数据字典及抽取三元组,可对实体及关系进行自动导入,且在导入时不需暂停知识图谱对可视化展示系统、问答系统等提供的运行服务,可便捷快速地实现知识图谱的构建及扩展。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明;
图1示出本发明实施例提供的艺术知识图谱构建方法的流程图。
图2示出Schema结构标定及实体导入的流程图。
图3示出Cypher语句生成的流程图。
图4示出本发明实施例提供的艺术知识图谱构建装置的示意图。
图5示出实现本发明实施例提供的艺术知识图谱构建装置的计算机系统的结构示意图。
具体实施方式
为了更清楚地说明本发明,下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。
本发明的一个实施例提供了一种艺术知识图谱构建方法,以艺术知识图谱的构建为例进行说明,该方法具体为一种基于确定的数据表模式(Schema)的艺术知识图谱半自动构建方法,如图1所示,包括如下步骤:
Schema结构标定步骤:根据实体是否带有属性将实体分为主要实体和次要实体,并进行数据表模式标定,得到主要实体、次要实体及主要实体与次要实体之间的关系;
次要实体导入步骤:判断各次要实体在Neo4j图数据库中是否存在,若否,则导入次要实体;可理解的是,若次要实体在Neo4j图数据库中存在,则不进行操作;
Cypher语句自动生成步骤:依次判断各主要实体在Neo4j图数据库中是否存在及存在的主要实体的属性属否存在,根据判断结果生成对应的Cypher语句,其中,Cypher语句为导入语句;
主要实体导入步骤:执行生成的Cypher语句,以导入主要实体、其属性及其与次要实体之间的关系,实现艺术知识图谱构建。
本实施例提供的艺术知识图谱构建方法,无需构建数据字典及抽取三元组,可对实体及关系进行自动导入,且在导入时不需暂停艺术知识图谱对可视化展示系统、问答系统等提供的运行服务,可便捷快速地实现艺术知识图谱的构建及扩展,大幅缩减了人力成本及时间成本、减轻了知识图谱的构建难度。其中,将带有属性的实体作为主要实体的步骤,可在Neo4j图数据库导入的过程中,在创建带有属性的主要实体的同时创建主要实体与次要实体的关系,以节省创建艺术知识图谱中节点的时间。
在本实施例的一些可选的实现方式中,所述主要实体包括艺术作品,所述次要实体包括艺术家、艺术机构、艺术媒介、艺术流派中的至少一项。在一个具体示例中,艺术作品的属性包括艺术作品的各种信息,例如画作尺寸等。
在本实施例的一些可选的实现方式中,如图2所示,所述判断各次要实体在Neo4j图数据库中是否存在,若否,则导入次要实体包括:
判断各次要实体在Neo4j图数据库中是否存在:
若次要实体不存在,则判断次要实体是否存在于别名中:
若存在于别名中,则更新数据表中的次要实体名称;
若不存在于别名中,则为该次要实体赋予全局唯一标识(全局唯一ID),并导入次要实体。
在本实施例的一些可选的实现方式中,所述导入次要实体包括采用Neo4j图数据库的Cypher语句的Unwind模式批量导入次要实体。
此实现方式可节省次要实体导入的时间,加快次要实体的导入速度。
在本实施例的一些可选的实现方式中,如图2所示,所述依次判断各主要实体在Neo4j图数据库中是否存在及存在的主要实体的属性属否存在,根据判断结果生成对应的Cypher语句包括:
判断各主要实体在Neo4j图数据库中是否存在:
若主要实体不存在,则生成创建主要实体、其属性及其与次要实体之间的关系的Cypher语句;
若主要实体存在,则判断主要实体的属性是否存在:
若主要实体的属性不存在,则生成更新其属性及其与次要实体之间的关系的Cypher语句;
若主要实体的属性存在,则生成更新其与次要实体之间的关系的Cypher语句。
其中,对于主要实体的导入,先判断主要实体是否存在于Neo4j图数据库中,如果存在还需要判断其属性是否存在,如果属性不存在则需要对属性进行更新,确定主要实体存在形式后生成Cypher语句(导入语句),可实现一次性导入主要实体、其所有属性及其与次要实体之间的所有关系。综上,此实现方式可根据主要实体的具体情况自动生成对应的Cypher语句,从而可实现一次性导入主要实体、其所有属性及其与次要实体之间的所有关系,且在导入时不需暂停艺术知识图谱对可视化展示系统、问答系统等提供的运行服务,可便捷快速地实现艺术知识图谱的构建及扩展。
在本实施例的一些可选的实现方式中,如图2所示,所述若主要实体不存在,则生成创建主要实体、其属性及其与次要实体之间的关系的Cypher语句包括:
若主要实体不存在,则为该主要实体赋予全局唯一标识,并生成创建主要实体、其属性及其与次要实体之间的关系的Cypher语句。
在本实施例的一些可选的实现方式中,所述生成对应的Cypher语句包括:将预设结构的Cypher语句中的数据值进行相应替换,得到对应的Cypher语句。
此实现方式可简化Cypher语句自动生成的流程,可实现根据主要实体的具体情况快速准确地自动生成对应的Cypher语句。
在一个具体示例中,此实现方式的设计思路类似于预设有Cypher语句的模板语句,生成Cypher语句时对模板语句中的可变参数依据实际数据值进行替换,以更新主要实体属性及主要实体与次要实体之间的关系的Cypher语句为例,更新主要实体属性的Cypher语句中的数据值例如画作尺寸的具体数值。
在一个具体示例中,Cypher语句的自动生成的完整流程如图3所示,其中需要说明的是,属性名表和属性值表是对于编程语言而言的,并非对于数据库而言。
在本实施例的一些可选的实现方式中,所述执行所述Cypher语句包括:利用Python中的Py2neo外部库执行所述Cypher语句。
其中,数据表中每一行数据为一个基本执行单元,需要多次执行,执行过程中无需暂停Neo4j图数据库的运行,可直接对导入后的数据进行访问。
此实现方式可实现在导入时不需暂停艺术知识图谱对可视化展示系统、问答系统等提供的运行服务,即,在对已构建的艺术知识图谱进行扩展或者说增量导入时,解决了增量导入时已提供服务的Neo4j图数据库需要暂停服务的问题,可保证Neo4j图数据库的正常运行,实现其为可视化展示系统、问答系统等提供可靠的不间断运行服务。
如图4所示,本发明的另一个实施例提供了一种艺术知识图谱构建装置,包括:
数据表模式标定模块10,用于根据实体是否带有属性将实体分为主要实体和次要实体,并进行数据表模式标定,得到主要实体、次要实体及主要实体与次要实体之间的关系;
次要实体导入模块20,用于判断各次要实体在Neo4j图数据库中是否存在,若否,则导入次要实体;
Cypher语句自动生成模块30,用于依次判断各主要实体在Neo4j图数据库中是否存在及存在的主要实体的属性是否存在,根据判断结果生成对应的Cypher语句;
主要实体导入模块40,用于执行所述Cypher语句,以导入主要实体、其属性及其与次要实体之间的关系,实现艺术知识图谱构建。
在本实施例的一些可选的实现方式中,所述主要实体包括艺术作品,所述次要实体包括艺术家、艺术机构、艺术媒介、艺术流派中的至少一项。
在本实施例的一些可选的实现方式中,所述次要实体导入模块20,用于判断各次要实体在Neo4j图数据库中是否存在,若否,则导入次要实体包括:
次要实体导入模块20,用于:
判断各次要实体在Neo4j图数据库中是否存在:
若次要实体不存在,则判断次要实体是否存在于别名中:
若存在于别名中,则更新数据表中的次要实体名称;
若不存在于别名中,则为该次要实体赋予全局唯一标识,并导入次要实体。
在本实施例的一些可选的实现方式中,所述次要实体导入模块20,用于导入次要实体包括:次要实体导入模块20,用于采用Neo4j图数据库的Cypher语句的Unwind模式批量导入次要实体。
在本实施例的一些可选的实现方式中,所述Cypher语句自动生成模块30,用于依次判断各主要实体在Neo4j图数据库中是否存在及存在的主要实体的属性是否存在,根据判断结果生成对应的Cypher语句包括:
Cypher语句自动生成模块30,用于:
判断各主要实体在Neo4j图数据库中是否存在:
若主要实体不存在,则生成创建主要实体、其属性及其与次要实体之间的关系的Cypher语句;
若主要实体存在,则判断主要实体的属性是否存在:
若主要实体的属性不存在,则生成更新其属性及其与次要实体之间的关系的Cypher语句;
若主要实体的属性存在,则生成更新其与次要实体之间的关系的Cypher语句。
在本实施例的一些可选的实现方式中,所述Cypher语句自动生成模块30,用于:若主要实体不存在,则生成创建主要实体、其属性及其与次要实体之间的关系的Cypher语句包括:
Cypher语句自动生成模块30,用于:
若主要实体不存在,则为该主要实体赋予全局唯一标识,并生成创建主要实体、其属性及其与次要实体之间的关系的Cypher语句。
在本实施例的一些可选的实现方式中,所述Cypher语句自动生成模块30,用于生成对应的Cypher语句包括:Cypher语句自动生成模块30,用于将预设结构的Cypher语句中的数据值进行相应替换,得到对应的Cypher语句。
在本实施例的一些可选的实现方式中,所述主要实体导入模块40,用于执行所述Cypher语句包括:主要实体导入模块40,用于利用Python中的Py2neo外部库执行所述Cypher语句。
需要说明的是,本实施例提供的艺术知识图谱构建装置的原理及工作流程与上述艺术知识图谱构建方法相似,相关之处可以参照上述说明,在此不再赘述。
如图5所示,适于用来实现本实施例提供的知识图谱构建装置的计算机系统,包括中央处理模块(CPU),其可以根据存储在只读存储器(ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有计算机系统操作所需的各种程序和数据。CPU、ROM以及RAM通过总线被此相连。输入/输入(I/O)接口也连接至总线。
以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
特别地,根据本实施例,上文流程图描述的过程可以被实现为计算机软件程序。例如,本实施例包括一种计算机程序产品,其包括有形地包含在计算机可读介质上的计算机程序,上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。
附图中的流程图和示意图,图示了本实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或示意图中的每个方框可以代表一个模块、程序段或代码的一部分,上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,示意图和/或流程图中的每个方框、以及示意和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器,包括数据表模式标定模块、次要实体导入模块、Cypher语句自动生成模块和主要实体导入模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。例如,数据表模式标定模块还可以被描述为“Schema结构标定”。
作为另一方面,本实施例还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中上述装置中所包含的非易失性计算机存储介质,也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当上述一个或者多个程序被一个设备执行时,使得上述设备:根据实体是否带有属性将实体分为主要实体和次要实体,并进行数据表模式标定,得到主要实体、次要实体及主要实体与次要实体之间的关系;判断各次要实体在Neo4j图数据库中是否存在,若否,则导入次要实体;依次判断各主要实体在Neo4j图数据库中是否存在及存在的主要实体的属性是否存在,根据判断结果生成对应的Cypher语句;执行生成的Cypher语句,以导入主要实体、其属性及其与次要实体之间的关系,实现艺术知识图谱构建。
需要说明的是,在本发明的描述中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于本领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (10)

1.一种知识图谱构建方法,其特征在于,包括:
根据实体是否带有属性将实体分为主要实体和次要实体,并进行数据表模式标定,得到主要实体、次要实体及主要实体与次要实体之间的关系;
判断各次要实体在Neo4j图数据库中是否存在,若否,则导入次要实体;
依次判断各主要实体在Neo4j图数据库中是否存在及存在的主要实体的属性是否存在,根据判断结果生成对应的Cypher语句;
执行所述Cypher语句,以导入主要实体、其属性及其与次要实体之间的关系,实现知识图谱构建;
所述依次判断各主要实体在Neo4j图数据库中是否存在及存在的主要实体的属性是否存在,根据判断结果生成对应的Cypher语句包括:
判断各主要实体在Neo4j图数据库中是否存在:
若主要实体不存在,则生成创建主要实体、其属性及其与次要实体之间的关系的Cypher语句;
若主要实体存在,则判断主要实体的属性是否存在:
若主要实体的属性不存在,则生成更新其属性及其与次要实体之间的关系的Cypher语句;
若主要实体的属性存在,则生成更新其与次要实体之间的关系的Cypher语句。
2.根据权利要求1所述的方法,其特征在于,所述若主要实体不存在,则生成创建主要实体、其属性及其与次要实体之间的关系的Cypher语句包括:
若主要实体不存在,则为该主要实体赋予全局唯一标识,并生成创建主要实体、其属性及其与次要实体之间的关系的Cypher语句。
3.根据权利要求1所述的方法,其特征在于,所述生成对应的Cypher语句包括:将预设结构的Cypher语句中的数据值进行相应替换,得到对应的Cypher语句。
4.根据权利要求3所述的方法,其特征在于,所述执行所述Cypher语句包括:利用Python中的Py2neo外部库执行所述Cypher语句。
5.根据权利要求1所述的方法,其特征在于,所述判断各次要实体在Neo4j图数据库中是否存在,若否,则导入次要实体包括:
判断各次要实体在Neo4j图数据库中是否存在:
若次要实体不存在,则判断次要实体是否存在于别名中:
若存在于别名中,则更新数据表中的次要实体名称;
若不存在于别名中,则为该次要实体赋予全局唯一标识,并导入次要实体。
6.根据权利要求5所述的方法,其特征在于,所述导入次要实体包括采用Neo4j图数据库的Cypher语句的Unwind模式批量导入次要实体。
7.根据权利要求1所述的方法,其特征在于,所述知识图谱为艺术知识图谱,所述主要实体包括艺术作品,所述次要实体包括艺术家、艺术机构、艺术媒介、艺术流派中的至少一项。
8.一种执行如权利要求1-7中任一项所述方法的知识图谱构建装置,其特征在于,包括:
数据表模式标定模块,用于根据实体是否带有属性将实体分为主要实体和次要实体,并进行数据表模式标定,得到主要实体、次要实体及主要实体与次要实体之间的关系;
次要实体导入模块,用于判断各次要实体在Neo4j图数据库中是否存在,若否,则导入次要实体;
Cypher语句自动生成模块,用于依次判断各主要实体在Neo4j图数据库中是否存在及存在的主要实体的属性是否存在,根据判断结果生成对应的Cypher语句;
主要实体导入模块,用于执行所述Cypher语句,以导入主要实体、其属性及其与次要实体之间的关系,实现知识图谱构建。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
CN202010141643.3A 2020-03-03 2020-03-03 知识图谱构建方法及装置、计算机设备及介质 Active CN111368011B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010141643.3A CN111368011B (zh) 2020-03-03 2020-03-03 知识图谱构建方法及装置、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010141643.3A CN111368011B (zh) 2020-03-03 2020-03-03 知识图谱构建方法及装置、计算机设备及介质

Publications (2)

Publication Number Publication Date
CN111368011A CN111368011A (zh) 2020-07-03
CN111368011B true CN111368011B (zh) 2023-10-13

Family

ID=71204285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010141643.3A Active CN111368011B (zh) 2020-03-03 2020-03-03 知识图谱构建方法及装置、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN111368011B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111813914B (zh) * 2020-07-13 2021-07-06 龙马智芯(珠海横琴)科技有限公司 基于字典树的问答方法、装置、识别设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245244A (zh) * 2019-06-20 2019-09-17 贵州电网有限责任公司 一种基于海量文本数据的人事关系知识图谱构建方法
CN110597999A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10366161B2 (en) * 2017-08-02 2019-07-30 International Business Machines Corporation Anaphora resolution for medical text with machine learning and relevance feedback

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245244A (zh) * 2019-06-20 2019-09-17 贵州电网有限责任公司 一种基于海量文本数据的人事关系知识图谱构建方法
CN110597999A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陶耀东 等.一种基于知识图谱的工业互联网安全漏洞研究方法.信息技术与网络安全.2020,第39卷(第39期),第7-12页. *

Also Published As

Publication number Publication date
CN111368011A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN108920588B (zh) 一种用于人机交互的知识图谱更新方法及系统
US9047346B2 (en) Reporting language filtering and mapping to dimensional concepts
CN106598612B (zh) 一种数据库中数据表的操作方法及系统
CN103810212A (zh) 一种数据库索引的自动创建方法及系统
KR102299744B1 (ko) 지식 그래프 중의 데이터 모델을 획득하는 방법, 장치, 기기 및 저장 매체
CN105808437A (zh) 基于测试用例数据表的自动化测试方法及系统
CN111124379B (zh) 页面生成方法、装置、电子设备及存储介质
US20070240099A1 (en) Flexible attribute management in workflow processing systems
Roelofs AIMMS 3. 10 Language Reference
CN111159220A (zh) 用于输出结构化查询语句的方法和装置
CN111967234A (zh) 可视化报表的生成方法、装置、终端设备和存储介质
CN111368011B (zh) 知识图谱构建方法及装置、计算机设备及介质
CN113687825B (zh) 一种软件模块的构建方法、装置、设备及存储介质
JPH10254689A (ja) クライアント・サーバシステムのアプリケーション構成設計支援方式
Dombrowski et al. Introduction to Jupyter Notebooks
CN110222047A (zh) 一种动态表单生成方法和装置
CN111061733A (zh) 数据处理方法、装置、电子设备和计算机可读存储介质
CN108694172B (zh) 信息输出方法和装置
CN113672699A (zh) 基于知识图谱的nl2sql生成方法
CN115878818B (zh) 一种地理知识图谱构建方法、装置、终端及存储介质
CN112559455B (zh) 基于语义网络技术的ifc数据管理系统和方法
CN114020774A (zh) 多轮问答语句的处理方法、装置、设备及存储介质
CN110414006B (zh) 文本的主题标注方法、装置、电子设备及存储介质
CN111459830A (zh) 测试案例生成方法及装置
CN112988781A (zh) 数据查询方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant