CN112905808A - 知识图谱的构建方法及装置、电子设备 - Google Patents

知识图谱的构建方法及装置、电子设备 Download PDF

Info

Publication number
CN112905808A
CN112905808A CN202110331430.1A CN202110331430A CN112905808A CN 112905808 A CN112905808 A CN 112905808A CN 202110331430 A CN202110331430 A CN 202110331430A CN 112905808 A CN112905808 A CN 112905808A
Authority
CN
China
Prior art keywords
knowledge graph
data
constructed
triple information
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110331430.1A
Other languages
English (en)
Inventor
张虎
刘同林
贾鹏
胡丽
张高科
王凌
董昆
史聪莉
张进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Research Institute of Mechanical and Electrical Technology
Original Assignee
Beijing Research Institute of Mechanical and Electrical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Research Institute of Mechanical and Electrical Technology filed Critical Beijing Research Institute of Mechanical and Electrical Technology
Priority to CN202110331430.1A priority Critical patent/CN112905808A/zh
Publication of CN112905808A publication Critical patent/CN112905808A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了知识图谱的构建方法及装置、电子设备,该方法包括:确定当前原始数据的至少一个第一三元组信息,其中,每一个第一三元组信息中包含两个实体、两个实体之间的关系或者实体属性信息;根据每一条原始数据中的至少一个第一三元组信息和每至少一个第二三元组信息,生成待构建知识图谱的本体库并生成待构建知识图谱;当监测到原始数据库中存在一条新增原始数据时,确定新增原始数据的至少一个新增第一三元组信息和对应的至少一个新增第二三元组信息;根据至少一个新增第一三元组信息和至少一个新增第二三元组信息,更新本体库;根据更新后的本体库,更新待构建知识图谱。本方案能够提高知识图谱构建的智能化程度。

Description

知识图谱的构建方法及装置、电子设备
技术领域
本发明涉及计算机技术领域,特别涉及知识图谱的构建方法及装置、电子设备。
背景技术
随着大数据时代的到来,知识图谱应运而生。知识图谱是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及他们之间的相互联系,在工业领域得到了广泛应用。
现有的知识图谱一般通过数据采集、数据处理和数据库重构、知识转化和实战应用五个步骤,运用分布式存储、关联算法、语义推理等技术,再基于实体的属性联系、时空联系、语义联系、特征联系等建立相互的关系,即可构建一张多维多层的实体与实体、实体与事件的知识图谱。然而,现有技术的知识图谱构建的智能化程度较低。
发明内容
本发明实施例提供了知识图谱的构建方法及装置、电子设备,可以提高知识图谱构建的智能化程度。
第一方面,本发明实施例提供了知识图谱的构建方法,该方法包括:
从原始数据库中获取至少一条原始数据;
针对所述至少一条原始数据中的每一条原始数据,确定所述当前原始数据的至少一个第一三元组信息,其中,每一个所述第一三元组信息中包含两个实体、所述两个实体之间的关系或者实体属性信息;
根据每一条所述原始数据中的至少一个第一三元组信息,构建知识图谱的模式层和知识图谱的数据层,其中,所述知识图谱的模式层包括至少一个第二三元组信息,每一个所述第二三元组信息中包含两个本体、所述两个本体之间的关系或者本体属性信息,所述两个实体为所述两个本体对应的实例,所述知识图谱的数据层包含所述至少一个第一三元组信息;
根据所述知识图谱的模式层和所述知识图谱的数据层,生成待构建知识图谱的本体库;
根据所述待构建知识图谱的本体库,生成待构建知识图谱;
当监测到所述原始数据库中存在一条所述新增原始数据时,确定所述新增原始数据的至少一个新增第一三元组信息和对应的至少一个新增第二三元组信息;
根据所述至少一个新增第一三元组信息和所述至少一个新增第二三元组信息,更新所述本体库;
根据更新后的所述本体库,更新所述待构建知识图谱。
优选地,
所述至少一条原始数据包括:结构化原始数据、半结构化原始数据和非结构化原始数据;
所述针对所述至少一条原始数据中的每一条原始数据,确定所述当前原始数据中的至少一个第一三元组信息包括:
D1:确定所述当前原始数据是否为所述结构化原始数据,若是,执行步骤D2,否则,执行步骤D3;
D2:将所述结构化原始数据确定为一个所述第一三元组信息;
D3:确定所述当前原始数据是否为所述半结构化原始数据,若是,执行步骤D4,否则,执行步骤D6;
D4:解析所述当前原始数据;
D5:将所述解析后的当前原始数据作为一个所述第一三元组信息;
D6:确定所述当前原始数据是否为非结构化原始数据;
D7:在确定出所述当前原始数据为所述非结构化原始数据时,抽取所述当前原始数据中的一个所述第一三元组信息。
优选地,
所述根据所述待构建知识图谱的本体库,生成待构建知识图谱,包括:
将每一个所述第一三元组中所包含的两个实体分别作为所述待构建知识图谱的两个节点,其中,所述两个实体与所述待构建知识图谱中的实体定义相同;
将每一个所述第一三元组中所包含的所述两个实体之间的关系或者实体属性信息作为所述待构建知识图谱的边,其中,所述两个实体之间的关系或者实体属性定义与所述待构建知识图谱中的所述两个实体之间的关系定义或者实体属性定义相同;
根据每一个所述第一三元组所构建的所述两个节点和所述边,生成待构建知识图谱。
优选地,
所述根据所述至少一个新增第一三元组信息和所述至少一个新增第二三元组信息,更新所述本体库,包括:
将所述至少一个新增第一三元组信息添加至所述待构建知识图谱的数据层;
将所述至少一个新增第二三元组信息添加至所述待构建知识图谱的模式层,以生成更新后的本体库。
优选地,
所述原始数据包括:至少一条公共安全领域的犯罪记录、舆情监测和热点事件。
第二方面,本发明实施例提供了知识图谱的构建装置,包括:
获取模块,用于从原始数据库中获取至少一条原始数据;
确定模块,用于针对所述获取模块获取到的所述至少一条原始数据中的每一条原始数据,确定所述当前原始数据的至少一个第一三元组信息,其中,每一个所述第一三元组信息中包含两个实体、所述两个实体之间的关系或者实体属性信息;
处理模块,用于根据所述确定模块确定的每一条所述原始数据中的至少一个第一三元组信息,构建知识图谱的模式层和知识图谱的数据层,其中,所述知识图谱的模式层包括至少一个第二三元组信息,每一个所述第二三元组信息中包含两个本体、所述两个本体之间的关系或者本体属性信息,所述两个实体为所述两个本体对应的实例,所述知识图谱的数据层包含所述至少一个第一三元组信息;
图谱构建模块,用于根据所述处理模块得到的所述知识图谱的模式层和所述知识图谱的数据层,生成待构建知识图谱的本体库;根据所述待构建知识图谱的本体库,生成待构建知识图谱;当监测到所述原始数据库中存在一条所述新增原始数据时,确定所述新增原始数据的至少一个新增第一三元组信息和对应的至少一个新增第二三元组信息;根据所述至少一个新增第一三元组信息和所述至少一个新增第二三元组信息,更新所述本体库;根据更新后的所述本体库,更新所述待构建知识图谱。
优选地,
所述至少一条原始数据包括:结构化原始数据、半结构化原始数据和非结构化原始数据;
所述确定模块,用于执行:
D1:确定所述当前原始数据是否为所述结构化原始数据,若是,执行步骤D2,否则,执行步骤D3;
D2:将所述结构化原始数据确定为一个所述第一三元组信息;
D3:确定所述当前原始数据是否为所述半结构化原始数据,若是,执行步骤D4,否则,执行步骤D6;
D4:解析所述当前原始数据;
D5:将所述解析后的当前原始数据作为一个所述第一三元组信息;
D6:确定所述当前原始数据是否为非结构化原始数据;
D7:在确定出所述当前原始数据为所述非结构化原始数据时,抽取所述当前原始数据中的一个所述第一三元组信息。
优选地,
所述图谱构建模块,用于将每一个所述第一三元组中所包含的两个实体分别作为所述待构建知识图谱的两个节点,其中,所述两个实体与所述待构建知识图谱中的实体定义相同;将每一个所述第一三元组中所包含的所述两个实体之间的关系或者实体属性信息作为所述待构建知识图谱的边,其中,所述两个实体之间的关系或者实体属性定义与所述待构建知识图谱中的所述两个实体之间的关系定义或者实体属性定义相同;根据每一个所述第一三元组所构建的所述两个节点和所述边,生成待构建知识图谱。
优选地,
所述图谱构建模块,还用于将所述至少一个新增第一三元组信息添加至所述待构建知识图谱的数据层;将所述至少一个新增第二三元组信息添加至所述待构建知识图谱的模式层,以生成更新后的本体库。
第三方面,本发明实施例提供了电子设备,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行第一方面中任一所述的方法。
本发明实施例提供了知识图谱的构建方法及装置、电子设备,由于知识图谱是存储在图数据库中的所有数据构成的庞大的实体关系网络,因此,实体关系是知识图谱构建的关键,故可以从原始数据出发,基于原始数据库中每一条原始数据,确定当前原始数据的至少一个第一三元组信息,而第一三元组信息中可以包含两个实体、两个实体之间的关系或者实体属性信息,然后基于第一三元组信息可以确定任意两个实体之间的关系或者特定实体的属性,并构建知识图谱的模式层和数据层,以便生成待构建知识图谱的本体库。通过本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体之间的属性等对象之间的联系,再通过本体库生成待构建知识图谱,同时在检测到原始数据库中存在新增原始数据时,可以基于新增原始数据确定新增原始数据的至少一个新增第一三元组信息,并将该新增第一三元组信息更新至本体库,并通过更新后的本体库更新原有的待构建知识图谱。通过上述方式,可以及时地监测原始数据库的原始数据状态,实现本体库的自动构建并进而及时地更新待构建知识图谱,从而可以提高知识图谱构建的智能化程度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种知识图谱的构建方法的流程图;
图2是本发明一实施例提供的另一种知识图谱的构建方法的流程图;
图3是本发明一实施例提供的一种知识图谱的构建装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了知识图谱的构建方法,该方法可以包括以下步骤:
步骤101:从原始数据库中获取至少一条原始数据;
步骤102:针对至少一条原始数据中的每一条原始数据,确定当前原始数据的至少一个第一三元组信息,其中,每一个第一三元组信息中包含两个实体、两个实体之间的关系或者实体属性信息;
步骤103:根据每一条原始数据中的至少一个第一三元组信息,构建知识图谱的模式层和知识图谱的数据层,其中,知识图谱的模式层包括至少一个第二三元组信息,每一个第二三元组信息中包含两个本体、两个本体之间的关系或者本体属性信息,两个实体为两个本体对应的实例,知识图谱的数据层包含至少一个第一三元组信息;
步骤104:根据知识图谱的模式层和知识图谱的数据层,生成待构建知识图谱的本体库;
步骤105:根据待构建知识图谱的本体库,生成待构建知识图谱;
步骤106:当监测到原始数据库中存在一条新增原始数据时,确定新增原始数据的至少一个新增第一三元组信息和对应的至少一个新增第二三元组信息;
步骤107:根据至少一个新增第一三元组信息和至少一个新增第二三元组信息,更新本体库;
步骤108:根据更新后的本体库,更新待构建知识图谱。
在本发明实施例中,由于知识图谱是存储在图数据库中的所有数据构成的庞大的实体关系网络,因此,实体关系是知识图谱构建的关键,故可以从原始数据出发,基于原始数据库中每一条原始数据,确定当前原始数据的至少一个第一三元组信息,而第一三元组信息中可以包含两个实体、两个实体之间的关系或者实体属性信息,然后基于第一三元组信息可以确定任意两个实体之间的关系或者特定实体的属性,并构建知识图谱的模式层和数据层,以便生成待构建知识图谱的本体库。通过本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体之间的属性等对象之间的联系,再通过本体库生成待构建知识图谱,同时在检测到原始数据库中存在新增原始数据时,可以基于新增原始数据确定新增原始数据的至少一个新增第一三元组信息,并将该新增第一三元组信息更新至本体库,并通过更新后的本体库更新原有的待构建知识图谱。通过上述方式,可以及时地监测原始数据库的原始数据状态,实现本体库的自动构建并进而及时地更新待构建知识图谱,从而可以提高知识图谱构建的智能化程度。
为了进行数据处理,在本发明一实施例中,上述实施例中的至少一条原始数据包括:结构化原始数据、半结构化原始数据和非结构化原始数据;
上述实施例中的步骤102,具体可以如下方式实现:
D1:确定当前原始数据是否为结构化原始数据,若是,执行步骤D2,否则,执行步骤D3;
D2:将结构化原始数据确定为一个第一三元组信息;
D3:确定当前原始数据是否为半结构化原始数据,若是,执行步骤D4,否则,执行步骤D6;
D4:解析当前原始数据;
D5:将解析后的当前原始数据作为一个第一三元组信息;
D6:确定当前原始数据是否为非结构化原始数据;
D7:在确定出当前原始数据为非结构化原始数据时,抽取当前原始数据中的一个第一三元组信息。
在本发明实施例中,原始数据按照数据的结构化程度可以划分为:结构化原始数据、半结构化原始数据和非结构化原始数据。根据原始数据的不同的结构化形式,可以采用不同的方法,将原始数据转换为第一三元组的形式。比如,针对结构化原始数据,通常是关系型数据库的数据,数据结构清晰,把关系型数据库中的原始数据可以转换为RDF数据,一般采用的是D2R技术,D2R主要包括D2R Server,D2RQ Engine和D2RRQ Mapping语言;半结构化原始数据,主要是指那些具有一定的数据结构,但需要进一步提取整理的数据。比如百科的数据,网页中的数据等。对于这类数据,主要采用包装器的方式进行处理;对于非结构化原始数据,需要进行包括实体、实体关系和特定实体属性的知识抽取。
为了生成待构建知识图谱,在本发明一实施例中,上述实施例中的步骤104,具体可以通过如下方式实现:
将每一个第一三元组中所包含的两个实体分别作为待构建知识图谱的两个节点,其中,两个实体与待构建知识图谱中的实体定义相同;
将每一个第一三元组中所包含的两个实体之间的关系或者实体属性信息作为待构建知识图谱的边,其中,两个实体之间的关系或者实体属性定义与待构建知识图谱中的两个实体之间的关系定义或者实体属性定义相同;
根据每一个第一三元组所构建的两个节点和边,生成待构建知识图谱。
在本发明实施例中,知识图谱是由节点和边形成的反映知识结构的图形,在知识图谱中,节点表示实体,边表示实体间的关系,而第一三元组信息中包含两个实体、两个实体之间的关系和特定实体的属性,故可以将第一三元组信息中的两个实体、两个实体之间的关系和特定实体的属性映射到知识图谱的每一个节点和边中,在此过程中,在第一三元组信息和知识图谱中的实体定义、属性定义和关系定义必须保持一致,以能够为将第一三元组信息中所包含的两个实体、两个实体之间的关系和特定实体的属性映射到知识图谱中的对应的节点和边提供基础,从而提高待构建知识图谱构建的智能化程度。
为了对本体库进行更新,在本发明一实施例中,上述实施例中的步骤107中根据至少一个新增第一三元组信息和至少一个新增第二三元组信息,更新本体库,具体可以通过如下方式实现:
将至少一个新增第一三元组信息添加至待构建知识图谱的数据层;
将至少一个新增第二三元组信息添加至待构建知识图谱的模式层,以生成更新后的本体库。
在本发明实施例中,当监测到原始数据库中存在一条新增原始数据时,可以基于该新增原始数据通过上述实施例中的方式确定至少一个新增第一三元组信息和至少一个新增第二三元组信息,并将至少一个新增第一三元组信息添加至待构建知识图谱的数据层,将至少一个新增第二三元组信息添加至待构建知识图谱的模式层,以能够实现对本体库的更新,并基于更新后的本体库生成更新后的待构建知识图谱。
为了为公共安全领域行为分析提供知识支撑,在本发明一实施例中,上述实施例中的原始数据包括:至少一条公共安全领域的犯罪记录、舆情监测和热点事件。
在本发明实施例中,公共安全领域每天都会产生海量数据(比如,犯罪记录),包括:互联网数据、专业数据和政府数据等,把互不相干的原始数据形成知识,并根据关联关系连成一个“语义网络”,可以构建通用知识图谱和领域知识图谱,通用知识图谱包括:网络搜索、推荐等场景,通过将知识图谱构建应用于公共安全领域,可以为上层智能应用提供基础设施支撑。运用分布式存储、关联算法、语义推理等技术,再基于实体的属性联系、时空联系、语义联系、特征联系等建立相互的关系,即可构建公共安全领域的知识图谱,实现公共安全技术与业务的深度融合。
在本发明一实施例中,通过构建公共安全领域自主学习知识图谱方法,能够为指挥决策者提供快速掌握相关知识,了解整体发展态势,关联引申各种线索,从而提供辅助决策的能力,提高指挥决策的准确性。自主学习知识图谱将形成基于信息、知识和智能应用形成闭环。从信息中获取知识,基于知识开发智能应用,智能应用产生新的信息,从新的信息中再获取新的知识,不断迭代,就可以不断产生更加丰富的知识图谱,支撑更加智能的应用,从而提高知识图谱构建的智能化程度。
如图2所示,为了更加详细地阐述本发明的技术方案,本发明实施例提供了知识图谱的构建方法,该方法包括:
步骤201:从原始数据库中获取至少一条原始数据,其中,至少一条原始数据包括:结构化原始数据、半结构化原始数据和非结构化原始数据。
具体地,该原始数据可以从互联网、基础知识库、专业数据库获取公共安全领域的多源数据,可以应用于面向公共安全领域的知识学习、挖掘类的业务,包括舆情监测、热点跟踪、涉事人情感倾向分析等等,通过网络爬虫自动获取最新的网络信息数据,运用知识图谱自动构建技术,动态更新和扩充现有知识库,为公共安全领域行为分析提供知识支撑。
举例来说,原始数据假设为1992年的张三在长城大厦偷窃一辆奥迪车。
步骤202:确定当前原始数据是否为结构化原始数据,若是,执行步骤203,否则,执行步骤204。
步骤203:将结构化原始数据确定为一个第一三元组信息,其中,每一个第一三元组信息中包含两个实体、两个实体之间的关系或者实体属性信息,执行步骤208。
步骤204:确定当前原始数据是否为半结构化原始数据,若是,执行步骤205,否则,执行步骤206。
步骤205:解析当前原始数据,将解析后的当前原始数据作为一个第一三元组信息,执行步骤208。
步骤206:确定当前原始数据是否为非结构化原始数据。
步骤207:在确定出当前原始数据为非结构化原始数据时,抽取当前原始数据中的一个第一三元组信息,执行步骤208。
具体地,对公共安全领域多源数据进行实体识别,命名实体识别是自然语言处理的基础且重要的处理环节。命名实体识别直接决定了后续数据的准确率。对实体识别后的公共安全领域多源数据进行关系抽取,关系抽取作为知识图谱构建的重要环节,直接决定了知识图谱构建的数据质量。关系抽取可以采用的模型为:BERT+双向GRU+Attention+FC,其中BERT用来提取文本的特征,Attention为注意力机制层,FC为全连接层知识概览是类百科的一种知识描述,可以查询各个实体的数据指标以及通过推荐算法实现的智能匹配推荐等。
举例来说,基于上述分析可知原始数据为非结构化的原始数据,需要抽取至少一个三元组,假设为张三—偷窃—长城大厦;张三—年龄—1992。
步骤208:根据每一条原始数据中的至少一个第一三元组信息,构建知识图谱的模式层和知识图谱的数据层,其中,知识图谱的模式层包括至少一个第二三元组信息,每一个第二三元组信息中包含两个本体、两个本体之间的关系或者本体属性信息,两个实体为两个本体对应的实例,知识图谱的数据层包含至少一个第一三元组信息。
步骤209:根据所述知识图谱的模式层和所述知识图谱的数据层,生成待构建知识图谱的本体库。
举例来说,模式层为:人名—事件—地点;人名—年龄—时间;
数据层为:张三—偷窃—长城大厦;张三—年龄—1992。
步骤210:将每一个第一三元组中所包含的两个实体分别作为待构建知识图谱的两个节点,其中,两个实体与待构建知识图谱中的实体定义相同。
步骤211:将每一个第一三元组中所包含的两个实体之间的关系或者实体属性信息作为待构建知识图谱的边,其中,两个实体之间的关系或者实体属性定义与待构建知识图谱中的两个实体之间的关系定义或者实体属性定义相同。
步骤212:根据本体库中每一个第一三元组构建知识图谱的节点和边,生成待构建知识图谱。
举例来说,以第二三元组人名—事件—地点为例,则节点为人名和地点,边为事件,即以张三和长城大厦为节点、偷窃为边可以生成最基础的知识图谱,反映张三和长城大厦之间的关系。
具体地,根据公共安全领域数据中数据模型的形式,结合实际应用中的经验,可以基于图的本体模式,获取、描述和表示相关领域的知识,构建公共安全领域的本体库,节点表示实体,边表示实体间的关系,并基于本体库生成待构建知识图谱,提供对该领域知识的共同理解,确定领域内共同认可的词汇,从不同层次的形式化模式上给出了这些词汇和词汇间相互关系的明确定义。通过本体知识的构建,形成知识库,将知识库以图数据库的形式进行存储,以便后续支持数据的查询、问答、展示等应用。
步骤213:当监测到原始数据库中存在一条新增原始数据时,确定新增原始数据的至少一个新增第一三元组信息和对应的至少一个新增第二三元组信息。
步骤214:将所述至少一个新增第一三元组信息添加至所述待构建知识图谱的数据层;将所述至少一个新增第二三元组信息添加至所述待构建知识图谱的模式层,以生成更新后的本体库,并根据更新后的本体库,更新待构建知识图谱。
具体地,可以利用知识获取技术、机器学习技术以及统计技术等从数据资源中自动获取领域本体知识。本体库自动构建主要涉及到两种方法:一种是基于语言规则的方法,另一种是基于统计分析的机器学习方法。基于语言规则的方法,主要指基于语义模式,从自然语言文本构建本体,通过对自然语言文本的分析,提取候选关系并将其映射到语义表示中,实现本体的构建。基于统计分析的机器学习方法,主要是基于数据聚类和模式树挖掘,进行结构化的本体构建。不同的知识库,收集知识的侧重点不同,对于同一个实体,有知识库的可能侧重于其本身某个方面的描述,有的知识库可能侧重于描述实体与其它实体的关系,可以通过知识融合的方式将不同知识库对实体的描述进行整合,从而获得实体的完整描述,可以通过实体消歧、知识清洗等方式进行知识融合。
举例来说,对于历史人物曹操的描述,在百度百科、互动百科、维基百科等不同的知识库中,描述有一些差别,曹操所属时代,百度百科为东汉,互动百科为东汉末年,维基百科为东汉末期;曹操的主要成就,百度百科为“实行屯田制,安抚流民消灭群雄,统一北方,奠定曹魏政权的基础,开创建安文学,提倡薄葬”,互动百科为“统一北方”,维基百科为“统一了东汉帝国核心地区”。
如图3所示,本发明实施例提供了知识图谱的构建装置,包括:
获取模块301,用于从原始数据库中获取至少一条原始数据;
确定模块302,用于针对获取模块301获取到的至少一条原始数据中的每一条原始数据,确定当前原始数据的至少一个第一三元组信息,其中,每一个第一三元组信息中包含两个实体、两个实体之间的关系或者实体属性信息;
处理模块303,用于根据确定模块302确定的每一条原始数据中的至少一个第一三元组信息,构建知识图谱的模式层和知识图谱的数据层,其中,知识图谱的模式层包括至少一个第二三元组信息,每一个第二三元组信息中包含两个本体、两个本体之间的关系或者本体属性信息,两个实体为两个本体对应的实例,知识图谱的数据层包含至少一个第一三元组信息;
图谱构建模块304,用于根据处理模块303得到的知识图谱的模式层和知识图谱的数据层,生成待构建知识图谱的本体库;根据待构建知识图谱的本体库,生成待构建知识图谱;当监测到原始数据库中存在一条新增原始数据时,确定新增原始数据的至少一个新增第一三元组信息和对应的至少一个新增第二三元组信息;根据至少一个新增第一三元组信息和至少一个新增第二三元组信息,更新本体库;根据更新后的本体库,更新待构建知识图谱。
在本发明实施例中,由于知识图谱是存储在图数据库中的所有数据构成的庞大的实体关系网络,因此,实体关系是知识图谱构建的关键,故可以从原始数据出发,基于获取模块获取到的原始数据库中每一条原始数据,通过确定模块确定当前原始数据的至少一个第一三元组信息,而第一三元组信息中可以包含两个实体、两个实体之间的关系或者实体属性信息,然后基于第一三元组信息可以确定任意两个实体之间的关系或者特定实体的属性,并通过处理模块构建知识图谱的模式层和数据层,以便生成待构建知识图谱的本体库。通过本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体之间的属性等对象之间的联系,再利用图谱构建模块通过本体库生成待构建知识图谱,同时在检测到原始数据库中存在新增原始数据时,可以基于新增原始数据确定新增原始数据的至少一个新增第一三元组信息,并将该新增第一三元组信息更新至本体库,并通过更新后的本体库更新原有的待构建知识图谱。通过上述方式,可以及时地监测原始数据库的原始数据状态,实现本体库的自动构建并进而及时地更新待构建知识图谱,从而可以提高知识图谱构建的智能化程度。
在本发明一实施例中,至少一条原始数据包括:结构化原始数据、半结构化原始数据和非结构化原始数据;
确定模块302,用于执行:
D1:确定当前原始数据是否为结构化原始数据,若是,执行步骤D2,否则,执行步骤D3;
D2:将结构化原始数据确定为一个第一三元组信息;
D3:确定当前原始数据是否为半结构化原始数据,若是,执行步骤D4,否则,执行步骤D6;
D4:解析当前原始数据;
D5:将解析后的当前原始数据作为一个第一三元组信息;
D6:确定当前原始数据是否为非结构化原始数据;
D7:在确定出当前原始数据为非结构化原始数据时,抽取当前原始数据中的一个第一三元组信息。
在本发明一实施例中,图谱构建模块304,用于将每一个第一三元组中所包含的两个实体分别作为待构建知识图谱的两个节点,其中,两个实体与待构建知识图谱中的实体定义相同;将每一个第一三元组中所包含的两个实体之间的关系或者实体属性信息作为待构建知识图谱的边,其中,两个实体之间的关系或者实体属性定义与待构建知识图谱中的两个实体之间的关系定义或者实体属性定义相同;根据每一个第一三元组所构建的两个节点和边,生成待构建知识图谱。
在本发明一实施例中,图谱构建模块304,还用于将至少一个新增第一三元组信息添加至待构建知识图谱的数据层;将至少一个新增第二三元组信息添加至待构建知识图谱的模式层,以生成更新后的本体库。
可以理解的是,本发明实施例示意的结构并不构成对知识图谱的构建装置的具体限定。在本发明的另一些实施例中,知识图谱的构建装置可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例还提供了知识图谱的构建装置,包括:至少一个存储器和至少一个处理器;
至少一个存储器,用于存储机器可读程序;
至少一个处理器,用于调用机器可读程序,执行本发明任一实施例中的知识图谱的构建方法。
本发明实施例还提供了一种计算机可读介质,计算机可读介质上存储有计算机指令,计算机指令在被处理器执行时,使处理器执行本发明任一实施例中的知识图谱的构建方法。
具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
本发明各个实施例至少具有如下有益效果:
1、在本发明实施例中,由于知识图谱是存储在图数据库中的所有数据构成的庞大的实体关系网络,因此,实体关系是知识图谱构建的关键,故可以从原始数据出发,基于原始数据库中每一条原始数据,确定当前原始数据的至少一个第一三元组信息,而第一三元组信息中可以包含两个实体、两个实体之间的关系或者实体属性信息,然后基于第一三元组信息可以确定任意两个实体之间的关系或者特定实体的属性,并构建知识图谱的模式层和数据层,以便生成待构建知识图谱的本体库。通过本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体之间的属性等对象之间的联系,再通过本体库生成待构建知识图谱,同时在检测到原始数据库中存在新增原始数据时,可以基于新增原始数据确定新增原始数据的至少一个新增第一三元组信息,并将该新增第一三元组信息更新至本体库,并通过更新后的本体库更新原有的待构建知识图谱。通过上述方式,可以及时地监测原始数据库的原始数据状态,实现本体库的自动构建并进而及时地更新待构建知识图谱,从而可以提高知识图谱构建的智能化程度;
2、在本发明一实施例中,原始数据按照数据的结构化程度可以划分为:结构化原始数据、半结构化原始数据和非结构化原始数据。根据原始数据的不同的结构化形式,可以采用不同的方法,将原始数据转换为第一三元组的形式。比如,针对结构化原始数据,通常是关系型数据库的数据,数据结构清晰,把关系型数据库中的原始数据可以转换为RDF数据,一般采用的是D2R技术,D2R主要包括D2R Server,D2RQ Engine和D2RRQ Mapping语言;半结构化原始数据,主要是指那些具有一定的数据结构,但需要进一步提取整理的数据。比如百科的数据,网页中的数据等。对于这类数据,主要采用包装器的方式进行处理;对于非结构化原始数据,需要进行包括实体、实体关系和特定实体属性的知识抽取;
3、在本发明一实施例中,知识图谱是由节点和边形成的反映知识结构的图形,在知识图谱中,节点表示实体,边表示实体间的关系,而第一三元组信息中包含两个实体、两个实体之间的关系和特定实体的属性,故可以将第一三元组信息中的两个实体、两个实体之间的关系和特定实体的属性映射到知识图谱的每一个节点和边中,在此过程中,在第一三元组信息和知识图谱中的实体定义、属性定义和关系定义必须保持一致,以能够为将第一三元组信息中所包含的两个实体、两个实体之间的关系和特定实体的属性映射到知识图谱中的对应的节点和边提供基础,从而提高待构建知识图谱构建的智能化程度。
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构,也可以是逻辑结构,即,有些模块可能由同一物理实体实现,或者,有些模块可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上各实施例中,硬件单元可以通过机械方式或电气方式实现。例如,一个硬件单元可以包括永久性专用的电路或逻辑(如专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。

Claims (10)

1.知识图谱的构建方法,其特征在于,该方法包括:
从原始数据库中获取至少一条原始数据;
针对所述至少一条原始数据中的每一条原始数据,确定所述当前原始数据的至少一个第一三元组信息,其中,每一个所述第一三元组信息中包含两个实体、所述两个实体之间的关系或者实体属性信息;
根据每一条所述原始数据中的至少一个第一三元组信息,构建知识图谱的模式层和知识图谱的数据层,其中,所述知识图谱的模式层包括至少一个第二三元组信息,每一个所述第二三元组信息中包含两个本体、所述两个本体之间的关系或者本体属性信息,所述两个实体为所述两个本体对应的实例,所述知识图谱的数据层包含所述至少一个第一三元组信息;
根据所述知识图谱的模式层和所述知识图谱的数据层,生成待构建知识图谱的本体库;
根据所述待构建知识图谱的本体库,生成待构建知识图谱;
当监测到所述原始数据库中存在一条所述新增原始数据时,确定所述新增原始数据的至少一个新增第一三元组信息和对应的至少一个新增第二三元组信息;
根据所述至少一个新增第一三元组信息和所述至少一个新增第二三元组信息,更新所述本体库;
根据更新后的所述本体库,更新所述待构建知识图谱。
2.根据权利要求1所述的方法,其特征在于,
所述至少一条原始数据包括:结构化原始数据、半结构化原始数据和非结构化原始数据;
所述针对所述至少一条原始数据中的每一条原始数据,确定所述当前原始数据中的至少一个第一三元组信息包括:
D1:确定所述当前原始数据是否为所述结构化原始数据,若是,执行步骤D2,否则,执行步骤D3;
D2:将所述结构化原始数据确定为一个所述第一三元组信息;
D3:确定所述当前原始数据是否为所述半结构化原始数据,若是,执行步骤D4,否则,执行步骤D6;
D4:解析所述当前原始数据;
D5:将所述解析后的当前原始数据作为一个所述第一三元组信息;
D6:确定所述当前原始数据是否为非结构化原始数据;
D7:在确定出所述当前原始数据为所述非结构化原始数据时,抽取所述当前原始数据中的一个所述第一三元组信息。
3.根据权利要求1所述的方法,其特征在于,
所述根据所述待构建知识图谱的本体库,生成待构建知识图谱,包括:
将每一个所述第一三元组中所包含的两个实体分别作为所述待构建知识图谱的两个节点,其中,所述两个实体与所述待构建知识图谱中的实体定义相同;
将每一个所述第一三元组中所包含的所述两个实体之间的关系或者实体属性信息作为所述待构建知识图谱的边,其中,所述两个实体之间的关系或者实体属性定义与所述待构建知识图谱中的所述两个实体之间的关系定义或者实体属性定义相同;
根据每一个所述第一三元组所构建的所述两个节点和所述边,生成待构建知识图谱。
4.根据权利要求1所述的方法,其特征在于,
所述根据所述至少一个新增第一三元组信息和所述至少一个新增第二三元组信息,更新所述本体库,包括:
将所述至少一个新增第一三元组信息添加至所述待构建知识图谱的数据层;
将所述至少一个新增第二三元组信息添加至所述待构建知识图谱的模式层,以生成更新后的本体库。
5.根据权利要求1至4中任一所述的方法,其特征在于,
所述原始数据包括:至少一条公共安全领域的犯罪记录、舆情监测和热点事件。
6.知识图谱的构建装置,其特征在于,包括:
获取模块,用于从原始数据库中获取至少一条原始数据;
确定模块,用于针对所述获取模块获取到的所述至少一条原始数据中的每一条原始数据,确定所述当前原始数据的至少一个第一三元组信息,其中,每一个所述第一三元组信息中包含两个实体、所述两个实体之间的关系或者实体属性信息;
处理模块,用于根据所述确定模块确定的每一条所述原始数据中的至少一个第一三元组信息,构建知识图谱的模式层和知识图谱的数据层,其中,所述知识图谱的模式层包括至少一个第二三元组信息,每一个所述第二三元组信息中包含两个本体、所述两个本体之间的关系或者本体属性信息,所述两个实体为所述两个本体对应的实例,所述知识图谱的数据层包含所述至少一个第一三元组信息;
图谱构建模块,用于根据所述处理模块得到的所述知识图谱的模式层和所述知识图谱的数据层,生成待构建知识图谱的本体库;根据所述待构建知识图谱的本体库,生成待构建知识图谱;当监测到所述原始数据库中存在一条所述新增原始数据时,确定所述新增原始数据的至少一个新增第一三元组信息和对应的至少一个新增第二三元组信息;根据所述至少一个新增第一三元组信息和所述至少一个新增第二三元组信息,更新所述本体库;根据更新后的所述本体库,更新所述待构建知识图谱。
7.根据权利要求6所述的装置,其特征在于,
所述至少一条原始数据包括:结构化原始数据、半结构化原始数据和非结构化原始数据;
所述确定模块,用于执行:
D1:确定所述当前原始数据是否为所述结构化原始数据,若是,执行步骤D2,否则,执行步骤D3;
D2:将所述结构化原始数据确定为一个所述第一三元组信息;
D3:确定所述当前原始数据是否为所述半结构化原始数据,若是,执行步骤D4,否则,执行步骤D6;
D4:解析所述当前原始数据;
D5:将所述解析后的当前原始数据作为一个所述第一三元组信息;
D6:确定所述当前原始数据是否为非结构化原始数据;
D7:在确定出所述当前原始数据为所述非结构化原始数据时,抽取所述当前原始数据中的一个所述第一三元组信息。
8.根据权利要求6所述的装置,其特征在于,
所述图谱构建模块,用于将每一个所述第一三元组中所包含的两个实体分别作为所述待构建知识图谱的两个节点,其中,所述两个实体与所述待构建知识图谱中的实体定义相同;将每一个所述第一三元组中所包含的所述两个实体之间的关系或者实体属性信息作为所述待构建知识图谱的边,其中,所述两个实体之间的关系或者实体属性定义与所述待构建知识图谱中的所述两个实体之间的关系定义或者实体属性定义相同;根据每一个所述第一三元组所构建的所述两个节点和所述边,生成待构建知识图谱。
9.根据权利要求6所述的装置,其特征在于,
所述图谱构建模块,还用于将所述至少一个新增第一三元组信息添加至所述待构建知识图谱的数据层;将所述至少一个新增第二三元组信息添加至所述待构建知识图谱的模式层,以生成更新后的本体库。
10.电子设备,其特征在于,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行权利要求1至5中任一所述的方法。
CN202110331430.1A 2021-03-29 2021-03-29 知识图谱的构建方法及装置、电子设备 Withdrawn CN112905808A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110331430.1A CN112905808A (zh) 2021-03-29 2021-03-29 知识图谱的构建方法及装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110331430.1A CN112905808A (zh) 2021-03-29 2021-03-29 知识图谱的构建方法及装置、电子设备

Publications (1)

Publication Number Publication Date
CN112905808A true CN112905808A (zh) 2021-06-04

Family

ID=76109165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110331430.1A Withdrawn CN112905808A (zh) 2021-03-29 2021-03-29 知识图谱的构建方法及装置、电子设备

Country Status (1)

Country Link
CN (1) CN112905808A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117454979A (zh) * 2023-10-26 2024-01-26 上海歆广数据科技有限公司 一种个案图谱更新方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932340A (zh) * 2018-07-13 2018-12-04 华融融通(北京)科技有限公司 一种不良资产经营领域下金融知识图谱的构建方法
CN111444351A (zh) * 2020-03-24 2020-07-24 清华苏州环境创新研究院 一种行业工艺领域知识图谱构建方法及装置
CN111767440A (zh) * 2020-09-03 2020-10-13 平安国际智慧城市科技股份有限公司 基于知识图谱的车辆画像方法、计算机设备和存储介质
CN112463986A (zh) * 2020-12-08 2021-03-09 北京明略软件系统有限公司 信息存储的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932340A (zh) * 2018-07-13 2018-12-04 华融融通(北京)科技有限公司 一种不良资产经营领域下金融知识图谱的构建方法
CN111444351A (zh) * 2020-03-24 2020-07-24 清华苏州环境创新研究院 一种行业工艺领域知识图谱构建方法及装置
CN111767440A (zh) * 2020-09-03 2020-10-13 平安国际智慧城市科技股份有限公司 基于知识图谱的车辆画像方法、计算机设备和存储介质
CN112463986A (zh) * 2020-12-08 2021-03-09 北京明略软件系统有限公司 信息存储的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117454979A (zh) * 2023-10-26 2024-01-26 上海歆广数据科技有限公司 一种个案图谱更新方法及系统
CN117454979B (zh) * 2023-10-26 2024-04-19 上海峻思寰宇数据科技有限公司 一种个案图谱更新方法及系统

Similar Documents

Publication Publication Date Title
US11531717B2 (en) Discovery of linkage points between data sources
US10725836B2 (en) Intent-based organisation of APIs
CN107391677B (zh) 携带实体关系属性的中文通用知识图谱的生成方法及装置
CN109657074B (zh) 基于地址树的新闻知识图谱构建方法
KR100638695B1 (ko) 구조화 문서의 데이터를 검색하는 장치 및 방법
US8862614B2 (en) Planning-based automated fusing of data from multiple heterogeneous sources
KR100995861B1 (ko) 온톨로지 스키마와 결합된 개체명 사전 및 마이닝 규칙을 이용한 용어의 개체명 결정모듈 및 방법
CN111339299B (zh) 一种领域知识库的构建方法和装置
US8402042B2 (en) Named entity database or mining rule database update apparatus and method using named entity database and mining rule merged ontology schema
CN112559704A (zh) 一种用户自定义配置的知识图谱生成工具
CN110275962B (zh) 用于输出信息的方法和装置
CN113535977A (zh) 一种知识图谱融合方法和装置及设备
CN112287114A (zh) 一种知识图谱服务处理方法和装置
CN113220901A (zh) 基于增强智能的写作构思辅助系统、网路系统
CN116204660A (zh) 一种多源异构数据驱动的领域知识图谱构建系统方法
CN115438199A (zh) 一种基于智慧城市场景数据中台技术的知识平台系统
CN115640406A (zh) 一种基于多源异构大数据分析处理与知识图谱构建方法
CN112905612A (zh) 知识卡片的构建方法及装置
EP3493076B1 (en) Cognitive decision system for security and log analysis using associative memory mapping in graph database
CN112905808A (zh) 知识图谱的构建方法及装置、电子设备
WO2022032685A1 (en) Method and device for constructing multi-level knowledge graph
CN112818072A (zh) 旅游知识图谱更新方法、系统、设备及存储介质
Saini et al. Domobot: An ai-empowered bot for automated and interactive domain modelling
CN110019554B (zh) 数据驱动型应用的数据模型、数据建模系统和方法
CN116467291A (zh) 一种知识图谱存储与搜索方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210604

WW01 Invention patent application withdrawn after publication