CN114186076A - 知识图谱构建方法、装置、设备和计算机可读存储介质 - Google Patents
知识图谱构建方法、装置、设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN114186076A CN114186076A CN202111533399.6A CN202111533399A CN114186076A CN 114186076 A CN114186076 A CN 114186076A CN 202111533399 A CN202111533399 A CN 202111533399A CN 114186076 A CN114186076 A CN 114186076A
- Authority
- CN
- China
- Prior art keywords
- structured
- data
- entity
- knowledge
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2425—Iterative querying; Query formulation based on the results of a preceding query
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及人工智能领域,提供了知识图谱构建方法、装置、设备和计算机可读存储介质,以实现知识图谱构建的可迭代、构建过程可复用,提升知识图谱构建的效率与质量。所述方法包括:基于历史的知识图谱本体,构建当前轮知识图谱本体并输出;根据标准输入输出定义,将当前轮知识图谱本体作为输入,对源文本数据进行信息抽取,得到信息抽取结果并输出;将信息抽取结果作为输入,采用当前轮知识图谱本体对信息抽取结果进行映射,得到结构化图谱数据并输出;将结构化图谱数据作为输入,融合历史的结构化图谱数据,得到当前轮结构化图谱数据并输出;将当前轮结构化图谱数据作为输入,对当前轮结构化图谱数据进行验证,得到最终结构化图谱数据并输出。
Description
技术领域
本发明涉及人工智能领域,特别涉及一种知识图谱构建方法、装置、设备和计算机可读存储介质。
背景技术
机器人的应用场合越来越广泛,餐厅、医院、商超、仓库等都能看到各种机器人忙碌的“身影”。机器人属于高度精密的智能系统,除了机器人本体,一个机器人还包括各种传感器件等硬件单元以及在此基础之上的软件程序。只有硬件单元和硬件程序的功能均正常发挥,机器人才能正常运作。
从2012年Google公司提出“知识图谱(Knowledge Graph)”到今天,知识图谱技术发展迅速,而伴随着大数据与人工智能技术的飞速发展,知识图谱的内涵也越来越丰富。同时大数据人工智能时代的到来不只催生了知识图谱,也给知识图谱技术的发展奠定了必要的基础,带来了新机遇。数据、算力和模型的飞速发展使得大规模自动化知识获取成为可能;大量高质量的用户生成内容提供了优质的数据来源;众包技术使得知识的规模化验证成为可能。新数据和新算法为规模化知识图谱构建提供了新的技术基础和发展条件,知识图谱作为知识的一种形式,已经在语义搜索、智能问答、数据分析、自然语言理解、视觉理解、物联网设备互联等多个方面发挥出越来越大的价值。
知识图谱的构建方法一般包括本体的设计、实体识别、关系抽取和事件抽取等算法或流程。然而,现有的知识图谱构建方法存在各个流程之间衔接不明确、构建过程复用性差以及所构建的知识图谱准确性也不高。
发明内容
本申请提供一种知识图谱构建方法、装置、设备和计算机可读存储介质,以实现知识图谱构建的流程化、可迭代、构建过程可复用,提升知识图谱构建的效率与质量。
一方面,本申请提供了一种知识图谱构建方法,包括:
基于历史的知识图谱本体,构建当前轮知识图谱本体并输出,所述历史的知识图谱本体包括上一轮知识图谱构建流程中输出的知识图谱本体;
根据标准输入输出定义,将所述当前轮知识图谱本体作为输入,对源文本数据进行信息抽取,得到信息抽取结果并输出,所述信息抽取结果包括知识图谱三元组和事件多元组数据;
根据标准输入输出定义,将所述信息抽取结果作为输入,采用所述当前轮知识图谱本体对所述信息抽取结果进行映射,得到结构化图谱数据并输出;
根据标准输入输出定义,将所述结构化图谱数据作为输入,融合历史的结构化图谱数据,得到当前轮结构化图谱数据并输出,所述历史的结构化图谱数据包括上一轮知识图谱构建流程中进行验证后输出的结构化图谱数据;
根据标准输入输出定义,将所述当前轮结构化图谱数据作为输入,对所述当前轮结构化图谱数据进行验证,得到最终结构化图谱数据并输出。
另一方面,本申请提供了一种知识图谱构建装置,包括:
本体构建模块,用于基于历史的知识图谱本体,构建当前轮知识图谱本体并输出,所述历史的知识图谱本体包括上一轮知识图谱构建流程中输出的知识图谱本体;
信息抽取模块,用于根据标准输入输出定义,将所述当前轮知识图谱本体作为输入,对源文本数据进行信息抽取,得到信息抽取结果并输出,所述信息抽取结果包括知识图谱三元组和事件多元组数据;
知识映射模块,用于根据标准输入输出定义,将所述信息抽取结果作为输入,采用所述当前轮知识图谱本体对所述信息抽取结果进行映射,得到结构化图谱数据并输出;
知识融合模块,用于根据标准输入输出定义,将所述结构化图谱数据作为输入,融合历史的结构化图谱数据,得到当前轮结构化图谱数据并输出,所述历史的结构化图谱数据包括上一轮知识图谱构建流程中进行验证后输出的结构化图谱数据;
知识验证模块,用于根据标准输入输出定义,将所述当前轮结构化图谱数据作为输入,对所述当前轮结构化图谱数据进行验证,得到最终结构化图谱数据并输出。
第三方面,本申请提供了一种设备,所述设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述知识图谱构建方法的技术方案的步骤。
第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述知识图谱构建方法的技术方案的步骤。
从上述本申请提供的技术方案可知,由于当前轮知识图谱本体、信息抽取结果、结构化图谱数据、当前轮结构化图谱数据以及最终结构化图谱数据之间,都是根据标准输入输出定义,将前一步输出的数据作为后一步输入的数据,因此,一方面,处理这些数据的模块之间采用固定的输入输出定义,减少了模块之间的耦合,从而提升本申请的知识图谱构建流程的可复用性和适用性;另一方面,模块内部采用算法库和/或方法库管理,方便根据不同源文本选择不同的算法,以及迭代优化模块内部的算法,提升模块输出结果的准确率;第三方面,最终结构化图谱数据是通过迭代构建,实现知识图谱数据的迭代扩充,使得能够构建和更新大规模知识图谱。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的知识图谱构建方法的流程图;
图2是通过采集8000条维基百科文本数据而由本申请实施例提供的知识图谱构建方法构建的知识图谱部分子图;
图3是本申请实施例提供的知识图谱构建装置的结构示意图;
图4是本申请实施例提供的设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本说明书中,诸如第一和第二这样的形容词仅可以用于将一个元素或动作与另一元素或动作进行区分,而不必要求或暗示任何实际的这种关系或顺序。在环境允许的情况下,参照元素或部件或步骤(等)不应解释为局限于仅元素、部件、或步骤中的一个,而可以是元素、部件、或步骤中的一个或多个等。
在本说明书中,为了便于描述,附图中所示的各个部分的尺寸并不是按照实际的比例关系绘制的。
参阅图1,是本申请实施例提供的知识图谱构建方法流程,主要包括步骤S101至S105,详述说明如下:
步骤S101:基于历史的知识图谱本体,构建当前轮知识图谱本体并输出,其中,历史的知识图谱本体包括上一轮知识图谱构建流程中输出的知识图谱本体。
需要说明的是,由于本申请的知识图谱本体(Schema)并非仅仅经一轮知识图谱构建流程得到,而是多轮迭代的结果,因此,存在所谓的历史的知识图谱本体即上一轮知识图谱构建流程中输出的知识图谱本体。本申请的技术方案首先是基于历史的知识图谱本体,构建当前轮知识图谱本体并输出,具体是专家根据业务需求和实际经验构建和/或通过本体定义库分析计算而构建。需要说明的是,为了实现图谱的迭代更新,所构建的当前轮知识图谱本体应当与上一轮知识图谱本体兼容。无论是历史的知识图谱本体还是当前轮知识图谱本体,其主要定义了知识图谱的主语谓词宾语(Subject Predicate Object,SPO)三元组,描述了特定领域中的抽象概念、属性和公理等。
步骤S102:根据标准输入输出定义,将当前轮知识图谱本体作为输入,对源文本数据进行信息抽取,得到信息抽取结果并输出,其中,信息抽取结果包括知识图谱三元组和事件多元组数据。
在本申请实施例中,标准输入输出定义实际上定义了输出的模块和被输入的模块之间的标准接口。由于模块之间的接口都是根据标准输入输出定义,因此,减少了模块之间的耦合,从而提升了模块的可复用性和适用性,也提升了本申请的知识图谱构建流程的可复用性和适用性。除了将当前轮知识图谱本体作为输入的信息源之外,输入的还包括源文本数据即目标文本数据,目标文本数据也是将要基于其构建知识图谱的文本数据。对源文本数据进行信息抽取包括对源文本数据进行实体抽取、关系抽取、属性抽取和事件抽取,其中,实体抽取即命名实体识别(Named Entity Recognition,NER),是指从源文本数据中自动识别出命名实体,关系抽取是从源文本数据等相关语料中提取出实体之间的关联关系,通过关系将实体联系起来,具体可以是通过人工构造语法和语义规则(即模式匹配)、统计机器学习或面向开放域的信息抽取方法与面向封闭领域的方法相结合的方式实现,属性抽取是指从不同的源文本数据中采集特定实体的属性信息,具体可以采用数据挖掘的方法直接从源文本数据中挖掘实体属性和属性值之间的关系模式,据此实现对属性名和属性值在源文本数据中的定位,而事件抽取是从源文本数据中通过触发词识别、事件类型分类、论元识别和角色分类算法,提取出组成事件的主要元素:触发词、事件类型、论元及论元角色。
作为本申请一个实施例,对源文本数据进行信息抽取,得到信息抽取结果可以是:若源文本数据为结构化数据,则采用规则匹配方式对结构化数据进行信息抽取,得到信息抽取结果并形成规则抽取方法库;若源文本数据为非结构化数据或半结构化数据,则采用正则和模型方法对非结构化数据或半结构化数据进行信息抽取,得到信息抽取结果并形成模型抽取方法库或正则抽取方法库。由于结构化数据是关系型数据库等其中结构清晰明确的数据,因此,对于结构化数据,可以采用规则匹配方式对其进行信息抽取,得到信息抽取结果并形成规则抽取方法库,具体可以是直接利用预先构建的机器学习模型对结构化数据进行信息抽取,确定出结构化数据中所包含的核心信息数据,同时实现数据格式和模式的统一。对于具有一定的数据结构、但需要进一步提取整理的数据,例如百科、网页中的数据等半结构化数据以及音频、视频和图片等非结构化数据,由于其结构复杂或者没有固定的结构,因此,可以采用正则和模型方法对非结构化数据或半结构化数据进行信息抽取,得到信息抽取结果并形成模型抽取方法库或正则抽取方法库,具体一般是先将非结构化数据或半结构化数据转换为文本信息,再对文本信息进行自然语言处理(Natural LanguageProcessing,NLP),例如机器学习方法等,之后,将NLP得到的信息进行特征处理,例如向量化以及Hash Trick等,最后,将上述处理后获得的数据输入到机器学习模型中,利用机器学习模型进行信息抽取,得到信息抽取结果并形成模型抽取方法库或正则抽取方法库。需要说明的是,上述对文本信息进行NLP也可以是深度学习方法。与机器学习算法一般需要经过一系列数据转换不同,深度学习方法由深层神经网络结构自动完成数据和向量的转换,具体的,输入为文本信息,输出为信息抽取结果,而省略了中间一系列的数据转换显式操作。上述对源文本数据进行信息抽取,得到信息抽取结果包括知识图谱三元组和事件多元组数据,其中,知识图谱三元组包括实体、客体以及实体和客体之间的关系,而事件多元组包括事件触发词、事件类型、事件论元和论元角色等。
步骤S103:根据标准输入输出定义,将信息抽取结果作为输入,采用当前轮知识图谱本体对信息抽取结果进行映射,得到结构化图谱数据并输出。
具体是以当前轮知识图谱本体定义的实体、客体以及实体与客体之间的关系为标准,将信息抽取结果映射为结构化图谱数据,其中,结构化图谱数据包括节点、节点之间的边、边上的属性以及边与边之间的权重,例如,可以使用向量空间模型对实体/客体进行规范化,并将规范化后的实体/客体映射至抽象概念上,具体可以是根据实体/客体构建实体/客体特征向量,根据抽象概念构建多个抽象概念特征向量;使用相似度度量评估实体/客体特征向量和每一个抽象概念特征向量之间的相似度;再将实体/客体特征向量映射至与该实体/客体特征向量相似度最大的抽象概念特征向量对应的抽象概念上。
步骤S104:根据标准输入输出定义,将结构化图谱数据作为输入,融合历史的结构化图谱数据,得到当前轮结构化图谱数据并输出,其中,历史的结构化图谱数据包括上一轮知识图谱构建流程中进行验证后输出的结构化图谱数据。
作为本申请一个实施例,将结构化图谱数据作为输入,融合历史的结构化图谱数据,得到当前轮结构化图谱数据可以是:将结构化图谱数据的实体映射至预设的结构化知识库,得到实体属性信息;根据预设规则和预设算法,采用实体属性信息对结构化图谱数据进行属性补全和关系补全,得到补全的知识图谱;将补全的知识图谱与历史的结构化图谱数据融合,得到当前轮结构化图谱数据。上述实施例中,预设的结构化知识库可以是已知的无歧义的结构化知识库,例如开源知识库和行业内部数据库等,而将结构化图谱数据的实体映射至预设的结构化知识库可以是使用实体消歧技术将结构化图谱数据的实体与预设的结构化知识库进行数据对接。上述实施例的预设规则包括属性对齐规则、属性覆盖规则和/或NLP的规则等,预设算法主要包括链接预测算法和知识推理算法等,而将补全的知识图谱与历史的结构化图谱数据融合,所采用的融合工具主要是基于规则的图谱数据融合方法,例如属性对齐、属性覆盖、属性累加以及关系追加等规则。
作为本申请另一实施例,将结构化图谱数据作为输入,融合历史的结构化图谱数据,得到当前轮结构化图谱数据可以是:根据当前轮知识图谱本体定义的实体和关系对应的空间向量,选取知识图谱三元组的首实体和关系,计算末实体的向量,获取推理排名为前k的末实体及其打分分数;根据实体的概念类型,将排名为前k的末实体与预先确定的候选集进行比较,去掉非候选集中的实体;根据推理排名为前k的末实体的打分分数,确定推理得到的实体的置信度,取置信度排名为前m的推理实体补充其与首实体或末实体之间的关系,补全结构化图谱数据,得到补全的知识图谱;将补全的知识图谱与历史的结构化图谱数据融合,得到当前轮结构化图谱数据,其中,将补全的知识图谱与历史的结构化图谱数据融合,得到当前轮结构化图谱数据与前述实施例类似。在根据当前轮知识图谱本体定义的实体和关系对应的空间向量,选取知识图谱三元组的首实体和关系,计算末实体的向量,获取推理排名为前k的末实体及其打分分数之前,需要根据结构化图谱数据,输出当前轮知识图谱本体定义的实体和关系对应的空间向量。
作为本申请另一实施例,将结构化图谱数据作为输入,融合历史的结构化图谱数据,得到当前轮结构化图谱数据可以是:利用传递规则、反对称规则和实体关联规则对结构化图谱数据的实体-实体三元组进行补全,利用属性关联规则对结构化图谱数据的实体-属性三元组进行补全,得到经过第一次补全后的知识图谱;将第一次补全后的知识图谱中的实体、属性、实体关系和属性关系分别转化为实体嵌入向量、属性嵌入向量、实体关系嵌入向量和属性关系嵌入向量;对实体嵌入向量、属性嵌入向量、实体关系嵌入向量和属性关系嵌入向量进行训练,得到训练完成的实体嵌入向量、属性嵌入向量、实体关系嵌入向量和属性关系嵌入向量;采用实体预测算法、属性预测算法和关系预测算法,将训练完成的实体嵌入向量、属性嵌入向量、实体关系嵌入向量和属性关系嵌入向量对知识图谱进行第二次补全,得到补全的知识图谱;将补全的知识图谱与历史的结构化图谱数据融合,得到当前轮结构化图谱数据。上述实施例中,对实体嵌入向量、属性嵌入向量、实体关系嵌入向量和属性关系嵌入向量进行训练,得到训练完成的实体嵌入向量、属性嵌入向量、实体关系嵌入向量和属性关系嵌入向量具体可以是:将实体嵌入向量、属性嵌入向量、实体关系嵌入向量和属性关系嵌入向量作为预设模型的输入,并定义实体-实体三元组上的得分函数、实体-实体三元组上的损失函数、实体-属性三元组上的得分函数以及实体-属性三元组上的损失函数,运用预设模型训练算法对实体-实体三元组和实体-属性三元组进行训练,获得训练完成的实体嵌入向量、属性嵌入向量、实体关系嵌入向量和属性关系嵌入向量,而将补全的知识图谱与历史的结构化图谱数据融合,得到当前轮结构化图谱数据与前述实施例类似,不做赘述。
步骤S105:根据标准输入输出定义,将当前轮结构化图谱数据作为输入,对当前轮结构化图谱数据进行验证,得到最终结构化图谱数据并输出。
将当前轮结构化图谱数据作为输入,对当前轮结构化图谱数据进行验证主要包括算法验证和人工验证,其中,算法验证采用大数据规则初筛,完成整体图谱的简单初筛验证,减少后续人工工作量,人工验证采用知识众包算法,利用显示众包和隐式众包方式,不断改进图谱质量。
为了验证本申请构建的知识图谱,本申请采集了2021年05月08日的8000条维基百科文本数据,按照本申请的模块化知识图谱构建方法进行知识图谱构建,通过本体构建模块构建本体定义有人物、组织、学校、职业、地点等13种实体,以及相关、毕业于、父母、配偶、子女、隶属于等40种关系,共同组成知识图谱的本体定义。经过信息抽取、知识映射、知识融合以及知识验证,形成有13808条实体、16243条关系数据的知识图谱,如图2所示,为本申请的经过模块化知识图谱构建方法构建的知识图谱部分子图。
从上述附图1示例的知识图谱构建方法可知,由于当前轮知识图谱本体、信息抽取结果、结构化图谱数据、当前轮结构化图谱数据以及最终结构化图谱数据之间,都是根据标准输入输出定义,将前一步输出的数据作为后一步输入的数据,因此,一方面,处理这些数据的模块之间采用固定的输入输出定义,减少了模块之间的耦合,从而提升本申请的知识图谱构建流程的可复用性和适用性;另一方面,模块内部采用算法库和/或方法库管理,方便根据不同源文本选择不同的算法,以及迭代优化模块内部的算法,提升模块输出结果的准确率;第三方面,最终结构化图谱数据是通过迭代构建,实现知识图谱数据的迭代扩充,使得能够构建和更新大规模知识图谱。
请参阅附图3,是本申请实施例提供的一种知识图谱构建装置,可以包括本体构建模块301、信息抽取模块302、知识映射模块303、知识融合模块304和知识验证模块305,详述如下:
本体构建模块301,用于基于历史的知识图谱本体,构建当前轮知识图谱本体并输出,其中,历史的知识图谱本体包括上一轮知识图谱构建流程中输出的知识图谱本体;
信息抽取模块302,用于根据标准输入输出定义,将当前轮知识图谱本体作为输入,对源文本数据进行信息抽取,得到信息抽取结果并输出,其中,信息抽取结果包括知识图谱三元组和事件多元组数据;
知识映射模块303,用于根据标准输入输出定义,将信息抽取结果作为输入,采用当前轮知识图谱本体对信息抽取结果进行映射,得到结构化图谱数据并输出;
知识融合模块304,用于根据标准输入输出定义,将结构化图谱数据作为输入,融合历史的结构化图谱数据,得到当前轮结构化图谱数据并输出,其中,历史的结构化图谱数据包括上一轮知识图谱构建流程中进行验证后输出的结构化图谱数据;
知识验证模块305,用于根据标准输入输出定义,将当前轮结构化图谱数据作为输入,对当前轮结构化图谱数据进行验证,得到最终结构化图谱数据并输出。
从上述附图3示例的知识图谱构建装置可知,由于当前轮知识图谱本体、信息抽取结果、结构化图谱数据、当前轮结构化图谱数据以及最终结构化图谱数据之间,都是根据标准输入输出定义,将前一步输出的数据作为后一步输入的数据,因此,一方面,处理这些数据的模块之间采用固定的输入输出定义,减少了模块之间的耦合,从而提升本申请的知识图谱构建流程的可复用性和适用性;另一方面,模块内部采用算法库和/或方法库管理,方便根据不同源文本选择不同的算法,以及迭代优化模块内部的算法,提升模块输出结果的准确率;第三方面,最终结构化图谱数据是通过迭代构建,实现知识图谱数据的迭代扩充,使得能够构建和更新大规模知识图谱。
图4是本申请一实施例提供的设备的结构示意图。如图4所示,该实施例的设备4主要包括:处理器40、存储器41以及存储在存储器41中并可在处理器40上运行的计算机程序42,例如知识图谱构建方法的程序。处理器40执行计算机程序42时实现上述知识图谱构建方法实施例中的步骤,例如图1所示的步骤S101至S105。或者,处理器40执行计算机程序42时实现上述各装置实施例中各模块/单元的功能,例如图3所示本体构建模块301、信息抽取模块302、知识映射模块303、知识融合模块304和知识验证模块305的功能。
示例性地,知识图谱构建方法的计算机程序42主要包括:基于历史的知识图谱本体,构建当前轮知识图谱本体并输出块,其中,历史的知识图谱本体包括上一轮知识图谱构建流程中输出的知识图谱本体;根据标准输入输出定义,将当前轮知识图谱本体作为输入,对源文本数据进行信息抽取,得到信息抽取结果并输出,其中,信息抽取结果包括知识图谱三元组和事件多元组数据;根据标准输入输出定义,将信息抽取结果作为输入,采用当前轮知识图谱本体对信息抽取结果进行映射,得到结构化图谱数据并输出;根据标准输入输出定义,将结构化图谱数据作为输入,融合历史的结构化图谱数据,得到当前轮结构化图谱数据并输出,其中,历史的结构化图谱数据包括上一轮知识图谱构建流程中进行验证后输出的结构化图谱数据;根据标准输入输出定义,将当前轮结构化图谱数据作为输入,对当前轮结构化图谱数据进行验证,得到最终结构化图谱数据并输出。计算机程序42可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器41中,并由处理器40执行,以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序42在设备4中的执行过程。例如,计算机程序42可以被分割成本体构建模块301、信息抽取模块302、知识映射模块303、知识融合模块304和知识验证模块305(虚拟装置中的模块)的功能,各模块具体功能如下:本体构建模块301,用于基于历史的知识图谱本体,构建当前轮知识图谱本体并输出,其中,历史的知识图谱本体包括上一轮知识图谱构建流程中输出的知识图谱本体;信息抽取模块302,用于根据标准输入输出定义,将当前轮知识图谱本体作为输入,对源文本数据进行信息抽取,得到信息抽取结果并输出,其中,信息抽取结果包括知识图谱三元组和事件多元组数据;知识映射模块303,用于根据标准输入输出定义,将信息抽取结果作为输入,采用当前轮知识图谱本体对信息抽取结果进行映射,得到结构化图谱数据并输出;知识融合模块304,用于根据标准输入输出定义,将结构化图谱数据作为输入,融合历史的结构化图谱数据,得到当前轮结构化图谱数据并输出,其中,历史的结构化图谱数据包括上一轮知识图谱构建流程中进行验证后输出的结构化图谱数据;知识验证模块305,用于根据标准输入输出定义,将当前轮结构化图谱数据作为输入,对当前轮结构化图谱数据进行验证,得到最终结构化图谱数据并输出。
设备4可包括但不仅限于处理器40、存储器41。本领域技术人员可以理解,图4仅仅是设备4的示例,并不构成对设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器41可以是设备4的内部存储单元,例如设备4的硬盘或内存。存储器41也可以是设备4的外部存储设备,例如设备4上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器41还可以既包括设备4的内部存储单元也包括外部存储设备。存储器41用于存储计算机程序以及设备所需的其他程序和数据。存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即,将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非临时性计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,知识图谱构建方法的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤,即,基于历史的知识图谱本体,构建当前轮知识图谱本体并输出,其中,历史的知识图谱本体包括上一轮知识图谱构建流程中输出的知识图谱本体;根据标准输入输出定义,将当前轮知识图谱本体作为输入,对源文本数据进行信息抽取,得到信息抽取结果并输出,其中,信息抽取结果包括知识图谱三元组和事件多元组数据;根据标准输入输出定义,将信息抽取结果作为输入,采用当前轮知识图谱本体对信息抽取结果进行映射,得到结构化图谱数据并输出;根据标准输入输出定义,将结构化图谱数据作为输入,融合历史的结构化图谱数据,得到当前轮结构化图谱数据并输出,其中,历史的结构化图谱数据包括上一轮知识图谱构建流程中进行验证后输出的结构化图谱数据;根据标准输入输出定义,将当前轮结构化图谱数据作为输入,对当前轮结构化图谱数据进行验证,得到最终结构化图谱数据并输出。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。非临时性计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读内存(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,非临时性计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,非临时性计算机可读介质不包括电载波信号和电信信号。以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。以上所述的具体实施方式,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施方式而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种知识图谱构建方法,其特征在于,所述方法包括:
基于历史的知识图谱本体,构建当前轮知识图谱本体并输出,所述历史的知识图谱本体包括上一轮知识图谱构建流程中输出的知识图谱本体;
根据标准输入输出定义,将所述当前轮知识图谱本体作为输入,对源文本数据进行信息抽取,得到信息抽取结果并输出,所述信息抽取结果包括知识图谱三元组和事件多元组数据;
根据标准输入输出定义,将所述信息抽取结果作为输入,采用所述当前轮知识图谱本体对所述信息抽取结果进行映射,得到结构化图谱数据并输出;
根据标准输入输出定义,将所述结构化图谱数据作为输入,融合历史的结构化图谱数据,得到当前轮结构化图谱数据并输出,所述历史的结构化图谱数据包括上一轮知识图谱构建流程中进行验证后输出的结构化图谱数据;
根据标准输入输出定义,将所述当前轮结构化图谱数据作为输入,对所述当前轮结构化图谱数据进行验证,得到最终结构化图谱数据并输出。
2.如权利要求1所述知识图谱构建方法,其特征在于,所述对源文本数据进行信息抽取,得到信息抽取结果,包括:
若所述源文本数据包括结构化数据,则采用规则匹配方式对所述结构化数据进行信息抽取,得到信息抽取结果并形成规则抽取方法库;
若所述源文本数据包括非结构化数据或半结构化数据,则采用正则和模型方法对所述非结构化数据或半结构化数据进行信息抽取,得到信息抽取结果并形成模型抽取方法库或正则抽取方法库。
3.如权利要求1所述知识图谱构建方法,其特征在于,所述采用所述当前轮知识图谱本体对所述信息抽取结果进行映射,得到结构化图谱数据,包括:
以所述当前轮知识图谱本体定义的实体、客体以及所述实体与客体之间的关系为标准,将所述信息抽取结果映射为结构化图谱数据,所述结构化图谱数据包括节点、节点之间的边、边上的属性以及所述边与边之间的权重。
4.如权利要求1所述知识图谱构建方法,其特征在于,所述将所述结构化图谱数据作为输入,融合历史的结构化图谱数据,得到当前轮结构化图谱数据,包括:
将所述结构化图谱数据的实体映射至预设的结构化知识库,得到实体属性信息;
根据预设规则和预设算法,采用所述实体属性信息对所述结构化图谱数据进行属性补全和关系补全,得到补全的知识图谱;
将所述补全的知识图谱与所述历史的结构化图谱数据融合,得到所述当前轮结构化图谱数据。
5.如权利要求1所述知识图谱构建方法,其特征在于,所述将所述结构化图谱数据作为输入,融合历史的结构化图谱数据,得到当前轮结构化图谱数据,包括:
根据所述当前轮知识图谱本体定义的实体和关系对应的空间向量,选取所述知识图谱三元组的首实体和关系,计算末实体的向量,获取推理排名为前k的末实体及其打分分数;
根据实体的概念类型,将排名为前k的末实体与预先确定的候选集进行比较,去掉非候选集中的实体;
根据所述推理排名为前k的末实体的打分分数,确定推理得到的实体的置信度,取置信度排名为前m的推理实体补充其与首实体或末实体之间的关系,补全所述结构化图谱数据,得到补全的知识图谱;
将所述补全的知识图谱与所述历史的结构化图谱数据融合,得到所述当前轮结构化图谱数据。
6.如权利要求5所述知识图谱构建方法,其特征在于,所述根据所述当前轮知识图谱本体定义的实体和关系对应的空间向量,选取所述知识图谱三元组的首实体和关系,计算末实体的向量,获取推理排名为前k的末实体及其打分分数之前,所述方法还包括:
根据所述结构化图谱数据,输出所述当前轮知识图谱本体定义的实体和关系对应的空间向量。
7.如权利要求1所述知识图谱构建方法,其特征在于,所述将所述结构化图谱数据作为输入,融合历史的结构化图谱数据,得到当前轮结构化图谱数据,包括:
利用传递规则、反对称规则和实体关联规则对所述结构化图谱数据的实体-实体三元组进行补全,利用属性关联规则对所述结构化图谱数据的实体-属性三元组进行补全,得到经过第一次补全后的知识图谱;
将所述第一次补全后的知识图谱中的实体、属性、实体关系和属性关系分别转化为实体嵌入向量、属性嵌入向量、实体关系嵌入向量和属性关系嵌入向量;
对所述实体嵌入向量、属性嵌入向量、实体关系嵌入向量和属性关系嵌入向量进行训练,得到训练完成的实体嵌入向量、属性嵌入向量、实体关系嵌入向量和属性关系嵌入向量;
采用实体预测算法、属性预测算法和关系预测算法,将所述训练完成的实体嵌入向量、属性嵌入向量、实体关系嵌入向量和属性关系嵌入向量对知识图谱进行第二次补全,得到补全的知识图谱;
将所述补全的知识图谱与所述历史的结构化图谱数据融合,得到所述当前轮结构化图谱数据。
8.一种知识图谱构建装置,其特征在于,所述装置包括:
本体构建模块,用于基于历史的知识图谱本体,构建当前轮知识图谱本体并输出,所述历史的知识图谱本体包括上一轮知识图谱构建流程中输出的知识图谱本体;
信息抽取模块,用于根据标准输入输出定义,将所述当前轮知识图谱本体作为输入,对源文本数据进行信息抽取,得到信息抽取结果并输出,所述信息抽取结果包括知识图谱三元组和事件多元组数据;
知识映射模块,用于根据标准输入输出定义,将所述信息抽取结果作为输入,采用所述当前轮知识图谱本体对所述信息抽取结果进行映射,得到结构化图谱数据并输出;
知识融合模块,用于根据标准输入输出定义,将所述结构化图谱数据作为输入,融合历史的结构化图谱数据,得到当前轮结构化图谱数据并输出,所述历史的结构化图谱数据包括上一轮知识图谱构建流程中进行验证后输出的结构化图谱数据;
知识验证模块,用于根据标准输入输出定义,将所述当前轮结构化图谱数据作为输入,对所述当前轮结构化图谱数据进行验证,得到最终结构化图谱数据并输出。
9.一种设备,所述设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111533399.6A CN114186076A (zh) | 2021-12-15 | 2021-12-15 | 知识图谱构建方法、装置、设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111533399.6A CN114186076A (zh) | 2021-12-15 | 2021-12-15 | 知识图谱构建方法、装置、设备和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114186076A true CN114186076A (zh) | 2022-03-15 |
Family
ID=80543897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111533399.6A Pending CN114186076A (zh) | 2021-12-15 | 2021-12-15 | 知识图谱构建方法、装置、设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114186076A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115169658A (zh) * | 2022-06-24 | 2022-10-11 | 南京英诺森软件科技有限公司 | 基于npl和知识图谱的库存消耗预测方法、系统和存储介质 |
CN115272848A (zh) * | 2022-07-18 | 2022-11-01 | 西南交通大学 | 多云多雾耕地保护区内建筑物智能变化检测方法 |
CN116992959A (zh) * | 2023-06-02 | 2023-11-03 | 广州数说故事信息科技有限公司 | 一种基于知识图谱的食品类产品创意概念生成验证方法 |
CN117334352A (zh) * | 2023-11-24 | 2024-01-02 | 北京邮电大学 | 基于多元角色知识图谱的高血压诊疗决策推理方法及装置 |
-
2021
- 2021-12-15 CN CN202111533399.6A patent/CN114186076A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115169658A (zh) * | 2022-06-24 | 2022-10-11 | 南京英诺森软件科技有限公司 | 基于npl和知识图谱的库存消耗预测方法、系统和存储介质 |
CN115169658B (zh) * | 2022-06-24 | 2023-11-21 | 南京英诺森软件科技有限公司 | 基于npl和知识图谱的库存消耗预测方法、系统和存储介质 |
CN115272848A (zh) * | 2022-07-18 | 2022-11-01 | 西南交通大学 | 多云多雾耕地保护区内建筑物智能变化检测方法 |
CN116992959A (zh) * | 2023-06-02 | 2023-11-03 | 广州数说故事信息科技有限公司 | 一种基于知识图谱的食品类产品创意概念生成验证方法 |
CN116992959B (zh) * | 2023-06-02 | 2024-03-15 | 广州数说故事信息科技有限公司 | 一种基于知识图谱的食品类产品创意概念生成验证方法 |
CN117334352A (zh) * | 2023-11-24 | 2024-01-02 | 北京邮电大学 | 基于多元角色知识图谱的高血压诊疗决策推理方法及装置 |
CN117334352B (zh) * | 2023-11-24 | 2024-03-08 | 北京邮电大学 | 基于多元角色知识图谱的高血压诊疗决策推理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111026842B (zh) | 自然语言处理方法、自然语言处理装置及智能问答系统 | |
CN114186076A (zh) | 知识图谱构建方法、装置、设备和计算机可读存储介质 | |
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
EP3690672A1 (en) | Method, appartus, device and medium for determining text relevance | |
CN111444344B (zh) | 实体分类方法、装置、计算机设备和存储介质 | |
KR102491172B1 (ko) | 자연어 질의응답 시스템 및 그 학습 방법 | |
CN107679221A (zh) | 面向减灾任务的时空数据获取与服务组合方案生成方法 | |
CN109804371B (zh) | 用于语义知识迁移的方法和装置 | |
CN114281957A (zh) | 自然语言数据查询方法、装置、电子设备及存储介质 | |
CN111401065A (zh) | 实体识别方法、装置、设备及存储介质 | |
CN114647713A (zh) | 基于虚拟对抗的知识图谱问答方法、设备及存储介质 | |
CN114360731A (zh) | 一种面向老年照护的医养结合知识服务系统构建方法 | |
CN113220901A (zh) | 基于增强智能的写作构思辅助系统、网路系统 | |
CN116561264A (zh) | 一种基于知识图谱的智能问答系统的构建方法 | |
CN114840685A (zh) | 一种应急预案知识图谱构建方法 | |
CN113610626A (zh) | 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质 | |
CN113342944A (zh) | 一种语料泛化方法、装置、设备及存储介质 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN117290478A (zh) | 一种知识图谱问答方法、装置、设备和存储介质 | |
CN115470232A (zh) | 模型训练和数据查询方法、装置、电子设备和存储介质 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
CN114398903A (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN111782781A (zh) | 一种语义分析方法、装置、计算机设备及存储介质 | |
CN116702784B (zh) | 实体链接方法、装置、计算机设备和存储介质 | |
CN117151247B (zh) | 机器学习任务建模的方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |