CN116089623A - 知识图谱构建方法、平台及计算机存储介质 - Google Patents
知识图谱构建方法、平台及计算机存储介质 Download PDFInfo
- Publication number
- CN116089623A CN116089623A CN202111308484.2A CN202111308484A CN116089623A CN 116089623 A CN116089623 A CN 116089623A CN 202111308484 A CN202111308484 A CN 202111308484A CN 116089623 A CN116089623 A CN 116089623A
- Authority
- CN
- China
- Prior art keywords
- data
- knowledge
- graph
- attribute
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种知识图谱构建方法、平台及计算机存储介质,该方法应用于知识图谱构建平台,知识图谱构建平台包括来自于第一平台的异构数据和来自于第二平台的第一知识图谱数据,该方法包括:获取来自于第一平台的异构数据和来自于第二平台的第一知识图谱数据;对异构数据进行信息抽取处理,得到第一转化数据;对第一转化数据和第一知识图谱数据进行相似度比较处理,得到相似度数据;根据相似度数据和预设阈值条件,对第一转化数据和第一知识图谱数据进行融合构建处理,得到第二知识图谱数据。本发明能够实现利用不同领域、不同平台的数据自动对知识图谱进行更新构建处理,提高知识图谱的准确性和效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种知识图谱构建方法、平台及计算机存储介 质。
背景技术
随着5G技术的快速发展,为了能够将人、流程、数据和事物结合一起使得网络连接变 得更加相关,而知识图谱作为一种整合数据和治理数据的有效工具,能够利用图谱分析进行 关联关系挖掘的技术手段,洞察数据之间的关系和逻辑,为决策提供支持。此外,在搭建领 域知识库的过程中,知识图谱实现了知识的建模、抽取、融合、存储、应用,同时将相关知 识进行关联,达到智能化的知识应用水平,成为了企业推进人工智能应用部署的重要技术手 段之一,当前,知识图谱技术已被越来越多的行业所采纳。由于构建一套知识图谱需要复杂 的信息抽取和数据处理流程,相关技术中的知识图谱仅能针对于一个特定领域,因此目前知 识图谱所应用的范围和作用较小。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供了一种知识图谱构建方法、平台、设备及计算机存储介质,能够适用 于多种领域,自动完成构建流程,提高准确率和效率。
第一方面,本发明实施例提供了一种知识图谱构建方法,应用于知识图谱构建平台,所 述知识图谱构建平台包括来自于第一平台的异构数据和来自于第二平台的第一知识图谱数据, 所述方法包括:
获取来自于第一平台的异构数据和来自于第二平台的第一知识图谱数据;
对所述异构数据进行信息抽取处理,得到第一转化数据;
对所述第一转化数据和所述第一知识图谱数据进行相似度比较处理,得到相似度数据;
根据所述相似度数据和预设阈值条件,对所述第一转化数据和所述第一知识图谱数据进 行融合构建处理,得到第二知识图谱数据。
第二方面,本发明实施例提供一种知识图谱构建平台,包括存储器、处理器及存储在存 储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第 一方面的知识图谱构建方法。
第三方面,本发明实施例提供一种计算机可读存储介质,存储有计算机程序,所述计算 机程序被处理器执行时,实现如上述第一方面的知识图谱构建方法。
本发明实施例包括:获取来自于第一平台的异构数据和来自于第二平台的第一知识图谱 数据;对异构数据进行信息抽取处理,得到第一转化数据;对第一转化数据和第一知识图谱 数据进行相似度比较处理,得到相似度数据;根据相似度数据和预设阈值条件,对第一转化 数据和第一知识图谱数据进行融合构建处理,得到第二知识图谱数据。根据本发明实施例提 供的方案,知识图谱构建方法应用于知识图谱构建平台,能够获取来自于不同平台的数据, 包括来自于第一平台的异构数据和来自于第二平台的第一知识图谱数据,从而能够利用不同 平台的不同领域的数据对知识图谱进行融合更新。为了提高知识图谱的准确性以及便于后续 步骤处理,对来自于不同平台的异构数据进行信息抽取处理,抽取出带有关键属性的第一转 化数据。对第一知识图谱数据与第一转化数据进行相似度比较处理,得到相似度数据,从而 判断相似度数据是否满足预设阈值条件,利用异构数据对第一知识图谱数据进行融合更新, 或者将异构数据在第一知识图谱数据的基础上进行添加更新,得到第二知识图谱数据,实现 利用不同领域、不同平台的数据自动对知识图谱进行更新构建处理,提高知识图谱的准确性 和效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而 易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书 以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的 实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1是本发明实施例提供的用于执行知识图谱构建方法的知识图谱构建系统;
图2是本发明实施例提供的知识图谱构建方法的流程图;
图3是图2中步骤S200的具体实现过程示意图;
图4是图2中步骤S300的具体实现过程示意图;
图5是图2中步骤S400的具体实现过程示意图;
图6是图5中步骤S410的具体实现过程示意图;
图7是图6中步骤S440的具体实现过程示意图;
图8是图6中步骤S430的具体实现过程示意图;
图9是本发明实施例提供的第一知识图谱数据形成的具体流程示意图;
图10是图9中步骤S600的具体实现过程示意图;
图11是本发明实施例提供的一种知识图谱构建平台的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发 明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于 限定本发明。
需要说明的是,虽然在模块示意图中进行了功能模块划分,在流程图中示出了逻辑顺序, 但是在某些情况下,可以以不同于模块中的模块划分,或流程图中的顺序执行所示出或描述 的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的 对象,而不必用于描述特定的顺序或先后次序。
本发明提供了一种知识图谱构建方法,通过获取来自于不同平台的异构数据和第一知识 图谱数据,自动对异构数据和第一知识图谱数据进行相似度比较处理,得到相似度数据,从 而能够利用相似度数据和预设阈值条件进行判断异构数据与第一知识图谱数据之间的相似度。 基于异构数据与第一知识图谱数据之间的相似度,对异构数据和第一知识图谱数据进行不同 的融合构建处理,从而能够结合不同平台、不同领域的数据,并基于不同平台的数据之间的 相似度,自动进行相应的融合构建处理,提高知识图谱构建的准确性和效率。
为便于理解,下面结合附图对本发明实施例提供的知识图谱构建方法的应用场景进行介 绍。
图1示出了一种用于执行知识图谱构建方法的知识图谱构建系统100,该知识图谱构建 系统100包括:信息采集模块110,信息抽取模块120,知识映射模块130和知识融合模块 140。其中,信息采集模块110能够获取用于构建知识图谱的基础数据,包括来自于第一平台 的异构数据和来自于第二平台的第一知识图谱数据,信息采集模块110也可以获取知识图谱 构建系统的本地数据。信息抽取模块120可以对信息采集模块110所获取的数据进行抽取, 抽取出实体信息和关系信息。知识映射模块130用于建立从基础数据抽取出的结构化信息与 知识图谱本体的映射关系,能够通过Python接口创建、打开、查询和删除数据库,还能够通 过Python接口对节点、边、集群和记录的增加、删除、修改和查找。知识融合模块140用于 将来自于不同平台的异构数据和第一知识图谱数据进行关联融合,对知识图谱进行融合更新。
需要说明的是,信息抽取模块120可以包括有普通抽取模块和模型抽取模块,普通抽取 模块用于对结构化数据进行清洗以及信息抽取处理,得到转化数据。模型抽取模块用于利用 训练模型对非结构化数据进行信息抽取,转化为结构化的转化数据。
需要说明的是,知识融合模块140还可以设置有泛用性数据预处理模块,融合标识符配 置模块、互斥属性配置模块和相似度判断模块。泛用性数据预处理模块能够对异构数据进行 修剪和转化,对异构数据中的结构化数据进行清洗,对异构数据中的非结构化数据进行模型 抽取。融合标识符配置模块用于确定数据在知识融合过程中所使用的关键属性。互斥属性配 置模块用于确定数据在知识融合过程中所使用的互斥属性。相似度判断模块包括多个阈值控 制门,用于设定不同阈值来满足不同领域数据类型的融合需要,对异构数据进行相应的相似 度判断。
本发明实施例描述的用于执行知识图谱构建方法的知识图谱构建系统100是为了更加清 楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本 领域技术人员可知,随着知识图谱构建系统100的演变和新应用场景的出现,本发明实施例 提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图1中示出的知识图谱构建系统100的结构并不构成对 本发明实施例的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的 部件布置。
基于上述知识图谱构建系统100的结构,提出本发明的知识图谱构建方法的各个实施例。
参照图2,图2示出了本发明实施例提供的知识图谱构建方法的流程图,该知识图谱构 建方法可以应用于知识图谱构建平台,该知识图谱构建-平台包括来自于第一平台的异构数据 和来自于第二平台的第一知识图谱数据,该知识图谱构建方法包括但不限于有以下步骤:
步骤S100,获取来自于第一平台的异构数据和来自于第二平台的第一知识图谱数据;
步骤S200,对异构数据进行信息抽取处理,得到第一转化数据;
步骤S300,对第一转化数据和第一知识图谱数据进行相似度比较处理,得到相似度数据;
步骤S400,根据相似度数据和预设阈值条件,对第一转化数据和第一知识图谱数据进行 融合构建处理,得到第二知识图谱数据。
可以理解的是,知识图谱构建平台中包括有来自于第一平台的异构数据和来自于第二平 台的第一知识图谱数据,即来自于不同平台的数据,其中,异构数据的领域与第一知识图谱 数据的领域可以相同,也可以不相同,从而能够利用不同领域和不同平台的数据进行融合构 建知识图谱,提高知识图谱的准确性。而第二平台可以为知识图谱构建平台,即第一知识图 谱数据可以为知识图谱构建平台的本地数据,提高数据获取速度,提高知识图谱的构建效率。
由于数据中所包含的信息是复杂无序,通过对异构数据进行信息抽取处理,从异构数据 中抽取得到融合构建知识图谱的有效信息,即从自然语言文本中抽取指定类型的实体、关系、 事件等事实信息,并将这些事实信息转化为结构化的第一转化数据。结构化的数据指可以使 用关系型数据库表示和存储,表现为二维形式的数据,一般特点是数据以行为单位,一行数 据表示一个实体的信息,每一行数据的属性是相同的。所以,结构化的数据的存储和排列是 很有规律的,这对查询和修改等操作很有帮助,以便于进行后续的相似度比较处理,提高知 识图谱的构建效率。
知识图谱的融合构建是需要将不同来源的同一实体关联起来,同时还需要进行属性融合。 需要对不同数据的实体以及属性进行融合分析,将同一实体的结点或属性的结点进行合并, 避免重复创建实体结点或属性结点。因此,对第一知识图谱数据与第一转化数据进行相似度 比较处理,即计算第一知识图谱数据与第一转化数据之间的相似度,得到相似度数据,利用 相似度数据判断第一知识图谱数据中的实体结点以及属性结点是否与第一转化数据中的实体 结点以及属性结点进行合并,以完成知识图谱的融合构建处理。
由于来自于不同领域和平台的数据特点不尽相同,为了满足不同领域的数据的融合需求, 通过预先设置不同的阈值条件,判断相似度数据是否满足预设阈值条件,对第一转化数据和 第一知识图谱数据进行相应的融合构建处理,得到第二知识图谱数据,完成知识图谱的融合 更新,从而实现将不同领域、不同平台的数据进行结合,自动利用异构数据进行知识图谱的 融合构建,提高知识图谱的准确性,提高构建效率。
参照图3,图2所示实施例中的步骤S200还包括但不限于有以下步骤:
步骤S210,根据训练模型对第一结构数据进行信息抽取得到第一转化数据,其中,训练 模型包括基于转换器的双向编码表征BERT、膨胀门卷积神经网络DGCNN和指针网络。
可以理解的是,来自于第一平台的异构数据中会包括结构化数据和非结构化数据,其中, 第一结构数据可以是非结构化数据。结构化的数据是指可以使用关系型数据库表示和存储, 表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每 一行数据的属性是相同的。所以,结构化的数据的存储和排列是很有规律的,这对查询和修 改等操作很有帮助。结构化数据通常具有固定的格式,已经满足信息抽取的结构化条件,因 此,只需要对结构化数据进行正则化清洗,即能够进行信息抽取。对结构化数据进行正则化 清洗包括将数据文本中的单位替换为统一格式,或者将文本中首字母略缩词替换为完整单词, 或者去掉数据文本中的标点符号,或者将缩写替换为全拼、将阿拉伯数字替换为英文数字、 将美元复数替换为单数等,从而能够简化数据文本,便于文本识别,提高信息抽取的准确性。
而非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库 二维逻辑表来表现的数据。例如,非结构化数据可以是所有格式的办公文档、文本、图片、 各类报表、图像、音频和视频信息等等。非结构化数据其格式非常多样,标准也是多样性的, 而且在技术上非结构化信息比结构化信息更难标准化和理解。对非结构化数据进行修剪和转 化,避免因数据形式不同而产生污染,影响信息提取的准确性。因此,为了提高非结构化数 据信息抽取的准确性,需要对非结构化的第一结构数据进行模型抽取处理。模型抽取处理需 要根据用户提供的训练数据对训练模型进行训练,再利用训练好的训练模型对第一结构数据 进行信息抽取。其中,训练模型包括基于转换器的双向编码表征(Bidirectional Encoder Representation from Transformers,BERT)、膨胀门卷积神经网络(Dilate Gated Convolutional Neural Network,DGCNN)和指针网络。相关技术中的抽取模型通常由BERT、双向长短期 记忆(Bi-directional Long Short-Term Memory,BiLSTM)和条件随机场(Conditional Random Field,CRF)组成。虽然相关技术中的抽取模型采用BERT和BiLSTM,对序列标注的精度 较高,但没有状态转移的条件约束,并且是串行检测方法,抽取模型容易输出一个完全错误 的标注序列。而训练模型通过BERT、DGCNN和指针网络,以及门控机制降低梯度消失风险, 并且运用残差方法使得信息能够在多通道传输,还能够在不增加模型参数的基础上,捕捉文 本中更远的距离,另外,通过指针网络能够在文本中捕捉序列中的首尾位置,提高训练模型 抽取的准确性以及减少抽取步骤,提高抽取效率。
需要说明的是,对于一组已标注的数据,B表示一个命名实体的开头,I表示当前词为命 名实体的后面部分,O表示不是命名实体。例如,一个测试句子为“the(B)wall(I)street(I) journal(I)reported(O)today(O)that(O)apple(B)corporation(I)made(O)money(O)”。其中,“the wall street journal”(华尔街日报)、“apple corporation”(苹果公司)为命名实体。
对于BiLSTM和DGCNN,当将测试句子的“the wall street journal”进入BiLSTM时, 该命名实体是按照“the→wall→street→journal”的先后顺序依次输出的序列标注“B→I→I→ I”。而当将测试句子的“the wall street journal”进入DGCNN,DGCNN将“thewall street journal” 一次输入直接得到“BIII”。可以看出,BiLSTM是一种串行方法,其处理方式为逐个预测标 签。而DGCNN采用并行方式,一次预测所有标签,提高预测的准确性和效率。
对于实体“the wall street journal”,CRF可能只解码出“the wall street”(华尔街)这个 实体。而指针网络捕捉到实体的首个单词“the”和最后一个单词“journal”,从而可将整个 实体识别,因此,采用指针网络进行实体识别,能够提高识别效果,提高识别准确率。
另外,训练模型在针对关系抽取的过程,能够减少关系抽取的步骤,提高信息抽取的效 率。例如,对文本“人物A来自地区B”抽取三元组信息,相关技术中的抽取模型会先进行 命名实体抽取出实体“人物A”和“地区B”,再将这两个命名实体输入通过文本分类得出关系“来自”。而训练模型则可以捕捉到命名实体“人物A”“地区B”以及“来自”的头 尾两个字词,从而能够直接抽取整个三元组信息,减少关系抽取步骤,提高抽取效率。
参照图4,图2所示实施例中的步骤S300还包括但不限于有以下步骤:
步骤S310,对第一实体数据和第二实体数据进行相似度比较处理,得到实体相似度数据。
其中,第一转化数据包括第一实体数据,第一知识图谱数据包括第二实体数据。
可以理解的是,通过对异构数据进行信息抽取,将异构数据中的实体信息进行抽取,并 转化为第一转化数据中的第一实体数据。而第一知识图谱数据中包括有作为实体结点的第二 实体数据。为了将不同来源的同一实体进行关联,同时避免重复创建实体结点,因此需要对 第一转化数据中的第一实体数据和第一知识图谱数据中的第二实体数据进行相似度比较处理, 得到实体相似度数据,从而利用实体相似度数据判断第一实体数据与第二实体数据是否为同 一实体。若认为第一实体数据与第二实体数据为同一实体,则对第一实体数据融合至第二实 体数据中;若认为第一实体数据与第二实体数据不是同一实体,则在第一知识图谱数据中添 加第一实体数据所对应的第一转化数据,更新第一知识图谱数据,从而实现利用不同平台、 不同领域的数据对知识图谱进行融合构建,提高知识图谱的准确性。
需要说明的是,实体相似度数据为第一实体数据与第二实体数据之间的相似度。而第一 实体数据与第二实体数据的相似度比较,可以采用最小编辑距离算法进行计算,即采用最小 的编辑操作将第一实体数据中的字符串转换为第二实体数据中的字符串,其中,最小编辑距 离可以通过如下公式进行计算:
其中,N为第一实体数据中待转换字符串的长度,M为第二实体数据中目标字符串的长 度。
因此,采用最小编辑距离对第一实体数据与第二实体数据之间的相似度进行计算,最小 编辑距离越小,则说明第一实体数据与第二实体数据之间的重复率越高,相似度越高。
参照图5,图2所示实施例中的步骤S400还包括但不限于有以下步骤:
步骤S410,在实体相似度数据不满足预设实体阈值条件的情况下,对第一转化数据和第 一知识图谱数据进行融合处理;
或者,
步骤S420,在实体相似度数据满足预设实体阈值条件的情况下,在第一知识图谱数据的 基础上添加第一转化数据,得到第二知识图谱数据。
可以理解的是,若采用最小编辑距离计算实体相似度数据,而在实体相似度数据不满足 预设实体阈值条件的情况下,即,实体相似度数据中的最小编辑距离小于或等于预设实体阈 值条件中的实体距离阈值,可以认为第一实数据与第二实体数据的相似度高,第一实体数据 与第二实体数据为同一实体,需要对第一转化数据和第一知识图谱数据进行融合处理,将第 一实体数据所对应的第一转化数据和第二实体数据所对应的第一知识图谱数据关联起来。
在实体相似度数据满足预设实体阈值条件的情况下,即实体相似度数据中的最小编辑距 离大于预设实体阈值条件中的实体距离阈值,可以认为第一实体数据与第二实体数据的相似 度低,第一实体数据与第二实体数据不是同一实体,则利用第一实体数据所对应的第一转化 数据创建实体结点,在第一知识图谱数据的基础上添加第一转化数据,完成知识图谱的融合 更新,得到第二知识图谱数据,形成新的知识图谱。因此,通过对第一转化数据和第一知识 图谱数据计算实体相似度,根据不同的实体相似度进行不同的融合构建处理,能够避免在知 识融合过程中无效计算过多,提高知识融合的效率。
需要说明的是,第一转化数据中包含有多个第一比较数据,第一知识图谱数据中包含有 多个第二比较数据。为了提高知识融合的准确性,在进行知识融合之前,可以为第一转化数 据和第一知识图谱数据进行指定融合标识符,选择在知识融合时可用于表征实体本质的关键 属性组以用于进行实体相似度判断,即利用融合标识符从第一比较数据中确定出第一实体数 据,并且从第二比较数据中确定第二实体数据,从而仅通过比较第一实体数据和第二实体数 据能够判断出第一实体数据与第二实体数据是否为同一实体,避免全量比对时所造成的无效 计算,且可以一定程度上提升知识融合时相似度计算的准确性。同时,用户需要指定互斥属 性。例如,人的性别属性即为互斥属性,性别不同的两个实体必然是不同的实体。因此,可 以通过对互斥属性的判断,对人的性别数据融入融合标识符,从而提高知识融合效率和准确 率。
参照图6,图5所示实施例中的步骤S410还包括但不限于有以下步骤:
步骤S430,对第一属性数据和第二属性数据进行相似度比较处理,得到属性相似度数据;
步骤S440,根据属性相似度数据和预设属性阈值条件,对第一转化数据和第一知识图谱 数据进行融合处理。
其中,第一转化数据还包括第一属性数据,第一知识图谱数据还包括第二属性数据。
可以理解的是,实现知识融合,需要将不同来源的同一实体关联起来,同时还需要对数 据中的属性数据进行融合。在第一转化数据中的第一实体数据与第一知识图谱数据的第二实 体数据为同一实体的情况下,还需要对第一转化数据中的第一属性数据与第一知识图谱数据 中的第二属性数据进行相似度比较处理,计算得到属性相似度数据。通过属性相似度数据和 预设属性阈值条件判断第一属性数据是否与第二属性数据相同,从而进行融合处理,将第一 转化数据的第一属性数据融合更新至第一知识图谱数据中。
参照图7,图6所示实施例中的步骤S440还包括但不限于有以下步骤:
步骤S450,在属性相似度数据不满足预设属性阈值条件的情况下,在第一知识图谱数据 的基础上添加第一属性数据,得到第二知识图谱数据;
或者,
步骤S460,在属性相似度数据满足预设属性阈值条件的情况下,维持第一知识图谱数据 或将第一属性数据对第二属性数据进行替换,得到第二知识图谱数据。
可以理解的是,第一实体数据与第二实体数据之间的相似度高,为了避免重复创建属性 结点,在属性相似度数据不满足预设属性阈值条件的情况下,可以认为,第一属性数据与第 二属性数据之间的相似度低,认为第一属性数据与第二属性数据不相同,因此,在第一知识 图谱数据的基础上添加第一属性数据,即第一知识图谱数据包括第二实体数据、第一属性数 据和第二属性数据,其中,第二实体数据分别与第一属性数据和第二属性数据相关联。在属 性的相似度数据满足预设属性阈值条件的情况下,可以认为第一属性数据与第二属性数据之 间的相似度高,为了避免重复创建属性结点,可以维持第一知识图谱数据,或者采用第一属 性数据对第一知识图谱数据中的第二属性数据进行更新替换,从而完成知识图谱的融合更新, 得到第二知识图谱数据。
参照图8,图6所示实施例中的步骤S430还包括但不限于有以下步骤:
步骤S470,基于杰卡德系数和/或词频-逆向文件频率至对第一属性数据和第二属性数据 进行相似度比较处理,得到属性相似度数据。
可以理解的是,第一属性数据以及第二属性数据中的文本长度较短,且具有较高的相似 性,而且在短文本中的一字之差会严重影响相似度的判断,因此可以利用杰卡德系数,即 Jaccard系数,对第一属性数据与第二属性数据之间的相似度进行计算。由于Jaccard系数主 要用于计算符号度量或布尔值度量的个体间的相似度,因为个体的特征属性都是由符号度量 或者布尔值标识,因此无法衡量差异具体值的大小,仅关系个体间共同具有的特征是否一致, 从而能够利用Jaccard系数来判断第一属性数据和第二属性数据是否相同,以进行相应的属性 融合处理。
其中,基于Jaccard系数的属性相似度数据可以通过如下公式进行计算:
其中,S为表示第一属性数据的字符串,T为表示第二属性数据的字符串。利用Jaccard 系数对第一属性数据和第二属性数据的相似度进行判断,能够避免短文本中因一字之差而导 致相似度的误判断,提高相似度比较的准确性。
可以理解的是,一个词语的重要性随着该词语在文件中出现的次数成正比增加,但同时 会随着该词语在语料库中出现的频率成反比下降。所以,一个词语在一篇文章中出现次数越 多,同时在所有文档中出现次数越少,越能够代表该文章。因此,通过词频-逆向文件频率 (Term Frequency–Inverse Document Frequency,TF-IDF)表征短文本的语义特征,计算第一 属性数据与第二属性数据之间的相似度,能够降低相似度计算的工作量,同时提高相似度计 算的准确率。
参照图9,图9示出了第一知识图谱数据具体由以下步骤得到:
步骤S500,获取来自于第二平台的待处理数据;
步骤S600,对待处理数据进行信息抽取处理,得到第二转化数据;
步骤S700,将第二转化数据导入OrientDB数据库,得到第一知识图谱数据。
可以理解的是,获取用于构建知识图谱的待处理数据,待处理数据来自于第二平台,也 可以来自于知识图谱构建平台,即待处理数据可以为本地数据,可以通过用户上传得到。待 处理数据可以包含有结构化数据和非结构化数据,例如,JSON文件格式的结构化数据和文本 文件格式的非结构化数据。对于结构化数据,可以进行正则化处理后进行信息抽取处理,提 高知识图谱构建的准确性。对于非结构化数据,则利用训练模型进行信息抽取,将非结构化 数据转化为结构化数据。对待处理数据进行信息抽取处理后,得到结构化数据格式的第二转 化数据。将第二转化数据导入OrientDB数据库中,利用OrientDB数据库对第二转化数据进 行管理处理,建立从待处理数据中抽取出的第二转化数据与知识图谱本体的映射关系,得到 第一知识图谱数据,构建知识图谱。OrientDB数据库是一个开源数据库管理系统,包含有传 统数据库管理系统的功能以及文档,基于Python和OrientDB对第二转化数据进行知识图谱 构建,由于OrientDB的处理性能高,处理速度快,能够提高知识图谱的构建效率。
参照图10,图9所示实施例中的步骤S600还包括但不限于有以下步骤:
步骤S610,根据训练模型对第二结构数据进行信息抽取得到第二转化数据,其中,训练 模型包括BERT、DGCNN和指针网络。
可以理解的是,待处理数据包括第二转化数据,第二转化数据为非结构化数据,非结构 化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来 表现的数据。为了避免因数据形式不同而产生污染,影响信息提取的准确性,利用训练模型 对第二结构数据进行修剪和转化,得到第二转化数据。其中,训练模型包括BERT、DGCNN 和指针网络。利用指针网络在文本中捕捉序列的首尾位置,减少抽取步骤,提高抽取效率, 同时利用DGCNN一次预测所有标签,提高预测的准确性和效率。
参照图11,图11示出了本发明实施例提供的知识图谱构建平台1100。该知识图谱构建 平台1100包括存储器1110、处理器1120及存储在存储器1110上并可在处理器1120上运行 的计算机程序,处理器1120执行计算机程序时实现如上述实施例中的知识图谱构建方法。
存储器1110作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂 态性计算机可执行程序,如本发明上述实施例中的知识图谱构建方法。处理器1120通过运行 存储在存储器1110中的非暂态软件程序以及指令,从而实现上述本发明上述实施例中的知识 图谱构建方法。
存储器1110可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至 少一个功能所需要的应用程序;存储数据区可存储执行上述实施例中的知识图谱构建方法所 需的数据等。此外,存储器1110可以包括高速随机存取存储器1110,还可以包括非暂态存储 器1110,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。需要说明的 是,存储器1110可选包括相对于处理器1120远程设置的存储器1110,这些远程存储器1110 可以通过网络连接至该终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、 移动通信网及其组合。
实现上述实施例中的知识图谱构建方法所需的非暂态软件程序以及指令存储在存储器中, 当被一个或者多个处理器执行时,执行上述实施例中的知识图谱构建方法,例如,执行以上 描述的图2中的方法步骤S100至步骤S400、图3中的方法步骤S210、图4中的方法步骤S310、 图5中的方法步骤S410至步骤S420、图6中的方法步骤S430至步骤S440、图7中的方法 步骤S450至步骤S460、图8中的方法步骤S470、图9中的方法步骤S500至步骤S700和图 10中的方法步骤S610。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指 令,计算机可执行指令用于使计算机执行如上述实施例中的知识图谱构建方法,例如,执行 以上描述的图2中的方法步骤S100至步骤S400、图3中的方法步骤S210、图4中的方法步 骤S310、图5中的方法步骤S410至步骤S420、图6中的方法步骤S430至步骤S440、图7中的方法步骤S450至步骤S460、图8中的方法步骤S470、图9中的方法步骤S500至步骤 S700和图10中的方法步骤S610。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也 可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根 据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实 施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理 器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实 施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介 质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普 通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据 结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可 移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、 CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装 置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域 普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如 载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在技术领 域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (11)
1.一种知识图谱构建方法,应用于知识图谱构建平台,所述知识图谱构建平台包括来自于第一平台的异构数据和来自于第二平台的第一知识图谱数据,所述方法包括:
获取来自于第一平台的异构数据和来自于第二平台的第一知识图谱数据;
对所述异构数据进行信息抽取处理,得到第一转化数据;
对所述第一转化数据和所述第一知识图谱数据进行相似度比较处理,得到相似度数据;
根据所述相似度数据和预设阈值条件,对所述第一转化数据和所述第一知识图谱数据进行融合构建处理,得到第二知识图谱数据。
2.根据权利要求1所述的知识图谱构建方法,其特征在于,所述异构数据包括第一结构数据;
所述对所述异构数据进行信息抽取处理,得到第一转化数据,包括:
根据训练模型对所述第一结构数据进行信息抽取得到第一转化数据,其中,所述训练模型包括基于转换器的双向编码表征BERT、膨胀门卷积神经网络DGCNN和指针网络。
3.根据权利要求1所述的知识图谱构建方法,其特征在于,所述第一转化数据包括第一实体数据,所述第一知识图谱数据包括第二实体数据;
所述对所述第一转化数据和所述第一知识图谱数据进行相似度比较处理,得到相似度数据,包括:
对所述第一实体数据和所述第二实体数据进行相似度比较处理,得到实体相似度数据。
4.根据权利要求3所述的知识图谱构建方法,其特征在于,所述根据所述相似度数据和预设阈值条件,对所述第一转化数据和所述第一知识图谱数据进行融合构建处理,得到第二知识图谱数据,包括:
在所述实体相似度数据不满足预设实体阈值条件的情况下,对所述第一转化数据和所述第一知识图谱数据进行融合处理;
或者,
在所述实体相似度数据满足预设实体阈值条件的情况下,在所述第一知识图谱数据的基础上添加所述第一转化数据,得到第二知识图谱数据。
5.根据权利要求4所述的知识图谱构建方法,其特征在于,所述异构数据还包括第一属性数据,所述第一知识图谱数据还包括第二属性数据;
所述对所述第一转化数据和所述第一知识图谱数据进行融合处理,包括:
对所述第一属性数据和所述第二属性数据进行相似度比较处理,得到属性相似度数据;
根据所述属性相似度数据和预设属性阈值条件,对所述第一转化数据和所述第一知识图谱数据进行融合处理。
6.根据权利要求5所述的知识图谱构建方法,其特征在于,所述根据所述属性相似度数据和预设属性阈值条件,对所述第一转化数据和所述第一知识图谱数据进行融合处理,包括:
在所述属性相似度数据不满足预设属性阈值条件的情况下,在所述第一知识图谱数据的基础上添加所述第一属性数据,得到第二知识图谱数据;
或者,
在所述属性相似度数据满足预设属性阈值条件的情况下,维持所述第一知识图谱数据或将所述第一属性数据对所述第二属性数据进行替换,得到第二知识图谱数据。
7.根据权利要求5所述的知识图谱构建方法,其特征在于,所述对所述第一属性数据和所述第二属性数据进行相似度比较处理,得到属性相似度数据,包括:
基于杰卡德系数和/或词频-逆向文件频率至对所述第一属性数据和所述第二属性数据进行相似度比较处理,得到属性相似度数据。
8.根据权利要求1至7任意一项所述的知识图谱构建方法,其特征在于,所述第一知识图谱数据由以下步骤得到:
获取来自于所述第二平台的待处理数据;
对所述待处理数据进行信息抽取处理,得到第二转化数据;
将所述第二转化数据导入OrientDB数据库,得到第一知识图谱数据。
9.根据权利要求8所述的知识图谱构建方法,其特征在于,所述待处理数据包括第二结构数据;
所述对所述待处理数据进行信息抽取处理,得到第二转化数据,包括:
根据训练模型对所述第二结构数据进行信息抽取得到第二转化数据,其中,所述训练模型包括BERT、DGCNN和指针网络。
10.一种知识图谱构建平台,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至9中任意一项所述的知识图谱构建方法。
11.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至9中任意一项所述的知识图谱构建方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111308484.2A CN116089623A (zh) | 2021-11-05 | 2021-11-05 | 知识图谱构建方法、平台及计算机存储介质 |
PCT/CN2022/126759 WO2023078104A1 (zh) | 2021-11-05 | 2022-10-21 | 知识图谱构建方法、平台及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111308484.2A CN116089623A (zh) | 2021-11-05 | 2021-11-05 | 知识图谱构建方法、平台及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116089623A true CN116089623A (zh) | 2023-05-09 |
Family
ID=86187358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111308484.2A Pending CN116089623A (zh) | 2021-11-05 | 2021-11-05 | 知识图谱构建方法、平台及计算机存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116089623A (zh) |
WO (1) | WO2023078104A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116720786B (zh) * | 2023-08-01 | 2023-10-03 | 中国科学院工程热物理研究所 | 一种融合kg和plm的装配质量稳定性预测方法、系统及介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920588B (zh) * | 2018-06-26 | 2021-02-26 | 北京光年无限科技有限公司 | 一种用于人机交互的知识图谱更新方法及系统 |
CN111708893A (zh) * | 2020-05-15 | 2020-09-25 | 北京邮电大学 | 基于知识图谱的科技资源整合方法及系统 |
CN113157930A (zh) * | 2020-12-30 | 2021-07-23 | 上海科技发展有限公司 | 基于多源异构数据的知识图谱构建方法、系统以及终端 |
-
2021
- 2021-11-05 CN CN202111308484.2A patent/CN116089623A/zh active Pending
-
2022
- 2022-10-21 WO PCT/CN2022/126759 patent/WO2023078104A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023078104A1 (zh) | 2023-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
WO2020001373A1 (zh) | 一种本体构建方法及装置 | |
CN111339313A (zh) | 一种基于多模态融合的知识库构建方法 | |
CN107562772B (zh) | 事件抽取方法、装置、系统和存储介质 | |
CN105893611B (zh) | 一种构建面向社交网络的兴趣主题语义网络的方法 | |
CN107077463A (zh) | 远程监督关系提取器 | |
US20230245455A1 (en) | Video processing | |
CN113722490B (zh) | 一种基于键值匹配关系的视觉富文档信息抽取方法 | |
CN106874397B (zh) | 一种面向物联网设备的自动语义标注方法 | |
CN113094512B (zh) | 一种工业生产制造中故障分析系统及方法 | |
WO2022089227A1 (zh) | 地址参数处理方法及相关设备 | |
CN111538818A (zh) | 数据查询方法、装置、电子设备及存储介质 | |
CN114385933A (zh) | 一种顾及语义的地理信息资源检索意图识别方法 | |
CN112417887A (zh) | 敏感词句识别模型处理方法、及其相关设备 | |
CN116628173A (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
CN113971210B (zh) | 一种数据字典生成方法、装置、电子设备及存储介质 | |
CN113051384B (zh) | 基于对话的用户画像抽取方法及相关装置 | |
WO2023078104A1 (zh) | 知识图谱构建方法、平台及计算机存储介质 | |
CN114911893A (zh) | 基于知识图谱的自动化构建知识库的方法及系统 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN112632223A (zh) | 案事件知识图谱构建方法及相关设备 | |
CN111104520B (zh) | 一种基于人物身份的人物实体链接方法 | |
CN114694098A (zh) | 基于图像识别与知识图谱的电网基建施工风险管控方法 | |
CN113177164A (zh) | 基于大数据的多平台协同新媒体内容监控管理系统 | |
CN113705194A (zh) | 简称抽取方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |