CN113010688A - 知识图谱构建方法、装置、设备及计算机可读存储介质 - Google Patents

知识图谱构建方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113010688A
CN113010688A CN202110245088.3A CN202110245088A CN113010688A CN 113010688 A CN113010688 A CN 113010688A CN 202110245088 A CN202110245088 A CN 202110245088A CN 113010688 A CN113010688 A CN 113010688A
Authority
CN
China
Prior art keywords
knowledge
graph
data set
target
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110245088.3A
Other languages
English (en)
Inventor
宋浩楠
赵刚
王兴芬
马倩倩
陈浩
张文静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN202110245088.3A priority Critical patent/CN113010688A/zh
Publication of CN113010688A publication Critical patent/CN113010688A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种知识图谱构建方法,包括:获取目标领域的用于构建知识图谱的目标数据集;采用基于监督学习的方法,对目标数据集进行知识抽取,得到知识抽取结果;从全局本体和局部本体的层面,对知识抽取结果进行知识融合,以构建初始知识图谱。可见,本申请采用基于监督学习的方法进行知识抽取、以及基于全局本体和局部本体的集成思想来实现本体概念层融合,实现了目标领域知识的获取与融合,从而实现了知识图谱的构建,该知识图谱构建方法不但在不同领域具有普适性,还有助于快速、高效地构建目标领域知识图谱。

Description

知识图谱构建方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种知识图谱构建方法、装置、设备及计算机可读存储介质。
背景技术
随着大数据时代的到来,知识呈现爆炸式的增长,如何从海量的数据中提取、组织有用的知识,并对其表达和利用,变得至关重要,因此,知识图谱作为丰富直观的知识表达方式应运而生,已经在多个领域得到了成功应用。
现有的面向特定领域的知识图谱构建方法,大都以通用领域知识图谱构建的全生命周期为依托,采用自底向上和自顶向下相结合的手段构建该领域知识图谱。由于各个领域又有鲜明的领域特点,面对新领域无法完全照搬套用。
可见,现有的知识图谱构建方法不具有普适性,并且,无法快速、高效地构建目标领域的知识图谱。
发明内容
本申请提供了一种知识图谱构建方法、装置、设备及计算机可读存储介质,能够快速、高效地构建目标领域的知识图谱、且适用于不同领域对知识图谱的构建。
第一方面,本申请提供了一种知识图谱构建方法,包括:
获取目标领域的用于构建知识图谱的目标数据集;
采用基于监督学习的方法,对所述目标数据集进行知识抽取,得到知识抽取结果;
从全局本体和局部本体的层面,对所述知识抽取结果进行知识融合,以构建初始知识图谱。
可选的,所述获取目标领域的用于构建知识图谱的目标数据集,包括:
获取目标领域的用于构建知识图谱的初始数据集;
采用不同的数据抽取方法,对所述初始数据集中的不同来源数据进行知识抽取,形成目标数据集。
可选的,所述采用基于监督学习的方法,对所述目标数据集进行知识抽取,包括:
采用基于半监督学习方法、远监督学习方法、无监督学习方法中的至少一种,对所述目标数据集进行命名实体识别;
基于所述命名实体识别的识别结果,进行实体关系抽取。
可选的,所述进行实体关系抽取,包括:
采用基于深度学习的远程监督方法,进行实体关系抽取。
可选的,所述方法还包括:
从实例层的层面,对所述知识抽取结果进行知识融合。
可选的,所述方法还包括:
采用关系数据库和图数据库的双重存储方式,对所述目标数据集进行存储。
可选的,所述关系数据库为MySQL数据库,所述图数据库为Neo4J数据库。
可选的,所述方法还包括:
基于知识演绎和/或知识归纳的方式,对所述初始知识图谱进行知识补全,得到目标知识图谱。
可选的,所述初始知识图谱或所述目标知识图谱,用于知识问答、智能推荐、信息检索、辅助决策、数据可视化中的至少一种上层应用。
可选的,所述目标领域为大宗商品领域。
第二方面,本申请提供了一种知识图谱构建装置,包括:
数据获取单元,用于获取目标领域的用于构建知识图谱的目标数据集;
知识抽取单元,用于采用基于监督学习的方法,对所述目标数据集进行知识抽取,得到知识抽取结果;
知识融合单元,用于从全局本体和局部本体的层面,对所述知识抽取结果进行知识融合,以构建初始知识图谱。
可选的,数据获取单元,具体用于:
获取目标领域的用于构建知识图谱的初始数据集;
采用不同的数据抽取方法,对所述初始数据集中的不同来源数据进行知识抽取,形成目标数据集。
可选的,知识抽取单元,具体用于:
采用基于半监督学习方法、远监督学习方法、无监督学习方法中的至少一种,对所述目标数据集进行命名实体识别;
基于所述命名实体识别的识别结果,进行实体关系抽取。
可选的,知识抽取单元在进行实体关系抽取时,具体用于采用基于深度学习的远程监督方法,进行实体关系抽取。
可选的,知识融合单元,还用于:
从实例层的层面,对所述知识抽取结果进行知识融合。
可选的,所述装置还包括:
数据存储单元,用于采用关系数据库和图数据库的双重存储方式,对所述目标数据集进行存储。
可选的,所述关系数据库为MySQL数据库,所述图数据库为Neo4J数据库。
可选的,所述装置还包括:
知识补全单元,用于基于知识演绎和/或知识归纳的方式,对所述初始知识图谱进行知识补全,得到目标知识图谱。
可选的,所述初始知识图谱或所述目标知识图谱,用于知识问答、智能推荐、信息检索、辅助决策、数据可视化中的至少一种上层应用。
可选的,所述目标领域为大宗商品领域。
第三方面,本申请提供了一种电子设备,包括:处理器、存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于通过调用所述计算机程序,执行上述图像处理方法。
第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述图像处理方法。
在以上本申请提供的技术方案中,获取目标领域的用于构建知识图谱的目标数据集;采用基于监督学习的方法,对目标数据集进行知识抽取,得到知识抽取结果;从全局本体和局部本体的层面,对知识抽取结果进行知识融合,以构建初始知识图谱。可见,本申请采用基于监督学习的方法进行知识抽取、以及基于全局本体和局部本体的集成思想来实现本体概念层融合,实现了目标领域知识的获取与融合,从而实现了知识图谱的构建,该知识图谱构建方法不但在不同领域具有普适性,还有助于快速、高效地构建目标领域知识图谱。
附图说明
图1为本申请示出的一种知识图谱构建方法的流程示意图;
图2为本申请示出的知识图谱构建流程框图;
图3为本申请示出的知识融合示意图;
图4为本申请示出的不同数据的格式示例图;
图5为本申请示出的规则数据存储示例图;
图6为本申请示出的演绎推理架构示意图;
图7为本申请示出的一种知识图谱构建装置的组成示意图;
图8为本申请示出的一种电子设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
参见图1,为本申请实施例提供的一种知识图谱构建方法的流程示意图,下面结合图2所示的知识图谱构建流程框图,对该方法的各个步骤进行具体介绍,该方法可以包括以下步骤S101-S103:
S101:获取目标领域的用于构建知识图谱的目标数据集。
需要说明的是,本申请实施例不对目标领域的领域类型进行限定,在本申请实施例的一种实现方式中,目标领域可以为大宗商品领域;或者,目标领域也可以是其它领域,比如科技领域、医学领域等。
当目标领域为大宗商品领域时,S101中的目标数据集则是大宗商品领域的数据集。具体来讲,目前,大宗商品交易领域,存在海量的大宗商品相关数据,同时该领域数据多元分散、知识表示存在歧义,然而,采用本申请实施例提供的知识图谱构建方式,可以整合和利用这些数据,构建该领域的知识图谱,这将极大促进大宗商品电子交易市场平稳健康发展,因此,本申请实施例提供的知识图谱构建方法,可以是一种面向大宗商品领域的知识图谱构建方法。
大宗商品种类覆盖的行业较多,在提高商品流通效率,降低社会综合成本的基础上兼具价格发现功能,凭借更加灵活、贴近市场需求的交易模式、交收模式,起到连接现货市场和期货市场的作用。大宗商品领域知识图谱的构建对于大宗商品市场资源配置、市场结构发现、市场交易监管具有重要作用,有助于推动构建全产品生命周期、全产业链服务集成、全流程供应链企业协同管理的大宗商品平台经济,从而带来巨大的社会效益和经济效益。当采用本申请实施例提供的方法构建大宗商品领域知识图谱时,填补了大宗商品领域知识图谱的构建空缺。
此外,大宗商品领域知识图谱的构建,使得大宗商品领域的知识以结构化的形式统一表示,使得大宗行业领域内相关机构规范发展,使得相关政府监管部门监管更加便捷。而且,基于时间、空间属性,也能动态、实时地将行业的发展走向展示出来。
在本申请实施例的一种实现方式中,S101中的“获取目标领域的用于构建知识图谱的目标数据集”,具体可以包括以下步骤A1-A2:
步骤A1:获取目标领域的用于构建知识图谱的初始数据集。
其中,初始数据集,可以包括一个或多个已构建知识图谱的图谱数据,该已构建知识图谱可以是目标领域中的某子领域(比如大宗商品领域中的钢铁领域)对应的已构建知识图谱;此外,初始数据集,还可以包括从网络等途径收集到的属于目标领域的相关数据。
步骤A2:采用不同的数据抽取方法,对初始数据集中的不同来源数据进行知识抽取,形成目标数据集。
在本申请实施例中,需要对步骤A1中的初始数据集进行预处理,在进行预处理时,可以在数据层面上进行关键字段的知识抽取等处理。
由于初始数据集可能是多源数据,比如,上述大宗商品领域的数据集就是多源数据。因此,当收集了目标领域数据形成初始数据集后,可以根据该初始数据集中的不同数据源,在数据层面上,采用不同的知识抽取方法,对该初始数据集进行知识抽取,以形成目标数据集。
具体地,下面对结构化数据、半结构化数据、以及非结构化数据各自对应的知识抽取方法进行介绍。参见表1,对于结构化数据,可以直接使用抽取工具进行知识抽取,比如D2R、Virtuoso、OracleSW、Morph等抽取工具;对于百科类数据、网页数据等半结构化数据,可以采用包装器的方式实现知识抽取,其中,包装器的生成方法包括手工方法、包装器归纳方法和自动抽取方法这三大类;而对于非结构化数据,可以采用基于深度学习远程监督的实体关系抽取方法进行知识抽取。
Figure BDA0002963808200000071
表1不同数据源的知识抽取方法
S102:采用基于监督学习的方法,对目标数据集进行知识抽取,得到知识抽取结果。
需要说明的是,由于S101中的目标数据集中的全部或部分数据,可能来自于已构建知识图谱,但知识图谱中的知识是以离散符号的方式进行表述,这些离散符号并不能在计算机表达相应语义层面的信息,也不能进行语义计算;同时,在知识图谱构建任务中涉及计算效率、数据稀疏、异质信息等问题,为解决此类问题,可以使用翻译模型来解决知识图谱中的知识表示学习,将知识图谱中的三元组转化到相应的稠密低维向量。在低维空间中高效计算实体和关系的语义联系,能够有效解决数据稀疏等问题,从而使后续的知识抽取、知识融合和知识推理的性能得到显著提升。
还需要说明的是,知识抽取作为构建知识图谱最重要的步骤之一,直接影响了知识图谱的构建质量和后续的应用效果,其主要研究的是如何从大量的异构数据中抽取特定的知识。其中,知识抽取的两大主要任务包括命名实体识别和关系抽取,具体可以基于BERT+BILSTM+CRF模型对目标领域相关实体进行识别与抽取,通过深度学习远程监督的关系抽取方法对预处理后的数据进行关系挖掘和抽取,并且,可以使用联合抽取方法对实体和关系进行同步抽取。
在本申请实施例的一种实现方式中,S102中的“采用基于监督学习的方法,对目标数据集进行知识抽取”,可以包括以下步骤B1-B2:
步骤B1:采用基于半监督学习方法、远监督学习方法、无监督学习方法中的至少一种,对目标数据集进行命名实体识别。
命名实体识别,是指从文本中检测出命名实体,并将其分类到预定义的类别中,例如人物、组织、地点、时间等,命名实体识别是进行知识抽取其它任务的基础。
目前,命令实体识别只是在有限的领域和有限的实体类型中取得了较好的成绩,比如针对新闻语料中的人名、地名、组织机构名的识别。但在其它特定领域,由于不同领域的数据往往具有领域独特特征,现有的这些技术无法很好地迁移过去;另外,由于领域资源匮乏造成标注数据集缺失,导致模型训练很难直接开展。为解决该问题,本申请实施例通过采用半监督学习、远监督学习、无监督学习方法中的一种或多种,实施资源的自动构建和补足,以及迁移学习等技术的应用,解决目前知识图谱构建过程中的命名实体识别问题。
步骤B2:基于命名实体识别的识别结果,进行实体关系抽取。
关系抽取的主要任务就是通过对文本语料进行建模,获取实体之间的语义关系,进而形成网状的知识结构。
目前,对关系抽取的研究主要集中在限定域,限定域关系抽取的方法主要有基于模板的方法和基于机器学习的方法等,其中,基于机器学习的方法又分为有监督和弱监督两类。
在本申请实施例中,可以采用基于深度学习的实体关系抽取技术,这在特征提取的深度和模型的精确度上已经逐渐超过了传统有监督学习基于特征和核函数的方法。基于深度学习的关系抽取可分为有监督和远程监督两类,本申请实施例在进行实体关系抽取时,具体可以采用基于深度学习的远程监督方法,进行实体关系抽取。
S103:从全局本体和局部本体的层面,对知识抽取结果进行知识融合,以构建初始知识图谱。
在本申请实施例中,当通过S102得到知识抽取结果后,需要基于该知识抽取结果进行知识融合,具体是在本体层的层面上对知识抽取结果进行知识融合,进一步地,还可以从实例层的层面,对知识抽取结果进行知识融合,这样,便可以基于知识融合结果构建知识图谱,这里称之为初始知识图谱。即,本申请实施例可以对抽取的实体和关系进行消歧,实现本体层和实例层的知识对齐,最终实现知识的融合。
知识融合是解决知识图谱异构问题的有效途径,知识融合可以建立异构本体或异构实例之间的联系,从而使异构的知识图谱能相互沟通,实现它们之间的互操作。例如,大宗商品领域的知识图谱包含一定的本体层知识和大量的实例层事实,因此,大宗商品领域知识图谱中的知识融合要分别考虑本体层和实例层两个层次的融合问题。
关于本体层面,具体是从全局本体和局部本体的层面,对知识抽取结果进行知识融合,即,采用全局本体和局部本体的集成思想来解决本体概念层融合的问题。该方法的主要思想是首先抽取异构本体之间的共同知识,构建一个全局的本体,同时,采用局部本体建立自己特有的本体,在本体构建过程中,全局本体构建过程和局部本体构建过程交替进行,从而保证局部本体的更新过程中产生的大量关联知识,可用于及时生成全局本体。其中,局部本体侧重特定知识,而全局本体保证目标领域中的不同子领域知识(比如大宗商品领域的不同类别商品)之间的异构部分能进行交互。
因此,可以通过本体匹配、实体匹配的方法,解决目标领域的知识融合问题,具体可采用如下算法,参见图3所示的知识融合示意图。
首先,采用实体对齐算法计算实体对间的相似度,即,关于某一来源的每个实体,找出另一来源中与其相似度最大的实体,若该相似度大于给定阈值,则认定这两个实体为同一实体,匹配到不同数据源实体对的等价链接。
可以采用以下两种方式之一进行实体对齐。
方式一:通过计算文本相似度的方式来进行实体对齐,具体的,可以对目标数据集中的实体标记文本进行抽取,采用word2vec获取的词向量对实体标记文本进行建模,从而得到实体标记文本中各个词的词向量,再对实体标记文本中所有词向量取其平均得到该实体标记文本的文本向量;然后,对于得到的各个实体标记文本的文本向量,采用余弦相似度来计算每两个文本向量夹角的余弦值,利用该余弦值来度量这两个文本向量的相似性,进而来度量这两个文本向量对应的两个实体的相似度。
方式二:通过计算属性相似度的方式来进行实体对齐,属性相似度用于衡量两个实体间的相同属性对应的属性值的相似性,利用该属性值相似度来度量两个实体间的相似度。具体的,可以将属性分为不同的类型,比如文本型和数值型,并对不同的属性类型设置不同的相似度度量机制,其中,关于文本类型数据,可以采用word2vec与余弦相似性相结合的方式计算属性值相似度,关于数值类型数据,可以通过计算“闵可夫斯基”距离的方式计算属性值相似度。
然后,采用实体属性融合算法进行属性融合,即,基于上述实体对齐结果,将两个来源的实体属性映射到统一的本体之上,并且,将同一本体的两个来源的相同属性进行合并,无法对齐的属性即为独有的属性,予以保留。
可以采用以下两种方式之一进行实体属性融合。
方式一:将同一本体的不同来源的两个属性的属性值进行分词,将得到的各个分词采用one-hot形式进行表示,从而得到两个属性值各自对应的one-hot向量;然后,比较这两个向量,若二者在语义上具有包含关系,则将这两个属性进行融合,即进行属性合并;反之,若不能将这两个属性进行融合,则计算这两个属性值向量的余弦相似度,作为这两个属性值的相似度并输出。
方式二:当同一本体的不同来源的两个属性的属性值不一致时,其表现为:当两个属性值的表达方式不同、但内容一致时,保留其中一个属性值;当两个属性值的内容不一致、但均是正确的值时,保留这两个属性值;当两个属性值的内容不一致、且有错误的值时,舍弃错误值,保留正确值。基于此,根据属性的唯一性进行属性融合,具体地,当两个属性具有唯一性时,选择正确的一个属性予以保留,例如,若某属性的属性值在目标数据集中多次出现(比如大于预设次数阈值),说明该属性值正确,则保留对应的属性,又例如,若某属性每次出现在目标数据集中均相同,说明该属性可靠性高,则保留该属性;此外,当属性不具有唯一性时,这两个属性均予以保留。
进一步地,在本申请实施例的一种实现方式中,还可以包括:采用关系数据库和图数据库的双重存储方式,对目标数据集(即S101中的目标数据集)进行存储,这种关联存储方式可以降低存储成本。其中,关系数据库可以为MySQL数据库,图数据库可以为Neo4J数据库。
在本实现方式中,知识存储涉及两种类型的数据,一种是基于三元组结构的资源描述框架(Resource Description Framework,RDF)数据,另一种是基于知识推理的规则数据。其中,RDF数据可以使用MySQL+Neo4J双重存储的方式,而基于知识推理的规则数据,可以使用可扩展标记语言(Extensible Markup Language,简称XML)格式进行存储。
具体来讲,可以将原始数据(即上述步骤A1中的初始数据集),经过数据预处理之后的结构化数据(即上述步骤A2中的目标数据集),使用MySQL关系数据库进行存储,然后,将这些数据存储在Neo4J图数据库中。
也就说是,在构建知识图谱的过程中,由于前期搜集了大量的结构化数据、半结构化数据和非结构化数据,而这些数据的主要存储格式通常为JSON(JavaScript ObjectNotation,简称JS对象简谱)和逗号分隔值(Comma-Separated Values,简称CSV)文件格式(参见图4所示的不同数据的格式示例图),因此,需要经过一系列的预处理手段进行关键字段提取。通常情况下,相同来源下的不同种数据与不同来源下同种数据之间存在较多的相同结构,因此,将这些结构进行整理,然后归纳存储在MySQL中,以分库分表的结构对数据进行有效的管理。
知识图谱是基于图的数据结构,Neo4J基于属性图的模型,其存储管理层为属性图结构中的节点、节点属性、边、边属性等设计了专门的存储方案,这使得Neo4J图数据库在存储和管理层面更具备优势,实际上,Neo4J已经是当前业界分析知识图谱的主流数据库。之后,可以将MySQL中存储的字段按需提取出来,以RDF格式录入Neo4J数据库中。同时,为了保证数据的可扩展性,也可以对MySQL关系数据库中的数据与Neo4J图数据库中的数据进行了关联。
对于用于知识推理的规则数据,主要可以按照规则类型进行分类,并且因为规则的长度不一,且其内容与条件字段可能存在个体差异,因此对每条规则进行单独的XML格式存储较为快捷和方便。基于上述考虑,规则数据可以以单条规则对应一个XML文件的形式进行存储,并同时按照类别进行归纳整理,参见图5所示的规则数据存储示例图。
进一步地,在本申请实施例的一种实现方式中,还可以包括:基于知识演绎和/或知识归纳的方式,对初始知识图谱(即S103中的初始知识图谱)进行知识补全,得到目标知识图谱。
在本实现方式中,当通过S103构建得到初始知识图谱后,可以对该初始知识图谱进行知识补全,本申请使用基于演绎和/或基于归纳的知识图谱推理方法进行知识补全。下面对这两种知识推理方式进行介绍。
1、基于演绎的知识图谱推理,具体可以是基于数据日志和产生式的知识图谱演绎推理。
具体来讲,基于数据日志的知识图谱演绎推理,是将数据日志程序应用在知识图谱中进行规则推理。一个知识图谱可以自然地被看作一个事实集,只需人为引入一个特殊的谓词triple,知识图谱中的每一个三元组(subject,property,object)便可以作为一个事实triple(subjec,property,object);另一种方法是按照描述逻辑ABox的方式来看待,即,将三元组(s,rdf:type,C)看作C(s),其它的三元组(s,p,o)看作p(s,o),其中,ABox是断言集,指具体个体的信息,三元组(s,rdf:type,C)用rdf:type声明主语s的类为C。这样,数据日志规则就可以作用于知识图谱上了。
而基于产生式的知识图谱演绎推理,使用了产生式系统,该产生式系统是一种推理系统,可按照一定机制规则达到某些目标,与一阶逻辑类似,产生式系统的推理方式有正向推理、反向推理和双向推理。
正向推理:从已知事实出发,通过规则库求得结论,或称数据驱动方式。其推理过程是,将规则集中的规则前件与数据库中的事实进行匹配,得到匹配的规则集合;从匹配规则集合中选择一条规则作为使用规则,执行使用规则的后件,将该使用规则的后件送入数据库中,重复这个过程直至达到目标。
反向推理:从目标(作为假设)出发,反向使用规则,求得已知事实,或称目标驱动方式。其推理过程是,将规则集中的规则后件与目标事实进行匹配,得到匹配的规则集合;从匹配的规则集合中选择一条规则作为使用规则,将使用规则的前件作为子目标,重复这个过程直至各子目标均为已知事实成功结束;如果目标明确,使用反向推理方式效率较高。
双向推理:同时使用正向推理和反向推理。
演绎推理过程,可参见图6所示的演绎推理架构示意图。
其中,统一格式是要检查并保证知识图谱中已存在的数据是否都已转换为RDF、RDFS、OWL格式数据,将未转化为该格式的数据进行转换和存储;自定义规则是要根据知识图谱任务目标,指定相应的推理规则并存储;执行推理是要将已有本体、推理规则、数据输入到整体推理系统中进行推理输出。
2、基于归纳的知识图谱推理,具体可以是基于图结构的知识图谱归纳推理。
具体来讲,对于自底向上构建的知识情景库中的知识图谱,图谱中大部分信息都是表示两个实体之间拥有某种关系的事实三元组。对于这些三元组,从图的角度来看,可以看作是标签的有向图,有向图以实体为节点,以关系为有向边,并且每个关系边从头实体的节点指向尾实体的节点。有向图中丰富的图结构反映了知识图谱丰富的语义信息,在知识图谱中典型的图结构是两个实体之间的路径。从语义角度来看,路径信息中蕴含着关系,而该路径蕴含的信息是推理过程中的子图,同样该子图也存在于图中其它实体组合中,即对于某些路径和关系而言,其是否存在某种关系与具体是什么实体没有关系,这说明路径是关系推理的一种重要的方式。对于某些关系路径和某些关系在图谱中经常共现,也是一种重要的结构,对研究知识图谱的推理具有重要意义。
通过上述内容可知,本申请实施例提出的是一种自底向上和自顶向下相结合地知识图谱构建方法,涉及知识获取、知识融合等多个步骤,包括针对多源数据采用不同的抽取方案、全局本体-局部本体的集成思想来实现本体概念层融合的方案、MySQL+Neo4J双重存储的方案、基于数据日志和产生式的知识图谱演绎推理进行知识补全的方案等。设计方法注重简单高效,方案清晰明确,且实现了数据的高效利用。
进一步地,当通过步骤S103构建得到初始知识图谱、或对初始知识图谱进行知识补全得到目标知识图谱后,可以将初始知识图谱或目标知识图谱用于某些上层应用。在本申请实施例中,初始知识图谱或目标知识图谱,可以用于知识问答、智能推荐、信息检索、辅助决策、数据可视化中的至少一种上层应用,应用领域广泛,实现了数据高效组织、管理和利用。
下面对知识问答、智能推荐、信息检索的相关内容进行介绍。
1、知识问答(基于知识图谱的问答)
问答系统应用降低了人机交互的门槛,提供了访问海量知识的新渠道。问答式的信息获取对精准度和可靠度的需求更高,知识图谱的引用可以更好地提升用户体验。
此外,基于知识图谱的问答系统能带来更丰富的知识表示,更高的知识准确率,以及更高的查询效率。
关于“更丰富的知识表示”:由于知识图谱中有大量的关联性数据,节点之间的各类关系提供了文本理解的语义背景,对于自然语言问句理解有很大的帮助;
关于“更高的知识准确率”:由于在构建知识图谱的过程中添加了人工标注或解析自网页表格的高质量数据,从而能够提供更准确的知识;
关于“更高的查询效率”:由于知识图谱存储在数据库中的是图结构数据,可以使用索引加速查询,因此查询效率较高。
例如,现有的大宗商品交易平台大部分都依赖于人工客服提供交易、法规相关的咨询,服务效率较低。基于大宗商品领域知识图谱的问答系统能够极大地为咨询提供方便,高质量地专业知识库可以有效辅助回答相关的专业问题,完善大宗商品交易平台的服务。
2、智能推荐(基于知识图谱的推荐)
传统推荐算法面临着很多挑战,对于基于协同过滤的推荐算法而言,会遇到冷启动、数据稀疏、可扩展性等挑战。而基于内容的推荐算法则可能会遇到特征描述、同义/多义词、结果同质性等方面的挑战。但在推荐系统中引入知识图谱,可以大大提升推荐的精准度,增加关系的多样性,提高结果的可解释性。
关于“提高推荐的精准度”:一方面,知识图谱为物品引入了更多的语义关系;另一方面,知识图谱可以深层次地发现用户兴趣,从而提升推荐的精准度。
关于“增加关系的多样性”:知识图谱提供了不同的关系连接种类,同时,也有利于推荐结果的发散,避免推荐结果越来越局限于单一类型。
关于“提高结果的可解释性”:知识图谱可以连接用户的兴趣历史和推荐结果,提高用户对推荐结果的满意度和接受度,增强用户对推荐系统的信任。
例如,基于大宗商品领域知识图谱,可以发现各个交易平台和交易品种之间的关系,从而根据推荐结果分析市场行情,对于信用值较高的平台给予奖励,对于信用较低的用户予以监管,帮助监管部门更好地监管大宗商品行业市场。
3、信息检索(基于知识图谱的搜索)
搜索的过程一般是确定搜索目标,发现匹配结果,匹配结果排序和相关结果推荐。当用户在搜索界面键入关键词后,经过建立查询、搜索查询后,符合要求的结果会被经过排序以后以格式化的形式向用户展示。
例如,基于大宗商品领域知识图谱的搜索得益于高质量的领域知识库,根据实体链接可以返回精确的答案,从而帮助相关人员更快更准确地找到想要的答案。对于分析大宗商品交易市场,做出预警决策提供有力的现实支撑,提高预警的可解释性。
在以上本申请实施例提供的知识图谱构建方法中,获取目标领域的用于构建知识图谱的目标数据集;采用基于监督学习的方法,对目标数据集进行知识抽取,得到知识抽取结果;从全局本体和局部本体的层面,对知识抽取结果进行知识融合,以构建初始知识图谱。可见,本申请实施例采用基于监督学习的方法进行知识抽取、以及基于全局本体和局部本体的集成思想来实现本体概念层融合,实现了目标领域知识的获取与融合,从而实现了知识图谱的构建,该知识图谱构建方法不但在不同领域具有普适性,还有助于快速、高效地构建目标领域知识图谱。
参见图7,为本申请实施例提供的一种知识图谱构建装置的组成示意图,该装置包括:
数据获取单元710,用于获取目标领域的用于构建知识图谱的目标数据集;
知识抽取单元720,用于采用基于监督学习的方法,对所述目标数据集进行知识抽取,得到知识抽取结果;
知识融合单元730,用于从全局本体和局部本体的层面,对所述知识抽取结果进行知识融合,以构建初始知识图谱。
在本申请实施例的一种实现方式中,数据获取单元710,具体用于:
获取目标领域的用于构建知识图谱的初始数据集;
采用不同的数据抽取方法,对所述初始数据集中的不同来源数据进行知识抽取,形成目标数据集。
在本申请实施例的一种实现方式中,知识抽取单元720,具体用于:
采用基于半监督学习方法、远监督学习方法、无监督学习方法中的至少一种,对所述目标数据集进行命名实体识别;
基于所述命名实体识别的识别结果,进行实体关系抽取。
在本申请实施例的一种实现方式中,知识抽取单元720在进行实体关系抽取时,具体用于采用基于深度学习的远程监督方法,进行实体关系抽取。
在本申请实施例的一种实现方式中,知识融合单元730,还用于:
从实例层的层面,对所述知识抽取结果进行知识融合。
在本申请实施例的一种实现方式中,所述装置还包括:
数据存储单元,用于采用关系数据库和图数据库的双重存储方式,对所述目标数据集进行存储。
在本申请实施例的一种实现方式中,所述关系数据库为MySQL数据库,所述图数据库为Neo4J数据库。
在本申请实施例的一种实现方式中,所述装置还包括:
知识补全单元,用于基于知识演绎和/或知识归纳的方式,对所述初始知识图谱进行知识补全,得到目标知识图谱。
在本申请实施例的一种实现方式中,所述初始知识图谱或所述目标知识图谱,用于知识问答、智能推荐、信息检索、辅助决策、数据可视化中的至少一种上层应用。
在本申请实施例的一种实现方式中,所述目标领域为大宗商品领域。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请实施例还提供了一种电子设备,该电子设备的结构示意图如图8所示,该电子设备8000包括至少一个处理器8001、存储器8002和总线8003,至少一个处理器8001均与存储器8002电连接;存储器5002被配置用于存储有至少一个计算机可执行指令,处理器8001被配置用于执行该至少一个计算机可执行指令,从而执行如本申请中任意一个实施例或任意一种可选实施方式提供的任意一种知识图谱构建方法的步骤。
进一步,处理器8001可以是FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其它具有逻辑处理能力的器件,如MCU(Microcontroller Unit,微控制单元)、CPU(Central Process Unit,中央处理器)。
应用本申请实施例,采用基于监督学习的方法进行知识抽取、以及基于全局本体和局部本体的集成思想来实现本体概念层融合,实现了目标领域知识的获取与融合,从而实现了知识图谱的构建,该知识图谱构建方法不但在不同领域具有普适性,还有助于快速、高效地构建目标领域知识图谱。
本申请实施例还提供了另一种计算机可读存储介质,存储有计算机程序,该计算机程序用于被处理器执行时实现本申请中任意一个实施例或任意一种可选实施方式提供的任意一种知识图谱构建方法的步骤。
本申请实施例提供的计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(RandomAccess Memory,随即存储器)、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读存储介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
应用本申请实施例,采用基于监督学习的方法进行知识抽取、以及基于全局本体和局部本体的集成思想来实现本体概念层融合,实现了目标领域知识的获取与融合,从而实现了知识图谱的构建,该知识图谱构建方法不但在不同领域具有普适性,还有助于快速、高效地构建目标领域知识图谱。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (13)

1.一种知识图谱构建方法,其特征在于,包括:
获取目标领域的用于构建知识图谱的目标数据集;
采用基于监督学习的方法,对所述目标数据集进行知识抽取,得到知识抽取结果;
从全局本体和局部本体的层面,对所述知识抽取结果进行知识融合,以构建初始知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述获取目标领域的用于构建知识图谱的目标数据集,包括:
获取目标领域的用于构建知识图谱的初始数据集;
采用不同的数据抽取方法,对所述初始数据集中的不同来源数据进行知识抽取,形成目标数据集。
3.根据权利要求1所述的方法,其特征在于,所述采用基于监督学习的方法,对所述目标数据集进行知识抽取,包括:
采用基于半监督学习方法、远监督学习方法、无监督学习方法中的至少一种,对所述目标数据集进行命名实体识别;
基于所述命名实体识别的识别结果,进行实体关系抽取。
4.根据权利要求3所述的方法,其特征在于,所述进行实体关系抽取,包括:
采用基于深度学习的远程监督方法,进行实体关系抽取。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从实例层的层面,对所述知识抽取结果进行知识融合。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
采用关系数据库和图数据库的双重存储方式,对所述目标数据集进行存储。
7.根据权利要求6所述的方法,其特征在于,所述关系数据库为MySQL数据库,所述图数据库为Neo4J数据库。
8.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
基于知识演绎和/或知识归纳的方式,对所述初始知识图谱进行知识补全,得到目标知识图谱。
9.根据权利要求8所述的方法,其特征在于,所述初始知识图谱或所述目标知识图谱,用于知识问答、智能推荐、信息检索、辅助决策、数据可视化中的至少一种上层应用。
10.根据权利要求1-5任一项所述的方法,其特征在于,所述目标领域为大宗商品领域。
11.一种知识图谱构建装置,其特征在于,包括:
数据获取单元,用于获取目标领域的用于构建知识图谱的目标数据集;
知识抽取单元,用于采用基于监督学习的方法,对所述目标数据集进行知识抽取,得到知识抽取结果;
知识融合单元,用于从全局本体和局部本体的层面,对所述知识抽取结果进行知识融合,以构建初始知识图谱。
12.一种电子设备,其特征在于,包括:处理器、存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于通过调用所述计算机程序,执行如权利要求1-10中任一项所述的知识图谱构建方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-10任一项所述的知识图谱构建方法。
CN202110245088.3A 2021-03-05 2021-03-05 知识图谱构建方法、装置、设备及计算机可读存储介质 Pending CN113010688A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110245088.3A CN113010688A (zh) 2021-03-05 2021-03-05 知识图谱构建方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110245088.3A CN113010688A (zh) 2021-03-05 2021-03-05 知识图谱构建方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113010688A true CN113010688A (zh) 2021-06-22

Family

ID=76406747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110245088.3A Pending CN113010688A (zh) 2021-03-05 2021-03-05 知识图谱构建方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113010688A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609257A (zh) * 2021-08-09 2021-11-05 神州数码融信软件有限公司 一种金融知识图谱弹性框架构建方法
CN113656590A (zh) * 2021-07-16 2021-11-16 北京百度网讯科技有限公司 行业图谱的构建方法、装置、电子设备及存储介质
CN113792159A (zh) * 2021-09-16 2021-12-14 支付宝(杭州)信息技术有限公司 一种知识图谱数据融合方法和系统
CN113806513A (zh) * 2021-09-30 2021-12-17 中国人民解放军国防科技大学 一种基于军事领域知识图谱的问答系统构建方法及系统
CN114372154A (zh) * 2022-01-11 2022-04-19 江苏曼荼罗软件股份有限公司 一种基于知识图谱的预导诊及分诊技术方法
CN114428864A (zh) * 2022-04-01 2022-05-03 杭州未名信科科技有限公司 知识图谱的构建方法、装置、电子设备及介质
CN117891929A (zh) * 2024-03-18 2024-04-16 南京华飞数据技术有限公司 改进型深度学习算法的知识图谱智能问答信息识别方法
CN118093788A (zh) * 2024-04-22 2024-05-28 成都同步新创科技股份有限公司 一种基于大模型的中小企业知识库的构建与搜索方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271530A (zh) * 2018-10-17 2019-01-25 长沙瀚云信息科技有限公司 一种疾病知识图谱构建方法和平台系统、设备、存储介质
CN109635108A (zh) * 2018-11-22 2019-04-16 华东师范大学 一种基于人机交互的远程监督实体关系抽取方法
CN111428054A (zh) * 2020-04-14 2020-07-17 中国电子科技网络信息安全有限公司 一种网络空间安全领域知识图谱的构建与存储方法
CN111881290A (zh) * 2020-06-17 2020-11-03 国家电网有限公司 一种基于加权语义相似度的配网多源网架实体融合方法
CN112100324A (zh) * 2020-08-28 2020-12-18 广州探迹科技有限公司 一种基于贪婪实体链接的知识图谱自动校验迭代的方法
CN112199511A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 跨语言多来源垂直领域知识图谱构建方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271530A (zh) * 2018-10-17 2019-01-25 长沙瀚云信息科技有限公司 一种疾病知识图谱构建方法和平台系统、设备、存储介质
CN109635108A (zh) * 2018-11-22 2019-04-16 华东师范大学 一种基于人机交互的远程监督实体关系抽取方法
CN111428054A (zh) * 2020-04-14 2020-07-17 中国电子科技网络信息安全有限公司 一种网络空间安全领域知识图谱的构建与存储方法
CN111881290A (zh) * 2020-06-17 2020-11-03 国家电网有限公司 一种基于加权语义相似度的配网多源网架实体融合方法
CN112100324A (zh) * 2020-08-28 2020-12-18 广州探迹科技有限公司 一种基于贪婪实体链接的知识图谱自动校验迭代的方法
CN112199511A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 跨语言多来源垂直领域知识图谱构建方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
唐子惠: "《医学人工智能导论》", 上海:上海科学技术出版社, pages: 122 - 123 *
宋浩楠等: "融合知识表示和深度强化学习的知识推理方法", vol. 57, no. 16, pages 189 - 197 *
石教祥等: "面向少量标注数据的命名实体识别研究", vol. 6, no. 04, pages 37 - 50 *
赵瑜等: "基于开源数据的军事领域知识图谱构建方法", vol. 10, no. 03, pages 64 - 69 *
钱双双: "金融领域的知识图谱构建与应用", no. 02, pages 138 - 2941 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656590A (zh) * 2021-07-16 2021-11-16 北京百度网讯科技有限公司 行业图谱的构建方法、装置、电子设备及存储介质
CN113656590B (zh) * 2021-07-16 2023-12-15 北京百度网讯科技有限公司 行业图谱的构建方法、装置、电子设备及存储介质
CN113609257A (zh) * 2021-08-09 2021-11-05 神州数码融信软件有限公司 一种金融知识图谱弹性框架构建方法
CN113609257B (zh) * 2021-08-09 2024-03-22 神州数码融信软件有限公司 一种金融知识图谱弹性框架构建方法
CN113792159A (zh) * 2021-09-16 2021-12-14 支付宝(杭州)信息技术有限公司 一种知识图谱数据融合方法和系统
CN113806513A (zh) * 2021-09-30 2021-12-17 中国人民解放军国防科技大学 一种基于军事领域知识图谱的问答系统构建方法及系统
CN114372154A (zh) * 2022-01-11 2022-04-19 江苏曼荼罗软件股份有限公司 一种基于知识图谱的预导诊及分诊技术方法
CN114428864A (zh) * 2022-04-01 2022-05-03 杭州未名信科科技有限公司 知识图谱的构建方法、装置、电子设备及介质
CN117891929A (zh) * 2024-03-18 2024-04-16 南京华飞数据技术有限公司 改进型深度学习算法的知识图谱智能问答信息识别方法
CN117891929B (zh) * 2024-03-18 2024-05-17 南京华飞数据技术有限公司 改进型深度学习算法的知识图谱智能问答信息识别方法
CN118093788A (zh) * 2024-04-22 2024-05-28 成都同步新创科技股份有限公司 一种基于大模型的中小企业知识库的构建与搜索方法

Similar Documents

Publication Publication Date Title
CN113010688A (zh) 知识图谱构建方法、装置、设备及计算机可读存储介质
Chen et al. Algorithms to estimate Shapley value feature attributions
US11481456B2 (en) Model and pattern structure online unital learning: mapsoul
EP3690672A1 (en) Method, appartus, device and medium for determining text relevance
CN112307215B (zh) 数据处理方法、装置及计算机可读存储介质
Zanga et al. A survey on causal discovery: theory and practice
US8903756B2 (en) System and method for knowledge pattern search from networked agents
CN112463980A (zh) 一种基于知识图谱的预案智能推荐方法
Ramirez et al. Topic model validation
US20130218644A1 (en) Determination of expertise authority
Ignatov et al. Can triconcepts become triclusters?
Miao et al. A dynamic financial knowledge graph based on reinforcement learning and transfer learning
Lathabai et al. An integrated approach to path analysis for weighted citation networks
CN115017315A (zh) 一种前沿主题识别方法、系统及计算机设备
Xue et al. Improving the efficiency of NSGA-II based ontology aligning technology
CN114706989A (zh) 一种基于技术创新资产为知识库的智能推荐方法
Kanakaris et al. Making personnel selection smarter through word embeddings: A graph-based approach
Ferranti et al. A framework for evaluating ontology meta-matching approaches
Li et al. Research on the application of multimedia entropy method in data mining of retail business
Arencibia-Jorge et al. Evolutionary stages and multidisciplinary nature of artificial intelligence research
De Martino et al. Multi-view overlapping clustering for the identification of the subject matter of legal judgments
Noorullah et al. Visualization and performance measure to determine number of topics in twitter data clustering using hybrid topic modeling
Kenekayoro et al. Clustering research group website homepages
Wu et al. MDGRL: Multi-dimensional graph rule learning
Pietranik et al. A method for ontology alignment based on semantics of attributes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210622