CN111191050B - 知识图谱本体模型构建的方法和装置 - Google Patents
知识图谱本体模型构建的方法和装置 Download PDFInfo
- Publication number
- CN111191050B CN111191050B CN202010005441.6A CN202010005441A CN111191050B CN 111191050 B CN111191050 B CN 111191050B CN 202010005441 A CN202010005441 A CN 202010005441A CN 111191050 B CN111191050 B CN 111191050B
- Authority
- CN
- China
- Prior art keywords
- ontology
- data
- constructed
- mode
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了知识图谱本体模型构建的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取资源数据;识别所述资源数据中符合已构建本体数据模式的结构化数据,根据所述已构建本体数据模式和结构化数据确定第一本体;基于所述资源数据中不符合已构建本体数据模式的异构化数据抽取本体数据模式,根据抽取的本体数据模式和异构化数据确定第二本体;合并第一本体和第二本体,得到知识图谱本体模型。该实施方式能够在提高本体模型构建效率的同时提高模型构建的可扩展性,且构建出的知识图谱本体模型具有系统性和全面性,适用范围广。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种知识图谱本体模型构建的方法和装置。
背景技术
知识图谱(Knowledge Graph)本质上是语义网络(Semantic Network),是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,指的是具有可区别性且独立存在的某种事物。知识图谱在逻辑上通常可分为数据层和模式层,本体模型即是模式层的表达,而数据层则存储真实的数据。
知识图谱目前主要有自顶向下(top-down)与自底向上(bottom-up)两种构建方法。自顶向下指的是先为知识图谱定义好本体数据模式,再将实体加入到知识库。自底向上指的是从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。目前构建知识图谱时,基本都是基于具体的业务场景直接构建,即这类项目的实施跳过了本体建模过程,直接进行了知识图谱模型的构建。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
自顶向下的构建方法扩展性差,自底向上的构建方法数据提取工作量大,效率低;基于具体业务场景构建的知识图谱无法提供较为系统、全面的本体模型,适用范围小。
发明内容
有鉴于此,本发明实施例提供一种知识图谱本体模型构建的方法和装置,能够在提高本体模型构建效率的同时提高模型构建的可扩展性,且构建出的知识图谱本体模型具有系统性和全面性,适用范围广。
根据本发明实施例的一个方面,提供了一种知识图谱本体模型构建的方法,包括:
获取资源数据;
识别所述资源数据中符合已构建本体数据模式的结构化数据,根据所述已构建本体数据模式和结构化数据确定第一本体;
基于所述资源数据中不符合已构建本体数据模式的异构化数据抽取本体数据模式,根据抽取的本体数据模式和异构化数据确定第二本体;
合并第一本体和第二本体,得到知识图谱本体模型。
可选地,第一本体和第二本体包括:实体、属性和关联关系;所述关联关系的获取方式包括以下至少之一:直接获取、加工获取、推理获取。
可选地,确定第一本体和/或第二本体之后,还包括:对第一本体和/或第二本体中的本体进行质量评估,基于评估结果修正第一本体和/或第二本体。
可选地,所述知识图谱本体模型采用文档或者Protégé软件记录。
根据本发明实施例的第二方面,提供一种知识图谱本体模型构建的装置,包括:
提取模块,获取资源数据;
第一确定模块,识别所述资源数据中符合已构建本体数据模式的结构化数据,根据所述已构建本体数据模式和结构化数据确定第一本体;
第二确定模块,基于所述资源数据中不符合已构建本体数据模式的异构化数据抽取本体数据模式,根据抽取的本体数据模式和异构化数据确定第二本体;
合并模块,合并第一本体和第二本体,得到知识图谱本体模型。
可选地,第一本体和第二本体包括:实体、属性和关联关系;所述关联关系的获取方式包括以下至少之一:直接获取、加工获取、推理获取。
可选地,本发明实施例的装置还包括:评价模块,用于在第一确定模块确定第一本体和/或第二确定模块确定第二本体之后,对第一本体和/或第二本体中的本体进行质量评估,基于评估结果修正第一本体和/或第二本体。
可选地,所述合并模块采用文档或者Protégé软件记录所述知识图谱本体模型。
根据本发明实施例的第三方面,提供一种知识图谱本体模型构建的电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例第一方面提供的方法。
根据本发明实施例的第四方面,提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例第一方面提供的方法。
上述发明中的一个实施例具有如下优点或有益效果:本发明中,对于符合已构建本体数据模式的结构化数据,根据已构建本体数据模式和结构化数据确定第一本体;对于不符合已构建本体数据模式的异构化数据,从异构化数据中抽取本体数据模式然后根据抽取的本体数据模式和异构化数据确定第二本体,能够在提高本体模型构建效率的同时提高模型构建的可扩展性,且构建出的知识图谱本体模型具有系统性和全面性,适用范围广。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是本发明知识图谱本体模型构建的方法的主要流程的示意图;
图2是本发明实施例的知识图谱本体模型构建的体系架构示意图;
图3是本发明实施例的知识图谱本体模型构建的原理示意图;
图4是本发明一些实施例中知识图谱本体模型的记录方式示意图;
图5是本发明再一些实施例中知识图谱本体模型的记录方式示意图;
图6是本发明还一些实施例中知识图谱本体模型的记录方式示意图;
图7是本发明可选实施例中一级本体的示意图;
图8是本发明可选实施例中一级本体、二级本体和三级本体的示意图;
图9是本发明可选实施例中关联关系的示意图;
图10是本发明一些实施例中知识图谱本体模型的示意图;
图11是本发明再一些实施例中知识图谱本体模型的示意图;
图12是基于本发明的知识图谱本体模型构建的物理模型的示意图;
图13是本发明知识图谱本体模型构建的装置的主要模块的示意图;
图14是本发明实施例可以应用于其中的示例性系统架构图;
图15是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
知识图谱(Knowledge Graph)本质上是语义网络(Semantic Network),是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,指的是具有可区别性且独立存在的某种事物。如某一个企业、某一个城市、某一种植物等、某一种商品等等。世界万物由具体事物组成,此指实体。实体是知识图谱中的最基本元素,实体有属性,不同的实体间存在不同的关系,每条边为实体与实体之间的“关系”,实体和关系又有其自身的“属性”。实体、关系和属性构成知识图谱的核心三要素,知识图谱是每组“实体<--关系-->实体”的集合,是把所有不同种类的信息连接在一起而得到的一个关系网络,它提供了从“关系”的角度去分析问题的能力。
知识图谱在逻辑上,通常可分为数据层和模式层,本体模型即是模式层的表达,可以理解为面向对象里的“类”的概念,而数据层则存储真实的数据。例如:模式层(本体模式):实体-关系-实体,实体-属性-属性值;而对应的数据层:小王--妻子—小李。知识图谱模型的数据落地在图数据库中。
知识图谱目前主要有自顶向下(top-down)与自底向上(bottom-up)两种构建方法。自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库。该构建方式需要利用一些现有的结构化知识库作为其基础知识库。自底向上指的是从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。图2是本发明实施例的知识图谱本体模型构建的体系架构示意图,图3是本发明实施例的知识图谱本体模型构建的原理示意图。如图2和3所示,本发明将自顶向下和自底向上做出相应的结合,使本体模型既能较全面范围的涵盖海量数据所抽取的实体、关系、属性,又能对于具体的若干业务场景做到独立展现。
本发明中本体模型构建遵循以下原则:
(1)明确性和客观性:即本体应该用自然语言对所定义术语给出明确的、客观的语义定义;
(2)完全性:即所给出的定义是完整的,完全能表达所描述术语的含义;
(3)一致性:即由术语得出的推论与术语本身含义是相容的,不会产生矛盾;
(4)最大单调可扩展性:即向本体中添加通用或专用的术语时,不需要修改其己有的内容;
(5)最小承诺:即对待建模对象给出尽可能少的约束;
(6)最小编码偏差:本体的建立应尽可能独立于具体的编码语言;
(7)兄弟概念间的语义差别应尽可能小;
(8)使用多样的概念层次结构实现多继承机制;
(9)尽可能使用标准化的术语名称。
根据本发明实施例的一个方面,提供了一种知识图谱本体模型构建的方法。
图1是本发明知识图谱本体模型构建的方法的主要流程的示意图,如图1所示,知识图谱本体模型构建的方法,包括:步骤S101、步骤S102、步骤S103、步骤S104。
步骤S101、获取资源数据。
资源数据是指用于构建知识图谱本体模型的数据。资源数据的来源方式可以根据实际情况进行选择性设定,例如:银行、互联网公司、信用中国(一个网站)、政务云数据、各应用场景需求和其他金融机构等的业务模型数据。
步骤S102、识别所述资源数据中符合已构建本体数据模式的结构化数据,根据所述已构建本体数据模式和结构化数据确定第一本体。
已构建本体数据模式是指预先为知识图谱定义的本体与数据模式。已构建本体数据模式可以来自于现有的结构化知识库。已构建本体数字模型中定义各个实体、属性以及实体之间的关联关系。
结构化数据是指符合已构建本体数据模式的数据。本步骤中,将资源数据中符合已构建本体数据模式的数据作为结构化数据。根据已构建本体数据模式确定结构化数据中各个实体之间的关联关系,能够大大提高本体模型的构建效率。
示例性地,从已构建本体数据模式中提取实体标识和实体标识之间的关联关系。遍历资源数据,将其中符合该实体标识的数据作为一个实体,根据提取的实体标识之间的关联关系确定第一数据中各个实体之间的关联关系。本步骤实际上是将结构化数据与已构建本体数据模式进行融合。
步骤S103、基于所述资源数据中不符合已构建本体数据模式的异构化数据抽取本体数据模式,根据抽取的本体数据模式和异构化数据确定第二本体。
对于资源数据中不符合已构建本体数据模式的数据,本步骤中基于该数据抽取出本体数据模式,得到新的实体、属性和关联关系并添加至已构建本体数据模型。该数据即异构化数据,可以包括半结构化数据和非结构化数据。半结构化数据是指其中部分符合已构建本体数据模式、部分不符合符合已构建本体数据模式的数据。非结构化数据是指完全不符合符合已构建本体数据模式的数据。
现有技术中往往基于已构建的本体与数据模式确定所有资源数据中的实体、属性和关联关系,即根据资源数据和已构建本体数据模式进行实体对齐。实体对齐(EntityAlignment)也被称作实体匹配(Entity Matching),是指对于异构数据源知识库中的各个实体,找出属于已构建本体数据模式中的同一实体。但是这种方式无法时先对已构建本体数据模式的扩展。当已构建本体数据模式仅适用于特定场景时,采用这种方式无法使最终构建的本体模型适用于各个业务场景,适用范围小。
本发明在步骤S104中合并第一本体和第二本体得到知识图谱本体模型,能够提高模型构建的可扩展性,使得构建得到的知识图谱本体模型具有系统性和全面性,适用范围广。
可选地,第一本体和第二本体包括:实体、属性和关联关系;所述关联关系的获取方式包括以下至少之一:直接获取、加工获取、推理获取,如图9所示。直接获取是指根据两个实体的属性直接确定出关联关系,例如股份公司与股东之间的关联关系,配偶关系、共同担保人关系等。加工获取是指通过多个实体的属性间接确定出关联关系,例如兄弟姐妹关系、校友关系、实际控制人关系等。推理获取是指通过多个实体的属性推理确定出关联关系,例如一致行动人关系、朋友关系等。采用多种方式获取关联关系,能够提高本体模型的准确性。
实际应用过程中,在确定第一本体和/或第二本体之后,还可以对得到的本体进行共指消解和/或实体消歧。所谓共指消解就是将现实世界中同一实体的不同描述合并到一起的过程。通过共指消解能够避免本体模型中存在实体重复。实体消歧是指消除同一个实体名称在不同语句不同意义的问题。通过实体消歧能够提高本体模型构建的准确性。
可选地,确定第一本体和/或第二本体之后,还包括:对第一本体和/或第二本体中的本体进行质量评估,基于评估结果修正第一本体和/或第二本体。质量评估是指对确定出的本体进行评估。当确定出的本体质量较低,例如存在相互矛盾的本体等,可以对质量较低的本体进行修正。通过质量评估能够提高本体模型的准确性。
知识图谱本体模型的记录方式可以根据实际情况进行选择性设定。可选地,所述知识图谱本体模型采用文档或者Protégé软件记录。图4是采用EXCEL文件记录知识图谱本体模型的示意图。图5和图6是采用Protégé软件记录知识图谱本体模型的示意图。
在本发明可选实施例中,第一本体和第二本体分别包括一级本体、二级本体和三级本体。其中一级本体共涵盖九个,分别为参与人、产品、合约、位置、事件、分类、业务方向、资源项、条件,具体编码前缀规则如图7所示。一级本体之下构建二级本体,二级本体下再次细化到三级本体,示例如图8。本体模型中关联关系通过三种方式获取,分别为:直接获取、加工获取、推理获取。对于每种关系,根据构建原则与实际场景结合进行层级构建,例如,个人之间关系中可以获取亲戚关系,该关系可以细分为配偶、父母、其他直系/旁系亲属关系等等,示例如图9。
在图10和图11示出的可选实施例中,企业级本体模型整合了企业工商信息,并结合企业客户、个人客户、存贷款业务、资金交易等银行内数据,构建了个人、企业、账户等三大类实体,及法人、股东、对外投资、亲属关系、个贷担保关系、共同担保关系、企业担保关系、资金往来等20种关联关系,形成一套知识建模体系,并且建立了相应的物理模型。示例如图12所示。
本发明构建的知识图谱本体模型可以为组织机构知识图谱奠定模型逻辑基础,有效构建业务场景知识图谱模型,实施若干业务场景的挖掘模型,示例如:
(1)疑似集团派系挖掘模型:通过股权、高管、担保等多种关系多层深度挖掘泛集团派系,解决授信业务中集团客户授信问题。
(2)实际控制关系模型:按照投资关系展开,追溯3层(自定义),每追溯1层,按亲属关系、一致行动关系对所有实体进行合并、股份相加,计算持股查过50%的控股人。
(3)风险传导模型:一个客户A在时间t发生“风险事件”,假如与客户A的关联客户B(即与A有任意直接关联关系的客户B)在随后的[t,t+N]时刻中的某个时间点也开始发生违约,则认为A与B“先后违约”,即定义A风险事件的风险传导到了B。基于组织机构知识图谱,利用机器学习方法及相关图算法,开发风险传导模型。基于风险传导模型,在图谱中对风险进行传播,预测被传导客户,探索多种关系下客户间风险传导系数的计算和风险传导网络的生成。
本发明实施例的知识图谱本体模型构建的方法可以应用于银行领域、电商领域、物流领域等。本发明可以通过本体建模工具以及模型维护机制对于本体模型进行不断地更新完善,使本体模型具备与时俱进的高质量可持续性的发展,更全面的涵盖金融科技等领域所纳各类数据,形成更高质量的知识图谱体系。
根据本发明实施例的第二方面,提供一种实现上述方法的装置。
图13是本发明知识图谱本体模型构建的装置的主要模块的示意图。如图13所示,知识图谱本体模型构建的装置1300包括:
提取模块1301,获取资源数据;
第一确定模块1302,识别所述资源数据中符合已构建本体数据模式的结构化数据,根据所述已构建本体数据模式和结构化数据确定第一本体;
第二确定模块1303,基于所述资源数据中不符合已构建本体数据模式的异构化数据抽取本体数据模式,根据抽取的本体数据模式和异构化数据确定第二本体;
合并模块1304,合并第一本体和第二本体,得到知识图谱本体模型。
可选地,第一本体和第二本体包括:实体、属性和关联关系;所述关联关系的获取方式包括以下至少之一:直接获取、加工获取、推理获取。
可选地,本发明实施例的装置还包括:评价模块,用于在第一确定模块确定第一本体和/或第二确定模块确定第二本体之后,对第一本体和/或第二本体中的本体进行质量评估,基于评估结果修正第一本体和/或第二本体。
可选地,所述合并模块采用文档或者Protégé软件记录所述知识图谱本体模型。
根据本发明实施例的第三方面,提供一种知识图谱本体模型构建的电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例第一方面提供的方法。
根据本发明实施例的第四方面,提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例第一方面提供的方法。
图14示出了可以应用本发明实施例的知识图谱本体模型构建的方法或知识图谱本体模型构建的装置的示例性系统架构1400。
如图14所示,系统架构1400可以包括终端设备1401、1402、1403,网络1404和服务器1405。网络1404用以在终端设备1401、1402、1403和服务器1405之间提供通信链路的介质。网络1404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备1401、1402、1403通过网络1404与服务器1405交互,以接收或发送消息等。终端设备1401、1402、1403上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备1401、1402、1403可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器1405可以是提供各种服务的服务器,例如对用户利用终端设备1401、1402、1403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的知识图谱本体模型构建的方法一般由服务器1405执行,相应地,知识图谱本体模型构建的装置一般设置于服务器1405中。
应该理解,图14中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图15,其示出了适于用来实现本发明实施例的终端设备的计算机系统1500的结构示意图。图15示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图15所示,计算机系统1500包括中央处理单元(CPU)1501,其可以根据存储在只读存储器(ROM)1502中的程序或者从存储部分1508加载到随机访问存储器(RAM)1503中的程序而执行各种适当的动作和处理。在RAM 1503中,还存储有系统1500操作所需的各种程序和数据。CPU 1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出(I/O)接口1505也连接至总线1504。
以下部件连接至I/O接口1505:包括键盘、鼠标等的输入部分1506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1507;包括硬盘等的存储部分1508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1509。通信部分1509经由诸如因特网的网络执行通信处理。驱动器1510也根据需要连接至I/O接口1505。可拆卸介质1511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1510上,以便于从其上读出的计算机程序根据需要被安装入存储部分1508。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1509从网络上被下载和安装,和/或从可拆卸介质1511被安装。在该计算机程序被中央处理单元(CPU)1501执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括:提取模块,获取资源数据;第一确定模块,识别所述资源数据中符合已构建本体数据模式的结构化数据,根据所述已构建本体数据模式和结构化数据确定第一本体;第二确定模块,基于所述资源数据中不符合已构建本体数据模式的异构化数据抽取本体数据模式,根据抽取的本体数据模式和异构化数据确定第二本体;合并模块,合并第一本体和第二本体,得到知识图谱本体模型。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,提取模块还可以被描述为“合并第一本体和第二本体的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取资源数据;识别所述资源数据中符合已构建本体数据模式的结构化数据,根据所述已构建本体数据模式和结构化数据确定第一本体;基于所述资源数据中不符合已构建本体数据模式的异构化数据抽取本体数据模式,根据抽取的本体数据模式和异构化数据确定第二本体;合并第一本体和第二本体,得到知识图谱本体模型。
根据本发明实施例的技术方案,对于符合已构建本体数据模式的结构化数据,根据已构建本体数据模式和结构化数据确定第一本体;对于不符合已构建本体数据模式的异构化数据,从异构化数据中抽取本体数据模式然后根据抽取的本体数据模式和异构化数据确定第二本体,能够在提高本体模型构建效率的同时提高模型构建的可扩展性,且构建出的知识图谱本体模型具有系统性和全面性,适用范围广。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (9)
1.一种知识图谱本体模型构建的方法,其特征在于,包括:
获取资源数据;
识别所述资源数据中符合已构建本体数据模式的结构化数据,根据所述已构建本体数据模式和结构化数据确定第一本体;
基于所述资源数据中不符合已构建本体数据模式的异构化数据抽取本体数据模式,根据抽取的本体数据模式和异构化数据确定第二本体;
合并第一本体和第二本体,得到知识图谱本体模型;
其中,所述已构建本体数据模式是指预先为知识图谱定义的本体与数据模式;第一本体和第二本体包括:实体、属性和关联关系;所述关联关系的获取方式包括以下至少之一:直接获取、加工获取、推理获取。
2.如权利要求1所述的方法,其特征在于,确定第一本体和/或第二本体之后,还包括:对第一本体和/或第二本体中的本体进行质量评估,基于评估结果修正第一本体和/或第二本体。
3.如权利要求1所述的方法,其特征在于,所述知识图谱本体模型采用文档或者Protégé软件记录。
4.一种知识图谱本体模型构建的装置,其特征在于,包括:
提取模块,获取资源数据;
第一确定模块,识别所述资源数据中符合已构建本体数据模式的结构化数据,根据所述已构建本体数据模式和结构化数据确定第一本体;
第二确定模块,基于所述资源数据中不符合已构建本体数据模式的异构化数据抽取本体数据模式,根据抽取的本体数据模式和异构化数据确定第二本体;
合并模块,合并第一本体和第二本体,得到知识图谱本体模型;
其中,所述已构建本体数据模式是指预先为知识图谱定义的本体与数据模式;第一本体和第二本体包括:实体、属性和关联关系;所述关联关系的获取方式包括以下至少之一:直接获取、加工获取、推理获取。
5.如权利要求4所述的装置,其特征在于,第一本体和第二本体包括:实体、属性和关联关系;所述关联关系的获取方式包括以下至少之一:直接获取、加工获取、推理获取。
6.如权利要求4所述的装置,其特征在于,还包括:评价模块,用于在第一确定模块确定第一本体和/或第二确定模块确定第二本体之后,对第一本体和/或第二本体中的本体进行质量评估,基于评估结果修正第一本体和/或第二本体。
7.如权利要求4所述的装置,其特征在于,所述合并模块采用文档或者Protégé软件记录所述知识图谱本体模型。
8.一种知识图谱本体模型构建的电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-3中任一所述的方法。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-3中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010005441.6A CN111191050B (zh) | 2020-01-03 | 2020-01-03 | 知识图谱本体模型构建的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010005441.6A CN111191050B (zh) | 2020-01-03 | 2020-01-03 | 知识图谱本体模型构建的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111191050A CN111191050A (zh) | 2020-05-22 |
CN111191050B true CN111191050B (zh) | 2023-07-04 |
Family
ID=70709646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010005441.6A Active CN111191050B (zh) | 2020-01-03 | 2020-01-03 | 知识图谱本体模型构建的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191050B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022047623A1 (zh) * | 2020-09-01 | 2022-03-10 | 西门子(中国)有限公司 | 一种软件信息组织方法、装置和计算机可读介质 |
CN114547324B (zh) * | 2021-12-31 | 2023-02-14 | 华中农业大学 | 食品安全国家标准领域本体的构建方法、系统和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108021718A (zh) * | 2017-12-29 | 2018-05-11 | 中国电子科技集团公司信息科学研究院 | 物联网能力知识图谱及其构建方法 |
CN109271530A (zh) * | 2018-10-17 | 2019-01-25 | 长沙瀚云信息科技有限公司 | 一种疾病知识图谱构建方法和平台系统、设备、存储介质 |
CN109508383A (zh) * | 2018-10-30 | 2019-03-22 | 北京国双科技有限公司 | 知识图谱的构建方法及装置 |
CN109597877A (zh) * | 2018-11-08 | 2019-04-09 | 国家电网公司 | 一种知识的推理方法及装置 |
CN110347843A (zh) * | 2019-07-10 | 2019-10-18 | 陕西师范大学 | 一种基于知识图谱的中文旅游领域知识服务平台构建方法 |
-
2020
- 2020-01-03 CN CN202010005441.6A patent/CN111191050B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108021718A (zh) * | 2017-12-29 | 2018-05-11 | 中国电子科技集团公司信息科学研究院 | 物联网能力知识图谱及其构建方法 |
CN109271530A (zh) * | 2018-10-17 | 2019-01-25 | 长沙瀚云信息科技有限公司 | 一种疾病知识图谱构建方法和平台系统、设备、存储介质 |
CN109508383A (zh) * | 2018-10-30 | 2019-03-22 | 北京国双科技有限公司 | 知识图谱的构建方法及装置 |
CN109597877A (zh) * | 2018-11-08 | 2019-04-09 | 国家电网公司 | 一种知识的推理方法及装置 |
CN110347843A (zh) * | 2019-07-10 | 2019-10-18 | 陕西师范大学 | 一种基于知识图谱的中文旅游领域知识服务平台构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111191050A (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bilal et al. | Analysis of critical features and evaluation of BIM software: towards a plug-in for construction waste minimization using big data | |
CN109034988B (zh) | 一种会计分录生成方法和装置 | |
US20230162051A1 (en) | Method, device and apparatus for execution of automated machine learning process | |
CN111382279B (zh) | 审单方法和装置 | |
CN111325022B (zh) | 识别层级地址的方法和装置 | |
CN111596956B (zh) | 基于区块链的信息处理方法、装置、电子设备和介质 | |
CN111046237A (zh) | 用户行为数据处理方法、装置、电子设备及可读介质 | |
CN109033113A (zh) | 数据仓库和数据集市的管理方法及装置 | |
CN111949643A (zh) | 基于业务建模的数据处理方法及系统 | |
CN111191050B (zh) | 知识图谱本体模型构建的方法和装置 | |
Pelekh et al. | Design of a system for dynamic integration of weakly structured data based on mash-up technology | |
Ibtisum | A Comparative Study on Different Big Data Tools | |
CN111414490A (zh) | 确定失联修复信息的方法、装置、电子设备和存储介质 | |
US11521338B2 (en) | Computer automated generation of work-flow diagram from technology specific literature | |
CN114357280A (zh) | 一种信息推送方法、装置、电子设备及计算机可读介质 | |
CN114239511A (zh) | 填充数据的方法和填充数据的装置 | |
CN117635341A (zh) | 参数推荐的方法、装置、设备和计算机可读介质 | |
Srinivasa et al. | Network Data Analytics | |
US20230274097A1 (en) | System and method for implementing an open digital rights language (odrl) visualizer | |
CN111143408B (zh) | 一种基于业务规则的事件处理方法和装置 | |
CN111177653B (zh) | 一种信用评估方法和装置 | |
CN112035256A (zh) | 一种资源分配方法、装置、电子设备及介质 | |
CN110852701A (zh) | 产品需求管理方法、装置和系统 | |
CN115543428A (zh) | 一种基于策略模板的模拟数据生成方法和装置 | |
CN114547477A (zh) | 一种数据处理方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220921 Address after: 25 Financial Street, Xicheng District, Beijing 100033 Applicant after: CHINA CONSTRUCTION BANK Corp. Address before: 25 Financial Street, Xicheng District, Beijing 100033 Applicant before: CHINA CONSTRUCTION BANK Corp. Applicant before: Jianxin Financial Science and Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |