CN108846020A - 基于多源异构数据进行知识图谱自动化构建方法、系统 - Google Patents
基于多源异构数据进行知识图谱自动化构建方法、系统 Download PDFInfo
- Publication number
- CN108846020A CN108846020A CN201810494122.9A CN201810494122A CN108846020A CN 108846020 A CN108846020 A CN 108846020A CN 201810494122 A CN201810494122 A CN 201810494122A CN 108846020 A CN108846020 A CN 108846020A
- Authority
- CN
- China
- Prior art keywords
- task
- data
- knowledge mapping
- workflow
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于多源异构数据进行知识图谱自动化构建方法,包括以下步骤:(1)用户创建任务模型、工作流模型和触发条件;(2)系统自动监控,当触发条件满足时,系统自动执行一个或多个工作流;(3)工作流执行完毕,向图数据库保存知识图谱结果;上述任务模型是指用户自定义从源数据到知识图谱的数据转换规则,使得将从源数据库接入的源数据转化为知识图谱数据的任务模型;上述工作流模型是指对工作流进行标准化描述,使得知识图谱数据的任务模型转换为工作流。
Description
技术领域
本发明涉及数据处理技术,具体涉及一种基于多源异构数据进行知识图谱自动化构建方法、系统。
背景技术
信息技术的发展不断推动着互联网技术的变革,Web技术作为互联网时代的标志性技术,正处于这场技术变革的核心,从网页的链接到数据的链接,Web技术正在逐步朝向语义网络演变。
根据W3C的解释,语义网络是一张数据构成的网络,语义网络技术向用户提供的是一个查询环境,其核心要义是以图形的方式向用户返回经过加工和推理的知识。知识图谱技术则是实现智能化语义检索的基础和桥梁。传统搜索引擎技术能够根据用户查询快速排序网页,提高信息检索的效率。然而,这种网页检索效率并不意味着用户能够快速准确地获取信息和知识,对于搜索引擎反馈的大量结果,还需要进行人工排查和筛选,随着互联网信息总量的爆炸性增长,这种信息检索方式已经很难满足人们全面掌控信息资源的需求,知识图谱技术的出现为解决信息检索问题提供了新的思路。
在现有的知识图谱构建过程中包括三个步骤:1.信息抽取,即从各类型的数据源中提取出实体(概念)、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;2.知识融合,在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;3.知识加工,对于经过融合的新知识,需要经过质量评估之后(部分需要人工残余甄别),才能将合格的部分加入到知识库中,以确保知识库的质量,新增数据之后,可以进行知识推理,拓展现有知识,得到新知识。
发明内容
本发明的目的在于提供基于多源异构数据进行知识图谱自动化构建方法、系统,能够减少知识图谱构建中的人工的干预,使得知识图谱的自动化构建。
为了实现上述目的,本发明采取的技术方案如下:
基于多源异构数据进行知识图谱自动化构建方法,包括以下步骤:
(1)用户创建任务模型、工作流模型和触发条件;
(2)系统自动监控,当触发条件满足时,系统自动执行一个或多个工作流;
(3)工作流执行完毕,向图数据库保存知识图谱结果;
上述任务模型是指用户自定义从源数据到知识图谱的数据转换规则,使得将从源数据库接入的源数据转化为知识图谱数据的任务模型;
上述工作流模型是指对工作流进行标准化描述,使得知识图谱数据的任务模型转换为工作流。
作为一种优选技术方案,工作流模型包括数据接入、任务组、接入参数和工作流类型。
作为一种优选技术方案,包括知识图谱任务模型管理模块、自动化分布式处理模块、条件触发模块和知识图谱数据库;
知识图谱任务模型管理模块,用于将接入的源数据转化为知识谱图数据的任务模型;
自动化分布式处理模块,将上述任务模型按照自定义的工作流模型转换为工作流,并按照工作流的方式自动化执行任务;
条件触发模块,用于自定义触发条件,从而自动执行对应的工作流;
知识图谱数据库,用于将自动化分布式处理模块执行完任务后得到的结果储存在知识图谱数据库内。
基于多源异构数据进行知识图谱自动化构建系统,还包括异构数据适配器,用于对不同类型的源数据库提供接入支持。
作为一种优选技术方案,所述知识图谱任务模型管理模块将根据具体实际业务定义的从源数据到知识图谱数据的转换规则,将源数据转换为任务模型,并提供模型解析器对任务模型的对应关系进行解析和执行,完成标准化输入输出。
作为一种优选技术方案,,自动化分布处理模块包括工作流解析子模块、分布式执行子模块和分布式中转子模块;
工作流解析子模块将接受用户自定义的工作流模型作为输入,当收到工作流解析请求时为此工作流分配唯一ID,并在分布式中转子模块中生成任务队列,用于保存此ID下的所有任务标识,然后依次解析工作流模型中的各要素,将各要素结果存入任务队列;
分布式执行子模块实时监测分布式中转子模块的不同任务队列,有待执行的任务时,根据任务队列中保存的任务标识调用相关任务进行执行,并将执行结果依次保存至结果队列;
分布式中转子模块,创建任务队列和结果队列,供工作流解析子模块/分布式中转子模块、分布式执行模块保存任务及任务执行结果。
本发明与现有技术相比,具有以下有益效果:
通过在知识图谱的构建过程中增加知识图谱任务模型管理模块、自动化分布式处理模块、条件触发模块来实现只需要用户创建任务模型、工作流定义和触发条件,从而实现源数据自动化构建成知识图谱,从而解决现有技术中知识图谱构建过程中,人工干预较多的问题。
附图说明
图1为本发明的逻辑流程图。
具体实施方式
本发明的目的在于克服现有技术的缺陷,提供基于多源异构数据进行知识图谱自动化构建的系统及方法,下面结合实施例对本发明作进一步详细说明。
实施例
基于多源异构数据进行知识图谱自动化构建,包括以下过程:
在异构网络获取源数据,通过异构数据适配器模块,对不同类型的源数据库进行接入支持,实现信息的抽取;
用户根据实际业务定义从源数据到知识图谱数据的转换规则,比如是商业的、医疗等等。若是商业的,那么转换规则的对象(即实体)是企业、个人、知识产权成果等,实体和实体之间关系可以是法人关系、拥有关系等,实体的属性可以有资产、出生日期、成立日期等等。若是医疗的,那么转换规则的对象(即实体)是医院、科室、医生、病种等,实体和实体之间的关系可以是属于、擅长等等,实体的属性可以是等级、奖项、职称等等。以商业为例,转换规则即是定于源数据中的企业名称对应知识图谱数据中的实体、源数据中的成立时间则提取对应为知识图谱数据中的属性,这样变完成了源数据到知识图谱数据的转换。
在知识图谱任务模型管理模块用户根据具体实际业务定义从源数据到知识谱图的数据转换规则,在系统中开发模型,只需要定义源数据与知识图谱数据字段的对应关系即可。比如:源数据中数据记录包括企业名称、成立时间,根据业务需要提取企业成立年份,则在模型中,只需要定义源数据中的企业名称直接对应为图谱中的node(企业名称)、源数据中的成立时间通过公式提取年份后对应图谱的node(成立年份),即完成了一个模型的开发。模型解析器提供了标准化的输入输出及对应关系解释方法,可以将定义好的模型中的对应关系进行进行解释和执行,并标准化输入输出。
在自动化分布式处理模块,用户创建工作流定义,工作流模型中的要素包括:数据接入、任务组、接入参数、工作流类型。比如根据业务需要,需要将mysql源数据库A中的企业工商注册信息表中的数据进行知识图谱构建,则针对此场景可以定义工作流模型为:数据接入为mysql连接器, 接入参数为业务sql查询语句,任务组为多个任务(比如[注册地址转化模型、注册时间转化模型、注册资金转化模型]),工作流类型为链式。工作流解析模块接受标准工作流定义作为输入,当收到工作流解析请求后,首先对传入的定义进行合法性验证,验证通过后为本次工作流的分配一个唯一id,并在分布式中转模块中生成一个任务队列,用于后续保存本id下所有任务标识,然后依次解析工作流定义中的各要素,将数据组、任务组解析后的结果存入任务队列。比如上文例子中,会将mysql连接器、注册地址转化模型任务、注册时间转化模型任务、注册资金转化模型任务依次存入到任务队列中。
在条件触发模块,用户自定义触发条件,自动执行对应的工作流,即当某一个触发条件满足时系统自动执行一个或多个工作流,触发条件包括时间、数据项变动等。用户首先自定义触发规则,并将规则上传至管理数据库。
系统自动监控,当触发条件满足时,分布式执行子模块从分布式中转子模块自动调用对应条件工作流进行解析。若只对应一个工作流,则直接解析出结果,将结果保存在在分布式中转子模块的结果队列,并将结果保存在知识图谱,若对应多个工作流,则前一工作流的结果成为后一工作流的输入参数,每次工作流的解析执行结果皆被保存在分布式中转子模块的结果队列中,当对应的最后一工作流解析执行完毕,则将最终结果储存在知识图谱数据库内。比如:首先从任务队列取出mysql连接器任务,执行后将查询结果保存至结果队列,接着取出注册地址转化模型任务,并从队列中取出结果作为本任务的输入参数,进行执行,依次类推,直至任务队列中的任务全部执行完成。基于分布式中转子模块,任务的读取和结果的存储都是使用的先进先出的队列机制,此机制保证了本模块可以多节点执行时不会造成冲突,所以可以根据实际业务量的需要灵活调整部署本模块的节点数,当业务量多时增加本模块的部署节点,当业务量少时减少本模块的部署节点,实现分布式灵活部署。工作流执行完毕,得到需要的知识图谱,被存储在知识图谱数据库内,最终数据以实体、实体关系的数据结构保存。
值得特别说明的是,还包括异构数据适配模块,用于用于对不同类型的源数据库提供接入支持。比如上文中的mysql数据库。
值得特别说明的是,分布式中转子模块基于消息中间件Redis进行构建,通过对Redis构建集群实现本模块的分布式部署,避免单点故障造成系统瘫痪。
值得说明的是,基于上述结构设计的前提下,为解决同样的技术问题,即使在本发明上做出的一些无实质性的改动或润色,所采用的技术方案的实质仍然与本发明一样,故其也应当在本发明的保护范围内。
Claims (6)
1.基于多源异构数据进行知识图谱自动化构建方法,其特征在于,包括以下步骤:
(1)用户创建任务模型、工作流定义和触发条件;
(2)当触发条件满足时,自动执行一个或多个工作流;
(3)工作流执行完毕,向图数据库保存知识图谱结果;
上述任务模型是指用户自定义从源数据到知识图谱的数据转换规则,使得将从源数据库接入的源数据转化为知识图谱数据的任务模型;
上述工作流定义是指对工作流进行规范化描述,使得知识图谱数据的任务模型依照工作流定义转换为工作流。
2.根据权利要求1所述的基于多源异构数据进行知识图谱自动化构建方法,其特征在于,工作流模型包括数据接入、任务组、接入参数和工作流类型。
3.基于多源异构数据进行知识图谱自动化构建系统,其特征在于,包括知识图谱任务模型管理模块、自动化分布式处理模块、条件触发模块和知识图谱数据库;
知识图谱任务模型管理模块,用于将接入的源数据转化为知识谱图数据的任务模型;
自动化分布式处理模块,将上述任务模型按照自定义的工作流模型转换为工作流,并按照工作流的方式自动化执行任务;
条件触发模块,用于自定义触发条件,从而自动执行对应的工作流;
知识图谱数据库,用于将自动化分布式处理模块执行完任务后得到的结果储存在知识图谱数据库内。
4.根据权利要求3所述的基于多源异构数据进行知识图谱自动化构建系统,其特征在于,还包括异构数据适配器,用于对不同类型的源数据库提供接入支持。
5.根据权利要求3所述的基于多源异构数据进行知识图谱自动化构建系统,其特征在于,所述知识图谱任务模型管理模块将根据具体实际业务定义的从源数据到知识图谱数据的转换规则,将源数据转换为任务模型,并提供模型解析器对任务模型的对应关系进行解析和执行,完成标准化输入输出。
6.根据权利要求3所述的基于多源异构数据进行知识图谱自动化构建系统,其特征在于,自动化分布处理模块包括工作流解析子模块、分布式执行子模块和分布式中转子模块;
工作流解析子模块将接受用户自定义的工作流模型作为输入,当收到工作流解析请求时为此工作流分配唯一ID,并在分布式中转子模块中生成任务队列,用于保存此ID下的所有任务标识,然后依次解析工作流模型中的各要素,将各要素结果存入任务队列;
分布式执行子模块实时监测分布式中转子模块的不同任务队列,有待执行的任务时,根据任务队列中保存的任务标识调用相关任务进行执行,并将执行结果依次保存至结果队列;
分布式中转子模块,创建任务队列和结果队列,供工作流解析子模块/分布式中转子模块、分布式执行模块保存任务及任务执行结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810494122.9A CN108846020A (zh) | 2018-05-22 | 2018-05-22 | 基于多源异构数据进行知识图谱自动化构建方法、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810494122.9A CN108846020A (zh) | 2018-05-22 | 2018-05-22 | 基于多源异构数据进行知识图谱自动化构建方法、系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108846020A true CN108846020A (zh) | 2018-11-20 |
Family
ID=64213159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810494122.9A Pending CN108846020A (zh) | 2018-05-22 | 2018-05-22 | 基于多源异构数据进行知识图谱自动化构建方法、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108846020A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308322A (zh) * | 2018-12-04 | 2019-02-05 | 南京樯图数据科技有限公司 | 一种产业经济知识图谱的创建和交易系统 |
CN109658499A (zh) * | 2018-12-11 | 2019-04-19 | 中国航空工业集团公司成都飞机设计研究所 | 一种模型建立方法、装置及存储介质 |
CN110347844A (zh) * | 2019-07-15 | 2019-10-18 | 中国人民解放军战略支援部队航天工程大学 | 一种太空目标知识图谱构建系统 |
CN110780965A (zh) * | 2019-10-24 | 2020-02-11 | 深圳前海微众银行股份有限公司 | 基于视觉的流程自动化方法、设备及可读存储介质 |
CN111667074A (zh) * | 2020-05-19 | 2020-09-15 | 北京海致星图科技有限公司 | 一种应用知识推理到知识图谱生成方法及系统 |
CN111708898A (zh) * | 2020-06-13 | 2020-09-25 | 广州华建工智慧科技有限公司 | 一种基于知识图谱的智能施工信息传递方法及系统 |
CN112163127A (zh) * | 2020-09-30 | 2021-01-01 | 北京锐安科技有限公司 | 关系图谱构建方法、装置、电子设备及存储介质 |
CN112199515A (zh) * | 2020-11-17 | 2021-01-08 | 西安交通大学 | 一种多形态知识图谱驱动的知识服务创新方法 |
CN112231283A (zh) * | 2020-09-08 | 2021-01-15 | 苏宁金融科技(南京)有限公司 | 基于多源异构数据统一实体标识码的生成管理方法及系统 |
CN112259180A (zh) * | 2020-10-21 | 2021-01-22 | 平安科技(深圳)有限公司 | 一种基于异构医学知识图谱的疾病预测方法及相关设备 |
CN112364000A (zh) * | 2020-10-29 | 2021-02-12 | 广西电网有限责任公司南宁供电局 | 一种电力行业多源异构数据融合的系统及方法 |
WO2022041226A1 (zh) * | 2020-08-31 | 2022-03-03 | 西门子(中国)有限公司 | 一种基于知识图谱的数据融合方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106547613A (zh) * | 2016-10-20 | 2017-03-29 | 西北工业大学 | 任务处理流程的调度及故障恢复方法 |
CN106886821A (zh) * | 2017-02-21 | 2017-06-23 | 中山大学 | 一种支持自主学习的个性化知识元表的自动生成方法及系统 |
CN107341215A (zh) * | 2017-06-07 | 2017-11-10 | 北京航空航天大学 | 一种基于分布式计算平台的多源垂直知识图谱分类集成查询方法 |
CN107633075A (zh) * | 2017-09-22 | 2018-01-26 | 吉林大学 | 一种多源异构数据融合平台及融合方法 |
US20180048662A1 (en) * | 2016-08-15 | 2018-02-15 | International Business Machines Corporation | Cognitive offense analysis using enriched graphs |
CN107729493A (zh) * | 2017-09-29 | 2018-02-23 | 北京创鑫旅程网络技术有限公司 | 旅行知识图谱的构建方法、装置及旅行问答方法、装置 |
-
2018
- 2018-05-22 CN CN201810494122.9A patent/CN108846020A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180048662A1 (en) * | 2016-08-15 | 2018-02-15 | International Business Machines Corporation | Cognitive offense analysis using enriched graphs |
CN106547613A (zh) * | 2016-10-20 | 2017-03-29 | 西北工业大学 | 任务处理流程的调度及故障恢复方法 |
CN106886821A (zh) * | 2017-02-21 | 2017-06-23 | 中山大学 | 一种支持自主学习的个性化知识元表的自动生成方法及系统 |
CN107341215A (zh) * | 2017-06-07 | 2017-11-10 | 北京航空航天大学 | 一种基于分布式计算平台的多源垂直知识图谱分类集成查询方法 |
CN107633075A (zh) * | 2017-09-22 | 2018-01-26 | 吉林大学 | 一种多源异构数据融合平台及融合方法 |
CN107729493A (zh) * | 2017-09-29 | 2018-02-23 | 北京创鑫旅程网络技术有限公司 | 旅行知识图谱的构建方法、装置及旅行问答方法、装置 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308322A (zh) * | 2018-12-04 | 2019-02-05 | 南京樯图数据科技有限公司 | 一种产业经济知识图谱的创建和交易系统 |
CN109658499A (zh) * | 2018-12-11 | 2019-04-19 | 中国航空工业集团公司成都飞机设计研究所 | 一种模型建立方法、装置及存储介质 |
CN110347844A (zh) * | 2019-07-15 | 2019-10-18 | 中国人民解放军战略支援部队航天工程大学 | 一种太空目标知识图谱构建系统 |
CN110780965A (zh) * | 2019-10-24 | 2020-02-11 | 深圳前海微众银行股份有限公司 | 基于视觉的流程自动化方法、设备及可读存储介质 |
CN110780965B (zh) * | 2019-10-24 | 2023-10-20 | 深圳前海微众银行股份有限公司 | 基于视觉的流程自动化方法、设备及可读存储介质 |
CN111667074A (zh) * | 2020-05-19 | 2020-09-15 | 北京海致星图科技有限公司 | 一种应用知识推理到知识图谱生成方法及系统 |
CN111708898A (zh) * | 2020-06-13 | 2020-09-25 | 广州华建工智慧科技有限公司 | 一种基于知识图谱的智能施工信息传递方法及系统 |
WO2022041226A1 (zh) * | 2020-08-31 | 2022-03-03 | 西门子(中国)有限公司 | 一种基于知识图谱的数据融合方法、装置及电子设备 |
CN112231283A (zh) * | 2020-09-08 | 2021-01-15 | 苏宁金融科技(南京)有限公司 | 基于多源异构数据统一实体标识码的生成管理方法及系统 |
WO2022068348A1 (zh) * | 2020-09-30 | 2022-04-07 | 北京锐安科技有限公司 | 关系图谱构建方法、装置、电子设备及存储介质 |
CN112163127A (zh) * | 2020-09-30 | 2021-01-01 | 北京锐安科技有限公司 | 关系图谱构建方法、装置、电子设备及存储介质 |
CN112163127B (zh) * | 2020-09-30 | 2023-11-21 | 北京锐安科技有限公司 | 关系图谱构建方法、装置、电子设备及存储介质 |
CN112259180A (zh) * | 2020-10-21 | 2021-01-22 | 平安科技(深圳)有限公司 | 一种基于异构医学知识图谱的疾病预测方法及相关设备 |
CN112259180B (zh) * | 2020-10-21 | 2023-06-27 | 平安科技(深圳)有限公司 | 一种基于异构医学知识图谱的疾病预测方法及相关设备 |
CN112364000A (zh) * | 2020-10-29 | 2021-02-12 | 广西电网有限责任公司南宁供电局 | 一种电力行业多源异构数据融合的系统及方法 |
CN112199515A (zh) * | 2020-11-17 | 2021-01-08 | 西安交通大学 | 一种多形态知识图谱驱动的知识服务创新方法 |
CN112199515B (zh) * | 2020-11-17 | 2023-08-15 | 西安交通大学 | 一种多形态知识图谱驱动的知识服务创新方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108846020A (zh) | 基于多源异构数据进行知识图谱自动化构建方法、系统 | |
CN110032575A (zh) | 数据查询方法、装置、设备和存储介质 | |
CN103631596B (zh) | 业务对象数据录入及更新规则的配置装置和配置方法 | |
CN110309196A (zh) | 区块链数据存储和查询方法、装置、设备及存储介质 | |
CN110134671B (zh) | 一种面向溯源应用的区块链数据库数据管理系统及方法 | |
EP3367234A2 (en) | Systems and methods for arbitrary software logic modeling | |
US10262262B2 (en) | Semantic method for terminal devices of internet of things | |
US20030233365A1 (en) | System and method for semantics driven data processing | |
CN106991276B (zh) | 一种基于openEHR模板的数据接口动态生成方法 | |
CN106104533A (zh) | 处理大型数据储存库中的数据集 | |
US8639712B2 (en) | Method and module for creating a relational database schema from an ontology | |
CN107247811B (zh) | 基于Oracle数据库的SQL语句性能优化方法及装置 | |
CN110866029B (zh) | sql语句构建方法、装置、服务器及可读存储介质 | |
US20180189679A1 (en) | Self-learning system and method for automatically performing machine learning | |
CN112363695B (zh) | Pmml文件及其运行时环境与工业软件的集成方法 | |
CN109213826A (zh) | 数据处理方法和设备 | |
CN111627552A (zh) | 一种医疗流式数据血缘关系分析、存储方法及装置 | |
CN110502667A (zh) | 基于dom框架的odx文档解析和生成技术 | |
US8856152B2 (en) | Apparatus and method for visualizing data | |
CN113221528B (zh) | 基于openEHR模型的临床数据质量评估规则的自动生成与执行方法 | |
CN112286916A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
KR102455521B1 (ko) | 의료 데이터에 대한 즉각 의미 조정 장치 및 그 방법과, 그 장치에서의 스키마 맵 생성 방법 | |
US20070198193A1 (en) | Automatic creation and identification of biochemical pathways | |
CN110046257A (zh) | 用于基于本体论匹配设备数据模型的方法和设备 | |
CN109716366A (zh) | 关于企业技术、人员和业务功能的知识的自动化提取和可视化的系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181120 |
|
RJ01 | Rejection of invention patent application after publication |