CN110941612A - 基于关联数据的自治数据湖构建系统及方法 - Google Patents

基于关联数据的自治数据湖构建系统及方法 Download PDF

Info

Publication number
CN110941612A
CN110941612A CN201911131738.0A CN201911131738A CN110941612A CN 110941612 A CN110941612 A CN 110941612A CN 201911131738 A CN201911131738 A CN 201911131738A CN 110941612 A CN110941612 A CN 110941612A
Authority
CN
China
Prior art keywords
data
knowledge
metadata
module
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911131738.0A
Other languages
English (en)
Other versions
CN110941612B (zh
Inventor
蔡鸿明
黄佳卉
张贝格
于晗
雷连松
姜丽红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING RUNCHAIN TECHNOLOGY Co.,Ltd.
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201911131738.0A priority Critical patent/CN110941612B/zh
Publication of CN110941612A publication Critical patent/CN110941612A/zh
Application granted granted Critical
Publication of CN110941612B publication Critical patent/CN110941612B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Abstract

一种基于关联数据的自治数据湖构建系统及方法,该系统包括:数据源输入模块、异构数据预处理模块、元数据发现与抽取模块、元数据融合与关联模块、元模型优化与构建模块、实例知识抽取模块、知识封装模块、知识校正与融合模块、实例概念抽取模块和元模型验证与演化模块;本发明基于关联数据,在构建数据湖的同时,生成实时更新的目录索引和可通过目录快速定位的实例知识图谱,通过其内在结构和语义关联最终得到一个具有自治能力的数据湖,使其易于被外部用户管理、检索及满足更多需求。

Description

基于关联数据的自治数据湖构建系统及方法
技术领域
本发明涉及的是一种大数据信息处理领域的技术,具体是一种面向多源异构数据的基于关联数据的自治数据湖构建系统及方法。
背景技术
在大数据时代,所有数据都具有潜在价值。数据湖是一个集中式存储库,允许以任意规模存储所有结构化、半结构化和非结构化数据。数据湖无需预先定义数据结构,可以用原始形式存储。经过长时间的积累后,缺乏治理的数据湖会成为无人可以清理的“数据沼泽”,数据变得难以理解及使用。因此,如何构建一个能全自动融合数据、实时更新数据湖模式与目录、便于外部管理和使用的数据湖,使其成为一个具有自治能力的数据湖变得至关重要。目前如何管理和使用数据湖的方法或平台有相对较多的研究和应用,但是如何减少人工干预,构建一个具有自治能力的数据湖方面,还没有很成熟的应用和技术支撑。
现有技术利用基于网络和语义驱动的相关技术,通过构建适用于数据湖的元模型,允许当前元数据模型具备执行相对复杂任务的能力。或通过在数据湖中增加多个业务流程系统,对各流程系统中的业务数据人工添加业务标签,实现数据湖的索引构建和管理,利用各业务流程系统间的内在业务逻辑,支持用户通过业务请求找到对应数据。但对于如何有效自动化处理融合持续异构数据源,深入解析数据湖中的实例数据,为其自动建立内在语义关联,构建一个自治数据湖,使其易于被外部用户管理、检索及满足更多复杂需求上依然有所欠缺。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于关联数据的自治数据湖构建方法,面向持续生成的多源数据,深入解析原始数据,实现全自动实例抽取融合和统一管理语义元模型构建,实例知识图谱不断融合新数据的同时,驱动统一管理语义元模型不断演化。统一管理语义元模型为数据湖提供全面清晰的目录索引,实时更新当前数据湖中的数据模式;实例知识图谱将原始数据进行解析封装为知识节点,深入解析和丰富原始数据。该构建方法基于关联数据,在构建数据湖的同时,生成实时更新的目录索引和可通过目录快速定位的实例知识图谱,通过其内在结构和语义关联最终得到一个具有自治能力的数据湖,使其易于被外部用户管理、检索及满足更多需求。
本发明是通过以下技术方案实现的:
本发明涉及一种基于关联数据的自治数据湖构建系统,包括:数据源输入模块、异构数据预处理模块、元数据发现与抽取模块、元数据融合与关联模块、元模型优化与构建模块、实例知识抽取模块、知识封装模块、知识校正与融合模块、实例概念抽取模块和元模型验证与演化模块,其中:数据源输入模块接收异构数据源,异构数据预处理模块对异构数据源进行预处理得到抽取规则及内容文本信息,元数据发现与抽取模块对各类结构数据进行对应的定位与元数据抽取,元数据融合与关联模块将精炼处理的元数据进行基于语义相度和字符相似度的聚类后进行深入关联,元模型优化与构建模块通过引入领域历史知识库对现有的元数据进行扩充丰富关联与属性并进行标准元模型的构建从而生成由元数据自上而下构建得到的初始元模型,实例知识抽取模块对各类结构数据进行具体实例处理以及不同颗粒度的信息抽取,知识封装模块对实例知识抽取模块中抽取到的知识进行封装,知识校正与融合模块对封装后的知识进行词义消歧和实体匹配以解决大量知识在合并时存在的问题,保证知识的唯一性和准确性后进行知识融合处理,得到实例知识图谱,实例概念抽取模块对数据湖中的实例知识图谱进行概念抽取并对抽取得到的概念进行自动聚类后得到由实例数据自下而上生成的实例关联概念模型,元模型验证与演化模块根据实例关联概念模型对初始元模型进行验证,推动初始元模型演化,得到最终的统一管理语义元模型。
所述的自治数据湖包括:原始数据,实例知识图谱和统一管理语义元模型。
所述的异构数据源包括:结构化的数据库,半结构化的JSON文件,非结构化的表格扫描图片。
所述的预处理是指:对不易于直接解析的具有大量的重复性结构的半结构化JSON文件进行自动学习并识别抽取规则从而实现自动解析、对非结构化的表格扫描图片,利用OpenCV进行图像校正与框线识别,OCR技术进行解析后其转换为文本文件,并对其进行简单的文本校正便于进行后续处理。
所述的定位与元数据抽取是指:对结构化的数据库抽取Schema作为元数据、对于半结构化的文件利用自动学习的抽取规则可以确定属性标签的具体位置并对其进行抽取、对于非结构化图片在异构数据预处理模块中通过框线识别出表格结构结合转换后的文本信息确定并抽取表单的重要属性如标题、表头等。
所述的精炼处理是指:依次进行格式统一、去重后得到标准元数据组,其中:格式统一是指:来自不同数据源的元数据格式上存在差异,如全半角格式、英文大小写等,将其统一为标准格式;去重是指:对统一格式后的元数据进行同义词去重,保证元数据的唯一性。
所述的基于语义相度和字符相似度的聚类是指:利用k-medoids聚类算法对标准元数据进行聚类,具体步骤如下:
1)在标准元数据中随机选择k个数据样本作为质点,即参考点;
2)重复地将剩下的样本点分配到k个簇类当中;
3)随机选择一个非质点样本Object;计算交换对象Object和O1参考点,重复2)中的操作,产生新的一组簇类,计算目标函数S,若S>S0则将Object和O1交换,保留新的簇类,否则,保留原中心点和聚类。重复此步骤直到k个中心点不再变化,其中:目标函数S为当前簇内元数据基于Wordnet的语义和字符相似度得分,S0表示旧簇类的相似度得分,最终将元数据聚为k个簇类。
所述的对抽取得到的概念进行自动聚类是指:将实例知识图谱中抽取得到的概念自动基于语义和字符相似度进行聚类,与上述方法相同。
所述的深入关联是指:对各类中的元数据从两个维度与剩余类中的元数据进行关联,具体为:在非结构化数据预处理中通过框线识别获得元数据的表单结构关系,基于该关系对元数据进行语义推理,从语义关系维度为元数据建立关联,例如因为A和B来源相同,即为其添加关联-A is originated from the same table as B。
所述的表单结构包括但不限于主从关系与包含关系。
所述的语义推理包括但不限于合同中的负责人与项目的项目经理实际上为同一人,将不同类的元数据通过语义推理建立了关联。
所述的领域历史知识库采用但不限于该领域的历史知识经过人工处理后行成。
所述的具体实例处理是指:将来自关系型数据库表格的每一行数据作为一个实例单元,在JSON文件中多个属性对应一个实例单元,而对于非结构化数据每一张图片作为一个实例单元。
所述的不同颗粒度的信息抽取是指:通过基于自然语言处理技术与深度学习技术从实例数据中自动识别出离散的命名实体,然后提取出实体之间的关联关系与属性,支持后续形成网状的知识结构以得到语义信息。
所述的封装是指:对抽取到的知识进行统一的统一资源标识符(URI)分配与标识,便于后续通过HTTP协议访问该数据,并利用统一资源管理框架(RDF)对实例资源进行描述,统一标准化表示便于后续使用。
所述的词义消歧包括但不限于同名不同意等。
所述的实体匹配包括但不限于多指称指向同一实体等。
所述的知识融合处理是指:通过实体对齐将源自多个数据源的知识进行统一融合,得到一个该领域统一的实例知识图谱并将其持久化。
所述的概念抽取包括上下位关系抽取和实体概念抽取。
所述的验证是指:通过实例关联概念模型来验证初始元模型是否覆盖了全部的实例概念、属性与关联,若未完全覆盖,则通过关联概念模型对初始元模型进行补充,完成元模型的演化,得到最终的统一管理语义元模型。
本发明涉及上述系统的自治数据湖构建方法,分为实例数据处理和元数据处理两部分,通过实例数据处理得到的实例知识图谱和元数据处理得到的标准初始元模型后,结合生成的实例知识图谱,通过实例概念抽取对初始元模型进行自动验证与演化后,得到统一管理语义元模型;最终得到由统一管理语义元模型、实例知识图谱和原始数据构成的自治数据湖。
所述的实例数据处理是指:从多源数据中按相应颗粒度抽取实例数据,通过基于自然语言处理技术对其进行信息抽取,从实例数据中获取知识;由知识封装模块和知识校正与融合模块将知识进行统一标准化与融合并以关联数据的形式存储得到实例知识图谱;
所述的元数据处理是指:自顶向下地构建领域元模型,从原始数据中发现并抽取元数据;将元数据进行基于语义和结构的融合与关联后,参考领域历史知识库构建标准初始元模型。
技术效果
与现有技术相比,本发明整体所解决的技术效果是:面向持续生成的多源异构数据,基于关联数据在构建数据湖的同时,生成实时更新的统一管理语义元模型提供数据湖目录索引,以及可通过目录快速定位的实例知识图谱,通过其内在结构和语义关联最终得到一个具有自治能力的数据湖,使其易于被外部用户管理、检索及满足更多需求。统一管理语义元模型的构建过程中,首先由顶向下由元数据和领域历史知识库生成了初始元模型,又借助实例知识图谱的概念模型自底向上对其进行了验证与演化,该双向算法有效地保证了数据湖元模型的实时性与完整性,同时也保证了数据湖中的实例数据能够通过统一管理语义管理元模型灵活地使用与管理。与此同时提出了对非结构化数据的自动解析、抽取与元模型的构建方法,有效改善了对于非结构化数据的处理与利用。实例知识图谱的构建也破除了数据湖的集中式限制,深入解析原始数据,并丰富其语义信息,以关联数据的形式存储实例数据,使具备快速响应复杂的检索需求的能力,易于挖掘复杂数据间的价值与联系,提高了数据的语义丰富性与利用率。
附图说明
图1为本发明系统示意图;
图2为实施例架构示意图。
具体实施方式
如图2所示,本实施例的实现环境包括:外部用户接口、数据导入接口、数据持久层、数据封装导出接口以及如图1所示的本实施例涉及的基于关联数据的自治数据湖构建系统,其中:外部用户接口用于向自治数据湖构建系统提供可视化操作界面,外部用户能够通过该页面直观便捷地进行操作,包括:各类数据的导入、删除以及检索;数据导入接口用于接收来自外部用户的数据导入请求和/或各类异构数据源至自治数据湖构建系统,包括:结构化的关系型数据库,半结构化的JSON文件和非结构化的表格扫描图片,数据封装导出接口用于用于向自治数据湖构建系统提供外部用户查看或搜索数据的接口,从数据持久层中导出所需的具体数据,并根据需求进行封装输出,例如OWL格式的统一管理语义元模型。
所述的自治数据湖构建系统包括:异构数据预处理模块、元数据发现与抽取模块、元数据融合与关联模块、元模型优化与构建模块、实例知识抽取模块、知识封装模块、知识校正与融合模块、实例概念抽取模块和元模型验证与演化模块。
本实施例中通过包括MySQL关系型数据库、MongoDB分布式NoSQL数据库、HDFS分布式文件系统、Neo4j图数据库的数据持久层实现对应的存储原始数据文件、构成实例知识图谱的知识RDF文件与领域历史知识库、统一管理语义元模型,以组成三层架构的数据湖。
本系统通过以下步骤具体实现数据湖构建:
①外部用户在可视化界面上导入各类异构数据,调用数据导入接口,实现原始数据的上传,以原格式存入数据持久层中;
②原始数据导入后通过异构数据预处理模块实时解析由数据导入接口传入的异构数据包,对不易于直接解析的异构数据源进行预处理,得到文本型的数据后并行同时进行实例数据处理流程和元数据处理流程;
所述的实例数据处理流程是指:由实例知识抽取模块开始,针对各类结构数据进行不同颗粒度的信息抽取,知识封装模块对实例信息的进行标准化封装,再通过对知识的校正与融合得到最终的实例知识图谱并将其持久化于分布式文件系统中。
所述的元数据处理流程是指:由元数据发现与抽取模块开始,对各类结构数据的元数据进行准确定位与抽取,元数据融合与关联模块再对其进行统一处理,对元数据进行统一的对齐和融合。
③基于相似度对元数据进行统一聚类后,各类中的元数据从表单结构和语义推理两个维度与剩余类中的元数据进行关联。
④关联后通过元模型优化与构建模块导入领域历史知识库对现有的元数据进行扩充丰富关联与属性,最后进行标准元模型的构建,生成初始元模型。
⑤通过实例概念抽取模块持久层中存储的实例知识图谱进行概念抽取后,对初始元模型进行验证与演化得到最终的统一管理语义元模型。
⑥将统一管理语义元模型存入数据持久层的Neo4j图数据库中,外部用户查看或搜索数据时,调用数据封装导出接口,从数据持久层中导出所需的具体数据,并根据需求进行封装输出。以上就是该系统完整的业务流程。
上述工作的技术指标与国内外类似成果的技术参数的比较见表1。
表1技术特性对比
Figure BDA0002278512180000061
与现有技术项目比较,本实施例在业务流程执行过程中,面向持续生成的多源异构数据,基于关联数据在构建数据湖的同时,生成实时更新的统一管理语义元模型提供数据湖目录索引,以及可通过目录快速定位的实例知识图谱,通过其内在结构和语义关联最终得到一个具有自治能力的数据湖,使其易于被外部用户管理、检索及满足更多需求。
本发明的优势与特点体现在:
语义丰富性:本实施例面向各类异构数据,不同于传统数据湖的构建过程中,对原始数据的处理只有转存或统一备份。本实施例对原始数据进行深入抽取和解析,挖掘原始数据中的知识并进行统一封装融合,以关联数据的形式进行存储为实例知识图谱。其中每个知识节点都包含丰富的属性、关联和语义标注,极大扩充并丰富原始数据的信息,使具备快速响应复杂的检索需求的能力,易于挖掘复杂数据间的价值与联系。
灵活性:本实施例中基于关联数据,在构建数据湖的同时,生成实时更新的统一管理语义元模型提和实例知识图谱,最终得到一个具有自治能力的数据湖。其中,统一管理语义元模型为数据湖提供了全面清晰的目录索引,将统一管理语义元模型进行可视化后,用户即可直观实时地掌握与查看当前数据湖中的数据情况;实例知识图谱将原始数据进行解析封装为知识节点,包含丰富的属性、关联与语义信息,通过目录索引能够快速定位到相关的知识节点及其相关信息,具备灵活应对外部用户未来按需查询和深度数据挖掘的需求,无需提前定义相关数据结构。未来外部用户通过由统一管理语义元模型提供的目录索引自定义查询需求,实例知识图谱快速响应定位,即可实现灵活地按需查询并满足更多需求。
可持续自治能力:本实施例面向持续生成的原始数据,经过统一处理流程后,完成与实例知识图谱的融合,新的实例知识图谱概念模型再驱动元模型的演化。本实施例中的数据湖是“流动”的,新数据驱动实例知识图谱的更新,再推动统一管理语义元模型的演化,非一次性构建且无需人工参与全自动完成,使数据湖具有可持续化自治能力。不同的外部用户上传新的数据到系统中,不断推动演化统一管理语义元模型,逐渐完善数据湖的目录索引;同时也逐渐丰富实例知识图谱,形成一个逐渐扩大的领域知识图谱。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (11)

1.一种基于关联数据的自治数据湖构建系统,其特征在于,包括:数据源输入模块、异构数据预处理模块、元数据发现与抽取模块、元数据融合与关联模块、元模型优化与构建模块、实例知识抽取模块、知识封装模块、知识校正与融合模块、实例概念抽取模块和元模型验证与演化模块,其中:数据源输入模块接收异构数据源,异构数据预处理模块对异构数据源进行预处理得到抽取规则及内容文本信息,元数据发现与抽取模块对各类结构数据进行对应的定位与元数据抽取,元数据融合与关联模块将精炼处理的元数据进行基于语义相度和字符相似度的聚类后进行深入关联,元模型优化与构建模块通过引入领域历史知识库对现有的元数据进行扩充丰富关联与属性并进行标准元模型的构建从而生成由元数据自上而下构建得到的初始元模型,实例知识抽取模块对各类结构数据进行具体实例处理以及不同颗粒度的信息抽取,知识封装模块对实例知识抽取模块中抽取到的知识进行封装,知识校正与融合模块对封装后的知识进行词义消歧和实体匹配以解决大量知识在合并时存在的问题,保证知识的唯一性和准确性后进行知识融合处理,得到实例知识图谱,实例概念抽取模块对数据湖中的实例知识图谱进行概念抽取并对抽取得到的概念进行自动聚类后得到由实例数据自下而上生成的实例关联概念模型,元模型验证与演化模块根据实例关联概念模型对初始元模型进行验证,推动初始元模型演化,得到最终的统一管理语义元模型;
所述的自治数据湖包括:原始数据,实例知识图谱和统一管理语义元模型;
所述的异构数据源包括:结构化的数据库,半结构化的JSON文件,非结构化的表格扫描图片。
2.根据权利要求1所述的系统,其特征是,所述的预处理是指:对不易于直接解析的具有大量的重复性结构的半结构化JSON文件进行自动学习并识别抽取规则从而实现自动解析、对非结构化的表格扫描图片,利用OpenCV进行图像校正与框线识别,OCR技术进行解析后其转换为文本文件,并对其进行简单的文本校正便于进行后续处理。
3.根据权利要求1所述的系统,其特征是,所述的定位与元数据抽取抽取是指:对结构化的数据库抽取Schema作为元数据、对于半结构化的文件利用自动学习的抽取规则以确定属性标签的具体位置并对其进行抽取、对于非结构化图片在异构数据预处理模块中通过框线识别出表格结构结合转换后的文本信息确定并抽取表单的重要属性。
4.根据权利要求1所述的系统,其特征是,所述的精炼处理是指:依次进行格式统一、去重后得到标准元数据组,其中:格式统一是指:来自不同数据源的元数据格式上存在差异,如全半角格式、英文大小写等,将其统一为标准格式;去重是指:对统一格式后的元数据进行同义词去重,保证元数据的唯一性。
5.根据权利要求1所述的系统,其特征是,所述的深入关联是指:对各类中的元数据从两个维度与剩余类中的元数据进行关联,具体为:在非结构化数据预处理中通过框线识别获得元数据的表单结构关系,基于该关系对元数据进行语义推理,从语义关系维度为元数据建立关联。
6.根据权利要求1所述的系统,其特征是,所述的具体实例处理是指:将来自关系型数据库表格的每一行数据作为一个实例单元,在JSON文件中多个属性对应一个实例单元,而对于非结构化数据每一张图片作为一个实例单元。
7.根据权利要求1所述的系统,其特征是,所述的不同颗粒度的信息抽取是指:通过基于自然语言处理技术与深度学习技术从实例数据中自动识别出离散的命名实体,然后提取出实体之间的关联关系与属性,支持后续形成网状的知识结构以得到语义信息。
8.根据权利要求1所述的系统,其特征是,所述的封装是指:对抽取到的知识进行统一的统一资源标识符分配与标识,便于后续通过HTTP协议访问该数据,并利用统一资源管理框架对实例资源进行描述,统一标准化表示便于后续使用。
9.根据权利要求1所述的系统,其特征是,所述的知识融合处理是指:通过实体对齐将源自多个数据源的知识进行统一融合,得到一个该领域统一的实例知识图谱并将其持久化。
10.根据权利要求1所述的系统,其特征是,所述的验证是指:通过实例关联概念模型来验证初始元模型是否覆盖了全部的实例概念、属性与关联,若未完全覆盖,则通过关联概念模型对初始元模型进行补充,完成元模型的演化,得到最终的统一管理语义元模型。
11.一种根据上述任一权利要求所述系统的自治数据湖构建方法,其特征在于,通过实例数据处理得到的实例知识图谱和元数据处理得到的标准初始元模型后,结合生成的实例知识图谱,通过实例概念抽取对初始元模型进行自动验证与演化后,得到统一管理语义元模型;最终得到由统一管理语义元模型、实例知识图谱和原始数据构成的自治数据湖;
所述的实例数据处理是指:从多源数据中按相应颗粒度抽取实例数据,通过基于自然语言处理技术对其进行信息抽取,从实例数据中获取知识;由知识封装模块和知识校正与融合模块将知识进行统一标准化与融合并以关联数据的形式存储得到实例知识图谱;
所述的元数据处理是指:自顶向下地构建领域元模型,从原始数据中发现并抽取元数据;将元数据进行基于语义和结构的融合与关联后,参考领域历史知识库构建标准初始元模型。
CN201911131738.0A 2019-11-19 2019-11-19 基于关联数据的自治数据湖构建系统及方法 Active CN110941612B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911131738.0A CN110941612B (zh) 2019-11-19 2019-11-19 基于关联数据的自治数据湖构建系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911131738.0A CN110941612B (zh) 2019-11-19 2019-11-19 基于关联数据的自治数据湖构建系统及方法

Publications (2)

Publication Number Publication Date
CN110941612A true CN110941612A (zh) 2020-03-31
CN110941612B CN110941612B (zh) 2020-08-11

Family

ID=69907855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911131738.0A Active CN110941612B (zh) 2019-11-19 2019-11-19 基于关联数据的自治数据湖构建系统及方法

Country Status (1)

Country Link
CN (1) CN110941612B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460236A (zh) * 2020-04-26 2020-07-28 天津七一二通信广播股份有限公司 基于数据湖的大数据采集治理快速检索系统
CN111858572A (zh) * 2020-07-22 2020-10-30 山东省科院易达科技咨询有限公司 一种基于数据分析的分布式数据清洗系统及方法
CN112486989A (zh) * 2020-11-28 2021-03-12 河北省科学技术情报研究院(河北省科技创新战略研究院) 一种多源数据颗粒化融合及指标分类分层处理方法
CN112540975A (zh) * 2020-12-29 2021-03-23 中科院计算技术研究所大数据研究院 一种基于petri网的多源异构数据质量检测方法
CN113010296A (zh) * 2021-04-01 2021-06-22 上海交通大学 基于形式化模型的任务解析与资源分配方法及系统
CN113032577A (zh) * 2021-03-21 2021-06-25 国网河南省电力公司电力科学研究院 一种电力系统知识图谱的构建、缺陷目标识别方法及系统
CN113064891A (zh) * 2021-04-09 2021-07-02 中电科数字科技(集团)有限公司 物联时空数据计算与管理系统及方法
CN114048260A (zh) * 2022-01-12 2022-02-15 南湖实验室 一种数据湖与关系型数据库互联的方法
CN115809249A (zh) * 2023-02-03 2023-03-17 杭州比智科技有限公司 一种基于专有化数据集的数据湖管理方法及系统
CN115809149A (zh) * 2023-02-08 2023-03-17 北京邮电大学 一种利用云原生资源的数据湖构建方法
WO2023246849A1 (zh) * 2022-06-22 2023-12-28 青岛海尔电冰箱有限公司 回馈数据图谱生成方法及冰箱
CN117407457A (zh) * 2023-12-14 2024-01-16 中国人民解放军国防科技大学 基于可配置规则的多源数据融合方法、系统及设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114840686B (zh) * 2022-05-07 2024-01-02 中国电信股份有限公司 基于元数据的知识图谱构建方法、装置、设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120173556A1 (en) * 2008-12-11 2012-07-05 International Business Machines Corporation Method and system for managing semantic and syntactic metadata
CN107316063A (zh) * 2017-06-26 2017-11-03 厦门理工学院 多标记分类方法、装置、介质及计算设备
CN108427735A (zh) * 2018-02-28 2018-08-21 东华大学 基于电子病历的临床知识图谱构建方法
CN108932340A (zh) * 2018-07-13 2018-12-04 华融融通(北京)科技有限公司 一种不良资产经营领域下金融知识图谱的构建方法
CN109271382A (zh) * 2018-08-17 2019-01-25 广东技术师范学院 一种面向全数据形态开放共享的数据湖系统
CN109284394A (zh) * 2018-09-12 2019-01-29 青岛大学 一种从多源数据集成视角构建企业知识图谱的方法
CN109597855A (zh) * 2018-11-29 2019-04-09 北京邮电大学 基于大数据驱动的领域知识图谱构建方法及系统
CN110232185A (zh) * 2019-01-07 2019-09-13 华南理工大学 面向金融行业软件测试基于知识图谱语义相似度计算方法
CN110263229A (zh) * 2019-06-27 2019-09-20 北京中油瑞飞信息技术有限责任公司 一种基于数据湖的数据治理方法及装置
CN110287337A (zh) * 2019-06-19 2019-09-27 上海交通大学 基于深度学习和知识图谱获取医学同义词的系统及方法
CN110289066A (zh) * 2019-07-29 2019-09-27 河南开合软件技术有限公司 一种法医鉴定报告的审查方法及系统
CN110377648A (zh) * 2018-04-11 2019-10-25 西安邮电大学 一种面向智能制造的多源异构数据分析平台

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120173556A1 (en) * 2008-12-11 2012-07-05 International Business Machines Corporation Method and system for managing semantic and syntactic metadata
CN107316063A (zh) * 2017-06-26 2017-11-03 厦门理工学院 多标记分类方法、装置、介质及计算设备
CN108427735A (zh) * 2018-02-28 2018-08-21 东华大学 基于电子病历的临床知识图谱构建方法
CN110377648A (zh) * 2018-04-11 2019-10-25 西安邮电大学 一种面向智能制造的多源异构数据分析平台
CN108932340A (zh) * 2018-07-13 2018-12-04 华融融通(北京)科技有限公司 一种不良资产经营领域下金融知识图谱的构建方法
CN109271382A (zh) * 2018-08-17 2019-01-25 广东技术师范学院 一种面向全数据形态开放共享的数据湖系统
CN109284394A (zh) * 2018-09-12 2019-01-29 青岛大学 一种从多源数据集成视角构建企业知识图谱的方法
CN109597855A (zh) * 2018-11-29 2019-04-09 北京邮电大学 基于大数据驱动的领域知识图谱构建方法及系统
CN110232185A (zh) * 2019-01-07 2019-09-13 华南理工大学 面向金融行业软件测试基于知识图谱语义相似度计算方法
CN110287337A (zh) * 2019-06-19 2019-09-27 上海交通大学 基于深度学习和知识图谱获取医学同义词的系统及方法
CN110263229A (zh) * 2019-06-27 2019-09-20 北京中油瑞飞信息技术有限责任公司 一种基于数据湖的数据治理方法及装置
CN110289066A (zh) * 2019-07-29 2019-09-27 河南开合软件技术有限公司 一种法医鉴定报告的审查方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
修晓蕾等: "医学知识图谱构建研究进展", 《中华医学图书情报杂志》 *
李桐宇等: "基于文本对象模型的自动化网页内容提取方法", 《上海交通大学学报》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460236A (zh) * 2020-04-26 2020-07-28 天津七一二通信广播股份有限公司 基于数据湖的大数据采集治理快速检索系统
CN111858572B (zh) * 2020-07-22 2021-06-15 山东省科院易达科技咨询有限公司 一种基于数据分析的分布式数据清洗系统及方法
CN111858572A (zh) * 2020-07-22 2020-10-30 山东省科院易达科技咨询有限公司 一种基于数据分析的分布式数据清洗系统及方法
CN112486989B (zh) * 2020-11-28 2021-08-27 河北省科学技术情报研究院(河北省科技创新战略研究院) 一种多源数据颗粒化融合及指标分类分层处理方法
CN112486989A (zh) * 2020-11-28 2021-03-12 河北省科学技术情报研究院(河北省科技创新战略研究院) 一种多源数据颗粒化融合及指标分类分层处理方法
CN112540975B (zh) * 2020-12-29 2021-08-31 中科大数据研究院 一种基于petri网的多源异构数据质量检测方法及系统
CN112540975A (zh) * 2020-12-29 2021-03-23 中科院计算技术研究所大数据研究院 一种基于petri网的多源异构数据质量检测方法
CN113032577B (zh) * 2021-03-21 2022-12-27 国网河南省电力公司电力科学研究院 一种电力系统知识图谱的构建、缺陷目标识别方法及系统
CN113032577A (zh) * 2021-03-21 2021-06-25 国网河南省电力公司电力科学研究院 一种电力系统知识图谱的构建、缺陷目标识别方法及系统
CN113010296A (zh) * 2021-04-01 2021-06-22 上海交通大学 基于形式化模型的任务解析与资源分配方法及系统
CN113064891A (zh) * 2021-04-09 2021-07-02 中电科数字科技(集团)有限公司 物联时空数据计算与管理系统及方法
CN114048260A (zh) * 2022-01-12 2022-02-15 南湖实验室 一种数据湖与关系型数据库互联的方法
WO2023246849A1 (zh) * 2022-06-22 2023-12-28 青岛海尔电冰箱有限公司 回馈数据图谱生成方法及冰箱
CN115809249A (zh) * 2023-02-03 2023-03-17 杭州比智科技有限公司 一种基于专有化数据集的数据湖管理方法及系统
CN115809149A (zh) * 2023-02-08 2023-03-17 北京邮电大学 一种利用云原生资源的数据湖构建方法
CN117407457A (zh) * 2023-12-14 2024-01-16 中国人民解放军国防科技大学 基于可配置规则的多源数据融合方法、系统及设备
CN117407457B (zh) * 2023-12-14 2024-02-27 中国人民解放军国防科技大学 基于可配置规则的多源数据融合方法、系统及设备

Also Published As

Publication number Publication date
CN110941612B (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN110941612B (zh) 基于关联数据的自治数据湖构建系统及方法
CN109284363B (zh) 一种问答方法、装置、电子设备及存储介质
CN110347843B (zh) 一种基于知识图谱的中文旅游领域知识服务平台构建方法
US10599719B2 (en) System and method for providing prediction-model-based generation of a graph data model
CN109635171B (zh) 一种新闻节目智能标签的融合推理系统和方法
US11899681B2 (en) Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium
CN107391677B (zh) 携带实体关系属性的中文通用知识图谱的生成方法及装置
US11727000B2 (en) System and method for reducing resource usage in a data retrieval process
US10223417B1 (en) System and method for reducing query-related resource usage in a data retrieval process
CN104850601B (zh) 基于图数据库的警务实时分析应用平台及其构建方法
CN113190687B (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
CN110716952A (zh) 一种多源异构数据处理方法、装置和存储介质
Konys Ontology-based approaches to big data analytics
CN114218472A (zh) 基于知识图谱的智能搜索系统
CN113094449A (zh) 基于分布式键值库的大规模知识图谱存储方案
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
CN115438199A (zh) 一种基于智慧城市场景数据中台技术的知识平台系统
KR20200082179A (ko) 공간 데이터의 의미론적 주석을 위한 데이터 변환 방법
JP2024041902A (ja) マルチソース型の相互運用性および/または情報検索の最適化
CN115422155A (zh) 一种数据湖元数据模型的建模方法
KR101955376B1 (ko) 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치
Han et al. Design and implementation of elasticsearch for media data
US10924551B2 (en) IRC-Infoid data standardization for use in a plurality of mobile applications
CN117216109A (zh) 一种多类型混合数据的数据查询方法、装置及存储介质
CN107180024A (zh) 一种中心连通子图的多源异构数据实体识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220610

Address after: Room 1011, West Building 2, No. 168, software Avenue, Yuhuatai District, Nanjing, Jiangsu 210000

Patentee after: NANJING RUNCHAIN TECHNOLOGY Co.,Ltd.

Address before: 200240 No. 800, Dongchuan Road, Shanghai, Minhang District

Patentee before: SHANGHAI JIAO TONG University

TR01 Transfer of patent right