CN114048260A - 一种数据湖与关系型数据库互联的方法 - Google Patents

一种数据湖与关系型数据库互联的方法 Download PDF

Info

Publication number
CN114048260A
CN114048260A CN202210029283.7A CN202210029283A CN114048260A CN 114048260 A CN114048260 A CN 114048260A CN 202210029283 A CN202210029283 A CN 202210029283A CN 114048260 A CN114048260 A CN 114048260A
Authority
CN
China
Prior art keywords
data
database
relational database
lake
configuration file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210029283.7A
Other languages
English (en)
Other versions
CN114048260B (zh
Inventor
刘昊
张涛
张磊
王朋
刘哲峰
陈志凌
王秋烨
陈巍
刘荫隆
郁晨熹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Big Data Advanced Technology Research Institute
Nanhu Laboratory
Original Assignee
Beijing Big Data Advanced Technology Research Institute
Nanhu Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Big Data Advanced Technology Research Institute, Nanhu Laboratory filed Critical Beijing Big Data Advanced Technology Research Institute
Priority to CN202210029283.7A priority Critical patent/CN114048260B/zh
Publication of CN114048260A publication Critical patent/CN114048260A/zh
Application granted granted Critical
Publication of CN114048260B publication Critical patent/CN114048260B/zh
Priority to NL2033754A priority patent/NL2033754B1/en
Priority to US18/086,253 priority patent/US11914609B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供了一种数据湖与关系型数据库互联的方法,包括以下步骤:S1.在数据湖中添加关系型数据库的数据源类;S2.数据湖匹配使用关系型数据库的数据源类;S3.根据数据源类确定并加载相应驱动以与相应关系型数据库进行连接。本发明通过传参的方式将数据源注册配置文件、关系型数据库配置文件和驱动包目录串联起来,在启动数据湖时,不需要指定具体要使用哪个数据库,直接使用相应的数据库即可,也不需要遍历配置文件,用户按需通过传递参数的形式获取所需的配置信息即可,实现数据湖与关系型数据库之间的高效连接和双向读写。

Description

一种数据湖与关系型数据库互联的方法
技术领域
本发明属于数据湖技术领域,尤其是涉及一种数据湖与关系型数据库互联的方法。
背景技术
近年来,随着物联网、云计算、遥感、5G等技术的快速发展,各种数据呈现井喷式增长。从数据结构上说,数据可以分为四大类,结构化数据、半结构化数据、非结构化数据和二进制数据。为了存储这些数据,企事业单位一般会按业务或部门构建各自独立的数据库,这就导致了数据孤岛的问题,数据间共享困难,数据利用率低。
随着大数据时代的到来,结构化数据被运用得越来越多,但是很多领域的结构化数据被单一地存储在关系型数据库中,这部分数据往往无法和其他数据间进行共享,进而成为一个数据孤岛。
数据湖是一个用于存储企业的各种各样原始数据并保留原始数据内容的大规模存储系统架构,支持结构化数据、半结构化数据、非结构化数据和二进制数据等数据存储,其中的数据可供存取、处理、分析及传输,并且支持海量数据的分析处理,所以可以利用数据湖将关系型数据库中的数据与其他数据实现共享,但是目前没有一种实现数据湖直接与关系型数据库互联的高效方法。
发明内容
本发明的目的是针对上述问题,提供一种数据湖与关系型数据库互联的方法。
为达到上述目的,本发明采用了下列技术方案:
一种数据湖与关系型数据库互联的方法,包括以下步骤:
S1.在数据湖中添加关系型数据库的数据源类;
S2.数据湖匹配使用关系型数据库的数据源类;
S3.根据数据源类确定并加载相应驱动以与相应关系型数据库进行连接。
在上述的数据湖与关系型数据库互联的方法中,步骤S1中,通过以下方法添加关系型数据库的数据源类:
S11.确定所要添加的数据源类为关系型数据库的数据源类,并为该数据源类备注标识名称;
S12.将所述数据源类的包括标识名称的包路径添加到数据湖的数据源注册配置文件中。
在上述的数据湖与关系型数据库互联的方法中,步骤S2中,通过以下方式匹配使用关系型数据库的数据源类:
S21.数据湖通过接口参数传递关系型数据库的数据源类的标识名称;
S22.通过步骤S21中的标识名称与数据源注册配置文件中的数据源类的标识名称进行匹配;
S23.使用标识名称匹配上的数据源类。
在上述的数据湖与关系型数据库互联的方法中,步骤S3中,根据关系型数据库的数据源类匹配到关系型数据库配置文件,所述的关系型数据库配置文件中存储有各种关系型数据库的基础信息,数据湖根据当前使用的关系型数据库的基础信息确定并加载相应驱动以与当前关系型数据库进行连接。
在上述的数据湖与关系型数据库互联的方法中,各关系型数据库的基础信息包括相应关系型数据库的数据库名称;
步骤S3中,通过传递数据库名称在数据库配置文件中读取相应关系型数据库的基础信息。
在上述的数据湖与关系型数据库互联的方法中,每种关系型数据库对应有一个或多个数据库实例,关系型数据库配置文件中存储有各种数据库实例的基础信息;
各数据库实例的基础信息包括相应数据库实例的实例名称,且所述实例名称包含相应数据库实例所属关系型数据库的数据库名称;
步骤S3中,通过传递实例名称在数据库配置文件中读取相应数据库实例的基础信息并获取相应的数据库实例。
在上述的数据湖与关系型数据库互联的方法中,所述的基础信息包括驱动名称,步骤S3中,根据基础信息中的驱动名称确定并加载相应驱动。
在上述的数据湖与关系型数据库互联的方法中,所述的数据湖具有驱动包目录,用于存放各种关系型数据库的驱动包并记录有驱动包与驱动名称的对应关系;
步骤S3中,根据驱动名称通过传参方式匹配到驱动包目录中的驱动包后加载该驱动包,进而连接到相应的数据库实例。
在上述的数据湖与关系型数据库互联的方法中,所述的数据湖还包括数据字段类型转换配置文件,入湖时,将数据库实例的待入湖数据先转换为相应的JDBC类型,然后通过数据字段类型转换配置文件将JDBC类型转换为数据湖的字段类型;出湖时,将数据湖的待出湖数据通过数据字段类型转换配置文件转换为相应的JDBC类型,然后将JDBC类型转换为相应数据库实例的字段类型。
在上述的数据湖与关系型数据库互联的方法中,数据湖启动状态下检测到关系型数据库配置文件的修改信息时,锁定当前配置信息用于本次数据读写,并在下次执行数据读写时切换使用修改后的配置信息。
本发明的优点在于:
通过本发明方法使数据湖能够支持与关系型数据库之间的高效连接,并与关系型数据库之间进行双向读写,将关系型数据库中的数据通过数据湖与其他数据相连,使其避免成为数据孤岛;
提供数据源注册配置文件供注册数据源类,提供数据库配置文件配置数据库信息,提供驱动包目录存放数据库驱动,后续需要添加关系型数据库实例时,只需要依情况对数据库配置文件进行信息配置即可,使得数据湖对关系型数据库的连接具备灵活的可扩展性;
通过传参的方式将数据源注册配置文件、关系型数据库配置文件和驱动包目录串联起来,在启动数据湖时,不需要指定具体要使用哪个数据库,直接使用相应的数据库即可,也不需要遍历配置文件,用户按需通过传递参数的形式获取所需的配置信息即可;
在进行读写操作时,传递关系型数据库配置文件中的关系型数据库的实例名称,能够在不停止数据库的前提下,切换不同的数据库实例,使关系型数据库支持热切换;
目前数据类型转换均采用代码来进行转换,而本方案使用配置文件进行转换,无需写源代码,解析配置文件中的配置项就能够得到字段类型转换关系,简化转换流程,提高转换效率。
附图说明
图1为本发明多实例的关系型数据库配置文件的示意图;
图2为本发明数据湖与关系型数据库互联的方法流程图;
图3为本发明字段转换流程图;
图4为本发明JDBC驱动加载的示意图;
图5为本发明数据湖与关系型数据库之间双向读写的示意图一;
图6为本发明数据湖与关系型数据库之间双向读写的示意图二;
图7为基于本发明关系数据库与数据湖互联方法中关系型数据库数据入湖的耗时实验结果图;
图8为基于本发明关系数据库与数据湖互联方法中数据湖中数据进入关系型数据库的耗时实验结果图。
具体实施方式
下面结合附图本方案进行进一步说明:
本实施例公开了一种数据湖与关系型数据库互联的方法,包括以下步骤:
1、在数据湖中添加关系型数据库的数据源类,为该数据源类标注唯一的标识名称,如本实施例将关系型数据库取名为relationaldb;并且本方案中,每种关系型数据库可配置多个数据库实例,各数据库实例具有不同的实例名称,且实例名称包含其所属关系型数据库的数据库名称,比如配置了3个MySQL数据库,分别取名为mysql1,mysql2,mysql3,其中mysql为MySQL类关系型数据库的名称。本方案除了支持与MySQL关系型数据库的连接,还支持其他关系型数据库的连接,如支持与Oracle和 SQL Server关系型数据库的连接。
将关系型数据库的数据源类的包路径添加到数据湖的数据源注册配置文件中,包路径包括标识名称,如本实施例中关系型数据库的数据源类的包路径为
com.nanhulab.bigdata.skqs.structured.relational.RelationDBDataSource,当用户对关系型数据库操作时,传递RelationDBDataSource类的标识名称“relationaldb”即可。数据湖通过接口参数传递关系型数据库的数据源类的标识名称,与数据源注册配置文件中的数据源类的标识名称进行匹配,使用标识名称匹配上的数据源类。
2、如图1所示,数据湖中具有关系型数据库配置文件,且关系型数据库配置文件中存储有各数据库实例的基础信息,基础信息包括相应数据库实例的实例名称,实例名称包含相应数据库实例所属关系型数据库的数据库名称。此处为一种关系型数据库具有多种数据库实例的情况,在一种关系型数据库均只有一个数据库实例的场景,可以直接使基础信息包括相应关系型数据库的数据库名称而不单独对数据库实例取名或记录至基础信息中。
进一步地,数据库实例的基础信息还包括驱动(driver)名称,同种关系型数据库的数据库实例的基础信息中的驱动名称一样。此外,基础信息还包括url、user和password等信息,在使用数据库实例时,不需要填写上述信息。
数据湖通过接口参数传递关系型数据库数据源类的标识名称,从数据源注册配置文件匹配到关系型数据库数据源,然后根据实例名称通过传参的方式从关系型数据库配置文件中匹配到数据库实例,并在关系型数据库配置文件中读取相应数据库实例的基础信息以获取相应的数据库实例,并确定待连接数据库为该类数据库实例。关系型数据库配置文件放置于数据湖的运行目录的conf文件夹中。
3、关系型数据库的驱动主要是各种JDBC驱动,同一种类的关系型数据库实例使用相同的驱动,各种关系型数据库所使用的驱动版本可以参考各数据库官网信息。本实施例将关系型数据库的JDBC驱动Jar包(驱动包)作为一个依赖项。数据湖具有驱动包目录,在投入使用时,将各关系型数据库的驱动包放在驱动包目录中,同时各驱动包与驱动名称的对应关系也被记录在驱动包目录中,具体的记录形式不在此限制,例如可以将驱动包的名称改为驱动名称。
系统根据关系型数据库配置文件中当前数据库实例的的基础信息中确定驱动名称,然后根据驱动名称通过传参方式匹配到驱动包目录中相应的驱动包后加载该驱动包,进而连接到相应的数据库实例。
如图2,分析引擎从数据湖系统获取各种数据进行分析,具体地,分析引擎通过传参与数据源注册配置文件中配置的数据源类进行匹配,找到当前需要使用的数据源类,本方法用于与各种关系型数据库互联,所以数据源类都为关系型数据库数据源。通过读取并解析数据库配置文件,获取当前所要使用的关系型数据库的信息,之后通过字段映射以及传参匹配到具体的JDBC驱动,进而连接到相应的关系型数据库。
进一步地,从数据库实例中读取数据时,根据数据库实例各自的JDBC驱动规则,将数据库实例类型转为JDBC类型,转换为JDBC类型的方式采用常规手段即可,这里不进行赘述。此时,该类型的数据还需要转换为数据湖支持的数据类型,如图3所示,本方案同时配备数据字段类型转换配置文件,在将JDBC类型的数据转换为数据湖支持的数据类型时使用该数据字段类型转换配置文件,以下是数据字段类型转换配置文件的部分内容:
{
“relationdb”:[
{
“dbtype”:”oracle”,
“field”:[
{
“datalakeType”:BooleanType”,
“jdbcType”:”BOOLEAN”
},
{
“datalakeType”:”LongType”
“jdbcType”:”BIGINT”
}
]
},
{
“dbtype”.”sqlserver”,
“field”:[
{
“datalakeType”:”TimestampYype”,
“jdbcType”:”TIMESTAMP”
}
]
},
]
}
其中,dbtype表示数据库类型,包括mysql,oracle和sqlserver三种关系型数据库;field表示各字段,其中datalakeType表示数据湖的字段类型,jdbcType表示JDBC字段类型,通过jdbcType找到datalakeType,通过datalakeType找到jdbcType实现字段类型的转换。具体地,数据库实例中的字段类型需要转换为数据湖的字段类型时,首先根据数据库实例的url匹配数据库类型dbtype,找到字段映射集,然后在该field中匹配该数据库实例的字段类型名称和jdbcType,找到数据湖的字段类型的名称datalakeType,然后使用反射机制找到对应的字段类型。数据湖的字段类型转换为关系型数据库实例的字段类型时,也可以通过上述类似方法完成。
如图4所示,系统根据传参中的标识名称,如relationaldb.mysql1,从配置文件中获取该数据库实例的基础信息,然后根据基础信息中的驱动名称,从驱动包目录中加载该驱动,通过该驱动与相应的数据库实例连接,实现具体的数据库操作,如通过MySQL JDBC驱动与MySQL连接,通过Oracle JDBC驱动与Oracle连接。通过配置文件的形式,简化了数据湖连接关系型数据库时的参数输入,提高了易用性。
数据湖从数据库中获取到的数据可以供分析引擎使用,也可以通过数据湖的存储接口存储到数据湖中。另外,存储在数据湖中的数据,可以使用数据湖的读取接口,将数据读取出来,读取出来的数据可以供分析引擎使用,也可以通过数据湖存储接口存储到相应的数据库中,从而实现数据湖与数据库之间的双向读写。
如图6、图7所示,从关系型数据库中读取数据后,经过图3中的类型转换,转为数据湖支持的数据类型,可以供分析引擎使用。这些数据也可以通过数据湖的存储接口,存储到数据湖中。反向的,存储在数据湖中的结构化数据,可以使用数据湖的读取接口,将数据读取出来,供分析引擎使用。这些数据也可以通过数据湖的存储接口,存储到相应的数据库中。
本方案通过传参的方式将数据源注册配置文件、数据库配置文件和驱动包目录串联起来,在启动数据湖时,不需要指定具体要使用哪个数据库实例,直接根据需要进行传参进而使用相应的数据库实例即可,同样地,在切换数据库实例时,直接通过传参方式切换即可,能够实现数据库实例的热切换。
优选地,数据湖启动状态下检测到关系型数据库配置文件的修改信息时,锁定当前配置信息用于本次数据读写,并在下次执行数据读写时切换使用修改后的配置信息。通过该方式使本方案支持数据库配置文件进行热修改,不需要停止已启动的数据湖,修改配置文件后,在下一次执行数据读写时就会使用修改后的配置信息。
本方案专门对关系数据库和数据湖的双向读写进行了测试,以mysql为例,统计了从10万行到100万行数据的双向读写耗时统计:
Figure 900555DEST_PATH_IMAGE001
如图7-8所示,基于本方案数据湖与关系型数据库互联的方法实现的关系型数据库数据的双向读写,即使是10万条数据,转为数据湖支持的格式也只要接近11000ms,转为关系数据库支持的格式也只要接近20000ms,具有极高的读写效率,而且随着数据量的增加,双向读写耗时是(接近)线性增加的,表明随着数据量的增加,耗时增加是很稳定的。可以看到,本方案通过采用配置文件的形式不仅能够实现关系数据库与数据湖之间的双向读写,而且由于具有高效稳定的数据类型转换速度而具有高效率的双向读写性能,从而实现数据湖与关系数据库互联的高效方法。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
尽管本文较多地使用了数据湖、数据源类、数据库、数据库实例、标识名称、数据库配置文件、数据源注册配置文件等术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims (10)

1.一种数据湖与关系型数据库互联的方法,其特征在于,包括以下步骤:
S1.在数据湖中添加关系型数据库的数据源类;
S2.数据湖匹配使用关系型数据库的数据源类;
S3.根据数据源类确定并加载相应驱动以与相应关系型数据库进行连接。
2.根据权利要求1所述的数据湖与关系型数据库互联的方法,其特征在于,步骤S1中,通过以下方法添加关系型数据库的数据源类:
S11.确定所要添加的数据源类为关系型数据库的数据源类,并为该数据源类备注标识名称;
S12.将所述数据源类的包括标识名称的包路径添加到数据湖的数据源注册配置文件中。
3.根据权利要求2所述的数据湖与关系型数据库互联的方法,其特征在于,步骤S2中,通过以下方式匹配使用关系型数据库的数据源类:
S21.数据湖通过接口参数传递关系型数据库的数据源类的标识名称;
S22.通过步骤S21中的标识名称与数据源注册配置文件中的数据源类的标识名称进行匹配;
S23.使用标识名称匹配上的数据源类。
4.根据权利要求3所述的数据湖与关系型数据库互联的方法,其特征在于,步骤S3中,根据关系型数据库的数据源类匹配到关系型数据库配置文件,所述的关系型数据库配置文件中存储有各种关系型数据库的基础信息,数据湖根据当前使用的关系型数据库的基础信息确定并加载相应驱动以与当前关系型数据库进行连接。
5.根据权利要求4所述的数据湖与关系型数据库互联的方法,其特征在于,各关系型数据库的基础信息包括相应关系型数据库的数据库名称;
步骤S3中,通过传递数据库名称在数据库配置文件中读取相应关系型数据库的基础信息。
6.根据权利要求5所述的数据湖与关系型数据库互联的方法,其特征在于,每种关系型数据库对应有一个或多个数据库实例,关系型数据库配置文件中存储有各种数据库实例的基础信息;
各数据库实例的基础信息包括相应数据库实例的实例名称,且所述实例名称包含相应数据库实例所属关系型数据库的数据库名称;
步骤S3中,通过传递实例名称在数据库配置文件中读取相应数据库实例的基础信息并获取相应的数据库实例。
7.根据权利要求5-6任意一项所述的数据湖与关系型数据库互联的方法,其特征在于,所述的基础信息包括驱动名称,步骤S3中,根据基础信息中的驱动名称确定并加载相应驱动。
8.根据权利要求7所述的数据湖与关系型数据库互联的方法,其特征在于,所述的数据湖具有驱动包目录,用于存放各种关系型数据库的驱动包并记录有驱动包与驱动名称的对应关系;
步骤S3中,根据驱动名称通过传参方式匹配到驱动包目录中的驱动包后加载该驱动包,进而连接到相应的数据库实例。
9.根据权利要求8所述的数据湖与关系型数据库互联的方法,其特征在于,所述的数据湖还包括数据字段类型转换配置文件,入湖时,将数据库实例的待入湖数据先转换为相应的JDBC类型,然后通过数据字段类型转换配置文件将JDBC类型转换为数据湖的字段类型;出湖时,将数据湖的待出湖数据通过数据字段类型转换配置文件转换为相应的JDBC类型,然后将JDBC类型转换为相应数据库实例的字段类型。
10.根据权利要求8所述的数据湖与关系型数据库互联的方法,其特征在于,数据湖启动状态下检测到关系型数据库配置文件的修改信息时,锁定当前配置信息用于本次数据读写,并在下次执行数据读写时切换使用修改后的配置信息。
CN202210029283.7A 2022-01-12 2022-01-12 一种数据湖与关系型数据库互联的方法 Active CN114048260B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210029283.7A CN114048260B (zh) 2022-01-12 2022-01-12 一种数据湖与关系型数据库互联的方法
NL2033754A NL2033754B1 (en) 2022-01-12 2022-12-19 Method for interconnecting data lake and relational database
US18/086,253 US11914609B2 (en) 2022-01-12 2022-12-21 Method for interconnecting data lake and relational database

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210029283.7A CN114048260B (zh) 2022-01-12 2022-01-12 一种数据湖与关系型数据库互联的方法

Publications (2)

Publication Number Publication Date
CN114048260A true CN114048260A (zh) 2022-02-15
CN114048260B CN114048260B (zh) 2022-09-09

Family

ID=80196337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210029283.7A Active CN114048260B (zh) 2022-01-12 2022-01-12 一种数据湖与关系型数据库互联的方法

Country Status (3)

Country Link
US (1) US11914609B2 (zh)
CN (1) CN114048260B (zh)
NL (1) NL2033754B1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11914609B2 (en) 2022-01-12 2024-02-27 Nanhu Laboratory Method for interconnecting data lake and relational database

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357831A (zh) * 2017-06-21 2017-11-17 信雅达系统工程股份有限公司 可配置的流程实例数据分布式存储方法及系统
US20200026709A1 (en) * 2018-07-19 2020-01-23 Oracle International Corporation System and method for real time data aggregation in a virtual cube in a multidimensional database environment
CN110941612A (zh) * 2019-11-19 2020-03-31 上海交通大学 基于关联数据的自治数据湖构建系统及方法
CN111221791A (zh) * 2018-11-27 2020-06-02 中云开源数据技术(上海)有限公司 一种多源异构数据导入数据湖的方法
CN111679871A (zh) * 2020-08-11 2020-09-18 上海冰鉴信息科技有限公司 数据库驱动加载方法及数据库驱动加载装置
CN112654977A (zh) * 2018-07-19 2021-04-13 起元技术有限责任公司 发布到数据仓库
CN112883091A (zh) * 2021-01-12 2021-06-01 平安资产管理有限责任公司 因子数据获取方法、装置、计算机设备和存储介质
US20210232538A1 (en) * 2020-01-27 2021-07-29 Bank Of America Corporation Snapshot load framework

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10346358B2 (en) * 2014-06-04 2019-07-09 Waterline Data Science, Inc. Systems and methods for management of data platforms
CN108713205B (zh) * 2016-08-22 2022-11-11 甲骨文国际公司 用于自动映射与数据流环境一起使用的数据类型的系统和方法
US10810224B2 (en) * 2018-06-27 2020-10-20 International Business Machines Corporation Computerized methods and programs for ingesting data from a relational database into a data lake
US10706045B1 (en) * 2019-02-11 2020-07-07 Innovaccer Inc. Natural language querying of a data lake using contextualized knowledge bases
JP7218451B2 (ja) * 2020-11-25 2023-02-06 株式会社日立製作所 タグドメイン提示装置およびタグドメイン提示方法、およびそれを用いた情報処理システム
US11741119B2 (en) * 2021-01-26 2023-08-29 Salesforce, Inc. Canonical data model for distributed data catalog and metadata exchange
US20220382852A1 (en) * 2021-06-01 2022-12-01 Promethium, Inc. Modifying data pipeline based on services executing across multiple trusted domains
US11818012B2 (en) * 2021-11-26 2023-11-14 Amazon Technologies, Inc. Online restore to different topologies with custom data distribution
US11727003B2 (en) * 2021-11-26 2023-08-15 Amazon Technologies, Inc. Scaling query processing resources for efficient utilization and performance
CN114048260B (zh) 2022-01-12 2022-09-09 南湖实验室 一种数据湖与关系型数据库互联的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357831A (zh) * 2017-06-21 2017-11-17 信雅达系统工程股份有限公司 可配置的流程实例数据分布式存储方法及系统
US20200026709A1 (en) * 2018-07-19 2020-01-23 Oracle International Corporation System and method for real time data aggregation in a virtual cube in a multidimensional database environment
CN112654977A (zh) * 2018-07-19 2021-04-13 起元技术有限责任公司 发布到数据仓库
CN111221791A (zh) * 2018-11-27 2020-06-02 中云开源数据技术(上海)有限公司 一种多源异构数据导入数据湖的方法
CN110941612A (zh) * 2019-11-19 2020-03-31 上海交通大学 基于关联数据的自治数据湖构建系统及方法
US20210232538A1 (en) * 2020-01-27 2021-07-29 Bank Of America Corporation Snapshot load framework
CN111679871A (zh) * 2020-08-11 2020-09-18 上海冰鉴信息科技有限公司 数据库驱动加载方法及数据库驱动加载装置
CN112883091A (zh) * 2021-01-12 2021-06-01 平安资产管理有限责任公司 因子数据获取方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨欢耸: ""JDBC连接数据库"", 《JAVA基础与开发》 *
葛萌等: ""改进JDBC框架的研究与应用"", 《计算机系统应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11914609B2 (en) 2022-01-12 2024-02-27 Nanhu Laboratory Method for interconnecting data lake and relational database

Also Published As

Publication number Publication date
NL2033754B1 (en) 2024-01-08
CN114048260B (zh) 2022-09-09
NL2033754A (en) 2023-07-19
US20230222138A1 (en) 2023-07-13
US11914609B2 (en) 2024-02-27

Similar Documents

Publication Publication Date Title
US10528555B2 (en) Data management system and method to host applications and manage storage, finding and retrieval of typed items with support for tagging, connections, and situated queries
US8311998B2 (en) System and methods for facilitating a linear grid database with data organization by dimension
US8635634B2 (en) Seamless multiple format metadata abstraction
EP1643384B1 (en) Query forced indexing
JP7018516B2 (ja) データクエリ
US20070136396A1 (en) Apparatus, system, and method for synchronizing change histories in enterprise applications
US20060036580A1 (en) Systems and methods for updating query results based on query deltas
CN103164507A (zh) 行与列数据库表在原生方向上的混合联接
US8661019B2 (en) Join algorithms over full text indexes
CN104239572A (zh) 基于分布式缓存实现元数据分析的系统及方法
WO2010042238A1 (en) System and method for data warehousing and analytics on a distributed file system
JP2006107446A (ja) ネットワーク・ドキュメントのバッチ索引付けのためのシステムおよび方法
US10120916B2 (en) In-querying data cleansing with semantic standardization
CN114048260B (zh) 一种数据湖与关系型数据库互联的方法
US8805820B1 (en) Systems and methods for facilitating searches involving multiple indexes
Manolescu et al. Efficient querying of distributed resources in mediator systems
Engle et al. The Case for NoSQL on a Single Desktop
JP2001067369A (ja) 情報検索システム、情報検索方法および情報検索用プログラムを記録した記録媒体
Plattner et al. In-memory data and process management
CN115794965A (zh) 一种数据管理系统及方法
Borrie et al. Introduction to Client/Server Architecture
JP2004046906A (ja) 情報検索システム、情報検索方法および情報検索用プログラムを記録した記録媒体
JP2011186853A (ja) データ処理装置及びシステム及び方法及びプログラム
Wei et al. Service-Oriented Aggregation of Distributed and Heterogeneous Information Resources
Huang et al. A Spatial Metadata Service System Based on Z39. 50 Protocol

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 314000 Building 29, Xianghu villa, Qixing street, Nanhu District, Jiaxing City, Zhejiang Province

Applicant after: Nanhu Laboratory

Applicant after: Beijing big data advanced technology Research Institute

Address before: 314000 Building 29, Xianghu villa, Qixing street, Nanhu District, Huzhou City, Zhejiang Province

Applicant before: Nanhu Laboratory

Applicant before: Beijing big data advanced technology Research Institute

GR01 Patent grant
GR01 Patent grant