CN116483909A - 一种大数据集成系统 - Google Patents
一种大数据集成系统 Download PDFInfo
- Publication number
- CN116483909A CN116483909A CN202310557583.7A CN202310557583A CN116483909A CN 116483909 A CN116483909 A CN 116483909A CN 202310557583 A CN202310557583 A CN 202310557583A CN 116483909 A CN116483909 A CN 116483909A
- Authority
- CN
- China
- Prior art keywords
- data
- protocol
- module
- layer
- engine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010354 integration Effects 0.000 title claims abstract description 56
- 238000012545 processing Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 4
- 230000003139 buffering effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000002085 persistent effect Effects 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 14
- 238000007726 management method Methods 0.000 description 31
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000004806 packaging method and process Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种大数据集成系统。所述方法包括:包括:数据源管理单元、协议管理单元以及引擎单元;所述数据源管理单元,用于利用协议对数据源进行增加、删除、查询和修改;所述协议管理单元,用于管理内置的协议;所述引擎单元,用于将所述协议相关的数据转为执行的逻辑,且启动数据集成任务。通过实施本发明实施例的系统可实现支持多种数据集成方式,支持多种同步方式。
Description
技术领域
本发明涉及数据集成系统,更具体地说是指一种大数据集成系统。
背景技术
大数据从业人员使用大数据平台的时候,会进行数据采集,根据业务系统所使用的数据库或接口协议,进行离线或实时的数据采集集成,数据集成后会进行其他etl(数据仓库技术,Extract-Transform-Load)操作;现有技术的大数据平台数据服务系统更多是离线采集数据,且只支持数据源连接方式进行采集,这样导致的结果是如果有实时需求,则现在采集系统无法满足需求,并且现有技术更多是jdbc技术连接数据源,不支持restful或webService协议进行数据采集。
综上所述,现有的系统的目前较多厂商的数据服务模块只能构建jdbc连接数据源,然后进行同步,协议模式单一;目前数据集成更多是离线数据集成,不支持实时数据集成,同步方式单一。
因此,有必要设计一种新系统,实现支持多种数据集成方式,支持多种同步方式。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种大数据集成系统。
为实现上述目的,本发明采用以下技术方案:一种大数据集成系统,包括:数据源管理单元、协议管理单元以及引擎单元;
所述数据源管理单元,用于利用协议对数据源进行增加、删除、查询和修改;
所述协议管理单元,用于管理内置的协议;
所述引擎单元,用于将所述协议相关的数据转为执行的逻辑,且启动数据集成任务;
所述协议包括Restful协议、webService协议、MQ协议、JDBC协议,所述协议对应后端框架中映射的一种Javabean类,所有协议的具体参数值统一存储在mysql数据库的协议表中;
所述引擎单元包括spring引擎、DataX引擎以及Flink引擎;
所述spring引擎,用于将Restful协议和WebService协议进行转换并启动集成任务;
所述DataX引擎,用于异构数据源离线同步;
所述Flink引擎,用于数据分发以及并行化计算。
其进一步技术方案为:所述数据源管理单元,用于在前端界面通过组装json参数,形成json报文,Restful协议将json报文传递给后端,后端使用springboot框架,持久层使用springdataJPA框架根据所述json报文对mysql中的数据源表中的数据源进行记录的增加、删除、查询和修改。
其进一步技术方案为:所述spring引擎包括显示层、控制层、业务层以及数据层;
所述控制层,用于处理用户发送的请求;
所述业务层,用于实现业务逻辑;
所述数据层,用于访问数据库以进行数据操作;
所述显示层,用于显示数据。
其进一步技术方案为:所述控制层,用于接收Restful接口,使用函数注解引入业务接口,引入的业务接口交由springIOC进行生命周期的管理。
其进一步技术方案为:所述业务层调用数据层或者控制层,返回数据对象DO或者业务对象BO。
其进一步技术方案为:所述数据层,用于访问数据库进行数据的操作,以取得结果集,将结果集中的数据取出封装到VO类对象之后返回给业务层。
其进一步技术方案为:所述DataX引擎,包括:数据采集模块、数据写入模块以及连接模块;
所述数据采集模块,用于采集数据源的数据,将数据发送给连接模块;
所述数据写入模块,用于向所述连接模块取数据,并将数据写入到目的端;
所述连接模块,用于连接数据采集模块以及数据写入模块,作为数据采集模块和数据写入模块的数据传输通道,并处理缓冲、流控、并发以及数据转换内容。
其进一步技术方案为:所述Flink引擎包括:业务模块、任务执行模块以及任务管理模块;
所述业务模块,用于给终端提供向Flink系统提交用户任务的功能;
所述任务执行模块,用于作为业务执行节点,执行具体的用户任务;
所述任务管理模块,用于作为管理节点,管理所有的所述任务执行模块,并决策用户任务在对应的任务执行模块中执行。
本发明与现有技术相比的有益效果是:本发明通过设置数据源管理单元、协议管理单元以及引擎单元,系统内置多种协议,包括Restful协议、webService协议、MQ协议、JDBC协议,设置多种不同类型的引擎,对数据进行不同形式的处理,实现支持多种数据集成方式,支持多种同步方式。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种大数据集成系统的应用场景示意图;
图2为本发明实施例提供的一种大数据集成系统的示意性框图;
图3为本发明实施例提供的一种大数据集成系统的spring引擎的示意性框图;
图4为本发明实施例提供的一种大数据集成系统的Datax引擎的目标的示意性框图;
图5为本发明实施例提供的一种大数据集成系统的Datax引擎的示意性框图;
图6为本发明实施例提供的一种大数据集成系统的Datax引擎的核心架构的示意性框图;
图7为本发明实施例提供的一种大数据集成系统的Flink引擎的技术栈的示意性框图;
图8为本发明实施例提供的一种大数据集成系统的Flink引擎的示意性框图;
图9为本发明实施例提供的一种大数据集成系统的Flink引擎数据集成的总体架构示意图;
图10为本发明实施例提供的一种大数据集成系统的上下游交互系统框架的示意图;
图11为本发明实施例提供的一种大数据集成系统的设计框架的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1为本发明实施例提供的一种大数据集成系统100的应用场景示意图。图2为本发明实施例提供的一种大数据集成系统100的示意性框图。该大数据集成系统100应用于服务器中。该服务器与终端进行数据交互,该系统完全封装底层技术实现,兼容多种协议模式,支持RESTFUL、webService、MQ(MessageQueue)消息队列,支持多类数据源,支持流批一体的数据集成。
图2是本发明实施例提供的一种大数据集成系统100的示意性框图,该系统可以应用于服务器中。具体地,请参阅图2,该一种大数据集成系统100,包括:数据源管理单元101、协议管理单元102以及引擎单元103;
数据源管理单元101,用于利用协议对数据源进行增加、删除、查询和修改;
协议管理单元102,用于管理内置的协议;
引擎单元103,用于将协议相关的数据转为执行的逻辑,且启动数据集成任务。
在一实施例中,上述的数据源管理单元101,用于在前端界面通过组装json参数,形成json报文,Restful协议将json报文传递给后端,后端使用springboot框架,持久层使用springdataJPA框架根据json报文对mysql中的数据源表中的数据源进行记录的增加、删除、查询和修改。
在一实施例中,上述的协议包括Restful协议、webService协议、MQ(MessageQueue)协议、JDBC协议,协议对应后端框架中映射的一种Javabean类,所有协议的具体参数值统一存储在mysql数据库的协议表中。
每种协议对应所需的参数如下:
Restful协议:请求地址url、请求方法method(例如GET、POST、PUT、PATCH、DELETE、HEAD)、请求body体、headers头信息;
WebService协议:WSDL地址;
MQ(MessageQueue)消息队列协议如表1所示。
表1.MQ协议的参数
参数 | 数据类型 | 描述 | 是否必填 |
集群地址 | string | ApacheKafka集群地址,配置的格式:ip:port,ip:port | 是 |
集群Kafka版本 | enum | 选择Kafka集群的版本号 | 否 |
SASL(Simple Authentication andSecurityLayer)安全认证模式 | enum | 选择连接到Kafka集群时的安全认证模式 | 否 |
SASL(Simple Authentication andSecurityLayer)用户名 | string | SASL/Plain和SASL/SCRAM安全认证模式下的用户名 | 否 |
SASL(Simple Authentication andSecurityLayer)密码 | string | SASL/Plain和SASL/SCRAM安全认证模式下的密码 | 否 |
SASL(Simple Authentication andSecurityLayer)/SCRAM(SaltedChallengeResponseAuthentication Mechanism)加密类型 | enum | SASL/SCRAM安全认证模式下的加密类型 | 否 |
使能TLS(Transport LayerSecurity)安全传输协议 | bool | 是否使用TLS加密和Kafka集群间的连接 | 否 |
TLS(Transport Layer Security)客户端证书 | file | 可选,使用提供的证书对连接进行加密,仅当使能TLS安全传输协议设置为True才可配置 | 否 |
TLS(Transport Layer Security)客户端Key | file | 可选,使用提供的证书对连接进行加密,需和客户端证书同时提供,仅当使能TLS安全传输协议设置为True才可配置 | 否 |
JDBC协议:常用连接参数如表2所示。
表2.JDBC协议的常用连接参数
参数名称 | 参数说明 | 缺省值 |
user | 数据库用户名(用于连接数据库) | |
password | 用户密码(用于连接数据库) | |
useUnicode | 是否使用Unicode字符集,如果参数characterEncoding设置为gb2312或gbk,本参数值必须设置为true | false |
characterEncoding | 当useUnicode设置为true时,指定字符编码。比如可设置为gb2312或gbk | false |
autoReconnect | 当数据库连接异常中断时,是否自动重新连接? | false |
autoReconnectForPools | 是否使用针对数据库连接池的重连策略 | false |
failOverReadOnly | 自动重连成功后,连接是否设置为只读 | true |
maxReconnects | autoReconnect设置为true时,重试连接的次数 | 3 |
initialTimeout | autoReconnect设置为true时,两次重连之间的时间间隔,单位:秒 | 2 |
connectTimeout | 和数据库服务器建立socket连接时的超时,单位:毫秒。0表示永不超时,适用于JDK1.4及更高版本 | 0 |
socketTimeout | socket操作(读写)超时,单位:毫秒。0表示永不超时 | 0 |
JDBCURL连接参数表如表3.1~3.8所示。
表3.1JDBCURL连接参数表
表3.2JDBCURL连接参数表
表3.3JDBCURL连接参数表
表3.4JDBCURL连接参数表
表3.5JDBCURL连接参数表
表3.6JDBCURL连接参数表
表3.7JDBCURL连接参数表
表3.8JDBCURL连接参数表
在一实施例中,请参阅图2,上述的引擎单元103包括spring引擎、DataX引擎以及Flink引擎;
spring引擎,用于将Restful协议和WebService协议进行转换并启动集成任务;spring引擎负责将Restful协议和WebService协议进行转换并启动集成任务。spring中controller层即控制层负责接收Restful接口,controller层中使用Resource注解引入service接口即业务层,引入的service接口会在交由springIOC进行生命周期的管理。同时service接口会有一个具体的实现类,该实现类中进行具体业务的计算处理。其次service的实现类中还会有springdataxJPA构建的JpaRepository,该JpaRepository作为连接持久层Mysql的DAO层即数据层。所有涉及到与底层mysql进行增删改查的动作都由JpaRepository负责处理。
DataX引擎,用于异构数据源离线同步;
Flink引擎,用于数据分发以及并行化计算。
在一实施例中,请参阅图3,上述的spring引擎包括显示层、控制层、业务层以及数据层;
控制层,用于处理用户发送的请求;
业务层,用于实现业务逻辑;
数据层,用于访问数据库以进行数据操作;
显示层,用于显示数据。
控制层,用于接收Restful接口,使用函数注解引入业务接口,引入的业务接口交由springIOC进行生命周期的管理。具体地,控制层主要的功能是处理用户发送的请求。主要处理外部请求。调用service层即业务层,将service层返回的BO/DO转化为DTO/VO并封装成统一返回对象返回给调用方。如果返回数据用于前端模版渲染则返回VO,否则一般返回DTO。不论是DTO还是VO,一般都会对BO/DO中的数据进行一些转化和整合,比如将gender属性中的0转化“男”,1转化为“女”等。控制层的功能主要有5点:参数校验、调用service层接口实现业务逻辑、转换业务/数据对象、组装返回对象、异常处理。
业务层调用数据层或者控制层,返回数据对象DO或者业务对象BO。BO通常由DO转化、整合而来,可以包含多个DO的属性,也可以是只包含一个DO的部分属性。通常为了简便,如果无需转化,service也可以直接返回DO。外部调用(HTTP、RPC)方法也在这一层,对于外部调用来说,service一般会将外部调用返回的DTO转化为BO。是专注业务逻辑,对于其中需要的数据库操作,都通过Dao去实现。主要去负责一些业务处理,比如取得连接、关闭数据库连接、事务回滚,一些复杂的逻辑业务处理就放到service层。
数据层,用于访问数据库进行数据的操作,以取得结果集,将结果集中的数据取出封装到VO类对象之后返回给业务层。具体地,数据层负责访问数据库进行数据的操作,取得结果集,之后将结果集中的数据取出封装到VO类对象之后返回给service层。数据层直接进行数据库的读写操作,返回数据对象DO,DO与数据库表一一对应。Dao层的作用是封装对数据库的访问:增删改查,不涉及业务逻辑,只是达到按某个条件获得指定数据的要求。
在一实施例中,上述的DataX引擎,包括:数据采集模块、数据写入模块以及连接模块;
数据采集模块,用于采集数据源的数据,将数据发送给连接模块;
数据写入模块,用于向连接模块取数据,并将数据写入到目的端;
连接模块,用于连接数据采集模块以及数据写入模块,作为数据采集模块和数据写入模块的数据传输通道,并处理缓冲、流控、并发以及数据转换内容。
具体地,DataX引擎是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。DataX引擎本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上DataX框架可以支持任意数据源类型的数据同步工作。同时DataX插件体系作为一套生态系统,每接入一套新数据源该新加入的数据源即可实现和现有的数据源互通。DataX目标如图4所示;Datax的框架设计如图5所示,DataX本身作为离线数据同步框架,采用Framework+plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中。
在DataX引擎中,数据采集模块负责采集数据源的数据,将数据发送给连接层。数据写入模块负责不断向连接层取数据,并将数据写入到目的端。连接层用于连接数据采集模块和数据写入模块,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。
Datax引擎目前支持的数据源类型如下表4所示。
表4.Datax引擎目前支持的数据源类型
在一实施例中,请参阅图6,DataX引擎完成单个数据同步的作业,称之为Job,DataX引擎接受到一个Job之后,将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点,承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。
DataXJob启动后,会根据不同的源端切分策略,将Job切分成多个小的Task(子任务),以便于并发执行。Task便是DataX作业的最小单元,每一个Task都会负责一部分数据的同步工作。切分多个Task之后,DataX Job会调用Scheduler模块,根据配置的并发数据量,将拆分成的Task重新组合,组装成TaskGroup(任务组)。每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task,默认单个任务组的并发数量为5。每一个Task都由TaskGroup负责启动,Task启动后,会固定启动Reader—>Channel—>Writer的线程来完成任务同步工作。DataX作业运行起来之后,Job监控并等待多个TaskGroup模块任务完成,等待所有TaskGroup任务完成后Job成功退出。否则,异常退出,进程退出值非0。
在一实施例中,上述的Flink引擎包括:业务模块、任务执行模块以及任务管理模块;
业务模块,用于给终端提供向Flink系统提交用户任务的功能;
任务执行模块,用于作为业务执行节点,执行具体的用户任务;
任务管理模块,用于作为管理节点,管理所有的任务执行模块,并决策用户任务在对应的任务执行模块中执行。
Flink引擎是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。Flink引擎最适合的应用场景是低时延的数据处理(Data Processing)场景:高并发pipeline处理数据,时延毫秒级,且兼具可靠性。Flink技术栈如图7所示。Flink的结构如图8所示;Flink整个系统包含三个部分:业务模块Client:Flink Client主要给用户提供向Flink系统提交用户任务(流式作业)的能力。任务执行模块TaskManager:Flink系统的业务执行节点,执行具体的用户任务。TaskManager可以有多个,各个TaskManager都平等。任务管理模块JobManager:Flink系统的管理节点,管理所有的TaskManager,并决策用户任务在哪些Taskmanager执行。JobManager在HA模式下可以有多个,但只有一个主JobManager。
请参阅图9,核心逻辑都跑在Flink Application 中,Flink Application 会在适当的时间调度三种作业:Batch Job、Stream Job、Schema Job。
从Flink SQL中会解析出三张表,Source Table 是上图最左边源数据系统中的表,Sink Table 是右边的目标数据系统中的表,Middle Table是下方的长条,代表的是包含源表CDC事件的Topic。此外还有一个叫做 Application State Backend 的概念,主要用来记录 Flink Job 的执行情况。
在一实施例中,请参阅图10,本发明的大数据集成系统100的整体上下游交互系统的数据中台分为7个大模块,左边是调度平台,邮编是监控管理。最下面是资源管理、依次往上是数据管理、数据开发平台、数据集成平台、数安全平台;
请参阅图11,从上到下分为三层,最上面是采集器管理层,主要负责各类采集器的agent代理、source数据源配置,目标sink配置。中间是数据管道管理,可以进行Restful协议的配置、webService协议配置、MQ消息队列配置以及传统的jdbc配置。最下面一层是具体的流批数据采集引擎,其中离线数据采集使用datax引擎,实时数据采集采用flink引擎;
本实施例的系统具备:统一界面化的配置管理;数据集成模式多样(离线采集与实时采集);数据服务对外提供的协议方式多(RESTFUL、webService、MQ);技术栈统一(本发明为java语言开发),底层可以对接多种语言。
上述的大数据集成系统100,通过设置数据源管理单元101、协议管理单元102以及引擎单元103,系统内置多种协议,包括Restful协议、webService协议、MQ协议、JDBC协议,设置多种不同类型的引擎,对数据进行不同形式的处理,实现支持多种数据集成方式,支持多种同步方式。
本发明实施例系统中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种大数据集成系统,其特征在于,包括:数据源管理单元、协议管理单元以及引擎单元;
所述数据源管理单元,用于利用协议对数据源进行增加、删除、查询和修改;
所述协议管理单元,用于管理内置的协议;
所述引擎单元,用于将所述协议相关的数据转为执行的逻辑,且启动数据集成任务;
所述协议包括Restful协议、webService协议、MQ协议、JDBC协议,所述协议对应后端框架中映射的一种Javabean类,所有协议的具体参数值统一存储在mysql数据库的协议表中;
所述引擎单元包括spring引擎、DataX引擎以及Flink引擎;
所述spring引擎,用于将Restful协议和WebService协议进行转换并启动集成任务;
所述DataX引擎,用于异构数据源离线同步;
所述Flink引擎,用于数据分发以及并行化计算。
2.根据权利要求1所述的一种大数据集成系统,其特征在于,所述数据源管理单元,用于在前端界面通过组装json参数,形成json报文,Restful协议将json报文传递给后端,后端使用springboot框架,持久层使用springdataJPA框架根据所述json报文对mysql中的数据源表中的数据源进行记录的增加、删除、查询和修改。
3.根据权利要求2所述的一种大数据集成系统,其特征在于,所述spring引擎包括显示层、控制层、业务层以及数据层;
所述控制层,用于处理用户发送的请求;
所述业务层,用于实现业务逻辑;
所述数据层,用于访问数据库以进行数据操作;
所述显示层,用于显示数据。
4.根据权利要求3所述的一种大数据集成系统,其特征在于,所述控制层,用于接收Restful接口,使用函数注解引入业务接口,引入的业务接口交由springIOC进行生命周期的管理。
5.根据权利要求4所述的一种大数据集成系统,其特征在于,所述业务层调用数据层或者控制层,返回数据对象DO或者业务对象BO。
6.根据权利要求5所述的一种大数据集成系统,其特征在于,所述数据层,用于访问数据库进行数据的操作,以取得结果集,将结果集中的数据取出封装到VO类对象之后返回给业务层。
7.根据权利要求3所述的一种大数据集成系统,其特征在于,所述DataX引擎,包括:数据采集模块、数据写入模块以及连接模块;
所述数据采集模块,用于采集数据源的数据,将数据发送给连接模块;
所述数据写入模块,用于向所述连接模块取数据,并将数据写入到目的端;
所述连接模块,用于连接数据采集模块以及数据写入模块,作为数据采集模块和数据写入模块的数据传输通道,并处理缓冲、流控、并发以及数据转换内容。
8.根据权利要求3所述的一种大数据集成系统,其特征在于,所述Flink引擎包括:业务模块、任务执行模块以及任务管理模块;
所述业务模块,用于给终端提供向Flink系统提交用户任务的功能;
所述任务执行模块,用于作为业务执行节点,执行具体的用户任务;
所述任务管理模块,用于作为管理节点,管理所有的所述任务执行模块,并决策用户任务在对应的任务执行模块中执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310557583.7A CN116483909A (zh) | 2023-05-17 | 2023-05-17 | 一种大数据集成系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310557583.7A CN116483909A (zh) | 2023-05-17 | 2023-05-17 | 一种大数据集成系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116483909A true CN116483909A (zh) | 2023-07-25 |
Family
ID=87226985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310557583.7A Pending CN116483909A (zh) | 2023-05-17 | 2023-05-17 | 一种大数据集成系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116483909A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052673A (zh) * | 2017-12-29 | 2018-05-18 | 中国电子科技集团公司信息科学研究院 | 一种物联网数据集成与融合中间件系统 |
CN111917887A (zh) * | 2020-08-17 | 2020-11-10 | 普元信息技术股份有限公司 | 大数据环境下实现数据治理的系统 |
CN112632135A (zh) * | 2020-11-18 | 2021-04-09 | 北京天源迪科信息技术有限公司 | 一种大数据平台 |
CN112862337A (zh) * | 2021-02-23 | 2021-05-28 | 广东电网有限责任公司 | 一种数据可视化平台管理系统 |
CN112925660A (zh) * | 2021-02-26 | 2021-06-08 | 重庆斯欧智能科技研究院有限公司 | 一种工业互联的信息交互系统 |
CN113342826A (zh) * | 2021-07-01 | 2021-09-03 | 广东电网有限责任公司 | 一种对不同数据采集引擎的数据操作进行统一管理的方法、存储介质及系统 |
CN114691766A (zh) * | 2020-12-30 | 2022-07-01 | 北京国双科技有限公司 | 数据采集方法、装置及电子设备 |
CN114791931A (zh) * | 2021-01-26 | 2022-07-26 | 北京资采信息技术有限公司 | 一种基于datax的数据治理方法 |
CN115665197A (zh) * | 2022-10-19 | 2023-01-31 | 成都数智索信息技术有限公司 | 一种基于物联网数据采集自动入库的系统及方法 |
-
2023
- 2023-05-17 CN CN202310557583.7A patent/CN116483909A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052673A (zh) * | 2017-12-29 | 2018-05-18 | 中国电子科技集团公司信息科学研究院 | 一种物联网数据集成与融合中间件系统 |
CN111917887A (zh) * | 2020-08-17 | 2020-11-10 | 普元信息技术股份有限公司 | 大数据环境下实现数据治理的系统 |
CN112632135A (zh) * | 2020-11-18 | 2021-04-09 | 北京天源迪科信息技术有限公司 | 一种大数据平台 |
CN114691766A (zh) * | 2020-12-30 | 2022-07-01 | 北京国双科技有限公司 | 数据采集方法、装置及电子设备 |
CN114791931A (zh) * | 2021-01-26 | 2022-07-26 | 北京资采信息技术有限公司 | 一种基于datax的数据治理方法 |
CN112862337A (zh) * | 2021-02-23 | 2021-05-28 | 广东电网有限责任公司 | 一种数据可视化平台管理系统 |
CN112925660A (zh) * | 2021-02-26 | 2021-06-08 | 重庆斯欧智能科技研究院有限公司 | 一种工业互联的信息交互系统 |
CN113342826A (zh) * | 2021-07-01 | 2021-09-03 | 广东电网有限责任公司 | 一种对不同数据采集引擎的数据操作进行统一管理的方法、存储介质及系统 |
CN115665197A (zh) * | 2022-10-19 | 2023-01-31 | 成都数智索信息技术有限公司 | 一种基于物联网数据采集自动入库的系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492040B (zh) | 一种适用于数据中心海量短报文数据处理的系统 | |
CN106131213B (zh) | 一种服务管理方法和系统 | |
CN100531055C (zh) | 数据同步系统及其方法 | |
Fu et al. | A fair comparison of message queuing systems | |
US20040068479A1 (en) | Exploiting asynchronous access to database operations | |
CN111930529B (zh) | 基于消息队列及微服务的数据同步方法、装置及系统 | |
CN111381983B (zh) | 虚拟试验靶场验证系统的轻量级消息中间件系统及方法 | |
WO2011130940A1 (zh) | 多业务统一处理方法及统一业务平台 | |
CN111641676B (zh) | 一种第三方云监控服务的构建方法及装置 | |
JP5479709B2 (ja) | データを処理するためのサーバ‐プロセッサ・ハイブリッド・システムおよび方法 | |
CN101808051B (zh) | 应用整合网关及其控制方法 | |
CN110581893B (zh) | 数据传输方法、装置、路由设备、服务器及存储介质 | |
CN104468299A (zh) | 基于用户规则的企业服务总线系统 | |
CN113468221A (zh) | 一种基于kafka消息数据总线的系统集成方法 | |
CN114710571B (zh) | 数据包处理系统 | |
CN112866421A (zh) | 基于分布式缓存以及nsq的智能合约运行方法及装置 | |
WO2022156542A1 (zh) | 数据访问方法、系统和存储介质 | |
US20090132582A1 (en) | Processor-server hybrid system for processing data | |
CN107451301B (zh) | 实时投递账单邮件的处理方法、装置、设备和存储介质 | |
WO2021093671A1 (zh) | 任务处理方法、系统、装置、设备及计算机可读存储介质 | |
CN116483909A (zh) | 一种大数据集成系统 | |
CN114371935A (zh) | 网关处理方法、网关、设备及介质 | |
CN111294383B (zh) | 物联网服务管理系统 | |
CN113641472A (zh) | 分布式应用的异转同实现方法及装置 | |
CN107330089B (zh) | 跨网络结构化数据收集系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |