CN105631053B - 用于数据库的数据集成分发方法和数据集成分发装置 - Google Patents
用于数据库的数据集成分发方法和数据集成分发装置 Download PDFInfo
- Publication number
- CN105631053B CN105631053B CN201610135292.9A CN201610135292A CN105631053B CN 105631053 B CN105631053 B CN 105631053B CN 201610135292 A CN201610135292 A CN 201610135292A CN 105631053 B CN105631053 B CN 105631053B
- Authority
- CN
- China
- Prior art keywords
- data
- data integration
- distribution
- distribution device
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000009826 distribution Methods 0.000 title claims abstract description 97
- 230000010354 integration Effects 0.000 title claims abstract description 93
- 238000000034 method Methods 0.000 title claims abstract description 29
- 239000007787 solid Substances 0.000 claims abstract description 9
- 230000002776 aggregation Effects 0.000 claims description 11
- 238000004220 aggregation Methods 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 3
- 230000032683 aging Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种用于数据库的数据集成分发方法,包括连接、识别并定位数据源计算机的数据库实例;获取数据源计算机的数据源和操作记录;将数据源和操作记录存储到自身的集成式数据库;将数据源和操作记录发送到目标计算机;目标计算机接受数据并执行操作,数据集成分发完成;本发明还提供了承载所述方法的数据集成分发装置,包括主板、CPU、内存、机械硬盘、网络接口、输入设备、输出设备和NGFF接口的固态硬盘;固态硬盘通过NGFF接口与主板连接,作为数据集成分发装置的快速存储器。本发明不需要数据源和目标计算机安装任何软件或代理程序,因此集成分发速率快、数据安全性好、不占用数据源和目标计算机系统任何硬、软件资源。
Description
技术领域
本发明属于计算机通信领域,具体涉及一种用于数据库的数据集成分发方法和数据集成分发装置。
背景技术
随着国家经济技术的发展和人们生活水平的提高,通过数据的共享、利用数据库的数据集成和分发技术已经应用到信息与通信领域的各个方面,成为了人们日常生活中必不可少的部分。
目前,现有的在各行业内的应用计算机系统拥有多种数据源,数据源的分布位于不同应用环境且彼此独立运行,数据源采用的数据库软件基础平台也各式各样,既有应用于结构化的数据库,也有应用于非结构化数据GIS信息的数据库,还有应用于MPP并行调度任务的分布式数据库;这些数据源在生产运行过程中会产生各种数据集成与分发需求,有的需求需要跨多个数据源之间进行数据归集、汇总、复杂查询等。
在计算机技术还没有高度发展时,一般采用人工的方法进行数据的分发:使用人将需要分发的数据在数据源计算机中的数据库进行查询、复制和导出,然后采用移动存储器等方式将数据人工带到目标计算机上,再在目标计算机上操作数据库进行数据的复制、导入和更新。如此的数据分发方法,不仅费时费力,而且数据安全性能极差,极易引起关键数据的错误、数据的丢失或者数据的同步滞后导致数据不完整,信息不一致。
现在,已有的数据集成分发技术看似解决了上述的问题:传统方法采用托管代理Manager-Agent的体系结构;Agent是指安装在被管理的数据源计算机系统上的一个或是多个代理程序,它负责采集数据源计算机上的一系列数据查询信息,并把查询状态和查询结果传递给Manager一端。尽管现有的解决方案宣称这些代理程序Agent将以较低的优先级和较少的资源消耗运作,还是该种解决方案依然无法避免这样一个问题:那就是当业务连续性要求高的生产应用系统发生性能危机或长事务类型等复杂的数据查询计算时,运维人员无法排除代理软件Agent对生产系统的影响。管理软件代理程序的存在,干扰了运维人员对生产系统的维护和性能问题的诊断,造成数据集成分发过程容易被代理程序故障导致任务中断且不可逆;而且现有的Manager-Agent体系结构,一定需要在数据源计算机上安装代理程序Agent,这为数据源计算机和数据源计算机所在的系统带来了安全隐患;而且代理程序Agent在数据的集成与分发个过程中,其势必会要占用部分的数据源计算机的硬件和软件资源,从而导致数据的集成和分发速率较慢。
发明内容
本发明的目的之一在于提供一种数据集成与分发速率快、数据安全性好、不占用数据源计算机和目标计算机系统任何硬件和软件资源的用于数据库的数据集成分发方法。
本发明的目的之二在于提供一种承载所述的用于数据库的数据集成分发方法的数据集成分发装置。
本发明提供的这种用于数据库的数据集成分发方法,包括如下步骤:
S1. 数据集成分发装置根据数据源计算机的IP地址及管理员权限,连接、识别并定位数据源计算机的数据库实例;
S2. 数据集成分发装置读取数据源计算机的在线日志或归档日志并解析,提取导致数据库中数据变化的操作记录,并获取数据源计算机的数据源和相应的操作记录;
S3. 数据集成分发装置将步骤S2获取的数据源和相应的操作记录存储到自身的集成式数据库中;
S4. 数据集成分发装置将步骤S3存储的数据源发送到目标计算机,同时将操作记录作为指令发送到目标计算机并执行;
S5. 当目标计算机接受数据并执行完相应的操作记录后,数据集成分发完成。
步骤S1所述的连接,为Socket或JDBC连接。
步骤S2还包括如下步骤:
数据集成分发装置在每次读取数据源计算机的在线日志或归档日志并解析时、以及获取数据源计算机的数据源时,均标记检查点,记录当前的日志位置和数据源位置,用于数据集成分发装置的断点续传功能。
步骤S3所述的集成式数据库,为采用开源数据库PostgreSQL实现。
步骤S4所述的将操作记录作为指令发送到目标计算机并执行,具体为数据集成分发装置读取数据变化并按照日志反映的DML操作创建对应的SQL语句,并将SQL语句作为指令发送到目标计算机并执行。
步骤S4所述的执行,为通过目标计算机的本地接口执行。
步骤S5还包括如下步骤:
数据集成分发装置更新步骤S2所述的检查点,记录已经完成数据集成与分发的位置。
本发明提供的这种用于承载数据集成分发方法的用于数据库的数据集成分发装置,包括主板、CPU、内存、机械硬盘、网络接口、输入设备和输出设备,还包括NGFF接口的固态硬盘;固态硬盘通过NGFF接口与主板连接,用于作为数据集成分发装置缓存模块的快速存储器。
所述的用于数据库的数据集成分发装置还包括串口调试模块;串口调试模块与主板连接,数据集成分发装置的管理人员通过串口调试模块对数据集成分发装置进行调试和管理。
所述的网络接口为聚合网络通讯接口;聚合网络通讯接口与主板连接,每个聚合网络通讯接口包括两个千兆以太网端口,两个端口采用符合IEEE802.3ad标准的动态LACP端口聚合方式进行聚合。
用于数据库的数据集成分发装置,由于采用了NGFF接口的固态硬盘与工业主板连接,因此能够实现数据继承与分发中的海量数据暂存功能,既实现了数据的快速存储又满足了数据快速存储的时效要求;本发明还提供了所述用于数据库的数据集成分发装置的数据集成与分发方法,该方法通过获取数据源计算机的数据和相应的数据操作记录,缓存到数据集成分发装置自身的数据库并进行初步标记和处理,然后再统一分发到目标计算机;因此使用本发明提供的数据集成分发装置和数据集成分发方法进行数据的集成和分发时,数据源计算机和目标计算机均不需要安装任何软件或代理程序,所有的数据存储、数据集成和数据分发过程均由数据集成分发装置完成,因此本发明数据集成与分发速率快、数据安全性好、不占用数据源计算机和目标计算机系统任何硬件和软件资源。
附图说明
图1为本发明的系统结构示意图。
图2为本发明的用于数据库的数据集成分发方法流程图。
图3为本发明的用于数据库的数据集成分发装置的功能模块图。
具体实施方式
如图1所示为本发明的系统结构示意图:图中数据源即为数据源计算机,数据源计算机可能采用各种类型的数据库,如Oracle、SQLServer或WebGIS等等;数据集成分发装置通过数据源计算机的IP地址及管理员权限,连接、识别并定位数据源计算机的数据库实例,再通过日志解析、数据捕获等功能将数据源计算机的数据和相应的数据操作集成到自身的集成式数据库中;然后再通过投递进程和数据分发功能,将自身集成式数据库中的数据和数据操作分发目标计算机;目标计算机可以采用结构化的数据库,也可采用非结构化的数据库。
本发明提供的这种数据集成分发装置,能够连接、识别和定位各种类型的数据库,并获取数据,然后将数据按照目标计算机的数据库的要求进行分发。因此本发明提供的这种数据集成分发装置,完全自主运行,不需要数据源计算机或目标计算机安装任何代理程序或其他进程,因此完全不占用数据源计算机或目标计算机的任何软件或硬件资源。
如图2所示为本发明的用于数据库的数据集成分发方法流程图:本发明提供的这种用于数据库的数据集成分发装置所采用的数据集成分发方法,包括如下步骤:
S1. 数据集成分发装置根据数据源计算机的IP地址及管理员权限,通过Socket或JDBC连接、识别并定位数据源计算机的数据库实例;
数据集成分发装置在每次读取数据源计算机的在线日志或归档日志并解析时、以及获取数据源计算机的数据源时,均标记检查点,记录当前的日志位置和数据源位置,用于数据集成分发装置的断点续传功能;
S2. 数据集成分发装置读取数据源计算机的在线日志或归档日志并解析,提取导致数据库中数据变化的操作记录,并获取数据源计算机的数据源和相应的操作记录;
S3. 数据集成分发装置将步骤S2获取的数据源和相应的操作记录存储到自身的采用开源数据库PostgreSQL实现的集成式数据库中;通过源代码裁剪,保留了数据库集成式引擎的代码内容,剔除掉了其他无关的PostgreSQL功能代码,利用PostgreSQL的强大插件机制,实现了接口与代码内核分离,最终重新编译生成当前的定制的、小型的、集成式的数据库;
S4. 数据集成分发装置将步骤S3存储的数据源发送到目标计算机,同时将操作记录作为指令发送到目标计算机并执行;数据集成分发装置读取数据变化并按照日志反映的DML操作创建对应的SQL语句,并将SQL语句作为指令发送到目标计算机,在目标计算机的本地接口执行;
S5. 当目标计算机接受数据并执行完相应的操作记录后,数据集成分发装置更新步骤S2所述的检查点,记录已经完成数据集成与分发的位置;数据集成分发完成。
如图3所示为本发明的用于数据库的数据集成分发装置的功能模块图:本发明提供的这种用于数据库的数据集成分发装置,包括主板、CPU、内存、机械硬盘、网络接口、输入设备、输出设备、NGFF接口的固态硬盘和串口调试模块;固态硬盘通过NGFF接口与主板连接,用于作为数据集成分发装置缓存模块的快速存储器,符合Intel工控机及嵌入式设备的标准规范,定制尺寸为80.0mm*22.0mm*3.5mm,工作电压为5V+/-5%,容量为512GB;低速存储模块采用普通机械硬盘,采用四块通用SATA 3/6GB接口的3.5英寸机械硬盘组成,最大可以支持16TB容量;串口调试模块与主板连接,该接口能够和装置BIOS程序进行通讯,便于进行BIOS初始化、BIOS升级等管理操作,数据集成分发装置的管理人员通过串口调试模块对数据集成分发装置进行调试和管理;网络接口为聚合网络通讯接口;聚合网络通讯接口与主板连接,每个聚合网络通讯接口包括两个千兆以太网端口,两个端口采用符合IEEE802.3ad标准的动态LACP端口聚合方式进行聚合:一般来说,两个普通交换器连接的最大带宽取决于媒介的连接速度(1000BAST-TX,速率可达1Gbit/s),而使用动态LACP端口聚合技术可以将2个1G的端口捆绑后成为一个高达2G的连接;这一技术的优点是以较低的成本通过捆绑多端口提高带宽,而其增加的开销只是连接用的普通五类网线和多占用的端口,它可以有效地提高子网的上行速度,从而消除数据集成分发网络中的带宽瓶颈;另外该技术还具有自动带宽平衡,即容错功能:即使只有一个连接存在时,仍然会工作,这无形中增加了系统的可靠性。
Claims (5)
1.一种用于数据库的数据集成分发方法,包括如下步骤:
S1. 数据集成分发装置根据数据源计算机的IP地址及管理员权限,连接、识别并定位数据源计算机的数据库实例;
S2. 数据集成分发装置读取数据源计算机的在线日志或归档日志并解析,提取导致数据库中数据变化的操作记录,并获取数据源计算机的数据源和相应的操作记录;
数据集成分发装置在每次读取数据源计算机的在线日志或归档日志并解析时、以及获取数据源计算机的数据源时,均标记检查点,记录当前的日志位置和数据源位置,用于数据集成分发装置的断点续传功能;
S3. 数据集成分发装置将步骤S2获取的数据源和相应的操作记录存储到自身的集成式数据库中;
S4. 数据集成分发装置将步骤S3存储的数据源发送到目标计算机,同时将操作记录作为指令发送到目标计算机并执行;
S5. 当目标计算机接受数据并执行完相应的操作记录后,数据集成分发装置更新步骤S2所述的检查点,记录已经完成数据集成与分发的位置;数据集成分发完成;
承载所述的用于数据库的数据集成分发方法的数据集成分发装置,包括主板、CPU、内存、机械硬盘、网络接口、输入设备、输出设备、NGFF接口的固态硬盘和串口调试模块;固态硬盘通过NGFF接口与主板连接,用于作为数据集成分发装置缓存模块的快速存储器;串口调试模块与主板连接,数据集成分发装置的管理人员通过串口调试模块对数据集成分发装置进行调试和管理;所述的网络接口为聚合网络通讯接口;聚合网络通讯接口与主板连接,每个聚合网络通讯接口包括两个千兆以太网端口,两个端口采用符合IEEE802.3ad标准的动态LACP端口聚合方式进行聚合。
2.根据权利要求1所述的用于数据库的数据集成分发方法,其特征在于步骤S1所述的连接,为Socket或JDBC连接。
3.根据权利要求1或2所述的用于数据库的数据集成分发方法,其特征在于步骤S3所述的集成式数据库,为采用开源数据库PostgreSQL实现。
4.根据权利要求1或2所述的用于数据库的数据集成分发方法,其特征在于步骤S4所述的将操作记录作为指令发送到目标计算机并执行,具体为数据集成分发装置读取数据变化并按照日志反映的DML操作创建对应的SQL语句,并将SQL语句作为指令发送到目标计算机并执行。
5.根据权利要求1或2所述的用于数据库的数据集成分发方法,其特征在于步骤S4所述的执行,为通过目标计算机的本地接口执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610135292.9A CN105631053B (zh) | 2016-03-10 | 2016-03-10 | 用于数据库的数据集成分发方法和数据集成分发装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610135292.9A CN105631053B (zh) | 2016-03-10 | 2016-03-10 | 用于数据库的数据集成分发方法和数据集成分发装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105631053A CN105631053A (zh) | 2016-06-01 |
CN105631053B true CN105631053B (zh) | 2022-04-15 |
Family
ID=56045985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610135292.9A Active CN105631053B (zh) | 2016-03-10 | 2016-03-10 | 用于数据库的数据集成分发方法和数据集成分发装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105631053B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107707556A (zh) * | 2017-10-26 | 2018-02-16 | 四川云玦科技有限公司 | 一种电信业务电子凭证管理系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521389A (zh) * | 2011-12-23 | 2012-06-27 | 天津神舟通用数据技术有限公司 | 一种混合使用固态硬盘和传统硬盘的postgresql数据库集群系统及其优化方法 |
CN103024014A (zh) * | 2012-12-03 | 2013-04-03 | 北京京东世纪贸易有限公司 | 通过消息队列的海量数据分发处理的方法和系统 |
CN104869056A (zh) * | 2014-02-20 | 2015-08-26 | 明博教育科技有限公司 | 一种基于关系-数据分离的机构-人员数据同步方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8825713B2 (en) * | 2007-09-12 | 2014-09-02 | Red Hat, Inc. | BPM system portable across databases |
CN103455526A (zh) * | 2012-06-05 | 2013-12-18 | 杭州勒卡斯广告策划有限公司 | 一种etl数据处理方法、装置及系统 |
CN104376062B (zh) * | 2014-11-11 | 2018-01-26 | 中国有色金属长沙勘察设计研究院有限公司 | 一种异构数据库平台数据的同步方法 |
-
2016
- 2016-03-10 CN CN201610135292.9A patent/CN105631053B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521389A (zh) * | 2011-12-23 | 2012-06-27 | 天津神舟通用数据技术有限公司 | 一种混合使用固态硬盘和传统硬盘的postgresql数据库集群系统及其优化方法 |
CN103024014A (zh) * | 2012-12-03 | 2013-04-03 | 北京京东世纪贸易有限公司 | 通过消息队列的海量数据分发处理的方法和系统 |
CN104869056A (zh) * | 2014-02-20 | 2015-08-26 | 明博教育科技有限公司 | 一种基于关系-数据分离的机构-人员数据同步方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105631053A (zh) | 2016-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11334538B2 (en) | System and method for cardinality estimation feedback loops in query processing | |
CN102262680B (zh) | 一种基于海量数据存取需求的分布式数据库代理系统 | |
CN102981933B (zh) | 物联网感知层的数据增量备份方法及系统 | |
CN104239166A (zh) | 一种对运行中虚拟机实现文件备份的方法 | |
CN103516802A (zh) | 一种实现跨异构虚拟交换机无缝迁移的方法和装置 | |
CN105119757A (zh) | 一种企业服务器运维自动化的方法与系统 | |
CN102929769B (zh) | 一种基于代理服务的虚拟机内部数据采集方法 | |
CN108573029B (zh) | 一种获取网络访问关系数据的方法、装置及存储介质 | |
JP2015069655A (ja) | プロセス制御システムおよび方法 | |
WO2021190659A1 (zh) | 系统的数据获取方法、装置、介质及电子设备 | |
Ye et al. | vHadoop: A scalable Hadoop virtual cluster platform for MapReduce-based parallel machine learning with performance consideration | |
CN108259569B (zh) | 一种基于ipsan共享存储的无代理连续数据保护方法及系统 | |
CN104036031A (zh) | 基于分布式Mysql集群存储的大规模CFD并行计算方法 | |
CN103117878A (zh) | 一种基于Nagios的分布式监控系统的设计方法 | |
CN105183591A (zh) | 一种高可用集群的实现方法及系统 | |
KR20130140508A (ko) | 로그 정보 수집 장치 | |
CN203301532U (zh) | 云桌面系统 | |
CN105631053B (zh) | 用于数据库的数据集成分发方法和数据集成分发装置 | |
Suleykin et al. | Distributed big data driven framework for cellular network monitoring data | |
CN112714022A (zh) | 多套集群的控制处理方法、装置及计算机设备 | |
CN114218299A (zh) | 接口响应情况的监控方法、装置、设备及存储介质 | |
CN107423107B (zh) | 一种移动分布式数据中心的构建方法 | |
Chen et al. | Big data storage architecture design in cloud computing | |
US11475017B2 (en) | Asynchronous data enrichment for an append-only data store | |
CN113886472A (zh) | 一种数据接入系统、接入方法、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |