CN117648383A - 一种异构数据库实时数据同步方法、装置、设备及介质 - Google Patents
一种异构数据库实时数据同步方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117648383A CN117648383A CN202410122521.8A CN202410122521A CN117648383A CN 117648383 A CN117648383 A CN 117648383A CN 202410122521 A CN202410122521 A CN 202410122521A CN 117648383 A CN117648383 A CN 117648383A
- Authority
- CN
- China
- Prior art keywords
- data synchronization
- synchronization
- real
- future
- rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000001360 synchronised effect Effects 0.000 claims abstract description 50
- 238000012544 monitoring process Methods 0.000 claims abstract description 38
- 238000010801 machine learning Methods 0.000 claims abstract description 28
- 230000008859 change Effects 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 21
- 230000005540 biological transmission Effects 0.000 claims description 9
- 238000013481 data capture Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种异构数据库实时数据同步方法、装置、设备及介质,方法首先根据机器学习预测模型对多个异构数据库之间的历史数据同步指标参数进行特征学习,预测得到未来数据同步指标参数;其次利用这些指标参数计算出用于影响同步速率的影响因子;然后采用实时监控参数和影响因子计算当前最优同步速率,最后调整多个异构数据库之间的同步速率。本方案能够基于历史数据同步指标参数预测未来可能的数据同步指标参数,进而基于未来可能的数据同步指标参数计算能够影响同步速率的影响因子,在异构数据库进行数据同步时,随时结合实时监控得到当前同步的一些情况和影响因子对异构数据库之间同步速率进行自适应的调整,提高同步效率及其稳定性。
Description
技术领域
本申请实施例涉及数据库数据同步技术领域,尤其涉及一种异构数据库实时数据同步方法、装置、设备及介质。
背景技术
随着信息技术的发展,数据的产生和应用越来越广泛。在很多应用场景中,异构数据库之间的实时数据同步成为了一个重要的需求。当前,数据库实时数据同步技术已有很多实现方法。然而,现有的数据同步技术往往需要进行复杂的配置,在数据同步过程中随着同步数据量的增加,可能出现传输延迟、网络丢包率增加、数据不一致等问题。
发明内容
本公开实施例的主要目的在于提出一种异构数据库实时数据同步方法、装置、设备及系统,能够提高多个异构数据库之间数据同步的同步效率及其稳定性。
为实现上述目的,本公开实施例的第一方面提出了一种异构数据库实时数据同步方法,异构数据库实时数据同步方法包括:
获取多个异构数据库之间进行数据同步产生的历史数据同步指标参数,并对所述多个异构数据库进行实时监控,得到当前数据同步的实时监控参数;
将所述历史数据同步指标参数输入至预设的机器学习预测模型中,得到所述机器学习预测模型预测的未来数据同步指标参数,并根据所述未来数据同步指标参数计算用于影响同步速率的影响因子;
根据所述实时监控参数和影响因子,计算当前最优同步速率;
根据所述当前最优同步速率调整所述多个异构数据库之间的同步速率。
在一些实施例中,所述历史数据同步指标参数包括历史数据量变化、历史系统负载和历史网络状态,所述未来数据同步指标参数包括未来数据量变化、未来系统负载和未来网络状态;所述机器学习预测模型包括LSTM模型和多任务联合预测模型,所述机器学习预测模型通过如下方式预测未来数据同步指标参数:
将所述历史数据量变化、历史系统负载和历史网络状态输入至所述LSTM模型中,以使所述LSTM模型分别提取每一个指标参数对应的一种时序特征;
将多种所述时序特征输入至所述多任务联合预测模型中,以使所述多任务联合预测模型学习所述多种所述时序特征之间的关联特征,并预测未来数据量变化、未来系统负载和未来网络状态。
在一些实施例中,通过如下方式计算用于影响同步速率的影响因子:
,
其中,、/>和/>表示权重系数,/>分别表示所述未来数据量变化、所述未来网络状态和所述未来系统负载,/>分别表示量化后的所述历史数据量变化、所述历史网络状态和所述历史系统负载,/>表示所述影响因子。
在一些实施例中,所述实时监控参数包括当前数据变化速度、当前网络状态和当前系统负载;通过如下方式计算当前最优同步速率:
,
其中,和/>表示权重系数,/>分别表示量化后的所述当前数据变化速度、所述当前网络状态和所述当前系统负载,/>表示所述当前最优同步速率。
在一些实施例中,在所述根据所述当前最优同步速率调整所述多个异构数据库之间的同步速率之后,所述异构数据库实时数据同步方法还包括:
根据所述同步速率调整所述多个异构数据库之间的同步策略。
在一些实施例中,所述根据所述同步速率调整所述多个异构数据库之间的同步策略包括根据所述同步速率调整所述多个异构数据库之间的数据抓取间隔、批处理大小和数据传输时间,其中调整的公式包括:
,
,
其中,表示所述批处理大小,/>表示所述数据抓取间隔,/>表示所述数据传输时间。
在一些实施例中,所述获取多个异构数据库之间进行数据同步产生的历史数据同步指标参数,包括:
获取多个异构数据库之间进行数据同步产生的历史数据同步日志;
从所述历史数据同步日志中提取出历史数据同步指标参数。
为实现上述目的,本公开实施例的第二方面提出了一种异构数据库实时数据同步装置,所述异构数据库实时数据同步装置包括:
数据获取单元,用于获取多个异构数据库之间进行数据同步产生的历史数据同步指标参数,并对所述多个异构数据库进行实时监控,得到当前数据同步的实时监控参数;
影响因子计算单元,用于将所述历史数据同步指标参数输入至预设的机器学习预测模型中,得到所述机器学习预测模型预测的未来数据同步指标参数,并根据所述未来数据同步指标参数计算用于影响同步速率的影响因子;
同步速率计算单元,用于根据所述实时监控参数和影响因子,计算当前最优同步速率;
同步速率调整单元,用于根据所述当前最优同步速率调整所述多个异构数据库之间的同步速率。
为实现上述目的,本公开实施例的第三方面提出了一种电子设备,包括至少一个存储器;
至少一个处理器;
至少一个计算机程序;
所述计算机程序被存储在所述存储器中,处理器执行所述至少一个计算机程序以实现:
如第一方面实施例任一项所述的异构数据库实时数据同步方法。
为实现上述目的,本公开实施例的第四方面还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行:
如第一方面实施例任一项所述的异构数据库实时数据同步方法。
本申请实施例第一方面提供了一种异构数据库实时数据同步方法,方法首先根据机器学习预测模型对多个异构数据库之间的历史数据同步指标参数进行特征学习,预测得到将来一段时间内的未来数据同步指标参数;其次利用这些指标参数计算出用于影响同步速率的影响因子;然后根据多个异构数据库间的实时监控参数和影响因子计算当前最优同步速率,最后利用当前最优同步速率调整多个异构数据库之间的同步速率。本方案能够基于历史数据同步指标参数预测未来可能的数据同步指标参数,进而基于未来可能的数据同步指标参数计算能够影响同步速率的影响因子,在异构数据库进行数据同步时,随时结合实时监控得到当前同步的一些情况和影响因子对异构数据库之间同步速率进行自适应的调整,提高同步效率及其稳定性。
可以理解的是,上述第二方面至第四方面与相关技术相比存在的有益效果与上述第一方面与相关技术相比存在的有益效果相同,可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的一种异构数据库实时数据同步方法的流程示意图;
图2是本申请一个实施例提供的历史数据同步指标参数的提取流程示意图;
图3是本申请一个实施例提供的机器学习预测模型的预测过程示意图;
图4是本申请一个实施例提供的LSTM结构示意图;
图5是本申请一个实施例提供的异构数据库实时数据同步方法框架示意图;
图6是本申请一个实施例提供的机器学习预测模型的预测过程框架示意图;
图7是本申请一个实施例提供的多任务联合预测模型预测过程框架示意图;
图8是本申请一个实施例提供的一种异构数据库实时数据同步装置的结构示意图;
图9是本申请一个实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
在本领域中,多异构数据库之间通常需要传输大量的数据,例如ES、MongoDB、Kingbase这是三个异构数据库之间的数据传输。数据库实时数据同步技术已有很多实现方法,但,现有的数据同步技术往往需要进行复杂的配置,在数据同步过程中随着同步数据量的增加,可能出现传输延迟、网络丢包率增加、数据不一致等问题,而且现有系统设计无法根据同步状态实时自适应调整同步策略,很难实现异构数据库之间实时数据的大量传输。因此,需要一种高效、稳定的异构数据库实时数据同步方法来解决这些问题。
请参照图1,图1是本申请一个实施例提供的一种异构数据库实时数据同步方法,应理解,本申请实施例的异构数据库实时数据同步方法包括但不限于步骤S101、步骤S102、步骤S103、步骤S104以及S105,以下结合图1对步骤S101至步骤S105进行详细介绍:
步骤S101、获取多个异构数据库之间进行数据同步产生的历史数据同步指标参数,并对多个异构数据库进行实时监控,得到当前数据同步的实时监控参数。
在本实施例中,第一方面是对历史同步数据产生的指标参数进行获取,即获取多个异构数据库之间进行数据同步产生的历史数据同步指标参数。第二方面是指对这些数据库进行实时监控,得到当前数据同步的实时监控参数。
如图2,历史数据同步指标参数的获取过程包括如下步骤S1011和S1012,其中:
步骤S1011、获取多个异构数据库之间进行数据同步产生的历史数据同步日志。
步骤S1012、从历史数据同步日志中提取出历史数据同步指标参数。
在本申请的一些实施例中,历史数据同步日志包括过去一段时间内的数据同步记录,如数据变更事件、同步开始和结束时间、同步速率、同步延迟等信息。在提取到历史数据同步日志之后,进而能从日志中抽取出历史数据同步指标参数。
在上述的步骤S1012中,历史数据同步指标参数包括但不仅限于:历史数据量变化、历史系统负载和历史网络状态。其中,数据量变化主要包括数据变化趋势,例如新增数据量、删除数据量、更新数据量等;系统负载主要包括CPU使用率、内存使用率、磁盘I/O、网络带宽等系统资源使用情况;网络状态主要包括网络延迟、丢包率、带宽使用情况等网络相关指标。这些指标是影响同步效率及稳定的重要因子。
在实时监控参数获取过程中,实时监控参数包括当前数据变化速度、当前网络状态和当前系统负载。其中,数据变化速度主要包括数据库中数据变化的速度,单位为每秒变化的数据量(例如,每秒新增的记录数)。
步骤S102、将历史数据同步指标参数输入至预设的机器学习预测模型中,得到机器学习预测模型预测的未来数据同步指标参数,并根据未来数据同步指标参数计算用于影响同步速率的影响因子。
在本申请的一些实施例中,这里的未来数据同步指标参数包括未来数据量变化、未来系统负载和未来网络状态。需要注意的是,机器学习预测模型预测的未来数据同步指标参数是在历史时刻(历史数据同步指标参数所产生的时刻)的将来一段时间内的数据同步指标参数。所得到的将来一段时间内的数据同步指标参数可以作用在当前时刻的多个异构数据库之间的数据同步的调整。
如图3,机器学习预测模型包括LSTM模型和多任务联合预测模型;其中,机器学习预测模型通过如下方式预测未来数据同步指标参数,包括:
步骤S1021、将历史数据量变化、历史系统负载和历史网络状态输入至LSTM模型中,以使LSTM模型分别提取每一个指标参数对应的一种时序特征。
步骤S1022、将多种时序特征输入至多任务联合预测模型中,以使多任务联合预测模型学习多种时序特征之间的关联特征,并预测未来数据量变化、未来系统负载和未来网络状态。
参照图4,LSTM(Long Short-Term Memory)也称长短时记忆结构,它是传统RNNQ的变体,与经典RNN相比能够有效捕捉长序列之间的语义关联,缓解梯度消失或爆炸现象同时LSTM的结构更复杂,它的核心结构可以分为遗忘门、输入门、细胞状态和输出门。
本申请采用LSTM网络提取每个任务(指标参数)序列的时序特征。这里令将定义时间序列输入数据,其中每个/>,其中,/>代指时刻。分别表示历史数据量变化、历史系统负载和历史网络状态在t时刻的时序数据。接下来,将这些输入数据代入到LSTM公式中:
计算遗忘门(Forget Gate):
,
,
计算输入门(Input Gate):
,
,
计算单元状态更新:
,
,
,
计算输出门(Output Gate):
,
,
计算隐藏状态:
,
通过以上公式,使用输入数据(历史数据同步日志中量化后的历史数据量变化、历史系统负载信息/>和历史网络状况/>)计算了LSTM的输出隐藏状态/>。
然后,利用多任务联合预测模型得到预测结果:未来数据量变化()、未来网络状态(/>)和未来系统负载(/>)等。
为充分挖掘和利用序列之间的关联信息,基于提取的每一类任务的时序特征构建联合预测模型。
采用基于迹范数正则化的多任务联合预测模型,在最小化经验风险的基础上,添加核范数正则项,约束不同学习任务的模型共享到一个低维子空间,有
,
其中,为学习任务的个数(本实例为3),/>为权重矩阵,/>为第/>个学习任务的权重向量,/>和/>分别为第/>个学习任务的输入和输出,超参数/>控制/>的秩/>。由于权重矩阵蕴含了数据之间重要的结构化信息,对于建立模型十分重要,而矩阵低秩表示该矩阵中的向量具有高度的相关性,故对/>个学习任务同时采用梯度下降法求解权重,使用核范数对所得的权重矩阵进行约束,直到其取得低秩,表明此时获得了合理的模型空间,在该模型空间中,领域特定的通用知识被多个学习任务共享,提升了每个学习任务的学习性能,从而实现同一个类内所有任务的联合学习以及多个任务的同时预测。
在本申请的一些实施例中,根据未来数据同步指标参数计算用于影响同步速率的影响因子,包括:
,
其中,、/>和/>表示权重系数,/>分别表示未来数据量变化、未来网络状态和未来系统负载,/>表示影响因子。上述公式将未来数据量变化、网络状况和系统负载的预测结果结合在一起,通过权重系数的调整,可以得到一个综合的同步速率影响因子。
步骤S103、根据实时监控参数和影响因子,计算当前最优同步速率。
其中,计算公式包括:
,
其中,和/>表示权重系数,/>分别表示量化后的当前数据变化速度、当前网络状态和当前系统负载,/>表示当前最优同步速率。需注意的是,所述当前最优同步速率是指利用影响因子和实时监控参数预测的一个最适合同步速率。
步骤S104、根据当前最优同步速率调整多个异构数据库之间的同步速率。
在本申请的一些实施例中,异构数据库实时数据同步方法还包括如下步骤:
步骤S105、根据同步速率调整多个异构数据库之间的数据抓取间隔、批处理大小和数据传输时间。
其中,调整的公式包括:
,
,
其中,表示批处理大小,/>表示批处理大小,/>表示数据传输时间。
这里,根据计算出的同步速率,自动调整数据同步过程中的参数,即调整数据同步的批处理大小/>、数据抓取间隔/>和数据传输时间/>等。这里的调整能够确保同步速率在不同情况下都能保持在合适的水平,从而提高同步过程的整体效率和稳定性。
在上述公式中,批处理大小和数据抓取间隔/>根据同步速率/>进行动态调整。这样,当同步速率增加时,批处理大小和数据抓取间隔也会相应地增加,从而实现自适应调整。当同步速率降低时,批处理大小/>和数据抓取间隔/>会减小,以确保同步过程的高效性和稳定性。
本同步方法首先根据机器学习预测模型对多个异构数据库之间的历史数据同步指标参数进行特征学习,预测得到将来一段时间内的未来数据同步指标参数;其次利用这些指标参数计算出一个用于影响同步速率的影响因子;然后根据多个异构数据库间的实时监控参数和影响因子计算当前最优同步速率,最后利用当前最优同步速率调整多个异构数据库之间的同步速率。本方案能够预测未来可能的数据同步指标参数,这使得能够在异构数据库进行数据同步时,随时结合实时监控参数对同步速率进行自适应的调整,提高同步效率及其稳定性。
如图5至图7示,以下提供一个实施例,提供异构数据库实时数据同步方法,本方法以ES、MongoDB、Kingbase三种异构数据库为例,方法包括如下过程:
步骤S201、实时监控ES、MongoDB和Kingbase之间的当前数据变化速度、当前网络状态/>和当前系统负载/>。
步骤S202、收集历史数据同步日志,分析历史数据同步日志中的历史数据量变化、历史网络状态/>和历史系统负载/>。
步骤S203、构建基于LSTM和多任务联合预测模型的机器学习预测模型,将历史数据量变化、历史网络状态/>和历史系统负载/>输入至机器学习预测模型中,先由LSTM分别进行时序特征的学习,再经多任务联合预测模型挖掘和利用序列之间的关联信息,得到机器学习预测模型预测出将来一段时间的未来数据量变化/>、未来网络状态/>和未来系统负载/>。
步骤S204、通过如下公式计算对同步速率的影响因子:
,
其中,、/>和/>表示权重系数。
步骤S205、根据影响因子、当前数据变化速度/>、当前网络状态/>和当前系统负载/>计算当前最优同步速率/>:
,
其中,和/>表示权重系数。
步骤S206、将ES、MongoDB和Kingbase之间的同步速率调整为。
步骤S207、根据调整ES、MongoDB和Kingbase之间的数据抓取间隔/>、批处理大小和数据传输时间/>:
,
,
如图8,本申请的一个实施例,提供了一种异构数据库实时数据同步装置,异构数据库实时数据同步装置包括:数据获取单元1100、影响因子计算单元1200、同步速率计算单元1300和同步速率调整单元1400,其中包括:
数据获取单元1100用于获取多个异构数据库之间进行数据同步产生的历史数据同步指标参数,并对多个异构数据库进行实时监控,得到当前数据同步的实时监控参数。
影响因子计算单元1200用于将历史数据同步指标参数输入至预设的机器学习预测模型中,得到机器学习预测模型预测的未来数据同步指标参数,并根据未来数据同步指标参数计算用于影响同步速率的影响因子。
同步速率计算单元1300用于根据实时监控参数和影响因子,计算当前最优同步速率。
同步速率调整单元1400用于根据当前最优同步速率调整多个异构数据库之间的同步速率。
需要注意的是,本实施例与上述方法实施例是基于相同的发明构思,因此上述的方法实施例的相关内容同样适应于本装置实施例,此处不再赘述。
本装置首先根据机器学习预测模型对多个异构数据库之间的历史数据同步指标参数进行特征学习,预测得到将来一段时间内的未来数据同步指标参数;其次利用这些指标参数计算出一个用于影响同步速率的影响因子;然后根据多个异构数据库间的实时监控参数和影响因子计算当前最优同步速率,最后利用当前最优同步速率调整多个异构数据库之间的同步速率。本装置能够预测未来可能的数据同步指标参数,这使得能够在异构数据库进行数据同步时,随时结合实时监控参数对同步速率进行自适应的调整,提高同步效率及其稳定性。
本申请实施例还提供了一种电子设备,本电子设备包括:
至少一个存储器;
至少一个处理器;
至少一个程序;
程序被存储在存储器中,处理器执行至少一个程序以实现本公开实施上述的异构数据库实时数据同步方法。
该电子设备可以为包括手机、平板电脑、个人数字助理(Personal DigitalAssistant,PDA)、车载电脑等任意智能终端。
本申请实施例的电子设备,用于执行上述异构数据库实时数据同步方法,方法首先根据机器学习预测模型对多个异构数据库之间的历史数据同步指标参数进行特征学习,预测得到将来一段时间内的未来数据同步指标参数;其次利用这些指标参数计算出一个用于影响同步速率的影响因子;然后根据多个异构数据库间的实时监控参数和影响因子计算当前最优同步速率,最后利用当前最优同步速率调整多个异构数据库之间的同步速率。本方法能够预测未来可能的数据同步指标参数,这使得能够在异构数据库进行数据同步时,随时结合实时监控参数对同步速率进行自适应的调整,提高同步效率及其稳定性。
下面结合图9对本申请实施例的电子设备进行详细介绍。
如图9,图9示意了另一实施例的电子设备的硬件结构,电子设备包括:
处理器,可以采用通用的中央处理器(Central Processing Unit,CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本公开实施例所提供的技术方案;
存储器,可以采用只读存储器(Read Only Memory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory,RAM)等形式实现。存储器可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器中,并由处理器来调用执行本公开实施例的异构数据库实时数据同步方法。
输入/输出接口,用于实现信息输入及输出;
通信接口,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
总线,在设备的各个组件(例如处理器、存储器、输入/输出接口和通信接口)之间传输信息;
其中处理器、存储器、输入/输出接口和通信接口通过总线实现彼此之间在设备内部的通信连接。
本公开实施例还提供了一种存储介质,该存储介质是计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令用于使计算机执行上述异构数据库实时数据同步方法。
本申请实施例的存储介质,用于执行上述异构数据库实时数据同步方法,方法首先根据机器学习预测模型对多个异构数据库之间的历史数据同步指标参数进行特征学习,预测得到将来一段时间内的未来数据同步指标参数;其次利用这些指标参数计算出一个用于影响同步速率的影响因子;然后根据多个异构数据库间的实时监控参数和影响因子计算当前最优同步速率,最后利用当前最优同步速率调整多个异构数据库之间的同步速率。本方法能够预测未来可能的数据同步指标参数,这使得能够在异构数据库进行数据同步时,随时结合实时监控参数对同步速率进行自适应的调整,提高同步效率及其稳定性。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本公开实施例描述的实施例是为了更加清楚的说明本公开实施例的技术方案,并不构成对于本公开实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本公开实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图中示出的技术方案并不构成对本公开实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上是对本申请实施例的较佳实施进行了具体说明,但本申请实施例并不局限于上述实施方式。
Claims (10)
1.一种异构数据库实时数据同步方法,其特征在于,所述异构数据库实时数据同步方法包括:
获取多个异构数据库之间进行数据同步产生的历史数据同步指标参数,并对所述多个异构数据库进行实时监控,得到当前数据同步的实时监控参数;
将所述历史数据同步指标参数输入至预设的机器学习预测模型中,得到所述机器学习预测模型预测的未来数据同步指标参数,并根据所述未来数据同步指标参数计算用于影响同步速率的影响因子;
根据所述实时监控参数和影响因子计算当前最优同步速率;
根据所述当前最优同步速率调整所述多个异构数据库之间的同步速率。
2.根据权利要求1所述的异构数据库实时数据同步方法,其特征在于,所述历史数据同步指标参数包括历史数据量变化、历史系统负载和历史网络状态,所述未来数据同步指标参数包括未来数据量变化、未来系统负载和未来网络状态;所述机器学习预测模型包括LSTM模型和多任务联合预测模型,所述机器学习预测模型通过如下方式预测未来数据同步指标参数:
将所述历史数据量变化、历史系统负载和历史网络状态输入至所述LSTM模型中,以使所述LSTM模型分别提取每一个指标参数对应的一种时序特征;
将多种所述时序特征输入至所述多任务联合预测模型中,以使所述多任务联合预测模型学习所述多种所述时序特征之间的关联特征,并预测未来数据量变化、未来系统负载和未来网络状态。
3.根据权利要求2所述的异构数据库实时数据同步方法,其特征在于,通过如下方式计算用于影响同步速率的影响因子:
,
其中,、/>和/>表示权重系数,/>分别表示所述未来数据量变化、所述未来网络状态和所述未来系统负载,/>分别表示量化后的所述历史数据量变化、所述历史网络状态和所述历史系统负载,/>表示所述影响因子。
4.根据权利要求3所述的异构数据库实时数据同步方法,其特征在于,所述实时监控参数包括当前数据变化速度、当前网络状态和当前系统负载;通过如下方式计算当前最优同步速率:
,
其中,和/>表示权重系数,/>分别表示量化后的所述当前数据变化速度、所述当前网络状态和所述当前系统负载,/>表示所述当前最优同步速率。
5.根据权利要求4所述的异构数据库实时数据同步方法,其特征在于,在所述根据所述当前最优同步速率调整所述多个异构数据库之间的同步速率之后,所述异构数据库实时数据同步方法还包括:
根据所述同步速率调整所述多个异构数据库之间的同步策略。
6.根据权利要求5所述的异构数据库实时数据同步方法,其特征在于,所述根据所述同步速率调整所述多个异构数据库之间的同步策略包括根据所述同步速率调整所述多个异构数据库之间的数据抓取间隔、批处理大小和数据传输时间,其中调整的公式包括:
,
,
其中,表示所述批处理大小,/>表示所述数据抓取间隔,/>表示所述数据传输时间。
7.根据权利要求1所述的异构数据库实时数据同步方法,其特征在于,所述获取多个异构数据库之间进行数据同步产生的历史数据同步指标参数,包括:
获取多个异构数据库之间进行数据同步产生的历史数据同步日志;
从所述历史数据同步日志中提取出历史数据同步指标参数。
8.一种异构数据库实时数据同步装置,其特征在于,所述异构数据库实时数据同步装置包括:
数据获取单元,用于获取多个异构数据库之间进行数据同步产生的历史数据同步指标参数,并对所述多个异构数据库进行实时监控,得到当前数据同步的实时监控参数;
影响因子计算单元,用于将所述历史数据同步指标参数输入至预设的机器学习预测模型中,得到所述机器学习预测模型预测的未来数据同步指标参数,并根据所述未来数据同步指标参数计算用于影响同步速率的影响因子;
同步速率计算单元,用于根据所述实时监控参数和影响因子,计算当前最优同步速率;
同步速率调整单元,用于根据所述当前最优同步速率调整所述多个异构数据库之间的同步速率。
9.一种电子设备,其特征在于,包括:
至少一个存储器;
至少一个处理器;
至少一个计算机程序;
所述计算机程序被存储在所述存储器中,处理器执行所述至少一个计算机程序以实现:
如权利要求1至7任一项所述的异构数据库实时数据同步方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行:
如权利要求1至7任一项所述的异构数据库实时数据同步方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410122521.8A CN117648383B (zh) | 2024-01-30 | 2024-01-30 | 一种异构数据库实时数据同步方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410122521.8A CN117648383B (zh) | 2024-01-30 | 2024-01-30 | 一种异构数据库实时数据同步方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117648383A true CN117648383A (zh) | 2024-03-05 |
CN117648383B CN117648383B (zh) | 2024-06-11 |
Family
ID=90049976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410122521.8A Active CN117648383B (zh) | 2024-01-30 | 2024-01-30 | 一种异构数据库实时数据同步方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117648383B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117931953A (zh) * | 2024-03-22 | 2024-04-26 | 北京谷器数据科技有限公司 | 一种异构数据库数据同步的方法及系统 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100318495A1 (en) * | 2009-06-12 | 2010-12-16 | Sap Ag | Correlation aware synchronization for near real-time decision support |
US20170256172A1 (en) * | 2016-03-04 | 2017-09-07 | Civitas Learning, Inc. | Student data-to-insight-to-action-to-learning analytics system and method |
CN107958082A (zh) * | 2017-12-15 | 2018-04-24 | 杭州有赞科技有限公司 | 数据库到数据仓库的离线增量同步方法及系统 |
CN110073301A (zh) * | 2017-08-02 | 2019-07-30 | 强力物联网投资组合2016有限公司 | 工业物联网中具有大数据集的数据收集环境下的检测方法和系统 |
US20190288915A1 (en) * | 2018-03-19 | 2019-09-19 | Secure-24, Llc | Discovery and migration planning techniques optimized by environmental analysis and criticality |
CN111354435A (zh) * | 2020-04-24 | 2020-06-30 | 山东体育学院 | 一种基于跑步运动数据的监测方法 |
CN111897859A (zh) * | 2020-09-30 | 2020-11-06 | 知学云(北京)科技有限公司 | 一种面向企业在线教育的大数据智能报表平台 |
WO2020232895A1 (zh) * | 2019-05-23 | 2020-11-26 | 平安科技(深圳)有限公司 | 动态分库路由方法、装置、服务器及存储介质 |
WO2020259421A1 (zh) * | 2019-06-28 | 2020-12-30 | 深圳前海微众银行股份有限公司 | 一种业务系统的监控方法及装置 |
CN112487568A (zh) * | 2020-11-12 | 2021-03-12 | 中国科学院金属研究所 | 预测双相钛合金在不同升温速率下组织形貌演化与合金元素配分的相场模拟方法 |
WO2022207375A1 (en) * | 2021-03-31 | 2022-10-06 | Compagnie Generale Des Etablissements Michelin | Method for forecasting the current wear state of an identified tyre installed on an identified aeroplane |
CN116132553A (zh) * | 2023-02-20 | 2023-05-16 | 武汉骏信达信息咨询有限公司 | 一种大数据传输优化方法及系统 |
WO2023083347A1 (zh) * | 2021-11-15 | 2023-05-19 | 清华大学 | 预测型智能汽车决策控制方法、装置、车辆及存储介质 |
CN116596112A (zh) * | 2023-04-10 | 2023-08-15 | 哈博能源科技(苏州)有限公司 | 一种通用冷热电负荷预测方法及系统 |
CN116595895A (zh) * | 2023-06-30 | 2023-08-15 | 云南电网有限责任公司 | 短时电量预测模型的训练方法及短时电量预测方法 |
CN116645132A (zh) * | 2023-05-17 | 2023-08-25 | 北京元年科技股份有限公司 | 基于多因子变量的时序预测方法、装置、电子设备及介质 |
-
2024
- 2024-01-30 CN CN202410122521.8A patent/CN117648383B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100318495A1 (en) * | 2009-06-12 | 2010-12-16 | Sap Ag | Correlation aware synchronization for near real-time decision support |
US20170256172A1 (en) * | 2016-03-04 | 2017-09-07 | Civitas Learning, Inc. | Student data-to-insight-to-action-to-learning analytics system and method |
CN110073301A (zh) * | 2017-08-02 | 2019-07-30 | 强力物联网投资组合2016有限公司 | 工业物联网中具有大数据集的数据收集环境下的检测方法和系统 |
CN107958082A (zh) * | 2017-12-15 | 2018-04-24 | 杭州有赞科技有限公司 | 数据库到数据仓库的离线增量同步方法及系统 |
US20190288915A1 (en) * | 2018-03-19 | 2019-09-19 | Secure-24, Llc | Discovery and migration planning techniques optimized by environmental analysis and criticality |
WO2020232895A1 (zh) * | 2019-05-23 | 2020-11-26 | 平安科技(深圳)有限公司 | 动态分库路由方法、装置、服务器及存储介质 |
WO2020259421A1 (zh) * | 2019-06-28 | 2020-12-30 | 深圳前海微众银行股份有限公司 | 一种业务系统的监控方法及装置 |
CN111354435A (zh) * | 2020-04-24 | 2020-06-30 | 山东体育学院 | 一种基于跑步运动数据的监测方法 |
CN111897859A (zh) * | 2020-09-30 | 2020-11-06 | 知学云(北京)科技有限公司 | 一种面向企业在线教育的大数据智能报表平台 |
CN112487568A (zh) * | 2020-11-12 | 2021-03-12 | 中国科学院金属研究所 | 预测双相钛合金在不同升温速率下组织形貌演化与合金元素配分的相场模拟方法 |
WO2022207375A1 (en) * | 2021-03-31 | 2022-10-06 | Compagnie Generale Des Etablissements Michelin | Method for forecasting the current wear state of an identified tyre installed on an identified aeroplane |
WO2023083347A1 (zh) * | 2021-11-15 | 2023-05-19 | 清华大学 | 预测型智能汽车决策控制方法、装置、车辆及存储介质 |
CN116132553A (zh) * | 2023-02-20 | 2023-05-16 | 武汉骏信达信息咨询有限公司 | 一种大数据传输优化方法及系统 |
CN116596112A (zh) * | 2023-04-10 | 2023-08-15 | 哈博能源科技(苏州)有限公司 | 一种通用冷热电负荷预测方法及系统 |
CN116645132A (zh) * | 2023-05-17 | 2023-08-25 | 北京元年科技股份有限公司 | 基于多因子变量的时序预测方法、装置、电子设备及介质 |
CN116595895A (zh) * | 2023-06-30 | 2023-08-15 | 云南电网有限责任公司 | 短时电量预测模型的训练方法及短时电量预测方法 |
Non-Patent Citations (1)
Title |
---|
姜璐璐等: ""面向机器学习的数据库参数调优技术综述"", 《计算机工程与应用》, 31 August 2023 (2023-08-31), pages 1 - 16 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117931953A (zh) * | 2024-03-22 | 2024-04-26 | 北京谷器数据科技有限公司 | 一种异构数据库数据同步的方法及系统 |
CN117931953B (zh) * | 2024-03-22 | 2024-06-04 | 北京谷器数据科技有限公司 | 一种异构数据库数据同步的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117648383B (zh) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117648383B (zh) | 一种异构数据库实时数据同步方法、装置、设备及介质 | |
CN108134691B (zh) | 模型构建方法、网络资源预加载方法、装置、介质及终端 | |
CN105608758B (zh) | 一种基于算法组态和分布式流计算的大数据分析平台装置及方法 | |
CN107247651B (zh) | 云计算平台监测预警方法和系统 | |
CN111506430B (zh) | 多任务下数据处理的方法、装置及电子设备 | |
CN110969198A (zh) | 深度学习模型的分布式训练方法、装置、设备及存储介质 | |
CN110417587B (zh) | 服务器负载管理 | |
CN110119307B (zh) | 数据处理请求的处理方法、装置、存储介质及电子装置 | |
CN110187838B (zh) | 数据io信息处理方法、分析方法、装置和相关设备 | |
CN112559296A (zh) | 基于prometheus的虚拟机监控方法和工具、电子设备、存储介质 | |
CN111143158A (zh) | 一种监控数据实时存储方法、系统、电子设备及存储介质 | |
CN111125519A (zh) | 用户行为预测方法、装置、电子设备以及存储介质 | |
CN114780244A (zh) | 容器云资源弹性分配方法、装置、计算机设备及介质 | |
CN115412449A (zh) | 一种基于负载预测的容器动态伸缩方法及系统 | |
CN109213745B (zh) | 一种分布式文件存储方法、装置、处理器及存储介质 | |
CN113114500B (zh) | 4g/5g移动通信网络的业务质量对标测试评估方法、装置、计算机设备及存储介质 | |
CN117332897A (zh) | 人工智能驱动的新能源小时间尺度功率插值集成预测方法 | |
CN115905168B (zh) | 基于数据库的自适应压缩方法和装置、设备、存储介质 | |
CN107277104A (zh) | 一种网页访问数据的处理方法及无线路由器 | |
CN107710168B (zh) | 信息处理装置和信息处理方法 | |
CN110502495A (zh) | 一种应用服务器的日志收集方法及装置 | |
CN115543202A (zh) | 缓存管理方法、读取方法、系统、电子设备及存储介质 | |
CN105426038A (zh) | 基于画面热度算法的电网调度控制系统画面预加载方法 | |
CN114153714A (zh) | 基于日志信息的容量调整方法、装置、设备及存储介质 | |
CN115730210A (zh) | 一种数据处理方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |