CN109359160A - 数据同步方法、装置、计算机设备及存储介质 - Google Patents

数据同步方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109359160A
CN109359160A CN201811187946.8A CN201811187946A CN109359160A CN 109359160 A CN109359160 A CN 109359160A CN 201811187946 A CN201811187946 A CN 201811187946A CN 109359160 A CN109359160 A CN 109359160A
Authority
CN
China
Prior art keywords
data
tables
information
synchronization
resource allocation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811187946.8A
Other languages
English (en)
Inventor
陈健鹏
林林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811187946.8A priority Critical patent/CN109359160A/zh
Publication of CN109359160A publication Critical patent/CN109359160A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及数据处理领域,并公开了一种数据同步方法、装置、计算机设备及存储介质,其中方法包括:获取待同步数据源中的多个数据表对应的数据表名;根据所述数据表名扫描所述数据源以读取所述数据表中的数据,并统计每个所述数据表的数据量和字段信息作为数据表信息;根据数据表类型确定多个所述数据表对应的同步顺序;将所述数据表信息输入至预先训练的资源配置模型以计算所述数据表对应的资源配置信息;按照所述同步顺序,根据所述资源配置信息对每个所述数据表的数据进行同步。由此提高了数据的同步效率。

Description

数据同步方法、装置、计算机设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据同步方法、装置、计算机设备及存储介质。
背景技术
目前,在大数据处理时会经常遇到各种数据的导入、导出需求,对于数据量较大的数据接入需要使用更多的资源,同时获取数据的维度也需要变小,不然数据同步会非常缓慢,同时数据会把缓冲区占进而满导致触发告警。同理在数据回导的过程中如果数据量非常大,也会导致作业执行非常缓慢。数据的同步时效影响了业务的正常使用,此外数据量的突然变化也会对数据整合作业产生很大的影响。因此在对数据进行同步时需要对数据的规模进行预测,如果数据量变化比较频繁,会导致同步作业效率降低和耗时变长,从而影响下游作业运行。由此有必要一种数据同步方式以解决上述问题。
发明内容
本申请提供了一种数据同步方法、装置、计算机设备及存储介质,旨在提高大数据的同步效率。
本申请提供了一种数据同步方法,其包括:
获取待同步数据源中的多个数据表对应的数据表名;
根据所述数据表名扫描所述数据源以读取所述数据表中的数据,并统计每个所述数据表的数据量和字段信息作为数据表信息;
根据数据表类型确定多个所述数据表对应的同步顺序;
将所述数据表信息输入至预先训练的资源配置模型以计算所述数据表对应的资源配置信息;以及
按照所述同步顺序,根据所述资源配置信息对每个所述数据表的数据进行同步。
本申请提供了一种数据同步装置,其包括:
表名获取单元,用于获取待同步数据源中的多个数据表对应的数据表名;
扫描统计单元,用于根据所述数据表名扫描所述数据源以读取所述数据表中的数据,并统计每个所述数据表的数据量和字段信息作为数据表信息;
顺序确定单元,用于根据数据表类型确定多个所述数据表对应的同步顺序;
资源计算单元,用于将所述数据表信息输入至预先训练的资源配置模型以计算所述数据表对应的资源配置信息;以及
数据同步单元,用于按照所述同步顺序,根据所述资源配置信息对每个所述数据表的数据进行同步。
本申请还提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现本申请提供的任意一项所述的数据同步方法的步骤。
本申请还提供了一种计算机存储介质,其中所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行本申请提供的任意实施例所述的数据同步方法的步骤。
本申请实施例提供了数据同步方法、装置、计算机设备及存储介质,通过获取待同步数据源中的多个数据表对应的数据表名;根据所述数据表名扫描所述数据源以读取所述数据表中的数据,并统计每个所述数据表的数据量和字段信息作为数据表信息;根据数据表类型确定多个所述数据表对应的同步顺序;将所述数据表信息输入至预先训练的资源配置模型以计算所述数据表对应的资源配置信息;按照所述同步顺序,根据所述资源配置信息对每个所述数据表的数据进行同步。由此可见,该方法通过资源配置模型采用历史数据对待同步的数据进行资源预测以及根据数据表类型确定多个数据表的同步顺序,并按照确定的同步顺序和资源配置信息对数据表中的数据进行同步,由此提高了同步效率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的一种数据同步方法的示意流程图;
图2是本申请一实施例提供的训练资源配置模型的步骤示意流程图;
图3是本申请另一实施例提供的一种数据同步方法的示意流程图;
图4是本申请一实施例提供的一种数据同步装置的示意性框图;
图5是本申请另一实施例提供的一种数据同步装置的示意性框图;
图6是本申请一实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本申请一实施例提供的一种数据同步方法的示意流程图。该方法可应用于服务器中,如图1所示,该数据同步方法包括步骤S101~S105。
S101、获取待同步数据源中的多个数据表对应的数据表名。
其中,所述待同步数据源为需要进行数据同步的数据源,该数据源比如为DB数据库,该DB数据库包括多个数据表,每个数据表均对应一个不同的数据表名,用于标记该数据表。
具体地,服务器获取终端发送的待同步数据源中的多个数据表对应的数据表名,其中,所述多个数据表为均需要进行数据同步的表。
在一实施例中,在步骤S101之前,还包括训练资源配置模型的步骤,如图2所示,该步骤具体包括以下内容:
S1011、获取历史数据表以及所述历史数据表对应的作业同步记录信息作为样本数据;S1012、基于逻辑回归算法,根据所述样本数据进行模型训练以得到预先训练的资源配置模型。
具体地,服务器获取历史数据表并对该历史数据表进行解析以获取所述历史数据表的数据表信息,该数据表信息包括数据量和字段信息等。同时扫描所述历史数据表中的作业同步记录信息,该作业同步记录信息记录有同步该历史数据表所需的资源配置信息,将该数据表的数据表信息和作业同步记录信息作为样本数据。
其中,所述历史数据表可以用户通过终端选定的数据表,并将数据表的标识发送至服务器,服务器根据所述标识获取所述标识对应的数据表作为历史数据表。服务器可以根据该样本数据构建特征向量,其中特征向量中的数值与样本数据中的特征对应。将所述特征向量作为输入,以最优资源配置为目标作为输出进行模型训练以得到资源配置模型,并将经过训练得到资源配置模型作为预先训练的资源配置模型进行保存。
S102、根据所述数据表名扫描所述数据源以读取所述数据表中的数据,并统计每个所述数据表的数据量和字段信息作为数据表信息。
具体地,根据所述数据表名扫描相应的数据库以获取相应的数据表以及数据中的数据,该数据表为需要进行数据同步的表,解析该数据表以统计每个数据表的数据量和字段信息作为数据表信息,该数据量可以用字段个数或字段行数进行表示,该字段信息为数据表的字段类型和字段内容。
S103、根据数据表类型确定多个所述数据表对应的同步顺序。
具体地,根据数据表的名称、格式和注释信息等确定所述数据表的类型信息,类型信息为数据表的分类类型,该分类类型比如为业务表、日志表或审计表等。
其中。这些分类类型可以数据表的名称、格式和注释信息进行确认,比如数据表的名称为“寿险2018年上半年数据表”,则可以确定该数据表的类型信息为业务表。当然也可以用格式和注释信息进行进一步确认该数据表的类型信息是否正确,由此提高类型信息确认的准确度。
具体地,基于预设类型信息排序,根据所述类型信息确定多个所述数据表的同步顺序。
比如,该预设类型信息排序为业务表、日志表和审计表对应的顺序,则由此可以根据此排序按照每个数据表的类型信息设置每个数据表的先后同步顺序。表1的类型信息为日志表、表2的类型信息为审计表和表3的类型信息为业务表,则按照预设类型排序确定多个所述数据表的同步顺序为:表3、表1和表2。
S104、将所述数据表信息输入至预先训练的资源配置模型以计算所述数据表对应的资源配置信息。
其中,预先训练的资源配置模型用于根据数据表信息预测当前需要同步的数据表所需的资源配置信息,其中该资源配置信息包括同步方式和分配硬件资源等。该同步方式包括同步周期和高并发同步等方式,该同步周期比如按周同步、按天同步或按小时同步等;分配硬件资源比如包括同步时使用的CPU和内存等硬件资源等。
具体地,将每个数据表的数据表信息输入到预先训练的资源配置模型,根据该资源配置模型可以得到每个数据表对应的资源配置信息。
S105、按照所述同步顺序,根据所述资源配置信息对每个所述数据表的数据进行同步。
具体地,按照上述确定的多个数据表对应的同步顺序,再根据每个数据表对应的资源配置信息对每个数据表中的数据进行同步。
在一实施例中,为了提高同步效率,借助预设同步工具。具体地,步骤S105包括:按照所述同步顺序将所述资源配置信息输入至预设同步工具,以使所述预设同步工具根据所述资源配置信息为所述数据表分配相应的硬件资源并对所述数据表中的数据进行同步,其中,所述预设同步工具包括Sqoop工具,当然也可以采用其他同步工具。
在本实施例中,上述方法通过资源配置模型采用历史数据处理信息对待同步的数据进行资源预测以及根据数据表类型确定多个数据表的同步顺序,并按照确定的同步顺序和资源配置信息对数据表中的数据进行同步,由此提高了同步效率。
请参阅图3,图3是本申请另一实施例提供的一种数据同步方法的示意流程图。该数据同步方法可应用于服务器中,如图3所示,该数据同步方法包括步骤S201~S208。
S201、获取待同步数据源中的多个数据表对应的数据表名。
其中,所述待同步数据源为需要进行数据同步的数据源,该数据源比如为DB数据库,该DB数据库包括多个数据表,每个数据表均对应一个不同的数据表名,用于标记该数据表。具体地,服务器获取终端发送的待同步数据源中的多个数据表对应的数据表名,所述多个数据表为均需要进行数据同步的表。
S202、根据所述数据表名扫描所述数据源以读取所述数据表中的数据,并统计每个所述数据表的数据量和字段信息作为数据表信息。
具体地,根据所述数据表名扫描相应的数据库以获取相应的数据表以及数据中的数据,该数据表为需要进行数据同步的表,解析该数据表以统计每个数据表的数据量和字段信息作为数据表信息,该数据量可以用字段个数或字段行数进行表示,该字段信息为数据表的字段类型和字段内容。
S203、根据所述数据表名获取每个所述数据表对应的备注信息。
具体地,该备注信息包括数据表的表名信息、各式信息和注释信息等。服务器早根据所述数据表名扫描相应的数据库的过程中同时获取每个所述数据表对应的备注信息。
S204、识别所述备注信息中的关键字,并根据识别到的关键字确定所述数据表对应的数据表类型。
具体地,不同类型的数据表,在命名、表的格式以及注释均不相同,因此可以识别所述备注信息中的关键字,并根据识别到的关键字确定所述数据表对应的数据表类型。
比如,表1的命名会出现应用名称,表的格式为log格式,注释信息会出现对应的业务等,由此可以根据这些关键字确定该表1为日志表。
S205、根据所述数据表对应的数据表类型按照预设类型同步规则确定多个所述数据表的同步顺序。
其中,预设类型同步规则为预设类型信息排序所述对应的排序顺序。具体地,基于预设类型信息排序对应的排序顺序,根据所述类型信息确定多个所述数据表的同步顺序。
譬如,该预设类型信息排序对应的排序顺为:业务表、日志表和审计表,由此可根据该排序顺序根据每个数据表的类型信息设置每个数据表的先后同步顺序。比如,表1的类型信息为日志表、表2的类型信息为审计表和表3的类型信息为业务表,则按照预设类型排序确定多个所述数据表的同步顺序为:表3、表1和表2。
S206、将所述数据表信息输入至预先训练的资源配置模型以计算所述数据表对应的资源配置信息。
具体地,将每个数据表的数据表信息输入到预先训练的资源配置模型,根据该资源配置模型可以得到每个数据表对应的资源配置信息。
S207、获取所述待同步数据源对应的同步参数,根据所述资源配置信息对同步参数进行调整。
具体地,所述同步参数为用户确定待同步数据源和该数据源中的数据表名时,同时确定的同步参数信息。其中,该同步参数包括同步周期、主键信息和同步类型等,同步周期包括每天同步或每周同步所述数据表中的数据;主键信息比如输入id#*#update_date,如果同步周期是按天同步,同步参数的输入时间为21日,则该主键信息获取update_date=2018-08-20对应的数据表中的数据;同步类型包括增量同步、全量同步或更新同步等,增量同步是指新增数据方式的同步,全量同步是指全部数据方式的同步,更新同步是指更新相应的数据方式的同步。
S208、按照所述同步顺序,根据调整后的同步参数和所述资源配置信息对每个所述数据表的数据进行同步。
具体地,由于数据表不同时间的数据量可能不同,虽然可以根据资源配置模型预测该数据表同步时所需的资源配置信息,但是若使用最初用户设置的同步参数,依然可能导致同步效率。由此根据资源配置信息调整同步参数,按照所述同步顺序,根据调整后的同步参数和所述资源配置信息对每个所述数据表的数据进行同步。
比如,如果计算的资源配置信息相对增加了,可以间接反应数据表中需要同步数据量较大,由此可以将原来同步参数中的普通同步方式修改成高并发同步方式进行同步,由此提高数据同步效率,避免影响下游作业的运行。
在本实施例中,上述方法通过资源配置模型采用历史数据处理信息对待同步的数据进行资源预测以及根据预测的资源配置信息修改相应的同步参数,并根据数据表类型确定多个数据表的同步顺序,按照确定的同步顺序和资源配置信息对数据表中的数据进行同步,由此提高了同步效率。
图4是本申请实施例提供的一种数据同步装置的示意性框图。如图4所示,对应于以上数据同步方法,本申请还提供一种数据同步装置。该数据同步装置包括用于执行上述数据同步方法的单元,该装置可以被配置于服务器中。
如图4所示,该数据同步装置400包括:样本设置单元401、模型训练单元402、表名获取单元403、扫描统计单元404、顺序确定单元405、资源计算单元406和数据同步单元407。
样本设置单元401。用于获取历史数据表以及所述历史数据表对应的作业同步记录信息作为样本数据;
模型训练单元402,用于基于逻辑回归算法,根据所述样本数据进行模型训练以得到预先训练的资源配置模型。
表名获取单元403,用于获取待同步数据源中的多个数据表对应的数据表名;
扫描统计单元404,用于根据所述数据表名扫描所述数据源以读取所述数据表中的数据,并统计每个所述数据表的数据量和字段信息作为数据表信息;
顺序确定单元405,用于根据数据表类型确定多个所述数据表对应的同步顺序;
资源计算单元406,用于将所述数据表信息输入至预先训练的资源配置模型以计算所述数据表对应的资源配置信息;以及
数据同步单元407,用于按照所述同步顺序,根据所述资源配置信息对每个所述数据表的数据进行同步。
图5是本申请实施例提供的一种数据同步装置的示意性框图。如图5所示,对应于以上数据同步方法,本申请还提供一种数据同步装置。该数据同步装置包括用于执行上述数据同步方法的单元,该装置可以被配置于服务器中。
如图5所示,该数据同步装置500包括:表名获取单元501、扫描统计单元502、备注获取单元503、识别确定单元504、顺序确定单元505、资源计算单元506、获取调整单元507和数据同步单元508。
表名获取单元501,用于获取待同步数据源中的多个数据表对应的数据表名。
扫描统计单元502,用于根据所述数据表名扫描所述数据源以读取所述数据表中的数据,并统计每个所述数据表的数据量和字段信息作为数据表信息。
备注获取单元503,用于根据所述数据表名获取每个所述数据表对应的备注信息。
识别确定单元504,用于识别所述备注信息中的关键字,并根据识别到的关键字确定所述数据表对应的数据表类型。
顺序确定单元505,用于根据所述数据表对应的数据表类型按照预设类型同步规则确定多个所述数据表的同步顺序。
资源计算单元506,用于将所述数据表信息输入至预先训练的资源配置模型以计算所述数据表对应的资源配置信息。
获取调整单元507,用于获取所述待同步数据源对应的同步参数,根据所述资源配置信息对同步参数进行调整。
数据同步单元508,用于按照所述同步顺序,根据调整后的同步参数和所述资源配置信息对每个所述数据表的数据进行同步。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的数据同步装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
上述装置可以实现为一种计算机程序的形式,计算机程序可以在如图6所示的计算机设备上运行。
请参阅图6,图6是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备700可以是服务器。
参照图6,该计算机设备700包括通过系统总线710连接的处理器720、存储器和网络接口750,其中,存储器可以包括非易失性存储介质730和内存储器740。
该非易失性存储介质730可存储操作系统731和计算机程序732。该计算机程序732被执行时,可使得处理器720执行任意一种数据同步方法。
该处理器720用于提供计算和控制能力,支撑整个计算机设备700的运行。
该内存储器740为非易失性存储介质730中的计算机程序732的运行提供环境,该计算机程序732被处理器720执行时,可使得处理器720执行任意一种数据同步方法。
该网络接口750用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备700的限定,具体的计算机设备700可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。其中,所述处理器720用于运行存储在存储器中的程序代码,以实现如下步骤:
获取待同步数据源中的多个数据表对应的数据表名;
根据所述数据表名扫描所述数据源以读取所述数据表中的数据,并统计每个所述数据表的数据量和字段信息作为数据表信息;
根据数据表类型确定多个所述数据表对应的同步顺序;
将所述数据表信息输入至预先训练的资源配置模型以计算所述数据表对应的资源配置信息;以及
按照所述同步顺序,根据所述资源配置信息对每个所述数据表的数据进行同步。
在一实施例中,所述处理器720用于运行存储在存储器中的程序代码实现所述根据数据表类型确定多个所述数据表对应的同步顺序之前,还实现如下步骤:
根据所述数据表名获取每个所述数据表对应的备注信息;以及
识别所述备注信息中的关键字,并根据识别到的关键字确定所述数据表对应的数据表类型。
在一实施例中,所述处理器720用于运行存储在存储器中的程序代码实现所述根据数据表类型确定多个所述数据表对应的同步顺序时,具体实现如下步骤:
根据所述数据表对应的数据表类型按照预设类型同步规则确定多个所述数据表的同步顺序。
在一实施例中,所述处理器720用于运行存储在存储器中的程序代码实现所述获取待同步数据源中的多个数据表对应的数据表名之前,还实现如下步骤:
获取历史数据表以及所述历史数据表对应的作业同步记录信息作为样本数据;
基于逻辑回归算法,根据所述样本数据进行模型训练以得到预先训练的资源配置模型。
在一实施例中,所述处理器720用于运行存储在存储器中的程序代码实现所述按照所述同步顺序,根据所述资源配置信息对每个所述数据表的数据进行同步时,具体实现如下步骤:
按照所述同步顺序将所述资源配置信息输入至预设同步工具,以使所述预设同步工具根据所述资源配置信息为所述数据表分配相应的硬件资源并对所述数据表中的数据进行同步,其中,所述预设同步工具包括Sqoop工具。
在一实施例中,所述处理器720用于运行存储在存储器中的程序代码实现所述按照所述同步顺序,根据所述资源配置信息对每个所述数据表的数据进行同步之前,还实现如下步骤:
获取所述待同步数据源对应的同步参数,根据所述资源配置信息对同步参数进行调整;
所述处理器720用于运行存储在存储器中的程序代码实现所述按照所述同步顺序,根据所述资源配置信息对每个所述数据表的数据进行同步时,具体实现如下步骤:
按照所述同步顺序,根据调整后的同步参数和所述资源配置信息对每个所述数据表的数据进行同步。
在一实施例中,所述同步参数包括同步周期、主键信息和同步类型。
应当理解,在本申请实施例中,处理器720可以是中央处理单元(CentralProcessing Unit,CPU),该处理器720还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域技术人员可以理解,图6中示出的计算机设备700结构并不构成对计算机设备700的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本领域普通技术人员可以理解的是实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。如本发明实施例中,该计算机程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程步骤。
该计算机可读存储介质可以是磁碟、光盘、U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的数据同步装置和方法,可以通过其它的方式实现。例如,以上所描述的数据同步装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种数据同步方法,其特征在于,包括:
获取待同步数据源中的多个数据表对应的数据表名;
根据所述数据表名扫描所述数据源以读取所述数据表中的数据,并统计每个所述数据表的数据量和字段信息作为数据表信息;
根据数据表类型确定多个所述数据表对应的同步顺序;
将所述数据表信息输入至预先训练的资源配置模型以计算所述数据表对应的资源配置信息;以及
按照所述同步顺序,根据所述资源配置信息对每个所述数据表的数据进行同步。
2.根据权利要求1所述的数据同步方法,其特征在于,所述根据数据表类型确定多个所述数据表对应的同步顺序之前,还包括:
根据所述数据表名获取每个所述数据表对应的备注信息;以及
识别所述备注信息中的关键字,并根据识别到的关键字确定所述数据表对应的数据表类型。
3.根据权利要求2所述的数据同步方法,其特征在于,所述根据数据表类型确定多个所述数据表对应的同步顺序,包括:
根据所述数据表对应的数据表类型按照预设类型同步规则确定多个所述数据表的同步顺序。
4.根据权利要求1所述的数据同步方法,其特征在于,所述获取待同步数据源中的多个数据表对应的数据表名之前,还包括:
获取历史数据表以及所述历史数据表对应的作业同步记录信息作为样本数据;
基于逻辑回归算法,根据所述样本数据进行模型训练以得到预先训练的资源配置模型。
5.根据权利要求1所述的数据同步方法,其特征在于,所述按照所述同步顺序,根据所述资源配置信息对每个所述数据表的数据进行同步,包括:
按照所述同步顺序将所述资源配置信息输入至预设同步工具,以使所述预设同步工具根据所述资源配置信息为所述数据表分配相应的硬件资源并对所述数据表中的数据进行同步,其中,所述预设同步工具包括Sqoop工具。
6.根据权利要求1所述的数据同步方法,其特征在于,所述按照所述同步顺序,根据所述资源配置信息对每个所述数据表的数据进行同步之前,还包括:
获取所述待同步数据源对应的同步参数,根据所述资源配置信息对同步参数进行调整;
所述按照所述同步顺序,根据所述资源配置信息对每个所述数据表的数据进行同步,包括:
按照所述同步顺序,根据调整后的同步参数和所述资源配置信息对每个所述数据表的数据进行同步。
7.根据权利要求6所述的数据同步方法,其特征在于,所述同步参数包括同步周期、主键信息和同步类型。
8.一种数据同步装置,其特征在于,包括:
表名获取单元,用于获取待同步数据源中的多个数据表对应的数据表名;
扫描统计单元,用于根据所述数据表名扫描所述数据源以读取所述数据表中的数据,并统计每个所述数据表的数据量和字段信息作为数据表信息;
顺序确定单元,用于根据数据表类型确定多个所述数据表对应的同步顺序;
资源计算单元,用于将所述数据表信息输入至预先训练的资源配置模型以计算所述数据表对应的资源配置信息;以及
数据同步单元,用于按照所述同步顺序,根据所述资源配置信息对每个所述数据表的数据进行同步。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行如权利要求1至7任意一项所述方法的步骤。
CN201811187946.8A 2018-10-12 2018-10-12 数据同步方法、装置、计算机设备及存储介质 Pending CN109359160A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811187946.8A CN109359160A (zh) 2018-10-12 2018-10-12 数据同步方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811187946.8A CN109359160A (zh) 2018-10-12 2018-10-12 数据同步方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN109359160A true CN109359160A (zh) 2019-02-19

Family

ID=65348972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811187946.8A Pending CN109359160A (zh) 2018-10-12 2018-10-12 数据同步方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN109359160A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110062029A (zh) * 2019-03-21 2019-07-26 深圳壹账通智能科技有限公司 变更数据同步的方法、装置、计算机设备及计算机存储介质
CN110096548A (zh) * 2019-03-21 2019-08-06 深圳壹账通智能科技有限公司 数据同步的方法、装置、计算机设备及计算机存储介质
CN110569231A (zh) * 2019-09-09 2019-12-13 江苏满运软件科技有限公司 数据迁移方法、装置、设备和介质
CN111708841A (zh) * 2020-06-08 2020-09-25 中国工商银行股份有限公司 数据库数据同步方法及装置
CN113986243A (zh) * 2021-10-26 2022-01-28 腾讯科技(深圳)有限公司 资源同步方法以及相关设备
WO2023164998A1 (zh) * 2022-03-04 2023-09-07 长鑫存储技术有限公司 数据同步方法、装置、存储介质和电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5870765A (en) * 1996-10-09 1999-02-09 Oracle Corporation Database synchronizer
CN104572672A (zh) * 2013-10-15 2015-04-29 北大方正集团有限公司 异构数据库的同步方法和应用系统
CN105787077A (zh) * 2016-03-02 2016-07-20 百度在线网络技术(北京)有限公司 数据同步方法和装置
CN105930493A (zh) * 2016-05-04 2016-09-07 北京思特奇信息技术股份有限公司 一种不同数据库间数据同步的方法和系统
CN106021494A (zh) * 2016-05-19 2016-10-12 中国银联股份有限公司 一种主数据同步方法及装置
CN106776894A (zh) * 2016-11-29 2017-05-31 北京众享比特科技有限公司 日志数据库系统和同步方法
WO2017120087A1 (en) * 2016-01-08 2017-07-13 Microsoft Technology Licensing, Llc Database operation using metadata of data sources
CN107908631A (zh) * 2017-07-25 2018-04-13 平安科技(深圳)有限公司 数据处理方法、装置、存储介质和计算机设备
CN108536745A (zh) * 2018-02-24 2018-09-14 平安科技(深圳)有限公司 基于Shell的数据表提取方法、终端、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5870765A (en) * 1996-10-09 1999-02-09 Oracle Corporation Database synchronizer
CN104572672A (zh) * 2013-10-15 2015-04-29 北大方正集团有限公司 异构数据库的同步方法和应用系统
WO2017120087A1 (en) * 2016-01-08 2017-07-13 Microsoft Technology Licensing, Llc Database operation using metadata of data sources
CN105787077A (zh) * 2016-03-02 2016-07-20 百度在线网络技术(北京)有限公司 数据同步方法和装置
CN105930493A (zh) * 2016-05-04 2016-09-07 北京思特奇信息技术股份有限公司 一种不同数据库间数据同步的方法和系统
CN106021494A (zh) * 2016-05-19 2016-10-12 中国银联股份有限公司 一种主数据同步方法及装置
CN106776894A (zh) * 2016-11-29 2017-05-31 北京众享比特科技有限公司 日志数据库系统和同步方法
CN107908631A (zh) * 2017-07-25 2018-04-13 平安科技(深圳)有限公司 数据处理方法、装置、存储介质和计算机设备
CN108536745A (zh) * 2018-02-24 2018-09-14 平安科技(深圳)有限公司 基于Shell的数据表提取方法、终端、设备及存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110062029A (zh) * 2019-03-21 2019-07-26 深圳壹账通智能科技有限公司 变更数据同步的方法、装置、计算机设备及计算机存储介质
CN110096548A (zh) * 2019-03-21 2019-08-06 深圳壹账通智能科技有限公司 数据同步的方法、装置、计算机设备及计算机存储介质
CN110569231A (zh) * 2019-09-09 2019-12-13 江苏满运软件科技有限公司 数据迁移方法、装置、设备和介质
CN110569231B (zh) * 2019-09-09 2022-10-14 江苏满运软件科技有限公司 数据迁移方法、装置、设备和介质
CN111708841A (zh) * 2020-06-08 2020-09-25 中国工商银行股份有限公司 数据库数据同步方法及装置
CN111708841B (zh) * 2020-06-08 2024-01-23 中国工商银行股份有限公司 数据库数据同步方法及装置
CN113986243A (zh) * 2021-10-26 2022-01-28 腾讯科技(深圳)有限公司 资源同步方法以及相关设备
CN113986243B (zh) * 2021-10-26 2023-06-13 腾讯科技(深圳)有限公司 资源同步方法以及相关设备
WO2023164998A1 (zh) * 2022-03-04 2023-09-07 长鑫存储技术有限公司 数据同步方法、装置、存储介质和电子设备

Similar Documents

Publication Publication Date Title
CN109359160A (zh) 数据同步方法、装置、计算机设备及存储介质
US11164131B2 (en) Measure factory
CN110292775B (zh) 获取差异数据的方法及装置
CN110502516A (zh) 表格数据解析方法、装置、计算机设备及存储介质
CN105989059A (zh) 数据记录核对方法及装置
CN109800269A (zh) 数据管理方法、装置、计算机设备及存储介质
US20140222766A1 (en) System and method for database migration and validation
CN110781183A (zh) Hive数据库中增量数据的处理方法、装置以及计算机设备
CN109002971A (zh) 任务管理方法、装置、计算机设备及存储介质
CN109272402A (zh) 评分卡的建模方法、装置、计算机设备及存储介质
CN109086433A (zh) 一种基于大数据分析的文件管理方法及服务器
CN107066536A (zh) 评论确定方法及装置
CN113312529A (zh) 一种数据可视化方法、装置、计算机设备及存储介质
CN109377184A (zh) 工单开立方法、装置、存储介质及终端
US20220292424A1 (en) Measure factory
CN111221690A (zh) 针对集成电路设计的模型确定方法、装置及终端
CN106354398A (zh) 事件信息处理方法及装置
CN110347657A (zh) 数据生成方法、装置、电子设备及存储介质
CN111984657B (zh) 数据归集方法、装置、存储介质及计算机设备
CN109766089A (zh) 基于动图的代码生成方法、装置、电子设备及存储介质
CN109614416A (zh) 一种基于数据统计分析的发票管理方法及装置
CN111639057A (zh) 日志消息处理方法、装置、计算机设备及存储介质
JP2008299496A (ja) 業務シミュレータおよびそのプログラム
CN109857501A (zh) 一种app的页面展示方法、装置、存储介质和服务器
CN110069595A (zh) 语料标签确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination