CN110019445B - 数据同步方法和装置、计算设备和存储介质 - Google Patents

数据同步方法和装置、计算设备和存储介质 Download PDF

Info

Publication number
CN110019445B
CN110019445B CN201710810902.5A CN201710810902A CN110019445B CN 110019445 B CN110019445 B CN 110019445B CN 201710810902 A CN201710810902 A CN 201710810902A CN 110019445 B CN110019445 B CN 110019445B
Authority
CN
China
Prior art keywords
data
segmented
data extraction
file
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710810902.5A
Other languages
English (en)
Other versions
CN110019445A (zh
Inventor
袁建军
刘业辉
王彦明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710810902.5A priority Critical patent/CN110019445B/zh
Publication of CN110019445A publication Critical patent/CN110019445A/zh
Application granted granted Critical
Publication of CN110019445B publication Critical patent/CN110019445B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了一种数据同步方法,包括:启动多个并发执行的数据抽取任务,每个数据抽取任务用于从对应的多个前端服务器抽取数据;如果前端服务器上的文件已被切分,通过数据抽取任务从切分文件抽取数据,否则从当前未切分文件抽取数据;以及通过数据抽取任务将抽取的数据上传到数据仓库。本公开以较少的客户端资源实现了较低延迟的准实时数据同步,为后续数据处理加工提供了强有力的数据保障。

Description

数据同步方法和装置、计算设备和存储介质
技术领域
本公开涉及网络技术,具体涉及数据同步方法和装置、计算设备和存储介质。
背景技术
数据仓库(Data Warehouse,简写为DW或DWH),是为企业所有级别的决策制定过程,提供所有类型数据支持的战略数据集合。数据仓库最重要的是源头数据,即生产系统产生的数据。源头数据包含但不限于如下几种类型:流量数据、订单数据、用户数据等等。流量数据包含了用户访问网站期间所产生的一系列行为,通常需要快速稳定地将流量数据上传到数据仓库,以便后续的数据计算、分析以及挖掘提供强有力的保障。
发明内容
根据本公开的第一方面,提供了一种数据同步方法。所述数据同步方法包括启动多个并发执行的数据抽取任务,每个数据抽取任务用于从对应的多个前端服务器抽取数据。方法还包括:如果前端服务器上的文件已被切分,通过所述数据抽取任务从切分文件抽取数据,否则从当前未切分文件抽取数据。方法还包括通过所述数据抽取任务将抽取的数据上传到数据仓库。
在一个实施例中,所述多个数据抽取任务可以在多个物理机器上运行,并且根据各个物理机器的性能分布在所述多个物理机器上。
在一个实施例中,方法还可以包括读取配置信息,以获取数据在前端服务器的存放目录和上传数据的数据仓库的目录。
在一个实施例中,所述多个前端服务器可以按照一定规则被平均分发到所述多个数据抽取任务。
根据本公开的第二方面,提供了一种数据同步装置。所述数据同步装置包括启动单元、抽取单元和上传单元以及可选的配置读取单元。启动单元被配置为启动多个并发执行的数据抽取任务,其中,每个数据抽取任务用于从对应的多个前端服务器抽取数据。抽取单元被配置为如果前端服务器上的文件已被切分,通过所述数据抽取任务从切分文件抽取数据,否则从当前未切分文件抽取数据。上传单元被配置为通过所述数据抽取任务将抽取的数据上传到数据仓库。
在一个实施例中,所述多个数据抽取任务可以在多个物理机器上运行,并且根据各个物理机器的性能分布在所述多个物理机器上。
在一个实施例中,配置读取单元被配置为读取配置信息,以获取数据在前端服务器的存放目录和上传数据的数据仓库的目录。
在一个实施例中,所述多个前端服务器可以按照一定规则被平均分发到所述多个数据抽取任务。
根据本公开的第三方面,提供了一种计算设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。
根据本公开的第四方面,提供了一种存储介质,所述存储介质存储计算机指令,所述计算机指令当被计算机执行,使得所述计算机执行如第一方面所述的方法。
本公开的实施例通过将线上多个台服务器IP分发到多个任务实例进行并发抽取,通过循环合并抽取当前文件以及切分之后的小时文件,完成数据的准实时抽取以及同步,保证仓库源数据的时效性。因此,本公开的实施例以较少的客户端资源实现了较低延迟的准实时数据同步,为后续数据处理加工提供了强有力的数据保障。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示出了根据本公开实施例的产生流量日志的过程的示意框图;
图2示出了根据本公开实施例的用于将流量日志同步到HDFS的数据同步架构系统的示意图;
图3示出了根据本公开实施例的用于将流量日志同步到HDFS的数据同步逻辑的流程图;
图4示出了根据本公开实施例的数据同步方法的流程图;
图5示出了根据本公开实施例的数据同步装置的示意框图;
图6示出了千兆带宽网络条件下进行日志数据抽取的延时情况示意图。
图7示出了双千兆带宽网络条件下进行日志数据抽取的延时情况示意图。
图8示出了可以应用本公开的用于处理网络数据的方法和装置的示例性系统架构;以及
图9示出了适于用于实现本公开实施例的计算机系统的结构示意图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思,除非上下文另外明确指出。此外,在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。
图1示出了根据本公开实施例的产生流量日志的过程的示意框图。如图所示,流量日志(LOG)由点击流服务器统一进行收集。日志收集完之后一方面进入离线日志模块,另一方面发送至kafka。因此,需要一种技术,能够将LOG模块或者kafka模块的源头数据快速的同步至数据仓库的Hadoop分布式文件系统(HDFS),以便进行后续的加工处理。
通常,为了将日志上传到HDFS,可以使用storm程序对接kafka,将线上生产数据实时同步至HDFS。每隔一定时间(例如10分钟)进行文件的切分,再启动mapreduce程序进行文件合并,根据主键还原出当天的数据情况。对于流量来讲涉及不到同一个主键的状态变更等情况,只是小文件合并为指定大小的文件。然而,storm方式需要耗费大量的storm客户端资源进行流量数据的同步,同时需要额外的mapreduce程序进行数据合并。
另一种方法是使用抽取工具抽取单个ip按小时切分后的文件,调度任务每小时启动一次,结合调度系统完成数据的同步。然而,现有的抽数工具一般只能抽取切分后的小时文件。由于每个小时执行一次,需要等待切分完成之后进行数据文件的抽取以及同步至HDFS,延迟性比较大,在大促期间可能严重影响源头数据的时效性。
有鉴于此,本发明提出了一种如下所述的技术,其相比于以上两种方法,可以在使用较少客户端资源的基础之上,最大程度减少源头数据同步至数据仓库的时间延迟。
图2示出了根据本公开实施例的用于将流量日志同步到HDFS的数据同步架构200的示意图。
如图2所示,在数据同步架构200中,第一排为前端服务器210(nginx)列表,负责采集线上所有访问日志,即LOG模块,此升级版的架构从LOG模块进行数据对接,每台机器对应一个IP地址。第二排为用于从前端服务器210抽取日志数据的抽数任务220。第三排为运行上述抽数任务220的工作站230,也称为物理机器。图2中底部是HDFS服务器240,也是同步日志数据的目的地,通常日志数据被同步到HDFS中的指定目录。如图2所以,系统架构200还包括配置文件250,其中包括用于对整个系统的控制参数。可以看出,根据本公开的系统架构,日志数据从前端服务器210起,经由抽数任务220、工作站230被同步到HDFS 240。以下详述系统200的各个组件各个以及相互之间是如何工作,以便将日志数据快速高效地同步到HDFS。
可以假设线上LOG模块日志机器(例如,上述前端服务器210)有M台,有N个抽数任务220对M台服务器进行平均分配,所述N个抽数任务220同时并发进行数据抽取,M和N是大于等于1的整数。需要将M台前端服务器220平均分发到N个抽取任务220,这可以采取多种方式,例如对M取余、哈希散列等等,从而保证每个抽数任务220分配到一个抽取IP列表(图中未示出)。每个抽取IP列表中分别包括相应的前端服务器210的IP地址,并且每个抽数任务将从这些前端服务器抽取日志数据。
数据同步架构200开始工作时,首先读取配置信息250,获取当前业务源头日志在各个前端服务器210上的存放目录、上传HDFS目录以及其他一些基本信息,比如任务数或索引。配置信息250缓存系统(例如redis)或者磁盘(例如hbase)等介质进行存储,方便抽数任务读取即可。
每个抽数任务220在一台实际的物理机器上(例如图2所示的工作站230)运行。可以依据物理机器的CPU能力、当前负载以及网络带宽等情况进行平均分发,其中一台物理机器可以对应一个或者多个抽数任务实例。抽取完成之后,可以将下载的日志数据文件同步至配置信息250中指定的HDFS目录。
图3示出了根据本公开实施例的用于将流量日志同步到HDFS的数据同步逻辑300的流程图。
如图3所示,数据同步逻辑300在步骤310开始,首先从诸如缓存系统或磁盘读取配置信息(例如图2中配置250),配置中可以包括日志数据在前端服务器上的存放目录、上传HDFS的目录、任务数或索引。基于配置信息,可以确定当前启动的抽数任务的数量,以及该抽数任务的索引。在一些情况下,可以根据当前的需要或负载情况来确定抽取程序的数量和索引。
在步骤320,确定抽取日志数据的前端服务器的IP地址的列表,具体地,可以根据预先配置的抽数任务的索引与前端服务器的IP地址列表的对应关系来确定IP地址列表,也可以动态地为每个抽数任务分配相应的IP地址列表。
在步骤330,确定是否进行小时抽取。在本文中,术语“小时抽取”指的是不必等待nginx服务器将日志文件切分后才进行抽取数据,而是准实时地从nginx的当前日志文件抽取数据。如是,则前进到步骤340,判断日志文件是否已被切分,如是,则前进到步骤360,抽取切分文件,如否,则前进到步骤350,抽取当前文件。需要注意的是,当在整点结束时,确定当前文本被nginx切分为切分文件后,则停止抽取当前文件,而去抽取切分文件。也就是说,对当前文件进行循环抽取,在整点切分后再转向小时切分后的文件进行合并抽取。需要注意的是,虽然这里以小时为单位作为示例来切分日志文件,但是本领域技术人员能够理解,可以以任意合适的时间段来切分日志文件。
然后,在步骤360之后,在数据被抽取到本地后,在步骤370对抽取后日志数据进行数据压缩。接下来,在步骤380,将压缩后的数据上传到HDFS,完成数据同步。
根据结合图2和图3描述的数据同步架构和数据同步逻辑,在本公开中,首先,单个任务实例不仅只负责一个IP的前端服务器的数据同步,可以同时分发多个IP,并发地进行数据抽取,而且抽取任务的数量以及每个抽取认为所负责的前端服务器的数量可以动态调制,提高了单个任务实例的并发。
其次,本公开无需等待前端服务器nginx每小时切分之后再进行数据抽取。当前小时任务启动即开始对文件进行循环抽取,整点nginx切分之后再转向小时切分好的文件进行合并抽取。因此,可以将nginx切分之前抽取客户端的空闲网络进行充分利用。循环合并抽取可以采取比较简单的方式,例如wget,wget有个-c选项resume getting a partially-downloaded file(恢复获取部分下载的文件),可以支持断点续传,任何其他支持断点续传的工具也是可以的。
图4示出了根据本发明实施例的数据同步方法400的流程图。如图4所述,数据同步方法400包括步骤410,启动多个并发执行的数据抽取任务(例如,图2的抽数任务220),每个数据抽取任务从对应的多个前端服务器(例如,图2中的nginx 210)抽取数据。方法400还包括步骤420,如果前端服务器上的文件已被切分,通过所述数据抽取任务从切分文件抽取数据,否则从当前未切分文件抽取数据。方法400还包括步骤430,通过所述数据抽取任务将抽取的数据上传到数据仓库(例如,HDFS)。
在一个实施例中,所述多个数据抽取任务可以在多个物理机器(如图2所示的工作站230)上运行,并且根据各个物理机器的性能分布在所述多个物理机器上。
在一个实施例中,方法400还可以包括读取配置信息,以获取数据在前端服务器的存放目录和上传数据的数据仓库的目录。
在一个实施例中,所述多个前端服务器可以按照一定规则被平均分发到所述多个数据抽取任务。
图5示出了根据本公开实施例的数据同步装置500的示意框图。数据同步装置500包括启动单元510,启动单元510被配置为启动多个并发执行的数据抽取任务,其中,每个数据抽取任务用于从对应的多个前端服务器抽取数据。数据同步装置500包括抽取单元520,抽取单元520被配置为如果前端服务器上的文件已被切分,通过所述数据抽取任务从切分文件抽取数据,否则从当前未切分文件抽取数据。数据同步装置500还包括上传单元530,上传单元530被配置为通过所述数据抽取任务将抽取的数据上传到数据仓库。
在一个实施例中,所述多个数据抽取任务可以在多个物理机器上运行,并且根据各个物理机器的性能分布在所述多个物理机器上。
在一个实施例中,数据同步装置500还包括配置读取单元(未示出),其被配置为读取配置信息,以获取数据在前端服务器的存放目录和上传数据的数据仓库的目录。
在一个实施例中,所述多个前端服务器可以按照一定规则被平均分发到所述多个数据抽取任务。
图6示出了千兆带宽网络条件下进行日志数据抽取的延时情况示意图。在实际操作中,有20个业务线(即抽数任务)对共计300个IP(即300个nginx服务器日志)进行数据抽取,每个IP按小时进行数据切分,每天产生的访问日志有20T左右。
测试使用10台抽取客户端(即工作站),网络环境为千兆带宽,平均分发抽取300个服务器日志的延迟在15~20分钟左右。架构升级后的瓶颈在于网络出带宽,即同步至HDFS的网络带宽。整点切分前数据一直在抽取,入带宽没有压力,切分之后由于之前已经抽取了大部分的数据文件,因此剩余的数据抽取时间降到了最低。合并抽取完之后进行数据仓库同步。延迟在很大程度上取决于上传HDFS即出带宽的延迟情况,出带宽满状态的情况下延迟15~20分钟左右,如图6所示。
图7示出了双千兆带宽网络条件下进行日志数据抽取的延时情况示意图。在提升网络环境情况下,例如千兆带宽升级到双千兆带宽,可以使用更少的客户端实现更低的延迟。如下出带宽整点可以达到200M峰值,延迟降低到5~10分钟,也就是T+1离线任务最早完全可以在凌晨过10分钟调起执行,相比之前技术方案大大提高了时效性,可以实现准实时数据同步,如图7所示。
图8示出了可以应用本公开的用户数据分类方法或用户数据分类装置的示例性系统架构600。
如图8所示,系统架构800可以包括终端设备801、802、803,网络804和服务器805。网络604用以在终端设备801、802、803和服务器805之间提供通信链路的介质。网络804可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备801、802、803通过网络804与服务器805交互,以接收或发送消息等。终端设备801、802、803上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备801、802、803可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器805可以是提供各种服务的服务器,例如对用户利用终端设备801、802、803所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本申请实施例所提供的网络数据处理方法一般由服务器805执行,相应地,网络数据处理装置一般设置于服务器805中。
应该理解,图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图9,其示出了适于用于实现本公开实施例的计算机系统900的结构示意图。图9示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有系统700操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时,执行本公开的系统中限定的上述功能。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

Claims (8)

1.一种数据同步方法,包括:
启动多个并发执行的数据抽取任务,每个数据抽取任务用于从对应的多个前端服务器抽取数据;
如果前端服务器上的文件已被切分,通过所述数据抽取任务从切分文件抽取数据,否则从当前未切分文件抽取数据;以及
通过所述数据抽取任务将抽取的数据上传到数据仓库;
其中,所述多个并发执行的数据抽取任务在多个物理机器上运行,并且根据各个物理机器的性能分布在所述多个物理机器上。
2.根据权利要求1所述的方法,还包括:读取配置信息,以获取数据在前端服务器的存放目录和上传数据的数据仓库的目录。
3.根据权利要求1所述的方法,其中,所述多个前端服务器按照一定规则被平均分发到所述多个数据抽取任务。
4.一种数据同步装置,包括:
启动单元,被配置为启动多个并发执行的数据抽取任务,每个数据抽取任务用于从对应的多个前端服务器抽取数据
抽取单元,被配置为如果前端服务器上的文件已被切分,通过所述数据抽取任务从切分文件抽取数据,否则从当前未切分文件抽取数据;
上传单元,被配置为通过所述数据抽取任务将抽取的数据上传到数据仓库;
其中,所述多个并发执行的数据抽取任务在多个物理机器上运行,并且根据各个物理机器的性能分布在所述多个物理机器上。
5.根据权利要求4所述的装置,还包括配置读取单元,被配置为读取配置信息,以获取数据在前端服务器的存放目录和上传数据的数据仓库的目录。
6.根据权利要求4所述的装置,其中,所述多个前端服务器按照一定规则被平均分发到所述多个数据抽取任务。
7.一种计算设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至3中任一项所述的方法。
8.一种存储介质,所述存储介质存储计算机可读指令,所述计算机 可读指令当被计算机执行,使得所述计算机执行如权利要求1至3中任一项所述的方法。
CN201710810902.5A 2017-09-08 2017-09-08 数据同步方法和装置、计算设备和存储介质 Active CN110019445B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710810902.5A CN110019445B (zh) 2017-09-08 2017-09-08 数据同步方法和装置、计算设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710810902.5A CN110019445B (zh) 2017-09-08 2017-09-08 数据同步方法和装置、计算设备和存储介质

Publications (2)

Publication Number Publication Date
CN110019445A CN110019445A (zh) 2019-07-16
CN110019445B true CN110019445B (zh) 2021-07-06

Family

ID=67186246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710810902.5A Active CN110019445B (zh) 2017-09-08 2017-09-08 数据同步方法和装置、计算设备和存储介质

Country Status (1)

Country Link
CN (1) CN110019445B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597242B (zh) * 2020-12-16 2023-06-06 四川新网银行股份有限公司 一种基于涉及批量任务的应用系统数据切片的抽取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699541A (zh) * 2015-03-30 2015-06-10 北京奇虎科技有限公司 同步数据的方法、装置、数据传输组件及系统
CN106294470A (zh) * 2015-06-03 2017-01-04 北京京东尚科信息技术有限公司 基于切分日志的实时增量日志信息读取的方法
CN106790572A (zh) * 2016-12-27 2017-05-31 广州华多网络科技有限公司 一种分布式日志收集的系统和方法
CN106777046A (zh) * 2016-12-09 2017-05-31 武汉卓尔云市集团有限公司 一种基于nginx日志的数据分析方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6904428B2 (en) * 2001-04-18 2005-06-07 Illinois Institute Of Technology Intranet mediator
CN101770461B (zh) * 2008-12-31 2013-09-25 中国移动通信集团黑龙江有限公司 数据处理方法及处理系统
CN105959151B (zh) * 2016-06-22 2019-05-07 中国工商银行股份有限公司 一种高可用的流式处理系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699541A (zh) * 2015-03-30 2015-06-10 北京奇虎科技有限公司 同步数据的方法、装置、数据传输组件及系统
CN106294470A (zh) * 2015-06-03 2017-01-04 北京京东尚科信息技术有限公司 基于切分日志的实时增量日志信息读取的方法
CN106777046A (zh) * 2016-12-09 2017-05-31 武汉卓尔云市集团有限公司 一种基于nginx日志的数据分析方法
CN106790572A (zh) * 2016-12-27 2017-05-31 广州华多网络科技有限公司 一种分布式日志收集的系统和方法

Also Published As

Publication number Publication date
CN110019445A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN108629029B (zh) 一种应用于数据仓库的数据处理方法和装置
US10540352B2 (en) Remote query optimization in multi data sources
CN111444077A (zh) 一种生成流程节点测试数据的方法和装置
CN110837423A (zh) 一种自动导引运输车数据采集的方法和装置
CN111478781B (zh) 一种消息广播的方法和装置
CN110555068A (zh) 数据导出方法和装置
CN112398669B (zh) 一种Hadoop部署方法和装置
CN113760638A (zh) 一种基于kubernetes集群的日志服务方法和装置
CN107729394A (zh) 基于Hadoop集群的数据集市管理系统及其使用方法
CN110019445B (zh) 数据同步方法和装置、计算设备和存储介质
US9910737B2 (en) Implementing change data capture by interpreting published events as a database recovery log
CN111581930A (zh) 在线表格数据处理方法、装置、电子设备和可读介质
CN111723063A (zh) 一种离线日志数据处理的方法和装置
CN109241040B (zh) 数据清洗的方法和装置
CN112948138A (zh) 一种处理消息的方法和装置
CN109656709B (zh) 一种Codis集群扩容的方法和装置
CN112148705A (zh) 数据迁移的方法和装置
RU2698766C1 (ru) Способ и устройство для передачи, отправки и получения информации
CN115454666A (zh) 消息队列集群间的数据同步方法和装置
CN113761433B (zh) 业务处理方法和装置
CN112688982B (zh) 一种用户请求处理方法和装置
CN112953810A (zh) 一种网络请求的处理方法和装置
CN114647686A (zh) 数据处理方法、装置、设备、介质及产品
CN113760861A (zh) 一种数据迁移的方法和装置
CN112988806A (zh) 一种数据处理的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant