CN112434001B - 支持数据预处理的多数据源可配置MongoDB数据同步系统、电子设备及介质 - Google Patents

支持数据预处理的多数据源可配置MongoDB数据同步系统、电子设备及介质 Download PDF

Info

Publication number
CN112434001B
CN112434001B CN202011332564.7A CN202011332564A CN112434001B CN 112434001 B CN112434001 B CN 112434001B CN 202011332564 A CN202011332564 A CN 202011332564A CN 112434001 B CN112434001 B CN 112434001B
Authority
CN
China
Prior art keywords
data
module
oplog
document
management module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011332564.7A
Other languages
English (en)
Other versions
CN112434001A (zh
Inventor
刘晓元
王鹏
李青
李鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Original Assignee
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Institute of Information Technology AIIT of Peking University, Hangzhou Weiming Information Technology Co Ltd filed Critical Advanced Institute of Information Technology AIIT of Peking University
Priority to CN202011332564.7A priority Critical patent/CN112434001B/zh
Publication of CN112434001A publication Critical patent/CN112434001A/zh
Application granted granted Critical
Publication of CN112434001B publication Critical patent/CN112434001B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种支持数据预处理的多数据源可配置MongoDB数据同步系统、电子设备及介质。其中,通过应用本申请的技术方案,可以实现单MongoDB数据源向多数据源数据同步以及多MongoDB数据源向多数据源数据同步,内置文档管理模块支持主流数据源,同时也支持自定义文档管理模块,减少不同数据源使用多种同步方法,简化系统,提升同步文档的效率。

Description

支持数据预处理的多数据源可配置MongoDB数据同步系统、电 子设备及介质
技术领域
本申请中涉及数据处理技术,尤其是一种支持数据预处理的多数据源可配置MongoDB数据同步系统、电子设备及介质。
背景技术
MongoDB是一个基于分布式文件存储的数据库,因其高性能、易部署、易使用,存储数据方便被广泛应用。实际需求中常有MongoDB数据同步至其他数据库、应用组件的场景,例如MongoDB数据同步至Elasticsearch提供大数据量的搜索、分析,MongoDB数据同步至HBase,提供对海量数据快速、实时的读写访问、MongoDB数据库之间进行数据同步。
然而,现有技术中存在的数据库同步方法,缺失支持多数据源的同步方法。这也影响了用户体验。
发明内容
本申请实施例提供一种支持数据预处理的多数据源可配置MongoDB数据同步系统、电子设备及介质。
其中,根据本申请实施例的一个方面,提供的一种支持数据预处理的多数据源可配置MongoDB数据同步系统,其特征在于,包括:
同步连接器主线程模块,被配置为进行初始化文档管理模块、维护oplog进度、处理异常以及管理oplog管理线程;
oplog管理模块,被配置为维护操作日志oplog.rs,以及所述oplog管理模块用于对待同步文档进行集合转储、数据预处理、数据映射、触发文档;
数据预处理模块,被配置为将文件初始化模块加载完成的所述待同步文档进行数据预处理;
数据映射模块,被配置为将所述进行数据预处理后的待同步文档映射成第一标准的源数据文档;
所述文档管理模块,被配置为将所述映射成第一标准的源数据文档传递到目标数据源处。
可选地,在基于本申请上述系统的另一个实施例中,配置文件初始化模块,其中:
所述配置文件初始化模块,被配置为加载以及解析配置文件,其中包括全局配置解析模块、日志配置解析模块、权限认证解析模块、命名空间配置解析模块、数据预处理配置解析模块、数据映射配置解析模块以及文档管理模块配置解析模块。
可选地,在基于本申请上述系统的另一个实施例中,所述同步连接器主线程模块,包括:
所述同步连接器主线程模块,被配置为识别所述待同步文档的数据库类型,并基于所述数据库类型,创建对应数量的oplog管理线程,所述数据库类型包括MongoDB数据库、Mongod数据库以及Mongos数据库的任意一种。
可选地,在基于本申请上述系统的另一个实施例中,所述oplog管理模块,包括:
所述oplog管理模块,被配置为当检测到所述待同步文档数量低于第一阈值时,将所述待同步文档直接同步至目标数据源目标数据源处;
所述oplog管理模块,还被配置为当检测到所述待同步文档数量高于所述第一阈值时,将所述待同步文档同步至Kafka对应的topic处;并利用所述主线程模块消费所述topic中的消息后,调用所述文档管理模块传递所述源数据文档至所述目标数据源处。
可选地,在基于本申请上述系统的另一个实施例中,所述oplog管理模块,包括:
所述oplog管理模块,被配置为当检测到首次运行时,进行集合转储操作;以及,创建oplog.rs标识,所述oplog.rs标识用于对多条操作记录按照生成顺序进行依序标注;
根据所述oplog.rs标识,顺序读取所述多条操作记录。
可选地,在基于本申请上述系统的另一个实施例中,所述数据预处理模块,包括:
所述数据预处理模块,被配置为读取加载解析的预处理配置项,进行预处理操作;
所述数据预处理模块,还被配置为当检测到oplog日志操作类型为更新操作类型时,判断是否需要读取源数据进行预处理操作。
可选地,在基于本申请上述系统的另一个实施例中,所述数据映射模块,包括:
所述数据映射模块,被配置为读取加载解析的数据映射配置项,进行数据映射。
所述数据映射模块,还被配置为将多层级结构映射为单层级结构;
所述数据映射模块,还被配置将单层级结构映射为指定字段;以及将多字段聚合映射为单字段。
可选地,在基于本申请上述系统的另一个实施例中,所述文档管理模块,包括Elasticsearch文档管理模块、MongoDB文档管理模块、Hbase文档管理模块、Kafka文档管理模块以及自定义文档管理模块的其中至少一种。
根据本申请实施例的又一个方面,提供的一种电子设备,包括:
存储器,用于存储可执行指令;以及
显示器,用于与所述存储器显示以执行所述可执行指令从而完成上述任一所述支持数据预处理的多数据源可配置MongoDB数据同步系统的操作。
根据本申请实施例的还一个方面,提供的一种计算机可读存储介质,用于存储计算机可读取的指令,所述指令被执行时执行上述任一所述支持数据预处理的多数据源可配置MongoDB数据同步系统的操作。
本申请中,可以包括同步连接器主线程模块,被配置为进行初始化文档管理模块、维护oplog进度、处理异常以及管理oplog管理线程;oplog管理模块,被配置为维护操作日志oplog.rs,以及所述oplog管理模块用于对待同步文档进行集合转储、数据预处理、数据映射、触发文档;数据预处理模块,被配置为将文件初始化模块加载完成的所述待同步文档进行数据预处理;数据映射模块,被配置为将所述进行数据预处理后的待同步文档映射成第一标准的源数据文档;所述文档管理模块,被配置为将所述映射成第一标准的源数据文档传递到目标数据源处。通过应用本申请的技术方案,可以实现单MongoDB数据源向多数据源数据同步以及多MongoDB数据源向多数据源数据同步,内置文档管理模块支持主流数据源,同时也支持自定义文档管理模块,减少不同数据源使用多种同步方法,简化系统,提升同步文档的效率。
下面通过附图和实施例,对本申请的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本申请的实施例,并且连同描述一起用于解释本申请的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本申请,其中:
图1为本申请提出的支持数据预处理的多数据源可配置MongoDB数据同步系统的示意图;
图2a-图2b为本申请提出的主线程模块以及相关模块的执行步骤示意图;
图3为本申请提出的oplog管理模块的流程图;
图4为本申请提出的采用基于Kafka实现的oplog管理模块的流程示意图;
图5为本申请提出的oplog进度文件的更新流程图;
图6为本申请提出的电子设备结构示意图。
具体实施方式
现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,不作为对本申请及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、系统和设备可能不作详细讨论,但在适当情况下,所述技术、系统和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
另外,本申请各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
需要说明的是,本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
下面结合图1-图5来描述根据本申请示例性实施方式的用于进行支持数据预处理的多数据源可配置MongoDB数据同步系统。需要注意的是,下述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
本申请还提出一种支持数据预处理的多数据源可配置MongoDB数据同步系统、电子设备及介质。
图1示意性地示出了根据本申请实施方式的一种支持数据预处理的多数据源可配置MongoDB数据同步系统的流程示意图。如图1所示,该系统包括:
同步连接器主线程模块,被配置为进行初始化文档管理模块、维护oplog进度、处理异常以及管理oplog管理线程;
oplog管理模块,被配置为维护操作日志oplog.rs,以及所述oplog管理模块用于对待同步文档进行集合转储、数据预处理、数据映射、触发文档;
数据预处理模块,被配置为将文件初始化模块加载完成的所述待同步文档进行数据预处理;
数据映射模块,被配置为将所述进行数据预处理后的待同步文档映射成第一标准的源数据文档;
所述文档管理模块,被配置为将所述映射成第一标准的源数据文档传递到目标数据源处。
首先,本申请提出的支持数据预处理的多数据源可配置MongoDB数据同步系统中,需要进行数据源准备,其中可以包括Mongo数据源准备以及目标数据源准备。另外,当采用基于Kafka实现的oplog管理模块时,还需要Kafka消息系统准备。需要说明的是,当文档数据同步基于oplog操作记录实现时,MongoDB需要开启oplog操作日志功能。
进一步的,同步系统中还需要进行配置文件准备,其中包含全局配置、日志配置、权限认证配置、命名空间配置、数据预处理配置、数据映射配置、文档管理模块配置。
具体的,全局配置项可以包含源数据文档、oplog进度文件路径、批处理操作记录大小、异常时oplog管理线程继续、oplog管理线程初次启动不进行集合转储、采用基于Kafka实现的oplog管理模块等参数。日志配置项包含日志路径、日志类型、系统日志等。另外,权限认证配置项包含源数据文档用户名、密码等。数据预处理配置项包含内置预处理配置、自定义预处理配置,内置预处理配置包含过滤项配置和限制数量配置,过滤项配置支持常规查询操作,限制数量配置用于限制数组返回数量。数据映射配置项包映射字段。文档管理模块配置项包含目标数据源、批处理大小、自定义参数等。
在进一步的,本申请中的同步连接器主线程模块,包含初始化、创建oplog管理线程、维护oplog进度以及异常处理。其中,如图2a-2b所示,主线程模块以及相关模块的执行步骤如下:
第一步:配置文件初始化模块会加载并解析预先准备的配置文件。若数据预处理配置中有自定义预处理配置custom,会预编译自定义预处理配置,便于后续直接进行数据预处理操作。
第二步:文档管理模块配置中的文档管理模块也会被初始化,一种方式中,当采用基于Kafka实现的oplog管理模块时,会默认初始化Kafka文档管理模块以及Kafka消费线程池。
第三步:检查oplog进度文件,若文件不存在,则创建oplog进度文件。
第四步:Oplog操作记录处理任务会交给oplog管理线程处理,主线程模块会可能会创建多个oplog管理线程,并可以通过向节点发送isdbgrid命令,判断节点是否是mongos分片集群,针对非mongos节点,会为对应副本集主节点会创建oplog管理线程,否则为mongos分片集群管理的每个分片主节点创建oplog管理线程。
第五步:主线程模块的后续主要工作就是维护oplog进度和处理异常。如图5oplog进度文件的更新流程图所示,进度文件更新会在有或没有集合转储的情况下发生。主线程每次写入进度前,会先创建进度文件备份副本,然后写入,替换oplog进度文件并删除备份副本。主线程模块负责监视每个oplog管理线程的进度,定时更新进度文件。oplog管理线程会在以下时间点发布进度:批量处理oplog记录后,或处理所有可用的oplog记录后,或oplog管理线程发生异常时,或oplog管理线程启动时以及回滚时。
再者,如图3所示,为oplog管理模块的流程图,其中包括:1、oplog管理线程启动后,会创建oplog.rs标识,便于以自然顺序返回文档,跟踪oplog记录,MongoDB的副本集也是使用标识来跟踪主节点的oplog。2、当无oplog进度或oplog进度无法在oplog日志记录寻址,oplog管理线程会进行一次集合转储,集合转储结束后,会更新oplog进度至集合转储记录检查点。3、集合转储或者跟踪oplog日志记录文档,会读取数据预处理配置、数据映射配置配置,进行数据预处理和数据映射。4、根据增删改查命令以及其他command命令调用配置文档管理模块方法,将文档传递至目标数据源。
更进一步的,如图4所示,为本申请提出的采用基于Kafka实现的oplog管理模块的流程示意图,文档管理模块默认为Kafka文档管理模块。另外,在采用基于Kafka实现的oplog管理模块时,初始化加载时默认初始化Kafka文档管理模块以及Kafka消费线程池。如图5所示,Kafka消费线程池消费Kafka文档管理模块指定的topic消息,根据增删改查命令以及其他command命令调用配置文档管理模块方法。
本申请中,可以包括同步连接器主线程模块,被配置为进行初始化文档管理模块、维护oplog进度、处理异常以及管理oplog管理线程;oplog管理模块,被配置为维护操作日志oplog.rs,以及所述oplog管理模块用于对待同步文档进行集合转储、数据预处理、数据映射、触发文档;数据预处理模块,被配置为将文件初始化模块加载完成的所述待同步文档进行数据预处理;数据映射模块,被配置为将所述进行数据预处理后的待同步文档映射成第一标准的源数据文档;所述文档管理模块,被配置为将所述映射成第一标准的源数据文档传递到目标数据源处。通过应用本申请的技术方案,可以实现单MongoDB数据源向多数据源数据同步以及多MongoDB数据源向多数据源数据同步,内置文档管理模块支持主流数据源,同时也支持自定义文档管理模块,减少不同数据源使用多种同步方法,简化系统,提升同步文档的效率。
图6是根据一示例性实施例示出的一种电子设备的逻辑结构框图。例如,电子设备300可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由电子设备处理器执行以完成上述支持数据预处理的多数据源可配置MongoDB数据同步系统,该系统包括:同步连接器主线程模块,被配置为进行初始化文档管理模块、维护oplog进度、处理异常以及管理oplog管理线程;oplog管理模块,被配置为维护操作日志oplog.rs,以及所述oplog管理模块用于对待同步文档进行集合转储、数据预处理、数据映射、触发文档;数据预处理模块,被配置为将文件初始化模块加载完成的所述待同步文档进行数据预处理;数据映射模块,被配置为将所述进行数据预处理后的待同步文档映射成第一标准的源数据文档;所述文档管理模块,被配置为将所述映射成第一标准的源数据文档传递到目标数据源处。可选地,上述指令还可以由电子设备的处理器执行以完成上述示例性实施例中所涉及的其他步骤。例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种应用程序/计算机程序产品,包括一条或多条指令,该一条或多条指令可以由电子设备的处理器执行,以完成上述支持数据预处理的多数据源可配置MongoDB数据同步系统,该系统包括:同步连接器主线程模块,被配置为进行初始化文档管理模块、维护oplog进度、处理异常以及管理oplog管理线程;oplog管理模块,被配置为维护操作日志oplog.rs,以及所述oplog管理模块用于对待同步文档进行集合转储、数据预处理、数据映射、触发文档;数据预处理模块,被配置为将文件初始化模块加载完成的所述待同步文档进行数据预处理;数据映射模块,被配置为将所述进行数据预处理后的待同步文档映射成第一标准的源数据文档;所述文档管理模块,被配置为将所述映射成第一标准的源数据文档传递到目标数据源处。可选地,上述指令还可以由电子设备的处理器执行以完成上述示例性实施例中所涉及的其他步骤。
图5为计算机设备的示例图。本领域技术人员可以理解,示意图5仅仅是计算机设备的示例,并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器301可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器301也可以是任何常规的处理器等,处理器301是计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分。
存储器302可用于存储计算机可读指令,处理器301通过运行或执行存储在存储器302内的计算机可读指令或模块,以及调用存储在存储器302内的数据,实现计算机设备的各种功能。存储器302可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器302可以包括硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)或其他非易失性/易失性存储器件。
计算机设备集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例系统中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,的计算机可读指令可存储于一计算机可读存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个系统实施例的步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (7)

1.一种支持数据预处理的多数据源可配置MongoDB数据同步系统,其特征在于,包括:
同步连接器主线程模块,被配置为进行初始化文档管理模块、维护oplog进度、处理异常以及管理oplog管理线程;
oplog管理模块,被配置为维护操作日志oplog.rs,以及所述oplog管理模块用于对待同步文档进行集合转储、数据预处理、数据映射、触发文档;
数据预处理模块,被配置为将文件初始化模块加载完成的所述待同步文档进行数据预处理;
数据映射模块,被配置为将所述进行数据预处理后的待同步文档映射成第一标准的源数据文档;
所述文档管理模块,被配置为将所述映射成第一标准的源数据文档传递到目标数据源处;
其中,所述数据映射模块,包括:
所述数据映射模块,被配置为读取加载解析的数据映射配置项,进行数据映射;
所述数据映射模块,还被配置为将多层级结构映射为单层级结构;
所述数据映射模块,还被配置将单层级结构映射为指定字段;以及将多字段聚合映射为单字段;
其中,同步连接器主线程模块,包括:
所述同步连接器主线程模块,被配置为识别所述待同步文档的数据库类型,并基于所述数据库类型,创建对应数量的oplog管理线程,所述数据库类型包括MongoDB数据库、Mongod数据库以及Mongos数据库的任意一种;
所述oplog管理模块,包括:
所述oplog管理模块,被配置为当检测到所述待同步文档数量低于第一阈值时,将所述待同步文档直接同步至目标数据源目标数据源处;
所述oplog管理模块,还被配置为当检测到所述待同步文档数量高于所述第一阈值时,将所述待同步文档同步至Kafka对应的topic处;并利用所述主线程模块消费所述topic中的消息后,调用所述文档管理模块传递所述源数据文档至所述目标数据源处。
2.如权利要求1所述的系统,其特征在于,还包括,配置文件初始化模块,其中:
所述配置文件初始化模块,被配置为加载以及解析配置文件,其中包括全局配置解析模块、日志配置解析模块、权限认证解析模块、命名空间配置解析模块、数据预处理配置解析模块、数据映射配置解析模块以及文档管理模块配置解析模块。
3.如权利要求1所述的系统,其特征在于,所述oplog管理模块,包括:
所述oplog管理模块,被配置为当检测到首次运行时,进行集合转储操作;以及,创建oplog.rs标识,所述oplog.rs标识用于对多条操作记录按照生成顺序进行依序标注;
根据所述oplog.rs标识,顺序读取所述多条操作记录。
4.如权利要求1所述的系统,其特征在于,所述数据预处理模块,包括:
所述数据预处理模块,被配置为读取加载解析的预处理配置项,进行预处理操作;
所述数据预处理模块,还被配置为当检测到oplog日志操作类型为更新操作类型时,判断是否需要读取源数据进行预处理操作。
5.如权利要求1所述的系统,其特征在于,所述文档管理模块,包括Elasticsearch文档管理模块、MongoDB文档管理模块、Hbase文档管理模块、Kafka文档管理模块以及自定义文档管理模块的其中至少一种。
6.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;以及,
处理器,用于与所述存储器显示以执行所述可执行指令从而完成权利要求1-5中任一所述支持数据预处理的多数据源可配置MongoDB数据同步系统的操作。
7.一种计算机可读存储介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时执行权利要求1-5中任一所述支持数据预处理的多数据源可配置MongoDB数据同步系统的操作。
CN202011332564.7A 2020-11-24 2020-11-24 支持数据预处理的多数据源可配置MongoDB数据同步系统、电子设备及介质 Active CN112434001B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011332564.7A CN112434001B (zh) 2020-11-24 2020-11-24 支持数据预处理的多数据源可配置MongoDB数据同步系统、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011332564.7A CN112434001B (zh) 2020-11-24 2020-11-24 支持数据预处理的多数据源可配置MongoDB数据同步系统、电子设备及介质

Publications (2)

Publication Number Publication Date
CN112434001A CN112434001A (zh) 2021-03-02
CN112434001B true CN112434001B (zh) 2023-07-04

Family

ID=74694069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011332564.7A Active CN112434001B (zh) 2020-11-24 2020-11-24 支持数据预处理的多数据源可配置MongoDB数据同步系统、电子设备及介质

Country Status (1)

Country Link
CN (1) CN112434001B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804576A (zh) * 2018-05-22 2018-11-13 华中科技大学 一种基于链接分析的域名层级结构探测方法
CN110377854A (zh) * 2019-05-31 2019-10-25 平安科技(深圳)有限公司 用户访问行为信息监控方法及装置、计算机设备
US10776376B1 (en) * 2014-12-05 2020-09-15 Veritas Technologies Llc Systems and methods for displaying search results

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760515A (zh) * 2016-02-24 2016-07-13 国家电网公司 一种多数据源的同一对象数据的融合方法
US10552394B2 (en) * 2017-09-07 2020-02-04 International Business Machines Corporation Data storage with improved efficiency
CN109359145A (zh) * 2018-09-12 2019-02-19 国云科技股份有限公司 一种多样式数据的标准化处理方法
CN111367991B (zh) * 2018-12-25 2024-03-12 中国科学院信息工程研究所 一种基于消息队列的MongoDB数据实时同步方法及系统
CN110955645B (zh) * 2019-10-10 2022-10-11 望海康信(北京)科技股份公司 大数据集成处理方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10776376B1 (en) * 2014-12-05 2020-09-15 Veritas Technologies Llc Systems and methods for displaying search results
CN108804576A (zh) * 2018-05-22 2018-11-13 华中科技大学 一种基于链接分析的域名层级结构探测方法
CN110377854A (zh) * 2019-05-31 2019-10-25 平安科技(深圳)有限公司 用户访问行为信息监控方法及装置、计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于schema的信息安全标准资源解析研究;邢玉艳;刘耀;刘茹;;情报工程(第05期);全文 *

Also Published As

Publication number Publication date
CN112434001A (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
US8527559B2 (en) Garbage collector with concurrent flipping without read barrier and without verifying copying
CN109740129B (zh) 基于区块链的报表生成方法、装置、设备及可读存储介质
CN108628885B (zh) 一种数据同步方法、装置及存储设备
CN111651424B (zh) 一种数据处理方法、装置、数据节点及存储介质
CN113051102B (zh) 文件备份方法、装置、系统、存储介质和计算机设备
CN113836184A (zh) 一种业务持久化方法及装置
CN112416710A (zh) 用户操作的记录方法、装置、电子设备及存储介质
CN115840731A (zh) 文件处理方法、计算设备及计算机存储介质
CN111046106A (zh) 缓存数据同步方法、装置、设备及介质
CN113064919B (zh) 数据处理方法、数据存储系统、计算机设备及存储介质
CN104517067A (zh) 访问数据的方法、装置及系统
CN112434001B (zh) 支持数据预处理的多数据源可配置MongoDB数据同步系统、电子设备及介质
CN111090782A (zh) 一种图数据存储方法、装置、设备及存储介质
CN112130747A (zh) 分布式对象存储系统及数据读写方法
CN111753141A (zh) 一种数据管理方法及相关设备
CN113434585B (zh) 资源保存方法及设备
CN111399753B (zh) 写入图片的方法和装置
CN112783866B (zh) 数据读取方法、装置、计算机设备和存储介质
US20230117060A1 (en) Read-write method and apparatus, electronic device, and readable memory medium
CN108694209B (zh) 基于对象的分布式索引方法和客户端
CN111241099A (zh) 一种工业大数据存储方法及装置
CN117177050B (zh) 一种支持虚机vpc网络配置快照处理方法和系统
CN116662603B (zh) 基于kafka的时间轴管控方法、系统、电子设备及存储介质
CN114546289B (zh) 一种读取数据的方法、系统、设备以及介质
CN117171266B (zh) 一种数据同步方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant