CN114297278A

CN114297278A - 批量数据快速写入方法、系统和装置

Info

Publication number: CN114297278A
Application number: CN202111576481.7A
Authority: CN
Inventors: 孙晓龙
Original assignee: Suzhou Zhongyan Network Technology Co ltd
Current assignee: Suzhou Zhongyan Network Technology Co ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-04-08

Abstract

本申请公开了一种批量数据快速写入方法、系统和装置，本方法通过接收由消息中间件转发的批量数据，对所述批量数据进行数据清洗校验，得到目标数据源；基于预先定义的数据类型，对所述目标数据源进行分类处理得到所述目标数据源的数据类型；根据所述目标数据源的数据类型，构建对应的数据结构，根据所述数据结构，构建用于批量写入更新所述目标数据源的SQL语句；根据所述目标数据源的SQL语句集合，采用数据库提供的批量写入更新接口对所述目标数据源进行数据入库。本申请解决相关技术中现有数据写入效率较低的技术问题，提高了数据写入的效率，且批量写入数据来源从文件切换到数据库的可行性更强。

Description

批量数据快速写入方法、系统和装置

技术领域

本申请属于计算机技术领域，具体而言，涉及一种批量数据快速写入方法、系统、电子设备及存储介质。

背景技术

目前数据库都是少量数据更新写入，无法满足BI数据源模块大量数据写入到数据库，对于大量数据，目前没有上限限制，针对不同的数据库，可能会触发超出数据库单次写入最大限制问题，导致数据写入效率较低。

发明内容

本申请实施例的第一目的在于提供一种批量数据快速写入方法，旨在解决上述现有技术存在的至少一个问题。

本申请实施例是这样实现的，一种批量数据快速写入方法，包括：

接收由消息中间件转发的批量数据，对所述批量数据进行数据清洗校验，得到目标数据源；

基于预先定义的数据类型，对所述目标数据源进行分类处理得到所述目标数据源的数据类型；

根据所述目标数据源的数据类型，构建对应的数据结构，根据所述数据结构，构建用于批量写入更新所述目标数据源的SQL语句；

根据所述目标数据源的SQL语句集合，采用数据库提供的批量写入更新接口对所述目标数据源进行数据入库。

在一个实施例中，还包括：判断数据库中是否存在所述目标数据源，若存在，则将所目标数据源批量更新至所述数据库中，若不存在，则将所述目标数据源批量插入所述数据库中。

在一个实施例中，所述接收由消息中间件转发的批量数据包括：通过Python中的Pika模块连接Rabbitmq服务器，通过consumer方法接收被清洗、转换过后的源数据源数据，得到所述批量数据。

在一个实施例中，所述对所述批量数据进行数据清洗校验，得到目标数据源包括：对所述批量数据中写入数据仓库的索引字段进行校验，将校验未通过的数据剔除，得到所述目标数据源。

在一个实施例中，所述根据所述目标数据源的数据类型，构建对应的数据结构包括：提取所述目标数据源的索引字段，通过所述索引字段得到所述目标数据源的数据类型，根据所述目标数据源的数据类型构建对应的数据结构。

在一个实施例中，所述采用数据库提供的批量写入更新接口对所述目标数据源进行数据入库包括：通过MongoDB的bulkWrite方式将所述目标数据源进行数据入库。

本申请实施例的另一目的在于提供一种批量数据快速写入系统，包括：

数据清洗校验模块，用于接收由消息中间件转发的批量数据，对所述批量数据进行数据清洗校验，得到目标数据源；

数据分类模块，用于基于预先定义的数据类型，对所述目标数据源进行分类处理得到所述目标数据源的数据类型；

数据结构构建模块，用于根据所述目标数据源的数据类型，构建对应的数据结构，根据所述数据结构，构建用于批量写入更新所述目标数据源的SQL语句；

数据入库模块，用于根据所述目标数据源的SQL语句集合，采用数据库提供的批量写入更新接口对所述目标数据源进行数据入库。

本申请实施例的又一目的在于提供一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述批量数据快速写入方法的步骤。

本申请实施例的再一目的在于一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述批量数据快速写入方法的步骤。

本申请实施例提供的一种批量数据快速写入方法、系统、电子设备及存储介质，通过接收由消息中间件转发的批量数据，对所述批量数据进行数据清洗校验，得到目标数据源；基于预先定义的数据类型，对所述目标数据源进行分类处理得到所述目标数据源的数据类型；根据所述目标数据源的数据类型，构建对应的数据结构，根据所述数据结构，构建用于批量写入更新所述目标数据源的SQL语句；根据所述目标数据源的SQL语句集合，采用数据库提供的批量写入更新接口对所述目标数据源进行数据入库。由此提高了数据写入的效率，且批量写入数据来源从文件切换到数据库的可行性更强。

附图说明

图1为本申请一个实施例提供的批量数据快速写入方法的实现流程；

图2为本申请一个实施例提供的批量数据快速写入系统的主要模块示意图；

图3为本申请实施例提供的可以应用于其中的示例性系统架构图；

图4为适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。

需要指出的是，在不冲突的情况下，本申请中的实施例以及实施例中的特征可以互相组合。

为了进一步阐述本申请为实现预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本申请的具体实施方式、结构、特征及其功效，详细说明如下。

图1示出了本申请一个实施例提供的一种批量数据快速写入方法的实现流程，为了便于说明，仅示出与本申请实施例相关的部分，详述如下：

一种批量数据快速写入方法，包括以下步骤：

S101：接收由消息中间件转发的批量数据，对所述批量数据进行数据清洗校验，得到目标数据源；

S102：基于预先定义的数据类型，对所述目标数据源进行分类处理得到所述目标数据源的数据类型；

S103：根据所述目标数据源的数据类型，构建对应的数据结构，根据所述数据结构，构建用于批量写入更新所述目标数据源的SQL语句；

S104：根据所述目标数据源的SQL语句集合，采用数据库提供的批量写入更新接口对所述目标数据源进行数据入库。

在步骤S101中：接收由消息中间件转发的批量数据，对所述批量数据进行数据清洗校验，得到目标数据源。脚本或接口端可以推送数据到消息中间件，由消息中间件接收并转发到消费者。消费者可以通过接口接收由消息中间件转发的批量数据，对批量数据进行数据清洗校验，以得到目标数据源。

在这里，数据清洗校验，可以通过预设清洗校验规则，也可以通过一些数据清洗校验插件实现，以剔除数据为目标。

数据入库一般有数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。本方法主要在于数据加载至目的端的过程。

在一个实施例中，所述接收由消息中间件转发的批量数据包括：通过Python中的Pika模块连接Rabbitmq服务器，通过consumer方法接收被清洗、转换过后的源数据源数据，得到所述批量数据。即在接收批量数据前，已经对源数据进行过一次清洗和转换，以得到可以读取和写入的数据源。

在一个实施例中，所述对所述批量数据进行数据清洗校验，得到目标数据源包括：对所述批量数据中写入数据仓库的索引字段进行校验，将校验未通过的数据剔除，得到所述目标数据源。由此实现对数据的二次清洗，以便于后续对数据源的分类。

在这里，由于不同类型数据源的数据索引字段是不一致的，因此可以通过索引字段实现对目标数据源的校验，进而实现数据的清洗校验，提高数据清洗校验的准确性。

在步骤S102中：基于预先定义的数据类型，对所述目标数据源进行分类处理得到所述目标数据源的数据类型。

在这里，可以预先定义不同类型的数据源类，用于构建对应的数据结构。比如，可以定义A数据源、B数据源、C数据源三种数据源类。当得到目标数据源后，可以根据预先定义的数据类型，对目标数据源进行分类得到目标数据源的数据类型，以便于后续对目标数据源进行构建数据结构以实现批量入库。

在步骤S103中：根据所述目标数据源的数据类型，构建对应的数据结构，根据所述数据结构，构建用于批量写入更新所述目标数据源的SQL语句。在得到目标数据源的数据类型后，可以根据目标数据源的数据源类，进行构建对应的数据结构，不同数据类型的数据源具有不同的数据结构。当数据结构构建好之后，根据数据结构，构建用于批量写入更新目标数据源的SQL语句，以实现后续数据的批量入库。

例如，数据结构的示例可以如下：

在步骤S104中：根据所述目标数据源的SQL语句集合，采用数据库提供的批量写入更新接口对所述目标数据源进行数据入库。不同的数据源类型会对应不同的数据结构，不同的数据结构构建不同的SQL语句，因此目标数据源会对应有多个SQL语句，以构成SQL语句集合，在数据入库时，可以根据所述目标数据源的SQL语句集合，采用数据库提供的批量写入更新接口对所述目标数据源进行数据入库，由此实现批量数据的入库，解决了对于大量数据写入数据库时耗时比较长的问题，可以批量写入，提高写入速度，提高数据入库的效率。

由此，本申请实施例提供的批量数据快速写入方法，通过接收由消息中间件转发的批量数据，对所述批量数据进行数据清洗校验，得到目标数据源；基于预先定义的数据类型，对所述目标数据源进行分类处理得到所述目标数据源的数据类型；根据所述目标数据源的数据类型，构建对应的数据结构，根据所述数据结构，构建用于批量写入更新所述目标数据源的SQL语句；根据所述目标数据源的SQL语句集合，采用数据库提供的批量写入更新接口对所述目标数据源进行数据入库。由此提高了数据写入的效率，且批量写入数据来源从文件切换到数据库的可行性更强。相较于数据库的insert和update操作实现数据写入，批量写入(bulk_write)效率更高的同时可以实现对数据进行过滤筛选。批量写入使BI模块的数据来源从文件切换到数据库的可行性更强。

图2示出了本申请一个实施例提供的批量数据快速写入系统的主要模块示意图。为了便于说明，仅示出与本申请实施例相关的部分，详述如下：

一种批量数据快速写入系统200，包括：

数据清洗校验模块201，用于接收由消息中间件转发的批量数据，对所述批量数据进行数据清洗校验，得到目标数据源；

数据分类模块202，用于基于预先定义的数据类型，对所述目标数据源进行分类处理得到所述目标数据源的数据类型；

数据结构构建模块203，用于根据所述目标数据源的数据类型，构建对应的数据结构，根据所述数据结构，构建用于批量写入更新所述目标数据源的SQL语句；

数据入库模块204，用于根据所述目标数据源的SQL语句集合，采用数据库提供的批量写入更新接口对所述目标数据源进行数据入库。

对于数据清洗校验模块201：用于接收由消息中间件转发的批量数据，对所述批量数据进行数据清洗校验，得到目标数据源。脚本或接口端可以推送数据到消息中间件，由消息中间件接收并转发到消费者。消费者可以通过接口接收由消息中间件转发的批量数据，对批量数据进行数据清洗校验，以得到目标数据源。

对于数据分类模块202：用于基于预先定义的数据类型，对所述目标数据源进行分类处理得到所述目标数据源的数据类型。

对于数据结构构建模块203：用于根据所述目标数据源的数据类型，构建对应的数据结构，根据所述数据结构，构建用于批量写入更新所述目标数据源的SQL语句。在得到目标数据源的数据类型后，可以根据目标数据源的数据源类，进行构建对应的数据结构，不同数据类型的数据源具有不同的数据结构。当数据结构构建好之后，根据数据结构，构建用于批量写入更新目标数据源的SQL语句，以实现后续数据的批量入库。

例如，数据结构的示例可以如下：

对于数据入库模块204：用于根据所述目标数据源的SQL语句集合，采用数据库提供的批量写入更新接口对所述目标数据源进行数据入库。不同的数据源类型会对应不同的数据结构，不同的数据结构构建不同的SQL语句，因此目标数据源会对应有多个SQL语句，以构成SQL语句集合，在数据入库时，可以根据所述目标数据源的SQL语句集合，采用数据库提供的批量写入更新接口对所述目标数据源进行数据入库，由此实现批量数据的入库，解决了对于大量数据写入数据库时耗时比较长的问题，可以批量写入，提高写入速度，提高数据入库的效率。

由此，本申请实施例提供的批量数据快速写入系统，通过接收由消息中间件转发的批量数据，对所述批量数据进行数据清洗校验，得到目标数据源；基于预先定义的数据类型，对所述目标数据源进行分类处理得到所述目标数据源的数据类型；根据所述目标数据源的数据类型，构建对应的数据结构，根据所述数据结构，构建用于批量写入更新所述目标数据源的SQL语句；根据所述目标数据源的SQL语句集合，采用数据库提供的批量写入更新接口对所述目标数据源进行数据入库。由此提高了数据写入的效率，且批量写入数据来源从文件切换到数据库的可行性更强。相较于数据库的insert和update操作实现数据写入，批量写入(bulk_write)效率更高的同时可以实现对数据进行过滤筛选。批量写入使BI模块的数据来源从文件切换到数据库的可行性更强。

本申请实施例还提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现本申请实施例的批量数据快速写入方法

本申请实施例还提供一种计算机可读介质，其上存储有计算机程序，程序被处理器执行时实现本申请实施例的批量数据快速写入方法。

图3示出了可以应用本申请实施例的批量数据快速写入方法或系统的示例性系统架构300。

如图3所示，系统架构300可以包括终端设备301、302、303，网络304和服务器305。网络304用以在终端设备301、302、303和服务器305之间提供通信链路的介质。网络304可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备301、302、303通过网络304与服务器305交互，以接收或发送消息等。终端设备301、302、303上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备301、302、303可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于车载智能屏、智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器305可以是提供各种服务的服务器，例如对用户利用终端设备301、302、303所发送的往来消息提供支持的后台管理服务器。后台管理服务器可以在接收到终端设备请求后进行分析等处理，并将处理结果反馈给终端设备。

需要说明的是，本申请实施例所提供的批量数据快速写入方法一般由服务器305执行，相应地，批量数据快速写入系统一般设置于服务器305中。

应该理解，图3中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图4，其示出了适于用来实现本申请实施例的电子设备的计算机系统400的结构示意图。图4示出的计算机系统仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示，计算机系统400包括中央处理单元(CPU)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中，还存储有系统400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

特别地，根据本申请公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括确定模块、提取模块、训练模块和筛选模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，确定模块还可以被描述为“确定候选用户集的模块”。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本申请的保护范围之内。

Claims

1.一种批量数据快速写入方法，其特征在于，包括：

2.根据权利要求1所述的批量数据快速写入方法，其特征在于，还包括：判断数据库中是否存在所述目标数据源，若存在，则将所目标数据源批量更新至所述数据库中，若不存在，则将所述目标数据源批量插入所述数据库中。

3.根据权利要求1所述的批量数据快速写入方法，其特征在于，所述接收由消息中间件转发的批量数据包括：通过Python中的Pika模块连接Rabbitmq服务器，通过consumer方法接收被清洗、转换过后的源数据源数据，得到所述批量数据。

4.根据权利要求1或3所述的批量数据快速写入方法，其特征在于，所述对所述批量数据进行数据清洗校验，得到目标数据源包括：对所述批量数据中写入数据仓库的索引字段进行校验，将校验未通过的数据剔除，得到所述目标数据源。

5.根据权利要求4所述的批量数据快速写入方法，其特征在于，所述根据所述目标数据源的数据类型，构建对应的数据结构包括：提取所述目标数据源的索引字段，通过所述索引字段得到所述目标数据源的数据类型，根据所述目标数据源的数据类型构建对应的数据结构。

6.根据权利要求5所述的批量数据快速写入方法，其特征在于，所述采用数据库提供的批量写入更新接口对所述目标数据源进行数据入库包括：通过MongoDB的bulkWrite方式将所述目标数据源进行数据入库。

7.一种批量数据快速写入系统，其特征在于，包括：

8.根据权利要求7所述的批量数据快速写入系统，其特征在于，还包括：判断数据库中是否存在所述目标数据源，若存在，则将所目标数据源批量更新至所述数据库中，若不存在，则将所述目标数据源批量插入所述数据库中。

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1至6中任一项所述的批量数据快速写入方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1至6中任一项所述的批量数据快速写入方法的步骤。