CN113515494B

CN113515494B - 基于分布式文件系统的数据库处理方法和电子设备

Info

Publication number: CN113515494B
Application number: CN202010274357.4A
Authority: CN
Inventors: 李美霞; 陈辉
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2024-03-22
Anticipated expiration: 2040-04-09
Also published as: CN113515494A

Abstract

本发明公开了一种基于分布式文件系统的数据库处理方法和电子设备，用以解决酬金数据处理效率低的问题。本申请提供的方案根据预设采集逻辑获取至少一个数据库的酬金源数据；通过分布式文件系统对酬金源数据执行结构化拆分得到结构化酬金数据；基于预设处理逻辑对结构化酬金数据执行预处理，得到酬金预处理结果；根据计酬规则对酬金预处理结果执行计酬，将得到的酬金结果输出至结果数据库。本方案采用分布式文件系统对酬金源数据进行处理，能有效提高数据处理的效率。而且，可以预先设定采集逻辑、处理逻辑以及计酬规则来配置处理过程，灵活性强。通过分布式文件系统执行结构化拆分能有效降低数据处理对高端电子设备的依赖，降低数据处理成本。

Description

基于分布式文件系统的数据库处理方法和电子设备

技术领域

本发明涉及数据处理领域，尤其涉及一种基于分布式文件系统的数据库处理方法和电子设备。

背景技术

现有数据库数据量庞大，在根据酬金系统平台计酬时，需要大量时间进行酬金数据采集。采集得到的大量数据也需要花费大量时间进行计算处理才能生成酬金报表。

为了实现对大量数据进行处理，通常需要采用高存储量、高计算量的电子设备，所以现有的计酬方案依赖于高端电子设备，处理成本较高。

如何提高酬金数据处理效率，是本申请所要解决的技术问题。

发明内容

本申请实施例的目的是提供一种基于分布式文件系统的数据库处理方法和电子设备，用以解决酬金数据处理效率低的问题。

第一方面，提供了一种基于分布式文件系统的数据库处理方法，其特征在于，包括：

根据预设采集逻辑获取至少一个数据库的酬金源数据；

通过分布式文件系统对所述酬金源数据执行结构化拆分，得到结构化酬金数据，所述结构化酬金数据包括酬金业务数据和酬金校验数据；

基于预设处理逻辑对所述结构化酬金数据执行预处理，得到酬金预处理结果；

根据计酬规则对所述酬金预处理结果执行计酬，将得到的酬金结果输出至结果数据库。

第二方面，提供了一种电子设备，包括：

获取模块，根据预设采集逻辑获取至少一个数据库酬金业务的酬金源数据根据预设采集逻辑获取酬金业务的酬金源数据；

拆分模块，通过分布式文件系统对所述酬金源数据执行结构化拆分，得到结构化酬金数据，所述结构化酬金数据包括酬金业务数据和酬金校验数据；

处理模块，基于预设处理逻辑对所述结构化酬金数据执行预处理，得到酬金预处理结果；

计酬模块，根据计酬规则对所述酬金预处理结果执行计酬，得到将得到的酬金结果输出至结果数据库根据计酬规则对所述酬金预处理结果执行计酬，得到酬金结果。第三方面，提供了一种电子设备，该电子设备包括处理器、存储器及存储在该存储器上并可在该处理器上运行的计算机程序，该计算机程序被该处理器执行时实现如第一方面该的方法的步骤。

第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，该计算机程序被处理器执行时实现如第一方面该的方法的步骤。

在本申请实施例中，首先根据预设采集逻辑获取至少一个数据库的的酬金源数据，然后通过分布式文件系统对酬金源数据执行结构化拆分，得到结构化酬金数据，接着，基于预设处理逻辑对结构化酬金数据执行预处理，得到酬金预处理结果；最后，根据计酬规则对酬金预处理结果执行计酬，得到酬金结果。本申请实施例提供的方案采用分布式文件系统对酬金源数据进行处理，能有效提高数据处理的效率。而且，可以预先设定采集逻辑、处理逻辑以及计酬规则来配置处理过程，灵活性强。通过分布式文件系统执行结构化拆分能有效降低数据处理对高端电子设备的依赖，降低数据处理成本。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例基于分布式文件系统的数据库处理方法的流程示意图之一。

图2是本发明实施例基于分布式文件系统的数据库处理方法的流程示意图之二。

图3是本发明实施例基于分布式文件系统的数据库处理方法的流程示意图之三。

图4是本发明实施例基于分布式文件系统的数据库处理方法的流程示意图之四。

图5是本发明实施例基于分布式文件系统的数据库处理方法的流程示意图之五。

图6是本发明实施例基于分布式文件系统的数据库处理方法的流程示意图之六。

图7是本发明实施例基于分布式文件系统的数据库处理方法的流程示意图之七。

图8是本发明实施例基于分布式文件系统的数据库处理方法的流程示意图之八。

图9是本申请的一个电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。本申请中附图编号仅用于区分方案中的各个步骤，不用于限定各个步骤的执行顺序，具体执行顺序以说明书中描述为准。

在数据处理领域，为了对酬金进行统计，往往需要周期性对数据库中的数据进行酬金计算。执行酬金计算例如可以采用关系型数据库，首先采集海量数据并存储到数据库，然后对数据进行分析处理，并最终计算出酬金结果。但是如果采用这种方案进行计酬，则数据库需要通过大量SQL语句和存储过程进行海量数据处理，处理效率低下，从酬金数据采集到酬金报表生成可能历时数天时间。除此之外，酬金计算往往涉及到所有用户产品订购数据，如果以一个月为单位进行周期性计酬，则每月需要保存数百亿条数据，需要大容量存储设备进行数据存储，成本高昂。

为了解决现有技术中存在的问题，本申请实施例提供一种基于分布式文件系统的数据库处理方法，如图1所示，包括：

S11：根据预设采集逻辑获取至少一个数据库的酬金源数据；

S12：通过分布式文件系统对所述酬金源数据执行结构化拆分，得到结构化酬金数据，所述结构化酬金数据包括酬金业务数据和酬金校验数据；

S13：基于预设处理逻辑对所述结构化酬金数据执行预处理，得到酬金预处理结果；

S14：根据计酬规则对所述酬金预处理结果执行计酬，将得到的酬金结果输出至结果数据库。

在步骤S11中，可以从一个或多个业务平台的数据库获取酬金源数据，具体可以采用分布式文件系统按照预设的地址采集各业务平台的业务数据。举例而言，可以采集NGCRM(Customer Relationship Management)、NGBOSS(Business&Operation Support System)、BI(Business Intelligence)或者终端销售系统等外围平台业务数据。随后，在步骤S12中，对采集得到的数据通过分布式文件系统进行结构化拆分，用于从大量非结构化数据中过滤得到结构化的酬金数据。接着，在步骤S13中对拆分得到的数据进行预处理，具体可以包括对结构化的酬金数据进行组合，具体可以基于酬金数据的业务的相关性预设组合逻辑，基于设置的处理逻辑进行数据组合。上述结构化拆分和预处理的步骤，可以由分布式文件系统在云平台上进行处理，降低对本地资源的消耗，提升酬金计算效率。最后，根据计酬规则对预处理得到的酬金预处理结果进行计酬，将得到的酬金结果输出至结果数据库。用户可以对结果数据库中的数据进行查询，以获取所需的酬金结果。

本申请实施例提供的方案采用分布式文件系统对酬金源数据进行处理，能有效提高数据处理的效率。而且，可以预先设定采集逻辑、处理逻辑以及计酬规则来配置处理过程，灵活性强。通过分布式文件系统执行结构化拆分能有效降低数据处理对高端电子设备的依赖，降低数据处理成本。其中，采用现有技术需要耗时6天执行预处理的数据量，如果采用本申请提供的方案，只需要2天即可完成预处理，性能提升达到70％以上。

基于上述实施例提供的方案，可选的，所述分布式文件系统包括Hadoop，上述步骤S11，所述根据预设采集逻辑获取至少一个数据库的酬金源数据，如图2所示，包括：

S21：通过Loader将酬金业务的酬金源数据导入至云端容器；

其中，上述步骤S12，通过分布式文件系统对所述酬金源数据执行结构化拆分，得到结构化酬金数据，包括：

S22：通过分布式文件系统的云平台对所述云端容器的酬金源数据执行结构化拆分，得到结构化酬金数据。

其中，Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以开发分布式程序，进行高速运算和存储。Hadoop实现了一个分布式文件系统，具有高容错性的特点，并且能用来部署在低廉的硬件上；而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。分布式文件系统可以以流的形式访问文件系统中的数据。Hadoop的框架包括HDFS和MapReduce。HDFS能为海量的数据提供了存储功能，而MapReduce能为海量的数据提供计算功能。

在步骤S21中，通过Loader将酬金业务的酬金源数据导入至云端容器，例如可以将保存在ORACLE数据库的千亿级数据导入到云端容器中，随后，在步骤S22中，云端容器能根据云端部署的分析工具将数据结构化拆分，并压缩保存在集群主机上。

通过本申请实施例提供的方案，能利用云端资源实现数据的存储和结构化拆分，降低对本地资源的占用，降低数据处理成本。

基于上述实施例提供的方案，可选的，在上述步骤S22，通过分布式文件系统的云平台对所述云端容器的酬金源数据执行结构化拆分，得到结构化酬金数据之后，如图3所示，还包括：

S31：将所述结构化酬金数据压缩保存至所述分布式文件系统的集群主机。

上述集群主机也叫集群空间，集群主机将存储空间开在一个群组的所有服务器上，例如群组可以包括150台服务器。集群空间可以具有数据同步和宕机检测与智能解析域名的功能。一旦当前访问的服务器不能正常工作时，系统能把客户的域名解析到能正常工作的服务器上。

将结构化酬金数据压缩保存至分布式系统的集群主机，能避免结构化酬金数据丢失，而且，方便随后预处理的过程中对结构化酬金数据进行快速调用。

基于上述实施例提供的方案，可选的，上述步骤S11，根据预设采集逻辑获取至少一个数据库的酬金源数据，如图4所示，包括：

S41：根据预设采集逻辑从以下至少一个系统的数据库获取酬金业务的酬金源数据：

客户关系管理系统CRM、业务运营支撑系统BOSS、商业智能系统BI、终端销售系统。

客户关系管理，可以指企业用CRM技术来管理与客户之间的关系。本申请实施例中所指的CRM，指用计算机自动化分析销售、市场营销、客户服务以及应用等流程的软件系统。它的目标是通过提高客户的价值、满意度、赢利性和忠实度来缩减销售周期和销售成本、增加收入、寻找扩展业务所需的新的市场和渠道。

运营支撑系统可以分为一下四个部分：计费及结算系统、营业与账务系统、客户服务系统和决策支持系统。BOSS系统从业务层面来看可以是一个框架，例如可以用来承载业务系统、CRM系统、计费系统。实现统一框架中的纵向、横向管理。

商业智能系统能用来帮助企业更好地利用数据提高决策质量的技术集合，用来从大量的数据中钻取信息与知识。

终端销售系统可以是利用现代的无线移动技术提供企业管理层和在外销售人员间的信息管理平台。提高了销售的执行力，加强了沟通，规范了终端销售人员的工作流程，提高了销售效率，能够对销售人员在外监管。提高了企业的销售能力，降低了管理成本。

另外，本申请实施例中还可以从其他具有酬金业务的系统平台的数据库中获取酬金业务的酬金源数据，不限于上述列举出的几种。

基于上述实施例提供的方案，可选的，在步骤S11，根据预设采集逻辑获取至少一个数据库的酬金源数据之前，如图5所示，还包括：

S51：设定所述预设采集逻辑，所述预设采集逻辑包括以下至少一项：

数据库连接信息、数据文件地址、数据导入字段、数据导出格式、数据输出目录。

数据库连接信息例如可以包括Java数据库连接信息(Java DatabaseConnectivity，简称JDBC)。JDBC是Java语言中用来规范客户端程序如何来访问数据库的应用程序接口，通过JDBC能实现查询和更新数据库中的数据。

数据文件地址可以包括数据库中的待获取文件的地址，数据文件地址例如可以包括导出SQL。结构化查询语言(Structured Query Language，SQL)，是一种特殊目的的编程语言，是一种数据库查询和程序设计语言，用于存取数据以及查询、更新和管理关系数据库系统。结构化查询语言是高级的非过程化编程语言，允许用户在高层数据结构上工作。它不要求用户指定对数据的存放方法，也不需要用户了解具体的数据存放方式，所以具有完全不同底层结构的不同数据库系统,可以使用相同的结构化查询语言作为数据输入与管理的接口。结构化查询语言语句可以嵌套，这使它具有极大的灵活性和强大的功能。

数据导入字段可以是待获取的文件中需要导入的字段，具体可以包括需要导入的字段和字段类型。

数据导出格式可以是对采集到的源数据进行汇总导出的格式。例如，通过Hive输出时，数据导出格式可以包括文件存储格式、文件压缩格式、ORC文件格式、输出分隔符、关联字段、字段类型等。

数据输出目录可以包括待导出的文件的输出位置。数据输出目录不仅可以包括导出的具体位置，还可以包括表名、库名、实例名、数据块大小配置等信息。

除了上述列举出的采集逻辑之外，还可以设定采集周期，例如，以30天为周期进行数据采集。通过本实施例提供的方案，能预先设定采集逻辑，使采集到的酬金源数据符合分布式文件系统的处理需求，提高处理效率。

基于上述实施例提供的方案，可选的，所述预设采集逻辑包括数据库连接信息、数据文件地址、数据导入字段、数据导出格式和数据输出目录；

如图6所示，上述步骤S11，根据预设采集逻辑获取至少一个数据库的酬金源数据，包括：

S61：根据所述数据库连接信息连接目标数据库；

S62：导入所述目标数据库中与所述数据文件地址相对应的目标文件；

S63：提取所述目标文件中与所述数据导入字段相对应的目标字段；

S64：将所述目标字段按所述导出格式生成导出文件；

S65；将所述导出文件输出至所述数据输出目录。

在本实施例提供的方案中，根据预设采集逻辑获取至少一个数据库的酬金源数据，先根据数据连接信息连接至目标数据库，然后按照预设采集逻辑中的数据文件地址导入需要采集的文件，再提取与预设采集逻辑中的数据导入字段相对应的字段，然后将提取出的字段按导出格式生成为导出文件，最后将导出文件导出至数据输出目录。

通过本申请实施例提供的方案，能按照预设采集逻辑对酬金源数据实现采集，采集得到的酬金源数据符合分布式文件系统的需求，能提高分布式文件系统的数据处理效率。

基于上述实施例提供的方案，可选的，在上述步骤S12，通过分布式文件系统对所述酬金源数据执行结构化拆分之前，如图7所示，还包括：

S71：对所述酬金源数据执行数据清洗，得到结构化酬金源数据；

S72：通过分布式文件系统对所述结构化酬金源数据执行结构化拆分，得到结构化酬金数据。

参见图8，在采集得到酬金源数据之后，为了进一步提高数据处理效率，优化数据处理结果，本申请实施例中在执行数据拆分之前先对酬金源数据执行数据清洗，得到结构化酬金源数据。随后，在数据拆分的过程中，对经过清洗的结构化酬金源数据进行结构化拆分。

通过本实施例提供的方案，能通过数据清洗提高酬金源数据的数据质量，便于分布式文件系统对数据进行高效处理。

本申请实施例提供的方案采用分布式文件系统对酬金源数据进行处理，能有效提高数据处理的效率。而且，可以预先设定采集逻辑、处理逻辑以及计酬规则来配置处理过程，灵活性强。通过分布式文件系统执行结构化拆分能有效降低数据处理对高端电子设备的依赖，降低数据处理成本。

另外，为了优化数据处理流程，还可以预先设定任务调度规则，并基于预设的任务调度规则对大量数据进行调度处理。举例来说，在数据采集阶段，需要从大量非结构化数据中过滤出结构化的计酬源数据，在本实施例中，可以基于预设的调度规则采用任务引擎进行任务调度，经过数百步的数据清洗及组合，基于大量与业务强相关的逻辑顺序结构化处理逻辑，实现酬金源数据的采集。上述任务调度功能可以采用热加载的方式随时加入或退出任务，达到结构化数据的目的。

除此之外，在结构化处理和预处理的阶段，针对酬金计算的特点，上述处理逻辑均可以模拟SQL语法的形式来配置，在具体实施中，可以采用页面配置方式实现逻辑配置，达到可视化配置来实现复杂的逻辑处理。

为了解决现有技术中存在的问题，本申请实施例还提供一种电子设备90，如图9所示，包括：

获取模块91，根据预设采集逻辑获取至少一个数据库的酬金源数据；

拆分模块92，通过分布式文件系统对所述酬金源数据执行结构化拆分，得到结构化酬金数据，所述结构化酬金数据包括酬金业务数据和酬金校验数据；

处理模块93，基于预设处理逻辑对所述结构化酬金数据执行预处理，得到酬金预处理结果；

计酬模块94，根据计酬规则对所述酬金预处理结果执行计酬，将得到的酬金结果输出至结果数据库。

在本申请实施例中，各个模块可以采用Hadoop内置组件Hive结合实际业务进行重构，数据源采集逻辑、计酬处理时序、预处理逻辑均可在前台界面进行可视化配置，大大减少新酬金的开发成本和缩短上线时间。对周期性采集的大量源数据均采用分布式文件系统处理，利用Hadoop文件处理能力快速完成预处理。有效提升效率，降低使用ORACLE的成本，减少对高端存储，高端小型机的依赖。

本申请实施例提供的电子设备采用分布式文件系统对酬金源数据进行处理，能有效提高数据处理的效率。而且，可以预先设定采集逻辑、处理逻辑以及计酬规则来配置处理过程，灵活性强。通过分布式文件系统执行结构化拆分能有效降低数据处理对高端电子设备的依赖，降低数据处理成本。

优选的，本发明实施例还提供一种电子设备，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述基于分布式文件系统的数据库处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述基于分布式文件系统的数据库处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(RandomAccess Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种基于分布式文件系统的数据库处理方法，其特征在于，包括：

根据预设采集逻辑获取至少一个数据库的酬金源数据；

根据计酬规则对所述酬金预处理结果执行计酬，将得到的酬金结果输出至结果数据库；

所述分布式文件系统包括Hadoop，所述根据预设采集逻辑获取至少一个数据库的酬金源数据，包括：

通过Loader将酬金业务的酬金源数据导入至云端容器；

其中，通过分布式文件系统对所述酬金源数据执行结构化拆分，得到结构化酬金数据，包括：

通过分布式文件系统的云平台对所述云端容器的酬金源数据执行结构化拆分，得到结构化酬金数据；

在通过分布式文件系统的云平台对所述云端容器的酬金源数据执行结构化拆分，得到结构化酬金数据之后，还包括：

将所述结构化酬金数据压缩保存至所述分布式文件系统的集群主机。

2.如权利要求1所述的方法，其特征在于，根据预设采集逻辑获取至少一个数据库的酬金源数据，包括：

根据预设采集逻辑从以下至少一个系统的数据库获取酬金业务的酬金源数据：

3.如权利要求1所述的方法，其特征在于，在根据预设采集逻辑获取至少一个数据库的酬金源数据之前，还包括：

设定所述预设采集逻辑，所述预设采集逻辑包括以下至少一项：

4.如权利要求3所述的方法，其特征在于，所述预设采集逻辑包括数据库连接信息、数据文件地址、数据导入字段、数据导出格式和数据输出目录；

根据预设采集逻辑获取至少一个数据库的酬金源数据，包括：

根据所述数据库连接信息连接目标数据库；

导入所述目标数据库中与所述数据文件地址相对应的目标文件；

提取所述目标文件中与所述数据导入字段相对应的目标字段；

将所述目标字段按所述导出格式生成导出文件；

将所述导出文件输出至所述数据输出目录。

5.如权利要求1所述的方法，其特征在于，在通过分布式文件系统对所述酬金源数据执行结构化拆分之前，还包括：

对所述酬金源数据执行数据清洗，得到结构化酬金源数据；

通过分布式文件系统对所述结构化酬金源数据执行结构化拆分，得到结构化酬金数据。

6.一种电子设备，其特征在于，包括：

获取模块，根据预设采集逻辑获取至少一个数据库的酬金源数据；

计酬模块，根据计酬规则对所述酬金预处理结果执行计酬，将得到的酬金结果输出至结果数据库；

所述分布式文件系统包括Hadoop，所述获取模块中根据预设采集逻辑获取至少一个数据库的酬金源数据，包括：通过Loader将酬金业务的酬金源数据导入至云端容器；

所述拆分模块中通过分布式文件系统对所述酬金源数据执行结构化拆分，得到结构化酬金数据，包括：

在通过分布式文件系统的云平台对所述云端容器的酬金源数据执行结构化拆分，得到结构化酬金数据之后，所述电子设备还用于：

7.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的方法的步骤。