CN113297333A

CN113297333A - 数据处理方法、装置、服务器及存储介质

Info

Publication number: CN113297333A
Application number: CN202110284163.7A
Authority: CN
Inventors: 魏继超
Original assignee: Wuxi Jishubao Big Data Technology Co ltd
Current assignee: Wuxi Jishubao Big Data Technology Co ltd
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2021-08-24

Abstract

本发明公开了一种数据处理方法、装置、服务器及存储介质，属于大数据处理领域。该方法中，将多表数据集实现多表关联清除、排序和聚众处理，得到待分发数据集，进一步的，通过数据立方模型实现对数据分片的分发，并通过各个子数据立方模型得到数据处理结果，方便在数据统计分析时，随时调取处理值，而不是从数据库中调取数据值后再得到处理值，不仅通过数据分片方式提高了数据处理能力，也优化便捷了统计分析过程，特别适用于涉及大数据处理的作业，从而解决相关技术无法高效解决数据统计分析的问题，替换堆叠硬件或者人工处理的数据处理方式。

Description

数据处理方法、装置、服务器及存储介质

技术领域

本发明涉及大数据处理领域，特别涉及一种数据处理方法、装置、服务器及存储介质。

背景技术

在经济、政务、投融资、风险评估等行业，关于数据的收集、存储、处理效率对作业进度和作业结果起着关键性作用。

在数据采集完成后，根据数据类型等信息得到单表数据集或多表数据集，相关技术中常采用的数据处理与统计分析方式为全表扫描和索引。当单表数据量超过1亿条时，全表扫描时间耗时太长；当多表数据量超过1000万条时，统计分析效率低下，难以应用；且即使有索引的情况下，数据量大到一定程度，数据处理效率也低下，如不超过3个表的统计分析关联是大多数数据处理系统的瓶颈。

因此，相关技术中的数据处理与统计分析技术只能适应小规模的数据集和不复杂的表关联应用，在更多行业的专业领域内特别是财税领域基本无法使用，导致实际的应用过程中无法达到预期效果。

发明内容

本发明提供了一种数据处理方法、装置、服务器及存储介质，用于解决相关技术中多表关联时超大数据量处理效率低下的问题。所述技术方案如下：

一方面，提供了一种数据处理方法，所述方法包括：

将多表数据集进行多表关联清除操作，得到多维数据集，所述多表关联清除操作用于清除所述多表数据集间的冗余数据；

对所述多维数据集进行排序处理和聚合处理，得到待分发数据集；

将所述待分发数据集输入数据立方模型，得到数据分片，所述数据立方模型用于根据数据分片规则对所述待分发数据集进行分片处理；

通过所述数据立方模型将各个数据分片分发至对应的子数据立方模型，得到所述各个数据分片的数据处理结果，所述子数据立方模型用于对对应的数据分片进行数据处理；

将各个数据处理结果存储至所述数据立方模型中。

另一方面，提供了一种数据处理装置，所述装置包括：

关联清除模块，用于将多表数据集进行多表关联清除操作，得到多维数据集，所述多表关联清除操作用于清除所述多表数据集间的冗余数据；

数据准备模块，用于对所述多维数据集进行排序处理和聚合处理，得到待分发数据集；

数据分片模块，用于将所述待分发数据集输入数据立方模型，得到数据分片，所述数据立方模型用于根据数据分片规则对所述待分发数据集进行分片处理；

数据处理模块，用于通过所述数据立方模型将各个数据分片分发至对应的子数据立方模型，得到所述各个数据分片的数据处理结果，所述子数据立方模型用于对对应的数据分片进行数据处理；

数据存储模块，用于将各个数据处理结果存储至所述数据立方模型中。

另一方面，提供了一种服务器，所述服务器包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如上述方面所述的数据处理方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质存储有至少一条指令，所述至少一条指令用于被处理器执行以实现如上述方面所述的数据处理方法。

另一方面，还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述方面所述的数据处理方法。

本发明带来的有益效果：

本发明中，在终端处理大数据时，通过服务器的后端处理，将多表数据集实现多表关联清除、排序和聚众处理，得到待分发数据集，进一步的，通过数据立方模型实现对数据分片的分发，并通过各个子数据立方模型得到数据处理结果，方便在数据统计分析时，随时调取处理值，而不是从数据库中调取数据值后再得到处理值，不仅通过数据分片方式提高了数据处理能力，也优化便捷了统计分析过程，特别适用于涉及大数据处理的作业，从而解决相关技术无法高效解决数据统计分析的问题，替换堆叠硬件或者人工处理的数据处理方式。

附图说明

图1示出了本发明一示例性实施例提供的计算机系统的示意图；

图2示出了本发明一示例性实施例提供的数据处理方法的流程图；

图3示出了本发明另一示例性实施例提供的数据处理方法的流程图；

图4示出了本发明另一示例性实施例提供的数据处理方法的流程图；

图5示出了本发明一示例性实施例提供的数据立方模型的更新流程图；

图6示出了本发明一示例性实施例提供的数据处理装置的结构框图；

图7示出了本发明一示例性实施例提供的服务器的结构方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本发明提供的数据处理方法能够广泛应用于需要进行数据处理和统计分析的场景中，如在财税领域，多表关联数据集平均表数据超过几千万条，急需一种数据处理方法来提高作业效率。

请参考图1，其示出了本发明一示例性实施例提供的计算机系统的示意图。该计算机系统包括终端110和服务器120，其中，终端110与服务器120之间通过通信网络进行数据通信，可选的，通信网络可以是有线网络也可以是无线网络，且该通信网络可以是局域网、城域网以及广域网中的至少一种。

终端110用于采集存储数据，或终端110安装有数据处理系统用于采集存储数据，并将多表数据集或实时的数据集发送至服务器120，可选的，终端110 可以是智能手机、平板电脑、膝上便携式笔记本电脑等移动装置，也可以是台式电脑、投影式电脑等固定装置，本发明对此不做限定。

服务器120可以实现为一台服务器，也可以实现为一组服务器构成的服务器集群，其可以是物理服务器，也可以实现为云服务器。在一种可能的实施方式中，服务器120是终端110内数据处理系统的后台服务器。

在一个示例中，如图1所示，终端110将多表数据集发送至服务器120，服务器120对多表数据集进行多表关联清除操作得到多维数据集，进一步的，服务器120完成对多维数据集的排序处理和聚合处理，得到待分发数据集，其次，服务器120将待分发数据集输入数据立方模型，得到数据分片，并通过数据立方模型将各个数据分片分发至对应的子数据立方模型，得到各个数据分片的数据处理结果并存储；当终端110需要获取多表数据集的处理结果时，可从数据立方模型中调取数据处理结果。

在其他可能的实施方式中，上述数据立方模型和数据分片处理也可以实现成为终端110功能的部分或全部，而无需借助服务器120，本发明对此不作限定。

为了方便表述，下述各个实施例以数据处理方法由服务器执行为例进行说明。

请参考图2，其示出了本发明一示例性实施例提供的数据处理方法的流程图。该方法包括：

步骤201，将多表数据集进行多表关联清除操作，得到多维数据集。

其中，多表关联清除操作用于清除多表数据集间的冗余数据，冗余数据是多表关联时不可避免产生的数据，但对数据存储空间和处理过程带来影响。由此，在对多表数据集处理之前，先将多表数据集进行多表关联清除操作，得到多维数据集，从而清除多表数据集间的冗余数据。

步骤202，对多维数据集进行排序处理和聚合处理，得到待分发数据集。

为了提高数据立方模型的数据处理效率，对多维数据集进行排序处理和聚合处理，得到待分发数据集，待分发数据集经过排序和聚合处理之后，提高了数据集的逻辑性和区别特征，便于处理和调用。

步骤203，将待分发数据集输入数据立方模型，得到数据分片，数据立方模型用于根据数据分片规则对待分发数据集进行分片处理。

本发明实施例中，相较于相关技术中的全表数据扫描而言，通过数据分片方式，先通过数据立方模型得到数据分片，再通过各个子数据立方模型分别处理各个数据分片，规避了全表扫描数据时处理卡顿的问题，且采用同步多线程处理时，可以极大提高实时数据集的处理效率。

步骤204，通过数据立方模型将各个数据分片分发至对应的子数据立方模型，得到各个数据分片的数据处理结果。

其中，子数据立方模型用于对对应的数据分片进行数据处理，得到数据处理结果。

步骤205，将各个数据处理结果存储至数据立方模型中。

进一步，将各个数据处理结果存储至数据立方模型中，与相关技术中全表扫描还有区别的是，全表扫描只能实现数据调取与读写，而本发明可通过子数据立方模型实现对数据集的处理，即数据立方模型数据库中存放的是处理值，无需从数据库中取出数据再处理计算，将数据处理过程简化为如拿原始数据那样“取数据”而不是“算数据”。

综上所述，本发明实施例中，在终端处理大数据时，通过服务器的后端处理，将多表数据集实现多表关联清除、排序和聚众处理，得到待分发数据集，进一步的，通过数据立方模型实现对数据分片的分发，并通过各个子数据立方模型得到数据处理结果，方便在数据统计分析时，随时调取处理值，而不是从数据库中调取数据值后再得到处理值，不仅通过数据分片方式提高了数据处理能力，也优化便捷了统计分析过程，特别适用于涉及大数据处理的作业，从而解决相关技术无法高效解决数据统计分析的问题，替换堆叠硬件或者人工处理的数据处理方式。

实施例2

请参考图3，其示出了本发明另一示例性实施例提供的数据处理方法的流程图。该方法包括：

步骤301，将多表数据集进行多表关联清除操作，得到多维数据集。

本步骤阐述请参考上述实施例中的步骤201，本申请实施例在此不再赘述。

步骤302，对多维数据集进行排序处理和聚合处理，得到待分发数据集。

本步骤阐述请参考上述实施例中的步骤202，本申请实施例在此不再赘述。

可选的，数据立方模型包括键值计算层和数据分片层，则上述实施例中步骤203可分为如下步骤303至步骤305。

步骤303，将待分发数据集输入键值计算层，得到键值计算结果。

可选的，键值计算结果与待分发数据集的体量有关。

此外，在计算键值计算结果的过程中，采用对键值作哈希处理的方式简化数据存储空间。

步骤304，将键值计算结果输入数据分片层，确定出待分发数据集的目标数据分片数量。

在一种可能的实施方式中，数据分片规则存储有键值计算结果与数据分片数量的映射关系，则步骤304包括如下内容一和内容二。

内容一、将键值计算结果输入数据分片层。

内容二、根据键值计算结果与数据分片数量的映射关系，确定出待分发数据集的目标数据分片数量。

步骤305，通过数据分片层输出目标数据分片数量的数据分片。

可选的，若暂不通过子数据立方模型对数据进行处理，则可将输出的数据分片进行存储。

步骤306，通过数据立方模型将各个数据分片分发至对应的子数据立方模型，得到各个数据分片的数据处理结果。

本步骤阐述请参考上述实施例中的步骤204，本申请实施例在此不再赘述。

步骤307，将各个数据处理结果存储至数据立方模型中。

本步骤阐述请参考上述实施例中的步骤205，本申请实施例在此不再赘述。

本申请实施例中，主要介绍了数据分片的过程，通过键值计算结果与数据分片数量的映射关系，有效确定出待分发数据集的目标数据分片数量，进而提高后续数据处理效率。

实施例3

请参考图4，其示出了本发明另一示例性实施例提供的数据处理方法的流程图。该方法包括：

步骤401，将多表数据集进行多表关联清除操作，得到多维数据集。

步骤402，对多维数据集进行排序处理和聚合处理，得到待分发数据集。

步骤403，将待分发数据集输入键值计算层，得到键值计算结果。

本步骤阐述请参考上述实施例中的步骤303，本申请实施例在此不再赘述。

步骤404，将键值计算结果输入数据分片层，确定出待分发数据集的目标数据分片数量。

本步骤阐述请参考上述实施例中的步骤304，本申请实施例在此不再赘述。

步骤405，通过数据分片层输出目标数据分片数量的数据分片。

本步骤阐述请参考上述实施例中的步骤305，本申请实施例在此不再赘述。

步骤406，通过数据立方模型将各个数据分片分发至对应的子数据立方模型，得到各个数据分片的数据处理结果。

步骤407，将各个数据处理结果存储至数据立方模型中。

步骤408，根据各个数据处理结果对数据立方模型的数据库信息和索引信息。

在一种可能的实施方式中，数据处理结果与数据库信息和索引信息的更新有关，则服务器还根据各个数据处理结果对数据立方模型的数据库信息和索引信息。

步骤409，响应于接收到数据结果查询请求，从数据立方模型中调取数据处理结果。

进一步的，当终端需要对多表数据集进行统计分析时，可以向服务器发送数据结果查询请求，服务器根据数据结果查询请求从数据立方模型中调取数据处理结果，而不是采用相关技术中的全表数据扫描后再通过终端处理数据的方式，规避终端数据处理卡顿，提高终端数据统计分析能力。

本申请实施例中，介绍了数据处理结果与数据库信息和索引信息的更新有关，服务器还根据各个数据处理结果对数据立方模型的数据库信息和索引信息；此外，当终端需要对多表数据集进行统计分析时，可以向服务器发送数据结果查询请求，服务器根据数据结果查询请求从数据立方模型中调取数据处理结果，而不是采用相关技术中的全表数据扫描后再通过终端处理数据的方式，规避终端数据处理卡顿，提高终端数据统计分析能力。

实施例4

进一步的，子数据立方模型包括至少一种构建元素，至少一种构建元素包括维度表、时间表、信息库、过滤表和聚合数据库，其中，各个构建元素需进行一定的更新。

通过本实施例对数据立方模型和子数据立方模型的运作做进一步的阐述。

请参考图5，其示出了本发明一示例性实施例提供的数据立方模型的更新流程图。该方法可实施于上述各个实施例步骤之前，该方法包括：

步骤501，将待更新数据输入数据立方模型，并根据待更新数据生成至少一个更新任务。

其中，待更新数据用于对子数据立方模型的至少一种构建元素更新，其中，一个更新任务对应一个子数据立方模型的更新。

步骤502，通过数据立方模型将各个更新任务发送至对应的子数据立方模型。

步骤503，根据更新任务对子数据立方模型的至少一种构建元素更新。

本申请实施例中，在上述实施例的基础上，介绍了数据立方模型和子数据立方模型关于更新机制的介绍，且通过分发更新任务方式可实现各个子数据立方模型的同步更新进程，提高各个子数据立方模型的更新效率，也提高了服务器端的运维效率。

请参考图6，其示出了本发明一示例性实施例提供的数据处理装置的结构框图，所述装置包括：

关联清除模块601，用于将多表数据集进行多表关联清除操作，得到多维数据集，所述多表关联清除操作用于清除所述多表数据集间的冗余数据；

数据准备模块602，用于对所述多维数据集进行排序处理和聚合处理，得到待分发数据集；

数据分片模块603，用于将所述待分发数据集输入数据立方模型，得到数据分片，所述数据立方模型用于根据数据分片规则对所述待分发数据集进行分片处理；

数据处理模块604，用于通过所述数据立方模型将各个数据分片分发至对应的子数据立方模型，得到所述各个数据分片的数据处理结果，所述子数据立方模型用于对对应的数据分片进行数据处理；

数据存储模块605，用于将各个数据处理结果存储至所述数据立方模型中。

可选的，所述数据立方模型包括键值计算层和数据分片层；

所述数据分片模块603，包括：

第一分片单元，用于将所述待分发数据集输入所述键值计算层，得到键值计算结果；

第二分片单元，用于将所述键值计算结果输入所述数据分片层，确定出所述待分发数据集的目标数据分片数量；

第三分片单元，用于通过所述数据分片层输出所述目标数据分片数量的数据分片。

可选的，数据分片规则存储有所述键值计算结果与数据分片数量的映射关系；

所述第二分片单元，还用于：

将所述键值计算结果输入所述数据分片层；

根据所述键值计算结果与所述数据分片数量的映射关系，确定出所述待分发数据集的目标数据分片数量。

可选的，所述装置还包括：

模型更新模块，用于根据所述各个数据处理结果对所述数据立方模型的数据库信息和索引信息。

可选的，所述装置还包括：

数据调取模型，用于响应于接收到数据结果查询请求，从所述数据立方模型中调取所述数据处理结果。

可选的，子数据立方模型包括至少一种构建元素，所述至少一种构建元素包括维度表、时间表、信息库、过滤表和聚合数据库，所述装置还包括：

第一更新模块，用于将待更新数据输入所述数据立方模型，并根据所述待更新数据生成至少一个更新任务，所述待更新数据用于对所述子数据立方模型的至少一种构建元素更新，其中，一个更新任务对应一个子数据立方模型的更新；

第二更新模块，用于通过所述数据立方模型将各个更新任务发送至对应的子数据立方模型；

第三更新模块，用于根据所述更新任务对所述子数据立方模型的所述至少一种构建元素更新。

请参考图7，其示出了本发明一个实施例提供的服务器700的结构示意图。该服务器700可用于实施于上述实施例中提供的数据处理方法。该服务器700 可以是图1中介绍的服务器120。具体来讲：

服务器700包括中央处理单元(CPU)701、包括随机存取存储器(RAM) 702和只读存储器(ROM)703的系统存储器704，以及连接系统存储器704和中央处理单元701的系统总线705。服务器700还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)706，和用于存储操作系统713、应用程序714和其他程序模块715的大容量存储设备707。

基本输入/输出系统706包括有用于显示信息的显示器708和用于用户输入信息的诸如鼠标、键盘之类的输入设备709。其中显示器708和输入设备709都通过连接到系统总线705的输入输出控制器710连接到中央处理单元701。基本输入/输出系统706还可以包括输入输出控制器710以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器710还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备707通过连接到系统总线705的大容量存储控制器(未示出)连接到中央处理单元701。大容量存储设备707及其相关联的计算机可读介质为服务器700提供非易失性存储。也就是说，大容量存储设备707可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器704和大容量存储设备707可以统称为存储器。

根据本发明的各种实施例，服务器700还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器700可以通过连接在系统总线705上的网络接口单元711连接到网络712，或者说，也可以使用网络接口单元711来连接到其他类型的网络或远程计算机系统(未示出)。

存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于实现上述服务器侧的数据处理方法的指令。

所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以上处理器执行，以实现上述数据处理方法中各个步骤的功能。

本发明还提供一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述各个实施例提供的数据处理方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD， Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,ResistanceRandom Access Memory)和动态随机存取存储器 (DRAM，Dynamic Random AccessMemory)。

上述本发明序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的可选实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

将各个数据处理结果存储至所述数据立方模型中。

2.根据权利要求1所述的方法，其特征在于，所述数据立方模型包括键值计算层和数据分片层；

所述将所述待分发数据集输入数据立方模型，得到数据分片，包括：

将所述待分发数据集输入所述键值计算层，得到键值计算结果；

将所述键值计算结果输入所述数据分片层，确定出所述待分发数据集的目标数据分片数量；

通过所述数据分片层输出所述目标数据分片数量的数据分片。

3.根据权利要求2所述的方法，其特征在于，所述数据分片规则存储有所述键值计算结果与数据分片数量的映射关系；

所述将所述键值计算结果输入所述数据分片层，确定出所述待分发数据集的目标数据分片数量，包括：

将所述键值计算结果输入所述数据分片层；

4.根据权利要求1至3任一所述的方法，其特征在于，所述将各个数据处理结果存储至所述数据立方模型中之后，所述方法还包括：

根据所述各个数据处理结果对所述数据立方模型的数据库信息和索引信息。

5.根据权利要求1至3任一所述的方法，其特征在于，所述将各个数据处理结果存储至所述数据立方模型中之后，所述方法还包括：

响应于接收到数据结果查询请求，从所述数据立方模型中调取所述数据处理结果。

6.根据权利要求1至3任一所述的方法，其特征在于，所述子数据立方模型包括至少一种构建元素，所述至少一种构建元素包括维度表、时间表、信息库、过滤表和聚合数据库；

所述方法还包括：

将待更新数据输入所述数据立方模型，并根据所述待更新数据生成至少一个更新任务，所述待更新数据用于对所述子数据立方模型的至少一种构建元素更新，其中，一个更新任务对应一个子数据立方模型的更新；

通过所述数据立方模型将各个更新任务发送至对应的子数据立方模型；

根据所述更新任务对所述子数据立方模型的所述至少一种构建元素更新。

7.一种数据处理装置，其特征在于，所述装置包括：

8.一种服务器，其特征在于，所述服务器包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如权利要求1至6任一所述的数据处理方法。

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令，所述至少一条指令用于被处理器执行以实现如权利要求1至6任一所述的数据处理方法。