CN113297333A - 数据处理方法、装置、服务器及存储介质 - Google Patents

数据处理方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN113297333A
CN113297333A CN202110284163.7A CN202110284163A CN113297333A CN 113297333 A CN113297333 A CN 113297333A CN 202110284163 A CN202110284163 A CN 202110284163A CN 113297333 A CN113297333 A CN 113297333A
Authority
CN
China
Prior art keywords
data
cube model
processing
model
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110284163.7A
Other languages
English (en)
Inventor
魏继超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Jishubao Big Data Technology Co ltd
Original Assignee
Wuxi Jishubao Big Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Jishubao Big Data Technology Co ltd filed Critical Wuxi Jishubao Big Data Technology Co ltd
Priority to CN202110284163.7A priority Critical patent/CN113297333A/zh
Publication of CN113297333A publication Critical patent/CN113297333A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries

Abstract

本发明公开了一种数据处理方法、装置、服务器及存储介质,属于大数据处理领域。该方法中,将多表数据集实现多表关联清除、排序和聚众处理,得到待分发数据集,进一步的,通过数据立方模型实现对数据分片的分发,并通过各个子数据立方模型得到数据处理结果,方便在数据统计分析时,随时调取处理值,而不是从数据库中调取数据值后再得到处理值,不仅通过数据分片方式提高了数据处理能力,也优化便捷了统计分析过程,特别适用于涉及大数据处理的作业,从而解决相关技术无法高效解决数据统计分析的问题,替换堆叠硬件或者人工处理的数据处理方式。

Description

数据处理方法、装置、服务器及存储介质
技术领域
本发明涉及大数据处理领域,特别涉及一种数据处理方法、装置、服务器 及存储介质。
背景技术
在经济、政务、投融资、风险评估等行业,关于数据的收集、存储、处理 效率对作业进度和作业结果起着关键性作用。
在数据采集完成后,根据数据类型等信息得到单表数据集或多表数据集, 相关技术中常采用的数据处理与统计分析方式为全表扫描和索引。当单表数据 量超过1亿条时,全表扫描时间耗时太长;当多表数据量超过1000万条时,统 计分析效率低下,难以应用;且即使有索引的情况下,数据量大到一定程度, 数据处理效率也低下,如不超过3个表的统计分析关联是大多数数据处理系统 的瓶颈。
因此,相关技术中的数据处理与统计分析技术只能适应小规模的数据集和 不复杂的表关联应用,在更多行业的专业领域内特别是财税领域基本无法使用, 导致实际的应用过程中无法达到预期效果。
发明内容
本发明提供了一种数据处理方法、装置、服务器及存储介质,用于解决相 关技术中多表关联时超大数据量处理效率低下的问题。所述技术方案如下:
一方面,提供了一种数据处理方法,所述方法包括:
将多表数据集进行多表关联清除操作,得到多维数据集,所述多表关联清 除操作用于清除所述多表数据集间的冗余数据;
对所述多维数据集进行排序处理和聚合处理,得到待分发数据集;
将所述待分发数据集输入数据立方模型,得到数据分片,所述数据立方模 型用于根据数据分片规则对所述待分发数据集进行分片处理;
通过所述数据立方模型将各个数据分片分发至对应的子数据立方模型,得 到所述各个数据分片的数据处理结果,所述子数据立方模型用于对对应的数据 分片进行数据处理;
将各个数据处理结果存储至所述数据立方模型中。
另一方面,提供了一种数据处理装置,所述装置包括:
关联清除模块,用于将多表数据集进行多表关联清除操作,得到多维数据 集,所述多表关联清除操作用于清除所述多表数据集间的冗余数据;
数据准备模块,用于对所述多维数据集进行排序处理和聚合处理,得到待 分发数据集;
数据分片模块,用于将所述待分发数据集输入数据立方模型,得到数据分 片,所述数据立方模型用于根据数据分片规则对所述待分发数据集进行分片处 理;
数据处理模块,用于通过所述数据立方模型将各个数据分片分发至对应的 子数据立方模型,得到所述各个数据分片的数据处理结果,所述子数据立方模 型用于对对应的数据分片进行数据处理;
数据存储模块,用于将各个数据处理结果存储至所述数据立方模型中。
另一方面,提供了一种服务器,所述服务器包括处理器和存储器;所述存 储器存储有至少一条指令,所述至少一条指令用于被所述处理器执行以实现如 上述方面所述的数据处理方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质存储有至少一 条指令,所述至少一条指令用于被处理器执行以实现如上述方面所述的数据处 理方法。
另一方面,还提供了一种计算机程序产品,该计算机程序产品存储有至少 一条指令,所述至少一条指令由所述处理器加载并执行以实现上述方面所述的 数据处理方法。
本发明带来的有益效果:
本发明中,在终端处理大数据时,通过服务器的后端处理,将多表数据集 实现多表关联清除、排序和聚众处理,得到待分发数据集,进一步的,通过数 据立方模型实现对数据分片的分发,并通过各个子数据立方模型得到数据处理 结果,方便在数据统计分析时,随时调取处理值,而不是从数据库中调取数据 值后再得到处理值,不仅通过数据分片方式提高了数据处理能力,也优化便捷 了统计分析过程,特别适用于涉及大数据处理的作业,从而解决相关技术无法 高效解决数据统计分析的问题,替换堆叠硬件或者人工处理的数据处理方式。
附图说明
图1示出了本发明一示例性实施例提供的计算机系统的示意图;
图2示出了本发明一示例性实施例提供的数据处理方法的流程图;
图3示出了本发明另一示例性实施例提供的数据处理方法的流程图;
图4示出了本发明另一示例性实施例提供的数据处理方法的流程图;
图5示出了本发明一示例性实施例提供的数据立方模型的更新流程图;
图6示出了本发明一示例性实施例提供的数据处理装置的结构框图;
图7示出了本发明一示例性实施例提供的服务器的结构方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明 实施方式作进一步地详细描述。
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关 联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A, 同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一 种“或”的关系。
本发明提供的数据处理方法能够广泛应用于需要进行数据处理和统计分析 的场景中,如在财税领域,多表关联数据集平均表数据超过几千万条,急需一 种数据处理方法来提高作业效率。
请参考图1,其示出了本发明一示例性实施例提供的计算机系统的示意图。 该计算机系统包括终端110和服务器120,其中,终端110与服务器120之间通 过通信网络进行数据通信,可选的,通信网络可以是有线网络也可以是无线网 络,且该通信网络可以是局域网、城域网以及广域网中的至少一种。
终端110用于采集存储数据,或终端110安装有数据处理系统用于采集存 储数据,并将多表数据集或实时的数据集发送至服务器120,可选的,终端110 可以是智能手机、平板电脑、膝上便携式笔记本电脑等移动装置,也可以是台 式电脑、投影式电脑等固定装置,本发明对此不做限定。
服务器120可以实现为一台服务器,也可以实现为一组服务器构成的服务 器集群,其可以是物理服务器,也可以实现为云服务器。在一种可能的实施方 式中,服务器120是终端110内数据处理系统的后台服务器。
在一个示例中,如图1所示,终端110将多表数据集发送至服务器120,服 务器120对多表数据集进行多表关联清除操作得到多维数据集,进一步的,服 务器120完成对多维数据集的排序处理和聚合处理,得到待分发数据集,其次, 服务器120将待分发数据集输入数据立方模型,得到数据分片,并通过数据立 方模型将各个数据分片分发至对应的子数据立方模型,得到各个数据分片的数 据处理结果并存储;当终端110需要获取多表数据集的处理结果时,可从数据 立方模型中调取数据处理结果。
在其他可能的实施方式中,上述数据立方模型和数据分片处理也可以实现 成为终端110功能的部分或全部,而无需借助服务器120,本发明对此不作限定。
为了方便表述,下述各个实施例以数据处理方法由服务器执行为例进行说 明。
请参考图2,其示出了本发明一示例性实施例提供的数据处理方法的流程 图。该方法包括:
步骤201,将多表数据集进行多表关联清除操作,得到多维数据集。
其中,多表关联清除操作用于清除多表数据集间的冗余数据,冗余数据是 多表关联时不可避免产生的数据,但对数据存储空间和处理过程带来影响。由 此,在对多表数据集处理之前,先将多表数据集进行多表关联清除操作,得到 多维数据集,从而清除多表数据集间的冗余数据。
步骤202,对多维数据集进行排序处理和聚合处理,得到待分发数据集。
为了提高数据立方模型的数据处理效率,对多维数据集进行排序处理和聚 合处理,得到待分发数据集,待分发数据集经过排序和聚合处理之后,提高了 数据集的逻辑性和区别特征,便于处理和调用。
步骤203,将待分发数据集输入数据立方模型,得到数据分片,数据立方模 型用于根据数据分片规则对待分发数据集进行分片处理。
本发明实施例中,相较于相关技术中的全表数据扫描而言,通过数据分片 方式,先通过数据立方模型得到数据分片,再通过各个子数据立方模型分别处 理各个数据分片,规避了全表扫描数据时处理卡顿的问题,且采用同步多线程 处理时,可以极大提高实时数据集的处理效率。
步骤204,通过数据立方模型将各个数据分片分发至对应的子数据立方模 型,得到各个数据分片的数据处理结果。
其中,子数据立方模型用于对对应的数据分片进行数据处理,得到数据处 理结果。
步骤205,将各个数据处理结果存储至数据立方模型中。
进一步,将各个数据处理结果存储至数据立方模型中,与相关技术中全表 扫描还有区别的是,全表扫描只能实现数据调取与读写,而本发明可通过子数 据立方模型实现对数据集的处理,即数据立方模型数据库中存放的是处理值, 无需从数据库中取出数据再处理计算,将数据处理过程简化为如拿原始数据那 样“取数据”而不是“算数据”。
综上所述,本发明实施例中,在终端处理大数据时,通过服务器的后端处 理,将多表数据集实现多表关联清除、排序和聚众处理,得到待分发数据集, 进一步的,通过数据立方模型实现对数据分片的分发,并通过各个子数据立方 模型得到数据处理结果,方便在数据统计分析时,随时调取处理值,而不是从 数据库中调取数据值后再得到处理值,不仅通过数据分片方式提高了数据处理 能力,也优化便捷了统计分析过程,特别适用于涉及大数据处理的作业,从而 解决相关技术无法高效解决数据统计分析的问题,替换堆叠硬件或者人工处理 的数据处理方式。
实施例2
请参考图3,其示出了本发明另一示例性实施例提供的数据处理方法的流程 图。该方法包括:
步骤301,将多表数据集进行多表关联清除操作,得到多维数据集。
本步骤阐述请参考上述实施例中的步骤201,本申请实施例在此不再赘述。
步骤302,对多维数据集进行排序处理和聚合处理,得到待分发数据集。
本步骤阐述请参考上述实施例中的步骤202,本申请实施例在此不再赘述。
可选的,数据立方模型包括键值计算层和数据分片层,则上述实施例中步 骤203可分为如下步骤303至步骤305。
步骤303,将待分发数据集输入键值计算层,得到键值计算结果。
可选的,键值计算结果与待分发数据集的体量有关。
此外,在计算键值计算结果的过程中,采用对键值作哈希处理的方式简化 数据存储空间。
步骤304,将键值计算结果输入数据分片层,确定出待分发数据集的目标数 据分片数量。
在一种可能的实施方式中,数据分片规则存储有键值计算结果与数据分片 数量的映射关系,则步骤304包括如下内容一和内容二。
内容一、将键值计算结果输入数据分片层。
内容二、根据键值计算结果与数据分片数量的映射关系,确定出待分发数 据集的目标数据分片数量。
步骤305,通过数据分片层输出目标数据分片数量的数据分片。
可选的,若暂不通过子数据立方模型对数据进行处理,则可将输出的数据 分片进行存储。
步骤306,通过数据立方模型将各个数据分片分发至对应的子数据立方模 型,得到各个数据分片的数据处理结果。
本步骤阐述请参考上述实施例中的步骤204,本申请实施例在此不再赘述。
步骤307,将各个数据处理结果存储至数据立方模型中。
本步骤阐述请参考上述实施例中的步骤205,本申请实施例在此不再赘述。
本申请实施例中,主要介绍了数据分片的过程,通过键值计算结果与数据 分片数量的映射关系,有效确定出待分发数据集的目标数据分片数量,进而提 高后续数据处理效率。
实施例3
请参考图4,其示出了本发明另一示例性实施例提供的数据处理方法的流程 图。该方法包括:
步骤401,将多表数据集进行多表关联清除操作,得到多维数据集。
本步骤阐述请参考上述实施例中的步骤201,本申请实施例在此不再赘述。
步骤402,对多维数据集进行排序处理和聚合处理,得到待分发数据集。
本步骤阐述请参考上述实施例中的步骤202,本申请实施例在此不再赘述。
步骤403,将待分发数据集输入键值计算层,得到键值计算结果。
本步骤阐述请参考上述实施例中的步骤303,本申请实施例在此不再赘述。
步骤404,将键值计算结果输入数据分片层,确定出待分发数据集的目标数 据分片数量。
本步骤阐述请参考上述实施例中的步骤304,本申请实施例在此不再赘述。
步骤405,通过数据分片层输出目标数据分片数量的数据分片。
本步骤阐述请参考上述实施例中的步骤305,本申请实施例在此不再赘述。
步骤406,通过数据立方模型将各个数据分片分发至对应的子数据立方模 型,得到各个数据分片的数据处理结果。
本步骤阐述请参考上述实施例中的步骤204,本申请实施例在此不再赘述。
步骤407,将各个数据处理结果存储至数据立方模型中。
本步骤阐述请参考上述实施例中的步骤205,本申请实施例在此不再赘述。
步骤408,根据各个数据处理结果对数据立方模型的数据库信息和索引信 息。
在一种可能的实施方式中,数据处理结果与数据库信息和索引信息的更新 有关,则服务器还根据各个数据处理结果对数据立方模型的数据库信息和索引 信息。
步骤409,响应于接收到数据结果查询请求,从数据立方模型中调取数据处 理结果。
进一步的,当终端需要对多表数据集进行统计分析时,可以向服务器发送 数据结果查询请求,服务器根据数据结果查询请求从数据立方模型中调取数据 处理结果,而不是采用相关技术中的全表数据扫描后再通过终端处理数据的方 式,规避终端数据处理卡顿,提高终端数据统计分析能力。
本申请实施例中,介绍了数据处理结果与数据库信息和索引信息的更新有 关,服务器还根据各个数据处理结果对数据立方模型的数据库信息和索引信息; 此外,当终端需要对多表数据集进行统计分析时,可以向服务器发送数据结果 查询请求,服务器根据数据结果查询请求从数据立方模型中调取数据处理结果, 而不是采用相关技术中的全表数据扫描后再通过终端处理数据的方式,规避终 端数据处理卡顿,提高终端数据统计分析能力。
实施例4
进一步的,子数据立方模型包括至少一种构建元素,至少一种构建元素包 括维度表、时间表、信息库、过滤表和聚合数据库,其中,各个构建元素需进 行一定的更新。
通过本实施例对数据立方模型和子数据立方模型的运作做进一步的阐述。
请参考图5,其示出了本发明一示例性实施例提供的数据立方模型的更新流 程图。该方法可实施于上述各个实施例步骤之前,该方法包括:
步骤501,将待更新数据输入数据立方模型,并根据待更新数据生成至少一 个更新任务。
其中,待更新数据用于对子数据立方模型的至少一种构建元素更新,其中, 一个更新任务对应一个子数据立方模型的更新。
步骤502,通过数据立方模型将各个更新任务发送至对应的子数据立方模 型。
步骤503,根据更新任务对子数据立方模型的至少一种构建元素更新。
本申请实施例中,在上述实施例的基础上,介绍了数据立方模型和子数据 立方模型关于更新机制的介绍,且通过分发更新任务方式可实现各个子数据立 方模型的同步更新进程,提高各个子数据立方模型的更新效率,也提高了服务 器端的运维效率。
请参考图6,其示出了本发明一示例性实施例提供的数据处理装置的结构框 图,所述装置包括:
关联清除模块601,用于将多表数据集进行多表关联清除操作,得到多维数 据集,所述多表关联清除操作用于清除所述多表数据集间的冗余数据;
数据准备模块602,用于对所述多维数据集进行排序处理和聚合处理,得到 待分发数据集;
数据分片模块603,用于将所述待分发数据集输入数据立方模型,得到数据 分片,所述数据立方模型用于根据数据分片规则对所述待分发数据集进行分片 处理;
数据处理模块604,用于通过所述数据立方模型将各个数据分片分发至对应 的子数据立方模型,得到所述各个数据分片的数据处理结果,所述子数据立方 模型用于对对应的数据分片进行数据处理;
数据存储模块605,用于将各个数据处理结果存储至所述数据立方模型中。
可选的,所述数据立方模型包括键值计算层和数据分片层;
所述数据分片模块603,包括:
第一分片单元,用于将所述待分发数据集输入所述键值计算层,得到键值 计算结果;
第二分片单元,用于将所述键值计算结果输入所述数据分片层,确定出所 述待分发数据集的目标数据分片数量;
第三分片单元,用于通过所述数据分片层输出所述目标数据分片数量的数 据分片。
可选的,数据分片规则存储有所述键值计算结果与数据分片数量的映射关 系;
所述第二分片单元,还用于:
将所述键值计算结果输入所述数据分片层;
根据所述键值计算结果与所述数据分片数量的映射关系,确定出所述待分 发数据集的目标数据分片数量。
可选的,所述装置还包括:
模型更新模块,用于根据所述各个数据处理结果对所述数据立方模型的数 据库信息和索引信息。
可选的,所述装置还包括:
数据调取模型,用于响应于接收到数据结果查询请求,从所述数据立方模 型中调取所述数据处理结果。
可选的,子数据立方模型包括至少一种构建元素,所述至少一种构建元素 包括维度表、时间表、信息库、过滤表和聚合数据库,所述装置还包括:
第一更新模块,用于将待更新数据输入所述数据立方模型,并根据所述待 更新数据生成至少一个更新任务,所述待更新数据用于对所述子数据立方模型 的至少一种构建元素更新,其中,一个更新任务对应一个子数据立方模型的更 新;
第二更新模块,用于通过所述数据立方模型将各个更新任务发送至对应的 子数据立方模型;
第三更新模块,用于根据所述更新任务对所述子数据立方模型的所述至少 一种构建元素更新。
请参考图7,其示出了本发明一个实施例提供的服务器700的结构示意图。 该服务器700可用于实施于上述实施例中提供的数据处理方法。该服务器700 可以是图1中介绍的服务器120。具体来讲:
服务器700包括中央处理单元(CPU)701、包括随机存取存储器(RAM) 702和只读存储器(ROM)703的系统存储器704,以及连接系统存储器704和 中央处理单元701的系统总线705。服务器700还包括帮助计算机内的各个器件 之间传输信息的基本输入/输出系统(I/O系统)706,和用于存储操作系统713、 应用程序714和其他程序模块715的大容量存储设备707。
基本输入/输出系统706包括有用于显示信息的显示器708和用于用户输入 信息的诸如鼠标、键盘之类的输入设备709。其中显示器708和输入设备709都 通过连接到系统总线705的输入输出控制器710连接到中央处理单元701。基本 输入/输出系统706还可以包括输入输出控制器710以用于接收和处理来自键盘、 鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器710还 提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备707通过连接到系统总线705的大容量存储控制器(未示 出)连接到中央处理单元701。大容量存储设备707及其相关联的计算机可读介 质为服务器700提供非易失性存储。也就是说,大容量存储设备707可以包括 诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算 机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他 数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介 质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态 存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其 他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几 种。上述的系统存储器704和大容量存储设备707可以统称为存储器。
根据本发明的各种实施例,服务器700还可以通过诸如因特网等网络连接 到网络上的远程计算机运行。也即服务器700可以通过连接在系统总线705上 的网络接口单元711连接到网络712,或者说,也可以使用网络接口单元711来 连接到其他类型的网络或远程计算机系统(未示出)。
存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存 储器中,且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上 程序包含用于实现上述服务器侧的数据处理方法的指令。
所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所 述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以 上处理器执行,以实现上述数据处理方法中各个步骤的功能。
本发明还提供一种计算机可读存储介质,该存储介质中存储有至少一条指 令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、 所述代码集或指令集由处理器加载并执行以实现如上述各个实施例提供的数据 处理方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD, Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取 记忆体(ReRAM,ResistanceRandom Access Memory)和动态随机存取存储器 (DRAM,Dynamic Random AccessMemory)。
上述本发明序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过 硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于 一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或 光盘等。
以上所述仅为本发明的可选实施例,并不用以限制本发明,凡在本发明的 精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的 保护范围之内。

Claims (9)

1.一种数据处理方法,其特征在于,所述方法包括:
将多表数据集进行多表关联清除操作,得到多维数据集,所述多表关联清除操作用于清除所述多表数据集间的冗余数据;
对所述多维数据集进行排序处理和聚合处理,得到待分发数据集;
将所述待分发数据集输入数据立方模型,得到数据分片,所述数据立方模型用于根据数据分片规则对所述待分发数据集进行分片处理;
通过所述数据立方模型将各个数据分片分发至对应的子数据立方模型,得到所述各个数据分片的数据处理结果,所述子数据立方模型用于对对应的数据分片进行数据处理;
将各个数据处理结果存储至所述数据立方模型中。
2.根据权利要求1所述的方法,其特征在于,所述数据立方模型包括键值计算层和数据分片层;
所述将所述待分发数据集输入数据立方模型,得到数据分片,包括:
将所述待分发数据集输入所述键值计算层,得到键值计算结果;
将所述键值计算结果输入所述数据分片层,确定出所述待分发数据集的目标数据分片数量;
通过所述数据分片层输出所述目标数据分片数量的数据分片。
3.根据权利要求2所述的方法,其特征在于,所述数据分片规则存储有所述键值计算结果与数据分片数量的映射关系;
所述将所述键值计算结果输入所述数据分片层,确定出所述待分发数据集的目标数据分片数量,包括:
将所述键值计算结果输入所述数据分片层;
根据所述键值计算结果与所述数据分片数量的映射关系,确定出所述待分发数据集的目标数据分片数量。
4.根据权利要求1至3任一所述的方法,其特征在于,所述将各个数据处理结果存储至所述数据立方模型中之后,所述方法还包括:
根据所述各个数据处理结果对所述数据立方模型的数据库信息和索引信息。
5.根据权利要求1至3任一所述的方法,其特征在于,所述将各个数据处理结果存储至所述数据立方模型中之后,所述方法还包括:
响应于接收到数据结果查询请求,从所述数据立方模型中调取所述数据处理结果。
6.根据权利要求1至3任一所述的方法,其特征在于,所述子数据立方模型包括至少一种构建元素,所述至少一种构建元素包括维度表、时间表、信息库、过滤表和聚合数据库;
所述方法还包括:
将待更新数据输入所述数据立方模型,并根据所述待更新数据生成至少一个更新任务,所述待更新数据用于对所述子数据立方模型的至少一种构建元素更新,其中,一个更新任务对应一个子数据立方模型的更新;
通过所述数据立方模型将各个更新任务发送至对应的子数据立方模型;
根据所述更新任务对所述子数据立方模型的所述至少一种构建元素更新。
7.一种数据处理装置,其特征在于,所述装置包括:
关联清除模块,用于将多表数据集进行多表关联清除操作,得到多维数据集,所述多表关联清除操作用于清除所述多表数据集间的冗余数据;
数据准备模块,用于对所述多维数据集进行排序处理和聚合处理,得到待分发数据集;
数据分片模块,用于将所述待分发数据集输入数据立方模型,得到数据分片,所述数据立方模型用于根据数据分片规则对所述待分发数据集进行分片处理;
数据处理模块,用于通过所述数据立方模型将各个数据分片分发至对应的子数据立方模型,得到所述各个数据分片的数据处理结果,所述子数据立方模型用于对对应的数据分片进行数据处理;
数据存储模块,用于将各个数据处理结果存储至所述数据立方模型中。
8.一种服务器,其特征在于,所述服务器包括处理器和存储器;所述存储器存储有至少一条指令,所述至少一条指令用于被所述处理器执行以实现如权利要求1至6任一所述的数据处理方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有至少一条指令,所述至少一条指令用于被处理器执行以实现如权利要求1至6任一所述的数据处理方法。
CN202110284163.7A 2021-03-17 2021-03-17 数据处理方法、装置、服务器及存储介质 Pending CN113297333A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110284163.7A CN113297333A (zh) 2021-03-17 2021-03-17 数据处理方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110284163.7A CN113297333A (zh) 2021-03-17 2021-03-17 数据处理方法、装置、服务器及存储介质

Publications (1)

Publication Number Publication Date
CN113297333A true CN113297333A (zh) 2021-08-24

Family

ID=77319174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110284163.7A Pending CN113297333A (zh) 2021-03-17 2021-03-17 数据处理方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN113297333A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103208039A (zh) * 2012-01-13 2013-07-17 株式会社日立制作所 软件项目风险评价方法及装置
CN103294831A (zh) * 2013-06-27 2013-09-11 中国人民大学 列存储数据库中基于多维数组的分组聚集计算方法
CN106600067A (zh) * 2016-12-19 2017-04-26 广州视源电子科技股份有限公司 多维立方体模型的优化方法和装置
CN107515899A (zh) * 2017-07-24 2017-12-26 北京国电通网络技术有限公司 数据库联合分片方法、装置以及存储介质
CN108334557A (zh) * 2017-12-29 2018-07-27 东软集团(上海)有限公司 一种聚合数据分析方法、装置、存储介质及电子设备
CN108416047A (zh) * 2018-03-16 2018-08-17 北京工商大学 一种面向农药残留数据的多维交叉分析方法与系统
CN108701154A (zh) * 2016-02-26 2018-10-23 克里斯普智能私人有限公司 数据源系统不可知的事实类别分区信息存储库以及用于使用信息存储库插入和检索数据的方法
CN109299197A (zh) * 2018-08-07 2019-02-01 威富通科技有限公司 一种数据立方体的分区方法、系统及终端设备
CN110647577A (zh) * 2019-08-02 2020-01-03 威富通科技有限公司 数据立方体的分区方法、装置、计算机设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103208039A (zh) * 2012-01-13 2013-07-17 株式会社日立制作所 软件项目风险评价方法及装置
CN103294831A (zh) * 2013-06-27 2013-09-11 中国人民大学 列存储数据库中基于多维数组的分组聚集计算方法
CN108701154A (zh) * 2016-02-26 2018-10-23 克里斯普智能私人有限公司 数据源系统不可知的事实类别分区信息存储库以及用于使用信息存储库插入和检索数据的方法
CN106600067A (zh) * 2016-12-19 2017-04-26 广州视源电子科技股份有限公司 多维立方体模型的优化方法和装置
CN107515899A (zh) * 2017-07-24 2017-12-26 北京国电通网络技术有限公司 数据库联合分片方法、装置以及存储介质
CN108334557A (zh) * 2017-12-29 2018-07-27 东软集团(上海)有限公司 一种聚合数据分析方法、装置、存储介质及电子设备
CN108416047A (zh) * 2018-03-16 2018-08-17 北京工商大学 一种面向农药残留数据的多维交叉分析方法与系统
CN109299197A (zh) * 2018-08-07 2019-02-01 威富通科技有限公司 一种数据立方体的分区方法、系统及终端设备
CN110647577A (zh) * 2019-08-02 2020-01-03 威富通科技有限公司 数据立方体的分区方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
侯东风;陆昌辉;刘青宝;张维明;: "数据立方体计算方法研究综述", 计算机科学, no. 10 *

Similar Documents

Publication Publication Date Title
US7765216B2 (en) Multidimensional analysis tool for high dimensional data
CN111046034A (zh) 管理内存数据及在内存中维护数据的方法和系统
US11347740B2 (en) Managed query execution platform, and methods thereof
CN111061758B (zh) 数据存储方法、装置及存储介质
US20240126817A1 (en) Graph data query
US20190050672A1 (en) INCREMENTAL AUTOMATIC UPDATE OF RANKED NEIGHBOR LISTS BASED ON k-th NEAREST NEIGHBORS
CN106844541B (zh) 一种联机分析处理方法及装置
CN116982035A (zh) 分布式数据系统中索引质量的测量与改进
US10482085B2 (en) Methods and systems for estimating the number of points in two-dimensional data
CN116719822B (zh) 一种海量结构化数据的存储方法及系统
US11403302B1 (en) Quantile data sketches based on frequent data items
US9201888B2 (en) File management apparatus, file management method, and file management system
WO2023197865A1 (zh) 一种信息存储方法及装置
CN113127741A (zh) 兼职岗位推荐系统中海量用户和岗位数据读写的缓存方法
CN112100177A (zh) 数据存储方法、装置、计算机设备及存储介质
CN113297333A (zh) 数据处理方法、装置、服务器及存储介质
CN113190549B (zh) 多维表数据调取方法、装置、服务器及存储介质
CN115328950A (zh) 一种基于二级索引的hbase查询方法、终端设备及存储介质
WO2019082177A1 (en) SYSTEM AND METHOD FOR DATA EXTRACTION
CN117321583A (zh) 用于混合数据处理的存储引擎
CN110990394B (zh) 分布式面向列数据库表的行数统计方法、装置和存储介质
CN111813761A (zh) 一种数据库管理方法、装置以及计算机存储介质
CN116882408B (zh) 变压器图模型的构建方法、装置、计算机设备和存储介质
CN115544096B (zh) 数据查询方法、装置、计算机设备及存储介质
CN117591035B (zh) 数据集处理方法、装置及计算机可读取存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination