CN117056360B - 数据处理方法、装置、计算机设备及存储介质 - Google Patents
数据处理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN117056360B CN117056360B CN202311312241.5A CN202311312241A CN117056360B CN 117056360 B CN117056360 B CN 117056360B CN 202311312241 A CN202311312241 A CN 202311312241A CN 117056360 B CN117056360 B CN 117056360B
- Authority
- CN
- China
- Prior art keywords
- data
- data set
- processing
- combined
- results
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003860 storage Methods 0.000 title claims abstract description 33
- 238000003672 processing method Methods 0.000 title claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 276
- 238000004519 manufacturing process Methods 0.000 claims abstract description 129
- 238000004220 aggregation Methods 0.000 claims abstract description 83
- 230000002776 aggregation Effects 0.000 claims abstract description 83
- 238000009826 distribution Methods 0.000 claims description 82
- 238000001514 detection method Methods 0.000 claims description 61
- 230000002159 abnormal effect Effects 0.000 claims description 35
- 238000004590 computer program Methods 0.000 claims description 21
- 230000004931 aggregating effect Effects 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 4
- 238000000034 method Methods 0.000 description 37
- 230000008569 process Effects 0.000 description 22
- 238000004364 calculation method Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 17
- 230000005856 abnormality Effects 0.000 description 11
- 238000013450 outlier detection Methods 0.000 description 9
- 238000007405 data analysis Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000005065 mining Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000003466 welding Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24539—Query rewriting; Transformation using cached or materialised query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
- G06F16/24556—Aggregation; Duplicate elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种数据处理方法、装置、计算机设备及存储介质,属于大数据技术领域。在本申请中,数据库中的制造数据按照对应的多个维度的取值划分为多个数据集。在此基础上,数据中台以数据集为最小处理单位进行多维度的数据处理,从而得到每个数据集的多维处理结果,将每个数据集的多维处理结果进行存储。这样,后续若用户终端请求包括多个目标数据集在内的组合数据集的处理结果,则可以直接调用存储的多个目标数据集的多维处理结果,通过对多个目标数据集的多维处理结果进行聚合运算来得到组合数据集的处理结果,这样,所需占用的计算资源更少,并且,实现了处理结果的快速输出,提高了数据分析效率。
Description
技术领域
本申请属于大数据技术领域,尤其涉及一种数据处理方法、装置、计算机设备及存储介质。
背景技术
随着工业智能化程度越来越高,工业制造过程中产生了海量的制造数据。通过挖掘这些制造数据中的有效信息,能够更好的指导后续生产。
相关技术中,可以采用分布式数据库来对海量的制造数据进行结构化存储。在这种情况下,每当企业需要进行数据分析时,该企业中部署的数据中台可以基于用户输入的目标维度的检索条件,在数据库中进行全量检索,以获取该检索条件对应的数据并导出至本地。之后,基于用户的分析需求,对获取到的数据进行相应的处理,将处理结果输出给用户后删除。
由此可见,数据中台每次在进行数据分析时,均需要在数据库中全量检索以获取所需分析的数据,然而,由于数据库中的数据量巨大,所以数据中台在数据库中进行全量检索较为耗时,并且,在所需分析的数据较多时,计算时间长且需要占用大量的计算资源。
发明内容
本申请提供了一种数据处理方法、装置、计算机设备及存储介质,旨在占用更少的计算资源的基础上提高数据分析效率。
本申请的第一方面提供了一种数据处理方法,所述方法包括:获取多个数据集,所述多个数据集为按照数据库中的制造数据对应的多个维度的取值对所述制造数据进行划分得到;对所述多个数据集中的每个数据集进行多维处理,并存储每个数据集的多维处理结果;响应于用户终端发送的第一数据请求,对所述多个数据集中的多个目标数据集的多维处理结果进行聚合运算,得到组合数据集的处理结果,所述组合数据集包括所述多个目标数据集;发送所述组合数据集的处理结果,以使所述用户终端接收。
在本申请中,数据库中的制造数据按照对应的多个维度的取值划分为多个数据集。在此基础上,以数据集为最小处理单位进行多维度的数据处理,从而得到每个数据集的多维处理结果,将每个数据集的多维处理结果进行存储。这样,后续若用户终端请求包括多个目标数据集在内的组合数据集的处理结果,则可以直接调用存储的多个目标数据集的多维处理结果,通过对多个目标数据集的多维处理结果进行聚合运算来得到组合数据集的处理结果,如此,无需再在数据库中进行全量检索以获取该组合数据集,并且,聚合运算的计算量较小,所需的计算时间更短,占用的计算资源也更少,实现了处理结果的快速输出,提高了数据分析效率。
可选地,所述多个维度包括空间维度、时间维度和项目维度。
在本申请中,数据库中的制造数据可以按照对应的空间维度、时间维度和项目维度的取值来进行划分,这样,数据集的划分更为精细,有利于更准确的检索数据集。
可选地,所述多个维度中的每个维度包括多个层级,所述多个数据集为按照所述数据库中的制造数据对应的所述多个维度的最低层级的层级取值对所述制造数据进行划分得到。
在本申请中,所述多个层级中相邻的两个层级中的上一个层级包含下一个层级,按照制造数据对应的各个维度的最低层级的层级取值对制造数据进行划分得到数据集,后续,可以通过聚合这些数据集的多维处理结果来得到各个维度上高于最低层级的各个层级对应的父集的处理结果,从而实现数据的快速输出。
可选地,所述对所述多个数据集中的每个数据集进行多维处理,得到每个数据集的多维处理结果,包括:基于预设的多个统计量,对第一数据集中的数据进行统计,得到第一数据集的统计结果,所述第一数据集为所述多个数据集中的任一个,所述统计结果包括每个统计量的统计值,所述多维处理结果包括所述统计结果。
在本申请中,可以对数据集中的制造数据进行多维统计,以得到多种统计量的统计值,在此基础上,用户可以根据自身需求来进行多维度的查询和分析。
可选地,所述对所述多个数据集中的多个目标数据集的多维处理结果进行聚合运算,包括:对所述多个目标数据集的统计结果进行聚合运算,得到所述组合数据集的统计结果;基于所述多个目标数据集的统计结果,确定所述多个目标数据集的一致性检测结果,所述组合数据集的处理结果包括所述组合数据集的统计结果和所述多个目标数据集的一致性检测结果。
在本申请中,通过对多个目标数据集的统计结果进行聚合运算,可以得到该多个目标数据集组成的组合数据集的统计结果,相较于从数据库中检索并获取组合数据集中的制造数据后再进行统计,所占用的计算资源更少,速度更快,实现了组合数据集的统计结果的快速输出。并且,通过对目标数据集的多维处理结果的聚合运算,可以实现对各个维度的各个层级取值范围内的数据的分析评价。
可选地,所述对所述多个数据集中的每个数据集进行多维处理,得到每个数据集的多维处理结果还包括:获取连续的多个子区间;统计所述第一数据集中处于所述多个子区间中的每个子区间内的数据的个数,得到所述第一数据集的数据分布结果,所述多维处理结果还包括所述数据分布结果。
在本申请中,还可以确定数据集中处于各个子区间内的制造数据的个数,以供用户可以快速了解数据集中的数据分布状态。
可选地,所述对所述多个数据集中的每个数据集进行多维处理,得到每个数据集的多维处理结果还包括:检测所述第一数据集中的异常值,得到异常值检测结果,所述多维处理结果还包括所述异常值检测结果。
在本申请中,在对数据集进行处理时,还可以检测每个数据集中的异常值,为后续的异常预警等操作提供数据支持。
可选地,所述多个子区间中的每个子区间的区间长度为第一区间长度,所述对所述多个数据集中的多个目标数据集的多维处理结果进行聚合运算,包括:根据第一数据请求,获取第二区间长度,所述第二区间长度为所述第一区间长度的整数倍;基于所述第二区间长度和所述多个目标数据集的数据分布结果,对所述多个目标数据集的数据分布结果进行聚合,得到所述组合数据集的数据分布结果;基于所述组合数据集的数据分布结果,生成所述组合数据集的直方图,所述组合数据集的处理结果包括所述组合数据集的直方图。
在本申请中,通过将多个目标数据集的数据分布结果进行聚合,可以得到组合数据集的数据分布结果,也即,在无需获取组合数据集中的制造数据的情况下,即可以确定出组合数据集的数据分布状态,在此基础上,以该组合数据集的数据分布结果来绘制并输出直方图,可以使得用户更为直观清晰的了解该组合数据集的数据分布状态。
可选地,所述多维处理结果还包括异常值检测结果,所述异常值检测结果包括异常值;所述对所述多个目标数据集的多维处理结果进行聚合运算,包括:基于所述组合数据集的数据分布结果,确定所述组合数据集的分位数;基于所述组合数据集的分位数和所述多个目标数据集的异常值检测结果中的异常值生成所述组合数据集的箱线图,所述组合数据集的处理结果还包括所述组合数据集的箱线图。
在本申请中,根据组合数据集的数据分布结果来估计组合数据集的分位数,在此基础上,根据组合数据集的分位数以及各个目标数据集的异常检测结果来生成箱线图,这样,通过该箱线图可以展示出各个目标数据集的异常检测结果中哪些异常值才是该组合数据集中真正的异常值,从而实现了组合数据集的异常值的快速判定。
本申请的第二方面提供了一种数据处理装置,所述数据处理装置包括:获取模块,用于获取多个数据集,所述多个数据集为按照数据库中的制造数据对应的多个维度的取值对所述制造数据进行划分得到;处理模块,用于对所述多个数据集中的每个数据集进行多维处理,并存储每个数据集的多维处理结果;所述处理模块,还用于响应于用户终端发送的第一数据请求,对所述多个数据集中的多个目标数据集的多维处理结果进行聚合运算,得到组合数据集的处理结果,所述组合数据集包括所述多个目标数据集;发送模块,用于发送所述组合数据集的处理结果,以使所述用户终端接收。
可选地,所述多个维度包括空间维度、时间维度和项目维度。
可选地,所述多个维度中的每个维度包括多个层级,所述多个数据集为按照所述数据库中的制造数据对应的所述多个维度的最低层级的层级取值对所述制造数据进行划分得到。
可选地,所述处理模块具体用于:基于预设的多个统计量,对第一数据集中的数据进行统计,得到第一数据集的统计结果,所述第一数据集为所述多个数据集中的任一个,所述统计结果包括每个统计量的统计值,所述多维处理结果包括所述统计结果。
可选地,所述处理模块具体用于:对所述多个目标数据集的统计结果进行聚合运算,得到所述组合数据集的统计结果;基于所述多个目标数据集的统计结果,确定所述多个目标数据集的一致性检测结果,所述组合数据集的处理结果包括所述组合数据集的统计结果和所述多个目标数据集的一致性检测结果。
可选地,所述处理模块具体用于:获取连续的多个子区间,统计所述第一数据集中处于所述多个子区间中的每个子区间内的数据的个数,得到所述第一数据集的数据分布结果,所述多维处理结果还包括所述数据分布结果。
可选地,所述处理模块具体用于:检测所述第一数据集中的异常值,得到异常值检测结果,所述多维处理结果还包括所述异常值检测结果。
可选地,所述多个子区间中的每个子区间的区间长度为第一区间长度,所述处理模块具体用于:根据所述第一数据请求,获取第二区间长度,所述第二区间长度为所述第一区间长度的整数倍;基于所述第二区间长度和所述多个目标数据集的数据分布结果,对所述多个目标数据集的数据分布结果进行聚合,得到所述组合数据集的数据分布结果;基于所述组合数据集的数据分布结果,生成所述组合数据集的直方图,所述组合数据集的处理结果包括所述组合数据集的直方图。
可选地,所述多维处理结果还包括异常值检测结果,所述异常值检测结果包括异常值;所述处理模块具体用于:基于所述组合数据集的数据分布结果,确定所述组合数据集的分位数;基于所述组合数据集的分位数和所述多个目标数据集的异常值检测结果中的异常值生成所述组合数据集的箱线图,所述组合数据集的处理结果还包括所述组合数据集的箱线图。
本申请的第三方面还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被计算机设备执行时实现上述第一方面的数据处理方法。
本申请的第四方面还提供了一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中的计算机程序,以实现上述第一方面的数据处理方法。
本申请的第五方面提供了一种计算机程序产品,所述计算机程序产品包括指令,所述指令被处理器执行时实现如上述第一方面的数据处理方法。
本申请实施例与现有技术相比至少存在的有益效果是:
在本申请实施例中,数据库中的制造数据按照对应的多个维度的取值划分为多个数据集。在此基础上,以数据集为最小处理单位进行多维度的数据处理,从而得到每个数据集的多维处理结果,将每个数据集的多维处理结果进行存储。这样,后续若用户终端请求包括多个目标数据集在内的组合数据集的处理结果,则可以直接调用存储的多个目标数据集的多维处理结果,通过对多个目标数据集的多维处理结果进行聚合运算来得到组合数据集的处理结果,如此,无需再在数据库中进行全量检索以获取该组合数据集,并且,聚合运算的计算量较小,所需的计算时间更短,占用的计算资源也更少,实现了处理结果的快速输出。
附图说明
图1是本申请实施例提供的一种数据处理系统的结构示意图;
图2是本申请实施例提供的一种数据处理方法的流程图;
图3是本申请实施例提供的一种各个维度包括的层级以及层级的取值的示意图;
图4是本申请实施例提供的一种对目标数据集的数据分布结果进行聚合以获得组合数据集的数据分布结果的示意图;
图5是本申请实施例提供的一种组合数据集的数据分布结果的示例图;
图6是本申请实施例提供的一种组合数据集的箱线图;
图7是本申请实施例提供的一种数据处理方法的详细示例图;
图8是本申请实施例提供的一种数据处理装置的结构示意图;
图9是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合附图对本申请技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本申请的技术方案,因此只作为示例,而不能以此来限制本申请的保护范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。
在本申请实施例的描述中,技术术语“第一”“第二”等仅用于区别不同对象,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本申请实施例的描述中,“至少一个”的含义是一个或一个以上,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
在本申请实施例的描述中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
在工业生产领域,随着智能化程度越来越高,工业制造过程中产生了海量的制造数据。例如,在新能源汽车领域,在制造动力电池的过程中将会产生大量的制造数据,如制造动力电池的过程中各个工序的质量管理数据、各个工序的工艺参数等等。通过挖掘这些制造数据中的有效信息,能够更好的指导后续生产。
目前,对于工业制造过程中产生的制造数据,可以采用分布式数据库来进行结构化存储。例如,可以采用Hadoop架构的数据库来存储。其中,分布式数据库中存储的制造数据可以对应有至少一个维度,该至少一个维度中的任一维度可以用于指示制造数据的一种属性。例如,制造数据对应的维度可以包括时间维度,该时间维度可以指示出该制造数据的时间属性,例如,该时间维度可以指示该制造数据的产生时间、更新时间等。再例如,制造数据对应的维度可以包括空间维度,该空间维度可以指示出该制造数据的空间属性。例如,该空间维度可以指示出制造数据的产生位置。
对于存储于分布式数据库中的制造数据,用户每次进行数据分析时,通常可以输入目标维度的检索条件和分析需求。该目标维度为制造数据对应的至少一个维度中的一个维度。企业中部署的数据中台在接收到该目标维度的检索条件后,可以基于该目标维度的检索条件,在该数据库中进行全量检索,以获取符合该检索条件的数据并导出至本地。之后,数据中台可以基于用户的分析需求,对获取到的数据进行相应的处理,将处理结果输出给用户后删除。然而,由于数据库中的数据量巨大,所以数据中台每次在进行数据分析时在数据库中进行全量检索以获取待分析数据的操作将极为耗时。并且,在待分析的数据较多时,数据中台对待分析数据进行处理所需的时间也较长,占用的计算资源也较多。基于此,本申请实施例提供了一种数据处理方法,其中,数据库中的制造数据可以预先按照对应的多个维度的取值划分为多个数据集。在此基础上,以数据集为最小处理单位进行多维度的数据处理,从而得到每个数据集的多维处理结果,将每个数据集的多维处理结果进行存储。这样,后续若用户终端请求包括多个目标数据集在内的组合数据集的处理结果,则可以直接调用存储的多个目标数据集的多维处理结果,通过对多个目标数据集的多维处理结果进行聚合运算来得到组合数据集的处理结果,如此,无需再在数据库中进行全量检索以获取该组合数据集,并且,聚合运算的计算量较小,所需的计算时间更短,占用的计算资源也更少,实现了处理结果的快速输出,提高了数据分析效率。
图1是本申请实施例提供的一种数据处理系统的结构示意图。如图1所示,该数据处理系统中可以包括数据中台101、多个存储设备102和用户终端103。其中,用户终端103可以与数据中台101进行通信,数据中台101可以与多个存储设备102进行通信。
在本申请实施例中,多个存储设备102上可以部署有分布式数据库,用于存储制造数据。其中,在该分布式数据库中,可以按照制造数据对应的多个维度的取值将制造数据划分为数据集后进行存储。
数据中台101用于从多个存储设备102中获取多个数据集,并对多个数据集中的每个数据集进行多维处理,之后,存储每个数据集的多维处理结果。
用户终端103用于根据用户的操作向数据中台101发送数据请求,以请求所需的数据处理结果。相应的,数据中台101可以根据用户终端103的数据请求,根据自身存储的各个数据集的多维处理结果,向用户终端103返回请求响应。
示例性的,用户终端103可以向数据中台101发送用于请求包括多个目标数据集在内的组合数据集的处理结果的第一数据请求。在这种情况下,数据中台101在接收到该第一数据请求之后,可以对多个目标数据集的多维处理结果进行聚合运算,得到组合数据集的处理结果,并向用户终端103返回该组合数据集的处理结果。
需要说明的是,上述的数据中台101可以部署在企业中,并且,该数据中台101可以是指部署有数据中台软件系统的计算机设备,例如,部署有数据中台软件系统的服务器。该数据中台101不仅可以用于执行本申请实施例中提供的数据处理方法,还可以作为用户终端103和多个存储设备102之间的桥梁,从而向用户终端103提供检索多个存储设备102中存储的制造数据的检索服务。另外,该数据中台101还可以用于采集制造数据以存储至多个存储设备102,以及基于存储设备102存储的制造数据进行数据管理并提供其他类型的数据服务。
存储设备102可以为分布式存储系统中用于存储数据的服务器。用户终端103可以为诸如笔记本电脑、台式电脑、智能手机等用户设备。
接下来对本申请实施例提供的数据处理方法进行介绍。
图2是本申请实施例提供的一种数据处理方法的流程图。该方法可以应用于图1所示的数据中台,如图2所示,该方法包括以下步骤:
步骤201:获取多个数据集,该多个数据集为按照数据库中的制造数据对应的多个维度的取值对制造数据进行划分得到。
在本申请实施例中,对于存储至数据库中的制造数据,可以预先按照制造数据对应的多个维度的取值,将这些制造数据划分为多个数据集。
其中,制造数据对应的多个维度中的每个维度可以用于指示制造数据的一种属性,或者说,每个维度可以指示制造数据的一种数据特征。例如,该多个维度可以包括空间维度和时间维度,可选地,该多个维度还可以包括项目维度。
其中,空间维度可以用于指示制造数据的空间属性,该空间属性可以包括制造数据的产生地点,例如,该产生地点可以是产生该制造数据的车间、工厂或者是部门等。
时间维度可以用于指示制造数据的时间属性,该时间属性可以包括制造数据的产生时间或存储时间。
项目维度可以用于指示制造数据所属的项目,其中,制造数据所属的项目可以是该制造数据所对应的产品所属的项目。
可选地,在一些可能的情况中,数据库中存储的制造数据为同一制造参数的制造数据。在另一些可能的情况中,数据库中存储的制造数据可能包括不同制造参数的制造数据,在这种情况下,该多个维度还可以包括制造参数,用于指示制造数据为哪种制造参数的数据。例如,制造参数可以为电池顶盖焊接功率,则这一制造参数的制造数据即为电池顶盖焊接功率值。
在本申请实施例中,上述的多个维度中的至少两个维度可以包括多个层级,每个维度的多个层级中相邻的两个层级中的下一个层级属于上一个层级。
例如,空间维度包括的多个层级从上到下可以包括集团、分厂、车间、工序组。其中,集团包括一个或多个分厂,分厂包括一个或多个车间,车间包括一个或多个工序组。
时间维度包括的多个层级从上到下可以包括年、月、周、日、时。
项目维度包括的多个层级从上到下可以包括客户项目、产品项目、零部件项目等。其中,客户项目可以包括一个或多个产品项目,产品项目可以包括一个或多个零部件项目。例如,客户项目可以包括A客户项目,A客户项目的产品项目可以包括A客户的A1产品项目和A2产品项目。A1产品项目又可以包括A1产品包括的B1零部件的项目和B2零部件的项目。
需要说明的是,制造数据对应的各个维度包括的层级可以根据用户所需的层级粒度来设置。相应的,在将制造数据存储至数据库时,可以对应的存储制造数据对应的各个维度的各个层级的取值。在此基础上,针对数据库中同一制造参数的制造数据,可以按照制造数据对应的多个维度的最低层级的层级取值来对这些制造数据进行划分,从而得到多个数据集。
例如,空间维度的最低层级为车间,时间维度的最低层级为日,项目维度的最低层级为产品项目,则可以将对应相同车间、相同产品项目的同一天的制造数据划分为一个数据集。
图3是本申请实施例提供的一种各个维度包括的层级以及层级的取值的示意图。如图3所示,空间维度的最高层级为集团,例如,该层级的取值可以为ABC集团;集团的下一层级为分厂,例如,ABC集团包括的分厂有制造一厂和制造二厂。分厂的下一层级为车间,例如,制造一厂包括一车间和二车间,制造二产包括三车间。时间维度的最高层级为年,例如,该层级的取值可以2022年;年的下一层级为月,该层级的取值可以为1至12月;月的下一层级为日,该层级的取值可以根据各个月的天数来确定。项目维度的最高层级为客户项目,例如,该层级的取值可以为A企业项目,也即,客户项目为A企业项目。客户项目的下一层级为产品项目,例如,该层级的取值可以包括A车型项目、B车型项目,也即,A企业的产品项目包括A车型项目和B车型项目。基于图3所示的各个维度的层级以及取值对数据库中的制造数据进行划分时,可以得到2022年中ABC集团的各个制造分厂中的每个车间每天的A车型项目与B成型项目分别对应的数据集。
可选地,在本申请的一些实施例中,也可以根据数据中台的计算能力以及用户需求,来确定各个维度的目标层级,之后,按照制造数据对应的各个维度的目标层级的取值来对制造数据进行划分,其中,该目标层级可以不为相应维度的最低层级。
例如,以图3所示为例,在空间维度上,可以以分厂为目标层级,在时间维度上,也可以以月为目标层级,在项目维度上,则可以仍以产品项目为目标层级。
数据库中的制造数据被划分为多个数据集之后,每个数据集可以对应有一个标识,该标识可以用于检索该数据集。在本申请实施例中,每个数据集的标识可以根据该数据集的各个维度的最低层级或目标层级的取值来确定。例如,以图3所示为例,对于划分得到ABC集团的制造一厂中的一车间在2022年9月1日的车企A的A车型项目对应的数据集,该数据集的标识可以为ABC制造一厂一车间-20220901-A企业A车型。
在本申请实施例中,数据中台可以每隔预设时间间隔,从数据库中获取待处理的多个数据集。其中,该预设时间间隔可以根据划分多个数据集时采用的时间维度的层级来确定。例如,在划分多个数据集时,是以“日”这一层级的来划分的,则数据中台可以每隔24小时,获取一次待处理的多个数据集,该多个数据集中包括的数据可以为当前时刻之前的一天内的制造数据。由此可见,在本申请实施例中,数据中台可以每隔预设时间间隔自动触发获取数据集并进行多维处理的操作,如此,后续用户请求数据处理结果时可以快速利用预先处理得到的结果来输出请求结果,提高了分析效率。
另外,由前述介绍可知,数据库中的各个数据集的标识可以为数据集对应的各个维度的最低层级或目标层级的取值,基于此,数据中台在从数据库中获取待处理的多个数据集时,可以将各个维度的最低层级或目标层级的取值来作为检索条件,以此来获取待处理的多个数据集。
步骤202:对该多个数据集中的每个数据集进行多维处理,并存储每个数据集的多维处理结果。
数据中台在获取到多个数据集之后,可以对该多个数据集中的每个数据集进行多维处理。其中,对数据集进行多维处理可以是指以多种不同的处理方式来处理数据集。换句话说,本申请实施例中的多维处理是指的多种处理数据集的方式,具体的,本申请实施例中的多种处理数据集的方式可以包括多种统计量的计算,可选地,还可以包括数据分布结果的统计以及异常值检测中的至少一种。值得注意的是,本申请实施例中涉及的制造数据对应的多个维度以及多维处理是不同的概念,制造数据对应的多个维度可以理解为制造数据本身固有的属性或数据特征,而多维处理则是指的对包括多个制造数据的数据集的具体的多种处理方式。其中,对于以多个维度中每个维度的任意一种取值来划分得到的数据集,数据中台均可以以本申请实施例中介绍的多种不同的处理方式来对数据集进行处理。
接下来以多个数据集中的任一个数据集如第一数据集为例,来对数据集的多维处理过程进行介绍。
在本申请的一些实施例中,数据中台可以基于预设的多个统计量,对第一数据集中的数据进行统计,得到第一数据集的统计结果,该统计结果包括每个统计量的统计值,在这种情况下,第一数据集的多维处理结果包括该第一数据集的统计结果。
示例性的,该多个统计量可以包括样本数、均值、标准差、中位差、分位数、协方差和过程性能指数等统计量中的至少两种。相应的,第一数据集的多维处理结果可以包括第一数据集的均值、标准差、中位差、分位数、协方差和过程性能指数中的至少两种。
其中,样本数是指数据集中包括的制造数据的个数。
中位差是指数据集中的多个数据分别减去该多个数据的中位数之后得到的差值数列的中位数。
分位数可以包括二分位数、四分位数等中的至少一种,其中,二分位数即为中位数。四分位数是指将数据集中的数据按照从小到大的顺序进行排列后分成四等份,处于三个分割点位置上的三个数值即为四分位数,依次为第一四分位数、第二四分位数和第三四分位数。
协方差可以是第一数据集与第二数据集的协方差,其中,第二数据集包括的制造数据与第一数据集包括的制造数据相关。
过程性能指数用于指示过程能力满足产品质量标准要求的程度。通常,过程能力指数的值越大,则说明产品的制造数据的离散程度相对于技术标准的公差范围越小,因而过程能力就越高;过程能力指数的值越小,表明产品的制造数据的离散程度相对公差范围越大,因而过程能力就越低。在本申请实施例中,该过程性能指数可以通过PPK(Performance Process Index,过程性能指数)值和CPK(Capability Process Index,过程能力指数)值中的至少一种来表征。
可选地,数据中台不仅可以确定第一数据集的统计结果,还可以确定第一数据集中的数据分布结果,相应的,第一数据集的多维处理结果还可以包括该数据分布结果。
示例性的,数据中台可以获取连续的多个子区间,统计第一数据集中处于每个子区间内的数据的个数,得到第一数据集的数据分布结果。
在本申请实施例中,数据中台可以预先获取用户预设的第一区间长度,并根据该第一区间长度和预估的制造数据的最大波动区间确定连续的多个子区间。
其中,该第一区间长度可以是用户根据自身所能接受的统计粒度以及制造数据的最小波动区间的长度来预先设置的。例如,该制造数据的最小波动区间的长度为10,则用户根据自身所需的统计粒度可以将该第一区间长度设置为1。再例如,该制造数据的最小波动区间的长度为1,用户可以根据自身所需的统计粒度将第一区间长度设置为0.5。
示例性的,数据中台可以将上述的最大波动区间的下限值作为第1个子区间的下限值,按照第一区间长度,依次确定连续的多个子区间,其中,连续的多个子区间的最后一个子区间包含该最大波动区间的上限值。如此,连续的多个子区间组成的数值区间包含该最大波动区间。
可选地,数据中台也可以将小于最大波动区间的下限值的某个数值作为第1个子区间的下限值,从而按照上述的方法确定出连续的多个子区间。或者,数据中台也可以将最大波动区间的上限值作为最后一个子区间的上限值,之后,通过依次减去第一区间长度来获取前一个子区间的上限值,以此类推,直到确定的子区间中包含有最大波动区间的下限值为止,从而得到多个子区间。
例如,制造数据的最大波动区间为92到106,用户预先设置的第一区间长度为0.5,则数据中台可以确定出位于92至106之间的28个连续的子区间,其中,每个子区间的长度均为0.5。
在确定出多个子区间之后,数据中台可以统计第一数据集中处于每个子区间内的数据的个数,从而得到各个子区间对应的数据个数,此时,各个子区间对应的数据个数即为该第一数据集的数据分布结果。
可选地,数据中台不仅可以确定第一数据集的统计结果以及数据分布结果,还可以检测第一数据集中的异常值,得到异常值检测结果,相应的,该第一数据集的多维处理结果还可以包括该异常值检测结果。
示例性的,数据中台可以确定第一数据集中的数据的第一四分位数和第三四分位数。之后,基于该第一四分位数和第三四分位数确定异常检测下限值和异常检测上限值,将第一数据集中小于异常检测下限值的数据以及大于异常检测上限值的数据确定为异常值,从而得到异常值检测结果。
其中,假设第一四分位数为Q1,第三四分位数为Q3,数据中台可以计算Q3与Q1之间的差值,从而得到四分位距ΔQ。在此基础上,异常检测下限值可以等于Q1-1.5*ΔQ,异常检测上限值可以等于Q3+1.5*ΔQ。
在得到第一数据集的多维处理结果之后,数据中台可以将第一数据集的多维处理结果进行存储,以便后续用户查询时进行调用。其中,数据中台可以将第一数据集的标识与该多维处理结果对应存储。
除此之外,该数据中台还可以删除第一数据集,以此来降低对数据中台的存储资源的占用。
在本申请的另一些实施例中,数据中台对第一数据集进行多维处理的过程也可以包括基于预设的多个统计量,对第一数据集中的数据进行统计,得到第一数据集的统计结果,以及检测第一数据集中的异常值,得到异常值监测结果。在这种情况下,第一数据集的多维处理结果包括第一数据集的统计结果与异常值检测结果。
在本申请的另一些实施例中,数据中台对第一数据集进行多维处理的过程可以包括确定第一数据集的数据分布结果以及监测第一数据集中的异常值,在这种情况下,第一数据集的多维处理结果包括第一数据集的数据分布结果以及异常检测结果。
步骤203:响应于用户终端发送的第一数据请求,对多个数据集中的多个目标数据集的多维处理结果进行聚合运算,得到组合数据集的处理结果,该组合数据集包括多个目标数据集。
在将多个数据集的多维处理结果进行存储之后,后续,当数据中台接收到用户终端发送的数据请求时,即可以调用存储的多维处理结果来向用户终端返回请求的数据,如此,不仅可以节省计算资源,还可以实现计算结果的快速输出。
示例性的,用户终端可以向数据中台发送第一数据请求,其中,该第一数据请求可以用于请求包括多个目标数据集在内的组合数据集的处理结果。其中,该组合数据集可以为该多个目标数据集的父集。
例如,该第一数据请求中可以包括该多个目标数据集的标识。在这种情况下,数据中台可以根据该多个目标数据集的标识获取多个目标数据集的多维处理结果。
或者,该第一数据请求中可以包括各个维度的待检索层级的检索值,其中,多个维度中的至少一个维度的待检索层级可以高于数据集的标识中该维度的最低层级,剩余的维度的待检索层级可以是数据集的标识中该维度的最低层级。在这种情况下,数据中台可以根据各个维度的待检索层级的检索值来获取多个目标数据集的多维处理结果。
例如,仍以图3所示为例,空间维度的待检索层级为数据集的标识中空间维度的最低层级的上一层级,也即为“制造分厂”,时间维度的待检索层级为数据集的标识中时间维度的最低层级的上一层级,也即为“月”,项目维度的待检索层级为数据集的标识中项目维度的最低层级,也即为“产品项目”。在这种情况下,当空间维度的待检索层级的检索值为ABC集团制造一厂、时间维度的待检索层级的检索值为202209,项目维度的待检索层级的检索值为A企业A车型时,则标识中包含有“ABC集团制造一厂、202209以及A企业A车型”字段的数据集即为多个目标数据集,在此基础上,数据中台可以获取包含有上述字段的标识所对应的多维处理结果,从而得到多个目标数据集的多维处理结果。
在获取到多个目标数据集的多维处理结果之后,数据中台可以对多个目标数据集的多维处理结果进行聚合运算,从而得到组合数据集的处理结果。
其中,第一数据请求中还可以包括所请求的组合数据集的处理结果的类型,其中,该处理结果的类型可以指示出获得该处理结果所用的处理方式,例如,该处理结果的类型可以包括统计类、数据分布类和异常值类中的至少一种。在此基础上,数据中台可以根据第一数据请求中所请求的组合数据集的处理结果的类型来对多个目标数据集的多维处理结果中相应类型的处理结果进行聚合运算,从而得到组合数据集的处理结果。换句话说,在本申请实施例中,聚合运算可以是指将多个目标数据集的多维处理结果中相同类型的处理结果,按照预设的该种类型的处理结果对应的聚合运算规则,对该种类型的处理结果进行聚合。其中,相同类型的处理结果是指以同种处理方式对数据集进行处理得到的处理结果。可选地,在对某种类型的处理结果进行聚合时,还可以借助多个目标数据集的多维处理结果中的其他类型的处理结果。换句话说,聚合运算也可以是指将多个目标数据集的多维处理结果中至少两种类型的处理结果按照预设的聚合运算规则进行聚合。例如,在本申请实施例中,可以借助多个目标数据集对应的数据分布结果来对异常值检测结果进行聚合,从而得到组合数据集的箱线图。
示例性的,当所请求的处理结果的类型为统计类时,数据中台可以对多个目标数据集的统计结果进行聚合运算,得到组合数据集的统计结果;基于多个目标数据集的统计结果,确定多个目标数据集的一致性检测结果。在这种情况下,组合数据集的处理结果包括该组合数据集的统计结果和该多个目标数据集的一致性检测结果。
需要说明的是,针对数据集进行某种统计量的计算得到的该种统计量的统计结果,数据中台可以按照该种统计量对应的聚合运算规则,基于多个目标数据集对应的该种统计量的统计结果进行计算,从而得到组合数据集对应的该种统计量的统计结果。
例如,每个目标数据集的统计结果可以包括均值和样本数,则数据中台可以通过下述公式1来对各个目标数据集的均值进行聚合,从而得到组合数据集的均值。其中,该公式1即为均值这一统计量对应的聚合运算规则。
(1)
其中,为组合数据集的均值,/>为目标数据集的个数,/>为第i个目标数据集的均值,/>为第i个目标数据集的样本数。
再例如,每个目标数据集的统计结果可以包括标准差、均值和样本数,则数据中台可以通过下述公式2来对各个目标数据集的标准差进行聚合,从而得到组合数据集的标准差。其中,该公式2即为标准差这一统计量对应的聚合运算规则。
(2)
其中,为组合数据集的标准差,/>为目标数据集的个数,/>为第i个目标数据集的标准差,/>为第i个目标数据集的均值,/>为第i个目标数据集的样本数。
另外,在本申请实施例中,数据中台还可以将多个目标数据集中的每两个数据集作为一组,基于每组中的两个数据集的均值、标准差和样本数,计算这组数据集的一致性程度值,如此,可以得到多个目标数据集中各组数据集的一致性程度值,将各组数据集的一致性程度值作为该多个目标数据集的一致性检测结果。
可选地,当所请求的处理结果的类型包括数据分布类时,数据中台可以根据第一数据请求,获取第二区间长度,第二区间长度为第一区间长度的整数倍;基于第二区间长度和多个目标数据集的数据分布结果,对多个目标数据集的数据分布结果进行聚合,得到组合数据集的数据分布结果,相应的,组合数据集的处理结果可以包括该组合数据集的数据分布结果。
其中,该第二区间长度可以携带在第一数据请求中。或者,第二区间长度可以为数据中台根据用户的指示信息和第一区间长度计算得到的,例如,第一数据请求中可以携带有用户预先设置的区间长度的倍数n,相应的,数据中台可以将第一区间长度的n倍确定为第二区间长度。其中,n可以等于1,在这种情况下,第二区间长度等于第一区间长度,或者,n也可以为大于1的整数,在这种情况下,第二区间长度大于第一区间长度。
在获取到第二区间长度之后,数据中台可以根据该第二区间长度,将前述介绍的预先确定出的多个子区间进行合并,从而得到连续的多个聚合区间,其中,每个聚合区间的长度等于该第二区间长度。
例如,第二区间长度为第一区间长度的n倍,则数据中台可以从上述预先确定的多个子区间中的第一个子区间开始,将第一个子区间至第n个子区间合并,得到一个聚合区间,将第n+1个子区间和第2n个子区间合并,得到一个聚合区间,以此类推,从而得到多个聚合区间。
需要说明的是,如果多个子区间的总个数不为n的倍数,则可以在最后一个子区间后增加一个或多个长度为第一区间长度的子区间,以便最后剩余的子区间可以合并为一个聚合区间。
在确定出多个聚合区间之后,对于任一个聚合区间,例如,第一聚合区间,数据中台可以将多个目标数据集的数据分布结果中属于第一聚合区间的子区间对应的数据个数相加,从而得到第一聚合区间对应的数据个数。如此,通过上述方法,数据中台可以确定出多个聚合区间中的每个聚合区间对应的数据个数,从而将每个聚合区间对应的数据个数作为组合数据集的数据分布结果。
例如,假设多个目标数据集为数据集1和数据集2,其中,数据集1和数据集2对应的数据分布结果如图4所示,其中,数据集1和数据集2的数据分布结果中的每个子区间的长度均为0.5,假设第二区间长度为1,则对该数据集1和数据集2的数据分布结果进行聚合时,以聚合区间[95,96)为例,数据集1的数据分布结果中属于该聚合区间的子区间[95,95.5)以及[95.5,96)对应的数据个数分别为15和13,数据集2的数据分布结果中属于该聚合区间的子区间[95,95.5)以及[95.5,96)对应的数据个数分别为18和12。将上述数据个数进行相加,得到聚合区间[95,96)对应的数据个数为58。图4中每个聚合区间对应的数据个数均可以通过上述方法计算得到,最终确定得到组合数据集的数据分布结果如图4所示。
可选地,在确定出组合数据集的数据分布结果之后,数据中台还可以基于该组合数据集的数据分布结果生成组合数据集的直方图,并将该直方图作为组合数据集的处理结果的一部分,以便更直观清晰的向用户展示该组合数据集的数据分布状态。
可选地,在一些可能的情况中,数据中台还可以基于组合数据集的统计结果与数据分布结果来确定该组合数据集中的各个目标数据集的一致性检测结果。其中,确定各个目标数据集的一致性检测结果的实现方式可以参考相关技术,本申请实施例在此不再赘述。
可选地,当所请求的处理结果的类型为异常值类时,数据中台可以基于多个目标数据集的异常检测结果和数据分布结果,来生成组合数据集的箱线图。
其中,数据中台首先可以参考前述介绍的方法,基于多个目标数据集的数据分布结果得到组合数据集的分布结果。在此基础上,基于组合数据集的数据分布结果,确定组合数据集的分位数;基于组合数据集的分位数和多个目标数据集的异常值检测结果中的异常值生成组合数据集的箱线图,该组合数据集的处理结果还包括该组合数据集的箱线图。
示例性的,数据中台可以根据组合数据集的数据分布结果中每个聚合区间对应的数据个数,确定每个聚合区间对应的累加数据个数。其中,一个聚合区间对应的累加数据个数等于该聚合区间对应的数据个数与该聚合区间之前的每个聚合区间的数据个数的总和。之后,数据中台可以根据每个聚合区间对应的累加数据个数,确定第一四分位数、第二四分位数和第三四分位数的位置。根据上述的每个四分位数的位置确定组合数据集的各个四分位数。
其中,数据中台可以获取最后一个聚合区间对应的累加数据个数,该累加数据个数即为组合数据集中的数据总个数。之后,数据中台可以计算数据总个数的0.25倍,得到第一数值,计算数据总个数的0.5倍,得到第二数值,计算数据总个数的0.75倍,得到第三数值。其中,第一数值即可以指示第一四分位数的位置,也即,组合数据集中的各个数据从小到大排序之后,排位在第一数值的数据即为第一四分位数,同理,第二数值可以指示第二四分位数的位置,第三数值可以指示第三四分位数的位置。
在确定出第一数值之后,数据中台可以确定对应的累加数据个数不小于第一数值且与第一数值差值最小的第一目标聚合区间,该第一目标聚合区间即为第一四分位数所处的区间。基于该第一数值、第一目标聚合区间的上限值和下限值以及对应的累加数据个数、第一目标聚合区间的上一个聚合区间对应的累加数据个数,确定第一四分位数。
示例性的,数据中台可以通过下述公式3计算得到第一四分位数。
(3)
其中,为第一四分位数,/>为第一目标聚合区间的下限值,/>为第一目标聚合区间的上限值,/>为第一数值,/>为第一目标聚合区间对应的累加数据个数,/>为第一目标聚合区间的上一个聚合区间对应的累加数据个数。
同理,数据中台还可以参考上述确定第一四分位数的方法,根据第二数值确定第二四分位数,根据第三数值确定第三四分位数。
例如,组合数据集的数据分布结果以及各个聚合区间对应的累加数据个数如图5中所示。其中,最后一个聚合区间对应的累加数据个数为525,也即,该组合数据集中的数据总个数为525,则基于该数据总个数,可以确定出指示第一四分位数的位置的第一数值为525*0.25=131.25,第二数值为525*0.5=262.5,第三数值为525*0.75=393.75。对于第一数值而言,各个聚合区间对应的累加数据个数中不小于该第一数值且与该第一数值差值最小的数值为207,如此,根据第一数值可以确定出第一四分位数所处的聚合区间1为[97,98),同理,第二四分位数所处的聚合区间2为[98,99),第三四分位数所处的聚合区间3为[99,100)。
在此基础上,参见图5,聚合区间1的上限值为97,下限值为98,对应的累加数据个数为207,聚合区间1的上一个聚合区间的累加数据个数为115,基于此,根据聚合区间1,通过上述公式3可以得到:。同理,根据聚合区间2,可以得到/>,根据聚合区间3,可以得到/>。
在得到组合数据集的分位数之后,数据中台可以基于该组合数据集的分位数确定该组合数据集的异常检测上限值和异常检测下限值。之后,数据中台可以基于该组合数据集的各个四分位数、异常检测上限值、异常检测下限值以及各个目标数据集的异常值检测结果中的异常值,生成该组合数据集的箱线图。
其中,基于该组合数据集的四分位数确定异常检测上限值和异常检测下限值的实现方式可以参考前述实施例中的相关介绍,本申请实施例在此不再赘述。
另外,数据中台在确定出异常检测上限值和异常检测下限值之后,可以将各个目标数据集的异常检测结果中大于该组合数据集的异常检测上限值或小于该组合数据集的异常检测下限值的异常值确定为该组合数据集的异常值。基于该组合数据集的各个四分位数、异常检测上限值、异常检测下限值以及异常值,生成组合数据集的箱线图。
例如,仍以图5所示的组合数据集的数据分布结果为例,根据第一四分位数和第三四分位数,可以确定出四分位距为99.7-97.2=2.5,在此基础上,异常检测上限值可以等于99.7+1.5*2.5=103.45,异常检测下限值可以等于97.2-1.5*2.5=93.45。基于此,组合数据集的箱线图如图6所示,其中,各个目标数据集的异常检测结果中大于103.45的值以及小于93.45的值均可以作为该组合数据集的异常值显示在该箱线图中。
步骤204:发送组合数据集的处理结果,以使用户终端接收。
数据中台在得到组合数据集的处理结果之后,可以将该组合数据集的处理结果反馈给用户终端。由此可见,在本申请实施例中,数据中台通过预先处理得到的各个目标数据集的多维处理结果,即能够聚合出组合数据集的处理结果,无需再从数据库中检索该组合数据集包括的所有数据进行运算,提高了处理效率,实现了组合数据集的快速输出,并且,节省了计算资源。
在本申请实施例中,数据库中的制造数据按照对应的多个维度的取值划分为多个数据集。在此基础上,数据中台以数据集为最小处理单位进行多维度的数据处理,从而得到每个数据集的多维处理结果,将每个数据集的多维处理结果进行存储。这样,后续若用户终端请求包括多个目标数据集在内的组合数据集的处理结果,则可以直接调用存储的多个目标数据集的多维处理结果,通过对多个目标数据集的多维处理结果进行聚合运算来得到组合数据集的处理结果,如此,无需再在数据库中进行全量检索以获取该组合数据集,并且,聚合运算的计算量较小,所需的计算时间更短,占用的计算资源也更少,降低了计算硬件需求,实现了处理结果的快速输出,提高了数据分析效率。
另外,相关技术中通常均是各维度的数据单独进行分析处理,并且处理结果无法共享,这样,将会产生大量的重复计算,浪费计算资源,而在本申请实施例中,数据集按照各个维度的最低层级的层级取值划分得到,对数据集处理得到的处理结果进行存储。后续通过调用各个数据集的处理结果来进行组合计算,可以得到各维度的不同层级取值范围内的数据的处理结果,减少了大量的重复计算,节能了计算资源。
最后,在本申请实施例中,数据中台存储各个数据集的多维处理结果,而不存储各个数据集,这样,可以减少对硬件存储资源的占用。而且,本申请实施例中,由于数据中台可以调用存储的数据集的多维处理结果向用户终端反馈请求的数据,因此可以降低对数据中台的计算资源的占用,这样,数据中台的空闲计算资源可以用于处理其他任务。
需要说明的是,在一些可能的情况中,用户终端除了可以向数据中台请求包括多个目标数据集在内的组合数据集的处理结果外,用户终端还可以向数据中台请求该数据中台中存储的任一个数据集的多维处理结果。例如,用户终端可以向数据中台发送第二数据请求,该第二数据请求中可以包括某个数据集的标识,数据中台可以基于该数据集的标识,获取对应的多维处理结果,并将该多维处理结果输出至用户终端。由此可见,基于本申请实施例提供的数据处理方法,用户可以根据自身需求进行多维度的快速查询和分析。
可选地,第二数据请求中也可以携带有所请求的处理结果的类型,例如,统计类、数据分布类、异常值类中的至少一种,相应的,数据中台可以根据所请求的处理结果的类型,向用户终端返回相应数据集的多维处理结果中相应类型的处理结果。
可选地,当第二数据请求所请求的处理结果的类型包括数据分布类时,该第二数据请求也可以携带有第二区间长度,相应的,数据中台可以参考前述介绍的方法将所请求的数据集的数据分布结果中的各个子区间按照第二区间长度进行聚合,并按照聚合后的区间以及对应的数据个数生成直方图,进而将该直方图输出至用户终端进行显示。
基于上述实施例中介绍的数据处理方法,本申请实施例还提供了一种数据处理方法的详细示例。参见图7,数据库中的制造参数A的制造数据,在空间维度上按照“车间”这一层级的取值、时间维度上按照“日”这一层级的取值以及项目维度上按照“产品项目”这一层级的取值,划分得到多个数据集。其中,每个数据集可以通过车间-日-产品项目-制造参数的具体取值来进行标识。数据中台在获取到多个数据集之后,可以参考前述实施例中介绍的方法进行统计量计算,从而得到每个数据集的均值、标准差、分位数、PPK值等统计结果。确定每个数据集中的异常值,从而得到异常值检测结果。按照第一区间长度统计每个数据集中处于各个子区间内的数据个数,得到每个数据集的数据分布结果。
后续,数据中台在接收到用户终端请求组合数据集的处理结果的数据请求之后,基于每个目标数据集的统计结果进行聚合运算,输出组合数据集的统计结果。聚合每个目标数据集的数据分布结果,得到组合数据集的数据分布结果,基于组合数据集的数据分布结果输出组合数据集的直方图。基于组合数据集的数据分布结果计算组合数据集的分位数,并利用估算得到的分位数以及每个数据集的异常值检测结果输出箱线图。基于组合数据集的数据分布结果以及统计结果输出该组合数据集中的各个数据集的一致性检测结果。
接下来对本申请实施例提供的数据处理装置进行介绍。
图8是本申请实施例提供的一种数据处理装置800的结构示意图。该数据处理装置800可以部署于前述实施例介绍的数据中台中,如图8所示,该数据处理装置800包括:
获取模块801,用于获取多个数据集,多个数据集为按照数据库中的制造数据对应的多个维度的取值对制造数据进行划分得到;
处理模块802,用于对多个数据集中的每个数据集进行多维处理,并存储每个数据集的多维处理结果;
处理模块802,还用于响应于用户终端发送的第一数据请求,对多个数据集中的多个目标数据集的多维处理结果进行聚合运算,得到组合数据集的处理结果,组合数据集包括多个目标数据集;
发送模块803,用于发送组合数据集的处理结果,以使用户终端接收。
可选地,多个维度包括空间维度、时间维度和项目维度。
可选地,多个维度中的每个维度包括多个层级,多个数据集为按照数据库中的制造数据对应的多个维度的最低层级的层级取值对制造数据进行划分得到。
可选地,处理模块802具体用于:基于预设的多个统计量,对第一数据集中的数据进行统计,得到第一数据集的统计结果,第一数据集为多个数据集中的任一个,统计结果包括每个统计量的统计值,多维处理结果包括统计结果。
可选地,处理模块802具体用于:对多个目标数据集的统计结果进行聚合运算,得到组合数据集的统计结果;基于多个目标数据集的统计结果,确定多个目标数据集的一致性检测结果,组合数据集的处理结果包括组合数据集的统计结果和多个目标数据集的一致性检测结果。
可选地,处理模块802具体用于:获取连续的多个子区间;统计第一数据集中处于多个子区间中的每个子区间内的数据的个数,得到第一数据集的数据分布结果,多维处理结果还包括数据分布结果。
可选地,处理模块802具体用于:检测第一数据集中的异常值,得到异常值检测结果,多维处理结果还包括异常值检测结果。
可选地,处理模块802具体用于:根据第一数据请求获取第二区间长度,第二区间长度为第一区间长度的整数倍;基于第二区间长度和多个目标数据集的数据分布结果,对多个目标数据集的数据分布结果进行聚合,得到组合数据集的数据分布结果;基于组合数据集的数据分布结果,生成组合数据集的直方图,组合数据集的处理结果包括组合数据集的直方图。
可选地,多维处理结果还包括异常值检测结果,异常值检测结果包括异常值;处理模块802具体用于:基于组合数据集的数据分布结果,确定组合数据集的分位数;基于组合数据集的分位数和多个目标数据集的异常值检测结果中的异常值生成组合数据集的箱线图,组合数据集的处理结果还包括组合数据集的箱线图。
在本申请实施例中,数据库中的制造数据按照对应的多个维度的取值划分为多个数据集。在此基础上,以数据集为最小处理单位进行多维度的数据处理,从而得到每个数据集的多维处理结果,将每个数据集的多维处理结果进行存储。这样,后续若用户终端请求包括多个目标数据集在内的组合数据集的处理结果,则可以直接调用存储的多个目标数据集的多维处理结果,通过对多个目标数据集的多维处理结果进行聚合运算来得到组合数据集的处理结果,如此,无需再在数据库中进行全量检索以获取该组合数据集,并且,聚合运算的计算量较小,所需的计算时间更短,占用的计算资源也更少,实现了处理结果的快速输出。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将数据处理装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。另外,各模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述装置中模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图9是本申请实施例提供的一种计算机设备的结构示意图。上述实施例中介绍的数据中台即可以通过该计算机设备来实现。如图9所示,该实施例的计算机设备9包括:处理器90、存储器91以及存储在存储器91中并可在处理器90上运行的计算机程序92,例如对数据集进行处理以及对数据集的多维处理结果进行聚合运算的程序等。处理器90执行计算机程序92时实现上述各个方法实施例中的步骤,例如图2所示的步骤201至204。或者,处理器90执行计算机程序92时实现上述数据处理装置实施例中各模块/单元的功能。
示例性的,计算机程序92可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器91中,并由处理器90执行,以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序92在计算机设备9中的执行过程。例如,计算机程序92可以被分割成上述的获取模块、处理模块、发送模块(虚拟装置中的模块)。
计算机设备9可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算机设备。计算机设备可包括,但不仅限于,处理器90、存储器91。本领域技术人员可以理解,图9仅仅是计算机设备9的示例,并不构成对计算机设备9的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器90可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器91可以是计算机设备9的内部存储单元,例如计算机设备9的硬盘或内存。存储器91也可以是计算机设备9的外部存储设备,例如计算机设备9上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(FlashCard)等。进一步地,存储器91还可以既包括计算机设备9的内部存储单元也包括外部存储设备。存储器91用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器91还可以用于暂时地存储已经输出或者将要输出的数据。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
其中,当本申请实施例使用软件方式来实现时,可以全部或部分的以计算机程序产品的形式实现。也即,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (12)
1.一种数据处理方法,其特征在于,应用于数据中台,所述数据处理方法包括:
从数据库中获取多个数据集,所述多个数据集为按照所述数据库中的制造数据对应的多个维度的取值对所述制造数据进行划分得到;
对所述多个数据集中的每个数据集进行多维处理,并存储每个数据集的多维处理结果,其中,对每个数据集进行多维处理是指以多种处理方式对相应数据集中的制造数据进行处理,每个数据集的多维处理结果包括相应数据集的统计结果、数据分布结果和异常值检测结果中的至少两种;
响应于用户终端发送的第一数据请求,对所述多个数据集中的多个目标数据集的多维处理结果进行聚合运算,得到组合数据集的处理结果,所述组合数据集包括所述多个目标数据集;
发送所述组合数据集的处理结果,以使所述用户终端接收。
2.根据权利要求1所述的数据处理方法,其特征在于,所述多个维度包括空间维度、时间维度和项目维度。
3.根据权利要求1或2所述的数据处理方法,其特征在于,所述多个维度中的每个维度包括多个层级,所述多个数据集为按照所述数据库中的制造数据对应的所述多个维度的最低层级的层级取值对所述制造数据进行划分得到。
4.根据权利要求1所述的数据处理方法,其特征在于,所述对所述多个数据集中的每个数据集进行多维处理,包括:
基于预设的多个统计量,对第一数据集中的数据进行统计,得到第一数据集的统计结果,所述第一数据集为所述多个数据集中的任一个,所述统计结果包括每个统计量的统计值。
5.根据权利要求4所述的数据处理方法,其特征在于,所述对所述多个数据集中的多个目标数据集的多维处理结果进行聚合运算,包括:
对所述多个目标数据集的统计结果进行聚合运算,得到所述组合数据集的统计结果;
基于所述多个目标数据集的统计结果,确定所述多个目标数据集的一致性检测结果,所述组合数据集的处理结果包括所述组合数据集的统计结果和所述多个目标数据集的一致性检测结果。
6.根据权利要求4所述的数据处理方法,其特征在于,所述对所述多个数据集中的每个数据集进行多维处理,还包括:
获取连续的多个子区间;
统计所述第一数据集中处于所述多个子区间中的每个子区间内的数据的个数,得到所述第一数据集的数据分布结果。
7.根据权利要求6所述的数据处理方法,其特征在于,所述对所述多个数据集中的每个数据集进行多维处理,还包括:
检测所述第一数据集中的异常值,得到所述第一数据集的异常值检测结果。
8.根据权利要求6或7所述的数据处理方法,其特征在于,所述多个子区间中的每个子区间的区间长度为第一区间长度,所述对所述多个数据集中的多个目标数据集的多维处理结果进行聚合运算,包括:
根据所述第一数据请求,获取第二区间长度,所述第二区间长度为所述第一区间长度的整数倍;
基于所述第二区间长度和所述多个目标数据集的数据分布结果,对所述多个目标数据集的数据分布结果进行聚合,得到所述组合数据集的数据分布结果;
基于所述组合数据集的数据分布结果,生成所述组合数据集的直方图,所述组合数据集的处理结果包括所述组合数据集的直方图。
9.根据权利要求8所述的数据处理方法,其特征在于,所述异常值检测结果包括异常值;
所述对所述多个数据集中的多个目标数据集的多维处理结果进行聚合运算,包括:
基于所述组合数据集的数据分布结果,确定所述组合数据集的分位数;
基于所述组合数据集的分位数和所述多个目标数据集的异常值检测结果中的异常值生成所述组合数据集的箱线图,所述组合数据集的处理结果还包括所述组合数据集的箱线图。
10.一种数据处理装置,其特征在于,应用于数据中台,所述数据处理装置包括:
获取模块,用于从数据库中获取多个数据集,所述多个数据集为按照所述数据库中的制造数据对应的多个维度的取值对所述制造数据进行划分得到;
处理模块,用于对所述多个数据集中的每个数据集进行多维处理,并存储每个数据集的多维处理结果,其中,对每个数据集进行多维处理是指以多种处理方式对相应数据集中的制造数据进行处理,每个数据集的多维处理结果包括相应数据集的统计结果、数据分布结果和异常值检测结果中的至少两种;
所述处理模块,还用于响应于用户终端发送的第一数据请求,对所述多个数据集中的多个目标数据集的多维处理结果进行聚合运算,得到组合数据集的处理结果,所述组合数据集包括所述多个目标数据集;
发送模块,用于发送所述组合数据集的处理结果,以使所述用户终端接收。
11.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中的计算机程序,以实现权利要求1至9任一所述的数据处理方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被计算机设备执行时实现权利要求1至9任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311312241.5A CN117056360B (zh) | 2023-10-11 | 2023-10-11 | 数据处理方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311312241.5A CN117056360B (zh) | 2023-10-11 | 2023-10-11 | 数据处理方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117056360A CN117056360A (zh) | 2023-11-14 |
CN117056360B true CN117056360B (zh) | 2024-03-29 |
Family
ID=88659461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311312241.5A Active CN117056360B (zh) | 2023-10-11 | 2023-10-11 | 数据处理方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117056360B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110069508A (zh) * | 2017-10-11 | 2019-07-30 | 北京奇虎科技有限公司 | 基于大数据的数据分析方法、装置及终端设备 |
US10650012B1 (en) * | 2016-07-13 | 2020-05-12 | United States Of America As Represented By Secretary Of The Navy | Multi-dimensional range-index searching using search box approximation and splitting |
CN111915188A (zh) * | 2020-07-31 | 2020-11-10 | 中国建设银行股份有限公司 | 企业的系统性能测试方法、装置和设备 |
CN112380275A (zh) * | 2021-01-15 | 2021-02-19 | 北京金山云网络技术有限公司 | 数据查询方法、装置及电子设备 |
CN116599743A (zh) * | 2023-05-29 | 2023-08-15 | 中国电信股份有限公司 | 4a异常绕行检测方法、装置、电子设备及存储介质 |
CN116611478A (zh) * | 2023-06-14 | 2023-08-18 | 西北师范大学 | 一种基于深度阈值生成对抗网络的工业过程数据增强方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112559567A (zh) * | 2020-12-10 | 2021-03-26 | 跬云(上海)信息科技有限公司 | 适用于olap查询引擎的查询方法及装置 |
-
2023
- 2023-10-11 CN CN202311312241.5A patent/CN117056360B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10650012B1 (en) * | 2016-07-13 | 2020-05-12 | United States Of America As Represented By Secretary Of The Navy | Multi-dimensional range-index searching using search box approximation and splitting |
CN110069508A (zh) * | 2017-10-11 | 2019-07-30 | 北京奇虎科技有限公司 | 基于大数据的数据分析方法、装置及终端设备 |
CN111915188A (zh) * | 2020-07-31 | 2020-11-10 | 中国建设银行股份有限公司 | 企业的系统性能测试方法、装置和设备 |
CN112380275A (zh) * | 2021-01-15 | 2021-02-19 | 北京金山云网络技术有限公司 | 数据查询方法、装置及电子设备 |
CN116599743A (zh) * | 2023-05-29 | 2023-08-15 | 中国电信股份有限公司 | 4a异常绕行检测方法、装置、电子设备及存储介质 |
CN116611478A (zh) * | 2023-06-14 | 2023-08-18 | 西北师范大学 | 一种基于深度阈值生成对抗网络的工业过程数据增强方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117056360A (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102511271B1 (ko) | 시계열 데이터 저장 및 쿼리 방법 및 장치, 및 그 서버 및 저장 매체 | |
CN107038166B (zh) | 查询可预约仓库容量、预约及取消预约入库方法及装置 | |
Ma et al. | KSQ: Top-k similarity query on uncertain trajectories | |
CN107168977A (zh) | 一种数据查询的优化方法及装置 | |
CN104063376A (zh) | 多维度分组运算方法及系统 | |
CN106909642B (zh) | 数据库索引方法及系统 | |
CN107577787B (zh) | 关联数据信息入库的方法及系统 | |
CN111104426B (zh) | 一种数据查询方法及系统 | |
CN112100219A (zh) | 基于数据库查询处理的报表生成方法、装置、设备和介质 | |
CN111338888B (zh) | 一种数据统计方法、装置、电子设备及存储介质 | |
CN110909129B (zh) | 异常投诉事件的识别方法及装置 | |
CN112419044A (zh) | 信用审核的方法、设备、电子装置和存储介质 | |
CN112330227A (zh) | 基于数字化城管业务构建的城市管理能力评价方法和系统 | |
CN108446989A (zh) | 手续费确定方法及终端设备 | |
CN117056360B (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN113761390A (zh) | 一种用于属性亲密度的分析方法和系统 | |
CN113778781B (zh) | 数据的监控的方法和装置 | |
US8478762B2 (en) | Ranking system | |
US20230086106A1 (en) | Intellectual-property analysis platform | |
CN113806047A (zh) | 数据运行优化处理方法和装置 | |
CN114372681A (zh) | 基于流水数据的企业分类方法、装置、设备、介质和产品 | |
CN111553505A (zh) | 一种电力物资入库数量预测方法 | |
CN113538115B (zh) | 创业孵化器的智能匹配方法、系统、装置及可读存储介质 | |
CN113609278B (zh) | 数据处理方法、装置、设备及可读存储介质 | |
US20230237107A1 (en) | Optimizing request sizes in a search engine fanout |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |