CN112364001A - 多维空间大数据的清洗方法、装置、计算机设备及介质 - Google Patents
多维空间大数据的清洗方法、装置、计算机设备及介质 Download PDFInfo
- Publication number
- CN112364001A CN112364001A CN202011209918.9A CN202011209918A CN112364001A CN 112364001 A CN112364001 A CN 112364001A CN 202011209918 A CN202011209918 A CN 202011209918A CN 112364001 A CN112364001 A CN 112364001A
- Authority
- CN
- China
- Prior art keywords
- data processing
- space
- processing algorithm
- data
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012545 processing Methods 0.000 claims abstract description 136
- 238000003860 storage Methods 0.000 claims description 21
- 238000004519 manufacturing process Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 239000002609 medium Substances 0.000 description 20
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000012120 mounting media Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2264—Multidimensional index structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2308—Concurrency control
- G06F16/2315—Optimistic concurrency control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Stored Programmes (AREA)
Abstract
本发明实施例公开了一种多维空间大数据的清洗方法、装置、计算机设备及介质。该方法包括:确定数据处理算法对应的至少一个空间维度,空间维度用于确定数据处理算法的输入数据的粒度;生成数据处理算法的实例化任务,每个实例化任务与空间维度一一对应;并行执行每个实例化任务,以同步获得与每个空间维度提供的输入数据对应的清洗结果。本发明实施例所提供的技术方案,通过根据当前使用的空间维度的配置情况灵活控制数据处理算法实例化的任务维度,实现了针对不同空间的数据,在无需重复开发算法的基础上,还有效的避免了任务空跑调度以及不同维度空间数据之间的依赖,从而提高了资源的并发利用率和执行效率。
Description
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种多维空间大数据的清洗方法、装置、计算机设备及介质。
背景技术
随着大数据应用越来越广泛,细分场景也越来越复杂,从而对大数据平台适应多种场景的能力要求越来越高。例如在业务开发时常常遇到的一种场景,接入的数据属于不同空间,而希望用同种算法清洗出各个空间对应的最终数据。在这种场景下,为了避免算法的重复开发而导致的成本增加,通常会采用共用同一算法的方式对数据进行处理。
但是在现有技术中,算法的输入数据是由固定的多个空间提供的,而且数据处理的过程仅是对该算法的一次执行,由于各个空间提供输入数据的时间可能存在不同步的情况,在这种情况下,若在统一时间运行算法,则会导致部分空间任务空跑的问题,从而造成资源的浪费,而且若算法依赖全部数据,则还会影响算法本身的调度。
发明内容
本发明实施例提供一种多维空间大数据的清洗方法、装置、计算机设备及介质,以实现针对不同空间的数据,在无需重复开发算法的基础上,灵活指定算法对应的任务维度,从而避免任务空跑以及不同维度数据之间的依赖。
第一方面,本发明实施例提供了一种多维空间大数据的清洗方法,该方法包括:
确定数据处理算法对应的至少一个空间维度,所述空间维度用于确定所述数据处理算法的输入数据的粒度;
生成所述数据处理算法的实例化任务,每个所述实例化任务与所述空间维度一一对应;
并行执行每个所述实例化任务,以同步获得与每个所述空间维度提供的所述输入数据对应的清洗结果。
第二方面,本发明实施例还提供了一种多维空间大数据的清洗装置,该装置包括:
空间确定模块,用于确定数据处理算法对应的至少一个空间维度,所述空间维度用于确定所述数据处理算法的输入数据的粒度;
任务生成模块,用于生成所述数据处理算法的实例化任务,每个所述实例化任务与所述空间维度一一对应;
任务执行模块,用于并行执行每个所述实例化任务,以同步获得与每个所述空间维度提供的所述输入数据对应的清洗结果。
第三方面,本发明实施例还提供了一种计算机设备,该计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的多维空间大数据的清洗方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所提供的多维空间大数据的清洗方法。
本发明实施例提供了一种多维空间大数据的清洗方法,首先确定所使用的数据处理算法对应的提供待处理输入数据的空间维度,然后根据对应的空间维度的数量生成每个空间维度对应的实例化任务,最后并行执行每个实例化任务,以同步获得每个空间维度提供的输入数据对应的清洗结果。本发明实施例所提供的多维空间大数据的清洗方法,通过根据当前使用的空间维度的配置情况灵活控制数据处理算法实例化的任务维度,实现了针对不同空间的数据,在无需重复开发算法的基础上,还有效的避免了任务空跑调度以及不同维度空间数据之间的依赖,从而提高了资源的并发利用率和执行效率。
附图说明
图1为本发明实施例一提供的多维空间大数据的清洗方法的流程图;
图2为本发明实施例二提供的多维空间大数据的清洗方法的流程图;
图3为本发明实施例三提供的多维空间大数据的清洗装置的结构示意图;
图4为本发明实施例四提供的计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例一提供的多维空间大数据的清洗方法的流程图。本实施例可适用于对多维空间来源的适用同一数据处理算法的数据同步进行清洗的情况,该方法可以由本发明实施例提供的多维空间大数据的清洗装置来执行,该装置可以由硬件和/或软件的方式来实现,一般可集成于计算机设备中。如图1所示,具体包括如下步骤:
S11、确定数据处理算法对应的至少一个空间维度,空间维度用于确定数据处理算法的输入数据的粒度。
其中,空间维度可以指任意用于存储各类大数据的数据端,对应不同的空间维度即可以表示提供给数据处理算法进行处理的输入数据是来源于不同的数据端,且各个空间维度所提供的输入数据可以是统一结构,以便于应用相同的数据处理算法。数据处理算法可以是应用在大数据处理平台中对输入数据进行处理的各种算法,在本实施例中,可以是指用于在输入数据中清洗出所需的各种结果数据的算法。在运行数据处理算法的过程中,即可从各个空间维度中获取所需的输入数据并分别进行清洗。示例性的,当希望统计出全国高校学生的成绩信息时,每个高校的数据系统即可作为一个空间维度,并可以向大数据平台中的数据处理算法提供包括各自学生成绩信息的输入数据。
具体的,在不同时间使用数据处理算法对输入数据进行处理时,所对应的空间维度可以不同,因此在每次运行数据处理算法时,可以重新确定所需的空间维度。示例性的,针对全国高校学生的成绩信息的统计过程,由于每所高校各自的考核时间不同步,如果在统一的时间对各个高校的数据运行数据处理算法,则可能会出现部分高校数据空跑的情况,从而浪费运算资源,即在同一时刻,可以仅对有数据输出的部分高校运行算法,即可以在所有高校对应的空间维度中确定所需的至少一个空间维度。
可选的,确定数据处理算法对应的至少一个空间维度,空间维度用于确定数据处理算法的输入数据的粒度,包括:确定数据处理算法所使用的空间文件,空间文件包括适用数据处理算法的多个待选空间维度;从多个待选空间维度中确定数据处理算法当前对应的至少一个空间维度。
进一步可选的,在确定数据处理算法所使用的空间文件,空间文件包括适用数据处理算法的多个待选空间维度之前,还包括:根据用户操作对空间文件进行配置。具体的,首先可以对数据处理算法配置常用的空间文件,其中包括可适用于该数据处理算法的多个待选空间维度,例如在上述的示例中,即可将当前所有高校对应的空间维度作为待选空间维度,然后根据当前运行数据处理算法的需要从所有待选空间维度中确定对应的至少一个空间维度,具体可以根据用户操作首先为数据处理算法确定所引用的空间文件,并以列表形式向用户展示其中包含的待选空间维度,再由用户对不需要的待选空间维度进行删除来实现。另外,在待选空间维度的基础上,还可以额外增加所需的空间维度,例如遇到新增高校的情况等等。也可以在确定引用的空间文件之前,直接将所需的空间维度配置成空间文件,从而直接通过引用空间文件确定数据处理算法所需的至少一个空间维度。通过使用空间文件确定数据处理算法对应的空间维度,可以提高用户配置的效率,避免重复性的工作。
其中,空间文件可以呈树形结构,并包括不同的层级设置,且每个层级均可设有多个值,每个值即可指向对应的空间维度,从而根据该值从各个空间维度获取数据。在对空间文件进行配置的过程中,即可通过对层级以及各个层级的值进行新建、修改或删除等操作确定其中包括的空间维度。同时,也可以实现多个空间文件的创建、存储和管理,以便于用户从中确定数据处理算法所要引用的空间文件。示例性的,第一层级即可对应上述高校对应的空间维度,而下一层级均可看作对上一层级的进一步划分,如第二层级可以是高校中各个学院对应的空间维度,第三层级可以是学院中各个专业对应的空间维度等等,从而实现更细致的信息统计。
S12、生成数据处理算法的实例化任务,每个实例化任务与空间维度一一对应。
具体的,在每次确定了数据处理算法对应的空间维度之后,即可根据对应的空间维度生成对应数量的实例化任务,即将数据处理算法自动实例化出对应每个空间维度的任务,使得每个空间维度均可对应一个实例化任务,从而实现对每个空间维度的数据单独的进行运算,而且每个运算过程所使用的算法并不需要重复开发,而是来源于同一算法。
S13、并行执行每个实例化任务,以同步获得与每个空间维度提供的输入数据对应的清洗结果。
具体的,针对每个空间维度的数据,通过对应的实例化任务对其进行运算,且保持各个实例化任务并行进行,以同步获得每个空间维度提供的输入数据对应的清洗结果。同样针对上述的示例,一般在需要对某一时间下全国高校学生成绩信息进行统计时,通常需要尽可能在同一时间获取到各个高校的成绩信息,从而对所有的成绩信息进行整理、统计以及比较等过程。因此,通过并行的执行每个实例化任务,可以尽可能的保证各个清洗结果获取的同步性,从而更好的满足对清洗结果的处理需求。
本发明实施例所提供的技术方案,首先确定所使用的数据处理算法对应的提供待处理输入数据的空间维度,然后根据对应的空间维度的数量生成每个空间维度对应的实例化任务,最后并行执行每个实例化任务,以同步获得每个空间维度提供的输入数据对应的清洗结果。通过根据当前使用的空间维度的配置情况灵活控制数据处理算法实例化的任务维度,实现了针对不同空间的数据,在无需重复开发算法的基础上,还有效的避免了任务空跑调度以及不同维度空间数据之间的依赖,从而提高了资源的并发利用率和执行效率。
实施例二
图2为本发明实施例二提供的多维空间大数据的清洗方法的流程图。本实施例的技术方案在上述技术方案的基础上进一步细化,可选的,可以通过对各个实例化任务的调度参数进行配置来进一步提高获取各个空间维度对应的清洗结果的同步性。具体的,本实施例中,在并行执行每个实例化任务,以同步获得与每个空间维度提供的输入数据对应的清洗结果之前,还包括:根据用户操作对每个实例化任务的调度参数进行配置;发布数据处理算法,以使调度参数的配置生效。相应的,如图2所示,具体可以包括如下步骤:
S21、确定数据处理算法对应的至少一个空间维度,空间维度用于确定数据处理算法的输入数据的粒度。
S22、生成数据处理算法的实例化任务,每个实例化任务与空间维度一一对应。
S23、根据用户操作对每个实例化任务的调度参数进行配置。
其中,可选的,调度参数可以包括为相应的实例化任务分配的调度器、处理器资源、存储器资源以及优先级等,从而调整每个实例化任务的执行效率。同时,还可以为每个实例化任务设置任务有效期,以控制相应的实例化任务按照当前调度参数的可执行期限和生命周期。示例性的,针对全国高校学生的成绩信息的统计过程,由于各个高校中学生的人数可能不同,从而导致各个空间维度提供的输入数据的数据量不同,从而可能影响各个实例化任务的执行时间,进而影响清洗结果的同步性。因此,可以通过对各个实例化任务的调度参数做不同的配置,来降低处理数据量大的实例化任务的执行时间和/或升高处理数据量小的实例化任务的执行时间,从而使得处理数据量大的实例化任务的执行时间与处理数据量小的实例化任务的执行时间相匹配。具体的,可以通过用户界面为用户提供配置的入口,并根据用户操作对每个实例化任务的调度参数进行配置。
可选的,根据用户操作对每个实例化任务的调度参数进行配置,包括:将用户选中的数据处理算法对应的每个实例化任务以列表形式向用户展示;根据用户操作对列表中的实例化任务的调度参数单独进行配置。具体的,在用户界面中,可以将至少一个待使用的数据处理算法以空间树形结构进行展示,以供用户选择需要配置的数据处理算法。若用户在其中选中了某个数据处理算法,则可以在用户界面中将该数据处理算法对应的每个实例化任务以列表的形式向用户展示。在大数据的领域中,一般在集群中运行的任务数非常多,运营和维护人员针对数据处理算法的管理工作量大,通过统一的调度配置将数据处理算法按空间维度以列表的方式呈现,为用户提供了便捷且易于理解的操作方式。然后针对每个实例化任务可以提供对应的配置按钮,当用户点击配置按钮时,即可进入相应的实例化任务的调度参数配置页面,从而实现对某个实例化任务的单独配置。
可选的,根据用户操作对每个实例化任务的调度参数进行配置,包括:将用户选中的至少一个数据处理算法对应的每个实例化任务以列表形式向用户展示;根据用户操作对列表中两个以上实例化任务的调度参数批量进行配置。具体的,用户可以在上述的空间树形结构中同时选择一个或多个数据处理算法进行配置,当用户选中了数据处理算法后,可以在用户界面中将被选中的一个或多个数据处理算法对应的每个实例化任务以列表的形式向用户展示。然后用户可以在列表中对实例化任务进行多选或全选,然后通过按钮进入相应的多个实例化任务的批量调度参数配置页面,从而实现对某些实例化任务的批量配置。可选的,在批量调度参数配置页面中,可以通过开关来控制某些子项是否生效,示例性的,分别通过开关控制调度器子项配置,任务资源子项配置以及任务有效期子项配置的效力,其中,任务资源子项配置可以包括处理器资源和存储器资源的分配,任务有效期子项配置可以包括算法状态、开始时间和结束时间的设置等等。
可选的,在根据用户操作对列表中两个以上实例化任务的调度参数批量进行配置之后,还包括:根据当前配置在至少一个数据处理算法中确定受配置影响的数据处理算法,受配置影响的数据处理算法对应的实例化任务中包括至少一个调度参数与生产环境不一致的目标实例化任务;将受配置影响的数据处理算法以弹窗列表的形式向用户展示。具体的,在用户提交了批量配置的结果之后,可以在用户选中的至少一个数据处理算法中确定存在对应至少一个目标实例化任务的调度参数与生产环境不一致的受配置影响的数据处理算法,以便于用户确定存在哪些数据处理算法需要重新进行发布,从而使得新增加的配置生效。通过确定出受配置影响的数据处理算法,可以避免在进行了批量配置之后,对所有的数据处理算法重新发布,即存在一部分配置未被修改的需要被重复进行发布,从而浪费了无需的时间和资源。在确定了受配置影响的数据处理算法之后,可以通过弹窗列表的形式向用户展示以使用户知晓,同时还可以在视图节点和列表中将受配置影响的数据处理算法的标识修改为与正常生产环境不一致的状态,示例性的,可以将标识的颜色由绿色修改为黄色,并添加感叹号以提示用户注意。然后还可以提供单独的算法管理界面,通过不同的标识状态使用户知晓其中配置修改但尚未生效的数据处理算法,并可以对其进行重新发布。可选的,在重新发布之前,若用户又进行了新的配置,且新的配置使得某些数据处理算法的配置与当前生效的配置相同,则可视为配置修改的撤销,此时可以将这些数据处理算法的标识恢复到正常状态。
S24、发布数据处理算法,以使调度参数的配置生效。
具体的,可以在任意时间,尤其是在对数据处理算法对应的实例化任务的调度参数进行了配置或修改之后,对数据处理算法进行发布,具体可以根据用户的选择对数据处理算法列表中的一个、多个或全部数据处理算法进行发布,以使得调度参数的当前配置生效。若配置中包括任务有效期,则重新发布后,任务有效期即可重新计算,并也可以在发布后将数据处理算法的标识恢复到正常状态。
S25、并行执行每个实例化任务,以同步获得与每个空间维度提供的输入数据对应的清洗结果。
本发明实施例所提供的技术方案,通过对各个实例化任务的调度参数进行配置,实现了对各个实例化任务的执行效率的调整,从而使得各个实例化任务的执行时间更加接近,进一步的提高了获取各个空间维度对应的清洗结果的同步性。并且可以通过单独配置和批量配置等方式为用户提供更多的方便。
实施例三
图3为本发明实施例三提供的多维空间大数据的清洗装置的结构示意图,该装置可以由硬件和.或软件的方式来实现,一般可集成于计算机设备中。如图3所示,该装置包括:
空间确定模块31,用于确定数据处理算法对应的至少一个空间维度,空间维度用于确定数据处理算法的输入数据的粒度;
任务生成模块32,用于生成数据处理算法的实例化任务,每个实例化任务与空间维度一一对应;
任务执行模块33,用于并行执行每个实例化任务,以同步获得与每个空间维度提供的输入数据对应的清洗结果。
本发明实施例所提供的技术方案,首先确定所使用的数据处理算法对应的提供待处理输入数据的空间维度,然后根据对应的空间维度的数量生成每个空间维度对应的实例化任务,最后并行执行每个实例化任务,以同步获得每个空间维度提供的输入数据对应的清洗结果。通过根据当前使用的空间维度的配置情况灵活控制数据处理算法实例化的任务维度,实现了针对不同空间的数据,在无需重复开发算法的基础上,还有效的避免了任务空跑调度以及不同维度空间数据之间的依赖,从而提高了资源的并发利用率和执行效率。
在上述技术方案的基础上,可选的,空间确定模块31,包括:
待选空间确定单元,用于确定数据处理算法所使用的空间文件,空间文件包括适用数据处理算法的多个待选空间维度;
空间维度确定单元,用于从多个待选空间维度中确定数据处理算法当前对应的至少一个空间维度。
在上述技术方案的基础上,可选的,空间确定模块31,还包括:
空间文件配置单元,用于在确定数据处理算法所使用的空间文件,空间文件包括适用数据处理算法的多个待选空间维度之前,根据用户操作对空间文件进行配置。
在上述技术方案的基础上,可选的,该多维空间大数据的清洗装置,还包括:
参数配置模块,用于在并行执行每个实例化任务,以同步获得与每个空间维度提供的输入数据对应的清洗结果之前,根据用户操作对每个实例化任务的调度参数进行配置;
算法发布模块,用于发布数据处理算法,以使调度参数的配置生效。
在上述技术方案的基础上,可选的,参数配置模块,包括:
第一任务展示单元,用于将用户选中的数据处理算法对应的每个实例化任务以列表形式向用户展示;
单独配置单元,用于根据用户操作对列表中的实例化任务的调度参数单独进行配置。
在上述技术方案的基础上,可选的,参数配置模块,包括:
第二任务展示单元,用于将用户选中的至少一个数据处理算法对应的每个实例化任务以列表形式向用户展示;
批量配置单元,用于根据用户操作对列表中两个以上实例化任务的调度参数批量进行配置。
在上述技术方案的基础上,可选的,参数配置模块,还包括:
目标算法确定单元,用于在根据用户操作对列表中两个以上实例化任务的调度参数批量进行配置之后,根据当前配置在至少一个数据处理算法中确定受配置影响的数据处理算法,受配置影响的数据处理算法对应的实例化任务中包括至少一个调度参数与生产环境参数不一致的目标实例化任务;
算法展示单元,用于将受配置影响的数据处理算法以弹窗列表的形式向用户展示。
本发明实施例所提供的多维空间大数据的清洗装置可执行本发明任意实施例所提供的多维空间大数据的清洗方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,在上述多维空间大数据的清洗装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例四
图4为本发明实施例四提供的计算机设备的结构示意图,示出了适于用来实现本发明实施方式的示例性计算机设备的框图。图4显示的计算机设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图4所示,该计算机设备包括处理器41、存储器42、输入装置43及输出装置44;计算机设备中处理器41的数量可以是一个或多个,图4中以一个处理器41为例,计算机设备中的处理器41、存储器42、输入装置43及输出装置44可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器42作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的多维空间大数据的清洗方法对应的程序指令/模块(例如,多维空间大数据的清洗装置中的空间确定模块31、任务生成模块32及任务执行模块33)。处理器41通过运行存储在存储器42中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的多维空间大数据的清洗方法。
存储器42可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器42可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器42可进一步包括相对于处理器41远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置43可用于获取空间维度为数据处理算法提供的输入数据,以及产生与计算机设备的用户设置和功能控制有关的键信号输入等。输出装置44包括显示屏等设备,可用于向用户展示清洗结果以及提供用户交互的功能。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,该计算机可执行指令在由计算机处理器执行时用于执行一种多维空间大数据的清洗方法,该方法包括:
确定数据处理算法对应的至少一个空间维度,空间维度用于确定数据处理算法的输入数据的粒度;
生成数据处理算法的实例化任务,每个实例化任务与空间维度一一对应;
并行执行每个实例化任务,以同步获得与每个空间维度提供的输入数据对应的清洗结果。
存储介质可以是任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到计算机系统。第二计算机系统可以提供程序指令给计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的多维空间大数据的清洗方法中的相关操作。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种多维空间大数据的清洗方法,其特征在于,包括:
确定数据处理算法对应的至少一个空间维度,所述空间维度用于确定所述数据处理算法的输入数据的粒度;
生成所述数据处理算法的实例化任务,每个所述实例化任务与所述空间维度一一对应;
并行执行每个所述实例化任务,以同步获得与每个所述空间维度提供的所述输入数据对应的清洗结果。
2.根据权利要求1所述的多维空间大数据的清洗方法,其特征在于,所述确定数据处理算法对应的至少一个空间维度,所述空间维度用于确定所述数据处理算法的输入数据的粒度,包括:
确定所述数据处理算法所使用的空间文件,所述空间文件包括适用所述数据处理算法的多个待选空间维度;
从所述多个待选空间维度中确定所述数据处理算法当前对应的所述至少一个空间维度。
3.根据权利要求2所述的多维空间大数据的清洗方法,其特征在于,在所述确定所述数据处理算法所使用的空间文件,所述空间文件包括适用所述数据处理算法的多个待选空间维度之前,还包括:
根据用户操作对所述空间文件进行配置。
4.根据权利要求1所述的多维空间大数据的清洗方法,其特征在于,在所述并行执行每个所述实例化任务,以同步获得与每个所述空间维度提供的所述输入数据对应的清洗结果之前,还包括:
根据用户操作对每个所述实例化任务的调度参数进行配置;
发布所述数据处理算法,以使所述调度参数的配置生效。
5.根据权利要求4所述的多维空间大数据的清洗方法,其特征在于,所述根据用户操作对每个所述实例化任务的调度参数进行配置,包括:
将用户选中的数据处理算法对应的每个所述实例化任务以列表形式向用户展示;
根据用户操作对列表中的所述实例化任务的调度参数单独进行配置。
6.根据权利要求4所述的多维空间大数据的清洗方法,其特征在于,所述根据用户操作对每个所述实例化任务的调度参数进行配置,包括:
将用户选中的至少一个数据处理算法对应的每个所述实例化任务以列表形式向用户展示;
根据用户操作对列表中两个以上所述实例化任务的调度参数批量进行配置。
7.根据权利要求6所述的多维空间大数据的清洗方法,其特征在于,在所述根据用户操作对列表中两个以上所述实例化任务的调度参数批量进行配置之后,还包括:
根据当前配置在所述至少一个数据处理算法中确定受配置影响的数据处理算法,所述受配置影响的数据处理算法对应的所述实例化任务中包括至少一个调度参数与生产环境参数不一致的目标实例化任务;
将所述受配置影响的数据处理算法以弹窗列表的形式向用户展示。
8.一种多维空间大数据的清洗装置,其特征在于,包括:
空间确定模块,用于确定数据处理算法对应的至少一个空间维度,所述空间维度用于确定所述数据处理算法的输入数据的粒度;
任务生成模块,用于生成所述数据处理算法的实例化任务,每个所述实例化任务与所述空间维度一一对应;
任务执行模块,用于并行执行每个所述实例化任务,以同步获得与每个所述空间维度提供的所述输入数据对应的清洗结果。
9.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的多维空间大数据的清洗方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的多维空间大数据的清洗方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011209918.9A CN112364001A (zh) | 2020-11-03 | 2020-11-03 | 多维空间大数据的清洗方法、装置、计算机设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011209918.9A CN112364001A (zh) | 2020-11-03 | 2020-11-03 | 多维空间大数据的清洗方法、装置、计算机设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112364001A true CN112364001A (zh) | 2021-02-12 |
Family
ID=74513437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011209918.9A Pending CN112364001A (zh) | 2020-11-03 | 2020-11-03 | 多维空间大数据的清洗方法、装置、计算机设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364001A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113535696A (zh) * | 2021-06-25 | 2021-10-22 | 中国民生银行股份有限公司 | 一种数据清洗方法、装置、电子设备和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153747A (zh) * | 2016-12-02 | 2018-06-12 | 航天星图科技(北京)有限公司 | 一种并行数据清洗系统 |
CN109597846A (zh) * | 2018-10-22 | 2019-04-09 | 平安科技(深圳)有限公司 | 大数据平台数据仓库数据处理方法、装置和计算机设备 |
CN111400012A (zh) * | 2020-03-20 | 2020-07-10 | 中国建设银行股份有限公司 | 数据并行处理方法、装置、设备及存储介质 |
-
2020
- 2020-11-03 CN CN202011209918.9A patent/CN112364001A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153747A (zh) * | 2016-12-02 | 2018-06-12 | 航天星图科技(北京)有限公司 | 一种并行数据清洗系统 |
CN109597846A (zh) * | 2018-10-22 | 2019-04-09 | 平安科技(深圳)有限公司 | 大数据平台数据仓库数据处理方法、装置和计算机设备 |
CN111400012A (zh) * | 2020-03-20 | 2020-07-10 | 中国建设银行股份有限公司 | 数据并行处理方法、装置、设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113535696A (zh) * | 2021-06-25 | 2021-10-22 | 中国民生银行股份有限公司 | 一种数据清洗方法、装置、电子设备和介质 |
CN113535696B (zh) * | 2021-06-25 | 2024-03-15 | 中国民生银行股份有限公司 | 一种数据清洗方法、装置、电子设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Le et al. | Allox: compute allocation in hybrid clusters | |
CN109634728B (zh) | 作业调度方法、装置、终端设备及可读存储介质 | |
US20190324819A1 (en) | Distributed-system task assignment method and apparatus | |
US10977070B2 (en) | Control system for microkernel architecture of industrial server and industrial server comprising the same | |
CN109117252B (zh) | 基于容器的任务处理的方法、系统及容器集群管理系统 | |
JPWO2008146677A1 (ja) | 仮想マシン管理装置、仮想マシン管理方法および仮想マシン管理プログラム | |
CN111078404B (zh) | 一种计算资源确定方法、装置、电子设备及介质 | |
WO2024082853A1 (zh) | 高性能计算应用性能调优的方法及系统 | |
CN109739634A (zh) | 一种原子任务执行方法及装置 | |
CN111897643A (zh) | 线程池配置系统、方法、装置和存储介质 | |
CN112364001A (zh) | 多维空间大数据的清洗方法、装置、计算机设备及介质 | |
CN111459676A (zh) | 一种节点资源管理方法、装置及存储介质 | |
CN111158800A (zh) | 基于映射关系构建任务dag的方法及装置 | |
EP3737038A1 (en) | Method and device for configuring base station | |
CN109213105B (zh) | 一种可重构装置、实现可重构的方法及分布式控制系统 | |
CN109144676A (zh) | 一种应用程序的自启动检测方法、装置及服务器 | |
CN111435356A (zh) | 数据特征提取方法、装置、计算机设备以及存储介质 | |
CN111679899B (zh) | 任务调度方法、装置、平台设备及存储介质 | |
CN110928672B (zh) | 一种任务编排方法、装置、设备及存储介质 | |
CN112579258A (zh) | 一种虚拟机的管理方法、装置、设备及存储介质 | |
US10866833B2 (en) | Method and appratus for implementing microkernel architecture of industrial server | |
CN112818183A (zh) | 一种数据合成方法、装置、计算机设备和存储介质 | |
CN111104320A (zh) | 一种测试方法、装置、设备及介质 | |
CN112035102A (zh) | 数据接口的配置方法及装置、存储介质、电子装置 | |
CN113010290A (zh) | 一种任务管理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |