发明内容
为了至少克服现有技术中的上述不足,本申请的目的之一在于提供一种大数据清洗处理方法、装置、服务器及可读存储介质,能够针对不同业务范围的大数据对象进行统一有效清洗。
第一方面,本申请提供一种大数据清洗处理方法,应用于服务器,所述方法包括:
根据各个大数据清洗区域的数据存储功能配置信息创建用于清洗各个大数据清洗区域清洗的不同业务范围的待清洗对象的清洗映射区,其中,所述数据存储功能配置信息用于表征所述大数据清洗区域的数据存储功能和数据调用业务;
根据所述待清洗对象的业务范围信息,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略,并将所述清洗节点序列和网格清洗划分策略关联到每个对应的大数据清洗区域;
针对每个所述大数据清洗区域,根据所述清洗节点序列和网格清洗划分策略清洗对应的待清洗对象,并根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,对创建的所述清洗映射区进行数据清洗。
在第一方面的一种可能的设计中,所述根据所述待清洗对象的业务范围信息,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略的步骤,包括:
根据所述待清洗对象的业务范围信息,确定针对所述每个大数据清洗区域的分类属性,并根据所述分类属性确定每个大数据清洗区域的清洗区间和清洗区间之间的映射关系;
以所述清洗区间为所述清洗变量、以所述映射关系为清洗参照对象,将所述分类属性构建为清洗节点序列矩阵;
根据所述清洗节点序列矩阵,提取将第一清洗区间的第一清洗变量与第二清洗区间中的第二清洗变量,并依次合并由所述第一清洗变量与所述第二清洗变量构成的合并清洗变量;
将每个合并清洗变量转换为同种清洗类型的特征向量,并分析每个特征向量节点之间的清洗循环参数和清洗归一化参数,得到对应的映射关系矩阵,并对所述映射关系矩阵进行加权,以将所述特征向量构建成目标特征向量,其中,所述清洗循环参数是指获取每个特征向量节点的清洗循环方式;
确定所述分类属性的目标特征向量中清洗变量间不同清洗类型的映射关系权值的加权信息,并根据所述加权信息为所述分类属性分配清洗节点;
依次遍历所述目标特征向量的每个向量方向,对每个向量方向进行划分,得到所述分类属性的清洗结构;
根据所述分类属性的清洗结构和为所述分类属性分配的清洗节点,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略。
在第一方面的一种可能的设计中,所述根据所述清洗节点序列和网格清洗划分策略清洗对应的待清洗对象的步骤,包括:
根据所述清洗节点序列和网格清洗划分策略,设置所述大数据清洗区域的清洗过程的阶段任务序列;
提取所述清洗过程中不同阶段任务的阶段任务清洗记录,并根据所述阶段任务清洗记录确定所述阶段任务序列内的清洗行为,并在所述清洗行为达到设定条件时,将所述清洗行为作为目标清洗行为;
根据所述目标清洗行为调整所述阶段任务序列,在调整过程中,获取对应阶段任务的清洗区间信息,直至任意一种确定的清洗区间信息在已知阶段任务处与实际的清洗区间信息一致时,与调整后的阶段任务对应的阶段任务清洗过程即为最终确定的阶段任务清洗过程;
将调整后的阶段任务序列作为所述清洗过程的目标清洗区间信息,并根据所述清洗过程的目标清洗区间信息清洗对应的待清洗对象。
在第一方面的一种可能的设计中,所述根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,对创建的所述清洗映射区进行数据清洗的步骤,包括:
根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,分析每个大数据清洗区域清洗的待清洗对象的数据清洗权重参数和网格划分节点序列,构建数据清洗进程;
获取所述数据清洗进程的数据清洗对象,生成清洗聚类节点的对象,将所述数据清洗对象传递到所述清洗聚类节点的对象中,以构建聚类对象,并利用所述聚类对象关联所述数据清洗进程的数据清洗对象;
从所述聚类对象中获取所述待清洗对象的对象记录脚本文件的清洗指令信息,并且根据所述对象记录脚本文件的清洗指令信息清洗相应的数据内容,同时从所述数据清洗对象中确定清洗数据内容所在项目的项目业务信息;
调用所述数据清洗进程获取所述所在项目在所述清洗映射区中的项目业务信息,并从数据清洗进程中查找对应的数据清洗策略,将所述所在表项的项目业务信息与所在项目在所述清洗映射区中的项目业务信息分别进行合并并作为进一步清洗参数,调用数据清洗进程执行数据清洗处理操作。
第二方面,本申请实施例提供一种大数据清洗处理装置,应用于服务器,所述装置包括:
创建模块,用于根据各个大数据清洗区域的数据存储功能配置信息创建用于清洗各个大数据清洗区域清洗的不同业务范围的待清洗对象的清洗映射区,其中,所述数据存储功能配置信息用于表征所述大数据清洗区域的数据存储功能和数据调用业务;
配置模块,用于根据所述待清洗对象的业务范围信息,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略,并将所述清洗节点序列和网格清洗划分策略关联到每个对应的大数据清洗区域;
清洗模块,用于针对每个所述大数据清洗区域,根据所述清洗节点序列和网格清洗划分策略清洗对应的待清洗对象,并根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,对创建的所述清洗映射区进行数据清洗。
第三方面,本申请实施例提供一种服务器,包括处理器、存储器和网络接口。其中,存储器、网络接口处理器之间可以通过总线系统相连。网络接口用于接收报文,存储器用于清洗程序、指令或代码,处理器用于执行存储器中的程序、指令或代码,以完成上述第一方面或第一方面的任意可能的设计方式中的所执行的操作。
第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上执行时,使得计算机执行上述第一方面或第一方面的任意可能的设计方式中的方法。
基于上述任意一个方面,本申请根据各个大数据清洗区域的数据存储功能配置信息创建用于清洗各个大数据清洗区域清洗的不同业务范围的待清洗对象的清洗映射区,然后根据待清洗对象的业务范围信息,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略,并将清洗节点序列和网格清洗划分策略关联到每个对应的大数据清洗区域,由此针对每个大数据清洗区域,根据清洗节点序列和网格清洗划分策略清洗对应的待清洗对象,并根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,从而能够针对不同业务范围的大数据对象进行统一有效清洗。
具体实施方式
下面结合说明书附图对本申请进行具体说明,方法实施例中的具体操作方法也可以应用于装置实施例或系统实施例中。
请参阅图1,为本申请实施例提供的大数据清洗处理方法的流程示意图,下面对该大数据清洗处理方法进行详细介绍。
步骤S110,根据各个大数据清洗区域的数据存储功能配置信息创建用于清洗各个大数据清洗区域清洗的不同业务范围的待清洗对象的清洗映射区,其中,数据存储功能配置信息用于表征大数据清洗区域的数据存储功能和数据调用业务。
步骤S120,根据待清洗对象的业务范围信息,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略,并将清洗节点序列和网格清洗划分策略关联到每个对应的大数据清洗区域。
步骤S130,针对每个大数据清洗区域,根据清洗节点序列和网格清洗划分策略清洗对应的待清洗对象,并根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,对创建的清洗映射区进行数据清洗。
基于上述设计,本实施例根据各个大数据清洗区域的数据存储功能配置信息创建用于清洗各个大数据清洗区域清洗的不同业务范围的待清洗对象的清洗映射区,然后根据待清洗对象的业务范围信息,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略,并将清洗节点序列和网格清洗划分策略关联到每个对应的大数据清洗区域,由此针对每个大数据清洗区域,根据清洗节点序列和网格清洗划分策略清洗对应的待清洗对象,并根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,从而能够针对不同业务范围的大数据对象进行统一有效清洗。
在一种可能的设计中,针对步骤S20,本实施例可以根据待清洗对象的业务范围信息,确定针对每个大数据清洗区域的分类属性,并根据分类属性确定每个大数据清洗区域的清洗区间和清洗区间之间的映射关系。
在此基础上,以清洗区间为清洗变量、以映射关系为清洗参照对象,将分类属性构建为清洗节点序列矩阵,根据清洗节点序列矩阵,提取将第一清洗区间的第一清洗变量与第二清洗区间中的第二清洗变量,并依次合并由第一清洗变量与第二清洗变量构成的合并清洗变量。
然后,可以将每个合并清洗变量转换为同种清洗类型的特征向量,并分析每个特征向量节点之间的清洗循环参数和清洗归一化参数,得到对应的映射关系矩阵,并对映射关系矩阵进行加权,以将特征向量构建成目标特征向量,其中,清洗循环参数是指获取每个特征向量节点的清洗循环方式。
由此,确定分类属性的目标特征向量中清洗变量间不同清洗类型的映射关系权值的加权信息,并根据加权信息为分类属性分配清洗节点,然后依次遍历目标特征向量的每个向量方向,对每个向量方向进行划分,得到分类属性的清洗结构,从而可根据分类属性的清洗结构和为分类属性分配的清洗节点,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略。
在一种可能的设计中,针对步骤S130,本实施例可以根据清洗节点序列和网格清洗划分策略,设置大数据清洗区域的清洗过程的阶段任务序列,然后提取清洗过程中不同阶段任务的阶段任务清洗记录,并根据阶段任务清洗记录确定阶段任务序列内的清洗行为,并在清洗行为达到设定条件时,将清洗行为作为目标清洗行为,在此基础上,可以根据目标清洗行为调整阶段任务序列,在调整过程中,获取对应阶段任务的清洗区间信息,直至任意一种确定的清洗区间信息在已知阶段任务处与实际的清洗区间信息一致时,与调整后的阶段任务对应的阶段任务清洗过程即为最终确定的阶段任务清洗过程。
由此,可以将调整后的阶段任务序列作为清洗过程的目标清洗区间信息,并根据清洗过程的目标清洗区间信息清洗对应的待清洗对象。
在一种可能的设计中,仍旧针对步骤S130,本实施例可以根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,分析每个大数据清洗区域清洗的待清洗对象的数据清洗权重参数和网格划分节点序列,构建数据清洗进程。
在此基础上,可以获取数据清洗进程的数据清洗对象,生成清洗聚类节点的对象,将数据清洗对象传递到清洗聚类节点的对象中,以构建聚类对象,并利用聚类对象关联数据清洗进程的数据清洗对象,然后从聚类对象中获取待清洗对象的对象记录脚本文件的清洗指令信息,并且根据对象记录脚本文件的清洗指令信息清洗相应的数据内容,同时从数据清洗对象中确定清洗数据内容所在项目的项目业务信息。
由此,可以调用数据清洗进程获取所在项目在清洗映射区中的项目业务信息,并从数据清洗进程中查找对应的数据清洗策略,将所在表项的项目业务信息与所在项目在清洗映射区中的项目业务信息分别进行合并并作为进一步清洗参数,调用数据清洗进程执行数据清洗处理操作。
图2为本申请实施例提供的大数据清洗处理装置200的功能模块示意图,本实施例可以根据上述方法实施例对该大数据清洗处理装置200进行功能模块的划分。例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。比如,在采用对应各个功能划分各个功能模块的情况下,图2示出的大数据清洗处理装置200只是一种装置示意图。其中,大数据清洗处理装置200可以包括创建模块210、配置模块220以及清洗模块230,下面分别对该大数据清洗处理装置200的各个功能模块的功能进行详细阐述。
创建模块210,用于根据各个大数据清洗区域的数据存储功能配置信息创建用于清洗各个大数据清洗区域清洗的不同业务范围的待清洗对象的清洗映射区,其中,所述数据存储功能配置信息用于表征所述大数据清洗区域的数据存储功能和数据调用业务;
配置模块220,用于根据所述待清洗对象的业务范围信息,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略,并将所述清洗节点序列和网格清洗划分策略关联到每个对应的大数据清洗区域;
清洗模块230,用于针对每个所述大数据清洗区域,根据所述清洗节点序列和网格清洗划分策略清洗对应的待清洗对象,并根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,对创建的所述清洗映射区进行数据清洗。
在一种可能的设计中,根据所述待清洗对象的业务范围信息,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略的方式,包括:
根据待清洗对象的业务范围信息,确定针对每个大数据清洗区域的分类属性,并根据分类属性确定每个大数据清洗区域的清洗区间和清洗区间之间的映射关系。
以清洗区间为清洗变量、以映射关系为清洗参照对象,将分类属性构建为清洗节点序列矩阵。
根据清洗节点序列矩阵,提取将第一清洗区间的第一清洗变量与第二清洗区间中的第二清洗变量,并依次合并由第一清洗变量与第二清洗变量构成的合并清洗变量。
将每个合并清洗变量转换为同种清洗类型的特征向量,并分析每个特征向量节点之间的清洗循环参数和清洗归一化参数,得到对应的映射关系矩阵,并对映射关系矩阵进行加权,以将特征向量构建成目标特征向量,其中,清洗循环参数是指获取每个特征向量节点的清洗循环方式。
确定分类属性的目标特征向量中清洗变量间不同清洗类型的映射关系权值的加权信息,并根据加权信息为分类属性分配清洗节点。
依次遍历目标特征向量的每个向量方向,对每个向量方向进行划分,得到分类属性的清洗结构。
根据分类属性的清洗结构和为分类属性分配的清洗节点,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略。
在一种可能的设计中,根据清洗节点序列和网格清洗划分策略清洗对应的待清洗对象的方式,包括:
根据清洗节点序列和网格清洗划分策略,设置大数据清洗区域的清洗过程的阶段任务序列。
提取清洗过程中不同阶段任务的阶段任务清洗记录,并根据阶段任务清洗记录确定阶段任务序列内的清洗行为,并在清洗行为达到设定条件时,将清洗行为作为目标清洗行为。
根据目标清洗行为调整阶段任务序列,在调整过程中,获取对应阶段任务的清洗区间信息,直至任意一种确定的清洗区间信息在已知阶段任务处与实际的清洗区间信息一致时,与调整后的阶段任务对应的阶段任务清洗过程即为最终确定的阶段任务清洗过程。
将调整后的阶段任务序列作为清洗过程的目标清洗区间信息,并根据清洗过程的目标清洗区间信息清洗对应的待清洗对象。
在一种可能的设计中,根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,对创建的清洗映射区进行数据清洗的方式,包括:
根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,分析每个大数据清洗区域清洗的待清洗对象的数据清洗权重参数和网格划分节点序列,构建数据清洗进程。
获取数据清洗进程的数据清洗对象,生成清洗聚类节点的对象,将数据清洗对象传递到清洗聚类节点的对象中,以构建聚类对象,并利用聚类对象关联数据清洗进程的数据清洗对象。
从聚类对象中获取待清洗对象的对象记录脚本文件的清洗指令信息,并且根据对象记录脚本文件的清洗指令信息清洗相应的数据内容,同时从数据清洗对象中确定清洗数据内容所在项目的项目业务信息。
调用数据清洗进程获取所在项目在清洗映射区中的项目业务信息,并从数据清洗进程中查找对应的数据清洗策略,将所在表项的项目业务信息与所在项目在清洗映射区中的项目业务信息分别进行合并并作为进一步清洗参数,调用数据清洗进程执行数据清洗处理操作。
图3为本申请实施例提供的用于执行上述大数据清洗处理方法的服务器100的结构示意图,如图3所示,该服务器100可包括网络接口110、机器可读存储介质120、处理器130以及总线140。处理器130的数量可以是一个或多个,图3中以一个处理器130为例。网络接口110、机器可读存储介质120以及处理器130可以通过总线140或其他方式连接,图3中以通过总线140连接为例。
机器可读存储介质120作为一种计算机可读存储介质,可用于清洗软件程序、计算机可执行程序以及模块,如本申请实施例中的大数据清洗处理方法对应的程序指令/模块(例如,图2中所示的创建模块210、配置模块220以及清洗模块230)。处理器130通过检测存储在机器可读存储介质120中的软件程序、指令以及模块,从而执行终端设备的各种功能应用以及数据处理,即实现上述的大数据清洗处理方法,在此不再赘述。
机器可读存储介质120可第一要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序。存储数据区可存储根据终端的使用所创建的数据等。此外,机器可读存储介质120可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(RandomAccess Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(StaticRAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DR RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合时刻的存储器。在一些实例中,机器可读存储介质120可进一步包括相对于处理器130远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器130可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器130中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器130可以是通用处理器、数字信号处理器(DigitalSignalProcessorDSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。
服务器100可以通过通信接口110和其它设备进行信息交互。通信接口110可以是电路、总线、收发器或者其它任意可以用于进行信息交互的装置。处理器130可以利用通信接口110收发信息。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(sol标识state disk,SSD))等。
本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。