CN111522806A - 大数据清洗处理方法、装置、服务器及可读存储介质 - Google Patents

大数据清洗处理方法、装置、服务器及可读存储介质 Download PDF

Info

Publication number
CN111522806A
CN111522806A CN202010338884.7A CN202010338884A CN111522806A CN 111522806 A CN111522806 A CN 111522806A CN 202010338884 A CN202010338884 A CN 202010338884A CN 111522806 A CN111522806 A CN 111522806A
Authority
CN
China
Prior art keywords
cleaning
big data
data
area
cleaned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010338884.7A
Other languages
English (en)
Other versions
CN111522806B (zh
Inventor
陈文海
陈永良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jujun Technology Co ltd
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010338884.7A priority Critical patent/CN111522806B/zh
Publication of CN111522806A publication Critical patent/CN111522806A/zh
Application granted granted Critical
Publication of CN111522806B publication Critical patent/CN111522806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种大数据清洗处理方法、装置、服务器及可读存储介质,根据各个大数据清洗区域的数据存储功能配置信息创建用于清洗各个大数据清洗区域清洗的不同业务范围的待清洗对象的清洗映射区,然后根据待清洗对象的业务范围信息,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略,并将清洗节点序列和网格清洗划分策略关联到每个对应的大数据清洗区域,由此针对每个大数据清洗区域,根据清洗节点序列和网格清洗划分策略清洗对应的待清洗对象,并根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,从而能够针对不同业务范围的大数据对象进行统一有效清洗。

Description

大数据清洗处理方法、装置、服务器及可读存储介质
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种大数据清洗处理方法、装置、服务器及可读存储介质。
背景技术
大数据存在数据量庞大、复杂度和关联度高等特点,因此当需要收集高质量的大数据时,必须在数据清洗阶段提高数据的质量。不同业务范围的大数据的具体特征情况各有不同,在数据清洗上会有较大差别,如何针对不同业务范围的大数据对象进行统一有效清洗,是本领域技术人员亟待解决的技术问题。
发明内容
为了至少克服现有技术中的上述不足,本申请的目的之一在于提供一种大数据清洗处理方法、装置、服务器及可读存储介质,能够针对不同业务范围的大数据对象进行统一有效清洗。
第一方面,本申请提供一种大数据清洗处理方法,应用于服务器,所述方法包括:
根据各个大数据清洗区域的数据存储功能配置信息创建用于清洗各个大数据清洗区域清洗的不同业务范围的待清洗对象的清洗映射区,其中,所述数据存储功能配置信息用于表征所述大数据清洗区域的数据存储功能和数据调用业务;
根据所述待清洗对象的业务范围信息,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略,并将所述清洗节点序列和网格清洗划分策略关联到每个对应的大数据清洗区域;
针对每个所述大数据清洗区域,根据所述清洗节点序列和网格清洗划分策略清洗对应的待清洗对象,并根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,对创建的所述清洗映射区进行数据清洗。
在第一方面的一种可能的设计中,所述根据所述待清洗对象的业务范围信息,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略的步骤,包括:
根据所述待清洗对象的业务范围信息,确定针对所述每个大数据清洗区域的分类属性,并根据所述分类属性确定每个大数据清洗区域的清洗区间和清洗区间之间的映射关系;
以所述清洗区间为所述清洗变量、以所述映射关系为清洗参照对象,将所述分类属性构建为清洗节点序列矩阵;
根据所述清洗节点序列矩阵,提取将第一清洗区间的第一清洗变量与第二清洗区间中的第二清洗变量,并依次合并由所述第一清洗变量与所述第二清洗变量构成的合并清洗变量;
将每个合并清洗变量转换为同种清洗类型的特征向量,并分析每个特征向量节点之间的清洗循环参数和清洗归一化参数,得到对应的映射关系矩阵,并对所述映射关系矩阵进行加权,以将所述特征向量构建成目标特征向量,其中,所述清洗循环参数是指获取每个特征向量节点的清洗循环方式;
确定所述分类属性的目标特征向量中清洗变量间不同清洗类型的映射关系权值的加权信息,并根据所述加权信息为所述分类属性分配清洗节点;
依次遍历所述目标特征向量的每个向量方向,对每个向量方向进行划分,得到所述分类属性的清洗结构;
根据所述分类属性的清洗结构和为所述分类属性分配的清洗节点,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略。
在第一方面的一种可能的设计中,所述根据所述清洗节点序列和网格清洗划分策略清洗对应的待清洗对象的步骤,包括:
根据所述清洗节点序列和网格清洗划分策略,设置所述大数据清洗区域的清洗过程的阶段任务序列;
提取所述清洗过程中不同阶段任务的阶段任务清洗记录,并根据所述阶段任务清洗记录确定所述阶段任务序列内的清洗行为,并在所述清洗行为达到设定条件时,将所述清洗行为作为目标清洗行为;
根据所述目标清洗行为调整所述阶段任务序列,在调整过程中,获取对应阶段任务的清洗区间信息,直至任意一种确定的清洗区间信息在已知阶段任务处与实际的清洗区间信息一致时,与调整后的阶段任务对应的阶段任务清洗过程即为最终确定的阶段任务清洗过程;
将调整后的阶段任务序列作为所述清洗过程的目标清洗区间信息,并根据所述清洗过程的目标清洗区间信息清洗对应的待清洗对象。
在第一方面的一种可能的设计中,所述根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,对创建的所述清洗映射区进行数据清洗的步骤,包括:
根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,分析每个大数据清洗区域清洗的待清洗对象的数据清洗权重参数和网格划分节点序列,构建数据清洗进程;
获取所述数据清洗进程的数据清洗对象,生成清洗聚类节点的对象,将所述数据清洗对象传递到所述清洗聚类节点的对象中,以构建聚类对象,并利用所述聚类对象关联所述数据清洗进程的数据清洗对象;
从所述聚类对象中获取所述待清洗对象的对象记录脚本文件的清洗指令信息,并且根据所述对象记录脚本文件的清洗指令信息清洗相应的数据内容,同时从所述数据清洗对象中确定清洗数据内容所在项目的项目业务信息;
调用所述数据清洗进程获取所述所在项目在所述清洗映射区中的项目业务信息,并从数据清洗进程中查找对应的数据清洗策略,将所述所在表项的项目业务信息与所在项目在所述清洗映射区中的项目业务信息分别进行合并并作为进一步清洗参数,调用数据清洗进程执行数据清洗处理操作。
第二方面,本申请实施例提供一种大数据清洗处理装置,应用于服务器,所述装置包括:
创建模块,用于根据各个大数据清洗区域的数据存储功能配置信息创建用于清洗各个大数据清洗区域清洗的不同业务范围的待清洗对象的清洗映射区,其中,所述数据存储功能配置信息用于表征所述大数据清洗区域的数据存储功能和数据调用业务;
配置模块,用于根据所述待清洗对象的业务范围信息,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略,并将所述清洗节点序列和网格清洗划分策略关联到每个对应的大数据清洗区域;
清洗模块,用于针对每个所述大数据清洗区域,根据所述清洗节点序列和网格清洗划分策略清洗对应的待清洗对象,并根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,对创建的所述清洗映射区进行数据清洗。
第三方面,本申请实施例提供一种服务器,包括处理器、存储器和网络接口。其中,存储器、网络接口处理器之间可以通过总线系统相连。网络接口用于接收报文,存储器用于清洗程序、指令或代码,处理器用于执行存储器中的程序、指令或代码,以完成上述第一方面或第一方面的任意可能的设计方式中的所执行的操作。
第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上执行时,使得计算机执行上述第一方面或第一方面的任意可能的设计方式中的方法。
基于上述任意一个方面,本申请根据各个大数据清洗区域的数据存储功能配置信息创建用于清洗各个大数据清洗区域清洗的不同业务范围的待清洗对象的清洗映射区,然后根据待清洗对象的业务范围信息,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略,并将清洗节点序列和网格清洗划分策略关联到每个对应的大数据清洗区域,由此针对每个大数据清洗区域,根据清洗节点序列和网格清洗划分策略清洗对应的待清洗对象,并根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,从而能够针对不同业务范围的大数据对象进行统一有效清洗。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的大数据清洗处理方法的流程示意图之一;
图2为本申请实施例提供的大数据清洗处理装置的功能模块示意图;
图3为本申请实施例提供的用于执行上述的大数据清洗处理方法的服务器的结构示意框图。
具体实施方式
下面结合说明书附图对本申请进行具体说明,方法实施例中的具体操作方法也可以应用于装置实施例或系统实施例中。
请参阅图1,为本申请实施例提供的大数据清洗处理方法的流程示意图,下面对该大数据清洗处理方法进行详细介绍。
步骤S110,根据各个大数据清洗区域的数据存储功能配置信息创建用于清洗各个大数据清洗区域清洗的不同业务范围的待清洗对象的清洗映射区,其中,数据存储功能配置信息用于表征大数据清洗区域的数据存储功能和数据调用业务。
步骤S120,根据待清洗对象的业务范围信息,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略,并将清洗节点序列和网格清洗划分策略关联到每个对应的大数据清洗区域。
步骤S130,针对每个大数据清洗区域,根据清洗节点序列和网格清洗划分策略清洗对应的待清洗对象,并根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,对创建的清洗映射区进行数据清洗。
基于上述设计,本实施例根据各个大数据清洗区域的数据存储功能配置信息创建用于清洗各个大数据清洗区域清洗的不同业务范围的待清洗对象的清洗映射区,然后根据待清洗对象的业务范围信息,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略,并将清洗节点序列和网格清洗划分策略关联到每个对应的大数据清洗区域,由此针对每个大数据清洗区域,根据清洗节点序列和网格清洗划分策略清洗对应的待清洗对象,并根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,从而能够针对不同业务范围的大数据对象进行统一有效清洗。
在一种可能的设计中,针对步骤S20,本实施例可以根据待清洗对象的业务范围信息,确定针对每个大数据清洗区域的分类属性,并根据分类属性确定每个大数据清洗区域的清洗区间和清洗区间之间的映射关系。
在此基础上,以清洗区间为清洗变量、以映射关系为清洗参照对象,将分类属性构建为清洗节点序列矩阵,根据清洗节点序列矩阵,提取将第一清洗区间的第一清洗变量与第二清洗区间中的第二清洗变量,并依次合并由第一清洗变量与第二清洗变量构成的合并清洗变量。
然后,可以将每个合并清洗变量转换为同种清洗类型的特征向量,并分析每个特征向量节点之间的清洗循环参数和清洗归一化参数,得到对应的映射关系矩阵,并对映射关系矩阵进行加权,以将特征向量构建成目标特征向量,其中,清洗循环参数是指获取每个特征向量节点的清洗循环方式。
由此,确定分类属性的目标特征向量中清洗变量间不同清洗类型的映射关系权值的加权信息,并根据加权信息为分类属性分配清洗节点,然后依次遍历目标特征向量的每个向量方向,对每个向量方向进行划分,得到分类属性的清洗结构,从而可根据分类属性的清洗结构和为分类属性分配的清洗节点,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略。
在一种可能的设计中,针对步骤S130,本实施例可以根据清洗节点序列和网格清洗划分策略,设置大数据清洗区域的清洗过程的阶段任务序列,然后提取清洗过程中不同阶段任务的阶段任务清洗记录,并根据阶段任务清洗记录确定阶段任务序列内的清洗行为,并在清洗行为达到设定条件时,将清洗行为作为目标清洗行为,在此基础上,可以根据目标清洗行为调整阶段任务序列,在调整过程中,获取对应阶段任务的清洗区间信息,直至任意一种确定的清洗区间信息在已知阶段任务处与实际的清洗区间信息一致时,与调整后的阶段任务对应的阶段任务清洗过程即为最终确定的阶段任务清洗过程。
由此,可以将调整后的阶段任务序列作为清洗过程的目标清洗区间信息,并根据清洗过程的目标清洗区间信息清洗对应的待清洗对象。
在一种可能的设计中,仍旧针对步骤S130,本实施例可以根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,分析每个大数据清洗区域清洗的待清洗对象的数据清洗权重参数和网格划分节点序列,构建数据清洗进程。
在此基础上,可以获取数据清洗进程的数据清洗对象,生成清洗聚类节点的对象,将数据清洗对象传递到清洗聚类节点的对象中,以构建聚类对象,并利用聚类对象关联数据清洗进程的数据清洗对象,然后从聚类对象中获取待清洗对象的对象记录脚本文件的清洗指令信息,并且根据对象记录脚本文件的清洗指令信息清洗相应的数据内容,同时从数据清洗对象中确定清洗数据内容所在项目的项目业务信息。
由此,可以调用数据清洗进程获取所在项目在清洗映射区中的项目业务信息,并从数据清洗进程中查找对应的数据清洗策略,将所在表项的项目业务信息与所在项目在清洗映射区中的项目业务信息分别进行合并并作为进一步清洗参数,调用数据清洗进程执行数据清洗处理操作。
图2为本申请实施例提供的大数据清洗处理装置200的功能模块示意图,本实施例可以根据上述方法实施例对该大数据清洗处理装置200进行功能模块的划分。例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。比如,在采用对应各个功能划分各个功能模块的情况下,图2示出的大数据清洗处理装置200只是一种装置示意图。其中,大数据清洗处理装置200可以包括创建模块210、配置模块220以及清洗模块230,下面分别对该大数据清洗处理装置200的各个功能模块的功能进行详细阐述。
创建模块210,用于根据各个大数据清洗区域的数据存储功能配置信息创建用于清洗各个大数据清洗区域清洗的不同业务范围的待清洗对象的清洗映射区,其中,所述数据存储功能配置信息用于表征所述大数据清洗区域的数据存储功能和数据调用业务;
配置模块220,用于根据所述待清洗对象的业务范围信息,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略,并将所述清洗节点序列和网格清洗划分策略关联到每个对应的大数据清洗区域;
清洗模块230,用于针对每个所述大数据清洗区域,根据所述清洗节点序列和网格清洗划分策略清洗对应的待清洗对象,并根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,对创建的所述清洗映射区进行数据清洗。
在一种可能的设计中,根据所述待清洗对象的业务范围信息,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略的方式,包括:
根据待清洗对象的业务范围信息,确定针对每个大数据清洗区域的分类属性,并根据分类属性确定每个大数据清洗区域的清洗区间和清洗区间之间的映射关系。
以清洗区间为清洗变量、以映射关系为清洗参照对象,将分类属性构建为清洗节点序列矩阵。
根据清洗节点序列矩阵,提取将第一清洗区间的第一清洗变量与第二清洗区间中的第二清洗变量,并依次合并由第一清洗变量与第二清洗变量构成的合并清洗变量。
将每个合并清洗变量转换为同种清洗类型的特征向量,并分析每个特征向量节点之间的清洗循环参数和清洗归一化参数,得到对应的映射关系矩阵,并对映射关系矩阵进行加权,以将特征向量构建成目标特征向量,其中,清洗循环参数是指获取每个特征向量节点的清洗循环方式。
确定分类属性的目标特征向量中清洗变量间不同清洗类型的映射关系权值的加权信息,并根据加权信息为分类属性分配清洗节点。
依次遍历目标特征向量的每个向量方向,对每个向量方向进行划分,得到分类属性的清洗结构。
根据分类属性的清洗结构和为分类属性分配的清洗节点,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略。
在一种可能的设计中,根据清洗节点序列和网格清洗划分策略清洗对应的待清洗对象的方式,包括:
根据清洗节点序列和网格清洗划分策略,设置大数据清洗区域的清洗过程的阶段任务序列。
提取清洗过程中不同阶段任务的阶段任务清洗记录,并根据阶段任务清洗记录确定阶段任务序列内的清洗行为,并在清洗行为达到设定条件时,将清洗行为作为目标清洗行为。
根据目标清洗行为调整阶段任务序列,在调整过程中,获取对应阶段任务的清洗区间信息,直至任意一种确定的清洗区间信息在已知阶段任务处与实际的清洗区间信息一致时,与调整后的阶段任务对应的阶段任务清洗过程即为最终确定的阶段任务清洗过程。
将调整后的阶段任务序列作为清洗过程的目标清洗区间信息,并根据清洗过程的目标清洗区间信息清洗对应的待清洗对象。
在一种可能的设计中,根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,对创建的清洗映射区进行数据清洗的方式,包括:
根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,分析每个大数据清洗区域清洗的待清洗对象的数据清洗权重参数和网格划分节点序列,构建数据清洗进程。
获取数据清洗进程的数据清洗对象,生成清洗聚类节点的对象,将数据清洗对象传递到清洗聚类节点的对象中,以构建聚类对象,并利用聚类对象关联数据清洗进程的数据清洗对象。
从聚类对象中获取待清洗对象的对象记录脚本文件的清洗指令信息,并且根据对象记录脚本文件的清洗指令信息清洗相应的数据内容,同时从数据清洗对象中确定清洗数据内容所在项目的项目业务信息。
调用数据清洗进程获取所在项目在清洗映射区中的项目业务信息,并从数据清洗进程中查找对应的数据清洗策略,将所在表项的项目业务信息与所在项目在清洗映射区中的项目业务信息分别进行合并并作为进一步清洗参数,调用数据清洗进程执行数据清洗处理操作。
图3为本申请实施例提供的用于执行上述大数据清洗处理方法的服务器100的结构示意图,如图3所示,该服务器100可包括网络接口110、机器可读存储介质120、处理器130以及总线140。处理器130的数量可以是一个或多个,图3中以一个处理器130为例。网络接口110、机器可读存储介质120以及处理器130可以通过总线140或其他方式连接,图3中以通过总线140连接为例。
机器可读存储介质120作为一种计算机可读存储介质,可用于清洗软件程序、计算机可执行程序以及模块,如本申请实施例中的大数据清洗处理方法对应的程序指令/模块(例如,图2中所示的创建模块210、配置模块220以及清洗模块230)。处理器130通过检测存储在机器可读存储介质120中的软件程序、指令以及模块,从而执行终端设备的各种功能应用以及数据处理,即实现上述的大数据清洗处理方法,在此不再赘述。
机器可读存储介质120可第一要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序。存储数据区可存储根据终端的使用所创建的数据等。此外,机器可读存储介质120可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(RandomAccess Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(StaticRAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DR RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合时刻的存储器。在一些实例中,机器可读存储介质120可进一步包括相对于处理器130远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器130可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器130中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器130可以是通用处理器、数字信号处理器(DigitalSignalProcessorDSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。
服务器100可以通过通信接口110和其它设备进行信息交互。通信接口110可以是电路、总线、收发器或者其它任意可以用于进行信息交互的装置。处理器130可以利用通信接口110收发信息。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(sol标识state disk,SSD))等。
本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种大数据清洗处理方法,其特征在于,应用于服务器,所述方法包括:
根据各个大数据清洗区域的数据存储功能配置信息创建用于清洗各个大数据清洗区域清洗的不同业务范围的待清洗对象的清洗映射区,其中,所述数据存储功能配置信息用于表征所述大数据清洗区域的数据存储功能和数据调用业务;
根据所述待清洗对象的业务范围信息,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略,并将所述清洗节点序列和网格清洗划分策略关联到每个对应的大数据清洗区域;
针对每个所述大数据清洗区域,根据所述清洗节点序列和网格清洗划分策略清洗对应的待清洗对象,并根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,对创建的所述清洗映射区进行数据清洗。
2.根据权利要求1所述的大数据清洗处理方法,其特征在于,所述根据所述待清洗对象的业务范围信息,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略的步骤,包括:
根据所述待清洗对象的业务范围信息,确定针对所述每个大数据清洗区域的分类属性,并根据所述分类属性确定每个大数据清洗区域的清洗区间和清洗区间之间的映射关系;
以所述清洗区间为所述清洗变量、以所述映射关系为清洗参照对象,将所述分类属性构建为清洗节点序列矩阵;
根据所述清洗节点序列矩阵,提取将第一清洗区间的第一清洗变量与第二清洗区间中的第二清洗变量,并依次合并由所述第一清洗变量与所述第二清洗变量构成的合并清洗变量;
将每个合并清洗变量转换为同种清洗类型的特征向量,并分析每个特征向量节点之间的清洗循环参数和清洗归一化参数,得到对应的映射关系矩阵,并对所述映射关系矩阵进行加权,以将所述特征向量构建成目标特征向量,其中,所述清洗循环参数是指获取每个特征向量节点的清洗循环方式;
确定所述分类属性的目标特征向量中清洗变量间不同清洗类型的映射关系权值的加权信息,并根据所述加权信息为所述分类属性分配清洗节点;
依次遍历所述目标特征向量的每个向量方向,对每个向量方向进行划分,得到所述分类属性的清洗结构;
根据所述分类属性的清洗结构和为所述分类属性分配的清洗节点,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略。
3.根据权利要求1所述的大数据清洗处理方法,其特征在于,所述根据所述清洗节点序列和网格清洗划分策略清洗对应的待清洗对象的步骤,包括:
根据所述清洗节点序列和网格清洗划分策略,设置所述大数据清洗区域的清洗过程的阶段任务序列;
提取所述清洗过程中不同阶段任务的阶段任务清洗记录,并根据所述阶段任务清洗记录确定所述阶段任务序列内的清洗行为,并在所述清洗行为达到设定条件时,将所述清洗行为作为目标清洗行为;
根据所述目标清洗行为调整所述阶段任务序列,在调整过程中,获取对应阶段任务的清洗区间信息,直至任意一种确定的清洗区间信息在已知阶段任务处与实际的清洗区间信息一致时,与调整后的阶段任务对应的阶段任务清洗过程即为最终确定的阶段任务清洗过程;
将调整后的阶段任务序列作为所述清洗过程的目标清洗区间信息,并根据所述清洗过程的目标清洗区间信息清洗对应的待清洗对象。
4.根据权利要求1所述的大数据清洗处理方法,其特征在于,所述根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,对创建的所述清洗映射区进行数据清洗的步骤,包括:
根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,分析每个大数据清洗区域清洗的待清洗对象的数据清洗权重参数和网格划分节点序列,构建数据清洗进程;
获取所述数据清洗进程的数据清洗对象,生成清洗聚类节点的对象,将所述数据清洗对象传递到所述清洗聚类节点的对象中,以构建聚类对象,并利用所述聚类对象关联所述数据清洗进程的数据清洗对象;
从所述聚类对象中获取所述待清洗对象的对象记录脚本文件的清洗指令信息,并且根据所述对象记录脚本文件的清洗指令信息清洗相应的数据内容,同时从所述数据清洗对象中确定清洗数据内容所在项目的项目业务信息;
调用所述数据清洗进程获取所述所在项目在所述清洗映射区中的项目业务信息,并从数据清洗进程中查找对应的数据清洗策略,将所述所在表项的项目业务信息与所在项目在所述清洗映射区中的项目业务信息分别进行合并并作为进一步清洗参数,调用数据清洗进程执行数据清洗处理操作。
5.一种大数据清洗处理装置,其特征在于,应用于服务器,所述装置包括:
创建模块,用于根据各个大数据清洗区域的数据存储功能配置信息创建用于清洗各个大数据清洗区域清洗的不同业务范围的待清洗对象的清洗映射区,其中,所述数据存储功能配置信息用于表征所述大数据清洗区域的数据存储功能和数据调用业务;
配置模块,用于根据所述待清洗对象的业务范围信息,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略,并将所述清洗节点序列和网格清洗划分策略关联到每个对应的大数据清洗区域;
清洗模块,用于针对每个所述大数据清洗区域,根据所述清洗节点序列和网格清洗划分策略清洗对应的待清洗对象,并根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,对创建的所述清洗映射区进行数据清洗。
6.根据权利要求5所述的大数据清洗处理装置,其特征在于,所述根据所述待清洗对象的业务范围信息,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略的方式,包括:
根据所述待清洗对象的业务范围信息,确定针对所述每个大数据清洗区域的分类属性,并根据所述分类属性确定每个大数据清洗区域的清洗区间和清洗区间之间的映射关系;
以所述清洗区间为所述清洗变量、以所述映射关系为清洗参照对象,将所述分类属性构建为清洗节点序列矩阵;
根据所述清洗节点序列矩阵,提取将第一清洗区间的第一清洗变量与第二清洗区间中的第二清洗变量,并依次合并由所述第一清洗变量与所述第二清洗变量构成的合并清洗变量;
将每个合并清洗变量转换为同种清洗类型的特征向量,并分析每个特征向量节点之间的清洗循环参数和清洗归一化参数,得到对应的映射关系矩阵,并对所述映射关系矩阵进行加权,以将所述特征向量构建成目标特征向量,其中,所述清洗循环参数是指获取每个特征向量节点的清洗循环方式;
确定所述分类属性的目标特征向量中清洗变量间不同清洗类型的映射关系权值的加权信息,并根据所述加权信息为所述分类属性分配清洗节点;
依次遍历所述目标特征向量的每个向量方向,对每个向量方向进行划分,得到所述分类属性的清洗结构;
根据所述分类属性的清洗结构和为所述分类属性分配的清洗节点,配置对应的针对各个大数据清洗区域的清洗节点序列和网格清洗划分策略。
7.根据权利要求5所述的大数据清洗处理装置,其特征在于,所述根据所述清洗节点序列和网格清洗划分策略清洗对应的待清洗对象的方式,包括:
根据所述清洗节点序列和网格清洗划分策略,设置所述大数据清洗区域的清洗过程的阶段任务序列;
提取所述清洗过程中不同阶段任务的阶段任务清洗记录,并根据所述阶段任务清洗记录确定所述阶段任务序列内的清洗行为,并在所述清洗行为达到设定条件时,将所述清洗行为作为目标清洗行为;
根据所述目标清洗行为调整所述阶段任务序列,在调整过程中,获取对应阶段任务的清洗区间信息,直至任意一种确定的清洗区间信息在已知阶段任务处与实际的清洗区间信息一致时,与调整后的阶段任务对应的阶段任务清洗过程即为最终确定的阶段任务清洗过程;
将调整后的阶段任务序列作为所述清洗过程的目标清洗区间信息,并根据所述清洗过程的目标清洗区间信息清洗对应的待清洗对象。
8.根据权利要求5所述的大数据清洗处理装置,其特征在于,所述根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,对创建的所述清洗映射区进行数据清洗的方式,包括:
根据每个大数据清洗区域清洗的待清洗对象以及针对每个大数据清洗区域的清洗节点序列和网格清洗划分策略,分析每个大数据清洗区域清洗的待清洗对象的数据清洗权重参数和网格划分节点序列,构建数据清洗进程;
获取所述数据清洗进程的数据清洗对象,生成清洗聚类节点的对象,将所述数据清洗对象传递到所述清洗聚类节点的对象中,以构建聚类对象,并利用所述聚类对象关联所述数据清洗进程的数据清洗对象;
从所述聚类对象中获取所述待清洗对象的对象记录脚本文件的清洗指令信息,并且根据所述对象记录脚本文件的清洗指令信息清洗相应的数据内容,同时从所述数据清洗对象中确定清洗数据内容所在项目的项目业务信息;
调用所述数据清洗进程获取所述所在项目在所述清洗映射区中的项目业务信息,并从数据清洗进程中查找对应的数据清洗策略,将所述所在表项的项目业务信息与所在项目在所述清洗映射区中的项目业务信息分别进行合并并作为进一步清洗参数,调用数据清洗进程执行数据清洗处理操作。
9.一种服务器,其特征在于,所述服务器包括处理器、机器可读存储介质和网络接口,所述机器可读存储介质、所述网络接口以及所述处理器之间通过总线系统相连,所述网络接口用于与至少一个水质监测装置通信连接,所述机器可读存储介质用于清洗程序、指令或代码,所述处理器用于执行所述机器可读存储介质中的程序、指令或代码,以执行权利要求1-4中任意一项所述的大数据清洗处理方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有机器可执行指令,当所述机器可执行指令被执行时实现权利要求1-4中任意一项所述的大数据清洗处理方法。
CN202010338884.7A 2020-04-26 2020-04-26 大数据清洗处理方法、装置、服务器及可读存储介质 Active CN111522806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010338884.7A CN111522806B (zh) 2020-04-26 2020-04-26 大数据清洗处理方法、装置、服务器及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010338884.7A CN111522806B (zh) 2020-04-26 2020-04-26 大数据清洗处理方法、装置、服务器及可读存储介质

Publications (2)

Publication Number Publication Date
CN111522806A true CN111522806A (zh) 2020-08-11
CN111522806B CN111522806B (zh) 2023-07-07

Family

ID=71903807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010338884.7A Active CN111522806B (zh) 2020-04-26 2020-04-26 大数据清洗处理方法、装置、服务器及可读存储介质

Country Status (1)

Country Link
CN (1) CN111522806B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084178A (zh) * 2020-08-24 2020-12-15 上海微亿智造科技有限公司 一种数据清洗方法、系统、数据清洗设备和可读存储介质
CN113190544A (zh) * 2021-05-26 2021-07-30 重庆高新技术产业研究院有限责任公司 一种面向企业的mes数据抽取和清洗方法
CN113190670A (zh) * 2021-05-08 2021-07-30 重庆第二师范学院 一种基于大数据平台的信息展示方法及系统
CN114756541A (zh) * 2022-05-25 2022-07-15 永修县彧馨科技有限公司 用于人工智能训练的大数据特征清洗决策方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294492A (zh) * 2015-06-08 2017-01-04 深圳中兴网信科技有限公司 数据清洗方法及清洗引擎
WO2018126367A1 (zh) * 2017-01-04 2018-07-12 上海温尔信息科技有限公司 数据清洗方法及装置
CN109753496A (zh) * 2018-11-27 2019-05-14 天聚地合(苏州)数据股份有限公司 一种用于大数据的数据清洗方法
CN110502509A (zh) * 2019-08-27 2019-11-26 广东工业大学 一种基于Hadoop与Spark框架的交通大数据清洗方法及相关装置
CN110597793A (zh) * 2019-07-30 2019-12-20 深圳市华傲数据技术有限公司 数据管理方法及装置、电子设备和计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294492A (zh) * 2015-06-08 2017-01-04 深圳中兴网信科技有限公司 数据清洗方法及清洗引擎
WO2018126367A1 (zh) * 2017-01-04 2018-07-12 上海温尔信息科技有限公司 数据清洗方法及装置
CN109753496A (zh) * 2018-11-27 2019-05-14 天聚地合(苏州)数据股份有限公司 一种用于大数据的数据清洗方法
CN110597793A (zh) * 2019-07-30 2019-12-20 深圳市华傲数据技术有限公司 数据管理方法及装置、电子设备和计算机可读存储介质
CN110502509A (zh) * 2019-08-27 2019-11-26 广东工业大学 一种基于Hadoop与Spark框架的交通大数据清洗方法及相关装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘云恒;刘耀宗;张宏;: "一种不确定RFID数据流清洗策略" *
李蕾: "大数据环境下相似重复记录数据清洗关键技术研究" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084178A (zh) * 2020-08-24 2020-12-15 上海微亿智造科技有限公司 一种数据清洗方法、系统、数据清洗设备和可读存储介质
CN113190670A (zh) * 2021-05-08 2021-07-30 重庆第二师范学院 一种基于大数据平台的信息展示方法及系统
CN113190544A (zh) * 2021-05-26 2021-07-30 重庆高新技术产业研究院有限责任公司 一种面向企业的mes数据抽取和清洗方法
CN114756541A (zh) * 2022-05-25 2022-07-15 永修县彧馨科技有限公司 用于人工智能训练的大数据特征清洗决策方法及系统

Also Published As

Publication number Publication date
CN111522806B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
CN111522806A (zh) 大数据清洗处理方法、装置、服务器及可读存储介质
CN110209652B (zh) 数据表迁移方法、装置、计算机设备和存储介质
CN112910945B (zh) 请求链路跟踪方法和业务请求处理方法
US8219575B2 (en) Method and system for specifying, preparing and using parameterized database queries
CN110990233B (zh) 一种利用甘特图展示soar的方法和系统
CN112288249A (zh) 业务流程执行方法、装置、计算机设备和介质
CN110880014A (zh) 数据处理方法、装置、计算机设备及存储介质
CN114531477A (zh) 功能组件的配置方法、装置、计算机设备和存储介质
CN112511341B (zh) 一种网络自动化故障定位方法、终端及存储介质
CN113672668A (zh) 大数据场景下的日志实时处理方法及装置
CN111258968B (zh) 企业冗余数据清理方法、装置及大数据平台
CN112632564A (zh) 一种威胁评估方法及装置
CN111680293A (zh) 基于互联网的信息监控管理方法、装置及服务器
CN111523844A (zh) 仓储管理方法、装置、服务器及可读存储介质
CN112380771B (zh) 一种土壤侵蚀评估方法、装置及服务器
CN115729961A (zh) 数据查询方法、装置、设备和计算机可读存储介质
CN113238855B (zh) 一种路径检测方法及装置
CN111526333A (zh) 安防监控方法、装置、服务器及可读存储介质
CN111884932B (zh) 一种链路确定方法、装置、设备和计算机可读存储介质
CN115034392B (zh) Rete网络的编译方法及装置、Rete算法的执行方法及装置
Navarro-Gutiérrez et al. Problematic configurations and choice-join pairs on Mono-T-Semiflow nets: Towards the characterization of behavior-structural properties
CN112364515B (zh) 一种生态环境智能监控方法、装置及服务器
CN111368146A (zh) 一种路径信息的查询方法及装置、存储介质和处理器
CN112380493B (zh) 一种土壤成分含量检测智能分析方法、装置及服务器
CN113364871B (zh) 一种基于智能合约的节点选举方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: No.23 Qianwang Road, Xishan District, Kunming, Yunnan 650100

Applicant after: Chen Wenhai

Address before: No.23 baicaolong village, Songshi village committee, Caiyun Town, Lufeng County, Chuxiong Yi Autonomous Prefecture, Yunnan Province

Applicant before: Chen Wenhai

CB02 Change of applicant information
TA01 Transfer of patent application right

Effective date of registration: 20230614

Address after: No.14, Lane 1502, Luoshan Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai

Applicant after: Shanghai Jujun Technology Co.,Ltd.

Address before: No.23 Qianwang Road, Xishan District, Kunming, Yunnan 650100

Applicant before: Chen Wenhai

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant