CN113127460B - 数据清洗框架的评估方法及其装置、设备及存储介质 - Google Patents
数据清洗框架的评估方法及其装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113127460B CN113127460B CN201911406379.5A CN201911406379A CN113127460B CN 113127460 B CN113127460 B CN 113127460B CN 201911406379 A CN201911406379 A CN 201911406379A CN 113127460 B CN113127460 B CN 113127460B
- Authority
- CN
- China
- Prior art keywords
- data
- cleaning
- field
- original
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 193
- 238000011156 evaluation Methods 0.000 title claims abstract description 36
- 238000003860 storage Methods 0.000 title claims abstract description 26
- 238000005406 washing Methods 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 description 14
- 238000003908 quality control method Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 10
- 238000012360 testing method Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000002372 labelling Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002035 prolonged effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005111 flow chemistry technique Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了数据清洗框架的评估方法及其装置、设备及存储介质,该方法包括以下步骤:将原始数据库根据第二数据清洗框架洗获得第二数据集,第二数据清洗框架为第一数据清洗框架的升级版本;对比第一数据集中的字段和第二数据集的字段,并根据对比结果建立差异数据集,其中,第一数据集是原始数据库根据第一数据清洗框架洗获得的;在差异数据集中选择清洗字段,并进行数据溯源,获取清洗字段在原始数据库中对应的原始字段信息;比对差异数据集中的清洗字段和原始字段信息,并评估第二数据清洗框架,本发明能够通过数据源与数据之间的生产逻辑关系,利用数据溯源进行验证,快速验证原始数据的清洗框架升级效果。
Description
技术领域
本发明涉及数据清洗领域,具体地说,涉及数据清洗框架的评估方法及其装置、设备及存储介质。
背景技术
数据清洗(Data cleaning)是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。现有技术的数据清洗主要通入数据清洗策略、规则,将脏数据清洗成满足质控要求的数据。目前的数据清洗方法的质控工期较长,需要大量时间来查找数据与数据的生产逻辑关系。(当出现2个以上的数据源时质控时间会随之拉长)并且,无法快速进行问题定位。
现有的数据清洗框架的评估方法的质控工期较长,需要大量时间来查找数据与数据的生产逻辑关系(当出现2个以上的数据源时质控时间会随之拉长),严重降低了数据清洗框架的升级迭代的速度。而且,即便在数据清洗框架升级的过程中发现了问题,却也无法快速进行问题定位,加重了后续代码检查的工作量,延长了数据清洗的周期。
发明内容
针对现有技术中的问题,本发明的目的在于提供数据清洗框架的评估方法及其装置、设备及存储介质,能够通过数据源与数据之间的生产逻辑关系,利用数据溯源进行验证,快速验证原始数据的清洗框架升级效果。
本发明的实施例提供一种数据清洗框架的评估方法,包括以下步骤:
将原始数据库根据第二数据清洗框架洗获得第二数据集,所述第二数据清洗框架为第一数据清洗框架的升级版本;
对比第一数据集中的字段和第二数据集的字段,并根据对比结果建立差异数据集,其中,所述第一数据集是所述原始数据库根据第一数据清洗框架洗获得的;
在所述差异数据集中选择清洗字段,并进行数据溯源,获取所述清洗字段在所述原始数据库中对应的原始字段信息;
比对所述差异数据集中的清洗字段和原始字段信息,并评估所述第二数据清洗框架。
优选地,在所述差异数据集中选择清洗字段,并进行数据溯源,包括:
在所述差异数据集中选择清洗字段,基于预设字段格式将所述清洗字段进行数据的标记;
根据被标记的所述清洗字段和所述原始数据库,对所述清洗字段进行数据溯源。
优选地,所述根据被标记的所述清洗字段和所述原始数据库,对所述清洗字段进行数据溯源,包括:
根据被标记的所述清洗字段和所述原始数据库,通过结构化查询语言解析对被标记的所述清洗字段进行溯源,确定对应的原始字段信息。
优选地,对比第一数据集中的字段和第二数据集的字段,并根据对比结果建立差异数据集,包括:
将与所述原始数据库中相同的数据库主键相关联且结果值不同的所述第一数据集的字段以及所述第二数据集的字段建立差异数据集。
优选地,所述清洗字段包括对原始数据库的数据表中的字符串、字典、字段的格式进行归一。
优选地,比对所述差异数据集中的清洗字段和原始字段信息,并评估所述第二数据清洗框架,包括:
比对所述差异数据集中的清洗字段和原始字段信息,若所述清洗字段对应一个原始字段信息,且所述清洗字段和所述原始字段信息对应的值相同,则所述第二数据清洗框架升级成功;
若所述清洗字段对应至少两个原始字段信息,且所述至少两个原始字段信息与所述清洗字段对应的值相同,则所述第二数据清洗框架升级成功。
优选地,比对所述差异数据集中的清洗字段和原始字段信息,并评估所述第二数据清洗框架,包括:
比对所述差异数据集中的清洗字段和原始字段信息,若所述清洗字段对应一个原始字段信息,且所述清洗字段和所述原始字段信息对应的值相同的概率大于第一预设值,则所述第二数据清洗框架升级成功;
若所述清洗字段对应至少两个原始字段信息,且所述至少两个原始字段信息与所述清洗字段对应的值相同的概率大于第二预设值,则所述第二数据清洗框架升级成功。
本发明的实施例还提供一种数据清洗框架的评估装置,所述装置包括:
清洗模块,将原始数据库根据第二数据清洗框架洗获得第二数据集,所述第二数据清洗框架为第一数据清洗框架的升级版本;
对比模块,对比第一数据集中的字段和第二数据集的字段,并根据对比结果建立差异数据集,其中,所述第一数据集是所述原始数据库根据第一数据清洗框架洗获得的;
溯源模块,在所述差异数据集中选择清洗字段,并进行数据溯源,获取所述清洗字段在所述原始数据库中对应的原始字段信息;以及
评估模块,比对所述差异数据集中的清洗字段和原始字段信息,并评估所述第二数据清洗框架。
本发明的实施例还提供一种数据清洗框架的评估设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述数据清洗框架的评估方法的步骤。
本发明的实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现上述数据清洗框架的评估方法的步骤。
本发明的目的在于提供数据清洗框架的评估方法及其装置、设备及存储介质能够通过数据源与数据之间的生产逻辑关系,利用数据溯源进行验证,快速验证原始数据的清洗框架升级效果。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1是本发明的数据清洗框架的评估方法的流程图;
图2是本发明的数据清洗框架的评估装置的模块示意图;
图3是本发明的数据清洗框架的评估设备的结构示意图;
图4是本发明一实施例的计算机可读存储介质的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式。相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构,因而将省略对它们的重复描述。
图1是本发明的数据清洗框架的评估方法的流程图。如图1所示,本发明的一种实施例提供一种数据清洗框架的评估方法,包括以下步骤:
S101、将原始数据库根据第二数据清洗框架洗获得第二数据集,所述第二数据清洗框架为第一数据清洗框架的升级版本。本实施例中的第一数据清洗框架和第二数据清洗框架都是给予预设的数据清洗策略、规则,将脏数据清洗成满足质控要求的数据的程序模型,通过将数据库经历过数据清洗框架处理后,可以获得各类数据的格式统一化,但不以此为限。
S102、对比第一数据集中的字段和第二数据集的字段,并根据对比结果建立差异数据集,其中,所述第一数据集是所述原始数据库根据第一数据清洗框架洗获得的。
S103、在所述差异数据集中选择清洗字段,并进行数据溯源,获取所述清洗字段在所述原始数据库中对应的原始字段信息。
S104、比对所述差异数据集中的清洗字段和原始字段信息,并评估所述第二数据清洗框架。本发明和数据溯源方式一样,通过实现数据与数据的关系映射,亦及从产品层数据回溯到未结构化之前的数据。本实施例中的数据清洗,通过数据清洗策略、规则,将脏数据清洗成满足质控要求的数据。
在一个优选方案中,在所述差异数据集中选择清洗字段,并进行数据溯源,包括:在所述差异数据集中选择清洗字段,基于预设字段格式将所述清洗字段进行数据的标记;根据被标记的所述清洗字段和所述原始数据库,对所述清洗字段进行数据溯源。本实施例中的数据溯源是根据追踪路径重现数据的历史状态和演变过程,实现数据历史档案的追溯。本发明通过基于预设字段格式的数据溯源来实现所述清洗字段与所述原始数据库的对应关系的追溯,以便能够快速准确地完成数据溯源。
在一个优选方案中,所述根据被标记的所述清洗字段和所述原始数据库,对所述清洗字段进行数据溯源,包括:根据被标记的所述清洗字段和所述原始数据库,通过结构化查询语言解析对被标记的所述清洗字段进行溯源,确定对应的原始字段信息,依次来快速准确地确定原始字段信息,加快了验证原始数据的速度。本实施例中的结构化查询语言(Structured Query Language)简称SQL,是一种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。结构化查询语言是高级的非过程化编程语言,允许用户在高层数据结构上工作。它不要求用户指定对数据的存放方法,也不需要用户了解具体的数据存放方式,所以具有完全不同底层结构的不同数据库系统,可以使用相同的结构化查询语言作为数据输入与管理的接口。结构化查询语言语句可以嵌套,这使它具有极大的灵活性和强大的功能。
在一个优选方案中,对比第一数据集中的字段和第二数据集的字段,并根据对比结果建立差异数据集,包括:将与所述原始数据库中相同的数据库主键相关联且结果值不同的所述第一数据集的字段以及所述第二数据集的字段建立差异数据集。本实施例中的数据库主键,指的是一个列或多列的组合,其值能唯一地标识表中的每一行,通过它可强制表的实体完整性。主键主要是用与其他表的外键关联,以及本记录的修改与删除。例如:当创建或更改表时可通过定义PRIMARY KEY约束来创建主键。一个表只能有一个PRIMARY KEY约束,而且PRIMARY KEY约束中的列不能接受空值。由于PRIMARY KEY约束确保唯一数据,所以经常用来定义标识列。本通过与同一主键的关联来确认第一数据集中的字段和第二数据集的字段的对应关系,从而能够快速准确地建立差异数据集。
在一个优选方案中,所述清洗字段包括对原始数据库的数据表中的字符串、字典、字段的格式进行归一,但不以此为限。在本发明的基础上新增或是减少清洗字段的数量和项目的技术方案都落在本发明的保护范围之内。
在一个优选方案中,比对所述差异数据集中的清洗字段和原始字段信息,并评估所述第二数据清洗框架,包括:比对所述差异数据集中的清洗字段和原始字段信息,若所述清洗字段对应一个原始字段信息,且所述清洗字段和所述原始字段信息对应的值相同,则所述第二数据清洗框架升级成功;若所述清洗字段对应至少两个原始字段信息,且所述至少两个原始字段信息与所述清洗字段对应的值相同,则所述第二数据清洗框架升级成功。本发明中的一种评估方式可以是如果清洗后数据仅仅是格式发生了变化,而数值没有发生变化,则认为这次清洗是成功的(这次清洗所使用的第二数据清洗框架也是成功的),这种评估方式要求的准确性很高,适用于对于单一或是少量字段的清洗。但是在同时清洗多个字段时,评估的准确性会降低。
在一个优选方案中,比对所述差异数据集中的清洗字段和原始字段信息,并评估所述第二数据清洗框架,包括:比对所述差异数据集中的清洗字段和原始字段信息,若所述清洗字段对应一个原始字段信息,且所述清洗字段和所述原始字段信息对应的值相同的概率大于第一预设值,则所述第二数据清洗框架升级成功;若所述清洗字段对应至少两个原始字段信息,且所述至少两个原始字段信息与所述清洗字段对应的值相同的概率大于第二预设值,则所述第二数据清洗框架升级成功。本发明中的另一种评估方式可以是通过抽取一定数量的清洗字段和对应的原始字段,来判断两者的数值相同的概率,当通过预设的概率作为判断的阈值,这种方式非常适用于同时清洗多个字段,在复杂的清洗过程中能够获得更高的评估的准确性。
本实施例中的数据清洗框架的评估方法具体步骤如下:
首先生产数据:通过基础版的清洗框架来清洗原始数据库获得基础版数据,并通过最新版清洗框架生产得到测试版数据。(最新版指的是基于第一数据清洗框架升级后的第二数据清洗框架)。例如,在原始数据库的中包括了两个时间字段,其中一个是基于D10格式的字段A“2019-01-01”;另一个是基于D19格式的字段B“2019-01-02 00:00:00”。D10和D19的两种格式,D10采用YYYY-MM-DD的格式表示,其中"YYYY"表示年份,"MM"表示月份,"DD"表示日份,一共10位字符,D19是在D10的基础上又加入了时分秒,采用YYYY-MM-DDhh:mm:ss的格式表示,其中"hh"表示小时,"mm"表示分钟,"ss"表示秒,日期与时间中间有一个半角空格字符,固定时间格式,使数据更精确)。第一数据清洗框架将所有的时间字段都统一为D10格式,所以在第一数据清洗框架清洗后,得到第一数据集,其中,字段A仍然是“2019-01-01”,而字段B变为“2019-01-01”。第二数据清洗框架在第一数据清洗框架的基础优化了清洗规则,在第二数据清洗框架清洗后,得到第二数据集,其中,字段B仍然是“2019-01-01”,而字段B变为“2019-01-02”。
然后,对基础版数据(即根据第一数据清洗框架清洗后获得的第一数据集)和测试版数据(即根据第二数据清洗框架清洗后获得的第二数据集)进行比对,通过数据质控平台对测试版本和基础版本的数据进行对比,罗列出两个版本不同的结果值。通过对比第一数据集中的字段和第二数据集的字段,并根据对比结果建立差异数据集,差异数据集中就会包括来自第一数据集中的字段B“2019-01-01”以及来自第二数据的字段B“2019-01-02”。因为清洗框架只是生产方式的改变,生产后的数据表结构不会发生变化,换句话说就是清洗只是改变了一种生产策略,只会有结果值上的差别。(不同的结果值是指:通过数据库的主键进行关联,理论上清洗框架升级不会使结果值发生变化。也就是说,如果第一数据清洗框架和第二数据清洗框架的清洗效果完全相同,在理想情况下差异数据集可能为0;但是如果第一数据清洗框架产生了错误,而第二数据清洗框架如果能够修正这种错误,就会在差异数据集中看到两者的字段。)
随后进行数据溯源:通过数据溯源,进行SQL解析,并得到原始数据库中具体的字段。(SQL解析主要是用标注法以及反向查询法来完成数据的溯源,用标注的方式来记录原始数据的一些重要信息,比如时间、备注、作者等,并且让标注和数据一块记录,通过标注来完成溯源;反向查询法为数据转换的逆流程来实现,即从结果开始推导原始数据的过程)。以时间字段为例,当测试版数据和基础版数据通过数据质量平台进行版本比对发现结果值不同时,例如:差异数据集中就会包括来自第一数据集中的字段B“2019-01-01”以及来自第二数据的字段B“2019-01-02”的数值不同,则通过SQL解析查找字段B对应的原始数据库中具体的字段B“2019-01-02 00:00:00”
最后,通过获取原始数据具体字段来给出相应的质控结论:通过质量控制平台对于两版数据的对比,确认结果值不同的字段,通过数据溯源来获得清洗前的原始数据库的表和相应字段,另外原始数据库的表和相应的字段可能存在两个以上的数据源,需要全部获取。使用SQL查询数据库原始数值:通过SQL查询原始数据库对应不同清洗字段的原始数据,进行相关的验证,即结果值的比对。其中,来自第二数据的字段B“2019-01-02”的数值与原始数据库中的字段B“2019-01-02 00:00:00”的数值相同,则说明第二数据清洗框架的清洗对于该字段能够保证数值不变,该进了第一数据清洗框架的清洗后的错误结果,也就证明了对于该字段的清洗,第二数据清洗框架的清洗效果是优于第一数据清洗框架的清洗效果,显然,可以得到第二数据清洗框架升级成功的评估结果。(如果存在单一数据源那么可以直接验证,如果存在两个以上的数据源,那么需要将获得到的全部数据源进行清洗前后的结果值的比对。)通过原始字段的值来判断测试版的清洗数据是否符合预期,从而评估清洗框架的升级是否成功。例如:当原始字段的值与测试版的清洗数据完全相同或者绝大部分相同,则认为评估清洗框架的升级成功。
本实施例中的结构化是指将逐渐积累起来的知识加以归纳和整理,使之条理化、纲领化。本实施例中的基础版是指默认为数据可用的版本,质量控制是以该版本的数据情况作为质控依据。本实施例中的产品层数据:泛指数据展示在产品上显示的数据。本实施例中的测试版:测试版数据是在基础版的数据基础上进行数据升级,原则上质控的效果不应该比基础版差。本实施例中的数据质控平台:具备数据分析、匹配、报告、监控能力和易于使用的界面,使业务信息所有者能够在数据范围内实施和管理数据质量计划。
本发明中的数据溯源是指从数据溯源信息管理的角度出发,提出异构数据的数据溯源概念。即采用横轴表示时间(t)、纵轴表示过程(p)、z轴表示数据的异构分布特性。将数据溯源信息保存到不同的数据库中,形成携带溯源信息的异构数据库。通过数据库接口以及数据转换工具汇聚成目标数据库。这个过程的逆过程所经历的路径能够实现数据溯源的各种操作,如:数据追踪、信息评估、过程重现等,从而完成数据溯源任务。
本发明提供数据清洗框架的评估方法通过与数据源打通、按照标准数据模型和确定的生产逻辑进行映射,实现准确追溯清洗前数据,大大缩短质控方案所需要完成的时间。所以本发明能够通过数据源与数据之间的生产逻辑关系,利用数据溯源进行验证,快速验证原始数据的清洗框架升级效果。
图2是本发明的数据清洗框架的评估装置的模块示意图。如图2所示,本发明的实施例还提供一种数据清洗框架的评估装置5,可用于实现上述的数据清洗框架的评估方法,数据清洗框架的评估装置5包括:清洗模块51、对比模块52、溯源模块53、评估模块54。其中,清洗模块51将原始数据库根据第二数据清洗框架洗获得第二数据集,所述第二数据清洗框架为第一数据清洗框架的升级版本。对比模块52对比第一数据集中的字段和第二数据集的字段,并根据对比结果建立差异数据集,其中,所述第一数据集是所述原始数据库根据第一数据清洗框架洗获得的。溯源模块53在所述差异数据集中选择清洗字段,并进行数据溯源,获取所述清洗字段在所述原始数据库中对应的原始字段信息。评估模块54比对所述差异数据集中的清洗字段和原始字段信息,并评估所述第二数据清洗框架。本发明的目的在于提供数据清洗框架的评估装置能够通过数据源与数据之间的生产逻辑关系,利用数据溯源进行验证,快速验证原始数据的清洗框架升级效果。
本发明实施例还提供一种数据清洗框架的评估设备,包括处理器。存储器,其中存储有处理器的可执行指令。其中,处理器配置为经由执行可执行指令来执行的数据清洗框架的评估方法的步骤。
如上所示,该实施例能够通过数据源与数据之间的生产逻辑关系,利用数据溯源进行验证,快速验证原始数据的清洗框架升级效果。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。
图3是本发明的数据清洗框架的评估设备的结构示意图。下面参照图3来描述根据本发明的这种实施方式的电子设备600。图3显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,存储单元存储有程序代码,程序代码可以被处理单元610执行,使得处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,处理单元610可以执行如图1中所示的步骤。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,程序被执行时实现的数据清洗框架的评估方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。
如上所示,该实施例能够通过数据源与数据之间的生产逻辑关系,利用数据溯源进行验证,快速验证原始数据的清洗框架升级效果。
图4是本发明一实施例的计算机可读存储介质的结构示意图。参考图4所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上,本发明的目的在于提供数据清洗框架的评估方法及其装置、设备及存储介质,能够通过数据源与数据之间的生产逻辑关系,利用数据溯源进行验证,快速验证原始数据的清洗框架升级效果。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (10)
1.一种数据清洗框架的评估方法,其特征在于,包括以下步骤:
将原始数据库根据第二数据清洗框架洗获得第二数据集,所述第二数据清洗框架为第一数据清洗框架的升级版本;
对比第一数据集中的字段和第二数据集的字段,并根据对比结果建立差异数据集,其中,所述第一数据集是所述原始数据库根据第一数据清洗框架洗获得的;
在所述差异数据集中选择清洗字段,并进行数据溯源,获取所述清洗字段在所述原始数据库中对应的原始字段信息;以及
比对所述差异数据集中的清洗字段和原始字段信息,若所述清洗字段对应一个原始字段信息,且所述清洗字段和所述原始字段信息对应的值相同,则所述第二数据清洗框架升级成功;若所述清洗字段对应至少两个原始字段信息,且所述至少两个原始字段信息与所述清洗字段对应的值相同,则所述第二数据清洗框架升级成功。
2.根据权利要求1所述的方法,其特征在于,在所述差异数据集中选择清洗字段,并进行数据溯源,包括:
在所述差异数据集中选择清洗字段,基于预设字段格式将所述清洗字段进行数据的标记;
根据被标记的所述清洗字段和所述原始数据库,对所述清洗字段进行数据溯源。
3.根据权利要求2所述的方法,其特征在于:所述根据被标记的所述清洗字段和所述原始数据库,对所述清洗字段进行数据溯源,包括:
根据被标记的所述清洗字段和所述原始数据库,通过结构化查询语言解析对被标记的所述清洗字段进行溯源,确定对应的原始字段信息。
4.根据权利要求1所述的方法,其特征在于:对比第一数据集中的字段和第二数据集的字段,并根据对比结果建立差异数据集,包括:
将与所述原始数据库中相同的数据库主键相关联且结果值不同的所述第一数据集的字段以及所述第二数据集的字段建立差异数据集。
5.根据权利要求1所述的方法,其特征在于:所述清洗字段包括对原始数据库的数据表中的字符串、字典、字段的格式进行归一得到的字段。
6.一种数据清洗框架的评估方法,其特征在于,包括以下步骤:
将原始数据库根据第二数据清洗框架洗获得第二数据集,所述第二数据清洗框架为第一数据清洗框架的升级版本;
对比第一数据集中的字段和第二数据集的字段,并根据对比结果建立差异数据集,其中,所述第一数据集是所述原始数据库根据第一数据清洗框架洗获得的;
在所述差异数据集中选择清洗字段,并进行数据溯源,获取所述清洗字段在所述原始数据库中对应的原始字段信息;以及
比对所述差异数据集中的清洗字段和原始字段信息,若所述清洗字段对应一个原始字段信息,且所述清洗字段和所述原始字段信息对应的值相同的概率大于第一预设值,则所述第二数据清洗框架升级成功;若所述清洗字段对应至少两个原始字段信息,且所述至少两个原始字段信息与所述清洗字段对应的值相同的概率大于第二预设值,则所述第二数据清洗框架升级成功。
7.一种数据清洗框架的评估装置,其特征在于,所述装置包括:
清洗模块,将原始数据库根据第二数据清洗框架洗获得第二数据集,所述第二数据清洗框架为第一数据清洗框架的升级版本;
对比模块,对比第一数据集中的字段和第二数据集的字段,并根据对比结果建立差异数据集,其中,所述第一数据集是所述原始数据库根据第一数据清洗框架洗获得的;
溯源模块,在所述差异数据集中选择清洗字段,并进行数据溯源,获取所述清洗字段在所述原始数据库中对应的原始字段信息;以及
评估模块,比对所述差异数据集中的清洗字段和原始字段信息,若所述清洗字段对应一个原始字段信息,且所述清洗字段和所述原始字段信息对应的值相同,则所述第二数据清洗框架升级成功;若所述清洗字段对应至少两个原始字段信息,且所述至少两个原始字段信息与所述清洗字段对应的值相同,则所述第二数据清洗框架升级成功。
8.一种数据清洗框架的评估装置,其特征在于,所述装置包括:
清洗模块,将原始数据库根据第二数据清洗框架洗获得第二数据集,所述第二数据清洗框架为第一数据清洗框架的升级版本;
对比模块,对比第一数据集中的字段和第二数据集的字段,并根据对比结果建立差异数据集,其中,所述第一数据集是所述原始数据库根据第一数据清洗框架洗获得的;
溯源模块,在所述差异数据集中选择清洗字段,并进行数据溯源,获取所述清洗字段在所述原始数据库中对应的原始字段信息;以及
评估模块,比对所述差异数据集中的清洗字段和原始字段信息,若所述清洗字段对应一个原始字段信息,且所述清洗字段和所述原始字段信息对应的值相同的概率大于第一预设值,则所述第二数据清洗框架升级成功;若所述清洗字段对应至少两个原始字段信息,且所述至少两个原始字段信息与所述清洗字段对应的值相同的概率大于第二预设值,则所述第二数据清洗框架升级成功。
9.一种数据清洗框架的评估设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至6中任意一项所述数据清洗框架的评估方法的步骤。
10.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现权利要求1至6中任意一项所述数据清洗框架的评估方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911406379.5A CN113127460B (zh) | 2019-12-31 | 2019-12-31 | 数据清洗框架的评估方法及其装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911406379.5A CN113127460B (zh) | 2019-12-31 | 2019-12-31 | 数据清洗框架的评估方法及其装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113127460A CN113127460A (zh) | 2021-07-16 |
CN113127460B true CN113127460B (zh) | 2023-11-17 |
Family
ID=76768675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911406379.5A Active CN113127460B (zh) | 2019-12-31 | 2019-12-31 | 数据清洗框架的评估方法及其装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113127460B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114996280B (zh) * | 2022-08-01 | 2022-10-25 | 每日互动股份有限公司 | 一种数据表的字段信息纠正方法、装置、设备及介质 |
CN116108021B (zh) * | 2023-04-11 | 2023-09-08 | 北方健康医疗大数据科技有限公司 | 基于标准数据集进行多维度数据质控的方法、装置及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183814A (zh) * | 2015-08-27 | 2015-12-23 | 湖南人文科技学院 | 一种物联网数据清洗方法 |
CN105243089A (zh) * | 2015-09-09 | 2016-01-13 | 中国石油天然气股份有限公司 | 一种管道内检测数据处理方法 |
CN105912636A (zh) * | 2016-04-08 | 2016-08-31 | 金蝶软件(中国)有限公司 | 一种基于Map/Reduce的ETL数据处理方法和装置 |
CN106161532A (zh) * | 2015-04-09 | 2016-11-23 | Tcl集团股份有限公司 | 一种基于云服务的定向清理方法及系统 |
CN106202569A (zh) * | 2016-08-09 | 2016-12-07 | 北京北信源软件股份有限公司 | 一种基于大数据量的清洗方法 |
CN109299183A (zh) * | 2018-11-20 | 2019-02-01 | 北京锐安科技有限公司 | 一种数据处理方法、装置、终端设备和存储介质 |
CN109522312A (zh) * | 2018-11-27 | 2019-03-26 | 北京锐安科技有限公司 | 一种数据处理方法、装置、服务器和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8539359B2 (en) * | 2009-02-11 | 2013-09-17 | Jeffrey A. Rapaport | Social network driven indexing system for instantly clustering people with concurrent focus on same topic into on-topic chat rooms and/or for generating on-topic search results tailored to user preferences regarding topic |
-
2019
- 2019-12-31 CN CN201911406379.5A patent/CN113127460B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106161532A (zh) * | 2015-04-09 | 2016-11-23 | Tcl集团股份有限公司 | 一种基于云服务的定向清理方法及系统 |
CN105183814A (zh) * | 2015-08-27 | 2015-12-23 | 湖南人文科技学院 | 一种物联网数据清洗方法 |
CN105243089A (zh) * | 2015-09-09 | 2016-01-13 | 中国石油天然气股份有限公司 | 一种管道内检测数据处理方法 |
CN105912636A (zh) * | 2016-04-08 | 2016-08-31 | 金蝶软件(中国)有限公司 | 一种基于Map/Reduce的ETL数据处理方法和装置 |
CN106202569A (zh) * | 2016-08-09 | 2016-12-07 | 北京北信源软件股份有限公司 | 一种基于大数据量的清洗方法 |
CN109299183A (zh) * | 2018-11-20 | 2019-02-01 | 北京锐安科技有限公司 | 一种数据处理方法、装置、终端设备和存储介质 |
CN109522312A (zh) * | 2018-11-27 | 2019-03-26 | 北京锐安科技有限公司 | 一种数据处理方法、装置、服务器和存储介质 |
Non-Patent Citations (2)
Title |
---|
基于数据挖掘的数据清洗及其评估模型的研究;邹杰;《中国优秀硕士学位论文全文数据库 信息科技辑》;I138-1162 * |
智能可视与开放的无线网络大数据评估体系;于洋;《邮电设计技术》;17-22 * |
Also Published As
Publication number | Publication date |
---|---|
CN113127460A (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ridzuan et al. | A review on data cleansing methods for big data | |
CN108959564B (zh) | 数据仓库元数据管理方法、可读存储介质和计算机设备 | |
US11023500B2 (en) | Systems and methods for code parsing and lineage detection | |
US8799436B2 (en) | System and method for automated configuration control, audit verification and process analytics | |
US9195952B2 (en) | Systems and methods for contextual mapping utilized in business process controls | |
US20110154117A1 (en) | Methods and apparatus to perform log file analyses | |
JP5791149B2 (ja) | データベース・クエリ最適化のためのコンピュータで実装される方法、コンピュータ・プログラム、およびデータ処理システム | |
CN111666206A (zh) | 变更代码的影响范围的获取方法、装置、设备及存储介质 | |
US20210209159A1 (en) | Automated master data classification and curation using machine learning | |
CN112445775B (zh) | 一种光刻机的故障分析方法、装置、设备和存储介质 | |
CN108647300B (zh) | 数据库访问中间系统、方法、设备及存储介质 | |
CN113127460B (zh) | 数据清洗框架的评估方法及其装置、设备及存储介质 | |
US11853794B2 (en) | Pipeline task verification for a data processing platform | |
CN112181962A (zh) | 报表校验方法、装置、设备及存储介质 | |
CN110874364B (zh) | 一种查询语句处理方法、装置、设备及存储介质 | |
US10592400B2 (en) | System and method for creating variants in a test database during various test stages | |
CN108959454B (zh) | 一种提示子句指定方法、装置、设备及存储介质 | |
US10223086B2 (en) | Systems and methods for code parsing and lineage detection | |
US10003492B2 (en) | Systems and methods for managing data related to network elements from multiple sources | |
US20220247620A1 (en) | Identification of Clusters of Elements Causing Network Performance Degradation or Outage | |
CN106844218B (zh) | 一种基于演化切片的演化影响集预测方法 | |
US20220365912A1 (en) | Data Quality Management System | |
CN115794858A (zh) | 查询语句处理方法、装置、设备及存储介质 | |
US11119761B2 (en) | Identifying implicit dependencies between code artifacts | |
US20230306349A1 (en) | Benchmarking processes of an organization to standardized processes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |