CN112256688B - 业务数据清洗方法、装置、电子设备 - Google Patents
业务数据清洗方法、装置、电子设备 Download PDFInfo
- Publication number
- CN112256688B CN112256688B CN202011349997.3A CN202011349997A CN112256688B CN 112256688 B CN112256688 B CN 112256688B CN 202011349997 A CN202011349997 A CN 202011349997A CN 112256688 B CN112256688 B CN 112256688B
- Authority
- CN
- China
- Prior art keywords
- data
- named entity
- cleaning
- type named
- verification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 153
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000006243 chemical reaction Methods 0.000 claims abstract description 90
- 238000012795 verification Methods 0.000 claims abstract description 79
- 238000007726 management method Methods 0.000 claims description 38
- 238000013524 data verification Methods 0.000 claims description 37
- 238000013523 data management Methods 0.000 claims description 33
- 230000004044 response Effects 0.000 claims description 16
- 210000001503 joint Anatomy 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 abstract description 8
- 230000014509 gene expression Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
公开一种业务数据清洗方法、装置、电子设备及机器可读存储介质。在本申请中,从对接的业务系统中获取待执行数据清洗的业务数据;确定与所述业务数据关联的数据元;以及,获取与所述数据元关联的转换型命名实体、校验型命名实体及解释型命名实体,并基于获取的转换型命名实体、校验型命名实体及解释型命名实体对所述业务数据执行数据清洗。基于所见即所得的多个命名实体依次进行有序数据清洗,避免了用户进行繁琐的数据清洗配置,提高了数据清洗维护效率,并方便命名实体的积累和共享利用。
Description
技术领域
本申请一个或多个实施例涉及计算机应用技术领域,尤其涉及业务数据清洗方法、装置、电子设备及机器可读存储介质。
背景技术
随着IT技术的发展和普及,各行各业累积的业务数据越来越多。当需要对累积的海量业务数据通过数据治理平台进行数据清洗时,通常需要数据治理平台的开发人员在数据治理平台后台配置复杂的正则表达式用于数据清洗。然而,正则表达式通常比较复杂晦涩,普通用户难以理解和使用,致使数据清洗时配置及维护的效率极为低下。比如:电子政务系统中的公安数据涉及待数据清洗的数据元的个数数万以万计,为每个数据元配置及维护复杂的正则表达式,极其复杂且难于管理及维护。
发明内容
本申请提供一种业务数据清洗方法,所述方法包括:
从对接的业务系统中,获取待执行数据清洗的业务数据;
确定与所述业务数据关联的数据元;
获取与所述数据元关联的转换型命名实体、校验型命名实体及解释型命名实体,并基于获取的转换型命名实体、校验型命名实体及解释型命名实体对所述业务数据执行数据清洗。
可选的,所述业务数据包括若干列数据;
所述确定与所述业务数据关联的数据元,包括:
响应于用户在输出的业务数据与数据元关联界面的设置,确定与所述若干列数据分别关联的数据元。
可选的,所述转换型命名实体对应被预配置了用于执行数据转换的清洗规则,所述校验型命名实体对应被预配置了用于执行数据校验的清洗规则,所述解释型命名实体对应被预配置了用于执行数据解释的清洗规则;
所述获取与所述数据元关联的转换型命名实体、校验型命名实体及解释型命名实体,并基于获取的转换型命名实体、校验型命名实体及解释型命名实体对所述业务数据执行数据清洗,包括:
获取与所述若干列数据数据分别关联的数据元;
获取与所述关联的数据元关联的转换型命名实体、校验型命名实体及解释型命名实体;
基于获取的所述关联的转换型命名实体、校验型命名实体及解释型命名实体分别对应的数据转换、数据校验及数据解释的清洗规则,对所述若干列数据按关联的数据元依次执行数据清洗。
可选的,所述用于执行数据校验的清洗规则包括真伪性校验规则、合法性校验规则中任一或组合;其中,所述真伪性校验规则用于校验目标列数据的属性与关联的目标数据元定义的属性是否一致,所述合法性校验规则用于校验目标列数据的属性的取值是否合法。
可选的,所述合法性校验规则包括缺失值校验规则、重复值校验规则、异常值校验规则的中任一或组合。
可选的,在获取与所述数据元关联的转换型命名实体、校验型命名实体及解释型命名实体之前,还包括:
响应于用户在输出的命名实体配置界面中输入的命名实体名,生成对应的命名实体。
可选的,还包括:
响应于用户在输出的命名实体对应清洗规则配置界面中导入的、与命名实体对应的用于数据清洗的数据转换接口、数据校验接口及数据解释接口,生成与转换型命名实体、校验型命名实体及解释型命名实体分别对应的清洗规则。
本申请还提供一种业务数据清洗方法,应用于数据治理平台,所述数据治理平台包括数据清洗子系统、与所述数据清洗子系统对接的数据元管理子系统、与所述数据元管理子系统对接的命名实体管理子系统,所述方法包括:
数据清洗子系统从对接的业务系统中,获取待执行数据清洗的业务数据;
数据清洗子系统,确定数据元管理子系统中与所述业务数据关联的数据元;
数据清洗子系统,通过数据元管理子系统获取命名实体管理子系统中与所述数据元关联的转换型命名实体、校验型命名实体及解释型命名实体,并基于获取的转换型命名实体、校验型命名实体及解释型命名实体对所述业务数据执行数据清洗。
本申请还提供一种业务数据清洗装置,所述装置包括:
获取模块,从对接的业务系统中,获取待执行数据清洗的业务数据;
确定模块,确定与所述业务数据关联的数据元;
清洗模块,获取与所述数据元关联的转换型命名实体、校验型命名实体及解释型命名实体,并基于获取的转换型命名实体、校验型命名实体及解释型命名实体对所述业务数据执行数据清洗。
可选的,所述业务数据包括若干列数据;
所述确定模块进一步:
响应于用户在输出的业务数据与数据元关联界面的设置,确定与所述若干列数据分别关联的数据元。
可选的,所述转换型命名实体对应被预配置了用于执行数据转换的清洗规则,所述校验型命名实体对应被预配置了用于执行数据校验的清洗规则,所述解释型命名实体对应被预配置了用于执行数据解释的清洗规则;
所述清洗模块进一步:
获取与所述若干列数据数据分别关联的数据元;
获取与所述关联的数据元关联的转换型命名实体、校验型命名实体及解释型命名实体;
基于获取的所述关联的转换型命名实体、校验型命名实体及解释型命名实体分别对应的数据转换、数据校验及数据解释的清洗规则,对所述若干列数据按关联的数据元依次执行数据清洗。
可选的,所述用于执行数据校验的清洗规则包括真伪性校验规则、合法性校验规则中任一或组合;其中,所述真伪性校验规则用于校验目标列数据的属性与关联的目标数据元定义的属性是否一致,所述合法性校验规则用于校验目标列数据的属性的取值是否合法。
可选的,所述合法性校验规则包括缺失值校验规则、重复值校验规则、异常值校验规则的中任一或组合。
可选的,在获取与所述数据元关联的转换型命名实体、校验型命名实体及解释型命名实体之前,所述确定模块进一步:
响应于用户在输出的命名实体配置界面中输入的命名实体名,生成对应的命名实体。
可选的,所述确定模块进一步:
响应于用户在输出的命名实体对应清洗规则配置界面中导入的、与命名实体对应的用于数据清洗的数据转换接口、数据校验接口及数据解释接口,生成与转换型命名实体、校验型命名实体及解释型命名实体分别对应的清洗规则。
本申请还提供一种电子设备,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;
所述存储器中存储机器可读指令,所述处理器通过调用所述机器可读指令,执行上述的方法。
本申请还提供一种机器可读存储介质,所述机器可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,执行上述的方法。
通过以上实施例,从对接的业务系统中获取待执行数据清洗的业务数据;确定与所述业务数据关联的数据元;以及,获取与所述数据元关联的转换型命名实体、校验型命名实体及解释型命名实体,并基于获取的转换型命名实体、校验型命名实体及解释型命名实体对所述业务数据执行数据清洗。基于所见即所得的多个命名实体依次进行有序数据清洗,避免了用户进行繁琐的数据清洗配置,提高了数据清洗维护效率,并方便命名实体的积累和共享利用。
附图说明
图1是一示例性实施例提供的一种业务数据清洗方法的流程图;
图2是一示例性实施例提供的一种数据治理平台的系统架构图;
图3是一示例性实施例提供的一种电子设备的硬件结构图;
图4是一示例性实施例提供的一种业务数据清洗装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
为了使本技术领域的人员更好地理解本说明书实施例中的技术方案,下面先对本说明书实施例涉及的业务数据清洗的相关技术,进行简要说明。
本申请旨在提出一种,应用于数据治理平台的基于所见即所得的多个命名实体依次进行有序数据清洗的技术方案。
在实现时,数据治理平台从对接的业务系统中获取待执行数据清洗的业务数据;确定与所述业务数据关联的数据元;以及,获取与所述数据元关联的转换型命名实体、校验型命名实体及解释型命名实体,并基于获取的转换型命名实体、校验型命名实体及解释型命名实体对所述业务数据执行数据清洗。
在以上方案中,基于所见即所得的多个命名实体依次进行有序数据清洗,避免了用户进行繁琐的数据清洗配置,提高了数据清洗维护效率,并方便命名实体的积累和共享利用。
下面通过具体实施例并结合具体的应用场景对本申请进行描述。
请参见图1,图1是本申请一实施例提供的一种业务数据清洗方法的流程图,上述方法应用于数据治理平台,上述方法执行以下步骤:
步骤102、从对接的业务系统中,获取待执行数据清洗的业务数据。
步骤104、确定与所述业务数据关联的数据元。
步骤106、获取与所述数据元关联的转换型命名实体、校验型命名实体及解释型命名实体,并基于获取的转换型命名实体、校验型命名实体及解释型命名实体对所述业务数据执行数据清洗。
在本说明书中,上述数据治理平台,是指用于对获取的业务数据进行ETL(数据抽取、转换、装载)数据处理的机器或机器集群。
例如,在实际应用中,上述数据治理平台具体可以为部署在私网或公网中的ETL集群。
在本说明书中,上述业务数据,可以包括任何业务类型的业务数据。
在示出的一种实施方式中,上述业务数据可以包括用户身份数据;
其中,上述用户身份数据具体可以包括用户的身份证号、手机号码、固定电话号码、姓名、性别等信息。
在本说明书中,上述业务系统,可以包括持有上述用户身份数据的任何业务系统。
在示出的一种实施方式中,上述业务系统具体可以包括持有上述业务数据的业务系统。
例如,上述业务数据为上述用户身份数据为例,上述业务系统具体可以包括持有上述用户身份数据的电子政务系统;其中,该电子政务系统比如为公安电子政务系统、市民卡电子政务系统等。
当然,在实际应用中,上述业务数据也可以为电商数据,则上述业务系统为持有该电商数据的电商系统。
在本说明书中,上述数据治理平台包括数据清洗子系统、与上述数据清洗子系统对接的数据元管理子系统、与上述数据元管理子系统对接的命名实体管理子系统;
其中,上述数据清洗子系统具体可以为用于数据清洗的、基于Hadoop及MapReduce架构搭建的Hadoop集群;上述数据元管理子系统与上述数据清洗子系统对接通信,用于管理及维护与业务数据对应的一个或多个数据元;上述命名实体管理子系统与上述数据元管理子系统对接通信,用于管理及维护与数据元对应绑定的命名实体。
例如,请参见图2,图2是本申请一实施例提供的一种数据治理平台的系统架构图。
如图2所示,数据治理平台包括数据清洗子系统、与数据清洗子系统对接的数据元管理子系统、与数据元管理子系统对接的命名实体管理子系统;
其中,数据元管理子系统将获取的业务数据与数据元管理子系统中的数据元绑定,数据元管理子系统中的数据元与命名实体绑定;命名实体管理子系统中包括转换型命名实体、校验型命名实体及解释型命名实体,以及分别为转换型命名实体、校验型命名实体及解释型命名实体配置对应的清洗规则;
如图2中所示,在数据清洗子系统通过数据元管理子系统从命名实体管理子系统中针对与数据元关联的业务数据分别基于转换型命名实体执行数据转换,基于校验型命名实体执行数据校验,以及基于解释型命名实体执行数据解释,从而实现数据清洗子系统对业务数据依次执行包括数据转换、数据校验、数据解释的数据清洗。
为了方便理解,以下结合具体实施例进行详细描述。
在本说明书中,上述数据治理平台从对接的上述业务系统中,获取待执行数据清洗的业务数据。
以上述业务数据为上述用户身份数据为例,上述数据治理平台通过上述数据清洗子系统从对接的电子政务系统中,获取待执行数据清洗的数亿条用户身份数据。
在本说明书中,进一步地,上述数据治理平台确定与上述业务数据关联的数据元;
接着以上示例继续举例,上述数据清洗子系统,确定上述数据元管理子系统中与待执行数据清洗的数亿条用户身份数据关联的一个或多个数据元。
为了方便描述和理解,这里简单介绍下数据元。
数据元(Data Element),也称为数据元素,是用一组属性描述其定义、标识、表示和允许值的数据单元,在一定语境下,通常用于构建一个语义正确、独立且无歧义的特定概念语义的信息单元。数据元可以理解为数据的基本单元,将若干具有相关性的数据元按一定的次序组成一个整体结构即为数据模型。
在示出的一种实施方式中,在确定与上述业务数据关联的数据元的过程中,上述业务数据包括若干列数据,上述数据治理平台向用户输出的业务数据与数据元关联界面,并响应于用户在输出的业务数据与数据元关联界面的设置,确定与上述若干列数据分别关联的数据元。
例如,以上述业务数据为1亿条用户身份数据为例,每条用户身份数据包括用户的身份证号、手机号码、固定电话号码,则该1亿条用户身份数据包括3列数据,该3列数据具体包括1亿条身份证号数据、1亿条手机号码数据、1亿条固定电话号码数据。上述数据元管理子系统可以向用户输出的业务数据与数据元关联界面,用户可以在该界面选择设置将1亿条身份证号数据的列数据与预设的证件号数据元进行绑定,也可以选择设置将1亿条手机号码数据的列数据和1亿条固定电话号码数据,与预设的电话数据元进行绑定。也即,上述业务数据包括的若干列数据与数据元的绑定关系可以是一对一,也可以是多对一;进一步地,上述数据元管理子系统接收并获取于用户在输出的业务数据与数据元关联界面的设置,确定与该3列数据分别关联的数据元。
需要说明的是,与上述若干列数据分别关联的数据元在上述数据治理平台中可以被预先定义或者通过交互界面由用户进行定义设置,以及从上述数据治理平台从第三方权威标准系统(比如:从国家的权威标准系统或世界权威机构标准系统导入标准数据元)中导入。
在本说明书中,上述转换型命名实体对应被预配置了用于执行数据转换的清洗规则。
例如,证件号数据元关联的某一列数据是用户的身份证号数据,该身份证号数据具体可以包括一代身份证号(由15位数字组成),也可以包括二代身份证号(由18位数字组成);与证件号数据元关联的转换型命名实体具体可以为名字为“一代身份证转二代身份证”命名实体;其中,该“一代身份证转二代身份证”命名实体对应被预配置了用于将证件号数据元关联的身份证号数据中的一代身份证号转换为二代身份证号的数据转换清洗规则。
在本说明书中,上述校验型命名实体对应被预配置了用于执行数据校验的清洗规则。
接着以上示例继续举例,证件号数据元关联的某一列数据是用户的身份证号数据,与证件号数据元关联的校验型命名实体具体可以为名字为“二代身份证校验”命名实体;其中,该“二代身份证校验”命名实体对应被预配置了用于针对证件号数据元关联的身份证号数据(该身份证号数据已经过“一代身份证转二代身份证”命名实体执行数据转换都为二代身份证号)进行校验是否符合二代身份证标准的数据校验清洗规则。
在本说明书中,上述解释型命名实体对应被预配置了用于执行数据解释的清洗规则。
接着以上示例继续举例,证件号数据元关联的某一列数据是用户的身份证号数据,与证件号数据元关联的解释型命名实体具体可以为名字为“二代身份证信息展示”命名实体;其中,该“二代身份证信息展示”命名实体对应被预配置了用于针对证件号数据元关联的身份证号数据(该身份证号数据已经过“二代身份证校验”命名实体执行数据校验,都为合法的二代身份证号)进行按二代身份证标准进行数据解释的数据解释清洗规则。
需要说明的是,上述转换型命名实体、上述校验型命名实体及上述解释型命名实体都易于用户基于命名实体的命名就可以直观理解。
在示出的一种实施方式中,在获取与上述数据元关联的转换型命名实体、校验型命名实体及解释型命名实体之前,上述数据治理平台响应于用户在输出的命名实体配置界面中输入的命名实体名,生成对应的命名实体。
例如,上述数据治理平台中的命名实体管理子系统可以响应于用户在输出的命名实体配置界面中输入的命名实体名,生成对应的命名实体,具体比如:在针对公安业务数据中身份证数据进行数据清洗时,业务用户可以在命名实体管理子系统输出的命名实体配置界面中输入的待创建的命名实体名:“一代身份证转二代身份证”,命名实体管理子系统在后台数据库中创建生成对应的“一代身份证转二代身份证”命名实体并对应设置及绑定相关的执行数据转换的清洗规则。依次类推,“二代身份证校验”命名实体和“二代身份证信息展示”命名实体的创建过程类似,这里不再赘述。
在示出的一种实施方式中,在响应于用户在输出的命名实体配置界面中输入的命名实体名,生成对应的命名实体后,上述数据治理平台响应于用户在输出的命名实体对应清洗规则配置界面中导入的、与命名实体对应的用于数据清洗的数据转换接口、数据校验接口及数据解释接口,生成与转换型命名实体、校验型命名实体及解释型命名实体分别对应的清洗规则。
接着以上示例继续举例,在命名实体管理子系统在后台数据库中创建生成“一代身份证转二代身份证”命名实体(转换型命名实体)、“二代身份证校验”命名实体(校验型命名实体)、“二代身份证信息展示”命名实体(解释型命名实体)后,命名实体管理子系统可以向用户(比如:数据管理员)输出的命名实体对应清洗规则配置界面,在该清洗规则配置界面中,数据管理员可以分别导入与“一代身份证转二代身份证”命名实体对应的用于数据转换的数据转换接口、与“二代身份证校验”命名实体对应的用于数据校验的数据校验接口,与“二代身份证信息展示”命名实体对应的用于数据解释的数据解释接口,将导入的数据转换接口、数据校验接口、数据解释接口分别作为各个命名实体对应的清洗规则;
其中,在实现时,该数据转换接口具体可以为基于SQL语言构建的SQL函数或者基于JavaScript语言构建的JS函数;该数据校验接口具体可以基于正则表达式进行构建;该数据解释接口具体可以将身份证号数据按二代身份证标准进行数据解释并通过界面等方式向用户输出展示或者通过命令行等方式被用户查询获取。比如:二代身份证号为18位数字,每位数字代表不同的含义,针对一个人的二代身份证号码,“二代身份证校验”命名实体可以详细解析出该人的出生地,出生年月等信息。
在本说明书中,在确定与上述业务数据关联的数据元后,上述数据治理平台获取与上述数据元关联的转换型命名实体、校验型命名实体及解释型命名实体,并基于获取的转换型命名实体、校验型命名实体及解释型命名实体对上述业务数据执行数据清洗。
在示出的一种实施方式中,上述数据治理平台获取与上述业务数据中的若干列数据数据分别关联的数据元,并获取与上述关联的数据元关联的转换型命名实体、校验型命名实体及解释型命名实体,基于获取的上述关联的转换型命名实体、校验型命名实体及解释型命名实体分别对应预配的数据转换、数据校验及数据解释的清洗规则,对上述若干列数据按关联的数据元依次执行数据清洗。
接以上示例继续举例,以上述业务数据为1亿条用户身份数据为例,每条用户身份数据包括用户的身份证号,该1亿条用户身份数据包括2列数据,该2列数据具体包括1亿条身份证号数据。1亿条身份证号数据关联的数据元为证件号数据元、1亿条电话号码数据关联的数据元为电话数据元;其中,证件号数据元关联的命名实体包括“一代身份证转二代身份证”命名实体、“二代身份证校验”命名实体、“二代身份证信息展示”命名实体。上述数据清洗子系统首先通过数据元管理子系统获取命名实体管理子系统中基于获取的“一代身份证转二代身份证”命名实体对应预配的数据转换的清洗规则对1亿条身份证号数据进行数据转换,然后再基于获取的“二代身份证校验”命名实体对应预配的数据校验的清洗规则对数据转换后的1亿条身份证号数据进行数据校验,最后,基于获取的“二代身份证信息展示”命名实体对应预配的数据解释的清洗规则对数据校验后的1亿条身份证号数据进行数据解释。
当然,在实际应用中,上述命名实体的总数小于上述数据元的总数。比如:在电子政务业务数据清洗过程中,实际涉及的数据元的总数至少为数万个及以上的数量级,而与该数万个关联的命名实体的总数在数百的数量级,也即,命名实体的总数小于数据元的总数。
需要说明的是,由于上述数据治理平台中除了包括数据清洗子系统和数据元管理子系统外,还包括命名实体管理子系统用于命名实体的管理和维护。因此,通过数据元管理子系统进行数据元的单独配置及维护,以及通过命名实体管理子系统中的命名实体的单独配置及维护,并通过命名实体作为中间桥梁与清洗规则与数据元分别关联,可以实现数据治理平台的数据清洗的数据元与清洗规则的解耦(原有方案中,数据元与清洗规则强耦合),普通的业务用户无需手工配置和维护与数据元对应的清洗规则,仅需选择关联与数据元对应的命名实体,而针对与命名实体对应的复杂的基于正则表达式构建的清洗规则,可以由专业的数据管理员开发及设置。
在本说明书中,上述用于执行数据校验的清洗规则包括真伪性校验规则、合法性校验规则中任一或组合;其中,上述真伪性校验规则用于校验目标列数据的属性与关联的目标数据元定义的属性是否一致,上述合法性校验规则用于校验目标列数据的属性的取值是否合法。
在示出的一种实施方式中,上述合法性校验规则包括缺失值校验规则、重复值校验规则、异常值校验规则的中任一或组合。
接着以上示例继续举例,上述数据治理平台的业务人员可以通过上述数据治理平台提供的配置界面配置“二代身份证校验”命名实体,而上述数据治理平台的开发人员可以通过上述数据治理平台提供的配置界面,针对已配置的“二代身份证校验”命名实体开发及上传各个命名实体分别对应预配的清洗规则。
该清洗规则具体可以包括真伪性校验规则、合法性校验规则中任一或组合;比如:在真伪性校验规则用于校验1亿条身份证号数据的属性与关联的“二代身份证校验”命名实体定义的属性是否一致时,如果该1亿条身份证号的某条数据符合“二代身份证校验”命名实体的真伪性校验规则,比如:校验身份证号码是否为18位数字,各个位数字是否存在对应的户籍地、性别是否合法、出生日期是否合法等。
需要说明的是,使用数据治理平台的业务人员无需构建和理解复杂的正则表达式,仅需通过将清晰易懂的命名实体与数据元进行关联,从而对业务数据进行数据清洗,一方面,提高了数据清洗维护效率;另一方面,随着业务扩展,命名实体在数据治理平台不断增多,可以方便命名实体的积累和共享利用。比如:在公安业务数据中涉及电话号码数据清洗、身份证号码数据清洗,在市民卡业务数据中也涉及电话号码数据清洗、身份证号码数据清洗,可以分别创建与电话号码数据清洗、身份证号码数据清洗相对应的转换型命名实体、校验型命名实体及解释型命名实体,并同时共享应用在公安业务和市民卡业务的数据清洗场景中。
在示出的一种实施方式中,上述合法性校验规则可以包括缺失值校验规则、重复值校验规则、异常值校验规则的中任一或组合;
其中,上述缺失值校验规则,是指针对目标数据的值缺失时的校验规则,具体可以包括:针对值缺失的目标数据进行计算填充(比如:取均值、取中位数、取众数等)、获取其它已知字段补齐、取固定默认值填充等;
上述重复值校验规则,是指针对值重复的目标数据进行去重或标记的校验规则;
上述异常值校验规则,是指针对目标数据的值、表达格式出现错误或异常时的校验规则,比如:目标数据为年龄时,年龄的值出现负值或过高值时,比如:目标数据为年龄时,年龄的值出现负值或过高值时;又比如:目标数据的时间、日期、数值、全半角等显示格式不一致;再比如:目标数据的内容应该是数值,而目标数据的实际内容却是字符串。
在本说明书中,上述数据治理平台可以基于上述校验型命名实体对应的真伪性校验规则及上述合法性校验规则,对上述业务数据中的若干列数据按关联的数据元分别执行数据校验清洗,得到数据校验都为合法的清洗后的业务数据。
例如,以电子政务场景为例,上述数据治理平台可以针对从公安、市民卡中心、劳动保障局的业务系统中获取的业务数据,基于关联的数据元及命名实体进行数据清洗,去除原始数据中的脏数据,得到格式统一、标准有效的数据校验后的清洗数据。
在本说明书中,进一步地,上述数据治理平台可以基于清洗后的数据校验为合法的上述业务数据进一步基于上述解释型命名实体对应的数据解释处理。
例如,以业务数据为身份证号码数据为例,针对清洗后的数据校验为合法的身份证号码数据,上述数据治理平台可以基于“二代身份证信息展示”命名实体进一步详细解析出每个身份证号码对应个人的出生地,出生年月等信息。后续在用户查看该数据时,可以通过悬浮框等手段,将该解释信息一并给用户展示出来。
在以上技术方案中,从对接的业务系统中获取待执行数据清洗的业务数据;确定与所述业务数据关联的数据元;以及,获取与所述数据元关联的转换型命名实体、校验型命名实体及解释型命名实体,并基于获取的转换型命名实体、校验型命名实体及解释型命名实体对所述业务数据执行数据清洗。基于所见即所得的多个命名实体依次进行有序数据清洗,避免了用户进行繁琐的数据清洗配置,提高了数据清洗维护效率,并方便命名实体的积累和共享利用。
与上述方法实施例相对应,本申请还提供了业务数据清洗装置的实施例。
与上述方法实施例相对应,本说明书还提供了一种业务数据清洗装置的实施例。本说明书的业务数据清洗装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本说明书的业务数据清洗装置所在电子设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的电子设备通常根据该电子设备的实际功能,还可以包括其他硬件,对此不再赘述。
图4是本说明书一示例性实施例示出的一种业务数据清洗装置的框图。
请参见图4,所述业务数据清洗装置40可以应用于如前图3所示的电子设备,所述装置包括:
获取模块401,从对接的业务系统中,获取待执行数据清洗的业务数据;
确定模块402,确定与所述业务数据关联的数据元;
清洗模块403,获取与所述数据元关联的转换型命名实体、校验型命名实体及解释型命名实体,并基于获取的转换型命名实体、校验型命名实体及解释型命名实体对所述业务数据执行数据清洗。
在本实施例中,所述业务数据包括若干列数据;
所述确定模块402进一步:
响应于用户在输出的业务数据与数据元关联界面的设置,确定与所述若干列数据分别关联的数据元。
在本实施例中,所述转换型命名实体对应被预配置了用于执行数据转换的清洗规则,所述校验型命名实体对应被预配置了用于执行数据校验的清洗规则,所述解释型命名实体对应被预配置了用于执行数据解释的清洗规则;
所述清洗模块403进一步:
获取与所述若干列数据数据分别关联的数据元;
获取与所述关联的数据元关联的转换型命名实体、校验型命名实体及解释型命名实体;
基于获取的所述关联的转换型命名实体、校验型命名实体及解释型命名实体分别对应的数据转换、数据校验及数据解释的清洗规则,对所述若干列数据按关联的数据元依次执行数据清洗。
在本实施例中,所述用于执行数据校验的清洗规则包括真伪性校验规则、合法性校验规则中任一或组合;其中,所述真伪性校验规则用于校验目标列数据的属性与关联的目标数据元定义的属性是否一致,所述合法性校验规则用于校验目标列数据的属性的取值是否合法。
在本实施例中,所述合法性校验规则包括缺失值校验规则、重复值校验规则、异常值校验规则的中任一或组合。
在本实施例中,在获取与所述数据元关联的转换型命名实体、校验型命名实体及解释型命名实体之前,所述确定模块402进一步:
响应于用户在输出的命名实体配置界面中输入的命名实体名,生成对应的命名实体。
在本实施例中,所述确定模块402进一步:
响应于用户在输出的命名实体对应清洗规则配置界面中导入的、与命名实体对应的用于数据清洗的数据转换接口、数据校验接口及数据解释接口,生成与转换型命名实体、校验型命名实体及解释型命名实体分别对应的清洗规则。
上述实施例阐明的装置、装置、模块或模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
与上述方法实施例相对应,本说明书还提供了一种电子设备的实施例。该电子设备包括:处理器以及用于存储机器可执行指令的存储器;其中,处理器和存储器通常通过内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与业务数据清洗的控制逻辑对应的机器可执行指令,所述处理器被促使:
从对接的业务系统中,获取待执行数据清洗的业务数据;
确定与所述业务数据关联的数据元;
获取与所述数据元关联的转换型命名实体、校验型命名实体及解释型命名实体,并基于获取的转换型命名实体、校验型命名实体及解释型命名实体对所述业务数据执行数据清洗。
在本实施例中,所述业务数据包括若干列数据,通过读取并执行所述存储器存储的与业务数据清洗的控制逻辑对应的机器可执行指令,所述处理器被促使:
响应于用户在输出的业务数据与数据元关联界面的设置,确定与所述若干列数据分别关联的数据元。
在本实施例中,所述转换型命名实体对应被预配置了用于执行数据转换的清洗规则,所述校验型命名实体对应被预配置了用于执行数据校验的清洗规则,所述解释型命名实体对应被预配置了用于执行数据解释的清洗规则,通过读取并执行所述存储器存储的与业务数据清洗的控制逻辑对应的机器可执行指令,所述处理器被促使:
获取与所述若干列数据数据分别关联的数据元;
获取与所述关联的数据元关联的转换型命名实体、校验型命名实体及解释型命名实体;
基于获取的所述关联的转换型命名实体、校验型命名实体及解释型命名实体分别对应的数据转换、数据校验及数据解释的清洗规则,对所述若干列数据按关联的数据元依次执行数据清洗。
在本实施例中,所述用于执行数据校验的清洗规则包括真伪性校验规则、合法性校验规则中任一或组合;其中,所述真伪性校验规则用于校验目标列数据的属性与关联的目标数据元定义的属性是否一致,所述合法性校验规则用于校验目标列数据的属性的取值是否合法。
在本实施例中,所述合法性校验规则包括缺失值校验规则、重复值校验规则、异常值校验规则的中任一或组合。
在本实施例中,在获取与所述数据元关联的转换型命名实体、校验型命名实体及解释型命名实体之前,还包括:
响应于用户在输出的命名实体配置界面中输入的命名实体名,生成对应的命名实体。
在本实施例中,还包括:
响应于用户在输出的命名实体对应清洗规则配置界面中导入的、与命名实体对应的用于数据清洗的数据转换接口、数据校验接口及数据解释接口,生成与转换型命名实体、校验型命名实体及解释型命名实体分别对应的清洗规则。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。
Claims (9)
1.一种业务数据清洗方法,所述方法包括:
从对接的业务系统中,获取待执行数据清洗的业务数据,所述业务数据包括若干列数据;
响应于业务用户在输出的命名实体配置界面中输入的命名实体名,生成对应的命名实体;
获取与所述若干列数据分别关联的数据元,以及与所述数据元关联的转换型命名实体、校验型命名实体及解释型命名实体;其中,所述数据元与转换型命名实体、校验型命名实体及解释型命名实体的关联方法包括:针对每一列的数据元,所述业务用户从预先配置的命名实体中选择转换型命名实体、校验型命名实体及解释型命名实体与所述数据元进行关联;所述预先配置的命名实体对应由专业用户配置的清洗规则;
基于获取的所述关联的转换型命名实体、校验型命名实体及解释型命名实体分别对应的数据转换、数据校验及数据解释的清洗规则,对所述若干列数据按关联的数据元依次执行数据清洗。
2.根据权利要求1所述的方法,所述业务数据包括若干列数据;
确定与所述业务数据关联的数据元,包括:
响应于用户在输出的业务数据与数据元关联界面的设置,确定与所述若干列数据分别关联的数据元。
3.根据权利要求1所述的方法,用于执行数据校验的清洗规则包括真伪性校验规则、合法性校验规则中任一或组合;其中,所述真伪性校验规则用于校验目标列数据的属性与关联的目标数据元定义的属性是否一致,所述合法性校验规则用于校验目标列数据的属性的取值是否合法。
4.根据权利要求3所述的方法,所述合法性校验规则包括缺失值校验规则、重复值校验规则、异常值校验规则的中任一或组合。
5.根据权利要求1所述的方法,还包括:
响应于用户在输出的命名实体对应清洗规则配置界面中导入的、与命名实体对应的用于数据清洗的数据转换接口、数据校验接口及数据解释接口,生成与转换型命名实体、校验型命名实体及解释型命名实体分别对应的清洗规则。
6.一种业务数据清洗方法,应用于数据治理平台,所述数据治理平台包括数据清洗子系统、与所述数据清洗子系统对接的数据元管理子系统、与所述数据元管理子系统对接的命名实体管理子系统,所述方法包括:
数据清洗子系统从对接的业务系统中,获取待执行数据清洗的业务数据,所述业务数据包括若干列数据;
数据清洗子系统,响应于业务用户在输出的命名实体配置界面中输入的命名实体名,生成对应的命名实体;获取与所述若干列数据分别关联的数据元,以及与所述数据元关联的转换型命名实体、校验型命名实体及解释型命名实体;其中,所述数据元与转换型命名实体、校验型命名实体及解释型命名实体的关联方法包括:针对每一列的数据元,所述业务用户从预先配置的命名实体中选择转换型命名实体、校验型命名实体及解释型命名实体与所述数据元进行关联;所述预先配置的命名实体对应由专业用户配置的清洗规则;
数据清洗子系统,通过数据元管理子系统基于获取的所述关联的转换型命名实体、校验型命名实体及解释型命名实体分别对应的数据转换、数据校验及数据解释的清洗规则,对所述若干列数据按关联的数据元依次执行数据清洗。
7.一种业务数据清洗装置,所述装置包括:
获取模块,从对接的业务系统中,获取待执行数据清洗的业务数据,所述业务数据包括若干列数据;
确定模块,响应于业务用户在输出的命名实体配置界面中输入的命名实体名,生成对应的命名实体;获取与所述若干列数据分别关联的数据元,以及与所述数据元关联的转换型命名实体、校验型命名实体及解释型命名实体;其中,所述数据元与转换型命名实体、校验型命名实体及解释型命名实体的关联方法包括:针对每一列的数据元,所述业务用户从预先配置的命名实体中选择转换型命名实体、校验型命名实体及解释型命名实体与所述数据元进行关联;所述预先配置的命名实体对应由专业用户配置的清洗规则;
清洗模块,基于获取的所述关联的转换型命名实体、校验型命名实体及解释型命名实体分别对应的数据转换、数据校验及数据解释的清洗规则,对所述若干列数据按关联的数据元依次执行数据清洗。
8.一种电子设备,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;
所述存储器中存储机器可读指令,所述处理器通过调用所述机器可读指令,执行如权利要求1至6任一项所述的方法。
9.一种机器可读存储介质,所述机器可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,实现权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011349997.3A CN112256688B (zh) | 2020-11-26 | 2020-11-26 | 业务数据清洗方法、装置、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011349997.3A CN112256688B (zh) | 2020-11-26 | 2020-11-26 | 业务数据清洗方法、装置、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112256688A CN112256688A (zh) | 2021-01-22 |
CN112256688B true CN112256688B (zh) | 2024-07-26 |
Family
ID=74225078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011349997.3A Active CN112256688B (zh) | 2020-11-26 | 2020-11-26 | 业务数据清洗方法、装置、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112256688B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239581A (zh) * | 2017-07-07 | 2017-10-10 | 小草数语(北京)科技有限公司 | 数据清洗方法及装置 |
CN111639066A (zh) * | 2020-05-14 | 2020-09-08 | 杭州数梦工场科技有限公司 | 一种数据清洗的方法和装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107229662B (zh) * | 2016-03-25 | 2022-02-25 | 阿里巴巴集团控股有限公司 | 数据清洗方法和装置 |
US11003655B2 (en) * | 2016-09-22 | 2021-05-11 | Hartford Fire Insurance Company | System for uploading information into a metadata repository |
US10997218B2 (en) * | 2017-02-23 | 2021-05-04 | Innoplexus Ag | Method and system for managing associations between entity records |
CN109684313A (zh) * | 2018-12-14 | 2019-04-26 | 浪潮软件集团有限公司 | 一种数据清洗加工方法及系统 |
CN109977110B (zh) * | 2019-04-28 | 2020-12-04 | 杭州数梦工场科技有限公司 | 数据清洗方法、装置及设备 |
CN110727668B (zh) * | 2019-09-30 | 2022-03-01 | 北京百度网讯科技有限公司 | 数据清洗方法及装置 |
CN111858567A (zh) * | 2020-06-18 | 2020-10-30 | 南京市江宁区信息化管理服务中心 | 一种通过标准数据元进行政务数据清洗的方法和系统 |
-
2020
- 2020-11-26 CN CN202011349997.3A patent/CN112256688B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239581A (zh) * | 2017-07-07 | 2017-10-10 | 小草数语(北京)科技有限公司 | 数据清洗方法及装置 |
CN111639066A (zh) * | 2020-05-14 | 2020-09-08 | 杭州数梦工场科技有限公司 | 一种数据清洗的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112256688A (zh) | 2021-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107798038B (zh) | 数据响应方法及数据响应设备 | |
CN111427971B (zh) | 用于计算机系统的业务建模方法、装置、系统和介质 | |
CN111046237B (zh) | 用户行为数据处理方法、装置、电子设备及可读介质 | |
CN110162662A (zh) | 一种块链式账本中数据记录的验证方法、装置及设备 | |
CN108959430B (zh) | 广告推广数据获取方法、装置及设备 | |
Kitchin | Big data and official statistics: Opportunities, challenges and risks | |
CN113946690A (zh) | 潜在客户挖掘方法、装置、电子设备及存储介质 | |
CN113762421B (zh) | 分类模型的训练方法、流量分析方法、装置及设备 | |
WO2023098462A1 (en) | Improving performance of sql execution sequence in production database instance | |
CN112163214A (zh) | 数据访问的方法和装置 | |
CN109271564A (zh) | 保单查询方法及设备 | |
CN111324787B (zh) | 区块链浏览器中区块链数据的展现方法和装置 | |
CN112328575B (zh) | 数据资产血缘生成方法、装置、电子设备 | |
CN117331956A (zh) | 任务处理方法、装置、计算机设备及存储介质 | |
CN112053058A (zh) | 指标模型的生成方法及装置 | |
CN112256688B (zh) | 业务数据清洗方法、装置、电子设备 | |
CN112256689A (zh) | 业务数据清洗方法、装置、电子设备 | |
CN115878655A (zh) | 数据操作方法、装置、计算机设备和存储介质 | |
CN111857883B (zh) | 页面数据校验方法、装置、电子设备及存储介质 | |
US20220374548A1 (en) | Generating a compliance report of data processing activity | |
CN117350831A (zh) | 跨境场景下数据处理方法、装置、计算机设备和存储介质 | |
CN117216164A (zh) | 金融数据同步处理方法、装置、设备、介质和程序产品 | |
CN117743458A (zh) | 数据同步方法及装置、电子设备及计算机可读存储介质 | |
CN117495518A (zh) | 银行积分系统的物品管理方法、装置、设备和存储介质 | |
CN110751565A (zh) | 数据计算方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |