CN112256689A - 业务数据清洗方法、装置、电子设备 - Google Patents
业务数据清洗方法、装置、电子设备 Download PDFInfo
- Publication number
- CN112256689A CN112256689A CN202011350023.7A CN202011350023A CN112256689A CN 112256689 A CN112256689 A CN 112256689A CN 202011350023 A CN202011350023 A CN 202011350023A CN 112256689 A CN112256689 A CN 112256689A
- Authority
- CN
- China
- Prior art keywords
- data
- cleaning
- named entity
- service
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 134
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000014509 gene expression Effects 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 7
- 238000012423 maintenance Methods 0.000 abstract description 5
- 238000007726 management method Methods 0.000 description 35
- 238000005406 washing Methods 0.000 description 11
- 238000013523 data management Methods 0.000 description 8
- 230000002159 abnormal effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
公开一种业务数据清洗方法、装置、电子设备及机器可读存储介质。在本申请中,从对接的业务系统中获取待执行数据清洗的业务数据;确定与所述业务数据关联的数据元;以及,获取与所述数据元关联的至少一个命名实体,并基于获取的至少一个命名实体对所述业务数据执行数据清洗。基于所见即所得的命名实体进行数据清洗,避免了用户进行繁琐的数据清洗配置,提高了数据清洗维护效率,并方便命名实体的积累和共享利用。
Description
技术领域
本申请一个或多个实施例涉及计算机应用技术领域,尤其涉及业务数据清洗方法、装置、电子设备及机器可读存储介质。
背景技术
随着IT技术的发展和普及,各行各业累积的业务数据越来越多。当需要对累积的海量业务数据通过数据治理平台进行数据清洗时,通常需要数据治理平台的开发人员在数据治理平台后台配置复杂的正则表达式用于数据清洗。然而,正则表达式通常比较复杂晦涩,普通用户难以理解和使用,致使数据清洗时配置及维护的效率极为低下。比如:电子政务系统中的公安数据涉及待数据清洗的数据元的个数数万以万计,为每个数据元配置及维护复杂的正则表达式,极其复杂且难于管理及维护。
发明内容
本申请提供一种业务数据清洗方法,所述方法包括:
从对接的业务系统中,获取待执行数据清洗的业务数据;
确定与所述业务数据关联的数据元;
获取与所述数据元关联的至少一个命名实体,并基于获取的至少一个命名实体对所述业务数据执行数据清洗。
可选的,所述业务数据包括若干列数据;
所述确定与所述业务数据关联的数据元,包括:
响应于用户在输出的业务数据与数据元关联界面的设置,确定与所述若干列数据分别关联的数据元。
可选的,所述命名实体对应被预配置了用于执行数据清洗的清洗规则;
所述获取与所述数据元关联的至少一个命名实体,并基于获取的至少一个命名实体对所述业务数据执行数据清洗,包括:
获取与所述若干列数据数据分别关联的数据元;
获取与所述关联的数据元关联的至少一个命名实体;
基于获取的所述关联的命名实体对应的清洗规则,对所述若干列数据按关联的数据元分别执行数据清洗。
可选的,所述清洗规则包括真伪性校验规则、合法性校验规则中任一或组合;其中,所述真伪性校验规则用于校验目标列数据的属性与关联的目标数据元定义的属性是否一致,所述合法性校验规则用于校验目标列数据的属性的取值是否合法。
可选的,所述合法性校验规则包括缺失值校验规则、重复值校验规则、异常值校验规则的中任一或组合。
可选的,在获取与所述数据元关联的至少一个命名实体之前,还包括:
响应于用户在输出的命名实体配置界面中输入的命名实体名,生成对应的命名实体。
可选的,还包括:
响应于用户在输出的命名实体对应清洗规则配置界面中导入的、与命名实体对应的用于数据清洗的正则表达式,生成与命名实体对应的清洗规则。
本申请还提供一种业务数据清洗方法,应用于数据治理平台,所述数据治理平台包括数据清洗子系统、与所述数据清洗子系统对接的数据元管理子系统、与所述数据元管理子系统对接的命名实体管理子系统,所述方法包括:
数据清洗子系统从对接的业务系统中,获取待执行数据清洗的业务数据;
数据清洗子系统,确定数据元管理子系统中与所述业务数据关联的数据元;
数据清洗子系统,通过数据元管理子系统获取命名实体管理子系统中与所述数据元关联的至少一个命名实体,并基于获取的至少一个命名实体对所述业务数据执行数据清洗。
本申请还提供一种业务数据清洗装置,所述装置包括:
获取模块,从对接的业务系统中,获取待执行数据清洗的业务数据;
确定模块,确定与所述业务数据关联的数据元;
清洗模块,获取与所述数据元关联的至少一个命名实体,并基于获取的至少一个命名实体对所述业务数据执行数据清洗。
可选的,所述业务数据包括若干列数据;
所述确定模块进一步:
响应于用户在输出的业务数据与数据元关联界面的设置,确定与所述若干列数据分别关联的数据元。
可选的,所述命名实体对应被预配置了用于执行数据清洗的清洗规则;
所述清洗模块进一步:
获取与所述若干列数据数据分别关联的数据元;
获取与所述关联的数据元关联的至少一个命名实体;
基于获取的所述关联的命名实体对应的清洗规则,对所述若干列数据按关联的数据元分别执行数据清洗。
可选的,所述清洗规则包括真伪性校验规则、合法性校验规则中任一或组合;其中,所述真伪性校验规则用于校验目标列数据的属性与关联的目标数据元定义的属性是否一致,所述合法性校验规则用于校验目标列数据的属性的取值是否合法。
可选的,所述合法性校验规则包括缺失值校验规则、重复值校验规则、异常值校验规则的中任一或组合。
可选的,在获取与所述数据元关联的至少一个命名实体之前,所述确定模块进一步:
响应于用户在输出的命名实体配置界面中输入的命名实体名,生成对应的命名实体。
可选的,所述确定模块进一步:
响应于用户在输出的命名实体对应清洗规则配置界面中导入的、与命名实体对应的用于数据清洗的正则表达式,生成与命名实体对应的清洗规则。
本申请还提供一种电子设备,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;
所述存储器中存储机器可读指令,所述处理器通过调用所述机器可读指令,执行上述的方法。
本申请还提供一种机器可读存储介质,所述机器可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,执行上述的方法。
通过以上实施例,从对接的业务系统中获取待执行数据清洗的业务数据;确定与所述业务数据关联的数据元;以及,获取与所述数据元关联的至少一个命名实体,并基于获取的至少一个命名实体对所述业务数据执行数据清洗。基于所见即所得的命名实体进行数据清洗,避免了用户进行繁琐的数据清洗配置,提高了数据清洗维护效率,并方便命名实体的积累和共享利用。
附图说明
图1是一示例性实施例提供的一种业务数据清洗方法的流程图;
图2是一示例性实施例提供的一种数据治理平台的系统架构图;
图3是一示例性实施例提供的一种电子设备的硬件结构图;
图4是一示例性实施例提供的一种业务数据清洗装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
为了使本技术领域的人员更好地理解本说明书实施例中的技术方案,下面先对本说明书实施例涉及的业务数据清洗的相关技术,进行简要说明。
本申请旨在提出一种,应用于数据治理平台的基于所见即所得的命名实体进行数据清洗的技术方案。
在实现时,数据治理平台从对接的业务系统中获取待执行数据清洗的业务数据;确定与所述业务数据关联的数据元;以及,获取与所述数据元关联的至少一个命名实体,并基于获取的至少一个命名实体对所述业务数据执行数据清洗。
在以上方案中,基于所见即所得的命名实体进行数据清洗,避免了用户进行繁琐的数据清洗配置,提高了数据清洗维护效率,并方便命名实体的积累和共享利用。
下面通过具体实施例并结合具体的应用场景对本申请进行描述。
请参见图1,图1是本申请一实施例提供的一种业务数据清洗方法的流程图,上述方法应用于数据治理平台,上述方法执行以下步骤:
步骤102、从对接的业务系统中,获取待执行数据清洗的业务数据。
步骤104、确定与所述业务数据关联的数据元。
步骤106、获取与所述数据元关联的至少一个命名实体,并基于获取的至少一个命名实体对所述业务数据执行数据清洗。
在本说明书中,上述数据治理平台,是指用于对获取的业务数据进行ETL(数据抽取、转换、装载)数据处理的机器或机器集群。
例如,在实际应用中,上述数据治理平台具体可以为部署在私网或公网中的ETL集群。
在本说明书中,上述业务数据,可以包括任何业务类型的业务数据。
在示出的一种实施方式中,上述业务数据可以包括用户身份数据;
其中,上述用户身份数据具体可以包括用户的身份证号、手机号码、固定电话号码、姓名、性别等信息。
在本说明书中,上述业务系统,可以包括持有上述用户身份数据的任何业务系统。
在示出的一种实施方式中,上述业务系统具体可以包括持有上述业务数据的业务系统。
例如,上述业务数据为上述用户身份数据为例,上述业务系统具体可以包括持有上述用户身份数据的电子政务系统;其中,该电子政务系统比如为公安电子政务系统、市民卡电子政务系统等。
当然,在实际应用中,上述业务数据也可以为电商数据,则上述业务系统为持有该电商数据的电商系统。
在本说明书中,上述数据治理平台包括数据清洗子系统、与上述数据清洗子系统对接的数据元管理子系统、与上述数据元管理子系统对接的命名实体管理子系统;
其中,上述数据清洗子系统具体可以为用于数据清洗的、基于Hadoop及MapReduce架构搭建的Hadoop集群;上述数据元管理子系统与上述数据清洗子系统对接通信,用于管理及维护与业务数据对应的一个或多个数据元;上述命名实体管理子系统与上述数据元管理子系统对接通信,用于管理及维护与数据元对应绑定的命名实体。
例如,请参见图2,图2是本申请一实施例提供的一种数据治理平台的系统架构图。
如图2所示,数据治理平台包括数据清洗子系统、与数据清洗子系统对接的数据元管理子系统、与数据元管理子系统对接的命名实体管理子系统;
其中,数据元管理子系统将获取的业务数据与数据元管理子系统中的数据元绑定,数据元管理子系统中的数据元与命名实体绑定;命名实体管理子系统中包括命名实体,以及为命名实体配置对应的清洗规则;
如图2中所示,在数据清洗子系统通过数据元管理子系统从命名实体管理子系统中获取用于业务数据执行数据清洗的清洗规则后(如图2中所示中的业务数据->数据元->命名实体->清洗规则的箭头),数据清洗子系统针对业务数据执行数据清洗。
为了方便理解,以下结合具体实施例进行详细描述。
在本说明书中,上述数据治理平台从对接的上述业务系统中,获取待执行数据清洗的业务数据。
以上述业务数据为上述用户身份数据为例,上述数据治理平台通过上述数据清洗子系统从对接的电子政务系统中,获取待执行数据清洗的数亿条用户身份数据。
在本说明书中,进一步地,上述数据治理平台确定与上述业务数据关联的数据元;
接着以上示例继续举例,上述数据清洗子系统,确定上述数据元管理子系统中与待执行数据清洗的数亿条用户身份数据关联的一个或多个数据元。
为了方便描述和理解,这里简单介绍下数据元。
数据元(Data Element),也称为数据元素,是用一组属性描述其定义、标识、表示和允许值的数据单元,在一定语境下,通常用于构建一个语义正确、独立且无歧义的特定概念语义的信息单元。数据元可以理解为数据的基本单元,将若干具有相关性的数据元按一定的次序组成一个整体结构即为数据模型。
在示出的一种实施方式中,在确定与上述业务数据关联的数据元的过程中,上述业务数据包括若干列数据,上述数据治理平台向用户输出的业务数据与数据元关联界面,并响应于用户在输出的业务数据与数据元关联界面的设置,确定与上述若干列数据分别关联的数据元。
例如,以上述业务数据为1亿条用户身份数据为例,每条用户身份数据包括用户的身份证号、手机号码、固定电话号码,则该1亿条用户身份数据包括3列数据,该3列数据具体包括1亿条身份证号数据、1亿条手机号码数据、1亿条固定电话号码数据。上述数据元管理子系统可以向用户输出的业务数据与数据元关联界面,用户可以在该界面选择设置将1亿条身份证号数据的列数据与预设的证件号数据元进行绑定,也可以选择设置将1亿条手机号码数据的列数据和1亿条固定电话号码数据,与预设的电话数据元进行绑定。也即,上述业务数据包括的若干列数据与数据元的绑定关系可以是一对一,也可以是多对一;进一步地,上述数据元管理子系统接收并获取于用户在输出的业务数据与数据元关联界面的设置,确定与该3列数据分别关联的数据元。
需要说明的是,与上述若干列数据分别关联的数据元在上述数据治理平台中可以被预先定义或者通过交互界面由用户进行定义设置,以及从上述数据治理平台从第三方权威标准系统(比如:从国家的权威标准系统或世界权威机构标准系统导入标准数据元)中导入。
在本说明书中,上述命名实体对应被预配置了用于执行数据清洗的清洗规则;其中,上述命名实体易于用户基于命名实体的命名就可以直观理解。
例如,证件号数据元包括身份证号的长度和身份证号中的每位数字的定义,比如:二代身份证号为18位数字,每位数字代表不同的含义。与证件号数据元关联的命名实体为身份证号码命名实体,身份证号码命名实体对应预配了用于对关联的证件号数据元执行数据清洗的身份证号清洗规则。
又例如,电话数据元包括手机号码和固定电话号码的电话号码长度即号码规则的定义,比如:手机号码为11位数字(不包括表示2位国家代号的数字),各个位数字可以用于表示运营商、归属地等含义;固定电话号码11位或12位数字,各个位数字可以用于表示区号、归属地等含义。与电话数据元关联的命名实体可以包括手机号码命名实体和固定电话命名实体,身份证号码命名实体对应预配了用于对关联的电话数据元执行数据清洗的手机号清洗规则,固定电话命名实体对应预配了用于对关联的电话数据元执行数据清洗的固定电话号码清洗规则。当然,在实际应用中,与电话数据元关联的命名实体除了手机号码命名实体和固定电话命名实体外,还可以包括电话号码是否有效命名实体,针对不满足手机号码命名实体和固定电话命名实体的业务数据可以基于电话号码是否有效命名实体包括的电话号码是否有效清洗规则进行进一步清洗,比如:业务数据中可能包括国外的手机号码和固话号码、历史遗留的手机号码及固话号码、过时的小灵通号码等。
在示出的一种实施方式中,在获取与上述数据元关联的至少一个命名实体之前,上述数据治理平台响应于用户在输出的命名实体配置界面中输入的命名实体名,生成对应的命名实体。
例如,上述数据治理平台中的命名实体管理子系统可以响应于用户在输出的命名实体配置界面中输入的命名实体名,生成对应的命名实体,具体比如:在针对公安业务数据中身份证数据进行数据清洗时,业务用户可以在命名实体管理子系统输出的命名实体配置界面中输入的待创建的命名实体名:“身份证号码”,命名实体管理子系统在后台数据库中创建生成对应的身份证号码命名实体。
在示出的一种实施方式中,在响应于用户在输出的命名实体配置界面中输入的命名实体名,生成对应的命名实体后,上述数据治理平台响应于用户在输出的命名实体对应清洗规则配置界面中导入的、与命名实体对应的用于数据清洗的正则表达式,生成与命名实体对应的清洗规则。
接着以上示例继续举例,在命名实体管理子系统在后台数据库中创建生成身份证号码命名实体后,命名实体管理子系统可以向用户(比如:数据管理员)输出的命名实体对应清洗规则配置界面,在该清洗规则配置界面中,数据管理员可以导入的、与身份证号码命名实体对应的用于数据清洗的正则表达式,生成与身份证号码命名实体对应的清洗规则;比如:该身份证号码命名实体对应的基于正则表达式构建的清洗规则可以判断,一代身份证号为15位数字及字母,二代身份证号为18位数字及字母,每位数字及字母代表不同的含义。
在本说明书中,在确定与上述业务数据关联的数据元后,上述数据治理平台获取与上述数据元关联的至少一个命名实体,并基于获取的至少一个命名实体对上述业务数据执行数据清洗。
在示出的一种实施方式中,上述数据治理平台获取与上述业务数据中的若干列数据数据分别关联的数据元,并获取与上述关联的数据元关联的至少一个命名实体,基于获取的上述关联的至少一个命名实体对应预配的清洗规则,对上述若干列数据按关联的数据元分别执行数据清洗。
接以上示例继续举例,以上述业务数据为1亿条用户身份数据为例,每条用户身份数据包括用户的身份证号、电话号码,该1亿条用户身份数据包括3列数据,该2列数据具体包括1亿条身份证号数据、1亿条电话号码数据。1亿条身份证号数据关联的数据元为证件号数据元、1亿条电话号码数据关联的数据元为电话数据元;其中,证件号数据元关联的命名实体为身份证号码命名实体,电话数据元关联的命名实体包括手机号码命名实体和固定电话命名实体。上述数据清洗子系统通过数据元管理子系统获取命名实体管理子系统中基于获取的身份证号码命名实体对应预配的清洗规则对1亿条身份证号数据执行数据清洗,以及基于获取的手机号码命名实体和固定电话命名实体分别对应预配的清洗规则对1亿条电话号码数据执行数据清洗。
当然,在实际应用中,上述命名实体的总数小于上述数据元的总数。比如:在电子政务业务数据清洗过程中,实际涉及的数据元的总数至少为数万个及以上的数量级,而与该数万个关联的命名实体的总数在数百的数量级,也即,命名实体的总数小于数据元的总数。
需要说明的是,由于上述数据治理平台中除了包括数据清洗子系统和数据元管理子系统外,还包括命名实体管理子系统用于命名实体的管理和维护。因此,通过数据元管理子系统进行数据元的单独配置及维护,以及通过命名实体管理子系统中的命名实体的单独配置及维护,并通过命名实体作为中间桥梁与清洗规则与数据元分别关联,可以实现数据治理平台的数据清洗的数据元与清洗规则的解耦(原有方案中,数据元与清洗规则强耦合),普通的业务用户无需手工配置和维护与数据元对应的清洗规则,仅需选择关联与数据元对应的命名实体,而针对与命名实体对应的复杂的基于正则表达式构建的清洗规则,可以由专业的数据管理员开发及设置。
在本说明书中,上述清洗规则包括真伪性校验规则、合法性校验规则中任一或组合;其中,上述真伪性校验规则用于校验目标列数据的属性与关联的目标数据元定义的属性是否一致,上述合法性校验规则用于校验目标列数据的属性的取值是否合法。
在示出的一种实施方式中,上述合法性校验规则包括缺失值校验规则、重复值校验规则、异常值校验规则的中任一或组合。
接着以上示例继续举例,上述数据治理平台的业务人员可以通过上述数据治理平台提供的配置界面配置身份证号码命名实体、手机号码命名实体和固定电话命名实体,而上述数据治理平台的开发人员可以通过上述数据治理平台提供的配置界面,针对已配置的身份证号码命名实体、手机号码命名实体和固定电话命名实体开发及上传各个命名实体分别对应预配的清洗规则,该清洗规则基于正则表达式构建。
该清洗规则具体可以包括真伪性校验规则、合法性校验规则中任一或组合;比如:在真伪性校验规则用于校验1亿条电话号码数据的属性与关联的手机号码命名实体和固定电话命名实体定义的属性是否一致时,如果该1亿条电话号码数据的某条数据符合手机号码命名实体的真伪性校验规则(比如:校验电话号码是否为11位数字,各个位数字是否存在存在对应的运营商、归属地),则上述数据治理平台将该条数据打上对应的手机号码标签,如果该1亿条电话号码数据的某条数据符合固定号码命名实体的真伪性校验规则,则上述数据治理平台将该条数据打上对应的固定号码标签。
在真伪性校验规则用于校验1亿条身份证号数据的属性与关联的身份证号命名实体定义的属性是否一致时,过程与校验1亿条电话号码数据的真伪过程类似,这里不作赘述。
需要说明的是,使用数据治理平台的业务人员无需构建和理解复杂的正则表达式,仅需通过将清晰易懂的命名实体与数据元进行关联,从而对业务数据进行数据清洗,一方面,提高了数据清洗维护效率;另一方面,随着业务扩展,命名实体在数据治理平台不断增多,可以方便命名实体的积累和共享利用。比如:在公安业务数据中涉及电话号码数据清洗,在市民卡业务数据中也涉及电话号码数据清洗,以使示例中的手机号码命名实体和固定电话命名实体,可以共享应用在公安业务和市民卡业务的数据清洗场景中。
在示出的一种实施方式中,上述合法性校验规则可以包括缺失值校验规则、重复值校验规则、异常值校验规则的中任一或组合;
其中,上述缺失值校验规则,是指针对目标数据的值缺失时的校验规则,具体可以包括:针对值缺失的目标数据进行计算填充(比如:取均值、取中位数、取众数等)、获取其它已知字段补齐、取固定默认值填充等;
上述重复值校验规则,是指针对值重复的目标数据进行去重或标记的校验规则;
上述异常值校验规则,是指针对目标数据的值、表达格式出现错误或异常时的校验规则,比如:目标数据为年龄时,年龄的值出现负值或过高值时,比如:目标数据为年龄时,年龄的值出现负值或过高值时;又比如:目标数据的时间、日期、数值、全半角等显示格式不一致;再比如:目标数据的内容应该是数值,而目标数据的实际内容却是字符串。
在本说明书中,上述数据治理平台可以基于上述真伪性校验规则及上述合法性校验规则,对上述业务数据中的若干列数据按关联的数据元分别执行数据清洗,得到数据清洗后的业务数据。
例如,以电子政务场景为例,上述数据治理平台可以针对从公安、市民卡中心、劳动保障局的业务系统中获取的业务数据,基于关联的数据元及命名实体进行数据清洗,去除原始数据中的脏数据,得到格式统一、标准有效的清洗数据。
在本说明书中,进一步地,上述数据治理平台可以基于清洗后的上述业务数据进一步进行数据加工处理。
在以上技术方案中,从对接的业务系统中获取待执行数据清洗的业务数据;确定与所述业务数据关联的数据元;以及,获取与所述数据元关联的至少一个命名实体,并基于获取的至少一个命名实体对所述业务数据执行数据清洗。基于所见即所得的命名实体进行数据清洗,避免了用户进行繁琐的数据清洗配置,提高了数据清洗维护效率,并方便命名实体的积累和共享利用。
与上述方法实施例相对应,本说明书还提供了一种业务数据清洗装置的实施例。本说明书的业务数据清洗装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本说明书的业务数据清洗装置所在电子设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的电子设备通常根据该电子设备的实际功能,还可以包括其他硬件,对此不再赘述。
图4是本说明书一示例性实施例示出的一种业务数据清洗装置的框图。
请参见图4,所述业务数据清洗装置40可以应用于如前图3所示的电子设备,所述装置包括:
获取模块401,从对接的业务系统中,获取待执行数据清洗的业务数据;
确定模块402,确定与所述业务数据关联的数据元;
清洗模块403,获取与所述数据元关联的至少一个命名实体,并基于获取的至少一个命名实体对所述业务数据执行数据清洗。
在本实施例中,所述业务数据包括若干列数据;
所述确定模块402进一步:
响应于用户在输出的业务数据与数据元关联界面的设置,确定与所述若干列数据分别关联的数据元。
在本实施例中,所述命名实体对应被预配置了用于执行数据清洗的清洗规则;
所述清洗模块403进一步:
获取与所述若干列数据数据分别关联的数据元;
获取与所述关联的数据元关联的至少一个命名实体;
基于获取的所述关联的命名实体对应的清洗规则,对所述若干列数据按关联的数据元分别执行数据清洗。
在本实施例中,所述清洗规则包括真伪性校验规则、合法性校验规则中任一或组合;其中,所述真伪性校验规则用于校验目标列数据的属性与关联的目标数据元定义的属性是否一致,所述合法性校验规则用于校验目标列数据的属性的取值是否合法。
在本实施例中,所述合法性校验规则包括缺失值校验规则、重复值校验规则、异常值校验规则的中任一或组合。
在本实施例中,在获取与所述数据元关联的至少一个命名实体之前,所述确定模块402进一步:
响应于用户在输出的命名实体配置界面中输入的命名实体名,生成对应的命名实体。
在本实施例中,所述确定模块402进一步:
响应于用户在输出的命名实体对应清洗规则配置界面中导入的、与命名实体对应的用于数据清洗的正则表达式,生成与命名实体对应的清洗规则。
上述实施例阐明的装置、装置、模块或模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
与上述方法实施例相对应,本说明书还提供了一种电子设备的实施例。该电子设备包括:处理器以及用于存储机器可执行指令的存储器;其中,处理器和存储器通常通过内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与业务数据清洗的控制逻辑对应的机器可执行指令,所述处理器被促使:
从对接的业务系统中,获取待执行数据清洗的业务数据;
确定与所述业务数据关联的数据元;
获取与所述数据元关联的至少一个命名实体,并基于获取的至少一个命名实体对所述业务数据执行数据清洗。
在本实施例中,所述业务数据包括若干列数据,通过读取并执行所述存储器存储的与业务数据清洗的控制逻辑对应的机器可执行指令,所述处理器被促使:
响应于用户在输出的业务数据与数据元关联界面的设置,确定与所述若干列数据分别关联的数据元。
在本实施例中,所述命名实体对应被预配置了用于执行数据清洗的清洗规则,通过读取并执行所述存储器存储的与业务数据清洗的控制逻辑对应的机器可执行指令,所述处理器被促使:
获取与所述若干列数据数据分别关联的数据元;
获取与所述关联的数据元关联的至少一个命名实体;
基于获取的所述关联的命名实体对应的清洗规则,对所述若干列数据按关联的数据元分别执行数据清洗。
在本实施例中,所述清洗规则包括真伪性校验规则、合法性校验规则中任一或组合;其中,所述真伪性校验规则用于校验目标列数据的属性与关联的目标数据元定义的属性是否一致,所述合法性校验规则用于校验目标列数据的属性的取值是否合法。
在本实施例中,所述合法性校验规则包括缺失值校验规则、重复值校验规则、异常值校验规则的中任一或组合。
在本实施例中,在获取与所述数据元关联的至少一个命名实体之前,还包括:
响应于用户在输出的命名实体配置界面中输入的命名实体名,生成对应的命名实体。
在本实施例中,还包括:
响应于用户在输出的命名实体对应清洗规则配置界面中导入的、与命名实体对应的用于数据清洗的正则表达式,生成与命名实体对应的清洗规则。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。
Claims (11)
1.一种业务数据清洗方法,所述方法包括:
从对接的业务系统中,获取待执行数据清洗的业务数据;
确定与所述业务数据关联的数据元;
获取与所述数据元关联的至少一个命名实体,并基于获取的至少一个命名实体对所述业务数据执行数据清洗。
2.根据权利要求1所述的方法,所述业务数据包括若干列数据;
所述确定与所述业务数据关联的数据元,包括:
响应于用户在输出的业务数据与数据元关联界面的设置,确定与所述若干列数据分别关联的数据元。
3.根据权利要求1所述的方法,所述命名实体对应被预配置了用于执行数据清洗的清洗规则;
所述获取与所述数据元关联的至少一个命名实体,并基于获取的至少一个命名实体对所述业务数据执行数据清洗,包括:
获取与所述若干列数据数据分别关联的数据元;
获取与所述关联的数据元关联的至少一个命名实体;
基于获取的所述关联的命名实体对应的清洗规则,对所述若干列数据按关联的数据元分别执行数据清洗。
4.根据权利要求3所述的方法,所述清洗规则包括真伪性校验规则、合法性校验规则中任一或组合;其中,所述真伪性校验规则用于校验目标列数据的属性与关联的目标数据元定义的属性是否一致,所述合法性校验规则用于校验目标列数据的属性的取值是否合法。
5.根据权利要求4所述的方法,所述合法性校验规则包括缺失值校验规则、重复值校验规则、异常值校验规则的中任一或组合。
6.根据权利要求1所述的方法,在获取与所述数据元关联的至少一个命名实体之前,还包括:
响应于用户在输出的命名实体配置界面中输入的命名实体名,生成对应的命名实体。
7.根据权利要求6所述的方法,还包括:
响应于用户在输出的命名实体对应清洗规则配置界面中导入的、与命名实体对应的用于数据清洗的正则表达式,生成与命名实体对应的清洗规则。
8.一种业务数据清洗方法,应用于数据治理平台,所述数据治理平台包括数据清洗子系统、与所述数据清洗子系统对接的数据元管理子系统、与所述数据元管理子系统对接的命名实体管理子系统,所述方法包括:
数据清洗子系统从对接的业务系统中,获取待执行数据清洗的业务数据;
数据清洗子系统,确定数据元管理子系统中与所述业务数据关联的数据元;
数据清洗子系统,通过数据元管理子系统获取命名实体管理子系统中与所述数据元关联的至少一个命名实体,并基于获取的至少一个命名实体对所述业务数据执行数据清洗。
9.一种业务数据清洗装置,所述装置包括:
获取模块,从对接的业务系统中,获取待执行数据清洗的业务数据;
确定模块,确定与所述业务数据关联的数据元;
清洗模块,获取与所述数据元关联的至少一个命名实体,并基于获取的至少一个命名实体对所述业务数据执行数据清洗。
10.一种电子设备,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;
所述存储器中存储机器可读指令,所述处理器通过调用所述机器可读指令,执行如权利要求1至8任一项所述的方法。
11.一种机器可读存储介质,所述机器可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,实现权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011350023.7A CN112256689A (zh) | 2020-11-26 | 2020-11-26 | 业务数据清洗方法、装置、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011350023.7A CN112256689A (zh) | 2020-11-26 | 2020-11-26 | 业务数据清洗方法、装置、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112256689A true CN112256689A (zh) | 2021-01-22 |
Family
ID=74225572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011350023.7A Pending CN112256689A (zh) | 2020-11-26 | 2020-11-26 | 业务数据清洗方法、装置、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112256689A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239695A (zh) * | 2021-05-21 | 2021-08-10 | 杭州数梦工场科技有限公司 | 一种命名实体识别方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017162083A1 (zh) * | 2016-03-25 | 2017-09-28 | 阿里巴巴集团控股有限公司 | 数据清洗方法和装置 |
CN107239581A (zh) * | 2017-07-07 | 2017-10-10 | 小草数语(北京)科技有限公司 | 数据清洗方法及装置 |
CN110727668A (zh) * | 2019-09-30 | 2020-01-24 | 北京百度网讯科技有限公司 | 数据清洗方法及装置 |
CN111209538A (zh) * | 2020-01-03 | 2020-05-29 | 北京明略软件系统有限公司 | 一种表数据质量探查方法及装置 |
CN111290742A (zh) * | 2020-03-04 | 2020-06-16 | 五八有限公司 | 参数验证方法、装置、电子设备及可读存储介质 |
CN111639066A (zh) * | 2020-05-14 | 2020-09-08 | 杭州数梦工场科技有限公司 | 一种数据清洗的方法和装置 |
-
2020
- 2020-11-26 CN CN202011350023.7A patent/CN112256689A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017162083A1 (zh) * | 2016-03-25 | 2017-09-28 | 阿里巴巴集团控股有限公司 | 数据清洗方法和装置 |
CN107239581A (zh) * | 2017-07-07 | 2017-10-10 | 小草数语(北京)科技有限公司 | 数据清洗方法及装置 |
CN110727668A (zh) * | 2019-09-30 | 2020-01-24 | 北京百度网讯科技有限公司 | 数据清洗方法及装置 |
CN111209538A (zh) * | 2020-01-03 | 2020-05-29 | 北京明略软件系统有限公司 | 一种表数据质量探查方法及装置 |
CN111290742A (zh) * | 2020-03-04 | 2020-06-16 | 五八有限公司 | 参数验证方法、装置、电子设备及可读存储介质 |
CN111639066A (zh) * | 2020-05-14 | 2020-09-08 | 杭州数梦工场科技有限公司 | 一种数据清洗的方法和装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239695A (zh) * | 2021-05-21 | 2021-08-10 | 杭州数梦工场科技有限公司 | 一种命名实体识别方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112613917A (zh) | 基于用户画像的信息推送方法、装置、设备及存储介质 | |
CN111327514B (zh) | 微信图文消息群发方法、系统、服务器及存储介质 | |
CN110233741B (zh) | 服务计费方法、装置、设备及存储介质 | |
CN107133323A (zh) | 数据模型构建方法、政务服务业务的实现方法及装置 | |
CN114971827A (zh) | 一种基于区块链的对账方法、装置、电子设备及存储介质 | |
WO2021073516A1 (en) | Blockchain-based workflow node certification method and device | |
CN113326165A (zh) | 基于区块链的数据处理方法、设备及计算机可读存储介质 | |
TW202032466A (zh) | 用戶年齡預測方法、裝置及設備 | |
CN110334103A (zh) | 推荐服务的更新方法、提供装置、访问装置和推荐系统 | |
CN112241474B (zh) | 信息处理方法、装置和存储介质 | |
CN112256689A (zh) | 业务数据清洗方法、装置、电子设备 | |
CN109471917B (zh) | 数据处理方法、装置、设备及介质 | |
CN116993523A (zh) | 配置化对账方法、装置、设备及存储介质 | |
CN111488349A (zh) | 基于业务数据区块链的数据查询方法及装置 | |
CN112256688B (zh) | 业务数据清洗方法、装置、电子设备 | |
CN112417259B (zh) | 媒体资源的处理方法、装置、设备及存储介质 | |
CN115017185A (zh) | 一种数据处理方法、装置及存储介质 | |
CN111611056A (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN111367634A (zh) | 信息处理方法、信息处理装置及终端设备 | |
CN117635081B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN117495518A (zh) | 银行积分系统的物品管理方法、装置、设备和存储介质 | |
CN111695138A (zh) | 基于业务数据区块链的租房数据存储方法及系统 | |
CN115757336A (zh) | 数据处理方法、装置、设备、介质和程序产品 | |
CN117193978A (zh) | 任务调度方法、装置、设备及存储介质 | |
CN111694838A (zh) | 基于业务数据区块链的网约车数据存储方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |