CN111291029A - 数据清洗方法及装置 - Google Patents
数据清洗方法及装置 Download PDFInfo
- Publication number
- CN111291029A CN111291029A CN202010051037.2A CN202010051037A CN111291029A CN 111291029 A CN111291029 A CN 111291029A CN 202010051037 A CN202010051037 A CN 202010051037A CN 111291029 A CN111291029 A CN 111291029A
- Authority
- CN
- China
- Prior art keywords
- data
- information item
- cleaning
- type
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 169
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000003860 storage Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 abstract description 57
- 238000007726 management method Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 230000036541 health Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000004801 process automation Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Abstract
本发明提出一种数据清洗方法及装置,所述方法包括:接收来自多个对象的业务数据,所述业务数据包括多个信息项;依次对各信息项进行数据清洗,所述数据清洗包括:判断所述信息项是否属于预设的基于认定结果进行清洗的类型;若所述信息项属于预设的基于认定结果进行清洗的对象,则调用所述信息项对应的认定结果,并以所述认定结果作为所述信息项清洗后的数据;若所述信息项不属于预设的基于认定结果进行清洗的类型,则根据预设的多个数据清洗规则,依次对所述信息项进行清洗,得到所述信息项清洗后的数据。本发明实现对多个对象业务数据清洗实现统一的数据输出,解决多个对象数据冲突难以实现数据融合的问题。
Description
技术领域清
本发明涉及数据处理领域,尤其涉及一种数据清洗方法及装置。
背景技术
政务数据采集目前存在如下特点:第一:数据采集难。政府的业务极其复杂,既有数十个直属部门,如公安局、卫计委、人社局、民政局、市场监管委、交通运输委、公积金中心等,还有对应若干区县级单位。这些委办局或机构对应有数十项权责清单和数十个核心系统,这些系统每天都能产生大量的电子化数据。另外,政府还能接入大量的外部数据,如用水、用电、用气、电信业、银行业相关的数据。除了结构化数据,在政府部门内部,有大量的非结构化数据,这些数据包含各种证照的电子件,图片,办公文档,视频,压缩文件等,此外在智慧城市建设过程中还还需要充分采集物联网数据,这些文件既要解决存储的问题,也要解决使用的问题。要提高政府部门的社会管理与城市治理能力,就必须提高对非结构化数据的存储、分析和计算能力,同时将各委办局的业务数据进行共享融合,利用数据辅助管理与决策。要将如此众多复杂的部门和业务数据整合到一起,形成一个统一的融合资源库,是一件极其困难的事情,政府部门急需行业解决方案来提高对政务数据的综合管控能力。第二:数据质控难,数据标准不一,数据质量差。政府部门下拥有较多的委办局,各委办局的业务系统基本属于分散建设,分散运营维护的情况,缺少政府层面的统一规划。国家层面虽然有相应的政务信息资源目录和数据元规范,但标准的建设相对滞后,标准的推广和执行也存在较大的问题,导致各委办局的业务系中对于政务数据的标准引用不统一,数据元定义不一致,加上数据采集录入环节的不规范,使得各委办局的数据质量较差,想要统一数据标准,规范数据质量困难重重。建设智慧城市,提高各委办局之间政务数据的融合共享,建立统一的数据标准和数据质量监控体系是重中之重,没有规范的质量监控和数据标准,政府部门收集上来的数据只会是杂乱无章的,无法起到政务数据应有的价值。建立城市级数据中心需要做好政务数据的数据标准管理和质量管理。第三:数据融合困难,政务数据来源多样。政府部门的业务庞杂,各委办局之间在对政务信息资源管理方面存在很多的重复性部分,例如关于公民、法人、房屋、空间地理等基础信息,不同的委办局都有相关的全部或部分数据,且各委办局之间的数据标准和数据定义都存在较大的差异,甚至同一个委办局的不同系统中对于同一对象的数据也有不同,政务信息资源存在多源多数的问题。如何在众多的数据来源中选择最准确、最合适的数据,极大地考验着政府部门对政务业务和政务数据的理解和处理方式。第四:数据实时采集难。目前政府数据治理项目建设如火如荼,但绝大多数数据治理的项目解决的都是历史数据的迁移与存储的问题,很难实时获取相关业务办理信息,而对实时数据获取的缺失会极大的影响政府行政效率。随着政府效率的提升,对数据的响应速度也随之提高。如网格巡查人员采集到事件,快速流转到融合库,通过简单的清洗融合,再关联到更多信息(如企业信息),再分发给网格处置人员,网格处理人员的处理动态更新后又流转到融合平台。这整个数据处理过程,通常都控制在1分钟以内,第五:数据应用困难。以往的政务信息系统或者政务类数据仓库项目重在进行单个部门的数据收集整合,重在进行内部数据的统计分析,不能很直观地让公民感受到政府部门行政事务办理的效率改善和服务质量的提升。公民在进行政务类业务办理时还是需要多跑腿,多准备材料,甚至还会遇到各政府部门之间互相推诿扯皮的情况,极大地消耗了公民的时间和精力。社会大众急切的希望政府部门之间的数据能互融共通,能让大众有更好的政务服务体验,政府部门也希望改善自身对政务数据的把控能力,挖掘政务数据更多的应用价值,促进政务数据公开共享,提高政府治理能力和服务水平。
因此,亟待提出一种数据清洗方法及装置,以解决多个对象数据冲突难以实现数据融合的问题。
发明内容
有鉴于此,本发明提供一种数据清洗方法及装置,以实现对多个对象业务数据清洗实现统一的数据输出,解决多个对象数据冲突难以实现数据融合的问题。
第一方面,本发明提供一种数据清洗方法,所述方法包括:接收来自多个对象的业务数据,所述业务数据包括多个信息项;依次对各信息项进行数据清洗,所述数据清洗包括:判断所述信息项是否属于预设的基于认定结果进行清洗的类型;若所述信息项属于预设的基于认定结果进行清洗的对象,则调用所述信息项对应的认定结果,并以所述认定结果作为所述信息项清洗后的数据;若所述信息项不属于预设的基于认定结果进行清洗的类型,则根据预设的多个数据清洗规则,依次对所述信息项进行清洗,得到所述信息项清洗后的数据;所述预设的多个数据清洗规则包括:根据所述信息项的数据产生时间进行清洗的第一规则、根据所述信息项的数据中的最大值或最小值进行清洗的第二规则、根据所述信息项的数据中少数服从多数原则进行清洗的第三规则、以及根据所述信息项的数据所属对象的优先级清洗的第四规则。
第二方面,本发明提供一种数据清洗装置,包括:数据接收单元,用于接收来自多个对象的业务数据,所述业务数据包括多个信息项;数据判断单元,用于判断所述信息项是否属于预设的基于认定结果进行清洗的类型;数据清洗单元,用于若所述信息项属于预设的基于认定结果进行清洗的对象,则调用所述信息项对应的认定结果,并以所述认定结果作为所述信息项清洗后的数据;若所述信息项不属于预设的基于认定结果进行清洗的类型,则根据预设的多个数据清洗规则,依次对所述信息项进行清洗,得到所述信息项清洗后的数据;所述预设的多个数据清洗规则包括:根据所述信息项的数据产生时间进行清洗的第一规则、根据所述信息项的数据中的最大值或最小值进行清洗的第二规则、根据所述信息项的数据中少数服从多数原则进行清洗的第三规则、以及根据所述信息项的数据所属对象的优先级清洗的第四规则。
第三方面,本发明提供一种计算机可读存储介质,存储有程序,所述程序包括用于执行如上述数据清洗方法的指令。
第四方面,本发明提供一种计算机,包括存储有计算机程序的可读介质,所述程序包括用于执行上述数据清洗方法的指令。
本发明数据清洗方法及装置通过基于针对来自多个对象的业务数据,确定与该业务数据中信息项对应的数据清洗规则,进而依据该相应的数据清洗规则进行数据清洗,以实现对多个对象业务数据清洗实现统一的数据输出,解决多个对象数据冲突难以实现数据融合的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明第一实施例提供的数据清洗方法流程图;
图2为本发明第二实施例提供的数据清洗方法流程图;
图3为本发明第三实施例提供的数据清洗装置结构框图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
如图1所示,本发明第一实施例提供的一种数据清洗方法包括:
步骤101:接收来自多个对象的业务数据,所述业务数据包括多个信息项;
步骤102:依次对各信息项进行数据清洗,所述数据清洗具体包括:
步骤102a:判断所述信息项是否属于预设的基于认定结果进行清洗的类型;
该认证结果具体可以为基于权威认定的结果,也就是说某些信息项,比如性别通过数据调研得到权威认定信息项的“一数一源”来源单位及认证结果,基于“一数一源”确定结果实现多个对象(多个部门,也称多源)数据融合。
步骤102b:若所述信息项属于预设的基于认定结果进行清洗的对象,则调用所述信息项对应的认定结果,并以所述认定结果作为所述信息项清洗后的数据;
步骤102c:若所述信息项不属于预设的基于认定结果进行清洗的类型,则根据预设的多个数据清洗规则,依次对所述信息项进行清洗,得到所述信息项清洗后的数据;所述预设的多个数据清洗规则包括:根据所述信息项的数据产生时间进行清洗的第一规则、根据所述信息项的数据中的最大值或最小值进行清洗的第二规则、根据所述信息项的数据中少数服从多数原则进行清洗的第三规则、以及根据所述信息项的数据所属对象的优先级清洗的第四规则。
本实施例基于针对来自多个对象的业务数据,确定与该业务数据中信息项对应的数据清洗规则进行数据清洗,以实现对多个对象业务数据清洗实现统一的数据输出,解决多个对象数据冲突难以实现数据融合的问题。
如图2所示,本发明第二实施例提供的一种数据清洗方法为图1所示方法的优选实现方式,具体包括:
步骤201:接收来自多个对象的业务数据;
步骤202:判断所述信息项是否属于预设的基于认定结果进行清洗的类型;
步骤203:若所述信息项属于预设的基于认定结果进行清洗的对象,则调用所述信息项对应的认定结果,并以所述认定结果作为所述信息项清洗后的数据;
步骤204:若所述信息项不属于预设的基于认定结果进行清洗的类型,则根据预设的多个数据清洗规则继续判断;
步骤205:判断所述信息项是否属于预设的根据所述第一规则进行清洗的类型;具体操作时,该第一规则用于表征基于数据新鲜度融合策略:通过对比多来源信息项的业务办理时间,将最新业务办理时间或最早业务办理时间的数据作为融合数据。
步骤206:若所述信息项属于预设的根据所述第一规则进行清洗的类型,则继续判断所述信息项是否属于根据所述信息项的数据产生时间由前往后的次序进行清洗的第一类型,或者是否属于根据所述信息项的数据产生时间由后往前的次序进行清洗的第二类型。
上述第一类型即根据最旧值进行数据清洗。具体通过对比同一基础数据的业务办理时间和入库时间,将最早的业务办理时间的数据作为融合数据的基础数据,完成一数一源的过程。第二类型即根据最新值进行数据清洗。具体通过对比同一基础数据的业务办理时间和入库时间,将最新业务办理时间的数据作为融合数据的基础数据,完成一数一源的过程。如对于个人婚姻状况的登记,社保局去年的数据显示是未婚,民政部今年的数据显示是已婚,则该人口的婚姻字段信息就以民政部的已婚为准。
步骤207:若所述信息项属于所述第一类型,则将所述信息项的数据产生时间中最早的时间作为所述信息项清洗后的数据;若所述信息项属于所述第二类型,则将所述信息项的数据产生时间中最新的时间作为所述信息项清洗后的数据。
步骤208:若判断所述信息项不属于根据所述第一规则进行清洗的类型,则继续判断所述信息项是否属于根据所述第二规则进行清洗的类型;
具体操作时,第二规则用于表征基于数据最值融合策略:通过对比多源数据的同一信息项数据,以字段值最大值或最小值的委办局数据为融合数据。例如对某人薪资数据共有3个部门有登记,其中在人才服务中心为1万,在税务局为1.1万,在社保局为1.2万。现有计税应用分析场景,要求不漏税,则该人口的薪资数据应取最大值(即社保局薪资数据)作为融合数据。
又如有区域妇女初育年龄数据,某妇女的初育年龄共有3个部门有登记,其中公安局登记的为26岁,街道办登记的为23岁,卫计委登记的为20岁。现有区域早育婴儿健康调查场景,要求不漏查,则以该妇女初育年龄登记最小值(即卫计委数据)作为融合数据。
步骤209:若所述信息项属于预设的根据所述第二规则进行清洗的类型,则继续判断所述信息项是否属于根据所述信息项的数据中的最大值进行清洗的第三类型,或者是否属于根据所述信息项的数据中的最小值进行清洗的第四类型。
具体如:最大值通过对比同一基础数据的具体数据,以字段值最大的委办局数据为融合数据,完成一数一源的过程。如对个人薪资情况的统计在公安局显示是1万,在社保局显示是1.2万,则该人口的薪资数据就以社保局的数据为准。最小值通过对比同一基础数据的具体数据,以字段值最小的委办局数据为融合数据,完成一数一源的过程。如结婚年龄情况统计,以各委办局的最小值数据为融合数据。
步骤210:若所述信息项属于所述三类型,则将所述信息项的数据中的最大值作为所述信息项清洗后的数据;若所述信息项属于所述第二类型,则将所述信息项的数据中的最小值作为所述信息项清洗后的数据。
步骤211:若判断所述信息项不属于根据所述第二规则进行清洗的类型,则继续判断所述信息项是否属于根据所述第三规则进行清洗的类型;
该第三规则具体用于表征基于大多数原则融合策略:通过对多源数据的同一信息项数据比较,少数服从多数,以多数的数值为融合数据。例如某人的居住地信息,共有10个来源部门都有登记,其中9个来源部门都登记为“深圳”,1个来源部门登记为“广州”,基于大数据原则融合(“少数服从多数”)策略融合,则最终确定“深圳”为其居住地信息。
步骤212:若所述信息项属于预设的根据所述第三规则进行清洗的类型,则将所述信息项的数据进行统计;
具体如:通过对同一数值的比较,少数服从多数,以多数的数值为融合数据,解决单一部门数据错误的问题,如居住地信息。
步骤213:将所述信息项的数据中所占数量比例的最大的数据作为所述信息项清洗后的数据。
步骤214:若判断所述信息项不属于根据所述第三规则进行清洗的类型,则根据第四规则进行数据清洗,具体将所述信息项的数据中所属对象的优先级最高的数据作为所述信息项清洗后的数据。
具体地,第四规则用于表征基于指定优先级来源融合策略:对多源数据指定信息项来源优先级,系统基于信息项优先级依序融合数据。在前序优先级存在数据的情况下,以前序优先级的数据为准,如果前序优先级的数据为空,则按优先级轮询获取后序来源数据融合。来源优先级通过对不同数据项对不同委办局的来源数据指定优先级别,确定最终的政务数据。在前序优先级存在数据的情况下,以前序优先级的数据为准,如果前序优先级的数据为空,则采用优先级轮次递增的方式获取有效数据作为融合的基础数据。
针对自然世界层面表达同一个事物或描述元数据,虽然数据的生产者是唯一,在数据汇聚后需要发现数据完整性、局部冗余需进行数据质量划分。实体是按照客观存在并可相互区别的事物进行分解,实体识别把汇聚的数据进行识别相同实体并统一存储。针对同一实体中的数据进行形式、语义、数量的分析,将数据分解为孤证数据、可疑数据。孤证数据来源为权威机构发布为归为可信数据、非权威机构发布的数据为待确认确权数据;可疑数据是与自然规律有违的数据,导致无法被实体确认。这些数据之间可以通过数据核实机制进行数据可信性数据级别的转换。
本实施例基于针对多来源的同一信息项(如人的性别),对于多源数据融合应数据属性及特征分析自动优选出不同来源数据信息项的融合策略,根据不同数据应用场景适配不同的融合策略来完成,解决多源数据冲突实现数据融合,数据融合规则包括基于认定结果、基于数据新鲜度融合、基于最值(最大值或最小值)融合、基于大多数原则融合、基于指定优先级来源融合等,由此解决政务信息数据海量、多源、异构等特征,保证共享和应用数据可用,以实现数据共享和数据应用。
图3所示,本发明第三实施例提供的一种数据清洗装置,其为图1以及图2所示方法对应的装置实施例,图1以及图2的解释说明可以应用于本实施例,具体包括:
数据接收单元301,用于接收来自多个对象的业务数据,所述业务数据包括多个信息项;
数据判断单元302,用于判断所述信息项是否属于预设的基于认定结果进行清洗的类型;
数据清洗单元303,用于若所述信息项属于预设的基于认定结果进行清洗的对象,则调用所述信息项对应的认定结果,并以所述认定结果作为所述信息项清洗后的数据;若所述信息项不属于预设的基于认定结果进行清洗的类型,则根据预设的多个数据清洗规则,依次对所述信息项进行清洗,得到所述信息项清洗后的数据;所述预设的多个数据清洗规则包括:根据所述信息项的数据产生时间进行清洗的第一规则、根据所述信息项的数据中的最大值或最小值进行清洗的第二规则、根据所述信息项的数据中少数服从多数原则进行清洗的第三规则、以及根据所述信息项的数据所属对象的优先级清洗的第四规则。
具体操作时,所述数据清洗单元303包括:
第一数据判断模块(图中未示出),用于判断所述信息项是否属于预设的根据所述第一规则进行清洗的类型;若所述信息项属于预设的根据所述第一规则进行清洗的类型,则继续判断所述信息项是否属于根据所述信息项的数据产生时间由前往后的次序进行清洗的第一类型,或者是否属于根据所述信息项的数据产生时间由后往前的次序进行清洗的第二类型;
第一数据清洗模块(图中未示出),用于若所述信息项属于所述第一类型,则将所述信息项的数据产生时间中最早的时间作为所述信息项清洗后的数据;若所述信息项属于所述第二类型,则将所述信息项的数据产生时间中最新的时间作为所述信息项清洗后的数据;
第二数据判断模块(图中未示出),用于若判断所述信息项不属于根据所述第一规则进行清洗的类型,则继续判断所述信息项是否属于根据所述第二规则进行清洗的类型;若所述信息项属于预设的根据所述第二规则进行清洗的类型,则继续判断所述信息项是否属于根据所述信息项的数据中的最大值进行清洗的第三类型,或者是否属于根据所述信息项的数据中的最小值进行清洗的第四类型;
第二数据清洗模块(图中未示出),用于若所述信息项属于所述三类型,则将所述信息项的数据中的最大值作为所述信息项清洗后的数据;若所述信息项属于所述第二类型,则将所述信息项的数据中的最小值作为所述信息项清洗后的数据。
进一步地,所述数据清洗单元303还包括:
第三数据判断模块(图中未示出),用于判断所述信息项不属于根据所述第二规则进行清洗的类型,则继续判断所述信息项是否属于根据所述第三规则进行清洗的类型;
第三数据清洗模块(图中未示出),用于若所述信息项属于预设的根据所述第三规则进行清洗的类型,则将所述信息项的数据中所占数量比例的最大的数据作为所述信息项清洗后的数据;
第三数据判断模块(图中未示出),用于若判断所述信息项不属于根据所述第三规则进行清洗的类型,则继续判断所述信息项是否属于根据所述第四规则进行清洗的类型;
第四数据清洗模块(图中未示出),用于若所述信息项属于预设的根据所述第四规则进行清洗的类型,则将所述信息项的数据中所属对象的优先级最高的数据作为所述信息项清洗后的数据。
本实施例数据清洗装置的工作原理具体为:数据清洗单元303优先选择“基于权威认定来源融合策略”(亦即“一数一源融合策略”融合数据,权威认定来源通过数据调研确定,形成按信息项的一数一源部门清单,在融合数据过程调用);若信息项未匹配到“基于权威认定来源融合策略”,数据清洗单元303则按属性特征分析结果融合数据,即基于数据的属性及特征分析自动生成信息项匹配的融合策略。数据清洗单元303基于属性特征分析结果确定的融合策略,针对要融合的信息项数据,预先检查“是否按业务时间融合数据”(即第一规则),若是,进行业务时间分析,采用“基于数据新鲜度融合策略”融合数据;若信息项未匹配“基于数据新鲜度融合策略”,则检查“是否按数据最值融合数据”(即第二规则),若是,进行数据最值分析,采用“基于数据最值融合策略”融合数据;若信息项未匹配“基于数据最值融合策略”,则检查“是否按大多数原则融合数据”(即第三规则),如是,进行数据分布统计,采用“基于大多数原则融合数据”;若信息项未匹配“基于大多数原则融合策略”,则采用“基于指定优先级融合策略”(即第四规则)融合数据。通过分析处理,根据数据的属性特征分析匹配融合策略,自动实现多源数据融合(按主题/实体组织数据)。
本实施例融合业务(数据调研确定数据的一数一源部门)及智能数据分析方法,实现场景化的多源数据融合;根据信息项预设的对应的数据清洗规则,多数据融合策略智能优选,确保多源数据融合质量;全流程自动化实现数据属性及特征分析、数据融合,全面提升数据集成开发效率,有效解决来自于多对象业务数据的完整性问题、一致性问题、准确性问题、关联性等问题,以此来提高政务数据质量。
本发明还提供一种计算机可读存储介质,存储有程序,所述程序包括用于执行上述方法的指令。
本发明还提供一种计算机,包括存储有计算机程序的可读介质,所述程序包括用于执行上述方法的指令。上述计算机可读存储介质以及计算机具有上述数据清洗方法相应的技术效果,不再赘述。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种数据清洗方法,其特征在于,所述方法包括:
接收来自多个对象的业务数据,所述业务数据包括多个信息项;
依次对各信息项进行数据清洗,所述数据清洗包括:
判断所述信息项是否属于预设的基于认定结果进行清洗的类型;
若所述信息项属于预设的基于认定结果进行清洗的对象,则调用所述信息项对应的认定结果,并以所述认定结果作为所述信息项清洗后的数据;
若所述信息项不属于预设的基于认定结果进行清洗的类型,则根据预设的多个数据清洗规则,依次对所述信息项进行清洗,得到所述信息项清洗后的数据;所述预设的多个数据清洗规则包括:根据所述信息项的数据产生时间进行清洗的第一规则、根据所述信息项的数据中的最大值或最小值进行清洗的第二规则、根据所述信息项的数据中少数服从多数原则进行清洗的第三规则、以及根据所述信息项的数据所属对象的优先级清洗的第四规则。
2.根据权利要求1所述的数据清洗方法,其特征在于,根据预设的多个数据清洗规则,
依次对所述信息项进行清洗,得到所述信息项清洗后的数据的步骤,包括:
判断所述信息项是否属于预设的根据所述第一规则进行清洗的类型;
若所述信息项属于预设的根据所述第一规则进行清洗的类型,则继续判断所述信息项是否属于根据所述信息项的数据产生时间由前往后的次序进行清洗的第一类型,或者是否属于根据所述信息项的数据产生时间由后往前的次序进行清洗的第二类型;
若所述信息项属于所述第一类型,则将所述信息项的数据产生时间中最早的时间作为所述信息项清洗后的数据;
若所述信息项属于所述第二类型,则将所述信息项的数据产生时间中最新的时间作为所述信息项清洗后的数据。
3.根据权利要求2所述的数据清洗方法,其特征在于,根据预设的多个数据清洗规则,
依次对所述信息项进行清洗,得到所述信息项清洗后的数据的步骤,包括:
若判断所述信息项不属于根据所述第一规则进行清洗的类型,则继续判断所述信息项是否属于根据所述第二规则进行清洗的类型;
若所述信息项属于预设的根据所述第二规则进行清洗的类型,则继续判断所述信息项是否属于根据所述信息项的数据中的最大值进行清洗的第三类型,或者是否属于根据所述信息项的数据中的最小值进行清洗的的第四类型;
若所述信息项属于所述三类型,则将所述信息项的数据中的最大值作为所述信息项清洗后的数据;
若所述信息项属于所述第二类型,则将所述信息项的数据中的最小值作为所述信息项清洗后的数据。
4.根据权利要求3所述的数据清洗方法,其特征在于,根据预设的多个数据清洗规则,依次对所述信息项进行清洗,得到所述信息项清洗后的数据的步骤,包括:若判断所述信息项不属于根据所述第二规则进行清洗的类型,则继续判断所述信息项是否属于根据所述第三规则进行清洗的类型;
若所述信息项属于预设的根据所述第三规则进行清洗的类型,则将所述信息项的数据中所占数量比例的最大的数据作为所述信息项清洗后的数据。
5.根据权利要求4所述的数据清洗方法,其特征在于,根据预设的多个数据清洗规则,依次对所述信息项进行清洗,得到所述信息项清洗后的数据的步骤,包括:
若判断所述信息项不属于根据所述第三规则进行清洗的类型,则继续判断所述信息项是否属于根据所述第四规则进行清洗的类型;
若所述信息项属于预设的根据所述第四规则进行清洗的类型,则将所述信息项的数据中所属对象的优先级最高的数据作为所述信息项清洗后的数据。
6.一种数据清洗装置,其特征在于,包括:
数据接收单元,用于接收来自多个对象的业务数据,所述业务数据包括多个信息项;
数据判断单元,用于判断所述信息项是否属于预设的基于认定结果进行清洗的类型;
数据清洗单元,用于若所述信息项属于预设的基于认定结果进行清洗的对象,则调用所述信息项对应的认定结果,并以所述认定结果作为所述信息项清洗后的数据;若所述信息项不属于预设的基于认定结果进行清洗的类型,则根据预设的多个数据清洗规则,依次对所述信息项进行清洗,得到所述信息项清洗后的数据;所述预设的多个数据清洗规则包括:根据所述信息项的数据产生时间进行清洗的第一规则、根据所述信息项的数据中的最大值或最小值进行清洗的第二规则、根据所述信息项的数据中少数服从多数原则进行清洗的第三规则、以及根据所述信息项的数据所属对象的优先级清洗的第四规则。
7.根据权利要求6所述的数据清洗装置,其特征在于,所述数据清洗单元包括:
第一数据判断模块,用于判断所述信息项是否属于预设的根据所述第一规则进行清洗的类型;若所述信息项属于预设的根据所述第一规则进行清洗的类型,则继续判断所述信息项是否属于根据所述信息项的数据产生时间由前往后的次序进行清洗的第一类型,或者是否属于根据所述信息项的数据产生时间由后往前的次序进行清洗的第二类型;
第一数据清洗模块,用于若所述信息项属于所述第一类型,则将所述信息项的数据产生时间中最早的时间作为所述信息项清洗后的数据;若所述信息项属于所述第二类型,则将所述信息项的数据产生时间中最新的时间作为所述信息项清洗后的数据;
第二数据判断模块,用于若判断所述信息项不属于根据所述第一规则进行清洗的类型,则继续判断所述信息项是否属于根据所述第二规则进行清洗的类型;若所述信息项属于预设的根据所述第二规则进行清洗的类型,则继续判断所述信息项是否属于根据所述信息项的数据中的最大值进行清洗的第三类型,或者是否属于根据所述信息项的数据中的最小值进行清洗的第四类型;
第二数据清洗模块,用于若所述信息项属于所述三类型,则将所述信息项的数据中的最大值作为所述信息项清洗后的数据;若所述信息项属于所述第二类型,则将所述信息项的数据中的最小值作为所述信息项清洗后的数据。
8.根据权利要求7所述的数据清洗装置,其特征在于,所述数据清洗单元还包括:
第三数据判断模块,用于判断所述信息项不属于根据所述第二规则进行清洗的类型,则继续判断所述信息项是否属于根据所述第三规则进行清洗的类型;
第三数据清洗模块,用于若所述信息项属于预设的根据所述第三规则进行清洗的类型,则将所述信息项的数据中所占数量比例的最大的数据作为所述信息项清洗后的数据;
第三数据判断模块,用于若判断所述信息项不属于根据所述第三规则进行清洗的类型,则继续判断所述信息项是否属于根据所述第四规则进行清洗的类型;
第四数据清洗模块,用于若所述信息项属于预设的根据所述第四规则进行清洗的类型,则将所述信息项的数据中所属对象的优先级最高的数据作为所述信息项清洗后的数据。
9.一种计算机可读存储介质,存储有程序,其特征在于,所述程序包括用于执行如权利要求1-5中任一项所述方法的指令。
10.一种计算机,包括存储有计算机程序的可读介质,其特征在于,所述程序包括用于执行如权利要求1-5中任一项所述方法的指令。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010051037.2A CN111291029B (zh) | 2020-01-17 | 2020-01-17 | 数据清洗方法及装置 |
PCT/CN2020/138010 WO2021143463A1 (zh) | 2020-01-17 | 2020-12-21 | 数据清洗方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010051037.2A CN111291029B (zh) | 2020-01-17 | 2020-01-17 | 数据清洗方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111291029A true CN111291029A (zh) | 2020-06-16 |
CN111291029B CN111291029B (zh) | 2024-03-08 |
Family
ID=71023404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010051037.2A Active CN111291029B (zh) | 2020-01-17 | 2020-01-17 | 数据清洗方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111291029B (zh) |
WO (1) | WO2021143463A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021143463A1 (zh) * | 2020-01-17 | 2021-07-22 | 深圳市华傲数据技术有限公司 | 数据清洗方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150019303A1 (en) * | 2013-07-11 | 2015-01-15 | Bank Of America Corporation | Data quality integration |
CN107193858A (zh) * | 2017-03-28 | 2017-09-22 | 福州金瑞迪软件技术有限公司 | 面向多源异构数据融合的智能服务应用平台和方法 |
CN107657049A (zh) * | 2017-09-30 | 2018-02-02 | 深圳市华傲数据技术有限公司 | 一种基于数据仓库的数据处理方法 |
CN109711685A (zh) * | 2018-12-14 | 2019-05-03 | 杨冰之 | 一种政务大数据处理平台 |
CN110597793A (zh) * | 2019-07-30 | 2019-12-20 | 深圳市华傲数据技术有限公司 | 数据管理方法及装置、电子设备和计算机可读存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9836488B2 (en) * | 2014-11-25 | 2017-12-05 | International Business Machines Corporation | Data cleansing and governance using prioritization schema |
CN109634949B (zh) * | 2018-12-28 | 2022-04-12 | 浙江大学 | 一种基于多数据版本的混合数据清洗方法 |
CN110196912B (zh) * | 2019-04-15 | 2022-09-23 | 贵州电网有限责任公司 | 一种基于信任规则网络的电网档案平行模型构建方法 |
CN111291029B (zh) * | 2020-01-17 | 2024-03-08 | 深圳市华傲数据技术有限公司 | 数据清洗方法及装置 |
-
2020
- 2020-01-17 CN CN202010051037.2A patent/CN111291029B/zh active Active
- 2020-12-21 WO PCT/CN2020/138010 patent/WO2021143463A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150019303A1 (en) * | 2013-07-11 | 2015-01-15 | Bank Of America Corporation | Data quality integration |
CN107193858A (zh) * | 2017-03-28 | 2017-09-22 | 福州金瑞迪软件技术有限公司 | 面向多源异构数据融合的智能服务应用平台和方法 |
CN107657049A (zh) * | 2017-09-30 | 2018-02-02 | 深圳市华傲数据技术有限公司 | 一种基于数据仓库的数据处理方法 |
CN109711685A (zh) * | 2018-12-14 | 2019-05-03 | 杨冰之 | 一种政务大数据处理平台 |
CN110597793A (zh) * | 2019-07-30 | 2019-12-20 | 深圳市华傲数据技术有限公司 | 数据管理方法及装置、电子设备和计算机可读存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021143463A1 (zh) * | 2020-01-17 | 2021-07-22 | 深圳市华傲数据技术有限公司 | 数据清洗方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111291029B (zh) | 2024-03-08 |
WO2021143463A1 (zh) | 2021-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112685385B (zh) | 一种用于智慧城市建设的大数据平台 | |
CN110347719A (zh) | 一种基于大数据的企业外贸风险预警方法及系统 | |
CN109754219A (zh) | 一种基于城市管理的大数据管理及分析平台系统 | |
CN114398669A (zh) | 基于隐私保护计算和跨组织的联合信用评分方法及装置 | |
Barrientos et al. | Interpretable knowledge extraction from emergency call data based on fuzzy unsupervised decision tree | |
CN110163458A (zh) | 基于人工智能技术的数据资产管理与监测方法 | |
CN114649074A (zh) | 一种病历数据处理方法、平台和装置 | |
CN108305163A (zh) | 基于特征库的信用预警方法及系统 | |
CN115358522A (zh) | 一种企业在线监测系统和方法 | |
CN111143394A (zh) | 知识数据处理方法、装置、介质及电子设备 | |
CN111291029A (zh) | 数据清洗方法及装置 | |
CN111353085A (zh) | 一种基于特征模型的云挖掘分析网络舆情方法 | |
Srikanth et al. | Dynamic social media monitoring for fast-evolving online discussions | |
CN110889632B (zh) | 一种公司形象提升系统的数据监测分析系统 | |
CN110502529B (zh) | 数据处理方法、装置、服务器及存储介质 | |
CN114385820A (zh) | 一种企业级审计知识图谱构建方法 | |
CN112507006A (zh) | 基于云端的电网企业运行数据整合系统 | |
CN116028467A (zh) | 智能服务大数据建模方法、系统、存储介质及计算机设备 | |
CN113160018B (zh) | 一种社会救助统筹与预警分析系统 | |
CN116089490A (zh) | 数据分析方法、装置、终端和存储介质 | |
Yusifov | Using public registers for development of electronic demography system: The case of Azerbaijan | |
Rizzoli et al. | The identity‐attitude nexus in the representation of energy transition in a coal region (Sulcis, Italy): An exploration through the Structural Topic Model | |
Meng et al. | Research on the typical application of knowledge graph in power marketing | |
Leese | Data quality in governance: A definition and a research agenda | |
CN115809256B (zh) | 治安管理综合信息系统和可视化展示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 518000 2203/2204, Building 1, Huide Building, Beizhan Community, Minzhi Street, Longhua District, Shenzhen, Guangdong Patentee after: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd. Country or region after: China Address before: Unit 12J and K, Building 7, Baoneng Science and Technology Park, Qinghu Community, Longhua Street, Longhua District, Shenzhen City, Guangdong Province, 518000 Patentee before: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd. Country or region before: China |
|
CP03 | Change of name, title or address |