CN111831629A - 一种数据处理方法及装置 - Google Patents
一种数据处理方法及装置 Download PDFInfo
- Publication number
- CN111831629A CN111831629A CN201910297319.8A CN201910297319A CN111831629A CN 111831629 A CN111831629 A CN 111831629A CN 201910297319 A CN201910297319 A CN 201910297319A CN 111831629 A CN111831629 A CN 111831629A
- Authority
- CN
- China
- Prior art keywords
- data
- data table
- same
- field
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000004140 cleaning Methods 0.000 claims abstract description 85
- 238000000034 method Methods 0.000 claims abstract description 52
- 230000004927 fusion Effects 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000012216 screening Methods 0.000 claims abstract description 29
- 238000011086 high cleaning Methods 0.000 claims abstract description 8
- 238000003860 storage Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 27
- 238000013499 data model Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据处理方法及装置,涉及计算机技术领域,主要目的在于创建智能化的数据清洗流程,降低人工参与度,提高数据清洗的效率。本发明主要的技术方案为:根据待处理数据表的属性字段确定数据清洗规则,所述数据清洗规则至少包括具有同属性字段的多个待处理数据表的清洗优先级;根据融合数据表的主键从所述多个待处理数据表中筛选出同主键数据表,所述融合数据表用于记录所述同主键数据表中经过清洗的数据;将所述清洗优先级高的同主键数据表中的数据添加至所述融合数据表,所述数据对应于同主键数据表中的同属性字段。本发明主要用于清洗多来源数据表中的数据。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据处理方法及装置。
背景技术
数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素,大数据时代已经来临。大数据的爆炸式增长在大容量、多样性和高增速方面,考验着现代企业的数据处理和分析能力,同时,也为企业带来了获取更丰富、更深入和更准确地洞察市场行为的大量机会。当前,最重要的现实是对大数据进行处理分析,只有通过处理分析才能获取很多智能的、深入的、有价值的信息。
相比于传统的数据处理,目前常规的大数据处理工具有两类:传统的ETL(Extract-Transform-Load,抽取、转换、加载)工具和基于Hadoop(Hadoop DistributedFile System,分布式文件系统)的大数据采集工具。
目前,用户对于大数据处理的融合集成度要求越来越高。然而目前常规的大数据处理工具对于大数据这种多源、异构、海量的数据,在处理方面存在欠缺,数据处理过程人工参与度高,数据处理不精细、效率低,尤其是对于不同来源的同属性数据,在进行清洗时往往需要人工确认数据的有效性,导致在对海量数据进行清洗时成本升高,清洗数据的利用价值降低。
发明内容
鉴于上述问题,本发明提出了一种数据处理方法及装置,主要目的在于创建智能化的数据清洗流程,降低人工参与度,提高数据清洗的效率。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明提供一种数据处理方法,具体包括:
根据待处理数据表的属性字段确定数据清洗规则,所述数据清洗规则至少包括具有同属性字段的多个待处理数据表的清洗优先级;
根据融合数据表的主键从所述多个待处理数据表中筛选出同主键数据表,所述融合数据表用于记录所述同主键数据表中经过清洗的数据;
将所述清洗优先级高的同主键数据表中的数据添加至所述融合数据表,所述数据对应于同主键数据表中的同属性字段。
另一方面,本发明提供一种数据处理装置,具体包括:
确定单元,用于根据待处理数据表的属性字段确定数据融合规则,所述数据融合规则至少包括具有同属性字段的多个待处理数据表的清洗优先级;
表筛选单元,用于根据融合数据表的主键从所述多个待处理数据表中筛选出同主键数据表,所述融合数据表用于记录所述同主键数据表中经过清洗的数据;
数据清洗单元,用于将所述表筛选单元选出的清洗优先级高的同主键数据表中的数据添加至所述融合数据表,所述数据对应于同主键数据表中的属性字段。
另一方面,本发明提供一种存储介质,所述存储介质用于存储计算机程序,其中,所述计算机程序运行时控制所述存储介质所在设备执行上述的数据处理方法。
另一方面,本发明提供一种电子设备,所述电子设备中包括处理器和存储器,所述处理器用于调用所述存储器中的程序指令,以执行上述的数据处理方法。
借由上述技术方案,本发明提供的一种数据处理方法及装置,用于对大量数据表中的数据进行清洗处理以构建数据仓库,其处理流程是基于待处理数据表的属性字段确定具有同属性字段的多个待处理数据表的清洗优先级,并从待处理数据表中选出与所需融合数据表的主键相同的数据表,再在这些数据表中匹配出所具有的同属性字段,最终利用清洗优先级对这些同主键数据表中的同属性字段所对应的数据进行清洗,得到含有数据的融合数据表。由此可见,本发明处理数据的过程是对待处理数据表先按照主键进行筛选,并针对具有同主键的数据表进一步筛选出所具有的同属性字段,并且认为在同主键数据表中同属性字段所对应的数据为相同的数据内容,需要进行清洗处理,并利用确定的清洗优先级进行自动化的数据清洗,不再需要人工对不同数据表以及表中属性字段之间的相关性进行分析、核实,大大提高了数据清洗的处理效率,同时也降低了清洗处理的人工成本。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了一种构建数据仓库的流程示意图;
图2示出了本发明实施例提出的一种数据处理方法的流程图;
图3示出了本发明实施例提出的同主键数据表筛选方法的流程图;
图4示出了本发明实施例提出的同属性字段匹配方法的流程图;
图5示出了本发明实施例提出的另一种数据处理方法的流程图;
图6示出了本发明实施例提出的一种数据处理装置的组成框图;
图7示出了本发明实施例提出的另一种数据处理装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明实施例提供的一种数据处理方法,主要应用于构建数据仓库的过程中,对大量的经过标准化处理的数据表进行数据清洗的处理过程中。目前常规的数据仓库构建流程如图1所示,图中将构建数据仓库的流程分为多个层级,首先通过STG层(数据缓冲层)获取各个业务系统的原始数据表,之后由ODS层(标准化层)对原始数据表进行标准化处理,如时间标准化、乱码处理、维度标准化等处理,同时也会标注数据表的主键字段(其可以是单个字段主键或者是多个字段组成的联合主键),再通过在DWD层(数据模型层)选定的标准数据模型定义所需融合后的融合数据表的内容,包括表的主键、属性字段等,再基于由ETL工具开发的数据清洗逻辑进行数据清洗,而在该清洗过程中,数据清洗逻辑的开发与设计就需要人工对大量原始数据表的主键、属性字段等信息进行分析,判断不同数据表中数据内容的相关性,而这一过程需要针对不同的行业、领域进行区别处理,采用人工分析需要大量人工成本,而且存在人为的主观误差,使得数据清洗的准确性下降。因此,本发明就是针对上述过程中所存在的问题进行改进优化的技术方案,该方案实现的具体步骤如图2所示,包括:
步骤101、根据待处理数据表的属性字段确定数据清洗规则。
该步骤中,待处理数据表为经过ODS层标准化处理的数据表集合,具有标准结构的表属性,因此,在对这些数据表中的数据进行清洗时,需要先确定数据清洗规则,该数据清洗规则用于确定具有同属性字段的多个待处理数据表的清洗优先级,比如统计人员婚姻信息,人社局、公安局、民政局的数据表中都有,清洗优先级就是定义哪个来源的数据表中提供的人员婚姻信息更为准确,在进行数据清洗时就使用优先级高的数据表中的数据。
一般的,该数据清洗规则是预先设置的,其中记录有不同属性字段对应的数据清洗规则,而在确定多个待处理数据表后,会根据这些待处理数据表中所含有的属性字段,从预先设置的数据清洗规则中确定相同属性字段的清洗优先级。本实施例中,数据清洗规则也可以是基于多个待处理数据表的属性字段由人为设定一个含有清洗优先级数据的清洗规则表。
步骤102、根据融合数据表的主键从多个待处理数据表中筛选出同主键数据表。
其中,融合数据表是在执行数据清洗之前由标准数据模型确定的,用于记录从多个同主键数据表中经过清洗的数据。通过标准数据模型可以确定该融合数据表的表结构,同时还会标识该表的主键,以及主键的字段语义等信息。数据表主键,指的是一个列或多列的组合,其值能唯一地标识表中的每一行,通过它可强制表的实体完整性。主键主要是用于与其他数据表的外键关联,以及本记录的修改与删除。
本步骤在具体执行时,基于融合数据表的主键从多个待处理数据表中筛选出具有相同主键的数据表,其中,相同主键的定义是指主键字段相同,或者是主键字段语义相同。对于语义匹配的具体实现方式,本发明实施例不做具体限定。
通过本步骤得到的是一个具有同主键的数据表集合,这些数据表中所记录的数据内容被认为是针对同一实体由不同业务系统(即不同来源的数据表)所记录的数据。
之后,针对具有同主键的多个数据表,匹配数据表之间是否具有相同属性字段,本实施例中,同属性字段与同主键的含义类似,是指表中的属性字段相同,或者是属性字段的语义相同。
需要说明的是,同属性字段是指在同主键数据表中有多个数据表具有即可,而不是所有同主键数据表都具有,即同主键数据表中有至少两个数据表中存在字段或字段语义相同的属性时,就确定该属性为同属性字段。通过确定同属性字段可以确定出同主键数据表中哪些属性相同,即数据所记录的数据内容是重叠的,需要进行数据清洗。
步骤103、将清洗优先级高的同主键数据表中的数据添加至融合数据表,该数据对应于同主键数据表中的同属性字段。
本步骤是基于数据清洗规则中所携带的清洗优先级对同主键数据表中的数据进行清洗,并将清洗后的数据写入融合数据表中。其中,对同主键数据表中的数据进行清洗时,对于同属性字段的数据,是根据清洗优先级所确定的数据来源,取高优先级来源的数据,若数据清洗规则中为未记载有同属性字段的清洗优先级,则需要发送报错信息,由人工进行处理,或者是在融合数据表中分别记录,并标记该同属性字段所对应的数据来源以做区别;而对于不同属性字段的数据,则可以根据融合数据表中设置的属性字段进行匹配,若存在,则直接加载数据,反之,则放弃记录该属性字段对应的数据内容。
通过上述实施例可见,本发明实施例所提供的一种数据处理方法,是按照待处理数据表中的主键进行分类,得到多个不同主键的数据表集合,在针对每个同主键数据表集合,匹配出该集合中数据表所共有的属性字段,针对这些同属性字段利用预设的清洗优先级对该集合同主键数据表中同属性字段对应的数据进行清洗,将清洗后的数据加载到融合数据表中。相对于现有人工过多参与对数据表间同主键、同属性字段的识别判断,从而降低了数据清洗处理的人工成本,提高了数据清洗的处理效率以及数据自身的价值。
进一步的,在构建数据仓库的实际应用中,基于上述实施例可知,在对待处理数据表进行数据清洗之前,需要对数据清洗规则、标准数据模型、属性字段等信息进行预先设置,对此,由于具体应用场景的区别化设置,在执行数据清洗时,就需要针对所设置的内容进行初始化,具体的,本发明中需要初始化的内容至少包括:属性字段(包括数据标的主键)、标准数据模型、数据清洗规则。
初始化属性字段是为了定义待处理数据表有哪些属性,哪些主键,对于经过ODS层标准化处理的数据表,一般都会明确表中的主键字段,比如:“人口基本信息表”以身份证ID作为主键;“工商注册信息”以统一信用代码作为主键;“药品基本信息表”以药品编号作为主键等,这些主键能够符合特定的正则表达式,如身份证是由18位数字组成等。经过初始化后的属性字段如表1所示:
表1
该表中的关键词表示属性字段的内容符合字段规则的属性字段,即在不同待处理数据表中,具有相同语义的属性字段,其可能采用的字段名称。
初始化标准数据模型是为了确定针对待处理数据表所使用的数据模型,该标准数据模型是根据用户需求进行数据建模抽象形成的数据模型,该准数据模型定义了一套完整的表结构,并标识了该表的主键以及主键对应的属性字段。一般地,标准数据模型会根据应用的领域、行业不同而预先设置多个,该初始化的目的是确定用户所需的标准数据模型,从而得到构建数据仓库所需的融合数据表。
初始化数据清洗规则,也是要确定针对用户所需的属性字段对应的数据进行清洗时,所依据的具体规则,其具体的初始化过程如图2所示实施例中的步骤101的内容,即确定具有同属性字段的待处理数据表的清洗优先级。如,对于人员婚姻信息,人社局、公安局、民政局都有,在清洗过程中,需要找出各个部门婚姻属性的表清单、然后确定数据清洗时的优先级。该数据清洗规则如下表2所示:
规则ID | 字段名称 | 规则类型 | 规则内容 |
1 | 身份证 | 法定来源 | 公安局 |
2 | 性别 | 法定来源 | 公安局 |
3 | 婚姻状态 | 组合来源 | 民政->社保->公安 |
4 | 地址 | 组合来源 | 公安->社保->民政 |
表2
在初始化数据清洗规则时,首先会提取待处理数据表中目标属性字段,该目标属性字段是基于上述初始化属性字段得到的,一般由用户根据需求进行自定义设置,之后,获取所述目标属性字段对应的清洗优先级,该清洗优先级用于表示清洗数据时所采用不同来源的待处理数据表顺序,即获取用户指定的规则类型与规则内容,对于法定来源的,指定其唯一来源,对于组合来源的,需要指定来源数据的优先级,比如表2中对婚姻状态的清洗优先级为民政局的数据表高于社保的数据表,而社保的数据表又高于公安的数据表,即民政局提供的婚姻状态数据是最为准确的。最终,根据用户的设置(清洗优先级)生成对应目标属性字段的数据清洗规则表。
进一步的,基于上述的初始化内容,在对多个待处理数据表进行数据清洗时,需要根据标准数据模型对应的融合数据表的主键进行分类,得到针对于主键的数据表集合,即同主键数据表。在本发明的一个优选实施例中,其具体实现过程如图3所示,包括:
步骤201、利用融合数据表的主键匹配待处理数据表的主键,得到具有相同主键的第一表集合。
该第一表集合中的数据表所具有的主键是主键字段的内容相同或近似的,比如,在表1中,若主键字段为“身份证”时,那么第一表集合中的数据表就是从各个部门所获取的“人口基本信息表”,而各个部门中针对“人口基本信息表”所设置的主键,有可能为“身份证”,也可能为:“驾照”或者“社会保障代码”,因此,该步骤就是匹配主键字段,将字段相同以及字段语义相同的表确定为同主键数据表。
具体的,对于主键字段的字段名称不同时,需要根据字段名称的语义进行识别,以判断两个数据表是否具有相同主键,该语义识别可以是基于表1中字段名称的关键词进行匹配,也可以是利用语义相似度算法,计算融合数据表的主键与待处理数据表的主键的字段名称语义相似度值,通过判断该语义相似度值是否大于预设的阈值,若大于,则确定为相同主键,并将待处理数据表加入第一表集合。
步骤202、利用融合数据表的注释信息匹配待处理数据表的注释信息,得到具有相同注释信息的第二表集合。
本步骤是在上述步骤201判断待处理数据表的主键与融合数据表的主键不同时,进行的进一步验证操作。该验证过程是针对待处理数据表的注释信息执行的,该注释信息包括表描述信息、字段描述信息、字段关键词等,该验证操作具体包括:
首先,分别识别融合数据表的注释信息与待处理数据表的注释信息所含有的关键词,得到第一关键词集合与第二关键词集合。
其次,利用相关度算法确定第一关键词集合与第二关键词集合的相关度是否大于阈值。其中,相关度算法为基于语义的相似度计算,其具体算法不做具体限定。
需要说明的是,此处在判断相关度时,计算的是两个关键词集合的相关度,即,集合的相关性,是对两个集合中所有的关键词之间相似度的总体衡量,其具体的判断规则可以由用户根据实际需求进行设置。
最后,将相关度大于阈值的待处理数据表加入第二表集合。
步骤203、将第一表集合与第二表集合取并集,将并集中的数据表确定为同主键数据表。
进一步的,基于上述的初始化内容,以及同主键数据表的筛选过程,本发明的另一优选实施例中,针对所筛选出的一组同主键数据表具体说明图1所示实施例中如何匹配该组同主键数据表中的同属性字段。其具体实现过程如图4所示,包括:
步骤301、根据同主键数据表中含有的属性字段,提取存在于多个同主键数据表中的属性字段,得到第一字段集合。
本实施例中,对同属性字段的判断,是指在至少两个数据表中都具有的属性字段,在具体匹配时,需要对每个同主键数据表中的属性字段进行逐一匹配,而本实施例中的同属性字段不限定是字段内容相同,也包括属性字段的语义,或该属性注释信息的语义相同,其应用语义识别的具体方式包括:
首先,基于属性字段的字段语义判断该属性字段是否存在于多个同主键数据表中。
其中,基于该字段语义判断也是基于相似度计算,通过预设阈值确定属性字段是否存在与多个数据表中。
若存在,则将该属性字段加入第一字段集合。
若不存在,则基于该属性字段的注释信息语义,将语义相关度大于阈值,且存在于多个同主键数据表中的属性字段加入第一字段集合。
属性字段的注释信息是指数据表中标注的针对该属性字段的信息,如属性描述信息,字段描述信息以及字段关键词等。此外,对于注释信息的语义相关度与上述图3中所说明的集合相关度判断相似,也是根据注释信息获取对应的关键词集合,进而根据相似度计算来确定两个关键词集合之间的相关度。
步骤302、利用数据清洗规则中含有的属性字段匹配融合数据表中的属性字段,得到第二字段集合。
上述的第一字段集合,是指同主键数据表中的同属性字段。而该步骤中第二字段集合中所记载的内容是指针对融合数据表中需要记录的数据的属性字段,即在融合数据表中具有数据清洗规则所含有的的属性字段。即,该步骤所匹配出的第二字段集合中所含有的属性字段为数据清洗规则与融合数据表中所共有的属性字段。
步骤303、将第一字段集合与第二字段集合取交集,将交集中的属性字段确定为同属性字段。
经过上述步骤,可以得到同主键数据表中所具有的同属性字段,并且,该同属性字段还对应有数据清洗规则所设定的清洗优先级。
综合上述实施例的内容,本发明提出了数据处理方法的一个优选实施例,具体如图5所示,包括:
步骤401、根据待处理数据表的属性字段确定具有同属性字段的多个待处理数据表的清洗优先级。
同时,本步骤还是对属性字段、生成融合数据表的标准数据模型的初始化操作。
步骤402、利用融合数据表的主键匹配待处理数据表的主键,得到具有相同主键的第一表集合。
步骤403、利用融合数据表的注释信息匹配待处理数据表的注释信息,得到具有相同注释信息的第二表集合。
步骤404、将第一表集合与第二表集合并集中的数据表确定为同主键数据表。
步骤405、根据同主键数据表中含有的属性字段,提取存在于多个同主键数据表中的属性字段,得到第一字段集合。
步骤406、利用数据清洗规则中含有的属性字段匹配融合数据表中的属性字段,得到第二字段集合。
步骤407、将第一字段集合与第二字段集合交集中的属性字段确定为同属性字段。
步骤408、将清洗优先级高的同主键数据表中的数据添加至融合数据表,该数据对应于同属性字段。
进一步的,通过上述实施例所提出的数据处理方法步骤可以看出,在构建数据仓库的过程中,利用对标准化的数据表进行同主键、同属性字段的筛选,实现待处理数据的自动识别与提取,并利用预置的数据清洗规则对这些数据进行清洗,以降低人工参与度,降低处理成本。而为了能够将数据清洗规则复用到与待处理数据表相关领域或行业中,针对本发明的执行流程,可以将其映射为标准化的数据清洗逻辑,比如,可以将上述的流程,映射为ETL工具能够识别执行的脚本程序,如此,假设在针对某一城市的管理数据进行数据清洗时,就可以针对该城市的数据清洗得到大量的数据清洗的脚本程序,也就是数据清洗逻辑,这样,在对其他城市的管理数据进行类似的数据清洗时,由于城市中组织结构近似,就可以复用这些脚本程序直接进行对数据表内数据的清洗,构建城市管理数据的数据仓库。
进一步的,作为对上述图2-5所示方法的实现,本发明实施例提供了一种数据处理装置,该装置主要用于创建智能化的数据清洗流程,降低人工参与度,提高数据清洗的效率。为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置如图6所示,具体包括:
确定单元51,用于根据待处理数据表的属性字段确定具有同属性字段的多个待处理数据表的清洗优先级;
表筛选单元52,用于根据融合数据表的主键从所述多个待处理数据表中筛选出同主键数据表,所述融合数据表用于记录所述同主键数据表中经过清洗的数据;
数据清洗单元53,用于将所述表筛选单元52选出的清洗优先级高的同主键数据表中的数据添加至所述融合数据表,所述数据对应于同主键数据表中的同属性字段。
进一步的,如图7所示,所述表筛选单元52包括:
第一筛选模块521,用于利用所述融合数据表的主键匹配待处理数据表的主键,得到具有相同主键的第一表集合;
第二筛选模块522,用于利用所述融合数据表的注释信息匹配待处理数据表的注释信息,得到具有相同注释信息的第二表集合,所述注释信息包括表描述信息、字段描述信息、字段关键词;
表确定模块523,用于将所述第一筛选模块521得到的第一表集合与第二筛选模块522得到的第二表集合并集中的数据表确定为所述同主键数据表。
进一步的,所述第一筛选模块521具体用于:
计算所述融合数据表的主键与待处理数据表的主键的语义相似度;
在所述语义相似度大于阈值时,将所述待处理数据表加入第一表集合。
进一步的,所述第二筛选模块522具体用于:
分别识别所述融合数据表的注释信息与待处理数据表的注释信息所含有的关键词,得到第一关键词集合与第二关键词集合;
利用相关度算法确定第一关键词集合与第二关键词集合的相关度是否大于阈值;
若大于,将所述待处理数据表加入第二表集合。
进一步的,如图7所示,所述装置包括:
字段匹配单元54,用于匹配所述表筛选单元52得到的同主键数据表中具有的同属性字段。
进一步的,如图7所示,所述字段匹配单元54包括:
第一匹配模块541,用于根据所述同主键数据表中含有的属性字段,提取存在于多个同主键数据表中的属性字段,得到第一字段集合;
第二匹配模块542,用于利用数据清洗规则中的清洗属性字段匹配所述融合数据表中的属性字段,得到第二字段集合;
字段确定模块543,用于将所述第一匹配模块541得到的第一字段集合与第二匹配模块542得到的第二字段集合交集中的属性字段确定为所述同属性字段。
进一步的,所述第一匹配模块541具体用于:
基于所述属性字段的字段语义判断所述属性字段是否存在于多个同主键数据表中;
若存在,则将所述属性字段加入第一字段集合;
若不存在,则基于所述属性字段的注释信息语义,将语义相关度大于阈值,且存在于多个同主键数据表中的属性字段加入第一字段集合。
进一步的,本发明实施例还提供了处理器,该处理器用于运行程序,其中,所述程序运行时执行如图2至图5所述的数据处理方法。
另外,本发明实施例还提供了一种电子设备,该电子设备中包括处理器和存储器,存储器用于存储程序,处理器耦合至所述存储器,用于运行所述程序,以执行如图2至图5所述的数据处理方法。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (16)
1.一种数据处理方法,其特征在于,所述方法包括:
根据待处理数据表的属性字段确定数据清洗规则,所述数据清洗规则至少包括具有同属性字段的多个待处理数据表的清洗优先级;
根据融合数据表的主键从所述多个待处理数据表中筛选出同主键数据表,所述融合数据表用于记录所述同主键数据表中经过清洗的数据;
将所述清洗优先级高的同主键数据表中的数据添加至所述融合数据表,所述数据对应于同主键数据表中的同属性字段。
2.根据权利要求1所述的方法,其特征在于,根据融合数据表的主键从所述多个待处理数据表中筛选出同主键数据表,具体包括:
利用所述融合数据表的主键匹配待处理数据表的主键,得到具有相同主键的第一表集合;
利用所述融合数据表的注释信息匹配待处理数据表的注释信息,得到具有相同注释信息的第二表集合,所述注释信息包括表描述信息、字段描述信息、字段关键词;
将所述第一表集合与第二表集合并集中的数据表确定为所述同主键数据表。
3.根据权利要求2所述的方法,其特征在于,利用所述融合数据表的主键匹配待处理数据表的主键,得到具有相同主键的第一表集合,具体包括:
计算所述融合数据表的主键与待处理数据表的主键的语义相似度;
在所述语义相似度大于阈值时,将所述待处理数据表加入第一表集合。
4.根据权利要求2所述的方法,其特征在于,利用所述融合数据表的注释信息匹配待处理数据表的注释信息,得到具有相同注释信息的第二表集合,具体包括:
分别识别所述融合数据表的注释信息与待处理数据表的注释信息所含有的关键词,得到第一关键词集合与第二关键词集合;
利用相关度算法确定第一关键词集合与第二关键词集合的相关度是否大于阈值;
若大于,将所述待处理数据表加入第二表集合。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述方法还包括:
匹配所述同主键数据表中具有的同属性字段。
6.根据权利要求5所述的方法,其特征在于,匹配所述同主键数据表中具有的同属性字段,包括:
根据所述同主键数据表中含有的属性字段,提取存在于多个同主键数据表中的属性字段,得到第一字段集合;
利用数据清洗规则中含有的属性字段匹配所述融合数据表中的属性字段,得到第二字段集合;
将所述第一字段集合与第二字段集合交集中的属性字段确定为所述同属性字段。
7.根据权利要求6所述的方法,其特征在于,根据所述同主键数据表中含有的属性字段,提取存在于多个同主键数据表中的属性字段,具体包括:
基于所述属性字段的字段语义判断所述属性字段是否存在于多个同主键数据表中;
若存在,则将所述属性字段加入第一字段集合;
若不存在,则基于所述属性字段的注释信息语义,将语义相关度大于阈值,且存在于多个同主键数据表中的属性字段加入第一字段集合。
8.一种数据处理装置,其特征在于,所述装置包括:
确定单元,用于根据待处理数据表的属性字段确定数据融合规则,所述数据融合规则至少包括具有同属性字段的多个待处理数据表的清洗优先级;
表筛选单元,用于根据融合数据表的主键从所述多个待处理数据表中筛选出同主键数据表,所述融合数据表用于记录所述同主键数据表中经过清洗的数据;
数据清洗单元,用于将所述表筛选单元选出的清洗优先级高的同主键数据表中的数据添加至所述融合数据表,所述数据对应于同主键数据表中的属性字段。
9.根据权利要求8所述的装置,其特征在于,所述表筛选单元包括:
第一筛选模块,用于利用所述融合数据表的主键匹配待处理数据表的主键,得到具有相同主键的第一表集合;
第二筛选模块,用于利用所述融合数据表的注释信息匹配待处理数据表的注释信息,得到具有相同注释信息的第二表集合,所述注释信息包括表描述信息、字段描述信息、字段关键词;
表确定模块,用于将所述第一筛选模块得到的第一表集合与第二筛选模块得到的第二表集合并集中的数据表确定为所述同主键数据表。
10.根据权利要求9所述的装置,其特征在于,所述第一筛选模块具体用于:
计算所述融合数据表的主键与待处理数据表的主键的语义相似度;
在所述语义相似度大于阈值时,将所述待处理数据表加入第一表集合。
11.根据权利要求9所述的装置,其特征在于,所述第二筛选模块具体用于:
分别识别所述融合数据表的注释信息与待处理数据表的注释信息所含有的关键词,得到第一关键词集合与第二关键词集合;
利用相关度算法确定第一关键词集合与第二关键词集合的相关度是否大于阈值;
若大于,将所述待处理数据表加入第二表集合。
12.根据权利要求8-11中任一项所述的装置,其特征在于,所述装置还包括:
字段匹配单元,用于匹配所述表筛选单元得到的同主键数据表中具有的同属性字段。
13.根据权利要求12所述的装置,其特征在于,所述字段匹配单元包括:
第一匹配模块,用于根据所述同主键数据表中含有的属性字段,提取存在于多个同主键数据表中的属性字段,得到第一字段集合;
第二匹配模块,用于利用数据清洗规则中含有的属性字段匹配所述融合数据表中的属性字段,得到第二字段集合;
字段确定模块,用于将所述第一匹配模块得到的第一字段集合与第二匹配模块得到的第二字段集合交集中的属性字段确定为所述同属性字段。
14.根据权利要求13所述的装置,其特征在于,所述第一匹配模块具体用于:
基于所述属性字段的字段语义判断所述属性字段是否存在于多个同主键数据表中;
若存在,则将所述属性字段加入第一字段集合;
若不存在,则基于所述属性字段的注释信息语义,将语义相关度大于阈值,且存在于多个同主键数据表中的属性字段加入第一字段集合。
15.一种存储介质,其特征在于,所述存储介质用于存储计算机程序,其中,所述计算机程序运行时控制所述存储介质所在设备执行权利要求1-7中任意一项所述的数据处理方法。
16.一种电子设备,其特征在于,所述电子设备中包括处理器和存储器,所述处理器用于调用所述存储器中的程序指令,以执行权利要求1-7中任意一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910297319.8A CN111831629B (zh) | 2019-04-15 | 2019-04-15 | 一种数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910297319.8A CN111831629B (zh) | 2019-04-15 | 2019-04-15 | 一种数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111831629A true CN111831629A (zh) | 2020-10-27 |
CN111831629B CN111831629B (zh) | 2024-05-03 |
Family
ID=72915383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910297319.8A Active CN111831629B (zh) | 2019-04-15 | 2019-04-15 | 一种数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111831629B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597154A (zh) * | 2020-12-11 | 2021-04-02 | 广州橙行智动汽车科技有限公司 | 一种数据的存储方法、装置、电子设备、可读介质 |
CN112860743A (zh) * | 2021-01-26 | 2021-05-28 | 恩亿科(北京)数据科技有限公司 | 用于数据提取的方法、装置及设备 |
CN113254446A (zh) * | 2021-05-26 | 2021-08-13 | 深圳壹账通智能科技有限公司 | 数据融合方法、装置、电子设备及介质 |
CN113407536A (zh) * | 2021-06-10 | 2021-09-17 | 平安科技(深圳)有限公司 | 表数据的关联方法、装置、终端设备及介质 |
CN113761185A (zh) * | 2021-01-06 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 主键提取方法、设备及存储介质 |
CN115543977A (zh) * | 2022-09-29 | 2022-12-30 | 河北雄安睿天科技有限公司 | 一种供水行业数据清洗方法 |
CN115840742A (zh) * | 2023-02-13 | 2023-03-24 | 每日互动股份有限公司 | 一种数据清洗方法、装置、设备及介质 |
CN113407536B (zh) * | 2021-06-10 | 2024-05-31 | 平安科技(深圳)有限公司 | 表数据的关联方法、装置、终端设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106909689A (zh) * | 2017-03-07 | 2017-06-30 | 山东浪潮云服务信息科技有限公司 | 一种数据融合方法及装置 |
US20170286504A1 (en) * | 2016-03-31 | 2017-10-05 | Mckesson Corporation | Methods and apparatuses for improved data ingestion using standardized plumbing fields |
CN107239581A (zh) * | 2017-07-07 | 2017-10-10 | 小草数语(北京)科技有限公司 | 数据清洗方法及装置 |
US20180260435A1 (en) * | 2017-03-13 | 2018-09-13 | Molbase (Shanghai) Biotechnology Co., Ltd. | Redis-based database data aggregation and synchronization method |
-
2019
- 2019-04-15 CN CN201910297319.8A patent/CN111831629B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170286504A1 (en) * | 2016-03-31 | 2017-10-05 | Mckesson Corporation | Methods and apparatuses for improved data ingestion using standardized plumbing fields |
CN106909689A (zh) * | 2017-03-07 | 2017-06-30 | 山东浪潮云服务信息科技有限公司 | 一种数据融合方法及装置 |
US20180260435A1 (en) * | 2017-03-13 | 2018-09-13 | Molbase (Shanghai) Biotechnology Co., Ltd. | Redis-based database data aggregation and synchronization method |
CN107239581A (zh) * | 2017-07-07 | 2017-10-10 | 小草数语(北京)科技有限公司 | 数据清洗方法及装置 |
Non-Patent Citations (1)
Title |
---|
张晋辉;刘清;: "基于推理机的SCI地址字段数据清洗方法设计", 情报科学, no. 05, 15 May 2010 (2010-05-15) * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597154A (zh) * | 2020-12-11 | 2021-04-02 | 广州橙行智动汽车科技有限公司 | 一种数据的存储方法、装置、电子设备、可读介质 |
CN113761185A (zh) * | 2021-01-06 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 主键提取方法、设备及存储介质 |
CN112860743A (zh) * | 2021-01-26 | 2021-05-28 | 恩亿科(北京)数据科技有限公司 | 用于数据提取的方法、装置及设备 |
CN113254446A (zh) * | 2021-05-26 | 2021-08-13 | 深圳壹账通智能科技有限公司 | 数据融合方法、装置、电子设备及介质 |
CN113407536A (zh) * | 2021-06-10 | 2021-09-17 | 平安科技(深圳)有限公司 | 表数据的关联方法、装置、终端设备及介质 |
CN113407536B (zh) * | 2021-06-10 | 2024-05-31 | 平安科技(深圳)有限公司 | 表数据的关联方法、装置、终端设备及介质 |
CN115543977A (zh) * | 2022-09-29 | 2022-12-30 | 河北雄安睿天科技有限公司 | 一种供水行业数据清洗方法 |
CN115840742A (zh) * | 2023-02-13 | 2023-03-24 | 每日互动股份有限公司 | 一种数据清洗方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111831629B (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111831629A (zh) | 一种数据处理方法及装置 | |
TWI718643B (zh) | 異常群體識別方法及裝置 | |
WO2019200752A1 (zh) | 基于语义理解的兴趣点查询方法、装置和计算机设备 | |
WO2022105115A1 (zh) | 问答对匹配方法、装置、电子设备及存储介质 | |
US11294960B1 (en) | Entity mapping | |
CN109543925B (zh) | 基于机器学习的风险预测方法、装置、计算机设备和存储介质 | |
CN109508879B (zh) | 一种风险的识别方法、装置及设备 | |
CN108241867B (zh) | 一种分类方法及装置 | |
CN111262730B (zh) | 一种告警信息的处理方法及装置 | |
TW201923629A (zh) | 資料處理方法及裝置 | |
CN111143578A (zh) | 基于神经网络抽取事件关系的方法、装置和处理器 | |
CN111985201B (zh) | 一种数据处理规则生成方法、装置及电子设备 | |
US20180247226A1 (en) | Classifier | |
CN107729330B (zh) | 获取数据集的方法和装置 | |
CN113538154A (zh) | 风险对象的识别方法、装置、存储介质和电子设备 | |
CN110232156B (zh) | 基于长文本的信息推荐方法及装置 | |
CN114372060A (zh) | 数据存储方法、装置、设备及存储介质 | |
CN114510487A (zh) | 数据表合并方法、装置、设备及存储介质 | |
CN110737432A (zh) | 一种基于词根表的脚本辅助设计方法及装置 | |
CN114328681A (zh) | 一种数据转换方法、装置、电子设备及存储介质 | |
US20140037154A1 (en) | Automatically determining a name of a person appearing in an image | |
CN110874366A (zh) | 数据处理、查询方法和装置 | |
CN112801784A (zh) | 一种数字货币交易所的比特币地址挖掘方法及装置 | |
CN113065947A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN106874286B (zh) | 一种筛选用户特征的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |