CN107229621A - 差异数据的清洗方法及装置 - Google Patents

差异数据的清洗方法及装置 Download PDF

Info

Publication number
CN107229621A
CN107229621A CN201610169963.3A CN201610169963A CN107229621A CN 107229621 A CN107229621 A CN 107229621A CN 201610169963 A CN201610169963 A CN 201610169963A CN 107229621 A CN107229621 A CN 107229621A
Authority
CN
China
Prior art keywords
data set
data
attribute
categorical attribute
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610169963.3A
Other languages
English (en)
Other versions
CN107229621B (zh
Inventor
齐明
马康
李少明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201610169963.3A priority Critical patent/CN107229621B/zh
Publication of CN107229621A publication Critical patent/CN107229621A/zh
Application granted granted Critical
Publication of CN107229621B publication Critical patent/CN107229621B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Security & Cryptography (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种差异数据的清洗方法及装置,其中,该方法包括:获取参考数据集中每个第一子数据集的分类属性;从每个待清洗的数据集中获取与所述分类属性相关的数据,生成第一数据集;根据所述第一数据集和所述参考数据集生成第二数据集。本发明实施例提供的差异数据的清洗方法及装置,能够消除差异数据间的差异,统一差异数据的统计口径,提升统计分析结果的准确性。

Description

差异数据的清洗方法及装置
技术领域
本发明实施例涉及数据清洗技术领域,尤其涉及一种差异数据的清洗方法及装置。
背景技术
目前在对多年历史数据进行数据计算、统计分析的时候,通常需要处理多个年份的数据,而多个年份的数据在历年采集的过程中或多或少都存在着统计口径和统计标准不同等问题,这些问题在给统计分析带来诸多不便的同时,还降低了统计分析的准确性。因此,急需一种差异数据的清洗方法,以统一差异数据的统计口径,提升统计分析的准确性。
发明内容
本发明实施例提供一种差异数据的清洗方法及装置,用以消除差异数据间的差异,统一差异数据的统计口径,提升统计分析结果的准确性。
本发明实施例第一方面提供一种差异数据的清洗方法,该方法包括:
获取参考数据集中每个第一子数据集的分类属性;
从每个待清洗的数据集中获取与所述分类属性相关的数据,生成第一数据集;
根据所述第一数据集和所述参考数据集生成第二数据集。
本发明实施例第二方面提供一种差异数据的清洗装置,该装置包括:
第一获取模块,用于获取参考数据集中每个第一子数据集的分类属性;
第二获取模块,用于从每个待清洗的数据集中获取与所述分类属性相关的数据;
生成模块,用于根据所述第二获取模块获得的数据生成第一数据集,并根据所述第一数据集和所述参考数据集生成第二数据集。
本发明实施例提供的差异数据的清洗方法及装置,通过获取参考数据集中每个子数据集的分类属性,并从每个待清洗的数据集中获取与所述分类属性相关的数据,生成第一数据集,从而通过根据所述第一数据集和所述参考数据集生成统计口径统一的第二数据集,消除了差异数据间的差异,统一了差异数据的统计口径,提升了统计分析结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的差异数据的清洗方法的流程示意图;
图2为本发明另一实施例提供的差异数据的清洗方法的流程示意图;
图3为本发明一实施例提供的差异数据的清洗装置的结构示意图;
图4为本发明另一实施例提供的差异数据的清洗装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤的过程或结构的装置不必限于清楚地列出的那些结构或步骤而是可包括没有清楚地列出的或对于这些过程或装置固有的其它步骤或结构。
图1为本发明一实施例提供的差异数据的清洗方法的流程示意图,如图1所示,本实施例提供的方法包括如下步骤:
步骤101、获取参考数据集中每个第一子数据集的分类属性。
本实施例中,参考数据集为预先采集获得的具有某些属性特点的数据的集合。参考数据集中可以包括一个或多个子数据集(即第一子数据集),每个子数据集对应一个分类属性。
每个分类属性既可以包括分类类别,又可以包括指标类别,也可以同时包括分类类别和指标类别。举例来说,假设一数据集包括分类类别,且该分类类别包括“区域”,则分类属性“区域”对应的子数据集为通过对所述区域下,不同子区域的数据进行采集,并将采集获得的数据和对应的子区域的标识关联存储在所述“区域”对应的存储空间中获得的。
再假设,一数据集中包括指标类别,且该指标类别包括“支出金额”,则分类属性“支出金额”对应的子数据集为通过对各项支出项对应的支出金额进行采集,并将采集获得的支出金额与对应的支出项关联存储在“支出金额”对应的存储空间中获得的。
步骤102、从每个待清洗的数据集中获取与所述分类属性相关的数据,生成第一数据集。
与参考数据集类似的,待清洗的数据集也是预先采集获得的数据集,但是由于各数据在采集过程中数据采集的口径或标准可能存在不同,因此各数据集之间可能存在差异。这里的差异是指各数据集中数据对应的分类属性的差异。但是有些时候各数据集之间又不完全不同,其可能存在某些分类属性相关性较强的数据,这些数据在数据分析处理时可以采用统一口径或标准进行处理。针对这一点本实施例中在数据清洗时,主要是将各待清洗数据集中分类属性与参考数据集中分类属性相关性较小的数据清洗掉,保留与参考数据集中分类属性相关性较大的数据。
进一步的,通过将从各待清洗的数据集中清洗获得的数据合并在一起,形成一个统计口径或标准统一的数据集(即第一数据集)。
步骤103、根据所述第一数据集和所述参考数据集生成第二数据集。
由于参考数据集和各待清洗的数据集均是待统计分析的对象,因此,需要将清洗获得的第一数据集与参考数据集进行合并生成一个统计口径或标准统一的总数据集(即第二数据集),基于该总数据集的统计口径或标准对该总数据集进行统计分析即可获得准确性较高的分析结果。
本实施例提供的差异数据的清洗方法,通过获取参考数据集中每个子数据集的分类属性,并从每个待清洗的数据集中获取与所述分类属性相关的数据,生成第一数据集,从而通过根据所述第一数据集和所述参考数据集生成统计口径统一的第二数据集,消除了差异数据间的差异,统一了差异数据的统计口径,提升了统计分析结果的准确性。
图2为本发明另一实施例提供的差异数据的清洗方法的流程示意图,如图2所示,本实施例在图1所示实施例的基础上包括以下步骤:
步骤201、获取参考数据集中每个第一子数据集的分类属性。
步骤202、确定每个待清洗数据集中各第二子数据集的分类属性。
具体的,各待清洗数据集中数据的存储方式应为预先约定好的,在对数据清洗前根据预先约定好的存储方式从各待清洗数据集中获取各子数据集(即第二数据集)对应的分类属性。
步骤203、以各个所述第一子数据集的分类属性为目标属性,计算所述目标属性分别与各个所述第二子数据集的分类属性的相关性,若所述第二子数据集的分类属性与所述第一子数据集的分类属性的相关性大于预设阈值,则将所述第二子数据集中的数据与所述第一子数据集的分类属性对应存储,生成中间数据。
具体的,本实施例中每个第二子数据集的分类属性与每个第一数据集的分类属性的相关性,可以根据现有的任一一种相关性算法或几种相关性算法结合的方式进行计算,在这里不做赘述。
进一步的在计算获得每个第二子数据集的分类属性与每个第一子数据集的分类属性的相关性后,将各计算结果与预先设定的阈值进行对比,若计算结果大于预设阈值,则获取该计算结果对应的第二子数据集的数据,并将获得的数据与该计算结果对应的第一子数据集的分类属性关联存储,生成中间数据。若计算结果小于预设阈值,则对该结算结果对应的第二子数据集的数据进行清洗。
步骤204、根据各中间数据生成第一数据集。
具体的,由于各中间数据均是根据参考数据集中各分类属性清洗获得的,因此,通过将各中间数据中对应分类属性相同的中间数据进行合并,即可生成与参考数据集统一统计口径或标准的第一数据集。
步骤205、将所述第一数据集和所述参考数据集中分类属性相同的数据进行合并,生成所述第二数据集。
由于参考数据集和各待清洗的数据集均是待统计分析的对象,因此,需要将清洗获得的第一数据集与参考数据集进行合并生成一个统计口径或标准统一的总数据集(即第二数据集),基于该总数据集的统计口径或标准对该总数据集进行统计分析即可获得准确性较高的分析结果。
本实施例提供的差异数据的清洗方法,通过获取参考数据集中每个子数据集的分类属性,并从每个待清洗的数据集中获取与所述分类属性相关的数据,生成第一数据集,从而通过根据所述第一数据集和所述参考数据集生成统计口径统一的第二数据集,消除了差异数据间的差异,统一了差异数据的统计口径,提升了统计分析结果的准确性。
图3为本发明一实施例提供的差异数据的清洗装置的结构示意图,如图3所示,本实施例提供的差异数据的清洗装置,包括:
第一获取模块10于获取参考数据集中每个第一子数据集的分类属性;
第二获取模块20于从每个待清洗的数据集中获取与所述分类属性相关的数据;
生成模块30于根据所述第二获取模块获得的数据生成第一数据集,并根据所述第一数据集和所述参考数据集生成第二数据集。
其中,分类属性包括分类类别和/或指标类别。
本实施例提供的差异数据的清洗装置,能够用于执行如图1所示的方法,其具体的执行方式和有益效果与图1所示实施例类似,在这里不再赘述。
图4为本发明另一实施例提供的差异数据的清洗装置的结构示意图,如图4所示,在图3所示结构装置的基础上,本实施例中,所述第二获取模块20:
确定子模块201确定每个待清洗数据集中各第二子数据集的分类属性;
处理子模块202以各个所述第一子数据集的分类属性为目标属性,计算所述目标属性分别与各个所述第二子数据集的分类属性的相关性,若所述第二子数据集的分类属性与所述第一子数据集的分类属性的相关性大于预设阈值,则将所述第二子数据集中的数据与所述第一子数据集的分类属性对应存储,生成中间数据;
所述生成模块30具体用于根据各中间数据生成第一数据集。
所述生成模块30具体还用于:
将所述第一数据集和所述参考数据集中分类属性相同的数据进行合并,生成所述第二数据集。
本实施例提供的差异数据的清洗装置,能够用于执行如图2所示的方法,其具体的执行方式和有益效果与图2所示实施例类似,在这里不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种差异数据的清洗方法,其特征在于,包括:
获取参考数据集中每个第一子数据集的分类属性;
从每个待清洗的数据集中获取与所述分类属性相关的数据,生成第一数据集;
根据所述第一数据集和所述参考数据集生成第二数据集。
2.根据权利要求1所述的方法,其特征在于,所述从每个待清洗的数据集中获取与所述分类属性相关的数据,生成第一数据集,包括:
确定每个待清洗数据集中各第二子数据集的分类属性;
以各个所述第一子数据集的分类属性为目标属性,计算所述目标属性分别与各个所述第二子数据集的分类属性的相关性,若所述第二子数据集的分类属性与所述第一子数据集的分类属性的相关性大于预设阈值,则将所述第二子数据集中的数据与所述第一子数据集的分类属性对应存储,生成中间数据;
根据各中间数据生成第一数据集。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一数据集和所述参考数据集生成第二数据集,包括:
将所述第一数据集和所述参考数据集中分类属性相同的数据进行合并,生成所述第二数据集。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述分类属性包括分类类别和/或指标类别。
5.一种差异数据的清洗装置,其特征在于,包括:
第一获取模块,用于获取参考数据集中每个第一子数据集的分类属性;
第二获取模块,用于从每个待清洗的数据集中获取与所述分类属性相关的数据;
生成模块,用于根据所述第二获取模块获得的数据生成第一数据集,并根据所述第一数据集和所述参考数据集生成第二数据集。
6.根据利要求5所述的差异数据的清洗装置,其特征在于,所述第二获取模块包括:
确定子模块,用于确定每个待清洗数据集中各第二子数据集的分类属性;
处理子模块,用于以各个所述第一子数据集的分类属性为目标属性,计算所述目标属性分别与各个所述第二子数据集的分类属性的相关性,若所述第二子数据集的分类属性与所述第一子数据集的分类属性的相关性大于预设阈值,则将所述第二子数据集中的数据与所述第一子数据集的分类属性对应存储,生成中间数据;
所述生成模块,具体用于根据各中间数据生成第一数据集。
7.根据利要求6所述的差异数据的清洗装置,其特征在于,所述生成模块,具体用于:
将所述第一数据集和所述参考数据集中分类属性相同的数据进行合并,生成所述第二数据集。
8.根据权利要求5-7任一项所述的差异数据的清洗装置,其特征在于,所述分类属性包括分类类别和/或指标类别。
CN201610169963.3A 2016-03-23 2016-03-23 差异数据的清洗方法及装置 Active CN107229621B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610169963.3A CN107229621B (zh) 2016-03-23 2016-03-23 差异数据的清洗方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610169963.3A CN107229621B (zh) 2016-03-23 2016-03-23 差异数据的清洗方法及装置

Publications (2)

Publication Number Publication Date
CN107229621A true CN107229621A (zh) 2017-10-03
CN107229621B CN107229621B (zh) 2020-12-04

Family

ID=59931556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610169963.3A Active CN107229621B (zh) 2016-03-23 2016-03-23 差异数据的清洗方法及装置

Country Status (1)

Country Link
CN (1) CN107229621B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563789A (zh) * 2018-04-28 2018-09-21 成都致云科技有限公司 基于Spark框架的数据清洗方法和装置
CN110727668A (zh) * 2019-09-30 2020-01-24 北京百度网讯科技有限公司 数据清洗方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004962A (zh) * 2010-12-01 2011-04-06 福州维胜信息技术有限公司 实现对个人综合绩效进行智能整理以供考评的实现方法
CN102201037A (zh) * 2011-06-14 2011-09-28 中国农业大学 农业灾害预测方法
CN102855288A (zh) * 2012-08-08 2013-01-02 北京奇虎科技有限公司 差异数据的处理方法和装置
CN104699717A (zh) * 2013-12-10 2015-06-10 中国银联股份有限公司 数据挖掘方法
CN104715040A (zh) * 2015-03-23 2015-06-17 浪潮集团有限公司 一种数据分类的方法及装置
US20160004743A1 (en) * 2013-02-07 2016-01-07 Qatar Foundation Methods and systems for data cleaning

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004962A (zh) * 2010-12-01 2011-04-06 福州维胜信息技术有限公司 实现对个人综合绩效进行智能整理以供考评的实现方法
CN102201037A (zh) * 2011-06-14 2011-09-28 中国农业大学 农业灾害预测方法
CN102855288A (zh) * 2012-08-08 2013-01-02 北京奇虎科技有限公司 差异数据的处理方法和装置
US20160004743A1 (en) * 2013-02-07 2016-01-07 Qatar Foundation Methods and systems for data cleaning
CN104699717A (zh) * 2013-12-10 2015-06-10 中国银联股份有限公司 数据挖掘方法
CN104715040A (zh) * 2015-03-23 2015-06-17 浪潮集团有限公司 一种数据分类的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄沈滨 等: "《大数据云清洗系统的设计与实现》", 《智能计算机与应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563789A (zh) * 2018-04-28 2018-09-21 成都致云科技有限公司 基于Spark框架的数据清洗方法和装置
CN110727668A (zh) * 2019-09-30 2020-01-24 北京百度网讯科技有限公司 数据清洗方法及装置
CN110727668B (zh) * 2019-09-30 2022-03-01 北京百度网讯科技有限公司 数据清洗方法及装置

Also Published As

Publication number Publication date
CN107229621B (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
CN106445931B (zh) 数据库节点关联关系展示方法及装置
CN104050258B (zh) 一种基于兴趣群组的群体推荐方法
CN110162519A (zh) 数据清理方法
CN106156791A (zh) 业务数据分类方法和装置
CN107688786A (zh) 一种基于级联卷积神经网络的人脸检测方法
CN104853248B (zh) 一种视频推荐方法及装置
KR20170134601A (ko) 데이터 처리 방법 및 장치
CN110209660A (zh) 欺诈团伙挖掘方法、装置及电子设备
CN108763566A (zh) 文本相似度计算方法及装置、智能机器人
CN101477552A (zh) 网站用户等级划分方法
US20100257074A1 (en) Methods and apparatus for early remittance issue detection
CN105824818A (zh) 一种信息化管理方法、平台及系统
CN107229621A (zh) 差异数据的清洗方法及装置
CN110135180A (zh) 满足节点差分隐私的度分布直方图发布方法
Hwang et al. Detection and correction method of erroneous data using quantile pattern and LSTM
CN106682206A (zh) 一种大数据处理方法及系统
CN109711484A (zh) 一种顾客的分类方法及系统
CN106909454A (zh) 一种规则处理方法和设备
CN111680973B (zh) 一种催收系统的催收任务优先级智能编排方法
CN117171157A (zh) 基于数据分析的清算数据采集清洗方法
CN106021852B (zh) 基于密度聚类算法的血糖数据异常值计算方法和装置
CN107423362A (zh) 行业确定方法、对象获取方法和装置、客户端、服务器
CN110008205A (zh) 一种监控系统冗余数据清洗方法
CN103793504B (zh) 一种基于用户偏好与项目属性的聚类初始点选择方法
CN109376307A (zh) 文章推荐方法、装置和终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230609

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TR01 Transfer of patent right