CN107832450A - 用于清洗数据重复记录的方法 - Google Patents
用于清洗数据重复记录的方法 Download PDFInfo
- Publication number
- CN107832450A CN107832450A CN201711182050.6A CN201711182050A CN107832450A CN 107832450 A CN107832450 A CN 107832450A CN 201711182050 A CN201711182050 A CN 201711182050A CN 107832450 A CN107832450 A CN 107832450A
- Authority
- CN
- China
- Prior art keywords
- record
- repetition
- cluster
- repeated
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了用于清洗数据重复记录的方法,包括,步骤1,预处理;步骤2,重复记录检测,通过字段匹配与记录匹配实现重复记录检测;步骤3,数据库级的重复记录聚类,在数据库级医用检测重复记录的算法对整个数据集中的重复记录进行聚类;步骤4,冲突处理,根据规则合并或者删除检测出的同一重复记录聚类中的重复记录,只保留其中正确的那条记录。本发明通过预处理、重复记录检测、数据库级的重复记录聚类以及冲突处理简化了现有的重复数据清洗方式,提高了清洗效率。
Description
技术领域
本发明涉及大数据领域,具体涉及用于清洗数据重复记录的方法。
背景技术
数据发展历程上出现过类似的术语有超大规模数据、海量数据等。“超大规模”一般表示对应GB(1GB=1024MB)的数据,“海量”一般表示的是TB(1TB=1024GB)级的数据,而现在的“大数据”则是PB(1PB=1024TB)、EB(1EB=1024PB)、甚至ZB(1ZB=1024EB)级别以上的数据。2013年Gartner预测世界上存储的数据将达到1.2ZB,如果将这些数据刻录到 CD-R只读光盘上,并堆起来,其高度将是地球到月球距离的5倍。不同规模的背后隐含的是不同的技术问题或挑战性研究难题。
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在日新月异的IT业界,各个企业对大数据都有着自己不同的解读.但大家都普遍认为,大数据有着4“V”特征,即Volume(容量大)、Variety(种类多)、Velocity(速度快)和最重要的Value(价值密度低):
(1)量大(Volume Big)。数据量级已从TB(210GB)发展至PB(210TB)乃至ZB(220PB),可称海量、巨量乃至超量。
(2)多样化(Variable Type)。数据类型繁多,愈来愈多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息。
(3)快速化(Velocity Fast)。数据流往往为高速实时数据流,而且往往需要快速、持续的实时处理;处理工具亦在快速演进,软件工程及人工智能等均可能介入。
(4)价值高和密度低(Value Highand Low Density)。以视频安全监控为例,连续不断的监控流中,有重大价值者可能仅为一两秒的数据流;360°全方位视频监控的“死角”处,可能会挖掘出最有价值的图像信息。
(5)复查Complexity:处理和分析的难度非常大。
现有的数据清洗步骤繁琐,关于重复记录的清洗效率较低。
发明内容
本发明所要解决的技术问题是现有的数据清洗步骤繁琐,关于重复记录的清洗效率较低,目的在于提供用于清洗数据重复记录的方法,简化数据清洗步骤,提高效率。
本发明通过下述技术方案实现:
用于清洗数据重复记录的方法,包括,
步骤1,预处理;
步骤2,重复记录检测,通过字段匹配与记录匹配实现重复记录检测;
步骤3,数据库级的重复记录聚类,在数据库级医用检测重复记录的算法对整个数据集中的重复记录进行聚类;
步骤4,冲突处理,根据规则合并或者删除检测出的同一重复记录聚类中的重复记录,只保留其中正确的那条记录。
进一步地,步骤1的预处理包括,
步骤11,属性选择,选择用于记录匹配的属性;
步骤12,初步聚类,对数据库中的记录进行排序;
步骤13,分配属性的权重,根据属性在决定两条记录相似性中重要程度的不同,为每个属性分配不同的权重。
进一步地,步骤3中的聚类采用的方法是生成排序关键字对数据集排序的方法:抽取记录属性的一个子集序列或属性值的子串,为数据集中每一条记录计算出一个键值,根据排序关键字将整个数据集进行排序。
在构造数据仓库的过程中,需要从各种数据源导入大量的数据,理想情况下,对于现实世界中的一个实体,数据库或数据仓库中应该只有一条与之对应的几率,但是在对异种信息表示的多个数据源进行集成时,由于实际数据中可能存在数据输入错误,格式、拼写上存在差异等各种问题,导致DBMS不能正确识别出标识同一个实体的多条记录,使得逻辑上指的同一个现实世界的主体,在仓库中可能会存在多个不同的表示。本发明通过预处理、重复记录检测、数据库级的重复记录聚类以及冲突处理简化了现有的重复数据清洗方式,提高了清洗效率。
本发明与现有技术相比,具有如下的优点和有益效果:本发明通过预处理、重复记录检测、数据库级的重复记录聚类以及冲突处理简化了现有的重复数据清洗方式,提高了清洗效率。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
用于清洗数据重复记录的方法,包括,
步骤1,预处理;
步骤2,重复记录检测,通过字段匹配与记录匹配实现重复记录检测;
步骤3,数据库级的重复记录聚类,在数据库级医用检测重复记录的算法对整个数据集中的重复记录进行聚类;
步骤4,冲突处理,根据规则合并或者删除检测出的同一重复记录聚类中的重复记录,只保留其中正确的那条记录。
步骤1的预处理包括,
步骤11,属性选择,选择用于记录匹配的属性;
步骤12,初步聚类,对数据库中的记录进行排序;
步骤13,分配属性的权重,根据属性在决定两条记录相似性中重要程度的不同,为每个属性分配不同的权重。
步骤3中的聚类采用的方法是生成排序关键字对数据集排序的方法:抽取记录属性的一个子集序列或属性值的子串,为数据集中每一条记录计算出一个键值,根据排序关键字将整个数据集进行排序。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.用于清洗数据重复记录的方法,其特征在于,包括,
步骤1,预处理;
步骤2,重复记录检测,通过字段匹配与记录匹配实现重复记录检测;
步骤3,数据库级的重复记录聚类,在数据库级医用检测重复记录的算法对整个数据集中的重复记录进行聚类;
步骤4,冲突处理,根据规则合并或者删除检测出的同一重复记录聚类中的重复记录,只保留其中正确的那条记录。
2.根据权利要求1所述的用于清洗数据重复记录的方法,其特征在于,所述步骤1的预处理包括,
步骤11,属性选择,选择用于记录匹配的属性;
步骤12,初步聚类,对数据库中的记录进行排序;
步骤13,分配属性的权重,根据属性在决定两条记录相似性中重要程度的不同,为每个属性分配不同的权重。
3.根据权利要求1所述的用于清洗数据重复记录的方法,其特征在于,所述步骤3中的聚类采用的方法是生成排序关键字对数据集排序的方法:抽取记录属性的一个子集序列或属性值的子串,为数据集中每一条记录计算出一个键值,根据排序关键字将整个数据集进行排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711182050.6A CN107832450A (zh) | 2017-11-23 | 2017-11-23 | 用于清洗数据重复记录的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711182050.6A CN107832450A (zh) | 2017-11-23 | 2017-11-23 | 用于清洗数据重复记录的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107832450A true CN107832450A (zh) | 2018-03-23 |
Family
ID=61653396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711182050.6A Withdrawn CN107832450A (zh) | 2017-11-23 | 2017-11-23 | 用于清洗数据重复记录的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107832450A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597178A (zh) * | 2020-05-18 | 2020-08-28 | 山东浪潮通软信息科技有限公司 | 一种清洗重复数据的方法、系统、设备及介质 |
CN111917600A (zh) * | 2020-06-12 | 2020-11-10 | 贵州大学 | 一种基于Spark性能优化的网络流量分类装置及分类方法 |
CN115829143A (zh) * | 2022-12-15 | 2023-03-21 | 广东慧航天唯科技有限公司 | 一种基于时空数据清洗技术的水环境治理预测系统及其方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104699796A (zh) * | 2015-03-18 | 2015-06-10 | 浪潮集团有限公司 | 一种基于数据仓库的数据清洗方法 |
CN104731908A (zh) * | 2015-03-24 | 2015-06-24 | 浪潮集团有限公司 | 一种基于etl的数据清洗方法 |
CN105183814A (zh) * | 2015-08-27 | 2015-12-23 | 湖南人文科技学院 | 一种物联网数据清洗方法 |
-
2017
- 2017-11-23 CN CN201711182050.6A patent/CN107832450A/zh not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104699796A (zh) * | 2015-03-18 | 2015-06-10 | 浪潮集团有限公司 | 一种基于数据仓库的数据清洗方法 |
CN104731908A (zh) * | 2015-03-24 | 2015-06-24 | 浪潮集团有限公司 | 一种基于etl的数据清洗方法 |
CN105183814A (zh) * | 2015-08-27 | 2015-12-23 | 湖南人文科技学院 | 一种物联网数据清洗方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597178A (zh) * | 2020-05-18 | 2020-08-28 | 山东浪潮通软信息科技有限公司 | 一种清洗重复数据的方法、系统、设备及介质 |
CN111917600A (zh) * | 2020-06-12 | 2020-11-10 | 贵州大学 | 一种基于Spark性能优化的网络流量分类装置及分类方法 |
CN115829143A (zh) * | 2022-12-15 | 2023-03-21 | 广东慧航天唯科技有限公司 | 一种基于时空数据清洗技术的水环境治理预测系统及其方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sukumar et al. | Network intrusion detection using improved genetic k-means algorithm | |
Karthikeyan et al. | A survey on association rule mining | |
Thabtah et al. | Improving rule sorting, predictive accuracy and training time in associative classification | |
CN107832450A (zh) | 用于清洗数据重复记录的方法 | |
CN111143838B (zh) | 数据库用户异常行为检测方法 | |
Lin et al. | Research on maximal frequent pattern outlier factor for online high dimensional time-series outlier detection | |
Chen | Data mining applications in e-government information security | |
Rajesh et al. | Fraudulent news detection using machine learning approaches | |
Jinyin et al. | A study of detector generation algorithms based on artificial immune in intrusion detection system | |
CN107992534A (zh) | 改进的排序关键字对数据集排序的方法 | |
Wang et al. | Association rules mining in parallel conditional tree based on grid computing inspired partition algorithm | |
Srivastava et al. | Fuzzy association rule mining for economic development indicators | |
CN116502091A (zh) | 一种基于lstm和注意力机制的网络入侵检测方法 | |
Huang et al. | Early detection of fake news based on multiple information features | |
Fallatah et al. | The impact of imbalanced class distribution on knowledge graphs matching. | |
Tian et al. | Spammer detection on Sina micro-blog | |
Xu et al. | Construct concise and accurate classifier by atomic association rules | |
Guo et al. | The Financial Data of Anomaly Detection Research Based on Time Series | |
Yi | On the research of force into computer database intrusion detection technology | |
Zhao et al. | Directed clonal selection algorithm for associative classification | |
CN107766581A (zh) | 对url进行数据重复记录清洗的方法 | |
Arya et al. | Information theoretic feature extraction to reduce dimensionality of Genetic Network Programming based intrusion detection model | |
Xing et al. | Classifier ensemble algorithm for data stream with attribute uncertainty | |
Boaddh et al. | Student Data Analysis for Grade Prediction Using Privacy Preserving Mining and Wolf Features | |
Zhang et al. | Formation and Characteristics of Multi-Dimensional Tibetan Traditional Motion from the Perspective of Data Mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180323 |
|
WW01 | Invention patent application withdrawn after publication |