CN107992534A - 改进的排序关键字对数据集排序的方法 - Google Patents
改进的排序关键字对数据集排序的方法 Download PDFInfo
- Publication number
- CN107992534A CN107992534A CN201711182031.3A CN201711182031A CN107992534A CN 107992534 A CN107992534 A CN 107992534A CN 201711182031 A CN201711182031 A CN 201711182031A CN 107992534 A CN107992534 A CN 107992534A
- Authority
- CN
- China
- Prior art keywords
- record
- sort key
- data set
- repeated
- repetition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了改进的排序关键字对数据集排序的方法,包括,步骤1,预处理;步骤2,重复记录检测,通过字段匹配与记录匹配实现重复记录检测;步骤3,数据库级的重复记录聚类,在数据库级医用检测重复记录的算法对整个数据集中的重复记录进行聚类;步骤4,使用外部源文件更正排序关键字中的错误,统一数据格式;步骤5,对排序关键字中的单词进行排序;步骤6,冲突处理,根据规则合并或者删除检测出的同一重复记录聚类中的重复记录,只保留其中正确的那条记录。本发明可以增加潜在的可能的重复记录被初步聚类到邻近的位置空间的机会,增加数据集中的记录被识别为重复记录的概率。
Description
技术领域
本发明涉及大数据领域,具体涉及改进的排序关键字对数据集排序的方法。
背景技术
数据发展历程上出现过类似的术语有超大规模数据、海量数据等。“超大规模”一般表示对应GB(1GB=1024MB)的数据,“海量”一般表示的是TB(1TB=1024GB)级的数据,而现在的“大数据”则是PB(1PB=1024TB)、EB(1EB=1024PB)、甚至ZB(1ZB=1024EB)级别以上的数据。2013年Gartner预测世界上存储的数据将达到1.2ZB,如果将这些数据刻录到 CD-R只读光盘上,并堆起来,其高度将是地球到月球距离的5倍。不同规模的背后隐含的是不同的技术问题或挑战性研究难题。
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在日新月异的IT业界,各个企业对大数据都有着自己不同的解读.但大家都普遍认为,大数据有着4“V”特征,即Volume(容量大)、Variety(种类多)、Velocity(速度快)和最重要的Value(价值密度低):
(1)量大(Volume Big)。数据量级已从TB(210GB)发展至PB(210TB)乃至ZB(220PB),可称海量、巨量乃至超量。
(2)多样化(Variable Type)。数据类型繁多,愈来愈多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息。
(3)快速化(Velocity Fast)。数据流往往为高速实时数据流,而且往往需要快速、持续的实时处理;处理工具亦在快速演进,软件工程及人工智能等均可能介入。
(4)价值高和密度低(Value Highand Low Density)。以视频安全监控为例,连续不断的监控流中,有重大价值者可能仅为一两秒的数据流;360°全方位视频监控的“死角”处,可能会挖掘出最有价值的图像信息。
(5)复查Complexity:处理和分析的难度非常大。
现有的数据清洗步骤繁琐,关于重复记录的清洗效率较低。
发明内容
本发明所要解决的技术问题是现有的数据清洗步骤繁琐,关于重复记录的清洗效率较低,目的在于提供改进的排序关键字对数据集排序的方法,简化数据清洗步骤,提高效率。
本发明通过下述技术方案实现:
改进的排序关键字对数据集排序的方法,包括,
步骤1,预处理;
步骤2,重复记录检测,通过字段匹配与记录匹配实现重复记录检测;
步骤3,数据库级的重复记录聚类,在数据库级医用检测重复记录的算法对整个数据集中的重复记录进行聚类;
步骤4,使用外部源文件更正排序关键字中的错误,统一数据格式;
步骤5,对排序关键字中的单词进行排序;
步骤6,冲突处理,根据规则合并或者删除检测出的同一重复记录聚类中的重复记录,只保留其中正确的那条记录。
进一步地,步骤1的预处理包括,
步骤11,属性选择,选择用于记录匹配的属性;
步骤12,初步聚类,对数据库中的记录进行排序;
步骤13,分配属性的权重,根据属性在决定两条记录相似性中重要程度的不同,为每个属性分配不同的权重。
进一步地,步骤4包括根据外部源文件的排序关键字属性确定数据集中排序关键字属性的格式和内容。
进一步地,步骤5包括以字段值中的空格或标点符号作为界定符,分割出重要的单词。
在构造数据仓库的过程中,需要从各种数据源导入大量的数据,理想情况下,对于现实世界中的一个实体,数据库或数据仓库中应该只有一条与之对应的几率,但是在对异种信息表示的多个数据源进行集成时,由于实际数据中可能存在数据输入错误,格式、拼写上存在差异等各种问题,导致DBMS不能正确识别出标识同一个实体的多条记录,使得逻辑上指的同一个现实世界的主体,在仓库中可能会存在多个不同的表示。本发明通过预处理、重复记录检测、数据库级的重复记录聚类以及冲突处理简化了现有的重复数据清洗方式,提高了清洗效率。本发明在基于传统方法对于数据中错误的敏感性的基础上在根据选取的排序关键字对数据进行集中排序之前进行步骤4以及步骤5的处理,可以增加潜在的可能的重复记录被初步聚类到邻近的位置空间的机会,增加数据集中的记录被识别为重复记录的概率。
本发明与现有技术相比,具有如下的优点和有益效果:本发明通过预处理、重复记录检测、数据库级的重复记录聚类以及冲突处理简化了现有的重复数据清洗方式,提高了清洗效率;本发明可以增加潜在的可能的重复记录被初步聚类到邻近的位置空间的机会,增加数据集中的记录被识别为重复记录的概率。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
改进的排序关键字对数据集排序的方法,包括,
步骤1,预处理;
步骤2,重复记录检测,通过字段匹配与记录匹配实现重复记录检测;
步骤3,数据库级的重复记录聚类,在数据库级医用检测重复记录的算法对整个数据集中的重复记录进行聚类;
步骤4,使用外部源文件更正排序关键字中的错误,统一数据格式;
步骤5,对排序关键字中的单词进行排序;
步骤6,冲突处理,根据规则合并或者删除检测出的同一重复记录聚类中的重复记录,只保留其中正确的那条记录。
步骤1的预处理包括,
步骤11,属性选择,选择用于记录匹配的属性;
步骤12,初步聚类,对数据库中的记录进行排序;
步骤13,分配属性的权重,根据属性在决定两条记录相似性中重要程度的不同,为每个属性分配不同的权重。
步骤4包括根据外部源文件的排序关键字属性确定数据集中排序关键字属性的格式和内容。
步骤5包括以字段值中的空格或标点符号作为界定符,分割出重要的单词。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.改进的排序关键字对数据集排序的方法,其特征在于,包括,
步骤1,预处理;
步骤2,重复记录检测,通过字段匹配与记录匹配实现重复记录检测;
步骤3,数据库级的重复记录聚类,在数据库级医用检测重复记录的算法对整个数据集中的重复记录进行聚类;
步骤4,使用外部源文件更正排序关键字中的错误,统一数据格式;
步骤5,对排序关键字中的单词进行排序;
步骤6,冲突处理,根据规则合并或者删除检测出的同一重复记录聚类中的重复记录,只保留其中正确的那条记录。
2.根据权利要求1所述的改进的排序关键字对数据集排序的方法,其特征在于,所述步骤1的预处理包括,
步骤11,属性选择,选择用于记录匹配的属性;
步骤12,初步聚类,对数据库中的记录进行排序;
步骤13,分配属性的权重,根据属性在决定两条记录相似性中重要程度的不同,为每个属性分配不同的权重。
3.根据权利要求1所述的改进的排序关键字对数据集排序的方法,其特征在于,所述步骤4包括根据外部源文件的排序关键字属性确定数据集中排序关键字属性的格式和内容。
4.根据权利要求1所述的改进的排序关键字对数据集排序的方法,其特征在于,所述步骤5包括以字段值中的空格或标点符号作为界定符,分割出重要的单词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711182031.3A CN107992534A (zh) | 2017-11-23 | 2017-11-23 | 改进的排序关键字对数据集排序的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711182031.3A CN107992534A (zh) | 2017-11-23 | 2017-11-23 | 改进的排序关键字对数据集排序的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107992534A true CN107992534A (zh) | 2018-05-04 |
Family
ID=62032621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711182031.3A Withdrawn CN107992534A (zh) | 2017-11-23 | 2017-11-23 | 改进的排序关键字对数据集排序的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107992534A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008205A (zh) * | 2019-03-21 | 2019-07-12 | 哈尔滨理工大学 | 一种监控系统冗余数据清洗方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182465A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于网络的大数据处理方法 |
CN104699796A (zh) * | 2015-03-18 | 2015-06-10 | 浪潮集团有限公司 | 一种基于数据仓库的数据清洗方法 |
CN105183814A (zh) * | 2015-08-27 | 2015-12-23 | 湖南人文科技学院 | 一种物联网数据清洗方法 |
CN106776768A (zh) * | 2016-11-23 | 2017-05-31 | 福建六壬网安股份有限公司 | 一种分布式爬虫引擎的url抓取方法及系统 |
-
2017
- 2017-11-23 CN CN201711182031.3A patent/CN107992534A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182465A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于网络的大数据处理方法 |
CN104699796A (zh) * | 2015-03-18 | 2015-06-10 | 浪潮集团有限公司 | 一种基于数据仓库的数据清洗方法 |
CN105183814A (zh) * | 2015-08-27 | 2015-12-23 | 湖南人文科技学院 | 一种物联网数据清洗方法 |
CN106776768A (zh) * | 2016-11-23 | 2017-05-31 | 福建六壬网安股份有限公司 | 一种分布式爬虫引擎的url抓取方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008205A (zh) * | 2019-03-21 | 2019-07-12 | 哈尔滨理工大学 | 一种监控系统冗余数据清洗方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Improving crowdsourced label quality using noise correction | |
Sukumar et al. | Network intrusion detection using improved genetic k-means algorithm | |
Karthikeyan et al. | A survey on association rule mining | |
Heigl et al. | On the improvement of the isolation forest algorithm for outlier detection with streaming data | |
Liu et al. | Malware classification using gray-scale images and ensemble learning | |
Gadal et al. | Machine learning-based anomaly detection using K-mean array and sequential minimal optimization | |
Qu et al. | Efficient online summarization of large-scale dynamic networks | |
Wang et al. | Dnrti: A large-scale dataset for named entity recognition in threat intelligence | |
Woźniak | Application of combined classifiers to data stream classification | |
CN107832450A (zh) | 用于清洗数据重复记录的方法 | |
Wang et al. | Cross-domain graph anomaly detection via anomaly-aware contrastive alignment | |
Thakur et al. | Detection of malicious URLs in big data using RIPPER algorithm | |
Dong et al. | Integrating human-in-the-loop into swarm learning for decentralized fake news detection | |
Moskal et al. | Translating intrusion alerts to cyberattack stages using pseudo-active transfer learning (PATRL) | |
Kumar et al. | Automatic detection of fake profiles in online social networks | |
Jinyin et al. | A study of detector generation algorithms based on artificial immune in intrusion detection system | |
CN107992534A (zh) | 改进的排序关键字对数据集排序的方法 | |
Harb et al. | Selecting optimal subset of features for intrusion detection systems | |
Heigl et al. | Exploiting the outcome of outlier detection for novel attack pattern recognition on streaming data | |
Wang et al. | Association rules mining in parallel conditional tree based on grid computing inspired partition algorithm | |
Ma et al. | Propagation structure fusion for rumor detection based on node-level contrastive learning | |
Sheikhan et al. | Using particle swarm optimization in fuzzy association rules‐based feature selection and fuzzy ARTMAP‐based attack recognition | |
An et al. | Finsformer: A Novel Approach to Detecting Financial Attacks Using Transformer and Cluster-Attention | |
Alvari et al. | A feature-driven approach for identifying pathogenic social media accounts | |
Chen et al. | Research on ontology-based network security knowledge map |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180504 |