CN106599267A - 一种删除数据的方法及装置 - Google Patents

一种删除数据的方法及装置 Download PDF

Info

Publication number
CN106599267A
CN106599267A CN201611199406.2A CN201611199406A CN106599267A CN 106599267 A CN106599267 A CN 106599267A CN 201611199406 A CN201611199406 A CN 201611199406A CN 106599267 A CN106599267 A CN 106599267A
Authority
CN
China
Prior art keywords
data
deleted
packet
rule
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611199406.2A
Other languages
English (en)
Other versions
CN106599267B (zh
Inventor
侯柄成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201611199406.2A priority Critical patent/CN106599267B/zh
Publication of CN106599267A publication Critical patent/CN106599267A/zh
Application granted granted Critical
Publication of CN106599267B publication Critical patent/CN106599267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2358Change logging, detection, and notification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24561Intermediate data storage techniques for performance improvement

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例公开了一种删除数据的方法及装置。该方法包括:读取配置文件,并判断运行模式是否正确;若所述运行模式正确,则选择SQL数据清洗规则或者rowkey数据清洗规则;按表名分组,并判断是否存在待删除数据分组;若存在待删除数据分组,则判断是否超过每次最大提交数,若否,则删除数据;若超过每次最大提交数,则分批次删除数据。本发明将要删除的数据的查询SQL配置到文件中,有助于解决在使用hadoop、solr等大数据存储技术时,删除数据步骤复杂的难题,大幅缩减了手工删除数据的工作量,提高工作效率;将SQL保存到文件中,当有新的清除规则时,只需要维护文件即可,避免重复性工作。

Description

一种删除数据的方法及装置
技术领域
本发明实施例涉及数据处理的技术领域,尤其涉及一种删除数据的方法及装置。
背景技术
随着现代化科学技术的发展,信息系统在越来越多的大中型企业、政府中得到了更加广泛的应用,由此也积累了大量的历史数据。随着业务数据的增长、业务的复杂程度提升,数据质量问题也日益凸显。当人们意识到数据质量问题需要解决的重要性时,研究人员便制定出了一系列对数据质量问题进行检测和清洗的框架及思想。许多数据库厂商基于这些框架及思想开发出了各自的数据清洗工具。随着清洗工具和清洗理论的实施与应用,对于数据质量的提升起到了很好的作用,由此便体现出了数据清洗的重要性。
当建立一个信息系统的时候,即使进行了良好的设计和规划,也不能保证在所有情况下,所存放数据的质量都能满足用户的要求。用户录入错误、企业合并以及企业环境随着时间的推移而改变,这些都会影响所存放数据的质量,在单个数据源中可能存在质量问题。例如,某个字段是一个自由格式的字符串类型,比如地址信息、手机号等;错误的字段值,由于录入错误或者其他原因,数据库中一个人的年龄为485等。考虑多个数据源的情形,比如数据仓库系统或者是基于Web的信息系统,问题更加复杂。来自不同数据源的数据,对同一个概念有不同的表示方法。在集成多个数据源时,还有相似重复记录的问题,需要检测出并且合并这些记录,解决这些问题的过程称为数据清洗过程。数据清洗(data cleaning,data cleansing或者data scrubbing)的目的是检测数据中存在的错误和不一致,剔除或者改正它们,这样就提高了数据的质量。在基于solr、hbase的数据中心中,由于历史遗留问题等原因,导致系统中存在一些垃圾数据,由于数据量巨大,尤其是在不能确定数据所在表时,不可能进行人工处理。
发明内容
本发明实施例的目的在于提出一种删除数据的方法及装置,旨在解决海量数据中垃圾数据清除时需要手工寻找表及数据删除步骤复杂的问题。
为达此目的,本发明实施例采用以下技术方案:
第一方面,一种删除数据的方法,所述方法包括:
读取配置文件,并判断运行模式是否正确;
若所述运行模式正确,则选择SQL数据清洗规则或者rowkey数据清洗规则;
按表名分组,并判断是否存在待删除数据分组;
若存在待删除数据分组,则判断是否超过每次最大提交数,若否,则删除数据,并返回继续判断是否存在待删除数据分组;
若超过每次最大提交数,则分批次删除数据,并返回继续判断是否存在待删除数据分组。
优选地,所述读取配置文件,包括:
读取config.properties获取dbConnInfo.json、bucketInfo.json存放路径、查询系统接口、每次最大数据删除数;
读取所述dbConnInfo.json并获取solr、hbase的zookeeper链接;
读取所述bucketInfo.json并获取数据存储规则。
优选地,所述选择SQL数据清洗规则,包括:
当以SQL模式进行数据清洗时,通过调用海量数据查询系统接口查询rowkey数据。
优选地,所述按表名分组,包括:
根据所述配置文件中的数据存储规则,将rowkey数据按照表名进行分组保存并去重。
优选地,所述方法还包括:若所述运行模块不正确,则退出数据删除流程。
第二方面,一种删除数据的装置,所述装置包括:
读取模块,用于读取配置文件;
第一判断模块,用于判断运行模式是否正确;
选择模块,用于若所述运行模式正确,则选择SQL数据清洗规则或者rowkey数据清洗规则;
分组模块,用于按表名分组;
第二判断模块,用于判断是否存在待删除数据分组;
处理模块,用于若存在待删除数据分组,则判断是否超过每次最大提交数,若否,则删除数据,并返回继续判断是否存在待删除数据分组;若超过每次最大提交数,则分批次删除数据,并返回继续判断是否存在待删除数据分组。
优选地,所述读取模块,具体用于:
读取config.properties获取dbConnInfo.json、bucketInfo.json存放路径、查询系统接口、每次最大数据删除数;
读取所述dbConnInfo.json并获取solr、hbase的zookeeper链接;
读取所述bucketInfo.json并获取数据存储规则。
优选地,所述选择模块,具体用于:
当以SQL模式进行数据清洗时,通过调用海量数据查询系统接口查询rowkey数据。
优选地,所述分组模块,用于:
根据所述配置文件中的数据存储规则,将rowkey数据按照表名进行分组保存并去重。
优选地,所述装置还包括:
退出模块,用于若所述运行模块不正确,则退出数据删除流程。
本发明实施例提供的一种删除数据的方法及装置,读取配置文件,并判断运行模式是否正确;若所述运行模式正确,则选择SQL数据清洗规则或者rowkey数据清洗规则;按表名分组,并判断是否存在待删除数据分组;若存在待删除数据分组,则判断是否超过每次最大提交数,若否,则删除数据,并返回继续判断是否存在待删除数据分组;若超过每次最大提交数,则分批次删除数据,并返回继续判断是否存在待删除数据分组。本发明将要删除的数据的查询SQL配置到文件中,有助于解决在使用hadoop、solr等大数据存储技术时,删除数据步骤复杂的难题,大幅缩减了手工删除数据的工作量,提高工作效率;将SQL保存到文件中,当有新的清除规则时,只需要维护文件即可,避免重复性工作。
附图说明
图1是本发明实施例提供的一种删除数据的方法的流程示意图;
图2是本发明实施例提供的另一种删除数据的方法的流程示意图;
图3是本发明实施例提供的一种删除数据的装置的功能模块示意图。
具体实施方式
下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明实施例的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。
参考图1,图1是本发明实施例提供的一种删除数据的方法的流程示意图。
如图1所示,所述删除数据的方法包括:
步骤101,读取配置文件,并判断运行模式是否正确;
优选地,所述读取配置文件,包括:
读取config.properties获取dbConnInfo.json、bucketInfo.json存放路径、查询系统接口、每次最大数据删除数;
读取所述dbConnInfo.json并获取solr、hbase的zookeeper链接;
读取所述bucketInfo.json并获取数据存储规则。
步骤102,若所述运行模式正确,则选择结构化查询语言(Structured QueryLanguage,SQL)数据清洗规则或者rowkey数据清洗规则;
优选地,所述选择SQL数据清洗规则,包括:
当以SQL模式进行数据清洗时,通过调用海量数据查询系统接口查询rowkey数据。
步骤103,按表名分组,并判断是否存在待删除数据分组;
优选地,所述按表名分组,包括:
根据所述配置文件中的数据存储规则,将rowkey数据按照表名进行分组保存并去重。
步骤104,若存在待删除数据分组,则判断是否超过每次最大提交数,若否,则删除数据,并返回继续判断是否存在待删除数据分组;
步骤105,若超过每次最大提交数,则分批次删除数据,并返回继续判断是否存在待删除数据分组。
本发明实施例提供的一种删除数据的方法,读取配置文件,并判断运行模式是否正确;若所述运行模式正确,则选择SQL数据清洗规则或者rowkey数据清洗规则;按表名分组,并判断是否存在待删除数据分组;若存在待删除数据分组,则判断是否超过每次最大提交数,若否,则删除数据,并返回继续判断是否存在待删除数据分组;若超过每次最大提交数,则分批次删除数据,并返回继续判断是否存在待删除数据分组。本发明将要删除的数据的查询SQL配置到文件中,有助于解决在使用hadoop、solr等大数据存储技术时,删除数据步骤复杂的难题,大幅缩减了手工删除数据的工作量,提高工作效率;将SQL保存到文件中,当有新的清除规则时,只需要维护文件即可,避免重复性工作。
参考图2,图2是本发明实施例提供的另一种删除数据的方法的流程示意图。
如图2所示,所述删除数据的方法包括:
步骤201,读取配置文件,并判断运行模式是否正确;
步骤202,若所述运行模式正确,则选择SQL数据清洗规则或者rowkey数据清洗规则;
步骤203,按表名分组,并判断是否存在待删除数据分组;
步骤204,若存在待删除数据分组,则判断是否超过每次最大提交数,若否,则删除数据,并返回继续判断是否存在待删除数据分组;
步骤205,若超过每次最大提交数,则分批次删除数据,并返回继续判断是否存在待删除数据分组;
步骤206,若所述运行模块不正确,则退出数据删除流程。
参考图3,图3是本发明实施例提供的一种删除数据的装置的功能模块示意图。
如图3,所述装置包括:
读取模块301,用于读取配置文件;
优选地,所述读取模块301,具体用于:
读取config.properties获取dbConnInfo.json、bucketInfo.json存放路径、查询系统接口、每次最大数据删除数;
读取所述dbConnInfo.json并获取solr、hbase的zookeeper链接;
读取所述bucketInfo.json并获取数据存储规则。
第一判断模块302,用于判断运行模式是否正确;
选择模块303,用于若所述运行模式正确,则选择SQL数据清洗规则或者rowkey数据清洗规则;
优选地,所述选择模块303,具体用于:
当以SQL模式进行数据清洗时,通过调用海量数据查询系统接口查询rowkey数据。
分组模块304,用于按表名分组;
优选地,所述分组模块304,用于:
根据所述配置文件中的数据存储规则,将rowkey数据按照表名进行分组保存并去重。
第二判断模块305,用于判断是否存在待删除数据分组;
处理模块306,用于若存在待删除数据分组,则判断是否超过每次最大提交数,若否,则删除数据,并返回继续判断是否存在待删除数据分组;若超过每次最大提交数,则分批次删除数据,并返回继续判断是否存在待删除数据分组。
优选地,所述装置还包括:
退出模块,用于若所述运行模块不正确,则退出数据删除流程。
本发明实施例提供的一种删除数据的装置,读取配置文件,并判断运行模式是否正确;若所述运行模式正确,则选择SQL数据清洗规则或者rowkey数据清洗规则;按表名分组,并判断是否存在待删除数据分组;若存在待删除数据分组,则判断是否超过每次最大提交数,若否,则删除数据,并返回继续判断是否存在待删除数据分组;若超过每次最大提交数,则分批次删除数据,并返回继续判断是否存在待删除数据分组。本发明将要删除的数据的查询SQL配置到文件中,有助于解决在使用hadoop、solr等大数据存储技术时,删除数据步骤复杂的难题,大幅缩减了手工删除数据的工作量,提高工作效率;将SQL保存到文件中,当有新的清除规则时,只需要维护文件即可,避免重复性工作。
以上结合具体实施例描述了本发明实施例的技术原理。这些描述只是为了解释本发明实施例的原理,而不能以任何方式解释为对本发明实施例保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明实施例的其它具体实施方式,这些方式都将落入本发明实施例的保护范围之内。

Claims (10)

1.一种删除数据的方法,其特征在于,所述方法包括:
读取配置文件,并判断运行模式是否正确;
若所述运行模式正确,则选择SQL数据清洗规则或者rowkey数据清洗规则;
按表名分组,并判断是否存在待删除数据分组;
若存在待删除数据分组,则判断是否超过每次最大提交数,若否,则删除数据,并返回继续判断是否存在待删除数据分组;
若超过每次最大提交数,则分批次删除数据,并返回继续判断是否存在待删除数据分组。
2.根据权利要求1所述的方法,其特征在于,所述读取配置文件,包括:
读取config.properties获取dbConnInfo.json、bucketInfo.json存放路径、查询系统接口、每次最大数据删除数;
读取所述dbConnInfo.json并获取solr、hbase的zookeeper链接;
读取所述bucketInfo.json并获取数据存储规则。
3.根据权利要求1所述的方法,其特征在于,所述选择SQL数据清洗规则,包括:
当以SQL模式进行数据清洗时,通过调用海量数据查询系统接口查询rowkey数据。
4.根据权利要求1所述的方法,其特征在于,所述按表名分组,包括:
根据所述配置文件中的数据存储规则,将rowkey数据按照表名进行分组保存并去重。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述方法还包括:若所述运行模块不正确,则退出数据删除流程。
6.一种删除数据的装置,其特征在于,所述装置包括:
读取模块,用于读取配置文件;
第一判断模块,用于判断运行模式是否正确;
选择模块,用于若所述运行模式正确,则选择SQL数据清洗规则或者rowkey数据清洗规则;
分组模块,用于按表名分组;
第二判断模块,用于判断是否存在待删除数据分组;
处理模块,用于若存在待删除数据分组,则判断是否超过每次最大提交数,若否,则删除数据,并返回继续判断是否存在待删除数据分组;若超过每次最大提交数,则分批次删除数据,并返回继续判断是否存在待删除数据分组。
7.根据权利要求6所述的装置,其特征在于,所述读取模块,具体用于:
读取config.properties获取dbConnInfo.json、bucketInfo.json存放路径、查询系统接口、每次最大数据删除数;
读取所述dbConnInfo.json并获取solr、hbase的zookeeper链接;
读取所述bucketInfo.json并获取数据存储规则。
8.根据权利要求6所述的装置,其特征在于,所述选择模块,具体用于:
当以SQL模式进行数据清洗时,通过调用海量数据查询系统接口查询rowkey数据。
9.根据权利要求6所述的装置,其特征在于,所述分组模块,用于:
根据所述配置文件中的数据存储规则,将rowkey数据按照表名进行分组保存并去重。
10.根据权利要求6至9任意一项所述的装置,其特征在于,所述装置还包括:
退出模块,用于若所述运行模块不正确,则退出数据删除流程。
CN201611199406.2A 2016-12-22 2016-12-22 一种删除数据的方法及装置 Active CN106599267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611199406.2A CN106599267B (zh) 2016-12-22 2016-12-22 一种删除数据的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611199406.2A CN106599267B (zh) 2016-12-22 2016-12-22 一种删除数据的方法及装置

Publications (2)

Publication Number Publication Date
CN106599267A true CN106599267A (zh) 2017-04-26
CN106599267B CN106599267B (zh) 2020-12-08

Family

ID=58600854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611199406.2A Active CN106599267B (zh) 2016-12-22 2016-12-22 一种删除数据的方法及装置

Country Status (1)

Country Link
CN (1) CN106599267B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679171A (zh) * 2017-09-29 2018-02-09 北京酷我科技有限公司 一种数据库删除表优化算法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101431818A (zh) * 2008-12-10 2009-05-13 上海闻泰电子科技有限公司 一种实现手机数据保护功能的方法
CN103593352A (zh) * 2012-08-15 2014-02-19 阿里巴巴集团控股有限公司 一种海量数据清洗方法及装置
CN103714137A (zh) * 2013-12-19 2014-04-09 大唐移动通信设备有限公司 一种数据文件的删除方法和系统
CN104361022A (zh) * 2014-10-22 2015-02-18 浪潮软件集团有限公司 一种基于采集数据统计以及前台展现的方法
CN104615725A (zh) * 2015-02-09 2015-05-13 武汉众联信息技术股份有限公司 一种基于Web的在线自定义报表实现方法
CN104731791A (zh) * 2013-12-18 2015-06-24 东阳艾维德广告传媒有限公司 一种市场销售分析数据集市系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101431818A (zh) * 2008-12-10 2009-05-13 上海闻泰电子科技有限公司 一种实现手机数据保护功能的方法
CN103593352A (zh) * 2012-08-15 2014-02-19 阿里巴巴集团控股有限公司 一种海量数据清洗方法及装置
CN104731791A (zh) * 2013-12-18 2015-06-24 东阳艾维德广告传媒有限公司 一种市场销售分析数据集市系统
CN103714137A (zh) * 2013-12-19 2014-04-09 大唐移动通信设备有限公司 一种数据文件的删除方法和系统
CN104361022A (zh) * 2014-10-22 2015-02-18 浪潮软件集团有限公司 一种基于采集数据统计以及前台展现的方法
CN104615725A (zh) * 2015-02-09 2015-05-13 武汉众联信息技术股份有限公司 一种基于Web的在线自定义报表实现方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679171A (zh) * 2017-09-29 2018-02-09 北京酷我科技有限公司 一种数据库删除表优化算法

Also Published As

Publication number Publication date
CN106599267B (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
US7003725B2 (en) Method and system for normalizing dirty text in a document
US20050227278A1 (en) Recursive categorical sequence assembly
JPH11265369A (ja) 相互関係表示装置
CN113051308A (zh) 告警信息处理方法、设备、存储介质及装置
CN109753517A (zh) 一种信息查询的方法、装置、计算机存储介质及终端
CN109308258A (zh) 测试数据的构造方法、装置、计算机设备和存储介质
CN111597178A (zh) 一种清洗重复数据的方法、系统、设备及介质
CN111414351A (zh) 一种MySQL数据库的性能诊断方法及装置
JP6642435B2 (ja) データ処理装置、データ処理方法、及び、プログラム
CN111814458A (zh) 规则引擎系统优化方法、装置、计算机设备及存储介质
CN107463555A (zh) 删除中间层数据的方法、系统和装置
CN104462322B (zh) 字符串比对方法和装置
CN106599267A (zh) 一种删除数据的方法及装置
CN114385668A (zh) 冷数据清理方法、装置、设备及存储介质
US20160179851A1 (en) Method and system of process reconstruction
WO2012161672A1 (en) System and method for configuration policy extraction
CN109241042A (zh) 数据处理方法、装置以及电子设备
JP5206268B2 (ja) ルール作成プログラム、ルール作成方法及びルール作成装置
CN110262950A (zh) 基于多项指标的异动检测方法和装置
CN106547883B (zh) 一种用户定义函数udf运行情况的处理方法及系统
CN109508244A (zh) 数据处理方法及计算机可读介质
CN108090084A (zh) 一种知识管理方法和系统
CN103577560B (zh) 一种输入数据库操作指令的方法和装置
CN114465875A (zh) 故障处理方法及装置
CN110442604B (zh) 数据流向查询方法、抽取方法、处理方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant