CN106649552A - 常态化数据清理方法 - Google Patents

常态化数据清理方法 Download PDF

Info

Publication number
CN106649552A
CN106649552A CN201610975235.1A CN201610975235A CN106649552A CN 106649552 A CN106649552 A CN 106649552A CN 201610975235 A CN201610975235 A CN 201610975235A CN 106649552 A CN106649552 A CN 106649552A
Authority
CN
China
Prior art keywords
data
normalization
clearing method
partition table
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610975235.1A
Other languages
English (en)
Other versions
CN106649552B (zh
Inventor
高天翔
杨志云
付毅
汪源
陈广涛
杨欣
周新
刘麟
杨建设
吴宇光
陈�胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Rural Credit Cooperative Union Network Information Center
Original Assignee
Hubei Rural Credit Cooperative Union Network Information Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei Rural Credit Cooperative Union Network Information Center filed Critical Hubei Rural Credit Cooperative Union Network Information Center
Priority to CN201610975235.1A priority Critical patent/CN106649552B/zh
Publication of CN106649552A publication Critical patent/CN106649552A/zh
Application granted granted Critical
Publication of CN106649552B publication Critical patent/CN106649552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种常态化数据清理方法,包括以下步骤;S1、构造数据容器转换系统,此系统用于实现以日为单位的数据转换加工、查询、删除和调整操作;S2、数据分离,将数据容器转换系统中的数据进行数据分离,得到分离后的数据;S3、数据加工,将分离后的数据依据业务逻辑进行数据加工,得到加工后的数据;S4、数据整合,将加工完毕的数据进行整合,以保证数据的完整性;S5、实现自动维护系统。该方法减少了人员参与作业的人力成本,且降低了维护过程中实施人员的误操作风险。

Description

常态化数据清理方法
技术领域
本发明属于数据库清理技术领域,具体涉及一种数据库的常态化数据清理的方法。
背景技术
数据库清理即对数据库的数据进行清除,传统方法数据库清理一般通过人工清理的方式,将历史数据从现有数据库剥离。传统人工清理方式主要有DELETE和Truncate两种。
其中DELETE方式是编程中实现删除功能的命令,用于创建一个删除查询,可从列在FROM子句之中的一个或多个表中删除记录。这种方式执行时会记录数据库日志,在误操作时允许进行数据回滚(部分数据库产品支持闪回)及数据安全提升。但是它的不足在于该方法由两部分进行,1、查询筛选所需目标;2、记录日志后再删除所选目标。在海量数据表中,如果查询目标效率低下,将直接影响删除执行时长,尤其在数据量超过一定量级后,删除执行效率极低,那么表对象中会执行加锁动作,这样就会导致生产业务系统因不能支持长时间锁表而造成业务中断。
Truncate方式是使ddl操作立即生效,原数据不放到rollback segment(回滚段,内存中的回收站)中,不能回滚;语句缺省情况下将空间释放到minextents个extent(自动进行降高水位动作,释放表空间容量);truncate会将高水线复位(回到最开始)。这种方式只清除表中的所有数据,不删除表的结构,所以执行速度快,占用系统开销小。但是它的不足在于无法进行数据筛选,而且整表数据清除,不记日志,不能回滚,不允许误操作,安全性低。虽然Truncate通常与select insert into(查询插入,将需要的数据加工后放入新表)一起使用。把所选数据转储后进行原表Truncate可以达到快速清理数据的目的。但是他仍然需要依赖select的效率。
发明内容
本发明旨在解决现有技术中存在的技术问题之一,为此,本发明的一个目的在于提供了一种常态化的数据清理方法,可以有效解决查询时间长,操作无法回滚,安全性低,且全部依赖人工操作等问题。
需要说明的是,本发明是基于发明人的下列发现而完成的:
根据本发明的一个方面,本发明提供了一种常态化数据清理方法,包括以下步骤;
S1、构造数据容器转换系统,此系统用于实现以日为单位的数据转换加工、查询、删除和调整操作;
S2、数据分离,将数据容器转换系统中的数据进行数据分离,得到分离后的数据;
S3、数据加工,将分离后的数据依据业务逻辑进行数据加工,得到加工后的数据;
S4、数据整合,将加工完毕的数据进行整合,以保证数据的完整性;
S5、实现自动维护系统。
另外,根据本发明上述实施例一种常态化数据清理方法,还可以具有如下附加的技术特征:
根据本发明的实施例,所述步骤S1包括:
S101、创建一个分区表,其表定义与现有的物理表相同;
S102、从现有的物理表中导出数据;
S103、将导出的数据加载到创建的分区表中;
S104、对分区表建立索引和约束;
S105、删除物理表;
S106、重命名分区表。
根据本发明的实施例,所述步骤S2包括:
将待加工清理区间内的数据从分区表中进行分离,分离出小表。
根据本发明的实施例,所述步骤S3包括:
对分离出的小表依据业务逻辑进行数据加工,得到加工完毕的数据,加工过程中加入各类数据有效性检查步骤,加工完成后提取有效数据,清理无效数据;并使用自动的维护脚本检查,在数据提取后自动核对数据完整性,避免数据混乱。
根据本发明的实施例,所述步骤S4包括:
将加工完毕的数据加入至分区表中,保证数据的完整性。
根据本发明的实施例,所述步骤S5包括:
在TWS作业流中加入自动维护脚本;
设定报警机制,具体为:
检查脚本是否执行成功,如果执行失败则短信通知值班人员。
检查分离小表是否成功,如果执行失败则短信通知值班人员。
检查数据导入是否成功,如果执行失败则短信通知值班人员。
将S1-S4步骤流程作为自动维护脚本加入TWS自动作业流程中,并设定报警机制,从而实现自动维护系统。使用自动维护系统后,维护人员无需职守作业。减少了人员参与作业的人力成本,且降低了维护过程中实施人员的误操作风险。
实施本发明提供的常态化数据清理方法,具有以下有益效果:
1、减少了人员参与作业的人力成本。
2、降低了维护过程中实施人员的误操作风险。
3、降低了服务器资源开销。
4、提高了自动维护作业的安全性。
5、提高了数据清理速度。
附图说明
图1为步骤S1构造数据容器转换系统的流程示意图;
图2为步骤S2数据分离流程示意图;
图3为步骤S3数据加工流程示意图;
图4为步骤S4数据整合流程示意图。
具体实施方式
下面详细描述本发明的实施例。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
如图1所示,常态化数据清理方法包含如下步骤:
S1、构造数据容器转换系统;
S2、进行数据分离;
S3、进行数据加工;
S4、完成数据整合;
S5、实现自动维护系统。
在本发明所述的常态化数据清理方法中,所述步骤S1包括:
S101、建一个新的分区表,其表定义与现有的物理表相同;
S102、从当前的物理表中导出数据;
S103、将数据加载到新创建的分区表中;
S104、对分区表建立必要的索引和约束;
S105、删除物理表;
S106、重命名新的分区表。
此步骤实现了基于分区表的分区分离功能,将时间业务数据以日为单位进行逻辑分区,并将数据装入可自由分离的分区表中。通过此方法可构造出一个将装载数据的物理表转换为分区表的系统,此系统可实现以日为单位的数据转换加工、查询、删除、调整等操作。
在本发明所述的常态化数据清理方法中,所述步骤S2包括:
将待加工清理区间内的数据(以日为单位)从分区表(大表)中进行分离。分离后小表数据量小便于加工清理,且加工清理数据时,不影响分区表(大表)继续对业务系统提供服务。
在本发明所述的常态化数据清理方法中,所述步骤S3包括:
对分离出的小表依据业务逻辑进行数据加工(过程中加入各类数据有效性检查步骤),提取有效数据,清理无效数据。并使用自动的维护脚本检查,在数据提取后自动核对数据完整性,避免数据混乱。
在本发明所述的常态化数据清理方法中,所述步骤S4包括:
将加工完毕的数据加入至分区表(大表)中,保证数据的完整性。
在本发明所述的常态化数据清理方法中,所述步骤S5包括:
1、在TWS作业流中加入自动维护脚本;
2、设定报警机制,检查脚本是否执行成功,如果执行失败则短信通知值班人员。
检查分离小表是否成功,如果执行失败则短信通知值班人员。
检查数据导入是否成功,如果执行失败则短信通知值班人员。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (6)

1.一种常态化数据清理方法,其特征在于,包括以下步骤;
S1、构造数据容器转换系统,此系统用于实现以日为单位的数据转换加工、查询、删除和调整操作;
S2、数据分离,将数据容器转换系统中的数据进行数据分离,得到分离后的数据;
S3、数据加工,将分离后的数据依据业务逻辑进行数据加工,得到加工后的数据;
S4、数据整合,将加工完毕的数据进行整合,以保证数据的完整性;
S5、实现自动维护系统。
2.根据权利要求1所述的常态化数据清理方法,其特征在于,所述步骤S1包括:
S101、创建一个分区表,其表定义与现有的物理表相同;
S102、从现有的物理表中导出数据;
S103、将导出的数据加载到创建的分区表中;
S104、对分区表建立索引和约束;
S105、删除物理表;
S106、重命名分区表。
3.根据权利要求2所述的常态化数据清理方法,其特征在于,所述步骤S2包括:
将待加工清理区间内的数据从分区表中进行分离,分离出小表。
4.根据权利要求3所述的常态化数据清理方法,其特征在于,所述步骤S3包括:
对分离出的小表依据业务逻辑进行数据加工,得到加工完毕的数据,加工过程中加入各类数据有效性检查步骤,加工完成后提取有效数据,清理无效数据;并使用自动的维护脚本检查,在数据提取后自动核对数据完整性,避免数据混乱。
5.根据权利要求4所述的常态化数据清理方法,其特征在于,所述步骤S4包括:
将加工完毕的数据加入至分区表中,保证数据的完整性。
6.根据权利要求4所述的常态化数据清理方法,其特征在于,所述步骤S5包括:
在TWS作业流中加入自动维护脚本;
设定报警机制,具体为:
检查脚本是否执行成功,如果执行失败则短信通知值班人员;
检查分离小表是否成功,如果执行失败则短信通知值班人员;
检查数据导入是否成功,如果执行失败则短信通知值班人员。
CN201610975235.1A 2016-11-07 2016-11-07 常态化数据清理方法 Active CN106649552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610975235.1A CN106649552B (zh) 2016-11-07 2016-11-07 常态化数据清理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610975235.1A CN106649552B (zh) 2016-11-07 2016-11-07 常态化数据清理方法

Publications (2)

Publication Number Publication Date
CN106649552A true CN106649552A (zh) 2017-05-10
CN106649552B CN106649552B (zh) 2020-05-12

Family

ID=58805271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610975235.1A Active CN106649552B (zh) 2016-11-07 2016-11-07 常态化数据清理方法

Country Status (1)

Country Link
CN (1) CN106649552B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019342A (zh) * 2017-12-13 2019-07-16 中兴通讯股份有限公司 分区表访问方法、装置及设备、计算机可读存储介质
CN110188116A (zh) * 2019-04-10 2019-08-30 口碑(上海)信息技术有限公司 核对脚本的处理方法及装置、存储介质、电子装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216987A (zh) * 2014-09-04 2014-12-17 浪潮通用软件有限公司 一种基于时间戳且支持删除操作的增量数据捕获方法
CN104503966A (zh) * 2014-10-16 2015-04-08 杭州斯凯网络科技有限公司 PostgreSQL大数据高效免维护自动分区方法
US20160048541A1 (en) * 2012-02-29 2016-02-18 International Business Machines Corporation Automatic table cleanup for relational databases
CN105989195A (zh) * 2015-03-23 2016-10-05 国际商业机器公司 用于处理数据库数据的方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160048541A1 (en) * 2012-02-29 2016-02-18 International Business Machines Corporation Automatic table cleanup for relational databases
CN104216987A (zh) * 2014-09-04 2014-12-17 浪潮通用软件有限公司 一种基于时间戳且支持删除操作的增量数据捕获方法
CN104503966A (zh) * 2014-10-16 2015-04-08 杭州斯凯网络科技有限公司 PostgreSQL大数据高效免维护自动分区方法
CN105989195A (zh) * 2015-03-23 2016-10-05 国际商业机器公司 用于处理数据库数据的方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019342A (zh) * 2017-12-13 2019-07-16 中兴通讯股份有限公司 分区表访问方法、装置及设备、计算机可读存储介质
CN110019342B (zh) * 2017-12-13 2023-03-28 金篆信科有限责任公司 分区表访问方法、装置及设备、计算机可读存储介质
CN110188116A (zh) * 2019-04-10 2019-08-30 口碑(上海)信息技术有限公司 核对脚本的处理方法及装置、存储介质、电子装置
CN110188116B (zh) * 2019-04-10 2020-11-10 口碑(上海)信息技术有限公司 核对脚本的处理方法及装置、存储介质、电子装置

Also Published As

Publication number Publication date
CN106649552B (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN106445738B (zh) 一种数据库备份方法及装置
CN103365852A (zh) 一种文档库系统中的并发控制方法及系统
CN103631967B (zh) 一种带自增量标识字段的数据表的处理方法及装置
CN106649552A (zh) 常态化数据清理方法
CN107909342A (zh) 一种工程项目管理与工程项目审计一体化系统
US7933910B2 (en) Retrieving apparatus, retrieving method, and retrieving program of hierarchical structure data
CN101493842A (zh) Oracle数据库中大批量删除数据的方法
CN102622367B (zh) 流程数据的过滤和压缩方法
CN108121789B (zh) 一种日志管理方法及系统
CN106844497A (zh) 一种数据库代码的检查装置和方法
CN104484375A (zh) 在项目分析流程中自动建立数据库的方法及系统
CN106649590A (zh) 一种处理数据库的存储空间的方法和装置
CN104391945B (zh) 数据库文件数据索引的处理方法和装置
CN109426576B (zh) 容错处理方法以及容错组件
CN102831547A (zh) 一种实现实时结息处理的方法和系统
CN110956552B (zh) 保险问题处理方法、装置、设备及存储介质
CN1588405A (zh) 用于风险控制系统的数据处理装置及方法
CN103970854B (zh) Sap ecc端与sap bw端之间增量凭证信息同步方法
CN110764946B (zh) 一种基于文件的索引数据失败补偿的方法
CN102855227B (zh) 一种文档处理系统及方法
CN1863173A (zh) 获取设备输出信息的实现方法及装置
CN111767299A (zh) 数据库操作方法、装置、系统、存储介质及电子设备
CN108765110A (zh) 一种财务数据一体化操作系统
CN101882241A (zh) 一种高效管理员工加班申请的技术
CN106126752A (zh) 一种支持结构化与非结构化数据导入的装置与方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant