CN112527786A - 数据表分区新增方法、装置、计算机设备及存储介质 - Google Patents

数据表分区新增方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112527786A
CN112527786A CN202011502422.0A CN202011502422A CN112527786A CN 112527786 A CN112527786 A CN 112527786A CN 202011502422 A CN202011502422 A CN 202011502422A CN 112527786 A CN112527786 A CN 112527786A
Authority
CN
China
Prior art keywords
partition
data table
data
heat
cleaned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011502422.0A
Other languages
English (en)
Other versions
CN112527786B (zh
Inventor
朱传亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202011502422.0A priority Critical patent/CN112527786B/zh
Publication of CN112527786A publication Critical patent/CN112527786A/zh
Application granted granted Critical
Publication of CN112527786B publication Critical patent/CN112527786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及空间清理领域,本发明公开了一种数据表分区新增方法、装置、计算机设备及存储介质,所述方法包括:通过获取分区新增请求中的分区列表和分区配置信息,在检测到分区总数等于预设分区数时,对分区列表中的与各分区标识对应的分区信息进行清理策略分析,识别出待清理分区标识;通过数据表分区管理中心,对与待清理分区标识对应的数据表分区中的所有维度数据进行热度分析,得到热度数据,并将热度数据压缩存储至数据表分区管理中心中的热度仓库中,对数据表分区进行快速清理及配置,配置完新增的数据表分区。本发明实现了快速清理数据表分区及循环利用数据表分区,无需人工清理及配置,提高了清理及配置效率。

Description

数据表分区新增方法、装置、计算机设备及存储介质
技术领域
本发明涉及云计算的空间清理领域,尤其涉及一种数据表分区新增方法、装置、计算机设备及存储介质。
背景技术
目前,大部分应用程序上线之后都会产生大量数据,在不断壮大的数据过程中就会不断地人工创建及配置新的分区,以满足数据存储的需求,因此,很快会达到容量瓶颈,就需要购买大容量的硬件以满足扩容需求,而且在产生大量的历史数据中存在非热度的数据或者可以清理的数据,大多数都需要人工清理这些数据,以释放资源,以上人工创建及清理数据表分区的管理方法,大大增加了运维的人力成本和硬件成本,甚至会引入人为风险。
发明内容
本发明提供一种数据表分区新增方法、装置、计算机设备及存储介质,实现了快速清理数据表分区及循环利用数据表分区,能够高效地清理大容量的历史的数据表,无需人工清理及配置,提高了清理及配置效率,以及解决了不断新增数据表分区以扩容的局限性,减少了运维人为成本和硬件成本,提高了数据表分区的性能和优化了数据表分区的利用率,能够实现数据表分区自动清理。
一种数据表分区新增方法,包括:
获取所述分区新增请求中的分区列表和分区配置信息;
检测所述分区列表中的分区总数是否达到预设分区数;
在检测到所述分区总数等于所述预设分区数时,对所述分区列表中的与各分区标识对应的分区信息进行清理策略分析,识别出待清理分区标识;所述待清理分区标识为所述分区列表中与最大清理指数对应的分区标识;
通过数据表分区管理中心,对与所述待清理分区标识对应的数据表分区中的所有维度数据进行热度分析,得到热度数据,并将所述热度数据压缩存储至所述数据表分区管理中心中的热度仓库中;
根据所述待清理分区标识和所述分区配置信息,对与所述待清理分区标识对应的数据表分区进行快速清理及配置,将快速清理及配置后的与所述待清理分区标识对应的数据表分区确定为新增的数据表分区。
一种数据表分区新增装置,包括:
获取模块,用于获取所述分区新增请求中的分区列表和分区配置信息;
检测模块,用于检测所述分区列表中的分区总数是否达到预设分区数;
分析模块,用于在检测到所述分区总数等于所述预设分区数时,对所述分区列表中的与各分区标识对应的分区信息进行清理策略分析,识别出待清理分区标识;所述待清理分区标识为所述分区列表中与最大清理指数对应的分区标识;
存储模块,用于通过数据表分区管理中心,对与所述待清理分区标识对应的数据表分区中的所有维度数据进行热度分析,得到热度数据,并将所述热度数据压缩存储至所述数据表分区管理中心中的热度仓库中;
清理模块,用于根据所述待清理分区标识和所述分区配置信息,对与所述待清理分区标识对应的数据表分区进行快速清理及配置,将快速清理及配置后的与所述待清理分区标识对应的数据表分区确定为新增的数据表分区。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据表分区新增方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述数据表分区新增方法的步骤。
本发明提供的数据表分区新增方法、装置、计算机设备及存储介质,通过获取所述分区新增请求中的分区列表和分区配置信息,在检测到所述分区总数等于所述预设分区数时,对所述分区列表中的与各分区标识对应的分区信息进行清理策略分析,识别出待清理分区标识;通过数据表分区管理中心,对与所述待清理分区标识对应的数据表分区中的所有维度数据进行热度分析,得到热度数据,并将所述热度数据压缩存储至所述数据表分区管理中心中的热度仓库中,对与所述待清理分区标识对应的数据表分区进行快速清理及配置,配置完新增的数据表分区,因此,实现了通过清理策略分析自动识别出待清理的数据表分区,并通过数据表分区管理中心对该数据表分区热度分析出热度数据,压缩存储至热度仓库以便后续调取热度数据,能够摒弃历史冗余的或价值低的数据表,做到仅备份有价值的数据表,优化了热度仓库的存储空间,能够做到最小化存储有价值的数据表,以及运用快速清理方式清理待清理的数据表分区和配置该数据表分区,能够实现快速清理数据表分区及循环利用数据表分区,能够高效地清理大容量的历史的数据表,无需人工清理及配置,提高了清理及配置效率,以及仅用有限个数的数据表分区就可实现大容量的数据表存储,解决了不断新增数据表分区以扩容的局限性,减少了运维人为成本和硬件成本,提高了数据表分区的性能和优化了数据表分区的利用率,能够实现数据表分区自动清理。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中数据表分区新增方法的应用环境示意图;
图2是本发明一实施例中数据表分区新增方法的流程图;
图3是本发明一实施例中数据表分区新增方法的步骤S10的流程图;
图4是本发明一实施例中数据表分区新增方法的步骤S30的流程图;
图5是本发明一实施例中数据表分区新增方法的步骤S40的流程图;
图6是本发明另一实施例中数据表分区新增方法的步骤S40的流程图;
图7是本发明另一实施例中数据表分区新增方法的步骤S50的流程图;
图8是本发明一实施例中数据表分区新增装置的原理框图;
图9是本发明一实施例中计算机设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的数据表分区新增方法,可应用在如图1的应用环境中,其中,客户端(计算机设备)通过网络与服务器进行通信。其中,客户端(计算机设备)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种数据表分区新增方法,其技术方案主要包括以下步骤S10-S50:
S10,获取所述分区新增请求中的分区列表和分区配置信息。
可理解地,所述分区新增请求的触发方式可以根据需求设定,所述分区新增请求可以在某一分区达到容量阈值时触发,也可以为定时触发,例如每个月的第一天触发。
其中,所述分区列表为当前与所需新增数据表分区同级的所有数据表分区的清单,所述分区配置信息为与配置新增的数据表分区相关的信息。
在一实施例中,如图3所示,所述步骤S10之前,即所述获取所述分区新增请求中的分区列表和分区配置信息之前,包括:
S101,接收到数据插入完成指令;获取所述数据插入完成指令中的插入分区标识。
可理解地,所述数据插入完成指令为所述数据表分区插入数据之后触发的指令,所述数据插入完成指令包括所述插入分区标识,所述插入分区标识为插入数据的目标的分区标识,例如:在与插入分区标识对应的数据表分区中插入数据之后触发包含有该插入分区标识的数据插入完成指令
S102,自所述数据表分区管理中心获取与所述插入分区标识对应的数据表分区对应的空间信息和状态信息。
可理解地,所述数据表分区管理中心为对所有数据表分区进行管理的中心,能够生成所有数据表分区的分区信息,记录各所述数据表分区的空间信息、状态信息等,还存储有预设的默认分区参数和配置模板,所述空间信息为与所述数据表分区的容量相关的信息,比如,所述空间信息为数据表分区的容量大小、剩余容量、类型和名称等,所述状态信息为表示所述数据表分区的状态的信息。
S103,在检测到获取的所述空间信息中的剩余容量小于容量阈值时,判断获取的所述状态信息是否为未满状态。
可理解地,所述空间信息包括所述剩余容量,所述剩余容量为该数据表分区剩余可以写入或者插入数据的容量大小,所述容量阈值为接近满容量而设置的容量值,例如:数据表分区的容量为20G,容量阈值为18G,在剩余容量少于该容量阈值时,即小于18G时,判断状态信息是否为未满状态。
其中,所述状态信息包括未满状态、将满状态和已满状态,所述未满状态为所述剩余容量大于或者等于所述容量阈值,所述将满状态为所述剩余容量小于所述容量阈值,所述已满状态为所述剩余容量为零或者已经无法插入数据。
S104,若所述状态信息为未满状态,将所述状态信息设置为将满状态。
可理解地,判断获取到的所述状态信息为未满状态,说明在此之前还未满,需要将所述状态信息进行转变,将所述状态信息从未满状态转变成将满状态。
S105,从所述数据表分区管理中心获取预设的所述分区配置信息,并通过所述数据表分区管理中心生成所述分区列表。
可理解地,所述分区配置信息为与配置新增的数据表分区相关的信息,获取预先存储于所述数据表分区管理中的所述分区配置信息,同时通过所述数据表分区管理中心收集所有与所述数据表分区对应的所述空间信息和所述状态信息,将收集到的所有所述空间信息和所有所述状态信息进行罗列成清单,从而生成所述分区列表。
S106,根据所述分区配置信息和生成的所述分区列表,生成所述分区新增请求。
可理解地,将所述分区配置信息和所述分区列表进行封装,按照与分区新增请求对应的模板填充所述分区配置信息和所述分区列表,生成所述分区新增请求,即所述分区新增请求包括所述分区配置信息和所述分区列表。
本发明实现了通过接收到数据插入完成指令;获取所述数据插入完成指令中的插入分区标识;自所述数据表分区管理中心获取与所述插入分区标识对应的数据表分区对应的空间信息和状态信息;在检测到获取的所述空间信息中的剩余容量小于容量阈值时,判断获取的所述状态信息是否为未满状态;若所述状态信息为未满状态,将所述状态信息设置为将满状态;从所述数据表分区管理中心获取预设的所述分区配置信息,并通过所述数据表分区管理中心生成所述分区列表;根据预设的所述分区配置信息和生成的所述分区列表,生成所述分区新增请求,如此,实现了在有数据插入数据表分区之后接收到数据插入完成指令,通过数据表分区管理中心获取分区配置信息和该数据表分区的空间信息和状态信息,在该数据表分区的剩余容量小于容量阈值时,判断状态信息是否为未满状态,从而生成分区列表,最终触发分区新增请求,达到自动提前触发分区新增请求,起到提前新增数据表分区的作用。
在一实施例中,所述步骤S103之后,即所述判断获取的所述状态信息是否为未满状态之后,还包括:
若所述状态信息不为未满状态,无需新增数据表分区。
可理解地,判断获取到的所述状态信息不为未满状态,说明在此之前处于将满状态,检验是否已经新增了数据表分区,如果检验已经新增了数据表分区,就无需再新增数据表分区,如果检验未新增了数据表分区,发出新增数据表分区机制运行出错的通知。
S20,检测所述分区列表中的分区总数是否达到预设分区数。
可理解地,所述预设分区数可以根据需求设定,比如所述预设分区数为12个,代表一年12个月份,所述分区总数为所述分区列表中的所有数据表分区的数量之和。
S30,在检测到所述分区总数等于所述预设分区数时,对所述分区列表中的与各分区标识对应的分区信息进行清理策略分析,识别出待清理分区标识;所述待清理分区标识为所述分区列表中与最大清理指数对应的分区标识。
可理解地,所述清理策略分析为按照清理策略对所有所述分区信息进行分析,计算出与各所述分区标识对应的清理系数,将与最大的所述清理系数对应的所述分区标识确定为所述待清理分区标识,所述清理策略可以根据需求进行设定,比如清理策略可以为与各所述分区标识对应的分区信息中初始数据插入时间与当前时间的距离作为清理系数;清理策略也可以为与各所述分区标识对应的分区信息中的可释放容量系数作为清理系数,可释放容量系数为统计出已满状态的数据表分区可释放的容量的时间系数,即释放数据表分区的时间耗时,对时间耗时转成序列后取对数得到清理系数等等,将与最大的清理系数对应的分区标识作为待清理分区标识。
其中,所述待清理分区标识为所述分区列表中与最大清理指数对应的分区标识。
在一实施例中,如图4所示,所述步骤S30中,即所述对所述分区列表中的与各分区标识对应的分区信息进行清理策略分析,识别出待清理分区标识,包括:
S301,自所述数据表分区管理中心获取清理策略;所述清理策略包括分析属性和与所述分析属性对应的转换类型。
可理解地,所述数据表分区管理中心存储有所述清理策略,所述清理策略为预先设置的清理数据表分区的策略,所述清理策略包括所述分析属性和与所述分析属性对应的转换类型,所述分析属性为需要进行清理分析的指标属性,通过所述分析属性能够确定出各个所述数据表分区的待分析指,所述转换类型为将所述分析属性的值转换成同一维度的转换的种类。
S302,将与所述分区标识对应的分区信息中与所述分析属性对应的属性值确定为与所述分区标识对应的待分析值。
可理解地,从与所述分区标识对应的分区信息中获取与所述分析属性相同的指标属性对应的属性值,即该指标属性下的所述属性值,并将其确定为与该分区标识对应的所述待分析指,例如:分析属性有数据表分区的创建时间、图文比例、预压缩可释放空间等,所述创建时间为创建该数据表分区的时间,所述图文比例为该数据表分区中图像容量和文本容量的比例,所述预压缩可释放空间为该数据表分区经过压缩后可以释放出的空间容量。
S303,对与所述分区标识对应的待分析值按照与其对应的所述分析属性对应的转换类型进行转换,得到与所述分区标识对应的指标值。
可理解地,所述转换类型包括时间转换类别、百分比转换类别和数值转换类别等,一个所述分析属性对应一个所述转换类型,例如:创建时间对应时间转换类别、图文比例对应百分比转换类别、预压缩可释放空间对应数值转换类别,将所有所述待分析值按照其对应的所述转换类型进行转换,将所有所述分析属性转换成一个维度,可以运用one-hot转换方式,将多种类型的属性转换成一个预设元素个数的一维数组的格式,从而将转换后的值确定为与该分区标识对应的所述指标值。
S304,对与相同的所述分区标识对应的所有所述指标值进行分析,确定出与该分区标识对应的清理系数。
可理解地,所述分析为将与相同的所述分区标识对应的所有所述指标值进行加权相乘,优选将与所述创建时间对应的所述指标值的权重设置为最大,优选对最早的数据表分区进行清理,其次为与所述预压缩释放空间对应的所述指标值的权重,再次为与所述图文比例对应的所述指标值的权重,从而可以计算出与该分区标识对应的所述清理系数,所述清理系数衡量出各数据表分区的被清理的概率。
S305,将与最大的所述清理系数对应的所述分区标识确定为所述待清理分区标识。
可理解地,将与最大的所述清理系数对应的所述分区标识标记为所述待清理分区标识。
本发明实现了通过自所述数据表分区管理中心获取清理策略;将与所述分区标识对应的分区信息中与所述分析属性对应的属性值确定为与所述分区标识对应的待分析值;对与所述分区标识对应的待分析值按照与其对应的所述分析属性对应的转换类型进行转换,得到与所述分区标识对应的指标值;对与各所述分区标识对应的所有所述指标值进行分析,确定出与各所述分区标识对应的清理系数;将与最大的所述清理系数对应的所述分区标识确定为所述待清理分区标识,如此,实现了通过数据表分区管理中心的清理策略,标记出待分析指,并对其进行转换,得到与其对应的指标值,通过对所有指标值进行分析,确定出待清理分区标识,从而确定出需要清理的历史的数据表分区,实现了科学地、客观地自动识别待清理的数据表分区,减少了运维人为成本和硬件成本。
S40,通过数据表分区管理中心,对与所述待清理分区标识对应的数据表分区中的所有维度数据进行热度分析,得到热度数据,并将所述热度数据压缩存储至所述数据表分区管理中心中的热度仓库中。
可理解地,所述数据表分区管理中心为对所有数据表分区进行管理的中心,能够生成所有数据表分区的分区信息,记录各所述数据表分区的空间信息、状态信息等,还存储有预设的默认分区参数和配置模板,所述默认分区参数为创建数据表分区的容量大小、分区类型等初始参数,所述配置模板为配置数据表分区的语句模板,所述热度分析为通过所述数据表分区管理中心获取所与所述待清理分区标识对应的数据表分区中的与各数据表对应的所有维度数据,根据所有所述维度数据进行热度综合计算,计算出与各所述数据表对应的热度值,将所有与大于预设的热度阈值的所述热度值对应的所述数据表标记为所述热度数据的分析过程,所述数据表分区管理中心设有所述热度仓库,所述热度仓库为存储历史热度的数据表,以供后续能够访问历史的热度的数据表,将所述热度数据从与所述待清理分区标识对应的数据表分区中导出所述热度数据,并运用Basic Compression压缩法,将导出的所述热度数据批量压缩导入至所述热度仓库,所述热度仓库为存储具有热度的数据表,能够摒弃历史冗余的或价值低的数据表,做到仅备份有价值的数据表,优化了热度仓库的存储空间,能够做到最小化存储有价值的数据表,运用Basic Compression压缩法只能在批量导入热度仓库的时候进行压缩,做到最大压缩量的方式压缩存储数据表。
其中,所述热度数据为重要的或者关联重要的且访问量大的数据表的集合,所述维度数据为与所述数据表分区对应的各维度的指标数据,所述维度数据包括重要等级、访问量、写入次数和约束条件等维度的数据。
在一实施例中,如图5所示,所述步骤S40中,即所述通过数据表分区管理中心,对与所述待清理分区标识对应的数据表分区中的所有维度数据进行热度分析,得到热度数据,包括:
S401,通过所述数据表分区管理中心,获取所与所述待清理分区标识对应的数据表分区中的与各数据表对应的所有维度数据。
可理解地,所述维度数据为与所述数据表分区对应的各维度的指标数据,所述维度数据包括重要等级、访问量、写入次数和约束条件等维度的数据。
S402,将与各数据表对应的所有所述维度数据输入热度模型中。
可理解地,所述热度模型为经过收集的包括重要等级、访问量、写入次数和约束条件等维度数据的历史的数据样本训练完成的模型,训练过程中通过将重要等级、访问量、写入次数和约束条件等维度数据进行提取特征,对提取的特征进行热度分析出相同的热度共性,根据热度共性确定出其热度程度,所述热度模型能够根据数据表中的重要等级、访问量、写入次数和约束条件等维度数据进行热度分析,识别出数据表的热度值,从而能够确定出是否为热度数据的模型。
S403,通过所述热度模型对所有所述维度数据进行所述热度分析,分析出与各所述数据表对应的热度值。
可理解地,所述热度分析为通过所述数据表分区管理中心获取所与所述待清理分区标识对应的数据表分区中的与各数据表对应的所有维度数据,根据所有所述维度数据进行热度综合计算,计算出与各所述数据表对应的热度值,将所有与大于预设的热度阈值的所述热度值对应的所述数据表标记为所述热度数据的分析过程,也即将重要等级、访问量、写入次数和约束条件等维度数据进行提取特征,对提取的特征进行热度共性的热度综合计算,根据热度共性分析出其热度程度的过程,从而得到与各所述数据表对应的热度值。
S404,将所有与大于预设的热度阈值的所述热度值对应的所述数据表标记为所述热度数据。
可理解地,将所有与大于预设的热度阈值的所述热度值对应的所述数据表确定为所述热度数据。
本发明实现了通过所述数据表分区管理中心,获取所与所述待清理分区标识对应的数据表分区中的与各数据表对应的所有维度数据;将与各数据表对应的所有所述维度数据输入热度模型中;通过所述热度模型对所有所述维度数据进行所述热度分析,分析出与各所述数据表对应的热度值;将所有与大于预设的热度阈值的所述热度值对应的所述数据表标记为所述热度数据,如此,实现了通过数据表分区管理中心获取所有维度数据,并通过热度模型进行热度分析,分析出热度数据,能够从所有的数据表中自动识别出热度数据,从而标记出有价值的数据表,减少了运维人为成本和硬件成本。
在一实施例中,如图6所示,所述步骤S40中,即所述将所述热度数据压缩存储至所述数据表分区管理中心中的热度仓库中,包括:
S405,从与所述待清理分区标识对应的数据表分区中导出所述热度数据;
可理解地,导出所述热度数据的过程包括导出所有与大于预设的热度阈值的所述热度值对应的所述数据表以及与该数据表对应的索引,所述索引为每个数据表赋予的一个索引编号,通过该索引能够确定出该数据表。
S406,运用Basic Compression压缩法,将导出的所述热度数据批量压缩导入至所述热度仓库中。
可理解地,所述批量压缩导入的过程包括所述热度数据中的索引也一起压缩导入,通过将索引一起压缩导入,能够简单地标记出数据表的位置。
本发明实现了通过导出所述热度数据,并运用Basic Compression压缩法,将导出的所述热度数据批量压缩导入至所述热度仓库中,如此,实现了运用Basic Compression压缩法,对热度数据进行批量压缩并导入到热度仓库中,能够减少热度仓库的存储空间,最大限度地压缩热度数据,提高了热度仓库的性能,充分利用热度仓库的容量,减少了运维人为成本和硬件成本。
S50,根据所述待清理分区标识和所述分区配置信息,对与所述待清理分区标识对应的数据表分区进行快速清理及配置,将快速清理及配置后的与所述待清理分区标识对应的数据表分区确定为新增的数据表分区。
可理解地,运用drop语句,能够快速清理与所述待清理分区标识对应的数据表分区,直接对整个数据表分区进行删除,无需对数据表中的数据进行一一删除,减少了各个数据表中的数据的删除时间,能够对大容量的数据表分区进行清理,清理得到待配置分区,自所述数据表分区管理中心获取配置模板,将所述分区配置信息添加至所述配置模板中,生成与所述分区配置信息对应的配置语句,执行所述配置语句以配置所述待配置分区,将配置后的所述待配置分区确定为新增的所述数据表分区,完成所述分区新增请求。
本发明实现了通过获取所述分区新增请求中的分区列表和分区配置信息;检测所述分区列表中的分区总数是否达到预设分区数;在检测到所述分区总数等于所述预设分区数时,对所述分区列表中的与各分区标识对应的分区信息进行清理策略分析,识别出待清理分区标识;通过数据表分区管理中心,对与所述待清理分区标识对应的数据表分区中的所有维度数据进行热度分析,得到热度数据,并将所述热度数据压缩存储至所述数据表分区管理中心中的热度仓库中;根据所述待清理分区标识和所述分区配置信息,对与所述待清理分区标识对应的数据表分区进行快速清理及配置,将快速清理及配置后的与所述待清理分区标识对应的数据表分区确定为新增的数据表分区。
如此,实现了通过获取所述分区新增请求中的分区列表和分区配置信息,在检测到所述分区总数等于所述预设分区数时,对所述分区列表中的与各分区标识对应的分区信息进行清理策略分析,识别出待清理分区标识;通过数据表分区管理中心,对与所述待清理分区标识对应的数据表分区中的所有维度数据进行热度分析,得到热度数据,并将所述热度数据压缩存储至所述数据表分区管理中心中的热度仓库中,对与所述待清理分区标识对应的数据表分区进行快速清理及配置,配置完新增的数据表分区,因此,实现了通过清理策略分析自动识别出待清理的数据表分区,并通过数据表分区管理中心对该数据表分区热度分析出热度数据,压缩存储至热度仓库以便后续调取热度数据,能够摒弃历史冗余的或价值低的数据表,做到仅备份有价值的数据表,优化了热度仓库的存储空间,能够做到最小化存储有价值的数据表,以及运用快速清理方式清理待清理的数据表分区和配置该数据表分区,能够实现快速清理数据表分区及循环利用数据表分区,能够高效地清理大容量的历史的数据表,无需人工清理及配置,提高了清理及配置效率,以及仅用有限个数的数据表分区就可实现大容量的数据表存储,解决了不断新增数据表分区以扩容的局限性,减少了运维人为成本和硬件成本,提高了数据表分区的性能和优化了数据表分区的利用率,能够实现数据表分区自动清理。
在一实施例中,如图7所示,所述步骤S50中,即所述根据所述待清理分区标识和所述分区配置信息,对与所述待清理分区标识对应的数据表分区进行快速清理及配置,将快速清理及配置后的与所述待清理分区标识对应的数据表分区确定为新增的数据表分区,包括:
S501,运用drop语句,快速清理与所述待清理分区标识对应的数据表分区,得到待配置分区。
可理解地,通过SQL中的drop语句格式,根据所述待清理分区标识和所述分区配置信息,封装出快速清理数据表分区的SQL语句,通过运行该SQL语句能够快速清除数据表分区中的数据,比SQL中常用的alter语句格式执行的结果要快,能够节省删除数据表的时间,从而快速地清理出所述待配置分区,所述待配置分区为需要被配置的数据表分区。
S502,自所述数据表分区管理中心获取配置模板,将所述分区配置信息添加至所述配置模板中,生成与所述分区配置信息对应的配置语句。
可理解地,所述配置模板为配置数据表分区的语句模板,将所述分区配置信息添加至所述配置模板中相应的位置,生成与所述分区配置信息对应的配置语句。
S503,执行所述配置语句以配置所述待配置分区,将配置后的所述待配置分区确定为新增的所述数据表分区。
可理解地,执行所述配置语句完成配置所述待配置分区,将配置后的所述待配置分区标记为新增的所述数据表分区。
本发明实现了通过运用drop语句,快速清理与所述待清理分区标识对应的数据表分区,得到待配置分区;自所述数据表分区管理中心获取配置模板,将所述分区配置信息添加至所述配置模板中,生成与所述分区配置信息对应的配置语句;执行所述配置语句以配置所述待配置分区,将配置后的所述待配置分区确定为新增的所述数据表分区,如此,实现了通过运用drop语句,快速清理待清理的数据表分区,并通过数据表分区管理中心自动生成与分区配置信息对应的配置语句,以及配置得到新增的数据表分区,直接对整个数据表分区进行删除,无需对数据表中的数据进行一一删除,减少了各个数据表中的数据的删除时间,能够对大容量的数据表分区进行清理,减少了运维人为成本和硬件成本。
在一实施例中,所述步骤S20之后,即所述检测所述分区列表中的分区总数是否达到预设分区数之后,还包括:
S60,在检测到所述分区总数小于所述预设分区数时,自所述数据表分区管理中心获取默认分区参数。
可理解地,在检测到所述分区总数小于所述预设分区数时,从所述数据表分区管理中心调取预设的所述默认分区参数,所述默认分区参数为创建数据表分区的容量大小、分区类型等初始参数。
S70,根据所述默认分区参数,创建分区。
可理解地,根据所有预设的所述默认分区参数,创建一个新的分区,该分区未被配置。
S80,根据所述分区配置信息,对创建的所述分区进行配置,得到新增的数据表分区。
可理解地,针对所述分区,将所述分区配置信息添加至所述配置模板中,生成针对所述分区的初始配置语句,执行所述初始配置语句以配置该分区,将配置后的该分区确定为新增的所述数据表分区,完成所述分区新增请求。
本发明实现了在检测到所述分区总数小于所述预设分区数时,自所述数据表分区管理中心获取默认分区参数;根据所述默认分区参数,创建数据表分区;根据所述分区配置信息,对创建的所述数据表分区进行配置,得到新增的数据表分区,如此,实现了在分区总数小于预设分区数时,从数据表分区管理中心获取默认分区参数,自动创建一个空的分区,并根据分区配置信息自动配置得到新增的数据表分区,自动填充满需要的分区数量,及减少了人工新增及配置数据表分区的成本。
在一实施例中,提供一种数据表分区新增装置,该数据表分区新增装置与上述实施例中数据表分区新增方法一一对应。如图8所示,该数据表分区新增装置包括获取模块11、检测模块12、分析模块13、存储模块14和清理模块15。各功能模块详细说明如下:
获取模块11,用于获取所述分区新增请求中的分区列表和分区配置信息;
检测模块12,用于检测所述分区列表中的分区总数是否达到预设分区数;
分析模块13,用于在检测到所述分区总数等于所述预设分区数时,对所述分区列表中的与各分区标识对应的分区信息进行清理策略分析,识别出待清理分区标识;所述待清理分区标识为所述分区列表中与最大清理指数对应的分区标识;
存储模块14,用于通过数据表分区管理中心,对与所述待清理分区标识对应的数据表分区中的所有维度数据进行热度分析,得到热度数据,并将所述热度数据压缩存储至所述数据表分区管理中心中的热度仓库中;
清理模块15,用于根据所述待清理分区标识和所述分区配置信息,对与所述待清理分区标识对应的数据表分区进行快速清理及配置,将快速清理及配置后的与所述待清理分区标识对应的数据表分区确定为新增的数据表分区。
关于数据表分区新增装置的具体限定可以参见上文中对于数据表分区新增方法的限定,在此不再赘述。上述数据表分区新增装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据表分区新增方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中数据表分区新增方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中数据表分区新增方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据表分区新增方法,其特征在于,包括:
获取所述分区新增请求中的分区列表和分区配置信息;
检测所述分区列表中的分区总数是否达到预设分区数;
在检测到所述分区总数等于所述预设分区数时,对所述分区列表中的与各分区标识对应的分区信息进行清理策略分析,识别出待清理分区标识;所述待清理分区标识为所述分区列表中与最大清理指数对应的分区标识;
通过数据表分区管理中心,对与所述待清理分区标识对应的数据表分区中的所有维度数据进行热度分析,得到热度数据,并将所述热度数据压缩存储至所述数据表分区管理中心中的热度仓库中;
根据所述待清理分区标识和所述分区配置信息,对与所述待清理分区标识对应的数据表分区进行快速清理及配置,将快速清理及配置后的与所述待清理分区标识对应的数据表分区确定为新增的数据表分区。
2.如权利要求1所述的数据表分区新增方法,其特征在于,所述检测所述分区列表中的分区总数是否达到预设分区数之后,还包括:
在检测到所述分区总数小于所述预设分区数时,自所述数据表分区管理中心获取默认分区参数;
根据所述默认分区参数,创建分区;
根据所述分区配置信息,对创建的所述分区进行配置,得到新增的数据表分区。
3.如权利要求1所述的数据表分区新增方法,其特征在于,所述获取所述分区新增请求中的分区列表和分区配置信息之前,包括:
接收到数据插入完成指令;获取所述数据插入完成指令中的插入分区标识;
自所述数据表分区管理中心获取与所述插入分区标识对应的数据表分区对应的空间信息和状态信息;
在检测到获取的所述空间信息中的剩余容量小于容量阈值时,判断获取的所述状态信息是否为未满状态;
若所述状态信息为未满状态,将所述状态信息设置为将满状态;
从所述数据表分区管理中心获取预设的所述分区配置信息,并通过所述数据表分区管理中心生成所述分区列表;
根据所述分区配置信息和生成的所述分区列表,生成所述分区新增请求。
4.如权利要求1所述的数据表分区新增方法,其特征在于,所述对所述分区列表中的与各分区标识对应的分区信息进行清理策略分析,识别出待清理分区标识,包括:
自所述数据表分区管理中心获取清理策略;所述清理策略包括分析属性和与所述分析属性对应的转换类型;
将与所述分区标识对应的分区信息中与所述分析属性对应的属性值确定为与所述分区标识对应的待分析值;
对与所述分区标识对应的待分析值按照与其对应的所述分析属性对应的转换类型进行转换,得到与所述分区标识对应的指标值;
对与相同的所述分区标识对应的所有所述指标值进行分析,确定出与该所述分区标识对应的清理系数;
将与最大的所述清理系数对应的所述分区标识确定为所述待清理分区标识。
5.如权利要求1所述的数据表分区新增方法,其特征在于,所述通过数据表分区管理中心,对与所述待清理分区标识对应的数据表分区中的所有维度数据进行热度分析,得到热度数据,包括:
通过所述数据表分区管理中心,获取所与所述待清理分区标识对应的数据表分区中的与各数据表对应的所有维度数据;
将与各数据表对应的所有所述维度数据输入热度模型中;
通过所述热度模型对所有所述维度数据进行所述热度分析,分析出与各所述数据表对应的热度值;
将所有与大于预设的热度阈值的所述热度值对应的所述数据表标记为所述热度数据。
6.如权利要求1所述的数据表分区新增方法,其特征在于,所述将所述热度数据压缩存储至所述数据表分区管理中心中的热度仓库中,包括:
从与所述待清理分区标识对应的数据表分区中导出所述热度数据;
运用Basic Compression压缩法,将导出的所述热度数据批量压缩导入至所述热度仓库中。
7.如权利要求1所述的数据表分区新增方法,其特征在于,所述根据所述待清理分区标识和所述分区配置信息,对与所述待清理分区标识对应的数据表分区进行快速清理及配置,将快速清理及配置后的与所述待清理分区标识对应的数据表分区确定为新增的数据表分区,包括:
运用drop语句,快速清理与所述待清理分区标识对应的数据表分区,得到待配置分区;
自所述数据表分区管理中心获取配置模板,将所述分区配置信息添加至所述配置模板中,生成与所述分区配置信息对应的配置语句;
执行所述配置语句以配置所述待配置分区,将配置后的所述待配置分区确定为新增的所述数据表分区。
8.一种数据表分区新增装置,其特征在于,包括:
获取模块,用于获取所述分区新增请求中的分区列表和分区配置信息;
检测模块,用于检测所述分区列表中的分区总数是否达到预设分区数;
分析模块,用于在检测到所述分区总数等于所述预设分区数时,对所述分区列表中的与各分区标识对应的分区信息进行清理策略分析,识别出待清理分区标识;所述待清理分区标识为所述分区列表中与最大清理指数对应的分区标识;
存储模块,用于通过数据表分区管理中心,对与所述待清理分区标识对应的数据表分区中的所有维度数据进行热度分析,得到热度数据,并将所述热度数据压缩存储至所述数据表分区管理中心中的热度仓库中;
清理模块,用于根据所述待清理分区标识和所述分区配置信息,对与所述待清理分区标识对应的数据表分区进行快速清理及配置,将快速清理及配置后的与所述待清理分区标识对应的数据表分区确定为新增的数据表分区。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述数据表分区新增方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述数据表分区新增方法。
CN202011502422.0A 2020-12-17 2020-12-17 数据表分区新增方法、装置、计算机设备及存储介质 Active CN112527786B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011502422.0A CN112527786B (zh) 2020-12-17 2020-12-17 数据表分区新增方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011502422.0A CN112527786B (zh) 2020-12-17 2020-12-17 数据表分区新增方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112527786A true CN112527786A (zh) 2021-03-19
CN112527786B CN112527786B (zh) 2024-07-05

Family

ID=75001470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011502422.0A Active CN112527786B (zh) 2020-12-17 2020-12-17 数据表分区新增方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112527786B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111014A (zh) * 2021-04-07 2021-07-13 山东英信计算机技术有限公司 缓存中非热点数据的清理方法、装置、设备及存储介质
CN117874076A (zh) * 2023-12-13 2024-04-12 天翼云科技有限公司 一种数据智能分区的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070198591A1 (en) * 2006-02-17 2007-08-23 International Business Machines Corporation Partition by growth table space
CN109299115A (zh) * 2018-11-30 2019-02-01 北京锐安科技有限公司 一种数据存储方法、装置、服务器及存储介质
US20200167330A1 (en) * 2018-11-28 2020-05-28 Oracle International Corporation Database Partition Management System
CN111277274A (zh) * 2020-01-13 2020-06-12 平安国际智慧城市科技股份有限公司 数据压缩方法、装置、设备及存储介质
CN111506573A (zh) * 2020-03-16 2020-08-07 中国平安人寿保险股份有限公司 数据库表分区方法、装置、计算机设备及存储介质
CN111767268A (zh) * 2020-06-23 2020-10-13 平安普惠企业管理有限公司 数据库表分区方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070198591A1 (en) * 2006-02-17 2007-08-23 International Business Machines Corporation Partition by growth table space
US20200167330A1 (en) * 2018-11-28 2020-05-28 Oracle International Corporation Database Partition Management System
CN109299115A (zh) * 2018-11-30 2019-02-01 北京锐安科技有限公司 一种数据存储方法、装置、服务器及存储介质
CN111277274A (zh) * 2020-01-13 2020-06-12 平安国际智慧城市科技股份有限公司 数据压缩方法、装置、设备及存储介质
CN111506573A (zh) * 2020-03-16 2020-08-07 中国平安人寿保险股份有限公司 数据库表分区方法、装置、计算机设备及存储介质
CN111767268A (zh) * 2020-06-23 2020-10-13 平安普惠企业管理有限公司 数据库表分区方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111014A (zh) * 2021-04-07 2021-07-13 山东英信计算机技术有限公司 缓存中非热点数据的清理方法、装置、设备及存储介质
CN117874076A (zh) * 2023-12-13 2024-04-12 天翼云科技有限公司 一种数据智能分区的方法及装置

Also Published As

Publication number Publication date
CN112527786B (zh) 2024-07-05

Similar Documents

Publication Publication Date Title
CN111506498B (zh) 测试用例的自动生成方法、装置、计算机设备及存储介质
CN108509485B (zh) 数据的预处理方法、装置、计算机设备和存储介质
WO2020211299A1 (zh) 数据清理方法
CN109062780B (zh) 自动化测试用例的开发方法及终端设备
CN111680008B (zh) 日志处理方法、系统、可读存储介质及智能设备
CN112527786A (zh) 数据表分区新增方法、装置、计算机设备及存储介质
CN109284289B (zh) 数据集处理方法、装置、计算机设备及存储介质
CN110390424B (zh) 测试对象的寿命预估方法、装置、设备及介质
US20230067182A1 (en) Data Processing Device and Method, and Computer Readable Storage Medium
CN110990390A (zh) 数据协同处理方法、装置、计算机设备和存储介质
CN112948504B (zh) 数据采集方法、装置、计算机设备和存储介质
US20240168921A1 (en) File processing method, apparatus and device, and readable storage medium
CN112613271A (zh) 数据分页方法、装置、计算机设备及存储介质
CN111177217A (zh) 数据预处理方法、装置、计算机设备及存储介质
CN109783788A (zh) 数据表填补方法、装置、计算机设备和存储介质
CN110750443A (zh) 网页测试的方法、装置、计算机设备及存储介质
WO2020233310A1 (zh) 实时处理数据的异步补偿方法、装置、设备及存储介质
CN103500177A (zh) 一种用户激活数的统计方法及装置
CN115391307A (zh) 数据库优化方法、装置、电子设备及计算机可读存储介质
CN114661686A (zh) 日志文件的报文提取方法、装置、设备、介质和程序产品
CN111158606B (zh) 存储方法、装置、计算机设备和存储介质
CN117609278A (zh) 基于深度度量学习的多模态电力数据管理方法与系统
CN112256649A (zh) 一种医学文件的存储方法及装置
CN109542947B (zh) 数据统计方法、装置、计算机设备和存储介质
CN111259050A (zh) 用户操作轨迹记录方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant