CN111930848B - 数据分区存储方法、装置及系统 - Google Patents

数据分区存储方法、装置及系统 Download PDF

Info

Publication number
CN111930848B
CN111930848B CN202010977031.8A CN202010977031A CN111930848B CN 111930848 B CN111930848 B CN 111930848B CN 202010977031 A CN202010977031 A CN 202010977031A CN 111930848 B CN111930848 B CN 111930848B
Authority
CN
China
Prior art keywords
data
target
database
heat
storage area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010977031.8A
Other languages
English (en)
Other versions
CN111930848A (zh
Inventor
张腾
蔡鑫
张铁赢
王剑英
黄贵
李飞飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Cloud Computing Ltd
Original Assignee
Alibaba Cloud Computing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Cloud Computing Ltd filed Critical Alibaba Cloud Computing Ltd
Priority to CN202010977031.8A priority Critical patent/CN111930848B/zh
Publication of CN111930848A publication Critical patent/CN111930848A/zh
Application granted granted Critical
Publication of CN111930848B publication Critical patent/CN111930848B/zh
Priority to PCT/CN2021/117688 priority patent/WO2022057739A1/zh
Priority to US18/183,453 priority patent/US20230214408A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/278Data partitioning, e.g. horizontal or vertical partitioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/2448Query languages for particular applications; for extensibility, e.g. user defined types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0647Migration mechanisms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书一个或多个实施例提供一种数据分区存储方法、装置及系统;该方法可以包括:根据目标数据库中的目标数据的数据特征,确定所述目标数据对应的热度等级;将所述目标数据的标识信息和热度等级相关联地发送至所述目标数据库,以由所述目标数据库根据所述热度等级将所述目标数据存储至相应的存储区域。

Description

数据分区存储方法、装置及系统
技术领域
本说明书涉及数据处理技术领域,尤其涉及一种数据分区存储方法、装置及系统。
背景技术
随着业务快速发展和持续运行,业务系统产生的大量数据需要被存储至数据库中,以供用户根据业务需求进行访问。而随着同一数据库中存储的数据量的不断增加,数据库的访问性能将会大大降低。相关技术中,通常采用增加数据库数量的方式来存储大量数据,这不仅增加了数据存储的开销还增加了业务系统的业务逻辑的复杂度。
发明内容
有鉴于此,本说明书一个或多个实施例提供一种数据分区存储方法、装置及系统。
为实现上述目的,本说明书一个或多个实施例提供技术方案如下:
根据本说明书一个或多个实施例的第一方面,提出了一种数据分区存储系统,包括:
数据分析设备,用于根据数据库所含的目标数据的数据特征,确定所述目标数据对应的热度等级;
数据库内核,所述数据库内核被部署于区别于所述数据分析设备的目标设备上,以形成所述数据库,所述数据库内核用于获取所述数据分析设备传输的目标数据对应的热度等级并将所述目标数据存储至对应于所述热度等级的存储区域。
根据本说明书一个或多个实施例的第二方面,提出了一种数据分区存储方法,应用于数据分析设备;所述方法包括:
根据目标数据库中的目标数据的数据特征,确定所述目标数据对应的热度等级;
将所述目标数据的标识信息和热度等级相关联地发送至所述目标数据库,以由所述目标数据库根据所述热度等级将所述目标数据存储至相应的存储区域。
根据本说明书一个或多个实施例的第三方面,提出了一种数据分区存储方法,应用于数据分析设备;所述方法包括:
根据目标数据库中热数据存储区域所含数据的数据特征,识别出对应的热度信息为冷数据的特定数据的标识信息;
将所述标识信息发送至所述目标数据库,以由所述目标数据库根据所述标识信息将所述特定数据从所述热数据存储区域迁移至冷数据存储区域。
根据本说明书一个或多个实施例的第四方面,提出了一种数据分区存储装置,包括:
确定单元,用于根据目标数据库中的目标数据的数据特征,确定所述目标数据对应的热度等级;
发送单元,用于将所述目标数据的标识信息和热度等级相关联地发送至所述目标数据库,以由所述目标数据库根据所述热度等级将所述目标数据存储至相应的存储区域。
根据本说明书一个或多个实施例的第五方面,提出了一种数据分区存储装置,包括:
识别单元,用于根据目标数据库中热数据存储区域所含数据的数据特征,识别出对应的热度信息为冷数据的特定数据的标识信息;
发送单元,用于将所述标识信息发送至所述目标数据库,以由所述目标数据库根据所述标识信息将所述特定数据从所述热数据存储区域迁移至冷数据存储区域。
根据本说明书一个或多个实施例的第六方面,提供一种电子设备。所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如第二方面或第三方面所述的方法。
根据本说明书一个或多个实施例的第七方面,提出了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第二方面或第三方面所述方法的步骤。
附图说明
图1是本说明书一示例性实施例提供的一种数据分区存储系统的架构示意图。
图2是本说明书一示例性实施例提供的一种数据分区存储方法的流程图。
图3是本说明书一示例性实施例提供的一种数据分区存储系统的架构示意图。
图4是本说明书一示例性实施例提供的一种数据分区存储方法的流程图。
图5是本说明书一示例性实施例提供的一种数据分区存储方法的流程图。
图6是本说明书一示例性实施例提供的一种电子设备的结构示意图。
图7是本说明书一示例性实施例提供的一种数据分区存储装置的框图。
图8是本说明书一示例性实施例提供的一种数据分区存储装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
随着业务的快速发展和持续运行,业务系统产生的大量数据需要被存储至数据库中,以供用户根据业务需求进行访问。而随着同一数据库中数据量的不断增加,数据库的访问性能将会大大降低。数据库所含的数据可以被划分为需要被频繁访问的热数据以及不被访问或者很少被访问的冷数据,而大量的冷数据占用数据库的高性能存储空间将造成数据库资源的浪费。
在相关技术中,往往采用在线数据库对热数据进行存储,而采用历史数据库对冷数据进行存储,但是这种方式一方面需要对业务系统的代码进行改造,从而实现分别与在线数据库和历史数据库的对接,增加了业务系统的业务逻辑的复杂度,增加了开发成本,另一方面需要分别对在线数据库和历史数据库进行维护,增加了运维成本。
因此,本说明书通过改进数据分区存储方法以解决相关技术中存在的上述技术问题。下面结合实施例进行详细说明。
图1是本说明书一示例性实施例提供的一种数据分区存储系统的架构示意图。如图1所示,可以包括用户设备11、数据库内核12、日志存储设备13、热度等级预测设备14和数据分析设备15。
用户设备11,用户设备11可以包括手机、PC、平板设备、笔记本电脑、掌上电脑(PDAs,Personal Digital Assistants)、可穿戴设备(如智能眼镜、智能手表等)等,本说明书一个或多个实施例并不对此进行限制。用户可以通过用户设备11向目标设备中的数据库发送DDL(Data Definition Language,数据定义语言)语句或者DML(Data ManipulationLanguage,数据操纵语言)语句等。
数据库内核12,数据库内核12可以被部署于区别于数据分析设备15的目标设备中,而目标设备可以通过运行该数据库内核12形成数据库,该数据库中可以存储有各种业务系统产生的数据,例如该数据可以包括订单数据、物流数据等。并且该数据库可以采用多层的存储结构,该存储结构中每一存储区域都有对应的热度等级,如图1所示该数据库中可以包括L0、L1、L2和L3等多个存储区域,其中,L0、L1和L2可以采用固态硬盘存储需要被频繁访问的热数据,而L3可以采用较为廉价的存储介质存储不需要被频繁访问的冷数据。其中,数据库可以采用相应的存储引擎来规定数据库所含数据的存储结构,例如,采用LSM-tree(Log Structured-Merge Tree,日志结构合并树)存储引擎来规定分层的存储结构等。当然,同一热度等级可以对应一个或者多个存储区域,热度等级可以根据实际需求进行划分,例如热度等级可以包括热数据和冷数据,热度等级也可以包括第一等级、第二等级和第三等级等,本说明书中并不对此进行限制。目标设备中的数据库可以是关系型数据库、非关系型数据库或者是云数据库等类型的数据库,本说明书中并不对此进行限制。
在一实施例中,用户设备11向目标设备发送DDL语句为数据库中的指定数据库表开启分区存储的存储模式,并且该数据库的元信息中可以插入相应的标识记录,该标识记录可以用于标记指定数据库表处于分区存储模式。例如,假定该指定数据库表为t1,该DDL语句可以为ALTER Table t1 HOTCOLD = SMART/RULE。其中,SMART模式为分区存储模式,此时数据分区存储系统可以自动将指定数据库表所含的数据进行分区存储;RULE模式为支持用户配置的规则模式,此时数据分区存储系统可以接收到用户为指定数据库表所含的数据配置的分区存储的规则。而假定该数据库的元信息记录于information_schema表,那么可以在该information_schema表中添加指定数据库表处于SMART模式还是RULE模式的标识记录。
在一实施例中,数据分析设备15可以通过轮询数据库中的元信息,监听数据库中各个数据库表的存储模式,并且数据分析设备15可以为处于分区存储模式的数据库表派生相应的子进程,该子进程可以用于获取该数据库表所含数据的数据特征,数据分析设备15通过派生出的各个子进程分别负责各个数据库表所含数据的分区存储的过程,从而可以避免影响数据分析设备15的主进程的运行过程,可以提升数据分析设备15运行的稳定性。
数据分析设备15可以获取目标设备中的数据库所含的目标数据的数据特征,那么可以根据该数据特征,确定该目标数据对应的热度等级。其中,数据特征可以包括访问频率、每天更新的次数、每天查询的次数、最近的更新时间等,热度等级可以用于表示目标数据被访问或者调用的频率的高低等,本说明书中并不对此进行限制。
日志存储设备13可以用于存储从目标设备获取到的数据库的SQL日志,其中,日志存储设备13可以与目标设备位于同一物理设备上,或者,日志存储设备13可以与目标设备位于不同的物理设备上,本说明书中并不对此进行限制。
在一实施例中,数据分析设备15可以从该日志存储设备13处获取对应于目标数据的SQL日志,或者,数据分析设备15可以直接从目标设备中的数据库获取对应于目标数据的SQL日志等,本说明书中并不对此进行限制。
在一实施例中,数据分析设备15可以对获取到的SQL日志进行解析,确定目标数据的数据特征,数据分析设备15可以从SQL日志中获取目标数据准确的数据特征,从而可以提升后续对目标数据对应的热度等级的预测的准确性。例如,SQL日志中可以记录有目标数据每次被访问的时间点,那么数据分析设备15通过对该SQL日志进行解析,确定出目标数据被访问频率。SQL日志中可以记录有目标数据库在运行期间发生的变化,SQL日志可以包括查询日志、更新日志和事务日志等。
在一实施例中,数据分析设备15可以将获取到的目标数据的数据特征输入预先训练的热度分析模型中,从而可以获得该热度分析模型输出的目标数据的热度等级。该热度分析模型可以被部署于热度等级预测设备14中,该热度等级预测设备14可以为数据分区存储系统中区别于数据分析设备15的其他设备,当然,该热度分析模型也可以直接被部署在数据分析设备15上,本说明书中并不对此进行限制。该热度分析模型可以是卷积神经网络(Convolutional Neural Networks,CNN)模型、循环神经网络(Recurrent NeuralNetwork,RNN)模型或者生成式对抗网络(Generative Adversarial Networks,GAN)模型等其他类型的神经网络模型,本说明书中并不对此进行限制。
在一实施例中,在热度分析模型被部署于热度等级预测设备14中时,热度等级预测设备14可以将目标数据的数据特征输入热度分析模型中,从而获得该热度分析模型输出的目标数据的热度等级,并由热度等级预测设备14将该目标数据的热度等级发送至数据分析设备15,那么数据分析设备15可以直接接收到热度等级预测设备14发送的目标数据的热度等级。
在一实施例中,数据分析设备15可以生成包含目标数据的标识信息和热度等级的目标文件,数据分析设备15可以将该目标文件传输至目标设备,那么目标设备中的数据库内核12可以根据该目标文件将目标数据存储至其热度等级对应的存储区域处。其中,该目标文件可以采用目标数据所属的数据库表的标识信息进行命名,例如,该目标数据所属的数据库表的标识信息为t1,那么该目标数据对应的目标文件的名称也可以为t1。
在一实施例中,数据分析设备15可以在确定目标数据对应的热度等级后,向目标设备发送数据迁移的通知消息,那么目标设备中的数据库内核12可以在接收到该通知消息后才开始将目标数据迁移至其热度等级对应的存储区域处,数据分析设备15可以控制数据库所含数据对应的存储区域的迁移过程,例如,数据分析设备15可以控制数据库在负载较低的时间段进行数据迁移,可以避免对数据库正常事务处理过程的干扰,该时间段可以为每天的凌晨等,本说明书中并不对此进行限制。
在一实施例中,数据库内核12可以根据从数据分析设备15处获取到的目标数据的热度等级,将目标数据存储至对应于该热度等级的存储区域中,实现了确定目标数据热度等级的过程与目标数据分区存储的过程的解耦合,可以避免确定目标数据热度等级的过程影响数据库性能,避免对数据库正常事务处理过程的干扰,从而可以提升数据库的稳定性,另外还可以通过在数据分析设备15或者热度等级预测设备14上部署复杂的热度分析模型,提升确定出的目标数据的热度等级的准确性,可以提供精准的热度等级的预测能力。
在一实施例中,数据库内核12可以确定出目标数据所处的当前存储区域,并且将获取到的目标数据的热度等级与当前存储区域进行匹配,在获取到的热度等级与当前存储区域不匹配的情况下,可以将目标数据从当前存储区域迁移至该热度等级对应的存储区域处。例如,数据库内核12可以将获取的目标数据的热度等级与当前存储区域对应的热度等级进行比较,在获取的热度等级与当前存储区域对应的热度等级不一致的情况下,可以将目标数据从当前存储区域迁移至该热度等级对应的存储区域处,或者,在获取的热度等级低于当前存储区域对应的热度等级的情况下,可以将目标数据从当前存储区域迁移至该热度等级对应的存储区域处等,本说明书中并不对此进行限制。
在一实施例中,数据库内核12中对各个存储区域的访问速度与该存储区域对应的热度等级呈正相关,数据库内核12按照热度等级进行分区存储,提升了数据库系统的吞吐能力,可以在保证对数据库中对应的热度等级较高的数据的访问速度同时降低数据的存储成本,可以降低对数据库所含数据的访问延迟。例如,对应的热度等级较高的存储区域所含的数据可以采用固态硬盘进行存储,对应的热度等级较低的存储区域所含的数据可以采用机械硬盘进行存储等,本说明书中并不对此进行限制。
图2是本说明书一示例性实施例提供的一种数据分区存储方法的流程图。如图2所示,该方法可以应用于数据分析设备(例如图1所示的数据分析设备15等);该方法可以包括以下步骤:
步骤202,根据目标数据库中的目标数据的数据特征,确定所述目标数据对应的热度等级。
在一实施例中,数据分析设备可以获取对应于目标数据的SQL日志,那么数据分析设备可以通过对获取到的SQL日志进行解析,从而获取目标数据的数据特征。SQL日志中可以记录有目标数据库在运行期间发生的变化,SQL日志可以包括查询日志、更新日志和事务日志等,本说明书中并不对此进行限制。其中,目标设备可以通过部署相应的数据库内核而形成目标数据库,目标设备为区别于数据分析设备的另一电子设备。
在一实施例中,数据分析设备可以监听目标数据库中的各个数据库表的存储模式,并且在任意一个数据库表的存储模式被配置为分区存储模式的情况下,数据分析设备可以获取该被配置为分区存储模式的数据库表所含数据的数据特征,从而可以使得数据分析设备有针对性地获取需要进行分区存储的数据库表所含数据的数据特征,可以减少数据分析设备获取到的数据特征的数量,可以提升数据分析设备的运行效率。
在一实施例中,数据分析设备可以将目标数据的数据特征输入预先训练的热度分析模型,从而可以获取该热度分析模型输出的目标数据的热度等级。热度分析模型可以是卷积神经网络(Convolutional Neural Networks,CNN)模型、循环神经网络(RecurrentNeural Network,RNN)模型或者生成式对抗网络(Generative Adversarial Networks,GAN)模型等其他类型的神经网络模型,本说明书中并不对此进行限制。数据分析设备可以通过采用预先训练的热度分析模型对目标数据的热度等级进行预测,可以提升对目标数据的热度等级预测的准确性,同时由数据分析设备确定目标数据的热度等级,可以避免确定目标数据热度等级的过程影响数据库性能,可以避免干扰数据库正常事务处理过程,从而可以提升数据库的稳定性。或者,数据分析设备还可以接受外部分析对象提供的针对目标数据的数据特征的分析结果,该分析结果中可以包括目标数据的热度等级,该外部分析对象可以是区别于数据分析设备的其它电子设备。
在一实施例中,预先训练的热度分析模型可以通过下述方式获得,首先可以分别提取训练样本集合中各个样本数据在预设维度上的样本数据特征,其中,样本数据都已经被标注有对应的实际热度等级,然后可以通过将样本数据特征输入热度分析模型中,从而可以获得该热度分析模型输出的样本数据的预测热度等级,那么可以根据实际热度等级与预测热度等级之间的差异信息调整该热度分析模型中的模型参数,从而获得训练后的热度分析模型。其中,该训练样本集合中的样本数据可以包括目标数据库中的历史数据,还可以包括从其他设备处获取到的数据等,该差异信息可以包括实际热度等级与预测热度等级之间的差值、实际热度等级与预测热度等级之间差值的绝对值或者是两者之间的其他比较结果等,本说明书中并不对此进行限制。
在一实施例中,目标数据库中的各个数据库表可以对应于同一热度分析模型,那么数据分析设备可以将获取到的数据特征依次输入该热度分析模型。或者,目标数据库中的不同数据库表可以对应于不同的热度分析模型,那么数据分析设备在获取到目标数据的数据特征后,可以先确定该目标数据所属的数据库表,并将该数据特征输入到该目标数据所属的数据库表的热度分析模型中,从而可以保证热度分析模型输出的目标数据对应的预测热度等级的准确性。
步骤204,将所述目标数据的标识信息和热度等级相关联地发送至所述目标数据库,以由所述目标数据库根据所述热度等级将所述目标数据存储至相应的存储区域。
在一实施例中,数据分析设备可以将目标数据的标识信息和确定出的该目标数据的热度等级相关联地发送至目标数据库,那么可以由目标数据库根据热度等级将该目标数据存储至相应的存储区域中,实现了确定目标数据热度等级的过程与目标数据分区存储的过程的解耦合,可以避免确定目标数据热度等级的过程影响目标数据库性能,避免对目标数据库正常事务处理过程的干扰,从而可以提升目标数据库的稳定性。其中,目标数据的标识信息可以包括目标数据的编号或者目标数据的关键内容等,本说明书中并不对此进行限制。
为了便于理解,下面结合附图对本说明书的技术方案进行进一步说明。如图3是本说明书一示例性实施例提供的一种数据分区存储系统的架构示意图。如图3所示,可以包括:用户设备31、目标数据库32、SQL日志存储模块33、数据分析设备34。假定目标数据库32中可以包括热数据存储区域和冷数据存储区域,其中,热数据存储区域对应的热度等级为第一等级,冷数据存储区域对应的热度等级为第二等级,并且热数据存储区域所含的数据需要被频繁访问,而冷数据存储区域所含的数据不需要被访问或者很少被访问,其中SQL日志存储模块33可以被部署于目标数据库32上,SQL日志存储模块33用于记录目标数据库32在运行期间发生的变化。当然,SQL日志还可以被存储于区别于目标数据库32的其他电子设备上,本说明书中并不对此进行限制。
其中,假定目标数据库32中不同的数据库表对应不同的热度分析模型,并且数据分析设备34中可以包括根据训练样本集合预先训练得到的针对目标数据库32中的订单数据库表X的热度分析模型M。该训练样本集合中包含的样本数据来自订单数据库表X的历史数据,数据分析设备34可以提取训练样本集合中各个样本数据在访问频率和最近更新时间两个预设维度上的样本数据特征,并且每一样本数据都被标注有实际热度等级为第一等级还是第二等级,该实际热度等级可以采用文字标签或者评分等形式标识。该样本数据的实际热度等级可以由数据分析设备34根据从订单数据库表X中获取到的对应于样本数据的日志信息进行分析而自动标注,也可以由用户进行手动标注,本说明书中并不对此进行限制。
数据分析设备34可以将从训练样本集合中提取到的样本数据特征输入热度分析模型中,从而获得热度分析模型输出的每一样本数据的预测热度等级为第一等级还是第二等级,数据分析设备34可以根据每一样本数据的实际热度等级与预测热度等级之间的差异信息对热度分析模型中的模型参数进行调整,从而获得优化后的热度分析模型M,可以使得训练后的热度分析模型M更加准确地预测订单数据库表X中的数据对应的热度等级。
如图4是本说明书一示例性实施例提供的一种数据分区存储方法的流程图。以目标数据库32中的订单数据库表X的分区存储为例进行说明。如图4所示,可以包括以下步骤:
步骤401,发送开启指令。
在本实施例中,用户设备31可以通过DDL(Data Definition Language,数据定义语言)语句向目标数据库32发送针对订单数据库表X的开启指令,该开启指令可以包括将订单数据库表X的存储模式切换至分区存储模式。
假定订单数据库表X可以包括分区存储模式和规则存储模式两种存储模式,其中,在分区存储模式下,目标数据库32可以根据接收到订单数据库表X所含的数据的热度等级自动将订单数据库表X所含的数据分别存储至相应的存储区域;而在规则存储模式下,目标数据库32可以根据获取到的存储规则对订单数据库表X所含的数据进行存储,其中该存储规则可以根据实际需求进行设置。例如,存储规则为90天内的订单数据存储在热数据存储区域,而90天前的订单数据存储在冷数据存储区域等。
步骤402,标记订单数据库表X处于分区存储模式。
在本实施例中,目标数据库32可以根据接收到的开启指令,在目标数据库32的元信息中添加一条标识记录,该标识记录可以用于表明订单数据库表X的存储模式处于分区存储模式。
步骤403,监听各个数据库表的存储模式。
步骤404,发送针对订单数据库表X的日志信息的请求。
步骤405,发送订单数据库表X的日志信息。
在本实施例中,数据分析设备34可以通过监听目标数据库32的元信息,确定目标数据库32中的各个数据库表的存储模式。数据分析设备34在监听到订单数据库表X的存储模式处于分区存储模式的情况下,数据分析设备34可以向目标数据库32发送针对订单数据库表X的日志信息的请求。
在本实施例中,目标数据库32可以根据接收到的请求,将SQL日志存储模块33中存储的订单数据库表X的所有日志信息发送至数据分析设备34。
步骤406,提取日志信息中目标数据Y的数据特征。
步骤407,将提取到的数据特征输入预先训练的热度分析模型。
步骤408,获取热度分析模型输出的目标数据Y的热度等级。
在本实施例中,数据分析设备34可以根据训练后的热度分析模型M确定需要提取的数据特征为访问频率和最近更新时间,数据分析设备34还可以根据获取到的日志信息确定对应的目标数据Y,假定目标数据Y中包含订单数据库表X中对应的订单数据编号为1-100的订单数据。那么数据分析设备34可以从获取到的日志信息中依次提取订单数据库表X所含的目标数据Y在访问频率和最近更新时间两个维度上的数据特征。
在本实施例中,数据分析设备34可以将提取到的目标数据Y在访问频率和最近更新时间两个维度上的数据特征输入热度分析模型M中,从而可以获取由热度分析模型M输出的目标数据Y中对应的订单数据编号为1-50的订单数据对应的热度等级为第一等级,而订单数据编号为51-100的订单数据对应的热度等级为第二等级。
步骤409,发送订单数据编号和相应的热度等级。
步骤410,将目标数据Y存储至相应的存储区域。
在本实施例中,数据分析设备34可以将获取到的订单数据编号和相应的热度等级相关联地发送至目标数据库32。当然,数据分析设备34还可以仅将获取到的对应于某一热度等级的订单数据编号发送至目标数据库32,本说明书中并不对此进行限制。
在本实施例中,目标数据库32可以根据接收到的订单数据编号1-50的热度等级为第一等级,从而将订单数据库表X中的对应的订单数据编号为1-50的订单数据存储至热数据存储区域,目标数据库32可以根据接收到的订单数据编号51-100的热度等级为第二等级,从而将订单数据库表X中的对应的订单数据编号为51-100的订单数据存储至冷数据存储区域。
在本实施例中,在订单数据库表X中所含的数据已经被分别存储在热数据存储区域和冷数据存储区域的情况下,目标数据库32还可以分别确定订单数据库表X中对应的订单数据编号为1-50的订单数据的当前存储区域01和对应的订单数据编号为51-100的订单数据的当前存储区域02,在当前存储区域01为冷数据存储区域的情况下,将相应的订单数据迁移至热数据存储区域,在当前存储区域02为热数据存储区域的情况下,将相应的订单数据迁移至冷数据存储区域。
图5是本说明书一示例性实施例提供的一种数据分区存储方法的流程图。如图5所示,该方法可以应用于数据分析设备(例如图1所示的数据分析设备15等);该方法可以包括以下步骤:
步骤502,根据目标数据库中热数据存储区域所含数据的数据特征,识别出对应的热度信息为冷数据的特定数据的标识信息。
步骤504,将所述标识信息发送至所述目标数据库,以由所述目标数据库根据所述标识信息将所述特定数据从所述热数据存储区域迁移至冷数据存储区域。
在一实施例中,热数据存储区域对应的热度信息为热数据,而冷数据存储区域对应的热度信息为冷数据,数据分析设备仅需要将识别出的特定数据的标识信息发送至目标数据库,目标数据库就可以根据该标识信息从热数据存储区域查找到该特定数据,从而可以将该特定数据迁移至冷数据存储区域。
步骤502-步骤504的具体实施过程与图2所示的实施例相类似,此处不再赘述。
图6是一示例性实施例提供的一种电子设备的结构示意图。请参考图6,在硬件层面,该设备包括处理器602、内部总线604、网络接口606、内存608以及非易失性存储器610,当然还可能包括其他业务所需要的硬件。处理器602从非易失性存储器610中读取对应的计算机程序到内存608中然后运行,在逻辑层面上形成数据分区存储装置。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参考图7,在软件实施方式中,该数据分区存储装置可以包括确定单元702和发送单元704。其中:
确定单元702,用于根据目标数据库中的目标数据的数据特征,确定所述目标数据对应的热度等级;
发送单元704,用于将所述目标数据的标识信息和热度等级相关联地发送至所述目标数据库,以由所述目标数据库根据所述热度等级将所述目标数据存储至相应的存储区域。
可选的,所述确定单元702具体用于:
获取对应于所述目标数据的SQL日志;
通过对所述SQL日志进行解析,确定所述目标数据的数据特征。
可选的,所述确定单元702具体用于:
监听所述目标数据库中的各个数据库表的存储模式;
在任一数据库表的存储模式被配置为分区存储模式的情况下,获取所述任一数据库表所含数据的数据特征。
可选的,所述确定单元702具体用于:
将目标数据的数据特征输入预先训练的热度分析模型,获得所述热度分析模型输出的所述目标数据的热度等级。
可选的,所述确定单元702具体用于:
在所述目标数据库中的各个数据库表对应同一热度分析模型的情况下,将所述数据特征依次输入所述热度分析模型中;
在所述目标数据库中的不同数据库表对应不同的热度分析模型的情况下,确定所述目标数据所属的数据库表,并将所述数据特征输入对应于所述目标数据所属的数据库表的热度分析模型中。
可选的,所述热度分析模型由下述方式训练得到:
分别提取训练样本集合中各个样本数据在预设维度上的样本数据特征,所述样本数据被标注有对应的实际热度等级;
通过将所述样本数据特征输入所述热度分析模型中,获得所述热度分析模型输出的所述样本数据的预测热度等级;
根据所述实际热度等级与所述预测热度等级之间的差异信息调整所述热度分析模型中的模型参数,获得训练后的热度分析模型。
可选的,所述训练样本集合中的样本数据包括所述目标数据库中的历史数据。
请参考图8,在软件实施方式中,该数据分区存储装置可以包括识别单元802和发送单元804。其中:
识别单元802,用于根据目标数据库中热数据存储区域所含数据的数据特征,识别出对应的热度信息为冷数据的特定数据的标识信息;
发送单元804,用于将所述标识信息发送至所述目标数据库,以由所述目标数据库根据所述标识信息将所述特定数据从所述热数据存储区域迁移至冷数据存储区域。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
在一个典型的配置中,计算机包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。

Claims (21)

1.一种数据分区存储系统,包括:
数据分析设备,用于根据数据库所含的目标数据的数据特征,确定所述目标数据对应的热度等级;
数据库内核,所述数据库内核被部署于区别于所述数据分析设备的目标设备上,以形成所述数据库;
所述数据分析设备用于生成包含所述目标数据的标识信息和热度等级的目标文件,并将所述目标文件传输至所述目标设备,所述数据库内核用于从所述目标文件中获取所述目标数据对应的热度等级并将所述目标数据存储至对应于所述热度等级的存储区域。
2.根据权利要求1所述的系统,所述数据分析设备获取数据库所含的目标数据的数据特征的方式,包括:
获取对应于所述目标数据的SQL日志;
通过对所述SQL日志进行解析,确定所述目标数据的数据特征。
3.根据权利要求2所述的系统,所述数据分区存储系统还包括日志存储设备,所述日志存储设备用于存储从所述目标设备获取到的所述数据库的SQL日志;所述数据分析设备获取对应于所述目标数据的SQL日志,包括:
从所述日志存储设备获取对应于所述目标数据的SQL日志。
4.根据权利要求1所述的系统,所述数据分析设备确定所述目标数据对应的热度等级的方式,包括:
将获取到的所述目标数据的数据特征输入预先训练的热度分析模型,获得所述热度分析模型输出的所述目标数据的热度等级。
5.根据权利要求4所述的系统,所述数据分区存储系统还包括热度等级预测设备,所述热度等级预测设备包括热度分析模型;所述数据分析设备获得所述热度分析模型输出的所述目标数据的热度等级,包括:
接收由所述热度等级预测设备发送的所述目标数据的热度等级,所述热度等级由所述热度等级预测设备中的热度分析模型输出。
6.根据权利要求1所述系统,所述数据库内核将所述目标数据存储至对应于所述热度等级的存储区域,包括:
所述数据库内核确定所述目标数据所处的当前存储区域;
在所述热度等级与所述当前存储区域不匹配的情况下,将所述目标数据迁移至所述热度等级对应的存储区域。
7.根据权利要求1所述的系统,所述数据库内核对存储区域的访问速度与所述存储区域对应的热度等级呈正相关。
8.根据权利要求1所述的系统,所述数据分析设备获取数据库所含的目标数据的数据特征的方式,包括:
通过轮询所述数据库中的元信息,监听所述数据库中各个数据库表的存储模式;
为对应的存储模式为分区存储模式的数据库表派生子进程,以获取所述数据库表所含数据的数据特征。
9.根据权利要求1所述的系统,所述数据分析设备用于:
在确定所述目标数据对应的热度等级后,向所述目标设备发送数据迁移的通知消息,以由所述数据库内核在接收到所述通知消息后将所述目标数据迁移至对应于所述热度等级的存储区域。
10.一种数据分区存储方法,应用于数据分析设备;所述方法包括:
根据目标数据库中的目标数据的数据特征,确定所述目标数据对应的热度等级,其中,数据库内核被部署于区别于所述数据分析设备的目标设备上,以形成所述目标数据库;
将所述目标数据的标识信息和热度等级相关联地发送至所述目标数据库,以由所述目标数据库根据所述热度等级将所述目标数据存储至相应的存储区域。
11.根据权利要求10所述的方法,获取所述目标数据库中的目标数据的数据特征的方式,包括:
获取对应于所述目标数据的SQL日志;
通过对所述SQL日志进行解析,确定所述目标数据的数据特征。
12.根据权利要求10所述的方法,获取所述目标数据库中的目标数据的数据特征的方式,包括:
监听所述目标数据库中的各个数据库表的存储模式;
在任一数据库表的存储模式被配置为分区存储模式的情况下,获取所述任一数据库表所含数据的数据特征。
13.根据权利要求10所述的方法,所述根据目标数据库中的目标数据的数据特征,确定所述目标数据对应的热度等级,包括:
将目标数据的数据特征输入预先训练的热度分析模型,获得所述热度分析模型输出的所述目标数据的热度等级。
14.根据权利要求13所述的方法,所述将目标数据的数据特征输入预先训练的热度分析模型,包括:
在所述目标数据库中的各个数据库表对应同一热度分析模型的情况下,将所述数据特征依次输入所述热度分析模型中;
在所述目标数据库中的不同数据库表对应不同的热度分析模型的情况下,确定所述目标数据所属的数据库表,并将所述数据特征输入对应于所述目标数据所属的数据库表的热度分析模型中。
15.根据权利要求13所述的方法,所述热度分析模型由下述方式训练得到:
分别提取训练样本集合中各个样本数据在预设维度上的样本数据特征,所述样本数据被标注有对应的实际热度等级;
通过将所述样本数据特征输入所述热度分析模型中,获得所述热度分析模型输出的所述样本数据的预测热度等级;
根据所述实际热度等级与所述预测热度等级之间的差异信息调整所述热度分析模型中的模型参数,获得训练后的热度分析模型。
16.根据权利要求15所述的方法,所述训练样本集合中的样本数据包括所述目标数据库中的历史数据。
17.一种数据分区存储方法,应用于数据分析设备;所述方法包括:
根据目标数据库中热数据存储区域所含数据的数据特征,识别出对应的热度信息为冷数据的特定数据的标识信息,其中,数据库内核被部署于区别于所述数据分析设备的目标设备上,以形成所述目标数据库;
将所述标识信息发送至所述目标数据库,以由所述目标数据库根据所述标识信息将所述特定数据从所述热数据存储区域迁移至冷数据存储区域。
18.一种数据分区存储装置,包括:
确定单元,用于根据目标数据库中的目标数据的数据特征,确定所述目标数据对应的热度等级,其中,数据库内核被部署于区别于数据分析设备的目标设备上,以形成所述目标数据库;
发送单元,用于将所述目标数据的标识信息和热度等级相关联地发送至所述目标数据库,以由所述目标数据库根据所述热度等级将所述目标数据存储至相应的存储区域。
19.一种数据分区存储装置,包括:
识别单元,用于根据目标数据库中热数据存储区域所含数据的数据特征,识别出对应的热度信息为冷数据的特定数据的标识信息,其中,数据库内核被部署于区别于数据分析设备的目标设备上,以形成所述目标数据库;
发送单元,用于将所述标识信息发送至所述目标数据库,以由所述目标数据库根据所述标识信息将所述特定数据从所述热数据存储区域迁移至冷数据存储区域。
20.一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如权利要求10-17中任一项所述的方法。
21.一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如权利要求10-17中任一项所述方法的步骤。
CN202010977031.8A 2020-09-17 2020-09-17 数据分区存储方法、装置及系统 Active CN111930848B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010977031.8A CN111930848B (zh) 2020-09-17 2020-09-17 数据分区存储方法、装置及系统
PCT/CN2021/117688 WO2022057739A1 (zh) 2020-09-17 2021-09-10 数据分区存储方法、装置及系统
US18/183,453 US20230214408A1 (en) 2020-09-17 2023-03-14 Data partition storage system, method, and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010977031.8A CN111930848B (zh) 2020-09-17 2020-09-17 数据分区存储方法、装置及系统

Publications (2)

Publication Number Publication Date
CN111930848A CN111930848A (zh) 2020-11-13
CN111930848B true CN111930848B (zh) 2021-04-13

Family

ID=73335271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010977031.8A Active CN111930848B (zh) 2020-09-17 2020-09-17 数据分区存储方法、装置及系统

Country Status (3)

Country Link
US (1) US20230214408A1 (zh)
CN (1) CN111930848B (zh)
WO (1) WO2022057739A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930848B (zh) * 2020-09-17 2021-04-13 阿里云计算有限公司 数据分区存储方法、装置及系统
CN113032402B (zh) * 2021-04-09 2024-01-12 北京百度网讯科技有限公司 存储数据和获取数据的方法、装置、设备和存储介质
CN113495774A (zh) * 2021-07-08 2021-10-12 上海浦东发展银行股份有限公司 一种运维系统的控制方法、装置、设备及存储介质
CN115114344B (zh) * 2021-11-05 2023-06-23 腾讯科技(深圳)有限公司 事务处理方法、装置、计算设备及存储介质
WO2024098395A1 (zh) * 2022-11-11 2024-05-16 杭州数梦工场科技有限公司 一种矢量瓦片的管理方法、装置、设备及存储介质
CN117235156B (zh) * 2023-08-04 2024-06-14 上海数禾信息科技有限公司 数据分析处理方法、装置、计算机设备和存储介质
CN117874076B (zh) * 2023-12-13 2024-09-27 天翼云科技有限公司 一种数据智能分区的方法及装置
CN117992461A (zh) * 2024-04-03 2024-05-07 深圳九有数据库有限公司 基于列式内存存储方式的数据库数据存储方法
CN118349178A (zh) * 2024-04-24 2024-07-16 朴道征信有限公司 数据存储方法、装置、电子设备和计算机可读介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902628B (zh) * 2012-09-18 2016-06-01 记忆科技(深圳)有限公司 一种基于闪存实现的冷热数据自动分离方法、系统及闪存
US10496677B2 (en) * 2017-05-08 2019-12-03 Sap Se Tenant database replication
CN110531938A (zh) * 2019-09-02 2019-12-03 广东紫晶信息存储技术股份有限公司 一种基于多维度的冷热数据迁移方法及系统
CN110543509B (zh) * 2019-09-04 2022-06-03 北京奇艺世纪科技有限公司 用户访问数据的监控系统、方法、装置及电子设备
CN110888861A (zh) * 2019-11-12 2020-03-17 上海麦克风文化传媒有限公司 一种新型大数据存储方法
CN111090392A (zh) * 2019-11-20 2020-05-01 深圳市得一微电子有限责任公司 一种基于特征码的冷热数据分离方法
CN111930848B (zh) * 2020-09-17 2021-04-13 阿里云计算有限公司 数据分区存储方法、装置及系统

Also Published As

Publication number Publication date
WO2022057739A1 (zh) 2022-03-24
US20230214408A1 (en) 2023-07-06
CN111930848A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN111930848B (zh) 数据分区存储方法、装置及系统
RU2720905C2 (ru) Способ и система для расширения поисковых запросов с целью ранжирования результатов поиска
US20150154197A1 (en) Method for obtaining search suggestions from fuzzy score matching and population frequencies
CN106610972A (zh) 查询改写方法及装置
US10825554B2 (en) Methods of feature extraction and modeling for categorizing healthcare behavior based on mobile search logs
US20120102018A1 (en) Ranking Model Adaptation for Domain-Specific Search
CN117271385A (zh) 用于数据存储的垃圾收集
EP3449428A1 (en) Machine learning aggregation
US11561946B1 (en) Hyperparameter tuning in a database environment
US20240311556A1 (en) Systems for database searching and database schemas management and methods of use thereof
EP3945694B1 (en) Block data access method, block data storage method, and apparatuses thereof
CN107622090B (zh) 对象的获取方法、装置及系统
CN117033744A (zh) 数据查询方法、装置、存储介质以及电子设备
CN113297245A (zh) 获取执行信息的方法及装置
US11645283B2 (en) Predictive query processing
JP7213890B2 (ja) 高速化された大規模な類似度計算
CN116502603A (zh) 编码方法、设备、系统及存储介质
US10839042B1 (en) Summarizing and querying data generated from multiple scenarios of a data-intensive simulation
CN110659353A (zh) 搜索方法及装置
CN111539208B (zh) 语句处理方法和装置、以及电子设备和可读存储介质
CN114691720A (zh) 数据查询方法、数据库系统、可读介质和电子设备
CN113672710A (zh) 一种基于分布式检索专利数据的方法和系统
US10467065B2 (en) System and methods for discovering and managing knowledge, insights, and intelligence using a context engine having the ability to provide a logical semantic understanding of event circumstances
US20230252497A1 (en) Systems and methods for measuring impact of online search queries on user actions
CN117667964B (zh) 数据处理方法、装置、设备、数据库及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant