CN102388374A - 存储数据的方法和装置 - Google Patents

存储数据的方法和装置 Download PDF

Info

Publication number
CN102388374A
CN102388374A CN2011800020461A CN201180002046A CN102388374A CN 102388374 A CN102388374 A CN 102388374A CN 2011800020461 A CN2011800020461 A CN 2011800020461A CN 201180002046 A CN201180002046 A CN 201180002046A CN 102388374 A CN102388374 A CN 102388374A
Authority
CN
China
Prior art keywords
hot spot
data
spot data
memory device
data model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011800020461A
Other languages
English (en)
Inventor
张振龙
巩玉旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN102388374A publication Critical patent/CN102388374A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种存储数据的方法和装置。该方法包括:基于原有数据记录建立热点数据模型;根据该热点数据模型从上述原有数据记录和/或新的数据记录中筛选出热点数据;将筛选出的热点数据存储到第一存储设备中。本发明实施例可以在数据记录层面上根据热点数据模型筛选出热点数据,并将筛选出的热点数据存储到特定的存储设备中,从而在数据记录层面上实现有效的存储策略。

Description

存储数据的方法和装置
技术领域
本发明实施例涉及计算机技术领域,并且更具体地,涉及一种存储数据的方法和装置。
背景技术
新型存储设备的出现,改变了传统的存储架构,促使数据库进行相应的改进。例如,新型的高速存储设备SSD(Solid State Disk,固态硬盘)和PCM(Phase Change Memory,相变存储器)的读写速度比普通磁盘快,比内存慢,数据掉电不丢失,经常作为数据库的二级缓存(Cache)使用。而如何识别出需要缓存的热点数据(Hot Data),以及如何在新型的高速存储设备上对数据进行组织是有效实现数据存储或缓存需要解决的重要问题。
目前,数据块级别的热点数据识别(Identification)和预识别(Pre-identification)技术已经较为完善。在现有技术中,热点数据是指在服务器的数据库(Database)运行过程中经常被使用的数据,一般指数据块,即热点数据主要以数据块的形式被存储。用于识别这种热点数据的识别算法相对比较成熟,例如,通过统计数据块的命中次数获知该数据块是否为热点数据。这种存储方法在数据块层面(即数据库下层)对热点数据进行识别和存储,无法在数据记录层面(数据库上层)上实现有效的存储策略。
发明内容
本发明实施例提供一种存储数据的方法和装置,能够在数据记录层面上实现有效的存储策略。
一方面,提供了一种存储数据的方法,包括:基于原有数据记录建立热点数据模型;根据该热点数据模型从上述原有数据记录或新的数据记录中筛选出热点数据;将筛选出的热点数据存储到第一存储设备中。
另一方面,提供了一种存储数据的装置,包括:建立模块,用于基于原有数据记录建立热点数据模型;筛选模块,用于根据该热点数据模型从上述所述原有数据记录或新的数据记录中筛选出热点数据;存储模块,用于将筛选出的热点数据存储到第一存储设备中。
本发明实施例可以在数据记录层面上根据热点数据模型筛选出热点数据,并将筛选出的热点数据存储到特定的存储设备中,从而在数据记录层面上实现有效的存储策略。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明一个实施例的存储数据的方法的示意性流程图。
图2是根据本发明的另一实施例的存储数据的方法的示意性流程图。
图3是根据本发明的实施例的存储数据的过程的示意性流程图。
图4是根据本发明的一个实施例的存储数据的装置的结构性示意图。
图5是根据本发明的另一实施例的存储数据的装置的结构性示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应理解,本发明的技术方案可以应用于各种使用计算机的领域,例如,可以应用于电信领域,电子商务,社交平台等,尤其是涉及大数据量的应用。
在数据库的实际应用过程中,经常涉及到大数据量的查询,例如,数据的查询在数据库的应用中的比重占70%以上,从磁盘中搜索大量数据要花费较大的代价,而用户需要查询的数据通常只是数据表中20%左右的数据。
目前,数据块级别的热点识别与预识别技术识别出的热点数据通常以块形式存储在缓存中,因此,没有办法对特定的场景和应用做相应的优化。另外,虽然可以根据数据记录的创建时间来识别与数据记录相关的热点数据,(例如,可以将预设时段内创建的数据块作为热点数据,并对该数据块进行缓存),但仅根据创建时间确定热点数据,灵活性不够,并且决策因子过于简单。
根据本发明的实施例可以在数据记录层面(级别)上预识别(或预判断)热点数据,并在数据记录层面上将通过这种预识别技术得到的热点数据存储或缓存在高速存储设备上,以提高了数据库的查询效率。
图1是根据本发明的一个实施例的存储数据的方法100的示意性流程图。图1的方法100可以由服务器执行。
110,基于原有数据记录建立热点数据模型。
根据本发明的实施例的热点数据指的是数据库中经常被使用的数据记录。在关系数据库中,数据记录是指对应于数据源中的一行信息的一组相关信息,可以是数据表中的一行,每一行包括n个属性(字段或数据项)。上述原有数据记录可以是存储在原有存储设备(例如,普通磁盘)上的数据记录。
根据本发明实施例的热点数据模型可以是用于识别热点数据的函数模型,例如,可通过人工智能方法(例如,贝叶斯分类算法)自动生成该热点数据模型,并可根据实际应用情况的变化更新该模型。该热点数据模型用于将数据记录进行分类,以将数据记录分成热点数据和非热点数据。
120,根据上述热点数据模型从上述原有数据记录或新的数据记录中筛选出热点数据,或者从上述原有数据记录和新的数据记录中筛选出热点数据。
根据本发明的实施例将原有数据记录输入到热点数据模型中,以确定原有数据记录中各个数据记录是热点数据还是非热点数据。进一步地,也可以将新存储的数据记录输入到热点数据模型中,以确定新的数据记录是否为热点数据。
130,将筛选出的热点数据存储到第一存储设备中。
例如,第一存储设备可以是高速存储设备,也可以是作为缓存或内存的存储设备。
本发明实施例可以在数据记录层面上根据热点数据模型筛选出热点数据,并将筛选出的热点数据存储到特定的存储设备中,从而在数据记录层面上实现有效的存储策略。另外,根据本发明的实施例在数据记录层面进行热点数据的识别和预识别,使得热点数据的识别和预识别对应用程序透明。
根据本发明的另一实施例,还包括:将原有数据记录中不是热点数据的数据记录存储到第二存储设备中,其中第一存储设备的存储速率高于第二存储设备的存储速率。
例如,根据本发明的实施例,将筛选出的热点数据存储在存储速率较高的存储设备(例如,高速存储设备、缓存或内存)中,可以显著提高查询效率。
根据本发明的实施例,第一存储设备为高速存储设备,其中在120中,从上述原有数据记录中抽取出样本数据记录;确定上述样本数据记录的命中次数;将上述样本数据记录作为用于建立上述热点数据模型的数据源,并且基于上述命中次数建立上述热点数据模型。
例如,为了减少建模的开销,可以随机从普通磁盘上的原有数据记录中提取一定数量的数据记录作为样本,并且可以计算这些样本在预设时间内被命中的次数,再根据命中次数将这些样本数据记录分为热点数据和非热点数据。然后,可以利用人工智能方法对这些分类后的热点数据和非热点数据进行分析,以确定数据记录的属性值对热点数据分类的影响,从而得到热点数据模型。
根据本发明的另一实施例,还包括:在上述热点数据模型过期的情况下,重新进行上述建立热点数据模型的过程,并且根据重新建立的热点数据模型更新第一存储设备中的热点数据。
根据本发明的实施例,上述热点数据模型过期包括:该热点数据模型的生命周期超过预设时间或者上述热点数据在第一存储设备中的命中率太低。
例如,数据库在运行一段时间之后,数据库中的数据记录可能会变化,相应地,基于原数据记录建立的热点数据模型就会过期,另外,可能出现高速存储设备中的热点数据的命中率太低的情况,这时,需要从变化后的数据记录中重新抽取样本,并根据抽取的样本建立新的热点数据模型,以便维持有效的存储策略和高效的查询效率。
图2是根据本发明的一个实施例的存储数据的方法200的示意性流程图。图2的方法200可以由服务器执行。图2的210、220和230类似于图1的110、120和130,在此不再赘述。
210,基于原有数据记录建立热点数据模型。
220,根据上述热点数据模型从上述原有数据记录或新的数据记录中筛选出热点数据,或者从上述原有数据记录和新的数据记录中筛选出热点数据。
230,将筛选出的热点数据存储到第一存储设备中,并且将原有数据记录中不是热点数据的数据记录存储到第二存储设备中,其中第一存储设备的存储速率高于第二存储设备的存储速率。
240,在接收到查询请求时,对查询进行优化,以生成相应的执行计划。
通常在接收到查询请求时之后,服务器的查询优化器可以产生并评估多个执行计划,最后选择开销最低的(例如,运行最快、使用资源最少的)执行计划用于查询。例如,在进行查询优化时,可以分别在高速存储设备和普通磁盘上各执行一次查询,并且取两者的联合结果集作为最终的执行计划。根据本发明的实施例并不限于此,例如,在接收到查询请求时,也可以直接使用存储在缓存中的执行计划作为最终的执行计划进行查询。
250,根据上述执行计划分别从第一存储设备和第二存储设备中获取数据。
本发明实施例可以在数据记录层面上根据热点数据模型筛选出热点数据,并将筛选出的热点数据存储到特定的存储设备中,从而在数据记录层面上实现有效的存储策略。另外,根据本发明的实施例在数据记录层面进行热点数据的识别和预识别,使得热点数据的识别和预识别对应用程序透明对应用程序透明,而将热点数据以数据库上层的方式缓存到特定存储设备中,有助于实现查询优化。
根据本发明的另一实施例,还包括:在上述热点数据模型过期或者上述热点数据在第一存储设备中的命中率太低的情况下,重新进行上述建立热点数据模型的过程,并且根据重新建立的热点数据模型更新第一存储设备中的热点数据。
下面结合具体例子,更加详细地描述本发明的实施例。图3是根据本发明的实施例的存储数据的过程的示意性流程图。
如表1所示,数据库中的源数据表(Table)列出了9999999条数据记录,每个数据记录包含四个属性(字段或数据项):标识、姓名、性别和年龄。上述源数据表可以存储在普通磁盘中。在不同的应用或不同的数据表结构中,用于决策热点数据的列可以不相同,例如,本实例选择性别和年龄属性(字段或数据项)进行判断。例如,可以为用户提供可配置项,以便用户可以在创建表格时在数据库应用层面上指定使用哪些列作为用于决策热点数据的对象。根据本发明的实施例并不限于此,可以采用统计方式决策出哪些列可以用于决策热点数据。
表1
Figure BDA0000107705480000061
310,从原存储设备(例如,普通磁盘)的源数据表的数据记录中抽取出样本数据记录。例如,在建立热点数据模型的初期,对大量数据记录进行随机抽样统计,将上述源数据表中的一部分数据(例如,20%的数据)提取出来作为样本数据记录。可以将样本数据保留在原存储设备中,并进行标识以便与其它数据相区分,从而在逻辑上抽象为一张表(在下文中称样本数据表)。可选地,可以每隔预设的时间(例如,一天或一周)更新高速存储设备中的样本数据记录。
320,确定各个样本数据记录的命中次数。例如,在样本数据表中加入一个统计列,用于统计各个数据记录被命中的次数,如表2所示。
表2
Figure BDA0000107705480000062
330,将上述样本数据记录作为用于建立热点数据模型的数据源,并且基于上述命中次数建立热点数据模型。例如,在预设时间(其可以根据具体应用设置,例如一天或一周)后,根据各个样本数据记录的命中次数,对上述样本数据记录进行排序,将命中次数排名前百分之三十的样本数据记录指定为热点数据,根据本发明的实施例并不限于此,可以根据需要调整上述百分比。例如,可以利用人工智能方法(例如,贝叶斯分类算法)进行智能分析,利用贝叶斯分类算法进行智能分析的过程也称为热点数据的学习过程或训练过程。具体的智能分析过程将在稍后进行详细的描述。
340,根据热点数据模型对源数据表中的数据记录进行分类以筛选出热点数据。例如,可以将上述源数据表中的数据记录作为热点数据模型的输入,在经过热点数据模型之后,这些数据记录被分成热点数据和非热点数据作为热点数据模型的输出。
350,将筛选出的热点数据存储到高速存储设备中,并且将非热点数据存储到原存储设备中。例如,在数据记录层面上将筛选出的热点数据存储到高速存储设备中,并将非热点数存储到普通磁盘中。如表3所示,年龄在20岁以下,性别为女的数据记录被确定为热点数据,并且被存储到高速存储到设备中。如表4所示,非热点数据被存储到普通磁盘中。
表3
Figure BDA0000107705480000071
表4
Figure BDA0000107705480000072
360,根据热点数据模型判断新的数据记录为热点数据还是非热点数据。在完成热点数据的学习或训练之后,如果有新的数据记录(例如,表5和表6中的标识为10000000和标识为10000001的数据记录)需要被存储时,可以根据热点数据模型判断该数据记录为热点数据还是非热点数据,如果是热点数据,则存储到高速存储设备中,如果非热点数据,则存储在磁盘中。例如,表5中的数据存储到普通磁盘中,表6中的数据记录存储到高速存储设备中。
表5
Figure BDA0000107705480000081
表6
Figure BDA0000107705480000082
370,在接收到查询请求时,对查询进行优化,以生成相应的执行计划,并根据执行计划分别从高速存储设备和原存储设备中获取数据。例如,如果接收到查询请求,可以在数据库查询优化器层面对查询进行优化(这里最简单的优化是将查询语句分别在高速存储设备和原存储设备上各执行一次,并且取联合结果集),以生成相应的执行计划,并且根据执行计划分别从高速存储设备和原存储设备中取得相应的数据。
380,在上述热点数据模型过期的情况下,例如上述热点数据在上述高速存储设备中的命中率太低或者热点数据模型的生命周期超过预设时间之后,重新进行上述建立热点数据模型的过程,并且更新高速存储设备中的热点数据模型。例如,在经过一段时间之后,热点数据模型可能发生改变,导致原来的热点数据现在已不再是热点。在预设时间内(例如,一天),在非繁忙时段,根据命中统计信息,例如,在高速存储设备中的热点数据的命中率小于50%时,重新进行建立热点数据模型的过程,并且根据重新建立的热点数据模型更新(或刷新)热点数据,例如,从高速存储设备上筛选符合热点数据模型的热点数据保留在高速存储设备上,其余的存储到普通磁盘中,然后从普通磁盘中选择符合热点数据模型的热点数据,存储到高速存储设备中,其余的保留在普通磁盘上。
下面以利用朴素贝叶斯分类方法为例,具体描述热点数据模型的建立过程。为了描述方便,下面的过程仅抽取了10个样本,并且选择性别和年龄属性作为用于决策热点数据的对象。如表7所示,第一列和第二列分别是样本的性别和年龄属性,第三列指示相应数据记录是否为用于训练(或学习)的热点数据(以下简称训练热点数据)。另外,年龄属性的门限值20可以是数据表中年龄的平均值。
表7
朴素贝叶斯分类公式为 v = arg max v j ∈ V P ( v j ) Π i P ( a i | v j ) , 其中v表示朴素贝叶斯分类方法输出的目标值,即分类函数的最大值,vj∈V={Yes,No}为每个训练样本数据的目标值,aj为用于训练样本数据的各个属性的值。
本实例的朴素贝叶斯分类公式可以为如下公式:
h = arg h j ∈ H max P ( h j ) P ( Sex | h j ) P ( Age | h j ) ,
其中h表示某个数据记录是热点数据或非热点数据的概率中的最大值,hj表示每个样本数据记录是热点数据或是非热点数据。由该公式可以得到热点数据模型的参数如下:P(H=Yes)=6/10=0.6,P(H=No)=4/10=0.4,P(Sex=F|H=Yes)=5/6,P(Sex=F|H=No)=1/4,P(Sex=M|H=Yes)=1/6,P(Sex=M|H=No)=3/4,P(Age≤20|H=Yes)=4/6,P(Age≤20|H=No)=1/4,P(Age>20|H=Yes)=2/6,以及P(Age>20|H=No)=3/4。
根据上述热点数据模型的参数可以判断某个数据记录为热点数据或非热点数据。例如,数据记录1的性别属性为女而年龄属性为14,如果数据记录1为热点数据,则P(H=Yes)P(Sex=F|H=Yes)P(Age≤20|H=Yes)=0.6×5/6×4/6=0.3333,如果数据记录1为非热点数据,则P(H=No)P(Sex=F|H=No)P(Age≤20|H=No)=0.4×1/4×1/4=0.025,最后得到h=0.3333,因此可以确定数据记录1最可能为热点数据。再例如,数据记录2的性别属性为男而年龄属性为16,如果数据记录2为热点数据,则P(H=Yes)P(Sex=M|H=Yes)P(Age≤20|H=Yes)=0.6×1/6×4/6=0.0667,如果数据记录2为非热点数据,则P(H=No)P(Sex=M|H=No)P(Age≤20|H=No)=0.4×3/4×1/4=0.075,最后得到h=0.075,因此,可以确定数据记录2最可能为非热点数据。
图4是根据本发明的一个实施例的存储数据的装置400的结构性示意图。图4的装置可以是服务器,包括:建立模块410、筛选模块420和存储模块430。
建立模块410基于原有数据记录建立热点数据模型。筛选模块420根据上述热点数据模型从上述原有数据记录或新的数据记录中筛选出热点数据,或者从上述原有数据记录和新的数据记录中筛选出热点数据。存储模块430将筛选出的热点数据存储到第一存储设备中。
本发明实施例可以在数据记录层面上根据热点数据模型筛选出热点数据,并将筛选出的热点数据存储到特定的存储设备中,从而在数据记录层面上实现有效的存储策略。另外,根据本发明的实施例在数据记录层面进行热点数据的识别和预识别,使得热点数据的识别和预识别对应用程序透明。
根据本发明的另一实施例,存储模块430还将原有数据记录中不是热点数据的数据记录存储到第二存储设备中,其中第一存储设备的存储速率高于第二存储设备的存储速率。
根据本发明的另一实施例,建立模块410还在上述热点数据模型过期或者上述热点数据在第一存储设备中的命中率太低的情况下,重新进行上述建立热点数据模型的过程,并且根据重新建立的热点数据模型更新上述热点数据模型。
根据本发明的实施例,第一存储设备为高速存储设备,建立模块410从上述原有数据记录中抽取出样本数据记录,确定上述样本数据记录的命中次数,将上述样本数据记录作为用于建立上述热点数据模型的数据源,并且基于上述命中次数建立上述热点数据模型。
装置400的各个单元的操作和功能可以参考上述图1的方法的110、120和130,为了避免重复,在此不再赘述。
图5示出根据本发明的另一实施例的存储数据的装置500的结构性示意图。图5的装置可以是服务器,包括:建立模块510、筛选模块520、存储模块530、优化模块540和获取模块550。图5的装置500建立模块510、筛选模块520和存储模块530类似于图4的建立模块410、筛选模块420和存储模块430,在此不再赘述。
优化模块540在接收到查询请求时,对查询进行优化,以生成相应的执行计划。获取模块550根据上述执行计划分别从第一存储设备和第二存储设备中获取数据。
本发明实施例可以在数据记录层面上根据热点数据模型筛选出热点数据,并将筛选出的热点数据存储到特定的存储设备中,从而在数据记录层面上实现有效的存储策略。另外,根据本发明的实施例在数据记录层面进行热点数据的识别和预识别,使得热点数据的识别和预识别对应用程序透明对应用程序透明,而将热点数据以数据库上层的方式缓存到特定存储设备中,有助于实现查询优化。
根据本发明的另一实施例,建立模块410还在上述热点数据模型过期或者上述热点数据在第一存储设备中的命中率太低的情况下,重新进行上述建立热点数据模型的过程,并且根据重新建立的热点数据模型更新第一存储设备中的热点数据。
装置500的各个单元的操作和功能可以参考上述图2的方法的210、220、230和240,为了避免重复,在此不再赘述。
根据本发明的实施例在数据库上层进行热点数据的预识别,对应用层透明,降低了应用程序开发的复杂度。另外,根据本发明的实施例利用高速存储设备作为数据库上层的存储设备或缓存设备,有利于查询优化器的决策,而且根据本发明的实施例对新产生数据记录进行热点数据的预识别能够提高查询效率。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (12)

1.一种存储数据的方法,其特征在于,包括:
基于原有数据记录建立热点数据模型;
根据所述热点数据模型从所述原有数据记录或新的数据记录中筛选出热点数据;
将筛选出的热点数据存储到第一存储设备中。
2.根据权利要求1所述的方法,其特征在于,还包括:
将原有数据记录中不是热点数据的数据记录存储到第二存储设备中,其中所述第一存储设备的存储速率高于第二存储设备的存储速率。
3.根据权利要求2所述的方法,其特征在于,还包括:
在接收到查询请求时,对查询进行优化,以生成相应的执行计划;
根据所述执行计划分别从所述第一存储设备和所述第二存储设备中获取数据。
4.根据权利要求1至3中的任一项所述的方法,其特征在于,还包括:
在所述热点数据模型过期的情况下,重新进行所述建立热点数据模型的过程,并且根据重新建立的热点数据模型更新所述第一存储设备中的热点数据。
5.根据权利要求1至4中的任一项所述的方法,其特征在于,所述热点数据模型过期包括:所述热点数据模型的生命周期超过预设时间或者所述热点数据在所述第一存储设备中的命中率太低。
6.根据权利要求1至5中的任一项所述的方法,其特征在于,所述第一存储设备为高速存储设备,所述基于原有数据记录建立热点数据模型,包括:
从所述原有数据记录中抽取出样本数据记录;
确定所述样本数据记录的命中次数;
将所述样本数据记录作为用于建立所述热点数据模型的数据源,并且基于所述命中次数建立所述热点数据模型。
7.一种存储数据的装置,其特征在于,包括:
建立模块,用于基于原有数据记录建立热点数据模型;
筛选模块,用于根据所述热点数据模型从所述原有数据记录或新的数据记录中筛选出热点数据;
存储模块,用于将筛选出的热点数据存储到第一存储设备中。
8.根据权利要求7所述的装置,其特征在于,所述存储模块还将原有数据记录中不是热点数据的数据记录存储到第二存储设备中,其中所述第一存储设备的存储速率高于第二存储设备的存储速率。
9.根据权利要求8所述的装置,其特征在于,还包括:
优化模块,用于在接收到查询请求时,对查询进行优化,以生成相应的执行计划;
获取模块,用于根据所述执行计划分别从所述第一存储设备和所述第二存储设备中获取数据。
10.根据权利要求7至9中的任一项所述的装置,其特征在于,所述建立模块还在所述热点数据模型过期的情况下,重新进行所述建立热点数据模型的过程,并且根据重新建立的热点数据模型更新所述第一存储设备中的热点数据。
11.根据权利要求7至10中的任一项所述的装置,其特征在于,所述热点数据模型过期包括:所述热点数据模型的生命周期超过预设时间或者所述热点数据在所述第一存储设备中的命中率太低。
12.根据权利要求7至11中的任一项所述的装置,其特征在于,所述第一存储设备为高速存储设备,所述建立模块从所述原有数据记录中抽取出样本数据记录,确定所述样本数据记录的命中次数,将所述样本数据记录作为用于建立所述热点数据模型的数据源,并且基于所述命中次数建立所述热点数据模型。
CN2011800020461A 2011-09-28 2011-09-28 存储数据的方法和装置 Pending CN102388374A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2011/080284 WO2012149776A1 (zh) 2011-09-28 2011-09-28 存储数据的方法和装置

Publications (1)

Publication Number Publication Date
CN102388374A true CN102388374A (zh) 2012-03-21

Family

ID=45826495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011800020461A Pending CN102388374A (zh) 2011-09-28 2011-09-28 存储数据的方法和装置

Country Status (2)

Country Link
CN (1) CN102388374A (zh)
WO (1) WO2012149776A1 (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049559A (zh) * 2012-12-29 2013-04-17 深圳先进技术研究院 一种海量数据自动放置方法和装置
CN103077219A (zh) * 2012-12-29 2013-05-01 深圳先进技术研究院 一种数据自动放置方法和装置
CN103077221A (zh) * 2012-12-29 2013-05-01 深圳先进技术研究院 一种海量数据自动放置装置和方法
CN103312776A (zh) * 2013-05-08 2013-09-18 青岛海信传媒网络技术有限公司 边缘节点服务器缓存视频的内容的方法和装置
CN104217004A (zh) * 2014-09-15 2014-12-17 中国工商银行股份有限公司 一种交易系统的数据库热点的监控方法及装置
CN106202092A (zh) * 2015-05-04 2016-12-07 阿里巴巴集团控股有限公司 数据处理的方法及系统
WO2017005059A1 (zh) * 2015-07-08 2017-01-12 腾讯科技(深圳)有限公司 音频指纹匹配查询的方法、装置及存储介质
CN107463514A (zh) * 2017-08-16 2017-12-12 郑州云海信息技术有限公司 一种数据存储方法及装置
CN107728952A (zh) * 2017-10-31 2018-02-23 郑州云海信息技术有限公司 一种预测式数据迁移方法及系统
CN108664516A (zh) * 2017-03-31 2018-10-16 华为技术有限公司 查询优化方法及相关装置
CN109739913A (zh) * 2018-12-24 2019-05-10 北京明朝万达科技股份有限公司 一种基于可配置化的热点数据缓存处理方法及设备
CN109976905A (zh) * 2019-03-01 2019-07-05 联想(北京)有限公司 内存管理方法、装置和电子设备
CN110866063A (zh) * 2018-08-27 2020-03-06 阿里巴巴集团控股有限公司 一种数据跟踪处理方法及装置
CN110908974A (zh) * 2018-09-14 2020-03-24 阿里巴巴集团控股有限公司 数据库管理方法、装置、设备及存储介质
CN112685634A (zh) * 2020-12-29 2021-04-20 平安普惠企业管理有限公司 数据查询方法、装置、电子设备及存储介质
CN113064930A (zh) * 2020-12-29 2021-07-02 中国移动通信集团贵州有限公司 数据仓库的冷热数据识别方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477556A (zh) * 2009-01-22 2009-07-08 苏州智讯科技有限公司 一种从互联网海量信息中发现热点的方法
CN101488150A (zh) * 2009-03-04 2009-07-22 哈尔滨工程大学 一种实时多角度网络热点事件分析装置及分析方法
CN101556582A (zh) * 2008-04-09 2009-10-14 上海复旦光华信息科技股份有限公司 论坛网民兴趣分析预测系统
CN101763401A (zh) * 2009-12-30 2010-06-30 暨南大学 一种网络舆情的热点预测和分析方法
CN101887440A (zh) * 2009-05-13 2010-11-17 财团法人资讯工业策进会 热点分析系统及方法
CN102129472A (zh) * 2011-04-14 2011-07-20 上海红神信息技术有限公司 面向语义搜索引擎的高效混合存储结构的构建方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100874702B1 (ko) * 2006-10-02 2008-12-18 삼성전자주식회사 플래시 메모리 파일 시스템을 효율적으로 관리하기 위한장치 드라이버 및 방법
TW200917277A (en) * 2007-10-15 2009-04-16 A Data Technology Co Ltd Adaptive hybrid density memory storage device and control method thereof
CN101483668A (zh) * 2009-02-10 2009-07-15 成都市华为赛门铁克科技有限公司 热点数据的网络存储和访问方法、设备及系统
CN101604226B (zh) * 2009-07-14 2010-12-01 浪潮电子信息产业股份有限公司 一种基于虚拟raid构建动态缓存池提高存储系统性能的方法
CN101788995B (zh) * 2009-12-31 2011-11-09 成都市华为赛门铁克科技有限公司 一种热点数据识别方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101556582A (zh) * 2008-04-09 2009-10-14 上海复旦光华信息科技股份有限公司 论坛网民兴趣分析预测系统
CN101477556A (zh) * 2009-01-22 2009-07-08 苏州智讯科技有限公司 一种从互联网海量信息中发现热点的方法
CN101488150A (zh) * 2009-03-04 2009-07-22 哈尔滨工程大学 一种实时多角度网络热点事件分析装置及分析方法
CN101887440A (zh) * 2009-05-13 2010-11-17 财团法人资讯工业策进会 热点分析系统及方法
CN101763401A (zh) * 2009-12-30 2010-06-30 暨南大学 一种网络舆情的热点预测和分析方法
CN102129472A (zh) * 2011-04-14 2011-07-20 上海红神信息技术有限公司 面向语义搜索引擎的高效混合存储结构的构建方法

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049559A (zh) * 2012-12-29 2013-04-17 深圳先进技术研究院 一种海量数据自动放置方法和装置
CN103077219A (zh) * 2012-12-29 2013-05-01 深圳先进技术研究院 一种数据自动放置方法和装置
CN103077221A (zh) * 2012-12-29 2013-05-01 深圳先进技术研究院 一种海量数据自动放置装置和方法
CN103312776A (zh) * 2013-05-08 2013-09-18 青岛海信传媒网络技术有限公司 边缘节点服务器缓存视频的内容的方法和装置
CN104217004A (zh) * 2014-09-15 2014-12-17 中国工商银行股份有限公司 一种交易系统的数据库热点的监控方法及装置
CN104217004B (zh) * 2014-09-15 2017-10-13 中国工商银行股份有限公司 一种交易系统的数据库热点的监控方法及装置
US10592491B2 (en) 2015-05-04 2020-03-17 Alibaba Group Holding Limited Distributed data processing
US10872070B2 (en) 2015-05-04 2020-12-22 Advanced New Technologies Co., Ltd. Distributed data processing
CN106202092B (zh) * 2015-05-04 2020-03-06 阿里巴巴集团控股有限公司 数据处理的方法及系统
CN106202092A (zh) * 2015-05-04 2016-12-07 阿里巴巴集团控股有限公司 数据处理的方法及系统
WO2017005059A1 (zh) * 2015-07-08 2017-01-12 腾讯科技(深圳)有限公司 音频指纹匹配查询的方法、装置及存储介质
CN108664516A (zh) * 2017-03-31 2018-10-16 华为技术有限公司 查询优化方法及相关装置
CN107463514A (zh) * 2017-08-16 2017-12-12 郑州云海信息技术有限公司 一种数据存储方法及装置
CN107463514B (zh) * 2017-08-16 2021-06-29 郑州云海信息技术有限公司 一种数据存储方法及装置
CN107728952A (zh) * 2017-10-31 2018-02-23 郑州云海信息技术有限公司 一种预测式数据迁移方法及系统
CN110866063A (zh) * 2018-08-27 2020-03-06 阿里巴巴集团控股有限公司 一种数据跟踪处理方法及装置
CN110866063B (zh) * 2018-08-27 2023-10-31 阿里云计算有限公司 一种数据跟踪处理方法及装置
CN110908974A (zh) * 2018-09-14 2020-03-24 阿里巴巴集团控股有限公司 数据库管理方法、装置、设备及存储介质
CN109739913A (zh) * 2018-12-24 2019-05-10 北京明朝万达科技股份有限公司 一种基于可配置化的热点数据缓存处理方法及设备
CN109976905A (zh) * 2019-03-01 2019-07-05 联想(北京)有限公司 内存管理方法、装置和电子设备
CN109976905B (zh) * 2019-03-01 2021-10-22 联想(北京)有限公司 内存管理方法、装置和电子设备
CN113064930A (zh) * 2020-12-29 2021-07-02 中国移动通信集团贵州有限公司 数据仓库的冷热数据识别方法、装置及电子设备
CN113064930B (zh) * 2020-12-29 2023-04-28 中国移动通信集团贵州有限公司 数据仓库的冷热数据识别方法、装置及电子设备
CN112685634A (zh) * 2020-12-29 2021-04-20 平安普惠企业管理有限公司 数据查询方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2012149776A1 (zh) 2012-11-08

Similar Documents

Publication Publication Date Title
CN102388374A (zh) 存储数据的方法和装置
CN100458779C (zh) 扩展索引的方法
CN101840400B (zh) 一种多级分类检索方法及系统
CN102982076A (zh) 基于语义标签库的多维度内容标注方法
CN101452487B (zh) 一种数据加载的方法、系统及数据加载装置
CN101556553A (zh) 基于需求变更的缺陷预测方法和系统
CN104102737A (zh) 一种历史数据存储方法和系统
CN102930060A (zh) 一种数据库快速索引的方法及装置
CN103020255A (zh) 分级存储方法和装置
CN108446391A (zh) 数据的处理方法、装置、电子设备和计算机可读介质
CN108153729A (zh) 一种面向金融领域的知识抽取方法
CN102521374A (zh) 基于关系型联机分析处理的智能数据聚集方法及其系统
CN105701251A (zh) 一种基于对象定义的数据导出导入方法
CN102819600B (zh) 面向电力生产管理系统关系数据库的关键词搜索方法
CN103218416A (zh) 一种数据库加载方法、装置及系统
CN103473324A (zh) 基于非结构化数据存储的多维业务属性检索装置及方法
CN108009290A (zh) 一种轨道交通指挥中心线网大数据的数据建模和存储方法
CN103455497A (zh) 一种提供整合的搜索结果的方法以及系统
CN101963993B (zh) 一种数据库单表记录快速查找的方法
CN102932416A (zh) 一种信息流任务的中间数据存储方法、处理方法及装置
CN104731926A (zh) 推荐词的展现方法和装置
CN111008285B (zh) 一种基于论文关键属性网络的作者消歧方法
CN102411584A (zh) 一种数据搜索方法及系统
CN104199982A (zh) 一种对搜索关键词进行显示的方法及装置
CN101661507A (zh) 一种数据合并的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120321