CN107273430A - 一种数据存储方法和装置 - Google Patents

一种数据存储方法和装置 Download PDF

Info

Publication number
CN107273430A
CN107273430A CN201710363351.2A CN201710363351A CN107273430A CN 107273430 A CN107273430 A CN 107273430A CN 201710363351 A CN201710363351 A CN 201710363351A CN 107273430 A CN107273430 A CN 107273430A
Authority
CN
China
Prior art keywords
data
column data
column
group
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710363351.2A
Other languages
English (en)
Other versions
CN107273430B (zh
Inventor
李振炜
李远策
陈永强
翟鑫达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201710363351.2A priority Critical patent/CN107273430B/zh
Publication of CN107273430A publication Critical patent/CN107273430A/zh
Application granted granted Critical
Publication of CN107273430B publication Critical patent/CN107273430B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2291User-Defined Types; Storage management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据存储方法和装置。其中方法包括:将数据进行列式存储;若一列数据的类型为数值型,将该列数据按数据取值的离散度划分为M个组,并为各组分别生成对应的组值;将M个组值作为该列数据的元数据进行保存。该技术方案提供的这种存储手段,为一列数据添加了更多的描述信息,使得在查询等场景下可以利用存储的元数据来判断是否需要读取一列数据,提高了查询效率,减少了资源浪费。

Description

一种数据存储方法和装置
技术领域
本发明涉及数据存储技术领域,具体涉及一种数据存储方法和装置。
背景技术
数据的存储形式往往是与数据的应用场景息息相关的,例如在OLAP(OnlineAnalytical Processing,联机分析处理)等场景下,用户关心的往往是大数据表中的某几个列。对于传统的行式数据库而言,由于数据按行存储,需要把包含这些列的所有行的数据全部读取,而这些行中包含了用户并不关系的许多无用的列,因而会读取较多无用的数据,十分不适于大数据的场景。
而采用列式存储的列式数据库可以很好地应对该问题。但是目前在许多查询场景下,当查询的对象是数值型的数据时,待查询的列很可能不包含所要查询的对象,但依然需要将该列中的所有数据进行读取,这就造成查询效率偏低,资源利用率差,究其原因是现有的列式存储不能很好地支持这种查询场景。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的数据存储方法和装置。
依据本发明的一个方面,提供了一种数据存储方法,包括:
将数据进行列式存储;
若一列数据的类型为数值型,将该列数据按数据取值的离散度划分为M个组,并为各组分别生成对应的组值;
将M个组值作为该列数据的元数据进行保存。
可选地,所述将数据进行列式存储包括:将数据按parquet格式进行列式存储。
可选地,所述将该列数据按数据取值的离散度划分为M个组,并为各组分别生成对应的组值包括:
对该列数据进行指定类型的统计计算;
根据统计计算结果将该列数据划分为M个组,并为各组分别生成对应的组值。
可选地,所述对该列数据进行指定类型的统计计算包括:
对该列数据进行求均值计算,将求得的均值记为μ;
对该列数据进行求标准差计算,将求得的标准差记为σ。
可选地,所述根据统计计算结果将该列数据划分为M个组,并为各组分别生成对应的组值包括:
根据μ和σ,对该列的每个数据xi进行标准化处理,得到相应的标准化的数据xi’;
对每个标准化的数据xi’,以如下公式确定原数据xi所在分组的组值m:其中xmax为该列数据中的最大值,xmin为该列数据中的最小值,N为不小于1的自然数。
可选地,所述将M个组值作为该列数据的元数据进行保存包括:
设置一个长度为N+1的二进制串,该二进制串各位上的数据的初始值为0;
对于得到的各组值m,将该二进制串上第m+1位上的数据修改为1;
将所述二进制串作为该列数据的元数据进行保存。
可选地,所述将所述二进制串作为该列数据的元数据进行保存包括:
适于设置一个字节数为的字节数组,用于存储该二进制串。
可选地,所述对该列的每个数据进行标准化处理包括:
利用公式对该列的每个数据进行标准归一化,若得到的xi'>1,则令xi'=1;若得到的xi'<-1,则令xi'=-1。
可选地,该方法还包括:
将μ和σ作为该列数据的元数据进行保存;
当接收到一个数据查询请求时,判断待查询的目标列的数据类型是否为数值型;
是则根据目标列对应的元数据判断是否读取目标列的数据到内存中。
可选地,所述根据目标列对应的元数据判断是否读取目标列的数据到内存中包括:
从数据查询请求中提取查询数值;
对待查询的目标列,根据各列的元数据对所述查询数值进行相应的指定类型的统计计算,根据统计计算结果确定该查询数值对应的组值;
判断该组值是否与该列元数据中记录的任一个组值相匹配,是则读取该列的数据到内存中,否则跳过该列。
依据本发明的另一方面,提供了一种数据存储装置,包括:
数据存储单元,适于将数据进行列式存储;
元数据处理单元,适于当一列数据的类型为数值型时,将该列数据按数据取值的离散度划分为M个组,并为各组分别生成对应的组值,将M个组值作为该列数据的元数据进行保存。
可选地,所述数据存储单元,适于将数据按parquet格式进行列式存储。
可选地,所述元数据处理单元,适于对该列数据进行指定类型的统计计算,根据统计计算结果将该列数据划分为M个组,并为各组分别生成对应的组值。
可选地,所述元数据处理单元,适于对该列数据进行求均值计算,将求得的均值记为μ;对该列数据进行求标准差计算,将求得的标准差记为σ。
可选地,所述元数据处理单元,适于根据μ和σ,对该列的每个数据xi进行标准化处理,得到相应的标准化的数据xi’;对每个标准化的数据xi’,以如下公式确定原数据xi所在分组的组值m:其中xmax为该列数据中的最大值,xmin为该列数据中的最小值,N为不小于1的自然数。
可选地,所述元数据处理单元,适于设置一个长度为N+1的二进制串,该二进制串各位上的数据的初始值为0;对于得到的各组值m,将该二进制串上第m+1位上的数据修改为1;将所述二进制串作为该列数据的元数据进行保存。
可选地,所述元数据处理单元,适于设置一个字节数为的字节数组,用于存储该二进制串。
可选地,所述元数据处理单元,适于利用公式对该列的每个数据进行标准归一化,若得到的xi'>1,则令xi'=1;若得到的xi'<-1,则令xi'=-1。
可选地,所述元数据处理单元,适于将μ和σ作为该列数据的元数据进行保存;
该装置还包括:
查询单元,适于当接收到一个数据查询请求时,判断待查询的目标列的数据类型是否为数值型;是则根据元数据处理单元中存储的目标列对应的元数据,判断是否读取目标列的数据到内存中。
可选地,所述查询单元,适于从数据查询请求中提取查询数值,对待查询的目标列,根据各列的元数据对所述查询数值进行相应的指定类型的统计计算,根据统计计算结果确定该查询数值对应的组值,判断该组值是否与该列元数据中记录的任一个组值相匹配,是则读取该列的数据到内存中,否则跳过该列。
由上述可知,本发明的技术方案,在将数据进行列式存储的场景下,还对数值型的一列数据按其中数据取值的离散度划分为多个组,并为各组生成唯一的组值,将这些组值作为该列数据的元数据进行保存。该技术方案提供的这种存储手段,为一列数据添加了更多的描述信息,使得在查询等场景下可以利用存储的元数据来判断是否需要读取一列数据,提高了查询效率,减少了资源浪费。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种数据存储方法的流程示意图;
图2示出了根据本发明一个实施例的一种数据存储装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的一种数据存储方法的流程示意图,如图1所示,该方法包括:
步骤S110,将数据进行列式存储。
列式存储的优点主要包括下面几点:极高的装载速度;适合大数据的场景;能够实时加载数据;高效的压缩率;适合聚合操作。在本实施例中,不需要对列式存储的其他方面进行改进。
步骤S120,若一列数据的类型为数值型,将该列数据按数据取值的离散度划分为M个组,并为各组分别生成对应的组值。
在本步骤中,在对数据进行分组时考虑到了数据取值的离散度,这样使得最后的分组中的数据不会过于稀疏。
步骤S130,将M个组值作为该列数据的元数据进行保存。
元数据是“描述数据的数据”,即是该列数据的描述信息。由于用户对存储的数据是需要在一些场景下进行利用的,最常用的就是查询场景。查询场景下必然包括查询条件,许多情形下,查询条件中会包括一些限制性条件,例如查询年龄等于15的所有数据,而不是单纯的把年龄这一列中的所有数据加以展示。在列式存储的场景下,年龄这一列可能是分多个列进行存储的,那么在一列中就可能出现数据取值并不包括15的情况。但是如果没有元数据,用户是无法知道该列是否包含取值等于15的数据的。那么应对这一场景,可以实现在该列的元数据中写入该列不存在取值等于15的数据。然而实际上,用户的很多需求是不可预期的,无法实现将与所有查询条件相应的信息写入到元数据中。在本实施例中将数据分为多个组并设置多个组值,可以方便用户判断待查询的数据是否在该列中。当然,本实施例中示出的这种数据存储方法并不限于查询场景。
可见,图1所示的方法,在将数据进行列式存储的场景下,还对数值型的一列数据按其中数据取值的离散度划分为多个组,并为各组生成唯一的组值,将这些组值作为该列数据的元数据进行保存。该技术方案提供的这种存储手段,为一列数据添加了更多的描述信息,使得在查询等场景下可以利用存储的元数据来判断是否需要读取一列数据,提高了查询效率,减少了资源浪费。
在本发明的一个实施例中,上述方法中,将数据进行列式存储包括:将数据按parquet格式进行列式存储。
Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目。在本实施例中可以直接利用这种存储格式,在此基础上对一列数据进行处理并保存元数据。
在本发明的一个实施例中,上述方法中,将该列数据按数据取值的离散度划分为M个组,并为各组分别生成对应的组值包括:对该列数据进行指定类型的统计计算;根据统计计算结果将该列数据划分为M个组,并为各组分别生成对应的组值。
在本实施例中可以采取符合统计学规律的统计计算来实现将一列数据按数据取值的离散度划分为M个组,例如下面给出的这种方法:对该列数据进行指定类型的统计计算包括:对该列数据进行求均值计算,将求得的均值记为μ;对该列数据进行求标准差计算,将求得的标准差记为σ。
在此基础上,可以利用z-score标准化等处理方式对该列数据进行处理。举例而言,在本发明的一个实施例中,上述方法中,根据统计计算结果将该列数据划分为M个组,并为各组分别生成对应的组值包括:
1)根据μ和σ,对该列的每个数据xi进行标准化处理,得到相应的标准化的数据xi’。
2)对每个标准化的数据xi’,以如下公式确定原数据xi所在分组的组值m:其中xmax为该列数据中的最大值,xmin为该列数据中的最小值,N为不小于1的自然数。
特别地,当N取1时,可以得到组值0和1,也就是分别对应于该组数据中的最大值和最小值。此时如果进行数据查询,那么可以通过对查询条件中的数值进行相同的变换,来判断变换后的数值是否在[0,1]区间中,如果在,那么说明查询条件中的数值可能在该列数据中;否则,查询查询条件中的数值必然不在该列数据中。
在实际应用中,可以根据数据的取值来确定N的取值,例如数据的取值范围很大,那么N的取值可以较大,这样确定的分组数量也就越多,相当于将数据按取值细分为多个区间。
以下面这一组数为例:
15,23,11,21,31,44,12,1,21,33,21,44,55,21,2,87,12,5,32,12,23,23,99,12,11,1,12,5,1,19。
先对这组数求均值,得到μ=23.63333333;然后对该组数据求标准差,得到σ=23.14941473。然后根据z-score标准化公式对每个数进行处理,再令N=10,利用上面的公式进行组值计算,得到的组值为:
0,1,2,3,4,6,9,10。
经过上述处理,我们不需要关心每一个数究竟在哪个组中。但显然可知1这个数在0所对应的组中,99这个数在10所对应的组中。
将上述组值直接作为元数据存储,需要占用的存储空间较大,因此在本发明的一个实施例中,上述方法中,将M个组值作为该列数据的元数据进行保存包括:设置一个长度为N+1的二进制串,该二进制串各位上的数据的初始值为0;对于得到的各组值m,将该二进制串上第m+1位上的数据修改为1;将二进制串作为该列数据的元数据进行保存。
例如,对于上例,相应的二进制串为11111010011,也就是低位在前,高位在后。
在本发明的一个实施例中,上述方法中,将二进制串作为该列数据的元数据进行保存包括:设置一个字节数为的字节数组,用于存储该二进制串。那么对于上例,只需要个字节即可,其中Ceil是计算大于或者等于指定表达式(本例中为)的最小整数的函数。
z-score标准化的公式为但根据统计学规律可知,如果利用3σ进行标准化,处理后的数据落在[-1,1]之间的概率是99.7%。因此在本发明的一个实施例中,上述方法中,对该列的每个数据进行标准化处理包括:利用公式对该列的每个数据进行标准归一化,若得到的xi'>1,则令xi'=1;若得到的xi'<-1,则令xi'=-1。
这样可以将仅有0.3%概率存在的边缘数据归到最大和最小组值对应的组中。
在本发明的一个实施例中,上述方法还包括:将μ和σ作为该列数据的元数据进行保存;当接收到一个数据查询请求时,判断待查询的目标列的数据类型是否为数值型;是则根据目标列对应的元数据判断是否读取目标列的数据到内存中。具体而言,根据目标列对应的元数据判断是否读取目标列的数据到内存中包括:从数据查询请求中提取查询数值;对待查询的目标列,根据各列的元数据对查询数值进行相应的指定类型的统计计算,根据统计计算结果确定该查询数值对应的组值;判断该组值是否与该列元数据中记录的任一个组值相匹配,是则读取该列的数据到内存中,否则跳过该列。
以前面举例的那组数为例,如果查询条件是判断一列中是否存在等于70的数,对70进行相同类型的统计计算以及计算组值,得到的组值为7,如果是直接采用组值作为元数据的方式,就可以直接判断出7不在0、1、2、3、4、6、9、10这些组值中,说明该数不在该列中。如果是采用二进制串作为元数据的方式,就需要判断二进制串的第7+1=8位上的数据是不是1,由于11111010011的第8位是0,说明该数不在该列中。
图2示出了根据本发明一个实施例的一种数据存储装置的结构示意图,如图2所示,数据存储装置200包括:
数据存储单元210,适于将数据进行列式存储。
元数据处理单元220,适于当一列数据的类型为数值型时,将该列数据按数据取值的离散度划分为M个组,并为各组分别生成对应的组值,将M个组值作为该列数据的元数据进行保存。
可见,图2所示的装置,通过各单元的相互配合,在将数据进行列式存储的场景下,还对数值型的一列数据按其中数据取值的离散度划分为多个组,并为各组生成唯一的组值,将这些组值作为该列数据的元数据进行保存。该技术方案提供的这种存储手段,为一列数据添加了更多的描述信息,使得在查询等场景下可以利用存储的元数据来判断是否需要读取一列数据,提高了查询效率,减少了资源浪费。
在本发明的一个实施例中,上述装置中,数据存储单元210,适于将数据按parquet格式进行列式存储。
在本发明的一个实施例中,上述装置中,元数据处理单元220,适于对该列数据进行指定类型的统计计算,根据统计计算结果将该列数据划分为M个组,并为各组分别生成对应的组值。
在本发明的一个实施例中,上述装置中,元数据处理单元220,适于对该列数据进行求均值计算,将求得的均值记为μ;对该列数据进行求标准差计算,将求得的标准差记为σ。
在本发明的一个实施例中,上述装置中,元数据处理单元220,适于根据μ和σ,对该列的每个数据xi进行标准化处理,得到相应的标准化的数据xi’;对每个标准化的数据xi’,以如下公式确定原数据xi所在分组的组值m:其中xmax为该列数据中的最大值,xmin为该列数据中的最小值,N为不小于1的自然数。
在本发明的一个实施例中,上述装置中,元数据处理单元220,适于设置一个长度为N+1的二进制串,该二进制串各位上的数据的初始值为0;对于得到的各组值m,将该二进制串上第m+1位上的数据修改为1;将二进制串作为该列数据的元数据进行保存。
在本发明的一个实施例中,上述装置中,元数据处理单元220,适于设置一个字节数为的字节数组,用于存储该二进制串。
在本发明的一个实施例中,上述装置中,元数据处理单元220,适于利用公式对该列的每个数据进行标准归一化,若得到的xi'>1,则令xi'=1;若得到的xi'<-1,则令xi'=-1。
在本发明的一个实施例中,上述装置中,元数据处理单元220,适于将μ和σ作为该列数据的元数据进行保存;该装置还包括:查询单元(图未示),适于当接收到一个数据查询请求时,判断待查询的目标列的数据类型是否为数值型;是则根据元数据处理单元中存储的目标列对应的元数据,判断是否读取目标列的数据到内存中。
在本发明的一个实施例中,上述装置中,查询单元,适于从数据查询请求中提取查询数值,对待查询的目标列,根据各列的元数据对查询数值进行相应的指定类型的统计计算,根据统计计算结果确定该查询数值对应的组值,判断该组值是否与该列元数据中记录的任一个组值相匹配,是则读取该列的数据到内存中,否则跳过该列。
需要说明的是,上述各装置实施例的具体实施方式与前述对应方法实施例的具体实施方式相同,在此不再赘述。
综上所述,本发明的技术方案,在将数据进行列式存储的场景下,还对数值型的一列数据按其中数据取值的离散度划分为多个组,并为各组生成唯一的组值,将这些组值作为该列数据的元数据进行保存。该技术方案提供的这种存储手段,为一列数据添加了更多的描述信息,使得在查询等场景下可以利用存储的元数据来判断是否需要读取一列数据,提高了查询效率,减少了资源浪费。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的数据存储装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明的实施例公开了A1、一种数据存储方法,其中,该方法包括:
将数据进行列式存储;
若一列数据的类型为数值型,将该列数据按数据取值的离散度划分为M个组,并为各组分别生成对应的组值;
将M个组值作为该列数据的元数据进行保存。
A2、如A1所述的方法,其中,所述将数据进行列式存储包括:将数据按parquet格式进行列式存储。
A3、如A1所述的方法,其中,所述将该列数据按数据取值的离散度划分为M个组,并为各组分别生成对应的组值包括:
对该列数据进行指定类型的统计计算;
根据统计计算结果将该列数据划分为M个组,并为各组分别生成对应的组值。
A4、如A3所述的方法,其中,所述对该列数据进行指定类型的统计计算包括:
对该列数据进行求均值计算,将求得的均值记为μ;
对该列数据进行求标准差计算,将求得的标准差记为σ。
A5、如A4所述的方法,其中,所述根据统计计算结果将该列数据划分为M个组,并为各组分别生成对应的组值包括:
根据μ和σ,对该列的每个数据xi进行标准化处理,得到相应的标准化的数据xi’;
对每个标准化的数据xi’,以如下公式确定原数据xi所在分组的组值m:其中xmax为该列数据中的最大值,xmin为该列数据中的最小值,N为不小于1的自然数。
A6、如A5所述的方法,其中,所述将M个组值作为该列数据的元数据进行保存包括:
设置一个长度为N+1的二进制串,该二进制串各位上的数据的初始值为0;
对于得到的各组值m,将该二进制串上第m+1位上的数据修改为1;
将所述二进制串作为该列数据的元数据进行保存。
A7、如A6所述的方法,其中,所述将所述二进制串作为该列数据的元数据进行保存包括:
设置一个字节数为的字节数组,用于存储该二进制串。
A8、如A5所述的方法,其中,所述对该列的每个数据进行标准化处理包括:
利用公式对该列的每个数据进行标准归一化,若得到的xi'>1,则令xi'=1;若得到的xi'<-1,则令xi'=-1。
A9、如A8所述的方法,其中,该方法还包括:
将μ和σ作为该列数据的元数据进行保存;
当接收到一个数据查询请求时,判断待查询的目标列的数据类型是否为数值型;
是则根据目标列对应的元数据判断是否读取目标列的数据到内存中。
A10、如A8所述的方法,其中,所述根据目标列对应的元数据判断是否读取目标列的数据到内存中包括:
从数据查询请求中提取查询数值;
对待查询的目标列,根据各列的元数据对所述查询数值进行相应的指定类型的统计计算,根据统计计算结果确定该查询数值对应的组值;
判断该组值是否与该列元数据中记录的任一个组值相匹配,是则读取该列的数据到内存中,否则跳过该列。
本发明的实施例还公开了B11、一种数据存储装置,其中,该装置包括:
数据存储单元,适于将数据进行列式存储;
元数据处理单元,适于当一列数据的类型为数值型时,将该列数据按数据取值的离散度划分为M个组,并为各组分别生成对应的组值,将M个组值作为该列数据的元数据进行保存。
B12、如B11所述的装置,其中,
所述数据存储单元,适于将数据按parquet格式进行列式存储。
B13、如B11所述的装置,其中,
所述元数据处理单元,适于对该列数据进行指定类型的统计计算,根据统计计算结果将该列数据划分为M个组,并为各组分别生成对应的组值。
B14、如B13所述的装置,其中,
所述元数据处理单元,适于对该列数据进行求均值计算,将求得的均值记为μ;对该列数据进行求标准差计算,将求得的标准差记为σ。
B15、如B14所述的装置,其中,
所述元数据处理单元,适于根据μ和σ,对该列的每个数据xi进行标准化处理,得到相应的标准化的数据xi’;对每个标准化的数据xi’,以如下公式确定原数据xi所在分组的组值m:其中xmax为该列数据中的最大值,xmin为该列数据中的最小值,N为不小于1的自然数。
B16、如B15所述的装置,其中,
所述元数据处理单元,适于设置一个长度为N+1的二进制串,该二进制串各位上的数据的初始值为0;对于得到的各组值m,将该二进制串上第m+1位上的数据修改为1;将所述二进制串作为该列数据的元数据进行保存。
B17、如B16所述的装置,其中,
所述元数据处理单元,适于设置一个字节数为的字节数组,用于存储该二进制串。
B18、如B15所述的装置,其中,所述元数据处理单元,适于利用公式对该列的每个数据进行标准归一化,若得到的xi'>1,则令xi'=1;若得到的xi'<-1,则令xi'=-1。
B19、如B18所述的装置,其中,
所述元数据处理单元,适于将μ和σ作为该列数据的元数据进行保存;
该装置还包括:
查询单元,适于当接收到一个数据查询请求时,判断待查询的目标列的数据类型是否为数值型;是则根据元数据处理单元中存储的目标列对应的元数据,判断是否读取目标列的数据到内存中。
B20、如B19所述的装置,其中,
所述查询单元,适于从数据查询请求中提取查询数值,对待查询的目标列,根据各列的元数据对所述查询数值进行相应的指定类型的统计计算,根据统计计算结果确定该查询数值对应的组值,判断该组值是否与该列元数据中记录的任一个组值相匹配,是则读取该列的数据到内存中,否则跳过该列。

Claims (10)

1.一种数据存储方法,其中,该方法包括:
将数据进行列式存储;
若一列数据的类型为数值型,将该列数据按数据取值的离散度划分为M个组,并为各组分别生成对应的组值;
将M个组值作为该列数据的元数据进行保存。
2.如权利要求1所述的方法,其中,所述将数据进行列式存储包括:将数据按parquet格式进行列式存储。
3.如权利要求1所述的方法,其中,所述将该列数据按数据取值的离散度划分为M个组,并为各组分别生成对应的组值包括:
对该列数据进行指定类型的统计计算;
根据统计计算结果将该列数据划分为M个组,并为各组分别生成对应的组值。
4.如权利要求3所述的方法,其中,所述对该列数据进行指定类型的统计计算包括:
对该列数据进行求均值计算,将求得的均值记为μ;
对该列数据进行求标准差计算,将求得的标准差记为σ。
5.如权利要求4所述的方法,其中,所述根据统计计算结果将该列数据划分为M个组,并为各组分别生成对应的组值包括:
根据μ和σ,对该列的每个数据xi进行标准化处理,得到相应的标准化的数据xi’;
对每个标准化的数据xi’,以如下公式确定原数据xi所在分组的组值m:其中xmax为该列数据中的最大值,xmin为该列数据中的最小值,N为不小于1的自然数。
6.一种数据存储装置,其中,该装置包括:
数据存储单元,适于将数据进行列式存储;
元数据处理单元,适于当一列数据的类型为数值型时,将该列数据按数据取值的离散度划分为M个组,并为各组分别生成对应的组值,将M个组值作为该列数据的元数据进行保存。
7.如权利要求6所述的装置,其中,
所述数据存储单元,适于将数据按parquet格式进行列式存储。
8.如权利要求6所述的装置,其中,
所述元数据处理单元,适于对该列数据进行指定类型的统计计算,根据统计计算结果将该列数据划分为M个组,并为各组分别生成对应的组值。
9.如权利要求8所述的装置,其中,
所述元数据处理单元,适于对该列数据进行求均值计算,将求得的均值记为μ;对该列数据进行求标准差计算,将求得的标准差记为σ。
10.如权利要求9所述的装置,其中,
所述元数据处理单元,适于根据μ和σ,对该列的每个数据xi进行标准化处理,得到相应的标准化的数据xi’;对每个标准化的数据xi’,以如下公式确定原数据xi所在分组的组值m:其中xmax为该列数据中的最大值,xmin为该列数据中的最小值,N为不小于1的自然数。
CN201710363351.2A 2017-05-16 2017-05-16 一种数据存储方法和装置 Active CN107273430B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710363351.2A CN107273430B (zh) 2017-05-16 2017-05-16 一种数据存储方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710363351.2A CN107273430B (zh) 2017-05-16 2017-05-16 一种数据存储方法和装置

Publications (2)

Publication Number Publication Date
CN107273430A true CN107273430A (zh) 2017-10-20
CN107273430B CN107273430B (zh) 2021-05-18

Family

ID=60065224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710363351.2A Active CN107273430B (zh) 2017-05-16 2017-05-16 一种数据存储方法和装置

Country Status (1)

Country Link
CN (1) CN107273430B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112286933A (zh) * 2020-10-28 2021-01-29 况客科技(北京)有限公司 数据处理系统
WO2021047373A1 (zh) * 2019-09-11 2021-03-18 星环信息科技(上海)股份有限公司 基于大数据的列数据处理方法、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5414834A (en) * 1988-04-08 1995-05-09 International Business Machines Corporation Method and apparatus for data storage and interchange using a relational database table, and a data record for use in connection therewith
CN103902544A (zh) * 2012-12-25 2014-07-02 中国移动通信集团公司 一种数据处理方法及系统
CN105264519A (zh) * 2013-10-31 2016-01-20 华为技术有限公司 一种列式数据库处理方法及装置
CN105550225A (zh) * 2015-12-07 2016-05-04 百度在线网络技术(北京)有限公司 索引构建方法、查询方法及装置
CN106250523A (zh) * 2016-08-04 2016-12-21 北京国电通网络技术有限公司 一种分布式列存储系统索引的方法
CN106570129A (zh) * 2016-10-27 2017-04-19 南京邮电大学 一种对实时数据进行快速分析的存储系统及其存储方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5414834A (en) * 1988-04-08 1995-05-09 International Business Machines Corporation Method and apparatus for data storage and interchange using a relational database table, and a data record for use in connection therewith
CN103902544A (zh) * 2012-12-25 2014-07-02 中国移动通信集团公司 一种数据处理方法及系统
CN105264519A (zh) * 2013-10-31 2016-01-20 华为技术有限公司 一种列式数据库处理方法及装置
CN105550225A (zh) * 2015-12-07 2016-05-04 百度在线网络技术(北京)有限公司 索引构建方法、查询方法及装置
CN106250523A (zh) * 2016-08-04 2016-12-21 北京国电通网络技术有限公司 一种分布式列存储系统索引的方法
CN106570129A (zh) * 2016-10-27 2017-04-19 南京邮电大学 一种对实时数据进行快速分析的存储系统及其存储方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021047373A1 (zh) * 2019-09-11 2021-03-18 星环信息科技(上海)股份有限公司 基于大数据的列数据处理方法、设备及介质
CN112286933A (zh) * 2020-10-28 2021-01-29 况客科技(北京)有限公司 数据处理系统
CN112286933B (zh) * 2020-10-28 2021-09-14 况客科技(北京)有限公司 数据处理系统

Also Published As

Publication number Publication date
CN107273430B (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
US11379755B2 (en) Feature processing tradeoff management
US10318882B2 (en) Optimized training of linear machine learning models
US10713589B1 (en) Consistent sort-based record-level shuffling of machine learning data
US10339465B2 (en) Optimized decision tree based models
CN107292186B (zh) 一种基于随机森林的模型训练方法和装置
US11100420B2 (en) Input processing for machine learning
US11182691B1 (en) Category-based sampling of machine learning data
US10719767B2 (en) Computer implemented system for automating the generation of a business decision analytic model
US20150379425A1 (en) Consistent filtering of machine learning data
CN104298736B (zh) 数据集合连接方法、装置及数据库系统
US10268749B1 (en) Clustering sparse high dimensional data using sketches
CN104486777B (zh) 一种实现数据处理的方法及装置
US10261767B2 (en) Data integration job conversion
CN112506950B (zh) 数据聚合处理方法、计算节点、计算集群及存储介质
CN106682099A (zh) 一种数据的存储方法和装置
CN107273430A (zh) 一种数据存储方法和装置
CN109977157A (zh) 一种基于数据平台将数据导入目标目录的方法和电子设备
WO2019061667A1 (zh) 电子装置、数据处理方法、系统及计算机可读存储介质
CN110928941B (zh) 一种数据分片抽取方法及装置
CN111415200B (zh) 数据处理方法及装置
CN111507846A (zh) 一种资产筛选封包方法、装置、储存介质及电子设备
CN106599244B (zh) 通用的原始日志清洗装置及方法
Papenhausen et al. Creating optimal code for GPU‐accelerated CT reconstruction using ant colony optimization
CN111275203A (zh) 基于列存储的决策树构造方法、装置、设备及存储介质
CN112651538A (zh) 一种配置机架的方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant