CN111125216A - 数据导入Phoenix的方法及装置 - Google Patents
数据导入Phoenix的方法及装置 Download PDFInfo
- Publication number
- CN111125216A CN111125216A CN201911255635.5A CN201911255635A CN111125216A CN 111125216 A CN111125216 A CN 111125216A CN 201911255635 A CN201911255635 A CN 201911255635A CN 111125216 A CN111125216 A CN 111125216A
- Authority
- CN
- China
- Prior art keywords
- index
- hbase
- hbase table
- phoenix
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 241000233805 Phoenix Species 0.000 title claims abstract description 112
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000008676 import Effects 0.000 claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 20
- 238000005192 partition Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- VJYFKVYYMZPMAB-UHFFFAOYSA-N ethoprophos Chemical compound CCCSP(=O)(OCC)SCCC VJYFKVYYMZPMAB-UHFFFAOYSA-N 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/172—Caching, prefetching or hoarding of files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2272—Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据导入Phoenix的方法及装置,该方法包括:读取Phoenix的元数据系统表,查找数据文件导入的目标Hbase表对应的Phoenix表在元数据系统表中的存储信息;根据所述存储信息确定与Phoenix表对应的目标Hbase表的类型;按照目标Hbase表的类型将数据文件转换为目标Hbase表对应的HDFS文件;将HDFS文件导入目标Hbase表对应的HDFS文件目录中。本申请可以减少数据导入Phoenix时占用的计算资源和IO资源,提高导入效率。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据导入Phoenix的方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
Phoenix是构建在HBase上的一个结构化查询语言(Structured Query Language,SQL)框架组件,HBase是一个分布式的、面向列的开源数据库,其数据存储于分布式文件系统(Hadoop Distributed File System,HDFS)之上,有很好的备份机制,是适合于非结构化数据存储的数据库。Phonix的数据存储在Hbase中,可使用SQL语句来执行创建Hbase的表、删除表、插入更新数据、删除数据以及分析数据等操作,而不需要使用Hbase的API来操作表,因此Phoenix可以解决Hbase的客户端操作复杂的问题。
Phoenix官方提供的Spark数据源接口可以将数据写入到Phoenix。在数据写入过程中,数据源的数据文件,经过处理后,形成多个Spark的分区(分区是Spark的最小的数据逻辑处理单元,一个分区对应Spark的一个任务(task)来处理),每个Spark分区均会请求一次Hbase的从节点RegionServer。
在实际的数据导入到Phoenix场景中,由于数据文件非常多,或者数据文件大,将会产生很多的分区,相应的分区请求RegionServer的次数会比较多。这样Spark将频繁与RegionServer交互,会导致Hbase的主节点region频繁的分裂(split)和压缩(compact),split和compact都会占用大量的计算资源和输入/输出(Input/Output,IO)资源,这个过程还会导致短暂的服务中断,影响数据导入的效率,甚至可能会影响线上的Phoenix服务。
发明内容
本申请实施例提供一种数据导入Phoenix的方法,用以减少数据导入Phoenix时占用的计算资源和IO资源,提高导入效率,该方法包括:
读取Phoenix的元数据系统表,查找数据文件导入的目标Hbase表对应的Phoenix表在元数据系统表中的存储信息;根据所述存储信息确定与Phoenix表对应的目标Hbase表的类型;按照目标Hbase表的类型将数据文件转换为目标Hbase表对应的HDFS文件;将HDFS文件导入目标Hbase表对应的HDFS文件目录中。
本申请实施例还提供一种数据导入Phoenix的装置,用以减少数据导入Phoenix时占用的计算资源和IO资源,提高导入效率,该装置包括:
查找模块,用于读取Phoenix的元数据系统表,查找数据文件导入的目标Hbase表对应的Phoenix表在元数据系统表中的存储信息;确定模块,用于根据所述查找模块查找得到的所述存储信息确定与Phoenix表对应的目标Hbase表的类型;转换模块,用于按照所述确定模块确定的目标Hbase表的类型将数据文件转换为目标Hbase表对应的HDFS文件;导入模块,用于将转换模块转换得到的HDFS文件导入目标Hbase表对应的HDFS文件目录中。
本申请实施例中,根据Phoenix元数据系统表中存储的信息,确定数据文件导入的Hbase表的类型,并按照Hbase表的类型将数据文件转为为对应的HDFS文件,之后直接将HDFS文件导入HDFS文件目录下,从而实现数据文件快速导入Phoenix中,上述过程中不需要经过Spark与RegionServer频繁交互,导致Hbase的主节点region频繁的分裂(split)和压缩(compact)的过程,减少了数据导入Phoenix的过程中占用的计算资源和输入/输出IO资源,同时提高了导入效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本申请实施例中一种Hbase表中包含的数据的示意图;
图2为本申请实施例中一种数据导入Phoenix的方法的流程图;
图3为本申请实施例中一种示例性给出的Phoenix表的示意图;
图4为本申请实施例中一种元数据系统表的示意图;
图5为本申请实施例中一种Hbase表的示意图;
图6为本申请实施例中一种包含本地索引的元数据系统表的示意图;
图7为本申请实施例中另一种包含本地索引的Hbase表的示意图;
图8为本申请实施例中一种包含全局索引的元数据系统表的示意图;
图9(a)为本申请实施例中一种包含表数据的Hbase表的示意图;
图9(b)为本申请实施例中一种索引Hbase表的示意图;
图10为本申请实施例中一种转换的Hbase表的示意图;
图11为本申请实施例中一种数据导入Phoenix的装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本申请实施例做进一步详细说明。在此,本申请的示意性实施例及其说明用于解释本申请,但并不作为对本申请的限定。
下面将对Phoenix使用的Hbase数据库进行简要介绍。
Hbase数据库中存储的是物理表,有独立的物理结构,查询的时候将相应的数据加载到内存。Hbase表是基于列存储的,查询的时候可以只扫描某一个列或者某几列,避免扫描所有数据,这样可以提升查询效率。
Hbase表有一级索引rowkey,根据rowkey查询速度非常快。同时,Hbase提供了一个超大的内存hash表,搜索引擎通过这个hash表存储索引,也可以提升查询效率。
Hbase数据库也存在缺陷,其不适用与有join、多级索引以及表关系复杂的应用场景。
图1示例性的给出了Hbase表中数据,将图1中的Hbase数据转换为关系型数据库的表,如下表一所示:
表一
主键 | Cf1:ip(列名) | Cf1:hid(列名) | cf1:cnt(列名) |
1005:187.248.135.230 | 187.248.135.230 | 1005 | 1 |
242:115.248.158.231 | 115.248.158.231 | 242 | 3 |
317:113.248.234.232 | 113.248.234.232 | 317 | 2 |
本申请实施例提供了一种数据导入Phoenix的方法,如图2所示,该方法包括步骤201至步骤204:
步骤201、读取Phoenix的元数据系统表,查找数据文件导入的目标Hbase表对应的Phoenix表在元数据系统表中的存储信息。
本申请给出了一张Phoenix表的示意图。如图3所示,该Phoenix表“STUDENTS”中的包含主键(即ID)以及多个字段,分别为NAME、MOBILE和AGE。
示例性的,Phoenix的元数据系统表SYSTEM.CATALOG如图4所示。参见图4,元数据系统表中存储的表的表名为STUDENTS,该表名也即Phoenix表的表名。Phoenix表STUDENTS在元数据系统表中的存储信息包括ID、NAME、MOBILE和AGE。
相应的,与Phoenix表对应的Hbase表上的rowkey对应主键列(即ID,通过COLUMN_FAMILIY为空且TABLE_SEQ_NUM为null确定),列族名称为0(即COLUMN_FAMILIY列的值0),该列族包含的列名为age、mobile和name。
步骤202、根据存储信息确定与Phoenix表对应的目标Hbase表的类型。
示例性的,数据文件导入的目标Hbase表如图5所示。
如图5所示的Hbase表是根据Phoenix表自动生成的,Phoenix表需要在读取Phoenix的元数据系统表之前,获取用户对于索引的需求,也就是说,由用户确定是否创建索引以及创建什么类型的索引。之后创建Phoenix表,并根据用户用于索引的需求确定创建索引以及创建的索引类型,或者不创建索引;当Phoenix表和/或索引创建完成后,Phoenix表的表名和/或索引名称映射至Phoenix元数据系统表中,Phoenix表和/或索引对应的Hbase表自动生成。
如果创建了索引,则元数据系统表中相应位置显示索引名称以及用于指示该内容为索引名称的索引标识。如图6和图8所示,图6和图8均为包含索引的元数据系统表,图6为包含本地索引的元数据系统表,该表存储的索引名称为“IDX_STU_LOCAL”,图8为包含全局索引的元数据系统表,该表存储的索引名称为“IDX_STU_GLOBAL”,两图所示的元数据系统表的索引标识均为“TABLE_TY”中的“i”。
索引类型包括全局索引和本地索引。
其中,本地(Local)索引,即索引数据和表数据(如列族、列名等数据)是保存在同一个Hbase表中的,因此从Hbase表中即可同时读取出表数据和索引数据。如图7所示,该表是一张“STUDENTS”Hbase表,左侧“ROW”下方方框中的数据即为保存的本地索引。
全局(Global)索引,索引数据和表数据是分开存储的,索引数据单独存放在一张Hbase表中,因此,需要读取两张Hbase表才能获取到表数据和索引数据。如图9(a)所示,该表是一张“STUDENTS”Hbase表,保存如主键、MOBILE、AGE等表数据;如图9(b)所示,该表为一张“STUDENTS”索引Hbase表,该表中单独保存“STUDENTS”的全局索引。
按照是否包含索引以及包含的索引类型的不同,可以将自动生成的Hbase表划分为三种类型,第一类是不包含索引且与Phoenix表同名的第一Hbase表,图5即为一张不包含索引的第一Hbase表;第二类是包含本地索引且与Phoenix表同名的第二Hbase表;第三类是包含全局索引且与全局索引的名称相同的第三Hbase表。
由于Hbase表包含多种类型,自动生成Hbase表的过程也有所不同。具体的,该过程分为如下几种情况:
①、未创建索引,则生成一张第一Hbase表。
②、如果创建的索引为本地索引,则生成一张第二Hbase表。
③、如果创建的索引为全局索引,则生成一张第一Hbase表,以及数量与创建的全局索引的数量相同的第三Hbase表。
④、如果创建的索引中同时包含本地索引和全局索引,则生成一张第二Hbase表,以及数量与创建的全局索引的数量相同的第三Hbase表。
当然,如果Phoenix中保存有之前建立的Phoenix表“STUDENTS”以及对应的Hbase表“STUDENTS”,则当再次导入“STUDENTS”数据文件时,无需再次建立“STUDENTS”Phoenix表,将本次“STUDENTS”数据文件导入前次建立的“STUDENTS”Hbase表即可。
在根据存储信息确定与Phoenix表对应的目标Hbase表的类型时,需要对是否创建索引以及创建的索引类型进行判断,这通过存储信息中是否包含索引名称来判断。
如果存储信息中不包含索引名称,则确定目标Hbase表为第一Hbase表。
如果存储信息中包含索引名称,由于本地索引和全局索引对应的Hbase表不同,还需要索引是全局索引还是本地索引。由于索引命名时不一定包含“LOCAL”或“GLOBAL”等字样,因此根据元数据系统表中的索引名称难以直接判断索引类型。判断索引类型的方法是根据存储信息中包含的至少一个索引名称查找Phoenix中是否存储与索引名称相同的Hbase表。
如果没有查找到与任何一个索引名称相同名称的Hbase表,则至少一个索引全部为本地索引,目标Hbase表为第二Hbase表。
如果查找到与至少一个索引名称中部分索引名称相同名称的Hbase表,则确定至少一个索引中同时包含本地索引和全局索引,目标Hbase表为一张第二Hbase表,以及数量与全局索引的数量相同的第三Hbase表。
如果查找到与至少一个索引名称中全部索引名称相同名称的Hbase表,则确定至少一个索引全部为全局索引,目标Hbase为一张第一Hbase表,以及数量与全局索引的数量相同的第三Hbase表。
步骤203、按照目标Hbase表的类型将数据文件转换为目标Hbase表对应的HDFS文件。
具体的,如果目标Hbase表中包括第一Hbase表,则按照第一Hbase表对应的HDFS文件的格式将数据文件转换为第一HDFS文件。
如果目标Hbase表中包括第二Hbase表,则按照第二Hbase表对应的HDFS文件的格式将数据文件转换为第二HDFS文件。
如果目标Hbase表中包括第三Hbase表,则按照第三Hbase表对应的HDFS文件的格式将数据文件转换为第三HDFS文件。
步骤204、将HDFS文件导入目标Hbase表对应的HDFS文件目录中。
在本申请实施例中,利用基于Hbase的bulkload的API将目标Hbase表导入HDFS目录下。通过指定API导入的Hbase的表名,则API可以直接将HDFS文件导入到该表名的Hbase表对应的HDFS文件目录下。
如果生成了第一HDFS文件,则将第一HDFS文件导入第一Hbase表对应的HDFS文件目录中。
如果生成了第二HDFS文件,则将第二HDFS文件导入第二Hbase表对应的HDFS文件目录中。
如果生成了第三HDFS文件,则将第三HDFS文件导入第三Hbase表对应的HDFS文件目录中。
在读取Phoenix的元数据系统表之前,还可以继承Spark的数据源相关的接口和类RelationProvider、CreatableRelationProvider和DataSourceRegister。上述接口和类定义了导入数据的算法规范,继承上述接口和类后,可以重定义上述接口和类的参数,以利用上述接口和类将本申请实施例中转换的Hbase表导入Phoenix。
重定义继承的接口和类中用于导入数据的算法shortName和createRelation,其中,重定义shortName算法返回的字符串,该字符串用于定义数据源的名称,在本申请实施例中,可将shortName定义为“HBASE”,与所需导入Phoenix的Hbase表对应。重定义creatRelation算法中sqlContext参数指示的Spark的sql上下文变量、mode参数指示的数据保存模式、parameters参数指示的外部传入的自定义参数以及data参数指示的待保存数据。其中,算法shortName和createRelation用于将目标Hbase表导入Phoenix中。数据的保存模式包括覆盖写或追加等。
本申请实施例中,根据Phoenix元数据系统表中存储的信息,确定数据文件导入的Hbase表的类型,并按照Hbase表的类型将数据文件转为为对应的HDFS文件,之后直接将HDFS文件导入HDFS文件目录下,从而实现数据文件快速导入Phoenix中,上述过程中不需要经过Spark与RegionServer频繁交互,导致Hbase的主节点region频繁的分裂(split)和压缩(compact)的过程,减少了数据导入Phoenix的过程中占用的计算资源和输入/输出IO资源,同时提高了导入效率。
如下给出了一种自定义Phoenix的数据源接口和类的代码示例:
创建自定义类
在上述自定义Phoenix的数据源接口和类完成后,可以将数据文件导入Phoenix,下面提供了一种导入的代码实例:
(1)、这里假设数据源为文件,文件内容如下,字段以竖线分隔,分别表示srcip、domain、accesstime。
113.248.234.232|www.baidu.com|2018-06-03 14:35:31
113.248.234.232|www.baidu.com|2018-06-03 14:36:31
115.248.158.231|www.qq.com|2020-07-12 13:22:13
115.248.158.231|www.tecent.com|2020-07-12 13:22:13
115.248.158.231|www.taobao.com|2020-07-12 13:22:13
187.248.135.230|www.google.com|2019-08-09 12:51:39
使用Spark读取上面的文件,并将文件的内容转换为Spark的DataFrame,变量名称为df,该df同时包含了字段信息,字段为:srcip、domain和accesstime,这些字段直接对应phoenix表的字段名称。
需要说明的是,DataFrame是spark中数据的一个不可变分布式集合,它包含数据和对应的schema信息,类似数据的表,例如dataframe的schema类似数据库的字段名。在spark中,对dataframe的操作是非常方便的,例如把dataframe注册为表,这样就可以写sql进行数据分析了。因此对数据源的加载读取,都是生成了dataframe,后续的数据处理就非常方便。
(2)、将(1)中生成的DataFrame导入到Phoenix
使用方式如下:
这里的df变量就是第二步生成的DataFrame集合变量。
df为类型为Dataframe的数据源变量。
在format中指定完整的包和类名。
在option中指定了表名和zookeeper的地址。
根据上述代码示例将数据源导入Phoenix后,其在Phoenix的存储如图10所示。
本申请实施例中还提供了一种数据导入Phoenix的装置,如图11所示,该装置1100包括查找模块1101、确定模块1102、转换模块1103和导入模块1104。
其中,查找模块1101,用于读取Phoenix的元数据系统表,查找数据文件导入的目标Hbase表对应的Phoenix表在元数据系统表中的存储信息。
确定模块1102,用于根据查找模块1101查找得到的存储信息确定与Phoenix表对应的目标Hbase表的类型。
转换模块1103,用于按照确定模块1102确定的目标Hbase表的类型将数据文件转换为目标Hbase表对应的HDFS文件。
导入模块1104,用于将转换模块1103转换得到的HDFS文件导入目标Hbase表对应的HDFS文件目录中。
在本申请实施例的一种实现方式中,装置1100还包括:
获取模块1105,用于获取用户对于索引的需求。
建表模块1106,用于创建Phoenix表,并根据获取模块1105获取的用户用于索引的需求确定创建索引以及创建的索引类型,或者不创建索引;当Phoenix表和/或索引创建完成后,Phoenix表的表名和/或索引名称映射至Phoenix元数据系统表中,Phoenix表和/或索引对应的Hbase表自动生成。
在本申请实施例的一种实现方式中,自动生成的Hbase表的类型包括三类,第一类是不包含索引且与Phoenix表同名的第一Hbase表,第二类是包含本地索引且与Phoenix表同名的第二Hbase表,第三类是包含全局索引且与全局索引的名称相同的第三Hbase表。
建表模块1106,用于:
如果未创建索引,则生成一张第一Hbase表;
如果创建的索引为本地索引,则生成一张第二Hbase表;
如果创建的索引为全局索引,则生成一张第一Hbase表,以及数量与创建的全局索引的数量相同的第三Hbase表;
如果创建的索引中同时包含本地索引和全局索引,则生成一张第二Hbase表,以及数量与创建的全局索引的数量相同的第三Hbase表。
在本申请实施例的一种实现方式中,确定模块1102,用于:
确定存储信息中是否包含索引名称;
如果不包含索引名称,则确定目标Hbase表为第一Hbase表;
如果包含至少一个索引名称,则根据每个索引名称查找Phoenix中是否存储与索引名称相同的Hbase表;
如果没有查找到与任何一个索引名称相同名称的Hbase表,则至少一个索引全部为本地索引,目标Hbase表为第二Hbase表;
如果查找到与至少一个索引名称中部分索引名称相同名称的Hbase表,则确定至少一个索引中同时包含本地索引和全局索引,目标Hbase表为一张第二Hbase表,以及数量与全局索引的数量相同的第三Hbase表;
如果查找到与至少一个索引名称中全部索引名称相同名称的Hbase表,则确定至少一个索引全部为全局索引,目标Hbase为一张第一Hbase表,以及数量与全局索引的数量相同的第三Hbase表。
在本申请实施例的一种实现方式中,转换模块1103,用于:
如果目标Hbase表中包括第一Hbase表,则按照第一Hbase表对应的HDFS文件的格式将数据文件转换为第一HDFS文件;
如果目标Hbase表中包括第二Hbase表,则按照第二Hbase表对应的HDFS文件的格式将数据文件转换为第二HDFS文件;
如果目标Hbase表中包括第三Hbase表,则按照第三Hbase表对应的HDFS文件的格式将数据文件转换为第三HDFS文件。
在本申请实施例的一种实现方式中,导入模块1104,用于:
将第一HDFS文件导入第一Hbase表对应的HDFS文件目录中;
将第二HDFS文件导入第二Hbase表对应的HDFS文件目录中;
将第三HDFS文件导入第三Hbase表对应的HDFS文件目录中。
在本申请实施例的一种实现方式中,装置1100还包括继承模块1107,用于:
继承Spark的数据源相关的接口和类RelationProvider、CreatableRelationProvider和DataSourceRegister;
重定义继承的接口和类中用于导入数据的算法shortName和createRelation,其中,重定义shortName算法返回的字符串;重定义creatRelation算法中sqlContext参数指示的上下文变量、mode参数指示的数据保存模式、parameters参数指示的外部传入的自定义参数以及data参数指示的待保存数据;
其中,算法shortName和createRelation用于将目标Hbase表导入Phoenix中。
本申请实施例中,根据Phoenix元数据系统表中存储的信息,确定数据文件导入的Hbase表的类型,并按照Hbase表的类型将数据文件转为为对应的HDFS文件,之后直接将HDFS文件导入HDFS文件目录下,从而实现数据文件快速导入Phoenix中,上述过程中不需要经过Spark与RegionServer频繁交互,导致Hbase的主节点region频繁的分裂(split)和压缩(compact)的过程,减少了数据导入Phoenix的过程中占用的计算资源和输入/输出IO资源,同时提高了导入效率。
本申请实施例中还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现步骤201至步骤204任一方法。
本申请实施例中还提供了一种计算机可读存储介质,计算机可读存储介质存储有执行步骤201至步骤204任一方法的计算机程序。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施例而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (16)
1.一种数据导入Phoenix的方法,其特征在于,所述方法包括:
读取Phoenix的元数据系统表,查找数据文件导入的目标Hbase表对应的Phoenix表在元数据系统表中的存储信息;
根据所述存储信息确定与Phoenix表对应的目标Hbase表的类型;
按照目标Hbase表的类型将数据文件转换为目标Hbase表对应的HDFS文件;
将HDFS文件导入目标Hbase表对应的HDFS文件目录中。
2.根据权利要求1所述的方法,其特征在于,在读取Phoenix的元数据系统表之前,所述方法还包括:
获取用户对于索引的需求;
创建Phoenix表,并根据用户用于索引的需求确定创建索引以及创建的索引类型,或者不创建索引;
当Phoenix表和/或索引创建完成后,Phoenix表的表名和/或索引名称映射至Phoenix元数据系统表中,Phoenix表和/或索引对应的Hbase表自动生成。
3.根据权利要求2所述的方法,其特征在于,自动生成的Hbase表的类型包括三类,第一类是不包含索引且与Phoenix表同名的第一Hbase表,第二类是包含本地索引且与Phoenix表同名的第二Hbase表,第三类是包含全局索引且与全局索引的名称相同的第三Hbase表;
所述Phoenix表和/或索引对应的Hbase表自动生成,包括:
如果未创建索引,则生成一张第一Hbase表;
如果创建的索引为本地索引,则生成一张第二Hbase表;
如果创建的索引为全局索引,则生成一张第一Hbase表,以及数量与创建的全局索引的数量相同的第三Hbase表;
如果创建的索引中同时包含本地索引和全局索引,则生成一张第二Hbase表,以及数量与创建的全局索引的数量相同的第三Hbase表。
4.根据权利要求3所述的方法,其特征在于,根据所述存储信息确定与Phoenix表对应的目标Hbase表的类型,包括:
确定所述存储信息中是否包含索引名称;
如果不包含索引名称,则确定目标Hbase表为第一Hbase表;
如果包含至少一个索引名称,则根据每个索引名称查找Phoenix中是否存储与索引名称相同的Hbase表;
如果没有查找到与任何一个索引名称相同名称的Hbase表,则所述至少一个索引全部为本地索引,目标Hbase表为第二Hbase表;
如果查找到与至少一个索引名称中部分索引名称相同名称的Hbase表,则确定所述至少一个索引中同时包含本地索引和全局索引,目标Hbase表为一张第二Hbase表,以及数量与全局索引的数量相同的第三Hbase表;
如果查找到与至少一个索引名称中全部索引名称相同名称的Hbase表,则确定所述至少一个索引全部为全局索引,目标Hbase为一张第一Hbase表,以及数量与全局索引的数量相同的第三Hbase表。
5.根据权利要求4所述的方法,其特征在于,所述将数据文件转换为目标Hbase表对应的HDFS文件,包括:
如果目标Hbase表中包括第一Hbase表,则按照第一Hbase表对应的HDFS文件的格式将数据文件转换为第一HDFS文件;
如果目标Hbase表中包括第二Hbase表,则按照第二Hbase表对应的HDFS文件的格式将数据文件转换为第二HDFS文件;
如果目标Hbase表中包括第三Hbase表,则按照第三Hbase表对应的HDFS文件的格式将数据文件转换为第三HDFS文件。
6.根据权利要求5所述的方法,其特征在于,将HDFS文件导入目标Hbase表对应的HDFS文件目录中,包括:
将第一HDFS文件导入第一Hbase表对应的HDFS文件目录中;
将第二HDFS文件导入第二Hbase表对应的HDFS文件目录中;
将第三HDFS文件导入第三Hbase表对应的HDFS文件目录中。
7.根据权利要求1所述的方法,其特征在于,在读取Phoenix的元数据系统表之前,所述方法还包括:
继承Spark的数据源相关的接口和类RelationProvider、CreatableRelationProvider和DataSourceRegister;
重定义继承的接口和类中用于导入数据的算法shortName和createRelation,其中,重定义shortName算法返回的字符串;重定义creatRelation算法中sqlContext参数指示的上下文变量、mode参数指示的数据保存模式、parameters参数指示的外部传入的自定义参数以及data参数指示的待保存数据;
其中,算法shortName和createRelation用于将目标Hbase表导入Phoenix中。
8.一种数据导入Phoenix的装置,其特征在于,所述装置包括:
查找模块,用于读取Phoenix的元数据系统表,查找数据文件导入的目标Hbase表对应的Phoenix表在元数据系统表中的存储信息;
确定模块,用于根据所述查找模块查找得到的所述存储信息确定与Phoenix表对应的目标Hbase表的类型;
转换模块,用于按照所述确定模块确定的目标Hbase表的类型将数据文件转换为目标Hbase表对应的HDFS文件;
导入模块,用于将转换模块转换得到的HDFS文件导入目标Hbase表对应的HDFS文件目录中。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
获取模块,用于获取用户对于索引的需求;
建表模块,用于创建Phoenix表,并根据所述获取模块获取的用户用于索引的需求确定创建索引以及创建的索引类型,或者不创建索引;当Phoenix表和/或索引创建完成后,Phoenix表的表名和/或索引名称映射至Phoenix元数据系统表中,Phoenix表和/或索引对应的Hbase表自动生成。
10.根据权利要求9所述的装置,其特征在于,自动生成的Hbase表的类型包括三类,第一类是不包含索引且与Phoenix表同名的第一Hbase表,第二类是包含本地索引且与Phoenix表同名的第二Hbase表,第三类是包含全局索引且与全局索引的名称相同的第三Hbase表;
建表模块,用于:
如果未创建索引,则生成一张第一Hbase表;
如果创建的索引为本地索引,则生成一张第二Hbase表;
如果创建的索引为全局索引,则生成一张第一Hbase表,以及数量与创建的全局索引的数量相同的第三Hbase表;
如果创建的索引中同时包含本地索引和全局索引,则生成一张第二Hbase表,以及数量与创建的全局索引的数量相同的第三Hbase表。
11.根据权利要求10所述的装置,其特征在于,所述确定模块,用于:
确定所述存储信息中是否包含索引名称;
如果不包含索引名称,则确定目标Hbase表为第一Hbase表;
如果包含至少一个索引名称,则根据每个索引名称查找Phoenix中是否存储与索引名称相同的Hbase表;
如果没有查找到与任何一个索引名称相同名称的Hbase表,则所述至少一个索引全部为本地索引,目标Hbase表为第二Hbase表;
如果查找到与至少一个索引名称中部分索引名称相同名称的Hbase表,则确定所述至少一个索引中同时包含本地索引和全局索引,目标Hbase表为一张第二Hbase表,以及数量与全局索引的数量相同的第三Hbase表;
如果查找到与至少一个索引名称中全部索引名称相同名称的Hbase表,则确定所述至少一个索引全部为全局索引,目标Hbase为一张第一Hbase表,以及数量与全局索引的数量相同的第三Hbase表。
12.根据权利要求11所述的装置,其特征在于,所述转换模块,用于:
如果目标Hbase表中包括第一Hbase表,则按照第一Hbase表对应的HDFS文件的格式将数据文件转换为第一HDFS文件;
如果目标Hbase表中包括第二Hbase表,则按照第二Hbase表对应的HDFS文件的格式将数据文件转换为第二HDFS文件;
如果目标Hbase表中包括第三Hbase表,则按照第三Hbase表对应的HDFS文件的格式将数据文件转换为第三HDFS文件。
13.根据权利要求12所述的装置,其特征在于,所述导入模块,用于:
将第一HDFS文件导入第一Hbase表对应的HDFS文件目录中;
将第二HDFS文件导入第二Hbase表对应的HDFS文件目录中;
将第三HDFS文件导入第三Hbase表对应的HDFS文件目录中。
14.根据权利要求8所述的装置,其特征在于,所述装置还包括继承模块,用于:
继承Spark的数据源相关的接口和类RelationProvider、CreatableRelationProvider和DataSourceRegister;
重定义继承的接口和类中用于导入数据的算法shortName和createRelation,其中,重定义shortName算法返回的字符串;重定义creatRelation算法中sqlContext参数指示的上下文变量、mode参数指示的数据保存模式、parameters参数指示的外部传入的自定义参数以及data参数指示的待保存数据;
其中,算法shortName和createRelation用于将目标Hbase表导入Phoenix中。
15.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一所述方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至7任一所述方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911255635.5A CN111125216B (zh) | 2019-12-10 | 2019-12-10 | 数据导入Phoenix的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911255635.5A CN111125216B (zh) | 2019-12-10 | 2019-12-10 | 数据导入Phoenix的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111125216A true CN111125216A (zh) | 2020-05-08 |
CN111125216B CN111125216B (zh) | 2024-03-12 |
Family
ID=70497854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911255635.5A Active CN111125216B (zh) | 2019-12-10 | 2019-12-10 | 数据导入Phoenix的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111125216B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364019A (zh) * | 2020-11-04 | 2021-02-12 | 中盈优创资讯科技有限公司 | 一种自定义Spark数据源实现数据快速写入ClickHouse的方法和装置 |
CN113190563A (zh) * | 2021-06-30 | 2021-07-30 | 阿里云计算有限公司 | 索引生成方法、设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110161375A1 (en) * | 2009-12-24 | 2011-06-30 | Doug Tedder | Systems, methods and articles for template based generation of markup documents to access back office systems |
CN103020315A (zh) * | 2013-01-10 | 2013-04-03 | 中国人民解放军国防科学技术大学 | 一种基于主从分布式文件系统的海量小文件存储方法 |
US20150317701A1 (en) * | 2010-11-05 | 2015-11-05 | Market Data Service Llc | Systems and methods for searching for and translating real estate descriptions from diverse sources utilizing an operator-based product definition |
CN105930446A (zh) * | 2016-04-20 | 2016-09-07 | 重庆重邮汇测通信技术有限公司 | 一种基于Hadoop分布式技术的电信客户标签生成方法 |
WO2016202199A1 (zh) * | 2015-06-18 | 2016-12-22 | 阿里巴巴集团控股有限公司 | 分布式文件系统及其文件元信息管理方法 |
WO2017096939A1 (zh) * | 2015-12-10 | 2017-06-15 | 深圳市华讯方舟软件技术有限公司 | 一种在基于HDFS的spark-sql大数据处理系统上建立索引的方法 |
CN106960020A (zh) * | 2017-03-09 | 2017-07-18 | 星环信息科技(上海)有限公司 | 一种创建索引表的方法及设备 |
US20170277708A1 (en) * | 2016-03-22 | 2017-09-28 | Tata Consultancy Services Limited | Systems and methods for de-normalized data structure files based generation of intelligence reports |
CN107544090A (zh) * | 2017-09-11 | 2018-01-05 | 中国石油大学(华东) | 一种基于MapReduce的地震数据解析存储方法 |
CN109101516A (zh) * | 2017-11-30 | 2018-12-28 | 新华三大数据技术有限公司 | 一种数据查询方法和服务器 |
CN109918393A (zh) * | 2019-01-28 | 2019-06-21 | 武汉慧联无限科技有限公司 | 物联网的数据平台及其数据查询和多表联合查询方法 |
WO2019178979A1 (zh) * | 2018-03-21 | 2019-09-26 | 平安科技(深圳)有限公司 | 报表数据查询方法、装置、存储介质和服务器 |
-
2019
- 2019-12-10 CN CN201911255635.5A patent/CN111125216B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110161375A1 (en) * | 2009-12-24 | 2011-06-30 | Doug Tedder | Systems, methods and articles for template based generation of markup documents to access back office systems |
US20150317701A1 (en) * | 2010-11-05 | 2015-11-05 | Market Data Service Llc | Systems and methods for searching for and translating real estate descriptions from diverse sources utilizing an operator-based product definition |
CN103020315A (zh) * | 2013-01-10 | 2013-04-03 | 中国人民解放军国防科学技术大学 | 一种基于主从分布式文件系统的海量小文件存储方法 |
WO2016202199A1 (zh) * | 2015-06-18 | 2016-12-22 | 阿里巴巴集团控股有限公司 | 分布式文件系统及其文件元信息管理方法 |
WO2017096939A1 (zh) * | 2015-12-10 | 2017-06-15 | 深圳市华讯方舟软件技术有限公司 | 一种在基于HDFS的spark-sql大数据处理系统上建立索引的方法 |
US20170277708A1 (en) * | 2016-03-22 | 2017-09-28 | Tata Consultancy Services Limited | Systems and methods for de-normalized data structure files based generation of intelligence reports |
CN105930446A (zh) * | 2016-04-20 | 2016-09-07 | 重庆重邮汇测通信技术有限公司 | 一种基于Hadoop分布式技术的电信客户标签生成方法 |
CN106960020A (zh) * | 2017-03-09 | 2017-07-18 | 星环信息科技(上海)有限公司 | 一种创建索引表的方法及设备 |
CN107544090A (zh) * | 2017-09-11 | 2018-01-05 | 中国石油大学(华东) | 一种基于MapReduce的地震数据解析存储方法 |
CN109101516A (zh) * | 2017-11-30 | 2018-12-28 | 新华三大数据技术有限公司 | 一种数据查询方法和服务器 |
WO2019178979A1 (zh) * | 2018-03-21 | 2019-09-26 | 平安科技(深圳)有限公司 | 报表数据查询方法、装置、存储介质和服务器 |
CN109918393A (zh) * | 2019-01-28 | 2019-06-21 | 武汉慧联无限科技有限公司 | 物联网的数据平台及其数据查询和多表联合查询方法 |
Non-Patent Citations (2)
Title |
---|
田秀劳;柳华勃;廖聪;井光文;梁小江;王贝贝;张正军;徐嘉驰;: "Phoenix+HBase存储仓库在流动人口统计中的应用", 西安邮电大学学报 * |
马振;哈力旦・阿布都热依木;李希彤;: "海量样本数据集中小文件的存取优化研究", 计算机工程与应用 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364019A (zh) * | 2020-11-04 | 2021-02-12 | 中盈优创资讯科技有限公司 | 一种自定义Spark数据源实现数据快速写入ClickHouse的方法和装置 |
CN112364019B (zh) * | 2020-11-04 | 2022-10-04 | 中盈优创资讯科技有限公司 | 一种自定义Spark数据源实现数据快速写入ClickHouse的方法和装置 |
CN113190563A (zh) * | 2021-06-30 | 2021-07-30 | 阿里云计算有限公司 | 索引生成方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111125216B (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11475034B2 (en) | Schemaless to relational representation conversion | |
CN107038207B (zh) | 一种数据查询方法、数据处理方法及装置 | |
CN107247808B (zh) | 一种分布式NewSQL数据库系统及图片数据查询方法 | |
CN110019218B (zh) | 数据存储与查询方法及设备 | |
US8601474B2 (en) | Resuming execution of an execution plan in a virtual machine | |
CN105989150B (zh) | 一种基于大数据环境的数据查询方法及装置 | |
KR20170019352A (ko) | 데이터 질의 방법 및 장치 | |
WO2017019879A1 (en) | Multi-query optimization | |
CN110175174A (zh) | 一种数据查询方法、装置、设备及存储介质 | |
CN116628066B (zh) | 数据传输方法、装置、计算机设备和存储介质 | |
CN113468204A (zh) | 一种数据查询方法、装置、设备、介质 | |
CN111125216B (zh) | 数据导入Phoenix的方法及装置 | |
CN114297204A (zh) | 一种异构数据源的数据存储、检索方法及装置 | |
US11080332B1 (en) | Flexible indexing for graph databases | |
CN115952203B (zh) | 数据查询方法、设备、系统及存储介质 | |
CN110569243B (zh) | 一种数据查询方法、数据查询插件和数据查询服务器 | |
CN111767287A (zh) | 数据导入方法、装置、设备及计算机存储介质 | |
CN116010345A (zh) | 一种实现流批一体数据湖的表服务方案的方法、装置及设备 | |
CN113448969B (zh) | 数据处理方法、设备及存储介质 | |
US20170031909A1 (en) | Locality-sensitive hashing for algebraic expressions | |
CN114547083A (zh) | 数据处理方法、装置及电子设备 | |
CN113821514A (zh) | 数据拆分方法、装置、电子设备和可读存储介质 | |
CN110222105B (zh) | 数据汇总处理方法及装置 | |
CN112749189A (zh) | 数据查询方法及装置 | |
US12079179B2 (en) | Systems, methods, and media for accessing derivative properties from a post relational database utilizing a logical schema instruction that includes a base object identifier |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |