CN104915450A - 一种基于HBase的大数据存储与检索方法及系统 - Google Patents
一种基于HBase的大数据存储与检索方法及系统 Download PDFInfo
- Publication number
- CN104915450A CN104915450A CN201510376791.2A CN201510376791A CN104915450A CN 104915450 A CN104915450 A CN 104915450A CN 201510376791 A CN201510376791 A CN 201510376791A CN 104915450 A CN104915450 A CN 104915450A
- Authority
- CN
- China
- Prior art keywords
- data
- hbase
- rowkey
- character
- retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2219—Large Object storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于HBase的大数据存储与检索方法及系统,本发明基于数据文件字段映射表,利用HBase Thrift客户端,通过定义好的RowKey表达式生成行键,将按行存储的数据导入到HBase数据库中。在保持一致性的前提下,将数据对象的多特征值按照多种组合方式加入形成行键,与普通列值数据组成HBase数据行,按不同行键组成方式存放在多张HBase数据表中,进行多特征值数据检索时根据行键中的几个特征值匹配可快速得到模糊结果集,对模糊结果集进一步采用filter过滤以得到最终精确结果集合。研究结果能够适用于不同类型的数据文件到目的HBase数据库的大数据转换存储过程,具有较强的通用性,按照多特征值组合方式形成行键存储数据,能提供快速的数据检索接口,达到快速检索的目的。
Description
技术领域
本发明属于大数据存储技术领域,涉及一种大数据的分布式存储、转化和检索方法及系统。其目标是实现按行存储的数据文件转化到HBase的分布式数据库存储同时对HBase中的大数据进行快速检索与访问。
背景技术
按行存储的数据文件转化存储到HBase的相关文献较少,将不同类型数据迁移整合到HBase中通常有以下三种方式:一是利用HBase接口编写专用程序实现数据对接;二是使用bulk load等工具完成数据导入;三是编写MapReduce程序向HBase导入数据。这三种方式都存在通用性差、使用环境受限以及操作复杂度高等问题,需要开发一种通用数据抽取转化技术以达到利用HBase存储大数据及快速访问数据的目的。
国内外关于HBase快速访问技术的研究较多,目前应用较多的是建立索引。马友忠、孟小峰等在《云数据管理索引技术研究》对当前HBase中的索引技术进行了综述,比较了几种索引技术的特点与应用情况;张榆、马友忠等在《一种基于HBase的高效空间关键字查询策略》中提出了利用Z曲线对空间数据进行降维编码,通过有效的数据分配策略对空间文本对象的空间信息和文本信息同时进行索引;孟辉、朱美正等在《基于Hadoop的矢量空间数据库技术》中提出了矢量空间数据从关系数据库到分布式NoSQL数据库的存储优化方法;罗芳、李春花等人在《基于多属性的海量WEB数据关联存储及检索系统》中描述了海量WEB数据多属性关联存储及检索方法,解决了基于HBase动态属性多条件查询的辅助索引问题。索引技术能大大提高检索速度,缺点是维护较复杂。还有一些研究从各自应用领域数据存储的特点出发,对分布式数据库的存储与检索提出了相应的优化方案,取得了较好的效果,然而由于优化是针对特定应用环境,因此通用性不强。
在按行存取的数据文件中,通常一行数据包含的内容较多,且每一类数据文件定义方式不同,文件头部或尾部通常包含一些文件属性信息,如时间、文件类型、版本信息等。而每一行通常按列存储具体数据信息,这些列中有一些是标识和区分各数据行的属性信息,如时间、坐标、编号等,另一些则是对应的字段数值。检索需要的数据,通常是要找出所有与指定属性信息相匹配的数据行,这些属性信息列称为特征值。HBase中的数据按RowKey进行存取。由于源数据文件结构、字段名称、类型各不相同,且数据项存储方式也有不同,像这样的数据转换导入,利用现有的HBase导入工具如bulk loader是很难实现的。通常解决类似问题,必须由程序员编写特定的程序来完成数据抽取导入,然而这种程序一般只能适用于特定的源数据文件到目的表的导入,如果源数据文件类型或目的表发生了变化则程序就不再适用了。因此,实现按行存储的文件数据到HBase分布式数据库的通用转换存储,需要解决的技术问题是如何根据不同文件中的数据在指定目的表生成需要的HBase行RowKey,同时,要保证HBase中每一行的RowKey具有唯一性,并且采用一定的优化方法以便快速检索与访问。
发明内容
为了解决上述的技术问题,本发明提供了一种实现按行存储的数据文件转化到HBase的分布式数据库存储同时对HBase中的大数据进行快速检索与访问的方法及系统。
本发明的方法所采用的设计方案是:一种基于HBase的大数据存储与检索方法,其特征在于,包括以下步骤:
步骤1:创建源数据文件描述对象,采用映射表存储源数据文件字段与目的HBase表数据列的对应关系;
步骤2:定义RowKey生成表达式,表达式抽象描述了HBase数据行RowKey的生成方法;根据预设好的RowKey表达式规则,在执行导入时从文件名、字段名、字段值等信息中提取需要的字符,通过简单的截取、格式化等处理,自动形成格式统一的唯一RowKey;
步骤3:根据检索访问的需要,设置RowKey生成表达式中提取字符的先后顺序,方便在进行数据检索时满足特征值与RowKey前缀匹配,提高访问速度。
作为优选,步骤1的具体实现包括以下子步骤:
步骤1.1:定义数据文件对象字段映射表;
所述的映射表用于定义HBase大数据转化存储适用的对象、导入数据时文件对象字段与HBase列的映射关系以及具体转化存储导入执行方案,所述的映射表由三种数据结构组成,一种数据结构描述数据文件对象基础属性信息,一种数据结构描述数据文件对象数据行包含的字段与HBase列的映射关系,一种数据结构描述转化存储导入执行方案;
所述的描述数据文件对象的数据结构请见下表1;
表1 描述数据文件对象的数据结构
数据项 | 类型 | 描述 | 备注 |
MODEL_ID | String | 数据文件标识符 | 唯一、非空 |
MODEL_NAME | String | 数据文件名称 | |
COLUMN_COUNT | Int | 字段数量 | |
MODEL_MEMO | String | 数据文件描述 |
其中所述的数据文件对象是HBase大数据转化存储的数据源;
所述的描述数据文件对象数据行包含的字段与HBase行的映射关系的数据结构请见下表2;
表2 数据文件对象数据行包含的字段与HBase行的映射关系的数据结构
所述的数据文件对象字段与HBase列映射关系是对数据文件对象所包含字段的详细描述,每一数据结构描述了一种字段映射关系,一个数据文件对象可以包含多个字段映射关系;
所述的描述转化存储导入方案的数据结构请见下表3;
表3 转化存储导入执行方案的数据结构
在表2中所描述的映射关系以及在表3中所描述的转化存储导入执行方案通过数据项MODEL_ID与表1中定义的数据文件对象建立关联;由于一个数据文件可以包含多个列映射关系,一次执行可同时对应多个转化存储导入执行方案,因此表1中定义的数据结构和表2及表3中定义的数据结构是一对多的关系;
步骤1.2:基于映射表的HBase数据转化存储,其具体实现流程包括以下子步骤:
步骤1.2.1:设置数据文件对象字段映射表,设置转化存储导入执行方案;
步骤1.2.2:打开行存储数据文件,检索映射表,并判断目的HBase服务器数据库是否可用;
若是,则执行下述步骤1.2.3;
若否,则结束,本流程结束;
步骤1.2.3:连接目的HBase数据库;
步骤1.2.4:判断文件读取是否结束;
若是,则结束,本流程结束;
若否,则执行下述步骤1.2.5;
步骤1.2.5:读取源文件中的下一行数据;
步骤1.2.6:判断全部转化存储导入方案是否执行完毕;
若是,则回转执行所述的步骤1.2.4;
若否,则执行下述步骤1.2.7;
步骤1.2.7:执行下一个转化存储导入方案;
步骤1.2.8:按RowKey表达式生成行键;
步骤1.2.9:生成写入HBase并执行,然后回转执行所述的步骤1.2.6。
作为优选,步骤1.2.8中所述的RowKey表达式为一套编码与解码规则,HBase中的RowKey包含特征值,通过对RowKey组成字符来源的抽象和约定,在按规则定义好RowKey表达式后,执行数据转换时解析表达式,自动从指定位置提取多个特征值字符,经过一定形式的转化后组合成为RowKey;
其中所述的按规则定义好RowKey表达式,具体为导入HBase中每行数据行键是将固定字符、字段名称字符、字段名称值按RowKey表达式进行运算后生成的;RowKey表达式规则描述请见下表4;
表4:RowKey表达式规则描述
步骤1.2.8中所述的按RowKey表达式生成行键,其具体实现流程包括以下子步骤:
步骤1.2.8.1:读取行键表达式字符串,并将字符串分解为字符集合EXP;
步骤1.2.8.2:初始化变量:结果字符串SR=””,状态变量ST=””,转义控制符TB=false,字符串控制符SB=false,临时缓存字符串TMP,循环控制变量i=0,遍历行键表达式字符集合EXP:
①判断转义控制符TB,为false表示处于非转义状态,转②;为true表示处于转义状态,转③;
②判断字符EXP[i]是否为’[’,是则表示转义开始,将TB置为true,否则将EXP[i]添加到结果字符串SR,然后转⑧;
③判断字符EXP[i]是否为’]’,是则表示转义结束,将TB置为false,TMP添加到结果字符串SR,然后转⑧;否则转④;
④判断字符串控制符SB,为true表示处于字符状态,此时若EXP[i]为””表示字符状态结束,SB置为false,否则将EXP[i]添加到临时缓存字符串TMP中,然后转⑧;SB为false则转⑤继续判断;
⑤判断字符EXP[i]是否为””,是则表示开启字符状态,SB置为true,然后转⑧;否则判断是否是符号字符,如果字符是’F’,取文件名放入缓存字符串TMP,如果是’C’、’V’、’S’或’T’中的一个,则将状态变量ST设置为相应字符,然后转⑧;如果都不是则转⑥;
⑥当EXP[i]为’)’时,表示一个带参数的符号结束,此时根据状态变量ST中记录的符号类型,’C’则取列名称放入TMP、’V’则取列值放入TMP、’S’则将缓存字符串TMP按参数截取、’T’则将缓存字符串按参数格式调用String.Tostring(format)方法进行格式化,结束后转⑧;
⑦对于无法判断的字符EXP[i],跳过转⑧;
⑧i=i+1,如果i小于等于字符集合EXP的长度,则转①,否则循环结束;
步骤1.2.8.3:返回行键结果字符串SR。
作为优选,步骤3的中将检索时用到的特征属性存放在RowKey中,将常用检索特征属性放在RowKey先前位置,针对多种检索特征属性采用多个对应RowKey规则,冗余存储数据,实现基于特征值的HBase大数据快速检索与访问;步骤3中数据检索方法具体包括以下2种;
方法一:前缀匹配检索法;
HBase中的大数据按RowKey字典顺序存放数据,因此按RowKey前缀匹配检索是效率最高的检索方式,在设计HBase数据行RowKey时将常用检索特征放在RowKey靠前位置;
方法二:特征值匹配检索法;
检索RowKey与特征值匹配的数据行,得到模糊结果集,然后对模糊结果集进一步采用HBase中的filter过滤得到最终精确结果集合;
根据快速检索访问的需要,设置RowKey生成表达式中提取字符的先后顺序,因此在进行数据检索时满足特征值与RowKey前缀匹配,由此来提高检索速度。
本发明的系统所采用的技术方案是:一种基于HBase的大数据存储与检索系统,其特征在于:包括数据文件管理模块、数据列管理模块、数据导入执行模块、前缀检索模块和特征值检索模块;
所述的数据文件管理模块用于在执行行列数据转换导入之前创建数据文件对象;
所述的数据列管理模块用于在完成数据文件对象的创建后,采用映射表存储源数据文件字段与目的HBase表数据列的对应关系,对该数据文件包含的列进行管理;
所述的数据导入执行模块用于创建导入规则和执行导入操作;
所述的前缀检索模块和特征值检索模块用于执行检索访问操作。
本发明基于数据文件与HBase映射表,利用Thrift客户端访问HBase数据库,将按行存储的数据经过转化后存储到HBase。将数据对象的多特征属性优化组合形成行键,与普通列值数据冗余存放在多张HBase数据表中,进行多特征值数据检索时根据行键中的几个特征值匹配可快速得到模糊结果集,对模糊结果集进一步采用filter过滤得到最终精确结果集合。本发明结果能够适用于大多数情况下文件数据从按行存储到HBase单行或多行存储以及在不同应用环境下按特征值快速检索与访问数据。本发明通过国家重大专项--流域水环境风险评估与预警技术研究与工程示范项目“三峡库区及上游流域水环境风险评估与预警技术研究与示范”课题的模型计算数据存储与检索和湖北省重大科技创新计划项目“基于云计算的智慧城市大数据处理及服务关键技术研发"项目中视频数据的存储与检索实验,取得了很好的存储效率与检索效果。虽然两者的数据格式和类型不一致,但该方法同样适用,由此可见其通用性。在未来分布式NoSQL数据库大数据存储于检索中有着广阔的应用前景,可发展为一种具有商用大数据存储与高速检索管理工具。
附图说明
图1:本发明实施例的基于映射表的HBase数据转化存储流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供的一种基于HBase的大数据存储与检索方法,包括以下步骤:
步骤1:创建源数据文件描述对象,采用映射表存储源数据文件字段与目的HBase表数据列的对应关系;具体实现包括以下子步骤:
步骤1.1:定义数据文件对象字段映射表;
所述的映射表用于定义HBase大数据转化存储适用的对象、导入数据时文件对象字段与HBase列的映射关系以及具体转化存储导入方案,所述的映射表由三种数据结构组成,一种数据结构描述数据文件对象,一种数据结构描述数据文件对象字段与HBase行的映射关系,一种数据结构描述转化存储导入方案;
所述的描述数据文件对象的数据结构请见下表1;
表1 数据文件对象的数据结构
数据项 | 类型 | 描述 | 备注 |
MODEL_ID | String | 数据文件标识符 | 唯一、非空 |
MODEL_NAME | String | 数据文件名称 | |
COLUMN_COUNT | Int | 字段数量 | |
MODEL_MEMO | String | 数据文件描述 |
其中所述的数据文件对象是HBase大数据转化存储的数据源;
所述的描述数据文件对象字段与HBase行的映射关系的数据结构请见下表2;
表2 数据文件对象字段与HBase行的映射关系的数据结构
所述的数据文件对象字段与HBase列映射关系是对数据文件对象所包含字段的详细描述,每一数据结构描述了一种字段映射关系,一个数据文件对象可以包含多个字段映射关系;
所述的描述转化存储导入方案的数据结构请见下表3;
转化存储执行导入执行方案是对数据转化存储执行细节的定义。一次转化存储周期以打开一个数据文件对象为开始,为提高执行效率,一次可执行多个不同的执行方案,以实现数据文件中的一行数据拆分为多个HBase数据行,或将数据按不同映射规则导入不同HBase实例;
在表2中所描述的映射关系以及在表3中所描述的转化存储导入执行方案通过数据项MODEL_ID与表1中定义的数据文件对象建立关联;由于一个数据文件可以包含多个列映射关系,一次执行可同时对应多个转化存储导入执行方案,因此表1中定义的数据结构和表2及表3中定义的数据结构是一对多的关系;
步骤1.2:基于映射表的HBase数据转化存储,请见图1,其具体实现流程包括以下子步骤:
步骤1.2.1:设置数据文件对象字段映射表,设置转化存储导入方案;
步骤1.2.2:打开行存储数据文件,检索映射表,并判断目的HBase服务器数据库是否可用;
若是,则执行下述步骤1.2.3;
若否,则结束,本流程结束;
步骤1.2.3:连接目的HBase服务器数据库;
步骤1.2.4:判断文件读取是否结束;
若是,则结束,本流程结束;
若否,则执行下述步骤1.2.5;
步骤1.2.5:读取源文件中的下一行数据;
步骤1.2.6:判断全部转化存储导入方案是否执行完毕;
若是,则回转执行所述的步骤1.2.4;
若否,则执行下述步骤1.2.7;
步骤1.2.7:执行下一个转化存储导入方案;
步骤1.2.8:按RowKey表达式生成行键;RowKey表达式为一套编码与解码规则,HBase中的RowKey包含特征值,通过对RowKey组成字符来源的抽象和约定,在按规则定义好RowKey表达式后,执行数据转换时解析表达式,自动从指定位置提取多个特征值字符,经过一定形式的转化后组合成为RowKey;
其中所述的按规则定义好RowKey表达式,具体为导入HBase中每行数据行键是将固定字符、字段名称字符、字段名称值按RowKey表达式进行运算后生成的;RowKey表达式规则描述请见下表4;
表4:RowKey表达式规则描述
步骤1.2.8中所述的按RowKey表达式生成行键,其具体实现流程包括以下子步骤:
步骤1.2.8.1:读取行键表达式字符串,并将字符串分解为字符集合EXP;
步骤1.2.8.2:初始化变量:结果字符串SR=””,状态变量ST=””,转义控制符TB=false,字符串控制符SB=false,临时缓存字符串TMP,循环控制变量i=0,遍历行键表达式字符集合EXP:
①判断转义控制符TB,为false表示处于非转义状态,转②;为true表示处于转义状态,转③;
②判断字符EXP[i]是否为’[’,是则表示转义开始,将TB置为true,否则将EXP[i]添加到结果字符串SR,然后转⑧;
③判断字符EXP[i]是否为’]’,是则表示转义结束,将TB置为false,TMP添加到结果字符串SR,然后转⑧;否则转④;
④判断字符串控制符SB,为true表示处于字符状态,此时若EXP[i]为””表示字符状态结束,SB置为false,否则将EXP[i]添加到临时缓存字符串TMP中,然后转⑧;SB为false则转⑤继续判断;
⑤判断字符EXP[i]是否为””,是则表示开启字符状态,SB置为true,然后转⑧;否则判断是否是符号字符,如果字符是’F’,取文件名放入缓存字符串TMP,如果是’C’、’V’、’S’或’T’中的一个,则将状态变量ST设置为相应字符,然后转⑧;如果都不是则转⑥;
⑥当EXP[i]为’)’时,表示一个带参数的符号结束,此时根据状态变量ST中记录的符号类型,’C’则取列名称放入TMP、’V’则取列值放入TMP、’S’则将缓存字符串TMP按参数截取、’T’则将缓存字符串按参数格式调用String.Tostring(format)方法进行格式化,结束后转⑧;
⑦对于无法判断的字符EXP[i],跳过转⑧;
⑧i=i+1,如果i小于等于字符集合EXP的长度,则转①,否则循环结束;
步骤1.2.8.3:返回行键结果字符串SR;
步骤1.2.9:生成写入HBase并执行,然后回转执行所述的步骤1.2.6。
步骤2:定义RowKey生成表达式,表达式描述了HBase数据行RowKey的生成方法;从文件名、字段名、字段值等信息中提取需要的字符,通过简单的截取、格式化等处理,自动形成格式统一的唯一RowKey;
步骤3:根据检索访问的需要,设置RowKey生成表达式中提取字符的先后顺序,方便在进行数据检索时满足特征值与RowKey前缀匹配,提高访问速度。
HBase中的数据行按RowKey顺序存储,通过RowKey匹配检索数据能获得较快的响应速度,如果通过数据列匹配查询则需要进行全表扫描,效率较低。因此,要实现基于特征值的HBase大数据快速检索与访问,一定要将检索时用到的特征属性存放在RowKey中。另外,满足RowKey最长前缀匹配,即:检索时输入的特征值尽量匹配RowKey的前若干个字符时,通过调用HBase中scanwithprefix接口获得最快的检索速度。因此,本技术将常用检索特征属性放在RowKey先前位置,或针对多种检索特征属性采用多个对应RowKey规则,冗余存储数据,实现基于特征值的HBase大数据快速检索与访问,具体方法包括以下几方面:
(1)海量数据多特征值索引存储方案;
根据HBase的特点对数据存储方式进行优化设计。在保持一致性的前提下,将数据对象的多特征属性按照检索要求组合形成行键与普通列值数据冗余存放在一张或多张HBase数据表中。进行多特征值数据检索时根据行键中的几个特征值匹配可快速得到模糊结果集,若特征值检索无法满足要求,对模糊结果集进一步采用filter过滤以得到最终精确结果集合。
(2)多特征值RowKey生成规则;
HBase按照RowKey字典序来存放数据,为了尽可能提高多关键字查询的效率,本技术提出按照特征值检索方式生成RowKey,将常用检索特征生成RowKey时放在靠前位置。例如,表5所示多特征属性数据集,若按照特征3进行检索则按照表6生成RowKey并组织数据存储。
表5 多特征属性数据集
表6 HBase表结构
通过这种方式,能够将同一特征值相近的数据尽可能存储在一起,查询时能够方便通过RowKey前缀匹配进行过滤,对过滤结果进行再次筛选以得到最终结果集,避免频繁采取全表扫描方式检索数据,从而提高查询的效率。
(3)快速检索与访问方法,具体包括以下两类;
方法一:前缀匹配检索法;
HBase Thrift客户端提供了支持多种语言的数据访问接口。由于HBase按RowKey字典顺序存放数据,因此按RowKey前缀匹配检索是效率最高的检索方式。在打开的HClient实例中指定目标表,直接调用Scan方法既可得到结果集。
方法二:特征值匹配检索法;
根据前面的多特征值RowKey生成规则,对于在检索中使用的特征属性,在设计HBase表结构时,将常用检索特征放在RowKey靠前位置。因此在检索时,首先找到检索特征值靠前的HBase表,同样利用前缀匹配方式过滤数据,如果是多特征值匹配,则调用Scan方法,设置rowfilter进行数据检索。
根据快速检索访问的需要,设置RowKey生成表达式中提取字符的先后顺序,因此在进行数据检索时满足特征值与RowKey前缀匹配,由此来提高检索速度。
本发明提供的一种基于HBase的大数据存储与检索系统,包括数据文件管理模块、数据列管理模块、数据导入执行模块、前缀检索模块和特征值检索模块;
数据文件管理模块用于在执行行列数据转换导入之前创建数据文件对象;
数据列管理模块用于在完成数据文件对象的创建后,采用映射表存储源数据文件字段与目的HBase表数据列的对应关系,对该数据文件包含的列进行管理;
数据导入执行模块用于创建导入规则和执行导入操作;
(1)创建导入规则。本实施例中的RowKey表达式["T"F.S(9,1)"I"V(1).T("000")"J"V(2).T("000")"K1"]对应的RowKey生成规则是:取固定字符T、从文件名第9个字符开始截取1个字符、取固定字符I、取第1列的值并转化为数字格式”000”、取固定字符J、取第2列的值并转化为数字格式”000”、取固定字符K1。转换时,第1行数据按RowKey生成算法生成的RowKey就应该是”T1I015J137K1”。
(2)执行导入操作;为满足快速检索的需要,通常对单个类型的数据文件创建多个导入规则,设置RowKey表达式时,按检索需求排列所提取特征值的顺序,例如RowKey表达式["T"F.S(9,1)"I"V(1).T("000")"J"V(2).T("000")"K1"]适合快速检索TxIxxx开头,JxxxKx未指定的数据;而RowKey表达式["K1""T"F.S(9,1)"J"V(2).T("000")"I"V(1).T("000")]适合快速检索KxTxJxxx开头,Ixxx未指定的数据。
前缀检索模块和特征值检索模块用于执行检索访问操作。本实施例的RowKey前缀匹配查询在大数据检索中效率较高,从千万条数据级别的HBase表中检索出数千条匹配数据的时间不超过1秒;按RowKey特征值查询在大数据检索中也能获得不错的效果,随着数据量级的增大,查询速度呈几何倍数领先于传统关系型数据库,但效率略低于前缀匹配查询。
本发明基于数据文件字段映射表,利用HBase Thrift客户端,通过定义好的RowKey表达式生成行键,将按行存储的数据导入到HBase数据库中。在保持一致性的前提下,将数据对象的多特征值按照多种组合方式加入形成行键,与普通列值数据组成HBase数据行,按不同行键组成方式存放在多张HBase数据表中,进行多特征值数据检索时根据行键中的几个特征值匹配可快速得到模糊结果集,对模糊结果集进一步采用filter过滤以得到最终精确结果集合。研究结果表明本发明能够适用于不同类型的数据文件到目的HBase数据库的大数据转换存储过程,具有较强的通用性,按照多特征值组合方式形成行键存储数据,能提供快速的数据检索接口,达到快速访问的目的。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (5)
1.一种基于HBase的大数据存储与检索方法,其特征在于,包括以下步骤:
步骤1:同一类型或格式的源数据文件创建一个数据文件描述对象,创建映射表存储源数据文件字段与目的HBase表数据列的对应关系;
步骤2:定义RowKey生成表达式,表达式抽象描述了将源数据文件中的数据存储到HBase时,HBase数据行RowKey的生成方法;表达式定义好后,在执行转换时,系统根据表达式预定规则,从文件名、字段名、字段值等基础信息中提取需要的字符并经过一定转换后得到特征值,组合后形成格式统一的唯一RowKey;
步骤3:根据检索访问的需要,设置RowKey生成表达式中提取字符的先后顺序,方便在进行数据检索时满足特征值与RowKey前缀匹配,提高访问速度。
2.根据权利要求1所述的基于HBase的大数据存储与检索方法,其特征在于,步骤1的具体实现包括以下子步骤:
步骤1.1:定义数据文件对象字段映射表;
所述的映射表用于定义HBase大数据转化存储适用的对象、导入数据时文件对象字段与HBase列的映射关系以及具体转化存储导入方案,所述的映射表由三种数据结构组成,一种数据结构描述数据文件对象的基本属性信息,一种数据结构描述数据文件对象中数据行所包含字段与HBase数据列的映射关系,一种数据结构描述转化存储导入执行方案;
所述的描述数据文件对象基本属性信息的数据结构请见下表1;
表1 数据文件对象基本信息的数据结构
其中所述的数据文件对象是HBase大数据转化存储的数据源;
所述的描述数据文件对象中数据行所包含字段与HBase列的映射关系的数据结构请见下表2;
表2 数据文件对象中数据行所包含字段与HBase列的映射关系的数据结构
所述的数据文件对象中数据行所包含字段与HBase列映射关系是对数据文件对象所包含字段的详细描述,每一数据结构描述了一种字段映射关系,一个数据文件对象可以包含多个字段映射关系;
所述的描述转化存储导入执行方案的数据结构请见下表3;
表3 转化存储导入执行方案的数据结构
在表2中所描述的映射关系以及在表3中所描述的转化存储导入执行方案通过数据项MODEL_ID与表1中定义的数据文件对象建立关联;由于一个数据文件可以包含多个列映射关系,一次执行可同时对应多个转化存储导入执行方案,因此表1中定义的数据结构和表2及表3中定义的数据结构是一对多的关系;
步骤1.2:基于映射表的HBase数据转化存储,其具体实现流程包括以下子步骤:
步骤1.2.1:设置数据文件对象字段映射表,设置转化存储导入执行方案;
步骤1.2.2:打开行存储数据文件,检索映射表,并判断目的HBase服务器数据库是否可用;
若是,则执行下述步骤1.2.3;
若否,则结束,本流程结束;
步骤1.2.3:连接目的HBase数据库;
步骤1.2.4:判断文件读取是否结束;
若是,则结束,本流程结束;
若否,则执行下述步骤1.2.5;
步骤1.2.5:读取源文件中的下一行数据;
步骤1.2.6:判断全部转化存储导入方案是否执行完毕;
若是,则回转执行所述的步骤1.2.4;
若否,则执行下述步骤1.2.7;
步骤1.2.7:执行下一个转化存储导入方案;
步骤1.2.8:按RowKey表达式生成行键;
步骤1.2.9:生成写入HBase并执行,然后回转执行所述的步骤1.2.6。
3.根据权利要求2所述的基于HBase的大数据存储与检索方法,其特征在于:步骤1.2.8中所述的RowKey表达式为一套编码与解码规则,HBase中的RowKey包含特征值,通过对RowKey组成字符来源的抽象和约定,在按规则定义好RowKey表达式后,执行数据转换时解析表达式,自动从指定位置提取多个特征值字符,经过一定形式的转化后组合成为RowKey;
其中所述的按规则定义好RowKey表达式,具体为导入HBase中每行数据行键是将固定字符、字段名称字符、字段名称值按RowKey表达式进行运算后生成的;RowKey表达式规则描述请见下表4;
表4:RowKey表达式规则描述
步骤1.2.8中所述的按RowKey表达式生成行键,其具体实现流程包括以下子步骤:
步骤1.2.8.1:读取行键表达式字符串,并将字符串分解为字符集合EXP;
步骤1.2.8.2:初始化变量:结果字符串SR=””,状态变量ST=””,转义控制符TB=false,字符串控制符SB=false,临时缓存字符串TMP,循环控制变量i=0,遍历行键表达式字符集合EXP:
①判断转义控制符TB,为false表示处于非转义状态,转②;为true表示处于转义状态,转③;
②判断字符EXP[i]是否为’[’,是则表示转义开始,将TB置为true,否则将EXP[i]添加到结果字符串SR,然后转⑧;
③判断字符EXP[i]是否为’]’,是则表示转义结束,将TB置为false,TMP添加到结果字符串SR,然后转⑧;否则转④;
④判断字符串控制符SB,为true表示处于字符状态,此时若EXP[i]为’”’表示字符状态结束,SB置为false,否则将EXP[i]添加到临时缓存字符串TMP中,然后转⑧;SB为false则转⑤继续判断;
⑤判断字符EXP[i]是否为’”’,是则表示开启字符状态,SB置为true,然后转⑧;否则判断是否是符号字符,如果字符是’F’,取文件名放入缓存字符串TMP,如果是’C’、’V’、’S’或’T’中的一个,则将状态变量ST设置为相应字符,然后转⑧;如果都不是则转⑥;
⑥当EXP[i]为’)’时,表示一个带参数的符号结束,此时根据状态变量ST中记录的符号类型,’C’则取列名称放入TMP、’V’则取列值放入TMP、’S’则将缓存字符串TMP按参数截取、’T’则将缓存字符串按参数格式调用String.Tostring(format)方法进行格式化,结束后转⑧;
⑦对于无法判断的字符EXP[i],跳过转⑧;
⑧i=i+1,如果i小于等于字符集合EXP的长度,则转①,否则循环结束;
步骤1.2.8.3:返回行键结果字符串SR。
4.根据权利要求1所述的基于HBase的大数据存储与检索方法,其特征在于:步骤3的中将检索时用到的特征属性存放在RowKey中,将常用检索特征属性放在RowKey先前位置,针对多种检索特征属性采用多个对应RowKey规则,冗余存储数据,实现基于特征值的HBase大数据快速检索与访问;步骤3中数据检索方法具体包括以下2种;
方法一:前缀匹配检索法;
HBase中的大数据按RowKey字典顺序存放数据,因此按RowKey前缀匹配检索是效率最高的检索方式,在设计HBase数据行RowKey时将常用检索特征放在RowKey靠前位置;
方法二:特征值匹配检索法;
检索RowKey与特征值匹配的数据行,得到模糊结果集,然后对模糊结果集进一步采用HBase中的filter过滤得到最终精确结果集合;
根据快速检索访问的需要,设置RowKey生成表达式中提取字符的先后顺序,因此在进行数据检索时满足特征值与RowKey前缀匹配,由此来提高检索速度。
5.一种利用权利要求1所述的基于HBase的大数据存储与检索方法进行大数据存储与检索的系统,其特征在于:包括数据文件管理模块、数据列管理模块、数据导入执行模块、前缀检索模块和特征值检索模块;
所述的数据文件管理模块用于在执行行列数据转换导入之前创建数据文件对象;
所述的数据列管理模块用于在完成数据文件对象的创建后,采用映射表存储源数据文件字段与目的HBase表数据列的对应关系,对该数据文件包含的列进行管理;
所述的数据导入执行模块用于创建导入规则和执行导入操作;
所述的前缀检索模块和特征值检索模块用于执行检索访问操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510376791.2A CN104915450B (zh) | 2015-07-01 | 2015-07-01 | 一种基于HBase的大数据存储与检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510376791.2A CN104915450B (zh) | 2015-07-01 | 2015-07-01 | 一种基于HBase的大数据存储与检索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104915450A true CN104915450A (zh) | 2015-09-16 |
CN104915450B CN104915450B (zh) | 2017-11-28 |
Family
ID=54084513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510376791.2A Expired - Fee Related CN104915450B (zh) | 2015-07-01 | 2015-07-01 | 一种基于HBase的大数据存储与检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104915450B (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205162A (zh) * | 2015-09-29 | 2015-12-30 | 烽火通信科技股份有限公司 | HBase二级索引存储和查询系统及其查询方法 |
CN105320746A (zh) * | 2015-09-25 | 2016-02-10 | 北京北信源软件股份有限公司 | 一种基于大数据的索引获取方法及系统 |
CN105653587A (zh) * | 2015-12-21 | 2016-06-08 | 厦门市美亚柏科信息股份有限公司 | 异源异构数据清洗方法及其系统 |
CN106227803A (zh) * | 2016-07-21 | 2016-12-14 | 浪潮电子信息产业股份有限公司 | 一种基于Hbase的海量数据导入方法及装置 |
CN106326361A (zh) * | 2016-08-10 | 2017-01-11 | 中国农业银行股份有限公司 | 一种基于HBase数据库的数据查询方法及装置 |
CN106528786A (zh) * | 2016-11-08 | 2017-03-22 | 国网山东省电力公司电力科学研究院 | 快速迁移多源异构电网大数据到HBase的方法及系统 |
CN106777258A (zh) * | 2016-12-28 | 2017-05-31 | 银江股份有限公司 | 一种医疗大数据存储中Hbase行键的编码及压缩方法 |
CN106897280A (zh) * | 2015-12-17 | 2017-06-27 | 阿里巴巴集团控股有限公司 | 数据查询方法及装置 |
CN107169075A (zh) * | 2017-05-10 | 2017-09-15 | 深圳大普微电子科技有限公司 | 基于特征分析的数据存取方法、存储设备及存储系统 |
CN107203536A (zh) * | 2016-03-16 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 内容的在线浏览方法、装置及设备 |
CN107515867A (zh) * | 2016-06-15 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 一种NoSQL数据库的数据存储、查询方法和装置以及一种rowKey全组合的生成方法和装置 |
CN107832389A (zh) * | 2017-10-31 | 2018-03-23 | 新华三大数据技术有限公司 | 数据管理方法及装置 |
CN107967368A (zh) * | 2017-12-29 | 2018-04-27 | 北京酷我科技有限公司 | 一种包含数组结构的缓存方法 |
CN108432170A (zh) * | 2016-01-29 | 2018-08-21 | 麻省理工学院 | 用于多码分布式存储的装置和方法 |
CN108984574A (zh) * | 2017-06-05 | 2018-12-11 | 北京嘀嘀无限科技发展有限公司 | 数据处理方法及装置 |
CN109033458A (zh) * | 2018-08-30 | 2018-12-18 | 山东浪潮通软信息科技有限公司 | 一种解决数据自动映射的方法 |
CN109299059A (zh) * | 2018-11-16 | 2019-02-01 | 北京锐安科技有限公司 | 文件存储、检索方法、装置、存储介质及服务器 |
CN109313640A (zh) * | 2016-03-31 | 2019-02-05 | 慧咨环球有限公司 | 用于数据库优化的方法和系统 |
CN109344192A (zh) * | 2018-10-24 | 2019-02-15 | 四川省气象探测数据中心 | 一种优化cimiss数据库系统及其适配方法 |
CN110109892A (zh) * | 2018-01-25 | 2019-08-09 | 杭州海康威视数字技术股份有限公司 | 一种数据迁移方法、装置及电子设备 |
CN110502543A (zh) * | 2019-08-07 | 2019-11-26 | 京信通信系统(中国)有限公司 | 设备性能数据存储方法、装置、设备和存储介质 |
CN111125119A (zh) * | 2019-12-30 | 2020-05-08 | 中科星图股份有限公司 | 一种基于HBase的时空数据存储与索引方法 |
CN111159112A (zh) * | 2019-12-20 | 2020-05-15 | 新华三大数据技术有限公司 | 数据处理方法及系统 |
CN112115121A (zh) * | 2020-11-20 | 2020-12-22 | 陕西云基华海信息技术有限公司 | 一种数据治理实时数据质量检测系统 |
CN113127474A (zh) * | 2019-12-30 | 2021-07-16 | 中国移动通信集团四川有限公司 | 数据存储方法、装置及电子设备 |
CN113609123A (zh) * | 2021-08-26 | 2021-11-05 | 四川效率源信息安全技术股份有限公司 | 基于HBase的海量用户数据去重存储的方法及装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108776678B (zh) * | 2018-05-29 | 2020-07-03 | 阿里巴巴集团控股有限公司 | 基于移动端NoSQL数据库的索引创建方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140059017A1 (en) * | 2012-08-22 | 2014-02-27 | Bitvore Corp. | Data relationships storage platform |
CN103631907A (zh) * | 2013-11-26 | 2014-03-12 | 中国科学院信息工程研究所 | 一种将关系型数据迁移至HBase的方法及系统 |
CN104123392A (zh) * | 2014-08-11 | 2014-10-29 | 吉林禹硕动漫游戏科技股份有限公司 | 一种关系型数据库迁移到HBase数据库的工具和方法 |
CN104199986A (zh) * | 2014-09-29 | 2014-12-10 | 国家电网公司 | 基于hbase和geohash的矢量数据空间索引方法 |
-
2015
- 2015-07-01 CN CN201510376791.2A patent/CN104915450B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140059017A1 (en) * | 2012-08-22 | 2014-02-27 | Bitvore Corp. | Data relationships storage platform |
CN103631907A (zh) * | 2013-11-26 | 2014-03-12 | 中国科学院信息工程研究所 | 一种将关系型数据迁移至HBase的方法及系统 |
CN104123392A (zh) * | 2014-08-11 | 2014-10-29 | 吉林禹硕动漫游戏科技股份有限公司 | 一种关系型数据库迁移到HBase数据库的工具和方法 |
CN104199986A (zh) * | 2014-09-29 | 2014-12-10 | 国家电网公司 | 基于hbase和geohash的矢量数据空间索引方法 |
Non-Patent Citations (1)
Title |
---|
封朝永: "基于Hadoop的时态信息存储与检索策略的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105320746A (zh) * | 2015-09-25 | 2016-02-10 | 北京北信源软件股份有限公司 | 一种基于大数据的索引获取方法及系统 |
CN105205162A (zh) * | 2015-09-29 | 2015-12-30 | 烽火通信科技股份有限公司 | HBase二级索引存储和查询系统及其查询方法 |
CN106897280B (zh) * | 2015-12-17 | 2020-07-14 | 菜鸟智能物流控股有限公司 | 数据查询方法及装置 |
CN106897280A (zh) * | 2015-12-17 | 2017-06-27 | 阿里巴巴集团控股有限公司 | 数据查询方法及装置 |
CN105653587A (zh) * | 2015-12-21 | 2016-06-08 | 厦门市美亚柏科信息股份有限公司 | 异源异构数据清洗方法及其系统 |
CN105653587B (zh) * | 2015-12-21 | 2019-02-19 | 厦门市美亚柏科信息股份有限公司 | 异源异构数据清洗方法及其系统 |
US11463113B2 (en) | 2016-01-29 | 2022-10-04 | Massachusetts Institute Of Technology | Apparatus and method for multi-code distributed storage |
CN108432170A (zh) * | 2016-01-29 | 2018-08-21 | 麻省理工学院 | 用于多码分布式存储的装置和方法 |
CN107203536A (zh) * | 2016-03-16 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 内容的在线浏览方法、装置及设备 |
CN109313640A (zh) * | 2016-03-31 | 2019-02-05 | 慧咨环球有限公司 | 用于数据库优化的方法和系统 |
CN109313640B (zh) * | 2016-03-31 | 2022-03-04 | 慧咨环球有限公司 | 用于数据库优化的方法和系统 |
CN107515867B (zh) * | 2016-06-15 | 2021-06-29 | 阿里巴巴集团控股有限公司 | 一种NoSQL数据库的数据存储、查询方法和装置以及一种rowKey全组合的生成方法和装置 |
CN107515867A (zh) * | 2016-06-15 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 一种NoSQL数据库的数据存储、查询方法和装置以及一种rowKey全组合的生成方法和装置 |
CN106227803A (zh) * | 2016-07-21 | 2016-12-14 | 浪潮电子信息产业股份有限公司 | 一种基于Hbase的海量数据导入方法及装置 |
CN106326361A (zh) * | 2016-08-10 | 2017-01-11 | 中国农业银行股份有限公司 | 一种基于HBase数据库的数据查询方法及装置 |
CN106528786A (zh) * | 2016-11-08 | 2017-03-22 | 国网山东省电力公司电力科学研究院 | 快速迁移多源异构电网大数据到HBase的方法及系统 |
CN106528786B (zh) * | 2016-11-08 | 2019-07-12 | 国网山东省电力公司电力科学研究院 | 快速迁移多源异构电网大数据到HBase的方法及系统 |
CN106777258B (zh) * | 2016-12-28 | 2020-01-03 | 银江股份有限公司 | 一种医疗大数据存储中Hbase行键的编码及压缩方法 |
CN106777258A (zh) * | 2016-12-28 | 2017-05-31 | 银江股份有限公司 | 一种医疗大数据存储中Hbase行键的编码及压缩方法 |
CN107169075A (zh) * | 2017-05-10 | 2017-09-15 | 深圳大普微电子科技有限公司 | 基于特征分析的数据存取方法、存储设备及存储系统 |
WO2018223881A1 (en) * | 2017-06-05 | 2018-12-13 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for data processing |
US10877968B2 (en) | 2017-06-05 | 2020-12-29 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for data processing |
CN108984574A (zh) * | 2017-06-05 | 2018-12-11 | 北京嘀嘀无限科技发展有限公司 | 数据处理方法及装置 |
CN107832389A (zh) * | 2017-10-31 | 2018-03-23 | 新华三大数据技术有限公司 | 数据管理方法及装置 |
CN107967368A (zh) * | 2017-12-29 | 2018-04-27 | 北京酷我科技有限公司 | 一种包含数组结构的缓存方法 |
CN107967368B (zh) * | 2017-12-29 | 2021-12-28 | 北京酷我科技有限公司 | 一种包含数组结构的缓存方法 |
CN110109892A (zh) * | 2018-01-25 | 2019-08-09 | 杭州海康威视数字技术股份有限公司 | 一种数据迁移方法、装置及电子设备 |
CN109033458A (zh) * | 2018-08-30 | 2018-12-18 | 山东浪潮通软信息科技有限公司 | 一种解决数据自动映射的方法 |
CN109344192B (zh) * | 2018-10-24 | 2020-03-10 | 四川省气象探测数据中心 | 一种优化cimiss数据库系统及其适配方法 |
CN109344192A (zh) * | 2018-10-24 | 2019-02-15 | 四川省气象探测数据中心 | 一种优化cimiss数据库系统及其适配方法 |
CN109299059A (zh) * | 2018-11-16 | 2019-02-01 | 北京锐安科技有限公司 | 文件存储、检索方法、装置、存储介质及服务器 |
CN110502543A (zh) * | 2019-08-07 | 2019-11-26 | 京信通信系统(中国)有限公司 | 设备性能数据存储方法、装置、设备和存储介质 |
CN110502543B (zh) * | 2019-08-07 | 2022-07-12 | 京信网络系统股份有限公司 | 设备性能数据存储方法、装置、设备和存储介质 |
CN111159112A (zh) * | 2019-12-20 | 2020-05-15 | 新华三大数据技术有限公司 | 数据处理方法及系统 |
CN113127474A (zh) * | 2019-12-30 | 2021-07-16 | 中国移动通信集团四川有限公司 | 数据存储方法、装置及电子设备 |
CN111125119A (zh) * | 2019-12-30 | 2020-05-08 | 中科星图股份有限公司 | 一种基于HBase的时空数据存储与索引方法 |
CN112115121A (zh) * | 2020-11-20 | 2020-12-22 | 陕西云基华海信息技术有限公司 | 一种数据治理实时数据质量检测系统 |
CN112115121B (zh) * | 2020-11-20 | 2023-12-12 | 陕西云基华海信息技术有限公司 | 一种数据治理实时数据质量检测系统 |
CN113609123A (zh) * | 2021-08-26 | 2021-11-05 | 四川效率源信息安全技术股份有限公司 | 基于HBase的海量用户数据去重存储的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104915450B (zh) | 2017-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104915450A (zh) | 一种基于HBase的大数据存储与检索方法及系统 | |
CN107402995B (zh) | 一种分布式newSQL数据库系统及方法 | |
CN105989150B (zh) | 一种基于大数据环境的数据查询方法及装置 | |
CN103631907B (zh) | 一种将关系型数据迁移至HBase的方法及系统 | |
CN103064875B (zh) | 一种服务化空间数据分布式查询方法 | |
CN104750681B (zh) | 一种海量数据的处理方法及装置 | |
CN110674154B (zh) | 一种基于Spark的对Hive中数据进行插入、更新和删除的方法 | |
CN103678519B (zh) | 一种支持Hive DML增强的混合存储系统及其方法 | |
CN107169033A (zh) | 基于数据模式转换和并行框架的关系数据查询优化方法 | |
CN103678665A (zh) | 一种基于数据仓库的异构大数据整合方法和系统 | |
CN102760165B (zh) | 一种使用位图索引的全文检索方法和装置 | |
CN103425762A (zh) | 基于Hadoop平台的电信运营商海量数据处理方法 | |
CN103430144A (zh) | 数据源分析 | |
CN101853305A (zh) | 一种构建综合农业环境信息数据库的方法 | |
CN102917009B (zh) | 一种基于云计算技术的股票数据采集和存储方法和系统 | |
CN104391908B (zh) | 一种图上基于局部敏感哈希的多关键字索引方法 | |
CN104021198A (zh) | 基于本体语义索引的关系数据库信息检索方法及装置 | |
CN110321446A (zh) | 相关数据推荐方法、装置、计算机设备及存储介质 | |
Mostajabi et al. | A systematic review of data models for the big data problem | |
CN101916260A (zh) | 一种灾害本体和关系数据库间语义映射构建的方法 | |
CN102609455B (zh) | 一种实现汉语同音字检索的方法 | |
CN106250456A (zh) | 一种中标公告的抽取方法及装置 | |
CN102760164A (zh) | 一种关系数据库管理系统与xml数据库管理系统之间数据交换的方法 | |
KR101955376B1 (ko) | 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치 | |
CN105550176A (zh) | 一种关系数据库与xml的基本映射方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171128 Termination date: 20180701 |