CN104915450A

CN104915450A - 一种基于HBase的大数据存储与检索方法及系统

Info

Publication number: CN104915450A
Application number: CN201510376791.2A
Authority: CN
Inventors: 徐爱萍; 吴笛; 徐武平
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2015-07-01
Filing date: 2015-07-01
Publication date: 2015-09-16
Anticipated expiration: 2035-07-01
Also published as: CN104915450B

Abstract

本发明公开了一种基于HBase的大数据存储与检索方法及系统，本发明基于数据文件字段映射表，利用HBase Thrift客户端，通过定义好的RowKey表达式生成行键，将按行存储的数据导入到HBase数据库中。在保持一致性的前提下，将数据对象的多特征值按照多种组合方式加入形成行键，与普通列值数据组成HBase数据行，按不同行键组成方式存放在多张HBase数据表中，进行多特征值数据检索时根据行键中的几个特征值匹配可快速得到模糊结果集，对模糊结果集进一步采用filter过滤以得到最终精确结果集合。研究结果能够适用于不同类型的数据文件到目的HBase数据库的大数据转换存储过程，具有较强的通用性，按照多特征值组合方式形成行键存储数据，能提供快速的数据检索接口，达到快速检索的目的。

Description

一种基于HBase的大数据存储与检索方法及系统

技术领域

本发明属于大数据存储技术领域，涉及一种大数据的分布式存储、转化和检索方法及系统。其目标是实现按行存储的数据文件转化到HBase的分布式数据库存储同时对HBase中的大数据进行快速检索与访问。

背景技术

按行存储的数据文件转化存储到HBase的相关文献较少，将不同类型数据迁移整合到HBase中通常有以下三种方式：一是利用HBase接口编写专用程序实现数据对接；二是使用bulk load等工具完成数据导入；三是编写MapReduce程序向HBase导入数据。这三种方式都存在通用性差、使用环境受限以及操作复杂度高等问题，需要开发一种通用数据抽取转化技术以达到利用HBase存储大数据及快速访问数据的目的。

国内外关于HBase快速访问技术的研究较多，目前应用较多的是建立索引。马友忠、孟小峰等在《云数据管理索引技术研究》对当前HBase中的索引技术进行了综述，比较了几种索引技术的特点与应用情况；张榆、马友忠等在《一种基于HBase的高效空间关键字查询策略》中提出了利用Z曲线对空间数据进行降维编码，通过有效的数据分配策略对空间文本对象的空间信息和文本信息同时进行索引；孟辉、朱美正等在《基于Hadoop的矢量空间数据库技术》中提出了矢量空间数据从关系数据库到分布式NoSQL数据库的存储优化方法；罗芳、李春花等人在《基于多属性的海量WEB数据关联存储及检索系统》中描述了海量WEB数据多属性关联存储及检索方法，解决了基于HBase动态属性多条件查询的辅助索引问题。索引技术能大大提高检索速度，缺点是维护较复杂。还有一些研究从各自应用领域数据存储的特点出发，对分布式数据库的存储与检索提出了相应的优化方案，取得了较好的效果，然而由于优化是针对特定应用环境，因此通用性不强。

在按行存取的数据文件中，通常一行数据包含的内容较多，且每一类数据文件定义方式不同，文件头部或尾部通常包含一些文件属性信息，如时间、文件类型、版本信息等。而每一行通常按列存储具体数据信息，这些列中有一些是标识和区分各数据行的属性信息，如时间、坐标、编号等，另一些则是对应的字段数值。检索需要的数据，通常是要找出所有与指定属性信息相匹配的数据行，这些属性信息列称为特征值。HBase中的数据按RowKey进行存取。由于源数据文件结构、字段名称、类型各不相同，且数据项存储方式也有不同，像这样的数据转换导入，利用现有的HBase导入工具如bulk loader是很难实现的。通常解决类似问题，必须由程序员编写特定的程序来完成数据抽取导入，然而这种程序一般只能适用于特定的源数据文件到目的表的导入，如果源数据文件类型或目的表发生了变化则程序就不再适用了。因此，实现按行存储的文件数据到HBase分布式数据库的通用转换存储，需要解决的技术问题是如何根据不同文件中的数据在指定目的表生成需要的HBase行RowKey，同时，要保证HBase中每一行的RowKey具有唯一性，并且采用一定的优化方法以便快速检索与访问。

发明内容

为了解决上述的技术问题，本发明提供了一种实现按行存储的数据文件转化到HBase的分布式数据库存储同时对HBase中的大数据进行快速检索与访问的方法及系统。

本发明的方法所采用的设计方案是：一种基于HBase的大数据存储与检索方法，其特征在于，包括以下步骤：

步骤1：创建源数据文件描述对象，采用映射表存储源数据文件字段与目的HBase表数据列的对应关系；

步骤2：定义RowKey生成表达式，表达式抽象描述了HBase数据行RowKey的生成方法；根据预设好的RowKey表达式规则，在执行导入时从文件名、字段名、字段值等信息中提取需要的字符，通过简单的截取、格式化等处理，自动形成格式统一的唯一RowKey；

步骤3：根据检索访问的需要，设置RowKey生成表达式中提取字符的先后顺序，方便在进行数据检索时满足特征值与RowKey前缀匹配，提高访问速度。

作为优选，步骤1的具体实现包括以下子步骤：

步骤1.1：定义数据文件对象字段映射表；

所述的映射表用于定义HBase大数据转化存储适用的对象、导入数据时文件对象字段与HBase列的映射关系以及具体转化存储导入执行方案，所述的映射表由三种数据结构组成，一种数据结构描述数据文件对象基础属性信息，一种数据结构描述数据文件对象数据行包含的字段与HBase列的映射关系，一种数据结构描述转化存储导入执行方案；

所述的描述数据文件对象的数据结构请见下表1；

表1 描述数据文件对象的数据结构

数据项	类型	描述	备注
				MODEL_ID	String	数据文件标识符	唯一、非空
MODEL_NAME	String	数据文件名称
				COLUMN_COUNT	Int	字段数量
MODEL_MEMO	String	数据文件描述

其中所述的数据文件对象是HBase大数据转化存储的数据源；

所述的描述数据文件对象数据行包含的字段与HBase行的映射关系的数据结构请见下表2；

表2 数据文件对象数据行包含的字段与HBase行的映射关系的数据结构

所述的数据文件对象字段与HBase列映射关系是对数据文件对象所包含字段的详细描述，每一数据结构描述了一种字段映射关系，一个数据文件对象可以包含多个字段映射关系；

所述的描述转化存储导入方案的数据结构请见下表3；

表3 转化存储导入执行方案的数据结构

在表2中所描述的映射关系以及在表3中所描述的转化存储导入执行方案通过数据项MODEL_ID与表1中定义的数据文件对象建立关联；由于一个数据文件可以包含多个列映射关系，一次执行可同时对应多个转化存储导入执行方案，因此表1中定义的数据结构和表2及表3中定义的数据结构是一对多的关系；

步骤1.2：基于映射表的HBase数据转化存储，其具体实现流程包括以下子步骤：

步骤1.2.1：设置数据文件对象字段映射表，设置转化存储导入执行方案；

步骤1.2.2：打开行存储数据文件，检索映射表，并判断目的HBase服务器数据库是否可用；

若是，则执行下述步骤1.2.3；

若否，则结束，本流程结束；

步骤1.2.3：连接目的HBase数据库；

步骤1.2.4：判断文件读取是否结束；

若是，则结束，本流程结束；

若否，则执行下述步骤1.2.5；

步骤1.2.5：读取源文件中的下一行数据；

步骤1.2.6：判断全部转化存储导入方案是否执行完毕；

若是，则回转执行所述的步骤1.2.4；

若否，则执行下述步骤1.2.7；

步骤1.2.7：执行下一个转化存储导入方案；

步骤1.2.8：按RowKey表达式生成行键；

步骤1.2.9：生成写入HBase并执行，然后回转执行所述的步骤1.2.6。

作为优选，步骤1.2.8中所述的RowKey表达式为一套编码与解码规则，HBase中的RowKey包含特征值，通过对RowKey组成字符来源的抽象和约定，在按规则定义好RowKey表达式后，执行数据转换时解析表达式，自动从指定位置提取多个特征值字符，经过一定形式的转化后组合成为RowKey；

其中所述的按规则定义好RowKey表达式，具体为导入HBase中每行数据行键是将固定字符、字段名称字符、字段名称值按RowKey表达式进行运算后生成的；RowKey表达式规则描述请见下表4；

表4：RowKey表达式规则描述

步骤1.2.8中所述的按RowKey表达式生成行键，其具体实现流程包括以下子步骤：

步骤1.2.8.1：读取行键表达式字符串，并将字符串分解为字符集合EXP；

步骤1.2.8.2：初始化变量：结果字符串SR＝””，状态变量ST＝””，转义控制符TB＝false，字符串控制符SB＝false，临时缓存字符串TMP，循环控制变量i＝0，遍历行键表达式字符集合EXP：

①判断转义控制符TB，为false表示处于非转义状态，转②；为true表示处于转义状态，转③；

②判断字符EXP[i]是否为’[’，是则表示转义开始，将TB置为true，否则将EXP[i]添加到结果字符串SR，然后转⑧；

③判断字符EXP[i]是否为’]’，是则表示转义结束，将TB置为false，TMP添加到结果字符串SR，然后转⑧；否则转④；

④判断字符串控制符SB，为true表示处于字符状态，此时若EXP[i]为””表示字符状态结束，SB置为false，否则将EXP[i]添加到临时缓存字符串TMP中，然后转⑧；SB为false则转⑤继续判断；

⑤判断字符EXP[i]是否为””，是则表示开启字符状态，SB置为true，然后转⑧；否则判断是否是符号字符，如果字符是’F’，取文件名放入缓存字符串TMP，如果是’C’、’V’、’S’或’T’中的一个，则将状态变量ST设置为相应字符，然后转⑧；如果都不是则转⑥；

⑥当EXP[i]为’)’时，表示一个带参数的符号结束，此时根据状态变量ST中记录的符号类型，’C’则取列名称放入TMP、’V’则取列值放入TMP、’S’则将缓存字符串TMP按参数截取、’T’则将缓存字符串按参数格式调用String.Tostring(format)方法进行格式化，结束后转⑧；

⑦对于无法判断的字符EXP[i]，跳过转⑧；

⑧i＝i+1，如果i小于等于字符集合EXP的长度，则转①，否则循环结束；

步骤1.2.8.3：返回行键结果字符串SR。

作为优选，步骤3的中将检索时用到的特征属性存放在RowKey中，将常用检索特征属性放在RowKey先前位置，针对多种检索特征属性采用多个对应RowKey规则，冗余存储数据，实现基于特征值的HBase大数据快速检索与访问；步骤3中数据检索方法具体包括以下2种；

方法一：前缀匹配检索法；

HBase中的大数据按RowKey字典顺序存放数据，因此按RowKey前缀匹配检索是效率最高的检索方式，在设计HBase数据行RowKey时将常用检索特征放在RowKey靠前位置；

方法二：特征值匹配检索法；

检索RowKey与特征值匹配的数据行，得到模糊结果集，然后对模糊结果集进一步采用HBase中的filter过滤得到最终精确结果集合；

根据快速检索访问的需要，设置RowKey生成表达式中提取字符的先后顺序，因此在进行数据检索时满足特征值与RowKey前缀匹配，由此来提高检索速度。

本发明的系统所采用的技术方案是：一种基于HBase的大数据存储与检索系统，其特征在于：包括数据文件管理模块、数据列管理模块、数据导入执行模块、前缀检索模块和特征值检索模块；

所述的数据文件管理模块用于在执行行列数据转换导入之前创建数据文件对象；

所述的数据列管理模块用于在完成数据文件对象的创建后，采用映射表存储源数据文件字段与目的HBase表数据列的对应关系，对该数据文件包含的列进行管理；

所述的数据导入执行模块用于创建导入规则和执行导入操作；

所述的前缀检索模块和特征值检索模块用于执行检索访问操作。

本发明基于数据文件与HBase映射表，利用Thrift客户端访问HBase数据库，将按行存储的数据经过转化后存储到HBase。将数据对象的多特征属性优化组合形成行键，与普通列值数据冗余存放在多张HBase数据表中，进行多特征值数据检索时根据行键中的几个特征值匹配可快速得到模糊结果集，对模糊结果集进一步采用filter过滤得到最终精确结果集合。本发明结果能够适用于大多数情况下文件数据从按行存储到HBase单行或多行存储以及在不同应用环境下按特征值快速检索与访问数据。本发明通过国家重大专项--流域水环境风险评估与预警技术研究与工程示范项目“三峡库区及上游流域水环境风险评估与预警技术研究与示范”课题的模型计算数据存储与检索和湖北省重大科技创新计划项目“基于云计算的智慧城市大数据处理及服务关键技术研发"项目中视频数据的存储与检索实验，取得了很好的存储效率与检索效果。虽然两者的数据格式和类型不一致，但该方法同样适用，由此可见其通用性。在未来分布式NoSQL数据库大数据存储于检索中有着广阔的应用前景，可发展为一种具有商用大数据存储与高速检索管理工具。

附图说明

图1：本发明实施例的基于映射表的HBase数据转化存储流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供的一种基于HBase的大数据存储与检索方法，包括以下步骤：

步骤1：创建源数据文件描述对象，采用映射表存储源数据文件字段与目的HBase表数据列的对应关系；具体实现包括以下子步骤：

步骤1.1：定义数据文件对象字段映射表；

所述的映射表用于定义HBase大数据转化存储适用的对象、导入数据时文件对象字段与HBase列的映射关系以及具体转化存储导入方案，所述的映射表由三种数据结构组成，一种数据结构描述数据文件对象，一种数据结构描述数据文件对象字段与HBase行的映射关系，一种数据结构描述转化存储导入方案；

所述的描述数据文件对象的数据结构请见下表1；

表1 数据文件对象的数据结构

其中所述的数据文件对象是HBase大数据转化存储的数据源；

所述的描述数据文件对象字段与HBase行的映射关系的数据结构请见下表2；

表2 数据文件对象字段与HBase行的映射关系的数据结构

所述的描述转化存储导入方案的数据结构请见下表3；

转化存储执行导入执行方案是对数据转化存储执行细节的定义。一次转化存储周期以打开一个数据文件对象为开始，为提高执行效率，一次可执行多个不同的执行方案，以实现数据文件中的一行数据拆分为多个HBase数据行，或将数据按不同映射规则导入不同HBase实例；

步骤1.2：基于映射表的HBase数据转化存储，请见图1，其具体实现流程包括以下子步骤：

步骤1.2.1：设置数据文件对象字段映射表，设置转化存储导入方案；

若是，则执行下述步骤1.2.3；

若否，则结束，本流程结束；

步骤1.2.3：连接目的HBase服务器数据库；

步骤1.2.4：判断文件读取是否结束；

若是，则结束，本流程结束；

若否，则执行下述步骤1.2.5；

步骤1.2.5：读取源文件中的下一行数据；

步骤1.2.6：判断全部转化存储导入方案是否执行完毕；

若是，则回转执行所述的步骤1.2.4；

若否，则执行下述步骤1.2.7；

步骤1.2.7：执行下一个转化存储导入方案；

步骤1.2.8：按RowKey表达式生成行键；RowKey表达式为一套编码与解码规则，HBase中的RowKey包含特征值，通过对RowKey组成字符来源的抽象和约定，在按规则定义好RowKey表达式后，执行数据转换时解析表达式，自动从指定位置提取多个特征值字符，经过一定形式的转化后组合成为RowKey；

表4：RowKey表达式规则描述

⑦对于无法判断的字符EXP[i]，跳过转⑧；

步骤1.2.8.3：返回行键结果字符串SR；

步骤2：定义RowKey生成表达式，表达式描述了HBase数据行RowKey的生成方法；从文件名、字段名、字段值等信息中提取需要的字符，通过简单的截取、格式化等处理，自动形成格式统一的唯一RowKey；

HBase中的数据行按RowKey顺序存储，通过RowKey匹配检索数据能获得较快的响应速度，如果通过数据列匹配查询则需要进行全表扫描，效率较低。因此，要实现基于特征值的HBase大数据快速检索与访问，一定要将检索时用到的特征属性存放在RowKey中。另外，满足RowKey最长前缀匹配，即：检索时输入的特征值尽量匹配RowKey的前若干个字符时，通过调用HBase中scanwithprefix接口获得最快的检索速度。因此，本技术将常用检索特征属性放在RowKey先前位置，或针对多种检索特征属性采用多个对应RowKey规则，冗余存储数据，实现基于特征值的HBase大数据快速检索与访问，具体方法包括以下几方面：

(1)海量数据多特征值索引存储方案；

根据HBase的特点对数据存储方式进行优化设计。在保持一致性的前提下，将数据对象的多特征属性按照检索要求组合形成行键与普通列值数据冗余存放在一张或多张HBase数据表中。进行多特征值数据检索时根据行键中的几个特征值匹配可快速得到模糊结果集，若特征值检索无法满足要求，对模糊结果集进一步采用filter过滤以得到最终精确结果集合。

(2)多特征值RowKey生成规则；

HBase按照RowKey字典序来存放数据，为了尽可能提高多关键字查询的效率，本技术提出按照特征值检索方式生成RowKey，将常用检索特征生成RowKey时放在靠前位置。例如，表5所示多特征属性数据集，若按照特征3进行检索则按照表6生成RowKey并组织数据存储。

表5 多特征属性数据集

表6 HBase表结构

通过这种方式，能够将同一特征值相近的数据尽可能存储在一起，查询时能够方便通过RowKey前缀匹配进行过滤，对过滤结果进行再次筛选以得到最终结果集，避免频繁采取全表扫描方式检索数据，从而提高查询的效率。

(3)快速检索与访问方法，具体包括以下两类；

方法一：前缀匹配检索法；

HBase Thrift客户端提供了支持多种语言的数据访问接口。由于HBase按RowKey字典顺序存放数据，因此按RowKey前缀匹配检索是效率最高的检索方式。在打开的HClient实例中指定目标表，直接调用Scan方法既可得到结果集。

方法二：特征值匹配检索法；

根据前面的多特征值RowKey生成规则，对于在检索中使用的特征属性，在设计HBase表结构时，将常用检索特征放在RowKey靠前位置。因此在检索时，首先找到检索特征值靠前的HBase表，同样利用前缀匹配方式过滤数据，如果是多特征值匹配，则调用Scan方法，设置rowfilter进行数据检索。

本发明提供的一种基于HBase的大数据存储与检索系统，包括数据文件管理模块、数据列管理模块、数据导入执行模块、前缀检索模块和特征值检索模块；

数据文件管理模块用于在执行行列数据转换导入之前创建数据文件对象；

数据列管理模块用于在完成数据文件对象的创建后，采用映射表存储源数据文件字段与目的HBase表数据列的对应关系，对该数据文件包含的列进行管理；

数据导入执行模块用于创建导入规则和执行导入操作；

(1)创建导入规则。本实施例中的RowKey表达式["T"F.S(9,1)"I"V(1).T("000")"J"V(2).T("000")"K1"]对应的RowKey生成规则是：取固定字符T、从文件名第9个字符开始截取1个字符、取固定字符I、取第1列的值并转化为数字格式”000”、取固定字符J、取第2列的值并转化为数字格式”000”、取固定字符K1。转换时，第1行数据按RowKey生成算法生成的RowKey就应该是”T1I015J137K1”。

(2)执行导入操作；为满足快速检索的需要，通常对单个类型的数据文件创建多个导入规则，设置RowKey表达式时，按检索需求排列所提取特征值的顺序，例如RowKey表达式["T"F.S(9,1)"I"V(1).T("000")"J"V(2).T("000")"K1"]适合快速检索TxIxxx开头，JxxxKx未指定的数据；而RowKey表达式["K1""T"F.S(9,1)"J"V(2).T("000")"I"V(1).T("000")]适合快速检索KxTxJxxx开头，Ixxx未指定的数据。

前缀检索模块和特征值检索模块用于执行检索访问操作。本实施例的RowKey前缀匹配查询在大数据检索中效率较高，从千万条数据级别的HBase表中检索出数千条匹配数据的时间不超过1秒；按RowKey特征值查询在大数据检索中也能获得不错的效果，随着数据量级的增大，查询速度呈几何倍数领先于传统关系型数据库，但效率略低于前缀匹配查询。

本发明基于数据文件字段映射表，利用HBase Thrift客户端，通过定义好的RowKey表达式生成行键，将按行存储的数据导入到HBase数据库中。在保持一致性的前提下，将数据对象的多特征值按照多种组合方式加入形成行键，与普通列值数据组成HBase数据行，按不同行键组成方式存放在多张HBase数据表中，进行多特征值数据检索时根据行键中的几个特征值匹配可快速得到模糊结果集，对模糊结果集进一步采用filter过滤以得到最终精确结果集合。研究结果表明本发明能够适用于不同类型的数据文件到目的HBase数据库的大数据转换存储过程，具有较强的通用性，按照多特征值组合方式形成行键存储数据，能提供快速的数据检索接口，达到快速访问的目的。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于HBase的大数据存储与检索方法，其特征在于，包括以下步骤：

步骤1：同一类型或格式的源数据文件创建一个数据文件描述对象，创建映射表存储源数据文件字段与目的HBase表数据列的对应关系；

步骤2：定义RowKey生成表达式，表达式抽象描述了将源数据文件中的数据存储到HBase时，HBase数据行RowKey的生成方法；表达式定义好后，在执行转换时，系统根据表达式预定规则，从文件名、字段名、字段值等基础信息中提取需要的字符并经过一定转换后得到特征值，组合后形成格式统一的唯一RowKey；

2.根据权利要求1所述的基于HBase的大数据存储与检索方法，其特征在于，步骤1的具体实现包括以下子步骤：

步骤1.1：定义数据文件对象字段映射表；

所述的映射表用于定义HBase大数据转化存储适用的对象、导入数据时文件对象字段与HBase列的映射关系以及具体转化存储导入方案，所述的映射表由三种数据结构组成，一种数据结构描述数据文件对象的基本属性信息，一种数据结构描述数据文件对象中数据行所包含字段与HBase数据列的映射关系，一种数据结构描述转化存储导入执行方案；

所述的描述数据文件对象基本属性信息的数据结构请见下表1；

表1 数据文件对象基本信息的数据结构

数据项类型描述备注 MODEL_ID String 数据文件标识符唯一、非空 MODEL_NAME String 数据文件名称 COLUMN_COUNT Int 字段数量 MODEL_MEMO String 数据文件描述

其中所述的数据文件对象是HBase大数据转化存储的数据源；

所述的描述数据文件对象中数据行所包含字段与HBase列的映射关系的数据结构请见下表2；

表2 数据文件对象中数据行所包含字段与HBase列的映射关系的数据结构

所述的数据文件对象中数据行所包含字段与HBase列映射关系是对数据文件对象所包含字段的详细描述，每一数据结构描述了一种字段映射关系，一个数据文件对象可以包含多个字段映射关系；

所述的描述转化存储导入执行方案的数据结构请见下表3；

表3 转化存储导入执行方案的数据结构

若是，则执行下述步骤1.2.3；

若否，则结束，本流程结束；

步骤1.2.3：连接目的HBase数据库；

步骤1.2.4：判断文件读取是否结束；

若是，则结束，本流程结束；

若否，则执行下述步骤1.2.5；

步骤1.2.5：读取源文件中的下一行数据；

步骤1.2.6：判断全部转化存储导入方案是否执行完毕；

若是，则回转执行所述的步骤1.2.4；

若否，则执行下述步骤1.2.7；

步骤1.2.7：执行下一个转化存储导入方案；

步骤1.2.8：按RowKey表达式生成行键；

3.根据权利要求2所述的基于HBase的大数据存储与检索方法，其特征在于：步骤1.2.8中所述的RowKey表达式为一套编码与解码规则，HBase中的RowKey包含特征值，通过对RowKey组成字符来源的抽象和约定，在按规则定义好RowKey表达式后，执行数据转换时解析表达式，自动从指定位置提取多个特征值字符，经过一定形式的转化后组合成为RowKey；

表4：RowKey表达式规则描述

④判断字符串控制符SB，为true表示处于字符状态，此时若EXP[i]为’”’表示字符状态结束，SB置为false，否则将EXP[i]添加到临时缓存字符串TMP中，然后转⑧；SB为false则转⑤继续判断；

⑤判断字符EXP[i]是否为’”’，是则表示开启字符状态，SB置为true，然后转⑧；否则判断是否是符号字符，如果字符是’F’，取文件名放入缓存字符串TMP，如果是’C’、’V’、’S’或’T’中的一个，则将状态变量ST设置为相应字符，然后转⑧；如果都不是则转⑥；

⑦对于无法判断的字符EXP[i]，跳过转⑧；

步骤1.2.8.3：返回行键结果字符串SR。

4.根据权利要求1所述的基于HBase的大数据存储与检索方法，其特征在于：步骤3的中将检索时用到的特征属性存放在RowKey中，将常用检索特征属性放在RowKey先前位置，针对多种检索特征属性采用多个对应RowKey规则，冗余存储数据，实现基于特征值的HBase大数据快速检索与访问；步骤3中数据检索方法具体包括以下2种；

方法一：前缀匹配检索法；

方法二：特征值匹配检索法；

5.一种利用权利要求1所述的基于HBase的大数据存储与检索方法进行大数据存储与检索的系统，其特征在于：包括数据文件管理模块、数据列管理模块、数据导入执行模块、前缀检索模块和特征值检索模块；