CN109669925B

CN109669925B - 非结构化数据的管理方法及装置

Info

Publication number: CN109669925B
Application number: CN201811392080.4A
Authority: CN
Inventors: 徐辉; 李智; 徐永
Original assignee: Beijing MetarNet Technologies Co Ltd
Current assignee: Beijing MetarNet Technologies Co Ltd
Priority date: 2018-11-21
Filing date: 2018-11-21
Publication date: 2021-03-02
Anticipated expiration: 2038-11-21
Also published as: CN109669925A

Abstract

本发明实施例提供一种非结构化数据的管理方法及装置，其中方法包括：根据非结构化数据的大小确定对应的存储方式，根据所述存储方式将所述非结构化数据存储到HDFS或HBase中；将所述非结构化数据的元数据存储在HBase的元数据列族中，根据所述非结构化数据的存储方式，将所述非结构化数据的文件索引存在HBase中对应的列族中；将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中；其中，所述元数据包括所述非结构化数据的存储方式。本发明实施例能够更高效的对数据进行精确或模糊搜索，提高整个大数据系统的运行效率。

Description

非结构化数据的管理方法及装置

技术领域

本发明实施例涉及文件存储技术领域，更具体地，涉及非结构化数据的管理方法及装置。

背景技术

在数据量越来越庞大的今天，使用单服务器存储海量数据已不太现实，多数公司企业都已使用HDFS分布式文件系统来存储数据文件，但HDFS面临的一个问题是无法适用于小文件存储。为了解决这个问题，通常有两种方案：

1、再使用另一类适用于小文件存储的分布式系统(如FastDFS)单独存储小文件，此方案优点是文件读写比较简单，缺点是由于管理两套系统，设备费用和管理成本都比较高。

2、在HDFS的文件系统上优化，来避免小文件存储，此方案优点是成本低，以现有方案为主，缺点是实现起来比较复杂。

发明内容

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的非结构化数据的管理方法及装置。

第一个方面，本发明实施例提供一种非结构化数据的管理方法，包括：

根据非结构化数据的大小确定对应的存储方式，根据所述存储方式将所述非结构化数据存储到HDFS或HBase中；

将所述非结构化数据的元数据存储在HBase的元数据列族中，根据所述非结构化数据的存储方式，将所述非结构化数据的文件索引存在HBase中对应的列族中；

将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中；其中，所述元数据包括所述非结构化数据的存储方式。

第二个方面，本发明实施例提供一种非结构化数据的管理装置，包括：

存储方式确定模块，用于根据非结构化数据的大小确定对应的存储方式，根据所述存储方式将所述非结构化数据存储到HDFS或HBase中；

元数据存储模块，用于将所述非结构化数据的元数据存储在HBase的元数据列族中，根据所述非结构化数据的存储方式，将所述非结构化数据的文件索引存在HBase中对应的列族中；

同步模块，用于将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中；其中，所述元数据包括所述非结构化数据的存储方式。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的非结构化数据的管理方法及装置，根据非结构化数据的大小确定对应的存储方式，根据所述存储方式将所述非结构化数据存储到HDFS或HBase中；将所述非结构化数据的元数据存储在HBase的元数据列族中，根据所述非结构化数据的存储方式，将所述非结构化数据的文件索引存在HBase中对应的列族中；将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中；其中，所述元数据包括所述非结构化数据的存储方式。本发明实施例能够更高效的对数据进行精确或模糊搜索，提高整个大数据系统的运行效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的非结构化数据的管理方法的流程示意图；

图2为本发明实施例的非结构化数据的存储方法的流程示意图；

图3为本发明实施例的非结构化数据的查询方法的流程示意图；

图4为本发明实施例提供的非结构化数据的管理装置的结构示意图；

图5为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了克服现有技术的上述问题，本发明实施例提供了一种非结构化数据的管理方法，其发明构思为：根据非结构化数据文件的大小确定其存储方式，以不同的方式存储到HDFS中，将数据的元数据信息都存储在HBase中，并根据存储方式的不同存入不同的列族，将元数据列族实时同步到搜索引擎Solr中，提供多种模式搜索查询，查询非结构化数据记录时，根据搜索条件搜索引擎Solr中搜索文件的元数据信息，通过搜索到的RowKey和存储方式，快速定位到文件内容所在位置，本发明实施例中用的组件都属于同一个分布式平台，可以统一安装管理。

图1为本发明实施例提供的非结构化数据的管理方法的流程示意图，如图1所示，包括：

S101、根据非结构化数据的大小确定对应的存储方式，根据所述存储方式将所述非结构化数据存储到HDFS或HBase中。

需要说明的是，本发明实施例根据非结构化数据文件的大小确定其存储方式，以不同的方式存储到HDFS或者HBase中，提高了非结构数据的存储多样性。可以理解的是，HBase是一种分布式的、面向列的开源数据库。它是一个适合于非结构化数据存储的数据库，HBase基于列的模式。

S102、将所述非结构化数据的元数据存储在HBase的元数据列族中，根据所述非结构化数据的存储方式，将所述非结构化数据的文件索引存在HBase中对应的列族中。

应当理解，元数据是描述数据的数据(data about data)，主要是描述数据属性(property)的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录，为了达到编制目录的目的，必须在描述并收藏数据的内容或特色，进而达成协助数据检索的目的。具体地，元数据可以包括文件名、文件大小、存储时间、关键字、摘要和存储方式等等。

在本发明实施例中，HBase中具有不同的列族，其中，元数据列族中用于非结构化数据的元数据，HBase中的其他列族所存储的数据与非结构化数据的存储方式有关。

S103、将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中；其中，所述元数据包括所述非结构化数据的存储方式。

具体地，本发明实施例通过Key-Value Store Indexer将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中，HDFS、HBase、Solr、Key-Value Store Indexer都是CDH平台统一安装的组件，可以非常方便统一安装、配置、管理。CDH平台也是市场上非常流行的Hadoop商用平台，该平台下所有组件都支持无缝水平扩展，无须担心性能瓶颈。可以理解的是，当非结构化数据存入HBase中时，会生成该非结构数据的唯一标识：行键。本发明实施例引入Solr搜索引擎服务提供数据读取服务，将系统读写分离，一是提供了比HBase更高效的全文检索功能，解决了HBase不通过RowKey搜索时效率过低的问题，二是解决了HBase在进行Region的拆分和合并过程中的暂时离线问题。通过Solr搜索引擎读取海量非结构化数据，即可以进行有效组织和管理数据，又能够更高效的对数据进行精确或模糊搜索，提高整个大数据系统的运行效率。

在上述实施例的基础上，将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中，之后还包括：

设置查询条件，所述查询条件为所述元数据；

根据所述查询条件查询Solr搜索引擎；

若Solr搜索引擎搜索到与所述查询条件对应的行键以及存储方式，则根据所述存储方式读取所述非结构化数据。

需要说明的是，由于Solr搜索引擎中将非结构化数据的行键与元数据相关联，当用户搜索某一项元数据时，Solr搜索引擎将获取与该元数据对应的所有行键，在获取行键后，相应地也就获取了该行键对应的所有元数据，显然也就包括存储方式，由于存储非结构化数据是具有不同的存储方式，因此读取数据时也会根据相应的存储方式进行读取。

在上述各实施例的基础上，作为一种可选实施例，存储方式包括序列化存储、单独存储以及合并存储；

其中，所述序列化存储为将非结构化数据进行序列化操作，并将操作后的文件存储在HBase中。所述合并存储为将若干个非结构化数据进行合并，并将合并后的文件存储在HDFS中。所述单独存储为将所述非结构化数据直接存储在HDFS中。

在上述各实施例的基础上，作为一种可选实施例，根据非结构化数据的大小确定对应的存储方式，根据所述存储方式将所述非结构化数据存储到HDFS或HBase中，具体为，

若所述非结构化数据的大小小于第一阈值，将所述非结构化数据以序列化存储的方式进行存储；

若所述非结构化数据的大小大于所述第一阈值且不大于第二阈值，则将同样满足大小大于所述第一阈值且不大于第二阈值的多个非结构化数据以合并存储的方式进行存储；

若所述非结构化数据的大小大于所述第二阈值，则将所述非结构数据以单独存储的方式进行存储。

可以理解的是，第一阈值小于第二阈值，第二阈值小于第三阈值。

图2为本发明实施例的非结构化数据的存储方法的流程示意图，如图2所示，包括：

选择待上传的文件，即非结构数据；

抽取待上传文件的元数据；

判断待上传文件的大小；

若待上传文件小于第一阈值5M，则将待上传文件序列化，并设置待上传文件的存储方式为序列化存储，对待上传文件进行序列化操作，将序列化后的待上传文件和元数据存储HBase中，将非结构化数据的行键以及元数据同步至Solr搜索引擎。

若待上传文件介于第一阈值5M与第二阈值64M之间，则查询Solr找到以合并方式存储且标识为未完成的文件，若加上待上传文件不大于128M，则合并文件，并记录偏移量和字节数，存储方式设置为合并存储，将合并后的文件的HDFS路径以及元数据存入HBase；若加上待上传文件大于128M，则合并文件设置为已完成，并新建一个空合并文件，将待上传文件写入新合并文件，并记录偏移量和字节数，存储方式设置为合并存储，将合并后的文件的HDFS路径以及上传文件的元数据存入HBase。

若待上传文件大于64M，则将文件上传至HDFS，并将存储方式设置为单独存储，将文件的HDFS路径以及元数据存储在HBase中，将非结构化数据的行键以及元数据同步至Solr搜索引擎。

在上述各实施例的基础上，作为一种可选实施例，根据所述非结构化数据的存储方式，将所述非结构化数据的文件索引存在HBase中对应的列族中，具体为：

若所述非结构化数据的存储方式为序列化存储，则将所述非结构化数据的二进制内容作为所述非结构化数据的文件索引，存储在HBase中的序列化存储列族中；

若所述非结构化数据的存储方式为合并存储，则将合并后的文件在HDFS中的存储路径以及所述非结构化数据在合并文件中的偏移量和字节数作为所述非结构化数据的文件索引，存储在HBase中的合并存储列族中；

若所述非结构化数据的存储方式为单独存储，则将所述非结构化数据在HDFS中的存储路径作为所述非结构化数据的文件索引，存储在HBase中的单独存储列族中。

相应地，在上述实施例的基础上，根据所述存储方式读取所述非结构化数据，具体为：

若所述非结构化数据的存储方式为单独存储，则根据所述非结构数据的行键查询HBase中的单独存储列族，获得所述非结构化数据的在HDFS中的存储路径，读取所述非结构化数据的在HDFS中的存储路径获得所述非结构化数据；

若所述非结构化数据的存储方式为合并存储，则根据所述非结构数据的行键查询HBase中的合并存储列族中，获得合并后的文件在HDFS中的存储路径以及所述非结构化数据在合并文件中的偏移量和字节数，读取所述非结构化数据的对应字节生成所述非结构化数据；

若所述非结构化数据的存储方式为序列化存储，则根据所述非结构化数据的行键查询HBase中的序列化存储列族，获得所述非结构化数据的序列化文件，对所述序列化文件进行反序列化处理，获得所述非结构化数据。

图3为本发明实施例的非结构化数据的查询方法的流程示意图，如图3所示，包括：

设置查询条件，例如文件名、文件大小、时间、存储方式、关键字、摘要等等。

根据查询条件查询Solr搜索引擎，若未查询到匹配的结果，则返回：未找到文件并结束查询。若查询到匹配的结果，则列出搜索到的文件列表，包括元数据信息；

若用户不需要下载文件，则结束查询。若用户需要下载文件，则进一步选择需要下载的文件，并从Solr搜索引擎获取文件对应的rowkey(即行键)以及存储方式。

首先判断该文件的存储方式为单独存储，若是，则根据所述非结构数据的行键查询HBase中的单独存储列族，获得所述非结构化数据的在HDFS中的存储路径，读取所述非结构化数据的在HDFS中的存储路径获得所述非结构化数据；若否，则进一步判断该文件的存储方式是否为合并存储。

若是，则则根据所述非结构数据的行键查询HBase中的合并存储列族中，获得合并后的文件在HDFS中的存储路径以及所述非结构化数据在合并文件中的偏移量和字节数，读取所述非结构化数据的对应字节生成所述非结构化数据；若否，则进一步判断该文件的存储方式是否为序列化存储。

若是，则根据所述非结构化数据的行键查询HBase中的序列化存储列族，获得所述非结构化数据的序列化文件，对所述序列化文件进行反序列化处理，获得所述非结构化数据。

图4为本发明实施例提供的非结构化数据的管理装置的结构示意图，如图4所示，该管理装置包括：存储方式确定模块401、元数据存储模块402和同步模块403，其中：

存储方式确定模块401用于根据非结构化数据的大小确定对应的存储方式，根据所述存储方式将所述非结构化数据存储到HDFS或HBase中。

具体地，本发明实施例根据非结构化数据文件的大小确定其存储方式，以不同的方式存储到HDFS或者HBase中，提高了非结构数据的存储多样性。可以理解的是，HBase是一种分布式的、面向列的开源数据库。它是一个适合于非结构化数据存储的数据库，HBase基于列的模式。

元数据存储模块402用于将所述非结构化数据的元数据存储在HBase的元数据列族中，根据所述非结构化数据的存储方式，将所述非结构化数据的文件索引存在HBase中对应的列族中

具体地，应当理解，元数据是描述数据的数据(data about data)，主要是描述数据属性(property)的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录，为了达到编制目录的目的，必须在描述并收藏数据的内容或特色，进而达成协助数据检索的目的。具体地，元数据可以包括文件名、文件大小、存储时间、关键字、摘要和存储方式等等。

同步模块403用于将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中；其中，所述元数据包括所述非结构化数据的存储方式。

本发明实施例提供的管理装置，具体执行上述各管理方法实施例流程，具体请详见上述各管理方法实施例的内容，在此不再赘述。本发明实施例提供的管理装置具有以下优势：1、HDFS、HBase、Solr、Key-Value Store Indexer都是CDH平台统一安装的组件，可以非常方便统一安装、配置、管理。CDH平台也是市场上非常流行的Hadoop商用平台。该平台下所有组件都支持无缝水平扩展，无须担心性能瓶颈。2、将所有文件纳入HBase管理，提供了统一的文件上传下载入口的流程，简化了开发难度和代码量。3、引入Solr搜索引擎服务提供数据读取服务，将系统读写分离，一是提供了比HBase更高效的全文检索功能，解决了HBase不通过RowKey搜索时效率过低的问题，二是解决了HBase在进行Region的拆分和合并过程中的暂时离线问题。通过Solr搜索引擎读取海量非结构化数据，即可以进行有效组织和管理数据，又能够更高效的对数据进行精确或模糊搜索，提高整个大数据系统的运行效率。

图5为本发明实施例提供的电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储在存储器530上并可在处理器510上运行的计算机程序，以执行上述各实施例提供的管理方法，例如包括：根据非结构化数据的大小确定对应的存储方式，根据所述存储方式将所述非结构化数据存储到HDFS或HBase中；将所述非结构化数据的元数据存储在HBase的元数据列族中，根据所述非结构化数据的存储方式，将所述非结构化数据的文件索引存在HBase中对应的列族中；将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中；其中，所述元数据包括所述非结构化数据的存储方式。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的管理方法，例如包括：根据非结构化数据的大小确定对应的存储方式，根据所述存储方式将所述非结构化数据存储到HDFS或HBase中；将所述非结构化数据的元数据存储在HBase的元数据列族中，根据所述非结构化数据的存储方式，将所述非结构化数据的文件索引存在HBase中对应的列族中；将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中；其中，所述元数据包括所述非结构化数据的存储方式。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种非结构化数据的管理方法，其特征在于，包括：

将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中；其中，所述元数据包括所述非结构化数据的存储方式；

所述存储方式包括序列化存储、单独存储以及合并存储；

其中，所述序列化存储为将非结构化数据进行序列化操作，并将操作后的文件存储在HBase中；

所述合并存储为将若干个非结构化数据进行合并，并将合并后的文件存储在HDFS中；

所述单独存储为将所述非结构化数据直接存储在HDFS中；

所述根据非结构化数据的大小确定对应的存储方式，根据所述存储方式将所述非结构化数据存储到HDFS或HBase中，具体为，

2.根据权利要求1所述的非结构化数据的管理方法，其特征在于，所述将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中，之后还包括：

设置查询条件，所述查询条件为所述元数据；

根据所述查询条件查询Solr搜索引擎；

3.根据权利要求2所述的非结构化数据的管理方法，其特征在于，所述根据所述非结构化数据的存储方式，将所述非结构化数据的文件索引存在HBase中对应的列族中，具体为：

4.根据权利要求3所述的非结构化数据的管理方法，其特征在于，所述根据所述存储方式读取所述非结构化数据，具体为：

5.一种非结构化数据的管理装置，其特征在于，包括：

同步模块，用于将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中；其中，所述元数据包括所述非结构化数据的存储方式；

所述存储方式包括序列化存储、单独存储以及合并存储；

所述单独存储为将所述非结构化数据直接存储在HDFS中；

6.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至4中任意一项所述的非结构化数据的管理方法。

7.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至4中任意一项所述的非结构化数据的管理方法。