CN102906751B

CN102906751B - 一种数据存储、数据查询的方法及装置

Info

Publication number: CN102906751B
Application number: CN201280000916.6A
Authority: CN
Inventors: 韩建中
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2012-07-25
Filing date: 2012-07-25
Publication date: 2015-12-02
Anticipated expiration: 2032-07-25
Also published as: CN102906751A; WO2014015488A1

Abstract

本发明公开一种数据存储、数据查询的方法及装置，涉及通信网络技术领域，可以提高存储和检索数据的速度。本发明实施例提供的方案，通过云存储设备获取待保存数据，将所述待保存数据均匀分布到各云存储数据节点上，并行地将所述待保存数据存储到云存储的分布式数据库中。以及云存储设备获取用户输入的索引字段，根据所述索引字段生成查询指令；将所述查询指令发送到各云存储的数据节点，并行地在云存储的分布式数据库中查询数据；将所述各云存储节点的查询结果的集合发送给所述用户。本发明实施例提供的方案适于进行数据存储以及数据查询时采用。

Description

一种数据存储、数据查询的方法及装置

技术领域

本发明涉及通信网络技术领域，尤其涉及一种数据存储、数据查询的方法及装置。

背景技术

云计算(CloudComputing)是分布式处理、并行处理和网格计算发展的产物。云存储是对云计算的延伸和发展，指通过集群应用、网格技术或分布式文件系统、分布式数据库等，将网络中大量的存储设备通过软件集合起来协同工作，共同对外提供数据存储和业务访问功能的一种系统。

目前，关系型数据库以行和列的形式对数据进行存储。以oracle数据库话单表为例，一般每条话单记录在数据库表中是以行的形式存在，每行都会包含：号码、对方号码、通话时间，通话时长等多个字段。数据在底层是以数据块(oracledatablock)形式保存的。数据块是oracel的最小存储单元，占用一定的磁盘空间(如16k的块)，即Oracle每次I/O(input/output，输入输出)操作都是以块为单位的，例如虽然一条话单只有100字节，但查询时至少要读取一个块的数据。如果这条话单跨两个数据块，则需要读取2个块。

也可以采用文件系统进行数据的存储与查询。例如，将详单、账单数据以文件的方式存储在文件系统中。其中，文件系统可以以地区、时间(例如账期)、号码等对数据分类，并直接将结构化记录以文本或其他方式存储在文件中。通常文件系统采用基于时间为目录结构的存储方式，例如按照时间(账期)及用户号段等建立目录，以号码为单位建立记录文件。当需要查询数据时，可以采用目录层次、文件名等方式建立简单索引。查询数据过程中需要检索文件系统海量元数据，将存储的文件全部读入，进行解压缩操作，并在应用层进行数据检索。

然而，采用现有技术进行海量数据存储及数据查询时，导致存储与查询速度较慢。

发明内容

本发明的实施例提供一种数据存储、数据查询的方法及装置，可以提高存储和检索数据的速度。

本发明的实施例采用如下技术方案：

一种数据存储的方法，包括：

云存储设备获取待保存数据；

所述云存储设备将所述待保存数据均匀分布到各云存储数据节点上，并行地将所述待保存数据存储到云存储的分布式数据库中。

一种数据查询的方法，包括：

云存储设备获取用户输入的索引字段，根据所述索引字段生成查询指令；

所述云存储设备将所述查询指令发送到各云存储的数据节点，并行地在云存储的分布式数据库中查询数据；

所述云存储设备将所述各云存储节点的查询结果的集合发送给所述用户。

一种数据存储的装置，包括：

获取模块，用于获取待保存数据；

存储模块，用于将所述待保存数据均匀分布到各云存储数据节点上，并行地将所述待保存数据存储到云存储的分布式数据库中。

一种数据查询的装置，包括：

获取模块，用于获取用户输入的索引字段，根据所述索引字段生成查询指令；

处理模块，用于将所述查询指令发送到各云存储的数据节点，并行地在在云存储的分布式数据库中查询数据；以及将所述各云存储节点的查询结果的集合发送给所述用户。

一种数据存储系统，包括：终端和云存储设备；

所述终端，用于根据配置的数据抽取规则对数据源中的数据进行抽取，获得第一数据；将所述第一数据保存在临时文件夹中，以便云存储设备根据数据上传规则，以及获取的中转区路径将所述临时文件夹中的所述第一数据上传到所述云存储设备的临时文件中转区的相应目录中；

所述云存储设备，用于根据配置的所述数据上传规则，以及所述中转区路径，将所述终端中的临时文件夹中的所述第一数据上传到云存储的临时文件中转区的相应目录中；将所述临时文件中转区的相应目录中的所述第一数据均匀分布到各云存储数据节点上，并行地将所述待保存数据存储到云存储的分布式数据库中。

本发明实施例提高一种数据存储、数据查询的方法及装置，通过云存储设备获取待保存数据；所述云存储设备将所述待保存数据均匀分布到各云存储数据节点上，并行地将所述待保存数据存储到云存储的分布式数据库中。以及云存储设备获取用户输入的索引字段，根据所述索引字段生成查询指令；所述云存储设备将所述查询指令发送到各云存储的数据节点，并行地在云存储的分布式数据库中查询数据；所述云存储设备将所述各云存储节点的查询结果的集合发送给所述用户。与现有技术中进行数据存储及数据查询时，当采用关系型数据库进行存取数据时，都要以块为单位进行存取，导致存储与查询速度较慢；当采用文件系统进行存取数据时，由于为纯文件操作，无法按照指定条件查询，导致管理比较困难，并且检索时需要将全部文件读取，进行解压缩，导致检索速度较慢相比，本发明实施例提供的方案可以提供并行存储以及并行数据查询，可以提高存储和检索数据的速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的一种数据存储的方法的流程图；

图2为本发明实施例1提供的一种数据查询的方法的流程图；

图3为本发明实施例1提供的一种数据存储的装置的框图；

图4为本发明实施例1提供的一种数据查询的装置的框图；

图5A为本发明实施例2提供的一种数据存储、数据查询的方法的流程图；

图5B为本发明实施例2提供的一种数据存储、数据查询的方法的示意图；

图6为本发明实施例2提供的一种数据存储的装置的框图；

图7为本发明实施例2提供的一种数据查询的装置的框图；

图8为本发明实施例2提供的一种数据存储的系统的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明实施例提供一种数据存储的方法，如图1所示，该方法包括：

步骤101，云存储设备获取待保存数据；

在本步骤之前还包括：对云存储规则进行初始配置，包括定义目录与子业务类型的规则，定义子业务类型对应文件的导入规则，定义数据的生命周期，所述生命周期指按照时间定义每类数据的存储策略；对数据抽取规则进行初始配置，包括抽取数据的数据源，抽取进程的数量，每个抽取进程对应的数据范围；对数据上传规则进行初始配置，包括上传进程的数量，每个上传进程对应的数据范围。

可选的，根据配置的所述数据抽取规则对外部数据源中的数据进行抽取获得第一数据，或者将所述外部数据源中的数据进行格式转换后获取第二数据；

根据云存储的管理节点获取云存储的中转区路径；

根据配置的所述数据上传规则，以及所述中转区路径将所述第一数据或者第二数据保存到云存储的临时文件中转区的相应目录中，其中所述临时文件中转区中的各个目录下的各个文件以文本文件格式保存。

步骤102，所述云存储设备将所述待保存数据均匀分布到各云存储数据节点上，并行地将所述待保存数据存储到云存储的分布式数据库中。

可选的，所述云存储设备将所述待保存数据根据哈希算法均匀分布到各云存储数据节点上；

所述云存储设备将所述各云存储数据节点上的不同的所述待保存数据同时存储到云存储的分布式数据库中，或者，将所述各云存储数据节点上的同一个所述待保存数据进行拆分后的片段同时存储到云存储的分布式数据库中。

可选的，当所述云存储设备将所述待保存数据均匀分布到各云存储数据节点上，并行地将所述待保存数据存储到云存储的分布式数据库中时，随着所述云存储数据节点的增加，自动增加并行存储的并行度。

可选的，在所述云存储设备将所述待保存数据均匀分布到各云存储数据节点上，并行地将所述待保存数据存储到云存储的分布式数据库中之前，还包括：

根据所述临时文件中转区的相应目录，以及配置的所述云存储规则中目录与子业务类型的规则，确定所述待保存数据的子业务类型；

根据配置的所述云存储规则中子业务类型对应文件的导入规则，将所述待保存数据均匀分布到各云存储节点上，并行地将所述第一文件中的所述待保存数据存储到云存储的数据库中。

进一步的，根据配置的所述云存储规则中数据生命周期的规则，对所述云存储的分布式数据库中的所述待保存数据的不同时期进行不同的处理。

另外，根据配置的所述云存储规则对保存在所述分布式数据库中的不同用途的数据保存为不同的份数，其中，所述不同用途的数据包括生产数据和备份数据，所述生产数据供查询时使用。

本发明实施例提供一种数据存储的方法，通过将待保存数据均匀分布到各云存储数据节点上，并行地将所述待保存数据存储到云存储的分布式数据库中，数据库中数据记录的分布式存储，使得可以快速保存数据。

本发明实施例提供一种数据查询的方法，如图2所示，该方法包括：

步骤201，云存储设备获取用户输入的索引字段，根据所述索引字段生成查询指令；

例如，用户可以输入手机号码以及待查询详单的月份，可以根据手机号码以及月份生成查询指令，进行后续查询操作。

进一步的，通过查询接口，接收用户输入的索引字段。

步骤202，所述云存储设备将所述查询指令发送到各云存储的数据节点，并行地在云存储的分布式数据库中查询数据；

保存的数据可以分为生产数据以及备份数据，查询时仅对生产数据进行查询，当生产数据破坏时，可以采用备份数据对生产数据进行恢复。查询数据时并不关心数据的存储位置以及是否压缩。

所述云存储设备将所述查询指令同时发送到各云存储的数据节点上；所述云存储设备同时在所述各云存储的数据节点上承载的分布式数据库中查询符合所述查询指令的数据。

步骤203，所述云存储设备将所述各云存储节点的查询结果的集合发送给所述用户。

可选的，所述云存储设备将所述各云存储节点的查询结果按照用户自定义规则进行排序，并将排序后的查询结果集合发送给所述用户；或者，

所述云存储设备将所述各云存储节点的查询结果按照节点顺序进行排序，并将排序后的查询结果集合发送给所述用户；或者，

所述云存储设备将所述各云存储节点的查询结果按照所述查询结果中的关键字进行顺序，并将排序后的查询结果集合发送给所述用户。

本发明实施例提供一种数据查询的方法，通过根据查询指令，各云存储的数据节点并行地在云存储的分布式数据库中查询数据，使得可以极大地提升查询性能。

本发明实施例提供一种数据存储的装置，该装置可以为云存储设备，如图3所示，该装置包括：获取模块301，存储模块302；

获取模块301，用于获取待保存数据；

进一步的，所述获取模块301中的数据获取单元，用于根据配置的所述数据抽取规则对外部数据源中的数据进行抽取获得第一数据，或者将所述外部数据源中的数据进行格式转换后获取第二数据；

所述获取模块301中的数据上传单元，用于根据云存储的管理节点获取云存储的中转区路径；以及根据配置的所述数据上传规则，以及所述中转区路径将所述第一数据或者第二数据保存到云存储的临时文件中转区的相应目录中，其中所述临时文件中转区中的各个目录下的各个文件以文本文件格式保存。

进一步的，所述装置还包括初始配置模块，用于对云存储规则进行初始配置，包括定义目录与子业务类型的规则，定义子业务类型对应文件的导入规则，定义数据的生命周期，所述生命周期指按照时间定义每类数据的存储策略；以及对数据抽取规则进行初始配置，包括抽取数据的数据源，抽取进程的数量，每个抽取进程对应的数据范围；以及对数据上传规则进行初始配置，包括上传进程的数量，每个上传进程对应的数据范围。

存储模块302，用于将所述待保存数据均匀分布到各云存储数据节点上，并行地将所述待保存数据存储到云存储的分布式数据库中。

其中，所述存储模块302中的分布单元，用于将所述待保存数据根据哈希算法均匀分布到各云存储数据节点上；

所述存储模块302中的存储单元，用于将所述各云存储数据节点上的不同的所述待保存数据同时存储到云存储的分布式数据库中，或者，将所述各云存储数据节点上的同一个所述待保存数据进行拆分后的片段同时存储到云存储的分布式数据库中。

当将所述待保存数据均匀分布到各云存储数据节点上，并行地将所述待保存数据存储到云存储的分布式数据库中时，随着所述云存储数据节点的增加，自动增加并行存储的并行度。

进一步的，所述装置还包括：确定模块，用于根据所述临时文件中转区的相应目录，以及配置的所述云存储规则中目录与子业务类型的规则，确定所述待保存数据的子业务类型；

所述存储模块302，用于根据配置的所述云存储规则中子业务类型对应文件的导入规则，将所述待保存数据均匀分布到各云存储的数据节点上，并行地将所述待保存数据存储到云存储的分布式数据库中。

进一步的，所述装置还包括：管理模块，用于根据配置的所述云存储规则中数据生命周期的规则，对所述云存储的分布式数据库中的所述待保存数据的不同时期进行不同的处理。

所述存储模块还用于：

根据配置的所述云存储规则对保存在所述分布式数据库中的不同用途的数据保存为不同的份数，其中，所述不同用途的数据包括生产数据和备份数据，所述生产数据供查询时使用。

本发明实施例提供一种数据存储的装置，通过获取模块获取待保存数据，存储模块将待保存数据均匀分布到各云存储的数据节点上，并行地将待保存数据存储到云存储的分布式数据库中，数据库中数据记录的分布式存储，使得可以快速保存数据。

本发明实施例提供一种数据查询的装置，该装置可以为云存储设备，如图4所示，该装置包括：获取模块401，处理模块402；

获取模块401，用于获取用户输入的索引字段，根据所述索引字段生成查询指令；

处理模块402，用于将所述查询指令发送到各云存储的数据节点，并行地在在云存储的分布式数据库中查询数据；以及将所述各云存储节点的查询结果的集合发送给所述用户。

其中，所述处理模块402中的发送单元，用于将所述查询指令同时发送到各云存储的数据节点上；

所述处理模块402中的处理单元，用于同时在所述各云存储的数据节点上承载的分布式数据库中查询符合所述查询指令的数据。

可选的，所述处理模块402，用于：

将所述各云存储节点的查询结果按照用户自定义规则进行排序，并将排序后的查询结果集合发送给所述用户；或者，

将所述各云存储节点的查询结果按照节点顺序进行排序，并将排序后的查询结果集合发送给所述用户；或者，

将所述各云存储节点的查询结果按照所述查询结果中的关键字进行顺序，并将排序后的查询结果集合发送给所述用户。

本发明实施例提供一种数据查询的装置，通过获取模块生成的查询指令，处理模块同时并行地在数据库中查询数据，使得可以极大地提升查询性能。

实施例2

本发明实施例提供一种数据存储、数据查询的方法，如图5所示，该方法包括：

步骤501，云存储设备对云存储规则进行初始配置；

可选的，云存储设备接收管理员对云存储规则进行初始配置，其中包括定义存储的基本规则，以及定义数据的生命周期。

进一步的，1)定义使用云存储的业务类型；

具体的，①定义业务名称；例如详单业务、账单业务、电子文档业务等等。

②定义云存储业务的保存数量；例如，设置至少保存2份数据，例如，可以设置详单业务保存3份。

③设置每份数据的用途；例如数据可以分为生产数据或者备份数据，其中，生产数据用于对数据的查询，备份数据用于对生产数据的恢复，不用于数据查询。例如，保存的3份详单业务，设置第1份和第2份为生产数据，第3份为备份数据，则正常情况下只提供对第1份和第2份数据的访问，当第1份数据或者第2份数据损坏了，则可以选择从第3份数据进行恢复。另外，可以设置3份数据都用于生产，此时云存储的调度程序则在3份数据间均匀的分配请求。

④定义业务类型的数据生命周期；其中，生命周期是指按照时间定义每类数据的存储策略。

存储策略可以包括：不压缩存储、压缩存储以及删除。其中压缩存储可以定义不同的压缩算法，例如低密压缩，即对查询效率较高的数据采用压缩比在2∶1左右的压缩率；中度压缩，即兼顾查询和存储空间，对数据采用压缩比在5∶1左右的压缩率；高密度压缩，即对查询效率较低的数据采用压缩比高于8∶1的压缩率。

另外，不同的存储时间范围可以采用不同的存储策略，例如可以设置在数据存入数据库时、数据存储第X天、数据存储第Y月分别采用不同的存储策略。

采用业务类型的数据生命周期规则对数据库的管理，可以自动进行数据的压缩与清除，降低管理难度，提高数据库的使用率。

另外，生产数据和备用数据可以有不同的数据生命周期，例如生产数据可以采用存入数据库时不压缩、30天后低密压缩、90天后删除；备用数据可以采用存入数据库时采用中密度压缩，90天后采用高密度压缩，永不删除。

2)定义子业务类型；例如详单业务，以分为GSM(GlobalSystemofMobilecommunication，全球移动通讯系统)详单、GSM语音详单、短信详单等，这些子业务类型相当于云存储的表。

默认情况下，子业务类型的保存份数等信息继承业务类型的设置。另外，子业务类型也可以单独设置自己的保存份数，及每份的数据生命周期等信息。

3)设置云存储的目录与子业务类型的关系，此关系按最长路径优先的原则进行设置。例如，“/CDR/”对应默认业务，则目录“/CDR/gsm_cdr/”下所有文件(含子目录下的文件)都属于子业务“GSM语音”，导入到GSM语音话单表中，目录“/CDR/gprs/”下所有文件(含子目录下的文件)导入到GPRS话单表中，目录“/CDR/”下的其他文件都导入“默认业务”表。也就是说，当根据目录查找子业务类型时，一个目录如果有五级，则从第五级目录开始查找，如果在第五级中没有目录存在，则从第四级目录开始查找，，以此类推。

4)定义这些子业务类型对应文件的导入规则，其中主要设置的内容包括：信息的名称；信息的解析位置；信息的类型，例如整型、小数型、字符串、大文本(用于存储图像、文件)等；信息是否为数据分布型，例如可以根据信息，对整个数据进行均匀分布；该信息是否为时间型数据，可以根据该字段定义数据的生命周期；当信息为时间型数据时，设置时间格式，例如采用YYYY-MM-DDHH24:MI:SS格式等。

例如，对于GSM语音话单可以设置如下值：

信息名称为：手机号码(如13606401754)；信息解析位置为1；信息的类型为字符串STRING，即按照字符串处理；信息是否为数据分布型：是，例如GSM详单按照手机号码均匀分布；信息是否为时间型数据：不是时间型；不设置时间格式。

GSM语音话单的格式为：

13606401754|01|053188163000|2011-12-3109:30:00|51|0.20|…..手机号码为第一个字段，则云存储进行信息解析的位置为1。

再例如：信息名称为：通话开始时间；信息解析位置为4；信息的类型为字符串STRING，即按照字符串处理；信息是否为数据分布型：是，例如GSM详单按照手机号码均匀分布；信息是否为时间型数据：是时间型；时间格式为：YYYY-MM-DDHH24:MI:SS，如2011-12-3109:30:00。

信息名称为：话单类型；信息解析位置为2；信息的类型为字符串STRING，即按照字符串处理；信息是否为数据分布型：否；信息是否为时间型数据：不是时间型；不设置时间格式。

信息名称为：对方号码(如：053188163000)；信息解析位置为3；信息的类型为字符串STRING，即按照字符串处理；信息是否为数据分布型：否；信息是否为时间型数据：不是时间型；不设置时间格式。

信息名称为：通话时长(如51秒)；信息解析位置为5；信息的类型为字符串STRING，即按照字符串处理；信息是否为数据分布型：否；信息是否为时间型数据：不是时间型；不设置时间格式。

信息名称为：通话费用(如0.20元)；信息解析位置为6；信息的类型为小数型；信息是否为数据分布型：否；信息是否为时间型数据：不是时间型；不设置时间格式。

步骤502，所述云存储设备对数据抽取规则进行初始配置；以及对数据上传规则进行初始配置；

所述云存储设备接收管理员对数据抽取以及数据上传规则的初始配置，具体的，对数据抽取规则包括以下内容：①抽取数据采用的外部数据源，以及与数据源的连接方式；②数据抽取进程的数量，以及每个数据抽取进程对应的数据范围，例如，按照地区、手机号段、号码尾数等进行数据抽取；③抽取的文件的大小，例如第一文件为10M，以及抽取号码数阈值，例如最多抽取100个电话号码；④数据抽取后的文件存放路径。对数据上传规则包括以下内容：数据上传进程的数量，以及每个数据上传进程对应的数据范围。

需要说明的是，步骤501与步骤502为执行本发明实施例所做的准备工作，步骤501与步骤502的执行顺序并不是严格固定的，可以先执行步骤501，也可以先执行步骤502。

步骤503，所述云存储设备根据配置的所述数据抽取规则对外部数据源中的数据进行抽取，获得第一数据，或者将所述外部数据源中的数据进行格式转换后获取第二数据；

需要说明的是，外部数据源可以为终端中保存的数据源。

其中，可以直接接收外部数据源通过将话单格式转换为云存储能够识别的格式的数据，此时不需要对外部数据源进行数据抽取，获取格式转换后的第二数据，然后对接收到的数据进行上传以及导入云存储的分布式数据库。

每个数据抽取进程会按照配置的数据抽取规则进行数据抽取，抽取的数据的格式为文本文件的格式，例如：话单文件，其格式为：

13606400001|01|053188163000|2011-12-3109:30:00|51|0.20|…..

13606400001|01|13906400128|2011-12-3109:35:10|65|0.40|…..

13606401754|01|053188163000|2011-12-3109:30:00|51|0.20|…..

13606401754|01|13906400128|2011-12-3109:35:10|65|0.40|…..

其中，文件每行代表一条通话详单，以竖线分割，各字段的定义为：

1.手机号码，例如，13606400001；

2.通话类型，其中01代表主叫，02代表被叫；

3.对方号码，例如，053188163000；

4.通话时间，例如，2011-12-3109:30:00；

5.通话时长(秒)，例如，51秒；

6.通话费(元)，例如，0.2。

例如第一条通话详单的含义为13606400001手机机主在2011-12-3109:30:00拨打了号码053188163000通话时长51秒，通话费为0.2元。

步骤504，所述云存储设备根据云存储的管理节点获取云存储的中转区路径；

例如，数据上传进程连接到云存储的管理节点，调用云存储提供的获取上传目录服务，其中数据上传目录服务包括的参数为：业务类型、子业务类型、数据特征(例如区号为531的济南地区，20111201账期。云存储的管理节点根据业务设置以及各云存储节点的忙闲程度确定该数据上传进程可以使用的文件目录，并将该文件目录组织成URL(Uniform/UniversalResourceLocator，统一资源定位符)格式返回给数据上传进程，其中URL格式的目录即为需要获取的中转区路径，例如可以为ftp://192.168.1.1/CDR/gsm_cdr/531/20111201/。

步骤505，所述云存储设备根据配置的所述数据上传规则，以及所述中转区路径将所述第一数据或者第二数据保存到云存储的临时文件中转区的相应目录中，其中所述临时文件中转区中的各个目录下的各个文件以文本文件格式保存；

其中，根据具体数据的类型，将数据保存到云存储的临时文件中转区的相应目录中，例如将GSM格式数据保存到“/CDR/gsm_cdr/”下所有文件中，将GPRS格式数据保存到“/CDR/gprs/”下所有文件中。

需要说明的是，当要存储到云存储的分布式数据库中的数据量非常大时，或者网络条件不好时，在导入过程中可能会发生中断，因此可以通过本发明实施例中建立的临时文件中转区，可以保证数据完整的上传到云存储的第二目录中后，再导入到云存储的分布式数据库中，提高传输的数据的完整性。

步骤506，所述云存储设备根据所述临时文件中转区的相应目录，以及配置的所述云存储规则中目录与子业务类型的规则，确定所述待保存数据的子业务类型；

云存储的数据导入进程将中转区临时文件保存到云存储的分布式数据库中，首先，数据导入进程根据待导入数据所在的中转区的相应目录确定子业务类型。具体的，从步骤501中初始配置的云存储规则中预定义的“目录与子业务类型”规则中得到每个目录下文件对应的表名，然后多个数据导入进程并行扫描多个目录，从而确定第二目录下的子业务类型。

例如，当处理“/CDR/gsm_cdr/”目录下待导入文件时(这些已经确认传输完毕，可以进行数据导入)，会按照预定义的规则导入到GSM语音话单表。当根据“/CDR/gsm_cdr/”目录确定子业务类型时，则可以确定其子业务类型为GSM语音详单。

步骤507，所述云存储设备根据配置的所述云存储规则中子业务类型对应文件的导入规则，将所述待保存数据均匀分布到各云存储的数据节点上，并行地将所述待保存数据存储到云存储的分布式数据库中；

其中，所述云存储设备将所述待保存数据根据哈希算法均匀分布到各云存储数据节点上；所述云存储设备将所述各云存储数据节点上的不同的所述待保存数据同时存储到云存储的分布式数据库中，或者，将所述各云存储数据节点上的同一个所述待保存数据进行拆分后的片段同时存储到云存储的分布式数据库中。

根据步骤501中定义的子业务类型对应文件的导入规则，将临时文件中转区中的文件导入到云存储的分布式数据库中，其中，导入时，需要根据导入规则中定义的数据分布规则，即信息为数据分布型时，根据哈希hash算法自动将临时文件中转区中的待保存数据均匀分布到各云存储节点上。例如可以根据手机号码进行均匀分布，则临时文件中转区中待保存数据中的手机号码1所在的记录分布到节点A，手机号码2所在的记录分布到节点B。

进一步的，本步骤为云存储自动进行并行导入的，并且对于云存储节点的增加，自动增加并行度，例如，云存储节点为3个时，并行度为3，云存储节点为4个时，并行度为4。需要说明的是，传统的导入方法默认不是并行导入数据库，虽然可以手动指定进行并行导入数据，但不会随着硬件能力的增强而自动增加并行度。因此采用本发明实施例提供的方法可以实现并行的数据导入和读取，较传统的数据导入方式性能有较大的提升。

另外，将待保存数据导入云存储的分布式数据库时，可以根据配置的云存储规则对数据进行多份保存，例如针对详单业务可以保存3份数据，第1份与第2份为生产数据，供查询时使用，并且不进行压缩，第3份为备份数据，进行中密度压缩。

步骤508，所述云存储设备根据配置的所述云存储规则中数据生命周期的规则，对所述云存储的分布式数据库中的所述待保存数据的不同时期进行不同的处理；

例如，对于生产数据可以在30天后进行低密度压缩，90天后进行删除；对于备份数据在存储入云存储的分布式数据库的同时进行中密度压缩，在90天后进行高密度压缩，永不删除。

根据数据生命周期的规则对数据库进行自动压缩与清除，可以提高数据库的存储率，并且可以减轻维护人员的工作量，降低管理难度。

步骤509，所述云存储设备获取用户输入的索引字段，根据所述索引字段生成查询指令；

例如，索引字段可以为手机号码、查询月份后。生成的查询指令则包括手机号码、查询月份。

进一步的，通过查询接口，接收用户输入的索引字段。

步骤510，所述云存储设备将所述查询指令发送到各云存储的数据节点，并行地在云存储的分布式数据库中查询数据；

所述云存储设备将所述查询指令同时发送到各云存储的数据节点上；

所述云存储设备同时在所述各云存储的数据节点上承载的分布式数据库中查询符合所述查询指令的数据。

需要说明的是，查询时仅对生产数据进行查询。查询应用本身不需要关心数据的存储位置以及是否压缩。

云存储的分布式数据库中数据记录的分布式存储可以提供并行查询，一次数据查询中能够并行化执行的步骤会被分解到各个存储节点上并行执行，从而极大的提升查询性能。

步骤511，所述云存储设备将所述各云存储节点的查询结果的集合发送给所述用户。

如图5B所示的一种数据存储、数据查询的方法的示意图，云存储设备通过数据抽取进程获取外部数据源中待保存数据；数据上传进程获取临时文件，并上传到临时文件中转区中，等待导入到云存储的分布式数据库中；数据导入进程获取临时文件中转区中的文件，并行导入到云存储的分布式数据库中。后期对分布式数据库中的数据进行管理时，通过数据生命周期的规则对数据进行压缩以及清除。当用户需要对云存储的分布式数据库中的数据进行查询时，可以通过查询接口进行直接查询。

本发明实施例提供的一种数据存储、数据查询的方法，通过提供并行存储以及并行数据查询，可以提高存储和检索数据的速度，并且降低管理难度。

本发明实施例提供一种数据存储的装置，该装置可以为云存储设备，如图6所示，该装置包括：获取模块601，数据获取单元6011，数据上传单元6012，存储模块602，分布单元6021，存储单元6022，初始配置模块603，确定模块604，管理模块605；

获取模块601，用于获取待保存数据；

存储模块602，与获取模块601连接，用于将所述待保存数据均匀分布到各云存储的数据节点上，并行地将所述待保存数据存储到云存储的分布式数据库中。

进一步的，所述装置还包括初始配置模块603，用于对云存储规则进行初始配置，包括定义目录与子业务类型的规则，定义子业务类型对应文件的导入规则，定义数据的生命周期，所述生命周期指按照时间定义每类数据的存储策略；以及对数据抽取规则进行初始配置，包括抽取数据的数据源，抽取进程的数量，每个抽取进程对应的数据范围；以及对数据上传规则进行初始配置，包括上传进程的数量，每个上传进程对应的数据范围。

进一步的，所述获取模块601包括数据获取单元6011，数据上传单元6012；

可选的，数据获取单元6011，用于根据配置的所述数据抽取规则对外部数据源中的数据进行抽取获得第一数据，或者将所述外部数据源中的数据进行格式转换后获取第二数据；

数据上传单元6012，与所述数据获取单元6011连接，用于根据云存储的管理节点获取云存储的中转区路径；以及根据配置的所述数据上传规则，以及所述中转区路径将所述第一数据或者第二数据保存到云存储的临时文件中转区的相应目录中，其中所述临时文件中转区中的各个目录下的各个文件以文本文件格式保存。

进一步的，所述装置还包括确定模块604；所述确定模块604与所述存储模块602连接，用于根据所述临时文件中转区的相应目录，以及配置的所述云存储规则中目录与子业务类型的规则，确定所述待保存数据的子业务类型；

所述存储模块602，用于根据配置的所述云存储规则中子业务类型对应文件的导入规则，将所述待保存数据均匀分布到各云存储的数据节点上，并行地将所述待保存数据存储到云存储的分布式数据库中。

进一步的，所述存储模块602中的分布单元6021，用于用于将所述待保存数据根据哈希算法均匀分布到各云存储数据节点上；

所述存储模块602中的存储单元6022，用于将所述各云存储数据节点上的不同的所述待保存数据同时存储到云存储的分布式数据库中，或者，将所述各云存储数据节点上的同一个所述待保存数据进行拆分后的片段同时存储到云存储的分布式数据库中。

所述存储模块602还用于：根据配置的所述云存储规则对保存在所述分布式数据库中的不同用途的数据保存为不同的份数，其中，所述不同用途的数据包括生产数据和备份数据，所述生产数据供查询时使用。

所述装置还包括：管理模块605，用于根据配置的所述云存储规则中数据生命周期的规则，对所述云存储的分布式数据库中的所述待保存数据的不同时期进行不同的处理。例如针对详单业务可以保存3份数据，第1份与第2份为生产数据，供查询时使用，并且不进行压缩，第3份为备份数据，进行中密度压缩。

本发明实施例提供一种数据存储的装置，通过获取模块获取待保存数据；存储模块将所述待保存数据均匀分布到各云存储的数据节点上，并行地将所述待保存数据存储到云存储的分布式数据库中，可以提高数据存储的速度。

本发明实施例提供一种数据查询的装置，该装置可以为云存储设备，如图7所示，该装置包括：获取模块701，处理模块702，发送单元7021，处理单元7022；

获取模块701，用于获取用户输入的索引字段，根据所述索引字段生成查询指令；

处理模块702，用于将所述查询指令发送到各云存储的数据节点，并行地在在云存储的分布式数据库中查询数据；以及将所述各云存储节点的查询结果的集合发送给所述用户。

其中，所述处理模块702中的发送单元7021，用于将所述查询指令同时发送到各云存储的数据节点上；所述处理模块702中的处理单元7022，用于同时在所述各云存储的数据节点上承载的分布式数据库中查询符合所述查询指令的数据。

可选的，所述处理模块702，用于：

本发明实施例提供一种数据查询的装置，通过接收模块生成的查询指令，处理模块同时并行地在数据库中查询数据，使得可以极大地提升查询性能。

需要说明的是，附图6与附图7所示的装置可以为同一个装置，为云存储设备，即云存储设备可以同时执行数据存储与数据查询的功能。

本发明实施例提供一种数据存储的系统，如同8所示，包括终端801和云存储设备802；

所述终端801，用于根据配置的数据抽取规则对数据源中的数据进行抽取，获得第一数据；将所述第一数据保存在临时文件夹中，以便云存储设备根据数据上传规则，以及获取的中转区路径将所述临时文件夹中的所述第一数据上传到所述云存储设备的临时文件中转区的相应目录中；

所述云存储设备802，用于根据配置的所述数据上传规则，以及所述中转区路径，将所述终端中的临时文件夹中的所述第一数据上传到云存储的临时文件中转区的相应目录中；将所述临时文件中转区的相应目录中的所述第一数据均匀分布到各云存储数据节点上，并行地将所述待保存数据存储到云存储的分布式数据库中。

其中，所述数据源为所述终端801中保存的数据。每个数据抽取进程会按照配置的数据抽取规则进行数据抽取，并将抽取的数据保存到该数据抽取进程对应的目录中，每个目录中包括多个临时文件，如将抽取的第一数据保存为第一文件，并将第一文件保存到数据抽取进程对应的第一目录中。负责抽取济南1360640号段1号账期，2011年12月GSM详单的进程，对应的目录为/531/gsm_cdr/201112/01/1360640。

当临时文件的大小或保存的号码数量达到配置的数据抽取规则阈值后，产生一个新的文件。例如，GSM_531_20111201_1360640.0020代表济南市1360640号段01帐期在2011年12月份的话单文件，序号为0020，当此话单文件保存的号码数量达到配置的数据抽取规则阈值后，产生GSM_531_20111201_1360640.0021文件。

其中，云存储设备802可以为图6所述的数据存储的装置。

当要存储到云存储的分布式数据库中的数据量非常大时，或者网络条件不好时，在导入过程中可能会发生中断，因此可以通过本发明实施例中将抽取的第一数据保存在终端的临时文件夹中，再将数据上传到建立的临时文件中转区，可以保证数据完整的上传到云存储的第二目录中后，再导入到云存储的分布式数据库中，提高传输的数据的完整性。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据存储的方法，其特征在于，包括：

云存储设备获取待保存数据；

所述云存储设备将所述待保存数据均匀分布到各云存储数据节点上，并行地将所述待保存数据存储到云存储的分布式数据库中；

所述云存储设备根据配置的云存储规则对保存在所述分布式数据库中的不同用途的数据保存为不同的份数，其中，所述不同用途的数据包括生产数据和备份数据，所述生产数据供查询时使用；

所述云存储设备根据数据生命周期的规则对所述云存储的分布式数据库中的所述待保存数据的不同时期进行不同的处理。

2.根据权利要求1所述的方法，其特征在于，所述云存储设备将所述待保存数据均匀分布到各云存储数据节点上，并行地将所述待保存数据存储到云存储的分布式数据库中，包括：

所述云存储设备将所述待保存数据根据哈希算法均匀分布到各云存储数据节点上；

3.根据权利要求2所述的方法，其特征在于，当所述云存储设备将所述待保存数据均匀分布到各云存储数据节点上，并行地将所述待保存数据存储到云存储的分布式数据库中时，随着所述云存储数据节点的增加，自动增加并行存储的并行度。

4.根据权利要求1所述的方法，其特征在于，在云存储设备获取待保存数据之前，所述方法还包括：

对云存储规则进行初始配置，包括定义目录与子业务类型的规则，定义子业务类型对应文件的导入规则，定义数据的生命周期，所述生命周期指按照时间定义每类数据的存储策略；

对数据抽取规则进行初始配置，包括抽取数据的数据源，抽取进程的数量，每个抽取进程对应的数据范围；

对数据上传规则进行初始配置，包括上传进程的数量，每个上传进程对应的数据范围。

5.根据权利要求4所述的方法，其特征在于，所述获取待保存数据，包括：

根据配置的所述数据抽取规则对外部数据源中的数据进行抽取获得第一数据，或者将所述外部数据源中的数据进行格式转换后获取第二数据；

根据云存储的管理节点获取云存储的中转区路径；

6.根据权利要求5所述的方法，其特征在于，在所述云存储设备将所述待保存数据均匀分布到各云存储数据节点上，并行地将所述待保存数据存储到云存储的分布式数据库中之前，还包括：

根据配置的所述云存储规则中子业务类型对应文件的导入规则，将所述待保存数据均匀分布到各云存储的数据节点上，并行地将所述待保存数据存储到云存储的分布式数据库中。

7.一种数据存储的装置，其特征在于，包括：

获取模块，用于获取待保存数据；

存储模块，用于将所述待保存数据均匀分布到各云存储的数据节点上，并行地将所述待保存数据存储到云存储的分布式数据库中；

所述存储模块还用于：根据配置的云存储规则对保存在所述分布式数据库中的不同用途的数据保存为不同的份数，其中，所述不同用途的数据包括生产数据和备份数据，所述生产数据供查询时使用；

管理模块，用于根据数据生命周期的规则，对所述云存储的分布式数据库中的所述待保存数据的不同时期进行不同的处理。

8.根据权利要求7所述的装置，其特征在于，所述存储模块，包括：

分布单元，用于将所述待保存数据根据哈希算法均匀分布到各云存储数据节点上；

存储单元，用于将所述各云存储数据节点上的不同的所述待保存数据同时存储到云存储的分布式数据库中，或者，将所述各云存储数据节点上的同一个所述待保存数据进行拆分后的片段同时存储到云存储的分布式数据库中。

9.根据权利要求8所述的装置，其特征在于，当将所述待保存数据均匀分布到各云存储数据节点上，并行地将所述待保存数据存储到云存储的分布式数据库中时，随着所述云存储数据节点的增加，自动增加并行存储的并行度。

10.根据权利要求7所述的装置，其特征在于，所述装置，还包括：

初始配置模块，用于对云存储规则进行初始配置，包括定义目录与子业务类型的规则，定义子业务类型对应文件的导入规则，定义数据的生命周期，所述生命周期指按照时间定义每类数据的存储策略；

以及对数据抽取规则进行初始配置，包括抽取数据的数据源，抽取进程的数量，每个抽取进程对应的数据范围；

以及对数据上传规则进行初始配置，包括上传进程的数量，每个上传进程对应的数据范围。

11.根据权利要求10所述的装置，其特征在于，所述获取模块，包括：

数据获取单元，用于根据配置的所述数据抽取规则对外部数据源中的数据进行抽取获得第一数据，或者将所述外部数据源中的数据进行格式转换后获取第二数据；

数据上传单元，用于根据云存储的管理节点获取云存储的中转区路径；以及根据配置的所述数据上传规则，以及所述中转区路径将所述第一数据或者第二数据保存到云存储的临时文件中转区的相应目录中，其中所述临时文件中转区中的各个目录下的各个文件以文本文件格式保存。

12.根据权利要求11中所述的装置，其特征在于，所述装置，还包括：

确定模块，用于根据所述临时文件中转区的相应目录，以及配置的所述云存储规则中目录与子业务类型的规则，确定所述待保存数据的子业务类型；

所述存储模块，用于根据配置的所述云存储规则中子业务类型对应文件的导入规则，将所述待保存数据均匀分布到各云存储的数据节点上，并行地将所述待保存数据存储到云存储的分布式数据库中。