CN104731896B

CN104731896B - 一种数据处理方法及系统

Info

Publication number: CN104731896B
Application number: CN201510119217.9A
Authority: CN
Inventors: 王亚龙; 赵甲; 赵一甲; 蒋浩; 刘颖
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-03-18
Filing date: 2015-03-18
Publication date: 2018-11-09
Anticipated expiration: 2035-03-18
Also published as: CN104731896A

Abstract

本发明实施例提供了一种数据处理方法及系统。一方面，本发明实施例通过根据输入的键值，从第一数据库中获得对应的标识ID和元信息；其中，所述第一数据库用于存储候选时间序列数据的元信息和ID；从而，根据所述元信息，确定目标逻辑表；进而，根据所述ID和所述目标逻辑表，在所述目标逻辑表对应的候选物理表中确定目标物理表，以及对所述目标物理表执行写数据操作或者执行目标时间序列数据的读数据操作。因此，本发明实施例提供的技术方案能够实现提高数据库的存储性能，以及提高数据的读/写操作速度。

Description

一种数据处理方法及系统

【技术领域】

本发明涉及计算机技术领域，尤其涉及一种数据处理方法及系统。

【背景技术】

内容分发网络(Content Delivery Network，CDN)平台需要使用数据存储系统，该数据存储系统为CDN平台的业务运营、服务质量等数据挖掘，提供了大量的基础原始数据。目前，数据存储系统用于存储大规模的时间序列数据，如采集的监控数据或者采集的日志数据等。

现有技术中，所述数据存储系统利用开源时序数据库(Open TimestampDatabase，OpenTSDB)实现。OpenTSDB是基于Hadoop平台实现的，能够提供数据的读/写服务和图形展示服务。

然而，Hadoop平台是一种复杂的分布式系统基础架构，基于Hadoop平台实现的OpenTSDB中数据的存储格式和索引结构，都导致OpenTSDB的存储空间有限，以及数据的读/写操作速度比较慢。

【发明内容】

有鉴于此，本发明实施例提供了一种数据处理方法及系统，可以实现提高数据库的存储性能，以及提高数据的读/写操作速度。

本发明实施例的一方面，提供一种数据处理方法，包括：

根据输入的键值，从第一数据库中获得对应的标识ID和元信息；其中，所述第一数据库用于存储候选时间序列数据的元信息和ID；

根据所述元信息，确定目标逻辑表；

根据所述ID和所述目标逻辑表，在所述目标逻辑表对应的候选物理表中确定目标物理表，以及对所述目标物理表执行写数据操作或者执行目标时间序列数据的读数据操作。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述第一数据库的数目为一个；和/或，

利用第二数据库存储所述候选物理表，以及，至少两个所述第二数据库组成一个存储集群，属于同一存储集群的至少两个所述第二数据库中存储的候选物理表相同；和/或，

所述存储集群的数目为至少两个。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述元信息包括所述目标时间序列数据的类别和时间戳；所述根据所述元信息，确定目标逻辑表，包括：

根据所述目标时间序列数据的类别，确定至少两个候选逻辑表；

根据所述时间戳，在所述至少两个候选逻辑表中确定一个所述目标逻辑表。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述元信息，确定目标逻辑表之前，所述方法还包括：

根据ID对候选时间序列数据进行分割，将具有相同ID的候选时间序列数据存储在同一个候选物理表；以及，

根据所述候选时间序列数据的类别和所述候选物理表，生成至少一个初始逻辑表，以及，根据时间信息对每个所述初始逻辑表进行分割，以获得至少两个所述候选逻辑表。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述对所述目标物理表执行目标时间序列数据的读数据操作，包括：

利用所述ID，在所述目标物理表中进行查找，以获得所述ID对应的候选时间序列数据；

利用所述时间戳，在所述ID对应的候选时间序列数据中，获得目标时间序列数据，以实现所述目标时间序列数据的读数据操作。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，若对所述目标物理表执行写数据操作，所述根据输入的键值，从第一数据库中获得对应的ID和元信息之前，所述方法还包括：

获得输入的候选时间序列数据；

根据所述候选时间序列数据的时间戳，对所述候选时间序列数据进行抽样，经过抽样获得的所述候选时间序列数据，用于在确定所述目标物理表后，写入所述目标物理表。

本发明实施例的一方面，提供一种数据处理系统，所述系统包括数据接口模块和第一数据库；其中，

所述数据接口模块，用于根据输入的键值，从所述第一数据库中获得对应的标识ID和元信息；其中，所述第一数据库用于存储候选时间序列数据的元信息和ID；

所述数据接口模块，还用于根据所述元信息，确定目标逻辑表；

所述数据接口模块，还用于根据所述ID和所述目标逻辑表，在所述目标逻辑表对应的候选物理表中确定目标物理表，以及对所述目标物理表执行写数据操作或者执行目标时间序列数据的读数据操作。

所述系统还包括至少两个存储集群，每个所述存储集群包括至少两个第二数据库，每个所述第二数据库用于存储候选物理表，属于同一存储集群的至少两个所述第二数据库中存储的候选物理表相同。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述元信息包括所述目标时间序列数据的类别和时间戳；所述数据接口模块具体用于：

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述数据接口模块，还用于：

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述数据接口模块具体用于：

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，若对所述目标物理表执行写数据操作，所述数据接口模块还用于：

获得输入的候选时间序列数据；

由以上技术方案可以看出，本发明实施例具有以下有益效果：

本发明实施例提供的技术方案中，基于多级的数据分割方式，先通过元信息确定目标逻辑表，再通过ID和目标逻辑表确定目标物理表，与现有技术中，在数据库中单表中执行写数据操作或者读数据操作的方式相比，能够解决数据库中单表因为数据容量限制带来的读写速度较低和数据存储容量有限的问题，能够实现提高数据库的存储性能，以及提高数据的读/写操作速度。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例所提供的数据处理方法的流程示意图；

图2是本发明实施例所提供的数据处理方法所应用的系统的结构示例图；

图3是本发明实施例所提供的数据处理系统的功能方块图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二等来描述数据库，但这些数据库不应限于这些术语。这些术语仅用来将数据库彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一数据库也可以被称为第二数据库，类似地，第二数据库也可以被称为第一数据库。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

实施例一

本发明实施例给出一种数据处理方法，请参考图1，其为本发明实施例所提供的数据处理方法的流程示意图，如图所示，该方法包括以下步骤：

S101，根据输入的键值，从第一数据库中获得对应的标识ID和元信息；其中，所述第一数据库用于存储候选时间序列数据的元信息和ID。

S102，根据所述元信息，确定目标逻辑表。

S103，根据所述ID和所述目标逻辑表，在所述目标逻辑表对应的候选物理表中确定目标物理表，以及对所述目标物理表执行写数据操作或者执行目标时间序列数据的读数据操作。

实施例二

请参考图2，其为本发明实施例所提供的数据处理方法所应用的系统的结构示例图，如图所示，所述数据处理方法所应用的系统中包括一个第一数据库，以及至少两个存储集群。

优选的，如图2所示，每个所述存储集群包含至少两个第二数据库，每个所述第二数据库都用于存储候选物理表。而且，属于同一存储集群的至少两个所述第二数据库中存储的候选物理表相同。

优选的，所述第一数据库可以利用Meta数据库实现，第二数据库可以利用MySQL实现。

优选的，每个存储集群中包含的至少两个第二数据库中，可以有一个第二数据库作为主数据库，其余的至少一个第二数据库作为从数据库。

优选的，所述第一数据库用于存储候选时间序列数据的元信息和ID，所述元信息可以包括但不限于：候选时间序列数据的键值(Key)、候选时间序列数据的类别和时间戳(Timestamp)。

优选的，所述第二数据库中存储的候选物理表中包含候选时间序列数据的三元组(ID、Timestamp、Value)。

优选的，每个候选事件序列数据的三元组可以但不限于占用16字节长度。

需要说明的是，本发明实施例中，第二数据库利用16字节长度作为数据存储单位，能够有效的减少数据占用的存储空间，从而提高读数据操作或者写数据操作速度，提高数据的读写性能。

举例说明，主数据库可以从数据接口模块接收到其他系统需要写入磁盘的数据，然后由主数据库将数据写入磁盘，并将写入的数据的三元组写入自身存储的候选物理表，并将该数据的三元组同步到每个从数据库中，这样，当主数据库出现故障后，可以执行自动主从切换机制，将写数据的指向信息由主数据库改为从数据库，由从数据库执行写数据操作和读数据操作。

需要说明的是，本发明实施例中，在每个存储集群中配置自动主从切换机制，不会因为主数据库的故障而停止读数据服务或者写数据服务，能够提高数据存储的可靠性。

另外，本发明实施例中，采用分布式的存储集群方案，能够提高读/写数据的性能，以及可以根据数据量需求，灵活地对存储空间进行扩容。

可选的，如图2所示，该系统还可以包括数据展示模块，该数据展示模块用于提供数据展示功能，可以将读数据操作的结果展现给用户。

实施例三

基于上述实施例一所提供的数据处理方法、实施例一和实施例二，本发明实施例对S101的方法进行具体描述。该步骤具体可以包括：

举例说明，本发明实施例中，根据输入的键值，从第一数据库中获得对应的标识(Identity，ID)和元信息的方法可以包括但不限于：当需要从第二数据库中读取目标时间序列数据时，或者，当需要向第二数据库中写入目标时间序列数据时，都需要输入该目标时间序列数据的Key，这样，就可以利用用户输入的Key，先在第一数据库中进行查找，从第一数据库中获得该Key对应的ID和元信息，该Key对应的ID和元信息就是目标时间序列数据的ID和元信息。

实施例四

基于上述实施例一所提供的数据处理方法、实施例一～实施例三，本发明实施例对S102的方法进行具体描述。该步骤具体可以包括：

优选的，本发明实施例中，可以利用多级的数据水平分割方法，对第二数据库中的候选物理表进行分割。例如，可以根据ID对候选时间序列数据进行分割，将具有相同ID的候选时间序列数据存储在同一个候选物理表中。

优选的，还可以根据候选时间序列数据的类别和所述候选物理表，生成至少一个初始逻辑表，以及，根据时间信息对每个所述初始逻辑表进行分割，以获得至少两个所述候选逻辑表。

例如，可以根据时间信息，按照月份对每个所述初始逻辑表进行分割。这种初始逻辑表的分割方式，使得第二数据库中可以存在多个候选逻辑表和多个候选物理表，从而可以将第二数据库的存储能力提高10⁶倍以上，解决了现有技术中由于数据存储量有限制导致的单表的读写性能较差和最大存储容量较低的问题。

需要说明的是，第二数据库中的候选物理表的数量庞大，无法都展现给用户，因此，可以生成用于展现给用户的候选逻辑表，每个候选逻辑表都可以对应至少两个候选物理表。

举例说明，基于上述获得的候选物理表和初始逻辑表，本发明实施例中，根据所述元信息，确定目标逻辑表的方法可以包括但不限于：

首先，根据获得的元信息中所述目标时间序列数据的类别，确定至少两个候选逻辑表。然后，根据获得的元信息中所述目标时间序列数据的时间戳，在所述至少两个候选逻辑表中确定一个所述目标逻辑表。

例如，所述目标时间序列数据的类别可以包括机器数据或者应用类数据等。

实施例五

基于上述实施例一所提供的数据处理方法、实施例一～实施例四，本发明实施例对S103的方法进行具体描述。该步骤具体可以包括：

举例说明，根据所述ID和所述目标逻辑表，在所述目标逻辑表对应的候选物理表中确定目标物理表的方法可以包括但不限于：利用所述ID，进行哈希计算，以获得所述ID的哈希值，然后利用所述ID的哈希值和所述目标逻辑表，在所述目标逻辑表对应的候选物理表中确定目标物理表。

举例说明，本发明实施例中，对所述目标物理表执行目标时间序列数据的读数据操作的方法可以包括但不限于：

先利用所述ID，在所述目标物理表中进行查找，以获得所述ID对应的候选时间序列数据。然后，再利用所述时间戳，在所述ID对应的候选时间序列数据中，获得目标时间序列数据，以实现所述目标时间序列数据的读数据操作。

需要说明的是，现有技术中是利用时间戳+ID作为复合索引，需要在物理表中查找较多的索引，并且需要读取较多的数据块。与现有技术相比，本发明实施例中，利用ID+时间戳作为复合索引，在目标物理表中查找目标时间序列数据时，需要查找的索引更少，需要读取的数据块更少，因此能够提高数据的查找速度，从而能够提高读数据操作的速度，提高读写效率。

实施例六

基于上述实施例一所提供的数据处理方法、实施例一～实施例五，本发明实施例对S103的方法进行具体描述。该步骤具体可以包括：

举例说明，本发明实施例中，若对所述目标物理表执行写数据操作，则在根据输入的键值，从第一数据库中获得对应的ID和元信息之前，先执行如下流程：

首先，获得输入的候选时间序列数据。然后，根据所述候选时间序列数据的时间戳，对所述候选时间序列数据进行抽样，这里，经过抽样获得的所述候选时间序列数据，用于在确定所述目标物理表后，写入所述目标物理表。

需要说明的是，向所述目标物理表中写入候选时间序列数据指的是写入该候选时间序列数据的三元组(ID、Timestamp、Value)。

需要说明的是，本发明实施例中，可以为第二数据库中存储的时间序列数据进行抽样等级的划分，使得第二数据库的存储可以支持抽样机制。当获得需要向目标物理表中写入候选时间序列数据时，就可以对候选时间序列数据进行抽样，并对经过抽样的候选时间序列数据执行写数据操作，这样可以有效地提高查询大量时间序列数据时的响应速度，还能够保持输出的数据曲线图的清晰度和展示速度。

实施例七

基于上述实施例一所提供的数据处理方法、实施例一～实施例六，本发明实施例中，对于需要写入目标物理表中的候选时间序列数据，可以执行合并写数据操作，例如将属于同一目标物理表的候选时间序列数据，依次写入该目标物理表，写完一个目标物理表再写另一个目标物理表，与现有技术中将候选时间序列数据随机写入物理表的方式相比，能够提高写数据操作的速度和效率，解决第二数据库中写数据性能较低的问题。

本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。

请参考图3，其为本发明实施例所提供的数据处理系统的功能方块图。如图所示，该系统包括：数据接口模块301和第一数据库302；其中，

所述数据接口模块301，用于根据输入的键值，从所述第一数据库302中获得对应的标识ID和元信息；其中，所述第一数据库302用于存储候选时间序列数据的元信息和ID；

所述数据接口模块301，还用于根据所述元信息，确定目标逻辑表；

所述数据接口模块301，还用于根据所述ID和所述目标逻辑表，在所述目标逻辑表对应的候选物理表中确定目标物理表，以及对所述目标物理表执行写数据操作或者执行目标时间序列数据的读数据操作。

优选的，所述第一数据库302的数目为一个；和/或，

所述系统还包括至少两个存储集群303，每个所述存储集群包括至少两个第二数据库，每个所述第二数据库用于存储候选物理表，属于同一存储集群303的至少两个所述第二数据库中存储的候选物理表相同。

其中，图3中仅给出两个存储集群用以示意，并不限定数据处理系统中只包含两个存储集群，同理，对于每个存储集群也只给出两个第二数据库用以示意，并不限定每个存储集群只能包含两个第二数据库。

优选的，所述元信息包括所述目标时间序列数据的类别和时间戳；所述数据接口模块301具体用于：

优选的，所述数据接口模块301，还用于：

优选的，所述数据接口模块301具体用于：

优选的，若对所述目标物理表执行写数据操作，所述数据接口模块301还用于：

获得输入的候选时间序列数据；

由于本实施例中的各单元能够执行图1所示的方法，本实施例未详细描述的部分，可参考对图1的相关说明。

本发明实施例的技术方案具有以下有益效果：

本发明实施例中，通过根据输入的键值，从第一数据库中获得对应的标识ID和元信息；其中，所述第一数据库用于存储候选时间序列数据的元信息和ID；从而，根据所述元信息，确定目标逻辑表；进而，根据所述ID和所述目标逻辑表，在所述目标逻辑表对应的候选物理表中确定目标物理表，以及对所述目标物理表执行写数据操作或者执行目标时间序列数据的读数据操作。

本发明实施例中的数据处理系统可以为CDN平台提供基础数据存储系统，为CDN平台的业务运营、服务质量等数据挖掘提供基础原始数据。为CDN平台的流量调度、成本优化、服务质量优化提供了第一手的指导依据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

根据所述元信息，确定目标逻辑表；

2.根据权利要求1所述的方法，其特征在于，

所述第一数据库的数目为一个；和/或，

所述存储集群的数目为至少两个。

3.根据权利要求1或2所述的方法，其特征在于，所述元信息包括所述目标时间序列数据的类别和时间戳；所述根据所述元信息，确定目标逻辑表，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述元信息，确定目标逻辑表之前，所述方法还包括：

5.根据权利要求1或2所述的方法，其特征在于，所述对所述目标物理表执行目标时间序列数据的读数据操作，包括：

6.根据权利要求1所述的方法，其特征在于，若对所述目标物理表执行写数据操作，所述根据输入的键值，从第一数据库中获得对应的ID和元信息之前，所述方法还包括：

获得输入的候选时间序列数据；

7.一种数据处理系统，其特征在于，所述系统包括数据接口模块和第一数据库；其中，

8.根据权利要求7所述的系统，其特征在于，

所述第一数据库的数目为一个；和/或，

9.根据权利要求7或8所述的系统，其特征在于，所述元信息包括所述目标时间序列数据的类别和时间戳；所述数据接口模块具体用于：

10.根据权利要求9所述的系统，其特征在于，所述数据接口模块，还用于：

11.根据权利要求7或8所述的系统，其特征在于，所述数据接口模块具体用于：

12.根据权利要求7所述的系统，其特征在于，若对所述目标物理表执行写数据操作，所述数据接口模块还用于：

获得输入的候选时间序列数据；