CN110019186A

CN110019186A - 数据存储的方法及装置

Info

Publication number: CN110019186A
Application number: CN201710799472.1A
Authority: CN
Inventors: 焦张波
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2017-09-07
Filing date: 2017-09-07
Publication date: 2019-07-16

Abstract

本发明公开了一种数据存储的方法及装置，涉及数据处理领域。本发明主要解决了现有技术中由于数据存储混杂而导致数据的查询时间过长的问题。本发明的方法包括：确定满足查询条件的数据在原始数据表中的数据量，所述查询条件包含的维度个数小于所述原始数据表包含的维度个数；如所述数据量大于第一阈值，则根据所述查询条件建立子数据表，并将满足所述查询条件的数据导入所述子数据表，所述查询条件中包含的维度与所述子数据表中包含的维度相同；存储所述查询条件和所述子数据表的对应关系，以便在根据所述对应关系查找到所述子数据表后，从所述子数据表中查找满足所述查询条件的数据。本发明可广泛应用于查询数据信息。

Description

数据存储的方法及装置

技术领域

本发明涉及数据处理领域，特别是涉及一种数据存储的方法及装置。

背景技术

随着科技的发展和市场的需求，用户对产品的智能化和自动化要求越来越高，希望产品能够更高效地完成复杂的指令工作。在数据处理领域效率非常重要，所以这一需求尤为突出。但由于产品的不断更新，其携带的数据量会不断增多，进而拖长数据处理的时间，造成了工作效率的下降。

在现有技术中，产品携带的所有数据都会被记录在数据表中。发明人在实现上述技术的过程中发现：产品应用于不同功能的数据全部都记录在同一数据表中，实现各种功能的数据全部都混杂存储在一起。数据的这种无分类存储导致产品在启动某一功能时，会在数据表中查询到与该功能无关的数据，而且无关数据的数据量较大，耗费了大量查询时间。而且产品的使用时间越长，存储的数据量越大，查询到的无关数据就会越多，导致数据查询速度越来越慢、效率越来越低。

发明内容

有鉴于此，本发明提供的数据存储的方法及装置，主要目的在于解决现有技术中由于数据存储混杂而导致数据的查询时间过长的问题。

为了解决上述问题，本发明主要提供如下技术方案：

一方面，本发明提供了一种数据存储的方法，该方法包括：

确定满足查询条件的数据在原始数据表中的数据量，所述查询条件包含的维度个数小于所述原始数据表包含的维度个数；

如所述数据量大于第一阈值，则根据所述查询条件建立子数据表，并将满足所述查询条件的数据导入所述子数据表，所述查询条件中包含的维度与所述子数据表中包含的维度相同；

存储所述查询条件和所述子数据表的对应关系，以便在根据所述对应关系查找到所述子数据表后，从所述子数据表中查找满足所述查询条件的数据。

可选的，所述方法还包括：

若所述原始数据表中的数据存在缺失，则根据所述查询条件对应的业务特征，估计满足所述查询条件的数据在所述原始数据表中的数据量，以便基于估计的数据量与所述第一阈值进行比较；

和/或，若满足所述查询条件的数据未生成，则根据所述查询条件对应的业务特征，估计满足所述查询条件的数据在预设时间段后能够生成的数据量，以便基于估计的数据量与所述第一阈值进行比较。

可选的，在存储所述查询条件和所述子数据表的对应关系后，所述方法还包括：

实时监控所述子数据表中数据量的变化；

当所述子数据表中的数据量大于第二阈值时，根据预设拆分条件拆分所述子数据表；

更新所述查询条件和所述子数据表的对应关系。

可选的，所述方法还包括：

如所述数据量小于或者等于所述第一阈值，则建立公共表；

将满足查询条件的数据导入所述公共表中；

存储所述查询条件和所述公共表的对应关系。

可选的，存储所述查询条件和所述公共表的对应关系后，所述方法还包括：

根据查询条件实时监控所述公共表中数据量的变化；

当所述数据量大于第一阈值时，根据所述查询条件建立子数据表，将满足查询条件的数据导入所述子数据表；

存储所述查询条件和所述子数据表的对应关系，并删除所述查询条件和所述公共表的对应关系，以及所述公共表中导入所述子数据表的数据。

可选的，将满足查询条件的数据导入所述公共表中，包括：

将满足不同查询条件的数据分别导入所述公共表中的不同区域。

可选的，所述方法还包括：

接收数据查询请求，所述数据查询请求中携带有查询条件；

根据所述查询条件确定对应的子数据表或公共表；

在确定的子数据表或公共表中进行数据查询。

另一方面，本发明还提供一种数据存储的装置，该装置包括：

确定单元，用于确定满足查询条件的数据在原始数据表中的数据量，所述查询条件包含的维度个数小于所述原始数据表包含的维度个数；

建立单元，用于当所述数据量大于第一阈值时，根据所述查询条件建立子数据表；

导入单元，用于将满足所述查询条件的数据导入所述子数据表，所述查询条件中包含的维度与所述子数据表中包含的维度相同；

存储单元，用于存储所述查询条件和所述子数据表的对应关系，以便在根据所述对应关系查找到所述子数据表后，从所述子数据表中查找满足所述查询条件的数据。

可选的，所述装置还包括：

估计单元，用于当所述原始数据表中的数据存在缺失时，根据所述查询条件对应的业务特征，估计满足所述查询条件的数据在所述原始数据表中的数据量，以便基于估计的数据量与所述第一阈值进行比较；和/或，当满足所述查询条件的数据未生成时，根据所述查询条件对应的业务特征，估计满足所述查询条件的数据在预设时间段后能够生成的数据量，以便基于估计的数据量与所述第一阈值进行比较。

可选的，所述装置还包括：

监控单元，用于在存储所述查询条件和所述子数据表的对应关系后，实时监控所述子数据表中数据量的变化；

拆分单元，用于当所述子数据表中的数据量大于第二阈值时，根据预设拆分条件拆分所述子数据表；

更新单元，用于更新所述查询条件和所述子数据表的对应关系。

可选的，所述建立单元还用于当所述数据量小于或者等于所述第一阈值时，建立公共表；

所述导入单元还用于将满足查询条件的数据导入所述公共表中；

所述存储单元还用于存储所述查询条件和所述公共表的对应关系。

可选的，所述监控单元还用于存储所述查询条件和所述公共表的对应关系后，根据查询条件实时监控所述公共表中数据量的变化；

所述建立单元还用于当所述数据量大于第一阈值时，根据所述查询条件建立子数据表；

所述导入单元还用于将满足查询条件的数据导入所述子数据表；

所述存储单元还用于存储所述查询条件和所述子数据表的对应关系；

可选的，所述装置还包括：

删除单元，用于删除所述查询条件和所述公共表的对应关系，以及所述公共表中导入所述子数据表的数据。

可选的，所述导入单元用于将满足不同查询条件的数据分别导入所述公共表中的不同区域。

可选的，所述装置还包括：

接收单元，用于接收数据查询请求，所述数据查询请求中携带有查询条件；

所述确定单元，用于根据所述查询条件确定对应的子数据表或公共表；

查询单元，用于在确定的子数据表或公共表中进行数据查询。

为了实现上述目的，根据本发明的另一方面，提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如上所述的数据存储的方法。

为了实现上述目的，根据本发明的另一方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行如上所述的数据存储的方法。

借由上述技术方案，本发明提供的技术方案至少具有下列优点：

本发明提供的数据存储的方法及装置，将存储在同一数据表中的数据按照功能(即查询条件)分组存储在不同的数据表中，并建立了查询条件和数据表的对应关系。在查询数据时，与现有技术需要在存储有大量无关数据的数据表中查找满足查询条件的数据相比，本发明仅需要根据查询条件和数据表的对应关系就能够准确快速地查找到存储有相关数据的数据表，进而对该数据表进行数据查询。满足查询条件的数据全部存储在该数据表中，而且查询的数据量要远远小于所有数据存储在同一数据表中的数据量，从而避免了在查询过程中查询到大量无关数据，能够大大缩短查询时长。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种数据存储的方法的流程图；

图2示出了本发明实施例提供的另一种数据存储的方法的流程图；

图3示出了本发明实施例提供的又一种数据存储的方法的流程图；

图4示出了本发明实施例提供的一种数据存储的装置的结构示意图；

图5示出了本发明实施例提供的另一种数据存储的装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参照附图1所示，本发明实施例提供了一种数据存储的方法，该方法主要包括：

101、确定满足查询条件的数据在原始数据表中的数据量。

所述查询条件包含的维度个数小于所述原始数据表包含的维度个数。

查询条件由数据功能确定，原始数据表包含了数据功能涉及的所有维度，查询条件包含至少一个维度。例如：原始数据表的维度由秒维度、分钟维度、小时维度、城市维度、城市组维度、收视维度、收听维度、收视率维度组成，查询条件的维度由小时维度、城市维度、收视维度、收视率维度组成，从原始数据表中找出包含小时维度+城市维度+收视维度+收视率维度的数据(即满足查询条件的数据)，统计该数据的数据量。原始数据表包含的维度按照类型分组，例如：秒维度、分钟维度和小时维度为时间类，城市维度和城市组维度为城市类。相对于一类维度，设定查询条件最多包含其中一个维度，例如：查询条件包含秒维度且不包含分钟维度和小时维度，所以查询条件不会包含原始数据表中的所有维度。根据上述查询条件维度的组合规则，对原始数据表中的维度进行穷举组合，组合出所有的查询条件，然后一一确定满足每种查询条件的数据在原始数据表中的数据量。由于满足每种查询条件的数据不相同，所以数据的数据量也不同。

102、如所述数据量大于第一阈值，则根据所述查询条件建立子数据表，并将满足所述查询条件的数据导入所述子数据表。

设定查询满足查询条件的数据时，所需的查询时长最大值，在查询数据的过程中记录当查询时长达到最大值时，查询到的满足查询条件的数据的数据量，并设置该数据量为满足查询条件的数据的数据量阈值，即第一阈值。

当满足查询条件的数据在原始数据表中的数据量大于第一阈值时，说明需要查询的数据量过大，查询数据的时长会超过设定的查询时长最大值，影响数据的查询速度。为了不影响查询速度，将满足该查询条件的数据单独存储在子数据表中，在根据查询条件查询数据时仅查询子数据表中的数据。该操作能有效减少查询的数据量，缩短查询时长。

需要说明的是，因为子数据表只存储满足查询条件的数据，所以子数据表的维度可以根据该查询条件建立，即使得查询条件中包含的维度与子数据表中包含的维度相同。

103、存储所述查询条件和所述子数据表的对应关系。以便在根据所述对应关系查找到所述子数据表后，从所述子数据表中查找满足所述查询条件的数据。

如果建立的数据表较多，在查找数据时会出现因为查找存储数据的数据表浪费查询时间这种问题。为解决上述问题需要建立查询条件和子数据表的对应关系，例如：将查询条件与子数据表的名称建立对应关系，或将查询条件与子数据表的标识(例如为子数据表设置的编码)建立对应关系。在根据查询条件查找数据时，利用对应关系即可精确快速地查找到与查询条件对应的子数据表，使得在寻找对应数据表这一步骤的耗时不会对查询速度产生影响。

本发明实施例提供的数据存储的方法，将存储在同一数据表中的数据按照功能(即查询条件)分组存储在不同的数据表中，并建立了查询条件和数据表的对应关系。在查询数据时，与现有技术需要在存储有大量无关数据的数据表中查找满足查询条件的数据相比，本发明仅需要根据查询条件和数据表的对应关系就能够准确快速地查找到存储有相关数据的数据表，进而对该数据表进行数据查询。满足查询条件的数据全部存储在该数据表中，而且查询的数据量要远远小于所有数据存储在同一数据表中的数据量，从而避免了在查询过程中查询到大量无关数据，能够大大缩短查询时长。

基于图1所示的数据存储的方法，本发明另一实施例进一步提供了另一种数据存储的方法，参照附图2所示，该方法主要包括：

201、确定满足查询条件的数据在原始数据表中的数据量。

步骤201的实现方式与上述实施例的步骤101相同，在此不再赘述。

另外，由于管理人员误删或者系统故障等原因，可能会导致原始数据表中的部分数据缺失或者清除，而原有完整数据的数据量可能已经超过第一阈值，所以若待数据恢复后再进行数据量检测并建立子数据表，则需要花费大量检测时间。因此，为了提高效率，可以当检测到所述原始数据表中的数据存在缺失时，先根据所述查询条件对应的业务特征，估计满足所述查询条件的数据在所述原始数据表中的数据量，并基于估计的数据量与所述第一阈值进行比较，若估计的数据量大于第一阈值，则建立子数据表，并将原始数据表中满足查询需要的数据导入子数据表中，以及在缺失的数据恢复后，将恢复的数据导入子数据表中。其中，业务特征主要包括：业务的运行时间、与当前业务运行时间相同的历史业务的数据量特征、与当前业务类型相同的其他业务的数据量特征等。例如，与当前业务运行时间相同的历史业务在一天产生的数据量就可以超过第一阈值，则当前业务运行一天也可能会超过第一阈值，因此可以提前为该当前业务建立子数据表。此外，本步骤涉及的缺失数据，可以是满足查询条件的部分数据缺失，也可以是满足查询条件的所有数据缺失。

在实际应用中，查询者输入的查询条件所对应的业务可能还未开始启动，但一旦启动，则可能在短时间内产生的数据量就大于第一阈值。在这种情况下，若待业务启动并产生数据后，再进行数据量检测、建立子数据表，则不仅需要花费大量时间进行检测，而且在建立子数据表之前，从原数据表中查询该业务的数据效率也会较低。因此，为了提高建立子表的效率和数据查询效率，可以当检测到满足所述查询条件的数据未生成时，根据所述查询条件对应的业务特征，估计满足所述查询条件的数据在预设时间段后能够生成的数据量，以便基于估计的数据量与所述第一阈值进行比较。

202、判断所述数据量是否大于第一阈值。

如果所述数据量大于第一阈值，则执行步骤203；如果所述数据量小于或等于第一阈值，则执行步骤201，即持续确定满足所述查询条件的数据在所述原始数据表中的数据量。

203、根据所述查询条件建立子数据表，并将满足所述查询条件的数据导入所述子数据表。

所述查询条件中包含的维度与所述子数据表中包含的维度相同。

204、存储所述查询条件和所述子数据表的对应关系，以便在根据所述对应关系查找到所述子数据表后，从所述子数据表中查找满足所述查询条件的数据。

步骤203-204的实现方式与上述实施例的步骤102-103相同，在此不再赘述。

在通过步骤201-204将数据分表储存后，原始数据表中剩下的数据的数据量都是小于或等于第一阈值的。但由于时间的增加，原始数据表中的数据也会随之逐渐增加；实时监控原始数据表中的数据量，当满足查询条件的数据的数据量增加到大于第一阈值时立刻对该数据执行步骤203-204，即将该数据导入子数据表并存储查询条件和所述子数据表的对应关系。

205、判断所述子数据表中的数据量是否大于第二阈值。

如果所述子数据表中的数据量大于第二阈值，则执行步骤206；如果所述子数据表中的数据量小于或等于第二阈值，则循环执行步骤205。

设定查询满足查询条件的数据时所需的查询时长最大值。在基于子数据表查询数据的过程中，记录当查询时长达到最大值时，查询到的所有数据的数据量；设定该数据量为第二阈值。子数据表中的数据量初始时小于或等于第二阈值，但随着时间的增加，数据量也会逐步增加。实时监控子数据表中数据量的变化，如果所述子数据表中的数据量大于第二阈值，则执行下一步骤，对所述子数据表进行进一步的操作。如果所述子数据表中的数据量小于或等于第二阈值，则持续确定子数据表中的数据量。

206、根据预设拆分条件拆分所述子数据表。

当数据量大于第二阈值时，将原来的子数据表按照预设的拆分条件进行拆分。拆分条件包括但不限定于按照数据区域拆分，例如按照数据的创建时间分区拆分、或者按照数据的数据量分区拆分。拆分后子数据表的数量≥2，包含的维度和原来的子数据表包含的维度相同。

207、更新所述查询条件和所述子数据表的对应关系，并执行步骤205，继续判断所述子数据表中的数据量是否大于第二阈值。

在将子数据表进行拆分后，需要更新查询条件和原来的子数据表的对应关系，将对应关系修改为查询条件和拆分后的多个子数据表对应。并且实时监控所述拆分后的多个子数据表中的数据量变化，判断数据量是否大于第二阈值，然后执行相应后续操作。

通过步骤201-207的循环操作，可以实时监控原始数据表和子数据表中的数据量，并且能够及时将数据量大于第一或第二阈值的数据导入新数据表中，消除数据量对查询时间的影响。

基于图1所示的数据存储的方法，本发明又一实施例还进一步提供了又一种数据存储的方法，参照附图3所示，该方法主要包括：

301、确定满足查询条件的数据在原始数据表中的数据量。

步骤301的实现方式与上述实施例的步骤101相同，在此不再赘述。

302、判断所述数据量是否大于第一阈值。

如果所述数据量大于第一阈值，执行步骤303；如果所述数据量小于或等于第一阈值，则执行步骤305。

303、根据所述查询条件建立子数据表，并将满足所述查询条件的数据导入所述子数据表。

304、存储所述查询条件和所述子数据表的对应关系。以便在根据所述对应关系查找到所述子数据表后，从所述子数据表中查找满足所述查询条件的数据。执行步骤311。

步骤303-304的实现方式与上述实施例的步骤102-103相同，在此不再赘述。

305、建立公共表，将满足预设数据量条件的数据导入所述公共表中。

所述预设数据量条件为满足查询条件的数据的数据量小于或等于第一阈值。步骤303-304将数据量大于第一阈值的数据都导入到了子数据表中，所以在原始数据表中满足其他查询条件的数据的数据量都是小于或等于第一阈值的。为了提高未被导入子数据表的其他数据的查询效率，可以将该其他数据导入到一个公共表中，以便后续可以直接从数据量相对较小的公共表中进行查询，而无需再花费大量时间在原数据表中查询。

因为公共表中的数据量过大，也会影响公共表中数据的查询时间，所以可以根据满足预设数据量条件的数据的数据量，创建多个公共表。

306、存储所述查询条件和所述公共表的对应关系。

该步骤的实现方式与上述实施例的步骤103相同，在此不再赘述。

另外，在建立子数据表和公共表、查询条件与子数据表的对应关系、查询条件与公共表的对应关系后，后续查询数据的具体实现方式可以为：接收数据查询请求，所述数据查询请求中携带有查询条件；根据所述查询条件确定对应的子数据表或公共表；在确定的子数据表或公共表中进行数据查询。

307、判断满足查询条件的数据在所述公共表中的数据量是否大于第一阈值。

如果所述数据量大于第一阈值时，执行步骤308；如果所述数据量小于或等于第一阈值，则循环执行步骤307，持续确定满足所述查询条件的数据在所述公共表中的数据量是否大于第一阈值。

在通过步骤302将原始数据表中数据量大于第一阈值的数据分表储存后，满足查询条件的数据在公共表中数据量都小于或等于第一阈值。但随着时间的增加，公共表中的数据也会逐渐增加，公共表中的数据量随时都有大于第一阈值的风险。所以需要根据查询条件实时监控所述公共表中数据量的变化，当监控到数据量大于第一阈值时，将数据从公共表中导入子数据表中，减少公共表的数据量，以免增加公共表中数据的查询时间。

为了提高将数据从公共表导入子数据表的效率，可以在建立公共表时，将满足不同查询条件的数据分别导入所述公共表中的不同区域，且不同区域均保留有空余存储空间，以便添加对应的新增数据。由此，当需要将满足某个查询条件的数据从公共表导入子数据表时，可以直接将对应区域的数据导入子数据表，而无需再通过一条一条数据匹配的方式进行导入。

308、根据所述查询条件建立子数据表，将满足查询条件的数据导入所述子数据表。

该步骤的实现方式与上述实施例的步骤102相同，在此不再赘述。

309、存储所述查询条件和所述子数据表的对应关系，并删除所述查询条件和所述公共表的对应关系。

因为查找该数据时仅需要查询子数据表，所以删除所述查询条件和所述公共表的对应关系，能够避免在查找数据表时出现查找路径混乱的情况。

310、删除所述公共表中导入所述子数据表的数据。

数据导入子数据表后，该数据的查询条件也与子数据表建立了对应关系。因此之后查询该数据时，仅需在子数据表内对该数据进行查询，而无需再花费大量时间查询公共表。故而删除公共表中的相应数据可以节省公共表的存储空间，并且不会对查询结果产生影响。

311、判断所述子数据表中数据量是否大于第二阈值。

如果所述子数据表中的数据量大于第二阈值，则执行步骤312；如果所述子数据表中的数据量小于或等于第二阈值，则循环执行步骤311。

312、根据预设拆分条件拆分所述子数据表。

313、更新所述查询条件和所述子数据表的对应关系，并执行步骤311，继续判断所述子数据表中的数据量是否大于第二阈值。

步骤311-313的实现方式与上述实施例的步骤205-207相同，在此不再赘述。

例：查询收视数据

根据数据功能确定维度为：收视维度、收听维度、网络维度，节目维度、栏目维度，频道维度、频道组维度，城市维度、城市组维度，天维度、周维度、月维度，收视份额维度、收视率维度、所有频道收视率维度。根据维度创建原始数据表，并将相关数据导入原始数据表中。

原始数据表

根据不同的查询条件对数据做数据量分析，以确定数据量的阈值。例如设定查询条件为：查询一档收视节目在单频道单城市每天的收视率数据。查询时长不能超过(可包含)5秒钟。首先将少量数据导入数据表中，导入的数据包括与查询条件相关的数据和无关的数据。按照查询条件查询数据，记录查询时长。如果查询时长没有超过5秒则增加数据(包括相关数据和无关数据)，直至查询时长等于5秒。将此时数据表中相关数据的数据量确定为数据满足该查询条件时的数据量的第一阈值，数据表中的总数据量确定为数据满足该查询条件时的数据量的第二阈值。以此类推，确定数据在满足不同查询条件时的数据量的第一阈值和第二阈值。

确定第一阈值和第二阈值后对原始数据表中的数据进行查询。例如查询条件A为：1频道每分钟在北京市的收视率。该查询条件对应的功能A为：1频道在北京市的分钟收视分析。如果满足查询条件A的数据在原始数据表中的数据量超过了第一阈值，则根据查询条件A建立子数据表“f_tv_channel_city_minute(该子数据表名称)”，并将数据移动到子数据表“f_tv_channel_city_minute”中。

f_tv_channel_city_minute

收视维度	频道维度	城市维度	分钟维度	收视率维度
					收视	1频道	北京	001分钟	0.15％
收视	1频道	北京	002分钟	0.2％
					收视	1频道	北京	003分钟	0.09％
收视	1频道	北京	004分钟	0.08％
					收视	1频道	北京	005分钟	0.03％
收视	1频道	北京	006分钟	0.07％
					…	…	…	…	…
…	…	…	…	…
					收视	1频道	北京	100分钟	0.1％

存储查询条件A和子数据表的对应关系：查询条件A对应f_tv_channel_city_minute。当用户调用功能A时，根据该对应关系会直接查找到名称为“f_tv_channel_city_minute”的子数据表，并在该子数据表中查询数据。

例如查询条件为B为：A节目每月在直辖市组中8频道的收视份额。如果监控到满足查询条件B的数据在原始数据表中的数据量小于或等于第一阈值，首先根据原始数据表创建公共表，再将满足查询条件B的数据数据导入公共表中，并存储查询条件B和公共表的对应关系。以此类推，将监控到的数据量小于或等于第一阈值的数据全部移动到公共表中，存储对应的多个查询条件和公共表的对应关系。

公共表可以根据导入数据的数据量创建一个或多个。假设公共表本身的数据存储量为X，设定导入数据的数据量的和不能大于0.1X，以保证不会因为总数据量过大而增加公共表的查询时间。例如需要导入公共表的数据有N组，如果数据1的数据量+数据2的数据量+……+数据N的数据量≤0.1X，则创建一个公共表，将N组数据全部导入该公共表中。如果数据1的数据量+数据2的数据量+……+数据N的数据量≥0.1X，且数据1的数据量+数据2的数据量+……+数据M的数据量≤0.1X、数据M+1的数据量+……+数据N的数据量≤0.1X(M＜N)，则创建两个公共表，将前M组数据导入第一公共表中，把第M+1组数据到N组数据都导入第二公共表中。以此类推，如果数据1的数据量+数据2的数据量+……+数据M的数据量≥0.1X、数据M+1的数据量+……+数据N的数据量≤0.1X(M＜N)，且数据1的数据量+数据2的数据量+……+数据L的数据量≤0.1X、数据L+1的数据量+……+数据M的数据量≤0.1X(L＜M)；则创建三个公共表，将前L组数据导入第一公共表中，第L+1组数据到第M组数据导入第二公共表中，将M+1组数据到第N组数据导入第三公共表中。

将原始数据表的数据按照数据量与第一阈值的对比结果分别导入子数据表和公共表后，完成了数据库的初始化。然后实时监控子数据表和公共表中数据量的变化，判断数据量是否大于第一或第二阈值，以保证在运行期间不会因为数据量的激增而影响查询速度。

例如监控到公共表中数据1的数据量大于第一阈值，则根据数据1的查询条件建立子数据表1，并将数据1移动到子数据表1中。

例如监控到存储在子数据表“f_tv_channel_city_minute”中的数据的数据量大于第二阈值，则按照数据区域拆分子数据表“f_tv_channel_city_minute”。数据区域可以按照数据的创建时间段来分隔。

进一步的，作为对上述实施例方法的实现，本发明再一实施例还提供了一种数据存储的装置。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。

参照附图4所示，所述数据存储的装置包括：

确定单元41，用于确定满足查询条件的数据在原始数据表中的数据量，所述查询条件包含的维度个数小于所述原始数据表包含的维度个数；

建立单元42，用于当所述数据量大于第一阈值时，根据所述查询条件建立子数据表；

导入单元43，用于将满足所述查询条件的数据导入所述子数据表，所述查询条件中包含的维度与所述子数据表中包含的维度相同；

存储单元44，用于存储所述查询条件和所述子数据表的对应关系，以便在根据所述对应关系查找到所述子数据表后，从所述子数据表中查找满足所述查询条件的数据。

可选的，参照图5所示，所述装置还包括：

估计单元45，用于当所述原始数据表中的数据存在缺失时，根据所述查询条件对应的业务特征，估计满足所述查询条件的数据在所述原始数据表中的数据量，以便基于估计的数据量与所述第一阈值进行比较；和/或，当满足所述查询条件的数据未生成时，根据所述查询条件对应的业务特征，估计满足所述查询条件的数据在预设时间段后能够生成的数据量，以便基于估计的数据量与所述第一阈值进行比较。

可选的，参照图5所示，所述装置还包括：

监控单元46，用于在存储所述查询条件和所述子数据表的对应关系后，实时监控所述子数据表中数据量的变化；

拆分单元47，用于当所述子数据表中的数据量大于第二阈值时，根据预设拆分条件拆分所述子数据表；

更新单元48，用于更新所述查询条件和所述子数据表的对应关系。

可选的，所述建立单元42还用于当所述数据量小于或者等于所述第一阈值时，建立公共表；

所述导入单元43还用于将满足查询条件的数据导入所述公共表中；

所述存储单元44还用于存储所述查询条件和所述公共表的对应关系。

可选的，所述监控单元46还用于存储所述查询条件和所述公共表的对应关系后，根据查询条件实时监控所述公共表中数据量的变化；

所述建立单元42还用于当所述数据量大于第一阈值时，根据所述查询条件建立子数据表；

所述导入单元43还用于将满足查询条件的数据导入所述子数据表；

所述存储单元44还用于存储所述查询条件和所述子数据表的对应关系；

可选的，参照图5所示，所述装置还包括：

删除单元49，用于删除所述查询条件和所述公共表的对应关系，以及所述公共表中导入所述子数据表的数据。

可选的，参照图5所示，所述导入单元43用于将满足不同查询条件的数据分别导入所述公共表中的不同区域。

可选的，参照图5所示，所述装置还包括：

所述接收单元410，用于接收数据查询请求，所述数据查询请求中携带有查询条件；

所述确定单元41还用于根据所述查询条件确定对应的子数据表或公共表；

查询单元411，用于在确定的子数据表或公共表中进行数据查询。

本发明实施例提供的数据存储的装置，将存储在同一数据表中的数据按照功能(即查询条件)分组存储在不同的数据表中，并建立了查询条件和数据表的对应关系。在查询数据时，与现有技术需要在存储有大量无关数据的数据表中查找满足查询条件的数据相比，本发明仅需要根据查询条件和数据表的对应关系就能够准确快速地查找到存储有相关数据的数据表，进而对该数据表进行数据查询。满足查询条件的数据全部存储在该数据表中，而且查询的数据量要远远小于所有数据存储在同一数据表中的数据量，从而避免了在查询过程中查询到大量无关数据，能够大大缩短查询时长。

除此之外，本发明实施例还可以对在各数据表中满足查询条件且数据量小于等于第一或第二阈值的数据进行实时监控，当数据量大于第一或第二阈值时能及时将该数据移动到新建数据表，以免增加数据的查询时间。

所述数据存储的装置包括处理器和存储器，上述确定单元、建立单元、导入单元、存储单元、估计单元、监控单元、拆分单元、更新单元、删除单元、接收单元和查询单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决现有技术中由于数据存储混杂而导致数据的查询时间过长的问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述数据存储的方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述数据存储的方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

存储所述查询条件和所述子数据表的对应关系。以便在根据所述对应关系查找到所述子数据表后，从所述子数据表中查找满足所述查询条件的数据。

可选的，若所述原始数据表中的数据存在缺失，则根据所述查询条件对应的业务特征，估计满足所述查询条件的数据在所述原始数据表中的数据量，以便基于估计的数据量与所述第一阈值进行比较；

可选的，在存储所述查询条件和所述子数据表的对应关系后，实时监控所述子数据表中数据量的变化；

当所述子数据表中的数据量大于第二阈值时，根据预设拆分条件拆分所述子数据表。

更新所述查询条件和所述子数据表的对应关系。

可选的，如所述数据量小于或者等于所述第一阈值，则建立公共表；

将满足预设数据量条件的数据导入所述公共表中。所述预设数据量条件为满足查询条件的数据的数据量小于或等于第一阈值；

存储所述查询条件和所述公共表的对应关系。

可选的，存储所述查询条件和所述公共表的对应关系后，根据查询条件实时监控所述公共表中数据量的变化；

存储所述查询条件和所述子数据表的对应关系，删除所述查询条件和所述公共表的对应关系，以及所述公共表中导入所述子数据表的数据。

可选的，将满足不同查询条件的数据分别导入所述公共表中的不同区域。

可选的，接收数据查询请求，所述数据查询请求中携带有查询条件；根据所述查询条件确定对应的子数据表或公共表；在确定的子数据表或公共表中进行数据查询。

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：

1、确定满足查询条件的数据在原始数据表中的数据量。所述查询条件包含的维度个数小于所述原始数据表包含的维度个数。

2、如所述数据量大于第一阈值，则根据所述查询条件建立子数据表，并将满足所述查询条件的数据导入所述子数据表。所述查询条件中包含的维度与所述子数据表中包含的维度相同。

3、存储所述查询条件和所述子数据表的对应关系，以便在根据所述对应关系查找到所述子数据表后，从所述子数据表中查找满足所述查询条件的数据。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据存储的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，在存储所述查询条件和所述子数据表的对应关系后，所述方法还包括：

实时监控所述子数据表中数据量的变化；

更新所述查询条件和所述子数据表的对应关系。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

如所述数据量小于或者等于所述第一阈值，则建立公共表；

将满足查询条件的数据导入所述公共表中；

存储所述查询条件和所述公共表的对应关系。

5.根据权利要求4所述的方法，其特征在于，存储所述查询条件和所述公共表的对应关系后，所述方法还包括：

根据查询条件实时监控所述公共表中数据量的变化；

6.根据权利要求4或5所述的方法，其特征在于，将满足查询条件的数据导入所述公共表中，包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

接收数据查询请求，所述数据查询请求中携带有查询条件；

根据所述查询条件确定对应的子数据表或公共表；

在确定的子数据表或公共表中进行数据查询。

8.一种数据存储的装置，其特征在于，所述装置包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求7中任意一项所述的数据存储的方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至权利要求7中任意一项所述的数据存储的方法。