CN104199945A

CN104199945A - 数据存储方法和装置

Info

Publication number: CN104199945A
Application number: CN201410459122.7A
Authority: CN
Inventors: 池雷
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2014-09-10
Filing date: 2014-09-10
Publication date: 2014-12-10

Abstract

本发明公开了一种数据存储方法和装置。其中，该数据存储方法包括：获取待统计数据的时间标识；按照时间标识将待统计数据存储在数据库的不同分区中，其中，每个分区对应一个时间标识；对存储有待统计数据的分区中的数据进行统计，得到统计结果；以及输出统计结果。通过本发明，解决了为保证数据的准确存储而导致的系统开销比较大的问题。

Description

数据存储方法和装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种数据存储方法和装置。

背景技术

在对互联网的海量数据进行统计分析时，需要将一段时间内的存储为历史数据统计数据(例如将1天内的数据累加存储)，以便于根据汇总数据快速生成报表，避免对原始海量数据的搜索，这种方式广泛应用于大数据分析中。

现有技术进行数据存储时，通常采用两种方案：一种方案是将历史数据存为多块，一旦有延期录入的历史数据作为新进数据进行录入，则单独存储延期录入的历史数据为块，并关联延期录入的历史数据与同期的历史数据。另外一种方案是删除所有统计数据，根据所有历史数据和新录入的数据重新将历史数据进行统计汇总。

第一种方案明显的缺陷是多记录了一条记录，造成了存储空间浪费。另外，对于不能直接加和的数据，在两个块内记录同期的数据会造成存储的数据重复，从而导致统计的数据结果不准确。

第二种方案由于新进数据访问日期可能包含任何一天或多天的数据，所以需要将所有数据合并汇总历史数据统计值，虽然能够解决方案1正确性的问题，但由于不确定新进数据的影响范围，需要全部重新计算，耗费大量的计算资源。

针对现有技术中为了保证数据的准确统计而导致的系统开销比较大的问题，目前尚未提出有效的解决方案。

发明内容

本发明的主要目的在于提供一种数据存储方法和装置，以解决为了保证数据的准确存储而导致的系统开销比较大的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种数据存储方法。根据本发明的数据存储方法包括：获取待统计数据的时间标识；按照所述时间标识将所述待统计数据存储在数据库的不同分区中，其中，每个所述分区对应一个所述时间标识；对存储有所述待统计数据的所述分区中的数据进行统计，得到统计结果；以及输出所述统计结果。

进一步地，按照所述时间标识将所述待统计数据存储在数据库的不同分区中包括：根据所述时间标识判断所述待统计数据为新进数据或者延期数据，其中，所述新进数据为所述待统计数据的时间标识与所述数据库中已经存储的时间标识不同的数据，所述延期数据为所述待统计数据的时间标识与所述数据库中已经存储的时间标识相同的数据；如果所述待统计数据为所述延期数据，则在所述数据库中查找与所述延期数据的所述时间标识相同的第一分区，并将所述延期数据存储在所述第一分区中；如果所述待统计数据为所述新进数据，则按照所述新进数据的所述时间标识建立第二分区，并将所述新进数据存储在所述第二分区中。

进一步地，对存储有所述待统计数据的所述分区中的数据进行统计，得到统计结果包括：对存储在所述第一分区中的同期数据和所述延期数据进行统计，得到第一统计结果，其中，所述同期数据为与所述延期数据的时间标识相同的数据；或者对存储在所述第二分区中的所述新进数据进行统计，得到第二统计结果。

进一步地，在获取待统计数据的时间标识之前，所述方法还包括：获取所述数据库中存储数据的索引标识，其中，所述索引标识为按照所述数据库中的数据产生顺序生成的数值；按照所述索引标识从所述数据库的历史数据中查找所述数值最大的所述索引标识，得到历史数据的最大索引标识；获取所述待统计数据的索引标识中所述数值最大的索引标识，得到所述待统计数据的最大索引标识；以及将处于所述历史数据的最大索引标识与所述待统计数据的最大索引标识之间的索引标识对应的数据作为所述待统计数据。

进一步地，获取待统计数据的时间标识包括：按照所述索引标识查找处于所述历史数据的最大索引标识与所述待统计数据的最大索引标识之间的索引标识对应的数据的时间标识；将查找到的时间标识作为所述待统计数据的所述时间标识。

为了实现上述目的，根据本发明的另一方面，提供了一种数据存储装置。根据本发明的数据存储装置包括：第一获取单元，用于获取待统计数据的时间标识；存储单元，用于按照所述时间标识将所述待统计数据存储在数据库的不同分区中，其中，每个所述分区对应一个所述时间标识；统计单元，用于对存储有所述待统计数据的所述分区中的数据进行统计，得到统计结果；以及输出单元，用于输出所述统计结果。

进一步地，所述存储单元包括：判断模块，用于根据所述时间标识判断所述待统计数据为新进数据或者延期数据，其中，所述新进数据为所述待统计数据的时间标识与所述数据库中已经存储的时间标识不同的数据，所述延期数据为所述待统计数据的时间标识与所述数据库中已经存储的时间标识相同的数据；第一查找模块，用于在所述待统计数据为所述延期数据时，在所述数据库中查找与所述延期数据的所述时间标识相同的第一分区，并将所述延期数据存储在所述第一分区中；建立模块，用于在所述待统计数据为所述新进数据时，按照所述新进数据的所述时间标识建立第二分区，并将所述新进数据存储在所述第二分区中。

进一步地，所述统计单元包括：第一统计模块，用于对存储在所述第一分区中的同期数据和所述延期数据进行统计，得到第一统计结果，其中，所述同期数据为与所述延期数据的时间标识相同的数据；或者第二统计模块，用于对存储在所述第二分区中的所述新进数据进行统计，得到第二统计结果。

进一步地，所述装置还包括：第二获取单元，用于在获取待统计数据的时间标识之前，获取所述数据库中存储数据的索引标识，其中，所述索引标识为按照所述数据库中的数据产生顺序生成的数值；查找单元，用于按照所述索引标识从所述数据库的历史数据中查找所述数值最大的所述索引标识，得到历史数据的最大索引标识；第三获取单元，用于获取所述待统计数据的索引标识中所述数值最大的索引标识，得到所述待统计数据的最大索引标识；以及确定单元，用于将处于所述历史数据的最大索引标识与所述待统计数据的最大索引标识之间的索引标识对应的数据作为所述待统计数据。

进一步地，所述第一获取单元包括：第二查找模块，用于按照所述索引标识查找处于所述历史数据的最大索引标识与所述待统计数据的最大索引标识之间的索引标识对应的数据的时间标识；确定模块，用于将查找到的时间标识作为所述待统计数据的所述时间标识。

通过本发明，按照不同的时间标识将待统计数据存储在数据库的不同分区中，在进行数据统计时并不是对数据库中的每个分区都进行统计，而是统计存储有待统计数据的分区进行数据统计，不仅避免了独立访问量的错误统计，还能针对有新的数据加入的分区进行统计，从而解决为了保证数据的准确存储而导致的系统开销比较大的问题，进而在保证准确统计数据的同时，仅对数据库的几个分区进行数据统计，达到了减少系统开销的效果。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的数据存储方法的流程图；以及

图2是根据本发明实施例的数据存储装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供了一种数据存储方法。该数据存储方法可以用于对海量数据进行存储并便于统计，例如，对访问数据进行存储。

图1是根据本发明实施例的数据存储方法的流程图。如图所示，该数据存储方法包括如下步骤：

步骤S102，获取待统计数据的时间标识；

步骤S104，按照时间标识将待统计数据存储在数据库的不同分区中，其中，每个分区对应一个时间标识；

步骤S106，对存储有待统计数据的所述分区中的数据进行统计，得到统计结果；以及

步骤S108，输出统计结果。

待统计数据的时间标识可以是月份、周、日期或者时刻，也可以是二者的结合。如表1所示，待统计数据的时间标识可以是表1中的时间标识列中的内容，如7月3日0：00：00，当然，时间标识可以按照待统计数据的选择具体的时间粒度，并不限于表1中示出的时间标识。

表1 7月3日的待统计数据

索引标识	时间标识	访客	数据库分区
				1	7月3日0：00：00	A	分区2
2	7月1日0：00：08	B	分区1
				3	7月3日0：00：32	A	分区2

4	7月1日3：00：12	A	分区1
				5	7月3日3：01：32	C	分区2
…	….	….	……
				100,000,000	7月3日23：59：58	F	分区2

在获取待统计数据的时间标识之后，将待统计数据按照时间标识存储在数据库的不同分区中。如表1所示，将时间标识为7月3日的所有数据存储在分区1中，将时间标识为7月1日的所有数据存储在分区1中。

分区2和分区1在数据库是不同的块，存储有不同的时间标识对应的待统计数据，对存储有待统计数据的分区中的数据进行统计，得到每个分区的统计结果，并输出统计结果。如表1中的7月1日的数据存储在分区1中，则对分区1中的数据进行统计；7月3日的数据存储在分区1中，则对分区2中的数据进行统计。如果7月2日的数据存储在分区3中，由于在表1所示的待统计数据中没有7月2日的数据，则不对分区3进行统计。

输出的统计结果的形式如表2所示。在表2所示的统计结果中可以读出统计的访问日期为7月1日和7月2日，7月1日的访问量量为80,000,000，独立访问量为76,000,000。其中，独立访问量为同一天的多次访问记录一次的访问数量。正是因为统计独立访问的数量的不重复的特性，使得独立访问量不能加和，也是造成独立访问量的数量小于访问量量的数量。

表2

访问日期	访问量	独立访问量
			7月1日	80,000,000	76,000,000
7月2日	93,000,000	89,000,000

通过上述方法，按照不同的时间标识将待统计数据存储在数据库的不同分区中，在进行数据统计时并不是对数据库中的每个分区都进行统计，而是统计存储有待统计数据的分区进行数据统计，不仅避免了独立访问量的错误统计，还能针对有新的数据加入的分区进行统计，从而解决为了保证数据的准确存储而导致的系统开销比较大的问题，进而在保证准确统计数据的同时，仅对数据库的几个分区进行数据统计，达到了减少系统开销的效果。

可选地，按照时间标识将待统计数据存储在数据库的不同分区中包括：根据时间标识判断待统计数据为新进数据或者延期数据，其中，新进数据为待统计数据的时间标识与数据库中已经存储的时间标识不同的数据，延期数据为待统计数据的时间标识与数据库中已经存储的时间标识相同的数据；如果待统计数据为延期数据，则在数据库中查找与延期数据的时间标识相同的第一分区，并将延期数据存储在第一分区中；如果待统计数据为新进数据，则按照新进数据的时间标识建立第二分区，并将新进数据存储在第二分区中

如表1所示出的7月3日的待统计数据。表1中时间为7月1日的数据为延期数据，即属于7月1日的数据但是没有存储的数据；时间为7月3日的数据为新进数据，即属于7月3日新生成的数据，还没有存储在数据库中。在数据库中已经具有存储7月1日的数据的分区1，则将属于7月1日的延期数据存储在分区1中，分区1也就是第一分区；对于新进数据，可以建立新的分区1，将7月3日新生成的数据存储在分区1中，分区1也就是第二分区。

在该实施例中，判断待统计数据是延期数据还是新进数据，如果是延期数据则按照时间标识在数据库中查找与待统计数据的时间标识对应的分区，将待统计数据存储在数据库的相应分区中，如果是新进数据，则建立新的数据库分区，并将新进数据存储在新建的分区中。也就是说，第一分区和第二分区是存储有新的待统计数据，则在进行统计时仅需要对第一分区和第二分区进行统计，避免了对所有数据库中数据进行统计造成的系统开销较大的问题，并且，对存储有处于一个时间段内的数据的分区进行统计，还能避免数据叠加造成的统计结果错误的情况，进而提高了数据统计的准确性。

进一步地，对存储在分区中的数据进行统计，得到统计结果包括：对存储在第一分区中的同期数据和延期数据进行统计，得到第一统计结果，其中，同期数据为与延期数据的时间标识相同的数据。或者对存储在第二分区中的新进数据进行统计，得到第二统计结果。

已经存储在数据库中属于7月1日的数据即为同期数据，在7月3日存储在数据库中属于7月1日的数据即为延期数据。将延期数据存储在分区1中，则分区1中存储了所有属于7月1日的数据，对分区1中的数据进行统计，得到的第一统计结果即为7月1日的统计数据。如，在加入延期数据之前，7月1日的访问量为80,000,000，独立访问量为76,000,000；在加入延期数据之后，7月1日的访问量为90,000,000，独立访问量为85,000,000。

对于新建的第二分区，在该分区中仅存储有7月3日的数据，则对该分区中的数据进行统计，得到第二统计结果。增加了7月3日的数据之后，输出的统计结果如表3所示。

表3

访问日期	访问量量	独立访问量
			7月1日	90,000,000	85,000,000
7月2日	93,000,000	89,000,000
			7月3日	91,000,000	…

可选地，在获取待统计数据的时间标识之前，方法还包括：获取数据库中存储数据的索引标识，其中，索引标识为按照数据库中的数据产生顺序生成的数值。按照索引标识从数据库的历史数据中查找数值最大的索引标识，得到历史数据的最大索引标识。获取待统计数据的索引标识中数值最大的索引标识，得到待统计数据的最大索引标识。以及将处于历史数据的最大索引标识与待统计数据的最大索引标识之间的索引标识对应的数据作为待统计数据。

在获取待统计数据的索引标识，索引标识可以是表1所示的数值。由表1可以看出，索引标识按照数据产生的顺序依次排列，产生的时间为同一天，但是产生的时间较晚的数据的索引标识的数值较大，这样可以根据索引标识确定待统计数据。例如，历史数据中的索引标识的数值的最大值为50,000,000，本次索引标识的数值的最大值为100,000,000，则索引标识从50,000,000至100,000,000为本次的待统计数据。

进一步地，获取待统计数据的时间标识包括：按照索引标识查找处于历史数据的最大索引标识与待统计数据的最大索引标识之间的索引标识对应的数据的时间标识。将查找到的时间标识作为待统计数据的时间标识。

查找索引标识处于50,000,000至100,000,000之间的索引标识对应的时间标识，并按照时间标识将相应的数据存储到不同的分区内。

利用索引标识确定待统计数据，能够迅速定位到本次需要存储的待统计数据，并按照时间标识将待统计数据存储在相应的分区中，从而对存储由待统计数据的分区中的所有数据进行数据统计，快速定位待统计数据并进行统计，提高了对新生成的数据进行统计的效率。

本发明实施例还提供了一种数据存储装置。

本发明实施例的数据存储方法可以通过本发明实施例所提供的数据存储装置来执行，本发明实施例的数据存储装置也可以用于执行本发明实施例所提供的数据存储方法。

图2是根据本发明实施例的数据存储装置的示意图。如图所示，该数据存储装置包括：第一获取单元10、存储单元20、统计单元30和输出单元40。

第一获取单元10用于获取待统计数据的时间标识；

存储单元20用于按照时间标识将待统计数据存储在数据库的不同分区中，其中，每个分区对应一个时间标识；

统计单元30用于对存储有待统计数据的分区中的数据进行统计，得到统计结果；以及

输出单元40用于输出统计结果。

可选地，存储单元包括：判断模块，用于根据时间标识判断待统计数据为新进数据或者延期数据，其中，新进数据为待统计数据的时间标识与数据库中已经存储的时间标识不同的数据，延期数据为待统计数据的时间标识与数据库中已经存储的时间标识相同的数据；第一查找模块，用于在待统计数据为延期数据时，在数据库中查找与延期数据的时间标识相同的第一分区，并将延期数据存储在第一分区中；建立模块，用于在待统计数据为新进数据时，按照新进数据的时间标识建立第二分区，并将新进数据存储在第二分区中。

进一步地，统计单元包括：第一统计模块，用于对存储在第一分区中的同期数据和延期数据进行统计，得到第一统计结果，其中，同期数据为与延期数据的时间标识相同的数据；或者第二统计模块，用于对存储在第二分区中的新进数据进行统计，得到第二统计结果。

可选地，装置还包括：第二获取单元，用于在获取待统计数据的时间标识之前，获取数据库中存储数据的索引标识，其中，索引标识为按照数据库中的数据产生顺序生成的数值；查找单元，用于按照索引标识从数据库的历史数据中查找数值最大的索引标识，得到历史数据的最大索引标识；第三获取单元，用于获取待统计数据的索引标识中数值最大的索引标识，得到待统计数据的最大索引标识；以及确定单元，用于将处于历史数据的最大索引标识与待统计数据的最大索引标识之间的索引标识对应的数据作为待统计数据。

进一步地，第一获取单元包括：第二查找模块，用于按照索引标识查找处于历史数据的最大索引标识与待统计数据的最大索引标识之间的索引标识对应的数据的时间标识；确定模块，用于将查找到的时间标识作为待统计数据的时间标识。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据存储方法，其特征在于，包括：

获取待统计数据的时间标识；

按照所述时间标识将所述待统计数据存储在数据库的不同分区中，其中，每个所述分区对应一个所述时间标识；

对存储有所述待统计数据的所述分区中的数据进行统计，得到统计结果；以及

输出所述统计结果。

2.根据权利要求1所述的方法，其特征在于，按照所述时间标识将所述待统计数据存储在数据库的不同分区中包括：

根据所述时间标识判断所述待统计数据为新进数据或者延期数据，其中，所述新进数据为所述待统计数据的时间标识与所述数据库中已经存储的时间标识不同的数据，所述延期数据为所述待统计数据的时间标识与所述数据库中已经存储的时间标识相同的数据；

如果所述待统计数据为所述延期数据，则在所述数据库中查找与所述延期数据的所述时间标识相同的第一分区，并将所述延期数据存储在所述第一分区中；

如果所述待统计数据为所述新进数据，则按照所述新进数据的所述时间标识建立第二分区，并将所述新进数据存储在所述第二分区中。

3.根据权利要求2所述的方法，其特征在于，对存储有所述待统计数据的所述分区中的数据进行统计，得到统计结果包括：

对存储在所述第一分区中的同期数据和所述延期数据进行统计，得到第一统计结果，其中，所述同期数据为与所述延期数据的时间标识相同的数据；或者

对存储在所述第二分区中的所述新进数据进行统计，得到第二统计结果。

4.根据权利要求1所述的方法，其特征在于，在获取待统计数据的时间标识之前，所述方法还包括：

获取所述数据库中存储数据的索引标识，其中，所述索引标识为按照所述数据库中的数据产生顺序生成的数值；

按照所述索引标识从所述数据库的历史数据中查找所述数值最大的所述索引标识，得到历史数据的最大索引标识；

获取所述待统计数据的索引标识中所述数值最大的索引标识，得到所述待统计数据的最大索引标识；以及

将处于所述历史数据的最大索引标识与所述待统计数据的最大索引标识之间的索引标识对应的数据作为所述待统计数据。

5.根据权利要求4所述的方法，其特征在于，获取待统计数据的时间标识包括：

按照所述索引标识查找处于所述历史数据的最大索引标识与所述待统计数据的最大索引标识之间的索引标识对应的数据的时间标识；

将查找到的时间标识作为所述待统计数据的所述时间标识。

6.一种数据存储装置，其特征在于，包括：

第一获取单元，用于获取待统计数据的时间标识；

存储单元，用于按照所述时间标识将所述待统计数据存储在数据库的不同分区中，其中，每个所述分区对应一个所述时间标识；

统计单元，用于对存储有所述待统计数据的所述分区中的数据进行统计，得到统计结果；以及

输出单元，用于输出所述统计结果。

7.根据权利要求6所述的装置，其特征在于，所述存储单元包括：

判断模块，用于根据所述时间标识判断所述待统计数据为新进数据或者延期数据，其中，所述新进数据为所述待统计数据的时间标识与所述数据库中已经存储的时间标识不同的数据，所述延期数据为所述待统计数据的时间标识与所述数据库中已经存储的时间标识相同的数据；

第一查找模块，用于在所述待统计数据为所述延期数据时，在所述数据库中查找与所述延期数据的所述时间标识相同的第一分区，并将所述延期数据存储在所述第一分区中；

建立模块，用于在所述待统计数据为所述新进数据时，按照所述新进数据的所述时间标识建立第二分区，并将所述新进数据存储在所述第二分区中。

8.根据权利要求7所述的装置，其特征在于，所述统计单元包括：

第一统计模块，用于对存储在所述第一分区中的同期数据和所述延期数据进行统计，得到第一统计结果，其中，所述同期数据为与所述延期数据的时间标识相同的数据；或者

第二统计模块，用于对存储在所述第二分区中的所述新进数据进行统计，得到第二统计结果。

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第二获取单元，用于在获取待统计数据的时间标识之前，获取所述数据库中存储数据的索引标识，其中，所述索引标识为按照所述数据库中的数据产生顺序生成的数值；

查找单元，用于按照所述索引标识从所述数据库的历史数据中查找所述数值最大的所述索引标识，得到历史数据的最大索引标识；

第三获取单元，用于获取所述待统计数据的索引标识中所述数值最大的索引标识，得到所述待统计数据的最大索引标识；以及

确定单元，用于将处于所述历史数据的最大索引标识与所述待统计数据的最大索引标识之间的索引标识对应的数据作为所述待统计数据。

10.根据权利要求9所述的装置，其特征在于，所述第一获取单元包括：

第二查找模块，用于按照所述索引标识查找处于所述历史数据的最大索引标识与所述待统计数据的最大索引标识之间的索引标识对应的数据的时间标识；

确定模块，用于将查找到的时间标识作为所述待统计数据的所述时间标识。