CN102419756A

CN102419756A - 一种分布式数据翻页方法和系统

Info

Publication number: CN102419756A
Application number: CN2010102995389A
Authority: CN
Inventors: 袁清
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2010-09-28
Filing date: 2010-09-28
Publication date: 2012-04-18
Also published as: WO2012041235A1

Abstract

本发明实施方式公开了一种分布式系统的数据翻页方法和系统。包括：针对存储于服务器中的无序数据元组序列S进行排序，直到序列S的每一项都可以在整个序列S中确定唯一位置，其中n为自然数；对经过所述排序后的数据元组序列S进行翻页，并将翻页后的数据呈现给客户端。应用本发明实施方式以后，可以用一种统一的标识方法来充分利用数据的每一个维度，直到能够唯一的定位一个数据项，因此多维数据可以在长序列中获得唯一的定位，从而提高翻页的准确率(甚至可以达到100％)，而且同时节省50％以上的查询时间。

Description

一种分布式数据翻页方法和系统

技术领域

本发明涉及互联网应用技术领域，更具体地，本发明涉及一种分布式数据翻页方法和系统。

背景技术

目前在分布式系统中，数据一般存储在后台服务器中，上层用户会请求各个服务器中的数据。由于数据是用户产生的，海量的用户必然会催生出海量的数据，同时又会带来海量的读写量。如何存储这些海量数据，以及如何提供高并发的读写服务，都是UGC业务系统必然面临的问题。比如，在目前微博系统中，需要以页为单位(页是一定量数据的集合)将大量的数据展示给前台客户端，这就涉及到数据的翻页技术问题。前台客户端可以根据需求，进行向上，向下翻页，或者跳跃到第一页或最后一页。好的分页方案，可以在翻页动态计算时，避免出现前后两页数据重复，或部分数据丢失的问题。其中：向下翻页一般指一定量的数据按时间从新到旧的顺序返回，越往下翻，就越能查看到最新的数据。向上翻页则相反。

在目前的数据翻页技术中，单一以时间为基准轴进行数据分页。当同一时间点内有相同类型的数据，且分布在不同的服务器时，则单纯根据数据在服务器中的存储位置(也就是服务器的读取顺序)来确定分页点。

然而，当同一时间点的数据存储位置发生相对变动时，若还用原来的翻页标记来翻页，则会漏掉部分数据或给前端重复的数据。

例如，设有数据元组{time，id}序列如下：

序列：{1000，9}，{1000，11}，{1000，16}，{1000，7}，....

对应存储机器：服务器0 服务器1 服务器2 服务器0

当用户请求数据时，若按照服务器0→服务器1→服务器2→服务器0的顺序依次请求，假设读出的数据顺序如上序列所示，且上次给出的翻页点是{1000，16}，则用户的下一次请求向下翻页应该返回{1000，7}及以后的数据，这样才能保证同一个用户能请求到所有完整且不重复的数据。但是当在服务器1上，同一时间点来了数据元组{1000，88}，并导致元组序列变动如下时：

序列：{1000，88}，{1000，11}，{1000，16}，{1000，7}，{1000，9}，....，

存储机器：服务器1 服务器1 服务器2 服务器0 服务器0

若此时分页点仍然是{1000，16}，而服务器读取顺序改为服务器1→服务器2→服务器0→服务器1，则服务器1上的数据{1000，88}将无法呈现给客户端，即数据会被漏掉。这表明，只要服务器读取顺序前后两次请求不一样，则同一个用户请求相同时间点内的数据时，会漏掉部分数据。

而且，在分布式系统中，由于有多套备份设备同时提供读的能力，是没有办法强制每次请求时，按同样的顺序读取机器数据的。同样，当向上翻页时，若同一时间内数据再次有变化，将导致某些数据不能正确的给到前台。同时，若要在数据中查找{1000，88}，需要遍历所有time为1000的数据元组，效率非常低下。

发明内容

本发明实施方式提出一种分布式数据翻页方法，以提高数据翻页的准确性。

本发明实施方式提出一种分布式数据翻页系统，以提高数据翻页的准确性。

本发明实施方式的技术方案如下：

一种分布式系统的数据翻页方法，包括：

针对存储于服务器中的无序数据元组序列S进行排序，其中S所包含的项为n维数据集合，所述排序包括：

设置所述n维的维度顺序优先级；

按照所述维度顺序优先级对S中的项进行排序，其中对于维度顺序优先级相同的项，进一步按照该相同的维度顺序优先级的下一维度顺序优先级对所述维度顺序优先级相同的项进行排序，直到所述序列S的每一项都可以在整个序列S中确定唯一位置，其中n为自然数；

对经过所述排序后的数据元组序列S进行翻页，并将翻页后的数据呈现给客户端。

所述设置维度顺序优先级为：根据所述n维的重要性为所述n维设置维度顺序优先级，其中重要性越大，维度顺序优先级越高。

所述n为2，所述n维为时间和数据ID。

所述对经过所述排序后的数据元组序列S进行翻页，并将翻页后的数据呈现给客户端包括：

根据翻页标记对经过所述排序后的数据元组序列S进行翻页，并将翻页后的数据呈现给客户端。

根据权利要求4所述的分布式系统的数据翻页方法，其特征在于，所述翻页标记为数据元组或位置索引。

一种分布式系统的数据翻页系统，包括排序单元和翻页单元，其中：

排序单元，用于针对存储于服务器中的无序数据元组序列S进行排序，其中S所包含的项为n维数据集合，所述排序包括：

设置所述n维的维度顺序优先级；按照所述维度顺序优先级对S中的项进行排序，其中对于维度顺序优先级相同的项，进一步按照该相同的维度顺序优先级的下一维度顺序优先级对所述维度顺序优先级相同的项进行排序，直到所述序列S的每一项都可以在整个序列S中确定唯一位置，其中n为自然数；

翻页单元，用于对经过所述排序后的数据元组序列S进行翻页，并将翻页后的数据呈现给客户端。

所述排序单元，用于根据所述n维的重要性为所述n维设置维度顺序优先级，其中重要性越大，维度顺序优先级越高。

所述n为2，所述n维为时间和数据ID。

所述翻页单元，用于根据翻页标记对经过所述排序后的数据元组序列S进行翻页，并将翻页后的数据呈现给客户端。

所述翻页标记为数据元组或位置索引。

从上述技术方案可以看出，在本发明实施方式中，首先针对存储于服务器中的无序数据元组序列S进行排序，直到序列S的每一项都可以在整个序列S中确定唯一位置，其中n为自然数；然后再对经过所述排序后的数据元组序列S进行翻页，并将翻页后的数据呈现给客户端，因此，应用本发明实施方式以后，可以用一种统一的标识方法来充分利用数据的每一个维度，直到能够唯一的定位一个数据项，因此多维数据可以在长序列中获得唯一的定位，从而提高翻页的准确率(甚至可以达到100％)，而且同时节省50％以上的查询时间。

附图说明

图1为根据本发明实施方式的分布式数据翻页方法流程图；

图2为根据本发明实施方式的分布式数据翻页系统结构图。

具体实施方式

为使本发明的目的、技术方案和优点表达得更加清楚明白，下面结合附图及具体实施方式对本发明再作进一步详细的说明。

在本发明实施方式中，对于存储于服务器中的无序多维数据元组，用一种统一的标识方法来充分利用数据的每一个维度，直到能够唯一的定位一个数据项。

图1为根据本发明实施方式的分布式数据翻页方法流程图。

如图1所示，该方法包括：

步骤101：针对存储于服务器中的无序数据元组序列S进行排序，其中S所包含的项为n维数据集合，所述排序包括：

设置所述n维的维度顺序优先级；

其中，可以根据n维的重要性为n维设置维度顺序优先级，其中重要性越大，维度顺序优先级越高。比如，维度可以为时间和数据ID。

更具体地，在通用情况下，假设有无序数据元组序列S＝{T1，T2，T3...Tn}存储于服务器中，其中S中的第x项Tx(x＝1，2...n)是一个多维数据集合{k1，k2，k3，...kn}。

此时，首先设置n维(即k1，k2，k3，...kn)的维度顺序优先级，然后对S中的每个元素Tx(x＝1，2...n)，首先按照维度顺序优先级最高的维度来排序(假设为k1)，当k1相同的情况下，转而按k1的下一维度顺序优先级(假设为k2)来排序。当k2相同的情况下，转而按k2的下一维度顺序优先级(假设为k3)来排序......直到Tx可以在整个序列中S找到一个唯一确定的位置为止。

此时，若将元组序列S放在一个一维数组中，则每一个Tx的数组下标是固定的。每插入一个新的元组，整个S会重新排序，每个元素重新找到自己的固定位置。这样，对于给定分页Tx或数组下标索引，都可以唯一的找到一个项T来确定分界点。

比如，假如有数据元组{time，id}，则无论数据在服务器中的各个储状态如何，无论服务器的读取顺序如何，在逻辑上它们应确保其顺序无语义歧义。比如，可以先按时间维度倒序排序，其中在同一时间点下，再按数字id倒序排序。例如：

{2000，7}，{1000，7}，{1000，9}，{1000，11}，{1000，16}，{1000，88}，{500，7}，...

这样当新增{1000，19}数据项时，它有唯一确定的位置(即再{1000，16}，{1000，88}之间)。此时，无论翻页标记是一个数据元组，还是一个位置索引，都能唯一准确的给出分页数据，而且数据在底层的存储可以无序，不影响上层逻辑。

不仅与此，当需要查找数据项{1000，11}时，可以先二分查找时间为1000的数据项，然后根据数字id来决定左移或右移，而无需遍历所有时间为1000的数据项列表。平均情况下，时间节省50％。对于微博这种同一时刻巨大并发流量的应用来讲，效验收益非常好。

步骤102：对经过所述排序后的数据元组序列S进行翻页，并将翻页后的数据呈现给客户端。

在这里，可以根据翻页标记对经过排序后的数据元组序列S进行翻页，并将翻页后的数据呈现给客户端。更具体地，翻页标记可以为数据元组或位置索引。也就是说，翻页标记可以是数据元组序列中的任一项或者预先指定的位置索引。

基于上述分析，本发明实施方式还提出了一种分布式系统的数据翻页系统。

图2为根据本发明实施方式的分布式数据翻页系统结构图。

如图2所示，该系统包括排序单元201和翻页单元201，其中：

排序单元201，用于针对存储于服务器中的无序数据元组序列S进行排序，其中S所包含的项为n维数据集合，所述排序包括：

翻页单元201，用于对经过所述排序后的数据元组序列S进行翻页，并将翻页后的数据呈现给客户端。

其中，排序单元201，可以用于根据所述n维的重要性为所述n维设置维度顺序优先级，其中重要性越大，维度顺序优先级越高。而且，n可以具体为2，此时n维可以为时间和数据ID。

而且，翻页单元201，可以用于根据翻页标记对经过所述排序后的数据元组序列S进行翻页，并将翻页后的数据呈现给客户端。更具体地，翻页标记可以为数据元组或位置索引。

综上所述，在本发明实施方式中，首先针对存储于服务器中的无序数据元组序列S进行排序，直到序列S的每一项都可以在整个序列S中确定唯一位置，其中n为自然数；然后再对经过所述排序后的数据元组序列S进行翻页，并将翻页后的数据呈现给客户端，因此，应用本发明实施方式以后，可以用一种统一的标识方法来充分利用数据的每一个维度，直到能够唯一的定位一个数据项，因此多维数据可以在长序列中获得唯一的定位，从而提高翻页的准确率(甚至可以达到100％)，而且同时节省50％以上的查询时间。

以上所述，仅为本发明的较佳实施方式而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种分布式系统的数据翻页方法，其特征在于，包括：

设置所述n维的维度顺序优先级；

2.根据权利要求1所述的分布式系统的数据翻页方法，其特征在于，所述设置维度顺序优先级为：根据所述n维的重要性为所述n维设置维度顺序优先级，其中重要性越大，维度顺序优先级越高。

3.根据权利要求1所述的分布式系统的数据翻页方法，其特征在于，所述n为2，所述n维为时间和数据ID。

4.根据权利要求1所述的分布式系统的数据翻页方法，其特征在于，所述对经过所述排序后的数据元组序列S进行翻页，并将翻页后的数据呈现给客户端包括：

5.根据权利要求4所述的分布式系统的数据翻页方法，其特征在于，所述翻页标记为数据元组或位置索引。

6.一种分布式系统的数据翻页系统，其特征在于，包括排序单元和翻页单元，其中：

7.根据权利要求6所述的分布式系统的数据翻页系统，其特征在于，所述排序单元，用于根据所述n维的重要性为所述n维设置维度顺序优先级，其中重要性越大，维度顺序优先级越高。

8.根据权利要求6所述的分布式系统的数据翻页系统，其特征在于，所述n为2，所述n维为时间和数据ID。

9.根据权利要求6所述的分布式系统的数据翻页系统，其特征在于，所述翻页单元，用于根据翻页标记对经过所述排序后的数据元组序列S进行翻页，并将翻页后的数据呈现给客户端。

10.根据权利要求9所述的分布式系统的数据翻页系统，其特征在于，所述翻页标记为数据元组或位置索引。