CN102737123A

CN102737123A - 一种多维数据分布方法

Info

Publication number: CN102737123A
Application number: CN2012101948290A
Authority: CN
Inventors: 龙诚; 孙海涛; 崔金峰
Original assignee: Beijing 58 Information Technology Co Ltd
Current assignee: Beijing 58 Information Technology Co Ltd
Priority date: 2012-06-13
Filing date: 2012-06-13
Publication date: 2012-10-17
Anticipated expiration: 2032-06-13
Also published as: CN102737123B

Abstract

本发明提供了一种多维数据分布方法，包括：将全集数据按照时间维度划分为多级；对已经按照时间维度划分的数据，按照数据维度，将每一级数据进一步划分为均匀的份数；建立索引文件，对已经按照时间维度和数据维度划分的数据，按照业务需求的维度，将每一份数据进一步划分到索引文件中。本发明通过结合用户的需求特征，运用多个维度对数据的分布提出了改进，提高了数据查询的效率。

Description

一种多维数据分布方法

技术领域

本发明涉及数据分布技术，尤其涉及一种多维数据分布方法。

背景技术

对于大量数据的查找、遍历、计算等操作来说，数据分布是影响数据操作的空间复杂度和时间复杂度的重要因素。

传统的数据分布，往往按照数据热度或者按照特定的单一维度或者将两者结合将数据分布到不同的服务器上，这种分布可以是均匀分布，也可以是非均匀分布。但是这些分布方法往往没有结合用户的需求，当进行数据的查找、计算时，数据的运算量通常较大。例如，数据只按照时间维度进行分布，当用户查找某个城市的数据时，可能绝大部分数据不需要参与数据查找运算，这就导致计算性能低下，且计算资源浪费。

因此，希望可以提出一种用于解决上述问题的多维数据分布方法。

发明内容

本发明的目的是提供一种多维数据分布方法，可以结合用户的需求，对数据进行分布，以提高数据查询的效率。

根据本发明的一个方面，提供了一种多维数据分布方法，包括：

将全集数据按照时间维度划分为多级；

对已经按照时间维度划分的数据，按照数据维度，将每一级数据进一步划分为均匀的份数；

建立索引文件，对已经按照时间维度和数据维度划分的数据，按照业务需求的维度，将每一份数据进一步划分到索引文件中。

与现有技术相比，本发明具有以下优点：

1)本发明通过对数据进行不同维度地划分，提高了数据查询的效率；

2)本发明结合用户需求进行数据的分布，节省了计算资源。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为根据本发明的一个优选实施例的多维数据分布方法的流程图；

图2a为根据本发明的一个优选实施例的所有数据的原始文档；

图2b为根据本发明的一个优选实施例的索引结构；

图2c为根据本发明的另一个优选实施例的索引结构；

图3为根据本发明的一个优选实施例的多维数据分布模型；

具体实施方式

下面结合附图对本发明作进一步详细描述。

根据本发明的一个方面，提供了一种多维数据分布方法。

参考图1，图1为根据本发明的一个优选实施例的多维数据分布方法的流程图。根据图1，多维数据分布方法包括：

步骤S101，将全集数据按照时间维度划分为多级，优选为三级。

具体地，全集数据指的是具有共同属性的数据的集合，不同的网站所收录的数据通常存在数据量或数据内容的差别，如生活信息类网站所收录的数据通常和用户的日常生活相关，教育培训类网站所收录的数据通常和教育相关，当然，各网站所收录的数据也存在包含、交叉的关系，如日常生活类的信息通常也包含教育信息。由此，本实施例中的全集数据尤指特定的网站所收录的所有数据，当然，这些数据是动态变化的。

时间属性，通常包括时、天、星期、月等单位，可以将数据按时、天、星期或月等单位进行划分。本实施例中，优选地，以天为单位，对全集数据进行划分。根据实际测试发现用户对近期的数据访问频繁，对远期的数据访问量降低，为了平衡服务器的负载以及提高数据访问效率，优选地将全集数据按照时间维度进行划分和存储。具体地，优选地将全集数据划分为三级。根据用户对信息的时效性要求，第一级，从全集数据中划分出N天以内的数据，N的取值为1到7之间，包括本数1和7；第二级，从全集数据中除第一级以外的数据中再次划分出M天以内的数据，也就是N天以前、M天以内的数据；第三级，全集数据中除第一级和第二级以外的数据。当然，N和M的取值可以根据数据查询量随时间的变化来确定。预先设定每级数据可以满足的查询量的比例。假设第一级数据要求满足10%的查询量，第二级数据要求满足60%的查询量，第三级数据要求满足30%的查询量。N和M可以用更加一般性的时间标记t1和t2来表示。根据一段时间内数据访问量进行统计和数据划分，选取t1和t2使得，t1时间内的数据划分为第一级数据，对于第一级数据的访问量占总访问量的10%；t1到t2时间内的数据划分为第二级数据，使得对第二级数据的访问量占总访问量的60%；t2时间以前的数据划分为第三级数据，使得对第三级数据的访问量占总访问量的30%。换而言之，第一级和第二级数据能够满足70%的需求，即，有70%比例的需求不需要参与全集运算，这极大的节省了计算资源，使得系统整体性能得以提升。

全集数据通过时间维度划分为多级数据后，当用户需要获取特定的数据时，首先检索第一级数据，若检索到目标数据，则直接返回数据；若没有检索到目标数据，则依次从第二级、第三级数据中进行检索，直到检索到目标数据。从数据量来看，三级数据的数据量依次增加。因此，可以将第一级数据存储在存取速度最快的存储器和服务器中，将第三级数据存储在存取速度最慢但是存储容量最大的存储器和服务器中。这样可以有效地提高数据检索效率。

步骤S102，对已经按照时间维度划分的数据，按照数据维度，将每一级数据进一步划分为均匀的份数。

具体地，按照时间维度对全集数据划分后，数据的查询量可能还是较大，任意一级数据的查询延迟率可能还是较高。因此，对已经按照时间维度划分的数据，按照数据维度进一步划分，而数据维度包括数据编号、用户编号、数据的归属地或数据的类别等项，而各项都以数字的形式进行表示。其中，数据编号是数据的唯一标识，以产品数据为例，产品数据编号如产品的生产号，这些编号都是唯一的；其中，用户编号，如数据编号一样，对用户进行唯一地标识；其中，数据的归属地，是指数据所归属的地域，如北京、天津地区的数据；其中，数据的类别，是指按照不同网站的特征对数据进行分类，如生活信息类网站将数据分为租房、二手、招聘、生活服务等方面的数据。可以对已经按照时间维度划分的数据，按照数据维度的任意一项，进一步划分为均匀的份数，其中，划分的方法为：将已经按照时间维度划分的每一级数据，按照数据维度的任意一项进行取模运算，以得到多份随机均匀分布的数据。下文以数据编号作为数据维度为例进行具体说明。

例如，对已经按照时间维度划分为三级的数据，将每一级数据按照数据编号进一步均匀划分成多份，设将每一级数据划分成9份，具体的运算过程是：首先，对每一级所有按顺序排列的数据编号通过散列函数（md5）进行随机处理，得到随机排列的数据编号作为每条数据的编号；然后，对这些随机排列的数据编号都进行取模9的运算，并将每一级数据按照已经进行取模运算的数据编号均匀划分成9份。由此，每一份的数据编号是随机的，每一份的数据量是均匀的。

同样地，数据也可以按照用户编号、数据的归属地或数据的类别进行相似的运算，最终得到多份均匀的、随机分布的数据。

需要说明的是，现有技术中，数据编号的规则有多种，如顺序递增的编号、随机排列的编号，本实施例中，数据编号的规则以不影响后续对数据进行随机地、均匀地分布为佳。

其中，现有技术中的散列函数，通常包含128位数据，本实施例，优选散列函数的前64位或后64位数据进行运算。

其中，对数据编号、用户编号、数据的归属地或数据的类别等进行取模运算时，取模的分母根据服务器的数量和每台服务器承载数据的能力进行确定，本发明优选用于2～100台服务器的情形。

步骤S103，建立索引文件，对已经按照时间维度和数据维度划分的数据，按照业务需求的维度，将每一份数据进一步划分到索引文件中。

通常，全集数据通过时间维度和数据维度的划分后，数据查找的效率大幅度提高，但是，每一份数据的数量仍然较为庞大，因此，在此基础上，将每一份数据继续按照业务需求的维度，划分到不同的索引文件中。其中，业务需求是从大多数用户的需求中抽取的特征，该抽取的特征必须符合两个条件：第一，绝大多数用户需求中包含该特征，也就是最优的特征，如大多数用户经常以地域的划分为条件进行数据的查找；第二，数据在该特征上具有一定的分布特性。所谓分布特性，是指数据量的分布和用户需要查找的数据量的分布是一致的，如以地域特征为业务需求，通常，海量用户对每个城市的数据需求量是不一样的，因此，为了提高数据的查找效率，需要根据用户对城市的数据需求量，将数据分布在不同的城市，即每个城市的数据量的分布和用户需要查找的每个城市的数据量是一致的，由此，数据分散地分布在不同的城市。

数据分布的最终目的是为了提高数据查询、遍历的效率，而为了提高数据查询、遍历的效率，需要建立索引文件。常用的索引结构有倒排索引结构，本实施例以倒排索引为例进行说明。

倒排索引结构的主要内容为索引（key）和索引值（value），其中，索引值是每个索引项对应的内容。下文，将详述数据与索引结构关系。图2a示出了所有数据的原始文档，原始文档中，包含了数据的文档号、数据的归属地等内容。图2b示出了一种索引结构，在该结构中，索引设定为“租房”，索引值设定为“文档的编号”，那么，索引“租房”对应的索引值为“1、2、3、4”；如果将索引的类别设定为“租房_城市”，索引值仍设定为“文档的编号”，如图2c所示，那么，索引“租房_北京”对应的索引值为“1”，索引“租房_上海”对应的索引值为“2”，依次类推。由上可以看出，如果将数据按照“租房_城市”划分，则相对于数据按照“租房”划分，索引所占的空间增长为4倍，索引值的长度缩短为1/4。

为了进一步降低数据存储和计算所消耗的资源，需要对以业务特征进行分布的数据进行逻辑上的聚合。仍以地域特征为例，全国的城市，无论大小，有300多个。实践中，海量用户对每个城市的数据需求量是不一样的，有的城市的数据可能是用户搜索的热点，有的城市的数据可能很少被用户搜索。因此，在建立索引文件的时候，为了降低索引所占的空间，对多个城市的数据聚合为一个逻辑的数据，对应一个索引项，下文以示例进行具体说明，设所有用户的总查询数据量为1，所有城市的数据总量也为1，全国有A、B、C、D、E等城市，具体计算过程为：

a）分别统计所有用户对每个城市的数据查询量；

b）分别统计每个城市的数据量；

c）综合a）和b）的计算结果，对每个城市的数据量进行加权运算，加权的公式为rr=qr*r+dr*d，其中，rr表示每个城市的数据量加权值，qr表示每个城市的数据查询量，dr表示每个城市的数据量，r和d分别表示qr和dr的加权系数，并且，0≤rr≤1，0≤qr≤1，0≤dr≤1，0≤r≤1，0≤d≤1，r+d=1，其中，r和d的值根据具体的情况进行设定。

d）将每个城市的数据量加权值按照从高到低或从低到高的顺序排列，并将最高的加权值或者更高的加权值作为一个逻辑单位的阈值，，将多个地域作为一个逻辑单位，使得所述多个地域的数据量加权值之和大于所述逻辑单位的阈值。例如，按照从高到低的顺序，A、B、C、D、E等城市的加权值分别为0.3，0.2，0.2，0.1，0.1等，由于A城市的加权值最高为0.3，以0.3为一个逻辑单位的阈值，那么将0.3或者0.3以上的数作为数据分布的一个逻辑单位，以0.3作为数据分布的一个逻辑单位为例。那么，聚合的结果为：A和加权值比0.1更小的城市的加权值之和大于0.3、B和D以及加权值比0.1更小的城市的加权值之和大于0.3、C和E以及加权值比0.1更小的城市的加权值之和大于0.3，由于这些城市的加权值的之和分别大于一个逻辑单位的阈值0.3，因此分别将上述城市的数据进行逻辑上的聚合。所述聚合并不是要把这些数据存储在同一个服务器或数据库中，而是将上述数据的城市索引用逻辑单位的索引来代替，以降低索引所占用的空间。

对各城市的数据按照逻辑聚合后，为了进一步降低索引所占的空间，对索引结构进行改进。通常，将一条完整的数据称为一条单位数据，单位数据是组成海量数据的基本单位。进一步细分，一条单位数据对应一个或多个属性项的内容，每个属性项的内容是组成一条单位数据的基本单位。实践中，每个属性项的查询频度是不同的，为了降低索引所占的空间，选取高频访问的属性项，并将属性项的内容按照业务特征进行分布。

换言之，采用空间换取计算时间的方式，提高数据的查询效率。如数据按照地域特征分布后，由于存在跨城市的数据查询，为满足这种查询需求，通常需要对数据进行并集运算，但是这种运算的代价高，因此，将数据按照业务需求的特征进行划分时，冗余一份数据，而冗余度通常为100%，为减小这个冗余度，可以仅对数据的高频查询的属性项的内容进行冗余。

虽然，大多数用户的查找需求中包括上文中的业务特征，但是，还存在极小部分用户的查找需求中不包括上文中的业务特征，由此，通过对该部分数据的属性项的内容进行冗余的方法，提高数据查找的效率。

根据以上三个维度，可以将数据分布在不同的服务器中，具体分布的情况可以参考图3所示的多维数据分布模型。如图3所示，首先，将数据按照时间维度进行分为三级；然后，将每一级数据按照数据维度划分成多份（例如1到K份）；最后，将每一份数据按照业务维度划分到多份索引文件中（例如1到z份索引文件）。

通过以上三个维度，可以将数据均匀分割为多个数据子集，然后将每个数据子集存放于不同的服务器。当进行数据检索时，可以同时向这些服务器发送请求，并收集汇总的结果予以返回，即进行并行化调取数据，这样可以提升单个服务器查询的响应时延。

与现有技术相比，本发明所提供的多维数据分布方法具有以下优点：

1)本发明依次按照时间维度、数据维度、业务需求的维度进行数据的分布，减小了查询响应延迟，提升了系统整体性能。

2)本发明提供的方法使得大部分的数据不需要参与全集运算，极大地节省了计算资源。

3）据统计，在数据量过亿的情况下，利用30台左右的服务器(同类系统100台)即可承载日均超过3亿的请求量，且查询平均响应延迟仅10ms。

以上所揭露的仅为本发明的一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种多维数据分布方法，包括：

将全集数据按照时间维度划分为多级；

2.根据权利要求1所述的分布方法，其中，将全集数据按照时间维度划分为多级的步骤具体包括：

将所述全集数据按照时间维度划分为三级：

第一级，从全集数据中划分出最近的第一时间段以内的数据；

第二级，从全集数据中除第一级以外的数据中再次划分出紧接着第一时间段并在第一时间段之前的第二时间段内的数据；

第三级，全集数据中除第一级数据和第二级数据以外的数据。

3.根据权利要求1或2所述的分布方法，其中，所述数据维度包括数据编号、用户编号、数据的归属地或数据的类别。

4.根据权利要求1或2所述的分布方法，其中，所述的按照数据维度，将每一级数据进一步划分为均匀的份数，还包括：

将所述每一级数据的数据维度的任一项进行散列函数的运算；

将运算结果作为每条数据的编号对要分成的份数进行取模运算；

将根据取模结果将对应的每一级数据分为多份。

5.根据权利要求4所述的分布方法，其中，采用所述散列函数的前64位或后64位数据进行运算。

6.根据权利要求1-5任一项所述的分布方法，其中，所述业务需求特征为地域特征。

7.根据权利要求6所述的分布方法，其中，所述数据按照地域特征进行划分，还包括：

根据各个地域的数据查询量，对以地域特征进行分布的数据作逻辑上的聚合。

8.根据权利要求7所述的分布方法，其中，根据各个地域的数据查询量对以地域特征进行分布的数据作逻辑上的聚合的步骤包括如下步骤：

a）分别统计各个地域的数据查询量；

b）分别统计各个地域的数据量；

c）综合a）和b）的计算结果，对各个地域的数据量进行加权运算，加权的公式为rr=qr*r+dr*d，其中，rr表示各个地域的数据量加权值，qr表示各个地域的数据查询量，dr表示各个地域的数据量，r和d分布表示qr和dr的加权系数，并且，0≤rr≤1，0≤qr≤1，0≤dr≤1，0≤r≤1，0≤d≤1，r+d=1；

d）将各个地域的数据量加权值按照从高到低或从低到高的顺序排列，并将最高的加权值或者更高的加权值作为一个逻辑单位的阈值，将多个地域作为一个逻辑单位，使得所述多个地域的数据量加权值之和大于所述逻辑单位的阈值。

9.根据权利要求8所述的分布方法，还包括：

统计所述数据各属性项的访问频度；

选取所述数据的高频访问的属性项；

将所述高频访问的属性项的内容按地域特征进行分布；

其中，所述单位数据为数据的基本单位，所述属性项为单位数据的基本单位。

10.根据权利要求1-9任一项所述的分布方法，还包括：将所述均匀划分的数据分别存储在多个服务器上，在数据查询时，向所述多个服务器并行发出查询请求并调取所查询数据。