CN106202209A

CN106202209A - 面向商品筛选应用的分布式结构化数据存储及查询方法

Info

Publication number: CN106202209A
Application number: CN201610488396.8A
Authority: CN
Inventors: 张伟; 徐丰
Original assignee: Beijing Information Science and Technology University
Current assignee: ZHENGZHOU MILLIONTONE TECHNOLOGY Co.,Ltd.
Priority date: 2016-06-28
Filing date: 2016-06-28
Publication date: 2016-12-07
Anticipated expiration: 2036-06-28
Also published as: CN106202209B

Abstract

本发明提供一种面向商品筛选应用的分布式结构化数据存储及查询技术，该技术包括：根据对数据表的历史查询数据进行统计分析，确定数据表的关键列集合，所述数据表的关键列集合包括N个高频或核心字段，其中N＞1；根据关键列的数据相关性将关键列的取值划分为M个取值区间，其中M＞1，同时将存储节点也划分成M个区域，并将M个关键列的取值区间划分到上述的M个区域内，上述区域内包括至少一个存储节点；将所述数据表中的数据根据其关键列及取值划分到对应的存储区域，并将该数据存储到对应的存储区域。

Description

面向商品筛选应用的分布式结构化数据存储及查询方法

技术领域

本发明涉及数据处理技术领域，特别是指一种面向商品筛选应用的分布式结构化数据存储及查询方法。

背景技术

目前随着电子商务的飞速发展，商品数量越来越多，数据量呈爆炸性增长。因此海量数据需要进行高效存储与计算才能跟上日益增长的数据。现有的商品数据处理通常采用基于Hadoop的海量数据处理模型来处理数据，在Hadoop处理模型中采用HDFS(Hadoop分布式文件系统)来存储数据和MapReduce算法来进行分布式计算。当现有Hadoop模型对海量商品信息进行分布式存储时，数据会随机存储在所有存储节点中，数据存储无规律。当进行分布式计算时，现有模型需要分布式系统中各个节点全部并行工作，再将每个节点结果整合得到最终结果。这种算法中由于数据是随机存储的，因此必须所有节点都参与工作，这样导致很多并未存储相关数据的节点也都要参与工作。由于有些节点不含有结果信息，导致在查询时数据节点会产生很多无效查询，就增加了系统总体查询次数，降低系统吞吐率。

发明内容

针对现有技术中存在的问题，本发明要解决的技术问题是提供一种能够降低查询次数并提高系统吞吐率的面向商品筛选应用的分布式结构化数据存储及查询方法。

为了解决上述问题，本发明实施例提出了一种面向商品筛选应用的分布式结构化数据存储及查询方法，包括：

步骤1、根据对数据表的历史查询数据进行统计分析，确定数据表的关键列集合，所述数据表的关键列集合包括N个高频或核心字段，其中N＞1；根据关键列的数据相关性将关键列的取值划分为M个取值区间，其中M＞1，同时将存储节点也划分成M个区域，并将M个关键列的取值区间划分到上述的M个区域内，上述区域内包括至少一个存储节点；；

步骤2、将所述数据表中的数据根据其关键列及取值划分到对应的存储区域，并将该数据存储到对应的存储区域；

步骤3、在系统处理查询请求时接收到查询条件时，根据查询条件中已有的关键列信息，经过预处理阶段，商品的属性关键词，可只针对部分存储节点生成查询任务，减少无效查询，提高向系统吞吐率。在预设的存储区域中进行查询。

其中，所述步骤1中的将每个关键列的取值划分为M个取值区间具体包括：基于取值范围的数据划分策略，基于哈希算法的数据划分策略；

其中所述基于取值范围的数据划分策略主要适用于每个关键列为连续的取值。当关键列的数据均为连续的值时，该策略将每个关键列的取值划分成不同范围，并分配到M个存储区域内。

其中所述基于哈希算法的数据划分策略主要适用于关键列为离散的取值，并且取值没有一定的规律性。当关键列的数据为不连续或不具有一定范围的值时，该策略根据哈希算法将关键列的值分配到各存储区域内。

其中，所述步骤2具体为：

步骤21、对于数据表中的任意记录，获取该条记录中所有关键列的K(x,y)。K(x,y)表示某条数据记录中第x关键列的取值所属第y区域。并统计每个存储区域内y的数量；

步骤22、判断是否在某个取值区间具有唯一最大值个y时，如果是则直接将该记录存储到该存储区域中；如果y不存在唯一最大值，则根据存储负载均衡，将该记录存储到数据量较少的存储区域中。

其中，所述步骤22中对于某条记录，y值不存在唯一最大值时，根据存储负载均衡原则将该记录存储在数据量最小的存储区域内。

其中，所述步骤3具体包括：

步骤31、获取查询条件中所有关键列的K(x,y)，并统计每个存储区域内y的数量；

步骤32、当关键列总数N为偶数时，在各存储区域内判断，假如某存储区域内y的数量大于N/2，则直接查询该区域，否则查询所有区域；当关键列总数N为奇数时，在各存储区域内判断，假如某存储区域内y的数量大于(N-1)/2，则直接查询该区域，否则查询所有区域。

本发明的上述技术方案的有益效果如下：本发明实施例能够在数据存储阶段将数据进行分区存储，而且在查询阶段可只针对部分节点生成有效查询任务。这样在不带来额外存储开销的情况下，减少了系统中无效查询次数，有效提高系统吞吐率。

附图说明

图1为本发明实施例的分类存储的原理图；

图2为现有数据查询方法与本发明实施例的基于关键列的数据查询方法的对比图；

图3为基于关键列的数据存储原理图；

图4为基于关键列的数据存储策略原理图；

图5为基于关键列的数据查询策略原理图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明实施例提出了一种面向商品筛选应用的分布式结构化数据存储及查询方法，包括：

步骤1、根据对数据表的历史查询数据进行统计分析，确定数据表的关键列集合，所述数据表的关键列集合包括N个高频或核心字段，其中N＞1；根据关键列的数据相关性将关键列的取值划分为M个取值区间，其中M＞1，同时将存储节点也划分成M个区域，并将M个关键列的取值区间划分到上述的M个区域内，上述区域内包括至少一个存储节点；

其中，所述步骤2具体为：

下面以一个具体的实例对本发明实施例进行进一步说明：

以笔记本电脑为例，经过对历史查询记录进行分析可以确定，用户针对笔记本电脑的查询关键词排名前三的为品牌、价格、尺寸；因此可以确定该商品数据表的关键列为品牌、价格、尺寸，即N＝3，那么品牌为第一关键列，价格为第二关键列，尺寸为第三关键列。同时，确定每个关键列的取值范围：品牌的取值范围为A品牌、B品牌、C品牌、D品牌；价格的取值范围为[0,499],[500,999],[1000,1999]，[2000,2999]；尺寸的取值范围为[9寸，11寸]，[13寸，14寸]，[15寸，17寸]，[18寸，21寸]。当然，取N＝3、M＝4只是一个举例说明，且品牌、价格、尺寸这三个属性关键词也都是举例说明，在实际使用时可以根据情况进行调整。这样就生成了M个存储区域，即4个存储区域。

如下表所示的：

当然，这种列表的方式只是实现上述技术的一种方式，本发明实施例还可以采用其他方式，例如利用公式进行统计的方式，在此不再赘述。

然后针对笔记本电脑商品数据表中所有商品数据，对比上述各存储区域的关键列取值范围，根据该数据中的关键列取值来确定其存储区域。确定原则是：对于所有商品数据，提取出每个商品数据的所有关键列以及关键列对应的取值范围，表示为该条数据的K(x,y)，即该商品数据的第x个关键列属于第y个存储区域；如果在某个取值区间具有y的唯一最大值时，则直接将该商品存储到该取值区域对应的存储区域中；如果不存在唯一最大值，则将该商品存储到数据量最少的存储区域中。

例如，一件笔记本电脑的属性关键词的取值分别为：A品牌、800元、13寸，则可知其对应的K(x,y)分别为：K(1,1)、K(2,2)、K(3,2)；即第一关键列的取值在存储区域1、第二关键列的取值在存储区域2、第三关键列的取值在存储区域2；这样该商品在存储区域2对应的y为最大值，因此该商品应该存储在存储区域2对应的存储区域内。

如果一个商品的的属性关键词的取值分别为：A品牌、800元、18寸，则可知其对应的K(x,y)分别为：K(1,1)、K(2,2)、K(3,4)；在第一关键列的取值在存储区域1、第二关键列的取值在存储区域2、第三关键列的取值属于存储区域4；这样该商品在每一存储区域都不具有唯一最大值的y时，则该商品存储在数据量最少的存储区域中。又比如，在有2N个关键列时，其中数据表中某条记录有N个关键列都属于存储区域2内，另外N个关键列都属于存储区域3内，这样也y不具有唯一最大值，则将该记录存储在根据存储负载均衡存储在所有存储区域中数据量最少的一个存储区域。

在进行完数据存储后，当接收到用户的查询请求时，查询方法为：

假设关键列总数为N，存储区域总数为M，某个查询条件中含有n个属性关键词，n≤N。则基于属性关键词的数据查询策略如下：

同样以前面的例子来进行说明，假如接收到的查询条件为A品牌、800元、13寸，则可知其对应的K(x,y)分别为：K(1,1)、K(2,2)、K(3,2)；即第一关键列的取值在存储区域1、第二关键列的取在存储区域2、第三关键列的取值在存储区域2；这样该查询请求中的关键列的y值在存储区域2为唯一最大值，因此该查询请求在存储区域2对应的存储区域内进行查询即可，不用查询其他存储区域。

而如果接收到的查询条件为A品牌、800元、18寸，即第一关键列的取值在存储区域1、第二关键列的取值在存储区域2、第三关键列的取值在存储区域4；这样就说明该查询请求中的关键列的y值在每一存储区域都不具有唯一最大值，则该查询请求在所有存储区域中进行查询，即查询所有存储区域。

以下以一个具体实施例方式来举例进行说明：

该技术通过对表的历史查询进行统计，将数据表中的列按照查询频率降序排列，然后选取核心或者频率较高的字段作为关键列。如图1所示，在数据存储阶段，根据关键列的数据相关性将数据划分到多个存储区域内。如图2右侧所示，在查询处理阶段，处理含有关键列的查询时，通过关键列预处理，可只针对部分节点生成查询任务，减少无效查询。在数据存储阶段，根据具体应用需求，该技术将全部数据节点划分成多个存储区域。如图1所示，原数据经过预处理，将具有相关属性的数据存放在同一区域内。举例说明，在图1中，假设关键列数量N为3，存储区域数量M为3，原数据表共有9条记录，经过关键列预处理，将这9条记录划分到3个存储区域内。Area1是具有相同“形状”的区域，Area2是具有相同“颜色”的区域，Area M是具有相同“底纹”的区域。在查询处理阶段，查询请求通过关键列预处理可只对含有结果信息的区域产生查询任务。图2将现有模型查询方式与关键列预处理查询方式进行了对比。当现有模型处理查询请求时，所有节点进行并行查询，但是有的节点并不含有结果信息，从而会产生很多无效查询任务。在基于关键列预处理模型中，当处理含有关键列的查询时，经过预处理阶段，可只针对部分节点生成有效查询任务，减少了无效查询。例如在图2右侧中，Area2存储“颜色”数据，当进行“灰度”数据查询时，现有模型会对所有节点进行查询，而查询请求通过基于关键列的预处理，可只查询Area2。

本发明创造的有益效果是，在不带来额外存储开销的情况下，可减少分布式系统中各节点的总工作任务数，有效提高系统吞吐率。

在该技术中，假设关键列数量为N，存储区域数量为M，数据经过关键列预处理后，再处理查询请求时，具有以下规律：

N为偶数，查询请求只要在任一存储区域内满足大于N/2个关键列，则只需查询一个存储区域，否则查询所有存储区域；

N为奇数，查询请求只要在任一存储区域内满足大于(N-1)/2个关键列，则只需查询一个存储区域，否则查询所有存储区域；

本技术假设在原数据表中，根据历史查询记录的统计，关键列数据为N，将数据节点划分成M个存储区域，其中N，M均不小于1。通过该设计，数据表中任一记录都将会分配到特定的区域。在图3中，通过关键列预处理，将数据划分到每个区域内。每个区域内数据都有N种可能性：满足N个关键列的取值或取值范围，满足N-1个关键列的取值或取值范围，满足k个关键列的取值或取值范围，满足2个关键列的取值或取值范围，满足1个关键列的取值或取值范围。

下面详细介绍基于关键列预处理的数据存储的实施方式。

首先，根据对数据表的历史查询进行统计和具体应用需求的分析，从而确定关键列及其数量N和存储区域及其数量M，其中M、N均不小于1。例如对笔记本商品信息表进行统计分析，该表经常以品牌、价格和尺寸为查询条件进行查询，那么关键列数量N为3，品牌为第1关键列，价格为第2关键列，尺寸为第3关键列。经过调研发现商品价格需要分为3档来进行销售，则存储区域数M为3。

然后，将关键列的取值划分到各存储区域。根据不同的数据类型，具体划分策略共有两种：基于取值范围的数据划分策略和基于哈希算法的数据划分策略。

基于取值范围的数据划分策略主要适用于关键列为连续的取值，并具有一定的取值范围。当关键列的数据均为连续的值时，该策略将关键列的取值划分成不同范围，并分配到M个存储区域内。比如，数据表中价格是关键列，且价格的取值是连续的从0到999，存储区域数M为2，那么价格在区域1的取值范围是[0-499]，在区域2的取值范围是[500-999]。

基于哈希算法的数据划分策略主要适用于关键列为离散的取值，并且取值没有一定的规律性。当关键列的数据为不连续或不具有一定范围的值时，该策略根据哈希算法将关键列的值分配到各存储区域内。比如，商品信息表中尺寸是关键列，且尺寸的取值为6、9、10、11、14和16，存储区域数M为3，那么根据哈希算法，尺寸在区域1的取值范围是[6,9],尺寸在区域2的取值范围是[10,16],尺寸在区域3的取值范围是[11,14]。

最后，将数据表中数据划分到各个存储区域内。对于数据表中的任意记录，判断出所有关键列落点并将该记录划分至落点最多的区域，如图4所示，具体策略如下：

(1)确定该条记录中所有关键列的K(x,y)。K(x,y)表示某条数据记录中第x关键列的取值所属第y区域，例如某条记录的K(1,2)，那么表示该条记录的第1关键列的取值属于第2区域。

(2)统计每个区域内y的数量，即统计出落在同一区域的关键列数量；

(3)若每个区域内y的数量都不大于1，即表示该记录中每个关键列都属于不同区域，那么根据存储负载均衡，将该条记录存储在数据量较少的存储区域内；

(4)假如某个区域或某几个区域内y的数量大于1，即表示存在多个关键列属于同一区域的情况。如果某区域内y的数量存在唯一最大值即表示该区域内关键列最多，那么该记录就要划分到该区域；如果每个区域内y的数量不存在唯一最大值，即表示多个区域内y的数量相同且最多，那么根据存储负载均衡，将该条记录存储在数据量较少的存储区域。例如，关键列数量N＝4，假设某个记录的所有关键列K(x,y)取值为K(1,3)，K(2,3)，K(3,4)，K(4,4)，即第1、2关键列属于区域3，第3、4关键列属于区域4，区域3和区域4都有2个关键列，所有区域y的数量不存在唯一最大值，且区域3、4的关键列数量最多，那么根据存储负载均衡，将该条记录存储在数据量较少的存储区域内。

在该实施方式中，如图2右侧所示，查询请求经过关键列预处理，可只对含有结果信息的存储区域生成查询任务，减少无效查询次数，提高整体系统吞吐率。

假设关键列总数为N，存储区域总数为M，某个查询任务的查询条件中含有n个关键列，n不大于N，如图5所示，基于关键列的数据查询策略如下：

假如N是偶数，基于关键列的数据查询策略如下：

(1)确定查询条件中所有关键列的K(x,y)；

(2)统计每个存储区域内y的数量，即统计出落在同一区域内的关键列数量；

(3)在各存储区域内判断，假如某存储区域内y的数量大于N/2，则直接查询该存储区域，否则查询所有存储区域。

假如N是奇数，基于关键列的数据查询策略如下：

(1)确定查询条件中所有关键列的K(x,y)；

(2)统计每个区域内y的数量，即统计出落在同一区域内的关键列数量；

(3)在各存储区域内判断，假如某存储区域内y的数量大于(N-1)/2，则直接查询该存储区域，否则查询所有存储区域。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种面向商品筛选应用的分布式结构化数据存储及查询方法，其特征在于，包括：

步骤3、在系统处理查询请求时接收到查询条件时，根据查询条件中已有的关键列信息。

2.根据权利要求1所述的面向商品筛选应用的分布式结构化数据存储及查询方法，其特征在于，所述步骤1为基于关键列预处理的数据存储方法，具体包括；根据对数据表的历史查询和应用的需求以确定关键列及其数量N和存储区域及其数量M；将关键列的取值划分到各存储区域，根据不同的数据类型，划分策略包括两种：基于取值范围的数据划分策略和基于哈希算法的数据划分策略；

其中所述基于取值范围的数据划分策略适用于每个关键列为连续的取值；当关键列的数据均为连续的值时，该策略将每个关键列的取值划分成不同范围，并分配到M个存储区域内；

其中所述基于哈希算法的数据划分策略适用于关键列为离散的取值，并且取值没有一定的规律性；当关键列的数据为不连续或不具有一定范围的值时，该策略根据哈希算法将关键列的值分配到各存储区域内。

3.根据权利要求1所述的面向商品筛选应用的分布式结构化数据存储及查询方法，其特征在于，所述步骤2中是根据各存储区域中关键列取值范围，将数据表中数据划分到各存储区域内；具体包括：

步骤21、对于数据表中的任意记录，获取该条记录中所有关键列的K(x,y)；K(x,y)表示某条数据记录中第x关键列的取值所属第y区域；并统计每个存储区域内y的数量；

4.根据权利要求3所述的面向商品筛选应用的分布式结构化数据存储及查询方法，其特征在于，所述步骤22中，对于一条记录y值不存在唯一最大值时，根据存储负载均衡原则将该记录存储在数据量最小的存储区域内。

5.根据权利要求1所述的面向商品筛选应用的分布式结构化数据存储及查询方法，其特征在于，所述步骤3中对于处理含有关键列的查询请求时，经过关键列预处理，只对含有结果信息的存储区域生成查询任务，具体包括：