CN108874799B

CN108874799B - 高速并行数据查找方法

Info

Publication number: CN108874799B
Application number: CN201710320330.2A
Authority: CN
Inventors: 丛杨; 田冬英
Original assignee: Shenyang Institute of Automation of CAS
Current assignee: Shenyang Institute of Automation of CAS
Priority date: 2017-05-09
Filing date: 2017-05-09
Publication date: 2021-11-30
Anticipated expiration: 2037-05-09
Also published as: CN108874799A

Abstract

本发明涉及一种高速并行数据查找方法。首先为充分发挥硬件设备的并行处理能力，构建基于brute force的并行查询器；离线阶段将train集(查询数据集)应用KD树进行划分，由leaf节点构建label集；在线阶段对query集分批先送入上层并行查询器查询label集，结果缓存到leaf_buffer，随后对已满leaf_buffer使用下层并行查询器。利用这种分层查找结构，实现了对大量数据的高效并行查找，可以广泛应用于数据挖掘领域。

Description

高速并行数据查找方法

技术领域

本发明涉及一种高速并行数据查找方法，属于数据挖掘领域。

背景技术

为了加快对数据的在线查找速度，目前已有方法包括局部敏感哈希、各种树、随机森林方法等。这些方法在离线阶段对查询数据集(train集)建立能够表达数据在数据空间分布特点的模型，在线阶段利用模型提供的已知信息加快查找速度，这样的模型可能是数学表达式、树形结构或网状结构。KD树方法通过建立树形的连接关系大幅减少了在线查询时数据距离的计算次数，从而提高了速度，在基于CPU的近邻查找应用中被广泛使用。

今年来，GPU和FPGA等并行运算设备得到了广泛运用和飞速发展。基于GPU实现的brute force数据查找相对CPU实现有显著效果提升，数据距离计算次数多是该方法速度提升的主要瓶颈。一些人探索将GPU并行能力与KD树的优势结合起来，然而GPU设备的应用强调大量数据处理步骤的高度的一致性，KD树则强调对不同的数据采用不同的处理，这一本质分歧最终导致传统的KD树方法的并行化实现在查询阶段出现分支，导致执行效率低、速度慢。

发明内容

针对上述技术不足，本发明提供一种高速并行数据查找方法。该方法可以充分利用GPU、FPGA等硬件设备的并行运算能力并利用KD树减少数据距离计算次数，从而实现速度的提高。

本发明解决其技术问题所采用的技术方案是：高速并行数据查找方法，包括以下步骤：

离线阶段：分割train集,并创建label集；

在线阶段：通过多层并行查询器查label集、train集的子集，实现数据查找。

所述离线阶段包括将train集划分成多个节点，由每个节点内的数据子集train_leaf生成label集。

所述将train集划分成多个节点具体为基于KD树将train集划分成多个leaf节点。

所述并行查询器为基于brute force方法的并行查询器。

所述并行查询器的结果包括RNN和/或KNN的一个或多个。

所述在线阶段：先用上层的并行查询器查label集，结果缓存到节点缓存leaf_buffer，对已满的leaf_buffer采用下层的并行查询器查train集的子集。

所述在线阶段包括以下步骤：

步骤(1)：首先将query集分批，每批处理q_num个query；

步骤(2)：为每个label分配一个节点缓存leaf_buffer，大小为b_num＝q_num+b_thres，b_thres为设定值，用于存放query的索引；

步骤(3)：将该批query与label集应用上层的并行查询器查找结果，并将结果推送到leaf_buffer内；

步骤(4)：查询所有leaf_buffer；如果leaf_buffer内个数超过_thres，则执行步骤(5)，否则执行步骤(3)；

步骤(5)：对于每个leaf_buffer内个数超过b_thres的leaf_buffer，根据其内索引获取到query的子集query_buffer，将其与train的子集train_leaf应用下层的并行查询器查找KNN，将当前获得的局部的结果更新到最终所需全局的结果内。

本发明具有以下有益效果及优点：

1.本发明方法提出的分层并行化的思想可以发挥出并行运算设备的并行运算优势，在解决数据查找问题上获得大幅的速度提升，可以广泛应用于数据挖掘领域。

2.本发明方法提出的分层并行化的思想具备扩展性，可以划分更多层次用以解决大数据的数据查找问题。

3.本发明采用多层并行查询器，实现在查询阶段不出现分支，并行快速，执行效率高。

附图说明

图1是离线阶段流程图；

图2是在线阶段流程图；

图3是处理leaf_buffer流程图；

图4是train集和query集分布示意图；

图5是train集KD树划分示意图；

图6是生成label集示意图；

图7是query集查询label集示意图；

图8是query_buffer查询train_leaf示意图。

具体实施方式

下面结合附图对本发明做进一步的详细说明。

高速并行数据查找方法，包括以下步骤：构建基于brute force方法的并行查询器；由train集创建label集；分层查询，先用上层并行查询器查label集，再用下层并行查询器查train集的子集。

构建基于brute force方法的并行查询器，包含RNN(查找半径R范围内的全部或部分近邻)和KNN中(查找距离查询点最近的前K个近邻或近似结果)的一种或多种，K取值大于等于1。

由train集创建label集，可以但不限定为基于KD树将train集划分到多个leaf节点，对leaf节点内的数据子集train_leaf求取中心，以此作为标签label。如果需要半径R，可以取所有数据子集与中心的最远距离的平均值的一定倍数作为半径R。由每个叶节点内的数据子集train_leaf生成label集。

分层查询，先用上层并行查询器查label集，再用下层并行查询器查train集的子集，可以但不限定为如下步骤：

步骤(1)：首先将query集分批，比如每批处理q_num个query。

步骤(2)：为每个label分配一个leaf_buffer，大小为b_num＝q_num+b_thres个int型，用于存放query的索引。

步骤(3)：将该批query与label集应用并行查询器查找RNN(或KNN)，将结果推送到leaf_buffer内。

步骤(4)：查询所有leaf_buffer，如果leaf_buffer内个数查过b_thres(意味再次运行步骤三可能产生溢出)则执行步骤(5)，否则执行步骤(3)。

步骤(5)：对于每个leaf_buffer内个数超过b_thres的leaf_buffer，根据其内索引获取到query的子集query_buffer，将其与train的子集train_leaf应用并行查询器查找KNN(或RNN)，将当前获得的局部的结果更新到最终所需全局的结果内。

数据查找问题根据实际应用需求可以分为RNN、KNN查找等。以下以查找单个最近结果即1NN为例进行说明，其步骤也适合其他问题。该问题的描述为：已知train(训练数据)集和query(查询数据)集，针对每个query数据在train集中查找距离最近的train数据，将train数据的标号存入index集，train数据和query数据的距离存入dist集。其中train集为d维，n个数据；query集为d维，m个数据；index集为1维，m个数据，存放最近train数据的索引；dist集为1维，m个数据，存放最近距离；query数据与index和dist结果一一对应。

对于任意给定的train集和query集，其可能的分布如图4所示(以二维空间描述作示意)，任取一个query数据，为了在train集中查找最近的train数据，需要与每个train数据计算距离，即brute force方法。

如图5所示，将train集先进行KD树划分，将空间距离近的train数据放入叶子节点中，在线查询时，根据树的结构进行条件判断，最终对于单个query数据只需要查询部分叶子节点就可以得到绝对或近似的最近邻结果，因此KD树方法可以实现数据查找的提速，而KD树方法中包含的条件判断导致在用GPU等并行设备实现时产生分支，效率低、速度慢。

为了解决该问题，我们提出了分层并行化查找方法，该方法通过在离线阶段建立KD树划分，减小单个query的查找空间，在在线阶段通过两层基于brute force的并行查询器，用leaf_buffer缓存中间结果，避免了KD树查询产生分支的问题，提高了查询速度。

在离线阶段，如图1所示，首先对train集进行KD树划分，将train集划分为多个leaf节点，每个leaf节点内数据个数不超过leaf_n个，存入train_leaf(叶节点内的训练数据子集)中，如图5所示；然后取每个leaf节点的中心为label，leaf内train数据与label的最大距离为半径，生成label集，如图6所示。label集远远小于train集，任取一个query数据，先通过查询label集确定是否有必要查询对应的leaf下的train数据子集，可以有效减少查找空间，对label集的查询可以应用基于brute force方法的并行查询器，提高查询速度。

在在线阶段，如图2所示，因为buffer空间有限需要对query集进行分批处理，每批处理q_num(1024)个query个，用每批query与label集应用并行查询器查询RNN，将结果推送入leaf_buffer(叶节点缓存)内，之后处理leaf_buffer。每个leaf都有一个leaf_buffer,其大小为b_num＝q_num+b_thres(b_thres＝512)，用于存放query的索引。Leaf_buffer将需要查询该leaf的所有query缓存起来，当query数量足够多时一起进行并行查询，从而实现提速。如图7所示，当query数据与label数据的距离相近时，意味着该leaf下的train_leaf集可能含有该query数据的最近邻结果，所以将query的标号记入该leaf的leaf_buffer内,最终leaf_buffer内会记录许多query标号，这些query数据往往在空间中有相邻关系，都需要查询该leaf的train_leaf集。

如图3所示，当处于将query全部处理完毕的最后一个循环内时，需要处理所有leaf_buffer内的全部query索引生成query_buffer即送入下层并行查询器的query_buffer(查询数据子集)，否则每次只取出b_thres个query索引进行处理(生成query_buffer)，当处理完b_thres个query后，leaf_buffer内的query的索引个数减少b_thres个。取query_buffer与leaf内的train_leaf应用并行查询器查询最近邻，如图8所示，获取该leaf节点下指定query的局部最近邻结果。在初始化阶段用最大距离和无效索引初始化index集和dist集作为全局结果。局部最近邻结果代表该query在该leaf下的最近邻结果，当该局部最近邻结果优于全局最近邻结果时，即距离更小，则用局部最近邻结果更新全局最近邻结果，当程序执行完毕，index集和dist集内数据即是问题的解。

Claims

1.高速并行数据查找方法，其特征在于包括以下步骤：

离线阶段：分割train集,并创建label集；

在线阶段：通过多层并行查询器查label集、train集的子集，实现数据查找；所述在线阶段包括以下步骤：

步骤(1)：首先将query集分批，每批处理q_num个query；

步骤(3)：将每批query与label集应用上层的并行查询器查找结果，并将结果推送到leaf_buffer内；

2.根据权利要求1所述的高速并行数据查找方法，其特征在于所述离线阶段包括将train集划分成多个节点，由每个节点内的数据子集train_leaf生成label集。

3.根据权利要求2所述的高速并行数据查找方法，其特征在于所述将train集划分成多个节点具体为基于KD树将train集划分成多个leaf节点。

4.根据权利要求1所述的高速并行数据查找方法，其特征在于所述并行查询器为基于brute force方法的并行查询器。

5.根据权利要求1或4所述的高速并行数据查找方法，其特征在于所述并行查询器的结果包括RNN和/或KNN的一个或多个。

6.根据权利要求1所述的高速并行数据查找方法，其特征在于所述在线阶段：先用上层的并行查询器查label集，结果缓存到节点缓存leaf_buffer，对已满的leaf_buffer采用下层的并行查询器查train集的子集。