CN104182411A

CN104182411A - 基于Map-Reduce的高维数据相似性连接方法和装置

Info

Publication number: CN104182411A
Application number: CN201310198463.9A
Authority: CN
Inventors: 王少亚; 李曼
Original assignee: NEC China Co Ltd
Current assignee: NEC China Co Ltd
Priority date: 2013-05-24
Filing date: 2013-05-24
Publication date: 2014-12-03
Anticipated expiration: 2033-05-24
Also published as: CN104182411B

Abstract

本发明提出了一种基于Map-Reduce的高维数据相似性连接方法和装置。根据本发明，采用分段累积近似方法，对多个d维数据向量中的每一个数据向量进行降维处理，转换为d′维数据向量；采用符号化累积近似方法，将每一个d′维数据向量转换为d′维符号向量；两两计算符号向量-数据向量列表中的每一对符号向量之间的符号间距离，保留符号间距离不大于预定阈值的符号对，按照每个d′维符号向量进行汇总，得到符号向量-符号向量列表；以每个d′维符号向量作为键值，以符号向量-数据向量列表和符号向量-符号向量列表中的数据向量列表和符号向量列表作为数值，构建散列表；采用Map-Reduce框架，对所构建的散列表进行处理，输出欧氏距离小于所述预定阈值的d维数据向量对。

Description

基于Map-Reduce的高维数据相似性连接方法和装置

技术领域

本发明涉及数据处理领域，具体地，涉及一种基于Map-Reduce的高维数据相似性连接方法和装置。

背景技术

在很多应用领域中，对高维数据的相似性连接处理都是很重要的一个环节。例如，轨迹数据分析、时间序列数据分析、图像搜索、人脸识别等。

高维数据的相似性连接运算量很大，尤其是当数据规模非常大、维度非常高时。目前，已经提出了很多方法来提高运算效率，例如，索引方式、降维方式等。

发明内容

为了提高高维数据相似性连接的运算效率，本发明提出了一种基于Map-Reduce的高维数据相似性连接解决方案，采用分段累积近似(Piecewise Aggregate Approximation，PAA)和符号化累积近似(Symbolic Aggregate Approximation，SAX)方法来降低数据的维度，并采用Map-Reduce框架来实现并行处理。

根据本发明的第一方案，提出了一种高维数据相似性连接装置，包括：

分段累积近似单元，用于采用分段累积近似方法，对多个d维数据向量中的每一个数据向量X＝(x₁，x₂，…，x_d)进行降维处理，按照每组λ个维度，将每一个d维数据向量X转换为d′维数据向量其中d′＝d/λ，d、d′和λ是正整数，是数据向量X在维度集合D_i上的算术平均值；

符号化累积近似单元，用于采用符号化累积近似方法，保留符号间距离不大于预定阈值的符号对，所述符号化累积近似单元

将维度标准化值区间划分为多个子区间，每个子区间由一个符号来表示，将每一个d′维数据向量P_X转换为d′维符号向量

S_{X} = (x_{S_{1}}, x_{S_{2}}, . . ., x_{S_{d^{'}}});

对d′维符号向量相同的d维数据向量进行汇总，得到符号向量-数据向量列表S_X[X，…]，S_Y[Y，…]，…，其中Y表示d维数据向量Y＝(y₁，y₂，…，y_d)，S_Y表示d′维符号向量

S_{Y} = (y_{S_{1}}, y_{S_{2}}, . . ., y_{S_{d^{'}}});

两两计算符号向量-数据向量列表中的每一对符号向量S_X和S_Y之间的符号间距离Dist_S(S_X，S_Y)：

{Dist}_{S} (S_{X}, S_{Y}) = \sqrt{λ Σ_{i = 1}^{d^{'}} [{(dist (x_{Si} - y_{Si}))}^{2}]},

保留符号间距离Dist_S(S_X，S_Y)不大于预定阈值的符号对，按照每个d′维符号向量进行汇总，得到符号向量-符号向量列表S_X{S_Y，…}，S_Y{S_X，…}，…，其中dist(x_Si-y_Si)表示符号x_Si和y_Si之间的最小距离；

散列表构建单元，用于以每个d′维符号向量S_X作为键值，以符号向量-数据向量列表S_X[X，…]和符号向量-符号向量列表S_X{S_Y，…}中的数据向量列表和符号向量列表作为数值，构建散列表

h(S_X)＝([X，…]，{S_Y，…})，

h(S_Y)＝([Y，…]，{S_X，…})，

……；

Map-Reduce单元，用于采用Map-Reduce框架，对所构建的散列表进行处理，输出欧氏距离小于所述预定阈值的d维数据向量对。

根据本发明的第二方案，提出了一种高维数据相似性连接方法，包括：

采用分段累积近似方法，对多个d维数据向量中的每一个数据向量X＝(x₁，x₂，…，x_d)进行降维处理，按照每组λ个维度，将每一个d维数据向量X转换为d′维数据向量其中d′＝d/λ，d、d′和λ是正整数，是数据向量X在维度集合D_i上的算术平均值；

采用符号化累积近似方法，保留符号间距离不大于预定阈值的符号对，包括：

S_{X} = (x_{S_{1}}, x_{S_{2}}, . . ., x_{S_{d^{'}}});

S_{Y} = (y_{S_{1}}, y_{S_{2}}, . . ., y_{S_{d^{'}}});

{Dist}_{S} (S_{X}, S_{Y}) = \sqrt{λ Σ_{i = 1}^{d^{'}} [{(dist (x_{Si} - y_{Si}))}^{2}]},

以每个d′维符号向量S_X作为键值，以符号向量-数据向量列表S_X[X，…]和符号向量-符号向量列表S_X{S_Y，…}中的数据向量列表和符号向量列表作为数值，构建散列表

h(S_X)＝([X，…]，{S_Y，…})，

h(S_Y)＝([Y，…]，{S_X，…})，

……；

采用Map-Reduce框架，对所构建的散列表进行处理，输出欧氏距离小于所述预定阈值的d维数据向量对。

在本发明的一些实施例中，还可以对维度进行排序，对输入高维数据进行预处理，生成多个d维数据向量。例如，可以采用采样方法，对维度进行排序。还可以采用补零方法，生成满足d′＝d/λ以及d、d′和λ是正整数的多个d维数据向量。

在本发明的一些实施例中，基于Map-Reduce框架，将所构建的散列表分成多个数据片，针对每个数据片，依次读取所构建的散列表中的每条散列项，将键值依次与该散列项的符号向量列表中的每个符号向量组成一对，作为一条输出散列项的键值，将该散列项的数据向量列表作为每条输出散列项的数值，构建映射输出

h(S_X，S_Y)＝(X，…)，

h(S_X，…)＝(X，…)，

……

h(S_Y，S_X)＝h(S_X，S_Y)

＝(Y，…)

h(S_Y，…)＝(Y，…)，

对键值相同的输出散列项进行汇总，对汇总后的输出散列项的数值所包含的所有数据向量，两两计算汇总后的每一对数据向量间的欧氏距离，输出欧氏距离小于所述预定阈值的d维数据向量对。

在本发明的一些实施例中，迭代执行符号化累积近似方法，每次迭代处理以前次迭代处理的输出作为输入，将前次迭代处理的子区间进一步划分为多个更细粒度的子区间，并仅保留在更细粒度的子区间中的符号间距离不大于预定阈值的符号对。

此外，在本发明中，每个子区间的大小可以相同，或者至少一个子区间的大小可以不同于其他子区间。

附图说明

通过下面结合附图说明本发明的优选实施例，将使本发明的上述及其它目的、特征和优点更加清楚，其中：

图1示出了根据本发明示例实施例的高维数据相似性连接装置100的方框图。

图2示出了根据本发明示例实施例的高维数据相似性连接方法200的流程图。

图3示出了用于说明PAA处理210和SAX处理220的示意图。

图4示出了用于说明Map-Reduce处理240的示意图。

图5示出了用于说明迭代SAX处理的示意图。

在本发明的所有附图中，相同或相似的结构和步骤均以相同或相似的附图标记标识。

具体实施方式

下面参照附图对本发明的优选实施例进行详细说明，在描述过程中省略了对于本发明来说是不必要的细节和功能，以防止对本发明的理解造成混淆。

首先，对本说明书中所使用的技术术语进行说明。

相似性连接(Similarity Join)：从一个或两个数据集(或者数据源)中找出所有相似的对象对；

欧氏距离(欧几里德距离Euclidean Distance)：在n维空间中，两个点X(x₁，…，x_n)和Y(y₁，…，y_n)之间的欧氏距离Dist_E定义为：

{Dist}_{E} = \sqrt{Σ_{i = 1}^{n} {(x_{i} - y_{i})}^{2}};

分段累积近似(Piecewise Aggregate Approximation，PAA)：一种广泛用于时间序列领域的维度降低方法；

符号化累积近似(Symbolic Aggregate Approximation，SAX)：一种时间序列的符号化方法。SAX使用PAA方法降低高维数据的维度，并把PAA方法的表示值转换成字符串表示。

图1示出了根据本发明示例实施例的高维数据相似性连接装置100的方框图。图2示出了根据本发明示例实施例的高维数据相似性连接方法200的流程图。以下将结合图1和图2，对本发明的示例实施例进行详细描述。

如图1所示，高维数据相似性连接装置100包括：分段累积近似(PAA)单元110、符号化累积近似(SAX)单元120、散列表构建(HASH)单元130、Map-Reduce单元140。此外，高维数据相似性连接装置100还可以包括预处理单元105。

结合图2，高维数据相似性连接方法200在步骤S205开始，预处理单元105对维度进行排序，对输入高维数据进行预处理，生成多个d维数据向量。对维度进行排序的目的是使在空间中相邻的向量尽量靠在一起，使向量分组后每组之间的距离尽可能的大，从而能够达到比较好的排除效果。一个简单可行的排序方法是将所有维度按其方差值排序。但是，应当注意，如果在所有输入数据的基础上计算方差，将会耗费大量的时间，因此，可选地，可以基于采样数据进行计算，比如可以随机选择5％的原始数据来计算方差。当然也可以采用其他方法，本发明并不局限于此。

此外，可选地，在步骤S205(“预处理”)中，为了后续的分组需要，预处理单元105可以采用补零方法(增加维度)，生成满足d′＝d/λ以及d、d′和λ是正整数的多个d维数据向量。

之后，在步骤S210(“PAA”)中，PAA单元110采用分段累积近似方法，对多个d维数据向量中的每一个数据向量X＝(x₁，x₂，…，x_d)进行降维处理。对于输入数据向量的维度集合D，按照每组λ个维度，将每一个d维数据向量X转换为d′维数据向量其中d′＝d/λ，d、d′和λ是正整数，是数据向量X在维度集合D_i上的算术平均值。

例如，参考图3，考虑20维的向量X(左侧图)，每4个维度分为1组，进行降维处理，得到d′维数据向量(中间图)。

在步骤S220(“SAX”)中，SAX单元120采用符号化累积近似方法，保留符号间距离不大于预定阈值ε的符号对。具体地，SAX单元120首先将维度标准化值区间[0，N)(假设所有维度的值区间都相同)划分为多个子区间(每个子区间的大小可以相同也可以不同)，每个子区间由一个符号来表示，将每一个d′维数据向量P_X转换为d′维符号向量

S_{X} = (x_{S_{1}}, x_{S_{2}}, . . ., x_{S_{d^{'}}}) .

仍以图3为例，假设划分为4个子区间，每个子区间分别以符号“a”、“b”、“c”和“d”表示，由此，得到d′维符号向量参考图3右侧图，S_X＝(a，b，c，d，c)。

接下来，仍然在步骤S220中，SAX单元120对d′维符号向量相同的d维数据向量进行汇总，得到符号向量-数据向量列表

S_X[X，X₁，X₃，…]，

S_Y[Y，X₄，X₅，X₇，…]，

…，

S_k[vector_list_S_k]，

…，

S_K[vector_list_S_K]，

其中X、X_i和Y(Y＝(y₁，y₂，…，y_d))表示d维数据向量，S_k表示d′维符号向量，例如，这里应当注意，多个数据向量可以对应相同的符号向量，例如，在上述示例中，数据向量X的符号向量为S_X，数据向量X₁和X₃的符号向量也是S_X；数据向量Y的符号向量为S_Y，数据向量X₄、X₅和X₇的符号向量也是S_Y。

接下来，仍然作为步骤S220的操作，SAX单元120两两计算符号向量-数据向量列表中的每一对符号向量S_X和S_Y之间的符号间距离Dist_S(S_X，S_Y)：

{Dist}_{S} (S_{X}, S_{Y}) = \sqrt{λ Σ_{i = 1}^{d^{'}} [{(dist (x_{Si} - y_{Si}))}^{2}]},

保留符号间距离Dist_S(S_X，S_Y)不大于预定阈值ε(即＜ε)的符号对，其中dist(x_Si-y_Si)表示符号x_Si和y_Si之间的最小距离。

由于各符号是通过子区间划分获得，各符号间的最小距离可以通过查表的形式得出，这样做可以进一步提高处理速度。当然也可以采用其他方式来实现，本发明并不局限于此。

仍以图3为例，各符号间的最小距离dist(x_Si-y_Si)可以如下表所示：

按照每个d′维符号向量进行汇总，得到符号向量-符号向量列表

S_{X} {S_{Y}, S_{X_{7}}, . . .},

S_{Y} {S_{X}, S_{X_{4}}, . . .},

…，

S_k{SAX_list_S_k}；

…，

S_k{SAX_list_S_k}。

这里，应当注意，容易证明SAX符号间距离Dist_S(S_X，S_Y)小于等于PAA符号间距离Dist_P(P_X，P_Y)，PAA符号间距离Dist_P(P_X，P_Y)小于等于欧氏距离Dist_E(X，Y)，其中：

{Dist}_{P} (P_{X}, P_{Y}) = \sqrt{λ Σ_{i = 1}^{d^{'}} [{({\overset{&OverBar;}{x}}_{Di} - {\overset{&OverBar;}{y}}_{Di})}^{2}]} .

即

Dist_S(S_X，S_Y)≤Dist_P(P_X，P_Y)≤Dist_E(X，Y)。

因此，如果Dist_S(S_X，S_Y)＞ε，则Dist_E(X，Y)＞ε。因而，仅需保留符号间距离Dist_S(S_X，S_Y)不大于预定阈值ε(即＜ε)的符号对。

在步骤S230(“HASH”)中，HASH单元130以每个d′维符号向量S_X作为键值，以符号向量-数据向量列表S_X[X，X₁，X₃，…]和符号向量-符号向量列表中的数据向量列表和符号向量列表作为数值，构建散列表

h (S_{X}) = ([X, X_{1}, X_{3}, . . .], {S_{Y}, S_{X_{7}}, . . .}),

h (S_{Y}) = ([Y, X_{4}, X_{5}, X_{7}, . . .], {S_{X}, S_{X_{4}}, . . .}),

……。

在步骤S240中，Map-Reduce单元140采用Map-Reduce框架，对所构建的散列表进行处理，输出欧氏距离小于预定阈值ε的d维数据向量对。

具体地，作为示例，参考图4，在步骤S240中，Map-Reduce单元140将所构建的散列表分成多个数据片，针对每个数据片，依次读取所构建的散列表中的每条散列项，将键值依次与该散列项的符号向量列表中的每个符号向量组成一对，作为一条输出散列项的键值，将该散列项的数据向量列表作为每条输出散列项的数值，构建映射输出

h(S_X，S_Y)＝(X，X₁，X₃，…)，

h (S_{X}, S_{X_{7}}) = (X, X_{1}, X_{3}, . . .),

h(S_X，…)＝(X，X₁，X₃，…)，

……

h(S_Y，S_X)＝h(S_X，S_Y)

＝(Y，X₄，X₅，X₇，…)’

h (S_{Y}, S_{X_{4}}) = (Y, X_{4}, X_{5}, X_{7}, . . .),

h(S_Y，…)＝(Y，…)，

对键值相同的输出散列项进行汇总，对汇总后的输出散列项的数值所包含的所有数据向量，两两计算汇总后的每一对数据向量间的欧氏距离，输出欧氏距离小于预定阈值ε的d维数据向量对。

参考图4，将h(S_X，S_Y)＝(X，X₁，X₃，…)和h(S_X，S_Y)＝(Y，X₄，X₅，X₇，…)进行汇总，两两计算集合(X，X₁，X₃，…，Y，X₄，X₅，X₇，…)中的每一对数据向量间的欧氏距离，最后仅得到数据向量对(X₁，X₃)和(X₃，X₇)的欧氏距离小于预定阈值ε，由此得到相似性连接(X₁，X₃)和(X₃，X₇)。

为了进一步减少计算量，可以在步骤S220中采用迭代的方法，逐步细化子空间。每次迭代处理以前次迭代处理的输出作为输入，将前次迭代处理的子区间进一步划分为多个更细粒度的子区间，并仅保留在更细粒度的子区间中的符号间距离不大于预定阈值ε的符号对。关于迭代的次数可以根据需要恰当设定，本发明并不局限于此。

例如，参考图5，示出了迭代两次的示例。在位于图5上方的示意图中示出了首先划分为4个子空间的示例(即图3右侧图)，S_X＝(a，b，c，d，c)。在完成第一次SAX处理之后，如图5下方的示意图所示，将4个子空间进一步划分为8个子空间，由此得到符号向量S_X＝(a，c，e，g，f)。

关于计算量，例如，在第一次迭代后，找出候选符号对S₁{S₂}，其中S₁[X₁，X₃，X₄]、S₂[X₂，X₅]，后续的运算量为，即，任意两个数据向量之间都有进行运算。假设在第二次迭代后，原候选符号对被拆分成两个候选符号对(第一次迭代后的一对可能变为多对，但所包含的数据向量的个数将减少)S′₁{S′₂}、S′₃{S′₄}，其中S′₁[X₁，X₃]、S′₂[X₂]、S′₃[X₄]、S′₄[X₅]，则后续的运算量为

这里所公开的本发明实施例的其他设置包括执行在先概述并随后详述的方法实施例的步骤和操作的软件程序。更具体地，计算机程序产品是如下的一种实施例：具有计算机可读介质，计算机可读介质上编码有计算机程序逻辑，当在计算设备上执行时，计算机程序逻辑提供相关的操作，从而提供上述高维数据相似性连接解决方案。当在计算系统的至少一个处理器上执行时，计算机程序逻辑使得处理器执行本发明实施例所述的操作(方法)。本发明的这种设置典型地提供为设置或编码在例如光介质(例如CD-ROM)、软盘或硬盘等的计算机可读介质上的软件、代码和/或其他数据结构、或者诸如一个或多个ROM或RAM或PROM芯片上的固件或微代码的其他介质、或专用集成电路(ASIC)、或一个或多个模块中的可下载的软件图像、共享数据库等。软件或固件或这种配置可安装在计算设备上，以使得计算设备中的一个或多个处理器执行本发明实施例所述的技术。结合诸如一组数据通信设备或其他实体中的计算设备进行操作的软件过程也可以提供根据本发明的节点和主机。根据本发明的节点和主机也可以分布在多个数据通信设备上的多个软件过程、或者在一组小型专用计算机上运行的所有软件过程、或者单个计算机上运行的所有软件过程之间。

应该理解，严格地讲，本发明的实施例可以实现为数据处理设备上的软件程序、软件和硬件、或者单独的软件和/或单独的电路。

至此已经结合优选实施例对本发明进行了描述。应该理解，本领域技术人员在不脱离本发明的精神和范围的情况下，可以进行各种其它的改变、替换和添加。因此，本发明的范围不局限于上述特定实施例，而应由所附权利要求所限定。

Claims

1.一种高维数据相似性连接装置，包括：

S_{X} = (x_{S_{1}}, x_{S_{2}}, . . ., x_{S_{d^{'}}});

S_{Y} = (y_{S_{1}}, y_{S_{2}}, . . ., y_{S_{d^{'}}});

{Dist}_{S} (S_{X}, S_{Y}) = \sqrt{λ Σ_{i = 1}^{d^{'}} [{(dist (x_{Si} - y_{Si}))}^{2}]},

h(S_X)＝([X，…]，{S_Y，…})，

h(S_Y)＝([Y，…]，{S_X，…})，

……；

2.根据权利要求1所述的高维数据相似性连接装置，还包括：

预处理单元，用于对维度进行排序，对输入高维数据进行预处理，生成多个d维数据向量。

3.根据权利要求2所述的高维数据相似性连接装置，其中

所述预处理单元采用采样方法，对维度进行排序。

4.根据权利要求2所述的高维数据相似性连接装置，其中

所述预处理单元采用补零方法，生成满足d′＝d/λ以及d、d′和λ是正整数的多个d维数据向量。

5.根据权利要求1所述的高维数据相似性连接装置，其中所述Map-Reduce单元

将所构建的散列表分成多个数据片，针对每个数据片，依次读取所构建的散列表中的每条散列项，将键值依次与该散列项的符号向量列表中的每个符号向量组成一对，作为一条输出散列项的键值，将该散列项的数据向量列表作为每条输出散列项的数值，构建映射输出

h(S_X，S_Y)＝(X，…)，

h(S_X，…)＝(X，…)，

……

h(S_Y，S_X)＝h(S_X，S_Y)

＝(Y，…)

h(S_Y，…)＝(Y，…)，

6.根据权利要求1所述的高维数据相似性连接装置，其中所述符号化累积近似单元迭代执行采用符号化累积近似方法、保留符号间距离不大于预定阈值的符号对的处理，每次迭代处理以前次迭代处理的输出作为输入，将前次迭代处理的子区间进一步划分为多个更细粒度的子区间，并仅保留在更细粒度的子区间中的符号间距离不大于预定阈值的符号对。

7.根据权利要求1所述的高维数据相似性连接装置，其中每个子区间的大小相同，或者至少一个子区间的大小不同于其他子区间。

8.一种高维数据相似性连接方法，包括：

S_{X} = (x_{S_{1}}, x_{S_{2}}, . . ., x_{S_{d^{'}}});

S_{Y} = (y_{S_{1}}, y_{S_{2}}, . . ., y_{S_{d^{'}}});

{Dist}_{S} (S_{X}, S_{Y}) = \sqrt{λ Σ_{i = 1}^{d^{'}} [{(dist (x_{Si} - y_{Si}))}^{2}]},

h(S_X)＝([X，…]，{S_Y，…})，

h(S_Y)＝([Y，…]，{S_X，…})，

……；

9.根据权利要求8所述的高维数据相似性连接方法，还包括：

对维度进行排序，对输入高维数据进行预处理，生成多个d维数据向量。

10.根据权利要求9所述的高维数据相似性连接方法，其中

采用采样方法，对维度进行排序。

11.根据权利要求9所述的高维数据相似性连接方法，其中

采用补零方法，生成满足d′＝d/λ以及d、d′和λ是正整数的多个d维数据向量。

12.根据权利要求8所述的高维数据相似性连接方法，其中采用Map-Reduce框架，对所构建的散列表进行处理包括：

h(S_X，S_Y)＝(X，…)，

h(S_X，…)＝(X，…)，

……

h(S_Y，S_X)＝h(S_X，S_Y)

＝(Y，…)

h(S_Y，…)＝(Y，…)，

13.根据权利要求8所述的高维数据相似性连接方法，其中迭代执行采用符号化累积近似方法、保留符号间距离不大于预定阈值的符号对的步骤，每次迭代处理以前次迭代处理的输出作为输入，将前次迭代处理的子区间进一步划分为多个更细粒度的子区间，并仅保留在更细粒度的子区间中的符号间距离不大于预定阈值的符号对。

14.根据权利要求8所述的高维数据相似性连接方法，其中每个子区间的大小相同，或者至少一个子区间的大小不同于其他子区间。