CN104182411A - 基于Map-Reduce的高维数据相似性连接方法和装置 - Google Patents

基于Map-Reduce的高维数据相似性连接方法和装置 Download PDF

Info

Publication number
CN104182411A
CN104182411A CN201310198463.9A CN201310198463A CN104182411A CN 104182411 A CN104182411 A CN 104182411A CN 201310198463 A CN201310198463 A CN 201310198463A CN 104182411 A CN104182411 A CN 104182411A
Authority
CN
China
Prior art keywords
vector
dimension
data
symbolic
symbol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310198463.9A
Other languages
English (en)
Other versions
CN104182411B (zh
Inventor
王少亚
李曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Priority to CN201310198463.9A priority Critical patent/CN104182411B/zh
Publication of CN104182411A publication Critical patent/CN104182411A/zh
Application granted granted Critical
Publication of CN104182411B publication Critical patent/CN104182411B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2264Multidimensional index structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Processing (AREA)

Abstract

本发明提出了一种基于Map-Reduce的高维数据相似性连接方法和装置。根据本发明,采用分段累积近似方法,对多个d维数据向量中的每一个数据向量进行降维处理,转换为d′维数据向量;采用符号化累积近似方法,将每一个d′维数据向量转换为d′维符号向量;两两计算符号向量-数据向量列表中的每一对符号向量之间的符号间距离,保留符号间距离不大于预定阈值的符号对,按照每个d′维符号向量进行汇总,得到符号向量-符号向量列表;以每个d′维符号向量作为键值,以符号向量-数据向量列表和符号向量-符号向量列表中的数据向量列表和符号向量列表作为数值,构建散列表;采用Map-Reduce框架,对所构建的散列表进行处理,输出欧氏距离小于所述预定阈值的d维数据向量对。

Description

基于Map-Reduce的高维数据相似性连接方法和装置
技术领域
本发明涉及数据处理领域,具体地,涉及一种基于Map-Reduce的高维数据相似性连接方法和装置。
背景技术
在很多应用领域中,对高维数据的相似性连接处理都是很重要的一个环节。例如,轨迹数据分析、时间序列数据分析、图像搜索、人脸识别等。
高维数据的相似性连接运算量很大,尤其是当数据规模非常大、维度非常高时。目前,已经提出了很多方法来提高运算效率,例如,索引方式、降维方式等。
发明内容
为了提高高维数据相似性连接的运算效率,本发明提出了一种基于Map-Reduce的高维数据相似性连接解决方案,采用分段累积近似(Piecewise Aggregate Approximation,PAA)和符号化累积近似(Symbolic Aggregate Approximation,SAX)方法来降低数据的维度,并采用Map-Reduce框架来实现并行处理。
根据本发明的第一方案,提出了一种高维数据相似性连接装置,包括:
分段累积近似单元,用于采用分段累积近似方法,对多个d维数据向量中的每一个数据向量X=(x1,x2,…,xd)进行降维处理,按照每组λ个维度,将每一个d维数据向量X转换为d′维数据向量其中d′=d/λ,d、d′和λ是正整数,是数据向量X在维度集合Di上的算术平均值;
符号化累积近似单元,用于采用符号化累积近似方法,保留符号间距离不大于预定阈值的符号对,所述符号化累积近似单元
将维度标准化值区间划分为多个子区间,每个子区间由一个符号来表示,将每一个d′维数据向量PX转换为d′维符号向量 S X = ( x S 1 , x S 2 , . . . , x S d ′ ) ;
对d′维符号向量相同的d维数据向量进行汇总,得到符号向量-数据向量列表SX[X,…],SY[Y,…],…,其中Y表示d维数据向量Y=(y1,y2,…,yd),SY表示d′维符号向量 S Y = ( y S 1 , y S 2 , . . . , y S d ′ ) ;
两两计算符号向量-数据向量列表中的每一对符号向量SX和SY之间的符号间距离DistS(SX,SY):
Dist S ( S X , S Y ) = λ Σ i = 1 d ′ [ ( dist ( x Si - y Si ) ) 2 ] ,
保留符号间距离DistS(SX,SY)不大于预定阈值的符号对,按照每个d′维符号向量进行汇总,得到符号向量-符号向量列表SX{SY,…},SY{SX,…},…,其中dist(xSi-ySi)表示符号xSi和ySi之间的最小距离;
散列表构建单元,用于以每个d′维符号向量SX作为键值,以符号向量-数据向量列表SX[X,…]和符号向量-符号向量列表SX{SY,…}中的数据向量列表和符号向量列表作为数值,构建散列表
h(SX)=([X,…],{SY,…}),
h(SY)=([Y,…],{SX,…}),
……;
Map-Reduce单元,用于采用Map-Reduce框架,对所构建的散列表进行处理,输出欧氏距离小于所述预定阈值的d维数据向量对。
根据本发明的第二方案,提出了一种高维数据相似性连接方法,包括:
采用分段累积近似方法,对多个d维数据向量中的每一个数据向量X=(x1,x2,…,xd)进行降维处理,按照每组λ个维度,将每一个d维数据向量X转换为d′维数据向量其中d′=d/λ,d、d′和λ是正整数,是数据向量X在维度集合Di上的算术平均值;
采用符号化累积近似方法,保留符号间距离不大于预定阈值的符号对,包括:
将维度标准化值区间划分为多个子区间,每个子区间由一个符号来表示,将每一个d′维数据向量PX转换为d′维符号向量 S X = ( x S 1 , x S 2 , . . . , x S d ′ ) ;
对d′维符号向量相同的d维数据向量进行汇总,得到符号向量-数据向量列表SX[X,…],SY[Y,…],…,其中Y表示d维数据向量Y=(y1,y2,…,yd),SY表示d′维符号向量 S Y = ( y S 1 , y S 2 , . . . , y S d ′ ) ;
两两计算符号向量-数据向量列表中的每一对符号向量SX和SY之间的符号间距离DistS(SX,SY):
Dist S ( S X , S Y ) = λ Σ i = 1 d ′ [ ( dist ( x Si - y Si ) ) 2 ] ,
保留符号间距离DistS(SX,SY)不大于预定阈值的符号对,按照每个d′维符号向量进行汇总,得到符号向量-符号向量列表SX{SY,…},SY{SX,…},…,其中dist(xSi-ySi)表示符号xSi和ySi之间的最小距离;
以每个d′维符号向量SX作为键值,以符号向量-数据向量列表SX[X,…]和符号向量-符号向量列表SX{SY,…}中的数据向量列表和符号向量列表作为数值,构建散列表
h(SX)=([X,…],{SY,…}),
h(SY)=([Y,…],{SX,…}),
……;
采用Map-Reduce框架,对所构建的散列表进行处理,输出欧氏距离小于所述预定阈值的d维数据向量对。
在本发明的一些实施例中,还可以对维度进行排序,对输入高维数据进行预处理,生成多个d维数据向量。例如,可以采用采样方法,对维度进行排序。还可以采用补零方法,生成满足d′=d/λ以及d、d′和λ是正整数的多个d维数据向量。
在本发明的一些实施例中,基于Map-Reduce框架,将所构建的散列表分成多个数据片,针对每个数据片,依次读取所构建的散列表中的每条散列项,将键值依次与该散列项的符号向量列表中的每个符号向量组成一对,作为一条输出散列项的键值,将该散列项的数据向量列表作为每条输出散列项的数值,构建映射输出
h(SX,SY)=(X,…),
h(SX,…)=(X,…),
……
h(SY,SX)=h(SX,SY)
=(Y,…)
h(SY,…)=(Y,…),
对键值相同的输出散列项进行汇总,对汇总后的输出散列项的数值所包含的所有数据向量,两两计算汇总后的每一对数据向量间的欧氏距离,输出欧氏距离小于所述预定阈值的d维数据向量对。
在本发明的一些实施例中,迭代执行符号化累积近似方法,每次迭代处理以前次迭代处理的输出作为输入,将前次迭代处理的子区间进一步划分为多个更细粒度的子区间,并仅保留在更细粒度的子区间中的符号间距离不大于预定阈值的符号对。
此外,在本发明中,每个子区间的大小可以相同,或者至少一个子区间的大小可以不同于其他子区间。
附图说明
通过下面结合附图说明本发明的优选实施例,将使本发明的上述及其它目的、特征和优点更加清楚,其中:
图1示出了根据本发明示例实施例的高维数据相似性连接装置100的方框图。
图2示出了根据本发明示例实施例的高维数据相似性连接方法200的流程图。
图3示出了用于说明PAA处理210和SAX处理220的示意图。
图4示出了用于说明Map-Reduce处理240的示意图。
图5示出了用于说明迭代SAX处理的示意图。
在本发明的所有附图中,相同或相似的结构和步骤均以相同或相似的附图标记标识。
具体实施方式
下面参照附图对本发明的优选实施例进行详细说明,在描述过程中省略了对于本发明来说是不必要的细节和功能,以防止对本发明的理解造成混淆。
首先,对本说明书中所使用的技术术语进行说明。
相似性连接(Similarity Join):从一个或两个数据集(或者数据源)中找出所有相似的对象对;
欧氏距离(欧几里德距离Euclidean Distance):在n维空间中,两个点X(x1,…,xn)和Y(y1,…,yn)之间的欧氏距离DistE定义为:
Dist E = Σ i = 1 n ( x i - y i ) 2 ;
分段累积近似(Piecewise Aggregate Approximation,PAA):一种广泛用于时间序列领域的维度降低方法;
符号化累积近似(Symbolic Aggregate Approximation,SAX):一种时间序列的符号化方法。SAX使用PAA方法降低高维数据的维度,并把PAA方法的表示值转换成字符串表示。
图1示出了根据本发明示例实施例的高维数据相似性连接装置100的方框图。图2示出了根据本发明示例实施例的高维数据相似性连接方法200的流程图。以下将结合图1和图2,对本发明的示例实施例进行详细描述。
如图1所示,高维数据相似性连接装置100包括:分段累积近似(PAA)单元110、符号化累积近似(SAX)单元120、散列表构建(HASH)单元130、Map-Reduce单元140。此外,高维数据相似性连接装置100还可以包括预处理单元105。
结合图2,高维数据相似性连接方法200在步骤S205开始,预处理单元105对维度进行排序,对输入高维数据进行预处理,生成多个d维数据向量。对维度进行排序的目的是使在空间中相邻的向量尽量靠在一起,使向量分组后每组之间的距离尽可能的大,从而能够达到比较好的排除效果。一个简单可行的排序方法是将所有维度按其方差值排序。但是,应当注意,如果在所有输入数据的基础上计算方差,将会耗费大量的时间,因此,可选地,可以基于采样数据进行计算,比如可以随机选择5%的原始数据来计算方差。当然也可以采用其他方法,本发明并不局限于此。
此外,可选地,在步骤S205(“预处理”)中,为了后续的分组需要,预处理单元105可以采用补零方法(增加维度),生成满足d′=d/λ以及d、d′和λ是正整数的多个d维数据向量。
之后,在步骤S210(“PAA”)中,PAA单元110采用分段累积近似方法,对多个d维数据向量中的每一个数据向量X=(x1,x2,…,xd)进行降维处理。对于输入数据向量的维度集合D,按照每组λ个维度,将每一个d维数据向量X转换为d′维数据向量其中d′=d/λ,d、d′和λ是正整数,是数据向量X在维度集合Di上的算术平均值。
例如,参考图3,考虑20维的向量X(左侧图),每4个维度分为1组,进行降维处理,得到d′维数据向量(中间图)。
在步骤S220(“SAX”)中,SAX单元120采用符号化累积近似方法,保留符号间距离不大于预定阈值ε的符号对。具体地,SAX单元120首先将维度标准化值区间[0,N)(假设所有维度的值区间都相同)划分为多个子区间(每个子区间的大小可以相同也可以不同),每个子区间由一个符号来表示,将每一个d′维数据向量PX转换为d′维符号向量 S X = ( x S 1 , x S 2 , . . . , x S d ′ ) .
仍以图3为例,假设划分为4个子区间,每个子区间分别以符号“a”、“b”、“c”和“d”表示,由此,得到d′维符号向量参考图3右侧图,SX=(a,b,c,d,c)。
接下来,仍然在步骤S220中,SAX单元120对d′维符号向量相同的d维数据向量进行汇总,得到符号向量-数据向量列表
SX[X,X1,X3,…],
SY[Y,X4,X5,X7,…],
…,
Sk[vector_list_Sk],
…,
SK[vector_list_SK],
其中X、Xi和Y(Y=(y1,y2,…,yd))表示d维数据向量,Sk表示d′维符号向量,例如,这里应当注意,多个数据向量可以对应相同的符号向量,例如,在上述示例中,数据向量X的符号向量为SX,数据向量X1和X3的符号向量也是SX;数据向量Y的符号向量为SY,数据向量X4、X5和X7的符号向量也是SY
接下来,仍然作为步骤S220的操作,SAX单元120两两计算符号向量-数据向量列表中的每一对符号向量SX和SY之间的符号间距离DistS(SX,SY):
Dist S ( S X , S Y ) = λ Σ i = 1 d ′ [ ( dist ( x Si - y Si ) ) 2 ] ,
保留符号间距离DistS(SX,SY)不大于预定阈值ε(即<ε)的符号对,其中dist(xSi-ySi)表示符号xSi和ySi之间的最小距离。
由于各符号是通过子区间划分获得,各符号间的最小距离可以通过查表的形式得出,这样做可以进一步提高处理速度。当然也可以采用其他方式来实现,本发明并不局限于此。
仍以图3为例,各符号间的最小距离dist(xSi-ySi)可以如下表所示:
按照每个d′维符号向量进行汇总,得到符号向量-符号向量列表
S X { S Y , S X 7 , . . . } ,
S Y { S X , S X 4 , . . . } ,
…,
Sk{SAX_list_Sk};
…,
Sk{SAX_list_Sk}。
这里,应当注意,容易证明SAX符号间距离DistS(SX,SY)小于等于PAA符号间距离DistP(PX,PY),PAA符号间距离DistP(PX,PY)小于等于欧氏距离DistE(X,Y),其中:
Dist P ( P X , P Y ) = λ Σ i = 1 d ′ [ ( x ‾ Di - y ‾ Di ) 2 ] .
DistS(SX,SY)≤DistP(PX,PY)≤DistE(X,Y)。
因此,如果DistS(SX,SY)>ε,则DistE(X,Y)>ε。因而,仅需保留符号间距离DistS(SX,SY)不大于预定阈值ε(即<ε)的符号对。
在步骤S230(“HASH”)中,HASH单元130以每个d′维符号向量SX作为键值,以符号向量-数据向量列表SX[X,X1,X3,…]和符号向量-符号向量列表中的数据向量列表和符号向量列表作为数值,构建散列表
h ( S X ) = ( [ X , X 1 , X 3 , . . . ] , { S Y , S X 7 , . . . } ) ,
h ( S Y ) = ( [ Y , X 4 , X 5 , X 7 , . . . ] , { S X , S X 4 , . . . } ) ,
……。
在步骤S240中,Map-Reduce单元140采用Map-Reduce框架,对所构建的散列表进行处理,输出欧氏距离小于预定阈值ε的d维数据向量对。
具体地,作为示例,参考图4,在步骤S240中,Map-Reduce单元140将所构建的散列表分成多个数据片,针对每个数据片,依次读取所构建的散列表中的每条散列项,将键值依次与该散列项的符号向量列表中的每个符号向量组成一对,作为一条输出散列项的键值,将该散列项的数据向量列表作为每条输出散列项的数值,构建映射输出
h(SX,SY)=(X,X1,X3,…),
h ( S X , S X 7 ) = ( X , X 1 , X 3 , . . . ) ,
h(SX,…)=(X,X1,X3,…),
……
h(SY,SX)=h(SX,SY)
=(Y,X4,X5,X7,…)’
h ( S Y , S X 4 ) = ( Y , X 4 , X 5 , X 7 , . . . ) ,
h(SY,…)=(Y,…),
对键值相同的输出散列项进行汇总,对汇总后的输出散列项的数值所包含的所有数据向量,两两计算汇总后的每一对数据向量间的欧氏距离,输出欧氏距离小于预定阈值ε的d维数据向量对。
参考图4,将h(SX,SY)=(X,X1,X3,…)和h(SX,SY)=(Y,X4,X5,X7,…)进行汇总,两两计算集合(X,X1,X3,…,Y,X4,X5,X7,…)中的每一对数据向量间的欧氏距离,最后仅得到数据向量对(X1,X3)和(X3,X7)的欧氏距离小于预定阈值ε,由此得到相似性连接(X1,X3)和(X3,X7)。
为了进一步减少计算量,可以在步骤S220中采用迭代的方法,逐步细化子空间。每次迭代处理以前次迭代处理的输出作为输入,将前次迭代处理的子区间进一步划分为多个更细粒度的子区间,并仅保留在更细粒度的子区间中的符号间距离不大于预定阈值ε的符号对。关于迭代的次数可以根据需要恰当设定,本发明并不局限于此。
例如,参考图5,示出了迭代两次的示例。在位于图5上方的示意图中示出了首先划分为4个子空间的示例(即图3右侧图),SX=(a,b,c,d,c)。在完成第一次SAX处理之后,如图5下方的示意图所示,将4个子空间进一步划分为8个子空间,由此得到符号向量SX=(a,c,e,g,f)。
关于计算量,例如,在第一次迭代后,找出候选符号对S1{S2},其中S1[X1,X3,X4]、S2[X2,X5],后续的运算量为,即,任意两个数据向量之间都有进行运算。假设在第二次迭代后,原候选符号对被拆分成两个候选符号对(第一次迭代后的一对可能变为多对,但所包含的数据向量的个数将减少)S′1{S′2}、S′3{S′4},其中S′1[X1,X3]、S′2[X2]、S′3[X4]、S′4[X5],则后续的运算量为
这里所公开的本发明实施例的其他设置包括执行在先概述并随后详述的方法实施例的步骤和操作的软件程序。更具体地,计算机程序产品是如下的一种实施例:具有计算机可读介质,计算机可读介质上编码有计算机程序逻辑,当在计算设备上执行时,计算机程序逻辑提供相关的操作,从而提供上述高维数据相似性连接解决方案。当在计算系统的至少一个处理器上执行时,计算机程序逻辑使得处理器执行本发明实施例所述的操作(方法)。本发明的这种设置典型地提供为设置或编码在例如光介质(例如CD-ROM)、软盘或硬盘等的计算机可读介质上的软件、代码和/或其他数据结构、或者诸如一个或多个ROM或RAM或PROM芯片上的固件或微代码的其他介质、或专用集成电路(ASIC)、或一个或多个模块中的可下载的软件图像、共享数据库等。软件或固件或这种配置可安装在计算设备上,以使得计算设备中的一个或多个处理器执行本发明实施例所述的技术。结合诸如一组数据通信设备或其他实体中的计算设备进行操作的软件过程也可以提供根据本发明的节点和主机。根据本发明的节点和主机也可以分布在多个数据通信设备上的多个软件过程、或者在一组小型专用计算机上运行的所有软件过程、或者单个计算机上运行的所有软件过程之间。
应该理解,严格地讲,本发明的实施例可以实现为数据处理设备上的软件程序、软件和硬件、或者单独的软件和/或单独的电路。
至此已经结合优选实施例对本发明进行了描述。应该理解,本领域技术人员在不脱离本发明的精神和范围的情况下,可以进行各种其它的改变、替换和添加。因此,本发明的范围不局限于上述特定实施例,而应由所附权利要求所限定。

Claims (14)

1.一种高维数据相似性连接装置,包括:
分段累积近似单元,用于采用分段累积近似方法,对多个d维数据向量中的每一个数据向量X=(x1,x2,…,xd)进行降维处理,按照每组λ个维度,将每一个d维数据向量X转换为d′维数据向量其中d′=d/λ,d、d′和λ是正整数,是数据向量X在维度集合Di上的算术平均值;
符号化累积近似单元,用于采用符号化累积近似方法,保留符号间距离不大于预定阈值的符号对,所述符号化累积近似单元
将维度标准化值区间划分为多个子区间,每个子区间由一个符号来表示,将每一个d′维数据向量PX转换为d′维符号向量 S X = ( x S 1 , x S 2 , . . . , x S d ′ ) ;
对d′维符号向量相同的d维数据向量进行汇总,得到符号向量-数据向量列表SX[X,…],SY[Y,…],…,其中Y表示d维数据向量Y=(y1,y2,…,yd),SY表示d′维符号向量 S Y = ( y S 1 , y S 2 , . . . , y S d ′ ) ;
两两计算符号向量-数据向量列表中的每一对符号向量SX和SY之间的符号间距离DistS(SX,SY):
Dist S ( S X , S Y ) = λ Σ i = 1 d ′ [ ( dist ( x Si - y Si ) ) 2 ] ,
保留符号间距离DistS(SX,SY)不大于预定阈值的符号对,按照每个d′维符号向量进行汇总,得到符号向量-符号向量列表SX{SY,…},SY{SX,…},…,其中dist(xSi-ySi)表示符号xSi和ySi之间的最小距离;
散列表构建单元,用于以每个d′维符号向量SX作为键值,以符号向量-数据向量列表SX[X,…]和符号向量-符号向量列表SX{SY,…}中的数据向量列表和符号向量列表作为数值,构建散列表
h(SX)=([X,…],{SY,…}),
h(SY)=([Y,…],{SX,…}),
……;
Map-Reduce单元,用于采用Map-Reduce框架,对所构建的散列表进行处理,输出欧氏距离小于所述预定阈值的d维数据向量对。
2.根据权利要求1所述的高维数据相似性连接装置,还包括:
预处理单元,用于对维度进行排序,对输入高维数据进行预处理,生成多个d维数据向量。
3.根据权利要求2所述的高维数据相似性连接装置,其中
所述预处理单元采用采样方法,对维度进行排序。
4.根据权利要求2所述的高维数据相似性连接装置,其中
所述预处理单元采用补零方法,生成满足d′=d/λ以及d、d′和λ是正整数的多个d维数据向量。
5.根据权利要求1所述的高维数据相似性连接装置,其中所述Map-Reduce单元
将所构建的散列表分成多个数据片,针对每个数据片,依次读取所构建的散列表中的每条散列项,将键值依次与该散列项的符号向量列表中的每个符号向量组成一对,作为一条输出散列项的键值,将该散列项的数据向量列表作为每条输出散列项的数值,构建映射输出
h(SX,SY)=(X,…),
h(SX,…)=(X,…),
……
h(SY,SX)=h(SX,SY)
=(Y,…)
h(SY,…)=(Y,…),
对键值相同的输出散列项进行汇总,对汇总后的输出散列项的数值所包含的所有数据向量,两两计算汇总后的每一对数据向量间的欧氏距离,输出欧氏距离小于所述预定阈值的d维数据向量对。
6.根据权利要求1所述的高维数据相似性连接装置,其中所述符号化累积近似单元迭代执行采用符号化累积近似方法、保留符号间距离不大于预定阈值的符号对的处理,每次迭代处理以前次迭代处理的输出作为输入,将前次迭代处理的子区间进一步划分为多个更细粒度的子区间,并仅保留在更细粒度的子区间中的符号间距离不大于预定阈值的符号对。
7.根据权利要求1所述的高维数据相似性连接装置,其中每个子区间的大小相同,或者至少一个子区间的大小不同于其他子区间。
8.一种高维数据相似性连接方法,包括:
采用分段累积近似方法,对多个d维数据向量中的每一个数据向量X=(x1,x2,…,xd)进行降维处理,按照每组λ个维度,将每一个d维数据向量X转换为d′维数据向量其中d′=d/λ,d、d′和λ是正整数,是数据向量X在维度集合Di上的算术平均值;
采用符号化累积近似方法,保留符号间距离不大于预定阈值的符号对,包括:
将维度标准化值区间划分为多个子区间,每个子区间由一个符号来表示,将每一个d′维数据向量PX转换为d′维符号向量 S X = ( x S 1 , x S 2 , . . . , x S d ′ ) ;
对d′维符号向量相同的d维数据向量进行汇总,得到符号向量-数据向量列表SX[X,…],SY[Y,…],…,其中Y表示d维数据向量Y=(y1,y2,…,yd),SY表示d′维符号向量 S Y = ( y S 1 , y S 2 , . . . , y S d ′ ) ;
两两计算符号向量-数据向量列表中的每一对符号向量SX和SY之间的符号间距离DistS(SX,SY):
Dist S ( S X , S Y ) = λ Σ i = 1 d ′ [ ( dist ( x Si - y Si ) ) 2 ] ,
保留符号间距离DistS(SX,SY)不大于预定阈值的符号对,按照每个d′维符号向量进行汇总,得到符号向量-符号向量列表SX{SY,…},SY{SX,…},…,其中dist(xSi-ySi)表示符号xSi和ySi之间的最小距离;
以每个d′维符号向量SX作为键值,以符号向量-数据向量列表SX[X,…]和符号向量-符号向量列表SX{SY,…}中的数据向量列表和符号向量列表作为数值,构建散列表
h(SX)=([X,…],{SY,…}),
h(SY)=([Y,…],{SX,…}),
……;
采用Map-Reduce框架,对所构建的散列表进行处理,输出欧氏距离小于所述预定阈值的d维数据向量对。
9.根据权利要求8所述的高维数据相似性连接方法,还包括:
对维度进行排序,对输入高维数据进行预处理,生成多个d维数据向量。
10.根据权利要求9所述的高维数据相似性连接方法,其中
采用采样方法,对维度进行排序。
11.根据权利要求9所述的高维数据相似性连接方法,其中
采用补零方法,生成满足d′=d/λ以及d、d′和λ是正整数的多个d维数据向量。
12.根据权利要求8所述的高维数据相似性连接方法,其中采用Map-Reduce框架,对所构建的散列表进行处理包括:
将所构建的散列表分成多个数据片,针对每个数据片,依次读取所构建的散列表中的每条散列项,将键值依次与该散列项的符号向量列表中的每个符号向量组成一对,作为一条输出散列项的键值,将该散列项的数据向量列表作为每条输出散列项的数值,构建映射输出
h(SX,SY)=(X,…),
h(SX,…)=(X,…),
……
h(SY,SX)=h(SX,SY)
=(Y,…)
h(SY,…)=(Y,…),
对键值相同的输出散列项进行汇总,对汇总后的输出散列项的数值所包含的所有数据向量,两两计算汇总后的每一对数据向量间的欧氏距离,输出欧氏距离小于所述预定阈值的d维数据向量对。
13.根据权利要求8所述的高维数据相似性连接方法,其中迭代执行采用符号化累积近似方法、保留符号间距离不大于预定阈值的符号对的步骤,每次迭代处理以前次迭代处理的输出作为输入,将前次迭代处理的子区间进一步划分为多个更细粒度的子区间,并仅保留在更细粒度的子区间中的符号间距离不大于预定阈值的符号对。
14.根据权利要求8所述的高维数据相似性连接方法,其中每个子区间的大小相同,或者至少一个子区间的大小不同于其他子区间。
CN201310198463.9A 2013-05-24 2013-05-24 基于Map-Reduce的高维数据相似性连接方法和装置 Active CN104182411B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310198463.9A CN104182411B (zh) 2013-05-24 2013-05-24 基于Map-Reduce的高维数据相似性连接方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310198463.9A CN104182411B (zh) 2013-05-24 2013-05-24 基于Map-Reduce的高维数据相似性连接方法和装置

Publications (2)

Publication Number Publication Date
CN104182411A true CN104182411A (zh) 2014-12-03
CN104182411B CN104182411B (zh) 2018-08-17

Family

ID=51963462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310198463.9A Active CN104182411B (zh) 2013-05-24 2013-05-24 基于Map-Reduce的高维数据相似性连接方法和装置

Country Status (1)

Country Link
CN (1) CN104182411B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105242779B (zh) * 2015-09-23 2018-09-04 歌尔股份有限公司 一种识别用户动作的方法和移动智能终端
CN109492028A (zh) * 2018-11-09 2019-03-19 新疆工程学院 一种海量时间序列数据相似性连接计算方法
US10339371B2 (en) 2015-09-23 2019-07-02 Goertek Inc. Method for recognizing a human motion, method for recognizing a user action and smart terminal
CN110276050A (zh) * 2019-06-25 2019-09-24 洛阳师范学院 对高维向量相似性比较的方法及装置
CN110309143A (zh) * 2018-03-21 2019-10-08 华为技术有限公司 数据相似度确定方法、装置及处理设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1216841A (zh) * 1997-10-31 1999-05-19 国际商业机器公司 用于索引和检索的多维数据聚类和降维
US5978794A (en) * 1996-04-09 1999-11-02 International Business Machines Corporation Method and system for performing spatial similarity joins on high-dimensional points
CN1485766A (zh) * 2002-09-11 2004-03-31 ���ǵ�����ʽ���� 基于分区的高维相似性结合方法
US20070192342A1 (en) * 2006-02-10 2007-08-16 Microsoft Corporation Primitive operator for similarity joins in data cleaning
CN102737124A (zh) * 2012-06-15 2012-10-17 复旦大学 在时间序列数据库中查找给定时间序列的近似序列的方法
CN102867052A (zh) * 2012-09-13 2013-01-09 河海大学 一种基于特征点符号聚集近似的时间序列异常挖掘方法
US20130085405A1 (en) * 2011-09-28 2013-04-04 Deep Bera Method and apparatus for classifying cardiac arrhythmia

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5978794A (en) * 1996-04-09 1999-11-02 International Business Machines Corporation Method and system for performing spatial similarity joins on high-dimensional points
CN1216841A (zh) * 1997-10-31 1999-05-19 国际商业机器公司 用于索引和检索的多维数据聚类和降维
CN1485766A (zh) * 2002-09-11 2004-03-31 ���ǵ�����ʽ���� 基于分区的高维相似性结合方法
US20070192342A1 (en) * 2006-02-10 2007-08-16 Microsoft Corporation Primitive operator for similarity joins in data cleaning
US20130085405A1 (en) * 2011-09-28 2013-04-04 Deep Bera Method and apparatus for classifying cardiac arrhythmia
CN102737124A (zh) * 2012-06-15 2012-10-17 复旦大学 在时间序列数据库中查找给定时间序列的近似序列的方法
CN102867052A (zh) * 2012-09-13 2013-01-09 河海大学 一种基于特征点符号聚集近似的时间序列异常挖掘方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
WUMAN LUO等: "Efficient Similarity Joins on Massive High-Dimensional Datasets Using MapReduce", 《MOBILE DATA MANAGEMENT (MDM), 2012 IEEE 13TH INTERNATIONAL CONFERENCE ON》 *
刘义 等: "海量空间数据的并行Top-k连接查询", 《计算机研究与发展》 *
谢明霞 等: "高维数据相似性度量方法研究", 《计算机工程与科学》 *
马友忠 等: "海量高维向量的并行Top-k连接查询", 《计算机学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105242779B (zh) * 2015-09-23 2018-09-04 歌尔股份有限公司 一种识别用户动作的方法和移动智能终端
US10339371B2 (en) 2015-09-23 2019-07-02 Goertek Inc. Method for recognizing a human motion, method for recognizing a user action and smart terminal
CN110309143A (zh) * 2018-03-21 2019-10-08 华为技术有限公司 数据相似度确定方法、装置及处理设备
CN110309143B (zh) * 2018-03-21 2021-10-22 华为技术有限公司 数据相似度确定方法、装置及处理设备
CN109492028A (zh) * 2018-11-09 2019-03-19 新疆工程学院 一种海量时间序列数据相似性连接计算方法
CN110276050A (zh) * 2019-06-25 2019-09-24 洛阳师范学院 对高维向量相似性比较的方法及装置
CN110276050B (zh) * 2019-06-25 2023-09-15 洛阳师范学院 对高维向量相似性比较的方法及装置

Also Published As

Publication number Publication date
CN104182411B (zh) 2018-08-17

Similar Documents

Publication Publication Date Title
Huang et al. Shuffle transformer: Rethinking spatial shuffle for vision transformer
Drémeau et al. Boltzmann machine and mean-field approximation for structured sparse decompositions
US9465826B2 (en) Estimating unique entry counts using a counting bloom filter
CN104182411A (zh) 基于Map-Reduce的高维数据相似性连接方法和装置
Wu et al. Consistent weighted sampling made more practical
CN111488133A (zh) 高基数近似布斯编码方法和混合基数布斯编码近似乘法器
CN117312681B (zh) 面向元宇宙的用户偏好产品推荐方法及系统
Biller et al. Moments of genome evolution by double cut-and-join
CN111563535A (zh) 一种基于秩为r的离散非负矩阵分解聚类方法
CN110443264A (zh) 一种聚类的方法和装置
CN111198670B (zh) 执行矩阵乘法运算的方法、电路及soc
Yu et al. Hope: Hierarchical object prototype encoding for efficient object instance search in videos
Reznik et al. On the probability of the formation of local groups in random point images
Wang et al. Gaebic: a novel biclustering analysis method for mirna-targeted gene data based on graph autoencoder
Wang et al. Fast newton method for sparse logistic regression
US20230259756A1 (en) Graph explainable artificial intelligence correlation
CN112580676B (zh) 聚类方法、聚类装置、计算机可读介质及电子设备
CN114332745A (zh) 一种基于深度神经网络的近重复视频大数据清洗方法
US20130226904A1 (en) Determining distance between data sequences
Son et al. DAO-CP: Data-Adaptive Online CP decomposition for tensor stream
Song et al. Large scale network embedding: A separable approach
Jia et al. Symbolic algorithm for solving cyclic penta-diagonal linear systems
Obata et al. Dynamic Multi-Network Mining of Tensor Time Series
CN104573027A (zh) 一种从文档集中挖掘特征词的系统和方法
Guo et al. Improving on a rapid attribute reduction algorithm based on neighborhood rough sets

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant