CN108846067A - 基于映射空间划分的高维数据相似性连接查询方法及装置 - Google Patents

基于映射空间划分的高维数据相似性连接查询方法及装置 Download PDF

Info

Publication number
CN108846067A
CN108846067A CN201810577149.4A CN201810577149A CN108846067A CN 108846067 A CN108846067 A CN 108846067A CN 201810577149 A CN201810577149 A CN 201810577149A CN 108846067 A CN108846067 A CN 108846067A
Authority
CN
China
Prior art keywords
subspace
data
distance threshold
initial data
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810577149.4A
Other languages
English (en)
Inventor
马友忠
张瑞玲
林春杰
李莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Luoyang Normal University
Original Assignee
Luoyang Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Luoyang Normal University filed Critical Luoyang Normal University
Priority to CN201810577149.4A priority Critical patent/CN108846067A/zh
Publication of CN108846067A publication Critical patent/CN108846067A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种基于映射空间划分的高维数据相似性连接查询方法及装置。方法包括获取高维的原始数据并将原始数据映射到一维空间;根据第一距离阈值及卡方分布性质确定第二距离阈值,根据第二距离阈值将一维空间划分为多个子空间;确定每一原始数据对应的子空间的编号;根据第二距离阈值和子空间的编号获得候选数据对;计算候选数据对的原始距离并将原始距离与第一距离阈值进行比较获得相似性查询结果。装置用于执行方法。本发明实施例由于将高维原始数据映射到了一维空间,并在一维空间中按照第二距离阈值将原始数据进行划分,然后再进行相似性查询,降低了计算复杂度,减少了候选结果的数量,从而提高了查询效率。

Description

基于映射空间划分的高维数据相似性连接查询方法及装置
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种基于映射空间划分的高维数据相似性连接查询方法及装置。
背景技术
随着数据采集技术的发展和数据采集设备的进步,数据规模、数据精度、数据维度都以前所未有的方式迅速增加。很多类型数据的维度可以达到数千维,甚至上万维,如图形图像、视频、轨迹、时间序列等。高维数据相似性连接查询的目的是从海量高维数据集合中,找出其相似度大于等于给定相似度阈值或者其距离小于等于给定距离阈值的数据对,其在很多领域中均有重要应用,如图片聚类、文档去重、相似视频检测等。
海量高维数据相似性连接查询是一种计算密集型操作,随着数据规模和维度的不断增加,传统的集中式处理方式和基于索引的算法已不能满足性能要求。
相似性查询是一种应用广泛的重要操作,目前有很多血症对其进行了大量研究,针对大规模数据相似性连接查询面临的性能和扩展问题,现有技术中,通过MapReduce框架来进行解决,但是,对于高维数据来说,在通过MapReduce框架进行相似性查询时,其计算复杂度较高,从而导致了查询效率低的问题。
发明内容
有鉴于此,本发明实施例的目的在于提供一种基于映射空间划分的高维数据相似性连接查询方法及装置,以解决上述技术问题。
第一方面,本发明实施例提供了一种基于映射空间划分的高维数据相似性连接查询方法,包括:
获取所有待查询的高维的原始数据,并将所述原始数据映射到一维空间;
根据预设的第一距离阈值及卡方分布性质确定第二距离阈值,根据所述第二距离阈值对所述一维空间进行划分,获得多个子空间;
确定每一所述原始数据对应的子空间的编号;
根据所述第二距离阈值和所述子空间的编号获得所述原始数据对应的候选数据对;
计算所述候选数据对的原始距离,并将所述原始距离与所述第一距离阈值进行比较,获得相似性查询结果。
进一步地,所述确定每一所述原始数据对应的子空间的编号,包括:
计算每一所述原始数据在所述一维空间的映射值;
根据所述映射值和所述第二距离阈值确定每一所述原始数据对应的子空间的编号。
进一步地,所述根据所述映射值和所述第二距离阈值确定每一所述原始数据对应的子空间的编号,包括:
根据公式计算获得每一所述原始数据对应的子空间的编号,其中,
Si为第i个原始数据对应的子空间的编号,π1(vi)为第i个原始数据对应的映射值,i为正整数,kε为所述第二距离阈值。
进一步地,所述根据所述第二距离阈值和所述子空间的编号获得所述原始数据对应的候选数据对,包括:
依次获取一个子空间Si中的原始数据,以及与所述子空间Si相邻编号的子空间中的原始数据,并将所述子空间Si中的原始数据和与所述子空间Si相邻的子空间中的原始数据中的任意两个构成所述候选数据对。
进一步地,所述将所述原始距离与所述第一距离阈值进行比较,获得相似性查询结果,包括:
若判断获知所述原始距离小于或等于所述第一距离阈值,则将所述原始距离对应的所述候选数据作为所述相似性查询结果。
第二方面,本发明实施例提供了一种基于映射空间划分的高维数据相似性连接查询装置,包括:
映射模块,用于获取所有待查询的高维的原始数据,并将所述原始数据映射到一维空间;
空间划分模块,用于根据预设的第一距离阈值及卡方分布性质确定第二距离阈值,根据所述第二距离阈值对所述一维空间进行划分,获得多个子空间;
子空间编号确定模块,用于确定每一所述原始数据对应的子空间的编号;
候选数据对获取模块,用于根据所述第二距离阈值和所述子空间的编号获得所述原始数据对应的候选数据对;
比较模块,用于计算所述候选数据对的原始距离,并将所述原始距离与所述第一距离阈值进行比较,获得相似性查询结果。
进一步地,所述确定模块,具体用于:
计算每一所述原始数据在所述一维空间的映射值;
根据所述映射值和所述第二距离阈值确定每一所述原始数据对应的子空间的编号。
进一步地,所述确定模块,具体用于:
根据公式计算获得每一所述原始数据对应的子空间的编号,其中,
Si为第i个原始数据对应的子空间的编号,π1(vi)为第i个原始数据对应的映射值,i为正整数,kε为所述第二距离阈值。
进一步地,所述候选数据对获取模块,具体用于:
依次获取一个子空间Si中的原始数据,以及与所述子空间Si相邻的子空间中的原始数据,并将所述子空间Si中的原始数据和与所述子空间Si相邻的子空间中的原始数据中的任意两个构成所述候选数据对。
进一步地,所述比较模块,具体用于:
若判断获知所述原始距离小于或等于所述第一距离阈值,则将所述原始距离对应的所述候选数据作为所述相似性查询结果。
第三方面,本发明实施例提供一种电子设备,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面的方法步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,包括:
所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面的方法步骤。
本发明实施例通过将高维的原始数据映射到一维空间,并将一维空间划分为多个子空间,获取各子空间中原始数据对应的候选数据对,根据候选数据对之间的原始距离获得最终的相似性查询结果,并在一维空间中按照第二距离阈值将原始数据进行划分,然后再进行相似性查询,降低了计算复杂度,减少了候选结果的数量,从而提高了查询效率。本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的基于映射空间划分的高维数据相似性连接查询方法流程示意图;
图2为本发明实施例提供的基于映射空间划分的相似性连接查询框架;
图3为本发明实施例提供的基于映射空间划分的高维数据相似性连接查询装置结构示意图;
图4为本发明实施例提供的电子设备结构框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1为本发明实施例提供的基于映射空间划分的高维数据相似性连接查询方法流程示意图,如图1所示,该方法包括:
步骤101:获取所有待查询的高维的原始数据,并将所述原始数据映射到一维空间。
在具体的实施过程中,在对高维的原始数据进行相似性连接查询时,可以采用基于映射空间划分的相似性连接查询框架来进行查询,图2为本发明实施例提供的基于映射空间划分的相似性连接查询框架,如图2所示,该框架主要包括映射、过滤和验证三个阶段。装置首先获取所有待查询的高维的原始数据,并将这些高维的原始数据映射到一维空间,在映射阶段,根据定理1和定理2将d维空间的原始数据v与a进行点积运算,其中向量a的每一个元素都服从标准正态分布N(0,1)的独立、同分布随机变量,将其映射到一维空间。
应当说明的是,高维数据相似性连接查询(High-Dimensional Data SimilarityJoin,简称HDSJ)。给定两个数据集合Q和R,其中,Q={q1,q2,...,qn1},R={r1,r2,...,rn2},qi是集合Q中的第i个数据点,qi=<qi1,qi2,...,qid>,rj是集合R中的第j个数据点,rj=<rj1,rj2,...,rjd>,qi,|Q|=n1,|R|=n2。假设距离函数为dist,距离阈值为ε,Q和R的相似性连接查询结果是所有距离不大于ε的数据对,即:HDSJ(Q,R)={<qi,rj>|qi∈Q,rj∈R,dist(qi,rj)≤ε}。距离函数dist的定义如下:
定理1为:对任意两个d维向量qi,则g(qi)-g(rj)服从正态分布N(0,dist2(qi,rj))。
定理2为:对于任意两个向量qi和rj服从自由度为m的卡方分布,即:
步骤102:根据预设的第一距离阈值及卡方分布性质确定第二距离阈值,根据所述第二距离阈值对所述一维空间进行划分,获得多个子空间。
在具体的实施过程中,根据预先设定的第一距离阈值ε及卡方分布性质可以确定出第二距离阈值kε,其中,定理3包括了卡方分布的性质,且定理3为:如果Δm(qi,rj)>kε,则:P(dist(qi,rj)>ε)>1-P(χ2>k2)。在计算得到第二距离阈值之后根据第二距离阈值对一维空间进行等格划分,如图2中的中间部分,可以获得到多个子空间Si,i为正整数,对每一个子空间进行编号。
步骤103:确定每一所述原始数据对应的子空间的编号。
在具体的实施过程中,通过对原始数据进行映射到一维空间中后,不同的原始数据落在一维空间中的位置不同,因此可以确定出每一个原始数据落在其对应的子空间的编号。
步骤104:根据所述第二距离阈值和所述子空间的编号获得所述原始数据对应的候选数据对。
在具体的实施过程中,根据定理3可以得知,第i个子空间Si中的数据只可能与其相邻的子空间的数据相似,即,与子空间Si相邻的子空间的数据与子空间Si中的数据之间的距离小于第二距离阈值其他子空间中的数据肯定与Si中的数据的距离大于第二距离阈值,从而不需要再进行比较,从而在对数据进行过滤时提高了效率,并且达到了较好的过滤效果。由于子空间的编号为连续编号,因此可以根据第二距离阈值和子空间的编号来获得原始数据对应的候选数据对。可以理解的是,所谓候选数据对为两个满足条件的原始数据构成的。且获得到的候选数据对为多个。
步骤105:计算所述候选数据对的原始距离,并将所述原始距离与所述第一距离阈值进行比较,获得相似性查询结果。
在具体的实施过程中,如图2中最右侧的验证阶段,分别计算每一个候选数据对中两个原始数据对应的原始距离,然后将原始具体与第一距离阈值进行比较,从而将满足条件的留下,不满足条件的剔除,最终获得相似性查询结果。
本发明实施例通过将高维的原始数据映射到一维空间,并将一维空间划分为多个子空间,获取各子空间中原始数据对应的候选数据对,根据候选数据对之间的原始距离获得最终的相似性查询结果,由于将高维原始数据映射到了一维空间,然后再进行相似性查询,大大降低了计算复杂度,从而提高了查询效率。
在上述实施例的基础上,所述确定每一所述原始数据对应的子空间的编号,包括:
计算每一所述原始数据在所述一维空间的映射值;
根据所述映射值和所述第二距离阈值确定每一所述原始数据对应的子空间的编号。
在具体的实施过程中,对于所有的原始数据来说,计算每一个原始数据对应的一维空间的映射值,然后根据各原始数据对应的映射值和第二距离阈值确定每一个原始数据落在对应子空间的编号。常见的方法为将映射值除以第二距离阈值可以获得。例如:可以根据公式(2)计算获得每一原始数据对应的子空间的编号:
其中,Si为第i个原始数据对应的子空间的编号,π1(vi)为第i个原始数据对应的映射值,i为正整数,kε为所述第二距离阈值。
本发明实施例通过确定计算每个原始数据对应的子空间的编号,从而为数据过滤提供基础,提高数据过滤的效率及效果。
在上述实施例的基础上,所述根据所述第二距离阈值和所述子空间的编号获得所述原始数据对应的候选数据对,包括:
依次获取一个子空间Si中的原始数据,以及与所述子空间Si相邻编号的子空间中的原始数据,并将所述子空间Si中的原始数据和与所述子空间Si相邻的子空间中的原始数据中的任意两个构成所述候选数据对。
在具体的实施过程中,在获取候选数据对时,需要对一维空间中的每一个子空间进行选取,假设一维空间中一共有n个子空间,对于S1对应的向量,只需要与S1∪S2对应的原始数据进行比较即可,即将S1∪S2对应的原始数据两两结合构成候选数据对。对于Si(n>i>1)对应的原始数据,只需要与Si-1∪Si∪Si+1对应的原始数据进行比较即可,即将Si-1∪Si∪Si+1对应的原始数据两两结合构成候选数据对。针对Sn对应的原始数据,只需要与Sn-1∪Sn对应的原始数据进行比较即可,即将Sn-1∪Sn对应的原始数据两两结合构成候选数据对。
本发明实施例通过将相邻子空间中的原始数据两两构成候选数据对,然后从候选数据对中再次判断是否属于相似性查询结果,提高了候选数据对筛选的效率,进而也提高了数据相似性连接查询的效率。
在上述各实施例的基础上,所述将所述原始距离与所述第一距离阈值进行比较,获得相似性查询结果,包括:
若判断获知所述原始距离小于或等于所述第一距离阈值,则将所述原始距离对应的所述候选数据作为所述相似性查询结果。
在具体的实施过程中,根据公式(1)可以计算每一个候选数据对中两个原始数据对应的原始距离,将原始距离与第一距离阈值进行比较,如果原始距离小于或者等于第一距离阈值,则说明该候选数据对中的两个原始数据满足数据相似性的要求,可以将该候选数据放入相似性查询结果中。反之,如果原始距离大于第一距离阈值,则说明该候选数据对中的两个原始数据不满足数据相似性的要求,则该候选数据不能作为相似性查询结果。
本发明实施例通过将高维的原始数据映射到一维空间,并将一维空间划分为多个子空间,获取各子空间中原始数据对应的候选数据对,根据候选数据对之间的原始距离获得最终的相似性查询结果,由于将高维原始数据映射到了一维空间,然后再进行相似性查询,大大降低了计算复杂度,从而提高了查询效率。
本发明实施例还提供的一种基于映射空间划分的相似性连接查询算法,具体算法如下:
图3为本发明实施例提供的基于映射空间划分的高维数据相似性连接查询装置结构示意图,如图3所示,该装置包括:映射模块301、空间划分模块302、子空间编号确定模块303、候选数据对获取模块304和比较模块305,其中,
映射模块301用于获取所有待查询的高维的原始数据,并将所述原始数据映射到一维空间;空间划分模块302用于根据预设的第一距离阈值及卡方分布性质确定第二距离阈值,根据所述第二距离阈值对所述一维空间进行划分,获得多个子空间;子空间编号确定模块303用于确定每一所述原始数据对应的子空间的编号;候选数据对获取模块304用于根据所述第二距离阈值和所述子空间的编号获得所述原始数据对应的候选数据对;比较模块305用于计算所述候选数据对的原始距离,并将所述原始距离与所述第一距离阈值进行比较,获得相似性查询结果。
在具体的实施过程中,映射模块301首先获取所有待查询的高维的原始数据,并将这些高维的原始数据映射到一维空间。空间划分模块302根据预先设定的第一距离阈值ε及卡方分布性质可以确定出第二距离阈值kε,在计算得到第二距离阈值之后根据第二距离阈值对一维空间进行等格划分,如图2中的中间部分,可以获得到多个子空间Si,i为正整数,对每一个子空间进行编号。通过对原始数据进行映射到一维空间中后,不同的原始数据落在一维空间中的位置不同,因此子空间编号确定模块303可以确定出每一个原始数据落在其对应的子空间的编号。候选数据对获取模块304根据第二距离阈值和子空间的编号来获得原始数据对应的候选数据对。比较模块305分别计算每一个候选数据对中两个原始数据对应的原始距离,然后将原始具体与第一距离阈值进行比较,从而将满足条件的留下,不满足条件的剔除,最终获得相似性查询结果。
本发明实施例通过将高维的原始数据映射到一维空间,并将一维空间划分为多个子空间,获取各子空间中原始数据对应的候选数据对,根据候选数据对之间的原始距离获得最终的相似性查询结果,由于将高维原始数据映射到了一维空间,然后再进行相似性查询,大大降低了计算复杂度,从而提高了查询效率。
在上述实施例的基础上,所述确定模块,具体用于:
计算每一所述原始数据在所述一维空间的映射值;
根据所述映射值和所述第二距离阈值确定每一所述原始数据对应的子空间的编号。
在上述实施例的基础上,所述确定模块,具体用于:
根据公式计算获得每一所述原始数据对应的子空间的编号,其中,
Si为第i个原始数据对应的子空间的编号,π1(vi)为第i个原始数据对应的映射值,i为正整数,kε为所述第二距离阈值。
在上述实施例的基础上,所述候选数据对获取模块,具体用于:
依次获取一个子空间Si中的原始数据,以及与所述子空间Si相邻的子空间中的原始数据,并将所述子空间Si中的原始数据和与所述子空间Si相邻的子空间中的原始数据中的任意两个构成所述候选数据对。
在上述各实施例的基础上,所述比较模块,具体用于:
若判断获知所述原始距离小于或等于所述第一距离阈值,则将所述原始距离对应的所述候选数据作为所述相似性查询结果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
综上所述,本发明实施例通过将高维的原始数据映射到一维空间,并将一维空间划分为多个子空间,获取各子空间中原始数据对应的候选数据对,根据候选数据对之间的原始距离获得最终的相似性查询结果,由于将高维原始数据映射到了一维空间,然后再进行相似性查询,大大降低了计算复杂度,从而提高了查询效率。
请参照图4,图4为本发明实施例提供的电子设备结构框图。电子设备可以包括查询装置401、存储器402、存储控制器403、处理器404、外设接口405、输入输出单元406、音频单元407、显示单元408。
所述存储器402、存储控制器403、处理器404、外设接口405、输入输出单元406、音频单元407、显示单元408各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述查询装置401包括至少一个可以软件或固件(firmware)的形式存储于所述存储器402中或固化在查询装置401的操作系统(operating system,OS)中的软件功能模块。所述处理器404用于执行存储器402中存储的可执行模块,例如查询装置401包括的软件功能模块或计算机程序。
其中,存储器402可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器402用于存储程序,所述处理器404在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的服务器所执行的方法可以应用于处理器404中,或者由处理器404实现。
处理器404可以是一种集成电路芯片,具有信号的处理能力。上述的处理器404可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器404也可以是任何常规的处理器等。
所述外设接口405将各种输入/输出装置耦合至处理器404以及存储器402。在一些实施例中,外设接口405,处理器404以及存储控制器403可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
输入输出单元406用于提供给用户输入数据实现用户与所述服务器(或本地终端)的交互。所述输入输出单元406可以是,但不限于,鼠标和键盘等。
音频单元407向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。
显示单元408在所述电子设备与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,所述显示单元408可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器404进行计算和处理。
所述外设接口405将各种输入/输入装置耦合至处理器404以及存储器402。在一些实施例中,外设接口405,处理器404以及存储控制器403可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
输入输出单元406用于提供给用户输入数据实现用户与处理终端的交互。所述输入输出单元406可以是,但不限于,鼠标和键盘等。
可以理解,图4所示的结构仅为示意,所述电子设备还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种基于映射空间划分的高维数据相似性连接查询方法,其特征在于,包括:
获取所有待查询的高维的原始数据,并将所述原始数据映射到一维空间;
根据预设的第一距离阈值及卡方分布性质确定第二距离阈值,根据所述第二距离阈值对所述一维空间进行划分,获得多个子空间;
确定每一所述原始数据对应的子空间的编号;
根据所述第二距离阈值和所述子空间的编号获得所述原始数据对应的候选数据对;
计算所述候选数据对的原始距离,并将所述原始距离与所述第一距离阈值进行比较,获得相似性查询结果。
2.根据权利要求1所述的方法,其特征在于,所述确定每一所述原始数据对应的子空间的编号,包括:
计算每一所述原始数据在所述一维空间的映射值;
根据所述映射值和所述第二距离阈值确定每一所述原始数据对应的子空间的编号。
3.根据权利要求2所述的方法,其特征在于,所述根据所述映射值和所述第二距离阈值确定每一所述原始数据对应的子空间的编号,包括:
根据公式计算获得每一所述原始数据对应的子空间的编号,其中,
Si为第i个原始数据对应的子空间的编号,π1(vi)为第i个原始数据对应的映射值,i为正整数,kε为所述第二距离阈值。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第二距离阈值和所述子空间的编号获得所述原始数据对应的候选数据对,包括:
依次获取一个子空间Si中的原始数据,以及与所述子空间Si相邻编号的子空间中的原始数据,并将所述子空间Si中的原始数据和与所述子空间Si相邻的子空间中的原始数据中的任意两个构成所述候选数据对。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述将所述原始距离与所述第一距离阈值进行比较,获得相似性查询结果,包括:
若判断获知所述原始距离小于或等于所述第一距离阈值,则将所述原始距离对应的所述候选数据作为所述相似性查询结果。
6.一种基于映射空间划分的高维数据相似性连接查询装置,其特征在于,包括:
映射模块,用于获取所有待查询的高维的原始数据,并将所述原始数据映射到一维空间;
空间划分模块,用于根据预设的第一距离阈值及卡方分布性质确定第二距离阈值,根据所述第二距离阈值对所述一维空间进行划分,获得多个子空间;
子空间编号确定模块,用于确定每一所述原始数据对应的子空间的编号;
候选数据对获取模块,用于根据所述第二距离阈值和所述子空间的编号获得所述原始数据对应的候选数据对;
比较模块,用于计算所述候选数据对的原始距离,并将所述原始距离与所述第一距离阈值进行比较,获得相似性查询结果。
7.根据权利要求6所述的装置,其特征在于,所述确定模块,具体用于:
计算每一所述原始数据在所述一维空间的映射值;
根据所述映射值和所述第二距离阈值确定每一所述原始数据对应的子空间的编号。
8.根据权利要求7所述的装置,其特征在于,所述确定模块,具体用于:
根据公式计算获得每一所述原始数据对应的子空间的编号,其中,
Si为第i个原始数据对应的子空间的编号,π1(vi)为第i个原始数据对应的映射值,i为正整数,kε为所述第二距离阈值。
9.根据权利要求6所述的装置,其特征在于,所述候选数据对获取模块,具体用于:
依次获取一个子空间Si中的原始数据,以及与所述子空间Si相邻的子空间中的原始数据,并将所述子空间Si中的原始数据和与所述子空间Si相邻的子空间中的原始数据中的任意两个构成所述候选数据对。
10.根据权利要求6-9任一项所述的装置,其特征在于,所述比较模块,具体用于:
若判断获知所述原始距离小于或等于所述第一距离阈值,则将所述原始距离对应的所述候选数据作为所述相似性查询结果。
CN201810577149.4A 2018-06-05 2018-06-05 基于映射空间划分的高维数据相似性连接查询方法及装置 Pending CN108846067A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810577149.4A CN108846067A (zh) 2018-06-05 2018-06-05 基于映射空间划分的高维数据相似性连接查询方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810577149.4A CN108846067A (zh) 2018-06-05 2018-06-05 基于映射空间划分的高维数据相似性连接查询方法及装置

Publications (1)

Publication Number Publication Date
CN108846067A true CN108846067A (zh) 2018-11-20

Family

ID=64210542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810577149.4A Pending CN108846067A (zh) 2018-06-05 2018-06-05 基于映射空间划分的高维数据相似性连接查询方法及装置

Country Status (1)

Country Link
CN (1) CN108846067A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783547A (zh) * 2019-02-21 2019-05-21 洛阳师范学院 一种相似性连接查询方法及装置
CN110276050A (zh) * 2019-06-25 2019-09-24 洛阳师范学院 对高维向量相似性比较的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020147703A1 (en) * 2001-04-05 2002-10-10 Cui Yu Transformation-based method for indexing high-dimensional data for nearest neighbour queries
CN103500165A (zh) * 2013-08-21 2014-01-08 新华通讯社 一种结合聚类和双key值的高维向量检索方法
CN104166719A (zh) * 2014-08-19 2014-11-26 清华大学 基于泛化双向相似连接技术的匹配方法
CN105578575A (zh) * 2015-12-14 2016-05-11 南京邮电大学 一种应用于无线传感网络的分布式相似性查询方法
CN106886553A (zh) * 2016-12-27 2017-06-23 浙江宇视科技有限公司 一种图像检索方法及服务器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020147703A1 (en) * 2001-04-05 2002-10-10 Cui Yu Transformation-based method for indexing high-dimensional data for nearest neighbour queries
CN103500165A (zh) * 2013-08-21 2014-01-08 新华通讯社 一种结合聚类和双key值的高维向量检索方法
CN104166719A (zh) * 2014-08-19 2014-11-26 清华大学 基于泛化双向相似连接技术的匹配方法
CN105578575A (zh) * 2015-12-14 2016-05-11 南京邮电大学 一种应用于无线传感网络的分布式相似性查询方法
CN106886553A (zh) * 2016-12-27 2017-06-23 浙江宇视科技有限公司 一种图像检索方法及服务器

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
YOUZHONG MA 等: ""A novel approach for high-dimensional vector similarity join query"", 《CONCURRENCY AND COMPUTATION:PRACTICE AND EXPERIENCE》 *
YOUZHONG MA 等: ""A novel approach for high-dimensional vector similarity join query"", 《CONCURRENCY AND COMPUTATION:PRACTICE AND EXPERIENCE》, vol. 29, no. 5, 31 March 2017 (2017-03-31), pages 1 - 12 *
YOUZHONG MA 等: ""Parallel similarity joins on massive high-dimensional data using MapReduce"", 《CONCURRENCY AND COMPUTATION: PRACTICE AND EXPERIENCE》 *
YOUZHONG MA 等: ""Parallel similarity joins on massive high-dimensional data using MapReduce"", 《CONCURRENCY AND COMPUTATION: PRACTICE AND EXPERIENCE》, vol. 28, 20 September 2015 (2015-09-20), pages 166 - 183 *
马友忠 等: ""基于卡方分布的高维数据相似性连接查询算法"", 《计算机应用》 *
马友忠 等: ""基于卡方分布的高维数据相似性连接查询算法"", 《计算机应用》, 10 July 2016 (2016-07-10), pages 1993 - 1997 *
马友忠;张智辉;林春杰;: "大数据相似性连接查询技术研究进展", 计算机应用, no. 04, 10 April 2018 (2018-04-10), pages 62 - 70 *
马友忠;贾世杰;张永新;: "基于卡方分布的高维数据相似性连接查询算法", 计算机应用, no. 07, 10 July 2016 (2016-07-10), pages 233 - 237 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783547A (zh) * 2019-02-21 2019-05-21 洛阳师范学院 一种相似性连接查询方法及装置
CN109783547B (zh) * 2019-02-21 2020-08-21 洛阳师范学院 一种相似性连接查询方法及装置
CN110276050A (zh) * 2019-06-25 2019-09-24 洛阳师范学院 对高维向量相似性比较的方法及装置
CN110276050B (zh) * 2019-06-25 2023-09-15 洛阳师范学院 对高维向量相似性比较的方法及装置

Similar Documents

Publication Publication Date Title
CN109190023B (zh) 协同推荐的方法、装置及终端设备
CN108829804A (zh) 基于距离划分树的高维数据相似性连接查询方法及装置
TW201942826A (zh) 支付方式推薦方法、裝置及設備
KR100308456B1 (ko) 주파수 공간상에서의 질감표현방법 및 질감기반 검색방법
CN109886334B (zh) 一种隐私保护的共享近邻密度峰聚类方法
JP6905603B2 (ja) 画像検索方法、装置、機器および読み取り可能な記憶媒体
Schneider et al. Fast parameterless density-based clustering via random projections
CN110457577B (zh) 数据处理方法、装置、设备和计算机存储介质
TWI446192B (zh) A memory having an information filtering detection function, a method of using the same, a device including the memory
TW202011251A (zh) 用戶身分確定方法、裝置及電子設備
Guan et al. On-device mobile landmark recognition using binarized descriptor with multifeature fusion
CN103136683A (zh) 计算产品参考价格的方法、装置及产品搜索方法、系统
CN113515656B (zh) 一种基于增量学习的多视角目标识别与检索方法、及装置
Alrabea et al. Enhancing k-means algorithm with initial cluster centers derived from data partitioning along the data axis with PCA
CN109948680A (zh) 病历数据的分类方法及系统
Qi et al. Indexable online time series segmentation with error bound guarantee
CN108256000A (zh) 一种基于局部聚类的个性化差分隐私推荐方法
CN108846067A (zh) 基于映射空间划分的高维数据相似性连接查询方法及装置
Wang et al. A neighborhood-based three-stage hierarchical clustering algorithm
Wijayanto et al. LShape Partitioning: Parallel Skyline Query Processing Using $ MapReduce $ M a p R e d u c e
CN110276050A (zh) 对高维向量相似性比较的方法及装置
CN108985908A (zh) 不动产信息共享方法、装置、计算机可读存储介质
Bouksim et al. New approach for 3D Mesh Retrieval using data envelopment analysis
Nguyen Mau et al. Audio fingerprint hierarchy searching strategies on GPGPU massively parallel computer
EP3887931A1 (en) Graph search and visualization for fraudulent transaction analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination