CN105578575A - 一种应用于无线传感网络的分布式相似性查询方法 - Google Patents

一种应用于无线传感网络的分布式相似性查询方法 Download PDF

Info

Publication number
CN105578575A
CN105578575A CN201510927383.1A CN201510927383A CN105578575A CN 105578575 A CN105578575 A CN 105578575A CN 201510927383 A CN201510927383 A CN 201510927383A CN 105578575 A CN105578575 A CN 105578575A
Authority
CN
China
Prior art keywords
local sensitivity
group
sensitivity hash
dimension
fingerprint value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510927383.1A
Other languages
English (en)
Other versions
CN105578575B (zh
Inventor
胡海峰
何杰芳
吴建盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201510927383.1A priority Critical patent/CN105578575B/zh
Publication of CN105578575A publication Critical patent/CN105578575A/zh
Application granted granted Critical
Publication of CN105578575B publication Critical patent/CN105578575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/02Power saving arrangements
    • H04W52/0209Power saving arrangements in terminal devices
    • H04W52/0212Power saving arrangements in terminal devices managed by the network, e.g. network or access point is master and terminal is slave
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种应用于无线传感网络的分布式相似性查询方法,针对无线传感网络中传感节点之间相互传输的高维数据,设计采用低维的局部敏感哈希指纹,有效降低了传感节点的传输能耗,增加了网络生命周期;而且本发明整个设计的分布式相似性查询方法,有效克服了传统数据查询过程中,向量计算量随维度增加呈现指数倍增的问题,解决了原始局部敏感哈希表数量需求过大的问题,提高了空间利用率;且相似性权重机制的引入,有效地剔除了非相似性数据,使验证过程中需要验证的数据量变少,大大提高了算法的效率,并有效地提高了相似性查询的效率。

Description

一种应用于无线传感网络的分布式相似性查询方法
技术领域
本发明涉及一种应用于无线传感网络的分布式相似性查询方法,属于无线传感网络下的相似查询技术领域。
背景技术
无线传感网络(WirelessSensorNetwork,WSN)是当前在国际上备受关注、涉及多学科高度交叉、知识高度集成的前沿热点研究领域,被认为是21世纪最重要的技术之一。WSN系统通常包括传感器节点、汇聚节点和管理节点,大量传感器节点随机部署在监测区域,通过自组织的方式形成网络,负责收集监测区域的数据;汇聚节点收集传感节点的数据,经过数据整合,提交给管理节点;用户可以通过管理节点对传感器网络进行配置管理、发布监测任务以及收集监测数据。WSN将逻辑上的信息世界和客观上的物理世界融合在一起,它在工业、农业、交通、军事、安全、医疗、空间探测等众多领域都有着广泛的应用。
由于WSN的传感节点通常由电池供电,可用能量有限,因此能耗是WSN的一个重要问题,特别是在相似数据查询时,匹配所有节点的数据将消耗大量能量,缩短网络的生命周期。
局部敏感哈希(LocalitySensitiveHashing,LSH)是最近非常流行的一种相似性搜索算法,因其不错的搜索效率以及较强的高维适应性而被广泛应用于各个领域。其基本思想是通过一组特殊的哈希函数,对数据进行哈希,使距离近的点冲突的概率远大于距离远的点冲突的概率;在查询时,使用相同的函数,将查询点哈希到桶中,选取桶中数据作为候选点进行距离判断,最终确定相似数据。
传统LSH技术的主要问题是为了保证足够的召回率和精确率通常需要数以百计的哈希表,这就给索引的存储带来很大的压力,庞大的哈希表占用过多的内存,在海量文件系统中,LSH的应用遇到瓶颈。
发明内容
针对上述技术问题,本发明所要解决的技术问题是提供一种应用于无线传感网络的分布式相似性查询方法,解决了无线传感网络的能耗问题,以及数据相似性查询的效率问题。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种应用于无线传感网络的分布式相似性查询方法,针对无线传感网络中各个数据项进行L组K维局部敏感哈希映射,构建各个数据项分别所映射的L组K维局部敏感哈希指纹值,即一个数据项对应L组局部敏感哈希指纹值集合,各组局部敏感哈希指纹值集合分别包括K维局部敏感哈希指纹值,L和K为预设整数值;所述分布式相似性查询方法包括如下步骤:
步骤001.针对查询数据项V查询,获得其进行L组K维局部敏感哈希映射时,各组各维按预设切割宽度W进行分割取整前的映射值进入步骤002;其中,l=1、…、L,k=1、…、K,Al,k和Bl,k为无线传感网络中各数据项进行L组K维局部敏感哈希映射时,各组各维所对应的随即参数,且无线传感网络中各个数据项之间所对应各组各维的Al,k和Bl,k彼此对应相同,Al,k为查询数据项V查询对应第l组第k维局部敏感哈希映射时,与查询数据项V查询维数相同,且每一维服从P稳态分布的随机高维向量;Bl,k为查询数据项V查询对应第l组第k维局部敏感哈希映射时,属于[0,W]之间的随机数;
步骤002.根据查询数据项V查询进行L组K维局部敏感哈希映射时,各组各维按预设切割宽度W进行分割取整前的映射值获得查询数据项V查询进行L组K维局部敏感哈希映射后,各组局部敏感哈希指纹值集合中各维局部敏感哈希指纹值进入步骤003;
步骤003.将无线传感网络中的所有数据项作为待对比数据项,分别针对各个待对比数据项,将待对比数据项各组局部敏感哈希指纹值集合中各维局部敏感哈希指纹值,分别与查询数据项V查询对应各组局部敏感哈希指纹值集合中对应维局部敏感哈希指纹值进行相减,获得对应差值进入步骤004;其中,l待对比=l查询,l待对比=1、…、L,l查询=1、…、L,表示待对比数据项第l待对比组局部敏感哈希指纹值集合中第k维局部敏感哈希指纹值,与查询数据项V查询第l查询组局部敏感哈希指纹值集合中第k维局部敏感哈希指纹值的相减结果;
步骤004.针对所有差值判断是否存在绝对值大于1的是则定义该所对应待对比数据项第l待对比组局部敏感哈希指纹值集合与查询数据项V查询第l查询组局部敏感哈希指纹值集合之间的组相似性权重并进入步骤005;否则进入步骤006;
步骤005.针对所有待对比数据项的局部敏感哈希指纹值集合中剩余局部敏感哈希指纹值集合,判断是否存在所对应所有差值的绝对值均不大于1的局部敏感哈希指纹值集合,是则进入步骤006;否则进入步骤008;
步骤006.分别针对所对应所有差值的绝对值均不大于1的各组局部敏感哈希指纹值集合,根据其对应的获得所对应的各个待对比数据项第l待对比组局部敏感哈希指纹值集合,按如下公式:
获得所对应待对比数据项第l待对比组局部敏感哈希指纹值集合中第k维局部敏感哈希指纹值,与查询数据项V查询第l查询组局部敏感哈希指纹值集合中第k维局部敏感哈希指纹值的单位相似性权重然后进入步骤007;
步骤007.针对所对应所有差值的绝对值均不大于1的各组局部敏感哈希指纹值集合,根据如下公式:
获得其对应所对应待对比数据项第l待对比组局部敏感哈希指纹值集合与查询数据项V查询第l查询组局部敏感哈希指纹值集合的组相似性权重并进入步骤008;其中,λ为预设常数;
步骤008.分别针对无线传感网络中各个待对比数据项,将待对比数据项所有L组局部敏感哈希指纹值集合,分别相对于查询数据项V查询对应各组局部敏感哈希指纹值集合的组相似性权重相加,获得该待对比数据项相对于查询数据项V查询的相似性权重,并进入步骤009;
步骤009.针对无线传感网络中各个待对比数据项相对于查询数据项V查询的相似性权重,筛选获得大于预设相似性权重阈值的相似性权重所对应的待对比数据项,作为候选数据项,并进入步骤010;
步骤010.根据查询数据项V查询进行局部敏感哈希映射前的数据,以及各个候选数据项进行局部敏感哈希映射前的数据,分别计算各个候选数据项和查询数据项V查询之间的欧式距离,然后筛选获得大于预设欧式距离阈值的欧式距离所对应的候选数据项,即查询数据项V查询的相似性查询结果。
作为本发明的一种优选技术方案:所述针对无线传感网络中各个数据项采用基于P稳态局部敏感哈希映射方法,进行L组K维局部敏感哈希映射,构建各个数据项分别所映射的L组K维局部敏感哈希指纹值。
作为本发明的一种优选技术方案:所述针对无线传感网络中各个数据项进行L组K维局部敏感哈希映射,构建各个数据项分别所映射的L组K维局部敏感哈希指纹值,包括如下步骤:
步骤a01.针对无线传感网络中的数据项,随机获得其进行L组K维局部敏感哈希映射时,所对应各组各维的Al,k、Bl,k,且无线传感网络中各个数据项之间所对应各组各维的Al,k和Bl,k彼此对应相同,并进入步骤a02;其中,Al,k为数据项对应第l组第k维局部敏感哈希映射时,与该数据项维数相同,且每一维服从P稳态分布的随机高维向量;Bl,k为数据项对应第l组第k维局部敏感哈希映射时,属于[0,W]之间的随机数;
步骤a02.根据无线传感网络中各个数据项分别所对应各组各维的Al,k、Bl,k,按如下公式:
h A l , k ′ , B l , k ′ ( V ) = [ A l , k · V + B l , k W ]
获得无线传感网络中各个数据项分别所对应各组各维局部敏感哈希指纹值即一个数据项对应L组局部敏感哈希指纹值集合,各组局部敏感哈希指纹值集合分别包括K维局部敏感哈希指纹值;其中,V表示无线传感网络中的数据项。
作为本发明的一种优选技术方案:所述步骤001中,针对查询数据项V查询,按如下公式:
获得其进行L组K维局部敏感哈希映射时,各组各维按预设切割宽度W进行分割取整前的映射值
作为本发明的一种优选技术方案:所述步骤002中,根据查询数据项V查询进行L组K维局部敏感哈希映射时,各组各维按预设切割宽度W进行分割取整前的映射值按如下公式:
获得查询数据项V查询进行L组K维局部敏感哈希映射后,各组局部敏感哈希指纹值集合中各维的局部敏感哈希指纹值
本发明所述一种应用于无线传感网络的分布式相似性查询方法采用以上技术方案与现有技术相比,具有以下技术效果:本发明设计的一种应用于无线传感网络的分布式相似性查询方法,针对无线传感网络中传感节点之间相互传输的高维数据,设计采用低维的局部敏感哈希指纹,有效降低了传感节点的传输能耗,增加了网络生命周期;而且本发明整个设计的分布式相似性查询方法,有效克服了传统数据查询过程中,向量计算量随维度增加呈现指数倍增的问题,解决了原始局部敏感哈希表数量需求过大的问题,提高了空间利用率;且相似性权重机制的引入,有效地剔除了非相似性数据,使验证过程中需要验证的数据量变少,大大提高了算法的效率,并有效地提高了相似性查询的效率。
附图说明
图1是本发明设计一种应用于无线传感网络的分布式相似性查询方法的流程示意图;
图2是本发明设计中单位相似性权重的计算示意图。
具体实施方式
下面结合说明书附图针对本发明的具体实施方式作进一步详细的说明。
本发明主要包括两个过程:索引建立过程和基于多探头距离权重的分布式相似性查询过程;索引建立过程主要完成针对无线传感网络中各个数据项的索引建立,其实质是完成数据项的局部敏感哈希(LSH)指纹映射;查询过程主要完成分布式相似性查询任务,内容包括查询项的映射,候选数据的获取及候选数据相似性权重的筛选;其中,查询过程主要分为三个层次:用户层、sink层和传感网络层,用户层与用户交互,主要完成查询请求的提交和查询结果的显示;sink层完成数据项的局部敏感哈希(LSH)指纹映射及候选数据集的验证筛选;传感网络层负责数据的收集以及数据项的相似性权重的计算。
本发明的关键技术分述如下:
(1)局部敏感哈希算法:
局部敏感哈希(LSH)是一种过滤-验证模型,其基本思想是通过一组特殊的哈希函数,对数据进行哈希映射,使距离近的点冲突的概率远大于距离远的点冲突的概率。本发明采用的是基于P稳态的LSH方法,这是一种应用广泛的直接处理欧氏距离的方法,对于一个多维的数据向量,经过P-LSH的哈希函数处理,会产生一个K维的向量,把此向量作为数据的指纹。根据局部敏感哈希(LSH)的原理,可以认为指纹相同或相近的数据即为相似数据,因此利用局部敏感哈希(LSH)指纹进行数据查询时,只要先根据数据的局部敏感哈希(LSH)指纹建立哈希表索引,然后将查询项映射到哈希桶内的数据,作为候选近邻做进一步验证即可。
(2)Multi-probeLSH算法:
Multi-probeLSH是局部敏感哈希(LSH)的一种改进算法,其主要针对原始局部敏感哈希(LSH)为了达到高的准确度而需要大量哈希表的问题。Multi-probeLSH的主要思想是在查询时不仅仅检索查询项映射到的哈希桶,还检索与该哈希桶近似的多个哈希桶,从而减少需要的哈希表数目。这些近似哈希桶的获取是Multi-probeLSH算法的核心所在,其根本思想是根据查询项近邻落入这些邻近桶的近似概率来获取,而近似概率的获取跟查询项映射的位置距离邻近哈希桶的远近相关。
(3)数据打分机制:
相似性权重机制是本发明的核心,采用Multi-probeLSH后可以有效降低算法所使用的哈希桶的数目,但同时也使候选数据集的量增大了,即需要与查询项进行直接比较验证的数据项增加了,这会影响算法的性能。相似性权重机制是针对这个问题的解决方案,通过在查询时对查询到的数据,获得相似性权重,筛选相似性权重过低的数据项,可以有效减少最终候选集的规模,从而减少验证步骤的开销,提高算法的效率。
相似性权重机制的主要思想是针对所有需要检索的与查询项映射的哈希桶近似的哈希桶,根据其相似程度赋予权重值,然后桶内的数据则根据这个权重值对自身进行赋值,最后综合多张哈希表的赋值结果对数据进行筛选获取候选数据集。
相似性权重机制的实施是基于这样一个事实,即与查询项越相似的数据映射到高相似性的哈希桶的概率越高,则其获得的相似性权重相对也就越高;而与查询项越不相似的数据映射到高相似哈希桶的概率越低,即使偶尔出现在高相似性的哈希桶中,其最终获得的相似性权重也会较低。
如图1所示,本发明设计的一种应用于无线传感网络的分布式相似性查询方法在实际应用过程当中,无线传感网络中的各个数据项均为高纬数据向量,针对无线传感网络中各个数据项,采用基于P稳态局部敏感哈希映射方法进行L组K维局部敏感哈希映射,构建各个数据项分别所映射的L组K维局部敏感哈希指纹值,即一个数据项对应L组局部敏感哈希指纹值集合,各组局部敏感哈希指纹值集合分别包括K维局部敏感哈希指纹值,L和K为预设整数值;这里具体包括如下步骤:
步骤a01.针对无线传感网络中的数据项,随机获得其进行L组K维局部敏感哈希映射时,所对应各组各维的Al,k、Bl,k,且无线传感网络中各个数据项之间所对应各组各维的Al,k和Bl,k彼此对应相同,并进入步骤a02;其中,Al,k为数据项对应第l组第k维局部敏感哈希映射时,与该数据项维数相同,且每一维服从P稳态分布的随机高维向量;Bl,k为数据项对应第l组第k维局部敏感哈希映射时,属于[0,W]之间的随机数。
步骤a02.根据无线传感网络中各个数据项分别所对应各组各维的Al,k、Bl,k,按如下公式:
h A l , k ′ , B l , k ′ ( V ) = [ A l , k · V + B l , k W ]
获得无线传感网络中各个数据项分别所对应各组各维局部敏感哈希指纹值即一个数据项对应L组局部敏感哈希指纹值集合,各组局部敏感哈希指纹值集合分别包括K维局部敏感哈希指纹值;其中,V表示无线传感网络中的数据项。
接下来,基于上述针对无线传感网络中各个数据项,所设计的L组K维局部敏感哈希指纹值,所述分布式相似性查询方法包括如下步骤:
步骤001.针对查询数据项V查询,按如下公式:
获得其进行L组K维局部敏感哈希映射时,各组各维按预设切割宽度W进行分割取整前的映射值进入步骤002;其中,l=1、…、L,k=1、…、K,Al,k和Bl,k为无线传感网络中各数据项进行L组K维局部敏感哈希映射时,各组各维所对应的随即参数,且无线传感网络中各个数据项之间所对应各组各维的Al,k和Bl,k彼此对应相同,Al,k为查询数据项V查询对应第l组第k维局部敏感哈希映射时,与查询数据项V查询维数相同,且每一维服从P稳态分布的随机高维向量;Bl,k为查询数据项V查询对应第l组第k维局部敏感哈希映射时,属于[0,W]之间的随机数。
步骤002.根据查询数据项V查询进行L组K维局部敏感哈希映射时,各组各维按预设切割宽度W进行分割取整前的映射值按如下公式:
获得查询数据项V查询进行L组K维局部敏感哈希映射后,各组局部敏感哈希指纹值集合中各维局部敏感哈希指纹值进入步骤003。
步骤003.将无线传感网络中的所有数据项作为待对比数据项,分别针对各个待对比数据项,将待对比数据项各组局部敏感哈希指纹值集合中各维局部敏感哈希指纹值,分别与查询数据项V查询对应各组局部敏感哈希指纹值集合中对应维局部敏感哈希指纹值进行相减,获得对应差值进入步骤004;其中,l待对比=l查询,l待对比=1、…、L,l查询=1、…、L,表示待对比数据项第l待对比组局部敏感哈希指纹值集合中第k维局部敏感哈希指纹值,与查询数据项V查询第l查询组局部敏感哈希指纹值集合中第k维局部敏感哈希指纹值的相减结果。
步骤004.针对所有差值判断是否存在绝对值大于1的是则定义该所对应待对比数据项第l待对比组局部敏感哈希指纹值集合与查询数据项V查询第l查询组局部敏感哈希指纹值集合之间的组相似性权重并进入步骤005;否则进入步骤006。
步骤005.针对所有待对比数据项的局部敏感哈希指纹值集合中剩余局部敏感哈希指纹值集合,判断是否存在所对应所有差值的绝对值均不大于1的局部敏感哈希指纹值集合,是则进入步骤006;否则进入步骤008。
步骤006.分别针对所对应所有差值的绝对值均不大于1的各组局部敏感哈希指纹值集合,根据其对应的获得所对应的各个待对比数据项第l待对比组局部敏感哈希指纹值集合,按如下公式:
获得所对应待对比数据项第l待对比组局部敏感哈希指纹值集合中第k维局部敏感哈希指纹值,与查询数据项V查询第l查询组局部敏感哈希指纹值集合中第k维局部敏感哈希指纹值的单位相似性权重然后进入步骤007。
步骤007.针对所对应所有差值的绝对值均不大于1的各组局部敏感哈希指纹值集合,根据如下公式:
获得其对应所对应待对比数据项第l待对比组局部敏感哈希指纹值集合与查询数据项V查询第l查询组局部敏感哈希指纹值集合的组相似性权重并进入步骤008;其中,λ为预设常数。
步骤008.分别针对无线传感网络中各个待对比数据项,将待对比数据项所有L组局部敏感哈希指纹值集合,分别相对于查询数据项V查询对应各组局部敏感哈希指纹值集合的组相似性权重相加,获得该待对比数据项相对于查询数据项V查询的相似性权重,并进入步骤009。
步骤009.针对无线传感网络中各个待对比数据项相对于查询数据项V查询的相似性权重,筛选获得大于预设相似性权重阈值的相似性权重所对应的待对比数据项,作为候选数据项,并进入步骤010。
步骤010.根据查询数据项V查询进行局部敏感哈希映射前的数据,以及各个候选数据项进行局部敏感哈希映射前的数据,分别计算各个候选数据项和查询数据项V查询之间的欧式距离,然后筛选获得大于预设欧式距离阈值的欧式距离所对应的候选数据项,即查询数据项V查询的相似性查询结果。
上述在实际应用过程当中所设计应用于无线传感网络的分布式相似性查询方法,针对无线传感网络中传感节点之间相互传输的高纬数据,设计采用低维的局部敏感哈希指纹,有效降低了传感节点的传输能耗,增加了网络生命周期;而且本发明整个设计的分布式相似性查询方法,有效克服了传统数据查询过程中,向量计算量随维度增加呈现指数倍增的问题,解决了原始局部敏感哈希表数量需求过大的问题,提高了空间利用率;且相似性权重机制的引入,有效地剔除了非相似性数据,使验证过程中需要验证的数据量变少,大大提高了算法的效率,并有效地提高了相似性查询的效率。
上面结合说明书附图针对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (5)

1.一种应用于无线传感网络的分布式相似性查询方法,其特征在于:针对无线传感网络中各个数据项进行L组K维局部敏感哈希映射,构建各个数据项分别所映射的L组K维局部敏感哈希指纹值,即一个数据项对应L组局部敏感哈希指纹值集合,各组局部敏感哈希指纹值集合分别包括K维局部敏感哈希指纹值,L和K为预设整数值;所述分布式相似性查询方法包括如下步骤:
步骤001.针对查询数据项V查询,获得其进行L组K维局部敏感哈希映射时,各组各维按预设切割宽度W进行分割取整前的映射值进入步骤002;其中,l=1、…、L,k=1、…、K,Al,k和Bl,k为无线传感网络中各数据项进行L组K维局部敏感哈希映射时,各组各维所对应的随机参数,且无线传感网络中各个数据项之间所对应各组各维的Al,k和Bl,k彼此对应相同,Al,k为查询数据项V查询对应第l组第k维局部敏感哈希映射时,与查询数据项V查询维数相同,且每一维服从P稳态分布的随机高维向量;Bl,k为查询数据项V查询对应第l组第k维局部敏感哈希映射时,属于[0,W]之间的随机数;
步骤002.根据查询数据项V查询进行L组K维局部敏感哈希映射时,各组各维按预设切割宽度W进行分割取整前的映射值获得查询数据项V查询进行L组K维局部敏感哈希映射后,各组局部敏感哈希指纹值集合中各维局部敏感哈希指纹值进入步骤003;
步骤003.将无线传感网络中的所有数据项作为待对比数据项,分别针对各个待对比数据项,将待对比数据项各组局部敏感哈希指纹值集合中各维局部敏感哈希指纹值,分别与查询数据项V查询对应各组局部敏感哈希指纹值集合中对应维局部敏感哈希指纹值进行相减,获得对应差值进入步骤004;其中,l待对比=l查询,l待对比=1、…、L,l查询=1、…、L,表示待对比数据项第l待对比组局部敏感哈希指纹值集合中第k维局部敏感哈希指纹值,与查询数据项V查询第l查询组局部敏感哈希指纹值集合中第k维局部敏感哈希指纹值的相减结果;
步骤004.针对所有差值判断是否存在绝对值大于1的是则定义该所对应待对比数据项第l待对比组局部敏感哈希指纹值集合与查询数据项V查询第l查询组局部敏感哈希指纹值集合之间的组相似性权重并进入步骤005;否则进入步骤006;
步骤005.针对所有待对比数据项的局部敏感哈希指纹值集合中剩余局部敏感哈希指纹值集合,判断是否存在所对应所有差值的绝对值均不大于1的局部敏感哈希指纹值集合,是则进入步骤006;否则进入步骤008;
步骤006.分别针对所对应所有差值的绝对值均不大于1的各组局部敏感哈希指纹值集合,根据其对应的获得所对应的各个待对比数据项第l待对比组局部敏感哈希指纹值集合,按如下公式:
获得所对应待对比数据项第l待对比组局部敏感哈希指纹值集合中第k维局部敏感哈希指纹值,与查询数据项V查询第l查询组局部敏感哈希指纹值集合中第k维局部敏感哈希指纹值的单位相似性权重然后进入步骤007;
步骤007.针对所对应所有差值的绝对值均不大于1的各组局部敏感哈希指纹值集合,根据如下公式:
获得其对应所对应待对比数据项第l待对比组局部敏感哈希指纹值集合与查询数据项V查询第l查询组局部敏感哈希指纹值集合的组相似性权重并进入步骤008;其中,λ为预设常数;
步骤008.分别针对无线传感网络中各个待对比数据项,将待对比数据项所有L组局部敏感哈希指纹值集合,分别相对于查询数据项V查询对应各组局部敏感哈希指纹值集合的组相似性权重相加,获得该待对比数据项相对于查询数据项V查询的相似性权重,并进入步骤009;
步骤009.针对无线传感网络中各个待对比数据项相对于查询数据项V查询的相似性权重,筛选获得大于预设相似性权重阈值的相似性权重所对应的待对比数据项,作为候选数据项,并进入步骤010;
步骤010.根据查询数据项V查询进行局部敏感哈希映射前的数据,以及各个候选数据项进行局部敏感哈希映射前的数据,分别计算各个候选数据项和查询数据项V查询之间的欧式距离,然后筛选获得大于预设欧式距离阈值的欧式距离所对应的候选数据项,即查询数据项V查询的相似性查询结果。
2.根据权利要求1所述一种应用于无线传感网络的分布式相似性查询方法,其特征在于:所述针对无线传感网络中各个数据项采用基于P稳态局部敏感哈希映射方法,进行L组K维局部敏感哈希映射,构建各个数据项分别所映射的L组K维局部敏感哈希指纹值。
3.根据权利要求2所述一种应用于无线传感网络的分布式相似性查询方法,其特征在于,所述针对无线传感网络中各个数据项进行L组K维局部敏感哈希映射,构建各个数据项分别所映射的L组K维局部敏感哈希指纹值,包括如下步骤:
步骤a01.针对无线传感网络中的数据项,随机获得其进行L组K维局部敏感哈希映射时,所对应各组各维的Al,k、Bl,k,且无线传感网络中各个数据项之间所对应各组各维的Al,k和Bl,k彼此对应相同,并进入步骤a02;其中,Al,k为数据项对应第l组第k维局部敏感哈希映射时,与该数据项维数相同,且每一维服从P稳态分布的随机高维向量;Bl,k为数据项对应第l组第k维局部敏感哈希映射时,属于[0,W]之间的随机数;
步骤a02.根据无线传感网络中各个数据项分别所对应各组各维的Al,k、Bl,k,按如下公式:
h A l , k ′ , B l , k ′ ( V ) = [ A l , k · V + B l , k W ]
获得无线传感网络中各个数据项分别所对应各组各维局部敏感哈希指纹值即一个数据项对应L组局部敏感哈希指纹值集合,各组局部敏感哈希指纹值集合分别包括K维局部敏感哈希指纹值;其中,V表示无线传感网络中的数据项。
4.根据权利要求1所述一种应用于无线传感网络的分布式相似性查询方法,其特征在于:所述步骤001中,针对查询数据项V查询,按如下公式:
获得其进行L组K维局部敏感哈希映射时,各组各维按预设切割宽度W进行分割取整前的映射值
5.根据权利要求1所述一种应用于无线传感网络的分布式相似性查询方法,其特征在于:所述步骤002中,根据查询数据项V查询进行L组K维局部敏感哈希映射时,各组各维按预设切割宽度W进行分割取整前的映射值按如下公式:
获得查询数据项V查询进行L组K维局部敏感哈希映射后,各组局部敏感哈希指纹值集合中各维的局部敏感哈希指纹值
CN201510927383.1A 2015-12-14 2015-12-14 一种应用于无线传感网络的分布式相似性查询方法 Active CN105578575B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510927383.1A CN105578575B (zh) 2015-12-14 2015-12-14 一种应用于无线传感网络的分布式相似性查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510927383.1A CN105578575B (zh) 2015-12-14 2015-12-14 一种应用于无线传感网络的分布式相似性查询方法

Publications (2)

Publication Number Publication Date
CN105578575A true CN105578575A (zh) 2016-05-11
CN105578575B CN105578575B (zh) 2019-02-26

Family

ID=55888106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510927383.1A Active CN105578575B (zh) 2015-12-14 2015-12-14 一种应用于无线传感网络的分布式相似性查询方法

Country Status (1)

Country Link
CN (1) CN105578575B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846067A (zh) * 2018-06-05 2018-11-20 洛阳师范学院 基于映射空间划分的高维数据相似性连接查询方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103002472A (zh) * 2012-10-26 2013-03-27 无锡清华信息科学与技术国家实验室物联网技术中心 一种非均质传感器网络中的事件边界检测的方法、装置及智能通讯设备
AU2013101211A4 (en) * 2013-09-11 2013-10-10 Huang, Xu PROF A novel two-stage multi-criteria evaluation for internal attack in WSN
CN105142239A (zh) * 2015-07-21 2015-12-09 西北大学 基于数据价值动态估计的无线传感网移动sink数据收集方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103002472A (zh) * 2012-10-26 2013-03-27 无锡清华信息科学与技术国家实验室物联网技术中心 一种非均质传感器网络中的事件边界检测的方法、装置及智能通讯设备
AU2013101211A4 (en) * 2013-09-11 2013-10-10 Huang, Xu PROF A novel two-stage multi-criteria evaluation for internal attack in WSN
CN105142239A (zh) * 2015-07-21 2015-12-09 西北大学 基于数据价值动态估计的无线传感网移动sink数据收集方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PRAKASHGOUD PATIL,ET AL.: "SVM based data redundancy elimination for data aggregation in Wireless Sensor Networks", 《IEEE XPLORE DIGITAL LIBRARY》 *
刘根平: "集中式环境下的局部敏感哈希算法综述*", 《设计与实现》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846067A (zh) * 2018-06-05 2018-11-20 洛阳师范学院 基于映射空间划分的高维数据相似性连接查询方法及装置

Also Published As

Publication number Publication date
CN105578575B (zh) 2019-02-26

Similar Documents

Publication Publication Date Title
Yang et al. T3s: Effective representation learning for trajectory similarity computation
WO2021091489A1 (en) Method and apparatus for storing time series data, and server and storage medium thereof
CN107885760A (zh) 一种基于多种语义的知识图谱表示学习方法
CN106131154B (zh) 移动无线传感器网络中基于核函数的压缩数据收集方法
CN101183368A (zh) 联机分析处理中分布式计算及查询海量数据的方法和系统
CN106777093A (zh) 基于空间时序数据流应用的Skyline查询系统
CN108460123B (zh) 高维数据检索方法、计算机设备和存储介质
CN102169491B (zh) 一种多数据集中重复记录动态检测方法
CN107766406A (zh) 一种采用时间优先搜索的轨迹相似性连接查询方法
CN104102699B (zh) 一种聚簇图集合中的子图检索方法
Dellis et al. Constrained subspace skyline computation
CN102821122A (zh) 节点分布的方法与装置以及计算机程序产品
Bing et al. Pre-Trained semantic embeddings for POI categories based on multiple contexts
CN106020724A (zh) 一种基于数据映射算法的近邻存储方法
CN104809210B (zh) 一种基于分布式计算框架下海量数据加权top‑k查询方法
Bai et al. Probabilistic reverse skyline query processing over uncertain data stream
CN105578575A (zh) 一种应用于无线传感网络的分布式相似性查询方法
CN103279580A (zh) 基于新型语义空间的视频检索方法
CN107818147A (zh) 基于Voronoi图的分布式时空索引系统
CN107169114A (zh) 一种海量数据多维排序搜索方法
Gummadi et al. Energy-efficient data organization and query processing in sensor networks
CN105975634B (zh) 分布式数据存储系统中多维有序数据的存储方法
CN115205699A (zh) 一种基于cfsfdp改进算法的地图图斑聚类融合处理方法
Chen et al. Nearest close friend query in road-social networks
CN108874858A (zh) 一种云环境下构建与查询数据立方体的系统及其方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant