CN103020319A - 一种实时移动空间关键字近似Top-k查询方法 - Google Patents

一种实时移动空间关键字近似Top-k查询方法 Download PDF

Info

Publication number
CN103020319A
CN103020319A CN2013100110844A CN201310011084A CN103020319A CN 103020319 A CN103020319 A CN 103020319A CN 2013100110844 A CN2013100110844 A CN 2013100110844A CN 201310011084 A CN201310011084 A CN 201310011084A CN 103020319 A CN103020319 A CN 103020319A
Authority
CN
China
Prior art keywords
rule
query
data
server
subdomain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013100110844A
Other languages
English (en)
Inventor
邹志文
寇爱军
陈继明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN2013100110844A priority Critical patent/CN103020319A/zh
Publication of CN103020319A publication Critical patent/CN103020319A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种实时移动空间关键字近似Top-k查询方法,是一种基于集合蕴含方法进行空间对象剪枝的近似Top-k查询方法,首先将空间数据对象按照剪切规则进行处理,将大量与结果不相关的数据对象剪枝,并将剩余的对象作为下一步运算的总体,然后将这一总体区域化,按照抽样方法进行处理,最终按照用户的精度要求获取适合查询的结果。本发明能够在不计算出所有查询结果的情况下,根据用户的需要提前返回用户需要的查询结果,避免了冗余操作,提高了检索的效率和质量,可应用于实时移动空间关键字查询领域。

Description

一种实时移动空间关键字近似Top-k查询方法
一.技术领域
本发明属于数据库技术领域,具体涉及一种实时移动空间关键字近似Top-k查询方法。
二.背景技术
无线通信及移动计算技术的发展激发了越来越多的移动通信业务,移动对象的连续查询是近年来移动对象数据库领域的研究热点。空间关键字查询处理方法将查询对象的位置与关键字集合作为参数,返回相匹配的信息。在很多实际应用中,人们并不需要精确的Top-k查询结果,并且不同的用户具有不同的查询精度要求。因此,研究多精度或任意精度的移动空间Top-k查询处理方法是十分有必要的,已有的方法很难确保未来任意时刻结果的正确性。为此该发明研究当查询位置持续移动时具有任意精度的空间关键字近似Top-k查询问题。
现有的相关研究主要分成两类:
(1)移动查询
移动对象查询是空间数据库领域的重要问题,根据不同的应用需求,产生了很多带限制条件的以及具有复杂语义的查询。目前该领域研究的热点主要是移动k近邻查询和道路网中移动对象的k近邻查询。连续k近邻查询是指从提交查询时刻开始,不断地给出随着查询位置或者移动对象位置信息变化的k近邻查询结果。Hseuh等进一步假设客户端具有一定的计算能力,通过维护位置信息表来减少更新。Mouratidis M等研究了道路网中的移动对象多用户k近邻查询问题,通过利用空间网络的相关属性和移动对象运动受限这一性质,减少连续查询的重复计算。目前典型的道路网中移动对象连续k近邻查询处理方法有IMA/GMA算法和ER2CkNN算法。IMA/GMA算法从查询所在的位置开始,遍历周围的边及其上的移动对象,根据到移动对象的网络距离不断地更新查询结果集。IMA/GMA算法的不足:(1)当数据频繁更新时,绝大多数查询都需要重计算,性能急剧下降;(2)当道路网规模较大,时,其基本的网络扩张算法性能下降。ER2CkNN算法提出了预计算思想,能够快速计算给定两点的最短路径,还采用了欧氏距离限制的思想,即快速找到候选结果集,而后利用欧氏范围查询不断对结果集精炼得到最终结果。其不足之处为:当移动对象数据频繁更新时,性能急剧下降。国防科大的赵亮等针对移动对象的多用户连续K近邻查询处理问题,结合多核多线程技术,提出了一种基于两阶段多用户连续K近邻查询处理框架和移动对象内存网格索引结构的K近邻查询处理算法。该算法的优点是充分结合了多线程和cache优化技术,在性能上有较大提高。该算法的缺陷是:引入了查询缓冲区和移动对象缓冲区机制,增加了空间消耗。现有的研究其算法不够灵活,无法适应现实应用中不同用户具有不同精度要求问题。
(2)近似查询
由于设备误差、隐私保护以及通信限制等,数据的不确定性在空间数据库领域广泛存在。使得很多研究工作致力于近似数据管理技术。在近似查询方面的研究中,主要研究热点为:(1)不同应用环境的近似查询方法研究;(2)带有概率保证的近似查询方法研究及近似度误差界分析。RONALD F等基于TA算法的思想,提出θ-近似Top-k查询处理问题。算法返回满足用户精度要求的近似结果,其中θ为相对误差界。ARAI B等提出了带有概率保证的近似Top-k查询算法。在P2P环境下,SEBASTIAN M等提出了一种带有固定概率保证的近似Top-k查询结果;然而当k值调整时这种方法不够灵活,尤其当k值较大时往往需要重新设置阈值。LIU Y等提出了一种传感器网络中的近似查询算法,它可以为用户递增地精炼事前收集的近似数据,使得误差任意小。现有研究没有提出对无效空间对象进行剪枝的方法,较难适应高速移动空间对象查询问题。
与本发明最接近的现有技术是D.Wu等学者基于安全区域理论,提出了两种动态计算安全区域的方法,确保在动态安全区域内获取到正确结果,并且利用剪切规则降低了客户端和服务器端之间的通信开销。该现有技术没有考虑用户要求多样化的问题,并且其剪切规则基础是空间对象间的权重支配关系,该种方法灵活性差,各个数据对象之间的支配关系要逐一判断,效率较低。
发明内容
本发明的目的在于提供一种实时移动空间关键字近似Top-k查询方法,以解决实时变速移动空间关键字查询面临“查询位置持续变动”及“用户对查询精度要求趋于多样化”的难题。
为了解决以上技术问题,本发明采用以下技术方案。
一种实时移动空间关键字近似Top-k查询方法,其特征在于包括以下步骤:
Step1查询点q发送查询关键字、ε,δ给服务器,服务器执行剪枝方法,获得候选集合CR;
Step2设t-1时刻,将CR中的数据对象随机划分成L个子域,记录每个子域中对象数量mj,根据ε,δ及
Figure BDA00002728072100021
确定样本容量|S|,服务器随机产生|S|-k个1~L之间的自然数,记为Y1,Y2,…,Y|S|-k,对任意Yi(1≤i≤|S|-k),
Figure BDA00002728072100022
其中1≤j≤L,对任意j(1≤j≤L),服务器计算产生的随机数中等于j的个数并记为sj,并根据历史信息计算阈值ζ,即
Figure BDA00002728072100023
其中,ζt-1表示抽样后返回该时刻的查询结果,并向Zj子域发送(mj,sj,ζ),1≤j≤L;
Step3当子域Zj接收到服务器发送的(mj,sj,ζ)时,该子域向服务器发送t-1时刻按降序排列的数据及对应对象ID,每个子域计算
Figure BDA00002728072100031
中大于等于
Figure BDA00002728072100032
的个数,并向服务器传送数据信息;
Step4服务器接收各子域数据后,输出该时刻前k个最大值及其对应的数据对象。若查询q关键字已经修改,转Step1,若收到可用数据继续执行。
以上步骤中所述剪枝方法是基于多核子蕴含方法,也称集合蕴含方法,具体过程如下:
初始化数据集合A+,A-,A0,如果e是一个对象且e不属于集合{v*},初始化阈值τ←∞;(1)当w(e)>w(v*),并满足性质一时,将对象e插入到数据集合A+中;并重新修改阈值 τ ← min { τ , bord max ( C { v * } , e ) } ;
(2)当w(e)<w(v*),若满足性质二、规则一、规则二,将e插入到集合A-
(3)如果w(e)=w(v*),若满足规则三、规则四,将e插入到集合A0
(4)否则,读取e的孩子结点,在孩子结点的每个入口结点e',将e’为根的子树中,取出以集合v*与点e’的最小边界矩形蕴含的点出堆,最后返回候选集合CR。
所述的性质一、性质二、规则一、规则二、规则三和规则四如下:
性质一:设
Figure BDA00002728072100034
若存在未被访问的对象v+∈DS+,则v+不影响整体空间Ω;性质二:设
Figure BDA00002728072100036
若存在未被访问对象v-∈DS-,则v-不影响整体空间Ω;规则一:设存在对象v-∈DS-,若
Figure BDA00002728072100038
且满足则v-可安全剪枝;规则二:若存在对象v-∈DS-
Figure BDA000027280721000310
且满足
Figure BDA000027280721000311
则对象v-可安全剪枝;规则三:存在一个对象v0∈DS0,若且满足
Figure BDA000027280721000313
则v0可安全剪枝;规则四:设存在一个对象v0∈DS0,若且满足
Figure BDA000027280721000315
则v0可安全剪枝。
方法中涉及的符号注释:
(1)h:子域内对象与服务器的核子连通距离;
(2)DS:数据对象集合;
(3)L:数据集合被分成的子域个数;
(4)令G为候选集的标号集合,即G={1,2,…,n}。
(5)t时刻候选集合中的感知数据集合记为Dt,Dt={d(1),
d(2),…,d(n)},其中d(i)表示标号为i的数据对象中的数据,
记为di
(6)q:查询点;
(7)CR:候选集合;
(8)mj:每个子域中的对象数量;
(9)|S|:样本容量;
(10)
Figure BDA00002728072100041
的ε近似频率 Pr D t &epsiv; ( i &gamma; ) = | ID ( i &gamma; , &epsiv; ) | n ,
(11)Zj:第j个子域;
(12)Sj:服务器计算产生的随机数中等于j的个数;
(13)ζ:根据历史信息计算的阈值;
(14)ζt-1:表示抽样后返回该时刻的Top-k结果;
(15)
Figure BDA00002728072100043
表示t-i时刻Zj子域向服务器传送的信息量
(16)
Figure BDA00002728072100044
PD(i1)的估计值。
本发明的剪枝方法中用到的基础理论为多核子蕴含方法,也称集合蕴含方法,下面给出具体相关定义和例子。
定义1核子连通距离:在二维空间u中,存在一个集合DS,设点e属于DS,满足(1)e的权重为w(e);(2)e的坐标为
Figure BDA00002728072100045
空间u中的任意一点z与点e的核子连通距离定义为
Figure BDA00002728072100046
其中
Figure BDA00002728072100047
表示点z与点e之间的距离。
定义2评分函数:设函数trq·ψ(v.ψ)表示查询点q与数据对象v的信息关联度,为了评价查询的匹配程度,设定评分函数:
&gamma; q ( v ) = | q . &lambda;v . &lambda; &RightArrow; | tr q . &psi; ( v . &psi; ) - - - ( 1 )
其中
Figure BDA00002728072100049
表示v与q的距离。γq(v)越小表示v与查询q的相关度越高。
查询点q从集合DS中返回具有k个对象的列表记为RS,其是经最小化评分处理,并按照评分升序排列的表,其满足下面的条件:
&ForAll; v &Element; RS ( &ForAll; v &prime; &Element; DS - RS ( &gamma; q ( v ) &le; &gamma; q ( v &prime; ) ) ) - - - ( 2 )
图1(a)给出了DS={v1,v2,v3,v4}的信息。图1(b)的模型给定查询q,q.ψ=<e,f>,q.k=2,在v1,v2,v3,v4的右边的括号里的数字表示查询关键字q.ψ与该对象描述信息的关联系数,它是采用文本关联函数trq·ψ(v.ψ)动态计算而来的。通过评分函数γq(.)获取的查询结果为<v2,v3>,其中v2,v3的评分值分别为0.478(=0.11/0.23)、0.54(=0.13/0.24)。当q移动到q'位置时,查询结果为<v2,v4>,其中v2,v4的评分值分别为0.478和0.48。
定义3单核蕴含区域Dome,f:在二维空间u中,对于给定的点e,f,若e单核蕴含f,当且仅当满足条件:
Dome,f={e∈u|dw(z,e)≤dw(z,f)}                           (3)
定义4多核子蕴含区域:存在点集合v*∈DS,{v*}的多核子蕴含区域定义为:
&gamma; ( v * ) = &cap; v &prime; DS - { v * } Dom v * , v &prime; - - - ( 4 )
设DS={v*}∪DS0∪DS+∪DS-,其中DS+包含的所有点都高于集合{v*}中的权重,集合DS-表示其包含的所有对象的权重都要低于集合{v*}中的所有对象的权重,集合DS0表示其包含的所有对象的权重等于集合{v*}中对象的权重。通过式(4),将多核子蕴含区域定义为式(5)的形式,即假如{v*}的近邻点v的权重高于它,则将v的多核子蕴含区域加入到{v*}的多核子蕴含区域;若小于w(v*)的权重,则将v的多核子蕴含区域剪切掉,若相等则形成一条直线。
&gamma; ( v * ) = &cap; v &Element; DS - { v * } Dom { v * } , v = &cap; v j &Element; DS + Dom { v * } , v j - &cup; v k &Element; DS - C v k , { v * } &cap; &cap; v i &Element; DS 0 &perp; { v * } , v i - - - ( 5 )
空间中一个点的多核子蕴含区域单元通过该点的权重构建该点的影响区域。图2显示了一个数据集{v1,v2,v3,v4,v*},其中{v*}是查询点q的最优解集合。阴影区域是集合{v*}的多核子蕴含区域单元。在问题模型中,一个数据对象v的权重w(v)由文本的关联度(数据对象的描述信息与查询关键字之间的关联)决定。w(v)仅当服务器接收到查询请求q被接受时计算获取的,因此在本发明设定的研究模型中,w(v)的不能预先计算。
图2的阴影区域表示集合{v*}的多核子蕴含区域γ(v*),表示在区域γ(v*)中的点到集合{v*}的核子连通距离都要小于集合DS中不属于该区域的点的核子连通距离。可以得出DS+={v2,v3},DS-={v1,v4}。如图2所示, C { v * } , v 2 = o 1 o 2 o 7 , C v 1 , { v * } = o 4 o 5 o 8 , C { v * } , v 3 = o 1 o 3 o 6 , C v 4 , { v * } = c , 因此,{v*}的多核子蕴含区域可以表示为: &gamma; ( v * ) = C { v * } , v 3 &cap; C { v * } , v 2 - ( C v 1 , v * &cup; C v 4 , v * ) .
以上步骤中近似取值相关理论证明如下:
定理1设t时刻,D为一个任意数据分布的数据集合,Top(k,Dt)={i1,i2,...,ik}则
Figure BDA00002728072100061
的ε近似频率 Pr D t &epsiv; ( i &gamma; ) = | ID ( i &gamma; , &epsiv; ) | n , Pr S &epsiv; ( i &gamma; ) = | { j | ( ( 1 + &epsiv; ) d j &GreaterEqual; d i &gamma; ) ^ ( j &Element; S ) } | | S | , 那么存在任意一个随机样本S,对于任意ε'>0,满足
Pr { P S &epsiv; ( i &gamma; ) &GreaterEqual; ( 1 + &epsiv; &prime; ) P D t &epsiv; ( i &gamma; ) } &le; ( e &epsiv; &prime; ( 1 + &epsiv; &prime; ) ( 1 + &epsiv; &prime; ) ) | S | Pr D t &epsiv; ( i &gamma; ) - - - ( 6 )
对于任意0<ε'<1,有 Pr { P S &epsiv; ( i &gamma; ) &le; ( 1 - &epsiv; &prime; ) P D t &epsiv; ( i &gamma; ) } &le; ( e - &epsiv; &prime; ( 1 - &epsiv; &prime; ) ( 1 - &epsiv; &prime; ) ) | S | Pr D t &epsiv; ( i &gamma; ) - - - ( 7 )
证明:利用切尔诺夫界证明这个定理。由于候选集集合CR的标号集G={1,2,…,n},使得(1+ε)d(j)≥d(iγ),1≤j≤n。即对任意数据分布的数据对象集合,对其包含的数据信息的抽样满足独立的泊松实验条件。设
Figure BDA00002728072100066
由于随机变量DS(ir)的期望为|S|PD(iγ),由切尔诺夫界推出 Pr { D S ( i &gamma; ) &GreaterEqual; ( 1 + &epsiv; &prime; ) | S | P D ( i &gamma; ) } &le; ( e &epsiv; &prime; ( 1 + &epsiv; &prime; ) 1 + &epsiv; &prime; ) | S | P D &epsiv; ( i &gamma; ) , Pr { D S ( i &gamma; ) | S | &GreaterEqual; ( 1 + &epsiv; &prime; ) | S | P D ( i &gamma; ) | S | } &le; ( e &epsiv; &prime; ( 1 + &epsiv; &prime; ) ( 1 + &epsiv; &prime; ) ) | S | P D &epsiv; ( i &gamma; ) 则知式(6)成立,同理可证式(7)成立。
由定理1得,随着样本数的增加,
Figure BDA00002728072100069
发生偏离其期望ε'倍的概率越小。若且样本数|S|不够充分大,使得
Figure BDA000027280721000611
成立。当1≤γ≤k时,样本S输出的近似Top-k必然不满足 max { d i &rho; d j&rho; | 1 &le; &rho; &le; k } &le; 1 + &epsiv; } , 故相对误差大于
Figure BDA000027280721000613
定理2设 | S | &GreaterEqual; log f ( &epsiv; &prime; ) &delta; P D &epsiv; ( i &gamma; ) 时,若 f ( &epsiv; &prime; ) = e - &epsiv; &prime; ( 1 - &epsiv; &prime; ) ( 1 - &epsiv; &prime; ) , Pr { Pr S &epsiv; ( i &gamma; ) &le; ( 1 - &epsiv; &prime; ) P D &epsiv; ( i &gamma; ) } &le; &delta; 成立,其中0<ε'<1。
证明:由定理1中的式(7)知, Pr { P S &epsiv; ( i &gamma; ) &le; ( 1 - &epsiv; &prime; ) P D &epsiv; ( i &gamma; ) } &le; ( e - &epsiv; &prime; ( 1 - &epsiv; &prime; ) ( 1 - &epsiv; &prime; ) ) | S | Pr D &epsiv; ( i &gamma; ) . 已知 | S | &GreaterEqual; log f ( &epsiv; &prime; ) &delta; P D &epsiv; ( i &gamma; ) ( e - &epsiv; &prime; ( 1 - &epsiv; &prime; ) ( 1 - &epsiv; &prime; ) ) < 1 , Pr { P S &epsiv; ( i &gamma; ) &le; ( 1 - &epsiv; &prime; ) P D &epsiv; ( i &gamma; ) } &le; ( e - &epsiv; &prime; ( 1 - &epsiv; &prime; ) ( 1 - &epsiv; &prime; ) ) log f ( &epsiv; &prime; ) &delta; . 因此, Pr { P S &epsiv; ( i &gamma; ) &le; ( 1 - &epsiv; &prime; ) P D &epsiv; ( i &gamma; ) } &le; &delta; 成立。
推论设存在1≤σ≤k,当随机抽取的样本满足
Figure BDA000027280721000622
时, Pr { P S &epsiv; ( i &sigma; ) &le; ( 1 - &epsiv; &prime; ) P D &epsiv; ( i &sigma; ) } &le; &delta; 成立。
证明:由于
Figure BDA00002728072100072
Figure BDA00002728072100073
的递减函数,当1≤σ≤k且
Figure BDA00002728072100074
时,
Figure BDA00002728072100075
显然成立。即当时,随机样本输出的近似Top-k满足
Figure BDA00002728072100077
的概率大于等于1-δ。因此可以选取适当的ε',在|S|×(1-ε')PD(i1)≥1的条件下,使得
Figure BDA00002728072100078
取到最小值。
本发明具有有益效果。本发明基于多核子蕴含方法的剪枝方法,可用于多个空间对象同时剪枝,并且提出的方法可以根据用户的不同需求,按照用户不同的输入,返回不同精度的查询结果,使得本发明的方法更灵活,适用性更广泛。
附图说明
图1是关键字查询实例,图1(a)是对象关联系数,图1(b)是描述信息和距离
图2是多核子蕴含区域举例。
图3(a)是是剪切规则一。
图3(b)是剪切规则二、三和剪切规则四。
图4是本发明方法步骤流程图。
具体实施例
下面结合附图对本发明的技术方案做进一步详细说明。
输入:A+,A-,A0赋予数据集
输出:候选集合CR
Figure BDA00002728072100081
18.否则
19.读取e的孩子结点;
20.在孩子结点的每个入口结点e',将e’为根的子树中,取出以集合v*与点e’的最小边界矩形蕴含的点出堆;
21.返回候选集合CR.
通过实例说明性质1和性质2的剪切效果。如图2所示,令{v*}为对安全区域有影响的数据对象集合,阴影区域记为Ω,则A+={v2},A-={v1},当前未被访问的对象v3,v4,设v3∈DS+,v4∈DS-,由于存在关系
Figure BDA00002728072100082
由性质1可知,v3不在临时安全区域Ω中;因为存在关系由性质2知,v4也不在Ω中。
本发明通过实例剪切规则1~4的实现方法。如图3(a)所示,A+={v1},A-={v2},然后检验当前未被访问到的对象v3,设v3∈DS-,由于满足关系
Figure BDA00002728072100084
由规则1可知,v3不影响Ω。如图3(b)所示,阴影区域记为Ω,此时A+={v3},A0={v2},当前未被访问到的对象v1,v4,设v1∈DS-,v4∈DS0,由于存在关系
Figure BDA00002728072100085
由规则2得,对象v1不影响Ω。由于存在关系
Figure BDA00002728072100086
由规则3得,v4不影响Ω。同样道理,由于存在关系
Figure BDA00002728072100087
由规则4得,v4不影响Ω。通过上面的内容知A=A+∪A-∪A0,最终得到集合A称为影响Ω的集合。客户端不需要提供安全区域的形状就可以通过使用条件
Figure BDA00002728072100088
判断当前查询点q是否属于该安全区域。
下面对整个流程举例说明:
设定数据集合DS含有3000个数据对象,分别记为v1,v2,……v3000,根据定义2中的评分函数公式
Figure BDA00002728072100091
可以得到查询点q与数据对象的关联系数,并且在服务器上预先构建初始化的基于关联系数的数据对象倒排表。
由于各子域执行过程是一致的,为了便于说明,设定t=2,举例说明标号为1的子域执行流程:
Step1查询点发送数据:e=3,f=4、ε=0.118,δ=0.05,k=2给服务器,服务器端根据输入信息,进行处理,设定查询关键字集合此时的评分为0.46,那么所有关联系数低于0.46的数据对象将被全部剪枝,最终获得候选集合,假设此时数据对象个数为1600;
Step2在t=2时刻,将候选集合的数据对象划分成5个子域,并分别编号为1,2,……5。设定标号为1的子域中对象数量为320,根据ε,δ及编号为1的子域中的对象的感知数据来确定样本容量为203,服务器产生201个1~5之间的自然数,记为Y1,Y2,…,Y201,那么服务器产生随机数j=2的概率为320-203/3000-2,此时设定满足公式
Figure BDA00002728072100092
的对象个数为120,此时根据定义1计算出连通距离,并带入公式
Figure BDA00002728072100093
计算此时刻阈值,然后向标号为1的子域发送参数(320,120,ζ);
Step3当标号为1的子域接收到服务器发送的参数信息时,该子域向服务器发送t=1时刻按降序排列的数据及对应对象ID,并向服务器传送。
Step4服务器接收子域1的数据后,输出该时刻前2个最大值及其对应的数据对象;当查询关键字产生变化,转Step1,若收到可用数据继续执行。
上面的例子说明,该方法不仅可以通过剪枝操作裁剪掉大量权重低的数据对象,与此同时,还能作近似处理。可以看出,由3000个数据对象,产生了候选集合对象数为1600,当ε=0.118,δ=0.05时,样本容量为203,即当抽样的大小仅占全部数据对象的13%时,就能满足算法输出的近似Top-k结果的平均相对误差小于ε/(1+ε)=0.118/(1+0.118)的概率大于0.95.即该方法仅需要少量的样本就可以满足(ε,δ)的误差要求,从而可以节省大量的通信开销。

Claims (3)

1.一种实时移动空间关键字近似Top-k查询方法,其特征在于包括以下步骤:
Step1查询点q发送查询关键字、ε,δ给服务器,服务器执行剪枝方法,获得候选集合CR;
Step2设t-1时刻,将CR中的数据对象随机划分成L个子域,记录每个子域中对象数量mj,根据ε,δ及
Figure FDA00002728072000011
确定样本容量|S|,服务器随机产生|S|-k个1~L之间的自然数,记为Y1,Y2,…,Y|S|-k,对任意Yi(1≤i≤|S|-k),
Figure FDA00002728072000012
其中1≤j≤L,对任意j(1≤j≤L),服务器计算产生的随机数中等于j的个数并记为sj,并根据历史信息计算阈值ζ,即
Figure FDA00002728072000013
其中,ζt-1表示抽样后返回该时刻的查询结果,并向Zj子域发送(mj,sj,ζ),1≤j≤L;
Step3当子域Zj接收到服务器发送的(mj,sj,ζ)时,该子域向服务器发送t-1时刻按降序排列的数据及对应对象ID,每个子域计算
Figure FDA00002728072000014
中大于等于的个数,并向服务器传送数据信息;
Step4服务器接收各子域数据后,输出该时刻前k个最大值及其对应的数据对象。若查询q关键字已经修改,转Step1,若收到可用数据继续执行。
2.如权利要求1所述的一种实时移动空间关键字近似Top-k查询方法,其特征在于所述剪枝方法是基于多核子蕴含方法,具体步骤如下:
初始化数据集合A+,A-,A0,如果e是一个对象且e不属于集合{v*},初始化阈值τ←∞;
(1)当w(e)>w(v*),并满足性质一时,将对象e插入到数据集合A+中;并重新修改阈值 &tau; &LeftArrow; min { &tau; , bord max ( C { v * } , e ) } ;
(2)当w(e)<w(v*),若满足性质二、规则一、规则二,将e插入到集合A-
(3)如果w(e)=w(v*),若满足规则三、规则四,将e插入到集合A0
(4)否则,读取e的孩子结点,在孩子结点的每个入口结点e',将e’为根的子树中,取出以集合v*与点e’的最小边界矩形蕴含的点出堆,最后返回候选集合CR。
3.如权利要求2所述的一种实时移动空间关键字近似Top-k查询方法,其特征在于所述的性质一、性质二、规则一、规则二、规则三和规则四如下:
性质一:设
Figure FDA00002728072000017
Figure FDA00002728072000018
若存在未被访问的对象v+∈DS+,则v+不影响整体空间Ω;
性质二:设
Figure FDA00002728072000021
Figure FDA00002728072000022
若存在未被访问对象v-∈DS-,则v-不影响整体空间Ω;
规则一:设存在对象v-∈DS-,若
Figure FDA00002728072000023
满足则v-可安全剪枝;
规则二:若存在对象v-∈DS-且满足
Figure FDA00002728072000026
则对象v-可安全剪枝;
规则三:存在一个对象v0∈DS0,若
Figure FDA00002728072000027
且满足
Figure FDA00002728072000028
则v0可安全剪枝;
规则四:设存在一个对象v0∈DS0,若且满足
Figure FDA000027280720000210
则v0可安全剪枝。
CN2013100110844A 2013-01-11 2013-01-11 一种实时移动空间关键字近似Top-k查询方法 Pending CN103020319A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013100110844A CN103020319A (zh) 2013-01-11 2013-01-11 一种实时移动空间关键字近似Top-k查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013100110844A CN103020319A (zh) 2013-01-11 2013-01-11 一种实时移动空间关键字近似Top-k查询方法

Publications (1)

Publication Number Publication Date
CN103020319A true CN103020319A (zh) 2013-04-03

Family

ID=47968922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013100110844A Pending CN103020319A (zh) 2013-01-11 2013-01-11 一种实时移动空间关键字近似Top-k查询方法

Country Status (1)

Country Link
CN (1) CN103020319A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559213A (zh) * 2013-10-10 2014-02-05 河南大学 一种公路网高效空间最近邻查询方法
CN104346444A (zh) * 2014-10-23 2015-02-11 浙江大学 一种基于路网反空间关键字查询的最佳选址方法
CN107391636A (zh) * 2017-07-10 2017-11-24 江苏省现代企业信息化应用支撑软件工程技术研发中心 top‑m反近邻空间关键字查询方法
CN108959425A (zh) * 2018-06-11 2018-12-07 哈尔滨工业大学(威海) 一种海量数据Top-k选择查询方法
CN109992590A (zh) * 2019-03-11 2019-07-09 中南民族大学 交通网络中带数字属性的近似空间关键字查询方法及系统
CN117171802B (zh) * 2023-11-03 2024-01-12 中国科学技术信息研究所 一种空间关键字查询强隐私保护方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DINGMING WU: "《efficient continuously moving top-k spatial keyword query processing》", 《PROCEEDINGS OF THE 27TH IEEE INTERNATIONAL CONFERENCE ON DATA ENGINEERING(ICDE)》 *
毕冉: "《无线传感器网络(ε,δ)-近似Top-k查询处理算法》", 《通信学报》 *
沈海澜: "《无限传感器网络数据查询关键技术研究》", 《万方博士论文数据库》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559213A (zh) * 2013-10-10 2014-02-05 河南大学 一种公路网高效空间最近邻查询方法
CN104346444A (zh) * 2014-10-23 2015-02-11 浙江大学 一种基于路网反空间关键字查询的最佳选址方法
CN104346444B (zh) * 2014-10-23 2017-07-07 浙江大学 一种基于路网反空间关键字查询的最佳选址方法
CN107391636A (zh) * 2017-07-10 2017-11-24 江苏省现代企业信息化应用支撑软件工程技术研发中心 top‑m反近邻空间关键字查询方法
CN107391636B (zh) * 2017-07-10 2020-06-09 江苏省现代企业信息化应用支撑软件工程技术研发中心 top-m反近邻空间关键字查询方法
CN108959425A (zh) * 2018-06-11 2018-12-07 哈尔滨工业大学(威海) 一种海量数据Top-k选择查询方法
CN108959425B (zh) * 2018-06-11 2021-08-06 哈尔滨工业大学(威海) 一种海量数据Top-k选择查询方法
CN109992590A (zh) * 2019-03-11 2019-07-09 中南民族大学 交通网络中带数字属性的近似空间关键字查询方法及系统
CN109992590B (zh) * 2019-03-11 2021-06-29 中南民族大学 交通网络中带数字属性的近似空间关键字查询方法及系统
CN117171802B (zh) * 2023-11-03 2024-01-12 中国科学技术信息研究所 一种空间关键字查询强隐私保护方法及系统

Similar Documents

Publication Publication Date Title
CN103020319A (zh) 一种实时移动空间关键字近似Top-k查询方法
CN104899273A (zh) 一种基于话题和相对熵的网页个性化推荐方法
CN104008109A (zh) 基于用户兴趣的Web信息推送服务系统
CN103838756A (zh) 一种确定推送信息的方法及装置
CN102426610A (zh) 微博搜索排名方法及微博搜索引擎
CN107145523A (zh) 基于迭代匹配的大型异构知识库对齐方法
CN102375842A (zh) 面向领域整体的关键词集的评价和提取方法
CN103246732A (zh) 一种在线Web新闻内容的抽取方法及系统
CN102737125B (zh) 基于Web时态对象模型的过时网页信息自动发现方法
CN106649731A (zh) 一种基于大规模属性网络的节点相似性搜索方法
Yang Research on integration method of AI teaching resources based on learning behaviour data analysis
CN103309851B (zh) 短文本的垃圾识别方法及系统
CN104809210A (zh) 一种基于分布式计算框架下海量数据加权top-k查询方法
CN103646035A (zh) 一种基于启发式方法的信息搜索方法
Setayesh et al. Presentation of an Extended Version of the PageRank Algorithm to Rank Web Pages Inspired by Ant Colony Algorithm
CN103440308A (zh) 一种基于形式概念分析的数字论文检索方法
CN104063479B (zh) 一种基于社会网络的品牌网络热度计算方法
CN104281710A (zh) 一种网络数据挖掘方法
CN106934064A (zh) 基于elm的网络信息热点预测系统和方法
US9002818B2 (en) Calculating a content subset
CN104636461A (zh) 一种基于knn的动态事件聚类和提取的方法
CN103049442A (zh) 手机网络检索用语简称-全称转换识别方法及装置
CN104331483A (zh) 基于短文本数据的区域事件检测方法和设备
Xiaofeng et al. Study on a classification model of data stream based on concept drift
Wang et al. Nonlinear dynamic analysis of air traffic flow at different temporal scales: Nonlinear Analysis approach versus complex networks approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130403