CN102867058B - 一种无线数据广播环境下的空间关键字检索方法 - Google Patents

一种无线数据广播环境下的空间关键字检索方法 Download PDF

Info

Publication number
CN102867058B
CN102867058B CN201210346215.XA CN201210346215A CN102867058B CN 102867058 B CN102867058 B CN 102867058B CN 201210346215 A CN201210346215 A CN 201210346215A CN 102867058 B CN102867058 B CN 102867058B
Authority
CN
China
Prior art keywords
grid
index
document
loc
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210346215.XA
Other languages
English (en)
Other versions
CN102867058A (zh
Inventor
孙未未
陈楚南
陈翀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201210346215.XA priority Critical patent/CN102867058B/zh
Publication of CN102867058A publication Critical patent/CN102867058A/zh
Application granted granted Critical
Publication of CN102867058B publication Critical patent/CN102867058B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明属于无线数据广播技术领域,具体为一种在无线数据广播环境下的空间关键字检索的方法。本发明首先对服务器端的文档进行预处理,生成网格索引以及每个网格的倒排表索引;然后将索引和文档集合周期性地广播;移动终端提出空间关键字查询请求,并进入广播信道,下载索引,通过索引得到落在感兴趣区域并包含感兴趣关键字的文档的到达时间;接着用户根据文档的到达时间,进入信道下载文档;最后用户在本地端进行计算确认最终结果。本发明方法所设计的索引非常小,可以在一个周期内分布多次索引,以降低访问延迟;并且,通过索引用户可以剪枝落在区域外或者不包含感兴趣关键字的文档,从而使用户保持监听状态的时间大大减小,降低能量消耗。

Description

一种无线数据广播环境下的空间关键字检索方法
技术领域
本发明属于无线数据广播技术领域,具体涉及一种在无线数据广播环境下的空间关键字检索的方法。
背景技术
随着信息系统中,特别是互联网上的文本文献数量的急剧增长,关键字查询技术已经成为了当今计算机研究的热点之一,并在各个领域得到广泛应用。另一方面,随着无线通讯技术的发展以及移动设备的大规模应用,空间数据库在现实中得到了很好的应用,成为了当今的研究热点之一,其发展前景被广泛看好。这两者的结合,使互联网上文本信息和位置信息结合的文档(如企业黄页)越来越普遍,从而使空间关键字检索技术成为新的研究热点。
在空间关键字检索领域,区域限制的关键字查询是一种很常见的查询。其定义为:给定N个文档D={d 1,d 2,…,d N },每个文档都包含位置信息loc i 以及文本信息text i ,对于用户提交的查询RCKQ(loc q ,text q ,radius),其中,loc q 表示查询点的位置,text q 表示用户提交的关键字集合,返回距离查询点不超过radius,且包含的所有关键字text q 文档集合。
无线数据广播是移动数据管理的一个重要研究分支,通过向空中广播数据,可以支持大量移动计算设备并发访问服务器上的数据,发送代价与接收者个数基本无关;利用无线信道的天然广播特性,提高了系统的可伸缩性。数据库和移动计算这两个领域最重要的会议和期刊均发表了多篇研究无线数据广播的论文。同时,无线数据广播技术有着很好的应用前景,在消费电子、公共信息的发布、军事等很多领域已有实际的应用。而无线局域网的高速推广和3G网络的部署,将为无线数据应用提供更好的基础网络平台。
无线数据广播是目前无线移动网络中广泛采用的数据传递方法,广播服务器通过公共的信道发送信息,用户在广播信道上侦听并及时将自己感兴趣的数据下载到本地。从用户角度,无线信道可看成是存储数据的载体,和可随机访问的内存和硬盘不同,无线信道中的数据只能顺序访问。
如何快速访问和节省能源是无线数据广播中研究的两个主要问题,相应的,有两个评价广播性能的主要参数:访问时间(AccessTime)和调谐时间(TuningTime):
(1)访问时间(AT):从用户提出请求到请求得到满足之间经过的时间;
(2)调谐时间(TT):用户在提出请求到请求得到满足之间需要保持侦听状态的时间。在广播信道中插入索引时减少调谐时间的主要方法,如何设计高效率的索引也得到了很多研究者的关注。
将关键字检索技术与无线数据广播结合是近年来比较热门的研究领域。已出现的技术有基于倒排表索引和哈希索引的无线数据广播环境下的全文检索技术。已有的技术只考虑了文本信息,而没有考虑位置信息,因此已有的技术并不能有效支持空间关键字检索,存在一定的局限。
发明内容
本发明针对背景技术中所述的现有方法仅考虑文档的文本信息,而没有考虑位置信息的缺陷,提出了一种无线数据广播环境下有效支持空间关键字检索的方法,该方法结合网格索引和倒排表索引,进一步提高了无线数据广播系统的性能。
本发明提出的无线数据广播下的空间关键字检索的方法,其总体思路是:首先对服务器端的文档进行预处理,生成网格索引以及每个网格的倒排表索引。然后将索引和文档集合周期性地广播。移动终端提出空间关键字查询请求,并进入广播信道,下载索引,通过索引得到落在感兴趣区域并包含感兴趣关键字的文档的到达时间。接着用户根据文档的到达时间,进入信道下载文档。最后,用户在本地端进行计算确认最终结果。
本发明具体步骤如下:
(1)对服务器端的文档进行预处理:
对于服务器端的N个文档D={d 1,d 2,…,d N },每个文档d i 都包含位置信息loc i 以及文本信息text i ,其中,位置信息loc i =(x,y),表示文档所在位置的经纬度,文本信息text i 由若干个关键字(单词)组成;依次读取每个文档d i 的位置信息和文本信息,建立一种基于网格索引与倒排表结合的索引I;索引I分为两层:第一层为网格索引,第二层为倒排表;
(2)以步骤(1)建立的索引I,通过无线信道,将索引I和文档集合周期性地广播;
(3)移动终端提出空间关键字查询请求Q(loc q ,text q ,radius):
loc q 表示查询点的位置,text q 表示用户提交的关键字集合,要求返回距离查询点不超过radius,且包含的所有关键字text q 文档集合,即Q(loc q ,text q ,radius)=,其中dist(loc q ,loc i )表示loc q loc i 之间的直线距离;
(4)移动终端访问协议:
(a)移动终端下载索引的第一层,即网格划分索引;通过网格索引,用户首先计算与查询区域有交叉的网格;
(b)基于阶段(a)的结果,客户端将所有交叉的网格按下一次广播时间排序,然后等待第一个交叉的网格被广播,在等待过程中保持休眠状态;当第一个交叉的网格被广播时,用户进入信道,获取该网格的倒排表,通过倒排表,获得该网格内包含查询关键字的文档(以下称这些文档为候选文档)的下一次广播时间,进而获取该网格内的所有获选文档(在等待候选文档时同样保持休眠状态);接着,重复以上过程,直至获取所有交叉的网格的候选文档;
(c)在获取所有候选文档之后,客户端在本地进行确认,即对于每个候选文档,计算该文档到查询点的距离,进而获取最终精确结果。
本发明中,步骤(1)中所述服务器端对文档的预处理的步骤如下:
(a)遍历所有文档,得出所有文档的位置信息,并得到所有文档位置所覆盖的总区域R;然后用一个最小矩形MBR将区域R包含起来;
(b)将矩形MBR等分成g×g个网格,根据每个文档d i 的位置信息loc i ,计算d i 所属的网格,从而建立网格索引GI,记录每个网格G i,j 所包含的文档,G i,j 表示第i行第j列网格;
(c)对于每个网格G i,j ,遍历该网格包含的文档,根据每个文档的文本信息text i ,建立该网格的倒排表索引IF i,j ,倒排表由两部分组成:词汇表(即所有关键字集合),和包含每个单词的文档列表。
本发明中,步骤(2)中所述索引和文档集合周期性地广播的步骤如下:
(a)按照前述求出的网格索引GI,首先在一个周期开始处广播GI。具体地,网格索引GI包括三部分:
求出的MBR的左下角和右上角的经纬度:(min_x,min_y)、(max_x,max_y);
经过上述等分划分之后,网格的长度l和宽度w
各个网格的倒排表索引IF i,j 的下一次广播时间;
(b)接着,每个网格包含的文档在一个周期内逐个广播,即单个网格内的所有文档将出现在一个周期内的连续位置;在网格G i,j 的文档被广播之前,都附有网格的倒排表索引IF i,j ;其中,IF i,j 记录了网格G i,j 内的词汇表,以及包含每个关键字的所有文档的下一次广播时间。
本发明所描述的无线数据广播环境下的空间关键字检索方法有以下优点:
(1)本发明方法所设计的索引非常小,因此可以在一个周期内分布多次索引,以降低访问延迟;
(2)通过索引,用户可以剪枝落在区域外或者不包含感兴趣关键字的文档,从而使用户保持监听状态的时间大大减小,降低能量消耗。
附图说明
图1显示了服务器端的各个文档包含的关键字。
图2显示了服务器端的各个文档包含的位置。
图3显示了一种2×2的网格划分。
图4显示了网格G 2,2的倒排表索引IF 2,2
图5显示了一个广播周期的索引和文档。
图6为不同网格划分对系统性能的影响图示。其中,a和b分别为不同网格划分对模拟数据SYN的AT指标和TT指标的影响,c和d分别为不同网格划分对真实数据London的AT指标和TT指标的影响。
图7为查询区域大小对系统性能的影响图示。其中,a和b分别为查询区域大小对模拟数据SYN的AT指标和TT指标的影响,c和d分别为查询区域大小对真实数据London的AT指标和TT指标的影响。
图8为查询关键字个数对系统性能的影响图示。其中,a和b分别为查询关键字个数对模拟数据SYN的AT指标和TT指标的影响,c和d分别为查询关键字个数对真实数据London的AT指标和TT指标的影响。
具体实施方式
下面结合实施例子来详细介绍本发明所述方法的具体执行过程:
(1)对服务器端的文档进行预处理:
a)根据图1和图2所示的文档包含的关键字和位置信息,将文档所在位置覆盖的区域等分成2×2个网格,网格划分如图3所示,本例子中,网格为边长为w的正方形;
b)对每个网格,遍历该网格所包含的文档,根据文档所包含的关键字,建立该网格的倒排表索引。图4所示为网格G 2,2的倒排表索引IF 2,2
(2)将索引和文档周期性地广播:
a)首先,在每个周期开始处广播网格索引,如图5所示,周期开始处广播的是网格索引,该索引包含了覆盖区域的左下角和右上角的经纬度,网格的宽度w,以及4个网格各自的倒排表索引下一次广播时间p i,j
b)接着按G 1,1-G 2,1-G 2,2-G 1,2的顺序广播每个网格的倒排表索引以及网格所包含的文档。对于每个网格,倒排表索引首先被广播,接着是该网格包含的文档;
(3)用户提出空间关键字查询请求,如图2所示,用户位于q点,感兴趣范围为半径为radius的圆形区域,用户感兴趣的关键字集合text q ={weather,transportation};
(4)假设该用户在某周期的开始位置进入信道,获取了该周期的网格索引。通过网格划分信息,用户计算得与查询区域交叉的候选网格为G 2,2G 1,2。通过p 2,2p 1,2,用户获得G 2,2G 1,2的下一次广播时间。因此在G 2,2到来之前保持休眠状态,然后读取IF 2,2。通过IF 2,2,如图4所示,用户获得包含关键字集合{weather,transportation}的文档d 4的下一次广播时间,进而读取d 4的数据。同样,用户读取了d 5的数据。最后,计算出d 4d 5都落在感兴趣区域内,因此作为结果返回。
表1显示了实验采用的数据集,其中SYN为模拟数据,London为真实数据。
数据集 文档数量 词汇表大小 平均每个文档包含关键字个数
SYN 21048 602 20
London 34,162 12,551 3.35。

Claims (3)

1.一种在无线数据广播环境下的空间关键字检索的方法,其特征在于具体步骤如下:
(1)对服务器端的文档进行预处理:
对于服务器端的N个文档D={d 1,d 2,…,d N },每个文档d i 都包含位置信息loc i 以及文本信息text i ,其中,位置信息loc i =(x,y),表示文档所在位置的经纬度,文本信息text i 由若干个关键字组成,其中,关键词为单词;依次读取每个文档d i 的位置信息和文本信息,建立一种基于网格索引与倒排表结合的索引I;索引I分为两层:第一层为网格索引,第二层为倒排表;
(2)以步骤(1)建立的索引I,通过无线信道,将索引I和文档集合周期性地广播;
(3)移动终端提出空间关键字查询请求Q(loc q ,text q ,radius):
loc q 表示查询点的位置,text q 表示用户提交的关键字集合,要求返回距离查询点不超过radius,且包含的所有关键字text q 文档集合,即Q(loc q ,text q ,radius)=,其中dist(loc q ,loc i )表示loc q loc i 之间的直线距离;
(4)移动终端访问协议:
(a)移动终端下载索引的第一层,即网格划分索引;通过网格索引,用户首先计算与查询区域有交叉的网格;
(b)基于阶段(a)的结果,客户端将所有交叉的网格按下一次广播时间排序,然后等待第一个交叉的网格被广播,在等待过程中保持休眠状态;当第一个交叉的网格被广播时,用户进入信道,获取该网格的倒排表,通过倒排表,获得该网格内包含查询关键字的文档的下一次广播时间,其中,这些文档称为候选文档,进而获取该网格内的所有获选文档,其中,在等待候选文档时同样保持休眠状态;接着,重复以上过程,直至获取所有交叉的网格的候选文档;
(c)在获取所有候选文档之后,客户端在本地进行确认,即对于每个候选文档,计算该文档到查询点的距离,进而获取最终精确结果。
2.根据权利要求1所述的方法,其特征在于步骤(1)中所述服务器端对文档的预处理的步骤如下:
(a)遍历所有文档,得出所有文档的位置信息,并得到所有文档位置所覆盖的总区域R;然后用一个最小矩形MBR将区域R包含起来;
(b)将矩形MBR等分成g×g个网格,根据每个文档d i 的位置信息loc i ,计算d i 所属的网格,从而建立网格索引GI,记录每个网格G i,j 所包含的文档,G i,j 表示第i行第j列网格;
(c)对于每个网格G i,j ,遍历该网格包含的文档,根据每个文档的文本信息text i ,建立该网格的倒排表索引IF i,j ,倒排表由两部分组成:词汇表即所有关键字集合,和包含每个单词的文档列表。
3.根据权利要求2所述的方法,其特征在于步骤(2)中所述索引和文档集合周期性地广播的步骤如下:
(a)按照前述求出的网格索引GI,首先在一个周期开始处广播GI
其中,网格索引GI包括三部分:
求出的MBR的左下角和右上角的经纬度:(min_x,min_y)、(max_x,max_y);
经过上述等分划分之后,网格的长度l和宽度w
各个网格的倒排表索引IF i,j 的下一次广播时间;
(b)接着,每个网格包含的文档在一个周期内逐个广播,即单个网格内的所有文档将出现在一个周期内的连续位置;在网格G i,j 的文档被广播之前,都附有网格的倒排表索引IF i,j ;其中,IF i,j 记录了网格G i,j 内的词汇表,以及包含每个关键字的所有文档的下一次广播时间。
CN201210346215.XA 2012-09-18 2012-09-18 一种无线数据广播环境下的空间关键字检索方法 Expired - Fee Related CN102867058B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210346215.XA CN102867058B (zh) 2012-09-18 2012-09-18 一种无线数据广播环境下的空间关键字检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210346215.XA CN102867058B (zh) 2012-09-18 2012-09-18 一种无线数据广播环境下的空间关键字检索方法

Publications (2)

Publication Number Publication Date
CN102867058A CN102867058A (zh) 2013-01-09
CN102867058B true CN102867058B (zh) 2015-12-09

Family

ID=47445927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210346215.XA Expired - Fee Related CN102867058B (zh) 2012-09-18 2012-09-18 一种无线数据广播环境下的空间关键字检索方法

Country Status (1)

Country Link
CN (1) CN102867058B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106276B (zh) * 2013-02-17 2016-03-30 南京师范大学 一种基于小角编码的矢量数据网格索引方法
CN104376112B (zh) * 2014-11-27 2018-09-14 苏州大学 一种路网上空间关键字检索的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1627688A (zh) * 2003-12-10 2005-06-15 联想(北京)有限公司 无线网格下共享文件的搜索方法
CN101416173A (zh) * 2006-03-31 2009-04-22 STTWebOS股份有限公司 在基于万维网的环境下交换信息的方法及装置
EP2432204A2 (en) * 2010-09-17 2012-03-21 IntelePeer, Inc. Anti-looping for a multigateway multi-carrier network
CN102572958A (zh) * 2011-12-20 2012-07-11 中国船舶重工集团公司第七0九研究所 一种适用于无线移动网格的资源组织系统及资源查询方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7707437B2 (en) * 2006-05-03 2010-04-27 Standard Microsystems Corporation Method, system, and apparatus for a plurality of slave devices determining whether to adjust their power state based on broadcasted power state data
US8468244B2 (en) * 2007-01-05 2013-06-18 Digital Doors, Inc. Digital information infrastructure and method for security designated data and with granular data stores

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1627688A (zh) * 2003-12-10 2005-06-15 联想(北京)有限公司 无线网格下共享文件的搜索方法
CN101416173A (zh) * 2006-03-31 2009-04-22 STTWebOS股份有限公司 在基于万维网的环境下交换信息的方法及装置
EP2432204A2 (en) * 2010-09-17 2012-03-21 IntelePeer, Inc. Anti-looping for a multigateway multi-carrier network
CN102572958A (zh) * 2011-12-20 2012-07-11 中国船舶重工集团公司第七0九研究所 一种适用于无线移动网格的资源组织系统及资源查询方法

Also Published As

Publication number Publication date
CN102867058A (zh) 2013-01-09

Similar Documents

Publication Publication Date Title
Zhang et al. Roadcast: a popularity aware content sharing scheme in vanets
US8457653B2 (en) Method and apparatus for pre-fetching location-based data while maintaining user privacy
CN102426610B (zh) 微博搜索排名方法及微博搜索引擎
US20140258281A1 (en) Method And Server For Searching For Nearby User In Social Networking Services
CN104618506A (zh) 一种众包的内容分发网络系统、方法与装置
CN105243128A (zh) 一种基于签到数据的用户行为轨迹聚类方法
US20220101350A1 (en) Information pushing method and apparatus
CN102906747A (zh) 用于可移动存储介质上的便携式索引的方法和装置
CN109151824B (zh) 一种基于5g架构的图书馆数据服务扩展系统及方法
CN102763105A (zh) 用于分段和概括媒体内容的方法和装置
CN104111935A (zh) 一种推送微博的方法及系统、服务器
KR102068788B1 (ko) 사용자 타겟 서비스를 제공하는 서버 및 그 서비스 제공방법
CN103327053A (zh) 在线音乐推送方法和系统
CN105303501A (zh) 一种基于图片推荐的社区信息服务系统和方法
CN105095458A (zh) 一种基于时间特征支持复杂条件的大数据检索方法
Park et al. A hierarchical grid index (HGI), spatial queries in wireless data broadcasting
Lai et al. CASQ: Adaptive and cloud-assisted query processing in vehicular sensor networks
WO2012159372A1 (zh) 用户数量计算方法及系统
CN102867058B (zh) 一种无线数据广播环境下的空间关键字检索方法
CN103309883A (zh) 一种信息推送方法及系统
Song et al. A partial index for distributed broadcasting in wireless mobile networks
CN104102676A (zh) 信息查询方法及系统
CN103839168A (zh) 一种跨终端旅游信息发布方法
Swaroop et al. Mobile distributed real time database systems: A research challenges
CN103699556A (zh) 一种用于地方志编纂和地情资料的数字方志信息系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151209

Termination date: 20180918

CF01 Termination of patent right due to non-payment of annual fee