CN107590190A - 一种路网中空间文本发布订阅方法及其组合索引 - Google Patents
一种路网中空间文本发布订阅方法及其组合索引 Download PDFInfo
- Publication number
- CN107590190A CN107590190A CN201710685734.1A CN201710685734A CN107590190A CN 107590190 A CN107590190 A CN 107590190A CN 201710685734 A CN201710685734 A CN 201710685734A CN 107590190 A CN107590190 A CN 107590190A
- Authority
- CN
- China
- Prior art keywords
- unit
- message
- road network
- subscription
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种路网中空间文本发布订阅方法及其组合索引,涉及空间文本发布订阅技术领域,包括本发明根据空间邻近度和文本相似度以及订阅用户设置的偏好参数计算出空间文本相似度,若订阅与消息的空间文本相似度大于该订阅用户的空间文本相似度的预设阈值,则将消息传送到该订阅用户,实现综合考虑空间邻近度和文本相似度的空间文本发布/订阅,且适应于路网距离的实际情形。本发明在计算空间文本相似度之前还包括过滤步骤,过滤步骤包括根据设计的削减策略判断出与消息无关的单元和订阅,从而削减与消息无关的单元和订阅,有效降低数据处理开销。
Description
技术领域
本发明涉及空间文本发布订阅技术领域,具体涉及一种路网中空间文本发布订阅方法及其组合索引。
背景技术
随着移动网络的快速发展和GPS智能终端的日益普及,在诸如基于位置的推荐和信息传播等各种应用中已经产生了大量的地理文本数据。人们对处理和分析这些大量数据的需求十分迫切,以获取感兴趣的信息,而不是被大量的数据吞没。发布/订阅系统将用于此目的。目前,基于内容的发布/订阅系统已被广泛部署和运用于许多应用,例如dbworld(https://research.cs.wisc.edu/dbworld/)和谷歌学术(http://scholar.google.com/)。订阅者注册他们的兴趣作为订阅,发布者在发布/订阅系统中发布消息,系统将消息传递给其订阅与该消息具有高相关性的相关订阅者。越来越多订阅者在其订阅中有了位置感知的需求。例如,Groupon客户(订阅者)注册他们感兴趣的位置和关键字(例如“中国北京的全聚德烤鸭折扣”)。对于每个具有文本和位置信息的Groupon消息(例如“全聚德烤鸭以优惠价格出售,在中国北京王府井大街全聚德商店”),Groupon将消息推送给相关客户。
然而,传统的基于内容的发布/订阅系统不能满足该类应用要求,因为传统的基于内容的发布/订阅系统仅考虑消息和订阅之间的文本相似性,而忽略两者之间的位置邻近度。同时,现有的关于空间文本发布/订阅方法仅限于欧氏空间,使用简单易行的欧氏距离,无法处理路网距离的实际情况。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种路网中空间文本发布订阅方法及其组合索引,实现综合考虑空间邻近度和文本相似度的空间文本发布/订阅,且适应于路网距离的实际情形。
为达到以上目的,本发明采取的技术方案是:一种路网中空间文本发布订阅方法,包括以下步骤:
S1,对每个待处理的订阅,计算订阅位置和消息位置的空间邻近度:
SPRO(s,m)=1-dN(s,m)/Dmax,其中,SPRO(s,m)为空间邻近度,dN(s,m)为订阅位置和消息位置之间的路网距离,Dmax为订阅位置和消息位置之间的用户最大容忍路网距离;
S2,对每个待处理的订阅,计算订阅关键字集和消息关键字集的文本相似度:
其中,s.ψ为订阅关键字集,m.ψ为消息关键字集,w(t)是关键字t的权重,TSIM(s,m)是订阅关键字集s.ψ和消息关键字集m.ψ之间的文本相似度;
S3,根据空间邻近度和文本相似度以及订阅用户设置的偏好参数计算出空间文本相似度:
SIM(s,m)=α.SPRO(s,m)+(1-α)TSIM(s,m)
其中,SIM(s,m)为空间文本相似度,α为订阅用户设置的偏好参数,用于平衡空间邻近度和文本相似度之间的相对重要性;
S4,判断订阅与消息的所述空间文本相似度是否大于该订阅用户的空间文本相似度的预设阈值,若是,则消息与订阅相似,将消息传送到该订阅用户。
在上述技术方案的基础上,步骤S1之前还包括过滤步骤S0,所述过滤步骤S0包括根据设计的削减策略判断出与消息无关的单元和订阅,从而削减与消息无关的单元和订阅,获得待处理的订阅的集合。
在上述技术方案的基础上,所述设计的削减策略包括基于空间距离的削减策略,所述基于空间距离的削减策略为:
对于消息m和订阅s,如果s和m之间的最小路网距离大于s的路网距离上限,即则削减订阅s;
对于消息m和单元ci,如果ci和m之间的最小路网距离大于ci的路网距离上限,即则削减单元ci。
在上述技术方案的基础上,所述设计的削减策略包括基于文本的削减策略,所述基于文本的削减策略为:
对于消息m和订阅s,如果两者不共享一个公共的LAP关键字,则削减订阅s;将s.ψ的位置感知前缀定义为LAP(s)=s.ψ[1:p],LAP(s)中的每个关键字称为LAP关键字;其中p由公式算得;
对于消息m和单元ci,如果m在该单元ci的LAP(ci)中没有一个公共的LAP关键字,则削减单元ci,LAP(ci)为该单元中全部订阅s的LAP(s)的并集。
在上述技术方案的基础上,所述设计的削减策略包括基于空间文本的削减策略,所述基于空间文本的削减策略为:
对于消息m和订阅s,设两者的首个匹配关键字为ti,如果则削减订阅s;其中,DN(s,m)为消息m到s的路网距离,为s关于关键字ti的路网距离约束上限;
对于消息m和订阅s,如果在LAP(s)∩m.ψ中存在关键字ti,且则不进行削减,否则,削减订阅s;m.ψ表示消息m的关键字集;
对于消息m和单元ci,设两者的首个匹配关键字为tj,若 则削减单元ci;DN(ci,m)为单元ci到m的路网距离,为单元ci关于关键字tj的路网距离约束上限;
对于消息m和单元ci,若在LAP(ci)∩m.ψ中存在关键字tj,且则不进行削减;否则,削减单元ci。
在上述技术方案的基础上,所述过滤步骤S0包括:
步骤S01,确定包含消息m的单元cm;
步骤S02,获得单元cm和任何其他单元ci之间的路网距离的下限和上限
步骤S03,依次检查每个单元,根据所述设计的基于空间距离的削减策略、基于文本的削减策略和基于空间文本的削减策略,以削减与消息无关的单元;
步骤S04,计算每个未被削减单元ci的每条边ei上所有订阅的最大相似度得分,如果计算值小于ei的minτ(即,ei上所有订阅的τ值最小值),则将边ei标记为跳过;
步骤S05,对于每个关键字tj,若则遍历倒排列表IL(ci|tj)的所有未标记为跳过的边上的订阅s;为ci关于关键字tj的路网距离约束上限;
步骤S06,对于遍历的s,若则作为步骤S1中待处理的订阅。其中,为s关于tj的路网距离约束上限。
本发明还公开了一种所述的路网中空间文本发布订阅方法采用的组合索引:
所述组合索引包括:
空间索引组件,所述空间索引组件用于根据订阅s和消息m的坐标,识别订阅s和消息m所在的单元和路网边;
邻接组件,所述邻接组件用于给出每个路网结点指向其相邻路网结点的指针,用于路网探寻;
单元距离界限组件,所述单元距离界限组件用于计算每对单元之间的有效距离界限;
订阅映射组件,所述订阅映射组件利用B树,用于根据单元id的键值映射到位于单元ci内的订阅的倒排文件列表;还用于给定单元ci内订阅的关键字集中的每个关键字(项)t的最大权重(maxwt)和单元ci内订阅的τ值最小值(minτ);且仅当通过最小距离和最大权重maxwt算得的相似度值大于单元ci的τ值最小值(minτ)时才访问单元ci的倒排列表;
订阅倒排文件组件,所述订阅倒排文件组件根据单元内的所有订阅的关键字集所构建。
在上述技术方案的基础上,所述组合索引的优化策略为:所述订阅映射组件中以每个单元ci的位置感知前缀(LAP(ci))中各关键字tj的替换单元ci的每个关键字tj的最大权重值。
在上述技术方案的基础上,所述组合索引的优化策略为:所述订阅倒排文件组件的条目为单元ci的位置感知前缀(LAP(ci))中的关键字。
与现有技术相比,本发明的优点在于:
本发明根据空间邻近度和文本相似度以及订阅用户设置的偏好参数计算出空间文本相似度,若订阅与消息的空间文本相似度大于该订阅用户的空间文本相似度的预设阈值,则将消息传送到该订阅用户,实现综合考虑空间邻近度和文本相似度的空间文本发布/订阅,且适应于路网距离的实际情形。
本发明在计算空间文本相似度之前还包括过滤步骤,过滤步骤包括根据设计的削减策略判断出与消息无关的单元和订阅,削减与消息无关的单元和订阅,有效降低数据处理开销。
本发明公开的路网中空间文本发布订阅方法采用的组合索引,路网中空间文本发布订阅方法使用组合索引判断并削减与消息无关的单元和订阅。
附图说明
图1为本发明实施例中路网中空间文本发布订阅方法的流程示意图;
图2为本发明实施例中路网中空间文本发布订阅方法的路网中8个订阅和2个消息的示意图;
图3为本发明实施例中路网中空间文本发布订阅方法采用的组合索引的示意图;
图4为本发明实施例中路网中空间文本发布订阅方法采用的组合索引的优化的订阅映射组件的示意图;
图5为本发明实施例中路网中空间文本发布订阅方法采用的组合索引的优化的订阅倒排文件组件的示意图。
具体实施方式
以下结合附图及实施例对本发明作进一步详细说明。
本文使用的符号及其定义参见表1所示。
表1:符号与定义
参见图1所示,本发明实施例提供一种路网中空间文本发布订阅方法,包括以下步骤:
S1,对每个待处理的订阅,计算订阅位置和消息位置的空间邻近度:
SPRO(s,m)=1-dN(s,m)/Dmax,其中,SPRO(s,m)为空间邻近度,dN(s,m)为订阅位置和消息位置之间的路网距离,Dmax为订阅位置和消息位置之间的用户最大容忍路网距离;
S2,对每个待处理的订阅,计算订阅关键字集和消息关键字集的文本相似度:
其中,s.ψ为订阅关键字集,m.ψ为消息关键字集,w(t)是关键字t的权重,TSIM(s,m)是订阅关键字集s.ψ和消息关键字集m.ψ之间的文本相似度;
S3,根据空间邻近度和文本相似度以及订阅用户设置的偏好参数计算出空间文本相似度:
SIM(s,m)=α.SPRO(s,m)+(1-α)TSIM(s,m)
其中,SIM(s,m)为空间文本相似度,α为订阅用户设置的偏好参数,用于平衡空间邻近度和文本相似度之间的相对重要性;
S4,判断订阅与消息的所述空间文本相似度是否大于该订阅用户的空间文本相似度的预设阈值,若是,则消息与订阅相似,将消息传送到该订阅用户。
例如,参见图2所示,8个空间文本订阅(s1,s2,…,s8)和2个消息(m1,m2)位于路网上的边。具体来说,m1=({t1=discount,t2=iphone,t3=ipad},lm1)和m2=({t1=discount,t2=iphone,t3=e-book},lm2),lm1和lm2分别表示m1和m2的位置。参见表1所示,假定t1,t2,t3,t4的权重分别为0.5,0.3,0.3,0.2,并且分别选择s1和s6来描述如何计算消息和订阅之间的空间文本相似度值。其中,表2给出了各订阅与消息间的空间邻近度。
表1关键字权重
keyword | discount | iphone | ipad | e-book |
id | t1 | t2 | t3 | t4 |
weight | 0.5 | 0.3 | 0.3 | 0.2 |
表2路网距离与空间邻近度(设Dmax=10)
s | s1 | s2 | s3 | s4 | s5 | s6 | s7 | s8 |
dN(s,m1) | 4.5 | 2.5 | 3 | 8 | 7 | 7 | 7 | 3 |
SPRO(s,m1) | 0.55 | 0.75 | 0.7 | 0.2 | 0.3 | 0.3 | 0.3 | 0.7 |
dN(s,m2) | 6 | 7.5 | 2 | 3 | 3.5 | 6.5 | 2 | 4 |
SPRO(s,m2) | 0.4 | 0.25 | 0.8 | 0.7 | 0.65 | 0.35 | 0.8 | 0.6 |
首先考虑订阅s1=({t1,t3},l1,0.4,0.7)。
SIM(s1,m1)=0.4*0.55+0.6*(0.5+0.3)/(0.5+0.3)=0.82。
由于SIM(s1,m1)=0.82>s1.τ=0.7,m1与s1相关,并m1将传递给订阅用户s1。
同样,对于s6=({t1,t2},l6,0.5,0.8),可得到:SIM(s6,m1)=0.5*0.3+0.5*(0.5+0.3)/(0.5+0.3)=0.65。
由于SIM(s6,m1)<s6.τ=0.8,m1与s6无关。
通过上述方法,计算m1和m2的结果集,分别是{s1,s2},{s3,s4,s5,s7}。
本发明根据空间邻近度和文本相似度以及订阅用户设置的偏好参数计算出空间文本相似度,若订阅与消息的空间文本相似度大于该订阅用户的空间文本相似度的预设阈值,则将消息传送到该订阅用户,实现综合考虑空间邻近度和文本相似度的文本发布/订阅,且适应于路网距离的实际情形。
步骤S1之前还包括步骤S0,所述步骤S0为:根据设计的削减策略判断出与消息无关的单元和订阅,从而削减与消息无关的单元和订阅,获得待处理的订阅的集合。
(1)所述设计的削减策略包括基于空间距离的削减策略,所述基于空间距离的削减策略为:
对于消息m和订阅s,如果s和m之间的最小路网距离大于s的路网距离上限,即则削减订阅s;
对于消息m和单元ci,如果ci和m之间的最小路网距离大于ci的路网距离上限,即则削减单元ci。
基于空间距离的削减策略的推导过程如下:
基于空间文本相似度函数,给定空间文本订阅s=(s.ψ,s.L,s.α,s.τ),由于文本相似度(TSIM)不能超过1,可以推导出如果m与s相似,则s和任何消息m之间的路网距离界限如下:
SIM(s,m)=α×SPRO(s,m)+(1-α)×TSIM(s,m)
如果s与m相似,SIM(s,m)≥s.τ
即,α×SPRO(s,m)+(1-α)×TSIM(s,m)≥s.τ,注意TSIM(s,m)≤1
得到,α×SPRO(s,m)+(1-α)≥s.τ
由于SPRO(s,m)=1-DN(s,m)/Dmax
因此α×(1-DN(s,m)/Dmax)+(1-α)≥s.τ
因此,可以得出
将定义为:若消息m相似于s,s和任何消息m之间的路网距离上限。请记住,Dmax是订阅和消息之间的最大用户容忍路网距离。如果消息m和订阅s之间的距离大于Dmax,则m不能与s相似。因此,等于Dmax和不等式(1)的右边表达式这二者中的较小者,即如果消息m相似于s,s和m之间的路网距离不能大于否则,s可以被安全地削减。为了支持面向区域的削减,计算并保持网络中每个单元(或单元中各边)的最大值,也即单元(或边)中各订阅的的最大值。给定消息m∈cj和单元ci,可以先计算m和ci之间的最小路网距离,计算公式为:如果计算的值大于单元ci的则ci不能包含与m相似的任何订阅s,因此可以安全地削减。因此,正式化了以下引理。
引理1.对于消息m和订阅s,如果s和m之间的最小路网距离大于s的路网距离上限,即则可以安全地削减s。
引理2.对于消息m和单元ci,如果ci和m之间的最小路网距离大于ci的路网距离上限,即则可以安全地削减ci。
(2)所述设计的削减策略包括基于文本的削减策略,所述基于文本的削减策略为:
对于消息m和订阅s,如果两者不共享一个公共的LAP关键字,则削减订阅s。将s.ψ的位置感知前缀定义为LAP(s)=s.ψ[1:p],LAP(s)中的每个关键字称为位置感知关键字(LAP关键字);其中p由公式算得;
对于消息m和单元ci,如果m与该单元ci的LAP(ci)中没有一个公共的LAP关键字,则削减单元ci,LAP(ci)为该单元中所有订阅s的LAP(s)的并集。
基于文本的削减策略的推导过程如下:
给定空间文本订阅s=(s.ψ,s.L,s.α,s.τ),由于空间邻近度(SPRO)不能超过1,还可以推断文本相似度如下:
如果消息m与s相关,则其文本相似度必须大于TSIMlimit。否则,可以安全地削减s。因此,采用广泛用于文本相似性连接问题的前缀过滤技术。对于系统中的每个订阅,可以根据其TSIMlimit值选择文本前缀。首先,根据关键字的权重的降序对关键字进行排序,从而获得全局的关键字次序。然后,根据公式(2)计算系统中每个订阅的TSIMlimit值。对于每个订阅s=(s.ψ,s.L,s.α,s.τ),计算最小p值,使得:
为了便于介绍,下文中,使用wsum(s)来表示消息s中每个关键字ti的权重之和。
类似地,使用wsum(si)来表示在消息s中从关键字ti到t|s.ψ|的权重之和。
前文已定义了s.ψ的位置感知前缀LAP(s)=s.ψ[1:p],其中p由公式算得。对于情况TSIMlimit≤0,LAP(s)=s.ψ∪{*},其中*表示可以匹配任何关键字的通配符字符串。由于tp后的所有关键字的权重之和小于TSIMlimit×wsum(s),因此,如果订阅s相似于消息m,则它们必须至少共享一个公共的LAP关键字。因此,正式确定了以下引理。
引理3.对于消息m和订阅s,如果他们不共享一个共同的LAP关键字,则可以安全地削减s。
引理4.对于消息m和单元ci,如果m与LAP(ci)(即,各订阅s(s∈ci)的LAP的并集)不共享一个共同的关键字,则可以安全地削减ci。
(3)所述设计的削减策略包括基于空间文本的削减策略,所述基于空间文本的削减策略为:
对于消息m和订阅s,设两者的首个匹配关键字为ti。如果s与m不相似,削减s;DN(s,m)为消息m到s的路网距离,为s关于ti的路网距离约束上限;
对于消息m和订阅s,如果在LAP(s)∩m.ψ中存在关键字ti,使得订阅s可能相似于m;否则,削减订阅s,m.ψ表示消息m的关键字集;
对于消息m和单元ci,设两者的首个匹配关键字为是tj,若削减单元ci;DN(ci,m)为单元ci到s的路网距离,为ci关于关键字tj的路网距离约束上限;
对于消息m和单元ci,若在LAP(ci)∩m.ψ中存在关键字tj,使得则不能削减ci;反之,削减单元ci。
基于空间文本的削减策略的推导过程如下:
对于订阅s和消息m,假设LAP(s)和m.ψ之间的首个公共关键字是ti。基于首公共关键词ti,任何消息到订阅s的文本相似度约束上限(TUB)可以计算如下:
显然,如果LAP(s)和m.ψ之间的首个公共关键字是ti,则有TUB(s|ti)≥TSIM(s,m)。此外,根据根据空间文本相似度SIM(s,m)、空间邻近度SPRO(s,m)的定义、以及订阅s与消息m相似的判定条件,可以进一步估计s和m之间的路网距离约束上限如下:
请注意,Dmax是订阅和消息之间的最大用户容忍路网距离,计算的公式调整如下:
对于任何消息m,如果其到s的路网距离大于s关于ti的路网距离约束上限则订阅s可以被削减,以下正式化为引理5。
引理5.对于消息m和订阅s,假设它们的首个匹配关键字是ti。如果s与m不相似,可以安全地削减s。
对s的位置感知前缀(LAP(s))中的每个关键字ti,计算路网距离约束上限如果订阅s相似于消息m,则在LAP(s)∩m.ψ中必然存在一个关键字ti,以使以下正式化为引理6。
引理6.对于消息m和订阅s,如果在LAP(s)∩m.ψ中存在关键字ti,使得s可能相似于m;否则,可以安全地削减s。
将整个路网空间划分为多个区域(单元),并将倒排文件(IF)中的订阅分成若干个基于单元的子文件。具体来说,对于每个单元ci,创建一个子倒排文件IF(ci),其中包含出现在ci中的IF中的所有订阅。注意,倒排文件(IF)由一组关键字tj的倒排列表IL(tj)组成。类似地,子倒排文件IF(ci)由一组关键字tj的子倒排列表IL(ci,tj)组成,其中,tj是单元ci内各订阅的关键字集的并集所包含的各个关键字。为了支持基于区域的削减,对于每个单元ci,计算并保持每个关键字tj的路网距离约束上限,用表示,它是ci中所有订阅关于tj的路网距离约束上限的最大值,即,
类似于引理5和6,有以下两个引理。
引理7.对于消息m和单元ci,假设它们的首个匹配关键字是tj。如果ci与m不相似,可以安全地削减ci。
引理8.对于消息m和单元ci,如果在LAP(ci)∩m.ψ中存在关键字tj,使得ci可能包含相似于m的消息;否则,可以安全地削减ci。
步骤S1之前还包括过滤步骤S0,所述过滤步骤S0包括根据设计的削减策略判断出与消息无关的单元和订阅,以削减与消息无关的单元和订阅。
所述过滤步骤S0具体过程包括:
步骤S01,确定包含消息m的单元cm;
步骤S02,获得单元cm和任何其他单元ci之间距离的下限和上限
步骤S03,依次检查每个单元,根据所述设计的基于空间距离的削减策略、基于文本的削减策略和基于空间文本的削减策略,以削减与消息无关的单元;
步骤S04,计算每个未被削减单元ci的每条边ei上所有订阅的最大相似度得分,如果计算值小于ei的minτ,则将边ei标记为跳过;
步骤S05,对于每个关键字tj,若则遍历倒排列表IL(ci|tj)的所有未标记为跳过的边上的订阅s;为ci关于关键字tj的路网距离约束上限;
步骤S06,对于遍历的s,若则作为步骤S1中待处理的订阅。其中,为s关于tj的路网距离约束上限。
本发明在计算空间文本相似度之前,先根据设计的削减策略判断出与消息无关的单元和订阅,以削减与消息无关的单元和订阅,有效降低数据处理开销。
参见图3所示,本发明实施例还公开了一种路网中空间文本发布订阅方法采用的组合索引,所述组合索引包括:
空间索引组件,所述空间索引组件用于根据订阅s和消息m的坐标,识别订阅s和消息m所在的单元和路网边;
邻接组件,所述邻接组件用于给出每个路网结点指向其相邻路网结点的指针,用于路网探寻;
单元距离界限组件,所述单元距离界限组件用于计算每对单元之间的有效距离界限;
对于每个单元对ci和cj,定义一对参数,即η-和η+,如等式(10)和(11)所示:
基于消息位置m.L,单元ci和消息m之间的最小和最大路网距离可以计算如下(假设m位于cm)。
类似地,订阅s和消息m之间的最小和最大路网距离可以如下计算(假设s位于ci,m位于cm)。
订阅映射组件,所述订阅映射组件利用B树,用于根据单元id的键值映射到位于单元ci内的订阅的倒排文件列表;还用于给定单元ci内订阅的关键字集中的每个关键字(项)t的最大权重(maxwt)和单元ci内订阅的τ值最小值(minτ);且仅当通过最小距离和最大权重maxwt算得的相似度值大于单元ci的τ值最小值(minτ)时才访问单元ci的倒排列表;
订阅倒排文件组件,所述订阅倒排文件组件根据单元内的所有订阅的关键字集所构建。
参见图4所示,所述组合索引的优化策略为:所述订阅映射组件中以每个单元ci的位置感知前缀(LAP(ci))中各关键字tj的替换单元ci的每个关键字tj的最大权重值。
为了索引位置感知前缀,修改订阅映射组件。对于订阅映射组件,只保留各单元ci的位置感知前缀(LAP(ci))中的各关键字的条目。这是因为如果消息m在LAP(ci)中没有共享任何公共的关键字,则它根据引理3和引理4与任何订阅s∈ci不相似。具体来说,对于每个单元ci,使用位置感知前缀中的各关键字tj的如图4所示,以替换原ci内各关键字最大权重值。这样,对于消息m和单元ci,如果在LAP(ci)∩m.ψ中不存在关键字tj,使得ci不可能包含相似于m的消息,可以安全地削减ci。此外,为了支持基于空间距离的削减,对于每个单元ci,还保留
参见图5所示,所述组合索引的优化策略为:所述订阅倒排文件的条目为单元ci的位置感知前缀中的各关键字。
类似地,优化订阅倒排文件组件。ci的子倒排文件(IF(ci))的条目也是ci的位置感知前缀(LAP(ci))中的各关键字。每个关键字tj与由元素构成的倒排列表相关联,其中s是ci中包含关键字tj的订阅,是s关于关键字tj路网距离约束上限。记住,使用IL(ci|tj)来表示单元ci中的关键字tj的子倒排列表,并且每个子倒排列表根据相应订阅所在的边被进一步划分成组。为了便于处理的提前终止,每条边上的订阅将根据值进行排序。因此,订阅倒排文件组件被优化为如图5所示。请看单元ci中边ei的统计表,也保留了ei上所有订阅的α值的最小值和最大值。
本发明不局限于上述实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
本发明公开的路网中空间文本发布订阅方法采用的组合索引,路网中空间文本发布订阅方法使用组合索引判断并削减与消息无关的单元和订阅。
Claims (9)
1.一种路网中空间文本发布订阅方法,其特征在于,包括以下步骤:
S1,对每个待处理的订阅,计算订阅位置和消息位置的空间邻近度:
SPRO(s,m)=1-dN(s,m)/Dmax,其中,SPRO(s,m)为空间邻近度,dN(s,m)为订阅位置和消息位置之间的路网距离,Dmax为订阅位置和消息位置之间的用户最大容忍路网距离;
S2,对每个待处理的订阅,计算订阅关键字集和消息关键字集的文本相似度:
其中,s.ψ为订阅关键字集,m.ψ为消息关键字集,w(t)是关键字t的权重,TSIM(s,m)是订阅关键字集s.ψ和消息关键字集m.ψ之间的文本相似度;
S3,根据空间邻近度和文本相似度以及订阅用户设置的偏好参数计算出空间文本相似度:
SIM(s,m)=α.SPRO(s,m)+(1-α)TSIM(s,m)
其中,SIM(s,m)为空间文本相似度,α为订阅用户设置的偏好参数,用于平衡空间邻近度和文本相似度之间的相对重要性;
S4,判断订阅与消息的所述空间文本相似度是否大于该订阅用户的空间文本相似度的预设阈值,若是,则消息与订阅相似,将消息传送到该订阅用户。
2.如权利要求1所述的一种路网中空间文本发布订阅方法,其特征在于:步骤S1之前还包括过滤步骤S0,所述过滤步骤S0包括根据设计的削减策略判断出与消息无关的单元和订阅,从而削减与消息无关的单元和订阅,获得待处理的订阅的集合。
3.如权利要求2所述的一种路网中空间文本发布订阅方法,其特征在于:所述设计的削减策略包括基于空间距离的削减策略,所述基于空间距离的削减策略为:
对于消息m和订阅s,如果s和m之间的最小路网距离大于s的路网距离上限,即则削减订阅s;
对于消息m和单元ci,如果ci和m之间的最小路网距离大于ci的路网距离上限,即则削减单元ci。
4.如权利要求3所述的一种路网中空间文本发布订阅方法,其特征在于:所述设计的削减策略包括基于文本的削减策略,所述基于文本的削减策略为:
对于消息m和订阅s,如果两者不共享一个公共的LAP关键字,则削减订阅s;将s.ψ的位置感知前缀定义为LAP(s)=s.ψ[1:p],LAP(s)中的每个关键字称为LAP关键字;其中p由公式算得;
对于消息m和单元ci,如果m在该单元ci的LAP(ci)中没有一个公共的LAP关键字,则削减单元ci,LAP(ci)为该单元中全部订阅s的LAP(s)的并集。
5.如权利要求4所述的一种路网中空间文本发布订阅方法,其特征在于:所述设计的削减策略包括基于空间文本的削减策略,所述基于空间文本的削减策略为:
对于消息m和订阅s,设两者的首个匹配关键字为ti,如果则削减订阅s;其中,DN(s,m)为消息m到s的路网距离,为s关于关键字ti的路网距离约束上限;
对于消息m和订阅s,如果在LAP(s)∩m.ψ中存在关键字ti,且则不进行削减,否则,削减订阅s;m.ψ表示消息m的关键字集;
对于消息m和单元ci,设两者的首个匹配关键字为tj,若 则削减单元ci;DN(ci,m)为单元ci到m的路网距离,为单元ci关于关键字tj的路网距离约束上限;
对于消息m和单元ci,若在LAP(ci)∩m.ψ中存在关键字tj,且则不进行削减;否则,削减单元ci。
6.如权利要求5所述的一种路网中空间文本发布订阅方法,其特征在于:所述过滤步骤S0包括:
步骤S01,确定包含消息m的单元cm;
步骤S02,获得单元cm和任何其他单元ci之间的路网距离的下限和上限
步骤S03,依次检查每个单元,根据所述设计的基于空间距离的削减策略、基于文本的削减策略和基于空间文本的削减策略,以削减与消息无关的单元;
步骤S04,计算每个未被削减单元ci的每条边ei上所有订阅的最大相似度得分,如果计算值小于ei的minτ(即,ei上所有订阅的τ值最小值),则将边ei标记为跳过;
步骤S05,对于每个关键字tj,若则遍历倒排列表IL(ci|tj)的所有未标记为跳过的边上的订阅s;为ci关于关键字tj的路网距离约束上限;
步骤S06,对于遍历的s,若则作为步骤S1中待处理的订阅,其中,为s关于tj的路网距离约束上限。
7.一种如权利要求1-6任意一项所述的路网中空间文本发布订阅方法采用的组合索引,其特征在于:
所述组合索引包括:
空间索引组件,所述空间索引组件用于根据订阅s和消息m的坐标,识别订阅s和消息m所在的单元和路网边;
邻接组件,所述邻接组件用于给出每个路网结点指向其相邻路网结点的指针,用于路网探寻;
单元距离界限组件,所述单元距离界限组件用于计算每对单元之间的有效距离界限;
订阅映射组件,所述订阅映射组件利用B树,用于根据单元id的键值映射到位于单元ci内的订阅的倒排文件列表;还用于给定单元ci内订阅的关键字集中的每个关键字(项)t的最大权重(maxwt)和单元ci内订阅的τ值最小值(minτ);且仅当通过最小距离和最大权重maxwt算得的相似度值大于单元ci的τ值最小值(minτ)时才访问单元ci的倒排列表;
订阅倒排文件组件,所述订阅倒排文件组件根据单元内的所有订阅的关键字集所构建。
8.如权利要求7所述的一种路网中空间文本发布订阅方法采用的组合索引,其特征在于:所述组合索引的优化策略为:所述订阅映射组件中以每个单元ci的位置感知前缀(LAP(ci))中各关键字tj的替换单元ci的每个关键字tj的最大权重值。
9.如权利要求7所述的一种路网中空间文本发布订阅方法采用的组合索引,其特征在于:所述组合索引的优化策略为:所述订阅倒排文件组件的条目为单元ci的位置感知前缀(LAP(ci))中的关键字。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710685734.1A CN107590190B (zh) | 2017-08-11 | 2017-08-11 | 一种路网中空间文本发布订阅方法及其组合索引 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710685734.1A CN107590190B (zh) | 2017-08-11 | 2017-08-11 | 一种路网中空间文本发布订阅方法及其组合索引 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107590190A true CN107590190A (zh) | 2018-01-16 |
CN107590190B CN107590190B (zh) | 2019-12-03 |
Family
ID=61043023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710685734.1A Expired - Fee Related CN107590190B (zh) | 2017-08-11 | 2017-08-11 | 一种路网中空间文本发布订阅方法及其组合索引 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107590190B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108833466A (zh) * | 2018-04-27 | 2018-11-16 | 中南民族大学 | 交通网络空间文本发布/订阅的系统及方法 |
CN113869516A (zh) * | 2021-12-06 | 2021-12-31 | 深圳大学 | 知识图谱嵌入模型训练方法、装置、电子设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101262494A (zh) * | 2008-01-23 | 2008-09-10 | 华为技术有限公司 | 对发布信息进行处理的方法、客户端、服务器和系统 |
US20080294644A1 (en) * | 2007-05-25 | 2008-11-27 | Zhen Liu | Method and system for semantic publish-subscribe services |
US20140280317A1 (en) * | 2013-03-15 | 2014-09-18 | University Of Florida Research Foundation, Incorporated | Efficient publish/subscribe systems |
CN104199938A (zh) * | 2014-09-09 | 2014-12-10 | 北京师范大学 | 基于rss的农用土地信息发送方法和系统 |
CN105373633A (zh) * | 2015-12-23 | 2016-03-02 | 江苏省现代企业信息化应用支撑软件工程技术研发中心 | 位置感知订阅/发布系统的top-k订阅查询匹配方法 |
-
2017
- 2017-08-11 CN CN201710685734.1A patent/CN107590190B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080294644A1 (en) * | 2007-05-25 | 2008-11-27 | Zhen Liu | Method and system for semantic publish-subscribe services |
CN101262494A (zh) * | 2008-01-23 | 2008-09-10 | 华为技术有限公司 | 对发布信息进行处理的方法、客户端、服务器和系统 |
US20140280317A1 (en) * | 2013-03-15 | 2014-09-18 | University Of Florida Research Foundation, Incorporated | Efficient publish/subscribe systems |
CN104199938A (zh) * | 2014-09-09 | 2014-12-10 | 北京师范大学 | 基于rss的农用土地信息发送方法和系统 |
CN105373633A (zh) * | 2015-12-23 | 2016-03-02 | 江苏省现代企业信息化应用支撑软件工程技术研发中心 | 位置感知订阅/发布系统的top-k订阅查询匹配方法 |
Non-Patent Citations (3)
Title |
---|
李艳红 等: "路网中空间关键字连续k近邻查询算法研究", 《华中科技大学学报(自然科学版)》 * |
罗昌银 等: "基于位置的发布/订阅索引结构", 《中南民族大学学报(自然科学版)》 * |
黄紫青: "路网中空间文本发布/订阅问题研究", 《CNKI博硕论文》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108833466A (zh) * | 2018-04-27 | 2018-11-16 | 中南民族大学 | 交通网络空间文本发布/订阅的系统及方法 |
CN108833466B (zh) * | 2018-04-27 | 2021-05-14 | 中南民族大学 | 交通网络空间文本发布/订阅的系统及方法 |
CN113869516A (zh) * | 2021-12-06 | 2021-12-31 | 深圳大学 | 知识图谱嵌入模型训练方法、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107590190B (zh) | 2019-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106168953B (zh) | 面向弱关系社交网络的博文推荐方法 | |
US9208220B2 (en) | Method and apparatus of text classification | |
CN108052639A (zh) | 基于运营商数据的行业用户推荐方法及装置 | |
US20150281382A1 (en) | Group creating and joining method, client, server , and system | |
CN107145545B (zh) | 一种基于位置的社交网络中Top-k区域用户文本数据推荐方法 | |
CN102695121A (zh) | 向社交网络中的用户推送好友信息的方法和系统 | |
EP3432610A1 (en) | System and method for identifying nearby, compatible users | |
EP3070661A1 (en) | System and method for providing context driven hyper-personalized recommendation | |
CN103164424B (zh) | 一种时效性词的获取方法和装置 | |
CN106162544B (zh) | 一种地理围栏的生成方法和设备 | |
US20150120708A1 (en) | Information aggregation, classification and display method and system | |
US11783372B2 (en) | Systems and methods for using spatial and temporal analysis to associate data sources with mobile devices | |
CN107092609A (zh) | 一种信息推送方法及装置 | |
US20180241832A1 (en) | Information pushing method and apparatus | |
CN107590190B (zh) | 一种路网中空间文本发布订阅方法及其组合索引 | |
CN105408894B (zh) | 一种用户身份类别确定方法以及装置 | |
US20190073346A1 (en) | Method And System For Image Tagging In A Social Network | |
Kowshalya et al. | Efficient service search among Social Internet of Things through construction of communities | |
US20220394435A1 (en) | System and method for short message service (sms) content classification | |
US9825895B2 (en) | Method and system for exchanging messages on the basis of current position | |
US20170186009A1 (en) | Systems and methods to identify illegitimate online accounts | |
US11232115B2 (en) | Identifying functional zones within a geographic region | |
Wang et al. | Top-k socially constrained spatial keyword search in large siot networks | |
CN108111968B (zh) | 一种基于泛化的位置隐私保护方法 | |
Meng et al. | Autolabel: Labeling places from pictures and websites |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191203 Termination date: 20210811 |
|
CF01 | Termination of patent right due to non-payment of annual fee |