CN106060154A - 基于主题模型的订阅发布匹配方法及装置 - Google Patents
基于主题模型的订阅发布匹配方法及装置 Download PDFInfo
- Publication number
- CN106060154A CN106060154A CN201610505159.8A CN201610505159A CN106060154A CN 106060154 A CN106060154 A CN 106060154A CN 201610505159 A CN201610505159 A CN 201610505159A CN 106060154 A CN106060154 A CN 106060154A
- Authority
- CN
- China
- Prior art keywords
- event
- subscription
- theme
- subset
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W8/00—Network data management
- H04W8/18—Processing of user or subscriber data, e.g. subscribed services, user preferences or user profiles; Transfer of user or subscriber data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/52—Network services specially adapted for the location of the user terminal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于主题模型的订阅发布匹配方法及装置,应用于位置感知订阅发布系统,方法包括:将订阅集合进行两层分级,使主题数量和关键主题相同的订阅位于同一个第二级子集中;第二级子集均根据每个订阅的空间区域信息建立空间索引树;事件流中的每个事件均根据该事件的主题数量过滤掉和该事件不匹配的第二级子集,筛选出关键主题出现在事件的主题集合中的第二级子集,然后根据该事件的空间信息点检索筛选出的第二级子集对应的空间索引树,以获取匹配第二级子集中每个订阅的事件候选集,再进一步进行验证。本发明将语义匹配引入位置感知的订阅发布系统中,能够为每个订阅查询出在空间维度、文本语义纬度上符合订阅要求的若干事件的集合。
Description
技术领域
本发明属于通信技术领域,特别涉及一种基于主题模型的订阅发布匹配方法及装置,应用于位置感知的订阅发布系统。
背景技术
随着移动互联网的快速发展,以及具有GPS功能的智能手机的普及,位置感知的订阅/发布系统越来越多地受到了工业界和学术界研究人员的关注。在订阅/发布系统当中,订阅者订阅自己感兴趣的信息作为订阅,发布者发布信息作为事件,如果订阅与事件有高度的相关性,那么发布者发布的信息被推送给订阅者。
目前,在位置感知的订阅/发布系统中,国内外有很多研究工作。主要有如下两个分支,基于结构化数据和非结构化数据的位置感知的订阅发布系统。在结构化数据分支上,L.Guo提出了一种新位置感知订阅/发布系统,可以连续监控移动的订阅者接收来自社交媒体和电子商务的结构化的事件信息流。JiaFfeng提出了Ri-tree索引树,该索引树可以为每个事件返回Top-k个订阅。Sadoghi将一种布尔表达式索引应用在位置感知的订阅/发布系统当中,他将空间信息维度以谓词的形式加入在布尔表达式当中,以实现位置感知的订阅/发布系统。在非结构化数据分支上,Guoliang Li提出了一种高效地位置感知的订阅/发布系统可以在高流速的事件流、千万级订阅数据集上实现微小时间内的检索。Yu等在Guoliang Li的基础上提出了为每个事件返回Top-k订阅的算法,Lisi Chen在位置感知的订阅/发布系统当中引入时间维度,并设计出使每个订阅均能维持Top-k事件的匹配算法。但是,这些工作主要是针对订阅与事件的匹配模式,查询方法等,并没有针对语义的匹配。例如,当用户订阅“咖啡”时,“星巴克”也应视作它的匹配,这是符合直觉的。但是,在现有技术中,并没有将语义匹配引入位置感知订阅发布系统中的方法。
发明内容
本发明的目的是提供了一种基于主题模型的订阅发布匹配方法和装置,能够将语义匹配引入位置感知的订阅发布系统中以增加用户体验,并能够为每个订阅查询出同时在空间维度、文本语义纬度上符合订阅要求的若干事件的集合。
本发明提供的技术方案为:
第一方面,本发明提供了一种基于主题模型的订阅发布匹配方法,应用于位置感知的订阅发布系统,包括:
将位置感知订阅发布系统中的一订阅集合根据每个订阅的主题数量分成多个互不相交的第一级子集,使主题数量相同的订阅位于同一个第一级子集中;
将所述每个第一级子集中的订阅根据每个订阅的关键主题分成多个第二级子集,使主题数量和关键主题均相同的订阅划分在同一个第二级子集中;
所述每个第二级子集均根据该第二级子集中每个订阅的空间区域信息建立一空间索引树;
所述位置感知订阅发布系统中一事件流中的每个事件均根据该事件的主题数量过滤掉和该事件不匹配的第二级子集,并筛选出关键主题出现在所述事件的主题集合中的第二级子集,然后根据该事件的空间信息点检索所述筛选出的第二级子集对应的空间索引树,以获取匹配每个第二级子集中每个订阅的事件候选集;
所述每个订阅均与匹配该订阅的事件候选集中的所有事件一一进行匹配,判断该订阅的所有主题是否均出现在所述事件候选集中一事件或多个事件的主题集合中;
若是,则确定该订阅与该事件或多个事件匹配,查询到与该订阅匹配的事件;
若否,则确定该订阅与该事件不匹配。
优选的是,所述的基于主题模型的订阅发布匹配方法,所述将位置感知订阅发布系统中的一订阅集合根据每个订阅的主题数量分成多个互不相交的第一级子集还包括:
获取位置感知订阅发布系统中订阅集合中每个订阅的主题集合,并计算出所述每个订阅的主题数量;
从每个订阅的主题集合中选取出在整个数据集中主题分布出现频率最小的主题作为该订阅的关键主题。
优选的是,所述的基于主题模型的订阅发布匹配方法,所述获取位置感知订阅发布系统中订阅集合中每个订阅的主题集合包括:通过主题模型LDA对每个订阅中的关键字集合进行主题映射获取该订阅的主题集合;所述获取每个事件的主题集合包括:通过主题模型LDA对每个事件中的关键字集合进行主题映射获取该事件的主题集合。
优选的是,所述的基于主题模型的订阅发布匹配方法,所述位置感知订阅发布系统中一事件流中的每个事件均根据该事件的主题数量过滤掉和该事件不匹配的第二级子集具体包括:若第二级子集中订阅的主题数量大于所述事件的主题数量,则确定该第二级子集中的订阅与所述事件均不匹配。
优选的是,所述的基于主题模型的订阅发布匹配方法,每个订阅的空间区域信息以根据经纬度划分的最小边界矩形的形式来表示,每个事件的空间信息点由经纬度表示的空间信息点表示,每个订阅s由如下第一公式表示,所述第一公式为:s={[Ks1,Ks2…Ksn],R},其中,[Ks1,Ks2…Ksn]表示订阅的关键字集合,R表示订阅的空间区域信息,每个事件e由如下第二公式表示,所述第二公式为:e={[Ke1,Ke2…Kem],loc},其中,[Ke1,Ke2…Kem]表示事件的关键字集合,loc表示事件的空间信息点。
优选的是,所述的基于主题模型的订阅发布匹配方法,每个订阅和每个事件通过主题模型LDA进行主题映射后,每个订阅s由如下第三公式表示,所述第三公式为:s={[KsmaxTPC 1∧KsmaxTPC 2∧…KsmaxTPC n],R},其中,[KsmaxTPC 1∧KsmaxTPC 2∧…KsmaxTPC n]表示订阅的主题集合,每个事件由如下第四公式表示,所述第四公式为:e={[KemaxTPC 1∧KemaxTPC 2∧…KemaxTPC m],loc},其中,[KemaxTPC 1∧KemaxTPC 2∧…KemaxTPC m]表示事件的主题集合。
第二方面,本发明提供了一种基于主题模型的订阅发布匹配装置,应用于位置感知的订阅发布系统,包括:
第一分级模块,其用于将位置感知订阅发布系统中的订阅集合根据每个订阅的主题数量分成多个互不相交的第一级子集;
第二分级模块,其用于将所述每个第一级子集中的订阅根据每个订阅的关键主题分成多个第二级子集;
空间索引树建立模块,其用于将所述每个第二级子集均根据该第二级子集中每个订阅的空间区域信息建立一空间索引树;
过滤模块,其用于所述位置感知订阅发布系统中一事件流中的每个事件均根据该事件的主题数量过滤掉和该事件不匹配的第二级子集;
筛选模块,其用于筛选出关键主题出现在所述事件的主题集合中的第二级子集;
检索模块,其用于根据该事件的空间信息点检索所述筛选出的第二级子集对应的空间索引树,以获取匹配每个第二级子集中每个订阅的事件候选集;
判断模块,其用于所述每个订阅均与匹配该订阅的事件候选集中的所有事件一一进行匹配时,判断该订阅的所有主题是否均出现在所述事件候选集中一事件或多个事件的主题集合中;
确定模块,若订阅的所有主题均出现在所述事件候选集中一事件或多个事件的主题集合中,则所述确定模块确定该订阅与该事件与多个事件匹配;
若订阅的所有主题不能均出现在所述事件候选集中一事件或多个事件的主题集合中,则所述确定模块确定该订阅与该事件不匹配。
优选的是,所述的基于主题模型的订阅发布匹配装置,还包括:
映射模块,其用于通过主题模型LDA对位置感知订阅发布系统中的每个订阅和每个事件的关键字集合进行主题映射,获取该订阅的主题集合和该事件的主题集合;
选取模块,其用于从每个订阅的主题集合中选取出在整个数据集中主题分布出现频率最小的主题作为该订阅的关键主题;
计算模块,其用于计算所述位置感知订阅发布系统中每个订阅的主题数量和每个事件的主题数量。
本发明至少包括以下有益效果:由于将订阅集合根据每个订阅的主题数量分成多个互不相交的第一级子集,又将每个第一级子集中的订阅根据每个订阅的关键主题分成多个第二级子集,这样两层的分级方法就能使主题数量和关键主题均相同的订阅划分在同一个第二级子集中,为获取到第二级子集中每个订阅匹配的事件,事件流中的每个事件首先根据该事件的主题数量过滤掉和该事件不匹配的第二级子集,然后再筛选出关键主题出现在事件的主题集合中的第二级子集,然后根据该事件的空间信息点检索筛选出的第二级子集对应的空间索引树,通过上面的索引结构能够获取匹配每个第二级子集中每个订阅的事件候选集,再进一步进行验证,这样就能够为每个订阅查询出在空间维度、文本语义纬度上符合订阅要求的若干事件的集合,且该方法具有有效性和高效性。
附图说明
图1为本发明所述的基于主题模型的订阅发布匹配方法的流程示意图;
图2为例子1中3个订阅和1个事件的空间信息分布图;
图3为例子1中3个订阅的主题集合索引图;
图4为例子1中3个订阅和1个事件的RPTM-trees索引结构图;
图5为例子2中三组索引方案内存开销的比较结果图;
图6为例子2中三组索引方案中不同的订阅数量的比较结果图;
图7为例子2中三组索引方案中不同的主题数量的比较结果图;
图8为例子2中三组索引方案中不同的事件主题集合长度时的比较结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为使本发明技术方案的优点更加清楚,下面结合附图和实施例对本发明作详细说明。
在实现本方案之初,由于对订阅中的关键字进行主题映射,且增加了空间区域信息,所以需要对位置感知订阅/发布系统进行定义和说明。
在位置感知的订阅/发布系统当中,一个订阅s={s.T,s.R}由以下部分组成:文本描述信息s.T和空间区域信息s.R,文本描述信息是指订阅者描述其需求的语言文字,s.T是由一个关键字集合组成,即s.T={Ks1,Ks2,…,Ksn},空间区域信息是指订阅者所感兴趣的空间区域。订阅S由如下公式表示:s={[Ks1,Ks2,…,Ksn],R}。一个事件e是由一个文本信息集合e.T和一个空间信息点e.loc组成,e.T表达式为e.T={Ke1,Ke2,…,Kem},e.loc是一个由经纬度表示的空间信息点。事件e可由如下公式表示:e={[Ke1,Ke2,…,Kem],loc}。
在基于主题模型的位置感知订阅/发布系统当中,为了使得订阅和事件中的关键字集合得到其主题映射,我们采用最常用的文档主题生成模型LDA(Latent DirichletAllocation),把包括订阅与事件的文本信息s.T以及e.T作为LDA的训练集与验证集,通过不断地训练与验证收敛出订阅中关键字所对应主题分布。从每个关键字Ksi对应的主题KsiTPC中选取分布概率最高的主题KsmaxTPC,然后我们将所有的具有最高分布概率的关键字主题合取式作为订阅中的关键字主题集合s.TTPC,即s.TTPC={KsmaxTPC 1∧KsmaxTPC 2∧…KsmaxTPC n}。订阅s重新由如下公式表示:s={[KsmaxTPC 1∧KsmaxTPC 2∧…KsmaxTPC n],R}。对于事件的文本信息e.T的关键字的主题映射,我们做与s.T相同的处理。即,e.TTPC={KemaxTPC 1∧KemaxTPC 2∧…KemaxTPC m}。所以事件e重新由如下公式表示:e={[KemaxTPC 1∧KemaxTPC 2∧…KemaxTPC m],loc}。
在基于主题模型的位置感知订阅/发布系统匹配模式中,可以分为三个模块:1、主题匹配;2、主题集合匹配;3、空间信息匹配。
定义1(主题匹配):对于一个给定的订阅主题KsmaxTPC i和事件主题KemaxTPC j,如果KsmaxTPC i==KemaxTPC j,那么,我们就称事件主题KemaxTPC j匹配订阅主题KsmaxTPC i。
定义2(主题集合匹配):对于一个给定的订阅主题集合s.TTPC和事件主题集合e.TTPC,如果对于都有KsmaxTPC i==KemaxTPC j,(KemaxTPC j∈e.TTPC),那么,我们就称事件主题集合e.TTPC匹配订阅主题集合S.TTPC。
定义3(空间信息匹配):对于一个给定订阅中的空间区域信息s.R和事件中的空间信息点e.loc,如果空间信息点e.loc落入空间区域信息s.R,那么,事件中的空间信息点e.loc匹配订阅中的空间区域信息s.R。
定义4(订阅与事件匹配):对于一个给定的订阅s与事件e,如果事件e的主题集合e.TTPC与订阅s的主题集合s.TTPC匹配,同时,事件e的空间信息点与订阅s的空间区域信息s.R匹配,那么,事件e与订阅s匹配。
定义5(LPSTM,Location-Aware Publish/Subscribe basing topic Model,基于主题模型的位置感知订阅/发布系统):对于一个给定的事件流E和一个给定的订阅集合S,基于主题模型的位置感知订阅/发布系统的目的是要找到与s匹配的事件e,其中s∈S,e∈E。
本发明一实施例提供的基于主题模型的订阅发布匹配方法,应用于位置感知的订阅发布系统,所述装置为具有实现本发明实施例所述方法功能的装置或设备,可以通过在装置或设备中安装相关软件或硬件使其具有实现本发明实施例所述方法的功能,如图1所示,所述方法包括:
S01、获取位置感知订阅发布系统中一订阅集合中每个订阅的主题集合,并计算出所述每个订阅的主题数量。
其中,通过主题模型LDA对每个订阅中的关键字集合进行主题映射获取该订阅的主题集合。
S02、从每个订阅的主题集合中选取出在整个数据集中主题分布出现频率最小的主题作为该订阅的关键主题。
需要说明的是:根据定义2可知,如果一个事件e匹配一个订阅s,那么订阅s中所有的主题都要出现在事件e的主题集合当中。如果订阅s中的一个主题没有在事件e的主题集合当中出现,那么事件e肯定不是订阅s的结果。因此,给定一个事件e,我们只考虑那些关键主题出现在事件e的主题集合中的订阅。在整个数据集具有低频率的主题更具有过滤订阅的作用,因为较低频的主题出现在另一个事件中的可能性较低,因此选订阅的主题集合里出现频率最低的主题作为关键主题。
S03、将所述位置感知订阅发布系统中的订阅集合根据每个订阅的主题数量分成多个互不相交的第一级子集,使主题数量相同的订阅位于同一个第一级子集中。
其中,订阅集合根据每个订阅的主题数量分成多个互不相交的第一级子集,可以表示如下:S=L(N1)∪L(N2)∪L(Ni)∪…..∪L(Nn);如果事件e的主题集合匹配订阅s中的主题集合,那么事件e中的主题数量一定大于或等于s中的主题,如果不满足上述条件,订阅s中必然有一个主题得不到事件e的匹配,根据定义2,事件e肯定不是订阅s的结果之一。
S04、将所述每个第一级子集中的订阅根据每个订阅的关键主题分成多个第二级子集,使主题数量和关键主题均相同的订阅划分在同一个第二级子集中。
其中,将所述每个第一级子集中的订阅根据每个订阅的关键主题分成多个第二级子集表示为:L(Ni)=L(δ1)∪L(δ2)∪L(δi)∪…..∪L(δn)。
S05、所述每个第二级子集均根据该第二级子集中每个订阅的空间区域信息建立一空间索引树R-tree。
需要说明的是,建立R-tree的目的是用来过滤事件的空间信息的。
S06、所述位置感知订阅发布系统中一事件流中的每个事件均根据该事件的主题数量过滤掉和该事件不匹配的第二级子集,并筛选出关键主题出现在所述事件的主题集合中的第二级子集,然后根据该事件的空间信息点检索所述筛选出的第二级子集对应的空间索引树,以获取匹配每个第二级子集中每个订阅的事件候选集。
其中,若第二级子集中订阅的主题数量大于所述事件的主题数量,则确定该第二级子集中的订阅与所述事件均不匹配,所以事件的主题数量必须大于或等于第二级子集中订阅的主题数量。这样可以把事件流中可能与第二级子集中的订阅的匹配的事件筛选出来,然后再根据事件的空间信息点检索第二级子集对应的空间索引树,就可以获取匹配第二级子集中每个订阅的事件候选集。
其中,通过主题模型LDA对每个事件中的关键字集合进行主题映射获取该事件的主题集合。
S07、所述每个订阅均与匹配该订阅的事件候选集中的所有事件一一进行匹配,判断该订阅的所有主题是否均出现在所述事件候选集中一事件或多个事件的主题集合中;
若是,则确定该订阅与该事件或多个事件匹配,查询到与该订阅匹配的事件;
若否,则确定该订阅与该事件不匹配。
需要说明的是:我们将步骤S02、S03、S04、S05建立的分区分级索引结构称为RPTM-trees,在RPTM-trees中,每个订阅都有标志性主题,就是关键主题δ。
对于上面的步骤,接下来我们来举一个具体的例子来说明。例子1如下所示:
给定如下3个订阅和1个事件:s1={“KFC,可以美团。”,R1};s2={“麦当劳,上门服务,酬宾活动。”,R2};s3={“附近的必胜客,饿了么。”,R2};e1={“东环路肯德基开张!,欢迎食客光临,可送餐上门!。”,loc1}。其主题映射如下表1所示,空间信息分布如图2所示。由图可知,e1匹配s1,因为s1的主题集合[快餐,外卖]被e1的主题集合[快餐,外卖]匹配,且loc1落入R1,两者主题集合和空间信息都匹配,e1匹配s1。e1不匹配s2,虽然loc1落入R2,但是s2的主题集合[快餐,促销,外卖]不被e1的主题集合[快餐,外卖]匹配,所以e1不匹配s2。另外,e1不匹配s3,因为虽然loc1没有落入R2,两者空间信息不匹配,故e1不匹配s3。
表1
s/e|TPC | 快餐 | 促销 | ...... | 外卖 | s.R/e.loc |
e1 | 肯德基 | 送餐 | loc1 | ||
s1 | KFC | 美团 | R1 | ||
s2 | 麦当劳 | 酬宾 | 上门 | R2 | |
s3 | 必胜客 | 饿了吗 | R3 |
根据表1建立的主题集合索引结构,如图3所示,在第一步,根据订阅的主题集合中主题数量分成两个子集L2,L3。然后,根据不同主题的出现频率选取出关键主题。这里我们假设“快餐”,“促销”为整个数据集中的关键主题。给定一个事件e1,其主题集合中的主题数量为2,根据事件的主题数量,在子集L3中的订阅肯定不匹配e1。
如图4所示,给出了RPTM-trees的索引结构,RPTM-trees由三部分组成,第一部分是步骤S03和步骤S04两步分区法划分的两层主题集合倒排索引。第二部分是相应订阅子集的空间区域信息建立的空间索引树R-tree。这些R-tree是用来过滤事件的空间信息的,并用来生成匹配订阅的候选集。为了解释RPTM-trees的查询过程,给定一个事件e1={“东环路肯德基开张!,欢迎食客光临,可送餐上门!。”,loc1},根据主题模型LDA找到事件关键字的主题映射,即该事件可被重写为e1={[快餐∧外卖],loc1},计算出e1的主题集合中的主题个数为2,所以,在L3中的订阅被剪掉,之后访问L2中的订阅,发现e1中存在主题“快餐”,然后根据loc1检索相应的R-tree(2,快餐)。发现,loc1落在s1的空间区域R1,之后,进一步验证s1的主题集合中所有主题“快餐”,“外卖”均在e1中的主题集合出现,于是s1找到最终结果e1。
本发明又一实施例提供了一种基于主题模型的订阅发布匹配装置,应用于位置感知的订阅发布系统,包括:
第一分级模块,其用于将位置感知订阅发布系统中的订阅集合根据每个订阅的主题数量分成多个互不相交的第一级子集;
第二分级模块,其用于将所述每个第一级子集中的订阅根据每个订阅的关键主题分成多个第二级子集;
空间索引树建立模块,其用于将所述每个第二级子集均根据该第二级子集中每个订阅的空间区域信息建立一空间索引树;
过滤模块,其用于所述位置感知订阅发布系统中一事件流中的每个事件均根据该事件的主题数量过滤掉和该事件不匹配的第二级子集;
筛选模块,其用于筛选出关键主题出现在所述事件的主题集合中的第二级子集;
检索模块,其用于根据该事件的空间信息点检索所述筛选出的第二级子集对应的空间索引树,以获取匹配每个第二级子集中每个订阅的事件候选集;
判断模块,其用于所述每个订阅均与匹配该订阅的事件候选集中的所有事件一一进行匹配时,判断该订阅的所有主题是否均出现在所述事件候选集中一事件或多个事件的主题集合中;
确定模块,若订阅的所有主题均出现在所述事件候选集中一事件或多个事件的主题集合中,则所述确定模块确定该订阅与该事件与多个事件匹配;
若订阅的所有主题不能均出现在所述事件候选集中一事件或多个事件的主题集合中,则所述确定模块确定该订阅与该事件不匹配。
进一步的,所述的基于主题模型的订阅发布匹配装置,还包括:
映射模块,其用于通过主题模型LDA对位置感知订阅发布系统中的每个订阅和每个事件的关键字集合进行主题映射,获取该订阅的主题集合和该事件的主题集合;
选取模块,其用于从每个订阅的主题集合中选取出在整个数据集中主题分布出现频率最小的主题作为该订阅的关键主题;
计算模块,其用于计算所述位置感知订阅发布系统中每个订阅的主题数量和每个事件的主题数量。
需要说明的是,基于主题模型的位置感知的订阅/发布系统有两个纬度需要处理,一个是文本信息中关键字对应的主题集合,一个是空间区域信息,处理时,两个最初的方案均是串行的将主题集合纬度,和空间区域信息纬度按顺序计算。在主题集合纬度上,我们采用的是著名的倒排索引来索引订阅的主题集合,然后以开源的空间区域信息索引树R-tree索引订阅的空间信息。我们可将该方案扩展为两个方法,一个是以事件e的空间信息点先从R-tree过滤出符合订阅s空间信息约束的事件候选集,再通过订阅的主题集合倒排索引验证出发生主题集合匹配的订阅,从而得到最终结果。另一个是先从通过订阅主题倒排索引来获得发生主题集合匹配的候选集,然后再在R-tree上验证其空间信息维度上是否发生匹配,如果空间信息也匹配,则返回最终结果。我们分别称这两个方法为S-Fist(空间信息优先),TPC-First(主题集合优先)。众所周知,由于串行计算的性能低下,以及订阅的主题个数偏少使得倒排索引的分区能力弱化,这使得以该方案为基础该S-Fist、TPC-First的效率并不高,为此,我们设计了RPTM-trees来索引订阅。
下面将列举一个具体的例子来说明RPTM-trees索引结构的优点,例子2如下所示:
我们采用6万条微博签到信息记录作为我们的仿真实验数据集。每个用户签到信息包括,用户的id,用户签到所揭示的空间信息点(经纬度),以及用户的微博文本。这些微博稍作处理可以直接成为我们的事件信息流。另外,我们根据每个用户的签到空间信息点,以一定长、宽随机生成一个空间区域信息来作为订阅者所订阅的空间区域。并以该微博数据作为订阅内容。由于微博数据量有限,我们有时候将微博文本根据标点符号拆分为若干条文本信息,从而生成多种订阅。然后,根据微博的文本信息,我们采用主题模型LDA算法得到每个微博关键字的所有主题分布中分布概率最大的主题作为关键字对应的主题,从而得到每一个关键字的主题映射。我们总共生成了10M个订阅,和0.1M个事件作为匹配测试数据。表2详细介绍了数据集的参数设置。
表2
结果分析:
将比较RPTM-trees和另外两种基准方案S-Fist、TPC-First做对比试验。由于所有三个索引都是内存索引,我们首先分析了个索引的内存花费情况。之后,我们分别以一下参数维度多对照试验:不同的订阅个数,不同的主题个数,以及不同的事件主题集合的平均长度。接下来我们将逐个展示基于以上参数的实验结果。我们以事件和订阅匹配事件作为评价依据。
一、内存开销
我们首先对照三组索引方案随着订阅数量的增长引起的内存开销变化,实验结果如图5所示。我们可以看到三者内存开销随着订阅数量的增长而增长,在固定订阅数量不变的情况下,三者内存开销几乎一致,相较于S-Fist、TPC-First,RPTM-trees的内存开销较大一些,这是因为相较于其他两个索引S-Fist、TPC-First,RPTM-trees产生更多的R-tree,这将导致内存开销略微增大。由于S-Fist、TPC-First的索引结构其实是一样的,区分这两个解决方案主要是从查询方案上,空间信息有先(S-Fist)还是主题集合信息优先(TPC-First)。
二、不同的订阅数量
为了测试三个方法的稳定性,我们在不同订阅数量的分布下做了实验,平均事件匹配时间在不同订阅个数下的分布如图6所示。我们可以看到,无论从绝对的平均匹配时间上,还是索引的稳定性上,RPTM-trees的表现最好。其次是TPC-First。这是因为RPTM-trees根据主题集合长度大小以及关键主题对订阅的分区能力远高于后两者。其次,由于RPTM-trees对订阅的分区能力强劲,使得每个相应R-tree所索引的空间信息量大幅减少,这增加了R-tree的对订阅的过滤效率。
三、不同的主题数量
主题个数对三个索引来说都是一个非常重要的参数,因为三个索引都是全部、或部分根据主题的个数划分订阅子集的。从图7明显可以看出,当主题数量增加时,三个索引的平均事件匹配时间都在减少,这是因为随着主题数量的增加,三个索引都会产生更小的订阅分区,RPTM-trees减小的更明显,这是因为RPTM-trees首先根据关键主题划分订阅,当主题个数增加时,单个的索引大小将会明显减少,结合R-tree在空间信息上的过滤功能,使得事件匹配时间相较于S-Fist、TPC-First进一步减少。除次之外,随着整个数据集中主题个数的增加,事件匹配订阅的可能性进一步增加,这是因为随着主题个数的增加,事件的一个主题匹配订阅的一个主题时,订阅和事件的相关性将增大。
四、不同的事件主题集合长度
该实验结果如图8所示。从图8我们可以明显的看出,只有RPTM-trees对事件主题长度这个参数敏感,因为相较于S-Fist、TPC-First,RPTM-trees采用主题集合的长度将订阅分区,随着事件的主题集合长度不断增大,RPTM-trees根据主题集合长度剪枝的能力大大减弱,使得平均事件匹配时间随着事件主题集合长度的增加而增加。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
Claims (8)
1.一种基于主题模型的订阅发布匹配方法,应用于位置感知的订阅发布系统,其特征在于,包括:
将位置感知订阅发布系统中的一订阅集合根据每个订阅的主题数量分成多个互不相交的第一级子集,使主题数量相同的订阅位于同一个第一级子集中;
将所述每个第一级子集中的订阅根据每个订阅的关键主题分成多个第二级子集,使主题数量和关键主题均相同的订阅划分在同一个第二级子集中;
所述每个第二级子集均根据该第二级子集中每个订阅的空间区域信息建立一空间索引树;
所述位置感知订阅发布系统中发布的事件流中的每个事件均根据该事件的主题数量过滤掉和该事件不匹配的第二级子集,并筛选出关键主题出现在所述事件的主题集合中的第二级子集,然后根据该事件的空间信息点检索所述筛选出的第二级子集对应的空间索引树,以获取匹配每个第二级子集中每个订阅的事件候选集;
所述每个订阅均与匹配该订阅的事件候选集中的所有事件一一进行匹配,判断该订阅的所有主题是否均出现在所述事件候选集中一事件或多个事件的主题集合中;
若是,则确定该订阅与该事件或多个事件匹配,查询到与该订阅匹配的事件;
若否,则确定该订阅与该事件不匹配。
2.如权利要求1所述的基于主题模型的订阅发布匹配方法,其特征在于,所述将位置感知订阅发布系统中的一订阅集合根据每个订阅的主题数量分成多个互不相交的第一级子集还包括:
获取位置感知订阅发布系统中订阅集合中每个订阅的主题集合,并计算出所述每个订阅的主题数量;
从每个订阅的主题集合中选取出在整个数据集中主题分布出现频率最小的主题作为该订阅的关键主题。
3.如权利要求2所述的基于主题模型的订阅发布匹配方法,其特征在于,所述获取位置感知订阅发布系统中订阅集合中每个订阅的主题集合包括:通过主题模型LDA对每个订阅中的关键字集合进行主题映射获取该订阅的主题集合;所述获取每个事件的主题集合包括:通过主题模型LDA对每个事件中的关键字集合进行主题映射获取该事件的主题集合。
4.如权利要求1所述的基于主题模型的订阅发布匹配方法,其特征在于,所述位置感知订阅发布系统中一事件流中的每个事件均根据该事件的主题数量过滤掉和该事件不匹配的第二级子集具体包括:若第二级子集中订阅的主题数量大于所述事件的主题数量,则确定该第二级子集中的订阅与所述事件均不匹配。
5.如权利要求3所述的基于主题模型的订阅发布匹配方法,其特征在于,每个订阅的空间区域信息以根据经纬度划分的最小边界矩形的形式来表示,每个事件的空间信息点由经纬度表示的空间信息点表示,每个订阅s由如下第一公式表示,所述第一公式为:s={[Ks1,Ks2…Ksn],R},其中,[Ks1,Ks2…Ksn]表示订阅的关键字集合,R表示订阅的空间区域信息,每个事件e由如下第二公式表示,所述第二公式为:e={[Ke1,Ke2…Kem],loc},其中,[Ke1,Ke2…Kem]表示事件的关键字集合,loc表示事件的空间信息点。
6.如权利要求5所述的基于主题模型的订阅发布匹配方法,其特征在于,每个订阅和每个事件通过主题模型LDA进行主题映射后,每个订阅s由如下第三公式表示,所述第三公式为:s={[KsmaxTPC 1∧KsmaxTPC 2∧…KsmaxTPC n],R},其中,[KsmaxTPC 1∧KsmaxTPC 2∧…KsmaxTPC n]表示订阅的主题集合,每个事件由如下第四公式表示,所述第四公式为:e={[KemaxTPC 1∧KemaxTPC 2∧…KemaxTPC m],loc},其中,[KemaxTPC 1∧KemaxTPC 2∧…KemaxTPC m]表示事件的主题集合。
7.一种基于主题模型的订阅发布匹配装置,应用于位置感知的订阅发布系统,其特征在于,包括:
第一分级模块,其用于将位置感知订阅发布系统中的订阅集合根据每个订阅的主题数量分成多个互不相交的第一级子集;
第二分级模块,其用于将所述每个第一级子集中的订阅根据每个订阅的关键主题分成多个第二级子集;
空间索引树建立模块,其用于将所述每个第二级子集均根据该第二级子集中每个订阅的空间区域信息建立一空间索引树;
过滤模块,其用于所述位置感知订阅发布系统中一事件流中的每个事件均根据该事件的主题数量过滤掉和该事件不匹配的第二级子集;
筛选模块,其用于筛选出关键主题出现在所述事件的主题集合中的第二级子集;
检索模块,其用于根据该事件的空间信息点检索所述筛选出的第二级子集对应的空间索引树,以获取匹配每个第二级子集中每个订阅的事件候选集;
判断模块,其用于所述每个订阅均与匹配该订阅的事件候选集中的所有事件一一进行匹配时,判断该订阅的所有主题是否均出现在所述事件候选集中一事件或多个事件的主题集合中;
确定模块,若订阅的所有主题均出现在所述事件候选集中一事件或多个事件的主题集合中,则所述确定模块确定该订阅与该事件与多个事件匹配;
若订阅的所有主题不能均出现在所述事件候选集中一事件或多个事件的主题集合中,则所述确定模块确定该订阅与该事件不匹配。
8.如权利要求7所述的基于主题模型的订阅发布匹配装置,其特征在于,还包括:
映射模块,其用于通过主题模型LDA对位置感知订阅发布系统中的每个订阅和每个事件的关键字集合进行主题映射,获取该订阅的主题集合和该事件的主题集合;
选取模块,其用于从每个订阅的主题集合中选取出在整个数据集中主题分布出现频率最小的主题作为该订阅的关键主题;
计算模块,其用于计算所述位置感知订阅发布系统中每个订阅的主题数量和每个事件的主题数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610505159.8A CN106060154B (zh) | 2016-06-30 | 2016-06-30 | 基于主题模型的订阅发布匹配方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610505159.8A CN106060154B (zh) | 2016-06-30 | 2016-06-30 | 基于主题模型的订阅发布匹配方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106060154A true CN106060154A (zh) | 2016-10-26 |
CN106060154B CN106060154B (zh) | 2019-04-19 |
Family
ID=57201341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610505159.8A Active CN106060154B (zh) | 2016-06-30 | 2016-06-30 | 基于主题模型的订阅发布匹配方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106060154B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145196A (zh) * | 2018-06-06 | 2019-01-04 | 苏州大学 | 时间感知基于路径的发布和订阅框架的过滤验证方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103412883A (zh) * | 2013-07-17 | 2013-11-27 | 中国人民解放军国防科学技术大学 | 基于p2p技术的语义智能信息发布订阅方法 |
CN104657408A (zh) * | 2013-11-22 | 2015-05-27 | 国际商业机器公司 | 具有多个正交主题树的发布订阅代理器 |
CN105373633A (zh) * | 2015-12-23 | 2016-03-02 | 江苏省现代企业信息化应用支撑软件工程技术研发中心 | 位置感知订阅/发布系统的top-k订阅查询匹配方法 |
US20160105385A1 (en) * | 2014-10-10 | 2016-04-14 | International Business Machines Corporation | Technology for providing content of a publish-subscribe topic tree |
CN105740337A (zh) * | 2016-01-22 | 2016-07-06 | 东南大学 | 一种基于内容的发布订阅系统中的事件快速匹配方法 |
-
2016
- 2016-06-30 CN CN201610505159.8A patent/CN106060154B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103412883A (zh) * | 2013-07-17 | 2013-11-27 | 中国人民解放军国防科学技术大学 | 基于p2p技术的语义智能信息发布订阅方法 |
CN104657408A (zh) * | 2013-11-22 | 2015-05-27 | 国际商业机器公司 | 具有多个正交主题树的发布订阅代理器 |
US20160105385A1 (en) * | 2014-10-10 | 2016-04-14 | International Business Machines Corporation | Technology for providing content of a publish-subscribe topic tree |
CN105373633A (zh) * | 2015-12-23 | 2016-03-02 | 江苏省现代企业信息化应用支撑软件工程技术研发中心 | 位置感知订阅/发布系统的top-k订阅查询匹配方法 |
CN105740337A (zh) * | 2016-01-22 | 2016-07-06 | 东南大学 | 一种基于内容的发布订阅系统中的事件快速匹配方法 |
Non-Patent Citations (3)
Title |
---|
HUIQI HU,YIQUN LIU,GUOLIANG LI,JIANHUA FENG,KIAN-LEE TAN: "A Location-Aware Publish/Subscribe Framework for Parameterized Spatio-Textual Subscriptions", 《ICDE CONFERENCE 2015》 * |
JIAFENG HU: "Efficient Top-k Subscription Matching for Location-Aware Publish/Subscribe", 《ADVANCES IN SPATIAL AND TEMPORAL DATABASE.SSTD 2015》 * |
MINGHE YU, GUOLIANG LI,TING WANG, JIANHUA FENG, AND ZHIGUO GONG: "Efficient Filtering Algorithms for Location-Aware Publish/Subscribe", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145196A (zh) * | 2018-06-06 | 2019-01-04 | 苏州大学 | 时间感知基于路径的发布和订阅框架的过滤验证方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106060154B (zh) | 2019-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108121737B (zh) | 一种业务对象属性标识的生成方法、装置和系统 | |
US10095771B1 (en) | Clustering and recommending items based upon keyword analysis | |
US10078802B2 (en) | Method and system of discovering and analyzing structures of user groups in microblog | |
Bozzon et al. | Liquid query: multi-domain exploratory search on the web | |
US9690846B2 (en) | Intelligent navigation of a category system | |
Jafarkarimi et al. | A naive recommendation model for large databases | |
US8533225B2 (en) | Representing and processing inter-slot constraints on component selection for dynamic ads | |
US20110004606A1 (en) | Method and system for determining relevance of terms in text documents | |
US20100299325A1 (en) | System and method for generation of a customized web page based on user identifiers | |
CN103295145A (zh) | 一种基于用户消费特征向量的手机广告投放方法 | |
CN107015987B (zh) | 一种更新和搜索数据库的方法及设备 | |
CN106911757A (zh) | 一种业务信息的推送方法和装置 | |
CN104156356B (zh) | 个性化导航页面生成方法及装置 | |
CN107092609A (zh) | 一种信息推送方法及装置 | |
CN107870934B (zh) | 一种app用户聚类方法及装置 | |
CN110633406A (zh) | 事件专题的生成方法、装置、存储介质和终端设备 | |
CN106708829A (zh) | 一种数据推荐方法及推荐系统 | |
Cho et al. | Mining association rules using RFM scoring method for personalized u-commerce recommendation system in emerging data | |
CN102222076A (zh) | 一种信息比较方法和装置 | |
CN106060154A (zh) | 基于主题模型的订阅发布匹配方法及装置 | |
Yu et al. | A novel framework to alleviate the sparsity problem in context-aware recommender systems | |
Mohammadnezhad et al. | An effective model for improving the quality of recommender systems in mobile e-tourism | |
KR101686588B1 (ko) | 단계별로 매칭 광고를 확장하는 광고 시스템 및 방법 | |
Zhang et al. | Recommendation for newborn services by divide-and-conquer | |
Mohammadnezhad et al. | Providing a model for predicting tour sale in mobile e-tourism recommender systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |