CN112270199A - 基于CGAN方法的个性化语义空间关键字Top-K查询方法 - Google Patents
基于CGAN方法的个性化语义空间关键字Top-K查询方法 Download PDFInfo
- Publication number
- CN112270199A CN112270199A CN202011208313.8A CN202011208313A CN112270199A CN 112270199 A CN112270199 A CN 112270199A CN 202011208313 A CN202011208313 A CN 202011208313A CN 112270199 A CN112270199 A CN 112270199A
- Authority
- CN
- China
- Prior art keywords
- query
- tree
- semantic
- space
- air
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000005516 engineering process Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 13
- 230000004044 response Effects 0.000 description 23
- 230000000694 effects Effects 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000000691 measurement method Methods 0.000 description 4
- 238000003672 processing method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 235000013410 fast food Nutrition 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于CGAN方法的个性化语义空间关键字Top‑K查询方法,步骤为:对于空间对象文本信息中的每个单词/词组,使用CGAN方法生成一系列与之相关的关键字,存储在单词语义相似度表中,用于对查询关键字的语义扩展;构建AIR‑tree混合索引结构;利用构建的AIR‑tree混合索引进行查询结果快速匹配;得到匹配结果的综合得分,并按综合得分选出top‑k个最终结果。本发明通过利用条件对抗生成网络技术实现空间关键字查询的语义扩展,并通过构建AIR‑tree混合索引以及数值属性元组的Skyline集合,提升查询效率以及对文本和数值查询的支持;本发明可以支持空间关键字的语义近似查询,能处理数值属性,具有较高的查询效率,在很大程度上提高了查询结果的用户满意度和查询效率。
Description
技术领域
本发明属于基于位置的服务(LBS)系统和空间兴趣点推荐的技术领域,尤其涉及一种基于CGAN方法的个性化语义空间关键字Top-K查询方法。
背景技术
随着移动互联网的广泛应用,互联网上出现了越来越多的空间网络对象。空间对象主要包含位置信息(通常用经纬度表示)、文字信息(如名称、设施、类别等)和数值信息(如价格、用户评分等)。随着空间对象的增加,基于位置的服务(LBS),如携程、Didi、Foursquare、Yelp等越来越受欢迎,而空间关键词查询是LBS的重要支撑技术。然而,现有的空间关键字查询处理模型大多只支持位置相近度和严格的文本匹配,这使得语义相关的对象无法提供给用户,甚至可能导致返回结果为空的问题。此外,现有的索引结构(如IR-tree、Quadtree)无法处理通常包含在空间对象相关的描述性信息中的数值属性,而这些数值属性通常包含在空间对象的描述性信息中。
然而,目前的空间关键字查询模型通常面临着以下问题。
首先,它们主要关注于检索与查询关键字在文本相似性方面匹配的空间对象,而没有考虑到语义相似性。事实上,与查询关键字在语义上有关联但与查询关键字形式上不匹配的空间对象也可能被用户接受。
其次,他们把描述性信息中包含的数值作为文本关键字来对待,而数值代表的含义与文本关键字相比,其含义不同,对数值信息的处理方法也与文本匹配处理的方法有很大的差异。
例如,一些LBS系统,如Airbnb、TripAdvisor、hotel.com、Craigslist、Yelp、Zillow等,都有布尔属性、分类属性和大量的数值属性。但是,在大多数情况下,这些数字属性一般都是经过离散化处理,转化为分类属性,然后通过文本匹配的处理方式进行处理,可能会导致用户的查询需求和喜好不尽如人意。
现有的空间关键字查询处理模式主要有:top-k范围查询和top-k近邻查询,主要是根据空间对象与空间关键字查询之间的文本相似度和位置相近度构建结果评分函数,进而利用文本和空间混合索引技术提高查询效率。现有的空间数据和文本信息相混合的索引技术主要有IR-tree、IR2-tree、Quad-tree、bR*-tree和S2I等,这些空间-文本索引都是空间索引与文本索引的混合,其中空间索引的最基本结构是R-tree和Quad-tree,文本搜索的索引技术主要有倒排文件(Inverted file)、签名文件(Signature file)和位图索引(Bitmap)等。然而,上述空间-文本索引结构主要关注空间对象与空间关键字查询的位置邻近性和文本相似性,而很少考虑查询结果的语义相关性。尽管最近有少数工作研究了空间关键字查询的语义匹配,但空间对象除了包含位置信息和文本信息之外,还包含了价格、用户评分等数值属性,现有方法需要把先把数值属性进行离散化处理,然后视其为文本属性进行处理,但这种处理方法不能有效进行数值大小和数值区间包含关系的比较,而实际上数值信息的处理方法与文本匹配处理方法还是有很大的不同。
语义/文本相似度测量方法主要可分为以下四类:(1)基于KB(Knowledge based)的相似度量法。基于KB的方法,如WordNet、Probase和维基百科等,被用来拆分文本,然后捕捉关键字的关系。然而,WordNet和维基百科中的关键字及其关系度量是主观的,不能反映关键字与数据集之间的关系。(2)基于主题模型的相似度衡量方法(如LDA)。主题模型被广泛应用于文本分类、用户行为分析、功能区发现等方面。虽然主题模型相对于传统的相似度测量方法如Bag of Words(BOW)、CVM-VSM模型等的相似度测量方法取得了一定的改进,但在处理特殊场景(如短文)时,主题模型的改进和泛化能力还不够。遗憾的是,空间对象的文本描述往往是短文本,然而短文本通常不包含足够的统计信息,无法支持传统的主题模型进行文本处理。(3)基于词嵌入的相似度量。目前流行的词汇嵌入技术主要包含Word2Vec(如Skip-gram和CBOW)、genism、FastText和GloVe。然而,单词嵌入技术如Word2Vec等,通常假定附近/相邻的单词/短语(在一个固定的窗口大小)具有很强的上下文关系,而它不能处理罕见的查询,并且不能准确地测量关键字之间的相关性。(4)基于条件对抗生成网络(CGAN)的相似度量。在赞助搜索广告选择中,CGAN被用于直接从查询中生成竞标关键字,特别是对于罕见的查询。通过对生成器进行训练,可以直接生成与初始查询关键字语义相关的关键字,从而可以通过这些生成的关键字对原始查询进行扩展。
尽我们所知,目前还没有相关工作同时考虑空间对象与空间关键字查询在位置、语义和数值上的综合相关度,进而也就没有同时支持上述综合查询的混合索引结构。
发明内容
基于以上现有技术的不足,本发明所解决的技术问题在于提供一种基于CGAN方法的个性化语义空间关键字Top-K查询方法,建立有效的混合索引结构,以提高查询效率,该模型可以综合考虑空间对象与查询之间的位置接近度、语义/文本相似度、用户对空间对象与查询的数值属性的满意度等因素来评价查询结果。
为了解决上述技术问题,本发明通过以下技术方案来实现:
本发明方法涉及的一些相关定义如下:
给定一个空间数据集O={o1,o2,…,on},每个空间对象oi由一个三元组(λ,K,A)构成,其中oi.λ表示oi的位置信息(二维空间对象通常由经纬度表示),oi.K是oi中的文本关键字集合,oi.A是oi中的数值属性集合。需要指出的是,oi.A中的值o.ai标准化到[0,1]之间,这些数值属性的值越小越好,如,噪声低,价格低等;如果数值属性的值越高越好,例如环境氛围,评分等信息,则可以通过ai=1-ai将其转换。空间关键字查询q由三元组(λ,K,W)表示,其中q.λ是查询位置,q.K是查询关键字集合,q.W是用户对不同数值属性的偏好权重集合(并且)。
本发明方法的执行过程包括以下步骤:
步骤1:对于空间对象文本信息中的每个单词/词组,使用CGAN方法生成一系列与之相关的关键字,存储在单词语义相似度表中,用于对查询关键字的语义扩展。
步骤1.1:提取所有空间对象文本信息中的单词/词组,进行去停用词处理,选取词频较高的单词,之后所有不同单词/词组构成一个词典(Vocabulary)。
步骤1.2:对于词典中的每个不同单词/词组(term),利用CGAN技术生成与之语义相关的单词/词组,存储在单词语义相似度表中,用于在线查询阶段的查询关键字语义扩展。基于CGAN的方法可以捕捉到学习样本(如查询历史和文本文档)中出现次数极少的关键字之间的隐性或潜性关联,而现有的相似度测量方法(如TFIDF、PMI、LDA等)由于其统计学计算性质,在挖掘低频次出现的关键字之间的关联方面有所不足。在查询扩展(查询-关键字匹配)阶段,根据用户的查询,以序列到序列(sequence-to-sequence)模型作为生成器生成关键字,然后以RNN模型作为判别器,与生成器进行博弈。利用策略梯度来训练模型。训练后,给定一个用户的查询,生成器可以使用匹配多种查询的不同噪声向量,生成一组与原始查询关键字语义相关的关键字。也就是说,通过训练生成器,可以直接从给定的查询中生成与之语义相关的关键字,从而有效地提高了在线查询扩展性能。
步骤2:构建AIR-tree混合索引结构。
步骤2.1:利用IR-tree生成AIR-tree,AIR-tree每个节点的信息分为三个部分:前两部分是两个指针,分别指向包含该节点所有关键字的倒排文件(InvFile)和数值属性文件(AttrFile),第三部分是该节点中的条目集合(Entries)。
步骤2.2:生成AIR-tree各中间节点下空间对象数值属性元组的Skyline集合。
步骤3:对于用户给定的空间关键字查询条件,先从步骤1中的语义相似度表中找出语义相关单词,扩展查询关键字范围;然后利用构建的AIR-tree混合索引进行查询结果快速匹配;在匹配过程中,先检查每个分支节点是否满足查询条件的空间约束,在满足空间约束的前提下,再检查该节点的InvFile中是否包含查询关键字;对于匹配的节点,分别计算其Skyline集合中的空间对象与查询条件的位置相近度、语义/文本相关度和数值接近度,最后得到匹配结果的综合得分,并按综合得分选出top-k个最终结果。具体步骤如下:
步骤3.1:扩展空间关键字查询条件,利用AIR-tree得到与查询条件相匹配的节点,获得匹配节点中处于Skyline集合中的空间对象作为候选结果集合;
步骤3.2:对于候选结果集合中的每个空间对象,分别计算出其与查询q的位置相近度、语义/文本相关度以及数值接近度;
步骤3.3:计算出结果对象o与查询q的综合相关度分数,按分数大小选出top-k个最终结果。
由上,本发明通过利用条件对抗生成网络(CGAN)技术实现空间关键字查询的语义扩展,并通过构建AIR-tree混合索引以及数值属性元组的Skyline集合,提升了查询效率以及对文本和数值查询的支持。实验结果表明,本发明提出的算法可以支持空间关键字的语义近似查询,且能处理数值属性,并且具有较高的查询效率,在很大程度上提高了查询结果的用户满意度和查询效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下结合优选实施例,并配合附图,详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍。
图1为本发明实施例中解决方案框图;
图2为本发明实施例中AIR-tree索引结构图;
图3为本发明实施例中利用表1中数据构建的AIR-tree索引结构图;
图4为本发明实施例中在Yelp和Foursquare数据集上,查询结果个数k值不同时,采用IR-tree,IRS-tree,AIR-tree所用查询响应时间对比图;
图5为本发明实施例中在Yelp和Foursquare数据集上,数值属性个数不同时,采用IR-tree,IRS-tree,AIR-tree所用查询响应时间对比图;
图6为本发明实施例中在Yelp和Foursquare数据集上,查询关键字个数不同时,采用IR-tree,IRS-tree,AIR-tree所用查询响应时间对比图;
图7为本发明实施例中在不同数据量大小的Yelp和Foursquare数据集上,采用IR-tree,IRS-tree,AIR-tree所用查询响应时间对比图;
图8为本发明实施例中在不同数据量大小的Yelp和Foursquare数据集上,构建IR-tree,IRS-tree,AIR-tree索引结构所用时间对比图;
图9为本发明实施例中在Yelp和Foursquare数据集上,查询结果个数k值不同时,采用IR-tree,IRS-tree,AIR-tree所获得的查询准确率对比图;
图10为本发明实施例中在Yelp和Foursquare数据集上,调节参数β值不同时,采用IR-tree,IRS-tree,AIR-tree所获得的查询准确率对比图。
具体实施方式
下面结合附图详细说明本发明的具体实施方式,其作为本说明书的一部分,通过实施例来说明本发明的原理,本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中,不同的图中相同或相似的部件使用相同的附图标号来表示。
随着GPS的普及和空间Web对象的快速增加,空间关键字查询在基于位置的服务(LBS)中得到了广泛的应用。现有的空间关键字查询处理模型大多只支持位置相近和严格的文本匹配,这使得语义相关但形式不匹配的对象无法提供给用户,甚至可能导致返回结果为空的问题。此外,目前的索引结构(如IR-tree、Quadtree)不能处理数字属性,而数字属性通常包含在与空间对象相关的描述信息中。针对这些问题,本发明提出了一种能够支持语义近似查询处理的空间关键词查询方法。首先,通过条件对抗生成网络(ConditionalGenerative Adversarial Nets,CGAN)方法对用户原始查询进行扩展,生成一系列与原始查询关键字语义相关的查询关键字。而后,为了方便查询匹配,构建了一个称为AIR-tree的混合索引结构,该结构可以支持文本语义匹配,并用Skyline方法处理数字属性。实验分析和结果表明,与最先进的方法相比,本发明方法具有更高的执行效率和更好的用户满意度。
本发明提出的空间关键字top-k语义近似查询方法,解决方案框图如图1所示。下面结合表1数据和查询,描述本发明的具体执行过程和每个重要阶段的结果。
表1.空间对象的位置、文本和数值信息以及空间关键字查询例子
步骤1:对于空间对象文本信息中的每个单词/词组,利用CGAN方法计算出与其语义相关的关键字,存储在单词语义相似度表中,用于对查询关键字的语义扩展。
步骤1.1:提取所有空间对象文本信息中的单词/词组,进行去停用词处理,之后所有不同单词/词组构成一个词典(Vocabulary),本发明设置的词典的大小为50000。
步骤1.2:利用CGAN方法对查询关键字进行语义近似扩展。例如,对于Mcdonald's和Fast Food,它们扩展关键字分别为burgers@convenience stores@american(new)@chicken wings和narula's@mister lees@arts&crafts@church's chicken@arabian(以@分割)。
步骤2:构建AIR-tree索引结构,如图2所示。
步骤2.1:AIR-tree的生成过程是自底向上的建树过程。对于叶子节点,它当中的每个条目由一个四元组构成,形式为<o,Rect,o.tid,o.aid>,其中o代表一个空间对象,Rect代表该对象的最小外接矩形(MBR),o.tid是该对象的文本信息标识符,o.aid是该对象的数值属性元组信息标识符。对于非叶子节点,它当中的每一项也由一个四元组构成,形式为<pN,Rect,N.pid,N.aid>,其中,pN是该节点中孩子节点N的地址,Rect是指能够包含该节点下所有孩子节点的最小外接矩形(MBR),N.pid是该节点的文档标识符,文档中包含了该节点下所有子节点的文本信息概要(即抽取的文本关键字集合),N.aid是该节点的数值属性信息标识符,数值属性信息包含了该节点下所有子节点的数值属性元组的Skyline集合。
基于表1数据,生成的AIR-tree如图3所示。其中N1中的结点有o8,o7,o10。N2中的结点有o12,o16,o18,o20。N3中的结点有o1,o4。N4中的结点有o19,o3,o17。N5中的结点有o15,o11。N6中的结点有o1,o4。N7中的结点有o14,o9,o13。N8中的结点有N1,N2,N3,N4。N9中的结点有N5,N6,N7。其中N1的AttrFile为{[0.57,0.95],[0.66,0.19]},N2的AttrFile为{[0.06,0.58],[0.2,0.55]},N3的AttrFile为{[0.24,0.39]},N4的AttrFile为{[0.13,0.21],[0.54,0.18]},N5的AttrFile为{[0.61,0.19]},N6的AttrFile为{[0.17,0.0]},N7的AttrFile为{[0.09,0.61],[0.56,0.43]},N8的AttrFile为{[0.06,0.58],[0.13,0.21],[0.54,0.18]},N9的AttrFile为{[0.09,0.61],[0.17,0.0]},root的AttrFile为{[0.06,0.58],[0.13,0.21],[0.17,0.0]}。N1的最小限定框(MBR)为[36.0558252,36.20743,-115.26846,-115.04635],N2的MBR为[33.2717201,43.867565,-111.79126,-79.399348],N3的MBR为[33.33069,33.3831468,-111.9786,-111.964725],N4的MBR为[33.463629,33.6087,-112.347,-112.1153098],N5的MBR为[35.2216474,40.24155,-80.83934,-80.21282],N6的MBR为[40.401488,43.8751774,-80.0913,-79.2601532],N7的MBR为[40.2916853,48.7272,-81.4756898,9.14795],N8的MBR为[33.27172,43.8675648,-115.268,-79.3993388],N9的MBR为[35.2216474,48.7272,-81.4756898,9.14795],root的MBR为[33.2717201,48.7272,-115.26846,9.14795](格式为[xmin,xmax,ymin,ymax])。
步骤2.2:Skyline集合的生成过程。假设AIR-tree中某个节点下的所有空间对象对应的数值属性元组集合D有n条元组和m+1个数值,令Α={A1,A2,...,Am},t[Ai]为元组t上属性Ai的值。假设对于每个属性,在支配关系dominate中的值有一个偏序关系(例如,a>b,表明值a优于b)。一个元组t∈D支配另一个元组t’∈D,由t>t’表示,当且仅当t[Ai]≥t’[Ai]和t[Ai]>t’[Ai]。另外,如果一个元组t∈D与另一个元组t’∈D是不可比的,则表示为t~t’,当且仅当并且
基于表1数据,AIR-tree每个中间节点生成的数值属性元组的Skyline集合和MBR分别为(如表2所示):
表2.基于表1数据生成的AIR-tree的每个节点对应的Skyline集合及其MBR
步骤3:对于用户给定的空间关键字查询条件,先从步骤1中的语义相似度表中找出语义相关单词,扩展查询关键字范围;然后利用构建的AIR-tree混合索引进行查询结果快速匹配;对于匹配的节点,分别计算其Skyline集合中的空间对象与查询条件的位置相近度、语义/文本相关度和数值接近度,最后得到匹配结果的综合得分,并按综合得分选出top-k个最终结果。具体步骤如下:
步骤3.1:扩展空间关键字查询条件,利用AIR-tree得到与查询条件相匹配的节点,获得匹配节点中处于Skyline集合中的空间对象作为候选结果集合。对于表1中的查询q,表1中的前5个匹配结果分别是:o16,o18,o20,o12,o11,o15。
步骤3.2:对于候选结果集合中的每个空间对象,分别计算出其与查询q的位置相近度、语义/文本相关度以及数值接近度。例如,表1中对于查询q的匹配结果o11,利用本发明的计算方法,其与查询q的位置相近度、语义/文本相关度以及数值接近度分别为:0.9651,0.1361和0.484。
步骤3.3:计算出结果对象o与查询q的综合相关度分数,按分数大小选出top-k个最终结果。例如,基于表1数据,得到的结果对象o11与查询q的综合相关度分数为:0.53062。
为了进一步测试本发明方法中的CGAN语义近似扩展方法,本事实例中使用两个公开的基于位置的社交网络(LBSNs)数据集,Yelp评论数据集和Foursquare数据集作为训练数据来训练CGAN模型。保留文本和用户评论信息,并从这些信息中提取<query,keywords>对。<query,keywords>对的大小近似为800万。对其进行token规范化处理(如转换为小写,去掉特殊字符等),并将每个query(和keywords)表示为一个uni-gram术语序列,由此得到查询的字典大小为717.5万,关键字的字典大小为84.96万。Queries和Keywords的平均长度分别为4.37和3.94个tokens。本发明将训练集的统计结果汇总在表3中。
表3.本发明训练集的统计数据
然后,本发明利用训练好的CGAN模型在以下两个数据集上对用户原始查询关键字进行扩展。其中,Yelp是美国著名商户点评网站,其网站包含了各地餐馆、购物中心、酒店等各个领域的商户信息以及用户评价和签到时间等信息;将这些真实POI数据处理成174,567个兴趣点,使得每个兴趣点都有一个ID、位置信息(以经纬度的形式表示)、文本信息和数值属性信息,使用位置信息作为空间信息,用户评论信息、name、city、category作为文本信息,随机产生的5个0-1之间的随机数作为数值属性信息。基于位置的服务平台Foursquare,数据清理后,数据集包含215,614个与地理位置相关的空间对象以及描述空间对象的关键字列表和数值属性信息的标准化值,即每个空间对象包含经纬度信息,关键字信息,以及四个数值属性(包括价格,环境,服务和评级)。测试数据集的特征如表4所示。
表4.本发明使用的测试数据集的特征
为了进一步测试本发明方法的效果和性能,本事实例中选取了Foursquare数据集和Yelp数据集,说明本发明的查询准确性和查询效率(即查询响应时间)。
下面是利用本发明方法,在上述Yelp和Foursquare数据集上关于查询效率和查询准确率的测试结果。本发明方法中各参数的默认值在表5中给出。在实验过程中,通过改变某个参数的值,固定其他参数的值,来研究该参数对实验结果的影响。所有实验都采用Python实现,电脑配置为2.3GHz八核Intel Core i9、RAM 16GB、macOS操作系统。将本发明方法(AIR-tree)与现有经典方法IR-tree和IRS-tree进行查询效率和查询效果方面的对比。
IR-tree索引结构:是空间索引R-tree与倒排索引InvertedFile的结合,可以同时处理文本和空间信息,便于文件搜索中的四大任务,即空间过滤、文本过滤、相关性计算和文档排序的综合整合。此外,IR-tree允许搜索在运行时对文档的文本和空间相关性采用不同的权重,因此满足了多种应用。然而,它只是将数值属性当作文本关键字,这通常使查询结果不能满足用户的需求和偏好。本发明方法AIR-tree与IR-tree的区别是,增加了数值属性文件AttrFile,并且计算了每个中间节点下数值属性元组的skyline集合,能够有效处理数值属性上的查询,从而也使得查询结果更加地满足用户的个性化偏好。
IRS-tree索引结构:是一种具有Sybopse树的InvertedFile混合索引结构,可以同时搜索多种不同的数值属性,从而有效地处理一组通用位置敏感排序查询(GLRQ),根据排序函数排名,返回满足查询谓词的top-k个对象,并能根据谓词的可满足性对搜索空间进行修剪。然而,基于IRS的搜索算法需要为每个数值属性提供精确的数值范围,数值属性上的精确匹配也会导致很少甚至根本没有查询结果返回。此外,用户可能不会提供合适且精确的数值属性查询范围。
表5.本发明各参数的默认值
实验性能测试主要从两方面进行:
查询效率评价:该组实验的主要目的是评估查询结果数量k、数据集大小|D|、数值属性数量|o.A|和查询关键字数量|q.K|对查询效率(即查询执行时间)的影响。需要注意的是,在以下图中,"F/Y_index"分别代表各索引在Foursquare/Yelp数据集上的实验情况。
(1)参数k对查询执行时间的影响:本实验将k值分别设置为{5,10,...,60}来观测查询结果个数在两个数据集上对查询响应时间的影响。图4为本发明在Yelp数据集上当查询结果个数k值不同时,采用IR-tree,IRS-tree,AIR-tree所用查询响应时间的对比图。从图4可知,三种算法在k值越大情况下,查询响应时间越久。这是因为当k值增大时,会有越多的候选对象被索引。IR-tree的查询时间响应最短,因为它没有考虑数值属性,也没有考虑与查询关键字语义相关的关键字查询,因此查询时间最短。AIR-tree的查询响应时间稍长,原因是对初始查询关键字进行了语义扩展并且利用Skyline方法对数值属性进行处理。查询响应时间最长的是IRS-tree索引结构,因为它需要和其他索引结合且考虑数值属性的精确范围来完成查询,增加了查询成本。
(2)|o.A|对查询执行时间的影响:该实验目的是通过改变空间对象数值属性的个数来验证其对查询响应时间的影响。图5为本发明在Yelp/Foursquare数据集上,数值属性个数从1增长到10时,采用IR-tree,IRS-tree,AIR-tree所用查询响应时间的对比。从图5可以看出,随着数值属性个数的增加,查询响应时间也逐渐增加。这是由于AIR-tree结构在查询结果中需要对数值属性元组进行Skyline计算,在最坏情况下,Skyline方法几乎会将每个元组中的每个元素进行比较,因此数值属性个数越多,越耗费时间。IRS-tree比AIR-tree更耗时,原因是它在处理数值属性时,需要考虑数值属性的精确范围,若该属性的值域很大,则会进行大量计算。由于IR-tree不具备数值属性的处理功能,因此这里没有进行对比。
(3)|q.K|对查询执行时间的影响:本发明通过设置查询关键字的数量从1增长到8来观测其对查询响应时间的影响。图6为本发明在Yelp/Foursquare数据集上,查询关键字个数不同时,采用IR-tree,IRS-tree,AIR-tree所用查询响应时间的对比。由图6可知,查询响应时间与查询关键字的个数成正比增长。原因是无论哪种索引结构,当查询关键字增多时,需要索引的包含查询关键字的对象就越多,因此查询时间会增加。IR-tree由于其简单的索引结构,不需要考虑处理太多的附加信息(如语义信息和数值信息),所以查询时间最短。也可以发现,AIR-tree和IR-tree的查询响应时间要远远小于IRS-tree,并且本发明方法在同时能够处理文本和数值属性的情况下,查询响应时间与IR-tree相差不大。需要注意的是,随着|q.K|的增长,IRS-tree索引的处理成本迅速增加,因为IRS-tree需要扫描更多的包含查询关键字的文本文档中并落入数值属性的精确查询范围内的对象组。
(4)|D|与查询执行时间的关系:该实验旨在比较当POI数量从1万到8万(间隔为1万)时对查询响应时间的影响。从图7可以看出,随着数据集大小的增加,查询响应时间急剧增加,这是由于数据集越大,需要索引的对象越多,因此处理数值属性可能需要更多的时间。同时也可以看出,本发明方法AIR-tree的查询响应时间比IRS-tree短得多,因为IRS-tree严格限制了数值属性的精确范围,导致查询计算时间迅速增加,而AIR-tree的数值查询中使用的Skyline方法可以实现模糊查询,大大降低了查询响应时间。
(5)|D|与构建索引时间的关系:该实验目的是比较以上三种算法在构建索引所用时间上的对比。图8给出了在不同数据量大小的Yelp/Foursquare数据集上,构建IR-tree,IRS-tree,AIR-tree索引所用时间对比。由图7可知,索引构建时间与数据集的大小成正比,其中构建IR-tree索引结构所用时间最少,这是由于它与AIR-tree,IRS-tree索引结构相比,不需要构建AttrFile文件和Synopses,因此其索引构建时间最短;但AIR-tree与IR-tree的索引构建时间相差不大;而IRS-tree需要将Synopses树与其他索引结合来完成索引构建,而且在处理数值属性时还需要考虑更多的数值属性的精确范围,故其索引构建时间最长。
2.查询效果评价:该组实验旨在评估参数β和k对不同查询算法的准确性的影响。由于AIR-tree是一个高维度的近似查询索引,对于给定的查询q,一些语义相关但不完全的文本匹配的结果应该也被返回。故需要评估查询结果的准确性。本发明以用户满意度来衡量不同查询算法的准确性。首先,本发明从数据集中随机抽取10个空间对象作为测试查询。然后,对于每个查询,分别使用IR-tree、AIR-tree和IRS-tree索引来检索top-10个最相关的对象。这样,每个查询qi对应的目标集Hi为30个对象,这些对象很可能包含与qi相关和不相关的对象(如果有重复的对象,则删除重复的对象,随机添加新的对象)。接下来,对于每个qi,本发明要求10名教师、30名研究生和60名本科生从Hi中找出他们认为与qi最相关的top-10个对象。这里,I(qi)代表用户为查询qi所标注的top-10个对象作为ground truth,R(qi)分别指IR-tree、AIR-tree和IRS-tree所检索的top-10个对象。
(1)β对准确性的影响:本发明只测试参数β对AIR-tree在两个数据集上的准确性的影响。图9显示了本发明在不同的β值下的准确率。可以看出,Yelp和Foursquare数据集的准确率在β=0.7时达到峰值,对应的准确率分别为0.78和0.74,这说明本发明考虑了用户对数字属性的满意度,对提高准确率有很大帮助。此外,还可以观察到,β=1(即查询算法在评价查询结果时只考虑位置相近度和语义/文本相似度)对应的准确率优于β=0(即查询算法在评价查询结果时只考虑用户对数字属性的满意度)对应的准确率,这说明在评价查询结果时,位置相近度和语义/文本相似度的结合比用户对数字属性的满意度更重要,这在现实中是合理的。
(2)k对准确度的影响:本发明方法AIR-tree的性能与IR-tree和IRS-tree的对比在表6中报告了top-10个对象的准确性。图10为本发明在Yelp数据集上,在查询结果个数k取不同值时,采用IR-tree,IRS-tree,AIR-tree所获得的查询结果的用户满意度对比。如图10所示,本发明方法AIR-tree在两个数据集上的表现优于其他方法。当k={1,2,...,10}时,AIR-tree、IRS-tree和IR-tree的平均准确度分别为0.4225、0.3345和0.2760,所以AIR-tree与IR-tree和IRS-tree相比,平均准确度分别提高了14.65%和8.80%。本发明方法AIR-tree准确度的显著提升说明它能很好地满足用户对top-k结果的个性化以及语义近似处理的需求。这是因为本发明综合考虑了位置的相近度、语义/文本的相似性以及用户对数字属性的满意度,并将这些方面进行整合,构建了一个混合索引结构。此外,与IRS-tree相比,本发明方法AIR-tree不仅减轻了用户指定数值属性精确查询范围的负担,查询性能也有所提高。IR-tree由于没有考虑语义近似和用户对数值属性的满意度,因此在准确度上表现最差。IRS-tree虽然可以处理数值属性值,但没有考虑查询结果的语义相关性。同时可以看出,随着k的增加,各算法的准确率逐渐提高。这是因为当k较小的时候,一些没有排在结果列表前面的相关对象不会被算法提供,而当k变大的时候,它们就会出现在结果集中,所以随着k的增加,算法得到的对象集和用户标记的对象集之间的重合度会越来越高。
表6.本发明与对比算法的top-10个对象的准确性
以上所述是本发明的优选实施方式而已,当然不能以此来限定本发明之权利范围,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和变动,这些改进和变动也视为本发明的保护范围。
Claims (4)
1.基于CGAN方法的个性化语义空间关键字Top-K查询方法,其特征在于,包括以下步骤:
步骤1:对于空间对象文本信息中的每个单词/词组,使用CGAN方法生成一系列与之相关的关键字,存储在单词语义相似度表中,用于对查询关键字的语义扩展;
步骤2:构建AIR-tree混合索引结构;
步骤3:对于用户给定的空间关键字查询条件,先从步骤1中的语义相似度表中找出语义相关单词,扩展查询关键字范围;然后利用构建的AIR-tree混合索引进行查询结果快速匹配;在匹配过程中,先检查每个分支节点是否满足查询条件的空间约束,在满足空间约束的前提下,再检查该节点的InvFile中是否包含查询关键字;对于匹配的节点,分别计算其Skyline集合中的空间对象与查询条件的位置相近度、语义/文本相关度和数值接近度,最后得到匹配结果的综合得分,并按综合得分选出top-k个最终结果。
2.如权利要求1所述的基于CGAN方法的个性化语义空间关键字Top-K查询方法,其特征在于,步骤1的具体步骤如下:
步骤1.1:提取所有空间对象文本信息中的单词/词组,进行去停用词处理,选取词频较高的单词,之后所有不同单词/词组构成一个词典;
步骤1.2:对于词典中的每个不同单词/词组,利用CGAN技术生成与之语义相关的单词/词组,存储在单词语义相似度表中,用于在线查询阶段的查询关键字语义扩展。
3.如权利要求1所述的基于CGAN方法的个性化语义空间关键字Top-K查询方法,其特征在于,步骤2的具体步骤如下:
步骤2.1:利用IR-tree生成AIR-tree,AIR-tree每个节点的信息分为三个部分:前两部分是两个指针,分别指向包含该节点所有关键字的倒排文件和数值属性文件,第三部分是该节点中的条目集合;
步骤2.2:生成AIR-tree各中间节点下空间对象数值属性元组的Skyline集合。
4.如权利要求1所述的基于CGAN方法的个性化语义空间关键字Top-K查询方法,其特征在于,空间-语义/文本-数值相关度计算方法为:
步骤3.1:扩展空间关键字查询条件,利用AIR-tree得到与查询条件相匹配的节点,获得匹配节点中处于Skyline集合中的空间对象作为候选结果集合;
步骤3.2:对于候选结果集合中的每个空间对象,分别计算出其与查询q的位置相近度、语义/文本相关度以及数值接近度;
步骤3.3:计算出结果对象o与查询q的综合相关度分数,按分数大小选出top-k个最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011208313.8A CN112270199A (zh) | 2020-11-03 | 2020-11-03 | 基于CGAN方法的个性化语义空间关键字Top-K查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011208313.8A CN112270199A (zh) | 2020-11-03 | 2020-11-03 | 基于CGAN方法的个性化语义空间关键字Top-K查询方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112270199A true CN112270199A (zh) | 2021-01-26 |
Family
ID=74345468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011208313.8A Pending CN112270199A (zh) | 2020-11-03 | 2020-11-03 | 基于CGAN方法的个性化语义空间关键字Top-K查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112270199A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109947904A (zh) * | 2019-03-22 | 2019-06-28 | 东北大学 | 一种基于Spark环境的偏好空间Skyline查询处理方法 |
CN110362652A (zh) * | 2019-07-19 | 2019-10-22 | 辽宁工程技术大学 | 基于空间-语义-数值相关度的空间关键字Top-K查询方法 |
CN110377684A (zh) * | 2019-07-19 | 2019-10-25 | 辽宁工程技术大学 | 一种基于用户反馈的空间关键字个性化语义查询方法 |
JP2020030403A (ja) * | 2018-08-24 | 2020-02-27 | ネイバー コーポレーションNAVER Corporation | ディープラーニング生成モデルとマルチモーダル分布を利用してマルチターン会話応答を生成する方法およびシステム |
CN111259724A (zh) * | 2018-11-30 | 2020-06-09 | 塔塔顾问服务有限公司 | 从图像中提取相关信息的方法和系统及计算机程序产品 |
-
2020
- 2020-11-03 CN CN202011208313.8A patent/CN112270199A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020030403A (ja) * | 2018-08-24 | 2020-02-27 | ネイバー コーポレーションNAVER Corporation | ディープラーニング生成モデルとマルチモーダル分布を利用してマルチターン会話応答を生成する方法およびシステム |
CN111259724A (zh) * | 2018-11-30 | 2020-06-09 | 塔塔顾问服务有限公司 | 从图像中提取相关信息的方法和系统及计算机程序产品 |
CN109947904A (zh) * | 2019-03-22 | 2019-06-28 | 东北大学 | 一种基于Spark环境的偏好空间Skyline查询处理方法 |
CN110362652A (zh) * | 2019-07-19 | 2019-10-22 | 辽宁工程技术大学 | 基于空间-语义-数值相关度的空间关键字Top-K查询方法 |
CN110377684A (zh) * | 2019-07-19 | 2019-10-25 | 辽宁工程技术大学 | 一种基于用户反馈的空间关键字个性化语义查询方法 |
Non-Patent Citations (1)
Title |
---|
XIANGFU MENG等: "A Personalized and Approximated Spatial Keyword Query Approach", 《IEEE ACCESS》, 31 March 2020 (2020-03-31), pages 1 - 15 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106599278B (zh) | 应用搜索意图的识别方法及装置 | |
US10997370B2 (en) | Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time | |
Liu et al. | Full‐text citation analysis: A new method to enhance scholarly networks | |
CN110704743B (zh) | 一种基于知识图谱的语义搜索方法及装置 | |
CN108846029B (zh) | 基于知识图谱的情报关联分析方法 | |
CN110147421B (zh) | 一种目标实体链接方法、装置、设备及存储介质 | |
CN103440314A (zh) | 一种基于Ontology的语义检索方法 | |
CN112100396B (zh) | 一种数据处理方法和装置 | |
CN110362652B (zh) | 基于空间-语义-数值相关度的空间关键字Top-K查询方法 | |
Rakesh et al. | Probabilistic social sequential model for tour recommendation | |
CN110147494B (zh) | 信息搜索方法、装置,存储介质及电子设备 | |
WO2018176913A1 (zh) | 搜索方法、装置及非临时性计算机可读存储介质 | |
CN107153687B (zh) | 一种社交网络文本数据的索引方法 | |
JP6722615B2 (ja) | クエリクラスタリング装置、方法、及びプログラム | |
WO2023010427A1 (en) | Systems and methods generating internet-of-things-specific knowledge graphs, and search systems and methods using such graphs | |
KR20180097120A (ko) | 전자 문서 검색 방법 및 그 서버 | |
Kim et al. | Building concept network-based user profile for personalized web search | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索系统 | |
Lin et al. | Automatic tagging web services using machine learning techniques | |
CN109582868A (zh) | 基于词向量加权、支持向量回归和用户点击偏好的搜索推荐方法 | |
Contractor et al. | Joint Spatio-textual reasoning for answering tourism questions | |
Sales et al. | A compositional-distributional semantic model for searching complex entity categories | |
Chen et al. | A framework for annotating OpenStreetMap objects using geo-tagged tweets | |
JP2013200862A (ja) | クエリ結果を多様化するための方法および装置 | |
Li et al. | Complex query recognition based on dynamic learning mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |