CN111008270B - 采用AkC解决SKQwhy-not问题的方法及系统 - Google Patents
采用AkC解决SKQwhy-not问题的方法及系统 Download PDFInfo
- Publication number
- CN111008270B CN111008270B CN201911128664.5A CN201911128664A CN111008270B CN 111008270 B CN111008270 B CN 111008270B CN 201911128664 A CN201911128664 A CN 201911128664A CN 111008270 B CN111008270 B CN 111008270B
- Authority
- CN
- China
- Prior art keywords
- query
- cluster
- attribute
- objects
- clusters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/387—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种采用AkC解决SKQwhy‑not问题的方法及系统,涉及空间关键字查询技术领域,本发明通过将对象的数字属性以布尔表达式的形式表示,更接近现实应用场景;设计AkC索引来巧妙的组织对象信息,同时设计出相应的查询策略,并通过修改查询q',用最小的修改代价,满足在查询结果中所有缺失对象均出现,解决空间关键字查询中why‑not问题。本发明所采用的AkC索引,根据对象与其集群质心之间的距离将空间划分为多个集群,具有良好的空间过滤能力;在每个集群中建立了关键词倒排文件,具有很好的文本过滤能力;在每个集群中创建属性倒排文件,并将每个群集的属性摘要信息存储在查找表中,具有良好的属性过滤能力。
Description
技术领域
本发明涉及空间关键字查询技术领域,具体涉及一种采用AkC解决SKQwhy-not问题的方法及系统。
背景技术
随着越来越多的对象与地理位置和文本描述相关联,空间关键字查询(SKQ)已经被提出且被广泛的研究。在现实生活中,对象一般具有其他的数字属性,例如平均价格、比率、流行度等等。如果在查询中没有考虑到这些限制的条件,通常不可能或者很难得到用户所要的结果。因此,为了满足查询用户在这些属性上的限制条件和精炼查询过程,空间关键字查询需要考虑到数字属性。
本文主要针对top-k增强型空间关键字查询。在检索top-k对象时,该类查询首先检索满足q查询中的数字属性要求的对象,然后根据查询点与对象之间的空间距离和文本相似性的综合得分进行排名。图1给出的是一个增强型空间关键字查询的一个示例,表1给出的是对象的文本信息和相关属性信息。
表1:图1中对象的相关信息
如图1所示,用户发起一个关于关键字cafe的查询,其中平均价格不超过42美元、评分高于4.3分、流行度大于700。然后这些增强性的需求可以用一个布尔表达式来表示:(avg-price<42∧Rating>4.3∧Popularity>700)。首先,对象o3、o5、o8满足以上增强性查询需求,然后根据对象o3、o5、o8与查询q之间的文本匹配和空间匹配程度,可以使用所选择的排序函数返回排序在前的前三个对象。除此之外,由于o1与q没有相同的关键字,所以o1被忽略;o2、o4、o6、o7也被忽略,因为它们都不满足查询属性要求。
然而,在某些情况下,当用户想要的对象没有出现在查询结果集中,用户可能会思考为什么这些想要的对象没有出现在查询结果集中,如何将他们想要的对象添加到查询结果集中。例如,在用户发起一个查询并且得到包含o3、o5、o8的查询结果后,他或许想知道为什么他们熟悉的对象o1、o6没有出现在查询结果集中,o3、o5、o8难道真的比o1、o6好吗?他们如何才能使他们熟悉的对象o1、o6出现在查询结果集中?
在获取查询结果后,用户可能发现他们想要某些对象不在查询结果集中,从而他们就会质疑整个查询结果。解决为什么这些想要的对象缺失以及如何高效地检索出用户想要的查询对象的问题就称为why-not问题。然而,目前尚未有解决增强型的空间关键字top-k查询中why-not问题的相关技术。因此,亟需一种能够解决增强型空间关键字top-k查询中why-not问题的技术方案。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种采用AkC解决SKQwhy-not问题的方法及系统,有效解决空间关键字查询中why-not问题。
为达到以上目的,本发明采取的技术方案是:一种采用AkC解决SKQwhy-not问题的方法,包括以下步骤:
获取所有对象o,将对象o划分为k个集群,构建AkC索引;
获取初始查询q=(q.loc,q.doc0,q.B,k,α)和缺失对象集M;根据缺失对象的关键字的频率递减的顺序构建候选关键字列表CKS、根据缺失对象的相似性得分递减的顺序构建候选属性值对列表CAS;将精炼查询q'的关键字集q'.doc和属性值对q'.B'分别设置为q.doc0和q.B;
有序地抽取CKS中的关键字和CAS中的属性值对,分别添加至查询q'的关键字集q'.doc和查询q'的属性值对q'.B'中,形成新的精炼查询q';分别对各个精炼查询q'进行处理以找出最佳精炼查询,直至CKS和CAS都为空;
分别对各个精炼查询q'进行处理,具体包括:
计算q'的修改代价p',过滤掉p'≥pc的查询q',pc为保留初始查询关键字和属性、且所有的缺失对象都出现在查询结果中的查询qb的修改代价;
对于p'<pc的查询q',根据预设的剪枝策略删减掉不符合条件的集群,得出待处理的集群;
对于待处理的集群,根据AkC索引和预设的筛选条件筛出符合条件的集群;
将符合条件的集群包含的对象添加到满足查询q'要求的对象集中,并计算查询q'和对象之间的相似性得分;
对满足查询q'要求的对象集中的所有对象均根据其相似性得分从高至低排序,直到所有原始结果对象和所有缺失对象均出现,获得k'个对象;
如果k'≤km,km为保留初始查询关键字和属性、且所有的缺失对象都出现在查询结果中时结果集的大小,则计算q'的修改代价p',如果p'<pc,则将查询q'作为当前最佳精炼查询。
在上述方法的基础上,获取所有对象o,将对象o划分为k个集群,构建AkC索引,具体包括以下步骤:
通过使用k均值聚类法将所有对象o划分为k个集群;
采用查找表来保存每个集群的集群ID和属性摘要信息,集群的属性摘要信息是该集群所有对象的属性值对的并集;
每个集群对应该集群的一个关键字倒排文件和一个属性倒排文件。
在上述方法的基础上,对于p'<pc的查询q',根据预设的剪枝策略过滤掉不符合条件的集群,得出待处理的集群,具体包括以下步骤:
判断查询q'和集群Ci之间的空间距离是否满足以下不等式:
若满足,作为待处理的集群,若不满足,过滤掉该集群。
在上述方法的基础上,对于待处理的集群,根据AkC索引和预设的筛选条件筛出符合条件的集群,具体包括以下步骤:
如果查询属性q'.B'和集群所链接项的摘要信息满足属性匹配,则将访问该集群;否则,忽略该集群;
对于被访问的集群,如果查询属性q'.B'与集群的属性倒排文件的属性信息满足属性匹配,且精炼查询的关键字q'.doc'与集群的关键字倒排文件的关键字满足关键字匹配,则该集群为符合条件的集群;否则,忽略该集群。
在上述方法的基础上,B为布尔表达式:
在上述方法的基础上,计算q'的修改代价p',计算公式为:
其中,β1,β2,β3,β4分别表示是cost函数中k值、关键字、属性种类、属性值的权重;βi≥0且k'是精炼查询q'的查询结果集的大小,k0是初始查询q的结果集的大小,km是保留初始查询关键字和属性,且所有的缺失对象都出现在查询结果中时结果集的大小,用km-k0规范化k'-k0;Δdoc是从q.doc0调整到q'.doc所需改变的关键字的数量,其中缺失对象集M={m1,m2,...,mj},通过|q.doc0∪M.doc|来规范化Δdoc;ΔAn是从初始查询调整到精炼查询所需改变的属性种类的数量,通过|q.B∪M.B|来规范化ΔAn;/>n是q.B和M.B所包含的属性的总和;Δvi是包含属性Ai的所有对象关于该属性的属性值的最大差值;|vi'-vi|是属性Ai中当前查询属性值vi'与初始查询属性值vi之间的差值的绝对值,且|vi'-vi|≤Δvi,通过Δvi来规范化|vi'-vi|。
在上述方法的基础上,计算查询q和对象o之间的相似性得分,计算公式为:
其中α是0到1之间的一个变量,用来定义距离邻近度与文本相关性之间的相对重要性,d(q.loc,o.loc)表示的是查询q与对象o之间的欧氏距离,dmax(q.loc,O.loc)表示的是查询点q到对象集合O中的所有对象的最大距离,用对象集O中所有对象间距离的最大值表示。
本发明还提供一种采用AkC解决SKQwhy-not问题的系统,包括:
AkC索引构建模块,其用于:获取所有对象o,将对象o划分为k个集群,构建AkC索引;
候选列表构建模块,其用于:获取初始查询q=(q.loc,q.doc0,q.B,k,α)和缺失对象集M;根据缺失对象的关键字的频率递减的顺序构建候选关键字列表CKS、根据缺失对象的相似性得分递减的顺序构建候选属性值对列表CAS;将精炼查询q'的关键字集q'.doc和属性值对q'.B'分别设置为q.doc0和q.B;
精炼查询模块,其用于:有序地抽取CKS中的关键字和CAS中的属性值对,分别添加至查询q'的关键字集q'.doc和查询q'的属性值对q'.B'中,形成新的精炼查询q';分别对各个精炼查询q'进行处理以找出最佳精炼查询,直至CKS和CAS都为空;分别对各个精炼查询q'进行处理,具体包括:
计算q'的修改代价p',过滤掉p'≥pc的查询q',pc为保留初始查询关键字和属性、且所有的缺失对象都出现在查询结果中的查询qb的修改代价;
对于p'<pc的查询q',根据预设的剪枝策略过滤掉不符合条件的集群,得出待处理的集群;
对于待处理的集群,根据AkC索引和预设的筛选条件筛出符合条件的集群;
将符合条件的集群包含的对象添加到满足查询q'要求的对象集中,并计算查询q'和对象之间的相似性得分;
对满足查询q'要求的对象集中的所有对象均根据其相似性得分从高至低排序,直到所有原始结果对象和所有缺失对象均出现,获得k'个对象;
如果k'≤km,km为保留初始查询关键字和属性、且所有的缺失对象都出现在查询结果中时结果集的大小,则计算q'的修改代价p',如果p'<pc,则将查询q'作为当前最佳精炼查询。
在上述方法的基础上,所述AkC索引构建模块具体用于:
获取所有对象o,通过使用k均值聚类法将所有对象o划分为k个集群;
采用查找表来保存每个集群的集群ID和属性摘要信息,集群的属性摘要信息是该集群所有对象的属性值对的并集;
每个集群对应该集群的一个关键字倒排文件和一个属性倒排文件。
在上述方法的基础上,所述精炼查询模块对于p'<pc的查询q',根据预设的剪枝策略过滤掉不符合条件的集群,得出待处理的集群,具体包括以下步骤:
判断查询q'和集群Ci之间的空间距离是否满足以下不等式:
若满足,作为待处理的集群,若不满足,过滤掉该集群。
在上述方法的基础上,所述精炼查询模块对于待处理的集群,根据AkC索引和预设的筛选条件筛出符合条件的集群,具体包括以下步骤:
如果查询属性q'.B'和集群所链接项的摘要信息满足属性匹配,则将访问该集群;否则,忽略该集群;
对于被访问的集群,如果查询属性q'.B'与集群的属性倒排文件的属性信息满足属性匹配,且精炼查询的关键字q'.doc'与集群的关键字倒排文件的关键字满足关键字匹配,则该集群为符合条件的集群;否则,忽略该集群。
在上述方法的基础上,B为布尔表达式:
与现有技术相比,本发明的优点在于:
本发明通过将对象的数字属性以布尔表达式的形式表示,更接近现实应用场景;设计AkC索引来巧妙的组织对象信息,同时设计出相应的查询策略,并通过修改查询q',用最小的修改代价,满足在查询结果中所有缺失对象均出现,进而实现解决空间关键字查询中why-not问题。
进一步的,本发明所采用的AkC索引,根据对象与其集群质心之间的距离将空间划分为多个集群,具有良好的空间过滤能力;在每个集群中建立了关键词倒排文件,具有很好的文本过滤能力;不仅在每个集群中创建属性倒排文件,而且还将每个群集的属性摘要信息存储在查找表中,具有良好的属性过滤能力。
附图说明
图1为背景技术的对象集实例示意图;
图2为本发明实施例的AkC的实例的示意图;
图3为本发明实施例的用AkC索引获得的查询集群序列的示意图;
图4为本发明实施例的基于AkC索引的算法示意图。
具体实施方式
本发明实施例提供一种采用AkC解决SKQwhy-not问题的方法,包括以下步骤:
获取所有对象o,将对象o划分为k个集群,构建AkC索引;
获取初始查询q=(q.loc,q.doc0,q.B,k,α)和缺失对象集M,q.loc表示查询q所在位置,q.doc0表示查询q关键字集,q.B为布尔表达式,用来表示属性值对,k表示取查询结果排名的前k位,a为0到1之间的一个变量,用来定义距离邻近度与文本相关性之间的相对重要性;根据缺失对象的关键字的频率递减的顺序构建候选关键字列表CKS、根据缺失对象的相似性得分递减的顺序构建候选属性值对列表CAS;将精炼查询q'的关键字集q'.doc和属性值对q'.B'分别设置为q.doc0和q.B;
有序地抽取CKS中的关键字和CAS中的属性值对,分别添加至查询q'的关键字集q'.doc和查询q'的属性值对q'.B'中,形成新的精炼查询q';分别对各个精炼查询q'进行处理以找出最佳精炼查询,直至CKS和CAS都为空;
分别对各个精炼查询q'进行处理,具体包括:
计算q'的修改代价p',过滤掉p'≥pc的查询q',pc为保留初始查询关键字和属性、且所有的缺失对象都出现在查询结果中的查询qb的修改代价;
对于p'<pc的查询q',根据预设的剪枝策略过滤掉不符合条件的集群,得出待处理的集群;
对于待处理的集群,根据AkC索引和预设的筛选条件筛出符合条件的集群;
将符合条件的集群包含的对象添加到满足查询q'要求的对象集中,并计算查询q'和对象之间的相似性得分;
对满足查询q'要求的对象集中的所有对象均根据其相似性得分从高至低排序,直到所有原始结果对象和所有缺失对象均出现,获得k'个对象;
如果k'≤km,km为保留初始查询关键字和属性、且所有的缺失对象都出现在查询结果中时结果集的大小,则计算q'的修改代价p',如果p'<pc,则将查询q'作为当前最佳精炼查询。
以下结合附图对本发明的实施例作进一步详细说明。
一、增强型空间关键字top-k查询的定义
谓词是构成布尔表达式的基本组件。给定四元组(A,fopt,fopd,x),其中A是属性,fopt是操作数,fopd是操作符,x是输入的值,可以更方便地定义谓词。
定义1:谓词。
定义2:布尔表达式。
定义3:文本-空间对象。
已知一个空间点o.loc,一组关键字集合o.doc和一组属性-值对{<A1,v1>,...,<Ai,vj>,...,<An,vn>},文本空间对象o可以表示如下:
o=<o.loc,o.doc,o.S>,其中o.S={(A1=v1)∩(A1=v1)∩…∩(An=vn)}
定义4:增强型空间关键字查询。
已知一个空间点q.loc,一个关键字集合q.doc0和一个布尔表达式q.B,那么一个增强型空间关键字查询q可以表达为:
q=<q.loc,q.doc0,q.B>
定义5:关键字匹配。
对于查询q和对象o,当且仅当q.doc和o.doc包含相同的关键字时,查询q和对象o才称为关键字匹配,也即:q.doc∩o.doc≠φ
定义6:属性匹配。
对于查询q和对象o,当且仅当满足以下两个条件:a)q.B中的所有属性都包含在o.S中;b)(假设属性q.B中的属性Ai与o.S中的属性Ai'相等),其中:/>(Ai'=vi')∈o.S,那么查询q和对象o就是属性匹配。
定义7:综合匹配。
当且仅当增强型空间关键字查询q和文本空间对象o同时满足关键字匹配和属性匹配时,q和o就是综合匹配,也即:
现在定义一个Rank函数来度量查询q和对象o之间的相似性得分:
其中α是0到1之间的一个变量,用来定义距离邻近度与文本相关性之间的相对重要性,d(q.loc,o.loc)表示的是查询q与对象o之间的欧氏距离,dmax(q.loc,O.loc)表示的是查询点q到对象集O中的所有对象的最大距离,具体用对象集O中所有对象间距离的最大值表示。
定义8:增强型空间关键字top-k查询。
二、增强型空间关键字top-k查询中的why-not问题
当用户发起一个增强型Top-k空间关键字查询
q=(loc,doc0,B,k,α),如果查询参数,例如文本描述、查询属性、k值和α设置不合理,这就会导致一个或者多个用户期望的对象可能意外缺失了,这种对象就称为缺失对象,用M={m1,m2,...,mj}表示。从而用户将会提出一个关于缺失对象集M={m1,m2,...,mj}的why-not问题,来询问为什么这些期望的对象会缺失,并寻求一个完善的、能够包含所有缺失对象的结果集的精炼查询q'=(loc,doc,B',k',α)。由于查询的位置通常是确定的,所以可以通过改变查询关键字集合、布尔表达式、k值和α值来改善初始查询。
考虑到精炼查询q'的结果集包含所有的缺失对象,使q'.doc除了包含原始关键字集,也将部分或者所有的缺失对象的关键字包含进去,即,CKS是一个按照关键字频率排序的缺失对象的有序关键字列表,函数Out_List(CKS)表示从CKS中取出第一个关键字,并返回该关键字。例如在例1中通过查询q筛选掉o1,o2,o4,o6,o7,假如o4和o6是缺失的对象,关键字“center”的频率高于关键字“Cosmic”,那么在CKS中“center”就排在“Cosmic”的前面,此时CKS={“center”,“Comic”}。类似的,让q'.B'满足除原始属性值对集之外的、所有缺失对象的每个属性值对的要求,即,CAS表示的是按照对象相似性得分排序的、缺失对象的有序属性值对列表。函数Out_List(CAS)表示从CAS中取出、并返回第一个属性值对。综合以上例子,假设o4的相似性得分排名比o6的高,因此o4的属性值对就排在o6的属性值对前面。这是因为高得分对象一般是用户更加期望得到的,所以他们的属性值更符合用户的需求。因此,优先考虑o4的属性值对,我们可以得到:
q'.B'=q.B∪Out_List(CAS)=q.B∪o4.B
=(avg-price≤42)∧(Rating>4.3)∧Popularity>700)
其中,q.B=(avg-price<42∧Rating>4.3∧Popularity>700),o4.S=(avg-price=42∧Rating=4.4∧Popularity=900)。
由于o6仍然不满足此精炼查询,因此考虑其属性值对,即,o6.S=(avg-price=35∧Rating=4.6∧Popularity=NULL),因而使得q'.B'=(avg-price≤42)∧(Rating>4.3)。
考虑到改变不同查询参数的值会对查询的优化产生不同的影响,精炼查询q'与初始查询q之间的修改代价可以定义如下:
其中,β1,β2,β3,β4分别表示是cost函数中k值、关键字、属性种类、属性值的权重。βi≥0且k'是精炼查询q'的查询结果集的大小,k0是初始查询q的结果集的大小,用km-k0规范化k'-k0。这是因为在许多前人的研究中,是通过保留初始查询关键字和属性,增大k0到km直到所有的缺失对象都出现在查询结果集中的方法来获取基本的精炼查询qb。与之相反,较佳的精炼查询可以通过修改k值、关键字、属性种类和属性值来使得查询修改代价降低。其中k'-k0小于或等于km-k0。Δdoc是从q.doc0调整到q'.doc所需改变关键字的数量,/>其中缺失对象集M={m1,m2,...,mj}。这里通过|q.doc0∪M.doc|来规范化Δdoc;ΔAn是从初始查询调整到精炼查询所需改变的属性种类的数量,这里通过|q.B∪M.B|来规范化ΔAn;然后/>n是q.B和M.B所包含的属性的总和。Δvi是包含属性Ai的所有对象关于该属性的属性值的最大差值。|vi'-vi|是属性Ai中当前查询属性值vi'与初始查询属性值vi之间的差值的绝对值,且|vi'-vi|≤Δvi。这里通过Δvi来规范化|vi'-vi|。
ΔAn和Δdoc可以通过编辑距离来计算。在图1的例子中,将初始查询q修改成精炼查询q',其中q'.doc="{cat},{cafe}",q'.A=(avg-price<42)∪(Rating>4.5)∪(Popularity>700),则ΔAn=1,Δdoc=1。
三、采用AkC索引的解决空间关键字查询中why-not问题的方法
k均值聚类是一种代表性的基于距离的聚类方法。基于这样的思想,两个对象的相似度和它们之间的距离是正相关的。对象被均匀地划分为k个群集,每个群集具有一个质心。与系统中的其他群集质心相比,群集中的对象与其质心之间的平均距离最小。本发明实施例提出一种基于k均值聚类的索引AkC,AkC是一个两层结构,第一层包括一个查找表和一个群集文件,第二层包括各集群的关键字倒排文件和属性倒排文件。
如图2所示,AkC使用两层划分模式。在第一层中,首先通过使用k均值聚类方法将图1的所有对象划分为三个集群,并采用聚类文件来存放划分结果。其次,采用查找表来保存每个集群的集群ID和属性摘要信息,从而帮助用户过滤掉大量不满足查询属性要求的集群。集群的属性信息是该集群所有对象的属性值对的并集。例如,在图2中集群C3中包括对象o1和o4,其中o1.S=(avg-price=42∧Rating=4.5∧Popularity=1000),o4.S=(avg-price=42∧Rating=4.4)∧Popularity=900),则集群C3的属性摘要信息为C3.S=Cover(o1.S,o4.S)=(avg-price∈[42,43])∧(Rating∈[4.4,4.5])∧(Popularity∈[900,1000])。
在第二层中,设计了各集群的关键字倒排文件和属性倒排文件,以方便检索集群中的对象。对于一个集群,某关键字的关键字倒排文件包括含有该关键字的集群对象的id,并按对象id的升序排列。属性的属性倒排文件以(attribute_value,object_id)的形式包括含有该属性的对象的id及其属性值,该倒排文件是以属性值的升序排列,若有两个对象的属性值相同,则具有较小id的对象优先。通过将查询关键字和查询属性分别与集群的关键字倒排文件和属性倒排文件进行比较,可以搜索到满足查询条件的集群对象。
表2:图2的Look up表
查找表的详细信息如表2所示。通过比较查找表中的查询属性和属性值对,可以修剪一些不相关的集群以提高查询效率。例如,位于集群C1上的对象包括o2,o3和o5。由于C1的属性摘要信息为(avg-price∈[37,40])∧(Rating∈[4.4,4.5])∧(Popularity∈[800,1400]),满足图1中的查询属性要求,那么就访问这个集群。
图3分别显示了使用AkC的初始查询和精炼查询的查询集群序列。由于在初始查询中,每个集群只能访问一次,因此可以根据访问集群的顺序来建立初始查询集群序列。初始查询集群序列以查询点与集群质心之间的距离的升序排列,并且优先访问其质心离查询点更近的集群。在初始查询中,满足查询要求的对象及其集群id将作为初始查询结果返回。根据初始查询结果和初始查询集群序列,可以构建精炼查询集群序列。具体来说,如图3所示,一个精炼查询集群序列包括两个部分:第1部分由所有包含初始查询结果对象的集群组成,按照这些集群中结果对象的最高相似性得分的降序排列;第2部分由除出在第1部分中已经出现的、初始查询集群序列中的集群组成。注意,无论在初始查询集群序列中还是在精炼查询集群序列中,每个集群只能出现一次。例如,如果对象o3、o6和o5按照相似性得分以降序的顺序出现在初始查询结果集中,且这些对象的对应集群序列为(C1,C2,C1)。那么精炼查询集群序列的第1部分为(C1,C2)。
基于AkC的增强型空间关键字top-k查询why-not问题处理方法的详细步骤参见图4所示。将AkC索引和优化的查询集群序列NSeq()作为该算法的输入。
将指针Ci、集合RRS初始化为空,分别用来指向正在访问的集群和存储满足精炼查询要求的对象。令q'.doc和q'.B'分别等于q.doc0和q.B(第4行)。接着,有序地取出CKS中的关键字和CAS中的属性值对,并将它们分别添加到q'.doc和q'.B'中,从而形成新的精炼查询,然后对这些精炼查询进行处理以找出最佳的精炼查询,直到CKS和CAS都为空。
第5-19行给出了每个精炼查询q'的处理步骤。首先,通过参数修改获得精炼查询q'。具体而言,将CKS中的第一个关键字和CAS中的第一个属性值对取出,分别添加到q'.doc和q'.B'中(第6-7行);令k'=k0(第8行)。在这里,函数Out_List(CKS)取出其第一个关键字并返回此关键字,而函数Out_List(CAS)的作用类似于Out_List(CKS)。根据式(2)计算q'的成本p',以尽早过滤比qb代价高的精炼查询。如果p'≥pc,则终止循环(10-11行)。否则,将通过访问NSeq()中的集群来继续q'的处理过程。
当NSeq()不为空时,NSeq()中的集群按照以下顺序处理:
1)将NSeq()中的第一个集群弹出,并由Ci指向它(第13行);
2)如果q和集群Ci之间的空间距离满足以下不等式:
那么集群Ci可能包含结果对象,继续后续的判断,否则Ci被忽略掉(第14行)。
上述过程中,式3的正确性由引理1保证。
因此,o'不能成为结果对象,这与假设矛盾的。故引理1成立。
3)如果精炼查询属性q'.B'和Ci所链接项的摘要信息满足属性匹配,继续后续的判断;否则,忽略该集群。接下来,对于剩下的集群,如果精炼查询属性q'.B'与集群的属性倒排文件的属性信息满足属性匹配,且精炼查询的关键字q'.doc'与集群的关键字倒排文件的关键字满足关键字匹配,那么可以通过式(1)计算出满足这些要求的对象的相似性得分,并将这些对象和他们的相似性得分添加到RRS中(第15-17行)。
接下来,对RRS中的所有对象根据它们的相似性得分进行排序(第18行)。如果k'≤km,则计算出q'的成本(第20行);如果p'<pc(第21-22行),则用p'修改pc。在处理完所有这些精炼查询之后,就可以获得最佳精炼查询。
本发明实施例还提供一种采用AkC解决SKQwhy-not问题的系统,包括:
AkC索引构建模块,其用于:获取所有对象o,将对象o划分为k个集群,构建AkC索引;
候选列表构建模块,其用于:获取初始查询q=(q.loc,q.doc0,q.B,k,α)和缺失对象集M;根据缺失对象的关键字的频率递减的顺序构建候选关键字列表CKS、根据缺失对象的相似性得分递减的顺序构建候选属性值对列表CAS;将精炼查询q'的关键字集q'.doc和属性值对q'.B'分别设置为q.doc0和q.B;
精炼查询模块,其用于:有序地抽取CKS中的关键字和CAS中的属性值对,分别添加至查询q'的关键字集q'.doc和查询q'的属性值对q'.B'中,形成新的精炼查询q';分别对各个精炼查询q'进行处理以找出最佳精炼查询,直至CKS和CAS都为空;分别对各个精炼查询q'进行处理,具体包括:
计算q'的修改代价p',过滤掉p'≥pc的查询q',pc为保留初始查询关键字和属性、且所有的缺失对象都出现在查询结果中的查询qb的修改代价;
对于p'<pc的查询q',根据预设的剪枝策略过滤掉不符合条件的集群,得出待处理的集群;
对于待处理的集群,根据AkC索引和预设的筛选条件筛出符合条件的集群;
将符合条件的集群包含的对象添加到满足查询q'要求的对象集中,并计算查询q'和对象之间的相似性得分;
对满足查询q'要求的对象集中的所有对象均根据其相似性得分从高至低排序,直到所有原始结果对象和所有缺失对象均出现,获得k'个对象;
如果k'≤km,km为保留初始查询关键字和属性、且所有的缺失对象都出现在查询结果中时结果集的大小,则计算q'的修改代价p',如果p'<pc,则将查询q'作为当前最佳精炼查询。
作为优选的实施方式,所述AkC索引构建模块具体用于:
获取所有对象o,通过使用k均值聚类法将所有对象o划分为k个集群;
采用查找表来保存每个集群的集群ID和属性摘要信息,集群的属性摘要信息是该集群所有对象的属性值对的并集;
每个集群对应该集群的一个关键字倒排文件和一个属性倒排文件。
作为优选的实施方式,所述精炼查询模块对于满足p'<pc的查询q',根据预设的剪枝策略过滤掉不符合条件的集群,得出待处理的集群,具体包括以下步骤:
判断查询q'和集群Ci之间的空间距离是否满足以下不等式:
若满足,作为待处理的集群,若不满足,过滤掉该集群。
作为优选的实施方式,所述精炼查询模块对于待处理的集群,根据AkC索引和预设的筛选条件筛出符合条件的集群,具体包括以下步骤:
如果查询属性q'.B'和集群所链接项的摘要信息满足属性匹配,则将访问该集群;否则,忽略该集群;
对于被访问的集群,如果查询属性q'.B'与集群的属性倒排文件的属性信息满足属性匹配,且精炼查询的关键字q'.doc'与集群的关键字倒排文件的关键字满足关键字匹配,则该集群为符合条件的集群;否则,忽略该集群。
作为优选的实施方式,B为布尔表达式:
本发明实施例所采用的AkC索引,根据对象与其集群质心之间的距离将空间对象划分为多个集群,具有良好的空间过滤能力;在每个集群中建立了关键词倒排文件,具有很好的文本过滤能力;不仅在每个集群中创建属性倒排文件,而且还将每个群集的属性摘要信息存储在查找表中,具有良好的属性过滤能力。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.一种采用AkC解决SKQwhy-not问题的方法,其特征在于,包括以下步骤:
获取所有对象o,将对象o划分为k个集群,构建AkC索引;
获取初始查询q=(q.loc,q.doc0,q.B,k,α)和缺失对象集M;q.loc表示查询q所在位置,q.doc0表示查询q关键字集,q.B为布尔表达式,用来表示属性值对,k表示取查询结果排名的前k位,α为0到1之间的一个变量,用来定义距离邻近度与文本相关性之间的相对重要性;根据缺失对象的关键字的频率递减的顺序构建候选关键字列表CKS、根据缺失对象的相似性得分递减的顺序构建候选属性值对列表CAS;将精炼查询q'的关键字集q'.doc和属性值对q'.B'分别设置为q.doc0和q.B;
有序地抽取CKS中的关键字和CAS中的属性值对,分别添加至查询q'的关键字集q'.doc和查询q'的属性值对q'.B'中,形成新的精炼查询q';分别对各个精炼查询q'进行处理以找出最佳精炼查询,直至CKS和CAS都为空;
分别对各个精炼查询q'进行处理,具体包括:
计算q'的修改代价p',过滤掉p'≥pc的查询q',pc为保留初始查询关键字和属性、且所有的缺失对象都出现在查询结果中的查询qb的修改代价;
对于p'<pc的查询q',根据预设的剪枝策略删减掉不符合条件的集群,得出待处理的集群;
对于待处理的集群,根据AkC索引和预设的筛选条件筛出符合条件的集群;
将符合条件的集群包含的对象添加到满足查询q'要求的对象集中,并计算查询q'和对象之间的相似性得分;
对满足查询q'要求的对象集中的所有对象均根据其相似性得分从高至低排序,直到所有原始结果对象和所有缺失对象均出现,获得k'个对象;
如果k'≤km,km为保留初始查询关键字和属性、且所有的缺失对象都出现在查询结果中时结果集的大小,则计算q'的修改代价p',如果p'<pc,则将查询q'作为当前最佳精炼查询;
获取所有对象o,将对象o划分为k个集群,构建AkC索引,具体包括以下步骤:
通过使用k均值聚类法将所有对象o划分为k个集群;
采用查找表来保存每个集群的集群ID和属性摘要信息,集群的属性摘要信息是该集群所有对象的属性值对的并集;
每个集群对应该集群的一个关键字倒排文件和一个属性倒排文件;
B为布尔表达式:
A是属性,fopt是操作数,fopd是操作符,x是输入的值。
3.如权利要求2所述的方法,其特征在于:对于待处理的集群,根据AkC索引和预设的筛选条件筛出符合条件的集群,具体包括以下步骤:
如果查询属性q'.B'和集群所链接项的摘要信息满足属性匹配,则将访问该集群;否则,忽略该集群;
对于被访问的集群,如果查询属性q'.B'与集群的属性倒排文件的属性信息满足属性匹配,且精炼查询的关键字q'.doc'与集群的关键字倒排文件的关键字满足关键字匹配,则该集群为符合条件的集群;否则,忽略该集群。
4.如权利要求1所述的方法,其特征在于:计算q'的修改代价p',计算公式为:
其中,β1,β2,β3,β4分别表示是cost函数中k值、关键字、属性种类、属性值的权重;βi≥0且k'是精炼查询q'的查询结果集的大小,k0是初始查询q的结果集的大小,km是保留初始查询关键字和属性,且所有的缺失对象都出现在查询结果中时结果集的大小,用km-k0规范化k'-k0;Δdoc是从q.doc0调整到q'.doc所需改变的关键字的数量,其中缺失对象集M={m1,m2,...,mj},通过|q.doc0∪M.doc|来规范化Δdoc;ΔAn是从初始查询调整到精炼查询所需改变的属性种类的数量,通过|q.B∪M.B|来规范化ΔAn;/>n是q.B和M.B所包含的属性的总和;Δvi是包含属性Ai的所有对象关于该属性的属性值的最大差值;|vi'-vi|是属性Ai中当前查询属性值vi'与初始查询属性值vi之间的差值的绝对值,且|vi'-vi|≤Δvi,通过Δvi来规范化|vi'-vi|。
6.一种采用AkC解决SKQwhy-not问题的系统,其特征在于,包括:
AkC索引构建模块,其用于:获取所有对象o,将对象o划分为k个集群,构建AkC索引;
候选列表构建模块,其用于:获取初始查询q=(q.loc,q.doc0,q.B,k,α)和缺失对象集M;q.loc表示查询q所在位置,q.doc0表示查询q关键字集,q.B为布尔表达式,用来表示属性值对,k表示取查询结果排名的前k位,α为0到1之间的一个变量,用来定义距离邻近度与文本相关性之间的相对重要性;根据缺失对象的关键字的频率递减的顺序构建候选关键字列表CKS、根据缺失对象的相似性得分递减的顺序构建候选属性值对列表CAS;将精炼查询q'的关键字集q'.doc和属性值对q'.B'分别设置为q.doc0和q.B;
精炼查询模块,其用于:有序地抽取CKS中的关键字和CAS中的属性值对,分别添加至查询q'的关键字集q'.doc和查询q'的属性值对q'.B'中,形成新的精炼查询q';分别对各个精炼查询q'进行处理以找出最佳精炼查询,直至CKS和CAS都为空;分别对各个精炼查询q'进行处理,具体包括:
计算q'的修改代价p',过滤掉p'≥pc的查询q',pc为保留初始查询关键字和属性、且所有的缺失对象都出现在查询结果中的查询qb的修改代价;
对于p'<pc的查询q',根据预设的剪枝策略过滤掉不符合条件的集群,得出待处理的集群;
对于待处理的集群,根据AkC索引和预设的筛选条件筛出符合条件的集群;
将符合条件的集群包含的对象添加到满足查询q'要求的对象集中,并计算查询q'和对象之间的相似性得分;
对满足查询q'要求的对象集中的所有对象均根据其相似性得分从高至低排序,直到所有原始结果对象和所有缺失对象均出现,获得k'个对象;
如果k'≤km,km为保留初始查询关键字和属性、且所有的缺失对象都出现在查询结果中时结果集的大小,则计算q'的修改代价p',如果p'<pc,则将查询q'作为当前最佳精炼查询;
所述AkC索引构建模块具体用于:
获取所有对象o,通过使用k均值聚类法将所有对象o划分为k个集群;
采用查找表来保存每个集群的集群ID和属性摘要信息,集群的属性摘要信息是该集群所有对象的属性值对的并集;
每个集群对应该集群的一个关键字倒排文件和一个属性倒排文件;
B为布尔表达式:
A是属性,fopt是操作数,fopd是操作符,x是输入的值。
8.如权利要求7所述的系统,其特征在于:所述精炼查询模块对于待处理的集群,根据AkC索引和预设的筛选条件筛出符合条件的集群,具体包括以下步骤:
如果查询属性q'.B'和集群所链接项的摘要信息满足属性匹配,则将访问该集群;否则,忽略该集群;
对于被访问的集群,如果查询属性q'.B'与集群的属性倒排文件的属性信息满足属性匹配,且精炼查询的关键字q'.doc'与集群的关键字倒排文件的关键字满足关键字匹配,则该集群为符合条件的集群;否则,忽略该集群。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911128664.5A CN111008270B (zh) | 2019-11-18 | 2019-11-18 | 采用AkC解决SKQwhy-not问题的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911128664.5A CN111008270B (zh) | 2019-11-18 | 2019-11-18 | 采用AkC解决SKQwhy-not问题的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111008270A CN111008270A (zh) | 2020-04-14 |
CN111008270B true CN111008270B (zh) | 2023-06-20 |
Family
ID=70112618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911128664.5A Active CN111008270B (zh) | 2019-11-18 | 2019-11-18 | 采用AkC解决SKQwhy-not问题的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111008270B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113158209A (zh) * | 2021-04-21 | 2021-07-23 | 沈阳航空航天大学 | 一种保护隐私的Top-k查询why-not问题处理方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107193882A (zh) * | 2017-04-27 | 2017-09-22 | 东南大学 | RDF数据上基于图匹配的why‑not查询回答方法 |
CN109992590A (zh) * | 2019-03-11 | 2019-07-09 | 中南民族大学 | 交通网络中带数字属性的近似空间关键字查询方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100299367A1 (en) * | 2009-05-20 | 2010-11-25 | Microsoft Corporation | Keyword Searching On Database Views |
-
2019
- 2019-11-18 CN CN201911128664.5A patent/CN111008270B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107193882A (zh) * | 2017-04-27 | 2017-09-22 | 东南大学 | RDF数据上基于图匹配的why‑not查询回答方法 |
CN109992590A (zh) * | 2019-03-11 | 2019-07-09 | 中南民族大学 | 交通网络中带数字属性的近似空间关键字查询方法及系统 |
Non-Patent Citations (1)
Title |
---|
祁丹蕊等.两两比较模型的Why-not问题解释及排序.《软件学报》.2019,第30卷(第3期),第620-647页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111008270A (zh) | 2020-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
De Felipe et al. | Keyword search on spatial databases | |
EP3005168B1 (en) | Natural language search results for intent queries | |
CN111026750B (zh) | 用AIR树解决SKQwhy-not问题的方法及系统 | |
US20120130997A1 (en) | Hybrid-distribution model for search engine indexes | |
US6681222B2 (en) | Unified database and text retrieval system | |
EP3314464B1 (en) | Storage and retrieval of data from a bit vector search index | |
JP6299596B2 (ja) | クエリ類似度評価システム、評価方法、及びプログラム | |
CN101055585A (zh) | 文档聚类系统和方法 | |
US9600501B1 (en) | Transmitting and receiving data between databases with different database processing capabilities | |
EP3314468B1 (en) | Matching documents using a bit vector search index | |
CN111026710A (zh) | 一种数据集的检索方法及系统 | |
US20140372412A1 (en) | Dynamic filtering search results using augmented indexes | |
Skovsgaard et al. | Finding top-k relevant groups of spatial web objects | |
Stefanidis et al. | Fast contextual preference scoring of database tuples | |
US20230124432A1 (en) | Database Indexing Using Structure-Preserving Dimensionality Reduction to Accelerate Database Operations | |
CN111008270B (zh) | 采用AkC解决SKQwhy-not问题的方法及系统 | |
US11163779B1 (en) | Binary representations of objects based on object attributes | |
US20090063479A1 (en) | Search templates | |
CN110955827B (zh) | 采用AI3解决SKQwhy-not问题的方法及系统 | |
Chen et al. | Multi-objective spatial keyword query with semantics | |
Yu et al. | Improving the effectiveness of keyword search in databases using query logs | |
CN111506797B (zh) | 解决方向感知SKQ中why-not问题的方法及系统 | |
EP3314467B1 (en) | Bit vector search index | |
Dahir et al. | An association based query expansion approach using linked data | |
Saad et al. | Towards multimedia fragmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |