CN110580252B - 多目标优化下的空间对象索引与查询方法 - Google Patents
多目标优化下的空间对象索引与查询方法 Download PDFInfo
- Publication number
- CN110580252B CN110580252B CN201910693775.4A CN201910693775A CN110580252B CN 110580252 B CN110580252 B CN 110580252B CN 201910693775 A CN201910693775 A CN 201910693775A CN 110580252 B CN110580252 B CN 110580252B
- Authority
- CN
- China
- Prior art keywords
- space
- spatial
- text
- nsga
- solution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Remote Sensing (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了多目标优化下的空间对象索引与查询方法,包括获取空间待分割对象属性数据;建立倒排文本空间对象索引聚类的多目标优化模型;采用多目标优化算法NSGA‑III对所述的多目标优化模型进行求解;计算出空间待分割对象的聚类方案;根据所述的聚类方案构建倒排文本空间索引树;根据查询请求对所述的倒排文本空间索引树进行搜索,获得查询结果。本发明构建了详尽的倒排文本空间对象索引聚类的多目标优化模型,并通过改进的NSGA‑III算法对模型进行求解,对求解结果进行解码获得空间待分割对象的聚类方案,实验证明本发明方法的空间数据索引与查询方法比传统方法在聚类时间效率、查询索引准确度方面均有较大提升。
Description
技术领域
本发明属于空间数据索引查询领域,具体涉及多目标优化下的空间对象索引与查询方法。
背景技术
在地理信息系统应用领域,空间节点数量以及相关文本描述数据成指数级别增加,导致了地理空间目标的文本空间对象查询难度增大。空间索引树(R树)作为一类平衡的多路查找树,具有自动平衡、空间利用率高、便于序列化存储等优点,广泛应用于大型的地理信息系统、基于位置服务系统以及空间数据库中。倒排文本空间索引(Inverted-file R-tree,IR)树是R树的扩展,是在空间索引中加入文本对象信息索引后的综合索引树,能够极大的提高带有大量文本信息的空间对象的查询效率,使得用户能够快速查询到距离自己最近的、满足自己特定文本语义关联需求的空间对象或物理设备。但是海量倒排文本空间对象的MBR(Minimum Bounding Rectangle,MBR)覆盖与重叠、文本关联重叠会严重影响倒排文本空间索引树的查询性能。传统的倒排文本空间索引树构建方法一般没有考虑到空间节点分裂的优化聚合,导致索引效率及其低下。有少数人从节点覆盖和重叠两个目标出发进行加权优化,没有对综合对节点交叉覆盖、节点距离与词汇相似度等综合指标进行全方位优化,因此索引效率也较为低下。现有方法对索引聚类的复杂度、MBR交叉覆盖率、节点类别的中心距离、MBR总周长以及节点之间的语义关系等缺乏综合考虑,难以满足现代空间数据库和基于位置的服务等对倒排文本空间索引的语义性要求。
发明内容
本发明的目的在于提供多目标优化下的空间对象索引与查询方法,用于解决现有技术中对空间数据的索引未综合考虑多个影响因素的问题,提高空间数据索引的时间效率以及查询索引准确度。基于上述目的,提供了多目标优化下的空间对象索引与查询方法,包括以下步骤:
步骤1,获取空间待分割对象属性数据;
步骤2,建立倒排文本空间对象索引聚类的多目标优化模型,模型表示如下
其中F(x)为所述模型的目标函数,h表示子目标函数的个数,gi(x)表示不等式约束条件,m表示不等式约束的个数,hj(x)表示不等式约束条件,n表示等数约束条件的个数;
步骤3,采用改进的多目标优化算法NSGA-III对所述的多目标优化模型进行求解,计算出空间待分割对象的聚类方案;
步骤4,根据所述的聚类方案构建倒排文本空间索引树;
步骤5,根据查询请求对所述的倒排文本空间索引树进行搜索,获得查询结果。
进一步地,所述空间待分割对象属性数据包括空间对象集合,以及每一个空间对象的空间位置信息和文本描述信息;所述的多目标优化模型的目标函数F(x)中子目标函数包括,MBR重叠区域最小化、MBR区域总面积最小化、平均最大距离最小化、文本相似度最小化;约束条件包括服务的子节点数量的平衡约束。
具体地,空间对象集合表示为O={o1,o2,...,oK},K为空间对象的数量,第i个空间对象的信息表示为oi={loc,doc},其中,loc代表该对象所处的空间位置信息,loc=(xi,yi),(xi,yi)代表该对象所处空间位置,doc=(t1,t2,...,tn),(t1,t2,...,tn)表示该对象所包含的关键字;
MBR重叠区域f1(x)的计算公式为:
f1(x)=OverLap(x)=OverLap({Dx(O)})
=OverLap({<o1,o2,...,ou>,<ou+1,ou+2,...,oK>})
=MBR(<o1,o2,...,ou>)∩MBR(<ou+1,ou+2,...,oK>)
MBR区域总面积f2(x)的计算公式为:
f2(x)=TotalS(x)=TotalS({Dx(O)})=TotalS({<o1,o2,...,ou>,<ou+1,ou+2,...,oK>})
=MBR(<o1,o2,...,ou>)∪MBR(<ou+1,ou+2,...,oK>)-MBR(<o1,o2,...,ou>)∩MBR(<ou+1,ou+2,...,oK>)
平均最大距离f3(x)计算公式为:
其中Dis(oi,oj)表示空间对象oi和oj之间的欧式距离;
文本相似度f4(x)的计算公式为:
描述o.doc当中出现的次数,tf(t,Coll)表示关键字t在对象空间集合中出现的总次数。|Coll|表示对象空间词数总量,λ为参数值,用于调节单个文本关键字在全文本中的比重。
具体地,子节点数量的平衡约束g1(x),即文本空间索引树父节点需要保持每个,每一子节点的数量不能少于总节点数量的三分之一,要求:
空间对象集合O={o1,o2,...,oK},对于解空间决策向量x∈Ω,x=(<o1,o2,...,ou>,<ou+1,ou+2,...,oK>);
所述的多目标优化模型表示如下:
优选地,NSGA-III对模型进行求解的过程中,种群选择策略采用在NSGA种群选择机制基础上,增加候补解集的填充选择机制,其步骤包括:首先采用NSGA-III主导选择机制在一组解上运行;然后对所有解进行分层,将完全支配解的层级设置为第一层;删除已经访问过的解,取出非最佳解决方案,将其级别设置为第二级,重复操作;当解的非支配水平相同时,即在同一级中进行选择时,比较解的拥挤距离,选择具有大拥挤距离的解;构建候补解来存储前k代的被放弃较好支配解,根据前k代被淘汰解候补集;在优化过程期间,对候补群和当前群同步执行优化操作,剩余的交叉变异策略与NSGAIII中的保持一致。
本发明方法,构建倒排文本空间索引聚类多目标模型,对NSGA-III算法的求解过程进行改进,提出一种基于先验初始种群策略的PIPS-NSGA-III,使其能够更适应于倒排文本空间节点分裂聚类问题的求解。通过PIPS-NSGA-III算法寻求对象最小包围矩阵之间的重叠与覆盖面积、节点群间平均距离以及语义相似度等目标的最优前端解。对比PIPS-NSGA-III、NSGAII、NSGAIII、SPEA-II进化多目标算法,从节点分类时间、效率、查询索引准确度三个方面来评估算法的优劣。实验结果表明,用PIPS-NSGA-III算法对文本空间节点分裂聚类具有较高的效率。相对于传统的STIR-Tree与R-Tree空间索引结构,本发明的基于改进NSGA-III文本空间索引的准确度也有所提升。
附图说明
图1为本发明实施例的空间对象索引与查询方法的示意图;
图2为本发明实施例的空间对象MBR交叉面积示意图;
图3为本发明实施例的空间对象MBR区域总面积示意图;
图4为本发明实施例的Sequoia数据集的不同空间节点的计算时间对比图;
图5为本发明实施例的Streets数据集的不同空间节点的计算时间对比图;
图6为本发明实施例的采用进化多目标算法索引构建的对于不同查询请求的准确效率对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
IR树构建主要有两种方式,一种是自顶向下构建,一种是自底向上构建。如果采用自顶向下的构建方式,首先需要将所有空间节点按照多个目标综合聚类,然后将每种类别的所有空间对象形成一个MBR,作为根节点的一个子节点。若干个子类根据最优聚类结果分裂开来,形成倒排文本空间索引的各个子节点,然后依次向下进行分裂聚类操作,最终形成一棵完整的索引树。如果采用自底向上的构建方式,下层节点不停的插入到上层节点。当上层节点的子节点数量超过规定最大子节点数时,与自顶向下分裂聚类过程相似,都需要根据多个目标对节点进行最优化索引聚类。
本实施例以二维空间中的二叉倒排文本空间索引树节点的最优分裂聚类模型构建为例,即在二维平面中,每个节点的子节点数量不超过2个。
由此,如图1所示,本发明实施例的多目标优化下的空间对象索引与查询方法,包括以下步骤:
步骤1,获取空间待分割对象属性数据;
步骤2,建立倒排文本空间对象索引聚类的多目标优化模型,模型表示如下
其中F(x)为该模型的目标函数,h表示子目标函数的个数,gi(x)表示不等式约束条件,m表示不等式约束的个数,hj(x)表示不等式约束条件,n表示等数约束条件的个数;
步骤3,采用改进的多目标优化算法NSGA-III对所述的多目标优化模型进行求解,计算出空间待分割对象的聚类方案;
步骤4,根据所述的聚类方案构建倒排文本空间索引树;
步骤5,根据查询请求对所述的倒排文本空间索引树进行搜索,获得查询结果。
本发明实施例中,所述的子目标函数包括空间重叠率、外界矩形总面积、类节点之间平均最大距离以及节点之间的综合文本相似度。下面对这四个目标函数进行建模。
第一个子目标函数就是尽可能使得解空间包含的MBR重叠区域最小。最小外接矩形(Minimum Bounding Rectangle,MBR)是指,对于空间对象集合O={o1,o2,...,oK}的最小外接矩形为能够包含其所有节点的最小矩形,记为MBR(O)。
倒排文本空间索引树中,非叶节点的MBR为其所有子节点MBR的总和,叶节点MBR为其所有对象节点的最小外接矩形。对二维二叉文本空间树非叶节点进行分裂聚类就是对其子节点的所有对象重新组合,形成两个MBR,其本质就是对所有子节点对象进行空间划分,下面对空间划分方法进行定义。
空间划分方法Dx(O)是指,在决策向量x∈Ω下,对于空间对象集合O={o1,o2,...,oK},其空间划分方法定义为:Dx(O)={<o1,o2,...,ou>,<ou+1,ou+2,...,oK>}。
在空间划分方法定义下,MBR的重叠就是对象经过划分方法后的多个MBR之间产生交叉的面积综合。如图2所示,其中阴影部分为交叉面积,其数学定义如下。
MBR空间重叠面积:对于决策向量x∈Ω,其包含的MBR重叠区域定义如下:
OverLap(x)=OverLap({Dx(O)})
=OverLap({<o1,o2,...,ou>,<ou+1,ou+2,...,oK>})
=MBR(<o1,o2,...,ou>)∩MBR(<ou+1,ou+2,...,oK>)
因此,根据以上定义,对于所述多目标优化模型的第一个子目标函数定义为:f1(x)=OverLap(x)。
第二个子目标函数是要求决策变量的空间划分方法中的最小外接矩形总面积最小。如图3所示,对于决策向量x∈Ω,其MBR区域总面积定义为
TotalS(x)=TotalS({Dx(O)})=TotalS({<o1,o2,...,ou>,<ou+1,ou+2,...,oK>})
=MBR(<o1,o2,...,ou>)∪MBR(<ou+1,ou+2,...,oK>)-MBR(<o1,o2,...,ou>)∩MBR(<ou+1,ou+2,...,oK>)
因此,第二个子目标函数为:f2(x)=TotalS({Dx(O)})
第三个子目标函数是要求决策变量的空间划分方法中的各个点之间的欧式空间平均最大距离最小。对于空间对象集合O={o1,o2,...,oK},其平均最大距离表示为MeanMaxDis(O)。计算方法为:
其中Dis(oi,oj)表示空间对象oi和oj之间的欧式距离。
因此,第三个子目标函数为:f3(x)=MeanMaxDisx(O)
第四个子目标函数是要求决策变量的空间划分方法中的各个点之间的语义差异度最小。空间对象不仅包括空间位置信息,有的对象还包含许多文本描述信息,例如餐馆的类型描述、提供的菜品信息、酒店的类型描述、提供的价格信息等,这些文字信息代表了空间对象的典型特征以及基于位置的服务描述,是用户搜索的重要依据,也是提高索引构建效率的关键依据。
空间对象oi,oi={loc,doc},其中,loc代表该对象所处的空间位置信息,loc=(xi,yi),(xi,yi)代表该对象所处空间位置,doc=(t1,t2,...,tn),(t1,t2,...,tn)表示该对象所包含的关键字。
文本空间对象相似度是指,对于空间对象集合,O={o1,o2,...,oK},oi与oj之间的语义相似度距离用SimDis(oi,oj)表示。
为了方便构建空间资源的索引结构,需要对空间资源的表示方法进行一定的处理。首先,对于特征信息的描述来讲,可以利用一个包含该文档所有关键字的特征向量来表示。对于空间对象oi包含关键字t1,t2,...,tn,文本向量模型为:
tf(t,o.doc)表示关键字t在文本描述o.doc当中出现的次数,tf(t,Coll)表示关键字t在对象空间集合中出现的总次数。|Coll|表示对象空间词数总量。λ为参数值,用于调节单个文本关键字在全文本中的比重。空间对象之间的文本相似度S(oi,oj)可以表示为:
因此,对于决策向量x∈Ω,其文本相似度表示为:
因此,第四个子目标函数为:f4(x)=SimDisx(O)
从文本空间索引树的构建特征角度出发,对于该问题分类最大节点数量具有约束。文本空间索引树父节点需要保持每个子节点数量的平衡,每一子节点的数量不能少于总节点数量的三分之一。因此,最优倒排文本空间对象聚类问题中的约束条件如下:
综上所述,基于多目标优化的空间对象索引聚类模型描述如下:
假设空间对象集合O={o1,o2,...,oK},对于解空间决策向量x∈Ω,x=(<o1,o2,...,ou>,<ou+1,ou+2,...,oK>)
NSGA及其变种算法最为关键一步就是在每一代种群的选择问题上,NSGA-II算法将种群进行了分层,按照后代之间的支配关系保留哪些具有绝对优势的精英解作为下一代交叉变异的父代。NSGA-III又在NSGA-II计算框架的基础上,将精英保留策略进行进一步改进,在保持种群多样性的基础上,提高了在非支配层中寻求多样精英解的计算效率。本发明采用改进的NSGA-III算法对其进行求解,相对于NSGA、NSGA-II、MOEA/D等其它多目标优化算法,改进NSGA-III具备快速收敛到最优解、有效应对4个以上目标的优化问题等优点,非常适合于本发明中的倒排文本空间对象最优聚类。
由于传统的NSGA-III算法中对于初始解的构建是随机的,在文本空间对象聚类的问题中,由于计算复杂度相对较高,尤其是在空间节点数量较为庞大的时候,即使采用NSGA-III这种较为高效的多目标遗传算法也难以寻找到最优解。因此本发明考虑在先验位置信息的基础上,提出综合文本空间节点聚类初始解构建策略。具体算法流程如下所述。
传统的随机初始化策略导致计算效率较低。由于本发明中问题比较明确,其中交叉面积和总体覆盖面积目标可以在初始解的构建中充分体现。因此可以根据先验信息进行初始解的构造,其构造过程伪代码见表1中Algorithm1。
表1:种群初始化计算过程
该算法用于构建规定参数的种群。首先生成随机数,按照随机数的值来确定采用何种方式构建初始解见第2行;其中包含四种初始解的构建方式,分别是按照空间X方向、Y方向、语义关联方向以及随机方向构建初始解,参加第2至10行。下面详细介绍这几种构建方式的计算过程。
按照空间X方向构建参见CreateInitialSolutionInX(problem)函数,其计算过程见表2中的Algorithm2。
表2:按照空间X方向初始化过程
Algorithm2中的输入参数是问题模型,从第2行开始,对于解中的每一个变量,首先获取这个变量在整个数据集中所处的位置的纬度,见第3行;根据整个数据集的纬度差按照分类总量进行平分,形成若干个纬度带,最后判断当前点属于哪个纬度带,将结果返回到初始解中。过程见第4至7行。
CreateInitialSolutionInY(problem)的计算过程类似表3中的Algorithm3,将纬度换成经度均分,然后根据空间对象的经度来初始化。
CreateInitialSolutionInSimi(problem)是根据空间对象之间的语义相似度进行初始化。在根据语义相似度初始化解之前,需要寻找本数据集中的空间对象与其它剩下所有对象之间的语义描述相似度平均值(其过程比较简单,只需要做二次遍历即可),记第i个对象与其它剩余对象相似度的平均值为AverageSimi(i)。根据AverageSimi值对数据集合进行排序,得到新的数据集为DOSortbySimi,同时记录下第i个对象没有排序前的原始编号,记为DOSortbySimi[i].N。
表3:按照语义关系初始化过程
Algorithm3首先初始化一个resultList,用于存储初始解的结果集合,见第2行;然后将排序集合DOSortbySimi的前numberOfClass个对象分别放入到结果集的numberOfClass个子集中,见第3-7行;接下来搜索DOSortbySimi集合中剩余的对象,选择与该对象语义关系最近的DOSortbySimi子集,将对象放入到该子集中,并标记该对象的分类序号,见算法的第8-13行。
本发明在NSGA种群选择机制基础上,增加候补解集的填充选择机制。在对种群的选择中,除了对支配解的保留,优先选择具有低非支配水平的解。对于非支配解层级,采用NSGA-III主导机制在一组解决方案上运行。对所有解决方案进行分类,将解决方案中最佳解决方案的层级设置为第一层,然后删除已经访问过的解,取出非最佳解决方案,将其级别设置为第二级,然后重复操作。同时,当解的非支配水平相同时,比较解的拥挤距离,选择具有大拥挤距离的解。为了保留更优的解,本发明改进了NSGA-III算法中的精英策略,并增加了候补解来存储前k代的被放弃的较好支配解,k为参数,根据前k代被淘汰解中的支配解的数量来动态选定。在优化过程期间,对候补群和当前群同步执行优化操作。剩余的交叉变异策略与NSGAIII中的保持一致。下面对算法实验效果进行评估。
本发明实施例采用PIPS-NSGA-III算法对倒排文本空间对象聚类模型进行求解。并采用NSGA-III、NSGA-II、SPEA-II算法参考计算,在SIR-tree上进行空间资源聚类效果对比分析。数据集采用真实数据集California placenames Sequoia和streets人工数据集,主要描述美国加利福利亚州的Sequoia和Streets城镇空间数据以及街道数据集,其分布情况如表4所示。
表4:数据集内情况分布
Sequoia | Streets | |
目标总数量 | 62556 | 131460 |
词条总量 | 134862 | 279522 |
词项总量 | 6520 | 6612 |
本发明实施例所采用的实验背景为:电脑主要配置为:Pentium(R)Dual-core3.06CPU,4G RAM内存。首先选取不同节点数据对算法的计算性能进行评估,选取的实验参数如表5所示。
表5:进化多目标算法变量参数取值
首先对计算时间进行分析,对于两个不同的数据集,节点的最优分裂聚类求解时间随着选取对象的数量关系如图4和图5所示。
从图4和图5中可以看出,当实验个数较小的时候,四个多目标优化对于不同数据集的构建时间基本保持一致。对比不同算法的计算效果,在100个节点以下,NSGA-II、PIPS-NSGA-III和NSGA-III具有相近计算效率,要好于SPEA-II算法。在100节点的分裂聚类计算结果上,NSGA-II的计算时间要明显比其他三个算法多。而到了300个节点以上,SPEA-II算法对于文本空间对象分裂聚类问题的求解效率下降较快,明显比其它三个算法效率要低。因此,经过综合对比发现,无论节点的数量如何变化,相对于其它进化多目标算法,PIPS-NSGA-III能够保持较好的计算效率。
对于不同数据集中包含的节点数量进行分析,选取其中任意一个最优解效果可知,当节点数量较小的情况下,NSGA-III与PIPS-NSGA-III算法得到的最优解基本一致。但是在节点数量较大的情况下,NSGA-III算法求出的最优解帕累托前沿解效果并不佳。
由实验结果可知,在Streets数据集中,随着数据节点逐步增加,计算时间变化较大,尤其是在100个节点以后,但是聚类效果保持较为优异,这主要是因为在100个节点以后,算法对种群数量的个数进行了调整。在经过了100次迭代后,PIPS-NSGA-III算法对Streets数据集文本空间节点进行了很好的聚类。其目标函数的解见表6。
SPEA-II算法对种群的保留度较高,在100代最终结果迭代以后,仍然保留了453个帕累托前沿解,并且这其中的最优解相对于NSGA-III中的前沿解而言存在完全支配的现象,因此,SPEA-II并没有很好的完成文本空间对象最优聚类,在索引构建过程中难以从大量的帕累托前沿中选择一个合适的解。
对于NSGA-II算法对该问题进行求解,其最优解种群仅仅寻找到三个不同前沿解,因此,对于NSGA-II算法并没有很好的寻找到帕累托前沿解集合。
表6:PIPS-NSGA-III算法目标函数解
目标函数解 | f<sub>1</sub>(x) | f<sub>2</sub>(x) | f<sub>3</sub>(x) | f<sub>4</sub>(x) |
1 | 1513.23 | 67794.20 | 224.30 | 0.25 |
2 | 30244.97 | 100818.78 | 100818.78 | 0.23 |
3 | 20502.01 | 87171.14 | 322.80 | 0.25 |
从以上实验结果来看,基于NSGA-II、NSGA-III以及SPEA-II算法求解倒排文本空间对象聚类问题是均存在不同程度的缺陷,而本发明实施例提出的PIPS-NSGA-III算法综合效果最好。
在此基础上,构建出来的空间文本语义索引的检索效率比传统的STR-Tree的构建方式在索引准确率上的提升如图6所示。
从图6中能够看出,在采用多目标优化算法对索引构建进行改进以后,随着查询请求在索引树上进行计算,得到的查询准确率要明显优于没有采用该算法进行优化的索引树,平均准确率提高了3.75%。因此,本论文提出的方法是有效的。
因此,通过以上结果来综合分析,在对文本空间索引综合最优聚类进行求解的过程中,PIPS-NSGA-III同时具备较好的求解效率与准确率,能够较为快速的收敛到帕累托前沿解,为空间文本语义索引的构建提供算法基础。
本发明实施例首次将NSGA-III算法引入到了文本空间索引的构建中,并对算法进行了改进,提出了PIPS-NSGA-III算法。首先构建了倒排文本空间对象聚类问题的约束优化模型,通过对NSGA-II、PESA-II、NSGA-III以及PIPS-NSGA-III四个不同的进化多目标算法对问题进行求解,经过对时间效率、解收敛程度以及计算效果多个方面进行综合评估,证明了引入PIPS-NSGA-III对倒排文本空间对象聚类问题的求解具有最优效能。
由发明内容和实施例可知,本发明多目标优化下的空间对象索引与查询方法,构建倒排文本空间索引聚类多目标模型,对NSGA-III算法的求解过程进行改进,提出一种基于先验初始种群策略的PIPS-NSGA-III,使其能够更适应于倒排文本空间节点分裂聚类问题的求解。通过PIPS-NSGA-III算法寻求对象最小包围矩阵之间的重叠与覆盖面积、节点群间平均距离以及语义相似度等目标的最优前端解。对比PIPS-NSGA-III、NSGAII、NSGAIII、SPEA-II进化多目标算法,从节点分类时间、效率、查询索引准确度三个方面来评估算法的优劣。实验结果表明,用PIPS-NSGA-III算法对文本空间节点分裂聚类具有较高的效率。相对于传统的STIR-Tree与R-Tree空间索引结构,基于改进NSGA-III文本空间索引的准确度上提高了3.75%。
Claims (2)
1.多目标优化下的空间对象索引与查询方法,其特征在于,包括以下步骤:
步骤1,获取空间待分割对象属性数据;
步骤2,建立倒排文本空间对象索引聚类的多目标优化模型,模型表示如下
其中F(x)为所述模型的目标函数,h表示子目标函数的个数,gi(x)表示不等式约束条件,m表示不等式约束的个数,hj(x)表示不等式约束条件,n表示等数约束条件的个数;
步骤3,采用改进的多目标优化算法NSGA-III对所述的多目标优化模型进行求解,计算出空间待分割对象的聚类方案;
步骤4,根据所述的聚类方案构建倒排文本空间索引树;
步骤5,根据查询请求对所述的倒排文本空间索引树进行搜索,获得查询结果;
所述的空间待分割对象的集合表示为O={o1,o2,...,oK},K为空间对象的数量,解空间决策向量x∈Ω,x=(<o1,o2,...,ou>,<ou+1,ou+2,...,oK>),第i个空间对象的信息表示为oi={loc,doc},其中,loc代表该对象所处的空间位置信息,loc=(xi,yi),(xi,yi)代表该对象所处空间位置,doc=(t1,t2,...,tn),(t1,t2,...,tn)表示该对象所包含的关键字;
所述空间待分割对象属性数据包括空间对象集合,以及每一个空间对象的空间位置信息和文本描述信息;所述的多目标优化模型的目标函数F(x)中子目标函数包括,MBR重叠区域最小化、MBR区域总面积最小化、平均最大距离最小化、文本相似度最小化;约束条件包括服务的子节点数量的平衡约束;
MBR重叠区域f1(x)的计算公式为:
所述的空间划分方法Dx(O)是指,在决策向量x∈Ω下,对于空间对象集合O={o1,o2,...,oK},其空间划分方法定义为:Dx(O)={<o1,o2,...,ou>,<ou+1,ou+2,...,oK>};
MBR区域总面积f2(x)的计算公式为:
平均最大距离f3(x)计算公式为:
其中Dis(oi,oj)表示空间对象oi和oj之间的欧式距离;
文本相似度f4(x)的计算公式为:
其中,oi与oj之间的语义相似度距离用SimDis(oi,oj)表示,文本相似度S(oi,oj)可以表示为:oj.doc表示第j个对象的文本信息,本描述o.doc当中出现的次数,tf(t,Coll)表示关键字t在对象空间集合中出现的总次数,|Coll|表示对象空间词数总量,λ为参数值,用于调节单个文本关键字在全文本中的比重;
子节点数量的平衡约束g1(x),即文本空间索引树父节点需要保持每个子节点数量的平衡,每一子节点的数量不能少于总节点数量的三分之一,要求:
空间对象集合O={o1,o2,...,oK},对于解空间决策向量x∈Ω,x=(<o1,o2,...,ou>,<ou+1,ou+2,...,oK>);
所述的多目标优化模型表示如下:
2.根据权利要求1所述的空间对象索引与查询方法,其特征在于,采用NSGA-III对模型进行求解的过程中,种群选择策略采用在NSGA种群选择机制基础上,增加候补解集的填充选择机制,其步骤包括:首先采用NSGA-III主导选择机制在一组解上运行;然后对所有解进行分层,将完全支配解的层级设置为第一层;删除已经访问过的解,取出非最佳解决方案,将其级别设置为第二级,重复操作;当解的非支配水平相同时,即在同一级中进行选择时,比较解的拥挤距离,选择具有大拥挤距离的解;构建候补解来存储前k代的被放弃较好支配解,根据前k代被淘汰解候补集;在优化过程期间,对候补群和当前群同步执行优化操作,剩余的交叉变异策略与NSGAIII中的保持一致。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910693775.4A CN110580252B (zh) | 2019-07-30 | 2019-07-30 | 多目标优化下的空间对象索引与查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910693775.4A CN110580252B (zh) | 2019-07-30 | 2019-07-30 | 多目标优化下的空间对象索引与查询方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110580252A CN110580252A (zh) | 2019-12-17 |
CN110580252B true CN110580252B (zh) | 2021-12-28 |
Family
ID=68810633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910693775.4A Active CN110580252B (zh) | 2019-07-30 | 2019-07-30 | 多目标优化下的空间对象索引与查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110580252B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111221937B (zh) * | 2020-01-10 | 2023-05-09 | 江苏大学 | 一种动态k值聚类构建主题r树方法 |
CN112559554B (zh) * | 2020-12-24 | 2024-01-26 | 北京百家科技集团有限公司 | 一种查询语句优化方法及装置 |
CN113377911B (zh) * | 2021-06-09 | 2022-10-14 | 广东电网有限责任公司广州供电局 | 一种文本信息提取方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609530A (zh) * | 2012-02-14 | 2012-07-25 | 江苏新大诚信息技术有限公司 | 一种分区域双树结构的空间数据库索引方法 |
CN108052514A (zh) * | 2017-10-12 | 2018-05-18 | 南京航空航天大学 | 一种处理地理文本Skyline查询的混合空间索引机制 |
CN108805434A (zh) * | 2018-05-25 | 2018-11-13 | 河海大学 | 一种基于改进nsga-ⅲ的梯级水电站多目标优化调度方法 |
CN108932347A (zh) * | 2018-08-03 | 2018-12-04 | 东北大学 | 一种分布式环境下基于社会感知的空间关键字查询方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2850472B1 (fr) * | 2003-01-28 | 2005-05-20 | Thales Sa | Procede permettant de produire des solutions a un probleme concret d'optimisation multicritere |
-
2019
- 2019-07-30 CN CN201910693775.4A patent/CN110580252B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609530A (zh) * | 2012-02-14 | 2012-07-25 | 江苏新大诚信息技术有限公司 | 一种分区域双树结构的空间数据库索引方法 |
CN108052514A (zh) * | 2017-10-12 | 2018-05-18 | 南京航空航天大学 | 一种处理地理文本Skyline查询的混合空间索引机制 |
CN108805434A (zh) * | 2018-05-25 | 2018-11-13 | 河海大学 | 一种基于改进nsga-ⅲ的梯级水电站多目标优化调度方法 |
CN108932347A (zh) * | 2018-08-03 | 2018-12-04 | 东北大学 | 一种分布式环境下基于社会感知的空间关键字查询方法 |
Non-Patent Citations (1)
Title |
---|
逆向工程中空间索引结构的研究与优化;宋洋;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20131215(第S2期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110580252A (zh) | 2019-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107885778B (zh) | 一种基于动态临近点谱聚类的个性化推荐方法 | |
Taboada et al. | Data clustering of solutions for multiple objective system reliability optimization problems | |
CN110580252B (zh) | 多目标优化下的空间对象索引与查询方法 | |
CN108021658B (zh) | 一种基于鲸鱼优化算法的大数据智能搜索方法及系统 | |
Özyer et al. | Integrating multi-objective genetic algorithm based clustering and data partitioning for skyline computation | |
CN111368891B (zh) | 一种基于免疫克隆灰狼优化算法的K-Means文本分类方法 | |
CN102253961A (zh) | 基于Voronoi图的路网k聚集最近邻居节点查询方法 | |
CN111444317B (zh) | 一种语义敏感的知识图谱随机游走采样方法 | |
KR102473155B1 (ko) | 대화형 정보 제공 서비스 방법 및 이를 위한 장치 | |
CN101901251B (zh) | 基于马尔科夫过程亚稳性的复杂网络簇结构分析和识别方法 | |
Neethu et al. | Review of spatial clustering methods | |
Wan et al. | ICGT: A novel incremental clustering approach based on GMM tree | |
Ahmed et al. | An initialization method for the K-means algorithm using RNN and coupling degree | |
Hashemi et al. | A new particle swarm optimization algorithm for optimizing big data clustering | |
CN110928873B (zh) | 基于改进非支配排序遗传算法的空间对象索引与查询方法 | |
CN112182026A (zh) | 一种考虑流形排序算法的电网截面数据检索方法 | |
CN108182273A (zh) | 基于云存储的网络数据处理方法 | |
CN115273645B (zh) | 一种室内面要素自动聚类的地图制图方法 | |
CN109033746B (zh) | 一种基于节点向量的蛋白质复合物识别方法 | |
CN111488903A (zh) | 基于特征权重的决策树特征选择方法 | |
Jain | Introduction to data mining techniques | |
CN113205124B (zh) | 一种基于密度峰值的高维真实场景下的聚类方法、系统及存储介质 | |
CN114970684A (zh) | 一种结合vae的提取网络核心结构的社区检测方法 | |
Tareq et al. | A new density-based method for clustering data stream using genetic algorithm | |
Chen et al. | A non-binary hierarchical tree overlapping community detection based on multi-dimensional similarity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |