CN107330734A

CN107330734A - 基于Co‑location模式和本体的商业地址选择方法

Info

Publication number: CN107330734A
Application number: CN201710531411.7A
Authority: CN
Inventors: 王丽珍; 包旭光; 陈红梅; 肖清
Original assignee: Yunnan University YNU
Current assignee: Yunnan Yidong Sports Technology Co.,Ltd.
Priority date: 2017-07-03
Filing date: 2017-07-03
Publication date: 2017-11-07
Anticipated expiration: 2037-07-03
Also published as: CN107330734B

Abstract

本发明公开了基于Co‑location模式和本体的商业地址选择方法，以城市兴趣点数据为源数据，根据各个兴趣点的类型进行分类，并创建相应本体；定义两个兴趣点之间的关键距离；重新评估每个兴趣点的边长，给出了实际情况下的邻近关系定义；提出了基于网格法的在地球球体上的数据划分算法以更快更准确地得到每个兴趣点的邻近兴趣点集合，并将该集合按照语义是否相同进行分类存储。当指定一个需要选址的兴趣点特征，寻找包含该特征的关键co‑location模式；在最终的选址方式上，需考虑用户的选址偏向，不同的地址偏向采用不同的剪枝策略；最后向用户推荐满足用户需求的适合创建该兴趣点类型的地址列表供用户进行进一步地评估。

Description

基于Co-location模式和本体的商业地址选择方法

技术领域

本发明属于空间模式挖掘技术领域，特别涉及一种基于Co-location模式和本体的商业地址选择方法。

背景技术

商业选址是经济学领域的一个重要的研究方向。对于任何一个商业体来说，位置选择是其必经的一个阶段，因为一个不利的商业位置所带来的负面影响很难被其他的改进条件或行为而改变。要判断一个位置是否是有利的，需要考虑多种因素，比如社会经济学、地质学、生态学以及决策者的特定需求等。选址问题在经济学领域一直是一个棘手的问题，因为它受多种主观和客观因素的制约，选址过程通常是漫长而又低效的。

随着数据采集技术的日益发展，越来越多的与位置有关的数据能够被很容易地采集到。这些数据不但包括类似于百度地图的地图数据，还包括人口分布数据等。在大数据的背景下，一个商业体不得不去考虑多种数据库，譬如从地区的购买力分布到居民的消费行为特性。对这些包含时间和空间信息的异构型数据库进行分析通常是选址必须要考虑的关键性因素。

选址方面的研究工作已经延续了有一个世纪之长。与此同时，随着信息技术的进步，地域的探索空间以及地理数据的容量都在不断地增长，面对指数级增长的数据，决策者很难凭经验或简单计算实现合理的地址选择，因此，在实际中，决策者们往往采用一种自上(洲)而下(区/镇)的方式来进行分析，这种情况下，其他区域的数据就被排除掉，只在当前选定的小范围区域内利用一些主观的准则进行地址选择。而在这个小范围内，评估方法往往都是主观地利用个人经验(相关专家的主观评估)来决定“最好的”地址。

空间数据挖掘是从空间数据库中挖掘未知的有趣模式的过程。因为空间数据的海量性、多维性、相关性等特点，从空间中挖掘有趣的模式将比从传统事务数据中挖掘有趣模式要困难得多。

传统数据通常是相互独立的，而空间上分布的数据则是相关的，或者更确切地说是空间并置的(co-located)，即两个对象的位置越近，就越有可能互相影响。空间co-location模式是空间特征的一个子集，它们的实例在空间中频繁关联。

空间co-location模式在许多应用领域发挥着重要的作用。例如，移动服务运营商根据不同需求用户的分布，搭配相应的服务套餐以增加收入；广告运营商根据特定人群的聚集地段，投放相应的广告；银行根据不同地域人群的不同收入设定相应的信用卡服务和理财产品。空间co-location模式的应用领域还包括地球科学、公共卫生、公共交通、生物信息处理、基于位置的服务、GIS信息系统等。

目前已经有很多经典的co-location模式挖掘算法，另外，由于经典的co-location模式挖掘算法会产生大量冗余的结果集，以精简结果co-location模式为主要目的co-location模式挖掘算法也层出不穷。有趣模式的提出，意味着空间co-location模式开始向交互式的方向发展，在语义网中，本体(ontology)被认为最适合表示复杂的用户领域知识，因此涌现了不少在本体指导下的co-location模式挖掘算法。

因为空间co-location模式描述的是空间特征之间的一种“共存”关系，利用co-location模式，可以得到一个商业圈中商业实体店的“共存”关系。即，co-location模式中隐含着选址的经验及信息。譬如，如果在某个区域内饭店和旅馆频繁地“共存”，那么co-location模式{饭店，旅馆}隐含着在饭店旁边开旅馆或者在旅馆旁边开饭店的选址信息。

对区域的分析主要是分析其地区因素(LF,Location Factor)与其他地区的不同。地区因素由该地区的属性描述，比如购买力、居民数量以及与合作商的距离等等，选址对象目标不同，则对不同地区的地区因素的考虑就会不同。每一个商业体因目标或者需求不同，对地区因素的偏向程度亦不同。

在实际情况下，地址选择过程常常被划分为多个阶段。Zelenovic将其分成一个个的宏(macro)并对每个宏进行微观选址(micro selection)。Bankhofer将其分成4个阶段：洲选择、国家选择、市/区选择，最终地址选择。这种自顶向下的划分方式效率很低，因其需要手动的分析和选择。从大数据中手动地进行选址过程显然是不可行的。

对地址选择进行加权和评估的模型算法在近几年被提出，比如离散选择模型(Discrete Choice Models)和计数模型(Count Data Models)。这些模型包含了很多可变化的地址因素。尽管这些模型在理论上是有用的，但由于时间和空间上巨大的消耗使得这些模型应用在实际情况下变得比较棘手。这就导致了管理者要同时根据给定的地址元素以及它们本身的喜好来做决策。

鉴于目前地址选择的高主观性以及高复杂度，本文采用“经验”指导的方式进行地址选择。Co-location模式代表的是一组频繁关联的空间特征，通过这种关联关系可以得出某个兴趣点的影响特征集，而不必考虑复杂的地址因素，因为别人成功的经验就是最好的借鉴，在这个“经验”的基础上，对用户感兴趣的兴趣点进行co-location模式挖掘，并给出最终的推荐地址。从而提出一种基于co-location模式和本体的商业地址选择方法Coloc_Site_Miner(后简称CSMiner)。

发明内容

本发明实施例的目的在于提供一种基于Co-location模式和本体的商业地址选择方法，给定一个用户想要进行地址选择的兴趣点特征(比如：火锅店)，可以根据用户的要求(互斥，半互斥，全互斥)给出适合创建该兴趣点类型(适合开火锅店)的地址列表供用户进行进一步地评估。

本发明所采用的技术方案是，基于Co-location模式和本体的商业地址选择方法，按照以下步骤进行：

步骤1，从百度地图上抓取北京市真实兴趣点数据为源数据，且同时抓取每个兴趣点的类型，根据信息类型进行数据分类，创建相应的本体；

步骤2，借助百度地图提供的API得到两个兴趣点之间的关键距离；

步骤3，计算每个兴趣点的边长；

步骤4，计算每个兴趣点对应的邻居兴趣点集合；基于平面的网格法对地球球体进行网格划分，对当前兴趣点所在网格周围的网格中其他兴趣点进行搜索，计算周围网格的兴趣点与当前兴趣点之间的关键距离以求取邻近关系，从而进行邻近关系判断；

步骤5，当指定一个需要选址的兴趣点特征，就要开始寻找包含该特征的关键co-location模式；特征f的关键co-location模式即给定一个空间特征f，参与度阈值p，设L为所有包含特征f且参与度不小于p的co-location模式集，L中包含广义概念最多且阶数最长的co-location模式即为f的关键co-location模式；

步骤6，在最终的选址方式上，需考虑用户的选址偏向，即互利，半互斥和完全互斥；最后推荐满足用户需求的商业地址列表。

所述步骤1中，本体概念分为3种类型：叶概念、广义概念和约束概念；叶概念为本体概念间包含关系的有向无环图中的叶节点，在空间co-location模式挖掘中特征即叶概念；广义概念为包含叶概念的概念；约束概念是定义在其他本体概念上的逻辑表达式；本体具体创建过程是：在抓取地图数据的过程中，同时抓取每个兴趣点的类型信息，类型信息是一个三元组(S₁，S₂，S₃)，其中即S₃ is-a S₂，S₂ is-a S₁，在本体的可视化树形图中即S₁指向S₂，S₂指向S₃。

所述步骤1中，所述步骤3中，计算每个兴趣点的边长的具体步骤是：即在以兴趣点标记地点为中心，以边长为半径的一个圆形区域均属于该兴趣点，为了得到某个兴趣点的覆盖范围，首先计算当前兴趣点的属边长L，设置边界模糊度μ,0≤μ≤1，则其边长为L(1-μ)。

所述步骤1中，所述步骤4中，邻近关系的判断准则为：给定两个兴趣点A和B，边界模糊度μ，影响距离d，兴趣点A和B的属边长分别为L_A，L_B，若兴趣点A和兴趣点B的关键距离≤(L_A+L_B)*(1-μ)+d，则A和B满足邻近关系；

进行邻近关系判断的具体方法是：将地球球体按照两个垂直的方向进行180等分，即在竖直方向上，沿着每个维度的经线圈进行切分180等分；在水平方向上，沿着每个维度的纬线圈进行切分180等分；对于需要寻找其邻近兴趣点集合的某点p，需要对其所在的格子及周围的8个格子进行搜索，搜索按照一定的方向且按宽度优先的搜索方式；在搜索每个格子之前，都要判断p与当前格子的最短距离是否大于影响距离，若大于影响距离，则当前被探索的格子及其相应方向的格子都无须再进行探索，因为被探索格子的任何一个点与p的距离都大于影响距离；若当前被探索的格子与p的最短距离不大于影响距离，则遍历该格子的所有实例并计算各个实例与p的关键距离，若某个实例s与p的关键距离不大于影响距离且s与p不属于同一个特征，则s与p满足邻近关系，若s与p属于同一个广义概念，则将s加入到邻接关系表中对应广义概念下p的邻接实例集合中，否则，将s加入邻接关系表中不同广义概念下p的邻接实例集合中；遍历完当前格子的所有实例之后，将当前格子周围的8个格子加入到队列中，并继续遍历队列的下一个格子，直到队列中的格子全部遍历完毕。

所述步骤1中，所述步骤6中，假设当前需要选址的特征为f；

所述互利：互利即与f同类型特征的商业体共同互利，与f同属于一个本体广义概念的特征都属于f的同类型特征；选择此偏向则依次遍历f的关键co-location模式的行实例，以每个行实例的中心点作为选择的地址送给客户进行评估；

所述半互斥：半互斥即不能容忍选择的地址存在f特征的商业体；选择此偏向则需要对关键co-location模式进行拆分，将特征f从关键co-location模式中剔除，形成一个新的模式，然后寻找新模式的表实例，将f的关键co-location模式与新模式的行实例进行一一对比，得到的不同的行实例即为候选的地址；

所述全互斥：完全互斥即不能容忍选择的地址存在与f同类型特征的商业体；选择此偏向也需要寻找同半互斥相同的新的模式的表实例。

本发明的有益效果：空间co-location模式挖掘即挖掘空间特征间的“共存”关系，将现实生活中频繁关联的空间特征挖掘出来。而根据地理学第一定律：地理事物在空间分布上互为相关，利用co-location模式可以快速而准确地找到与空间某个特征最相关的特征集。在商业选址中，挖掘某个商业体的相关co-location模式可以给我们以经验：这个商业体通常与哪些商业体频繁合作可以获利。而现实中商业体类型千千万万，某些商业体有很大的相似性，本发明利用本体的语义指导，将这些商业体进行分类，并在本体的指导下进行“利益最大化”的关键co-location模式挖掘，在关键co-location模式的指导下，给出满足用户要求的系统认为可以获利的地址列表。之前大部分的商业选址需要各种主管的评估，耗费时间长，需要大量的人力和物力，本发明利用co-location模式借鉴成功商业体的“经验”，快速给出具有高准确率的商业地址推荐供用户有目的的进行下一步的评估，节省了大量的人力和物力。空间co-location模式挖掘技术与本体的语义指导向结合，并考虑实际情况对数据进行了大量的预处理以提高结果的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是空间邻近关系示例。

图2是本体H图示例。

图3是北京市部分兴趣点本体图示。

图4是数据划分示例。

图5是比例参数下准确率评估。

图6是影响距离下准确率评估。

图7是边界模糊度下准确率评估。

图8是参与度下准确率评估。

图9是距离阈值下邻近关系时间效率评估。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对基本概念进行解释：

空间特征代表了空间中不同种类的事物，空间特征在空间位置上的一次出现称为该空间特征的一个实例。给定空间特征集F及其实例集S，S上的空间邻近关系R，即如果两个不同实例之间的距离不大于给定的距离阈值d，则这两个空间实例满足空间邻近关系R。一个co-location模式是一组空间特征的集合，c中空间特征的个数称为c的阶(size)。如果一个实例集中的任何一个实例都与该实例集中的其他实例满足R关系，则该实例集中的实例形成一个团。如果一个团T’包含了co-location模式c的所有特征，且T’中没有任何一个子集可以包含c中的所有特征，T’称作co-location模式c的一个行实例，所有行实例的集合称为表实例。空间co-location模式挖掘采用参与度PI(Participation Index)来衡量co-location模式的有趣程度，当一个co-location模式c的参与度不小于用户给定的最小参与度阈值p时，称c是频繁co-location模式。参与度是co-location模式中各个特征的参与率PR(Participation Ratio)的最小值，PR(c,f_i)表示co-location模式c中的一个特征f_i的实例参与到模式c的实例个数与特征f_i的总实例个数的比值。参与度值表征了当发现当前模式的一个特征下的实例时，在其邻近范围内能发现该模式下其他特征的实例的最小概率。

图1给出了一个空间实例分布的例子，包含5个特征A、B、C、D和E，其中A.1表示A特征的第1个实例；该空间共有5个A的实例，4个B的实例，3个C的实例，5个D的实例以及3个E的实例；连线表示两个空间实例满足邻近关系，例如A.1和B.1是互相邻近的。{B.4,C.1,D.2}形成一个团，且是一个3阶co-location模式{B,C,D}的一个行实例。因为再无其他同时包含B,C,D这3个特征的实例形成团，则co-location模式{B,C,D}的表实例为{{B.4,C.1,D.2}}。因为模式{B，C，D}的表实例中只有一个B的实例B.4，所以PR({B，C，D}，B)＝1/4，同理PR({B，C，D}，C)＝1/3，PR({B，C，D}，D)＝1/5，则PI({B，C，D})＝1/5。若设参与度阈值为1/5，则{B,C,D}为频繁co-location模式。

本体是对共享概念模型的明确的规范的说明。本体可表示为5元组O＝{C,E,Z,H,A}，其中C是一组本体概念的集合；E是定义在C上的本体概念关系集合；Z是本体概念的实例集；H是一个表示本体概念间包含关系(is-a关系，≤)的有向无环图，如果本体概念C₁包含本体概念C₂，则C₂is-a C₁，在H图(此处并非说明书附图H)上则表示为C₁指向C₂的有向线段；A为加在本体上的额外定理的集合。

本文将本体的概念C分为3种类型，分别为叶概念、广义概念和约束概念，叶概念即为本体H图中的叶节点，广义概念为包含叶概念的概念，约束概念是定义在其他本体概念上的逻辑表达式。

图2为一个本体的H图，其中鸟类和庄稼为约束概念，虚线表示了约束概念之间的映射关系。得到的概念集如下：

所有概念集合：{生物，鸟类，动物，植物，真菌，庄稼，麻雀，松鼠，蛇，麦子，松树，柏树，香菇，树菇}

叶概念集合：{麻雀，松鼠，蛇，麦子，松树，柏树，香菇，树菇}

广义概念集合：{生物，动物，植物，真菌}

约束概念集合：{鸟类，庄稼}

箭头表示了包含与被包含关系，假设f(C)表示本体概念C所包含的本体概念映射，则：

f(生物)＝{动物，植物，真菌}

f(植物)＝{麦子，松树，柏树}

f(动物)＝{麻雀，松鼠，蛇}

f(庄稼)＝{麦子}

……

本发明将本体应用到空间co-location模式挖掘，首先将空间特征映射到本体的叶概念，然后利用本体的语义将叶概念分类并在高层提取更加有意义的co-location模式，而不像经典co-location挖掘，仅仅只考虑本体叶概念之间的共生关系。

本发明的一种基于Co-location模式和本体的商业地址选择方法，包括数据预处理(本体创建、邻近关系度量、边界度量)、计算邻近关系、关键Co-location模式挖掘和地址选择。

1.本体创建

本文以从百度地图上抓取的真实兴趣点数据为源数据，且同时抓取每个兴趣点的类型，根据这些类型信息，创建了相应的本体。图3为基于北京市兴趣点创建的本体的一部分，在本体可视图的下方给出了每个概念的具体含义。该本体共包含21个广义概念(C₁到C₂₀，根节点)，155个空间特征，385616个空间实例(兴趣点)。

将数据分类并创建成本体，有如下的优势：

将数据按语义划分，更清晰明了。本体的广义概念包含了具有相似性质的空间特征，更容易抓住这些特征的本质。Co-location模式挖掘算法随着co-location模式阶数的递增，计算代价呈指数性增长。以20个广义概念(C₁-C₂₀)代替155个空间特征进行co-location模式挖掘，显著减少了特征个数，最终co-location模式的阶数随之降低，节省了大量的时间。在广义概念层进行co-location模式挖掘不会丢失任何的团信息，且生成的co-location模式简洁无冗余，可以让用户更容易做决策。

2.邻近关系度量

若两个空间实例之间满足某种邻近关系，则这两个实例是互为邻居的。在典型的co-location模式挖掘中，常以欧几里得距离作为邻近关系的度量准则，即，若两个实例之间的欧式距离不大于一个给定的距离阈值，则这两个实例是满足邻近关系的。邻居关系暗示了一个“影响力”，距离近的两个实体往往是互相依存互相影响的。

而在现实中，因为地球是一个球体，用欧几里得距离来算两个兴趣点间的距离是不恰当的，因为兴趣点之间总会有互相连接的路径，借助百度地图提供的API可以方便地得到两个兴趣点之间的可达距离。

定义1.关键距离。给定地球上的两个兴趣点A和B，任何一条从A走到B的可行路径的距离称作A到B的可达距离，其中，从A到B的最短可达距离称为A和B的关键距离。

定义2.影响距离。给定一个距离阈值d，若两个兴趣点A和B之间的关键距离≤d，则A和B互为邻居。距离阈值d被称为影响距离。

如图1所示，若C.3和E.3之间有一条河，则C.3和E.3之间无法直线到达，而从C.3到E.3有图1所示两条虚线的可达路径，但因为比较粗的虚线是从C.3上桥到E.3要比细的虚线路径要近，所以从C.3到E.3的那条粗虚线的距离即为C.3和E.3的关键距离。给定一个影响距离d，若C.3和E.3的关键距离不大于d，则C.3和E.3互为邻居，满足邻近关系。

3.边界度量

兴趣点在地图上都是以一个其占地范围的中心点来表示，在实际情况中，每个兴趣点的占地面积不同，而地图上的标注点往往都是兴趣点的中心点，若都从其中心位置开始寻找其影响距离之内的其他兴趣点，则可能会造成某些邻近关系的丢失。

例如，D.5的边界如图1所示。设影响距离为500米，若D.5的中心点和C.2的关键距离为1000米，按照经典的邻近关系度量算法，D.5和C.2不满足邻居关系。而实际上，D.5的范围包含了整个边界之内的部分，由图1可以明显看出D.5和C.2以及D.3都满足邻近关系。

因此，兴趣点边界的判定是必要的，但是，因为每个兴趣点的边界都是不规则的，且利用模式识别的相关算法来进行近似计算复杂度太高，利用邻近关系度量，可以估计一个兴趣点的近似边长。

定义3.属边长。给定一个兴趣点A的标记地址，设兴趣点B是与A直线距离最短的兴趣点，则A和B之间的直线距离称为A的属边长，即为L_A。

一般要考虑边长的兴趣点包括公园、景点、学校等大型建筑，其他像公司大楼、超市、火锅店等中小型建筑的边长默认为0。而经验告诉我们，大型建筑旁边直接挨着大型建筑的概率比较小，所以这种近似的估计在一定程度上可以提高选址的覆盖率。

为了使算法更加灵活，设置一个边界模糊度参数μ(0≤μ≤1)，若一个兴趣点的属边长为L，则其边长为L(1-μ)。当μ＝1时，边长为0，这时遗漏掉的邻近关系最多，随着μ的减少，被加入的邻近关系会越来越多，越来越完整，准确率在逐渐提高，当μ减少到一定程度时，准确率达到最高，随后，随着μ的减少，可能会增加一些错误的邻近关系，则准确率会进一步降低。

4.计算邻近关系

经过上面三个部分的数据预处理过程，就可以计算每个兴趣点对应的邻居兴趣点集合。

定义4.邻近关系。给定两个兴趣点A和B，边界模糊度μ，影响距离d，A和B的属边长分别为L_A,L_B，若兴趣点A和兴趣点B的关键距离≤(L_A+L_B)*μ+d，则A和B满足邻近关系。

为了得到每个兴趣点对应的邻近关系，必须对当前兴趣点周围的其他兴趣点进行搜索，计算周围的兴趣点与当前兴趣点之间的关键距离以求取邻近关系。一种很直观的方法就是求出每个兴趣点与其他所有兴趣点的关键距离，再判断邻近关系，然而这种算法时间消耗太大，距离太远的兴趣点没有必要进行计算。基于网格法，本文给出了如下的在球体下进行邻近关系判断的方法。

将球体按照两个垂直的方向进行180等分，即在竖直方向上，沿着每个维度的经线圈进行切分，在水平方向上，亦按照同样的方法进行180等分。图4显示了将分割后的球体投影后的示例，对于图4中需要寻找其邻近兴趣点集合的点A，需要对其所在的格子及周围的8个格子进行搜索，搜索可以按照一定的方向按宽度优先或者深度优先搜索都可。在搜索每个格子之前，都要判断该点与当前格子的最短距离是否大于影响距离，若大于影响距离，则当前被探索的格子及其相应方向的格子都无须再进行探索。例如，对于图4中的点A，首先搜索其所在的格子，接着搜索1号格子，若1号格子与点A的距离大于影响距离，则2，8,9,10,11,12,13,23,24号格子均无须再搜索，否则，将1号格子周围的格子(2,8,9,10,11)加入到队列中去，以此类推。这种划分方式可以有效地避免不必要的距离运算，提高了算法的效率。

依据图3的本体以及图1的部分特征的分布图，假设图1中直线相连的兴趣点存在邻近关系，表1给出了对应的邻接关系表。因为之后的co-location模式挖掘算法均从广义概念出发，则特征A、B、C抽象为一个新特征，D和E抽象为1个新特征。所以，A.1虽然跟B.1邻近，但因为A.1和B.1同属一个新的广义概念，所以邻接关系表分为两部分，一部分存储不同广义概念下的邻接点，用来寻找关键co-location模式。一部分存储同一广义概念下的邻接点，用来衡量同一广义概念下特征的联系紧密度。

表1邻接关系表

5.关键Co-location模式挖掘

当用户指定一个需要选址的特征，CSMiner就要开始寻找包含该特征的频繁co-location模式，即，该特征与哪些其他类型的特征频繁地“共存”。

上文介绍了本体的创建，而且在co-location模式挖掘中，从高层广义概念(图1中C₁到C₂₀)进行co-location模式挖掘则类似于将具有相似属性的特征进行聚类并合成为一个新的特征。例如图1中，广义概念“餐饮”包含了“中餐”、“西餐”、“咖啡屋”等原始特征信息。这种抽象对用户是不可见的，用户指定的是一个感兴趣的特征，比如若用户想在北京市建一个中餐厅，则他会直接选择“中餐”这个特征。为了从数据中得到与“中餐”特征频繁关联的其他特征，需要挖掘其关键co-location模式。

定义5.关键co-location模式。给定一个空间特征f，参与度阈值p，设L为所有包含特征f且参与度不小于p的co-location模式集，L中包含广义概念最多且阶数最长的co-location模式即为f的关键co-location模式。

利用表1可以得到包含特征f的实例的所有极大团，并根据极大团算出每个包含特征f的模式的参与度值。例如，若用户选择的兴趣点为“中餐”，则从表1中寻找“中餐”特征A的所有极大团：{{A.1，E.1}，{A.2，D.1，E.2}，{A.4，D.1，E.2}，{A.4，D.4，E.2}，{A.5，E.1}}。假设参与度阈值为1/4，则可知PI({A，D})＝min{3/5,2/5}＝2/5，PI({A，E})＝min{3/5,2/3}＝3/5，PI({A，D，E})＝min{2/5,2/5，1/3}＝1/3，则可得包含特征A的频繁co-location模式集为{{A，D}，{A，E}，{A，D，E}}，因这三个模式都包含了1个高层概念(C₂)，但{A,D,E}的阶数最长，则{A，D，E}为特征A的关键co-location模式。关键co-location模式的选取是基于一个生活中的经验：越多商业类型聚集的区域越有潜力。

若特征“中餐”的关键co-location模式为{中餐，公交站，便利店，超市，公园}，则说明在一个附近(影响距离内)存在有公交站、便利店、超市和公园的地址最适合开一个中餐馆。而关键co-location模式的每一个行实例都代表了包含f下实例的一个团，也指定了具体的选址范围。

6.地址选择

注意到在上节挖掘特征f的关键co-location模式的时候忽略了“同类”的邻近关系，这是因为关键co-location模式的目的是为了找到特征f的最佳“共存”匹配，“同类”的邻接关系则可以忽略。

然而在实际情况中，未必关键co-location模式中的每个行实例都是可行的地址。例如，特征“中餐”的关键co-location模式中的某个行实例代表的区域内中餐馆已经趋于饱和，再加入相同类型的中餐馆可能会有比较大的竞争。另外，由于关键co-location模式只考虑不同类别的最佳组合而忽略了同类别特征的影响，所以，在最终的选址策略上，还需要用户的选址偏向。

本文给出3个选址偏向供用户选择：互利，半互斥和完全互斥。互利即与同类型的商业体共同盈利；半互斥即不能容忍选择的地址存在与自己同特征类型的商业体；完全互斥即不能容忍选择的地址存在与自己同广义概念的商业体。例如，参照图3的本体，若用户希望选址的特征为“中餐”，若用户选址偏向为互利，则只要满足关键co-location模式的分布地址都可以进行选择；若用户选址偏向为半互斥，则选择的地址中附近不能存在中餐馆；若用户选择偏向为完全互斥，则选择的地址中不能包含“中餐馆”、“西餐馆”、“咖啡屋”等餐饮业。下面给出这三种偏向的地址选择策略：

互利：选择此偏向则依次遍历关键co-location模式的行实例，以每个行实例的中心点作为选择的地址送给客户进行评估。需要注意的是，为了防止选择过于靠近的地址，若当前待选择的地址与目前已经选定的某个地址的距离小于影响距离的2倍，则放弃选择该地址。

半互斥：选择此偏向则需要对关键co-location模式进行拆分，将用户感兴趣的特征从关键co-location模式中剔除，形成一个新的模式，然后从表1所示的邻近关系表中寻找新模式的表实例，将关键co-location模式与新模式的行实例进行一一对比，得到的不同的行实例即为候选的地址。若已知A的关键co-location模式为{A,C,D,E,F}，则需要寻找{C,D,E,F}的表实例，若{C,D,E,F}的某个行实例{C.1,D.1,E.1,F.1}不存在于{A,C,D,E,F}的行实例中，则{C.1,D.1,E.1,F.1}即是一个候选的推荐区域。若{C,D,E,F}的所有行实例都在{A,C,D,E,F}中找到，则需要考察{C,D,E,F}的所有子集，直到有差集为止。事实上，重新寻找新模式的表实例代价比较大，为了更快地得到两个模式表实例的差集，可以利用表1的同广义概念下的邻近点进行快速剪枝。例如，若表1中用户选择的兴趣特征为A，则可知包含实例B.1的候选团必不满足条件，因为A.1和A.5都与B.1是邻近的，B.1形成的团附近必有A.1和A.5，同理可知包含B.2、B.3和C.3的候选团都不满足条件，这样可以显著减少判团次数，加快运行时间。

全互斥：此部分操作与半互斥相似，只是需要排除同一广义概念下的所有特征。

算法描述如下：

输入：原始兴趣点数据文件data，参与度阈值p，影响距离d，边界模糊度μ，用户偏向r，用户希望选址的特征f

输出：满足用户需求的地址坐标列表result

①o＝createOntologies(data)；/*创建本体*/

②girds＝dataDivision(data)；/*数据划分*/

③neighbors＝findNeighbors(o,grids,d,μ)/*计算邻近关系*/

④c＝mineKeyColocation(f,neighbors,p)/*挖掘f的关键co-location模式*/

⑤result＝findSites(c,neighbirs,r)/*给出最终的结果,其中r＝0表示互利，r＝1表示半互斥，r＝2表示完全互斥*/

实验评估

在北京市兴趣点数据上验证CSMiner在不同参数下的准确率，同时在最后进行了邻近关系计算方法的时间评估。

1.实验设置

实验采用的真实数据为北京市兴趣点数据集。该数据集包含155个空间特征，兴趣点(空间实例)个数为385616个。限于篇幅，创建的本体的部分可视化如图3所示。CSMiner利用C#语言编写，实验环境为Win10系统，8G内存，Intel i5处理器。

本实验中，采集到的北京市的兴趣点的覆盖范围为北纬39度到41度，东经115度到118度，按照3.4节介绍的网格法的策略，为了更快地寻找邻近关系，CSMiner将北京市的区域按0.1度的跨度进行分割，即将原始数据集分成了20行30列共600个格子。

为了评估CSMiner的准确率，实验将原始数据分成两个部分D₁和D₂，D₁为原始训练数据集，D₂为测试数据集，实验中按格子数对D₁和D₂进行划分。设置一个比例参数即若ε＝1/3，则D₁中包含400个格子，D₂中包含200个格子。因为co-location模式挖掘的是一种“共存”关系，完全随机地选择格子可能会切断格子与格子之间兴趣点的邻近关系，造成结果不准确。因此，作为训练集的D₁应该是一个连续的区域，即D₁中的每个格子与其他任意的格子都可以通过格子的邻近格子的路径到达。给定比例参数ε，D₁按如下方式得到：首先计算分配给D₁的格子数为600*(1-ε)，在数据集D中随机选择一个格子g₁，再随机选择该格子上下左右4个方向中的任意一个未被选择的格子g₂，g₃格子则从g₂格子的4个方向中随机产生，以此类推。D₁分配完之后，剩余格子的数据组成了D₂数据集，需要注意的是，D₁和D₂中格子边界的兴趣点都予以保留，即D₁与D₂相交的格子边界上的兴趣点在D₁和D₂中都有保留。

为了更好地测试CSMiner的准确率，需要进行多次的验证。本实验为求CSMiner的准确率共需要进行10次验证，一次验证过程如下：首先要从训练集D₁中获取关键co-location模式，从D₁的特征列表中随机选取20个特征，并分别挖掘这20个特征的关键co-location模式，D₂中则分20次分别删除从D₁中选取的20个特征下的所有兴趣点，再对D₂进行对应特征的地址推荐。将推荐的地址与之前删掉的兴趣点地址做对比，若两个地址的距离满足邻近，则说明推荐的地址是正确的。则当前特征的推荐正确率＝满足邻近关系的点的个数/生成的推荐点总数。注意，这个推荐正确率是真实正确率的下限，因为若推荐的点周围原来不存在某个待验证的兴趣点，说明推荐点要么是错误的，要么是一个潜在的最佳地址。取20个特征下得到的正确率的平均值即作为1次验证过程的正确率。将10次验证过程的结果取平均值即为最终的CSMiner算法在ε划分下的选址准确率。

本次实验分别用比例参数、影响距离、边界模糊度、参与度阈值4个参数来评估CSMiner的准确率，并在最后进行邻近关系算法的效率评估，实验中各个参数的具体设置见表2。

表2实验设置

2.比例参数ε对准确率的影响

如图5所示，随着比例参数ε的增加，准确率在逐渐降低，这是因为随着比例参数的增加，训练集中的兴趣点数目越来越少，训练集规模的减少意味着可借鉴的经验越来越少，很难得到完整的关键co-location模式，从而导致准确率的降低。从图中亦可以看出随着比例参数ε的增大，准确率降低的幅度越来越大，这是因为随着比例参数ε的增加，从训练集中可得到的频繁co-location模式的阶数在逐渐减少，导致关键co-location模式的阶数减少，在低阶的不完整的关键co-location模式的指导下，会在测试数据集中标注更多错误的地址。

3.影响距离对准确率的影响

如图6所示，随着影响距离d的增加，CSMiner的准确率先升高再降低，这是因为在影响距离过小的情况下，会将真实世界本来就存在的一些有联系的兴趣点忽略，导致得到的关键co-location模式不完整，随着影响距离d的增加，得到的关键co-location模式会越来越完整，准确率逐渐增加。但当影响距离过大，一些现实中本没有影响的兴趣点被当作邻近点来处理，会得到错误的关键co-location模式，这会导致准确率的降低。上节给出了比例参数ε与准确率的关系，这里给出了ε＝1/15和ε＝1/5的准确率比较，可以看出，随着影响距离的增大两条线越来越近，这是因为随着影响距离的增大，关键co-location模式的阶数也在变大，在测试集中寻找关键co-location模式下的团的数量也会急剧减少，使得准确率相差越来越少。

4.边界模糊度对准确率的影响

如图7所示，随着边界模糊度的增加，CSMiner的准确率先升高后降低，这是因为当边界模糊度＝1的时候丢失的邻近关系最多，容易得到错误的关键co-location模式，这时的准确率最低，随着边界模糊度的降低，丢失的邻近关系慢慢找回，准确率慢慢提高，但是当模糊度减少到一定限度之后，真实边界外的一些本来没有影响的兴趣点被当作邻居，导致准确率又慢慢降低。

5.参与度阈值

如图8所示，随着参与度阈值的增大，准确率先升高后降低，这是因为随着参与度阈值的增大，频繁co-location模式的数目越来越少，根据co-location模式的向下闭合性[12]，co-location频繁模式的阶越来越低。只有当参与度阈值合理地设置在某个值的时候，才会得到较高的准确度。参与度阈值过低会导致某些阶较短的co-location模式频繁，导致错误的关键co-location模式；参与度阈值过高则会导致只有某些较长阶的co-location模式频繁，导致不完整的关键co-location模式。从图8中还可以看到，当参与度阈值小于0.3的时候，准确率的变化比较平稳，而大于3之后急剧下滑，这是因为某些特征的关键co-location模式在参与度阈值不大于0.3的时候是完全一致的，当大于0.3的时候，各个特征的关键co-location模式变化较大，导致准确率在0.3之后急速下降。

6.邻近关系计算方法效率评估

主要评估网格法寻找邻近关系的效率。因为北京地区大约跨2个经度，3个纬度，以0.1度为间隔划分成600个格子。每个格子的边长大约在5千米左右，当影响距离小于5千米时，基本只考虑当前兴趣点所在格子周围的九宫格，为了更好地验证网格法的时间效率，如图9所示，对影响距离按5千米的跨度来进行评估。从图9可以看出，遍历法的运行时间与影响距离d无关，是一个固定的值，因为该算法每次都要遍历所有兴趣点之间的距离。而网格法的时间效率明显优于遍历法，随着影响距离的增加，判断的格子的数目也在增加，所以时间会慢慢增加。按照图9的趋势，当影响距离上升到足够大时，网格法的运行时间必定会超过遍历法，因为网格法还有额外的判断最短距离等操作的时间消耗，但是在实际情况下，特别是在本文所涉及的选址问题，两个兴趣点的影响距离一般不会超过10km，所以网格法在选址问题中依然有很大的优势。

因此，本文以co-location模式为基础，利用co-location模式的“共存”性，寻找兴趣点对应特征的其他频繁共存的特征，挖掘其关键co-location模式，为了增加挖掘的准确率，本文做了许多相关的预处理工作以更加适应实际情况，以关键co-location模式，结合用户的倾向，推荐给用户感兴趣的地址供用户进一步决策。通过实验对CSMiner的准确率以及邻近关系算法的效率进行了验证。数据划分以及本体的高层挖掘使得CSMiner可以轻松地处理海量数据。从实验中可以看到不同参数设置下CSMiner的准确率差距比较大。在图5至图8的数据图中CSMiner的准确率均达到了80％以上，说明CSMiner在合适的参数设置下，选择的地址具有较高的可靠性。合理的参数设置，可以让CSMiner发挥得更好。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.基于Co-location模式和本体的商业地址选择方法，其特征在于，按照以下步骤进行：

步骤1，从百度地图上抓取真实兴趣点数据为源数据，且同时抓取每个兴趣点的类型，根据信息类型进行数据分类，创建相应的本体；

步骤3，计算每个兴趣点的边长；

2.根据权利要求1所述的基于Co-location模式和本体的商业地址选择方法，其特征在于，所述步骤1中，本体概念分为3种类型：叶概念、广义概念和约束概念；叶概念为本体概念间包含关系的有向无环图中的叶节点，在空间co-location模式挖掘中特征即叶概念；广义概念为包含叶概念的概念；约束概念是定义在其他本体概念上的逻辑表达式；本体具体创建过程是：在抓取地图数据的过程中，同时抓取每个兴趣点的类型信息，类型信息是一个三元组(S₁，S₂，S₃)，其中即S₃is-a S₂，S₂is-a S₁，在本体的可视化树形图中即S₁指向S₂，S₂指向S₃。

3.根据权利要求1所述的基于Co-location模式和本体的商业地址选择方法，其特征在于，所述步骤3中，计算每个兴趣点的边长的具体步骤是：即在以兴趣点标记地点为中心，以边长为半径的一个圆形区域均属于该兴趣点，为了得到某个兴趣点的覆盖范围，首先计算当前兴趣点的属边长L，设置边界模糊度μ,0≤μ≤1，则其边长为L(1-μ)。

4.根据权利要求1所述的基于Co-location模式和本体的商业地址选择方法，其特征在于，所述步骤4中，邻近关系的判断准则为：给定两个兴趣点A和B，边界模糊度μ，影响距离d，兴趣点A和B的属边长分别为L_A，L_B，若兴趣点A和兴趣点B的关键距离≤(L_A+L_B)*(1-μ)+d，则A和B满足邻近关系；

5.根据权利要求1所述的基于Co-location模式和本体的商业地址选择方法，其特征在于，所述步骤6中，假设当前需要选址的特征为f；