CN110198519A

CN110198519A - 网络接入点的位置估计方法与装置

Info

Publication number: CN110198519A
Application number: CN201910563064.5A
Authority: CN
Inventors: 齐翔; 周荣旺; 吴新琪; 王德胜; 左星
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-09-03

Abstract

本发明的实施例提供估计网络接入点的地理位置的方法和装置。该方法包括：基于待估计的网络接入点的标识，获取数据样本集，其中每个数据样本包括连接到该网络接入点的外部终端设备的位置信息；基于外部终端设备的位置信息，计算每二个数据样本所涉及的二个外部终端设备的物理位置之间的物理距离；基于该物理距离，对该数据样本集执行聚类处理以生成至少一个候选聚类；将该至少一个候选聚类中满足预定评估条件的目标聚类的几何中心作为该网络接入点的地理位置，其中几何中心是该目标聚类中各数据样本中所涉及的外部终端设备的位置的地理中心。

Description

网络接入点的位置估计方法与装置

技术领域

本发明涉及地理定位，尤其是涉及网络接入点的定位技术。

背景技术

在移动互联网应用中，经常要依据用户的地理位置进行个性化推荐或风控决策。通常获取用户地理位置的方法分为直接定位法和间接定位法。直接法是直接读取用户设备的GPS经纬度读数，该方法虽然简单精确，但会受制于建筑物遮挡GPS信号、设备GPS功能关闭、用户恶意篡改GPS读数等因素的影响，使用场景受限。另一种间接定位法是首先通过其他途经预先获取诸多移动基站、无线接入点等网络接入点的可能位置，然后根据用户终端设备当前连接的移动基站或无线接入点的唯一标识，其中唯一接入点中包含了例如移动基站所处的地理区域的地区区域码，查找用户终端设备可能处在的位置范围，再通过三角定位等方式最终确定该用户设备的位置。间接法精度低于直接法，但只要设备处于联网状态便能进行，并且用户难以恶意篡改位置，具有重要的价值。

现有技术中，在预先估计网络接入点的位置时，针对收集的大量外部终端设备的经纬度信息，通常建立二维高斯分布模型，并选取模型中均值作为接入点中心坐标的估计。然而，由于数据漂移干扰的影响，导致所估计的均值存在较大误差，影响定位效果。此外，该方法不适用于对移动基站的位置的估计，因为在移动基站发生位置移动时，在多个观察时期内必然事实上存在多个物理位置，那么显然基于多个观察时期收集的数据建立二维高斯分布模型，并选取模型中值作为接入点的位置估计将产生严重的误差。

发明内容

本发明旨在提出一种估计移动基站或无线接入点的位置的方法和装置。

根据本发明的一个方面，提供一种估计网络接入点的地理位置的方法，包括：基于待估计的网络接入点的标识，获取数据样本集，该数据样本集包含与该网络接入点相关的多个数据样本，其中每个数据样本包括连接到该网络接入点的外部终端设备的位置信息；基于每个数据样本中的外部终端设备的位置信息，计算该数据样本集中每二个数据样本所涉及的二个外部终端设备的物理位置之间的物理距离；基于该物理距离，对该数据样本集执行聚类处理以生成至少一个候选聚类，其中每个聚类包含该数据样本集中不同的数据样本；将该至少一个候选聚类中满足预定评估条件的目标聚类的几何中心作为该网络接入点的地理位置，其中几何中心是该目标聚类中各数据样本中所涉及的外部终端设备的位置的地理中心。

根据本发明的另一个方面，提供一种估计网络接入点的地理位置的装置，包括：数据获取模块，用于基于待估计的网络接入点的标识，获取数据样本集，该数据样本集包含与该网络接入点相关的多个数据样本，其中每个数据样本包括连接到该网络接入点的外部终端设备的位置信息；距离计算模块，用于基于每个数据样本中的外部终端设备的位置信息，计算该数据样本集中每二个数据样本所涉及的二个外部终端设备的物理位置之间的物理距离；聚类模块，用于基于该物理距离，对该数据样本集执行聚类处理以生成至少一个候选聚类，其中每个聚类包含该数据样本集中不同的数据样本；位置确定模块，用于将该至少一个候选聚类中满足预定评估条件的目标聚类的几何中心作为该网络接入点的地理位置，其中几何中心是该目标聚类中各数据样本中所涉及的外部终端设备的位置的地理中心。

此外，根据本发明，还提供一种具有指令的计算机可读介质，所述指令在被一个或多个计算系统执行时，使所述计算系统执行根据本发明的方法。

此外，根据本发明，还提供一种位置估计装置，包括：存储指令的存储器；处理器，可配置为执行所述指令以实现本发明的方法。

根据本发明实现的位置估计方案，具有噪声不敏感的特点，可以适用于网络接入点例如移动基站的位置经常变化的场合。

根据本发明的方案，可以消除由于漂移等因素对网络接入点位置估计的干扰，尤其是特别适合于移动基站的位置的估计。

附图说明

图1示出根据本发明一个示例性的位置估计装置的示意图；

图2示出根据本发明一个示例性的地址估计方法流程图；

图3示出根据本发明一个示例性的数据聚类方法流程图；

图4示出根据本发明另一个示例性的数据聚类方法流程图；

图5示出了根据本发明一个实施例的确定目标聚类方法流程图；

图6示出了根据本发明一个实施例的计算设备的示意图。

具体实施方式

下面结合附图对本发明实施例提供的装置与方法及进行详细说明。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整的传达给本领域的技术人员。在以下实施例中，以移动基站为例描述本发明的确定移动基站地址的方案，但这些方案同样适用于其它可提供网络接入服务的设备。

移动基站作为网络接入点，具有唯一的身份特征，例如设备序列号(SID)；同时在提供网络接入服务时，还具有区域性特征，例如该区域性特征是通信网络系统赋与该移动基站的地区区域码(LAC)。移动基站可在不同的时间、不同的地点为相同或不同的外部终端设备例如用户设备(Ud)提供网络接入。按照本发明，收集用户设备连接到移动基站时的历史连接信息，这些历史连接信息包括用户设备在连接到移动基站时的位置信息，例如经纬度；所连接的移动站的唯一标识UID，标识UID包括该移动站提供网络接入服务时的地区区域码(LAC)以及身份标识SID；历史连接信息还可以包括用户设备在连接到移动基站的时间信息。因此，基于历史连接信息，可收集到不同移动基站提供网络接入服务时的数据，而本发明可利用这些数据为基站估计其在提供服务时的具体地址。

图1示出了根据本发明一个实施例的位置估计装置100的示意图。如图所示，位置估计装置100包括数据获取模块102、距离计算模块104、聚类模块106以及位置确定模块108。如图所示，位置估计装置100可与记录有用户设备的网络连接历史信息的数据源200通信。为了基于这些历史信息来估计移动基站的地理位置，数据获取模块102基于数据源200中记录的网络连接历史信息构造数据样本X，按照一个实施例，每个数据样本可以是二元数据，即X＝(uid,x_LL)，其中uid代表在本次网络连接活动中用户设备所连接的移动基站的标识UID，例如可以包括地区区域码LAC以及身份标识SID，而x_LL表示在本次网络连接活动中连接到移动基站的用户设备的位置信息，例如该位置信息是用户设备的经纬度。不难理解，由于移动基站的移动性质，例如从一个城市移动到另一个城市，即使对于同一移动基站，由于在不同的城市间切换时地区区域码(LAC)会发生变化，因此按照本发明，该移动基站的UID已经发生变化，因此按照本发明，具有同一SID但不同LAC的基站视为不同的移动基站，其具有不同的UID。

在另一实施例中，数据获取模块102形成的数据样本X还可以是三元数据，即X＝(t,uid,x_LL)，其中t代表在本次网络连接活动中用户设备连接到移动基站的时间。以此方式，数据获取模块102可利用数据源200中记录的网络连接历史信息为每次网络连接活动构造出相应的数据样本，其中不同的数据样本对应于同一移动基站在在相同的时间服务于不同的用户设备或在不同的时间服务于不同的用户设备，或者不同的移动基站在相同或不同的时间服务于相同或不同的用户设备。地址估计设备100可利用这样得到的数据样本按照移动基站的标识UID来对每一基站的具体地理位置或地址进行估计。

按照本发明的一个实施例，在执行移动基站的地理位置估计时，例如估计标识号为UID_A的移动基站A，数据获取模块102基于标识UID_A，获取与移动基站A有关的数据样本集，即数据样本中uid等于标识UID_A的那些样本，由此，在所获取的数据样本集中包含有与移动基站A的UID_A相匹配的多个数据样本，例如获取到N个样本{X₁，X₂，X₃，…X_N}，其中每个数据样本包括连接到移动基站A的一个用户设备的位置信息，即X＝(uid,x_LL)。在以下说明中，以经纬度为例来表示用户设备的位置信息。

距离计算模块104基于每个数据样本X中记录的用户设备的经纬度，计算数据样本集中每二个数据样本X_i,X_j之间的物理距离d_i,j，该物理距离d_i,j代表数据样本X_i,X_j中涉及的二个用户设备Ud_i与Ud_j在分别连接到移动基站A时的物理位置之间的距离，其i,j表示数据样本集中的任意样本。在用户设备的位置信息为经纬度情况下，所确定的物理距离d_i,j为用户设备Ud_i与Ud_j当时所处位置之间的球面距离。由此，距离计算模块104可生成距离矩阵D，其中的每个矩阵元素d代表了任意二个数据样本的物理距离，例如对于针对UID_A所获取的N个样本{X₁，X₂，X₃，…X_N}，距离矩阵D可表示如下：

不难理解，在该矩阵中，对角线上的元素为0，代表了每个样本与自身的距离，此外，关于对角线对称的元素即d_i,j与d_j,i的值相等。

在确定了样本集{X₁，X₂，X₃，…X_N}中每二个样本之间的距离后，聚类模块106基于所确定的物理距离D，对数据样本集{X₁，X₂，X₃，…X_N}执行聚类处理以生成一个或多个候选聚类。按照本发明，聚类的目的是将在一定覆盖范围内的尽可能多的样本集中在一起，由于样本的随机性，显然，处于同一聚类中的多个样本所对应的用户设备会围绕所连接的移动基站，因此，该聚类中样本的几何中心可代表了移动基站的位置，这里的几何中心就是这些样本之间的物理距离的中心点。

按照本发明的一个实施例，聚类模块106在确定数据样本集的聚类时，采用快速循环聚类方式。具体地，聚类模块106选择数据样本集{X₁，X₂，X₃，…X_N}中的任一样本，例如X₁，根据距离计算模块104确定的距离矩阵D，以样本X₁为中心并且指定距离R为半径，统计所能覆盖到样本的最大样本数N₁。这里的半径R是经验值，例如对于移动基站而言，其覆盖范围通常不大于1公里，因此可设定R为1公里。假定在本例中以样本X₁为中心半径R下覆盖了N₁个样本，从而生成第一个聚类Cluster₁。该聚类Cluster₁中不但包含了样本X₁，还包括了数据样本集{X₁，X₂，X₃，…X_N}中另外N₁-1个样本，这些样本作为个聚类Cluster₁下的归属样本。然后，聚类模块106从样本集{X₁，X₂，X₃，…X_N}中删除聚类Cluster1中的归属样本，并以剩余样本子集中的任一个样本例如X₂(假定X₂不包含在聚类Cluster1中)为中心，统计在半径距离R下所能覆盖到样本的最大样本数N₂，从而构造第二个聚类Cluster₂。这里需要指出的是，虽然这里以示例形式描述了分别以样本X₁、X₂为例作为中心样本来产生第一、第二个聚类，但根据本发明，在每次形成每个聚类时，作为中心样本的样本可以是原始数据样本集或剩余样本子集中的任一样本。

以此方式循环对每次聚类处理后剩余的样本子集进行进一步聚类，如果经过了K次处理后{X₁，X₂，X₃，…X_N}中的全部样本都被聚类，或当第K次聚类处理时覆盖到的样本数N_K小于预定的聚类阈值N_C，则终止循环，不再进行聚类处理，这里K≥1。由此，聚类模块106可输出K个聚类Cluster₁～Cluster_K。在另一实施例中，当经第K次聚类处理时覆盖到的样本数N_K小于聚类阈值N_C时，聚类模块106放弃第K个聚类Cluster_K，从而只输出聚类Cluster₁～Cluster_K-1。本方案通过引入不确定聚类个数的快速循环聚类，能够将可能发生变动的用户设备的位置聚合到一个新聚类中，从而可通过后续处理筛选获得最新位置。在以下示例中，以输出K个聚类为例来描述。

这里需要指出的是，本发明的实施例并不限于基于覆盖半径R来聚类的方式，还可以采用本领域已知的其它聚类方式，例如K均值(Kmeans)方法等。

位置确定模块108基于聚类模块106提供的K个聚类，将其中满足预定评估条件的目标聚类的样本的几何中心作为移动基站A的地理位置，如前所述，这里，几何中心是该目标聚类中各数据样本中所涉及的外部终端设备的位置的地理中心。如图1所示，按照本发明一个实施例，位置确定模块108包括聚类选择单元1082以及位置计算单元1084。聚类选择单元1082用于设定预定评估条件以便从聚类模块106提供的K个候选聚类中选择用于估计当前的移动基站A的地理位置的目标聚类。在一个示例中，聚类选择单元1082可以设定K个聚类中具有最大样本数的聚类为目标聚类，在以下说明中，假定聚类选择单元1082确定第m个聚类为目标聚类，其中包含了最大Nm个归属样本。

位置计算单元1084用于计算由聚类选择单元1082指定的第m个目标聚类的几何中心。按照一个示例，位置计算单元1084首先将目标聚类中Nm个样本中的每个样本中的经纬度x_LL转换为笛卡尔平面坐标，这里以p(x,y)表示每个样本的平面坐标位置。在一个示例，坐标x,y可分别计算如下：

x＝cos(lat0/180.0*pi)*111000.0*(lon-lon0)

y＝111000.0*(lat-lat0)

式中，lon表示待转换样本的经度坐标，lat表示待转换样本的纬度坐标，pi是圆周率。lon0与lat0是预先选定的参数，分别表示一指定点的经度与纬度坐标，即以指定点(lon0,lat0)为中心对目标聚类中各样本所涉及的用户设备的经、纬度做转换。因为经纬度转换成平面必有拉伸变形，选择(lon0,lat0)点为中心变换，则这点的变形最小，为0，而离(lon0,lat0)点越远变形越大。一般选择一组要转换的经纬度均值作为lon0,lat0，例如在本例中，可以选择Nm个归属样本中的x_LL中经度的均值作为lon0，选择Nm个归属样本中的x_LL中纬度的均值作为lat0。

位置计算单元1084基于每个样本中用户设备的平面坐标p(x,y)，计算该目标聚类中各数据样本中所涉及的用户设备的位置的几何中值，这里，几何中值定义为距目标聚类中的全部样本X距离之和最小的点P₀，即P₀可以由下式确定：

式中，Nm表示目标聚类中包含的样本数，p′表示位于目标聚类的各样本所涉及的用户设备位置坐标所在平面的任一点，由该公式可以看到，p₀就是该平面中使得距目标聚类中的Nm个样本X距离之和最小的点p′。

在确定了几何中值P₀后，位置计算单元1084可以进一步评估以几何中值P₀为中心的覆盖范围，这里覆盖范围定义为目标聚类中的Nm个样本X距P₀的距离的绝对中位差MAD，即

MAD＝median(|p₁-p₀|,|p₂-p₀|,…|p_Nm-p₀|)，

式中median代表中位差计算，其结果为目标聚类中各个样本X距P₀的Nm个距离中的中位数。由此，利用绝对中位差MAD可实现对几何中值P₀为中心的半径即无线接入基站的覆盖范围的稳健估计，该覆盖范围可以帮助评估定位的精确程度。例如，假设移动基站A的绝对中位差MAD为100米，而移动基站B的绝对中位差MAD为1000米，则表明当一个用户设备连接到移动基站B时，对该用户设备的定位精度是1000米，而当该同一用户设连接到移动基站A时，则对该用户设备的定位精度可达到100米。因此，这里的绝对中位差MAD也表明了对应的移动基站的位置估计的稳健程度。利用本实施例的方案，通过鲁棒性估计几何中值、绝对中位差，从而可使得结果对样本数量和噪声的依赖减少。

在本例中，所确定的几何中值P₀为笛卡尔坐标，为此，位置计算单元1084可进一步将将该几何中值P₀的笛卡尔坐标转换为符合国际标准的经纬度坐标。在一个示例中，可以采用如下公式来执行转换：

lon_P₀＝x_P₀/(cos(lat0/180*pi)*111000)+lon0

lat_P₀＝y_P₀/111000+lat0

式中，x_P₀与y_P₀代表基于公式(1)确定的几何中值P₀的笛卡尔横坐标与纵坐标，lon_P₀与lat_P₀转换后的几何中值P₀的经、纬度。

这里需要指出的是，可以采用现有技术中已知的经纬度转换笛卡坐标或笛卡坐标转换为经纬度的计算方式，本发明并不限于这里描述的转换方式。

此外，本发明的实施例还可以进一步利用基尼不纯度来评估所估计的移动基站A的位置固定程度。按照一个示例，可通过下式基于K个聚类来计算移动基站A的基尼不纯度I_G：

其中，Ni和Nj代表第i和第j个聚类中的样本数，可以看到，基尼不纯度值越低，表明移动基站A的位置越固定，可信度越高。

在上述实施例中，在聚类选择单元1082设定预定评估条件时并未考虑用户设备连接到移动基站A的时间因素，而在另一实施例中，聚类选择单元1082还可以进一步基于时间因素，例如将聚类模块106产生的K个聚类中、每个聚类所覆盖或包含的数据样本的覆盖日期t与当前时间t0最接近的聚类设定为目标聚类。为此，在数据获取模块102针对移动基站A所获取的数据本集{X₁，X₂，X₃，…X_N}中，每个样本X包含三个元素，即X＝(t,uid,x_LL)。在如前述实施例所述经过距离计算模块104与聚类模块106的处理后，聚类选择单元1082可以基于聚类模块106产生的例如K个候选聚类中的样本的覆盖时间信息t,可以将K个候选聚类中与当前时间t0最接近的聚类设定为目标聚类，以便后续位置计算单元1084基于利用时间条件确定的目标聚类来确定移动基站A的地理坐标，这里位置计算单元1084对利用时间条件确定的目标聚类计算移动基站A的地理坐标的方式与前述实施例相同，不再赘述。由此方式，可以保证始终采用最新的样本来估计移动基站A的位置，因此特别适用于移动基站A发生实际位置变更的情形。

此外，按照本发明的另一实施例，在聚类模块106生成K个聚类后，聚类选择单元1082还可以进一步综合考虑最大样本数与时间因素二个条件来筛选目标聚类。例如，聚类选择单元1082首先选择具有最大样本数的聚类，例如假设第m个聚类具有最大样本数Nm，进一步比较Nm与预设最大极限值N_极限，这里预设最大极限值N_极限是平均聚类样本数S_AVG的k倍，其中1≤k≤K，平均聚类样本数S_AVG可计算如下：S_AVG＝N÷K。如果聚类选择单元1082确定Nm大于或等于N_极限，则采用第m个聚类作为目标聚类。如果Nm小于N_极限，则聚类选择单元1082按照聚类中包含的样本数分别对K个聚类进行排序，同时，按照K个聚类中包含的样本的覆盖时间t与当前时间t0的接近程度对这个K个聚类排序，从而聚类选择单元1082从这K个候选聚类中选择样本数排名靠前且同时距离当前时间t0靠前的一个聚类作为目标聚类。例如，假设在第q次迭代中产生的第q个聚类按样本数排在第2位，但该第q个聚类中的各样本的覆盖时间t距离当前时间t0最近，则选择该第q个聚类为目标聚类。位置计算单元1084利用第q个目标聚类计算移动基站的地理坐标的方式与前述实施例相同，不再赘述。在本实施例中，在采用公式(2)所示的基尼不纯度来评估基于由样本数与时间双重因素选择的目标聚类而生成的移动基站的位置时，可以基于K个聚类中样本分布规律而对基尼不纯度I_G进行加权，从而提高位置估计的可信度。例如，当移动基站发生位置变动时，所采集到的N个样本{X₁，X₂，X₃，…X_N}必然是包含有不同的时间的外部终端设备例如用户设备的位置信息，因此，基于本发明的快速循环聚类而得到的K个聚类或其中的至少一部分聚类将合理地反映了该移动基站的不同位置。因此，如果这K个聚类或其中的至少一部分聚类中样本数分布均匀，则对利用公式(2)计算的基尼不纯度I_G乘以加权因子λ来提高可信度，其中加权因子λ取决于聚类中样本数分布程度。

这里需要指出提，虽然在上述实施例中以基尼不纯度的方式来评估在采用所选定的目标聚类来评估移动基站A的位置固定程度，但本发明的实施例不限于此，还可以采用本领域已知的其它方式来评估位置固定程度，例如采用信息熵等。

在位置确定模块108确定了移动基站A的地理位置即p₀的经纬度后，可将移动基站A的位置坐标连同其标识UID_A相关联地存储在数据库中，以备以后在其它用户设备连接到移动基站A时用于确定该用户设备的位置。此外，在确定了移动基站A的位置后，数据获取模块102可以进一步获取数据源100中下一个移动设备例如设备B的UID_B，并按照上述过程估计移动设备B的位置。

虽然在实施例中是以移动基站作为网络接入点的示例来描述了多个实施例，但本发明并不限于移动基站，例如还可以像WiFi热点这样的提供网络接入服务的设备。对于WiFi热点而言，可以利用其固定不变的MAC地址作为其UID。

图2示出按照本发明的一个实施例的估计移动基站的位置的方法流程，以下仍以移动基站A为例。

在步骤202，位置估计装置100基于移动基站A的标识UID_A，获取与移动基站A有关的N个样本{X₁，X₂，X₃，…X_N}，其中每个数据样本包括移动基站A的标识UID_A及连接到移动基站A的一个用户设备的位置信息，例如经纬度坐标。

在步骤204，基于每个数据样本中的用户设备的位置，位置估计装置100计算每二个数据样本X_i,X_j之间的物理距离d_i,j，该物理距离d_i,j代表数据样本X_i,X_j中涉及的二个用户设备Ud_i与Ud_j在分别连接到移动基站A时的位置之间的距离。例如，对于以经纬度表示的用户设备的位置，物理距离d_i,j为用户设备Ud_i与Ud_j当时所处位置之间的球面距离。由此，址估计装置100可基于样本集{X₁，X₂，X₃，…X_N}生成距离矩阵D，距离矩阵D可表示如下：

在步骤206，在确定了样本集{X₁，X₂，X₃，…X_N}的距离矩阵D后，址估计装置100基于所确定的物理距离D，对数据样本集{X₁，X₂，X₃，…X_N}执行聚类处理以生成一个或多个候选聚类。按照一个示例，位置估计装置100采用快速循环聚类来确定数据样本集的聚类，图3、4示出根据本发明的实施例的聚类处理流程图。

图3示出了根据本发明一实施例的聚类处理流程图。在步骤302，选择数据样本集{X₁，X₂，X₃，…X_N}中的任一样本，例如X₁。步骤304，根据确定的距离矩阵D，以样本X₁为中心并且指定距离R为半径，统计所能覆盖到样本的最大样本数。假定在本例中以样本X₁为中心覆盖了N₁个样本，从而生成第一个聚类Cluster₁。该聚类Cluster₁中不但包含了样本X₁，还覆盖了另外N₁-1个样本。

步骤306，判断是否满足循环结束条件，例如，在经过了本次处理后{X₁，X₂，X₃，…X_N}中的全部样本是否都被聚类，如果全部样本都被聚类，则进程前到步骤310，终止循环并输出聚类Cluster₁。如果未满足循环结束条件，则前进到步骤308。

在步骤308，从样本集{X₁，X₂，X₃，…X_N}中删除聚类Cluster1中包含的样本，并重复步骤302-306，从剩余样本子集中选择一个样本例如X₂(假定X₂不包含在聚类Cluster1中)，以其为中心，统计在半径距离R下所能覆盖到剩余样本的最大样本数N₂，从而构造第二个聚类Cluster₂。以此方式循环对每次聚类处理后剩余的样本子集进行进一步聚类，如果经过了K次处理后{X₁，X₂，X₃，…X_N}中的全部样本都被聚类，则终止循环，并在步骤310输出K个聚类Cluster₁～Cluster_K。

图4示出了根据本发明另一实施例的聚类处理流程图，其中步骤402与404与图3中的步骤302、304相同，在此不再赘述。在步骤404确定了以样本X₁为中心的聚类Cluster₁后，在步骤406，判断本次聚类覆盖到的样本数N₁是否小于预定的聚类阈值N_C，如果本次聚类覆盖到的样本数N₁小于聚类阈值N_C，则进入步骤414，删除聚类Cluster₁，终止循环，表明利用数据样本集{X₁，X₂，X₃，…X_N}针对移动基站A的位置估计失败。如果在步骤406判断本次聚类覆盖到的样本数N₁大于聚类阈值N_C，则前进到步骤408。

在步骤408，从样本集{X₁，X₂，X₃，…X_N}中删除聚类Cluster1中包含的样本，从而得到剩余样本子集，作为下一次循环的更新样本集，随后进入步骤410。在步骤410，进一步判断剩余样本子集中的样本数是否小于聚类阈值N_C，如果小于聚类阈值N_C，则没有必要进入下一循环，因此循环结束，并在步骤412中输出聚类Cluster1。如果在步骤410判断剩余样本子集中的样本数N大于聚类阈值N_C，则重复步骤402-414，从剩余样本子集中选择一个样本例如X₂(假定X₂不包含在聚类Cluster1中)，以其为中心，统计在半径距离R下所能覆盖到剩余样本的最大样本数N₂，从而构造第二个聚类Cluster₂。以此方式循环对每次聚类处理后剩余的样本子集进行进一步聚类，从而得到K个聚类。

回到图2，在步骤206确定了K个聚类后，在步骤208，从这K个聚类中选择满足预定评估条件的目标聚类并计算该目标聚类中的样本的几何中心作为移动基站A所处的地理位置。图5出了根据一个实施例的确定目标聚类的方法流程图。

如图5所示，在步骤502，获取在步骤206输出的K个聚类在步骤504，从K个聚类中选择具有最大样本数的聚类，例如假设第m个聚类具有最大样本数Nm，然后前进到步骤506，比较Nm与预设最大极限值N_极限，如果确定Nm大于或等于N_极限，则前进至步骤510，采用第m个聚类作为目标聚类并输出。如果在步骤506确定Nm小于N_极限，前进到步骤508，进一步结合时间因素来选择目标聚类。在一个示例中，在步骤508，聚类选择单元按照聚类中包含的样本数分别对K个聚类进行排序，同时，按照K个聚类中包含的样本的覆盖时间t与当前时间t0的接近程度对K个聚类排序，因此目标聚类的评估条件可以设置为K个候选聚类中样本数排名靠前且同时靠近当前时间t0的聚类为目标聚类。例如，假设在第q次迭代中产生的第q个聚类按样本数排在第2位，但该第q个聚类中的各样本的覆盖时间t距离当前时间t0最近，则选择该第q个聚类为目标聚类。随后前进至步骤510，在此输出第q个聚类作为目标聚类。不难理解，在本例中，步骤506与508并不是必须的，例如可以不考虑时间因素，而直接将步骤504确定的具有最大样本数的聚类在步骤510予以输出作为目标聚类。

在以下说明中，假定在步骤510确定K个聚类中的第m个聚类为目标聚类，其中包含了Nm个归属样本，回到图2。

在步骤208中，进一步确定步骤510指定的目标聚类的几何中心。按照一个示例，首先将目标聚类中每个样本中的经纬度x_LL转换为笛卡尔平面坐标p(x,y)，然后基于每个样本中用户设备的坐标p(x,y)，计算目标聚类中Nm个数据样本中所涉及的用户设备的位置的几何中值，这里，几何中值定义为距目标聚类中的全部Nm个归属样本X距离之和最小的点P₀，即P₀可以由下式确定：

在确定了移动基站A的笛卡尔坐标P₀后，进一步将其转换为符合国际标准的经纬度坐标。

在另一示例中，还可以包括位置固定程度的估计步骤，例如利用基尼不纯度来评估所估计的移动基站A的位置固定程度。此外，进一步地，还可以根据步骤206中生成的K个聚类中样本分布程度对基尼不纯度进行加权，以提高可信度。由此，可以将所估计的移动基站位置的经纬度坐标、反映所估计的移动基站的定位精度的绝对中位差MAD以及可信度I_G相关联地存储在数据库，以供后续估计外部终端设备的位置使用和参考。

以此方式，可以对数据源200中记录的网络接入信息中涉及的所有网络接入点的地理位置进行估计，并存储在数据库中，以供后续在发生新的网络连接并且正连接的用户设备的地理位置不确定(例如GPS关闭等情况下)时来估计用户设备的位置。由此，业务服务商可以在用户设备直接定位失败情况下，利用该用户设备所连接的网络接入点例如移动基站的位置来估计该用户设备的位置、进而实现对该用户设备的定点服务的目的，例如发送定向广告或服务或产品的推荐等。

这里需要指出的是，虽然结合上述优选实施例描述了本发明，但显然本发明不限于此。此外，图1中的各模块、单元可以包括处理器、电子设备、硬件设备、电子部件、逻辑电路、存储器、软件代码、固件代码等，或者它们的任意组合。技术人员还将认识到的是，结合本文公开内容描述的各种说明性的逻辑方框、模块和方法步骤可以实现为电子硬件、计算机软件或二者的组合。以软件实现为例，作为一个逻辑意义上的设备，是通过处理器将非易失性存储器中对应的计算机程序指令读取内存中运行形成的。从硬件层面而言，如图6所示，在一种实现方式中，根据本发明的位置估计装置可以由一个或多个计算设备实现，除了图6所示的处理器、内存、网络接口以及非易失性存储器之外，实施例中实现异常指标确定的计算设备通常根据其实际功能，还可以包括其它硬件，对此不再赘述。

本发明另一实施例提供的机器可读介质上存储有机器可读指令，该机器可读指令在被计算机执行时，使计算机执行本文公开的前述的任一种方法。具体地，可以提供配有机器可读介质的系统或者装置，在该机器可读介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统的计算机读出并执行存储在该机器可读介质中的机器可读指令。在这种情况下，从机器可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的机器可读介质构成了本发明的一部分。

需要说明的是，上述各流程和设备的结构图中不是所有的步骤或模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构，也可以是逻辑结构，即，有些模块可能由同一物理实体实现，或者，有些模块可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例，本领域技术人员可以知晓，可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.一种估计网络接入点的地理位置的方法，包括：

基于待估计的网络接入点的标识，获取数据样本集，该数据样本集包含与该网络接入点相关的多个数据样本，其中每个数据样本包括连接到该网络接入点的外部终端设备的物理位置信息；

基于每个数据样本中的外部终端设备的位置信息，计算该数据样本集中每二个数据样本所涉及的二个外部终端设备的物理位置之间的物理距离；

基于该物理距离，对该数据样本集执行聚类处理以生成至少一个候选聚类，其中每个聚类包含该数据样本集中不同的数据样本；

计算该至少一个候选聚类中满足预定评估条件的目标聚类的几何中心，作为该网络接入点的地理位置，其中几何中心是该目标聚类中各数据样本中所涉及的外部终端设备的位置的地理中心。

2.如权利要求1的方法，其中所述位置信息是所述外部终端设备在连接到所述网络接入点时的经纬度，并且所述物理距离是所述二个外部终端设备之间的球面距离。

3.如权利要求2的方法，其中，对该数据样本集执行聚类处理以生成至少一个候选聚类包括：

将所述数据样本集作为待聚类样本集，迭代执行以下循环聚类过程，直到满足聚类结束条件：

选择待聚类样本集中的一个当前样本，将该待聚类样本集中与该当前样本之间的距离小于预定距离阈值的所有其它样本分类为对应于当前迭代过程的聚类，其中该聚类还包括该当前样本；

在当前迭代过程未满足所述聚类结束条件时，从该待聚类样本集中去除该当前迭代过程的聚类中的样本，以得到用于下一迭代过程的待聚类样本集；

在当前迭代过程满足聚类结束条件时，输出迭代执行过程中得到的聚类。

4.如权利要求3的方法，其中所述聚类结束条件是当前迭代过程的聚类中的数据样本的数目小于聚类阈值，所述方法进一步包括：

如果当前迭代过程的聚类中的数据样本的数目小于该聚类阈值，则从所述输出的聚类中去除当前迭代过程的聚类。

5.如权利要求4的方法，其中所述迭代结束条件进一步包括：用于下一迭代过程的待聚类样本集的样本数小于所述聚类阈值。

6.如权利要求1-5之一的方法，其中，所述预定评估条件包括：

所述目标聚类中的数据样本数最大。

7.如权利要求6的方法，其中每个数据样本还包括所述外部终端设备连接到所述网络接入点的时间信息，其中所述预定评估条件还包括：

所述目标聚类中的数据样本距当前日期的接近程度。

8.如权利要求7的方法，其中，

当具有最大样本数的聚类的样本数量大于或等于一预设最大极限值时，采用该具有最大样本数的聚类作为所述目标聚类；否则

从所述候选聚类中选择样本数排名靠前且同时距离所述当前日期靠前的一个聚类作为所述目标聚类。

9.如权利要求8的方法，其中所述预设最大极限值是平均聚类样本数S_AVG的k倍，其中1≤k≤K，其中K为所生成的至少一个候选聚类的聚类数量；

其中平均聚类样本数S_AVG定义为：

S_AVG＝N÷K，其中N为所述数据样本集中的样本数。

10.如权利要求8的方法，进一步包括：通过计算基尼不纯度I_G来评估所估计的网络接入点的地理位置的固定程度。

11.如权利要求2-5之一的方法，其中确定该至少一个聚类中满足预定评估条件的目标聚类的几何中心包括：

将所述目标聚类中的每个数据样本所涉及的外部终端设备的经纬度转换为平面坐标；

基于该平面坐标，计算该目标聚类中各数据样本中所涉及的外部终端设备的位置的几何中值；

将该几何中值的平面坐标转换为经纬度作为所述地理中心。

12.如权利要求11的方法，进一步包括确定所述目标聚类中各个样本距所述几何中值的距离的绝对值之间的中位差，作为所述网络接入点的定位精度。

13.一种估计网络接入点的地理位置的装置，包括：

数据获取模块，用于基于待估计的网络接入点的标识，获取数据样本集，该数据样本集包含与该网络接入点相关的多个数据样本，其中每个数据样本包括连接到该网络接入点的外部终端设备的位置信息；

距离计算模块，用于基于每个数据样本中的外部终端设备的位置信息，计算该数据样本集中每二个数据样本所涉及的二个外部终端设备的物理位置之间的物理距离；

聚类模块，用于基于该物理距离，对该数据样本集执行聚类处理以生成至少一个候选聚类，其中每个聚类包含该数据样本集中不同的数据样本；

位置确定模块，用于将该至少一个候选聚类中满足预定评估条件的目标聚类的几何中心作为该网络接入点的地理位置，其中几何中心是该目标聚类中各数据样本中所涉及的外部终端设备的位置的地理中心。

14.如权利要求13的装置，其中所述位置信息是所述外部终端设备在连接到所述网络接入点时的经纬度，并且所述物理距离是所述二个外部终端设备之间的球面距离。

15.如权利要求14的装置，其中，所述聚类模块进一步配置为：

选择待聚类样本集中的一个当前样本，将该待聚类样本集中与该当前样本之间的距离小于距离阈值的所有其它样本分类为对应于当前迭代过程的聚类，其中该聚类还包括该当前样本；

在当前迭代过程未满足所述聚类结束条件时，从待聚类样本集中去除该当前迭代过程的聚类中的样本，以得到用于下一迭代过程的待聚类样本集；

在当前迭代过程满足聚类结束条件时，输出迭代过程中得到的聚类。

16.如权利要求15的装置，其中所述聚类结束条件是当前迭代过程的聚类中的数据样本的数目小于聚类阈值，所述聚类模块进一步配置为：

如果当前迭代过程的聚类中的数据样本的数目小于聚类阈值，则从所述输出的聚类中去除当前迭代过程的聚类。

17.如权利要求16的装置，其中所述迭代结束条件进一步包括：用于下一迭代过程的待聚类样本集的样本数小于所述聚类阈值。

18.如权利要求13-17之一的装置，其中所述位置确定模块包括：

聚类选择单元，用于指定所述预定评估条件并根据所述预定评估条件确定所述目标聚类，其中所述包括预定评估条件包括：所述目标聚类中的数据样本数最大。

19.如权利要求18的装置，其中每个数据样本还包括所述外部终端设备连接到所述网络接入点的时间信息，其中所述预定评估条件包括：

所述目标聚类中的数据样本距当前日期接近程度。

20.如权利要求19的装置，其中，所述聚类选择单元进一步配置成：

21.如权利要求20的装置，其中所述预设最大极限值是平均聚类样本数S_AVG的k倍，其中1≤k≤K，其中K为所生成的至少一个候选聚类的聚类数量；

其中平均聚类样本数S_AVG定义为：

S_AVG＝N÷K，其中N为所述数据样本集中的样本数。

22.如权利要求20的装置，其中所述位置确定模块通过计算基尼不纯度I_G来评估所估计的网络接入点的地理位置的固定程度。

23.如权利要求13-17之一的装置，其中所述位置确定模块进一步包括位置计算单元，用于：

将该几何中值的平面坐标转换为经纬度作为所述地理中心。

24.如权利要求23的装置，其中所述位置计算单元进一步确定所述目标聚类中各个样本距所述几何中值的距离的绝对值之间的中位差，作为所述网络接入点的定位精度。

25.如权利要求13-17之一的装置，其中所述网络接入点是以下之一：

基站，其中所述标识包括所述基站的地区区域码与基站身份；和

WIFI热点,其中所述标识是该热点的MAC地址。

26.一种具有指令的计算机可读介质，所述指令在被一个或多个计算系统执行时，使所述计算系统执行根据权利要求1-12中的任一项所述的方法。

27.一种位置估计装置，包括：

存储指令的存储器；

处理器，可配置为执行所述指令以实现权利要求1-12中的任一项所述的方法。