CN109889981B

CN109889981B - 一种基于二分类技术的定位方法及系统

Info

Publication number: CN109889981B
Application number: CN201910175076.0A
Authority: CN
Inventors: 王斌; 吴伟康; 盛津芳; 宋虹; 关王豪; 董强强
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-03-08
Filing date: 2019-03-08
Publication date: 2020-11-06
Anticipated expiration: 2039-03-08
Also published as: CN109889981A

Abstract

本发明涉及无线区域网中定位技术领域，公开了一种基于二分类技术的定位方法及系统，以解决在定位过程中出现的精度低、鲁棒性差、信号传播容易受到环境影响的问题；本发明的方法包括对待测区域进行网格划分，采集待测区域内包括网格划分编号的历史样本，构建特征集、训练集、以及验证集；根据特征集计算网格特征，将训练集的样本视为正样本，同时根据正样本调整得到负样本，根据正样本和负样本构建训练候选集，根据网格特征和训练候选集得到第一模型；采用验证集的样本验证第一模型的误差是否在设定范围内，若误差属于设定的范围，则模型训练成功，采用第一模型定位实时WiFi信息的具体位置。

Description

一种基于二分类技术的定位方法及系统

技术领域

本发明涉及无线区域网中定位技术领域，尤其涉及一种基于二分类技术的定位方法及系统。

背景技术

目前，全球定位系统GPS在户外拥有非常好的定位效果，户外的定位系统的可接受误差在几十米，但是在室内场景下，人们希望得到更精确的室内位置，这就需要更高的定位精度。尽管目前的技术，如蓝牙、Zigbee、超声波定位技术等取得很大进展，但是这些技术对定位硬件设备和应用环境都有特定的要求，存在经济性差等问题。在大型商业环境下仍存在定位信号不准、环境信息不全、信息缺失、不同空间距离太近等等挑战，因此如何精确的定位是一个难题。随着无线网络技术的发展和WiFi的普及，使得WiFi定位技术得到广大的关注。现有的WiFi定位技术主要通过建立位置指纹库的方法来进行定位，一个位置对应一个独特的指纹。通过待定位目标和无线接入点进行交互，获得接入点的WiFi指纹。这个指纹可以是单维或多维的，比如待定位设备在接收或者发送信息(或信号)，那么指纹可以是这个信息(或信号)的一个特征或多个特征，最常见的特征是信号强度。通过将待定位区域划分成不同的网格，在网格里接收来自各个WiFi的信号强度，得到各网格的指纹。在定位阶段，从指纹库里找到和移动设备接收信号最匹配的指纹，一旦找到最匹配指纹，就可以确定移动设备的位置。

WiFi的普及使得相关定位技术越来越成熟，但是目前该类技术仍存在三大问题：第一，成本较高，需购买安装设备。第二，精度低、鲁棒性差，信号的传播容易受到环境影响，特别是在复杂环境中，时间、设备、人的朝向都会影响到接收信号的强度，导致定位不精确，鲁棒性较差。第三，数据单一，传统的指纹库技术只利用了WiFi信息，没有考虑到数据的真实分布和大数据的价值。

发明内容

本发明目的在于提供一种基于二分类技术的定位方法及系统，以解决在定位过程中出现的精度低、鲁棒性差、信号传播容易受到环境影响的问题。

为实现上述目的，本发明提供了一种基于二分类技术的定位方法，包括以下步骤：

S1：对待测区域进行网格划分，采集待测区域内包括网格划分编号的历史样本，根据所述历史样本构建特征集、训练集、以及验证集；

S2：根据所述特征集计算网格特征，所述网格特征包括历史样本与网格之间的相似度指标和网格相关信息；

S3：将所述训练集的样本视为正样本，同时根据正样本调整得到负样本，根据所述正样本和所述负样本构建训练候选集，根据所述相似度指标和所述训练候选集得到第一模型；

S4：采用所述验证集的样本验证所述第一模型的误差是否在设定范围内，若误差属于设定的范围，则模型训练成功，采用所述第一模型定位实时WiFi信息的具体位置。

优选地，所述S2具体包括以下步骤：

S21：从所述特征集中提取网格指纹和网格相关信息，根据所述网格指纹建立指纹库；

S22：采用TF-IDF对样本信息进行加权，根据衡量指标衡量加权后的样本信息与所述指纹库的相似度，根据所述相似度确定用于表示历史样本与各网格之间相似度的相似度指标。

优选地，所述S22中，所述衡量指标包括样本信息与网格之间的欧式距离和余弦相似度。

优选地，所述S3中，所述根据正样本调整得到负样本的具体步骤为：设定负样本中的网格编号和网格特征与正样本不同，负样本中的其余样本信息均与正样本的样本信息相同。

优选地，所述正样本与所述负样本中的数据比例为1：10。

优选地，所述S3中，得到第一模型具体包括以下步骤：

S31：采用至少两种基分类器对所述训练候选集进行训练，得到至少两个二分类模型，其中，所述基分类器包括LightGBM基分类器和GBDT基分类器；

S32：对S31中得到的所有二分类模型进行模型融合，得到第一模型。

优选地，所述S4中，若误差不属于设定的范围，则对历史样本WiFi信息进行数据清洗，并重新构建训练候选集进行模型训练，直至得到误差属于设定范围的第一模型。

优选地，所述S1中，对待测区域进行网格划分时，按照经纬度划分原理进行划分。

作为一个总的技术构思，本发明还提供一种基于二分类技术的定位系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明具有以下有益效果：

本发明提供一种基于二分类技术的定位方法及系统，采集待测区域中的历史样本，并基于该历史样本构建了包括正样本和负样本的训练候选集，其中，正样本为真实的样本信息，负样本为根据正样本得到的错误的样本信息，通过训练候选集建立第一模型，则该第一模型不仅可以判断正确的WiFi信号还可以判断错误的WiFi信号；本发明的方法有效解决了传统方法中模型训练速度过慢的问题，且对样本信息进行充分的挖掘，考虑全面，使得到的模型预测结果更为准确，鲁棒性更好。

下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例的基于二分类技术的定位方法流程图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

除非另有定义，下文中所使用的所有专业术语与本领域技术人员通常理解的含义相同。本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而仅仅是为了便于对相应零部件进行区别。同样，“一个”或者“一”等类似词语不表示数量限制，而是表示存在至少一个。

实施例1

参见图1，本实施例提供一种基于二分类技术的定位方法，包括以下步骤：

S1：对待测区域进行网格划分，采集待测区域内包括网格划分编号的历史样本，根据历史样本构建特征集、训练集、以及验证集。

S2：根据特征集计算网格特征，其中网格特征包括历史样本与网格之间的相似度指标和网格相关信息。本实施例中，网格相关信息包括该网格被访问到的频数统计，和网格被定位设备的历史访问信息。

S3：将训练集的样本视为正样本，同时根据正样本调整得到负样本，根据正样本和负样本构建训练候选集，根据相似度指标和训练候选集得到第一模型。

S4：采用验证集的样本验证第一模型的误差是否在设定范围内，若误差属于设定的范围，则模型训练成功，采用第一模型定位实时WiFi信息的具体位置。

当误差不属于设定的范围时，则对历史样本WiFi信息进行数据清洗，并重新构建训练候选集进行模型训练，或者调整模型训练时的相关参数，直至得到误差属于设定范围的第一模型。

上述的基于二分类技术的定位方法，有效解决了传统方法中模型训练速度过慢的问题，且对样本信息进行充分的挖掘，考虑全面，使得到的模型预测结果更为准确，鲁棒性更好。

作为本实施例优选的实施方式，S1中，对待测区域进行网格划分时，按照经纬度划分原理进行划分。划分网格情况如下表1所示：

表1网格情况划分表

g_1

g_2

g_3

g_4

g_5

g_6

g_7

g_8

g_9

g_10

g_11

g_12

g_13

g_14

g_15

g_16

g_17

g_18

g_19

g_20

g_21

g_22

g_23

g_24

g_25

g_26

g_27

g_28

g_29

g_30

g_31

g_32

g_33

g_34

g_35

g_36

g_37

g_38

g_39

g_40

g_41

g_42

需要说明的是，本实施例中，正样本是真实的收集到的样本信息，其包括的内容有网格编号、网格特征、WiFi信息、手机ID，区域ID，GPS定位信息等，负样本是调整正样本得到的伪造的样本信息，具体地，负样本中的网格编号和网格特征与正样本不同，负样本中的其余样本信息均与正样本的样本信息相同。通过分析真实的样本信息(正样本)和伪造的样本信息(负样本)可以充分的挖掘样本信息，训练得到的模型能区分真实信息和伪造的信息，可以得到更为准确的定位。其中，本实施例中所指的样本信息包括WiFi信息、手机ID，区域ID，GPS定位信息等。本实施例中，通过挖掘除WiFi信息之外的数据，可以帮助提高定位精度，其中，移动设备与网格的交互信息统计表达了移动设备对网格的历史偏好。各网格的统计信息表达了网格的历史访问频率。这些数据都可以提高定位的准确率和模型的鲁棒性。

具体地，本实施例中构造得到负样本如下表2所示：

表2负样本数据表

row_id	user_id	grid_id	wifi_infos	feature	label
						1	u_1	g_1	...	...	1
1	u_1	g_2	...	...	0
						1	u_1	g_3	...	...	0
1	u_1	g_4	...	...	0
						2	u_2	g_1	...	...	0
2	u_2	g_2	...	...	1
						2	u_2	g_3	...	...	0
2	u_2	g_4	...	...	0

作为本实施例优选的实施方式，S2具体包括以下步骤：

S21：从特征集中提取网格指纹和网格相关信息，根据网格指纹建立指纹库；

S22：采用TF-IDF对样本信息进行加权，根据衡量指标衡量加权后的样本信息与指纹库的相似度，根据相似度确定用于表示历史样本与各网格之间相似度的相似度指标。

本实施例中，衡量指标包括样本信息与网格之间的欧式距离和余弦相似度。

设定某网格的指纹和该网格内的样本信息分别为向量a(x₁₁，x₁₂，...，x_1n)和b(x₂₁，x₂₂，...，x_2n)，二者之间的欧式距离计算公式为：

式中，n表示向量a和向量b的维度，k表示第k个维度。

二者之间的余弦相似度的计算公式为：

在实际应用场景中，同一条WiFi信息在不同区域被观察到的频次相差较大，因此，不同Wifi信息在同一网格，或者同一WiFi信息在不同网格中时，都应该根据具体情况赋予权重，不能一概而论。针对该问题，本方法提出将TF-IDF(term frequency–inversedocument frequency)用于对WiFi信息进行加权。需要说明的是，TF-IDF是一种加权技术，采用一种统计方法，根据字词在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。通过引入TF-IDF对WiFi信息进行加权，解决了在实际应用场景中WiFi信号在不同区域的出现频次相差甚大的问题。本实施例中，采用的加权计算公式为：

式中，N表示划分的网格数，N(x)表示特征集中能观察到编号为x的WiFi的网格数。

则有：

TF-IDF(x)＝TF(x)*IDF(x)；

在本实施例中，TF(x)表示特征集中编号x的WiFi在网格中被观察到的频率，TF-IDF(x)表示编号为x的WiFi在网格的TF-IDF值，该值用于体现WiFi对网格的重要程度。利用加权WiFi信号，计算相似度指标，作为模型的输入数据。

进一步地，构造训练候选集如下表3所示：

表3构造测试样本的候选集

row_id	user_id	grid_id	wifi_infos	feature	predict
						3	u_3	g_1	...	...	0.2
3	u_3	g_2	...	...	0.5
						3	u_3	g_3	...	...	0.1
3	u_3	g_4	...	...	0.01
						...	...	...	...	...	...
3	u_3	g_42	...	...	0.05

作为本实施例优选的实施方式，S3中，得到第一模型具体包括以下步骤：

S31：采用至少两种基分类器对训练候选集进行训练，得到至少两个二分类模型，其中，基分类器包括LightGBM基分类器和GBDT基分类器。

值得说明的是，GBDT是一种迭代的决策树算法，该算法由多棵决策树组成，具有较强的泛化能力。LightGBM是一个梯度boosting框架，使用基于学习算法的决策树。通过使用不同的基分类器，设置不同参数，可以训练出多个模型。

需要说明的是，模型融合的方式有多种。模型的预测结果为预测某条样本为正样本的概率(由于样本信息包括网格编号、网格特征、WiFi信息、手机ID，区域ID，GPS定位信息等，故判定样本为正样本即可知晓其具体的定位信息)。本实施例中优选的方式是对预测结果去平均取值。例如模型1，模型2，模型3预测样本1为正样本的概率分别为0.6,0.8,0.7，通过平均融合，可以得出最终结果为(0.6+0.8+0.7)/3＝0.7。采用融合多个模型的方式得到第一模型，可以充分地考虑训练模型中出现的多种影响因素及数据类型，能得到更为准确的第一模型，防止过拟合(本实施例中，过拟合是指模型过度的记住训练数据的信息，对于新的类型的数据的辨识度不高，影响预测结果的准确性。)。

具体地，以天池大数据竞赛平台商场定位赛数据为例进行说明，采用历史样本的数据量为1138015条。

首先，按照时间先后将历史样本进行划分，将前75％的数据划分为特征集，20％数据作为训练集，5％的数据作为验证集，即，特征集、训练集、以及验证集之间的比例为15：5：1。需要说明的是，本发明并不对此做限定，还可以对其比例在一定范围内进行调整。

需要说明的是，本实施采用的数据自带标签，将其自带的标签视为划分的网格，优选地，将正样本与负样本中的数据比例控制为1：10，以保证模型的训练速度。本实施例中，如上述表2所示，对于row_id为3的测试样本，通过将g_1到g_42所有网格加入候选集作为样本。模型的预测结果中g_2的概率最大，因此row_id为3的样本预测结果为g_2。经过计算，本实施例采用的定位的准确率达92.6％。

实施例2

与上述方法实施例相对应地，本实施例提供一种基于二分类技术的定位系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述方法的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于二分类技术的定位方法，其特征在于，包括以下步骤：

S2：根据所述特征集计算网格特征，所述网格特征包括历史样本与网格之间的相似度指标和网格相关信息，其中，所述网格相关信息包括该网格被访问到的频数统计和该网格被定位设备的历史访问信息；

S3：将所述训练集的样本视为正样本，同时根据正样本调整得到负样本，根据所述正样本和所述负样本构建训练候选集，根据所述网格特征和所述训练候选集得到第一模型，其中所述第一模型通过以下步骤得到：

采用至少两种基分类器对所述训练候选集进行训练，得到至少两个二分类模型，对得到的所有二分类模型进行模型融合，得到第一模型；

2.根据权利要求1所述的基于二分类技术的定位方法，其特征在于，所述S2具体包括以下步骤：

3.根据权利要求2所述的基于二分类技术的定位方法，其特征在于，所述S22中，所述衡量指标包括样本信息与网格之间的欧式距离和余弦相似度。

4.根据权利要求1所述的基于二分类技术的定位方法，其特征在于，所述S3中，所述根据正样本调整得到负样本的具体步骤为：设定负样本中的网格编号和网格特征与正样本不同，负样本中的其余样本信息均与正样本的样本信息相同。

5.根据权利要求1或者4所述的基于二分类技术的定位方法，其特征在于，所述正样本与所述负样本中的数据比例为1：10。

6.根据权利要求1所述的基于二分类技术的定位方法，其特征在于，所述基分类器包括LightGBM基分类器和GBDT基分类器。

7.根据权利要求1所述的基于二分类技术的定位方法，其特征在于，所述S4中，若误差不属于设定的范围，则对历史样本WiFi信息进行数据清洗，并重新构建训练候选集进行模型训练，直至得到误差属于设定范围的第一模型。

8.根据权利要求1所述的基于二分类技术的定位方法，其特征在于，所述S1中，对待测区域进行网格划分时，按照经纬度划分原理进行划分。

9.一种基于二分类技术的定位系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至8任一所述方法的步骤。