CN112367608B

CN112367608B - 一种大数据环境下固定传感器空间位置挖掘方法

Info

Publication number: CN112367608B
Application number: CN202011164171.XA
Authority: CN
Inventors: 张颖; 顾高翔; 刘杰
Original assignee: SHANGHAI SHIMAI INFORMATION TECHNOLOGY CO LTD
Current assignee: SHANGHAI SHIMAI INFORMATION TECHNOLOGY CO LTD
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2022-09-20
Anticipated expiration: 2040-10-27
Also published as: CN112367608A

Abstract

本发明的目的是基于同一EPID所对应的车辆GPS记录数据和移动运营商固定传感器信令数据，通过关联个体通信行为发生时对应的系列GPS空间位置，推算各个固定传感器实际服务范围之间的分界点，以此为基础，设计最陡坡收敛启发式空间运筹算法，可低成本、自动化、便捷地计算出固定传感器的空间位置及其具体的空间服务范围。

Description

一种大数据环境下固定传感器空间位置挖掘方法

技术领域

本发明涉及一种大数据环境下固定传感器空间位置挖掘方法，属于大数据分析技术领域。

背景技术

近年来，随着信息技术的发展，数据信息量呈现爆炸式增长，其中，网络相对稳定、位置相对固定的固定传感器网络，如移动通信、WIFI或物联网等，所采集获取到的信号控制指令数据(即，信令数据)，能够较为完整地从时间上和空间上还原个体的出行活动情况，从而较为客观、精准地描述人们的出行活动分布与需求情况，已经成为时空大数据分析中最重要的数据源之一。

由于与个体设备相互通信的是位置相对固定的固定传感器(简称固定传感器，如基站设备、WIFI路由器设备等)，最终信令数据实际能够记录的只是时间序列的固定传感器编号，并不能直接获取移动个体真实的空间位置坐标，而是需要关联固定传感器的空间位置坐标来得到移动个体的时间序列空间位置。固定传感器的空间位置，一般采集至固定传感器运维厂商录入的设备的安装位置坐标。分析统计时，将信令数据与事先采集的固定传感器空间位置表映射关联，从而开展具体分析工作。因此，固定传感器空间位置的准确与否，直接决定了大数据分析成果的合理性、可信性与准确性。然而，从现有的分析效果来看，这种方式得到的固定传感器的空间位置存在较多的缺陷。一方面，固定传感器设备安装位置与实际信号覆盖范围的中心点偏离较远，导致与移动个体的实际空间位置相差较大。另一方面，由于硬件运维效率不高，空间位置表更新往往滞后较多,不能及时更新至计算分析环境内。

目前，公交车辆、出租车辆、“两客一危”车辆等车辆均装载有车载GPS设备，用以实时记录并监控车辆的运行轨迹与行驶状况。车载GPS设备可以每10秒甚至每秒上报一次车辆GPS记录数据，其直接与通讯卫星进行通信，其通信时间间隔极短，完整地记录了车辆在空间上的连续活动行为。数据上报需要依赖运营商的固定传感器网络，才能进行通信与数据传输，这样车载GPS均至少安装了某一家运营商的SIM卡，每张SIM均有该运营商的MSISDN号码，即，移动用户的唯一识别号码，Mobile Station ISDN Number，简称MSISDN。通过车载GPS设备定期采集获取车辆实际车辆GPS记录数据，并将MSISDN按运营商统一加密规则加密成为EPID(即匿名单向加密全球唯一移动终端标识码，EncryPtion international mobilesubscriber Identity，EPID)。因此，采取一定的算法，利用同一EPID的同一时期的车辆GPS记录数据和移动运营商固定传感器信令数据，以海量GPS轨迹推算固定传感器空间位置坐标，从而得到固定传感器的信号覆盖范围，在此基础上推算各个固定传感器的空间位置并获得其服务范围，具有重要的现实意义和实用价值。

发明内容

本发明的目的是基于同一EPID(即匿名单向加密全球唯一移动终端标识码，EncryPtion international mobile subscriber Identity，EPID)所对应的车辆GPS记录数据和移动运营商固定传感器信令数据，通过关联个体通信行为发生时对应的系列GPS空间位置，推算各个固定传感器实际服务范围之间的分界点，以此为基础，设计一种最陡坡收敛的启发式空间运筹算法，从而计算获得各个固定传感器的高精度空间坐标及其具体服务范围。

为了达到上述目的，本发明的技术方案是提供了一种大数据环境下固定传感器空间位置挖掘方法，包括以下步骤：

步骤1、获取一段时期内的车辆GPS记录数据，使用移动运营商的MSISDN(移动用户的唯一识别号码，MS ISDN Number，MSISDN)号码标识。将此数据导入到移动运营商计算环境，并按移动运营商统一加密规则将MSISDN加密成为EPID以关联其移动运营商固定传感器信令数据，获得同一用户、同一时段、同一路径轨迹下的车辆GPS记录数据与移动运营商固定传感器信令数据，并将其分别按时间排序，构建车辆GPS轨迹出行时空序列和用户信令出行时空序列。整理每个EPID的车辆GPS记录数据进行线性函数拟合，获得任意GPS通信节点之间车辆空间位置相对于时间的函数表达式，即GPS时空轨迹拟合函数；

步骤2、根据GPS时空轨迹拟合函数，计算用户信令出行时空序列中信令数据产生的实时空间位置，对用户信令出行时空序列进行整理，若用户信令出行时空序列中存在连续多条的与某一固定传感器之间的信令数据，则只保留首尾两个通信信令数据，去掉中间连续的信令数据，根据节点空间位置计算车辆轨迹与两个固定传感器服务边界的交点，记为固定传感器边界节点；

步骤3、通过空间聚类算法处理两个固定传感器边界节点不唯一的情况，将空间位置临近的边界节点聚类，采用加权方法处理聚类内的边界节点空间坐标，获得聚类核，作为相邻两个固定传感器服务范围分界点；

步骤4、构建一个最陡坡收敛的启发式空间运筹算法，以分界点在固定传感器的距离为约束条件，以固定传感器的空间位置为求解变量，通过反复迭代，优化出各个固定传感器的空间位置；

步骤5、根据算法计算获得的固定传感器空间位置，计算其泰森多边形，获得每个固定传感器的服务范围。

优选地，所述步骤1包括：

步骤1.1、车载设备MSISDN号码加密后获得其用户编号EPID，并从移动运营商获取同一时间范围内该EPID与固定传感器之间的信令数据。其中车辆GPS记录数据包括：用户个体唯一编号EPID、记录编号RECORDID、通信动作发生时刻TIME、固定传感器所处经纬度(X,Y)；移动运营商固定传感器信令数据包括：用户个体唯一编号EPID、通信动作类型TYPE、通信动作发生时刻TIMESTAMP、固定传感器所处大区REGIONCODE、固定传感器具体编号SENSORID；

步骤1.2、根据用户编号EPID，查询指定时间段内车辆GPS记录数据，对其按时间排序，构建车辆GPS轨迹出行时空序列；

步骤1.3、根据用户编号EPID，查询指定时间段内和固定传感器交互的信令数据，对其按时间排序，构建用户信令出行时空序列；

步骤1.4、将车辆GPS轨迹出行时空序列，基于其经纬度坐标，叠加在同坐标系的道路路网上，获得车辆在道路交通网上的轨迹；

车辆的在道路交通网上的轨迹获得方法参见申请号为2018111808848的中国专利。具体方法为根据构建的个体出行时空序列，识别其各次出行的O/D端点，以O/D端点裁剪得到各个出行路段，计算个体在出行路段中两两节点之间的距离、耗时和平均速度，从而基于实际路网推算个体在两两节点间的出行路径，最终，整理和空间融合所有两两节点间最可能出行路径，获得个体具体的出行轨迹。使用该方法，以步骤1.2所构建车辆GPS轨迹出行时空序列为输入，获得车辆的在道路交通网上的实际轨迹。

对车辆轨迹的空间位置在时间轴上的变化趋势进行函数化处理，获取车辆的GPS时空轨迹拟合函数；由于车辆GPS记录数据样点密集，对车辆轨迹的函数化可直接采用线性拟合即可满足要求，以获得任意车辆GPS通信节点之间车辆空间位置相对于时间的函数表达式，拟合的方式是以两个相邻的通信节点为样点，分别以其X、Y坐标为因变量，以时间为自变量，获得个体在两两节点之间任意时间k的空间位置X_k和Y_k；

式中，X和Y是车辆的坐标，i和j是两个相邻的车辆GPS轨迹节点，k是i、j之间的一个点，T表示时间；

优选地，所述步骤2包括：

步骤2.1、根据步骤1.4获得的GPS时空轨迹拟合函数，计算用户信令出行时空序列中各个信令数据的时间节点上车辆的空间位置(即X-Y坐标)，将空间位置添加到用户信令出行时空序列中；

步骤2.2、对用户信令出行时空序列进行整理，当用户信令出行时空序列出现连续多条的与同一固定传感器通信的信令数据时，仅保留时间排序下的首末两条信令数据，删除中间的信令数据；

步骤2.3、遍历整理后的用户信令出行时空序列，查找两两连续的固定传感器不同的信令数据，则两个固定传感器之间的服务边界即为用户信令出行时空序列中一对前后发生固定传感器变化的通信节点的中点，可表示为：

式中，a、b表示前后两个相邻的固定传感器发生变化的信令记录编号，z表示这两个固定传感器服务范围的一个分界点；

步骤2.4、将分界点两边的固定传感器编号赋予分界点；

优选地，所述步骤3包括：

步骤3.1、以两侧固定传感器编号为依据对分界点进行分类，同类的分界点的分布范围即为其两侧固定传感器服务区分界点的分布范围，以此作为空间聚类的数据基础；

步骤3.2、由于两个固定传感器的服务区存在多个分界点，因此采用节点密度的DB-SCAN算法进行计算，计算过程为：

步骤3.2.1、设算法的扫描半径为m米，聚类密度为1，遍历筛选出来的分界点，从第一个分界点1开始，以其为聚类核，搜索其m米半径内的分界点；

步骤3.2.2、若分界点x与分界点1之间的距离小于m米，则将分界点x和分界点1聚为1类，形成初级聚类；

步骤3.2.3、遍历所有同类分界点，生成以所有分界点为核心的空间聚类，将节点分为核心点和噪声点两类；

步骤3.2.4、遍历所有初级聚类，若两个初级聚类包含了相同节点，则对聚类进行合并，形成一个新的聚类；

步骤3.2.5、反复遍历、合并聚类后，形成最终的空间聚类；

步骤3.3、遍历所有聚类，对聚类内的节点空间坐标求均值，得到聚类核心的空间位置，作为两个固定传感器服务范围分界点空间坐标；

优选地，所述步骤4包括：

步骤4.1、针对每个固定传感器，整理与其相关的所有分界点，获取与其相邻的固定传感器的编号；

步骤4.2、提取分界点的空间位置信息(X-Y坐标)，作为算法的数据基础；

步骤4.3、设计一种最陡坡收敛启发式空间运筹算法，根据分界点的X-Y坐标，采用多次迭代的方法计算所有固定传感器的空间位置，从初始的空间位置出发，由目标函数控制，不断向最优点收敛，直到所有固定传感器的空间位置收敛到能够满足目标函数的最优值，结束算法；固定传感器集合S中的一个固定传感器A，与其相邻的固定传感器集合为N，分界点集合P，则固定传感器A和固定传感器Ni与分界点Pi的距离分别为：

式中X_A和Y_A是固定传感器A的空间坐标，X_Pi和Y_Pi是分界点Pi的空间坐标，X_Ni和Y_Ni是邻接固定传感器Ni的空间坐标，若固定传感器A和固定传感器Ni的位置准确，则：

d_A,Pi＝d_Ni,Pi

因此，算法的目标函数是使所有的|d_A,Pi-d_Ni,Pi|加和后数值最小，其表达式为：

为简化起见，目标函数可改为：

展开后得到：

对上式就X_A和Y_A求偏导，令其等于0，得到

同理，

时，

固定传感器集合S中其他的固定传感器的坐标也和X_A和Y_A的形式一致；

步骤4.3.1、算法初始化，令迭代次数t＝0，给出固定传感器A的初始位置：

式中，n为与固定传感器A相关的分界点的数量，其他固定传感器的初始空间位置与固定传感器A的形式一样，记为

和

步骤4.3.2、根据

和

计算得到各个d_s,Pi，将d_s,Pi代入TC，计算距离偏差；

步骤4.3.3、使用各个d_s,Pi更新d_Ni,Pi，代入X_A和Y_A的表达式，获得新的

和

式中，t为迭代次数；

步骤4.3.4、每次迭代得到

和

后，更新d_s,Pi和d_Ni,Pi，代入TC方程，计算其距离偏离度，若本次迭代TC的值与上次迭代的TC值之差的绝对值|TC_t-TC_t-1|小于阈值R，则终止算法，当前获得的各个固定传感器的空间坐标即为其真实坐标，若大于R，则回到步骤4.3.2，继续进行下一次迭代；

优选地，所述步骤5包括：

步骤5.1、整理步骤4获得的各个固定传感器的空间位置，将其导入ArcGIS；

步骤5.2、使用生成泰森多边形的工具，获得以连接相邻固定传感器线段的垂直平分线组成的连续多边形，各个多边形即为各个固定传感器的服务范围。

本发明基于以EPID为标识的车辆GPS记录数据与移动通信固定传感器信令数据，通过对车辆GPS记录数据的线性函数拟合，获得在时间上连续的车辆时空轨迹；根据移动运营商固定传感器信令数据中的时间信息，获得GPS设备与固定传感器通信时所产生信令数据的实时空间位置，对其进行整理，计算得到相邻的固定传感器服务范围的分界点；通过空间聚类算法处理两个固定传感器分界点不唯一的问题；设计一种最陡坡收敛的启发式空间运筹算法，计算各个固定传感器的空间位置；计算其泰森多边形，获得每个传感器的服务范围。

本发明的优点是：充分利用现有的同一EPID的车辆GPS记录数据和移动运营商固定传感器信令数据，即能低成本、自动化、便捷地获取指定时间点车辆的真实空间位置和与其通信的固定传感器的编号，采用空间聚类和启发式空间运筹算法，计算各个固定传感器的空间位置，进而获得每个固定传感器的服务范围。

附图说明

图1为本发明的总体流程图；

图2为固定传感器空间服务范围-虚线；

图3为固定传感器道路服务范围。

具体实施方式

为使本发明更明显易懂，兹以优选实施例，并配合附图作详细说明如下。

以EPID为E1的终端数据为例，其车辆GPS记录数据和移动运营商固定传感器信令数据的样例见表1和表2：

表1：车辆GPS记录数据

表2：移动运营商固定传感器信令数据

EPID	RECORDID	TYPE	TIMESTAMP	REGIONCODE	SENSORID
						……	……	……	……	……	……
E1	R2503	T2	2018-8-22 12:10:42	9878	6343
						E1	R2504	T3	2018-8-22 12:19:22	9880	1242
E1	R2505	T3	2018-8-22 12:28:49	9880	1253
						E1	R2506	T3	2018-8-22 12:41:12	9880	1454
E1	R2507	T2	2018-8-22 12:09:23	9880	7645
						E1	R2508	T1	2018-8-22 12:29:59	9880	7645
E1	R2509	T1	2018-8-22 12:45:11	9880	7661
						E1	R2509	T1	2018-8-22 12:47:21	9880	7661
E1	R2510	T2	2018-8-22 12:58:21	9880	7645
						E1	R2511	T3	2018-8-22 13:15:54	9880	7645
……	……	……	……	……	……

步骤1.2、对指定时间段内车辆GPS记录数据按时间排序，构建车辆GPS轨迹出行时空序列；

在本例中，车辆GPS轨迹出行时空序列见表3：

表3：车辆GPS轨迹出行时空序列

步骤1.3、对指定时间段内移动运营商固定传感器信令数据按时间排序，构建用户信令出行时空序列；

在本例中，用户信令出行时空序列见表4：

表4：用户信令出行时空序列

步骤1.4、将车辆GPS轨迹出行时空序列基于其经纬度坐标叠加在同坐标系的道路路网上，获得车辆在道路交通网上的轨迹，由于GPS记录样点密集，对车辆轨迹的函数化可直接采用线性拟合即可满足要求，拟合的方式是以两个相邻的通信节点为样点，分别以其经纬度坐标X、Y坐标为因变量，以时间为自变量，获得个体在两两节点之间任意时间k的空间位置X_k和Y_k，即GPS时空轨迹拟合函数；

式中，X和Y是车辆的坐标，i和j是两个相邻的GPS轨迹节点，k是i、j之间的一个点，T表示时间；

在本例中，编号V1的车辆GPS记录数据部分的函数化结果见表5：

表5编号V1的车辆GPS记录数据函数化

ID		TIMES	X	Y
					……	……	……	……	……
R361	R362	2291	X＝121.4686+0.001/48*(t-1691)	Y＝31.2455-0.0012/48*(t-1691)
					R362	R363	2339	X＝121.4696+0.0005/35*(t-1739)	Y＝31.2443-0.0013/35*(t-1739)
R363	R364	2314	X＝121.4701+0.0004/48*(t-1774)	Y＝31.243-0.0014/48*(t-1774)
					R364	R365	2302	X＝121.4705+0.0002/33*(t-1822)	Y＝31.2416-0.0013/33*(t-1822)
R365	R366	2335	X＝121.4707+0.0008/12*(t-1855)	Y＝31.2403-0.0012/12*(t-1855)
					……	……	……	……	……

步骤2、根据GPS时空轨迹拟合函数，计算用户信令出行时空序列中信令数据产生的实时空间位置，对用户信令出行时空序列进行整理，若用户信令出行时空序列中存在连续多条的与某一固定传感器之间的通信信令数据，则只保留首尾两个通信信令数据，去掉中间连续的信令数据，根据节点空间位置计算车辆轨迹与两个固定传感器服务边界的交点，记为固定传感器边界节点；

步骤2.1、根据步骤1.4获得的GPS时空轨迹拟合函数

和

计算用户信令出行时空序列中各个信令数据的时间节点上车辆的空间位置(即X-Y坐标)，将空间位置添加到用户信令出行时空序列中；

在本例中，剔除连续节点之后的用户信令出行时空序列见表6：

表6剔除连续节点之后的用户信令出行时空序列

NodeNum	REGIONCODE	SENSORID	X	Y
					……	……	……	……	……
431	9880	4657	1545.24	-30.91
					432	9880	4653	1268.23	439.77
433	9880	4653	1316.03	364.45
					434	9880	4662	654.35	344.37
435	9880	4662	794.86	399.60
					436	9880	4659	1257.50	470.33
437	9880	4658	1497.28	160.86
					438	9880	4658	1533.03	16.83
439	9880	4674	1342.53	371.88
					440	9880	4674	1465.07	293.87
441	9880	4673	1472.31	263.87
					442	9880	4673	1490.79	187.31
443	9880	4654	1009.79	487.27
					444	9880	4654	1237.37	516.59
445	9880	4663	618.83	334.49
					446	9880	4655	812.22	407.76
447	9880	4655	991.79	479.88
					……	……	……	……	……

步骤2.4、将分界点两边的固定传感器编号赋予分界点；

在本例中，由表4中的节点计算得到的分界点见表7

表7由用户信令出行时空序列得到的固定传感器间的分界点

DNum	REGIONCODE1	SENSORID1	REGIONCODE2	SENSORID2	X	Y
							……	……	……	……	……	……	……
235	9880	4657	9880	4653	1406.738	204.4278
							236	9880	4653	9880	4662	985.1931	354.4133
237	9880	4662	9880	4659	1026.183	434.9633
							238	9880	4659	9880	4658	1377.39	315.5979
239	9880	4658	9880	4664	1437.778	194.3528
							240	9880	4664	9880	4663	1468.69	278.8688
241	9880	4663	9880	4654	1250.291	337.2909
							242	9880	4654	9880	4663	928.0978	425.5385
243	9880	4663	9880	4655	715.5215	371.126
							……	……	……	……	……	……	……

在本例中，各固定传感器间的分界点见表8：

表8固定传感器间的分界点

步骤3.2.5、反复遍历、合并聚类后，形成最终的空间聚类；

在本例中，编号9880-4652和编号9880-4668的固定传感器之间的分界点，经过聚类之后得到的结果见表9：

表9分界点空间聚类结果

在本例中，固定传感器间分界点聚类核心的空间坐标见表10：

表10固定传感器间分界点聚类核心空间坐标

d_A,Pi＝d_Ni,Pi

min TC＝∑_S∑_i|d_A,Pi-d_Ni,Pi|

为简化起见，目标函数可改为：

展开后得到：

对上式就X_A和Y_A求偏导，令其等于0，得到

同理，

时，

和

步骤4.3.2、根据

和

计算得到各个d_s,Pi，将d_s,Pi代入TC，计算距离偏差；

和

式中，t为迭代次数；

步骤4.3.4、每次迭代得到

和

在本例中，通过计算获得的各个固定传感器的空间位置见表11：

表11固定传感器空间位置

步骤5、根据算法计算获得的固定传感器空间位置，计算其泰森多边形，获得每个固定传感器的服务范围；

步骤5.1、整理步骤4获得的各个固定传感器的空间位置，将其导入地理信息系统(Geographic Information System，GIS)专业软件；

在本例中，根据固定传感器空间位置得到的其空间服务范围和道路服务范围见图2和图3。

Claims

1.一种大数据环境下固定传感器空间位置挖掘方法，其特征在于，包括以下步骤：

步骤1、获取一段时期内的车辆GPS记录数据，使用移动运营商的移动用户的唯一识别号码MSISDN号码标识，将此数据导入到移动运营商计算环境，并按移动运营商统一加密规则将MSISDN加密成为EPID以关联其移动运营商固定传感器信令数据，获得同一用户、同一时段、同一路径轨迹下的车辆GPS记录数据与移动运营商固定传感器信令数据，并将其分别按时间排序，构建车辆GPS轨迹出行时空序列和用户信令出行时空序列，整理每个EPID的车辆GPS记录数据进行线性函数拟合，获得任意GPS通信节点之间车辆空间位置相对于时间的函数表达式，即GPS时空轨迹拟合函数；

步骤4、整理固定传感器之间的分界点，提取分界点的空间位置信息构建最陡坡收敛的启发式空间运筹算法，以固定传感器的空间位置为待求解变量，以相邻固定传感器到分界点的距离差为最小化为目标函数，采用多次迭代的方法从固定传感器的初始空间位置向准确位置收敛，直到满足固定传感器集合中所有固定传感器与其相邻传感器至分界点距离差最小的求解目标，从而得到各个固定传感器准确的空间位置；

2.如权利要求1所述的一种大数据环境下固定传感器空间位置挖掘方法，其特征在于，所述步骤1包括：

步骤1.1、车载设备MSISDN号码加密后获得其用户编号EPID，并从移动运营商获取同一时间范围内该EPID与固定传感器之间的信令数据；

步骤1.4、将车辆GPS轨迹出行时空序列，基于其经纬度坐标，叠加在同坐标系的道路路网上，获得车辆在道路交通网上的轨迹，由于GPS记录样点密集，对车辆轨迹的函数化可直接采用线性拟合即可满足要求，以获得任意GPS通信节点之间车辆空间位置相对于时间的函数，即GPS时空轨迹拟合函数。

3.如权利要求1所述的一种大数据环境下固定传感器空间位置挖掘方法，其特征在于，所述步骤2包括：

步骤2.1、根据GPS时空轨迹拟合函数，计算用户信令出行时空序列中各个信令数据的时间节点上车辆的空间位置，即X-Y坐标，将空间位置添加到用户信令出行时空序列中；