CN115297441A - 一种大数据环境下个体时空活动鲁棒性的计算方法 - Google Patents

一种大数据环境下个体时空活动鲁棒性的计算方法 Download PDF

Info

Publication number
CN115297441A
CN115297441A CN202211204926.3A CN202211204926A CN115297441A CN 115297441 A CN115297441 A CN 115297441A CN 202211204926 A CN202211204926 A CN 202211204926A CN 115297441 A CN115297441 A CN 115297441A
Authority
CN
China
Prior art keywords
space
individual
time
robustness
sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211204926.3A
Other languages
English (en)
Other versions
CN115297441B (zh
Inventor
张颖
顾高翔
刘杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI SHIMAI INFORMATION TECHNOLOGY CO LTD
Original Assignee
SHANGHAI SHIMAI INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI SHIMAI INFORMATION TECHNOLOGY CO LTD filed Critical SHANGHAI SHIMAI INFORMATION TECHNOLOGY CO LTD
Priority to CN202211204926.3A priority Critical patent/CN115297441B/zh
Publication of CN115297441A publication Critical patent/CN115297441A/zh
Application granted granted Critical
Publication of CN115297441B publication Critical patent/CN115297441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明的目的是利用移动终端个体在指定时间范围内的空间活动数据集,挖掘大量个体的时空轨迹数据,插值拟合后获得等时间隔的个体时空轨迹,将其投射到二维格网空间中对其进行聚类并计算鲁棒性,最后通过统计随机个体的时空格网序列的鲁棒性计算值的分布特征获得校验区间,对个体的时空活动鲁棒性进行校验,以此可低成本、自动化、便捷地获取指定时间范围内大量人口的时空活动轨迹,为交通出行需求的预测提供微观行为基础。

Description

一种大数据环境下个体时空活动鲁棒性的计算方法
技术领域
本发明涉及一种基于海量匿名加密时间序列定位数据的个体时空活动鲁棒性计算方法,属于大数据分析技术领域。
背景技术
近年来,随着信息技术的发展,数据信息量呈现爆炸式增长,数据来源越来越多,数据量也越来越庞大。其中,手机终端设备与运营商基站之间持续产生的信号控制指令信息,形成了记录用户出行活动轨迹的一系列手机信令数据集,较为完备地记录了海量个体持续时间段内的相对完整的空间出行活动轨迹,为人类行为动力学特征分析提供了很好的数据支持。
鲁棒性指的是系统受外部冲击带来的扰动程度,鲁棒性越高,系统受外部冲击产生的影响越小。若将个体的出行范围和频次看作一个系统,其时空活动鲁棒性越高,则其日常出行越规律,也越具可预测性。因而,对整个城市来说,大量居民的个体时空活动鲁棒性的计算,对总体居民日常出行规律性的把握具有重要的现实意义。
发明内容
本发明的目的是利用移动终端个体在较长时间范围(建议3个月以上)内的空间活动数据集,对大量个体的日常时空活动数据进行提取,通过比较分析个体在不同时间段内空间活动的规律性,进而计算个体时空活动的鲁棒性,并对其结果进行校验获取其显著性指标。为了达到上述目的,本发明的技术方案提供了一种大数据环境下个体时空活动鲁棒性计算方法,包括以下步骤:
步骤1、读取从传感器运营商获取匿名加密移动终端传感器数据,提取个体的出行数据,构建个体出行轨迹数据集,以T时间为间隔对出行数据的空间位置进行插值,构建等时间间隔的个体时空活动轨迹,将时空活动轨迹投射到M×N大小的二维空间格网中,建立个体时空格网序列;
步骤2、在鲁棒性概念中引入模糊思想,设计个体时空活动鲁棒性的计算方法,通过两两比较个体时空格网序列中等位点之间的模糊相似度,计算两两时空格网序列之间的相似性,进而对时空格网序列进行初步聚类,对每个聚类中的个体时空活动的鲁棒性进行数值计算;
步骤3、通过统计大量随机生成的个体时空格网序列样本的鲁棒性分布规律,设计个体时空活动鲁棒性校验方法,对计算得到的个体鲁棒性值进行校验。
优选地,所述步骤1包括:
步骤1.1、读取从传感器运营商获取匿名后的个体加密移动终端传感器数据,初步构建由个体和固定传感器通信记录构成的个体出行数据,个体和固定传感器之间通信记录提取方法参见申请号为201710535039.7的中国专利。具体方法为读取信令记录,解密后转化经纬度坐标为地理坐标,根据用户编号查询其指定时间段内通信记录,构建用户出行轨迹数据集;
步骤1.2、根据步骤1.1得到的个体出行数据,按时间顺序排序,采用二次曲线拟合个体连续的出行轨迹连续函数,以T为时间间隔计算个体在各个时间点的X-Y坐标,生成一系列插值点,根据插值点构建个体时空活动轨迹,个体时空活动轨迹的构建方法参见申请号为201710843841.2的中国专利。具体方法为遍历由个体和固定传感器通信记录构成的初步的个体出行数据按通信时间排序,从时间起点开始每3个通信记录点依次拟合二次曲线,从整点出发等间隔构成一个插值点,其坐标为2条拟合曲线均值,最终所有插值点按顺序排序,构成用户出行时空序列;
步骤1.3、以个体所在城市的空间范围为边界,生成一个M×N的二维格网去覆盖整个城市,然后将个体时空活动轨迹投射到二维格网中,以格网的X-Y编号替代个体时空活动轨迹中的X-Y坐标,建立个体的时空格网序列;
优选地,所述步骤2包括:
步骤2.1、以时间间隔IT为单位,将个体的时空格网序列截断为多条可比较的序列;
步骤2.2、基于等位节点比较的思想,考虑到时空插值中不可避免的误差存在,引入模糊思想,设计两两时空格网序列的模糊比较算法,计算两条序列之间的模糊相似度,其中序列内等位点之间的模糊相似度计算公式可表示为:
Figure 803685DEST_PATH_IMAGE001
式中,
Figure 267027DEST_PATH_IMAGE002
表示两条序列的等位点t的相似性,其上限为k;k表示两条序列的等 位点所在空间位置完全一致情况下的权重;
Figure 611421DEST_PATH_IMAGE003
表示序列i在点位t所在的格网;
Figure 843819DEST_PATH_IMAGE004
表示序列i在点位t所在格网的邻居,如冯诺依曼邻居、摩尔邻居和扩展摩尔邻居等;
Figure 615466DEST_PATH_IMAGE005
表 示距离衰减系数;
Figure 566104DEST_PATH_IMAGE006
表示两条序列为点位t的格网距离,
Figure 261659DEST_PATH_IMAGE007
在此基础上,两条序列i和j之间的模糊相似度计算公式可表示为:
Figure 614143DEST_PATH_IMAGE008
式中,
Figure 556691DEST_PATH_IMAGE009
表示序列i和序列j之间的相似性,其上限为k;T表示两条序列的时间 节点数;
步骤2.3 基于序列之间的模糊相似度计算方法,设计针对模糊相似性的聚类算法,对个体的时空格网序列进行初步聚类,从中筛选出主要的类别;
步骤2.3.1 初始化聚类算法,将个体的每条序列都定义为一个独立的聚类,若个体有n条序列,则初始化阶段存在n个聚类;
步骤2.3.2 设定聚类的容差范围d,遍历个体所有的时空格网序列,将序列两两比较,计算两个序列之间的模糊相似度,若两个序列之间的模糊相似度大于d,则将两个序列所在的聚类合并;
步骤2.3.3 反复遍历个体的时空格网序列,直到无法再合并已有聚类;
步骤2.3.4 根据聚类规模下限参数s,从中选取具有较大规模的聚类,根据聚类中包含的时空格网序列的日期,分析聚类中序列的日期类型特征,如工作日、周末、节假日等;
步骤2.4 根据序列之间的模糊相似度,依次计算不同聚类中个体时空格网序列的鲁棒性值,其计算公式可表示为:
Figure 994626DEST_PATH_IMAGE010
式中,
Figure 680822DEST_PATH_IMAGE011
表示聚类k中个体时空格网序列的鲁棒性,其上限为k
Figure 887813DEST_PATH_IMAGE012
表示聚类k的时空格网序列集合,n表示聚类中各个时空格网序列的节点数量;
优选地,所述步骤3包括:
步骤3.1 针对不同活动空间的个体,生成大量随机样本;
步骤3.1.1 获取需要校验的个体每个聚类的空间活动范围,即每个聚类中,个体在时空活动过程中经过空间格网的多边形包络体;
步骤3.1.2 提取聚类中个体时空格网序列相邻节点在X轴和Y轴上的平移步长分 布特征,将其拟合为正态分布形式,获取期望
Figure 63579DEST_PATH_IMAGE013
和方差
Figure 988810DEST_PATH_IMAGE014
步骤3.1.3 以布朗运动的形式,在该多边形上随机生成大量包含了n个节点的时空格网序列:
Figure 213118DEST_PATH_IMAGE015
式中,
Figure 540194DEST_PATH_IMAGE016
为个体时空活动的随机步长,服从正态分布,ρ为正态分布的方差,
Figure 558965DEST_PATH_IMAGE017
步骤3.2 计算随机样本鲁棒性指标,获取个体时空活动鲁棒性的校验区间TH
步骤3.2.1 采用步骤2.2,计算聚类中个体时空格网序列之间的相似度,采用步骤 2.4,计算其时空格网序列的鲁棒性,取所有的随机样本的鲁棒性均值为
Figure 971492DEST_PATH_IMAGE018
步骤3.2.2 根据步骤2.4,
Figure 809611DEST_PATH_IMAGE011
越高,个体时空格网序列的鲁棒性越高,则鲁棒性 的判定上限为k,下限为
Figure 991193DEST_PATH_IMAGE019
,表示若
Figure 446445DEST_PATH_IMAGE011
k的距离小于
Figure 80689DEST_PATH_IMAGE018
k的距离的1%,则说 明个体的时空活动不是随时间随机变化的,具备鲁棒性;
步骤3.3 根据鲁棒性校验区间
Figure 646800DEST_PATH_IMAGE020
,校验各个聚类的时空格网序列鲁棒性;
步骤3.4 根据个体的时空格网序列中聚类数量和各个聚类的鲁棒性特征,对个体日常活动的鲁棒性进行判断。
本发明基于移动终端大数据,通过对其进行处理和筛选,获取个体所持移动终端和传感器之间的通信记录,构建出个体出行的时空序列数据,通过插值构建等时间间隔的个体出行时空轨迹,并将其投射到二维格网上,建立个体时空格网序列数据;以此为基础,设计个体时空活动鲁棒性计算方法,通过比较个体在不同时段的时空格网序列之间的相似性,对个体的大量时空格网序列进行初步的聚类,针对每个聚类,计算其鲁棒性值;采用随机校验的方法,基于个体在时空格网序列聚类中的空间移动特征,随机生成大量个体时空活动样本,统计其鲁棒性计算值的分布特征,获得个体时空活动鲁棒性的校验区间,实现对个体时空活动鲁棒性的判断和校验。
本发明的优点是:充分依托现有的用户持有的移动终端与传感器之间的通信大数据资源,对个体的时空活动特征进行高效、准确、即时的分析和掌握,可以快速有效地判断个体的时空活动是否具有鲁棒性,其对时间变化的反应是否敏感,判断其规律性和可预测性,可以为大量个体的中短期交通出行需求提供准确的预测。
附图说明
图1 总体流程图。
具体实施方式
为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
步骤1、读取从传感器运营商获取匿名加密移动终端传感器数据,提取个体的出行活动数据,构建个体出行活动轨迹数据集,以T时间为间隔对出行数据的空间位置进行插值,构建等时间间隔的个体时空活动轨迹,将时空活动轨迹投射到M×M大小的二维空间格网中,建立个体时空格网序列;
步骤1.1、读取从传感器运营商获取匿名后的个体加密移动终端传感器数据,初步构建由个体和固定传感器通信记录构成的个体出行数据;
在本例中,个体和固定传感器之间的通信记录由记录编号RECORDID、个体编号EPID、通信类型TYPE、时间戳TIMESTAMP、传感器所在大区编号REGIONCODE、传感器编号SENSORID组成,见表1:
表1:匿名个体位置信息解密后的手机信令记录数据
RECORDID EPID TYPE TIMESTAMP REGIONCODE SENSORID
…… …… …… …… …… ……
R1329 E1 T1 09:45:34 9220 7264
R1330 E1 T2 09:58:23 9220 7264
R1331 E1 T1 09:59:12 9220 7264
R1332 E1 T2 10:06:12 9220 6798
R1333 E1 T2 10:18:56 9220 6647
R1334 E1 T2 10:22:59 9220 6647
R1335 E1 T1 10:57:12 9221 6647
R1336 E1 T1 11:11:34 9221 6647
R1337 E1 T3 11:17:54 9221 6647
R1338 E1 T1 11:23:14 9221 6659
…… …… …… …… …… ……
R1433 E1 T3 19:45:12 9325 3364
R1434 E1 T1 19:56:53 9325 2945
R1435 E1 T1 19:59:43 9325 4779
R1436 E1 T1 20:03:42 9325 3417
R1437 E1 T2 20:32:26 9325 2021
…… …… …… …… …… ……
步骤1.2、根据步骤1.1得到的个体出行数据,按时间顺序排序,采用二次曲线拟合个体连续的出行轨迹连续函数,以T为时间间隔计算个体在各个时间点的X-Y坐标,生成一系列插值点,根据插值点构建个体时空活动轨迹;
在本例中,由插值点构成的个体活动轨迹记录由节点编号NODEID、时间TIME和节点空间坐标X-Y组成,见表2:
表2 由插值点构成的个体出行时空序列
NODEID TIME X Y
…… …… …… ……
N68 12:05:00 7633.36 6903.36
N69 12:10:00 7698.16 6907.91
N70 12:15:00 7700.86 6915.78
N71 12:20:00 7729.82 6945.37
N72 12:25:00 7792.63 7034.30
N73 12:30:00 7797.64 7067.90
N74 12:35:00 7888.42 7081.60
N75 12:40:00 7957.53 7087.84
N76 12:45:00 8015.24 7105.42
…… …… …… ……
N124 15:00:00 12101.34 2341.54
N125 15:05:00 12138.89 2404.93
N126 15:10:00 12151.13 2497.49
N127 15:15:00 12179.81 2574.51
N128 15:20:00 12239.71 2634.45
N129 15:25:00 12276.28 2708.63
N130 15:30:00 12348.83 2777.35
N131 15:35:00 12398.80 2872.78
N132 15:40:00 12430.91 2947.47
…… …… …… ……
步骤1.3、以个体所在城市的空间范围为边界,构建一个M×N的二维格网去覆盖整个城市,然后将个体时空活动轨迹投射到二维格网中,以格网的X-Y编号替代个体时空活动轨迹中的X-Y坐标,建立个体的时空格网序列;
在本例中,令T=5分钟,M=50,N=50,则个体的时空格网序列见表3:
表3个体时空格网序列
NODEID TIME X Y
…… …… …… ……
N68 12:05:00 43 38
N69 12:10:00 44 38
N70 12:15:00 44 38
N71 12:20:00 45 39
N72 12:25:00 46 41
N73 12:30:00 46 41
N74 12:35:00 48 42
N75 12:40:00 49 42
N76 12:45:00 50 42
…… …… …… ……
N124 15:00:00 42 27
N125 15:05:00 43 28
N126 15:10:00 43 30
N127 15:15:00 44 31
N128 15:20:00 45 33
N129 15:25:00 46 34
N130 15:30:00 47 36
N131 15:35:00 48 37
N132 15:40:00 49 39
…… …… …… ……
步骤2、在鲁棒性概念中引入模糊思想,设计个体时空活动鲁棒性的计算方法,通过两两比较个体时空格网序列中等位点之间的模糊相似度,计算两两时空格网序列之间的相似性,进而对时空格网序列进行初步聚类,对每个聚类中的个体时空活动的鲁棒性进行数值计算;
步骤2.1、以时间间隔IT为单位(建议为日),将个体的时空格网序列截断为多条可比较的序列;
在本例中,时间间隔IT的单位为天(1日),个体的时空格网序列i和时空格网序列j见表4:
表4 个体时空格网序列比较
NODEID TIME Xi Yi Xj Yj
…… …… …… …… …… ……
N68 12:05:00 43 38 43 38
N69 12:10:00 44 38 45 37
N70 12:15:00 44 38 45 37
N71 12:20:00 45 39 45 38
N72 12:25:00 46 41 45 41
N73 12:30:00 46 41 45 40
N74 12:35:00 48 42 47 41
N75 12:40:00 49 42 48 43
N76 12:45:00 50 42 49 42
…… …… …… …… …… ……
N124 15:00:00 42 27 40 29
N125 15:05:00 43 28 44 29
N126 15:10:00 43 30 45 29
N127 15:15:00 44 31 45 32
N128 15:20:00 45 33 45 33
N129 15:25:00 46 34 48 36
N130 15:30:00 47 36 49 36
N131 15:35:00 48 37 48 37
N132 15:40:00 49 39 49 38
…… …… …… …… …… ……
步骤2.2、基于等位节点比较的方法,考虑到时空插值中不可避免的误差存在,引入模糊思想,设计两两时空格网序列的模糊比较算法,计算两条序列之间的模糊相似度,其中序列内等位点之间的模糊相似度计算公式可表示为:
Figure 948468DEST_PATH_IMAGE021
式中,
Figure 636938DEST_PATH_IMAGE022
表示两条序列的等位点t的相似性,其上限为kk表示两条序列的等位 点所在空间位置完全一致情况下的权重;
Figure 758478DEST_PATH_IMAGE023
表示序列i在点位t所在的格网;
Figure 128279DEST_PATH_IMAGE024
表 示序列i在点位t所在格网的邻居,如冯诺依曼邻居、摩尔邻居和扩展摩尔邻居等;
Figure 284454DEST_PATH_IMAGE025
表示 距离衰减系数;
Figure 81509DEST_PATH_IMAGE006
表示两条序列为点位t的格网距离,
Figure 690345DEST_PATH_IMAGE026
在此基础上,两条序列ij之间的模糊相似度计算公式可表示为:
Figure 411307DEST_PATH_IMAGE027
式中,
Figure 421989DEST_PATH_IMAGE028
表示序列i和序列j之间的相似性,其上限为kT表示两条序列的时间 节点数;
在本例中,我们采用摩尔邻居作为节点邻居的判别规则,令k=1,
Figure 389945DEST_PATH_IMAGE025
=1,则两条序 列中节点的相似性见表5:
表5 时空格网序列中节点的相似性
NODEID TIME Xi Yi Xj Yj K
…… …… …… …… …… …… ……
N68 12:05:00 43 38 43 38 1
N69 12:10:00 44 38 45 37 0.14
N70 12:15:00 44 38 45 37 0.14
N71 12:20:00 45 39 45 38 0.37
N72 12:25:00 46 41 45 41 0.37
N73 12:30:00 46 41 45 40 0.14
N74 12:35:00 48 42 47 41 0.14
N75 12:40:00 49 42 48 43 0.14
N76 12:45:00 50 42 49 42 0.37
…… …… …… …… …… …… ……
N124 15:00:00 42 27 40 29 0.00
N125 15:05:00 43 28 44 29 0.14
N126 15:10:00 43 30 45 29 0.00
N127 15:15:00 44 31 45 32 0.14
N128 15:20:00 45 33 45 33 1.00
N129 15:25:00 46 34 48 36 0.00
N130 15:30:00 47 36 49 36 0.00
N131 15:35:00 48 37 48 37 1.00
N132 15:40:00 49 39 49 38 0.37
…… …… …… …… …… …… ……
步骤2.3 基于序列之间的模糊相似度计算方法,设计针对模糊相似性的聚类算法,对个体的时空格网序列进行初步聚类,从中筛选出主要的类别;
步骤2.3.1 初始化聚类算法,将个体的每条序列都定义为一个独立的聚类,若个体有n条序列,则初始化阶段存在n个聚类;
步骤2.3.2 设定聚类的容差范围d,遍历个体所有的时空格网序列,将序列两两比较,计算两个序列之间的模糊相似度,若两个序列之间的模糊相似度大于d,则将两个序列所在的聚类合并;
步骤2.3.3 反复遍历个体的时空格网序列,直到无法再合并已有聚类;
步骤2.3.4 定义聚类规模下限参数s,表示聚类中的序列占序列总数百分比的下限,从中选取具有较大规模的聚类,根据聚类中包含的时空格网序列的日期,分析聚类中序列的周期性;
在本例中,设定聚类的容差范围d=0.5,聚类规模下限参数s为5%,则个体的时空格网序列可被聚类成2大类,其中第一类占比65%,第二类占比25%,第一类和第二类序列的日期见表6,从其时间分布来看,其主要分布特征是工作日和周末:
表6 两个聚类中时空格网序列的日期
第一类聚类 第二类聚类
……2021年6月1日、2021年6月2日、2021年6月3日、2021年6月4日、2021年6月7日、2021年6月8日、2021年6月10日、2021年6月14日、2021年6月15日、2021年6月16日、2021年6月17日、2021年6月22日、2021年6月24日、2021年6月25日、2021年6月28日、2021年6月29日、2021年6月30日、2021年7月1日、2021年7月2日…… ……2021年6月5日、2021年6月6日、2021年6月12日、2021年6月13日、2021年6月19日、2021年6月27日、2021年7月3日、2021年7月4日……
步骤2.4 根据序列之间的模糊相似度,依次计算不同聚类中个体时空格网序列的鲁棒性值,其计算公式可表示为:
Figure 486077DEST_PATH_IMAGE029
式中,
Figure 197681DEST_PATH_IMAGE011
表示聚类k中个体时空格网序列的鲁棒性,其上限为k
Figure 62869DEST_PATH_IMAGE030
表示聚类k的时空格网序列集合,n表示聚类中各个时空格网序列的节点数量;
在本例中,个体两个主要的时空格网序列聚类的鲁棒性值分别为0.68和0.72;
步骤3、通过统计大量随机生成的个体时空格网序列样本的鲁棒性分布规律,设计个体时空活动鲁棒性校验方法,对计算得到的个体鲁棒性值进行校验。
步骤3.1 针对不同活动空间的个体,生成大量随机样本;
步骤3.1.1 获取需要校验的个体每个聚类的空间活动范围,即每个聚类中,个体在时空活动过程中经过的空间格网的多边形包络体;
步骤3.1.2 提取聚类中个体时空格网序列相邻节点在X轴和Y轴上的平移步长分布特征,将其拟合为正态分布形式,获取期望μ和方差σ
步骤3.1.3 以布朗运动的形式,在该多边形上随机生成大量包含了n个节点的时空格网序列:
Figure 264043DEST_PATH_IMAGE031
式中,
Figure 847471DEST_PATH_IMAGE016
为个体时空活动的随机步长,服从正态分布,
Figure 362766DEST_PATH_IMAGE032
为正态分布的方差,
Figure 82460DEST_PATH_IMAGE017
在本例中,计算得到的期望μ和方差σ分别为1.34和74.23;
步骤3.2 计算随机样本鲁棒性指标,获取个体时空活动鲁棒性的校验区间TH
步骤3.2.1 采用步骤2.2,计算聚类中个体时空格网序列之间的相似度,采用步骤 2.4,计算其时空格网序列的鲁棒性,取所有的随机样本的鲁棒性均值为
Figure 392219DEST_PATH_IMAGE018
在本例中,计算得到鲁棒性均值
Figure 462943DEST_PATH_IMAGE018
为0.22;
步骤3.2.2 根据步骤2.4,
Figure 516350DEST_PATH_IMAGE011
越高,个体时空格网序列的鲁棒性越好,则鲁棒性 的判定上限为k,下限为
Figure 169179DEST_PATH_IMAGE033
,表示若
Figure 649839DEST_PATH_IMAGE011
k的距离小于
Figure 207859DEST_PATH_IMAGE018
k的距离的10%,则说 明个体的时空活动不是根据时间随机变化的,具备鲁棒性;
在本例中,鲁棒性校验区间为[0.71,1];
步骤3.3 根据鲁棒性校验区间
Figure 799377DEST_PATH_IMAGE034
,校验各个聚类的时空格网序列鲁棒性;
在本例中,个体工作日的时空格网序列聚类没有通过鲁棒性检验,休息日的时空格网序列聚类通过了鲁棒性检验,具备鲁棒性;.
步骤3.4 根据个体的时空格网序列中聚类数量和各个聚类的鲁棒性特征,对个体日常活动的鲁棒性进行判断;
在本例中,个体在休息日的时空活动存在很强的规律性,其随时间的变化幅度很小,具有较高的鲁棒性,对交通出行需求的预测方面较为可靠,个体在工作日的时空活动鲁棒性没有通过检验,其活动规律受时间影响大于休息日,可预测性较低。

Claims (7)

1.一种大数据环境下个体时空活动鲁棒性的计算方法,其特征在于,包括以下步骤:
步骤1、读取从传感器运营商获取匿名加密移动终端传感器数据,提取个体的出行数据,构建个体出行轨迹数据集,以T时间为间隔对出行数据的空间位置进行插值,构建等时间间隔的个体时空活动轨迹,将时空活动轨迹投射到M×N大小的二维空间格网中,建立个体时空格网序列;
步骤2、在鲁棒性概念中引入模糊思想,设计个体时空活动鲁棒性的计算方法,通过两两比较个体时空格网序列中等位点之间的模糊相似度,计算两两时空格网序列之间的相似性,进而对时空格网序列进行初步聚类,对每个聚类中的个体时空活动的鲁棒性进行数值计算;
步骤3、通过统计大量随机生成的个体时空格网序列样本的鲁棒性分布规律,设计个体时空活动鲁棒性校验方法,对计算得到的个体鲁棒性值进行校验。
2.如权利要求1所述的一种大数据环境下个体时空活动鲁棒性的计算方法,其特征在于,所述步骤1包括:
步骤1.1、读取从传感器运营商获取匿名后的个体加密移动终端传感器数据,构建由个体和固定传感器通信记录构成的初步的个体出行数据;
步骤1.2、根据步骤1.1得到的个体出行数据,按时间顺序排序,采用二次曲线拟合个体连续的出行轨迹连续函数,以T为时间间隔计算个体在各个时间点的X-Y坐标,生成一系列插值点,根据插值点构建个体时空活动轨迹;
步骤1.3、以个体所在城市的空间范围为边界,生成一个M×N的二维格网去覆盖整个城市,然后将个体时空活动轨迹投射到二维格网中,以格网的X-Y编号替代个体时空活动轨迹中的X-Y坐标,建立个体的时空格网序列。
3.如权利要求1所述的一种大数据境下个体时空活动鲁棒性的计算方法,其特征在于,所述步骤2包括:
步骤2.1、以时间间隔IT为单位,将个体的时空格网序列截断为多条可比的序列;
步骤2.2、基于等位节点比较的思想,考虑到时空插值中不可避免的误差存在,引入模糊思想,设计两两时空格网序列的模糊比较算法,计算两条序列之间的模糊相似度,其中序列内等位点之间的模糊相似度计算公式可表示为:
Figure 53705DEST_PATH_IMAGE001
式中,
Figure 320738DEST_PATH_IMAGE002
表示两条序列的等位点t的相似性,其上限为kk表示两条序列的等位点所 在空间位置完全一致情况下的权重;
Figure 581955DEST_PATH_IMAGE003
表示序列i在点位t所在的格网;
Figure 985255DEST_PATH_IMAGE004
表示序 列i在点位t所在格网的邻居,如冯诺依曼邻居、摩尔邻居和扩展摩尔邻居等;
Figure 244198DEST_PATH_IMAGE005
表示距离 衰减系数;
Figure 998527DEST_PATH_IMAGE006
表示两条序列为点位t的格网距离,
Figure 735539DEST_PATH_IMAGE007
在此基础上,两条序列ij之间的模糊相似度计算公式可表示为:
Figure 258924DEST_PATH_IMAGE008
式中,
Figure 688769DEST_PATH_IMAGE009
表示序列i和序列j之间的相似性,其上限为k;T表示两条序列的时间节点 数;
步骤2.3 基于序列之间的模糊相似度计算方法,设计针对模糊相似性的聚类算法,对个体的时空格网序列进行初步聚类,从中筛选出主要的类别;
步骤2.4 根据序列之间的模糊相似度,依次计算不同聚类中个体时空格网序列的鲁棒性值,其计算公式可表示为:
Figure 727132DEST_PATH_IMAGE010
式中,
Figure 267835DEST_PATH_IMAGE011
表示聚类k中个体时空格网序列的鲁棒性,其上限为k
Figure 911306DEST_PATH_IMAGE012
表示聚类k的时 空格网序列集合,n表示聚类中各个时空格网序列的节点数量。
4.如权利要求3所述的一种大数据环境下个体时空活动鲁棒性的计算方法,其特征在于,所述步骤2.3包括:
步骤2.3.1 初始化聚类算法,将个体的每条序列都定义为一个独立的聚类,若个体有n条序列,则初始化阶段存在n个聚类;
步骤2.3.2 设定聚类的容差范围d,遍历个体所有的时空格网序列,将序列两两比较,计算两个序列之间的模糊相似度,若两个序列之间的模糊相似度大于d,则将两个序列所在的聚类合并;
步骤2.3.3 反复遍历个体的时空格网序列,直到无法再合并已有聚类;
步骤2.3.4 根据聚类规模下限参数s,从中选取具有较大规模的聚类,根据聚类中包含的时空格网序列的日期,分析聚类中序列的日期类型特征,如工作日、周末、节假日等。
5.如权利要求1所述的一种大数据环境下个体时空活动鲁棒性的计算方法,其特征在于,所述步骤3包括:
步骤3.1 针对不同活动空间的个体,生成大量随机样本;
步骤3.2 计算随机样本鲁棒性指标,获取个体时空活动鲁棒性的校验区间TH
步骤3.3根据鲁棒性校验区间
Figure 246472DEST_PATH_IMAGE013
,校验各个聚类的时空格网 序列鲁棒性;
步骤3.4 根据个体的时空格网序列中聚类数量和各个聚类的鲁棒性特征,对个体日常活动的鲁棒性进行判断。
6.如权利要求5所述的一种大数据环境下个体时空活动鲁棒性的计算方法,其特征在于,所述步骤3.1包括:
步骤3.1.1 获取需要校验的个体每个聚类的空间活动范围,即每个聚类中,个体在时空活动过程中经过空间格网的多边形包络体;
步骤3.1.2 提取聚类中个体时空格网序列相邻节点在X轴和Y轴上的平移步长分布特征,将其拟合为正态分布形式,获取期望μ和方差σ
步骤3.1.3 以布朗运动的形式,在该多边形上随机生成大量包含了n个节点的时空格网序列:
Figure 975394DEST_PATH_IMAGE014
式中,
Figure 54208DEST_PATH_IMAGE015
为个体时空活动的随机步长,服从正态分布,ρ为正态分布的方差,
Figure 614502DEST_PATH_IMAGE016
7.如权利要求5所述的一种大数据环境下个体时空活动鲁棒性的计算方法,其特征在于,所述步骤3.2包括:
步骤3.2.1 采用步骤2.2,计算聚类中个体时空格网序列之间的相似度,采用步骤2.4, 计算其时空格网序列的鲁棒性,取所有的随机样本的鲁棒性均值为
Figure 120570DEST_PATH_IMAGE017
步骤3.2.2 根据步骤2.4,
Figure 336788DEST_PATH_IMAGE018
越高,个体时空格网序列的鲁棒性越高,则鲁棒性的判 定上限为k,下限为
Figure 219293DEST_PATH_IMAGE019
,表示若
Figure 571777DEST_PATH_IMAGE018
与k的距离小于
Figure 514325DEST_PATH_IMAGE017
与k的距离的1%,则说明个 体的时空活动不是随时间随机变化的,具备鲁棒性。
CN202211204926.3A 2022-09-30 2022-09-30 一种大数据环境下个体时空活动鲁棒性的计算方法 Active CN115297441B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211204926.3A CN115297441B (zh) 2022-09-30 2022-09-30 一种大数据环境下个体时空活动鲁棒性的计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211204926.3A CN115297441B (zh) 2022-09-30 2022-09-30 一种大数据环境下个体时空活动鲁棒性的计算方法

Publications (2)

Publication Number Publication Date
CN115297441A true CN115297441A (zh) 2022-11-04
CN115297441B CN115297441B (zh) 2023-01-17

Family

ID=83833281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211204926.3A Active CN115297441B (zh) 2022-09-30 2022-09-30 一种大数据环境下个体时空活动鲁棒性的计算方法

Country Status (1)

Country Link
CN (1) CN115297441B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268520A (zh) * 2014-09-22 2015-01-07 天津理工大学 一种基于深度运动轨迹的人体动作识别方法
CN104700434A (zh) * 2015-03-27 2015-06-10 北京交通大学 一种用于复杂结构化场景的人群运动轨迹异常检测方法
US9474042B1 (en) * 2015-09-16 2016-10-18 Ivani, LLC Detecting location within a network
CN106096631A (zh) * 2016-06-02 2016-11-09 上海世脉信息科技有限公司 一种基于手机大数据的流动人口分类识别分析方法
CN107247961A (zh) * 2017-05-10 2017-10-13 西安交通大学 一种应用模糊轨迹序列的轨迹预测方法
CN107770744A (zh) * 2017-09-18 2018-03-06 上海世脉信息科技有限公司 大数据环境下出行od节点识别和节点间路径提取方法
CN109348404A (zh) * 2018-10-09 2019-02-15 上海世脉信息科技有限公司 一种大数据环境下个体出行道路轨迹提取的方法
CN109359670A (zh) * 2018-09-18 2019-02-19 北京工业大学 一种基于交通大数据的个体关联强度自动检测方法
CN110457315A (zh) * 2019-07-19 2019-11-15 国家计算机网络与信息安全管理中心 一种基于用户轨迹数据的群体聚集模式分析方法和系统
EP3579009A1 (en) * 2018-06-05 2019-12-11 Koninklijke Philips N.V. Zero echo time mr imaging with water-fat separation
EP3644580A1 (en) * 2018-10-25 2020-04-29 Kido Dynamics SA Human mobility measuring method
EP3739356A1 (en) * 2019-05-12 2020-11-18 Origin Wireless, Inc. Method, apparatus, and system for wireless tracking, scanning and monitoring
CN112131970A (zh) * 2020-09-07 2020-12-25 浙江师范大学 一种基于多通道时空网络和联合优化损失的身份识别方法
CN113505314A (zh) * 2021-07-27 2021-10-15 王程 时空复杂网络聚类的位置轨迹分析系统
CN114004988A (zh) * 2021-09-26 2022-02-01 浙江大华技术股份有限公司 一种聚类方法、装置、电子设备、计算机可读存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268520A (zh) * 2014-09-22 2015-01-07 天津理工大学 一种基于深度运动轨迹的人体动作识别方法
CN104700434A (zh) * 2015-03-27 2015-06-10 北京交通大学 一种用于复杂结构化场景的人群运动轨迹异常检测方法
US9474042B1 (en) * 2015-09-16 2016-10-18 Ivani, LLC Detecting location within a network
CN106096631A (zh) * 2016-06-02 2016-11-09 上海世脉信息科技有限公司 一种基于手机大数据的流动人口分类识别分析方法
CN107247961A (zh) * 2017-05-10 2017-10-13 西安交通大学 一种应用模糊轨迹序列的轨迹预测方法
CN107770744A (zh) * 2017-09-18 2018-03-06 上海世脉信息科技有限公司 大数据环境下出行od节点识别和节点间路径提取方法
EP3579009A1 (en) * 2018-06-05 2019-12-11 Koninklijke Philips N.V. Zero echo time mr imaging with water-fat separation
CN109359670A (zh) * 2018-09-18 2019-02-19 北京工业大学 一种基于交通大数据的个体关联强度自动检测方法
CN109348404A (zh) * 2018-10-09 2019-02-15 上海世脉信息科技有限公司 一种大数据环境下个体出行道路轨迹提取的方法
EP3644580A1 (en) * 2018-10-25 2020-04-29 Kido Dynamics SA Human mobility measuring method
EP3739356A1 (en) * 2019-05-12 2020-11-18 Origin Wireless, Inc. Method, apparatus, and system for wireless tracking, scanning and monitoring
CN110457315A (zh) * 2019-07-19 2019-11-15 国家计算机网络与信息安全管理中心 一种基于用户轨迹数据的群体聚集模式分析方法和系统
CN112131970A (zh) * 2020-09-07 2020-12-25 浙江师范大学 一种基于多通道时空网络和联合优化损失的身份识别方法
CN113505314A (zh) * 2021-07-27 2021-10-15 王程 时空复杂网络聚类的位置轨迹分析系统
CN114004988A (zh) * 2021-09-26 2022-02-01 浙江大华技术股份有限公司 一种聚类方法、装置、电子设备、计算机可读存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIASHUN CHEN: "A New Trajectory Clustering Based on Paritition-Cluster-Extration", 《2013 INTERNATIONAL CONFERENCE ON COMPUTATIONAL AND INFORMATION SCIENCES》 *
游峰: "面向多目标跟踪的密集行人群轨迹提取和运动语义感知", 《交通运输系统工程与信息》 *
牟乃夏: "移动轨迹聚类方法研究综述", 《测绘通报》 *
郭乃琨: "一种顾及时间特征的船舶轨迹DBSCAN聚类算法", 《测绘工程》 *

Also Published As

Publication number Publication date
CN115297441B (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
Bell et al. Applying the generalized-moments estimation approach to spatial problems involving micro-level data
Huang et al. Modeling and visualizing regular human mobility patterns with uncertainty: An example using Twitter data
Toole et al. Inferring land use from mobile phone activity
Malleson et al. Analysis of crime patterns through the integration of an agent-based model and a population microsimulation
Goovaerts et al. Detection of temporal changes in the spatial distribution of cancer rates using local Moran’s I and geostatistically simulated spatial neutral models
CN109657547A (zh) 一种基于伴随模型的异常轨迹分析方法
Mateu et al. Spatio-temporal design: Advances in efficient data acquisition
Dileepkumar et al. Human influence on sub-regional surface air temperature change over India
Ertur et al. Regional growth and convergence: Heterogeneous reaction versus interaction in spatial econometric approaches
Tong et al. Regional coverage maximization: alternative geographical space abstraction and modeling
WO2022267455A1 (zh) 欺诈用户集中区域的预测方法、装置、设备及存储介质
EP3192061B1 (en) Measuring and diagnosing noise in urban environment
Bhuyan et al. Analysing the causal effect of London cycle superhighways on traffic congestion
Lee et al. An empirical experiment on deep learning models for predicting traffic data
Li et al. Mining boundary effects in areally referenced spatial data using the Bayesian information criterion
CN115297441B (zh) 一种大数据环境下个体时空活动鲁棒性的计算方法
Liu et al. A spatio-temporal co-clustering framework for discovering mobility patterns: A study of manhattan taxi data
Lim et al. Comparative analysis of alternate econometric structures for trip generation models
Gao et al. SI-AGAN: spatial interpolation with attentional generative adversarial networks for environment monitoring
Wang et al. A Comparative Study on Contract Recommendation Model: Using Macao Mobile Phone Datasets
Kim et al. A bootstrap based space–time surveillance model with an application to crime occurrences
Arena et al. How fast do we forget our past social interactions? Understanding memory retention with parametric decays in relational event models
Saleh et al. 1996–2017 GPS position time series, velocities and quality measures for the CORS Network
CN113516302B (zh) 业务风险分析方法、装置、设备及存储介质
Yue et al. Simulation and prediction of land use change in Dongguan of China based on ANN cellular automata-Markov chain model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant