CN112672379B - 基于wifi探测技术的枢纽换乘区域旅客走行路径识别方法及设备 - Google Patents

基于wifi探测技术的枢纽换乘区域旅客走行路径识别方法及设备 Download PDF

Info

Publication number
CN112672379B
CN112672379B CN202011503692.3A CN202011503692A CN112672379B CN 112672379 B CN112672379 B CN 112672379B CN 202011503692 A CN202011503692 A CN 202011503692A CN 112672379 B CN112672379 B CN 112672379B
Authority
CN
China
Prior art keywords
data
mac
rssi
transfer area
mac address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011503692.3A
Other languages
English (en)
Other versions
CN112672379A (zh
Inventor
周正全
李昱瑾
赵慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing General Municipal Engineering Design and Research Institute Co Ltd
Original Assignee
Beijing General Municipal Engineering Design and Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing General Municipal Engineering Design and Research Institute Co Ltd filed Critical Beijing General Municipal Engineering Design and Research Institute Co Ltd
Priority to CN202011503692.3A priority Critical patent/CN112672379B/zh
Publication of CN112672379A publication Critical patent/CN112672379A/zh
Application granted granted Critical
Publication of CN112672379B publication Critical patent/CN112672379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本发明公开了一种基于wifi探测技术的枢纽换乘区域旅客走行路径识别方法及设备,包括以下步骤:1)wifi探测设备参数配置;2)在wifi探测设备采集的原数据基础上剔除错误数据样本;3)基于统计学分析过滤伪数据样本;4)利用K‑means聚类分析算法,根据rssi绝对值的大小将数据样本聚类;5)基于K‑means聚类分析算法确定换乘区域内旅客动态位置;6)识别换乘区域内客流类型;7)匹配枢纽换乘区域各检测点之间的数据样本,获取旅客动态位置信息,识别旅客走行路径。本发明可以解决根据原始数据中的mac地址、rssi、time等相关指标,识别以出行为目的的旅客客流,并获取其动态位置信息等技术问题。

Description

基于wifi探测技术的枢纽换乘区域旅客走行路径识别方法及设备
技术领域
本发明涉及一种交通识别技术。
背景技术
近年来随着互联网技术的快速发展,移动设备普及率不断提升,带来了大量的线上用户数据的行为,对用户数据行为的分析也逐渐成为了热门研究方向。wifi探测技术属于无线通信技术之一,随着wifi探测技术的普及,由于具有身份识别、扩展性强、应用广泛、传输不易受非视距误差及多经衰落影响等优点,wifi探测技术逐渐被应用于室内定位和客流统计技术。
2011年,ROEDING CYRIAC等人在美国申请了一项使用wifi网络来探测设备存在的专利,该专利中首次采用了wifi探针技术,通过捕获连接建立时的数据包来探测设备是否存在,属于wifi探针的基础型应用。
2016年,高见等人对基于wifi探针的预警系统进行设计与研究,实现对大人流的预警和制定终端的行为轨迹分析,并通过实验数据验证了该系统的可行性和前瞻性。
2017年,任子晖等人采用大数据框架设计了一套基于wifi探针的公共安全管理系统,可以实现人流量报告、拥堵报警、轨迹分析、同性人检测等功能。
2019年,李凯雷等人设计了基于wifi探针的人流量异常自动预警系统,可以实现在人流量异常变化时有效出发报警。
wifi探测数据是指采用wifi探针对研究区域的旅客手机信号进行捕捉,当经过wifi设备并且手机wifi连接设置为开的手机设备的mac地址将会被wifi探针记录,同时记录该手机设备出现和消失的时刻、手机信号的强度等信息。
现有关于wifi探测的采集原理已经较为成熟,主要是通过wifi检测设备捕获用户手机的mac地址实现,但是对于wifi探测采集得到的原始数据,在应用于枢纽换乘区域旅客动态位置采集方面,需要采用特定的方法进行数据清洗与筛选。目前国内外在这一方面的研究还较为缺乏,本专利主要就如何对原始数据进行清洗得到符合条件的可靠样本进行研究。
wifi探针所采集的连续数据,基本可以做到每2秒自动采集一次,在时间上可以做到较为精确。与其它采集方式相比,wifi探针采集数据的优点在于无线网络的覆盖范围大,易于安装,成本低。尤其在机场的安检处等这类较为敏感的区域,wifi探针覆盖范围大的特性使得设备放置的位置较为灵活,在采集数据的同时不会影响机场正常的工作流程,放置和拆卸都相对方便,亦不会泄漏旅客的个人隐私;其缺点则在于信号容易被干扰。此外,后期的数据格式转换等也较为麻烦。
发明内容
本发明的目的是提供一种基于wifi探测技术的枢纽换乘区域旅客走行路径识别方法及设备,以解决根据原始数据中的mac地址、rssi、time等相关指标,识别以出行为目的的旅客客流,并获取其动态位置信息等技术问题。
为了实现上述发明目的,本发明所采用的技术方案如下:
一种基于wifi探测技术的枢纽换乘区域旅客走行路径识别方法,包括以下步骤:
(1)wifi探测设备参数配置;
在采集数据之前需要配置wifi探测设备的相关参数,包括时间设置和数据上传参数设置两部分;
将wifi探测设备时间设置成与时钟一致的时间,即本地时间;
在数据上传参数设置部分,设置采集数据的周期,将采集到的数据实时保存至sd储存卡内,并设置储存文件大小,超过后计入下一个文件;
(2)在wifi探测设备采集的原数据基础上剔除错误数据样本;
记录每台wifi探测设备发射信号覆盖范围内所有打开了wifi信号的手机信息,记录内容包括其手机mac地址,记录时间,rssi信号强度范围;wifi设备采集的原始数据按照数据大小分成若干文件夹,以txt格式储存,
对于乱码和不满足以上数据格式的数据条目,在本阶段分析中被认为是错误数据,予以剔除,原始数据为M0,剔除错误数据之后的数据集为M1
Figure BDA0002844253730000031
其中,i为不同mac地址的个数,k为同一个mac地址的数据个数;
(3)基于统计学分析过滤伪数据样本;
采用统计学分析的方法,即根据数据的出现频次进行分析,对于瞬时多频次出现的数据进行过滤;
基于剔除错误数据后的数据集合M1,其中共包含有I个mac地址,分别为{mac1,mac2,…,maci,…,macI},其中有效mac地址J个,伪数据G个,且J+G=I;按照mac地址的不同计算第i个mac地址的出现频次,即{α1,α2,…,αi,…,αI},定义一个阈值β作为判定是否为伪数据的条件,依据统计学的分析,可得到βi≥αi的累计频率为γi,,不同的βi对应的γi不同,γi的推荐值定义为γg,γg取值10%-15%,与γg对应的数据集为伪数据集,记为M1g
Figure BDA0002844253730000032
按照以上条件对数据进行清洗,去除伪数据之后的数据样本记为M2
Figure BDA0002844253730000041
其中,j为剔除伪数据之后的不同mac地址的个数,k为同一个mac地址的数据个数;
(4)利用K-means聚类分析算法,根据rssi绝对值的大小将数据样本聚类;
K-means算法描述为:假设给定一个整数Z以及一个具有n个数据对象的样本集合
Figure BDA0002844253730000042
目标是选择Z个聚类中心C使目标函数F达到最小,其中目标函数F的计算公式为:
Figure BDA0002844253730000043
其中,s代表与mac地址对应的rssi的值,c代表中心点的rssi值;
在数据集M2中,随机选取Z个中心,集合中其他数据对象被划分到与中心最近的数据集合中去,形成了Z个初始的数据集合,也称为簇,对于每个数据集合计算新的中心,然后根据新的中心重新分配其他数据集合,不断迭代,指导数据中心不再变化;
在样本数据M2的基础上,设置初始簇Z值为3个,初始的中心为c11,c12,c13,经过迭代计算后,得到新的中心为c21,c22,c23,其中c21对应的数据集为S1,包含m个数据样本{s11,s12,s13,…,s1m,},样本个数的累计频率即为pm;c22对应的数据集为S2,包含n个数据样本{s21,s22,s23,…,s2n,},样本个数的累计频率即为pn;c23对应的数据集为S3,包含
Figure BDA0002844253730000044
个数据样本{s3k(1),s3k(2),s3k(3),…,s3k(x),},样本个数的累计频率即为pχ,假设px=max(pm、pn、pχ),那么pχ对应的集合为有效数据,即该数据集是在wifi探测设备有效距离内的数据;
按照以上条件对数据进行清洗后的数据样本记为M3
Figure BDA0002844253730000051
其中,χ为rssi符合条件要求的不同mac地址的个数,k为同一个mac地址的数据个数;
(5)基于K-means聚类分析算法确定换乘区域内旅客动态位置;
经过以上步骤筛选得到的不同mac地址代表不同的旅客,对各检测器检测到的mac地址进行分类处理后,明确了旅客在换乘区域内的位置;根据wifi探测设备捕获得到的rssi的强弱不同,对数据样本进一步筛选,得到的M3是包括mac地址实时位置信息的数据集;
(6)识别换乘区域内客流类型;
根据最初捕获时间和最后一次捕获时间的差值可以甄别出行旅客;
假设tχ1为首次捕获时间,tχ2为末次捕获时间,tχ为移动设备在换乘区域内的滞留时间,tχ=tχ2-tχ1,tχ≥Tχ1的概率为θ1,tχ≤Tχ2的概率为θ2;根据滞留时间的分布特征给予θ1和θ2特定的阈值,θ1值为1%-5%,θ2值为10%-20%;假设1%≤θq1≤5%,10%≤θq2≤20%,对应的数据集为M4
Figure BDA0002844253730000052
其中,q为滞留时间符合条件要求的不同mac地址的个数,k为同一个mac地址的数据个数;
(7)匹配枢纽换乘区域各检测点之间的数据样本,获取旅客动态位置信息,识别旅客走行路径;
针对同一个mac地址,识别在每个检测位置rssi最大绝对值出现的时刻,并按照时间顺序进行串联,进而得到该旅客的走行路径;假设枢纽换乘区域检测点共N个,每个检测点检测到的数据集为M4n,M4由{M41,M42,…,M4n…,M4N}组成;M4n内的mac地址为mac4n,mac4;在同一个检测点可能被检测到k次,即M4n={mac4n1,mac4n2,mac4n3,…,mac4nk},对比以上k个数据的rssi值,rssi绝对值最大的为保留用于匹配的最终数据,记为mac4nq,M4nq={mac41q,mac42q,mac43q,…,mac4nq},即选取rssi最大绝对值对应的数据集作为该mac地址在此检测点最为有效的数据;
将每个检测点的mac4nq与检测位置进行匹配,匹配之后的数据形成数据集M5={M41q,M42q,…,M4nq…,M4Nq};
此数据集中均带有各个检测位置的rssi信息和与其对应的time信息,按照time时间顺序将mac地址对应的检测点进行串联,获取该旅客在枢纽换乘区域内的动态位置信息,为枢纽旅客出行特征分析提供依据。
一种基于wifi探测技术的枢纽换乘区域旅客走行路径识别设备,包括:
1)、数据采集模块:采用本发明方法中步骤(1)的经过参数设置的wifi探测设备;
2)、数据预处理模块:采用本发明方法中步骤(2)-(6)的工作流程;
3)、数据匹配模块:采用本发明方法中步骤(7)的工作流程。本发明具有如下优点及效果:
本发明依据原始数据的标准格式,剔除乱码、mac地址错误的数据样本,同时结合统计学分析更加科学合理的判定伪数据的存在,进一步得到干净的数据样本。在此之上,利用聚类分析算法给予rssi和time相应的阈值,来获取样本的位置信息,同时判别客流的类型。本发明可以精准的获取每个旅客的实时动态位置信息,识别枢纽换乘区域内旅客客流,节约人工调研成本,同时调研时间可以覆盖全时段,包括动态24小时、早晚高峰等任何需要进行数据采集的时间,为后续的数据分析提供了可靠依据。
附图说明
图1是本实用新型的设备原理图。
具体实施方式
本发明的目的是基于现有的wifi探测采集技术,提出一种适用于枢纽换乘区域旅客动态位置获取的数据采集与处理方法。
本发明包括以下七部分内容,即为权利要求的七个内容。
(1)wifi探测设备参数配置
为了更准确的获取数据样本,在采集数据之前需要配置wifi探测设备的相关参数。主要包括时间设置和数据上传参数设置两部分。
wifi探测设备默认每次加电后wifi时间归零,为了能保证后续匹配mac地址工作的顺利进行,需要将时间设置成与时钟一致的时间,即本地时间。
在数据上传参数设置部分,需要设置采集数据的周期,本次设置为2s,同时启用保存到sd卡设置,将采集到的数据实时保存至sd储存卡内,并设置储存文件大小为1M,超过1M后计入下一个文件。
(2)在wifi探测设备采集的原数据基础上剔除错误数据样本
每台wifi探测设备发射信号范围为半径为150米的圆,覆盖范围内所有打开了wifi信号的手机信息均可被记录,记录内容包括其手机mac地址,记录时间,rssi信号强度范围等。
wifi设备采集的原始数据按照数据大小分成若干文件夹,以txt格式储存,具体包含的主要参数如下:
time:捕获到移动设备的时刻;
mac:移动设备的mac地址;
rssi:移动设备信号的强度,rssi绝对值越大,代表其强度越大。
标准数据格式为:
"12:13:26 5c:1a:6f:8a:cd:c0 -46"
经过对原始数据的观察与分析,发现并非所有数据均满足标准数据格式,且存在乱码数据,对于乱码的和不满足以上数据格式的数据条目,在本阶段分析中被认为是错误数据,予以剔除,原始数据为M0,剔除错误数据之后的数据集为M1
Figure BDA0002844253730000081
其中,i为不同mac地址的个数,k为同一个mac地址的数据个数。
(3)基于统计学分析过滤伪数据样本
各大运营商出于对用户安全隐私保护的考虑,对于移动设备的mac地址,部分做了伪数据处理,例如部分安卓设备用户会出现此现象。伪数据并非此类设备的真实mac地址,而是动态变化的,且这部分数据具有瞬时性的特点,即出现的频次多、时长短。甄别此类数据,本专利采用统计学分析的方法,即根据数据的出现频次进行分析,对于瞬时多频次出现的数据进行过滤。
基于剔除错误数据后的数据集合M1,其中共包含有I个mac地址,分别为{mac1,mac2,…,maci,…,macI},其中有效mac地址J个,伪数据G个,且J+G=I。按照mac地址的不同计算第i个mac地址的出现频次,即{址1,α2,…,αi,…,αI},在wifi探测数据采集领域,常定义一个阈值β作为判定是否为伪数据的条件,依据统计学的分析,可得到βi≥αi的累计频率为γi,不同的βi对应的γi不同,一般γi的推荐值定义为γg,γg取值10%-15%,与γg对应的数据集为伪数据集,记为M1g
Figure BDA0002844253730000091
按照以上条件对数据进行清洗,去除伪数据之后的数据样本记为M2
Figure BDA0002844253730000092
其中,j为剔除伪数据之后的不同mac地址的个数,k为同一个mac地址的数据个数。
(4)利用K-means聚类分析算法,根据rssi绝对值的大小将数据样本聚类
│rssi│越大表明强度越大,即移动设备距离wifi探测设备越近,利用K-means聚类分析算法,根据rssi绝对值的大小将数据样本聚类。
K-means算法可以描述为:假设给定一个整数Z以及一个具有n个数据对象的样本集合
Figure BDA0002844253730000093
目标是选择Z个聚类中心C使目标函数F达到最小,其中目标函数F的计算公式为:
Figure BDA0002844253730000094
其中,s代表与mac地址对应的rssi的值,c代表中心点的rssi值。
在数据集M2中,随机选取Z个中心,集合中其他数据对象被划分到与中心最近的数据集合中去,形成了Z个初始的数据集合(也称为簇),对于每个数据集合计算新的中心,然后根据新的中心重新分配其他数据集合,不断迭代,指导数据中心不再变化。
在样本数据M2的基础上,设置初始簇Z值为3个,初始的中心为c11,c12,c13,经过迭代计算后,得到新的中心为c21,c22,c23,其中c21对应的数据集为S1,包含m个数据样本{s11,s12,s13,…,s1m,},样本个数的累计频率即为pm;c22对应的数据集为S2,包含n个数据样本{s21,s22,s23,…,s2n,},样本个数的累计频率即为pn;c23对应的数据集为S3,包含
Figure BDA0002844253730000101
个数据样本{s3k(1),s3k(2),s3k(3),…,s3k(x),},样本个数的累计频率即为pχ,假设px=max(pm、pn、pχ),那么pχ对应的集合为有效数据,即该数据集是在wifi探测设备有效距离内的数据。
按照以上条件对数据进行清洗后的数据样本记为M3
Figure BDA0002844253730000102
其中,χ为rssi符合条件要求的不同mac地址的个数,k为同一个mac地址的数据个数。
(5)基于K-means聚类分析算法确定换乘区域内旅客动态位置;
经过以上步骤筛选得到的不同mac地址代表不同的旅客,对各检测器检测到的mac地址进行分类处理后,明确了旅客在换乘区域内的位置;根据wifi探测设备捕获得到的rssi的强弱不同,对数据样本进一步筛选,得到的M3是包括mac地址实时位置信息的数据集;
(6)识别换乘区域内客流类型
满足以上条件的数据并非均为具有出行目的的旅客,其中还含有服务人员、安检人员等信息,根据最初捕获时间和最后一次捕获时间的差值可以甄别出行旅客。
假设tχ1为首次捕获时间,tχ2为末次捕获时间,tχ为移动设备在换乘区域内的滞留时间,tχ=tχ2-tχ1,tχ≥Tχ1的概率为θ1,tχ≤Tχ2的概率为θ2。在统计学分析中,一般会根据滞留时间的分布特征给予θ1和θ2特定的阈值,本专利中θ1推荐值为1%-5%,θ2推荐值为10%-20%。假设1%≤θq1≤5%,10%≤θq2≤20%,对应的数据集为M4
Figure BDA0002844253730000111
其中,q为滞留时间符合条件要求的不同mac地址的个数,k为同一个mac地址的数据个数。
(7)匹配枢纽换乘区域各检测点之间的数据样本,获取旅客动态位置信息,识别旅客走行路径。
此步骤的目的在于获取旅客动态位置信息,并利用时间特征串联换乘区域内各个检测点位置,从而实现旅客走行路径的识别。针对同一个mac地址,识别在每个检测位置rssi最大绝对值出现的时刻,并按照时间顺序进行串联,进而得到该旅客的走行路径。解决了如何识别动态位置及如何获取旅客走行路径的技术问题。
假设枢纽换乘区域检测点共N个,每个检测点检测到的数据集为M4n,M4由{M41,M42,…,M4n…,M4N}组成。M4n内的mac地址为mac4n,mac4n在同一个检测点可能被检测到k次,即M4n={mac4n1,mac4n2,mac4n3,…,mac4nk},对比以上k个数据的rssi值,rssi绝对值最大的为保留用于匹配的最终数据,记为mac4nq,M4nq={mac41q,mac42q,mac43q,…,mac4nq},即选取rssi最大绝对值对应的数据集作为该mac地址在此检测点最为有效的数据,使得研究结果更加具有准确性与针对性。
将每个检测点的mac4nq与检测位置进行匹配,匹配之后的数据形成数据集M5={M41q,M42q,…,M4nq…,M4Nq}。
此数据集中均带有各个检测位置的rssi信息和与其对应的time信息,按照time时间顺序将mac地址对应的检测点进行串联,获取该旅客在枢纽换乘区域内的动态位置信息,为枢纽旅客出行特征分析提供依据。
参见图1所示,一种基于wifi探测技术的枢纽换乘区域旅客走行路径识别设备,包括:
1)、数据采集模块:采用本发明方法中步骤(1)的经过参数设置的wifi探测设备;
2)、数据预处理模块:采用本发明方法中步骤(2)-(6)的工作流程;
3)、数据匹配模块:采用本发明方法中步骤(7)的工作流程。

Claims (2)

1.一种基于wifi探测技术的枢纽换乘区域旅客走行路径识别方法,包括以下步骤:
(1)wifi探测设备参数配置;
在采集数据之前需要配置wifi探测设备的相关参数,包括时间设置和数据上传参数设置两部分;
将wifi探测设备时间设置成与时钟一致的时间,即本地时间;
在数据上传参数设置部分,设置采集数据的周期,将采集到的数据实时保存至sd储存卡内,并设置储存文件大小,超过后计入下一个文件;
(2)在wifi探测设备采集的原数据基础上剔除错误数据样本;
记录每台wifi探测设备发射信号覆盖范围内所有打开了wifi信号的手机信息,记录内容包括其手机mac地址,记录时间,rssi信号强度范围;wifi设备采集的原始数据按照数据大小分成若干文件夹,以txt格式储存;
对于乱码和不满足以上数据格式的数据条目,在本阶段分析中被认为是错误数据,予以剔除,原始数据为M0,剔除错误数据之后的数据集为M1
Figure FDA0003886786200000011
其中,i为不同mac地址的个数,k为同一个mac地址的数据个数;
(3)基于统计学分析过滤伪数据样本;
采用统计学分析的方法,即根据数据的出现频次进行分析,对于瞬时多频次出现的数据进行过滤;
基于剔除错误数据后的数据集合M1,其中共包含有I个mac地址,分别为{mac1,mac2,…,maci,…,macI},其中有效mac地址J个,伪数据G个,且J+G=I;按照mac地址的不同计算第i个mac地址的出现频次,即{α1,α2,…,αi,…,αI},定义一个阈值β作为判定是否为伪数据的条件,依据统计学的分析,可得到βi≥αi的累计频率为γi,不同的βi对应的γi不同,γi的推荐值定义为γg,γg取值10%-15%,与γg对应的数据集为伪数据集,记为M1g
Figure FDA0003886786200000021
按照以上条件对数据进行清洗,去除伪数据之后的数据样本记为M2
Figure FDA0003886786200000022
其中,j为剔除伪数据之后的不同mac地址的个数,k为同一个mac地址的数据个数;
(4)利用K-means聚类分析算法,根据rssi绝对值的大小将数据样本聚类;
K-means算法描述为:假设给定一个整数Z以及一个具有n个数据对象的样本集合
Figure FDA0003886786200000023
目标是选择Z个聚类中心C使目标函数F达到最小,其中目标函数F的计算公式为:
Figure FDA0003886786200000024
其中,s代表与mac地址对应的rssi的值,c代表中心点的rssi值;
在数据集M2中,随机选取Z个中心,集合中其他数据对象被划分到与中心最近的数据集合中去,形成了Z个初始的数据集合,也称为簇,对于每个数据集合计算新的中心,然后根据新的中心重新分配其他数据集合,不断迭代,指导数据中心不再变化;
在样本数据M2的基础上,设置初始簇Z值为3个,初始的中心为c11,c12,c13,经过迭代计算后,得到新的中心为c21,c22,c23,其中c21对应的数据集为S1,包含m个数据样本{s11,s12,s13,…,s1m,},样本个数的累计频率即为pm;c22对应的数据集为S2,包含n个数据样本{s21,s22,s23,…,s2n,},样本个数的累计频率即为pn;c23对应的数据集为S3,包含
Figure FDA0003886786200000031
个数据样本{s3k(1),s3k(2),s3k(3),…,s3k(x),},样本个数的累计频率即为pχ,假设px=max(pm、pn、pχ),那么pχ对应的集合为有效数据,即该数据集是在wifi探测设备有效距离内的数据;
按照以上条件对数据进行清洗后的数据样本记为M3
Figure FDA0003886786200000032
其中,χ为rssi符合条件要求的不同mac地址的个数,k为同一个mac地址的数据个数;
(5)基于K-means聚类分析算法确定换乘区域内旅客动态位置;
经过以上步骤筛选得到的不同mac地址代表不同的旅客,对各检测器检测到的mac地址进行分类处理后,明确了旅客在换乘区域内的位置;根据wifi探测设备捕获得到的rssi的强弱不同,对数据样本进一步筛选,得到的M3是包括mac地址实时位置信息的数据集;
(6)识别换乘区域内客流类型;
根据最初捕获时间和最后一次捕获时间的差值可以甄别出行旅客;
假设tχ1为首次捕获时间,tχ2为末次捕获时间,tχ为移动设备在换乘区域内的滞留时间,tχ=tχ2-tχ1,tχ≥Tχ1的概率为θ1,tχ≤Tχ2的概率为θ2;根据滞留时间的分布特征给予θ1和θ2特定的阈值,θ1值为1%-5%,θ2值为10%-20%;假设1%≤θq1≤5%,10%≤θq2≤20%,对应的数据集为M4
Figure FDA0003886786200000041
其中,q为滞留时间符合条件要求的不同mac地址的个数,k为同一个mac地址的数据个数;
(7)匹配枢纽换乘区域各检测点之间的数据样本,获取旅客动态位置信息,识别旅客走行路径;
针对同一个mac地址,识别在每个检测位置rssi最大绝对值出现的时刻,并按照时间顺序进行串联,进而得到该旅客的走行路径;假设枢纽换乘区域检测点共N个,每个检测点检测到的数据集为M4n,M4由{M41,M42,…,M4n…,M4N}组成;M4n内的mac地址为mac4n,mac4n在同一个检测点可能被检测到k次,即M4n={mac4n1,mac4n2,mac4n3,…,mac4nk},对比以上k个数据的rssi值,rssi绝对值最大的为保留用于匹配的最终数据,记为mac4nq,M4nq={mac41q,mac42q,mac43q,…,mac4nq},即选取rssi最大绝对值对应的数据集作为该mac地址在此检测点最为有效的数据;
将每个检测点的mac4nq与检测位置进行匹配,匹配之后的数据形成数据集M5={M41q,M42q,…,M4nq…,M4Nq};
此数据集中均带有各个检测位置的rssi信息和与其对应的time信息,按照time时间顺序将mac地址对应的检测点进行串联,获取该旅客在枢纽换乘区域内的动态位置信息,为枢纽旅客出行特征分析提供依据。
2.一种基于wifi探测技术的枢纽换乘区域旅客走行路径识别设备,其特征在于,包括:
1)、数据采集模块:
经过本地时钟、采集数据周期的设置,将采集到的数据实时保存至sd储存卡内,并设置储存文件大小,超过后计入下一个文件的wifi探测设备;
2)、数据预处理模块:
首先,在wifi探测设备采集的原数据基础上剔除错误数据样本;
记录每台wifi探测设备发射信号覆盖范围内所有打开了wifi信号的手机信息,记录内容包括其手机mac地址,记录时间,rssi信号强度范围;wifi设备采集的原始数据按照数据大小分成若干文件夹,以txt格式储存,
对于乱码和不满足以上数据格式的数据条目,在本阶段分析中被认为是错误数据,予以剔除,原始数据为M0,剔除错误数据之后的数据集为M1
Figure FDA0003886786200000061
其中,i为不同mac地址的个数,k为同一个mac地址的数据个数;
其次,基于统计学分析过滤伪数据样本;
采用统计学分析的方法,即根据数据的出现频次进行分析,对于瞬时多频次出现的数据进行过滤;
基于剔除错误数据后的数据集合M1,其中共包含有I个mac地址,分别为{mac1,mac2,…,maci,…,macI},其中有效mac地址J个,伪数据G个,且J+G=I;按照mac地址的不同计算第i个mac地址的出现频次,即{α1,α2,…,αi,…,αI},定义一个阈值β作为判定是否为伪数据的条件,依据统计学的分析,可得到βi≥αi的累计频率为γi,,不同的βi对应的γi不同,γi的推荐值定义为γg,γg取值10%-15%,与γg对应的数据集为伪数据集,记为M1g
Figure FDA0003886786200000062
按照以上条件对数据进行清洗,去除伪数据之后的数据样本记为M2
Figure FDA0003886786200000063
其中,j为剔除伪数据之后的不同mac地址的个数,k为同一个mac地址的数据个数;
第三,利用K-means聚类分析算法,根据rssi绝对值的大小将数据样本聚类;
K-means算法描述为:假设给定一个整数Z以及一个具有n个数据对象的样本集合
Figure FDA0003886786200000071
目标是选择Z个聚类中心C使目标函数F达到最小,其中目标函数F的计算公式为:
Figure FDA0003886786200000072
其中,s代表与mac地址对应的rssi的值,c代表中心点的rssi值;
在数据集M2中,随机选取Z个中心,集合中其他数据对象被划分到与中心最近的数据集合中去,形成了Z个初始的数据集合,也称为簇,对于每个数据集合计算新的中心,然后根据新的中心重新分配其他数据集合,不断迭代,指导数据中心不再变化;
在样本数据M2的基础上,设置初始簇Z值为3个,初始的中心为c11,c12,c13,经过迭代计算后,得到新的中心为c21,c22,c23,其中c21对应的数据集为S1,包含m个数据样本{s11,s12,s13,…,s1m,},样本个数的累计频率即为pm;c22对应的数据集为S2,包含n个数据样本{s21,s22,s23,…,s2n,},样本个数的累计频率即为pn;c23对应的数据集为S3,包含
Figure FDA0003886786200000073
个数据样本{s3k(1),s3k(2),s3k(3),…,s3k(x),},样本个数的累计频率即为pχ,假设px=max(pm、pn、pχ),那么pχ对应的集合为有效数据,即该数据集是在wifi探测设备有效距离内的数据;
按照以上条件对数据进行清洗后的数据样本记为M3
Figure FDA0003886786200000081
其中,χ为rssi符合条件要求的不同mac地址的个数,k为同一个mac地址的数据个数;
第四,基于K-means聚类分析算法确定换乘区域内旅客动态位置;
经过以上步骤筛选得到的不同mac地址代表不同的旅客,对各检测器检测到的mac地址进行分类处理后,明确了旅客在换乘区域内的位置;根据wifi探测设备捕获得到的rssi的强弱不同,对数据样本进一步筛选,得到的M3是包括mac地址实时位置信息的数据集;
第五,识别换乘区域内客流类型:根据最初捕获时间和最后一次捕获时间的差值可以甄别出行旅客;
假设tχ1为首次捕获时间,tχ2为末次捕获时间,tχ为移动设备在换乘区域内的滞留时间,tχ=tχ2-tχ1,tχ≥Tχ1的概率为θ1,tχ≤Tχ2的概率为θ2;根据滞留时间的分布特征给予θ1和θ2特定的阈值,θ1值为1%-5%,θ2值为10%-20%;假设1%≤θq1≤5%,10%≤θq2≤20%,对应的数据集为M4
Figure FDA0003886786200000082
其中,q为滞留时间符合条件要求的不同mac地址的个数,k为同一个mac地址的数据个数;
3)、数据匹配模块:
匹配枢纽换乘区域各检测点之间的数据样本,获取旅客动态位置信息,识别旅客走行路径;针对同一个mac地址,识别在每个检测位置rssi最大绝对值出现的时刻,并按照时间顺序进行串联,进而得到该旅客的走行路径;假设枢纽换乘区域检测点共N个,每个检测点检测到的数据集为M4n,M4由{M41,M42,…,M4n…,M4N}组成;M4n内的mac地址为mac4n,mac4n在同一个检测点可能被检测到k次,即M4n={mac4n1,mac4n2,mac4n3,…,mac4nk},对比以上k个数据的rssi值,rssi绝对值最大的为保留用于匹配的最终数据,记为mac4nq,M4nq={mac41q,mac42q,mac43q,…,mac4nq},即选取rssi最大绝对值对应的数据集作为该mac地址在此检测点最为有效的数据;
将每个检测点的mac4nq与检测位置进行匹配,匹配之后的数据形成数据集M5={M41q,M42q,…,M4nq…,M4Nq};
此数据集中均带有各个检测位置的rssi信息和与其对应的time信息,按照time时间顺序将mac地址对应的检测点进行串联,获取该旅客在枢纽换乘区域内的动态位置信息,为枢纽旅客出行特征分析提供依据。
CN202011503692.3A 2020-12-18 2020-12-18 基于wifi探测技术的枢纽换乘区域旅客走行路径识别方法及设备 Active CN112672379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011503692.3A CN112672379B (zh) 2020-12-18 2020-12-18 基于wifi探测技术的枢纽换乘区域旅客走行路径识别方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011503692.3A CN112672379B (zh) 2020-12-18 2020-12-18 基于wifi探测技术的枢纽换乘区域旅客走行路径识别方法及设备

Publications (2)

Publication Number Publication Date
CN112672379A CN112672379A (zh) 2021-04-16
CN112672379B true CN112672379B (zh) 2023-04-07

Family

ID=75406362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011503692.3A Active CN112672379B (zh) 2020-12-18 2020-12-18 基于wifi探测技术的枢纽换乘区域旅客走行路径识别方法及设备

Country Status (1)

Country Link
CN (1) CN112672379B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114266310A (zh) * 2021-12-22 2022-04-01 北京市市政工程设计研究总院有限公司 基于时空双维度的客运交通枢纽换乘区域旅客滞留时间特征分析方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107302794A (zh) * 2017-06-27 2017-10-27 哈尔滨工业大学深圳研究生院 利用wifi信号作为移动定位与导航的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018236364A1 (en) * 2017-06-21 2018-12-27 Google Llc GENERATING WIRELESS NETWORK ACCESS POINTS MODELS USING CLUSTERING TECHNIQUES

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107302794A (zh) * 2017-06-27 2017-10-27 哈尔滨工业大学深圳研究生院 利用wifi信号作为移动定位与导航的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱洁.基于无线探测的移动用户行为分析.《中国优秀硕士学位论文全文数据库信息科技辑》.2018, *

Also Published As

Publication number Publication date
CN112672379A (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN104158611B (zh) 基于频谱分析的无线信号干扰检测系统及方法
CN105976617B (zh) 非法营运车辆检测方法和系统
CN108664620B (zh) 一种店铺客流量预测方法
CN111159254B (zh) 一种基于大数据处理的车辆与人员的关联方法
CN105208528A (zh) 一种用于识别同行人员的系统及方法
CN109711890B (zh) 一种用户数据处理方法及其系统
CN109672485B (zh) 基于信道状态信息室内人员实时入侵及运动速度检测方法
WO2018122816A1 (zh) 一种使用wi-fi探针判别行人流向的方法
CN108616900B (zh) 一种室内外测量报告的区分方法及网络设备
CN108847022B (zh) 一种微波交通数据采集设备的异常值检测方法
CN104200082B (zh) 台风登陆预测方法
CN110430226A (zh) 网络攻击检测方法、装置、计算机设备及存储介质
CN109977108A (zh) 一种基于行为轨迹库的多种轨迹碰撞分析方法
CN113689648B (zh) 一种基于物联网的智慧社区安防管理系统及方法
CN106936517A (zh) 一种异常无线电信号的自动识别系统及其方法
CN112672379B (zh) 基于wifi探测技术的枢纽换乘区域旅客走行路径识别方法及设备
CN105261152A (zh) 基于聚类分析的空中交通管制员疲劳检测方法、装置和系统
CN110958599A (zh) 一种基于轨迹相似性的一机多卡用户判别方法
CN113645182B (zh) 一种基于二次特征筛选的拒绝服务攻击随机森林检测方法
CN106100776B (zh) 基于无线台站网格监测系统的频谱感知方法
CN107195181B (zh) 一种根据套牌车识别规则库识别套牌车的方法
CN112101234B (zh) 一种侦码匹配处理方法和图码联侦系统
CN108399387A (zh) 用于识别目标群体的数据处理方法及装置
CN110049447B (zh) 一种基于位置信息的伙伴关系分析方法
KR102014234B1 (ko) 무선 프로토콜 자동 분석 방법 및 그를 위한 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant