CN109286900B - 一种Wi-Fi样本数据优化方法 - Google Patents

一种Wi-Fi样本数据优化方法 Download PDF

Info

Publication number
CN109286900B
CN109286900B CN201810993696.0A CN201810993696A CN109286900B CN 109286900 B CN109286900 B CN 109286900B CN 201810993696 A CN201810993696 A CN 201810993696A CN 109286900 B CN109286900 B CN 109286900B
Authority
CN
China
Prior art keywords
sample data
cluster head
cluster
clustering
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810993696.0A
Other languages
English (en)
Other versions
CN109286900A (zh
Inventor
罗丽燕
王玫
仇洪冰
宋浠瑜
邓小芳
周陬
覃泓铭
韦金泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201810993696.0A priority Critical patent/CN109286900B/zh
Publication of CN109286900A publication Critical patent/CN109286900A/zh
Application granted granted Critical
Publication of CN109286900B publication Critical patent/CN109286900B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/33Services specially adapted for particular environments, situations or purposes for indoor environments, e.g. buildings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W64/00Locating users or terminals or network equipment for network management purposes, e.g. mobility management
    • H04W64/006Locating users or terminals or network equipment for network management purposes, e.g. mobility management with additional information processing, e.g. for direction or speed determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种Wi‑Fi样本数据优化方法,所述方法采用Jaccard系数相似性和空间编码值信息来衡量Wi‑Fi样本数据两两间的相似程度,构建Wi‑Fi样本数据的相似矩阵;根据DBSCAN算法聚类原理对Wi‑Fi样本数据进行分簇,并提取Wi‑Fi样本数据的一重簇头和二重簇头;根据局部最优的原理,利用自顶向下的数据筛选方法,结合Wi‑Fi样本数据的二重簇头结果,从而得到最优的Wi‑Fi样本数据。本发明中的Wi‑Fi样本数据优化方法,利用邻近位置的Wi‑Fi数据具有一定的相似性来去除样本数据中的冗余,同时,Wi‑Fi样本数据间的空间编码信息,能够消除Jaccard系数相似性度量中的模糊问题,使得构建的Wi‑Fi指纹地图具有更强的鲁棒性,从而提高基于Wi‑Fi指纹的室内定位算法的性能。

Description

一种Wi-Fi样本数据优化方法
技术领域
本发明涉及数据处理方法,具体是一种Wi-Fi样本数据优化方法。
背景技术
人类80%以上的时间在室内环境中活动。位置服务、社交网络、健康救助、智慧城市、应急救援、物联网、精确打击等无不需要具备室内定位功能。室内定位已成为实现位置服务推广应用最迫切需要解决的难题。2016年启动的国家重点研发计划“室内混合智能定位与室内GIS技术”,立足室内无缝一米定位、为大型城市位置服务提供技术支撑。
室内定位作为基于位置服务的关键技术之一,基于Wi-Fi指纹地图的室内定位技术能够利用现有的基础设施来获得室内定位的指纹地图信息而无需部署额外设备。然而耗时耗人工的现场勘测使得基于Wi-Fi指纹地图的室内定位技术受到限制。而群智感知室内Wi-Fi样本数据,通过用户参与式感知的方式来获得室内定位的Wi-Fi指纹地图,可以避免现场勘测的成本开销。然而,用户参与式感知的Wi-Fi样本数据由于设备的多样性使得获得的样本数据存在大量冗余的问题。为了降低Wi-Fi样本数据的冗余信息,减少用户上传样本数据的流量开销,需要针对用户获得的大量样本数据进行数据择优。
现有的Wi-Fi样本数据择优方法是基于物理位置邻近的样本数据存在很大程度的相似,为了降低样本数据的相似性造成位置估计有误,采用相似性度量的方法来去除样本数据中的相似样本。但这种方法只考虑了样本数据间的相似程度,而没有考虑样本数据在空间位置上的不同。基于此,本发明提出了一种Wi-Fi样本数据优化方法。
发明内容
针对现有技术的不足,本发明旨在提出一种新的Wi-Fi样本数据优化方法。该方法利用数据间的相似度和空间编码信息来优化Wi-Fi样本数据。根据Wi-Fi信号的传播特点,物理位置相邻的Wi-Fi样本数据存在大量的相似信息,利用样本数据两两间的相似度可初步判定相邻位置的Wi-Fi样本数据的相似程度,结合Wi-Fi样本数据间的空间编码信息,能够初步降低Wi-Fi样本数据中的冗余样本。同时,采用自顶向下局部选优的方法,能够进一步确定局域内的最优Wi-Fi样本数据。与现有的Wi-Fi样本数据择优方法相比,基于相似度和空间编码信息的Wi-Fi样本数据优选方法,具备更强的鲁棒性,构建的Wi-Fi指纹地图具有更好的稳健性,能够改善基于Wi-Fi指纹的室内定位算法的性能。
为了实现上述目的,本发明采用如下技术方案:
一种Wi-Fi样本数据优化方法,包括如下步骤:
步骤1、计算Wi-Fi样本数据两两间的相似度和空间编码值,构建Wi-Fi样本数据的相似矩阵;
任一位置点上的Wi-Fi样本数据包含了室内空间上多个AP的信号,Wi-Fi样本数据两两间的相似度只是表明了两个Wi-Fi样本数据的相似程度,无法描述样本数据中对应于哪些AP信号相似。仅仅根据样本数据的相似度来判断两个样本数据是否相似,容易造成判断模糊。
根据Wi-Fi样本数据两两间的相似度进行0-1二进制编码,再将0-1二进制编码值转化成整数值,就得到了样本数据间的空间编码值。样本数据的空间编码值体现了样本数据在空间上的相似程度。结合Wi-Fi样本数据的相似度和空间编码值可以准确构建Wi-Fi样本数据的相似矩阵,从而为Wi-Fi样本数据的聚类提供判断依据。
步骤2、根据Wi-Fi样本数据的相似矩阵对样本数据进行聚类分簇,并确定每一分簇的簇头,构建Wi-Fi样本数据的一重簇头集合;
室内的几何构形以及复杂多变的环境,使得室内的Wi-Fi信号并不遵循其传播规律,邻近位置的Wi-Fi信号相似程度比较高,不利于基于Wi-Fi指纹地图的室内定位算法性能的提高。此外,通过手机用户参与式感知获得的Wi-Fi样本数据存在大量的冗余,为了降低手机用户上传Wi-Fi样本数据的流量开销,有必要对Wi-Fi样本数据中的冗余样本进行处理。在满足定位性能指标要求的前提下,降低样本数据的冗余,可以减少用户资源的开销,同时能够使得选取的样本数据适应环境的变动。
步骤3、根据Wi-Fi样本数据的一重簇头结果,将一重簇头集合中的数据视为新的Wi-Fi样本数据,计算一重簇头两两间的相似度和空间编码值,构建一重簇头集合相对应的相似矩阵,根据获得的相似矩阵对一重簇头集合中的数据进行聚类分簇,并确定每一分簇的簇头,从而构建一重簇头的新簇头,即二重簇头集合。
步骤4、采用自顶向下的方法,利用一重簇头和二重簇头的结果,根据局部最优原则,筛选得到最优的Wi-Fi样本数据。
需要说明的是,步骤1中,所述Wi-Fi样本数据是位置坐标已知或可以通过其他先验知识来确定位置坐标的Wi-Fi信号,每一位置点上的Wi-Fi样本数据包含一个或多个AP的信息,其表述形式如下:
Figure BDA0001781381140000021
其中,Fi表示为位置点i处获得的Wi-Fi样本数据,p是室内空间中AP的数量,
Figure BDA0001781381140000035
为位置点i处获得的第j个AP点的Wi-Fi信号的强度;
室内空间区域获得的Wi-Fi样本数据可以表示为:
Data_WiFi={(x1,y1,F1),(x2,y2,F2),……,(xi,yi,Fi),……,(xn,yn,Fn)}
其中,(xi,yi)为位置点i的二维坐标,n为位置点的个数。
需要说明的是,所述步骤1的具体实现流程如下:
步骤1.1、Wi-Fi样本数据两两间的相似度采用Jaccard系数来进行描述,位置点i和位置点j上获得的Wi-Fi样本数据分别为Fi和Fj,则所述的Wi-Fi样本数据两两间的相似度可以表示为:
Figure BDA0001781381140000031
其中,Fi∩Fj为样本数据Fi与Fj中对应位置的rss值相似的个数Ns,Fi∪Fj为Fi和Fj总的数据维数减去Ns得到的不重复的rss值个数;
Si,j的值越大,则Fi与Fj的相似程度越高;
Fi∩Fj和Fi∪Fj的计算过程如下:
Figure BDA0001781381140000032
Figure BDA0001781381140000034
DF=p
其中,DF为Wi-Fi样本数据F的维数,ε为对应位置的两个rss值是否相似的判断阈值。
由于室内空间环境复杂度高,使得近场区域内的Wi-Fi样本数据重复度较高,而与远场区域内的Wi-Fi样本数据差异大,所以通常对Wi-Fi样本数据进行分块处理,在降低算法计算复杂度的前提下,提高Wi-Fi样本数据处理的效率。
通过计算Wi-Fi样本数据两两间的Jaccard系数,由这些Jaccard系数构成这些Wi-Fi样本数据的Jaccard系数相似矩阵,其可以表示为:
Figure BDA0001781381140000033
步骤1.2、根据0-1二进制编码思想,引入Wi-Fi样本数据间的空间编码值来描述Wi-Fi样本数据在空间上的相似程度:
Wi-Fi样本数据Fi和Fj对应位置上的rss值分别进行比较,若两者满足条件
Figure BDA0001781381140000041
k∈[1,p],则说明该位置上的值
Figure BDA0001781381140000042
Figure BDA0001781381140000043
是相似的,给予编码为“1”,否则编码为“0”;
根据Wi-Fi样本数据Fi和Fj的编码结果,Wi-Fi样本数据Fi和Fj的空间编码值的计算为:
Q=sort{q1,…,qk…,qp}
Figure BDA0001781381140000044
其中序列{q1,...,qk,...,qp}为Wi-Fi样本数据Fi和Fj的编码结果,即两个Wi-Fi样本数据的编码序列,其中k=[1,p];b为编码基数,针对0-1二进制编码,则b=2;
Wi-Fi样本数据两两间空间编码值构成其空间编码值矩阵,可以表示为:
Figure BDA0001781381140000045
步骤1.3、根据Jaccard系数的计算原理,其值大小仅表明了两个数据间数值的相似程度。且由于Wi-Fi样本数据属于多维度的数据,Wi-Fi样本数据存在空间上的差异。根据Wi-Fi样本数据两两间的Jaccard系数,结合其空间编码值,来准确判定两个Wi-Fi样本数据是否相似,其相似矩阵可以表示为:
Figure BDA0001781381140000046
其中Ri,j=result(Js(i,j),Cs(i,j))=result(Si,j,ci,j)。
利用Wi-Fi样本数据两两间的Jaccard系数来初步判断两个Wi-Fi样本数据是否相似,若相似,则采用两者的空间编码值进一步判定两个Wi-Fi样本数据是否相似,从而得到两个Wi-Fi样本数据是否相似的准确结果。
进一步地,步骤2中,所述Wi-Fi样本数据聚类是基于Wi-Fi样本数据的相似矩阵进行描述的,具体包括如下步骤:
步骤2.1、鉴于基于密度的聚类算法DBSCAN能够将足够高密度的区域划分称为簇,针对局域内的Wi-Fi样本数据,相似矩阵中的每一行Rs(i,:)揭示了样本数据Fi与局域内其他样本数据的相似程度,与Fi密度可达的样本数据形成一个分簇,其可以表示如下:
Figure BDA0001781381140000051
且需满足
Figure BDA0001781381140000052
其中
Figure BDA0001781381140000053
为Rs(i,j)=1的个数,εn为成簇的最少元素阈值;
Wi-Fi样本数据的分簇结果可以表示如下:
Figure BDA0001781381140000054
其中K为局域内的Wi-Fi样本数据分簇个数。
步骤2.2,基于步骤2.1中得到的分簇结果,计算每一分簇的簇头,形成Wi-Fi样本数据的一重簇头集合,由分簇结果计算每一分簇的簇头表示为:
Figure BDA0001781381140000055
Wi-Fi样本数据的一重簇头集合表示为:
Figure BDA0001781381140000056
再进一步地,所述步骤3的具体实施步骤如下:
步骤3.1、基于步骤2中得到的Wi-Fi样本数据的一重簇头集合,将其作为新的Wi-Fi样本数据,计算一重簇头两两间的Jaccard系数,其可以表示为:
Figure BDA0001781381140000057
一重簇头两两间的Jaccard系数,构成一重簇头的Jaccard系数相似矩阵,其可以表示为:
Jsg=[SGi,j]K×K
其中K为分簇的个数,Jsg为一个K×K维的矩阵。
步骤3.2、根据0-1二进制编码思想,将Wi-Fi样本数据的一重簇头作为新的输入,得到一重簇头两两间的0-1编码序列,进而得到Wi-Fi样本数据一重簇头两两间的空间编码值;Wi-Fi样本数据一重簇头两两间空间编码值构成其空间编码值矩阵,可以表示为:
Csg=[cgi,j]K×K
其中K为分簇的个数,
Q=sort{q1,…,qk,…,qp}
Figure BDA0001781381140000058
其中序列{q1,...,qk,...,qp}为Wi-Fi样本数据一重簇头
Figure BDA0001781381140000059
Figure BDA00017813811400000510
的编码序列,k=[1,p],b为编码基数,p为室内环境空间中的AP个数。
步骤3.3、根据Wi-Fi样本数据一重簇头的Jaccard系数相似矩阵以及其对应的空间编码值矩阵,一重簇头的相似矩阵可以表示为:
Rsg=[RGi,j]K×K
RGi,j=result(Jsg(i,j),
Figure BDA0001781381140000061
其中εg为一重簇头的Jaccard系数判断阈值,εcg为一重簇头的空间编码值判断阈值,
Figure BDA0001781381140000062
为cgi,j的反码。
步骤3.4、根据一重簇头的相似矩阵以及其Jaccard系数,对其进行分簇,簇中元素个数NFG满足以下条件者,形成一重簇头的一个分簇:
Figure BDA0001781381140000063
步骤3.5、基于步骤3.4中得到的一重簇头分簇结果,计算一重簇头每一分簇的簇头,形成一重簇头的二重簇头集合,由一重簇头分簇结果计算二重簇头表示为:
Figure BDA0001781381140000064
其中Kg为一重簇头分簇的个数;
Wi-Fi样本数据的二重簇头集合可以表示为:
Figure BDA0001781381140000065
再进一步地,所述步骤4的实施流程如下:
步骤4.1、基于步骤3中得到的Wi-Fi样本数据的二重簇头集合,将其选取为最优的Wi-Fi样本数据,即
Figure BDA0001781381140000066
步骤4.2,针对最优Wi-Fi样本数据集中的每一二重簇头,与其成簇的一重簇头可以表示为:
Figure BDA0001781381140000067
其中K为与二重簇头成簇的一重簇头的个数;
逐一计算集合
Figure BDA0001781381140000068
中的每一一重簇头
Figure BDA0001781381140000069
Figure BDA00017813811400000610
的Jaccard系数,即
Figure BDA0001781381140000071
若Sopt≤εopt,则
Figure BDA0001781381140000072
集合Data_opt中的数据即为最终筛选的最优Wi-Fi样本数据。
本发明的有益效果在于:
1、采用Jaccard系数结合空间编码值来判断两个Wi-Fi样本数据是否相似,解决了Jaccard系数相似判断模糊的问题;
2、Wi-Fi样本数据优化方式减少了样本数据中的冗余信息,减少了手机用户的数据上传量,节约了手机用户的资源开销;
3、筛选的Wi-Fi样本数据具有较强的稳健性,能够适应室内复杂多变的无线信号环境,提高基于Wi-Fi指纹的室内定位算法的性能。
附图说明
图1为手机用户Wi-Fi信号采集示意图;
图2为本发明实施流程示意图;
图3为Wi-Fi样本数据一重簇头提取示意图;
图4为Wi-Fi样本数据二重簇头提取示意图;
图5为最优Wi-Fi样本数据筛选示意图。
具体实施方式
下面结合附图对本发明内容作进一步说明,但不是对本发明的限定。
参照图1所示,手机用户Wi-Fi信号采集示意图,基于群智感知的思想,通过手机用户采集上传的Wi-Fi信号构成Wi-Fi样本数据。
参照图2所示,一种Wi-Fi样本数据优化方法实施流程示意图,所述方法包括如下步骤:
步骤1,计算Wi-Fi样本数据两两间的相似度和空间编码值,构建Wi-Fi样本数据的相似矩阵;
Wi-Fi样本数据是位置坐标已知或可以通过其他先验知识来确定位置坐标的Wi-Fi信号,每一位置点上的Wi-Fi样本数据包含一个或多个AP的信息,其表述形式如下:
Figure BDA0001781381140000073
其中,Fi表示为位置点i处获得的Wi-Fi样本数据,p是室内空间中AP的数量,
Figure BDA0001781381140000085
为位置点i处获得的第j个AP点的Wi-Fi信号的强度;
室内空间区域获得的Wi-Fi样本数据可以表示为:
Data_WiFi={(x1,y1,F1),(x2,y2,F2),……,(xi,yi,Fi),……,(xn,yn,Fn)}
其中,(xi,yi)为位置点i的二维坐标,n为位置点的个数。
根据Wi-Fi样本数据两两间的相似度进行0-1二进制编码,再将0-1二进制编码值转化成整数值,就得到了样本数据间的空间编码值。样本数据的空间编码值体现了样本数据在空间上的相似程度。结合Wi-Fi样本数据的相似度和空间编码值可以准确构建Wi-Fi样本数据的相似矩阵,从而为Wi-Fi样本数据的聚类提供判断依据。
步骤1的具体实现流程如下:
步骤1.1,Wi-Fi样本数据两两间的相似度采用Jaccard系数来进行描述,位置点i和位置点j上获得的Wi-Fi样本数据分别为Fi和Fj,则所述的Wi-Fi样本数据两两间的相似度可以表示为:
Figure BDA0001781381140000081
其中,Fi∩Fj为样本数据Fi与Fj中对应位置的rss值相似的个数Ns,Fi∪Fj为Fi和Fj总的数据维数减去Ns得到的不重复的rss值个数;
Si,j的值越大,则Fi与Fj的相似程度越高;
Fi∩Fj和Fi∪Fj的计算过程如下:
Figure BDA0001781381140000082
Figure BDA0001781381140000083
DF=p
其中,DF为Wi-Fi样本数据F的维数,ε为对应位置的两个rss值是否相似的判断阈值;
通过计算Wi-Fi样本数据两两间的Jaccard系数,由这些Jaccard系数构成这些Wi-Fi样本数据的Jaccard系数相似矩阵,其可以表示为:
Figure BDA0001781381140000084
步骤1.2,根据0-1二进制编码思想,引入Wi-Fi样本数据间的空间编码值来描述Wi-Fi样本数据在空间上的相似程度:
Wi-Fi样本数据Fi和Fj对应位置上的rss值分别进行比较,若两者满足条件
Figure BDA0001781381140000091
k∈[1,p],则说明该位置上的值
Figure BDA0001781381140000092
Figure BDA0001781381140000093
是相似的,给予编码为“1”,否则编码为“0”;
根据Wi-Fi样本数据Fi和Fj的编码结果,Wi-Fi样本数据Fi和Fj的空间编码值的计算为:
Q=sort{q1,…,qk,…,qp}
Figure BDA0001781381140000094
其中序列{q1,...,qk,...,qp}为Wi-Fi样本数据Fi和Fj的编码结果,即两个Wi-Fi样本数据的编码序列,k=[1,p];b为编码基数,针对0-1二进制编码,则b=2;
Wi-Fi样本数据两两间空间编码值构成其空间编码值矩阵,可以表示为:
Figure BDA0001781381140000095
步骤1.3,根据Jaccard系数的计算原理,其值大小仅表明了两个数据间数值的相似程度,且由于Wi-Fi样本数据属于多维度的数据,Wi-Fi样本数据存在空间上的差异;
根据Wi-Fi样本数据两两间的Jaccard系数,结合其空间编码值,来准确判定两个Wi-Fi样本数据是否相似,其相似矩阵可以表示为:
Figure BDA0001781381140000096
其中Ri,j=result(Js(i,j),Cs(i,j))=result(Si,j,ci,j)。
利用Wi-Fi样本数据两两间的Jaccard系数来初步判断两个Wi-Fi样本数据是否相似,若相似,则采用两者的空间编码值进一步判定两个Wi-Fi样本数据是否相似,从而得到两个Wi-Fi样本数据是否相似的准确结果。
步骤2,根据Wi-Fi样本数据的相似矩阵对样本数据进行聚类分簇,并确定每一分簇的簇头,构建Wi-Fi样本数据的一重簇头集合。
步骤2.1,鉴于基于密度的聚类算法DBSCAN能够将足够高密度的区域划分称为簇,针对局域内的Wi-Fi样本数据,相似矩阵中的每一行Rs(i,:)揭示了样本数据Fi与局域内其他样本数据的相似程度,与Fi密度可达的样本数据形成一个分簇,其可以表示如下:
Figure BDA0001781381140000101
且需满足
Figure BDA0001781381140000102
其中
Figure BDA0001781381140000103
为Rs(i,j)=1的个数,εn为成簇的最少元素阈值;
Wi-Fi样本数据的分簇结果可以表示如下:
Figure BDA0001781381140000104
其中K为局域内的Wi-Fi样本数据分簇个数。
步骤2.2,根据得到的分簇结果,计算每一分簇的簇头,形成Wi-Fi样本数据的一重簇头集合,图3给出了Wi-Fi样本数据一重簇头提取的示意图;由分簇结果计算簇头的过程描述如下:
Figure BDA0001781381140000105
Wi-Fi样本数据的一重簇头集合可以表示为:
Figure BDA0001781381140000106
步骤3,根据Wi-Fi样本数据的一重簇头结果,将一重簇头集合中的数据视为新的Wi-Fi样本数据,计算一重簇头两两间的相似度和空间编码值,构建一重簇头集合相对应的相似矩阵,根据获得的相似矩阵对一重簇头集合中的数据进行聚,类分簇,并确定每一分簇的簇头,从而构建一重簇头的新簇头,即二重簇头集合。
步骤3.1,根据得到的Wi-Fi样本数据的一重簇头集合,将其作为新的Wi-Fi样本数据,计算一重簇头两两间的Jaccard系数,其可以表示为:
Figure BDA0001781381140000107
一重簇头两两间的Jaccard系数,构成一重簇头的Jaccard系数相似矩阵,其可以表示为:
Jsg=[SGi,j]K×K
其中K为分簇的个数,Jsg为一个K×K维的矩阵。
步骤3.2,根据0-1二进制编码思想,将Wi-Fi样本数据的一重簇头作为新的输入,得到一重簇头两两间的0-1编码序列,进而得到Wi-Fi样本数据一重簇头两两间的空间编码值;Wi-Fi样本数据一重簇头两两间空间编码值构成其空间编码值矩阵,表示为:
Csg=[cgi,j]K×K
其中K为分簇的个数,
Q=sort{q1,…,qk,…,qp}
Figure BDA0001781381140000111
其中序列{q1,...,qk,...,qp}为Wi-Fi样本数据一重簇头
Figure BDA0001781381140000112
Figure BDA0001781381140000113
的编码序列,k=[1,p],b为编码基数,p为室内环境空间中的AP个数。
步骤3.3,根据Wi-Fi样本数据一重簇头的Jaccard系数相似矩阵以及其对应的空间编码值矩阵,一重簇头的相似矩阵可以表示为:
Rsg=[RGi,j]K×K
RGi,j=result(Jsg(i,j),
Figure BDA0001781381140000114
其中εg为一重簇头的Jaccard系数判断阈值,εcg为一重簇头的空间编码值判断阈值,
Figure BDA0001781381140000115
为cgi,j的反码。
步骤3.4,根据一重簇头的相似矩阵以及其Jaccard系数,对其进行分簇,簇中元素个数NFG满足以下条件者,形成一重簇头的一个分簇:
Figure BDA0001781381140000116
步骤3.5,依据得到的一重簇头分簇结果,计算一重簇头每一分簇的簇头,形成一重簇头的二重簇头集合,如图4所示;由一重簇头分簇结果计算二重簇头表示为:
Figure BDA0001781381140000117
其中Kg为一重簇头分簇的个数;
Wi-Fi样本数据的二重簇头集合可以表示为:
Figure BDA0001781381140000118
步骤4,采用自顶向下的方法,利用一重簇头和二重簇头的结果,根据局部最优原则,筛选得到最优的Wi-Fi样本数据:
步骤4.1,依据得到的Wi-Fi样本数据的二重簇头集合,将其选取为最优的Wi-Fi样本数据,即
Figure BDA0001781381140000119
步骤4.2,针对最优Wi-Fi样本数据集中的每一二重簇头,与其成簇的一重簇头表示为:
Figure BDA0001781381140000121
其中K为与二重簇头成簇的一重簇头的个数;
在保持Wi-Fi样本数据的多样性,使其能够适应复杂多变的室内定位环境,在将Wi-Fi样本数据的二重簇头筛选为最优Wi-Fi样本数据的同时,需要保留一定数量的与Wi-Fi样本数据的二重簇头有较大差异的一重簇头,如图5所示;
逐一计算集合
Figure BDA0001781381140000122
中的每一一重簇头
Figure BDA0001781381140000123
Figure BDA0001781381140000124
的Jaccard系数,即
Figure BDA0001781381140000125
若Sopt≤εopt,则
Figure BDA0001781381140000126
集合Data_opt中的数据即为最终筛选的最优Wi-Fi样本数据。
对于本领域的技术人员来说,可以根据以上技术方案和构思,给出各种相应的改变和变形,包括改变样本数据的聚类方法,而所有的这些变化和变形都应包括在本发明权利要求的保护范围之内。

Claims (4)

1.一种Wi-Fi样本数据优化方法,其特征是,包括步骤如下:
步骤1、计算Wi-Fi样本数据两两间的相似度和空间编码值,构建Wi-Fi样本数据的相似矩阵;步骤1所述Wi-Fi样本数据是位置坐标已知或通过其他先验知识来确定位置坐标的Wi-Fi信号,每一位置点上的Wi-Fi样本数据包含一个或多个AP的信息,其表述形式如下:
Figure FDA0002472434510000011
其中,Fi表示为位置点i处获得的Wi-Fi样本数据,p是室内空间中AP的数量,
Figure FDA0002472434510000012
为位置点i处获得的第j个AP点的Wi-Fi信号的强度;
室内空间区域获得的Wi-Fi样本数据表示为:
Data_WiFi={(x1,y1,F1),(x2,y2,F2),……,(xi,yi,Fi),……,(xn,yn,Fn)}
其中,(xi,yi)为位置点i的二维坐标,n为位置点的个数;
步骤1的子步骤如下:
步骤1.1、Wi-Fi样本数据两两间的相似度采用Jaccard系数来进行描述,位置点i和位置点j上获得的Wi-Fi样本数据分别为Fi和Fj,则所述的Wi-Fi样本数据两两间的相似度表示为:
Figure FDA0002472434510000013
其中,Fi∩Fj为样本数据Fi与Fj中对应位置的rss值相似的个数Ns,Fi∪Fj为Fi和Fj总的数据维数减去Ns得到的不重复的rss值个数;
Si,j的值越大,则Fi与Fj的相似程度越高;
Fi∩Fj和Fi∪Fj的计算过程如下:
Figure FDA0002472434510000014
Figure FDA0002472434510000015
DF=p
其中,DF为Wi-Fi样本数据F的维数,ε为对应位置的两个rss值是否相似的判断阈值;
通过计算Wi-Fi样本数据两两间的Jaccard系数,由这些Jaccard系数构成这些Wi-Fi样本数据的Jaccard系数相似矩阵,其表示为:
Figure FDA0002472434510000021
步骤1.2、根据0-1二进制编码思想,引入Wi-Fi样本数据间的空间编码值来描述Wi-Fi样本数据在空间上的相似程度:
Wi-Fi样本数据Fi和Fj对应位置上的rss值分别进行比较,若两者满足条件
Figure FDA0002472434510000022
k∈[1,p],则说明该位置上的值
Figure FDA0002472434510000023
Figure FDA0002472434510000024
是相似的,给予编码为“1”,否则编码为“0”;
根据Wi-Fi样本数据Fi和Fj的编码结果,Wi-Fi样本数据Fi和Fj的空间编码值的计算为:
Q=sort{q1,…,qk,…,qp}
Figure FDA0002472434510000025
其中序列{q1,...,qk,...,qp}为Wi-Fi样本数据Fi和Fj的编码结果,即两个Wi-Fi样本数据的编码序列,其中k=[1,p];b为编码基数,针对0-1二进制编码,则b=2;
Wi-Fi样本数据两两间空间编码值构成其空间编码值矩阵,表示为:
Figure FDA0002472434510000026
步骤1.3、根据Wi-Fi样本数据两两间的Jaccard系数,结合其空间编码值,来准确判定两个Wi-Fi样本数据是否相似,其相似矩阵表示为:
Figure FDA0002472434510000027
其中Ri,j=result(Js(i,j),Cs(i,j))=result(Si,j,ci,j);
步骤2、根据Wi-Fi样本数据的相似矩阵对样本数据进行聚类分簇,并确定每一分簇的簇头,构建Wi-Fi样本数据的一重簇头集合;
步骤3、根据Wi-Fi样本数据的一重簇头结果,将一重簇头集合中的数据视为新的Wi-Fi样本数据,计算一重簇头两两间的相似度和空间编码值,构建一重簇头集合相对应的相似矩阵,根据获得的相似矩阵对一重簇头集合中的数据进行聚类分簇,并确定每一分簇的簇头,从而构建一重簇头的新簇头,即二重簇头集合;
步骤4、采用自顶向下的方法,利用一重簇头和二重簇头的结果,根据局部最优原则,筛选得到最优的Wi-Fi样本数据。
2.根据权利要求1所述的一种Wi-Fi样本数据优化方法,其特征是,步骤2的子步骤如下:
步骤2.1、鉴于基于密度的聚类算法DBSCAN能够将足够高密度的区域划分称为簇,针对局域内的Wi-Fi样本数据,相似矩阵中的每一行Rs(i,:)揭示了样本数据Fi与局域内其他样本数据的相似程度,与Fi密度可达的样本数据形成一个分簇,其表示如下:
Figure FDA0002472434510000031
且需满足
Figure FDA0002472434510000032
其中
Figure FDA0002472434510000033
为Rs(i,j)=1的个数,εn为成簇的最少元素阈值;
Wi-Fi样本数据的分簇结果表示如下:
Figure FDA0002472434510000034
其中K为局域内的Wi-Fi样本数据分簇个数;
步骤2.2、基于步骤2.1中得到的分簇结果,计算每一分簇的簇头,形成Wi-Fi样本数据的一重簇头集合,由分簇结果计算每一分簇的簇头表示为:
Figure FDA0002472434510000035
Wi-Fi样本数据的一重簇头集合表示为:
Figure FDA0002472434510000036
3.根据权利要求1所述的一种Wi-Fi样本数据优化方法,其特征是,步骤3的子步骤如下:
步骤3.1、基于步骤2中得到的Wi-Fi样本数据的一重簇头集合,将其作为新的Wi-Fi样本数据,计算一重簇头两两间的Jaccard系数,其表示为:
Figure FDA0002472434510000037
一重簇头两两间的Jaccard系数,构成一重簇头的Jaccard系数相似矩阵,其表示为:
Jsg=[SGi,j]K×K
其中K为分簇的个数,Jsg为一个K×K维的矩阵;
步骤3.2、构建Wi-Fi样本数据一重簇头两两间的空间编码值;
Wi-Fi样本数据一重簇头两两间空间编码值构成其空间编码值矩阵,表示为:
Csg=[cgi,j]K×K
其中K为分簇的个数,
Q=sort{q1,…,qk,…,qp}
Figure FDA0002472434510000041
其中序列{q1,...,qk,...,qp}为Wi-Fi样本数据一重簇头
Figure FDA0002472434510000042
Figure FDA0002472434510000043
的编码序列,其中k=[1,p],b为编码基数,p为室内环境空间中的AP个数;
步骤3.3、构建一重簇头Jaccard系数结合对应的空间编码值矩阵的相似矩阵:
Rsg=[RGi,j]K×K
RGi,j=result(Jsg(i,j),
Figure FDA0002472434510000044
其中εg为一重簇头的Jaccard系数判断阈值,εcg为一重簇头的空间编码值判断阈值,
Figure FDA0002472434510000045
为cgi,j的反码;
步骤3.4、对一重簇头进行分簇,簇中元素个数NFG满足以下条件者,形成一重簇头的一个分簇:
Figure FDA0002472434510000046
步骤3.5、基于步骤3.4中得到的一重簇头分簇结果,计算一重簇头每一分簇的簇头,构建一重簇头的二重簇头集合,由一重簇头分簇结果计算二重簇头表示为:
Figure FDA0002472434510000047
其中Kg为一重簇头分簇的个数;
Wi-Fi样本数据的二重簇头集合表示为:
Figure FDA0002472434510000048
4.根据权利要求1所述的一种Wi-Fi样本数据优化方法,其特征是,步骤4的子步骤如下:
步骤4.1、基于步骤3中得到的Wi-Fi样本数据的二重簇头集合,将其选取为最优的Wi-Fi样本数据,即
Figure FDA0002472434510000051
步骤4.2,针对最优Wi-Fi样本数据集中的每一二重簇头,与其成簇的一重簇头表示为:
Figure FDA0002472434510000052
其中K为与二重簇头成簇的一重簇头的个数;
逐一计算集合
Figure FDA0002472434510000053
中的每一一重簇头
Figure FDA0002472434510000054
Figure FDA0002472434510000055
的Jaccard系数,即
Figure FDA0002472434510000056
若Sopt≤εopt,则
Figure FDA0002472434510000057
集合Data_opt中的数据即为最终筛选的最优Wi-Fi样本数据。
CN201810993696.0A 2018-08-29 2018-08-29 一种Wi-Fi样本数据优化方法 Active CN109286900B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810993696.0A CN109286900B (zh) 2018-08-29 2018-08-29 一种Wi-Fi样本数据优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810993696.0A CN109286900B (zh) 2018-08-29 2018-08-29 一种Wi-Fi样本数据优化方法

Publications (2)

Publication Number Publication Date
CN109286900A CN109286900A (zh) 2019-01-29
CN109286900B true CN109286900B (zh) 2020-07-17

Family

ID=65184099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810993696.0A Active CN109286900B (zh) 2018-08-29 2018-08-29 一种Wi-Fi样本数据优化方法

Country Status (1)

Country Link
CN (1) CN109286900B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7446642B2 (ja) * 2020-06-01 2024-03-11 マプサス テクノロジー ホールディング リミテッド 信号マップの構築方法、装置、機器及び読み取り可能な記憶媒体

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102209384A (zh) * 2011-05-19 2011-10-05 北京邮电大学 一种快速定位方法和装置
CN103476115A (zh) * 2013-09-22 2013-12-25 中国地质大学(武汉) 一种基于AP集相似度的Wi-Fi指纹定位方法
CN104185275A (zh) * 2014-09-10 2014-12-03 北京航空航天大学 一种基于wlan的室内定位方法
WO2016023291A1 (zh) * 2014-08-15 2016-02-18 中兴通讯股份有限公司 一种移动终端定位的方法、装置及存储介质
CN107367277A (zh) * 2017-06-05 2017-11-21 南京邮电大学 基于二次K‑Means聚类的室内位置指纹定位方法
CN107995682A (zh) * 2017-11-06 2018-05-04 北京三快在线科技有限公司 无线接入点定位方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102209384A (zh) * 2011-05-19 2011-10-05 北京邮电大学 一种快速定位方法和装置
CN103476115A (zh) * 2013-09-22 2013-12-25 中国地质大学(武汉) 一种基于AP集相似度的Wi-Fi指纹定位方法
WO2016023291A1 (zh) * 2014-08-15 2016-02-18 中兴通讯股份有限公司 一种移动终端定位的方法、装置及存储介质
CN104185275A (zh) * 2014-09-10 2014-12-03 北京航空航天大学 一种基于wlan的室内定位方法
CN107367277A (zh) * 2017-06-05 2017-11-21 南京邮电大学 基于二次K‑Means聚类的室内位置指纹定位方法
CN107995682A (zh) * 2017-11-06 2018-05-04 北京三快在线科技有限公司 无线接入点定位方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于位置指纹识别的WiFi室内定位算法研究与实现;陈思敏;《中国优秀硕士学位论文全文数据库》;20170215;全文 *

Also Published As

Publication number Publication date
CN109286900A (zh) 2019-01-29

Similar Documents

Publication Publication Date Title
Soh et al. Adaptive deep learning-based air quality prediction model using the most relevant spatial-temporal relations
CN109743683B (zh) 一种采用深度学习融合网络模型确定手机用户位置的方法
CN108415975B (zh) 基于bdch-dbscan的出租车载客热点识别方法
CN105825242B (zh) 基于混合网格分层聚类的集群通信终端轨迹实时异常检测方法与系统
CN106897681B (zh) 一种遥感图像对比分析方法及系统
CN107622085A (zh) 一种基于网格和密度的自适应轨迹聚类方法
Xing et al. Mapping human activity volumes through remote sensing imagery
CN110472999B (zh) 基于地铁和共享单车数据的客流模式分析方法及装置
US10685443B2 (en) Cloud detection using images
US20230215272A1 (en) Information processing method and apparatus, computer device and storage medium
CN105243148A (zh) 一种基于签到数据的时空轨迹相似性度量方法及系统
CN106951828B (zh) 一种基于卫星影像和网络的城市区域功能属性的识别方法
CN110059770B (zh) 基于位置预测的自适应任务分发方法、装置及相关组件
CN114077901B (zh) 一种基于聚类的图联邦学习的用户位置预测方法
CN107944628A (zh) 一种路网环境下的聚集模式发现方法及系统
CN110062410B (zh) 一种基于自适应谐振理论的小区中断检测定位方法
Zhang et al. Hunting image: Taxi search strategy recognition using sparse subspace clustering
CN114205831B (zh) 一种优化方案的确定方法、装置、存储介质及设备
CN109286900B (zh) 一种Wi-Fi样本数据优化方法
CN112287247A (zh) 基于Meanshift和K-means聚类的社交网络用户位置特征提取方法和装置
CN116528282B (zh) 覆盖场景识别方法、装置、电子设备和可读存储介质
CN114185651A (zh) 一种融合多模态信息的移动群智感知任务推荐方法
CN109238271B (zh) 一种基于时间的线路拟合方法
CN116433959A (zh) 基于可见光与红外卫星图像融合的地物分类方法
Zhang et al. Prnet: Outdoor position recovery for heterogenous telco data by deep neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant