CN109286900A - 一种Wi-Fi样本数据优化方法 - Google Patents

一种Wi-Fi样本数据优化方法 Download PDF

Info

Publication number
CN109286900A
CN109286900A CN201810993696.0A CN201810993696A CN109286900A CN 109286900 A CN109286900 A CN 109286900A CN 201810993696 A CN201810993696 A CN 201810993696A CN 109286900 A CN109286900 A CN 109286900A
Authority
CN
China
Prior art keywords
sample data
cluster head
sub
clustering
follows
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810993696.0A
Other languages
English (en)
Other versions
CN109286900B (zh
Inventor
罗丽燕
王玫
仇洪冰
宋浠瑜
邓小芳
周陬
覃泓铭
韦金泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201810993696.0A priority Critical patent/CN109286900B/zh
Publication of CN109286900A publication Critical patent/CN109286900A/zh
Application granted granted Critical
Publication of CN109286900B publication Critical patent/CN109286900B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/33Services specially adapted for particular environments, situations or purposes for indoor environments, e.g. buildings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W64/00Locating users or terminals or network equipment for network management purposes, e.g. mobility management
    • H04W64/006Locating users or terminals or network equipment for network management purposes, e.g. mobility management with additional information processing, e.g. for direction or speed determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种Wi‑Fi样本数据优化方法,所述方法采用Jaccard系数相似性和空间编码值信息来衡量Wi‑Fi样本数据两两间的相似程度,构建Wi‑Fi样本数据的相似矩阵;根据DBSCAN算法聚类原理对Wi‑Fi样本数据进行分簇,并提取Wi‑Fi样本数据的一重簇头和二重簇头;根据局部最优的原理,利用自顶向下的数据筛选方法,结合Wi‑Fi样本数据的二重簇头结果,从而得到最优的Wi‑Fi样本数据。本发明中的Wi‑Fi样本数据优化方法,利用邻近位置的Wi‑Fi数据具有一定的相似性来去除样本数据中的冗余,同时,Wi‑Fi样本数据间的空间编码信息,能够消除Jaccard系数相似性度量中的模糊问题,使得构建的Wi‑Fi指纹地图具有更强的鲁棒性,从而提高基于Wi‑Fi指纹的室内定位算法的性能。

Description

一种Wi-Fi样本数据优化方法
技术领域
本发明涉及数据处理方法,具体是一种Wi-Fi样本数据优化方法。
背景技术
人类80%以上的时间在室内环境中活动。位置服务、社交网络、健康救助、智慧城市、应急救援、物联网、精确打击等无不需要具备室内定位功能。室内定位已成为实现位置服务推广应用最迫切需要解决的难题。2016年启动的国家重点研发计划“室内混合智能定位与室内GIS技术”,立足室内无缝一米定位、为大型城市位置服务提供技术支撑。
室内定位作为基于位置服务的关键技术之一,基于Wi-Fi指纹地图的室内定位技术能够利用现有的基础设施来获得室内定位的指纹地图信息而无需部署额外设备。然而耗时耗人工的现场勘测使得基于Wi-Fi指纹地图的室内定位技术受到限制。而群智感知室内Wi-Fi样本数据,通过用户参与式感知的方式来获得室内定位的Wi-Fi指纹地图,可以避免现场勘测的成本开销。然而,用户参与式感知的Wi-Fi样本数据由于设备的多样性使得获得的样本数据存在大量冗余的问题。为了降低Wi-Fi样本数据的冗余信息,减少用户上传样本数据的流量开销,需要针对用户获得的大量样本数据进行数据择优。
现有的Wi-Fi样本数据择优方法是基于物理位置邻近的样本数据存在很大程度的相似,为了降低样本数据的相似性造成位置估计有误,采用相似性度量的方法来去除样本数据中的相似样本。但这种方法只考虑了样本数据间的相似程度,而没有考虑样本数据在空间位置上的不同。基于此,本发明提出了一种Wi-Fi样本数据优化方法。
发明内容
针对现有技术的不足,本发明旨在提出一种新的Wi-Fi样本数据优化方法。该方法利用数据间的相似度和空间编码信息来优化Wi-Fi样本数据。根据Wi-Fi信号的传播特点,物理位置相邻的Wi-Fi样本数据存在大量的相似信息,利用样本数据两两间的相似度可初步判定相邻位置的Wi-Fi样本数据的相似程度,结合Wi-Fi样本数据间的空间编码信息,能够初步降低Wi-Fi样本数据中的冗余样本。同时,采用自顶向下局部选优的方法,能够进一步确定局域内的最优Wi-Fi样本数据。与现有的Wi-Fi样本数据择优方法相比,基于相似度和空间编码信息的Wi-Fi样本数据优选方法,具备更强的鲁棒性,构建的Wi-Fi指纹地图具有更好的稳健性,能够改善基于Wi-Fi指纹的室内定位算法的性能。
为了实现上述目的,本发明采用如下技术方案:
一种Wi-Fi样本数据优化方法,包括如下步骤:
步骤1、计算Wi-Fi样本数据两两间的相似度和空间编码值,构建Wi-Fi样本数据的相似矩阵;
任一位置点上的Wi-Fi样本数据包含了室内空间上多个AP的信号,Wi-Fi样本数据两两间的相似度只是表明了两个Wi-Fi样本数据的相似程度,无法描述样本数据中对应于哪些AP信号相似。仅仅根据样本数据的相似度来判断两个样本数据是否相似,容易造成判断模糊。
根据Wi-Fi样本数据两两间的相似度进行0-1二进制编码,再将0-1二进制编码值转化成整数值,就得到了样本数据间的空间编码值。样本数据的空间编码值体现了样本数据在空间上的相似程度。结合Wi-Fi样本数据的相似度和空间编码值可以准确构建Wi-Fi样本数据的相似矩阵,从而为Wi-Fi样本数据的聚类提供判断依据。
步骤2、根据Wi-Fi样本数据的相似矩阵对样本数据进行聚类分簇,并确定每一分簇的簇头,构建Wi-Fi样本数据的一重簇头集合;
室内的几何构形以及复杂多变的环境,使得室内的Wi-Fi信号并不遵循其传播规律,邻近位置的Wi-Fi信号相似程度比较高,不利于基于Wi-Fi指纹地图的室内定位算法性能的提高。此外,通过手机用户参与式感知获得的Wi-Fi样本数据存在大量的冗余,为了降低手机用户上传Wi-Fi样本数据的流量开销,有必要对Wi-Fi样本数据中的冗余样本进行处理。在满足定位性能指标要求的前提下,降低样本数据的冗余,可以减少用户资源的开销,同时能够使得选取的样本数据适应环境的变动。
步骤3、根据Wi-Fi样本数据的一重簇头结果,将一重簇头集合中的数据视为新的Wi-Fi样本数据,计算一重簇头两两间的相似度和空间编码值,构建一重簇头集合相对应的相似矩阵,根据获得的相似矩阵对一重簇头集合中的数据进行聚类分簇,并确定每一分簇的簇头,从而构建一重簇头的新簇头,即二重簇头集合。
步骤4、采用自顶向下的方法,利用一重簇头和二重簇头的结果,根据局部最优原则,筛选得到最优的Wi-Fi样本数据。
需要说明的是,步骤1中,所述Wi-Fi样本数据是位置坐标已知或可以通过其他先验知识来确定位置坐标的Wi-Fi信号,每一位置点上的Wi-Fi样本数据包含一个或多个AP的信息,其表述形式如下:
其中,Fi表示为位置点i处获得的Wi-Fi样本数据,p是室内空间中AP的数量,为位置点i处获得的第j个AP点的Wi-Fi信号的强度;
室内空间区域获得的Wi-Fi样本数据可以表示为:
Data_WiFi={(x1,y1,F1),(x2,y2,F2),……,(xi,yi,Fi),……,(xn,yn,Fn)}
其中,(xi,yi)为位置点i的二维坐标,n为位置点的个数。
需要说明的是,所述步骤1的具体实现流程如下:
步骤1.1、Wi-Fi样本数据两两间的相似度采用Jaccard系数来进行描述,位置点i和位置点j上获得的Wi-Fi样本数据分别为Fi和Fj,则所述的Wi-Fi样本数据两两间的相似度可以表示为:
其中,Fi∩Fj为样本数据Fi与Fj中对应位置的rss值相似的个数Ns,Fi∪Fj为Fi和Fj总的数据维数减去Ns得到的不重复的rss值个数;
Si,j的值越大,则Fi与Fj的相似程度越高;
Fi∩Fj和Fi∪Fj的计算过程如下:
DF=p
其中,DF为Wi-Fi样本数据F的维数,ε为对应位置的两个rss值是否相似的判断阈值。
由于室内空间环境复杂度高,使得近场区域内的Wi-Fi样本数据重复度较高,而与远场区域内的Wi-Fi样本数据差异大,所以通常对Wi-Fi样本数据进行分块处理,在降低算法计算复杂度的前提下,提高Wi-Fi样本数据处理的效率。
通过计算Wi-Fi样本数据两两间的Jaccard系数,由这些Jaccard系数构成这些Wi-Fi样本数据的Jaccard系数相似矩阵,其可以表示为:
步骤1.2、根据0-1二进制编码思想,引入Wi-Fi样本数据间的空间编码值来描述Wi-Fi样本数据在空间上的相似程度:
Wi-Fi样本数据Fi和Fj对应位置上的rss值分别进行比较,若两者满足条件k∈[1,p],则说明该位置上的值是相似的,给予编码为“1”,否则编码为“0”;
根据Wi-Fi样本数据Fi和Fj的编码结果,Wi-Fi样本数据Fi和Fj的空间编码值的计算为:
Q=sort{q1,…,qk…,qp}
其中序列{q1,...,qk,...,qp}为Wi-Fi样本数据Fi和Fj的编码结果,即两个Wi-Fi样本数据的编码序列,其中k=[1,p];b为编码基数,针对0-1二进制编码,则b=2;
Wi-Fi样本数据两两间空间编码值构成其空间编码值矩阵,可以表示为:
步骤1.3、根据Jaccard系数的计算原理,其值大小仅表明了两个数据间数值的相似程度。且由于Wi-Fi样本数据属于多维度的数据,Wi-Fi样本数据存在空间上的差异。根据Wi-Fi样本数据两两间的Jaccard系数,结合其空间编码值,来准确判定两个Wi-Fi样本数据是否相似,其相似矩阵可以表示为:
其中Ri,j=result(Js(i,j),Cs(i,j))=result(Si,j,ci,j)。
利用Wi-Fi样本数据两两间的Jaccard系数来初步判断两个Wi-Fi样本数据是否相似,若相似,则采用两者的空间编码值进一步判定两个Wi-Fi样本数据是否相似,从而得到两个Wi-Fi样本数据是否相似的准确结果。
进一步地,步骤2中,所述Wi-Fi样本数据聚类是基于Wi-Fi样本数据的相似矩阵进行描述的,具体包括如下步骤:
步骤2.1、鉴于基于密度的聚类算法DBSCAN能够将足够高密度的区域划分称为簇,针对局域内的Wi-Fi样本数据,相似矩阵中的每一行Rs(i,:)揭示了样本数据Fi与局域内其他样本数据的相似程度,与Fi密度可达的样本数据形成一个分簇,其可以表示如下:
且需满足
其中为Rs(i,j)=1的个数,εn为成簇的最少元素阈值;
Wi-Fi样本数据的分簇结果可以表示如下:
其中K为局域内的Wi-Fi样本数据分簇个数。
步骤2.2,基于步骤2.1中得到的分簇结果,计算每一分簇的簇头,形成Wi-Fi样本数据的一重簇头集合,由分簇结果计算每一分簇的簇头表示为:
Wi-Fi样本数据的一重簇头集合表示为:
再进一步地,所述步骤3的具体实施步骤如下:
步骤3.1、基于步骤2中得到的Wi-Fi样本数据的一重簇头集合,将其作为新的Wi-Fi样本数据,计算一重簇头两两间的Jaccard系数,其可以表示为:
一重簇头两两间的Jaccard系数,构成一重簇头的Jaccard系数相似矩阵,其可以表示为:
Jsg=[SGi,j]K×K
其中K为分簇的个数,Jsg为一个K×K维的矩阵。
步骤3.2、根据0-1二进制编码思想,将Wi-Fi样本数据的一重簇头作为新的输入,得到一重簇头两两间的0-1编码序列,进而得到Wi-Fi样本数据一重簇头两两间的空间编码值;Wi-Fi样本数据一重簇头两两间空间编码值构成其空间编码值矩阵,可以表示为:
Csg=[cgi,j]K×K
其中K为分簇的个数,
Q=sort{q1,…,qk,…,qp}
其中序列{q1,...,qk,...,qp}为Wi-Fi样本数据一重簇头的编码序列,k=[1,p],b为编码基数,p为室内环境空间中的AP个数。
步骤3.3、根据Wi-Fi样本数据一重簇头的Jaccard系数相似矩阵以及其对应的空间编码值矩阵,一重簇头的相似矩阵可以表示为:
Rsg=[RGi,j]K×K
RGi,j=result(Jsg(i,j),
其中εg为一重簇头的Jaccard系数判断阈值,εcg为一重簇头的空间编码值判断阈值,为cgi,j的反码。
步骤3.4、根据一重簇头的相似矩阵以及其Jaccard系数,对其进行分簇,簇中元素个数NFG满足以下条件者,形成一重簇头的一个分簇:
步骤3.5、基于步骤3.4中得到的一重簇头分簇结果,计算一重簇头每一分簇的簇头,形成一重簇头的二重簇头集合,由一重簇头分簇结果计算二重簇头表示为:
其中Kg为一重簇头分簇的个数;
Wi-Fi样本数据的二重簇头集合可以表示为:
再进一步地,所述步骤4的实施流程如下:
步骤4.1、基于步骤3中得到的Wi-Fi样本数据的二重簇头集合,将其选取为最优的Wi-Fi样本数据,即
步骤4.2,针对最优Wi-Fi样本数据集中的每一二重簇头,与其成簇的一重簇头可以表示为:
其中K为与二重簇头成簇的一重簇头的个数;
逐一计算集合中的每一一重簇头的Jaccard系数,即
若Sopt≤εopt,则
集合Data_opt中的数据即为最终筛选的最优Wi-Fi样本数据。
本发明的有益效果在于:
1、采用Jaccard系数结合空间编码值来判断两个Wi-Fi样本数据是否相似,解决了Jaccard系数相似判断模糊的问题;
2、Wi-Fi样本数据优化方式减少了样本数据中的冗余信息,减少了手机用户的数据上传量,节约了手机用户的资源开销;
3、筛选的Wi-Fi样本数据具有较强的稳健性,能够适应室内复杂多变的无线信号环境,提高基于Wi-Fi指纹的室内定位算法的性能。
附图说明
图1为手机用户Wi-Fi信号采集示意图;
图2为本发明实施流程示意图;
图3为Wi-Fi样本数据一重簇头提取示意图;
图4为Wi-Fi样本数据二重簇头提取示意图;
图5为最优Wi-Fi样本数据筛选示意图。
具体实施方式
下面结合附图对本发明内容作进一步说明,但不是对本发明的限定。
参照图1所示,手机用户Wi-Fi信号采集示意图,基于群智感知的思想,通过手机用户采集上传的Wi-Fi信号构成Wi-Fi样本数据。
参照图2所示,一种Wi-Fi样本数据优化方法实施流程示意图,所述方法包括如下步骤:
步骤1,计算Wi-Fi样本数据两两间的相似度和空间编码值,构建Wi-Fi样本数据的相似矩阵;
Wi-Fi样本数据是位置坐标已知或可以通过其他先验知识来确定位置坐标的Wi-Fi信号,每一位置点上的Wi-Fi样本数据包含一个或多个AP的信息,其表述形式如下:
其中,Fi表示为位置点i处获得的Wi-Fi样本数据,p是室内空间中AP的数量,为位置点i处获得的第j个AP点的Wi-Fi信号的强度;
室内空间区域获得的Wi-Fi样本数据可以表示为:
Data_WiFi={(x1,y1,F1),(x2,y2,F2),……,(xi,yi,Fi),……,(xn,yn,Fn)}
其中,(xi,yi)为位置点i的二维坐标,n为位置点的个数。
根据Wi-Fi样本数据两两间的相似度进行0-1二进制编码,再将0-1二进制编码值转化成整数值,就得到了样本数据间的空间编码值。样本数据的空间编码值体现了样本数据在空间上的相似程度。结合Wi-Fi样本数据的相似度和空间编码值可以准确构建Wi-Fi样本数据的相似矩阵,从而为Wi-Fi样本数据的聚类提供判断依据。
步骤1的具体实现流程如下:
步骤1.1,Wi-Fi样本数据两两间的相似度采用Jaccard系数来进行描述,位置点i和位置点j上获得的Wi-Fi样本数据分别为Fi和Fj,则所述的Wi-Fi样本数据两两间的相似度可以表示为:
其中,Fi∩Fj为样本数据Fi与Fj中对应位置的rss值相似的个数Ns,Fi∪Fj为Fi和Fj总的数据维数减去Ns得到的不重复的rss值个数;
Si,j的值越大,则Fi与Fj的相似程度越高;
Fi∩Fj和Fi∪Fj的计算过程如下:
DF=p
其中,DF为Wi-Fi样本数据F的维数,ε为对应位置的两个rss值是否相似的判断阈值;
通过计算Wi-Fi样本数据两两间的Jaccard系数,由这些Jaccard系数构成这些Wi-Fi样本数据的Jaccard系数相似矩阵,其可以表示为:
步骤1.2,根据0-1二进制编码思想,引入Wi-Fi样本数据间的空间编码值来描述Wi-Fi样本数据在空间上的相似程度:
Wi-Fi样本数据Fi和Fj对应位置上的rss值分别进行比较,若两者满足条件k∈[1,p],则说明该位置上的值是相似的,给予编码为“1”,否则编码为“0”;
根据Wi-Fi样本数据Fi和Fj的编码结果,Wi-Fi样本数据Fi和Fj的空间编码值的计算为:
Q=sort{q1,…,qk,…,qp}
其中序列{q1,...,qk,...,qp}为Wi-Fi样本数据Fi和Fj的编码结果,即两个Wi-Fi样本数据的编码序列,k=[1,p];b为编码基数,针对0-1二进制编码,则b=2;
Wi-Fi样本数据两两间空间编码值构成其空间编码值矩阵,可以表示为:
步骤1.3,根据Jaccard系数的计算原理,其值大小仅表明了两个数据间数值的相似程度,且由于Wi-Fi样本数据属于多维度的数据,Wi-Fi样本数据存在空间上的差异;
根据Wi-Fi样本数据两两间的Jaccard系数,结合其空间编码值,来准确判定两个Wi-Fi样本数据是否相似,其相似矩阵可以表示为:
其中Ri,j=result(Js(i,j),Cs(i,j))=result(Si,j,ci,j)。
利用Wi-Fi样本数据两两间的Jaccard系数来初步判断两个Wi-Fi样本数据是否相似,若相似,则采用两者的空间编码值进一步判定两个Wi-Fi样本数据是否相似,从而得到两个Wi-Fi样本数据是否相似的准确结果。
步骤2,根据Wi-Fi样本数据的相似矩阵对样本数据进行聚类分簇,并确定每一分簇的簇头,构建Wi-Fi样本数据的一重簇头集合。
步骤2.1,鉴于基于密度的聚类算法DBSCAN能够将足够高密度的区域划分称为簇,针对局域内的Wi-Fi样本数据,相似矩阵中的每一行Rs(i,:)揭示了样本数据Fi与局域内其他样本数据的相似程度,与Fi密度可达的样本数据形成一个分簇,其可以表示如下:
且需满足
其中为Rs(i,j)=1的个数,εn为成簇的最少元素阈值;
Wi-Fi样本数据的分簇结果可以表示如下:
其中K为局域内的Wi-Fi样本数据分簇个数。
步骤2.2,根据得到的分簇结果,计算每一分簇的簇头,形成Wi-Fi样本数据的一重簇头集合,图3给出了Wi-Fi样本数据一重簇头提取的示意图;由分簇结果计算簇头的过程描述如下:
Wi-Fi样本数据的一重簇头集合可以表示为:
步骤3,根据Wi-Fi样本数据的一重簇头结果,将一重簇头集合中的数据视为新的Wi-Fi样本数据,计算一重簇头两两间的相似度和空间编码值,构建一重簇头集合相对应的相似矩阵,根据获得的相似矩阵对一重簇头集合中的数据进行聚,类分簇,并确定每一分簇的簇头,从而构建一重簇头的新簇头,即二重簇头集合。
步骤3.1,根据得到的Wi-Fi样本数据的一重簇头集合,将其作为新的Wi-Fi样本数据,计算一重簇头两两间的Jaccard系数,其可以表示为:
一重簇头两两间的Jaccard系数,构成一重簇头的Jaccard系数相似矩阵,其可以表示为:
Jsg=[SGi,j]K×K
其中K为分簇的个数,Jsg为一个K×K维的矩阵。
步骤3.2,根据0-1二进制编码思想,将Wi-Fi样本数据的一重簇头作为新的输入,得到一重簇头两两间的0-1编码序列,进而得到Wi-Fi样本数据一重簇头两两间的空间编码值;Wi-Fi样本数据一重簇头两两间空间编码值构成其空间编码值矩阵,表示为:
Csg=[cgi,j]K×K
其中K为分簇的个数,
Q=sort{q1,…,qk,…,qp}
其中序列{q1,...,qk,...,qp}为Wi-Fi样本数据一重簇头的编码序列,k=[1,p],b为编码基数,p为室内环境空间中的AP个数。
步骤3.3,根据Wi-Fi样本数据一重簇头的Jaccard系数相似矩阵以及其对应的空间编码值矩阵,一重簇头的相似矩阵可以表示为:
Rsg=[RGi,j]K×K
RGi,j=result(Jsg(i,j),
其中εg为一重簇头的Jaccard系数判断阈值,εcg为一重簇头的空间编码值判断阈值,为cgi,j的反码。
步骤3.4,根据一重簇头的相似矩阵以及其Jaccard系数,对其进行分簇,簇中元素个数NFG满足以下条件者,形成一重簇头的一个分簇:
步骤3.5,依据得到的一重簇头分簇结果,计算一重簇头每一分簇的簇头,形成一重簇头的二重簇头集合,如图4所示;由一重簇头分簇结果计算二重簇头表示为:
其中Kg为一重簇头分簇的个数;
Wi-Fi样本数据的二重簇头集合可以表示为:
步骤4,采用自顶向下的方法,利用一重簇头和二重簇头的结果,根据局部最优原则,筛选得到最优的Wi-Fi样本数据:
步骤4.1,依据得到的Wi-Fi样本数据的二重簇头集合,将其选取为最优的Wi-Fi样本数据,即
步骤4.2,针对最优Wi-Fi样本数据集中的每一二重簇头,与其成簇的一重簇头表示为:
其中K为与二重簇头成簇的一重簇头的个数;
在保持Wi-Fi样本数据的多样性,使其能够适应复杂多变的室内定位环境,在将Wi-Fi样本数据的二重簇头筛选为最优Wi-Fi样本数据的同时,需要保留一定数量的与Wi-Fi样本数据的二重簇头有较大差异的一重簇头,如图5所示;
逐一计算集合中的每一一重簇头的Jaccard系数,即
若Sopt≤εopt,则
集合Data_opt中的数据即为最终筛选的最优Wi-Fi样本数据。
对于本领域的技术人员来说,可以根据以上技术方案和构思,给出各种相应的改变和变形,包括改变样本数据的聚类方法,而所有的这些变化和变形都应包括在本发明权利要求的保护范围之内。

Claims (6)

1.一种Wi-Fi样本数据优化方法,其特征是,包括步骤如下:
步骤1、计算Wi-Fi样本数据两两间的相似度和空间编码值,构建Wi-Fi样本数据的相似矩阵;
步骤2、根据Wi-Fi样本数据的相似矩阵对样本数据进行聚类分簇,并确定每一分簇的簇头,构建Wi-Fi样本数据的一重簇头集合;
步骤3、根据Wi-Fi样本数据的一重簇头结果,将一重簇头集合中的数据视为新的Wi-Fi样本数据,计算一重簇头两两间的相似度和空间编码值,构建一重簇头集合相对应的相似矩阵,根据获得的相似矩阵对一重簇头集合中的数据进行聚类分簇,并确定每一分簇的簇头,从而构建一重簇头的新簇头,即二重簇头集合;
步骤4、采用自顶向下的方法,利用一重簇头和二重簇头的结果,根据局部最优原则,筛选得到最优的Wi-Fi样本数据。
2.根据权利要求1所述的一种Wi-Fi样本数据优化方法,其特征是,步骤1所述Wi-Fi样本数据是位置坐标已知或可以通过其他先验知识来确定位置坐标的Wi-Fi信号,每一位置点上的Wi-Fi样本数据包含一个或多个AP的信息,其表述形式如下:
其中,Fi表示为位置点i处获得的Wi-Fi样本数据,p是室内空间中AP的数量,为位置点i处获得的第j个AP点的Wi-Fi信号的强度;
室内空间区域获得的Wi-Fi样本数据可以表示为:
Data_WiFi={(x1,y1,F1),(x2,y2,F2),……,(xi,yi,Fi),……,(xn,yn,Fn)}
其中,(xi,yi)为位置点i的二维坐标,n为位置点的个数。
3.根据权利要求1所述的一种Wi-Fi样本数据优化方法,其特征是,步骤1的子步骤如下:
步骤1.1、Wi-Fi样本数据两两间的相似度采用Jaccard系数来进行描述,位置点i和位置点j上获得的Wi-Fi样本数据分别为Fi和Fj,则所述的Wi-Fi样本数据两两间的相似度可以表示为:
其中,Fi∩Fj为样本数据Fi与Fj中对应位置的rss值相似的个数Ns,Fi∪Fj为Fi和Fj总的数据维数减去Ns得到的不重复的rss值个数;
Si,j的值越大,则Fi与Fj的相似程度越高;
Fi∩Fj和Fi∪Fj的计算过程如下:
DF=p
其中,DF为Wi-Fi样本数据F的维数,ε为对应位置的两个rss值是否相似的判断阈值;
通过计算Wi-Fi样本数据两两间的Jaccard系数,由这些Jaccard系数构成这些Wi-Fi样本数据的Jaccard系数相似矩阵,其可以表示为:
步骤1.2、根据0-1二进制编码思想,引入Wi-Fi样本数据间的空间编码值来描述Wi-Fi样本数据在空间上的相似程度:
Wi-Fi样本数据Fi和Fj对应位置上的rss值分别进行比较,若两者满足条件k∈[1,p],则说明该位置上的值是相似的,给予编码为“1”,否则编码为“0”;
根据Wi-Fi样本数据Fi和Fj的编码结果,Wi-Fi样本数据Fi和Fj的空间编码值的计算为:
其中序列{q1,...,qk,...,qp}为Wi-Fi样本数据Fi和Fj的编码结果,即两个Wi-Fi样本数据的编码序列,其中k=[1,p];b为编码基数,针对0-1二进制编码,则b=2;
Wi-Fi样本数据两两间空间编码值构成其空间编码值矩阵,可以表示为:
步骤1.3、根据Wi-Fi样本数据两两间的Jaccard系数,结合其空间编码值,来准确判定两个Wi-Fi样本数据是否相似,其相似矩阵可以表示为:
其中Ri,j=result(Js(i,j),Cs(i,j))=result(Si,j,ci,j)。
4.根据权利要求1所述的一种Wi-Fi样本数据优化方法,其特征是,步骤2的子步骤如下:
步骤2.1、鉴于基于密度的聚类算法DBSCAN能够将足够高密度的区域划分称为簇,针对局域内的Wi-Fi样本数据,相似矩阵中的每一行Rs(i,:)揭示了样本数据Fi与局域内其他样本数据的相似程度,与Fi密度可达的样本数据形成一个分簇,其可以表示如下:
且需满足
其中为Rs(i,j)=1的个数,εn为成簇的最少元素阈值;
Wi-Fi样本数据的分簇结果可以表示如下:
其中K为局域内的Wi-Fi样本数据分簇个数;
步骤2.2、基于步骤2.1中得到的分簇结果,计算每一分簇的簇头,形成Wi-Fi样本数据的一重簇头集合,由分簇结果计算每一分簇的簇头表示为:
Wi-Fi样本数据的一重簇头集合表示为:
5.根据权利要求1所述的一种Wi-Fi样本数据优化方法,其特征是,步骤3的子步骤如下:
步骤3.1、基于步骤2中得到的Wi-Fi样本数据的一重簇头集合,将其作为新的Wi-Fi样本数据,计算一重簇头两两间的Jaccard系数,其可以表示为:
一重簇头两两间的Jaccard系数,构成一重簇头的Jaccard系数相似矩阵,其可以表示为:
Jsg=[SGi,j]K×K
其中K为分簇的个数,Jsg为一个K×K维的矩阵;
步骤3.2、构建Wi-Fi样本数据一重簇头两两间的空间编码值;
Wi-Fi样本数据一重簇头两两间空间编码值构成其空间编码值矩阵,表示为:
Csg=[cgi,j]K×K
其中K为分簇的个数,
其中序列{q1,...,qk,...,qp}为Wi-Fi样本数据一重簇头的编码序列,其中k=[1,p],b为编码基数,p为室内环境空间中的AP个数;
步骤3.3、构建一重簇头Jaccard系数结合对应的空间编码值矩阵的相似矩阵:
Rsg=[RGi,j]K×K
其中εg为一重簇头的Jaccard系数判断阈值,εcg为一重簇头的空间编码值判断阈值,为cgi,j的反码;
步骤3.4、对一重簇头进行分簇,簇中元素个数NFG满足以下条件者,形成一重簇头的一个分簇:
步骤3.5、基于步骤3.4中得到的一重簇头分簇结果,计算一重簇头每一分簇的簇头,构建一重簇头的二重簇头集合,由一重簇头分簇结果计算二重簇头表示为:
其中Kg为一重簇头分簇的个数;
Wi-Fi样本数据的二重簇头集合可以表示为:
6.根据权利要求1所述的一种Wi-Fi样本数据优化方法,其特征是,步骤4的子步骤如下:
步骤4.1、基于步骤3中得到的Wi-Fi样本数据的二重簇头集合,将其选取为最优的Wi-Fi样本数据,即
步骤4.2,针对最优Wi-Fi样本数据集中的每一二重簇头,与其成簇的一重簇头可以表示为:
其中K为与二重簇头成簇的一重簇头的个数;
逐一计算集合中的每一一重簇头的Jaccard系数,即
若Sopt≤εopt,则
集合Data_opt中的数据即为最终筛选的最优Wi-Fi样本数据。
CN201810993696.0A 2018-08-29 2018-08-29 一种Wi-Fi样本数据优化方法 Active CN109286900B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810993696.0A CN109286900B (zh) 2018-08-29 2018-08-29 一种Wi-Fi样本数据优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810993696.0A CN109286900B (zh) 2018-08-29 2018-08-29 一种Wi-Fi样本数据优化方法

Publications (2)

Publication Number Publication Date
CN109286900A true CN109286900A (zh) 2019-01-29
CN109286900B CN109286900B (zh) 2020-07-17

Family

ID=65184099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810993696.0A Active CN109286900B (zh) 2018-08-29 2018-08-29 一种Wi-Fi样本数据优化方法

Country Status (1)

Country Link
CN (1) CN109286900B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021243504A1 (zh) * 2020-06-01 2021-12-09 蜂图志科技控股有限公司 一种信号地图构建方法、装置、设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102209384A (zh) * 2011-05-19 2011-10-05 北京邮电大学 一种快速定位方法和装置
CN103476115A (zh) * 2013-09-22 2013-12-25 中国地质大学(武汉) 一种基于AP集相似度的Wi-Fi指纹定位方法
CN104185275A (zh) * 2014-09-10 2014-12-03 北京航空航天大学 一种基于wlan的室内定位方法
WO2016023291A1 (zh) * 2014-08-15 2016-02-18 中兴通讯股份有限公司 一种移动终端定位的方法、装置及存储介质
CN107367277A (zh) * 2017-06-05 2017-11-21 南京邮电大学 基于二次K‑Means聚类的室内位置指纹定位方法
CN107995682A (zh) * 2017-11-06 2018-05-04 北京三快在线科技有限公司 无线接入点定位方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102209384A (zh) * 2011-05-19 2011-10-05 北京邮电大学 一种快速定位方法和装置
CN103476115A (zh) * 2013-09-22 2013-12-25 中国地质大学(武汉) 一种基于AP集相似度的Wi-Fi指纹定位方法
WO2016023291A1 (zh) * 2014-08-15 2016-02-18 中兴通讯股份有限公司 一种移动终端定位的方法、装置及存储介质
CN104185275A (zh) * 2014-09-10 2014-12-03 北京航空航天大学 一种基于wlan的室内定位方法
CN107367277A (zh) * 2017-06-05 2017-11-21 南京邮电大学 基于二次K‑Means聚类的室内位置指纹定位方法
CN107995682A (zh) * 2017-11-06 2018-05-04 北京三快在线科技有限公司 无线接入点定位方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈思敏: "基于位置指纹识别的WiFi室内定位算法研究与实现", 《中国优秀硕士学位论文全文数据库》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021243504A1 (zh) * 2020-06-01 2021-12-09 蜂图志科技控股有限公司 一种信号地图构建方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN109286900B (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
Lee et al. Can Twitter data be used to validate travel demand models
CN105206057B (zh) 基于浮动车居民出行热点区域的检测方法及系统
CN113128105B (zh) 突发性流域水污染事故监测方法及装置
CN110658725B (zh) 一种基于人工智能的能源监管和预测系统及其方法
CN103701931A (zh) 一种基于云平台的远程环境数据管理监控系统
CN108337685B (zh) 基于分簇dgm的无线传感器网络数据融合方法
CN110163449B (zh) 一种基于主动时空图卷积的机动车排污监测节点部署方法
Chen et al. Artificial intelligence enabled Digital Twins for training autonomous cars
Xue et al. Multi-source data-driven identification of urban functional areas: A case of Shenyang, China
Kong et al. The method and application of big data mining for mobile trajectory of taxi based on MapReduce
NavnathDattatraya et al. Maximising network lifetime and energy efficiency of wireless sensor network using group search Ant lion with Levy flight
Tang et al. Energy-efficient sensory data collection based on spatiotemporal correlation in IoT networks
CN109286900A (zh) 一种Wi-Fi样本数据优化方法
Xiahou et al. Indoor air monitoring system based on Internet of things and its prediction model
CN113298314A (zh) 一种考虑动态时空相关性的轨道交通客流预测方法
CN116528282B (zh) 覆盖场景识别方法、装置、电子设备和可读存储介质
Gricius et al. Advanced approach of multiagent based buoy communication
CN117079148A (zh) 城市功能区的识别方法、装置、设备和介质
CN111492632B (zh) 用于预测网络节点的状态改变的系统和方法
Zhang et al. Cross-modal travel route recommendation algorithm based on internet of things awareness
Zhu et al. Edge sensing‐enabled multistage hierarchical clustering deredundancy algorithm in WSNs
CN105808715B (zh) 一种位置一张图的构建方法
Zeng et al. Edge oriented urban hotspot prediction for human-centric internet of things
Yang et al. Vehicle information influence degree screening method based on GEP optimized RBF neural network
CN114548575A (zh) 基于迁移学习的自适应建筑日前负荷预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant