CN107944498B - 一种基于多标签的室内人群聚类方法 - Google Patents
一种基于多标签的室内人群聚类方法 Download PDFInfo
- Publication number
- CN107944498B CN107944498B CN201711280844.6A CN201711280844A CN107944498B CN 107944498 B CN107944498 B CN 107944498B CN 201711280844 A CN201711280844 A CN 201711280844A CN 107944498 B CN107944498 B CN 107944498B
- Authority
- CN
- China
- Prior art keywords
- mac address
- time
- area
- mac
- mac addresses
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2101/00—Indexing scheme associated with group H04L61/00
- H04L2101/60—Types of network addresses
- H04L2101/618—Details of network addresses
- H04L2101/622—Layer-2 addresses, e.g. medium access control [MAC] addresses
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2101/00—Indexing scheme associated with group H04L61/00
- H04L2101/60—Types of network addresses
- H04L2101/69—Types of network addresses using geographic information, e.g. room number
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于多标签的室内人群聚类方法。该方法包括以下步骤:(1)通过AP设备得到区域内移动终端设备的访问状态;(2)计算出每个移动终端的多类标签,标签包含:①访问时段:以分钟为单位得到访问区域最频繁的进入时间;②平均访问时长:过滤掉极短的停留时间,移动终端在区域内停留的平均时间;③平均回访周期:当天时间内,终端设备距离上次访问该区域的时间;(3)以每个标签为一个维度将每个终端映射为多维坐标系下的点;(4)任选一个点,规定一个相似半径K,依次计算每个点与选中点的加权余弦距离d,将加权余弦距离小于相似半径的点归为一类,如果群体中半数以上的点与目标点相似,那么认为目标点属于该群体。
Description
技术领域
本发明涉及一种基于多标签的室内人群聚类方法,属于数据分析技术领域。
背景技术
当前环境下,随着智能手机的用户量增长和Wi-Fi网络的普及,几乎每个商场、写字楼、酒店等公共区域内都遍布着Wi-Fi网络。经过这些区域内的人群均可以连接相应的网络访问互联网。当前区域内人流的访问情况以及访问群体的类别信息成为了宝贵的财富。当前区域内人群聚类算法大部分是基于位置密度的距离算法或者是根据人工调查后的年龄、性别等标签进行聚类。基于密度的聚类方法不适用于小范围流动性大的区域,而年龄、性别等容易涉及到个人隐私。
因此有必要提出一种采集移动设备信息作为数据源、多标签的室内人群聚类方法。该方法仅仅使用获取到的MAC地址、RSSI信号强弱等信息来进行人群的聚类,不涉及到个人隐私,也无需对个人信息和采集到的信息进行精确匹配,可以有效地保护区域内人流的隐私,也不需要个人主动提供信息。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于多标签的室内人群聚类方法。
技术方案:一种基于多标签的室内人群聚类方法,包括以下步骤:
步骤1:通过AP设备探测当前区域内拥有Wi-Fi模块的移动终端设备的MAC地址、信号强度RSSI和采集时间;
步骤2:AP设备将采集到的数据发送给服务器,服务器程序将每个MAC地址在当日是否处于区域内的状态序列按照时间升序进行存储;
步骤3:针对每个MAC地址,根据其状态序列得到停留该区域时间最长的一个时段的访问时间;
步骤4:针对每个MAC地址,根据其状态序列得到每次驻留该区域的平均时间;
步骤5:针对每个MAC地址,根据其状态序列得到回访周期的平均值;
步骤6:规定相似阈值K,任选一个MAC地址与其他所有MAC地址对应的标签依次计算加权余弦距离,重复选择所有的MAC地址进行上述计算,使所有的MAC地址之间都有一个余弦距离;
步骤7:根据K值和余弦距离对所有MAC地址进行群体划分。
步骤1中AP设备采集到区域内所有的移动终端的MAC地址和RSSI值,每隔一秒采集一次然后发送到服务器中。
步骤2中服务器程序根据RSSI的强弱判断该移动终端的是否在区域内,如果在区域内则状态为1,不在区域内状态为0,如果采集不到数据也为0。每个MAC地址所对应的状态序列样例为:00001111111111111110000...111100,然后将状态序列进行存储。
步骤3中针对每个MAC地址计算其停留时间最长的时间段的访问时间,在状态序列中,取出连续的由“1”组成的最长序列的起始时间即为访问时间。
步骤4中针对每个MAC地址计算其平均驻留时长,在状态序列中,过滤掉小于30秒的访问时间,其余访问时长取平均值得到平均访问时长。
步骤5中针对每个MAC地址计算其平均回访周期,在状态序列中,获取状态为连续0的序列的时长,去掉第一个连续0序列和最后一个连续0序列,剩余的0序列取平均值得到平均回访周期。
步骤6中,手动设置阈值为K,可根据具体场景进行调整,余弦距离权重A、B、C也为人工设定,每个MAC地址对应的三个标签的数值分别为a、b、c,使用一个二维数组d[N][N],N表示所有MAC地址的数量,d[i][j]表示第i个MAC地址与第j个MAC地址的加权余弦距离。
步骤7中,根据K值和二维数组d[N][N]划分不同的群体,具体包括如下步骤:
步骤S1:i设置为0,j设置为1;
步骤S2:x为i群体中所有MAC地址的下标,循环判断d[x][j]是否超过半数小于K值,如果是,则进入步骤S3,否则进入步骤S4;
步骤S3:将i、j归为一个群体,j标记为已归类;
步骤S4:j设置为下一个未归类的下标;
步骤S5:重复步骤S2-S4直到j等于N;
步骤S6:遍历未归类的所有下标y,再次判断y是否属于i群体,如果是进入步骤S7,否则进入步骤S8;
步骤S7:将y与i归为一个群体,y标记为已归类;
步骤S8:y设为下一个未归类的下标;
步骤S9:重复步骤S6-S8直到第一次遍历完未归类的下标;
步骤S10:设置i为第一个未归类的下标;
步骤S11:设置j为第二个未归类的下标;
步骤S12:重复步骤S2-S9,直到所有的数值计算完成,或者只留下一个未归类的下标。
附图说明
图1为本发明实施例的方法流程图;
图2为本发明实施例中群体聚类方法流程图;
图3为本发明实例实施中聚类效果图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于多标签的室内人群聚类方法,包括如下步骤:
步骤1:AP设备将区域范围内的移动终端的MAC地址、RSSI值和采集时间发送到服务器中,采集时间间隔1秒。
步骤2:服务器程序将每个MAC地址在当日是否处于区域内的状态序列按照时间升序进行存储,状态序列为一个只包含0或1的字符串,该字符串从左至右每一位表示1秒,如果当前位为1表示在这一秒中,持有该设备的个体处于区域内,如果当前位为0表示在这一秒中,持有该设备的个体处于区域外。例如下面的字符串“000001111100000”表示某个个体在前5秒处于区域外,然后进入区域后停留5秒钟,然后离开该区域。
步骤3:针对每个MAC地址,根据其状态序列得到停留该区域时间最长的一个时段的访问时间。在状态序列中,匹配到最长的全1字符串,然后获取到该字符串的首字母坐标,即可换算出访问时间。例如字符串“00111011000110010”为一个状态序列,那么该状态序列对应的访问时间为第3秒。
步骤4:针对每个MAC地址,根据其状态序列得到每次驻留该区域的平均时间,在状态序列中,过滤掉所有极短的停留时间,例如只停留了几秒,或者十几秒的情况。将其他的所有停留时间,即其他所有连续1的字符串的长度取平均值,经过换算即可得到平均停留时长。
步骤5:针对每个MAC地址,根据其状态序列得到回访周期的平均值,回访周期为距离上次访问的时间,在状态序列中表示为两个连续1字符串之间的距离,即连续0字符串的长度。除了状态序列的首位两个字符串,其余的字符串即为回访周期的具体数值,对这些字符串表示的长度取平均数,即可得到平均访问周期。
步骤6:计算所有MAC地址之间的加权余弦距离,三类标签的权重分别为A、B、C,第i个MAC地址对应的三类标签的值为ai、bi、ci,根据标准的余弦距离计算公式:
其中,下标i表示第i个点,下标j表示第j个点,ai、bi、ci分别表示第i个点三类标签的具体数值,aj、bj、cj分别表示第j个点三类标签的具体数值。
对标准公式进行变形,增加权重公式,然后进行取倒数运算,得到新的加权余弦距离公式如下:
根据新的加权余弦距离公式得到的加权余弦距离,随着数值的增大,表示相似度减小。公式中A、B、C的取值根据具体场景具体指定。同样根据场景指定距离阈值即相似半径K。当加权余弦距离dij小于相似半径K时,表示i、j两个MAC地址相似。
分别计算每两个MAC地址之间的加权余弦距离使用二维数组d[i][j]来表示。
步骤7:已知MAC地址两两之间的加权余弦距离和相似半径K,即可对所有的MAC地址进行聚类。聚类的思路是将MAC地址映射为虚拟坐标系中的点,两点之间的距离为加权余弦距离,不用对虚拟坐标系进行物理上的表示,只进行数学上的分析。每个群体由1个或多个点组成,选择一个群体和一个待测点,如果群体中,超过半数的点与待测点的距离小于K,那么认为待测点属于该群体。重复进行计算直到无法为该群体增加更多的点,然后再次选取另外一个群体进行比较,直到所有的点被归类到不同的群体中。K值的调整可以影响群体的密度和容错性。该聚类方法映射到二维平面的效果图如图3所示。
聚类的计算过程流程图如图2所示,主要包含计算某一点是否属于某群体的S1子程序,和整体计算过程的流程图。计算步骤如下:
步骤S1:i设置为0,j设置为1;
步骤S2:x为i群体中所有MAC地址的下标,循环判断d[x][j]是否超过半数小于K值,如果是,则进入步骤S3,否则进入步骤S4;
步骤S3:将i、j归为一个群体,j标记为已归类;
步骤S4:j设置为下一个未归类的下标;
步骤S5:重复步骤S2-S4直到j等于N;
步骤S6:遍历未归类的所有下标y,再次判断y是否属于i群体,如果是进入步骤S7,否则进入步骤S8;
步骤S7:将y与i归为一个群体,y标记为已归类;
步骤S8:y设为下一个未归类的下标;
步骤S9:重复步骤S6-S8直到第一次遍历完未归类的下标;
步骤S10:设置i为第一个未归类的下标;
步骤S11:设置j为第二个未归类的下标;
步骤S12:重复步骤S2-S9,直到所有的数值计算完成,或者只留下一个未归类的下标。
Claims (8)
1.一种基于多标签的室内人群聚类方法,其特征在于:通过AP设备采集每一秒钟进入区域内的MAC地址,针对每个MAC地址,根据其当日的所有状态数据计算出对应的多类标签数值;任意选取一个MAC地址,计算它与其他MAC地址的加权余弦距离,如果加权余弦距离小于预定义阈值K即归为一类,如果该区域内半数以上的MAC地址与待比较的MAC地址相似,那么也归为一类,最后得到多个不同的群体;
包括以下步骤:
步骤1:通过AP设备探测当前区域内拥有Wi-Fi模块的移动终端设备的MAC地址、信号强度RSSI和采集时间;
步骤2:AP设备将采集到的数据发送给服务器,服务器程序将每个MAC地址在当日是否处于区域内的状态序列按照时间升序进行存储;
步骤3:针对每个MAC地址,根据其状态序列得到停留该区域时间最长的一个时段的访问时间;
步骤4:针对每个MAC地址,根据其状态序列得到每次驻留该区域的平均时间;
步骤5:针对每个MAC地址,根据其状态序列得到回访周期的平均值;
步骤6:规定预定义阈值K,任选一个MAC地址与其他所有MAC地址对应的多类标签数值依次计算加权余弦距离,重复选择所有的MAC地址进行上述计算,使所有的MAC地址之间都有一个加权余弦距离;
步骤7:根据预定义阈值K和加权余弦距离对所有MAC地址进行群体划分。
2.如权利要求1所述的基于多标签的室内人群聚类方法,其特征在于:步骤1中AP设备采集到区域内所有的移动终端的MAC地址和RSSI值,每隔一秒采集一次然后发送到服务器中。
3.如权利要求1所述的基于多标签的室内人群聚类方法,其特征在于:步骤2中服务器程序根据RSSI的强弱判断该移动终端的是否在区域内,如果在区域内则状态为1,不在区域内状态为0,如果采集不到数据也为0,然后将状态序列进行存储。
4.如权利要求1所述的基于多标签的室内人群聚类方法,其特征在于:步骤3中针对每个MAC地址计算其停留该区域时间最长的一个时段的访问时间,在状态序列中,取出连续的由“1”组成的最长序列的起始时间即为停留该区域时间最长的一个时段的访问时间。
5.如权利要求1所述的基于多标签的室内人群聚类方法,其特征在于:步骤4中针对每个MAC地址计算其每次驻留该区域的平均时间,在状态序列中,过滤掉小于30秒的访问时间,其余访问时长取平均值得到每次驻留该区域的平均时间。
6.如权利要求1所述的基于多标签的室内人群聚类方法,其特征在于:步骤5中针对每个MAC地址计算其回访周期的平均值,在状态序列中,获取状态为连续0的序列的时长,去掉第一个连续0序列和最后一个连续0序列,剩余的0序列取平均值得到回访周期的平均值。
7.如权利要求1所述的基于多标签的室内人群聚类方法,其特征在于:步骤6中,手动设置预定义阈值K,根据具体场景进行调整,加权余弦距离权重A、B、C也为人工设定,每个MAC地址对应的停留该区域时间最长的一个时段的访问时间、每次驻留该区域的平均时间、回访周期的平均值的数值分别为a、b、c,使用一个二维数组d[N][N],N表示所有MAC地址的数量,d[i][j]表示第i个MAC地址与第j个MAC地址的加权余弦距离。
8.如权利要求7所述的基于多标签的室内人群聚类方法,其特征在于:步骤7中,根据预定义阈值K和二维数组d[N][N]划分不同的群体,具体包括如下步骤:
步骤S1:i设置为0,j设置为1; I群体表示第i个MAC地址属于的群体;
步骤S2:x为I群体中所有MAC地址的下标,循环判断d[x][j]是否超过半数小于预定义阈值K,如果是,则进入步骤S3,否则进入步骤S4;
步骤S3:将第i个MAC地址、第j个MAC地址归为一个群体,第j个MAC地址标记为已归类;
步骤S4:j设置为下一个未归类的下标;
步骤S5:重复步骤S2-S4直到j等于N;
步骤S6: y为未归类的所有MAC地址的下标,遍历所有y,再次判断第y个MAC地址是否属于I群体,如果是进入步骤S7,否则进入步骤S8;
步骤S7:将第y个MAC地址与第i个MAC地址归为一个群体,第y个MAC地址标记为已归类;
步骤S8:y设为下一个未归类的下标;
步骤S9:重复步骤S6-S8直到第一次遍历完未归类的下标;
步骤S10:设置i为第一个未归类的下标;
步骤S11:设置j为第二个未归类的下标;
步骤S12:重复步骤S2-S9,直到所有的数值计算完成,或者只留下一个未归类的下标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711280844.6A CN107944498B (zh) | 2017-12-06 | 2017-12-06 | 一种基于多标签的室内人群聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711280844.6A CN107944498B (zh) | 2017-12-06 | 2017-12-06 | 一种基于多标签的室内人群聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107944498A CN107944498A (zh) | 2018-04-20 |
CN107944498B true CN107944498B (zh) | 2021-08-31 |
Family
ID=61945056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711280844.6A Active CN107944498B (zh) | 2017-12-06 | 2017-12-06 | 一种基于多标签的室内人群聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107944498B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109639452A (zh) * | 2018-10-31 | 2019-04-16 | 深圳大学 | 社交关系模型训练方法、装置、服务器及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615730A (zh) * | 2015-02-09 | 2015-05-13 | 浪潮集团有限公司 | 一种多标签分类方法及装置 |
CN106131959A (zh) * | 2016-08-11 | 2016-11-16 | 电子科技大学 | 一种基于Wi‑Fi信号空间划分的两级定位方法 |
CN106535283A (zh) * | 2016-11-25 | 2017-03-22 | 南京科技职业学院 | 一种基于信标分簇的室内定位方法 |
CN107302794A (zh) * | 2017-06-27 | 2017-10-27 | 哈尔滨工业大学深圳研究生院 | 利用wifi信号作为移动定位与导航的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160150459A1 (en) * | 2014-11-19 | 2016-05-26 | Qualcomm Incorporated | Techniques to support heterogeneous network data path discovery |
US10033646B2 (en) * | 2016-05-12 | 2018-07-24 | International Business Machines Corporation | Resilient active-active data link layer gateway cluster |
-
2017
- 2017-12-06 CN CN201711280844.6A patent/CN107944498B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615730A (zh) * | 2015-02-09 | 2015-05-13 | 浪潮集团有限公司 | 一种多标签分类方法及装置 |
CN106131959A (zh) * | 2016-08-11 | 2016-11-16 | 电子科技大学 | 一种基于Wi‑Fi信号空间划分的两级定位方法 |
CN106535283A (zh) * | 2016-11-25 | 2017-03-22 | 南京科技职业学院 | 一种基于信标分簇的室内定位方法 |
CN107302794A (zh) * | 2017-06-27 | 2017-10-27 | 哈尔滨工业大学深圳研究生院 | 利用wifi信号作为移动定位与导航的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107944498A (zh) | 2018-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108536851B (zh) | 一种基于移动轨迹相似度比较的用户身份识别方法 | |
WO2018014610A1 (zh) | 基于c4.5决策树算法的特定用户挖掘系统及其方法 | |
CN106851571B (zh) | 一种基于决策树的快速KNN室内WiFi定位方法 | |
CN106776930B (zh) | 一种融入时间和地理位置信息的地点推荐方法 | |
CN109614935A (zh) | 车辆定损方法及装置、存储介质及电子设备 | |
CN111737605A (zh) | 一种基于手机信令数据的出行目的识别方法及装置 | |
CN110392122B (zh) | 地址类型的确定方法和装置、存储介质、电子装置 | |
CN112135248B (zh) | 一种基于K-means最优估计的WIFI指纹定位方法 | |
CN108834077B (zh) | 基于用户移动特性的跟踪区划分方法、装置及电子设备 | |
CN110933628B (zh) | 基于孪生网络的指纹室内定位方法 | |
CN107180245A (zh) | 一种室内外场景识别方法及装置 | |
CN110298687B (zh) | 一种区域吸引力评估方法及设备 | |
CN110263840B (zh) | 一种线路分析方法、装置及程序产品、存储介质 | |
CN111526119A (zh) | 异常流量检测方法、装置、电子设备和计算机可读介质 | |
CN116860840B (zh) | 用于高速公路路面信息快速检索方法 | |
CN104200206A (zh) | 一种基于双角度排序优化的行人重识别方法 | |
CN109993042A (zh) | 一种人脸识别方法及其装置 | |
CN111901028B (zh) | 一种基于多天线上csi的人体行为识别方法 | |
CN107290714B (zh) | 一种基于多标识指纹定位的定位方法 | |
CN108566620A (zh) | 一种基于wifi的室内定位方法 | |
CN109447103B (zh) | 一种基于硬聚类算法的大数据分类方法、装置及设备 | |
CN110730473A (zh) | 面向WiFi活动识别的信号特征提取方法 | |
CN111368862A (zh) | 室内外标记的区分方法、分类器的训练方法及设备和介质 | |
CN107133689B (zh) | 一种位置标记方法 | |
CN110781256B (zh) | 基于发送位置数据确定与Wi-Fi相匹配的POI的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |