CN107944498B

CN107944498B - 一种基于多标签的室内人群聚类方法

Info

Publication number: CN107944498B
Application number: CN201711280844.6A
Authority: CN
Inventors: 戚荣志; 李水艳; 安纪存; 毛莺池; 平萍; 黄倩
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2017-12-06
Filing date: 2017-12-06
Publication date: 2021-08-31
Anticipated expiration: 2037-12-06
Also published as: CN107944498A

Abstract

本发明公开了一种基于多标签的室内人群聚类方法。该方法包括以下步骤：(1)通过AP设备得到区域内移动终端设备的访问状态；(2)计算出每个移动终端的多类标签，标签包含：①访问时段：以分钟为单位得到访问区域最频繁的进入时间；②平均访问时长：过滤掉极短的停留时间，移动终端在区域内停留的平均时间；③平均回访周期：当天时间内，终端设备距离上次访问该区域的时间；(3)以每个标签为一个维度将每个终端映射为多维坐标系下的点；(4)任选一个点，规定一个相似半径K，依次计算每个点与选中点的加权余弦距离d，将加权余弦距离小于相似半径的点归为一类，如果群体中半数以上的点与目标点相似，那么认为目标点属于该群体。

Description

一种基于多标签的室内人群聚类方法

技术领域

本发明涉及一种基于多标签的室内人群聚类方法，属于数据分析技术领域。

背景技术

当前环境下，随着智能手机的用户量增长和Wi-Fi网络的普及，几乎每个商场、写字楼、酒店等公共区域内都遍布着Wi-Fi网络。经过这些区域内的人群均可以连接相应的网络访问互联网。当前区域内人流的访问情况以及访问群体的类别信息成为了宝贵的财富。当前区域内人群聚类算法大部分是基于位置密度的距离算法或者是根据人工调查后的年龄、性别等标签进行聚类。基于密度的聚类方法不适用于小范围流动性大的区域，而年龄、性别等容易涉及到个人隐私。

因此有必要提出一种采集移动设备信息作为数据源、多标签的室内人群聚类方法。该方法仅仅使用获取到的MAC地址、RSSI信号强弱等信息来进行人群的聚类，不涉及到个人隐私，也无需对个人信息和采集到的信息进行精确匹配，可以有效地保护区域内人流的隐私，也不需要个人主动提供信息。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于多标签的室内人群聚类方法。

技术方案：一种基于多标签的室内人群聚类方法，包括以下步骤：

步骤1：通过AP设备探测当前区域内拥有Wi-Fi模块的移动终端设备的MAC地址、信号强度RSSI和采集时间；

步骤2：AP设备将采集到的数据发送给服务器，服务器程序将每个MAC地址在当日是否处于区域内的状态序列按照时间升序进行存储；

步骤3：针对每个MAC地址，根据其状态序列得到停留该区域时间最长的一个时段的访问时间；

步骤4：针对每个MAC地址，根据其状态序列得到每次驻留该区域的平均时间；

步骤5：针对每个MAC地址，根据其状态序列得到回访周期的平均值；

步骤6：规定相似阈值K，任选一个MAC地址与其他所有MAC地址对应的标签依次计算加权余弦距离，重复选择所有的MAC地址进行上述计算，使所有的MAC地址之间都有一个余弦距离；

步骤7：根据K值和余弦距离对所有MAC地址进行群体划分。

步骤1中AP设备采集到区域内所有的移动终端的MAC地址和RSSI值，每隔一秒采集一次然后发送到服务器中。

步骤2中服务器程序根据RSSI的强弱判断该移动终端的是否在区域内，如果在区域内则状态为1，不在区域内状态为0，如果采集不到数据也为0。每个MAC地址所对应的状态序列样例为：00001111111111111110000...111100，然后将状态序列进行存储。

步骤3中针对每个MAC地址计算其停留时间最长的时间段的访问时间，在状态序列中，取出连续的由“1”组成的最长序列的起始时间即为访问时间。

步骤4中针对每个MAC地址计算其平均驻留时长，在状态序列中，过滤掉小于30秒的访问时间，其余访问时长取平均值得到平均访问时长。

步骤5中针对每个MAC地址计算其平均回访周期，在状态序列中，获取状态为连续0的序列的时长，去掉第一个连续0序列和最后一个连续0序列，剩余的0序列取平均值得到平均回访周期。

步骤6中，手动设置阈值为K，可根据具体场景进行调整，余弦距离权重A、B、C也为人工设定，每个MAC地址对应的三个标签的数值分别为a、b、c，使用一个二维数组d[N][N]，N表示所有MAC地址的数量，d[i][j]表示第i个MAC地址与第j个MAC地址的加权余弦距离。

步骤7中，根据K值和二维数组d[N][N]划分不同的群体，具体包括如下步骤：

步骤S1：i设置为0，j设置为1；

步骤S2：x为i群体中所有MAC地址的下标，循环判断d[x][j]是否超过半数小于K值，如果是，则进入步骤S3，否则进入步骤S4；

步骤S3：将i、j归为一个群体，j标记为已归类；

步骤S4：j设置为下一个未归类的下标；

步骤S5：重复步骤S2-S4直到j等于N；

步骤S6：遍历未归类的所有下标y，再次判断y是否属于i群体，如果是进入步骤S7，否则进入步骤S8；

步骤S7：将y与i归为一个群体，y标记为已归类；

步骤S8：y设为下一个未归类的下标；

步骤S9：重复步骤S6-S8直到第一次遍历完未归类的下标；

步骤S10：设置i为第一个未归类的下标；

步骤S11：设置j为第二个未归类的下标；

步骤S12：重复步骤S2-S9，直到所有的数值计算完成，或者只留下一个未归类的下标。

附图说明

图1为本发明实施例的方法流程图；

图2为本发明实施例中群体聚类方法流程图；

图3为本发明实例实施中聚类效果图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于多标签的室内人群聚类方法，包括如下步骤：

步骤1：AP设备将区域范围内的移动终端的MAC地址、RSSI值和采集时间发送到服务器中，采集时间间隔1秒。

步骤2：服务器程序将每个MAC地址在当日是否处于区域内的状态序列按照时间升序进行存储，状态序列为一个只包含0或1的字符串，该字符串从左至右每一位表示1秒，如果当前位为1表示在这一秒中，持有该设备的个体处于区域内，如果当前位为0表示在这一秒中，持有该设备的个体处于区域外。例如下面的字符串“000001111100000”表示某个个体在前5秒处于区域外，然后进入区域后停留5秒钟，然后离开该区域。

步骤3：针对每个MAC地址，根据其状态序列得到停留该区域时间最长的一个时段的访问时间。在状态序列中，匹配到最长的全1字符串，然后获取到该字符串的首字母坐标，即可换算出访问时间。例如字符串“00111011000110010”为一个状态序列，那么该状态序列对应的访问时间为第3秒。

步骤4：针对每个MAC地址，根据其状态序列得到每次驻留该区域的平均时间，在状态序列中，过滤掉所有极短的停留时间，例如只停留了几秒，或者十几秒的情况。将其他的所有停留时间，即其他所有连续1的字符串的长度取平均值，经过换算即可得到平均停留时长。

步骤5：针对每个MAC地址，根据其状态序列得到回访周期的平均值，回访周期为距离上次访问的时间，在状态序列中表示为两个连续1字符串之间的距离，即连续0字符串的长度。除了状态序列的首位两个字符串，其余的字符串即为回访周期的具体数值，对这些字符串表示的长度取平均数，即可得到平均访问周期。

步骤6：计算所有MAC地址之间的加权余弦距离，三类标签的权重分别为A、B、C，第i个MAC地址对应的三类标签的值为a_i、b_i、c_i，根据标准的余弦距离计算公式：

其中，下标i表示第i个点，下标j表示第j个点，a_i、b_i、c_i分别表示第i个点三类标签的具体数值，a_j、b_j、c_j分别表示第j个点三类标签的具体数值。

对标准公式进行变形，增加权重公式，然后进行取倒数运算，得到新的加权余弦距离公式如下：

根据新的加权余弦距离公式得到的加权余弦距离，随着数值的增大，表示相似度减小。公式中A、B、C的取值根据具体场景具体指定。同样根据场景指定距离阈值即相似半径K。当加权余弦距离d_ij小于相似半径K时，表示i、j两个MAC地址相似。

分别计算每两个MAC地址之间的加权余弦距离使用二维数组d[i][j]来表示。

步骤7：已知MAC地址两两之间的加权余弦距离和相似半径K，即可对所有的MAC地址进行聚类。聚类的思路是将MAC地址映射为虚拟坐标系中的点，两点之间的距离为加权余弦距离，不用对虚拟坐标系进行物理上的表示，只进行数学上的分析。每个群体由1个或多个点组成，选择一个群体和一个待测点，如果群体中，超过半数的点与待测点的距离小于K，那么认为待测点属于该群体。重复进行计算直到无法为该群体增加更多的点，然后再次选取另外一个群体进行比较，直到所有的点被归类到不同的群体中。K值的调整可以影响群体的密度和容错性。该聚类方法映射到二维平面的效果图如图3所示。

聚类的计算过程流程图如图2所示，主要包含计算某一点是否属于某群体的S1子程序，和整体计算过程的流程图。计算步骤如下：

步骤S1：i设置为0，j设置为1；

步骤S3：将i、j归为一个群体，j标记为已归类；

步骤S4：j设置为下一个未归类的下标；

步骤S5：重复步骤S2-S4直到j等于N；

步骤S7：将y与i归为一个群体，y标记为已归类；

步骤S8：y设为下一个未归类的下标；

步骤S9：重复步骤S6-S8直到第一次遍历完未归类的下标；

步骤S10：设置i为第一个未归类的下标；

步骤S11：设置j为第二个未归类的下标；

Claims

1.一种基于多标签的室内人群聚类方法，其特征在于：通过AP设备采集每一秒钟进入区域内的MAC地址，针对每个MAC地址，根据其当日的所有状态数据计算出对应的多类标签数值；任意选取一个MAC地址，计算它与其他MAC地址的加权余弦距离，如果加权余弦距离小于预定义阈值K即归为一类，如果该区域内半数以上的MAC地址与待比较的MAC地址相似，那么也归为一类，最后得到多个不同的群体；

包括以下步骤：

步骤6：规定预定义阈值K，任选一个MAC地址与其他所有MAC地址对应的多类标签数值依次计算加权余弦距离，重复选择所有的MAC地址进行上述计算，使所有的MAC地址之间都有一个加权余弦距离；

步骤7：根据预定义阈值K和加权余弦距离对所有MAC地址进行群体划分。

2.如权利要求1所述的基于多标签的室内人群聚类方法，其特征在于：步骤1中AP设备采集到区域内所有的移动终端的MAC地址和RSSI值，每隔一秒采集一次然后发送到服务器中。

3.如权利要求1所述的基于多标签的室内人群聚类方法，其特征在于：步骤2中服务器程序根据RSSI的强弱判断该移动终端的是否在区域内，如果在区域内则状态为1，不在区域内状态为0，如果采集不到数据也为0，然后将状态序列进行存储。

4.如权利要求1所述的基于多标签的室内人群聚类方法，其特征在于：步骤3中针对每个MAC地址计算其停留该区域时间最长的一个时段的访问时间，在状态序列中，取出连续的由“1”组成的最长序列的起始时间即为停留该区域时间最长的一个时段的访问时间。

5.如权利要求1所述的基于多标签的室内人群聚类方法，其特征在于：步骤4中针对每个MAC地址计算其每次驻留该区域的平均时间，在状态序列中，过滤掉小于30秒的访问时间，其余访问时长取平均值得到每次驻留该区域的平均时间。

6.如权利要求1所述的基于多标签的室内人群聚类方法，其特征在于：步骤5中针对每个MAC地址计算其回访周期的平均值，在状态序列中，获取状态为连续0的序列的时长，去掉第一个连续0序列和最后一个连续0序列，剩余的0序列取平均值得到回访周期的平均值。

7.如权利要求1所述的基于多标签的室内人群聚类方法，其特征在于：步骤6中，手动设置预定义阈值K，根据具体场景进行调整，加权余弦距离权重A、B、C也为人工设定，每个MAC地址对应的停留该区域时间最长的一个时段的访问时间、每次驻留该区域的平均时间、回访周期的平均值的数值分别为a、b、c，使用一个二维数组d[N][N]，N表示所有MAC地址的数量，d[i][j]表示第i个MAC地址与第j个MAC地址的加权余弦距离。

8.如权利要求7所述的基于多标签的室内人群聚类方法，其特征在于：步骤7中，根据预定义阈值K和二维数组d[N][N]划分不同的群体，具体包括如下步骤：

步骤S1：i设置为0，j设置为1； I群体表示第i个MAC地址属于的群体；

步骤S2：x为I群体中所有MAC地址的下标，循环判断d[x][j]是否超过半数小于预定义阈值K，如果是，则进入步骤S3，否则进入步骤S4；

步骤S3：将第i个MAC地址、第j个MAC地址归为一个群体，第j个MAC地址标记为已归类；

步骤S4：j设置为下一个未归类的下标；

步骤S5：重复步骤S2-S4直到j等于N；

步骤S6： y为未归类的所有MAC地址的下标，遍历所有y，再次判断第y个MAC地址是否属于I群体，如果是进入步骤S7，否则进入步骤S8；

步骤S7：将第y个MAC地址与第i个MAC地址归为一个群体，第y个MAC地址标记为已归类；

步骤S8：y设为下一个未归类的下标；

步骤S9：重复步骤S6-S8直到第一次遍历完未归类的下标；

步骤S10：设置i为第一个未归类的下标；

步骤S11：设置j为第二个未归类的下标；