CN112235825A - 基于物联网的wifi探针设备分析随机mac的方法 - Google Patents
基于物联网的wifi探针设备分析随机mac的方法 Download PDFInfo
- Publication number
- CN112235825A CN112235825A CN202011425859.9A CN202011425859A CN112235825A CN 112235825 A CN112235825 A CN 112235825A CN 202011425859 A CN202011425859 A CN 202011425859A CN 112235825 A CN112235825 A CN 112235825A
- Authority
- CN
- China
- Prior art keywords
- data
- mac
- mac address
- analyzing
- wireless terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/08—Testing, supervising or monitoring using real traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2101/00—Indexing scheme associated with group H04L61/00
- H04L2101/60—Types of network addresses
- H04L2101/618—Details of network addresses
- H04L2101/622—Layer-2 addresses, e.g. medium access control [MAC] addresses
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于物联网的WIFI探针设备分析随机MAC的方法,包括步骤:S1设备部署,基于应用场景的布点和楼栋场景的布点原则进行WIFI探针设备部署;S2数据采集,连接WIFI探针设备,对无线终端设备进行应用场景内的实体数据的采集;S3数据处理,对采集的数据进行抽取、转换、加载处理,并判断是否存在异常值和重复值,若存在,则对数据的异常值和重复值进行处理,从而获得预处理数据;S4数据分析,根据步骤S3中获得的预处理数据,对无线终端设备的随机MAC地址进行过滤,从而得到无线终端设备的真实MAC地址。该方法将AP下挂载的真实MAC地址分析出来,有利于后期的数据清洗、数据分析及数据挖掘。
Description
技术领域
本发明涉及无线通信技术领域,尤其是涉及一种基于物联网的WIFI探针设备分析随机MAC的方法。
背景技术
近年来,无线通信行业技术领域取得了飞跃的发展,MAC地址作为网络设备的网络识别标识,在网络通信中起到至关重要的作用,但是很多无线终端设备在搜索和连接无线网络的过程中会产生大量的随机MAC地址,这就造成我们在进行一些分析的时候无法基于真实的MAC地址分析出想要的结果。
随着WiFi探针的应用不断深入和扩展,在数据抓取的过程中我们会发现终端(手机、iPad)会发出大量的随机MAC地址,使得获取到过多的随机数据,不便于数据的清洗和分析。
手机厂商为完善手机安全机制,避免被追踪和泄露隐私,在未连接AP时,暴露出来的MAC地址非本机真实的MAC地址,而是随机发出的大量非真实MAC地址。随机发出的数量可能为数十条、数百条或者更多,没有一定的规律。
这样就导致在基于MAC地址分析数据的时候,数据冗余大、数据不精确、一人一MAC关联失败等,就需要一种精确的方法实现对伪MAC的识别,过滤出真实MAC用于分析,保证分析结果的精准度。
因此,在窄带低速载波技术背景下,需要开发一种基于物联网的WIFI探针设备分析随机MAC的方法,可以将无线终端设备下挂载的真实MAC地址分析出来,有利于后期的数据清洗、数据分析及数据挖掘。
发明内容
本发明要解决的技术问题是,提供一种基于物联网的WIFI探针设备分析随机MAC的方法,可以将无线终端设备下挂载的真实MAC地址分析出来,有利于后期的数据清洗、数据分析及数据挖掘。
为了解决上述技术问题,本发明采用的技术方案是:该基于物联网的WIFI探针设备分析随机MAC的方法,具体包括以下步骤:
S1设备部署:基于应用场景的布点和楼栋场景的布点原则进行WIFI探针设备部署;
S2数据采集:通过有线或者无线的方式连接所述步骤S1中的WIFI探针设备,对无线终端设备进行应用场景内的实体数据的采集;
S3数据处理:对所述步骤S2中采集的数据进行抽取、转换、加载处理,并判断是否存在异常值和重复值,若存在,则对数据的异常值和重复值进行处理,从而获得预处理数据;
S4数据分析:根据步骤S3中获得的预处理数据,对无线终端设备的随机MAC地址进行过滤,从而得到无线终端设备的真实MAC地址。
本发明进一步改进在于,还包括步骤S5数据存储,根据步骤S3和步骤S4中数据存储原则,结合数据的特点采用混搭架构的数据中心,采用基于分布式文件系统和分布式NoSQL数据库来管理非结构化及半结构化的数据,同时利用MPP关系数据库对结构化数据进行深度分析挖掘。其中首先通过数据仓库标准可以分为四层:ODS(临时存储层)、PDW(数据仓库层)、DM(数据集市层)、APP(应用层)。
ODS层:为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。一般来说ODS层的数据和源系统的数据是同构的,主要目的是简化后续数据加工处理的工作。从数据粒度上来说ODS层的数据粒度是最细的。ODS层的表通常包括两类,一个用于存储当前需要加载的数据,一个用于存储处理完后的历史数据。历史数据一般保存3-6个月后需要清除,以节省空间。但不同的项目要区别对待,如果源系统的数据量不大,可以保留更长的时间,甚至全量保存;
PDW层:为数据仓库层,PDW层的MAC数据应该是一致的、准确的、干净的数据,即对MAC源系统数据进行了清洗(去除了杂质)后的数据。这一层的MAC数据都是遵循数据库第三范式,其MAC数据粒度通常和ODS的粒度相同。在PDW层会保存BI系统中所有的MAC历史数据,例如保存1年的MAC数据;
DM层:为数据集市层,这层MAC数据是面向主题来组织数据的,采用星形或雪花结构的数据。从数据粒度来说,这层的MAC数据是轻度汇总级的数据。主要的目的是为了保存分析MAC的明细数据;
APP层:为应用层,这一层构建真实MAC库供应用查询使用。从MAC数据粒度来说是高度汇总的数据。从MAC数据情况来说,为每一张报表在APP层构建一个模型来支持,达到以空间换时间的目的数据仓库的标准分层只是一个建议性质的标准,实际实施时需要根据实际情况确定数据仓库的分层,不同类型的数据也可能采取不同的分层方法。
作为本发明的优选技术方案,所述步骤S1中基于应用场景的布点和楼栋场景的布点原则为根据封闭式场景下楼栋间的实际距离、WIFI探针设备的采集范围、无线终端设备的WIFI信号强弱、建筑与室内环境遮挡及反射造成的信号波动的因素,在楼栋顶层、楼栋之间以及拐角处部署WIFI探针设备。
作为本发明的优选技术方案,所述步骤S3中首先采用KAFKA、POSTGRESQL、SQL语言对所述步骤S2中采集的数据进行抽取、转换、加载处理;再判断数据采集的周期是否满足,若不满足,则重新采集数据;若满足则采用排序法、频次法对数据异常值和重复值进行处理,再通过哈希算法对数据进行分组处理以提高分析的效率。其中采用KAFKA作为上游采集和下游消费的缓存中间站从而将上下游解耦,同时起到缓冲的作用,防止采集数据的速度大于消费数据的速度从而来不及消费,因源数据在采集解析时部分字段存在少数异常值、重复值的情况,根据时间、BSSID、MAC等关键字段进行分组排序过滤出序号为1的记录,在此基础上,根据BSSID分组统计每个BSSID对应SSID在分析周期内的采集次数,将采集次数最多的SSID替换其余对应的SSID,然后清洗后的数据通过哈希算法进行分区加载到POSTGRESQL中,用于后续的分析。
其中通过哈希算法对数据进行分组处理时,分组过程对于任意长度的明文,sha1可以产生160位的摘要;对明文的分组处理过程如下:
S31:对数据流尾部添加0x80标记,任意长度的明文首先需要添加位数,使明文总长度为448(mod512)位;将0x80 字节追加到数据流尾部以后,源数据流的整个长度将会发生变化,考虑到还要添加64位(8个字节)的位长度,必须填充0 以使修改后的源数据流是64字节(512位)的倍数;在明文后添加位的方法是第 一个添加位是l,其余都是0;
S32:然后将真正明文的长度(没有添加位以前的明文长度)以64位表示,附加于前面已添加过位的明文后,此时的明文长度正好是 512位的倍数;当明文长度大于2的64次方时,仅仅使用低64位比特填充,附加到最后一个分组的末尾。
S33:经过添加处理的明文,其长度正好为512位的整数倍,然后按512位的长度进行分组(block),可以划分成L份明文分组,我们用Y0,Y1,……,YL-1表示这些明文分组;
S34:Sha1默认数据流以big endian 方式存放。
这里哈希算法使用此方法时,先让关键码key乘上一个常数A (0< A < 1),提取乘积的小数部分;然后,再用整数n乘以这个值,对结果向下取整,把它作为散列的地址;其中散列函数为:
hash(key) = _LOW( n×(A×key%1));
其中,“A×key%1”表示取A×key 小数部分,即:A×key%1= A×key-_LOW(A×key),而_LOW(X)是表示对X取下整。
作为本发明的优选技术方案,所述步骤S4中对无线终端设备的随机MAC地址进行过滤的方法为:首先通过MAC地址前六位与OUI库匹配过滤掉部分的随机MAC,然后通过频次筛选法将无线终端设备产生的MAC地址在分析周期内上报次数小于一定阈值的去除,从而获取真实的MAC地址。
作为本发明的优选技术方案,所述WIFI探针设备是基于各种无线数据帧来获取无线终端设备的实体数据包括MAC地址信息以及对应无线终端设备连接路由器的名称、地址、信道、校验码以及上报的时间戳。
作为本发明的优选技术方案,所述步骤S2中采用流式采集数据的方式采集实时数据,流式采集数据的方式支持将数据按照消息、文件、数据库适配的方式与大数据平台进行数据接入与开放;实时数据采用流式数据采集技术,具备如下高性能,高实时性等特征:流式计算平台是面向数据流的,所有功能点定义的是对数据流的加工;对事件的处理采用消息队列和请求转发模式,因此有很高的事件吞吐能力;每个事件进入每个处理节点后,前面的节点无需等待后续节点的处理,当前处理节点处理完事件后,也直接送到消息队列中,不再做后续处理,从而可以大幅度提升系统的处理能力;支持实时或者准实时处理大规模数据,可以快速响应各种业务的变化;和批量处理模式对数据的处理方式相比,流式处理能达到不低于批量处理的效率,数据处理更及时,可以做到秒级别的响应。
作为本发明的优选技术方案,所述步骤S4中对无线终端设备的随机MAC地址进行过滤的方法具体步骤为:
S41:将一个路由器的下一周采集到的无线终端设备的MAC地址的前六位与OUI库进行匹配;若能匹配则保留并存入MAC地址库,若不能匹配则转至步骤S42;
S42:将所述步骤S41中不能匹配的MAC地址通过频次筛选法进行过滤,经过SQL语言建立统计模型,分别得到每个MAC地址一周内的上报次数,并设置过滤阈值K,若上报次数大于或等于阈值K,则确认为无线终端设备的真实的MAC地址,则存入MAC地址库;若上报次数小于阈值K,则转到步骤S43;
S43:分析所述步骤S42中上报次数小于阈值K的MAC地址的平均每分钟的上报次数,并设置分钟阈值K1,将小于分钟阈值K1的MAC地址的记录去除,保留大于分钟阈值K1的MAC地址并存入MAC地址库;
S44:设置分析周期为T天,每隔T天拉取数据进行分析,将分析后的真实MAC地址存入MAC地址库。采用频次筛选法、匹配法、统计学思想结合,对无线终端设备的随机MAC地址进行过滤,最终得到无线终端的真实MAC地址。其中统计模型为现有技术。
作为本发明的优选技术方案,所述步骤S43中分析所述步骤S42中上报次数小于阈值K的MAC地址的平均每分钟的上报次数的具体步骤为:在分析周期内统计每个MAC地址的在线天数d、每天上传的次数Ri以及每天的在线分钟数Mi,平均每分钟上报的次数的计算公式为:
其中,C为平均每分钟上报的次数,当C大于或等于分钟阈值K1时则保留下来,表明其上传的规律满足真实MAC的上传规律,当C小于分钟阈值K1时则表明是随机MAC地址进行去除。
作为本发明的优选技术方案,所述步骤S42中的过滤阈值K为100,所述步骤S433中的分钟阈值K1为1.6。
相比现有技术,该技术方案具有的有益效果是:该基于物联网的WIFI探针设备分析随机MAC的方法可以精确识别MAC地址,实现对伪MAC的识别,过滤出真实MAC用于分析,保证分析结果的精准度;有利于后期的数据清洗、数据分析及数据挖掘。
附图说明
下面结合附图和本发明的实施方式进一步详细说明:
图1为本发明的基于物联网的WIFI探针设备分析随机MAC的方法的硬件结构框图。
具体实施方式
实施例:如图1所示,该基于物联网的WIFI探针设备分析随机MAC的方法,具体包括以下步骤:
S1设备部署:基于应用场景的布点和楼栋场景的布点原则进行WIFI探针设备部署;所述步骤S1中基于应用场景的布点和楼栋场景的布点原则为根据封闭式场景下楼栋间的实际距离、WIFI探针设备的采集范围、无线终端设备的WIFI信号强弱、建筑与室内环境遮挡及反射造成的信号波动的因素,在楼栋顶层、楼栋之间以及拐角处部署WIFI探针设备;所述WIFI探针设备是基于各种无线数据帧来获取无线终端设备的实体数据包括MAC地址信息以及对应无线终端设备连接路由器的名称、地址、信道、校验码以及上报的时间戳;
S2数据采集:通过有线或者无线的方式连接所述步骤S1中的WIFI探针设备,对无线终端设备进行应用场景内的实体数据的采集;所述步骤S2中采用流式采集数据的方式采集实时数据,流式采集数据的方式支持将数据按照消息、文件、数据库适配的方式与大数据平台进行数据接入与开放;实时数据采用流式数据采集技术,具备如下高性能,高实时性等特征:流式计算平台是面向数据流的,所有功能点定义的是对数据流的加工;对事件的处理采用消息队列和请求转发模式,因此有很高的事件吞吐能力;每个事件进入每个处理节点后,前面的节点无需等待后续节点的处理,当前处理节点处理完事件后,也直接送到消息队列中,不再做后续处理,从而可以大幅度提升系统的处理能力;支持实时或者准实时处理大规模数据,可以快速响应各种业务的变化;和批量处理模式对数据的处理方式相比,流式处理能达到不低于批量处理的效率,数据处理更及时,可以做到秒级别的响应;
S3数据处理:对所述步骤S2中采集的数据进行抽取、转换、加载处理,并判断是否存在异常值和重复值,若存在,则对数据的异常值和重复值进行处理,从而获得预处理数据;所述步骤S3中首先采用KAFKA、POSTGRESQL、SQL语言对所述步骤S2中采集的数据进行抽取、转换、加载处理;再判断数据采集的周期是否满足,若不满足,则重新采集数据;若满足则采用排序法、频次法对数据异常值和重复值进行处理,再通过哈希算法对数据进行分组处理以提高分析的效率。其中采用KAFKA作为上游采集和下游消费的缓存中间站从而将上下游解耦,同时起到缓冲的作用,防止采集数据的速度大于消费数据的速度从而来不及消费,因源数据在采集解析时部分字段存在少数异常值、重复值的情况,根据时间、BSSID、MAC等关键字段进行分组排序过滤出序号为1的记录,在此基础上,根据BSSID分组统计每个BSSID对应SSID在分析周期内的采集次数,将采集次数最多的SSID替换其余对应的SSID,然后清洗后的数据通过哈希算法进行分区加载到POSTGRESQL中,用于后续的分析;
其中通过哈希算法对数据进行分组处理时,分组过程对于任意长度的明文,sha1可以产生160位的摘要;对明文的分组处理过程如下:
S31:对数据流尾部添加0x80标记,任意长度的明文首先需要添加位数,使明文总长度为448(mod512)位;将0x80 字节追加到数据流尾部以后,源数据流的整个长度将会发生变化,考虑到还要添加64位(8个字节)的位长度,必须填充0 以使修改后的源数据流是64字节(512位)的倍数;在明文后添加位的方法是第 一个添加位是l,其余都是0;
S32:然后将真正明文的长度(没有添加位以前的明文长度)以64位表示,附加于前面已添加过位的明文后,此时的明文长度正好是 512位的倍数;当明文长度大于2的64次方时,仅仅使用低64位比特填充,附加到最后一个分组的末尾。
S33:经过添加处理的明文,其长度正好为512位的整数倍,然后按512位的长度进行分组(block),可以划分成L份明文分组,我们用Y0,Y1,……,YL-1表示这些明文分组;
S34:Sha1默认数据流以big endian 方式存放。
这里哈希算法使用此方法时,先让关键码key乘上一个常数A (0< A < 1),提取乘积的小数部分;然后,再用整数n乘以这个值,对结果向下取整,把它作为散列的地址;其中散列函数为:
hash(key) = _LOW( n×(A×key%1));
其中,“A×key%1”表示取A×key 小数部分,即:A×key%1= A×key-_LOW(A×key),而_LOW(X)是表示对X取下整。
S4数据分析:根据步骤S3中获得的预处理数据,对无线终端设备的随机MAC地址进行过滤,从而得到无线终端设备的真实MAC地址;
所述步骤S4中对无线终端设备的随机MAC地址进行过滤的方法具体步骤为:首先通过MAC地址前六位与OUI库匹配过滤掉部分的随机MAC,然后通过频次筛选法将无线终端设备产生的MAC地址在分析周期内上报次数小于一定阈值的去除,从而获取真实的MAC地址;
S41:将一个路由器的下一周采集到的无线终端设备的MAC地址的前六位与OUI库进行匹配;若能匹配则保留并存入MAC地址库,若不能匹配则转至步骤S42;
例如:路由器下挂的MAC数据信息为:{1C48CE**6***,20F77C**3***,2EF329**D***,58C6F0**C***,BC0963**B***,FCBE7B**D***,207918**0***,20EE28**1***,D8CE3A**6***,12F94D**4***,36B08E**1***,923304**E***,446EE5**93**,446EE5***0**,446EE5*****4,446EE5***F**,446EE5**A***,446EE5**C***,446EE5*****2,446EE5****F*,446EE5****F6,446EE5***A**,446EE5*F****,446EE5**6***,446EE5E*****,B48B19**A***,B48B192*****,B48B19**6**D,B48B19***1**},经过与OUI库关联去除{36B08E**1***,12F94D**4***,923304**E***}这三个随机MAC地址;
S42:将所述步骤S41中不能匹配的MAC地址通过频次筛选法进行过滤,经过SQL语言建立统计模型,分别得到每个MAC地址一周内的上报次数,如表1所示,并设置过滤阈值K(K=100),若上报次数大于或等于阈值K,则确认为无线终端设备的真实的MAC地址,则存入MAC地址库;若上报次数小于阈值K,则转到步骤S43;因此,例如{1C48CE**6***,2EF329**D***,BC0963**B***,207918**0***,20EE28**1***,D8CE3A**6***,446EE5**93**,B48B195**C**},存入MAC地址库;
表1 测试AP下无线终端设备MAC地址的一周上传的次数
S43:不满足上报次数的过滤阈值K的MAC中也存在真实的MAC地址,这些MAC地址实际连接AP的时间较短,因此上报的次数较少,从而不满足频次筛选的条件,因此,通过分析这些MAC平均每分钟的上报次数,分析所述步骤S42中上报次数小于阈值K的MAC地址的平均每分钟的上报次数,并设置分钟阈值K1(K1=1.6),将小于分钟阈值K1的MAC地址的记录去除,保留大于分钟阈值K1的MAC地址并存入MAC地址库;因为真实MAC地址连接路由器后会连续上报,每分钟的上报次数远大于分钟阈值K1(假定K1≥ 1.6),在分析周期内统计每个MAC地址的在线天数d、每天上传的次数Ri以及每天的在线分钟数Mi,平均每分钟上报的次数的计算公式为:
其中,C为平均每分钟上报的次数,当C大于或等于分钟阈值1.6时则保留下来,表明其上传的规律满足真实MAC的上传规律,当C小于分钟阈值1.6时则表明是随机MAC地址进行去除;
因此,如表2所示,{20F77C**3***, 58C6F0**C***, FCBE7B**D*** }这三个MAC为真实的MAC地址则存入MAC地址库;
表2 测试AP下无线终端设备MAC地址的一周上传的次数小于过滤阀值K的MAC地址计算得到的平均每分钟采集上传次数
因此,最终筛选出的真实的MAC地址如表3所示;
表3 经过数据分析筛选出的真实的无线终端设备的MAC地址
S44:设置分析周期为T天,每隔T天拉取数据进行分析,将分析后的真实MAC地址存入MAC地址库;因WIFI探针存在漏采的问题,不能一次性的将场景下的所有真实MAC分析出来,因此采用周期性闭环分析的方式;
S5数据存储:根据步骤S3和步骤S4中数据存储原则,结合数据的特点采用混搭架构的数据中心,采用基于分布式文件系统和分布式NoSQL数据库来管理非结构化及半结构化的数据,同时利用MPP关系数据库对结构化数据进行深度分析挖掘。其中首先通过数据仓库标准上可以分为四层:ODS(临时存储层)、PDW(数据仓库层)、DM(数据集市层)、APP(应用层);
ODS层:为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。一般来说ODS层的数据和源系统的数据是同构的,主要目的是简化后续数据加工处理的工作。从数据粒度上来说ODS层的数据粒度是最细的。ODS层的表通常包括两类,一个用于存储当前需要加载的数据,一个用于存储处理完后的历史数据。历史数据一般保存3-6个月后需要清除,以节省空间。但不同的项目要区别对待,如果源系统的数据量不大,可以保留更长的时间,甚至全量保存;
PDW层:为数据仓库层,PDW层的MAC数据应该是一致的、准确的、干净的数据,即对MAC源系统数据进行了清洗(去除了杂质)后的数据。这一层的MAC数据都是遵循数据库第三范式,其MAC数据粒度通常和ODS的粒度相同。在PDW层会保存BI系统中所有的MAC历史数据,例如保存1年的MAC数据;
DM层:为数据集市层,这层MAC数据是面向主题来组织数据的,采用星形或雪花结构的数据。从数据粒度来说,这层的MAC数据是轻度汇总级的数据。主要的目的是为了保存分析MAC的明细数据;
APP层:为应用层,这一层构建真实MAC库供应用查询使用。从MAC数据粒度来说是高度汇总的数据。从MAC数据情况来说,为每一张报表在APP层构建一个模型来支持,达到以空间换时间的目的数据仓库的标准分层只是一个建议性质的标准,实际实施时需要根据实际情况确定数据仓库的分层,不同类型的数据也可能采取不同的分层方法。
上面结合附图对本发明的实施方式作了详细的说明,但是本发明不限于上述实施方式,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (10)
1.一种基于物联网的WIFI探针设备分析随机MAC的方法,其特征在于,具体包括以下步骤:
S1设备部署:基于应用场景的布点和楼栋场景的布点原则进行WIFI探针设备部署;
S2数据采集:通过有线或者无线的方式连接所述步骤S1中的WIFI探针设备,对无线终端设备进行应用场景内的实体数据的采集;
S3数据处理:对所述步骤S2中采集的数据进行抽取、转换、加载处理,并判断是否存在异常值和重复值,若存在,则对数据的异常值和重复值进行处理,从而获得预处理数据;
S4数据分析:根据步骤S3中获得的预处理数据,对无线终端设备的随机MAC地址进行过滤,从而得到无线终端设备的真实MAC地址。
2.根据权利要求1所述的基于物联网的WIFI探针设备分析随机MAC的方法,其特征在于,还包括步骤S5数据存储,根据步骤S3和步骤S4中数据存储原则,结合数据的特点采用混搭架构的数据中心,采用基于分布式文件系统和分布式NoSQL数据库来管理非结构化及半结构化的数据,同时利用MPP关系数据库对结构化数据进行深度分析挖掘。
3.根据权利要求2所述的基于物联网的WIFI探针设备分析随机MAC的方法,其特征在于,所述步骤S1中基于应用场景的布点和楼栋场景的布点原则为根据封闭式场景下楼栋间的实际距离、WIFI探针设备的采集范围、无线终端设备的WIFI信号强弱、建筑与室内环境遮挡及反射造成的信号波动的因素,在楼栋顶层、楼栋之间以及拐角处部署WIFI探针设备。
4.根据权利要求2所述的基于物联网的WIFI探针设备分析随机MAC的方法,其特征在于,所述步骤S3中首先采用KAFKA、POSTGRESQL、SQL语言对所述步骤S2中采集的数据进行抽取、转换、加载处理;再判断数据采集的周期是否满足,若不满足,则重新采集数据;若满足则采用排序法、频次法对数据异常值和重复值进行处理,再通过哈希算法对数据进行分组处理以提高分析的效率。
5.根据权利要求2所述的基于物联网的WIFI探针设备分析随机MAC的方法,其特征在于,所述步骤S4中对无线终端设备的随机MAC地址进行过滤的方法为:首先通过MAC地址前六位与OUI库匹配过滤掉部分的随机MAC,然后通过频次筛选法将无线终端设备产生的MAC地址在分析周期内上报次数小于一定阈值的去除,从而获取真实的MAC地址。
6.根据权利要求3所述的基于物联网的WIFI探针设备分析随机MAC的方法,其特征在于,所述WIFI探针设备是基于各种无线数据帧来获取无线终端设备的实体数据包括MAC地址信息以及对应无线终端设备连接路由器的名称、地址、信道、校验码以及上报的时间戳。
7.根据权利要求4所述的基于物联网的WIFI探针设备分析随机MAC的方法,其特征在于,所述步骤S2中采用流式采集数据的方式采集实时数据,流式采集数据的方式支持将数据按照消息、文件、数据库适配的方式与大数据平台进行数据接入与开放。
8.根据权利要求5所述的基于物联网的WIFI探针设备分析随机MAC的方法,其特征在于,所述步骤S4中对无线终端设备的随机MAC地址进行过滤的方法具体步骤为:
S41:将一个路由器的下一周采集到的无线终端设备的MAC地址的前六位与OUI库进行匹配;若能匹配则保留并存入MAC地址库,若不能匹配则转至步骤S42;
S42:将所述步骤S41中不能匹配的MAC地址通过频次筛选法进行过滤,经过SQL语言建立统计模型,分别得到每个MAC地址一周内的上报次数,并设置过滤阈值K,若上报次数大于或等于阈值K,则确认为无线终端设备的真实的MAC地址,则存入MAC地址库;若上报次数小于阈值K,则转到步骤S43;
S43:分析所述步骤S42中上报次数小于阈值K的MAC地址的平均每分钟的上报次数,并设置分钟阈值K1,将小于分钟阈值K1的MAC地址的记录去除,保留大于分钟阈值K1的MAC地址并存入MAC地址库;
S44:设置分析周期为T天,每隔T天拉取数据进行分析,将分析后的真实MAC地址存入MAC地址库。
10.根据权利要求9所述的基于物联网的WIFI探针设备分析随机MAC的方法,其特征在于,所述步骤S42中的过滤阈值K为100,所述步骤S433中的分钟阈值K1为1.6。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011425859.9A CN112235825B (zh) | 2020-12-09 | 2020-12-09 | 基于物联网的wifi探针设备分析随机mac的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011425859.9A CN112235825B (zh) | 2020-12-09 | 2020-12-09 | 基于物联网的wifi探针设备分析随机mac的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112235825A true CN112235825A (zh) | 2021-01-15 |
CN112235825B CN112235825B (zh) | 2021-03-16 |
Family
ID=74124703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011425859.9A Active CN112235825B (zh) | 2020-12-09 | 2020-12-09 | 基于物联网的wifi探针设备分析随机mac的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112235825B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107333260A (zh) * | 2017-06-26 | 2017-11-07 | 迈普通信技术股份有限公司 | 一种获取终端的真实mac地址的方法及装置 |
CN107623754A (zh) * | 2017-09-28 | 2018-01-23 | 武汉虹旭信息技术有限责任公司 | 基于真伪MAC识别的WiFi采集系统及其方法 |
US20180324142A1 (en) * | 2015-03-13 | 2018-11-08 | Intel IP Corporation | Systems and methods to enable network coordinated mac randomization for wi-fi privacy |
CN110493363A (zh) * | 2018-05-11 | 2019-11-22 | 上海鸥新软件有限公司 | 一种智能手机随机mac地址的辨别系统及方法 |
-
2020
- 2020-12-09 CN CN202011425859.9A patent/CN112235825B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180324142A1 (en) * | 2015-03-13 | 2018-11-08 | Intel IP Corporation | Systems and methods to enable network coordinated mac randomization for wi-fi privacy |
CN107333260A (zh) * | 2017-06-26 | 2017-11-07 | 迈普通信技术股份有限公司 | 一种获取终端的真实mac地址的方法及装置 |
CN107623754A (zh) * | 2017-09-28 | 2018-01-23 | 武汉虹旭信息技术有限责任公司 | 基于真伪MAC识别的WiFi采集系统及其方法 |
CN110493363A (zh) * | 2018-05-11 | 2019-11-22 | 上海鸥新软件有限公司 | 一种智能手机随机mac地址的辨别系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112235825B (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11757740B2 (en) | Aggregation of select network traffic statistics | |
WO2020078385A1 (zh) | 数据采集方法、装置、存储介质及系统 | |
CN106790468B (zh) | 一种分析用户WiFi活动轨迹规律的分布式实现方法 | |
CN104396188A (zh) | 用于对移动网络性能问题进行根本原因分析的系统和方法 | |
CN105827422B (zh) | 一种确定网元告警关联关系的方法及装置 | |
CN104243236A (zh) | 一种监控系统运维告警数据分析的方法、系统及服务器 | |
CN103916256B (zh) | 网络优化方法及装置、系统 | |
US20170332256A1 (en) | Methods and systems for optimizing wireless network performance using behavioral profiling of network devices | |
CN109151780A (zh) | 一种基于wifi探针的数据采集方法、装置及系统 | |
CN111831706A (zh) | 一种应用之间关联规则的挖掘方法、装置及存储介质 | |
CN116168222A (zh) | 轨迹识别方法和装置、存储介质及电子设备 | |
CN109952743B (zh) | 用于低内存和低流量开销大流量对象检测的系统和方法 | |
EP4092989B1 (en) | Measuring metrics of a computer network | |
CN110555452A (zh) | 一种基于智能聚类的网络问题处理方法及装置 | |
KR100681000B1 (ko) | 플로우별 트래픽 측정 장치 및 방법 | |
CN112235825B (zh) | 基于物联网的wifi探针设备分析随机mac的方法 | |
CN106326280B (zh) | 数据处理方法、装置及系统 | |
CN112134719A (zh) | 一种分析基站安全日志的方法和系统 | |
Cai et al. | Flow identification and characteristics mining from internet traffic with hadoop | |
CN107276807B (zh) | 一种基于社区动态紧密度的层次化网络社区树剪枝方法 | |
CN111461630B (zh) | 派送快递包裹的监控方法、装置、设备及存储介质 | |
CN117221088A (zh) | 一种计算机网络强度检测系统及装置 | |
Oliveira et al. | Measurement-driven mobile data traffic modeling in a large metropolitan area | |
WO2016206241A1 (zh) | 数据分析方法及装置 | |
CN107526808B (zh) | 实时数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |