CN112188478B - 基于大数据分析的常驻人口数据采集方法 - Google Patents

基于大数据分析的常驻人口数据采集方法 Download PDF

Info

Publication number
CN112188478B
CN112188478B CN202011045900.XA CN202011045900A CN112188478B CN 112188478 B CN112188478 B CN 112188478B CN 202011045900 A CN202011045900 A CN 202011045900A CN 112188478 B CN112188478 B CN 112188478B
Authority
CN
China
Prior art keywords
mac address
address information
big data
resident population
data analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011045900.XA
Other languages
English (en)
Other versions
CN112188478A (zh
Inventor
张兴凤
万敏
蔡巍伟
靳旭哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Xinzailing Technology Co ltd
Original Assignee
Zhejiang Xinzailing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Xinzailing Technology Co ltd filed Critical Zhejiang Xinzailing Technology Co ltd
Priority to CN202011045900.XA priority Critical patent/CN112188478B/zh
Publication of CN112188478A publication Critical patent/CN112188478A/zh
Application granted granted Critical
Publication of CN112188478B publication Critical patent/CN112188478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W8/00Network data management
    • H04W8/22Processing or transfer of terminal data, e.g. status or physical capabilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2101/00Indexing scheme associated with group H04L61/00
    • H04L2101/60Types of network addresses
    • H04L2101/618Details of network addresses
    • H04L2101/622Layer-2 addresses, e.g. medium access control [MAC] addresses
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Maintenance And Inspection Apparatuses For Elevators (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于大数据分析的常驻人口数据采集方法,包括以下步骤:a、采集乘坐电梯人员的手机Mac地址信息,并实时传输至大数据存储系统;b、对大数据存储系统中的Mac地址信息进行预处理;c、对预处理后的Mac地址信息进行大数据分析,构件常驻人口库。本发明结合物联网、大数据技术,通过安装在电梯内的WiFi探针采集乘客手机Mac信息,利用spark实时计算分析,构建常驻人口信息库,为物业和城市管理提供有效的数据服务。

Description

基于大数据分析的常驻人口数据采集方法
技术领域
本发明涉及一种基于大数据分析的常驻人口数据采集方法。
背景技术
现有的常驻人口采集方式多为住户人员自动向公安系统进行报告注册登记。这样的方式难以保证登记全面,且登记的时效性较差,使城市管理更加困难。而随着城镇化政策的逐步贯彻,高楼大厦拔地而起,大量人口入驻,人口信息及时行之有效地采集对于城市管理举足轻重。作为人们日常高频出行的必用电梯这一垂直交通工具,在获取人口出行行为、分析常驻信息方面,扮演着不可替代的作用。一些现有技术中,通过采集电梯内的视频数据,从而获取乘梯人员的人脸数据和人体截图数据,以建立人员数据库,并以预定的时间间隔更新该数据中的人体属性。很明显,这样的技术依赖乘梯空间内的光线明暗程度、人员朝向等因素,因此对摄像头等硬件设备的要求较高,若摄像头精度较低,则其对于常驻人口统计的准确性也会较差。另外,这类技术需要轻量型的采集模型以及快速的推断速度,因此其普适性较差,一些技术不太发达的地区很难实现。可见,现有技术虽然在一定程度上能够实现对常驻人口的统计,但却仍然存在诸多缺陷。
发明内容
本发明的目的在于提供一种不受环境影响的基于大数据分析的常驻人口数据采集方法。
为实现上述发明目的,本发明提供一种基于大数据分析的常驻人口数据采集方法,包括以下步骤:
a、采集乘坐电梯人员的手机Mac地址信息,并实时传输至大数据存储系统;
b、对大数据存储系统中的Mac地址信息进行预处理;
c、对预处理后的Mac地址信息进行大数据分析,构件常驻人口库。
根据本发明的一个方面,在所述步骤(c)中,获取特定时间段内的Mac地址信息,以之作为基础进行聚合操作。
根据本发明的一个方面,对每个Mac地址信息分别计数出行总频次、有出行记录的日平均频次以及出行总天数。
根据本发明的一个方面,判断各Mac地址信息对应的人员是否为常驻人口,判断条件为:
S1:出行总频次超过第一预设阈值;
S2:有出行记录的日平均频次超过第二预设阈值;
S3:出行总天数超过第三预设阈值;
判断过程为:
同时满足上述三个条件则判定Mac地址信息对应的人员为常驻人口。根据本发明的一个方面,定期重复所述步骤(c)对常驻人口库进行更新。
根据本发明的一个方面,在所述步骤(c)中,还包括根据出行总频次、有出行记录的日平均频次和出行总天数对人员进行标签画像。
根据本发明的一个方面,在所述步骤(a)中,利用安装在电梯轿厢内的WiFi探针采集Mac地址信息,并制定传输协议,将Mac地址信息实时传输至大数据存储系统。
根据本发明的一个方面,在所述步骤(b)中,预处理的步骤包括:
去重操作,将被连续采集到的时间间隔小于2s的相同Mac地址信息去除;
缺失数据处理,将连续7天未被采集到的Mac地址信息进行删除或利用分析日前30天的数据进行补充,补充方法为均值插值法。
根据本发明的一个方面,特定时间为分析日前30天,第一预设阈值为45,第二预设阈值为1.8,第三预设阈值为24;
在节假日或特殊时期以上各参数值翻倍。
根据本发明的一个方面,每天重复一次所述步骤(c)对常驻人口库进行更新。
根据本发明的构思,通过安装在电梯内的WiFi探针采集乘客手机Mac信息,利用spark实时计算分析,构建常驻人口信息库,以为物业和城市管理提供有效的数据服务。由此,本发明基于电梯场景并结合物联网和大数据技术,不依赖于住户的主动登记,而是根据住户日常乘梯出行习惯行为大数据,实时分析构建楼宇常驻人口,防干扰式补录采集,且准确性和时效性可以保证。
附图说明
图1示意性表示本发明的一种实施方式的基于大数据分析的常驻人口数据采集方法的流程图。
具体实施方式
为了更清楚地说明本发明实施方式或现有技术中的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图和具体实施方式对本发明作详细地描述,实施方式不能在此一一赘述,但本发明的实施方式并不因此限定于以下实施方式。
参见图1,根据本发明的构思,通过采集进入电梯内乘梯人员的手机Mac地址,从而获取电梯在一段时间内的人员流动量。利用大数据对收集到的Mac地址信息进行统计分析,最终判断出电梯对应楼栋的常驻人口。采集手机Mac地址无需使用摄像头等精度要求较高的硬件设备,并且不会受到灯光等电梯内部环境的影响。
在本实施方式中,负责采集乘梯人员的手机Mac地址信息的采集模块采用wifi探针完成采集工作。同时,需要制定传输协议,从而可以实时地将其采集到的Mac地址信息传输至大数据存储系统。随即由预处理模块对大数据存储系统中储存的数据进行清洗等预处理操作,从而可以筛除例如短期不带手机乘梯等特殊情况。具体的,在本实施方式中,预处理包括了去重操作和缺失数据处理。去重操作为去除大数据存储系统中的重复数据,而重复数据的判定指标为,当同一个Mac地址信息被连续采集到的时间间隔小于2s,即可判定为重复数据。缺失数据处理为对有缺失的数据进行选择性的删除或补全。在本实施方式中,一个Mac地址信息连续7天未被采集到,则判定为缺失数据。对这类数据采取的措施可以为删除,或者也可以利用分析日前30天的数据进行补充,补充方法为均值插值法。当然,上述删除操作属于短时删除,即,若7天后仍采到相应数据则在后续分析的过程中依然应将其考虑在内。
经过预处理的Mac地址信息构成了干净数据集,随即可由常驻人口库构建模块对这一数据集中的数据进行大数据分析。该模块主要工作为根据Mac信息分析电梯对应楼栋的人员的出行规律,从而构建常驻人口库。首先,获取特定时间段内的目标电梯中采集的Mac地址信息(即干净数据集),以Mac地址信息作为key,利用spark进行聚合count操作。该操作具体为对Mac地址信息中的每个Mac分别计数出行总频次F1、有出行记录的日平均频次F2以及出行总天数F3。然后利用大数据分析算法,针对于上述F1-F3这三个指标,判断某Mac是否为常驻Mac,即判断相应Mac地址信息对应的人员是否为常驻人口。具体的判断条件为:
S1:出行总频次F1超过第一预设阈值t1;
S2:有出行记录的日平均频次F2超过第二预设阈值t2;
S3:出行总天数F3超过第三预设阈值t3。
基于条件S1、条件S2和条件S3,作为某Mac是否常驻人口Mac地址信息的最终判断。本实施方式中,同时满足上述三个条件则可以将对应Mac判断为常驻人口Mac地址信息。当然,在其他实施方式中,还可以依托逻辑和/或运算进行其他模式的判断,具体还应依靠实际情况判断。在本发明中,上述特定时间段为分析日前30天,t1可以取45,t2可以取1.8,t3可以取24。当然,上述例如特定时间段以及t1-t3等关键数值参数均针对于平常时期,即可以根据是否为节假日或者特殊时期,对各参数进行动态调整。例如,在节假日期间可以将上述关键参数扩充至日常的2倍。
经过上述步骤即可得到一个常驻人口库,此外,本发明还对住户人员的出行规律或习惯(即t1-t3)进行分析,从而可以对人员进行标签画像。具体的,可人员的出行规律对人群进行分类,例如工作日早晚出行有规律的人群、工作日出行但周末不出行的人群以及白天不出行但晚上规律出行的人群等。对这些人群分类后即可对其进行标签画像,此类标签可以为相关部门管理以及广告投放提供科学的依据。
为了保证常驻人口库的时效性,本发明还对常驻人口库进行定期的动态更新。具体的,可以每隔一段时间就由常驻人口库构建模块重复进行常驻人口库的构建操作。在本实施方式中,每天即构建一次,同样,节假日等特殊时期可将此间隔时间段进行相应的调整扩充。
综上所述,本发明提供了一种融合物联网、大数据技术的常驻人口采集方法,该方法对硬件设备要求低,且实施简单。并且,准确性和时效性都可以保证,能够为物业以及城市公共管理提供有效的数据服务。
以上所述仅为本发明的一个实施方式而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于大数据分析的常驻人口数据采集方法,包括以下步骤:
a、采集乘坐电梯人员的手机Mac地址信息,并实时传输至大数据存储系统;
b、对大数据存储系统中的Mac地址信息进行预处理;
c、对预处理后的Mac地址信息进行大数据分析,构建常驻人口库;
在所述步骤(c)中,获取特定时间段内的Mac地址信息,以特定时间段内的Mac地址信息作为基础进行聚合操作,对每个Mac地址信息分别计数出行总频次(F1)、有出行记录的日平均频次(F2)以及出行总天数(F3),还包括根据出行总频次(F1)、有出行记录的日平均频次(F2)和出行总天数(F3)对人员进行标签画像;
判断各Mac地址信息对应的人员是否为常驻人口,判断条件为:
S1:出行总频次(F1)超过第一预设阈值(t1);
S2:有出行记录的日平均频次(F2)超过第二预设阈值(t2);
S3:出行总天数(F3)超过第三预设阈值(t3);
判断逻辑为:
同时满足上述三个条件则判定Mac地址信息对应的人员为常驻人口;
特定时间为分析日前30天,第一预设阈值(t1)为45,第二预设阈值(t2)为1.8,第三预设阈值(t3)为24;
在节假日或特殊时期以上各参数值翻倍。
2.根据权利要求1所述的基于大数据分析的常驻人口数据采集方法,其特征在于,定期重复所述步骤(c)对常驻人口库进行更新。
3.根据权利要求1所述的基于大数据分析的常驻人口数据采集方法,其特征在于,在所述步骤(a)中,利用安装在电梯轿厢内的WiFi探针采集Mac地址信息,并制定传输协议,将Mac地址信息实时传输至大数据存储系统。
4.根据权利要求1所述的基于大数据分析的常驻人口数据采集方法,其特征在于,在所述步骤(b)中,预处理的步骤包括:
去重操作,将被连续采集到的时间间隔小于2s的相同Mac地址信息去除;
缺失数据处理,将连续7天未被采集到的Mac地址信息进行删除或利用分析日前30天的数据进行补充,补充方法为均值插值法。
5.根据权利要求2所述的基于大数据分析的常驻人口数据采集方法,其特征在于,每天重复一次所述步骤(c)对常驻人口库进行更新。
CN202011045900.XA 2020-09-29 2020-09-29 基于大数据分析的常驻人口数据采集方法 Active CN112188478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011045900.XA CN112188478B (zh) 2020-09-29 2020-09-29 基于大数据分析的常驻人口数据采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011045900.XA CN112188478B (zh) 2020-09-29 2020-09-29 基于大数据分析的常驻人口数据采集方法

Publications (2)

Publication Number Publication Date
CN112188478A CN112188478A (zh) 2021-01-05
CN112188478B true CN112188478B (zh) 2023-04-07

Family

ID=73945699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011045900.XA Active CN112188478B (zh) 2020-09-29 2020-09-29 基于大数据分析的常驻人口数据采集方法

Country Status (1)

Country Link
CN (1) CN112188478B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114363953B (zh) * 2021-05-26 2023-08-29 科大国创云网科技有限公司 一种基于多种数据源实现用户常住地入楼的方法及系统
CN113536256B (zh) * 2021-07-27 2023-02-24 江西高创保安服务技术有限公司 一种人口流动数据的统计分析方法、装置及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106128028A (zh) * 2016-07-21 2016-11-16 深圳奇迹智慧网络有限公司 一种基于mac码和人脸识别的人流预警方法
CN106251578A (zh) * 2016-08-19 2016-12-21 深圳奇迹智慧网络有限公司 基于探针的人流预警分析方法和系统
CN106600470A (zh) * 2016-11-07 2017-04-26 成都科曦科技有限公司 一种应用于酒店的智能电梯控制系统及方法
CN108011761A (zh) * 2017-12-06 2018-05-08 易居(中国)企业集团股份有限公司 基于大数据的采集和分析访客数据的方法
CN111163490A (zh) * 2019-12-13 2020-05-15 南京华苏软件有限公司 一种基于手机mac进行家庭住户分析方法
CN111212383A (zh) * 2018-11-01 2020-05-29 百度在线网络技术(北京)有限公司 区域常住人口数量的确定方法、装置、服务器和介质
CN111476596A (zh) * 2020-03-19 2020-07-31 深圳市酷开网络科技有限公司 基于同源设备的家庭人口数据处理方法、系统及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106128028A (zh) * 2016-07-21 2016-11-16 深圳奇迹智慧网络有限公司 一种基于mac码和人脸识别的人流预警方法
CN106251578A (zh) * 2016-08-19 2016-12-21 深圳奇迹智慧网络有限公司 基于探针的人流预警分析方法和系统
CN106600470A (zh) * 2016-11-07 2017-04-26 成都科曦科技有限公司 一种应用于酒店的智能电梯控制系统及方法
CN108011761A (zh) * 2017-12-06 2018-05-08 易居(中国)企业集团股份有限公司 基于大数据的采集和分析访客数据的方法
CN111212383A (zh) * 2018-11-01 2020-05-29 百度在线网络技术(北京)有限公司 区域常住人口数量的确定方法、装置、服务器和介质
CN111163490A (zh) * 2019-12-13 2020-05-15 南京华苏软件有限公司 一种基于手机mac进行家庭住户分析方法
CN111476596A (zh) * 2020-03-19 2020-07-31 深圳市酷开网络科技有限公司 基于同源设备的家庭人口数据处理方法、系统及存储介质

Also Published As

Publication number Publication date
CN112188478A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN112188478B (zh) 基于大数据分析的常驻人口数据采集方法
CN106251578A (zh) 基于探针的人流预警分析方法和系统
CN111464950B (zh) 一种使用手机信令数据提取出行停驻点的方法
CN112001829B (zh) 一种基于手机信令数据的人口分布判断方法
CN105681768A (zh) 一种通过通信数据实现人流实时监控的方法
US20130166352A1 (en) Mobile categorization
CN112016735B (zh) 一种基于交通违法热点预测的巡逻路线规划方法、系统和可读存储介质
CN111445369A (zh) 基于lbs大数据的城市大型聚集活动情报预警方法和装置
CN111539864A (zh) 一种基于lbs大数据的踩踏事件的情报分析方法和装置
CN110910293A (zh) 一种基于基站位置的地铁人群行为标签识别方法
CN111583699A (zh) 一种智慧化公交汽车监控系统
CN112446549A (zh) 基于大数据的城市垃圾智慧监管平台
CN114757389A (zh) 一种基于联邦学习的城市交通流量时空预测方法
CN116975785B (zh) 一种基于cim模型的多源异构数据融合分析方法及系统
WO2022143017A1 (zh) 一种交通数据仓库的构建方法、装置、存储介质及终端
CN115412857A (zh) 一种居民出行信息预测方法
Askari et al. Taxi demand prediction using an LSTM-based deep sequence model and points of interest
CN114298493A (zh) 一种公路运行监测系统、方法、终端及存储介质
CN116824868B (zh) 车辆非法停驻点识别及拥堵预测方法、装置、设备及介质
CN110928922B (zh) 一种基于大数据挖掘的公共政策分析模型部署方法及其系统
CN112862233A (zh) 一种基于车联网数据的故障关联性分析系统及方法
Klimek et al. Towards a better understanding and behavior recognition of inhabitants in smart cities. A public transport case
CN112613790A (zh) 应用于多站融合环境下的协同数据处理方法、设备及介质
Huang et al. Sensing Multi-modal Mobility Patterns: A Case Study of Helsinki using Bluetooth Beacons and a Mobile Application
CN115374291A (zh) 基于业务对象的知识库构建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant