CN113810475A - 一种基于大数据架构的Wifi探针设备管控系统 - Google Patents
一种基于大数据架构的Wifi探针设备管控系统 Download PDFInfo
- Publication number
- CN113810475A CN113810475A CN202111004741.3A CN202111004741A CN113810475A CN 113810475 A CN113810475 A CN 113810475A CN 202111004741 A CN202111004741 A CN 202111004741A CN 113810475 A CN113810475 A CN 113810475A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- probe
- analysis
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明公开了一种基于大数据架构的Wifi探针设备管控系统,涉及技术侦察和大数据技术领域。其包括Wifi探针设备集群子系统、单向光闸、数据接入子系统、业务应用子系统、数据集群子系统和网络交换机。本发明实现了一种分布式存储、内存式计算、高速实时比对和实时态势展示的基于大数据架构的Wifi探针设备管控系统,具有功能丰富、性能高效、配置灵活、可扩充能力强等优点,特别适合技术侦察和大数据技术领域中利用海量Wifi探针数据的场景,可针对重点人员的行为轨迹进行精准刻画和实时态势展示,具有较强的推广应用价值。
Description
技术领域
本发明属于技术侦察和大数据技术领域,尤其涉及一种基于大数据架构的Wifi探针设备管控系统。
背景技术
Wifi探针设备是一种基于IEEE 802.11协议的probe帧,可以主动识别并无感知获取智能手机、路由器、Pad、笔记本电脑等个人移动设备终端特征参数,包括MAC地址、Wifi网络名称、时间、Wifi信号强度、Wifi信号频道、经纬度等信息数据。通过对这些数据进行碰撞、关联分析与研判,可以实现特殊用户身份溯源、行为轨迹精准刻画,及时发现、了解、掌握事态发展情况并针对重点对象进行跟踪、定位、管控等,为执法部门管控特定用户上网行为、维护社会安全稳定提供有力保障。
然而,随着系统中大量Wifi探针设备部署与设备工作时间的积累,必然会产生海量采集数据,面临海量数据规模环境下的高吞吐传输、数据存储、实时统计分析等诸多技术挑战。
发明内容
有鉴于此,本发明的目的在于提供一种基于大数据架构的Wifi探针设备管控系统,可以为数据碰撞、关联分析研判提供支持,实现对特殊用户的身份溯源、行为轨迹精准刻画、实时态势展示,能够有效规范重点人群的上网行为。
为实现上述目的,本发明提供如下技术方案:
一种基于大数据架构的Wifi探针设备管控系统,包括Wifi探针设备集群子系统、单向光闸、数据接入子系统、业务应用子系统、数据集群子系统、网络交换机;
所述Wifi探针设备集群子系统用于采集海量Wifi探针数据;
所述单向光闸用于实现海量Wifi探针数据的单向传输;
所述数据接入子系统提供对海量Wifi探针数据的分布式接入、分布式存储、内存式分析计算与分布式推送服务;
所述业务应用子系统用于实现管控系统的管理配置、数据统计分析及结果展示;
所述数据集群子系统用于提供海量Wifi探针数据的分布式接收、分布式存储及内存式分析计算的硬件资源;
所述网络交换机用于实现数据集群子系统、数据接入子系统和业务应用子系统之间的网络连接。
进一步的,所述的Wifi探针设备集群子系统由部署在前端的多节点Wifi探针设备组成,Wifi探针设备将数据加密并每小时生成日志文件,并经单向光闸传输至专网内的数据接入子系统。
进一步的,所述的数据接入子系统包括Flume模块、Kafka模块、HDFS模块、Spark模块、Hive模块和Presto模块;
所述Flume模块包括Event、Channel和Sink,用于实时收集并接收海量Wifi探针数据;Flume模块首先将日志化的加密探针数据建模抽象化成Event单元,利用Channel的队列功能将Event单元队列化并简单缓存,Sink随后取出Channel中数据并实时传递给Kafka模块;其中,Flume模块启动2个Agent,Channel中单次取Event的最大参数transactionCapacity设置为50000,内存中允许存放的所有Event字节的最大参数byteCapacity设置为15000000,Sink中单次取Event的最大参数batchSize设置为50000;
所述Kafka模块包括Producer、Consumer和Topic,用于实时写入或读出数据;在写入数据阶段,Producer接收Flume模块传递的数据,将数据按照协议数据和用户数据进行分类并传递给Topic,Topic或者通过下一跳的Flume模块将数据实时传递给HDFS模块进行文件式存储,或者将数据传递给Spark模块进行数据实时解析;在数据读出阶段,Consumer订阅接收Topic传递的数据,并将数据进一步传递给Presto用以数据消费;其中,最大消息大小设置为10MB,数据消费默认超时时间设置为100ms;
所述HDFS模块包括NameNode、DataNode和JournalNode,用于分布式存储海量探针数据并提供高吞吐量的数据访问;NameNode接收Flume模块传递的数据,对数据进行分块化处理并将数据存储至DataNode,NameNode对DataNode进行管理并提供其与数据块之间的映射关系,JournalNode对整个数据存储访问过程的成功与否进行监督;其中,HDFS文件块大小设置为128MB,每个文件块配置2块文件副本;
所述Spark模块用于实现基于内存的分布式计算,对探针数据进行解析、分析计算;其中,对于数据实时解析、分析计算的情况,运行1个Spark任务,并为其配置3GB内存空间和2个CPU核;对于数据离线解析、分析计算的情况,运行20个Spark任务,并为其配置12GB内存空间和4个CPU核;
所述Hive模块包括HiveServer、MetaStore和DBService,用于提供大数据平台批处理计算能力,通过Spark模块实现对海量探针数据的实时/离线数据解析、分析计算;对于实时性要求较高的情况,对Kafka模块实时接收的数据进行数据解析、分析计算,具体方式为,HiveServer首先响应任务并通过MetaStore和DBService对Kafka模块接收的数据进行存取,生成Spark任务并提交给Spark模块进行数据解析、分析计算,将结果存入Hive模块的分布式数据库表;对于实时性要求不高的情况,对HDFS模块中已存储的文件进行离线数据解析、分析计算,具体方式为,HiveServer首先响应任务并通过MetaStore和DBService对HDFS模块中相应的数据进行存取,生成Spark任务并提交给Spark模块进行数据解析、分析计算,将结果存入Hive模块的分布式数据库表;其中,根据采集的探针数据特点,建立协议数据Hive库表和用户数据Hive库表分别对协议数据和用户数据进行存储,进一步提升数据查询、检索的效率;
所述Presto模块包括Client、Coordinator、Metastore和Worker,用于大数据级别分布式的查询引擎;业务应用子系统通过Client下发查询请求,Client通过Coordinator生成执行计划、分发执行任务并通过Metastore读取任务数据的存储位置信息,最后将任务信息和存储信息统一提交给Worker执行查询任务;查询结果放入内存并由业务应用子系统调用并展现;其中,Presto master端的max-memory设置为60GB,最大线程数max-worker-threads设置为10;slave端的max-memory设置为64GB,slave端的最大线程数max-worker-threads设置为10。
进一步的,所述的业务应用子系统包括系统管理平台、统计分析平台、案事件分析平台、系统配置平台、显控终端;
所述系统管理平台包括系统登录模块、设备管理模块、场所管理模块、厂商管理模块、联系人管理模块、升级管理模块;系统登录模块用于对操作员的用户名和密码身份信息进行验证,提供系统登录和退出;设备管理模块用于对系统探针设备实施管理,包括设备添加、删除、修改、查询、批量导入/导出、预警配置功能;场所管理模块用于对已部署的探针设备按照部署区域进行网格化分区管理,包括场所添加、删除、修改、查询、批量导入/导出功能;厂商管理模块用于对系统内不同生产厂商的探针设备进行管理,包括设备生产厂商及型号的添加、删除、修改、查询、批量导入/导出功能;联系人管理模块用于配置接收系统告警信息的工作人员,包括联系人添加、删除、修改、查询功能;升级管理模块用于对系统内已部署探针设备进行升级;
所述统计分析平台包括终端查询模块、到访查询模块、协议数据统计模块、轨迹查询模块、设备报警模块、在线统计模块、数据统计模块;终端查询模块用于查询指定时间段内目标移动终端被探针设备捕获的详细信息并以列表方式展现,包括场所名称、终端MAC、捕获时间、捕获探针设备MAC、捕获探针设备经纬度的信息;到访查询模块用于查询指定时间段内指定探针设备捕获的移动终端信息并以列表方式展现,包括场所名称、探针设备名称、探针设备MAC、终端MAC、到访用户数、终端类型、微信ID、QQ的信息;协议数据统计模块用于统计指定时间段内指定探针设备捕获的网络协议数据信息并以列表方式展现,包括协议名称、用户数的信息;轨迹查询模块用于查询指定时间段内目标移动终端的空间位置信息并在系统地图界面上对其移动轨迹进行展示;设备报警模块用于对系统内指定探针设备的上线和下线进行监测并配置相应的报警信息,包括探针设备名称、探针设备MAC、报警信息接收人、报警有效期、报警策略、报警级别;在线统计模块用于统计指定时间段内系统所有探针设备的在线情况并以图表方式展现;数据统计模块用于统计指定时间段内系统所有探针设备采集的探针数据情况并以图表方式展现;
所述案事件分析平台包括身份分析模块、碰撞分析模块、跟随分析模块、规律分析模块、重点人员布控模块、重点人员报警模块;身份分析模块用于分析目标终端的关联网络虚拟账号,并将结果以图表形式展现;碰撞分析模块用于分析指定时间段内多个指定探针设备采集的终端MAC的交集,并将结果以列表形式展现;跟随分析模块用于分析指定时间段内,与多个目标终端同时多次出现的同伙终端MAC并将结果以列表形式展现;规律分析模块用于分析多个目标终端在同一时间段内到访地点及上网情况规律,并将结果在同一图表进行对比展示;重点人员布控模块用于对重点人员在系统内进行报警布控,包括重点人员信息的添加、删除、修改、查询,以及布控信息配置及警情信息推送,包括有效时间、关联MAC、报警类型、报警级别、是否启用、警情信息接收人;重点人员报警模块用于将重点布控人员的警情信息在电子地图上进行显示;
所述系统配置平台包括用户管理模块、日志管理模块、场所审核模块、设备审核模块、密码管理模块;用户管理模块用于对系统登录用户进行管理,包括添加、删除、修改、查询及权限配置;日志管理模块用于实现对系统日志的查询,系统日志模块用于实现用户登录、添加、删除、修改、查询的操作;场所审核模块用于对系统新增场所的审核;设备审核模块用于对系统新增探针设备的审核;密码管理模块用于实现系统用户登录密码的重配置;
所述显控终端由1台商用台式电脑构成,用于向管控系统下发指令并显示结果。
进一步的,所述的数据集群子系统包括3台节点服务器;其中,第一节点服务器的配置为:内存128GB、硬盘2TB、具有2颗CPU,主频2.3GHz,每个CPU 16核,共32核;第二节点服务器的配置为:内存16GB、硬盘500GB、具有2颗CPU,主频2.1GHz,每个CPU 8核,共16核;第三节点服务器的内存、硬盘、CPU配置情况与第二节点服务器相同;3台节点服务器通过网络交换机相连;第一节点服务器作为集群管理节点和计算存储节点,部署Flume服务、Kafka服务、HDFS服务、Hive服务、Spark服务和Presto服务;第二节点服务器和第三节点服务器均作为计算存储节点,部署Flume服务、Kafka服务、HDFS服务、Spark服务和Presto服务。
本发明相比背景技术的有益效果在于:
(1)本发明采用大数据技术架构,能够实现对海量探针数据的分布式存取、内存式计算、高速实时比对和高吞吐传输,可对数十秒内产生的数千条、MB级别探针数据进行实时接收、解析、比对,支持对数亿条、GB级别探针数据的快速查询分析、高速比对。
(2)本发明能够在集群节点之间动态移动数据,保证各个节点的动态平衡,具有高效性;能够自动将失败的任务重新分配,具有高容错性。
(3)本发明支持存储容量和计算能力的在线扩容,当需要扩充时,仅需将配置好的新节点服务器在线加入集群子系统即可。
(4)本发明的业务应用功能丰富,依靠大数据技术优势,可以对重点人员的行为轨迹进行精准刻画和实时态势展示。
(5)本发明可同时集成处理视频、图像、文本等多源异构数据并具备机器学习能力,后期可扩充部署前端数据采集设备种类,实现对重点人员的多手段管控。
总之,本发明通过大数据架构技术实现海量数据高性能存取检索、分布式存储计算、高速实时比对,解决了海量数据规模下的数据高吞吐传输、数据存储、实时统计分析等问题,可为数据碰撞、关联分析研判提供支持,实现对特殊用户的身份溯源、行为轨迹精准刻画、实时态势展示,能够有效规范重点人群的上网行为。
附图说明
下面结合附图和具体实施方式对本发明作进一步的详细说明。以下实例用于说明本发明,但不用来限制本发明的范围。在不偏离本发明原理的前提下,本领域技术人员对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
图1是本发明实施实例的一个系统组成框图;
图2是图1中数据接入子系统架构图;
图3是图1中业务应用子系统组成图;
图4是数据集群子系统的节点服务器连接示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的详细说明。
一种基于大数据架构的Wifi探针设备管控系统,包括Wifi探针设备集群子系统、单向光闸、数据接入子系统、业务应用子系统、数据集群子系统、网络交换机。
所述Wifi探针设备集群子系统由部署在前端的多节点Wifi探针设备组成,用于采集海量Wifi探针数据,将数据加密并每小时生成日志文件经单向光闸传输至专网内的数据接入子系统。
所述单向光闸用于实现海量加密Wifi探针数据的单向传输。
所述数据接入子系统包括Flume模块、Kafka模块、HDFS模块、Spark模块、Hive模块和Presto模块,部署在数据集群子系统,依靠数据集群子系统的硬件资源,提供对海量探针数据的分布式接入、分布式存储、内存式分析计算与分布式推送等服务;
所述Flume模块主要由Event、Channel、Sink组成,用于实时收集并接收海量Wifi探针数据。Flume首先将日志化的加密探针数据建模抽象化成Event单元,利用Channel的队列功能将Event单元队列化并简单缓存,Sink随后取出Channel中数据并实时传递给Kafka模块。其中,Flume模块启动2个Agent,Channel中单次取Event的最大参数transactionCapacity设置为50000,内存中允许存放的所有Event字节的最大参数byteCapacity设置为15000000,Sink中单次取Event的最大参数batchSize设置为50000;
所述Kafka模块主要由Producer、Consumer、Topic组成,用于实时写入或读出数据。在写入数据阶段,Producer接收Flume传递的数据,将数据按照协议数据和用户数据进行分类并传递给Topic,Topic或者通过下一跳的Flume将数据实时传递给HDFS模块进行文件式存储或者将数据传递给Spark进行数据实时解析;在数据读出阶段,Consumer订阅接收Topic传递的数据,并将数据进一步传递给Presto用以数据消费。其中,最大消息大小设置为10MB,数据消费默认超时时间设置为100ms;
所述HDFS模块主要由NameNode、DataNode、JournalNode组成,用于分布式存储海量探针数据并提供高吞吐量的数据访问。NameNode接收Flume传递的数据,对数据分块化处理并将数据存储至DataNode,NameNode对DataNode进行管理并提供其与数据块之间的映射关系,JournalNode对整个数据存储访问过程的成功与否进行监督。其中,HDFS文件块大小设置为128MB,每个文件块配置2块文件副本;
所述Spark模块用于实现基于内存的分布式计算,对探针数据进行解析、分析计算等。其中,对于数据实时解析、分析计算的情况,运行1个Spark任务,并为其配置3G内存空间和2个CPU核;对于数据离线解析、分析计算的情况,运行20个Spark任务,并为其配置12G内存空间和4个CPU核;
所述Hive模块主要由HiveServer、MetaStore、DBService组成,用于提供大数据平台批处理计算能力,通过Spark实现对海量探针数据的实时/离线数据解析、分析计算。对于实时性要求较高的情况,对Kafka实时接收的数据进行数据解析、分析计算,HiveServer首先响应任务并通过MetaStore和DBService对Kafka接收的数据进行存取,生成Spark任务并提交给Spark进行数据解析、分析计算,将结果存入Hive的分布式数据库表;对于实时性要求不高的情况,对HDFS中已存储的文件进行离线数据解析、分析计算,HiveServer首先响应任务并通过MetaStore和DBService对HDFS中相应的数据进行存取,生成Spark任务并提交给Spark进行数据解析、分析计算,将结果存入Hive的分布式数据库表。其中,根据采集的探针数据特点,建立协议数据Hive库表和用户数据Hive库表分别对协议数据和用户数据进行存储,进一步提升数据查询、检索的效率;
所述Presto模块主要由Client、Coordinator、Metastore、Worker组成,用于大数据级别分布式的查询引擎。业务应用子系统通过Client下发查询请求,Client通过Coordinator生成执行计划、分发执行任务并通过Metastore读取任务数据的存储位置信息,最后将任务信息和存储信息统一提交给Worker执行查询任务。查询结果放入内存由业务应用子系统调用并展现。其中,Presto master端的max-memory设置为60GB,最大线程数max-worker-threads设置为10;slave端的max-memory设置为64GB,slave端的最大线程数max-worker-threads设置为10。
所述业务应用子系统包括系统管理平台、统计分析平台、案事件分析平台、系统配置平台、显控终端,用于实现管控系统的管理配置、数据统计分析及结果展示;
所述系统管理平台包括系统登录功能、设备管理功能、场所管理功能、厂商管理功能、联系人管理功能、升级管理功能。系统登录用于对操作员的用户名和密码身份信息进行验证,提供系统登录和退出;设备管理用于对系统探针设备实施管理,包括设备添加、删除、修改、查询、批量导入/导出、预警配置功能;场所管理用于对已部署的探针设备按照部署区域进行网格化分区管理,包括场所添加、删除、修改、查询、批量导入/导出功能;厂商管理用于对系统内不同生产厂商的探针设备进行管理,包括设备生产厂商及型号的添加、删除、修改、查询、批量导入/导出功能;联系人管理用于配置接收系统告警信息的工作人员,包括联系人添加、删除、修改、查询;升级管理用于对系统内已部署探针设备进行升级;
所述统计分析平台包括终端查询功能、到访查询功能、协议数据统计功能、轨迹查询功能、设备报警功能、在线统计功能、数据统计功能。终端查询用于查询指定时间段内目标移动终端被探针设备捕获的详细信息并以列表方式展现,包括场所名称、终端MAC、捕获时间、捕获探针设备MAC、捕获探针设备经纬度等信息;到访查询用于查询指定时间段内指定探针设备捕获的移动终端信息并以列表方式展现,包括场所名称、探针设备名称、探针设备MAC、终端MAC、到访用户数、终端类型、微信ID、QQ等信息;协议数据统计用于统计指定时间段内指定探针设备捕获的网络协议数据信息并以列表方式展现,包括协议名称、用户数;轨迹查询用于查询指定时间段内目标移动终端的空间位置信息并在系统地图界面将其移动轨迹进行展示;设备报警用于对系统内指定探针设备的上线和下线进行监测并配置相应的报警信息,包括探针设备名称、探针设备MAC、报警信息接收人、报警有效期、报警策略、报警级别等;在线统计用于统计指定时间段内系统所有探针设备的在线情况并以图表方式展现;数据统计用于统计指定时间段内系统所有探针设备采集的探针数据情况并以图表方式展现;
所述案事件分析平台包括身份分析功能、碰撞分析功能、跟随分析功能、规律分析功能、重点人员布控功能、重点人员报警功能。身份分析用于分析目标终端的关联网络虚拟账号,并将结果以图表形式展现;碰撞分析用于分析指定时间段内多个指定探针设备采集的终端MAC的交集,并将结果以列表形式展现;跟随分析用于分析指定时间段内,与多个目标终端同时多次出现的同伙终端MAC并将结果以列表形式展现;规律分析用于分析多个目标终端在同一时间段内到访地点及上网情况规律,并将结果在同一图表进行对比展示;重点人员布控用于对重点人员在系统内进行报警布控,包括重点人员信息的添加、删除、修改、查询,以及布控信息配置及警情信息推送,包括有效时间、关联MAC、报警类型、报警级别、是否启用、警情信息接收人;重点人员报警用于将重点布控人员的警情信息在电子地图上进行显示;
所述系统配置平台包括用户管理功能、日志管理功能、场所审核功能、设备审核功能、密码管理功能。用户管理用于对系统登录用户进行管理,包括添加、删除、修改、查询及权限配置;日志管理用于实现对系统日志的查询,系统日志包括用户登录、添加、删除、修改、查询等操作;场所审核用于对系统新增场所的审核;设备审核用于对系统新增探针设备的审核;密码管理用于实现系统用户登录密码的重配置;
所述显控终端由1台商用台式电脑构成,用于向管控系统下发指令并显示结果。
所述数据集群子系统由三台节点服务器构成,用于提供海量探针数据的分布式接收、分布式存储及内存式分析计算等硬件资源。其中,节点服务器1内存128GB、硬盘2TB、具有2颗CPU,主频2.3GHz,每个CPU 16核,共32核;节点服务器2内存16GB、硬盘500GB、具有2颗CPU,主频2.1GHz,每个CPU 8核,共16核;节点服务器3的内存、硬盘、CPU配置情况与节点服务器2相同。3台节点服务器通过网络交换机相连。节点服务器1作为集群管理节点和计算存储节点,主要部署Flume服务、Kafka服务、HDFS服务、Hive服务、Spark服务和Presto服务;节点服务器2和节点服务器3均作为计算存储节点,主要部署Flume服务、Kafka服务、HDFS服务、Spark服务和Presto服务。
所述网络交换机用于实现数据集群子系统、数据接入子系统和业务应用子系统之间的网络连接。
以下为一个更具体的例子:
如图1所示,一种基于大数据架构的Wifi探针设备管控系统。其中,部署在前端的Wifi探针设备集群子系统采集海量探针数据,将数据加密并逐小时生成日志文件经单向光闸单向实时传输至专网内的数据接入子系统。数据接入子系统一方面对实时性要求较高的日志文件进行实时解析、分析计算并存储至数据集群子系统;另一方面对实时性要求不高的日志文件首先存入数据接入子系统后再进行离线解析、分析计算。业务应用子系统通过网络交换机与数据集群子系统和数据接入子系统相连,并对数据接入子系统下发数据查询、检索、分析计算等指令。数据接入子系统响应指令并将指令生成任务提交给数据集群子系统,数据集群子系统执行任务并将结果通过数据接入子系统反馈给业务应用子系统的显控终端进行数据展示与业务呈现。其中,Wifi探针设备集群子系统的探针设备采用成都博纳神梭公司生产的设备,单向光闸、网络交换机、集群服务器和用于显控的台式电脑采用市售单向光闸、网络交换机、服务器和台式机。
图2所示为数据接入子系统的架构图。由Flume模块、Kafka模块、HDFS模块、Spark模块、Hive模块和Presto模块组成,部署在数据集群子系统,依靠数据集群子系统的硬件资源,提供对海量探针数据的分布式接入、分布式存取、内存式分析计算等服务。
其中,Flume模块主要由Event、Channel、Sink组成,用于实时收集并接收海量Wifi探针数据。Flume首先将日志化的加密探针数据建模抽象化成Event单元,利用Channel的队列功能将Event单元队列化并简单缓存,Sink随后取出Channel中数据并实时传递给Kafka模块。其中,Flume模块启动2个Agent,Channel中单次取Event的最大参数transactionCapacity设置为50000,内存中允许存放的所有Event字节的最大参数byteCapacity设置为15000000,Sink中单次取Event的最大参数batchSize设置为50000;
Kafka模块主要由Producer、Consumer、Topic组成,用于实时写入或读出数据。在写入数据阶段,Producer接收Flume传递的数据,将数据按照协议数据和用户数据进行分类并传递给Topic,Topic或者通过下一跳的Flume将数据实时传递给HDFS模块进行文件式存储或者将数据传递给Spark进行数据实时解析;在数据读出阶段,Consumer订阅接收Topic传递的数据,并将数据进一步传递给Presto用以数据消费。其中,最大消息大小设置为10MB,数据消费默认超时时间设置为100ms;
HDFS模块主要由NameNode、DataNode、JournalNode组成,用于分布式存储海量探针数据并提供高吞吐量的数据访问。NameNode接收Flume传递的数据,对数据分块化处理并将数据存储至DataNode,NameNode对DataNode进行管理并提供其与数据块之间的映射关系,JournalNode对整个数据存储访问过程的成功与否进行监督。其中,HDFS文件块大小设置为128MB,每个文件块配置2块文件副本;
Spark模块用于实现基于内存的分布式计算,对探针数据进行解析、分析计算等。其中,对于数据实时解析、分析计算的情况,运行1个Spark任务,并为其配置3G内存空间和2个CPU核;对于数据离线解析、分析计算的情况,运行20个Spark任务,并为其配置12G内存空间和4个CPU核;
Hive模块主要由HiveServer、MetaStore、DBService组成,用于提供大数据平台批处理计算能力,通过Spark实现对海量探针数据的实时/离线数据解析、分析计算。对于实时性要求较高的情况,对Kafka实时接收的数据进行数据解析、分析计算,HiveServer首先响应任务并通过MetaStore和DBService对Kafka接收的数据进行存取,生成Spark任务并提交给Spark进行数据解析、分析计算,将结果存入Hive的分布式数据库表;对于实时性要求不高的情况,对HDFS中已存储的文件进行离线数据解析、分析计算,HiveServer首先响应任务并通过MetaStore和DBService对HDFS中相应的数据进行存取,生成Spark任务并提交给Spark进行数据解析、分析计算,将结果存入Hive的分布式数据库表。其中,根据采集的探针数据特点,建立协议数据Hive库表和用户数据Hive库表分别对协议数据和用户数据进行存储,进一步提升数据查询、检索的效率;
Presto模块主要由Client、Coordinator、Metastore、Worker组成,用于大数据级别分布式的查询引擎。业务应用子系统首先通过Client下发查询请求,Client通过Coordinator生成执行计划、分发执行任务并通过Metastore读取任务数据的存储位置信息,最后将任务信息和存储信息统一提交给Worker执行查询任务。查询结果放入内存由业务应用子系统调用并展现。其中,Presto master端的max-memory设置为60GB,最大线程数max-worker-threads设置为10;slave端的max-memory设置为64GB,slave端的最大线程数max-worker-threads设置为10。
图3所示为业务应用子系统的组成图。包括系统管理平台、统计分析平台、案事件分析平台、系统配置平台和显控终端,用于实现管控系统的管理配置、数据统计分析及结果展示。
其中,系统管理平台包括系统登录功能、设备管理功能、场所管理功能、厂商管理功能、联系人管理功能、升级管理功能。系统登录用于对操作员的用户名和密码身份信息进行验证,提供系统登录和退出;设备管理用于对系统探针设备实施管理,包括设备添加、删除、修改、查询、批量导入/导出、预警配置功能;场所管理用于对已部署的探针设备按照部署区域进行网格化分区管理,包括场所添加、删除、修改、查询、批量导入/导出功能;厂商管理用于对系统内不同生产厂商的探针设备进行管理,包括设备生产厂商及型号的添加、删除、修改、查询、批量导入/导出功能;联系人管理用于配置接收系统告警信息的工作人员,包括联系人添加、删除、修改、查询;升级管理用于对系统内已部署探针设备进行升级;
统计分析平台包括终端查询功能、到访查询功能、协议数据统计功能、轨迹查询功能、设备报警功能、在线统计功能、数据统计功能。终端查询用于查询指定时间段内目标移动终端被探针设备捕获的详细信息并以列表方式展现,包括场所名称、终端MAC、捕获时间、捕获探针设备MAC、捕获探针设备经纬度等信息;到访查询用于查询指定时间段内指定探针设备捕获的移动终端信息并以列表方式展现,包括场所名称、探针设备名称、探针设备MAC、终端MAC、到访用户数、终端类型、微信ID、QQ等信息;协议数据统计用于统计指定时间段内指定探针设备捕获的网络协议数据信息并以列表方式展现,包括协议名称、用户数;轨迹查询用于查询指定时间段内目标移动终端的空间位置信息并在系统地图界面将其移动轨迹进行展示;设备报警用于对系统内指定探针设备的上线和下线进行监测并配置相应的报警信息,包括探针设备名称、探针设备MAC、报警信息接收人、报警有效期、报警策略、报警级别等;在线统计用于统计指定时间段内系统所有探针设备的在线情况并以图表方式展现;数据统计用于统计指定时间段内系统所有探针设备采集的探针数据情况并以图表方式展现;
案事件分析平台包括身份分析功能、碰撞分析功能、跟随分析功能、规律分析功能、重点人员布控功能、重点人员报警功能。身份分析用于分析目标终端的关联网络虚拟账号,并将结果以图表形式展现;碰撞分析用于分析指定时间段内多个指定探针设备采集的终端MAC的交集,并将结果以列表形式展现;跟随分析用于分析指定时间段内,与多个目标终端同时多次出现的同伙终端MAC并将结果以列表形式展现;规律分析用于分析多个目标终端在同一时间段内到访地点及上网情况规律,并将结果在同一图表进行对比展示;重点人员布控用于对重点人员在系统内进行报警布控,包括重点人员信息的添加、删除、修改、查询,以及布控信息配置及警情信息推送,包括有效时间、关联MAC、报警类型、报警级别、是否启用、警情信息接收人;重点人员报警用于将重点布控人员的警情信息在电子地图上进行显示;
系统配置平台包括用户管理功能、日志管理功能、场所审核功能、设备审核功能、密码管理功能。用户管理用于对系统登录用户进行管理,包括添加、删除、修改、查询及权限配置;日志管理用于实现对系统日志的查询,系统日志包括用户登录、添加、删除、修改、查询等操作;场所审核用于对系统新增场所的审核;设备审核用于对系统新增探针设备的审核;密码管理用于实现系统用户登录密码的重配置;
显控终端由1台商用台式电脑构成,用于向管控系统下发指令并显示结果。
图4所示为数据集群子系统的节点服务器连接示意图。其中,节点服务器1内存128GB、硬盘2TB、具有2颗CPU,主频2.3GHz,每个CPU 16核,共32核;节点服务器2内存16GB、硬盘500GB、具有2颗CPU,主频2.1GHz,每个CPU 8核,共16核;节点服务器3的内存、硬盘、CPU配置情况与节点服务器2相同。3台节点服务器通过网络交换机相连。节点服务器1作为集群管理节点和计算存储节点,主要部署Flume服务、Kafka服务、HDFS服务、Hive服务、Spark服务和Presto服务;节点服务器2和节点服务器3均作为计算存储节点,主要部署Flume服务、Kafka服务、HDFS服务、Spark服务和Presto服务。
本系统的优点包括:
(1)系统采用大数据技术架构,能够实现对海量探针数据的分布式存取、内存式计算、高速实时比对和高吞吐传输。可有效满足对数十秒内产生的数千条、MB级别探针数据进行实时接收、解析、比对,支持对数亿条、GB级别探针数据的快速查询分析、高速比对;
(2)系统能够在集群节点之间动态移动数据,保证各个节点的动态平衡,具有高效性;能够自动将失败的任务重新分配,具有高容错性;
(3)系统支持存储容量和计算能力的在线扩容,当需要扩充时,仅需将配置好的新节点服务器在线加入集群子系统即可;
(4)系统业务应用功能丰富,依靠大数据技术优势,可以对重点人员的行为轨迹进行精准刻画和实时态势展示;
(5)系统可同时集成处理视频、图像、文本等多源异构数据并具备机器学习能力,后期可扩充部署前端数据采集设备种类,实现对重点人员的多手段管控;
(6)可根据实际的数据生产环境和生产能力情况对数据集群子系统的节点数量进行灵活配置,有效节约实施成本。
总之,本发明实现了一种分布式存储、内存式计算、高速实时比对和实时态势展示的基于大数据架构的Wifi探针设备管控系统,具有功能丰富、性能高效、配置灵活、可扩充能力强等优点,特别适合技术侦察和大数据技术领域中利用海量Wifi探针数据的场景,可针对重点人员的行为轨迹进行精准刻画和实时态势展示,具有较强的推广应用价值。
Claims (5)
1.一种基于大数据架构的Wifi探针设备管控系统,其特征在于,包括Wifi探针设备集群子系统、单向光闸、数据接入子系统、业务应用子系统、数据集群子系统、网络交换机;
所述Wifi探针设备集群子系统用于采集海量Wifi探针数据;
所述单向光闸用于实现海量Wifi探针数据的单向传输;
所述数据接入子系统提供对海量Wifi探针数据的分布式接入、分布式存储、内存式分析计算与分布式推送服务;
所述业务应用子系统用于实现管控系统的管理配置、数据统计分析及结果展示;
所述数据集群子系统用于提供海量Wifi探针数据的分布式接收、分布式存储及内存式分析计算的硬件资源;
所述网络交换机用于实现数据集群子系统、数据接入子系统和业务应用子系统之间的网络连接。
2.根据权利要求1所述的一种基于大数据架构的Wifi探针设备管控系统,其特征在于,所述的Wifi探针设备集群子系统由部署在前端的多节点Wifi探针设备组成,Wifi探针设备将数据加密并每小时生成日志文件,并经单向光闸传输至专网内的数据接入子系统。
3.根据权利要求1所述的一种基于大数据架构的Wifi探针设备管控系统,其特征在于,所述的数据接入子系统包括Flume模块、Kafka模块、HDFS模块、Spark模块、Hive模块和Presto模块;
所述Flume模块包括Event、Channel和Sink,用于实时收集并接收海量Wifi探针数据;Flume模块首先将日志化的加密探针数据建模抽象化成Event单元,利用Channel的队列功能将Event单元队列化并简单缓存,Sink随后取出Channel中数据并实时传递给Kafka模块;其中,Flume模块启动2个Agent,Channel中单次取Event的最大参数transactionCapacity设置为50000,内存中允许存放的所有Event字节的最大参数byteCapacity设置为15000000,Sink中单次取Event的最大参数batchSize设置为50000;
所述Kafka模块包括Producer、Consumer和Topic,用于实时写入或读出数据;在写入数据阶段,Producer接收Flume模块传递的数据,将数据按照协议数据和用户数据进行分类并传递给Topic,Topic或者通过下一跳的Flume模块将数据实时传递给HDFS模块进行文件式存储,或者将数据传递给Spark模块进行数据实时解析;在数据读出阶段,Consumer订阅接收Topic传递的数据,并将数据进一步传递给Presto用以数据消费;其中,最大消息大小设置为10MB,数据消费默认超时时间设置为100ms;
所述HDFS模块包括NameNode、DataNode和JournalNode,用于分布式存储海量探针数据并提供高吞吐量的数据访问;NameNode接收Flume模块传递的数据,对数据进行分块化处理并将数据存储至DataNode,NameNode对DataNode进行管理并提供其与数据块之间的映射关系,JournalNode对整个数据存储访问过程的成功与否进行监督;其中,HDFS文件块大小设置为128MB,每个文件块配置2块文件副本;
所述Spark模块用于实现基于内存的分布式计算,对探针数据进行解析、分析计算;其中,对于数据实时解析、分析计算的情况,运行1个Spark任务,并为其配置3GB内存空间和2个CPU核;对于数据离线解析、分析计算的情况,运行20个Spark任务,并为其配置12GB内存空间和4个CPU核;
所述Hive模块包括HiveServer、MetaStore和DBService,用于提供大数据平台批处理计算能力,通过Spark模块实现对海量探针数据的实时/离线数据解析、分析计算;对于实时性要求较高的情况,对Kafka模块实时接收的数据进行数据解析、分析计算,具体方式为,HiveServer首先响应任务并通过MetaStore和DBService对Kafka模块接收的数据进行存取,生成Spark任务并提交给Spark模块进行数据解析、分析计算,将结果存入Hive模块的分布式数据库表;对于实时性要求不高的情况,对HDFS模块中已存储的文件进行离线数据解析、分析计算,具体方式为,HiveServer首先响应任务并通过MetaStore和DBService对HDFS模块中相应的数据进行存取,生成Spark任务并提交给Spark模块进行数据解析、分析计算,将结果存入Hive模块的分布式数据库表;其中,根据采集的探针数据特点,建立协议数据Hive库表和用户数据Hive库表分别对协议数据和用户数据进行存储,进一步提升数据查询、检索的效率;
所述Presto模块包括Client、Coordinator、Metastore和Worker,用于大数据级别分布式的查询引擎;业务应用子系统通过Client下发查询请求,Client通过Coordinator生成执行计划、分发执行任务并通过Metastore读取任务数据的存储位置信息,最后将任务信息和存储信息统一提交给Worker执行查询任务;查询结果放入内存并由业务应用子系统调用并展现;其中,Presto master端的max-memory设置为60GB,最大线程数max-worker-threads设置为10;slave端的max-memory设置为64GB,slave端的最大线程数max-worker-threads设置为10。
4.根据权利要求1所述的一种基于大数据架构的Wifi探针设备管控系统,其特征在于,所述的业务应用子系统包括系统管理平台、统计分析平台、案事件分析平台、系统配置平台、显控终端;
所述系统管理平台包括系统登录模块、设备管理模块、场所管理模块、厂商管理模块、联系人管理模块、升级管理模块;系统登录模块用于对操作员的用户名和密码身份信息进行验证,提供系统登录和退出;设备管理模块用于对系统探针设备实施管理,包括设备添加、删除、修改、查询、批量导入/导出、预警配置功能;场所管理模块用于对已部署的探针设备按照部署区域进行网格化分区管理,包括场所添加、删除、修改、查询、批量导入/导出功能;厂商管理模块用于对系统内不同生产厂商的探针设备进行管理,包括设备生产厂商及型号的添加、删除、修改、查询、批量导入/导出功能;联系人管理模块用于配置接收系统告警信息的工作人员,包括联系人添加、删除、修改、查询功能;升级管理模块用于对系统内已部署探针设备进行升级;
所述统计分析平台包括终端查询模块、到访查询模块、协议数据统计模块、轨迹查询模块、设备报警模块、在线统计模块、数据统计模块;终端查询模块用于查询指定时间段内目标移动终端被探针设备捕获的详细信息并以列表方式展现,包括场所名称、终端MAC、捕获时间、捕获探针设备MAC、捕获探针设备经纬度的信息;到访查询模块用于查询指定时间段内指定探针设备捕获的移动终端信息并以列表方式展现,包括场所名称、探针设备名称、探针设备MAC、终端MAC、到访用户数、终端类型、微信ID、QQ的信息;协议数据统计模块用于统计指定时间段内指定探针设备捕获的网络协议数据信息并以列表方式展现,包括协议名称、用户数的信息;轨迹查询模块用于查询指定时间段内目标移动终端的空间位置信息并在系统地图界面上对其移动轨迹进行展示;设备报警模块用于对系统内指定探针设备的上线和下线进行监测并配置相应的报警信息,包括探针设备名称、探针设备MAC、报警信息接收人、报警有效期、报警策略、报警级别;在线统计模块用于统计指定时间段内系统所有探针设备的在线情况并以图表方式展现;数据统计模块用于统计指定时间段内系统所有探针设备采集的探针数据情况并以图表方式展现;
所述案事件分析平台包括身份分析模块、碰撞分析模块、跟随分析模块、规律分析模块、重点人员布控模块、重点人员报警模块;身份分析模块用于分析目标终端的关联网络虚拟账号,并将结果以图表形式展现;碰撞分析模块用于分析指定时间段内多个指定探针设备采集的终端MAC的交集,并将结果以列表形式展现;跟随分析模块用于分析指定时间段内,与多个目标终端同时多次出现的同伙终端MAC并将结果以列表形式展现;规律分析模块用于分析多个目标终端在同一时间段内到访地点及上网情况规律,并将结果在同一图表进行对比展示;重点人员布控模块用于对重点人员在系统内进行报警布控,包括重点人员信息的添加、删除、修改、查询,以及布控信息配置及警情信息推送,包括有效时间、关联MAC、报警类型、报警级别、是否启用、警情信息接收人;重点人员报警模块用于将重点布控人员的警情信息在电子地图上进行显示;
所述系统配置平台包括用户管理模块、日志管理模块、场所审核模块、设备审核模块、密码管理模块;用户管理模块用于对系统登录用户进行管理,包括添加、删除、修改、查询及权限配置;日志管理模块用于实现对系统日志的查询,系统日志模块用于实现用户登录、添加、删除、修改、查询的操作;场所审核模块用于对系统新增场所的审核;设备审核模块用于对系统新增探针设备的审核;密码管理模块用于实现系统用户登录密码的重配置;
所述显控终端由1台商用台式电脑构成,用于向管控系统下发指令并显示结果。
5.根据权利要求1所述的一种基于大数据架构的Wifi探针设备管控系统,其特征在于,所述的数据集群子系统包括3台节点服务器;其中,第一节点服务器的配置为:内存128GB、硬盘2TB、具有2颗CPU,主频2.3GHz,每个CPU 16核,共32核;第二节点服务器的配置为:内存16GB、硬盘500GB、具有2颗CPU,主频2.1GHz,每个CPU 8核,共16核;第三节点服务器的内存、硬盘、CPU配置情况与第二节点服务器相同;3台节点服务器通过网络交换机相连;第一节点服务器作为集群管理节点和计算存储节点,部署Flume服务、Kafka服务、HDFS服务、Hive服务、Spark服务和Presto服务;第二节点服务器和第三节点服务器均作为计算存储节点,部署Flume服务、Kafka服务、HDFS服务、Spark服务和Presto服务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111004741.3A CN113810475A (zh) | 2021-08-30 | 2021-08-30 | 一种基于大数据架构的Wifi探针设备管控系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111004741.3A CN113810475A (zh) | 2021-08-30 | 2021-08-30 | 一种基于大数据架构的Wifi探针设备管控系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113810475A true CN113810475A (zh) | 2021-12-17 |
Family
ID=78942254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111004741.3A Pending CN113810475A (zh) | 2021-08-30 | 2021-08-30 | 一种基于大数据架构的Wifi探针设备管控系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113810475A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115913809A (zh) * | 2022-09-26 | 2023-04-04 | 重庆长安汽车股份有限公司 | 数据分发通信方法、系统、计算机设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150382212A1 (en) * | 2014-06-30 | 2015-12-31 | At&T Intellectual Property I, Lp | Method and apparatus for monitoring and adjusting multiple communication services at a venue |
CN107517131A (zh) * | 2017-08-31 | 2017-12-26 | 四川长虹电器股份有限公司 | 一种基于日志采集的分析预警方法 |
CN107864056A (zh) * | 2017-11-04 | 2018-03-30 | 公安部第三研究所 | 一种分布式事件采集探针、分布式事件高速采集系统及方法 |
CN108306962A (zh) * | 2018-01-30 | 2018-07-20 | 河海大学常州校区 | 一种商业大数据分析系统 |
CN108984610A (zh) * | 2018-06-11 | 2018-12-11 | 华南理工大学 | 一种基于大数据框架离线实时处理数据的方法及系统 |
CN109284296A (zh) * | 2018-10-24 | 2019-01-29 | 北京云睿科技有限公司 | 一种大数据pb级分布式信息存储与检索平台 |
-
2021
- 2021-08-30 CN CN202111004741.3A patent/CN113810475A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150382212A1 (en) * | 2014-06-30 | 2015-12-31 | At&T Intellectual Property I, Lp | Method and apparatus for monitoring and adjusting multiple communication services at a venue |
CN107517131A (zh) * | 2017-08-31 | 2017-12-26 | 四川长虹电器股份有限公司 | 一种基于日志采集的分析预警方法 |
CN107864056A (zh) * | 2017-11-04 | 2018-03-30 | 公安部第三研究所 | 一种分布式事件采集探针、分布式事件高速采集系统及方法 |
CN108306962A (zh) * | 2018-01-30 | 2018-07-20 | 河海大学常州校区 | 一种商业大数据分析系统 |
CN108984610A (zh) * | 2018-06-11 | 2018-12-11 | 华南理工大学 | 一种基于大数据框架离线实时处理数据的方法及系统 |
CN109284296A (zh) * | 2018-10-24 | 2019-01-29 | 北京云睿科技有限公司 | 一种大数据pb级分布式信息存储与检索平台 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115913809A (zh) * | 2022-09-26 | 2023-04-04 | 重庆长安汽车股份有限公司 | 数据分发通信方法、系统、计算机设备及存储介质 |
CN115913809B (zh) * | 2022-09-26 | 2024-05-03 | 重庆长安汽车股份有限公司 | 数据分发通信方法、系统、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766205B (zh) | 一种面向微服务调用过程跟踪的监控系统及方法 | |
CN109074377B (zh) | 用于实时处理数据流的受管理功能执行 | |
US20190081876A1 (en) | Real time anomaly detection for data streams | |
Lin et al. | A cloud server energy consumption measurement system for heterogeneous cloud environments | |
US10248674B2 (en) | Method and apparatus for data quality management and control | |
US20110153748A1 (en) | Remote forensics system based on network | |
CN111522922A (zh) | 日志信息查询方法、装置、存储介质及计算机设备 | |
CN110990473B (zh) | 标签数据处理系统和方法 | |
CN111258978B (zh) | 一种数据存储的方法 | |
Jeong et al. | Anomaly teletraffic intrusion detection systems on hadoop-based platforms: A survey of some problems and solutions | |
CN111405032A (zh) | 一种工业物联网通用云平台 | |
US20190050435A1 (en) | Object data association index system and methods for the construction and applications thereof | |
Xiong et al. | Design and implementation of a prototype cloud video surveillance system | |
CN111460031A (zh) | 一种数据同步的方法、装置、设备和介质 | |
CN108009010B (zh) | 瘦客户端的管理装置、系统、方法、电子设备、存储介质 | |
CN113722276A (zh) | 日志数据处理方法、系统、存储介质及电子设备 | |
CN110795026B (zh) | 热点数据的识别方法、装置、设备及存储介质 | |
CN113810475A (zh) | 一种基于大数据架构的Wifi探针设备管控系统 | |
US11392442B1 (en) | Storage array error mitigation | |
CN116976898B (zh) | 一种数据获取方法、数据可视化方法、装置及相关产品 | |
CN108696559B (zh) | 流处理方法及装置 | |
Martinez-Mosquera et al. | Development and evaluation of a big data framework for performance management in mobile networks | |
CN115481026A (zh) | 测试案例的生成方法、装置、计算机设备、存储介质 | |
CN113010385B (zh) | 一种任务状态更新方法、装置、设备及介质 | |
CN110457307A (zh) | 元数据管理系统、用户集群创建方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |