CN109902070A - 一种面向WiFi日志数据的解析存储搜索方法 - Google Patents

一种面向WiFi日志数据的解析存储搜索方法 Download PDF

Info

Publication number
CN109902070A
CN109902070A CN201910060016.4A CN201910060016A CN109902070A CN 109902070 A CN109902070 A CN 109902070A CN 201910060016 A CN201910060016 A CN 201910060016A CN 109902070 A CN109902070 A CN 109902070A
Authority
CN
China
Prior art keywords
type
parsing
data
wifi
daily record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910060016.4A
Other languages
English (en)
Other versions
CN109902070B (zh
Inventor
刘智
刘三女牙
杨宗凯
周东波
李敏士
孙建文
赵亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong Normal University
Original Assignee
Huazhong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong Normal University filed Critical Huazhong Normal University
Priority to CN201910060016.4A priority Critical patent/CN109902070B/zh
Publication of CN109902070A publication Critical patent/CN109902070A/zh
Application granted granted Critical
Publication of CN109902070B publication Critical patent/CN109902070B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机信息技术领域,提供一种面向WiFi日志数据的解析存储搜索方法,包括:(1)提取解析WiFi日志的日期、时间、宿主IP、事件类型、消息类型、消息码、事件码、路由器地址和路由器IP;(2)将解析的数据以键值对的形式保存至MongoDB分布式文件存储数据库;(3)开启Logstash管道将MongoDB数据库复制到Elasticsearch搜索引擎中搜索;(4)按照事务完整性导出MongoDB数据库的数据为二进制JSON文件,并加载到Hadoop平台。本发明方法能够对WiFi日志数据进行有效的解析和存储,同时提高了搜索的效率以及离线计算效率。

Description

一种面向WiFi日志数据的解析存储搜索方法
技术领域
本发明属于计算机信息技术领域,具体涉及一种面向WiFi日志数据的解析存储搜索方法。
技术背景
在计算机硬软件迅速发展的今天,人们的移动设备都需要连接WiFi进行使用,对于WiFi产生的日志文件存在非常大的价值。对这些WiFi日志文件进行用户行为分析,可以对用户进行精准的提供个性服务,并且可以对设备管理人员提供必要的决策。同时,对大数据的处理分析正成为新一代信息技术融合应用的结点。通过对不同来源数据的管理、处理、分析与优化,将创造出巨大的经济和社会价值。
然而,对于WiFi的日志数据,每天都会产生海量的数据,目前对这些海量的数据进行筛选和提取其中有实际价值的内容成为了一个巨大的难题,对大数据进行采集、导入、预处理、统计和挖掘的挑战在于数据量过大,现有技术并不能很好的及时解析和处理这些数据,从而导致无法进行后续的分析。
发明内容
本发明的目的就是为了克服现有技术中的不足,提出一种面向WiFi日志数据的解析存储搜索方法,能够对WiFi日志数据进行有效的解析和存储,同时提高了搜索的效率以及离线计算效率。
本发明的目的是通过以下技术方案实现的。
一种面向WiFi日志数据的解析存储搜索方法,包括以下步骤:
(1)提取解析WiFi日志的日期、时间、宿主IP、事件类型、消息类型、消息码、事件码、路由器地址和路由器IP等内容;
(2)将解析的数据以键值对的形式保存至MongoDB分布式文件存储数据库;
(3)开启Logstash管道将MongoDB数据库复制到Elasticsearch搜索引擎中搜索;
(4)按照事务完整性导出MongoDB数据库的数据为二进制JSON文件,并加载到Hadoop平台。
在上述技术方案中,步骤(1)具体包括:
S11、创建一个使用默认大小输入缓冲区的缓冲字符输入流,使用字符输入流读取日志文件直到读取为空,读取到一行日志后,判断日志文件的类型,如果是warning警告类型或者err错误类型,则解析出路由的空间实体位置和IP地址,随后与info信息类型和notice注意类型一起解析出日期、时间、宿主IP、事件类型、消息类型、消息码、事件码。
在上述技术方案中,步骤(2)具体包括:
S21、使用列表List存储MongoDB数据库中的文档Document,当列表List中数量达到一万条进行一次插入数据库操作,直到所有数据插入完毕,不足一万条的数据最后插入。
在上述技术方案中,所述步骤(3)具体包括:
S31、在MongoDB数据库中开启复制集,设定好副本集的名称后将MongoDB数据库和副本集成员连接,初始化副本集;
S32、配置MongoDB数据库和Elasticsearch搜索引擎的地址与端口,然后同步Elasticsearch搜索引擎和MongoDB数据库中的数据。
在上述技术方案中,步骤(4)具体包括:
S41、将MongoDB数据库的数据导出为二进制JSON文件;
S42、将二进制JSON文件加载进分布式系统Hadoop的分布式文件系统HDFS当中。
本发明与现有技术相比,具有如下优势:
1、针对错误或警告等不同类型的WiFi日志数据有不同的解析操作,能够得到错误或警告等不同日志数据中的信息。
2、同步到Elasticsearch搜索引擎中提供了更为强大的搜索功能。
3、将MongoDB数据库的数据加载到Hadoop分布式文件系统HDFS,提高映射归约效率。
附图说明
图1是本发明实施例的总体架构图。
图2是本发明实施例的方法流程图。
图3是本发明实施例的日志解析原理图。
图4是本发明实施例的复制模块原理图。
图5是本发明实施例的分布式模块原理图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述,但不以任何方式限制本发明的范围。
如图1、2所示,本发明实施例提供了一种面向WiFi日志数据的解析存储搜索方法,包括以下步骤:
(1)利用数据解析模块提取解析WiFi日志的日期、时间、宿主IP、事件类型、消息类型、消息码、事件码、路由器地址和路由器IP内容;
(2)利用入库模块将解析的数据以键值对的形式保存至MongoDB分布式文件存储数据库;
(3)利用复制模块开启Logstash管道将MongoDB数据库复制到Elasticsearch搜索引擎中搜索;
(4)利用分布式模块按照事务完整性导出MongoDB数据库的数据为二进制JSON文件,并加载到Hadoop平台。
如图3所示,在得到日志文件后,首先连接到MongoDB数据库,使用Java创建一个使用默认大小输入缓冲区的缓冲字符输入流,随后创建一个存储文档的列表。
使用字符输入流读取日志文件直到读取为空。读取到一行日志后,判断日志文件的类型,如果是warning警告类型或者err错误类型,则解析出路由的空间实体位置和IP地址。随后与info信息类型和notice注意类型一起解析出日期、时间、宿主IP、事件类型、消息类型、消息码、事件码。
例如,提取出类型数组:["_id","date","host_IP","info_type","event","event_code","AP_address","AP_IP","AP_MAC"]。
然后将解析的文档放入列表中,当列表的元素数量达到一万条后,直接插入进MongoDB数据库的集合中。最后当文档数目少于一万条时,再直接插入进集合。最后关闭数据库的连接。
在MongoDB数据库中开启复制集,设定好副本集的名称后将MongoDB数据库和副本集成员连接,初始化副本集。
如图4所示,在Logstash管道中,首先要编辑配置文件,在输入input中写入MongoDB数据库的路径uri为mongodb://username:password@ip:port,配置数据库的路径、名称与集合。在输出output中写入Elasticsearch搜索引擎的宿主hosts为ip:port,可选文档id和索引。在本实例中,在Logstash管道中对数据进行再次过滤,具体为配置过滤条件filter中定义时间date为时间戳的格式。随后开启服务,即可在Elasticsearch搜索引擎中进行文档的索引与搜索。
例如,存储的键值对为:
{"_id":ObjectId("aaa"),"date":ISODate("2018-01-01T11:11:41.000Z"),"host_IP":"10.100.10.1","info_type":"debug","event":"warning","event_code":"501003","AP_address":"AP-5#-F4-0401","AP_IP":"10.100.20.100","AP_MAC":"10:10:10:10:10:10",}
即可使用文档中的任意字段在搜索引擎中搜索出所有对应的数据。
如图5所示,使用shell编写文件定时导出MongoDB数据库中的二进制JSON文件,具体为使用命令mongodump指定宿主host的IP地址、端口地址、数据库的名称、集合的名称以及导出的路径,然后使用Hadoop的命令“hdfs dfs–put”导入二进制JSON文件,创建好映射表后即可在Hadoop分布式集群中使用数据进行离线计算。
本说明书中未作详细描述的内容,属于本专业技术人员公知的现有技术。
应当说明的是,以上包含的本发明实施例的说明,是为了详细说明本发明的技术特征。在不脱离本发明原理的前提下,所作出的若干改进与修饰也受本发明的保护,因此本发明的保护范围应当以本申请的权利要求所界定的内容为标准。

Claims (5)

1.一种面向WiFi日志数据的解析存储搜索方法,其特征在于该方法包括以下步骤:
(1)提取解析WiFi日志的日期、时间、宿主IP、事件类型、消息类型、消息码、事件码、路由器地址和路由器IP内容;
(2)将解析的数据以键值对的形式保存至MongoDB分布式文件存储数据库;
(3)开启Logstash管道将MongoDB数据库复制到Elasticsearch搜索引擎中搜索;
(4)按照事务完整性导出MongoDB数据库的数据为二进制JSON文件,并加载到Hadoop平台。
2.根据权利要求1所述的面向WiFi日志数据的解析存储搜索方法,其特征在于步骤(1)具体包括:
S11、创建一个使用默认大小输入缓冲区的缓冲字符输入流,使用字符输入流读取日志文件直到读取为空,读取到一行日志后,判断日志文件的类型,如果是warning警告类型或者err错误类型,则解析出路由的空间实体位置和IP地址,随后与info信息类型和notice注意类型一起解析出日期、时间、宿主IP、事件类型、消息类型、消息码、事件码。
3.根据权利要求1所述的面向WiFi日志数据的解析存储搜索方法,其特征在于步骤(2)具体包括:
S21、使用列表List存储MongoDB数据库中的文档Document,当列表List中数量达到一万条进行一次插入数据库操作,直到所有数据插入完毕,不足一万条的数据最后插入。
4.根据权利要求1所述的面向WiFi日志数据的解析存储搜索方法,其特征在于步骤(3)具体包括:
S31、在MongoDB数据库中开启复制集,设定好副本集的名称后将MongoDB数据库和副本集成员连接,初始化副本集;
S32、配置MongoDB数据库和Elasticsearch搜索引擎的地址与端口,然后同步Elasticsearch搜索引擎和MongoDB数据库中的数据。
5.根据权利要求1所述的面向WiFi日志数据的解析存储搜索方法,其特征在于步骤(4)具体包括:
S41、将MongoDB数据库的数据导出为二进制JSON文件;
S42、将二进制JSON文件加载进分布式系统Hadoop的分布式文件系统HDFS当中。
CN201910060016.4A 2019-01-22 2019-01-22 一种面向WiFi日志数据的解析存储搜索方法 Active CN109902070B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910060016.4A CN109902070B (zh) 2019-01-22 2019-01-22 一种面向WiFi日志数据的解析存储搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910060016.4A CN109902070B (zh) 2019-01-22 2019-01-22 一种面向WiFi日志数据的解析存储搜索方法

Publications (2)

Publication Number Publication Date
CN109902070A true CN109902070A (zh) 2019-06-18
CN109902070B CN109902070B (zh) 2023-12-12

Family

ID=66944000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910060016.4A Active CN109902070B (zh) 2019-01-22 2019-01-22 一种面向WiFi日志数据的解析存储搜索方法

Country Status (1)

Country Link
CN (1) CN109902070B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674211A (zh) * 2019-09-29 2020-01-10 南京大学 一种Oracle数据库AWR报告的自动解析方法和设备
CN113297296A (zh) * 2021-05-31 2021-08-24 西南大学 多样式类型数据的json化处理方法
CN113806611A (zh) * 2020-06-17 2021-12-17 海信集团有限公司 一种存储搜索引擎结果的方法及设备

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060184529A1 (en) * 2005-02-16 2006-08-17 Gal Berg System and method for analysis and management of logs and events
US20110191394A1 (en) * 2010-01-29 2011-08-04 Winteregg Joel Method of processing log files in an information system, and log file processing system
US20110314148A1 (en) * 2005-11-12 2011-12-22 LogRhythm Inc. Log collection, structuring and processing
CN103944973A (zh) * 2014-04-02 2014-07-23 北京中交兴路车联网科技有限公司 一种日志采集方法及装置
US20150310044A1 (en) * 2014-02-03 2015-10-29 Codefutures Corporation Database device and processing of data in a database
US9305010B1 (en) * 2013-12-30 2016-04-05 Emc Corporation Virtual file system providing interface between analytics platform and physical file system
CN106211226A (zh) * 2016-08-28 2016-12-07 黄明 一种无线WiFi质量实时检测的方法及装置
CN106503079A (zh) * 2016-10-10 2017-03-15 语联网(武汉)信息技术有限公司 一种日志管理方法及系统
KR20170067118A (ko) * 2015-12-07 2017-06-15 한양대학교 에리카산학협력단 클라우드 환경에서 hdfs 기반의 도커 컨테이너 보안 로그 분석 방법 및 시스템
CN107291928A (zh) * 2017-06-29 2017-10-24 国信优易数据有限公司 一种日志存储系统和方法
CN107391746A (zh) * 2017-08-10 2017-11-24 深圳前海微众银行股份有限公司 日志分析方法、设备和计算机可读存储介质
CN107660283A (zh) * 2015-04-03 2018-02-02 甲骨文国际公司 用于在日志分析系统中实现日志解析器的方法和系统
CN108228755A (zh) * 2017-12-21 2018-06-29 江苏瑞中数据股份有限公司 基于日志解析技术的MySQL数据库到Hadoop平台的数据同步复制方法
US20180307576A1 (en) * 2017-04-21 2018-10-25 Nec Laboratories America, Inc. Field content based pattern generation for heterogeneous logs
CN108920659A (zh) * 2018-07-03 2018-11-30 广州唯品会信息科技有限公司 数据处理系统及其数据处理方法、计算机可读存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060184529A1 (en) * 2005-02-16 2006-08-17 Gal Berg System and method for analysis and management of logs and events
US20110314148A1 (en) * 2005-11-12 2011-12-22 LogRhythm Inc. Log collection, structuring and processing
US20110191394A1 (en) * 2010-01-29 2011-08-04 Winteregg Joel Method of processing log files in an information system, and log file processing system
US9305010B1 (en) * 2013-12-30 2016-04-05 Emc Corporation Virtual file system providing interface between analytics platform and physical file system
US20150310044A1 (en) * 2014-02-03 2015-10-29 Codefutures Corporation Database device and processing of data in a database
CN103944973A (zh) * 2014-04-02 2014-07-23 北京中交兴路车联网科技有限公司 一种日志采集方法及装置
CN107660283A (zh) * 2015-04-03 2018-02-02 甲骨文国际公司 用于在日志分析系统中实现日志解析器的方法和系统
KR20170067118A (ko) * 2015-12-07 2017-06-15 한양대학교 에리카산학협력단 클라우드 환경에서 hdfs 기반의 도커 컨테이너 보안 로그 분석 방법 및 시스템
CN106211226A (zh) * 2016-08-28 2016-12-07 黄明 一种无线WiFi质量实时检测的方法及装置
CN106503079A (zh) * 2016-10-10 2017-03-15 语联网(武汉)信息技术有限公司 一种日志管理方法及系统
US20180307576A1 (en) * 2017-04-21 2018-10-25 Nec Laboratories America, Inc. Field content based pattern generation for heterogeneous logs
CN107291928A (zh) * 2017-06-29 2017-10-24 国信优易数据有限公司 一种日志存储系统和方法
CN107391746A (zh) * 2017-08-10 2017-11-24 深圳前海微众银行股份有限公司 日志分析方法、设备和计算机可读存储介质
CN108228755A (zh) * 2017-12-21 2018-06-29 江苏瑞中数据股份有限公司 基于日志解析技术的MySQL数据库到Hadoop平台的数据同步复制方法
CN108920659A (zh) * 2018-07-03 2018-11-30 广州唯品会信息科技有限公司 数据处理系统及其数据处理方法、计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A-DU: "logstash同步mongodb数据到elasticsearch", 《博客园URL:HTTPS://WWW.CNBLOGS.COM/A-DU/P/8298418.HTML》 *
A-DU: "logstash同步mongodb数据到elasticsearch", 《博客园URL:HTTPS://WWW.CNBLOGS.COM/A-DU/P/8298418.HTML》, 16 January 2018 (2018-01-16), pages 1 - 2 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674211A (zh) * 2019-09-29 2020-01-10 南京大学 一种Oracle数据库AWR报告的自动解析方法和设备
CN113806611A (zh) * 2020-06-17 2021-12-17 海信集团有限公司 一种存储搜索引擎结果的方法及设备
CN113297296A (zh) * 2021-05-31 2021-08-24 西南大学 多样式类型数据的json化处理方法

Also Published As

Publication number Publication date
CN109902070B (zh) 2023-12-12

Similar Documents

Publication Publication Date Title
JP6668442B2 (ja) Sqlパケット分析を通じての異機種データベースのデータ複製および同期化エラー探知方法およびシステム
CN114143020B (zh) 一种基于规则的网络安全事件关联分析方法和系统
Raghavan Digital forensic research: current state of the art
CN104281672B (zh) 日志数据的处理方法和装置
Schram et al. MySQL to NoSQL: data modeling challenges in supporting scalability
JP5961689B2 (ja) 増分データの抽出
US7668849B1 (en) Method and system for processing structured data and unstructured data
US10565208B2 (en) Analyzing multiple data streams as a single data object
CN112685433B (zh) 元数据更新方法、装置、电子设备及计算机可读存储介质
CN109902070A (zh) 一种面向WiFi日志数据的解析存储搜索方法
CN103559217A (zh) 一种面向异构数据库的海量组播数据入库实现方法
CN104899337B (zh) 一种文件索引的建立方法及系统
CN110532529A (zh) 一种文件类型的识别方法及装置
Raghavan et al. AssocGEN: Engine for analyzing metadata based associations in digital evidence
CN110245037A (zh) 一种基于日志的Hive用户操作行为还原方法
Gao et al. A system for efficiently hunting for cyber threats in computer systems using threat intelligence
CN105843554B (zh) 基于对象存储的数据迁移的方法及其系统
CN111339042A (zh) 数据的操作处理方法、系统及调度服务器
CN112307318B (zh) 一种内容发布方法、系统及装置
CN110008462A (zh) 一种命令序列检测方法及命令序列处理方法
CN111045994B (zh) 一种基于kv数据库的文件分类检索方法及系统
CN111176901B (zh) 一种hdfs删除文件恢复方法、终端设备及存储介质
CN117453646A (zh) 融合语义与深度神经网络的内核日志联合压缩与查询方法
CN112463527A (zh) 一种数据处理方法、装置、设备、系统及存储介质
CN109614378A (zh) 一种应用于数据库日志分析的解析模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant