CN105608203A - 一种基于Hadoop平台的物联网日志处理方法和装置 - Google Patents

一种基于Hadoop平台的物联网日志处理方法和装置 Download PDF

Info

Publication number
CN105608203A
CN105608203A CN201510996886.4A CN201510996886A CN105608203A CN 105608203 A CN105608203 A CN 105608203A CN 201510996886 A CN201510996886 A CN 201510996886A CN 105608203 A CN105608203 A CN 105608203A
Authority
CN
China
Prior art keywords
internet
daily record
things
catalogue
hive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510996886.4A
Other languages
English (en)
Other versions
CN105608203B (zh
Inventor
廖召正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TCL Corp
Original Assignee
TCL Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TCL Corp filed Critical TCL Corp
Priority to CN201510996886.4A priority Critical patent/CN105608203B/zh
Publication of CN105608203A publication Critical patent/CN105608203A/zh
Application granted granted Critical
Publication of CN105608203B publication Critical patent/CN105608203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于Hadoop平台的物联网日志处理方法和装置,以提高系统输出的日志的可分析性,并满足业务报表的周期性输出需求。所述方法包括:配置物联网日志的日志格式并按照配置的日志格式采集物联网日志;将采集到的物联网日志按照类别标识字符串标识的类别进行分类聚合并将分类聚合后的物联网日志的存储路径记录至日志备忘表;定时更新日志备忘表或将分类聚合后的物联网日志中需要形成数据报表的物联网日志加载至hive表的日期分区。本发明提供的技术方案使得输出的日志的可分析性显著增强,能够满足需要周期性输出分析结果的业务的需求。

Description

一种基于Hadoop平台的物联网日志处理方法和装置
技术领域
本发明属于数据存储领域,尤其涉及一种基于Hadoop平台的物联网日志处理方法和装置。
背景技术
随着物联网的快速发展,越来越多的设备接入到物联网,使得用户、应用、设备产生的数据呈现飞速增长的趋势,海量数据的出现和数据结构的复杂多变,给物联网服务器端管理和分析处理数据带来了巨大的挑战。另一方面,这些数据,例如用户的操作习惯、设备(白家电的冰箱、洗衣机、空调等)的用水记录、用电记录等,往往需要很长的保存期,以对用户的行为数据进行挖掘,做出智能推荐。而随着用户数量和设备连接数量的增加,对数据存储空间的需求还将会越来越大。物联网要存储的数据结构各异,传统的基于关系型的数据库如MySQL、Oracle等无法有效地存储和应对不断增加的新型业务产生的数据结构的变化,而NoSQL数据库如MongoDB虽然可以不受限于固定列的存在,可以动态适应数据结构的变化,但是NoSQL基本都是内存数据库,虽然应对键-值(key-value)查询比较高效,但却无法存储海量数据。Hadoop分布式技术的发展为解决上述问题提供了技术手段。
现有的一种基于Hadoop平台的物联网日志处理方案是一种基于hadoop平台的医保门诊大数据抽取系统及方法,其使用Flume从业务服务器中抽取数据,并存储到Hadoop的HDFS中,然后根据设定的清洗规则,将其中错误的或者不一致的“脏数据”过滤掉,保留合格的数据,接着使用Hive进行数据仓库建模,并提供用于客户端进行数据查询的SQL解析引擎,经过查询分析模块分析后有价值的医保门诊数据存储到Hbase分布式数据库中,供客户端查询,最后使用开源的报表系统如BIRT通过Hbase查询数据并展现。
如前所述,物联网业务日志需要通过日志来记录软件系统运行过程中所有的消息,例如状态、操作、故障、用户行为、开机情况、用水(电)量等等信息,并针对不同的业务类型消息形成相应的每月、每周、每天的报表,供web前台直接读取。然而,现有的基于Hadoop平台的物联网日志处理方案所输出的日志不仅信息量较大,而且包含各种类型的日志信息,输出的日志的众多信息掺杂在一起,导致系统输出的日志的可分析性较差,若是需要周期性输出分析结果的业务,物联网日志的上述处理方案也无法满足这一需求。
发明内容
本发明的目的在于提供一种基于Hadoop平台的物联网日志处理方法和装置,以提高系统输出的日志的可分析性,并满足业务报表的周期性输出需求。
本发明第一方面提供一种基于Hadoop平台的物联网日志处理方法,所述方法包括:
配置物联网日志的日志格式并按照所述配置的日志格式采集物联网日志,所述日志格式为一条物联网日志包括分隔符以及由所述分隔符分隔的类别标识字符串和日志内容字符串;
将采集到的所述物联网日志按照所述类别标识字符串标识的类别进行分类聚合并将所述分类聚合后的物联网日志的存储路径记录至日志备忘表;
定时更新所述日志备忘表或将所述分类聚合后的物联网日志中需要形成数据报表的物联网日志加载至hive表的日期分区。
本发明第二方面提供一种基于Hadoop平台的物联网日志处理装置,所述装置包括:
日志采集模块,用于配置物联网日志的日志格式并按照所述配置的日志格式采集物联网日志,所述日志格式为一条物联网日志包括分隔符以及由所述分隔符分隔的类别标识字符串和日志内容字符串;
分类聚合模块,用于将所述采集到的物联网日志按照所述类别标识字符串标识的类别进行分类聚合并将所述分类聚合后的物联网日志的存储路径记录至日志备忘表;
定时分析模块,用于定时更新所述日志备忘表或将所述分类聚合后的物联网日志中需要形成数据报表的物联网日志加载至hive表的日期分区。
从上述本发明技术方案可知,一方面,由于对采集到的物联网日志进行了分类聚合,因此,这种对采集到的日志进行分门别类的方式使得输出的日志的可分析性显著增强;另一方面,由于定时更新hive表和加载需要形成数据报表的物联网日志至hive表的日期分区,因此,能够满足需要周期性输出分析结果的业务的需求。
附图说明
图1是本发明实施例一提供的基于Hadoop平台的物联网日志处理方法的实现流程示意图;
图2是本发明实施例二提供的基于Hadoop平台的物联网日志处理装置的结构示意图;
图3是本发明实施例三提供的基于Hadoop平台的物联网日志处理装置的结构示意图;
图4是本发明实施例四提供的基于Hadoop平台的物联网日志处理装置的结构示意图;
图5-a是本发明实施例五提供的基于Hadoop平台的物联网日志处理装置的结构示意图;
图5-b是本发明实施例六提供的基于Hadoop平台的物联网日志处理装置的结构示意图;
图5-c是本发明实施例七提供的基于Hadoop平台的物联网日志处理装置的结构示意图;
图6是本发明实施例八提供的应用基于Hadoop平台的物联网日志处理装置的系统框图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供一种基于Hadoop平台的物联网日志处理方法,所述方法包括:配置物联网日志的日志格式并按照所述配置的日志格式采集物联网日志,所述日志格式为一条物联网日志包括分隔符以及由所述分隔符分隔的类别标识字符串和日志内容字符串;将采集到的所述物联网日志按照所述类别标识字符串标识的类别进行分类聚合并将所述分类聚合后的物联网日志的存储路径记录至日志备忘表;定时更新所述日志备忘表或将所述分类聚合后的物联网日志中需要形成数据报表的物联网日志加载至hive表的日期分区。本发明实施例还提供相应的基于Hadoop平台的物联网日志处理装置。以下分别进行详细说明。
请参阅附图1,是本发明实施例一提供的基于Hadoop平台的物联网日志处理方法的实现流程示意图,主要包括以下步骤S101至步骤S103:
S101,配置物联网日志的日志格式并按照所述配置的日志格式采集物联网日志,其中,日志格式为一条物联网日志包括分隔符以及由所述分隔符分隔的类别标识字符串和日志内容字符串。
在本发明实施例中,配置物联网日志的日志格式由Hadoop架构的Agent层完成,Hadoop架构包括Agent层、Collector层和Store层这三层,在这三层中每台服务器安装Flume工具,其中,Agent层在分布式业务服务器集群中的每一个业务服务器节点上部署一个进程,负责对单机的物联网日志收集工作,将物理网日志发送至Collector层,而在向Collector层发送物联网日志时,可使用负载均衡(LoadBalance)策略,将所有的物理网日志均衡地发到Collector层的所有中心服务器上,达到负载均衡的目标,同时处理Collector层单个中心服务器失效的问题。
具体地,Agent层配置log4j的Flume插件,本地不进行物联网日志的存储,而是将日志内容直接发送(sink)到Collector层,配置后的日志格式为一条物联网日志包括分隔符以及由所述分隔符分隔的类别标识字符串和日志内容字符串,类别标识字符串与日志内容字符串之间使用不包含在日志内容中的唯一字符串即分隔符分隔开,分隔符例如可以是“#”,更具体地,日志内容字符串可以是json格式的日志内容字符串或者可以是由任意列纯字符串值组成且各列纯字符串之间用分隔符如“/t”隔开的日志内容字符串,如果是前一种形式,则具有相同类别标识字符串的日志内容其json字符串的key以及key的个数要求一致,key的个数任意;如果是后一种形式,则具有相同类别标识字符串的日志内容的列数以及每一列的意义必须相同,但列数任意。日志内容的列之间可用“/t”隔开,具有相同类别标识字符串的日志内容的列数以及每一列的意义必须相同,但列数任意。由于日志格式按照上述方式定义,其类别标识字符串可任意定义,日志内容除了不能包含一些特殊字符即分隔符本身,例如“#”之外,也是可以任意定义的,因此,这种日志格式为业务服务器开发人员提供了很大的自由性,其可以不受限于与关系型数据库协同工作时必须符合业务表的设计的局限,对新型业务带来的日志收集,业务服务器开发人员有相当高的自由度。
在本发明实施例中,Collector层部署在中心服务器上,负责接收Agent层发送的物联网日志,并且将物联网日志根据路由规则写到相应的Store层中,Collector层的目标主要有三个,即,SinkHdfs、SinkKafka和SinkBypass,分别提供离线数据到Store层的HDFS、提供实时的日志流到Store层的Kafka和Bypass。Store层即本文设计结构中的数据存储模块,负责提供永久或者临时的日志存储服务,或者将日志流导向其它服务器,具体地,Store层的HDFS负责永久地存储所有日志,Store层的Kafka存储最近7天的日志,并给Storm系统提供实时日志流,Store层的Bypass负责给其它服务器和应用提供实时日志流。
需要说明的是,除了配置物联网日志的日志格式,Agent层在配置时,还可以在配置中增加时间戳(timestamp)拦截器,如此,在日志Event的Header中添加了时间戳信息,物联网日志最后传输到Store层时,Store层的SinkHdfs配置中对应HDFS的路径,形如“hdfs://localhost:9000/flume/events/%y-%m-%d”,其中,“hdfs://localhost:9000”为HDFS路径,“/flume/events”文件夹存储所有的日志文件,“/%y-%m-%d”表示在“/flume/events”目录下物联网日志按照日期建立相应的文件夹。如此,物联网日志就按照日期被分别写到不同的目录下。
S102,将采集到的物联网日志按照类别标识字符串标识的类别进行分类聚合并将分类聚合后的物联网日志的存储路径记录至日志备忘表。
对于hadoop,假设所采集到的物联网日志未分类聚合前,其存储在hadoop位置是“/flume/events/日期/”,例如,“/flume/events/2015-12-17/”,则作为本发明一个实施例,分类聚合后的物联网日志存储在hadoop位置可能是“/log/日期/类别标识字符串/”,例如,“/log/2015-12-17/loginfo/”,“loginfo”就是类别标识字符串。在本发明一个实施例中,将经由步骤S101采集到的物联网日志按照类别标识字符串标识的类别进行分类聚合并将分类聚合后的物联网日志的存储路径记录至日志备忘表可由如下步骤S1021至步骤S1023实现:
S1021,根据类别标识字符串和日志内容字符串,解析出每一条物联网日志的日志内容部分和使用类别标识字符串标识的类别部分。
如前所述,物联网日志的日志格式为一条物联网日志由类别标识字符串和日志内容字符串组成,根据类别标识字符串和日志内容字符串,解析出每一条物联网日志的日志内容部分和使用类别标识字符串标识的类别部分具体可以是通过调用MapReduce程序,在map函数中解析每一条物联网日志,切分出类别标识字符串和日志内容字符串,即物联网日志的类别部分和日志内容部分。
S1022,存储类别部分相同的物联网日志到同一目录,目录的目录名与相同类别部分对应的类别标识字符串相同。
例如,假设某几条物联网日志的类别部分即类别标识字符串都是“loginfo”,则可以将这几条物联网日志存储到目录名为“loginfo”的目录下,进一步假设这几条物联网日志的产生时间是2015年12月17日,则这几条物联网日志的存储路径可能就是/log/2015-12-17/loginfo/。具体地,由于Agent层在配置时可以在配置中增加时间戳拦截器,因此,可以利用多目录输出辅助类即MultipleOutputs类的write方法,将某些指定日期产生的日志中具有相同类别标识字符串的所有日志输出到一个文件中,以该相同类别标识字符串来命名该文件所属文件夹的名称,例如,存储到形如“hdfs://localhost:9000/log/%y-%m-%d”路径下,或者,如前述实施例所述的“/log/2015-12-17/loginfo/”这一路径;功能实现后打包成jar包。
S1023,将目录名和目录名对应的目录下物联网日志的产生时间记录至日志备忘表。
在本发明实施例中,日志备忘表(即info_hive_memo)包含memo_directory和memo_date两个字段,均为varchar型,其中,字段memo_directory实际意义为分类聚合后物联网日志所存放目录的目录名,需要说明的是,该目录名对应的目录是尚未创建hive表的目录,字段memo_date实际意义为产生该物联网日志的时间,格式为%y-%m-%d,日志备忘表的格式如下:
日志备忘表在使用前创建。
根据上述实施例的描述,在本发明实施例中,分类聚合后的物联网日志具有如下特点:物联网日志的类别部分使用类别标识字符串标识,分类聚合后的物联网日志中类别部分相同的物联网日志存储在同一目录,该目录的目录名与所述相同类别部分对应的类别标识字符串相同,目录名和该目录名下物联网日志的产生时间记录在日志备忘表。
S103,定时更新日志备忘表或将分类聚合后的物联网日志中需要形成数据报表的物联网日志加载至hive表的日期分区。
在本发明实施例中,对于分类聚合后的物联网日志,需要考虑两种情况,一种情况是一些物联网日志是需要形成报表的,另一种情况是一些物联网日志只需要被存储而无需形成报表,其被存储的目的是留待将来做分析处理。在本发明实施例中,这两种情况对应的物联网日志可通过两种数据表来管理,具体地,对只需被存储、无需形成报表的物联网日志,可以使用前述实施例提及的日志备忘表来管理(日志备忘表的格式可参考前述实施例的描述,此处不做赘述),对需要形成数据报表的物联网日志,可采用hive注册表即info_hive_register来管理。hive注册表包含hr_directory和hr_name两个字段,这两个字段均为varchar型,其中,字段hr_directory为分类聚合后物联网日志所存放目录的目录名,与日志备忘表不同的是,此处的目录名对应的目录是已经创建hive表的目录,每一个目录下是一种格式一致的数据,而字段hr_name实际意义为已经创建的hive表的名称,hive注册表的设计格式如下:
对于需要形成数据报表的物联网日志,可由数据库管理员(DataBaseAdministrator,DBA)对该类物联网日志进行分析,根据业务需求和数据模型,在Hive数据仓库中进行建模,创建和物联网日志对应的hive表,例如,设备故障信息表、用水量信息表、用电量信息表、用户操作信息表和开机时间统计表等等。每次新建一个hive表后要完成注册,注册的过程就是将已创建hive表的目录的目录名和该已创建hive表的名称记录到hive注册表的过程。
在本发明一个实施例中,定时更新日志备忘表或将分类聚合后的物联网日志中需要形成数据报表的物联网日志加载至hive表的日期分区可通过如下步骤S1031至步骤S1033进行:
S1031,周期性地遍历存储分类聚合后的物联网日志的目录。
所谓周期性地,可以是根据业务需求设立的间隔时间,例如,可以是一周、一天或者几个小时进行一次,而遍历存储分类聚合后的物联网日志的目录,可以是按照日志备忘表提供的物联网日志产生时间和物联网日志的存放目录,遍历指定时间产生的物联网日志所存放的目录。
S1032,根据hive注册表,判断目录中是否存在目录已创建hive表。
如前所述,由于hive注册表记录有存放分类聚合后的物联网日志的目录的目录名和与这些目录名对应的hive表的名称,因此,当遍历日志备忘表中指定时间产生的物联网日志所存放的目录时,可以判断目录中是否存在目录已创建hive表。
S1033,若目录中存在目录已创建hive表,则将所述已创建hive表的目录下的物联网日志加载至hive表的日期分区,否则,将尚未创建hive表的目录的目录名和尚未创建hive表的目录的目录名对应的目录下物联网日志的产生时间记录至日志备忘表。
如前所述,对于需要形成数据报表的物联网日志,都创建了相应的hive表。在本发明实施例中,可根据所述创建的hive表,定时生成MySQL数据报表并显示。具体地,可根据业务需求和数据模型,建立MySQL数据报表,其字段应该与hive表的字段相对应,然后,可按照指定的时间,如,定时通过Sqoop工具将hive表的内容导到所建立的MySQL数据报表,Web端通过接口访问MySQL数据库,查询MySQL数据报表,得到各类报表的展示数据,最终以表格或图形的形式显示给用户或者管理员。
从上述附图1示例的基于Hadoop平台的物联网日志处理方法可知,一方面,由于对采集到的物联网日志进行了分类聚合,因此,这种对采集到的日志进行分门别类的方式使得输出的日志的可分析性显著增强;另一方面,由于定时更新hive表和加载需要形成数据报表的物联网日志至hive表的日期分区,因此,能够满足需要周期性输出分析结果的业务的需求。
请参阅附图2,是本发明实施例二提供的基于Hadoop平台的物联网日志处理装置的结构示意图。为了便于说明,附图2仅示出了与本发明实施例相关的部分。附图2示例的基于Hadoop平台的物联网日志处理装置可以是附图1示例的基于Hadoop平台的物联网日志处理方法的执行主体。附图2示例的基于Hadoop平台的物联网日志处理装置主要包括日志采集模块201、分类聚合模块202和定时分析模块203,其中:
日志采集模块201,用于配置物联网日志的日志格式并按照所述配置的日志格式采集物联网日志,所述日志格式为一条物联网日志包括分隔符以及由所述分隔符分隔的类别标识字符串和日志内容字符串;
分类聚合模块202,用于将日志采集模块201采集到的物联网日志按照类别标识字符串标识的类别进行分类聚合并将分类聚合后的物联网日志的存储路径记录至日志备忘表,对于分类聚合后的物联网日志,物联网日志的类别部分使用类别标识字符串标识,类别部分相同的物联网日志存储在同一目录,目录的目录名与相同类别部分对应的类别标识字符串相同,目录名和所述目录名下物联网日志的产生时间记录在日志备忘表;
定时分析模块203,用于定时更新日志备忘表或将分类聚合后的物联网日志中需要形成数据报表的物联网日志加载至hive表的日期分区,其中,日志备忘表可参考前述实施例的相关说明。
需要说明的是,以上附图2示例的基于Hadoop平台的物联网日志处理装置的实施方式中,各功能模块的划分仅是举例说明,实际应用中可以根据需要,例如相应硬件的配置要求或者软件的实现的便利考虑,而将上述功能分配由不同的功能模块完成,即将所述基于Hadoop平台的物联网日志处理装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。而且,实际应用中,本实施例中的相应的功能模块可以是由相应的硬件实现,也可以由相应的硬件执行相应的软件完成,例如,前述的日志采集模块,可以是具有执行前述配置物联网日志的日志格式并按照所述配置的日志格式采集物联网日志的硬件,例如日志采集器,也可以是能够执行相应计算机程序从而完成前述功能的一般处理器或者其他硬件设备;再如前述的分类聚合模块,可以是执行将日志采集模块(或日志采集器)采集到的物联网日志按照类别标识字符串标识的类别进行分类聚合并将分类聚合后的物联网日志的存储路径记录至日志备忘表的硬件,例如分类聚合器,也可以是能够执行相应计算机程序从而完成前述功能的一般处理器或者其他硬件设备(本说明书提供的各个实施例都可应用上述描述原则)。
附图2示例的分类聚合模块202可以包括解析单元301、存储单元302和记录单元303,如附图3所示本发明实施例三提供的基于Hadoop平台的物联网日志处理装置,其中:
解析单元301,用于根据类别标识字符串和日志内容字符串,解析出每一条物联网日志的日志内容部分和使用所述类别标识字符串标识的类别部分;
存储单元302,用于存储类别部分相同的物联网日志到同一目录,其中,目录的目录名与相同类别部分对应的类别标识字符串相同;
记录单元303,用于将目录名和所述目录名对应的目录下物联网日志的产生时间记录至日志备忘表。
附图2示例的定时分析模块203可以包括遍历单元401、判断单元402和更新单元403,如附图4所示本发明实施例四提供的基于Hadoop平台的物联网日志处理装置,其中:
遍历单元401,用于周期性地遍历存储分类聚合后的物联网日志的目录;
判断单元402,用于根据hive注册表,判断所述目录中是否存在目录已创建hive表,其中,hive注册表记录有目录名和与目录名对应的hive表的名称,hive注册表的相关描述可参阅前述的实施例;
更新单元403,用于若所述目录中存在目录已创建hive表,则将所述已创建hive表的目录下的物联网日志加载至hive表的日期分区,否则,将尚未创建hive表的目录的目录名和所述尚未创建hive表的目录的目录名对应的目录下物联网日志的产生时间记录至所述日志备忘表。
附图2至4任一示例的基于Hadoop平台的物联网日志处理装置还可以包初始化模块501和报表输出模块502,如附图5-a至附图5-c所示本发明实施例五至实施例七提供的基于Hadoop平台的物联网日志处理装置,其中:
创建模块501用于创建hive表和日志备忘表;
报表输出模块502,用于根据所述hive表,定时生成MySQL数据报表并显示。
附图6是本发明实施例八提供的应用基于Hadoop平台的物联网日志处理装置的系统框图,在该系统中,业务服务器和中心服务器是日志采集模块201所在的实体,其对应于前述实施例提及的Agent层和Collector层,完成物联网日志的日志格式的配置和物联网日志的采集工作,存储服务器是分类聚合模块202和定时分析模块203所在的实体,其对应于前述实施例提及的Store层,完成物联网日志分类聚合、记录日志备忘表、定时更新日志备忘表或加载物联网日志至hive表对应的hive分区等工作,Web服务器负责报表的输出,即定时生成MySQL数据报表并显示给用户或者DBA。
需要说明的是,上述装置各模块/单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其带来的技术效果与本发明方法实施例相同,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,ReadOnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁盘或光盘等。
以上对本发明实施例所提供的基于Hadoop平台的物联网日志处理方法和装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于Hadoop平台的物联网日志处理方法,其特征在于,所述方法包括:
配置物联网日志的日志格式并按照所述配置的日志格式采集物联网日志,所述日志格式为一条物联网日志包括类别标识字符串和日志内容字符串;
将采集到的所述物联网日志按照所述类别标识字符串标识的类别进行分类聚合并将分类聚合后的物联网日志的存储路径记录至日志备忘表;
定时更新所述日志备忘表或将所述分类聚合后的物联网日志中需要形成数据报表的物联网日志加载至hive表的日期分区。
2.如权利要求1所述的方法,其特征在于,所述将采集到的所述物联网日志按照所述类别标识字符串标识的类别进行分类聚合并记录日志备忘表,包括:
根据所述类别标识字符串和日志内容字符串,解析出每一条物联网日志的日志内容部分和使用所述类别标识字符串标识的类别部分;
存储类别部分相同的物联网日志到同一目录,所述目录的目录名与所述相同类别部分对应的类别标识字符串相同;
将所述目录名和所述目录名对应的目录下物联网日志的产生时间记录至日志备忘表。
3.如权利要求1所述的方法,其特征在于,所述分类聚合后的物联网日志中类别部分相同的物联网日志存储在同一目录,所述物联网日志的类别部分使用类别标识字符串标识,所述目录的目录名与所述相同类别部分对应的类别标识字符串相同,所述目录名和所述目录名下物联网日志的产生时间记录在日志备忘表。
4.如权利要求3所述的方法,其特征在于,所述定时更新所述日志备忘表或将所述分类聚合后的物联网日志中需要形成数据报表的物联网日志加载至hive表的日期分区,包括:
周期性地遍历存储所述分类聚合后的物联网日志的目录;
根据hive注册表,判断所述目录中是否存在目录已创建hive表,所述hive注册表记录有目录名和与所述目录名对应的hive表的名称;
若所述目录中存在目录已创建hive表,则将所述已创建hive表的目录下的物联网日志加载至hive表的日期分区,否则,将尚未创建hive表的目录的目录名和所述尚未创建hive表的目录的目录名对应的目录下物联网日志的产生时间记录至所述日志备忘表。
5.如权利要求1至4任意一项所述的方法,其特征在于,所述方法还包括:
创建所述hive表和日志备忘表;
根据所述hive表,定时生成MySQL数据报表并显示。
6.一种基于Hadoop平台的物联网日志处理装置,其特征在于,所述装置包括:
日志采集模块,用于配置物联网日志的日志格式并按照所述配置的日志格式采集物联网日志,所述日志格式为一条物联网日志包括类别标识字符串和日志内容字符串;
分类聚合模块,用于将所述采集到的物联网日志按照所述类别标识字符串标识的类别进行分类聚合并将分类聚合后的物联网日志的存储路径记录至日志备忘表;
定时分析模块,用于定时更新所述日志备忘表或将所述分类聚合后的物联网日志中需要形成数据报表的物联网日志加载至hive表的日期分区。
7.如权利要求6所述的装置,其特征在于,所述分类聚合模块包括:
解析单元,用于根据所述类别标识字符串和日志内容字符串,解析出每一条物联网日志的日志内容部分和使用所述类别标识字符串标识的类别部分;
存储单元,用于存储类别部分相同的物联网日志到同一目录,所述目录的目录名与所述相同类别部分对应的类别标识字符串相同;
记录单元,用于将所述目录名和所述目录名对应的目录下物联网日志的产生时间记录至日志备忘表。
8.如权利要求6所述的装置,其特征在于,所述分类聚合后的物联网日志中类别部分相同的物联网日志存储在同一目录,所述物联网日志的类别部分使用类别标识字符串标识,所述目录的目录名与所述相同类别部分对应的类别标识字符串相同,所述目录名和所述目录名下物联网日志的产生时间记录在日志备忘表。
9.如权利要求8所述的装置,其特征在于,所述定时分析模块包括:
遍历单元,用于周期性地遍历存储所述分类聚合后的物联网日志的目录;
判断单元,用于根据hive注册表,判断所述目录中是否存在目录已创建hive表,所述hive注册表记录有目录名和与所述目录名对应的hive表的名称;
更新单元,用于若所述目录中存在目录已创建hive表,则将所述已创建hive表的目录下的物联网日志加载至hive表的hive日期分区,否则,将尚未创建hive表的目录的目录名和所述尚未创建hive表的目录的目录名对应的目录下物联网日志的产生时间记录至所述日志备忘表。
10.如权利要求6至9任意一项所述的装置,其特征在于,所述装置还包括:
创建模块,用于创建所述hive表和日志备忘表;
报表输出模块,用于根据所述hive表,定时生成MySQL数据报表并显示。
CN201510996886.4A 2015-12-24 2015-12-24 一种基于Hadoop平台的物联网日志处理方法和装置 Active CN105608203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510996886.4A CN105608203B (zh) 2015-12-24 2015-12-24 一种基于Hadoop平台的物联网日志处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510996886.4A CN105608203B (zh) 2015-12-24 2015-12-24 一种基于Hadoop平台的物联网日志处理方法和装置

Publications (2)

Publication Number Publication Date
CN105608203A true CN105608203A (zh) 2016-05-25
CN105608203B CN105608203B (zh) 2019-09-17

Family

ID=55988142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510996886.4A Active CN105608203B (zh) 2015-12-24 2015-12-24 一种基于Hadoop平台的物联网日志处理方法和装置

Country Status (1)

Country Link
CN (1) CN105608203B (zh)

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055703A (zh) * 2016-06-22 2016-10-26 北京科摩仕捷科技有限公司 一种日志实时分析方法及系统
CN106503079A (zh) * 2016-10-10 2017-03-15 语联网(武汉)信息技术有限公司 一种日志管理方法及系统
CN106571960A (zh) * 2016-11-03 2017-04-19 北京农信互联科技有限公司 日志收集管理系统及方法
CN106790572A (zh) * 2016-12-27 2017-05-31 广州华多网络科技有限公司 一种分布式日志收集的系统和方法
CN106789153A (zh) * 2016-11-09 2017-05-31 苏州数言信息技术有限公司 物联网系统终端设备的多渠道自适应日志记录、输出方法及系统
CN106844505A (zh) * 2016-12-27 2017-06-13 北京五八信息技术有限公司 一种日志数据提取方法及装置
CN106897362A (zh) * 2017-01-11 2017-06-27 中国建设银行股份有限公司 用于数据存储、查询的方法及系统
CN107347093A (zh) * 2017-07-03 2017-11-14 北京京东尚科信息技术有限公司 用于分布式服务器系统的配置方法和装置
CN107679198A (zh) * 2017-10-10 2018-02-09 北京奇虎科技有限公司 信息的查询方法及装置
CN107729448A (zh) * 2017-09-30 2018-02-23 深圳市华傲数据技术有限公司 一种基于数据仓库的数据处理系统
CN107733863A (zh) * 2017-09-07 2018-02-23 济南双瑞软件有限公司 一种分布式hadoop环境下的日志调试方法和装置
CN107783848A (zh) * 2017-09-27 2018-03-09 歌尔科技有限公司 一种基于套接字通信的json命令处理方法及装置
CN107844400A (zh) * 2017-10-16 2018-03-27 阿里巴巴集团控股有限公司 一种日志数据的校验方法及装置
CN107918600A (zh) * 2017-11-15 2018-04-17 泰康保险集团股份有限公司 报表开发系统及方法、存储介质和电子设备
CN108062323A (zh) * 2016-11-08 2018-05-22 北京国双科技有限公司 一种日志读取方法及装置
CN108197015A (zh) * 2017-12-29 2018-06-22 天脉聚源(北京)科技有限公司 以消息的方式写入日志数据的方法及装置
CN108446203A (zh) * 2018-03-20 2018-08-24 万帮充电设备有限公司 服务器事务日志处理方法及装置
CN108509326A (zh) * 2018-04-09 2018-09-07 四川长虹电器股份有限公司 一种基于nginx日志的服务状态统计方法及系统
CN108509297A (zh) * 2018-03-21 2018-09-07 四川斐讯信息技术有限公司 一种数据备份方法和系统
CN108573029A (zh) * 2018-03-20 2018-09-25 咪咕文化科技有限公司 一种获取网络访问关系数据的方法、装置及存储介质
CN108874614A (zh) * 2017-05-11 2018-11-23 上海宏时数据系统有限公司 一种大数据日志智能分析系统及方法
CN108984610A (zh) * 2018-06-11 2018-12-11 华南理工大学 一种基于大数据框架离线实时处理数据的方法及系统
CN109471760A (zh) * 2018-10-18 2019-03-15 北京趣拿软件科技有限公司 服务器通信性能的监控方法及系统、存储介质、电子装置
CN109525448A (zh) * 2019-01-10 2019-03-26 北京智信未来信息技术有限公司 日志数据采集系统及方法
CN109766368A (zh) * 2018-11-14 2019-05-17 国云科技股份有限公司 一种基于Hive的数据查询多类型视图产出系统及方法
CN109902126A (zh) * 2019-02-18 2019-06-18 国家计算机网络与信息安全管理中心 支持hive自动分区的加载系统及其实现方法
CN110309110A (zh) * 2019-05-24 2019-10-08 深圳壹账通智能科技有限公司 一种大数据日志监控方法及装置、存储介质和计算机设备
CN111327681A (zh) * 2020-01-21 2020-06-23 北京工业大学 一种基于Kubernetes的云计算数据平台构建方法
CN111506479A (zh) * 2020-04-20 2020-08-07 深圳前海微众银行股份有限公司 一种日志数据处理方法及装置
CN111796993A (zh) * 2019-10-17 2020-10-20 厦门雅基软件有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN111881153A (zh) * 2020-07-24 2020-11-03 北京金山云网络技术有限公司 数据处理方法、装置、电子设备和机器可读存储介质
CN111966677A (zh) * 2020-06-28 2020-11-20 北京百度网讯科技有限公司 数据报表的处理方法、装置、电子设备及存储介质
CN112100133A (zh) * 2020-11-04 2020-12-18 广州市玄武无线科技股份有限公司 一种分布式的日志处理系统
CN112307285A (zh) * 2020-11-05 2021-02-02 珠海格力电器股份有限公司 一种事件记录方法、装置、电器设备及存储介质
CN112445937A (zh) * 2020-11-30 2021-03-05 成都新潮传媒集团有限公司 一种Json日志的生成方法、装置及计算机可读存储介质
CN115168474A (zh) * 2022-07-26 2022-10-11 成都智元汇信息技术股份有限公司 一种基于大数据模型的物联中台系统搭建方法
US11645247B2 (en) 2020-08-21 2023-05-09 Sap Se Ingestion of master data from multiple applications
US11726846B2 (en) 2020-08-21 2023-08-15 Sap Se Interface for processing sensor data with hyperscale services

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220058177A1 (en) * 2020-08-21 2022-02-24 Sap Se Customized processing of sensor data

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102624562A (zh) * 2012-03-13 2012-08-01 网经科技(苏州)有限公司 网络管理系统中分布式syslog日志的安全管理方法
CN102981943A (zh) * 2012-10-29 2013-03-20 新浪技术(中国)有限公司 监控应用日志的方法及系统
CN104182506A (zh) * 2014-08-19 2014-12-03 浪潮(北京)电子信息产业有限公司 日志管理方法
CN104298771A (zh) * 2014-10-30 2015-01-21 南京信息工程大学 一种海量web日志数据查询与分析方法
CN104616205A (zh) * 2014-11-24 2015-05-13 北京科东电力控制系统有限责任公司 一种基于分布式日志分析的电力系统运行状态监视方法
CN104978438A (zh) * 2015-07-23 2015-10-14 上海斐讯数据通信技术有限公司 基于日志的实时分析方法及系统
CN105138661A (zh) * 2015-09-02 2015-12-09 西北大学 一种基于Hadoop的网络安全日志k-means聚类分析系统及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102624562A (zh) * 2012-03-13 2012-08-01 网经科技(苏州)有限公司 网络管理系统中分布式syslog日志的安全管理方法
CN102981943A (zh) * 2012-10-29 2013-03-20 新浪技术(中国)有限公司 监控应用日志的方法及系统
CN104182506A (zh) * 2014-08-19 2014-12-03 浪潮(北京)电子信息产业有限公司 日志管理方法
CN104298771A (zh) * 2014-10-30 2015-01-21 南京信息工程大学 一种海量web日志数据查询与分析方法
CN104616205A (zh) * 2014-11-24 2015-05-13 北京科东电力控制系统有限责任公司 一种基于分布式日志分析的电力系统运行状态监视方法
CN104978438A (zh) * 2015-07-23 2015-10-14 上海斐讯数据通信技术有限公司 基于日志的实时分析方法及系统
CN105138661A (zh) * 2015-09-02 2015-12-09 西北大学 一种基于Hadoop的网络安全日志k-means聚类分析系统及方法

Cited By (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055703A (zh) * 2016-06-22 2016-10-26 北京科摩仕捷科技有限公司 一种日志实时分析方法及系统
CN106503079A (zh) * 2016-10-10 2017-03-15 语联网(武汉)信息技术有限公司 一种日志管理方法及系统
CN106571960B (zh) * 2016-11-03 2020-05-22 北京农信互联科技有限公司 日志收集管理系统及方法
CN106571960A (zh) * 2016-11-03 2017-04-19 北京农信互联科技有限公司 日志收集管理系统及方法
CN108062323B (zh) * 2016-11-08 2021-10-15 北京国双科技有限公司 一种日志读取方法及装置
CN108062323A (zh) * 2016-11-08 2018-05-22 北京国双科技有限公司 一种日志读取方法及装置
CN106789153B (zh) * 2016-11-09 2020-04-21 苏州数言信息技术有限公司 物联网系统终端设备的多渠道自适应日志记录、输出方法及系统
CN106789153A (zh) * 2016-11-09 2017-05-31 苏州数言信息技术有限公司 物联网系统终端设备的多渠道自适应日志记录、输出方法及系统
CN106844505A (zh) * 2016-12-27 2017-06-13 北京五八信息技术有限公司 一种日志数据提取方法及装置
CN106790572B (zh) * 2016-12-27 2021-05-14 广州华多网络科技有限公司 一种分布式日志收集的系统和方法
CN106790572A (zh) * 2016-12-27 2017-05-31 广州华多网络科技有限公司 一种分布式日志收集的系统和方法
CN106897362A (zh) * 2017-01-11 2017-06-27 中国建设银行股份有限公司 用于数据存储、查询的方法及系统
CN108874614A (zh) * 2017-05-11 2018-11-23 上海宏时数据系统有限公司 一种大数据日志智能分析系统及方法
CN107347093A (zh) * 2017-07-03 2017-11-14 北京京东尚科信息技术有限公司 用于分布式服务器系统的配置方法和装置
CN107733863A (zh) * 2017-09-07 2018-02-23 济南双瑞软件有限公司 一种分布式hadoop环境下的日志调试方法和装置
CN107783848A (zh) * 2017-09-27 2018-03-09 歌尔科技有限公司 一种基于套接字通信的json命令处理方法及装置
CN107729448A (zh) * 2017-09-30 2018-02-23 深圳市华傲数据技术有限公司 一种基于数据仓库的数据处理系统
CN107679198A (zh) * 2017-10-10 2018-02-09 北京奇虎科技有限公司 信息的查询方法及装置
CN107679198B (zh) * 2017-10-10 2021-04-09 北京奇虎科技有限公司 信息的查询方法及装置
CN107844400A (zh) * 2017-10-16 2018-03-27 阿里巴巴集团控股有限公司 一种日志数据的校验方法及装置
CN107918600B (zh) * 2017-11-15 2021-11-23 泰康保险集团股份有限公司 报表开发系统及方法、存储介质和电子设备
CN107918600A (zh) * 2017-11-15 2018-04-17 泰康保险集团股份有限公司 报表开发系统及方法、存储介质和电子设备
CN108197015A (zh) * 2017-12-29 2018-06-22 天脉聚源(北京)科技有限公司 以消息的方式写入日志数据的方法及装置
CN108573029A (zh) * 2018-03-20 2018-09-25 咪咕文化科技有限公司 一种获取网络访问关系数据的方法、装置及存储介质
CN108573029B (zh) * 2018-03-20 2021-11-23 咪咕文化科技有限公司 一种获取网络访问关系数据的方法、装置及存储介质
CN108446203A (zh) * 2018-03-20 2018-08-24 万帮充电设备有限公司 服务器事务日志处理方法及装置
CN108509297A (zh) * 2018-03-21 2018-09-07 四川斐讯信息技术有限公司 一种数据备份方法和系统
CN108509326B (zh) * 2018-04-09 2021-08-27 四川长虹电器股份有限公司 一种基于nginx日志的服务状态统计方法及系统
CN108509326A (zh) * 2018-04-09 2018-09-07 四川长虹电器股份有限公司 一种基于nginx日志的服务状态统计方法及系统
CN108984610A (zh) * 2018-06-11 2018-12-11 华南理工大学 一种基于大数据框架离线实时处理数据的方法及系统
CN109471760A (zh) * 2018-10-18 2019-03-15 北京趣拿软件科技有限公司 服务器通信性能的监控方法及系统、存储介质、电子装置
CN109766368B (zh) * 2018-11-14 2021-08-27 国云科技股份有限公司 一种基于Hive的数据查询多类型视图产出系统及方法
CN109766368A (zh) * 2018-11-14 2019-05-17 国云科技股份有限公司 一种基于Hive的数据查询多类型视图产出系统及方法
CN109525448A (zh) * 2019-01-10 2019-03-26 北京智信未来信息技术有限公司 日志数据采集系统及方法
CN109902126A (zh) * 2019-02-18 2019-06-18 国家计算机网络与信息安全管理中心 支持hive自动分区的加载系统及其实现方法
CN109902126B (zh) * 2019-02-18 2021-12-07 国家计算机网络与信息安全管理中心 支持hive自动分区的加载系统及其实现方法
CN110309110A (zh) * 2019-05-24 2019-10-08 深圳壹账通智能科技有限公司 一种大数据日志监控方法及装置、存储介质和计算机设备
CN111796993B (zh) * 2019-10-17 2023-03-17 厦门雅基软件有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN111796993A (zh) * 2019-10-17 2020-10-20 厦门雅基软件有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN111327681A (zh) * 2020-01-21 2020-06-23 北京工业大学 一种基于Kubernetes的云计算数据平台构建方法
CN111506479A (zh) * 2020-04-20 2020-08-07 深圳前海微众银行股份有限公司 一种日志数据处理方法及装置
CN111966677A (zh) * 2020-06-28 2020-11-20 北京百度网讯科技有限公司 数据报表的处理方法、装置、电子设备及存储介质
CN111966677B (zh) * 2020-06-28 2024-04-19 北京百度网讯科技有限公司 数据报表的处理方法、装置、电子设备及存储介质
CN111881153A (zh) * 2020-07-24 2020-11-03 北京金山云网络技术有限公司 数据处理方法、装置、电子设备和机器可读存储介质
US11645247B2 (en) 2020-08-21 2023-05-09 Sap Se Ingestion of master data from multiple applications
US11726846B2 (en) 2020-08-21 2023-08-15 Sap Se Interface for processing sensor data with hyperscale services
CN112100133A (zh) * 2020-11-04 2020-12-18 广州市玄武无线科技股份有限公司 一种分布式的日志处理系统
CN112307285A (zh) * 2020-11-05 2021-02-02 珠海格力电器股份有限公司 一种事件记录方法、装置、电器设备及存储介质
CN112445937A (zh) * 2020-11-30 2021-03-05 成都新潮传媒集团有限公司 一种Json日志的生成方法、装置及计算机可读存储介质
CN112445937B (zh) * 2020-11-30 2023-11-14 成都新潮传媒集团有限公司 一种Json日志的生成方法、装置及计算机可读存储介质
CN115168474A (zh) * 2022-07-26 2022-10-11 成都智元汇信息技术股份有限公司 一种基于大数据模型的物联中台系统搭建方法
CN115168474B (zh) * 2022-07-26 2023-04-14 成都智元汇信息技术股份有限公司 一种基于大数据模型的物联中台系统搭建方法

Also Published As

Publication number Publication date
CN105608203B (zh) 2019-09-17

Similar Documents

Publication Publication Date Title
CN105608203A (zh) 一种基于Hadoop平台的物联网日志处理方法和装置
US10523541B2 (en) Federated network and application data analytics platform
US20160357424A1 (en) Collapsing and placement of applications
US11924240B2 (en) Mechanism for identifying differences between network snapshots
CN104065685B (zh) 面向云计算环境的分层存储系统中的数据迁移方法
CN103235820B (zh) 一种集群系统中数据存储方法与装置
US11044170B2 (en) Network migration assistant
CN104615606B (zh) 一种Hadoop分布式文件系统及其管理方法
CN107103064B (zh) 数据统计方法及装置
US10826803B2 (en) Mechanism for facilitating efficient policy updates
CN102999537A (zh) 一种数据迁移系统和方法
WO2013122964A1 (en) Providing configurable workflow capabilities
CN101796795A (zh) 分布式系统
CN105608228B (zh) 一种高效的分布式的rdf数据存储方法
CN109033113A (zh) 数据仓库和数据集市的管理方法及装置
CN110389766A (zh) HBase容器集群部署方法、系统、设备及计算机可读存储介质
CN105956932A (zh) 配用电数据融合方法和系统
CN109710667A (zh) 一种基于大数据平台的多源数据融合共享实现方法及系统
CN108804241A (zh) 跨平台任务调度方法、系统、计算机设备和存储介质
Raj et al. Big data analytics processes and platforms facilitating smart cities
WO2019147680A1 (en) Discovery of middleboxes using traffic flow stitching
CN105550351B (zh) 旅客行程数据即席查询系统及方法
US11627166B2 (en) Scope discovery and policy generation in an enterprise network
Lee et al. A big data management system for energy consumption prediction models
CN113010385B (zh) 一种任务状态更新方法、装置、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant