CN116644039B - 一种基于大数据的在线能力运营日志自动采集分析的方法 - Google Patents
一种基于大数据的在线能力运营日志自动采集分析的方法 Download PDFInfo
- Publication number
- CN116644039B CN116644039B CN202310619260.6A CN202310619260A CN116644039B CN 116644039 B CN116644039 B CN 116644039B CN 202310619260 A CN202310619260 A CN 202310619260A CN 116644039 B CN116644039 B CN 116644039B
- Authority
- CN
- China
- Prior art keywords
- information
- file
- log
- log information
- distributed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 21
- 238000003860 storage Methods 0.000 claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 34
- 230000008569 process Effects 0.000 claims abstract description 13
- 230000005540 biological transmission Effects 0.000 claims description 47
- 238000012545 processing Methods 0.000 claims description 33
- 238000007906 compression Methods 0.000 claims description 20
- 230000006835 compression Effects 0.000 claims description 17
- 230000002776 aggregation Effects 0.000 claims description 15
- 238000004220 aggregation Methods 0.000 claims description 15
- 238000007726 management method Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000004519 manufacturing process Methods 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 5
- 238000012986 modification Methods 0.000 claims description 5
- 238000011084 recovery Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 3
- 239000004744 fabric Substances 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims 2
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007711 solidification Methods 0.000 description 1
- 230000008023 solidification Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/1734—Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/178—Techniques for file synchronisation in file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1095—Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/566—Grouping or aggregating service requests, e.g. for unified processing
Abstract
本发明提供了一种基于大数据的在线能力运营日志自动采集分析的方法,包括:获取日志信息,并针对获得的日志信息进行传输;接收所述日志信息,将所述日志信息进行存储,形成信息存储系统;在所述信息存储系统中进行查询,获得查询信息,并针对所述查询信息进行分析。本发明提出一种基于大数据的在线能力运营日志自动采集分析的方法,实现基于大数据技术的日志统计分析,从日志数据的角度解决了现有的工具逐渐无法有效的处理大量数据的问题。
Description
技术领域
本发明涉及大数据技术领域,特别涉及一种基于大数据的在线能力运营日志自动采集分析的方法。
背景技术
随着大数据时代的来临,网络数据呈现爆炸式增长,IDC数据表明,全球企业数据正以62%的速度逐年增长,大量数据当中隐藏着巨大的商业价值,引起了企业的广泛关注。然而,海量大数据给数据的同步、存储和数据统计分析带来了一定的问题和困难。搜索引擎的目志文件是由使用者的搜索行为产生的,是对用户在终端行为的一种记录。通过对日志文件的分析可以获得很多有价值的数据,可以对不同用户的个性进行更加全面的分析,实现更加个性化的推荐方案。随着时间的推移,网站的用户访问量快速增长,搜索引擎产生的日志数据快速增长。本发明提出一种基于大数据的在线能力运营日志自动采集分析的方法,实现基于大数据技术的日志统计分析,从日志数据的角度解决了现有的工具逐渐无法有效的处理大量数据的问题。
发明内容
本发明的目的在于提供一种基于大数据的在线能力运营日志自动采集分析的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于大数据的在线能力运营日志自动采集分析的方法,包括:
获取日志信息,并针对获得的日志信息进行传输;
接收所述日志信息,将所述日志信息通过进行存储,形成信息存储系统;
在所述信息存储系统中进行查询,获得查询信息,并针对所述查询信息进行分析。
进一步地,在进行获取日志信息之前还进行集群部署,所述集群部署包括:分布式系统基础框架部署、分布式的海量日志收集聚合传输系统部署和分布式发布订阅消息系统部署;其中,所述分布式系统基础框架部署是针对分布式系统基础框架构造部署,所述分布式基础框架包括:资源管理器、主控节点和从节点,所述主控节点用于跟踪文件如何被分割成文件块、文件块被哪些节点存储以及分布式文件系统的整体运行状态是否正常;所述从节点用于存储数据信息,所述资源管理器用于负责集群中所有资源的统一管理和分配。
进一步地,所述分布式基础框架中还包括:第二名称节点,所述第二名称节点定时查询所述主控节点在集群启动时对文件系统的改动序列,并与所述主控节点保持同步,再将查询得到的信息更新到所述主控节点的文件系统快照文件中;所述主控节点、从节点以及第二名称节点中分别设有节点管理器,所述节点管理器分别针对单个节点进行计算管理,而且与所述资源管理器通信连接。
进一步地,所述获取日志信息时,通过模拟生产环境下日志产生过程,将所述日志生产过程中产生的日志信息进行采集,获得日志信息,并针对所述日志信息进行文件名称定义,而且在针对所述日志信息进行文件名称定义时利用时间字符串定义初始文件的名字。
进一步地,将在所述传输时间间隔期间得的所有进行了文件名称定义的日志信息传输至分布式发布订阅消息系统的过程中使用日志收集系统进行传输文件输入,在所述日志收集系统的配置文件中读取配置信息,其中,所述配置文件包括文件目录,而且通过spooldir监听所述文件目录,当出现新文件时,将所述新文件转化成事件,并且将反序列化器的值设置为LINE,将所述新文件的每行封装成一个事件。
进一步地,在所述信息存储系统中进行查询,获得查询信息时,根据用户输入的用户查询日志进行信息查询与获取,所述用户查询日志采用GBK编码格式,在输入所述用户查询日志时向所述用户提供查询语言模板,所述用户根据需求在所述查询语言模板中进行填充调整,所述填充调整包括:参数的修改与设置,配置项的定义与选择。
进一步地,所述分布式发布订阅消息系统的source端输出使用Out-putCharset配置项定义文件输出格式,从Flumed的Source传输到Channel时,将文件名信息传递到所述分布式发布订阅消息系统时,按照所述文件名信息生成目标目录,利用所述分布式的海量日志收集聚合传输系统的event中的header传递文件名信息,而且在将所述分布式的海量日志收集聚合传输系统的event中的header传递文件名信息时,定义键值目录结构设置为a/b/c,选择fileHeader和fileHeaderKey并将所述fileHeaderKey的值定义为Key;
所述信息存储系统采用的是分布式存储,而且是使用HDFS实现存储,通过获取消息体中每条消息的Key,获取日期字符串;然后将数据存入相应位置,而且文件传输完毕之后重命名为.Done结尾,作为文件传输完毕的识别标志,并且在所述信息存储系统中进行查询时,利用Sqoop的特性将数据仓库工具中的数据导入关系型数据库管理系统实现SQL语句的实时查询,输入文件路径和指定hivetable两个参数,取出输入目录下结尾是.Done的文件,解析出时间参数加载到数据仓库工具。
进一步地,在所述信息存储系统中进行查询时,用户查询日志进入集群,HDFSClient切分文件,获得切分文件;针对所述切分文件与主节点进行交互,获取所述切分文件的位置信息;按照所述切分文件的位置信息与从节点交互,在与所述切分文件的位置信息对应的数据节点中读取和写入数据;其中,所述主节点是用来管理HDFS的名称空间和数据块映射信息,配置副本策略,处理客户端请求;所述从节点是存储实际的数据,汇报存储信息给所述主节点;而且在特殊情况下所述主节点的信息通过信息恢复将丢失信息复原。
进一步地,将所述日志信息进行存储时,针对所述日志信息进行加密处理与压缩处理;其中,进行加密处理的过程包括:针对所述日志信息进行特征信息分析与提取,确定待加密信息;将所述待加密信息按照展开规则进行ASCII码展开,并进行目标形式转换,得到目标形式下的待加密信息;根据所述目标形式的参数要求确定加密秘钥,并根据所述加密秘钥中的字节对所述目标形式下的待加密信息中的数组进行移位操作,获得移位后的待加密信息;将所述移位后的待加密信息进行原形式复原与组合,得到加密日志信息;
进行压缩处理的过程包括:针对所述加密日志信息进行分析判断,确定是否需要进行压缩处理;在分析判断结果为需要进行压缩处理时,针对所述加密日志信息以二进制方式读取文件,得到加密日志信息的二进制序列;针对所述二进制序列进行压缩构建得到压缩后的加密日志信息。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明所述的一种基于大数据的在线能力运营日志自动采集分析的方法的步骤示意图;
图2为本发明所述的一种基于大数据的在线能力运营日志自动采集分析的方法中步骤二的加密处理步骤示意图;
图3为本发明所述的一种基于大数据的在线能力运营日志自动采集分析的方法中步骤二的压缩处理步骤示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供了一种基于大数据的在线能力运营日志自动采集分析的方法,包括:
步骤一、获取日志信息,并针对获得的日志信息进行传输;
步骤二、接收所述日志信息,将所述日志信息通过进行存储,形成信息存储系统;
步骤三、在所述信息存储系统中进行查询,获得查询信息,并针对所述查询信息进行分析。
上述技术方案提供了一种基于大数据的在线能力运营日志自动采集分析的方法,在进行在线能力运营日志自动采集分析时,首先针对运行状况进行信息监测,实现信息采集,从而获得日志信息,并将获得的日志信息进行传输,然后对获得日志信息进行存储,从而形成信息存储系统,接着在信息存储系统中进行信息查询,获得查询信息,再对查询信息进行分析从而获得分析结果。
上述技术方案实现了对日志数据的分析,使得能够从分析结果中获得更多有价值的信息,进而实现有效处理大量数据的目的,而且通过针对获得的日志信息进行传输使得避免日志数据堆积影响日志的采集,并且通过形成信息存储系统方便进行信息查询与分析,而且在信息存储系统中能够存储较多数据,使得能够有效针对大量数据进行处理分析,解决了现有技术方案中无法有效的处理大量数据的问题。
本发明提供的一个实施例中,在进行获取日志信息之前还进行集群部署,所述集群部署包括:分布式系统基础框架部署、分布式的海量日志收集聚合传输系统部署和分布式发布订阅消息系统部署;其中,所述分布式系统基础框架部署是针对分布式系统基础框架构造部署,所述分布式基础框架包括:资源管理器、主控节点和从节点,所述主控节点用于跟踪文件如何被分割成文件块、文件块被哪些节点存储以及分布式文件系统的整体运行状态是否正常;所述从节点用于存储数据信息,所述资源管理器用于负责集群中所有资源的统一管理和分配。
上述技术方案在进行步骤一之前还进行集群部署,在进行集群部署时包括三部分,一个是分布式系统基础框架部署,一个是分布式的海量日志收集聚合传输系统部署,还有一个是分布式发布订阅消息系统部署,其中,分布式系统基础框架部署是将分布式系统基础框架进行构造后部署,在分布式系统基础框架中包括:资源管理器、主控节点和从节点,主控节点的主要职责是跟踪文件如何被分割成文件块、文件块被哪些节点存储,以及分布式文件系统的整体运行状态是否正常等工作,从节点的主要职责是针对文件块进行存储,资源管理器则是负责集群中所有资源的统一管理和分配,接收来自各个节点的资源汇报信息,并针对资源汇报信息按照一定的策略分配规则进行分配应用。分布式的海量日志收集聚合传输系统部署是将分布式的海量日志手机聚合传输系统嵌入,使得能够接收日志信息,通过配置将日志信息复制到多个目的地。分布式发布订阅消息系统部署是将一种高吞吐量的分布式发布订阅消息系统引入,分布式发布订阅消息系统的集群由多个实例组成,每个节点对消息保存时根据Topic(Topic是消息发布(Pub)者和订阅(Sub)者之间的传输中介)进行归类,多个comsumer(消息接收者)划分为一个组,并行消费一个topic,分布式发布订阅消息系统的集群中通过Zookeeper(ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务)管理集群配置,选举leader,以及在Consumer Group(消息接收者团体)发生变化时进行rebalance(再度平衡)。
上述技术方案通过进行集群部署使得能够在进行在线能力运营日志自动采集分析能够顺利进行信息采集与传输,而且通过分布式系统基础框架部署将分布式系统基础框架引入,不仅成本低,而且具有高可靠性、高扩展性、高效性、高容错性的特点,通过分布式的海量日志收集聚合传输系统部署将分布式的海量日志收集聚合传输系统引入,使得能够和任意存储进程集成,而且在输入的数据速率大于写入目的存储的速率时,海量日志收集聚合传输系统会进行缓冲,减小分布式文件系统的压力。此外通过分布式发布订阅消息系统部署实现了架构解耦、流量控制以及异步处理的效果。
本发明提供的一个实施例中,所述分布式基础框架中还包括:第二名称节点,所述第二名称节点定时查询所述主控节点在集群启动时对文件系统的改动序列,并与所述主控节点保持同步,再将查询得到的信息更新到所述主控节点的文件系统快照文件中;所述主控节点、从节点以及第二名称节点中分别设有节点管理器,所述节点管理器分别针对单个节点进行计算管理,而且与所述资源管理器通信连接。
上述技术方案在分布式基础框架中还包括:第二名称节点,第二名称节点定时查询主控节点在集群启动时对文件系统的改动序列,并与主控节点保持同步,再将查询得到的信息更新到主控节点的文件系统快照文件中;主控节点、从节点以及第二名称节点中分别设有节点管理器,节点管理器分别针对单个节点进行计算管理,而且与资源管理器通信连接,通过节点管理器针对主控节点、从节点以及第二名称节点进行监督任务的生命周期管理,监控每个任务的资源使用,追踪节点健康状况,管理日志和不同应用程序用到的附属服务。
上述技术方案通过第二名称节点实现对主控节点的监测,从而方便对主控节点进行管理,而且通过节点管理器与资源管理器通信连接,实现了资源管理器与主控节点、从节点以及第二名称节点之间的联系,使得能够进行对主控节点、从节点以及第二名称节点进行监督任务的生命周期管理,监控每个任务的资源使用,追踪节点健康状况,管理日志和不同应用程序用到的附属服务,提升了资源管理器对主控节点、从节点以及第二名称节点的了解状况,方便资源管理器进行管理。
本发明提供的一个实施例中,所述获取日志信息时,通过模拟生产环境下日志产生过程,将所述日志生产过程中产生的日志信息进行采集,获得日志信息,并针对所述日志信息进行文件名称定义,而且在针对所述日志信息进行文件名称定义时利用时间字符串定义初始文件的名字。
上述技术方案在获取日志信息时,通过shell(是指"为使用者提供操作界面"的软件(command interpreter,命令解析器))脚本模拟生产环境下日志产生过程,针对日志生产过程中产生的日志信息进行采集,从而获得日志信息,然后再得到日志信息之后还针对日志信息进行文件名称定义,并且在针对日志信息进行文件名称定义时利用时间字符串定义初始文件的名字。
上述技术方案通过shell脚本模拟生产环境下日志产生过程时,采用shell脚本能够方便运行,而且还能够根据需求进行编辑与构建,提高模拟时产生的数据的有效性,避免模拟时间过长或者产生较多无用数据,并且调用了系统内核的大部分功能来执行程序、创建文档并以并行的方式协调各个程序的运行,此外,通过对日志信息进行文件名称定义使得能够对不同的日志信息进行区分,方便进行管理。
本发明提供的一个实施例中,所述针对获得的日志信息进行传输时采用定时传输,预先针对传输时间间隔进行设置,在针对所述日志信息进行文件名称定义后进行传输等待,在达到所述传输时间间隔后,将在所述传输时间间隔期间得的所有进行了文件名称定义的日志信息传输至分布式发布订阅消息系统。
上述技术方案针对获得的日志信息进行传输时采用定时传输,预先针对传输时间间隔进行设置,在针对所述日志信息进行文件名称定义后进行传输等待,在达到所述传输时间间隔后,将在所述传输时间间隔期间得的所有进行了文件名称定义的日志信息传输至分布式发布订阅消息系统。
本发明提供的一个实施例中,将在所述传输时间间隔期间得的所有进行了文件名称定义的日志信息传输至分布式发布订阅消息系统的过程中使用日志收集系统进行传输文件输入,在所述日志收集系统的配置文件中读取配置信息,其中,所述配置文件包括文件目录,而且通过spooldir监听所述文件目录,当出现新文件时,将所述新文件转化成事件,并且将反序列化器的值设置为LINE,将所述新文件的每行封装成一个事件。
上述技术方案中将在传输时间间隔期间得的所有进行了文件名称定义的日志信息传输至分布式发布订阅消息系统的过程中使用日志收集系统进行传输文件输入,在日志收集系统的配置文件中读取配置信息,其中,配置文件包括文件目录,而且通过spooldir监听文件目录,当出现新文件时,将新文件转化成事件,并且将反序列化器的值设置为LINE,将新文件的每行封装成一个事件。
上述技术方案通过文件目录使得能够针对已存在的文件信息进行简单统计与呈现,增加对日志信息的了解,而且文件目录是通过通过spooldir监听得到的,能够根据是否出现新文件进行及时调整,使得文件目标动态准确呈现文件状况信息。
本发明提供的一个实施例中,在所述信息存储系统中进行查询,获得查询信息时,根据用户输入的用户查询日志进行信息查询与获取,所述用户查询日志采用GBK编码格式,在输入所述用户查询日志时向所述用户提供查询语言模板,所述用户根据需求在所述查询语言模板中进行填充调整,所述填充调整包括:参数的修改与设置,配置项的定义与选择。
上述技术方案中在信息存储系统中进行查询,获得查询信息时,根据用户输入的用户查询日志进行信息查询与获取,用户查询日志采用GBK编码格式,在输入用户查询日志时向用户提供查询语言模板,用户根据需求在查询语言模板中进行填充调整,填充调整包括:参数的修改与设置,配置项的定义与选择。
上述技术方案通过采用GBK编码格式进行用户日志查询使得只需要修改SpoolDirectorySource-ConfigurationConstants参数,定义InputCharset配置项为GBK就是能够实现GBK编码格式的文件输入,不仅借助查询语言模板简化输入,简单方便,而且还降低了出错概率,确保查询语言能够被执行。
本发明提供的一个实施例中,所述分布式发布订阅消息系统的source端输出使用Out-putCharset配置项定义文件输出格式,从Flumed的Source传输到Channel时,将文件名信息传递到所述分布式发布订阅消息系统时,按照所述文件名信息生成目标目录,利用所述分布式的海量日志收集聚合传输系统的event中的header传递文件名信息,而且在将所述分布式的海量日志收集聚合传输系统的event中的header传递文件名信息时,定义键值目录结构设置为a/b/c,选择fileHeader和fileHeaderKey并将所述fileHeaderKey的值定义为Key;
所述信息存储系统采用的是分布式存储,而且是使用HDFS实现存储,通过获取消息体中每条消息的Key,获取日期字符串;然后将数据存入相应位置,而且文件传输完毕之后重命名为.Done结尾,作为文件传输完毕的识别标志,并且在所述信息存储系统中进行查询时,利用Sqoop的特性将数据仓库工具中的数据导入关系型数据库管理系统实现SQL语句的实时查询,输入文件路径和指定hivetable两个参数,取出输入目录下结尾是.Done的文件,解析出时间参数加载到数据仓库工具。
上述技术方案中的分布式发布订阅消息系统的source端输出使用Out-putCharset配置项定义文件输出格式,从Flumed的Source传输到Channel时,将文件名信息传递到分布式发布订阅消息系统时,按照文件名信息生成目标目录,利用分布式的海量日志收集聚合传输系统的event中的header传递文件名信息,而且在将分布式的海量日志收集聚合传输系统的event中的header传递文件名信息时,定义键值目录结构设置为a/b/c,选择fileHeader和fileHeaderKey并将fileHeaderKey的值定义为Key;
信息存储系统采用的是分布式存储,而且是使用HDFS实现存储,通过获取消息体中每条消息的Key,获取日期字符串;然后将数据存入相应位置,而且文件传输完毕之后重命名为.Done结尾,作为文件传输完毕的识别标志,并且在信息存储系统中进行查询时,利用Sqoop的特性将Hive中的数据导入MySQL实现SQL语句的实时查询,输入文件路径和指定hivetable两个参数,取出输入目录下结尾是.Done的文件,解析出时间参数加载到Hive。
上述技术方案通过自定义Kafka Con-sumer来实现Kafka到HDFS数据的持久化,定义输出流时开启独立的线程将内存中的数据刷写到HDFS,减少数据的丢失,实现数据在HDFS的固化。通过定义输入文件路径和指定hivetable两个参数,取出输入目录下结尾是.Done的文件,解析出时间参数加载到Hive,实现了hdfs数据传人到Hive,进而使得具有海量数据存储、水平可扩展、离线批量处理的优点,解决了传统关系型数仓不能支持海量数据存储、水平可扩展性差等问题。
本发明提供的一个实施例中,在所述信息存储系统中进行查询时,用户查询日志进入集群,HDFS Client切分文件,获得切分文件;针对所述切分文件与主节点进行交互,获取所述切分文件的位置信息;按照所述切分文件的位置信息与从节点交互,在与所述切分文件的位置信息对应的数据节点中读取和写入数据;其中,所述主节点是用来管理HDFS的名称空间和数据块映射信息,配置副本策略,处理客户端请求;所述从节点是存储实际的数据,汇报存储信息给所述主节点;而且在特殊情况下所述主节点的信息通过信息恢复将丢失信息复原。
上述技术方案在信息存储系统中进行查询时,用户查询日志进入集群,HDFSClient切分文件,获得切分文件;针对切分文件与主节点进行交互,获取切分文件的位置信息;按照切分文件的位置信息与从节点交互,在与切分文件的位置信息对应的数据节点中读取和写入数据;其中,主节点是用来管理HDFS的名称空间和数据块映射信息,配置副本策略,处理客户端请求,并且还设置一个第二主节点来辅佐主节点,为主节点分担工作量;从节点是存储实际的数据,汇报存储信息给主节点;而且在特殊情况下主节点的信息通过信息恢复将丢失信息复原,在这里特殊情况是意外发生数据丢失的紧急情况。
上述技术方案通过HDFS Client切分文件使得能够同时针对文件的被切分后的切分文件进行处理,从而提高切分文件被处理的效率,而且通过信息恢复将丢失信息复原使得能够在意外发生数据丢失的紧急情况下降丢失信息进行复原,降低数据丢失带来的损失。
本发明提供的一个实施例中,将所述日志信息进行存储时,针对所述日志信息进行加密处理与压缩处理;其中,如图2所示,进行加密处理的过程包括:S101、针对所述日志信息进行特征信息分析与提取,确定待加密信息;S102、将所述待加密信息按照展开规则进行ASCII码展开,并进行目标形式转换,得到目标形式下的待加密信息;S103、根据所述目标形式的参数要求确定加密秘钥,并根据所述加密秘钥中的字节对所述目标形式下的待加密信息中的数组进行移位操作,获得移位后的待加密信息;S104、将所述移位后的待加密信息进行原形式复原与组合,得到加密日志信息;
如图3所示,进行压缩处理的过程包括:S201、针对所述加密日志信息进行分析判断,确定是否需要进行压缩处理;S202、在分析判断结果为需要进行压缩处理时,针对所述加密日志信息以二进制方式读取文件,得到加密日志信息的二进制序列;S203、针对所述二进制序列进行压缩构建得到压缩后的加密日志信息。
上述技术方案在将日志信息进行存储时,还针对日志信息进行加密处理与压缩处理;其中,进行加密处理的过程包括:针对日志信息进行特征信息分析与提取,确定待加密信息;将待加密信息按照展开规则进行ASCII码展开,并进行目标形式转换,得到目标形式下的待加密信息,其中,目标形式是指特定行数列数的数组;根据目标形式的参数要求确定加密秘钥,并根据加密秘钥中的字节对目标形式下的待加密信息中的数组进行移位操作,获得移位后的待加密信息;将移位后的待加密信息进行原形式复原与组合,得到加密日志信息;在进行压缩处理时,针对加密日志信息进行分析判断,确定是否需要进行压缩处理;在分析判断结果为需要进行压缩处理时,针对加密日志信息以二进制方式读取文件,得到加密日志信息的二进制序列;针对二进制序列进行压缩构建得到压缩后的加密日志信息,将二进制序列存入第一新建数组中并进行数据替换,在进行数据替换时,针对第一新建数组进行长度替换,并将替换后的数组存入第二新建数组中,统计第二新建数组中出现的不同的元素,将这些不同的元素按出现的顺序存入第三新建数组中,在第三新建数组中安装升序排列后形成第四新建数组,将第四新建数组中的第n个元素值使用数字n代替,形成第五新建数组,根据第四新建数组和第五新建数组的对应关系对第二新建数组进行元素替换,得到第六新建数组,针对第六新建数组进行还原得到第七新建数组;并且将第四新建数组中的元素进行“后项减去相邻前项”处理得到第八新建数组,寻找第八新建数组中第一个大于或等于2的元素位置,设此元素在第八新建数组中的位置为n,将第四数组中前n个元素全部删除,由剩余的元素顺序得到第九新建数组;最后根据第九新建数组和第七新建数组得到压缩后的加密日志信息。
其中,在针对日志信息进行特征信息分析与提取时,将多个日志信息通过如下公式进行对比分析确定待加密信息:
上述公式中,Pi表示i日志信息中待加密信息集,Ai表示i日志信息的信息集,aik表示i日志信息的信息集中第k个元素信息,ai-j,k表示i-j日志信息的信息集中第k个元素信息,且i>j,si,i-j表示i日志信息与i-j日志信息之间的比较中间参量。
上述技术方案通过对日志信息进行加密处理与压缩处理使得日志信息在信息存储系统中能够具有较高的安全性,而且还能够使得信息存储系统能够存储较多的日志信息,并且在进行加密处理时,通过针对日志信息进行特征信息分析与提取,使得只针对日志信息中的特征信息进行加密处理,不仅能够提高日志信息的安全性,还能够减少加密处理的工作量,使得能够快速实现信息加密,在进行压缩处理时,实现了无损压缩的同时去除了加密日志信息中冗余信息,有效缩小加密日志信息的空间占有量。此外,在对日志信息进行特征信息分析与提取时,通过将多个日志信息进行对比分析来避免偶发现象,使得得到的待加密信息能够具有日志信息的特征,进而提高加密的安全性能。
本领域技术客户员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (8)
1.一种基于大数据的在线能力运营日志自动采集分析的方法,其特征在于,包括:
获取日志信息,并针对获得的日志信息进行传输;针对获得的日志信息进行传输时采用定时传输,预先针对传输时间间隔进行设置,在针对所述日志信息进行文件名称定义后进行传输等待,在达到所述传输时间间隔后,将在所述传输时间间隔期间得的所有进行了文件名称定义的日志信息传输至分布式发布订阅消息系统;其中,所述分布式发布订阅消息系统的source端输出使用Out-putCharset配置项定义文件输出格式,从Flumed的Source传输到Channel时,将文件名信息传递到所述分布式发布订阅消息系统时,按照所述文件名信息生成目标目录,利用分布式海量日志收集聚合传输系统的event中的header传递文件名信息,在将所述分布式海量日志收集聚合传输系统的event中的header传递文件名信息时,定义键值目录结构设置为a/b/c,选择fileHeader和fileHeaderKey并将所述fileHeaderKey的值定义为Key;
接收所述日志信息,将所述日志信息进行存储,形成信息存储系统;所述信息存储系统采用HDFS实现存储,通过获取消息体中每条消息的Key,获取日期字符串;然后将数据存入相应位置,文件传输完毕之后重命名为.Done结尾,作为文件传输完毕的识别标志,在所述信息存储系统中进行查询时,利用Sqoop的特性将数据仓库工具中的数据导入关系型数据库管理系统实现SQL语句的实时查询,输入文件路径和指定hivetable两个参数,取出输入目录下结尾是.Done的文件,解析出时间参数加载到数据仓库工具;
在所述信息存储系统中进行查询,获得查询信息,并针对所述查询信息进行分析。
2.根据权利要求1所述的方法,其特征在于,在进行获取日志信息之前还进行集群部署,所述集群部署包括:分布式系统基础框架部署、分布式海量日志收集聚合传输系统部署和分布式发布订阅消息系统部署;其中,所述分布式系统基础框架部署是针对分布式系统基础框架构造部署,所述分布式系统基础框架包括:资源管理器、主控节点和从节点,所述主控节点用于跟踪文件如何被分割成文件块、文件块被哪些节点存储以及分布式文件系统的整体运行状态是否正常;所述从节点用于存储数据信息,所述资源管理器用于负责集群中所有资源的统一管理和分配。
3.根据权利要求2所述的方法,其特征在于,所述分布式系统基础框架中还包括:第二名称节点,所述第二名称节点定时查询所述主控节点在集群启动时对文件系统的改动序列,并与所述主控节点保持同步,再将查询得到的信息更新到所述主控节点的文件系统快照文件中;所述主控节点、从节点以及第二名称节点中分别设有节点管理器,所述节点管理器分别针对单个节点进行计算管理,与所述资源管理器通信连接。
4.根据权利要求3所述的方法,其特征在于,所述获取日志信息时,通过模拟生产环境下日志产生过程,将所述日志生产过程中产生的日志信息进行采集,获得日志信息,并针对所述日志信息进行文件名称定义,在针对所述日志信息进行文件名称定义时利用时间字符串定义初始文件的名字。
5.根据权利要求1所述的方法,其特征在于,将在所述传输时间间隔期间得的所有进行了文件名称定义的日志信息传输至分布式发布订阅消息系统的过程中使用日志收集系统进行传输文件输入,在所述日志收集系统的配置文件中读取配置信息,其中,所述配置文件包括文件目录,通过spooldir监听所述文件目录,当出现新文件时,将所述新文件转化成事件,将反序列化器的值设置为LINE,将所述新文件的每行封装成一个事件。
6.根据权利要求5所述的方法,其特征在于,在所述信息存储系统中进行查询,获得查询信息时,根据用户输入的用户查询日志进行信息查询与获取,所述用户查询日志采用GBK编码格式,在输入所述用户查询日志时向所述用户提供查询语言模板,所述用户根据需求在所述查询语言模板中进行填充调整,所述填充调整包括:参数的修改与设置,配置项的定义与选择。
7.根据权利要求1所述的方法,其特征在于,在所述信息存储系统中进行查询时,用户查询日志进入集群,HDFS Client切分文件,获得切分文件;针对所述切分文件与主节点进行交互,获取所述切分文件的位置信息;按照所述切分文件的位置信息与从节点交互,在与所述切分文件的位置信息对应的数据节点中读取和写入数据;其中,所述主节点是用来管理HDFS的名称空间和数据块映射信息,配置副本策略,处理客户端请求;所述从节点是存储实际的数据,汇报存储信息给所述主节点;在特殊情况下所述主节点的信息通过信息恢复将丢失信息复原。
8.根据权利要求1所述的方法,其特征在于,将所述日志信息进行存储时,针对所述日志信息进行加密处理与压缩处理;其中,进行加密处理的过程包括:针对所述日志信息进行特征信息分析与提取,确定待加密信息;将所述待加密信息按照展开规则进行ASCII码展开,并进行目标形式转换,得到目标形式下的待加密信息;根据所述目标形式的参数要求确定加密秘钥,并根据所述加密秘钥中的字节对所述目标形式下的待加密信息中的数组进行移位操作,获得移位后的待加密信息;将所述移位后的待加密信息进行原形式复原与组合,得到加密日志信息;
进行压缩处理的过程包括:针对所述加密日志信息进行分析判断,确定是否需要进行压缩处理;在分析判断结果为需要进行压缩处理时,针对所述加密日志信息以二进制方式读取文件,得到加密日志信息的二进制序列;针对所述二进制序列进行压缩构建得到压缩后的加密日志信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310619260.6A CN116644039B (zh) | 2023-05-25 | 2023-05-25 | 一种基于大数据的在线能力运营日志自动采集分析的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310619260.6A CN116644039B (zh) | 2023-05-25 | 2023-05-25 | 一种基于大数据的在线能力运营日志自动采集分析的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116644039A CN116644039A (zh) | 2023-08-25 |
CN116644039B true CN116644039B (zh) | 2023-12-19 |
Family
ID=87618303
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310619260.6A Active CN116644039B (zh) | 2023-05-25 | 2023-05-25 | 一种基于大数据的在线能力运营日志自动采集分析的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116644039B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020205A (zh) * | 2012-12-05 | 2013-04-03 | 北京普泽天玑数据技术有限公司 | 一种分布式文件系统上基于硬件加速卡的压缩解压缩方法 |
CN103399887A (zh) * | 2013-07-19 | 2013-11-20 | 蓝盾信息安全技术股份有限公司 | 一种海量日志的查询与统计分析系统 |
CN104156463A (zh) * | 2014-08-21 | 2014-11-19 | 南京信息工程大学 | 一种基于MapReduce的大数据聚类集成方法 |
CN104298771A (zh) * | 2014-10-30 | 2015-01-21 | 南京信息工程大学 | 一种海量web日志数据查询与分析方法 |
CN105511805A (zh) * | 2015-11-26 | 2016-04-20 | 深圳市中博科创信息技术有限公司 | 集群文件系统的数据处理方法和装置 |
CN106446092A (zh) * | 2016-09-12 | 2017-02-22 | 浪潮软件股份有限公司 | 一种基于Flume的解析半结构化文本文件的数据的方法 |
CN106709003A (zh) * | 2016-12-23 | 2017-05-24 | 长沙理工大学 | 基于Hadoop的海量日志数据处理方法 |
CN109542733A (zh) * | 2018-12-05 | 2019-03-29 | 焦点科技股份有限公司 | 一种高可靠的实时日志收集及可视化检索方法 |
WO2020155651A1 (zh) * | 2019-02-02 | 2020-08-06 | 华为技术有限公司 | 存储、查询日志信息的方法、装置 |
CN115130129A (zh) * | 2022-08-17 | 2022-09-30 | 中国电信股份有限公司 | 数据加密方法、装置、存储介质以及电子设备 |
-
2023
- 2023-05-25 CN CN202310619260.6A patent/CN116644039B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020205A (zh) * | 2012-12-05 | 2013-04-03 | 北京普泽天玑数据技术有限公司 | 一种分布式文件系统上基于硬件加速卡的压缩解压缩方法 |
CN103399887A (zh) * | 2013-07-19 | 2013-11-20 | 蓝盾信息安全技术股份有限公司 | 一种海量日志的查询与统计分析系统 |
CN104156463A (zh) * | 2014-08-21 | 2014-11-19 | 南京信息工程大学 | 一种基于MapReduce的大数据聚类集成方法 |
CN104298771A (zh) * | 2014-10-30 | 2015-01-21 | 南京信息工程大学 | 一种海量web日志数据查询与分析方法 |
CN105511805A (zh) * | 2015-11-26 | 2016-04-20 | 深圳市中博科创信息技术有限公司 | 集群文件系统的数据处理方法和装置 |
CN106446092A (zh) * | 2016-09-12 | 2017-02-22 | 浪潮软件股份有限公司 | 一种基于Flume的解析半结构化文本文件的数据的方法 |
CN106709003A (zh) * | 2016-12-23 | 2017-05-24 | 长沙理工大学 | 基于Hadoop的海量日志数据处理方法 |
CN109542733A (zh) * | 2018-12-05 | 2019-03-29 | 焦点科技股份有限公司 | 一种高可靠的实时日志收集及可视化检索方法 |
WO2020155651A1 (zh) * | 2019-02-02 | 2020-08-06 | 华为技术有限公司 | 存储、查询日志信息的方法、装置 |
CN115130129A (zh) * | 2022-08-17 | 2022-09-30 | 中国电信股份有限公司 | 数据加密方法、装置、存储介质以及电子设备 |
Non-Patent Citations (2)
Title |
---|
基于日志信息的系统异常检测研究;唐子超;《信息科技辑》;98 * |
近年来Hadoop国内研究进展;王彦明;《现代情报》;14-19 * |
Also Published As
Publication number | Publication date |
---|---|
CN116644039A (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112347071B (zh) | 一种配电网云平台数据融合方法及配电网云平台 | |
CN111125260A (zh) | 一种基于SQL Server的数据同步方法及系统 | |
CN105824744A (zh) | 一种基于b2b平台的实时日志采集分析方法 | |
CN113986873B (zh) | 一种海量物联网数据模型化的处理、存储与共享方法 | |
CN101141754B (zh) | 一种增值业务分析系统及其方法 | |
CN111913933B (zh) | 基于统一支撑平台的电网历史数据管理方法及系统 | |
CN114218218A (zh) | 基于数据仓库的数据处理方法、装置、设备及存储介质 | |
CN113312376B (zh) | 一种用于Nginx日志实时处理分析的方法及终端 | |
CN109669975B (zh) | 一种工业大数据处理系统及方法 | |
CN112069264A (zh) | 异构数据源采集方法、装置、电子设备及存储介质 | |
CN111126852A (zh) | 一种基于大数据建模的bi应用系统 | |
CN114756629A (zh) | 基于sql的多源异构数据交互分析引擎及方法 | |
CN114090529A (zh) | 一种日志管理方法、装置、系统和存储介质 | |
CN113868248A (zh) | 指标数据预聚合方法 | |
CN116644039B (zh) | 一种基于大数据的在线能力运营日志自动采集分析的方法 | |
CN115033646B (zh) | 一种基于Flink&Doris构建实时数仓系统的方法 | |
CN114911872B (zh) | 内外网数据同步方法、装置、系统、外网服务器及存储介质 | |
CN115982231A (zh) | 分布式实时搜索系统及方法 | |
CN115391286A (zh) | 一种链路追踪数据管理方法、装置、设备及存储介质 | |
CN111625517B (zh) | 基于变化存储的新能源实时数据处理方法及装置 | |
CN113220727A (zh) | 基于云平台的电力物联数据可视化展现系统及其展现方法 | |
CN112579552A (zh) | 日志存储及调用方法、装置及系统 | |
CN111143280B (zh) | 一种数据调度方法、系统、装置及存储介质 | |
CN112380164B (zh) | 基于快照技术的电力系统场景化数据管理方法、装置及系统 | |
CN116089454B (zh) | 一种动态日志分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |