CN110309110A - 一种大数据日志监控方法及装置、存储介质和计算机设备 - Google Patents

一种大数据日志监控方法及装置、存储介质和计算机设备 Download PDF

Info

Publication number
CN110309110A
CN110309110A CN201910441551.4A CN201910441551A CN110309110A CN 110309110 A CN110309110 A CN 110309110A CN 201910441551 A CN201910441551 A CN 201910441551A CN 110309110 A CN110309110 A CN 110309110A
Authority
CN
China
Prior art keywords
monitoring
key
journal file
field
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910441551.4A
Other languages
English (en)
Inventor
游文君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
Original Assignee
OneConnect Smart Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Smart Technology Co Ltd filed Critical OneConnect Smart Technology Co Ltd
Priority to CN201910441551.4A priority Critical patent/CN110309110A/zh
Publication of CN110309110A publication Critical patent/CN110309110A/zh
Priority to PCT/CN2019/122939 priority patent/WO2020238130A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Abstract

本发明提供一种大数据日志监控方法,包括:获取日志数据,根据所述日志数据生成日志文件,将所述日志文件以预设格式存储至本地数据库中;获取监控关键字,从所述本地数据库中查找与所述监控关键字关联的日志文件;获取监控字段,将与所述监控关键字关联的日志文件与所述监控字段作为键值对,采用MapReduce数据处理模型统计所述日志文件中的监控字段的分类信息;将所述分类信息发送至指定位置显示。本发明的大数据日志监控方法可在降低机器性能的情况下,快速响应用户的日志监控需求,有利于用户根据程序运行日志快速排除程序故障。

Description

一种大数据日志监控方法及装置、存储介质和计算机设备
技术领域
本发明涉及计算机技术领域,具体而言,本发明涉及一种大数据日志监控方法及装置、存储介质和计算机设备。
背景技术
随着云计算大数据时代的飞速发展,服务器的监控在数据中心的监控中变得必不可少,日志监控就是其中比较重要的手段之一。传统的日志监控系统适用于服务器数量较少的场景,但现在数据中心的服务器数量呈逐年几何式增长,传统的日志监控系统难以承担数量如此庞大的服务器数量,从而导致服务器运行缓慢,对用户的日志搜索响应速度慢,不方便排除服务器故障等问题。
发明内容
本发明针对现有方式的缺点,提出一种大数据日志监控方法及装置、存储介质和计算机设备,用以解决现有技术中存在的日志搜索响应速度慢等问题。
本发明提出的大数据日志监控方法,包括步骤:
获取日志数据,根据所述日志数据生成日志文件,将所述日志文件以预设格式存储至本地数据库中;
获取监控关键字,从所述本地数据库中查找与所述监控关键字关联的日志文件;
获取监控字段,将与所述监控关键字关联的日志文件与所述监控字段作为键值对,采用MapReduce数据处理模型统计所述日志文件中的监控字段的分类信息;
将所述分类信息发送至指定位置显示。
进一步地,所述获取监控字段,将所述日志文件与所述监控字段作为键值对,包括:
使用输入格式设置函数job.setInputFormatClass()定义的数据输入规则InputFormat,将所述日志文件分割成小数据块split,所述数据输入规则InputFormat中包括获取监控字段的数据读取组件RecordReader;
所述数据读取组件RecordReader将输入文本的行号作为键key,将所述输入文本作为Value值,形成每个所述小数据块的输入键值对。
进一步地,所述采用MapReduce数据处理模型统计所述日志文件中的监控字段的分类信息,包括:
调用函数job.setPartitionerClass()对每个所述小数据块输出的中间键值对进行分区,每个分区对应于一个Reducer函数;
调用通过job.setSortComparatorClass()函数设置的键值比较函数类,或通过compareTo()函数类,对每个所述分区内的键Key类进行排序;
调用job.setGroupingComparatorClass()比较函数比较所有分区内的键key;
若两个中间键值对中的键Key相同,将所述两个中间键值对归于同一组,并将其值Value置于同一个Value迭代器,该Value迭代器的键Key为同一组所有键Key的第一个键Key,得到所述日志文件中的监控字段的分类信息。
进一步地,所述获取监控关键字,从本地数据库中查找与所述监控关键字关联的日志文件之后,还包括:
使用MQ队列将所述日志文件发送给spark分布式框架;
将所述日志文件与所述监控字段作为键值对,包括:
根据spark分布式框架将所述日志文件与所述监控字段作为键值对。
进一步地,所述获取监控关键字,从本地数据库中查找与所述监控关键字关联的日志文件,获取监控字段,将所述日志文件与所述监控字段作为键值对,包括:
获取监控关键字;
判断所述监控关键字为第一类型还是第二类型;
若所述监控关键字为第一类型,获得所述第一类型的第一时间段,从所述本地数据库中查找在所述第一时间段内的与所述监控关键字关联的日志文件;获取监控字段,判断监控字段的长度是否大于预置值,若是,从全部所述日志文件中,随机获取四分之一的日志文件,将所述四分之一的日志文件与所述监控字段作为键值对;否则,将所述日志文件与所述监控字段作为键值对;
若所述监控关键字为第二类型,获得所述第二类型的第二时间段,从所述本地数据库中查找在所述第二时间段内的与所述监控关键字关联的日志文件;获取监控字段,判断监控字段的长度是否大于预置值,若是,从全部所述日志文件中,获取时间在后的一半的日志文件,将所述一半的日志文件与所述监控字段作为键值对;否则,将所述日志文件与所述监控字段作为键值对。
进一步地,所述将所述分类信息发送至指定位置显示,包括:
根据远程终端的指令,将所述分类信息发送至指定的终端显示,所述分类信息包括所述监控关键字和所述监控字段。
进一步地,所述监控字段包括error字段和/或exception字段。
本发明还提出一种大数据日志监控装置,该装置包括:
数据获取模块,用于获取日志数据,根据所述日志数据生成日志文件,将所述日志文件以预设格式存储至本地数据库中;
文件查找模块,用于获取监控关键字,从所述本地数据库中查找与所述监控关键字关联的日志文件;
监控字段分类模块,用于获取监控字段,将所述日志文件与所述监控字段作为键值对,采用MapReduce数据处理模型统计所述日志文件中的监控字段的分类信息;
分类信息发送模块,用于将所述分类信息发送至指定位置显示。。
本发明还提出一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述任意一项所述的大数据日志监控方法。
本发明还提出一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现前述任意一项所述的大数据日志监控方法。
本发明具有以下有益效果:
1、本发明的大数据日志监控方法采用MapReduce数据处理模型可在降低机器性能的情况下,快速响应用户的日志监控需求,有利于用户根据程序运行日志快速排除程序故障。
2、本发明可将输入文本的行号作为键key,将所述输入文本作为Value值,形成每个所述小数据块的输入键值对,可快速统计日志文件中每一行数据的特征,有利于用户快速定位程序的运行位置。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明大数据日志监控方法一个实施例的流程示意图;
图2为本发明大数据日志监控方法另一实施例的流程示意图;
图3为本发明大数据日志监控装置一个实施例的模块示意图;
图4为本发明计算机设备实施例的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式,这里使用的“第一”、“第二”仅用于区别同一技术特征,并不对该技术特征的顺序和数量等加以限定。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”“设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备。
本发明提出一种大数据日志监控方法,可用于提高搜索日志数据和统计日志的速度,尤其适用于开发中的应用软件通过日志监控及早发现应用软件中的问题。如图1所示的实施例,本发明的大数据日志监控方法可包括如下步骤:
步骤S10:获取日志数据,根据所述日志数据生成日志文件,将所述日志文件以预设格式存储至本地数据库中;
步骤S20:获取监控关键字,从所述本地数据库中查找与所述监控关键字关联的日志文件;
步骤S30:获取监控字段,将所述日志文件与所述监控字段作为键值对,采用MapReduce数据处理模型统计所述日志文件中的监控字段的分类信息;
步骤S40:将所述分类信息发送至指定位置显示。
其中,每个步骤具体如下:
步骤S10:获取日志数据,根据所述日志数据生成日志文件,将所述日志文件以预设格式存储至本地数据库中。
所述日志数据可存储于多个计算机设备上,例如同一个应用软件的服务器被部署到多台不同的服务器上,每台服务器上又可能部署多个不同的多个应用。在这种应用场景下,为了监控或者搜索某段日志,可能需要登陆多台服务器,分别执行不同的日志查找命令,从而造成效率低下的问题;而且,这种方法难以统计大规模的日志数据从而得到应用软件的宏观规律。对于不同的应用,其日志数据的形式可能不同,本步骤可对获取到的所有日志数据进行标准化处理,以规范日志数据的格式,并将进行标准化处理的日志数据落库到本地日志文件中,即:将所述日志文件以预设格式存储至本地数据库中。所述日志文件可根据应用程序进行划分,亦可根据日志的时段等特征进行划分。所述预设格式中可包括日志来源、日志时间、日志对应的处理事项等信息。所述本地数据库可为存储于本计算机设备上的数据库,亦可为本计算机终端具有访问、修改等权限的数据库。
步骤S20:获取监控关键字,从所述本地数据库中查找与所述监控关键字关联的日志文件。
所述监控关键字用于过滤日志文件,例如当计算机终端具有多个应用软件的日志时,可通过监控关键字查找指定的应用软件的日志文件。进一步地,当日志文件较少时,亦可通过监控关键字触发报警信息,例如当出现指定关键字的错误信息时,可通过短信和邮件向预先指定的用户发送报警信息,以提示用户及时修复错误。但当日志文件非常多时,例如金融交易类平台上的交易日志,由于其数据量非常庞大且即时性强,即使通过监控关键字过滤后,仍具有数量庞大的日志信息,还需进一步进行分析与统计,才能反应出应用程序运行的问题。本步骤先通过所述监控关键字过滤掉不相关数据,达到清洗日志数据的目的。
步骤S30:获取监控字段,将所述日志文件与所述监控字段作为键值对,采用MapReduce数据处理模型统计所述日志文件中的监控字段的分类信息。
所述监控字段为用户根据监控需求设置的字段,该字段可为与应用程序的功能函数、运行结果等信息相关联的字段。所述监控字段可通过预设的接口函数输入,以根据用户需求进行调整,亦可内置于日志监控系统内部,以输出指定字段的日志信息。
分布式框架spark的主要构成是数据模型RDD(Resilient DistributedDataset),也叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表了一个不可变的、分区的、可以用于并行计算的数据集。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。RDD除了是分布式数据集以外,还包括了数据集之间进行转换所需要的函数。故,本发明可采用spark作为分布式框架,利用sparkStreaming进行日志文件的分析。spark中集成有MapReduce编程模型,可对数据进行二次排序,以达到对日志文件中的监控字段进行分类的目的。例如,用户需要对日志文件中的error和exception进行统计,可先将日志文件进行分割,再以error和exception作为键值对的key值,将出现的相关日志进行归类到这两个key值中,得到对应的两个类,然后对这两类进行归纳与统计。故在本发明的部分实施例中,所述监控字段可包括error字段和/或exception字段。
MapReduce编程模型会将日志文件拆分成多个子文件,并对每个子文件执行Map函数和Reduce函数。Map函数将根据输入的键值对(key-value pair),产生一组中间键值对;然后MapReduce的框架将Map函数产生的中间键值对里面键key相同的值Value传递给一个Reduce函数;Reduce函数接受该键key与相关的一组值Value,并将这组值Value进行合并,以产生一组规模更小的值。当所有子文件的Map和Reduce作业都完成了,MapReduce中的user program被唤醒,MapReduce函数调用返回user program的代码,输出R个分区的输出文件,每个分区对应于一个Reduce作业。这R个文件通常不需要合并,而是作为输入交给另一个MapReduce程序处理,以进一步进行合并或迭代。在MapReduce的处理过程中,输入数据来自于底层分布式文件系统(GFS),中间数据存放于本地文件系统中,输出数据写入底层分布式文件系统(GFS),故不会对原有日志文件造成干扰。本步骤通过MapReduce数据处理模型,可根据所述监控字段统计所述日志文件中的相关信息,并输出对应的分类信息,达到分类分析与统计的目的。
步骤S40:将所述分类信息发送至指定位置显示。
所述分类信息可直接显示于本计算机终端,以供本终端用户参考。所述分类信息亦可根据远程终端的指令,将所述分类信息发送至指定的终端显示,以供远程用户参考。在部分实施例中,所述分类信息可包括所述监控关键字和所述监控字段,以使用户获知多个关键字和不同监控字段的日志信息。
本发明的大数据日志监控方法采用MapReduce数据处理模型,可在降低机器性能的情况下,快速响应用户的日志监控需求,达到实时日志监控的目的,并可对历史日志数据进行相关性分析;同时,也有利于用户快速查找程序运行日志,以便及时获知程序异常,快速排除程序故障。
如图2所示,在本发明的另一实施例,所述获取监控字段,将所述日志文件与所述监控字段作为键值对,可包括如下步骤:
步骤S31:使用输入格式设置函数job.setInputFormatClass()定义的数据输入规则InputFormat,将所述日志文件分割成小数据块split,所述数据输入规则InputFormat中包括获取监控字段的数据读取组件RecordReader;
步骤S32:所述数据读取组件RecordReader将输入文本的行号作为键key,将所述输入文本作为Value值,形成每个所述小数据块的输入键值对。
本实施例通过InputFormat将所述日志文件分割成小数据块,可根据用户需求变化日志文件的分割方式,以适应多种不同的日志分析应用场景;同时通过数据读取组件RecordReader,将输入文本的行号作为键key,将所述输入文本作为Value值,可直接定位至用户指定的日志行号中,有利于用户快速获知每一行日志的特征。
结合图2所示,在本发明的另一实施例中,所述采用MapReduce数据处理模型统计所述日志文件中的监控字段的分类信息,包括:
步骤S33:调用函数job.setPartitionerClass()对每个所述小数据块输出的中间键值对进行分区,每个分区对应于一个Reducer函数;
步骤S34:调用通过job.setSortComparatorClass()函数设置的键值比较函数类,或通过compareTo()函数类,对每个所述分区内的键Key类进行排序;
步骤S35:调用job.setGroupingComparatorClass()比较函数比较所有分区内的键key;
步骤S36:若两个中间键值对中的键Key相同,将所述两个中间键值对归于同一组,并将其值Value置于同一个Value迭代器,该Value迭代器的键Key为同一组所有键Key的第一个键Key,得到所述日志文件中的监控字段的分类信息。
本实施例通过调用MapReduce的多个具体函数可统计日志文件中的每一行日志特征,并将该特征迭代至不同的分组中,以统计出多行日志的大数据统计特征。
在本发明的又一实施例中,所述获取监控关键字,从本地数据库中查找与所述监控关键字关联的日志文件之后,还包括:
使用MQ队列将所述日志文件发送给spark分布式框架;
将所述日志文件与所述监控字段作为键值对,包括:
根据spark分布式框架将所述日志文件与所述监控字段作为键值对。
MQ队列是一种应用程序与应用程序的通信方法。本实施例通过spark分布式框架将所述日志文件与所述监控字段作为键值对,可定制化用户的日志分析需求,并可通过Spark SQL更快地搜索日志信息;而且,spark为分布式结构,可兼顾大数据的运算要求与机器性能之间的平衡。
在本发明的又一实施例中,所述获取监控关键字,从本地数据库中查找与所述监控关键字关联的日志文件,获取监控字段,将所述日志文件与所述监控字段作为键值对,包括:
获取监控关键字;
判断所述监控关键字为第一类型还是第二类型;
若所述监控关键字为第一类型,获得所述第一类型的第一时间段,从所述本地数据库中查找在所述第一时间段内的与所述监控关键字关联的日志文件;获取监控字段,判断监控字段的长度是否大于预置值,若是,从全部所述日志文件中,随机获取四分之一的日志文件,将所述四分之一的日志文件与所述监控字段作为键值对;否则,将所述日志文件与所述监控字段作为键值对;
若所述监控关键字为第二类型,获得所述第二类型的第二时间段,从所述本地数据库中查找在所述第二时间段内的与所述监控关键字关联的日志文件;获取监控字段,判断监控字段的长度是否大于预置值,若是,从全部所述日志文件中,获取时间在后的一半的日志文件,将所述一半的日志文件与所述监控字段作为键值对;否则,将所述日志文件与所述监控字段作为键值对。
本实施例可根据不同的监控关键字,从所述本地数据库中查找不同的日志文件,以使获取日志文件与所述监控关键字更相符。例如,第一类型的监控关键字为监控重要事件时,可监控较长的时间,例如一个月,此时监控的数据量较大,可采用随机获取四分之一的日志文件的方法,以提高日志监控效率;例如第二类型的监控关键字为不重要的事件时,监控时间可以为一周,若监控字段较长,则可抽取后面一半的日志文件的方法进行分析,亦可达到提高日志监控效率的目的。
在本发明的一个具体实施例中,日志监控过程可主要包括以下几个步骤:
1、对日志数据进行标准化处理,规范日志格式,并落库到本地日志文件中;
2、根据监控关键字对需要监控的日志文件进行读取,再通过MQ消息队列发送到spark框架中进行分析;
3、对日志文件进行分析与划分:使用spark Streaming进行日志文件数据的分析,spark中包括MapReduce编程模型,以对日志文件中的数据进行二次排序;其中,MapReduce可以对数据集进行映射和归约,将数据集根据用户输入的监控字段进行分类;例如,用户需要对日志文件进行error和exception的统计,则先对日志文件进行分割,再以error和exception作为key值,将出现的相关日志信息进行归类到这两个key值中,然后根据这两类中的信息进行归纳与统计;
4、最后将得到的归纳与统计信息发送至后管展示。
其中,在MapReduce编程模型的Map起始阶段,使用job.setInputFormatClass()定义的InputFormat,将输入的日志文件数据集分割成小数据块split,同时InputFormat提供一个RecordReader的实现。RecordReader可通过TextInputFormat函数实现,通过TextInputFormat函数提供的RecordReader会将文本的行号作为键Key,这一行的文本作为Value值;对应的Mapper的输入是<LongWritable,Text>,然后调用自定义Mapper的map方法,将每一个<LongWritable,Text>键值对输入给Mapper的map。
在Map最后阶段,先调用job.setPartitionerClass()对所述Mapper的输出结果进行分区,每个分区映射到一个Reducer。每个分区内又调用job.setSortComparatorClass()设置的Key比较函数类排序,以得到二次排序的结果。若不通过job.setSortComparatorClass()设置Key比较函数类,则可使用Key实现的compareTo()方法
在Reduce阶段,即归约阶段,reduce()函数接收所有映射到这个Reduce的map输出后,也会调用job.setSortComparatorClass()函数设置的Key比较函数类,对所有数据进行排序;然后构造一个键Key对应的Value迭代器。此时需要用到分组,使用job.setGroupingComparatorClass()函数设置分组函数类。只要这个比较器比较的两个键Key相同,则两个键Key属于同一组,将它们的Value值放在一个Value迭代器,而该迭代器的键Key使用属于同一个组的所有键Key的第一个键Key。最后,进入Reducer的reduce()函数,reduce()函数的输入是所有的键Key和它的Value迭代器,此时reduce()函数的输入与输出的类型与自定义的Reducer中声明的一致。
本发明还提供一种大数据日志监控装置实施例,如图3所示,该装置包括:
数据获取模块10,用于获取日志数据,根据所述日志数据生成日志文件,将所述日志文件以预设格式存储至本地数据库中;
文件查找模块20,用于获取监控关键字,从所述本地数据库中查找与所述监控关键字关联的日志文件;
监控字段分类模块30,用于获取监控字段,将所述日志文件与所述监控字段作为键值对,采用MapReduce数据处理模型统计所述日志文件中的监控字段的分类信息;
分类信息发送模块40,用于将所述分类信息发送至指定位置显示。
本发明还提供一种计算机可读存储介质实施例,其上存储有计算机程序,该程序被处理器执行时实现前述任意一项所述的大数据日志监控方法。
其中,所述存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random AcceSS Memory,随即存储器)、EPROM(EraSable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically EraSable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,存储介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。可以是只读存储器,磁盘或光盘等。
本发明还提供一种计算机设备实施例,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现前述任意一项所述的大数据日志监控方法。
如图4所示的计算机设备,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机设备包括处理器320、存储装置330、输入单元340以及显示单元350等器件。本领域技术人员可以理解,图4示出的结构器件并不构成对所有计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件。存储装置330可用于存储应用程序310以及各功能模块,处理器320运行存储在存储装置330的应用程序310,从而执行设备的各种功能应用以及数据处理。存储装置330可以是内存储器或外存储器,或者包括内存储器和外存储器两者。内存储器可以包括只读存储器、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本发明所公开的存储装置包括但不限于这些类型的存储装置。本发明所公开的存储装置330只作为例子而非作为限定。
输入单元340用于接收信号的输入,以及接收目标用户在第一统计日期的用户属性信息以及对指定目标的访问信息。输入单元340可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程序驱动相应的连接装置;其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元350可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元350可采用液晶显示器、有机发光二极管等形式。处理器320是计算机设备的控制中心,利用各种接口和线路连接整个电脑的各个部分,通过运行或执行存储在存储装置330内的软件程序和/或模块,以及调用存储在存储装置内的数据,执行各种功能和处理数据。
在一实施方式中,服务器包括一个或多个处理器320,以及一个或多个存储装置330,一个或多个应用程序310,其中所述一个或多个应用程序310被存储在存储装置330中并被配置为由所述一个或多个处理器320执行,所述一个或多个应用程序310配置用于执行以上实施例所述的大数据日志监控方法。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
应该理解的是,在本发明各实施例中的各功能单元可集成在一个处理模块中,也可以各个单元单独物理存在,也可以两个或两个以上单元集成于一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种大数据日志监控方法,其特征在于,包括步骤:
获取日志数据,根据所述日志数据生成日志文件,将所述日志文件以预设格式存储至本地数据库中;
获取监控关键字,从所述本地数据库中查找与所述监控关键字关联的日志文件;
获取监控字段,将与所述监控关键字关联的日志文件与所述监控字段作为键值对,采用MapReduce数据处理模型统计所述日志文件中的监控字段的分类信息;
将所述分类信息发送至指定位置显示。
2.根据权利要求1所述的方法,其特征在于,所述获取监控字段,将所述日志文件与所述监控字段作为键值对,包括:
使用输入格式设置函数job.setInputFormatClass()定义的数据输入规则InputFormat,将所述日志文件分割成小数据块split,所述数据输入规则InputFormat中包括获取监控字段的数据读取组件RecordReader;
所述数据读取组件RecordReader将输入文本的行号作为键key,将所述输入文本作为Value值,形成每个所述小数据块的输入键值对。
3.根据权利要求2所述的方法,其特征在于,所述采用MapReduce数据处理模型统计所述日志文件中的监控字段的分类信息,包括:
调用函数job.setPartitionerClass()对每个所述小数据块输出的中间键值对进行分区,每个分区对应于一个Reducer函数;
调用通过job.setSortComparatorClass()函数设置的键值比较函数类,或通过compareTo()函数类,对每个所述分区内的键Key类进行排序;
调用job.setGroupingComparatorClass()比较函数比较所有分区内的键key;
若两个中间键值对中的键Key相同,将所述两个中间键值对归于同一组,并将其值Value置于同一个Value迭代器,该Value迭代器的键Key为同一组所有键Key的第一个键Key,得到所述日志文件中的监控字段的分类信息。
4.根据权利要求1所述的方法,其特征在于,所述获取监控关键字,从本地数据库中查找与所述监控关键字关联的日志文件之后,还包括:
使用MQ队列将所述日志文件发送给spark分布式框架;
将所述日志文件与所述监控字段作为键值对,包括:
根据spark分布式框架将所述日志文件与所述监控字段作为键值对。
5.根据权利要求1所述的方法,其特征在于,所述获取监控关键字,从本地数据库中查找与所述监控关键字关联的日志文件,获取监控字段,将所述日志文件与所述监控字段作为键值对,包括:
获取监控关键字;
判断所述监控关键字为第一类型还是第二类型;
若所述监控关键字为第一类型,获得所述第一类型的第一时间段,从所述本地数据库中查找在所述第一时间段内的与所述监控关键字关联的日志文件;获取监控字段,判断监控字段的长度是否大于预置值,若是,从全部所述日志文件中,随机获取四分之一的日志文件,将所述四分之一的日志文件与所述监控字段作为键值对;否则,将所述日志文件与所述监控字段作为键值对;
若所述监控关键字为第二类型,获得所述第二类型的第二时间段,从所述本地数据库中查找在所述第二时间段内的与所述监控关键字关联的日志文件;获取监控字段,判断监控字段的长度是否大于预置值,若是,从全部所述日志文件中,获取时间在后的一半的日志文件,将所述一半的日志文件与所述监控字段作为键值对;否则,将所述日志文件与所述监控字段作为键值对。
6.根据权利要求1所述的方法,其特征在于,所述将所述分类信息发送至指定位置显示,包括:
根据远程终端的指令,将所述分类信息发送至指定的终端显示,所述分类信息包括所述监控关键字和所述监控字段。
7.根据权利要求1所述的方法,其特征在于,所述监控字段包括error字段和/或exception字段。
8.一种大数据日志监控装置,其特征在于,包括:
数据获取模块,用于获取日志数据,根据所述日志数据生成日志文件,将所述日志文件以预设格式存储至本地数据库中;
文件查找模块,用于获取监控关键字,从所述本地数据库中查找与所述监控关键字关联的日志文件;
监控字段分类模块,用于获取监控字段,将所述日志文件与所述监控字段作为键值对,采用MapReduce数据处理模型统计所述日志文件中的监控字段的分类信息;
分类信息发送模块,用于将所述分类信息发送至指定位置显示。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任意一项所述的大数据日志监控方法。
10.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至7中任意一项所述的大数据日志监控方法。
CN201910441551.4A 2019-05-24 2019-05-24 一种大数据日志监控方法及装置、存储介质和计算机设备 Pending CN110309110A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910441551.4A CN110309110A (zh) 2019-05-24 2019-05-24 一种大数据日志监控方法及装置、存储介质和计算机设备
PCT/CN2019/122939 WO2020238130A1 (zh) 2019-05-24 2019-12-04 一种大数据日志监控方法及装置、存储介质和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910441551.4A CN110309110A (zh) 2019-05-24 2019-05-24 一种大数据日志监控方法及装置、存储介质和计算机设备

Publications (1)

Publication Number Publication Date
CN110309110A true CN110309110A (zh) 2019-10-08

Family

ID=68075276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910441551.4A Pending CN110309110A (zh) 2019-05-24 2019-05-24 一种大数据日志监控方法及装置、存储介质和计算机设备

Country Status (2)

Country Link
CN (1) CN110309110A (zh)
WO (1) WO2020238130A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110780857A (zh) * 2019-10-23 2020-02-11 杭州涂鸦信息技术有限公司 一种统一日志组件
CN110955562A (zh) * 2019-11-26 2020-04-03 杭州安恒信息技术股份有限公司 一种数据恢复的方法、系统、设备及可读存储介质
CN111198850A (zh) * 2019-12-14 2020-05-26 深圳猛犸电动科技有限公司 一种日志消息的处理方法、装置以及物联网平台
CN111611585A (zh) * 2020-05-20 2020-09-01 网神信息技术(北京)股份有限公司 终端设备的监控方法、装置、电子设备和介质
CN111796988A (zh) * 2020-07-16 2020-10-20 广州智物互联科技有限公司 一种大数据信息监控方法、装置及计算机设备
WO2020238130A1 (zh) * 2019-05-24 2020-12-03 深圳壹账通智能科技有限公司 一种大数据日志监控方法及装置、存储介质和计算机设备
CN112800016A (zh) * 2020-12-31 2021-05-14 武汉思普崚技术有限公司 一种日志数据分类排序方法及装置
CN113448935A (zh) * 2020-03-24 2021-09-28 伊姆西Ip控股有限责任公司 用于提供日志信息的方法、电子设备和计算机程序产品
CN113448935B (zh) * 2020-03-24 2024-04-26 伊姆西Ip控股有限责任公司 用于提供日志信息的方法、电子设备和计算机程序产品

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667469A (zh) * 2020-12-25 2021-04-16 通号智慧城市研究设计院有限公司 一种多元化大数据统计报告自动生成方法、系统及可读介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142958A (zh) * 2013-05-10 2014-11-12 华为技术有限公司 一种键值对系统中数据的存储方法和相关装置
CN104965935A (zh) * 2015-08-06 2015-10-07 携程计算机技术(上海)有限公司 网络监控日志的更新方法
US20160092493A1 (en) * 2014-09-29 2016-03-31 International Business Machines Corporation Executing map-reduce jobs with named data
CN105608203A (zh) * 2015-12-24 2016-05-25 Tcl集团股份有限公司 一种基于Hadoop平台的物联网日志处理方法和装置
CN107451149A (zh) * 2016-05-31 2017-12-08 北京京东尚科信息技术有限公司 流量数据查询任务的监控方法及其装置
CN108052679A (zh) * 2018-01-04 2018-05-18 焦点科技股份有限公司 一种基于hadoop的日志分析系统
CN108133043A (zh) * 2018-01-12 2018-06-08 福建星瑞格软件有限公司 一种基于大数据的服务器运行日志结构化存储方法
CN108319608A (zh) * 2017-01-16 2018-07-24 中国移动通信集团湖南有限公司 访问日志存储查询的方法、装置及系统
CN108874642A (zh) * 2018-05-25 2018-11-23 平安科技(深圳)有限公司 Sql性能监控方法、装置、计算机设备及存储介质
US20190138410A1 (en) * 2017-11-09 2019-05-09 Bank Of America Corporation Distributed data monitoring device

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631699B (zh) * 2012-08-28 2019-02-12 北京京东尚科信息技术有限公司 日志管理系统及日志监控、获取和查询方法
CN104699725B (zh) * 2013-12-10 2018-10-09 阿里巴巴集团控股有限公司 数据搜索处理方法及系统
CN106201754A (zh) * 2016-07-06 2016-12-07 乐视控股(北京)有限公司 任务信息分析方法及装置
CN110309110A (zh) * 2019-05-24 2019-10-08 深圳壹账通智能科技有限公司 一种大数据日志监控方法及装置、存储介质和计算机设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142958A (zh) * 2013-05-10 2014-11-12 华为技术有限公司 一种键值对系统中数据的存储方法和相关装置
US20160092493A1 (en) * 2014-09-29 2016-03-31 International Business Machines Corporation Executing map-reduce jobs with named data
CN104965935A (zh) * 2015-08-06 2015-10-07 携程计算机技术(上海)有限公司 网络监控日志的更新方法
CN105608203A (zh) * 2015-12-24 2016-05-25 Tcl集团股份有限公司 一种基于Hadoop平台的物联网日志处理方法和装置
CN107451149A (zh) * 2016-05-31 2017-12-08 北京京东尚科信息技术有限公司 流量数据查询任务的监控方法及其装置
CN108319608A (zh) * 2017-01-16 2018-07-24 中国移动通信集团湖南有限公司 访问日志存储查询的方法、装置及系统
US20190138410A1 (en) * 2017-11-09 2019-05-09 Bank Of America Corporation Distributed data monitoring device
CN108052679A (zh) * 2018-01-04 2018-05-18 焦点科技股份有限公司 一种基于hadoop的日志分析系统
CN108133043A (zh) * 2018-01-12 2018-06-08 福建星瑞格软件有限公司 一种基于大数据的服务器运行日志结构化存储方法
CN108874642A (zh) * 2018-05-25 2018-11-23 平安科技(深圳)有限公司 Sql性能监控方法、装置、计算机设备及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
MA, KUN YANG, BO: "Log-based change data capture from schema-free document stores using MapReduce.", IEEE, 2 June 2015 (2015-06-02), pages 1 - 6, XP032817127, DOI: 10.1109/CloudTech.2015.7336969 *
冯青平;李星毅;: "基于大数据的非参数回归短时交通流预测方法", 无线通信技术, no. 03, 15 August 2015 (2015-08-15), pages 38 - 43 *
王尔玺;周一;: "基于云平台的分布式新能源监控数据分析方法研究", 能源与环保, no. 03, 3 April 2018 (2018-04-03), pages 154 - 158 *
薛瑞;朱晓民;: "基于Spark Streaming的实时日志处理平台设计与实现", 电信工程技术与标准化, no. 09, 15 September 2015 (2015-09-15), pages 55 - 58 *
陈涛;陈彦名;王康;张冬晨;: "网络优化大数据平台监控技术研究", 电信工程技术与标准化, no. 04, 15 April 2018 (2018-04-15), pages 1 - 6 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020238130A1 (zh) * 2019-05-24 2020-12-03 深圳壹账通智能科技有限公司 一种大数据日志监控方法及装置、存储介质和计算机设备
CN110780857A (zh) * 2019-10-23 2020-02-11 杭州涂鸦信息技术有限公司 一种统一日志组件
CN110780857B (zh) * 2019-10-23 2024-01-30 杭州涂鸦信息技术有限公司 一种统一日志组件
CN110955562A (zh) * 2019-11-26 2020-04-03 杭州安恒信息技术股份有限公司 一种数据恢复的方法、系统、设备及可读存储介质
CN111198850A (zh) * 2019-12-14 2020-05-26 深圳猛犸电动科技有限公司 一种日志消息的处理方法、装置以及物联网平台
CN113448935A (zh) * 2020-03-24 2021-09-28 伊姆西Ip控股有限责任公司 用于提供日志信息的方法、电子设备和计算机程序产品
CN113448935B (zh) * 2020-03-24 2024-04-26 伊姆西Ip控股有限责任公司 用于提供日志信息的方法、电子设备和计算机程序产品
CN111611585A (zh) * 2020-05-20 2020-09-01 网神信息技术(北京)股份有限公司 终端设备的监控方法、装置、电子设备和介质
CN111796988A (zh) * 2020-07-16 2020-10-20 广州智物互联科技有限公司 一种大数据信息监控方法、装置及计算机设备
CN111796988B (zh) * 2020-07-16 2021-08-31 上海贯鑫信息科技有限公司 一种大数据信息监控方法、装置及计算机设备
CN112800016A (zh) * 2020-12-31 2021-05-14 武汉思普崚技术有限公司 一种日志数据分类排序方法及装置

Also Published As

Publication number Publication date
WO2020238130A1 (zh) 2020-12-03

Similar Documents

Publication Publication Date Title
CN110309110A (zh) 一种大数据日志监控方法及装置、存储介质和计算机设备
CN108416620B (zh) 一种基于大数据的画像数据的智能社交广告投放平台
US11409645B1 (en) Intermittent failure metrics in technological processes
US9195693B2 (en) Transaction prediction modeling method
US10452625B2 (en) Data lineage analysis
EP2609501B1 (en) Dynamic calculation of sample profile reports
CN111740884B (zh) 一种日志处理方法及电子设备、服务器、存储介质
CN106293891B (zh) 多维投资指标监督方法
CN109656963A (zh) 元数据获取方法、装置、设备及计算机可读存储介质
CN106484915B (zh) 一种海量数据的清洗方法和系统
US20160299827A1 (en) Generating a visualization of a metric at a level of execution
US11615076B2 (en) Monolith database to distributed database transformation
CN109388657A (zh) 数据处理方法、装置、计算机设备及存储介质
CN112395333B (zh) 用于排查数据异常的方法、装置、电子设备及存储介质
CN108304432A (zh) 信息推送处理方法、信息推送处理装置及存储介质
CN113032420A (zh) 数据查询方法、装置和服务器
CN112148578A (zh) 基于机器学习的it故障缺陷预测方法
Le-Phuoc Operator-aware approach for boosting performance in RDF stream processing
Khoussainova et al. Probabilistic rfid data management
CN108920516A (zh) 实时分析方法、系统、装置及计算机可读存储介质
CN113468166A (zh) 元数据处理方法、装置、存储介质及服务器
CN110705736A (zh) 宏观经济预测方法、装置、计算机设备及存储介质
US11874730B2 (en) Identifying log anomaly resolution from anomalous system logs
Khatiwada Architectural issues in real-time business intelligence
CN113553320B (zh) 数据质量监控方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination