CN114238018B - 日志采集文件完整性检测方法、系统、装置及存储介质 - Google Patents

日志采集文件完整性检测方法、系统、装置及存储介质 Download PDF

Info

Publication number
CN114238018B
CN114238018B CN202111549127.5A CN202111549127A CN114238018B CN 114238018 B CN114238018 B CN 114238018B CN 202111549127 A CN202111549127 A CN 202111549127A CN 114238018 B CN114238018 B CN 114238018B
Authority
CN
China
Prior art keywords
log
information
file
preset
integrity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111549127.5A
Other languages
English (en)
Other versions
CN114238018A (zh
Inventor
骆延楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iMusic Culture and Technology Co Ltd
Original Assignee
iMusic Culture and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iMusic Culture and Technology Co Ltd filed Critical iMusic Culture and Technology Co Ltd
Priority to CN202111549127.5A priority Critical patent/CN114238018B/zh
Publication of CN114238018A publication Critical patent/CN114238018A/zh
Application granted granted Critical
Publication of CN114238018B publication Critical patent/CN114238018B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3086Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves the use of self describing data formats, i.e. metadata, markup languages, human readable formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Abstract

本申请公开了一种日志采集文件完整性检测方法、系统、装置及存储介质。该方法通过获取日志文件信息和日志元数据信息,当日志元数据信息的采集状态标识为异常标识时,判断异常标识是否为预设异常标识;进而判断日志文件信息的行数是否不等于日志元数据信息的行数;进而按照预设维度对日志文件信息和日志元数据信息再次进行比对,从而确定日志文件信息不具有完整性。该系统包括第一获取模块、第二获取模块、第一确定模块、第二确定模块、第三确定模块和第四确定模块。通过使用上述方法,能够对日志采集文件的完整性进行智能检测和问题定位,有利于减少人力成本,提高检测效率。本申请可广泛应用于计算机技术领域内。

Description

日志采集文件完整性检测方法、系统、装置及存储介质
技术领域
本申请涉及计算机技术领域,尤其是一种日志采集文件完整性检测方法、系统、装置及存储介质。
背景技术
目前日志数据缺失或其他数据异常通常由用户访问报表数据发现,再反馈至数据开发人员,对日志文件的数据异常情况进行检测和定位。由此可见,对于复杂的业务场景,相关技术中的日志文件完整性检测对于数据缺失问题发现滞后,需要人工参与,时效性欠佳。
发明内容
本申请的目的在于至少一定程度上解决现有技术中存在的技术问题之一。
为此,本申请实施例的一个目的在于提供一种日志采集文件完整性检测方法,该方法能够对日志采集文件的完整性进行智能检测和问题定位,有利于减少人力成本,提高检测效率。
本申请实施例的另一个目的在于提供一种日志采集文件完整性检测系统。
为了达到上述技术目的,本申请实施例所采取的技术方案包括:
一方面,本申请实施例提供了一种日志采集文件完整性检测方法,包括以下步骤:
本申请实施例的一种日志采集文件完整性检测方法,获取日志文件信息;获取日志元数据信息;当所述日志元数据信息的采集状态标识为异常标识,判断所述异常标识是否为预设异常标识;所述预设异常标识用于表征日志的异常类型不属于人工干预的异常;若所述异常标识为预设异常标识,判断所述日志文件信息的行数是否不等于所述日志元数据信息的行数;若所述日志文件信息的行数不等于所述日志元数据信息的行数,按照预设维度获取所述日志文件信息中的第一日志信息,按照所述预设维度获取所述日志元数据信息中的第二日志信息,并判断所述第一日志信息的行数是否不等于所述第二日志信息的行数;若所述第一日志信息的行数不等于所述第二日志信息的行数,确定所述日志文件信息不具有完整性。通过使用上述方法,能够对日志采集文件的完整性进行智能检测和问题定位,有利于减少人力成本,提高检测效率。
另外,根据本申请上述实施例的日志采集文件完整性检测方法,还可以具有以下附加的技术特征:
进一步地,本申请实施例的日志采集文件完整性检测方法,还包括以下步骤;对所述第一日志信息进行重新采集处理,得到具有完整性的日志文件信息。
进一步地,在本申请的一个实施例中,所述对所述第一日志信息进行重新采集处理这一步骤,其具体包括:删除所述第一日志信息,重新采集所述预设维度下的日志文件信息。
进一步地,在本申请的一个实施例中,所述预设维度下的日志文件信息通过以下步骤重新采集:重新采集对应的采集标识为预设标识的日志文件信息。
进一步地,在本申请的一个实施例中,所述获取日志文件信息,包括:累计第一时长;若所述第一时长等于预设时间阈值,获取日志文件信息并重新累计第一时长。
进一步地,在本申请的一个实施例中,所述按照预设维度获取所述日志文件信息中的第一日志信息,包括:按照服务器维度获取所述日志文件信息中的第一日志信息。
进一步地,在本申请的一个实施例中,所述获取日志元数据信息这一步骤后,包括:对所述日志文件信息和所述日志元数据信息进行结构化处理。
另一方面,本申请实施例提出了一种日志采集文件完整性检测系统,包括:
第一获取模块,用于获取日志文件信息;第二获取模块,用于获取日志元数据信息;
第一确定模块,用于当所述日志元数据信息的采集状态标识为异常标识时,判断所述异常标识是否为预设异常标识;所述预设异常标识用于表征日志的异常类型不属于人工干预的异常;第二确定模块,用于若所述异常标识为预设异常标识时,判断所述日志文件信息的行数是否不等于所述日志元数据信息的行数;第三确定模块,用于若所述日志文件信息的行数不等于所述日志元数据信息的行数时,按照预设维度获取所述日志文件信息中的第一日志信息,按照所述预设维度获取所述日志元数据信息中的第二日志信息,并判断所述第一日志信息的行数是否不等于所述第二日志信息的行数;第四确定模块,用于若所述第一日志信息的行数不等于所述第二日志信息的行数时,确定所述日志文件信息不具有完整性。
另一方面,本申请实施例提供了一种日志采集文件完整性检测装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现上述的任一种日志采集文件完整性检测方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于实现上述的任一种日志采集文件完整性检测方法。
本申请实施例通过获取日志文件信息和日志元数据信息,当所述日志元数据信息的采集状态标识为异常标识,判断所述异常标识是否为预设异常标识;若所述异常标识为预设异常标识,判断所述日志文件信息的行数是否不等于所述日志元数据信息的行数;若所述日志文件信息的行数不等于所述日志元数据信息的行数,按照预设维度对日志文件信息和日志元数据信息进行对比,从而确定所述日志文件信息不具有完整性。通过使用上述方法,能够对日志采集文件的完整性进行智能检测和问题定位,有利于减少人力成本,提高检测效率。
附图说明
为了更清楚地说明本申请实施例或者现有技术中的技术方案,下面对本申请实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本申请的技术方案中的部分实施例,对于本领域的技术人员来说,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1为本申请提供的一种日志采集文件完整性检测方法的流程示意图;
图2为本申请提供的一种日志采集文件完整性检测方法的一种实施例的流程示意图;
图3为本申请提供的一种日志采集文件完整性检测系统的结构示意图;
图4为本申请提供的一种日志采集文件完整性检测装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在通信系统中,日志作为记录系统运行信息的一种方法,同时行使着排查故障定位问题的重要功能。因此,日志文件的完整性检测十分必要。目前一般平台通过用户访问报表数据发现数据异常,再反馈至底层数据开发人员,针对报表异常的情况从数据下游逐渐向上游梳理,然后才能定位到具体日志缺失或其他数据异常的问题。
由此可见,数据缺失问题发现滞后,并且定位数据缺失问题后,需要从数据下游向上游逐级进行梳理,耗费大量的时间成本和人力成本。由于目前的数据采集组件只提供基本的断点续传机制,在生产环境中的复杂业务场景下,无法保证数据流在各个环节流转中的数据完整性,也无法提供相应的检测及监控机制。此外,当发生日志缺失或者日志重复等问题时,现有的日志采集组件及机制无法进行智能动态纠正,需要人工介入处理,耗费大量人力物力。
因此,本申请提供一种日志采集文件完整性检测方法,本申请实施例中的一种日志采集文件完整性检测方法,可应用于终端中,也可应用于服务器中,还可以是运行于终端或服务器中的软件等。终端可以是平板电脑、笔记本电脑、台式计算机等,但并不局限于此。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。本领域技术人员可以知晓,上述终端的数量可以仅为一个,或者上述终端为几十个或几百个,或者更多数量。本申请对终端的数量和设备类型不加以限定。
本申请实施例提供的日志采集文件完整性检测方法可以与多种应用场景相结合,例如,在服务器与若干终端的控制系统中,对该控制系统进行日志完整性监控时,可以应用本申请实施例提供的技术方案。采集服务器与各个终端之间的控制过程所产生的日志信息,并对该日志信息进行检测处理,能够对日志采集文件的完整性进行智能检测和问题定位,有利于减少人力成本,提高检测效率。
下面参照图1详细描述根据本申请实施例提出的一种日志采集文件完整性检测方法。
本申请实施例中的日志采集文件完整性检测方法主要包括以下步骤:
S101:获取日志文件信息。
本申请实施例中,日志文件信息可以由终端中的系统产生,可以由服务器中的系统产生,还可以由终端与服务器之间通信的相关系统产生,本方法首先获取日志文件信息。在一些可能的实施方式中,日志文件信息可以包括以下信息:日志绝对路径、日志唯一ID、日志服务器唯一ID、日志正文和日志采集时间段。本领域技术人员可以根据需要获取日志文件信息的不同参数,本申请并不限定具体的日志文件信息的参数个数和参数类型。
S102:获取日志元数据信息。
本申请实施例中,日志元数据信息同样可以由终端中的系统产生,可以由服务器中的系统产生,还可以由终端与服务器之间通信的相关系统产生,本方法获取日志元数据信息。在一些可能的实施方式中,日志元数据信息可以通过以下形式表达:日志文件绝对路径、日志类型的唯一ID、日志采集文件行数、原始日志文件行数、日志服务器的唯一ID(可以是服务器Host、IP等其他能确保日志服务器唯一性的ID值)、日志采集状态码和日志采集时间段。本领域技术人员可以理解的是,上述属于示例性的举例,并不作为对日志的元数据信息的类型和所包含参数的个数的限制。
S103:当所述日志元数据信息的采集状态标识为异常标识,判断所述异常标识是否为预设异常标识;所述预设异常标识用于表征日志的异常类型不属于人工干预的异常。
本申请实施例中,获取日志元数据信息的采集状态标识,并判断上述采集状态标识是否为异常标识;当日志元数据信息的采集状态标识为异常标识时,判断异常标识是否为预设异常标识。本申请中,日志元数据信息的采集状态标识,用于表征日志采集端所采集日志的状态值,上述采集状态标识用于判断采集端应用进程的健康及判断一定维度区间下的某个日志的采集状态。在一些可能的实施方式中,可以增加时间属性,即采集端周期性的采集日志文件信息和日志元数据信息,并周期性地获取日志元数据信息的采集状态标识,记录上述采集状态标识。可选地,日志元数据信息的采集状态标识可以设定为:000000至000009,其中每个标识对应的含义如下所示:000000成功、000001数据库中没有数据、000002非法参数、000003参数不符合约定、000004未知错误、000005服务器连接错误、000006文件读取失败、000007文件不存在、000008采集端故障和000009原始文件行数为0。本领域技术人员可以理解的是,上述日志元数据信息的采集状态标识的设定属于示例性的举例,并不作为对日志元数据信息的采集状态标识的参数个数和形式的限定,本领域技术人员可以根据实际需要设定日志元数据信息的采集状态标识的参数个数和具体表现形式。对于上述设定的若干采集状态标识,在一些可能的实施方式中,可以将日志元数据信息的异常类型不属于人工干预的异常所对应的异常标识设定为预设异常标识。通过预设异常标识将不属于人工干预的异常所对应的日志元数据信息提取出来,也就是提取出可动态纠正的异常所对应的日志元数据信息,进行后续的判断处理,以对日志采集文件的完整性进行检测。可选地,将000000、000007和000009定为预设异常标识。采集状态标识和预设异常标识,可以通过上述的数字串进行表示,也可以通过表格链接的方式进行表示,还可以通过指针等方式进行表示。本申请并不限定采集状态标识和预设异常标识的具体表现形式。
S104:若所述异常标识为预设异常标识,判断所述日志文件信息的行数是否不等于所述日志元数据信息的行数。
本申请实施例中,若异常标识为预设异常标识,判断日志文件信息的行数是否不等于所述日志元数据信息的行数。对于异常标识为预设异常标识的日志元数据信息,可以推断的是,日志文件信息存在数据缺失等异常。通过判断日志文件信息的行数与日志元数据信息的行数是否相等,可以进一步确定日志文件信息是否不具有完整性,对完整性检测提供了双重检测机制,有利于提升检测的准确度。
S105:若所述日志文件信息的行数不等于所述日志元数据信息的行数,按照预设维度获取所述日志文件信息中的第一日志信息,按照所述预设维度获取所述日志元数据信息中的第二日志信息,并判断所述第一日志信息的行数是否不等于所述第二日志信息的行数。
本申请实施例中,若日志文件信息的行数不等于日志元数据信息的行数,按照预设维度获取日志文件信息中的第一日志信息,获取日志元数据信息中的第二日志信息。对于日志文件信息的行数不等于日志元数据信息的行数时,即确定日志文件信息存在数据缺失等异常,经过粗比对后,将日志文件信息和日志元数据信息进行细分维度的比对,对日志异常进行异常定位。在一些可能的实施方式中,通过维度划分,分区间对日志文件信息和日志元数据信息进行比对。具体地,按照预设维度获取日志文件信息中的第一日志信息,按照预设维度获取日志元数据信息中的第二日志信息,并判断第一日志信息的行数是否不等于所述第二日志信息的行数。其中,预设维度可以是服务器维度,也可以是机房维度,还可以是集群维度。本申请并不限定预设维度的具体表现形式。对于预设维度所划分的区间个数,可以根据实际的技术方案的应用场景、日志文件信息的数据量大小、系统的繁忙程度、异常所处的时间节点等具体情况设定,同时,还需要考虑到完整性检测的效率和性能问题。通过预设维度所划分的区间个数,平衡粗比对和细比对,进而提升完整性检测的精确度和性能。
S106:若所述第一日志信息的行数不等于所述第二日志信息的行数,确定所述日志文件信息不具有完整性。
本申请实施例中,细分维度下的第一日志信息的行数不等于第二日志信息的行数,确定日志文件信息不具有完整性,其中,还可以确定第一日志信息不具有完整性,对完整性的异常问题确定和异常定位,提供了依据。能够对日志采集文件的完整性进行智能检测和问题定位,有利于减少人力成本,提高检测效率。
可选地,本申请实施例中的日志采集文件完整性检测方法,还包括:对所述第一日志信息进行重新采集处理,得到具有完整性的日志文件信息。
本步骤中,对于日志具有不完整的异常提供动态纠正处理。通过上述的处理和分析,日志采集文件的第一日志信息具有不完整性,因此,对于第一日志信息进行处理,使得日志文件信息具有完整性。在一些可能的实施方式中,对第一日志信息进行重新采集处理,得到具有完整性的日志文件信息。
可选地,本申请实施例中的日志采集文件完整性检测方法,对所述第一日志信息进行重新采集处理,包括以下步骤:删除所述第一日志信息,重新采集所述预设维度下的日志文件信息。
本步骤中,对第一日志信息进行重新采集处理。具体地,删除第一日志信息,重新采集所述预设维度下的日志文件信息。对于包括时间维度下的日志,删除存储介质上发生异常的时间区间及发生异常的服务器区间的日志数据文件,然后重新采集日志文件信息。
可选地,本申请实施例中的日志采集文件完整性检测方法,所述预设维度下的日志文件信息通过以下步骤重新采集:重新采集对应的采集标识为预设标识的日志文件信息。
本步骤中,重新采集对应的采集标识为预设标识的日志文件信息。在一些可能的实施方式中,通过设置采集标识的方式对日志文件信息进行重新采集。其中,采集标识用于表征日志检测后所记录的检测状态,用于记录该日志的某个维度下的某个区间存在采集异常。下游应用根据此状态来触发动态纠正的任务。具体地,可设置采集标识为以下六种参数及对应的状态描述:0校检状态正常,表示预设维度下的日志采集无异常;2服务器上缺失日志文件;3日志文件齐全,但是采集端记录的日志记录数与汇总端最终接收到的日志记录数不一致;4所有服务器的该时间段的该份日志记录数均为0条,没采集到任何记录;5日志采集元数据状态获取异常。对于上述采集标识的设置方式,可以将预设标识设置为2。当然,本领域技术人员可以理解的是,还可以通过其它可行的方式对日志文件信息进行重新采集。采集标识的设定也可以根据实际需求进行设定。
可选地,本申请实施例中的日志采集文件完整性检测方法,所述获取日志文件信息,包括:累计第一时长;若所述第一时长等于预设时间阈值,获取日志文件信息并重新累计第一时长。
本步骤中,通过增加时间维度,周期性的获取日志文件信息,并对所获取的日志文件信息进行分析对比和处理,判断一段时间内的日志采集文件的完整性。在一些可能的实施方式中,可以通过累计第一时长的方式表征时间段;也可以通过预设时间点的方式,通过当地时间依次到达预设时间点,来确定时间段;还可以通过对历史时间进行采集和分段的方式表征时间段。对于第一时长,可以设置为时间间隔相等的时间段,也可以根据实际需要设置为时间间隔不相等的时间段。本申请并不限定时间段的具体表现形式。当然,对于获取日志元数据信息这一步骤,也增加相应的时间属性。通过设置第一时长,对日志信息进行分段获取与分析,有利于提升完整性检测的效率。
可选地,本申请实施例中的日志采集文件完整性检测方法,所述按照预设维度获取所述日志文件信息中的第一日志信息,包括:按照服务器维度获取所述日志文件信息中的第一日志信息。
本步骤中,通过按照服务器维度获取所述日志文件信息中的第一日志信息,同样,按照服务器维度获取所述日志元数据信息中的第二日志信息,以对日志文件进行细分维度的比对。
可选地,本申请实施例中的日志采集文件完整性检测方法,所述获取日志元数据信息这一步骤后,包括:对所述日志文件信息和所述日志元数据信息进行结构化处理。
本步骤中,对获取的日志文件信息和日志元数据信息进行结构化处理。结构化处理即将获取的日志信息用数据或统一的结构加以表示,示例性地,可以将日志信息按照设定规则处理,得到结构化的日志信息。在一些可能的实施方式中,将日志信息转化为“日志路径、日志名称、日志行数、日志标识”的数据格式,可以通过规定的字符作为不同的字段之间的划分。本领域技术人员可以理解的是,以上数据格式仅是示例性的说明,并不构成对日志信息的结构化处理的方式的具体限定内容,可以通过其它的方式,进行日志信息的结构化处理。通过将日志信息进行结构化处理,简化后续的对日志信息的提取和比对操作,使得日志完整性检测的后续处理、分析或查询变得方便高效,提高完整性检测的效率。本申请并不限定对日志信息进行结构化处理时所采用的方法,也不限定结构化后的日志信息的具体表现形式。
此外,对于异常标识不是预设异常标识的情况,发出告警信息,通知相关人员进行检查和修复。对于日志文件信息的行数等于日志元数据信息的行数的情况,确定日志文件信息具有完整性,不需要进行后续的细比对。
为了更好的说明本申请提出的一种日志采集文件完整性检测方法,参照图2所示,以一种具体实施例对上述方法进行详细说明。
步骤201:在每个日志服务器上部署日志采集端程序,日志采集端监控相应服务器上的日志目录,获取日志文件的最新日志记录及日志元数据信息。
其中,采集到的日志记录都设计成包含设定内容的消息体,发往Kakfa消息队列的采集日志Topic。设定内容为:日志绝对路径、日志唯一ID、日志服务器唯一ID、日志正文、日志采集时间段。其中,日志采集时间段的具体格式为:日期:日期格式为(2021-09-26)、小时:小时格式为24小时制(09)。
采集到的日志元数据信息记录同样设计成包含预设内容的消息体,发往Kakfa消息队列的元数据Topic。预设内容为:日志绝对路径、日志唯一ID、日志服务器唯一ID、日志采集行数、日志原始文件行数、日志采集状态码、日志采集时间段。
步骤202:日志汇总端服务器上部署日志采集汇总端程序,该程序通过消费Kafka消息队列数据,根据每一条消息所附带的元数据信息按照以下规则,分别写入HDFS分布式文件系统中不同的目录不同的文件进行存储。其目录及文件结构如下:
HDFS路径结构如下,以便于日志能区分不同维度下的细粒度的精确检测及动态纠正:
/data/log/{日志唯一ID}/{日志文件日期}/{日志文件唯一ID}-{日志文件小时区间}-{日志服务器唯一ID}-{日志写入时间戳}。
步骤203:日志检测服务采用Master–Worker的分布式架构设计。
其中,Master节点通过消费Kafka元数据Topic把各日志采集端上报的数据写入到Mysql数据库,同时负责进行日志检测任务的调度及分发。
Worker节点接收Master节点下发的日志检测请求进行日志检测,这样的架构可以通过水平扩展Worker节点来实现海量日志的检测任务。其中Worker节点按照以下流程进行日志检测:
步骤2031:根据Master节点下发的检测请求,获取检测日志的元数据信息进行日志采集状态的检测,如果日志采集状态正常则结束该日志的检测流程。如果日志采集状态异常则判断是否属于可动态纠正的异常范围,如果属于则转入步骤:2032;如果该异常状态不属于动态可纠正的异常范围,则结束该日志的检测流程,记录日志该时间段的检测状态并进行告警,通知技术人员进行介入处理。
步骤2032:进行粗检测环节,Worker节点根据Master节点下发的检测请求,读取HDFS上该时间区间段的已写入的日志数据文件与上报的日志元数据汇总结果进行检测。具体地,如果HDFS上的日志文件行数与元数据汇总数据上的日志文件行数一致,则检测通过,结束该检测请求环节;如果检测不通过进入步骤2033进行精细检测。
步骤2033:Worker节点根据所接收到的检测请求,以划分服务器维度的方式对各个服务器上已接收到的HDFS上的日志数据文件与日志文件元数据记录进行一一比对,记录异常的日志时间区间和服务器范围,写入数据库表,然后下发日志纠正请求给日志纠正服务。
步骤204:日志纠正服务接受日志检测服务下发的纠正请求,删除该日志在HDFS上相应异常的时间段及相应服务器范围的日志数据文件,然后通过消息队列给异常的日志服务器上的日志采集端程序发送日志重新采集请求,通知日志采集端根据指定的时间、指定的文件进行日志重新采集。
通过上述描述可知,本申请提出了一种日志采集文件完整性检测方法。该方法通过获取日志文件信息和日志元数据信息,当日志元数据信息的采集状态标识为异常标识时,判断异常标识是否为预设异常标识;进而判断日志文件信息的行数是否不等于日志元数据信息的行数;进而按照预设维度对日志文件信息和日志元数据信息再次进行比对,从而确定日志文件信息不具有完整性。通过使用上述方法,能够对日志采集文件的完整性进行智能检测和问题定位,有利于减少人力成本,提高检测效率。
其次,参照附图描述根据本申请实施例提出的一种日志采集文件完整性检测系统。
图3是本申请一个实施例的日志采集文件完整性检测系统结构示意图。
所述系统具体包括:
第一获取模块310,用于获取日志文件信息;
第二获取模块320,用于获取日志元数据信息;
第一确定模块330,用于当所述日志元数据信息的采集状态标识为异常标识时,判断所述异常标识是否为预设异常标识;所述预设异常标识用于表征日志的异常类型不属于人工干预的异常;
第二确定模块340,用于若所述异常标识为预设异常标识时,判断所述日志文件信息的行数是否不等于所述日志元数据信息的行数;
第三确定模块350,用于若所述日志文件信息的行数不等于所述日志元数据信息的行数时,按照预设维度获取所述日志文件信息中的第一日志信息,按照所述预设维度获取所述日志元数据信息中的第二日志信息,并判断所述第一日志信息的行数是否不等于所述第二日志信息的行数;
第四确定模块360,用于若所述第一日志信息的行数不等于所述第二日志信息的行数时,确定所述日志文件信息不具有完整性。
可见,上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
参照图4,本申请实施例提供了一种日志采集文件完整性检测装置,包括:
至少一个处理器410;
至少一个存储器420,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器410执行时,使得所述至少一个处理器410实现所述的日志采集文件完整性检测方法。
同理,上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本申请的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本申请,但应当理解的是,除非另有相反说明,功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本申请的范围,本申请的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干程序用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行程序的定序列表,可以具体实现在任何计算机可读介质中,以供程序执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从程序执行系统、装置或设备取程序并执行程序的系统)使用,或结合这些程序执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供程序执行系统、装置或设备或结合这些程序执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的程序执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本申请的实施方式,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。
以上是对本申请的较佳实施进行了具体说明,但本申请并不限于所述实施例,熟悉本领域的技术人员在不违背本申请精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种日志采集文件完整性检测方法,其特征在于,包括以下步骤:
获取日志文件信息;
获取日志元数据信息;
当所述日志元数据信息的采集状态标识为异常标识,判断所述异常标识是否为预设异常标识;所述预设异常标识用于表征日志的异常类型不属于人工干预的异常;
若所述异常标识为预设异常标识,判断所述日志文件信息的行数是否不等于所述日志元数据信息的行数;
若所述日志文件信息的行数不等于所述日志元数据信息的行数,按照预设维度获取所述日志文件信息中的第一日志信息,按照所述预设维度获取所述日志元数据信息中的第二日志信息,并判断所述第一日志信息的行数是否不等于所述第二日志信息的行数;
若所述第一日志信息的行数不等于所述第二日志信息的行数,确定所述日志文件信息不具有完整性。
2.根据权利要求1所述的日志采集文件完整性检测方法,其特征在于,所述方法还包括:
对所述第一日志信息进行重新采集处理,得到具有完整性的日志文件信息。
3.根据权利要求2所述的日志采集文件完整性检测方法,其特征在于,所述对所述第一日志信息进行重新采集处理,包括:
删除所述第一日志信息,重新采集所述预设维度下的日志文件信息。
4.根据权利要求3所述的日志采集文件完整性检测方法,其特征在于,所述预设维度下的日志文件信息通过以下步骤重新采集:
重新采集对应的采集标识为预设标识的日志文件信息。
5.根据权利要求1所述的日志采集文件完整性检测方法,其特征在于,所述获取日志文件信息,包括:
累计第一时长;
若所述第一时长等于预设时间阈值,获取日志文件信息并重新累计第一时长。
6.根据权利要求1所述的日志采集文件完整性检测方法,其特征在于,所述按照预设维度获取所述日志文件信息中的第一日志信息,包括:
按照服务器维度获取所述日志文件信息中的第一日志信息。
7.根据权利要求1所述的日志采集文件完整性检测方法,其特征在于,所述获取日志元数据信息这一步骤后,包括:
对所述日志文件信息和所述日志元数据信息进行结构化处理。
8.一种日志采集文件完整性检测系统,其特征在于,包括:
第一获取模块,用于获取日志文件信息;
第二获取模块,用于获取日志元数据信息;
第一确定模块,用于当所述日志元数据信息的采集状态标识为异常标识时,判断所述异常标识是否为预设异常标识;所述预设异常标识用于表征日志的异常类型不属于人工干预的异常;
第二确定模块,用于若所述异常标识为预设异常标识时,判断所述日志文件信息的行数是否不等于所述日志元数据信息的行数;
第三确定模块,用于若所述日志文件信息的行数不等于所述日志元数据信息的行数时,按照预设维度获取所述日志文件信息中的第一日志信息,按照所述预设维度获取所述日志元数据信息中的第二日志信息,并判断所述第一日志信息的行数是否不等于所述第二日志信息的行数;
第四确定模块,用于若所述第一日志信息的行数不等于所述第二日志信息的行数时,确定所述日志文件信息不具有完整性。
9.一种日志采集文件完整性检测装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-7中任一项所述的日志采集文件完整性检测方法。
10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于:所述处理器可执行的程序在由处理器执行时用于实现如权利要求1-7中任一项所述的日志采集文件完整性检测方法。
CN202111549127.5A 2021-12-17 2021-12-17 日志采集文件完整性检测方法、系统、装置及存储介质 Active CN114238018B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111549127.5A CN114238018B (zh) 2021-12-17 2021-12-17 日志采集文件完整性检测方法、系统、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111549127.5A CN114238018B (zh) 2021-12-17 2021-12-17 日志采集文件完整性检测方法、系统、装置及存储介质

Publications (2)

Publication Number Publication Date
CN114238018A CN114238018A (zh) 2022-03-25
CN114238018B true CN114238018B (zh) 2023-03-24

Family

ID=80757839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111549127.5A Active CN114238018B (zh) 2021-12-17 2021-12-17 日志采集文件完整性检测方法、系统、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114238018B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116149933B (zh) * 2022-12-13 2023-09-08 北京优特捷信息技术有限公司 一种异常日志数据确定方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109861843A (zh) * 2018-11-28 2019-06-07 阿里巴巴集团控股有限公司 日志文件的完整采集确认方法、装置及设备
CN112953753A (zh) * 2019-12-24 2021-06-11 深圳市明源云科技有限公司 一种数据采集方法、装置、终端设备及存储介质
CN113609088A (zh) * 2021-08-02 2021-11-05 天津五八到家货运服务有限公司 文件处理方法、装置及设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110231820A1 (en) * 2010-03-19 2011-09-22 Aricent Inc. Exclusive logging
CN103678726B (zh) * 2012-09-05 2017-11-10 亿阳信通股份有限公司 一种数据补采方法和数据补采系统
CN106709069B (zh) * 2017-01-25 2018-06-15 焦点科技股份有限公司 高可靠性的大数据日志采集与传输方法
CN107766208B (zh) * 2017-10-27 2021-01-05 深圳市中润四方信息技术有限公司 一种监控业务系统的方法、系统及装置
CN109542733B (zh) * 2018-12-05 2020-05-01 焦点科技股份有限公司 一种高可靠的实时日志收集及可视化检索方法
CN111061628B (zh) * 2019-11-21 2023-09-01 天翼数字生活科技有限公司 数据分析方法、系统、装置、计算机设备和存储介质
CN111309579B (zh) * 2020-02-21 2022-06-10 苏州浪潮智能科技有限公司 一种系统事件日志数量获取功能的测试方法及相关装置
CN114969334B (zh) * 2022-05-20 2023-04-07 北京九章云极科技有限公司 异常日志检测方法、装置、电子设备及可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109861843A (zh) * 2018-11-28 2019-06-07 阿里巴巴集团控股有限公司 日志文件的完整采集确认方法、装置及设备
CN112953753A (zh) * 2019-12-24 2021-06-11 深圳市明源云科技有限公司 一种数据采集方法、装置、终端设备及存储介质
CN113609088A (zh) * 2021-08-02 2021-11-05 天津五八到家货运服务有限公司 文件处理方法、装置及设备

Also Published As

Publication number Publication date
CN114238018A (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN109918349B (zh) 日志处理方法、装置、存储介质和电子装置
CN107729210B (zh) 分布式服务集群的异常诊断方法和装置
CN107832196B (zh) 一种用于实时日志异常内容的监测装置及监测方法
CN110661659A (zh) 一种告警方法、装置、系统及电子设备
CN109710439B (zh) 故障处理方法和装置
US10771306B2 (en) Log monitoring system
CN103713981A (zh) 一种数据库服务器性能检测和预警方法
CN105824744A (zh) 一种基于b2b平台的实时日志采集分析方法
US20100088197A1 (en) Systems and methods for generating remote system inventory capable of differential update reports
JP6996812B2 (ja) 分散データベースにおけるデータブロックを処理する方法、プログラム、およびデバイス
EP3432520B1 (en) Efficient storage and querying of time series metrics
CN103425750A (zh) 一种跨平台跨应用的日志收集系统及其收集管理方法
CN112559475B (zh) 数据实时捕获和传输方法及系统
US8468134B1 (en) System and method for measuring consistency within a distributed storage system
CN102567185B (zh) 一种应用服务器的监控方法
CN111400288A (zh) 数据质量检查方法及系统
CN111078513A (zh) 日志处理方法、装置、设备、存储介质及日志告警系统
CN114238018B (zh) 日志采集文件完整性检测方法、系统、装置及存储介质
CN113656245A (zh) 数据的巡检方法、装置、存储介质及处理器
CN113468019A (zh) 基于Hbase的指标监控方法、装置、设备及存储介质
CN106487852B (zh) 实现客户端文件同步的方法、装置、终端设备及系统
CN112235128B (zh) 一种交易路径分析方法、装置、服务器及存储介质
US9378082B1 (en) Diagnosis of storage system component issues via data analytics
CN113409876A (zh) 一种故障硬盘的定位方法及系统
CN114265904A (zh) 一种数据处理方法及云计算平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant