CN113392071B

CN113392071B - 一种文件采集器的文件采集处理方法、装置及设备

Info

Publication number: CN113392071B
Application number: CN202110939708.3A
Authority: CN
Inventors: 司冬雪; 纪洋
Original assignee: Cloudwise Beijing Technology Co Ltd
Current assignee: Cloudwise Beijing Technology Co Ltd
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2022-08-19
Anticipated expiration: 2041-08-17
Also published as: CN113392071A

Abstract

本发明公开了一种文件采集器的文件采集处理方法、装置及设备，方法包括：获取系统文件的第一节点树；根据所述第一节点树中需要采集的文件，形成第一映射文件；获取所述系统文件的第二节点树；根据所述第二节点树中需要采集的文件，形成第二映射文件；根据所述第一映射文件和第二映射文件，获得需要采集的文件的变化情况信息；根据所述变化情况信息进行系统文件的采集。通过上述方式，本发明完善了文件采集器的监听机制，在被采集文件变更的情况下能够及时监听到文件的变化情况，保证了采集器的稳定运行以及不发生漏采、停止采集或者无法续采的情况。

Description

一种文件采集器的文件采集处理方法、装置及设备

技术领域

本发明涉及数据采集处理技术领域，特别是指一种文件采集器的文件采集处理方法、装置及设备。

背景技术

常规的文件采集器部署到服务器，在服务器采集日志文件时，被采集的日志文件变更、备份并产生同名文件时等操作时，采集器无法准确监听文件的变更引发的错误，无法续采，导致被采集文件出现漏采、停采，不能继续采集等问题。

发明内容

本发明要解决的技术问题是如何提供一种文件采集器的文件采集处理方法、装置及设备。解决现有技术中基于被采集文件变更的情况下所存在的不能够及时监听到，导致采集器不能稳定运行的问题。

为解决上述技术问题，本发明的实施例提供以下方案：

一种文件采集器的文件采集处理方法，包括：

获取系统文件的第一节点树；

根据所述第一节点树中需要采集的文件，形成第一映射文件；

获取所述系统文件的第二节点树；

根据所述第二节点树中需要采集的文件，形成第二映射文件；

根据所述第一映射文件和第二映射文件，获得需要采集的文件的变化情况信息；

根据所述变化情况信息进行系统文件的采集。

可选的，根据所述第一节点树中需要采集的文件，形成第一映射文件，包括：

按照采集路径从所述第一节点树中，获得需要采集的第一文件；

获得所述第一文件的索引值；

将所述第一文件的索引值和所述第一文件进行一一对应映射，形成第一映射文件。

可选的，获得所述第一文件的索引值，包括：

利用文件类的读取属性方式，获取所述第一文件的状态和修饰符；

根据所述第一文件的状态和修饰符，获得所述第一文件的索引值。

可选的，根据所述第二节点树中需要采集的文件，形成第二映射文件，包括：

按照采集路径从所述第二节点树中，获得需要采集的第二文件；

获得所述第二文件的索引值；

将所述第二文件的索引值和所述第二文件进行一一对应映射，形成第二映射文件。

可选的，获得所述第二文件的索引值，包括：

利用文件类的读取属性方式，获取所述第二文件的状态和修饰符；

根据所述第二文件的状态和修饰符，获得所述第二文件的索引值。

可选的，根据所述第一映射文件和第二映射文件，获得需要采集的文件的变化情况信息，包括：

将所述第一映射文件中的索引值与第二映射文件中的索引值相比，获得所述索引值变化情况，根据所述索引值变化情况，获得需要采集的文件的变化情况信息。

可选的，根据所述索引值变化情况，获得需要采集的文件的变化情况信息，包括：

若所述索引值有新增，确定有新的文件产生；

若所述索引值有减少，确定有文件被删除；

若所述索引值相同，且所述索引值对应的文件的文件路径相同的情况下，确定文件未发生重命名操作；

若所述索引值相同，且所述索引值对应的文件的文件路径不相同的情况下，确定文件名发生重命名操作。

本发明的实施例还提供一种文件采集器的文件采集处理装置，包括：

第一获取模块，用于获取系统文件的第一节点树；

第一映射模块，用于根据所述第一节点树中需要采集的文件，形成第一映射文件；

第二获取模块，用于获取所述系统文件的第二节点树；

第二映射模块，用于根据所述第二节点树中需要采集的文件，形成第二映射文件；

处理模块，用于根据所述第一映射文件和第二映射文件，获得需要采集的文件的变化情况信息；根据所述变化情况信息进行系统文件的采集。

本发明的实施例还提供一种电子设备，包括：处理器、存储有计算机程序的存储器，所述计算机程序被处理器运行时，执行如上所述的文件采集器的文件采集处理方法。

本发明的实施例还提供一种计算机可读存储介质，存储指令，当所述指令在计算机上运行时，使得计算机执行如上所述的文件采集器的文件采集处理方法。

本发明的上述方案至少包括以下有益效果：

本发明的上述方案，通过获取系统文件的第一节点树；根据所述第一节点树中需要采集的文件，形成第一映射文件；获取所述系统文件的第二节点树；根据所述第二节点树中需要采集的文件，形成第二映射文件；根据所述第一映射文件和第二映射文件，获得需要采集的文件的变化情况信息；根据所述变化情况信息进行系统文件的采集。完善了文件采集器的监听机制，能够在被采集文件变更的情况下能够及时监听到文件的变化情况，保证了采集器的稳定运行以及不发生漏采、停止采集或者无法续采的情况。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明实施例的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例的文件采集器的文件采集处理方法的流程图；

图2为本发明实施例的文件采集器的文件采集处理方法的一具体实现流程示意图；

图3为本发明实施例的文件采集器的文件采集处理装置的结构示意图；

图4示出了本发明实施例提供的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

如图1所示，本发明的实施例提供一种文件采集器的文件采集处理方法，包括：

步骤11，获取系统文件的第一节点树；

具体的，使用JDK（java编程语言构建应用、小程序和组件的开发环境）的list集合类型，构建系统文件的第一节点树。

步骤12，根据所述第一节点树中需要采集的文件，形成第一映射文件；

步骤13，获取所述系统文件的第二节点树；

具体的，使用JDK（java编程语言构建应用、小程序和组件的开发环境）的list集合类型，构建所述系统文件的第二节点树。

步骤14，根据所述第二节点树中需要采集的文件，形成第二映射文件；

具体的，如果需要采集的文件为日志文件，由于日志文件会随时间变化而发生变化，则在采集第一节点树的文件后经过预设时间，再采集第二节点树的文件。

步骤15，根据所述第一映射文件和第二映射文件，获得需要采集的文件的变化情况信息；

步骤16，根据所述变化情况信息进行系统文件的采集。

该实施例所述的文件采集器的文件采集处理方法，通过获取系统文件的第一节点树；根据所述第一节点树中需要采集的文件，形成第一映射文件；获取所述系统文件的第二节点树；根据所述第二节点树中需要采集的文件，形成第二映射文件；根据所述第一映射文件和第二映射文件，获得需要采集的文件的变化情况信息；根据所述变化情况信息进行系统文件的采集。完善了文件采集器的监听机制，能够在被采集文件变更的情况下能够及时监听到文件的变化情况，保证了采集器的稳定运行以及不发生漏采、停止采集或者无法续采的情况。

在本发明的一可选的实施例中，步骤12可以包括：

步骤121，按照采集路径从所述第一节点树中，获得需要采集的第一文件；

具体的，按照采集路径配置从所述第一节点树中找到需要采集的第一文件，并将第一文件置于一映射文件（map）数据结构中。所述第一文件包括日志文件、data（数据）文件等，但不限于如上所述。

步骤122，获得所述第一文件的索引值；

步骤123，将所述第一文件的索引值和所述第一文件进行一一对应映射，形成第一映射文件。

具体的，将所述第一文件的索引值和置于map数据结构中的第一文件进行一一对应映射，形成第一映射文件，该索引值可以唯一表示该第一文件。

在本发明的又一可选的实施例中，步骤122可以包括：

步骤1221，利用文件类的读取属性方式，获取所述第一文件的状态和修饰符；

具体的，利用File（文件）类的readAttributes（读取属性）方法获取所述第一文件的状态和修饰符。

步骤1222，根据所述第一文件的状态和修饰符，获得所述第一文件的索引值。

具体的，从所述第一文件的状态和修饰符中剥离出索引（Inode）值，所述索引（Inode）值用来储存文件的信息，包括大小、属主、归属的用户组、读写权限等，但不限于如上所述。

在本发明的又一可选的实施例中，步骤14可以包括：

步骤141，按照采集路径从所述第二节点树中，获得需要采集的第二文件；

具体的，按照采集路径配置从所述第二节点树中找到需要采集的第二文件，并将第二文件置于新的一映射文件（map）数据结构中。所述第二文件包括日志文件、data（数据）文件等，但不限于如上所述。

步骤142，获得所述第二文件的索引值；

步骤143，将所述第二文件的索引值和所述第二文件进行一一对应映射，形成第二映射文件。

具体的，将所述第二文件的索引值和置于map数据结构中的第二文件进行一一对应映射，形成第二映射文件。

该实施例中，采集器还会利用JDK线程的概念，新建一个线程，定期构建新的第N个节点树，获取新的需要采集的第N个文件，并生成新的map数据结构与第N个文件的索引值一一映射，形成第N个映射文件。

在本发明的又一可选的实施例中，步骤142可以包括：

步骤1421，利用文件类的读取属性方式，获取所述第二文件的状态和修饰符；

具体的，利用File类的readAttributes（读取属性）方法获取所述第二文件的状态和修饰符。

步骤1422，根据所述第二文件的状态和修饰符，获得所述第二文件的索引值。

具体的，从所述第二文件的状态和修饰符中剥离出索引（Inode）值，所述索引（Inode）值用来储存文件的信息，包括大小、属主、归属的用户组、读写权限等，但不限于如上所述。

在本发明的再一可选的实施例中，步骤15可以包括：

步骤151，将所述第一映射文件中的索引值与第二映射文件中的索引值相比，获得所述索引值变化情况，根据所述索引值变化情况，获得需要采集的文件的变化情况信息。

具体的，若所述索引值有新增，确定有新的文件产生；

若所述索引值有减少，确定有文件被删除；

如图2所示，本发明实施例的文件采集器的文件采集处理方法还提供一种具体实现流程。

首先，启动一个线程，在该线程中构建整个系统的节点树，根据采集路径筛选出被采集文件构建新的map数据结构；

其次，获取所有map中的文件的索引（inode）值，将所有map中的文件与其文件的索引（inode）值进行一一对应映射；

最后，定期重复以上逻辑生成新的map数据结构，对比第N次与第N-1次的map中的索引（inode）值，获得所述索引值变化情况，根据所述索引值变化情况，获得需要采集的文件的变化情况信息。

若第一次启动线程，则获取的索引（inode）值对应的文件则全判断为文件新增；若索引（inode）值有减少，确定有文件被删除；若索引（inode）值相同，且索引（inode）值对应的文件的文件路径相同的情况下，确定文件未发生重命名操作；若索引（inode）值相同，且索引（inode）值对应的文件的文件路径不相同的情况下，确定文件名发生重命名操作。

在本发明的一具体实施例中，某地方银行的内部服务器每日会生成上万个日志文件，需要日志采集器进行采集。会存在以下场景：日志大小达到指定阈值后会进行备份操作，并生成新的同名日志文件；定期会清空采集目录下所有日志文件；随机时间可能产生新的待读取的日志文件。

在以上场景下，该银行若使用普遍的日志采集器，会导致大量的日志数据丢失，严重影响业务的正常运作。普遍的日志采集器没有能力监听文件的变更并作出响应，会因产生同名日志文件并错误的记录偏移而漏采大量数据，或因新增、删除文件未被监听到导致采集器出现错误。

当银行使用本发明的实施例提供的文件采集器的文件采集处理方法后，通过构建系统文件的节点树、采集文件和inode的映射关系，定期生成新的映射关系，并对比新旧两个版本的映射关系的变化，来监听文件是否发生变更。无论是文件备份产生同名文件，还是文件的新增、删除都可以及时监听并通知下游业务作出响应，保证了采集器的正常运作。

本发明的上述方法中，通过获取系统文件的第一节点树；根据所述第一节点树中需要采集的文件，形成第一映射文件；获取所述系统文件的第二节点树；根据所述第二节点树中需要采集的文件，形成第二映射文件；根据所述第一映射文件和第二映射文件，获得需要采集的文件的变化情况信息；根据所述变化情况信息进行系统文件的采集。本发明的上述方法能够在被采集文件变更的情况下能够及时监听到文件的变化情况，保证了采集器的稳定运行以及不发生漏采、停止采集或者无法续采的情况。

图3示出了本发明实施例提供的时间序列异常检测装置30的构示意图。如图3所示，该装置包括：

第一获取模块31，用于获取系统文件的第一节点树；

第一映射模块32，用于根据所述第一节点树中需要采集的文件，形成第一映射文件；

第二获取模块33，用于获取所述系统文件的第二节点树；

第二映射模块34，用于根据所述第二节点树中需要采集的文件，形成第二映射文件；

处理模块35，用于根据所述第一映射文件和第二映射文件，获得需要采集的文件的变化情况信息；根据所述变化情况信息进行系统文件的采集。

可选的，所述第一映射模块32还用于根据所述第一节点树中需要采集的文件，形成第一映射文件，包括：

获得所述第一文件的索引值；

可选的，所述第一映射模块32还用于获得所述第一文件的索引值，包括：

可选的，所述第二映射模块34还用于根据所述第二节点树中需要采集的文件，形成第二映射文件，包括：

获得所述第二文件的索引值；

可选的，所述第二映射模块34还用于获得所述第二文件的索引值，包括：

可选的，所述处理模块35还用于根据所述第一映射文件和第二映射文件，获得需要采集的文件的变化情况信息，包括：

可选的，所述处理模块35还用于根据所述索引值变化情况，获得需要采集的文件的变化情况信息，包括：

若所述索引值有新增，确定有新的文件产生；

若所述索引值有减少，确定有文件被删除；

需要说明的是，该装置是与上述方法对应的装置，上述方法实施例中的所有实现方式均适用于该装置的实施例中，也能达到相同的技术效果。

如图4所示，本发明的实施例还提供一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如上所述的方法对应的操作。

本发明实施例还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的时间序列异常检测方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

此外，需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行，某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置（包括处理器、存储介质等）或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。还需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文件采集器的文件采集处理方法，其特征在于，包括：

构建系统文件的第一节点树；

获取所述系统文件的第一节点树；

构建所述系统文件的第二节点树；

获取所述系统文件的第二节点树；

根据所述变化情况信息进行系统文件的采集；

其中，根据所述第一节点树中需要采集的文件，形成第一映射文件，包括：

按照采集路径从所述第一节点树中，获得需要采集的第一文件，具体的，按照采集路径配置从所述第一节点树中找到需要采集的第一文件，并将第一文件置于一map数据结构中；

获得所述第一文件的索引值；

将所述第一文件的索引值和所述第一文件进行一一对应映射，形成第一映射文件，具体的，将所述第一文件的索引值和置于map数据结构中的第一文件进行一一对应映射，形成第一映射文件；

其中，获得所述第一文件的索引值，包括：

根据所述第一文件的状态和修饰符，获得所述第一文件的索引值，具体的，从所述第一文件的状态和修饰符中剥离出索引值，所述索引值用来储存文件的信息；

其中，根据所述第二节点树中需要采集的文件，形成第二映射文件，包括：

按照采集路径从所述第二节点树中，获得需要采集的第二文件，具体的，按照采集路径配置从所述第二节点树中找到需要采集的第二文件，并将第二文件置于新的一map数据结构中；

获得所述第二文件的索引值；

将所述第二文件的索引值和所述第二文件进行一一对应映射，形成第二映射文件，具体的，将所述第二文件的索引值和置于map数据结构中的第二文件进行一一对应映射，形成第二映射文件，其中，采集器还会新建一个线程，定期构建新的第N个节点树，获取新的需要采集的第N个文件，并生成新的map数据结构与第N个文件的索引值一一映射，形成第N个映射文件；

其中，获得所述第二文件的索引值，包括：

根据所述第二文件的状态和修饰符，获得所述第二文件的索引值，具体的，从所述第二文件的状态和修饰符中剥离出索引值，所述索引值用来储存文件的信息。

2.根据权利要求1所述的文件采集器的文件采集处理方法，其特征在于，根据所述第一映射文件和第二映射文件，获得需要采集的文件的变化情况信息，包括：

3.根据权利要求2所述的文件采集器的文件采集处理方法，其特征在于，根据所述索引值变化情况，获得需要采集的文件的变化情况信息，包括：

若所述索引值有新增，确定有新的文件产生；

若所述索引值有减少，确定有文件被删除；

4.一种文件采集器的文件采集处理装置，其特征在于，所述装置包括：

第一构建模块，用于构建系统文件的第一节点树；

第一获取模块，用于获取所述系统文件的第一节点树；

第二构建模块，用于构建所述系统文件的第二节点树；

第二获取模块，用于获取所述系统文件的第二节点树；

处理模块，用于根据所述第一映射文件和第二映射文件，获得需要采集的文件的变化情况信息；根据所述变化情况信息进行系统文件的采集；

获得所述第一文件的索引值；

其中，获得所述第一文件的索引值，包括：

获得所述第二文件的索引值；

其中，获得所述第二文件的索引值，包括：

5.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-3中任一项所述的文件采集器的文件采集处理方法对应的操作。

6.一种计算机可读存储介质，其特征在于，存储有指令，所述指令在计算机上运行时，使得计算机执行如权利要求1至3任一项所述的文件采集器的文件采集处理方法。