CN108304583A - 一种文件采集方法及装置 - Google Patents

一种文件采集方法及装置 Download PDF

Info

Publication number
CN108304583A
CN108304583A CN201810181875.4A CN201810181875A CN108304583A CN 108304583 A CN108304583 A CN 108304583A CN 201810181875 A CN201810181875 A CN 201810181875A CN 108304583 A CN108304583 A CN 108304583A
Authority
CN
China
Prior art keywords
file
acquisition
identification information
index identification
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810181875.4A
Other languages
English (en)
Inventor
陈晓峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Top Image Technology Co Ltd
Original Assignee
Beijing Top Image Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Top Image Technology Co Ltd filed Critical Beijing Top Image Technology Co Ltd
Priority to CN201810181875.4A priority Critical patent/CN108304583A/zh
Publication of CN108304583A publication Critical patent/CN108304583A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Abstract

本发明提供了一种文件采集方法及装置,涉及日志文件自动采集技术领域。所述文件采集方法首先获取第一文件,提取第一文件的第一索引标识信息,以及获取上次进行文件采集时提取的第二文件的第二索引标识信息,然后基于第一索引标识信息和第二索引标识信息,判断文件采集对象是否在预设采集间隔时间内从第二文件切换至第一文件,在为否时,采集第一文件,并在文件采集对象在预设采集间隔时间内从第二文件切换至第一文件时,对第二文件的未采集部分和第一文件进行采集。所述日志采集方法和装置通过对文件切换前未采集的日志文件部分进行采集,解决了现有文件采集方法中日志文件采集不完整、部分数据丢失的问题。

Description

一种文件采集方法及装置
技术领域
本发明涉及日志文件自动采集技术领域,具体而言,涉及一种文件采集方法及装置。
背景技术
现代企业甚至是个人都有越来越多的信息需要进行收集和统计,而传统的纸笔记录方式已经无法满足如今数量巨大的收录条目。因此,随着计算机技术和网络技术的迅速发展,无论是个人还是企业都开始使用计算机通过日志采集指定的有用信息,除此之外,在应用系统中,日志也是不可或缺的重要组成部分,对Java等应用程序的运行和调试起着重要作用。
但是现有的日志采集方法大多在预设时间会进行日志切换,日志切换时间和日志文件采集时间发生冲突时会造成日志文件采集不完整、部分数据丢失的问题。
发明内容
有鉴于此,本发明实施例的目的在于提供一种文件采集及装置,以解决上述现有日志文件采集方法存在的日志文件采集不完整、部分数据丢失的问题。
第一方面,本发明实施例提供了一种文件采集方法,所述文件采集方法首先获取第一文件,提取所述第一文件的第一索引标识信息,以及获取上次进行文件采集时提取的第二文件的第二索引标识信息,然后基于所述第一索引标识信息和所述第二索引标识信息,判断文件采集对象是否在预设采集间隔时间内从所述第二文件切换至所述第一文件,在为否时,采集所述第一文件。
综合第一方面,在基于所述第一索引标识信息和所述第二索引标识信息,判断文件采集对象是否在采集间隔时间内从所述第二文件切换至所述第一文件之后,所述方法还包括:在为是时,判断所述第二文件是否存在未采集部分,在所述第二文件存在未采集部分时采集所述第二文件的未采集部分和所述第一文件。
综合第一方面,所述采集所述第一文件,包括:采集所述第一文件的文件内容信息以及与本次文件采集对应的采集位置记录信息;所述采集所述第二文件的未采集部分和所述第一文件,包括:采集所述第二文件的未采集部分和所述第一文件的文件内容信息以及与本次文件采集对应的采集位置记录信息。
综合第一方面,所述判断所述第二文件是否存在未采集部分,包括:提取上次进行文件采集时采集的所述第二文件的采集位置记录信息;判断所述采集位置记录信息是否指向所述第二文件的末尾;其中,在为是时,表明所述第二文件不存在未采集部分;在为否时,表明所述第二文件存在未采集部分。
综合第一方面,所述基于所述第一索引标识信息和所述第二索引标识信息,判断文件采集对象是否在采集间隔时间内从所述第二文件切换至所述第一文件,包括:判断所述第一索引标识信息和所述第二索引标识信息是否相同,获得判断结果;基于所述判断结果,判断文件采集对象是否在采集间隔时间内从所述第二文件切换至所述第一文件,其中:在所述判断结果为是时,表明所述文件采集对象在所述预设采集间隔时间内未从所述第二文件切换至所述第一文件;在所述判断结果为否时,表明所述文件采集对象在所述预设采集间隔时间内从所述第二文件切换至所述第一文件。
第二方面,本发明实施例提供了一种文件采集装置,所述文件采集装置包括文件提取模块、切换判断模块和文件采集模块。所述文件提取模块包括用于获取第一文件的文件获取单元,以及用于提取所述第一文件的第一索引标识信息,以及获取上次进行文件采集时提取的第二文件的第二索引标识信息的索引标识信息提取单元。所述切换判断模块用于基于所述第一索引标识信息和所述第二索引标识信息,判断文件采集对象是否在采集间隔时间内从所述第二文件切换至所述第一文件,所述切换判断模块包括用于判断所述第一索引标识信息和所述第二索引标识信息是否相同,获得判断结果的切换判断单元。所述文件采集模块用于在文件采集对象在采集间隔时间未进行切换时采集所述第一文件,还用于在文件采集对象在采集间隔时间内从所述第二文件切换至所述第一文件时采集所述第二文件的未采集部分和所述第一文件。
综合第二方面,所述文件采集装置还包括漏采集判断模块,所述漏采集判断模块用于在文件采集对象在采集间隔时间内从所述第二文件切换至所述第一文件时,判断所述第二文件是否存在未采集部分。
综合第二方面,所述文件采集模块包括文件内容信息采集单元和采集位置记录信息采集单元。所述文件内容信息采集单元用于采集所述第一文件的文件内容信息,还用于采集所述第二文件的未采集部分的文件内容信息。所述采集位置记录信息采集单元用于采集与每次文件采集对应的采集位置记录信息。
综合第二方面,所述漏采集判断模块包括采集位置记录信息提取单元和漏采集判断单元。所述采集位置记录信息提取单元用于提取上次进行文件采集时采集的所述第二文件的采集位置记录信息。所述漏采集判断单元用于判断所述采集位置记录信息是否指向所述第二文件的末尾。
第三方面,本发明实施例还提供了一种计算机可读取存储介质,所述计算机可读取存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行上述方法中的步骤。
本发明提供的有益效果是:
本发明提供了一种文件采集方法,在采集日志文件前基于索引标识信息判断文件采集对象是否在预设采集间隔时间内从第二文件切换至第一文件,如果发生切换则对所述第二文件的未采集部分和所述第一文件进行采集,避免了数据丢失。文件采集对象是否切换根据第一文件的第一索引标识信息和第二文件的第二索引标识信息是否相同来判断,索引标识信息是随文件创建生成的唯一标识,提高了判断适用范围和处理速度。同时,在确定采集对象从第二文件切换至第一文件后,还会判断所述第二文件是否存在未采集部分,在所述第二文件存在未采集部分时才对所述第二文件的未采集部分进行采集,进一步提高了文件采集速度。此外,所述文件采集方法通过索引标识信息来确定待采集文件,提高了文件采集的准确率,不会出现通过文件名确定待采集文件时由于文件名变更或重复引起的采集错误。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种日志采集方法的流程图;
图2为本发明第一实施例提供的一种文件采集对象是否切换以及原采集对象是否存在未采集部分的判断流程图;
图3为本发明第二实施例提供的一种文件采集装置的模块图;
图4为本发明第三实施例提供的一种可应用于本申请实施例中的电子设备的结构框图。
图标:100-文件采集装置;110-文件提取模块;120-切换判断模块;130-文件提取模块;200-电子设备;201-存储器;202-存储控制器;203-处理器;204-外设接口;205-输入输出单元;206-音频单元;207-显示单元;
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
第一实施例
经本申请人研究发现,现在很多企业和个人将有用的信息记录在日志文件上,通过采集日志文件并统计其中数据进行展现,然而现有的日志文件采集系统通常设置有日志更新或切换时间,日志文件在切换时一般会根据日志文件数据收集时间变更日志文件的名称。日志文件的采集设置有采集间隔时间,若是日志文件在采集间隔时间中发生日志文件更新或切换,会造成根据日志文件的名称进行日志文件的采集则不会对切换前的日志文件未采集部分进行采集的问题,从而造成日志文件数据丢失,银行、安保和其他对日志文件完整性需求较高的用户会受到较大影响。另一方面,某些现有的日志文件采集方法会在采集日志文件时对日志文件的文件名进行核对,但是此种方式存在文件数量大时日志文件采集速度慢,还可能出现文件名重复或文件名错误的情况进而导致日志采集出现错误,造成日志文件数据异常的情况。为了解决上述问题,本发明实施例提供了一种文件采集方法,请参考图1,图1为本发明实施例提供的一种日志采集方法的流程图,所述文件采集方法的具体步骤如下:
步骤S100:获取第一文件。
步骤S200:提取所述第一文件的第一索引标识信息,以及获取上次进行文件采集时提取的第二文件的第二索引标识信息。
步骤S300:基于所述第一索引标识信息和所述第二索引标识信息,判断文件采集对象是否在预设采集间隔时间内从所述第二文件切换至所述第一文件。
步骤S400:在文件采集对象未在预设采集间隔时间内从所述第二文件切换至所述第一文件时,采集所述第一文件;在文件采集对象在预设采集间隔时间内从所述第二文件切换至所述第一文件时,采集所述第二文件的未采集部分和所述第一文件。
针对步骤S100,应当理解的是,在获取第一文件之前,需要设置待采集日志文件,并设置采集间隔时间和日志文件更新时间。以UNIX操作系统为例,本实施例中设置待采集日志文件为example.log,采集间隔时间为两分钟,日志文件更新时间为每天的零点。
完成设置和对第一文件的获取后,按照本实施例的步骤接下来应当执行步骤S200,即:提取所述第一文件的第一索引标识信息,以及获取上次进行文件采集时提取的第二文件的第二索引标识信息。应当理解的是,在对所述第一文件和所述第二文件的内容信息进行采集时,还采集了所述第一文件的第一索引标识信息和所述第二文件的第二索引标识信息。在本实施例的UNIX操作系统中,所述第一索引标识信息和所述第二索引标识信息即为索引节点(inode),索引节点是UNIX操作系统中的一种数据结构,其本质是结构体,它包含了与文件系统中各个文件相关的一些重要信息。在UNIX中创建文件系统时,同时将会创建大量的索引节点。通常,文件系统磁盘空间中大约百分之一空间分配给了索引节点表。索引节点表包含一份清单,其中列出了对应文件系统的所有索引节点编号。当用户搜索或者访问一个文件时,UNIX系统通过索引节点表查找正确的索引节点编号。在找到索引节点编号之后,相关的命令才可以访问该索引节点,并对其进行适当的更改或采集。由于上述特点,索引节点可以作为日志文件的唯一标识,常被用来存放档案及目录的基本信息,包含时间、档名、使用者及群组等,本实施例中的日志文件的第一索引标识信息和第二索引标识信息为索引节点,能够使定位日志文件的路径和对日志文件的采集速度更快。另一方面,现有的日志文件采集方式一般通过日志文件的名称对日志文件进行路径确认,存在确认速度慢,并且在日志文件发生名称重复或名称变更的情况下无法进行正常采集的问题,而本实施例将索引节点作为索引标识信息,从而避免了上述问题。
请参考图2,图2为本发明第一实施例提供的一种文件采集对象是否切换以及原采集对象是否存在未采集部分的判断流程图。
对于步骤S300,即:基于所述第一索引标识信息和所述第二索引标识信息,判断文件采集对象是否在预设采集间隔时间内从所述第二文件切换至所述第一文件。具体地,本实施例中的文件采集方法通过判断所述第一索引标识信息和所述第二索引标识信息是否相同,获得判断结果,基于所述判断结果,判断文件采集对象是否在采集间隔时间内从所述第二文件切换至所述第一文件,其中:在所述判断结果为是时,表明所述文件采集对象在所述预设采集间隔时间内未从所述第二文件切换至所述第一文件;在所述判断结果为否时,表明所述文件采集对象在所述预设采集间隔时间内从所述第二文件切换至所述第一文件。
继续以UNIX系统中的日志文件为例,若所述第一文件的名称为20180102.log,所述第二文件的名称为20180101.log,所述第一索引标识信息为A,所述第二索引标识信息为B,判断所述第一索引标识信息A和所述第二索引标识信息B不相同,则日志文件采集对象在采集间隔时间从所述第二文件20180101.log切换至所述第一文件20180102.log。
按照顺序,本实施例在通过步骤S300判断日志文件采集对象在采集间隔时间是否从所述第二文件切换至所述第一文件后,执行步骤S400,即:在文件采集对象未在预设采集间隔时间内从所述第二文件切换至所述第一文件时,采集所述第一文件;在文件采集对象在预设采集间隔时间内从所述第二文件切换至所述第一文件时,采集所述第二文件的未采集部分和所述第一文件。应当理解的是,所述第二文件可能存在未采集部分,也可能没有未采集部分,因此,在文件采集对象在预设采集间隔时间内从所述第二文件切换至所述第一文件时,应该在采集所述第二文件的未采集部分和所述第一文件前判断所述第二文件是否存在未采集部分。在本实施例中,每次进行文件采集工作除了文件内容信息,还会采集本次文件采集对应的采集位置记录信息,以判断文件是否存在未采集部分,本实施例中对所述第二文件是否存在未采集部分的判断步骤如下:提取上次进行文件采集时采集的所述第二文件的采集位置记录信息;判断所述采集位置记录信息是否指向所述第二文件的末尾;在为是时,表明所述第二文件不存在未采集部分;在为否时,表明所述第二文件存在未采集部分。在上述UNIX系统实例中,所述采集位置记录信息即为采集行数信息,例如:所述第二文件20180101.log在2018年1月1日11点59分完成一次日志文件采集,采集到日志文件内容信息和采集位置记录信息,所述采集位置记录信息显示此次日志采集从第10000行采集至第20000行;所述第一文件20180102.log在2018年1月2日0点1分进行日志文件采集,获取所述第二文件20180101.log的末尾为第30000行,则第20001行至第30000行为所述第二文件的未采集部分,将所述未采集部分进行采集,然后再对所述第一文件20180102.log的文件内容进行采集,并记录采集位置记录信息为第1行至第10000行。
应当理解的是,本实施例中的采集间隔时间以及每次采集行数都可以根据具体情况进行调整,不必局限于本实施例中的数字。
进一步地,本实施例提供的文件采集方法在对日志文件完成采集工作后,还会将采集到的日志文件的内容信息发送至相应的日志处理服务器对所述日志文件的内容信息进行处理。
本发明第一实施例提供的文件采集方法首先通过索引标识信息判断日志文件采集对象在预设采集间隔时间内是否发生切换,再通过提取之前采集所述切换前文件采集对象时保存的采集位置记录信息判断所述切换前文件采集对象是否存在未采集部分,在存在未采集部分时对所述未采集部分进行采集,再对切换后的日志文件进行采集。所述日志采集方法和装置通过对文件切换前未采集的日志文件部分进行采集,解决了现有文件采集方法中日志文件采集不完整、部分数据丢失的问题,同时具备处理速度快、兼容性和健壮性强的优点。
第二实施例
为了更好地实现本发明提供的文件采集方法,本发明第二实施例提供了一种文件采集装置100,请参考图3,图3为本发明第二实施例提供的一种文件采集装置的模块图。
文件采集装置100包括文件提取模块110、切换判断模块120和文件采集模块130。
文件提取模块110包括文件获取单元和索引标识信息提取单元,所述文件获取单元用于获取第一文件。所述索引标识信息提取单元用于提取所述第一文件的第一索引标识信息,以及获取上次进行文件采集时提取的第二文件的第二索引标识信息。
切换判断模块120用于基于所述第一索引标识信息和所述第二索引标识信息,判断文件采集对象是否在采集间隔时间内从所述第二文件切换至所述第一文件。进一步地,切换判断模块120包括用于判断所述第一索引标识信息和所述第二索引标识信息是否相同,获得判断结果的切换判断单元。
文件采集模块130用于在文件采集对象在采集间隔时间未进行切换时采集所述第一文件,还用于在文件采集对象在采集间隔时间内从所述第二文件切换至所述第一文件时采集所述第二文件的未采集部分和所述第一文件。可选地,文件采集模块130包括文件内容信息采集单元和采集位置记录信息采集单元。所述文件内容信息采集单元用于采集所述第一文件的文件内容信息,还用于采集所述第二文件的未采集部分的文件内容信息。所述采集位置记录信息采集单元用于采集与每次文件采集对应的采集位置记录信息。
进一步地,本实施例中的文件采集装置100还包括漏采集判断模块125,用于在文件采集对象在采集间隔时间内从所述第二文件切换至所述第一文件时,判断所述第二文件是否存在未采集部分。漏采集判断模块125包括采集位置记录信息提取单元和漏采集判断单元,所述采集位置记录信息提取单元用于提取上次进行文件采集时采集的所述第二文件的采集位置记录信息,所述漏采集判断单元用于判断所述采集位置记录信息是否指向所述第二文件的末尾。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
第三实施例
请参照图4,图4示出了一种可应用于本申请实施例中的电子设备200的结构框图。电子设备200可以包括文件采集装置100、存储器201、存储控制器202、处理器203、外设接口204、输入输出单元205、音频单元206、显示单元207。
所述存储器201、存储控制器202、处理器203、外设接口204、输入输出单元205、音频单元206、显示单元207各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述文件采集装置100包括至少一个可以软件或固件(firmware)的形式存储于所述存储器201中或固化在文件采集装置100的操作系统(operating system,OS)中的软件功能模块。所述处理器203用于执行存储器201中存储的可执行模块,例如文件采集装置100包括的软件功能模块或计算机程序。
其中,存储器201可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器201用于存储程序,所述处理器203在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的服务器所执行的方法可以应用于处理器203中,或者由处理器203实现。
处理器203可以是一种集成电路芯片,具有信号的处理能力。上述的处理器203可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器203也可以是任何常规的处理器等。
所述外设接口204将各种输入/输出装置耦合至处理器203以及存储器201。在一些实施例中,外设接口204,处理器203以及存储控制器202可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
输入输出单元205用于提供给用户输入数据实现用户与所述服务器(或本地终端)的交互。所述输入输出单元205可以是,但不限于,鼠标和键盘等设备。
音频单元206向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。
显示单元207在所述电子设备200与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,所述显示单元207可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器203进行计算和处理。
可以理解,图4所示的结构仅为示意,所述电子设备200还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
综上所述,本发明实施例提供了一种文件采集方法,在采集日志文件前基于索引标识信息判断文件采集对象是否在预设采集间隔时间内从第二文件切换至第一文件,如果发生切换则对所述第二文件的未采集部分和所述第一文件进行采集,避免了数据丢失。文件采集对象是否切换根据第一文件的第一索引标识信息和第二文件的第二索引标识信息是否相同来判断,索引标识信息是随文件创建生成的唯一标识,提高了判断适用范围和处理速度。同时,在确定采集对象从第二文件切换至第一文件后,还会判断所述第二文件是否存在未采集部分,在所述第二文件存在未采集部分时才对所述第二文件的未采集部分进行采集,进一步提高了文件采集速度。此外,所述文件采集方法通过索引标识信息来确定待采集文件,提高了文件采集的准确率,不会出现通过文件名确定待采集文件时由于文件名变更或重复引起的采集错误。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种文件采集方法,其特征在于,包括:
获取第一文件;
提取所述第一文件的第一索引标识信息,以及获取上次进行文件采集时提取的第二文件的第二索引标识信息;
基于所述第一索引标识信息和所述第二索引标识信息,判断文件采集对象是否在预设采集间隔时间内从所述第二文件切换至所述第一文件;
在为否时,采集所述第一文件。
2.根据权利要求1所述的文件采集方法,其特征在于,在基于所述第一索引标识信息和所述第二索引标识信息,判断文件采集对象是否在采集间隔时间内从所述第二文件切换至所述第一文件之后,所述方法还包括:
在为是时,判断所述第二文件是否存在未采集部分;
在为是时,采集所述第二文件的未采集部分和所述第一文件。
3.根据权利要求2所述的文件采集方法,其特征在于,所述采集所述第一文件,包括:
采集所述第一文件的文件内容信息以及与本次文件采集对应的采集位置记录信息;
所述采集所述第二文件的未采集部分和所述第一文件,包括:
采集所述第二文件的未采集部分和所述第一文件的文件内容信息以及与本次文件采集对应的采集位置记录信息。
4.根据权利要求3所述的文件采集方法,其特征在于,所述判断所述第二文件是否存在未采集部分,包括:
提取上次进行文件采集时采集的所述第二文件的采集位置记录信息;
判断所述采集位置记录信息是否指向所述第二文件的末尾;
在为是时,表明所述第二文件不存在未采集部分;
在为否时,表明所述第二文件存在未采集部分。
5.根据权利要求1-4任一权项所述的文件采集方法,其特征在于,所述基于所述第一索引标识信息和所述第二索引标识信息,判断文件采集对象是否在采集间隔时间内从所述第二文件切换至所述第一文件,包括:
判断所述第一索引标识信息和所述第二索引标识信息是否相同,获得判断结果;
基于所述判断结果,判断文件采集对象是否在采集间隔时间内从所述第二文件切换至所述第一文件,其中:
在所述判断结果为是时,表明所述文件采集对象在所述预设采集间隔时间内未从所述第二文件切换至所述第一文件;
在所述判断结果为否时,表明所述文件采集对象在所述预设采集间隔时间内从所述第二文件切换至所述第一文件。
6.一种文件采集装置,其特征在于,包括:
文件提取模块,包括用于获取第一文件的文件获取单元,以及用于提取所述第一文件的第一索引标识信息,以及获取上次进行文件采集时提取的第二文件的第二索引标识信息的索引标识信息提取单元;
切换判断模块,用于基于所述第一索引标识信息和所述第二索引标识信息,判断文件采集对象是否在采集间隔时间内从所述第二文件切换至所述第一文件,所述切换判断模块包括用于判断所述第一索引标识信息和所述第二索引标识信息是否相同,获得判断结果的切换判断单元;
文件采集模块,用于在文件采集对象在采集间隔时间未进行切换时采集所述第一文件,还用于在文件采集对象在采集间隔时间内从所述第二文件切换至所述第一文件时采集所述第二文件的未采集部分和所述第一文件。
7.根据权利要求6所述的文件采集装置,其特征在于,所述文件采集装置还包括:
漏采集判断模块,用于在文件采集对象在采集间隔时间内从所述第二文件切换至所述第一文件时,判断所述第二文件是否存在未采集部分。
8.根据权利要求7所述的文件采集装置,其特征在于,所述文件采集模块包括:
文件内容信息采集单元,用于采集所述第一文件的文件内容信息,还用于采集所述第二文件的未采集部分的文件内容信息;
采集位置记录信息采集单元,用于采集与每次文件采集对应的采集位置记录信息。
9.根据权利要求7或8所述的文件采集装置,其特征在于,所述漏采集判断模块包括:
采集位置记录信息提取单元,用于提取上次进行文件采集时采集的所述第二文件的采集位置记录信息;
漏采集判断单元,用于判断所述采集位置记录信息是否指向所述第二文件的末尾。
10.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行权利要求1-5任一项所述方法中的步骤。
CN201810181875.4A 2018-03-06 2018-03-06 一种文件采集方法及装置 Pending CN108304583A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810181875.4A CN108304583A (zh) 2018-03-06 2018-03-06 一种文件采集方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810181875.4A CN108304583A (zh) 2018-03-06 2018-03-06 一种文件采集方法及装置

Publications (1)

Publication Number Publication Date
CN108304583A true CN108304583A (zh) 2018-07-20

Family

ID=62849153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810181875.4A Pending CN108304583A (zh) 2018-03-06 2018-03-06 一种文件采集方法及装置

Country Status (1)

Country Link
CN (1) CN108304583A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274217A (zh) * 2020-01-10 2020-06-12 深圳前海环融联易信息科技服务有限公司 数据采集的方法、装置、计算机设备以及存储介质
CN111723064A (zh) * 2019-03-22 2020-09-29 顺丰科技有限公司 日志采集方法、装置、服务器及存储介质
CN113392071A (zh) * 2021-08-17 2021-09-14 云智慧(北京)科技有限公司 一种文件采集器的文件采集处理方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290628A (zh) * 2008-06-17 2008-10-22 中兴通讯股份有限公司 一种数据文件更新存储方法
CN102289480A (zh) * 2011-08-02 2011-12-21 深圳市茁壮网络股份有限公司 一种数据更新的方法和系统
CN102567140A (zh) * 2010-12-03 2012-07-11 微软公司 使用变化日志的文件系统备份
CN102970158A (zh) * 2012-11-05 2013-03-13 广东睿江科技有限公司 日志存储与处理的方法及日志服务器
EP3496346A1 (en) * 2016-08-26 2019-06-12 Huawei Technologies Co., Ltd. Data message forwarding method and apparatus

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290628A (zh) * 2008-06-17 2008-10-22 中兴通讯股份有限公司 一种数据文件更新存储方法
CN102567140A (zh) * 2010-12-03 2012-07-11 微软公司 使用变化日志的文件系统备份
CN102289480A (zh) * 2011-08-02 2011-12-21 深圳市茁壮网络股份有限公司 一种数据更新的方法和系统
CN102970158A (zh) * 2012-11-05 2013-03-13 广东睿江科技有限公司 日志存储与处理的方法及日志服务器
EP3496346A1 (en) * 2016-08-26 2019-06-12 Huawei Technologies Co., Ltd. Data message forwarding method and apparatus

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHANLIANGLIUXING: "分布式日志收集系统", 《HTTPS://BLOG.CSDN.NET/SHANLIANGLIUXING/ARTICLE/DETAILS/8560630?UTM_SOURCE=BLOGXGWZ7》 *
沈金明: "基于系统日志的计算机网络用户行为取证分析系统的研究与实现", 《中国优秀博硕士学位论文全文数据库 (硕士) 信息科技辑》 *
邹承俊 等: "《Linux操作系统的应用与管理项目化教程》", 30 June 2013, 中国水利水电 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723064A (zh) * 2019-03-22 2020-09-29 顺丰科技有限公司 日志采集方法、装置、服务器及存储介质
CN111274217A (zh) * 2020-01-10 2020-06-12 深圳前海环融联易信息科技服务有限公司 数据采集的方法、装置、计算机设备以及存储介质
CN111274217B (zh) * 2020-01-10 2023-08-18 深圳前海环融联易信息科技服务有限公司 数据采集的方法、装置、计算机设备以及存储介质
CN113392071A (zh) * 2021-08-17 2021-09-14 云智慧(北京)科技有限公司 一种文件采集器的文件采集处理方法、装置及设备

Similar Documents

Publication Publication Date Title
CN104731950B (zh) 一种视频推荐方法和装置
CN108734460A (zh) 一种支付方式推荐方法、装置及设备
CN108304583A (zh) 一种文件采集方法及装置
CN108345481A (zh) 一种页面显示方法、装置、客户端及服务器
US8027561B2 (en) Methods, devices and computer program products for event-based media file tagging
CN108763492A (zh) 一种音频模板提取方法及装置
US7996418B2 (en) Suggesting long-tail tags
JP5317447B2 (ja) 議事録作成支援装置、及び議事録作成支援プログラム
CN110442791B (zh) 数据推送方法和系统
CN104239382A (zh) 用于内容检索的上下文智能标记
CN104750839A (zh) 一种数据推荐方法、终端及服务器
JP2011253572A (ja) 情報価値を反映した情報検索方法及びその装置
CN110516011A (zh) 一种多源实体数据融合方法、装置及设备
CN107291446A (zh) 一种桌面管理方法及装置
WO2019196211A1 (zh) 一种筛选病历的方法、终端设备及计算机可读存储介质
CN106997350A (zh) 一种数据处理的方法及装置
US20220318302A1 (en) Audio previewing method, apparatus and storage medium
CN110688009A (zh) 一种折叠屏终端的应用程序访问方法及装置
CN104123104B (zh) 日志控制系统及方法
CN109710773A (zh) 事件主体的生成方法及其装置
CN110008395A (zh) 评论内容的呈现方法、装置、存储介质及终端
CN108959443A (zh) 一种信息推送方法、信息处理方法及装置
CN105335430B (zh) 一种基于地图场景的用户流失路径确定方法及装置
CN107783890A (zh) 软件缺陷数据处理方法和装置
CN106407286A (zh) 一种音乐搜索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180720