CN111723130B

CN111723130B - 一种历史数据查询方法、装置及设备

Info

Publication number: CN111723130B
Application number: CN202010598454.9A
Authority: CN
Inventors: 苏立莹; 范渊
Original assignee: DBAPPSecurity Co Ltd
Current assignee: DBAPPSecurity Co Ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2023-07-25
Anticipated expiration: 2040-06-28
Also published as: CN111723130A

Abstract

本申请公开了一种历史数据查询方法，根据当前时间是否落入第一区间或第二区间，利用第一目录和第二目录轮流存储实时生成的日志流，当从一个目录切换到另一个目录时，将前者的日志文件归档至第三目录，并以流入时段对该日志文件进行命名。在查询数据的过程中，接收携带目标流入时段的查询请求，根据目标流入时段在第三目录搜索对应的目标日志文件，以作为查询结果。可见，该方法通过区分时段来记录日志，以流入时段对日志文件进行命名，在查询数据过程中，用户只需要输入关心的时间段，即可快速搜索到对应的日志文件，显著提升了查询效率。此外，本申请还提供了一种历史数据查询装置、设备及可读存储介质，其技术效果与上述方法相对应。

Description

一种历史数据查询方法、装置及设备

技术领域

本申请涉及计算机技术领域，特别涉及一种历史数据查询方法、装置、设备及可读存储介质。

背景技术

在飞速发展的互联网时代背景下，大数据云计算时代的到来已势不可挡。人们都钟爱各种大型网站、APP来满足自己多种需求，随着人们不断的了解并使用互联网产品后，庞大的用户量每天数以亿计的各种数据都扑面而来，如果这种情况下还运用传统方法解决日志问题，已经不能满足人们的需求。

传统的搜索方法只是对历史数据进行简单分类，随着人们对电子产品的逐渐依赖，庞大的使用者背后每天产生了数以亿计的数据，由此可见传统的方法已不能满足需求。如此问题便慢慢呈现，传统的历史数据的查询方式存在查询效率较低的问题，已不能再满足当代每天数以亿计的交易量。

发明内容

本申请的目的是提供一种历史数据查询方法、装置、设备及可读存储介质，用以解决在大数据场景下，历史数据查询效率较低的问题。其具体方案如下：

第一方面，本申请提供了一种历史数据查询方法，包括：

接收实时生成的日志流；

若当前时间落入第一区间，将所述日志流流入第一目录，直至当前时间为第二区间的起点，停止将日志流流入第一目录，将第一目录下的日志流数据作为单个日志文件归档至第三目录，并以流入时段对所述日志文件进行命名；

若当前时间落入第二区间，将所述日志流流入第二目录，直至当前时间为第一区间的起点，停止将日志流流入第二目录，将第二目录下的日志流数据作为单个日志文件归档至第三目录，并以流入时段对所述日志文件进行命名；

接收携带目标流入时段的查询请求，根据所述目标流入时段在所述第三目录搜索对应的目标日志文件，以作为查询结果；

其中，所述第一区间和所述第二区间在时间轴上交替出现。

优选的，所述第一区间和所述第二区间的区间长度相同，所述第一区间为[2n*a,(2n+1)*a)，所述第二区间为[(2n+1)*a,(2n+2)*a)，其中n为非负整数，a为区间长度。

优选的，所述区间长度为24小时，所述若当前时间落入第一区间，将所述日志流流入第一目录，直至当前时间为第二区间的起点，停止将日志流流入第一目录，将第一目录下的日志流数据作为单个日志文件归档至第三目录，并以流入时段对所述日志文件进行命名，包括：

若当前时间落入第一区间，将所述日志流流入第一目录，直至当前时间为零点，停止将日志流流入第一目录，将第一目录下的日志流数据作为单个日志文件归档至第三目录，并以流入日期对所述日志文件进行命名。

优选的，所述将第一目录下的日志流数据作为单个日志文件归档至第三目录，包括：

根据流入日期，将第一目录下的日志流数据作为单个日志文件归档至第三目录下相应的子目录，所述子目录为以年月命名的目录。

优选的，在所述接收携带目标流入时段的查询请求之前，还包括：

按照第一周期，周期性地对第三目录的日志文件进行正则表达式匹配，为匹配得到的日志文件设置不可删除标签；

对第三目录下未设置有不可删除标签的日志文件进行删除。

优选的，所述对第三目录下未设置有不可删除标签的日志文件进行删除，包括：

按照第二周期，周期性地对第三目录下未设置有不可删除标签的日志文件进行删除，其中所述第一周期小于等于所述第二周期。

优选的，在所述对第三目录下未设置有不可删除标签的日志文件进行删除之后，还包括：

为删除完成的子目录设置删除完成标签。

第二方面，本申请提供了一种历史数据查询装置，包括：

日志流接收模块：用于接收实时生成的日志流；

第一流入模块：用于若当前时间落入第一区间，将所述日志流流入第一目录，直至当前时间为第二区间的起点，停止将日志流流入第一目录，将第一目录下的日志流数据作为单个日志文件归档至第三目录，并以流入时段对所述日志文件进行命名；

第二流入模块：用于若当前时间落入第二区间，将所述日志流流入第二目录，直至当前时间为第一区间的起点，停止将日志流流入第二目录，将第二目录下的日志流数据作为单个日志文件归档至第三目录，并以流入时段对所述日志文件进行命名；

查询模块：用于接收携带目标流入时段的查询请求，根据所述目标流入时段在所述第三目录搜索对应的目标日志文件，以作为查询结果；

其中，所述第一区间和所述第二区间在时间轴上交替出现。

第三方面，本申请提供了一种历史数据查询设备，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序，以实现如上所述的历史数据查询方法的步骤。

第四方面，本申请提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现如上所述的历史数据查询方法的步骤。

本申请所提供的一种历史数据查询方法，在记录日志文件的过程中，设置了三种用于存储日志流的目录，在实际应用中，根据当前时间是否落入第一区间或第二区间，利用第一目录和第二目录轮流接收实时生成的日志流，当从一个目录切换到另一个目录时，将前者的日志流数据作为单个日志文件归档至第三目录，并以流入时段对该日志文件进行命名。在查询数据的过程中，接收携带目标流入时段的查询请求，根据目标流入时段在第三目录搜索对应的目标日志文件，以作为查询结果。可见，该方法通过区分时段来记录日志，生成各个时段对应的日志文件，并以流入时段对日志文件进行命名，提升日志记录效率。在查询数据过程中，用户只需要输入自己关心的时间段，即可快速搜索到对应的日志文件，显著提升了历史数据查询效率。

此外，本申请还提供了一种历史数据查询装置、设备及可读存储介质，其技术效果与上述方法相对应，这里不再赘述。

附图说明

为了更清楚的说明本申请实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请所提供的一种历史数据查询方法实施例一的实现流程图；

图2为本申请所提供的一种历史数据查询方法实施例二的实现流程图；

图3为本申请所提供的一种历史数据查询装置实施例的功能框图；

图4为本申请所提供的一种历史数据查询设备实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在如今发展高速的大数据时代下，用户量庞大的网站或者移动终端每天会产生的庞大的数据，在此种状态下，传统日志记录方式直接输出日志到后台，那么数据量可能会数以亿计，严重影响数据查询效率。

针对该问题，本申请的核心是提供一种历史数据查询方法、装置、设备及可读存储介质，来高效记录日志，从而提升查询效率。

下面对本申请提供的一种历史数据查询方法实施例一进行介绍，参见图1，实施例一包括：

S101、接收实时生成的日志流；

S102、若当前时间落入第一区间，将所述日志流流入第一目录，直至当前时间为第二区间的起点，停止将日志流流入第一目录，将第一目录下的日志流数据作为单个日志文件归档至第三目录，并以流入时段对所述日志文件进行命名；

S103、若当前时间落入第二区间，将所述日志流流入第二目录，直至当前时间为第一区间的起点，停止将日志流流入第二目录，将第二目录下的日志流数据作为单个日志文件归档至第三目录，并以流入时段对所述日志文件进行命名；

S104、接收携带目标流入时段的查询请求，根据所述目标流入时段在所述第三目录搜索对应的目标日志文件，以作为查询结果。

本实施例设置了三种目录，即第一目录、第二目录和第三目录。其中，第一目录用于在当前时间落入第一区间时，接收实时的日志流；第二目录用于在当前时间落入第二区间时，接收实时的日志流；第三目录用于存储当前时间没有接收日志流的目录下的日志流数据，将该目录下的日志流数据作为单个日志文件记录下来，并根据该日志文件流入第一目录或第二目录的时段对其进行命名。

上述第一区间和第二区间在时间轴上交替出现，也就是说，本实施例利用第一目录和第二目录轮流接收日志流，当利用第一目录接收日志流的时长达到一定时长之后，则切换到第二目录，继续利用第二目录接收日志流；同理，当第二目录接收日志流的时长达到一定时长之后，切换回第一目录，继续利用第一目录接收日志流。

本实施例不限定上述第一区间和第二区间的区间长度，二者的区间长度可以相同，也可以不同，二者各自区间长度的大小可以根据实际需求自行设置。作为一种具体的实施方式，当设置二者的区间长度相同时，假设第一区间先出现，那么第一区间可以表示为[2n*a,(2n+1)*a)，第二区间可以表示为[(2n+1)*a,(2n+2)*a)，其中n为非负整数，a为区间长度。

以上仅仅介绍了第三目录下将日志文件命名为对应的流入时段，在实际应用中，为进一步提升日志记录效率，可以生成第三目录的子目录。假设第一目录和第二目录的区间长度相同，那么，第三目录下的一个日志文件对应的是一个区间长度的日志流数据，当日志记录时间非常长或区间长度较短时，第三目录下的日志文件的数量会较多，不便于搜索。因此，本实施例利用第三目录可以实现更大的时间区间，利用子目录存储连续的N个日志文件，即实现了利用子目录存储N个区间长度的日志流数据。例如，假设日志文件对应的是一天的日志流数据，那么子目录可以存储一个月的日志流数据，甚至存储一年的日志流数据。具体的，预先生成子目录，以年或月对子目录进行命名，当生成日志文件后，将其存储至对应的子目录下。

本实施例所提供一种历史数据查询方法，在记录日志文件的过程中，设置了三种用于存储日志流的目录，在实际应用中，根据当前时间是否落入第一区间或第二区间，利用第一目录和第二目录轮流接收实时生成的日志流，当从一个目录切换到另一个目录时，将前者的日志流数据作为单个日志文件归档至第三目录，并以流入时段对该日志文件进行命名。在查询数据的过程中，接收携带目标流入时段的查询请求，根据目标流入时段在第三目录搜索对应的目标日志文件，以作为查询结果。可见，该方法通过区分时段来记录日志，生成各个时段对应的日志文件，并以流入时段对日志文件进行命名，提升日志记录效率。在查询数据过程中，用户只需要输入自己关心的时间段，即可快速搜索到对应的日志文件，显著提升了历史数据查询效率。

下面开始详细介绍本申请提供的一种历史数据查询方法实施例二，实施例二基于前述实施例一实现，并在实施例一的基础上进行了一定程度上的拓展。

具体的，实施例二以天为区间长度，每天生成一个日志文件，并存入第三目录下以年月命名的子目录中。此外，本实施例在实施例一的基础上增加了自动清理垃圾数据的机制。参见图2，实施例二具体包括：

S201、接收实时生成的日志流；

S202、若当前时间落入第一区间，将所述日志流流入第一目录，直至当前时间为零点，停止将日志流流入第一目录；根据流入日期，将第一目录下的日志流数据作为单个日志文件归档至第三目录下相应的子目录，以流入日期对所述日志文件进行命名；

上述子目录为第三目录下以年月进行命名的目录，用于记录一个月内的全部日志文件。

S203、若当前时间落入第二区间，将所述日志流流入第二目录，直至当前时间为零点，停止将日志流流入第二目录；根据流入日期，将第二目录下的日志流数据作为单个日志文件归档至第三目录下相应的子目录，并以流入日期对所述日志文件进行命名；

本实施例中，第一区间和第二区间的区间长度相同，均为24小时。第一区间为[2n*24，(2n+1)*24)，第二区间为[(2n+1)*24，(2n+2)*,24)，其中n为非负整数。

S204、周期性地对第三目录的日志文件进行正则表达式匹配，为匹配得到的日志文件设置不可删除标签；

S205、对第三目录下未设置有不可删除标签的日志文件进行删除；为删除完成的子目录设置删除完成标签；

上述S205可以周期性的执行，其周期可以等于S204的周期，可以大于S204的周期。当二者周期不同时，过程如下：按照第一周期，周期性地对第三目录的日志文件进行正则表达式匹配，为匹配得到的日志文件设置不可删除标签；按照第二周期，周期性地对第三目录下未设置有不可删除标签的日志文件进行删除，其中所述第一周期小于等于所述第二周期。

S206、接收携带目标流入日期的查询请求，根据所述目标流入日期在所述第三目录搜索对应的目标日志文件，以作为查询结果。

本实施例设置了两种不同形式的日志目录，一种形式为第一目录和第二目录，另一种形式为第三目录。其中，第一目录和第二目录用于接收日志流，主要用于以轮流存放的方式去保存每天生成的日志流数据；第三目录用于将第一目录或第二目录下的日志流数据作为单个日志文件进行存储，每月生成一个以年月命名的子目录，将日志文件以实际的流入日期进行命名，并存储至对应的子目录下。

由于利用第一目录和第二目录轮流接收日志流，因此，能够防止在凌晨时间点移动数据的同时，有交易数据输入日志中，预防日志的丢失。

本实施例还能够对第三目录中按月存放的日志文件进行周期性地删除，在实际应用中，可以按需求自动调节定期删除周期。

具体的，对第三目录下的日志文件进行适当筛选，通过算法进行筛选近期不可删除的日志文件。可以通过正则表达式，将包含重要信息的日志文件筛选出来，并添加不可删除的标签。对未添加不可删除标签的日志文件进行删除，并为此日志文件以及当前存放该日志文件的子目录增加删除完成的标识，用于提示该子目录已做过清除处理。

针对已经筛选过后仍然保留的日志文件，可以选择手工删除或自动删除。例如，手工删除的场景下，根据业务需要，经过一段时间之后，如果这些日志文件已不重要了，则可以通过人工进入服务器后台手工删除；自动删除的场景下，根据业务需要，如果筛选的重要的数据也具有一定的时效性，则仍然可以通过定时删除机制进行删除，只不过定时删除的周期可能要比上述定时删除的周期长。即，当通过筛选确定某个日志文件为重要日志文件之后，并不代表该日志文件始终不可删除，可以按照一个较大删除周期重新评估该日志文件，并在其不重要时对其进行删除。

在大数据的互联网背景下，每天会生成数以亿计的数据，采用传统的方式来查询历史日志会非常低效，不能满足当前需求。而使用本实施例的方法，通过后台代码实现将庞大的历史日志进行特殊的拆分，进行统一归类，增加自动清除机制，将冗余的历史日志进行定时清理，减轻对服务器及数据的压力，并且当需要查询历史日志，能够快速搜索到目标日志文件，达到既能高速查询，又能合理利用服务资源的效果。

高效查询的关键是数据分类明确，数据量相对小，通过以上操作分类之后，当操作者再次寻找某个数据的时候，可以快速定位；执行此方法后，高效查询的同时，严谨分类数据，自动清除冗余数据，使杂乱的历史数据得到了整理和清洗，对于服务器来说也减小了内存压力。

下面对本申请实施例提供的一种历史数据查询装置进行介绍，下文描述的一种历史数据查询装置与上文描述的一种历史数据查询方法可相互对应参照。

如图3所示，该装置包括：

日志流接收模块301：用于接收实时生成的日志流；

第一流入模块302：用于若当前时间落入第一区间，将所述日志流流入第一目录，直至当前时间为第二区间的起点，停止将日志流流入第一目录，将第一目录下的日志流数据作为单个日志文件归档至第三目录，并以流入时段对所述日志文件进行命名；

第二流入模块303：用于若当前时间落入第二区间，将所述日志流流入第二目录，直至当前时间为第一区间的起点，停止将日志流流入第二目录，将第二目录下的日志流数据作为单个日志文件归档至第三目录，并以流入时段对所述日志文件进行命名；

查询模块304：用于接收携带目标流入时段的查询请求，根据所述目标流入时段在所述第三目录搜索对应的目标日志文件，以作为查询结果；

其中，所述第一区间和所述第二区间在时间轴上交替出现。

本实施例的历史数据查询装置用于实现前述的历史数据查询方法，因此该装置中的具体实施方式可见前文中的历史数据查询方法的实施例部分，例如，日志流接收模块301、第一流入模块302、第二流入模块303、查询模块304，分别用于实现上述历史数据查询方法中步骤S101，S102，S103，S104。所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再展开介绍。

另外，由于本实施例的历史数据查询装置用于实现前述的历史数据查询方法，因此其作用与上述方法的作用相对应，这里不再赘述。

此外，本申请还提供了一种历史数据查询设备，如图4所示，包括：

存储器100：用于存储计算机程序；

处理器200：用于执行所述计算机程序，以实现如上文所述的历史数据查询方法的步骤。

最后，本申请还提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现如上文所述的历史数据查询方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种历史数据查询方法，其特征在于，包括：

接收实时生成的日志流；

若当前时间落入第二区间，将所述日志流流入第二目录，直至当前时间为第一区间的起点，停止将日志流流入第二目录，将第二目录下的日志流数据作为单个日志文件归档至第三目录，并以流入时段对所述日志文件进行命名，所述第三目录用于存储当前时间没有接收日志流的目录下的日志流数据，将该目录下的日志流数据作为单个日志文件记录下来，并根据该日志文件流入第一目录或第二目录的时段对其进行命名；

其中，所述第一区间和所述第二区间在时间轴上交替出现，所述第一区间和所述第二区间的区间长度相同，所述第一区间为[2n*a,(2n+1)*a)，所述第二区间为[(2n+1)*a,(2n+2)*a)，其中n为非负整数，a为区间长度。

2.如权利要求1所述的方法，其特征在于，所述区间长度为24小时，所述若当前时间落入第一区间，将所述日志流流入第一目录，直至当前时间为第二区间的起点，停止将日志流流入第一目录，将第一目录下的日志流数据作为单个日志文件归档至第三目录，并以流入时段对所述日志文件进行命名，包括：

3.如权利要求2所述的方法，其特征在于，所述将第一目录下的日志流数据作为单个日志文件归档至第三目录，包括：

4.如权利要求3所述的方法，其特征在于，在所述接收携带目标流入时段的查询请求之前，还包括：

对第三目录下未设置有不可删除标签的日志文件进行删除。

5.如权利要求4所述的方法，其特征在于，所述对第三目录下未设置有不可删除标签的日志文件进行删除，包括：

6.如权利要求4所述的方法，其特征在于，在所述对第三目录下未设置有不可删除标签的日志文件进行删除之后，还包括：

为删除完成的子目录设置删除完成标签。

7.一种历史数据查询装置，其特征在于，包括：

日志流接收模块：用于接收实时生成的日志流；

第二流入模块：用于若当前时间落入第二区间，将所述日志流流入第二目录，直至当前时间为第一区间的起点，停止将日志流流入第二目录，将第二目录下的日志流数据作为单个日志文件归档至第三目录，并以流入时段对所述日志文件进行命名，所述第三目录用于存储当前时间没有接收日志流的目录下的日志流数据，将该目录下的日志流数据作为单个日志文件记录下来，并根据该日志文件流入第一目录或第二目录的时段对其进行命名；

8.一种历史数据查询设备，其特征在于，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序，以实现如权利要求1-7任意一项所述的历史数据查询方法的步骤。

9.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现如权利要求1-7任意一项所述的历史数据查询方法的步骤。