CN112256634A

CN112256634A - 一种基于http的低内存大文件解析方法

Info

Publication number: CN112256634A
Application number: CN202011097223.6A
Authority: CN
Inventors: 代存折; 李妃军; 龚勤
Original assignee: Hangzhou Arcvideo Technology Co ltd
Current assignee: Hangzhou Arcvideo Technology Co ltd
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2021-01-22
Anticipated expiration: 2040-10-14
Also published as: CN112256634B

Abstract

本发明公开了一种基于http的低内存大文件解析方法。它具体操作步骤如下：通过定义模块定义大文件在分段读取时的分段大小；通过预设置模块设置文件第一次需要解析的标识；通过分段解析模块发送分段请求；通过第一计算模块计算文件内容是否符合预设置模块设置的解析标识；通过处理模块消费解析后的文件并且更新最后一次解析的标识；通过第二计算模块计算文件分段条件；第二计算模块计算完成之后，判断是否继续，如果是则返回分段解析模块，否则结束整个流程。本发明的有益效果是：保证使用较低配置的服务器也能够正常解析大文件，同时能保证解析文件的完整性，并且可以通过算法来排除已解析部分来达到硬件资源最大利用。

Description

一种基于http的低内存大文件解析方法

技术领域

本发明涉及大文件处理相关技术领域，尤其是指一种基于http的低内存大文件解析方法。

背景技术

在实际的业务场景中，如果要分析GB、TB、PB级别的比如日志等文件时，一般所需的服务器内存要求都特别高，但是内存是有限的，如何在低内存的配置下也能够解决海量数据成了一个难题。目前在解决大文件解析时，基本都是对源文件进行分段存储的方式，影响了源文件的存储结构，且需要对生成源文件的服务进行改造或额外编写脚本进行文件分段。

发明内容

本发明是为了克服现有技术中存在上述的不足，提供了一种达到硬件资源最大利用的基于http的低内存大文件解析方法。

为了实现上述目的，本发明采用以下技术方案：

一种基于http的低内存大文件解析方法，包括定义模块、预设置模块、分段解析模块、第一计算模块、处理模块、第二计算模块，具体操作步骤如下：

(1)通过定义模块定义大文件在分段读取时的分段大小；

(2)通过预设置模块设置文件第一次需要解析的标识；

(3)通过分段解析模块发送分段请求；

(4)通过第一计算模块计算文件内容是否符合预设置模块设置的解析标识；

(5)通过处理模块消费解析后的文件并且更新最后一次解析的标识；

(6)通过第二计算模块计算文件分段条件；

(7)第二计算模块计算完成之后，判断是否继续，如果是则返回步骤(3)，否则结束整个流程。

本发明公开了一种基于http的低内存大文件解析方案，包括定义模块、预设置模块、分段解析模块、第一计算模块、处理模块、第二计算模块，通过基于http的低内存大文件解析，从而保证使用较低配置的服务器也能够正常解析大文件，同时能保证解析文件的完整性，并且可以通过算法来排除已解析部分来达到硬件资源最大利用。

作为优选，在步骤(1)中，分段的大小配置在处理模块中会直接映射到内存中，且根据当前服务器最大内存来决定分段大小。

作为优选，在步骤(2)中，预设置模块目的是为了首次解析文件时是否需要把部分内容排除掉，用文件内容中的位置、时间作为解析标识，要能够正确表示出先后顺序即可。

作为优选，在步骤(3)中，基于http的range规则，开始对文件进行附带range头的GET请求，格式为：Range:bytes＝起始-结束，其中起始是指从文件第几个字节开始读取，首次从0开始；结束是指读取到文件的第几个字节，需要根据起始位置加上定义模块中定义的分段大小。

作为优选，在步骤(5)中，基于实际的业务场景对分段解析模块解析出的文件内容进行处理，处理完后释放本次的文件内容，并且记录该文件最后一次处理的标识，需要与预设置模块的标识保持一致；由于分段解析模块使用的range规则是按照字节大小来读取的，并不是按行处理，处理模块会根据第二计算模块得出的是否需要下一次分段请求来存储最后一行内容，且本次不处理，等待下次分段时和首行拼接处理。

作为优选，在步骤(6)中，从分段解析模块中获取请求响应头中的Content-Range标识，计算出是否已经对该文件请求完成，由于Content-Range响应头中包括文件的总大小，因此只需要拿分段解析模块中的结束字节与总大小进行对比，如果不匹配需要继续执行分段解析模块同时对起始位置的值进行更新，更新规则为上次结束位置加一；如果匹配则结束本次解析，后续可以根据业务来决定是否对该文件进行持续解析。

本发明的有益效果是：保证使用较低配置的服务器也能够正常解析大文件，同时能保证解析文件的完整性，并且可以通过算法来排除已解析部分来达到硬件资源最大利用。

附图说明

图1是本发明的方法流程图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的描述。

如图1所述的实施例中，一种基于http的低内存大文件解析方法，包括定义模块、预设置模块、分段解析模块、第一计算模块、处理模块、第二计算模块，具体操作步骤如下：

(1)通过定义模块定义大文件在分段读取时的分段大小；分段的大小配置在处理模块中会直接映射到内存中，且根据具体的消费情况有可能是成倍增长，因此需要根据当前服务器最大内存来决定分段大小。

(2)通过预设置模块设置文件第一次需要解析的标识；预设置模块目的是为了首次解析文件时是否需要把部分内容排除掉，比如之前已解析的或一些无用数据，可以用文件内容中的位置、时间等作为解析标识，要能够正确表示出先后顺序即可。

(3)通过分段解析模块发送分段请求；基于http的range规则，开始对文件进行附带range头的GET请求，格式为：Range:bytes＝起始-结束，其中起始是指从文件第几个字节开始读取，首次从0开始；结束是指读取到文件的第几个字节，需要根据起始位置加上定义模块中定义的分段大小。

(4)通过第一计算模块计算文件内容是否符合预设置模块设置的解析标识；由于预设置模块及处理模块均有写该文件最后解析的标识，因此第一计算模块需要根据该标识计算出是否符合条件，比如：如果是时间则判断时间是否较新、如果是位置则判断位置是否较前。

(5)通过处理模块消费解析后的文件并且更新最后一次解析的标识；基于实际的业务场景对分段解析模块解析出的文件内容进行处理，比如整理入库等，处理完后释放本次的文件内容，并且记录该文件最后一次处理的标识，需要与预设置模块的标识保持一致；由于分段解析模块使用的range规则是按照字节大小来读取的，并不是按行处理，但是一般文件处理都是每行处理，这就会导致分段解析模块读取到的最后一行有可能是不完整的，这段不完整的内容与下次分段解析模块读取到的第一行合并在一起才是完整的一行，才能够让业务正确解析，为了保证这种完整性，处理模块会根据第二计算模块得出的是否需要下一次分段请求来存储最后一行内容，且本次不处理，等待下次分段时和首行拼接处理。

(6)通过第二计算模块计算文件分段条件；从分段解析模块中获取请求响应头中的Content-Range标识，计算出是否已经对该文件请求完成，由于Content-Range响应头中包括文件的总大小，因此只需要拿分段解析模块中的结束字节与总大小进行对比，如果不匹配需要继续执行分段解析模块同时对起始位置的值进行更新，更新规则为上次结束位置加一；如果匹配则结束本次解析，后续可以根据业务来决定是否对该文件进行持续解析。

上述方法已应用于平台的数据统计模块中，在低配置服务器上可以稳定持续解析大文件日志。本发明公开了一种基于http的低内存大文件解析方案，包括定义模块、预设置模块、分段解析模块、第一计算模块、处理模块、第二计算模块，通过基于http的低内存大文件解析，从而保证使用较低配置的服务器也能够正常解析大文件，同时能保证解析文件的完整性，并且可以通过算法来排除已解析部分来达到硬件资源最大利用。

java版本伪代码示例(解析nginx日志为例)：

Claims

1.一种基于http的低内存大文件解析方法，其特征是，包括定义模块、预设置模块、分段解析模块、第一计算模块、处理模块、第二计算模块，具体操作步骤如下：

(1)通过定义模块定义大文件在分段读取时的分段大小；

(2)通过预设置模块设置文件第一次需要解析的标识；

(3)通过分段解析模块发送分段请求；

(6)通过第二计算模块计算文件分段条件；

2.根据权利要求1所述的一种基于http的低内存大文件解析方法，其特征是，在步骤(1)中，分段的大小配置在处理模块中会直接映射到内存中，且根据当前服务器最大内存来决定分段大小。

3.根据权利要求1所述的一种基于http的低内存大文件解析方法，其特征是，在步骤(2)中，预设置模块目的是为了首次解析文件时是否需要把部分内容排除掉，用文件内容中的位置、时间作为解析标识，要能够正确表示出先后顺序即可。

4.根据权利要求1所述的一种基于http的低内存大文件解析方法，其特征是，在步骤(3)中，基于http的range规则，开始对文件进行附带range头的GET请求，格式为：Range:bytes＝起始-结束，其中起始是指从文件第几个字节开始读取，首次从0开始；结束是指读取到文件的第几个字节，需要根据起始位置加上定义模块中定义的分段大小。

5.根据权利要求1所述的一种基于http的低内存大文件解析方法，其特征是，在步骤(5)中，基于实际的业务场景对分段解析模块解析出的文件内容进行处理，处理完后释放本次的文件内容，并且记录该文件最后一次处理的标识，需要与预设置模块的标识保持一致；由于分段解析模块使用的range规则是按照字节大小来读取的，并不是按行处理，处理模块会根据第二计算模块得出的是否需要下一次分段请求来存储最后一行内容，且本次不处理，等待下次分段时和首行拼接处理。

6.根据权利要求1所述的一种基于http的低内存大文件解析方法，其特征是，在步骤(6)中，从分段解析模块中获取请求响应头中的Content-Range标识，计算出是否已经对该文件请求完成，由于Content-Range响应头中包括文件的总大小，因此只需要拿分段解析模块中的结束字节与总大小进行对比，如果不匹配需要继续执行分段解析模块同时对起始位置的值进行更新，更新规则为上次结束位置加一；如果匹配则结束本次解析，后续可以根据业务来决定是否对该文件进行持续解析。