CN114328435A

CN114328435A - 一种基于分布式架构的非结构化文件的流处理方法及系统

Info

Publication number: CN114328435A
Application number: CN202111633267.0A
Authority: CN
Inventors: 郑思达; 郑汉军; 郭任煌; 邱锋兴; 廖宁; 刘富坚
Original assignee: Xiamen Anscen Network Technology Co ltd
Current assignee: Xiamen Anscen Network Technology Co ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-12

Abstract

本申请提出了一种基于分布式架构的非结构化文件的流处理方法，该方法包括如下步骤：获取非结构化文件，将所述非结构化文件放入到FTP或MinIO中；设计基于Flink架构的FTP连接器或者MinIO连接器读取所述非结构化文件；基于Flink的分布式部署对所述非结构化文件进行动态处理，并将处理所述非结构化文件的进度信息记录并保存；在所述FTP连接器或者MinIO连接器中集成Format处理器，对所述非结构化文件进行解析及处理；编写Flink SQL将处理后的数据写入存储库。通过采用Flink的分布式架构，以流的形式读取大量并不断产生的非结构化文件，将流处理中的特性应用到非结构化文件的处理中，不影响整体的同时提高可扩展性，保证架构稳定性；利用编写SQL实现对文件的处理，降低开发门槛及成本。

Description

一种基于分布式架构的非结构化文件的流处理方法及系统

技术领域

本申请属于大数据处理的技术领域，具体涉及一种基于分布式架构的非结构化文件的流处理方法及系统。

背景技术

由于非结构化文件种类较多，且文件大小不一，文件解析较为复杂。一般会根据文件的特点，单独编写文件解析程序，负责读取文件，解析文件，并将文件解析后的内容发送到消息中间件，供下游程序使用。文件读取程序通常使用定时任务不间断的读取文件，实时性较差，当读取的环节出错时，整个处理过程将停滞不前。当出现新的格式时，需要修改原有的解析程序，可能会修改到其他的部分导致产生其他的问题，整个解析程序耦合性较高。

目前针对非结构化文件的处理方式，一般先通过对非结构化文件的解析，将非结构化文件内容发送到消息中间件，后由数据处理程序将数据处理完成后，分发到目标位置。整个文件处理流程较长，涉及的程序较多，且需要分开部署，容错性差，硬件利用率不高，文件解析扩展性差，只要其中一个环节出错，就会导致整个链路中断运行。

有鉴于此，提出一种基于分布式架构的非结构化文件的流处理方法及系统是非常具有意义的。

申请内容

为了解决现有在处理非结构化文件过程中整体架构存在的延迟高、可扩展性差、运维成本以及开发成本高等问题，本申请提供一种基于分布式架构的非结构化文件的流处理方法及系统，以解决存在的技术缺陷问题。

第一方面，本申请提出了一种基于分布式架构的非结构化文件的流处理方法，该方法包括如下步骤：

S1、获取非结构化文件，将所述非结构化文件放入到FTP或MinIO中；

S2、设计基于Flink架构的FTP连接器或者MinIO连接器，从所述FTP或MinIO中读取所述非结构化文件；

S3、基于Flink的分布式部署对所述非结构化文件进行动态处理，并将处理所述非结构化文件的进度信息记录并保存；

S4、在所述FTP连接器或者MinIO连接器中集成Format处理器，对所述非结构化文件进行解析及处理；以及

S5、编写Flink SQL将处理后的数据写入存储库。

通过采用Flink的分布式架构，以流的形式读取大量并不断产生的非结构化文件，将流处理中的特性应用到非结构化文件的处理中，将需要经常修改和扩展的部分单独出来，可以独立增加和修改，不影响整体的同时提高可扩展性，保证架构稳定性；同时利用编写SQL实现对文件的处理，降低开发门槛，降低成本。

优选的，在S2中所述FTP连接器或者MinIO连接器的设计，基于增加一个自定义的源插件。通过在经常Flink架构中增加可自定义扩展的源插件，使得修改和扩展的部分单独出来，可以独立增加和修改，不影响整体的同时提高可扩展性，保证架构稳定性。

进一步优选的，所述源插件实现DynamicTableSourceFactory接口，将所述FTP或MinIO的读取逻辑封装至所述DynamicTableSourceFactory接口中。

进一步优选的，还包括通过MinioScanRuntimeProvider对所述非结构化文件进行遍历读取，将需要处理的所述非结构化文件分配到整个Flink集群中进行处理。基于Flink架构设计FTP连接器或者MinIO连接器，实现从FTP或者MinIO上读取非结构化文件，将需要处理的非结构化文件分配到整个集群进行处理，提高处理的吞吐量，提高服务器的利用率。

优选的，S3中所述动态处理包括：将所述非结构化文件的处理任务通过JobManager分配到不同的工作节点TaskManager上。通过Flink的分布式部署，从而使整个非结构化文件的处理过程可动态扩容，负载均衡及冗灾，满足高效可用。

进一步优选的，当其中一个所述工作节点TaskManager宕掉时，所述JobManager会重新计算并分配所述非结构化文件的处理任务至另外的所述工作节点TaskManager。如果存储上面的文件特别多时，通过增加服务器资源并启动新的TaskManager节点，JobManager发现新的节点后，会分配任务给新的节点，从而起到动态扩容的作用，提高对非结构化文件的处理效率。

优选的，S5中所述Flink SQL的编写包括：

a、编写建表语句、定义文件内容字段等信息；

b、对所述文件进行操作，转化对表的处理；

c、将处理后的数据写入存储库。

第二方面，本申请提出了一种基于分布式架构的非结构化文件的流处理系统，包括:

数据获取模块：配置用于对获取所述非结构化文件；

数据读取模块：配置用于对获取的所述非结构化文件进行读取；

数据处理模块：配置用于对读取的所述非结构化文件进行解析及处理；

记录模块：配置用于对处理的所述非结构化文件的进度信息记录并保存；

编写模块：配置用于编写所述Flink SQL；

存储模块：配置用于对数据进行写入存储。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

与现有技术相比，本申请的有益成果在于：

(1)通过采用Flink的分布式架构，以流的形式读取大量并不断产生的非结构化文件，将流处理中的特性应用到非结构化文件的处理中，将需要经常修改和扩展的部分单独出来，可以独立增加和修改，不影响整体的同时提高可扩展性，保证架构稳定性；同时利用编写SQL实现对文件的处理，降低开发门槛，降低成本。

(2)基于Flink架构设计FTP连接器或者MinIO连接器，实现从FTP或者MinIO上读取非结构化文件，将需要处理的非结构化文件分配到整个集群进行处理，提高处理的吞吐量，提高服务器的利用率。

附图说明

包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本申请的原理。将容易认识到其它实施例和实施例的很多预期优点，因为通过引用以下详细描述，它们变得被更好地理解。附图的元件不一定是相互按照比例的。同样的附图标记指代对应的类似部件。

图1是本申请的一个实施例可以应用于其中的示例性装置架构图；

图2为本申请的实施例基于分布式架构的非结构化文件的流处理方法的流程示意图；

图3为本申请的实施例基于分布式架构的非结构化文件的流处理方法结构示意图；

图4为本申请的实施例基于分布式架构的非结构化文件的流处理方法中S2的流程示意图；

图5为本申请的实施例基于分布式架构的非结构化文件的流处理方法中S3的流程示意图；

图6为本申请的实施例基于分布式架构的非结构化文件的流处理系统中的结构示意图；

图7是适于用来实现本申请实施例的电子设备的计算机装置的结构示意图。

具体实施方式

在以下详细描述中，参考附图，该附图形成详细描述的一部分，并且通过其中可实践本申请的说明性具体实施例来示出。对此，参考描述的图的取向来使用方向术语，例如“顶”、“底”、“左”、“右”、“上”、“下”等。因为实施例的部件可被定位于若干不同取向中，为了图示的目的使用方向术语并且方向术语绝非限制。应当理解的是，可以利用其他实施例或可以做出逻辑改变，而不背离本申请的范围。因此以下详细描述不应当在限制的意义上被采用，并且本申请的范围由所附权利要求来限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图1示出了可以应用本申请实施例的用于处理信息的方法或用于处理信息的装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有通信功能的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103发送的校验请求信息进行处理的后台信息处理服务器。后台信息处理服务器可以对接收到的校验请求信息进行分析等处理，并得到处理结果(例如用于表征校验请求为合法请求的校验成功信息)。

需要说明的是，本申请实施例所提供的用于处理信息的方法一般由服务器105执行，相应地，用于处理信息的装置一般设置于服务器105中。另外，本申请实施例所提供的用于发送信息的方法一般由终端设备101、102、103执行，相应地，用于发送信息的装置一般设置于终端设备101、102、103中。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或多个软件模块。在此不做具体限定。

图2示出了本申请的实施例公开了一种基于分布式架构的非结构化文件的流处理方法，如图2和图3所示，该方法包括如下步骤：

S1、获取非结构化文件，将非结构化文件放入到FTP或MinIO中；

具体的，在具体实施例中，大量的非结构化文件源源不断的产生，采用Flink分布式的架构，以流的形式对大量的非结构化文件进行读取。

S2、设计基于Flink架构的FTP连接器或者MinIO连接器，从FTP或MinIO中读取非结构化文件；

进一步的，结合图4，在具体实施例中，FTP连接器或者MinIO连接器的设计，基于增加一个自定义的源插件，此源插件用于实现DynamicTableSourceFactory接口。将FTP或MinIO的读取逻辑封装至DynamicTableSourceFactory接口中，通过MinioScanRuntimeProvider对非结构化文件进行遍历读取，将需要处理的非结构化文件分配到整个Flink集群中进行处理。通过在经常Flink架构中增加可自定义扩展的源插件，使得修改和扩展的部分单独出来，可以独立增加和修改，不影响整体的同时提高可扩展性，保证架构稳定性。

进一步的，也可以通过自定义一个分配计算资源的算法供Flink框架调用，可以是平均分配，也可以是按机器的资源使用情况分配，进而完成一个FTP连接器或者MinIO连接器，实现从FTP或者MinIO上读取非结构化文件，将需要处理的非结构化文件分配到整个集群进行处理，能够提高处理的吞吐量，提高服务器的利用率。

S3、基于Flink的分布式部署对非结构化文件进行动态处理，并将处理非结构化文件的进度信息记录并保存；

具体的，结合图5，在此实施例中动态处理包括将非结构化文件的处理任务通过JobManager分配到不同的工作节点TaskManager上，当其中一个工作节点TaskManager宕掉时，JobManager会重新计算并分配非结构化文件的处理任务至另外的工作节点TaskManager。通过Flink的分布式部署，从而使整个非结构化文件的处理过程可动态扩容，负载均衡及冗灾，满足高效可用。

假如存储上面的文件特别多时，通过增加服务器资源并启动新的TaskManager节点，JobManager发现新的节点后，会分配任务给新的节点，从而起到动态扩容的作用，提高对非结构化文件的处理效率。

此外，通过状态快照来实现容错机制，将进度信息即已处理的文件和当前处理的文件进度保存到状态中，当出现故障时，可以从最近的状态中恢复。此处所描述的状态是一种类似于数据库重做日志的实现，将内存中的计算内容快照到存储上，以便恢复运行。

S4、在FTP连接器或者MinIO连接器中集成Format处理器，对非结构化文件进行解析及处理；

具体的，将对非结构化文件的解析及处理封装到Flink的连接器中，不同的格式的解析形成不同的Format处理器，当出现新的格式时，可自定义扩展Format处理器，满足扩展性的同时，能使整个架构保持不变，不影响整体，保证架构稳定性。

S5、编写Flink SQL将处理后的数据写入存储库。

具体的，Flink SQL的编写包括：

a、编写建表语句、定义文件内容字段等信息；

b、对文件进行操作，转化对表的处理，从而提供一个统一简单的处理方式；

select something(user_id),user_name,uv,pv from myUserTable where uv＝'1'’

c、最后将处理后的数据根据自己的需要进行处理，例如将处理后的数据写入存储库。

本方案通过采用Flink的分布式架构，以流的形式读取大量并不断产生的非结构化文件，将流处理中的特性应用到非结构化文件的处理中，将需要经常修改和扩展的部分单独出来，可以独立增加和修改，不影响整体的同时提高可扩展性，保证架构稳定性；同时利用编写SQL实现对文件的处理，降低开发门槛，降低成本。

第二方面，本申请的实施例公开了一种基于分布式架构的非结构化文件的流处理系统，参照图6，包括:

数据获取模块61：配置用于对获取非结构化文件；

数据读取模块62：配置用于对获取的非结构化文件进行读取；

数据处理模块63：配置用于对读取的非结构化文件进行解析及处理；

记录模块64：配置用于对处理的非结构化文件的进度信息记录并保存；

编写模块65：配置用于编写Flink SQL；

存储模块66：配置用于对数据进行写入存储。

下面参考图7，其示出了适于用来实现本申请实施例的电子设备(例如图1所示的服务器或终端设备)的计算机装置600的结构示意图。图7示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机装置600包括中央处理单元(CPU)601和图形处理器(GPU)602，其可以根据存储在只读存储器(ROM)603中的程序或者从存储部分609加载到随机访问存储器(RAM)606中的程序而执行各种适当的动作和处理。在RAM 604中，还存储有装置600操作所需的各种程序和数据。CPU 601、GPU602、ROM 603以及RAM 604通过总线605彼此相连。输入/输出(I/O)接口606也连接至总线605。

以下部件连接至I/O接口606：包括键盘、鼠标等的输入部分607；包括诸如、液晶显示器(LCD)等以及扬声器等的输出部分608；包括硬盘等的存储部分609；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分610。通信部分610经由诸如因特网的网络执行通信处理。驱动器611也可以根据需要连接至I/O接口606。可拆卸介质612，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器611上，以便于从其上读出的计算机程序根据需要被安装入存储部分609。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分610从网络上被下载和安装，和/或从可拆卸介质612被安装。在该计算机程序被中央处理单元(CPU)601和图形处理器(GPU)602执行时，执行本申请的方法中限定的上述功能。

需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的装置、装置或器件，或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的装置来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述的基于分布式架构的非结构化文件的流处理方法。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于分布式架构的非结构化文件的流处理方法，其特征在于，该方法包括如下步骤：

S5、编写Flink SQL将处理后的数据写入存储库。

2.根据权利要求1所述的基于分布式架构的非结构化文件的流处理方法，其特征在于，在S2中所述FTP连接器或者MinIO连接器的设计，基于Flink架构增加一个自定义的源插件。

3.根据权利要求2所述的基于分布式架构的非结构化文件的流处理方法，其特征在于，所述源插件实现DynamicTableSourceFactory接口，将所述FTP或MinIO的读取逻辑封装至所述DynamicTableSourceFactory接口中。

4.根据权利要求3所述的基于分布式架构的非结构化文件的流处理方法，其特征在于，还包括通过MinioScanRuntimeProvider对所述非结构化文件进行遍历读取，将需要处理的所述非结构化文件分配到整个Flink集群中进行处理。

5.根据权利要求1所述的基于分布式架构的非结构化文件的流处理方法，其特征在于，S3中所述动态处理包括：将所述非结构化文件的处理任务通过JobManager分配到不同的工作节点TaskManager上。

6.根据权利要求5所述的基于分布式架构的非结构化文件的流处理方法，其特征在于，当其中一个所述工作节点TaskManager宕掉时，所述JobManager会重新计算并分配所述非结构化文件的处理任务至另外的所述工作节点TaskManager。

7.根据权利要求1所述的基于分布式架构的非结构化文件的流处理方法，其特征在于，S5中所述Flink SQL的编写包括：

a、编写建表语句、定义文件内容字段等信息；

b、对所述文件进行操作，转化对表的处理；

c、将处理后的数据写入存储库。

8.一种基于分布式架构的非结构化文件的流处理系统，其特征在于，包括:

数据获取模块：配置用于对获取所述非结构化文件；

编写模块：配置用于编写所述Flink SQL；

存储模块：配置用于对数据进行写入存储。

9.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。