CN112269765A - 提升Spark结构化流文件数据源读取性能方法及装置 - Google Patents

提升Spark结构化流文件数据源读取性能方法及装置 Download PDF

Info

Publication number
CN112269765A
CN112269765A CN202011271625.3A CN202011271625A CN112269765A CN 112269765 A CN112269765 A CN 112269765A CN 202011271625 A CN202011271625 A CN 202011271625A CN 112269765 A CN112269765 A CN 112269765A
Authority
CN
China
Prior art keywords
file
data source
files
metadata
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011271625.3A
Other languages
English (en)
Inventor
周朝卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongying Youchuang Information Technology Co Ltd
Original Assignee
Zhongying Youchuang Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongying Youchuang Information Technology Co Ltd filed Critical Zhongying Youchuang Information Technology Co Ltd
Priority to CN202011271625.3A priority Critical patent/CN112269765A/zh
Publication of CN112269765A publication Critical patent/CN112269765A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种提升Spark Structured Streaming文件数据源读取性能的方法和装置。本发明通过对新增的待监控文件数据源同步生成一份配置其基本信息的元数据文件,在读取每个批次文件时,只需要遍历该元数据文件即可。同时,增加数据清理的逻辑,将已完成处理的文件执行删除或者移动至备份的目录,减少文件数据源目录下的文件数量,提升了读取性能,减少了处理工作量,降低了成本。

Description

提升Spark结构化流文件数据源读取性能方法及装置
技术领域
本发明涉及大数据技术领域,具体涉及一种提升Spark Structured Streaming文件数据源读取性能的方法以及装置。
背景技术
Spark Structured Streaming(Spark结构化流)是用于实时数据处理的大数据计算引擎,可针对海量数据进行计算、分析。
使用Spark Structured Streaming监控文件目录时,目录下的文件会源源不断的增加,由于Spark Structured Streaming在每个批次读取数据时,需要列出目录下的所有文件,以遍历最新的文件进行实时读取。这就带来了以下问题:
(1)、每个批次都需要列出目录下所有文件,如果文件数量非常多,很有可能会导致内存溢出;
(2)、遍历所有文件,成本开销大,降低实时处理的性能;
(3)、当手工清理目录下已经处理完成的文件时,面临无法识别哪些文件已经处理完成的问题。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本发明通过在生成数据源文件的时候,同步生成一份描述文件的基本信息的元数据,存储在专用的元数据文件中。每个批次在读取文件时,只需要遍历该元数据文件即可。同时,增加数据清理的逻辑,将已完成处理的文件执行删除或者移动至备份的目录,减少文件数据源目录下的文件数量,提升了读取性能。
为实现上述目的,提供了如下方案:
一种提升Spark Structured Streaming文件数据源读取性能的方法,其步骤为:
(1)对新增的待监控文件数据源同步生成一份配置其基本信息的元数据文件;
(2)读取存储上一批次任务对应的文件列表以及上一批次任务消费的文件在元数据文件中偏移量的状态文件,在元数据文件中,根据此偏移量,获取待消费的文件列表,进行处理;
(3)读取状态文件列表,根据清理策略对上一批次的文件进行数据清理,并更新状态文件。
进一步的,将上述步骤发布为二进制jar包,在项目中调用,经过开发提交至spark的集群运行。
进一步的,将上述元数据文件和状态文件的路径作为改造过的Spark StructuredStreaming的FileStreamSource数据源类的构造参数来用于读取文件列表;
进一步的,如果清理策略为删除,则删除上一批次对应的数据文件。如果清理策略为移动,则将上一批次对应的已完成处理的文件移动至已设置的目录进行备份;
进一步的,上述生成的元数据文件包括文件名、文件大小、修改时间、文件的状态等基本信息。
本发明还提供一种提升Spark Structured Streaming文件数据源读取性能的装置,包括:
元数据生成模块,用于对新批次的待监控数据源文件同步生成一份元数据文件;
数据源读取模块,用于读取存储上一批次任务对应的文件列表以及上一批次任务消费的文件在元数据文件中偏移量的状态文件,在元数据文件中,根据此偏移量,获取待消费的文件列表,进行处理;
数据源清理模块,用于根据状态文件列表,根据清理策略对上一批次的文件进行数据清理,并更新状态文件。
本发明实施例在每个批次的任务执行完成后,只需要在检查点文件中保存已完成处理的文件在元数据文件中的偏移量,而不需要保存所有的已完成文件的列表,大幅降低检查点文件的大小。每个批次的任务,在获取最新的文件时,不需要列出数据源目录的所有文件,只需要从上一次消费的元数据文件的偏移量开始读取文件列表。文件清理逻辑减少了数据源目录下文件的数量,提升了每个批次数据读取的性能和稳定性,避免文件过多导致性能下降甚至内存溢出。
附图说明
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
图1是本发明实施例中一种提升Spark Structured Streaming文件数据源读取性能的方法和装置的数据源读取流程图;
图2是本发明实施例中一种提升Spark Structured Streaming文件数据源读取性能的方法和装置的偏移量说明图。
图3是本发明实施例中一种提升Spark Structured Streaming文件数据源读取性能的方法和装置的项目实施流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
如前所述,Spark Structured Streaming在读取监控文件目录时,目录下的文件会源源不断的增加,如果遍历所有文件的话,那么当文件数量非常多的时候,很有可能会导致内存溢出;而且,成本开销会很大,降低实时处理的性能;其次,在当手工清理目录下已经处理完成的文件时,面临无法识别哪些文件已经处理完成的问题。
为了提高数据处理效率,减少处理工作量,降低成本,本发明实施例提供一种提升Spark Structured Streaming文件数据源读取性能的方法,如图1所示,该方法可以包括以下步骤:
(1)对新增的待监控文件数据源同步生成一份配置其基本信息的元数据文件;
(2)读取存储上一批次任务对应的文件列表以及上一批次任务消费的文件在元数据文件中偏移量的状态文件,在元数据文件中,根据此偏移量,获取待消费的文件列表,进行处理;
(3)读取状态文件列表,根据清理策略对上一批次的文件进行数据清理,并更新状态文件。
具体实施时,新增一个专用的文件或者目录,存储文件的基本信息,包括文件名、文件大小、修改时间等元数据信息。
数据在写入Spark Structured Streaming的监控目录时,在元数据文件中生成一条该文件的记录。
配置示例可参考如下:
{"path":"/data/Input/part001.csv","size":34,"modificationTime":1599100115000}
{"path":"/data/Input/part002.csv","size":134,"modificationTime":1599100116022}
{"path":"/data/Input/part003.csv","size":37,"modificationTime":1599100117045}
必须保证在生成数据源文件的时候,同步生成一份元数据。
实施例中,在读取文件列表时,新增Spark Structured Streaming的文件数据源类,该类基于原生的FileStreamSource的数据源类(注:该类是实时监控输入目录的核心功能类)进行改造。将元数据文件路径和状态文件的路径作为构造参数。
如下,红色部分的metaPath和statusPath参数为新增的参数,metaPath指定元数据文件的路径,statusPath指定状态文件的路径。
class FileStreamSourceNew(
sparkSession:SparkSession,
path:String,
fileFormatClassName:String,
override val schema:StructType,
partitionColumns:Seq[String],
metaPath:String,
statusPath:String,
options:Map[String,String])
在读取数据时,从元数据文件读取文件列表,从状态文件读取上一个批次任务对应的文件列表以及上一批次的任务消费的文件在元数据文件中的偏移量(对偏移量的说明见图3)。
状态文件的格式示例:
{"batchid":122,"offset":145,"files":["/data/a11.json","/data/a22.json","/data/a33.json"]}
Batchid指定上一个批次的编号。offset指定了上一批次的任务消费的文件在元数据文件中的偏移量。Files指定了上一个批次消费的文件列表。
实施例中,当Structured Streaming每个批次的任务启动后,从文件列表中筛选未处理的文件进行消费。
在状态文件中,存储的是上一批次任务消费的文件列表在元数据文件的中的偏移量。本次消费时,从上一次提交的偏移量开始读取文件列表即可。这样可避免读取元数据文件中的所有的文件列表,因为文件数过多,将导致文件列表非常大,读取时需要消耗更多的CPU和内存资源,甚至可能会内存溢出。简单说,通过偏移量读取数据,可避免把整个文件加载到内存,从而避免文件过大导致的内存溢出。
具体实施时,在数据源的类中,增加一个方法,在该方法中进行任务完成的通知以及数据源的清理。
(1)、获取数据清理的方式
在数据源的options参数(该参数即步骤中第二步的构造参数)中获取数据源清理的方式。
(2)、清理文件
从状态文件中,获取上一个批次任务对应的状态文件列表。
如果清理策略为删除,则删除这个批次对应的数据文件,其代码为:
val stream=spark.readStream
.option(Map(
"clean"->"delete",//参数:表示将已处理的文件删除。
).csv("/data/csv")//注释部分:监控/data/csv目录下的文件。
这里以csv为例,还可以监控orc、parquet、json、text等多种文件格式的目录。
如果清理策略为移动,则还需要从上面options参数中获取文件移动至哪个目录,然后将这个批次对应的已完成处理的文件移动至该目录进行备份。其代码为:
>"move",//参数1:表示将已处理的文件移动至备份目录。
"archiveDir"->"file:///tmp/aa"//参数2:配置备份目录的路径
).format("org.spark.userdefined.filesource").
load("/data/csv")//注释部分:监控/data/csv目录下的文件。
这里以csv为例,还可以监控orc、parquet、json、text等多种文件格式的目录。
(3)、更新状态文件
完成任务消费后,更新状态文件,将本批次的数据写入状态文件。包括当前批次的编号,当前批次消费的文件在元数据文件中的偏移量,以及当前批次对应的文件列表。当前批次的状态文件供下一个批次的任务读取并使用。
例如:
{"batchid":123,"offset":146,"files":["/data/a11.json","/data/a22.json","/data/a33.json"]}
通过上面的流程,实现了一个具备元数据管理和文件清理功能的数据源,将上面实现的代码发布为具体的二进制jar包。在任何需要该功能的项目中,引用上面生成的jar包,进行数据开发。
可以构建为spark的执行jar包,按照Spark任务提交的规范,提交至spark的集群运行。具体流程见图3。
基于同一发明构思,本发明实施例中还提供了一种提升Spark StructuredStreaming文件数据源读取性能的装置,由于其原理与一种提升Spark StructuredStreaming文件数据源读取性能的方法相似,因此一种提升Spark Structured Streaming文件数据源读取性能的装置的实施可以参见上述用于一种提升Spark StructuredStreaming文件数据源读取性能的方法的实施,重复之处不再赘述。以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
一种提升Spark Structured Streaming文件数据源读取性能的装置,包括:
元数据生成模块,用于对新批次的待监控数据源文件同步生成一份元数据文件;
数据源读取模块,用于读取存储上一批次任务对应的文件列表以及上一批次任务消费的文件在元数据文件中偏移量的状态文件,在元数据文件中,根据此偏移量,获取待消费的文件列表,进行处理;
数据源清理模块,用于根据状态文件列表,根据清理策略对上一批次的文件进行数据清理,并更新状态文件。
本发明实施例提供技术方案可以达到的有益技术效果是:通过在生成数据源文件的时候,同步生成一份描述文件的基本信息的元数据,并存储在专用的元数据文件中。每个批次在读取文件时,只需要遍历该元数据文件即可。同时,文件清理逻辑减少了数据源目录下文件的数量,提升了每个批次数据读取的性能和稳定性,避免文件过多导致性能下降甚至内存溢出。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.提升Spark结构化流文件数据源读取性能方法,其特征在于,包括以下步骤:
(1)对新增的待监控文件数据源同步生成一份配置其基本信息的元数据文件;
(2)读取存储上一批次任务对应的文件列表以及上一批次任务消费的文件在元数据文件中偏移量的状态文件,在元数据文件中,根据此偏移量,获取待消费的文件列表,进行处理;
(3)读取状态文件列表,根据清理策略对上一批次的文件进行数据清理,并更新状态文件。
2.根据权利要求1所述的提升Spark结构化流文件数据源读取性能方法,其特征在于:
将上述步骤发布为二进制jar包,在项目中调用,经过开发提交至spark的集群运行。
3.根据权利要求1所述的提升Spark结构化流文件数据源读取性能方法,其特征在于:
将上述元数据文件和状态文件的路径作为改造过的Spark Structured Streaming的FileStreamSource数据源类的构造参数来用于读取文件列表;
4.根据权利要求1所述的提升Spark结构化流文件数据源读取性能方法,其特征在于:
如果清理策略为删除,则删除上一批次对应的数据文件。
如果清理策略为移动,则将上一批次对应的已完成处理的文件移动至已设置的目录进行备份;
5.根据权利要求1所述的提升Spark结构化流文件数据源读取性能方法,其特征在于:
上述生成的元数据文件包括文件名、文件大小、修改时间、文件的状态等基本信息。
6.一种提升Spark结构化流文件数据源读取性能装置,其特征在于,该装置包括:
元数据生成模块,用于对新批次的待监控数据源文件同步生成一份元数据文件;
数据源读取模块,用于读取存储上一批次任务对应的文件列表以及上一批次任务消费的文件在元数据文件中偏移量的状态文件,在元数据文件中,根据此偏移量,获取待消费的文件列表,进行处理;
数据源清理模块,用于根据状态文件列表,根据清理策略对上一批次的文件进行数据清理,并更新状态文件。
CN202011271625.3A 2020-11-13 2020-11-13 提升Spark结构化流文件数据源读取性能方法及装置 Pending CN112269765A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011271625.3A CN112269765A (zh) 2020-11-13 2020-11-13 提升Spark结构化流文件数据源读取性能方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011271625.3A CN112269765A (zh) 2020-11-13 2020-11-13 提升Spark结构化流文件数据源读取性能方法及装置

Publications (1)

Publication Number Publication Date
CN112269765A true CN112269765A (zh) 2021-01-26

Family

ID=74339078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011271625.3A Pending CN112269765A (zh) 2020-11-13 2020-11-13 提升Spark结构化流文件数据源读取性能方法及装置

Country Status (1)

Country Link
CN (1) CN112269765A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092676A (zh) * 2017-04-18 2017-08-25 广东浪潮大数据研究有限公司 一种数据处理方法及装置
US20170277772A1 (en) * 2016-03-15 2017-09-28 International Business Machines Corporation Providing global metadata in a cluster computing environment
CN108595483A (zh) * 2018-03-13 2018-09-28 腾讯科技(深圳)有限公司 数据处理方法及相关装置
CN110618860A (zh) * 2019-09-09 2019-12-27 中盈优创资讯科技有限公司 基于Spark的Kafka消费并发处理方法及装置
CN110647570A (zh) * 2019-09-20 2020-01-03 百度在线网络技术(北京)有限公司 数据处理方法、装置以及电子设备
CN110865997A (zh) * 2019-11-08 2020-03-06 国网四川省电力公司电力科学研究院 一种电力系统设备隐患在线识别方法及其应用平台
CN111526188A (zh) * 2020-04-10 2020-08-11 北京计算机技术及应用研究所 基于Spark Streaming结合Kafka确保数据零丢失的系统和方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170277772A1 (en) * 2016-03-15 2017-09-28 International Business Machines Corporation Providing global metadata in a cluster computing environment
CN107092676A (zh) * 2017-04-18 2017-08-25 广东浪潮大数据研究有限公司 一种数据处理方法及装置
CN108595483A (zh) * 2018-03-13 2018-09-28 腾讯科技(深圳)有限公司 数据处理方法及相关装置
CN110618860A (zh) * 2019-09-09 2019-12-27 中盈优创资讯科技有限公司 基于Spark的Kafka消费并发处理方法及装置
CN110647570A (zh) * 2019-09-20 2020-01-03 百度在线网络技术(北京)有限公司 数据处理方法、装置以及电子设备
CN110865997A (zh) * 2019-11-08 2020-03-06 国网四川省电力公司电力科学研究院 一种电力系统设备隐患在线识别方法及其应用平台
CN111526188A (zh) * 2020-04-10 2020-08-11 北京计算机技术及应用研究所 基于Spark Streaming结合Kafka确保数据零丢失的系统和方法

Similar Documents

Publication Publication Date Title
US10558615B2 (en) Atomic incremental load for map-reduce systems on append-only file systems
CN109634774B (zh) 数据备份、恢复方法及装置
CN107590054B (zh) 船舶服务器日志监控系统
CN107545015B (zh) 一种查询故障的处理方法及处理装置
JP2017521778A (ja) データ品質例外を処理するための方法、コンピュータ・プログラム、および例外エンジン
CN114327678A (zh) 一种支持多引擎的实时数据处理系统及方法
US20230281179A1 (en) Load Balancing For A Storage System
GB2378546A (en) Automatic configuration of performance management software
CN104866951B (zh) 业务流程中的业务信息更新方法和系统
CN112860412B (zh) 业务数据处理方法、装置、电子设备及存储介质
CN112269765A (zh) 提升Spark结构化流文件数据源读取性能方法及装置
CN112507171A (zh) 一种任务调度方法、智能终端及存储介质
CN111984196A (zh) 一种文件迁移方法、装置、设备及可读存储介质
CN113986942B (zh) 一种基于人机对话的消息队列管理方法及装置
CN111488117A (zh) 用于管理元数据的方法、电子设备和计算机可读介质
CN115470082A (zh) Oracle数据库的日志断点和日志文本数据采集方法
CN113986937A (zh) 一种客户端数据更新的方法、系统和介质
CN111813575A (zh) 一种基于容器服务的定制化清理方法及系统
CN111966655A (zh) 日志采集过程中管理内存中文件对象的方法和装置
CN112286767A (zh) 一种Redis缓存分析方法
CN110659042A (zh) 一种服务器固件管理方法与装置
JPH1165895A (ja) ロギングファイル管理システム及び管理方法
CN115333939A (zh) 支持边缘计算的物联网网关的运行控制方法、设备及介质
JP2010262587A (ja) データ変換プログラム、データ変換方法、およびデータ変換装置
CN115455017A (zh) 一种基于FlinkSQL的SQL一致性状态恢复装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210126

RJ01 Rejection of invention patent application after publication