CN108664314B

CN108664314B - 大数据处理流程模块化管理方法及装置

Info

Publication number: CN108664314B
Application number: CN201710195401.0A
Authority: CN
Inventors: 徐畅; 贾文龙; 李帅成
Original assignee: City University of Hong Kong CityU
Current assignee: City University of Hong Kong CityU
Priority date: 2017-03-29
Filing date: 2017-03-29
Publication date: 2023-10-13
Anticipated expiration: 2037-03-29
Also published as: CN108664314A

Abstract

本发明提供了一种大数据处理流程模块化管理方法及装置，其中，方法包括：将流程分解成一个或多个相互独立的部分，每个部分作为一个模块；根据所述模块之间的依赖关系建立类树状流程结构，其中，所述类树状流程结构的中间节点具有一个或多个子节点和一个或多个父节点，所述模块与所述节点一一对应；将样本列表拆分成多个运行单位；根据配置文件、类树状流程结构和所述运行单位依次运行所述模块的脚本。本发明实现了大数据处理流程的模块化管理，支持多用户系统的中心化管理，能够动态控制流程任务。

Description

大数据处理流程模块化管理方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及计算机处理流程自动管理方法，具体来说就是一种大数据处理流程模块化管理方法及装置。

背景技术

近年来，随着计算机及互联网技术的快速发展，计算机日益庞大及多样化，包括生物信息在内的一些领域长期以来都面临着分析数据量大，单项分析耗时长，分析项目多，不同分析间存在依赖性不能单纯地同时进行等挑战。尽管计算机性能发展迅速，但这些挑战会因数据采集量的持续增大而存在。

面对分析数据量大、单项分析耗时长、分析项目多、不同分析间存在依赖性不能单纯地同时进行等问题，各式各样的大数据流程处理方法横空出世。但现有的流程处理方法不能提供针对流程系统性地操作，也不能真正的将具体流程实例从流程管理程序中抽离出来而形成一种通用化的流程管理框架。例如现有流程管理方法将流程设计成“硬代码”，利用该方法一旦建立流程处理框架，在流程和算法选择上一般不会发生改变，改变的只是数据，因此这种方法只能解决单一流程、单一项目，不能模块化，难以替换流程中的某项分析，无法动态控制流程任务。

因此，本领域技术人员亟需研发出一种支持多用户同时进行、能够动态控制流程任务的大数据处理流程管理方法。

发明内容

有鉴于此，本发明要解决的技术问题在于提供一种大数据处理流程模块化管理方法及装置，解决了现有数据处理流程不支持多用户系统中心化管理、缺乏流程任务动态控制的问题。

为了解决上述技术问题，本发明的具体实施方式提供一种大数据处理流程模块化管理方法，包括：将流程分解成一个或多个相互独立的部分，每个部分作为一个模块；根据所述模块之间的依赖关系建立类树状流程结构，其中，所述类树状流程结构的中间节点具有一个或多个子节点和一个或多个父节点，所述模块与所述节点一一对应；将样本列表拆分成多个运行单位；根据配置文件、类树状流程结构和所述运行单位依次运行所述模块的脚本。

本发明的具体实施方式还提供一种大数据处理流程模块化管理装置，包括：分解单元，用于将流程分解成一个或多个相互独立的部分，每个部分作为一个模块；建立单元，用于根据所述模块之间的依赖关系建立类树状流程结构，其中，所述类树状流程结构的中间节点具有一个或多个子节点和一个或多个父节点，所述模块与所述节点一一对应；第一拆分单元，用于将样本列表拆分成多个运行单位；处理单元，用于根据配置文件、类树状流程结构和所述运行单位依次运行所述模块的脚本。

根据本发明的上述具体实施方式可知，大数据处理流程模块化管理方法及装置至少具有以下有益效果：根据模块(每个模块拥有一个脚本，通过复用模块的脚本，一个流程可以适用于多个项目的数据处理)之间的关系，建立类树状流程结构；根据运行单位及配置文件运行模块的脚本，从而实现了大数据处理流程的模块化管理，支持多用户系统的中心化管理，能够动态控制流程任务，可以对流程进行实时判断，并向用户反馈shell脚本的运行状态信息(例如shell脚本的完成情况及资源占用情况等)，以便流程意外终止时，用户及时采取必要措施，安全可靠。

应了解的是，上述一般描述及以下具体实施方式仅为示例性及阐释性的，其并不能限制本发明所欲主张的范围。

附图说明

下面的所附附图是本发明的说明书的一部分，其绘示了本发明的示例实施例，所附附图与说明书的描述一起用来说明本发明的原理。

图1为本发明具体实施方式提供的一种大数据处理流程模块化管理方法的实施例一的流程图；

图2为本发明具体实施方式提供的一种大数据处理流程模块化管理方法的实施例二的流程图；

图3为本发明具体实施方式提供的一种大数据处理流程模块化管理方法的实施例三的流程图；

图4为本发明具体实施方式提供的一种大数据处理流程模块化管理方法的实施例四的流程图；

图5为本发明具体实施方式提供的一种大数据处理流程模块化管理装置的实施例一的示意框图；

图6为本发明具体实施方式提供的一种大数据处理流程模块化管理装置的实施例二的示意框图；

图7为本发明具体实施方式提供的一种大数据处理流程模块化管理装置的实施例三的示意框图；

图8为本发明具体实施方式提供的一种大数据处理流程模块化管理装置的实施例四的示意框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面将以附图及详细叙述清楚说明本发明所揭示内容的精神，任何所属技术领域技术人员在了解本发明内容的实施例后，当可由本发明内容所教示的技术，加以改变及修饰，其并不脱离本发明内容的精神与范围。

本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。另外，在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。

关于本文中所使用的“第一”、“第二”、…等，并非特别指称次序或顺位的意思，也非用以限定本发明，其仅为了区别以相同技术用语描述的元件或操作。

关于本文中所使用的方向用语，例如：上、下、左、右、前或后等，仅是参考附图的方向。因此，使用的方向用语是用来说明并非用来限制本创作。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

关于本文中所使用的“及/或”，包括所述事物的任一或全部组合。

关于本文中所使用的用语“大致”、“约”等，用以修饰任何可以微变化的数量或误差，但这些微变化或误差并不会改变其本质。一般而言，此类用语所修饰的微变化或误差的范围在部分实施例中可为20％，在部分实施例中可为10％，在部分实施例中可为5％或是其他数值。本领域技术人员应当了解，前述提及的数值可依实际需求而调整，并不以此为限。

某些用以描述本申请的用词将于下或在此说明书的别处讨论，以提供本领域技术人员在有关本申请的描述上额外的引导。

图1为本发明具体实施方式提供的一种大数据处理流程模块化管理方法的实施例一的流程图，如图1所示，首先将流程分解成相互独立的模块，再根据模块之间的依赖关系建立类树状流程结构，最后运行类树状流程结构中模块脚本生成的shell脚本。

该附图所示的具体实施方式中，大数据处理流程模块化管理方法包括：

步骤101：将流程分解成一个或多个相互独立的部分，每个部分作为一个模块。每个模块相互独立，各司其职，并且根据流程步骤，可知这些模块之间存在相互依赖关系。

步骤102：根据所述模块之间的依赖关系建立类树状流程结构，其中，所述类树状流程结构的中间节点具有一个或多个子节点和一个或多个父节点，所述模块与所述节点一一对应。具体来说，非中间节点指根节点和终端子节点，类树状流程结构的其它节点均为中间节点，根节点具有一个或多个子节点，终端子节点具有一个或多个父节点，中间节点具有一个或多个子节点和一个或多个父节点。模块分布在节点上，即模块与节点一一对应。类树状流程结构不是严格意义上的树状图，类树状流程结构可以具有一个或多个根节点。

步骤103：将样本列表拆分成多个运行单位。运行单位可以并行处理，并且相互独立，有多少个运行单位，就需要运行多少次模块的脚本。

步骤104：根据配置文件、类树状流程结构和所述运行单位依次运行所述模块的脚本。本发明的具体实施例中，样本列表的类型具体包括：文件路径、测序文库名、测序样本编号和患者编号等；所述配置文件以JSON格式存储。

本发明的具体实施例中，步骤104具体包括：根据所述配置文件和所述运行单位运行父节点对应的模块的脚本；根据所述配置文件和所述运行单位运行所述父节点的子节点对应的模块的脚本。

运行子节点对应模块的脚本时，无需等待所有父节点对应模块的脚本完成运行，只需要等待与其相关的父节点对应的模块脚本以及可能生成的shell脚本执行完毕，即等待与当前运行单位相关的父节点的任务完成。例如，如果要运行1号病人和2号病人的任务，那么父节点1号病人的任务完成之后就可以开始子节点1号病人的任务了，不需要等待父节点2号病人的任务完成。实现了进一步的任务并行化，减少实际计算时间，省下了一些不必要的系统空闲时间。

“样本列表”指代描述流程所需处理的源文件的“元数据”(即描述数据的数据)。例如，生物信息领域中对测序数据的预处理需要阅读每份测序结果所对应的元数据，类型包括：文件路径、测序文库名、测序样本编号及类型、患者编号等。元数据的这些类型都可能作为模块的“运行单位”。

另外，模块的运行可以基于不同的运行单位。例如，测序数据与参考基因组的比对是对每份测序数据进行分析。而分析体细胞突变的模块的运行以患者为单位，它需要读取多份针对某患者的测序数据。确定运行单位对于模块的运行是必须的，同时可以利用运行单位的概念实现任务并行化。

参见图1，将流程模块化，并根据需求运行模块的脚本，可以实现任务的并行化处理，一个流程可以适用于多个项目的数据处理，能够动态控制流程任务，用户可以以相对少的人工迅速开发并部署流程。

通常情况下，每个模块拥有一个脚本，其主要功能是生成模块下属任务的Shell脚本，这些脚本是真正处理分析、耗费时间及计算资源的任务。流程需要等待模块脚本运行完成，那么运行时间过长的模块脚本会使一个流程的程序实例长时间占用数据库导致流程不能完成定期监控，或是在多用户模式下阻碍其他用户的任务提交，因此模块脚本只应用来完成生成shell脚本或返回提交shell脚本时的参数等简单任务。

模块脚本由开发者自行编写，所以开发者可以实现所需的任何功能。不对脚本的编写语言进行要求。为了减少开发者的工作量，并基于每个模块的运行以此模块的运行单位为最小单位的概念，开发者编写的模块脚本仅需要生成处理单一运行单位的shell脚本。在处理流程时，模块会被拆分为单独的单位运行，即模块脚本为每一单位运行一次。除模块自定义的参数以外，框架默认为脚本提供三种参数：

1.流程的工作空间，为一文件夹路径，在流程配置文件中需要填写，这一参数可以帮助模块脚本在文件系统的处理上避免使用定义绝对路径的硬代码。

2.样本列表中与运行单位相关的部分，为一文件路径。接收新提交的流程时，会按照定义的运行单位将样本列表拆分。在为每个运行单位运行模块脚本时，只会为其提供运行本单位所需要的样本列。这一机制避免用户在模块脚本内实现拆分的功能，也方便了运行单位间的隔离以便并行处理。

3.shell脚本的生成位置，为一文件路径。具体路径由综合用户在配置文件中填写的存放shell脚本的文件夹与模块的名称、运行单位的名称决定，流程仅运行其按上述规则确定的shell脚本名称，模块脚本若生成其余文件，流程不会对它们进行提交。

如果用户对自己即将运行的任务所占用的计算资源有所预估，模块脚本可以以向标准输出流(standard output,or stdout)或标准错误输出流(standard error,orstderr)打印字符串的方法返回对任务资源占用的预估(例如对最高内存占用的估计，这可以帮助一些市面上的任务管理程序更有效地为任务排程)，若与流程运行程序对接的任务管理程序提供声明资源占用量的功能，流程运行程序会在提交任务时相应地做出这些声明。

在一些特殊情况下，模块脚本会决定不生成shell脚本。类似的，脚本可以返回流程运行程序规定的用来声明在最后时刻不生成shell脚本的控制信息，流程运行程序读入控制信息后便不会试图提交shell脚本。

模块脚本通常可以复用，因为标准化的流程在确定下来后不会频繁更改。所以一个流程可以适用于多个项目的数据处理。

图2为本发明具体实施方式提供的一种大数据处理流程模块化管理方法的实施例二的流程图，如图2所示，为了缩短处理时间，模块的脚本生成一个或多个可以并行运行的shell脚本。

该附图所示的具体实施方式中，步骤104之后，该方法还包括：

步骤105：所述模块的脚本生成一个或多个进行具体计算任务的shell脚本。

参见图2，shell脚本能够并行运行，并且可以进一步拆分成多个并行运行的子shell脚本，从而实现任务的并行化处理，节省了大量的计算时间，提高了处理效率，提高用户体验度。

图3为本发明具体实施方式提供的一种大数据处理流程模块化管理方法的实施例三的流程图，如图3所示，为了让流程运行程序正常运行模块的脚本，需要事先获取控制shell脚本执行的控制指令数据。

步骤106：所述模块的脚本反馈所述shell脚本的控制指令数据。所述控制指令数据具体包括：shell脚本的内存占用量、shell脚本的CPU占用量、shell脚本的运行时间、shell脚本的生成指令和shell脚本的拆分指令等。其中，模块的脚本通过shell脚本的生成指令告知流程运行主程序，模块的脚本是否会生成shell脚本；模块的脚本通过shell脚本的拆分指令告知流程运行主程序，shell脚本以多少行为单位进行拆分。

参见图3，模块的脚本生成shell脚本的控制指令数据，在系统后台基于控制指令数据执行shell脚本。

本发明的具体实施例中，在步骤106之后，该方法还包括：根据所述控制指令数据在系统后台运行所述shell脚本。

图4为本发明具体实施方式提供的一种大数据处理流程模块化管理方法的实施例四的流程图，如图4所示，用户可以时刻获得shell脚本的运行状态信息，便于用户掌握流程运行状况。

该附图所示的具体实施方式中，步骤106之后，该方法还包括：

步骤107：检测所述shell脚本的运行情况，并向用户反馈所述shell脚本的运行状态信息。其中，运行状态信息具体包括：shell脚本的完成情况以及计算资源的占用情况等。本发明的具体实施例中，通过短信或邮件方式向用户反馈shell脚本的运行状态信息。

参见图4，向用户反馈shell脚本的运行情况，用户能够快速浏览流程的运行状况，节省用户时间，提高用户体验。

本发明的具体实施方式中，在步骤105之后，大数据处理流程模块化管理方法还包括：将所述shell脚本拆分成多个并行运行的子shell脚本。由于shell脚本中可能包含有互相独立的几行命令，因此可以将每一行命令单独生成一个子shell脚本，让几个“子shell脚本”并行运行。shell脚本可以继续分割，从而达到进一步的并行化处理，进一步缩短数据处理时间。

图5为本发明具体实施方式提供的一种大数据处理流程模块化管理装置的实施例一的示意框图，如图5所示的装置可以应用到图1～图4所示的方法中，首先分解单元将流程分解成相互独立的模块，建立单元根据模块之间的依赖关系建立类树状流程结构，最后处理单元运行类树状流程结构中模块脚本生成的shell脚本。

该附图所示的具体实施方式中，大数据处理流程模块化管理装置包括分解单元1、建立单元2、第一拆分单元3和处理单元4。其中，分解单元1用于将流程分解成一个或多个相互独立的部分，每个部分作为一个模块；建立单元2用于根据所述模块之间的依赖关系建立类树状流程结构，其中，所述类树状流程结构的中间节点具有一个或多个子节点和一个或多个父节点，所述模块与所述节点一一对应；第一拆分单元3用于将样本列表拆分成多个运行单位；处理单元4用于根据配置文件、类树状流程结构和所述运行单位依次运行所述模块的脚本。

进一步地，处理单元4具体包括第一处理子单元和第二处理子单元，其中，第一处理子单元用于根据所述配置文件和所述运行单位运行父节点对应的模块的脚本；第二处理子单元用于根据所述配置文件和所述运行单位运行所述父节点的子节点对应的模块的脚本。

参见图5，将流程模块化，并根据需求运行模块的脚本，可以实现任务的并行化处理，一个流程可以适用于多个项目的数据处理，能够动态控制流程任务，用户可以以相对少的人工迅速开发并部署流程。

图6为本发明具体实施方式提供的一种大数据处理流程模块化管理装置的实施例二的示意框图，如图6所示，为了缩短处理时间，模块的脚本生成一个或多个可以并行运行的shell脚本。

该附图所示的具体实施方式中，大数据处理流程模块化管理装置包括生成单元5，其中，生成单元5用于利用所述模块的脚本生成一个或多个进行具体计算任务的shell脚本。

参见图6，shell脚本能够并行运行，并且可以进一步拆分成多个并行运行的子shell脚本，从而实现任务的并行化处理，节省了大量的计算时间，提高了处理效率，提高用户体验度。

图7为本发明具体实施方式提供的一种大数据处理流程模块化管理装置的实施例三的示意框图，如图7所示，为了让流程运行程序正常运行模块的脚本，需要事先获取控制shell脚本执行的控制指令数据。

该附图所示的具体实施方式中，大数据处理流程模块化管理装置还包括第一反馈单元6，其中，第一反馈单元6用于利用所述模块的脚本反馈所述shell脚本的控制指令数据。

参见图7，模块的脚本生成shell脚本的控制指令数据，在系统后台基于控制指令数据执行shell脚本。

本发明的具体实施例中，大数据处理流程模块化管理装置还包括执行单元，其中，执行单元用于根据所述控制指令数据在系统后台运行所述shell脚本。

图8为本发明具体实施方式提供的一种大数据处理流程模块化管理装置的实施例四的示意框图，如图8所示，用户可以时刻获得shell脚本的运行状态信息，便于用户掌握流程运行状况。

该附图所示的具体实施方式中，大数据处理流程模块化管理装置还包括第二反馈单元7，其中，第二反馈单元7用于检测所述shell脚本的运行情况，并向用户反馈所述shell脚本的运行状态信息。

参见图8，向用户反馈shell脚本的运行情况，用户能够快速浏览流程的运行状况，节省用户时间，提高用户体验。

本发明具体实施中，大数据处理流程模块化管理装置还包括：第二拆分单元，其中，第二拆分单元用于将所述shell脚本拆分成多个并行运行的子shell脚本。由于shell脚本中可能包含有互相独立的几行命令，因此可以将每一行命令单独生成一个子shell脚本，让几个“子shell脚本”并行运行，从而达到进一步的并行化处理，进一步缩短数据处理时间。

本发明具体实施方式提供一种大数据处理流程模块化管理方法及装置，根据模块(每个模块拥有一个脚本，通过复用模块的脚本，一个流程可以适用于多个项目的数据处理)之间的关系，建立类树状流程结构；根据运行单位及配置文件运行模块的脚本，从而实现了大数据处理流程的模块化管理，支持多用户系统的中心化管理，能够动态控制流程任务，可以对流程进行实时判断，并向用户反馈shell脚本的运行状态信息(例如shell脚本的完成情况及资源占用情况等)，以便流程意外终止时，用户及时采取必要措施，安全可靠。

上述的本发明实施例可在各种硬件、软件编码或两者组合中进行实施。例如，本发明的实施例也可为在数据信号处理器(Digital Signal Processor，DSP)中执行上述方法的程序代码。本发明也可涉及计算机处理器、数字信号处理器、微处理器或现场可编程门阵列(Field Programmable Gate Array，FPGA)执行的多种功能。可根据本发明配置上述处理器执行特定任务，其通过执行定义了本发明揭示的特定方法的机器可读软件代码或固件代码来完成。可将软件代码或固件代码发展为不同的程序语言与不同的格式或形式。也可为不同的目标平台编译软件代码。然而，根据本发明执行任务的软件代码与其他类型配置代码的不同代码样式、类型与语言不脱离本发明的精神与范围。

以上所述仅为本发明示意性的具体实施方式，在不脱离本发明的构思和原则的前提下，任何本领域的技术人员所做出的等同变化与修改，均应属于本发明保护的范围。

Claims

1.一种大数据处理流程模块化管理方法，其特征在于，该方法包括：

将流程分解成一个或多个相互独立的部分，每个部分作为一个模块；

根据所述模块之间的依赖关系建立类树状流程结构，其中，所述类树状流程结构的中间节点具有一个或多个子节点和一个或多个父节点，所述模块与所述节点一一对应；

将样本列表拆分成多个运行单位；所述样本列表用于指代描述流程所需处理的源文件的元数据；以及

根据配置文件、类树状流程结构和所述运行单位依次运行所述模块的脚本；

根据配置文件、类树状流程结构和所述运行单位依次运行所述模块的脚本的步骤，具体包括：

根据所述配置文件和所述运行单位运行父节点对应的模块的脚本；以及

根据所述配置文件和所述运行单位运行所述父节点的子节点对应的模块的脚本。

2.如权利要求1所述的大数据处理流程模块化管理方法，其特征在于，根据配置文件、类树状流程结构和所述运行单位依次运行所述模块的脚本的步骤之后，该方法还包括：

所述模块的脚本生成一个或多个进行具体计算任务的shell脚本。

3.如权利要求2所述的大数据处理流程模块化管理方法，其特征在于，所述模块的脚本生成一个或多个进行具体计算任务的shell脚本的步骤之后，该方法还包括：

所述模块的脚本反馈所述shell脚本的控制指令数据。

4.如权利要求3所述的大数据处理流程模块化管理方法，其特征在于，所述模块的脚本反馈所述shell脚本的控制指令数据的步骤之后，该方法还包括：

根据所述控制指令数据在系统后台运行所述shell脚本。

5.如权利要求4所述的大数据处理流程模块化管理方法，其特征在于，所述模块的脚本生成一个或多个进行具体计算任务的shell脚本的步骤之后，该方法还包括：

检测所述shell脚本的运行情况，并向用户反馈所述shell脚本的运行状态信息。

6.如权利要求3所述的大数据处理流程模块化管理方法，其特征在于，所述控制指令数据具体包括：shell脚本的内存占用量、shell脚本的CPU占用量、shell脚本的运行时间、shell脚本的生成指令和shell脚本的拆分指令。

7.如权利要求2所述的大数据处理流程模块化管理方法，其特征在于，所述模块的脚本生成进行具体计算任务的shell脚本的步骤之后，该方法还包括：

将所述shell脚本拆分成多个并行运行的子shell脚本。

8.一种大数据处理流程模块化管理装置，其特征在于，该装置包括：

分解单元，用于将流程分解成一个或多个相互独立的部分，每个部分作为一个模块；

建立单元，用于根据所述模块之间的依赖关系建立类树状流程结构，其中，所述类树状流程结构的中间节点具有一个或多个子节点和一个或多个父节点，所述模块与所述节点一一对应；

第一拆分单元，用于将样本列表拆分成多个运行单位；所述样本列表用于指代描述流程所需处理的源文件的元数据；以及

处理单元，用于根据配置文件、类树状流程结构和所述运行单位依次运行所述模块的脚本；

所述处理单元具体包括：

第一处理子单元，用于根据所述配置文件和所述运行单位运行父节点对应的模块的脚本；以及

第二处理子单元，用于根据所述配置文件和所述运行单位运行所述父节点的子节点对应的模块的脚本。

9.如权利要求8所述的大数据处理流程模块化管理装置，其特征在于，该装置还包括：

生成单元，用于利用所述模块的脚本生成一个或多个进行具体计算任务的shell脚本。

10.如权利要求9所述的大数据处理流程模块化管理装置，其特征在于，该装置还包括：

第一反馈单元，用于利用所述模块的脚本反馈所述shell脚本的控制指令数据。

11.如权利要求10所述的大数据处理流程模块化管理装置，其特征在于，该装置还包括：

执行单元，用于根据所述控制指令数据在系统后台运行所述shell脚本。

12.如权利要求11所述的大数据处理流程模块化管理装置，其特征在于，该装置还包括：

第二反馈单元，用于检测所述shell脚本的运行情况，并向用户反馈所述shell脚本的运行状态信息。

13.如权利要求9所述的大数据处理流程模块化管理装置，其特征在于，该装置还包括：

第二拆分单元，用于将所述shell脚本拆分成多个并行运行的子shell脚本。