CN102902739A

CN102902739A - 云计算环境下面向不确定数据源的工作流视图构造方法

Info

Publication number: CN102902739A
Application number: CN2012103376949A
Authority: CN
Inventors: 胡海洋; 刘占晨
Original assignee: Hangzhou Dianzi University
Current assignee: Haining Dingcheng Intelligent Equipment Co ltd
Priority date: 2012-09-13
Filing date: 2012-09-13
Publication date: 2013-01-30
Anticipated expiration: 2032-09-13
Also published as: CN102902739B

Abstract

本发明公开了云计算环境下面向不确定数据源的工作流视图构造方法。本发明首先读取科学工作流的数据源图信息，并将整个数据源图视为一个完整的工作流视图，检测它的合理性。然后对数据源图进行拆分与重构时，按照四种情形处理。最后对数据源图中的任务节点进行再次合并与重构，直到数据源图中无法再进行任务节点之间的合并为止，则数据源图中最终存在的任务节点和复合任务节点将构成该数据源图的合理性视图。本发明所提供的检测方法不仅考虑到了确定数据源图中视图的合理性，更是结合了视图存在的期望支持度来检测是否可以将多个任务合并为期望支持度更大的复合任务。

Description

云计算环境下面向不确定数据源的工作流视图构造方法

技术领域

本发明属于科学工作流技术领域，涉及一种面向科学工作流不确定数据源的视图构造方法。

背景技术

近年来，随着计算机网络技术飞速发展，作为新型互联网的后端支撑基础云计算技术已开始逐步走向人类社会生活。科学工作流是一类典型的面向海量密集型数据流、以减少计算成本为目标的应用系统，它的出现为跨多类学科和跨不同地域的科研合作提供了方便。在科学工作流系统中，海量数据密集型计算与分布式资源共享彼此间协作、无隙地进行，使得具有不同领域专业知识、地理位置分布的科研工作者可跨组织合作完成相关的科学实验。科学工作流系统现已在各国的科研院所展开应用，并在生物信息学、社会关系分析、气象学、物理学等多个领域都发挥了应有的作用。在云计算环境下进行科学工作流运行时，将产生大量的中间数据和结果，对这些数据进行管理与分析有助于科研工作者对复杂、多步骤的科学实验进行描述和分析。为了保证实验结果的可重复性与可验证性，许多科学工作流系统都提供了对数据源的支持。由于复杂、大规模的科学工作流系统在运行过程中将产生大量的数据源。如何对这些海量的数据源进行有效地查询与管理现已成为科研工作者研究的重要问题之一，目前许多研究工作针对此方面展开，它们通过构造数据源视图的方式来分析数据源，从而达到缩减数据源图的规模和计算复杂度的目的。在数据源视图中，科学工作流中的任务依据数据流关系，被抽象成高阶的复合任务，从而达到隐藏不相关的源数据细节、降低数据源图规模的目的，同时在视图级进行数据查询将有效地提高查询效率。然而由于受数据采集的准确度和服务器的可靠性影响，当对数据源进行数据集成时，工作流数据的不确定性现象将会产生。一般说来，这样的数据不确定性现象可用概率的形式加以量化；在此基础上，不确定科学工作流中的数据源可被定义成活动执行的概率图形式。

目前在科学工作流视图构建技术方面的研究尚未深入，现有工作则主要集中在确定式数据源图方面；而面向不确定式数据源视图的合理性检验与构建技术方面的相关研究工作还有待进一步开展。因此本发明针对此方面进行研究，提出了在不确定数据源图中检测视图合理性的方法，并进一步基于任务间的数据流和局部期望支持度给出了构建不确定式视图的方法。

本发明方法的具体步骤是：

步骤（1）读取科学工作流的数据源图信息，包括数据源图中任务节点集、任务节点间的数据流边的集合和数据流边的存在概率。

步骤（2）将整个数据源图视为一个完整的工作流视图，检测它的合理性，包括：

①根据数据源图中的每条输入数据流必须能够到达该数据源图的所有输出任务节点这一原则，来检测数据源图的合理性。

②数据源图中的相邻任务节点在满足条件①的情况下能否合并为一个新的复合任务、且新的复合任务存在概率是否小于未合并之前各任务节点的存在概率，如果合并后的新复合任务存在概率大于合并之前各任务节点的存在概率，则认为原来的数据源图具有不合理性。

若数据源图具有合理性，则整个数据源图被视为一个完整的工作流视图。

步骤（3）若步骤(2)中整个数据源图将作为一个工作流视图被检测为不合理的，则按照以下两种情况重新构造该数据源图的合理性视图：

i)若数据源图因为不符合步骤（2）中的条件①，则对该数据源图按照步骤(4)进行拆分重构，从数据源图里面重新构造出合理性的视图。

ii)若数据源图不符合步骤（2）中的条件②，则找出数据源图中存在那些相邻任务节点：这些相邻任务节点在满足条件①的情况下能合并为一个新的复合任务、且新复合任务存在概率大于未合并之前各任务节点的存在概率，并将这些相邻的任务节点进行合并。

步骤(4)对数据源图进行拆分与重构时，按照如下情形处理：

情形1、对某一任务节点，若它有且仅有一个相邻的前序节点，且该任务节点与该前序节点合并后生成的复合任务的概率期望支持度大于该任务节点及前序节点的概率期望支持度，则该任务节点与其前序节点可以合并为合理的复合任务节点。

情形2、若对于某一任务节点，若它仅有一个相邻的后续节点，且该任务节点与其后续节点合并后生成的复合任务的概率期望支持度大于该任务节点及前序节点的概率期望支持度，则该任务节点可与其后续节点合并为合理的复合任务。

情形3、若某一任务节点有多个相邻前序节点，若这些前序节点中存在着某个任务节点，使得从其它前序节点出发的数据流边都能到达该前序任务节点，并且从该前序任务节点出发的、所有没有指向该任务节点的数据流边的概率和小于用户给定的经验阈值，则可对从该前序任务节点出发的、所有没有指向该任务节点的数据流边进行尝试性删除，并将这些前序节点与该任务节点进行尝试性合并，如果合并之后的复合任务的概率期望支持度大于合并前各任务节点的概率期望支持度，则这样的合并是可行的，且合并生成的复合任务是合理的。

情形4、若数据源图中某几个任务节点具有相同的相邻前序任务集，且这些前序任务节点中的每一个节点同时所具有相同的相邻后续任务集，此外若这些任务节点与它们的前序任务集合并后生成的复合任务的概率期望支持度大于合并前的这些任务节点各自的概率期望支持度，则这些任务节点与它们的相邻前序任务节点可以合并为一个合理的复合任务。

步骤（5）重复步骤（3）对数据源图中的任务节点进行合并与重构，直到数据源图中无法再进行任务节点之间的合并为止，则数据源图中最终存在的任务节点和复合任务节点将构成该数据源图的合理性视图。

本发明所提供的云计算环境下面向不确定数据源的工作流视图构造方法由一组功能模块组成，它们包括：数据源图信息读入模块、视图遍历检测模块和不合理视图拆分重构模块。

数据源图信息读入模块读入科学工作流不确定数据源图视图的详细信息。包括数据源图的节点数目，边的数目，节点与节点、节点与边之间的关系，边的存在概率。视图所包含的节点以及边。

视图遍历检测模块将对输入的数据源图进行检测，首先将整个数据源图视为一个完整的视图，依据数据源图的输入数据流必须到达数据源图的所有输出任务节点，并对数据源图中的任务节点的概率期望支持度进行检测。若检测出是不合理的，则数据源图作为下一个模块的输入。

不合理数据源图拆分重构模块对输入的数据源图进行拆分重构。本模块首先对输入的数据源图进行遍历，统计该数据源图的输入节点和输出接点，并分别存放于输入节点集合和输出节点集合中，从输出节点中的某一任务节点开始，依次遍历该节点的前序节点，如果符合合并规则就将该节点与其前序合并为一个复合任务，直至遍历到输入节点集合中的节点，按照此方法依次遍历输出节点集合中剩余的复合任务。

与传统方法相比，本发明所提供的检测方法不仅考虑到了确定数据源图中视图的合理性，更是结合了视图存在的期望支持度来检测是否可以将多个任务合并为期望支持度更大的复合任务。

在不合理视图检测环节对实际科学工作流数据源图做出直接映射，考虑了实际情景中可能出现的各种情况。在对不合理视图拆分重构过程中总结了四种不同的合并规则，对于减少合理视图数目具有很重要的作用。

具体实施方式：

相关概念及符号说明：

G ={V _G, E _G, π_G, L _G}：不确定数据源图；

V _G：不确定数据源图中节点集合；

E _G：不确定数据源图中边的集合：

π _G：不确定数据源图中边的概率集合；

：不确定数据源图中节点V _G、E _G的标签；

V：不确定数据源图中的视图；

P：复合任务；

H _P(v _i,1)：复合任务P中的节点v _i的一阶前序；

Q _P(v _i,1)：复合任务P中的节点v _i的一阶后序；

v：普通节点；

Set（v）：节点的集合；

本发明可用于云计算环境下处理不确定数据源图视图的检测以及重构，主要可分为两大功能：视图的检测和不合理视图的重构。

（1）假设输入的不确定数据源图为G ={V _G, E _G, π_G, L _G}，V _G为图中节点集合，E _G为图中边的集合，π_G为边的概率集合，

则定义了图中节点V _G、E _G的标签。图G的视图将图划分为若干个互不相交的区域，每一个区域被称为一个视图或复合任务。

图G的子图是图G的部分边和节点集合，我们可以通过边的存在概率计算出子图在图G中的存在概率。

（2）对于输入的不确定数据源图G，视图遍历检测模块首先检测整个数据源图作为一个完整的视图是否具有合理性，其检测依据是视图的所有的输入数据流边都能到达该视图的所有输出任务节点。如果数据源图中的任务节点能满足上述条件，则尝试将数据源图中某些任务节点与其相邻的任务节点依照上述条件合并为一个复合任务，若合并后的复合任务的期望支持度大于合并前各任务节点的概率期望支持度，则由该数据源图所构成视图具有不合理性。

（3）若数据源图所构成视图G被检测出是不合理的，则查找出其输入节点集合和输出节点集。计算输出节点集合中的每一个任务节点的前序，按照节点前序数目从多到少进行排序。从输出节点集合中的某一个任务节点开始，依次寻找具有公共前序的任务节点，如果存在具有公共前序的节点集，则按照合并规则4（见下文）进行合并，否则顺次对输出节点集合中的任务节点进行前序遍历。对于输出节点集合中的某一任务节点的前序节点，按照该任务节点与前序节点的输入输出边的关系以及边的概率，可分为三种情况进行处理，具体的情况以及处理方式可参考下文的规则1、2、3。若符合合并规则就将该任务节点与其前序合并为一个复合任务，直至遍历到输入节点集合中的所有节点为止。

（4）重复步骤（3）按照此方法依次遍历数据源图中剩余的任务与复合任务，直到无法再进行任务节点间的合并为止；数据源图中所有的任务与复合任务将构成该数据源图的合理性视图。

合并规则的说明：

规则1：若对于某一任务节点P，其一阶前序节点有且仅有一个节点v，且该任务节点P与其前序节点v合并后的期望支持度大于该任务节点的期望支持度，则该任务节点与其前序节点可以合并为合理的复合任务。

规则2：若对于某一任务节点P，其一阶后续节点v有且仅有一个节点，且该任务节点P与其一阶后续节点v合并后的期望支持度大于该任务节点的期望支持度，则该复合任务与其一阶后续节点可以合并为合理的复合任务。

规则3：假定某一任务节点P的一阶前序为节点的集合H _P(v _i,1)，对于集合中的任意一点v，如果集合中的其他节点都能到达v，且v的所有没有指向任务节点P的边的概率和小于用户给定的经验阈值，则对这些边进行尝试性删除，并将集合H _P(v _i,1)合并到任务节点P中，如果合并之后的复合任务的期望支持度大于合并之前各任务节点的概率期望支持度，则P与H _P(v _i,1)可以合并为合理的复合任务。

规则4：若某一任务节点集合Set（v）中的每一个节点都具有相同的一阶前序H _Set(v)(v _i,1)，且这些一阶前序中的每一个节点同时具有相同的一阶后续，且节点集Set（v）与其一阶前序H _Set(v)(v _i,1)合并之后的复合任务的期望支持度大于合并前各任务节点的概率期望支持度，则节点集Set（v）和其一阶前序H _Set(v)(v _i,1)可以合并为合理的复合任务。

Claims

1. 云计算环境下面向不确定数据源的工作流视图构造方法，其特征在于该方法的具体步骤：

步骤（1）读取科学工作流的数据源图信息，包括数据源图中任务节点集、任务节点间的数据流边的集合和数据流边的存在概率；

①根据数据源图中的每条输入数据流必须能够到达该数据源图的所有输出任务节点这一原则，来检测数据源图的合理性；

②数据源图中的相邻任务节点在满足条件①的情况下能否合并为一个新的复合任务、且新的复合任务存在概率是否小于未合并之前各任务节点的存在概率，如果合并后的新复合任务存在概率大于合并之前各任务节点的存在概率，则认为原来的数据源图具有不合理性；

若数据源图具有合理性，则整个数据源图被视为一个完整的工作流视图；

i)若数据源图因为不符合步骤（2）中的条件①，则对该数据源图按照步骤(4)进行拆分重构，从数据源图里面重新构造出合理性的视图；

ii)若数据源图不符合步骤（2）中的条件②，则找出数据源图中存在那些相邻任务节点：这些相邻任务节点在满足条件①的情况下能合并为一个新的复合任务、且新复合任务存在概率大于未合并之前各任务节点的存在概率，并将这些相邻的任务节点进行合并；

步骤(4)对数据源图进行拆分与重构时，按照如下情形处理：

情形1、对某一任务节点，若它有且仅有一个相邻的前序节点，且该任务节点与该前序节点合并后生成的复合任务的概率期望支持度大于该任务节点及前序节点的概率期望支持度，则该任务节点与其前序节点可以合并为合理的复合任务节点；

情形2、若对于某一任务节点，若它仅有一个相邻的后续节点，且该任务节点与其后续节点合并后生成的复合任务的概率期望支持度大于该任务节点及前序节点的概率期望支持度，则该任务节点可与其后续节点合并为合理的复合任务；

情形3、若某一任务节点有多个相邻前序节点，若这些前序节点中存在着某个任务节点，使得从其它前序节点出发的数据流边都能到达该前序任务节点，并且从该前序任务节点出发的、所有没有指向该任务节点的数据流边的概率和小于用户给定的经验阈值，则可对从该前序任务节点出发的、所有没有指向该任务节点的数据流边进行尝试性删除，并将这些前序节点与该任务节点进行尝试性合并，如果合并之后的复合任务的概率期望支持度大于合并前各任务节点的概率期望支持度，则这样的合并是可行的，且合并生成的复合任务是合理的；

情形4、若数据源图中某几个任务节点具有相同的相邻前序任务集，且这些前序任务节点中的每一个节点同时所具有相同的相邻后续任务集，此外若这些任务节点与它们的前序任务集合并后生成的复合任务的概率期望支持度大于合并前的这些任务节点各自的概率期望支持度，则这些任务节点与它们的相邻前序任务节点可以合并为一个合理的复合任务；