CN102902739A - 云计算环境下面向不确定数据源的工作流视图构造方法 - Google Patents

云计算环境下面向不确定数据源的工作流视图构造方法 Download PDF

Info

Publication number
CN102902739A
CN102902739A CN2012103376949A CN201210337694A CN102902739A CN 102902739 A CN102902739 A CN 102902739A CN 2012103376949 A CN2012103376949 A CN 2012103376949A CN 201210337694 A CN201210337694 A CN 201210337694A CN 102902739 A CN102902739 A CN 102902739A
Authority
CN
China
Prior art keywords
task
node
data source
preorder
task node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103376949A
Other languages
English (en)
Other versions
CN102902739B (zh
Inventor
胡海洋
刘占晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Haining Dingcheng Intelligent Equipment Co ltd
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201210337694.9A priority Critical patent/CN102902739B/zh
Publication of CN102902739A publication Critical patent/CN102902739A/zh
Application granted granted Critical
Publication of CN102902739B publication Critical patent/CN102902739B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了云计算环境下面向不确定数据源的工作流视图构造方法。本发明首先读取科学工作流的数据源图信息,并将整个数据源图视为一个完整的工作流视图,检测它的合理性。然后对数据源图进行拆分与重构时,按照四种情形处理。最后对数据源图中的任务节点进行再次合并与重构,直到数据源图中无法再进行任务节点之间的合并为止,则数据源图中最终存在的任务节点和复合任务节点将构成该数据源图的合理性视图。本发明所提供的检测方法不仅考虑到了确定数据源图中视图的合理性,更是结合了视图存在的期望支持度来检测是否可以将多个任务合并为期望支持度更大的复合任务。

Description

云计算环境下面向不确定数据源的工作流视图构造方法
技术领域
本发明属于科学工作流技术领域,涉及一种面向科学工作流不确定数据源的视图构造方法。
背景技术
近年来,随着计算机网络技术飞速发展,作为新型互联网的后端支撑基础云计算技术已开始逐步走向人类社会生活。科学工作流是一类典型的面向海量密集型数据流、以减少计算成本为目标的应用系统,它的出现为跨多类学科和跨不同地域的科研合作提供了方便。在科学工作流系统中,海量数据密集型计算与分布式资源共享彼此间协作、无隙地进行,使得具有不同领域专业知识、地理位置分布的科研工作者可跨组织合作完成相关的科学实验。科学工作流系统现已在各国的科研院所展开应用,并在生物信息学、社会关系分析、气象学、物理学等多个领域都发挥了应有的作用。在云计算环境下进行科学工作流运行时,将产生大量的中间数据和结果,对这些数据进行管理与分析有助于科研工作者对复杂、多步骤的科学实验进行描述和分析。为了保证实验结果的可重复性与可验证性,许多科学工作流系统都提供了对数据源的支持。由于复杂、大规模的科学工作流系统在运行过程中将产生大量的数据源。如何对这些海量的数据源进行有效地查询与管理现已成为科研工作者研究的重要问题之一,目前许多研究工作针对此方面展开,它们通过构造数据源视图的方式来分析数据源,从而达到缩减数据源图的规模和计算复杂度的目的。在数据源视图中,科学工作流中的任务依据数据流关系,被抽象成高阶的复合任务,从而达到隐藏不相关的源数据细节、降低数据源图规模的目的,同时在视图级进行数据查询将有效地提高查询效率。然而由于受数据采集的准确度和服务器的可靠性影响,当对数据源进行数据集成时,工作流数据的不确定性现象将会产生。一般说来,这样的数据不确定性现象可用概率的形式加以量化;在此基础上,不确定科学工作流中的数据源可被定义成活动执行的概率图形式。
目前在科学工作流视图构建技术方面的研究尚未深入,现有工作则主要集中在确定式数据源图方面;而面向不确定式数据源视图的合理性检验与构建技术方面的相关研究工作还有待进一步开展。因此本发明针对此方面进行研究,提出了在不确定数据源图中检测视图合理性的方法,并进一步基于任务间的数据流和局部期望支持度给出了构建不确定式视图的方法。
本发明方法的具体步骤是:
步骤(1)读取科学工作流的数据源图信息,包括数据源图中任务节点集、任务节点间的数据流边的集合和数据流边的存在概率。 
步骤(2)将整个数据源图视为一个完整的工作流视图,检测它的合理性,包括:
①根据数据源图中的每条输入数据流必须能够到达该数据源图的所有输出任务节点这一原则,来检测数据源图的合理性。
②数据源图中的相邻任务节点在满足条件①的情况下能否合并为一个新的复合任务、且新的复合任务存在概率是否小于未合并之前各任务节点的存在概率,如果合并后的新复合任务存在概率大于合并之前各任务节点的存在概率,则认为原来的数据源图具有不合理性。
若数据源图具有合理性,则整个数据源图被视为一个完整的工作流视图。
步骤(3) 若步骤(2)中整个数据源图将作为一个工作流视图被检测为不合理的,则按照以下两种情况重新构造该数据源图的合理性视图:
i)若数据源图因为不符合步骤(2)中的条件①,则对该数据源图按照步骤(4)进行拆分重构,从数据源图里面重新构造出合理性的视图。
ii)若数据源图不符合步骤(2)中的条件②,则找出数据源图中存在那些相邻任务节点:这些相邻任务节点在满足条件①的情况下能合并为一个新的复合任务、且新复合任务存在概率大于未合并之前各任务节点的存在概率,并将这些相邻的任务节点进行合并。
步骤(4)对数据源图进行拆分与重构时,按照如下情形处理:
情形1、对某一任务节点,若它有且仅有一个相邻的前序节点,且该任务节点与该前序节点合并后生成的复合任务的概率期望支持度大于该任务节点及前序节点的概率期望支持度,则该任务节点与其前序节点可以合并为合理的复合任务节点。
情形2、若对于某一任务节点,若它仅有一个相邻的后续节点,且该任务节点与其后续节点合并后生成的复合任务的概率期望支持度大于该任务节点及前序节点的概率期望支持度,则该任务节点可与其后续节点合并为合理的复合任务。
情形3、若某一任务节点有多个相邻前序节点,若这些前序节点中存在着某个任务节点,使得从其它前序节点出发的数据流边都能到达该前序任务节点,并且从该前序任务节点出发的、所有没有指向该任务节点的数据流边的概率和小于用户给定的经验阈值,则可对从该前序任务节点出发的、所有没有指向该任务节点的数据流边进行尝试性删除,并将这些前序节点与该任务节点进行尝试性合并,如果合并之后的复合任务的概率期望支持度大于合并前各任务节点的概率期望支持度,则这样的合并是可行的,且合并生成的复合任务是合理的。 
情形4、若数据源图中某几个任务节点具有相同的相邻前序任务集,且这些前序任务节点中的每一个节点同时所具有相同的相邻后续任务集,此外若这些任务节点与它们的前序任务集合并后生成的复合任务的概率期望支持度大于合并前的这些任务节点各自的概率期望支持度,则这些任务节点与它们的相邻前序任务节点可以合并为一个合理的复合任务。
步骤(5)重复步骤(3)对数据源图中的任务节点进行合并与重构,直到数据源图中无法再进行任务节点之间的合并为止,则数据源图中最终存在的任务节点和复合任务节点将构成该数据源图的合理性视图。
本发明所提供的云计算环境下面向不确定数据源的工作流视图构造方法由一组功能模块组成,它们包括:数据源图信息读入模块、视图遍历检测模块和不合理视图拆分重构模块。
数据源图信息读入模块读入科学工作流不确定数据源图视图的详细信息。包括数据源图的节点数目,边的数目,节点与节点、节点与边之间的关系,边的存在概率。视图所包含的节点以及边。
视图遍历检测模块将对输入的数据源图进行检测,首先将整个数据源图视为一个完整的视图,依据数据源图的输入数据流必须到达数据源图的所有输出任务节点,并对数据源图中的任务节点的概率期望支持度进行检测。若检测出是不合理的,则数据源图作为下一个模块的输入。
不合理数据源图拆分重构模块对输入的数据源图进行拆分重构。本模块首先对输入的数据源图进行遍历,统计该数据源图的输入节点和输出接点,并分别存放于输入节点集合和输出节点集合中,从输出节点中的某一任务节点开始,依次遍历该节点的前序节点,如果符合合并规则就将该节点与其前序合并为一个复合任务,直至遍历到输入节点集合中的节点,按照此方法依次遍历输出节点集合中剩余的复合任务。
与传统方法相比,本发明所提供的检测方法不仅考虑到了确定数据源图中视图的合理性,更是结合了视图存在的期望支持度来检测是否可以将多个任务合并为期望支持度更大的复合任务。
在不合理视图检测环节对实际科学工作流数据源图做出直接映射,考虑了实际情景中可能出现的各种情况。在对不合理视图拆分重构过程中总结了四种不同的合并规则,对于减少合理视图数目具有很重要的作用。
具体实施方式:
相关概念及符号说明:
={V G E G , π G L G }:不确定数据源图;
V G :不确定数据源图中节点集合;
E G :不确定数据源图中边的集合:
π G :不确定数据源图中边的概率集合;
:不确定数据源图中节点V G E G 的标签;
V:不确定数据源图中的视图;
P:复合任务;
H P (v i ,1):复合任务P中的节点v i 的一阶前序;
Q P (v i ,1):复合任务P中的节点v i 的一阶后序;
v:普通节点;
Setv):节点的集合;
本发明可用于云计算环境下处理不确定数据源图视图的检测以及重构,主要可分为两大功能:视图的检测和不合理视图的重构。
(1)假设输入的不确定数据源图为={V G E G , π G L G },V G 为图中节点集合,E G 为图中边的集合,π G 为边的概率集合,
Figure 673824DEST_PATH_IMAGE002
则定义了图中节点V G E G 的标签。图G的视图将图划分为若干个互不相交的区域,每一个区域被称为一个视图或复合任务。
G的子图是图G的部分边和节点集合,我们可以通过边的存在概率计算出子图在图G中的存在概率。
(2)对于输入的不确定数据源图G,视图遍历检测模块首先检测整个数据源图作为一个完整的视图是否具有合理性,其检测依据是视图的所有的输入数据流边都能到达该视图的所有输出任务节点。如果数据源图中的任务节点能满足上述条件,则尝试将数据源图中某些任务节点与其相邻的任务节点依照上述条件合并为一个复合任务,若合并后的复合任务的期望支持度大于合并前各任务节点的概率期望支持度,则由该数据源图所构成视图具有不合理性。
(3)若数据源图所构成视图G被检测出是不合理的,则查找出其输入节点集合和输出节点集。计算输出节点集合中的每一个任务节点的前序,按照节点前序数目从多到少进行排序。从输出节点集合中的某一个任务节点开始,依次寻找具有公共前序的任务节点,如果存在具有公共前序的节点集,则按照合并规则4(见下文)进行合并,否则顺次对输出节点集合中的任务节点进行前序遍历。对于输出节点集合中的某一任务节点的前序节点,按照该任务节点与前序节点的输入输出边的关系以及边的概率,可分为三种情况进行处理,具体的情况以及处理方式可参考下文的规则1、2、3。若符合合并规则就将该任务节点与其前序合并为一个复合任务,直至遍历到输入节点集合中的所有节点为止。
(4)重复步骤(3)按照此方法依次遍历数据源图中剩余的任务与复合任务,直到无法再进行任务节点间的合并为止;数据源图中所有的任务与复合任务将构成该数据源图的合理性视图。
合并规则的说明:
规则1:若对于某一任务节点P,其一阶前序节点有且仅有一个节点v,且该任务节点P与其前序节点v合并后的期望支持度大于该任务节点的期望支持度,则该任务节点与其前序节点可以合并为合理的复合任务。
规则2:若对于某一任务节点P,其一阶后续节点v有且仅有一个节点,且该任务节点P与其一阶后续节点v合并后的期望支持度大于该任务节点的期望支持度,则该复合任务与其一阶后续节点可以合并为合理的复合任务。
规则3:假定某一任务节点P的一阶前序为节点的集合H P (v i ,1),对于集合中的任意一点v,如果集合中的其他节点都能到达v,且v的所有没有指向任务节点P的边的概率和小于用户给定的经验阈值,则对这些边进行尝试性删除,并将集合H P (v i ,1)合并到任务节点P中,如果合并之后的复合任务的期望支持度大于合并之前各任务节点的概率期望支持度,则PH P (v i ,1)可以合并为合理的复合任务。
规则4:若某一任务节点集合Setv)中的每一个节点都具有相同的一阶前序H Set(v) (v i ,1),且这些一阶前序中的每一个节点同时具有相同的一阶后续,且节点集Setv)与其一阶前序H Set(v) (v i ,1)合并之后的复合任务的期望支持度大于合并前各任务节点的概率期望支持度,则节点集Setv)和其一阶前序H Set(v) (v i ,1)可以合并为合理的复合任务。

Claims (1)

1. 云计算环境下面向不确定数据源的工作流视图构造方法,其特征在于该方法的具体步骤:
步骤(1)读取科学工作流的数据源图信息,包括数据源图中任务节点集、任务节点间的数据流边的集合和数据流边的存在概率; 
步骤(2)将整个数据源图视为一个完整的工作流视图,检测它的合理性,包括:
①根据数据源图中的每条输入数据流必须能够到达该数据源图的所有输出任务节点这一原则,来检测数据源图的合理性;
②数据源图中的相邻任务节点在满足条件①的情况下能否合并为一个新的复合任务、且新的复合任务存在概率是否小于未合并之前各任务节点的存在概率,如果合并后的新复合任务存在概率大于合并之前各任务节点的存在概率,则认为原来的数据源图具有不合理性;
若数据源图具有合理性,则整个数据源图被视为一个完整的工作流视图;
步骤(3)若步骤(2)中整个数据源图将作为一个工作流视图被检测为不合理的,则按照以下两种情况重新构造该数据源图的合理性视图:
i)若数据源图因为不符合步骤(2)中的条件①,则对该数据源图按照步骤(4)进行拆分重构,从数据源图里面重新构造出合理性的视图;
ii)若数据源图不符合步骤(2)中的条件②,则找出数据源图中存在那些相邻任务节点:这些相邻任务节点在满足条件①的情况下能合并为一个新的复合任务、且新复合任务存在概率大于未合并之前各任务节点的存在概率,并将这些相邻的任务节点进行合并;
步骤(4)对数据源图进行拆分与重构时,按照如下情形处理:
情形1、对某一任务节点,若它有且仅有一个相邻的前序节点,且该任务节点与该前序节点合并后生成的复合任务的概率期望支持度大于该任务节点及前序节点的概率期望支持度,则该任务节点与其前序节点可以合并为合理的复合任务节点;
情形2、若对于某一任务节点,若它仅有一个相邻的后续节点,且该任务节点与其后续节点合并后生成的复合任务的概率期望支持度大于该任务节点及前序节点的概率期望支持度,则该任务节点可与其后续节点合并为合理的复合任务;
情形3、若某一任务节点有多个相邻前序节点,若这些前序节点中存在着某个任务节点,使得从其它前序节点出发的数据流边都能到达该前序任务节点,并且从该前序任务节点出发的、所有没有指向该任务节点的数据流边的概率和小于用户给定的经验阈值,则可对从该前序任务节点出发的、所有没有指向该任务节点的数据流边进行尝试性删除,并将这些前序节点与该任务节点进行尝试性合并,如果合并之后的复合任务的概率期望支持度大于合并前各任务节点的概率期望支持度,则这样的合并是可行的,且合并生成的复合任务是合理的; 
情形4、若数据源图中某几个任务节点具有相同的相邻前序任务集,且这些前序任务节点中的每一个节点同时所具有相同的相邻后续任务集,此外若这些任务节点与它们的前序任务集合并后生成的复合任务的概率期望支持度大于合并前的这些任务节点各自的概率期望支持度,则这些任务节点与它们的相邻前序任务节点可以合并为一个合理的复合任务;
步骤(5)重复步骤(3)对数据源图中的任务节点进行合并与重构,直到数据源图中无法再进行任务节点之间的合并为止,则数据源图中最终存在的任务节点和复合任务节点将构成该数据源图的合理性视图。
CN201210337694.9A 2012-09-13 2012-09-13 云计算环境下面向不确定数据源的工作流视图构造方法 Expired - Fee Related CN102902739B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210337694.9A CN102902739B (zh) 2012-09-13 2012-09-13 云计算环境下面向不确定数据源的工作流视图构造方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210337694.9A CN102902739B (zh) 2012-09-13 2012-09-13 云计算环境下面向不确定数据源的工作流视图构造方法

Publications (2)

Publication Number Publication Date
CN102902739A true CN102902739A (zh) 2013-01-30
CN102902739B CN102902739B (zh) 2015-09-02

Family

ID=47574971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210337694.9A Expired - Fee Related CN102902739B (zh) 2012-09-13 2012-09-13 云计算环境下面向不确定数据源的工作流视图构造方法

Country Status (1)

Country Link
CN (1) CN102902739B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105721211A (zh) * 2016-02-24 2016-06-29 北京格灵深瞳信息技术有限公司 一种数据处理的方法及装置
CN107886289A (zh) * 2016-09-30 2018-04-06 优甸网络科技(上海)有限公司 跨机构多方协作的流程管理机制
CN110019207A (zh) * 2017-11-02 2019-07-16 阿里巴巴集团控股有限公司 数据处理方法和装置以及脚本显示方法和装置
CN113434268A (zh) * 2021-06-09 2021-09-24 北方工业大学 一种工作流分布式调度管理系统和方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008046850A (ja) * 2006-08-15 2008-02-28 Fuji Xerox Co Ltd 文書種類判別装置及び文書種類判別プログラム
CN102012912A (zh) * 2010-11-19 2011-04-13 清华大学 一种基于云计算环境的非结构化数据的管理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008046850A (ja) * 2006-08-15 2008-02-28 Fuji Xerox Co Ltd 文書種類判別装置及び文書種類判別プログラム
CN102012912A (zh) * 2010-11-19 2011-04-13 清华大学 一种基于云计算环境的非结构化数据的管理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DONG RUAN,等: "Task Exception Handling in the VIEW Scientific Workflow System", 《2010 IEEE INTERNATIONAL CONFERENCE ON SERVICES COMPUTING》 *
彭智勇等: "基于对象代理模型的工作流视图实现", 《计算机学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105721211A (zh) * 2016-02-24 2016-06-29 北京格灵深瞳信息技术有限公司 一种数据处理的方法及装置
CN107886289A (zh) * 2016-09-30 2018-04-06 优甸网络科技(上海)有限公司 跨机构多方协作的流程管理机制
CN110019207A (zh) * 2017-11-02 2019-07-16 阿里巴巴集团控股有限公司 数据处理方法和装置以及脚本显示方法和装置
CN113434268A (zh) * 2021-06-09 2021-09-24 北方工业大学 一种工作流分布式调度管理系统和方法

Also Published As

Publication number Publication date
CN102902739B (zh) 2015-09-02

Similar Documents

Publication Publication Date Title
Batagelj et al. The emergence of a field: a network analysis of research on peer review
Yu et al. Hierarchical clustering in minimum spanning trees
Gan et al. Deep structural clustering for single-cell RNA-seq data jointly through autoencoder and graph neural network
CN112365171B (zh) 基于知识图谱的风险预测方法、装置、设备及存储介质
CN103136337A (zh) 用于复杂网络的分布式知识数据挖掘装置和挖掘方法
Luo et al. A parallel dbscan algorithm based on spark
Squazzoni et al. Is Social Simulation a Social Science Outstation?: A Bibliometric Analysis of the Impact of JASSS
CN107729555B (zh) 一种海量大数据分布式预测方法及系统
Gomes et al. An infrastructure model for smart cities based on big data
Sharma et al. Community detection algorithm for big social networks using hybrid architecture
CN102902739A (zh) 云计算环境下面向不确定数据源的工作流视图构造方法
Ali et al. Detection of gene ontology clusters using biclustering algorithms
Billah et al. Social network analysis for predicting emerging researchers
Kamal et al. ExSep: An exon separation process using neural skyline filter
Chen et al. Semantic description of social network based on ontology
Zou et al. HPTree: reconstructing phylogenetic trees for ultra-large unaligned DNA sequences via NJ model and Hadoop
Mishra et al. Applications of hadoop ecosystems tools
Kim et al. Parallel and distributed framework for standalone monte carlo simulation using mapreduce
Mazroob Semnani et al. Towards an intelligent platform for big 3d geospatial data management
Zanoon et al. Optimizing mapreduce model for big data analytics using subtractive clustering algorithm
Chen et al. Efficient and scalable graph similarity joins in mapreduce
Xie et al. A deep learning approach based on feature reconstruction and multi-dimensional attention mechanism for drug-drug interaction prediction
Yue et al. An efficient PAM spatial clustering algorithm based on MapReduce
Bayati et al. Big data analytics on large-scale socio-technical software engineering archives
Su et al. Detection of drug-drug interactions through knowledge graph integrating multi-attention with capsule network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210702

Address after: 314400 room 609, block a, 128 Shuanglian Road, Haining Economic Development Zone, Haining City, Jiaxing City, Zhejiang Province

Patentee after: Haining Dingcheng Intelligent Equipment Co.,Ltd.

Address before: 310018 No. 2 street, Xiasha Higher Education Zone, Hangzhou, Zhejiang

Patentee before: HANGZHOU DIANZI University

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150902

CF01 Termination of patent right due to non-payment of annual fee