CN110457490B

CN110457490B - 一种基于领域本体的语义工作流索引构造及检索方法

Info

Publication number: CN110457490B
Application number: CN201910754733.7A
Authority: CN
Inventors: 孙晋永; 赵响
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2021-06-18
Anticipated expiration: 2039-08-15
Also published as: CN110457490A

Abstract

本发明公开了一种基于领域本体的语义工作流索引构造和检索方法，步骤为：1）建立语义工作流的领域任务本体和领域数据本体；2）构造语义工作流的结构特征索引：一步路径索引、数据‑工作流索引、数据‑任务索引和两步路径索引，并设计基于各索引的检索方法；3）构造语义工作流的行为特征索引：任务因果关系索引、任务并行关系索引、任务互斥关系索引和任务循环关系索引，并设计基于各索引的检索方法。4）在新语义工作流加入时，增量构造语义工作流索引；在删除语义工作流时，动态删除旧语义工作流的索引项。该方法可以提高语义工作流的检索速度和准确性，为语义工作流重用提供良好的支持，为语义工作流库的组织和管理方法提供理论依据。

Description

一种基于领域本体的语义工作流索引构造及检索方法

技术领域

本发明涉及业务过程管理技术领域，具体涉及一种基于领域本体的语义工作流索引构造及检索方法。

背景技术

业务过程的质量和运行效率是现代企业和组织在竞争中保持优势的关键因素。业务过程管理(Business process management，BPM)研究关注企业和组织的业务过程管理、分析、控制与改进，以提高业务处理效率，改进产品质量，提高服务水平。而业务过程管理技术可以被用于快速构建和更新过程感知信息系统，是现代企业和组织的信息系统的共性基础性技术。

语义工作流是一种基于领域知识的工作流，为业务工作流管理(Businessworkflow management，BWM)提供了充足的语义和数据或资源信息。它同时包含控制流和数据流，适于建模以控制流为中心，且兼顾数据流的业务过程。与传统工作流相比，语义工作流更适合建模工业环境中的生成制造过程，可以为工业大数据系统软件的开发及运行提供一定的基础支持。目前，语义工作流的应用已经涵盖了业务过程、电子商务、医疗、软件开发、科学分析和工业生产制造等领域。

随着各领域使用的语义工作流模型的大量增加，为了重用或重构业务过程而进行的相似语义工作流检索成为业务过程管理中的常见场景。如何提高相似语义工作流的检索效率是必须要解决的问题。

Bergmann等人将基于语义标注有向图结构匹配的相似性方法用于相似语义工作流检索，该方法采用遍历语义工作流库的方式进行检索，计算量较大，对于小规模工作流库，该方法可以得出满意的检索性能，对于规模较大的语义工作流库，实际上是不可行的。Forbus等人提出一种用于相似性检索的MAC/FAC(Many are called but few are chosen)模型。该模型由两个阶段构成：MAC阶段使用计算量较小的非结构匹配算法从项目池中过滤出候选项目集；FAC阶段使用结构匹配算法从候选项目集中找出最匹配的项目。近年来，许多系统都使用了这种两阶段检索方法。在图数据库领域应用这种方法成为一个趋势，比如Graphgrep，G-Hash，Periscope/GQ和gIndex，Fg-Index等。但语义工作流所对应的语义标注有向图是稀疏图，其中的频繁子图并不多，并且频繁子图不能覆盖所有的工作流模型。从而图索引的检索技术不能直接用于相似语义工作流检索。

Jin等人构造基于标签Petri网的过程模型集的变迁路径索引LnP(n为路径长度)，提出了两阶段的精确过程模型检索方法。Bergmann等人提出了基于MAC/FAC模型的两阶段相似语义工作流检索方法。MAC阶段基于语义工作流的语义特征和语法特征进行过滤，FAC阶段使用图检索方法选出最匹配的语义工作流。接着，Kendall-Morwick等人在MAC阶段建立路径索引：Path-k(k为路径长度)进行语义工作流过滤。Müller等人使用聚类方法建立索引结构，提出了基于排队的检索算法。Müller等人提出了用于POCBR的相似语义工作流检索语言POQL，可以表达泛化的检索项目。以上检索方法仅关注业务过程模型或语义工作流的结构特征，没有考虑它们的执行行为，因而检索结果集的准确性有待提高。

Jin等人构造了基于标签Petri网的过程模型集的行为特征索引TARIndex，提出了两阶段的相似过程模型检索方法。该方法关注了业务过程模型的执行行为，但不能区分循环和顺序结构。Weidlich等人指出在过程模型检索的一致性检查中应该考虑业务过程的数据和资源。由于标签Petri网不含数据流并引入领域知识，故针对标签Petri网的过程模型检索方法不能直接用于相似语义工作流检索。

其他专门用于相似语义工作流检索的研究有：Gil等人使用语义信息来增强科学工作流的组件和数据使其成为语义工作流，提出了针对给定组件和数据属性从工作流库检索匹配科学工作流的方法。该方法基于包含关系确定数据、组件等属性间的匹配，进而获得匹配工作流；提高了匹配科学工作流的检索准确性。

因而，现有的语义工作流的检索和索引方法并不能完全解决语义工作流的检索问题，比如它们无法处理语义工作流中数据-工作流或任务节点、任务循环关系检索等问题。于是针对提高语义工作流检索效率这一需求，本发明提出了一种基于领域本体语义工作流的索引构造及检索方法。

发明内容

本发明的目的在于针对现有的语义工作流索引的不足，提供一种基于领域本体的语义工作流索引构造及检索方法，该方法提高了语义工作流的检索效率，可以提高语义工作流的重用质量。

实现本发明目的的技术方案是：

一种基于领域本体的语义工作流索引构造及检索方法，包括如下步骤：

1)建立语义工作流的领域任务本体和领域数据本体：是将语义工作流库中的语义工作流任务节点的语义描述看作与任务相关的概念，利用概念间的包含关系，构建任务本体的层次结构，建立领域任务本体；将语义工作流的数据对象节点的语义描述看作与数据对象相关的概念，利用概念间的包含关系，构建数据本体的层次结构，建立领域数据本体；

2)构造语义工作流的结构特征索引SWStructIndex及其检索方法，索引SWStructIndex包括一步路径索引Path1Index、数据-工作流索引DataIndex、数据-任务索引DataTaskIndex和两步路径索引Path2Index；

2-1)一步路径索引Path1Index，由于每个索引项对应的路径中只有一个任务节点，故也称为任务索引；索引项的形式为(task,S₁)，其中task为任务节点，S₁为包含task的语义工作流集合；

一步路径索引Path1Index的构造方法为：首先，获取语义工作流库SWC中某语义工作流SW的任务节点集合TS；然后，若某任务节点task∈TS在索引Path1Index中不存在，则先新建一个索引项(task,S₁)，将SW的ID加入集合S₁中；若task已存在，则直接将SW的ID加入task对应索引项的集合S₁中；遍历SW的任务节点集合TS、语义工作流库SWC，建立索引Path1Index；在保存索引Path1Index时，不直接存储(task,S₁)，而是将Path1Index存储为(task.hashcode,S₁.pointer)，其中task.hashcode为一步路径或任务节点task的语义描述的哈希值，S₁.pointer指向语义工作流集合S₁的存储位置；

一步路径索引Path1Index的检索方法为：对于给定的查询任务节点qtask，若qtask在索引Path1Index中已存在，则直接返回qtask对应索引项的集合S₁；若qtask在索引中不存在，说明在语义工作流库SWC中不存在包含qtask的语义工作流，则基于本体中父子概念间的较高语义相似性，使用子概念代替父概念；先在领域任务本体中查询qtask的语义描述对应概念C的直接子概念C₁，然后获取包含C₁对应任务节点的语义工作流集合，遍历概念C的所有直接子概念得到多个这样的集合，最后计算这些集合的并集作为S₁返回；

2-2)数据-工作流索引DataIndex，包括输入数据-工作流索引Data_InIndex和输出数据-工作流索引Data_OutIndex两种；

i)输入数据-工作流索引Data_InIndex的索引项形式为(data_In,S₂)，其中data_In为语义工作流的输入数据对象，但不是中间数据对象(中间数据对象指由某任务节点生成，但又因被另一任务节点消耗而不再被生成的数据对象)，S₂为输入数据对象集合包含data_In的语义工作流集合；

输入数据-工作流索引Data_InIndex的构造方法为：首先，获取语义工作流库SWC中某语义工作流SW的输入数据对象集合DS_In；然后，若data_In∈DS_In在索引Data_InIndex中不存在，则新建一个索引项(data_In,S₂)，将SW的ID加入集合S₂中，若data_In已存在，则直接将SW的ID加入S₂，遍历SW的输入数据对象集合DS_In、语义工作流库SWC，建立索引Data_InIndex；在保存索引Data_InIndex时，不直接存储(data_In,S₂)，而是将Data_InIndex存储为(data_In.hashcode,S₂.pointer)，其中data_In.hashcode为数据对象data_In的语义描述的哈希值，S₂.pointer指向语义工作流集合S₂的存储位置；

输入数据-工作流索引Data_InIndex的检索方法为：对于给定的查询数据节点qdata_In，若qdata_In在索引Data_InIndex中已存在，则直接返回qdata_In对应索引项的集合S₂；若qdata_In在索引中不存在，说明SWC中不存在输入数据对象集合包含qdata_In的语义工作流，则基于本体中父子概念间的较高语义相似性，使用子概念代替父概念；先在领域数据本体中查询qdata_In的语义描述对应概念C的直接子概念C₁，然后获取输入数据对象集合包含C₁对应任务节点的语义工作流集合，遍历概念C的所有直接子概念得到多个这样的集合，最后计算这些集合的并集作为S₂返回；

ii)输出数据-工作流索引Data_OutIndex的索引项形式为(data_Out,S₃)，其中data_Out为语义工作流的输出数据对象(非中间数据对象)，S₃为输出数据对象集合包含data_Out的语义工作流集合；

输出数据-工作流索引Data_OutIndex的构造方法为：首先，获取语义工作流库SWC中某语义工作流SW的输出数据对象节点集合DS_Out；然后，若data_Out∈DS_Out在索引Data_OutIndex中不存在，则新建一个索引项(data_Out,S₃)，将SW的ID加入集合S₂中，若data_Out已存在，则直接将SW的ID加入S₃；遍历集合DS_Out、语义工作流库SWC，建立索引Data_OutIndex；在保存索引Data_OutIndex时，不直接存储(data_Out,S₃)，而是将索引Data_OutIndex存储为(data_Out.hashcode,S₃.pointer)，其中data_Out.hashcode为数据对象data_Out的语义描述的哈希值，S₃.pointer指向语义工作流集合S₃的存储位置；

输出数据-工作流索引Data_OutIndex的检索方法为：对于给定的查询数据节点qdata_Out，若qdata_Out在索引Data_OutIndex中已存在，则直接返回qdata_Out对应索引项的集合S₃；若qdata_Out在索引中不存在，说明SWC中不存在输出数据对象集合包含qdata_Out的语义工作流，则基于本体中父子概念间的较高语义相似性，使用子概念代替父概念；先在领域数据本体中查询qdata_Out的语义描述对应概念C的直接子概念C₁，获取输出数据对象集合包含C₁对应任务节点的语义工作流集合；遍历概念C的所有直接子概念得到多个这样的集合，最后计算这些集合的并集作为S₃返回；

2-3)数据-任务索引DataTaskIndex，包括输入数据-任务索引Data_InTaskIndex和输出数据-任务索引Data_OutTaskIndex两种；

i)索引Data_InTaskIndex的索引项形式为(data_In,TS₁)，其中data_In为语义工作流的输入数据对象(非中间数据对象)，TS₁的形式为{(task,SW)}，为输入数据对象集合包含data_In的任务节点task及其所属语义工作流SW的集合；

数据-任务索引DataTaskIndex的构造方法为：首先，获取语义工作流库SWC中某语义工作流SW的输入数据对象集合DS_In；然后，若data_In∈DS_In在索引Data_InTaskIndex中不存在，则新建一个索引项(data_In,TS₁)，将SW中消耗data_In的每个任务节点task的ID标识taskID加入集合TS₁中，若data_In已存在，则直接SW中消耗data_In的每个任务节点task的ID标识taskID加入TS₁；遍历SW的输入数据对象集合DS_In、语义工作流库SWC，建立索引Data_InTaskIndex；在保存索引Data_InTaskIndex时，不直接存储(data_In,TS₁)，而是将索引Data_InTaskIndex存储为(data_In.hashcode,TS₁.pointer)，其中data_In.hashcode为数据对象data_In的语义描述的哈希值，TS₁.pointer指向任务节点集合TS₁的存储位置；

数据-任务索引DataTaskIndex的检索方法为：对于查询数据对象qdata_In，若qdata_In在索引Data_InTaskIndex中已存在，则直接返回qdata_In对应索引项的集合TS₁；若qdata_In在索引中不存在，说明SWC中不存在输入数据对象集合包含qdata_In的任务节点，则基于本体中父子概念间的较高语义相似性，使用子概念代替父概念；先在领域数据本体中查询qdata_In的语义描述对应概念C的直接子概念C₁，然后输入数据对象集合包含C₁所指代数据对象的任务节点集合；遍历概念C的所有直接子概念得到多个这样的集合，最后计算这些集合的并集作为TS₁返回；

ii)索引Data_OutTaskIndex的索引项形式为(data_Out,TS₂)，其中data_Out为语义工作流的输出数据对象(非中间数据对象)，TS₂的形式为{(task,SW)}，为输出数据对象集包含data_Out的任务节点task及其所属语义工作流SW的集合；

索引Data_OutTaskIndex的构造方法为：首先，获取语义工作流库SWC中某语义工作流SW的输出数据对象节点集合DS_Out；然后，若data_Out∈DS_Out在索引Data_OutTaskIndex中不存在，则新建一个索引项(data_Out,TS₂)，将SW中生成data_Out的任务节点task的ID标识taskID加入集合TS₂中，若data_Out已存在，则直接将SW中生成data_Out的任务节点task的ID标识taskID加入TS₂；遍历集合DS_Out、语义工作流库SWC，建立索引Data_OutTaskIndex；在保存索引Data_OutTaskIndex时，不直接存储(data_Out,S₃)，而是将Data_OutTaskIndex存储为(data_Out.hashcode,TS₂.pointer)，其中data_Out.hashcode为数据对象data_Out的语义描述的哈希值，TS₂.pointer指向任务节点集合TS₂的存储位置；

索引Data_OutTaskIndex的检索方法为：对于给定的查询数据对象qdata_Out，若qdata_Out在索引Data_OutTaskIndex中已存在，则直接返回qdata_Out对应索引项的集合TS₂；若qdata_Out在索引中不存在，说明SWC中不存在输出数据对象集合包含qdata_Out的任务节点，则基于本体中父子概念间的较高语义相似性，使用子概念代替父概念；先在领域数据本体中查询qdata_Out的语义描述对应概念C的直接子概念C₁，然后获取输出数据对象集合包含C₁所指代数据对象的任务节点集合；遍历概念C的所有直接子概念得到多个这样的集合，最后计算这些集合的并集作为TS₂返回；

2-4)两步路径索引Path2Index的索引项形式为(<task₁,task₂>，S₄)，其中<task₁,task₂>为任务节点task₁,task₂组成的两步路径“task₁→task₂”的序偶形式，S₄为语义工作流对应的语义标注图的某一路径上包含此路径“task₁→task₂”的语义工作流集合；

两步路径索引Path2Index的构造方法为：首先，获取语义工作流库SWC中某语义工作流SW对应语义标注图(忽略控制流节点)中的所有相邻任务节点对集合TA；然后，若ta∈TA在索引Path2Index中不存在，则先新建一个索引项(<task₁,task₂>,S₄)，将SW的ID加入集合S₄，若ta已存在，则直接将SW的ID加入S₄；遍历SW的集合TA，以及SWC中的所有语义工作流构建，构建索引Path2Index；在保存索引Path2Index时，在索引中不直接存储(<task₁,task₂>,S₄)，而是将索引Path2Index存储为(<task₁,task₂>.hashcode,S₄.pointer)，其中<task₁,task₂>.hashcode为两步路径<task₁,task₂>的语义描述的哈希值，S₄.pointer指向语义工作流S₄的存储位置；

两步路径索引Path2Index的检索方法为：对于查询相邻任务节点对<qtask₁,qtask₂>，若路径<qtask₁,qtask₂>在索引Path2Index中已存在，则直接返回<qtask₁,qtask₂>对应索引项的集合S₄；若路径<qtask₁,qtask₂>不存在，说明在SWC中不存在包含路径<qtask₁,qtask₂>的语义工作流，则基于本体中父子概念间的较高语义相似性，使用子概念代替父概念；先在领域任务本体中分别获取qtask₁、qtask₂的语义描述C₁、C₂的直接子概念的集合CS₁、CS₂，然后获取包含笛卡尔积CS₁×CS₂中的每个概念序偶(C₃,C₄)指代的任务节点两步路径的语义工作流集合，最后计算这些集合的并集作为S₄返回；

3)构造语义工作流的行为特征索引SWBebavIndex及其检索方法，索引SWBebavIndex包括任务因果关系索引CasualIndex、任务互斥关系索引ExclusiveIndex、任务并行关系索引ParalellIndex和任务循环关系索引LoopIndex；

3-1)任务因果关系索引CasualIndex，索引项的形式为(<task₁,task₂>,S₅)，其中<task₁,task₂>为具有因果关系的任务节点task₁,task₂组成的序偶，S₅为包含此序偶的语义工作流集合；

任务因果关系索引CasualIndex的构造方法：首先，对于语义工作流库SWC中的某语义工作流SW，使用完全前缀展开法和最近公共前驱法计算SW的任务因果关系序偶集合TC，然后，若tc∈TC在索引CasualIndex中不存在，则先新建一个索引项(<task₁,task₂>,S₅)，将SW的ID加入集合S₅中；若tc已存在，则直接将SW的ID加入S₅；遍历SW的集合TC，语义工作流库SWC，建立索引CasualIndex，在保存索引CasualIndex时，在索引中不直接存储(<task₁,task₂>,S₅)，而是将索引CasualIndex存储为(<task₁,task₂>.hashcode,S₅.pointer)，其中<task₁,task₂>.hashcode为任务因果关系<task₁,task₂>的语义描述的哈希值，S₅.pointer指向语义工作流集合S₅的存储位置；

任务因果关系索引CasualIndex的检索方法为：对于查询任务因果关系<qtask₁,qtask₂>，若<qtask₁,qtask₂>在索引CasualIndex中已存在，则直接返回<qtask₁,qtask₂>对应索引项的集合S₅，若<qtask₁,qtask₂>在索引中不存在，说明SWC中不存在包含因果任务节点对<qtask₁,qtask₂>的语义工作流，则基于本体中父子概念间的较高语义相似性，使用子概念代替父概念；先在领域任务本体中分别获取qtask₁、qtask₂的语义描述C₁、C₂的直接子概念的集合CS₁、CS₂，然后获取包含笛卡尔积CS₁×CS₂中的每个概念序偶(C₃,C₄)指代的任务因果关系的语义工作流集合，最后计算这些集合的并集作为S₅返回；

3-2)任务并行关系索引ParalellIndex，索引项的形式为(<task₁,task₂>,S₆)，其中<task₁,task₂>为具有并行关系的任务节点task₁,task₂组成的序偶，S₆为包含此序偶的语义工作流集合；

任务并行关系索引ParalellIndex的构造方法为：首先，对于语义工作流库SWC中的语义工作流SW，使用完全前缀展开法和最近公共前驱法计算SW的任务并行关系集合TP；然后，若tp∈TP在索引ParalellIndex中不存在，则先新建一个索引项(<task₁,task₂>,S₆)，将SW的ID加入集合S₆中；若tp已存在，则直接将SW的ID加入S₆；遍历SW的集合TP，语义工作流库SWC，建立索引ParalellIndex；在保存索引ParalellIndex时，不直接存储(<task₁,task₂>,S₆)，而是将索引ParalellIndex存储为(<task₁,task₂>.hashcode,S₆.pointer)，其中<task₁,task₂>.hashcode为任务并行关系<task₁,task₂>的语义描述的哈希值，S₆.pointer指向语义工作流集合S₆的存储位置；

任务并行关系索引ParalellIndex的检索方法为：对于查询任务并行关系<qtask₁,qtask₂>，若<qtask₁,qtask₂>在索引ParalellIndex中已存在，则直接返回<qtask₁,qtask₂>对应索引项的集合S₆，若<qtask₁,qtask₂>在索引中不存在，说明SWC中不存在包含并行任务节点对<qtask₁,qtask₂>的语义工作流，则基于本体中父子概念间的较高语义相似性，使用子概念代替父概念；先在领域任务本体中分别获取qtask₁、qtask₂的语义描述C₁、C₂的直接子概念的集合CS₁、CS₂，然后获取包含笛卡尔积CS₁×CS₂中的每个概念序偶(C₃,C₄)指代的任务并行关系的语义工作流集合，最后计算这些集合的并集作为S₆返回；

3-3)任务互斥关系索引ExclusiveIndex，索引项的形式为(<task₁,task₂>,S₇)，其中<task₁,task₂>为具有互斥关系的任务节点task₁,task₂组成的序偶，S₇为包含此序偶的语义工作流集合；

任务互斥关系索引ExclusiveIndex的构造方法为：首先，对于语义工作流库SWC中的某语义工作流SW，使用完全前缀展开法和最近公共前驱法计算SW的任务互斥关系集合TE；然后，若te∈TE在索引ExclusiveIndex中不存在，则先新建一个索引项(<task₁,task₂>,S₇)，将SW的ID加入集合S₇中，若te已存在，则直接将SW的ID加入S₇；遍历SW的集合TE，语义工作流库SWC，建立索引ExclusiveIndex；在保存索引ExclusiveIndex时，不直接存储(<task₁,task₂>,S₇),而是将索引ExclusiveIndex存储为(<task₁,task₂>.hashcode,S₇.pointer)，其中<task₁,task₂>.hashcode为任务互斥关系<task₁,task₂>的语义描述的哈希值，S₇.pointer指向语义工作流集合S₇的存储位置；

任务互斥关系索引ExclusiveIndex的检索方法为：对于查询任务互斥关系<qtask₁,qtask₂>，若<qtask₁,qtask₂>在索引ExclusiveIndex中已存在，则直接返回<qtask₁,qtask₂>对应索引项的集合S₇，若<qtask₁,qtask₂>在索引中不存在，说明SWC中不存在包含互斥任务节点对<qtask₁,qtask₂>的语义工作流，则基于本体中父子概念间的较高语义相似性，使用子概念代替父概念；先在领域任务本体中分别获取qtask₁、qtask₂的语义描述C₁、C₂的直接子概念的集合CS₁、CS₂，然后获取包含笛卡尔积CS₁×CS₂中的每个概念序偶(C₃,C₄)指代的任务互斥关系的语义工作流集合，最后计算这些集合的并集作为S₇返回；

3-4)任务循环关系索引LoopIndex，索引项的形式为(<task₁,task₂>,S₈)，其中<task₁,task₂>为具有循环关系的任务节点task₁,task₂组成的序偶，S₈为包含此序偶的语义工作流集合；

任务循环关系索引LoopIndex的构造方法为：首先，对于语义工作流库SWC中的语义工作流SW，使用完全前缀展开法、最近公共前驱法和循环结构判断法计算SW的任务循环关系集合TL；然后，若tl∈TL在索引LoopIndex中不存在，则先新建一个索引项(<task₁,task₂>,S₈)，将SW的ID加入集合S₈中，若tl已存在，则直接将SW的ID加入S₈；遍历SW的集合TL，语义工作流库SWC，建立索引LoopIndex；在保存索引LoopIndex时，不直接存储(<task₁,task₂>,S₈)，而是将索引LoopIndex存储为(<task₁,task₂>.hashcode,S₈.pointer)，其中<task₁,task₂>.hashcode为任务循环关系<task₁,task₂>的语义描述的哈希值，S₈.pointer指向语义工作流集合S₈的存储位置；

任务循环关系索引LoopIndex的检索方法为：对于查询任务循环关系<qtask₁,qtask₂>，若<qtask₁,qtask₂>在索引LoopIndex中已存在，则直接返回<qtask₁,qtask₂>对应索引项的集合S₈；若<qtask₁,qtask₂>在索引中不存在，说明SWC中不存在包含循环任务节点对<qtask₁,qtask₂>的语义工作流，则基于本体中父子概念间的较高语义相似性，使用子概念代替父概念；先在领域任务本体中分别获取qtask₁、qtask₂的语义描述C₁、C₂的直接子概念的集合CS₁、CS₂，然后获取包含笛卡尔积CS₁×CS₂中的每个概念序偶(C₃,C₄)指代的任务循环关系的语义工作流集合，最后计算这些集合的并集作为S₈返回；

4)当与控制流、数据流相关的多个查询条件组合时，检索方法为：首先，执行满足控制流或数据流相关的每个查询条件的语义工作流或任务集合检索任务；然后，计算所有查询结果集的交集作为最终结果集返回；

5)更新语义工作流的结构和行为特征索引：当一个新语义工作流加入语义工作流库SWC时，结构特征索引SWStructIndex和行为特征索引SWBebavIndex均可以增量构造；当从语义工作流库中删除某语义工作流时，可以先记录该工作流，待被删除的语义工作流达到设定数量后，一次性将它们涉及的索引项删除，并更新。

有益效果：本发明提供了一种基于领域本体的语义工作流索引构建和检索方法，该方法有如下优点：

1.能够为用户提供满足控制流、数据流或二者组合的多种类型查询条件的语义工作流或任务检索功能；

2.利用引入的领域本体，能够为用户提供基于语义相似性近似匹配查询条件的语义工作流或任务检索功能；

3.提高了语义工作流的检索速度和准确率，为语义工作流重用提供了良好的支持；

4.为高效地组织和管理语义工作流库提供了理论依据。

附图说明

图1为语义工作流索引的构造流程图；

图2为语义工作流索引SWIndex的结构图；

图3为语义工作流SW₁；

图4为语义工作流SW₂；

图5为语义工作流SW₃；

图6为语义工作流SW₄；

图7为语义工作流SW₅；

图8为领域任务本体TaskOnto；

图9为领域数据本体DataOnto。

具体实施方式

下面结合附图和实施例对本发明内容做进一步阐述，但不是对本发明的限定。

实施例1：

下面以烹饪领域的5个语义工作流组成的语义工作流库SWC₁为例，5个语义工作流SW₁、SW₂、SW₃、SW₄和SW₅的示意图分别如图3—图7所示。一种基于领域本体的语义工作流索引构建和检索方法，如图1所示，语义工作流索引SWIndex的结构如图2所示，包括如下步骤：

1)构建如图8所示的烹饪领域的任务本体TaskOnto、如图9所示的数据本体DataOnto；SWC₁中工作流的任务节点的语义描述来自于TaskOnto中的概念，数据对象节点的语义描述来自于DataOnto中的概念；在说明书中，暂以任务节点的语义描述指代该节点，数据对象节点的语义描述指代该节点；

2)建立语义工作流库SWC₁的一步路径索引Path1Index，以语义工作流SW₁中的任务节点“Saute”为例，显然SW₁,SW₄中都包含任务节点“Saute”，则建立索引项：(“Saute”,{SW₁,SW₄})；再以语义工作流SW₁中的任务节点“Sprinkle”为例，显然SW₁,SW₂,SW₃,SW₄,SW₅均包含任务节点“Sprinkle”，则建立索引项：(“Sprinkle”,{SW₁,SW₂,SW₃,SW₄,SW₅})，使用同样的方法建立其他索引项。

检索示例：如果要在SWC₁中检索包含任务节点“Saute”的语义工作流，由于在Path1Index中存在“Saute”的索引项，则直接返回索引项中的集合{SW₁,SW₄}。如果要检索包含任务节点“Fry”的语义工作流，由于在Path1Index中不存在“Fry”的索引项，则可以返回“Fry”在任务本体中的子节点“Saute”的索引项中的语义工作流集合{SW₁,SW₄}，作为近似结果集提供给用户。

3)建立语义工作流库SWC₁的数据-工作流索引Data_InIndex和Data_OutIndex，首先构造Data_InIndex，以语义工作流SW₂中的数据对象“Salt”为例，显然SW₂,SW₅中包含此数据对象，则建立Data_InIndex的索引项：(“Salt”,{SW₂,SW₅})，使用同样的方法可建立其他索引项；然后构造Data_OutIndex，以语义工作流SW₁中的数据对象“Fettuccine_pasta”为例，显然只有SW₁包含此数据对象，则建立Data_OutIndex的索引项：(“Fettuccine_pasta”,{SW₁})，使用同样的方法可建立其他索引项。

检索示例：如果要在SWC₁中检索包含输入数据对象“Salt”的语义工作流，由于在Data_InIndex中存在“Salt”的索引项，则直接返回索引项中的集合{SW₂,SW₅}。如果要检索包含输入数据对象“Oil”的语义工作流，由于在Data_InIndex中不存在“Oil”的索引项，则可以返回“Oil”在领域数据本体中的子节点“Salad_oil”的索引项中的集合{SW₂,SW₅}，作为近似结果集。

如果要在SWC₁中检索包含输出数据对象“Lasagna_pasta”的语义工作流，由于在Data_OutIndex中存在“Lasagna_pasta”的索引项，则直接返回索引项中的语义工作流集合{SW₂,SW₅}。

4)建立语义工作流库SWC₁的数据-任务索引Data_InTaskIndex和Data_OutTaskIndex，首先构造Data_InTaskIndex，以语义工作流SW₂中的数据对象“Salt”为例，显然SW₂中的任务节点“Toss”,SW₅中的任务节点“Toss”包含数据对象“Salt”。则建立Data_InTaskIndex的索引项：(“Salt”,{(“Toss”,SW₂),(“Toss”,SW₅)})，使用同样的方法可建立其他索引项；然后构造Data_OutTaskIndex，以语义工作流SW₁中的数据对象“Fettuccine_pasta”为例，显然只有SW₁的任务节点“Toss”和“Sprinkle”包含此数据对象。则Data_OutIndex的索引项：(“Fettuccine_pasta”,{(“Toss”,SW₁),(“Sprinkle”,SW₁)})，使用同样的方法可建立其他索引项。

检索示例：如果要在SWC₁中检索包含输入数据对象“Salt”的语义工作流，由于在Data_InTaskIndex中存在“Salt”的索引项，则直接返回索引项中的集合{(“Toss”,SW₂),(“Toss”,SW₅)}，再从中抽取出语义工作流集合{SW₂,SW₅}。

Data_OutTaskIndex索引的检索方法类似，此处省略。

5)建立语义工作流库SWC₁的两步路径索引Path2Index，以语义工作流SW₁中的路径“Cook”→“Stir”为例，显然SW₁只有包含此路径，则Path2Index的索引项：(<“Cook”,“Stir”>,{SW₁})，使用同样的方法可建立其他索引项；以语义工作流SW₂中的路径“Sprinkle”→“Bake”为例，显然SW₂,SW₃,SW₄,SW₅包含此路径，则Path2Index的索引项：(<“Sprinkle”,“Bake”>,{SW₂,SW₃,SW₄,SW₅})。

检索示例：如果要在SWC₁中检索包含路径“Sprinkle”→“Bake”的语义工作流，由于在Path2Index中存在“Sprinkle”→“Bake”的索引项，则直接返回索引项中的集合{SW₂,SW₃,SW₄,SW₅}。如果要在SWC₁中检索包含路径“Saute”→“Gather”的语义工作流，由于在Path2Index中不存在“Saute”→“Gather”的索引项，则可以用“Gather”在领域任务本体中的子节点“Add”来代替“Gather”，返回“Saute”→“Add”的索引项中的集合{SW₁,SW₄}，作为近似结果集。

6)建立语义工作流库SWC₁的任务因果关系索引CasualIndex，以语义工作流SW₄中的任务因果关系<“Grate”，“Mix”>为例，显然SW₄中包含此因果关系，则建立索引项：(<“Grate”，“Mix”>,{SW₄})。使用同样的方法建立其他索引项。

检索示例：如果要在SWC₁中检索包含任务因果关系<“Grate”，“Mix”>的语义工作流，由于在CasualIndex中存在任务因果关系<“Grate”，“Mix”>的索引项，则直接返回索引项中的集合{SW₄}。如果要在SWC₁中检索包含任务因果关系<“Saute”，“Gather”>的语义工作流，由于在CasualIndex中不存在<“Saute”，“Gather”>的索引项，则可以用“Gather”在任务本体中的子节点“Add”来代替“Gather”。返回<“Saute”，“Add”>的索引项中的集合{SW₁,SW₄}，作为近似结果集。

7)建立语义工作流库SWC₁的任务并行关系索引ParalellIndex，以语义工作流SW₂中的任务并行关系<“Grate”，“Cook”>为例，显然SW₂中包含此因果关系，则ParalellIndex的索引项：(<“Grate”，“Cook”>,{SW₂})；使用同样的方法建立其他索引项。

检索示例：如果要在SWC₁中检索包含任务并行关系<“Simmer”，“Mix”>的语义工作流，由于在ParalellIndex中存在<“Simmer”，“Mix”>的索引项，则直接返回索引项中的集合{SW₄}。

8)建立语义工作流库SWC₁的任务互斥关系索引ExclusiveIndex，以语义工作流SW₃中的任务互斥关系<“Boil”，“Heat”>为例，显然SW₃中包含此互斥关系，则ExclusiveIndex的索引项：(<“Boil”，“Heat”>,{SW₃})。使用同样的方法建立其他索引项。

检索示例：如果要在SWC₁中检索包含任务互斥关系<“Boil”，“Heat”>的语义工作流，由于在ExclusiveIndex中存在<“Boil”，“Heat”>的索引项，则直接返回索引项中的集合{SW₃}。

9)建立语义工作流库SWC₁的任务循环关系索引LoopIndex，以语义工作流SW₅中的任务循环关系<“Arrange”，“Top”>为例，显然SW₅中包含此任务循环关系，则建立LoopIndex的索引项：(<“Arrange”，“Top”>,{SW₅})。使用同样的方法建立其他索引项。

检索示例：如果要在SWC₁中检索包含任务循环关系<“Arrange”，“Top”>的语义工作流，由于在LoopIndex中存在<“Arrange”，“Top”>的索引项，则直接返回索引项中的集合{SW₅}。

10)检索示例：如果要在SWC₁中检索包含任务节点“Sprinkle”和输入数据对象“Spaghetti”的语义工作流，则由于Path1Index存在索引项：(“Sprinkle”,{SW₁,SW₂,SW₃,SW₄,SW₅})，易得包含任务节点“Sprinkle”的语义工作流集合A₁＝{SW₁,SW₂,SW₃,SW₄,SW₅}；由于Data_InInde x存在索引项：(“Spaghetti”,{SW₄})，易得包含输入数据对象“Spaghetti”的语义工作流集合A₂＝{SW₄}；由以上可得满足原检索要求的语义工作流集合A₃＝A₁∩A₂＝{SW₁,SW₂,SW₃,SW₄,SW₅}∩{SW₄}＝{SW₄}。

检索示例：如果要在SWC₁中检索包含任务因果关系<“Saute”，“Gather”>和输入数据对象“Fettuccine”的语义工作流，则由于在CasualIndex中不存在<“Saute”，“Gather”>的索引项，则可用“Gather”在任务本体中的子节点“Add”来代替“Gather”，于是返回包含任务因果关系<“Saute”，“Add”>的索引项中的语义工作流集合A₄＝{SW₁,SW₄}作为近似结果集。由于Data_InIndex中存在索引项：(“Fettuccine”,{SW₁})，易得包含输入数据对象“Fettuccine”的语义工作流集合A₅＝{SW₁}；由以上可得满足原检索要求的语义工作流的近似集合A₆＝A₄∩A₅＝{SW₁,SW₄}∩{SW₁}＝{SW₁}。

Claims

1.一种基于领域本体的语义工作流索引构造及检索方法，其特征在于，包括如下步骤：

1)建立语义工作流的领域任务本体和领域数据本体；

5)更新语义工作流的结构和行为特征索引：当一个新语义工作流加入语义工作流库时，结构特征索引SWStructIndex和行为特征索引SWBebavIndex均可以增量构造；当从语义工作流库中删除语义工作流时，先记录该工作流，待被删除的语义工作流达到设定数量后，一次将它们涉及的索引项删除或更新；

步骤2)中，所述的一步路径索引Path1Index，索引项的形式为(task,S₁)，其中task为任务节点，S₁为包含task的语义工作流集合；

一步路径索引Path1Index的构造方法为：首先，获取语义工作流库SWC中某语义工作流SW的任务节点集合TS；然后，若某任务节点task∈TS在索引Path1Index中不存在，则先新建一个索引项(task,S₁)，将SW的ID加入集合S₁中；若task已存在，则直接将SW的ID加入task对应索引项的集合S₁中；遍历SW的任务节点集合TS、语义工作流库SWC，建立索引Path1Index；将索引Path1Index存储为(task.hashcode,S₁.pointer)，其中task.hashcode为一步路径或任务节点task的语义描述的哈希值，S₁.pointer指向语义工作流集合S₁的存储位置；

所述的数据-工作流索引DataIndex，包括输入数据-工作流索引Data_InIndex和输出数据-工作流索引Data_OutIndex两种；

i)输入数据-工作流索引Data_InIndex的索引项形式为(data_In,S₂)，其中data_In为语义工作流的输入数据对象，S₂为输入数据对象集合包含data_In的语义工作流集合；

输入数据-工作流索引Data_InIndex的构造方法为：首先，获取语义工作流库SWC中某语义工作流SW的输入数据对象集合DS_In；然后，若data_In∈DS_In在索引Data_InIndex中不存在，则新建一个索引项(data_In,S₂)，将SW的ID加入集合S₂中，若data_In已存在，则直接将SW的ID加入S₂，遍历SW的输入数据对象集合DS_In、语义工作流库SWC，建立索引Data_InIndex；将索引Data_InIndex存储为(data_In.hashcode,S₂.pointer)，其中data_In.hashcode为数据对象data_In的语义描述的哈希值，S₂.pointer指向语义工作流集合S₂的存储位置；

ii)输出数据-工作流索引Data_OutIndex的索引项形式为(data_Out,S₃)，其中data_Out为语义工作流的输出数据对象，S₃为输出数据对象集合包含data_Out的语义工作流集合；

输出数据-工作流索引Data_OutIndex的构造方法为：首先，获取语义工作流库SWC中某语义工作流SW的输出数据对象节点集合DS_Out；然后，若data_Out∈DS_Out在索引Data_OutIndex中不存在，则新建一个索引项(data_Out,S₃)，将SW的ID加入集合S₃中，若data_Out已存在，则直接将SW的ID加入S₃；遍历集合DS_Out、语义工作流库SWC，建立索引Data_OutIndex；将索引Data_OutIndex存储为(data_Out.hashcode,S₃.pointer)，其中data_Out.hashcode为数据对象data_Out的语义描述的哈希值，S₃.pointer指向语义工作流集合S₃的存储位置；

所述的数据-任务索引DataTaskIndex，包括输入数据-任务索引Data_InTaskIndex和输出数据-任务索引Data_OutTaskIndex两种；

i)索引Data_InTaskIndex的索引项形式为(data_In,TS₁)，其中data_In为语义工作流的输入数据对象，TS₁的形式为{(task,SW)}，为输入数据对象集合包含data_In的任务节点task及其所属语义工作流SW的集合；

数据-任务索引DataTaskIndex的构造方法为：首先，获取语义工作流库SWC中某语义工作流SW的输入数据对象集合DS_In；然后，若data_In∈DS_In在索引Data_InTaskIndex中不存在，则新建一个索引项(data_In,TS₁)，将SW中消耗data_In的每个任务节点task的ID标识taskID加入集合TS₁中，若data_In已存在，则直接SW中消耗data_In的每个任务节点task的ID标识taskID加入TS₁；遍历SW的输入数据对象集合DS_In、语义工作流库SWC，建立索引Data_InTaskIndex；将索引Data_InTaskIndex存储为(data_In.hashcode,TS₁.pointer)，其中data_In.hashcode为数据对象data_In的语义描述的哈希值，TS₁.pointer指向任务节点集合TS₁的存储位置；

数据-任务索引DataTaskIndex的检索方法为：对于查询数据对象qdata_In，若qdata_In在索引Data_InTaskIndex中已存在，则直接返回qdata_In对应索引项的任务节点集合TS₁；若qdata_In在索引中不存在，说明SWC中不存在输入数据对象集合包含qdata_In的任务节点，则基于本体中父子概念间的较高语义相似性，使用子概念代替父概念；先在领域数据本体中查询qdata_In的语义描述对应概念C的直接子概念C₁，然后获取输入数据对象集合包含C₁所指代数据对象的任务节点集合；遍历概念C的所有直接子概念得到多个这样的集合，最后计算这些集合的并集作为TS₁返回；

ii)索引Data_OutTaskIndex的索引项形式为(data_Out,TS₂)，其中data_Out为语义工作流的输出数据对象，TS₂的形式为{(task,SW)}，为输出数据对象集包含data_Out的任务节点task及其所属语义工作流SW的集合；

索引Data_OutTaskIndex的构造方法为：首先，获取语义工作流库SWC中某语义工作流SW的输出数据对象节点集合DS_Out；然后，若data_Out∈DS_Out在索引Data_OutTaskIndex中不存在，则新建一个索引项(data_Out,TS₂)，将SW中生成data_Out的任务节点task的ID标识taskID加入集合TS₂中，若data_Out已存在，则直接将SW中生成data_Out的任务节点task的ID标识taskID加入TS₂；遍历集合DS_Out、语义工作流库SWC，建立索引Data_OutTaskIndex；将索引Data_OutTaskIndex存储为(data_Out.hashcode,TS₂.pointer)，其中data_Out.hashcode为数据对象data_Out的语义描述的哈希值，TS₂.pointer指向任务节点集合TS₂的存储位置；

索引Data_OutTaskIndex的检索方法为：对于给定的查询数据对象qdata_Out，若qdata_Out在索引Data_OutTaskIndex中已存在，则直接返回qdata_Out对应索引项的任务节点集合TS₂；若qdata_Out在索引中不存在，说明SWC中不存在输出数据对象集合包含qdata_Out的任务节点，则基于本体中父子概念间的较高语义相似性，使用子概念代替父概念；先在领域数据本体中查询qdata_Out的语义描述对应概念C的直接子概念C₁，然后获取输出数据对象集合包含C₁所指代数据对象的任务节点集合；遍历概念C的所有直接子概念得到多个这样的集合，最后计算这些集合的并集作为TS₂返回；

所述的两步路径索引Path2Index，索引项形式为(<task₁,task₂>，S₄)，其中<task₁,task₂>为任务节点task₁,task₂组成的两步路径“task₁→task₂”的序偶形式，S₄为语义工作流对应的语义标注图的某一路径上包含路径“task₁→task₂”的语义工作流集合；

两步路径索引Path2Index的构造方法为：首先，获取语义工作流库SWC中某语义工作流SW对应语义标注图中的所有相邻任务节点对集合TA，然后，若ta∈TA在索引Path2Index中不存在，则先新建一个索引项(<task₁,task₂>,S₄)，将SW的ID加入集合S₄，若ta已存在，则直接将SW的ID加入S₄；遍历SW的集合TA，以及SWC中的所有语义工作流，构建索引Path2Index；将索引Path2Index存储为(<task₁,task₂>.hashcode,S₄.pointer)，其中<task₁,task₂>.hashcode为两步路径<task₁,task₂>的语义描述的哈希值，S₄.pointer指向语义工作流S₄的存储位置；

步骤3)中，所述的任务因果关系索引CasualIndex，索引项的形式为(<task₁,task₂>,S₅)，其中<task₁,task₂>为具有因果关系的任务节点task₁,task₂组成的序偶，S₅为包含此序偶的语义工作流集合；

任务因果关系索引CasualIndex的构造方法：首先，对于语义工作流库SWC中的某语义工作流SW，使用完全前缀展开法和最近公共前驱法计算SW的任务因果关系序偶集合TC，然后，若tc∈TC在索引CasualIndex中不存在，则先新建一个索引项(<task₁,task₂>,S₅)，将SW的ID加入集合S₅中；若tc已存在，则直接将SW的ID加入S₅；遍历SW的集合TC，语义工作流库SWC，建立索引CasualIndex，将索引CasualIndex存储为(<task₁,task₂>.hashcode,S₅.pointer)，其中<task₁,task₂>.hashcode为任务因果关系<task₁,task₂>的语义描述的哈希值，S₅.pointer指向语义工作流集合S₅的存储位置；

所述的任务并行关系索引ParalellIndex，索引项的形式为(<task₁,task₂>,S₆)，其中<task₁,task₂>为具有并行关系的任务节点task₁,task₂组成的序偶，S₆为包含此序偶的语义工作流集合；

任务并行关系索引ParalellIndex的构造方法为：首先，对于语义工作流库SWC中的语义工作流SW，使用完全前缀展开法和最近公共前驱法计算SW的任务并行关系集合TP；然后，若tp∈TP在索引ParalellIndex中不存在，则先新建一个索引项(<task₁,task₂>,S₆)，将SW的ID加入集合S₆中；若tp已存在，则直接将SW的ID加入S₆；遍历SW的集合TP，语义工作流库SWC，建立索引ParalellIndex；将索引ParalellIndex存储为(<task₁,task₂>.hashcode,S₆.pointer)，其中<task₁,task₂>.hashcode为任务并行关系<task₁,task₂>的语义描述的哈希值，S₆.pointer指向语义工作流集合S₆的存储位置；

所述的任务互斥关系索引ExclusiveIndex，索引项的形式为(<task₁,task₂>,S₇)，其中<task₁,task₂>为具有互斥关系的任务节点task₁,task₂组成的序偶，S₇为包含此序偶的语义工作流集合；

任务互斥关系索引ExclusiveIndex的构造方法为：首先，对于语义工作流库SWC中的某语义工作流SW，使用完全前缀展开法和最近公共前驱法计算SW的任务互斥关系集合TE；然后，若te∈TE在索引ExclusiveIndex中不存在，则先新建一个索引项(<task₁,task₂>,S₇)，将SW的ID加入集合S₇中，若te已存在，则直接将SW的ID加入S₇；遍历SW的集合TE，语义工作流库SWC，建立索引ExclusiveIndex；将索引ExclusiveIndex存储为(<task₁,task₂>.hashcode,S₇.pointer)，其中<task₁,task₂>.hashcode为任务互斥关系<task₁,task₂>的语义描述的哈希值，S₇.pointer指向语义工作流集合S₇的存储位置；

所述的任务循环关系索引LoopIndex，索引项的形式为(<task₁,task₂>,S₈)，其中<task₁,task₂>为具有循环关系的任务节点task₁,task₂组成的序偶，S₈为包含此序偶的语义工作流集合；

任务循环关系索引LoopIndex的构造方法为：首先，对于语义工作流库SWC中的语义工作流SW，使用完全前缀展开法、最近公共前驱法和循环结构判断法计算SW的任务循环关系集合TL；然后，若tl∈TL在索引LoopIndex中不存在，则先新建一个索引项(<task₁,task₂>,S₈)，将SW的ID加入集合S₈中，若tl已存在，则直接将SW的ID加入S₈；遍历SW的集合TL，语义工作流库SWC，建立索引LoopIndex；将索引LoopIndex存储为(<task₁,task₂>.hashcode,S₈.pointer)，其中<task₁,task₂>.hashcode为任务循环关系<task₁,task₂>的语义描述的哈希值，S₈.pointer指向语义工作流集合S₈的存储位置；

任务循环关系索引LoopIndex的检索方法为：对于查询任务循环关系<qtask₁,qtask₂>，若<qtask₁,qtask₂>在索引LoopIndex中已存在，则直接返回<qtask₁,qtask₂>对应索引项的集合S₈；若<qtask₁,qtask₂>在索引中不存在，说明SWC中不存在包含循环任务节点对<qtask₁,qtask₂>的语义工作流，则基于本体中父子概念间的较高语义相似性，使用子概念代替父概念；先在领域任务本体中分别获取qtask₁、qtask₂的语义描述C₁、C₂的直接子概念的集合CS₁、CS₂，然后获取包含笛卡尔积CS₁×CS₂中的每个概念序偶(C₃,C₄)指代的任务循环关系的语义工作流集合，最后计算这些集合的并集作为S₈返回。

2.根据权利要求1所述的一种基于领域本体的语义工作流索引构造及检索方法，其特征在于，步骤1)中，具体是将语义工作流库中的语义工作流任务节点的语义描述看作与任务相关的概念，利用概念间的包含关系，构建任务本体的层次结构，建立领域任务本体；将语义工作流的数据对象节点的语义描述看作与数据对象相关的概念，利用概念间的包含关系，构建数据本体的层次结构，建立领域数据本体。