发明内容
本发明的目的是定义了一种新的日志次序关系,通过新的日志次序关系生成不包含孤立点的新的工作流网,通过新的工作流网构建活动间的连接关系,计算每个活动的导航度和权威度可通过,最终对于工作流网设计不合理的活动作出改进,保证形成完整的工作流网,并使用教育数据日志进行验证。
本发明的技术方案是,一种面向教育数据的工作流方法,以教育系统数据日志为输入,以petri网描述的工作流网为输出结果,该方法具体步骤如下:
步骤1、预处理教育日志数据C1,得到与事件相关的紧密属性的教育日志数据C2和教育数据日志统计分析表;
步骤2、基于传统的日志次序关系1和教育数据日志统计分析表,分别以日志活动为行和列,遍历教育日志数据C2,以传统日志次序关系1为规则,构造关系矩阵1,结合关系矩阵1与α算法,将满足因果关系的行和列组织起来,使用α算法的第5步,移除不是最大的因果关系,生成工作流网N1;
步骤3、工作流网N1中存在与其他部分并不相连的孤立点,基于日志次序关系2和教育数据日志统计分析表,分别以日志活动为行和列,遍历教育日志数据C2,以日志次序关系2为规则,构造关系矩阵2,结合关系矩阵2与α算法,生成工作流网N2;
步骤4、工作流网N2中存在与其他部分并不相连的孤立点,基于日志次序关系3和教育数据日志统计分析表,分别以日志活动为行和列,遍历教育日志数据C2,以日志次序关系3为规则,构造关系矩阵3,结合关系矩阵3与α算法,生成工作流网N3;
步骤5、工作流网N3中存在与其他部分并不相连的孤立点,定义日志次序关系4,根据日志次序关系4和教育数据日志统计分析表,分别以日志活动为行和列,遍历教育日志数据C2,以日志次序关系4为规则,构造关系矩阵4,结合关系矩阵4与α算法,生成不含孤立点的工作流网N4;
步骤6、根据工作流网N4构建活动间的连接关系,计算每个活动的导航度和权威度,最终对于工作流网N4中设计不合理的活动作出改进。
本发明的特点还在于,
(1)教育日志数据预处理的具体步骤为:
步骤1.1、去掉准备预处理的教育日志数据C1的部分属性,得到与事件相关的紧密属性的教育日志数据C2;
步骤1.2、制定教育日志数据日志事件和单字母的转换表;
步骤1.3、根据步骤1.2中制定的转换表对教育日志数据C2进行分类,建立和教育日志数据C2中原始数据对应的用户足迹;
步骤1.4、对用户足迹的出现频率和出现类型进行简要的统计分析,得到教育数据日志统计分析表。
(2)日志次序关系4的具体定义为:
令W″′是包含变迁T″′集合的工作流日志,a″′∈T″′,b″′∈T″′:
顺序关系:a″′>W″′b″′当且仅当存在路径σ″′=<t1″′,t2″′,t3″′,...tn″′>,i∈{1,...,n-1},σ″′∈W″′,ti″′=a″′并且ti+1″′=b″′;
因果关系:a″′→″′W″′b″′当且仅当a″′>W″′b″′并且(或者 或者/> );
不相关关系:a″′#″′W″′b″′当且仅当并且/>
并行关系:a″′||″′W″′b″′当且仅当a″′>″′W″′b″′并且b″′>″′W″′a″′并且((ti″′=a″′并且ti+1″′=b″′并且ti+1″′≠ti″′≠ti+2″′)或者(ti″′=a″′并且ti+1″′=b″′并且ti+1″′≠ti″′≠ti+2″′));
其中,W″′表示工作流日志,T″′表示变迁集合,a″′表示变迁集合中的具体活动,b″′表示变迁集合中的具体活动;σ″′表示用户某一操作集合,<t1″′,t2″′,t3″′,...tn″′>表示用户某一次操作的具体活动,i表示每一条用户足迹包含的活动数目,n表示每一个用户活动足迹的总数目,ti″′表示某一个用户的第i个活动所表示的字母。
(3)传统日志次序关系1定义如下:
令W是包含变迁T集合的工作流日志,a∈T,b∈T:
顺序关系:a>Wb当且仅当存在路径σ=<t1,t2,t3,...tn>,i∈{1,...,n-1},σ∈W,ti=a并且ti+1=b;
因果关系:a→Wb当且仅当a>Wb并且
不相关关系:a#Wb当且仅当并且/>
并行关系:a||Wb当且仅当a>Wb并且b>Wa;
其中,W表示工作流日志,T表示变迁集合,a表示变迁集合中的具体活动,b表示变迁集合中的具体活动;σ表示用户某一操作集合,<t1,t2,t3,...tn>表示用户某一次操作的具体活动,i表示每一条用户足迹包含的活动数目,n表示每一个用户活动足迹的总数目,ti表示某一个用户的第i个活动所表示的字母。
(4)日志次序关系2定义如下:
令W′是包含变迁T′集合的工作流日志,a′∈T′,b′∈T′:
顺序关系:a′>′W′b′当且仅当存在路径σ′=<t1′,t2′,t3′,…tn′>,i∈{1,...,n-1},σ′∈W′,ti′=a′并且ti+1′=b′;
因果关系:a′>′W′b′当且仅当a′>′W′b′并且(或者/> );
不相关关系:a′#′W′b′当且仅当并且/>
并行关系:a′||′W′b′当且仅当a′>′W′b′并且((b′>′W′a′)并且 );
其中,W′表示工作流日志,T′表示变迁集合,a′表示变迁集合中的具体活动,b′表示变迁集合中的具体活动;σ′表示用户某一操作集合,<t1′,t2′,t3′,...tn′>表示用户某一次操作的具体活动,i表示每一条用户足迹包含的活动数目,n表示每一个用户活动足迹的总数目,ti′表示某一个用户的第i个活动所表示的字母。
(5)日志次序关系3定义如下:
令W″是包含变迁T″集合的工作流日志,a″∈T″,b″∈T″:
前提条件1:a″ΔW″b″当且仅当存在路径σ″=<t1″,t2″,t3″,...tn″>,i∈{1,...,n-1},σ″∈W″,ti″=ti+2″=a″并且ti+1″=b″;
前提条件2:当且仅当a″ΔW″b″并且b″ΔW″a″;
顺序关系:a″>″W″b″当且仅当存在路径σ″=<t1″,t2″,t3″,...tn″>,i∈{1,...,n-1}如σ″∈W″,ti″=a″并且ti+1″=b″;
因果关系:a″→″W″b″当且仅当a″>″W″b″并且(或者/>);
不相关关系:a″#″W″b″当且仅当并且/>
并行关系:a″||″W″b″当且仅当a″>″W″b″并且b″>″W″a″并且
其中,W″表示工作流日志,T″表示变迁集合,a″表示变迁集合中的具体活动,b″表示变迁集合中的具体活动;σ″表示用户某一操作集合,<t1″,t2″,t3″,...tn″>表示用户某一次操作的具体活动,i表示每一条用户足迹包含的活动数目,n表示每一个用户活动足迹的总数目,ti″表示某一个用户的第i个活动所表示的字母。
(6)α算法的定义如下:
a:获取日志中出现的所有事件,这些事件最终构成工作流网中的变迁集合;
b:在a中获取到的变迁中查找开始变迁集合;
c:在a中获取到的变迁中查找结束变迁集合;
d:基于工作流路径确定变迁之间的关系,并形成集合;
e:基于d,确定变迁之间的最大集合;
f:加入开始库所和结束库所;
g:形成工作流网络之间的弧;
h:最终构成完整的工作流网。
本发明的有益效果是:
(1)本发明一种面向教育数据的工作流方法,提升了工作流挖掘方法的挖掘能力,保证了构成工作流网的完整性,如果使用不完整的工作流网,则过程挖掘得到的结果是不准确的,这种不完整与根据日志事件统计频率而去掉某些事件是有区别的,因此,该方法的提出对工作流网的分析、监控提供了更好的支撑。
(2)本发明一种面向教育数据的工作流方法与现有方法相比:通过重新设计满足因果关系和并行关系的条件,构造出完整的工作流网,使得日志事件可以全部被纳入网络,不存在孤立点。
具体实施方式
下面结合附图对本发明做进一步说明:
本发明的一种面向教育数据的工作流方法,先以教育系统数据日志为输入,以petri网描述的工作流网为输出结果,具体流程如图1所示,具体步骤如下:
步骤1、预处理教育日志数据C1,得到与事件相关的紧密属性的教育日志数据C2和教育数据日志统计分析表;
教育日志数据预处理的具体步骤为:
步骤1.1、去掉准备预处理的教育日志数据C1的部分属性,得到与事件相关的紧密属性的教育日志数据C2;
步骤1.2、制定教育日志数据日志事件和单字母的转换表;
步骤1.3、根据步骤1.2中制定的转换表对教育日志数据C2进行分类,建立和教育日志数据C2中原始数据对应的用户足迹;
步骤1.4、对用户足迹的出现频率和出现类型进行简要的统计分析,得到教育数据日志统计分析表。
步骤2、基于传统的日志次序关系1和教育数据日志统计分析表,分别以日志活动为行和列,遍历教育日志数据C2,以传统日志次序关系1为规则,构造关系矩阵1,结合关系矩阵1与α算法,将满足因果关系的行和列组织起来,使用α算法的第5步,移除不是最大的因果关系,生成工作流网N1;
传统日志次序关系1定义如下:
令W是包含变迁T集合的工作流日志,a∈T,b∈T:
顺序关系:a>Wb当且仅当存在路径σ=<t1,t2,t3,...tn>,i∈{1,...,n-1},σ∈W,ti=a并且ti+1=b;
因果关系:a→Wb当且仅当a>Wb并且
不相关关系:a#Wb当且仅当并且/>
并行关系:a||Wb当且仅当a>Wb并且b>Wa;
其中,W表示工作流日志,T表示变迁集合,a表示变迁集合中的具体活动,b表示变迁集合中的具体活动;σ表示用户某一操作集合,<t1,t2,t3,...tn>表示用户某一次操作的具体活动,i表示每一条用户足迹包含的活动数目,n表示每一个用户活动足迹的总数目,ti表示某一个用户的第i个活动所表示的字母;
步骤3、工作流网N1中存在与其他部分并不相连的孤立点,基于日志次序关系2和教育数据日志统计分析表,分别以日志活动为行和列,遍历教育日志数据C2,以日志次序关系2为规则,构造关系矩阵2,结合关系矩阵2与α算法,生成工作流网N2;
日志次序关系2定义如下:
令W′是包含变迁T′集合的工作流日志,a′∈T′,b′∈T′:
顺序关系:a′>′W′b′当且仅当存在路径σ′=<t1′,t2′,t3′,…tn′>,i∈{1,...,n-1},σ′∈W′,ti′=a′并且ti+1′=b′;
因果关系:a′>′W′b′当且仅当a′>′W′b′并且(或者/> );不相关关系:a′#′W′b′当且仅当/>并且/>
并行关系:a′||′W′b′当且仅当a′>′W′b′并且((b′>′W′a′)并且 );
其中,W′表示工作流日志,T′表示变迁集合,a′表示变迁集合中的具体活动,b′表示变迁集合中的具体活动;σ′表示用户某一操作集合<t1′,t2′,t3′,...tn′>表示用户某一次操作的具体活动,i表示每一条用户足迹包含的活动数目,n表示每一个用户活动足迹的总数目,ti′表示某一个用户的第i个活动所表示的字母;
步骤4、工作流网N2中存在与其他部分并不相连的孤立点,基于日志次序关系3和教育数据日志统计分析表,分别以日志活动为行和列,遍历教育日志数据C2,以日志次序关系3为规则,构造关系矩阵3,结合关系矩阵3与α算法,生成工作流网N3;
日志次序关系3定义如下:
令W″是包含变迁T″集合的工作流日志,a″∈T″,b″∈T″:
前提条件1:a″ΔW″b″当且仅当存在路径σ″=<t1″,t2″,t3″,...tn″>,i∈{1,...,n-1},σ″∈W″,ti″=ti+2″=a″并且ti+1″=b″;
前提条件2:当且仅当a″ΔW″b″并且b″ΔW″a″;
顺序关系:a″>″W″b″当且仅当存在路径σ″=<t1″,t2″,t3″,...tn″>,i∈{1,...,n-1}如σ″∈W″,ti″=a″并且ti+1″=b″;
因果关系:a″→″W″b″当且仅当a″>″W″b″并且(或者/>);
不相关关系:a″#″W″b″当且仅当并且/>
并行关系:a″||″W″b″当且仅当a″>″W″b″并且b″>″W″a″并且
其中,W″表示工作流日志,T″表示变迁集合,a″表示变迁集合中的具体活动,b″表示变迁集合中的具体活动;σ″表示用户某一操作集合,<t1″,t2″,t3″,...tn″>表示用户某一次操作的具体活动,i表示每一条用户足迹包含的活动数目,n表示每一个用户活动足迹的总数目,ti″表示某一个用户的第i个活动所表示的字母;
步骤5、工作流网N3中存在与其他部分并不相连的孤立点,定义日志次序关系4,根据日志次序关系4和教育数据日志统计分析表,分别以日志活动为行和列,遍历教育日志数据C2,以日志次序关系4为规则,构造关系矩阵4,结合关系矩阵4与α算法,生成不含孤立点的工作流网N4;
日志次序关系4的具体定义为:
令W″′是包含变迁T″′集合的工作流日志,a″′∈T″′,b″′∈T″′:
顺序关系:a″′>W″′b″′当且仅当存在路径σ″′=<t1″′,t2″′,t3″′,...tn″′>,i∈{1,...,n-1},σ″′∈W″′,ti″′=a″′并且ti+1″′=b″′;
因果关系:a″′→″′W″′b″′当且仅当a″′>W″′b″′并且(或者 或者/> );
不相关关系:a″′#″′W″′b″′当且仅当并且/>
并行关系:a″′||″′W″′b″′当且仅当a″′>″′W″′b″′并且b″′>″′W″′a″′并且((ti″′=a″′并且ti+1″′=b″′并且ti+1″′≠ti″′≠ti+2″′)或者(ti″′=a″′并且ti+1″′=b″′并且ti+1″′≠ti″′≠ti+2″′));
其中,W″′表示工作流日志,T″′表示变迁集合,a″′表示变迁集合中的具体活动,b″′表示变迁集合中的具体活动;σ″′表示用户某一操作集合,<t1″′,t2″′,t3″′,...tn″′>表示用户某一操作的具体活动,i表示每一条用户足迹包含的活动数目,n表示每一个用户活动足迹的总数目,ti″′表示某一个用户的第i个活动所表示的字母。
结合α算法生成不含孤立点的工作流网N4的具体步骤如下:
步骤5.1、结合日志次序关系4和教育数据日志统计分析表中的数据得到教育事件日志的关系矩阵4;
步骤5.2、根据α算法的步骤,得出算法中的变迁集合、开始变迁集合和结束变迁集合;
步骤5.3、使用关系矩阵结合α算法构造工作流网N4。
步骤6、根据工作流网N4构建活动间的连接关系,计算每个活动的导航度和权威度,最终对于工作流网N4中设计不合理的活动作出改进。
其中,α算法的定义如下:
a:获取日志中出现的所有事件,这些事件最终构成工作流网中的变迁集合;
b:在a中获取到的变迁中查找开始变迁集合;
c:在a中获取到的变迁中查找结束变迁集合;
d:基于工作流路径确定变迁之间的关系,并形成集合;
e:基于d,确定变迁之间的最大集合;
f:加入开始库所和结束库所;
g:形成工作流网络之间的弧;
h:最终构成完整的工作流网。
下面以一个实例的方式来说明本发明的应用:
实施例1
实验数据:某天用户访问教育系统的日志数据,参照上述步骤,进行以下处理。
步骤1、预处理教育日志数据C1,得到与事件相关的紧密属性的教育日志数据C2和教育数据日志统计分析表;
步骤1.1、去掉准备预处理的教育日志数据C1的部分属性,得到与事件相关的紧密属性的教育日志数据C2;
表1教育日志数据C2
步骤1.2、制定教育数据日志事件和单字母的转换表,得到以下的转换表2;
表2事件转换表
步骤1.3、根据步骤1.2中制定的转换表对教育数据日志C2进行分类,建立和教育日志数据C2中原始数据对应的用户足迹,如下表3所示;
表3转换后的用户足迹
步骤1.4、对用户足迹的出现频率和出现类型进行简要的统计分析,得到教育数据日志统计分析表,如下表4。
表4教育数据日志统计分析表
步骤2、基于传统的日志次序关系1和教育数据日志统计分析表,分别以日志活动为行和列,遍历教育日志数据C2,以传统日志次序关系1为规则,构造关系矩阵1,结合关系矩阵1与α算法,将满足因果关系的行和列组织起来,使用α算法的第5步,移除不是最大的因果关系,生成工作流网N1;
得到教育事件日志的关系矩阵1,如下表5所示:
表5使用原始日志次序关系1得到的关系矩阵1
结合关系矩阵1与α算法,得到变迁集合、开始变迁集合和结束变迁集合,结果如下;
变迁集合:{A,B,C,D,E}
开始变迁集合:{A}
结束变迁集合:{D}
通过α算法构造工作流网N1,可得到如下结果;
(1)TL={A,B,C,D,E};
(2)TI={A};
(3)TO={D};
(4)XL={({A},{B}),({A},{E}),({B},{D}),({E},{D})};
(5)YL={({A},{B,E}),({B,E},{D})};
(6)PL={p({A},{B,E}),p({B,E},{D}),iL,oL};
(7)
(8)α(L)=(PL,TL,FL);
其中,TL表示出现在日志中的活动,TI表示开始活动的集合,TO表示结束活动的集合,XL表示活动之间的连接关系,YL表示连接关系不是最大的集合都被移除,PL表示包含开始库所iL和结束库所oL的关系,FL表示生成工作流网的弧,αL表示最后构成的工作流网,形成的工作流网N1如图2所示。
步骤3、工作流网N1中存在与其他部分并不相连的孤立点,基于日志次序关系2和教育数据日志统计分析表,分别以日志活动为关系矩阵2的行和列,遍历教育日志数据C2,以日志次序关系2为规则,构造关系矩阵2,结合关系矩阵2与α算法,生成工作流网N2;
得到教育事件日志的关系矩阵2,如下表6所示:
表6使用改进日志次序关系2得到的关系矩阵2
结合关系矩阵2与α算法,得出算法中的变迁集合、开始变迁集合和结束变迁集合;
变迁集合:{A,B,C,D,E}
开始变迁集合:{A}
结束变迁集合:{D}
通过α算法构造工作流网N2,可得到如下结果;
(1)TL'={A,B,C,D,E};
(2)TI'={A};
(3)TO'={D};
(4)XL'={({A},{B}),({A},{E}),({B},{D}),({E},{D}),({B},{D})};
(5)YL'={({A},{B,E}),({B,E},{D}),(B,(C,D))};
(6);
(7)
(8)α(L)'=(PL',TL',FL');
其中,TL′表示出现在日志中的活动,TI′表示开始活动的集合,TO′表示结束活动的集合,XL′表示活动之间的连接关系,YL′表示连接关系不是最大的集合都被移除,PL′表示包含开始库所iL′和结束库所oL′的关系,FL′表示生成工作流网的弧,αL′表示最后构成的工作流网,形成的工作流网N2如图3所示。
步骤4、工作流网N2中存在与其他部分并不相连的孤立点,基于日志次序关系3和教育数据日志统计分析表,分别以日志活动为行和列,遍历教育日志数据C2,以日志次序关系3为规则,构造关系矩阵3,结合关系矩阵3与α算法,生成工作流网N3;
得到教育事件日志的关系矩阵3,如下表7所示:
表7使用现有改进日志次序关系3得到的关系矩阵3
结合关系矩阵3与α算法,得出算法中的变迁集合、开始变迁集合和结束变迁集合;
变迁集合:{A,B,C,D,E}
开始变迁集合:{A}
结束变迁集合:{D}
通过α算法构造工作流网N3,可得到如下结果;
(1)TL”={A,B,C,D,E};
(2)TI”={A};
(3)TO”={D};
(4)XL”={({A},{B}),({A},{E}),({B},{D}),({E},{D})};
(5)YL”={({A},{B,E}),({B,E},{D})};
(6)PL”={p({A},{B,E}),p({B,E},{D}),iL”,oL″};
(7)
(8)α(L)”=(PL”,TL”,FL”);
其中,TL″表示出现在日志中的活动,TI″表示开始活动的集合,To″表示结束活动的集合,XL″表示活动之间的连接关系,YL″表示连接关系不是最大的集合都被移除,PL″表示包含开始库所iL″和结束库所OL″的关系,FL″表示生成工作流网的弧,αL″表示最后构成的工作流网,形成的工作流网N3如图4所示。
步骤5、工作流网N3中存在与其他部分并不相连的孤立点,定义日志次序关系4,根据日志次序关系4和教育数据日志统计分析表,分别以日志活动为行和列,遍历教育日志数据C2,以日志次序关系4为规则,构造关系矩阵4,结合关系矩阵4与α算法,生成不含孤立点的工作流网N4;
得到教育事件日志的关系矩阵4,如下表8所示:
表8使用我们改进的日志次序关系4得到的关系矩阵4
结合关系矩阵4与α算法,得出算法中的变迁集合,开始变迁集合和结束变迁集合;
变迁集合:{A,B,C,D,E}
开始变迁集合:{A}
结束变迁集合:{D}
通过α算法的构造工作流网N4,可得到如下结果;
(1)TL”'={A,B,C,D,E};
(2)TI”'={A};
(3)TO”'={D};
(4)XL”'={({A},{B}),({A},{E}),({B},{D}),({E},{D}),({B},{C}),({C},{B})};
(5)YL”'={({A},{B,E}),({B,E},{D}),({B},{C,D}),({A,C},{B})};
(6)PL”'={p({A},{B,E}),p({B,E},{D}),p({B},{C,D}),p({A,C},{B}),iL”',oL”'};
(7)
(8)α(L)”'=(PL”',TL”',FL”')
其中,TL″′表示出现在日志中的活动,TI″′表示开始活动的集合,TO″′表示结束活动的集合,XL″′表示活动之间的连接关系,YL″′表示连接关系不是最大的集合都被移除,PL″′表示包含开始库所iL″′和结束库所OL″′的关系,FL″′表示生成工作流网的弧,αL″′表示最后构成的工作流网,形成的工作流网N4如图5所示。
步骤6、根据工作流网N4构建活动间的连接关系,计算每个活动的导航度和权威度,最终对于工作流网中设计不合理的活动作出改进。其中N1和N3不是一个完整的工作流网络,其中包含一个孤立点;其中N2中有一个点中没有输出库所,故而不完整;其中N4是一个完整的工作流网络。
本发明说明书附图的图1、图2以及图3为原始日志次序关系1、变体的日志次序关系2以及日志次序关系3构造出来的工作流网,如图4为使用我们改进的日志次序关系4构造出来的完整工作流网,从结果来看,在图1、图2以及图3中,均将事件C遗漏,事件C在日志中存在…BCB…的形式,故符合2循环问题。在通过使用我们改进的日志次序构造工作流网时,可看出工作流网是完整的,没有任何事件被遗漏,优化效果明显,达到了预期的效果。