CN107341611A

CN107341611A - 一种基于卷积神经网络的业务流程推荐方法

Info

Publication number: CN107341611A
Application number: CN201710546649.7A
Authority: CN
Inventors: 尹建伟; 熊凯; 罗智凌; 邓水光; 李莹; 吴朝晖; 吴健
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-07-06
Filing date: 2017-07-06
Publication date: 2017-11-10

Abstract

本发明公开了一种基于卷积神经网络的业务流程推荐方法，包括：(1)业务流程数据集的标准化；(2)基于矩阵变换的特征提取；(3)多层卷积核操作；(4)子采样和分类；(5)模型迭代调参。本发明创新性地将业务流程推荐问题抽象为图分类问题，并采用改进的卷积神经网络技术对问题进行求解，该方法绝大部分时耗集中于线下的训练模块，线上推荐时间复杂度很小，从而显著增强了推荐的实时性；另一方面，本发明方法可以适用于任何含有复杂结构的业务流程推荐问题中，因而有效地提高了推荐的平均准确率。

Description

一种基于卷积神经网络的业务流程推荐方法

技术领域

本发明属于业务流程建模及推荐技术领域，具体设计一种基于卷积神经网络的业务流程推荐方法。

背景技术

业务流程管理是现代企业信息化发展的重要组成部分，高效而精准的业务流程建模是现代企业在应对频繁变化的市场需求时的必然要求。由于人工建模复杂性较高并且需要投入大量的人力物力，所以业界对于辅助流程建模技术的需求日益迫切，业务流程推荐是目前国内外最有效的辅助流程建模技术之一。

虽然推荐系统已经被广泛运用于学术和工业领域，但是对于业务流程的推荐工作仍然是一个比较新的研究领域。基于流程管理的不同目的，目前国内外主要有两种类型的业务流程推荐系统：第一种是对已有的完整流程进行重用，即推荐结果是完整的业务流程；第二种是对于流程子图或节点进行重用，推荐的是流程子图或节点。

传统的业务流程推荐算法主要是基于相似度匹配的思想，其基本思想都是通过计算当前构建的流程子图与模式表中流程模型之间的距离，选择距离最小的候选节点推荐给建模人员。其中最有代表性的是基于图编辑距离(graph edit distance，GED)的推荐算法和基于字符串编辑距离(string edit distance，SED)的推荐算法。GED推荐算法采用图的编辑距离作为相似性度量方法进行推荐，该方法通过计算待推荐流程子图与流程模式表中所有流程模式的图编辑距离，将距离最小的流程模式对应的后续节点作为推荐结果；这种方法能够支持流程图中的并行模型，但由于GED的计算存在NP-hard问题，算法时间会随着图的节点个数的增加呈指数增长，推荐效率较低。SED推荐算法使用字符串编辑距离作为图相似性度量指标，该方法将流程图的最小DFS编码作为唯一标识，计算此标识的字符串编辑距离并基于此进行流程子图的匹配；这种方法虽然能够在一定程度上降低算法时间复杂度，但是不适用于对包含循环结构的流程进行匹配和推荐。

综合来讲，上述基于流程相似度匹配的推荐思路主要面临以下两大挑战：

(1)由于每次推荐需要与模式表中的所有流程模式进行比对计算距离，并对距离进行排序后作出推荐，因而导致推荐的时间复杂度很高，推荐实时性难以得到保证。

(2)由于基于距离”计算对图的结构有一定要求，对于图中包含复杂结构(如循环结构)的情况距离的数值意义不能很好的体现流程图间的相似性，从而导致推荐的平均准确率偏低。

发明内容

鉴于上述，本发明提供了一种基于卷积神经网络的业务流程推荐方法，能够适用于任何复杂结构的业务流程推荐问题，从而提高了平均推荐准确率；与此同时，该方法的推荐过程具有极小的时间复杂度，从而显著的增强了推荐的实时性。

一种基于卷积神经网络的业务流程推荐方法，包括如下步骤：

(1)获取一定数量的流程文件并对这些文件进行预处理，得到大量流程子图组成训练集；所述流程子图包括末节点以及由其余节点所组成的上游子图，所述上游子图用于特征训练，所述末节点的类型作为分类标签；

(2)对训练集中的上游子图进行数据标准化，得到对应初始特征矩阵；

(3)对初始特征矩阵进行基于矩阵变换的特征提取得到初始特征图；

(4)对初始特征图进行多层卷积核操作以挖掘初始特征图中的隐含特性，得到最终特征图；

(5)对最终特征图中每一行进行子采样并将采样结果组成训练样本，基于大量训练样本作为全连接神经网络的输入层，采用随机梯度下降算法对该神经网络进行训练从而得到分类模型，通过调用所述分类模型为实际业务流程子图推荐后续流程节点。

所述步骤(1)中对流程文件进行预处理的具体过程为：首先对流程文件中的节点进行语义分类标记，同时隐藏掉节点中的具体文字内容，将流程文件抽象成有向图；然后采用gSpan频繁子图挖掘算法对流程文件进行子图挖掘，得到大量流程子图。

所述步骤(2)中对上游子图进行数据标准化的具体过程为：首先对有向图形式表示的上游子图中的节点重新进行标记，即从0开始以自然数序列为顺序进行标记，并记录每个节点的原始类型；然后把重新标记后的有向图转化为邻接矩阵的形式，即得到对应初始特征矩阵，矩阵中值为1的位置表示对应的两个节点之间存在有向边相关联。

所述步骤(3)中对初始特征矩阵进行基于矩阵变换特征提取的具体过程为：首先基于同构原理从初始特征矩阵中任取两列进行交换即第i列与第j列交换，再取对应的两行进行交换即第i行与第j行交换，i和j均为自然数且1≤i≤N，1≤j≤N，i≠j，N为初始特征矩阵的维度，通过执行多次这样的交换，得到新矩阵的有向图与初始特征矩阵的有向图互为同构，即含有相同的结构信息；然后设定一个n×n大小的窗口沿着新矩阵对角线由左上角至右下角滑动扫描，从而得到一张由N-n+1个n×n大小的小方阵依次平铺组成的初始特征图，n为大于1的自然数。

所述步骤(4)中对初始特征图进行多层卷积核操作的具体过程为：

首先，使初始特征图作为Level-0 Feature与第一层卷积核CL-1直接相连，CL-1中每一片卷积核的大小为h₁×w₁，卷积核总片数为f₁；进而使CL-1与Level-0 Feature进行卷积操作得到第一级特征图Level-1 Feature，即将CL-1中的每一片卷积核分别与Level-0Feature中每一个n×n大小的小方阵进行卷积操作，并将得到的结果对应至Level-1Feature中相应的行和列中，其中h₁＝w₁＝n且CL-1在Level-0 Feature中的移动步长为n，则得到Level-1 Feature的大小为f₁×(N-n+1)；

然后，使Level-1 Feature与第二层卷积核CL-2直接相连，CL-2中每一片卷积核的大小为h₂×w₂，卷积核总片数为f₂；进而使CL-2与Level-1 Feature进行卷积操作得到第二级特征图Level-2 Feature，即将CL-2中的每一片卷积核分别与Level-1 Feature中每一个h₂×w₂大小的子矩阵进行卷积操作，并将得到的结果对应至Level-2 Feature中相应的行和列中，其中h₂＝f₁且CL-2在Level-1 Feature中的移动步长为1，则得到Level-2 Feature的大小为f₂×((N-n+1)-w₂+1)；

依据上述使每一层卷积核与上一级特征图做卷积操作，则得到的最后一级特征图即为最终特征图。

所述步骤(5)中采用Max Pooling对最终特征图中每一行进行子采样。

所述步骤(5)中根据以下损失函数L采用随机梯度下降算法对全连接神经网络进行训练，即通过对卷积核及神经网络迭代调参以确立最优的模型参数，从而得到分类模型；

其中：Num为训练样本总数，K为节点的类别总数，C^(p)为第p个训练样本所对应分类标签的类别序号，Y_k ^(p)和Y_C(p) ^(p)分别为第p个训练样本对应输出的类别概率向量中第k个元素值和第C^(p)个元素值。

对卷积核及神经网络迭代调参的具体表达如下：

其中：ω和ω'分别为迭代更新前后的模型参数，CL₁～CL_m分别为第1层至第m层卷积核的参数，m为卷积核的总层数，w_h和b_h分别为神经网络中输入层与隐藏层之间的权重系数和偏置系数，w_s和b_s分别为神经网络中隐藏层与输出层之间的权重系数和偏置系数，为梯度算子，λ为预设系数。

本发明的有益技术效果如下：

(1)本发明中模型训练阶段和实际测试阶段是分开进行的，虽然线下训练模型耗时较长，但是用于推荐过程的实际测试阶段的耗时极少，一旦通过随机梯度下降迭代计算确定了卷积神经网络各层的参数，那么单次流程分类(推荐)的平均时间复杂度将接近于O(1)；所以相比于GED和SED推荐方法，本发明在业务流程推荐场景的耗时将大大减小，从而具备更强的推荐实时性。

(2)本发明对流程图的结构没有局限，不论原始的业务流程图中是否包含复杂结构(如循环结构)，都可以用有向图的形式进行统一表达，再进一步处理成矩阵等数据结构供算法程序使用，从而很好的规避了GED和SED推荐方法面临的对于复杂结构的局限性；所以整体上讲，在数据允许的条件下，本发明的平均准确率优于其他两种算法。

附图说明

图1为业务流程推荐系统的典型架构示意图。

图2(a)为流程子图对应的矩阵示例图。

图2(b)为流程子图对应的有向图。

图2(c)为流程子图对应重新标记后的有向图。

图3为流程数据转化为邻接矩阵的示意图。

图4为基于矩阵变换的特征提取示意图。

图5为基于滑动窗口得到新特征矩阵的过程示意图。

图6为多卷积核操作的设计流程示意图。

图7为子采样层和分类器的设计流程示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

图1展示了业务流程推荐系统的典型架构，主要包括用户界面、线下挖掘、流程仓库、线上推荐四个模块。用户界面中的流程文件是基于真实的企业流程(如行政许可、方案审批等)，并对其业务节点进行语义分类标记(如申请、受理、审核等，相关文献中一般分为52类)，再隐藏掉流程的具体文字内容，将专业流程图抽象成基本有向图。在线下挖掘模块中，先采用gSpan频繁子图挖掘算法对流程文件进行子图挖掘，得到大量流程子图；然后根据子图中结束节点的位置把子图分解为上游子图us(非结束节点形成的局部图)和候选节点集cns(结束节点集)；最后通过计算所有二元组(us,cns)之间的置信度Conf(cns,us)形成流程模式三元组(us,cns,Conf(cns,us))；进一步地提取出置信度高于一定阈值的组合，将其中的上游子图作为“特征值”，将候选节点集作为“标签”，得到业务流程推荐问题的数据集，并持久化存储在流程仓库中。线上推荐模块即是采用相关推荐算法，对用户给出的待推荐流程子图推荐匹配度高的流程节点。

本发明方法处于线上推荐模块，其求解的问题可以用表1所示：

表1

本发明的核心处理框架包括数据标准化、特征提取、多层卷积核操作、子采样和分类；除此之外，本发明还包括采用随机梯度下降算法进行的对模型的迭代调参过程，具体包括以下步骤：

(1)数据标准化。

图2和图3展示了对业务流程图进行数据标准化的过程，业务流程图的数据集由两部分组成——由流程子图表征的特征值以及由候选流程节点表征的分类标签，数据标准化指的是对流程子图的标准化。

图2展示流程子图的重新标记的过程，图2(a)是该子图的矩阵表示，图2(b)是该子图的有向图表示，在保留图结构的情况下对该图的节点进行重新编号(用从0开始的自然数序列顺序标记)，同时记录节点原始类别信息，得到图2(c)。

图3展示把有向图转化为邻接矩阵，矩阵中数值为1的位置表示对应的两个节点之间连有一条有向边，所得到的邻接矩阵即为初始输入特征图。

(2)基于矩阵变换的特征提取。

典型的卷积神经网络并不需要对输入特征图进行特征提取，但是会使得参数的数目急剧扩增并导致巨大的计算量和内存消耗。本发明对卷积神经网络的结果进行了适当的改进，提出了一种基于矩阵变换的特征提取方法，在对该方法进行具体说明之前先给出其所依赖的一个矩阵变换推论。

推论：设A是n阶矩阵，先交换A的第i列与第j列，再交换第i行与第j行，得到的矩阵记为B，则有：

1.|A|＝|B|

2.r(A)＝r(B)

4.A～B

5.A[*]B

证明：交换A的第i列与第j列，再交换第i行与第j行，相当于右乘、左乘相同的互换初等阵E_ij，即B＝E_ijAE_ij，其中：

①因为|E_ij|＝-1≠0是可逆阵，|E_ij|²＝1，故1,2,3成立；

②E_ij ^-1＝E_ij,则E_ijAE_ij＝E_ij ^-1AE_ij＝B,即A～B，所以4成立；

③E_ij ^T＝E_ij,则E_ijAE_ij＝E_ij ^TAE_ij＝B,即所以5成立。

基于上述理论，对一个有向图的方阵先交换A的第i列与第j列再交换第i行与第j行得到的新矩阵表达的有向图与原图互为同构图，即含有相同的结构信息。基于此，本发明将初始输入特征图中的有用信息(即业务流程图中有向边的连接信息，在矩阵中指值为1的矩阵位置)集中到邻接矩阵的对角线附近，然后选取一个大小为n×n的滑动窗口沿着矩阵对角线由左上角至右下角滑动，得到新的特征图；其中实验参数n可能远小于数据集中单图最大节点数，从而使得最终得到的输入特征图的维度被显著地缩小，同时也保留了原图的有用信息。

图4展示了此步骤的过程。由图4可以看出，当选用滑动窗口的大小n＝3时，对于初始输入特征图的邻接矩阵，有的边信息会位于滑动窗口之外，如图4中所示的位于矩阵右上区域的椭圆深色元素；而在经过矩阵变换之后，矩阵中所有的1都位于滑动窗口扫过的阴影区域，即原始的业务流程图的所有边信息都被集中到了相对较小的范围内；另一方面，可以从图4下方对应的有向图看到，新的特征图所表达的有向图与初始特征图所表达有向图互为同构图，即经过变换后100％的保留了原图的结构信息。

在基于矩阵变换后得到的特征图上，把滑动窗口滑过的区间在水平方向上连在一起，即构成了新的输入特征图，如图5所示。图5中N表示训练集中单图最大节点数，n表示选取的滑动窗口的大小，则原始输入特征图的大小为N×N，新的输入特征图的大小为n×(N-n+1)n。对于真实数据集而言，由于业务流程的场景不一样，业务流程图的节点数可能相差较大；现假设N＝100，n＝10，则经计算可以得到新的输入特征图可以减少近10％的输入特征数量，在多层卷积神经网络中，这样可以有效减少算法对内存的占用以及模型训练时间。

(3)多层卷积核操作。

本步骤对上一步所提取的输入特征图进行多层卷积核操作，以挖掘输入特征图的隐含特性，卷积层的结构如图6所示。把经矩阵变换得到的输入特征图称为Level-0Feature，可以看到Level-0 Feature是由N-n+1个n×n的方阵拼接而成，每个小方阵对应滑动窗口的滑过的某一帧。

第一层卷积核CL-1(Convolution Layer-1)与Level-0 Feature直接相连，其每一片卷积核的大小为h₁×w₁，卷积核总片数为f₁。CL-1与Level-0 Feature进行卷积操作，得到Level-1 Feature，具体过程为：将CL-1中的每一片卷积核分别与Level-0 Feature中的每一个n×n的小方阵进行卷积操作，结果对应到Level-1 Feature中的相应行和列中。由图6所示，CL-1中，h₁＝w₁＝n，且CL-1在Level-0 Feature中的移动步长为n，得到Level-1Feature的大小为f₁×(N-n+1)，其相应位置的计算公式为：

第二层卷积核CL-2(Convolution Layer-1)与Level-1 Feature直接相连，其中每一片卷积核的大小为h₂×w₂，卷积核总片数为f₂。同样，将CL-2与Level-1 Feature进行卷积核操作，得到Level-2 Feature，具体地：将CL-2中的每一片卷积核分别与Level-1中的大小为h₂×w₂的矩阵子区间进行卷积操作，结果对应到Level-2 Feature中对应的相应行和列中。在实际算法实现中，一般令CL-2每一片卷积核的高度与Level-1 Feature的高度一致，即CL-2中h₂＝f₁；另外，为了保证Level-1 Feature中的特征具有平移不变性，CL-2的每一片卷积核在Level-1 Feature中的移动步长为1，得到Level-2 Feature的大小为发f₂×((N-n+1)-w₂+1)，其相应位置的计算公式为：

值得注意的是，在每一个卷积层与上一级特征图做卷积操作得到新一级特征图的过程中，都需要对卷积后的结果做一次非线性激活；本实施方式采用的激活函数是ReLu激活函数，即：

(4)子采样和分类。

本步骤采用的子采样层和分类层结构如图7所示，子采样层是指采用Max pooling对Level-2 Feature中的每一行进行子采样，采样结果写到Final Feature中；如果用y_m向量表示Level-m Feature，y_f向量表示Final Feature，则有如下公式：

Y_f(i)＝max(Y_m(i,:))

得到Final Feature后，经过一个两层的全连接神经网络分类器对其进行分类，得到最终的Output。

特别的，在这个全连接神经网络的第一层中，本实施方式采用典型的Dropout方式随机使部分权重参数失效，避免因训练样本不足导致过拟合问题，Dropout的比率本实施方式中采用经验值20％。如果用Y_h向量表示Hidden Layer，Y_o向量表示Output，w_h,b_h向量和w_s,b_s向量分别表示第一层和第二层的全连接权重参数，那么有：

Y_h(i)＝Σ(Y_f(j)·w₁(j,i)+b₁(i))

Y₀(i)＝Σ(Y_h(j)·w₂(j,i)+b₂(i))

另外，本实施方式在每一层全连接之后，使用Sigmoid激活函数来激活和保存Y_h和Y_o向量的特征，如下式所示：

最后得到的Y_o向量即反应了该样本被分在不同类别的概率。如果用Pr(class＝i)表示该样本被分在第i类(i从0开始编号)的概率，则有如下公式，并且使得Pr(class＝i)最大的i值即是该次训练得到分类类别。

(5)模型迭代调参.

定义Num表示训练样本总数，K表示总的分类类别数，C^(j)表示第j个样本的真实分类，Y_k ^(j)表示训练第j个样本时所得到的Output中的第k个值(表征计算中该样本被分为第k类的概率)，CL_i表示第i层卷积核的参数；那么得到卷积神经网络的代价函数为：

需要训练的参数为：

ω＝(CL₁,CL₂,···,CL_m,w_h,b_h,w_s,b_s)

基于上述代价函数和训练参数，本实施方式采用随机梯度下降算法(StochasticGradient Descent)对卷积神经网络进行训练，通过公式推导，可以得出如下所示的参数更新规则。

定义好损失函数和参数更新规则之后，将采用随机梯度下降算法对模型进行训练，通过反向传播算法确定各层结构的模型参数。

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于卷积神经网络的业务流程推荐方法，包括如下步骤：

2.根据权利要求1所述的业务流程推荐方法，其特征在于：所述步骤(1)中对流程文件进行预处理的具体过程为：首先对流程文件中的节点进行语义分类标记，同时隐藏掉节点中的具体文字内容，将流程文件抽象成有向图；然后采用gSpan频繁子图挖掘算法对流程文件进行子图挖掘，得到大量流程子图。

3.根据权利要求1所述的业务流程推荐方法，其特征在于：所述步骤(2)中对上游子图进行数据标准化的具体过程为：首先对有向图形式表示的上游子图中的节点重新进行标记，即从0开始以自然数序列为顺序进行标记，并记录每个节点的原始类型；然后把重新标记后的有向图转化为邻接矩阵的形式，即得到对应初始特征矩阵，矩阵中值为1的位置表示对应的两个节点之间存在有向边相关联。

4.根据权利要求1所述的业务流程推荐方法，其特征在于：所述步骤(3)中对初始特征矩阵进行基于矩阵变换特征提取的具体过程为：首先基于同构原理从初始特征矩阵中任取两列进行交换即第i列与第j列交换，再取对应的两行进行交换即第i行与第j行交换，i和j均为自然数且1≤i≤N，1≤j≤N，i≠j，N为初始特征矩阵的维度，通过执行多次这样的交换，得到新矩阵的有向图与初始特征矩阵的有向图互为同构，即含有相同的结构信息；然后设定一个n×n大小的窗口沿着新矩阵对角线由左上角至右下角滑动扫描，从而得到一张由N-n+1个n×n大小的小方阵依次平铺组成的初始特征图，n为大于1的自然数。

5.根据权利要求4所述的业务流程推荐方法，其特征在于：所述步骤(4)中对初始特征图进行多层卷积核操作的具体过程为：

6.根据权利要求1所述的业务流程推荐方法，其特征在于：所述步骤(5)中采用MaxPooling对最终特征图中每一行进行子采样。

7.根据权利要求1所述的业务流程推荐方法，其特征在于：所述步骤(5)中根据以下损失函数L采用随机梯度下降算法对全连接神经网络进行训练，即通过对卷积核及神经网络迭代调参以确立最优的模型参数，从而得到分类模型；

<mrow> <mi>L</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>p</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>N</mi> <mi>u</mi> <mi>m</mi> </mrow> </munderover> <mrow> <mo>(</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mo>(</mo> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <mi>exp</mi> <mrow> <mo>(</mo> <mrow> <msup> <msub> <mi>Y</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> </msup> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>-</mo> <msup> <msub> <mi>Y</mi> <msup> <mi>C</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> </msup> </msub> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> </mrow>

8.根据权利要求7所述的业务流程推荐方法，其特征在于：对卷积核及神经网络迭代调参的具体表达如下：

<mfenced open='' close=''> <mtable> <mtr> <mtd> <mi>&omega;</mi> <mo>=</mo> <mo>{</mo> <msub> <mi>CL</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>CL</mi> <mn>2</mn> </msub> <mo>,</mo> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>,</mo> <msub> <mi>CL</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>w</mi> <mi>h</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>h</mi> </msub> <mo>,</mo> <msub> <mi>w</mi> <mi>s</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>s</mi> </msub> <mo>}</mo> </mtd> <mtd> <msup> <mi>&omega;</mi> <mo>&prime;</mo> </msup> <mo>=</mo> <mi>&omega;</mi> <mo>-</mo> <mi>&lambda;</mi> <mo>&dtri;</mo> <mi>L</mi> </mtd> </mtr> </mtable> </mfenced>