CN113361259B

CN113361259B - 一种服务流程抽取方法

Info

Publication number: CN113361259B
Application number: CN202110623083.XA
Authority: CN
Inventors: 曹斌; 程钦男; 莫志强; 范菁
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2024-04-30
Anticipated expiration: 2041-06-04
Also published as: CN113361259A

Abstract

本发明公开了一种服务流程抽取方法，首先用Bert进行语义编码得到词向量表示，然后通过BILSTM获取句子中的上下文特征，同时通过multi‑head attention机制获取跨句子之间的特征，即从不同的粒度对信息进行编码，之后通过门机制融合句子中和跨句子之间的特征，获得文档中丰富的上下文语义编码信息，然后通过多任务优化从局部和全局角度学习事件之间的顺序关系最终得到有序事件序列。本发明能够在文档级别上实现有序事件的提取，从不同的粒度即句子中和跨句子之间获取丰富的上下文语义编码信息，最后通过局部事件对排序任务以及全局任务对事件进行打分并排序得到有序事件序列。

Description

一种服务流程抽取方法

技术领域

本发明属于服务流程管理和自然语言处理交叉领域，尤其涉及一种服务流程抽取方法。

背景技术

在服务流程管理领域，服务流程是指为满足客户服务需求，将两个以上具有相互联系和相互作用的相关流程节点进行有序排列组合成具有特定结构和服务功能的有机整体。服务流程在现实世界中有多种存在形式，最为常见的是文本描述形式，如何从文本描述中有效挖掘潜在的服务流程具有十分重要的意义。

然而，在实际操作中进行服务流程内部的事件序列抽取并不是一件容易的事情，因为与事件序列提取相关文献中的大多数工作都假定事件发生的顺序与文本描述的顺序是一致的：从文本抽取到了事件，并且将抽取到的事件按文本的描述顺序进行排列就认为得到了事件序列。然而当文本是非过程文本时，这种假设是有问题的，也就是指在非过程文本中，文本描述的事件顺序并不是事件真实发生的顺序，因为当某个过程或者事件比较重要时，作者会将其优先描述以起到强调的作用。常见的，在语文中存在一种“倒叙”的写作手法，先描述事件的结局再描述整个事件的过程，显而易见，在“倒叙”的写作手法下，文本描述的事件顺序并不是事件真实发生的顺序。同时，有序事件序列提取又是一项非常困难的任务，因为判断事件的顺序需要充分考虑文章的上下文来收集有用的信息。

发明内容

本发明的目的在于针对现有技术的不足，提供一种服务流程抽取方法。

本发明的目的是通过以下技术方案来实现的：一种服务流程抽取方法，包括以下步骤：

S1：对数据集中的文档进行数据预处理。

S2：将步骤S1预处理得到的数据基于Bert编码，得到各个词的词向量表示。

S3：基于步骤S2得到的词向量表示，使用单层BILSTM捕获句子中的有效上下文特征。

S4：基于步骤S2得到的词向量表示，使用multi-head attention机制捕获跨句子之间的有效上下文特征。

S5：基于步骤S3和S4得到的上下文特征，使用特征融合层进行特征融合，即融合来自不同粒度的上下文特征。

S6：多任务联合优化，主要包含pairwise局部任务和listwise全局任务。基于pairwise算法得到任意两个事件对的序列关系；在给定文档和事件的条件下，基于listwise算法，模型需要给出与每个事件相对应的等级值，根据事件相对应的等级值得到相应的事件序列关系。之后联合训练pairwise局部任务和listwise全局任务。

S7：使用全局推断模块解决事件对之间无法满足传递性的冲突，训练得到服务流程抽取模型。

进一步地，所述的数据预处理方式，包括：对数据集中的事件进行标注，并标注相应的事件id。

进一步地，所述的预处理之后的数据基于bert编码得到词向量表示，具体是指：bert模型能够对单词的语义信息进行建模，建模之后可应用于各种下游任务。给定一个文档d，对于文档中的每个字符输入到bert模型中：

其中，表示第i个句子中的第n个字符以及相应的单词经过bert编码后的表示形式。

进一步地，所述的使用单层BILSTM捕获句子中的有效上下文特征，具体是指：BILSTM能够捕获句子级别的有效上下文特征，因此在句子上应用了单层BILSTM。基于Bert输出的词向量表示，通过BILSTM层得到句子的特征向量表示：

其中，表示第i个句子中的第n个字符经由BILSTM层得到的特征表示。

进一步地，所述的使用multi-head attention机制捕获跨句子之间的有效上下文特征，具体是指：距离是BILSTM特征提取效果的主要限制因素，因此仅使用BILSTM来提取句子中的上下文特征，对于跨句子之间的上下文特征提取，使用了multi-head attention机制，同时定义该层为MHA。基于Bert输出的词向量表示，通过MHA层得到句子的特征向量表示：

其中，表示第i个句子中的第n个字符经由MHA层得到的特征表示。

进一步地，所述的使用特征融合层融合来自不同粒度的上下文特征，具体是指：考虑到并非所有特征都对最终的事件序列抽取任务做出同等的贡献，采用门机制来加权不同粒度的上下文信息，定义门机制如下：

其中，g表示门机制的注意力向量，W₁和W₂是模型需要学习的权重系数，b是模型需要学习的偏差系数。σ表示的是sigmoid激活函数。⊙表示向量中对应元素逐个相乘。表示第i个句子中的第n个字符的特征融合表示。

进一步地，所述的多任务联合优化模块中的pairwise局部任务，具体是指：假设E_n是从文档D_n中提取得到的事件集合，e_i、e_j表示事件集合E_n中任意两个不同的事件，输入文档D_n中任意事件对(e_i，e_j)，输出得到事件对的序列关系，其中输出“0”表示事件对的顺序是正序，即事件e_i出现在事件e_j之前；同样输出“1”表示事件对的顺序是逆序，即事件e_i出现在事件e_j之后。因此可以将该任务定义为二分类任务，使用两层的多层感知机作为模型，基于多粒度上下文编码模块得到的事件词的向量表示，输入到多层感知机中：

其中，r表示的是二分类的类别，并且r∈{0，1}，p(r|e_i，e_j)表示模型输出的二分类问题的概率值；W₁′、W₂′表示权重矩阵，b₁、b₂表示偏差向量，σ表示sigmoid激活函数，表示基于多粒度上下文编码模块得到的事件词的向量表示。

给定标注好的语料S_D表示文档的总数量，定义优化函数如下：

其中，x_n和y_n分别表示第n个训练事件对和事件对在标注语料库D中对应的标签；θ_L表示模型需要学习的参数值；表示x_n的观测值，即模型给出的预测值；/>表示指示函数，/>为真则指示函数值为1，否则指示函数值为0；/>是第n个训练事件对在参数为θ_L的情况下，模型给出事件对序列关系预测的概率值。

进一步地，所述的多任务联合优化模块中的listwise全局任务，具体是指：listwise模型需要在给定文档和事件的条件下给出与每个事件相对应的分数。定义该层输入为文档D_n中的所有事件，输出为每个事件所对应的等级值，之后根据等级值对事件进行排序，并获得与文档相对应的事件序列。使用两层的多层感知机作为计分模型，基于多粒度上下文编码模块得到的事件词的词向量表示，输入到多层感知机中：

score(e)＝W₂〞·tanh(W₁〞·r_e+b₁′)+b₂′

其中，e表示任意事件，score(e)表示事件的预测分数；W₁〞、W₂〞表示权重矩阵，b₁′、b₂′表示偏差向量，r_e表示基于多粒度上下文编码模块得到的事件词的向量表示，tanh为激活函数。并且采用smooth L1 loss。定义优化函数如下：

其中，p表示模型给出的预测标签、q是真实标签，具体的，表示在第D_i个文档对应的事件序列中第j个事件相对应的真实等级值，/>表示第D_i个文档对应的事件序列中第j个事件相对应的模型给出的对事件的预测分数score(e)。

进一步地，所述的联合训练pairwise局部任务和listwise全局任务，具体是指：仅在模型训练阶段使用listwise全局任务，在测试阶段，仅使用pairwise局部任务来获取完整的事件序列。定义联合训练的联合损失函数如下：

J(θ)＝L(θ_L)+λG(θ_G)

其中，λ是超参数用来平衡L(θ_L)和G(θ_G)。

进一步地，所述的使用全局推断模块来解决事件对之间无法满足传递性的冲突，具体是指：首先利用模型得到两两事件对之间的序列关系，从而得到整个事件序列，但是整个事件序列并不满足传递性约束。使用整数线性规划解决不能满足传递性约束的问题。定义为二元指示变量，当且仅当st＝pr时变量值才能取到1，st是事件序列关系的真实标签，pr是事件对序列关系的预测标签。/>表示模型预测事件对(e_i，e_j)序列关系为pr的置信度，该置信度产生自事件序列抽取模型中的softmax层的输出。为了获得全局最优分配结果，定义目标函数如下：

其中，E是事件的集合，R是事件序列关系标签集。约束条件表示如果事件对的关系标签为pr₁，事件对/>的关系标签为pr₂，那么事件对/>的关系标签pr₃必须满足如上约束条件。

本发明的有益效果是：本发明提供了一种新的模型在文档级别上实现了服务流程抽取，该模型首先学习面向有序事件序列的词向量表示，这些词向量表示通过深度学习模型BILSTM和multi-attention包含来自不同粒度的信息(句子级别和跨句子级别)同时本发明提出了两项任务：pairwise局部任务和listwise全局任务。在此基础上，该模型可以通过多任务优化从局部角度最小化事件对分类中的错误，从全局角度最小化事件排序的错误。

附图说明

图1是本发明提出方法的流程图；

图2是本发明设计的服务流程抽取模型的架构图；

图3是本发明设计的数据集构建图。

具体实施方式

本发明将服务流程中的流程节点视作事件，针对非结构文本进行事件识别，并在理解文本语义的基础上对事件间的序列关系进行抽取，进而形成由事件构成的服务流程模型。本发明可以看作是一种面向自然语言描述文本的过程挖掘技术。基于本发明提取服务过程模型可以帮助用户发现、监控和改进实际业务事件，进而优化现有服务流程，使其更好地反映企业现实业务。

本发明公开一种服务流程抽取方法。基于Bert、BILSTM、multi-head attention机制以及pairwise、listwise排序方法，智能地从服务流程中提取出候选事件集合，再对事件进行排序得到有序的事件序列，得到的有序事件序列可应用于服务流程管理领域的多个下游任务。本发明能够有效对事件的顺序进行建模，解决了服务流程中有序事件抽取文本所描述的事件顺序与事件真实发生的顺序不一致的难点。本发明首先用Bert进行语义编码得到词向量表示，然后通过BILSTM获取句子中的上下文特征，同时利用multi-headattention机制获取跨句子之间的特征，从不同的粒度对信息进行编码。之后通过门机制融合句子中和跨句子之间的特征，获得文档中丰富的上下文语义编码信息，然后通过多任务优化从局部和全局角度学习事件之间的顺序关系最终得到有序事件序列。在服务流程中，本发明能够在文档级别上实现有序事件的提取，从不同的粒度即句子中和跨句子之间获取丰富的上下文语义编码信息，最后通过局部事件对排序任务以及全局任务对事件进行打分并排序得到有序事件序列。

下面根据附图和优选实施例详细描述本发明，本发明的目的和效果将变得更加明白，应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明公开一种服务流程抽取方法，服务流程在现实世界中有多种存在形式，最为常见的是文本描述形式，本发明基于Bert、BILSTM、multi-head attention机制以及pairwise、listwise排序方法，智能地从非结构化文本中提取出服务流程，得到的服务流程可应用于服务流程管理领域的多个下游任务。本发明将服务流程中的流程节点视作事件，针对非结构文本进行事件识别，并在理解文本语义的基础上对事件间的序列关系进行抽取，进而形成由事件构成的服务流程模型。在服务流程中，本发明能够实现在文档级别上进行有序事件的提取，从不同的粒度即句子中和跨句子之间获取丰富的上下文语义编码信息，最后通过局部事件对排序任务以及全局任务对事件进行打分并排序得到有序事件序列。如图1所示，包括以下步骤：

考虑到目前并没有用于从文本中提取事件序列任务的公共数据集，本发明通过TimeBank(TB)，AQUAINT(AQ)，Platinum(PL)和MATRES构造了一个数据集。TB、AQ和PL提供文档和相应的事件注释，MATRES在TB、AQ和PL中提供关系注释。TB、AQ和PL提供的文档的局限性之一是它们数量众多且复杂。因此，为了简化内容，如图3所示，对于每个文档，本发明首先通过一个滑动窗口(其中滑动窗口大小为k，步长为1)将其分割成一些小文档。然后，本发明为每个小文档构建一个对应的图，其中节点代表事件，边代表关系。最后，本发明提取图中最长的路径(最长的事件序列)作为相应文档的注释。

本发明的数据集构建和格式化方式如下：

x＝document(sent₁，sent₂，...sent_k)

y＝eventSequence(event₁，event₂，...event_k)

其中，x、y分别表示训练样本(文档共包含k个句子)和训练样本相对应的标签，sent表示句子，event表示句子里面标注出来的事件。

至此，本发明的数据集已经建立，并进行了总结，数据统计结果见表1(#OriginalDoc表示原始文档的数量；#Doc表示修改之后的文档数量；#Pair表示事件对数量，每个修改的文档对应多个事件对；#ES表示事件序列数，每个修改的文档对应一个事件序列)。在实验中，本发明根据正式划分，以TB和AQ为训练集，PL为测试集。此外，为了调整超参数，本发明从训练集中分配20％的数据作为验证集。

表1：本发明设计的数据集统计结果

	#Original Doc	#Doc	#Pair	#ES
					TimeBank	183	839	4170	839
Aquaint	72	571	4705	571
					Platinum	20	86	601	86

如图2所示，本发明提出的模型包含三大模块：多粒度上下文编码模块、多任务联合优化模块和全局推断模块。多粒度上下文编码器模块负责从不同角度完全挖掘丰富的上下文信息。然后，在丰富的上下文信息的基础上，将多任务联合优化模块应用于从全局和局部角度优化模型，最终将模型生成的结果传递给全局推断模块，以消除冲突，得到完整的有序事件序列。

1、多粒度上下文编码模块

给定文档d，将文档中的每个句子d_i输入到bert-base模型中，把bert产生的每个字符的单词表示作为词嵌入向量。在使用bert-base模型时，使用最后4层表示的平均值，并在训练过程中冻结权重。

对于文档d中的每个字符通过bert-base模型进行词向量表示：

其中，分别表示第i个句子中第n个字符和对应的词向量表示。

然后将bert中输出的词向量表示作为输入输入到BILSTM层中，使得模型能够学习到句子中的上下文特征：

其中，表示第i个句子中的第n个字符经由BILSTM层之后得到的特征表示。

之后将bert输出的词向量表示作为输入，输入到multi-head attention层中，使得模型能够学习到跨句子之间的上下文特征：

其中，表示第i个句子中的第n个字符经由MHA(multi-head attention)层的特征表示。

考虑到并非所有特征都对最终的事件序列抽取任务做出同等的贡献，本发明采用门机制来加权不同粒度的上下文特征，而不是直接添加或者拼接上下文特征：

其中，g表示门机制的注意力向量，σ表示的是sigmoid激活函数，W₁和W₂是模型需要学习的权重矩阵，b是模型需要学习的偏差向量；表示第i个句子中的第n个字符的特征融合表示，⊙表示元素智能相乘，即向量中对应元素逐个相乘。

2、多任务联合优化模块

通过多粒度上下文编码模块获得丰富的上下文表示之后，本发明构建多任务联合优化模块以从局部和全局角度挖掘事件的顺序关系。

假设E_n是从文档D_n中提取得到的事件集合，e_i、e_j表示事件集合E_n中任意两个不同的事件，输入文档D_n中任意事件对(e_i,e_j)，输出得到事件对的序列关系，其中输出“0”表示事件对的顺序是正序，即事件e_i出现在事件e_j之前；同样输出“1”表示事件对的顺序是逆序，即事件e_i出现在事件e_j之后。因此可以将该任务定义为二分类任务，本发明使用两层的多层感知机作为模型，基于多粒度上下文编码模块得到的事件词的向量表示，输入到多层感知机中得到事件对关系的概率关系：

其中，r表示的是二分类的类别，并且r∈{0,1}，p(r|e_i,e_j)表示模型输出的二分类问题的概率值；W₁′、W₂′表示权重矩阵，b₁、b₂表示偏差向量，σ表示sigmoid激活函数，表示基于多粒度上下文编码模块得到的事件词的向量表示。

如果仅仅使用pairwise局部任务，就会让模型的学习目标变成最小化事件对分类的错误，然而事件排序是在一个事件列表上进行预测的任务。listwise模型需要在给定文档和事件的条件下给出与每个事件相对应的分数。本发明定义该层输入为文档D_n中的所有事件，输出为每个事件所对应的等级值，之后根据等级值对事件进行排序，并获得与文档相对应的事件序列。本发明使用两层的多层感知机作为计分模型，基于多粒度上下文编码模块得到的事件词的向量表示，输入到多层感知机中：

score(e)＝W₂″·tanh(W₁″·r_e+b₁′)+b₂′

其中，e表示任意事件，score(e)表示事件的预测分数；W₁″、W₂″表示权重矩阵，b₁′、b₂′表示偏差向量，r_e表示基于多粒度上下文编码模块得到的事件词的向量表示，tanh为激活函数。并且本发明采用smooth L1损失，定义优化函数如下：

其中，p表示模型给出的预测标签、q是真实标签，具体的，表示在第D_i个文档对应的事件序列中第j个事件相对应的真实等级值(事件序列标签)，/>表示第D_i个文档对应的事件序列中第j个事件相对应的模型给出的对事件的预测分数即score(e)。之后将pairwise局部任务和listwise全局任务进行联系训练：

J(θ)＝L(θ_L)+λG(θ_G)

其中，λ是超参数用来平衡L(θ_L)和G(θ_G)。

3、全局推断模块

通过pairwise可以得到两两事件对的序列关系，从而得到一个完整的事件序列，但是整个事件序列并不满足传递性约束。例如，模型识别事件对结果说明整个事件序列的传递性约束并不能得到满足。

本发明使用整数线性规划解决不能满足传递性约束的问题。定义为二元指示变量，当且仅当st＝pr时变量值才能取到1，st是事件序列关系的真实标签，pr是事件对序列关系的预测标签。/>表示模型预测事件对(e_i,e_j)序列关系为pr的置信度，该置信度产生自事件序列抽取模型中的softmax层的输出。

为了获得全局最优分配结果，我们定义目标函数如下：

其中，E是事件的集合，R是事件序列关系标签集。约束条件表示如果事件对的关系标签为pr₁，事件对/>的关系标签为pr₂，那么事件对/>的关系标签pr₃必须满足如上约束条件。例如，事件对关系三元组(pr₁，pr₂，pr₃)包括(0，0，0)和(1，1，1)。

至此，服务流程抽取模型已经训练完成，就可以实现输入一段文本，输出这个文本所对应的有序事件序列。

对于本领域的技术人员来说，可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内，所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims

1.一种服务流程抽取方法，其特征在于，包括以下步骤：

S1：对数据集中的文档进行数据预处理；

S2：将步骤S1预处理得到的数据基于Bert编码，得到各个词的词向量表示；

S3：基于步骤S2得到的词向量表示，使用单层BILSTM捕获句子中的有效上下文特征；

S4：基于步骤S2得到的词向量表示，使用multi-head attention机制捕获跨句子之间的有效上下文特征；

S5：基于步骤S3和S4得到的上下文特征，使用特征融合层进行特征融合，即融合来自不同粒度的上下文特征；

S6：通过多任务联合优化模块进行多任务联合优化，主要包含pairwise局部任务和listwise全局任务；基于pairwise算法得到任意两个事件对的序列关系；在给定文档和事件的条件下，基于listwise算法，模型需要给出与每个事件相对应的等级值，根据事件相对应的等级值得到相应的事件序列关系；之后联合训练pairwise局部任务和listwise全局任务；

S7：使用全局推断模块解决事件对之间无法满足传递性的冲突，训练得到服务流程抽取模型；包括：首先利用模型得到两两事件对之间的序列关系，从而得到整个事件序列，但是整个事件序列并不满足传递性约束；使用整数线性规划解决不能满足传递性约束的问题；定义为二元指示变量，当且仅当st＝pr时变量值才能取到1，st是事件序列关系的真实标签，pr是事件对序列关系的预测标签；/>表示模型预测事件对(e_i,e_j)序列关系为pr的置信度，该置信度产生自事件序列抽取模型中的softmax层的输出；为了获得全局最优分配结果，定义目标函数如下：

其中，E是事件的集合，R是事件序列关系标签集；约束条件表示如果事件对的关系标签为pr₁，事件对/>的关系标签为pr₂，那么事件对/>的关系标签pr₃必须满足如上约束条件。

2.根据权利要求1所述的服务流程抽取方法，其特征在于，所述的数据预处理方式，包括：对数据集中的事件进行标注，并标注相应的事件id。

3.根据权利要求1所述的服务流程抽取方法，其特征在于，所述的预处理之后的数据基于bert编码得到词向量表示，具体是指：bert模型能够对单词的语义信息进行建模，建模之后可应用于各种下游任务；给定一个文档d，对于文档中的每个字符输入到bert模型中：

4.根据权利要求1所述的服务流程抽取方法，其特征在于，所述的使用单层BILSTM捕获句子中的有效上下文特征，具体是指：BILSTM能够捕获句子级别的有效上下文特征，因此在句子上应用了单层BILSTM；基于Bert输出的词向量表示，通过BILSTM层得到句子的特征向量表示：

5.根据权利要求1所述的服务流程抽取方法，其特征在于，所述的使用multi-headattention机制捕获跨句子之间的有效上下文特征，具体是指：距离是BILSTM特征提取效果的主要限制因素，因此仅使用BILSTM来提取句子中的上下文特征，对于跨句子之间的上下文特征提取，使用了multi-head attention机制，同时定义该层为MHA；基于Bert输出的词向量表示，通过MHA层得到句子的特征向量表示：

6.根据权利要求1所述的服务流程抽取方法，其特征在于，所述的使用特征融合层融合来自不同粒度的上下文特征，具体是指：考虑到并非所有特征都对最终的事件序列抽取任务做出同等的贡献，采用门机制来加权不同粒度的上下文信息，定义门机制如下：

其中，g表示门机制的注意力向量，W₁和W₂是模型需要学习的权重系数，b是模型需要学习的偏差系数；σ表示的是sigmoid激活函数；⊙表示向量中对应元素逐个相乘；表示第i个句子中的第n个字符的特征融合表示。

7.根据权利要求1所述的服务流程抽取方法，其特征在于，所述的多任务联合优化模块中的pairwise局部任务，具体是指：假设E_n是从文档D_n中提取得到的事件集合，e_i、e_j表示事件集合E_n中任意两个不同的事件，输入文档D_n中任意事件对(e_i,e_j)，输出得到事件对的序列关系，其中输出“0”表示事件对的顺序是正序，即事件e_i出现在事件e_j之前；同样输出“1”表示事件对的顺序是逆序，即事件e_i出现在事件e_j之后；因此可以将该任务定义为二分类任务，使用两层的多层感知机作为模型，基于多粒度上下文编码模块得到的事件词的向量表示，输入到多层感知机中：

其中，r表示的是二分类的类别，并且r∈{0,1}，p(r|e_i,e_j)表示模型输出的二分类问题的概率值；W₁′、W₂′表示权重矩阵，b₁、b₂表示偏差向量，σ表示sigmoid激活函数，表示基于多粒度上下文编码模块得到的事件词的向量表示；

8.根据权利要求1所述的服务流程抽取方法，其特征在于，所述的多任务联合优化模块中的listwise全局任务，具体是指：listwise模型需要在给定文档和事件的条件下给出与每个事件相对应的分数；定义该层输入为文档D_n中的所有事件，输出为每个事件所对应的等级值，之后根据等级值对事件进行排序，并获得与文档相对应的事件序列；使用两层的多层感知机作为计分模型，基于多粒度上下文编码模块得到的事件词的词向量表示，输入到多层感知机中：

score(e)＝W₂″·tanh(W₁″·r_e+b₁′)+b₂′

其中，e表示任意事件，score(e)表示事件的预测分数；W₁″、W₂″表示权重矩阵，b₁′、b₂′表示偏差向量，r_e表示基于多粒度上下文编码模块得到的事件词的向量表示，tanh为激活函数；并且采用smooth L1 loss；定义优化函数如下：

9.根据权利要求1所述的服务流程抽取方法，其特征在于，所述的联合训练pairwise局部任务和listwise全局任务，具体是指：仅在模型训练阶段使用listwise全局任务，在测试阶段，仅使用pairwise局部任务来获取完整的事件序列；定义联合训练的联合损失函数如下：

J(θ)＝L(θ_L)+λG(θ_G)

其中，λ是超参数用来平衡L(θ_L)和G(θ_G)。