CN113361259A - 一种服务流程抽取方法 - Google Patents

一种服务流程抽取方法 Download PDF

Info

Publication number
CN113361259A
CN113361259A CN202110623083.XA CN202110623083A CN113361259A CN 113361259 A CN113361259 A CN 113361259A CN 202110623083 A CN202110623083 A CN 202110623083A CN 113361259 A CN113361259 A CN 113361259A
Authority
CN
China
Prior art keywords
event
model
sequence
representing
events
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110623083.XA
Other languages
English (en)
Other versions
CN113361259B (zh
Inventor
曹斌
程钦男
莫志强
范菁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110623083.XA priority Critical patent/CN113361259B/zh
Publication of CN113361259A publication Critical patent/CN113361259A/zh
Application granted granted Critical
Publication of CN113361259B publication Critical patent/CN113361259B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种服务流程抽取方法,首先用Bert进行语义编码得到词向量表示,然后通过BILSTM获取句子中的上下文特征,同时通过multi‑head attention机制获取跨句子之间的特征,即从不同的粒度对信息进行编码,之后通过门机制融合句子中和跨句子之间的特征,获得文档中丰富的上下文语义编码信息,然后通过多任务优化从局部和全局角度学习事件之间的顺序关系最终得到有序事件序列。本发明能够在文档级别上实现有序事件的提取,从不同的粒度即句子中和跨句子之间获取丰富的上下文语义编码信息,最后通过局部事件对排序任务以及全局任务对事件进行打分并排序得到有序事件序列。

Description

一种服务流程抽取方法
技术领域
本发明属于服务流程管理和自然语言处理交叉领域,尤其涉及一种服务流程抽取方法。
背景技术
在服务流程管理领域,服务流程是指为满足客户服务需求,将两个以上具有相互联系和相互作用的相关流程节点进行有序排列组合成具有特定结构和服务功能的有机整体。服务流程在现实世界中有多种存在形式,最为常见的是文本描述形式,如何从文本描述中有效挖掘潜在的服务流程具有十分重要的意义。
然而,在实际操作中进行服务流程内部的事件序列抽取并不是一件容易的事情,因为与事件序列提取相关文献中的大多数工作都假定事件发生的顺序与文本描述的顺序是一致的:从文本抽取到了事件,并且将抽取到的事件按文本的描述顺序进行排列就认为得到了事件序列。然而当文本是非过程文本时,这种假设是有问题的,也就是指在非过程文本中,文本描述的事件顺序并不是事件真实发生的顺序,因为当某个过程或者事件比较重要时,作者会将其优先描述以起到强调的作用。常见的,在语文中存在一种“倒叙”的写作手法,先描述事件的结局再描述整个事件的过程,显而易见,在“倒叙”的写作手法下,文本描述的事件顺序并不是事件真实发生的顺序。同时,有序事件序列提取又是一项非常困难的任务,因为判断事件的顺序需要充分考虑文章的上下文来收集有用的信息。
发明内容
本发明的目的在于针对现有技术的不足,提供一种服务流程抽取方法。
本发明的目的是通过以下技术方案来实现的:一种服务流程抽取方法,包括以下步骤:
S1:对数据集中的文档进行数据预处理。
S2:将步骤S1预处理得到的数据基于Bert编码,得到各个词的词向量表示。
S3:基于步骤S2得到的词向量表示,使用单层BILSTM捕获句子中的有效上下文特征。
S4:基于步骤S2得到的词向量表示,使用multi-head attention机制捕获跨句子之间的有效上下文特征。
S5:基于步骤S3和S4得到的上下文特征,使用特征融合层进行特征融合,即融合来自不同粒度的上下文特征。
S6:多任务联合优化,主要包含pairwise局部任务和listwise全局任务。基于pairwise算法得到任意两个事件对的序列关系;在给定文档和事件的条件下,基于listwise算法,模型需要给出与每个事件相对应的等级值,根据事件相对应的等级值得到相应的事件序列关系。之后联合训练pairwise局部任务和listwise全局任务。
S7:使用全局推断模块解决事件对之间无法满足传递性的冲突,训练得到服务流程抽取模型。
进一步地,所述的数据预处理方式,包括:对数据集中的事件进行标注,并标注相应的事件id。
进一步地,所述的预处理之后的数据基于bert编码得到词向量表示,具体是指:bert模型能够对单词的语义信息进行建模,建模之后可应用于各种下游任务。给定一个文档d,对于文档中的每个字符
Figure BDA0003100805380000021
输入到bert模型中:
Figure BDA0003100805380000022
其中,
Figure BDA0003100805380000023
表示第i个句子中的第n个字符以及相应的单词经过bert编码后的表示形式。
进一步地,所述的使用单层BILSTM捕获句子中的有效上下文特征,具体是指:BILSTM能够捕获句子级别的有效上下文特征,因此在句子上应用了单层BILSTM。基于Bert输出的词向量表示,通过BILSTM层得到句子的特征向量表示:
Figure BDA0003100805380000024
其中,
Figure BDA0003100805380000025
表示第i个句子中的第n个字符经由BILSTM层得到的特征表示。
进一步地,所述的使用multi-head attention机制捕获跨句子之间的有效上下文特征,具体是指:距离是BILSTM特征提取效果的主要限制因素,因此仅使用BILSTM来提取句子中的上下文特征,对于跨句子之间的上下文特征提取,使用了multi-head attention机制,同时定义该层为MHA。基于Bert输出的词向量表示,通过MHA层得到句子的特征向量表示:
Figure BDA0003100805380000026
其中,
Figure BDA0003100805380000027
表示第i个句子中的第n个字符经由MHA层得到的特征表示。
进一步地,所述的使用特征融合层融合来自不同粒度的上下文特征,具体是指:考虑到并非所有特征都对最终的事件序列抽取任务做出同等的贡献,采用门机制来加权不同粒度的上下文信息,定义门机制如下:
Figure BDA0003100805380000028
Figure BDA0003100805380000029
其中,g表示门机制的注意力向量,W1和W2是模型需要学习的权重系数,b是模型需要学习的偏差系数。σ表示的是sigmoid激活函数。⊙表示向量中对应元素逐个相乘。
Figure BDA00031008053800000210
表示第i个句子中的第n个字符的特征融合表示。
进一步地,所述的多任务联合优化模块中的pairwise局部任务,具体是指:假设En是从文档Dn中提取得到的事件集合,ei、ej表示事件集合En中任意两个不同的事件,输入文档Dn中任意事件对(ei,ej),输出得到事件对的序列关系,其中输出“0”表示事件对的顺序是正序,即事件ei出现在事件ej之前;同样输出“1”表示事件对的顺序是逆序,即事件ei出现在事件ej之后。因此可以将该任务定义为二分类任务,使用两层的多层感知机作为模型,基于多粒度上下文编码模块得到的事件词的向量表示,输入到多层感知机中:
Figure BDA0003100805380000031
其中,r表示的是二分类的类别,并且r∈{0,1},p(r|ei,ej)表示模型输出的二分类问题的概率值;W1′、W2′表示权重矩阵,b1、b2表示偏差向量,σ表示sigmoid激活函数,
Figure BDA0003100805380000032
表示基于多粒度上下文编码模块得到的事件词的向量表示。
给定标注好的语料
Figure BDA0003100805380000033
SD表示文档的总数量,定义优化函数如下:
Figure BDA0003100805380000034
其中,xn和yn分别表示第n个训练事件对和事件对在标注语料库D中对应的标签;θL表示模型需要学习的参数值;
Figure BDA0003100805380000035
表示xn的观测值,即模型给出的预测值;
Figure BDA0003100805380000036
表示指示函数,
Figure BDA0003100805380000037
为真则指示函数值为1,否则指示函数值为0;
Figure BDA0003100805380000038
是第n个训练事件对在参数为θL的情况下,模型给出事件对序列关系预测的概率值。
进一步地,所述的多任务联合优化模块中的listwise全局任务,具体是指:listwise模型需要在给定文档和事件的条件下给出与每个事件相对应的分数。定义该层输入为文档Dn中的所有事件,输出为每个事件所对应的等级值,之后根据等级值对事件进行排序,并获得与文档相对应的事件序列。使用两层的多层感知机作为计分模型,基于多粒度上下文编码模块得到的事件词的词向量表示,输入到多层感知机中:
score(e)=W2〞·tanh(W1〞·re+b1′)+b2
其中,e表示任意事件,score(e)表示事件的预测分数;W1〞、W2〞表示权重矩阵,b1′、b2′表示偏差向量,re表示基于多粒度上下文编码模块得到的事件词的向量表示,tanh为激活函数。并且采用smooth L1 loss。定义优化函数如下:
Figure BDA0003100805380000039
Figure BDA00031008053800000310
其中,p表示模型给出的预测标签、q是真实标签,具体的,
Figure BDA00031008053800000311
表示在第Di个文档对应的事件序列中第j个事件相对应的真实等级值,
Figure BDA0003100805380000041
表示第Di个文档对应的事件序列中第j个事件相对应的模型给出的对事件的预测分数score(e)。
进一步地,所述的联合训练pairwise局部任务和listwise全局任务,具体是指:仅在模型训练阶段使用listwise全局任务,在测试阶段,仅使用pairwise局部任务来获取完整的事件序列。定义联合训练的联合损失函数如下:
J(θ)=L(θL)+λG(θG)
其中,λ是超参数用来平衡L(θL)和G(θG)。
进一步地,所述的使用全局推断模块来解决事件对之间无法满足传递性的冲突,具体是指:首先利用模型得到两两事件对之间的序列关系,从而得到整个事件序列,但是整个事件序列并不满足传递性约束。使用整数线性规划解决不能满足传递性约束的问题。定义
Figure BDA0003100805380000042
为二元指示变量,当且仅当st=pr时变量值才能取到1,st是事件序列关系的真实标签,pr是事件对序列关系的预测标签。
Figure BDA0003100805380000043
表示模型预测事件对(ei,ej)序列关系为pr的置信度,该置信度产生自事件序列抽取模型中的softmax层的输出。为了获得全局最优分配结果,定义目标函数如下:
Figure BDA0003100805380000044
Figure BDA0003100805380000045
其中,E是事件的集合,R是事件序列关系标签集。约束条件表示如果事件对
Figure BDA0003100805380000046
的关系标签为pr1,事件对
Figure BDA0003100805380000047
的关系标签为pr2,那么事件对
Figure BDA0003100805380000048
的关系标签pr3必须满足如上约束条件。
本发明的有益效果是:本发明提供了一种新的模型在文档级别上实现了服务流程抽取,该模型首先学习面向有序事件序列的词向量表示,这些词向量表示通过深度学习模型BILSTM和multi-attention包含来自不同粒度的信息(句子级别和跨句子级别)同时本发明提出了两项任务:pairwise局部任务和listwise全局任务。在此基础上,该模型可以通过多任务优化从局部角度最小化事件对分类中的错误,从全局角度最小化事件排序的错误。
附图说明
图1是本发明提出方法的流程图;
图2是本发明设计的服务流程抽取模型的架构图;
图3是本发明设计的数据集构建图。
具体实施方式
本发明将服务流程中的流程节点视作事件,针对非结构文本进行事件识别,并在理解文本语义的基础上对事件间的序列关系进行抽取,进而形成由事件构成的服务流程模型。本发明可以看作是一种面向自然语言描述文本的过程挖掘技术。基于本发明提取服务过程模型可以帮助用户发现、监控和改进实际业务事件,进而优化现有服务流程,使其更好地反映企业现实业务。
本发明公开一种服务流程抽取方法。基于Bert、BILSTM、multi-head attention机制以及pairwise、listwise排序方法,智能地从服务流程中提取出候选事件集合,再对事件进行排序得到有序的事件序列,得到的有序事件序列可应用于服务流程管理领域的多个下游任务。本发明能够有效对事件的顺序进行建模,解决了服务流程中有序事件抽取文本所描述的事件顺序与事件真实发生的顺序不一致的难点。本发明首先用Bert进行语义编码得到词向量表示,然后通过BILSTM获取句子中的上下文特征,同时利用multi-headattention机制获取跨句子之间的特征,从不同的粒度对信息进行编码。之后通过门机制融合句子中和跨句子之间的特征,获得文档中丰富的上下文语义编码信息,然后通过多任务优化从局部和全局角度学习事件之间的顺序关系最终得到有序事件序列。在服务流程中,本发明能够在文档级别上实现有序事件的提取,从不同的粒度即句子中和跨句子之间获取丰富的上下文语义编码信息,最后通过局部事件对排序任务以及全局任务对事件进行打分并排序得到有序事件序列。
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明公开一种服务流程抽取方法,服务流程在现实世界中有多种存在形式,最为常见的是文本描述形式,本发明基于Bert、BILSTM、multi-head attention机制以及pairwise、listwise排序方法,智能地从非结构化文本中提取出服务流程,得到的服务流程可应用于服务流程管理领域的多个下游任务。本发明将服务流程中的流程节点视作事件,针对非结构文本进行事件识别,并在理解文本语义的基础上对事件间的序列关系进行抽取,进而形成由事件构成的服务流程模型。在服务流程中,本发明能够实现在文档级别上进行有序事件的提取,从不同的粒度即句子中和跨句子之间获取丰富的上下文语义编码信息,最后通过局部事件对排序任务以及全局任务对事件进行打分并排序得到有序事件序列。如图1所示,包括以下步骤:
考虑到目前并没有用于从文本中提取事件序列任务的公共数据集,本发明通过TimeBank(TB),AQUAINT(AQ),Platinum(PL)和MATRES构造了一个数据集。TB、AQ和PL提供文档和相应的事件注释,MATRES在TB、AQ和PL中提供关系注释。TB、AQ和PL提供的文档的局限性之一是它们数量众多且复杂。因此,为了简化内容,如图3所示,对于每个文档,本发明首先通过一个滑动窗口(其中滑动窗口大小为k,步长为1)将其分割成一些小文档。然后,本发明为每个小文档构建一个对应的图,其中节点代表事件,边代表关系。最后,本发明提取图中最长的路径(最长的事件序列)作为相应文档的注释。
本发明的数据集构建和格式化方式如下:
x=document(sent1,sent2,...sentk)
y=eventSequence(event1,event2,...eventk)
其中,x、y分别表示训练样本(文档共包含k个句子)和训练样本相对应的标签,sent表示句子,event表示句子里面标注出来的事件。
至此,本发明的数据集已经建立,并进行了总结,数据统计结果见表1(#OriginalDoc表示原始文档的数量;#Doc表示修改之后的文档数量;#Pair表示事件对数量,每个修改的文档对应多个事件对;#ES表示事件序列数,每个修改的文档对应一个事件序列)。在实验中,本发明根据正式划分,以TB和AQ为训练集,PL为测试集。此外,为了调整超参数,本发明从训练集中分配20%的数据作为验证集。
表1:本发明设计的数据集统计结果
#Original Doc #Doc #Pair #ES
TimeBank 183 839 4170 839
Aquaint 72 571 4705 571
Platinum 20 86 601 86
如图2所示,本发明提出的模型包含三大模块:多粒度上下文编码模块、多任务联合优化模块和全局推断模块。多粒度上下文编码器模块负责从不同角度完全挖掘丰富的上下文信息。然后,在丰富的上下文信息的基础上,将多任务联合优化模块应用于从全局和局部角度优化模型,最终将模型生成的结果传递给全局推断模块,以消除冲突,得到完整的有序事件序列。
1、多粒度上下文编码模块
给定文档d,将文档中的每个句子di输入到bert-base模型中,把bert产生的每个字符
Figure BDA0003100805380000064
的单词表示作为词嵌入向量。在使用bert-base模型时,使用最后4层表示的平均值,并在训练过程中冻结权重。
对于文档d中的每个字符
Figure BDA0003100805380000061
通过bert-base模型进行词向量表示:
Figure BDA0003100805380000062
其中,
Figure BDA0003100805380000063
分别表示第i个句子中第n个字符和对应的词向量表示。
然后将bert中输出的词向量表示作为输入输入到BILSTM层中,使得模型能够学习到句子中的上下文特征:
Figure BDA0003100805380000071
其中,
Figure BDA0003100805380000072
表示第i个句子中的第n个字符经由BILSTM层之后得到的特征表示。
之后将bert输出的词向量表示作为输入,输入到multi-head attention层中,使得模型能够学习到跨句子之间的上下文特征:
Figure BDA0003100805380000073
其中,
Figure BDA0003100805380000074
表示第i个句子中的第n个字符经由MHA(multi-head attention)层的特征表示。
考虑到并非所有特征都对最终的事件序列抽取任务做出同等的贡献,本发明采用门机制来加权不同粒度的上下文特征,而不是直接添加或者拼接上下文特征:
Figure BDA0003100805380000075
Figure BDA0003100805380000076
其中,g表示门机制的注意力向量,σ表示的是sigmoid激活函数,W1和W2是模型需要学习的权重矩阵,b是模型需要学习的偏差向量;
Figure BDA0003100805380000077
表示第i个句子中的第n个字符的特征融合表示,⊙表示元素智能相乘,即向量中对应元素逐个相乘。
2、多任务联合优化模块
通过多粒度上下文编码模块获得丰富的上下文表示之后,本发明构建多任务联合优化模块以从局部和全局角度挖掘事件的顺序关系。
假设En是从文档Dn中提取得到的事件集合,ei、ej表示事件集合En中任意两个不同的事件,输入文档Dn中任意事件对(ei,ej),输出得到事件对的序列关系,其中输出“0”表示事件对的顺序是正序,即事件ei出现在事件ej之前;同样输出“1”表示事件对的顺序是逆序,即事件ei出现在事件ej之后。因此可以将该任务定义为二分类任务,本发明使用两层的多层感知机作为模型,基于多粒度上下文编码模块得到的事件词的向量表示,输入到多层感知机中得到事件对关系的概率关系:
Figure BDA0003100805380000078
其中,r表示的是二分类的类别,并且r∈{0,1},p(r|ei,ej)表示模型输出的二分类问题的概率值;W1′、W2′表示权重矩阵,b1、b2表示偏差向量,σ表示sigmoid激活函数,
Figure BDA0003100805380000079
表示基于多粒度上下文编码模块得到的事件词的向量表示。
给定标注好的语料
Figure BDA00031008053800000710
SD表示文档的总数量,定义优化函数如下:
Figure BDA00031008053800000711
其中,xn和yn分别表示第n个训练事件对和事件对在标注语料库D中对应的标签;θL表示模型需要学习的参数值;
Figure BDA00031008053800000712
表示xn的观测值,即模型给出的预测值;
Figure BDA00031008053800000713
表示指示函数,
Figure BDA0003100805380000081
为真则指示函数值为1,否则指示函数值为0;
Figure BDA0003100805380000082
是第n个训练事件对在参数为θL的情况下,模型给出事件对序列关系预测的概率值。
如果仅仅使用pairwise局部任务,就会让模型的学习目标变成最小化事件对分类的错误,然而事件排序是在一个事件列表上进行预测的任务。listwise模型需要在给定文档和事件的条件下给出与每个事件相对应的分数。本发明定义该层输入为文档Dn中的所有事件,输出为每个事件所对应的等级值,之后根据等级值对事件进行排序,并获得与文档相对应的事件序列。本发明使用两层的多层感知机作为计分模型,基于多粒度上下文编码模块得到的事件词的向量表示,输入到多层感知机中:
score(e)=W2″·tanh(W1″·re+b1′)+b2
其中,e表示任意事件,score(e)表示事件的预测分数;W1″、W2″表示权重矩阵,b1′、b2′表示偏差向量,re表示基于多粒度上下文编码模块得到的事件词的向量表示,tanh为激活函数。并且本发明采用smooth L1损失,定义优化函数如下:
Figure BDA0003100805380000083
Figure BDA0003100805380000084
其中,p表示模型给出的预测标签、q是真实标签,具体的,
Figure BDA0003100805380000085
表示在第Di个文档对应的事件序列中第j个事件相对应的真实等级值(事件序列标签),
Figure BDA00031008053800000810
表示第Di个文档对应的事件序列中第j个事件相对应的模型给出的对事件的预测分数即score(e)。之后将pairwise局部任务和listwise全局任务进行联系训练:
J(θ)=L(θL)+λG(θG)
其中,λ是超参数用来平衡L(θL)和G(θG)。
3、全局推断模块
通过pairwise可以得到两两事件对的序列关系,从而得到一个完整的事件序列,但是整个事件序列并不满足传递性约束。例如,模型识别事件对结果
Figure BDA0003100805380000086
Figure BDA0003100805380000087
说明整个事件序列的传递性约束并不能得到满足。
本发明使用整数线性规划解决不能满足传递性约束的问题。定义
Figure BDA0003100805380000088
为二元指示变量,当且仅当st=pr时变量值才能取到1,st是事件序列关系的真实标签,pr是事件对序列关系的预测标签。
Figure BDA0003100805380000089
表示模型预测事件对(ei,ej)序列关系为pr的置信度,该置信度产生自事件序列抽取模型中的softmax层的输出。
为了获得全局最优分配结果,我们定义目标函数如下:
Figure BDA0003100805380000091
Figure BDA0003100805380000092
其中,E是事件的集合,R是事件序列关系标签集。约束条件表示如果事件对
Figure BDA0003100805380000093
的关系标签为pr1,事件对
Figure BDA0003100805380000094
的关系标签为pr2,那么事件对
Figure BDA0003100805380000095
的关系标签pr3必须满足如上约束条件。例如,事件对关系三元组(pr1,pr2,pr3)包括(0,0,0)和(1,1,1)。
至此,服务流程抽取模型已经训练完成,就可以实现输入一段文本,输出这个文本所对应的有序事件序列。
对于本领域的技术人员来说,可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims (10)

1.一种服务流程抽取方法,其特征在于,包括以下步骤:
S1:对数据集中的文档进行数据预处理。
S2:将步骤S1预处理得到的数据基于Bert编码,得到各个词的词向量表示。
S3:基于步骤S2得到的词向量表示,使用单层BILSTM捕获句子中的有效上下文特征。
S4:基于步骤S2得到的词向量表示,使用multi-head attention机制捕获跨句子之间的有效上下文特征。
S5:基于步骤S3和S4得到的上下文特征,使用特征融合层进行特征融合,即融合来自不同粒度的上下文特征。
S6:多任务联合优化,主要包含pairwise局部任务和listwise全局任务。基于pairwise算法得到任意两个事件对的序列关系;在给定文档和事件的条件下,基于listwise算法,模型需要给出与每个事件相对应的等级值,根据事件相对应的等级值得到相应的事件序列关系。之后联合训练pairwise局部任务和listwise全局任务。
S7:使用全局推断模块解决事件对之间无法满足传递性的冲突,训练得到服务流程抽取模型。
2.根据权利要求1所述的服务流程抽取方法,其特征在于,所述的数据预处理方式,包括:对数据集中的事件进行标注,并标注相应的事件id。
3.根据权利要求1所述的服务流程抽取方法,其特征在于,所述的预处理之后的数据基于bert编码得到词向量表示,具体是指:bert模型能够对单词的语义信息进行建模,建模之后可应用于各种下游任务。给定一个文档d,对于文档中的每个字符
Figure FDA0003100805370000011
输入到bert模型中:
Figure FDA0003100805370000012
其中,
Figure FDA0003100805370000013
表示第i个句子中的第n个字符以及相应的单词经过bert编码后的表示形式。
4.根据权利要求1所述的服务流程抽取方法,其特征在于,所述的使用单层BILSTM捕获句子中的有效上下文特征,具体是指:BILSTM能够捕获句子级别的有效上下文特征,因此在句子上应用了单层BILSTM。基于Bert输出的词向量表示,通过BILSTM层得到句子的特征向量表示:
Figure FDA0003100805370000014
其中,
Figure FDA0003100805370000015
表示第i个句子中的第n个字符经由BILSTM层得到的特征表示。
5.根据权利要求1所述的服务流程抽取方法,其特征在于,所述的使用multi-headattention机制捕获跨句子之间的有效上下文特征,具体是指:距离是BILSTM特征提取效果的主要限制因素,因此仅使用BILSTM来提取句子中的上下文特征,对于跨句子之间的上下文特征提取,使用了multi-head attention机制,同时定义该层为MHA。基于Bert输出的词向量表示,通过MHA层得到句子的特征向量表示:
Figure FDA0003100805370000021
其中,
Figure FDA0003100805370000022
表示第i个句子中的第n个字符经由MHA层得到的特征表示。
6.根据权利要求1所述的服务流程抽取方法,其特征在于,所述的使用特征融合层融合来自不同粒度的上下文特征,具体是指:考虑到并非所有特征都对最终的事件序列抽取任务做出同等的贡献,采用门机制来加权不同粒度的上下文信息,定义门机制如下:
Figure FDA0003100805370000023
Figure FDA0003100805370000024
其中,g表示门机制的注意力向量,W1和W2是模型需要学习的权重系数,b是模型需要学习的偏差系数。σ表示的是sigmoid激活函数。⊙表示向量中对应元素逐个相乘。
Figure FDA0003100805370000025
表示第i个句子中的第n个字符的特征融合表示。
7.根据权利要求1所述的服务流程抽取方法,其特征在于,所述的多任务联合优化模块中的pairwise局部任务,具体是指:假设En是从文档Dn中提取得到的事件集合,ei、ej表示事件集合En中任意两个不同的事件,输入文档Dn中任意事件对(ei,ej),输出得到事件对的序列关系,其中输出“0”表示事件对的顺序是正序,即事件ei出现在事件ej之前;同样输出“1”表示事件对的顺序是逆序,即事件ei出现在事件ej之后。因此可以将该任务定义为二分类任务,使用两层的多层感知机作为模型,基于多粒度上下文编码模块得到的事件词的向量表示,输入到多层感知机中:
Figure FDA0003100805370000026
其中,r表示的是二分类的类别,并且r∈{0,1},p(r|ei,ej)表示模型输出的二分类问题的概率值;W1′、W2′表示权重矩阵,b1、b2表示偏差向量,σ表示sigmoid激活函数,
Figure FDA0003100805370000027
表示基于多粒度上下文编码模块得到的事件词的向量表示。
给定标注好的语料
Figure FDA0003100805370000028
SD表示文档的总数量,定义优化函数如下:
Figure FDA0003100805370000029
其中,xn和yn分别表示第n个训练事件对和事件对在标注语料库D中对应的标签;θL表示模型需要学习的参数值;
Figure FDA00031008053700000210
表示xn的观测值,即模型给出的预测值;
Figure FDA00031008053700000211
表示指示函数,
Figure FDA0003100805370000031
为真则指示函数值为1,否则指示函数值为0;
Figure FDA0003100805370000032
是第n个训练事件对在参数为θL的情况下,模型给出事件对序列关系预测的概率值。
8.根据权利要求1所述的服务流程抽取方法,其特征在于,所述的多任务联合优化模块中的listwise全局任务,具体是指:listwise模型需要在给定文档和事件的条件下给出与每个事件相对应的分数。定义该层输入为文档Dn中的所有事件,输出为每个事件所对应的等级值,之后根据等级值对事件进行排序,并获得与文档相对应的事件序列。使用两层的多层感知机作为计分模型,基于多粒度上下文编码模块得到的事件词的词向量表示,输入到多层感知机中:
score(e)=W2″·tanh(W1″·re+b1′)+b2
其中,e表示任意事件,score(e)表示事件的预测分数;W1″、W2″表示权重矩阵,b1′、b2′表示偏差向量,re表示基于多粒度上下文编码模块得到的事件词的向量表示,tanh为激活函数。并且采用smooth L1 loss。定义优化函数如下:
Figure FDA0003100805370000033
Figure FDA0003100805370000034
其中,p表示模型给出的预测标签、q是真实标签,具体的,
Figure FDA0003100805370000035
表示在第Di个文档对应的事件序列中第j个事件相对应的真实等级值,
Figure FDA0003100805370000036
表示第Di个文档对应的事件序列中第j个事件相对应的模型给出的对事件的预测分数score(e)。
9.根据权利要求1所述的服务流程抽取方法,其特征在于,所述的联合训练pairwise局部任务和listwise全局任务,具体是指:仅在模型训练阶段使用listwise全局任务,在测试阶段,仅使用pairwise局部任务来获取完整的事件序列。定义联合训练的联合损失函数如下:
J(θ)=L(θL)+λG(θG)
其中,λ是超参数用来平衡L(θL)和G(θG)。
10.根据权利要求1所述的服务流程抽取方法,其特征在于,所述的使用全局推断模块来解决事件对之间无法满足传递性的冲突,具体是指:首先利用模型得到两两事件对之间的序列关系,从而得到整个事件序列,但是整个事件序列并不满足传递性约束。使用整数线性规划解决不能满足传递性约束的问题。定义
Figure FDA0003100805370000037
为二元指示变量,当且仅当st=pr时变量值才能取到1,st是事件序列关系的真实标签,pr是事件对序列关系的预测标签。
Figure FDA0003100805370000038
表示模型预测事件对(ei,ej)序列关系为pr的置信度,该置信度产生自事件序列抽取模型中的softmax层的输出。为了获得全局最优分配结果,定义目标函数如下:
Figure FDA0003100805370000041
Figure FDA0003100805370000042
其中,E是事件的集合,是事件序列关系标签集。约束条件表示如果事件对
Figure FDA0003100805370000043
的关系标签为pr1,事件对
Figure FDA0003100805370000044
的关系标签为pr2,那么事件对
Figure FDA0003100805370000045
的关系标签pr3必须满足如上约束条件。
CN202110623083.XA 2021-06-04 2021-06-04 一种服务流程抽取方法 Active CN113361259B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110623083.XA CN113361259B (zh) 2021-06-04 2021-06-04 一种服务流程抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110623083.XA CN113361259B (zh) 2021-06-04 2021-06-04 一种服务流程抽取方法

Publications (2)

Publication Number Publication Date
CN113361259A true CN113361259A (zh) 2021-09-07
CN113361259B CN113361259B (zh) 2024-04-30

Family

ID=77532041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110623083.XA Active CN113361259B (zh) 2021-06-04 2021-06-04 一种服务流程抽取方法

Country Status (1)

Country Link
CN (1) CN113361259B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168727A (zh) * 2021-12-06 2022-03-11 哈尔滨工业大学 面向金融领域的文档级事件主体对抽取的方法、存储介质及设备
CN117252689A (zh) * 2023-11-13 2023-12-19 北京佳格天地科技有限公司 基于大数据的农业用户信贷决策支持方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100082613A1 (en) * 2008-09-22 2010-04-01 Microsoft Corporation Optimizing ranking of documents using continuous conditional random fields
CN109933715A (zh) * 2019-03-18 2019-06-25 杭州电子科技大学 一种基于listwise算法在线学习排序方法
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN110019685A (zh) * 2019-04-10 2019-07-16 北京神州泰岳软件股份有限公司 基于排序学习的深度文本匹配方法及装置
US20200192920A1 (en) * 2018-12-13 2020-06-18 Yandex Europe Ag Method of and system for building search index using machine learning algorithm

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100082613A1 (en) * 2008-09-22 2010-04-01 Microsoft Corporation Optimizing ranking of documents using continuous conditional random fields
US20200192920A1 (en) * 2018-12-13 2020-06-18 Yandex Europe Ag Method of and system for building search index using machine learning algorithm
CN109933715A (zh) * 2019-03-18 2019-06-25 杭州电子科技大学 一种基于listwise算法在线学习排序方法
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN110019685A (zh) * 2019-04-10 2019-07-16 北京神州泰岳软件股份有限公司 基于排序学习的深度文本匹配方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GE T等: "Bring you to the past: Automatic generation of topically relevant event chronicles.", PROCEEDINGS OF THE 53RD ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS AND THE 7TH INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING. *
戴倩雯等: "事件时序关系识别关键技术研究", 中国硕士学位论文全文数据库 信息科技辑, no. 02 *
曾平: "基于文本特征学习的知识图谱构建技术研究", 中国博士学位论文全文数据库 信息科技辑, no. 01, pages 16 *
龚安等: "一种基于新型损失函数的Listwise 排序学习方法", 计算机技术与发展, vol. 28, no. 8 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168727A (zh) * 2021-12-06 2022-03-11 哈尔滨工业大学 面向金融领域的文档级事件主体对抽取的方法、存储介质及设备
CN114168727B (zh) * 2021-12-06 2024-07-12 哈尔滨工业大学 面向金融领域的文档级事件主体对抽取的方法、存储介质及设备
CN117252689A (zh) * 2023-11-13 2023-12-19 北京佳格天地科技有限公司 基于大数据的农业用户信贷决策支持方法及系统
CN117252689B (zh) * 2023-11-13 2024-02-13 北京佳格天地科技有限公司 基于大数据的农业用户信贷决策支持方法及系统

Also Published As

Publication number Publication date
CN113361259B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
Zheng et al. Characterization inference based on joint-optimization of multi-layer semantics and deep fusion matching network
US11631007B2 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN112199511B (zh) 跨语言多来源垂直领域知识图谱构建方法
CN113128229B (zh) 一种中文实体关系联合抽取方法
US20220050967A1 (en) Extracting definitions from documents utilizing definition-labeling-dependent machine learning background
Zhang et al. Aspect-based sentiment analysis for user reviews
CN113255321B (zh) 基于文章实体词依赖关系的金融领域篇章级事件抽取方法
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN114896388A (zh) 一种基于混合注意力的层级多标签文本分类方法
CN111639176B (zh) 一种基于一致性监测的实时事件摘要方法
CN112434535A (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN113361259B (zh) 一种服务流程抽取方法
CN116383399A (zh) 一种事件舆情风险预测方法及系统
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN114896386A (zh) 基于BiLSTM的电影评论语义情感分析方法及系统
CN114925205B (zh) 基于对比学习的gcn-gru文本分类方法
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
CN114238653A (zh) 一种编程教育知识图谱构建、补全与智能问答的方法
CN113869055A (zh) 基于深度学习的电网项目特征属性识别方法
CN116010619A (zh) 一种复杂装备知识图谱构建过程中的知识抽取方法
Wang et al. A Deep‐Learning‐Inspired Person‐Job Matching Model Based on Sentence Vectors and Subject‐Term Graphs
Wei et al. Sentiment classification of tourism reviews based on visual and textual multifeature fusion
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
Haruna et al. Collaborative task of entity and relation recognition for developing a knowledge graph to support knowledge reasoning for design for additive manufacturing
CN113901813A (zh) 一种基于主题特征和隐式句子结构的事件抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant