CN113361259B - 一种服务流程抽取方法 - Google Patents
一种服务流程抽取方法 Download PDFInfo
- Publication number
- CN113361259B CN113361259B CN202110623083.XA CN202110623083A CN113361259B CN 113361259 B CN113361259 B CN 113361259B CN 202110623083 A CN202110623083 A CN 202110623083A CN 113361259 B CN113361259 B CN 113361259B
- Authority
- CN
- China
- Prior art keywords
- event
- model
- sequence
- events
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 49
- 238000005457 optimization Methods 0.000 claims abstract description 21
- 230000007246 mechanism Effects 0.000 claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 14
- 235000019580 granularity Nutrition 0.000 claims abstract description 13
- 239000010410 layer Substances 0.000 claims description 43
- 238000012549 training Methods 0.000 claims description 22
- 230000004913 activation Effects 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 239000002356 single layer Substances 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 20
- BASFCYQUMIYNBI-UHFFFAOYSA-N platinum Chemical compound [Pt] BASFCYQUMIYNBI-UHFFFAOYSA-N 0.000 description 14
- 229910052697 platinum Inorganic materials 0.000 description 7
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种服务流程抽取方法,首先用Bert进行语义编码得到词向量表示,然后通过BILSTM获取句子中的上下文特征,同时通过multi‑head attention机制获取跨句子之间的特征,即从不同的粒度对信息进行编码,之后通过门机制融合句子中和跨句子之间的特征,获得文档中丰富的上下文语义编码信息,然后通过多任务优化从局部和全局角度学习事件之间的顺序关系最终得到有序事件序列。本发明能够在文档级别上实现有序事件的提取,从不同的粒度即句子中和跨句子之间获取丰富的上下文语义编码信息,最后通过局部事件对排序任务以及全局任务对事件进行打分并排序得到有序事件序列。
Description
技术领域
本发明属于服务流程管理和自然语言处理交叉领域,尤其涉及一种服务流程抽取方法。
背景技术
在服务流程管理领域,服务流程是指为满足客户服务需求,将两个以上具有相互联系和相互作用的相关流程节点进行有序排列组合成具有特定结构和服务功能的有机整体。服务流程在现实世界中有多种存在形式,最为常见的是文本描述形式,如何从文本描述中有效挖掘潜在的服务流程具有十分重要的意义。
然而,在实际操作中进行服务流程内部的事件序列抽取并不是一件容易的事情,因为与事件序列提取相关文献中的大多数工作都假定事件发生的顺序与文本描述的顺序是一致的:从文本抽取到了事件,并且将抽取到的事件按文本的描述顺序进行排列就认为得到了事件序列。然而当文本是非过程文本时,这种假设是有问题的,也就是指在非过程文本中,文本描述的事件顺序并不是事件真实发生的顺序,因为当某个过程或者事件比较重要时,作者会将其优先描述以起到强调的作用。常见的,在语文中存在一种“倒叙”的写作手法,先描述事件的结局再描述整个事件的过程,显而易见,在“倒叙”的写作手法下,文本描述的事件顺序并不是事件真实发生的顺序。同时,有序事件序列提取又是一项非常困难的任务,因为判断事件的顺序需要充分考虑文章的上下文来收集有用的信息。
发明内容
本发明的目的在于针对现有技术的不足,提供一种服务流程抽取方法。
本发明的目的是通过以下技术方案来实现的:一种服务流程抽取方法,包括以下步骤:
S1:对数据集中的文档进行数据预处理。
S2:将步骤S1预处理得到的数据基于Bert编码,得到各个词的词向量表示。
S3:基于步骤S2得到的词向量表示,使用单层BILSTM捕获句子中的有效上下文特征。
S4:基于步骤S2得到的词向量表示,使用multi-head attention机制捕获跨句子之间的有效上下文特征。
S5:基于步骤S3和S4得到的上下文特征,使用特征融合层进行特征融合,即融合来自不同粒度的上下文特征。
S6:多任务联合优化,主要包含pairwise局部任务和listwise全局任务。基于pairwise算法得到任意两个事件对的序列关系;在给定文档和事件的条件下,基于listwise算法,模型需要给出与每个事件相对应的等级值,根据事件相对应的等级值得到相应的事件序列关系。之后联合训练pairwise局部任务和listwise全局任务。
S7:使用全局推断模块解决事件对之间无法满足传递性的冲突,训练得到服务流程抽取模型。
进一步地,所述的数据预处理方式,包括:对数据集中的事件进行标注,并标注相应的事件id。
进一步地,所述的预处理之后的数据基于bert编码得到词向量表示,具体是指:bert模型能够对单词的语义信息进行建模,建模之后可应用于各种下游任务。给定一个文档d,对于文档中的每个字符输入到bert模型中:
其中,表示第i个句子中的第n个字符以及相应的单词经过bert编码后的表示形式。
进一步地,所述的使用单层BILSTM捕获句子中的有效上下文特征,具体是指:BILSTM能够捕获句子级别的有效上下文特征,因此在句子上应用了单层BILSTM。基于Bert输出的词向量表示,通过BILSTM层得到句子的特征向量表示:
其中,表示第i个句子中的第n个字符经由BILSTM层得到的特征表示。
进一步地,所述的使用multi-head attention机制捕获跨句子之间的有效上下文特征,具体是指:距离是BILSTM特征提取效果的主要限制因素,因此仅使用BILSTM来提取句子中的上下文特征,对于跨句子之间的上下文特征提取,使用了multi-head attention机制,同时定义该层为MHA。基于Bert输出的词向量表示,通过MHA层得到句子的特征向量表示:
其中,表示第i个句子中的第n个字符经由MHA层得到的特征表示。
进一步地,所述的使用特征融合层融合来自不同粒度的上下文特征,具体是指:考虑到并非所有特征都对最终的事件序列抽取任务做出同等的贡献,采用门机制来加权不同粒度的上下文信息,定义门机制如下:
其中,g表示门机制的注意力向量,W1和W2是模型需要学习的权重系数,b是模型需要学习的偏差系数。σ表示的是sigmoid激活函数。⊙表示向量中对应元素逐个相乘。表示第i个句子中的第n个字符的特征融合表示。
进一步地,所述的多任务联合优化模块中的pairwise局部任务,具体是指:假设En是从文档Dn中提取得到的事件集合,ei、ej表示事件集合En中任意两个不同的事件,输入文档Dn中任意事件对(ei,ej),输出得到事件对的序列关系,其中输出“0”表示事件对的顺序是正序,即事件ei出现在事件ej之前;同样输出“1”表示事件对的顺序是逆序,即事件ei出现在事件ej之后。因此可以将该任务定义为二分类任务,使用两层的多层感知机作为模型,基于多粒度上下文编码模块得到的事件词的向量表示,输入到多层感知机中:
其中,r表示的是二分类的类别,并且r∈{0,1},p(r|ei,ej)表示模型输出的二分类问题的概率值;W1′、W2′表示权重矩阵,b1、b2表示偏差向量,σ表示sigmoid激活函数,表示基于多粒度上下文编码模块得到的事件词的向量表示。
给定标注好的语料SD表示文档的总数量,定义优化函数如下:
其中,xn和yn分别表示第n个训练事件对和事件对在标注语料库D中对应的标签;θL表示模型需要学习的参数值;表示xn的观测值,即模型给出的预测值;/>表示指示函数,/>为真则指示函数值为1,否则指示函数值为0;/>是第n个训练事件对在参数为θL的情况下,模型给出事件对序列关系预测的概率值。
进一步地,所述的多任务联合优化模块中的listwise全局任务,具体是指:listwise模型需要在给定文档和事件的条件下给出与每个事件相对应的分数。定义该层输入为文档Dn中的所有事件,输出为每个事件所对应的等级值,之后根据等级值对事件进行排序,并获得与文档相对应的事件序列。使用两层的多层感知机作为计分模型,基于多粒度上下文编码模块得到的事件词的词向量表示,输入到多层感知机中:
score(e)=W2〞·tanh(W1〞·re+b1′)+b2′
其中,e表示任意事件,score(e)表示事件的预测分数;W1〞、W2〞表示权重矩阵,b1′、b2′表示偏差向量,re表示基于多粒度上下文编码模块得到的事件词的向量表示,tanh为激活函数。并且采用smooth L1 loss。定义优化函数如下:
其中,p表示模型给出的预测标签、q是真实标签,具体的,表示在第Di个文档对应的事件序列中第j个事件相对应的真实等级值,/>表示第Di个文档对应的事件序列中第j个事件相对应的模型给出的对事件的预测分数score(e)。
进一步地,所述的联合训练pairwise局部任务和listwise全局任务,具体是指:仅在模型训练阶段使用listwise全局任务,在测试阶段,仅使用pairwise局部任务来获取完整的事件序列。定义联合训练的联合损失函数如下:
J(θ)=L(θL)+λG(θG)
其中,λ是超参数用来平衡L(θL)和G(θG)。
进一步地,所述的使用全局推断模块来解决事件对之间无法满足传递性的冲突,具体是指:首先利用模型得到两两事件对之间的序列关系,从而得到整个事件序列,但是整个事件序列并不满足传递性约束。使用整数线性规划解决不能满足传递性约束的问题。定义为二元指示变量,当且仅当st=pr时变量值才能取到1,st是事件序列关系的真实标签,pr是事件对序列关系的预测标签。/>表示模型预测事件对(ei,ej)序列关系为pr的置信度,该置信度产生自事件序列抽取模型中的softmax层的输出。为了获得全局最优分配结果,定义目标函数如下:
其中,E是事件的集合,R是事件序列关系标签集。约束条件表示如果事件对的关系标签为pr1,事件对/>的关系标签为pr2,那么事件对/>的关系标签pr3必须满足如上约束条件。
本发明的有益效果是:本发明提供了一种新的模型在文档级别上实现了服务流程抽取,该模型首先学习面向有序事件序列的词向量表示,这些词向量表示通过深度学习模型BILSTM和multi-attention包含来自不同粒度的信息(句子级别和跨句子级别)同时本发明提出了两项任务:pairwise局部任务和listwise全局任务。在此基础上,该模型可以通过多任务优化从局部角度最小化事件对分类中的错误,从全局角度最小化事件排序的错误。
附图说明
图1是本发明提出方法的流程图;
图2是本发明设计的服务流程抽取模型的架构图;
图3是本发明设计的数据集构建图。
具体实施方式
本发明将服务流程中的流程节点视作事件,针对非结构文本进行事件识别,并在理解文本语义的基础上对事件间的序列关系进行抽取,进而形成由事件构成的服务流程模型。本发明可以看作是一种面向自然语言描述文本的过程挖掘技术。基于本发明提取服务过程模型可以帮助用户发现、监控和改进实际业务事件,进而优化现有服务流程,使其更好地反映企业现实业务。
本发明公开一种服务流程抽取方法。基于Bert、BILSTM、multi-head attention机制以及pairwise、listwise排序方法,智能地从服务流程中提取出候选事件集合,再对事件进行排序得到有序的事件序列,得到的有序事件序列可应用于服务流程管理领域的多个下游任务。本发明能够有效对事件的顺序进行建模,解决了服务流程中有序事件抽取文本所描述的事件顺序与事件真实发生的顺序不一致的难点。本发明首先用Bert进行语义编码得到词向量表示,然后通过BILSTM获取句子中的上下文特征,同时利用multi-headattention机制获取跨句子之间的特征,从不同的粒度对信息进行编码。之后通过门机制融合句子中和跨句子之间的特征,获得文档中丰富的上下文语义编码信息,然后通过多任务优化从局部和全局角度学习事件之间的顺序关系最终得到有序事件序列。在服务流程中,本发明能够在文档级别上实现有序事件的提取,从不同的粒度即句子中和跨句子之间获取丰富的上下文语义编码信息,最后通过局部事件对排序任务以及全局任务对事件进行打分并排序得到有序事件序列。
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明公开一种服务流程抽取方法,服务流程在现实世界中有多种存在形式,最为常见的是文本描述形式,本发明基于Bert、BILSTM、multi-head attention机制以及pairwise、listwise排序方法,智能地从非结构化文本中提取出服务流程,得到的服务流程可应用于服务流程管理领域的多个下游任务。本发明将服务流程中的流程节点视作事件,针对非结构文本进行事件识别,并在理解文本语义的基础上对事件间的序列关系进行抽取,进而形成由事件构成的服务流程模型。在服务流程中,本发明能够实现在文档级别上进行有序事件的提取,从不同的粒度即句子中和跨句子之间获取丰富的上下文语义编码信息,最后通过局部事件对排序任务以及全局任务对事件进行打分并排序得到有序事件序列。如图1所示,包括以下步骤:
考虑到目前并没有用于从文本中提取事件序列任务的公共数据集,本发明通过TimeBank(TB),AQUAINT(AQ),Platinum(PL)和MATRES构造了一个数据集。TB、AQ和PL提供文档和相应的事件注释,MATRES在TB、AQ和PL中提供关系注释。TB、AQ和PL提供的文档的局限性之一是它们数量众多且复杂。因此,为了简化内容,如图3所示,对于每个文档,本发明首先通过一个滑动窗口(其中滑动窗口大小为k,步长为1)将其分割成一些小文档。然后,本发明为每个小文档构建一个对应的图,其中节点代表事件,边代表关系。最后,本发明提取图中最长的路径(最长的事件序列)作为相应文档的注释。
本发明的数据集构建和格式化方式如下:
x=document(sent1,sent2,...sentk)
y=eventSequence(event1,event2,...eventk)
其中,x、y分别表示训练样本(文档共包含k个句子)和训练样本相对应的标签,sent表示句子,event表示句子里面标注出来的事件。
至此,本发明的数据集已经建立,并进行了总结,数据统计结果见表1(#OriginalDoc表示原始文档的数量;#Doc表示修改之后的文档数量;#Pair表示事件对数量,每个修改的文档对应多个事件对;#ES表示事件序列数,每个修改的文档对应一个事件序列)。在实验中,本发明根据正式划分,以TB和AQ为训练集,PL为测试集。此外,为了调整超参数,本发明从训练集中分配20%的数据作为验证集。
表1:本发明设计的数据集统计结果
#Original Doc | #Doc | #Pair | #ES | |
TimeBank | 183 | 839 | 4170 | 839 |
Aquaint | 72 | 571 | 4705 | 571 |
Platinum | 20 | 86 | 601 | 86 |
如图2所示,本发明提出的模型包含三大模块:多粒度上下文编码模块、多任务联合优化模块和全局推断模块。多粒度上下文编码器模块负责从不同角度完全挖掘丰富的上下文信息。然后,在丰富的上下文信息的基础上,将多任务联合优化模块应用于从全局和局部角度优化模型,最终将模型生成的结果传递给全局推断模块,以消除冲突,得到完整的有序事件序列。
1、多粒度上下文编码模块
给定文档d,将文档中的每个句子di输入到bert-base模型中,把bert产生的每个字符的单词表示作为词嵌入向量。在使用bert-base模型时,使用最后4层表示的平均值,并在训练过程中冻结权重。
对于文档d中的每个字符通过bert-base模型进行词向量表示:
其中,分别表示第i个句子中第n个字符和对应的词向量表示。
然后将bert中输出的词向量表示作为输入输入到BILSTM层中,使得模型能够学习到句子中的上下文特征:
其中,表示第i个句子中的第n个字符经由BILSTM层之后得到的特征表示。
之后将bert输出的词向量表示作为输入,输入到multi-head attention层中,使得模型能够学习到跨句子之间的上下文特征:
其中,表示第i个句子中的第n个字符经由MHA(multi-head attention)层的特征表示。
考虑到并非所有特征都对最终的事件序列抽取任务做出同等的贡献,本发明采用门机制来加权不同粒度的上下文特征,而不是直接添加或者拼接上下文特征:
其中,g表示门机制的注意力向量,σ表示的是sigmoid激活函数,W1和W2是模型需要学习的权重矩阵,b是模型需要学习的偏差向量;表示第i个句子中的第n个字符的特征融合表示,⊙表示元素智能相乘,即向量中对应元素逐个相乘。
2、多任务联合优化模块
通过多粒度上下文编码模块获得丰富的上下文表示之后,本发明构建多任务联合优化模块以从局部和全局角度挖掘事件的顺序关系。
假设En是从文档Dn中提取得到的事件集合,ei、ej表示事件集合En中任意两个不同的事件,输入文档Dn中任意事件对(ei,ej),输出得到事件对的序列关系,其中输出“0”表示事件对的顺序是正序,即事件ei出现在事件ej之前;同样输出“1”表示事件对的顺序是逆序,即事件ei出现在事件ej之后。因此可以将该任务定义为二分类任务,本发明使用两层的多层感知机作为模型,基于多粒度上下文编码模块得到的事件词的向量表示,输入到多层感知机中得到事件对关系的概率关系:
其中,r表示的是二分类的类别,并且r∈{0,1},p(r|ei,ej)表示模型输出的二分类问题的概率值;W1′、W2′表示权重矩阵,b1、b2表示偏差向量,σ表示sigmoid激活函数,表示基于多粒度上下文编码模块得到的事件词的向量表示。
给定标注好的语料SD表示文档的总数量,定义优化函数如下:
其中,xn和yn分别表示第n个训练事件对和事件对在标注语料库D中对应的标签;θL表示模型需要学习的参数值;表示xn的观测值,即模型给出的预测值;/>表示指示函数,/>为真则指示函数值为1,否则指示函数值为0;/>是第n个训练事件对在参数为θL的情况下,模型给出事件对序列关系预测的概率值。
如果仅仅使用pairwise局部任务,就会让模型的学习目标变成最小化事件对分类的错误,然而事件排序是在一个事件列表上进行预测的任务。listwise模型需要在给定文档和事件的条件下给出与每个事件相对应的分数。本发明定义该层输入为文档Dn中的所有事件,输出为每个事件所对应的等级值,之后根据等级值对事件进行排序,并获得与文档相对应的事件序列。本发明使用两层的多层感知机作为计分模型,基于多粒度上下文编码模块得到的事件词的向量表示,输入到多层感知机中:
score(e)=W2″·tanh(W1″·re+b1′)+b2′
其中,e表示任意事件,score(e)表示事件的预测分数;W1″、W2″表示权重矩阵,b1′、b2′表示偏差向量,re表示基于多粒度上下文编码模块得到的事件词的向量表示,tanh为激活函数。并且本发明采用smooth L1损失,定义优化函数如下:
其中,p表示模型给出的预测标签、q是真实标签,具体的,表示在第Di个文档对应的事件序列中第j个事件相对应的真实等级值(事件序列标签),/>表示第Di个文档对应的事件序列中第j个事件相对应的模型给出的对事件的预测分数即score(e)。之后将pairwise局部任务和listwise全局任务进行联系训练:
J(θ)=L(θL)+λG(θG)
其中,λ是超参数用来平衡L(θL)和G(θG)。
3、全局推断模块
通过pairwise可以得到两两事件对的序列关系,从而得到一个完整的事件序列,但是整个事件序列并不满足传递性约束。例如,模型识别事件对结果 说明整个事件序列的传递性约束并不能得到满足。
本发明使用整数线性规划解决不能满足传递性约束的问题。定义为二元指示变量,当且仅当st=pr时变量值才能取到1,st是事件序列关系的真实标签,pr是事件对序列关系的预测标签。/>表示模型预测事件对(ei,ej)序列关系为pr的置信度,该置信度产生自事件序列抽取模型中的softmax层的输出。
为了获得全局最优分配结果,我们定义目标函数如下:
其中,E是事件的集合,R是事件序列关系标签集。约束条件表示如果事件对的关系标签为pr1,事件对/>的关系标签为pr2,那么事件对/>的关系标签pr3必须满足如上约束条件。例如,事件对关系三元组(pr1,pr2,pr3)包括(0,0,0)和(1,1,1)。
至此,服务流程抽取模型已经训练完成,就可以实现输入一段文本,输出这个文本所对应的有序事件序列。
对于本领域的技术人员来说,可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。
Claims (9)
1.一种服务流程抽取方法,其特征在于,包括以下步骤:
S1:对数据集中的文档进行数据预处理;
S2:将步骤S1预处理得到的数据基于Bert编码,得到各个词的词向量表示;
S3:基于步骤S2得到的词向量表示,使用单层BILSTM捕获句子中的有效上下文特征;
S4:基于步骤S2得到的词向量表示,使用multi-head attention机制捕获跨句子之间的有效上下文特征;
S5:基于步骤S3和S4得到的上下文特征,使用特征融合层进行特征融合,即融合来自不同粒度的上下文特征;
S6:通过多任务联合优化模块进行多任务联合优化,主要包含pairwise局部任务和listwise全局任务;基于pairwise算法得到任意两个事件对的序列关系;在给定文档和事件的条件下,基于listwise算法,模型需要给出与每个事件相对应的等级值,根据事件相对应的等级值得到相应的事件序列关系;之后联合训练pairwise局部任务和listwise全局任务;
S7:使用全局推断模块解决事件对之间无法满足传递性的冲突,训练得到服务流程抽取模型;包括:首先利用模型得到两两事件对之间的序列关系,从而得到整个事件序列,但是整个事件序列并不满足传递性约束;使用整数线性规划解决不能满足传递性约束的问题;定义为二元指示变量,当且仅当st=pr时变量值才能取到1,st是事件序列关系的真实标签,pr是事件对序列关系的预测标签;/>表示模型预测事件对(ei,ej)序列关系为pr的置信度,该置信度产生自事件序列抽取模型中的softmax层的输出;为了获得全局最优分配结果,定义目标函数如下:
其中,E是事件的集合,R是事件序列关系标签集;约束条件表示如果事件对的关系标签为pr1,事件对/>的关系标签为pr2,那么事件对/>的关系标签pr3必须满足如上约束条件。
2.根据权利要求1所述的服务流程抽取方法,其特征在于,所述的数据预处理方式,包括:对数据集中的事件进行标注,并标注相应的事件id。
3.根据权利要求1所述的服务流程抽取方法,其特征在于,所述的预处理之后的数据基于bert编码得到词向量表示,具体是指:bert模型能够对单词的语义信息进行建模,建模之后可应用于各种下游任务;给定一个文档d,对于文档中的每个字符输入到bert模型中:
其中,表示第i个句子中的第n个字符以及相应的单词经过bert编码后的表示形式。
4.根据权利要求1所述的服务流程抽取方法,其特征在于,所述的使用单层BILSTM捕获句子中的有效上下文特征,具体是指:BILSTM能够捕获句子级别的有效上下文特征,因此在句子上应用了单层BILSTM;基于Bert输出的词向量表示,通过BILSTM层得到句子的特征向量表示:
其中,表示第i个句子中的第n个字符经由BILSTM层得到的特征表示。
5.根据权利要求1所述的服务流程抽取方法,其特征在于,所述的使用multi-headattention机制捕获跨句子之间的有效上下文特征,具体是指:距离是BILSTM特征提取效果的主要限制因素,因此仅使用BILSTM来提取句子中的上下文特征,对于跨句子之间的上下文特征提取,使用了multi-head attention机制,同时定义该层为MHA;基于Bert输出的词向量表示,通过MHA层得到句子的特征向量表示:
其中,表示第i个句子中的第n个字符经由MHA层得到的特征表示。
6.根据权利要求1所述的服务流程抽取方法,其特征在于,所述的使用特征融合层融合来自不同粒度的上下文特征,具体是指:考虑到并非所有特征都对最终的事件序列抽取任务做出同等的贡献,采用门机制来加权不同粒度的上下文信息,定义门机制如下:
其中,g表示门机制的注意力向量,W1和W2是模型需要学习的权重系数,b是模型需要学习的偏差系数;σ表示的是sigmoid激活函数;⊙表示向量中对应元素逐个相乘;表示第i个句子中的第n个字符的特征融合表示。
7.根据权利要求1所述的服务流程抽取方法,其特征在于,所述的多任务联合优化模块中的pairwise局部任务,具体是指:假设En是从文档Dn中提取得到的事件集合,ei、ej表示事件集合En中任意两个不同的事件,输入文档Dn中任意事件对(ei,ej),输出得到事件对的序列关系,其中输出“0”表示事件对的顺序是正序,即事件ei出现在事件ej之前;同样输出“1”表示事件对的顺序是逆序,即事件ei出现在事件ej之后;因此可以将该任务定义为二分类任务,使用两层的多层感知机作为模型,基于多粒度上下文编码模块得到的事件词的向量表示,输入到多层感知机中:
其中,r表示的是二分类的类别,并且r∈{0,1},p(r|ei,ej)表示模型输出的二分类问题的概率值;W1′、W2′表示权重矩阵,b1、b2表示偏差向量,σ表示sigmoid激活函数,表示基于多粒度上下文编码模块得到的事件词的向量表示;
给定标注好的语料SD表示文档的总数量,定义优化函数如下:
其中,xn和yn分别表示第n个训练事件对和事件对在标注语料库D中对应的标签;θL表示模型需要学习的参数值;表示xn的观测值,即模型给出的预测值;/>表示指示函数,/>为真则指示函数值为1,否则指示函数值为0;/>是第n个训练事件对在参数为θL的情况下,模型给出事件对序列关系预测的概率值。
8.根据权利要求1所述的服务流程抽取方法,其特征在于,所述的多任务联合优化模块中的listwise全局任务,具体是指:listwise模型需要在给定文档和事件的条件下给出与每个事件相对应的分数;定义该层输入为文档Dn中的所有事件,输出为每个事件所对应的等级值,之后根据等级值对事件进行排序,并获得与文档相对应的事件序列;使用两层的多层感知机作为计分模型,基于多粒度上下文编码模块得到的事件词的词向量表示,输入到多层感知机中:
score(e)=W2″·tanh(W1″·re+b1′)+b2′
其中,e表示任意事件,score(e)表示事件的预测分数;W1″、W2″表示权重矩阵,b1′、b2′表示偏差向量,re表示基于多粒度上下文编码模块得到的事件词的向量表示,tanh为激活函数;并且采用smooth L1 loss;定义优化函数如下:
其中,p表示模型给出的预测标签、q是真实标签,具体的,表示在第Di个文档对应的事件序列中第j个事件相对应的真实等级值,/>表示第Di个文档对应的事件序列中第j个事件相对应的模型给出的对事件的预测分数score(e)。
9.根据权利要求1所述的服务流程抽取方法,其特征在于,所述的联合训练pairwise局部任务和listwise全局任务,具体是指:仅在模型训练阶段使用listwise全局任务,在测试阶段,仅使用pairwise局部任务来获取完整的事件序列;定义联合训练的联合损失函数如下:
J(θ)=L(θL)+λG(θG)
其中,λ是超参数用来平衡L(θL)和G(θG)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110623083.XA CN113361259B (zh) | 2021-06-04 | 2021-06-04 | 一种服务流程抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110623083.XA CN113361259B (zh) | 2021-06-04 | 2021-06-04 | 一种服务流程抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113361259A CN113361259A (zh) | 2021-09-07 |
CN113361259B true CN113361259B (zh) | 2024-04-30 |
Family
ID=77532041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110623083.XA Active CN113361259B (zh) | 2021-06-04 | 2021-06-04 | 一种服务流程抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113361259B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252689B (zh) * | 2023-11-13 | 2024-02-13 | 北京佳格天地科技有限公司 | 基于大数据的农业用户信贷决策支持方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109933715A (zh) * | 2019-03-18 | 2019-06-25 | 杭州电子科技大学 | 一种基于listwise算法在线学习排序方法 |
CN109992648A (zh) * | 2019-04-10 | 2019-07-09 | 北京神州泰岳软件股份有限公司 | 基于词迁徙学习的深度文本匹配方法及装置 |
CN110019685A (zh) * | 2019-04-10 | 2019-07-16 | 北京神州泰岳软件股份有限公司 | 基于排序学习的深度文本匹配方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8195669B2 (en) * | 2008-09-22 | 2012-06-05 | Microsoft Corporation | Optimizing ranking of documents using continuous conditional random fields |
RU2720954C1 (ru) * | 2018-12-13 | 2020-05-15 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система построения поискового индекса с использованием алгоритма машинного обучения |
-
2021
- 2021-06-04 CN CN202110623083.XA patent/CN113361259B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109933715A (zh) * | 2019-03-18 | 2019-06-25 | 杭州电子科技大学 | 一种基于listwise算法在线学习排序方法 |
CN109992648A (zh) * | 2019-04-10 | 2019-07-09 | 北京神州泰岳软件股份有限公司 | 基于词迁徙学习的深度文本匹配方法及装置 |
CN110019685A (zh) * | 2019-04-10 | 2019-07-16 | 北京神州泰岳软件股份有限公司 | 基于排序学习的深度文本匹配方法及装置 |
Non-Patent Citations (4)
Title |
---|
Bring you to the past: Automatic generation of topically relevant event chronicles.;GE T等;Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing.;全文 * |
一种基于新型损失函数的Listwise 排序学习方法;龚安等;计算机技术与发展;第28卷(第8期);全文 * |
事件时序关系识别关键技术研究;戴倩雯等;中国硕士学位论文全文数据库 信息科技辑(第02期);全文 * |
基于文本特征学习的知识图谱构建技术研究;曾平;中国博士学位论文全文数据库 信息科技辑(第01期);第16页第1段-第25页第1段 * |
Also Published As
Publication number | Publication date |
---|---|
CN113361259A (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111897908B (zh) | 融合依存信息和预训练语言模型的事件抽取方法及系统 | |
CN113128229B (zh) | 一种中文实体关系联合抽取方法 | |
CN109902145B (zh) | 一种基于注意力机制的实体关系联合抽取方法和系统 | |
US11631007B2 (en) | Method and device for text-enhanced knowledge graph joint representation learning | |
CN112214995B (zh) | 用于同义词预测的分层多任务术语嵌入学习 | |
US20220050967A1 (en) | Extracting definitions from documents utilizing definition-labeling-dependent machine learning background | |
CN113177124B (zh) | 一种垂直领域知识图谱构建方法及系统 | |
Zhang et al. | Aspect-based sentiment analysis for user reviews | |
CN112732916A (zh) | 一种基于bert的多特征融合模糊文本分类模型 | |
CN109241520B (zh) | 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统 | |
CN113191148A (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
Li et al. | UD_BBC: Named entity recognition in social network combined BERT-BiLSTM-CRF with active learning | |
CN113255321A (zh) | 基于文章实体词依赖关系的金融领域篇章级事件抽取方法 | |
CN113434688B (zh) | 用于舆情分类模型训练的数据处理方法和装置 | |
CN113011161A (zh) | 一种基于深度学习与模式匹配的人案物关联关系抽取方法 | |
CN112989835A (zh) | 一种复杂医疗实体抽取方法 | |
CN116383399A (zh) | 一种事件舆情风险预测方法及系统 | |
CN115688752A (zh) | 一种基于多语义特征的知识抽取方法 | |
CN114564563A (zh) | 一种基于关系分解的端到端实体关系联合抽取方法及系统 | |
CN116010619A (zh) | 一种复杂装备知识图谱构建过程中的知识抽取方法 | |
Huang et al. | Dafd: Domain adaptation framework for fake news detection | |
CN113361259B (zh) | 一种服务流程抽取方法 | |
CN113901813A (zh) | 一种基于主题特征和隐式句子结构的事件抽取方法 | |
CN111309849B (zh) | 一种基于联合学习模型的细粒度数值信息抽取方法 | |
CN116562286A (zh) | 一种基于混合图注意力的智能配置事件抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |