CN111881258B

CN111881258B - 一种自学习事件抽取方法及其应用

Info

Publication number: CN111881258B
Application number: CN202010738172.4A
Authority: CN
Inventors: 朱远发; 张伟文; 王德培; 赖泰驱
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2023-06-20
Anticipated expiration: 2040-07-28
Also published as: CN111881258A

Abstract

本发明公开了一种自学习事件抽取方法及其应用，其中所述事件抽取方法先通过事件信息的句向量、每个句向量内包含的候选词‑角色映射对候选词进行自学习筛选，获得触发词集合，本发明可快速、准确地对工业生产异常日志等类信息进行解读，进一步做出合适的决策。

Description

一种自学习事件抽取方法及其应用

技术领域

本发明涉及事件抽取的技术领域。

背景技术

生产异常指的是生产过程中出现的进度延迟或生产停工的现象，一般包括计划异常、物料异常、设备异常、制程品质异常、设计工艺异常、水电异常等多种形式。生产异常会造成生产浪费，并严重影响企业的生产能力，是生产中迫切希望克服的问题。在解决该问题的方案中，一种常用的手段是决策者通过对工业生产过程的异常日志进行解读，找出和异常相关的信息，如产生原因、发展过程等，基于这些信息作出有效决策，减少生产异常。

现有技术中，对工业过程异常日志这类事件信息的解读可通过事件抽取的方式完成，其中所述事件抽取是指的从非结构化的信息中抽取出用户感兴趣的内容，并将其进行结构化呈现的过程。事件抽取过程通常可分为事件识别任务和角色分类任务，其中，事件识别任务用于判断句子中的每个单词归属的事件类型，是一个基于单词的多分类任务，可进一步包括触发词(trigger)识别和事件类型分类；角色分类任务是基于词对的多分类任务，用以判断句子中任意一对触发词和实体之间的角色关系，可进一步包括论元识别任务和角色分类任务。可以看出，在上述过程中，触发词的准确抽取和识别是获得良好事件抽取效果的重要前提。而为获得准确的触发词识别，需要进行大量的触发词标注，在现有技术中，其多数是通过人工标注来实现的，不仅过程繁琐，容易出错，而且覆盖度和可移植性差。

发明内容

本发明的目的在于提出一种通过自学习方式进行事件抽取，进而得到结构化的信息的方法。

本发明的目的还在于提出上述方法的一种应用。

本发明首选公开了如下的技术方案：

一种自学习事件抽取方法，其包括：

S2通过事件信息的句向量、每个句向量内包含的候选词-角色映射，对不同句子内的不同角色所对应的候选词向量进行自学习筛选，获得触发词向量集。

其中，所述候选词是指的句子内可用于判断是否为触发词的全部单词，在未经过特别处理时，其指的一个句子里含有的全部单词。

所述角色是指的每个候选词在句子中的功能性类别，如动词、名词实体、表示时间的词、表示地点的词、表示组织的词等。

所述候选词-角色映射即是指每个角色及其对应的全部候选词，如：动词(候选词1、候选词2……)；名词实体(候选词3、候选词4……)等。

所述自学习是指通过训练后的模型自发地从信息中进行目标(如触发词、事件元素等)抽取的过程，不需要对待抽取信息先进行人工标注及特征提取。

在一些具体实施方式中：所述筛选过程包括：

S20：获得含有所述候选词-角色映射信息编码的编码后句向量；

S21：将每个编码后句向量依次输入第一分类器中，获得其中不同角色对应的候选词向量为触发词的概率，其中超过第一阈值概率的候选词向量标注为触发词向量，由此得到全部句向量中的全部触发词的向量集。

优选的，所述编码通过第二Transformer编码器实现。

在一些具体实施方式中：所述第一分类器使用Softmax交叉熵损失函数，设置为二分类问题，所述第一阈值概率为70％。

在一些具体实施方式中：所述事件抽取方法还包括：

S3：根据S2获得的触发词向量集，及其对应的句向量，判断每个触发词向量在每个句向量中属于一种特定类型的事件的发生概率，其中发生概率最高且超过第二阈值的事件类型即为该触发词向量在该句向量下的事件类型。

优选的，所述第二阈值为60％。

优选的，所述句向量为前述编码后句向量。

在一些具体实施方式中：所述发生概率为所述触发词向量与所述句向量的加权概率，即其为所述触发词向量属于该特定类型事件的概率与其权值的乘积加上所述句向量属于该特定类型事件的概率与其权值的乘积。

优选的，所述权值通过Attention模型获得。

在一些具体实施方式中：所述触发词向量属于该特定类型事件的概率及所述句向量属于该特定类型事件的概率通过第二分类器获得。

在一些具体实施方式中：所述第二分类器使用Softmax交叉熵损失函数，设置为多分类问题，通过所述句向量与所述触发词向量计算出其分别属于各个事件类型的概率，选取其中概率最高且超过第二阈值的事件类型作为该句向量或触发词向量的事件类型。

在一些具体实施方式中，所述事件抽取方法还包括：

S1：对事件信息的数据预处理，其包括：

S11：对事件信息进行词向量转化，获得候选词向量集；

S12：对事件信息进行角色抽取，获得候选词-角色映射集，对所述候选词-角色映射集进行词向量转化，获得候选词-角色映射向量集。

优选的，所述词向量转化通过GloVe模型实现。

优选的，所述角色抽取通过NLP工具实现。

更优选的，所述角色抽取通过PyLTP工具包实现。

在一些具体实施方式中，对所述候选词向量集和所述候选词-角色映射向量集先进行编码，获得可靠候选词向量集和可靠候选词-角色映射向量集，由可靠候选词向量集和可靠候选词-角色映射向量集代替所述候选词向量集和所述候选词-角色映射向量集进行其他各项处理。

优选的，所述候选词向量集和所述候选词-角色映射向量集的编码通过第一Transformer编码器实现。

在一些具体实施方式中，所述S1还包括：

S13：对所述候选词向量集进行转换，获得句向量集。

优选的，所述词向量集转换通过神经网络的最大池化处理实现。

在一些具体实施方式中，所述S1还包括：

S10：对事件信息先进行整理，得到整理后的事件信息，其后各步在整理后的事件信息的基础上进行。

优选的，所述整理包括指代消歧、词形还原。

在一些具体实施方式中，所述事件抽取方法还包括：

S4对事件元素进行抽取

其包括：根据完成事件类型判断的触发词，填入该触发词在句子内的其他关联词和它们的角色，获得完整的事件元素。

本发明进一步提出了上述方法在关于生产异常的决策中的应用。

所述应用中，所述事件信息来自生产过程异常日志，所述事件类型包括计划异常、物料异常、设备异常、制程品质异常、设计工艺异常和水电异常。

本发明可通过机器自学习，快速、准确地进行触发词标注和抽取，及事件分类，从而实现对工业生产异常日志等类信息的高效、准确的结构化解读，进一步可帮助生产者做出准确、有效的决策。

附图说明

图1为本发明进行事件抽取的过程示意图。

图2为本发明进行事件抽取过程的系统架构图。

具体实施方式

以下结合实施例和附图对本发明进行详细描述，但需要理解的是，所述实施例和附图仅用于对本发明进行示例性的描述，而并不能对本发明的保护范围构成任何限制。所有包含在本发明的发明宗旨范围内的合理的变换和组合均落入本发明的保护范围。

通过如附图1所示的过程图进行事件抽取，其包括：

S0：对记载的事件信息按特殊分隔标记，如句号等，进行分隔，对分隔后的每个句子按前后顺序进行顺序编码。

S1：通过数据预处理过程依次抽取每个句子中的候选词和候选词对应的角色，获得按顺序排列的候选词集和候选词-角色映射集，将所得候选词集和候选词-角色映射集通过词嵌入操作分别得到按顺序排列的候选词向量集和候选词-角色映射向量集。

S2：通过第一分类器，根据由候选词向量集转化得到的句向量集和所述映射向量集进行触发词筛选，获得触发词向量集。

S3：通过第二分类器及权值学习模型，根据所得触发词向量集和其对应的句向量进行事件分类。

S4：根据步骤S0-S3对已知事件类型的事件信息进行分解，将其获得的触发词向量集、句向量集与已知的事件类型输入模型中进行训练，训练完成后获得抽取模型。

S5：通过所述抽取模型对待解读事件信息进行抽取和分类。

上述过程可通过如附图2所示的架构实现，在更具体的实施中，包括：

S0如前述，对工业异常日志的内容进行分句。

S1数据预处理，包括：

获得候选词向量集：

S10：对日志中的每个句子进行指代消歧，得到消歧后的句子,指代消歧可通过stanford corenlp实现。

S11：对消歧后的句子进行词形还原，词形还原可通过stanford corenlp实现。

S12：对完成词性还原后的每个句子通过GloVe模型进行词的向量化，使每个句子转化为词向量h₁,h₂,....,h_n，其中n表示单个句子中单词的数量。

S13：对完成词向量嵌入的句子通过第一Transformer编码器，编码后句子中的重要特征得到保留，获得可靠词向量

全部句子的可靠词向量即组成所述候选词向量集。

获得映射向量集：

S14：通过NLP工具对完成所述词性还原后的每个句子进行角色抽取，具体的，使用PyLTP工具包进行角色抽取，该工具包提供了词性标志、命名实体识别的功能，以此可抽取出实体、形容词、动词、时间、地点、组织等角色。通过角色抽取，获得包括候选词及其对应角色的候选词-角色映射集r_j如下，

r_j＝{Entity[a,b...]；Verb[c,d...]；Time[e,f...]；Place[g,...]；Org[l,...]}；

其中，Entity、Verb、Time、Place、Org分别表示角色“实体”、“动词”、“时间”、“地点”和“组织”，其中实体为名词；a、b、c……l分别表示各个角色在句子中对应的单词。

对所述候选词-角色映射集通过GloVe模型进行词的向量化，将其转换为映射向量集R_j，R_j可使用如下的形式：

R_j＝{[R_i][h_i,...]；[R_j][h_j,...]；[R_k][h_k,...]；[R_l][h_l,...]；[R_m][h_m,...]}；

其中，[R_i]、[R_j]、[R_k]、[R_l]和[R_m]分别表示角色Entity、Verb、Time、Place和Org的词向量；[h_i,...]、[h_j,...]、[h_k,...]、[h_l,...]和[h_m,...]分别表示其对应的单词集[a,b...]、[c,d...]、[e,f...]、[g,...]和[l,...]的词向量。

对日志中按句子顺序编码排列的全部句子按上述过程进行处理，获得日志的全部映射向量集{R₁,R₂,...,R_j...,R_m}，其中m表示句子数量。

S2通过自学习抽取触发词

S20：对按句子顺序编码排列的所述候选词向量集

通过神经网络的池化层进行最大池化处理，使其转换为句向量集{S₁,S₂,...S_j..,S_m}，其中，j＝1,...,m，m表示句子数量。

S21：将句向量集{S₁,S₂,...S_j..,S_m}和映射向量集{R₁,R₂,...,R_j...,R_m}输入第二Transformer编码器中，使两者中的重要信息得到保留，同时使映射向量集中的重要信息编码对应融合至句向量集中，得到编码后的映射向量集

及融合了映射向量集信息编码的句向量集/>

该过程可更好地捕捉句子之间的信息。

S22：将第一个句子的编码后句向量

输入第一分类器中，按每个句向量中候选词向量对应的角色向量的不同，分别计算出每个角色向量下，所含有的候选词向量为触发词的概率，具体的，每个超过一定的第一阈值的候选词向量标注为触发词t；若一句话中没有候选词向量超过第一阈值，则认为此句话中没有事件触发词，跳过此句话。

其中，第一分类器可选择Softmax交叉熵损失函数，设置为二分类问题，即等价于逻辑回归。

第一阈值可设置为70％。

S23：依次将全部句向量进行S22的操作，得到触发词向量集T＝{t₁₁,t₁₂,.....t_1q,t₂₁,.....t_2q,t_j1.....t_jq,t_m1.....,t_mq}；其中，j表示句子编号，q表示该句中事件触发词的编号，m表示句子数量。

S3：通过自学习进行事件分类

通过过程S2可获得编码后的句向量集

及触发词向量集T＝{t₁₁,t₁₂,.....t_1q,t₂₁,.....t_2q,t_j1.....t_jq,t_m1.....,t_mq}，其中，将每个触发词视为一件事件的发生，进行事件分类，包括：

S31：将编码后的句向量

至/>

依次和触发词向量t₁₁分别输入第二分类器中，获得任一编码后句向量/>

对应的类型概率，及触发词向量t₁₁对应的类型概率。

其中，第二分类器可选择Softmax交叉熵损失函数，设置为多分类问题，通过句向量与触发词向量计算出其属于各个事件类型的概率，选取概率最高且超过事件类型阈值，即第二阈值的事件类型作为输出。

第二阈值可设置为60％。

S32：通过模型学习得到任一编码后句向量

和触发词向量t₁₁的权值。

具体的，可通过Attention模型对任一编码后句向量

的权值α及触发词t₁₁的权值β进行自学习，α与β的和为1。其中，Attention模型本质上为一种相似性度量，当前输入与目标状态越相似，当前输入的权重就会越大，当前的输出也就越依赖于当前的输入，若事件类型跟编码后句向量/>

更相关则α的值越大，若事件类型跟触发词向量t₁₁更相关则β的值越大。

S33：将任一编码后句向量

对应的类型概率和触发词向量t₁₁对应的类型概率分别与它们的权值相乘后加和，得到任一触发词向量t₁₁在编码后句向量/>

下的事件类型概率。

S34：选择t₁₁在

下的事件类型概率中超过第二阈值的最大值，将该最大值对应的事件类型作为触发词向量t₁₁的事件类型。

S35：将编码后句向量

至/>

和触发词向量t₁₂进行与步骤S31-S34相同的操作，得到触发词向量t₁₂的事件类型。

S35：类似地，将编码后句向量

至/>

和任一触发词向量t_jq进行与步骤S31-S34相同的操作，得到任一触发词向量t_jq的事件类型。

S4：抽取事件元素

使用已知事件类型的信息通过步骤S0-S3进行模型训练，再通过训练完成后的模型进行事件分类和事件元素抽取。

其中，事件元素抽取为：

在完成任一触发词向量t_jq的事件分类后，填入该触发词向量对应的前后关联词及其角色，即获得完整的事件元素抽取。

该抽取过程可通过Pyltp或Stanford Parser的句法分析实现。

在工业过程异常日志中，上述过程的事件类型可设置为：计划异常、物料异常、设备异常、制程品质异常、设计工艺异常和水电异常。

实施例1

在模型训练时，对于输入，设置最大句子数和最大句子长度分别为64和128，采用Adam优化器，学习率为1e-4，最多训练100个迭代，并根据开发集上的验证分数选择最佳的迭代次数。

通过训练完成的模型，按照上述具体实施方式，对以下异常日志进行解读：

On July 5,2015,at 10am,there was insufficient supply of aluminumalloy in the milling machine workshop,and the workshop was suspended for halfa day without fulfilling the required indicators.

其在S1数据预处理中过程中：

首先通过stanford corenlp进行指代消歧，得到如下消歧后的日志内容：

On July 5,2015,at 10am,there was insufficient supply of aluminumalloy in the milling machine workshop,and milling machine workshop wassuspended for halfa day without fulfilling the required indicators.

其中，原日志内的“the workshop”由具体的“milling machine workshop”替代。

在完成进一步的词形还原后，得到如下的日志内容：

On July 5,2015,at 10am,there is insufficient supply of aluminum alloyin the milling machine workshop,and milling machine workshop is suspend forhalfa day without fulfill the required indicators.

其中，单词“was”、“suspended”及“fulfilling”分别由“is”、“suspend”及“fulfill”替代。

在完成词形还原后，进行词向量转换，得到词向量h₁,h₂,....,h_n,将其输入Transformer编码器中编码得到可靠词向量

另外，对进行词形还原后的句子进行事件角色抽取，如下：

R_j＝{Entity[insufficient supply,aluminum alloy,required indicators,milling machine workshop]；Verb[suspend,fulfill]；Time[July 5,2015，10am，half aday]；Place[milling machine workshop]；Org[none]}；

将其进行词向量转换，得到

[R₅][none]}。

其后进行S2自学习抽取触发词，其中：

对日志内容中第一句的可靠词向量

进行最大池化处理，得到句向量/>

将得到的该句向量

输入第一分类器，计算出/>

向量中各角色{Entity,Verb,Time,Place,Org}中的候选词分别为触发词的概率，进而得到触发词集合T＝{insufficient supply，suspend，……}。

在得到触发词集合后，进行S3事件类型判断，包括：

首先将

与作为触发词t₁₁的insufficient supply分别输入第二分类器计算其在不同事件类型下的概率，并通过Attention模型获得其分别的权值，将两个值乘权相加，得到insufficient supply的事件类型。类似的，对作为触发词t₁₂的suspend进行处理，再进一步对其他触发词进行处理，至得到全部触发词的事件类型。

在本例中可得出触发词t₁₁:insufficient supply所属的事件类型为“物料异常事件”，而t₁₂:suspend所属的事件类型为计划异常事件。

在得出触发词所述事件类型后，进行S4事件元素抽取，将不同的角色类型填入触发词的事件类型中。

具体的，如在

中，已得出触发词t₁₂：suspend的事件类型为计划异常事件，此时从映射集/>

中抽取出主要事件角色和关联词，抽取过程通过Pyltp或StanfordParser的句法分析实现，通过句法分析可知触发词suspend的主语为millingmachine workshop，时间为July 5,2015,10am,halfa day，地点为milling machineworkshop。

因此，进一步完成该计划异常事件的事件元素抽取，结果为{计划异常事件[Role1:milling machine workshop；Trigger:suspend；Time:July 5,2015，10am,half aday；Place:milling machine workshop]}。

以上实施例仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例。凡属于本发明思路下的技术方案均属于本发明的保护范围。应该指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下的改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种自学习事件抽取方法，其特征在于：包括：

S0：对工业异常日志记载的事件信息按分隔标记进行分隔，对分隔后的每个句子按前后顺序进行顺序编码；

S1：通过数据预处理过程依次抽取每个句子中的候选词和候选词对应的角色，获得按顺序排列的候选词集和候选词-角色映射集，将所得候选词集和候选词-角色映射集通过词嵌入操作分别得到按顺序排列的候选词向量集和候选词-角色映射向量集；

S2：通过第一分类器，根据由候选词向量集转化得到的句向量集和所述映射向量集进行触发词筛选，获得触发词向量集；

S3：通过第二分类器及权值学习模型，根据所得触发词向量集和其对应的句向量进行事件分类；

S4：根据步骤S0-S3对已知事件类型的事件信息进行分解，将其获得的触发词向量集、句向量集与已知的事件类型输入模型中进行训练，训练完成后获得抽取模型；

S5：通过所述抽取模型对待解读事件信息进行抽取和分类；

其中，S1具体包括：

S10：对工业异常日志的每个句子进行指代消歧，得到消歧后的句子；

S11：对消歧后的句子进行词形还原；

S12：对完成词形还原后的每个句子通过GloVe模型进行词的向量化，使每个句子转化为词向量h₁,h₂,....,h_n，其中n表示单个句子中单词的数量；

S13：对完成词向量嵌入的句子通过第一Transformer编码器，获得可靠词向量

全部句子的可靠词向量即组成所述候选词向量集；

S14：通过NLP工具对完成所述词形还原后的每个句子进行角色抽取，获得包括候选词及其对应角色的候选词-角色映射集r_j如下，

其中，Entity、Verb、Time、Place、Org分别表示角色实体、动词、时间、地点和组织，a、b、c……l分别表示各个角色在句子中对应的单词；

对所述候选词-角色映射集通过GloVe模型进行词的向量化，将其转换为映射向量集R_j，如下：

其中，[R_i]、[R_j]、[R_k]、[R_l]和[R_m]分别表示角色Entity、Verb、Time、Place和Org的词向量；[h_i,...]、[h_j,...]、[h_k,...]、[h_l,...]和[h_m,...]分别表示其对应的单词集[a,b...]、[c,d...]、[e,f...]、[g,...]和[l,...]的词向量；

对日志中按句子顺序编码排列的全部句子按上述过程进行处理，获得日志的全部映射向量集{R₁,R₂,...,R_j...,R_m}，其中m表示句子数量；

S2具体包括：

S20：对按句子顺序编码排列的候选词向量集