CN111881258B - 一种自学习事件抽取方法及其应用 - Google Patents

一种自学习事件抽取方法及其应用 Download PDF

Info

Publication number
CN111881258B
CN111881258B CN202010738172.4A CN202010738172A CN111881258B CN 111881258 B CN111881258 B CN 111881258B CN 202010738172 A CN202010738172 A CN 202010738172A CN 111881258 B CN111881258 B CN 111881258B
Authority
CN
China
Prior art keywords
sentence
vector
event
word
trigger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010738172.4A
Other languages
English (en)
Other versions
CN111881258A (zh
Inventor
朱远发
张伟文
王德培
赖泰驱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202010738172.4A priority Critical patent/CN111881258B/zh
Publication of CN111881258A publication Critical patent/CN111881258A/zh
Application granted granted Critical
Publication of CN111881258B publication Critical patent/CN111881258B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种自学习事件抽取方法及其应用,其中所述事件抽取方法先通过事件信息的句向量、每个句向量内包含的候选词‑角色映射对候选词进行自学习筛选,获得触发词集合,本发明可快速、准确地对工业生产异常日志等类信息进行解读,进一步做出合适的决策。

Description

一种自学习事件抽取方法及其应用
技术领域
本发明涉及事件抽取的技术领域。
背景技术
生产异常指的是生产过程中出现的进度延迟或生产停工的现象,一般包括计划异常、物料异常、设备异常、制程品质异常、设计工艺异常、水电异常等多种形式。生产异常会造成生产浪费,并严重影响企业的生产能力,是生产中迫切希望克服的问题。在解决该问题的方案中,一种常用的手段是决策者通过对工业生产过程的异常日志进行解读,找出和异常相关的信息,如产生原因、发展过程等,基于这些信息作出有效决策,减少生产异常。
现有技术中,对工业过程异常日志这类事件信息的解读可通过事件抽取的方式完成,其中所述事件抽取是指的从非结构化的信息中抽取出用户感兴趣的内容,并将其进行结构化呈现的过程。事件抽取过程通常可分为事件识别任务和角色分类任务,其中,事件识别任务用于判断句子中的每个单词归属的事件类型,是一个基于单词的多分类任务,可进一步包括触发词(trigger)识别和事件类型分类;角色分类任务是基于词对的多分类任务,用以判断句子中任意一对触发词和实体之间的角色关系,可进一步包括论元识别任务和角色分类任务。可以看出,在上述过程中,触发词的准确抽取和识别是获得良好事件抽取效果的重要前提。而为获得准确的触发词识别,需要进行大量的触发词标注,在现有技术中,其多数是通过人工标注来实现的,不仅过程繁琐,容易出错,而且覆盖度和可移植性差。
发明内容
本发明的目的在于提出一种通过自学习方式进行事件抽取,进而得到结构化的信息的方法。
本发明的目的还在于提出上述方法的一种应用。
本发明首选公开了如下的技术方案:
一种自学习事件抽取方法,其包括:
S2通过事件信息的句向量、每个句向量内包含的候选词-角色映射,对不同句子内的不同角色所对应的候选词向量进行自学习筛选,获得触发词向量集。
其中,所述候选词是指的句子内可用于判断是否为触发词的全部单词,在未经过特别处理时,其指的一个句子里含有的全部单词。
所述角色是指的每个候选词在句子中的功能性类别,如动词、名词实体、表示时间的词、表示地点的词、表示组织的词等。
所述候选词-角色映射即是指每个角色及其对应的全部候选词,如:动词(候选词1、候选词2……);名词实体(候选词3、候选词4……)等。
所述自学习是指通过训练后的模型自发地从信息中进行目标(如触发词、事件元素等)抽取的过程,不需要对待抽取信息先进行人工标注及特征提取。
在一些具体实施方式中:所述筛选过程包括:
S20:获得含有所述候选词-角色映射信息编码的编码后句向量;
S21:将每个编码后句向量依次输入第一分类器中,获得其中不同角色对应的候选词向量为触发词的概率,其中超过第一阈值概率的候选词向量标注为触发词向量,由此得到全部句向量中的全部触发词的向量集。
优选的,所述编码通过第二Transformer编码器实现。
在一些具体实施方式中:所述第一分类器使用Softmax交叉熵损失函数,设置为二分类问题,所述第一阈值概率为70%。
在一些具体实施方式中:所述事件抽取方法还包括:
S3:根据S2获得的触发词向量集,及其对应的句向量,判断每个触发词向量在每个句向量中属于一种特定类型的事件的发生概率,其中发生概率最高且超过第二阈值的事件类型即为该触发词向量在该句向量下的事件类型。
优选的,所述第二阈值为60%。
优选的,所述句向量为前述编码后句向量。
在一些具体实施方式中:所述发生概率为所述触发词向量与所述句向量的加权概率,即其为所述触发词向量属于该特定类型事件的概率与其权值的乘积加上所述句向量属于该特定类型事件的概率与其权值的乘积。
优选的,所述权值通过Attention模型获得。
在一些具体实施方式中:所述触发词向量属于该特定类型事件的概率及所述句向量属于该特定类型事件的概率通过第二分类器获得。
在一些具体实施方式中:所述第二分类器使用Softmax交叉熵损失函数,设置为多分类问题,通过所述句向量与所述触发词向量计算出其分别属于各个事件类型的概率,选取其中概率最高且超过第二阈值的事件类型作为该句向量或触发词向量的事件类型。
在一些具体实施方式中,所述事件抽取方法还包括:
S1:对事件信息的数据预处理,其包括:
S11:对事件信息进行词向量转化,获得候选词向量集;
S12:对事件信息进行角色抽取,获得候选词-角色映射集,对所述候选词-角色映射集进行词向量转化,获得候选词-角色映射向量集。
优选的,所述词向量转化通过GloVe模型实现。
优选的,所述角色抽取通过NLP工具实现。
更优选的,所述角色抽取通过PyLTP工具包实现。
在一些具体实施方式中,对所述候选词向量集和所述候选词-角色映射向量集先进行编码,获得可靠候选词向量集和可靠候选词-角色映射向量集,由可靠候选词向量集和可靠候选词-角色映射向量集代替所述候选词向量集和所述候选词-角色映射向量集进行其他各项处理。
优选的,所述候选词向量集和所述候选词-角色映射向量集的编码通过第一Transformer编码器实现。
在一些具体实施方式中,所述S1还包括:
S13:对所述候选词向量集进行转换,获得句向量集。
优选的,所述词向量集转换通过神经网络的最大池化处理实现。
在一些具体实施方式中,所述S1还包括:
S10:对事件信息先进行整理,得到整理后的事件信息,其后各步在整理后的事件信息的基础上进行。
优选的,所述整理包括指代消歧、词形还原。
在一些具体实施方式中,所述事件抽取方法还包括:
S4对事件元素进行抽取
其包括:根据完成事件类型判断的触发词,填入该触发词在句子内的其他关联词和它们的角色,获得完整的事件元素。
本发明进一步提出了上述方法在关于生产异常的决策中的应用。
所述应用中,所述事件信息来自生产过程异常日志,所述事件类型包括计划异常、物料异常、设备异常、制程品质异常、设计工艺异常和水电异常。
本发明可通过机器自学习,快速、准确地进行触发词标注和抽取,及事件分类,从而实现对工业生产异常日志等类信息的高效、准确的结构化解读,进一步可帮助生产者做出准确、有效的决策。
附图说明
图1为本发明进行事件抽取的过程示意图。
图2为本发明进行事件抽取过程的系统架构图。
具体实施方式
以下结合实施例和附图对本发明进行详细描述,但需要理解的是,所述实施例和附图仅用于对本发明进行示例性的描述,而并不能对本发明的保护范围构成任何限制。所有包含在本发明的发明宗旨范围内的合理的变换和组合均落入本发明的保护范围。
通过如附图1所示的过程图进行事件抽取,其包括:
S0:对记载的事件信息按特殊分隔标记,如句号等,进行分隔,对分隔后的每个句子按前后顺序进行顺序编码。
S1:通过数据预处理过程依次抽取每个句子中的候选词和候选词对应的角色,获得按顺序排列的候选词集和候选词-角色映射集,将所得候选词集和候选词-角色映射集通过词嵌入操作分别得到按顺序排列的候选词向量集和候选词-角色映射向量集。
S2:通过第一分类器,根据由候选词向量集转化得到的句向量集和所述映射向量集进行触发词筛选,获得触发词向量集。
S3:通过第二分类器及权值学习模型,根据所得触发词向量集和其对应的句向量进行事件分类。
S4:根据步骤S0-S3对已知事件类型的事件信息进行分解,将其获得的触发词向量集、句向量集与已知的事件类型输入模型中进行训练,训练完成后获得抽取模型。
S5:通过所述抽取模型对待解读事件信息进行抽取和分类。
上述过程可通过如附图2所示的架构实现,在更具体的实施中,包括:
S0如前述,对工业异常日志的内容进行分句。
S1数据预处理,包括:
获得候选词向量集:
S10:对日志中的每个句子进行指代消歧,得到消歧后的句子,指代消歧可通过stanford corenlp实现。
S11:对消歧后的句子进行词形还原,词形还原可通过stanford corenlp实现。
S12:对完成词性还原后的每个句子通过GloVe模型进行词的向量化,使每个句子转化为词向量h1,h2,....,hn,其中n表示单个句子中单词的数量。
S13:对完成词向量嵌入的句子通过第一Transformer编码器,编码后句子中的重要特征得到保留,获得可靠词向量
Figure BDA0002605729140000051
全部句子的可靠词向量即组成所述候选词向量集。
获得映射向量集:
S14:通过NLP工具对完成所述词性还原后的每个句子进行角色抽取,具体的,使用PyLTP工具包进行角色抽取,该工具包提供了词性标志、命名实体识别的功能,以此可抽取出实体、形容词、动词、时间、地点、组织等角色。通过角色抽取,获得包括候选词及其对应角色的候选词-角色映射集rj如下,
rj={Entity[a,b...];Verb[c,d...];Time[e,f...];Place[g,...];Org[l,...]};
其中,Entity、Verb、Time、Place、Org分别表示角色“实体”、“动词”、“时间”、“地点”和“组织”,其中实体为名词;a、b、c……l分别表示各个角色在句子中对应的单词。
对所述候选词-角色映射集通过GloVe模型进行词的向量化,将其转换为映射向量集Rj,Rj可使用如下的形式:
Rj={[Ri][hi,...];[Rj][hj,...];[Rk][hk,...];[Rl][hl,...];[Rm][hm,...]};
其中,[Ri]、[Rj]、[Rk]、[Rl]和[Rm]分别表示角色Entity、Verb、Time、Place和Org的词向量;[hi,...]、[hj,...]、[hk,...]、[hl,...]和[hm,...]分别表示其对应的单词集[a,b...]、[c,d...]、[e,f...]、[g,...]和[l,...]的词向量。
对日志中按句子顺序编码排列的全部句子按上述过程进行处理,获得日志的全部映射向量集{R1,R2,...,Rj...,Rm},其中m表示句子数量。
S2通过自学习抽取触发词
S20:对按句子顺序编码排列的所述候选词向量集
Figure BDA0002605729140000061
通过神经网络的池化层进行最大池化处理,使其转换为句向量集{S1,S2,...Sj..,Sm},其中,j=1,...,m,m表示句子数量。
S21:将句向量集{S1,S2,...Sj..,Sm}和映射向量集{R1,R2,...,Rj...,Rm}输入第二Transformer编码器中,使两者中的重要信息得到保留,同时使映射向量集中的重要信息编码对应融合至句向量集中,得到编码后的映射向量集
Figure BDA0002605729140000062
及融合了映射向量集信息编码的句向量集/>
Figure BDA0002605729140000063
该过程可更好地捕捉句子之间的信息。
S22:将第一个句子的编码后句向量
Figure BDA0002605729140000064
输入第一分类器中,按每个句向量中候选词向量对应的角色向量的不同,分别计算出每个角色向量下,所含有的候选词向量为触发词的概率,具体的,每个超过一定的第一阈值的候选词向量标注为触发词t;若一句话中没有候选词向量超过第一阈值,则认为此句话中没有事件触发词,跳过此句话。
其中,第一分类器可选择Softmax交叉熵损失函数,设置为二分类问题,即等价于逻辑回归。
第一阈值可设置为70%。
S23:依次将全部句向量进行S22的操作,得到触发词向量集T={t11,t12,.....t1q,t21,.....t2q,tj1.....tjq,tm1.....,tmq};其中,j表示句子编号,q表示该句中事件触发词的编号,m表示句子数量。
S3:通过自学习进行事件分类
通过过程S2可获得编码后的句向量集
Figure BDA0002605729140000071
及触发词向量集T={t11,t12,.....t1q,t21,.....t2q,tj1.....tjq,tm1.....,tmq},其中,将每个触发词视为一件事件的发生,进行事件分类,包括:
S31:将编码后的句向量
Figure BDA0002605729140000072
至/>
Figure BDA0002605729140000073
依次和触发词向量t11分别输入第二分类器中,获得任一编码后句向量/>
Figure BDA0002605729140000074
对应的类型概率,及触发词向量t11对应的类型概率。
其中,第二分类器可选择Softmax交叉熵损失函数,设置为多分类问题,通过句向量与触发词向量计算出其属于各个事件类型的概率,选取概率最高且超过事件类型阈值,即第二阈值的事件类型作为输出。
第二阈值可设置为60%。
S32:通过模型学习得到任一编码后句向量
Figure BDA0002605729140000075
和触发词向量t11的权值。
具体的,可通过Attention模型对任一编码后句向量
Figure BDA0002605729140000076
的权值α及触发词t11的权值β进行自学习,α与β的和为1。其中,Attention模型本质上为一种相似性度量,当前输入与目标状态越相似,当前输入的权重就会越大,当前的输出也就越依赖于当前的输入,若事件类型跟编码后句向量/>
Figure BDA0002605729140000077
更相关则α的值越大,若事件类型跟触发词向量t11更相关则β的值越大。
S33:将任一编码后句向量
Figure BDA0002605729140000078
对应的类型概率和触发词向量t11对应的类型概率分别与它们的权值相乘后加和,得到任一触发词向量t11在编码后句向量/>
Figure BDA0002605729140000079
下的事件类型概率。
S34:选择t11
Figure BDA00026057291400000710
下的事件类型概率中超过第二阈值的最大值,将该最大值对应的事件类型作为触发词向量t11的事件类型。
S35:将编码后句向量
Figure BDA0002605729140000081
至/>
Figure BDA0002605729140000082
和触发词向量t12进行与步骤S31-S34相同的操作,得到触发词向量t12的事件类型。
S35:类似地,将编码后句向量
Figure BDA0002605729140000083
至/>
Figure BDA0002605729140000084
和任一触发词向量tjq进行与步骤S31-S34相同的操作,得到任一触发词向量tjq的事件类型。
S4:抽取事件元素
使用已知事件类型的信息通过步骤S0-S3进行模型训练,再通过训练完成后的模型进行事件分类和事件元素抽取。
其中,事件元素抽取为:
在完成任一触发词向量tjq的事件分类后,填入该触发词向量对应的前后关联词及其角色,即获得完整的事件元素抽取。
该抽取过程可通过Pyltp或Stanford Parser的句法分析实现。
在工业过程异常日志中,上述过程的事件类型可设置为:计划异常、物料异常、设备异常、制程品质异常、设计工艺异常和水电异常。
实施例1
在模型训练时,对于输入,设置最大句子数和最大句子长度分别为64和128,采用Adam优化器,学习率为1e-4,最多训练100个迭代,并根据开发集上的验证分数选择最佳的迭代次数。
通过训练完成的模型,按照上述具体实施方式,对以下异常日志进行解读:
On July 5,2015,at 10am,there was insufficient supply of aluminumalloy in the milling machine workshop,and the workshop was suspended for halfa day without fulfilling the required indicators.
其在S1数据预处理中过程中:
首先通过stanford corenlp进行指代消歧,得到如下消歧后的日志内容:
On July 5,2015,at 10am,there was insufficient supply of aluminumalloy in the milling machine workshop,and milling machine workshop wassuspended for halfa day without fulfilling the required indicators.
其中,原日志内的“the workshop”由具体的“milling machine workshop”替代。
在完成进一步的词形还原后,得到如下的日志内容:
On July 5,2015,at 10am,there is insufficient supply of aluminum alloyin the milling machine workshop,and milling machine workshop is suspend forhalfa day without fulfill the required indicators.
其中,单词“was”、“suspended”及“fulfilling”分别由“is”、“suspend”及“fulfill”替代。
在完成词形还原后,进行词向量转换,得到词向量h1,h2,....,hn,将其输入Transformer编码器中编码得到可靠词向量
Figure BDA0002605729140000091
另外,对进行词形还原后的句子进行事件角色抽取,如下:
Rj={Entity[insufficient supply,aluminum alloy,required indicators,milling machine workshop];Verb[suspend,fulfill];Time[July 5,2015,10am,half aday];Place[milling machine workshop];Org[none]};
将其进行词向量转换,得到
Figure BDA0002605729140000092
[R5][none]}。
其后进行S2自学习抽取触发词,其中:
对日志内容中第一句的可靠词向量
Figure BDA0002605729140000093
进行最大池化处理,得到句向量/>
Figure BDA0002605729140000094
将得到的该句向量
Figure BDA0002605729140000095
输入第一分类器,计算出/>
Figure BDA0002605729140000096
向量中各角色{Entity,Verb,Time,Place,Org}中的候选词分别为触发词的概率,进而得到触发词集合T={insufficient supply,suspend,……}。
在得到触发词集合后,进行S3事件类型判断,包括:
首先将
Figure BDA0002605729140000097
与作为触发词t11的insufficient supply分别输入第二分类器计算其在不同事件类型下的概率,并通过Attention模型获得其分别的权值,将两个值乘权相加,得到insufficient supply的事件类型。类似的,对作为触发词t12的suspend进行处理,再进一步对其他触发词进行处理,至得到全部触发词的事件类型。
在本例中可得出触发词t11:insufficient supply所属的事件类型为“物料异常事件”,而t12:suspend所属的事件类型为计划异常事件。
在得出触发词所述事件类型后,进行S4事件元素抽取,将不同的角色类型填入触发词的事件类型中。
具体的,如在
Figure BDA0002605729140000101
中,已得出触发词t12:suspend的事件类型为计划异常事件,此时从映射集/>
Figure BDA0002605729140000102
Figure BDA0002605729140000103
Figure BDA0002605729140000104
中抽取出主要事件角色和关联词,抽取过程通过Pyltp或StanfordParser的句法分析实现,通过句法分析可知触发词suspend的主语为millingmachine workshop,时间为July 5,2015,10am,halfa day,地点为milling machineworkshop。
因此,进一步完成该计划异常事件的事件元素抽取,结果为{计划异常事件[Role1:milling machine workshop;Trigger:suspend;Time:July 5,2015,10am,half aday;Place:milling machine workshop]}。
以上实施例仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例。凡属于本发明思路下的技术方案均属于本发明的保护范围。应该指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下的改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种自学习事件抽取方法,其特征在于:包括:
S0:对工业异常日志记载的事件信息按分隔标记进行分隔,对分隔后的每个句子按前后顺序进行顺序编码;
S1:通过数据预处理过程依次抽取每个句子中的候选词和候选词对应的角色,获得按顺序排列的候选词集和候选词-角色映射集,将所得候选词集和候选词-角色映射集通过词嵌入操作分别得到按顺序排列的候选词向量集和候选词-角色映射向量集;
S2:通过第一分类器,根据由候选词向量集转化得到的句向量集和所述映射向量集进行触发词筛选,获得触发词向量集;
S3:通过第二分类器及权值学习模型,根据所得触发词向量集和其对应的句向量进行事件分类;
S4:根据步骤S0-S3对已知事件类型的事件信息进行分解,将其获得的触发词向量集、句向量集与已知的事件类型输入模型中进行训练,训练完成后获得抽取模型;
S5:通过所述抽取模型对待解读事件信息进行抽取和分类;
其中,S1具体包括:
S10:对工业异常日志的每个句子进行指代消歧,得到消歧后的句子;
S11:对消歧后的句子进行词形还原;
S12:对完成词形还原后的每个句子通过GloVe模型进行词的向量化,使每个句子转化为词向量h1,h2,....,hn,其中n表示单个句子中单词的数量;
S13:对完成词向量嵌入的句子通过第一Transformer编码器,获得可靠词向量
Figure FDA0004217660790000011
全部句子的可靠词向量即组成所述候选词向量集;
S14:通过NLP工具对完成所述词形还原后的每个句子进行角色抽取,获得包括候选词及其对应角色的候选词-角色映射集rj如下,
rj={Entity[a,b...];Verb[c,d...];Time[e,f...];Place[g,...];Org[l,...]};
其中,Entity、Verb、Time、Place、Org分别表示角色实体、动词、时间、地点和组织,a、b、c……l分别表示各个角色在句子中对应的单词;
对所述候选词-角色映射集通过GloVe模型进行词的向量化,将其转换为映射向量集Rj,如下:
Rj={[Ri][hi,...];[Rj][hj,...];[Rk][hk,...];[Rl][hl,...];[Rm][hm,...]};
其中,[Ri]、[Rj]、[Rk]、[Rl]和[Rm]分别表示角色Entity、Verb、Time、Place和Org的词向量;[hi,...]、[hj,...]、[hk,...]、[hl,...]和[hm,...]分别表示其对应的单词集[a,b...]、[c,d...]、[e,f...]、[g,...]和[l,...]的词向量;
对日志中按句子顺序编码排列的全部句子按上述过程进行处理,获得日志的全部映射向量集{R1,R2,...,Rj...,Rm},其中m表示句子数量;
S2具体包括:
S20:对按句子顺序编码排列的候选词向量集
Figure FDA0004217660790000021
通过神经网络的池化层进行最大池化处理,使其转换为句向量集{S1,S2,...Sj..,Sm},其中,j=1,...,m,m表示句子数量;
S21:将句向量集{S1,S2,...Sj..,Sm}和映射向量集{R1,R2,...,Rj...,Rm}输入第二Transformer编码器中,得到编码后的映射向量集
Figure FDA0004217660790000022
及融合了映射向量集信息编码的句向量集/>
Figure FDA0004217660790000023
S22:将第一个句子的编码后句向量
Figure FDA0004217660790000024
输入第一分类器中,按每个句向量中候选词向量对应的角色向量的不同,分别计算出每个角色向量下,所含有的候选词向量为触发词的概率,具体的,每个超过一定的第一阈值的候选词向量标注为触发词t;若一句话中没有候选词向量超过第一阈值,则认为此句话中没有事件触发词,跳过此句话;
S23:依次将全部句向量进行S22的操作,得到触发词向量集T={t11,t12,.....t1q,t21,.....t2q,tj1.....tjq,tm1.....,tmq};其中,j表示句子编号,q表示该句中事件触发词的编号,m表示句子数量;
S3具体包括:
S31:将编码后的句向量
Figure FDA0004217660790000025
至/>
Figure FDA0004217660790000026
依次和触发词向量t11分别输入第二分类器中,获得任一编码后句向量/>
Figure FDA0004217660790000027
对应的类型概率,及触发词向量t11对应的类型概率;
S32:通过Attention模型对任一编码后句向量
Figure FDA0004217660790000028
的权值α及触发词t11的权值β进行自学习;
S33:将任一编码后句向量
Figure FDA0004217660790000029
对应的类型概率和触发词向量t11对应的类型概率分别与它们的权值相乘后加和,得到触发词向量t11在编码后句向量/>
Figure FDA00042176607900000210
下的事件类型概率;
S34:选择t11
Figure FDA0004217660790000031
下的事件类型概率中超过第二阈值的最大值,将该最大值对应的事件类型作为触发词向量t11的事件类型;
S35:将编码后句向量
Figure FDA0004217660790000032
至/>
Figure FDA0004217660790000033
和触发词向量t12进行与步骤S31-S34相同的操作,得到触发词向量t12的事件类型;
S35:将编码后句向量
Figure FDA0004217660790000034
至/>
Figure FDA0004217660790000035
和任一触发词向量tjq进行与步骤S31-S34相同的操作,得到任一触发词向量tjq的事件类型;
S4具体包括:
使用已知事件类型的信息通过步骤S0-S3进行模型训练,再通过训练完成后的模型进行事件分类和事件元素抽取,其中,事件元素抽取为:
在完成任一触发词向量tjq的事件分类后,填入该触发词向量对应的前后关联词及其角色,即获得完整的事件元素抽取。
2.根据权利要求1所述的事件抽取方法,其特征在于:所述第一分类器使用Softmax交叉熵损失函数,设置为二分类问题,所述第一阈值概率为70%。
3.根据权利要求1所述的事件抽取方法,其特征在于:所述第二分类器使用Softmax交叉熵损失函数,设置为多分类问题。
4.根据权利要求1所述的事件抽取方法,其特征在于:所述第二阈值为60%。
5.根据权利要求1所述的事件抽取方法,其特征在于:所述指代消歧通过stanfordcorenlp实现。
6.根据权利要求1所述的事件抽取方法,其特征在于:所述词形还原通过stanfordcorenlp实现。
7.根据权利要求1所述的事件抽取方法,其特征在于:所述事件元素抽取通过Pyltp或Stanford Parser的句法分析实现。
8.根据权利要求1所述的事件抽取方法,其特征在于:所述事件类型包括计划异常、物料异常、设备异常、制程品质异常、设计工艺异常和水电异常。
CN202010738172.4A 2020-07-28 2020-07-28 一种自学习事件抽取方法及其应用 Active CN111881258B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010738172.4A CN111881258B (zh) 2020-07-28 2020-07-28 一种自学习事件抽取方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010738172.4A CN111881258B (zh) 2020-07-28 2020-07-28 一种自学习事件抽取方法及其应用

Publications (2)

Publication Number Publication Date
CN111881258A CN111881258A (zh) 2020-11-03
CN111881258B true CN111881258B (zh) 2023-06-20

Family

ID=73201768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010738172.4A Active CN111881258B (zh) 2020-07-28 2020-07-28 一种自学习事件抽取方法及其应用

Country Status (1)

Country Link
CN (1) CN111881258B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580346B (zh) * 2020-11-17 2022-05-06 深圳追一科技有限公司 事件抽取方法、装置、计算机设备和存储介质
CN113901815B (zh) * 2021-10-15 2023-05-05 华能澜沧江水电股份有限公司 基于大坝运行日志的应急工况事件检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572958A (zh) * 2014-12-29 2015-04-29 中国科学院计算机网络信息中心 一种基于事件抽取的敏感信息监控方法
CN110032641A (zh) * 2019-02-14 2019-07-19 阿里巴巴集团控股有限公司 计算机执行的、利用神经网络进行事件抽取的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572958A (zh) * 2014-12-29 2015-04-29 中国科学院计算机网络信息中心 一种基于事件抽取的敏感信息监控方法
CN110032641A (zh) * 2019-02-14 2019-07-19 阿里巴巴集团控股有限公司 计算机执行的、利用神经网络进行事件抽取的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Joint optinion target and target-oriented opinion words extraction by BERT and IOA model;YuanFa Zhu等;《SSPS 2020:2020 2nd Symposium on Signal Processing Systems》;120-124 *
中文事件抽取研究综述;项威;王邦;;计算机技术与发展(02);7-12 *

Also Published As

Publication number Publication date
CN111881258A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
Oh et al. Hybrid genetic algorithms for feature selection
CN111159407B (zh) 训练实体识别和关系分类模型的方法、装置、设备及介质
CN106201465B (zh) 面向开源社区的软件项目个性化推荐方法
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN110929034A (zh) 一种基于改进lstm的商品评论细粒度情感分类方法
CN107944014A (zh) 一种基于深度学习的中文文本情感分析方法
CN111475655B (zh) 一种基于配电网知识图谱的电力调度文本实体链接方法
CN111079430A (zh) 一种组合深度学习和概念图谱的电力故障事件抽取方法
CN110096587B (zh) 基于注意力机制的lstm-cnn词嵌入的细粒度情感分类模型
CN111881258B (zh) 一种自学习事件抽取方法及其应用
CN112905739A (zh) 虚假评论检测模型训练方法、检测方法及电子设备
CN114579430A (zh) 一种基于预训练语言模型的测试用例推荐系统及方法
CN113268974A (zh) 多音字发音标注方法、装置、设备及存储介质
CN116245110A (zh) 基于图注意力网络的多维度信息融合用户立场检测方法
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和系统
CN113343701B (zh) 一种电力设备故障缺陷文本命名实体的抽取方法及装置
CN111177010A (zh) 一种软件缺陷严重程度识别方法
CN112036179B (zh) 基于文本分类与语义框架的电力预案信息抽取方法
CN113065352B (zh) 一种电网调度工作文本的操作内容识别方法
CN114416991A (zh) 一种基于prompt的文本情感原因分析方法和系统
CN114117029A (zh) 一种基于多层次信息增强的解决方案推荐方法及系统
CN116956289B (zh) 动态调整潜在黑名单和黑名单的方法
CN113127716A (zh) 一种基于显著性图的情感时间序列异常检测方法
CN110362828B (zh) 网络资讯风险识别方法及系统
KR102265947B1 (ko) 기계 학습 기반 정보 제공 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant