CN113312490B

CN113312490B - 一种针对突发事件的事件知识图谱构建方法

Info

Publication number: CN113312490B
Application number: CN202110467741.0A
Authority: CN
Inventors: 孙锐; 谢红
Original assignee: Leshan Normal University
Current assignee: Leshan Normal University
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2023-04-18
Anticipated expiration: 2041-04-28
Also published as: CN113312490A

Abstract

本发明提供了一种针对突发事件的事件知识图谱构建方法，属于自然语言处理领域，包括以下步骤：1)从互联网上收集新闻文档数据，完成数据清洗等预处理操作；2)将语料加入背景语料，预训练后习得词的嵌入表示；3)以语句为单位，抽取原子事件；4)针对事件表现形式多样化的问题，进行原子事件的规范化；5)对出现在同一语句中的事件对，识别其时序关系；6)基于事件和事件时序关系构建事件知识图谱。该方法利用原子事件及原子事件关系进行统计分析，有效地从事件关联性中进行推理和预测，以便对突发事件进行预防或辅助决策。

Description

一种针对突发事件的事件知识图谱构建方法

技术领域

本发明属于自然语言处理领域，具体涉及一种针对突发事件的事件知识图谱构建方法。

背景技术

突发事件，是指突然发生，造成或者可能造成严重社会危害，需要采取应急处置措施予以应对的自然灾害、事故灾难、公共卫生事件和社会安全事件。为预防和减少突发事件的发生，控制、减轻和消除突发事件引起的严重社会危害，相关部门应规范突发事件应对活动，对可能发生的突发事件进行综合性评估，最大限度地减轻重大突发事件影响。

突发事件具有明显的时序特征，往往会演化或衍生出很多的子事件。例如，一些台风事件一发生，同时会出现“人员伤亡”、“农作物受灾”、“通讯中断”等事件；随着时间的推进，“气象台发布预警”、“相关部门发出通告”、“转移相关人员”、“防范病菌”等一系列相关事件。这些事件的发生有着时序关系或因果关系。准确完整地获取突发事件关系，对了解突发事件的前因后果以及对事态发展趋势的掌握有着重要的作用。

自某网站推出第一版知识图谱(Knowledge Graph，KG)以来，知识图谱已在工业界和学术界掀起了一股热潮。知识图谱采用实体二元关系描述现实世界，以图数据结构来表达和存储知识，其实体关系类别或关注开放领域下的“Is a”和“Attribute”类型，或针对特定领域定制语义框架。

事件，一般指一个动作的发生或状态的变化。与实体关系相比，事件作为一种特殊的知识表现形式，呈现了比实体关系更复杂的语义关系。从认知心理学来看，人类多以“事件”为单位去记忆和理解现实世界。现实世界中的事件之间大多呈现因果和时序上的关系。采用原子事件知识图谱比传统知识图谱更利于进行突发事件的分析和预测。在所构造的事件知识图谱中，结点本身包含论元(可以为实体)间的语义关系，而边则表达了事件间的关系，因而包含了比传统知识图谱更丰富的知识。同一主题下的事件会形成天然的聚簇，即事件关联子图或事件链。事件在不同主题下往往呈现了不同的强度或主题相关度，事件之间也有着不同的关联度。因此，基于事件知识图谱开展事件强度、事件关联度、事件链等知识推理研究并实现时间线生成和事件预测等应用是非常有意义的。

近年来，知识图谱的发展如火如荼，Freebase和Probase等英文知识图谱已得到广泛的应用。但它们只包含了有关实体的丰富知识，极少涉及事件知识。现有面向突发事件的知识图谱构建方法采用传统的以实体为基本结点的形式，语义表达能力有限且语义关系略为简单，难以刻画客观世界动态性的知识。例如，“地震”发生后，往往会有“伤亡”、“救援”和“安置”等事件发生；同样，“CEO辞职”发生后也可能会出现“人事变更”和“股市起伏”等相关事件。

发明内容

为了克服上述现有技术存在的不足，本发明提供了一种针对突发事件的事件知识图谱构建方法。

为了实现上述目的，本发明提供如下技术方案：

一种针对突发事件的事件知识图谱构建方法，包括以下步骤：

步骤1、收集突发事件新闻文档，对突发事件新闻文档进行数据预处理操作，得到新闻数据集D；

步骤2、将预处理后的新闻数据集D加入背景语料，预训练后得到词的分布式表示，即词的Embedding；

步骤3、对新闻数据集D中的每篇新闻，以语句为单位采用深度学习的序列标注方法进行事件抽取，所对应的事件采用主谓宾结构的三元组原子事件表示；

步骤4、根据事件模板的分布特点，针对事件表现形式多样化的问题，采用Bootstrapping方法进行三元组原子事件的规范化，修正不规范事件的形态，得到规范化原子事件；

步骤5、对出现在同一语句中的规范化原子事件对，采用基于深度学习的算法学习其上下文特征，判别规范化原子事件对间的时序关系；

步骤6、基于规范化原子事件和规范化原子事件对间的时序关系构建事件知识图谱，以规范化原子事件为结点，规范化原子事件对的时序关系为边，得到最后的事件知识图谱。

优选地，所述步骤1对突发事件新闻文档进行数据预处理操作具体包括：利用现有的自然语言处理工具包，完成新闻语料清洗，并对每篇文档进行预处理。

优选地，所述步骤3具体包括：

步骤31、令语句对应的词序列作为输入序列，表示为x＝{w₁,w₂,...,w_n}，以预训练后得到的Embedding作为词的输入向量w_i，令词序列对应的预测标签集合为ye＝{ye₁,ye₂,...,ye_n}，标签可选集合为{O，BSub，ISub，BPre，IPre，BObj，IObj}，分别表示非事件主谓宾、事件主语开始词、事件主语非开始词、事件谓语开始词、事件谓语非开始词、事件宾语开始词、事件宾语非开始词；

步骤32、经过神经网络隐层的训练提取句子特征，得到每个词对应位置i上的网络隐层输出p_i；

步骤33、在输入层，综合考虑隐层输出p_i和标签转移概率

预测输出每个词对应位置i上的标签ye_i，其预测概率为

步骤34、语句对应的整个词序列的最后得分为序列所有位置得分之和，即：

对此得分进行Softmax归一化后，模型目标函数表示为

即优化得到语句对应词序列的最优标签预测序列；

步骤35、对语句按上述模型优化后的结果进行解码，连续标签{BSub,ISub,…}对应的词序列为原子事件主语，连续标签{BPre,IPre,…}对应的词序列为原子事件谓语，连续标签{BObj,IObj,…}对应的词序列为原子事件宾语,标签O对应的词则为非原子事件主谓宾，从语句的第一个词依次往后扫描，连续的主谓宾合并得到一个三元组原子事件。

优选地，所述步骤4具体包括：

步骤41、构造候选事件集合E，初始集合为所有三元组原子事件；

步骤42、统计候选事件集合E中各事件出现频率，以得到候选事件模板p'；

步骤43、对所有候选事件模板p'进行置信度评估，超过阈值k的模板作为标准事件模板；若没有满足要求的标准事件模板产生，则事件规范化结束；每个候选事件模板p'采用下式进行置信度评估：

步骤44、根据标准事件模板p对候选事件集合E中的候选事件e进行修正，并更新候选事件集合E；

步骤45、重复上述步骤41-44，直到满足步骤43中结束条件。

优选地，所述步骤44按照以下规则对候选事件集合E中的候选事件e进行修正：

若标准事件模板p为{subj1，pred1，obj1}，其中subj1、pred1和obj1分别代表标准事件模板的主语、谓语和宾语，扫描候选事件集合E中的每个候选事件e，按下列规则进行事件更新：

1)若候选事件e为{subj2，pred2，obj2}或{subj2，pred2，nil}，其中subj2、pred2、obj2和nil分别表示候选事件的主语、谓语、宾语和缺失宾语，如果subj1＝＝subj2并且pred1＝＝pred2，则在原文档上下文找到与obj1相同或相似的词作为新的obj2，即候选事件更新为{subj2,pred2,obj1}；

2)若候选事件e为{subj2，pred2，obj2}或{nil，pred2，obj2}，其中subj2、pred2、obj2和nil分别表示候选事件的主语、谓语、宾语和缺失主语，如果pred1＝＝pred2并且obj1＝＝obj2，则在原文档上下文找到与subj1相同或相似的词作为新的subj2，即候选事件更新为{subj1，pred2，obj2}；

3)若候选事件e为{subj2，pred2，nil}，其中subj2、pred2和nil分别表示候选事件的主语、谓语和缺失宾语，如果subj1＝＝subj2并且obj1＝＝pred2，则将候选事件更新为{subj2,pred1,pred2}；

若标准事件模板p为{subj1，pred1，nil}，其中subj1、pred1和nil分别代表事件模板的主语、谓语和缺失宾语，扫描候选事件集合E中的每个候选事件e，按下列规则进行事件更新：

1)若候选事件e为{subj2，pred2，obj2}，其中subj2、pred2和obj2分别表示候选事件的主语、谓语和宾语，如果subj1＝＝subj2并且pred1＝＝pred2，则将候选事件更新为{subj2,pred2,nil}；

2)若候选事件e为{nil，pred2，obj2}，其中pred2、obj2和nil分别表示候选事件的谓语、宾语和缺失主语，如果pred1＝＝pred2并且obj2＝＝subj1，则将候选事件更新为{obj2,pred2,nil}；

若标准事件模板p为{nil，pred1，obj1}，其中pred1、obj1和nil分别代表事件模板谓语、宾语和缺失主语，扫描候选事件集合E中的每个候选事件e，按下列规则进行事件更新：

1)若候选事件e为{subj2，pred2，obj2}，其中subj2、pred2和obj2分别表示候选事件的主语、谓语和宾语，如果obj1＝＝obj2并且pred1＝＝pred2，则将候选事件更新为{nil,pred2,obj2}；

2)若候选事件e为{subj2，pred2，nil}，其中subj2、pred2和nil分别表示候选事件的主语、谓语和缺失宾语，如果pred1＝＝pred2并且obj1＝＝subj2，则将候选事件更新为{nil,pred2,subj2}；

将上述更新后的候选事件加入规范化原子事件集合SE，更新候选事件集合E。

优选地，所述步骤5具体包括：

步骤5.1、给定一个事件对＜e₁,e₂＞，以事件论元的词表示作为输入，分别为subj_i,pred_i和obj_i；

步骤5.2、每个事件对的上下文由两个事件间隔开来，分三段表示，依次为e₁上下文context1、中间上下文context2和e₂上下文context3；

步骤5.3、分别通过3个LSTM神经网络得到三段上下文的语义表示h'_context1,h'_context2和h'_context3；

步骤5.4、将三段上下文语义表示串接后送入Softmax层以预测事件对关系分类标签yr，标签可选集合为{After，Simultaneous，Unknown}，模型目标函数可表示为：

其中网络隐层输出h由三段上下文经各自LSTM习得输出串接而成：

h＝tanh(concat(h'_context1；h'_context2；h'_context3))

步骤5.5、对语句按上述模型优化后的结果进行解码，若标签yr为After，表示一个事件在另一个事件之后发生；若标签yr为Simultaneous，表示两个事件同时发生或者两个事件发生的时间段有重叠；若标签yr为Unknown，则表示两个事件间无时序关系或当前情况下无法判断。

本发明提供的针对突发事件的事件知识图谱构建方法具有以下有益效果：

1)本发明以三元组原子事件为知识图谱的结点，包含比实体词更丰富的语义，并且没有歧义；

2)本发明以事件时序关系为知识图谱的边，这种关系表示简单合理，可扩展性强，能直观地呈现突发事件中的子事件和衍生事件间的时序关系；

3)本发明构造的事件知识图谱以原子事件为结点、时序关系为边，事件因主题相关性会在图中形成天然的聚簇和时序链，对事件强度识别、事件关联度分析、事件预测的应用有着重要的意义。

附图说明

为了更清楚地说明本发明实施例及其设计方案，下面将对本实施例所需的附图作简单地介绍。下面描述中的附图仅仅是本发明的部分实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1的针对突发事件的事件知识图谱构建方法的流程图；

图2为基于BiLSTM+CRF的事件抽取模型结构图；

图3为基于Bootstrapping的事件规范化模型；

图4为基于LSTM的事件时序关系识别模型；

图5为事件知识图谱片段。

具体实施方式

为了使本领域技术人员更好的理解本发明的技术方案并能予以实施，下面结合附图和具体实施例对本发明进行详细说明。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1

本发明提供了一种针对突发事件的事件知识图谱构建方法，以原子级事件为结点、原子事件对的时序关系为边。在某网上采集专题文档，包括台风、起火、纵火、地震等不同的突发主题事件，并以此作为训练和测试语料。在该数据集上的实施例表明该方法简单有效，最终生成的事件知识图谱主题相关性强，同一主题下比较充分地反映了事件强度对比和关联性。如附图1所示，具体包括如下步骤：

S1、从某网采集新闻文档数据，进行数据清洗后，利用自然语言处理工具对所述新闻语料中的每篇文档进行分词、依存分析和指代消解等预处理操作，得到新闻数据集D；本实例选用斯坦福大学公开的自然语言处理工具包Stanford CoreNLP。具体步骤包括：对爬取的专题文档，完成新闻语料清洗，如全角转半角、去除冗余URL等非中文符号，并利用现有的自然语言处理工具包Stanford CoreNLP对每篇文档进行预处理，如分词、依存分析和指代消解等操作。

S2、将预处理后的新闻数据集D加入到背景语料(如xx日报语料等)，利用词嵌入算法Word2Vec训练后习得学习词的嵌入分布式表示Embedding；常见的词嵌入算法包括Word2Vec,Glove等，本实例选用Word2Vec作为词嵌入算法。

S3、对新闻数据集D中的每篇新闻，以语句为单位采用深度学习的序列标注方法进行事件抽取，所对应的事件采用主谓宾结构的三元组原子事件表示，如图2所示，其实现方法如下：

S31、令语句对应的词序列作为输入序列，表示为x＝{w₁,w₂,...,w_n}，以预训练后得到的Embedding作为词的输入向量w_i，令词序列对应的预测标签集合为ye＝{ye₁,ye₂,...,ye_n}，标签可选集合为{O，BSub，ISub，BPre，IPre，BObj，IObj}，分别表示非事件主谓宾、事件主语开始词、事件主语非开始词、事件谓语开始词、事件谓语非开始词、事件宾语开始词、事件宾语非开始词；

S32、经过神经网络隐层的训练提取句子特征，得到每个词对应位置i上的网络隐层输出p_i；

S33、在输入层，综合考虑隐层输出p_i和标签转移概率

预测输出每个词对应位置i上的标签ye_i，其预测概率为

S34、语句对应的整个词序列的最后得分为序列所有位置得分之和，即：

对此得分进行Softmax归一化后，模型目标函数表示为

即优化得到语句对应词序列的最优标签预测序列；

S35、对语句按上述模型优化后的结果进行解码，连续标签{BSub,ISub,…}对应的词序列为原子事件主语，连续标签{BPre,IPre,…}对应的词序列为原子事件谓语，连续标签{BObj,IObj,…}对应的词序列为原子事件宾语,标签O对应的词则为非原子事件主谓宾，从语句的第一个词依次往后扫描，连续的主谓宾合并得到一个三元组原子事件。

本实施例中，语料中文档为新闻类的突发事件，每条语句中可能存在多个事件，采用基于深度学习的序列标注技术可捕捉事件论元间长距离的语义关系。这种三元组事件论元数目适中，在不丢失语义的情况下，同时能避免稀疏问题。如文本“xx市民政局报告，截至8日8时30分，某地数万人受灾，包括人员死亡、受伤、重伤，紧急转移安置数万人，倒塌房屋数千间，严重损坏房屋数万间。”，可抽取9个原子事件，分别为E1“(谋局，报告，nil)”、E2“(某地,地震,nil)”、E3“(人,受灾,nil)”、E4“(人,死亡,nil)”、E5“(人,受伤,nil)”、E6“(nil,重伤,人)”、E7“(nil,安置,人)”、E8“(nil,倒塌,房屋)”和E9“(nil,损坏,房屋)”等。

S4、根据事件模板的分布特点，针对事件表现形式多样化的问题，采用Bootstrapping方法进行三元组原子事件的规范化，修正不规范事件的形态，得到规范化原子事件，如图3所示，其实现S如下：

S41、构造候选事件集合E，初始集合为所有三元组原子事件；

S42、统计候选事件集合E中各事件出现频率，以得到候选事件模板p'；

S43、对所有候选事件模板p'进行置信度评估，超过阈值k的模板作为标准事件模板；若没有满足要求的标准事件模板产生，则事件规范化结束；每个候选事件模板p'采用下式进行置信度评估：

S44、根据标准事件模板p对候选事件集合E中的候选事件e进行修正，并更新候选事件集合E，S44按照以下规则对候选事件集合E中的候选事件e进行修正：

将上述更新后的候选事件加入规范化原子事件集合SE，更新候选事件集合E；

S45、重复上述S41-44，直到满足S43中结束条件。具体地，在本实施例中阈值k设置为0.05，即置信度值得分高于0.05才可能成为标准事件模板；此外，上下文中相似词的确定，可采用词相似计算方法，本实施例直接采用同义词词林，即同一个语义标签下的词方可作为相似词。

由于中文是一种意合的语言，同一事件的表现形式比较多，例如事件“(人,死亡,nil)”和事件“(nil,死亡,人)”实际上为同一事件。不同的新闻报道者叙述的习惯存在着差异。本实例中，通过事件规范化后，事件的稀疏性明显缓解，提升了事件知识图谱的质量。

S5、对出现在同一语句中的规范化原子事件对，采用基于深度学习的算法学习其上下文特征，判别规范化原子事件对间的时序关系，如图4，其实现S如下：

S5.1、给定一个事件对＜e₁,e₂＞，以事件论元的词表示作为输入，分别为subj_i,pred_i和obj_i；

S5.2、每个事件对的上下文由两个事件间隔开来，分三段表示，依次为e₁上下文context1、中间上下文context2和e₂上下文context3；

S5.3、分别通过3个LSTM神经网络得到三段上下文的语义表示h'_context1,h'_context2和h'_context3；

S5.4、将三段上下文语义表示串接后送入Softmax层以预测事件对关系分类标签yr，标签可选集合为{After，Simultaneous，Unknown}，模型目标函数可表示为：

h＝tanh(concat(h'_context1；h'_context2；h'_context3))

S5.5、对语句按上述模型优化后的结果进行解码，若标签yr为After，表示一个事件在另一个事件之后发生；若标签yr为Simultaneous，表示两个事件同时发生或者两个事件发生的时间段有重叠；若标签yr为Unknown，则表示两个事件间无时序关系或当前情况下无法判断。

S6、基于规范化原子事件和规范化原子事件对间的时序关系构建事件知识图谱，以规范化原子事件为结点，规范化原子事件对的时序关系为边，得到最后的事件知识图谱。

本实施例中，以前述文本为例，可构造如图5所示的事件知识图谱片段，其中单向弧表示表示弧头事件在弧尾事件之后发生(After)；双向弧表示两个事件同时发生(Simultaneous)；无向边表示两个事件关系不确定或未知(Unknown)。

从图中可以看出，事件E2“(某地,地震,nil)”为该主题的中心事件，事件间呈现拓扑有序的关系。输入相应的事件，可快速查询与该事件有关的信息，同时也有助于开展后续事件关联、事件链和事件预测等知识推理和应用。

本发明从细粒度的原子事件抽取出发，构建面向突发事件的知识图谱以刻画突发事件的动态特征，实现突发事件领域事件级的信息查询和统计分析，以便快速了解突发事件的前因后果，同时对如何应对类似突发事件有着一定的借鉴和预测作用。其中，原子事件采用施事、触发词和受事的三元组表示，形如<Subject,Predicate,Object>(在论元缺失的情况下为<Subject,Predicate,nil>或<nil,Predicate,Object>)。这种细粒度的原子事件可以有效地避免稀疏和歧义问题，有利于事件知识图谱上的知识表示和推理。原子事件的时序关系分为3种：(1)After:一个事件在另一个事件之后发生；(2)Simultaneous:两个事件同时发生或者两个事件发生的时间段有重叠；(3)Unknown：两个事件无时序关系或当前情况下无法判断。

本实施例提供的方法针对现有面向突发事件的知识图谱构建方法存在着语义表达能力弱且语义关系简单等问题，提出一种面向突发事件的原子事件知识图谱的构建方法，利用原子事件及原子事件关系进行统计分析，有效地从事件关联性中进行推理和预测，以便对突发事件进行预防或辅助决策。

以上所述实施例仅为本发明较佳的具体实施方式，本发明的保护范围不限于此，任何熟悉本领域的技术人员在本发明披露的技术范围内，可显而易见地得到的技术方案的简单变化或等效替换，均属于本发明的保护范围。

Claims

1.一种针对突发事件的事件知识图谱构建方法，其特征在于，包括以下步骤：

所述步骤3具体包括：

步骤33、在输入层，综合考虑隐层输出p_i和标签转移概率

预测输出每个词对应位置i上的标签ye_i，其预测概率为

对此得分进行Softmax归一化后，模型目标函数表示为

即优化得到语句对应词序列的最优标签预测序列；

步骤35、对语句按上述模型优化后的结果进行解码，连续标签{BSub,ISub,…}对应的词序列为原子事件主语，连续标签{BPre,IPre,…}对应的词序列为原子事件谓语，连续标签{BObj,IObj,…}对应的词序列为原子事件宾语,标签O对应的词则为非原子事件主谓宾，从语句的第一个词依次往后扫描，连续的主谓宾合并得到一个三元组原子事件；

2.根据权利要求1所述的针对突发事件的事件知识图谱构建方法，其特征在于，所述步骤1对突发事件新闻文档进行数据预处理操作具体包括：利用现有的自然语言处理工具包，完成新闻语料清洗，并对每篇文档进行预处理。

3.根据权利要求1所述的针对突发事件的事件知识图谱构建方法，其特征在于，所述步骤4具体包括：

步骤45、重复上述步骤41-44，直到满足步骤43中结束条件。

4.根据权利要求3所述的针对突发事件的事件知识图谱构建方法，其特征在于，所述步骤44按照以下规则对候选事件集合E中的候选事件e进行修正：

5.根据权利要求4所述的针对突发事件的事件知识图谱构建方法，其特征在于，所述步骤5具体包括：

步骤5.4、将三段上下文语义表示串接后送入Softmax层以预测事件对关系分类标签yr^*，标签可选集合为{After，Simultaneous，Unknown}，模型目标函数可表示为：

h＝tanh(concat(h'_context1；h'_context2；h'_context3))

步骤5.5、对语句按上述模型优化后的结果进行解码，若标签yr^*为After，表示一个事件在另一个事件之后发生；若标签yr^*为Simultaneous，表示两个事件同时发生或者两个事件发生的时间段有重叠；若标签yr^*为Unknown，则表示两个事件间无时序关系或当前情况下无法判断。