CN113312490A - 一种针对突发事件的事件知识图谱构建方法 - Google Patents
一种针对突发事件的事件知识图谱构建方法 Download PDFInfo
- Publication number
- CN113312490A CN113312490A CN202110467741.0A CN202110467741A CN113312490A CN 113312490 A CN113312490 A CN 113312490A CN 202110467741 A CN202110467741 A CN 202110467741A CN 113312490 A CN113312490 A CN 113312490A
- Authority
- CN
- China
- Prior art keywords
- event
- pred2
- candidate
- subj2
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明提供了一种针对突发事件的事件知识图谱构建方法,属于自然语言处理领域,包括以下步骤:1)从互联网上收集新闻文档数据,完成数据清洗等预处理操作;2)将语料加入背景语料,预训练后习得词的嵌入表示;3)以语句为单位,抽取原子事件;4)针对事件表现形式多样化的问题,进行原子事件的规范化;5)对出现在同一语句中的事件对,识别其时序关系;6)基于事件和事件时序关系构建事件知识图谱。该方法利用原子事件及原子事件关系进行统计分析,有效地从事件关联性中进行推理和预测,以便对突发事件进行预防或辅助决策。
Description
技术领域
本发明属于自然语言处理领域,具体涉及一种针对突发事件的事件知识图 谱构建方法。
背景技术
突发事件,是指突然发生,造成或者可能造成严重社会危害,需要采取应 急处置措施予以应对的自然灾害、事故灾难、公共卫生事件和社会安全事件。 为预防和减少突发事件的发生,控制、减轻和消除突发事件引起的严重社会危 害,相关部门应规范突发事件应对活动,对可能发生的突发事件进行综合性评 估,最大限度地减轻重大突发事件影响。
突发事件具有明显的时序特征,往往会演化或衍生出很多的子事件。例如, “2014年第9号威马逊台风”事件一发生,同时会出现“人员伤亡”、“农作物受灾”、 “通讯中断”等事件;随着时间的推进,“威马逊登陆我国”、“气象台发布预警”、 “相关部门发出通告”、“转移相关人员”、“防范病菌”等一系列相关事件。这些 事件的发生有着时序关系或因果关系。准确完整地获取突发事件关系,对了解 突发事件的前因后果以及对事态发展趋势的掌握有着重要的作用。
自2012年Google推出第一版知识图谱(Knowledge Graph,KG)以来, 知识图谱已在工业界和学术界掀起了一股热潮。知识图谱采用实体二元关系描 述现实世界,以图数据结构来表达和存储知识,其实体关系类别或关注开放领 域下的“Is a”和“Attribute”类型,或针对特定领域定制语义框架。
事件,一般指一个动作的发生或状态的变化。与实体关系相比,事件作为 一种特殊的知识表现形式,呈现了比实体关系更复杂的语义关系。从认知心理 学来看,人类多以“事件”为单位去记忆和理解现实世界。现实世界中的事件之 间大多呈现因果和时序上的关系。采用原子事件知识图谱比传统知识图谱更利 于进行突发事件的分析和预测。在所构造的事件知识图谱中,结点本身包含论 元(可以为实体)间的语义关系,而边则表达了事件间的关系,因而包含了比 传统知识图谱更丰富的知识。同一主题下的事件会形成天然的聚簇,即事件关 联子图或事件链。事件在不同主题下往往呈现了不同的强度或主题相关度,事 件之间也有着不同的关联度。因此,基于事件知识图谱开展事件强度、事件关 联度、事件链等知识推理研究并实现时间线生成和事件预测等应用是非常有意 义的。
近年来,知识图谱的发展如火如荼,Freebase和Probase等英文知识图谱 已得到广泛的应用。但它们只包含了有关实体的丰富知识,极少涉及事件知识。 现有面向突发事件的知识图谱构建方法采用传统的以实体为基本结点的形式, 语义表达能力有限且语义关系略为简单,难以刻画客观世界动态性的知识。例 如,“地震”发生后,往往会有“伤亡”、“救援”和“安置”等事件发生;同样,“CEO 辞职”发生后也可能会出现“人事变更”和“股市起伏”等相关事件。
发明内容
为了克服上述现有技术存在的不足,本发明提供了一种针对突发事件的事 件知识图谱构建方法。
为了实现上述目的,本发明提供如下技术方案:
一种针对突发事件的事件知识图谱构建方法,包括以下步骤:
步骤1、收集突发事件新闻文档,对突发事件新闻文档进行数据预处理操 作,得到新闻数据集D;
步骤2、将预处理后的新闻数据集D加入背景语料,预训练后得到词的分 布式表示,即词的Embedding;
步骤3、对新闻数据集D中的每篇新闻,以语句为单位采用深度学习的序 列标注方法进行事件抽取,所对应的事件采用主谓宾结构的三元组原子事件表 示;
步骤4、根据事件模板的分布特点,针对事件表现形式多样化的问题,采 用Bootstrapping方法进行三元组原子事件的规范化,修正不规范事件的形态, 得到规范化原子事件;
步骤5、对出现在同一语句中的规范化原子事件对,采用基于深度学习的 算法学习其上下文特征,判别规范化原子事件对间的时序关系;
步骤6、基于规范化原子事件和规范化原子事件对间的时序关系构建事件 知识图谱,以规范化原子事件为结点,规范化原子事件对的时序关系为边,得 到最后的事件知识图谱。
优选地,所述步骤1对突发事件新闻文档进行数据预处理操作具体包括: 利用现有的自然语言处理工具包,完成新闻语料清洗,并对每篇文档进行预处 理。
优选地,所述步骤3具体包括:
步骤31、令语句对应的词序列作为输入序列,表示为x={w1,w2,...,wn},以 预训练后得到的Embedding作为词的输入向量wi,令词序列对应的预测标签集 合为ye={ye1,ye2,...,yen},标签可选集合为{O,BSub,ISub,BPre,IPre,BObj, IObj},分别表示非事件主谓宾、事件主语开始词、事件谓语非开始词、事件谓 语开始词、事件谓语非开始词、事件宾语开始词、事件宾语非开始词;
步骤32、经过神经网络隐层的训练提取句子特征,得到每个词对应位置i上 的网络隐层输出pi;
步骤34、语句对应的整个词序列的最后得分为序列所有位置得分之和,即:
步骤35、对语句按上述模型优化后的结果进行解码,连续标签 {BSub,ISub,…}对应的词序列为原子事件主语,连续标签{BPre,IPre,…}对应的 词序列为原子事件谓语,连续标签{BObj,IObj,…}对应的词序列为原子事件宾语, 标签O对应的词则为非原子事件主谓宾,从语句的第一个词依次往后扫描,连 续的主谓宾合并得到一个三元组原子事件。
优选地,所述步骤4具体包括:
步骤41、构造候选事件集合E,初始集合为所有三元组原子事件;
步骤42、统计候选事件集合E中各事件出现频率,以得到候选事件模板p';
步骤43、对所有候选事件模板p'进行置信度评估,超过阈值k的模板作为 标准事件模板;若没有满足要求的标准事件模板产生,则事件规范化结束;每 个候选事件模板p'采用下式进行置信度评估:
其中,Efreq(p')表示候选事件模板p'中的事件在语料中的出现概率,即事件 概率,Dcover(p')则代表候选事件模板p'中的事件出现的文档概率,即文档概率; |E|和|D|分别代表事件集合和文档集合大小,|i:ei∈p'|表示候选事件模板p'中包 含的事件数量,|j:p'∈dj|则表示候选事件模板p'出现于多少篇文件的统计量; 事件概率度量了模板的事件覆盖度,而文档概率则度量了模板的文档覆盖度, 模板得分最高的即为标准事件模板p,将该标准事件模板p加入标准事件模板 集合P,该标准事件模板p中对应的事件加入规范化原子事件集合SE;
步骤44、根据标准事件模板p对候选事件集合E中的候选事件e进行修正, 并更新候选事件集合E;
步骤45、重复上述步骤41-44,直到满足步骤43中结束条件。
优选地,所述步骤44按照以下规则对候选事件集合E中的候选事件e进行 修正:
若标准事件模板p为{subj1,pred1,obj1},其中subj1、pred1和obj1分别 代表标准事件模板的主语、谓语和宾语,扫描候选事件集合E中的每个候选事 件e,按下列规则进行事件更新:
1)若候选事件e为{subj2,pred2,obj2}或{subj2,pred2,nil},其中subj2、pred2、obj2和nil分别表示候选事件的主语、谓语、宾语和缺失宾语,如果 subj1==subj2并且pred1==pred2,则在原文档上下文找到与obj1相同或相似的 词作为新的obj2,即候选事件更新为{subj2,pred2,obj1};
2)若候选事件e为{subj2,pred2,obj2}或{nil,pred2,obj2},其中subj2、 pred2、obj2和nil分别表示候选事件的主语、谓语、宾语和缺失主语,如果 pred1==pred2并且obj1==obj2,则在原文档上下文找到与subj1相同或相似的词 作为新的subj2,即候选事件更新为{subj1,pred2,obj2};
3)若候选事件e为{subj2,pred2,nil},其中subj2、pred2和nil分别表示 候选事件的主语、谓语和缺失宾语,如果subj1==subj2并且obj1==pred2,则将 候选事件更新为{subj2,pred1,pred2};
若标准事件模板p为{subj1,pred1,nil},其中subj1、pred1和nil分别代 表事件模板的主语、谓语和缺失宾语,扫描候选事件集合E中的每个候选事件e, 按下列规则进行事件更新:
1)若候选事件e为{subj2,pred2,obj2},其中subj2、pred2和obj2分别表 示候选事件的主语、谓语和宾语,如果subj1==subj2并且pred1==pred2,则将 候选事件更新为{subj2,pred2,nil};
2)若候选事件e为{nil,pred2,obj2},其中pred2、obj2和nil分别表示候 选事件的谓语、宾语和缺失主语,如果pred1==pred2并且obj2==subj1,则将候 选事件更新为{obj2,pred2,nil};
若标准事件模板p为{nil,pred1,obj1},其中pred1、obj1和nil分别代表 事件模板谓语、宾语和缺失主语,扫描候选事件集合E中的每个候选事件e,按 下列规则进行事件更新:
1)若候选事件e为{subj2,pred2,obj2},其中subj2、pred2和obj2分别表 示候选事件的主语、谓语和宾语,如果obj1==obj2并且pred1==pred2,则将候 选事件更新为{nil,pred2,obj2};
2)若候选事件e为{subj2,pred2,nil},其中subj2、pred2和nil分别表示 候选事件的主语、谓语和缺失宾语,如果pred1==pred2并且obj1==subj2,则将 候选事件更新为{nil,pred2,subj2};
将上述更新后的候选事件加入规范化原子事件集合SE,更新候选事件集合 E。
优选地,所述步骤5具体包括:
步骤5.1、给定一个事件对<e1,e2>,以事件论元的词表示作为输入,分别 为subji,predi和obji;
步骤5.2、每个事件对的上下文由两个事件间隔开来,分三段表示,依次为 e1上下文context1、中间上下文context2和e2上下文context3;
步骤5.3、分别通过3个LSTM神经网络得到三段上下文的语义表示 h'context1,h'context2和h'context3;
步骤5.4、将三段上下文语义表示串接后送入Softmax层以预测事件对关系 分类标签yr,标签可选集合为{After,Simultaneous,Unknown},模型目标函 数可表示为:
其中网络隐层输出h由三段上下文经各自LSTM习得输出串接而成:
h=tanh(concat(h'context1;h'context2;h'context3))
步骤5.5、对语句按上述模型优化后的结果进行解码,若标签yr为After, 表示一个事件在另一个事件之后发生;若标签yr为Simultaneous,表示两个事 件同时发生或者两个事件发生的时间段有重叠;若标签yr为Unknown,则表示 两个事件间无时序关系或当前情况下无法判断。
本发明提供的针对突发事件的事件知识图谱构建方法具有以下有益效果:
1)本发明以三元组原子事件为知识图谱的结点,包含比实体词更丰富的语 义,并且没有歧义;
2)本发明以事件时序关系为知识图谱的边,这种关系表示简单合理,可扩 展性强,能直观地呈现突发事件中的子事件和衍生事件间的时序关系;
3)本发明构造的事件知识图谱以原子事件为结点、时序关系为边,事件因 主题相关性会在图中形成天然的聚簇和时序链,对事件强度识别、事件关联度 分析、事件预测的应用有着重要的意义。
附图说明
为了更清楚地说明本发明实施例及其设计方案,下面将对本实施例所需的 附图作简单地介绍。下面描述中的附图仅仅是本发明的部分实施例,对于本领 域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获 得其他的附图。
图1为本发明实施例1的针对突发事件的事件知识图谱构建方法的流程图;
图2为基于BiLSTM+CRF的事件抽取模型结构图;
图3为基于Bootstrapping的事件规范化模型;
图4为基于LSTM的事件时序关系识别模型;
图5为事件知识图谱片段。
具体实施方式
为了使本领域技术人员更好的理解本发明的技术方案并能予以实施,下面 结合附图和具体实施例对本发明进行详细说明。以下实施例仅用于更加清楚地 说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1
本发明提供了一种针对突发事件的事件知识图谱构建方法,以原子级事件 为结点、原子事件对的时序关系为边。在新浪网上采集专题文档,包括“今年 第9号台风威马逊来袭”专题(92篇),“杭州发生公交车纵火案”(54篇), “云南发生地震”(117篇)等,并以此作为训练和测试语料。在该数据集上的 实施例表明该方法简单有效,最终生成的事件知识图谱主题相关性强,同一主 题下比较充分地反映了事件强度对比和关联性。如附图1所示,具体包括如下 步骤:
S1、从新浪网采集新闻文档数据,进行数据清洗后,利用自然语言处理工 具对所述新闻语料中的每篇文档进行分词、依存分析和指代消解等预处理操作, 得到新闻数据集D;本实例选用斯坦福大学公开的自然语言处理工具包Stanford CoreNLP。具体步骤包括:对爬取的专题文档,完成新闻语料清洗,如全角转 半角、去除冗余URL等非中文符号,并利用现有的自然语言处理工具包Stanford CoreNLP对每篇文档进行预处理,如分词、依存分析和指代消解等操作。
S2、将预处理后的新闻数据集D加入到背景语料(如人民日报语料等), 利用词嵌入算法Word2Vec训练后习得学习词的嵌入分布式表示Embedding;常 见的词嵌入算法包括Word2Vec,Glove等,本实例选用Word2Vec作为词嵌入算 法。
S3、对新闻数据集D中的每篇新闻,以语句为单位采用深度学习的序列标 注方法进行事件抽取,所对应的事件采用主谓宾结构的三元组原子事件表示, 如图2所示,其实现方法如下:
S31、令语句对应的词序列作为输入序列,表示为x={w1,w2,...,wn},以预训 练后得到的Embedding作为词的输入向量wi,令词序列对应的预测标签集合为 ye={ye1,ye2,...,yen},标签可选集合为{O,BSub,ISub,BPre,IPre,BObj,IObj}, 分别表示非事件主谓宾、事件主语开始词、事件谓语非开始词、事件谓语开始 词、事件谓语非开始词、事件宾语开始词、事件宾语非开始词;
S32、经过神经网络隐层的训练提取句子特征,得到每个词对应位置i上的 网络隐层输出pi;
S34、语句对应的整个词序列的最后得分为序列所有位置得分之和,即:
S35、对语句按上述模型优化后的结果进行解码,连续标签{BSub,ISub,…} 对应的词序列为原子事件主语,连续标签{BPre,IPre,…}对应的词序列为原子事 件谓语,连续标签{BObj,IObj,…}对应的词序列为原子事件宾语,标签O对应的 词则为非原子事件主谓宾,从语句的第一个词依次往后扫描,连续的主谓宾合 并得到一个三元组原子事件。
本实施例中,语料中文档为新闻类的突发事件,每条语句中可能存在多个 事件,采用基于深度学习的序列标注技术可捕捉事件论元间长距离的语义关系。 这种三元组事件论元数目适中,在不丢失语义的情况下,同时能避免稀疏问题。 如文本“据普洱市民政局报告,截至8日8时30分,云南地震造成景谷县、思 茅区、镇沅县、临翔区、双江县等县区12.46万人受灾,1人死亡,324人受伤, 重伤8人,紧急转移安置56880人,倒塌房屋6988间,严重损坏房屋13017 间。”,可抽取9个原子事件,分别为E1“(民政局,报告,nil)”、E2“(云南,地 震,nil)”、E3“(人,受灾,nil)”、E4“(人,死亡,nil)”、E5“(人,受伤,nil)”、E6“(nil,重伤, 人)”、E7“(nil,安置,人)”、E8“(nil,倒塌,房屋)”和E9“(nil,损坏,房屋)”等。
S4、根据事件模板的分布特点,针对事件表现形式多样化的问题,采用Bootstrapping方法进行三元组原子事件的规范化,修正不规范事件的形态,得 到规范化原子事件,如图3所示,其实现S如下:
S41、构造候选事件集合E,初始集合为所有三元组原子事件;
S42、统计候选事件集合E中各事件出现频率,以得到候选事件模板p';
S43、对所有候选事件模板p'进行置信度评估,超过阈值k的模板作为标 准事件模板;若没有满足要求的标准事件模板产生,则事件规范化结束;每个 候选事件模板p'采用下式进行置信度评估:
其中,Efreq(p')表示候选事件模板p'中的事件在语料中的出现概率,即事件 概率,Dcover(p')则代表候选事件模板p'中的事件出现的文档概率,即文档概率; |E|和|D|分别代表事件集合和文档集合大小,|i:ei∈p'|表示候选事件模板p'中包 含的事件数量,|j:p'∈dj|则表示候选事件模板p'出现于多少篇文件的统计量; 事件概率度量了模板的事件覆盖度,而文档概率则度量了模板的文档覆盖度, 模板得分最高的即为标准事件模板p,将该标准事件模板p加入标准事件模板 集合P,该标准事件模板p中对应的事件加入规范化原子事件集合SE;
S44、根据标准事件模板p对候选事件集合E中的候选事件e进行修正,并 更新候选事件集合E,S44按照以下规则对候选事件集合E中的候选事件e进行 修正:
若标准事件模板p为{subj1,pred1,obj1},其中subj1、pred1和obj1分别 代表标准事件模板的主语、谓语和宾语,扫描候选事件集合E中的每个候选事 件e,按下列规则进行事件更新:
1)若候选事件e为{subj2,pred2,obj2}或{subj2,pred2,nil},其中subj2、pred2、obj2和nil分别表示候选事件的主语、谓语、宾语和缺失宾语,如果 subj1==subj2并且pred1==pred2,则在原文档上下文找到与obj1相同或相似的 词作为新的obj2,即候选事件更新为{subj2,pred2,obj1};
2)若候选事件e为{subj2,pred2,obj2}或{nil,pred2,obj2},其中subj2、 pred2、obj2和nil分别表示候选事件的主语、谓语、宾语和缺失主语,如果 pred1==pred2并且obj1==obj2,则在原文档上下文找到与subj1相同或相似的词 作为新的subj2,即候选事件更新为{subj1,pred2,obj2};
3)若候选事件e为{subj2,pred2,nil},其中subj2、pred2和nil分别表示 候选事件的主语、谓语和缺失宾语,如果subj1==subj2并且obj1==pred2,则将 候选事件更新为{subj2,pred1,pred2};
若标准事件模板p为{subj1,pred1,nil},其中subj1、pred1和nil分别代 表事件模板的主语、谓语和缺失宾语,扫描候选事件集合E中的每个候选事件e, 按下列规则进行事件更新:
1)若候选事件e为{subj2,pred2,obj2},其中subj2、pred2和obj2分别表 示候选事件的主语、谓语和宾语,如果subj1==subj2并且pred1==pred2,则将 候选事件更新为{subj2,pred2,nil};
2)若候选事件e为{nil,pred2,obj2},其中pred2、obj2和nil分别表示候 选事件的谓语、宾语和缺失主语,如果pred1==pred2并且obj2==subj1,则将候 选事件更新为{obj2,pred2,nil};
若标准事件模板p为{nil,pred1,obj1},其中pred1、obj1和nil分别代表 事件模板谓语、宾语和缺失主语,扫描候选事件集合E中的每个候选事件e,按 下列规则进行事件更新:
1)若候选事件e为{subj2,pred2,obj2},其中subj2、pred2和obj2分别表 示候选事件的主语、谓语和宾语,如果obj1==obj2并且pred1==pred2,则将候 选事件更新为{nil,pred2,obj2};
2)若候选事件e为{subj2,pred2,nil},其中subj2、pred2和nil分别表示 候选事件的主语、谓语和缺失宾语,如果pred1==pred2并且obj1==subj2,则将 候选事件更新为{nil,pred2,subj2};
将上述更新后的候选事件加入规范化原子事件集合SE,更新候选事件集合 E;
S45、重复上述S41-44,直到满足S43中结束条件。具体地,在本实施例 中阈值k设置为0.05,即置信度值得分高于0.05才可能成为标准事件模板;此 外,上下文中相似词的确定,可采用词相似计算方法,本实施例直接采用同义 词词林,即同一个语义标签下的词方可作为相似词。
由于中文是一种意合的语言,同一事件的表现形式比较多,例如事件“(人, 死亡,nil)”和事件“(nil,死亡,人)”实际上为同一事件。不同的新闻报道者叙述的习 惯存在着差异。本实例中,通过事件规范化后,事件的稀疏性明显缓解,提升 了事件知识图谱的质量。
S5、对出现在同一语句中的规范化原子事件对,采用基于深度学习的算法 学习其上下文特征,判别规范化原子事件对间的时序关系,如图4,其实现S 如下:
S5.1、给定一个事件对<e1,e2>,以事件论元的词表示作为输入,分别为 subji,predi和obji;
S5.2、每个事件对的上下文由两个事件间隔开来,分三段表示,依次为e1上 下文context1、中间上下文context2和e2上下文context3;
S5.3、分别通过3个LSTM神经网络得到三段上下文的语义表示 h'context1,h'context2和h'context3;
S5.4、将三段上下文语义表示串接后送入Softmax层以预测事件对关系分 类标签yr,标签可选集合为{After,Simultaneous,Unknown},模型目标函数 可表示为:
其中网络隐层输出h由三段上下文经各自LSTM习得输出串接而成:
h=tanh(concat(h'context1;h'context2;h'context3))
S5.5、对语句按上述模型优化后的结果进行解码,若标签yr为After,表示 一个事件在另一个事件之后发生;若标签yr为Simultaneous,表示两个事件同 时发生或者两个事件发生的时间段有重叠;若标签yr为Unknown,则表示两个 事件间无时序关系或当前情况下无法判断。
S6、基于规范化原子事件和规范化原子事件对间的时序关系构建事件知识 图谱,以规范化原子事件为结点,规范化原子事件对的时序关系为边,得到最 后的事件知识图谱。
本实施例中,以前述文本为例,可构造如图5所示的事件知识图谱片段, 其中单向弧表示表示弧头事件在弧尾事件之后发生(After);双向弧表示两个事 件同时发生(Simultaneous);无向边表示两个事件关系不确定或未知(Unknown)。
从图中可以看出,事件E2“(云南,地震,nil)”为该主题的中心事件,事件间 呈现拓扑有序的关系。输入相应的事件,可快速查询与该事件有关的信息,同 时也有助于开展后续事件关联、事件链和事件预测等知识推理和应用。
本发明从细粒度的原子事件抽取出发,构建面向突发事件的知识图谱以刻 画突发事件的动态特征,实现突发事件领域事件级的信息查询和统计分析,以 便快速了解突发事件的前因后果,同时对如何应对类似突发事件有着一定的借 鉴和预测作用。其中,原子事件采用施事、触发词和受事的三元组表示,形如 <Subject,Predicate,Object>(在论元缺失的情况下为<Subject,Predicate,nil>或 <nil,Predicate,Object>)。这种细粒度的原子事件可以有效地避免稀疏和歧义问 题,有利于事件知识图谱上的知识表示和推理。原子事件的时序关系分为3种: (1)After:一个事件在另一个事件之后发生;(2)Simultaneous:两个事件同时发 生或者两个事件发生的时间段有重叠;(3)Unknown:两个事件无时序关系或 当前情况下无法判断。
本实施例提供的方法针对现有面向突发事件的知识图谱构建方法存在着语 义表达能力弱且语义关系简单等问题,提出一种面向突发事件的原子事件知识 图谱的构建方法,利用原子事件及原子事件关系进行统计分析,有效地从事件 关联性中进行推理和预测,以便对突发事件进行预防或辅助决策。
以上所述实施例仅为本发明较佳的具体实施方式,本发明的保护范围不限 于此,任何熟悉本领域的技术人员在本发明披露的技术范围内,可显而易见地 得到的技术方案的简单变化或等效替换,均属于本发明的保护范围。
Claims (6)
1.一种针对突发事件的事件知识图谱构建方法,其特征在于,包括以下步骤:
步骤1、收集突发事件新闻文档,对突发事件新闻文档进行数据预处理操作,得到新闻数据集D;
步骤2、将预处理后的新闻数据集D加入背景语料,预训练后得到词的分布式表示,即词的Embedding;
步骤3、对新闻数据集D中的每篇新闻,以语句为单位采用深度学习的序列标注方法进行事件抽取,所对应的事件采用主谓宾结构的三元组原子事件表示;
步骤4、根据事件模板的分布特点,针对事件表现形式多样化的问题,采用Bootstrapping方法进行三元组原子事件的规范化,修正不规范事件的形态,得到规范化原子事件;
步骤5、对出现在同一语句中的规范化原子事件对,采用基于深度学习的算法学习其上下文特征,判别规范化原子事件对间的时序关系;
步骤6、基于规范化原子事件和规范化原子事件对间的时序关系构建事件知识图谱,以规范化原子事件为结点,规范化原子事件对的时序关系为边,得到最后的事件知识图谱。
2.根据权利要求1所述的针对突发事件的事件知识图谱构建方法,其特征在于,所述步骤1对突发事件新闻文档进行数据预处理操作具体包括:利用现有的自然语言处理工具包,完成新闻语料清洗,并对每篇文档进行预处理。
3.根据权利要求1所述的针对突发事件的事件知识图谱构建方法,其特征在于,所述步骤3具体包括:
步骤31、令语句对应的词序列作为输入序列,表示为x={w1,w2,...,wn},以预训练后得到的Embedding作为词的输入向量wi,令词序列对应的预测标签集合为ye={ye1,ye2,...,yen},标签可选集合为{O,BSub,ISub,BPre,IPre,BObj,IObj},分别表示非事件主谓宾、事件主语开始词、事件谓语非开始词、事件谓语开始词、事件谓语非开始词、事件宾语开始词、事件宾语非开始词;
步骤32、经过神经网络隐层的训练提取句子特征,得到每个词对应位置i上的网络隐层输出pi;
步骤34、语句对应的整个词序列的最后得分为序列所有位置得分之和,即:
步骤35、对语句按上述模型优化后的结果进行解码,连续标签{BSub,ISub,…}对应的词序列为原子事件主语,连续标签{BPre,IPre,…}对应的词序列为原子事件谓语,连续标签{BObj,IObj,…}对应的词序列为原子事件宾语,标签O对应的词则为非原子事件主谓宾,从语句的第一个词依次往后扫描,连续的主谓宾合并得到一个三元组原子事件。
4.根据权利要求3所述的针对突发事件的事件知识图谱构建方法,其特征在于,所述步骤4具体包括:
步骤41、构造候选事件集合E,初始集合为所有三元组原子事件;
步骤42、统计候选事件集合E中各事件出现频率,以得到候选事件模板p';
步骤43、对所有候选事件模板p'进行置信度评估,超过阈值k的模板作为标准事件模板;若没有满足要求的标准事件模板产生,则事件规范化结束;每个候选事件模板p'采用下式进行置信度评估:
其中,Efreq(p')表示候选事件模板p'中的事件在语料中的出现概率,即事件概率,Dcover(p')则代表候选事件模板p'中的事件出现的文档概率,即文档概率;|E|和|D|分别代表事件集合和文档集合大小,|i:ei∈p'|表示候选事件模板p'中包含的事件数量,|j:p'∈dj|则表示候选事件模板p'出现于多少篇文件的统计量;事件概率度量了模板的事件覆盖度,而文档概率则度量了模板的文档覆盖度,模板得分最高的即为标准事件模板p,将该标准事件模板p加入标准事件模板集合P,该标准事件模板p中对应的事件加入规范化原子事件集合SE;
步骤44、根据标准事件模板p对候选事件集合E中的候选事件e进行修正,并更新候选事件集合E;
步骤45、重复上述步骤41-44,直到满足步骤43中结束条件。
5.根据权利要求4所述的针对突发事件的事件知识图谱构建方法,其特征在于,所述步骤44按照以下规则对候选事件集合E中的候选事件e进行修正:
若标准事件模板p为{subj1,pred1,obj1},其中subj1、pred1和obj1分别代表标准事件模板的主语、谓语和宾语,扫描候选事件集合E中的每个候选事件e,按下列规则进行事件更新:
1)若候选事件e为{subj2,pred2,obj2}或{subj2,pred2,nil},其中subj2、pred2、obj2和nil分别表示候选事件的主语、谓语、宾语和缺失宾语,如果subj1==subj2并且pred1==pred2,则在原文档上下文找到与obj1相同或相似的词作为新的obj2,即候选事件更新为{subj2,pred2,obj1};
2)若候选事件e为{subj2,pred2,obj2}或{nil,pred2,obj2},其中subj2、pred2、obj2和nil分别表示候选事件的主语、谓语、宾语和缺失主语,如果pred1==pred2并且obj1==obj2,则在原文档上下文找到与subj1相同或相似的词作为新的subj2,即候选事件更新为{subj1,pred2,obj2};
3)若候选事件e为{subj2,pred2,nil},其中subj2、pred2和nil分别表示候选事件的主语、谓语和缺失宾语,如果subj1==subj2并且obj1==pred2,则将候选事件更新为{subj2,pred1,pred2};
若标准事件模板p为{subj1,pred1,nil},其中subj1、pred1和nil分别代表事件模板的主语、谓语和缺失宾语,扫描候选事件集合E中的每个候选事件e,按下列规则进行事件更新:
1)若候选事件e为{subj2,pred2,obj2},其中subj2、pred2和obj2分别表示候选事件的主语、谓语和宾语,如果subj1==subj2并且pred1==pred2,则将候选事件更新为{subj2,pred2,nil};
2)若候选事件e为{nil,pred2,obj2},其中pred2、obj2和nil分别表示候选事件的谓语、宾语和缺失主语,如果pred1==pred2并且obj2==subj1,则将候选事件更新为{obj2,pred2,nil};
若标准事件模板p为{nil,pred1,obj1},其中pred1、obj1和nil分别代表事件模板谓语、宾语和缺失主语,扫描候选事件集合E中的每个候选事件e,按下列规则进行事件更新:
1)若候选事件e为{subj2,pred2,obj2},其中subj2、pred2和obj2分别表示候选事件的主语、谓语和宾语,如果obj1==obj2并且pred1==pred2,则将候选事件更新为{nil,pred2,obj2};
2)若候选事件e为{subj2,pred2,nil},其中subj2、pred2和nil分别表示候选事件的主语、谓语和缺失宾语,如果pred1==pred2并且obj1==subj2,则将候选事件更新为{nil,pred2,subj2};
将上述更新后的候选事件加入规范化原子事件集合SE,更新候选事件集合E。
6.根据权利要求5所述的针对突发事件的事件知识图谱构建方法,其特征在于,所述步骤5具体包括:
步骤5.1、给定一个事件对<e1,e2>,以事件论元的词表示作为输入,分别为subji,predi和obji;
步骤5.2、每个事件对的上下文由两个事件间隔开来,分三段表示,依次为e1上下文context1、中间上下文context2和e2上下文context3;
步骤5.3、分别通过3个LSTM神经网络得到三段上下文的语义表示h'context1,h'context2和h'context3;
步骤5.4、将三段上下文语义表示串接后送入Softmax层以预测事件对关系分类标签yr,标签可选集合为{After,Simultaneous,Unknown},模型目标函数可表示为:
其中网络隐层输出h由三段上下文经各自LSTM习得输出串接而成:
h=tanh(concat(h'context1;h'context2;h'context3))
步骤5.5、对语句按上述模型优化后的结果进行解码,若标签yr为After,表示一个事件在另一个事件之后发生;若标签yr为Simultaneous,表示两个事件同时发生或者两个事件发生的时间段有重叠;若标签yr为Unknown,则表示两个事件间无时序关系或当前情况下无法判断。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110467741.0A CN113312490B (zh) | 2021-04-28 | 2021-04-28 | 一种针对突发事件的事件知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110467741.0A CN113312490B (zh) | 2021-04-28 | 2021-04-28 | 一种针对突发事件的事件知识图谱构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113312490A true CN113312490A (zh) | 2021-08-27 |
CN113312490B CN113312490B (zh) | 2023-04-18 |
Family
ID=77371270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110467741.0A Active CN113312490B (zh) | 2021-04-28 | 2021-04-28 | 一种针对突发事件的事件知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113312490B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114817575A (zh) * | 2022-06-24 | 2022-07-29 | 国网浙江省电力有限公司信息通信分公司 | 基于扩展模型的大规模电力事理图谱处理方法 |
CN116595155A (zh) * | 2023-07-17 | 2023-08-15 | 中国矿业大学(北京) | 基于标准数字化的突发事件智能应急辅助决策方法和系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699689A (zh) * | 2014-01-09 | 2014-04-02 | 百度在线网络技术(北京)有限公司 | 事件知识库的构建方法及装置 |
US20180159876A1 (en) * | 2016-12-05 | 2018-06-07 | International Business Machines Corporation | Consolidating structured and unstructured security and threat intelligence with knowledge graphs |
CN108595388A (zh) * | 2018-04-23 | 2018-09-28 | 乐山师范学院 | 一种面向网络新闻报道的大事记自动生成方法 |
CN108614897A (zh) * | 2018-05-10 | 2018-10-02 | 四川长虹电器股份有限公司 | 一种面向自然语言的内容多样化搜索方法 |
CN109726293A (zh) * | 2018-11-14 | 2019-05-07 | 数据地平线(广州)科技有限公司 | 一种因果事件图谱构建方法、系统、装置及存储介质 |
CN110737819A (zh) * | 2019-10-16 | 2020-01-31 | 乐山师范学院 | 一种基于新闻报道的突发事件线索提取方法 |
CN110781317A (zh) * | 2019-10-29 | 2020-02-11 | 北京明略软件系统有限公司 | 事件图谱的构建方法、装置及电子设备 |
CN111581396A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种基于多维特征融合与依存句法的事件图谱构建系统及方法 |
CN111967256A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 事件关系的生成方法、装置、电子设备和存储介质 |
CN112100351A (zh) * | 2020-09-11 | 2020-12-18 | 陕西师范大学 | 一种通过问题生成数据集构建智能问答系统的方法及设备 |
JPWO2019176011A1 (ja) * | 2018-03-14 | 2021-02-04 | 日本電気株式会社 | 検索文活用装置および検索文活用方法 |
-
2021
- 2021-04-28 CN CN202110467741.0A patent/CN113312490B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699689A (zh) * | 2014-01-09 | 2014-04-02 | 百度在线网络技术(北京)有限公司 | 事件知识库的构建方法及装置 |
US20180159876A1 (en) * | 2016-12-05 | 2018-06-07 | International Business Machines Corporation | Consolidating structured and unstructured security and threat intelligence with knowledge graphs |
JPWO2019176011A1 (ja) * | 2018-03-14 | 2021-02-04 | 日本電気株式会社 | 検索文活用装置および検索文活用方法 |
CN108595388A (zh) * | 2018-04-23 | 2018-09-28 | 乐山师范学院 | 一种面向网络新闻报道的大事记自动生成方法 |
CN108614897A (zh) * | 2018-05-10 | 2018-10-02 | 四川长虹电器股份有限公司 | 一种面向自然语言的内容多样化搜索方法 |
CN109726293A (zh) * | 2018-11-14 | 2019-05-07 | 数据地平线(广州)科技有限公司 | 一种因果事件图谱构建方法、系统、装置及存储介质 |
CN110737819A (zh) * | 2019-10-16 | 2020-01-31 | 乐山师范学院 | 一种基于新闻报道的突发事件线索提取方法 |
CN110781317A (zh) * | 2019-10-29 | 2020-02-11 | 北京明略软件系统有限公司 | 事件图谱的构建方法、装置及电子设备 |
CN111581396A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种基于多维特征融合与依存句法的事件图谱构建系统及方法 |
CN111967256A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 事件关系的生成方法、装置、电子设备和存储介质 |
CN112100351A (zh) * | 2020-09-11 | 2020-12-18 | 陕西师范大学 | 一种通过问题生成数据集构建智能问答系统的方法及设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114817575A (zh) * | 2022-06-24 | 2022-07-29 | 国网浙江省电力有限公司信息通信分公司 | 基于扩展模型的大规模电力事理图谱处理方法 |
CN114817575B (zh) * | 2022-06-24 | 2022-09-02 | 国网浙江省电力有限公司信息通信分公司 | 基于扩展模型的大规模电力事理图谱处理方法 |
CN116595155A (zh) * | 2023-07-17 | 2023-08-15 | 中国矿业大学(北京) | 基于标准数字化的突发事件智能应急辅助决策方法和系统 |
CN116595155B (zh) * | 2023-07-17 | 2023-11-14 | 中国矿业大学(北京) | 基于标准数字化的突发事件智能应急辅助决策方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113312490B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cetto et al. | Graphene: Semantically-linked propositions in open information extraction | |
CN110046260B (zh) | 一种基于知识图谱的暗网话题发现方法和系统 | |
Srinivasa et al. | Crime base: Towards building a knowledge base for crime entities and their relationships from online news papers | |
CN112002411A (zh) | 一种基于电子病历的心脑血管病知识图谱问答方法 | |
Zhao et al. | Improving relation classification by entity pair graph | |
US10796097B2 (en) | System and method for event profiling | |
Ngejane et al. | Digital forensics supported by machine learning for the detection of online sexual predatory chats | |
CN113312490B (zh) | 一种针对突发事件的事件知识图谱构建方法 | |
Pujari et al. | Debiasing gender biased hindi words with word-embedding | |
CN110889786A (zh) | 一种基于lstm技术的法律诉讼被告人保全用审判服务方法 | |
CN110472226A (zh) | 一种基于知识图谱的网络安全态势预测方法及装置 | |
Pan et al. | Identification of accident-injury type and bodypart factors from construction accident reports: A graph-based deep learning framework | |
Efremova et al. | Multi-source entity resolution for genealogical data | |
Frisoni et al. | Phenomena explanation from text: Unsupervised learning of interpretable and statistically significant knowledge | |
CN117520786B (zh) | 基于nlp和循环神经网络的大语言模型构建方法 | |
Jiang et al. | Learning image-text associations | |
CN114896387A (zh) | 军事情报分析可视化方法、装置以及计算机可读存储介质 | |
CN113761192A (zh) | 文本处理方法、文本处理装置及文本处理设备 | |
Wang et al. | Toxic comment classification based on bidirectional gated recurrent unit and convolutional neural network | |
Zhang et al. | A machine learning-based approach for building code requirement hierarchy extraction | |
Cholissodin | Social Computing to Create Government Public Policy Document Blueprint Draft Based on Social Media Data About Covid-19 Using LSTM and MMR Hybrid Algorithms | |
Dunn et al. | Language-independent ensemble approaches to metaphor identification | |
CN115270746A (zh) | 问题样本生成方法和装置、电子设备及存储介质 | |
Liu et al. | Learning conditional random fields with latent sparse features for acronym expansion finding | |
Jamwal | Named entity recognition for Dogri using ML |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |