CN113312490B - 一种针对突发事件的事件知识图谱构建方法 - Google Patents

一种针对突发事件的事件知识图谱构建方法 Download PDF

Info

Publication number
CN113312490B
CN113312490B CN202110467741.0A CN202110467741A CN113312490B CN 113312490 B CN113312490 B CN 113312490B CN 202110467741 A CN202110467741 A CN 202110467741A CN 113312490 B CN113312490 B CN 113312490B
Authority
CN
China
Prior art keywords
event
pred2
candidate
subj2
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110467741.0A
Other languages
English (en)
Other versions
CN113312490A (zh
Inventor
孙锐
谢红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leshan Normal University
Original Assignee
Leshan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leshan Normal University filed Critical Leshan Normal University
Priority to CN202110467741.0A priority Critical patent/CN113312490B/zh
Publication of CN113312490A publication Critical patent/CN113312490A/zh
Application granted granted Critical
Publication of CN113312490B publication Critical patent/CN113312490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种针对突发事件的事件知识图谱构建方法,属于自然语言处理领域,包括以下步骤:1)从互联网上收集新闻文档数据,完成数据清洗等预处理操作;2)将语料加入背景语料,预训练后习得词的嵌入表示;3)以语句为单位,抽取原子事件;4)针对事件表现形式多样化的问题,进行原子事件的规范化;5)对出现在同一语句中的事件对,识别其时序关系;6)基于事件和事件时序关系构建事件知识图谱。该方法利用原子事件及原子事件关系进行统计分析,有效地从事件关联性中进行推理和预测,以便对突发事件进行预防或辅助决策。

Description

一种针对突发事件的事件知识图谱构建方法
技术领域
本发明属于自然语言处理领域,具体涉及一种针对突发事件的事件知识图谱构建方法。
背景技术
突发事件,是指突然发生,造成或者可能造成严重社会危害,需要采取应急处置措施予以应对的自然灾害、事故灾难、公共卫生事件和社会安全事件。为预防和减少突发事件的发生,控制、减轻和消除突发事件引起的严重社会危害,相关部门应规范突发事件应对活动,对可能发生的突发事件进行综合性评估,最大限度地减轻重大突发事件影响。
突发事件具有明显的时序特征,往往会演化或衍生出很多的子事件。例如,一些台风事件一发生,同时会出现“人员伤亡”、“农作物受灾”、“通讯中断”等事件;随着时间的推进,“气象台发布预警”、“相关部门发出通告”、“转移相关人员”、“防范病菌”等一系列相关事件。这些事件的发生有着时序关系或因果关系。准确完整地获取突发事件关系,对了解突发事件的前因后果以及对事态发展趋势的掌握有着重要的作用。
自某网站推出第一版知识图谱(Knowledge Graph,KG)以来,知识图谱已在工业界和学术界掀起了一股热潮。知识图谱采用实体二元关系描述现实世界,以图数据结构来表达和存储知识,其实体关系类别或关注开放领域下的“Is a”和“Attribute”类型,或针对特定领域定制语义框架。
事件,一般指一个动作的发生或状态的变化。与实体关系相比,事件作为一种特殊的知识表现形式,呈现了比实体关系更复杂的语义关系。从认知心理学来看,人类多以“事件”为单位去记忆和理解现实世界。现实世界中的事件之间大多呈现因果和时序上的关系。采用原子事件知识图谱比传统知识图谱更利于进行突发事件的分析和预测。在所构造的事件知识图谱中,结点本身包含论元(可以为实体)间的语义关系,而边则表达了事件间的关系,因而包含了比传统知识图谱更丰富的知识。同一主题下的事件会形成天然的聚簇,即事件关联子图或事件链。事件在不同主题下往往呈现了不同的强度或主题相关度,事件之间也有着不同的关联度。因此,基于事件知识图谱开展事件强度、事件关联度、事件链等知识推理研究并实现时间线生成和事件预测等应用是非常有意义的。
近年来,知识图谱的发展如火如荼,Freebase和Probase等英文知识图谱已得到广泛的应用。但它们只包含了有关实体的丰富知识,极少涉及事件知识。现有面向突发事件的知识图谱构建方法采用传统的以实体为基本结点的形式,语义表达能力有限且语义关系略为简单,难以刻画客观世界动态性的知识。例如,“地震”发生后,往往会有“伤亡”、“救援”和“安置”等事件发生;同样,“CEO辞职”发生后也可能会出现“人事变更”和“股市起伏”等相关事件。
发明内容
为了克服上述现有技术存在的不足,本发明提供了一种针对突发事件的事件知识图谱构建方法。
为了实现上述目的,本发明提供如下技术方案:
一种针对突发事件的事件知识图谱构建方法,包括以下步骤:
步骤1、收集突发事件新闻文档,对突发事件新闻文档进行数据预处理操作,得到新闻数据集D;
步骤2、将预处理后的新闻数据集D加入背景语料,预训练后得到词的分布式表示,即词的Embedding;
步骤3、对新闻数据集D中的每篇新闻,以语句为单位采用深度学习的序列标注方法进行事件抽取,所对应的事件采用主谓宾结构的三元组原子事件表示;
步骤4、根据事件模板的分布特点,针对事件表现形式多样化的问题,采用Bootstrapping方法进行三元组原子事件的规范化,修正不规范事件的形态,得到规范化原子事件;
步骤5、对出现在同一语句中的规范化原子事件对,采用基于深度学习的算法学习其上下文特征,判别规范化原子事件对间的时序关系;
步骤6、基于规范化原子事件和规范化原子事件对间的时序关系构建事件知识图谱,以规范化原子事件为结点,规范化原子事件对的时序关系为边,得到最后的事件知识图谱。
优选地,所述步骤1对突发事件新闻文档进行数据预处理操作具体包括:利用现有的自然语言处理工具包,完成新闻语料清洗,并对每篇文档进行预处理。
优选地,所述步骤3具体包括:
步骤31、令语句对应的词序列作为输入序列,表示为x={w1,w2,...,wn},以预训练后得到的Embedding作为词的输入向量wi,令词序列对应的预测标签集合为ye={ye1,ye2,...,yen},标签可选集合为{O,BSub,ISub,BPre,IPre,BObj,IObj},分别表示非事件主谓宾、事件主语开始词、事件主语非开始词、事件谓语开始词、事件谓语非开始词、事件宾语开始词、事件宾语非开始词;
步骤32、经过神经网络隐层的训练提取句子特征,得到每个词对应位置i上的网络隐层输出pi
步骤33、在输入层,综合考虑隐层输出pi和标签转移概率
Figure GDA0004134280620000031
预测输出每个词对应位置i上的标签yei,其预测概率为
Figure GDA0004134280620000032
步骤34、语句对应的整个词序列的最后得分为序列所有位置得分之和,即:
Figure GDA0004134280620000033
对此得分进行Softmax归一化后,模型目标函数表示为
Figure GDA0004134280620000034
即优化得到语句对应词序列的最优标签预测序列;
步骤35、对语句按上述模型优化后的结果进行解码,连续标签{BSub,ISub,…}对应的词序列为原子事件主语,连续标签{BPre,IPre,…}对应的词序列为原子事件谓语,连续标签{BObj,IObj,…}对应的词序列为原子事件宾语,标签O对应的词则为非原子事件主谓宾,从语句的第一个词依次往后扫描,连续的主谓宾合并得到一个三元组原子事件。
优选地,所述步骤4具体包括:
步骤41、构造候选事件集合E,初始集合为所有三元组原子事件;
步骤42、统计候选事件集合E中各事件出现频率,以得到候选事件模板p';
步骤43、对所有候选事件模板p'进行置信度评估,超过阈值k的模板作为标准事件模板;若没有满足要求的标准事件模板产生,则事件规范化结束;每个候选事件模板p'采用下式进行置信度评估:
Figure GDA0004134280620000041
其中,Efreq(p')表示候选事件模板p'中的事件在语料中的出现概率,即事件概率,Dcover(p')则代表候选事件模板p'中的事件出现的文档概率,即文档概率;|E|和|D|分别代表事件集合和文档集合大小,|i:ei∈p'|表示候选事件模板p'中包含的事件数量,|j:p'∈dj|则表示候选事件模板p'出现于多少篇文件的统计量;事件概率度量了模板的事件覆盖度,而文档概率则度量了模板的文档覆盖度,模板得分最高的即为标准事件模板p,将该标准事件模板p加入标准事件模板集合P,该标准事件模板p中对应的事件加入规范化原子事件集合SE;
步骤44、根据标准事件模板p对候选事件集合E中的候选事件e进行修正,并更新候选事件集合E;
步骤45、重复上述步骤41-44,直到满足步骤43中结束条件。
优选地,所述步骤44按照以下规则对候选事件集合E中的候选事件e进行修正:
若标准事件模板p为{subj1,pred1,obj1},其中subj1、pred1和obj1分别代表标准事件模板的主语、谓语和宾语,扫描候选事件集合E中的每个候选事件e,按下列规则进行事件更新:
1)若候选事件e为{subj2,pred2,obj2}或{subj2,pred2,nil},其中subj2、pred2、obj2和nil分别表示候选事件的主语、谓语、宾语和缺失宾语,如果subj1==subj2并且pred1==pred2,则在原文档上下文找到与obj1相同或相似的词作为新的obj2,即候选事件更新为{subj2,pred2,obj1};
2)若候选事件e为{subj2,pred2,obj2}或{nil,pred2,obj2},其中subj2、pred2、obj2和nil分别表示候选事件的主语、谓语、宾语和缺失主语,如果pred1==pred2并且obj1==obj2,则在原文档上下文找到与subj1相同或相似的词作为新的subj2,即候选事件更新为{subj1,pred2,obj2};
3)若候选事件e为{subj2,pred2,nil},其中subj2、pred2和nil分别表示候选事件的主语、谓语和缺失宾语,如果subj1==subj2并且obj1==pred2,则将候选事件更新为{subj2,pred1,pred2};
若标准事件模板p为{subj1,pred1,nil},其中subj1、pred1和nil分别代表事件模板的主语、谓语和缺失宾语,扫描候选事件集合E中的每个候选事件e,按下列规则进行事件更新:
1)若候选事件e为{subj2,pred2,obj2},其中subj2、pred2和obj2分别表示候选事件的主语、谓语和宾语,如果subj1==subj2并且pred1==pred2,则将候选事件更新为{subj2,pred2,nil};
2)若候选事件e为{nil,pred2,obj2},其中pred2、obj2和nil分别表示候选事件的谓语、宾语和缺失主语,如果pred1==pred2并且obj2==subj1,则将候选事件更新为{obj2,pred2,nil};
若标准事件模板p为{nil,pred1,obj1},其中pred1、obj1和nil分别代表事件模板谓语、宾语和缺失主语,扫描候选事件集合E中的每个候选事件e,按下列规则进行事件更新:
1)若候选事件e为{subj2,pred2,obj2},其中subj2、pred2和obj2分别表示候选事件的主语、谓语和宾语,如果obj1==obj2并且pred1==pred2,则将候选事件更新为{nil,pred2,obj2};
2)若候选事件e为{subj2,pred2,nil},其中subj2、pred2和nil分别表示候选事件的主语、谓语和缺失宾语,如果pred1==pred2并且obj1==subj2,则将候选事件更新为{nil,pred2,subj2};
将上述更新后的候选事件加入规范化原子事件集合SE,更新候选事件集合E。
优选地,所述步骤5具体包括:
步骤5.1、给定一个事件对<e1,e2>,以事件论元的词表示作为输入,分别为subji,predi和obji
步骤5.2、每个事件对的上下文由两个事件间隔开来,分三段表示,依次为e1上下文context1、中间上下文context2和e2上下文context3;
步骤5.3、分别通过3个LSTM神经网络得到三段上下文的语义表示h'context1,h'context2和h'context3
步骤5.4、将三段上下文语义表示串接后送入Softmax层以预测事件对关系分类标签yr,标签可选集合为{After,Simultaneous,Unknown},模型目标函数可表示为:
Figure GDA0004134280620000061
其中网络隐层输出h由三段上下文经各自LSTM习得输出串接而成:
h=tanh(concat(h'context1;h'context2;h'context3))
步骤5.5、对语句按上述模型优化后的结果进行解码,若标签yr为After,表示一个事件在另一个事件之后发生;若标签yr为Simultaneous,表示两个事件同时发生或者两个事件发生的时间段有重叠;若标签yr为Unknown,则表示两个事件间无时序关系或当前情况下无法判断。
本发明提供的针对突发事件的事件知识图谱构建方法具有以下有益效果:
1)本发明以三元组原子事件为知识图谱的结点,包含比实体词更丰富的语义,并且没有歧义;
2)本发明以事件时序关系为知识图谱的边,这种关系表示简单合理,可扩展性强,能直观地呈现突发事件中的子事件和衍生事件间的时序关系;
3)本发明构造的事件知识图谱以原子事件为结点、时序关系为边,事件因主题相关性会在图中形成天然的聚簇和时序链,对事件强度识别、事件关联度分析、事件预测的应用有着重要的意义。
附图说明
为了更清楚地说明本发明实施例及其设计方案,下面将对本实施例所需的附图作简单地介绍。下面描述中的附图仅仅是本发明的部分实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1的针对突发事件的事件知识图谱构建方法的流程图;
图2为基于BiLSTM+CRF的事件抽取模型结构图;
图3为基于Bootstrapping的事件规范化模型;
图4为基于LSTM的事件时序关系识别模型;
图5为事件知识图谱片段。
具体实施方式
为了使本领域技术人员更好的理解本发明的技术方案并能予以实施,下面结合附图和具体实施例对本发明进行详细说明。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1
本发明提供了一种针对突发事件的事件知识图谱构建方法,以原子级事件为结点、原子事件对的时序关系为边。在某网上采集专题文档,包括台风、起火、纵火、地震等不同的突发主题事件,并以此作为训练和测试语料。在该数据集上的实施例表明该方法简单有效,最终生成的事件知识图谱主题相关性强,同一主题下比较充分地反映了事件强度对比和关联性。如附图1所示,具体包括如下步骤:
S1、从某网采集新闻文档数据,进行数据清洗后,利用自然语言处理工具对所述新闻语料中的每篇文档进行分词、依存分析和指代消解等预处理操作,得到新闻数据集D;本实例选用斯坦福大学公开的自然语言处理工具包Stanford CoreNLP。具体步骤包括:对爬取的专题文档,完成新闻语料清洗,如全角转半角、去除冗余URL等非中文符号,并利用现有的自然语言处理工具包Stanford CoreNLP对每篇文档进行预处理,如分词、依存分析和指代消解等操作。
S2、将预处理后的新闻数据集D加入到背景语料(如xx日报语料等),利用词嵌入算法Word2Vec训练后习得学习词的嵌入分布式表示Embedding;常见的词嵌入算法包括Word2Vec,Glove等,本实例选用Word2Vec作为词嵌入算法。
S3、对新闻数据集D中的每篇新闻,以语句为单位采用深度学习的序列标注方法进行事件抽取,所对应的事件采用主谓宾结构的三元组原子事件表示,如图2所示,其实现方法如下:
S31、令语句对应的词序列作为输入序列,表示为x={w1,w2,...,wn},以预训练后得到的Embedding作为词的输入向量wi,令词序列对应的预测标签集合为ye={ye1,ye2,...,yen},标签可选集合为{O,BSub,ISub,BPre,IPre,BObj,IObj},分别表示非事件主谓宾、事件主语开始词、事件主语非开始词、事件谓语开始词、事件谓语非开始词、事件宾语开始词、事件宾语非开始词;
S32、经过神经网络隐层的训练提取句子特征,得到每个词对应位置i上的网络隐层输出pi
S33、在输入层,综合考虑隐层输出pi和标签转移概率
Figure GDA0004134280620000081
预测输出每个词对应位置i上的标签yei,其预测概率为
Figure GDA0004134280620000082
S34、语句对应的整个词序列的最后得分为序列所有位置得分之和,即:
Figure GDA0004134280620000083
对此得分进行Softmax归一化后,模型目标函数表示为
Figure GDA0004134280620000084
即优化得到语句对应词序列的最优标签预测序列;
S35、对语句按上述模型优化后的结果进行解码,连续标签{BSub,ISub,…}对应的词序列为原子事件主语,连续标签{BPre,IPre,…}对应的词序列为原子事件谓语,连续标签{BObj,IObj,…}对应的词序列为原子事件宾语,标签O对应的词则为非原子事件主谓宾,从语句的第一个词依次往后扫描,连续的主谓宾合并得到一个三元组原子事件。
本实施例中,语料中文档为新闻类的突发事件,每条语句中可能存在多个事件,采用基于深度学习的序列标注技术可捕捉事件论元间长距离的语义关系。这种三元组事件论元数目适中,在不丢失语义的情况下,同时能避免稀疏问题。如文本“xx市民政局报告,截至8日8时30分,某地数万人受灾,包括人员死亡、受伤、重伤,紧急转移安置数万人,倒塌房屋数千间,严重损坏房屋数万间。”,可抽取9个原子事件,分别为E1“(谋局,报告,nil)”、E2“(某地,地震,nil)”、E3“(人,受灾,nil)”、E4“(人,死亡,nil)”、E5“(人,受伤,nil)”、E6“(nil,重伤,人)”、E7“(nil,安置,人)”、E8“(nil,倒塌,房屋)”和E9“(nil,损坏,房屋)”等。
S4、根据事件模板的分布特点,针对事件表现形式多样化的问题,采用Bootstrapping方法进行三元组原子事件的规范化,修正不规范事件的形态,得到规范化原子事件,如图3所示,其实现S如下:
S41、构造候选事件集合E,初始集合为所有三元组原子事件;
S42、统计候选事件集合E中各事件出现频率,以得到候选事件模板p';
S43、对所有候选事件模板p'进行置信度评估,超过阈值k的模板作为标准事件模板;若没有满足要求的标准事件模板产生,则事件规范化结束;每个候选事件模板p'采用下式进行置信度评估:
Figure GDA0004134280620000091
其中,Efreq(p')表示候选事件模板p'中的事件在语料中的出现概率,即事件概率,Dcover(p')则代表候选事件模板p'中的事件出现的文档概率,即文档概率;|E|和|D|分别代表事件集合和文档集合大小,|i:ei∈p'|表示候选事件模板p'中包含的事件数量,|j:p'∈dj|则表示候选事件模板p'出现于多少篇文件的统计量;事件概率度量了模板的事件覆盖度,而文档概率则度量了模板的文档覆盖度,模板得分最高的即为标准事件模板p,将该标准事件模板p加入标准事件模板集合P,该标准事件模板p中对应的事件加入规范化原子事件集合SE;
S44、根据标准事件模板p对候选事件集合E中的候选事件e进行修正,并更新候选事件集合E,S44按照以下规则对候选事件集合E中的候选事件e进行修正:
若标准事件模板p为{subj1,pred1,obj1},其中subj1、pred1和obj1分别代表标准事件模板的主语、谓语和宾语,扫描候选事件集合E中的每个候选事件e,按下列规则进行事件更新:
1)若候选事件e为{subj2,pred2,obj2}或{subj2,pred2,nil},其中subj2、pred2、obj2和nil分别表示候选事件的主语、谓语、宾语和缺失宾语,如果subj1==subj2并且pred1==pred2,则在原文档上下文找到与obj1相同或相似的词作为新的obj2,即候选事件更新为{subj2,pred2,obj1};
2)若候选事件e为{subj2,pred2,obj2}或{nil,pred2,obj2},其中subj2、pred2、obj2和nil分别表示候选事件的主语、谓语、宾语和缺失主语,如果pred1==pred2并且obj1==obj2,则在原文档上下文找到与subj1相同或相似的词作为新的subj2,即候选事件更新为{subj1,pred2,obj2};
3)若候选事件e为{subj2,pred2,nil},其中subj2、pred2和nil分别表示候选事件的主语、谓语和缺失宾语,如果subj1==subj2并且obj1==pred2,则将候选事件更新为{subj2,pred1,pred2};
若标准事件模板p为{subj1,pred1,nil},其中subj1、pred1和nil分别代表事件模板的主语、谓语和缺失宾语,扫描候选事件集合E中的每个候选事件e,按下列规则进行事件更新:
1)若候选事件e为{subj2,pred2,obj2},其中subj2、pred2和obj2分别表示候选事件的主语、谓语和宾语,如果subj1==subj2并且pred1==pred2,则将候选事件更新为{subj2,pred2,nil};
2)若候选事件e为{nil,pred2,obj2},其中pred2、obj2和nil分别表示候选事件的谓语、宾语和缺失主语,如果pred1==pred2并且obj2==subj1,则将候选事件更新为{obj2,pred2,nil};
若标准事件模板p为{nil,pred1,obj1},其中pred1、obj1和nil分别代表事件模板谓语、宾语和缺失主语,扫描候选事件集合E中的每个候选事件e,按下列规则进行事件更新:
1)若候选事件e为{subj2,pred2,obj2},其中subj2、pred2和obj2分别表示候选事件的主语、谓语和宾语,如果obj1==obj2并且pred1==pred2,则将候选事件更新为{nil,pred2,obj2};
2)若候选事件e为{subj2,pred2,nil},其中subj2、pred2和nil分别表示候选事件的主语、谓语和缺失宾语,如果pred1==pred2并且obj1==subj2,则将候选事件更新为{nil,pred2,subj2};
将上述更新后的候选事件加入规范化原子事件集合SE,更新候选事件集合E;
S45、重复上述S41-44,直到满足S43中结束条件。具体地,在本实施例中阈值k设置为0.05,即置信度值得分高于0.05才可能成为标准事件模板;此外,上下文中相似词的确定,可采用词相似计算方法,本实施例直接采用同义词词林,即同一个语义标签下的词方可作为相似词。
由于中文是一种意合的语言,同一事件的表现形式比较多,例如事件“(人,死亡,nil)”和事件“(nil,死亡,人)”实际上为同一事件。不同的新闻报道者叙述的习惯存在着差异。本实例中,通过事件规范化后,事件的稀疏性明显缓解,提升了事件知识图谱的质量。
S5、对出现在同一语句中的规范化原子事件对,采用基于深度学习的算法学习其上下文特征,判别规范化原子事件对间的时序关系,如图4,其实现S如下:
S5.1、给定一个事件对<e1,e2>,以事件论元的词表示作为输入,分别为subji,predi和obji
S5.2、每个事件对的上下文由两个事件间隔开来,分三段表示,依次为e1上下文context1、中间上下文context2和e2上下文context3;
S5.3、分别通过3个LSTM神经网络得到三段上下文的语义表示h'context1,h'context2和h'context3
S5.4、将三段上下文语义表示串接后送入Softmax层以预测事件对关系分类标签yr,标签可选集合为{After,Simultaneous,Unknown},模型目标函数可表示为:
Figure GDA0004134280620000121
其中网络隐层输出h由三段上下文经各自LSTM习得输出串接而成:
h=tanh(concat(h'context1;h'context2;h'context3))
S5.5、对语句按上述模型优化后的结果进行解码,若标签yr为After,表示一个事件在另一个事件之后发生;若标签yr为Simultaneous,表示两个事件同时发生或者两个事件发生的时间段有重叠;若标签yr为Unknown,则表示两个事件间无时序关系或当前情况下无法判断。
S6、基于规范化原子事件和规范化原子事件对间的时序关系构建事件知识图谱,以规范化原子事件为结点,规范化原子事件对的时序关系为边,得到最后的事件知识图谱。
本实施例中,以前述文本为例,可构造如图5所示的事件知识图谱片段,其中单向弧表示表示弧头事件在弧尾事件之后发生(After);双向弧表示两个事件同时发生(Simultaneous);无向边表示两个事件关系不确定或未知(Unknown)。
从图中可以看出,事件E2“(某地,地震,nil)”为该主题的中心事件,事件间呈现拓扑有序的关系。输入相应的事件,可快速查询与该事件有关的信息,同时也有助于开展后续事件关联、事件链和事件预测等知识推理和应用。
本发明从细粒度的原子事件抽取出发,构建面向突发事件的知识图谱以刻画突发事件的动态特征,实现突发事件领域事件级的信息查询和统计分析,以便快速了解突发事件的前因后果,同时对如何应对类似突发事件有着一定的借鉴和预测作用。其中,原子事件采用施事、触发词和受事的三元组表示,形如<Subject,Predicate,Object>(在论元缺失的情况下为<Subject,Predicate,nil>或<nil,Predicate,Object>)。这种细粒度的原子事件可以有效地避免稀疏和歧义问题,有利于事件知识图谱上的知识表示和推理。原子事件的时序关系分为3种:(1)After:一个事件在另一个事件之后发生;(2)Simultaneous:两个事件同时发生或者两个事件发生的时间段有重叠;(3)Unknown:两个事件无时序关系或当前情况下无法判断。
本实施例提供的方法针对现有面向突发事件的知识图谱构建方法存在着语义表达能力弱且语义关系简单等问题,提出一种面向突发事件的原子事件知识图谱的构建方法,利用原子事件及原子事件关系进行统计分析,有效地从事件关联性中进行推理和预测,以便对突发事件进行预防或辅助决策。
以上所述实施例仅为本发明较佳的具体实施方式,本发明的保护范围不限于此,任何熟悉本领域的技术人员在本发明披露的技术范围内,可显而易见地得到的技术方案的简单变化或等效替换,均属于本发明的保护范围。

Claims (5)

1.一种针对突发事件的事件知识图谱构建方法,其特征在于,包括以下步骤:
步骤1、收集突发事件新闻文档,对突发事件新闻文档进行数据预处理操作,得到新闻数据集D;
步骤2、将预处理后的新闻数据集D加入背景语料,预训练后得到词的分布式表示,即词的Embedding;
步骤3、对新闻数据集D中的每篇新闻,以语句为单位采用深度学习的序列标注方法进行事件抽取,所对应的事件采用主谓宾结构的三元组原子事件表示;
所述步骤3具体包括:
步骤31、令语句对应的词序列作为输入序列,表示为x={w1,w2,...,wn},以预训练后得到的Embedding作为词的输入向量wi,令词序列对应的预测标签集合为ye={ye1,ye2,...,yen},标签可选集合为{O,BSub,ISub,BPre,IPre,BObj,IObj},分别表示非事件主谓宾、事件主语开始词、事件主语非开始词、事件谓语开始词、事件谓语非开始词、事件宾语开始词、事件宾语非开始词;
步骤32、经过神经网络隐层的训练提取句子特征,得到每个词对应位置i上的网络隐层输出pi
步骤33、在输入层,综合考虑隐层输出pi和标签转移概率
Figure FDA0004116150120000013
预测输出每个词对应位置i上的标签yei,其预测概率为
Figure FDA0004116150120000014
步骤34、语句对应的整个词序列的最后得分为序列所有位置得分之和,即:
Figure FDA0004116150120000011
对此得分进行Softmax归一化后,模型目标函数表示为
Figure FDA0004116150120000012
即优化得到语句对应词序列的最优标签预测序列;
步骤35、对语句按上述模型优化后的结果进行解码,连续标签{BSub,ISub,…}对应的词序列为原子事件主语,连续标签{BPre,IPre,…}对应的词序列为原子事件谓语,连续标签{BObj,IObj,…}对应的词序列为原子事件宾语,标签O对应的词则为非原子事件主谓宾,从语句的第一个词依次往后扫描,连续的主谓宾合并得到一个三元组原子事件;
步骤4、根据事件模板的分布特点,针对事件表现形式多样化的问题,采用Bootstrapping方法进行三元组原子事件的规范化,修正不规范事件的形态,得到规范化原子事件;
步骤5、对出现在同一语句中的规范化原子事件对,采用基于深度学习的算法学习其上下文特征,判别规范化原子事件对间的时序关系;
步骤6、基于规范化原子事件和规范化原子事件对间的时序关系构建事件知识图谱,以规范化原子事件为结点,规范化原子事件对的时序关系为边,得到最后的事件知识图谱。
2.根据权利要求1所述的针对突发事件的事件知识图谱构建方法,其特征在于,所述步骤1对突发事件新闻文档进行数据预处理操作具体包括:利用现有的自然语言处理工具包,完成新闻语料清洗,并对每篇文档进行预处理。
3.根据权利要求1所述的针对突发事件的事件知识图谱构建方法,其特征在于,所述步骤4具体包括:
步骤41、构造候选事件集合E,初始集合为所有三元组原子事件;
步骤42、统计候选事件集合E中各事件出现频率,以得到候选事件模板p';
步骤43、对所有候选事件模板p'进行置信度评估,超过阈值k的模板作为标准事件模板;若没有满足要求的标准事件模板产生,则事件规范化结束;每个候选事件模板p'采用下式进行置信度评估:
Figure FDA0004116150120000021
其中,Efreq(p')表示候选事件模板p'中的事件在语料中的出现概率,即事件概率,Dcover(p')则代表候选事件模板p'中的事件出现的文档概率,即文档概率;|E|和|D|分别代表事件集合和文档集合大小,|i:ei∈p'|表示候选事件模板p'中包含的事件数量,|j:p'∈dj|则表示候选事件模板p'出现于多少篇文件的统计量;事件概率度量了模板的事件覆盖度,而文档概率则度量了模板的文档覆盖度,模板得分最高的即为标准事件模板p,将该标准事件模板p加入标准事件模板集合P,该标准事件模板p中对应的事件加入规范化原子事件集合SE;
步骤44、根据标准事件模板p对候选事件集合E中的候选事件e进行修正,并更新候选事件集合E;
步骤45、重复上述步骤41-44,直到满足步骤43中结束条件。
4.根据权利要求3所述的针对突发事件的事件知识图谱构建方法,其特征在于,所述步骤44按照以下规则对候选事件集合E中的候选事件e进行修正:
若标准事件模板p为{subj1,pred1,obj1},其中subj1、pred1和obj1分别代表标准事件模板的主语、谓语和宾语,扫描候选事件集合E中的每个候选事件e,按下列规则进行事件更新:
1)若候选事件e为{subj2,pred2,obj2}或{subj2,pred2,nil},其中subj2、pred2、obj2和nil分别表示候选事件的主语、谓语、宾语和缺失宾语,如果subj1==subj2并且pred1==pred2,则在原文档上下文找到与obj1相同或相似的词作为新的obj2,即候选事件更新为{subj2,pred2,obj1};
2)若候选事件e为{subj2,pred2,obj2}或{nil,pred2,obj2},其中subj2、pred2、obj2和nil分别表示候选事件的主语、谓语、宾语和缺失主语,如果pred1==pred2并且obj1==obj2,则在原文档上下文找到与subj1相同或相似的词作为新的subj2,即候选事件更新为{subj1,pred2,obj2};
3)若候选事件e为{subj2,pred2,nil},其中subj2、pred2和nil分别表示候选事件的主语、谓语和缺失宾语,如果subj1==subj2并且obj1==pred2,则将候选事件更新为{subj2,pred1,pred2};
若标准事件模板p为{subj1,pred1,nil},其中subj1、pred1和nil分别代表事件模板的主语、谓语和缺失宾语,扫描候选事件集合E中的每个候选事件e,按下列规则进行事件更新:
1)若候选事件e为{subj2,pred2,obj2},其中subj2、pred2和obj2分别表示候选事件的主语、谓语和宾语,如果subj1==subj2并且pred1==pred2,则将候选事件更新为{subj2,pred2,nil};
2)若候选事件e为{nil,pred2,obj2},其中pred2、obj2和nil分别表示候选事件的谓语、宾语和缺失主语,如果pred1==pred2并且obj2==subj1,则将候选事件更新为{obj2,pred2,nil};
若标准事件模板p为{nil,pred1,obj1},其中pred1、obj1和nil分别代表事件模板谓语、宾语和缺失主语,扫描候选事件集合E中的每个候选事件e,按下列规则进行事件更新:
1)若候选事件e为{subj2,pred2,obj2},其中subj2、pred2和obj2分别表示候选事件的主语、谓语和宾语,如果obj1==obj2并且pred1==pred2,则将候选事件更新为{nil,pred2,obj2};
2)若候选事件e为{subj2,pred2,nil},其中subj2、pred2和nil分别表示候选事件的主语、谓语和缺失宾语,如果pred1==pred2并且obj1==subj2,则将候选事件更新为{nil,pred2,subj2};
将上述更新后的候选事件加入规范化原子事件集合SE,更新候选事件集合E。
5.根据权利要求4所述的针对突发事件的事件知识图谱构建方法,其特征在于,所述步骤5具体包括:
步骤5.1、给定一个事件对<e1,e2>,以事件论元的词表示作为输入,分别为subji,predi和obji
步骤5.2、每个事件对的上下文由两个事件间隔开来,分三段表示,依次为e1上下文context1、中间上下文context2和e2上下文context3;
步骤5.3、分别通过3个LSTM神经网络得到三段上下文的语义表示h'context1,h'context2和h'context3
步骤5.4、将三段上下文语义表示串接后送入Softmax层以预测事件对关系分类标签yr*,标签可选集合为{After,Simultaneous,Unknown},模型目标函数可表示为:
Figure FDA0004116150120000051
其中网络隐层输出h由三段上下文经各自LSTM习得输出串接而成:
h=tanh(concat(h'context1;h'context2;h'context3))
步骤5.5、对语句按上述模型优化后的结果进行解码,若标签yr*为After,表示一个事件在另一个事件之后发生;若标签yr*为Simultaneous,表示两个事件同时发生或者两个事件发生的时间段有重叠;若标签yr*为Unknown,则表示两个事件间无时序关系或当前情况下无法判断。
CN202110467741.0A 2021-04-28 2021-04-28 一种针对突发事件的事件知识图谱构建方法 Active CN113312490B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110467741.0A CN113312490B (zh) 2021-04-28 2021-04-28 一种针对突发事件的事件知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110467741.0A CN113312490B (zh) 2021-04-28 2021-04-28 一种针对突发事件的事件知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN113312490A CN113312490A (zh) 2021-08-27
CN113312490B true CN113312490B (zh) 2023-04-18

Family

ID=77371270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110467741.0A Active CN113312490B (zh) 2021-04-28 2021-04-28 一种针对突发事件的事件知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN113312490B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648019A (zh) * 2022-04-07 2022-06-21 北京市商汤科技开发有限公司 事件关系识别方法、装置、计算机设备以及存储介质
CN114817575B (zh) * 2022-06-24 2022-09-02 国网浙江省电力有限公司信息通信分公司 基于扩展模型的大规模电力事理图谱处理方法
CN116595155B (zh) * 2023-07-17 2023-11-14 中国矿业大学(北京) 基于标准数字化的突发事件智能应急辅助决策方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581396A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于多维特征融合与依存句法的事件图谱构建系统及方法
CN111967256A (zh) * 2020-06-30 2020-11-20 北京百度网讯科技有限公司 事件关系的生成方法、装置、电子设备和存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699689B (zh) * 2014-01-09 2017-02-15 百度在线网络技术(北京)有限公司 事件知识库的构建方法及装置
US20180159876A1 (en) * 2016-12-05 2018-06-07 International Business Machines Corporation Consolidating structured and unstructured security and threat intelligence with knowledge graphs
JP7006769B2 (ja) * 2018-03-14 2022-01-24 日本電気株式会社 検索文活用装置および検索文活用方法
CN108595388B (zh) * 2018-04-23 2021-08-17 乐山师范学院 一种面向网络新闻报道的大事记自动生成方法
CN108614897B (zh) * 2018-05-10 2021-04-27 四川长虹电器股份有限公司 一种面向自然语言的内容多样化搜索方法
CN109726293B (zh) * 2018-11-14 2020-12-01 数据地平线(广州)科技有限公司 一种因果事件图谱构建方法、系统、装置及存储介质
CN110737819B (zh) * 2019-10-16 2022-09-16 乐山师范学院 一种基于新闻报道的突发事件线索提取方法
CN110781317B (zh) * 2019-10-29 2022-03-01 北京明略软件系统有限公司 事件图谱的构建方法、装置及电子设备
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581396A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于多维特征融合与依存句法的事件图谱构建系统及方法
CN111967256A (zh) * 2020-06-30 2020-11-20 北京百度网讯科技有限公司 事件关系的生成方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN113312490A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN113312490B (zh) 一种针对突发事件的事件知识图谱构建方法
Cetto et al. Graphene: Semantically-linked propositions in open information extraction
US20230195773A1 (en) Text classification method, apparatus and computer-readable storage medium
CN110046260B (zh) 一种基于知识图谱的暗网话题发现方法和系统
US10796097B2 (en) System and method for event profiling
CN112002411A (zh) 一种基于电子病历的心脑血管病知识图谱问答方法
Ngejane et al. Digital forensics supported by machine learning for the detection of online sexual predatory chats
US12019982B2 (en) Event understanding with deep learning
Pujari et al. Debiasing gender biased hindi words with word-embedding
Efremova et al. Multi-source entity resolution for genealogical data
JP2023008943A (ja) データマイニング方法、装置、電子機器及び記憶媒体
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及系统
Bhullar et al. Time series sentiment analysis (SA) of relief operations using social media (SM) platform for efficient resource management
Oppong et al. Business decision support system based on sentiment analysis
CN117520786B (zh) 基于nlp和循环神经网络的大语言模型构建方法
CN115270746A (zh) 问题样本生成方法和装置、电子设备及存储介质
Elyezjy et al. Investigating crimes using text mining and network analysis
CN114896387A (zh) 军事情报分析可视化方法、装置以及计算机可读存储介质
Macedo et al. Identifying low-quality patterns in accident reports from textual data
Solomon et al. Crime linkage based on textual hebrew police reports utilizing behavioral patterns
Zhang et al. A machine learning-based approach for building code requirement hierarchy extraction
Labafi et al. Detection and Classification of Twitter Users' Opinions on Drought Crises in Iran Using Machine Learning Techniques
CN117670017A (zh) 一种基于事件的风险识别方法、装置以及电子设备
Biswal et al. Automated information extraction from free-text EEG reports
Dunn et al. Language-independent ensemble approaches to metaphor identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant