CN113282703B - 新闻数据的事件关联图谱构建方法及装置 - Google Patents

新闻数据的事件关联图谱构建方法及装置 Download PDF

Info

Publication number
CN113282703B
CN113282703B CN202110354241.6A CN202110354241A CN113282703B CN 113282703 B CN113282703 B CN 113282703B CN 202110354241 A CN202110354241 A CN 202110354241A CN 113282703 B CN113282703 B CN 113282703B
Authority
CN
China
Prior art keywords
event
events
similarity
entity
candidate meta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110354241.6A
Other languages
English (en)
Other versions
CN113282703A (zh
Inventor
张正义
傅晓航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Yuchen Technology Co Ltd
Original Assignee
Zhongke Yuchen Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Yuchen Technology Co Ltd filed Critical Zhongke Yuchen Technology Co Ltd
Priority to CN202110354241.6A priority Critical patent/CN113282703B/zh
Publication of CN113282703A publication Critical patent/CN113282703A/zh
Application granted granted Critical
Publication of CN113282703B publication Critical patent/CN113282703B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种新闻数据的事件关联图谱构建方法包括:从新闻数据中抽取候选元事件及其事件类型和事件要素;根据所述候选元事件的事件类型和事件要素,基于实体知识图谱中的实体链指对所述候选元事件进行事件共指;基于共现关系抽取所述共指事件之间的关联关系;根据所述共指事件及其之间的关联关系进行事件融合从而构建事件关联图谱。在事件共指中融合了实体知识图谱中的实体链指相似度计算和地点相似度计算,从而提高事件共指中相似度计算的精确率。

Description

新闻数据的事件关联图谱构建方法及装置
技术领域
本申请涉及计算机技术领域,具体地涉及一种新闻数据的事件关联图谱构建方法、事件关联图谱构建装置、电子设备及计算机存储介质。
背景技术
事件关联图谱构建技术是一类实现从粗糙的非结构数据到批量生成结构化事件数据的技术,相关的研究和实际应用经过了从零散信息的人工整合到大规模数据的自动萃取集成的发展过程。
从粒度的角度划分,事件关联图谱中的事件可以分为元事件和主题事件。其中,元事件通常是句子级的,表示一个动作的发生或一个状态的变化。主题事件是由元事件融合构成的,表示一类核心事件或活动及与之相关的一组事件,并存储于事件库中。
如图1所示,事件关联图谱的构建过程大致可以划分为以下步骤:元事件抽取、元事件关联和事件融合。其中,元事件抽取是指从异源的新闻数据中抽取出关注的候选元事件,并将其转换为结构化的事件数据;元事件关联旨在发掘抽取出的候选事件之间的关系,降低事件数据的冗余度,提高准确率等;事件融合是从元事件获取主题事件的过程。
元事件关联又包括元事件共指和元事件关系抽取两部分。通过进行元事件关联可以实现从候选元事件层到元事件层的过程。事件共指是事件关联图谱构建过程中的一个重要环节。其目标在于,将抽取的候选事件中,实际描述的是同一事件的所有候选事件指向这一个事件。通过事件共指,一方面可以将去除大量的冗余事件,使具有关联关系的事件库(即事件知识图谱)更加简洁清晰,同时避免在后续的事件关联过程中,出现某一事件与自身关联的错误;另一方面,可以通过整合多个候选事件中的要素,利用一个候选事件中的要素对另一个候选事件进行补充,从而形成更加完整的事件。
事件共指的关键在于计算事件中实体内容之间的相似度。两个候选事件中实体的相似度越高,则这两个候选事件就越有可能是共指事件。目前,事件中实体内容的相似度计算通常仅考虑实体内容在字面上的相似度,即实体描述之间的编辑距离相似度。由于,相似度计算中考虑的因素较为单一,导致了相似度计算结果误差较大,从而出现错误的事件共指结果,继而影响整个事件库的建立。
事件关系抽取是在提取出的候选元事件集中,挖掘几个候选元事件之间存在的关联关系,例如顺承、并列、因果等关系,如图2所示。目前,事件关系抽取的方法主要有两类:基于共享要素的事件关联和基于事件序列的事件关联。其中,在基于共享要素的关联方法中,如果两个元事件中包含了诸多相同的事件要素,则认为这两个元事件是相关联的。这种方法通常选定一个范围的时间窗,选取这个特定时间窗口的所有元数据,以共享实体要素或关系要素为关联纽带,实现元事件之间的关联。在基于事件序列的事件关联中,将具有逻辑关联的事件按照时间序列进行串联,从而可以反映事件的演化过程,通过因果推断的方式判断序列中的事件之间的特定关联关系。
现有的事件关系抽取方法存在诸多弊端。例如,基于事件要素的关系抽取以事件中的实体作为纽带,实现事件之间的关联。这种方式对要素的重合度要求较高。当两个元事件中的要素之间不存在重合时,这两个元事件就会被认为无关,从而造成一定程度上的遗漏。基于事件序列的关系抽取可以有效地抽取出顺承、并列、因果等逻辑关系,但是难以发现新的其他类型的关系。
发明内容
基于此,为了解决现有事件共指过程中,相似度计算考虑的因素较为单一,从而导致的相似度计算结果误差大的问题,本申请提供了一种新闻数据的事件关联图谱构建方法。
根据本申请的第一方面,提供一种新闻数据的事件关联图谱构建方法,包括:
从新闻数据中抽取候选元事件及其事件类型和事件要素;
根据所述候选元事件的事件类型和事件要素,基于实体知识图谱中的实体链指对所述候选元事件进行事件共指;
基于共现关系抽取所述共指事件之间的关联关系;
根据所述共指事件及其之间的关联关系进行事件融合从而构建事件关联图谱。
根据本申请的一些实施例,所述事件共指,包括:对从所述新闻数据中抽取的两个候选元事件,进行事件类型判断;
当所述事件类型相同时,计算所述两个候选元事件所有对应的事件要素的实体内容在文字表达上的第一相似度;
根据现有的实体知识图谱中的实体链指,计算所述两个候选元事件所有对应的事件要素的实体内容在实体知识图谱中实体链指的第二相似度;
根据所述第一相似度和第二相似度以及设定的第一系数,计算所述两个候选元事件的事件相似度;
将所述事件相似度大于设定阈值的两个候选元事件确定为共指事件。
根据本申请的一些实施例,所述根据所述第一相似度和第二相似度以及设定的第一系数,计算所述两个候选元事件的事件相似度r(A、B),包括:
按照以下公式计算所述事件相似度:
r(A、B)=α×r1(A、B)+(1-α)×r2(A、B)
其中,α为第一系数。
根据本申请的一些实施例,所述事件共指,还包括:
根据所述两个候选元事件的地点要素,计算第三相似度;
根据所述事件相似度、所述第三相似度以及设定的第二系数,重新计算所述事件相似度。
根据本申请的一些实施例,所述重新计算所述事件相似度,包括:
按照以下公式重新计算所述事件相似度r(A、B)
r(A、B)=β×(α×r1(A、B)+(1-α)×r2(A、B))+(1-β)×r3(A、B)
其中,r1(A、B)为第一相似度,r2(A、B)为第二相似度,r3(A、B)为第三相似度,α为第一系数,β为第二系数。
根据本申请的一些实施例,所述计算第一相似度,包括:
按照以下公式计算所述两个候选元事件某一对应实体的第一相似度r1(a,b)
Figure GDA0003176132590000041
其中,a、b分别代表候选元事件A和B对应的实体内容enta、entb;str1、str2分别代表实体内容enta、entb的描述字符串,dist(·)代表计算编辑距离,len(·)代表字符串的长度;
按照以下公式对所有事件要素实体的第一相似度进行累加,获得所述第一相似度r1(A、B)
Figure GDA0003176132590000042
Figure GDA0003176132590000043
其中,N(ent∈entsA∧entsB)表示在事件A和事件B中均出现的实体的数量之和;N(ent∈entsA∨entsB)表示在事件A和事件B中分别出现的实体的数量之和。
根据本申请的一些实施例,所述计算第二相似度,包括:
按照以下公式计算所述两个候选元事件某一对应实体的第二相似度r2(a,b)
Figure GDA0003176132590000044
r(a,b)|x=Ma→x·Mb→x
Figure GDA0003176132590000045
其中,Na表示候选元事件A的实体enta在实体知识图谱实体别名列表中的总数量;Ma-x表示候选元事件A的实体enta关于实体知识图谱中实体entx的隶属度;Mb-x表示候选元事件B的实体entb关于实体知识图谱中实体entx的隶属度;
按照以下公式对所有事件要素实体的第二相似度进行累加,获得所述第二相似度r2(A、B)
Figure GDA0003176132590000051
Figure GDA0003176132590000052
其中,N(ent∈entsA∧entsB)表示在事件A和事件B中均出现的实体的数量之和;N(ent∈entsA∨entsB)表示在事件A和事件B中分别出现的实体的数量之和。
根据本申请的一些实施例,所述计算第三相似度,包括:
当所述两个候选元事件的地点要素完全不同时,按照以下公式计算所述第三相似度:r3(A、B)=0;或
当所述两个候选元事件的地点要素完全相同时,按照以下公式计算所述第三相似度:
Figure GDA0003176132590000053
其中
Figure GDA0003176132590000054
为事件A发生地点的层级,rank∈set(1,2,3,4,5),f(·)是所述层级的值的简单函数,层级值越大,函数值越小;或
当所述两个候选元事件的地点要素构成包含关系时,按照以下公式计算所述第三相似度:
Figure GDA0003176132590000055
其中λ为定义的一个常数,且λ∈(0,1),
Figure GDA0003176132590000056
为事件A发生地点的层级,rank∈set(1,2,3,4,5),f(·)是所述层级的值的简单函数。
根据本申请的一些实施例,所述事件要素包括:
时间、地点、参与实体、行为、属性、结果中的一个或多个。
根据本申请的一些实施例,事件关联图谱构建方法,在所述进行事件类型判断之前,所述事件共指还包括:
对所述两个候选元事件中的时间要素进行标准化处理。
根据本申请的一些实施例,所述事件共指还包括:
根据获得的所述共指事件,对初始化的阈值按照以下训练模型进行训练,从而确定所述设定阈值,
Figure GDA0003176132590000061
其中,F1为优化目标,P为精确率,即训练模型所预测的所有共指事件中,预测正确的个数占预测的总个数的比率;R为召回率,即训练模型所预测正确的共指事件的个数,占全部实际共指事件个数的比率。
根据本申请的另一方面,还提供一种新闻数据的事件关联图谱构建装置,包括:
事件抽取模块,可以用于从新闻数据中抽取候选元事件及其事件类型和事件要素;
事件共指模块,可以根据所述候选元事件的事件类型和事件要素,基于实体知识图谱中的实体链指对所述候选元事件进行事件共指;
事件关联模块,可以基于共现关系抽取所述共指事件之间的关联关系;
事件融合模块,可以根据所述共指事件及其之间的关联关系进行事件融合从而构建事件关联图谱。
根据本申请的一些实施例,所述事件共指模块,包括:
类型判断模块,用于对从所述新闻数据中抽取的两个候选元事件,进行事件类型判断;
第一计算模块,用于当所述事件类型相同时,计算所述两个候选元事件所有对应的事件要素的实体内容在文字表达上的第一相似度;
第二计算模块,用于根据现有的实体知识图谱中的实体链指,计算所述两个候选元事件所有对应的事件要素的实体内容在实体知识图谱中实体链指的第二相似度;
第三计算模块,用于根据所述第一相似度和第二相似度以及设定的第一系数,计算所述两个候选元事件的事件相似度;
事件共指模块,用于将所述事件相似度大于设定阈值的两个候选元事件确定为共指事件。
根据本申请的一些实施例,所述事件共指模块还包括:
第四计算模块,用于根据所述两个候选元事件的地点要素,计算第三相似度;并根据所述事件相似度、所述第三相似度以及设定的第二系数,重新计算所述事件相似度。
根据本申请的另一方面,还提供一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述事件关联图谱构建方法。
根据本申请的另一方面,还提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述事件关联图谱构建方法。
本申请提供的新闻数据的事件关联图谱构建方法,从事件发生的时间、事件发生的地理位置、事件类型等多方面进行考虑,在编辑距离相似度计算的基础上融合了现有实体知识图谱中的实体链指相似度计算和地点相似度计算,从而将候选事件进行更加充分的过滤,避免出现错误的事件共指,提高事件关联图谱构建的精确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图,而并不超出本申请要求保护的范围。
图1示出了事件关联图谱构件过程流程框图;
图2示出了事件关联图谱中事件关系体系示意图;
图3示出了根据本申请示例实施例的事件关联图谱构建方法流程图;
图4示出了根据本申请示例实施例的基于共现关系的关系抽取示意图;
图5示出了本申请示例实施例的事件共指过程流程图;
图6示出了本申请示例实施例的候选事件半结构化数据结构示意图;
图7示出了本申请示例实施例的候选元事件实体在实体知识图谱中的实体链指关系示意图;
图8示出了根据本申请示另一例实施例的事件共指过程;
图9示出了根据本申请示例实施例的事件关联图谱构建装置组成框图;
图10示出了根据本申请示例实施例的事件共指模块组成框图;
图11示出根据本申请示例实施例的电子设备组成框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
针对现有的事件关联图谱构建方法中存在的考虑因素单一、容易出现事件共指错误等问题,本申请提供了一种新闻数据的事件关联图谱构建方法及事件关联图谱构建方法。以下将结合附图对本申请的方案进行详细论述。
图3示出了本申请示例实施例的事件关联图谱构建方法流程图。
如图3所示,本申请提供的新闻数据的事件关联图谱构建方法包括以下步骤:
在步骤S110,从新闻数据中抽取候选元事件及其事件类型和事件要素。事件类型可以是财经事件、产品事件、竞赛事件、司法事件、灾害事件等,本申请对此不作限定。事件要素是指构成事件的基本要素,具有相应的语义角色,例如,可以包括时间、地点、参与实体、行为、结果及属性中的一个或多个。
在步骤S120,根据所述候选元事件的事件类型和事件要素,基于实体知识图谱中的实体链指对所述候选元事件进行事件共指。在现有的事件共指过程中,通常采用基于实体内容编辑距离来计算事件的相似度。上述计算方法简便,易于理解,但是容易出现错误。本申请在此基础上,融合了基于实体知识图谱中的实体链指计算出的相似度,从而提高相似度的计算准确性,见后续详细描述。
在步骤S130,基于共现关系抽取所述共指事件之间的关联关系。
为了解决现有事件关系抽取方法存在的对要素重合度要求高、容易造成遗漏、难以发现新的其他关系类型等问题,本申请提供的事件关联图谱构建方法中,基于共现关系来确定元事件的关联关系。所谓共现,是指几个不同的事件在一篇或多篇新闻报道中同时出现。
例如,如图4所示,如果新闻A同时提到事件1、事件2和事件3;新闻B同时提到了事件1、事件2和事件4,而没有提到事件3;那么就可以认为事件1与事件2之间的共现关系要强于事件1与事件3之间的共现关系。
本申请中基于共现关系抽取所事件之间的关联关系,还可以依据不同的媒体和共现次数赋予关系不同的权重。例如,如果图4中的新闻A的来源是官方媒体,而新闻B的来源是自媒体,则基于新闻来源的权威性设置权重,可认为事件1与事件3之间的共现关系强于事件1与事件4之间的共现关系。依据共现关系可以建立关系数量丰富的事件图谱(事件库),而且显然共现关系权重越大的元事件间内在联系越紧密,可以为事件关系分析提供有效手段。
在步骤S140,根据所述共指事件及其之间的关联关系进行事件融合从而构建事件关联图谱。
图5示出了本申请示例实施例的事件共指过程流程图。
如图5所示,本申请提供的事件关联图谱构建方法中,事件共指包括:
在S210,对从所述新闻数据中抽取的两个候选元事件,进行事件类型判断。
事件共指需要的信息是通过事件抽取从新闻数据中抽取的候选元事件。可以将候选元事件进行结构化的数据表示,如图6所示,包括事件类型和事件要素。根据本申请的一些实施例,事件类型可以是财经事件、产品事件、竞赛事件、司法事件、灾害事件等,本申请对此不作限定。
事件要素是指构成事件的基本要素,具有相应的语义角色,例如,可以包括时间、地点、参与实体、行为、结果及属性中的一个或多个。通常可以将事件要素概括为5W1H,即WHO、WHEN、WHERE、WHOM、WHAT、HOW。其中,时间(WHEN)在事件共指中用于判断若干事件是否是在同一时间窗口内发生。参与实体(WHO、WHOM)用于实体相似度计算,实体之间的相似度越大,实体对应的候选事件就越有可能是共指事件。地点(WHERE)也可以作为判断几个候选事件是否为共指事件的一个标准,发生地点相近的事件,更有可能是共指事件。其他要素可以作为补充,来判断进行事件共指判断。
事件共指首先要根据事件发生的时间对所有事件进行初步的筛选,只有发生时间重合的事件才有可能共指为同一个事件。因此,根据本申请的一些实施例,在对两个候选元事件进行事件类型判断之前,还需要对所述两个候选元事件的时间进行标准化处理。根据标准化之后的时间去判断,候选元事件的时间之间是否存在重合。
时间标准化的过程就是将候选元事件的时间要素转换为标准格式的时间点或时间段。例如,按照不同的粒度,标准化之后的时间可以是2019年12月,也可以是2019年12月31日。经过时间标准化这一步骤,可以将候选元事件中出现的“昨日”、“今年六月”、“大年初一”等各类不同的时间描述类型转化为标准格式的时间。
在时间标准化的过程中,主要针对两类情况基于规则模板进行处理。第一类情况是基于一个基准时间,将相对时间转化为标准时间。例如,基准时间为“2020年5月1日”时,则新闻数据中提及的“昨天”经过标准化处理后转换为“2020年4月30日”;新闻数据中提及的“今年三月”,对应标准化时间为“2020年3月”,以此类推。第二类情况是,将非标准的绝对的时间转化为标准的绝对时间。这种情况下通常也会借助基准时间进行推断。例如,基准时间为“2020年5月1日”时,则新闻数据中提及的“去年清明假期期间”对应的标准化时间为“2019年4月5日至2019年4月7日”。第二类情况主要对应于农历时间与标准时间的转化,以及特殊节日的对应日期转化。此外,需要说明的是,所述的基准时间可以是数据源(新闻、报道等)的发布时间。
经过标准化之后的时间如果存在重合,则继续判断两个候选元事件的事件类型是否相同。如果两个候选元事件的类型不同,则认为其不可能共同指向同一件事件。
在S220,当所述事件类型相同时,计算所述两个候选元事件所有对应的事件要素的实体内容在文字表达上的第一相似度。
如果两个候选元事件的类型相同,则认为其可能共同指向同一件事件,接下来需要通过计算两个候选元事件之间的相似度,来最终确定事件共指关系。根据本申请的示例实施例,在计算两个候选元事件A、B之间的相似度时,首先计算两个候选元事件A、B的实体内容在文字表达(文字描述)上的第一相似度r1(A、B),即编辑距离相似度。
编辑距离,又称Levenshtein距离,是一种文本相似度计算方式。编辑距离不考虑语义信息,仅从字面上考虑两个字符串的相似性,即一个字符串转换成另一个字符串所需的最少的编辑操作次数。编辑操作包括替换一个字符、插入一个字符、删除一个字符等。
两个候选元事件A、B的对应实体enta、entb之间的第一相似度r1(a,b)可以按照以下公式计算:
Figure GDA0003176132590000111
其中,a、b分别代表候选元事件A和B对应的实体内容enta、entb;str1、str2分别代表实体内容enta、entb的描述字符串,dist(·)代表计算编辑距离,len(·)代表字符串的长度。例如,enta“河南省省会郑州”与entb“省会郑州”之间的编辑距离为2,对应的第一相似度为1-(2/7),约为0.71。
候选元事件中可能会包含多个实体,因此需要计算出每组对应实体之间的第一相似度,再对候选元事件中所有的对应实体的相似度进行合并,从而得到事件A与事件B之间基于实体内容的编辑距离计算出的第一相似度r1(A,B)
Figure GDA0003176132590000112
Figure GDA0003176132590000113
其中,N(ent∈entsA∧entsB)表示在事件A和事件B中均出现的实体的数量之和(交集);N(ent∈entsA∨entsB)表示在事件A和事件B中分别出现的实体的数量之和(并集)。
在计算N(ent∈entsA∧entsB)时,对
Figure GDA0003176132590000121
如果
Figure GDA0003176132590000122
使得二者的相似度r1(a,b)大于给定阈值δ,则认为实体a在事件A和事件B中都出现。
在S230,根据现有的实体知识图谱中的实体链指,计算所述两个候选元事件所有对应的事件要素的实体内容在实体知识图谱中实体链指的第二相似度。
上述基于实体内容编辑距离计算出的第一相似度,计算方法简便,易于理解,但是容易出现错误。例如,enta“河南省省会”与entb“河北省省会”之间的编辑距离为1,对应相似度为1-(1/4),即0.75。按此定义,二者的相近程度要高于“河南省省会郑州”与“省会郑州”的相近程度。显然,只考虑字面上的编辑距离,不足以衡量实体之间的相似度。因此,为了提高事件相似度计算的准确性,本申请在计算第一相似度的基础上利用现有的实体知识图谱中已有的别名链指,计算出第二相似度,对第一相似度进行补充。
根据本申请的示例实施例,在计算第二相似度r2(A,B)的过程中,首先可以按照以下公式计算所述两个候选元事件A、B某一对应事件要素的第二相似度r2(a,b)
Figure GDA0003176132590000123
r(a,b)|x=Ma→x·Mb→x,
Figure GDA0003176132590000124
其中,r(a,b)|x为实体enta、entb关于实体知识图谱中实体entx的相似度;ents(G)表示实体知识图谱G中的所有实体;
Figure GDA0003176132590000125
是遍历实体知识图谱所有实体而获得的最终相似度;Ma→x为候选元事件A的实体enta关于现有的实体知识图谱中的实体entx的隶属度;Mb→x为候选元事件B的实体entb关于现有的实体知识图谱中的实体entx的隶属度;Na表示实体enta在实体知识图谱的实体别名列表中的总数量。例如,图7中所示的实体enta、entb的第二相似度计算结果为
Figure GDA0003176132590000131
同样地,候选元事件中可能会包含多个实体,按照以下公式对所有事件要素实体的第二相似度r2(A、B)
Figure GDA0003176132590000132
Figure GDA0003176132590000133
其中,N(ent∈entsA∧entsB)表示在事件A和事件B中均出现的实体的数量之和;N(ent∈entsA∨entsB)表示在事件A和事件B中分别出现的实体的数量之和。
在S240,根据所述第一相似度和第二相似度以及设定的第一系数,计算所述两个候选元事件的事件相似度。
计算出候选元事件A、B之间的第一相似度和第二相似度滞后,可以根据设定的第一系数α按照以下公式对两部分进行合并,计算候选元事件A、B之间的事件相似度r(A、B)
r(A、B)=α×r1(A、B)+(1-α)×r2(A、B)
其中,α是一个可以根据实际情况进行调整的杠杆值,用于调整两部分的比率。
在S250,将所述事件相似度大于设定阈值的两个候选元事件确定为共指事件。计算出两个候选元事件的事件相似度r(A、B)之后,可以根据设定的阈值来确定两个候选元事件是否共指同一事件。
根据本申请的一些实施例,在确定阈值的过程中还可以根据获得的所述共指事件,对初始化的阈值θ按照以下训练模型进行训练,从而确定所述设定阈值,
Figure GDA0003176132590000134
其中,F1为优化目标,P为精确率,即训练模型所预测的所有共指事件中,预测正确的个数占预测的总个数的比率;R为召回率,即训练模型所预测正确的共指事件的个数,占全部实际共指事件个数的比率。
图8示出了根据本申请示另一例实施例的事件共指过程流程图。
根据本申请的另一实施例,上述事件共指过程中,在步骤S250之前还可以包括:
在步骤S260,根据所述两个候选元事件的地点要素,计算第三相似度。
除了时间和事件类型保持一致,事件中的实体尽可能重合之外,事件发生的地点也是判断两个候选事件是否为共指事件的一个重要因素。因此,为了进一步提高相似度计算的准确性,本申请的另一实施例中,根据两个候选元事件的地点,计算出第三相似度r3(A、B)
与时间类似的,地点也需要进行标准化。例如“叙利亚首都”与“大马士革”是同一个地点。可以通过建立词典实现标准地名与其别名之间的映射,将抽取出的所有地点转化为标准名。例如,经过标准化之后,可以按照国家、区域、省份、城市、县市区的层级对地点进行层级划分,通过地点按层级的重合度,来计算地点的相似度。
候选元事件的发生地点的关系可以概括为三类:一是完全不同,例如“香港”与“洛杉矶”;二是完全相同,即地点标准化之后的结果完全吻合,例如“石家庄市”与“河北石家庄”;三是包含关系,例如“我国东部沿海地区”与“浙江省”。针对不同的地点关系,可以按照不同的方法计算第三相似度。
当所述两个候选元事件的地点要素完全不同时,按照以下公式计算所述第三相似度:
r3(A、B)=0,
即发生在两个不同地点的事件不可能构成共指事件。
当所述两个候选元事件的地点要素完全相同时,可以按照以下公式计算所述第三相似度:
Figure GDA0003176132590000141
其中
Figure GDA0003176132590000142
为事件A发生地点的层级;rank∈set(1,2,3,4,5);f(·)是所述层级的值的简单函数,层级值越大,函数值越小。
例如,可以令f(rank)=0.1×(5-rank),此时国家、区域、省份、城市、县市区对应的相似度分别定义0.6、0.7、0.8、0.9、1.0。更加具体的讲,如果两个事件都发生在“中国”,则其地点相似度为0.6。如果都发生在“中国浙江省杭州市”,则其地点相似度为0.9。具体的相似度数值可以依据粒度越精确、地点相似度越高的原则,根据实际情况进行修改。
当所述两个候选元事件的地点要素构成包含关系时,按照以下公式计算所述第三相似度:
Figure GDA0003176132590000151
其中λ为定义的一个常数,且λ∈(0,1),
Figure GDA0003176132590000152
为事件A发生地点的层级,rank∈set(1,2,3,4,5),f(·)是所述层级的值的简单函数,层级值越大,函数值越小。例如,当λ为0.6,f(rank)=0.1×(5-rank)时,“杭州”与“浙江”的相似度计算为r3=(1-0.2)×0.61=0.48,“杭州”与“中国”的相似度计算为r3=(1-0.4)×0.63=0.1296。
在步骤S270,根据所述事件相似度、所述第三相似度以及设定的第二系数,重新计算所述事件相似度。所述重新计算所述事件相似度包括:按照以下公式重新计算所述事件相似度r(A、B)
r(A、B)=β×(α×r1(A、B)+(1-α)×r2(A、B))+(1-β)×r3(A、B)
其中,r1(A、B)为基于实体内容描述的第一相似度,r2(A、B)为基于实体在实体知识图谱中实例链指的第二相似度,r3(A、B)为基于地点的第三相似度,α为第一系数,β为第二系数。α和β均是可以根据实际情况进行调整的杠杆值。
图9示出了根据本申请示例实施例的事件关联图谱构建装置组成框图。
本申请还提供了一种新闻数据的事件关联图谱构建装置100,包括:事件抽取模块110、事件共指模块120、事件关联模块130、事件融合模块140。
事件抽取模块110用于从新闻数据中抽取候选元事件及其事件类型和事件要素;事件共指模块120用于根据所述候选元事件的事件类型和事件要素,基于实体知识图谱中的实体链指对所述候选元事件进行事件共指;事件关联模块130用于基于共现关系抽取所述共指事件之间的关联关系;事件融合模块140用于根据所述共指事件及其之间的关联关系进行事件融合从而构建事件关联图谱。
图10示出了根据本申请示例实施例的事件共指模块组成框图。
本申请还提供一种新闻数据的事件共指模块200,包括:类型判断模块210、第一计算模块220、第二计算模块230、第三计算模块240、事件共指模块250。
类型判断模块210,可以用于对从所述新闻数据中抽取的两个候选元事件,进行事件类型判断。
第一计算模块220,可以用于当所述事件类型相同时,计算所述两个候选元事件所有对应的事件要素的实体内容在文字表达上的第一相似度。
第二计算模块230,可以用于根据现有的实体知识图谱中的实体链指,计算所述两个候选元事件所有对应的事件要素的实体内容在实体知识图谱中实体链指的第二相似度。
第三计算模块240,可以用于根据所述第一相似度和第二相似度以及设定的第一系数,计算所述两个候选元事件的事件相似度。
事件共指模块250,可以用于将所述事件相似度大于设定阈值的两个候选元事件确定为共指事件。
根据本申请的另一些实施例,事件共指模块200还可以包括第四计算模块。第四计算模块可以用于根据所述两个候选元事件的地点要素,计算第三相似度;并根据所述事件相似度、所述第三相似度以及设定的第二系数,重新计算所述事件相似度。
图11示出根据本申请示例实施例的电子设备组成框图。
本申请还提供一种电子设备700。图11显示的电子设备700仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图11所示,电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于:至少一个处理单元710、至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730等。
存储单元720存储有程序代码,程序代码可以被处理单元710执行,使得处理单元710执行本说明书描述的根据本申请各实施例的事件关联图谱构建方法。
存储单元720可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202,还可以进一步包括只读存储单元(ROM)7203。
存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204,这样的程序模块7205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线730可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备700也可以与一个或多个外部设备7001(例如触摸屏、键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备700交互的设备通信,和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且,电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器760可以通过总线730与电子设备700的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
本申请还提供一种计算机可读介质,其上存储有计算机程序,所述程被处理器执行时实现上述事件关联图谱构建方法。
本申请提供的新闻数据的事件关联图谱构建方法,从事件发生的时间、事件发生的地理位置、事件类型等多方面进行考虑,在编辑距离相似度计算的基础上融合了现有的实体知识图谱中实体链指相似度计算和地点相似度计算,从而将候选事件进行更加充分的过滤,避免出现错误的事件共指,提高事件共指关系的精确率。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明仅用于帮助理解本申请的方法及其核心思想。同时,本领域技术人员依据本申请的思想,基于本申请的具体实施方式及应用范围上做出的改变或变形之处,都属于本申请保护的范围。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (14)

1.一种新闻数据的事件关联图谱构建方法,其特征在于,包括:
从新闻数据中抽取候选元事件及其事件类型和事件要素;
根据所述候选元事件的事件类型和事件要素,基于实体知识图谱中的实体链指对所述候选元事件进行事件共指获得共指事件;
基于共现关系抽取所述共指事件之间的关联关系;
根据所述共指事件及其之间的关联关系进行事件融合从而构建事件关联图谱;
其中,所述事件共指,包括:
对从所述新闻数据中抽取的两个候选元事件,进行事件类型判断;
当所述事件类型相同时,计算所述两个候选元事件所有对应的事件要素的实体内容在文字表达上的第一相似度;
根据现有的实体知识图谱中的实体链指,基于所述两个候选元事件所有对应的事件要素的实体内容在实体知识图谱中实体别名列表中的数量和隶属度,计算第二相似度;
根据所述第一相似度和第二相似度以及设定的第一系数,计算所述两个候选元事件的事件相似度;
将所述事件相似度大于设定阈值的两个候选元事件确定为共指事件。
2.根据权利要求1所述的事件关联图谱构建方法,其特征在于,所述根据所述第一相似度和第二相似度以及设定的第一系数,计算所述两个候选元事件的事件相似度r(A、B),包括:
按照以下公式计算所述事件相似度:
r(A、B)=α×r1(A、B)+(1-α)×r2(A、B)
其中,α为第一系数。
3.根据权利要求1所述的事件关联图谱构建方法,其特征在于,所述事件共指,还包括:
根据所述两个候选元事件的地点要素,计算第三相似度;
根据所述事件相似度、所述第三相似度以及设定的第二系数,重新计算所述事件相似度。
4.根据权利要求3所述的事件关联图谱构建方法,其特征在于,所述重新计算所述事件相似度,包括:
按照以下公式重新计算所述事件相似度r(A、B)
r(A、B)=β×(α×r1(A、B)+(1-α)×r2(A、B))+(1-β)×r3(A、B)
其中,r1(A、B)为第一相似度,r2(A、B)为第二相似度,r3(A、B)为第三相似度,α为第一系数,β为第二系数。
5.根据权利要求1所述的事件关联图谱构建方法,其特征在于,所述计算第一相似度,包括:
按照以下公式计算所述两个候选元事件某一对应实体的第一相似度r1(a,b)
Figure FDA0003497223060000021
其中,a、b分别代表候选元事件A和B对应的实体内容enta、entb;str1、str2分别代表实体内容enta、entb的描述字符串,dist(·)代表计算编辑距离,len(·)代表字符串的长度;
按照以下公式对所有事件要素实体的第一相似度进行累加,获得所述第一相似度r1(A、B)
Figure FDA0003497223060000022
Figure FDA0003497223060000023
其中,N(ent∈entsA∧entsB)表示在事件A和事件B中均出现的实体的数量之和;N(ent∈entsA∨entsB)表示在事件A和事件B中分别出现的实体的数量之和。
6.根据权利要求1所述的事件关联图谱构建方法,其特征在于,所述计算第二相似度,包括:
按照以下公式计算所述两个候选元事件某一对应实体的第二相似度r2(a,b)
Figure FDA0003497223060000031
r(a,b)|x=Ma→x·Mb→x
Figure FDA0003497223060000032
其中,ents(G)表示实体知识图谱中的所有实体;Na表示候选元事件A的实体enta在实体知识图谱的实体别名列表中的总数量;Ma-x表示候选元事件A的实体enta关于实体知识图谱中实体entx的隶属度;Mb-x表示候选元事件B的实体entb关于实体知识图谱中实体entx的隶属度;
按照以下公式对所有事件要素实体的第二相似度进行累加,获得所述第二相似度r2(A、B)
Figure FDA0003497223060000033
Figure FDA0003497223060000034
其中,N(ent∈entsA∧entsB)表示在事件A和事件B中均出现的实体的数量之和;N(ent∈entsA∨entsB)表示在事件A和事件B中分别出现的实体的数量之和。
7.根据权利要求3所述的事件关联图谱构建方法,其特征在于,所述计算第三相似度,包括:
当所述两个候选元事件的地点要素完全不同时,按照以下公式计算所述第三相似度:r3(A、B)=0;或
当所述两个候选元事件的地点要素完全相同时,按照以下公式计算所述第三相似度:
Figure FDA0003497223060000041
其中
Figure FDA0003497223060000042
为事件A发生地点的层级,rank∈set(1,2,3,4,5),f(·)是所述层级的值的简单函数,层级值越大,函数值越小;或
当所述两个候选元事件的地点要素构成包含关系时,按照以下公式计算所述第三相似度:
Figure FDA0003497223060000043
其中λ为定义的一个常数,且λ∈(0,1),
Figure FDA0003497223060000044
为事件A发生地点的层级,rank∈set(1,2,3,4,5),f(·)是所述层级的值的简单函数。
8.根据权利要求1所述的事件关联图谱构建方法,其特征在于,所述事件要素包括:
时间、地点、参与实体、行为、属性、结果中的一个或多个。
9.根据权利要求8所述的事件关联图谱构建方法,其特征在于,在所述进行事件类型判断之前,所述事件共指还包括:
对所述两个候选元事件中的时间要素进行标准化处理。
10.根据权利要求1所述的事件关联图谱构建方法,其特征在于,所述事件共指,还包括:
根据获得的所述共指事件,对初始化的阈值按照以下训练模型进行训练,从而确定所述设定阈值,
Figure FDA0003497223060000045
其中,F1为优化目标,P为精确率,即训练模型所预测的所有共指事件中,预测正确的个数占预测的总个数的比率;R为召回率,即训练模型所预测正确的共指事件的个数,占全部实际共指事件个数的比率。
11.一种新闻数据的事件关联图谱构建装置,其特征在于,包括:
事件抽取模块,用于从新闻数据中抽取候选元事件及其事件类型和事件要素;
事件共指模块,用于根据所述候选元事件的事件类型和事件要素,基于实体知识图谱中的实体链指对所述候选元事件进行事件共指获得共指事件;
事件关联模块,用于基于共现关系抽取所述共指事件之间的关联关系;
事件融合模块,用于根据所述共指事件及其之间的关联关系进行事件融合从而构建事件关联图谱;
其中,所述事件共指模块包括:
类型判断模块,用于对从所述新闻数据中抽取的两个候选元事件,进行事件类型判断;
第一计算模块,用于当所述事件类型相同时,计算所述两个候选元事件所有对应的事件要素的实体内容在文字表达上的第一相似度;
第二计算模块,用于根据现有的实体知识图谱中的实体链指,基于所述两个候选元事件所有对应的事件要素的实体内容在实体知识图谱中实体别名列表中的数量和隶属度,计算第二相似度;
第三计算模块,用于根据所述第一相似度和第二相似度以及设定的第一系数,计算所述两个候选元事件的事件相似度;
事件共指模块,用于将所述事件相似度大于设定阈值的两个候选元事件确定为共指事件。
12.根据权利要求11所述的事件关联图谱构建装置,其特征在于,所述事件共指模块还包括:
第四计算模块,用于根据所述两个候选元事件的地点要素,计算第三相似度;并根据所述事件相似度、所述第三相似度以及设定的第二系数,重新计算所述事件相似度。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现权利要求1-10中任一所述的事件关联图谱构建方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1-10中任一所述的事件关联图谱构建方法。
CN202110354241.6A 2021-04-01 2021-04-01 新闻数据的事件关联图谱构建方法及装置 Active CN113282703B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110354241.6A CN113282703B (zh) 2021-04-01 2021-04-01 新闻数据的事件关联图谱构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110354241.6A CN113282703B (zh) 2021-04-01 2021-04-01 新闻数据的事件关联图谱构建方法及装置

Publications (2)

Publication Number Publication Date
CN113282703A CN113282703A (zh) 2021-08-20
CN113282703B true CN113282703B (zh) 2022-05-06

Family

ID=77276125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110354241.6A Active CN113282703B (zh) 2021-04-01 2021-04-01 新闻数据的事件关联图谱构建方法及装置

Country Status (1)

Country Link
CN (1) CN113282703B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113868508B (zh) * 2021-09-23 2022-09-27 北京百度网讯科技有限公司 写作素材查询方法、装置、电子设备和存储介质
CN114281940B (zh) * 2021-12-07 2023-04-18 江苏联著实业股份有限公司 一种基于语义工程和案例学习的计算机认知方法及系统
CN114579675B (zh) * 2022-05-05 2022-07-15 中科雨辰科技有限公司 一种确定共指事件的数据处理系统
CN117931997A (zh) * 2024-01-25 2024-04-26 中科世通亨奇(北京)科技有限公司 新闻事件的梳理方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462126A (zh) * 2013-09-22 2015-03-25 富士通株式会社 一种实体链接方法及装置
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN110968700A (zh) * 2019-11-01 2020-04-07 数地科技(北京)有限公司 一种融合多类事理与实体知识的领域事件图谱构建方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8185370B2 (en) * 2008-05-19 2012-05-22 Wright State University Discrete event simulation tool combining process-driven and event-driven models

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462126A (zh) * 2013-09-22 2015-03-25 富士通株式会社 一种实体链接方法及装置
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN110968700A (zh) * 2019-11-01 2020-04-07 数地科技(北京)有限公司 一种融合多类事理与实体知识的领域事件图谱构建方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
事件库构建技术综述;薛聪等;《信息安全学报》;20190331;第4卷(第2期);全文 *

Also Published As

Publication number Publication date
CN113282703A (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
CN113282703B (zh) 新闻数据的事件关联图谱构建方法及装置
Gritta et al. What’s missing in geographical parsing?
Matci et al. Address standardization using the natural language process for improving geocoding results
JP2009500754A (ja) 文書中のコロケーション誤りを処理すること
CN111259160B (zh) 知识图谱构建方法、装置、设备及存储介质
CN113806563A (zh) 面向多源异构建筑人文史料的建筑师知识图谱构建方法
WO2023125589A1 (zh) 突发事件的监测方法及装置
CN110348020A (zh) 一种英文单词拼写纠错方法、装置、设备及可读存储介质
CN113239111B (zh) 一种基于知识图谱的网络舆情可视化分析方法及系统
RU2665261C1 (ru) Восстановление текстовых аннотаций, связанных с информационными объектами
Chen et al. Georeferencing places from collective human descriptions using place graphs
JP2023519049A (ja) Poi状態情報を取得する方法、及び装置
CN110795573B (zh) 一种网页内容的地理位置预测方法及装置
CN117577254A (zh) 医疗领域语言模型构建及电子病历文本结构化方法、系统
Wei et al. GP-GCN: Global features of orthogonal projection and local dependency fused graph convolutional networks for aspect-level sentiment classification
KR20210125449A (ko) 업계 텍스트를 증분하는 방법, 관련 장치 및 매체에 저장된 컴퓨터 프로그램
Talha et al. Towards a powerful solution for data accuracy assessment in the big data context
CN116340534A (zh) 一种识别新能源异常数据的知识图谱构建方法和系统
CN109800361A (zh) 一种兴趣点名称的挖掘方法、装置、电子设备及存储介质
CN108304367A (zh) 分词方法及装置
Suwaileh et al. IDRISI-D: Arabic and English Datasets and Benchmarks for Location Mention Disambiguation over Disaster Microblogs
CN115526177A (zh) 对象关联模型的训练
Jiang et al. A Discourse Coherence Analysis Method Combining Sentence Embedding and Dimension Grid
CN112417812A (zh) 地址标准化方法、系统及电子设备
Yongmei et al. Research on Domain-independent Opinion Target Extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant