CN113158672A - 基于新闻事件的关系分析方法及装置 - Google Patents

基于新闻事件的关系分析方法及装置 Download PDF

Info

Publication number
CN113158672A
CN113158672A CN202110326769.2A CN202110326769A CN113158672A CN 113158672 A CN113158672 A CN 113158672A CN 202110326769 A CN202110326769 A CN 202110326769A CN 113158672 A CN113158672 A CN 113158672A
Authority
CN
China
Prior art keywords
entity
event
news
relation
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110326769.2A
Other languages
English (en)
Inventor
侯磊
刘丁枭
吴茜凤
李涓子
张鹏
唐杰
许斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110326769.2A priority Critical patent/CN113158672A/zh
Publication of CN113158672A publication Critical patent/CN113158672A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于新闻事件的关系分析方法及装置,其中方法包括:获取多篇新闻文本;对多篇新闻文本进行聚类,得到聚类后的多个新闻事件;对多个新闻事件进行实体链接、实体抽取、实体关系抽取、事件关系抽取、实体与事件关系抽取,根据实体链接结果、实体抽取结果、实体关系抽取结果、事件关系抽取结果、实体与事件关系抽取结果进行关联分析得到分析结果。本发明通过原始新闻文本聚类实现新闻事件级别分析,得到多个事件,再通过对事件文本抽取实体、实体关系、事件关系、事件与实体的关系。进而通过实体链接,将实体背景知识进行补充,实现对事件的深层次挖掘,从而使读者能够获得更全面和深入的信息。

Description

基于新闻事件的关系分析方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于新闻事件的关系 分析方法及装置。
背景技术
随着互联网普及率的上升和信息公开化程度的提高,网络已经成 为新闻事件报道和传播的重要平台。互联网上新闻网页的数量急剧增 长,新闻量和冗余信息的增加,给阅读和信息分析带来了新的挑战。 而由于互联网的开放性特征,发布在网站上的新闻信息可能会繁杂无 序,描述同一新闻事件的新闻信息可能会分散在不同的网站上,不利 于用户的深入了解。当用户要想了解与这个新闻事件的来龙去脉时, 需要一次一次的输入去做查找,非常耗时。
而现有的技术为了对新闻事件进行分析主要是对新闻正文进行 简单分类或者基于新闻内容提取相应的关键词,并不能全面体现一则 新闻的所包含的信息。或者仅仅对新闻事件进行聚类,将相同事件进 行集中展现,是读者获取更多相应信息,但是这种方式并不能对不同 种类的新闻进行聚合,不能对信息进行跨类别的融合,不能体现出新 闻中不包含的背景知识,不能使读者获取更为深入或者全面的信息, 从而加深对新闻的理解。
发明内容
本发明提供一种基于新闻事件的关系分析方法及装置,用以解决 现有技术中读者不能获取深入而全面的背景信息的缺陷,实现信息的 跨类融合,补充新闻信息中的背景知识信息,使读者更为深入而全面 的理解新闻。
第一方面,本发明提供一种基于新闻事件的关系分析方法,包括:
获取多篇新闻文本;
对所述多篇新闻文本进行聚类,得到聚类后的多个新闻事件;
对所述多个新闻事件进行实体链接、实体抽取、实体关系抽取、 事件关系抽取以及实体与事件关系抽取,得到实体链接结果、实体抽 取结果、实体关系抽取结果、事件关系抽取结果,以及实体与事件关 系抽取结果;
根据所述实体链接结果、所述实体抽取结果、所述实体关系抽取 结果、所述事件关系抽取结果,以及所述实体与事件关系抽取结果进 行关联分析得到分析结果。
进一步地,根据本发明提供的一种基于新闻事件的关系分析方法, 其中,对所述多篇新闻文本进行聚类,得到聚类后的多个新闻事件, 包括:
对所述多篇新闻文本进行K均值聚类、基于密度的聚类、均值 漂移聚类或层次聚类,得到多个新闻事件。
进一步地,根据本发明提供的一种基于新闻事件的关系分析方法, 其中,对所述多个新闻事件进行实体关系抽取,包括下述中的一种或 多种:
对所述多个新闻事件进行语料级的实体关系抽取;
对所述多个新闻事件进行句子级的实体关系抽取;
对所述多个新闻事件从实体链接得到的实体链接结果进行实体 关系扩展。
进一步地,根据本发明提供的一种基于新闻事件的关系分析方法, 其中,在对所述多个新闻事件进行实体关系抽取时,采用开放域关系 抽取;其中,所述开放域关系抽取是指基于实体对和上下文中的连接 词描述实体之间的关系。
进一步地,根据本发明提供的一种基于新闻事件的关系分析方法, 其中,对所述多个新闻事件进行事件关系抽取,包括下述中的一种或 多种:
对所述多个新闻事件进行因果事件关系抽取;
对所述多个新闻事件进行子事件关系抽取;
对所述多个新闻事件进行时序事件关系抽取。
进一步地,根据本发明提供的一种基于新闻事件的关系分析方法, 其中,对所述多个新闻事件进行实体与事件关系抽取,包括:
确定实体与事件的关联关系;
根据所述实体与事件的关联关系,对所述多个新闻事件进行实体 与事件关系抽取。
进一步地,对所述多个新闻事件进行实体链接,得到实体链接结 果,包括:
建立词和实体的联合表示模型;
基于所述词和实体的联合表示模型,采用概率实体模型,建立多 个新闻事件中字符串与所述知识库中的实体的链接关系,得到实体链 接结果。
第二方面,本发明提供一种基于新闻事件的关系分析装置,包括:
第一获取模块,用于获取多篇新闻文本;
第二获取模块,用于对所述多篇新闻文本进行聚类,得到聚类后 的多个新闻事件;
关系处理模块,用于对所述多个新闻事件进行实体链接、实体抽 取、实体关系抽取、事件关系抽取以及实体与事件关系抽取,得到实 体链接结果、实体抽取结果、实体关系抽取结果、事件关系抽取结果, 以及实体与事件关系抽取结果;
关系分析模块,用于根据所述实体链接结果、所述实体抽取结果、 所述实体关系抽取结果、所述事件关系抽取结果,以及所述实体与事 件关系抽取结果进行关联分析得到分析结果。
第三方面,本发明提供一种电子设备,包括存储器、处理器及存 储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理 器执行所述程序时实现上述任一项基于新闻事件的关系分析方法的 步骤。
第四方面,本发明提供一种非暂态计算机可读存储介质,其上存 储有计算机程序,所述计算机程序被处理器执行时实现上述任一项基 于新闻事件的关系分析方法的步骤。
本发明提供的一种基于新闻事件的关系分析方法,通过原始新闻 文本聚类实现新闻事件级别分析,得到多个新闻事件,对所述多个新 闻事件进行实体链接、实体抽取、实体关系抽取、事件关系抽取以及 实体与事件关系抽取,得到实体链接结果、实体抽取结果、实体关系 抽取结果、事件关系抽取结果,以及实体与事件关系抽取结果;根据 所述实体链接结果、所述实体抽取结果、所述实体关系抽取结果、所 述事件关系抽取结果,以及所述实体与事件关系抽取结果进行关联分 析得到分析结果,由此可见,本发明通过对新闻事件进行实体链接、 实体抽取、实体关系抽取、事件关系抽取以及实体与事件关系抽取, 进而使得可以得到实体链接结果、实体抽取结果、实体关系抽取结果、 事件关系抽取结果,以及实体与事件关系抽取结果,然后基于得到的 所述实体链接结果中的背景知识对实体抽取结果、实体关系抽取结果、 事件关系抽取结果,以及实体与事件关系抽取结果进行完善,进而最 终得到新闻事件更为完备的关系分析结果。由此可见,本发明实现了 对事件的深层次挖掘,从而使读者能够获得更全面和深入的信息。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见 地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术 人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得 其他的附图。
图1是本发明提供的基于新闻事件的关系分析方法的流程示意 图之一;
图2是本发明提供的基于新闻事件的关系分析方法的流程示意 图之二;
图3是本发明第一实施例中所参考的关系连接图;
图4是本发明提供的基于新闻事件的关系分析装置的结构示意 图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发 明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然, 所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提 下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图2描述本发明提供一种基于新闻事件的关系分 析方法,包括:
步骤100:获取多篇新闻文本。
步骤200:对多篇新闻文本进行聚类,得到多个聚类后的新闻事 件。
步骤300:对所述多个新闻事件进行实体链接、实体抽取、实体 关系抽取、事件关系抽取以及实体与事件关系抽取,得到实体链接结 果、实体抽取结果、实体关系抽取结果、事件关系抽取结果,以及实 体与事件关系抽取结果。
步骤400:根据所述实体链接结果、所述实体抽取结果、所述实 体关系抽取结果、所述事件关系抽取结果,以及所述实体与事件关系 抽取结果进行关联分析得到分析结果。
具体地,步骤100中通过数据挖掘技术获取各个新闻网站的新闻 页面信息,此处的新闻网站可以是专门提供新闻信息的网站,可以包 括国家大型新闻门户(如新华网、人民网等)、商业门户(新浪新闻、网 易新闻等)、地方新闻门户(长江网等)、以及行业门户网站;还可以包 括一些社交平台(新浪微博等)。这些新闻站点的新闻信息包罗万象, 用户访问量很大,通过挖掘这些新闻站点的新闻页面,可以获取较为 全面的新闻数据。
进而,依据步骤200,对获取的新闻信息进行聚类,所述聚类是 指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程 被称为聚类。可以是指根据新闻页面标题之间的关联性或者搜索词之 间的关联性进行聚类。而对新闻文本进行聚类是指根据文本内容中的 关键词或者其他信息将新闻文本进行聚类,通过聚类为一类的新闻文 本被称为新闻事件。举例来说,检索“詹姆斯“从2020年8月1日 到2020年10月31日相关新闻,共得到216篇新闻,并将之聚类为57个事件,例如其中一个事件为2020年9月28日新闻“湖人时隔10年重返总决赛,詹姆斯接棒续写紫金传奇”,另一个事件为2020 年9月28日新闻“湖人热火书写总决赛新篇”,在一个事件为2020 年10月12日新闻“湖人总冠军!湖人时隔十年夺队史第17冠,詹 皇获得总决赛FMVP”。
步骤300中,在获取新闻文本的聚类事件之后,对得到的聚类后 的多个新闻事件进行抽取。其中抽取的对象是新闻事件中的实体。其 中实体是表示现实世界中的具体事物,或者是抽象的概念。如人、机 构、地点,或者“机器学习”、“人工智能”等。区别于大多数研究中 的“命名实体”,本文中指的实体包括命名实体(主要指人物、组织机 构、地点)、普通实体(如电影、书籍、歌曲、文化习俗、食物、材 料等)和抽象概念(产生于人类抽象思维的无实物形态的概念)。在 知识库中,一个实体可能对应多个概念,如,迈克尔·乔丹在维基百 科中既属于类别"篮球运动员",又属于类别“总统自由勋章获得者”。 其中的实体识别是指识别文本中具有特定意义的实体,主要包括人名、 地名、机构名、专有名词等。举例来说,以上文获取的聚类的三个事 件为例,进行实体抽取,可以得到的实体包括:“洛杉矶湖人队”、“戴 维斯”、“詹姆斯”、“迈阿密热火”、“总冠军”、“利物浦“等。
另外,对事件文本进行抽取,抽取的内容包括实体之间的关系、 实体与事件之间的关系,以及事件与事件之间的关系等不同的种类。 并对事件文本进行实体链接处理。
上述的实体关系是指实体之间的关系,同样以上文抽取的实体 “詹姆斯”以及“洛杉矶湖人”这两个实体为例,实体关系可以抽取 到“詹姆斯”指向“洛杉矶湖人”的关系为“效力”,则即“詹姆斯 效力于洛杉矶湖人队“的含义。
对于实体与事件之间的关系,即实体与作为事件的主体参与者或 者实体是事件的内容客体,或者实体是事件发生的出场所等不同的关 系。同样以上文中的实体和事件为例进行说明,其中的抽取到的实体 “詹姆斯”和事件“湖人总冠军!湖人时隔十年夺队史第17冠,詹 皇获得总决赛FMVP”之间的关系可以判断为“詹姆斯“是这件事情 发生的经历者即“詹姆斯”是事件“湖人总冠军!湖人时隔十年夺队 史第17冠,詹皇获得总决赛FMVP”的主体。
对于事件之间的关系,即不同事件之间的关系,可以为时间上的 顺承关系,或者内容上的补充关系,逻辑上的因果关系或者这两个事 件中没有特殊关系等等。以上文中的事件“2020年9月28日新闻‘湖 人热火书写总决赛新篇’”和时事件“2020年10月12日新闻‘湖人 总冠军!湖人时隔十年夺队史第17冠,詹皇获得总决赛FMVP’”为 例,可以抽取这两个事件之间的关系为第二个事件“2020年10月 12日新闻‘湖人总冠军!湖人时隔十年夺队史第17冠,詹皇获得总 决赛FMVP’”是第一个事件“2020年9月28日新闻‘湖人热火书 写总决赛新篇’”的后序事件,即二者在时间上呈现顺承关系。
对多个新闻事件进行实体链接。其中,实体链接是指给定文档和 知识库,实体链接旨在识别出文本中的所有实体提及,并在知识库中 找到每个实体提及对应的实体,如果知识库并未收录实体提及指代的 实体,则需将映射到空实体。这里的知识库,又称为知识图谱,用来 描述实体与实体之间的关系,将知识组织为有向图,表示知识图谱的 所有节点,每个节点代表一个实体,实体拥有丰富的信息描述,例如 实体类别、信息框、文本描述等,表示两个节点之间的关系集合。知 识图谱还可被表示为三元组集合。而实体提及表示文本中提及实体的 文本片段,其可能是一个词,也可能是几个连续的词。例如,篮球运 动员“迈克尔·乔丹”在不同文档中可能出现不同的实体提及,“乔丹” 或者“空中飞人”等。
将一段文本中的某些字符串映射到知识库中的对应的实体上,以 上文中的实体“詹姆斯”为例,在获取该实体的背景知识中“勒布朗·詹姆斯(LeBron James),全名勒布朗·雷蒙·詹姆斯(LeBron Raymone James),1984年12月30日出生于美国俄亥俄州阿克伦,美国职业 篮球运动员,司职小前锋,绰号“小皇帝”,效力于NBA洛杉矶湖人 队。詹姆斯在2003年NBA选秀中于首轮第1顺位被克利夫兰骑士 队选中,在2009年与2010年蝉联NBA常规赛最有价值球员(MVP)。 2010年,詹姆斯转会至迈阿密热火队。2011年,依靠在国际体坛上 的知名度,詹姆斯与芬威体育集团达成合作协议,他成了利物浦足球 俱乐部的全球独家高级形象代表,而报酬则是利物浦的若干股权。 2012年,詹姆斯得到NBA个人生涯的第3座常规赛MVP,第1个 总冠军和总决赛MVP,并代表美国男篮获得了伦敦国际顶级赛事金牌,追平了迈克尔·乔丹在1992年所创的纪录。2013年,詹姆斯 夺得第4个常规赛MVP、第2个NBA总冠军和第2个总决赛MVP, 实现两连冠。2014年,詹姆斯回归骑士。2016年,詹姆斯带领骑士 逆转战胜卫冕冠军勇士夺得队史首个总冠军和个人第3个总决赛 MVP。2018年7月10日,詹姆斯正式与湖人签下4年1.53亿美元 的合同。2019-20赛季,詹姆斯当选NBA助攻王,夺得第4次总冠 军以及个人第4个总决赛MVP。詹姆斯篮球智商极高、突破犀利, 拥有出色的视野和传球技术,被认为是NBA有史以来最为全能的球 员之一。2019年福布斯100名人榜,詹姆斯排名第17位。2020年 12月27日,詹姆斯当选2020美联社最佳男运动员。”
步骤400是在步骤300的基础上,对得到的实体链接结果、实体 抽取结果、实体关系抽取结果、事件关系抽取结果以及实体与事件关 系抽取结果进行关联分析得到分析结果。虽然步骤300中得到了相应 的关系,但是该种关系并没有有机结合起来,比如采用步骤300中的 方法并不能使读者在看到下述信息时明白其中的含义。比如事件“利 物浦官推贺湖人夺冠喊话詹姆斯:冠军股东!”和事件“湖人总冠军! 湖人时隔十年夺队史第17冠,詹皇获得总决赛FMVP”。在进行事件 关系抽取时,抽取的事件关系为前一个事件“利物浦官推贺湖人夺冠 喊话詹姆斯:冠军股东!”是后一个事件“湖人总冠军!湖人时隔十 年夺队史第17冠,詹皇获得总决赛FMVP”的后序事件。但是,读 者并不能知道其中有何种关系,“利物浦”为什么祝贺“詹姆斯”获 得总冠军。为了解决这一问题,本发明通过采用实体链接的方式对相 关信息进行补充,从而能够使事件之间的关系不顺畅得到理解。
其中步骤300中对实体“詹姆斯”进行实体链接后得到的背景知 识中包括“2011年,依靠在国际体坛上的知名度,詹姆斯与芬威体 育集团达成合作协议,他成了利物浦足球俱乐部的全球独家高级形象 代表,而报酬则是利物浦的若干股权。”可以获知,“詹姆斯”和“利 物浦”是“股东”的关系。这也就解释了“利物浦”为什么祝贺“詹 姆斯”获得总冠军这一问题。即从实体“詹姆斯”背景知识的补充对 事件进行了解释,从而更深层次实现了对事件的挖掘。
进而,本实施例中通过将聚类得到的事件,进行抽取实体关系、 事件与实体关系以及事件之间的关系进行融合,同时在加上相应的实 体以及补充的实体背景知识,进行整体关联分析,从而获得分析的结 果。
本发明提供的一种基于新闻事件的关系分析方法,通过原始新闻 文本聚类实现新闻事件级别分析,得到多个事件,再通过对事件文本 抽取实体、实体关系、事件关系、事件与实体的关系。同时通过对文 本进行实体链接,将实体背景知识进行补充,得到信息更加丰富和周 全的实体,实现对事件的深层次挖掘,从而使读者能够获得更全面和 深入的信息。
进一步地,本发明的一个实施例中,根据本发明提供一种基于新 闻事件的关系分析方法,其中,对多篇新闻文本进行聚类,得到聚类 后的多个新闻事件,包括:
对多篇新闻文本进行K均值聚类、基于密度的聚类、均值漂移 聚类或层次聚类,得到多个聚类后的新闻事件。
进一步地,在本发明的一个实施例中,根据本发明提供一种基于 新闻事件的关系分析方法,其中,对多个新闻事件进行实体关系抽取, 包括下述中的一种或多种:
对多个新闻事件进行语料级的实体关系抽取。对多个新闻事件进 行句子级的实体关系抽取。对多个新闻事件从实体链接得到的实体链 接结果进行实体关系扩展。
具体地,其中,对新闻事件进行语料级的实体关系抽取,是指从 事件文本的上下文中抽取相应的两个实体之间的关系,比如事件 “2020年10月12日新闻‘湖人总冠军!湖人时隔十年夺队史第17 冠,詹皇获得总决赛FMVP’”从中可以得出实体“詹姆斯”与实体 “湖人”之间的关系是“‘詹姆斯’效力于‘湖人’”。
其中对新闻事件文本进行句子级的实体关系抽取,是指对事件文 本中呈现语法状态的句子中表现的两个实体之间的关系,即从一个句 子中判断两个实体间是何种关系。举例来说,句子“詹姆斯效力于洛 杉矶湖人队”可以得到的两个实体为“詹姆斯”以及“洛杉矶湖人” 而这两个实体之间的关系为“詹姆斯”“效力于”“洛杉矶湖人队”。
而对多个新闻事件从实体链接得到的实体链接结果进行实体关 系扩展,即实体之间的关系并不能从事件文本或句子中获取,但是在 实体的背景知识中存在两个实体之间的关系的信息,比如“詹姆斯” 这一实体的背景知识中“2011年,依靠在国际体坛上的知名度,詹 姆斯与芬威体育集团达成合作协议,他成了利物浦足球俱乐部的全球 独家高级形象代表,而报酬则是利物浦的若干股权。”可以获知,实 体“詹姆斯”与实体“利物浦”之间的关系是“詹姆斯”是“利物浦” 的一个股东。
通过采用这三种判断实体之间关系的方式,可以充分而全面地表 现不同实体之间的关系,使读者能够获得更加全面的信息。
进一步地,在本发明的一个实施例中,根据本发明提供一种基于 新闻事件的关系分析方法,其中,在对多个新闻事件进行实体关系抽 取时,采用开放域关系抽取;其中,开放域关系抽取是指基于实体对 和上下文中的连接词描述实体之间的关系。
具体地,开放域关系抽取不需要预先定义关系,而是使用实体对 上下文中的一些词语来描述实体之间的关系。例如“姚明出生于上海” 中,开放域关系抽取系统的抽取结果就是(姚明,出生于,上海), 其中“姚明”和“上海”是存在关系的实体对,“出生于”代表关系。
进一步地,根据本发明提供一种基于新闻事件的关系分析方法, 其中,对多个新闻事件进行事件关系抽取,包括下述中的一种或多种:
对多个新闻事件进行因果事件关系抽取。对多个新闻事件进行子 事件关系抽取。对多个新闻事件进行时序事件关系抽取。
具体地,对多个新闻事件进行因果事件关系抽取,比如,上文所 述的事件“利物浦官推贺湖人夺冠喊话詹姆斯:冠军股东!”和事件 “湖人总冠军!湖人时隔十年夺队史第17冠,詹皇获得总决赛FMVP” 之间,结合实体“詹姆斯”的实体链接中的信息可知,后一事件是前 一事件的原因,即“詹姆斯”是是“利物浦”的一个股东,因此,在 “詹姆斯”获得“总决赛FMVP”后“利物浦”恭喜“詹姆斯”,换 而言之,“詹姆斯”先获奖,“利物浦”因其获奖而恭喜之。
所谓的多个事件进行子事件关系抽取是指,某一事件中包含多个 小的事件,如“某高校在周末举办了秋季运动会多项校记录被打破” 而另一个事件为“男子800米校记录被打破”。这两个事件本身没有 自接联系,但是通过对实体“秋季运动会”进行实体链接,可知,“男 子800米”是“秋季运动会”的子项目,故而可以判断后一个事件是 前一个事件的子事件。
同理,所谓的多个事件进行时序事件关系抽取,即在两个事件中 看不出这两个事件之间的先后顺序,但是在实体链接中存在某种信息, 可以用来对两个事件之间的时间顺序进行补充解释。比如,事件“湖 人热火书写总决赛新篇”和事件“湖人总冠军!湖人时隔十年夺队史 第17冠,詹皇获得总决赛FMVP”之间,后者事件是前者事件的后 序事件,即后者在时序上在前者之后。
进一步地,在本发明的一个实施例中,根据本发明提供一种基于 新闻事件的关系分析方法,其中,对多个新闻事件进行实体与事件关 系抽取,包括:
确定实体与事件的关联关系。
根据实体与事件的关联关系,对所述多个新闻事件进行实体与事 件关系抽取。
具体地,在本实施例中,由于要抽取实体与事件之间的关系,因 此,需要确定实体与事件之间存在关联关系,此处的关联关系是广义 上的关系,指实体与事件存在强或弱的关系,也可以是表面的联系或 者隐含的联系。其中强关系,比如实体是事件的经历者等情形下表现 的关系,而弱关系,是指实体并没有直接参与或者经历该事件,但是 并非与该事件无关,可以假设,在一场篮球比赛中,经历者或参与者 是球员、裁判以及教练等,但是作为球队的老板或者股东,虽然与比 赛没有直接关系,但是与比赛有着弱关联。
对于实体与事件之间的表面联系或者隐含联系,其中,表面联系 是指可以通过事件直接得出二者之间的关系,比如事件“湖人时隔 10年重返总决赛,詹姆斯接棒续写紫金传奇”中可以直接得出“詹 姆斯”“效力于”“湖人”。但是也有实体与事件之间的关系是隐含的, 需要从背景信息中获取,比如,实体“詹姆斯”与事件“利物浦官推 贺湖人夺冠喊话詹姆斯:冠军股东!”之间的关系,在实体“詹姆斯” 的实体链接中,存在的以下信息“2011年,依靠在国际体坛上的知 名度,詹姆斯与芬威体育集团达成合作协议,他成了利物浦足球俱乐 部的全球独家高级形象代表,而报酬则是利物浦的若干股权。”解释 了实体“詹姆斯”与事件“利物浦官推贺湖人夺冠喊话詹姆斯:冠军 股东!”之间的关系。
所以,确定实体与事件之间的关系,需要先确定实体与事件之间 的关联关系,进而依据该关联关系确定实体与事件之间的具体关系。
在本发明中,提及的新闻事件数据可以是任意范围的数据,例如 某段时间内的新闻、某领域例如“体育”领域的新闻、和“詹姆斯” 相关的新闻。聚类方法可以采用多种,例如K均值聚类、基于密度 的聚类方法、均值漂移聚类、层次聚类等方法。然后,本发明对聚类得到的事件进行实体、实体关系抽取、事件关系抽取。本发明抽取的 实体之间关系,包括以下三大类:第一类是语料(篇章)级关系抽取; 第二类是句子级别关系,即为从一个句子中判别两个实体间是何种语 义关系;第三类是从链接到的背景知识给出的关系。本发明中实体关 系抽取主要是开放域关系抽取,开放关系抽取不需要预先定义关系, 而是使用实体对上下文中的一些词语来描述实体之间的关系。例如 “姚明出生于上海”中,开放域关系抽取系统的抽取结果就是(姚明, 出生于,上海),其中“姚明”和“上海”是存在关系的实体对,“出 生于”代表关系。
在本实施例中,实体和事件关系抽取主要是实体与事件之间的有 关联关系。事件关系抽取本发明中主要关注事件之间的因果、子事件、 时序等多种关系。然后,对其中的实体进行实体链接,可以对应的背 景知识。最后,对实体、实体背景知识、实体关系、事件关系进行整 体关联分析,得到对应所有分析结果。
下面给出一个具体的例子:检索“詹姆斯“从2020年8月1日 到2020年10月31日相关新闻,共有216篇新闻,聚类为57个事件, 例如事件2020年9月28日新闻“湖人时隔10年重返总决赛,詹姆 斯接棒续写紫金传奇”,2020年9月28日新闻“湖人热火书写总决 赛新篇“,2020年10月12日新闻“湖人总冠军!湖人时隔十年夺 队史第17冠,詹皇获得总决赛FMVP”。其中的实体进行抽取可以得 到例如“洛杉矶湖人队”、“戴维斯”、“詹姆斯”、“迈阿密热火”、“总 冠军”、“利物浦“等实体;针对实体链接部分,介绍了实体的背景知 识,例如其中链接到的“詹姆斯”,可以得到背景知识“勒布朗·詹 姆斯(LeBron James),全名勒布朗·雷蒙·詹姆斯(LeBron Raymone James),1984年12月30日出生于美国俄亥俄州阿克伦,美国职业 篮球运动员,司职小前锋,绰号“小皇帝”,效力于NBA洛杉矶湖人 队。詹姆斯在2003年NBA选秀中于首轮第1顺位被克利夫兰骑士队 选中,在2009年与2010年蝉联NBA常规赛最有价值球员(MVP)。 2010年,詹姆斯转会至迈阿密热火队。2012年,詹姆斯得到NBA个 人生涯的第3座常规赛MVP,第1个总冠军和总决赛MVP,并代表 美国男篮获得了伦敦国际顶级赛事金牌,追平了迈克尔·乔丹在1992 年所创的纪录。2013年,詹姆斯夺得第4个常规赛MVP、第2个NBA 总冠军和第2个总决赛MVP,实现两连冠。2014年,詹姆斯回归骑 士。2016年,詹姆斯带领骑士逆转战胜卫冕冠军勇士夺得队史首个 总冠军和个人第3个总决赛MVP。2018年7月10日,詹姆斯正式 与湖人签下4年1.53亿美元的合同。2019-20赛季,詹姆斯当选NBA 助攻王,夺得第4次总冠军以及个人第4个总决赛MVP。詹姆斯篮 球智商极高、突破犀利,拥有出色的视野和传球技术,被认为是NBA 有史以来最为全能的球员之一。2019年福布斯100名人榜,詹姆斯 排名第17位。2020年12月27日,詹姆斯当选2020美联社最佳男 运动员。”实体关系可以抽取到“詹姆斯”指向“洛杉矶湖人”的关 系为“效力”,则为“詹姆斯效力于洛杉矶湖人队“的含义;可以抽 取到实体“詹姆斯”和事件“湖人总冠军!湖人时隔十年夺队史第 17冠,詹皇获得总决赛FMVP”的关系为“詹姆斯“是这件事情发 生的经历者;针对2020年9月28日新闻“湖人热火书写总决赛新篇 “和2020年10月12日新闻“湖人总冠军!湖人时隔十年夺队史第 17冠,詹皇获得总决赛FMVP”,事件关系抽取可以得到事件“湖人 总冠军!湖人时隔十年夺队史第17冠,詹皇获得总决赛FMVP”是 事件“湖人热火书写总决赛新篇“的后序事件。事件“利物浦官推贺 湖人夺冠喊话詹姆斯:冠军股东!“是事件“湖人总冠军!湖人时隔十年夺队史第17冠,詹皇获得总决赛FMVP”的后序事件,一看不 知道其中有何种关系,“利物浦“为什么”祝贺“”詹姆斯“获得” 总冠军“,在”詹姆斯“实体链接的结果中可以看到“2011年,依 靠在国际体坛上的知名度,詹姆斯与芬威体育集团达成合作协议,他 成了利物浦足球俱乐部的全球独家高级形象代表,而报酬则是利物浦 的若干股权。“,从中可以得到的“詹姆斯”和“利物浦”是“股东” 的关系,从而解释了为什么“利物浦”“祝贺“”詹姆斯“获得”总 冠军“。此处从实体“詹姆斯”背景知识的补充对事件进行了解释, 从而更深层次实现了对事件的挖掘。由此可见,本实施例通过原始新 闻文本聚类实现新闻事件级别分析。本实施例通过对事件文本抽取实 现实体识别、实体关系抽取、事件关系抽取、事件与实体的关系抽取。 本实施例通过实体的实体链接,将实体背景知识进行补充,实现对事 件的深层次挖掘。本发明通过新闻事件语以级的分析,实现了对事件 的追踪、实体画像建模、事件中隐含实体关系的挖掘。
参照图3,图3最下面是时间轴,然后,每个方块代表是聚类后 的事件,而上面的圆点代表每个实体,然后其中的线代表实体和实体 关系、实体和事件关系等,从这些图中可以分析得到最终的结果。
进一步的,在本发明的一个实施例中,根据本发明提供一种基于 新闻事件的关系分析方法,对多个新闻事件进行实体链接,得到实体 链接结果,包括:
建立词和实体的联合表示模型;
基于所述词和实体的联合表示模型,采用概率实体模型,建立新 闻事件中的实体与所述知识库中的实体的链接关系,得到实体链接结 果。
在本实施例中,所述词和实体的联合表示模型包括skip-gram模 型、知识库模型和锚文本上下文模型的组合;相应地,建立词和实体 的联合表示模型,包括:
建立skip-gram模型,通过预测词的相邻词学习给定文本语料中 词的表示;
建立知识库模型,通过预测目标实体相邻的实体来学习实体的表 示;
建立锚文本上下文模型,将锚文本替换为相应的实体,预测该实 体周围下文的词,将词和实体映射到同一个语义空间中;
在对所述词和实体的联合表示模型进行训练时,所述词和实体的 联合表示模型的总目标为最大化三个模型目标函数的线性组合。
在本实施例中,基于所述词和实体的联合表示模型,采用概率实 体模型,建立新闻事件中的实体与所述知识库中的实体的链接关系, 包括:
给定一个实体mi,根据实体mi从知识库中找出相关实体e;
根据实体e,生成出实体mi的上下文;
生成实体mi中的其他实体;
其中,给定输入文档D和实体mi,找出知识库中mi的对应实体的 问题被确定为下述的形式:
Figure BDA0002994962780000151
其中,每个实体对应的生成过程是相互独立的,其中
Figure BDA0002994962780000152
表示实体 的上下文,N表示输入的文档中的其它无歧义的实体集合;
给定输入文档D和实体mi,最终的知识库中对应的实体是最大化 后验概率P(ei|mi,D)的实体,因此,形式化为下面的表示:
Figure BDA0002994962780000153
P(e)是实体的先验分布,将实体的先验分布定义为在整个数据集上 的先验分布;为了控制在不同领域先验不同而带来的影响,引入了影 响因子α:
Figure BDA0002994962780000154
其中,Ae,*是指向实体e的锚文本集合,A*,*是知识库KB中所有锚 文本的集合;α=0表示实体先验为1,取值对后验概率P(e|m)没有影响, α=1表示先验概率不受任何控制;
Figure BDA0002994962780000161
是对应于e的上下文文本分布,一个实体在和其意义相符 的上下文环境中出现的概率更高,使用实体中上下文中的词向量的平 均来表示上下文向量:
Figure BDA0002994962780000162
其中,
Figure BDA0002994962780000163
是上下文中词的集合;
将词向量对应的词汇表提前建立一个Aho-Corasick索引,直接使 用Aho-Corasick算法匹配实体上下文中的词而不需要进行分词操作;
Figure BDA0002994962780000164
为候选实体e和上下文向量的余弦相似度,由于余弦相似 度的取值范围是[-1,1],将其映射到[0,1]的范围中;
P(N|e)是给定实体e的上下文实体的概率分布;
其中,计算实体一致性的方法包括:找到当前处理的文档中初始 的无歧义的实体,加入初始化的无歧义实体集合N,确定先验概率 P^(e|m)>θ的实体为无歧义实体,其中,P^(e|m)=|Ae,m|/|A*,m|;
按照从左向右或者从简单到复杂的顺序处理发现实体{m1,m2,, m|M|},每次处理得到一个已消歧的实体后,加入集合N,集合N的 向量表示为其中所有实体向量的平均:
Figure BDA0002994962780000165
其中,EN表示无歧义的实体。
具体地,实体链接,给定文档和知识库,实体链接旨在识别出文 本中的所有实体提及,并在知识库中找到每个实体提及对应的实体, 如果知识库并未收录实体提及指代的实体,则需将映射到空实体。实 体链接任务一般分为三个步骤:实体发现、候选实体生成和候选实体 消歧。实体发现旨在识别出文档中的所有实体提及,候选实体生成则 为每个实体提及找到其可能指代的知识库实体,称为候选实体集。候 选实体消歧则是确定实体提及所指代的知识库实体。
本发明使用一种词和实体的联合表示模型。该模型主要基于skip-gram模型。Skip-gram最先被提出来学习词的嵌入式表示,其中 心思想是用目标词预测其上下文的词。本发明使用的词和实体的联合 表示模型基于skip-gram模型有三个部分:1)常规的skip-gram模型, 通过预测词的相邻词学习给定文本语料中词的表示;2)知识库模型, 通过预测目标实体相邻的实体来学习实体的表示;3)锚文本上下文 模型,将锚文本替换为相应的实体,预测该实体周围下文的词,将词 和实体映射到同一个语义空间中。该联合表示模型在训练时,模型的 总目标为最大化三个模型目标函数的线性组合。
同时,本发明可以将实体链接的过程看做是一个生成式的过程。 给定一个实体提及mi,首先,根据实体的从知识库KB中找出一个 相关实体e,然后,根据实体e,生成出实体提及mi的上下文,最后, 生成实体提及mi中的其他实体。因此,给定输入文档D和实体提及mi,找出知识库中mi的对应实体的问题可以被推断为如式1的形式:
Figure BDA0002994962780000171
本发明假设每个实体提及对应的生成过程是相互独立的,其中
Figure BDA0002994962780000172
表示实体提及的上下文,N表示输入的文档中的其它无歧义的实体集 合。
给定输入文档D和实体提及mi,最终的知识库中对应的实体是 最大化后验概率P(ei|mi,D)的实体,因此,可以形式化为2:
Figure BDA0002994962780000173
P(e)是实体的先验分布。本发明将实体的先验分布定义为在整个 数据集上的先验分布,即本发明是在电力客服领域的先验分布。在大 规模的语料库中,一个实体被提及的次数越多,那么这个实体可能越 被人们所熟知。然而,在不同的领域中,实体的先验概率可能是不同 的,如在电力客服领域中,词语"系统内部过电压"指代电力客服领域 “电力系统内容过电压”的概率就比在开放领域中更大。因此,为了 控制在不同领域先验不同而带来的影响,本发明引入了一个影响因子 α,如式3。
Figure BDA0002994962780000181
其中,Ae,*是指向实体e的锚文本集合,A*,*是KB中所有锚文 本的集合。α=0表示实体先验为1,即其取值对后验概率P(e|m)没有 任何影响,α=1表示先验概率不受任何控制。
Figure BDA0002994962780000182
是对应于e的上下文文本分布。一个实体在和其意义相符 的上下文环境中出现的概率更高。比如,上下文中有“当月费用”“总 花费”等词汇时,对于实体提及“电费”,其更可能指代实体“当月电费”, 而不是“每度电费”。因此,本发明使用实体提及中上下文中的词向量 的平均来表示上下文向量,即式4:
Figure BDA0002994962780000183
其中,
Figure BDA0002994962780000184
是上下文中词的集合。本发明将词向量对应的词汇表 提前建立了一个Aho-Corasick索引,因此,可以直接使用Aho-Corasick 算法匹配实体提及上下文中的词而不需要进行分词等操作。
Figure BDA0002994962780000185
本 发明看做是候选实体e和上下文向量的余弦相似度,由于余弦相似度 的取值范围是[-1,1],本发明将其映射到[0,1]的范围中。
P(N|e)是给定实体e的上下文实体的概率分布。在有关联的上下 文中,如一篇新闻,实体通常属于相同的话题,而且这些实体通常在 语义空间中比较接近。因此,这个分布也可以看做是实体的话题一致 性的分布。本发明设计了一个两步的计算实体一致性的方法。首先, 本发明找到当前处理的文档中初始的无歧义的实体,加入初始化的无 歧义实体集合N,本发明定义先验概率P^(e|m)>θ的实体为无歧义实 体,其中,P^(e|m)=|Ae,m|/|A*,m|,在系统中,本发明选取了θ=0.95; 然后,本发明按照从左向右(Left to Right,L2R)或者从简单到复杂 (Simple to Complex,S2C)的顺序处理发现到的实体的提及{m1,m2,, m|M|},每次处理得到一个已消歧的实体后,加入集合N,集合N的 向量表示为其中所有实体向量的平均,即式5:
Figure BDA0002994962780000191
其中,EN表示无歧义的实体。P(N|e)通过集合N的向量和候 选实体的向量的余弦相似度计算。本发明发现S2C和L2R的处理顺 序带来的结果之差并不明显,考虑到S2C的顺序还要进行一次排序, 因此在具体实现时本发明采用了L2R的顺序。
在本实施例中,需要说明的是,实体链接,给定文档和知识库, 实体链接旨在识别出文本中的所有实体提及,并在知识库中找到每个 实体提及对应的实体,如果知识库并未收录实体提及指代的实体,则 需将映射到空实体。
在本实施例中,实体链接这一部分,对于实体发现的结果{m1, m2,...,m|M|}和其对应的候选实体集合C1,C2,...,C|M|,实体链接为每个 mi在其对应的候选实体集合Ci中找到一对应的实体ei *。这部分主要 包括两个工作:1)词和实体的联合表示学习;2)基于词和实体的联合 表示,使用一个概率消歧模型进行实体链接。
下面对词和实体的联合表示进行解释和说明。本实施例使用一种 词和实体的联合表示模型。该模型主要基于skip-gram模型。Skip-gram 最先被提出来学习词的嵌入式表示,其中心思想是用目标词预测其上下 文的词。本发明使用的词和实体的联合表示模型基于skip-gram模型有三 个部分:1)常规的skip-gram模型,通过预测词的相邻词学习给定文本 语料中词的表示;2)知识库模型,通过预测目标实体相邻的实体来学习 实体的表示;3)锚文本上下文模型,将锚文本替换为相应的实体,预测 该实体周围下文的词,将词和实体映射到同一个语义空间中。
(1)词表示学习
给定一个包含T个词的词序列w1,w2,...,wT,skip-gram模型的目 标是最大化下式中的目标函数:
Figure BDA0002994962780000201
其中,c是上下文窗口的大小,wt表示目标词,wt+j表示上下 文的词。条件概率P(wt+j|wt)根据softmax进行计算,如下式所示:
Figure BDA0002994962780000202
其中,W是包含所有词的集合,Vw和Uw表示词w在矩阵V和 矩阵U中的向量。
(2)知识库模型
在电力客服知识库中,每一个实体都有链接到其它实体的链接, 本发明称之为“外链”。本发明使用实体之间的外链关系来学习实体之 间的相关度。另一个度量实体之间相关度的方法是维基链接度量法 (Wikipedia Link-based Measure,WLM),该方法被应用作为实体链接 的特征。WLM按照下式计算:
Figure BDA0002994962780000203
其中,E是知识库KB中的实体,Ce是有链接指向实体e的 集合。WLM方法的假设是,拥有的链接集合的交集越多的实体越相 关。受WLM方法的启发,基于skip-gram模型,可以将实体和实 体的连接关系看做是词之间的上下文关系,因此,将知识库模型形式 化为下式:
Figure BDA0002994962780000211
类似的,条件概率P(eo|ei)也可以利用softmax计算。
(3)锚文本上下文模型
如果只是将词的skip-gram模型和知识库模型拼接起来,词和实 体并不在一个向量空间中,因此,可以利用锚文本,将锚文本替换为 其表示的实体,基于skip-gram模型,用该实体预测其上下文中的词, 该模型的目标函数为下式:
Figure BDA0002994962780000212
其中,A是锚文本集合,Q是锚文本周围的上下文的词的集合。 在训练时,模型的总目标为最大化三个模型目标函数的线性组合,如 下式所示:
L=Lw+Le+La
下面对于概率实体模型进行详细介绍,可以将实体链接的过程看 作是一个生成式的过程。给定一个实体提及mi,首先,根据实体的 从知识库KB中找出一个相关实体e,然后,根据实体e,生成出实 体提及mi的上下文,最后,生成实体提及mi中的其他实体。因此,给定输入文档D和实体提及mi,找出知识库中mi的对应实体的问 题可以被推断为如下式的形式:
Figure BDA0002994962780000213
本实施例假设每个实体提及对应的生成过程是相互独立的,其中
Figure BDA0002994962780000214
表示实体提及的上下文,N表示输入的文档中的其它无歧义的实体 集合。
在本实施例中,给定输入文档D和实体提及mi,最终的知识库 中对应的实体是最大化后验概率P(ei|mi,D)的实体,因此,可以形式 化为下式:
Figure BDA0002994962780000221
P(e)是实体的先验分布。本实施例将实体的先验分布定义为在整个 数据集上的先验分布,例如可以是在电力客服领域的先验分布。在大 规模的语料库中,一个实体被提及的次数越多,那么这个实体可能越 被人们所熟知。然而,在不同的领域中,实体的先验概率可能是不同 的,如在电力客服领域中,词语"系统内部过电压"指代电力客服领域“电 力系统内容过电压”的概率就比在开放领域中更大。因此,为了控制在 不同领域先验不同而带来的影响,本实施例引入了一个影响因子α,如 下式:
Figure BDA0002994962780000222
其中,Ae,*是指向实体e的锚文本集合,A*,*是KB中所有锚文本的 集合。α=0表示实体先验为1,即其取值对后验概率P(e|m)没有任何影 响,α=1表示先验概率不受任何控制。
Figure BDA0002994962780000223
是对应于e的上下文文本分布。一个实体在和其意义相符 的上下文环境中出现的概率更高。比如,上下文中有“当月费用”“总 花费”等词汇时,对于实体提及“电费”,其更可能指代实体“当月电费”, 而不是“每度电费”。因此,本实施例使用实体提及中上下文中的词向 量的平均来表示上下文向量,即下式:
Figure BDA0002994962780000224
其中,
Figure BDA0002994962780000225
是上下文中词的集合。本发明将词向量对应的词汇表 提前建立了一个Aho-Corasick索引,因此,可以直接使用Aho-Corasick 算法匹配实体提及上下文中的词而不需要进行分词等操作。
Figure BDA0002994962780000226
本 发明看做是候选实体e和上下文向量的余弦相似度,由于余弦相似度 的取值范围是[-1,1],本实施例将其映射到[0,1]的范围中。
P(N|e)是给定实体e的上下文实体的概率分布。在有关联的上下 文中,如一篇新闻,实体通常属于相同的话题,而且这些实体通常在 语义空间中比较接近。因此,这个分布也可以看做是实体的话题一致 性的分布。本实施例设计了一个两步的计算实体一致性的方法。首先, 本发明找到当前处理的文档中初始的无歧义的实体,加入初始化的无 歧义实体集合N,本实施例定义先验概率P^(e|m)>θ的实体为无歧义 实体,其中,P^(e|m)=|Ae,m|/|A*,m|,在系统中,本实施例选取了θ=0.95; 然后,本实施例按照从左向右(Left toRight,L2R)或者从简单到复杂 (Simple to Complex,S2C)的顺序处理实体e的实体提及{m1,m2,,m|M|}, 每次处理得到一个已消歧的实体后,加入集合N,集合N的向量表 示为其中所有实体向量的平均,即下式:
Figure BDA0002994962780000231
其中,EN表示无歧义的实体。P(N|e)通过集合N的向量和候 选实体的向量的余弦相似度计算。本实施例发现S2C和L2R的处理 顺序带来的结果之差并不明显,考虑到S2C的顺序还要进行一次排 序,因此在具体实现时本发明采用了L2R的顺序。
此外,下面对关于结果修剪的部分进行解释和说明。在经过实体 发现和实体链接的过程之后,对于每个文档D本发明可以得到一个 结果序列R={r1,r2,...,r|M|},ri=(mi,ei*,scorei),其中,scorei是 实体链接结果中P(e|m)的值,本发明将其看做是实体链接的置信度。 由于基于百科构建的词典数目庞大,因此在实体发现中将所有实体都 保留下来的话难免会留下些许噪音实体。因此,本发明设计了一个简 单的过滤算法进行最后结果的过滤,将R按照ri.scorei从高到底排 序,保留前k%的结果为
Figure BDA0002994962780000232
Figure BDA0002994962780000233
中link_prob(ri.mi)<∈的结果去掉。 其中的两个参数k和∈由经验来决定。其中,“将R按照ri.scorei从高到底排序,保留前k%的结果为
Figure BDA0002994962780000234
”这条优先地不考虑。
在本实施例中,关于实体识别和实体链接数据的举例情况可以参照 下表1和表2。
表1实体识别情况
Figure BDA0002994962780000241
表2实体链接情况
Figure BDA0002994962780000242
下面分别举个中文和英文的例子,知识库采用在维基百科和百度 百科中,锚文本的数量庞大,的统计数据显示,英文维基页面中的锚 文本约有近一千万条,百度百科中的锚文本约有三百多万条。丰富 的锚文本为实体发现和实体链接提供了充足的数据支撑。通过分别 抽取百度百科和英文维基中的锚文本,构建了锚文本词典。词典中的 每个键可以看做是一个实体的提及,对应的值可以看做是知识库中对 应该提及的实体。
表3部分锚文本词典展示
Figure BDA0002994962780000251
另外,由于英文维基中还包括消歧页面,即对于一个实体名字, 给出了其可能指代的所有实体,将这一部分数据也加入了英文的锚 文本词典中。最后,得到的锚文本词典的总量为:英文维基的锚文本 词典共有4,843,616条实体提及-实体匹配对,百度百科共有2,895,610条实体提及-实体匹配对。
本发明在所有的锚文本中,应用以下过滤规则进行过滤:其中 length取为1,prob取为0.01,count取为2。(取数范围可以放大)
1)去掉length(m)≤1的锚文本;
2)去掉link_prob(m)≤0.01的锚文本;
3)去掉count(m)≤2的锚文本。
下面举例进行说明,例如对于例子m1为“南京市长江大桥”,m2 为“长江大桥”此时length(m1)和length(m2)分别为7和4,则存在 length(m1)>length(m2),则保留m1。对于例子m1为“电采暖分时电 价”,m2为“电采暖阶梯电价”此时length(m1)和length(m2)都是7,则length(m1)=length(m2),但是link_prob(m1)<link_prob(m2),本该情 况下保留m2。
对于结果修剪部分,将∈取值为0.0008。(可以将范围放大)“将R按 照ri.scorei从高到底排序,保留前k%的结果为
Figure BDA0002994962780000252
规则不进行过滤。
根据上面的技术方案可知,本实施例设计了一个无监督的基于词 和实体联合表示的生成式概率模型,来解决实体的歧义性。
结合图4,下面对本发明提供的一种基于新闻事件的关系分析装 置进行描述,下文描述的一种基于新闻事件的关系分析装置与上文描 述的一种基于新闻事件的关系分析方法可相互对应参照。
在本发明的一个实施例中,本发明提供一种基于新闻事件的关系 分析装置,包括:
第一获取模块41,用于获取多篇新闻文本。
第二获取模块42,用于对所述多篇新闻文本进行聚类,得到聚 类后的多个新闻事件。
关系处理模块43,用于对所述多个新闻事件进行实体链接、实 体抽取、实体关系抽取、事件关系抽取以及实体与事件关系抽取,得 到实体链接结果、实体抽取结果、实体关系抽取结果、事件关系抽取 结果,以及实体与事件关系抽取结果。
关系分析模块44:用于根据所述实体链接结果、所述实体抽取 结果、所述实体关系抽取结果、所述事件关系抽取结果,以及所述实 体与事件关系抽取结果进行关联分析得到分析结果。
由于本发明实施例提供的装置,可以用于执行上述实施例所述的 方法,其工作原理和有益效果类似,故此处不再详述,具体内容可参 见上述实施例的介绍。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电 子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510, 通信接口520,存储器530通过通信总线540完成相互间的通信。处 理器510可以调用存储器530中的逻辑指令,以执行一种基于新闻事 件的关系分析方法,该方法包括:获取多篇新闻文本;对所述多篇新 闻文本进行聚类,得到聚类后的多个新闻事件;对所述多个新闻事件 进行实体链接、实体抽取、实体关系抽取、事件关系抽取以及实体与 事件关系抽取,得到实体链接结果、实体抽取结果、实体关系抽取结 果、事件关系抽取结果,以及实体与事件关系抽取结果;根据所述实 体链接结果、所述实体抽取结果、所述实体关系抽取结果、所述事件 关系抽取结果,以及所述实体与事件关系抽取结果进行关联分析得到 分析结果。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的 形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可 读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说 对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品 的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若 干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者 网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而 前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟 或者光盘等各种可以存储程序代码的介质。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上 存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各 提供的以执行一种基于新闻事件的关系分析方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部 件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的 部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也 可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或 者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付 出创造性的劳动的情况下,即可以理解并实施。通过以上的实施方式 的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件 加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这 样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可 以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机 可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以 使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等) 执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而 非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领 域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技 术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修 改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方 案的精神和范围。

Claims (10)

1.一种基于新闻事件的关系分析方法,其特征在于,包括:
获取多篇新闻文本;
对所述多篇新闻文本进行聚类,得到聚类后的多个新闻事件;
对所述多个新闻事件进行实体链接、实体抽取、实体关系抽取、事件关系抽取以及实体与事件关系抽取,得到实体链接结果、实体抽取结果、实体关系抽取结果、事件关系抽取结果,以及实体与事件关系抽取结果;
根据所述实体链接结果、所述实体抽取结果、所述实体关系抽取结果、所述事件关系抽取结果,以及所述实体与事件关系抽取结果进行关联分析得到分析结果。
2.根据权利要求1所述的新闻事件的关系分析方法,其特征在于,对所述多篇新闻文本进行聚类,得到聚类后的多个新闻事件,包括:
对所述多篇新闻文本进行K均值聚类、基于密度的聚类、均值漂移聚类或层次聚类,得到多个新闻事件。
3.根据权利要求1所述的新闻事件的关系分析方法,其特征在于,对所述多个新闻事件进行实体关系抽取,包括下述中的一种或多种:
对所述多个新闻事件进行语料级的实体关系抽取;
对所述多个新闻事件进行句子级的实体关系抽取;
对所述多个新闻事件从实体链接得到的实体链接结果进行实体关系扩展。
4.根据权利要求1~3任一项所述的新闻事件的关系分析方法,其特征在于,在对所述多个新闻事件进行实体关系抽取时,采用开放域关系抽取;其中,所述开放域关系抽取是指基于实体对和上下文中的连接词描述实体之间的关系。
5.根据权利要求1所述的新闻事件的关系分析方法,其特征在于,对所述多个新闻事件进行事件关系抽取,包括下述中的一种或多种:
对所述多个新闻事件进行因果事件关系抽取;
对所述多个新闻事件进行子事件关系抽取;
对所述多个新闻事件进行时序事件关系抽取。
6.根据权利要求1所述的新闻事件的关系分析方法,其特征在于,对所述多个新闻事件进行实体与事件关系抽取,包括:
确定实体与事件的关联关系;
根据所述实体与事件的关联关系,对所述多个新闻事件进行实体与事件关系抽取。
7.根据权利要求1所述的新闻事件的关系分析方法,其特征在于,对所述多个新闻事件进行实体链接,得到实体链接结果,包括:
建立词和实体的联合表示模型;
基于所述词和实体的联合表示模型,采用概率实体模型,建立多个新闻事件中的实体与所述知识库中的实体的链接关系,得到实体链接结果。
8.一种基于新闻事件的关系分析装置,其特征在于,包括:
第一获取模块,用于获取多篇新闻文本;
第二获取模块,用于对所述多篇新闻文本进行聚类,得到聚类后的多个新闻事件;
关系处理模块,用于对所述多个新闻事件进行实体链接、实体抽取、实体关系抽取、事件关系抽取以及实体与事件关系抽取,得到实体链接结果、实体抽取结果、实体关系抽取结果、事件关系抽取结果,以及实体与事件关系抽取结果;
关系分析模块,用于根据所述实体链接结果、所述实体抽取结果、所述实体关系抽取结果、所述事件关系抽取结果,以及所述实体与事件关系抽取结果进行关联分析得到分析结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
CN202110326769.2A 2021-03-26 2021-03-26 基于新闻事件的关系分析方法及装置 Pending CN113158672A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110326769.2A CN113158672A (zh) 2021-03-26 2021-03-26 基于新闻事件的关系分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110326769.2A CN113158672A (zh) 2021-03-26 2021-03-26 基于新闻事件的关系分析方法及装置

Publications (1)

Publication Number Publication Date
CN113158672A true CN113158672A (zh) 2021-07-23

Family

ID=76884915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110326769.2A Pending CN113158672A (zh) 2021-03-26 2021-03-26 基于新闻事件的关系分析方法及装置

Country Status (1)

Country Link
CN (1) CN113158672A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114372159A (zh) * 2022-01-07 2022-04-19 北京中视广信科技有限公司 一种体育赛事直播的全媒体内容智能感知及关联的方法
CN114610894A (zh) * 2022-01-26 2022-06-10 清华大学 一种基于篇章语境的多任务联合知识挖掘方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114372159A (zh) * 2022-01-07 2022-04-19 北京中视广信科技有限公司 一种体育赛事直播的全媒体内容智能感知及关联的方法
CN114372159B (zh) * 2022-01-07 2024-05-07 北京中视广信科技有限公司 一种体育赛事直播的全媒体内容智能感知及关联的方法
CN114610894A (zh) * 2022-01-26 2022-06-10 清华大学 一种基于篇章语境的多任务联合知识挖掘方法及装置

Similar Documents

Publication Publication Date Title
Bamman et al. Unsupervised discovery of biographical structure from text
Ma et al. An attention-based rumor detection model with tree-structured recursive neural networks
Li et al. Entity-oriented multi-modal alignment and fusion network for fake news detection
Suo et al. A simple and robust correlation filtering method for text-based person search
CN110532480B (zh) 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法
CN105760439A (zh) 一种基于特定行为共现网络的人物共现关系图谱构建方法
Lupu Information retrieval, machine learning, and natural language processing for intellectual property information
Przybyła et al. When classification accuracy is not enough: Explaining news credibility assessment
Li et al. Event extraction for criminal legal text
CN113158672A (zh) 基于新闻事件的关系分析方法及装置
CN115033668B (zh) 故事脉络构建方法、装置、电子设备和存储介质
CN115238688B (zh) 电子信息数据关联关系分析方法、装置、设备和存储介质
Sunarya et al. Comparison of accuracy between convolutional neural networks and Naïve Bayes Classifiers in sentiment analysis on Twitter
Kim et al. FaceCAPTCHA: a CAPTCHA that identifies the gender of face images unrecognized by existing gender classifiers
Yen et al. Unanswerable question correction in question answering over personal knowledge base
Gao et al. Topology imbalance and relation inauthenticity aware hierarchical graph attention networks for fake news detection
Li et al. A novel label-based multimodal topic model for social media analysis
Guo et al. AQE: Argument quadruplet extraction via a quad-tagging augmented generative approach
CN113158673A (zh) 单篇文档分析方法和装置
Bi et al. Judicial knowledge-enhanced magnitude-aware reasoning for numerical legal judgment prediction
Singh et al. IIC_Team@ multimodal hate speech event detection 2023: Detection of hate speech and targets using xlm-roberta-base
Liu et al. An Evaluation of GPT-4V and Gemini in Online VQA
Hamed et al. Disinformation detection about islamic issues on social media using deep learning techniques
Lavanya et al. Auto capture on drug text detection in social media through NLP from the heterogeneous data
Li et al. Multi-level emotion cause analysis by multi-head attention based multi-task learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination