CN111444713B

CN111444713B - 新闻事件内实体关系抽取方法及装置

Info

Publication number: CN111444713B
Application number: CN201910038950.6A
Authority: CN
Inventors: 李涓子; 张斌; 侯磊; 张鹏
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2022-04-29
Anticipated expiration: 2039-01-16
Also published as: CN111444713A

Abstract

本发明实施例提供一种新闻事件内实体关系抽取方法及装置，所述方法包括：提取目标新闻事件中与实体相关的语句，并确定目标实体对，提取所述目标实体对出现语句，生成实体对语句集合；分析实体对语句集合中各语句的语义特征，提取用以表示目标实体对关系的多个关键词；根据多个关键词在实体对语句集合中的TF‑IDF值进行排序，选取前N个关键词作为表征目标实体对关系的关系词。本发明不需要预先定义实体关系类型以及进行大规模的人工标注数据，具有良好的扩展性，并且对中文新闻句子结构进行了深入分析，能够适应新闻文档涉及领域多和句式复杂的问题，在中文新闻事件上进行实体关系抽取取得了较好的效果。

Description

新闻事件内实体关系抽取方法及装置

技术领域

本发明实施例涉及自然语言处理技术领域，更具体地，涉及一种新闻事件内实体关系抽取方法及装置。

背景技术

近年来随着互联网的飞速发展，互联网承载的信息也越来越丰富，互联网以其丰富便捷实时的特点受到了人们的青睐，同时也改变了以往人们从传统媒体获取信息的习惯，成为人们获取信息的主要的途径。然而随着互联网的飞速发展，互联网新闻量也呈现爆炸式的增长。

海量的新闻容易给用户造成信息过载，人们无法从海量的新闻中快速准确地获取该事件的概况。同时，随着事件的深入发展，人们不仅仅只关注于事件概况，而是更期望深入了解事件更多的信息，比如在该事件内实体之间的关系以及实体与事件的关系。面对海量的网络新闻数据量，对新闻事件进行深入挖掘，分析具体的事件内实体之间的关系非常有必要。

目前实体关系抽取工作主要有面向特定领域关系抽取和开放领域关系抽取。特定领域的关系抽取，需要预先定义实体关系类型，利用人工标注的训练语料使用模式匹配及机器学习等方法抽取实体之间的关系。然而，利用人工对海量的网络新闻数据进行标注需要耗费大量的人力，是不现实的。同时，对于网络新闻来讲，包含的领域非常多，包括军事、政治、科技、娱乐以及体育等，无法预先划分领域和定义实体关系。目前许多开放领域的实体关系抽取工作针对微博等短文本领域进行研究，还有部分工作为了避免对领域知识的依赖引入知识库对实体关系抽取进行远程监督。但是中文新闻的句式较复杂，多为一些从句结构，经常包含多个实体，而且存在数据稀疏的问题，实体关系抽取效果并不好。

发明内容

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的新闻事件内实体关系抽取方法及装置。

第一方面，本发明实施例提供一种新闻事件内实体关系抽取方法，包括：

基于目标新闻事件对应的新闻文档，提取所述目标新闻事件中与实体相关的语句，并确定目标实体对，从所述与实体相关的语句中提取所述目标实体对中的两个实体共同出现的语句，生成实体对语句集合；

分析所述实体对语句集合中各语句的语义特征，提取用以表示所述目标实体对中两个实体之间关系的多个关键词；

计算所述多个关健词在所述实体对语句集合中的TF-IDF值，并根据所述TF-IDF值对所述多个关键词进行排序，根据排序结果选取前N个关键词作为最能表征所述目标实体对中两个实体之间关系的关系词；

其中，N为大于等于1的自然数。

第二方面，本发明实施例提供一种新闻事件内实体关系抽取装置，包括：

生成模块，用于基于目标新闻事件对应的新闻文档，提取所述目标新闻事件中与实体相关的语句，并确定目标实体对，从所述与实体相关的语句中提取所述目标实体对中的两个实体共同出现的语句，生成实体对语句集合；

提取模块，用于分析所述实体对语句集合中各语句的语义特征关系，提取用以表示所述目标实体对中两个实体之间关系的多个关键词；

排序模块，用于计算所述多个关健词在所述实体对语句集合中的TF-IDF值，并根据所述TF-IDF值对所述多个关键词进行排序，根据排序结果选取前N个关键词作为最能表征所述目标实体对中两个实体之间关系的关系词；

其中，N为大于等于1的自然数。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的新闻事件内实体关系抽取方法及装置，不需要预先定义实体关系类型以及进行大规模的人工标注数据，具有良好的扩展性，并且对中文新闻句子结构进行了深入分析，能够适应新闻文档涉及领域多和句式复杂的问题，在中文新闻事件上进行实体关系抽取取得了较好的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的新闻事件内实体关系抽取方法的流程示意图；

图2为本发明实施例提供的图1中步骤100的流程示意图；

图3为本发明实施例提供的图1中步骤200的流程示意图；

图4为本发明实施例提供的新闻事件内实体关系抽取装置的结构示意图；

图5为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的新闻事件内实体关系抽取方法的流程示意图，如图所示，包括：

步骤100、基于目标新闻事件对应的新闻文档，提取所述目标新闻事件中与实体相关的语句，并确定目标实体对，从所述与实体相关的语句中提取所述目标实体对中的两个实体共同出现的语句，生成实体对语句集合；

具体地，提取目标新闻事件中与实体对相关的语句，构建实体对语句集合。实体对是指一对实体，实体是新闻事件的重要组成部分，包括但不限于人物、组织机构、地点等。

首先确定目标新闻事件，然后获取该目标新闻事件对应的新闻文档。在本发明实施例中，目标新闻事件对应的新闻文档为中文。

对新闻文档进行逐句分析，提取出与实体相关的语句。通常，新闻文档中会出现多个实体，确定要分析的实体对作为目标实体对，并从与实体相关的语句中提取出同时出现了目标实体对中的两个实体的语句，即提取出目标实体对中的两个实体共同出现的语句，从而生成实体对语句集合。

如图2所示，步骤100进一步包括：

步骤110、将目标新闻事件对应的新闻文档进行以句子为单位的切分，生成所述目标新闻事件对应的句子集合；

句子是句法语义特征分析的基本单元，因此需要将目标新闻事件对应的新闻文档以句子为单元进行切分。

具体地，以句子为单元进行切分是指利用标点符号对新闻文档进行以句子为单元的切分。

在新闻文档中一个完整的句子，一般以“。”、“！”、“？”、“；”等标点符号结束。在进行句子切分时，以该类标点为标志对文档进行以句子为单位的切分，从而将一个新闻文档切分为句子的集合，对所述目标新闻事件对应的新闻文档进行相同的处理，进而获得目标新闻事件对应的句子集合。

步骤120、对所述句子集合中的每个句子进行词性标注，根据词性标注的结果，提取所述句子集合中与实体相关的语句，并根据实体与句子的对应关系，生成每个实体对应的语句集合；

具体地，利用现有的自然语言处理工具，对所述句子集合中的每个句子进行分词并基于分词结果进行词性标注。

利用词性标注的结果，提取出现了相应实体的语句，相应实体包括但不限于人物、组织机构等实体，出现了相应实体的语句即是与实体相关的语句。

通过统计句子与实体的对应关系，获得单个实体对应的语句集合。

通常一个句子集合中会出现多个实体，因此，可以获得多个实体对应的语句集合。

步骤130、确定目标实体对，并基于所述目标实体对中的两个实体各自对应的语句集合，提取所述目标实体对中的两个实体共同出现的语句，生成实体对语句集合。

在本发明实施例中，可以根据实际关注需求确定目标实体对，可以理解的是，针对每个实体对都可以采用相同的方法来生成实体对语句集合。

在前述步骤已经获得单个实体对应的语句集合的基础上，提取出所述目标实体对中的两个实体各自对应的语句集合，统计分析实体对共现的句子，生成实体对语句集合。

步骤200、分析所述实体对语句集合中各语句的语义特征，提取用以表示所述目标实体对中两个实体之间关系的多个关键词；

在本发明实施例中，基于语义特征进行实体关系抽取，具体包括：对实体对语句集合中的每个句子进行句法结构分析，提取实体的位置；然后基于实体的位置，提取实体的最近依赖动词；根据实体的最近依赖动词之间的关系，确定用以表示实体关系的关键词。

如图3所示，步骤200进一步包括：

步骤210、对所述实体对语句集合中各语句进行句法结构分析，获得各语句对应的依存句法结构，并分别获取所述目标实体对中的两个实体在所述各语句对应的依存句法结构中的位置；

依存句法是由法国语言学家l.tesniere最先提出，将句子分析成一颗依存句法树，描述出各个词语之间的依存关系，也即指出了词语之间在句法上的搭配关系，这种搭配关系是和语义相关联的。

在一个实施例中，步骤210进一步包括：

利用句法分析工具，对所述实体对语句集合中各语句进行句法结构分析，获得各语句对应的依存句法结构和词性标注结果；

从根节点开始遍历所述各语句对应的依存句法结构，直至找到所述目标实体对中的两个实体，并记录所述两个实体在所述各语句对应的依存句法结构中的位置；

具体地，利用现有的句法分析工具对实体对语句集合中的每个句子进行句法结构分析，获得每个句子的依存句法结构和词性标注结果。

从各个语句对应的依存句法结构的根节点开始遍历该依存句法结构，直至找到所述目标实体对中的两个实体，并记录所述两个实体在每个语句对应的依存句法结构中的位置。

步骤220、基于所述目标实体对中的两个实体在所述各语句对应的依存句法结构中的位置，分别获取所述目标实体对中两个实体在所述各语句中的最近依赖动词；

具体地，根据步骤210得到的实体位置和依存句法结构，确定目标实体对中的两个实体分别在所述实体对语句集合的每个语句中的最近依赖动词。最近依赖动词是指与实体存在依存的距离最近的动词。

也即在所述实体对语句集合的每个语句中分别获取目标实体对中的两个实体的最近依赖动词，一个实体在一个语句中对应有一个最近依赖动词。

要获取实体的最近依赖动词，需要对实体所在的依存句法结构进行分析。

在一个实施例中，步骤220进一步包括：

针对所述目标实体对中的一个实体，根据该实体在所述各语句对应的依存句法结构中的位置、所述各语句对应的依存句法结构和词性标注结果，对该实体与该实体所在语句中的其他实体之间的关系进行判断；

具体地，这一步要根据实体所在语句对应的依存句法结构，提取该语句中的其他实体，然后对该实体与语句中的其他实体之间的关系进行判断。

若该实体与该实体所在语句中的其他实体之间的关系为并列关系或者定中关系，则在该实体所在语句对应的依存句法结构中查找该实体的父节点和所述其他实体的父节点；

对该实体的父节点与所述其他实体的父节点之间的关系进行判断，如果所述父节点之间的关系仍为并列关系或者定中关系，则在该实体所在语句对应的依存句法结构中继续向上查找，直至节点之间的关系不存在并列关系或者定中关系时，记录此时与该实体距离最近的存在并列关系或者定中关系的实体或者非实体名词节点，将此节点作为该实体的依存关系节点；

若所述依存关系节点的父节点为动词，则将该动词作为该实体的最近依赖动词；或者，若该实体的最近依赖关系节点的父节点不是动词，则继续向上查找，直至找到动词或所述依存句法结构的root节点为止。

若找到root节点仍未找到节点为动词的节点，则获知该实体不存在最近依赖动词，如果找到某个节点为动词，则将该节点作为实体的最近依赖动词。

步骤230、判断所述目标实体对中的两个实体在所述各语句中的最近依赖动词之间的关系，确定用以表示所述目标实体对中两个实体之间关系的多个关键词。

具体地，判断实体对语句集合的每个语句中两个实体的最近依赖动词之间的关系，最近依赖动词之间的关系有几种情况，包括相同、并列等。根据最近依赖动词之间的关系，确定可以表示所述目标实体对中两个实体之间关系的多个关键词。

在一个实施例中，步骤230进一步包括：

针对所述实体对语句集合中的每个语句，若所述目标实体对中的两个实体在该语句中的最近依赖动词为相同的动词，则将所述相同的动词作为用以表示所述目标实体对中两个实体之间关系的关键词；或者，

若所述目标实体对中的两个实体在该语句中的最近依赖动词不相同，则判断两个最近依赖动词之间是否存在并列关系；

若所述两个最近依赖动词之间存在并列关系，则判断其中一个最近依赖动词的父节点是否与另一个最近依赖动词相同，若相同，则返回所述两个最近依赖动词作为用以表示所述目标实体对中两个实体之间关系的关键词；或者，若不相同，则向上遍历所述其中一个最近依赖动词的所有父节点直至找到与所述另一个最近依赖动词相同的节点，若遍历到根节点都没有找到与所述另一个最近依赖动词相同的节点，则确定所述两个最近依赖动词之间不存在并列关系。

值得说明的是，如果两个最近依赖动词之间既不相同，也不存在并列关系，认为该实体对之间不存在实体关系，关系词为空。

步骤300、计算所述多个关健词在所述实体对语句集合中的TF-IDF值，并根据所述TF-IDF值对所述多个关键词进行排序，根据排序结果选取前N个关键词作为最能表征所述目标实体对中两个实体之间关系的关系词；

其中，N为大于等于1的自然数。

具体地，TF-IDF作为一种权重计算的方法，广泛应用于信息检索以及数据挖掘中。TF-IDF是一种统计的方法，用以反映词在事件中的重要性。词频(term frequency，TF)指词在文档中出现的频率。词频是对次数的归一化，防止偏向较长的文档。逆文档频率(inversedocument frequency，IDF)是词普遍重要性的度量，与包含该词的文档数成反比。词在事件中的重要性与其在事件中出现的次数成正比，与出现该词的新闻文档数成反比。

本发明实施例通过关键词的TF-IDF值来表示关键词的重要性。

具体地，采用如下公式计算所述多个关健词在所述实体对语句集合中的TF-IDF值：

TF_IDF_i,j＝TF_i,j*IDF_i，

其中，n_ij表示关键词T_i在所述实体对语句集合的语句d_j中出现的次数，∑_kn_k,j表示所述语句d_j中所有词出现的次数，|D|表示所述实体对语句集合中语句的总数量，|{j:T_i∈d_j}|表示在所述实体对语句集合中出现关键词T_i的语句数量。

利用关键词在实体对语句集合中的TF_IDF值，对目标实体对之间的关键词进行排序，根据排序结果选取前N个关键词，作为最能表征所述目标实体对中两个实体之间关系的关系词。

本发明实施例提供的新闻事件内实体关系抽取方法，不需要预先定义实体关系类型以及进行大规模的人工标注数据，具有良好的扩展性，并且对中文新闻句子结构进行了深入分析，能够适应新闻文档涉及领域多和句式复杂的问题，在中文新闻事件上进行实体关系抽取取得了较好的效果。

如图4所示，为本发明实施例提供的新闻事件内实体关系抽取装置的结构示意图，该装置用于实现在前述各实施例中所述的新闻事件内实体关系抽取方法。因此，在前述各实施例中的方法中的描述和定义，可以用于本发明实施例中各执行模块的理解。

如图所示，该装置包括：生成模块410、提取模块420和排序模块430，其中，

生成模块410，用于基于目标新闻事件对应的新闻文档，提取所述目标新闻事件中与实体相关的语句，并确定目标实体对，从所述与实体相关的语句中提取所述目标实体对中的两个实体共同出现的语句，生成实体对语句集合；

提取模块420，用于分析所述实体对语句集合中各语句的语义特征关系，提取用以表示所述目标实体对中两个实体之间关系的多个关键词；

排序模块430，用于计算所述多个关健词在所述实体对语句集合中的TF-IDF值，并根据所述TF-IDF值对所述多个关键词进行排序，根据排序结果选取前N个关键词作为最能表征所述目标实体对中两个实体之间关系的关系词；

其中，N为大于等于1的自然数。

本发明实施例提供的新闻事件内实体关系抽取装置，不需要预先定义实体关系类型以及进行大规模的人工标注数据，具有良好的扩展性，并且对中文新闻句子结构进行了深入分析，能够适应新闻文档涉及领域多和句式复杂的问题，在中文新闻事件上进行实体关系抽取取得了较好的效果。

下面通过一个实例展示本发明所提供的实体关系抽取方法的效果。

实验数据来自清华大学知识工程实验室NewsMiner新闻挖掘系统。NewsMiner新闻挖掘系统将新闻分析和挖掘任务形式化为链接发现问题，通过基于上下文的知识链接方法和主题层次的社会内容对准方法，以建立新闻与外部源之间的联系，引入统一的事件中主题抽取和内部关系发现的概率模型，并对事件、实体根据相关性进行排序。

NewsMiner实验数据集主要利用该系统中的事件信息，事件结构中包含组成事件的新闻、事件的相关实体(人物、组织机构、地点)以及事件的关键词。新闻文档的句子多数为句子结构较为复杂的长句，而且句子中包含多个实体，实体之间可能存在较长距离的依存关系。NewsMiner系统的新闻来自于不同的数据源，不同数据源的新闻文档语言风格也不尽相同。这些问题给实体关系的抽取带来了一些挑战。

本发明重点关注人物、组织机构类实体之间的关系。利用自然语言处理工具对新闻文档进行分词、词性标注以及句法分析。本发明只分析实体之间存在的显性关系进行抽取，未对跨句子的实体关系以及实体之间的隐性关系进行分析和抽取。因此当一个句子中只存在一个实体时，认为不存在实体之间的关系，不对该句子进行分析；当一个句子中存在的实体数大于两个时，组成两个一组的实体对，利用本发明提出的方法分别进行分析，抽取实体之间的关系。

选取NewsMiner系统中的20个热点事件进行实验分析，由于没有标准的数据集对实验结果进行评测，选取5名领域内的专业人员对实验结果进行评判，每个人对所有的结果进行评判，结果为正确与错误。同一实体关系抽取结果，正确票数多，则结果正确；错误票数多，则结果错误。

实验结果如表1所示。本实验选取NewsMiner系统中20个热点事件，事件中共出现217个人物实体，通过实验抽取得到存在关系的实体对共有103对，通过人工评测，抽取的实体关系准确率为83.9％。从实验结果可以看出，我们提出的方法具有较高的准确率，得到的实体关系能够较好反映实体在事件内的真实关系。同时，由于本实验只考虑实体在同一句子中的共现情况，未考虑实体对跨句子的情况，许多实体对之间不存在共现关系。但是事件内的重要实体之间，由于出现频率较高，该类实体之间均存在关系。因此，本发明提出的方法抽取结果虽然具有一定的稀疏性，但仍能够很好地表示重要实体在事件内实体间的关系。

表1实体关系抽取结果统计表

事件数	实体数	存在关系的实体对	实体关系准确率
				20	217	103	83.9％

通过实验可以看出本发明得到得实体关系具有较高的准确性，验证了本发明提出方法的有效性。通过抽取得到的实体关系可以较好的掌握事件中人物之间的关系，便于用户迅速掌握事件的核心内容。

图5为本发明实施例提供的电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储在存储器530上并可在处理器510上运行的计算机程序，以执行上述各实施例提供的新闻事件内实体关系抽取方法，例如包括：基于目标新闻事件对应的新闻文档，提取所述目标新闻事件中与实体相关的语句，并确定目标实体对，从所述与实体相关的语句中提取所述目标实体对中的两个实体共同出现的语句，生成实体对语句集合；分析所述实体对语句集合中各语句的语义特征，提取用以表示所述目标实体对中两个实体之间关系的多个关键词；计算所述多个关健词在所述实体对语句集合中的TF-IDF值，并根据所述TF-IDF值对所述多个关键词进行排序，根据排序结果选取前N个关键词作为最能表征所述目标实体对中两个实体之间关系的关系词；其中，N为大于等于1的自然数。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各实施例提供的新闻事件内实体关系抽取方法，例如包括：基于目标新闻事件对应的新闻文档，提取所述目标新闻事件中与实体相关的语句，并确定目标实体对，从所述与实体相关的语句中提取所述目标实体对中的两个实体共同出现的语句，生成实体对语句集合；分析所述实体对语句集合中各语句的语义特征，提取用以表示所述目标实体对中两个实体之间关系的多个关键词；计算所述多个关健词在所述实体对语句集合中的TF-IDF值，并根据所述TF-IDF值对所述多个关键词进行排序，根据排序结果选取前N个关键词作为最能表征所述目标实体对中两个实体之间关系的关系词；其中，N为大于等于1的自然数。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种新闻事件内实体关系抽取方法，其特征在于，包括：

计算所述多个关键词在所述实体对语句集合中的TF-IDF值，并根据所述TF-IDF值对所述多个关键词进行排序，根据排序结果选取前N个关键词作为最能表征所述目标实体对中两个实体之间关系的关系词；

其中，N为大于等于1的自然数；

其中，所述提取所述目标新闻事件中与实体相关的语句，并确定目标实体对，从所述与实体相关的语句中提取所述目标实体对中的两个实体共同出现的语句，生成实体对语句集合的步骤，具体为：

将目标新闻事件对应的新闻文档进行以句子为单位的切分，生成所述目标新闻事件对应的句子集合；

对所述句子集合中的每个句子进行词性标注，根据词性标注的结果，提取所述句子集合中与实体相关的语句，并根据实体与句子的对应关系，生成每个实体对应的语句集合；

确定目标实体对，并基于所述目标实体对中的两个实体各自对应的语句集合，提取所述目标实体对中的两个实体共同出现的语句，生成实体对语句集合。

2.根据权利要求1所述的方法，其特征在于，所述分析所述实体对语句集合中各语句的语义特征，提取用以表示所述目标实体对中两个实体之间关系的多个关键词的步骤，具体为：

对所述实体对语句集合中各语句进行句法结构分析，获得各语句对应的依存句法结构，并分别获取所述目标实体对中的两个实体在所述各语句对应的依存句法结构中的位置；

基于所述目标实体对中的两个实体在所述各语句对应的依存句法结构中的位置，分别获取所述目标实体对中两个实体在所述各语句中的最近依赖动词；

判断所述目标实体对中的两个实体在所述各语句中的最近依赖动词之间的关系，确定用以表示所述目标实体对中两个实体之间关系的多个关键词。

3.根据权利要求2所述的方法，其特征在于，所述对所述实体对语句集合中各语句进行句法结构分析，获得各语句对应的依存句法结构，并分别获取所述目标实体对中的两个实体在所述各语句对应的依存句法结构中的位置的步骤，具体为：

从根节点开始遍历所述各语句对应的依存句法结构，直至找到所述目标实体对中的两个实体，并记录所述两个实体在所述各语句对应的依存句法结构中的位置。

4.根据权利要求3所述的方法，其特征在于，所述基于所述目标实体对中的两个实体在所述各语句对应的依存句法结构中的位置，分别获取所述目标实体对中的两个实体在所述各语句中的最近依赖动词的步骤，具体为：

对该实体的父节点与所述其他实体的父节点之间的关系进行判断，如果所述父节点之间的关系仍为并列关系或者定中关系，则在该实体所在语句对应的依存句法结构中继续向上查找，直至节点之间的关系不存在并列关系或者定中关系时，记录此时与该实体距离最近存在并列关系或者定中关系的名词节点，将此名词节点作为该实体的依存关系节点；

若所述依存关系节点的父节点为动词，则将该动词作为该实体的最近依赖动词；或者，若该实体的依存关系节点的父节点不是动词，则继续向上查找，直至找到动词或为root节点为止。

5.根据权利要求2所述的方法，其特征在于，所述判断所述目标实体对中的两个实体在所述各语句中的最近依赖动词之间的关系，确定用以表示所述目标实体对中两个实体之间关系的多个关键词的步骤，具体为：

若所述两个最近依赖动词之间存在并列关系，则判断其中一个最近依赖动词的父节点是否与另一个最近依赖动词相同，若相同，则返回所述两个最近依赖动词作为用以表示所述目标实体对中两个实体之间关系的关键词；或者，若不相同，则向上遍历所述其中一个最近依赖动词的父节点直至找到与所述另一个最近依赖动词相同的节点，返回所述两个最近依赖动词作为用以表示所述目标实体对中两个实体之间关系的关键词；或者，

若所述两个最近依赖动词既不相同也不存在并列关系，则获知所述目标实体对中的两个实体间不存在关系。

6.根据权利要求1所述的方法，其特征在于，采用如下公式计算所述多个关键词在所述实体对语句集合中的TF-IDF值：

TF_IDF_i,j＝TF_i,j*IDF_i，

7.一种新闻事件内实体关系抽取装置，其特征在于，包括：

生成模块，用于基于目标新闻事件对应的新闻文档，提取所述目标新闻事件对应的与实体相关的语句，并确定目标实体对，从所述与实体相关的语句中提取所述目标实体对中的两个实体共同出现的语句，生成实体对语句集合；

排序模块，用于计算所述多个关键词在所述实体对语句集合中的TF-IDF值，并根据所述TF-IDF值对所述多个关键词进行排序，根据排序结果选取前N个关键词作为最能表征所述目标实体对中两个实体之间关系的关系词；

其中，N为大于等于1的自然数；

其中，所述提取所述目标新闻事件中与实体相关的语句，并确定目标实体对，从所述与实体相关的语句中提取所述目标实体对中的两个实体共同出现的语句，生成实体对语句集合，具体为：

8.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至6任一所述的方法。