CN111444713B - 新闻事件内实体关系抽取方法及装置 - Google Patents
新闻事件内实体关系抽取方法及装置 Download PDFInfo
- Publication number
- CN111444713B CN111444713B CN201910038950.6A CN201910038950A CN111444713B CN 111444713 B CN111444713 B CN 111444713B CN 201910038950 A CN201910038950 A CN 201910038950A CN 111444713 B CN111444713 B CN 111444713B
- Authority
- CN
- China
- Prior art keywords
- entities
- entity
- relationship
- target
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012163 sequencing technique Methods 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 14
- 230000001419 dependent effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 6
- 238000004891 communication Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种新闻事件内实体关系抽取方法及装置,所述方法包括:提取目标新闻事件中与实体相关的语句,并确定目标实体对,提取所述目标实体对出现语句,生成实体对语句集合;分析实体对语句集合中各语句的语义特征,提取用以表示目标实体对关系的多个关键词;根据多个关键词在实体对语句集合中的TF‑IDF值进行排序,选取前N个关键词作为表征目标实体对关系的关系词。本发明不需要预先定义实体关系类型以及进行大规模的人工标注数据,具有良好的扩展性,并且对中文新闻句子结构进行了深入分析,能够适应新闻文档涉及领域多和句式复杂的问题,在中文新闻事件上进行实体关系抽取取得了较好的效果。
Description
技术领域
本发明实施例涉及自然语言处理技术领域,更具体地,涉及一种新闻事件内实体关系抽取方法及装置。
背景技术
近年来随着互联网的飞速发展,互联网承载的信息也越来越丰富,互联网以其丰富便捷实时的特点受到了人们的青睐,同时也改变了以往人们从传统媒体获取信息的习惯,成为人们获取信息的主要的途径。然而随着互联网的飞速发展,互联网新闻量也呈现爆炸式的增长。
海量的新闻容易给用户造成信息过载,人们无法从海量的新闻中快速准确地获取该事件的概况。同时,随着事件的深入发展,人们不仅仅只关注于事件概况,而是更期望深入了解事件更多的信息,比如在该事件内实体之间的关系以及实体与事件的关系。面对海量的网络新闻数据量,对新闻事件进行深入挖掘,分析具体的事件内实体之间的关系非常有必要。
目前实体关系抽取工作主要有面向特定领域关系抽取和开放领域关系抽取。特定领域的关系抽取,需要预先定义实体关系类型,利用人工标注的训练语料使用模式匹配及机器学习等方法抽取实体之间的关系。然而,利用人工对海量的网络新闻数据进行标注需要耗费大量的人力,是不现实的。同时,对于网络新闻来讲,包含的领域非常多,包括军事、政治、科技、娱乐以及体育等,无法预先划分领域和定义实体关系。目前许多开放领域的实体关系抽取工作针对微博等短文本领域进行研究,还有部分工作为了避免对领域知识的依赖引入知识库对实体关系抽取进行远程监督。但是中文新闻的句式较复杂,多为一些从句结构,经常包含多个实体,而且存在数据稀疏的问题,实体关系抽取效果并不好。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的新闻事件内实体关系抽取方法及装置。
第一方面,本发明实施例提供一种新闻事件内实体关系抽取方法,包括:
基于目标新闻事件对应的新闻文档,提取所述目标新闻事件中与实体相关的语句,并确定目标实体对,从所述与实体相关的语句中提取所述目标实体对中的两个实体共同出现的语句,生成实体对语句集合;
分析所述实体对语句集合中各语句的语义特征,提取用以表示所述目标实体对中两个实体之间关系的多个关键词;
计算所述多个关健词在所述实体对语句集合中的TF-IDF值,并根据所述TF-IDF值对所述多个关键词进行排序,根据排序结果选取前N个关键词作为最能表征所述目标实体对中两个实体之间关系的关系词;
其中,N为大于等于1的自然数。
第二方面,本发明实施例提供一种新闻事件内实体关系抽取装置,包括:
生成模块,用于基于目标新闻事件对应的新闻文档,提取所述目标新闻事件中与实体相关的语句,并确定目标实体对,从所述与实体相关的语句中提取所述目标实体对中的两个实体共同出现的语句,生成实体对语句集合;
提取模块,用于分析所述实体对语句集合中各语句的语义特征关系,提取用以表示所述目标实体对中两个实体之间关系的多个关键词;
排序模块,用于计算所述多个关健词在所述实体对语句集合中的TF-IDF值,并根据所述TF-IDF值对所述多个关键词进行排序,根据排序结果选取前N个关键词作为最能表征所述目标实体对中两个实体之间关系的关系词;
其中,N为大于等于1的自然数。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的新闻事件内实体关系抽取方法及装置,不需要预先定义实体关系类型以及进行大规模的人工标注数据,具有良好的扩展性,并且对中文新闻句子结构进行了深入分析,能够适应新闻文档涉及领域多和句式复杂的问题,在中文新闻事件上进行实体关系抽取取得了较好的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的新闻事件内实体关系抽取方法的流程示意图;
图2为本发明实施例提供的图1中步骤100的流程示意图;
图3为本发明实施例提供的图1中步骤200的流程示意图;
图4为本发明实施例提供的新闻事件内实体关系抽取装置的结构示意图;
图5为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的新闻事件内实体关系抽取方法的流程示意图,如图所示,包括:
步骤100、基于目标新闻事件对应的新闻文档,提取所述目标新闻事件中与实体相关的语句,并确定目标实体对,从所述与实体相关的语句中提取所述目标实体对中的两个实体共同出现的语句,生成实体对语句集合;
具体地,提取目标新闻事件中与实体对相关的语句,构建实体对语句集合。实体对是指一对实体,实体是新闻事件的重要组成部分,包括但不限于人物、组织机构、地点等。
首先确定目标新闻事件,然后获取该目标新闻事件对应的新闻文档。在本发明实施例中,目标新闻事件对应的新闻文档为中文。
对新闻文档进行逐句分析,提取出与实体相关的语句。通常,新闻文档中会出现多个实体,确定要分析的实体对作为目标实体对,并从与实体相关的语句中提取出同时出现了目标实体对中的两个实体的语句,即提取出目标实体对中的两个实体共同出现的语句,从而生成实体对语句集合。
如图2所示,步骤100进一步包括:
步骤110、将目标新闻事件对应的新闻文档进行以句子为单位的切分,生成所述目标新闻事件对应的句子集合;
句子是句法语义特征分析的基本单元,因此需要将目标新闻事件对应的新闻文档以句子为单元进行切分。
具体地,以句子为单元进行切分是指利用标点符号对新闻文档进行以句子为单元的切分。
在新闻文档中一个完整的句子,一般以“。”、“!”、“?”、“;”等标点符号结束。在进行句子切分时,以该类标点为标志对文档进行以句子为单位的切分,从而将一个新闻文档切分为句子的集合,对所述目标新闻事件对应的新闻文档进行相同的处理,进而获得目标新闻事件对应的句子集合。
步骤120、对所述句子集合中的每个句子进行词性标注,根据词性标注的结果,提取所述句子集合中与实体相关的语句,并根据实体与句子的对应关系,生成每个实体对应的语句集合;
具体地,利用现有的自然语言处理工具,对所述句子集合中的每个句子进行分词并基于分词结果进行词性标注。
利用词性标注的结果,提取出现了相应实体的语句,相应实体包括但不限于人物、组织机构等实体,出现了相应实体的语句即是与实体相关的语句。
通过统计句子与实体的对应关系,获得单个实体对应的语句集合。
通常一个句子集合中会出现多个实体,因此,可以获得多个实体对应的语句集合。
步骤130、确定目标实体对,并基于所述目标实体对中的两个实体各自对应的语句集合,提取所述目标实体对中的两个实体共同出现的语句,生成实体对语句集合。
在本发明实施例中,可以根据实际关注需求确定目标实体对,可以理解的是,针对每个实体对都可以采用相同的方法来生成实体对语句集合。
在前述步骤已经获得单个实体对应的语句集合的基础上,提取出所述目标实体对中的两个实体各自对应的语句集合,统计分析实体对共现的句子,生成实体对语句集合。
步骤200、分析所述实体对语句集合中各语句的语义特征,提取用以表示所述目标实体对中两个实体之间关系的多个关键词;
在本发明实施例中,基于语义特征进行实体关系抽取,具体包括:对实体对语句集合中的每个句子进行句法结构分析,提取实体的位置;然后基于实体的位置,提取实体的最近依赖动词;根据实体的最近依赖动词之间的关系,确定用以表示实体关系的关键词。
如图3所示,步骤200进一步包括:
步骤210、对所述实体对语句集合中各语句进行句法结构分析,获得各语句对应的依存句法结构,并分别获取所述目标实体对中的两个实体在所述各语句对应的依存句法结构中的位置;
依存句法是由法国语言学家l.tesniere最先提出,将句子分析成一颗依存句法树,描述出各个词语之间的依存关系,也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。
在一个实施例中,步骤210进一步包括:
利用句法分析工具,对所述实体对语句集合中各语句进行句法结构分析,获得各语句对应的依存句法结构和词性标注结果;
从根节点开始遍历所述各语句对应的依存句法结构,直至找到所述目标实体对中的两个实体,并记录所述两个实体在所述各语句对应的依存句法结构中的位置;
具体地,利用现有的句法分析工具对实体对语句集合中的每个句子进行句法结构分析,获得每个句子的依存句法结构和词性标注结果。
从各个语句对应的依存句法结构的根节点开始遍历该依存句法结构,直至找到所述目标实体对中的两个实体,并记录所述两个实体在每个语句对应的依存句法结构中的位置。
步骤220、基于所述目标实体对中的两个实体在所述各语句对应的依存句法结构中的位置,分别获取所述目标实体对中两个实体在所述各语句中的最近依赖动词;
具体地,根据步骤210得到的实体位置和依存句法结构,确定目标实体对中的两个实体分别在所述实体对语句集合的每个语句中的最近依赖动词。最近依赖动词是指与实体存在依存的距离最近的动词。
也即在所述实体对语句集合的每个语句中分别获取目标实体对中的两个实体的最近依赖动词,一个实体在一个语句中对应有一个最近依赖动词。
要获取实体的最近依赖动词,需要对实体所在的依存句法结构进行分析。
在一个实施例中,步骤220进一步包括:
针对所述目标实体对中的一个实体,根据该实体在所述各语句对应的依存句法结构中的位置、所述各语句对应的依存句法结构和词性标注结果,对该实体与该实体所在语句中的其他实体之间的关系进行判断;
具体地,这一步要根据实体所在语句对应的依存句法结构,提取该语句中的其他实体,然后对该实体与语句中的其他实体之间的关系进行判断。
若该实体与该实体所在语句中的其他实体之间的关系为并列关系或者定中关系,则在该实体所在语句对应的依存句法结构中查找该实体的父节点和所述其他实体的父节点;
对该实体的父节点与所述其他实体的父节点之间的关系进行判断,如果所述父节点之间的关系仍为并列关系或者定中关系,则在该实体所在语句对应的依存句法结构中继续向上查找,直至节点之间的关系不存在并列关系或者定中关系时,记录此时与该实体距离最近的存在并列关系或者定中关系的实体或者非实体名词节点,将此节点作为该实体的依存关系节点;
若所述依存关系节点的父节点为动词,则将该动词作为该实体的最近依赖动词;或者,若该实体的最近依赖关系节点的父节点不是动词,则继续向上查找,直至找到动词或所述依存句法结构的root节点为止。
若找到root节点仍未找到节点为动词的节点,则获知该实体不存在最近依赖动词,如果找到某个节点为动词,则将该节点作为实体的最近依赖动词。
步骤230、判断所述目标实体对中的两个实体在所述各语句中的最近依赖动词之间的关系,确定用以表示所述目标实体对中两个实体之间关系的多个关键词。
具体地,判断实体对语句集合的每个语句中两个实体的最近依赖动词之间的关系,最近依赖动词之间的关系有几种情况,包括相同、并列等。根据最近依赖动词之间的关系,确定可以表示所述目标实体对中两个实体之间关系的多个关键词。
在一个实施例中,步骤230进一步包括:
针对所述实体对语句集合中的每个语句,若所述目标实体对中的两个实体在该语句中的最近依赖动词为相同的动词,则将所述相同的动词作为用以表示所述目标实体对中两个实体之间关系的关键词;或者,
若所述目标实体对中的两个实体在该语句中的最近依赖动词不相同,则判断两个最近依赖动词之间是否存在并列关系;
若所述两个最近依赖动词之间存在并列关系,则判断其中一个最近依赖动词的父节点是否与另一个最近依赖动词相同,若相同,则返回所述两个最近依赖动词作为用以表示所述目标实体对中两个实体之间关系的关键词;或者,若不相同,则向上遍历所述其中一个最近依赖动词的所有父节点直至找到与所述另一个最近依赖动词相同的节点,若遍历到根节点都没有找到与所述另一个最近依赖动词相同的节点,则确定所述两个最近依赖动词之间不存在并列关系。
值得说明的是,如果两个最近依赖动词之间既不相同,也不存在并列关系,认为该实体对之间不存在实体关系,关系词为空。
步骤300、计算所述多个关健词在所述实体对语句集合中的TF-IDF值,并根据所述TF-IDF值对所述多个关键词进行排序,根据排序结果选取前N个关键词作为最能表征所述目标实体对中两个实体之间关系的关系词;
其中,N为大于等于1的自然数。
具体地,TF-IDF作为一种权重计算的方法,广泛应用于信息检索以及数据挖掘中。TF-IDF是一种统计的方法,用以反映词在事件中的重要性。词频(term frequency,TF)指词在文档中出现的频率。词频是对次数的归一化,防止偏向较长的文档。逆文档频率(inversedocument frequency,IDF)是词普遍重要性的度量,与包含该词的文档数成反比。词在事件中的重要性与其在事件中出现的次数成正比,与出现该词的新闻文档数成反比。
本发明实施例通过关键词的TF-IDF值来表示关键词的重要性。
具体地,采用如下公式计算所述多个关健词在所述实体对语句集合中的TF-IDF值:
TF_IDFi,j=TFi,j*IDFi,
其中,nij表示关键词Ti在所述实体对语句集合的语句dj中出现的次数,∑knk,j表示所述语句dj中所有词出现的次数,|D|表示所述实体对语句集合中语句的总数量,|{j:Ti∈dj}|表示在所述实体对语句集合中出现关键词Ti的语句数量。
利用关键词在实体对语句集合中的TF_IDF值,对目标实体对之间的关键词进行排序,根据排序结果选取前N个关键词,作为最能表征所述目标实体对中两个实体之间关系的关系词。
本发明实施例提供的新闻事件内实体关系抽取方法,不需要预先定义实体关系类型以及进行大规模的人工标注数据,具有良好的扩展性,并且对中文新闻句子结构进行了深入分析,能够适应新闻文档涉及领域多和句式复杂的问题,在中文新闻事件上进行实体关系抽取取得了较好的效果。
如图4所示,为本发明实施例提供的新闻事件内实体关系抽取装置的结构示意图,该装置用于实现在前述各实施例中所述的新闻事件内实体关系抽取方法。因此,在前述各实施例中的方法中的描述和定义,可以用于本发明实施例中各执行模块的理解。
如图所示,该装置包括:生成模块410、提取模块420和排序模块430,其中,
生成模块410,用于基于目标新闻事件对应的新闻文档,提取所述目标新闻事件中与实体相关的语句,并确定目标实体对,从所述与实体相关的语句中提取所述目标实体对中的两个实体共同出现的语句,生成实体对语句集合;
提取模块420,用于分析所述实体对语句集合中各语句的语义特征关系,提取用以表示所述目标实体对中两个实体之间关系的多个关键词;
排序模块430,用于计算所述多个关健词在所述实体对语句集合中的TF-IDF值,并根据所述TF-IDF值对所述多个关键词进行排序,根据排序结果选取前N个关键词作为最能表征所述目标实体对中两个实体之间关系的关系词;
其中,N为大于等于1的自然数。
本发明实施例提供的新闻事件内实体关系抽取装置,不需要预先定义实体关系类型以及进行大规模的人工标注数据,具有良好的扩展性,并且对中文新闻句子结构进行了深入分析,能够适应新闻文档涉及领域多和句式复杂的问题,在中文新闻事件上进行实体关系抽取取得了较好的效果。
下面通过一个实例展示本发明所提供的实体关系抽取方法的效果。
实验数据来自清华大学知识工程实验室NewsMiner新闻挖掘系统。NewsMiner新闻挖掘系统将新闻分析和挖掘任务形式化为链接发现问题,通过基于上下文的知识链接方法和主题层次的社会内容对准方法,以建立新闻与外部源之间的联系,引入统一的事件中主题抽取和内部关系发现的概率模型,并对事件、实体根据相关性进行排序。
NewsMiner实验数据集主要利用该系统中的事件信息,事件结构中包含组成事件的新闻、事件的相关实体(人物、组织机构、地点)以及事件的关键词。新闻文档的句子多数为句子结构较为复杂的长句,而且句子中包含多个实体,实体之间可能存在较长距离的依存关系。NewsMiner系统的新闻来自于不同的数据源,不同数据源的新闻文档语言风格也不尽相同。这些问题给实体关系的抽取带来了一些挑战。
本发明重点关注人物、组织机构类实体之间的关系。利用自然语言处理工具对新闻文档进行分词、词性标注以及句法分析。本发明只分析实体之间存在的显性关系进行抽取,未对跨句子的实体关系以及实体之间的隐性关系进行分析和抽取。因此当一个句子中只存在一个实体时,认为不存在实体之间的关系,不对该句子进行分析;当一个句子中存在的实体数大于两个时,组成两个一组的实体对,利用本发明提出的方法分别进行分析,抽取实体之间的关系。
选取NewsMiner系统中的20个热点事件进行实验分析,由于没有标准的数据集对实验结果进行评测,选取5名领域内的专业人员对实验结果进行评判,每个人对所有的结果进行评判,结果为正确与错误。同一实体关系抽取结果,正确票数多,则结果正确;错误票数多,则结果错误。
实验结果如表1所示。本实验选取NewsMiner系统中20个热点事件,事件中共出现217个人物实体,通过实验抽取得到存在关系的实体对共有103对,通过人工评测,抽取的实体关系准确率为83.9%。从实验结果可以看出,我们提出的方法具有较高的准确率,得到的实体关系能够较好反映实体在事件内的真实关系。同时,由于本实验只考虑实体在同一句子中的共现情况,未考虑实体对跨句子的情况,许多实体对之间不存在共现关系。但是事件内的重要实体之间,由于出现频率较高,该类实体之间均存在关系。因此,本发明提出的方法抽取结果虽然具有一定的稀疏性,但仍能够很好地表示重要实体在事件内实体间的关系。
表1实体关系抽取结果统计表
事件数 | 实体数 | 存在关系的实体对 | 实体关系准确率 |
20 | 217 | 103 | 83.9% |
通过实验可以看出本发明得到得实体关系具有较高的准确性,验证了本发明提出方法的有效性。通过抽取得到的实体关系可以较好的掌握事件中人物之间的关系,便于用户迅速掌握事件的核心内容。
图5为本发明实施例提供的电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储在存储器530上并可在处理器510上运行的计算机程序,以执行上述各实施例提供的新闻事件内实体关系抽取方法,例如包括:基于目标新闻事件对应的新闻文档,提取所述目标新闻事件中与实体相关的语句,并确定目标实体对,从所述与实体相关的语句中提取所述目标实体对中的两个实体共同出现的语句,生成实体对语句集合;分析所述实体对语句集合中各语句的语义特征,提取用以表示所述目标实体对中两个实体之间关系的多个关键词;计算所述多个关健词在所述实体对语句集合中的TF-IDF值,并根据所述TF-IDF值对所述多个关键词进行排序,根据排序结果选取前N个关键词作为最能表征所述目标实体对中两个实体之间关系的关系词;其中,N为大于等于1的自然数。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各实施例提供的新闻事件内实体关系抽取方法,例如包括:基于目标新闻事件对应的新闻文档,提取所述目标新闻事件中与实体相关的语句,并确定目标实体对,从所述与实体相关的语句中提取所述目标实体对中的两个实体共同出现的语句,生成实体对语句集合;分析所述实体对语句集合中各语句的语义特征,提取用以表示所述目标实体对中两个实体之间关系的多个关键词;计算所述多个关健词在所述实体对语句集合中的TF-IDF值,并根据所述TF-IDF值对所述多个关键词进行排序,根据排序结果选取前N个关键词作为最能表征所述目标实体对中两个实体之间关系的关系词;其中,N为大于等于1的自然数。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种新闻事件内实体关系抽取方法,其特征在于,包括:
基于目标新闻事件对应的新闻文档,提取所述目标新闻事件中与实体相关的语句,并确定目标实体对,从所述与实体相关的语句中提取所述目标实体对中的两个实体共同出现的语句,生成实体对语句集合;
分析所述实体对语句集合中各语句的语义特征,提取用以表示所述目标实体对中两个实体之间关系的多个关键词;
计算所述多个关键词在所述实体对语句集合中的TF-IDF值,并根据所述TF-IDF值对所述多个关键词进行排序,根据排序结果选取前N个关键词作为最能表征所述目标实体对中两个实体之间关系的关系词;
其中,N为大于等于1的自然数;
其中,所述提取所述目标新闻事件中与实体相关的语句,并确定目标实体对,从所述与实体相关的语句中提取所述目标实体对中的两个实体共同出现的语句,生成实体对语句集合的步骤,具体为:
将目标新闻事件对应的新闻文档进行以句子为单位的切分,生成所述目标新闻事件对应的句子集合;
对所述句子集合中的每个句子进行词性标注,根据词性标注的结果,提取所述句子集合中与实体相关的语句,并根据实体与句子的对应关系,生成每个实体对应的语句集合;
确定目标实体对,并基于所述目标实体对中的两个实体各自对应的语句集合,提取所述目标实体对中的两个实体共同出现的语句,生成实体对语句集合。
2.根据权利要求1所述的方法,其特征在于,所述分析所述实体对语句集合中各语句的语义特征,提取用以表示所述目标实体对中两个实体之间关系的多个关键词的步骤,具体为:
对所述实体对语句集合中各语句进行句法结构分析,获得各语句对应的依存句法结构,并分别获取所述目标实体对中的两个实体在所述各语句对应的依存句法结构中的位置;
基于所述目标实体对中的两个实体在所述各语句对应的依存句法结构中的位置,分别获取所述目标实体对中两个实体在所述各语句中的最近依赖动词;
判断所述目标实体对中的两个实体在所述各语句中的最近依赖动词之间的关系,确定用以表示所述目标实体对中两个实体之间关系的多个关键词。
3.根据权利要求2所述的方法,其特征在于,所述对所述实体对语句集合中各语句进行句法结构分析,获得各语句对应的依存句法结构,并分别获取所述目标实体对中的两个实体在所述各语句对应的依存句法结构中的位置的步骤,具体为:
利用句法分析工具,对所述实体对语句集合中各语句进行句法结构分析,获得各语句对应的依存句法结构和词性标注结果;
从根节点开始遍历所述各语句对应的依存句法结构,直至找到所述目标实体对中的两个实体,并记录所述两个实体在所述各语句对应的依存句法结构中的位置。
4.根据权利要求3所述的方法,其特征在于,所述基于所述目标实体对中的两个实体在所述各语句对应的依存句法结构中的位置,分别获取所述目标实体对中的两个实体在所述各语句中的最近依赖动词的步骤,具体为:
针对所述目标实体对中的一个实体,根据该实体在所述各语句对应的依存句法结构中的位置、所述各语句对应的依存句法结构和词性标注结果,对该实体与该实体所在语句中的其他实体之间的关系进行判断;
若该实体与该实体所在语句中的其他实体之间的关系为并列关系或者定中关系,则在该实体所在语句对应的依存句法结构中查找该实体的父节点和所述其他实体的父节点;
对该实体的父节点与所述其他实体的父节点之间的关系进行判断,如果所述父节点之间的关系仍为并列关系或者定中关系,则在该实体所在语句对应的依存句法结构中继续向上查找,直至节点之间的关系不存在并列关系或者定中关系时,记录此时与该实体距离最近存在并列关系或者定中关系的名词节点,将此名词节点作为该实体的依存关系节点;
若所述依存关系节点的父节点为动词,则将该动词作为该实体的最近依赖动词;或者,若该实体的依存关系节点的父节点不是动词,则继续向上查找,直至找到动词或为root节点为止。
5.根据权利要求2所述的方法,其特征在于,所述判断所述目标实体对中的两个实体在所述各语句中的最近依赖动词之间的关系,确定用以表示所述目标实体对中两个实体之间关系的多个关键词的步骤,具体为:
针对所述实体对语句集合中的每个语句,若所述目标实体对中的两个实体在该语句中的最近依赖动词为相同的动词,则将所述相同的动词作为用以表示所述目标实体对中两个实体之间关系的关键词;或者,
若所述目标实体对中的两个实体在该语句中的最近依赖动词不相同,则判断两个最近依赖动词之间是否存在并列关系;
若所述两个最近依赖动词之间存在并列关系,则判断其中一个最近依赖动词的父节点是否与另一个最近依赖动词相同,若相同,则返回所述两个最近依赖动词作为用以表示所述目标实体对中两个实体之间关系的关键词;或者,若不相同,则向上遍历所述其中一个最近依赖动词的父节点直至找到与所述另一个最近依赖动词相同的节点,返回所述两个最近依赖动词作为用以表示所述目标实体对中两个实体之间关系的关键词;或者,
若所述两个最近依赖动词既不相同也不存在并列关系,则获知所述目标实体对中的两个实体间不存在关系。
7.一种新闻事件内实体关系抽取装置,其特征在于,包括:
生成模块,用于基于目标新闻事件对应的新闻文档,提取所述目标新闻事件对应的与实体相关的语句,并确定目标实体对,从所述与实体相关的语句中提取所述目标实体对中的两个实体共同出现的语句,生成实体对语句集合;
提取模块,用于分析所述实体对语句集合中各语句的语义特征关系,提取用以表示所述目标实体对中两个实体之间关系的多个关键词;
排序模块,用于计算所述多个关键词在所述实体对语句集合中的TF-IDF值,并根据所述TF-IDF值对所述多个关键词进行排序,根据排序结果选取前N个关键词作为最能表征所述目标实体对中两个实体之间关系的关系词;
其中,N为大于等于1的自然数;
其中,所述提取所述目标新闻事件中与实体相关的语句,并确定目标实体对,从所述与实体相关的语句中提取所述目标实体对中的两个实体共同出现的语句,生成实体对语句集合,具体为:
将目标新闻事件对应的新闻文档进行以句子为单位的切分,生成所述目标新闻事件对应的句子集合;
对所述句子集合中的每个句子进行词性标注,根据词性标注的结果,提取所述句子集合中与实体相关的语句,并根据实体与句子的对应关系,生成每个实体对应的语句集合;
确定目标实体对,并基于所述目标实体对中的两个实体各自对应的语句集合,提取所述目标实体对中的两个实体共同出现的语句,生成实体对语句集合。
8.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。
9.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至6任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910038950.6A CN111444713B (zh) | 2019-01-16 | 2019-01-16 | 新闻事件内实体关系抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910038950.6A CN111444713B (zh) | 2019-01-16 | 2019-01-16 | 新闻事件内实体关系抽取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111444713A CN111444713A (zh) | 2020-07-24 |
CN111444713B true CN111444713B (zh) | 2022-04-29 |
Family
ID=71652294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910038950.6A Active CN111444713B (zh) | 2019-01-16 | 2019-01-16 | 新闻事件内实体关系抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444713B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859922B (zh) * | 2020-07-31 | 2023-12-01 | 上海银行股份有限公司 | 实体关系抽取技术在银行风控中的应用方法 |
CN112434535B (zh) * | 2020-11-24 | 2023-05-02 | 上海浦东发展银行股份有限公司 | 基于多模型的要素抽取方法、装置、设备及存储介质 |
CN113468325A (zh) * | 2021-06-09 | 2021-10-01 | 广西电网有限责任公司 | 一种基于关联句选择和关系图推理的文档级关系抽取方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102955837A (zh) * | 2011-12-13 | 2013-03-06 | 华东师范大学 | 一种基于中文词对关系相似度的类比检索控制方法 |
CN106484675A (zh) * | 2016-09-29 | 2017-03-08 | 北京理工大学 | 融合分布式语义和句义特征的人物关系抽取方法 |
CN107180045A (zh) * | 2016-03-10 | 2017-09-19 | 中国科学院地理科学与资源研究所 | 一种互联网文本蕴含地理实体关系的抽取方法 |
CN108415900A (zh) * | 2018-02-05 | 2018-08-17 | 中国科学院信息工程研究所 | 一种基于多级共现关系词图的可视化文本信息发现方法及系统 |
CN109190094A (zh) * | 2018-09-05 | 2019-01-11 | 盈嘉互联(北京)科技有限公司 | 基于ifc标准的建筑信息模型文件切分方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170337481A1 (en) * | 2016-05-17 | 2017-11-23 | Xerox Corporation | Complex embeddings for simple link prediction |
-
2019
- 2019-01-16 CN CN201910038950.6A patent/CN111444713B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102955837A (zh) * | 2011-12-13 | 2013-03-06 | 华东师范大学 | 一种基于中文词对关系相似度的类比检索控制方法 |
CN107180045A (zh) * | 2016-03-10 | 2017-09-19 | 中国科学院地理科学与资源研究所 | 一种互联网文本蕴含地理实体关系的抽取方法 |
CN106484675A (zh) * | 2016-09-29 | 2017-03-08 | 北京理工大学 | 融合分布式语义和句义特征的人物关系抽取方法 |
CN108415900A (zh) * | 2018-02-05 | 2018-08-17 | 中国科学院信息工程研究所 | 一种基于多级共现关系词图的可视化文本信息发现方法及系统 |
CN109190094A (zh) * | 2018-09-05 | 2019-01-11 | 盈嘉互联(北京)科技有限公司 | 基于ifc标准的建筑信息模型文件切分方法 |
Non-Patent Citations (2)
Title |
---|
Feiyue Ye 等."Research on Pattern Representation Based on Keyword and Word Embedding in Chinese Entity Relation Extraction".《Journal of Advanced Computational Intelligence and Intelligent Informatics 》.2018,第22卷(第4期), * |
甘丽新 等." 基于句法语义特征的中文实体关系抽取".《计算机研究与发展》.2016,第53卷(第2期), * |
Also Published As
Publication number | Publication date |
---|---|
CN111444713A (zh) | 2020-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104794B (zh) | 一种基于主题词的文本相似度匹配方法 | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
US11386136B2 (en) | Automatic construction method of software bug knowledge graph | |
US10496756B2 (en) | Sentence creation system | |
CN104636466B (zh) | 一种面向开放网页的实体属性抽取方法和系统 | |
CN110502642B (zh) | 一种基于依存句法分析与规则的实体关系抽取方法 | |
CN108319583B (zh) | 从中文语料库提取知识的方法与系统 | |
Plank | Domain adaptation for parsing | |
CN111444713B (zh) | 新闻事件内实体关系抽取方法及装置 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN103646112A (zh) | 利用了网络搜索的依存句法的领域自适应方法 | |
CN115186654B (zh) | 一种公文文本摘要生成方法 | |
JP4534666B2 (ja) | テキスト文検索装置及びテキスト文検索プログラム | |
CN116227466B (zh) | 一种语义不同措辞相似的句子生成方法、装置及设备 | |
CN115757819A (zh) | 裁判文书中引用法条信息获取方法及装置 | |
CN106372232B (zh) | 基于人工智能的信息挖掘方法和装置 | |
CN111737420A (zh) | 一种基于争议焦点的类案检索方法及系统及装置及介质 | |
CN111259661B (zh) | 一种基于商品评论的新情感词提取方法 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN110909532B (zh) | 用户名称匹配方法、装置、计算机设备和存储介质 | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
CN112632272A (zh) | 基于句法分析的微博情感分类方法和系统 | |
CN112528640A (zh) | 一种基于异常子图检测的领域术语自动抽取方法 | |
CN113934910A (zh) | 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法 | |
CN114064855A (zh) | 一种基于变压器知识库的信息检索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |