CN112883733A

CN112883733A - 基于文本实体提取快速构建事件关系的分析方法

Info

Publication number: CN112883733A
Application number: CN202011431362.8A
Authority: CN
Inventors: 周道华; 李武鸿; 杨陈; 周涛; 曾俊; 黄泓蓓; 黄维; 伏彦林; 刘杰; 王小腊; 洪江; 彭容; 罗玉; 周林; 张明娟; 许江泽; 吴婷婷; 詹飞
Original assignee: Chengdu Zhongke Daqi Software Co ltd
Current assignee: Chengdu Zhongke Daqi Software Co ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-06-01

Abstract

本发明涉及一种基于文本实体提取快速构建事件关系的分析方法，根据目标事件的内容，确定目标事件的主体关键词，基于主体关键词对大数据下的文本进行相应的主体关键词提取，得到相应的目标文本；根据主体关键词的类型，从目标文本中提取与关键词有存在逻辑关系的词汇，或根据目标事件的内容从目标文本中提取出与该内容存在关联的词汇；将关键词与其对应的词汇逐一进行组合，得到对应的事件关系描述，本发明基于关键词的分析，从文本中提取含义清晰准确的关键词，然后根据关键词的类型与文本中的其余词组或关键词进行组合，从而快速构建出该文本所表述的事件关系。

Description

基于文本实体提取快速构建事件关系的分析方法

技术领域

本发明涉及新闻分析领域，具体涉及一种基于文本实体提取快速构建事件关系的分析方法。

背景技术

就目前而言新闻分析采用的普遍方式是采用关键词进行分析，利用大数据爬虫技术获取文章中的关键词，当文章中出现对应的关键词时，则将该文章作为需求的数据，并打上相应的标签。例如公开号CN109284384A的中国专利就公开了种文本分析方法、装置、电子设备及可读存储介质，所述方法包括：利用预设关键词对文本进行匹配，得到与所述预设关键词匹配的匹配文本以及不与所述预设关键词匹配的非匹配文本，其中，所述预设关键词属于多个目标类别，并且与特定预设关键词匹配的匹配文本与所述特定关键词属于同一目标类别；针对每一条子文本进行分词，并根据分词结果为每一条文本生成文本向量；根据属于每一目标类别的全部匹配文本的文本向量计算每一目标类别的目标文本向量；计算每一条非匹配文本的文本向量与所述目标文本向量的相似度以确定所述非匹配文本所属的类别，可以真实反映文本的观点倾向，提高文本分析的准确率。

也就是说现有技术基本都是基于关键词机进行文本分析，最后得到的结构也仅仅是对文本进行相应的标签标识处理，而对于文本所描述的事件则无法通过关键词分析得到。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于文本实体提取快速构建事件关系的分析方法，基于关键词的分析，从文本中提取含义清晰准确的关键词，然后根据关键词的类型与文本中的其余词组或关键词进行组合，从而快速构建出该文本所表述的事件关系。

本发明的目的是通过以下技术方案来实现的：

一种基于文本实体提取快速构建事件关系的分析方法，包括：

步骤S100：根据目标事件的内容，确定目标事件的主体关键词，基于主体关键词对大数据下的文本进行相应的主体关键词提取；

步骤S200：判断该主体关键词是否有第二含义或者存在歧义，若有，则结合目标文本的上下文进行识别，从而排除含义与主体关键词不符的干扰文本，得到相应的目标文本；

步骤S300：根据主体关键词的类型，从目标文本中提取与关键词有存在逻辑关系的词汇，或根据目标事件的内容从目标文本中提取出与该内容存在关联的词汇；

步骤S400：将关键词与其对应的词汇逐一进行组合，得到对应的事件关系描述。

进一步的，所述主体关键词包括一个或多个关键词。

进一步的，所述逻辑关系包括时间关系、地点关系、人物关系。

进一步的，所述存在逻辑关系的词汇是指具有逻辑关系的一类词汇，而不是单一的词汇。

进一步的，所述文本是指新闻文本或期刊文章文本。

进一步的，所述目标文本的获取方式采用网络爬虫技术识别大数据中的文本，从而提取出具有对应主体关键词的初步目标文本。

进一步的，所述干扰文本的排除，是在初步目标文本的基础上，对主体关键词具有第二含义所对应部分的目标文本进行有关主体关键词含义有关的解释、说明、证明的记载进行分析，从而排除含义与目标事件不符的初步目标文本。

本发明的有益效果是：和传统的新闻分析相比，本方案不仅仅是针对关键词的分析，而是根据需要的事件进行主题进行相应的新闻分析，获取与事件主题相关的目标文本，然后从文本中找出与事件主题存在逻辑关系的词汇，从而快速获得相应的事件关系描述。

具体实施方式

下面结合具体实施例进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

可选的，一种基于文本实体提取快速构建事件关系的分析方法，为了使得目标文本的提取准确无误，还应该对主体关键词进行甄别，也就是对具有第二含义的主体关键词进行排除，以“苹果”为例，很显然的，基于常识可以知道，苹果既是一种水果的名称，也是一种手机的商标，那么在一个事件关系中，如果是要分析苹果手机的销量，那么就会出现苹果水果的销量的相关文章，那么就要结合上下文对其进行排除，假如，某一篇文章中既包含了苹果，同时全文还包括到处关于吃苹果的好处，那么很显然的，这个目标文本就不是所需的目标文本，理应对其进行排除。

可选的，一种基于文本实体提取快速构建事件关系的分析方法，主体关键词包括一个或多个关键词。逻辑关系包括时间关系、地点关系、人物关系。

可选的，一种基于文本实体提取快速构建事件关系的分析方法，在本方法中所指的事件关系的构造包括两种，一种是已知的关系需要数据，例如上文所描述的苹果手机销量，在这个事件中的关系是已经明确的，唯一缺少的是数据，因此需要对其进行数据分析。然而对于一个突发事件而言，所需构造的时间关系是不唯一的，甚至是没有一个明确的指向，因此必须是基于分析结果进行构造。

可选的，一种基于文本实体提取快速构建事件关系的分析方法，存在逻辑关系的词汇是指具有逻辑关系的一类词汇，而不是单一的词汇。例如时间关系，凡是带表示时间的词汇都作为分析目标，人物关系，则可以是人名，亲属关系称呼、职位、官职等等。

可选的，一种基于文本实体提取快速构建事件关系的分析方法，文本是指新闻文本或期刊文章文本。

可选的，一种基于文本实体提取快速构建事件关系的分析方法，目标文本的获取方式采用网络爬虫技术识别大数据中的文本，从而提取出具有对应主体关键词的初步目标文本。

进一步的，干扰文本的排除，是在初步目标文本的基础上，对主体关键词具有第二含义所对应部分的目标文本进行有关主体关键词含义有关的解释、说明、证明的记载进行分析，从而排除含义与目标事件不符的初步目标文本。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于文本实体提取快速构建事件关系的分析方法，其特征在于，包括：

2.根据权利要求1所述的基于文本实体提取快速构建事件关系的分析方法，其特征在于，所述主体关键词包括一个或多个关键词。

3.根据权利要求2所述的基于文本实体提取快速构建事件关系的分析方法，其特征在于，所述逻辑关系包括时间关系、地点关系、人物关系。

4.根据权利要求3所述的基于文本实体提取快速构建事件关系的分析方法，其特征在于，所述存在逻辑关系的词汇是指具有逻辑关系的一类词汇，而不是单一的词汇。

5.根据权利要求4所述的基于文本实体提取快速构建事件关系的分析方法，其特征在于，所述文本是指新闻文本或期刊文章文本。

6.根据权利要求5所述的基于文本实体提取快速构建事件关系的分析方法，其特征在于，所述目标文本的获取方式采用网络爬虫技术识别大数据中的文本，从而提取出具有对应主体关键词的初步目标文本。

7.根据权利要求6所述的基于文本实体提取快速构建事件关系的分析方法，其特征在于，所述干扰文本的排除，是在初步目标文本的基础上，对主体关键词具有第二含义所对应部分的目标文本进行有关主体关键词含义有关的解释、说明、证明的记载进行分析，从而排除含义与目标事件不符的初步目标文本。