CN112883733A - 基于文本实体提取快速构建事件关系的分析方法 - Google Patents
基于文本实体提取快速构建事件关系的分析方法 Download PDFInfo
- Publication number
- CN112883733A CN112883733A CN202011431362.8A CN202011431362A CN112883733A CN 112883733 A CN112883733 A CN 112883733A CN 202011431362 A CN202011431362 A CN 202011431362A CN 112883733 A CN112883733 A CN 112883733A
- Authority
- CN
- China
- Prior art keywords
- text
- keywords
- target
- event
- analysis method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 28
- 238000000605 extraction Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 8
- 238000005516 engineering process Methods 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 5
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于文本实体提取快速构建事件关系的分析方法,根据目标事件的内容,确定目标事件的主体关键词,基于主体关键词对大数据下的文本进行相应的主体关键词提取,得到相应的目标文本;根据主体关键词的类型,从目标文本中提取与关键词有存在逻辑关系的词汇,或根据目标事件的内容从目标文本中提取出与该内容存在关联的词汇;将关键词与其对应的词汇逐一进行组合,得到对应的事件关系描述,本发明基于关键词的分析,从文本中提取含义清晰准确的关键词,然后根据关键词的类型与文本中的其余词组或关键词进行组合,从而快速构建出该文本所表述的事件关系。
Description
技术领域
本发明涉及新闻分析领域,具体涉及一种基于文本实体提取快速构建事件关系的分析方法。
背景技术
就目前而言新闻分析采用的普遍方式是采用关键词进行分析,利用大数据爬虫技术获取文章中的关键词,当文章中出现对应的关键词时,则将该文章作为需求的数据,并打上相应的标签。例如公开号CN109284384A的中国专利就公开了种文本分析方法、装置、电子设备及可读存储介质,所述方法包括:利用预设关键词对文本进行匹配,得到与所述预设关键词匹配的匹配文本以及不与所述预设关键词匹配的非匹配文本,其中,所述预设关键词属于多个目标类别,并且与特定预设关键词匹配的匹配文本与所述特定关键词属于同一目标类别;针对每一条子文本进行分词,并根据分词结果为每一条文本生成文本向量;根据属于每一目标类别的全部匹配文本的文本向量计算每一目标类别的目标文本向量;计算每一条非匹配文本的文本向量与所述目标文本向量的相似度以确定所述非匹配文本所属的类别,可以真实反映文本的观点倾向,提高文本分析的准确率。
也就是说现有技术基本都是基于关键词机进行文本分析,最后得到的结构也仅仅是对文本进行相应的标签标识处理,而对于文本所描述的事件则无法通过关键词分析得到。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于文本实体提取快速构建事件关系的分析方法,基于关键词的分析,从文本中提取含义清晰准确的关键词,然后根据关键词的类型与文本中的其余词组或关键词进行组合,从而快速构建出该文本所表述的事件关系。
本发明的目的是通过以下技术方案来实现的:
一种基于文本实体提取快速构建事件关系的分析方法,包括:
步骤S100:根据目标事件的内容,确定目标事件的主体关键词,基于主体关键词对大数据下的文本进行相应的主体关键词提取;
步骤S200:判断该主体关键词是否有第二含义或者存在歧义,若有,则结合目标文本的上下文进行识别,从而排除含义与主体关键词不符的干扰文本,得到相应的目标文本;
步骤S300:根据主体关键词的类型,从目标文本中提取与关键词有存在逻辑关系的词汇,或根据目标事件的内容从目标文本中提取出与该内容存在关联的词汇;
步骤S400:将关键词与其对应的词汇逐一进行组合,得到对应的事件关系描述。
进一步的,所述主体关键词包括一个或多个关键词。
进一步的,所述逻辑关系包括时间关系、地点关系、人物关系。
进一步的,所述存在逻辑关系的词汇是指具有逻辑关系的一类词汇,而不是单一的词汇。
进一步的,所述文本是指新闻文本或期刊文章文本。
进一步的,所述目标文本的获取方式采用网络爬虫技术识别大数据中的文本,从而提取出具有对应主体关键词的初步目标文本。
进一步的,所述干扰文本的排除,是在初步目标文本的基础上,对主体关键词具有第二含义所对应部分的目标文本进行有关主体关键词含义有关的解释、说明、证明的记载进行分析,从而排除含义与目标事件不符的初步目标文本。
本发明的有益效果是:和传统的新闻分析相比,本方案不仅仅是针对关键词的分析,而是根据需要的事件进行主题进行相应的新闻分析,获取与事件主题相关的目标文本,然后从文本中找出与事件主题存在逻辑关系的词汇,从而快速获得相应的事件关系描述。
具体实施方式
下面结合具体实施例进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
一种基于文本实体提取快速构建事件关系的分析方法,包括:
步骤S100:根据目标事件的内容,确定目标事件的主体关键词,基于主体关键词对大数据下的文本进行相应的主体关键词提取;
步骤S200:判断该主体关键词是否有第二含义或者存在歧义,若有,则结合目标文本的上下文进行识别,从而排除含义与主体关键词不符的干扰文本,得到相应的目标文本;
步骤S300:根据主体关键词的类型,从目标文本中提取与关键词有存在逻辑关系的词汇,或根据目标事件的内容从目标文本中提取出与该内容存在关联的词汇;
步骤S400:将关键词与其对应的词汇逐一进行组合,得到对应的事件关系描述。
可选的,一种基于文本实体提取快速构建事件关系的分析方法,为了使得目标文本的提取准确无误,还应该对主体关键词进行甄别,也就是对具有第二含义的主体关键词进行排除,以“苹果”为例,很显然的,基于常识可以知道,苹果既是一种水果的名称,也是一种手机的商标,那么在一个事件关系中,如果是要分析苹果手机的销量,那么就会出现苹果水果的销量的相关文章,那么就要结合上下文对其进行排除,假如,某一篇文章中既包含了苹果,同时全文还包括到处关于吃苹果的好处,那么很显然的,这个目标文本就不是所需的目标文本,理应对其进行排除。
可选的,一种基于文本实体提取快速构建事件关系的分析方法,主体关键词包括一个或多个关键词。逻辑关系包括时间关系、地点关系、人物关系。
可选的,一种基于文本实体提取快速构建事件关系的分析方法,在本方法中所指的事件关系的构造包括两种,一种是已知的关系需要数据,例如上文所描述的苹果手机销量,在这个事件中的关系是已经明确的,唯一缺少的是数据,因此需要对其进行数据分析。然而对于一个突发事件而言,所需构造的时间关系是不唯一的,甚至是没有一个明确的指向,因此必须是基于分析结果进行构造。
可选的,一种基于文本实体提取快速构建事件关系的分析方法,存在逻辑关系的词汇是指具有逻辑关系的一类词汇,而不是单一的词汇。例如时间关系,凡是带表示时间的词汇都作为分析目标,人物关系,则可以是人名,亲属关系称呼、职位、官职等等。
可选的,一种基于文本实体提取快速构建事件关系的分析方法,文本是指新闻文本或期刊文章文本。
可选的,一种基于文本实体提取快速构建事件关系的分析方法,目标文本的获取方式采用网络爬虫技术识别大数据中的文本,从而提取出具有对应主体关键词的初步目标文本。
进一步的,干扰文本的排除,是在初步目标文本的基础上,对主体关键词具有第二含义所对应部分的目标文本进行有关主体关键词含义有关的解释、说明、证明的记载进行分析,从而排除含义与目标事件不符的初步目标文本。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (7)
1.一种基于文本实体提取快速构建事件关系的分析方法,其特征在于,包括:
步骤S100:根据目标事件的内容,确定目标事件的主体关键词,基于主体关键词对大数据下的文本进行相应的主体关键词提取;
步骤S200:判断该主体关键词是否有第二含义或者存在歧义,若有,则结合目标文本的上下文进行识别,从而排除含义与主体关键词不符的干扰文本,得到相应的目标文本;
步骤S300:根据主体关键词的类型,从目标文本中提取与关键词有存在逻辑关系的词汇,或根据目标事件的内容从目标文本中提取出与该内容存在关联的词汇;
步骤S400:将关键词与其对应的词汇逐一进行组合,得到对应的事件关系描述。
2.根据权利要求1所述的基于文本实体提取快速构建事件关系的分析方法,其特征在于,所述主体关键词包括一个或多个关键词。
3.根据权利要求2所述的基于文本实体提取快速构建事件关系的分析方法,其特征在于,所述逻辑关系包括时间关系、地点关系、人物关系。
4.根据权利要求3所述的基于文本实体提取快速构建事件关系的分析方法,其特征在于,所述存在逻辑关系的词汇是指具有逻辑关系的一类词汇,而不是单一的词汇。
5.根据权利要求4所述的基于文本实体提取快速构建事件关系的分析方法,其特征在于,所述文本是指新闻文本或期刊文章文本。
6.根据权利要求5所述的基于文本实体提取快速构建事件关系的分析方法,其特征在于,所述目标文本的获取方式采用网络爬虫技术识别大数据中的文本,从而提取出具有对应主体关键词的初步目标文本。
7.根据权利要求6所述的基于文本实体提取快速构建事件关系的分析方法,其特征在于,所述干扰文本的排除,是在初步目标文本的基础上,对主体关键词具有第二含义所对应部分的目标文本进行有关主体关键词含义有关的解释、说明、证明的记载进行分析,从而排除含义与目标事件不符的初步目标文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011431362.8A CN112883733A (zh) | 2020-12-09 | 2020-12-09 | 基于文本实体提取快速构建事件关系的分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011431362.8A CN112883733A (zh) | 2020-12-09 | 2020-12-09 | 基于文本实体提取快速构建事件关系的分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112883733A true CN112883733A (zh) | 2021-06-01 |
Family
ID=76043239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011431362.8A Pending CN112883733A (zh) | 2020-12-09 | 2020-12-09 | 基于文本实体提取快速构建事件关系的分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112883733A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104008098A (zh) * | 2013-02-21 | 2014-08-27 | 腾讯科技(深圳)有限公司 | 基于多义性关键词的文本过滤方法及装置 |
CN104915446A (zh) * | 2015-06-29 | 2015-09-16 | 华南理工大学 | 基于新闻的事件演化关系自动提取方法及其系统 |
CN107741929A (zh) * | 2017-10-18 | 2018-02-27 | 网智天元科技集团股份有限公司 | 舆情分析方法及装置 |
CN109800431A (zh) * | 2019-01-23 | 2019-05-24 | 中国科学院自动化研究所 | 事件信息关键词提取方法、监控方法、及其系统和装置 |
CN110781317A (zh) * | 2019-10-29 | 2020-02-11 | 北京明略软件系统有限公司 | 事件图谱的构建方法、装置及电子设备 |
CN110941692A (zh) * | 2019-09-28 | 2020-03-31 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 互联网政治外交类新闻事件抽取方法 |
CN111400448A (zh) * | 2020-03-12 | 2020-07-10 | 中国建设银行股份有限公司 | 对象的关联关系分析方法及装置 |
CN111444347A (zh) * | 2019-01-16 | 2020-07-24 | 清华大学 | 事件演化关系分析方法及装置 |
CN111611399A (zh) * | 2020-04-15 | 2020-09-01 | 广发证券股份有限公司 | 一种基于自然语言处理的资讯事件图谱化系统及方法 |
-
2020
- 2020-12-09 CN CN202011431362.8A patent/CN112883733A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104008098A (zh) * | 2013-02-21 | 2014-08-27 | 腾讯科技(深圳)有限公司 | 基于多义性关键词的文本过滤方法及装置 |
CN104915446A (zh) * | 2015-06-29 | 2015-09-16 | 华南理工大学 | 基于新闻的事件演化关系自动提取方法及其系统 |
CN107741929A (zh) * | 2017-10-18 | 2018-02-27 | 网智天元科技集团股份有限公司 | 舆情分析方法及装置 |
CN111444347A (zh) * | 2019-01-16 | 2020-07-24 | 清华大学 | 事件演化关系分析方法及装置 |
CN109800431A (zh) * | 2019-01-23 | 2019-05-24 | 中国科学院自动化研究所 | 事件信息关键词提取方法、监控方法、及其系统和装置 |
CN110941692A (zh) * | 2019-09-28 | 2020-03-31 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 互联网政治外交类新闻事件抽取方法 |
CN110781317A (zh) * | 2019-10-29 | 2020-02-11 | 北京明略软件系统有限公司 | 事件图谱的构建方法、装置及电子设备 |
CN111400448A (zh) * | 2020-03-12 | 2020-07-10 | 中国建设银行股份有限公司 | 对象的关联关系分析方法及装置 |
CN111611399A (zh) * | 2020-04-15 | 2020-09-01 | 广发证券股份有限公司 | 一种基于自然语言处理的资讯事件图谱化系统及方法 |
Non-Patent Citations (1)
Title |
---|
项威 等: ""中文事件抽取研究综述"", 《计算机技术与发展》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107045496B (zh) | 语音识别后文本的纠错方法及纠错装置 | |
CN107633007B (zh) | 一种基于层次化ap聚类的商品评论数据标签化系统和方法 | |
CN110309744B (zh) | 一种嫌疑人识别方法及装置 | |
CN107193796B (zh) | 一种舆情事件检测方法及装置 | |
JPWO2014033799A1 (ja) | 単語意味関係抽出装置 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN112287090A (zh) | 一种基于知识图谱的金融问题反问方法及系统 | |
CN111967261B (zh) | 癌症分期信息处理方法、装置及存储介质 | |
CN112487824A (zh) | 客服语音情感识别方法、装置、设备及存储介质 | |
CN111274390A (zh) | 一种基于对话数据的情感原因确定方法及装置 | |
CN111079582A (zh) | 一种图像识别的英语作文跑题判断方法 | |
Ahmed et al. | Question analysis for Arabic question answering systems | |
CN112883733A (zh) | 基于文本实体提取快速构建事件关系的分析方法 | |
Zechner | The past, present and future of text classification | |
CN113177061B (zh) | 一种搜索方法、装置和电子设备 | |
CN115099832A (zh) | 异常用户检测方法及其装置、设备、介质、产品 | |
Ghawi et al. | Analysis of country mentions in the debates of the un security council | |
Kuhr et al. | Context-specific adaptation of subjective content descriptions | |
Lai et al. | An unsupervised approach to discover media frames | |
CN115827817A (zh) | 一种文本类别的确定方法、相关装置以及设备 | |
JP5395827B2 (ja) | 苦情検索装置、苦情検索方法、及びそのプログラム | |
Qiu et al. | News recommender system based on topic detection and tracking | |
CN111814025A (zh) | 一种观点提取方法及装置 | |
CN112883727B (zh) | 一种确定人物间关联关系的方法及装置 | |
KR101615621B1 (ko) | 동일 지시어 해소 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210601 |
|
RJ01 | Rejection of invention patent application after publication |