CN110188189A - 一种基于知识的自适应事件索引认知模型提取文档摘要的方法 - Google Patents

一种基于知识的自适应事件索引认知模型提取文档摘要的方法 Download PDF

Info

Publication number
CN110188189A
CN110188189A CN201910425138.9A CN201910425138A CN110188189A CN 110188189 A CN110188189 A CN 110188189A CN 201910425138 A CN201910425138 A CN 201910425138A CN 110188189 A CN110188189 A CN 110188189A
Authority
CN
China
Prior art keywords
relationship
intention
causality
knowledge
knowledge base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910425138.9A
Other languages
English (en)
Other versions
CN110188189B (zh
Inventor
陈向楠
刘东升
郑一明
陈鸿斌
陈佳佳
刘彦妮
陈亚辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN201910425138.9A priority Critical patent/CN110188189B/zh
Publication of CN110188189A publication Critical patent/CN110188189A/zh
Application granted granted Critical
Publication of CN110188189B publication Critical patent/CN110188189B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种基于知识的自适应事件索引认知模型提取文档摘要的方法,属于自然语言处理和自动文本摘要生成领域。本方法重新定义了事件索引认知模型五类指标的概念、并在标准的人类记忆模型之上,运用了情感属性、核心影响两个维度来提取文档摘要;此方法紧密地反映人类理解文本的过程,在处理非结构化的、不完整的和模糊的文本内容有着独特优势;因此,适合用于涉及数据不确定性的各种场景和应用,包括机器学习、智能应用、图像处理和医疗诊断应用等。

Description

一种基于知识的自适应事件索引认知模型提取文档摘要的 方法
技术领域
本发明属于自然语言处理及自动文本摘要生成技术领域,具体涉及一种基于知识的自适应事件索引认知模型提取文档摘要的方法。
背景技术
文本摘要是一种从一个或多个信息源中抽取关键信息的方法,它帮助用户节省了大量时间,用户可以从摘要获取到文本的所有关键信息点而无需阅读整个文档。事件索引(EI)认知模型通过构建以文本中人物的事件和有意行为为焦点的情境模型来描述人类理解文本的认知过程。EI模型假设人类利用文本描述的人物、事件、状态、目标和行为,创建了一个表示文本的心理情境模型。具体来说,这个模型列出了五种类型的指标,人们使用这些指数来创建一个新的情境模型或更新现有的模型,即主角、空间性、时间性、因果性和意向性。为了使EI模型适用于计算,本文重新定义了主人公、事件、时间性、因果关系和意向关系的概念。“事件”是一个认知心理学的概念,可以是一段故事或者一个句子的结构。
目前,文本摘要有多种分类方法,根据构建方法可分为抽取式文本摘要和抽象式文本摘要。抽取式摘要方法通过抽取文档中的句子生成摘要,通过对文档中句子的得分进行计算,得分代表重要性程度,得分越高代表句子越重要,然后通过依次选取得分最高的若干个句子组成摘要,摘要的长度取决于压缩率。抽象式摘要方法运用文本中的语言和统计特征来形成摘要,这种摘要可能不会保留原文的句子结构,它甚至可以添加原始文本中没有的新词汇。按照文本摘要的学习方法可分为有监督方法和无监督方法。有监督方法需要从文档集中选取主要内容作为训练数据,大量的注释和标签数据是学习所需要的。这些文本摘要的系统在句子层面被理解为一个二分类问题,其中,属于摘要的句子称为正样本,不属于摘要的句子称为负样本。机器学习中的支持向量机和神经网络也会用到这样分类的方法。无监督的文本摘要系统不需要任何训练数据,它们仅通过对文档进行检索即可生成摘要。文本摘要生成工作原本由人来执行的,理应包含人对文本内容的阅读、理解、消化、和总结等过程。然而,现有的研究工作只是停留在词组匹配和统计的基础上,这将大大影响文本摘要生成的正确率和精确率。因此,如何能够从人的认知(心理)模型出发,设计和构造能够模拟人的心理认知过程的自动文本摘要方法显得尤其重要。
发明内容
本发明的目的是为了克服现有技术的不足之处,提出了一种基于知识的自适应事件索引认知模型提取文档摘要的方法,确保能够有效地解决文本摘要不能很好地反映文本内容的问题,可以有效提高文本摘要生成的正确率和精确率。
一种基于知识的自适应事件索引认知模型提取文档摘要的方法,包括步骤:
第一步:基于原有的KB-EI认知模型,在学习阶段,读入多个文档,获得学习阶段的文本语料库;
第二步:执行自然语言处理(NLP)任务,包括获取语料、语料清洗、句子检测、中文分词、词性标注、去停用词;
第三步:从文本中进行特征提取、主题提取和命名实体识别,并采用共指解析定位和识别已标识的命名实体的表达式,为关系提取任务做铺垫;
第四步:输入文档进行预处理并分别采用低歧义的girju因果短语和采用同义词意向、命名实体,以及从驻留在语义记忆知识库中学习并提取因果关系和意向关系,并用于创建文档中因果关系和意向关系的上下文;
第五步:计算核心影响、情感属性,当一个事件结束时,如果一个关系的核心影响值大于语义记忆存储的阈值,那么将这个关系复制到附有情感的语义记忆中,然后使用核心影响的属性更新情景记忆中的关系,提取出的关系与核心影响附加在一起存储在情景记忆中;
第六步:通过对因果关系和意向关系及其核心影响、情感属性对语义记忆知识库进行更新形成新的KB-EI认知模型。
优选地,所述文档中因果关系的上下文通过将预处理后的文档采用低歧义的girju因果短语来提取因果关系,输入到情境记忆知识库中判断是否存在此种因果关系,存在因果关系将提取唤醒值并更新唤醒值,不存在因果关系将定义此种关系的唤醒值,并在知识库中进行储存或者更新,并通过与因果关系中原因与语境的结合共同创造情感属性和核心影响,然后更新情境记忆知识库中的因果关系和语义知识中的因果关系知识库,从而创建文档中因果关系的上下文。
优选地,所述文档中意向关系的上下文通过同义词意向、命名实体来提取意向关系,输入到情境记忆知识库中判断是否存在此种意向关系,存在意向关系将提取唤醒值并更新唤醒值,不存在意向关系将定义此种关系的唤醒值,并在知识库中进行储存或者更新,并通过与意向关系中原因与语境的结合共同创造情感属性和核心影响,然后更新情境记忆知识库中的意向关系和语义知识中的意向关系知识库,从而创建文档中意向关系的上下文。
本发明的有益效果在于:
本发明提出一种基于知识的自适应事件索引认知模型提取文档摘要的方法。本模型使用层次化的人类记忆模型来存储所学知识,并使用情感来选择包含所需的、合适的知识的记忆元素。随着新信息的学习,与记忆元素相关的情感可能会发生变化。这种与记忆元素相关的情感变化可以增加或减少从这些记忆元素中检索信息的机会,在学习阶段加强知识库中的因果关系知识获取,使用结果因果关系和工具因果关系,可以更加提高摘要质量本发明创新地提出了一种自适应的、基于知识的事件索引认知模型,用于创建单个文档提取式摘要的方法,它将人类文本理解、人类记忆和情感的认知过程的概念结合起来,形成文档摘要,这种基于知识的事件索引认知模型结合标准层次化的人类记忆模型,作为因果关系和意向关系的知识基础,从语义记忆中选择适当的因果关系和意向关系,此外,该发明还结合了人类情感属性、核心影响的概念,这样更加紧密地反映人类理解文本的过程,有利于提高文本摘要的精准率。
附图说明
图1为本发明基于知识的自适应事件索引认知模型提取文档摘要的方法流程图;
图2为本发明自动文本摘要分类方法示意图;
图3为本发明层次化的人类记忆模型示意图;
图4为本发明文本预处理流程图;
图5为本发明一般处理候选句示意图;
图6为本发明学习因果关系的算法流程图;
图7为本发明学习意向关系算法流程图。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点进行清楚、完整地描述,显然,所描述的实例仅仅是本发明的部分实施例,而不是全部实施例。
参阅图1-7,一种基于知识的自适应事件索引认知模型提取文档摘要的方法,包括步骤:
第一步:基于原有的KB-EI认知模型,在学习阶段,读入多个文档,获得学习阶段的文本语料库;
第二步:执行自然语言处理(NLP)任务,包括获取语料、语料清洗、句子检测、中文分词、词性标注、去停用词;
第三步:从文本中进行特征提取、主题提取和命名实体识别,并采用共指解析定位和识别已标识的命名实体的表达式,为关系提取任务做铺垫;
第四步:输入文档进行预处理并分别采用低歧义的girju因果短语和采用同义词意向、命名实体,以及从驻留在语义记忆知识库中学习并提取因果关系和意向关系,并用于创建文档中因果关系和意向关系的上下文;
第五步:计算核心影响、情感属性,当一个事件结束时,如果一个关系的核心影响值大于语义记忆存储的阈值,那么将这个关系复制到附有情感的语义记忆中,然后使用核心影响的属性更新情景记忆中的关系,提取出的关系与核心影响附加在一起存储在情景记忆中;
第六步:通过对因果关系和意向关系及其核心影响、情感属性对语义记忆知识库进行更新形成新的KB-EI认知模型。
实施例一
1、通过使用发明的模型方法分析输入的文档,从输入文档中提取出语言特征;
2、使用句子检测将输入文档的文本分成句子,使用命名实体识别提取文本中的命名实体,构建命名实体列表,从命名实体的列表中识别主人公和时间性,主人公是指一个句子的主语或者句中承担主语角色的名词词组或代词,时间性是指每一个句子中的时间信息;
3、通过因果性短语和命名实体来识别显式的句子内因果关系,意向关系则通过意向性短语和命名实体来识别,因果关系包括显式的因果关系和附加、隐含情感的因果关系,意向关系是指主人公的目标以及句子在文本中的关系,在基于知识的自适应事件索引认知模型中,文本里的附加、隐含情感的因果关系或意图关系也能被语义记忆识别出来,在本发明的模型中,当搜索因果关系时,配价被定义为原因和语境的结合,当在搜索意向关系时,它被定义为主角与上下文的结合,唤醒被定义为一个数值,表示在过去的学习和总结阶段,因果关系或意向关系被存储或检索的次数;
4、从句子中提取出事件及其发生的顺序,用于根据文本的时间线对句子进行排序,“事件”是一个认知心理学的概念,在本模型中指一个句子的结构,基于知识的自适应事件索引认知模型强调,文本中事件之间的连接强度由事件共享的公共指标的数量决定,此外,理解文本构建的整体情境模型的结构也受到这种共享指标的强烈影响;
5、使用上述提取的特征和指标,计算每一个句子中的主人公数量、事件数量和时间信息,此外,还计算了因果关系的个数和句子所属的意向关系的个数,这些计数被同等地加权以获得句子的总体重要性;
6、基于总体重要性的句子排序用于生成最终摘要,按总体重要性降序选择的方式进行句子排序,直到达到预设的摘要大小。
实施例二
文档中因果关系的上下文通过将预处理后的文档采用低歧义的girju因果短语来提取因果关系,输入到情境记忆知识库中判断是否存在此种因果关系,存在因果关系将提取唤醒值并更新唤醒值,不存在因果关系将定义此种关系的唤醒值,并在知识库中进行储存或者更新,并通过与因果关系中原因与语境的结合共同创造情感属性和核心影响,然后更新情境记忆知识库中的因果关系和语义知识中的因果关系知识库,从而创建文档中因果关系的上下文;文档中意向关系的上下文通过同义词意向、命名实体来提取意向关系,输入到情境记忆知识库中判断是否存在此种意向关系,存在意向关系将提取唤醒值并更新唤醒值,不存在意向关系将定义此种关系的唤醒值,并在知识库中进行储存或者更新,并通过与意向关系中原因与语境的结合共同创造情感属性和核心影响,然后更新情境记忆知识库中的意向关系和语义知识中的意向关系知识库,从而创建文档中意向关系的上下文。
在实施例中,核心影响包含两个维度,称为配价和唤醒。配价是指事件或对象的吸引力,而觉醒是指对事件、对象或情况的反应程度。配价和唤醒被用于影响具有使用历史、上下文和奖励累积的声明性记忆元素的检索延迟或概率,本发明提出的基于知识的自适应事件索引认知模型使用这些核心影响和情感维度从记忆中检索信息,从认知模型的记忆库中,运用核心影响的两个维度,来存储和检索相关的因果关系和意向关系。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于知识的自适应事件索引认知模型提取文档摘要的方法,其特征在于,包括步骤:
第一步:基于原有的KB-EI认知模型,在学习阶段,读入多个文档,获得学习阶段的文本语料库;
第二步:执行自然语言处理(NLP)任务,包括获取语料、语料清洗、句子检测、中文分词、词性标注、去停用词;
第三步:从文本中进行特征提取、主题提取和命名实体识别,并采用共指解析定位和识别已标识的命名实体的表达式,为关系提取任务做铺垫;
第四步:输入文档进行预处理并分别采用低歧义的girju因果短语和采用同义词意向、命名实体,以及从驻留在语义记忆知识库中学习并提取因果关系和意向关系,并用于创建文档中因果关系和意向关系的上下文;
第五步:计算核心影响、情感属性,当一个事件结束时,如果一个关系的核心影响值大于语义记忆存储的阈值,那么将这个关系复制到附有情感的语义记忆中,然后使用核心影响的属性更新情景记忆中的关系,提取出的关系与核心影响附加在一起存储在情景记忆中;
第六步:通过对因果关系和意向关系及其核心影响、情感属性对语义记忆知识库进行更新形成新的KB-EI认知模型。
2.根据权利要求1所述的一种基于知识的自适应事件索引认知模型提取文档摘要的方法,其特征在于,所述文档中因果关系的上下文通过将预处理后的文档采用低歧义的girju因果短语来提取因果关系,输入到情境记忆知识库中判断是否存在此种因果关系,存在因果关系将提取唤醒值并更新唤醒值,不存在因果关系将定义此种关系的唤醒值,并在知识库中进行储存或者更新,并通过与因果关系中原因与语境的结合共同创造情感属性和核心影响,然后更新情境记忆知识库中的因果关系和语义知识中的因果关系知识库,从而创建文档中因果关系的上下文。
3.根据权利要求1所述的一种基于知识的自适应事件索引认知模型提取文档摘要的方法,其特征在于,所述文档中意向关系的上下文通过同义词意向、命名实体来提取意向关系,输入到情境记忆知识库中判断是否存在此种意向关系,存在意向关系将提取唤醒值并更新唤醒值,不存在意向关系将定义此种关系的唤醒值,并在知识库中进行储存或者更新,并通过与意向关系中原因与语境的结合共同创造情感属性和核心影响,然后更新情境记忆知识库中的意向关系和语义知识中的意向关系知识库,从而创建文档中意向关系的上下文。
CN201910425138.9A 2019-05-21 2019-05-21 一种基于知识的自适应事件索引认知模型提取文档摘要的方法 Active CN110188189B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910425138.9A CN110188189B (zh) 2019-05-21 2019-05-21 一种基于知识的自适应事件索引认知模型提取文档摘要的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910425138.9A CN110188189B (zh) 2019-05-21 2019-05-21 一种基于知识的自适应事件索引认知模型提取文档摘要的方法

Publications (2)

Publication Number Publication Date
CN110188189A true CN110188189A (zh) 2019-08-30
CN110188189B CN110188189B (zh) 2021-10-08

Family

ID=67717088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910425138.9A Active CN110188189B (zh) 2019-05-21 2019-05-21 一种基于知识的自适应事件索引认知模型提取文档摘要的方法

Country Status (1)

Country Link
CN (1) CN110188189B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021176281A1 (en) * 2020-03-06 2021-09-10 International Business Machines Corporation Digital image processing
US11361146B2 (en) 2020-03-06 2022-06-14 International Business Machines Corporation Memory-efficient document processing
US11494588B2 (en) 2020-03-06 2022-11-08 International Business Machines Corporation Ground truth generation for image segmentation
US11556852B2 (en) 2020-03-06 2023-01-17 International Business Machines Corporation Efficient ground truth annotation

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177084A (zh) * 2013-02-21 2013-06-26 浙江工商大学 一种考虑数据可信度的数据挖掘方法
CN103903164A (zh) * 2014-03-25 2014-07-02 华南理工大学 基于领域信息的半监督方面自动提取方法及其系统
US20140245122A1 (en) * 2013-02-22 2014-08-28 Altilia S.R.L. Object extraction from presentation-oriented documents using a semantic and spatial approach
CN107126193A (zh) * 2017-04-20 2017-09-05 杭州电子科技大学 基于滞后阶数自适应选择的多变量因果关系分析方法
CN107180075A (zh) * 2017-04-17 2017-09-19 浙江工商大学 文本分类集成层次聚类分析的标签自动生成方法
CN107832312A (zh) * 2017-01-03 2018-03-23 北京工业大学 一种基于深度语义辨析的文本推荐方法
CN108959258A (zh) * 2018-07-02 2018-12-07 昆明理工大学 一种基于表示学习的特定领域集成实体链接方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177084A (zh) * 2013-02-21 2013-06-26 浙江工商大学 一种考虑数据可信度的数据挖掘方法
US20140245122A1 (en) * 2013-02-22 2014-08-28 Altilia S.R.L. Object extraction from presentation-oriented documents using a semantic and spatial approach
CN103903164A (zh) * 2014-03-25 2014-07-02 华南理工大学 基于领域信息的半监督方面自动提取方法及其系统
CN107832312A (zh) * 2017-01-03 2018-03-23 北京工业大学 一种基于深度语义辨析的文本推荐方法
CN107180075A (zh) * 2017-04-17 2017-09-19 浙江工商大学 文本分类集成层次聚类分析的标签自动生成方法
CN107126193A (zh) * 2017-04-20 2017-09-05 杭州电子科技大学 基于滞后阶数自适应选择的多变量因果关系分析方法
CN108959258A (zh) * 2018-07-02 2018-12-07 昆明理工大学 一种基于表示学习的特定领域集成实体链接方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘佳 等: "信息检索认知模型及认知负荷评价研究", 《图书情报工作》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021176281A1 (en) * 2020-03-06 2021-09-10 International Business Machines Corporation Digital image processing
US11361146B2 (en) 2020-03-06 2022-06-14 International Business Machines Corporation Memory-efficient document processing
CN115210747A (zh) * 2020-03-06 2022-10-18 国际商业机器公司 数字图像处理
US11495038B2 (en) 2020-03-06 2022-11-08 International Business Machines Corporation Digital image processing
US11494588B2 (en) 2020-03-06 2022-11-08 International Business Machines Corporation Ground truth generation for image segmentation
GB2608750A (en) * 2020-03-06 2023-01-11 Ibm Digital image processing
US11556852B2 (en) 2020-03-06 2023-01-17 International Business Machines Corporation Efficient ground truth annotation
CN115210747B (zh) * 2020-03-06 2023-07-11 国际商业机器公司 用于数字图像处理的方法和系统
GB2608750B (en) * 2020-03-06 2024-05-08 Ibm Digital image processing

Also Published As

Publication number Publication date
CN110188189B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
US11449556B2 (en) Responding to user queries by context-based intelligent agents
Ghosh et al. Fracking sarcasm using neural network
Shutova Models of metaphor in NLP
RU2686000C1 (ru) Извлечение информационных объектов с использованием комбинации классификаторов, анализирующих локальные и нелокальные признаки
CN110188189A (zh) 一种基于知识的自适应事件索引认知模型提取文档摘要的方法
CN107180026B (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
Das et al. Temporal analysis of sentiment events–a visual realization and tracking
CN115017303A (zh) 基于新闻文本进行企业风险评估的方法、计算设备和介质
CN106777080A (zh) 短摘要生成方法、数据库建立方法及人机对话方法
Cabrio et al. QALD-3: Multilingual Question Answering over Linked Data.
CN117251524A (zh) 一种基于多策略融合的短文本分类方法
Kang et al. PoMo: Generating entity-specific post-modifiers in context
Kshirsagar et al. A Review on Application of Deep Learning in Natural Language Processing
Wambsganss et al. Improving Explainability and Accuracy through Feature Engineering: A Taxonomy of Features in NLP-based Machine Learning.
Ansari et al. Language lexicons for Hindi-English multilingual text processing
Moradi et al. Clustering of deep contextualized representations for summarization of biomedical texts
Schumann et al. Automatic annotation of semantic term types in the complete acl anthology reference corpus
Sánchez et al. A structured listwise approach to learning to rank for image tagging
Zhang et al. Multi-granularity entity recognition based sentence ranking for multi-document summarization
Adewumi Vector representations of idioms in data-driven chatbots for robust assistance
Yu Stylometric Features for Multiple Authorship Attribution
Lad Sarcasm detection in english and arabic tweets using transformer models
Héja et al. A proof-of-concept meaning discrimination experiment to compile a word-in-context dataset for adjectives–A graph-based distributional approach
Guðjónsson Named entity recognition for Icelandic: comparing and combining different machine learning methods
Tripto Novel word-to-VEC graph and character interaction models for literary analysis a case study with Bengali literature

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant