CN117874261B - 基于课程学习的问答式事件抽取方法以及相关设备 - Google Patents
基于课程学习的问答式事件抽取方法以及相关设备 Download PDFInfo
- Publication number
- CN117874261B CN117874261B CN202410277030.0A CN202410277030A CN117874261B CN 117874261 B CN117874261 B CN 117874261B CN 202410277030 A CN202410277030 A CN 202410277030A CN 117874261 B CN117874261 B CN 117874261B
- Authority
- CN
- China
- Prior art keywords
- corpus
- event
- extraction model
- extraction
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 263
- 230000006870 function Effects 0.000 claims description 84
- 238000012549 training Methods 0.000 claims description 59
- 238000000034 method Methods 0.000 claims description 52
- 230000002776 aggregation Effects 0.000 claims description 23
- 238000004220 aggregation Methods 0.000 claims description 23
- 238000012552 review Methods 0.000 claims description 21
- 238000002372 labelling Methods 0.000 claims description 15
- 238000003860 storage Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 238000012512 characterization method Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000013461 design Methods 0.000 description 7
- 238000009825 accumulation Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000013475 authorization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种基于课程学习的问答式事件抽取方法以及相关设备,包括:获取目标语料,确定所述目标语料的本体信息;获取预先构建的语料抽取模型;其中,所述预先构建的语料抽取模型是基于课程学习的方式训练得到的;将所述本体信息输入到所述语料抽取模型,抽取所述本体信息的事件类型以及与所述事件类型相应的事件论元角色,得到所述目标语料的事件抽取结果。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种基于课程学习的问答式事件抽取方法以及相关设备。
背景技术
随着移动互联网的迅猛发展,海量的非结构化文本数据不断涌现,其中蕴含着丰富的高价值信息和情报。为了有效提取这些信息,事件抽取技术作为信息抽取领域的重要分支,受到了广泛关注。事件抽取旨在从无序、杂乱、非结构化的文本中,以结构化的方式提取出特定的事件及其相关元素,为下游的查询和分析提供有力支持。这一技术在大数据时代下具有显著的经济和社会价值。然而,现有的事件抽取方法在实际应用中面临着诸多挑战。首先,传统的流水线处理方式往往导致错误累积问题,即前一步骤的错误会传递到后续步骤,影响整体性能。其次,现有的知识获取范式相对简单直接,未能充分利用人类学习范式中的有效策略,导致知识获取效果不佳。最后,对有限的事件本体及标签知识的利用不尽完善,未能充分发挥这些知识在提升事件抽取任务性能方面的潜力。
因此,如何将数据集中提供的事件类型、事件论元及本体知识进行使用仍是提升事件抽取任务性能的关键。
发明内容
有鉴于此,本申请的目的在于提出一种基于课程学习的问答式事件抽取方法以及相关设备,以解决或部分解决上述问题。
基于上述目的,本申请提供了一种基于课程学习的问答式事件抽取方法,包括:
获取目标语料,确定所述目标语料的本体信息;
获取预先构建的语料抽取模型;其中,所述预先构建的语料抽取模型是基于课程学习的方式训练得到的;
将所述本体信息输入到所述语料抽取模型,抽取所述本体信息的事件类型以及与所述事件类型相应的事件论元角色,得到所述目标语料的事件抽取结果。
在一种可能的实现方式中,所述获取目标语料,确定所述目标语料的本体信息,包括:
获取目标语料,对所述目标语料进行数据处理,去除所述目标语料的无意义信息,并统一所述目标语料的格式,得到处理后的目标语料;
提取所述处理后的目标语料的关键信息标注;
根据所述关键信息标注确定所述目标语料的本体信息。
在一种可能的实现方式中,所述方法还包括通过以下方式训练所述语料抽取模型:
根据所述目标语料以及所述目标语料的本体信息确定所述目标语料的聚合特征;
设定知识预习任务,根据所述知识预习任务训练原始的语料抽取模型,使所述原始的语料抽取模型具备抽取所述目标语料的事件类型以及与所述事件类型相应的事件论元角色的能力,得到第一语料抽取模型;
设定知识学习任务,根据所述知识学习任务训练所述第一语料抽取模型,使所述第一语料抽取模型针对所述知识学习任务中的标注数据进行学习,得到第二语料抽取模型;
设定知识复习任务,根据所述知识复习任务确定所述第二语料抽取模型的收敛程度,根据所述收敛程度以及所述聚合特征训练所述第二语料抽取模型,得到所述预先构建的语料抽取模型。
在一种可能的实现方式中,所述根据所述目标语料以及所述目标语料的本体信息确定所述目标语料的聚合特征,包括:
将所述目标语料输入到所述预先确定的语言模型中,提取所述目标语料的隐藏层特征,将所述本体信息输入到所述预先确定的语言模型中,提取所述本体信息的概括性特征;
根据所述隐藏层特征以及所述概括性特征确定所述目标语料的聚合特征。
在一种可能的实现方式中,所述设定知识预习任务,根据所述知识预习任务训练原始的语料抽取模型,使所述原始的语料抽取模型具备抽取所述目标语料的事件类型以及与所述事件类型相应的事件论元角色的能力,得到第一语料抽取模型,包括:
根据所述聚合特征确定所述目标语料的权重系数;
根据所述权重系数以及目标聚合函数得到所述目标语料的判定结果;其中,所述判定结果包括第一判定结果或者第二判定结果,所述第一判定结果指示所述目标语料的事件类型以及与所述事件类型相应的事件论元角色包含在预先确定的事件语料中,所述第二判定结果指示所述目标语料的事件类型以及与所述事件类型相应的事件论元角色不包含在预先确定的事件语料中;
根据所述判定结果确定所述原始的语料抽取模型的损失函数以及模型参数;
根据所述损失函数以及所述模型参数,确定所述第一语料抽取模型。
在一种可能的实现方式中,所述设定知识学习任务,根据所述知识学习任务训练所述第一语料抽取模型,使所述第一语料抽取模型针对所述知识学习任务中的标注数据进行学习,得到第二语料抽取模型,包括:
确定问答式训练模板,提取所述问答式训练模板的抽取序列,将所述抽取序列作为所述第一语料抽取模型的约束条件;其中,所述抽取序列用于指示抽取所述目标语料的事件类型以及与所述事件类型相应的事件论元角色;
将所述抽取序列输入到所述第一语料抽取模型中,确定所述事件论元角色在所述目标语料中的起始抽取位置和结束抽取位置;
使用交叉熵损失函数计算所述起始抽取位置的起始损失函数;
使用交叉熵损失函数计算所述结束抽取位置的结束损失函数;
根据所述起始损失函数以及所述结束损失函数确定整体损失函数;
根据所述整体损失函数训练所述第一语料抽取模型,得到所述第二语料抽取模型。
在一种可能的实现方式中,所述设定知识复习任务,根据所述知识复习任务确定所述第二语料抽取模型的收敛程度,根据所述收敛程度以及所述聚合特征训练所述第二语料抽取模型,得到所述预先构建的语料抽取模型,包括:
确定所述整体损失函数的收敛程度,响应于所述收敛程度没有达到预设收敛程度,确定所述整体损失函数值;
根据所述整体损失函数值选择预设数量的所述事件抽取结果,利用所述事件抽取结果随机替换所述论元信息,得到扩展论元信息,根据所述扩展论元信息以及所述聚合特征训练所述第二语料抽取模型,得到所述预先构建的语料抽取模型。
基于同样的目的,本申请还提出了一种基于课程学习的问答式事件抽取装置,包括:
第一获取模块,被配置为获取目标语料,确定所述目标语料的本体信息;
第二获取模块,被配置为获取预先构建的语料抽取模型;其中,所述预先构建的语料抽取模型是基于课程学习的方式训练得到的;
抽取模块,被配置为将所述本体信息输入到所述语料抽取模型,以课程学习的方式抽取所述本体信息的事件类型以及与所述事件类型相应的事件论元角色,得到所述目标语料的事件抽取结果。
基于上述目的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任意一项所述的方法。
基于上述目的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述任意一项所述的方法。
从上面所述可以看出,本申请提供的基于课程学习的问答式事件抽取方法以及相关设备,首先获取目标语料,确定目标语料的本体信息;然后,获取预先构建的语料抽取模型;其中,预先构建的语料抽取模型是基于课程学习的方式训练得到的;最后,将本体信息输入到语料抽取模型,抽取本体信息的事件类型以及与事件类型相应的事件论元角色,得到目标语料的事件抽取结果。本申请将传统的基于流水线式的事件抽取任务转化为基于问题问答的端到端式微调学习方法,改善了传统流水线方法中的错误累积问题,并在设计问题模板时对于同类型事件下的多个潜在事件论元执行迭代交互式设计,进一步考虑到了论元间的依存相关性关系。在“知识预习”阶段借助事件本体信息完成事件检测与事件论元抽取的简单任务预习,在“知识学习”“知识复习”阶段则聚焦于相对更为复杂的事件论元抽取任务,将其看作问题问答并交互潜在与事件类型下的论元,通过对有标签数据的训练以更好的提升事件抽取任务性能。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于课程学习的问答式事件抽取方法的流程示意图。
图2为本申请实施例提供的语料抽取模型构建流程示意图。
图3为本申请实施例提供的基于课程学习的问答式事件抽取装置示意图。
图4为本申请实施例提供的电子设备硬件结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
需要说明的是,除非另外定义,本申请使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如背景技术部分所述,移动互联网作为信息社会最重要的基础设施,已经成为信息传播的主要渠道之一并深入影响到社会生活的各个角落。针对其中的海量文本进行智能化分析,提取其中蕴含的高价值信息和情报已经成为信息技术的必要需求。事件抽取作为信息抽取领域下的重要子任务,目标是从大量无序、杂乱、非结构化的文本中以结构化的方式提取并呈现特定的事件及事件元素,供下游查询分析进一步使用。自动化且智能化的事件抽取任务具有广泛的经济和社会价值,在大数据时代下意义重大、需求迫切。
现有的事件抽取方法往往通过事件触发词识别、实体识别、论元识别角色分类的流水线方式完成任务,在不给出语料中实体真值的情况下,论元角色识别分类任务很大程度依赖实体识别作为预处理步骤,从而带来了“错误累积”问题。此外在这一过程中,大多数方法所使用的预训练-微调知识获取范式过于简单直接,没有借鉴考虑到人类学习范式中的重要特性,带来了“知识获取范式欠佳”问题。最后,现有事件抽取方法“对有限的事件本体及标签知识利用不详尽”,如何将有标签数据集中提供的事件类型、事件论元及本体知识进行使用仍是提升事件抽取任务性能的关键。
以下,通过具体的实施例进一步详细说明本申请的技术方案。
参考图1,为本申请实施例提供的基于课程学习的问答式事件抽取方法的流程示意图。
步骤S101,获取目标语料,确定所述目标语料的本体信息。
作为一个可选的实施例,首先获取目标语料,对目标语料进行数据处理,去除目标语料的无意义信息,并统一目标语料的格式,得到处理后的目标语料;提取处理后的目标语料的关键信息标注;根据所述关键信息标注确定目标语料的本体信息。
具体地,目标语料可以理解为事件抽取数据集,可以包括公开数据集和自建数据集,在处理多数据来源的事件抽取数据集时,确实需要确保所有数据都遵循相同的标准格式,以便能够进行有效的模型训练和评估。
多来源的公开数据集包括但不限于从知名的数据仓库(如Kaggle、Hugging FaceDatasets、Google Dataset Search)或研究机构的公开资源中获取事件抽取相关的公开数据集。对于多来源的公开数据集需要确保数据集包含事件类型、触发词、论元角色等标注信息。且还需要检查数据集的许可证,确保符合使用要求。
举例来说,新闻类数据集可以是自动内容抽取(Automatic Content Extraction)任务中常用的数据集,包含了新闻文本中的事件抽取标注信息,如事件类型、事件触发词、事件论元等。金融类数据集可以是专注于金融领域的事件抽取数据集,包含了金融新闻或报告中的事件信息。它可能包括公司并购、股票涨跌、政策发布等金融相关事件。
自建数据集可以是使用爬虫技术从新闻网站、社交媒体平台或其他相关来源收集的原始文本数据,需要对收集到的数据进行初步清洗,去除无关信息(如广告、导航菜单等)。
作为一个可选的实施例,对于一些对于通过爬虫等数据收集方法获取的自建数据集,需要进行进一步处理,包括:
数据清洗:对收集到的原始文本数据进行清洗,去除无关信息,如广告、导航菜单、页脚等。
文本预处理:使用正则表达式、HanLP或jieba等自然语言处理工具对文本进行以下预处理操作:
特殊词符过滤:通过正则表达式或工具提供的过滤功能,去除文本中的注释标记、全角词符等无关字符。
段落拼接:对于错误分割的段落或空白段落,进行合并或去除操作,确保文本的连贯性和完整性。上述HanLP是一个面向生产环境的多语种自然语言处理工具包,jieba是一个流行的中文分词工具,它能够将一段文本切分成有意义的词语。它是目前Python这种高级编程语言中最常用的中文分词库之一。
作为一个可选的实施例,在完成自建数据集的预处理后,还需要将其与公开数据集的格式进行统一。包括定义相同的字段名、数据类型和标注规范等。可以使用编程语言(如Python)编写脚本来自动化这个格式转换过程,格式统一是为了确保不同来源的数据集能够在同一框架下进行比较和评估,具体包括:
字段对齐:确保所有数据集都包含相同的事件抽取相关字段,如事件类型、触发词、论元角色等。
数据类型转换:将不同数据集中的数据类型转换为统一的格式,如将文本转换为统一的编码格式,如8位元,(Universal Character Set/Unicode TransformationFormat,UTF-8),其是针对Unicode的一种可变长度字符编码。
标注规范统一:对于事件类型和论元角色的标注,需要确保所有数据集遵循相同的标注规范。
通过以上步骤,可以将多数据来源的事件抽取数据集整合到统一的格式下,为后续的模型训练和评估提供便利。
作为一个可选的实施例,对于公开数据集,如ACE2005、FewFC等,它们通常已经包含了详细的数据标注和本体信息。这些数据集经过专业团队的精心标注,提供了高质量的事件类型、触发词、论元及其角色等标注信息。同时,它们也定义了相关的本体信息,如实体、关系、概念等,以支持更深层次的语义理解。上述Ace2005数据集是用于命名实体识别和关系抽取任务的英文语言数据集,FewFC是一个包含质押事件、股份股权转让事件、投资事件等10个事件类别的小样本金融领域数据集。
在本申请实施例中,对于自建数据集,由于它们可能来源于不同的数据公开网站或爬虫收集,因此可能不包含数据标注和本体信息。在这种情况下,需要进行以下步骤来获取这些数据:
首先,需要定义一套适合目标领域的事件类型体系。这可以通过领域专家的建议、相关文献的调研或初步的数据分析来确定。然后,对收集到的文本数据进行事件类型的标注。通常涉及到识别文本中描述的各种事件,并将它们归类到预定义的事件类型中。
其中,触发词是事件的核心,它描述了事件的动作或状态变化。需要识别文本中的触发词,并将其与相应的事件类型关联起来。触发词的标注可以通过自然语言处理工具的词性标注、命名实体识别等功能来辅助完成。论元是与事件相关联的实体、概念或属性。本申请需要识别文本中的论元,并确定它们在事件中的角色或功能。论元角色的标注可以通过定义一套角色标签体系来完成,如“事件主动方”、“事件被动方”、“事件发生时间”、“事件发生地点”等。然后,对文本中的论元进行角色标注,将它们与相应的事件和角色标签关联起来。本体信息提供了对实体、关系和概念的更深层次理解。对于自建数据集,可能需要定义一些特定的本体类、属性和关系来描述数据中的实体和概念。本体信息的标注可以通过本体编辑工具或自定义的标注平台来完成,包括识别文本中的实体、定义实体之间的关系、以及将这些信息组织成结构化的本体表示形式。
步骤S102,获取预先构建的语料抽取模型;其中,所述预先构建的语料抽取模型是基于课程学习的方式训练得到的。
参考图2,为本申请实施例提供的语料抽取模型构建流程示意图。
作为一个可选的实施例,可以通过以下方式构建语料抽取模型:
步骤S201,根据所述目标语料以及所述目标语料的本体信息确定所述目标语料的聚合特征;
步骤S202,设定知识预习任务,根据所述知识预习任务训练原始的语料抽取模型,使所述原始的语料抽取模型具备抽取所述目标语料的事件类型以及与所述事件类型相应的事件论元角色的能力,得到第一语料抽取模型;
步骤S203,设定知识学习任务,根据所述知识学习任务训练所述第一语料抽取模型,使所述第一语料抽取模型针对所述知识学习任务中的标注数据进行学习,得到第二语料抽取模型;
步骤S204,设定知识复习任务,根据所述知识复习任务确定所述第二语料抽取模型的收敛程度,根据所述收敛程度以及所述聚合特征训练所述第二语料抽取模型,得到所述预先构建的语料抽取模型。
作为一个可选的实施例,可以将目标语料输入到预先确定的语言模型中,提取目标语料的隐藏层特征,将本体信息输入到预先确定的语言模型中,提取本体信息的概括性特征;根据隐藏层特征以及概括性特征确定目标语料的聚合特征。
具体地,针对预定义的事件类型,收集或编写每个事件类型的详细描述。这些描述应该清晰地界定事件类型的边界,并提供足够的上下文信息来帮助模型理解。例如,对于“并购”事件,描述可以包括“一个公司或组织通过购买另一个公司或组织的资产或股份来获得控制权”。触发词是事件的关键词,通常是动词或动词短语,如“购买”、“合并”等。为每个事件类型收集代表性的触发词,并考虑它们的同义词、变形等变体形式。定义事件论元的角色,如“买方”、“卖方”、“时间”、“金额”等,并为每个角色提供清晰的描述。论元角色描述应该说明角色在事件中的功能和预期的值类型(如实体、时间表达式、数字等)。将事件类型、事件类型描述、触发词、论元角色和论元角色描述组合成一个结构化的本体信息表示。可以是一个JSON对象,其中包含事件类型的字段、触发词的列表和论元角色的定义。前述JSON(JavaScript Object Notation)是一种基于文本的轻量级数据交换格式。
进一步地,将包含事件的原始文本输入到BERT(Bidirectional EncoderRepresentations from Transformers)预训练语言模型中,以获得文本的上下文嵌入表示(即隐层表征)。BERT模型将处理文本中的单词、短语和句子结构,生成每个单词的上下文相关的向量表示。将准备好的本体信息转换为BERT模型可以接受的输入格式。前述BERT是一种语言表示模型,其代表来自转换器(Transformer)的双向编码器表示。
作为一个可选的实施例,可以将本体信息的各个部分(如事件类型、触发词、论元角色等)串联或编码成一个特殊的序列,然后将其作为额外的输入提供给BERT模型。还可以将本体信息作为额外的特征,与BERT模型的输出进行融合。BERT模型在处理输入文本时,会在文本的开头添加一个特殊的[CLS]标记。在BERT的输出中,[CLS]标记的隐层表征通常被认为是对整个输入文本的一个概括性表示。对于事件抽取任务,可以获取[CLS]标记的表征作为事件的整体表示,用于后续的分类或回归任务。通过上述步骤,本申请可以将事件文本和相关的本体信息有效地输入到BERT预训练语言模型中,并利用其强大的上下文理解能力来增强事件抽取的性能。
作为一个可选的实施例,在事件抽取任务中,为了充分利用事件的本体知识,需要对事件的本体信息进行细致的预习和准备。这包括事件检测(识别文本中的事件触发词并分类)和事件论元抽取(识别与事件相关的论元并分配角色)两个关键任务。知识预习任务可以理解为通过聚合特征判断该类型事件本体是否存在于事件语料中、判断该类型事件本体是否存在于事件语料中的边界两项知识预习任务中。事件语料可以理解为包含各种事件描述的文本数据集。这些事件描述通常涉及现实世界或虚拟世界中的动作、状态变化或发生的情况,如“公司合并”、“股票价格下跌”等。
作为一个可选的实施例,设定知识预习任务,根据知识预习任务训练原始的语料抽取模型,使原始的语料抽取模型具备抽取目标语料的事件类型以及与事件类型相应的事件论元角色的能力,得到第一语料抽取模型,包括可以根据聚合特征确定目标语料的权重系数,根据权重系数以及目标聚合函数得到目标语料的判定结果;其中,判定结果包括第一判定结果或者第二判定结果,第一判定结果指示目标语料的事件类型以及与事件类型相应的事件论元角色包含在预先确定的事件语料中,第二判定结果指示目标语料的事件类型以及与事件类型相应的事件论元角色不包含在预先确定的事件语料中,最后,根据判定结果确定原始的语料抽取模型的损失函数以及模型参数,根据所述损失函数以及模型参数,确定第一语料抽取模型。
具体地,首先,对于给定的目标语料(即待处理或待训练的文本数据),根据聚合特征(可能是指文本中的某些关键信息,如事件触发词、论元等)来确定其权重系数。这个权重系数可能表示目标语料在训练过程中的重要性或影响力。使用目标聚合函数(可能是一个预定的算法或模型)和之前计算的权重系数,来得到目标语料的判定结果。判定结果可以是两种之一,第一判定结果表明目标语料中的事件类型以及相应的事件论元角色包含在预先确定的事件语料中。这意味着目标语料与已知的事件类型和论元角色匹配。第二判定结果表明目标语料的事件类型以及相应的事件论元角色不包含在预先确定的事件语料中。这意味着目标语料可能包含新的、未知的事件类型或论元角色。如果判定结果为第一判定结果,即目标语料与已知事件类型和论元角色匹配,我们可以使用传统的分类或回归损失函数(如交叉熵损失)来训练模型,并更新模型参数以更好地拟合已知事件类型。如果判定结果为第二判定结果,即目标语料包含新的或未知的事件类型,可能需要引入更复杂的损失函数来处理这种情况,例如引入新的类别来处理未知事件,或者设计一种能够处理新类别数据的损失函数。同时,模型参数也需要相应地进行调整。最后,根据确定的损失函数和模型参数,我们可以训练或调整原始的语料抽取模型,得到第一语料抽取模型。这个模型将能够处理已知的事件类型和论元角色,并有能力处理新的、未知的事件类型。
在事件抽取和自然语言处理任务中,训练一个能够准确识别和处理事件本体的语言模型是至关重要的。为了达到这个目的,本申请中设定了知识预习任务,并根据这个任务以及聚合特征来训练预先确定的语言模型,最终得到初始语言模型。
知识预习任务的设定的目标是确定目标语料中的本体信息是否包含在预先定义的事件语料中。预先确定的语言模型的输入包括目标语料(包含潜在本体信息的文本)和预先确定的事件语料(包含已知事件类型和相关本体信息的文本集)。输出包括判定结果,判定结果指示目标语料中的本体信息是否存在于事件语料中。
为了进一步提升语言模型在事件抽取任务中的性能,特别是针对论元信息的抽取能力,本申请设定知识学习任务,并在此基础上对初始语言模型进行约束和优化。
作为一个可选的实施例,设定知识学习任务,根据知识学习任务训练第一语料抽取模型,使第一语料抽取模型针对所述知识学习任务中的标注数据进行学习,得到第二语料抽取模型,可以包括确定问答式训练模板,提取问答式训练模板的抽取序列,将抽取序列作为第一语料抽取模型的约束条件;其中,抽取序列用于指示抽取目标语料的事件类型以及与事件类型相应的事件论元角色;将抽取序列输入到第一语料抽取模型中,确定事件论元角色在目标语料中的起始抽取位置和结束抽取位置;使用交叉熵损失函数计算起始抽取位置的起始损失函数;使用交叉熵损失函数计算结束抽取位置的结束损失函数;根据起始损失函数以及结束损失函数确定整体损失函数;根据整体损失函数训练第一语料抽取模型,得到第二语料抽取模型。
知识学习任务的设定的目标是准确抽取目标语料中的论元信息,并确定其在语料中的位置。初始语言模型的输入包括目标语料(包含潜在事件的文本)和问答式训练模板(预定义的问题和答案格式,用于指导论元信息的抽取)。输出包括抽取的论元信息及其在目标语料中的起始和结束位置。其中,模板设计是根据事件类型和论元角色,设计一系列问答式训练模板,例如“事件类型是什么?”、“事件的主体是谁?”等。模板填充是使用预先标注的事件语料填充模板,生成包含抽取序列的训练数据。
作为一个可选的实施例,设定知识复习任务,根据知识复习任务确定第二语料抽取模型的收敛程度,根据收敛程度以及聚合特征训练第二语料抽取模型,得到预先构建的语料抽取模型,可以包括确定整体损失函数的收敛程度,响应于收敛程度没有达到预设收敛程度,确定整体损失函数值;根据整体损失函数值选择预设数量的所述事件抽取结果,利用事件抽取结果随机替换论元信息,得到扩展论元信息,根据扩展论元信息以及聚合特征训练第二语料抽取模型,得到预先构建的语料抽取模型。
为了进一步提升优化语言模型在事件抽取任务中的性能,并确保其收敛到一个稳定且高效的状态,本申请设定知识复习任务。这个任务主要关注模型的收敛程度,并在必要时通过扩展论元信息来增强模型的泛化能力。
知识复习任务的设定的目标是评估优化语言模型的收敛程度,并通过扩展论元信息来进一步提升其性能。最终得到最优语料抽取模型。
步骤S103,将所述本体信息输入到所述语料抽取模型,抽取所述本体信息的事件类型以及与所述事件类型相应的事件论元角色,得到所述目标语料的事件抽取结果。
作为一个可选的实施例,本申请提供的基于课程学习的问答式事件抽取方法具体包括以下步骤:
步骤1:获取多数据来源的事件抽取数据集数据,公开数据集可以使用ACE2005新闻数据集、FewFC金融数据集等。自建数据集的数据收集来源可以来文书网、新闻网等数据公开网站,在完成数据收集后,通过正则表达式、HanLP或jieba等自然语言处理工具对收集到的文本进行特殊词符过滤(如注释标记,全角词符)、段落拼接(如空白段落,错误段落分割)等预处理操作,最终将自建数据集与公开数据集进行格式统一。
步骤2:对多来源数据集获取标注与该数据集的本体信息,即事件类型、事件触发词、论元、论元角色及相关的本体信息。其中典型的事件类型例如:冲突、生活、裁决、个人、转移等,典型的事件论元例如:人物、时间、地点等。
步骤3:执行事件本体知识预习的数据输入准备环节:
对于事件检测任务,每个类型的本体信息定义为事件类型/>与其事件类型描述的文本拼接结果/>。
对于事件论元抽取任务,每个类型的本体信息定义为事件类型/>、事件类型描述/>、触发词/>、论元角色/>、论元角色描述/>的文本拼接结果;
通过BERT预训练语言模型获取文本表征的方法为,将待抽取事件语料输入编码器得到隐层表征/>,n表示事件语料文本长度,d表示编码器输出的隐藏层特征向量长度,将类型/>的本体信息/>或类型/>的本体信息/>输入到编码器中并取[CLS]词符的表征作为概括性表征/>,/>。
步骤4:首先将步骤3得到的事件文本隐藏层表征 和本体信息聚合表征用于判断该类型事件本体是否存在于事件语料中,/>生成针对事件语料每个位置处的权重系数/>,而后基于权重系数重新聚合事件语料表征,经过前向网络并通过/>函数最终输出二分类值,其中,/>表示判断该事件类型本体是否存在于事件语料中的概率;
其中,表示表示判断第i个事件类型本体是否存在于该句事件语料中的分类概率,/>表示事件语料表征的聚合结果。
然后将事件文本隐藏层表征和本体信息聚合表征/>用于判断该类型事件本体存在于事件语料中的边界,经过前向网络并通过/>函数为每个位置输出二分类/>值,首先,基于/>此公式拼接得到/>,然后再通过/>函数得到二分类/>值;
其中,表示将句子中每个字词的隐藏表征与本体信息概括性表征拼接得到的表征向量,/>表示第n个隐层表征,/>表示概括性表征,/>代表句中第i个字词是否存在于事件语料的边界。
步骤5:在步骤4基础上完成事件本体知识预习任务,使用交叉熵损失函数进行训练,结合预训练语言模型的原始掩码语言建模任务,事件本体知识预习阶段的最终损失函数被表示为,其中,/>表示约束事件本体知识预习阶段最终目标的损失函数,/>表示知识预习任务使用的交叉熵损失函数,/>表示预训练语言模型使用的下句预测(Next Sentence Prediction,NSP)任务损失函数,/>表示预训练语言模型使用的掩码语言建模(Mask Language Modeling,MLM)任务损失函数,/> 表示每项损失函数的权重系数,并进一步进行训练得到更新后的编码器参数/>与/>,其中/>代表对于事件检测任务更新后的编码器参数,/>代表对于事件论元抽取任务更新后的编码器参数。
步骤6:执行问题问答内在交互式知识学习的模板设计环节,对于事件检测任务将问题问答模板拼接为;
其中,表示拼接得到用于事件检测任务的问题模板,/>表示为了获取句子聚合性表征而加入的特殊词符,/>表示“动词”这一单词的文本,/>表示为了分隔拼接模板各部分而加入的特殊词符,/>表示包含有事件信息的文本内容。需要说明的是,因为事件检测任务一般为抽取动词然后再分类,因此上述加入的verb文本相当于是引导问题问答得到句子中动词词性的单词。
对于事件论元抽取任务,考虑到论元角色之间存在明显的内在关联关系,在模板设计时将分别将事件论元角色对应到“在哪里”、“是什么”、“是谁”三大类别,在每个类别下以迭代拼接的方式执行事件知识问答以进行内部知识的交互式关联,得到事件论元抽取任务的模板。
步骤7:执行问题问答内在交互式学习的模型训练环节,使用步骤5经过事件本体预习得到的编码器参数与/>;
对事件检测进行训练的方法是将作为/>的输入,得到隐藏层表征并经过前向神经网络/>以/>进行输出/>;
其中,表示句子中每个单词是t个事件触发词类别下每种类别的分类概率,/>表示将事件检测问题问答模板输入到编码器后获取的第一隐藏层表征,/>表示可学习的权重矩阵。
取每个位置词符所属的事件类型/>,使用交叉熵损失函数得到/>,表示事件检测任务的整体损失函数;
对事件论元抽取进行训练的方法是将作为/>的输入,得到隐藏层表征,使用首尾位置标识获取方法,设置可学习的权值矩阵/>和得到/>和/>;
其中,表示句子中每个位置属于候选论元开始位置的分类概率,/>表示第二隐藏层表征,/>表示可学习的第一权重矩阵,/>表示句子中每个位置属于候选论元结束位置的分类概率,/>表示隐藏层表征,/>表示可学习的第二权重矩阵。
使用交叉熵损失函数得到;
其中,表示事件论元抽取任务的整体损失函数,/>表示为事件论元抽取任务起始位置制定的损失函数,/>表示为事件论元抽取任务结束位置制定的损失函数。
步骤8:执行数据增强知识复习,根据步骤7进行数据训练时损失函数的收敛情况,当损失函数没有收敛时根据训练损失函数值选择前10%的错误预测示例作为扩大积累数据集的资源。这一过程遵循随机事件论元替换方式,将同类型的事件论元在不同输入语料间完成替换从而进行数据扩充。
通过步骤1至步骤8可以看出,本申请针对传统事件抽取方法中流水线训练方式所带来的错误累积问题,成功地将流水线式方法转变为端到端的问答模式。此外,还通过迭代式问题拼接模板,巧妙地捕捉了论元间的依存关系。为了解决知识获取范式不完善以及事件本体和标签知识利用不充分的问题,本申请将课程学习的训练理念融入事件抽取任务中。在“知识预习”阶段,系统通过对事件本体信息的初步处理,完成了事件检测和事件论元抽取的基础任务。而在“知识学习”和“知识复习”阶段,本申请则聚焦于更为复杂的事件论元抽取任务。这些任务被重新构造成问题问答的形式,并深入探索了潜藏在事件类型下的论元信息。通过对有标签数据的精细化训练,本申请显著提升了事件抽取任务的整体性能。
可以理解的是,在使用本申请中各个实施例的技术方案之前,均会通过恰当的方式对所涉及的个人信息的类型、使用范围、使用场景等告知用户,并获得用户的授权。
例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确的提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主的选择是否向执行本申请技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
作为一种可选的但非限定的实现方式,响应于接受到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本申请的实现方式构成限定,其他满足相关法律法规的方式也可应用于本申请的实现方式中。
从上面所述可以看出,本申请提供的基于课程学习的问答式事件抽取方法以及相关设备,首先获取目标语料,确定目标语料的本体信息,将本体信息输入到预先构建的语料抽取模型,抽取本体信息的论元信息,最后,根据论元信息以及目标语料确定目标语料的结构化信息,得到目标语料的事件抽取结果。本申请将传统的基于流水线式的事件抽取任务转化为基于问题问答的端到端式微调学习方法,改善了传统流水线方法中的错误累积问题,并在设计问题模板时对于同类型事件下的多个潜在事件论元执行迭代交互式设计,进一步考虑到了论元间的依存相关性关系。在“知识预习”阶段借助事件本体信息完成事件检测与事件论元抽取的简单任务预习,在“知识学习”“知识复习”阶段则聚焦于相对更为复杂的事件论元抽取任务,将其看作问题问答并交互潜在与事件类型下的论元,通过对有标签数据的训练以更好的提升事件抽取任务性能。
需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例提供的方法相对应的,本申请还提供了一种基于课程学习的问答式事件抽取装置。
参考图3,为本申请实施例提供的基于课程学习的问答式事件抽取装置示意图。
所述装置包括:
第一获取模块301,被配置为获取目标语料,确定所述目标语料的本体信息;
第二获取模块302,被配置为获取预先构建的语料抽取模型;其中,所述预先构建的语料抽取模型是基于课程学习的方式训练得到的;
抽取模块303,被配置为将所述本体信息输入到所述语料抽取模型,以课程学习的方式抽取所述本体信息的事件类型以及与所述事件类型相应的事件论元角色,得到所述目标语料的事件抽取结果。
可选的,所述第一获取模块,还被配置为:
获取目标语料,对所述目标语料进行数据处理,去除所述目标语料的无意义信息,并统一所述目标语料的格式,得到处理后的目标语料;
提取所述处理后的目标语料的关键信息标注;
根据所述关键信息标注确定所述目标语料的本体信息。
可选的,所述第二获取模块还被配置为:
根据所述目标语料以及所述目标语料的本体信息确定所述目标语料的聚合特征;
设定知识预习任务,根据所述知识预习任务训练原始的语料抽取模型,使所述原始的语料抽取模型具备抽取所述目标语料的事件类型以及与所述事件类型相应的事件论元角色的能力,得到第一语料抽取模型;
设定知识学习任务,根据所述知识学习任务训练所述第一语料抽取模型,使所述第一语料抽取模型针对所述知识学习任务中的标注数据进行学习,得到第二语料抽取模型;
设定知识复习任务,根据所述知识复习任务确定所述第二语料抽取模型的收敛程度,根据所述收敛程度以及所述聚合特征训练所述第二语料抽取模型,得到所述预先构建的语料抽取模型。
可选的,所述第二获取模块还被配置为:
将所述目标语料输入到所述预先确定的语言模型中,提取所述目标语料的隐藏层特征,将所述本体信息输入到所述预先确定的语言模型中,提取所述本体信息的概括性特征;
根据所述隐藏层特征以及所述概括性特征确定所述目标语料的聚合特征。
可选的,所述第二获取模块还被配置为:
根据所述聚合特征确定所述目标语料的权重系数;
根据所述权重系数以及目标聚合函数得到所述目标语料的判定结果;其中,所述判定结果包括第一判定结果或者第二判定结果,所述第一判定结果指示所述目标语料的事件类型以及与所述事件类型相应的事件论元角色包含在预先确定的事件语料中,所述第二判定结果指示所述目标语料的事件类型以及与所述事件类型相应的事件论元角色不包含在预先确定的事件语料中;
根据所述判定结果确定所述原始的语料抽取模型的损失函数以及模型参数;
根据所述损失函数以及所述模型参数,确定所述第一语料抽取模型。
可选的,所述第二获取模块还被配置为:
确定问答式训练模板,提取所述问答式训练模板的抽取序列,将所述抽取序列作为所述第一语料抽取模型的约束条件;其中,所述抽取序列用于指示抽取所述目标语料的事件类型以及与所述事件类型相应的事件论元角色;
将所述抽取序列输入到所述第一语料抽取模型中,确定所述事件论元角色在所述目标语料中的起始抽取位置和结束抽取位置;
使用交叉熵损失函数计算所述起始抽取位置的起始损失函数;
使用交叉熵损失函数计算所述结束抽取位置的结束损失函数;
根据所述起始损失函数以及所述结束损失函数确定整体损失函数;
根据所述整体损失函数训练所述第一语料抽取模型,得到所述第二语料抽取模型。
可选的,所述第二获取模块还被配置为:
确定所述整体损失函数的收敛程度,响应于所述收敛程度没有达到预设收敛程度,确定所述整体损失函数值;
根据所述整体损失函数值选择预设数量的所述事件抽取结果,利用所述事件抽取结果随机替换所述论元信息,得到扩展论元信息,根据所述扩展论元信息以及所述聚合特征训练所述第二语料抽取模型,得到所述预先构建的语料抽取模型。
为了描述的方便,描述以上系统时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的系统用于实现前述任一实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的方法。
图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器410、存储器420、输入/输出接口430、通信接口440和总线450。其中处理器410、存储器420、输入/输出接口430和通信接口440通过总线450实现彼此之间在设备内部的通信连接。
处理器410可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器420可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器420可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器420中,并由处理器410来调用执行。
输入/输出接口430用于连接输入/输出模块,以实现信息输入及输出。输入/输出模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口440用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线450包括一通路,在设备的各个组件(例如处理器410、存储器420、输入/输出接口430和通信接口440)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器410、存储器420、输入/输出接口430、通信接口440以及总线450,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的方法。
上述非暂态计算机可读存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上示例性方法部分中任一实施例所述的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
虽然已经参考若干具体实施方式描述了本申请的精神和原理,但是应该理解,本申请并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释,从而包含所有这样的修改及等同结构和功能。
Claims (9)
1.一种基于课程学习的问答式事件抽取方法,其特征在于,包括:
获取目标语料,确定所述目标语料的本体信息;
获取预先构建的语料抽取模型;其中,所述预先构建的语料抽取模型是基于课程学习的方式训练得到的;
将所述本体信息输入到所述语料抽取模型,抽取所述本体信息的事件类型以及与所述事件类型相应的事件论元角色,得到所述目标语料的事件抽取结果;
所述方法还包括通过以下方式训练所述语料抽取模型:
根据所述目标语料以及所述目标语料的本体信息确定所述目标语料的聚合特征;
设定知识预习任务,根据所述知识预习任务训练原始的语料抽取模型,使所述原始的语料抽取模型具备抽取所述目标语料的事件类型以及与所述事件类型相应的事件论元角色的能力,得到第一语料抽取模型;
设定知识学习任务,根据所述知识学习任务训练所述第一语料抽取模型,使所述第一语料抽取模型针对所述知识学习任务中的标注数据进行学习,得到第二语料抽取模型;
设定知识复习任务,根据所述知识复习任务确定所述第二语料抽取模型的收敛程度,根据所述收敛程度以及所述聚合特征训练所述第二语料抽取模型,得到所述预先构建的语料抽取模型。
2.根据权利要求1所述的方法,其特征在于,所述获取目标语料,确定所述目标语料的本体信息,包括:
获取目标语料,对所述目标语料进行数据处理,去除所述目标语料的无意义信息,并统一所述目标语料的格式,得到处理后的目标语料;
提取所述处理后的目标语料的关键信息标注;
根据所述关键信息标注确定所述目标语料的本体信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标语料以及所述目标语料的本体信息确定所述目标语料的聚合特征,包括:
将所述目标语料输入到预先确定的语言模型中,提取所述目标语料的隐藏层特征,将所述本体信息输入到所述预先确定的语言模型中,提取所述本体信息的概括性特征;
根据所述隐藏层特征以及所述概括性特征确定所述目标语料的聚合特征。
4.根据权利要求1所述的方法,其特征在于,所述设定知识预习任务,根据所述知识预习任务训练原始的语料抽取模型,使所述原始的语料抽取模型具备抽取所述目标语料的事件类型以及与所述事件类型相应的事件论元角色的能力,得到第一语料抽取模型,包括:
根据所述聚合特征确定所述目标语料的权重系数;
根据所述权重系数以及目标聚合函数得到所述目标语料的判定结果;其中,所述判定结果包括第一判定结果或者第二判定结果,所述第一判定结果指示所述目标语料的事件类型以及与所述事件类型相应的事件论元角色包含在预先确定的事件语料中,所述第二判定结果指示所述目标语料的事件类型以及与所述事件类型相应的事件论元角色不包含在预先确定的事件语料中;
根据所述判定结果确定所述原始的语料抽取模型的损失函数以及模型参数;
根据所述损失函数以及所述模型参数,确定所述第一语料抽取模型。
5.根据权利要求1所述的方法,其特征在于,所述设定知识学习任务,根据所述知识学习任务训练所述第一语料抽取模型,使所述第一语料抽取模型针对所述知识学习任务中的标注数据进行学习,得到第二语料抽取模型,包括:
确定问答式训练模板,提取所述问答式训练模板的抽取序列,将所述抽取序列作为所述第一语料抽取模型的约束条件;其中,所述抽取序列用于指示抽取所述目标语料的事件类型以及与所述事件类型相应的事件论元角色;
将所述抽取序列输入到所述第一语料抽取模型中,确定所述事件论元角色在所述目标语料中的起始抽取位置和结束抽取位置;
使用交叉熵损失函数计算所述起始抽取位置的起始损失函数;
使用交叉熵损失函数计算所述结束抽取位置的结束损失函数;
根据所述起始损失函数以及所述结束损失函数确定整体损失函数;
根据所述整体损失函数训练所述第一语料抽取模型,得到所述第二语料抽取模型。
6.根据权利要求5所述的方法,其特征在于,所述设定知识复习任务,根据所述知识复习任务确定所述第二语料抽取模型的收敛程度,根据所述收敛程度以及所述聚合特征训练所述第二语料抽取模型,得到所述预先构建的语料抽取模型,包括:
确定所述整体损失函数的收敛程度,响应于所述收敛程度没有达到预设收敛程度,确定所述整体损失函数值;
根据所述整体损失函数值选择预设数量的所述事件抽取结果,利用所述事件抽取结果随机替换论元信息,得到扩展论元信息,根据所述扩展论元信息以及所述聚合特征训练所述第二语料抽取模型,得到所述预先构建的语料抽取模型。
7.一种基于课程学习的问答式事件抽取装置,其特征在于,包括:
第一获取模块,被配置为获取目标语料,确定所述目标语料的本体信息;
第二获取模块,被配置为获取预先构建的语料抽取模型;其中,所述预先构建的语料抽取模型是基于课程学习的方式训练得到的;
抽取模块,被配置为将所述本体信息输入到所述语料抽取模型,以课程学习的方式抽取所述本体信息的事件类型以及与所述事件类型相应的事件论元角色,得到所述目标语料的事件抽取结果;
所述装置还包括:
确定模块,被配置为根据所述目标语料以及所述目标语料的本体信息确定所述目标语料的聚合特征;
预习模块,被配置为设定知识预习任务,根据所述知识预习任务训练原始的语料抽取模型,使所述原始的语料抽取模型具备抽取所述目标语料的事件类型以及与所述事件类型相应的事件论元角色的能力,得到第一语料抽取模型;
学习模块,被配置为设定知识学习任务,根据所述知识学习任务训练所述第一语料抽取模型,使所述第一语料抽取模型针对所述知识学习任务中的标注数据进行学习,得到第二语料抽取模型;
复习模块,被配置为设定知识复习任务,根据所述知识复习任务确定所述第二语料抽取模型的收敛程度,根据所述收敛程度以及所述聚合特征训练所述第二语料抽取模型,得到所述预先构建的语料抽取模型。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任意一项所述的方法。
9.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1至6任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410277030.0A CN117874261B (zh) | 2024-03-12 | 2024-03-12 | 基于课程学习的问答式事件抽取方法以及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410277030.0A CN117874261B (zh) | 2024-03-12 | 2024-03-12 | 基于课程学习的问答式事件抽取方法以及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117874261A CN117874261A (zh) | 2024-04-12 |
CN117874261B true CN117874261B (zh) | 2024-05-28 |
Family
ID=90590460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410277030.0A Active CN117874261B (zh) | 2024-03-12 | 2024-03-12 | 基于课程学习的问答式事件抽取方法以及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117874261B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114595829A (zh) * | 2022-01-28 | 2022-06-07 | 中国科学院计算技术研究所 | 情报分析方法、装置、介质、电子设备 |
CN115203507A (zh) * | 2022-05-23 | 2022-10-18 | 北京计算机技术及应用研究所 | 一种面向文书领域的基于预训练模型的事件抽取方法 |
CN115409111A (zh) * | 2022-08-31 | 2022-11-29 | 中国工商银行股份有限公司 | 命名实体识别模型的训练方法和命名实体识别方法 |
CN116910196A (zh) * | 2023-05-04 | 2023-10-20 | 上海应用技术大学 | 一种基于多任务学习的校园安全突发事件抽取方法 |
CN117151222A (zh) * | 2023-09-15 | 2023-12-01 | 大连理工大学 | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263324B (zh) * | 2019-05-16 | 2021-02-12 | 华为技术有限公司 | 文本处理方法、模型训练方法和装置 |
-
2024
- 2024-03-12 CN CN202410277030.0A patent/CN117874261B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114595829A (zh) * | 2022-01-28 | 2022-06-07 | 中国科学院计算技术研究所 | 情报分析方法、装置、介质、电子设备 |
CN115203507A (zh) * | 2022-05-23 | 2022-10-18 | 北京计算机技术及应用研究所 | 一种面向文书领域的基于预训练模型的事件抽取方法 |
CN115409111A (zh) * | 2022-08-31 | 2022-11-29 | 中国工商银行股份有限公司 | 命名实体识别模型的训练方法和命名实体识别方法 |
CN116910196A (zh) * | 2023-05-04 | 2023-10-20 | 上海应用技术大学 | 一种基于多任务学习的校园安全突发事件抽取方法 |
CN117151222A (zh) * | 2023-09-15 | 2023-12-01 | 大连理工大学 | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
可靠的虚拟网络映射算法研究;刘光远;苏森;;电子学报;20160815(第08期);全文 * |
统计机器翻译中大规模特征的深度融合;刘宇鹏;乔秀明;赵石磊;马春光;;浙江大学学报(工学版);20170115(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117874261A (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Baradaran et al. | A survey on machine reading comprehension systems | |
US20220035728A1 (en) | System for discovering semantic relationships in computer programs | |
CN112001177A (zh) | 融合深度学习与规则的电子病历命名实体识别方法及系统 | |
Lau et al. | Automatic domain ontology extraction for context-sensitive opinion mining | |
CN112100401B (zh) | 面向科技服务的知识图谱构建方法、装置、设备及存储介质 | |
CN113704460B (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
CN112632226B (zh) | 基于法律知识图谱的语义搜索方法、装置和电子设备 | |
CN116304748B (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
Wang et al. | Structural block driven enhanced convolutional neural representation for relation extraction | |
Xiao et al. | User preference mining based on fine-grained sentiment analysis | |
CN111739520A (zh) | 一种语音识别模型训练方法、语音识别方法、装置 | |
CN113486178B (zh) | 文本识别模型训练方法、文本识别方法、装置以及介质 | |
Zhang et al. | Joint model of entity recognition and relation extraction based on artificial neural network | |
CN113051910A (zh) | 一种用于预测人物角色情绪的方法和装置 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
Gonzalez-Mora et al. | Model-driven development of web apis to access integrated tabular open data | |
CN117874261B (zh) | 基于课程学习的问答式事件抽取方法以及相关设备 | |
CN114911940A (zh) | 文本情感识别方法及装置、电子设备、存储介质 | |
CN114490946A (zh) | 基于Xlnet模型的类案检索方法、系统及设备 | |
AU2019290658B2 (en) | Systems and methods for identifying and linking events in structured proceedings | |
Dobreva et al. | Improving NER performance by applying text summarization on pharmaceutical articles | |
Li et al. | A novel convolutional neural network for statutes recommendation | |
CN117909505B (zh) | 事件论元的抽取方法及相关设备 | |
Liu et al. | MVPN: Multi-granularity visual prompt-guided fusion network for multimodal named entity recognition | |
CN116595192B (zh) | 科技前沿信息获取方法、装置、电子设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |