CN115630304A - 一种文本抽取任务中的事件分割抽取方法及系统 - Google Patents

一种文本抽取任务中的事件分割抽取方法及系统 Download PDF

Info

Publication number
CN115630304A
CN115630304A CN202211366417.0A CN202211366417A CN115630304A CN 115630304 A CN115630304 A CN 115630304A CN 202211366417 A CN202211366417 A CN 202211366417A CN 115630304 A CN115630304 A CN 115630304A
Authority
CN
China
Prior art keywords
event
extraction
segmentation
graph
argument
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211366417.0A
Other languages
English (en)
Inventor
宋艳枝
吴同洲
杨周旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202211366417.0A priority Critical patent/CN115630304A/zh
Publication of CN115630304A publication Critical patent/CN115630304A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种文本抽取任务中的事件分割抽取方法及系统,包括:采用Span片段的数据分割标注策略,搭建基于预训练模型的神经网络分割算法模型,使网络能够学习到事件的首尾token位置,进行事件的分割,以此减少抽取模型单次处理事件的数目;搭建基于预训练模型的神经网络抽取算法模型,将事件抽取任务转换成为论元识别,事件划分及图搜索三个子任务。上述方法能够避免抽取模型解码过于复杂,提升文本事件抽取的正确率,减少抽取错误。此外,本发明简单易实施,采用分割与抽取Pipeline的方式大大提升了文本事件抽取的正确率,抽取效率高,并且理论上不存在传统自回归模型的曝光偏差问题。

Description

一种文本抽取任务中的事件分割抽取方法及系统
技术领域
本发明属于深度学习与人工智能技术领域,涉及一种文本事件分割及信息抽取的方法及系统,具体涉及一种文本抽取任务中的先分割事件后抽取事件的Pipeline技术。
背景技术
事件抽取任务,是信息抽取领域最重要,也是最常见的问题之一,其在文本摘要、自动问答、信息检索等领域有着广泛的应用。“事件”是指在特定的时空下,由一个或多个角色(事件主体)参与的,围绕某个主题开展的一系列活动。组成事件的各元素包括:触发词(trigger)、事件类型(event type)、事件论元(argument)及论元角色(role)。事件抽取的目标是在文本中抽取出较为关键的信息(组成事件的各元素),将无结构化数据转换为结构化数据。根据事件所处的位置,事件抽取可分为句子级别以及文档级别。用深度学习解决这类问题的一般方式为,构造一个端到端的神经网络模型,目前事件抽取领域的主流方法分为四个步骤:触发词检测、事件/触发词类型识别、事件论元检测、论元角色识别。虽然这类方法在多个数据集中均取得了良好的效果,但是针对一些多事件且事件交叉较少的文本,随着文本中事件数目的增多,模型性能将会受到严重影响,并且大多现有方法只能处理单事件中论元角色与事件论元一对一的情况。
事件抽取的正确率受文本中事件数目的影响较大,因此降低处理的文本事件数目对模型事件抽取正确率的提升至关重要。但是依靠人工去划分事件之间的边界往往会耗费大量的人力资源。
发明内容
本发明技术解决问题:克服现有技术的不足,提供一种文本抽取任务中的事件分割抽取方法及系统,采用分割与抽取Pipeline的方式大大提升了文本事件抽取的正确率。
本发明的目的是通过以下技术方案实现的:
第一方面,本发明提供了一种文本抽取任务中的事件分割抽取方法,文本抽取任务中先分割事件后抽取事件,分割的目的是尽可能的识别出事件之间的边界,使得模型一次处理较少的事件数目;抽取的目的是尽可能的识别出组成事件中的各元素;采用分割与抽取Pipeline的方式大大提升了文本事件抽取的正确率。
上述方法包括以下步骤:
步骤1:对每篇文档中的若干事件进行首尾标注,生成分割标注的样本数据集;所述首尾标注采用Span片段的标注策略;
步骤2:搭建基于预训练模型的神经网络分割算法模型,并对步骤1得到的分割标注的样本数据集进行训练;
步骤3:利用训练后的所述分割算法模型,对外部测试集进行事件的分割,得到事件分割结果;
步骤4:根据事件分割结果中已完成分割的事件,对组成事件的元素进行标注,生成抽取标注的样本数据集;
步骤5:搭建基于预训练模型的神经网络抽取算法模型,并对步骤4得到的抽取标注的样本数据集进行训练;
步骤6:利用训练后的所述抽取算法模型,对外部测试集进行事件元素的抽取,得到文本中的事件抽取结果。
进一步,所述步骤2中:基于预训练模型的神经网络分割算法模型实现如下:
(1)在预训练模型中的特征提取部分,使用中文预训练模型进行token-level的特征表征后得到向量序列[h1,h2,…,hi],对向量序列[h1,h2,…,hi]进行线性变换,得到变换结果,即向量序列[q1,q2,…,qi]和[k1,k2,…,ki],其中线性变换公式:qi=Wqhi+bq和ki=Wkhi+bk,将qi和ki作为识别事件位置的向量序列,i的序列取值范围为1-n,Wq,Wk为权重系数,bq,bk为偏置项;
(2)基于向量序列,采用如下公式
Figure BDA0003919279020000021
计算从i到j的事件得分,i,j均为事件位置下标,1≤i≤j≤n;在得分中加入位置编码Q,Q满足
Figure BDA0003919279020000022
相对位置编码;
(3)采用改进的多标签分类损失函数,得到最终的优化目标loss为:
Figure BDA0003919279020000023
其中,E是分割标注的样本数据集中样本的所有事件的首尾集合,NE是分割标注的样本数据集中样本的所有非事件的首尾集合;
NE=Ω-E
Ω={(i,j)|1≤i≤j≤n}
E={(i,j)|Span[i,j]is a event}。
进一步,所述步骤4中,所述基于预训练模型的神经网络抽取算法模型实现如下:
将事件抽取任务转换成为论元识别,事件划分以及图搜索三个子任务;三者呈现递进关系,首先进行论元识别用于找出所有论元,找出所有论元后进行事件的划分,构建一个事件图,每一个论元为事件图上的一个节点,若两个论元同属一个事件,则两个节点间连上一条边,最后在构建好的事件图中以递归的方式进行图搜索,用以识别图中的事件集合;
对于论元识别,将触发词作为事件的一个论元角色,统一事件中有无触发词的情况,将事件类型及论元角色组合,进而论元识别转化为实体识别任务,以此识别出事件中存在的所有论元;
事件的划分由图的构建完成,事件中的每一个论元看作图上的一个节点,此节点拥有事件类型、论元角色和位置下标相关信息,对于同一个事件中的任意两个论元之间存在关联,则在图上连上一条边使之成为相邻节点;如果两个论元从未出现在同一事件中,则对应的节点没有边,即图上不相邻;对于图上存在关联的两个节点,即同一个事件中的两个论元,定义Scoree(sh,st,p,oh,ot)=S(sh,st)+S(oh,ot)+S(sh,oh|p)+S(st,ot|p)作为两个节点存在关联的打分函数;
其中,S(sh,st)与S(oh,ot)分别用来识别对应的节点,S(sh,oh|p)与S(st,ot|p)分别用来匹配关系为p的首token位置与尾token位置特征对;sh,oh为两个论元的首token位置,st,ot为两个论元的尾token位置,p为论元关系,这里仅有一种关联关系;
图搜索用于事件集合的识别,事件集合的识别采用改进的基于递归搜索的算法求解,具体实现如下:
(1)遍历图中的任意一对节点,若所有节点对都存在关联边,则该图所有节点构成一个事件,返回;若存在没有关联边的一对节点,执行步骤(2);
(2)对于不存在关联边的一对节点,分别遍历找出其所有相邻节点构成子图,对每个子图分别执行步骤(1);
(3)对得到的所有子图集合去重,得到最终的事件集合。
第二方面,本发明提供了文本抽取任务中的事件分割抽取系统,包括:
分割标注的样本数据集建立模块:对每篇文档中的若干事件进行首尾标注,生成分割标注的样本数据集;
基于预训练模型的神经网络分割算法模型模块:搭建基于预训练模型的神经网络分割算法模型,并对步骤1得到的分割标注的样本数据集进行训练;利用训练后的所述分割算法模型,对外部测试集进行事件的分割,得到事件分割结果;
所述基于预训练模型的神经网络分割算法模型实现如下:
抽取标注的样本数据集建立模块:根据事件分割结果中已完成分割的事件,对组成事件的元素进行标注,生成抽取标注的样本数据集;
基于预训练模型的神经网络抽取算法模型模块:搭建基于预训练模型的神经网络抽取算法模型,并对得到的抽取标注的样本数据集进行训练;利用训练后的所述抽取算法模型,对外部测试集进行事件元素的抽取,得到文本中的事件抽取结果。
第三方面,本发明还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述文本抽取任务中的事件分割抽取方法。
第四方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述文本抽取任务中的事件分割抽取方法。
本发明与现有技术相比的优点在于:
(1)本发明中模型在进行事件抽取之前先进行事件分割,将粗粒度数据转化为细粒度数据,进而使得抽取模型一次处理较少的事件数目,避免抽取模型解码过于复杂,相比其他现有的一次性处理多事件文本的方法能大大提升文本事件抽取的正确率,减少抽取错误。
(2)本发明分割模型中采用了基于Span片段的得分函数,并使用了相对位置编码Q,相比于绝对位置编码,更能扩展序列长度,同时针对损失函数,引入事件集合得分与非事件集合得分,能够更好的解决类别不平衡问题。
(3)本发明抽取模型中采用了事件划分与图搜索的方法,同时引入了判断论元是否同属一个事件的得分函数,采用基于递归的方法求解事件集合。相比于其他方法,我们的模型解码简单易实施,且效率较高。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种文本抽取任务中的事件分割抽取方法的流程图;
图2为本发明实施例提供的图搜索结构示例图;
图3为本发明实施例提供的分割抽取方法实验数据。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种文本抽取任务中的事件分割抽取方法,如图1所示,其主要包括如下步骤:
步骤1、本发明实施例中,对每篇文档中的若干事件进行首尾标注,生成分割标注的样本数据集;所述首尾标注采用Span片段的标注策略;
步骤2、本发明实施例中,搭建基于预训练模型的神经网络分割算法模型,并对步骤1得到的分割标注的样本数据集进行训练;
(1)本发明实施例中,所述事件分割框架为自然语言处理领域一种主流的Transformer+全局指针解码的网络框架。在特征提取部分,使用中文预训练模型进行token-level的特征表征后得到向量序列[h1,h2,…,hi],对向量序列[h1,h2,…,hi]进行线性变换,得到变换结果,即向量序列[q1,q2,…,qi]和[k1,k2,…,ki],其中线性变换公式:qi=Wqhi+bq和ki=Wkhi+bk,将qi和ki作为识别事件位置的向量序列,i的序列取值范围为1-n,Wq,Wk为权重系数,bq,bk为偏置项;
(2)本发明实施例中,基于向量序列,采用如下公式
Figure BDA0003919279020000051
计算从i到j的事件得分,i,j均为事件位置下标,1≤i≤j≤n;在得分中加入位置编码Q,Q满足
Figure BDA0003919279020000052
相对位置编码;
(3)本发明实施例中,采用改进的多标签分类损失函数,得到最终的优化目标loss为:
Figure BDA0003919279020000053
其中,E是分割标注的样本数据集中样本的所有事件的首尾集合,NE是分割标注的样本数据集中样本的所有非事件的首尾集合;
NE=Ω-E
Ω={(i,j)|1≤i≤j≤n}
E={(i,j)|Span[i,j]is a event}。
步骤3、本发明实施例中,利用训练后的所述分割算法模型,对外部测试集进行事件的分割,得到事件分割结果;
本发明实施例中,搭建Transformer+全局指针解码的网络框架,按照常规方式选定训练参数与策略,并将步骤1中构造好的数据集作为训练数据,基于最终的优化目标对其进行训练。利用训练好的模型,对外部测试集进行事件分割,得到事件分割结果。
步骤4、本发明实施例中,根据事件分割结果中已完成分割的事件,对组成事件的元素进行标注,生成抽取标注的样本数据集;
步骤5、本发明实施例中,搭建基于预训练模型的神经网络抽取算法模型,将事件抽取任务转换成为论元识别,事件划分以及图搜索三个子任务,并对步骤4得到的抽取标注的样本数据集进行训练;
本发明实施例中,将触发词作为事件的一个论元角色,以此来统一事件中有无触发词的情况。在论元识别阶段,将事件类型及论元角色组合,进而转化为实体识别任务,以此尽可能全的识别出事件中存在的所有论元。
本发明实施例中,事件的划分主要由图的构建完成的。事件中的每一个论元可以看作图上的一个节点,此节点拥有事件类型、论元角色、位置下标等相关信息,对于同一个事件中的任意两个论元之间存在关联,则可以在图上连上一条边使之成为相邻节点。如果两个论元从未出现在同一事件中,那么对应的节点则没有边(图上不相邻)。
本发明实施例中,对于图上存在关联的两个节点(同一个事件中的两个论元),定义Scoree(sh,st,p,oh,ot)=S(sh,st)+S(oh,ot)+S(sh,oh|p)+S(st,ot|p)作为两个节点存在关联的打分函数。
其中,S(sh,st)与S(oh,ot)分别用来识别对应的节点,S(sh,oh|p)与S(st,ot|p)分别用来匹配关系为p的首token位置与尾token位置特征对;sh,oh为两个论元的首token位置,st,ot为两个论元的尾token位置,p为论元关系,这里仅有一种关联关系;
本发明实施例中,如图2所示,使用了基于递归搜索的算法求解图中的事件集合。
(1)遍历图中的任意一对节点,若所有节点对都存在关联边,则该图所有节点构成一个事件,返回;若存在没有关联边的一对节点,执行步骤(2);
(2)对于不存在关联边的一对节点,分别遍历找出其所有相邻节点构成子图,对每个子图分别执行步骤(1);
(3)对得到的所有子图集合去重,得到最终的事件集合。
步骤6、本发明实施例中,利用训练后的所述抽取算法模型,对外部测试集进行事件元素的抽取,得到文本中的事件抽取结果。
为了说明本发明实施例上述方案的效果,下面结合具体示例进行说明。
如图3所示,本示例采用了企业金融公告领域的数据集进行训练验证测试,平均一个样本存在7个事件,每个事件中均存在论元角色与事件论元一对多的情况。在事件分割算法中,其正确率可达0.98,说明事件分割模型在事件边界识别方面有着较好的识别能力。在事件抽取算法中,为了对比样本中的数目对事件抽取带来的影响,在基线中引入不进行事件分割的数据集进行。实验对比基线方法与分割抽取结合算法,分别展示F1值,准确率(Precision)与召回率(Recall)。实验结果显示,引入事件分割算法后,文档级事件抽取正确率有明显提升,F1值可达0.90,说明本发明在多事件且事件交叉较少的样本中有着明显的效果。
总之,本发明采用Span片段的数据分割标注策略,搭建基于预训练模型的神经网络分割算法模型,使网络能够学习到事件的首尾token位置,进行事件的分割,以此减少抽取模型单次处理事件数目;搭建基于预训练模型的神经网络抽取算法模型,将事件抽取任务转换成为论元识别,事件划分及图搜索三个子任务。上述方法能够避免抽取模型解码过于复杂,提升文本事件抽取的正确率,减少抽取错误。此外,该方法简单易实施,抽取效率高,并且理论上不存在传统自回归模型的曝光偏差问题。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (8)

1.一种文本抽取任务中的事件分割抽取方法,其特征在于,包括以下步骤:
步骤1:对每篇文档中的若干事件进行首尾标注,生成分割标注的样本数据集;
步骤2:搭建基于预训练模型的神经网络分割算法模型,并对步骤1得到的分割标注的样本数据集进行训练;
步骤3:利用训练后的所述分割算法模型,对外部测试集进行事件的分割,得到事件分割结果;
步骤4:根据事件分割结果中已完成分割的事件,对组成事件的元素进行标注,生成抽取标注的样本数据集;
步骤5:搭建基于预训练模型的神经网络抽取算法模型,并对步骤4得到的抽取标注的样本数据集进行训练;
步骤6:利用训练后的所述抽取算法模型,对外部测试集进行事件元素的抽取,得到文本中的事件抽取结果。
2.根据权利要求1所述的文本抽取任务中的事件分割抽取方法,其特征在于:所述步骤1中:所述首尾标注采用Span片段的标注策略;
3.根据权利要求1所述的文本抽取任务中的事件分割抽取方法,其特征在于:所述步骤2中:基于预训练模型的神经网络分割算法模型实现如下:
(1)在预训练模型中的特征提取部分,使用中文预训练模型进行token-level的特征表征后得到向量序列[h1,h2,...,hi],对向量序列[h1,h2,...,hi]进行线性变换,得到变换结果,即向量序列[q1,q2,...,qi]和[k1,k2,...,ki],其中线性变换公式:qi=Wqhi+bq和ki=Wkhi+bk,将qi和ki作为识别事件位置的向量序列,i的序列取值范围为1-n,Wq,Wk为权重系数,bq,bk为偏置项;
(2)基于向量序列,采用如下公式
Figure FDA0003919279010000011
计算从i到j的事件得分,i,j均为事件位置下标,1≤i≤j≤n;Q为位置编码,Q满足
Figure FDA0003919279010000012
Figure FDA0003919279010000013
相对位置编码;
(3)采用改进的多标签分类损失函数,得到最终的优化目标loss为:
Figure FDA0003919279010000014
其中,E是分割标注的样本数据集中样本的所有事件的首尾集合,NE是分割标注的样本数据集中样本的所有非事件的首尾集合;
NE=Ω-E
Ω={(i,j)|1≤i≤j≤n}
E={(i,j)|Span[i,j]is a event}。
4.根据权利要求1所述的文本抽取任务中的事件分割抽取方法,其特征在于:所述步骤5中,所述基于预训练模型的神经网络抽取算法模型实现如下:
将事件抽取任务转换成为论元识别,事件划分以及图搜索三个子任务;三者呈现递进关系,首先进行论元识别用于找出所有论元,找出所有论元后进行事件的划分,构建一个事件图,每一个论元为事件图上的一个节点,若两个论元同属一个事件,则两个节点间连上一条边,最后在构建好的事件图中以递归的方式进行图搜索,用以识别图中的事件集合;
对于论元识别,将触发词作为事件的一个论元角色,统一事件中有无触发词的情况,将事件类型及论元角色组合,进而论元识别转化为实体识别任务,以此识别出事件中存在的所有论元;
事件的划分由图的构建完成,事件中的每一个论元看作图上的一个节点,此节点拥有事件类型、论元角色和位置下标相关信息,对于同一个事件中的任意两个论元,在图上连上一条边使之成为相邻节点;如果两个论元从未出现在同一事件中,则对应的节点没有边,即图上不相邻;对于图上存在关联的两个节点,即同一个事件中的两个论元,定义Scoree(sh,st,p,oh,ot)=S(sh,st)+S(oh,ot)+S(sh,oh|p)+S(st,ot|p)作为两个节点存在关联的打分函数;
其中,S(sh,st)与S(oh,ot)分别用来识别对应的节点,S(sh,oh|p)与S(st,ot|p)分别用来匹配关系为p的首token位置与尾token位置特征对;sh,oh为两个论元的首token位置,st,ot为两个论元的尾token位置,p为论元关系,这里仅有一种关联关系;
图搜索用于事件集合的识别时,采用改进的基于递归搜索的算法实现。
5.根据权利要求4所述的文本抽取任务中的事件分割抽取方法,其特征在于:所述事件集合的识别采用改进的基于递归搜索的算法求解,具体实现如下:
(1)遍历图中的任意一对节点,若所有节点对都存在关联边,则该图所有节点构成一个事件,返回;若存在没有关联边的一对节点,执行步骤(2);
(2)对于不存在关联边的一对节点,分别遍历找出其所有相邻节点构成子图,对每个子图分别执行步骤(1);
(3)对得到的所有子图集合去重,得到最终的事件集合。
6.一种实现权利要求1-5任意之一所述的文本抽取任务中的事件分割抽取方法的系统,其特征在于,包括:
分割标注的样本数据集建立模块:对每篇文档中的若干事件进行首尾标注,生成分割标注的样本数据集;
基于预训练模型的神经网络分割算法模型模块:搭建基于预训练模型的神经网络分割算法模型,并对步骤1得到的分割标注的样本数据集进行训练;利用训练后的所述分割算法模型,对外部测试集进行事件的分割,得到事件分割结果;
所述基于预训练模型的神经网络抽取算法模型实现如下:
抽取标注的样本数据集建立模块:根据事件分割结果中已完成分割的事件,对组成事件的元素进行标注,生成抽取标注的样本数据集;
基于预训练模型的神经网络抽取算法模型模块:搭建基于预训练模型的神经网络抽取算法模型,并对得到的抽取标注的样本数据集进行训练;利用训练后的所述抽取算法模型,对外部测试集进行事件元素的抽取,得到文本中的事件抽取结果。
7.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5中任一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的方法。
CN202211366417.0A 2022-10-31 2022-10-31 一种文本抽取任务中的事件分割抽取方法及系统 Pending CN115630304A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211366417.0A CN115630304A (zh) 2022-10-31 2022-10-31 一种文本抽取任务中的事件分割抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211366417.0A CN115630304A (zh) 2022-10-31 2022-10-31 一种文本抽取任务中的事件分割抽取方法及系统

Publications (1)

Publication Number Publication Date
CN115630304A true CN115630304A (zh) 2023-01-20

Family

ID=84908889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211366417.0A Pending CN115630304A (zh) 2022-10-31 2022-10-31 一种文本抽取任务中的事件分割抽取方法及系统

Country Status (1)

Country Link
CN (1) CN115630304A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117094397A (zh) * 2023-10-19 2023-11-21 北京大数据先进技术研究院 一种基于短论元的细粒度事件信息抽取方法、装置和产品

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117094397A (zh) * 2023-10-19 2023-11-21 北京大数据先进技术研究院 一种基于短论元的细粒度事件信息抽取方法、装置和产品
CN117094397B (zh) * 2023-10-19 2024-02-06 北京大数据先进技术研究院 一种基于短论元的细粒度事件信息抽取方法、装置和产品

Similar Documents

Publication Publication Date Title
CN113591902B (zh) 基于多模态预训练模型的跨模态理解与生成方法和装置
JP6335898B2 (ja) 製品認識に基づく情報分類
WO2020073714A1 (zh) 训练样本获取方法,账户预测方法及对应装置
CN114021799A (zh) 风电场日前风电功率预测方法及系统
CN113051368B (zh) 双塔模型训练方法、检索方法、装置及电子设备
CN112883153B (zh) 基于信息增强bert的关系分类方法及装置
WO2023134402A1 (zh) 一种基于孪生卷积神经网络的书法字识别方法
CN112767922B (zh) 一种对比预测编码自监督结构联合训练的语音识别方法
CN112580346A (zh) 事件抽取方法、装置、计算机设备和存储介质
CN113988157A (zh) 语义检索网络训练方法、装置、电子设备及存储介质
CN115630304A (zh) 一种文本抽取任务中的事件分割抽取方法及系统
CN117218667B (zh) 一种基于字根的中文文字识别方法及系统
CN111090724A (zh) 一种基于深度学习的可评判文本内容与实体相关性的实体抽取方法
CN114036276A (zh) 一种信息抽取方法、装置、设备及存储介质
CN113408280A (zh) 负例构造方法、装置、设备和存储介质
CN112733144B (zh) 一种基于深度学习技术的恶意程序智能检测方法
US10546247B2 (en) Switching leader-endorser for classifier decision combination
CN115358227A (zh) 一种基于短语增强的开放域关系联合抽取方法及系统
CN113722431A (zh) 命名实体关系识别方法、装置、电子设备及存储介质
CN112132367A (zh) 一种用于企业经营管理风险识别的建模方法及装置
CN116975595B (zh) 一种无监督概念提取方法、装置、电子设备及存储介质
CN110427615B (zh) 一种基于注意力机制的金融事件修饰时态的分析方法
WO2023213233A1 (zh) 任务处理方法、神经网络的训练方法、装置、设备和介质
CN117272142A (zh) 一种日志异常检测方法、系统及电子设备
CN117332042A (zh) 一种基于混合文本增强的非均衡方面类别检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination