CN116186195A

CN116186195A - 文本抽取模型训练方法、抽取方法、装置、设备及介质

Info

Publication number: CN116186195A
Application number: CN202111421531.4A
Authority: CN
Inventors: 顾秀森; 王国华; 翁泽峰; 张东于; 李斌; 聂晶
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2023-05-30

Abstract

本公开提供了一种文本抽取模型训练方法、抽取方法、装置、设备及介质，涉及人工智能技术领域，可以应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。该方法包括通过获取训练集，该训练集包括多个输入文本以及对应的目标抽取结果，每个输入文本是根据样本文本与对应的事件模板拼接而成；利用文本抽取模型依次对训练集息进行编码和解码处理，获得预测抽取结果；该预测抽取结果表征将样本文本填充至对应的事件模板所确定的预测语句信息；基于所述预测抽取结果与对应的目标抽取结果进行模型训练。如此，提高了事件抽取效率以及事件抽取效果。

Description

文本抽取模型训练方法、抽取方法、装置、设备及介质

技术领域

本公开涉及人工智能领域，尤其涉及一种文本抽取模型训练方法、抽取方法、装置、设备及介质。

背景技术

事件抽取属于信息抽取的重要组成部分，事件抽取是将客观世界中丰富的无结构化文本转化为结构化的事件描述信息，例如包括事件涉及的实体、发生时间、发生地点等事件元素，可应用于媒体资源推荐、舆论监控等领域。

相关技术中，事件抽取方法主要包括基于机器学习的方法，其通过机器学习模型分别将文本中各事件元素抽取出来，如此不仅降低了事件抽取效率和抽取效果，而且抽取准确率非常依赖于大量的标注数据，在较少训练数据的情况下，并不容易获得良好的抽取效果。

发明内容

本公开提供了一种文本抽取模型训练方法、抽取方法、装置、设备及介质，以解决现有技术中至少一种技术问题。

一方面，本公开提供了一种文本抽取模型训练方法，包括：

获取训练集，所述训练集包括多个训练样本，每个训练样本包括输入文本以及对应的目标抽取结果，所述输入文本是根据样本文本与对应的事件模板拼接而成；

利用文本抽取模型中特征提取模块对所述训练集中各输入文本进行编码处理，获得多个编码特征信息；

利用文本抽取模型中解码模块对多个所述编码特征信息进行解码处理，获得预测抽取结果；所述预测抽取结果表征将样本文本填充至对应的事件模板所确定的预测语句信息；

基于所述预测抽取结果与对应的目标抽取结果，确定第一损失；

基于所述第一损失对所述文本抽取模型进行训练，获得完成训练的文本抽取模型。

另一方面还提供了一种文本抽取方法，包括：

获取待抽取的文本以及所述文本对应的事件模板；

将所述文本与对应的事件模板进行拼接，获得目标文本；

利用文本抽取模型对所述目标文本进行抽取处理，获得文本抽取结果；其中，所述文本抽取模型采用上述任一所述的文本抽取模型训练方法训练而成。

另一方面还提供了一种文本抽取模型训练装置，其特征在于，所述装置包括：

第一获取模块，用于获取训练集，所述训练集包括多个训练样本，每个训练样本包括输入文本以及对应的目标抽取结果，所述输入文本是根据样本文本与对应的事件模板拼接而成；

编码模块，用于利用文本抽取模型中特征提取模块对所述训练集中各输入文本进行编码处理，获得多个编码特征信息；

解码模块，用于利用文本抽取模型中解码模块对多个所述编码特征信息进行解码处理，获得预测抽取结果；所述预测抽取结果包括将样本文本填充至对应的事件模板所确定的预测语句信息；

第一损失确定模块，用于基于所述预测抽取结果与对应的目标抽取结果，确定第一损失；

训练模块，用于基于所述第一损失对所述文本抽取模型进行训练，获得完成训练的文本抽取模型。

另一方面还提供了一种文本抽取装置，所述装置包括：

第二获取模块，用于获取待抽取的文本以及所述文本对应的事件模板；

拼接模块，用于将所述文本与对应的事件模板进行拼接，获得目标文本；

抽取模块，用于利用文本抽取模型对所述目标文本进行抽取处理，获得文本抽取结果；其中，所述文本抽取模型采用上述任一所述的文本抽取模型训练方法训练而成。

另一方面还提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现上述任一所述的方法。

另一方面还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述任一所述的方法。

另一方面还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一所述的方法。

本公开提供的一种文本抽取模型训练方法、抽取方法、装置、设备及介质，具有如下技术效果：

本公开实施例通过获取训练集，该训练集包括多个训练样本，每个训练样本包括输入文本以及对应的目标抽取结果，该输入文本是根据样本文本与对应的事件模板拼接而成；利用文本抽取模型中特征提取模块对所述训练集中各输入文本进行编码处理，获得多个编码特征信息；利用文本抽取模型中解码模块对多个所述编码特征信息进行解码处理，获得预测抽取结果；所述预测抽取结果表征将样本文本填充至对应的事件模板所确定的预测语句信息；基于所述预测抽取结果与对应的目标抽取结果，确定第一损失；基于所述第一损失对所述文本抽取模型进行训练，获得完成训练的文本抽取模型。如此，通过对拼接的样本文本与事件模板拼接进行编码，通过文本抽取模型中的解码模块直接生成包含事件论元的预测语句，结合了事件论文和角色的联合学习和抽取，不仅提高了事件抽取效率，而且基于事件模板的引入，实现了事件抽取学习中的全局优化，也提高了事件抽取效果和模型抽取准确度。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本公开实施例提供的一种文本抽取模型训练方法的应用环境示意图；

图2是本公开实施例提供的一种文本抽取模型训练方法的流程示意图；

图3是本公开实施例提供的一种文本抽取模型训练方法的流程示意图；

图4是本公开实施例提供的一种文本抽取模型训练方法的流程示意图；

图5是本公开实施例提供的一种文本抽取模型训练方法的流程示意图；

图6是本公开实施例提供的一种文本抽取模型的结构示意图；

图7是本公开实施例提供的一种文本抽取方法的流程示意图；

图8是本公开实施例提供的一种文本抽取模型训练装置的结构框图；

图9是本公开实施例提供的一种文本抽取装置的结构框图；

图10是本公开提供的一种用于实现本公开实施例所提供的方法的设备的硬件结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

为使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方式作进一步地详细描述。

为了便于理解本公开实施例上述的技术方案及其产生的技术效果，针对本公开实施例中涉及的名词进行简单介绍：

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

事件触发词：表示事件发生的核心词，多为动词或名词。

事件论元：表示事件的参与者，主要由实体、值、时间等组成。

事件论元角色：事件论元在事件中充当的角色，如攻击者、受害者等。

事件抽取：是将客观世界中丰富的无结构化文本转化为结构化知识的重要途径。事件抽取是指解析事件描述自然文本，获取结构化的事件描述信息，一般可以包括事件触发词抽取、事件论元抽取和论元角色判断等。

本申请实施例提供的方案涉及人工智能的机器学习、自然语言处理等技术，具体通过如下实施例进行说明。

本公开提供的文本抽取模型训练方法可以应用于如图1所示的应用环境中。如图1所示，该硬件环境可以至少包括终端10和服务器20。

其中，终端10可以获取训练集，该训练集包括多个训练样本，每个训练样本包括输入文本以及对应的目标抽取结果，该输入文本是根据样本文本与对应的事件模板拼接而成，服务器20将该训练集上传至服务器。服务器利用文本抽取模型中特征提取模块对所述训练集中各输入文本进行编码处理，获得多个编码特征信息；利用文本抽取模型中解码模块对多个所述编码特征信息进行解码处理，获得预测抽取结果；所述预测抽取结果表征将样本文本填充至对应的事件模板所确定的预测语句信息；基于所述预测抽取结果与对应的目标抽取结果，确定第一损失；基于所述第一损失对所述文本抽取模型进行训练，获得完成训练的文本抽取模型。

上述终端10可以是平板电脑、笔记本电脑、台式计算机、智能手机、智能音箱、智能可穿戴设备、数字助理、增强现实设备、虚拟现实设备等实体设备或者运行于实体设备中的应用程序，但并不局限于此。

上述服务器20可以可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本公开在此不做限制。

需要说明的是，上述服务器20可以实现为云端的云服务器，其中，云技术(Cloudtechnology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

在一些实施例中，上述服务器20还可以实现为区块链系统中的节点。区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

本公开提供的文本抽取方法也可以应用于如图1所示的应用环境中。其中，终端可以获取待抽取的文本以及该文本对应的事件模板，并将该待抽取的文本以及该文本对应的事件模板上传至服务器。服务器将文本与对应的事件模板进行拼接，获得目标文本；利用训练完成的文本抽取模型对该目标文本进行抽取处理，获得文本抽取结果。

需要说明的是，在实际应用中，上述文本抽取模型训练方法或文本抽取方法也可以在终端中实现，或者由终端和服务器共同实现。

当然，本公开实施例提供的方法并不限用于图1所示的硬件环境中，还可以用于其它可能的硬件环境，本公开实施例并不进行限制。对于图1所示的硬件环境的各个设备所能实现的功能将在后续的方法实施例中一并进行描述，在此先不过多赘述。

图2是本公开实施例提供的一种文本抽取模型训练方法的流程示意图。本公开提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。该文本抽取模型训练方法的执行主体可以是本公开实施例提供的文本抽取模型训练装置，或者集成了该数据处理装置的服务器，其中，该文本抽取模型训练装置可以采用硬件或者软件的方式实现。以执行主体为上述图1中的服务器为例进行说明，如图2所示，该方法可以包括：

S201：获取训练集，所述训练集包括多个训练样本，每个训练样本包括输入文本以及对应的目标抽取结果，所述输入文本是根据样本文本与对应的事件模板拼接而成。

其中，样本文本可以是具有语义且用于训练文本抽取模型的文档数据，其可以包括由若干语句组成的文本片段或文章等。例如，包括但不限于为新闻稿、期刊稿、文章、文书、通告等。样本文本的获取方式可以通过用户输入的方式获得，也可以从例如本地或云端的数据库中获取的方式得到，也可以通过将获取的音频文件进行文本转换的方式获得，本公开对此不作具体限定。

事件模板用于指示文本中事件元素对应的事件类型，不同的事件类型对应不同的事件模板。该事件元素可以包括事件论元、论元角色等。示例性的，事件类型可以包括但不限于交通事故事件、会议事件、表彰事件、犯罪事件、死亡事件等中至少一种。相应的，对应的事件模板可以包括交通事故事件模板、会议事件模板、表彰事件模板、犯罪事件模板、死亡事件模板等。

目标抽取结果是对输入文本中的样本文本事先进行事件抽取所得的结果。目标抽取结果与输入文本的事件模板相关联，不同的事件类型对应的目标抽取结果的表现形式不同。

具体地，以某个输入文本为死亡事件为例，其对应的事件模板可以表示为：“<victim>在<loc>于<time>因为<cause>死亡”。其中，<victim>表示受害者，<loc>表示死亡地点，<time>表示死亡时间，<cause>表示死亡原因。相应的，该输入文本对应目标抽取结果可以表示：“<A>在<B城市>于<XX日>因为<溺水>死亡”。

在一具体实施例中，在获取到样本文本后，可以对样本文本进行解析，并根据解析结果确定该样本文本对应的事件模板。接着，将样本文本与对应的事件模板进行基于向量层面的拼接处理，获得多个输入文本。接着，通过多个输入文本以及对应的目标抽取结果构建对应的训练集。

在一些可选实施例中，如图3所示，所述获取训练集可以包括：

S301：获取多个样本文本。

S303：对每个所述样本文本进行事件类型分析。

可选地，服务器在获取到多个样本文本之后，可以触发生成事件类型分析指令。响应于该事件类型分析指令，对每个样本文本的事件类型进行解析，获得每个样本文本对应的事件类型。仅作为示例，事件类型可以包括但不限于交通事故事件、会议事件、表彰事件、犯罪事件、死亡事件等中至少一种。

可选地，所述对每个所述样本文本进行事件类型分析，包括：

S3031：基于预设事件触发词库，对每个样本文本进行触发词匹配，获得每个所述样本文本对应的触发词；

S3033：根据每个所述样本文本对应的触发词，对每个所述样本文本进行事件类型分析。

可选地，服务器在对样本文本进行匹配之前，可以先对每个样本文本进行分词处理。接着，对每个经分词处理的样本文本中的各词与预设事件触发词库进行触发词匹配，检测每个样本文本对应的触发词。在检测到触发词之后，可以将样本文本中的每个触发词用例如“<Tgr>”和“</Tgr>”的标签包裹起来。

例如，若样本文本b包括“10月8日，驾驶员小C在E城市发生一起连环追尾事故，暂无人员伤亡”，则识别到的触发词可以包括：<Tgr>小C</Tgr>，<Tgr>E城市</Tgr>，<Tgr>追尾事故</Tgr>等。需要说明的是，该触发词对应的标签不限于此。接着，根据样本文本对应的至少一个触发词可以确定该样本文本对应的事件类型。例如，通过<Tgr>追尾事故</Tgr>对应的触发词，可以确定该样本文本b对应的事件类型为交通事故类型。又例如，可以根据样本文本中触发词的出现频次来确定事件类型，具体地，可以将触发词出现频率最高对应的事件类型，作为该样本文本对应的事件类型。

S305：基于分析结果，确定每个所述样本文本对应的事件模板。

可选地，在确定了样本文本对应的事件类型，即可根据事件类型确定对应的事件模板。事件模板可以包括事件论元抽取模版。

仅作为示例，每个样本文本对应的事件类型可以包括多个，相应的，对应的事件模板也可以为多个。具体地，可以将多个事件类型分别对应的事件模板进行拼接，将拼接后的事件模板作为样本文本对应的事件模板。

仅作为另一示例，在样本文本包括多个事件类型的情况下，可以根据事件类型的重要级别的高低，从多个事件类型中确定预设数量的目标事件类型，并根据目标事件类型来确定该样本文本对应的事件模板。

S307：将每个所述样本文本与对应的事件模板进行拼接处理，获得输入文本。

可选地，在获取样本文本对应的事件模板之后，可以利用例如<s>和</s>的分隔符来拼接样本文本与对应的事件模板，并将拼接后的样本文本作为输入文本。

S309：基于所述输入文本以及每个输入文本对应的目标抽取结果，构建训练集。

可选地，在获取到多个输入文本之后，可以结合每个输入文本分别对应的目标抽取结果来确定多个训练样本，以构建训练集。

仅作为示例，训练集S₀中每个输入文本可以表示为：<s>模板n<s></s>文档n</s>，其中n为正整数。

S203：利用文本抽取模型中特征提取模块对所述训练集中各输入文本进行编码处理，获得多个编码特征信息。

其中，文本抽取模型可以是经过预训练的神经网络模型(例如预训练语音模型)，或者模型参数初始化的神经网络模型，本公开对此不作具体限定。

可选地，将训练集输入至文本抽取模型中特征提取模块，对训练集中各输入文本进行编码处理，分别获得每个输入文本对应的编码特征信息。该编码特征信息可以是输入文本的嵌入特征表达。

S205：利用文本抽取模型中解码模块对多个所述编码特征信息进行解码处理，获得预测抽取结果；所述预测抽取结果包括将样本文本填充至对应的事件模板所确定的预测语句信息。

可选地，将编码特征信息输入至文本抽取模型中解码模块，利用所述解码模块中的注意力单元计算所述编码特征信息的注意力特征信息；利用所述解码模块中的解码单元对所述注意力特征信息和所述编码特征信息进行解码处理，抽取得到样本文本对应的事件论元与对应的角色，然后基于事件论元对应的角色，将各事件论元填充至对应的事件模板中相应槽位置，以构成预测语句信息，将该预测语句信息作为预测抽取结果。

例如，若样本文本b包括“10月8日，驾驶员小C在E城市发生一起连环追尾事故，暂无人员伤亡”，对应的交通事故事件模板为：“<driver>在<loc>于<time>发生<type>事故”。在经过文本抽取模型中解码模块对编码特征信息进行解码处理，抽取到该样本文本b对应的事件论元与对应的角色，包括：(10月8日,发生时间)、(小C,驾驶员)、(E城市,发生地点)和(追尾,事故类型)。将抽取到的事件论元和对应的角色填充至该事故事件模板中，即填充后所得的预测语句信息可以为“<小C>在<E城市>于<10月8日>发生<追尾>事故”，则该样本文本b对应的预测抽取结果可以为“<小C>在<E城市>于<10月8日>发生<追尾>事故”。

需要说明的是，若抽取的样本文本对应的事件论元缺失，则将事件模板中该事件论元对应的槽保持不变。例如，若样本文本c包括“M州3名学生自行组织去河边游泳，不幸溺水死亡”，其对应的交通事故事件模板为：“<victim>在<loc>于<time>因为<cause>死亡”。由于该样本文本c中不存在事件发生时间“<time>”对应的事件论元，则构成的预测抽取结果中“<time>”对应的槽位置保持不变，也即预测抽取结果可以为“<学生>在<河边>于<time>因为<溺水>死亡”。

S207：基于所述预测抽取结果与对应的目标抽取结果，确定第一损失。

可选地，对于上面的样本文本c，其预测抽取结果为“<学生>在<河边>于<time>因为<溺水>死亡”，对应的目标抽取结果为“<3名学生>在<M州>于<time>因为<溺水>死亡”。在训练过程中，基于解码模块输出的预测抽取结果与目标抽取结果之间的差距，作为第一损失。

仅作为示例，该第一损失对应损失函数可以用包括但不限于为负对数似然函数

来衡量。此时，该第一损失对应损失函数的表达式可以表示为：

其中，xⁱ是模型训练时解码模块的输出，cⁱ表示解码模块的输入，Pθ表示解码模块输出的目标抽取结果的概率。

S209：基于所述第一损失对所述文本抽取模型进行训练，获得完成训练的文本抽取模型。

可选地，可以利用计算得到的第一损失对文本抽取模型进行训练，以调整文本抽取模型的模型参数，直至达到训练结束条件，即获得完成训练的文本抽取模型。

上述实施例通过对拼接的样本文本与事件模板拼接进行编码，通过文本抽取模型中的解码模块直接生成包含事件论元的预测语句，结合了事件论文和角色的联合学习和抽取，不仅提高了事件抽取效率，而且基于事件模板的引入，实现了事件抽取学习中的全局优化，也提高了事件抽取效果和模型抽取准确度。

在一些可选实施例中，如图4和6所示，所述特征提取模块包括数据变换层和编码器。所述利用文本抽取模型中特征提取模块对所述训练集中各输入文本进行编码处理，获得多个编码特征信息，包括：

S401：利用文本抽取模型中数据变换层对所述训练集中各输入文本进行数据变换处理，获得多个训练变换样本。

可选地，数据变换层是用于采用变换手段对输入文本进行数据层面的的扰动变换，以获得各种输入变体S1、S2…等。作为示例，该数据变换处理包括但不限于句子顺序打乱、词顺序打乱、词向量的整体掩盖和特征的随机掩盖等至少一种。

其中，句子顺序打乱(T1)：对一定比例的输入文本中的句子顺序进行打乱，比如第一句和第五句对调。受影响的句子可以控制在比较小的比例，比如5％-15％；

词顺序打乱(T2)：输入文本的句子内的词进行打乱顺序，比如句子“M州3名学生自行组织去游泳，不幸溺水死亡”，经过小比例的词打乱后，生成“M州自行组织去游泳，3名学生死亡不幸溺水”。

词向量的整体掩盖(T3)：编码器的输入通常是字或词对应的数值向量，例如一个文本有200个词，每个词向量是128维，则随机对一定量的词进行整体置零操作，例如对第10个词和第25个词进行整体置零操作等等。

特征的随机掩盖(T4)：类似词向量的整体掩盖，不同的是仅随机挑选部分特征维度进行置零操作，例如仅对第1个词的第3维置零，第5个词的第100维置零等等。

在一些可选实施例中，所述数据变换层包括第一数据变换子层和第二数据变换子层。此时，所述利用文本抽取模型中数据变换层对所述训练集中各输入文本进行数据变换处理，获得多个训练变换样本，包括：

S4011：利用文本抽取模型中第一数据变换子层对所述训练集中各输入文本进行第一类型数据变换处理，获得第一变换样本；所述第一类型数据变换处理是对输入文本中除事件触发词之外的字符数据进行变换处理；

S4013：利用文本抽取模型中第二数据变换子层对所述训练集中各输入文本进行第二类型数据变换处理，获得第二变换样本；所述第二类型数据变换处理是对输入文本中事件触发词对应的词向量进行变换处理；

S4015：基于所述第一变换样本和所述第二变换样本，获得多个训练变换样本。

可选地，本公开的数据变换层包括两个数据变换子层。其中，第一数据变换子层是针对不涉及事件触发词的变换，也即通用文本变换，其对应的变换手段包括句子顺序打乱T1、词顺序打乱T2、词向量的整体掩盖T3和特征的随机掩盖T4等至少一种。例如，对于输入文本中的非事件触发词可以执行上述T1至T4四种数据变换中的至少一种。

第二数据变换子层针对事件触发词的变换，也即事件文本变换，其对应的变换手段仅包括上述变换手段中的词向量的整体掩盖T3和特征的随机掩盖T4。可选地，对于样本文本和对应的事件模板可以分别采用不同的数据变换手段，例如，变体1是对于事件模板中的触发词采用T3变换得到，变体2是对样本文本中的触发词采用T4变换得到。

仅作为示例，训练集S0中每个输入文本表示为：<s>模板n<s></s>文档n</s>；经过数据变换处理可以得到<s>T₁1-模板n<s></s>T₁2-文档n</s>、<s>T₂3-模板n<s></s>T₂4-文档n</s>、<s>T₁2-模板n<s></s>T₁4-文档n</s>等多个训练变换样本。其中T₁1、T₁2和T₁4是指第一数据变换处理对应的T1、T2和T4变换。T₂3和T₂4是指第二数据变换处理对应的T3和T4变换，<s>和</s>分别是区分模板和文档的分隔符。

上述实施例，通过普通文本对比和事件触发词对比两种角度，进行后续的对比学习，充分挖掘文本抽取模型的潜力，减少对样本需求量的依赖。

S403：利用文本抽取模型中编码器对多个所述训练变换样本进行编码处理，获得多个编码特征信息。

可选地，将训练变换样本输入至文本抽取模型中编码器，对训练变换样本进行编码处理，分别获得每个训练变换样本对应的编码特征信息。该编码特征信息可以是训练变换样本的嵌入特征表达。

另一可选地，将训练变换样本与未经变换处理的输入文本，一起输入至文本抽取模型中编码器，对训练变换样本和输入文本进行编码处理，分别获得每个训练变换样本和输入文本对应的编码特征信息。该编码特征信息可以包括训练变换样本的嵌入特征表达和输入文本分别对应的嵌入特征表达。

在一可选实施方式中，如图5和6所示，所述方法还包括：

S405：利用文本抽取模型中辅助模块，对多个所述编码特征信息中两两编码特征信息进行对比处理，获得多个辅助处理结果。

其中，所述辅助处理结果表征两两所述编码特征信息之间的相似度。

在一可选实施方式中，所述辅助模块包括池化层和对比层。所述利用文本抽取模型中辅助模块，对多个所述编码特征信息中两两编码特征信息进行对比处理，获得多个辅助处理结果，包括：

S4051：利用文本抽取模型中池化层，对多个所述编码特征信息中各编码特征信息进行池化处理，获得对应的多个池化特征信息；

S4053：利用文本抽取模型中对比层，对两两所述池化特征信息进行对比分析，获得多个辅助处理结果。

可选地，在对训练变换样本进行编码处理之后，利用文本抽取模型中池化层对各编码特征信息进行池化处理。例如，对于训练变换样本“<s>T₁1-模板n<s></s>T₁2-文档n</s>”可以将两个</s>对应的特征信息进行均值处理，获得该训练变换样本对应的池化向量，可以将该池化向量作为对应的池化特征信息。

在获取到每个训练变换样本对应的池化特征信息之后，可以利用文本抽取模型中对比层，对两两所述池化特征信息进行基于相似度的对比分析，获得多个辅助处理结果。该辅助处理结果可以包括但不限于为余弦距离、欧式距离等。对于相同文档对应的池化特征信息，其对应的辅助处理结果为两者的相似度高；如图6所示，对于相同文档的两个辅助处理结果是最小化距离。对于不同文档对应的池化特征信息，其对应的辅助处理结果为两者的相似度低；继续如图6所示，对于不同文档的两个辅助处理结果是最大化距离。

S407：基于多个所述辅助处理结果，确定第二损失。

仅作为示例，该第二损失对应损失函数可以用包括但不限于为

损失函数来衡量。此时，该第二损失对应损失函数的表达式可以表示为：

其中，ri和rj是池化层输出的不同表征变体，sim表示余弦相似函数,exp为指数函数,t为温度系数。对于来源于同一个输入文档的两个变体，计算得到损失较小；对于来源于不同输入文档的两个变体，计算得到的损失较大。

相应的，所述基于所述第一损失对所述文本抽取模型进行训练，获得完成训练的文本抽取模型，包括：

S409：基于所述第一损失和所述第二损失，确定目标损失；

S411：基于所述目标损失对所述文本抽取模型进行训练，获得完成训练的文本抽取模型。

可选地，在获取到第一损失和第二损失之后，可以对这两个损失进行数学运算，来确定目标损失。该数学运算包括但不限于为相加、加权求和等。之后，基于目标损失来训练文本抽取模型，直至达到训练结束条件，获得完成训练的文本抽取模型。

上述实施例，通过引入对比学习，通过第二损失希望模型能够引入额外的标签学习，一方面增加了模型对无关干扰的鲁棒性。另一方面，也使得模型以及优化变得更加简单，泛化能力更强。此外，将对比学习的技术引入模型的训练中，可以进一步解决少样本场景和提升模型抽取的准确度。

为了体现本公开的训练完成的文本抽取模型的性能，结合3个对比例进行说明。其中，对比例1是基于分类的文本抽取模型，对比例2是基于序列标注的文本抽取模型，对比例3是基于阅读理解的文本抽取模型。

在事件论元抽测测试性能上，对比文件1的事件论元抽取F1值为59.36，对比文件2的事件论元抽取F1值为64.18，对比文件3的事件论元抽取F1值为52.3，对比文件1的事件论元抽取F1值为67.27。由此可见，本公开所训练得到的文本抽取模型对于事件论元抽取的准召率均有较明显的提升。

在训练样本量方面，统计了各对比例和本公开达到抽取F1为50％需要的样本量，其中，对比文件1所需样本量为3100，对比文件2所需样本量为2850，对比文件1所需样本量为3550，本公开所需样本量为2450。由此可见，本公开所训练得到的文本抽取模型能降低对训练数据的依赖。

图7是本公开实施例提供的一种文本抽取方法的流程示意图。本公开提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。该文本抽取方法的执行主体可以是本公开实施例提供的文本抽取模型训练装置，或者集成了该数据处理装置的服务器，其中，该文本抽取装置可以采用硬件或者软件的方式实现。以执行主体为上述图1中的服务器为例进行说明，如图7所示，该方法可以包括：

S701：获取待抽取的文本以及所述文本对应的事件模板；

S703：将所述文本与对应的事件模板进行拼接，获得目标文本；

S705：利用文本抽取模型对所述目标文本进行抽取处理，获得文本抽取结果。

其中，所述文本抽取模型采用上述任一所述的文本抽取模型训练方法训练而成。

在一可选实施例，所述获取所述文本对应的事件模板，包括：基于预设的事件触发词库，对所述文本进行触发词匹配，获得所述文本对应的触发词；根据所述文本对应的触发词，对所述文本进行事件类型分析，获得目标事件类型；获取所述目标事件类型对应的事件模板。

需要说明的是，上述实施例中提供的文本抽取方法中的详尽描述的技术细节和有益效果，可参见本公开实施例上述所提供的方法，在此不再赘述。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

请参考图8，其示出了本公开实施例提供的一种文本抽取模型训练装置的结构框图。该装置具有实现上述方法示例中的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。所述文本抽取模型训练装置可以包括：

第一获取模块810，用于获取训练集，所述训练集包括多个训练样本，每个训练样本包括输入文本以及对应的目标抽取结果，所述输入文本是根据样本文本与对应的事件模板拼接而成；

编码模块820，用于利用文本抽取模型中特征提取模块对所述训练集中各输入文本进行编码处理，获得多个编码特征信息；

解码模块830，用于利用文本抽取模型中解码模块对多个所述编码特征信息进行解码处理，获得预测抽取结果；所述预测抽取结果包括将样本文本填充至对应的事件模板所确定的预测语句信息；

第一损失确定模块840，用于基于所述预测抽取结果与对应的目标抽取结果，确定第一损失；

训练模块850，用于基于所述第一损失对所述文本抽取模型进行训练，获得完成训练的文本抽取模型。

在一可选实施例，所述特征提取模块包括数据变换层和编码器；所述编码模块包括：

变换子模块，用于利用文本抽取模型中数据变换层对所述训练集中各输入文本进行数据变换处理，获得多个训练变换样本；

编码子模块，用于利用文本抽取模型中编码器对多个所述训练变换样本进行编码处理，获得多个编码特征信息。

在一可选实施例，所述数据变换层包括第一数据变换子层和第二数据变换子层；所述变换子模块包括：

第一变换单元，用于利用文本抽取模型中第一数据变换子层对所述训练集中各输入文本进行第一类型数据变换处理，获得第一变换样本；所述第一类型数据变换处理是对输入文本中除事件触发词之外的字符数据进行变换处理；

第二变换单元，用于利用文本抽取模型中第二数据变换子层对所述训练集中各输入文本进行第二类型数据变换处理，获得第二变换样本；所述第二类型数据变换处理是对输入文本中事件触发词对应的词向量进行变换处理；

组合单元，用于基于所述第一变换样本和所述第二变换样本，获得多个训练变换样本。

在一可选实施例，所述装置还包括：

辅助训练模块，用于利用文本抽取模型中辅助模块，对多个所述编码特征信息中两两编码特征信息进行对比处理，获得多个辅助处理结果；所述辅助处理结果表征两两所述编码特征信息之间的相似度；

第二损失确定模块，用于基于多个所述辅助处理结果，确定第二损失；

相应的，所述训练模块包括：

总损失确定子模块，用于基于所述第一损失和所述第二损失，确定目标损失；

训练子模块，用于基于所述目标损失对所述文本抽取模型进行训练，获得完成训练的文本抽取模型。

在一可选实施例，所述辅助模块包括池化层和对比层。所述辅助训练模块包括：

池化子模块，用于利用文本抽取模型中池化层，对多个所述编码特征信息中各编码特征信息进行池化处理，获得对应的多个池化特征信息；

对比子模块，用于利用文本抽取模型中对比层，对两两所述池化特征信息进行对比分析，获得多个辅助处理结果。

在一可选实施例，所述第一获取模块包括：

获取子模块，用于获取多个样本文本；

分析子模块，用于对每个所述样本文本进行事件类型分析；

模板确定子模块，用于基于分析结果，确定每个所述样本文本对应的事件模板；

拼接子模块，用于将每个所述样本文本与对应的事件模板进行拼接处理，获得输入文本；

构建子模块，用于基于所述输入文本以及每个输入文本对应的目标抽取结果，构建训练集。

在一可选实施例，所述分析子模块包括：

匹配单元，用于基于预设事件触发词库，对每个样本文本进行触发词匹配，获得每个所述样本文本对应的触发词；

分析单元，用于根据每个所述样本文本对应的触发词，对每个所述样本文本进行事件类型分析。

在一可选实施例，所述解码模块包括：

第一解码子模块，用于将多个所述编码特征信息输入文本抽取模型中解码模块；

第二解码子子模块，用于利用所述解码模块中的注意力单元计算所述编码特征信息的注意力特征信息；

第三解码子模块，用于利用所述解码模块中的解码单元对所述注意力特征信息和所述编码特征信息进行解码处理，获得预测抽取结果。

上述实施例中提供的装置可执行本公开实施例中的对应方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的方法。

请参考图9，其示出了本公开实施例提供的一种文本抽取装置的结构框图。该装置具有实现上述方法示例中的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。所述文本抽取装置可以包括：

第二获取模块910，用于获取待抽取的文本以及所述文本对应的事件模板；

拼接模块920，用于将所述文本与对应的事件模板进行拼接，获得目标文本；

抽取模块930，用于利用文本抽取模型对所述目标文本进行抽取处理，获得文本抽取结果；其中，所述文本抽取模型采用上述任一文本抽取模型训练的方法训练而成。

在一可选实施例，所述第二获取模块包括；

分析子模块，用于根据所述文本对应的触发词，对所述文本进行事件类型分析，获得目标事件类型；

获取子模块，用于获取所述目标事件类型对应的事件模板。

本公开实施例提供了一种计算机设备，该设备可以包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例任一所述的文本抽取模型训练方法，或任一所述的文本抽取方法。

本公开实施例还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行上述方法实施例任一所述的文本抽取模型训练方法，或任一所述的文本抽取方法。

本公开实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方法实施例上述任一文本抽取模型训练方法，或任一所述的文本抽取方法。

进一步地，图10示出了一种用于实现本公开实施例所提供的方法的设备的硬件结构示意图，所述设备可以为计算机终端、移动终端或其它设备，所述设备还可以参与构成或包含本公开实施例所提供的装置。如图10所示，计算机终端11可以包括一个或多个(图中采用112a、112b，……，112n来示出)处理器112(处理器112可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器114、以及用于通信功能的传输装置116。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图10所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端11还可包括比图10中所示更多或者更少的组件，或者具有与图10所示不同的配置。

应当注意到的是上述一个或多个处理器112和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端11(或移动设备)中的其他元件中的任意一个内。如本公开实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器114可用于存储应用软件的软件程序以及模块，如本公开实施例中所述的方法对应的程序指令/数据存储装置，处理器112通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种神经网络处理方法。存储器114可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器114可进一步包括相对于处理器112远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端11。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置116用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端11的通信供应商提供的无线网络。在一个实例中，传输装置116包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置116可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端11(或移动设备)的用户界面进行交互。

需要说明的是：上述本公开实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本公开特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本公开中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种文本抽取模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述特征提取模块包括数据变换层和编码器；所述利用文本抽取模型中特征提取模块对所述训练集中各输入文本进行编码处理，获得多个编码特征信息，包括：

利用文本抽取模型中数据变换层对所述训练集中各输入文本进行数据变换处理，获得多个训练变换样本；

利用文本抽取模型中编码器对多个所述训练变换样本进行编码处理，获得多个编码特征信息。

3.根据权利要求2所述的方法，其特征在于，所述数据变换层包括第一数据变换子层和第二数据变换子层；所述利用文本抽取模型中数据变换层对所述训练集中各输入文本进行数据变换处理，获得多个训练变换样本，包括：

利用文本抽取模型中第一数据变换子层对所述训练集中各输入文本进行第一类型数据变换处理，获得第一变换样本；所述第一类型数据变换处理是对输入文本中除事件触发词之外的字符数据进行变换处理；

利用文本抽取模型中第二数据变换子层对所述训练集中各输入文本进行第二类型数据变换处理，获得第二变换样本；所述第二类型数据变换处理是对输入文本中事件触发词对应的词向量进行变换处理；

基于所述第一变换样本和所述第二变换样本，获得多个训练变换样本。

4.根据权利要求2或3所述的方法，其特征在于，所述方法还包括：

利用文本抽取模型中辅助模块，对多个所述编码特征信息中两两编码特征信息进行对比处理，获得多个辅助处理结果；所述辅助处理结果表征两两所述编码特征信息之间的相似度；

基于多个所述辅助处理结果，确定第二损失；

基于所述第一损失和所述第二损失，确定目标损失；

基于所述目标损失对所述文本抽取模型进行训练，获得完成训练的文本抽取模型。

5.根据权利要求4所述的方法，其特征在于，所述辅助模块包括池化层和对比层，所述利用文本抽取模型中辅助模块，对多个所述编码特征信息中两两编码特征信息进行对比处理，获得多个辅助处理结果，包括：

利用文本抽取模型中池化层，对多个所述编码特征信息中各编码特征信息进行池化处理，获得对应的多个池化特征信息；

利用文本抽取模型中对比层，对两两所述池化特征信息进行对比分析，获得多个辅助处理结果。

6.根据权利要求1-5任一所述的方法，其特征在于，所述获取训练集包括：

获取多个样本文本；

对每个所述样本文本进行事件类型分析；

基于分析结果，确定每个所述样本文本对应的事件模板；

将每个所述样本文本与对应的事件模板进行拼接处理，获得输入文本；

基于所述输入文本以及每个输入文本对应的目标抽取结果，构建训练集。

7.根据权利要求6所述的方法，其特征在于，所述对每个所述样本文本进行事件类型分析，包括：

基于预设事件触发词库，对每个样本文本进行触发词匹配，获得每个所述样本文本对应的触发词；

根据每个所述样本文本对应的触发词，对每个所述样本文本进行事件类型分析。

8.根据权利要求1-5任一所述的方法，其特征在于，所述利用文本抽取模型中解码模块对多个所述编码特征信息进行解码处理，获得预测抽取结果：

将多个所述编码特征信息输入文本抽取模型中解码模块；

利用所述解码模块中的注意力单元计算所述编码特征信息的注意力特征信息；

利用所述解码模块中的解码单元对所述注意力特征信息和所述编码特征信息进行解码处理，获得预测抽取结果。

9.一种文本抽取方法，其特征在于，包括：

获取待抽取的文本以及所述文本对应的事件模板；

将所述文本与对应的事件模板进行拼接，获得目标文本；

利用文本抽取模型对所述目标文本进行抽取处理，获得文本抽取结果；其中，所述文本抽取模型采用权利要求1-8任一所述的文本抽取模型训练方法训练而成。

10.根据权利要求9所述的方法，其特征在于，所述获取所述文本对应的事件模板，包括：

基于预设的事件触发词库，对所述文本进行触发词匹配，获得所述文本对应的触发词；

根据所述文本对应的触发词，对所述文本进行事件类型分析，获得目标事件类型；

获取所述目标事件类型对应的事件模板。

11.一种文本抽取模型训练装置，其特征在于，所述装置包括：

12.一种文本抽取装置，其特征在于，所述装置包括：

抽取模块，用于利用文本抽取模型对所述目标文本进行抽取处理，获得文本抽取结果；其中，所述文本抽取模型采用权利要求1-8任一所述的文本抽取模型训练方法训练而成。

13.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-8任一项所述的文本抽取模型训练方法，或权利要求9或10所述的文本抽取方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如如权利要求1-8任一项所述的文本抽取模型训练方法，或权利要求9或10所述的文本抽取方法。

15.一种计算机程序产品，其特征在于，所述计算机程序产品包括至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8任一项所述的文本抽取模型训练方法，或权利要求9或10所述的文本抽取方法。