CN111324696B

CN111324696B - 实体抽取方法、实体抽取模型的训练方法、装置及设备

Info

Publication number: CN111324696B
Application number: CN202010101702.4A
Authority: CN
Inventors: 许泽柯
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2023-03-14
Anticipated expiration: 2040-02-19
Also published as: CN111324696A

Abstract

本申请公开了一种实体抽取方法、实体抽取模型的训练方法、装置及设备，涉及人工智能技术领域。该方法包括：获取属于短文本领域的电子文档；运行实体抽取模型对电子文档进行序列标注处理，得到电子文档中的实体数据；存储电子文档中的实体数据；其中，实体抽取模型是采用对抗式多任务训练得到的神经网络模型，多任务包括主任务和辅任务，主任务是对短文本领域的电子文档进行实体抽取的第一序列标注任务，辅任务是对属于另一短文本领域的电子文档进行序列标注的第二序列标注任务。本申请引入了辅任务对该实体抽取模型进行联合训练，增加了训练的样本量，提升了实体抽取模型的训练效果，从而进一步加强了对电子文档进行实体抽取的准确率。

Description

实体抽取方法、实体抽取模型的训练方法、装置及设备

技术领域

本申请涉及人工智能技术领域，特别涉及一种实体抽取方法、实体抽取模型的训练方法、装置及设备。

背景技术

随着人工智能技术的发展,人们需要处理的数据量激增。如何快速高效地从开放领域的文本中抽取出有效信息,成为摆在人们面前的重要问题。实体抽取或者说命名实体识别(Named Entity Recognition，NER)，是文本挖掘和信息抽取的核心任务。

实体抽取任务，主要是通过对文本信息建模,自动抽取出文本信息中的实体，并分类为预先定义的类别。在进行特定领域的实体抽取任务时，比如简历的实体抽取任务，相关技术的技术方案采用基于深度学习模型的方式来实现。深度学习模型是采用训练样本训练得到的模型。

然而相关技术中的方案，通常会面临样本量不足的情况。在样本量不足的情况下，深度学习模型无法得到充分训练，导致简历的实体抽取结果不够准确。

发明内容

本申请实施例提供了一种实体抽取方法、实体抽取模型的训练方法、装置及设备，通过运用采用对抗式多任务训练得到的实体抽取模型对属于短文本领域的电子文档进行序列标注处理，提升了实体抽取结果的准确性。所述技术方案如下：

根据本申请的一个方面，提供了一种实体抽取方法，所述方法包括：

获取属于短文本领域的电子文档；

运行实体抽取模型对所述电子文档进行序列标注处理，得到所述电子文档中的实体数据；

输出所述电子文档中的实体数据；

其中，所述实体抽取模型是采用对抗式多任务训练得到的神经网络模型，所述多任务包括主任务和辅任务，所述主任务是对短文本领域的电子文档进行实体抽取的第一序列标注任务，所述辅任务是对属于另一所述短文本领域的电子文档进行实体抽取的第二序列标注任务。

根据本申请的一个方面，提供了一种实体抽取模型的训练方法，所述方法包括：

获取主任务样本数据，所述主任务样本数据是短文本领域的第一序列标注数据；

获取辅任务样本数据，所述辅任务样本数据是属于另一所述短文本领域的第二序列标注数据；

采用所述主任务样本数据和所述辅任务样本数据，对所述实体抽取模型进行对抗式多任务训练，得到训练后的所述实体抽取模型。

根据本申请的一个方面，提供了一种实体抽取装置，所述装置包括：获取模块、处理模块和输出模块；

所述获取模块，被配置为获取属于短文本领域的电子文档；

所述处理模块，被配置为运行实体抽取模型对所述电子文档进行序列标注处理，得到所述电子文档中的实体数据；

所述存储模块，被配置为输出所述电子文档中的实体数据；

根据本申请的一个方面，提供了一种实体抽取模型的训练装置，所述装置包括：获取模块和训练模块；

所述获取模块，被配置为获取主任务样本数据，所述主任务样本数据是短文本领域的第一序列标注数据；

所述获取模块，被配置为获取辅任务样本数据，所述辅任务样本数据是属于另一所述短文本领域的第二序列标注数据；

所述训练模块，被配置为采用所述主任务样本数据和所述辅任务样本数据，对所述实体抽取模型进行对抗式多任务训练，得到训练后的所述实体抽取模型。

根据本申请的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中提供的实体抽取方法，或，实体抽取模型的训练方法。

根据本申请的一个方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中提供的实体抽取方法，或，实体抽取模型的训练方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过运用采用对抗式多任务训练得到的实体抽取模型对属于短文本领域的电子文档直接进行序列标注处理，从而得到电子文档的实体数据，由于引入了辅任务对该实体抽取模型进行联合训练，增加了训练的样本量，提升了实体抽取模型的训练效果，训练出了高质量的模型，从而进一步加强了对电子文档进行实体抽取的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的实施环境的示意图；

图2示出了本申请一个示例性实施例提供的实体抽取系统的框图；

图3示出了本申请一个示例性实施例提供的实体抽取模型的训练方法的流程图；

图4示出了本申请一个示例性实施例提供的实体抽取模型的训练方法的流程图；

图5示出了本申请一个示例性实施例提供的实体抽取系统的框图；

图6示出了本申请一个示例性实施例提供的实体抽取系统的框图；

图7示出了本申请一个示例性实施例提供的实体抽取方法的流程图；

图8示出了本申请一个示例性实施例提供的对抗式多任务的示意图；

图9示出了本申请一个示例性实施例提供的实体抽取方法的流程图；

图10示出了本申请一个示例性实施例提供的实体抽取装置的示意图；

图11示出了本申请一个示例性实施例提供的实体抽取模型的训练装置的示意图；

图12是本申请一个示例性实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例中涉及的名词进行简单介绍：

云技术(Cloud technology)：是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language processing，NLP)：是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的技术方案涉及人工智能的自然语言处理技术领域，具体通过如下实施例进行说明。

多任务：是一种机器学习方法。给定m个任务，其中所有或一部分任务是相关但并不完全一样的，多任务的目标是通过使用这m个任务中包含的知识来帮助提升各个任务的性能，m为大于1的整数。本申请中，多任务包括主任务和副任务。

对抗式多任务：是基于共享表示，把多个相关任务放在一起并行学习的一种机器学习方法。该方法在提取多个相关任务的共享特征时，可以避免共享特征被辅任务的私有特征所污染。

主任务：是一种实体抽取类型的序列标注任务。主任务旨在识别出电子文档中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。

辅任务：是一种序列标注任务。辅任务可以是与主任务相同类型的序列标注任务，即实体抽取类型的序列标注任务，也可以是与主任务不同类型的序列标注任务，如中文分词(Chinese Word Segmentation，CWS)类型的序列标注任务。

短文本领域：指的是文本具备短语化特征的领域，如简历、合同、新闻、微博、病例等。短文本领域的文本的内容较少，包含的有效信息也较少。

图1示出了本申请一个示例性实施例提供的实体抽取系统的框图。该实体抽取系统包括：终端120、网络140和服务器160。

终端120可以是手机、平板电脑、台式电脑、笔记本电脑等设备。终端120是存在实体抽取需求的终端，终端120用于采集实体抽取所需的电子文档。

终端120可以通过网络140与服务器160相连。网络140可以是有线网络或无线网络。终端120可以将电子文档传输给服务器160，由服务器160完成实体抽取后，将实体抽取结果回传给终端120。

服务器160是用于进行实体抽取的后台服务器。服务器160中设置有用于实体抽取的对抗式多任务模型(下文简称：实体抽取模型)。该实体抽取模型能够进行实体抽取。

服务器160可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端120可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端120以及服务器160可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

上述实体抽取系统例如可以是简历自动解析系统。该简历自动解析系统能自动化地从电子简历中抽取企业关心的信息，比如对人名、岗位等实体进行抽取，并将其存储为结构化的数据，同时为企业招聘人员推荐合适候选人的简历自动解析以及推荐方案。上述实体抽取系统也可以适用于其他应用场景，比如实体抽取系统可以是合同自动解析系统，用于电子合同的关键字段信息抽取，生成结构化数据，从而提高后续合同审核的效率；比如实体抽取系统可以是病例自动解析系统，用于抽取病例中的关键信息，生成结构化数据，便于对病例进行分析。

实体抽取模型应用于训练和应用两个阶段。下面，先对训练阶段进行说明。图2示出了本申请一个示例性实施例提供的实体抽取模型的示意图，对该实体抽取模型进行训练，该模型包括：

1)输入层21

在输入层21，包括主任务输入层211和辅任务输入层212，采用序列输入的形式，将主任务和辅任务按字拆分。

其中，主任务对应的训练样本集是简历训练样本集，简历属于短文本领域，主任务是实体抽取类型的序列标注任务，又称命名实体识别(Named Entity Recognition，NER)任务。如，输入图示的“孟清来…大学”，希望通过该模型提取出如“孟清”的人名实体(NAME)，以及其他类型的实体。

辅任务对应的训练样本集是属于另一短文本领域的训练样本集，如微博数据、合同数据、新闻数据。辅任务可以是NER类型的序列标注任务，也可以是中文分词(ChineseWord Segmentation，CWS)类型的序列标注任务。辅任务的任务类型可以根据主任务的需求进行调整。示例性的，若希望提升主任务的实体边界切分效果，可以选择CWS类型的辅任务；若希望增加训练的样本数据量，可以选择NER类型的辅任务。

如图2中实施例所示，主任务是NER任务，辅任务是CWS任务。

2)共享特征层22

主任务的样本数据跟辅任务的样本数据经过输入层之后，会进入一个共享特征层22。共享特征层22的功能主要是将输入层拆分出的字转换成特征向量，从而便于进行数学处理，方便后续的模型训练。

可选地，共享特征层22可以包括共享嵌入层和共享特征提取层。由共享嵌入层将输入层拆分出的字进行词嵌入，转化为嵌入向量，举例来说，可以将一个单字转换成一个200维的稠密向量，这里的维数可以根据任务需要而调整。再由共享特征抽取层对嵌入向量进行特征提取，得到特征向量。

3)Highway层23

在共享特征层22之后，本申请实施例引入了编码层，即Highway层23，Highway层23可以解决深层网络训练困难的问题，将底层通用的特征输出映射到不同的语义空间，从而提高训练的效果。Highway层的结构如下述公式所示：

y＝H(x,W_H)·T(x,W_T)+x·C(x,W_C)

其中x表示输入，y表示输出；W表示权重，H表示输入到输出的映射关系，T表示转化门(transform gate)，C则表示携带门(carry gate)。

由公式可以看出，Highway其实是对输入一部分进行处理，一部分直接通过，从而底层通用的特征输出映射到不同的语义空间。

Highway层23根据下游任务特点来进行设计，包括：主任务Highway层231、共享Highway层232和辅任务Highway层233。其中，主任务Highway层231输出主任务特有的特征，共享Highway层232输出主任务和辅任务共享的特征，辅任务Highway层233输出辅任务特有的特征。

主任务Highway层231和共享Highway层232的输出，可以作为主任务最终的主任务序列标注层24的输入；而共享Highway层232和辅任务Highway层233的输出，可以作为辅任务最终的辅任务序列标注层25的输入。上述两个序列标注层的功能通过序列标注抽取器来实现，序列标注抽取器可以是条件随机场(Conditional Random Fields，CRF)，也可以是point-network或者简单的softmax。

本申请的一个实施例为了提高整体联合训练的效果，在主任务Highway层231和辅任务Highway层233中间引入了共享Highway层232，目的则是将辅任务中跟主任务无关的私有特征(CWS-Private)部分剔除，只获得共享特征(task-shared)部分的信息。

为了实现共享Highway层232生成共享特征的效果，基于对抗机制进行训练。在共享Highway层232后接判别器27(discriminator)。判别器28的训练目标是区分共享Highway层输出的特征向量是来自主任务还是来自辅任务，与共享Highway层232的训练目标是相反的。当判别器27区分不了特征是来自主任务还是来自辅任务，就可以达到共享Highway层232只获得共享特征(task-shared)部分的信息。具体的对抗损失(loss)可以如下：

其中H是共享Highway层232的输出，x是输入，k是第k个任务，i是第i个样本，N是样本数量，K是任务数量。θ_d是分类器的模型参数，θ则是共享Highway层232的模型参数。H属于编码器(即图2中的共享Highway层232)，D属于判别器(即图2中的判别器27)，H的目标是为了生成共享的特征，D的目标则是为了区分两个任务，D跟H的目标是对抗的，引入了梯度反转层26实现D跟H的目标的统一。

在上述实体抽取模型中，共享特征层22、共享Highway层232是主任务和辅任务共享的网络架构。

在公开数据集NER-Weibo2015，几种算法模型的实验数据如表一所示：

表一

本申请提供的实体抽取模型的综合评价指标f1值为0.7267，优于其他两种模型的f1值，可见该模型(即Adversarial MRC-Based Multi-Task Bert+CRF)的实体抽取效果较佳。

图3是本申请一个示例性实施例提供的实体抽取模型的训练方法的流程图，该方法包括如下步骤：

步骤310，获取主任务样本数据；

其中，主任务样本数据是短文本领域的第一序列标注数据。短文本领域是文本具备短语化特征的领域。可选地，短文本领域包括：简历、合同、新闻、微博、病例中的至少一种。

可选地，主任务是对短文本领域的电子文档进行实体抽取的第一序列标注任务，主任务样本数据则是与主任务对应的样本数据。

步骤320，获取辅任务样本数据；

其中，辅任务样本数据是属于另一短文本领域的第二序列标注数据；

可选地，辅任务是对属于另一短文本领域的电子文档进行序列标注的第二序列标注任务，辅任务样本数据则是辅主任务对应的样本数据。

示例性的，主任务样本数据是简历样本数据，而辅任务则是合同样本数据。简历是一种短文本领域，而合同是另一种短文本领域。主任务是NER任务，辅任务是CWS任务。即，主任务是对简历进行实体抽取，而辅任务是对合同进行分词。

服务器通过引入辅任务样本数据对实体抽取模型进行训练，从而增加该实体抽取模型的训练量，以增强该实体抽取模型的实体抽取效果。

步骤330，采用主任务样本数据和辅任务样本数据，对实体抽取模型进行对抗式多任务训练，得到训练后的实体抽取模型。

对抗式多任务是基于共享表示，把多个相关任务放在一起并行学习的一种机器学习方法，该方法在共享层提取共享特征时，可以避免共享特征被辅任务的私有特征所污染。服务器可以交替采用主任务样本数据和辅任务样本数据，对实体抽取模型进行对抗式多任务训练。

可选地，上述辅任务样本数据的量级跟主任务样本数据的量级保持一致。在实体抽取模型的对抗式多任务联合训练过程中，如果主任务与辅任务的样本量级相差太大，尤其是辅任务的样本的量级远大于主任务的样本的量级，会出现将主任务的训练学习带偏的情况。为了缓解主任务与辅任务的样本量级差距，本申请可以引入不同的批尺寸(batchsize)来分别训练主任务与辅任务。

综上，本实施例提供的方法，在进行实体抽取模型的模型训练时，通过获取主任务样本数据和辅任务样本数据，采用对抗式多任务训练的方式得到训练后的实体抽取模型，引入了辅任务对该实体抽取模型进行联合训练，增加了训练的样本量，提升了实体抽取模型的训练效果。

在基于图3的可选实施例中，图4示出了本申请一个示例性实施例提供的实体抽取模型的训练方法的示意图。在本实施例中，实体抽取模型包括：共享网络层、共享使用共享网络层的主任务层和辅任务层、与共享网络层相连的梯度反转层和判别器。在本实施例中，步骤330可以替换实现为如下步骤：

步骤331，采用主任务样本数据，对主任务层和共享网络层进行主任务训练；

主任务训练是实体抽取模型在运行主任务时，对应的训练过程。

可选地，实体抽取模型在运行主任务时，主任务样本数据会经过主任务层和共享网络层。服务器通过采用主任务样本数据，对主任务层和共享网络层进行主任务训练。

步骤332，采用辅任务样本数据，对辅任务层和共享网络层进行辅任务训练；

辅任务训练是实体抽取模型在运行辅任务时，对应的训练过程。

可选地，实体抽取模型在运行辅任务时，辅任务样本数据会经过辅任务层和共享网络层。服务器通过采用辅任务样本数据，对辅任务层和共享网络层进行辅任务训练。

步骤333，采用样本数据对共享网络层、梯度反转层和判别器进行对抗式多任务训练；

其中，样本数据是主任务样本数据和辅任务样本数据中的一种。

可选地，服务器在采用主任务样本数据对主任务层和共享网络层进行主任务训练的同时，也对共享网络层、梯度反转层和判别器进行对抗式多任务训练，即同时执行步骤331和步骤333。服务器在采用辅任务样本数据，对辅任务层和共享网络层进行辅任务训练的同时，也对共享网络层、梯度反转层和判别器进行对抗式多任务训练，即同时执行步骤332和步骤333。

需要说明的是，本申请实施例对上述步骤331至步骤333的实施顺序不加以限定。服务器可以采用主任务样本数据进行a次主任务训练和a次对抗式多任务训练之后，再采用辅任务样本数据进行b次辅任务训练和b次对抗式多任务训练；也可以采用辅任务样本数据进行c次辅任务训练和c次对抗式多任务训练之后，再采用主任务样本数据进行d次主任务训练和d次对抗式多任务训练，上述a、b、c、d均为非负的整数。

步骤334，响应于主任务训练、辅任务训练和对抗式多任务训练满足预设条件，得到训练后的实体抽取模型。

预设条件是服务器停止对该实体抽取模型进行训练需要满足的条件。示例性的，预设条件可以是主任务训练对应的主任务损失降低至预设值，也可以是总损失降低至另一预设值，总损失是主任务训练对应的主任务损失、辅任务训练对应的辅任务损失、对抗式多任务对应的对抗损失的加权和。

示例性的，预设条件是总损失降低至m，m为一正数。主任务训练对应的主任务损失为x，辅任务训练对应的辅任务损失为y，对抗式多任务对应的对抗损失为z，总损失L的计算公式为L＝a₁*y+a₂*y+a₃*z，其中，a₁、a₂、a₃均为正数，a₁远大于a₂，a₁也远大于a₃。

可选地，在主任务训练、辅任务训练和对抗式多任务训练满足预设条件的情况下，服务器停止对实体抽取模型进行训练，使用该实体抽取模型进行实体抽取。

综上所述，本实施例提供的方法，在进行实体抽取模型的模型训练时，通过获取主任务样本数据和辅任务样本数据，采用对抗式多任务训练的方式得到训练后的实体抽取模型，引入了辅任务对该实体抽取模型进行联合训练，增加了训练的样本量，提升了实体抽取模型的训练效果。

本实施例提供的方法，采用主任务样本数据和辅任务样本数据进行对抗式多任务训练，去除了辅任务中的私有特征对主任务引起的噪声干扰，同时在主任务训练、辅任务训练和对抗式多任务训练满足预设条件的情况下，才完成训练，在保障了该实体抽取模型对于主任务的实体抽取的效果的同时，也保障了辅任务的序列标注效果。

在基于图4的可选实施中，实体抽取模型可以采用如图5所示的结构。

主任务层包括：主任务输入层511、主任务HighWay层512和主任务序列标注层513；辅任务层包括：辅任务输入层521、辅任务HighWay层522和辅任务序列标注层523；共享网络层包括：共享特征层531和共享HighWay层532；

其中，主任务输入层511的输出与共享特征层531的输入相连，主任务HighWay层512的输入和共享特征层531的输出相连，主任务HighWay层512的输出与主任务序列标注层513的第一输入相连，共享HighWay层532的输出与主任务序列标注层513的第二输入相连，辅任务HighWay层522的输出与辅任务序列标注层523的第一输入相连，共享HighWay层532的输出与辅任务序列标注层523的第二输入相连。

与共享网络层531相连的是梯度反转层54和判别器55。

在实体抽取模型是如图5所示的结构时，步骤331替代实现为如下步骤331-1至步331-6：

步骤331-1，通过主任务输入层将主任务样本数据输入至共享特征层；

示例性地，主任务样本数据是属于简历这一短文本领域的样本数据，主任务是一个NER任务。

步骤331-2，通过共享特征层，得到主任务样本数据的特征向量；

可选地，主任务样本数据在经过共享特征层的处理后，会转化为特征向量，方便后续进行数学处理。

在一个可选的示例中，共享特征层包括：共享嵌入层和共享特征提取层；通过共享特征层，得到主任务样本数据的特征向量，包括：通过共享嵌入层对主任务样本数据进行词嵌入，得到主任务样本数据的嵌入向量；通过共享特征提取层对嵌入向量进行特征提取，得到主任务样本数据的特征向量。

可选地，共享特征提取层可以通过特征抽取器BERT实现其功能。特征抽取器一般都是基于大规模预训练的网络结构，可以是来自Transformers模型的双向编码器(Bidirectional Encoder Representation from Transformers，BERT)，也可以是其他的主流特征抽取器比如XLNet、生成预训练(Generative Pre-Training，GPT)等。

步骤331-3，通过主任务HighWay层和共享HighWay层对特征向量分别进行映射处理，得到主任务映射向量和共享映射向量；

可选地，主任务映射向量是主任务私有的特征向量，共享映射向量是主任务和辅任务共享的特征向量。

步骤331-4，通过主任务序列标注层对主任务映射向量和共享映射向量进行序列标注处理，得到主任务样本数据的序列标注结果；

主任务Highway层和共享Highway层的输出，可以作为主任务最终的主任务序列标注抽取层的输入，由主任务序列标注层对主任务映射向量和共享映射向量进行序列标注处理，得到主任务样本数据的序列标注结果。

步骤331-5，根据序列标注结果和主任务损失函数，确定主任务样本数据的主任务损失；

主任务损失函数(loss function)是用来估量实体抽取模型关于主任务训练的预测值与真实值(即序列标注结果)的不一致程度的一种非负实值函数。服务器根据得到的主任务样本数据的序列标注结果，以及主任务损失函数，确定主任务损失。

步骤331-6，以主任务损失最小为目标，更新主任务层和共享网络层的模型参数。

主任务损失越小，实体抽取模型关于主任务的鲁棒性就越好。服务器以主任务损失最小为目标，迭代更新主任务层和共享网络层的模型参数，即更新主任务输入层、共享特征层、主任务HighWay层、共享HighWay层和主任务序列标注层的模型参数。

在实体抽取模型是如图5所示的结构时，步骤332替代实现为如下步骤332-1至步骤332-6：

步骤332-1，通过辅任务输入层将辅任务样本数据输入至共享特征层；

示例性地，辅任务样本数据是属于合同这一短文本领域的样本数据，辅任务是一个CWS任务。

步骤332-2，通过共享特征层，得到辅任务样本数据的特征向量；

可选地，辅任务样本数据在经过共享特征层的处理后，会转化为特征向量，方便后续进行数学处理。

在一个可选的示例中，共享特征层包括：共享嵌入层和共享特征提取层；通过共享特征层，得到辅任务样本数据的特征向量，包括：通过共享嵌入层对辅任务样本数据进行词嵌入，得到辅任务样本数据的嵌入向量；通过共享特征提取层对嵌入向量进行特征提取，得到辅任务样本数据的特征向量。

可选地，共享特征提取层可以通过BERT实现其功能。

步骤332-3，通过辅任务HighWay层和共享HighWay层对特征向量分别进行映射处理，得到辅任务映射向量和共享映射向量；

可选地，辅任务映射向量是辅任务私有的特征向量，共享映射向量是主任务和辅任务共享的特征向量。

步骤332-4，通过辅任务序列标注层对辅任务映射向量和共享映射向量进行序列标注处理，得到辅任务样本数据的序列标注结果；

辅任务Highway层和共享Highway层的输出，可以作为辅任务最终的辅任务序列标注抽取层的输入，由辅任务序列标注层对辅任务映射向量和共享映射向量进行序列标注处理，得到辅任务样本数据的序列标注结果。

步骤332-5，根据序列标注结果和辅任务损失函数，确定辅任务样本数据的辅任务损失；

辅任务损失函数是用来估量实体抽取模型关于辅任务训练的预测值与真实值(即序列标注结果)的不一致程度的一种非负实值函数。服务器根据得到的辅任务样本数据的序列标注结果，以及辅任务损失函数，确定辅任务损失。

步骤332-6，以辅任务损失最小为目标，更新辅任务层和共享网络层的模型参数。

辅任务损失越小，实体抽取模型关于辅任务的鲁棒性就越好。服务器以辅任务损失最小为目标，迭代更新辅任务层和共享网络层的模型参数，即更新辅任务输入层、共享特征层、辅任务HighWay层、共享HighWay层和辅任务序列标注层的模型参数。

在实体抽取模型是如图5所示的结构时，步骤333替代实现为如下步骤333-1至步骤333-7：

步骤333-1，通过输入层，将样本数据输入至共享特征层；

其中，输入层是主任务输入层和辅任务输入层中的一种。服务器既可以通过主任务输入层输入主任务样本数据进行对抗式多任务训练，也可以通过辅任务输入层输入辅任务样本数据进行对抗式多任务训练。

步骤333-2，通过共享特征层，得到样本数据的特征向量；

可选地，样本数据在经过共享特征层的处理后，会转化为特征向量，方便后续进行数学处理。

在一个可选的示例中，共享特征层包括：共享嵌入层和共享特征提取层；通过共享特征层，得到样本数据的特征向量，包括：通过共享嵌入层对样本数据进行词嵌入，得到主任务样本数据和样本数据的嵌入向量；通过共享特征提取层对嵌入向量进行特征提取，得到样本数据的特征向量。

可选地，共享特征提取层可以通过BERT实现其功能。

步骤333-3，通过共享HighWay层对特征向量进行映射处理，得到共享映射向量；

可选地，共享映射向量是主任务和辅任务共享的特征向量。

步骤333-4，通过梯度反转层对共享映射向量进行处理，得到梯度反转后的共享映射向量；

梯度反转层(Gradient Reversal Layer,GRL)是正向传播时传递权值不变，反向传播时，神经元权值增量符号取反的神经网络层。

由于共享HighWay层和判别器的训练目标是对抗的，因此在二者之间添加了一个梯度反转层。在对抗损失反向传播，即对抗损失逐层向后传递的过程中，然后每个网络层都会根据传回来的损失计算梯度，进而更新本层网络的参数。而GRL所做的就是，就是将传到本层的误差乘以一个负数，这样就会使得GRL前后的共享HighWay层和判别器的训练目标相反，以实现对抗的效果。

可选地，在共享HighWay层之后，后接池化层。服务器通过池化层对共享映射向量进行池化操作之后，才会通过梯度反转层对共享映射向量进行处理。池化层主要用于对共享映射向量降维，压缩数据和参数的数量，减小过拟合，同时提高实体抽取模型的容错性。池化层可以采用最大池化操作，也可以采用平均池化操作。

步骤333-5，通过判别器对梯度反转后的共享映射向量进行输入层的判别，得到样本数据的判别结果；

判别器(Discriminator)是实体抽取模型中与共享HighWay层相互博弈的部分，负责判断共享HighWay层生成的共享映射向量是来自主任务输入层还是辅任务输入层。

可选地，样本数据的判别结果可以是样本数据来自主任务输入层，是主任务样本数据；也可以是样本数据来自辅任务输入层，是辅任务样本数据。

步骤333-6，根据判别结果和共享损失函数，确定样本数据的对抗损失；

共享损失函数是用来估量实体抽取模型关于对抗式多任务训练的预测值与真实值(即判别结果)的不一致程度的一种非负实值函数。共享损失函数可以是上述实施例中所述的：

服务器可以根据得到的样本数据的判别结果，以及共享损失函数，确定对抗损失。

步骤333-7，以对抗损失最小为目标，更新共享网络层、梯度反转层和判别器的模型参数。

对抗损失越小，实体抽取模型关于主任务和辅任务的鲁棒性就越好。服务器以对抗损失最小为目标，迭代更新共享网络层、梯度反转层和判别器的模型参数，即更新共享特征层、共享HighWay层、梯度反转层和判别器的模型参数。

实体抽取模型应用于训练和应用两个阶段。下面，对应用阶段进行说明。

图6示出了本申请一个示例性实施例提供的实体抽取模型的示意图，该实体抽取模型可以对输入的电子文档进行实体抽取。该模型包括：

1)主任务输入层61

在主任务输入层61，采用序列输入的形式，将短文本领域的电子文档(如简历)按字拆分。

其中，主任务是实体抽取类型的序列标注任务，又称命名实体识别(Named EntityRecognition，NER)任务。如，输入“孟清的…北京”，希望通过该模型提取出如“孟清”的人名实体(NAME)，以及其他类型的实体。

2)共享特征层62

主任务的样本数据经过主任务输入层61之后，会进入一个共享特征层62。共享特征层62的功能主要是将主任务输入层拆分出的字转换成特征向量，从而便于进行数学处理，方便后续的模型训练。

3)Highway层63

在共享特征层62之后，本申请实施例引入了编码层，即Highway层63，Highway层63可以解决深层网络训练困难的问题，将底层通用的特征输出映射到不同的语义空间，从而提高训练的效果。Highway层的结构如下述公式所示：

y＝H(x,W_H)·T(x,W_T)+x·C(x,W_C)

其中x表示输入，y表示输出；W表示权重，H表示输入到输出的映射关系，T表示transform gate，C则表示carry gate。

Highway层63根据下游任务特点来进行设计，包括：主任务Highway层631、共享Highway层632。其中，主任务Highway层631输出主任务特有的特征，共享Highway层632输出主任务和辅任务共享的特征。

主任务Highway层631和共享Highway层632的输出，可以作为主任务最终的主任务序列标注层64的输入。主任务序列标注层64的的功能通过序列标注抽取器来实现，序列标注抽取器可以是CRF，也可以是point-network或者简单的softmax。

由于图6示出的应用阶段的实体抽取模型只需要进行主任务，相比于训练阶段的实体抽取模型(参见图2)，省略了辅任务输入层、辅任务Highway层和辅任务序列标注层。

图7是本申请一个示例性实施例提供的实体抽取方法的流程图，该方法可以应用于如图1所示的实施环境中。该方法包括：

步骤710，获取属于短文本领域的电子文档；

电子文档是指存储在计算机设备中的一种文本文件。该电子文档可以包括直接输入至计算机设备的文档，也可以包括纸质文档的扫描件等，本申请实施例对电子文档的具体表现形式不作限定。电子文档的文件格式可以是doc格式、docx格式、mht格式、pdf格式、ppt格式、Excel格式、图片格式或html格式，本申请实施例对电子文档的具体的格式也不作限定。

电子文档是属于短文本领域的电子文档，电子文档的内容包括文字，可以是中文文字，也可以是其他类型的文字，电子文档中的文字具备短语化的特征。可选地，短文本领域包括：简历、合同、新闻、微博、病例中的至少一种。

步骤720，运行实体抽取模型对电子文档进行序列标注处理，得到电子文档中的实体数据；

其中，实体抽取模型是采用对抗式多任务训练得到的神经网络模型，多任务包括主任务和辅任务，主任务是对短文本领域的电子文档进行实体抽取的第一序列标注任务，辅任务是对属于另一短文本领域的电子文档进行序列标注的第二序列标注任务。

对抗式多任务指的是针对普通的多任务学习模型在共享特征提取时，可能会被特定任务的特定特征所污染的问题所提出的一种共享-私有模型(Shared-Private Model)。如图8所示，该模型定义了共享与私有两种特征空间，包括：任务A的私有特征空间81、任务B的私有特征空间82、任务A与任务B的共享特征空间83。相应地，对抗式多任务训练是训练时沿用生成式对抗网络的思想以及正交约束，减轻了私有与共享特征空间中的冗余特征的一种训练方法，可以应用于多种场景的特征去噪问题。实体抽取模型采用对抗式多任务训练，可以在增大训练的样本量的同时，去除由于多任务带来的噪声影响，从而获得更好的训练效果。

序列标注(Sequence labeling)任务是在解决自然语言处理问题时经常遇到的基本问题之一。它的特点是句子中每个单词要求模型根据上下文都要给出一个分类类别。在序列标注任务中，希望对一个序列的每一个元素标注一个标签。一般来说，一个序列指的是一个句子，而一个元素指的是句子中的一个词。比如信息提取问题可以认为是一个序列标注问题，如提取出会议时间、地点等。序列标注任务包括但不限于：中文分词(Chinese WordSegmentation，CWS)、词性标注(Part-of-Speech Tagging，POS Tag)、语义标注、NER。

主任务和辅任务可以是同一种类型的序列标注任务，也可以是不同类型的序列标注任务。示例性的，主任务是对简历进行的NRE任务，而辅任务是对合同进行的CWS任务。

可选地，在获取到短文本领域的电子文档后，服务器运行实体抽取模型对电子文档进行序列标注处理，得到电子文档的实体数据，实体抽取模型采用的是BIO标注。BIO标注是一种序列标注方法。在该标注方法中，将每个元素标注为“B-X”、“I-X”或者“O”。其中，“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头，“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，“O”表示不属于任何类型。

示例性的，服务获取到的电子文档为“吴重阳，中国国籍”，在运行实体抽取模型后，得到的实体数据为“吴(B-NAME)重(I-NAME)阳(I-NAME)，(O)中(B-COUNT)国(I-COUNT)国(I-COUNT)籍(I-COUNT)”，其中吴重阳属于人名实体(NAME)，中国国籍属于国家实体(COUNT)。

步骤730，输出电子文档中的实体数据；

服务器在得到电子文档中的实体数据后，输出该实体数据。

可选地，服务器在输出实体数据后，可以存储该实体数据。为了提供多种方式存储电子文档中的实体数据，提升实体抽取方法的灵活性，服务器可以直接存储电子文档中的实体数据，也可以利用该实体数据进行更进一步地处理，然后基于进一步处理后得到的实体数据进行存储，本申请实施例对此不作限定。例如，服务器可以对得到的实体数据，根据实体的类型进行进一步的分类，然后对分类后的实体数据进行存储；又例如，服务器可以根据实体的类型进行筛选，然后利用筛选处理后的实体数据进行存储。

综上，本实施例提供的方法，通过运用采用对抗式多任务训练得到的实体抽取模型对属于短文本领域的电子文档直接进行序列标注处理，从而得到电子文档的实体数据，由于引入了辅任务对该实体抽取模型进行联合训练，增加了训练的样本量，提升了实体抽取模型的训练效果，训练出了高质量的模型，从而进一步加强了对电子文档进行实体抽取的准确率。

在基于图7的可选实施例中，实体抽取模型包括：主任务层和共享网络层，主任务层是对主任务进行训练得到的神经网络层，共享网络层是采用主任务和辅任务训练的得到的。

可选地，服务器在运行该实体抽取模型进行实体抽取时，电子文档会依次经过主任务层的部分层、共享网络层、主任务层的部分层，才会得到电子文档的实体数据。

在一个示例中，共享网络层包括共享特征层和共享HighWay层；主任务层包括：主任务输入层、主任务HighWay层和主任务序列标注层；其中，主任务输入层的输出与共享特征层的输入相连，主任务HighWay层的输入和共享特征层的输出相连，主任务HighWay层的输出与主任务序列标注层的第一输入相连，共享HighWay层的输出与主任务序列标注层的第二输入相连。在实体抽取模型采用上述的网络架构时，如图9所示，图7中的步骤720可以替换实现为如下步骤：

步骤721，通过主任务输入层将电子文档输入至共享特征层；

示例性地，电子文档是属于简历这一短文本领域的文档。

步骤722，通过共享特征层，得到电子文档的特征向量；

可选地，电子文档在经过共享特征层的处理后，会转化为特征向量。

在一个示例中，共享特征层包括：共享嵌入层和共享特征提取层。步骤722可以替换实现为步骤7221至步骤7222：

步骤7221，通过共享嵌入层对电子文档进行词嵌入，得到电子文档的嵌入向量。

共享嵌入层的功能主要是将输入层拆分出的字转换成嵌入向量，赋予语义信息空间，从而便于进行数学处理。

可选地，对于电子文档中拆分出的一个单字，共享嵌入层将该单字转化为一个200维的嵌入向量，嵌入向量的维度数可以根据主任务而调整。

步骤7222，通过共享特征提取层对嵌入向量进行特征提取，得到电子文档的特征向量。

可选地，共享特征提取层可以通过BERT实现其功能。BERT是一种双向Transformer，旨在利用大量未标记文本数据进行预训练，从而学习并掌握某种语言表达形式。

步骤723，通过主任务HighWay层对特征向量进行映射处理，得到主任务映射向量；以及，通过共享HighWay层对特征向量进行映射处理，得到共享映射向量。

Highway是一种解决深层次网络训练困难的网络框架。Highway主要解决的问题是，随着网络深度加深，梯度信息回流受阻造成网络训练困难的问题。特征向量经过Highway层，输出映射到不同的语义空间。

步骤724，通过主任务序列标注层对主任务映射向量和共享映射向量进行序列标注处理，得到电子文档的序列标注结果。

主任务Highway层和共享Highway层的输出，可以作为主任务最终的主任务序列标注抽取层的输入，由主任务序列标注层对主任务映射向量和共享映射向量进行序列标注处理，得到电子文档的序列标注结果。

示例性的，电子文档的内容为“孟清买…十点”，电子文档的序列标注结果包括：如“孟清”的人名实体(NAME)，如“十点”的时间实体(TIME)，以及其他类型的实体。

可选地，主任务序列标注层可以通过条件随机场(Conditional Random Fields，CRF)实现其功能。CRF是自然语言领域中经常用的算法之一，常用于解决序列标注的问题，CRF是在基于最大熵模型和隐马尔科夫模型的基础上，提出的一种判别式概率无向图学习模型，是一种用于标注和切分有序数据的条件概率模型。

综上所述，本实施例提供的方法，通过运用采用对抗式多任务训练得到的实体抽取模型对属于短文本领域的电子文档直接进行序列标注处理，从而得到电子文档的实体数据，引入了辅任务对该实体抽取模型进行联合训练，由于增加了训练的样本量，提升了实体抽取模型的训练效果，训练出了高质量的模型，从而进一步加强了对电子文档进行实体抽取的准确率。

本实施例提供的方法，在实体抽取模型包括主任务层和共享网络层的情况下，通过共享网络层中的共享Highway层对共享映射向量进行提取，避免了由于引入辅任务训练，而导致辅任务中的私有特征对主任务引起噪声干扰的情况。

图10示出了本申请一个示例性实施例提供的实体抽取装置的示意图。该装置可以通过软件、硬件或者两者的结合实现成为服务器的全部或一部分。该装置包括：获取模块1010、处理模块1020和输出模块1030；

获取模块1010，被配置为获取属于短文本领域的电子文档；

处理模块1020，被配置为运行实体抽取模型对电子文档进行序列标注处理，得到电子文档中的实体数据；

输出模块1030，被配置为输出电子文档中的实体数据；

在一个可选的示例中，实体抽取模型包括：主任务层和共享网络层，主任务层是对主任务进行训练得到的神经网络层，共享网络层是采用主任务和辅任务训练的得到的。

在一个可选的示例中，共享网络层包括共享特征层和共享HighWay层；主任务层包括：主任务输入层、主任务HighWay层和主任务序列标注层；其中，主任务输入层的输出与共享特征层的输入相连，主任务HighWay层的输入和共享特征层的输出相连，主任务HighWay层的输出与主任务序列标注层的第一输入相连，共享HighWay层的输出与主任务序列标注层的第二输入相连。

在一个可选的示例中，处理模块1020包括：输入子模块1021、特征向量提取子模块1022、映射处理子模块1023、和序列标注子模块1024；输入子模块1021，被配置为通过主任务输入层将电子文档输入至共享特征层；特征向量提取子模块1022，被配置为通过共享特征层，得到电子文档的特征向量；映射处理子模块1023，被配置为通过主任务HighWay层对特征向量进行映射处理，得到主任务映射向量；以及，映射处理子模块1023，被配置为通过共享HighWay层对特征向量进行映射处理，得到共享映射向量；序列标注子模块1024，被配置为通过主任务序列标注层对主任务映射向量和共享映射向量进行序列标注处理，得到电子文档的序列标注结果。

在一个可选的示例中，共享特征层包括：共享嵌入层和共享特征提取层；特征向量提取子模块1022，被配置为通过共享嵌入层对电子文档进行词嵌入，得到电子文档的嵌入向量；特征向量提取子模块1022，被配置为通过共享特征提取层对嵌入向量进行特征提取，得到电子文档的特征向量。

在一个可选的示例中，短文本领域包括：简历、合同、新闻、微博、病例中的至少一种。

图11示出了本申请一个示例性实施例提供的实体抽取模型的训练装置的示意图。该装置可以通过软件、硬件或者两者的结合实现成为服务器的全部或一部分。该装置包括：获取模块1110和训练模块1120；

获取模块1110，被配置为获取主任务样本数据，主任务样本数据是短文本领域的第一序列标注数据；

获取模块1110，被配置为获取辅任务样本数据，辅任务样本数据是属于另一短文本领域的第二序列标注数据；

训练模块1120，被配置为采用主任务样本数据和辅任务样本数据，对实体抽取模型进行对抗式多任务训练，得到训练后的实体抽取模型。

在一个可选的示例中，实体抽取模型包括：共享网络层、共享使用共享网络层的主任务层和辅任务层、与共享网络层相连的梯度反转层和判别器；训练模块，被配置为采用主任务样本数据，对主任务层和共享网络层进行主任务训练；训练模块，被配置为采用辅任务样本数据，对辅任务层和共享网络层进行辅任务训练；训练模块，被配置为采用样本数据对共享网络层、梯度反转层和判别器进行对抗式多任务训练，样本数据是主任务样本数据和辅任务样本数据中的一种；响应于主任务训练、辅任务训练和对抗式多任务训练满足预设条件，得到训练后的实体抽取模型。

在一个可选的示例中，主任务层包括：主任务输入层、主任务HighWay层和主任务序列标注层；辅任务层包括：辅任务输入层、辅任务HighWay层和辅任务序列标注层；共享网络层包括：共享特征层和共享HighWay层；其中，主任务输入层的输出与共享特征层的输入相连，主任务HighWay层的输入和共享特征层的输出相连，主任务HighWay层的输出与主任务序列标注层的第一输入相连，共享HighWay层的输出与主任务序列标注层的第二输入相连，辅任务HighWay层的输出与辅任务序列标注层的第一输入相连，共享HighWay层的输出与辅任务序列标注层的第二输入相连。

在一个可选的示例中，训练模块1120包括：输入子模块1121、特征向量提取子模块1122、映射处理子模块1123、序列标注子模块1124、损失确定子模块1125和模型参数更新子模块1126；输入子模块1121，被配置为通过主任务输入层将主任务样本数据输入至共享特征层；特征向量提取子模块1122，被配置为通过共享特征层，得到主任务样本数据的特征向量；映射处理子模块1123，被配置为通过主任务HighWay层和共享HighWay层对特征向量分别进行映射处理，得到主任务映射向量和共享映射向量；序列标注子模块1124，被配置为通过主任务序列标注层对主任务映射向量和共享映射向量进行序列标注处理，得到主任务样本数据的序列标注结果；损失确定子模块1125，被配置为根据序列标注结果和主任务损失函数，确定主任务样本数据的主任务损失；模型参数更新子模块1126，被配置为以主任务损失最小为目标，更新主任务层和共享网络层的模型参数。

在一个可选的示例中，共享特征层包括：共享嵌入层和共享特征提取层；特征向量提取子模块1122，被配置为通过共享嵌入层对主任务样本数据进行词嵌入，得到主任务样本数据的嵌入向量；特征向量提取子模块1122，被配置为通过共享特征提取层对嵌入向量进行特征提取，得到主任务样本数据的特征向量。

在一个可选的示例中，训练模块1120包括：输入子模块1121、特征向量提取子模块1122、映射处理子模块1123、序列标注子模块1124、损失确定子模块1125和模型参数更新子模块1126；输入子模块1121，被配置为通过辅任务输入层将辅任务样本数据输入至共享特征层；特征向量提取子模块1122，被配置为通过共享特征层，得到辅任务样本数据的特征向量；映射处理子模块1123，被配置为通过辅任务HighWay层和共享HighWay层对特征向量分别进行映射处理，得到辅任务映射向量和共享映射向量；序列标注子模块1124，被配置为通过辅任务序列标注层对辅任务映射向量和共享映射向量进行序列标注处理，得到辅任务样本数据的序列标注结果；损失确定子模块1125，被配置为根据序列标注结果和辅任务损失函数，确定辅任务样本数据的辅任务损失；模型参数更新子模块1126，被配置为以辅任务损失最小为目标，更新辅任务层和共享网络层的模型参数。

在一个可选的示例中，共享特征层包括：共享嵌入层和共享特征提取层；特征向量提取子模块1122，被配置为通过共享嵌入层对辅任务样本数据进行词嵌入，得到辅任务样本数据的嵌入向量；特征向量提取子模块1122，被配置为通过共享特征提取层对嵌入向量进行特征提取，得到辅任务样本数据的特征向量。

在一个可选的示例中，训练模块包括：输入子模块1121、特征向量提取子模块1122、映射处理子模块1123、梯度反转子模块1127、判别子模块1128、损失确定子模块1125和模型参数更新子模块1126；输入子模块1121，被配置为通过输入层，将样本数据输入至共享特征层，输入层是主任务输入层和辅任务输入层中的一种；特征向量提取子模块1122，被配置为通过共享特征层，得到样本数据的特征向量；映射处理子模块1123，被配置为通过共享HighWay层对特征向量进行映射处理，得到共享映射向量；梯度反转子模块1127，被配置为通过梯度反转层对共享映射向量进行处理，得到梯度反转后的共享映射向量；判别子模块1128，被配置为通过判别器对梯度反转后的共享映射向量进行输入层的判别，得到样本数据的判别结果；损失确定子模块1125，被配置为根据判别结果和共享损失函数，确定样本数据的对抗损失；模型参数更新子模块1126，被配置为以对抗损失最小为目标，更新共享网络层、梯度反转层和判别器的模型参数。

在一个可选的示例中，共享特征层包括：共享嵌入层和共享特征提取层；特征向量提取子模块1122，被配置为通过共享嵌入层对样本数据进行词嵌入，得到主任务样本数据和样本数据的嵌入向量；特征向量提取子模块1122，被配置为通过共享特征提取层对嵌入向量进行特征提取，得到样本数据的特征向量。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图12，其示出了本申请实施例提供的计算机设备的结构框图，该计算机设备可用于实现上述实体抽取方法示例，或，实体抽取模型的训练方法示例的功能。具体来讲：

该计算机设备1200包括处理单元(如CPU(Central Processing Unit，中央处理器)、GPU(Graphics Processing Unit，图形处理器)和FPGA(Field Programmable GateArray，现场可编程逻辑门阵列)等)1201、包括RAM(Random-Access Memory，随机存储器)1202和ROM(Read-Only Memory，只读存储器)1203的系统存储器1204，以及连接系统存储器1204和中央处理单元1201的系统总线1205。该计算机设备1200还包括帮助计算计算机设备内的各个器件之间传输信息的I/O系统(Input/Output System，基本输入/输出系统)1206，和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。

该基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中，该显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1212连接到中央处理单元1201。该基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。

该大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。该大容量存储设备1207及其相关联的计算机可读介质为计算机设备1200提供非易失性存储。也就是说，该大容量存储设备1207可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory，电可擦写可编程只读存储器)、闪存或其他固态存储其技术，CD-ROM、DVD(Digital Video Disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知该计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。

根据本申请实施例，该计算机设备1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1200可以通过连接在该系统总线1205上的网络接口单元1211连接到网络1212，或者说，也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。

该存储器还包括至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述实体抽取方法，或，实体抽取模型的训练方法。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述实体抽取方法，或，实体抽取模型的训练方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取存储器可以包括电阻式随机存取存储器(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述各个方法实施例提供的实体抽取方法，或，实体抽取模型的训练方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述实体抽取方法，或，实体抽取模型的训练方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，上述提到的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种实体抽取方法，其特征在于，所述方法包括：

获取属于短文本领域的电子文档；

输出所述电子文档中的实体数据；

其中，所述实体抽取模型是采用对抗式多任务训练得到的神经网络模型，所述多任务包括主任务和辅任务，所述主任务是对短文本领域的电子文档进行实体抽取的第一序列标注任务，所述辅任务是对属于另一所述短文本领域的电子文档进行序列标注的第二序列标注任务。

2.根据权利要求1所述的方法，其特征在于，所述实体抽取模型包括：主任务层和共享网络层，所述主任务层是对所述主任务进行训练得到的神经网络层，所述共享网络层是采用所述主任务和所述辅任务训练的得到的。

3.根据权利要求2所述的方法，其特征在于，所述共享网络层包括共享特征层和共享HighWay层；

所述主任务层包括：主任务输入层、主任务HighWay层和主任务序列标注层；其中，

所述主任务输入层的输出与所述共享特征层的输入相连，所述主任务HighWay层的输入和所述共享特征层的输出相连，所述主任务HighWay层的输出与所述主任务序列标注层的第一输入相连，所述共享HighWay层的输出与所述主任务序列标注层的第二输入相连。

4.根据权利要求3所述的方法，其特征在于，所述运行实体抽取模型对所述电子文档进行序列标注处理，包括：

通过所述主任务输入层将所述电子文档输入至所述共享特征层；

通过所述共享特征层，得到所述电子文档的特征向量；

通过所述主任务HighWay层对所述特征向量进行映射处理，得到主任务映射向量；以及，通过所述共享HighWay层对所述特征向量进行映射处理，得到共享映射向量；

通过所述主任务序列标注层对所述主任务映射向量和所述共享映射向量进行序列标注处理，得到所述电子文档的序列标注结果。

5.根据权利要求4所述的方法，其特征在于，所述共享特征层包括：共享嵌入层和共享特征提取层；

所述通过所述共享特征层，得到所述电子文档的特征向量，包括：

通过所述共享嵌入层对所述电子文档进行词嵌入，得到所述电子文档的嵌入向量；

通过所述共享特征提取层对所述嵌入向量进行特征提取，得到所述电子文档的特征向量。

6.根据权利要求1至5任一所述的方法，其特征在于，所述短文本领域包括：简历、合同、新闻、微博、病例中的至少一种。

7.一种实体抽取模型的训练方法，其特征在于，所述方法包括：

8.根据权利要求7所述的方法，其特征在于，所述实体抽取模型包括：共享网络层、共享使用所述共享网络层的主任务层和辅任务层、与所述共享网络层相连的梯度反转层和判别器；

所述采用所述主任务样本数据和所述辅任务样本数据，对所述实体抽取模型进行对抗式多任务训练，得到训练后的所述实体抽取模型，包括：

采用所述主任务样本数据，对所述主任务层和所述共享网络层进行主任务训练；

采用所述辅任务样本数据，对所述辅任务层和所述共享网络层进行辅任务训练；

采用样本数据对所述共享网络层、所述梯度反转层和所述判别器进行对抗式多任务训练，所述样本数据是所述主任务样本数据和所述辅任务样本数据中的一种；

响应于所述主任务训练、所述辅任务训练和所述对抗式多任务训练满足预设条件，得到训练后的所述实体抽取模型。

9.根据权利要求8所述的方法，

所述主任务层包括：主任务输入层、主任务HighWay层和主任务序列标注层；

所述辅任务层包括：辅任务输入层、辅任务HighWay层和辅任务序列标注层；

所述共享网络层包括：共享特征层和共享HighWay层；

其中，所述主任务输入层的输出与所述共享特征层的输入相连，所述主任务HighWay层的输入和所述共享特征层的输出相连，所述主任务HighWay层的输出与所述主任务序列标注层的第一输入相连，所述共享HighWay层的输出与所述主任务序列标注层的第二输入相连，所述辅任务HighWay层的输出与所述辅任务序列标注层的第一输入相连，所述共享HighWay层的输出与所述辅任务序列标注层的第二输入相连。

10.根据权利要求9所述的方法，其特征在于，所述采用所述主任务样本数据，对所述主任务层和所述共享网络层进行主任务训练，包括：

通过所述主任务输入层将所述主任务样本数据输入至所述共享特征层；

通过所述共享特征层，得到所述主任务样本数据的特征向量；

通过所述主任务HighWay层和所述共享HighWay层对所述特征向量分别进行映射处理，得到主任务映射向量和共享映射向量；

通过所述主任务序列标注层对所述主任务映射向量和所述共享映射向量进行序列标注处理，得到所述主任务样本数据的序列标注结果；

根据所述序列标注结果和主任务损失函数，确定所述主任务样本数据的主任务损失；

以所述主任务损失最小为目标，更新所述主任务层和所述共享网络层的模型参数。

11.根据权利要求9所述的方法，其特征在于，所述采用所述辅任务样本数据，对所述辅任务层和所述共享网络层进行辅任务训练，包括：

通过所述辅任务输入层将所述辅任务样本数据输入至所述共享特征层；

通过所述共享特征层，得到所述辅任务样本数据的特征向量；

通过所述辅任务HighWay层和所述共享HighWay层对所述特征向量分别进行映射处理，得到辅任务映射向量和共享映射向量；

通过所述辅任务序列标注层对所述辅任务映射向量和所述共享映射向量进行序列标注处理，得到所述辅任务样本数据的序列标注结果；

根据所述序列标注结果和辅任务损失函数，确定所述辅任务样本数据的辅任务损失；以所述辅任务损失最小为目标，更新所述辅任务层和所述共享网络层的模型参数。

12.根据权利要求9所述的方法，其特征在于，所述采用样本数据对所述共享网络层、所述梯度反转层和所述判别器进行对抗式多任务训练，包括：

通过所述输入层，将所述样本数据输入至所述共享特征层，所述输入层是所述主任务输入层和所述辅任务输入层中的一种；

通过所述共享特征层，得到所述样本数据的特征向量；

通过所述共享HighWay层对所述特征向量进行映射处理，得到共享映射向量；

通过所述梯度反转层对所述共享映射向量进行处理，得到梯度反转后的共享映射向量；

通过所述判别器对所述梯度反转后的共享映射向量进行输入层的判别，得到所述样本数据的判别结果；

根据所述判别结果和共享损失函数，确定所述样本数据的对抗损失；以所述对抗损失最小为目标，更新所述共享网络层、所述梯度反转层和所述判别器的模型参数。

13.根据权利要求7至12任一所述的方法，其特征在于，所述短文本领域包括：简历、合同、新闻、微博、病例中的至少一种。

14.一种实体抽取装置，其特征在于，所述装置包括：获取模块、处理模块和输出模块；

所述获取模块，被配置为获取属于短文本领域的电子文档；

所述输出模块，被配置为输出所述电子文档中的实体数据；

15.根据权利要求14所述的装置，其特征在于，所述实体抽取模型包括：主任务层和共享网络层，所述主任务层是对所述主任务进行训练得到的神经网络层，所述共享网络层是采用所述主任务和所述辅任务训练的得到的。

16.根据权利要求15所述的装置，其特征在于，所述共享网络层包括共享特征层和共享HighWay层；

所述主任务层包括：主任务输入层、主任务HighWay层和主任务序列标注层；其中，所述主任务输入层的输出与所述共享特征层的输入相连，所述主任务HighWay层的输入和所述共享特征层的输出相连，所述主任务HighWay层的输出与所述主任务序列标注层的第一输入相连，所述共享HighWay层的输出与所述主任务序列标注层的第二输入相连。

17.根据权利要求16所述的装置，其特征在于，所述处理模块包括：输入子模块、特征向量提取子模块、映射处理子模块和序列标注子模块；

所述输入子模块，被配置为通过所述主任务输入层将所述电子文档输入至所述共享特征层；

所述特征向量提取子模块，被配置为通过所述共享特征层，得到所述电子文档的特征向量；

所述映射处理子模块，被配置为通过所述主任务HighWay层对所述特征向量进行映射处理，得到主任务映射向量；以及，通过所述共享HighWay层对所述特征向量进行映射处理，得到共享映射向量；

所述序列标注子模块，被配置为通过所述主任务序列标注层对所述主任务映射向量和所述共享映射向量进行序列标注处理，得到所述电子文档的序列标注结果。

18.根据权利要求17所述的装置，其特征在于，所述共享特征层包括：共享嵌入层和共享特征提取层；

所述特征向量提取子模块，被配置为通过所述共享嵌入层对所述电子文档进行词嵌入，得到所述电子文档的嵌入向量；

所述特征向量提取子模块，被配置为通过所述共享特征提取层对所述嵌入向量进行特征提取，得到所述电子文档的特征向量。

19.根据权利要求14至18任一所述的装置，其特征在于，所述短文本领域包括：简历、合同、新闻、微博、病例中的至少一种。

20.一种实体抽取模型的训练装置，所述装置包括：获取模块和训练模块；

21.根据权利要求20所述的装置，其特征在于，所述实体抽取模型包括：共享网络层、共享使用所述共享网络层的主任务层和辅任务层、与所述共享网络层相连的梯度反转层和判别器；

所述训练模块，被配置为采用所述主任务样本数据，对所述主任务层和所述共享网络层进行主任务训练；

所述训练模块，被配置采用所述辅任务样本数据，对所述辅任务层和所述共享网络层进行辅任务训练；

所述训练模块，被配置采用样本数据对所述共享网络层、所述梯度反转层和所述判别器进行对抗式多任务训练，所述样本数据是所述主任务样本数据和所述辅任务样本数据中的一种；

所述训练模块，被配置响应于所述主任务训练、所述辅任务训练和所述对抗式多任务训练满足预设条件，得到训练后的所述实体抽取模型。

22.根据权利要求21所述的装置，

所述共享网络层包括：共享特征层和共享HighWay层；

23.根据权利要求22所述的装置，其特征在于，所述训练模块包括：输入子模块、特征向量提取子模块、映射处理子模块、序列标注子模块、损失确定子模块和模型参数更新子模块；

所述输入子模块，被配置为通过所述主任务输入层将所述主任务样本数据输入至所述共享特征层；

所述特征向量提取子模块，被配置为通过所述共享特征层，得到所述主任务样本数据的特征向量；

所述映射处理子模块，被配置为通过所述主任务HighWay层和所述共享HighWay层对所述特征向量分别进行映射处理，得到主任务映射向量和共享映射向量；

所述序列标注子模块，被配置为通过所述主任务序列标注层对所述主任务映射向量和所述共享映射向量进行序列标注处理，得到所述主任务样本数据的序列标注结果；

所述损失确定子模块，被配置为根据所述序列标注结果和主任务损失函数，确定所述主任务样本数据的主任务损失；

所述模型参数更新子模块，被配置以所述主任务损失最小为目标，更新所述主任务层和所述共享网络层的模型参数。

24.根据权利要求22所述的装置，其特征在于，所述训练模块包括：输入子模块、特征向量提取子模块、映射处理子模块、序列标注子模块、损失确定子模块和模型参数更新子模块；

所述输入子模块，被配置为通过所述辅任务输入层将所述辅任务样本数据输入至所述共享特征层；

所述特征向量提取子模块，被配置通过所述共享特征层，得到所述辅任务样本数据的特征向量；

所述映射处理子模块，被配置为通过所述辅任务HighWay层和所述共享HighWay层对所述特征向量分别进行映射处理，得到辅任务映射向量和共享映射向量；

所述序列标注子模块，被配置为通过所述辅任务序列标注层对所述辅任务映射向量和所述共享映射向量进行序列标注处理，得到所述辅任务样本数据的序列标注结果；

所述损失确定子模块，被配置为根据所述序列标注结果和辅任务损失函数，确定所述辅任务样本数据的辅任务损失；

所述模型参数更新子模块，被配置为以所述辅任务损失最小为目标，更新所述辅任务层和所述共享网络层的模型参数。

25.根据权利要求22所述的装置，其特征在于，所述训练模块包括：输入子模块、特征向量提取子模块、映射处理子模块、梯度反转子模块、判别子模块、损失确定子模块和模型参数更新子模块；

所述输入子模块，被配置为通过所述输入层，将所述样本数据输入至所述共享特征层，所述输入层是所述主任务输入层和所述辅任务输入层中的一种；

所述特征向量提取子模块，被配置为通过所述共享特征层，得到所述样本数据的特征向量；

所述映射处理子模块，被配置为通过所述共享HighWay层对所述特征向量进行映射处理，得到共享映射向量；

所述梯度反转子模块，被配置为通过所述梯度反转层对所述共享映射向量进行处理，得到梯度反转后的共享映射向量；

所述判别子模块，被配置为通过所述判别器对所述梯度反转后的共享映射向量进行输入层的判别，得到所述样本数据的判别结果；

所述损失确定子模块，被配置为根据所述判别结果和共享损失函数，确定所述样本数据的对抗损失；

所述模型参数更新子模块，被配置为以所述对抗损失最小为目标，更新所述共享网络层、所述梯度反转层和所述判别器的模型参数。

26.根据权利要求20至25任一所述的装置，其特征在于，所述短文本领域包括：简历、合同、新闻、微博、病例中的至少一种。

27.一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上权利要求1至6任一所述的实体抽取方法，或，权利要求7至13任一所述的实体抽取模型的训练方法。

28.一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令，所述至少一条指由处理器加载并执行以实现如上权利要求1至6任一所述的实体抽取方法，或，权利要求7至13任一所述的实体抽取模型的训练方法。