CN113906452A

CN113906452A - 利用转移学习的低资源实体解析

Info

Publication number: CN113906452A
Application number: CN202080038347.9A
Authority: CN
Inventors: 笠井淳吾; 钱坤; S·古拉加达; 李蕴瑶; L·波拉
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-06-17
Filing date: 2020-06-04
Publication date: 2022-01-07
Also published as: GB202200016D0; US11875253B2; JP2022537912A; DE112020002110T5; GB2599321A; WO2020254901A1; US20200394511A1

Abstract

本文提供了用于利用转移学习的低资源实体解析的方法、系统和计算机程序产品。一种计算机实现的方法，包括：通过第一实体解析模型来处理输入数据，其中输入数据包括已标记输入数据和未标记输入数据；标识未标记输入数据的要被用于训练神经网络实体解析模型的一个或多个部分，其中所述标识包括将一个或多个主动学习算法应用于第一实体解析模型；使用(i)所述未标记输入数据的一个或多个部分和(ii)一个或多个深度学习技术来训练神经网络实体解析模型；以及通过将经训练的神经网络实体解析模型应用于一个或多个数据集来执行一个或多个实体解析任务。

Description

利用转移学习的低资源实体解析

技术领域

本申请总体涉及信息技术，更特别地，涉及数据管理技术。

背景技术

实体解析(ER)技术标识数据集合中引用同一实体的记录，这样的技术通常用于数据清理和集成过程中。常规的ER方法通常需要昂贵的人工特征工程来明确地定义应用于所讨论的实体的属性的匹配函数。另外，常规ER方法也可能需要大量在真实世界应用中往往得不到的已标记数据。

发明内容

在本发明的一个方面，提供了用于利用转移学习的低资源实体解析的技术。一种示范性计算机实现的方法可以包括：通过第一实体解析模型来处理输入数据，其中，输入数据包括已标记输入数据和未标记输入数据；以及标识未标记输入数据的要被用于训练神经网络实体解析模型的一个或多个部分，其中，所述标识包括将一个或多个主动学习算法应用于第一实体解析模型。该方法还包括使用(i)所述未标记输入数据的一个或多个部分和(ii)一个或多个深度学习技术来训练神经网络实体解析模型，以及通过将经训练的神经网络实体解析模型应用于一个或多个数据集来执行一个或多个实体解析任务。

在本发明的另一方面，一种示范性计算机实现的方法可以包括：通过随机初始化的实体解析模型来处理输入数据，其中，输入数据包括未标记输入数据；以及标识未标记输入数据的要被用于训练随机初始化的实体解析模型的一个或多个部分，其中，所述标识包括将一个或多个主动学习算法应用于随机初始化的实体解析模型。另外，这样的方法包括使用(i)所述未标记输入数据的一个或多个部分和(ii)一个或多个深度学习技术来训练随机初始化的实体解析模型，以及通过将经训练的随机初始化的实体解析模型应用于一个或多个数据集来执行一个或多个实体解析任务。

本发明的另一个方面或其元件能够以具体体现计算机可读指令的计算机程序产品的形式来实现，所述计算机可读指令在实现时使计算机执行如本文中所描述的多个方法步骤。此外，本发明的另一个实施例或其元件可以以系统的形式实现，所述系统包括存储器和至少一个处理器，所述至少一个处理器耦合到所述存储器并且被配置为执行所述方法步骤。更进一步，本发明的另一个实施例或其元件能够以用于执行本文描述的方法步骤的装置或其元件的形式来实现；该装置可以包括硬件模块或硬件与软件模块的组合，其中，软件模块被存储在有形的计算机可读存储介质(或多个这样的介质)中。

从以下将结合附图阅读的对本发明的示范性实施例的详细描述中，本发明的这些和其他目的、特征和优点将变得显而易见。

附图说明

图1是示出根据本发明示例性实施例的系统架构的示图；

图2是示出根据本发明示例性实施例的利用转移学习进行低资源实体解析的流程图；

图3是示出了根据本发明示例性实施例的如在具体实施方式部分的表1中详述的深度转移主动学习算法的示图；

图4是示出了根据本发明实施例的技术的流程图；

图5是可以在其上实现本发明的至少一个实施例的示例性计算机系统的系统图；

图6描述了根据本发明实施例的云计算环境；和

图7描述了根据本发明实施例的抽象模型层。

具体实施方式

如本文所描述的，本发明实施例包括利用转移学习的低资源实体解析。至少一个实施例包括实施基于深度学习的方法，该方法通过转移学习和主动学习的组合针对ER的低资源设置。

通过神经网络架构，一个或多个实施例包括从具有累积足够已标记数据的多个源数据集学习可转移模型。随后，这样的实施例包括使用主动学习来标识不确定的且因此信息性的示例，以进一步将模型适应目标数据集。这种在ER设置中的转移和主动学习的组合使得能够学习改进的深度学习(DL)模型，同时与常规方法相比使用显著更少的目标数据集标签。因而，至少一个实施例包括创建和/或实现用于ER的DL架构，其用数据集(域)自适应从多个源数据集学习属性不可知和可转移的表示。此外，这样的实施例包括利用基于熵的采样方法来进行主动学习，这有助于将转移的模型微调到目标数据集。

一个或多个实施例是要在低资源设置(即，其中用于任务的已标记数据数量有限)中的ER任务的上下文中实现。在这样的实施例中，深度学习方法减轻和/或消除对设计匹配函数的需要，并且深度学习方法也减轻对(需要大量已标记数据的)特征工程的需要。

图1是示出根据本发明实施例的系统架构的示图。作为说明，图1描绘了包括已标记实例106的(小)集合和未标记实例104的集合的低资源数据集102。将未标记实例104的至少一部分提供给初始ER模型108，初始ER模型108处理所提供的未标记实例104并且确定和/或标识一个或多个信息性实例110。信息性实例110以及已标记实例106的至少一部分被提供给主动学习组件112内的神经(深度学习)模型114。

神经(DL)模型114确定和/或标识一个或多个不确定实例116，并且，(例如，通过用户)向那些不确定实例提供标签，并且，将那些新标记的实例重新并入到神经(DL)模型114中以微调模型114。此外，如图1所示，神经(DL)模型114最终产生和/或输出最终的深度主动转移学习(DATL)ER模型118(其可用于执行一个或多个ER任务)。

图2是示出根据本发明示例性实施例的利用转移学习的低资源实体解析的流程图。作为示例，考虑一个包括元组(D＝{D1,D2,...,Dn},T)的ER场景，其中D是在具有相似属性的模式上的数据集的集合，T是标识整个D上的(相同类型的)相同实体实例的所有出现的任务。例如，这样的任务可以包括标识在D中的多个记录中出现的人。如本文所述，一些ER场景包括大量的已标记数据；然而，许多ER场景将包括有限数量的已标记数据(本文中亦称低资源ER任务)。

再次参见图2，给定包括大量已标记数据202的ER场景S1 204，本发明的至少一个实施例包括针对所有属性对，使用相同的神经网络从S1学习神经(DL)ER模型M 206。另外，给定目标场景S2 208，这样的实施例还包括在S2 208的数据集中标识语义相似的属性(例如通过诸如方案匹配之类的技术来实现)，然后将M 206应用于那些属性对，以标识S2 208中的数据集上的相同实体实例的出现。如果存在来自S2 208的一些数量的已标记数据，则可以用这样的已标记数据(或其一部分)来细化所转移的模型M 206，以更好地适应S2 208。还如图2所示，在至少一个实施方式中，可以通过主动学习来自动生成S2 208中的一定量的已标记数据，其中，至少一个主动学习算法主动标识S2 208中的待由用户标记并且用于细化模型M 206的相关实例。

如本文所详述的，在一个或多个实施例中，深度学习模型使用实体记录对的分布式表示来进行分类。这样的模型利用单词嵌入来构建每个实体记录对的向量表示，并且因此能够避免昂贵的特征工程。在至少一个实施例中，深度学习ER模型类似于RNN模型并且还有利于转移学习。在这种实施例中，假设已经执行了分块，深度学习ER模型将候选集合中的每对归类为匹配或不匹配。

对于其中每个属性值是单词序列的每个实体记录对<e1,e2>，一个或多个实施例包括通过外部单词嵌入来标志化属性值和向量化单词以获得输入表示。仅作为示例，这种实施例可以包括使用300维的FastText嵌入，其通过字符n元生成单词向量来捕捉子词信息。

此外，至少一个实施例包括在每个属性值的单词并入表示上运行双向递归神经网络(RNN)，并通过从两个方向级联最后的隐藏单元来获得属性向量。在一个或多个实施例中，不同的RNN用于不同的属性。或者，一个或多个实施例包括实现计算给定网络架构中的所有属性表示的通用RNN。所得属性表示可用于比较每个实体记录对的属性。特别地，至少一个实施例包括计算每个属性的两个属性向量之间的元素级绝对差，以及构建属性相似性向量。

给定属性相似性向量，一个或多个实施例包括组合那些向量以表示输入实体记录对之间的相似性。这样的实施例包括将所有属性相似性向量相加和/或求和。这种组合向量的方式确保最终的相似性向量具有相同的维度，而与属性的数量无关如何，并有利于所有后续参数的转移。

此外，至少一个实施例包括将这两个记录的相似性向量馈送到一个具有公路连接的双层的多层感知器(MLP)，并且将该对分类为匹配或不匹配。MLP的最后一层的输出是二维向量，并且一个或多个实施例包括通过softmax函数对二维向量进行归一化以获得概率分布。

此外，至少一个实施例包括训练一个或多个网络以最小化负对数似然损失。这样的实施例可以包括例如使用批量大小为16且初始学习率为0.001的亚当(Adam)优化算法，并且在每个时期之后，这样的实施例包括在开发集上评估模型。

如本文还详述的，一个或多个实施例包括用于ER任务的深度转移主动学习，其中这样的实施例包括为低资源设置中的深度学习ER模型建立两个正交框架(即，转移学习框架和主动学习框架)。

关于转移学习，至少一个实施例包括在源数据上训练给定网络中的所有参数，并使用这些参数对目标数据集进行分类。这样的实施例还可以包括构建相对于数据集的特殊属性不变的网络表示。为此，一个或多个实施例包括应用在图像识别中开发的数据集(域)自适应技术。特别地，这样的实施例包括构建具有与预测输入对源自的数据集的匹配分类器相同的架构的数据集分类器。而且，这样的实施例用来自两个分类器的负对数似然损失的总和来代替训练目标。可以在相似性向量与数据集分类器之间添加梯度反转层，以便训练数据集分类器中的参数来预测数据集，而训练网络的其余部分来误导数据集分类器，由此开发独立于数据集的内部表示。使用数据集自适应，这样的实施例包括将来自目标数据集以及源的对馈送至网络。对于来自目标数据集的对，匹配分类器的损失可以忽略不计。

另外，在一个或多个实施例中，主动学习提供一种框架以通过为模型迭代地选择信息性实例来减少需要标记的对的数量。

图3是示出了根据本发明示例性实施例的深度转移主动学习算法302的示图。注意，一个或多个实施例包括避免使用熵水平阈值来选择样本，而是包括固定样本的数量。如在下面的表1中详述的，图3的主动学习算法302迭代三个步骤：(1)从未标记数据中选择不确定(因此信息性)样本并对这样的样本进行标记；(2)从未标记数据中选择高置信度样本并且使用预测的标记作为代理；(3)通过在对所选样本上训练网络来更新网络中的参数。第二个步骤例如防止网络过度拟合所选的不确定样本。

在一个或多个实施例中，不确定样本和高置信度样本通过由当前模型输出的条件概率分布的熵来表征。仅作为说明，令K为采样大小，包括候选记录对的未标记数据集

另外，用p(x_i).表示记录对xi是根据当前模型的匹配的概率。随后，通过以下等式计算该对的条件熵：

H(x_i)＝-p(x_i)logp(x_i)-(1-p(x_i))log(1-p(x_i))

可以将不确定样本和高置信度样本与高熵和低熵相关联。基于这种不确定性和高置信度的概念，可以选择具有最高K熵的记录对作为不确定样本，并选择具有最低K熵的记录对作为高置信度样本。即，将

分别作为不确定样本集和高置信度样本集。然而，这些标准可能会导致朝某方向的预期偏差，从而导致性能不稳定。为了解决这种不稳定性问题，至少一个实施例包括实现分区采样机制。这样的实施例包括将未标记数据D^U划分为两个子集，

和D ^U，其分别包括该模型预测为匹配和非匹配的对。即，

D ^U＝{x∈D^U|p(x)≥0.5}

随后，这样的实施例包括从每个子集中就熵选择最高/最低k＝K/2个样本。不确定样本现在是：

其中，这两个标准分别选择可能的假阳性结果(以增强精度)和可能的假阴性结果(以增强查全率)。在这样的实施例中，高置信度样本通过以下等式2来标识：

其中，这两个标准分别对应于高置信度阳性结果和高置信度阴性结果。这些采样标准将不确定样本和高置信度样本平均地分成不同类别。

表1：深度转移主动学习

输入：

未标记数据D^U、采样大小K、批量大小B、最大迭代次数T、最大时期数目I。

通知：

分别由W和D^L来代表深度ER参数和标记的样本集。Update(W,D^L,B)表示优化批量大小为B的已标记数据D^L的负对数似然性的参数更新函数。设置k＝K/2。

图4是示出了根据本发明实施例的技术的流程图。步骤402包括通过第一实体解析模型来处理输入数据，其中，输入数据包括已标记输入数据和未标记输入数据。步骤404包括标识未标记输入数据的要被用于训练神经网络实体解析模型的一个或多个部分，其中所述标识包括将一个或多个主动学习算法应用于第一实体解析模型。

步骤406包括使用(i)未标记输入数据的一个或多个部分和(ii)一个或多个深度学习技术来训练神经网络实体解析模型。在至少一个实施例中，所述一个或多个深度学习技术包括实现用于分类的实体记录对的分布式表示，并且训练神经网络实体解析模型包括通过利用单词嵌入来构造实体记录对中的每一个的向量表示。

步骤408包括通过将经训练的神经网络实体解析模型应用于一个或多个数据集来执行一个或多个实体解析任务。在一个或多个实施例中，该一个或多个数据集包括小于给定阈值的已标记数据量。此外，在至少一个实施例中，经训练的神经网络实体解析模型包括递归神经网络模型。

图4中示出的技术还可包括通过经由手动输入标记经处理的输入数据的一个或多个不确定部分来微调神经网络实体解析模型。另外，至少一个实施例包括通过经由一个或多个深度学习技术用已标记输入数据训练神经网络模型来生成第一实体解析模型。而且，在这样的实施例中，该一个或多个深度学习技术包括使用数据集自适应从多个源数据集学习属性不可知和可转移的神经网络模型。

此外，本发明的另一实施例包括：通过随机初始化的实体解析模型来处理输入数据，其中输入数据包括未标记输入数据，以及标识未标记输入数据的要被用于训练所述随机初始化的实体解析模型的一个或多个部分，其中所述标识包括将一个或多个主动学习算法应用于随机初始化的实体解析模型。另外，这样的实施例包括使用(i)未标记输入数据的一个或多个部分和(ii)一个或多个深度学习技术来训练随机初始化的实体解析模型，以及通过将经训练的随机初始化的实体解析模型应用于一个或多个数据集来执行一个或多个实体解析任务。

如本文中所描述的图4中所示的技术还可以包括提供一种系统，其中所述系统包括不同的软件模块，每个不同的软件模块体现在有形的计算机可读可记录存储介质上。例如，所有模块(或其任何子集)可以在同一介质上，或者各自可以在不同介质上。模块可包括图中所示和/或本文所述的任何或所有组件。在本发明实施例中，这些模块可以例如在硬件处理器上运行。然后可以使用在硬件处理器上执行的如上所述的系统的不同软件模块来执行方法步骤。进一步地，一种计算机程序产品可以包括有形的计算机可读可记录存储介质，所述有形的计算机可读可记录存储介质具有适于执行本文中所描述的至少一个方法步骤的代码，所述方法包括为所述系统提供所述不同的软件模块。

此外，图4中所示的技术可通过计算机程序产品实现，该计算机程序产品可包括存储在数据处理系统中的计算机可读存储介质中的计算机可用程序代码，并且其中计算机可用程序代码通过网络从远程数据处理系统下载。此外，在本发明实施例中，计算机程序产品可包括存储在服务器数据处理系统中的计算机可读存储介质中的计算机可用程序代码，并且其中计算机可用程序代码通过网络下载到远程数据处理系统，以与远程系统一起使用的计算机可读存储介质。

本发明实施例或其元件能够以装置的形式来实现，该装置包括存储器和耦合到该存储器并配置用于执行示范性方法步骤的至少一个处理器。

此外，本发明实施例可利用在计算机或工作站上运行的软件。参考图5，这种实现方式例如可以采用处理器502、存储器504、以及例如由显示器506和键盘508形成的输入/输出接口。如本文中使用的术语“处理器”旨在包括任何处理设备，例如，包括CPU(中央处理单元)和/或其他形式的处理电路的处理设备。此外，术语“处理器”可以指多于一个单独的处理器。术语“存储器”旨在包括与处理器或CPU相关联的存储器，例如，RAM(随机存取存储器)、ROM(只读存储器)、固定存储设备(例如，硬盘驱动器)、可移动存储设备(例如，磁盘)、闪存等。此外，如本文中使用的短语“输入/输出接口”旨在包括，例如，用于将数据输入到处理单元的机构(例如，鼠标)以及用于提供与处理单元相关联的结果的机构(例如，打印机)。处理器502、存储器504、以及诸如显示器506和键盘508的输入/输出接口可例如通过作为数据处理单元512的一部分的总线510互连。合适的互连(例如通过总线510)也可以被提供给网络接口514(诸如网卡)和介质接口516(诸如软盘或CD-ROM驱动器)，网络接口514可以被提供以与计算机网络对接，介质接口516可以被提供以与介质518对接。

因此，包括如本文所述的用于执行本发明的方法的指令或代码的计算机软件可以被存储在相关联的存储器设备(例如，ROM、固定或可移动存储器)中，并且当准备好被使用时，被部分或全部加载(例如，加载到RAM中)并且由CPU实现。这样的软件可以包括但不限于固件、驻留软件、微代码等。

适合于存储和/或执行程序代码的数据处理系统将包括通过系统总线510直接或间接耦合到存储器元件504的至少一个处理器502。存储器元件可以包括在程序代码的实际实现期间使用的本地存储器、大容量存储器和提供至少一些程序代码的临时存储以便减少在实现期间必须从大容量存储器取回代码的次数的高速缓冲存储器。

输入/输出或I/O设备(包括但不限于键盘508、显示器506、定点设备等)可以直接地(诸如通过总线510)或通过中间I/O控制器(为了清楚起见省略)耦合到系统。

诸如网络接口514的网络适配器也可以耦合到系统，以使得数据处理系统能够通过居间的私有或公共网络耦合到其他数据处理系统或远程打印机或存储设备。调制解调器、电缆调制解调器和以太网卡仅是一些当前可用类型的网络适配器。

如包括权利要求书在内的本文中使用的，“服务器”包括运行服务器程序的物理数据处理系统(例如，如图5所示的系统512)。将理解，这样的物理服务器可以包括也可以不包括显示器和键盘。

本发明可以是任何可能的技术细节集成度的系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有用于使处理器执行本发明实施例的计算机可读程序指令的计算机可读存储介质(或多个介质)。

计算机可读存储介质可以是可保留和存储供指令执行设备使用的指令的有形设备。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡或具有记录在其上的指令的槽中的凸出结构之类的机械编码设备、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线发射的电信号。

本文中所描述的计算机可读程序指令可以通过网络(例如，互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备，或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码，这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)和过程程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机，或者可连接至外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明实施例。

这里参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明实施例。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得通过计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。

附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中，框中标注的功能可以不按照图中标注的顺序发生。例如，取决于所涉及的功能，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。

应注意，本文描述的任何方法可包括提供系统的附加步骤，所述系统包括包含在计算机可读存储介质上的不同软件模块；这些模块可以包括例如在此详述的任何或所有部件。然后可以使用在硬件处理器502上执行的如上所述的系统的不同软件模块和/或子模块来执行方法步骤。此外，计算机程序产品可包括计算机可读存储介质，该计算机可读存储介质具有适于实施来执行在此描述的至少一个方法步骤的代码，该方法包括为该系统提供这些不同的软件模块。

在任何情况下，应当理解，本文所示的组件可以用硬件、软件或其组合的不同形式来实现，例如，专用集成电路(ASIC)、功能电路、具有相关联存储器的适当编程的数字计算机等。给定在此所提供的本发明的教导，相关领域的普通技术人员将能够设想本发明的部件的其他实现方式。

此外，提前理解的是，在本文中引用的教导的实现不限于特定的计算环境。相反，本发明实施例能够结合现在已知的或以后开发的任何类型的计算环境来实现。

例如，云计算是一种服务交付模型，用于使得能够方便地、按需地网络访问可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池，所述可配置计算资源可以以最小的管理努力或与服务提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特性如下：

按需自助服务：云消费者可以单方面地根据需要自动地提供计算能力，诸如服务器时间和网络存储，而不需要与服务的提供者的人类交互。

广泛的网络接入：能力可通过网络获得并且通过标准机制接入，该标准机制促进异构瘦客户机平台或厚客户机平台(例如，移动电话、膝上型计算机和PDA)的使用。

资源池：提供者的计算资源被池化以使用多租户模型来服务于多个消费者，其中不同的物理和虚拟资源根据需要动态地指派和重新指派。存在位置独立性的感觉，因为消费者通常不具有对所提供的资源的确切位置的控制或了解，但可能能够以较高抽象级别(例如，国家、州或数据中心)指定位置。

快速弹性：能够快速和弹性地提供能力，在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言，可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。

测量的服务：云系统通过利用在适合于服务类型(例如，存储、处理、带宽、和活动用户账户)的某个抽象级别的计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用，为所利用的服务的提供者和消费者提供透明度。

服务模型如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。可通过诸如web浏览器(例如，基于web的电子邮件)之类的瘦客户端接口从不同客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用能力的底层云基础设施，可能的例外是有限的用户特定应用配置设置。

平台即服务(PaaS)：提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施，但是对所部署的应用和可能的应用托管环境配置具有控制。

基础设施即服务(IaaS)：提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源，所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础结构，而是具有对操作系统、存储、所部署的应用的控制，以及对所选联网组件(例如，主机防火墙)的可能受限的控制。

部署模型如下：

私有云：云基础架构仅为组织运作。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

社区云：云基础架构由若干组织共享并且支持共享了关注(例如，任务、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

公共云：使云基础架构对公众或大型行业组可用，并且由出售云服务的组织拥有。

混合云：云基础架构是两个或更多个云(私有、社区或公共)的组合，这些云保持唯一实体但通过使数据和应用能够移植的标准化或专有技术(例如，云突发以用于云之间的负载平衡)绑定在一起。

云计算环境是面向服务的，集中于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础设施。

现在参见图6，描述了说明性云计算环境50。如图所示，云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10，本地计算设备诸如例如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N。节点10可彼此通信。它们可以物理地或虚拟地分组(未示出)在一个或多个网络中，诸如如上所述的私有云、社区云、公共云或混合云、或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为云消费者不需要为其维护本地计算设备上的资源的服务。应当理解，图6中所示的计算设备54A-N的类型仅旨在是说明性的，并且计算节点10和云计算环境50可通过任何类型的网络和/或网络可寻址连接(例如，使用网络浏览器)与任何类型的计算机化设备通信。

现在参见图7，示出了由云计算环境50(图6)提供的一组功能抽象层。应提前理解，图7中所示的组件、层和功能仅旨在是说明性的，并且本发明实施例不限于此。如所描述的，提供以下层和对应功能：

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：大型机61；基于RISC(精简指令集计算机)架构的服务器62；服务器63；刀片服务器64；存储设备65；以及网络和联网组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。

虚拟化层70提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器71；虚拟存储器72；虚拟网络73，包括虚拟专用网络；虚拟应用和操作系统74；以及虚拟客户端75。在一个示例中，管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价82在云计算环境内利用资源时提供成本跟踪，并为这些资源的消费开账单或发票。

在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理，使得满足所需的服务水平。服务水平协议(SLA)规划和履行85提供根据SLA预期未来需求的云计算资源的预安排和采购。

工作负载层90提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括：地图和导航91；软件开发和生命周期管理92；虚拟课堂教育交付93；数据分析处理94；事务处理95；以及低资源实体解析96。

本文中使用的术语仅用于描述具体实施方式的目的，而并非旨在限制本发明。如本文中使用的，除非上下文另有明确指示，否则单数形式“一个”、“一种”和“该”旨在也包括复数形式。还应当理解，当在本说明书中使用术语“包括”和/或“包含”时，其指定所述特征、步骤、操作、元件和/或部件的存在，但不排除另一特征、步骤、操作、元件、部件和/或其组合的存在或添加。

本发明的至少一个实施例可以提供有益的效果，诸如例如在低资源上下文中执行实体解析任务。

已经出于说明的目的给出了本发明的各种实施例的描述，但是其不旨在是穷尽的或限于所公开的实施例。在不背离所描述的实施例的范围和精神的情况下，许多修改和变化对于本领域的普通技术人员将是显而易见的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上存在的技术改进，或使本领域的其他普通技术人员能够理解本文所公开的实施例。

Claims

1.一种计算机实现方法，包括以下步骤：

通过第一实体解析模型来处理输入数据，其中所述输入数据包括已标记输入数据和未标记输入数据；

标识所述未标记输入数据的要被用于训练神经网络实体解析模型的一个或多个部分，其中所述标识包括将一个或多个主动学习算法应用于所述第一实体解析模型；

使用(i)所述未标记输入数据的所述一个或多个部分以及(ii)一个或多个深度学习技术来训练所述神经网络实体解析模型；和

通过将经训练的神经网络实体解析模型应用于一个或多个数据集来执行一个或多个实体解析任务。

2.根据权利要求1所述的计算机实现的方法，其中，所述一个或多个数据集包括小于给定阈值的已标记数据量。

3.根据权利要求1所述的计算机实现的方法，其中，所述一个或多个深度学习技术包括实现用于分类的实体记录对的分布式表示。

4.根据权利要求3所述的计算机实现的方法，其中，所述训练所述神经网络实体解析模型包括通过利用单词嵌入来构造所述实体记录对中的每一个的向量表示。

5.根据权利要求1所述的计算机实现的方法，其中，所述经训练的神经网络实体解析模型包括递归神经网络模型。

6.根据权利要求1所述的计算机实现的方法，包括：

通过经由手动输入来标记所述经处理的输入数据的一个或多个不确定部分来微调所述神经网络实体解析模型。

7.根据权利要求1所述的计算机实现的方法，包括：

通过经由一个或多个深度学习技术用已标记输入数据训练神经网络模型来生成所述第一实体解析模型。

8.根据权利要求7所述的计算机实现的方法，其中，所述一个或多个深度学习技术包括使用数据集自适应从多个源数据集学习属性不可知和可转移的神经网络模型。

9.一种计算机程序产品，包括具有体现在其中的程序指令的计算机可读存储介质，所述程序指令可由计算设备执行以使所述计算设备：

10.根据权利要求9所述的计算机程序产品，其中，所述一个或多个深度学习技术包括实现用于分类的实体记录对的分布式表示。

11.根据权利要求10所述的计算机程序产品，其中，所述训练所述神经网络实体解析模型包括通过利用单词嵌入来构造所述实体记录对中的每一个的向量表示。

12.根据权利要求9所述的计算机程序产品，其中，所述经训练的神经网络实体解析模型包括递归神经网络模型。

13.根据权利要求9所述的计算机程序产品，其中，所述可由计算设备执行的程序指令进一步使所述计算设备：

14.根据权利要求9所述的计算机程序产品，其中，所述可由计算设备执行的程序指令进一步使所述计算设备：

15.根据权利要求14所述的计算机程序产品，其中，所述一个或多个深度学习技术包括使用数据集自适应从多个源数据集学习属性不可知和可转移的神经网络模型。

16.一种系统，包括：

存储器；和

至少一个处理器，所述至少一个处理器可操作地耦接至所述存储器并且被配置为：

17.根据权利要求16所述的系统，其中，所述一个或多个深度学习技术包括实现用于分类的实体记录对的分布式表示。

18.一种计算机实现方法，包括以下步骤：

通过随机初始化的实体解析模型来处理输入数据，其中所述输入数据包括未标记输入数据；

标识所述未标记输入数据的将被用于训练所述随机初始化的实体解析模型的一个或多个部分，其中所述标识包括将一个或多个主动学习算法应用于所述随机初始化的实体解析模型；

使用(i)所述未标记输入数据的所述一个或多个部分和(ii)一个或多个深度学习技术来训练所述随机初始化的实体解析模型；和

通过向一个或多个数据集应用经训练的随机初始化的实体解析模型来执行一个或多个实体解析任务。

19.根据权利要求18所述的计算机实现的方法，其中，所述一个或多个深度学习技术包括实现用于分类的实体记录对的分布式表示。

20.根据权利要求18所述的计算机实现的方法，其中，所述经训练的随机初始化的实体解析模型包括递归神经网络模型。