CN106202030B

CN106202030B - 一种基于异构标注数据的快速序列标注方法及装置

Info

Publication number: CN106202030B
Application number: CN201610463435.9A
Authority: CN
Inventors: 李正华; 巢佳媛; 张民
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2016-06-23
Filing date: 2016-06-23
Publication date: 2020-05-22
Anticipated expiration: 2036-06-23
Also published as: CN106202030A

Abstract

本发明公开了一种基于异构标注数据的快速序列标注方法及装置。该方法包括以下步骤：获取两个归属于不同标注数据库的初始标记集；根据预设的在线剪枝策略，建立两个初始标记集之间的耦合标记集；针对包含耦合标记集的训练数据，训练基于条件随机场的标注模型；利用标注模型对待标注的样本数据进行标注。应用本发明实施例所提供的技术方案，达到了将不同标注数据库结合起来应用的目的，扩大了训练数据规模，提升了标注模型的性能。

Description

一种基于异构标注数据的快速序列标注方法及装置

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种基于异构标注数据的快速序列标注方法及装置。

背景技术

随着计算机技术的快速发展，利用大规模训练数据建立统计模型，进而进行各种应用的研究越来越多，训练数据的规模直接影响着统计模型的性能。

对于序列标注，不同标注数据库具有不同的标记集。比如，宾州中文树库CTB包含了约5万个标注句子，包含词边界、词性和句法结构，这些可以应用于中文分词和词性标注研究领域。人民日报语料库PD是一个大规模标注了分词和词性的标注数据库，包含约30万个标注句子。这两个标注数据库均具有不同的标记集。

将不同标注数据库结合起来应用，可以扩大训练数据规模，提高统计模型的性能。但是，不同标注数据库构建的目的可能不同，比如，宾州中文树库CTB是为句法分析而设计的，人民日报语料库PD是用于支持信息提供系统的，使得不同标注数据库所具有的标记集不同，且不同标记集之间不能用启发式规则实现转换，这使得不同标注数据库很难结合起来应用。

发明内容

为解决上述技术问题，本发明提供一种基于异构标注数据的快速序列标注方法及装置。

一种基于异构标注数据的快速序列标注方法，包括：

获取两个归属于不同标注数据库的初始标记集；

根据预设的在线剪枝策略，建立两个初始标记集之间的耦合标记集；

针对包含所述耦合标记集的训练数据，训练基于条件随机场的标注模型；

利用所述标注模型对待标注的样本数据进行标注。

在本发明的一种具体实施方式中，所述根据预设的在线剪枝策略，建立两个初始标记集之间的耦合标记集，包括：

针对训练数据中的每个目标词，分别计算该目标词在两个标注数据库的初始标记集中的每个可能标记的边缘概率；

根据边缘概率的大小，分别确定该目标词对应于两个标注数据库的候选标记集；

根据确定的候选标记集，确定该目标词对应的耦合标记集，所述耦合标记集中的每个元素包含两个候选标记，分别对应于不同标注数据库。

在本发明的一种具体实施方式中，所述针对包含所述耦合标记集的训练数据，训练基于条件随机场的标注模型，包括：

提取包含所述耦合标记集的训练数据的特征；

根据提取的每个特征组成的特征向量，确定基于条件随机场的标注模型的目标函数；

对所述目标函数进行处理，获得提取的每个特征对应的权重。

在本发明的一种具体实施方式中，所述对所述目标函数进行处理，获得提取的每个特征对应的权重，包括：

根据所述目标函数，建立所述训练数据的似然函数；

对所述似然函数进行求导计算，获得提取的每个特征对应的权重。

在本发明的一种具体实施方式中，在所述对所述似然函数进行求导计算，获得提取的每个特征对应的权重之后，所述方法还包括：

利用随机梯度下降算法，对每个权重进行优化处理。

一种基于异构标注数据的快速序列标注装置，包括：

初始标记集获取模块，用于获取两个归属于不同标注数据库的初始标记集；

耦合标记集建立模块，用于根据预设的在线剪枝策略，建立两个初始标记集之间的耦合标记集；

标注模型训练模块，用于针对包含所述耦合标记集的训练数据，训练基于条件随机场的标注模型；

序列标注模块，用于利用所述标注模型对待标注的样本数据进行标注。

在本发明的一种具体实施方式中，所述耦合标记集建立模块，具体用于：

在本发明的一种具体实施方式中，所述标注模型训练模块，包括：

特征提取子模块，用于提取包含所述耦合标记集的训练数据的特征；

目标函数确定子模块，用于根据提取的每个特征组成的特征向量，确定基于条件随机场的标注模型的目标函数；

权重获得子模块，用于对所述目标函数进行处理，获得提取的每个特征对应的权重。

在本发明的一种具体实施方式中，所述权重获得子模块，具体用于：

根据所述目标函数，建立所述训练数据的似然函数；

对所述似然函数进行求导计算，获得提取的每个特征对应的权重向量。

在本发明的一种具体实施方式中，所述标注模型训练模块还包括：

优化子模块，用于在所述权重获得子模块对所述似然函数进行求导计算，获得提取的每个特征对应的权重之后，利用随机梯度下降算法，对每个权重进行优化处理。

应用本发明实施例所提供的方法，通过建立归属于不同标注数据库的初始标记集之间的耦合标记集，针对包含该耦合标记集的训练数据，训练基于条件随机场的标注模型，利用该标注模型对待标注的样本数据进行标注。达到了将不同标注数据库结合起来应用的目的，扩大了训练数据规模，提升了标注模型的性能。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种基于异构标注数据的快速序列标注方法的实施流程图；

图2为本发明实施例中在线剪枝策略实现过程示意图；

图3为本发明实施例中一种基于异构标注数据的快速序列标注装置的结构示意图。

具体实施方式

本发明的核心是提供一种基于异构标注数据的快速序列标注方法，该方法主要应用于要将不同标注数据库结合起来进行应用或研究的场景中。将归属于不同标注数据库的初始标记集，建立耦合标记集，针对包含耦合标记集的训练数据，训练基于条件随机场的标注模型，利用该标注模型对待标注的样本数据进行标注。这样，可以将不同标注数据库结合起来，扩大训练数据规模，提升标注模型的性能。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1所示，为本发明实施例所提供的一种基于异构标注数据的快速序列标注方法的实施流程图，该方法可以包括以下步骤：

S110：获取两个归属于不同标注数据库的初始标记集。

在本发明实施例中，不同标注数据库可以是异构标注数据库。比如，宾州中文树库CTB和人民日报语料库PD。每个标注数据库都分别具有一个初始标记集。

在实际应用中，不同标注数据库构建目的可能不同，比如，宾州中文树库CTB是为句法分析而设计的，人民日报语料库PD是用于支持信息提取系统的。要将不同的标注数据库结合起来进行应用或研究，需先获取每个标注数据库各自的初始标记集。

S120：根据预设的在线剪枝策略，建立两个初始标记集之间的耦合标记集。

可以理解的是，不同标注数据库所具有的初始标记集是不同的，相互之间可能并不能使用启发式规则实现转化。在本发明实施例中，可以根据预设的在线剪枝策略，建立两个初始标记集之间的耦合标记集。

在本发明的一种具体实施方式中，步骤S120可以包括以下步骤：

步骤一：针对训练数据中的每个目标词，分别计算该目标词在两个标注数据库的初始标记集中的每个可能标记的边缘概率。

训练数据中的目标词，可以是任意一个标注数据库中的词。

具体的，可以利用标注数据库a的初始标记集中标记的独立特征向量

和对应的权重θ_a，将前向后向算法应用于标注数据库a的标记集合T^a。

针对训练数据如句子序列x中的第i个目标词，可以计算该目标词在标注数据库a的初始标记集中的每个可能标记t^a(t^a∈T^a)的边缘概率p(i,t^a|x；θ)。

同理，可以利用标注数据库b的初始标记集中标记的独立特征向量

和对应的权重θ_b，将前向后向算法应用于标注数据库b的标记集合T^b。

针对句子序列x中的第i个目标词，可以计算该目标词在标注数据库b的初始标记集中的每个可能标记t^b(t^b∈T^b)的边缘概率p(i,t^b|x；θ)。

步骤二：根据边缘概率的大小，分别确定该目标词对应于两个标注数据库的候选标记集。

在上述步骤一计算得到目标词在两个标注数据库的初始标记集中的每个可能标记的边缘概率。

针对每个标注数据库，可以确定目标词对应于该标注数据库的候选标记集。在实际应用中，可以对目标词的可能标记进行剪枝处理，将该标注数据库中目标词的可能标记的边缘概率由高到低排序，选出前k个边缘概率对应的可能标记，作为该目标词的候选标记。句子序列x中的第i个目标词对应于标注数据库a的候选标记集可以记作T_i ^a，对应于标注数据库b的候选标记集可以记作T_i ^b。

其中，k可以根据实际情况进行设定，如设为3，本发明实施例对此不做限制。

步骤三：根据确定的候选标记集，确定该目标词对应的耦合标记集。

其中，耦合标记集中的每个元素包含两个候选标记，分别对应于不同标注数据库。

在本发明实施例中，可以定义笛卡尔乘积

作为该目标词对应的耦合标记集。具体的，可以逐一从其中一个候选标记集中选择一个候选标记与另一个候选标记集中的每个候选标记组合，构成该目标词对应的耦合标记集。

针对训练数据中每个句子序列x中的每个目标词均可以执行上述步骤一至步骤三的操作，从而获得每个目标词对应的耦合标记集，建立两个初始标记集之间的耦合标记集。

为方便理解，以图2为例对本发明实施例中的在线剪枝策略的具体实现过程进行说明。

句子“我国大力发展教育”中的目标词“发展”在标注数据库a的初始标记集中的可能标记及每个可能标记对应的边缘概率分别为:

VV—0.51、NN—0.42、VA—0.03、AD—0.02、……；

该目标词“发展”在标注数据库b的初始标记集中的可能标记及每个可能标记对应的边缘概率分别为：

vn—0.42、v—0.37、n—0.17、nz—0.02、……；

根据边缘概率的大小，确定该目标词“发展”对应于标注数据库a的候选标记集为{VV,NN,VA}，对应于标注数据库b的候选标记集为{vn,v,n}，根据确定的这两个候选标记集，可以确定该目标词对应的耦合标记集(Bundled tags)为：

{[VV,vn],[NN,vn],[VA,vn],[VV,v],[NN,v],[VA,v],[VV,n],[NN,n],[VA,n]}。

同理，可以针对目标词“我国”、“大力”、“教育”等进行相应耦合标记集的确定。

S130：针对包含耦合标记集的训练数据，训练基于条件随机场的标注模型。

条件随机场(Conditional Random Field，CRF)模型结合了最大熵模型和隐马尔可夫模型的特点，是一种无向图模型，在分词、词性标注和命名实体识别等序列标注任务中能够取得较好效果。

在步骤S120建立两个初始标记集之间的耦合标记集之后，可以针对包含耦合标记集的训练数据，训练基于CRF的标注模型。

在本发明的一种具体实施方式中，步骤S130可以包括以下步骤：

第一个步骤：提取包含耦合标记集的训练数据的特征。

针对包含耦合标记集的训练数据，提取该训练数据的特征。提取到的每个特征可以组成特征向量，该特征向量包括联合特征向量和独立特征向量。

需要说明的是，提取特征的过程为现有技术，本发明实施例对此不再赘述。

第二个步骤：根据提取的每个特征组成的特征向量，确定基于条件随机场的标注模型的目标函数。

在本发明实施例中，基于CRF的标注模型的目标函数如公式(1)所示：

在公式(1)中，特征对应的分值

如公式(2)所示：

在公式(2)中，x表示包含耦合标记集的训练数据中的一个句子序列，i表示句子序列x中的第i个位置，t表示该句子序列的序列标记，a和b分别表示不同的标注数据库，f()表示特征向量，其中，

表示联合特征向量，

和

分别表示独立特征向量，θ表示权重。

第三个步骤：对目标函数进行处理，获得提取的每个特征对应的权重。

对目标函数进行处理，获得提取的每个特征对应的权重，即可实现基于CRF的标注模型的训练。

具体的，可以通过以下步骤对目标函数进行处理，获得提取的每个特征对应的权重：

步骤一：根据目标函数，建立训练数据的似然函数。

在本发明实施例中，建立的训练数据的似然函数如公式(3)所示：

其中，

V表示句子序列x的耦合标记集，V_i表示句子序列x中的第i个词x_i的耦合标记集，D表示训练数据的任意一个数据集，每个数据集包含多个句子和对应的标记序列。

步骤二：对似然函数进行求导计算，获得提取的每个特征对应的权重。

在本发明实施例中，求导方程如公式(4)所示：

其中，f(x_i,t)是将词x_i标记为t的联合特征向量，

是标注模型在受限空间V_i上的特征期望；E_t[]是标注模型在非受限空间上的特征期望。

在本发明实施例中，可以将句子序列x中的第i个目标词对应的耦合标记集作为该目标词在计算特征期望E_t|x；θ[f(x,t)]时用到的所有可能的标记集合。

在实际应用中，可以由人工确定句子序列x中的第i个目标词在其中一个标注数据库中的标准答案。比如，将句子序列x在标注数据库a中的标准答案记为

第i个目标词在标注数据库a中的标准答案记为

相应的，可以将句子序列x在标注数据库b中的标准答案记为

第i个目标词在标注数据库b中的标准答案记为

定义笛卡尔乘积

或

作为第i个目标词的标准答案的模糊标记，可以用其计算约束特征期望E_t|x,V；θ[f(x,t)]。

比如，图2中已知目标词“发展”在标注数据库b中的正确标记为“v”，则可以将“发展”的耦合标记集包含“v”的耦合标记作为该词的标准答案的模糊标记，即[VV,v]、[NN,v]、[VA,v]。

在本发明的一种具体实施方式中，在步骤二对似然函数进行求导计算，获得提取的每个特征对应的权重之后，该方法还可以包括以下步骤：

利用随机梯度下降算法，对权重向量进行优化处理。

具体算法可以参考以下过程：

步骤一：将两个数据集D⁽¹⁾和D⁽²⁾作为输入，参数分别为I、N'、M'和s；将θ作为输出。

步骤二：初始化，令θ₀＝0、n＝0。

步骤三：从i＝1到I，I为迭代次数，循环以下(1)—(4)操作：

(1)从数据集D⁽¹⁾中选出部分数据N'，从数据集D⁽²⁾中选出部分数据M'，将这两份数据N'和M'合并成D_i，进行随机化处理；

(2)遍历D_i，每次用小批量的

(3)

(4)令n＝n+1。

其中，

是训练数据第n次更新用的子集，s是批处理大小，η_n是更新步骤。该算法的基本思想是每次迭代前从每个训练样本实例进行一定比例的随机化。

对权重进行随机化处理，可以提高标注模型的性能。

S140：利用标注模型对待标注的样本数据进行标注。

在步骤S130获得了基于条件随机场的标注模型，从而可以利用该标注模型对待标注的样本数据进行标注。具体的标注方法为现有技术，本发明实施例对此不再赘述。

至此，通过一次建模过程完成不同标注数据库之间标记的识别和构建过程，同时学习和推导不同标注数据库中的语言现象，提高了标注模型的鲁棒性和准确率。

需要说明的是，本发明实施例是从对两个初始标记集建立耦合标记集的角度进行的说明，可以理解的是，多个初始标记集可以两两按照本发明实施例所提供的技术方案进行耦合，建立多个初始标记集之间的耦合标记集，从而可以针对包含该耦合标记集的训练数据训练基于CRF的标注模型，对待标注的样本数据进行标注。

相应于上面的方法实施例，本发明实施例还提供了一种基于异构标注数据的快速序列标注装置。下面对本发明实施例提供的一种基于异构标注数据的快速序列标注装置进行介绍，下文描述的一种基于异构标注数据的快速序列标注装置与上文描述的一种基于异构标注数据的快速序列标注方法可相互对应参照。

参见图3所示，为本发明实施例提供的一种基于异构标注数据的快速序列标注装置的结构示意图，该装置可以包括：

初始标记集获取模块310，用于获取两个归属于不同标注数据库的初始标记集；

耦合标记集建立模块320，用于根据预设的在线剪枝策略，建立两个初始标记集之间的耦合标记集；

标注模型训练模块330，用于针对包含所述耦合标记集的训练数据，训练基于条件随机场的标注模型；

序列标注模块340，用于利用所述标注模型对待标注的样本数据进行标注。

应用本发明实施例所提供的装置，通过建立归属于不同标注数据库的初始标记集之间的耦合标记集，针对包含该耦合标记集的训练数据，训练基于条件随机场的标注模型，利用该标注模型对待标注的样本数据进行标注。达到了将不同标注数据库结合起来应用的目的，扩大了训练数据规模，提升了标注模型的性能。

在本发明的一种具体实施方式中，所述耦合标记集建立模块320，具体用于：

在本发明的一种具体实施方式中，所述标注模型训练模块330，包括：

根据所述目标函数，建立所述训练数据的似然函数；

在本发明的一种具体实施方式中，所述标注模型训练模块330还包括：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种基于异构标注数据的快速序列标注方法及装置进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于异构标注数据的快速序列标注方法，其特征在于，包括：

获取两个归属于不同标注数据库的初始标记集；

利用所述标注模型对待标注的样本数据进行标注；

其中，所述根据预设的在线剪枝策略，建立两个初始标记集之间的耦合标记集，包括：

逐一从其中一个候选标记集中选择一个候选标记与另一个候选标记集中的每个候选标记组合，构成该目标词对应的耦合标记集，所述耦合标记集中的每个元素包含两个候选标记，分别对应于不同标注数据库。

2.根据权利要求1所述的方法，其特征在于，所述针对包含所述耦合标记集的训练数据，训练基于条件随机场的标注模型，包括：

提取包含所述耦合标记集的训练数据的特征；

3.根据权利要求2所述的方法，其特征在于，所述对所述目标函数进行处理，获得提取的每个特征对应的权重，包括：

根据所述目标函数，建立所述训练数据的似然函数；

4.根据权利要求3所述的方法，其特征在于，在所述对所述似然函数进行求导计算，获得提取的每个特征对应的权重之后，所述方法还包括：

利用随机梯度下降算法，对每个权重进行优化处理。

5.一种基于异构标注数据的快速序列标注装置，其特征在于，包括：

序列标注模块，用于利用所述标注模型对待标注的样本数据进行标注；

其中，所述耦合标记集建立模块，具体用于：

6.根据权利要求5所述的装置，其特征在于，所述标注模型训练模块，包括：

7.根据权利要求6所述的装置，其特征在于，所述权重获得子模块，具体用于：

根据所述目标函数，建立所述训练数据的似然函数；

8.根据权利要求7所述的装置，其特征在于，所述标注模型训练模块还包括：