CN107967253A

CN107967253A - 一种基于迁移学习的低资源领域分词器训练方法及分词方法

Info

Publication number: CN107967253A
Application number: CN201711026810.4A
Authority: CN
Inventors: 孙栩; 许晶晶; 李炜; 马树铭
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2018-04-27

Abstract

本发明公开了一种基于迁移学习的低资源领域分词器训练方法及分词方法。本方法为：1)在目标领域和各设定领域分别训练生成对应的分词器；2)利用各领域的分词器对目标领域的语料分词处理，获得各分词器在该目标领域的语料上每个字x_i的隐层表示；3)计算各分词器在字x_i的隐层表示与目标领域的分词器t在字x_i的隐层表示的相关度，然后根据相关度得到各领域分词器对字x_i的权重向量；4)根据权重向量对各分词器得到的隐层表示进行加权求和，得到一最终的隐层表示，并以该最终的隐层表示计算字x_i的标签；5)根据各字的预测标签与标准结果训练得到该目标领域的分词器。本发明的分词器大大提高了低资源领域语料的分词效果。

Description

一种基于迁移学习的低资源领域分词器训练方法及分词方法

技术领域

本发明属于自然语言处理领域，涉及资源不足场景下的中文文本分词，尤其涉及一种基于迁移学习的低资源领域分词器训练方法及分词方法。

背景技术

对于传统的新闻领域上的分词任务，基于统计的方法最开始取得不错的效果，主要包括条件随机场和感知器模型。然而，这些模型需要抽取大量的特征，所以泛化能力受到了限制。

近年来，越来越多地采用基于神经网络的方法进行自动化抽取特征的工作，其中出现了比较多的分词模型，主要包括卷积神经网络(Convolutional Neural Network,CNN)、长短时记忆神经网络(Long Short Term Memory Network,LSTM)等。虽然这些基于神经网络的方法非常有效，但是，训练这些模型并且得到一个比较好的效果需要大量的标注数据。而对于很多专门领域来说，标注数据的数量很有限，使得采用基于神经网络的方法进行分词难以取得较好的效果。

发明内容

为了克服上述现有技术的不足，本发明提供一种用于解决资源不足问题的低资源领域分词器训练方法及分词方法，通过在不同领域模型上建立堆叠式神经网络，利用其它富资源领域的数据和少量特定领域资源的数据，对特定领域分词模型进行训练，由此减少不同领域间标注等方面的冲突，从而更顺畅地学习多领域知识，进而提升在低资源领域下分词的效果。

本发明的原理是：为了弥补特定领域分词的数据不足的问题，本发明利用了跨领域的标注数据来提升低资源领域中分词的效果。本发明包括建立多领域分词器和集成式神经网络学习器的学习过程。首先，为了利用不同领域各自的标注数据，本发明采用传统方法学习各自领域的分词器；其次为了更顺畅地将不同领域分词器结合起来，本发明使用堆叠式神经网络，通过在不同模型间建立通讯路径来自动决定如何使用不同领域的模型的信息。这种方法利用了不同领域间大量的有标注数据的同时，尽量减少了不同领域间的冲突。在使用跨领域的数据中，数据偏移是影响跨领域学习的主要障碍。首先，当源语料和目标语料数据分布不一致时，直接使用源语料训练得到的分类器反而会导致效果的进一步下降。其次，源语料和目标语料的标注标准存在部分差异，直接使用源语料会导致分类器对目标语料的标注标准适应性较差。最后，因为有很多源语料，如何有效地结合在不同源语料上学习得到的分类器也是一个比较大的问题。为了解决数据偏移的问题，本发明首先在不同的源语料上预训练了不同的源分类器，其次，采用新的堆叠式神经网络中的通讯路径的方法，通过对不同领域分类器自动赋予权重的方式进行源分类器的集成和选择。在使用目标语料的训练过程中，可使用层次式(layer-wise)的训练方式：先训练源分类器，再训练堆叠式神经网络。

本发明提供的技术方案是：

一种用于解决资源不足问题的低资源领域分词器训练方法，通过建立不同领域各自的分词器和堆叠式神经网络，利用设定领域，即富资源领域(如新闻领域)，语料对资源不足的目标领域进行堆叠式神经网络模型的训练，由此提升在目标领域，即低资源领域，中分词的效果。此方法包括模型训练和模型预测两个部分；其中模型的训练过程包括如下步骤：

1.训练不同领域(包括设定领域和目标领域)的分词器，对任意一个领域，

(a)输入该领域的待切分数据X＝x₁x₂,…,x_i,…,x_n和对应的标注结果Y＝y₁y₂,…,y_i,…,y_n。其中，X为文本中的带切分的中文句子，x_i为文本样例X中的一个字；y_i为相应的x_i对应的标签(BIEO)。

(b)使用一种传统的经典序列标注神经网络(比如递归神经网路)来对待切分数据预测分词标签信息，在这里不限定具体的网络模型以保持方法的通用性。

(c)按照标注结果，计算预测标签与标准结果间的负对数似然损失，并通过随机优化方法减小损失，从而学习到该领域的分词器。

2.构建堆叠式网络

(a)首先通过第1步不同领域中的分词器获得各个分词器在当前资源不足的目标领域语料上每个字的隐层表示，对该目标领域的语料中样例X的第i个字x_i来说，第j个设定领域分词器得到的隐层表示为h_i,j。

(b)通过计算所有领域的分词器(包括目标领域和其它设定的富资源领域)在目标领域语料上每个字的隐层表示与目标领域的分词器t在目标领域语料上每个字的隐层表示的相关度，得到各个领域分词器对每个字x_i的权重向量S(h_i,j,h_i,t)。这里在权重向量的计算上可以有四种方式。

(i)高斯相似度；

(ii)并联方式；

(iii)序列结构方式；

(iv)树状结构方式；

(c)按照上一步计算得到的字x_i的权重向量S(h_i,j,h_i,t)对各分词器得到的字x_i的隐层表示进行加权求和，得到最终的隐层表示，并以此进一步计算当前字x_i标签。

(d)计算步骤(c)的预测标签与标准结果间的负对数似然损失，并通过随机优化方法减小负对数似然损失，从而学习到目标领域的分词器。

本发明提供四种权重向量的具体计算方法如下：

[1]高斯相似度：

设定领域的分词器j和目标领域的分词器t间的相似度计算方法如下：

其中，对当前字i，h_i,j代表预训练得到的第j个设定领域的分词器输出的隐层向量表示，h_i,t代表预训练得到的分词器t输出的隐层向量表示，σ²是超参数，Z是归一化参数。

[2]并联方式：

e_i,j＝f(W₁[W₂·h_i,h_i,j])

其中，对当前字i，h_i,j代表预训练得到的第j个分词器输出的隐层向量表示，h_i代表预训练得到的所有分词器输出的隐层向量表示的级联结果，W₁和W₂均为待学习参数矩阵，[]代表将两个向量并联起来，e_i,j为权重参数，α_i,j为归一化的权重参数，m为不同分词器的个数。

[3]序列结构方式：

与并联结构相似，h_i,j代表预训练得到的第j个分词器输出的隐层向量表示，e_i,j为序列结构的输出，即权重向量，α_i,j为归一化的权重参数，序列结构也是对设定领域的分词器的加权平均，不同点在于这里的e_i,j是由长短时记忆网络得到。

[4]树状结构方式：

树状结构通过门控网络动态选择两个节点的信息如何向上传递。

其中，l表示门控网络的第l个递归层，j表示门控网络的第j个节点,W为参数矩阵，[]代表级联操作，表示门控网络的第l个递归层第j个节点的输出。z_N,z_L,z_R,r_L,r_R为门控网络中待学习的门；门控网络的输入为h_i,j向量，输出为最终的预测标签。

作为一种优选方案，所述步骤1(b)的其中一种实现方法为使用长短时记忆网络，首先将输入的字符串映射到相应的词向量表示矩阵，按照词向量在句子中的先后顺序，依次输入到长短时记忆网络的单元中，并将当前时刻的隐层状态向量输出给下一时刻。每一时刻的隐层输出向量被作为分词输出的依据。

作为一种优选方案，所述步骤2(b)中使用[3]和[4]两种动态调整模型权重的方法可以得到较好的结果，其中在目标领域数据量较大时，序列模型更占优势，而在目标领域数据量较小时，选用树状结构模型可以得到更好的效果。

一种基于迁移学习的低资源领域分词器的分词方法，其特征在于，利用上述训练得到的分词器对低资源领域进行分词。

与现有技术相比，本发明的有益效果是：

本发明提供一种用于解决资源不足问题的迁移分词方法，通过建立不同领域各自的分词器和堆叠式神经网络，利用富资源领域(如新闻)语料对资源不足领域进行堆叠式神经网络模型的训练。本发明还通过建立通讯路径的方式，来减少不同领域间标注等方面的冲突，从而更顺畅地学习多领域数据。本发明有效地提升了在资源不足领域下分词的效果。

附图说明

图1是本发明提供的社交网络文本分词方法的流程图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种用于解决分词中资源不足问题的迁移学习方法，通过在不同领域模型的基础上建立堆叠式神经网络，利用其它富资源领域的数据和少量领域特定资源的数据对分词模型进行训练，由此减少不同领域间标注等方面的冲突，更顺畅地学习多领域数据，由此提升在资源不足领域下分词的效果。图1是本发明提供的社交网络文本分词方法的流程框图。具体过程如下：

1)算法的输入为目标领域的词语切分标注语料，首先从输入中选择某个样例X＝x₁x₂,…,x_n。以句子“他所在的跳伞队解散无奈告别飞行”为例，模型的输入样例为“x₁＝他,x₂＝所,x₃＝在,…,x_n＝行”。

2)利用不同领域各自的语料S₁,S₂,…,S_m训练得到各领域对应的分词器，为了增加模型的泛化能力，本发明并未限定使用具体某一种分类器训练方法，比如CNN，LSTM。利用S₁,S₂,…,S_m进行预训练的作用是为了利用在不同领域中各自的分词特点和数据，以及专有名词分词特点等。

3)对样例X中的x_i来说，源分类器的隐层输出结果为h_i,1,…,h_i,2,…,h_i.m。通过对源分类器赋予权重的方式进行源分类器的集成和选择，建立堆叠式神经网络。堆叠式神经网络的输入为m个源分类器的隐层输出结果h_i,1,…,h_i,j,…,h_i.m，输出为预测标签y_i′。堆叠式神经网络可以采用四种相似度权重计算方法(高斯、并联、序列、树状)中的一种来作为通讯路径，以序列结构为例，具体计算过程为：

a)使用长短时记忆网络把不同领域数据上训练得到的模型的输出h_i,1,…,h_i,j,…,h_i.m作为输入；

b)通过长短时记忆网络，输出不同领域模型的权重向量e_i,j，来自动决定不同领域的分词信息应该如何保留；

c)对权重向量进行归一化，得到每个特定领域模型的输出的最终的权重α_i,j；

d)对不同领域向量按照α_i,j做加权平均；

4)根据加权平均后的向量进行柔性最大传递函数转换，得到预测的标签的概率分布。

5)计算预测的标签的概率分布和实际标准标签的交叉熵损失，并通过随机优化方法优化该损失，从而训练得到整个堆叠式神经网络。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于迁移学习的低资源领域分词器训练方法，其步骤包括：

1)在目标领域和各设定领域分别进行训练，生成各领域对应的分词器；

2)利用步骤1)得到的各领域的分词器对目标领域的语料进行分词处理，获得各分词器在该目标领域的语料上每个字x_i的隐层表示；

3)计算步骤2)中获得的各分词器在该目标领域的语料上每个字x_i的隐层表示与目标领域的分词器t在该目标领域的语料上每个字x_i的隐层表示的相关度，然后根据所述相关度得到各领域分词器对字x_i的权重向量；

4)根据步骤3)得到的权重向量对各分词器得到的隐层表示进行加权求和，得到一最终的隐层表示，并以该最终的隐层表示计算字x_i的标签；

5)根据步骤4)得到各字的预测标签与标准结果训练得到该目标领域的分词器。

2.如权利要求1所述的方法，其特征在于，所述权重向量其中，h_i,j为第j个设定领域的分词器j对该目标领域的语料中样例X的字x_i的隐层表示；h_i,t为分词器t对该目标领域的语料中样例X的字x_i的隐层表示；σ²是超参数，Z是归一化参数。

3.如权利要求1所述的方法，其特征在于，所述权重向量其中，e_i,j＝f(W₁[W₂·h_i,h_i,j])；h_i,j代表第j个分词器对该目标领域的语料中样例X的字x_i输出的隐层向量表示，h_i代表m个分词器对该目标领域的语料中样例X的字x_i输出的隐层向量表示的级联结果，W₁和W₂均为待学习参数矩阵，[]代表将两个向量并联起来，e_i,j为权重参数，α_i,j为归一化的权重参数。

4.如权利要求1所述的方法，其特征在于，所述权重向量其中，h_i,j代表第j个分词器对该目标领域的语料中样例X的字x_i输出的隐层向量表示，e_i,j为权重参数，α_i,j为归一化的权重参数。

5.如权利要求1所述的方法，其特征在于，所述权重向量其中，l表示门控网络的第l个递归层，j表示门控网络的第j个节点，W为参数矩阵，[]代表级联操作，表示门控网络的第l个递归层第j个节点的输出，z_N,z_L,z_R,r_L,r_R为门控网络中待学习的门。

6.如权利要求1所述的方法，其特征在于，所述步骤5)的方法为：计算步骤4)得到的预测标签与标准结果间的负对数似然损失，并通过随机优化方法减小负对数似然损失，得到该目标领域的分词器。

7.如权利要求1～6任一所述的方法，其特征在于，所述设定领域为富语料资源领域，所述目标领域为低语料资源领域。

8.一种基于迁移学习的低资源领域分词方法，其步骤包括：

4)根据步骤3)得到的权重向量对各分词器得到的隐层表示进行加权求和，得到一最终的隐层表示，并以该最终的隐层表示计算字x_i的标签。

9.一种基于迁移学习的低资源领域分词方法，其特征在于，采用权利要求1所述的方法训练得到目标领域的分词器对目标领域的语料进行分词。