CN107291837A

CN107291837A - 一种基于领域适应性的网络文本的分词方法

Info

Publication number: CN107291837A
Application number: CN201710397541.6A
Authority: CN
Inventors: 孙栩; 许晶晶; 马树铭
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2017-05-31
Filing date: 2017-05-31
Publication date: 2017-10-24
Anticipated expiration: 2037-05-31
Also published as: CN107291837B

Abstract

本发明公布了一种基于领域适应性的社交网络文本的分词方法，通过建立集成式神经网络和采用自训练的学习方法，利用跨领域的新闻语料、社交网络中的标注数据和无标注数据对集成式神经网络模型进行训练；具体将社交网络文本分为标注和未标注数据集合作为输入；将新闻领域语料作为源语料，在新闻源语料上预训练源分类器；通过对源分类器赋予权重的方式进行源分类器的集成；使用社交网络语料对集成式神经网络模型进行训练；利用训练好的集成式神经网络模型进行预测，由此提升社交网络分词的效果。本发明可用于解决社交网络中因为数据过少导致的效果差的问题，能够有效地提升社交网络文本分词的效果。

Description

一种基于领域适应性的网络文本的分词方法

技术领域

本发明属于自然语言处理领域，涉及社交网络文本分词，尤其涉及一种基于领域适应性的社交网络文本的分词方法。

背景技术

对于传统的新闻领域上的分词任务，基于统计的方法最开始取得不错的效果，主要包括条件随机场和感知器模型。然而，这些模型需要抽取大量的特征，所以泛化能力受到了限制。

近年来，越来越多地采用基于神经网络的方法进行自动化抽取特征的工作，其中出现了比较多的分词模型，主要包括卷积神经网络(Convolutional Neural Network,CNN)、长短时记忆神经网络(Long Short Term Memory Network,LSTM)等。虽然这些基于神经网络的方法非常有效，但是，训练这些模型并且得到一个比较好的效果需要大量的标注数据。而由于社交网络中的标注数据很有限，使得采用基于神经网络的方法进行分词无法取得较好的效果。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于领域适应性的社交网络文本的分词方法，通过建立集成式神经网络和采用自训练的学习方法，利用新闻领域语料，社交网络中少量的标注数据和大量的无标注数据进行集成式神经网络模型的训练，由此提升社交网络分词的效果，用于解决社交网络中因为数据过少导致的效果差的问题。

本发明的原理是：为了弥补社交网络分词的数据不足的问题，本发明利用了跨领域的标注数据和大量的无标注数据来提升社交网络分词的效果。本发明包括建立集成式神经网络和自训练学习过程。首先，为了利用跨领域的标注数据，我们提出了集成式神经网络。其次为了适应社交网络灵活的分词特点，我们提出了一种自训练的学习方法。这种方法利用了社交网络中大量的无标注数据。在使用跨领域的数据中，数据偏移是影响跨领域学习的主要障碍。首先，当源语料和目标语料数据分布不一致时，直接使用源语料训练得到的分类器反而会导致效果的进一步下降。其次，源语料和目标语料的标注标准存在部分差异，直接使用源语料会导致分类器对目标语料的标注标准适应性较差。最后，因为有很多源语料，如何有效地结合在不同源语料上学习得到的分类器也是一个比较大的问题。为了解决数据偏移的问题。我们首先在不同的源语料上预训练了不同的源分类器，其次，采用新的集成式神经网络，通过对分类器赋予权重的方式进行源分类器的集成和选择。在使用目标语料的训练过程中，可使用层次式(layer-wise)的训练方式：先训练源分类器，再训练集成式神经网络。

因为社交网络的语言用法灵活并且源语料又主要是新闻数据，用法比较规范，使得跨领域的学习不能很好地使用比如新词语的情况。而社交网络中有大量的无标注信息，这些无标注数据和目标语料标注数据有着相似的数据分布，并且可以用来进行新词语的挖掘。因此，本发明提出了自训练的方式，利用无标注的数据解决此问题。首先，利用集成式神经网络对未标注的数据赋予了一个预测标签，并提出了置信度函数对预测标签进行置信度的评测。最后，将未标注的数据，预测标签以及置信度一起加入到训练过程中。

本发明提供的技术方案是：

一种基于领域适应性的社交网络文本的分词方法，通过建立集成式神经网络和采用自训练的学习方法，利用新闻领域语料，社交网络中少量的标注数据和大量的无标注数据进行集成式神经网络模型的训练，由此提升社交网络分词的效果；包括模型训练和模型预测两个部分；其中模型的训练过程包括如下步骤：

11)将社交网络文本分为标注数据集合T_l和未标注数据集合T_u，作为输入；从输入集合中选择某个样例X＝x₁x₂,…,x_i,…,x_n；其中，x_i为社交网络文本样例X中的一个字；

以句子“他所在的跳伞队解散无奈告别飞行”为例，模型的输入样例为“x₁＝他,x₂＝所,x₃＝在,…,x_n＝行”。

12)在不同的新闻源语料上预训练不同的源分类器；

除了社交网络文本语料之外，还有大量的新闻领域语料。我们将这些资源丰富的新闻领域语料作为源语料来帮助社交网络文本语料的训练。我们在不同的新闻源语料上预训练不同的源分类器，来解决跨领域学习中数据偏移的问题；本发明中，源分类器可采用CNN、LSTM等；

13)通过对源分类器赋予权重的方式进行源分类器的集成和选择，建立集成式神经网络；

建立集成式神经网络包括如下过程：

131)首先通过式1计算得到权重：

e_i,j＝f(W₁[W₂*h_i,h_i,j]) (式1)

对样例X中的第i个字x_i来说，源分类器的输出结果(m个源分类器的隐层输出结果)h_i为h_i,1,…,h_i,2,…,h_i.m，即h_i＝{h_i,1,…,h_i,j,…,h_i.m}；W₁,W₂为参数矩阵(权重矩阵)；e_i,j是第i个字、第j个源分类器隐层输出结果的权重。

将m个源分类器的隐层输出结果h_i,1,…,h_i,j,…,h_i.m作为集成式神经网络的输入，集成式神经网络的输出为预测标签y_i；

132)对m个源分类器计算权重，并对权重进行归一化操作，得到归一化权重α_i,j：

其中，α_i,j为式2的结果输出，也就是第i个字、第j个源分类器隐层输出结果的权重。e_i,j为式1的输出结果，分母为m个所有的源分类器e_i,p的权重的相加。

133)根据源分类器的输出和权重计算结果，得到加权之后的输出权重s_i：

其中，α_i,j为式2的结果输出，也就是第i个字、第j个源分类器隐层输出结果的权重。h_i,j为第i个字、第j个源分类器隐层输出结果。此公式含义为对所有隐层的输出结果加权累加。

其中，s_i为第i个字的隐层输出；

134)算法的预测结果为y₁,y₂,…,y_i,…,y_n。如果采用0/1分布标签，其中1代表切分句子，0代表不切分句子的话，模型的输出样例表示为：y₁＝1,y₂＝0,…,y_n＝1。

通过式4计算得到预测结果：

y_i＝softmax(g(s_i)) (式4)

s_i为式3的输出，g为激活函数(可采用sigmoid或者tanh作为激活函数)，softmax为归一化函数，以上步骤叙述了如何搭建集成式神经网络，接下来说明如何使用社交网络语料进行训练。

14)使用社交网络语料进行训练：

社交网络语料是分词好的社交网络文本和未分词的社交网络文本，包括标注数据和无标注的数据；

对于标注样例X，对于第i个字x_i，直接使用人为标注的分词结果(标注数据)y_i求交叉熵损失函数l(θ)，如式5：

其中y_i为x_i的人工标注标签，p为给定x_i和θ标注标签y_i的概率。m为样例X包括的字个数，θ为所有的模型参数。

对于无标注的数据，通过自训练的方式进行训练，自训练包括如下步骤：

141)首先利用集成式神经网络对未标注的数据赋予了一个预测标签；

集成式神经网络的输入是m个源分类器的隐层输出结果h_i,1,…,h_i,j,…,h_i.m，集成式神经网络的输出为预测结果y_i；

142)对预测标签进行置信度的评测；

主要思想为对每个样例赋予不同置信度。我们采用得分最高的两个标签y_max(x_i,j),y_2nd(x_i,j)作为计算的输入，通过式6计算得到样例置信度：

其中w_i为样例X的权重，Z_t为正则化项，对于字x_i,j来说，y_max(x_i,j)是预测概率最大的标签,y_2nd(x_i,j)为预测概率次大的标签，m为样例X包括的字的个数；。

143)将未标注的数据、预测标签以及置信度一起加入到训练过程中。

本发明具体实施中，采用了层次式(layer-wise)的训练方式：在社交网络文本数据上，先训练分类器，再训练集成式神经网络。

经过上述模型具体搭建和训练，获得训练好之后的模型。利用训练好的模型对新的社交网络文本进行分词，模型的分词过程包括如下步骤：

21)输入待分词的社交文本。同样以句子“他所在的跳伞队解散无奈告别飞行”为例，模型的输入样例为“x₁＝他,x₂＝所,x₃＝在,…,x_n＝行”。

22)计算式1～3，得到模型的隐层输出s，将s输入公式4得到最终的预测结果y＝{“y₁＝1,y₂＝0,y₃＝0,…,y_n＝1”}。以二分类举例，1代表分词，0代表代表不分词。

与现有技术相比，本发明的有益效果是：

本发明提供一种跨领域的社交网络文本分词方法，通过建立集成式神经网络和采用自训练的学习方法，利用跨领域的新闻语料，社交网络中少量的标注数据和大量的无标注数据进行集成式神经网络模型的训练，用于解决社交网络中因为数据过少导致的效果差的问题。本发明有效地提升了社交网络文本分词的效果。

附图说明

图1是本发明提供的社交网络文本分词方法的流程框图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种跨领域的社交网络文本分词方法，通过建立集成式神经网络和采用自训练的学习方法，利用跨领域的标注数据和社交网络中大量的无标注数据进行集成式神经网络模型的训练，由此提升社交网络分词的效果；图1是本发明提供的社交网络文本分词方法的流程框图。具体过程如下：

1)算法的输入T＝{T_l,T_u}包括两部分，其中T_l为标注数据集合，(比如标注样例：他/所在的/跳伞队/解散/无奈/告别/飞行，/为人工标注的词语分隔符)，T_u为未标注数据集合(比如样例：推荐服用黑糖姜茶，此为未进行人工标注的训练样例)。首先从输入中选择某个样例X＝x₁x₂,…,x_n。以句子“他所在的跳伞队解散无奈告别飞行”为例，模型的输入样例为“x₁＝他,x₂＝所,x₃＝在,…,x_n＝行”。

2)在不同的源语料S₁,S₂,…,S_m上预训练了不同的源分类器，为了增加模型的泛化能力，我们并未限定使用具体某一种分类器，比如CNN，LSTM。预训练的作用是为了防止在跨领域的过程中出现的数据偏移现象。

3)对样例X中的x_i来说，源分类器的输出结果为h_i,1,…,h_i,2,…,h_i.m。通过对源分类器赋予权重的方式进行源分类器的集成和选择，建立集成式神经网络。集成式神经网络的输入为m个源分类器的隐层输出结果h_i,1,…,h_i,j,…,h_i.m，输出为预测标签y_i′。具体计算过程为：

31)首先通过式1计算得到权重：

e_i,j＝f(W₁[W₂*h_i,h_i,j]) (式1)

其中，h_i＝{h_i,1,…,h_i,j,…,h_i.m}；W₁,W₂为模型参数矩阵；e_i,j是第i个字、第j个源分类器隐层输出结果的权重。

32)对权重进行归一化操作，得到归一化权重α_i,j：

33)根据源分类器的输出和权重计算结果，得到加权之后的输出权重s_i：

其中，s_i为第i个字的隐层输出；α_i,j为式2的结果输出也就是第i个字，第j个源分类器隐层输出结果的权重。h_i,j为第i个字，第j个源分类器隐层输出结果。m为源分类器的个数。s_i是不同源分类器的累积和。

34)集成式神经网络输出的预测标签结果为y₁,y₂,…,y_i,…,y_n。如果采用0/1分布标签，其中1代表切分句子，0代表不切分句子的话，模型的输出样例表示为：y₁＝1,y₂＝0,…,y_n＝1。

计算方式是：

y_i′＝softmax(g(s_i)) (式4)

4)对于标注数据，直接使用算法的预测结果和标注结果做交叉熵即可，对于未标注数据来说，因为没有标注数据，所以在此通过自训练的方式进行训练，具体包括如下步骤：

41)首先利用集成式神经网络对未标注的数据赋予了一个预测标签。具体过程见步骤1)～3)。

42)对预测标签进行置信度的评测。预测结果采用得分最高的两个标签y_max(x_i,j),y_2nd(x_i,j)作为函数的输入，通过式6～式7计算得到置信度：

其中，w_i为第i个样本的置信度，m为第i个样例的长度，n为总的样例个数。Z_t是第t轮训练的正则化项，等于所有样例置信度的相加之和。

43)最后，将未标注的数据、预测标签以及置信度一起加入到目标函数中进行训练。目标函数表示为式8：

其中，N为mini-batch的大小，为第t轮训练的公式5中的w_i，m为样例X_i的长度，X_i,j第i个样例第j个字，y_i,j为第i个句子第j个字的标注标签，θ为模型参数。

本发明具体实施中采用了层次式的训练方式：先在社交网络文本数据上训练源分类器，再训练集成式神经网络。

经过上述模型搭建和模型训练，获得训练好之后的模型。利用训练好的模型对新的社交网络文本进行分词，模型的分词过程包括如下步骤：

22)计算式1～3，得到模型的隐层输出s，将s输入公式4得到最终的预测结果y＝{“y₁＝1,y₂＝0,y₃＝0,…,y_n＝1”}。以二分类举例，1代表分词，0代表代表不分词。也就是说，最终的分词的预测结果示例为“他/所在的/跳伞队/解散/无奈/告别/飞行”，其中“/”表示分词标记。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于领域适应性的社交网络文本的分词方法，通过建立集成式神经网络和采用自训练的学习方法，利用跨领域的新闻语料、社交网络中的标注数据和无标注数据进行集成式神经网络模型的训练，由此提升社交网络分词的效果；所述分词方法包括模型训练过程和模型预测过程；

模型训练过程包括如下步骤：

11)将社交网络文本分为标注数据集合T_l和未标注数据集合T_u，作为输入；输入集合包括样例X＝x₁x₂,…,x_i,…,x_n；其中，x_i为社交网络文本样例中的一个字；

12)将新闻领域语料作为源语料，在不同的新闻源语料上预训练不同的源分类器；

13)通过对源分类器赋予权重的方式进行源分类器的集成，建立集成式神经网络；将m个源分类器的隐层输出结果h_i,1,…,h_i,j,…,h_i.m作为所述集成式神经网络的输入，所述集成式神经网络的输出为预测标签y_i；

14)使用社交网络语料对所述集成式神经网络模型进行训练：所述社交网络语料包括标注数据和无标注的数据；对标注数据直接求交叉熵损失函数；对于无标注数据，通过自训练的方式进行训练；得到训练好的集成式神经网络模型；

模型预测过程包括如下步骤：

21)将待分词的社交文本样例输入到所述训练好的集成式神经网络模型中；

22)按照步骤13)对源分类器赋予权重的方式，通过计算得到集成式神经网络模型的隐层输出，再得到最终的预测结果，即为分词结果。

2.如权利要求1所述分词方法，其特征是，步骤12)所述源分类器采用卷积神经网络或长短时记忆神经网络。

3.如权利要求1所述分词方法，其特征是，步骤13)建立集成式神经网络包括如下过程：

131)对样例X中的x_i，通过式1计算得到第i个字、第j个源分类器隐层输出结果的权重：

e_i,j＝f(W₁[W₂*h_i,h_i,j]) (式1)

其中，h_i为m个源分类器的隐层输出结果h_i,1,…,h_i,2,…,h_i.m，即h_i＝{h_i,1,…,h_i,j,…,h_i.m}；W₁,W₂为权重参数矩阵；e_i,j是第i个字、第j个源分类器隐层输出结果的权重；

132)对m个源分类器计算权重，并通过式2对权重进行归一化操作，得到归一化权重α_i,j：

其中，α_i,j为第i个字、第j个源分类器隐层输出结果的归一化权重；e_i,j为式1的输出结果，即第i个字、第j个源分类器隐层输出结果的权重；式2中分母为m个所有的源分类器e_i,p的权重的相加；

133)根据源分类器的输出和权重计算结果，通过式3对所有隐层的输出结果加权累加计算，得到加权之后的输出权重s_i：

其中，α_i,j为第i个字、第j个源分类器隐层输出结果的归一化权重；h_i,j为第i个字、第j个源分类器隐层输出结果；s_i为第i个字的隐层输出；

134)通过式4计算得到预测结果，预测结果为y₁,y₂,…,y_i,…,y_n：

y_i＝softmax(g(s_i)) (式4)

其中，s_i为式3的输出；g为激活函数；softmax为归一化函数，用于将隐层输出转换为概率分布；y_i为第i个字的预测标签。

4.如权利要求1所述分词方法，其特征是，步骤14)对标注数据直接求交叉熵损失函数；所述交叉熵损失函数l(θ)表示为式5：

其中，y_i为第i个字x_i的人工标注标签，p为给定x_i和θ标注标签y_i的概率；m为样例X包括的字个数；θ为模型参数。

5.如权利要求1所述分词方法，其特征是，步骤14)对于无标注数据，通过自训练的方式进行训练；所述自训练包括如下步骤：

141)首先利用所述集成式神经网络对未标注数据的每个样例赋予一个预测标签；

142)对所述预测标签赋予不同置信度，进行置信度的评测；

143)将所述未标注数据、预测标签和置信度一起加入到训练过程中进行训练。

6.如权利要求5所述分词方法，其特征是，步骤142)赋予置信度具体采用得分最高的两个标签y_max(x_j),y_2nd(x_j)作为计算的输入，通过式6计算得到样例的置信度w_i：

式6中，Z_t为正则化项；y_max(x)、y_2nd(x)分别为得分最高的两个标签；m为样例包括的字个数。

7.如权利要求5所述分词方法，其特征是，步骤143)具体将所述未标注数据、预测标签和置信度一起加入到目标函数中进行训练，所述目标函数为式8：

其中，N为mini-batch的大小；为第t轮训练中样例X_i的置信度w_i；m为样例X_i的长度；X_i,j为样例X_i的第j个字；y_i,j为样例X_i第j个字的标注标签；θ为模型参数。

8.如权利要求1所述分词方法，其特征是，步骤14)所述训练采用层次式的训练方式，先训练源分类器，再训练集成式神经网络。

9.如权利要求1所述分词方法，其特征是，步骤22)具体通过式1～3计算得到集成式神经网络模型的隐层输出s，再通过式4计算得到最终的预测结果：

对样例X中的x_i，通过式1计算得到第i个字、第j个源分类器隐层输出结果的权重：

e_i,j＝f(W₁[W₂*h_i,h_i,j]) (式1)

对m个源分类器计算权重，并通过式2对权重进行归一化操作，得到归一化权重α_i,j：

根据源分类器的输出和权重计算结果，通过式3对所有隐层的输出结果加权累加计算，得到加权之后的输出权重s_i：

通过式4计算得到预测结果，预测结果为y₁,y₂,…,y_i,…,y_n：

y_i＝softmax(g(s_i)) (式4)

10.如权利要求9所述分词方法，其特征是，所述预测结果为y＝{“y₁＝1,y₂＝0,y₃＝0,…,y_n＝1”}；采用二分类方法，其中1代表分词，0代表不分词。