CN107894971B

CN107894971B - 一种可扩展的基于神经网络的序列标注方法

Info

Publication number: CN107894971B
Application number: CN201711026809.1A
Authority: CN
Inventors: 孙栩; 张艺; 杨洋
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2019-11-26
Anticipated expiration: 2037-10-27
Also published as: CN107894971A

Abstract

本发明公开了一种可扩展的基于神经网络的序列标注方法。本方法为：创建一层叠n阶模型，该层叠n阶模型的训练过程为：首先根据训练语料中各标注单元的标签生成多个标签集合，包括一阶至n阶n个标签集合；标注单元i的标签与其邻近n‑1个标注单元的标签合并在一起作为标注单元i的n阶标签，n阶标签集合为各标注单元的n阶标签构成的标签集合；然后利用得到的各阶标签集合分别训练神经网络，分别得到n个模型，即一阶神经网络模型至n阶神经网络模型；利用该层叠n阶模型对给定的序列进行标签预测，得到一标签序列。本发明显著减少了模型过拟合风险，提高了序列标注任务效果。

Description

一种可扩展的基于神经网络的序列标注方法

技术领域

本发明属于自然语言处理领域，涉及序列标注，尤其涉及一种不同阶模型信息组合解码的序列标注方法。

背景技术

神经网络处理序列标注问题时，在训练阶段，为每一预测出它的相应标签，代价函数是神经网络的预测输出与标准标注的交叉熵，训练过程最小化目标函数。在解码阶段，由神经网络直接预测出当前词的标签。

现有的神经网络处理序列标注问题时，对当前词(字)预测出的标签不涉及周围词(字)标签，即每个词(字)的预测出的标签是独立于其它词(字)的，而后在独立标签的基础上进行梯度下降，这种训练方法很容易出现过拟合问题，并且可能会使神经网络的信息捕捉能力不能完全体现出来。

发明内容

为了克服现有神经网络在序列标注问题上标签独立的技术不足，本发明提供了一种易于扩展的新的序列标注问题的训练与解码方法(在神经网络序列标注问题中，解码过程即为获取输入标注序列的过程)。通过利用高阶标签进行训练和一种联合高阶信息及低阶信息解码的方式来减少过拟合问题，提高神经网络模型表现。

本发明提供的技术方案是：

一种可扩展新的训练方式，通过修改原始文本的单阶标签为更高阶的标签进行训练，以及一种新的解码方式，该解码方式联合了之前训练得到的各阶信息，利用动态规划找出一条最优的标注路径。具体步骤如下：

1)训练过程：

本发明训练过程是不同阶的模型独立训练的过程。对于序列标注问题，标注单位可能是单词或字，以下介绍使用“词”表示标注单位，但不限于词。本发明提出了一种新的标注模式，将当前词的标签与其周围词的标签合并在一起作为一个新的标签。若新的标签由n个标签合并而成，则称其为n阶标签。原始标签是只针对于当前词的标签，即一阶标签，一阶标签集下训练的模型是一阶模型。二阶标签集可通过合并当前词的标签和它之前的词的标签得到，三阶标签集，可通过合并当前词(字)的标签和它之前的词(字)的两个标签得到，更高阶的标签集以此类推。以命名实体识别任务为例，若当前词的标签为I-Location，它的前一个词的标签是B-Location，再往前一个的词的标签是O，则当前词的二阶标签是(B-Location,I-Location)，当前词的三阶标签是(B-Location,I-Location,O)。n阶模型即在n阶标签集下训练的模型。一阶神经网络模型至n阶神经网络模型的模型结构相同，只是各自具有与其阶数对应的标签集，它们的训练过程相互独立。层叠n阶模型是指包含了一阶模型至n阶模型训练过程的模型。

一般是神经网络在输出层会经过一个softmax函数，该softmax函数输出对当前词的所有可能标签的概率分布。此概率分布与真实标签的0-1分布求交叉熵作为代价函数，神经网络的训练是为了最小化此代价函数。为了在解码阶段联合使用不同阶的预测信息，对不同阶数下预测的每个词的概率分布需要进行存储。

至此，除改变了标签集，不同阶数的神经网络模型训练方式与普通神经网络训练方式一致，且神经网络模型结构本身并未发生变化。

2)解码过程：

本发明解码过程基于n-阶马尔科夫假设。由于解码过程综合了不同阶神经网络模型的信息，即解码过程基于之前提到的层叠n阶模型。对于层叠n阶模型，给定的序列(x₁,x₂,…x_t，…x_T)，对其进行标签预测，得到以下标签序列：

(y₁,y₂,…y_t,…,y_T)

神经网络训练目标是最大化整个标签序列的联合概率，即优化

p(y₁,y₂,…y_t,…,y_T)

其中，y_t表示第t个词的标签。如果直接计算该联合概率，需要估计的参数数量是非常巨大的，本发明则基于马尔科夫假设，对该联合概率进行分解以减少参数空间，进而方便对其的估计。

具体的，本发明使用标签序列的子序列的局部联合概率的乘积来近似完整标签序列的联合概率。而每个局部联合概率可进一步依据条件概率公式进行分解。以二阶神经网络模型为例，基于二阶马尔科夫假设，原始序列的联合概率可近似分解为：

其中，p(y₁,y₂),p(y₂,y₃),…,p(y_T-1,y_T)等是子序列(y₁,y₂)，(y₂,y₃)，…，(y_T-1,y_T)等的局部联合概率。p(y₁,y₂)可由条件概率公式进一步分解为P(y₁)×p(y₂|y₁)，p(y_T-1,y_T)同样可分解为p(y_T-1)×p(y_T|y_T-1)。公式第三行是对第二行的统一表示。其中，p(y_t)表示第t个词的所预测标签的概率，由一阶模型输出得到。p(y_t+1|y_t)表示从第t个标签y_t到第t+1个标签y_t+1的转移概率。由于二阶模型的可输出对每个词的二阶标签的概率，对第t+1个词，可输出它的标签是(y_t,y_t+1)的概率，本发明将此概率可看做是：对于第t+1个词，当它的前一个词的标签是y_t时，它的标签是y_t+1的概率，即转移概率p(y_t+1|y_t)。至此，上述分解中p(y_t)由一阶模型可得到，p(y_t+1|y_t)由二阶模型可得到。

基于以上数学推导基础，本发明在解码阶段进行动态规划寻找最优的标注序列。仍以二阶模型为例，参照上述二阶模型分解公式，首先计算近似分解中的第一个局部联合概率p(y₁,y₂)，它由P(y₁)×p(y₂|y₁)得到，P(y₁)是由一阶模型输出得到，p(y₂|y₁)由二阶模型输出得到，它是二阶模型输出标签(y₁,y₂)的概率。y₁所代表的标签是一阶标签集中的任意一个，(y₁,y₂)所代表的标签是二阶标签集中的任意一个，由于它们所代表的具体标签是相应标签集中任意一个，因此，对所有可能的情况，也就是将y₁，y₂具体化后，都会计算得到一个对应有具体标签的局部联合概率p(y₁,y₂)。当p(y₁,y₂)中的y₂代表某一具体标签确定时，y₁仍是各种可能的具体标签，因此，y₂的代表标签确定时，所对应的概率p(y₁,y₂)也是有不同值，但存在一个最大值，需要记录对该y₂代表某一具体标签值时，最大的p(y₁,y₂)值所对应的y₁的具体标签。记录此值，代表当y₂是某一具体标签时，它的前一个具体标签最有可能是哪个。当y₂所代表的具体标签改变时，同样，也可进行上述所有计算过程。

此时整句标签序列联合概率的计算只进行到y₂的位置，得到了整句标签序列截止到y₂时y₂取不同具体标签时的概率，且对于y₂代表的具体标签的各种情况，都记录了标签序列到y₂到它们之前的标签y₁最可能的具体标签。接着按计算p(y₁,y₂)的方式计算p(y₂,y₃)，把之计算的p(y₁,y₂)的结果乘以p(y₂,y₃)，这样整句联合概率的计算进行到y₃的位置，得到了整句标签序列截止到y₃时y₃取不同具体标签时的概率，同样记录每个y₃代表的具体标签下它的前一个最有可能的具体标签。以此类推，直到把整句的标签序列计算到最后一个标签后结束。

计算结束，即计算到y_T的位置后，得到了整句标签序列在y_T对应不同的具体标签下的概率值，取最大值，作为整句标签序列的联合概率，同时，从最大值对应的该具体标签反向追踪，由于上述计算过程记录了每个标签前一个最可能的标签，因此可找到该具体标签最可能的前一个标签，根据记录继续往前追溯，直到最后一个标签，也就是y₁所代表的具体标签被找到，反向追踪结束，得到了整句的标签序列。

层叠的三阶模型及更高阶的层叠模型可进行相似的计算。

与现有技术相比，本发明的有益结果是：

本发明提供了一种易于扩展的高阶神经模型训练方式，神经网络模型结构无需改变且训练阶段无动态规划过程，相比于现有技术大大减少了训练时间。同时，提出了一种全新的解码方式，可利用多阶模型信息进行综合解码，显著减少了模型过拟合风险，提高了序列标注任务效果。

附图说明

图1是现有技术的训练过程示意图；

图2是本发明提供的训练过程示意图；

图3是本发明方法的解码阶段示意图。

具体实施方式

下面结合附图，通过实例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种新的针对于序列标注的神经网络模型训练与解码方法。图1是传统神经网络模型的训练方式示意图。如图1所示，模型中每个标准标签只涉及其自己的标签，是一种单阶模型。

图2是本发明的神经网络训练方式，采用了新的标注模式。如图2所示，一个词的n阶标签是合并了n个词的原始标签作为一个新的标签。由于标注模式的改变，整个数据集标签集也发生了改变。一般来讲，n阶的标签集包含了n个一阶标签所有可能的合并方式，等价于对一阶标签进行n-1次笛卡尔乘积，在此情况下，标签集大小随阶数的增长成指数方式增长，可能会出现标签集过大的情况，不利于训练及解码。此外，在解码阶段，动态规划需计算局部联合概率对应于具体标签的值，随着阶数的增长，局部联合概率对应的具体标签组合也将呈指数方式增长，降低了解码阶段效率。

因此本发明采用了两种剪枝策略：一，只记录在训练集中出现过的高阶标签，前述训练阶段介绍均以此为基础。使用该策略具体原因是：给定一阶标签集，高阶标签集应是获取一阶标签的所有可能的合并方式，但由此得到的高阶标签部分是不合理的而不会在实际数据中出现(以命名实体识别任务为例，二阶标签(B-location,I-location)是一个合理的二阶标签，而(B-Location,I-Person)是不合理二阶标签，不可能通过训练数据获得)，因此，只记录合理的标签组合方式，也就是可由训练数据获得的高阶标签。二，在一阶模型中，已记录了对于原始标签的预测概率分布，此概率分布针对于标签集中的所有标签，而大部分标签是可能性极小的，因此，本发明只记录一阶模型中每个词概率最大的前k个标签及其概率。在之后的层叠高阶模型解码过程中，只基于这k个标签进行笛卡尔乘积可得到的高阶标签进行解码。相较于剪枝前的解码方式，此策略大大减小了解码中的解码代价。

本发明提供的可扩展的高阶模型训练及解码的具体步骤为：

1)在n阶模型下，改变标注方式，获取n阶标签：

图2展示了不同阶数下，标签的组合方式，此标注方式可扩展至任意阶模型。新的标签集只包含训练集中出现过的标签组合。

2)在新的标签集下，依据普通的神经网络训练方式进行训练：

目标函数仍可采用预测概率分布与标准0-1分布的交叉熵，训练方法可采用随机梯度下降、亚当优化等多种参数更新方式。对于不同阶模型，记录下词的标签概率分布中前k个概率最大值和对应的具体标签。

3)利用不同阶模型记录的概率信息，进行综合解码：

图3是层叠n阶模型的解码阶段示意图。

本发明训练阶段只改变标签集，而不改变模型结构，此外，训练阶段不需要动态规划过程，训练效率较高，具有极强的扩展性。

本发明为解码阶段提供了一种通用的解码方式，同样易于扩展至高阶模型。对于需预测的原始完整序列联合概率，本发明提供了一种新的分解方式，将难以直接拟合的完整序列联合概率近似分解为局部联合概率乘积之和，意图最大化局部联合概率而获得更大完整序列联合概率。

对于长度为T的标签序列(y₁,y₂,…,y_T)，基于二阶马尔科夫假设的分解方式为：

基于三阶马尔科夫假设的分解方式为：

扩展至n阶，完整序列联合概率P(y₁,y₂,…,y_T)可分解为：

其中，第一行近似分解中的p(y₁,y₂,…,y_n)代表标签序列从第1个位置到第n个位置的子序列(y_T-n+1,y_T-n+2,…,y_T)的局部联合概率，同理，p(y_T-n+1,y_T-n+2,…,y_T)代表标签序列从第T-n+1个位置到第T个位置子序列的局部联合概率，t＝1,…,T-n+1。第二行分解中的转移概率p(y_t+n-1|y_t,y_t+1,…,y_t+n-2)代表当第t个词到第t+n-2个词的标签序列是(y_t,y_t+1,…,y_t+n-2)时，第t-n+1个词的标签是y_t+n-1的概率，p(y_t)由一阶神经网络模型得到，p(y_t+1|y_t)由二阶神经网络模型得到，之后的转移概率依次由三阶至n阶神经网络模型得到。

基于如上推演，最终的分解方式综合了不同阶模型下的标签信息，可根据公式进行层叠n阶模型的解码。同时，依据前面的剪枝策略，在层叠n阶模型完整序列联合概率近似分解后，从左至右计算每个局部联合概率p(y₁,y₂,…,y_n),…时，只考虑一阶模型进行预测标签剪枝后的标签组合。针对于具体标签组合，记录下条件概率p(y_t+n-1|y_t,y_t+1,…,y_t+n-2)所代表的转移前的具体标签组合(y_t,y_t+1,…,y_t+n-2)。最后一个局部联合概率p(y_T-n+1,y_T-n+2,…,y_T)计算结束后，得到了完整标注序列的近似联合概率。层叠n阶模型在完整标注序列的近似联合概率计算完成后，与层叠二阶模型解码过程类似，在最后一个标签组合代表的不同具体标签组合处有不同值，最大值对应的具体标签组合中代表第T个词的标签就是最后一个词的标签，从最大值对应的具体标签组合处开始反向追踪，由于记录了每个具体标签组合转移前的具体标签组合，便可获取它之前的具体标签组合，其中代表第T-1个词的标签就是倒数第二个词的标签，以此类推直到得到第一个词的标签，从而得到了整个标注序列。

本发明方法适用于所有利用循环神经网络及其变体训练的序列标注问题，训练阶段和解码阶段具有很高的扩展性，不受限于训练方法。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种可扩展的基于神经网络的序列标注方法，其步骤包括：

1)创建一层叠n阶模型，该层叠n阶模型的训练过程为：首先根据训练语料中各标注单元的标签生成多个标签集合，包括一阶至n阶n个标签集合；其中，一阶标签集合为各标注单元的标签构成的标签集合；标注单元i的标签与其邻近n-1个标注单元的标签合并在一起作为标注单元i的n阶标签，n阶标签集合为各标注单元的n阶标签构成的标签集合；然后利用得到的各阶标签集合分别训练神经网络，分别得到n个模型，即一阶神经网络模型至n阶神经网络模型；

2)利用该层叠n阶模型对给定的序列(x₁，x₂，…x_t，…x_T)进行标签预测，得到一标签序列(y₁，y₂，…y_t，…，y_T)；其中，y_t表示第t个标注单元x_t的标签。

2.如权利要求1所述的方法，其特征在于，优化标签序列(y₁，y₂，…y_t，…，y_T)，即最大化整个标签序列(y₁，y₂，…y_t，…，y_T)的联合概率p(y₁，y₂，…y_t，…，y_T)，得到最优的标注序列。

3.如权利要求2所述的方法，其特征在于，计算所述最大化整个标签序列(y₁，y₂，…y_t，…，y_T)的联合概率的方法为：对于每一阶神经网络模型，分别基于马尔科夫假设对该联合概率p(y₁，y₂，…y_t，…，y_T)进行分解，得到对应阶神经网络模型下的标签信息；其中，对于n阶神经网络模型，采用基于n阶马尔科夫假设的分解方式，即其中，p(y₁，y₂，…，y_n)代表标签序列从第1个位置到第n个位置的子序列(y₁，y₂，…，y_n)的局部联合概率，p(y_T-n+1，y_T-n+2，…，y_T)代表标签序列从第T-n+1个位置到第T个位置子序列的局部联合概率，t＝1，…，T-n+1；p(y_t)表示第t个标注单元x_t的预测标签的概率，由一阶神经网络模型输出得到；p(y_t+1|y_t)表示从第t个标签y_t到第t+1个标签y_t+1的转移概率，由二阶神经网络模型得到；p(y_t+n-1|y_t，y_t+1，…，y_t+n-2)表示当第t个词到第t+n-2个词的标签序列是(y_t，y_t+1，…，y_t+n-2)时，第t-n+1个词的标签是y_t+n-1的概率，由n阶神经网络模型得到；计算每一局部联合概率时，记录下条件概率所代表的转移前的具体标签组合，计算结束后，在最后一个标签组合代表的不同具体标签组合处有不同值，从最大值对应的具体标签组合处开始反向追踪，获取的标注序列作为所述最优的标注序列。

4.如权利要求1所述的方法，其特征在于，每一阶神经网络模型中每个标注单元保留概率最大的前k个标签及其概率。

5.如权利要求1所述的方法，其特征在于，一阶神经网络模型至n阶神经网络模型的模型结构均相同。

6.如权利要求1～5任一所述的方法，其特征在于，所述标注单元为词或字。