CN112883726A

CN112883726A - 基于音节切分和词切分联合学习的多任务泰语分词方法

Info

Publication number: CN112883726A
Application number: CN202110079486.2A
Authority: CN
Inventors: 线岩团; 王悦寒; 余正涛; 相艳; 毛存礼
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2021-06-01
Anticipated expiration: 2041-01-21
Also published as: CN112883726B

Abstract

本发明涉及基于音节切分和词切分联合学习的多任务泰语分词方法。本发明包括：预处理泰语文本数据集；使用窗口化的方式选择泰语字符特征和字符类别特征作为特征输入；之后利用注意力机制获得丰富的上下文特征；最后输出层使用线性变换和Sigmoid函数去预测当前序列中的音节序列标签和词序列标签。本发明采用多任务学习的方式，它能够同时学习同一个句子在音节切分和词切分的序列标签，用音节切分辅助词切分，以提高模型泛化能力。本发明在InterTEST2010数据集上有更高的准确性，与DeepCut泰语分词模型相比，系统运行速度至少提高了1.6倍，为后续的文本分类、信息检索和机器翻译提供了支撑。

Description

基于音节切分和词切分联合学习的多任务泰语分词方法

技术领域

本发明涉及基于音节切分和词切分联合学习的多任务泰语分词方法，属于自然语言处理领域。

背景技术

在自然语言处理中，泰语分词是文本分类、信息检索和机器翻译等下游任务的基础。主流的泰语分词方法将泰语分词视为基于字符的序列标注问题，其中为每个字符分配一个标签以表示其边界信息。

尽管已有的泰语分词模型取得了很好的进展，但它们考虑的字符信息少，分词准确率低等问题。Kittinaradorn等人针对以上问题提出了一种基于CNN的分词模型-DeepCut，该模型利用字符和字符类别嵌入作为特征输入，使用卷积核宽度为1-12的1d卷积层，进而使用最大池化(Max-pooling)提取来自卷积层特征，全连接层得出相应字符的标签概率，尽管该分词模型取得了较好的性能，但由于模型参数过多，导致分词速度慢。Pattarawat等人在DeepCut的基础上进行相关研究，分析了DeepCut模型缺陷，提出了AttaCut-C和AttaCut-SC泰语分词模型，两个模型在卷积层中都使用了扩张卷积，使分词模型具有较高的并行度。此外，在AttaCut-SC模型中的嵌入层融入泰语音节。相较于DeepCut，AttaCut-SC模型在速度上有很大的提升，但是分词性能有所下降。

发明内容

本发明提供了基于音节切分和词切分联合学习的多任务泰语分词方法，以用于对泰语文本句子分词，解决了由于模型提取的特征不够丰富，模型参数过多导致泰语分词性能较低和分词速度慢的问题。

发明技术方案：基于音节切分和词切分联合学习的多任务泰语分词方法，所述方法的具体步骤如下：

Step1、对从InterBEST2010的泰语语料库中获取的泰语文本进行预处理，为每一个字符匹配它对应的字符类别，给每个字符之间的边界按照音节和词结构特点打标签。

Step2、通过滑动窗口的方式从经过Step1预处理过的数据中依次得到包含21个字符信息的输入，利用字符嵌入和位置嵌入对泰语字符进行特征编码，将获得的字符表征和字符类别表征进行拼接得到新的表征，将表征输入Transformer的编码器模型，确定每个字符组成音节或词的概率。

所述步骤Step1的具体步骤为：

Step1.1、针对已经进行词切分的泰语语料，进行过滤筛选，删除泰语文本中的'<NE>'、'</NE>'、'<AB>'、'</AB>'这些字符，之后依次遍历泰语文本中的每一个字符，并为每一个字符匹配它对应的字符类别；

Step1.2、根据泰语文本中用“|”划分的词汇，结合字符在词汇中的位置信息，给每一个字符标注切分标识，一个泰语词汇中第一个字符，标注为1，其它位置的字符，标注为0；

Step1.3、调用PyThaiNLP中的syllable_tokenize方法对词汇进行音节切分，结合字符在音节中的位置信息，给每一个字符标注切分标识，一个泰语音节中第一个字符，标注为1，其它位置的字符，标注为0；

Step1.4、以DataFrame的数据结构形式对Step1.1、Step1.2和Step1.3中得到的字符、字符类别、组成词的字符标识和组成音节的字符标识信息进行存储；

作为本发明的优选方案，所述步骤Step2的具体步骤如下：

Step2.1、通过滑动窗口的方式从预处理过的数据中依次得到包含21个字符信息的输入，每个训练样本S＝{c_i-10,...,c_i-2,c_i-1,c_i,c_i+1,c_i+2,...,c_i+10}，包含待标注字符c_i、上下文中的前10个字符(c_i-10,...,c_i-2,c_i-1)和后10个字符(c_i+1,c_i+2,...,c_i+10)。同理，字符类别也采用同样的方式依次得到包含21个字符类别信息的输入。对每一个泰语字符和字符类别进行编码，得到对应的字符嵌入

和字符类别嵌入

将字符嵌入和字符类别嵌入进行拼接得到的嵌入为

采用位置编码方式对得到的嵌入进行编码，得到具有位置信息的词向量PE_i：

其中t是指当前字符在句子中的位置，i是指向量中每个值的索引，在偶数位置，使用正弦编码，在奇数位置，使用余弦编码。

最后把位置编码PE_i与字符和字符类别嵌入拼接得到的编码

的值相加，作为输入送到下一层。这个序列S＝{c_i-10,...,c_i-2,c_i-1,c_i,c_i+1,c_i+2,...,c_i+10}的嵌入矩阵为：

其中

和d_model分别表示输入序列向量的长度和维度。

Step2.2、本发明的编码层使用Transformer的编码器，采用2个多头自我注意力层去抽取每一个字符的上下文特征。假设给定一个序列的向量

一个单头自我注意力将H投影到三个不同的矩阵：Q矩阵为

K矩阵为

V矩阵为

然后使用缩放的点积注意力来获取输出表示。

Q,K,V＝HW^Q，HW^K,HW^V (4)

其中矩阵

是可学习的参数，softmax使比例值归一化，d_k表示K矩阵的维度，d_v表示V矩阵的维度；；

Step2.3、Transformer编码器由2个堆叠的多头自我注意力层和全连接层组成。每个多头自我注意力层包括24个头，每一头的特征维度为16。假设多头自我注意力层的输入为H，则其输出

可以通过下面的公式计算；

E＝layer-norm(H+MultiHead(H)) (6)

其中layer-norm(·)的表示归一化层，FFN表示Feed Forward Network层，两个线性变换和ReLU函数实现。

Step2.4、为了得到输入的每个字符在音节和词汇中的位置信息，用音节切分去辅助词切分。先按照第一个任务音节切分对得到的结果进行线性变换，h表示针对音节的线性变换后得到的一个隐状态张量；

最后进行Sigmoid激活，用于预测序列中每个字符的标识符为(1，0)的概率p。同理，词切分进行线性变换和激活；

p＝Sigmoid(W₂*h+b₂) (9)

其中*表示拼接操作，W₁和W₂是可学习的权重，b₁和b₂是偏置参数。

Step2.5、根据训练语料本发明可以得到训练样本的输出词序列p_word＝{p₁，p₂，...,p_i}和音节序列p_syl＝{p₁,p₂,...，p_j}，本发明选择二值交叉熵BCELoss(BinaryCrossEntropyLoss)损失作为损失函数，计算公式如下：

loss_syl＝BCELoss(y_syl，p_syl) (10)

loss_word＝BCELoss(y_word，p_word) (11)

total_loss＝λ×loss_syl+loss_word (13)

其中，n表示字符个数，y_syl是音节切分的真实标签，y_word是词切分的真实标签，y_true表示泰语字符真实的序列标签，y_pre表示模型预测出来的字符序列标签，λ是可调节的参数，本发明采用3个λ值进行对比，分别为0.5、0.8和1。

Step2.6、最后选择Adam优化器，它收敛速度较快且收敛过程较稳定，能基于训练数据迭代地更新神经网络权重。学习率(步长)设置为0.001，决定了在梯度下降迭代的过程中，每一步沿梯度负方向前进的长度。步长太小，收敛慢，步长太大，会远离最优解。所以从小到大，分别测试，选出一个最优解0.001。

本发明的有益效果是：

(1)由于泰语字符分为元音字符V、辅音字符C、声调字符T及一些标志字符等，有的辅音字符不能出现在音节的结束位置，而有的元音字符不能出现在音节的首位置，所以本发明使用字符特征和12种音节切分的字符类别和位置特征作为特征输入，能够更有效的学习字符特征和字符类别特征信息，减少字符序列标记错误对泰语分词结果的影响，更有助于分词。

(2)根据泰语字符构成音节，音节构成词，词汇包括单音节词、双音节词和多音节词的语言结构特点，本发明采用多任务学习的方式，它能够同时学习同一个句子在音节切分和词切分的序列标签，用音节切分辅助词切分，解决由单音节词构成双音节或者多音节词的歧义问题，有效利用更多的上下文信息或特征，也能有效利用泰语字符、音节和词之间的组合特征，提高模型泛化能力，分词准确率。

(3)使用Transformer的编码器结构的多头注意力(Multi-Head attention)能够捕获更加丰富的字符特征和字符类别特征，具有很好的并行性，分词速度有很大的提升。

附图说明

图1是本发明提出的音节切分和词切分联合学习的多任务泰语分词方法的具体结构示意图。

具体实施方式

实施例1：如图1所示，基于音节切分和词切分联合学习的多任务泰语分词方法，所述方法的具体步骤如下：

Step1、对从InterBEST2010的泰语语料库中获取的泰语文本进行预处理，为每一个字符匹配它对应的字符类别，给每个字符之间的边界按照音节和词结构特点打标签；

Step1.1、针对已经进行词切分的泰语语料，进行过滤筛选，删除泰语文本中的'<NE>'、'</NE>'、'<AB>'、'</AB>'这些字符，之后依次遍历泰语文本中的每一个字符，并为每一个字符匹配它对应的字符类别，字符类别信息如表1所示：

表1泰语字符类别特征

Step1.3、调用PyThaiNLP中的syllable_tokenize方法对词汇进行音节切分，结合字符在音节中的位置信息，给每一个字符标注切分标识，一个泰语音节中第一个字符，标注为1，其它位置的字符，标注为0；训练集、验证集和测试集的统计信息如表2所示，训练和验证语料的统计单位为M，测试语料的统计单位为K：

表2实验语料

Step2.1、通过滑动窗口的方式从预处理过的数据中依次得到包含21个字符信息的输入，每个训练样本S＝{c_i-10,...,c_i-2,c_i-1,c_i,c_i+1,c_i+2,...,c_i+10}，包含待标注字符c_i、上下文中的前10个字符(c_i-10,...，c_i-2，c_i-1)和后10个字符(c_i+1，c_i+2，...，c_i+10)。同理，字符类别也采用同样的方式依次得到包含21个字符类别信息的输入。对每一个泰语字符和字符类别进行编码，得到对应的字符嵌入

和字符类别嵌入

将字符嵌入和字符类别嵌入进行拼接得到的嵌入为

最后把位置编码PE_i与字符和字符类别嵌入拼接得到的编码

的值相加，作为输入送到下一层。这个序列S＝{c_i-10，...，c_i-2，c_i-1，c_i，c_i+1，c_i+2，...,c_i+10}的嵌入矩阵为：

其中

和d_model分别表示输入序列向量的长度和维度。

一个单头自我注意力将H投影到三个不同的矩阵：Q矩阵为

K矩阵为

V矩阵为

然后使用缩放的点积注意力来获取输出表示。

Q,K,V＝HW^Q,HW^K,HW^V (4)

其中矩阵

是可学习的参数，softmax使比例值归一化，d_k表示K矩阵的维度，d_v表示V矩阵的维度；

可以通过下面的公式计算；

E＝layer-norm(H+MultiHead(H)) (6)

Step2.4、为了得到输入的每个字符在音节和词汇中的位置信息，然后按照第一个任务音节切分对得到的结果进行线性变换；h表示针对音节的线性变换后得到的一个隐状态张量；

p＝Sigmoid(W₂*h+b₂) (9)

Step2.5、根据训练语料本发明可以得到训练样本的输出为词序列p_word＝{p₁，p₂,...,p_i}和音节序列p_syl＝{p₁,p₂,...,p_j}，本发明选择二值交叉熵BCELoss(BinaryCrossEntropyLoss)损失作为损失函数，计算公式如下：

loss_syl＝BCELoss(y_syl,p_syl) (10)

loss_word＝BCELoss(y_word,p_word) (11)

total_loss＝λ×loss_syl+loss_word (13)

其中，n表示字符个数，y_syl是音节切分的真实标签，y_word是词切分的真实标签，y_true表示泰语字符真实的序列标签，y_pre表示模型预测出来的字符序列标签，λ是可调节的参数，本发明使用的λ值为0.5。

为了说明本发明的效果，设置了2组对比实验。第一组实验验证泰语分词性能的提升，另一组实验验证泰语分词速度的提升。

(1)泰语分词性能提升验证

在基准模型中分别将泰语字符和字符类别特征输入到模型中，然后将二者特征相拼接，经过多头注意力去提取丰富的上下文特征，最后进行音节中的字符分类和词中的字符分类，用音节切分去辅助词切分。实验结果如表3所示。

表3泰语分词方法性能对比

分析表3可知，本发明方法的P、R和F1值均高于其它所有方法，说明：本发明方法结构中的自我注意力机制可以捕捉到更丰富的特征信息；词切分和音节切分的多任务学习，隐含的做了一个数据和参数共享，提升了各自任务的泛化能力，对于泰语分词性能提高是有效的。且本发明方法和AttaCut-SC方法的P、R和F1值都高于AttaCut-C，说明：神经网络模型在处理泰语分词时,音节特征对于泰语分词性能提升也是有效的。

(2)泰语分词速度提升验证

本发明针对表2中的训练数据和测试数据对模型DeepCut和本文模型的速度进行了测试，测试结果如表4所示：

表4分词速度对比

分析表4可知，融合字符和字符类别的音节切分和词切分联合学习的多任务模型在泰语分词任务上，速度比DeppCut有所提升，是DeepCut的1.57倍。通过分析结果发现，DeepCut速度慢的原因主要是：它的内核宽度是从1到12的1d卷积层，它的大多数参数都集中在卷积层，并且通过研究发现，DeepCut宽度为7、9和10的卷积层，并没有起到特别大的作用，也就是说DeepCut中部分卷积层是冗余的，正是这些提高了模型的计算成本。而本发明方法的模型，虽然模型结构比较深，但是不像DeepCut有那么多内核宽度的卷积层，相比CNN，计算两个位置之间的关联所需的操作次数不随距离增长；同时突破了RNN模型不能并行计算的限制；并且本发明方法的模型的多头注意力(Multi-Head attention)具有很好的并行性，所以速度有较大的提升。

通过以上实验数据证明了本发明使用字符特征和12种音节切分的字符类别和位置特征作为特征输入，能够更有效的学习字符特征和字符类别特征信息，减少字符序列标记错误对泰语分词结果的影响。通过利用泰语字符构成音节，音节构成词的结构特点，采用音节切分辅助词切分的多任务分词方法，学习同一个句子在不同的任务中的序列标签，解决由单音节词构成双音节或者多音节词的歧义问题，有效利用更多的上下文信息或特征，也能有效利用泰语字符、音节和词之间的组合特征。实验表明本发明的方法相比多个基线模型取得了最优的效果。针对泰语分词任务，本发明提出的一种利用音节切分和词切分联合学习的多任务分词方法对泰语分词性能提升和分词速度提升是有效的。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于音节切分和词切分联合学习的多任务泰语分词方法，其特征在于：所述方法的具体步骤如下：

Step1、对泰语语料库中获取的泰语文本进行预处理，为每一个字符匹配它对应的字符类别，给每个字符之间的边界按照音节和词结构特点打标签；

Step2、通过滑动窗口的方式从经过Step1预处理过的数据中依次得到包含若干个字符信息的输入，利用字符嵌入和位置嵌入对泰语字符进行特征编码，将获得的字符表征和字符类别表征进行拼接得到新的表征，将表征输入Transformer的编码器模型，确定每个字符组成音节或词的概率。

2.根据权利要求1所述的基于音节切分和词切分联合学习的多任务泰语分词方法，其特征在于：所述步骤Step1的具体步骤为：

Step1.1、针对已经进行词切分的泰语语料，进行过滤筛选，删除泰语文本中的'<NE>'、'</NE>'、'<AB>'、'</AB>'字符，之后依次遍历泰语文本中的每一个字符，并为每一个字符匹配它对应的字符类别；

Step1.4、以DataFrame的数据结构形式对得到的字符、字符类别、组成词的字符标识和组成音节的字符标识信息进行存储。

3.根据权利要求1所述的基于音节切分和词切分联合学习的多任务泰语分词方法，其特征在于：所述步骤Step2的具体步骤如下：

Step2.1、通过滑动窗口的方式从预处理过的数据中依次得到包含n个字符信息的输入，每个训练样本S＝{c_i-(n-1)/2,...,c_i-2,c_i-1,c_i,c_i+1,c_i+2,...,c_i+(n-1)/2}，包含待标注字符c_i、上下文中的前(n-1)/2个字符(c_i-(n-1)/2,...,c_i-2,c_i-1)和后(n-1)/2个字符(c_i+1,c_i+2,...,c_i+(n-1)/2)；同理，字符类别也采用同样的方式依次得到包含n个字符类别信息的输入；对每一个泰语字符和字符类别进行编码，得到对应的字符嵌入