CN112883726A - 基于音节切分和词切分联合学习的多任务泰语分词方法 - Google Patents

基于音节切分和词切分联合学习的多任务泰语分词方法 Download PDF

Info

Publication number
CN112883726A
CN112883726A CN202110079486.2A CN202110079486A CN112883726A CN 112883726 A CN112883726 A CN 112883726A CN 202110079486 A CN202110079486 A CN 202110079486A CN 112883726 A CN112883726 A CN 112883726A
Authority
CN
China
Prior art keywords
character
thai
word
segmentation
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110079486.2A
Other languages
English (en)
Other versions
CN112883726B (zh
Inventor
线岩团
王悦寒
余正涛
相艳
毛存礼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202110079486.2A priority Critical patent/CN112883726B/zh
Publication of CN112883726A publication Critical patent/CN112883726A/zh
Application granted granted Critical
Publication of CN112883726B publication Critical patent/CN112883726B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明涉及基于音节切分和词切分联合学习的多任务泰语分词方法。本发明包括:预处理泰语文本数据集;使用窗口化的方式选择泰语字符特征和字符类别特征作为特征输入;之后利用注意力机制获得丰富的上下文特征;最后输出层使用线性变换和Sigmoid函数去预测当前序列中的音节序列标签和词序列标签。本发明采用多任务学习的方式,它能够同时学习同一个句子在音节切分和词切分的序列标签,用音节切分辅助词切分,以提高模型泛化能力。本发明在InterTEST2010数据集上有更高的准确性,与DeepCut泰语分词模型相比,系统运行速度至少提高了1.6倍,为后续的文本分类、信息检索和机器翻译提供了支撑。

Description

基于音节切分和词切分联合学习的多任务泰语分词方法
技术领域
本发明涉及基于音节切分和词切分联合学习的多任务泰语分词方法,属于自然语言处理领域。
背景技术
在自然语言处理中,泰语分词是文本分类、信息检索和机器翻译等下游任务的基础。主流的泰语分词方法将泰语分词视为基于字符的序列标注问题,其中为每个字符分配一个标签以表示其边界信息。
尽管已有的泰语分词模型取得了很好的进展,但它们考虑的字符信息少,分词准确率低等问题。Kittinaradorn等人针对以上问题提出了一种基于CNN的分词模型-DeepCut,该模型利用字符和字符类别嵌入作为特征输入,使用卷积核宽度为1-12的1d卷积层,进而使用最大池化(Max-pooling)提取来自卷积层特征,全连接层得出相应字符的标签概率,尽管该分词模型取得了较好的性能,但由于模型参数过多,导致分词速度慢。Pattarawat等人在DeepCut的基础上进行相关研究,分析了DeepCut模型缺陷,提出了AttaCut-C和AttaCut-SC泰语分词模型,两个模型在卷积层中都使用了扩张卷积,使分词模型具有较高的并行度。此外,在AttaCut-SC模型中的嵌入层融入泰语音节。相较于DeepCut,AttaCut-SC模型在速度上有很大的提升,但是分词性能有所下降。
发明内容
本发明提供了基于音节切分和词切分联合学习的多任务泰语分词方法,以用于对泰语文本句子分词,解决了由于模型提取的特征不够丰富,模型参数过多导致泰语分词性能较低和分词速度慢的问题。
发明技术方案:基于音节切分和词切分联合学习的多任务泰语分词方法,所述方法的具体步骤如下:
Step1、对从InterBEST2010的泰语语料库中获取的泰语文本进行预处理,为每一个字符匹配它对应的字符类别,给每个字符之间的边界按照音节和词结构特点打标签。
Step2、通过滑动窗口的方式从经过Step1预处理过的数据中依次得到包含21个字符信息的输入,利用字符嵌入和位置嵌入对泰语字符进行特征编码,将获得的字符表征和字符类别表征进行拼接得到新的表征,将表征输入Transformer的编码器模型,确定每个字符组成音节或词的概率。
所述步骤Step1的具体步骤为:
Step1.1、针对已经进行词切分的泰语语料,进行过滤筛选,删除泰语文本中的'<NE>'、'</NE>'、'<AB>'、'</AB>'这些字符,之后依次遍历泰语文本中的每一个字符,并为每一个字符匹配它对应的字符类别;
Step1.2、根据泰语文本中用“|”划分的词汇,结合字符在词汇中的位置信息,给每一个字符标注切分标识,一个泰语词汇中第一个字符,标注为1,其它位置的字符,标注为0;
Step1.3、调用PyThaiNLP中的syllable_tokenize方法对词汇进行音节切分,结合字符在音节中的位置信息,给每一个字符标注切分标识,一个泰语音节中第一个字符,标注为1,其它位置的字符,标注为0;
Step1.4、以DataFrame的数据结构形式对Step1.1、Step1.2和Step1.3中得到的字符、字符类别、组成词的字符标识和组成音节的字符标识信息进行存储;
作为本发明的优选方案,所述步骤Step2的具体步骤如下:
Step2.1、通过滑动窗口的方式从预处理过的数据中依次得到包含21个字符信息的输入,每个训练样本S={ci-10,...,ci-2,ci-1,ci,ci+1,ci+2,...,ci+10},包含待标注字符ci、上下文中的前10个字符(ci-10,...,ci-2,ci-1)和后10个字符(ci+1,ci+2,...,ci+10)。同理,字符类别也采用同样的方式依次得到包含21个字符类别信息的输入。对每一个泰语字符和字符类别进行编码,得到对应的字符嵌入
Figure BDA0002908589180000021
和字符类别嵌入
Figure BDA0002908589180000022
将字符嵌入和字符类别嵌入进行拼接得到的嵌入为
Figure BDA0002908589180000023
采用位置编码方式对得到的嵌入进行编码,得到具有位置信息的词向量PEi
Figure BDA0002908589180000024
Figure BDA0002908589180000025
其中t是指当前字符在句子中的位置,i是指向量中每个值的索引,在偶数位置,使用正弦编码,在奇数位置,使用余弦编码。
最后把位置编码PEi与字符和字符类别嵌入拼接得到的编码
Figure BDA0002908589180000026
的值相加,作为输入送到下一层。这个序列S={ci-10,...,ci-2,ci-1,ci,ci+1,ci+2,...,ci+10}的嵌入矩阵为:
Figure BDA0002908589180000027
其中
Figure BDA0002908589180000028
和dmodel分别表示输入序列向量的长度和维度。
Step2.2、本发明的编码层使用Transformer的编码器,采用2个多头自我注意力层去抽取每一个字符的上下文特征。假设给定一个序列的向量
Figure BDA0002908589180000029
一个单头自我注意力将H投影到三个不同的矩阵:Q矩阵为
Figure BDA00029085891800000210
K矩阵为
Figure BDA00029085891800000211
V矩阵为
Figure BDA00029085891800000212
然后使用缩放的点积注意力来获取输出表示。
Q,K,V=HWQ,HWK,HWV (4)
Figure BDA0002908589180000031
其中矩阵
Figure BDA0002908589180000032
是可学习的参数,softmax使比例值归一化,dk表示K矩阵的维度,dv表示V矩阵的维度;;
Step2.3、Transformer编码器由2个堆叠的多头自我注意力层和全连接层组成。每个多头自我注意力层包括24个头,每一头的特征维度为16。假设多头自我注意力层的输入为H,则其输出
Figure BDA0002908589180000036
可以通过下面的公式计算;
E=layer-norm(H+MultiHead(H)) (6)
Figure BDA0002908589180000033
其中layer-norm(·)的表示归一化层,FFN表示Feed Forward Network层,两个线性变换和ReLU函数实现。
Step2.4、为了得到输入的每个字符在音节和词汇中的位置信息,用音节切分去辅助词切分。先按照第一个任务音节切分对得到的结果进行线性变换,h表示针对音节的线性变换后得到的一个隐状态张量;
Figure BDA0002908589180000034
最后进行Sigmoid激活,用于预测序列中每个字符的标识符为(1,0)的概率p。同理,词切分进行线性变换和激活;
p=Sigmoid(W2*h+b2) (9)
其中*表示拼接操作,W1和W2是可学习的权重,b1和b2是偏置参数。
Step2.5、根据训练语料本发明可以得到训练样本的输出词序列pword={p1,p2,...,pi}和音节序列psyl={p1,p2,...,pj},本发明选择二值交叉熵BCELoss(BinaryCrossEntropyLoss)损失作为损失函数,计算公式如下:
losssyl=BCELoss(ysyl,psyl) (10)
lossword=BCELoss(yword,pword) (11)
Figure BDA0002908589180000035
total_loss=λ×losssyl+lossword (13)
其中,n表示字符个数,ysyl是音节切分的真实标签,yword是词切分的真实标签,ytrue表示泰语字符真实的序列标签,ypre表示模型预测出来的字符序列标签,λ是可调节的参数,本发明采用3个λ值进行对比,分别为0.5、0.8和1。
Step2.6、最后选择Adam优化器,它收敛速度较快且收敛过程较稳定,能基于训练数据迭代地更新神经网络权重。学习率(步长)设置为0.001,决定了在梯度下降迭代的过程中,每一步沿梯度负方向前进的长度。步长太小,收敛慢,步长太大,会远离最优解。所以从小到大,分别测试,选出一个最优解0.001。
本发明的有益效果是:
(1)由于泰语字符分为元音字符V、辅音字符C、声调字符T及一些标志字符等,有的辅音字符不能出现在音节的结束位置,而有的元音字符不能出现在音节的首位置,所以本发明使用字符特征和12种音节切分的字符类别和位置特征作为特征输入,能够更有效的学习字符特征和字符类别特征信息,减少字符序列标记错误对泰语分词结果的影响,更有助于分词。
(2)根据泰语字符构成音节,音节构成词,词汇包括单音节词、双音节词和多音节词的语言结构特点,本发明采用多任务学习的方式,它能够同时学习同一个句子在音节切分和词切分的序列标签,用音节切分辅助词切分,解决由单音节词构成双音节或者多音节词的歧义问题,有效利用更多的上下文信息或特征,也能有效利用泰语字符、音节和词之间的组合特征,提高模型泛化能力,分词准确率。
(3)使用Transformer的编码器结构的多头注意力(Multi-Head attention)能够捕获更加丰富的字符特征和字符类别特征,具有很好的并行性,分词速度有很大的提升。
附图说明
图1是本发明提出的音节切分和词切分联合学习的多任务泰语分词方法的具体结构示意图。
具体实施方式
实施例1:如图1所示,基于音节切分和词切分联合学习的多任务泰语分词方法,所述方法的具体步骤如下:
Step1、对从InterBEST2010的泰语语料库中获取的泰语文本进行预处理,为每一个字符匹配它对应的字符类别,给每个字符之间的边界按照音节和词结构特点打标签;
Step1.1、针对已经进行词切分的泰语语料,进行过滤筛选,删除泰语文本中的'<NE>'、'</NE>'、'<AB>'、'</AB>'这些字符,之后依次遍历泰语文本中的每一个字符,并为每一个字符匹配它对应的字符类别,字符类别信息如表1所示:
表1泰语字符类别特征
Figure BDA0002908589180000041
Figure BDA0002908589180000051
Step1.2、根据泰语文本中用“|”划分的词汇,结合字符在词汇中的位置信息,给每一个字符标注切分标识,一个泰语词汇中第一个字符,标注为1,其它位置的字符,标注为0;
Step1.3、调用PyThaiNLP中的syllable_tokenize方法对词汇进行音节切分,结合字符在音节中的位置信息,给每一个字符标注切分标识,一个泰语音节中第一个字符,标注为1,其它位置的字符,标注为0;训练集、验证集和测试集的统计信息如表2所示,训练和验证语料的统计单位为M,测试语料的统计单位为K:
表2实验语料
Figure BDA0002908589180000052
Step1.4、以DataFrame的数据结构形式对Step1.1、Step1.2和Step1.3中得到的字符、字符类别、组成词的字符标识和组成音节的字符标识信息进行存储;
Step2、通过滑动窗口的方式从经过Step1预处理过的数据中依次得到包含21个字符信息的输入,利用字符嵌入和位置嵌入对泰语字符进行特征编码,将获得的字符表征和字符类别表征进行拼接得到新的表征,将表征输入Transformer的编码器模型,确定每个字符组成音节或词的概率。
Step2.1、通过滑动窗口的方式从预处理过的数据中依次得到包含21个字符信息的输入,每个训练样本S={ci-10,...,ci-2,ci-1,ci,ci+1,ci+2,...,ci+10},包含待标注字符ci、上下文中的前10个字符(ci-10,...,ci-2,ci-1)和后10个字符(ci+1,ci+2,...,ci+10)。同理,字符类别也采用同样的方式依次得到包含21个字符类别信息的输入。对每一个泰语字符和字符类别进行编码,得到对应的字符嵌入
Figure BDA0002908589180000053
和字符类别嵌入
Figure BDA0002908589180000054
将字符嵌入和字符类别嵌入进行拼接得到的嵌入为
Figure BDA0002908589180000055
采用位置编码方式对得到的嵌入进行编码,得到具有位置信息的词向量PEi
Figure BDA0002908589180000056
Figure BDA0002908589180000057
其中t是指当前字符在句子中的位置,i是指向量中每个值的索引,在偶数位置,使用正弦编码,在奇数位置,使用余弦编码。
最后把位置编码PEi与字符和字符类别嵌入拼接得到的编码
Figure BDA0002908589180000061
的值相加,作为输入送到下一层。这个序列S={ci-10,...,ci-2,ci-1,ci,ci+1,ci+2,...,ci+10}的嵌入矩阵为:
Figure BDA0002908589180000062
其中
Figure BDA0002908589180000063
和dmodel分别表示输入序列向量的长度和维度。
Step2.2、本发明的编码层使用Transformer的编码器,采用2个多头自我注意力层去抽取每一个字符的上下文特征。假设给定一个序列的向量
Figure BDA0002908589180000064
一个单头自我注意力将H投影到三个不同的矩阵:Q矩阵为
Figure BDA0002908589180000065
K矩阵为
Figure BDA0002908589180000066
V矩阵为
Figure BDA0002908589180000067
然后使用缩放的点积注意力来获取输出表示。
Q,K,V=HWQ,HWK,HWV (4)
Figure BDA0002908589180000068
其中矩阵
Figure BDA0002908589180000069
是可学习的参数,softmax使比例值归一化,dk表示K矩阵的维度,dv表示V矩阵的维度;
Step2.3、Transformer编码器由2个堆叠的多头自我注意力层和全连接层组成。每个多头自我注意力层包括24个头,每一头的特征维度为16。假设多头自我注意力层的输入为H,则其输出
Figure BDA00029085891800000610
可以通过下面的公式计算;
E=layer-norm(H+MultiHead(H)) (6)
Figure BDA00029085891800000611
其中layer-norm(·)的表示归一化层,FFN表示Feed Forward Network层,两个线性变换和ReLU函数实现。
Step2.4、为了得到输入的每个字符在音节和词汇中的位置信息,然后按照第一个任务音节切分对得到的结果进行线性变换;h表示针对音节的线性变换后得到的一个隐状态张量;
Figure BDA00029085891800000612
最后进行Sigmoid激活,用于预测序列中每个字符的标识符为(1,0)的概率p。同理,词切分进行线性变换和激活;
p=Sigmoid(W2*h+b2) (9)
其中*表示拼接操作,W1和W2是可学习的权重,b1和b2是偏置参数。
Step2.5、根据训练语料本发明可以得到训练样本的输出为词序列pword={p1,p2,...,pi}和音节序列psyl={p1,p2,...,pj},本发明选择二值交叉熵BCELoss(BinaryCrossEntropyLoss)损失作为损失函数,计算公式如下:
losssyl=BCELoss(ysyl,psyl) (10)
lossword=BCELoss(yword,pword) (11)
Figure BDA0002908589180000071
total_loss=λ×losssyl+lossword (13)
其中,n表示字符个数,ysyl是音节切分的真实标签,yword是词切分的真实标签,ytrue表示泰语字符真实的序列标签,ypre表示模型预测出来的字符序列标签,λ是可调节的参数,本发明使用的λ值为0.5。
Step2.6、最后选择Adam优化器,它收敛速度较快且收敛过程较稳定,能基于训练数据迭代地更新神经网络权重。学习率(步长)设置为0.001,决定了在梯度下降迭代的过程中,每一步沿梯度负方向前进的长度。步长太小,收敛慢,步长太大,会远离最优解。所以从小到大,分别测试,选出一个最优解0.001。
为了说明本发明的效果,设置了2组对比实验。第一组实验验证泰语分词性能的提升,另一组实验验证泰语分词速度的提升。
(1)泰语分词性能提升验证
在基准模型中分别将泰语字符和字符类别特征输入到模型中,然后将二者特征相拼接,经过多头注意力去提取丰富的上下文特征,最后进行音节中的字符分类和词中的字符分类,用音节切分去辅助词切分。实验结果如表3所示。
表3泰语分词方法性能对比
Figure BDA0002908589180000072
分析表3可知,本发明方法的P、R和F1值均高于其它所有方法,说明:本发明方法结构中的自我注意力机制可以捕捉到更丰富的特征信息;词切分和音节切分的多任务学习,隐含的做了一个数据和参数共享,提升了各自任务的泛化能力,对于泰语分词性能提高是有效的。且本发明方法和AttaCut-SC方法的P、R和F1值都高于AttaCut-C,说明:神经网络模型在处理泰语分词时,音节特征对于泰语分词性能提升也是有效的。
(2)泰语分词速度提升验证
本发明针对表2中的训练数据和测试数据对模型DeepCut和本文模型的速度进行了测试,测试结果如表4所示:
表4分词速度对比
Figure BDA0002908589180000081
分析表4可知,融合字符和字符类别的音节切分和词切分联合学习的多任务模型在泰语分词任务上,速度比DeppCut有所提升,是DeepCut的1.57倍。通过分析结果发现,DeepCut速度慢的原因主要是:它的内核宽度是从1到12的1d卷积层,它的大多数参数都集中在卷积层,并且通过研究发现,DeepCut宽度为7、9和10的卷积层,并没有起到特别大的作用,也就是说DeepCut中部分卷积层是冗余的,正是这些提高了模型的计算成本。而本发明方法的模型,虽然模型结构比较深,但是不像DeepCut有那么多内核宽度的卷积层,相比CNN,计算两个位置之间的关联所需的操作次数不随距离增长;同时突破了RNN模型不能并行计算的限制;并且本发明方法的模型的多头注意力(Multi-Head attention)具有很好的并行性,所以速度有较大的提升。
通过以上实验数据证明了本发明使用字符特征和12种音节切分的字符类别和位置特征作为特征输入,能够更有效的学习字符特征和字符类别特征信息,减少字符序列标记错误对泰语分词结果的影响。通过利用泰语字符构成音节,音节构成词的结构特点,采用音节切分辅助词切分的多任务分词方法,学习同一个句子在不同的任务中的序列标签,解决由单音节词构成双音节或者多音节词的歧义问题,有效利用更多的上下文信息或特征,也能有效利用泰语字符、音节和词之间的组合特征。实验表明本发明的方法相比多个基线模型取得了最优的效果。针对泰语分词任务,本发明提出的一种利用音节切分和词切分联合学习的多任务分词方法对泰语分词性能提升和分词速度提升是有效的。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (3)

1.基于音节切分和词切分联合学习的多任务泰语分词方法,其特征在于:所述方法的具体步骤如下:
Step1、对泰语语料库中获取的泰语文本进行预处理,为每一个字符匹配它对应的字符类别,给每个字符之间的边界按照音节和词结构特点打标签;
Step2、通过滑动窗口的方式从经过Step1预处理过的数据中依次得到包含若干个字符信息的输入,利用字符嵌入和位置嵌入对泰语字符进行特征编码,将获得的字符表征和字符类别表征进行拼接得到新的表征,将表征输入Transformer的编码器模型,确定每个字符组成音节或词的概率。
2.根据权利要求1所述的基于音节切分和词切分联合学习的多任务泰语分词方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、针对已经进行词切分的泰语语料,进行过滤筛选,删除泰语文本中的'<NE>'、'</NE>'、'<AB>'、'</AB>'字符,之后依次遍历泰语文本中的每一个字符,并为每一个字符匹配它对应的字符类别;
Step1.2、根据泰语文本中用“|”划分的词汇,结合字符在词汇中的位置信息,给每一个字符标注切分标识,一个泰语词汇中第一个字符,标注为1,其它位置的字符,标注为0;
Step1.3、调用PyThaiNLP中的syllable_tokenize方法对词汇进行音节切分,结合字符在音节中的位置信息,给每一个字符标注切分标识,一个泰语音节中第一个字符,标注为1,其它位置的字符,标注为0;
Step1.4、以DataFrame的数据结构形式对得到的字符、字符类别、组成词的字符标识和组成音节的字符标识信息进行存储。
3.根据权利要求1所述的基于音节切分和词切分联合学习的多任务泰语分词方法,其特征在于:所述步骤Step2的具体步骤如下:
Step2.1、通过滑动窗口的方式从预处理过的数据中依次得到包含n个字符信息的输入,每个训练样本S={ci-(n-1)/2,...,ci-2,ci-1,ci,ci+1,ci+2,...,ci+(n-1)/2},包含待标注字符ci、上下文中的前(n-1)/2个字符(ci-(n-1)/2,...,ci-2,ci-1)和后(n-1)/2个字符(ci+1,ci+2,...,ci+(n-1)/2);同理,字符类别也采用同样的方式依次得到包含n个字符类别信息的输入;对每一个泰语字符和字符类别进行编码,得到对应的字符嵌入
Figure FDA0002908589170000011
和字符类别嵌入
Figure FDA0002908589170000012
将字符嵌入和字符类别嵌入进行拼接得到的嵌入为
Figure FDA0002908589170000013
采用位置编码方式对得到的嵌入进行编码,得到具有位置信息的词向量PEi
Figure FDA0002908589170000021
Figure FDA0002908589170000022
其中t是指当前字符在句子中的位置,i是指向量中每个值的索引,在偶数位置,使用正弦编码,在奇数位置,使用余弦编码;
最后把位置编码PEi与字符和字符类别嵌入拼接得到的编码
Figure FDA00029085891700000214
的值相加,作为输入送到下一层;这个序列S={c1,c2,...,ci,...,cn}的嵌入矩阵为:
Figure FDA0002908589170000023
其中
Figure FDA0002908589170000024
n和dmodel分别表示输入序列向量的长度和维度;
Step2.2、编码层使用Transformer的编码器,采用多个多头自我注意力层去抽取每一个字符的上下文特征;假设给定一个序列的向量
Figure FDA0002908589170000025
一个单头自我注意力将H投影到三个不同的矩阵:Q矩阵为
Figure FDA0002908589170000026
K矩阵为
Figure FDA0002908589170000027
V矩阵为
Figure FDA0002908589170000028
然后使用缩放的点积注意力来获取输出表示;
Q,K,V=HWQ,HWK,HWV (4)
Figure FDA0002908589170000029
其中矩阵
Figure FDA00029085891700000210
是可学习的参数,softmax使比例值归一化,dk表示K矩阵的维度,dv表示V矩阵的维度;
Step2.3、Transformer编码器由一些堆叠的多头自我注意力层和全连接层组成;假设多头自我注意力层的输入为H,则其输出
Figure FDA00029085891700000211
可以通过下面的公式计算;
E=layer-norm(H+MultiHead(H)) (6)
Figure FDA00029085891700000212
其中layer-norm(·)的表示归一化层,FFN表示Feed Forward Network层,两个线性变换和ReLU函数实现;
Step2.4、为了得到输入的每个字符在音节和词汇中的位置信息,用音节切分去辅助词切分;先按照第一个任务音节切分对得到的结果进行线性变换,h表示针对音节的线性变换后得到的一个隐状态张量;
Figure FDA00029085891700000213
最后进行Sigmoid激活,用于预测序列中每个字符的标识符为(1,0)的概率p;同理,词切分进行线性变换和激活;
p=Sigmoid(W2*h+b2) (9)
其中*表示拼接操作,W1和W2是可学习的权重,b1和b2是偏置参数;
Step2.5、根据训练语料可以得到训练样本的输出词序列pword={p1,p2,...,pi}和音节序列psyl={p1,p2,...,pj},选择二值交叉熵BCELoss损失作为损失函数,计算公式如下:
losssyl=BCELoss(ysyl,psyl) (10)
lossword=BCELoss(yword,pword) (11)
Figure FDA0002908589170000031
total_loss=λ×losssyl+lossword (13)
其中,n表示字符个数,ysyl是音节切分的真实标签,yword是词切分的真实标签,λ是可调节的参数,ytrue表示泰语字符真实的序列标签,ypre表示模型预测出来的字符序列标签。
CN202110079486.2A 2021-01-21 2021-01-21 基于音节切分和词切分联合学习的多任务泰语分词方法 Active CN112883726B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110079486.2A CN112883726B (zh) 2021-01-21 2021-01-21 基于音节切分和词切分联合学习的多任务泰语分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110079486.2A CN112883726B (zh) 2021-01-21 2021-01-21 基于音节切分和词切分联合学习的多任务泰语分词方法

Publications (2)

Publication Number Publication Date
CN112883726A true CN112883726A (zh) 2021-06-01
CN112883726B CN112883726B (zh) 2021-12-28

Family

ID=76051299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110079486.2A Active CN112883726B (zh) 2021-01-21 2021-01-21 基于音节切分和词切分联合学习的多任务泰语分词方法

Country Status (1)

Country Link
CN (1) CN112883726B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112420075A (zh) * 2020-10-26 2021-02-26 四川长虹电器股份有限公司 一种基于多任务的音素检测方法及装置
CN113901210A (zh) * 2021-09-15 2022-01-07 昆明理工大学 利用局部多头注意力机制融合词-音节对的泰文和缅甸文词性标注方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967259A (zh) * 2017-11-27 2018-04-27 传神语联网网络科技股份有限公司 泰语音节切分的方法及装置
CN110222337A (zh) * 2019-05-28 2019-09-10 浙江邦盛科技有限公司 一种基于transformer和CRF的中文地址分词方法
CN111145718A (zh) * 2019-12-30 2020-05-12 中国科学院声学研究所 一种基于自注意力机制的中文普通话字音转换方法
CN111783459A (zh) * 2020-05-08 2020-10-16 昆明理工大学 一种基于改进Transformer+CRF的老挝语命名实体识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967259A (zh) * 2017-11-27 2018-04-27 传神语联网网络科技股份有限公司 泰语音节切分的方法及装置
WO2019100458A1 (zh) * 2017-11-27 2019-05-31 传神语联网网络科技股份有限公司 泰语音节切分的方法及装置
CN110222337A (zh) * 2019-05-28 2019-09-10 浙江邦盛科技有限公司 一种基于transformer和CRF的中文地址分词方法
CN111145718A (zh) * 2019-12-30 2020-05-12 中国科学院声学研究所 一种基于自注意力机制的中文普通话字音转换方法
CN111783459A (zh) * 2020-05-08 2020-10-16 昆明理工大学 一种基于改进Transformer+CRF的老挝语命名实体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
赵世瑜: "泰语词法分析关键技术研究", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 *
赵世瑜等: "基于条件随机场的泰语音节切分方法", 《计算机科学》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112420075A (zh) * 2020-10-26 2021-02-26 四川长虹电器股份有限公司 一种基于多任务的音素检测方法及装置
CN112420075B (zh) * 2020-10-26 2022-08-19 四川长虹电器股份有限公司 一种基于多任务的音素检测方法及装置
CN113901210A (zh) * 2021-09-15 2022-01-07 昆明理工大学 利用局部多头注意力机制融合词-音节对的泰文和缅甸文词性标注方法

Also Published As

Publication number Publication date
CN112883726B (zh) 2021-12-28

Similar Documents

Publication Publication Date Title
CN111694924B (zh) 一种事件抽取方法和系统
CN110532554B (zh) 一种中文摘要生成方法、系统及存储介质
CN111145728B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN112733541A (zh) 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法
CN109359291A (zh) 一种命名实体识别方法
CN111339750B (zh) 去除停用语并预测句子边界的口语文本处理方法
CN112883726B (zh) 基于音节切分和词切分联合学习的多任务泰语分词方法
Dreuw et al. RWTH OCR: A large vocabulary optical character recognition system for Arabic scripts
CN116127952A (zh) 一种多粒度中文文本纠错方法和装置
CN115438154A (zh) 基于表征学习的中文自动语音识别文本修复方法及系统
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
CN112329767A (zh) 基于联合预训练的合同文本图像关键信息提取系统和方法
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
CN111680169A (zh) 一种基于bert模型技术的电力科技成果数据抽取方法
CN112883722B (zh) 一种基于云数据中心分布式文本摘要方法
CN114970537B (zh) 基于多层标注策略的跨境民族文化实体关系抽取方法及装置
CN113901210B (zh) 利用局部多头注意力机制融合词-音节对的泰文和缅甸文词性标注方法
CN115240712A (zh) 一种基于多模态的情感分类方法、装置、设备及存储介质
CN112183086A (zh) 基于意群标注的英语发音连读标记模型
CN114416991A (zh) 一种基于prompt的文本情感原因分析方法和系统
CN113870835A (zh) 基于人工智能的语音合成方法、装置、设备及存储介质
CN112634878A (zh) 语音识别后处理方法和系统及相关设备
CN114330328B (zh) 基于Transformer-CRF的藏文分词方法
CN113297845B (zh) 一种基于多层次双向循环神经网络的简历块分类方法
Baró-Mas Optical music recognition by long short-term memory recurrent neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant