CN112883726A - 基于音节切分和词切分联合学习的多任务泰语分词方法 - Google Patents
基于音节切分和词切分联合学习的多任务泰语分词方法 Download PDFInfo
- Publication number
- CN112883726A CN112883726A CN202110079486.2A CN202110079486A CN112883726A CN 112883726 A CN112883726 A CN 112883726A CN 202110079486 A CN202110079486 A CN 202110079486A CN 112883726 A CN112883726 A CN 112883726A
- Authority
- CN
- China
- Prior art keywords
- character
- thai
- word
- segmentation
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000009466 transformation Effects 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 abstract description 2
- 238000013519 translation Methods 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明涉及基于音节切分和词切分联合学习的多任务泰语分词方法。本发明包括:预处理泰语文本数据集;使用窗口化的方式选择泰语字符特征和字符类别特征作为特征输入;之后利用注意力机制获得丰富的上下文特征;最后输出层使用线性变换和Sigmoid函数去预测当前序列中的音节序列标签和词序列标签。本发明采用多任务学习的方式,它能够同时学习同一个句子在音节切分和词切分的序列标签,用音节切分辅助词切分,以提高模型泛化能力。本发明在InterTEST2010数据集上有更高的准确性,与DeepCut泰语分词模型相比,系统运行速度至少提高了1.6倍,为后续的文本分类、信息检索和机器翻译提供了支撑。
Description
技术领域
本发明涉及基于音节切分和词切分联合学习的多任务泰语分词方法,属于自然语言处理领域。
背景技术
在自然语言处理中,泰语分词是文本分类、信息检索和机器翻译等下游任务的基础。主流的泰语分词方法将泰语分词视为基于字符的序列标注问题,其中为每个字符分配一个标签以表示其边界信息。
尽管已有的泰语分词模型取得了很好的进展,但它们考虑的字符信息少,分词准确率低等问题。Kittinaradorn等人针对以上问题提出了一种基于CNN的分词模型-DeepCut,该模型利用字符和字符类别嵌入作为特征输入,使用卷积核宽度为1-12的1d卷积层,进而使用最大池化(Max-pooling)提取来自卷积层特征,全连接层得出相应字符的标签概率,尽管该分词模型取得了较好的性能,但由于模型参数过多,导致分词速度慢。Pattarawat等人在DeepCut的基础上进行相关研究,分析了DeepCut模型缺陷,提出了AttaCut-C和AttaCut-SC泰语分词模型,两个模型在卷积层中都使用了扩张卷积,使分词模型具有较高的并行度。此外,在AttaCut-SC模型中的嵌入层融入泰语音节。相较于DeepCut,AttaCut-SC模型在速度上有很大的提升,但是分词性能有所下降。
发明内容
本发明提供了基于音节切分和词切分联合学习的多任务泰语分词方法,以用于对泰语文本句子分词,解决了由于模型提取的特征不够丰富,模型参数过多导致泰语分词性能较低和分词速度慢的问题。
发明技术方案:基于音节切分和词切分联合学习的多任务泰语分词方法,所述方法的具体步骤如下:
Step1、对从InterBEST2010的泰语语料库中获取的泰语文本进行预处理,为每一个字符匹配它对应的字符类别,给每个字符之间的边界按照音节和词结构特点打标签。
Step2、通过滑动窗口的方式从经过Step1预处理过的数据中依次得到包含21个字符信息的输入,利用字符嵌入和位置嵌入对泰语字符进行特征编码,将获得的字符表征和字符类别表征进行拼接得到新的表征,将表征输入Transformer的编码器模型,确定每个字符组成音节或词的概率。
所述步骤Step1的具体步骤为:
Step1.1、针对已经进行词切分的泰语语料,进行过滤筛选,删除泰语文本中的'<NE>'、'</NE>'、'<AB>'、'</AB>'这些字符,之后依次遍历泰语文本中的每一个字符,并为每一个字符匹配它对应的字符类别;
Step1.2、根据泰语文本中用“|”划分的词汇,结合字符在词汇中的位置信息,给每一个字符标注切分标识,一个泰语词汇中第一个字符,标注为1,其它位置的字符,标注为0;
Step1.3、调用PyThaiNLP中的syllable_tokenize方法对词汇进行音节切分,结合字符在音节中的位置信息,给每一个字符标注切分标识,一个泰语音节中第一个字符,标注为1,其它位置的字符,标注为0;
Step1.4、以DataFrame的数据结构形式对Step1.1、Step1.2和Step1.3中得到的字符、字符类别、组成词的字符标识和组成音节的字符标识信息进行存储;
作为本发明的优选方案,所述步骤Step2的具体步骤如下:
Step2.1、通过滑动窗口的方式从预处理过的数据中依次得到包含21个字符信息的输入,每个训练样本S={ci-10,...,ci-2,ci-1,ci,ci+1,ci+2,...,ci+10},包含待标注字符ci、上下文中的前10个字符(ci-10,...,ci-2,ci-1)和后10个字符(ci+1,ci+2,...,ci+10)。同理,字符类别也采用同样的方式依次得到包含21个字符类别信息的输入。对每一个泰语字符和字符类别进行编码,得到对应的字符嵌入和字符类别嵌入将字符嵌入和字符类别嵌入进行拼接得到的嵌入为采用位置编码方式对得到的嵌入进行编码,得到具有位置信息的词向量PEi:
其中t是指当前字符在句子中的位置,i是指向量中每个值的索引,在偶数位置,使用正弦编码,在奇数位置,使用余弦编码。
Step2.2、本发明的编码层使用Transformer的编码器,采用2个多头自我注意力层去抽取每一个字符的上下文特征。假设给定一个序列的向量一个单头自我注意力将H投影到三个不同的矩阵:Q矩阵为K矩阵为V矩阵为然后使用缩放的点积注意力来获取输出表示。
Q,K,V=HWQ,HWK,HWV (4)
Step2.3、Transformer编码器由2个堆叠的多头自我注意力层和全连接层组成。每个多头自我注意力层包括24个头,每一头的特征维度为16。假设多头自我注意力层的输入为H,则其输出可以通过下面的公式计算;
E=layer-norm(H+MultiHead(H)) (6)
其中layer-norm(·)的表示归一化层,FFN表示Feed Forward Network层,两个线性变换和ReLU函数实现。
Step2.4、为了得到输入的每个字符在音节和词汇中的位置信息,用音节切分去辅助词切分。先按照第一个任务音节切分对得到的结果进行线性变换,h表示针对音节的线性变换后得到的一个隐状态张量;
最后进行Sigmoid激活,用于预测序列中每个字符的标识符为(1,0)的概率p。同理,词切分进行线性变换和激活;
p=Sigmoid(W2*h+b2) (9)
其中*表示拼接操作,W1和W2是可学习的权重,b1和b2是偏置参数。
Step2.5、根据训练语料本发明可以得到训练样本的输出词序列pword={p1,p2,...,pi}和音节序列psyl={p1,p2,...,pj},本发明选择二值交叉熵BCELoss(BinaryCrossEntropyLoss)损失作为损失函数,计算公式如下:
losssyl=BCELoss(ysyl,psyl) (10)
lossword=BCELoss(yword,pword) (11)
total_loss=λ×losssyl+lossword (13)
其中,n表示字符个数,ysyl是音节切分的真实标签,yword是词切分的真实标签,ytrue表示泰语字符真实的序列标签,ypre表示模型预测出来的字符序列标签,λ是可调节的参数,本发明采用3个λ值进行对比,分别为0.5、0.8和1。
Step2.6、最后选择Adam优化器,它收敛速度较快且收敛过程较稳定,能基于训练数据迭代地更新神经网络权重。学习率(步长)设置为0.001,决定了在梯度下降迭代的过程中,每一步沿梯度负方向前进的长度。步长太小,收敛慢,步长太大,会远离最优解。所以从小到大,分别测试,选出一个最优解0.001。
本发明的有益效果是:
(1)由于泰语字符分为元音字符V、辅音字符C、声调字符T及一些标志字符等,有的辅音字符不能出现在音节的结束位置,而有的元音字符不能出现在音节的首位置,所以本发明使用字符特征和12种音节切分的字符类别和位置特征作为特征输入,能够更有效的学习字符特征和字符类别特征信息,减少字符序列标记错误对泰语分词结果的影响,更有助于分词。
(2)根据泰语字符构成音节,音节构成词,词汇包括单音节词、双音节词和多音节词的语言结构特点,本发明采用多任务学习的方式,它能够同时学习同一个句子在音节切分和词切分的序列标签,用音节切分辅助词切分,解决由单音节词构成双音节或者多音节词的歧义问题,有效利用更多的上下文信息或特征,也能有效利用泰语字符、音节和词之间的组合特征,提高模型泛化能力,分词准确率。
(3)使用Transformer的编码器结构的多头注意力(Multi-Head attention)能够捕获更加丰富的字符特征和字符类别特征,具有很好的并行性,分词速度有很大的提升。
附图说明
图1是本发明提出的音节切分和词切分联合学习的多任务泰语分词方法的具体结构示意图。
具体实施方式
实施例1:如图1所示,基于音节切分和词切分联合学习的多任务泰语分词方法,所述方法的具体步骤如下:
Step1、对从InterBEST2010的泰语语料库中获取的泰语文本进行预处理,为每一个字符匹配它对应的字符类别,给每个字符之间的边界按照音节和词结构特点打标签;
Step1.1、针对已经进行词切分的泰语语料,进行过滤筛选,删除泰语文本中的'<NE>'、'</NE>'、'<AB>'、'</AB>'这些字符,之后依次遍历泰语文本中的每一个字符,并为每一个字符匹配它对应的字符类别,字符类别信息如表1所示:
表1泰语字符类别特征
Step1.2、根据泰语文本中用“|”划分的词汇,结合字符在词汇中的位置信息,给每一个字符标注切分标识,一个泰语词汇中第一个字符,标注为1,其它位置的字符,标注为0;
Step1.3、调用PyThaiNLP中的syllable_tokenize方法对词汇进行音节切分,结合字符在音节中的位置信息,给每一个字符标注切分标识,一个泰语音节中第一个字符,标注为1,其它位置的字符,标注为0;训练集、验证集和测试集的统计信息如表2所示,训练和验证语料的统计单位为M,测试语料的统计单位为K:
表2实验语料
Step1.4、以DataFrame的数据结构形式对Step1.1、Step1.2和Step1.3中得到的字符、字符类别、组成词的字符标识和组成音节的字符标识信息进行存储;
Step2、通过滑动窗口的方式从经过Step1预处理过的数据中依次得到包含21个字符信息的输入,利用字符嵌入和位置嵌入对泰语字符进行特征编码,将获得的字符表征和字符类别表征进行拼接得到新的表征,将表征输入Transformer的编码器模型,确定每个字符组成音节或词的概率。
Step2.1、通过滑动窗口的方式从预处理过的数据中依次得到包含21个字符信息的输入,每个训练样本S={ci-10,...,ci-2,ci-1,ci,ci+1,ci+2,...,ci+10},包含待标注字符ci、上下文中的前10个字符(ci-10,...,ci-2,ci-1)和后10个字符(ci+1,ci+2,...,ci+10)。同理,字符类别也采用同样的方式依次得到包含21个字符类别信息的输入。对每一个泰语字符和字符类别进行编码,得到对应的字符嵌入和字符类别嵌入将字符嵌入和字符类别嵌入进行拼接得到的嵌入为采用位置编码方式对得到的嵌入进行编码,得到具有位置信息的词向量PEi:
其中t是指当前字符在句子中的位置,i是指向量中每个值的索引,在偶数位置,使用正弦编码,在奇数位置,使用余弦编码。
Step2.2、本发明的编码层使用Transformer的编码器,采用2个多头自我注意力层去抽取每一个字符的上下文特征。假设给定一个序列的向量一个单头自我注意力将H投影到三个不同的矩阵:Q矩阵为K矩阵为V矩阵为然后使用缩放的点积注意力来获取输出表示。
Q,K,V=HWQ,HWK,HWV (4)
Step2.3、Transformer编码器由2个堆叠的多头自我注意力层和全连接层组成。每个多头自我注意力层包括24个头,每一头的特征维度为16。假设多头自我注意力层的输入为H,则其输出可以通过下面的公式计算;
E=layer-norm(H+MultiHead(H)) (6)
其中layer-norm(·)的表示归一化层,FFN表示Feed Forward Network层,两个线性变换和ReLU函数实现。
Step2.4、为了得到输入的每个字符在音节和词汇中的位置信息,然后按照第一个任务音节切分对得到的结果进行线性变换;h表示针对音节的线性变换后得到的一个隐状态张量;
最后进行Sigmoid激活,用于预测序列中每个字符的标识符为(1,0)的概率p。同理,词切分进行线性变换和激活;
p=Sigmoid(W2*h+b2) (9)
其中*表示拼接操作,W1和W2是可学习的权重,b1和b2是偏置参数。
Step2.5、根据训练语料本发明可以得到训练样本的输出为词序列pword={p1,p2,...,pi}和音节序列psyl={p1,p2,...,pj},本发明选择二值交叉熵BCELoss(BinaryCrossEntropyLoss)损失作为损失函数,计算公式如下:
losssyl=BCELoss(ysyl,psyl) (10)
lossword=BCELoss(yword,pword) (11)
total_loss=λ×losssyl+lossword (13)
其中,n表示字符个数,ysyl是音节切分的真实标签,yword是词切分的真实标签,ytrue表示泰语字符真实的序列标签,ypre表示模型预测出来的字符序列标签,λ是可调节的参数,本发明使用的λ值为0.5。
Step2.6、最后选择Adam优化器,它收敛速度较快且收敛过程较稳定,能基于训练数据迭代地更新神经网络权重。学习率(步长)设置为0.001,决定了在梯度下降迭代的过程中,每一步沿梯度负方向前进的长度。步长太小,收敛慢,步长太大,会远离最优解。所以从小到大,分别测试,选出一个最优解0.001。
为了说明本发明的效果,设置了2组对比实验。第一组实验验证泰语分词性能的提升,另一组实验验证泰语分词速度的提升。
(1)泰语分词性能提升验证
在基准模型中分别将泰语字符和字符类别特征输入到模型中,然后将二者特征相拼接,经过多头注意力去提取丰富的上下文特征,最后进行音节中的字符分类和词中的字符分类,用音节切分去辅助词切分。实验结果如表3所示。
表3泰语分词方法性能对比
分析表3可知,本发明方法的P、R和F1值均高于其它所有方法,说明:本发明方法结构中的自我注意力机制可以捕捉到更丰富的特征信息;词切分和音节切分的多任务学习,隐含的做了一个数据和参数共享,提升了各自任务的泛化能力,对于泰语分词性能提高是有效的。且本发明方法和AttaCut-SC方法的P、R和F1值都高于AttaCut-C,说明:神经网络模型在处理泰语分词时,音节特征对于泰语分词性能提升也是有效的。
(2)泰语分词速度提升验证
本发明针对表2中的训练数据和测试数据对模型DeepCut和本文模型的速度进行了测试,测试结果如表4所示:
表4分词速度对比
分析表4可知,融合字符和字符类别的音节切分和词切分联合学习的多任务模型在泰语分词任务上,速度比DeppCut有所提升,是DeepCut的1.57倍。通过分析结果发现,DeepCut速度慢的原因主要是:它的内核宽度是从1到12的1d卷积层,它的大多数参数都集中在卷积层,并且通过研究发现,DeepCut宽度为7、9和10的卷积层,并没有起到特别大的作用,也就是说DeepCut中部分卷积层是冗余的,正是这些提高了模型的计算成本。而本发明方法的模型,虽然模型结构比较深,但是不像DeepCut有那么多内核宽度的卷积层,相比CNN,计算两个位置之间的关联所需的操作次数不随距离增长;同时突破了RNN模型不能并行计算的限制;并且本发明方法的模型的多头注意力(Multi-Head attention)具有很好的并行性,所以速度有较大的提升。
通过以上实验数据证明了本发明使用字符特征和12种音节切分的字符类别和位置特征作为特征输入,能够更有效的学习字符特征和字符类别特征信息,减少字符序列标记错误对泰语分词结果的影响。通过利用泰语字符构成音节,音节构成词的结构特点,采用音节切分辅助词切分的多任务分词方法,学习同一个句子在不同的任务中的序列标签,解决由单音节词构成双音节或者多音节词的歧义问题,有效利用更多的上下文信息或特征,也能有效利用泰语字符、音节和词之间的组合特征。实验表明本发明的方法相比多个基线模型取得了最优的效果。针对泰语分词任务,本发明提出的一种利用音节切分和词切分联合学习的多任务分词方法对泰语分词性能提升和分词速度提升是有效的。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (3)
1.基于音节切分和词切分联合学习的多任务泰语分词方法,其特征在于:所述方法的具体步骤如下:
Step1、对泰语语料库中获取的泰语文本进行预处理,为每一个字符匹配它对应的字符类别,给每个字符之间的边界按照音节和词结构特点打标签;
Step2、通过滑动窗口的方式从经过Step1预处理过的数据中依次得到包含若干个字符信息的输入,利用字符嵌入和位置嵌入对泰语字符进行特征编码,将获得的字符表征和字符类别表征进行拼接得到新的表征,将表征输入Transformer的编码器模型,确定每个字符组成音节或词的概率。
2.根据权利要求1所述的基于音节切分和词切分联合学习的多任务泰语分词方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、针对已经进行词切分的泰语语料,进行过滤筛选,删除泰语文本中的'<NE>'、'</NE>'、'<AB>'、'</AB>'字符,之后依次遍历泰语文本中的每一个字符,并为每一个字符匹配它对应的字符类别;
Step1.2、根据泰语文本中用“|”划分的词汇,结合字符在词汇中的位置信息,给每一个字符标注切分标识,一个泰语词汇中第一个字符,标注为1,其它位置的字符,标注为0;
Step1.3、调用PyThaiNLP中的syllable_tokenize方法对词汇进行音节切分,结合字符在音节中的位置信息,给每一个字符标注切分标识,一个泰语音节中第一个字符,标注为1,其它位置的字符,标注为0;
Step1.4、以DataFrame的数据结构形式对得到的字符、字符类别、组成词的字符标识和组成音节的字符标识信息进行存储。
3.根据权利要求1所述的基于音节切分和词切分联合学习的多任务泰语分词方法,其特征在于:所述步骤Step2的具体步骤如下:
Step2.1、通过滑动窗口的方式从预处理过的数据中依次得到包含n个字符信息的输入,每个训练样本S={ci-(n-1)/2,...,ci-2,ci-1,ci,ci+1,ci+2,...,ci+(n-1)/2},包含待标注字符ci、上下文中的前(n-1)/2个字符(ci-(n-1)/2,...,ci-2,ci-1)和后(n-1)/2个字符(ci+1,ci+2,...,ci+(n-1)/2);同理,字符类别也采用同样的方式依次得到包含n个字符类别信息的输入;对每一个泰语字符和字符类别进行编码,得到对应的字符嵌入和字符类别嵌入将字符嵌入和字符类别嵌入进行拼接得到的嵌入为采用位置编码方式对得到的嵌入进行编码,得到具有位置信息的词向量PEi:
其中t是指当前字符在句子中的位置,i是指向量中每个值的索引,在偶数位置,使用正弦编码,在奇数位置,使用余弦编码;
Step2.2、编码层使用Transformer的编码器,采用多个多头自我注意力层去抽取每一个字符的上下文特征;假设给定一个序列的向量一个单头自我注意力将H投影到三个不同的矩阵:Q矩阵为K矩阵为V矩阵为然后使用缩放的点积注意力来获取输出表示;
Q,K,V=HWQ,HWK,HWV (4)
E=layer-norm(H+MultiHead(H)) (6)
其中layer-norm(·)的表示归一化层,FFN表示Feed Forward Network层,两个线性变换和ReLU函数实现;
Step2.4、为了得到输入的每个字符在音节和词汇中的位置信息,用音节切分去辅助词切分;先按照第一个任务音节切分对得到的结果进行线性变换,h表示针对音节的线性变换后得到的一个隐状态张量;
最后进行Sigmoid激活,用于预测序列中每个字符的标识符为(1,0)的概率p;同理,词切分进行线性变换和激活;
p=Sigmoid(W2*h+b2) (9)
其中*表示拼接操作,W1和W2是可学习的权重,b1和b2是偏置参数;
Step2.5、根据训练语料可以得到训练样本的输出词序列pword={p1,p2,...,pi}和音节序列psyl={p1,p2,...,pj},选择二值交叉熵BCELoss损失作为损失函数,计算公式如下:
losssyl=BCELoss(ysyl,psyl) (10)
lossword=BCELoss(yword,pword) (11)
total_loss=λ×losssyl+lossword (13)
其中,n表示字符个数,ysyl是音节切分的真实标签,yword是词切分的真实标签,λ是可调节的参数,ytrue表示泰语字符真实的序列标签,ypre表示模型预测出来的字符序列标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110079486.2A CN112883726B (zh) | 2021-01-21 | 2021-01-21 | 基于音节切分和词切分联合学习的多任务泰语分词方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110079486.2A CN112883726B (zh) | 2021-01-21 | 2021-01-21 | 基于音节切分和词切分联合学习的多任务泰语分词方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112883726A true CN112883726A (zh) | 2021-06-01 |
CN112883726B CN112883726B (zh) | 2021-12-28 |
Family
ID=76051299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110079486.2A Active CN112883726B (zh) | 2021-01-21 | 2021-01-21 | 基于音节切分和词切分联合学习的多任务泰语分词方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112883726B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112420075A (zh) * | 2020-10-26 | 2021-02-26 | 四川长虹电器股份有限公司 | 一种基于多任务的音素检测方法及装置 |
CN113901210A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 利用局部多头注意力机制融合词-音节对的泰文和缅甸文词性标注方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107967259A (zh) * | 2017-11-27 | 2018-04-27 | 传神语联网网络科技股份有限公司 | 泰语音节切分的方法及装置 |
CN110222337A (zh) * | 2019-05-28 | 2019-09-10 | 浙江邦盛科技有限公司 | 一种基于transformer和CRF的中文地址分词方法 |
CN111145718A (zh) * | 2019-12-30 | 2020-05-12 | 中国科学院声学研究所 | 一种基于自注意力机制的中文普通话字音转换方法 |
CN111783459A (zh) * | 2020-05-08 | 2020-10-16 | 昆明理工大学 | 一种基于改进Transformer+CRF的老挝语命名实体识别方法 |
-
2021
- 2021-01-21 CN CN202110079486.2A patent/CN112883726B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107967259A (zh) * | 2017-11-27 | 2018-04-27 | 传神语联网网络科技股份有限公司 | 泰语音节切分的方法及装置 |
WO2019100458A1 (zh) * | 2017-11-27 | 2019-05-31 | 传神语联网网络科技股份有限公司 | 泰语音节切分的方法及装置 |
CN110222337A (zh) * | 2019-05-28 | 2019-09-10 | 浙江邦盛科技有限公司 | 一种基于transformer和CRF的中文地址分词方法 |
CN111145718A (zh) * | 2019-12-30 | 2020-05-12 | 中国科学院声学研究所 | 一种基于自注意力机制的中文普通话字音转换方法 |
CN111783459A (zh) * | 2020-05-08 | 2020-10-16 | 昆明理工大学 | 一种基于改进Transformer+CRF的老挝语命名实体识别方法 |
Non-Patent Citations (2)
Title |
---|
赵世瑜: "泰语词法分析关键技术研究", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 * |
赵世瑜等: "基于条件随机场的泰语音节切分方法", 《计算机科学》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112420075A (zh) * | 2020-10-26 | 2021-02-26 | 四川长虹电器股份有限公司 | 一种基于多任务的音素检测方法及装置 |
CN112420075B (zh) * | 2020-10-26 | 2022-08-19 | 四川长虹电器股份有限公司 | 一种基于多任务的音素检测方法及装置 |
CN113901210A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 利用局部多头注意力机制融合词-音节对的泰文和缅甸文词性标注方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112883726B (zh) | 2021-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111694924B (zh) | 一种事件抽取方法和系统 | |
CN110532554B (zh) | 一种中文摘要生成方法、系统及存储介质 | |
CN111145728B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN112733541A (zh) | 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法 | |
CN109359291A (zh) | 一种命名实体识别方法 | |
CN111339750B (zh) | 去除停用语并预测句子边界的口语文本处理方法 | |
CN112883726B (zh) | 基于音节切分和词切分联合学习的多任务泰语分词方法 | |
Dreuw et al. | RWTH OCR: A large vocabulary optical character recognition system for Arabic scripts | |
CN116127952A (zh) | 一种多粒度中文文本纠错方法和装置 | |
CN115438154A (zh) | 基于表征学习的中文自动语音识别文本修复方法及系统 | |
CN115831102A (zh) | 基于预训练特征表示的语音识别方法、装置及电子设备 | |
CN112329767A (zh) | 基于联合预训练的合同文本图像关键信息提取系统和方法 | |
CN112905736A (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
CN111680169A (zh) | 一种基于bert模型技术的电力科技成果数据抽取方法 | |
CN112883722B (zh) | 一种基于云数据中心分布式文本摘要方法 | |
CN114970537B (zh) | 基于多层标注策略的跨境民族文化实体关系抽取方法及装置 | |
CN113901210B (zh) | 利用局部多头注意力机制融合词-音节对的泰文和缅甸文词性标注方法 | |
CN115240712A (zh) | 一种基于多模态的情感分类方法、装置、设备及存储介质 | |
CN112183086A (zh) | 基于意群标注的英语发音连读标记模型 | |
CN114416991A (zh) | 一种基于prompt的文本情感原因分析方法和系统 | |
CN113870835A (zh) | 基于人工智能的语音合成方法、装置、设备及存储介质 | |
CN112634878A (zh) | 语音识别后处理方法和系统及相关设备 | |
CN114330328B (zh) | 基于Transformer-CRF的藏文分词方法 | |
CN113297845B (zh) | 一种基于多层次双向循环神经网络的简历块分类方法 | |
Baró-Mas | Optical music recognition by long short-term memory recurrent neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |