CN109753652A - 一种基于Attention机制来构建老挝语词性标注模型的方法 - Google Patents
一种基于Attention机制来构建老挝语词性标注模型的方法 Download PDFInfo
- Publication number
- CN109753652A CN109753652A CN201811532384.6A CN201811532384A CN109753652A CN 109753652 A CN109753652 A CN 109753652A CN 201811532384 A CN201811532384 A CN 201811532384A CN 109753652 A CN109753652 A CN 109753652A
- Authority
- CN
- China
- Prior art keywords
- attention mechanism
- speech
- layer
- laotian
- gru
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 239000010410 layer Substances 0.000 claims description 55
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 239000002356 single layer Substances 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 7
- 230000000306 recurrent effect Effects 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及一种基于Attention机制来构建老挝语词性标注模型的方法,属于自然语言处理和机器学习技术领域。Attention机制包括编码层与解码层,编码层对输入序列进行编码,以得到包含输入序列信息的语义向量,并将语义向量传送给解码层,解码层进行相应解码。以词性标注为例:首先将老挝句子输入编码层进行编码,以得到包含该句子信息的语义向量,然后将语义向量传入解码层,解码层可以解码出句中每个老挝词的词性。老挝语词性标注模型的实现过程中,首先得构建Attention机制,然后使用老挝语词性标注语料训练Attention机制,就可以得到基于Attention机制的老挝词性标注模型。利用Attention机制建立的老挝语词性标注模型,可以有效的对老挝语进行词性标注,因此本发明具有一定的研究意义。
Description
技术领域
本发明涉及一种基于Attention机制来构建老挝语词性标注模型的方法,属于自然语言处理和机器学习技术领域。
背景技术
所谓词性标注就是给句中每个词,确定其最为合适词性的过程。词性标注是很多NLP任务的预处理步骤,它是为后续更重要的工作做准备,比如信息提取、语法分析等。早期词性标注使用方法是基于规则,但是规则制定非常繁琐。由此基于统计的方法得以兴起,主要使用的模型有HMM模型、CRF模型与MEMM模型。深度学习越来原受到重视,但现有技术中并没有通过深度学习来分析老挝语词性标注的方法。
发明内容
本发明要解决的技术问题是提供一种基于Attention机制来构建老挝语词性标注模型的方法,采用Attention机制来构建老挝语词性标注模型。
本发明采用的技术方案是:一种基于Attention机制来构建老挝语词性标注模型的方法,包括如下步骤:
Step1、Attention机制的构建
Attention机制包括两层:编码层与解码层,编码层用于老挝语的输入,解码层用于计算出每个老挝词的词性;
Step 1.1、编码层
编码层是基于GRU(Gated Recurrent Unit)来构建,它是一种时间递归神经网络,适合用于处理、预测时间序列中间隔相对较长的任务。为了模型拥有较强的词性标注能力,本发明在编码层构建了两层双向GRU。在编码时,老挝句子的第一个词将按序进入GRU中进行处理,GRU会保留并输出对词性计算有用的信息,并除去无用信息,信息以向量的形式呈现。为了适应老挝句子较长的特点,不会造成信息的丢失,本发明在编码层加入了BahdanauAttention机制。BahdanauAttention机制是注意力机制的一种,首先它会选择编码层每个词的GRU输出向量,然后根据每个向量的重要程度而赋予不同权重,最后使用输出向量与权重计算语义向量C,语义向量C将被输入到解码层;
Step 1.2、解码层
解码层同样是基于GRU来构建,本发明在解码层使用单层GRU。在解码运算中,首先该层GRU会根据语义向量C计算出词性信息向量,然后词性信息向量会传递给Softmax函数,Softmax函数来计算出词性概率分布;
Step2、Attention机制的训练
当Attention机制搭建完成后,使用老挝语词性标注语料库对Attention机制的参数进行训练,直到模型达到稳定状态,就得到Attention机制,训练过程中,首先使用交叉熵损失函数来计算解码层输出的词性概率分布与真实分布的差距,然后使用Adam算法来减少差距,以此训练Attention机制的参数;
Step3、选择词性概率分布中概率最大的词性作为输出;
Step4、在对老挝句子词性标注时,Attention机制循环Step1,Step3,对老挝句子中的每一个词进行处理,就可以得到该老挝句子的词性。
本发明的有益效果是:
1、老挝句子比较长,使用传统机器学习模型无法利用长远的信息,词性标注效果不佳,而Attention机制可以很好利用长远信息。
2、本发明采用了Attention机制,Attention机制对序列学习有着不错的效果。
3、Attention机制中采用了GRU,GRU具有长期记忆的能力,学习能力强的优点。
附图说明
图1为本发明中的总体流程图;
图2为本发明具体实施例中的Attention结构图。
具体实施方式
为了更详细的描述本发明和便于本领域人员的理解,下面结合附图以及实施例对本发明做进一步的描述,本部分的实施例用于解释说明本发明,便于理解的目的,不以此来限制本发明。
实施例1:如图1-2所示,一种基于Attention机制来构建老挝语词性标注模型的方法,包括如下步骤:
Step1、Attention机制构建
Attention机制包括两层:编码层与解码层,编码层用于老挝语的输入,解码层用于计算出每个老挝词的词性;
Step 1.1、编码层
编码层是基于GRU(Gated Recurrent Unit)来构建,它是一种时间递归神经网络,适合用于处理、预测时间序列中间隔相对较长的任务。为了模型拥有较强的词性标注能力,本发明在编码层构建了两层双向GRU。在编码时,老挝句子的第一个词将按序进入GRU中进行处理,GRU会保留并输出对词性计算有用的信息,并除去无用信息,信息以向量的形式呈现。为了适应老挝句子较长的特点,不会造成信息的丢失,本发明在编码层加入了BahdanauAttention机制。BahdanauAttention机制是注意力机制的一种,首先它会选择编码层每个词的GRU输出向量,然后根据每个向量的重要程度而赋予不同权重,最后使用输出向量与权重计算语义向量C,语义向量C将被输入到解码层;
Step 1.2、解码层
解码层同样是基于GRU来构建,本发明在解码层使用单层GRU。在解码运算中,首先该层GRU会根据语义向量C计算出词性信息向量,然后词性信息向量会传递给Softmax函数,Softmax函数来计算出词性概率分布;
Step2、Attention机制的训练
当Attention机制搭建完成后,使用老挝语词性标注语料库对Attention机制的参数进行训练,直到模型达到稳定状态,就得到Attention机制,训练过程中,首先使用交叉熵损失函数来计算解码层输出的词性概率分布与真实分布的差距,然后使用Adam算法来减少差距,以此训练Attention机制的参数。
Attention机制训练使用的是老挝语词性标注语料库,该语料库是被词性标注后的老挝语文章构成,以其中一句语料为例:
(从三月份,月销售额被记录)。
其中,斜杆的左边为老挝语,右边为词性。
当Attention机制处于训练时,编码层按序将斜杆左边老挝语输入编码层,解码层将解码出句中每个老挝词对应词性,使用交叉熵函数计算输出词性概率分布与真实词性(斜杆右边词性)分布的差距,并使用Adam算法来减小差距。按上述过程不断训练Attention机制的参数,直到模型收敛。训练结束得到的Attention机制,可以对老挝句子进行词性标注。
Step3、选择概率最大的词性作为输出;
Step4、在对老挝句子词性标注时,Attention机制循环Step1,Step3,对老挝句子中的每一个词进行处理,就可以得到该老挝句子的词性。
附图2是Attention机制计算出第2个词性PRE(介词)的示意图。其中,每个h代表两层双向GRU、a代表每个h输出向量的权重、f表示单层GRU、C2代表计算出第二个词性(介词)的语义向量。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (1)
1.一种基于Attention机制来构建老挝语词性标注模型的方法,其特征在于:包括如下步骤:
Step1、Attention机制的构建
Attention机制包括两层:编码层与解码层,编码层用于老挝语的输入,解码层用于计算出每个老挝词的词性;
Step 1.1、编码层
编码层是基于GRU来构建,在编码层构建了两层双向GRU,在编码时,老挝句子中的第一个词将按序进入GRU中进行处理,GRU会保留并输出对词性计算有用的信息,并除去无用信息,信息以向量的形式呈现,在编码层加入了BahdanauAttention机制,BahdanauAttention机制是注意力机制的一种,首先它会选择编码层每个词的GRU输出向量,然后根据每个向量的重要程度而赋予不同权重,最后使用输出向量与权重计算语义向量C,语义向量C将被输入到解码层;
Step 1.2、解码层
解码层同样是基于GRU来构建,在解码层使用单层GRU,在解码运算中,首先该层GRU会根据语义向量C计算出词性信息向量,然后词性信息向量会传递给Softmax函数,Softmax函数来计算出词性概率分布;
Step2、Attention机制的训练
当Attention机制搭建完成后,使用老挝语词性标注语料库对Attention机制的参数进行训练,直到模型达到稳定状态,就得到Attention机制,训练过程中,首先使用交叉熵损失函数来计算解码层输出的词性概率分布与真实分布的差距,然后使用Adam算法来减少差距,以此训练Attention机制的参数;
Step3、选择词性概率分布中概率最大的词性作为输出;
Step4、在对老挝句子词性标注时,Attention机制循环Step1,Step3,对老挝句子中的每一个词进行处理,就可以得到该老挝句子的词性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811532384.6A CN109753652A (zh) | 2018-12-14 | 2018-12-14 | 一种基于Attention机制来构建老挝语词性标注模型的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811532384.6A CN109753652A (zh) | 2018-12-14 | 2018-12-14 | 一种基于Attention机制来构建老挝语词性标注模型的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109753652A true CN109753652A (zh) | 2019-05-14 |
Family
ID=66403801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811532384.6A Pending CN109753652A (zh) | 2018-12-14 | 2018-12-14 | 一种基于Attention机制来构建老挝语词性标注模型的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109753652A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116597437A (zh) * | 2023-07-18 | 2023-08-15 | 昆明理工大学 | 融合双层注意力网络的端到端老挝车牌照识别方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491372A (zh) * | 2018-01-31 | 2018-09-04 | 华南理工大学 | 一种基于seq2seq模型的中文分词方法 |
-
2018
- 2018-12-14 CN CN201811532384.6A patent/CN109753652A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491372A (zh) * | 2018-01-31 | 2018-09-04 | 华南理工大学 | 一种基于seq2seq模型的中文分词方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116597437A (zh) * | 2023-07-18 | 2023-08-15 | 昆明理工大学 | 融合双层注意力网络的端到端老挝车牌照识别方法及装置 |
CN116597437B (zh) * | 2023-07-18 | 2023-10-03 | 昆明理工大学 | 融合双层注意力网络的端到端老挝车牌照识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310438B (zh) | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 | |
CN110717334B (zh) | 基于bert模型和双通道注意力的文本情感分析方法 | |
CN104598611B (zh) | 对搜索条目进行排序的方法及系统 | |
CN107578106B (zh) | 一种融合单词语义知识的神经网络自然语言推理方法 | |
CN109948152A (zh) | 一种基于lstm的中文文本语法纠错模型方法 | |
CN109003601A (zh) | 一种针对低资源土家语的跨语言端到端语音识别方法 | |
CN107844469A (zh) | 基于词向量查询模型的文本简化方法 | |
CN108630199A (zh) | 一种声学模型的数据处理方法 | |
CN108170686A (zh) | 文本翻译方法及装置 | |
CN107391623A (zh) | 一种融合多背景知识的知识图谱嵌入方法 | |
CN108133038A (zh) | 一种基于动态记忆网络的实体级别情感分类系统及方法 | |
CN107358948A (zh) | 基于注意力模型的语言输入关联性检测方法 | |
CN107844480B (zh) | 将书面文本转换为口语文本的方法及系统 | |
CN105938485A (zh) | 一种基于卷积循环混合模型的图像描述方法 | |
CN109492202A (zh) | 一种基于拼音的编码与解码模型的中文纠错方法 | |
CN106910497A (zh) | 一种中文词语发音预测方法及装置 | |
CN108197294A (zh) | 一种基于深度学习的文本自动生成方法 | |
CN111666756B (zh) | 一种基于主题融合的序列模型文本摘要生成方法 | |
CN107293291A (zh) | 一种基于自适应学习率的端到端的语音识别方法 | |
CN113761893B (zh) | 一种基于模式预训练的关系抽取方法 | |
CN109670036A (zh) | 一种新闻评论自动生成方法及其装置 | |
CN109857871A (zh) | 一种基于社交网络海量情景数据的用户关系发现方法 | |
CN111753207A (zh) | 一种基于评论的神经图协同过滤模型 | |
CN109918493A (zh) | 一种基于长短期记忆神经网络的对话生成方法 | |
CN109522454A (zh) | 自动生成web样本数据的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190514 |
|
RJ01 | Rejection of invention patent application after publication |