CN109829172B

CN109829172B - 一种基于神经翻译的双向解码自动语法改错模型

Info

Publication number: CN109829172B
Application number: CN201910010480.2A
Authority: CN
Inventors: 秦龙; 陆勇毅; 徐书尧
Original assignee: Beijing Singsound Intelligent Technology Co ltd
Current assignee: Beijing Singsound Intelligent Technology Co ltd
Priority date: 2019-01-04
Filing date: 2019-01-04
Publication date: 2023-07-04
Anticipated expiration: 2039-01-04
Also published as: CN109829172A

Abstract

本发明公开了一种基于神经翻译的双向解码自动语法改错模型，其技术方案要点是包括编码器、双向解码器、注意力机制和目标函数，所述编码器为一种由多层单/双向循环神经网络构成的结构，编码字母级别的语义信息，所述双向解码器为一个多层循环神经网络，通过注意力机制连接编码器，以单词级别逐词解码生成句子，所述注意力机制用于自然语言处理、图像识别及语音识别的各种不同类型的深度学习任务中，所述目标函数为改错模型的具体参数设置。本发明的一种基于神经翻译的双向解码自动语法改错模型采用了字母级别的编码器，来解决由于大量拼写错误导致的OOV问题。

Description

一种基于神经翻译的双向解码自动语法改错模型

技术领域

本发明涉及一种基于神经翻译的双向解码自动语法改错模型。

背景技术

自动语法改错(Grammatical Error Correction，GEC)主要有基于机器翻译、基于语言模型、基于分类模型等方法。其中目前效果最佳的是基于机器翻译模型的方法，该方法的原理是把需要进行纠正的语言作为源语言，把改错后的语言作为目标语言的翻译过程。基于词组的统计翻译模型(Phrase-based Model)是主流的方法之一。该方法先在训练数据上用IBM Model找出源语言的词组与目标语言词组之间的对应关系，并统计出相应的词组对的概率，然后在语言模型的支持下完成翻译过程。在公开的测试数据集上，比起非机器翻译的模型，性能有了很大的提升。随着基于注意力机制的编码器解码器模型(encoder-decoder)对机器翻译效果的巨大提升，该方法也被运用于GEC任务。在有大量平行语料的支持下，目前基于卷积神经网络编码的神经翻译模型与Transformer，在公开数据集上超过了基于统计翻译的模型。

目前，基于编码器解码器模型的自动语法改错系统，主要有字母级别的编码器解码器结构与单词级别的编码器解码器结构。然而，字母级别的语义表征虽然可以很好的解决Out-Of-Vocabulary(OOV)问题，但其对于深层语义的表征要弱于单词级别的，在GEC问题中，纯粹的字母级别编码效果差于单词级别的GEC系统。虽然单词级别的语义表征比起字母级别的语义表征可以更好地捕捉深层语义，但是由于GEC问题中，源语言会有大量的拼写错误，导致严重的OOV、词汇分布稀疏等问题，需要先做拼写校正才能取得较好的效果。

目前主流的GEC系统中，解码过程采用是循环神经网络结合注意力机制，顺序逐词解码的过程，有正向(按照句子顺序)解码、反向(按照从句子最后一词到句子第一个词的顺序)解码。在语法改错任务中，有的错误需要正向解码如：He has go to school，根据has推理出后面一个词应该用完成时gone；而有时逆向解码更加匹配，如：I have a apple，根据apple推理出定冠词需要用an。有相关的工作采用了多轮纠错，正向解码与逆向解码交替进行，来解决该问题。多轮纠错可以有效提高召回率(Recall)，但会降低精准率(Precision)。而在GEC这个任务中，用户对于精准率更加敏感。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种采用了字母级别的编码器，来解决由于大量拼写错误导致的OOV问题的基于神经翻译的双向解码自动语法改错模型。

为实现上述目的，本发明提供了如下技术方案：一种基于神经翻译的双向解码自动语法改错模型，包括编码器、双向解码器、注意力机制和目标函数，所述编码器为一种由多层单/双向循环神经网络构成的结构，编码字母级别的语义信息，所述双向解码器为一个多层循环神经网络，通过注意力机制连接编码器，以单词级别逐词解码生成句子，所述注意力机制用于自然语言处理、图像识别及语音识别的各种不同类型的深度学习任务中，所述目标函数为改错模型的具体参数设置。

本发明进一步设置为：所述编码器为字母级别编码器，所述的字母级别编码器由多层循环网络构成。

本发明进一步设置为：所述的字母级别编码器表示方式为：

输入句子的字母序列的嵌入表示：

其中N为输入长度

将该X_enc ⁰输入到编码器中：

其中i＝1，2，…，L，L为编码器的层数。

本发明进一步设置为：所述双向解码器采用结合注意力机制的多层RNN结构。

本发明进一步设置为：所述的双向解码器中正向解码器的输入的one-hot序列：

Y^fw＝[y₀，y₁，y₂，...，y_M]，

相应的词向量表示为ω^jw＝[w₀，w₁，w₂，...，w_M]，

其中Attention^fw表示正向注意力函数(下文详述)，h_j ^fw正向隐状态，X_enc ^L是编码器的输出，W_proj ^fw是投影矩阵，由训练得到，p_j ^fw是输出的概率分布，y_j ^fw表示

的概率，j＝1，2，…，M。

本发明进一步设置为：所述的双向解码器中反向解码器的one-hot输入序列：

相应的词向量表示为ω^bw＝w_M+1，w_M，w_M-1，...，w₁]；

其中

w_M+1＝w₀，为句子的初始输入；

其中Attention^bw表示反向注意力函数(下文详述)，h_j ^bw反向隐状态，X_enc ^L是编码器的输出，W_proj ^bw是投影矩阵，由训练得到，p_j ^bw是输出的概率分布，y_j ^bw表示

的概率，j＝M，M-1，…，1。

本发明进一步设置为：所述注意力机制采用全局的Luong Attention机制，其表示方式为：

其中h_t是解码器隐状态，h_s是编码器第s个输出，s＝1，2，…，N。

本发明进一步设置为：所述目标函数包括正向损失函数、反向损失函数、Kullback-Leibler散度和总目标函数。

本发明进一步设置为：所述的正向损失函数为：

所述的反向损失函数为：

所述的Kullback-Leibler散度为：

所述的总目标函数为：

其中，a，b，c∈[0，1]，a+b+c＝1。

本发明进一步设置为：θ_enc为编码器的参数，

为正向注意力机制的参数，/>

为正向解码器参数，/>

为反向注意力参数，/>

为反向解码器参数。

本发明具有下述优点：采用了字母级别的编码器，来解决由于大量拼写错误导致的OOV问题；单词级别的解码器，用来更好地捕捉深层语义信息。解码器由正向解码器与逆向解码器构成，解码过程双向解码同时进行。目标函数的设计中，除了正反向解码相应的交叉熵，另外引入Kullback-Leibler散度来使正反向解码得到的概率分布互相逼近。

附图说明

图1为本发明的模型结构图。

具体实施方式

参照图1所示，本实施例的一种基于神经翻译的双向解码自动语法改错模型，包括编码器、双向解码器、注意力机制和目标函数，所述编码器为一种由多层单/双向循环神经网络构成的结构，编码字母级别的语义信息，所述双向解码器为一个多层循环神经网络，通过注意力机制连接编码器，以单词级别逐词解码生成句子，所述注意力机制用于自然语言处理、图像识别及语音识别的各种不同类型的深度学习任务中，所述目标函数为改错模型的具体参数设置。

所述编码器为字母级别编码器，所述的字母级别编码器由多层循环网络构成。

所述的字母级别编码器表示方式为：

输入句子的字母序列的嵌入表示：

其中N为输入长度

将该X_enc ⁰输入到编码器中：

其中i＝1，2，…，L，L为编码器的层数。

所述双向解码器采用结合注意力机制的多层RNN结构。

所述的双向解码器中正向解码器的输入的one-hot序列：

Y^fw＝[y₀，y₁，y₂，...，y_M]，

相应的词向量表示为ω^fw＝[w₀，w₁，w₂，...，w_M]，

的概率，j＝1，2，…，M。

所述的双向解码器中反向解码器的one-hot输入序列：

相应的词向量表示为ω^bw＝[w_M+1，w_M，w_M-1，...，w₁]；

其中

w_M+1＝w₀，为句子的初始输入；

的概率，j＝M，M-1，…，1。

所述注意力机制采用全局的Luong Attention机制，其表示方式为：

所述目标函数包括正向损失函数、反向损失函数、Kullback-Leibler散度和总目标函数。

所述的正向损失函数为：

所述的反向损失函数为：

所述的Kullback-Leibler散度为：

所述的总目标函数为：

其中，a，b，c∈[0，1]，a+b+c＝1。

θ_enc为编码器的参数，

为正向注意力机制的参数，/>

为正向解码器参数，/>

为反向注意力参数，/>

为反向解码器参数。

技术效果(表1)

GEC任务的主要评价指标为M2与GLEU，在先声GEC测试集上，与单向系统相比，该双向解码的方法在M2与GLEU两个指标上均取得了显著的提高。

1.编码器与解码器的RNN结构可以是GRU、LSTM等变体，编码器也可以采用卷积神经网络进行编码。

2.目标函数中的Kullback-Leibler散度也可由Euclidean Distance，CosineDistance等替代。

3.Luong Attention可以由其它注意力机制，如Bahdanau Attention等。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于神经翻译的双向解码自动语法改错模型，其特征在于：包括编码器、双向解码器、注意力机制和目标函数，所述编码器为字母级别编码器,为一种由多层单/双向循环神经网络构成的结构，编码字母级别的语义信息，所述双向解码器为一个多层循环神经网络，通过注意力机制连接编码器，以单词级别逐词解码生成句子，所述注意力机制用于自然语言处理、图像识别及语音识别的各种不同类型的深度学习任务中,所述目标函数为改错模型的具体参数设置；

其中，所述注意力机制采用全局的梁氏注意力Luong Attention机制，其表示方式为：

其中，h_t是解码器隐状态，h_s是编码器第s个输出，s＝1,2,…,N；

其中，所述双向解码器在以单词级别逐词解码生成句子的过程，包括：正向解码和反向解码，所述双向解码器用于语法改错。

2.根据权利要求1所述的一种基于神经翻译的双向解码自动语法改错模型，其特征在于：所述的字母级别编码器表示方式为：

输入句子的字母序列的嵌入表示：

其中N为输入长度

将该X_enc ⁰输入到编码器中：

其中i＝1,2,…,L,L为编码器的层数。

3.根据权利要求1所述的一种基于神经翻译的双向解码自动语法改错模型，其特征在于：所述目标函数包括正向损失函数、反向损失函数、Kullback-Leibler散度和总目标函数。