CN109829172B - 一种基于神经翻译的双向解码自动语法改错模型 - Google Patents
一种基于神经翻译的双向解码自动语法改错模型 Download PDFInfo
- Publication number
- CN109829172B CN109829172B CN201910010480.2A CN201910010480A CN109829172B CN 109829172 B CN109829172 B CN 109829172B CN 201910010480 A CN201910010480 A CN 201910010480A CN 109829172 B CN109829172 B CN 109829172B
- Authority
- CN
- China
- Prior art keywords
- encoder
- word
- directional
- decoding
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于神经翻译的双向解码自动语法改错模型,其技术方案要点是包括编码器、双向解码器、注意力机制和目标函数,所述编码器为一种由多层单/双向循环神经网络构成的结构,编码字母级别的语义信息,所述双向解码器为一个多层循环神经网络,通过注意力机制连接编码器,以单词级别逐词解码生成句子,所述注意力机制用于自然语言处理、图像识别及语音识别的各种不同类型的深度学习任务中,所述目标函数为改错模型的具体参数设置。本发明的一种基于神经翻译的双向解码自动语法改错模型采用了字母级别的编码器,来解决由于大量拼写错误导致的OOV问题。
Description
技术领域
本发明涉及一种基于神经翻译的双向解码自动语法改错模型。
背景技术
自动语法改错(Grammatical Error Correction,GEC)主要有基于机器翻译、基于语言模型、基于分类模型等方法。其中目前效果最佳的是基于机器翻译模型的方法,该方法的原理是把需要进行纠正的语言作为源语言,把改错后的语言作为目标语言的翻译过程。基于词组的统计翻译模型(Phrase-based Model)是主流的方法之一。该方法先在训练数据上用IBM Model找出源语言的词组与目标语言词组之间的对应关系,并统计出相应的词组对的概率,然后在语言模型的支持下完成翻译过程。在公开的测试数据集上,比起非机器翻译的模型,性能有了很大的提升。随着基于注意力机制的编码器解码器模型(encoder-decoder)对机器翻译效果的巨大提升,该方法也被运用于GEC任务。在有大量平行语料的支持下,目前基于卷积神经网络编码的神经翻译模型与Transformer,在公开数据集上超过了基于统计翻译的模型。
目前,基于编码器解码器模型的自动语法改错系统,主要有字母级别的编码器解码器结构与单词级别的编码器解码器结构。然而,字母级别的语义表征虽然可以很好的解决Out-Of-Vocabulary(OOV)问题,但其对于深层语义的表征要弱于单词级别的,在GEC问题中,纯粹的字母级别编码效果差于单词级别的GEC系统。虽然单词级别的语义表征比起字母级别的语义表征可以更好地捕捉深层语义,但是由于GEC问题中,源语言会有大量的拼写错误,导致严重的OOV、词汇分布稀疏等问题,需要先做拼写校正才能取得较好的效果。
目前主流的GEC系统中,解码过程采用是循环神经网络结合注意力机制,顺序逐词解码的过程,有正向(按照句子顺序)解码、反向(按照从句子最后一词到句子第一个词的顺序)解码。在语法改错任务中,有的错误需要正向解码如:He has go to school,根据has推理出后面一个词应该用完成时gone;而有时逆向解码更加匹配,如:I have a apple,根据apple推理出定冠词需要用an。有相关的工作采用了多轮纠错,正向解码与逆向解码交替进行,来解决该问题。多轮纠错可以有效提高召回率(Recall),但会降低精准率(Precision)。而在GEC这个任务中,用户对于精准率更加敏感。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种采用了字母级别的编码器,来解决由于大量拼写错误导致的OOV问题的基于神经翻译的双向解码自动语法改错模型。
为实现上述目的,本发明提供了如下技术方案:一种基于神经翻译的双向解码自动语法改错模型,包括编码器、双向解码器、注意力机制和目标函数,所述编码器为一种由多层单/双向循环神经网络构成的结构,编码字母级别的语义信息,所述双向解码器为一个多层循环神经网络,通过注意力机制连接编码器,以单词级别逐词解码生成句子,所述注意力机制用于自然语言处理、图像识别及语音识别的各种不同类型的深度学习任务中,所述目标函数为改错模型的具体参数设置。
本发明进一步设置为:所述编码器为字母级别编码器,所述的字母级别编码器由多层循环网络构成。
本发明进一步设置为:所述的字母级别编码器表示方式为:
输入句子的字母序列的嵌入表示:
其中N为输入长度
将该Xenc 0输入到编码器中:
其中i=1,2,…,L,L为编码器的层数。
本发明进一步设置为:所述双向解码器采用结合注意力机制的多层RNN结构。
本发明进一步设置为:所述的双向解码器中正向解码器的输入的one-hot序列:
Yfw=[y0,y1,y2,...,yM],
相应的词向量表示为ωjw=[w0,w1,w2,...,wM],
其中Attentionfw表示正向注意力函数(下文详述),hj fw正向隐状态,Xenc L是编码器的输出,Wproj fw是投影矩阵,由训练得到,pj fw是输出的概率分布,yj fw表示的概率,j=1,2,…,M。
本发明进一步设置为:所述的双向解码器中反向解码器的one-hot输入序列:
相应的词向量表示为ωbw=wM+1,wM,wM-1,...,w1];
其中Attentionbw表示反向注意力函数(下文详述),hj bw反向隐状态,Xenc L是编码器的输出,Wproj bw是投影矩阵,由训练得到,pj bw是输出的概率分布,yj bw表示的概率,j=M,M-1,…,1。
本发明进一步设置为:所述注意力机制采用全局的Luong Attention机制,其表示方式为:
其中ht是解码器隐状态,hs是编码器第s个输出,s=1,2,…,N。
本发明进一步设置为:所述目标函数包括正向损失函数、反向损失函数、Kullback-Leibler散度和总目标函数。
本发明进一步设置为:所述的正向损失函数为:
所述的反向损失函数为:
所述的Kullback-Leibler散度为:
所述的总目标函数为:
其中,a,b,c∈[0,1],a+b+c=1。
本发明具有下述优点:采用了字母级别的编码器,来解决由于大量拼写错误导致的OOV问题;单词级别的解码器,用来更好地捕捉深层语义信息。解码器由正向解码器与逆向解码器构成,解码过程双向解码同时进行。目标函数的设计中,除了正反向解码相应的交叉熵,另外引入Kullback-Leibler散度来使正反向解码得到的概率分布互相逼近。
附图说明
图1为本发明的模型结构图。
具体实施方式
参照图1所示,本实施例的一种基于神经翻译的双向解码自动语法改错模型,包括编码器、双向解码器、注意力机制和目标函数,所述编码器为一种由多层单/双向循环神经网络构成的结构,编码字母级别的语义信息,所述双向解码器为一个多层循环神经网络,通过注意力机制连接编码器,以单词级别逐词解码生成句子,所述注意力机制用于自然语言处理、图像识别及语音识别的各种不同类型的深度学习任务中,所述目标函数为改错模型的具体参数设置。
所述编码器为字母级别编码器,所述的字母级别编码器由多层循环网络构成。
所述的字母级别编码器表示方式为:
输入句子的字母序列的嵌入表示:
其中N为输入长度
将该Xenc 0输入到编码器中:
其中i=1,2,…,L,L为编码器的层数。
所述双向解码器采用结合注意力机制的多层RNN结构。
所述的双向解码器中正向解码器的输入的one-hot序列:
Yfw=[y0,y1,y2,...,yM],
相应的词向量表示为ωfw=[w0,w1,w2,...,wM],
其中Attentionfw表示正向注意力函数(下文详述),hj fw正向隐状态,Xenc L是编码器的输出,Wproj fw是投影矩阵,由训练得到,pj fw是输出的概率分布,yj fw表示的概率,j=1,2,…,M。
所述的双向解码器中反向解码器的one-hot输入序列:
相应的词向量表示为ωbw=[wM+1,wM,wM-1,...,w1];
其中Attentionbw表示反向注意力函数(下文详述),hj bw反向隐状态,Xenc L是编码器的输出,Wproj bw是投影矩阵,由训练得到,pj bw是输出的概率分布,yj bw表示的概率,j=M,M-1,…,1。
所述注意力机制采用全局的Luong Attention机制,其表示方式为:
其中ht是解码器隐状态,hs是编码器第s个输出,s=1,2,…,N。
所述目标函数包括正向损失函数、反向损失函数、Kullback-Leibler散度和总目标函数。
所述的正向损失函数为:
所述的反向损失函数为:
所述的Kullback-Leibler散度为:
所述的总目标函数为:
其中,a,b,c∈[0,1],a+b+c=1。
技术效果(表1)
GEC任务的主要评价指标为M2与GLEU,在先声GEC测试集上,与单向系统相比,该双向解码的方法在M2与GLEU两个指标上均取得了显著的提高。
1.编码器与解码器的RNN结构可以是GRU、LSTM等变体,编码器也可以采用卷积神经网络进行编码。
2.目标函数中的Kullback-Leibler散度也可由Euclidean Distance,CosineDistance等替代。
3.Luong Attention可以由其它注意力机制,如Bahdanau Attention等。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (3)
1.一种基于神经翻译的双向解码自动语法改错模型,其特征在于:包括编码器、双向解码器、注意力机制和目标函数,所述编码器为字母级别编码器,为一种由多层单/双向循环神经网络构成的结构,编码字母级别的语义信息,所述双向解码器为一个多层循环神经网络,通过注意力机制连接编码器,以单词级别逐词解码生成句子,所述注意力机制用于自然语言处理、图像识别及语音识别的各种不同类型的深度学习任务中,所述目标函数为改错模型的具体参数设置;
其中,所述注意力机制采用全局的梁氏注意力Luong Attention机制,其表示方式为:
其中,ht是解码器隐状态,hs是编码器第s个输出,s=1,2,…,N;
其中,所述双向解码器在以单词级别逐词解码生成句子的过程,包括:正向解码和反向解码,所述双向解码器用于语法改错。
3.根据权利要求1所述的一种基于神经翻译的双向解码自动语法改错模型,其特征在于:所述目标函数包括正向损失函数、反向损失函数、Kullback-Leibler散度和总目标函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910010480.2A CN109829172B (zh) | 2019-01-04 | 2019-01-04 | 一种基于神经翻译的双向解码自动语法改错模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910010480.2A CN109829172B (zh) | 2019-01-04 | 2019-01-04 | 一种基于神经翻译的双向解码自动语法改错模型 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109829172A CN109829172A (zh) | 2019-05-31 |
CN109829172B true CN109829172B (zh) | 2023-07-04 |
Family
ID=66861643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910010480.2A Active CN109829172B (zh) | 2019-01-04 | 2019-01-04 | 一种基于神经翻译的双向解码自动语法改错模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109829172B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442693B (zh) * | 2019-07-27 | 2022-02-22 | 中国科学院自动化研究所 | 基于人工智能的回复消息生成方法、装置、服务器及介质 |
CN112446221B (zh) * | 2019-08-14 | 2023-12-15 | 阿里巴巴集团控股有限公司 | 翻译评估方法、装置、系统及计算机存储介质 |
CN111767717B (zh) * | 2020-05-13 | 2023-12-08 | 广东外语外贸大学 | 印尼语的语法纠错方法、装置、设备及存储介质 |
KR20210145490A (ko) | 2020-05-25 | 2021-12-02 | 삼성전자주식회사 | 어텐션 기반 시퀀스 투 시퀀스 모델의 성능 향상 방법 및 장치 |
CN111859927B (zh) * | 2020-06-01 | 2024-03-15 | 北京先声智能科技有限公司 | 一种基于注意力共享Transformer的语法改错模型 |
CN112364665A (zh) * | 2020-10-11 | 2021-02-12 | 广州九四智能科技有限公司 | 一种语义提取方法、装置、计算机设备及存储介质 |
CN112597778B (zh) * | 2020-12-14 | 2023-06-13 | 华为技术有限公司 | 一种翻译模型的训练方法、翻译方法以及设备 |
CN112767917B (zh) * | 2020-12-31 | 2022-05-17 | 科大讯飞股份有限公司 | 语音识别方法、装置及存储介质 |
CN114298061B (zh) * | 2022-03-07 | 2022-12-06 | 阿里巴巴(中国)有限公司 | 机器翻译及模型训练质量评估方法、电子设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126507B (zh) * | 2016-06-22 | 2019-08-09 | 哈尔滨工业大学深圳研究生院 | 一种基于字符编码的深度神经翻译方法及系统 |
CN107423290A (zh) * | 2017-04-19 | 2017-12-01 | 厦门大学 | 一种基于层次结构的神经网络机器翻译模型 |
CN107357789B (zh) * | 2017-07-14 | 2020-10-02 | 哈尔滨工业大学 | 融合多语编码信息的神经机器翻译方法 |
CN108647214B (zh) * | 2018-03-29 | 2020-06-30 | 中国科学院自动化研究所 | 基于深层神经网络翻译模型的解码方法 |
-
2019
- 2019-01-04 CN CN201910010480.2A patent/CN109829172B/zh active Active
Non-Patent Citations (2)
Title |
---|
Effective Approaches to Attention-based Neural Machine Translation;Minh-Thang Luong等;《EMNLP》;20151231;全文 * |
陈宗海.系统仿真技术及其应用.《系统仿真技术及其应用》.2018, * |
Also Published As
Publication number | Publication date |
---|---|
CN109829172A (zh) | 2019-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829172B (zh) | 一种基于神经翻译的双向解码自动语法改错模型 | |
Zeyer et al. | Improved training of end-to-end attention models for speech recognition | |
Guo et al. | A spelling correction model for end-to-end speech recognition | |
Likhomanenko et al. | Rethinking evaluation in asr: Are our models robust enough? | |
Anastasopoulos et al. | Tied multitask learning for neural speech translation | |
Ghannay et al. | End-to-end named entity and semantic concept extraction from speech | |
CN107408384B (zh) | 部署的端对端语音识别 | |
Bérard et al. | Listen and translate: A proof of concept for end-to-end speech-to-text translation | |
Gravano et al. | Restoring punctuation and capitalization in transcribed speech | |
JP2020505650A (ja) | 音声認識システム及び音声認識の方法 | |
Chitnis et al. | Variable-length word encodings for neural translation models | |
Zhang et al. | Investigation of Transformer Based Spelling Correction Model for CTC-Based End-to-End Mandarin Speech Recognition. | |
Chen et al. | ASR error detection in a conversational spoken language translation system | |
US20200193977A1 (en) | Transliteration for speech recognition training and scoring | |
Shivakumar et al. | Learning from past mistakes: improving automatic speech recognition output via noisy-clean phrase context modeling | |
Bahar et al. | Tight integrated end-to-end training for cascaded speech translation | |
KR102286999B1 (ko) | 듀얼 포인터 네트워크를 이용한 복수 개체간 관계를 추출하는 장치 및 방법 | |
Zhang et al. | Automatic spelling correction with transformer for ctc-based end-to-end speech recognition | |
Abandah et al. | Accurate and fast recurrent neural network solution for the automatic diacritization of Arabic text | |
Garg et al. | Dual language models for code switched speech recognition | |
Srivastava et al. | Homophone Identification and Merging for Code-switched Speech Recognition. | |
Chen et al. | Large-scale language model rescoring on long-form data | |
CN117099157A (zh) | 用于端到端自动语音识别置信度和删除估计的多任务学习 | |
CN110738989B (zh) | 一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法 | |
Diwan et al. | Reduce and reconstruct: ASR for low-resource phonetic languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room 155, bungalow 17, No. 12, Jiancai Chengzhong Road, Xisanqi, Haidian District, Beijing 100096 Applicant after: BEIJING SINGSOUND INTELLIGENT TECHNOLOGY Co.,Ltd. Address before: 1027 bungalows, building 10, Beijing Xijiao farm, Shangzhuang village, Shangzhuang Township, Haidian District, Beijing Applicant before: BEIJING SINGSOUND INTELLIGENT TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |