CN109829172B - 一种基于神经翻译的双向解码自动语法改错模型 - Google Patents

一种基于神经翻译的双向解码自动语法改错模型 Download PDF

Info

Publication number
CN109829172B
CN109829172B CN201910010480.2A CN201910010480A CN109829172B CN 109829172 B CN109829172 B CN 109829172B CN 201910010480 A CN201910010480 A CN 201910010480A CN 109829172 B CN109829172 B CN 109829172B
Authority
CN
China
Prior art keywords
encoder
word
directional
decoding
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910010480.2A
Other languages
English (en)
Other versions
CN109829172A (zh
Inventor
秦龙
陆勇毅
徐书尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Singsound Intelligent Technology Co ltd
Original Assignee
Beijing Singsound Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Singsound Intelligent Technology Co ltd filed Critical Beijing Singsound Intelligent Technology Co ltd
Priority to CN201910010480.2A priority Critical patent/CN109829172B/zh
Publication of CN109829172A publication Critical patent/CN109829172A/zh
Application granted granted Critical
Publication of CN109829172B publication Critical patent/CN109829172B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于神经翻译的双向解码自动语法改错模型,其技术方案要点是包括编码器、双向解码器、注意力机制和目标函数,所述编码器为一种由多层单/双向循环神经网络构成的结构,编码字母级别的语义信息,所述双向解码器为一个多层循环神经网络,通过注意力机制连接编码器,以单词级别逐词解码生成句子,所述注意力机制用于自然语言处理、图像识别及语音识别的各种不同类型的深度学习任务中,所述目标函数为改错模型的具体参数设置。本发明的一种基于神经翻译的双向解码自动语法改错模型采用了字母级别的编码器,来解决由于大量拼写错误导致的OOV问题。

Description

一种基于神经翻译的双向解码自动语法改错模型
技术领域
本发明涉及一种基于神经翻译的双向解码自动语法改错模型。
背景技术
自动语法改错(Grammatical Error Correction,GEC)主要有基于机器翻译、基于语言模型、基于分类模型等方法。其中目前效果最佳的是基于机器翻译模型的方法,该方法的原理是把需要进行纠正的语言作为源语言,把改错后的语言作为目标语言的翻译过程。基于词组的统计翻译模型(Phrase-based Model)是主流的方法之一。该方法先在训练数据上用IBM Model找出源语言的词组与目标语言词组之间的对应关系,并统计出相应的词组对的概率,然后在语言模型的支持下完成翻译过程。在公开的测试数据集上,比起非机器翻译的模型,性能有了很大的提升。随着基于注意力机制的编码器解码器模型(encoder-decoder)对机器翻译效果的巨大提升,该方法也被运用于GEC任务。在有大量平行语料的支持下,目前基于卷积神经网络编码的神经翻译模型与Transformer,在公开数据集上超过了基于统计翻译的模型。
目前,基于编码器解码器模型的自动语法改错系统,主要有字母级别的编码器解码器结构与单词级别的编码器解码器结构。然而,字母级别的语义表征虽然可以很好的解决Out-Of-Vocabulary(OOV)问题,但其对于深层语义的表征要弱于单词级别的,在GEC问题中,纯粹的字母级别编码效果差于单词级别的GEC系统。虽然单词级别的语义表征比起字母级别的语义表征可以更好地捕捉深层语义,但是由于GEC问题中,源语言会有大量的拼写错误,导致严重的OOV、词汇分布稀疏等问题,需要先做拼写校正才能取得较好的效果。
目前主流的GEC系统中,解码过程采用是循环神经网络结合注意力机制,顺序逐词解码的过程,有正向(按照句子顺序)解码、反向(按照从句子最后一词到句子第一个词的顺序)解码。在语法改错任务中,有的错误需要正向解码如:He has go to school,根据has推理出后面一个词应该用完成时gone;而有时逆向解码更加匹配,如:I have a apple,根据apple推理出定冠词需要用an。有相关的工作采用了多轮纠错,正向解码与逆向解码交替进行,来解决该问题。多轮纠错可以有效提高召回率(Recall),但会降低精准率(Precision)。而在GEC这个任务中,用户对于精准率更加敏感。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种采用了字母级别的编码器,来解决由于大量拼写错误导致的OOV问题的基于神经翻译的双向解码自动语法改错模型。
为实现上述目的,本发明提供了如下技术方案:一种基于神经翻译的双向解码自动语法改错模型,包括编码器、双向解码器、注意力机制和目标函数,所述编码器为一种由多层单/双向循环神经网络构成的结构,编码字母级别的语义信息,所述双向解码器为一个多层循环神经网络,通过注意力机制连接编码器,以单词级别逐词解码生成句子,所述注意力机制用于自然语言处理、图像识别及语音识别的各种不同类型的深度学习任务中,所述目标函数为改错模型的具体参数设置。
本发明进一步设置为:所述编码器为字母级别编码器,所述的字母级别编码器由多层循环网络构成。
本发明进一步设置为:所述的字母级别编码器表示方式为:
输入句子的字母序列的嵌入表示:
Figure BDA0001936128610000031
其中N为输入长度
将该Xenc 0输入到编码器中:
Figure BDA0001936128610000032
其中i=1,2,…,L,L为编码器的层数。
本发明进一步设置为:所述双向解码器采用结合注意力机制的多层RNN结构。
本发明进一步设置为:所述的双向解码器中正向解码器的输入的one-hot序列:
Yfw=[y0,y1,y2,...,yM],
相应的词向量表示为ωjw=[w0,w1,w2,...,wM],
Figure BDA0001936128610000033
Figure BDA0001936128610000034
Figure BDA0001936128610000035
Figure BDA0001936128610000036
其中Attentionfw表示正向注意力函数(下文详述),hj fw正向隐状态,Xenc L是编码器的输出,Wproj fw是投影矩阵,由训练得到,pj fw是输出的概率分布,yj fw表示
Figure BDA0001936128610000041
的概率,j=1,2,…,M。
本发明进一步设置为:所述的双向解码器中反向解码器的one-hot输入序列:
Figure BDA0001936128610000042
相应的词向量表示为ωbw=wM+1,wM,wM-1,...,w1];
其中
Figure BDA0001936128610000043
wM+1=w0,为句子的初始输入;
Figure BDA0001936128610000044
Figure BDA0001936128610000045
Figure BDA0001936128610000046
Figure BDA0001936128610000047
其中Attentionbw表示反向注意力函数(下文详述),hj bw反向隐状态,Xenc L是编码器的输出,Wproj bw是投影矩阵,由训练得到,pj bw是输出的概率分布,yj bw表示
Figure BDA0001936128610000048
的概率,j=M,M-1,…,1。
本发明进一步设置为:所述注意力机制采用全局的Luong Attention机制,其表示方式为:
Figure BDA0001936128610000049
Figure BDA00019361286100000410
Figure BDA00019361286100000411
其中ht是解码器隐状态,hs是编码器第s个输出,s=1,2,…,N。
本发明进一步设置为:所述目标函数包括正向损失函数、反向损失函数、Kullback-Leibler散度和总目标函数。
本发明进一步设置为:所述的正向损失函数为:
Figure BDA0001936128610000051
所述的反向损失函数为:
Figure BDA0001936128610000052
所述的Kullback-Leibler散度为:
Figure BDA0001936128610000053
所述的总目标函数为:
Figure BDA0001936128610000054
其中,a,b,c∈[0,1],a+b+c=1。
本发明进一步设置为:θenc为编码器的参数,
Figure BDA0001936128610000055
为正向注意力机制的参数,/>
Figure BDA0001936128610000056
为正向解码器参数,/>
Figure BDA0001936128610000057
为反向注意力参数,/>
Figure BDA0001936128610000058
为反向解码器参数。
本发明具有下述优点:采用了字母级别的编码器,来解决由于大量拼写错误导致的OOV问题;单词级别的解码器,用来更好地捕捉深层语义信息。解码器由正向解码器与逆向解码器构成,解码过程双向解码同时进行。目标函数的设计中,除了正反向解码相应的交叉熵,另外引入Kullback-Leibler散度来使正反向解码得到的概率分布互相逼近。
附图说明
图1为本发明的模型结构图。
具体实施方式
参照图1所示,本实施例的一种基于神经翻译的双向解码自动语法改错模型,包括编码器、双向解码器、注意力机制和目标函数,所述编码器为一种由多层单/双向循环神经网络构成的结构,编码字母级别的语义信息,所述双向解码器为一个多层循环神经网络,通过注意力机制连接编码器,以单词级别逐词解码生成句子,所述注意力机制用于自然语言处理、图像识别及语音识别的各种不同类型的深度学习任务中,所述目标函数为改错模型的具体参数设置。
所述编码器为字母级别编码器,所述的字母级别编码器由多层循环网络构成。
所述的字母级别编码器表示方式为:
输入句子的字母序列的嵌入表示:
Figure BDA0001936128610000061
其中N为输入长度
将该Xenc 0输入到编码器中:
Figure BDA0001936128610000062
其中i=1,2,…,L,L为编码器的层数。
所述双向解码器采用结合注意力机制的多层RNN结构。
所述的双向解码器中正向解码器的输入的one-hot序列:
Yfw=[y0,y1,y2,...,yM],
相应的词向量表示为ωfw=[w0,w1,w2,...,wM],
Figure BDA0001936128610000071
Figure BDA0001936128610000072
Figure BDA0001936128610000073
Figure BDA0001936128610000074
其中Attentionfw表示正向注意力函数(下文详述),hj fw正向隐状态,Xenc L是编码器的输出,Wproj fw是投影矩阵,由训练得到,pj fw是输出的概率分布,yj fw表示
Figure BDA0001936128610000075
的概率,j=1,2,…,M。
所述的双向解码器中反向解码器的one-hot输入序列:
Figure BDA0001936128610000076
相应的词向量表示为ωbw=[wM+1,wM,wM-1,...,w1];
其中
Figure BDA0001936128610000077
wM+1=w0,为句子的初始输入;
Figure BDA0001936128610000078
Figure BDA0001936128610000079
Figure BDA00019361286100000710
Figure BDA00019361286100000711
其中Attentionbw表示反向注意力函数(下文详述),hj bw反向隐状态,Xenc L是编码器的输出,Wproj bw是投影矩阵,由训练得到,pj bw是输出的概率分布,yj bw表示
Figure BDA00019361286100000712
的概率,j=M,M-1,…,1。
所述注意力机制采用全局的Luong Attention机制,其表示方式为:
Figure BDA00019361286100000713
Figure BDA00019361286100000714
Figure BDA0001936128610000081
其中ht是解码器隐状态,hs是编码器第s个输出,s=1,2,…,N。
所述目标函数包括正向损失函数、反向损失函数、Kullback-Leibler散度和总目标函数。
所述的正向损失函数为:
Figure BDA0001936128610000082
所述的反向损失函数为:
Figure BDA0001936128610000083
所述的Kullback-Leibler散度为:
Figure BDA0001936128610000084
所述的总目标函数为:
Figure BDA0001936128610000085
其中,a,b,c∈[0,1],a+b+c=1。
θenc为编码器的参数,
Figure BDA0001936128610000086
为正向注意力机制的参数,/>
Figure BDA0001936128610000087
为正向解码器参数,/>
Figure BDA0001936128610000088
为反向注意力参数,/>
Figure BDA0001936128610000089
为反向解码器参数。
技术效果(表1)
Figure BDA00019361286100000810
GEC任务的主要评价指标为M2与GLEU,在先声GEC测试集上,与单向系统相比,该双向解码的方法在M2与GLEU两个指标上均取得了显著的提高。
1.编码器与解码器的RNN结构可以是GRU、LSTM等变体,编码器也可以采用卷积神经网络进行编码。
2.目标函数中的Kullback-Leibler散度也可由Euclidean Distance,CosineDistance等替代。
3.Luong Attention可以由其它注意力机制,如Bahdanau Attention等。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (3)

1.一种基于神经翻译的双向解码自动语法改错模型,其特征在于:包括编码器、双向解码器、注意力机制和目标函数,所述编码器为字母级别编码器,为一种由多层单/双向循环神经网络构成的结构,编码字母级别的语义信息,所述双向解码器为一个多层循环神经网络,通过注意力机制连接编码器,以单词级别逐词解码生成句子,所述注意力机制用于自然语言处理、图像识别及语音识别的各种不同类型的深度学习任务中,所述目标函数为改错模型的具体参数设置;
其中,所述注意力机制采用全局的梁氏注意力Luong Attention机制,其表示方式为:
Figure FDA0004191112140000011
Figure FDA0004191112140000012
Figure FDA0004191112140000013
其中,ht是解码器隐状态,hs是编码器第s个输出,s=1,2,…,N;
其中,所述双向解码器在以单词级别逐词解码生成句子的过程,包括:正向解码和反向解码,所述双向解码器用于语法改错。
2.根据权利要求1所述的一种基于神经翻译的双向解码自动语法改错模型,其特征在于:所述的字母级别编码器表示方式为:
输入句子的字母序列的嵌入表示:
Figure FDA0004191112140000021
其中N为输入长度
将该Xenc 0输入到编码器中:
Figure FDA0004191112140000022
其中i=1,2,…,L,L为编码器的层数。
3.根据权利要求1所述的一种基于神经翻译的双向解码自动语法改错模型,其特征在于:所述目标函数包括正向损失函数、反向损失函数、Kullback-Leibler散度和总目标函数。
CN201910010480.2A 2019-01-04 2019-01-04 一种基于神经翻译的双向解码自动语法改错模型 Active CN109829172B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910010480.2A CN109829172B (zh) 2019-01-04 2019-01-04 一种基于神经翻译的双向解码自动语法改错模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910010480.2A CN109829172B (zh) 2019-01-04 2019-01-04 一种基于神经翻译的双向解码自动语法改错模型

Publications (2)

Publication Number Publication Date
CN109829172A CN109829172A (zh) 2019-05-31
CN109829172B true CN109829172B (zh) 2023-07-04

Family

ID=66861643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910010480.2A Active CN109829172B (zh) 2019-01-04 2019-01-04 一种基于神经翻译的双向解码自动语法改错模型

Country Status (1)

Country Link
CN (1) CN109829172B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442693B (zh) * 2019-07-27 2022-02-22 中国科学院自动化研究所 基于人工智能的回复消息生成方法、装置、服务器及介质
CN112446221B (zh) * 2019-08-14 2023-12-15 阿里巴巴集团控股有限公司 翻译评估方法、装置、系统及计算机存储介质
CN111767717B (zh) * 2020-05-13 2023-12-08 广东外语外贸大学 印尼语的语法纠错方法、装置、设备及存储介质
KR20210145490A (ko) 2020-05-25 2021-12-02 삼성전자주식회사 어텐션 기반 시퀀스 투 시퀀스 모델의 성능 향상 방법 및 장치
CN111859927B (zh) * 2020-06-01 2024-03-15 北京先声智能科技有限公司 一种基于注意力共享Transformer的语法改错模型
CN112364665A (zh) * 2020-10-11 2021-02-12 广州九四智能科技有限公司 一种语义提取方法、装置、计算机设备及存储介质
CN112597778B (zh) * 2020-12-14 2023-06-13 华为技术有限公司 一种翻译模型的训练方法、翻译方法以及设备
CN112767917B (zh) * 2020-12-31 2022-05-17 科大讯飞股份有限公司 语音识别方法、装置及存储介质
CN114298061B (zh) * 2022-03-07 2022-12-06 阿里巴巴(中国)有限公司 机器翻译及模型训练质量评估方法、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126507B (zh) * 2016-06-22 2019-08-09 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN107423290A (zh) * 2017-04-19 2017-12-01 厦门大学 一种基于层次结构的神经网络机器翻译模型
CN107357789B (zh) * 2017-07-14 2020-10-02 哈尔滨工业大学 融合多语编码信息的神经机器翻译方法
CN108647214B (zh) * 2018-03-29 2020-06-30 中国科学院自动化研究所 基于深层神经网络翻译模型的解码方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Effective Approaches to Attention-based Neural Machine Translation;Minh-Thang Luong等;《EMNLP》;20151231;全文 *
陈宗海.系统仿真技术及其应用.《系统仿真技术及其应用》.2018, *

Also Published As

Publication number Publication date
CN109829172A (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
CN109829172B (zh) 一种基于神经翻译的双向解码自动语法改错模型
Zeyer et al. Improved training of end-to-end attention models for speech recognition
Guo et al. A spelling correction model for end-to-end speech recognition
Likhomanenko et al. Rethinking evaluation in asr: Are our models robust enough?
Anastasopoulos et al. Tied multitask learning for neural speech translation
Ghannay et al. End-to-end named entity and semantic concept extraction from speech
CN107408384B (zh) 部署的端对端语音识别
Bérard et al. Listen and translate: A proof of concept for end-to-end speech-to-text translation
Gravano et al. Restoring punctuation and capitalization in transcribed speech
JP2020505650A (ja) 音声認識システム及び音声認識の方法
Chitnis et al. Variable-length word encodings for neural translation models
Zhang et al. Investigation of Transformer Based Spelling Correction Model for CTC-Based End-to-End Mandarin Speech Recognition.
Chen et al. ASR error detection in a conversational spoken language translation system
US20200193977A1 (en) Transliteration for speech recognition training and scoring
Shivakumar et al. Learning from past mistakes: improving automatic speech recognition output via noisy-clean phrase context modeling
Bahar et al. Tight integrated end-to-end training for cascaded speech translation
KR102286999B1 (ko) 듀얼 포인터 네트워크를 이용한 복수 개체간 관계를 추출하는 장치 및 방법
Zhang et al. Automatic spelling correction with transformer for ctc-based end-to-end speech recognition
Abandah et al. Accurate and fast recurrent neural network solution for the automatic diacritization of Arabic text
Garg et al. Dual language models for code switched speech recognition
Srivastava et al. Homophone Identification and Merging for Code-switched Speech Recognition.
Chen et al. Large-scale language model rescoring on long-form data
CN117099157A (zh) 用于端到端自动语音识别置信度和删除估计的多任务学习
CN110738989B (zh) 一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法
Diwan et al. Reduce and reconstruct: ASR for low-resource phonetic languages

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 155, bungalow 17, No. 12, Jiancai Chengzhong Road, Xisanqi, Haidian District, Beijing 100096

Applicant after: BEIJING SINGSOUND INTELLIGENT TECHNOLOGY Co.,Ltd.

Address before: 1027 bungalows, building 10, Beijing Xijiao farm, Shangzhuang village, Shangzhuang Township, Haidian District, Beijing

Applicant before: BEIJING SINGSOUND INTELLIGENT TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant