CN111859927A - 一种基于注意力共享Transformer的语法改错模型 - Google Patents

一种基于注意力共享Transformer的语法改错模型 Download PDF

Info

Publication number
CN111859927A
CN111859927A CN202010482641.0A CN202010482641A CN111859927A CN 111859927 A CN111859927 A CN 111859927A CN 202010482641 A CN202010482641 A CN 202010482641A CN 111859927 A CN111859927 A CN 111859927A
Authority
CN
China
Prior art keywords
attention
decoder
layer
encoder
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010482641.0A
Other languages
English (en)
Other versions
CN111859927B (zh
Inventor
徐书尧
陈进
秦龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Singsound Intelligent Technology Co ltd
Original Assignee
Beijing Singsound Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Singsound Intelligent Technology Co ltd filed Critical Beijing Singsound Intelligent Technology Co ltd
Priority to CN202010482641.0A priority Critical patent/CN111859927B/zh
Publication of CN111859927A publication Critical patent/CN111859927A/zh
Application granted granted Critical
Publication of CN111859927B publication Critical patent/CN111859927B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及神经翻译的语法改错模型技术领域,尤其是一种基于注意力共享Transformer的语法改错模型,包括编码器与解码器,所述编码器由多层结构组成,每层结构均包含自注意力层与前馈神经网络,数据输入自注意力层,自注意力层进行计算后输出处理数据至前馈神经网络,前馈神经网络输出处理结果至解码器;所述解码器由自注意力层、编码器解码器注意力层与前馈神经网络构成,解码器的前馈神经网络输出计算数据,并通过Softmax映射到词汇表上的概率分布,本发明的语法改错模型,注意力共享机制下,语法改错模型的效果(F0.5)几乎与基线系统相同,但却可以减少计算量,加快推理速度。

Description

一种基于注意力共享Transformer的语法改错模型
技术领域
本发明涉及神经翻译的语法改错模型技术领域,具体领域为一种基于注意力共享Transformer的语法改错模型。
背景技术
基于神经翻译的语法改错模型是解决语法改错这个问题最为有效的方法之一。其原理是把有语法错误的句子视作源语言,无语法错误的句子视作目标语言的翻译过程。常见的神经翻译模型,如基于循环神经网络的编码解码模型、基于卷积编码器的神经翻译模型、Transformer等被成功地运用于语法改错这个任务中。在大量平行语料以及模型预训练技术的支持下,相比于其它方法(如基于规则的方法、基于分类的方法、基于语言模型的方法、基于统计翻译的方法等),基于神经翻译的语法改错模型,改错的效果得到了显著的提升。
发明内容
本发明的目的在于提供一种基于注意力共享Transformer的语法改错模型。
为实现上述目的,本发明提供如下技术方案:一种基于注意力共享Transformer的语法改错模型,包括编码器与解码器,所述编码器由多层结构组成,每层结构均包含自注意力层与前馈神经网络,数据输入自注意力层,自注意力层进行计算后输出处理数据至前馈神经网络,前馈神经网络输出处理结果至解码器;
所述解码器由自注意力层、编码器解码器注意力层与前馈神经网络构成,数据输入自注意力层,自注意力层进行计算后输出处理数据至编码器解码器注意力层,同时编码器输出的数据输入编码器解码器注意力层,编码器解码器注意力层处理数据后输出至解码器的前馈神经网络,由解码器的前馈神经网络输出计算数据,并通过Softmax映射到词汇表上的概率分布;
编码器中的自注意力层和解码器中的自注意力层为相同的机制模块,自注意层包括注意力机制和多头注意力;
编码器中的前馈神经网络和解码器中的前馈神经网络为相同的机制模块;
编码器和解码器中的各个连接模块之间,从前一模块输出在输入下一模块前需要进行残差连接与层归一化处理。
优选的,注意力机制的计算规则为:
Figure BDA0002517690690000021
attention(a,V)=aV
其中a仅在第一层计算一次,之后的几层均直接使用第一层的a。
优选的,多头注意力的计算规则为:
MultiHead(V)=Concat(head1,...,headh)WO
Figure BDA0002517690690000022
Figure BDA0002517690690000023
在自注意力层中Q=K=V;在编码器解码器注意力层中,K与V来自编码器的输出,而Q来自解码器的输入。
优选的,前馈神经网络的计算规则为:
FFN(x)=max(0,xW1+b1)W2+b2
在前馈神经网络中,输入输出的维度为d,内部的维度为4d,其中
Figure BDA0002517690690000024
为模型参数。
优选的,残差连接与层归一化处理计算规则为:
NormAdd(X)=LayerNorm(X+SubLayer(X))。
优选的,解码器输出的数据通过Softmax映射,其处理规则为:
pt=softmax(dt Wvocab)
其中dt表示t时刻解码器的输出,Wvocab表示词嵌入矩阵。
优选的,从自注意力层输入的数据为目标函数。
优选的,目标函数的计算规则为:
Figure BDA0002517690690000031
其中T表示输入的文本长度,yt表示标签,XN表示编码器的输出。
与现有技术相比,本发明的有益效果是:基于神经翻译的语法改错模型是目前解决语法改错这个问题最为有效的方法。基础的Transformer有编码器与解码器构成。其中Transformer编码器的基础单元由自注意力结构与前馈神经网络构成。解码器结构与编码器结构类似,但多一层编码器解码器注意力层用于连接编码器与解码器。
其中自注意力结构可以构建出句子中词与词之间的关系,其有效性在多个自然语言处理任务中被广泛地证明,通过注意力共享的策略能够在维持改错性能基本不变的情况下,降低注意力层的计算复杂度与空间复杂度。具体来说,在Transformer的编码器与解码器中,均有多层相同的结构构成,每层中都有自注意力机制,自注意力机制中的注意力权重计算是计算复杂度最高的步骤。编码器与解码器的多层结构可以分别共享一个注意力权重,从而降低计算与空间复杂度。
附图说明
图1为本发明的模型结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种基于注意力共享Transformer的语法改错模型,包括编码器与解码器,所述编码器由多层结构组成,每层结构均包含自注意力层与前馈神经网络,数据输入自注意力层,自注意力层进行计算后输出处理数据至前馈神经网络,前馈神经网络输出处理结果至解码器;
所述解码器由自注意力层、编码器解码器注意力层与前馈神经网络构成,数据输入自注意力层,自注意力层进行计算后输出处理数据至编码器解码器注意力层,同时编码器输出的数据输入编码器解码器注意力层,编码器解码器注意力层处理数据后输出至解码器的前馈神经网络,由解码器的前馈神经网络输出计算数据,并通过Softmax映射到词汇表上的概率分布;
编码器中的自注意力层和解码器中的自注意力层为相同的机制模块,自注意层包括注意力机制和多头注意力;
编码器中的前馈神经网络和解码器中的前馈神经网络为相同的机制模块;
编码器和解码器中的各个连接模块之间,从前一模块输出在输入下一模块前需要进行残差连接与层归一化处理。
注意力机制的计算规则为:
Figure BDA0002517690690000041
attention(a,V)=aV
其中a仅在第一层计算一次,之后的几层均直接使用第一层的a。
多头注意力的计算规则为:
MultiHead(V)=Concat(head1,...,headh)WO
Figure BDA0002517690690000051
Figure BDA0002517690690000052
在自注意力层中Q=K=V;在编码器解码器注意力层中,K与V来自编码器的输出,而Q来自解码器的输入。
前馈神经网络的计算规则为:
FFN(x)=max(0,xW1+b1)W2+b2
在前馈神经网络中,输入输出的维度为d,内部的维度为4d,其中
Figure BDA0002517690690000053
为模型参数。
残差连接与层归一化处理计算规则为:
NormAdd(X)=LayerNorm(X+SubLayer(X))。
解码器输出的数据通过Softmax映射,其处理规则为:
pt=softmax(dt Wvocab)
其中dt表示t时刻解码器的输出,Wvocab表示词嵌入矩阵。
从自注意力层输入的数据为目标函数,目标函数的计算规则为:
Figure BDA0002517690690000054
其中T表示输入的文本长度,yt表示标签,XN表示编码器的输出。
通过本技术方案,在实际运用过程中:
实验设置的参数:编码器与解码器的层数N=6;模型维度d=1024;MultiHeadAttention的Heads=8;采用了Adam作为优化算法,(学习率0.001,采用了学习率预热与学习率衰减),dropout作为正则化方法(dropout rate=0.2);编码器的自注意力层的注意力权重a仅在第一层计算,后面5层直接用第一层的注意力权重;解码器的自注意力层与编码解码注意力层也仅只在第一层计算注意力权重,后面5层直接用第一层的注意力权重。解码过程中采用了Beam search,其中Beam的大小为4。该模型是单词级别的输入输出,其中稀有词根据BPE算法被切分为subword,该词表大小约为16000。
训练采用了预训练、训练、模型精调的三步策略。采用了随机生成预训练文本的方法生成平行语料用于预训练,在标注好的语料上进行训练,然后在目标领域数据集上进行精调。
在Write&Improve LOCNESS的实验结果如下表所示
Figure BDA0002517690690000061
实验结果显示,注意力共享机制下,语法改错模型的效果(F0.5)几乎与基线系统相同,但却可以减少计算量,加快推理速度。
在实际运用过程中,实验的超参数可以根据具体情况调整;除了第一层计算注意力权重外,还可以在其它层间歇地计算注意力权重,后一层直接使用前一层的注意力权重;编码器的自注意力模块、编码器解码器注意力模块与解码器注意力模块可以采用不同的注意力共享机制。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于注意力共享Transformer的语法改错模型,其特征在于:包括编码器与解码器,所述编码器由多层结构组成,每层结构均包含自注意力层与前馈神经网络,数据输入自注意力层,自注意力层进行计算后输出处理数据至前馈神经网络,前馈神经网络输出处理结果至解码器;
所述解码器由自注意力层、编码器解码器注意力层与前馈神经网络构成,数据输入自注意力层,自注意力层进行计算后输出处理数据至编码器解码器注意力层,同时编码器输出的数据输入编码器解码器注意力层,编码器解码器注意力层处理数据后输出至解码器的前馈神经网络,由解码器的前馈神经网络输出计算数据,并通过Softmax映射到词汇表上的概率分布;
编码器中的自注意力层和解码器中的自注意力层为相同的机制模块,自注意层包括注意力机制和多头注意力;
编码器中的前馈神经网络和解码器中的前馈神经网络为相同的机制模块;
编码器和解码器中的各个连接模块之间,从前一模块输出在输入下一模块前需要进行残差连接与层归一化处理。
2.根据权利要求1所述的一种基于注意力共享Transformer的语法改错模型,其特征在于:注意力机制的计算规则为:
Figure FDA0002517690680000011
attention(a,V)=aV
其中a仅在第一层计算一次,之后的几层均直接使用第一层的a。
3.根据权利要求1所述的一种基于注意力共享Transformer的语法改错模型,其特征在于:多头注意力的计算规则为:
MultiHead(V)=Concat(head1,...,headh)WO
where headi=attention(ai,V Wi V),
ai=a(Q Wi Q,K Wi K)
在自注意力层中Q=K=V;在编码器解码器注意力层中,K与V来自编码器的输出,而Q来自解码器的输入。
4.根据权利要求1所述的一种基于注意力共享Transformer的语法改错模型,其特征在于:前馈神经网络的计算规则为:
FFN(x)=max(0,xW1+b1)W2+b2
在前馈神经网络中,输入输出的维度为d,内部的维度为4d,其中
Figure FDA0002517690680000021
为模型参数。
5.根据权利要求1所述的一种基于注意力共享Transformer的语法改错模型,其特征在于:残差连接与层归一化处理计算规则为:
NormAdd(X)=LayerNorm(X+SubLayer(X))。
6.根据权利要求1所述的一种基于注意力共享Transformer的语法改错模型,其特征在于:解码器输出的数据通过Softmax映射,其处理规则为:
pt=softmax(dt Wvocab)
其中dt表示t时刻解码器的输出,Wvocab表示词嵌入矩阵。
7.根据权利要求1所述的一种基于注意力共享Transformer的语法改错模型,其特征在于:从自注意力层输入的数据为目标函数。
8.根据权利要求7所述的一种基于注意力共享Transformer的语法改错模型,其特征在于:目标函数的计算规则为:
Figure FDA0002517690680000022
其中T表示输入的文本长度,yt表示标签,XN表示编码器的输出。
CN202010482641.0A 2020-06-01 2020-06-01 一种基于注意力共享Transformer的语法改错模型 Active CN111859927B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010482641.0A CN111859927B (zh) 2020-06-01 2020-06-01 一种基于注意力共享Transformer的语法改错模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010482641.0A CN111859927B (zh) 2020-06-01 2020-06-01 一种基于注意力共享Transformer的语法改错模型

Publications (2)

Publication Number Publication Date
CN111859927A true CN111859927A (zh) 2020-10-30
CN111859927B CN111859927B (zh) 2024-03-15

Family

ID=72985914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010482641.0A Active CN111859927B (zh) 2020-06-01 2020-06-01 一种基于注意力共享Transformer的语法改错模型

Country Status (1)

Country Link
CN (1) CN111859927B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113035178A (zh) * 2021-03-16 2021-06-25 华南理工大学 基于transformer的语音识别解码加速方法
CN113051909A (zh) * 2021-03-19 2021-06-29 浙江工业大学 一种基于深度学习的文本语义提取方法
CN113128204A (zh) * 2021-04-13 2021-07-16 清华大学 语法改错质量评估方法和系统
CN113241075A (zh) * 2021-05-06 2021-08-10 西北工业大学 一种基于残差高斯自注意力的Transformer端到端语音识别方法
CN113407711A (zh) * 2021-06-17 2021-09-17 成都崇瑚信息技术有限公司 一种利用预训练模型的吉布斯受限文本摘要生成方法
WO2022116821A1 (zh) * 2020-12-04 2022-06-09 北京有竹居网络技术有限公司 基于多语言机器翻译模型的翻译方法、装置、设备和介质
WO2023059033A1 (en) * 2021-10-05 2023-04-13 Samsung Electronics Co., Ltd. Small and fast transformer with shared dictionary
CN116992888A (zh) * 2023-09-25 2023-11-03 天津华来科技股份有限公司 基于自然语义的数据分析方法及系统
CN117632496A (zh) * 2023-11-27 2024-03-01 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 分布式计算架构下Transformer模型映射方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2936483A2 (en) * 2012-12-24 2015-10-28 Continental Automotive GmbH Speech-to-text input method and system combining gaze tracking technology
US20180341860A1 (en) * 2017-05-23 2018-11-29 Google Llc Attention-based sequence transduction neural networks
CN109829172A (zh) * 2019-01-04 2019-05-31 北京先声智能科技有限公司 一种基于神经翻译的双向解码自动语法改错模型
CN110738057A (zh) * 2019-09-05 2020-01-31 中山大学 一种基于语法约束和语言模型的文本风格迁移方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2936483A2 (en) * 2012-12-24 2015-10-28 Continental Automotive GmbH Speech-to-text input method and system combining gaze tracking technology
US20180341860A1 (en) * 2017-05-23 2018-11-29 Google Llc Attention-based sequence transduction neural networks
CN109829172A (zh) * 2019-01-04 2019-05-31 北京先声智能科技有限公司 一种基于神经翻译的双向解码自动语法改错模型
CN110738057A (zh) * 2019-09-05 2020-01-31 中山大学 一种基于语法约束和语言模型的文本风格迁移方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高芬;苏依拉;牛向华;赵亚平;范婷婷;仁庆道尔吉;: "基于Transformer的蒙汉神经机器翻译研究", 计算机应用与软件, no. 02 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022116821A1 (zh) * 2020-12-04 2022-06-09 北京有竹居网络技术有限公司 基于多语言机器翻译模型的翻译方法、装置、设备和介质
CN113035178A (zh) * 2021-03-16 2021-06-25 华南理工大学 基于transformer的语音识别解码加速方法
CN113035178B (zh) * 2021-03-16 2024-01-05 华南理工大学 基于transformer的语音识别解码加速方法
CN113051909A (zh) * 2021-03-19 2021-06-29 浙江工业大学 一种基于深度学习的文本语义提取方法
CN113051909B (zh) * 2021-03-19 2024-05-10 浙江工业大学 一种基于深度学习的文本语义提取方法
CN113128204A (zh) * 2021-04-13 2021-07-16 清华大学 语法改错质量评估方法和系统
CN113241075A (zh) * 2021-05-06 2021-08-10 西北工业大学 一种基于残差高斯自注意力的Transformer端到端语音识别方法
CN113407711A (zh) * 2021-06-17 2021-09-17 成都崇瑚信息技术有限公司 一种利用预训练模型的吉布斯受限文本摘要生成方法
WO2023059033A1 (en) * 2021-10-05 2023-04-13 Samsung Electronics Co., Ltd. Small and fast transformer with shared dictionary
CN116992888A (zh) * 2023-09-25 2023-11-03 天津华来科技股份有限公司 基于自然语义的数据分析方法及系统
CN117632496A (zh) * 2023-11-27 2024-03-01 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 分布式计算架构下Transformer模型映射方法

Also Published As

Publication number Publication date
CN111859927B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN111859927A (zh) 一种基于注意力共享Transformer的语法改错模型
Vaswani et al. Decoding with large-scale neural language models improves translation
Kano et al. Transformer-based direct speech-to-speech translation with transcoder
WO2021077974A1 (zh) 一种个性化对话内容生成方法
CN108763504A (zh) 一种基于强化双通道序列学习的对话回复生成方法及系统
Xu et al. Rescorebert: Discriminative speech recognition rescoring with bert
CN108897740A (zh) 一种基于对抗神经网络的蒙汉机器翻译方法
US20230325673A1 (en) Neural network training utilizing loss functions reflecting neighbor token dependencies
CN108960407A (zh) 递归神经网路语言模型训练方法、装置、设备及介质
CN112331183A (zh) 基于自回归网络的非平行语料语音转换方法及系统
Gandhe et al. Neural network language models for low resource languages
Liu et al. Voice conversion with transformer network
Masumura et al. Sequence-level consistency training for semi-supervised end-to-end automatic speech recognition
Lee et al. Adaptable multi-domain language model for transformer asr
EP4405936A1 (en) Joint unsupervised and supervised training for multilingual automatic speech recognition
Maekaku et al. Speech representation learning combining conformer cpc with deep cluster for the zerospeech challenge 2021
Baquero-Arnal et al. Improved Hybrid Streaming ASR with Transformer Language Models.
Li et al. Boost transformer with BERT and copying mechanism for ASR error correction
Hung et al. The evaluation study of the deep learning model transformer in speech translation
Wan et al. Improved dynamic memory network for dialogue act classification with adversarial training
Wang et al. Improving contextual spelling correction by external acoustics attention and semantic aware data augmentation
Han et al. DiaCorrect: Error correction back-end for speaker diarization
Fu et al. DistillW2V2: A Small and Streaming Wav2vec 2.0 Based ASR Model
Fan et al. Acoustic-aware non-autoregressive spell correction with mask sample decoding
Pan English Machine Translation Model Based on an Improved Self‐Attention Technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 155, bungalow 17, No. 12, Jiancai Chengzhong Road, Xisanqi, Haidian District, Beijing 100096

Applicant after: BEIJING SINGSOUND INTELLIGENT TECHNOLOGY Co.,Ltd.

Address before: 1027 bungalows, building 10, Beijing Xijiao farm, Shangzhuang village, Shangzhuang Township, Haidian District, Beijing

Applicant before: BEIJING SINGSOUND INTELLIGENT TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant