CN111859927A - 一种基于注意力共享Transformer的语法改错模型 - Google Patents
一种基于注意力共享Transformer的语法改错模型 Download PDFInfo
- Publication number
- CN111859927A CN111859927A CN202010482641.0A CN202010482641A CN111859927A CN 111859927 A CN111859927 A CN 111859927A CN 202010482641 A CN202010482641 A CN 202010482641A CN 111859927 A CN111859927 A CN 111859927A
- Authority
- CN
- China
- Prior art keywords
- attention
- decoder
- layer
- encoder
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims abstract description 37
- 238000004364 calculation method Methods 0.000 claims abstract description 25
- 230000007246 mechanism Effects 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000013519 translation Methods 0.000 abstract description 9
- 230000001537 neural effect Effects 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 3
- 238000012549 training Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及神经翻译的语法改错模型技术领域,尤其是一种基于注意力共享Transformer的语法改错模型,包括编码器与解码器,所述编码器由多层结构组成,每层结构均包含自注意力层与前馈神经网络,数据输入自注意力层,自注意力层进行计算后输出处理数据至前馈神经网络,前馈神经网络输出处理结果至解码器;所述解码器由自注意力层、编码器解码器注意力层与前馈神经网络构成,解码器的前馈神经网络输出计算数据,并通过Softmax映射到词汇表上的概率分布,本发明的语法改错模型,注意力共享机制下,语法改错模型的效果(F0.5)几乎与基线系统相同,但却可以减少计算量,加快推理速度。
Description
技术领域
本发明涉及神经翻译的语法改错模型技术领域,具体领域为一种基于注意力共享Transformer的语法改错模型。
背景技术
基于神经翻译的语法改错模型是解决语法改错这个问题最为有效的方法之一。其原理是把有语法错误的句子视作源语言,无语法错误的句子视作目标语言的翻译过程。常见的神经翻译模型,如基于循环神经网络的编码解码模型、基于卷积编码器的神经翻译模型、Transformer等被成功地运用于语法改错这个任务中。在大量平行语料以及模型预训练技术的支持下,相比于其它方法(如基于规则的方法、基于分类的方法、基于语言模型的方法、基于统计翻译的方法等),基于神经翻译的语法改错模型,改错的效果得到了显著的提升。
发明内容
本发明的目的在于提供一种基于注意力共享Transformer的语法改错模型。
为实现上述目的,本发明提供如下技术方案:一种基于注意力共享Transformer的语法改错模型,包括编码器与解码器,所述编码器由多层结构组成,每层结构均包含自注意力层与前馈神经网络,数据输入自注意力层,自注意力层进行计算后输出处理数据至前馈神经网络,前馈神经网络输出处理结果至解码器;
所述解码器由自注意力层、编码器解码器注意力层与前馈神经网络构成,数据输入自注意力层,自注意力层进行计算后输出处理数据至编码器解码器注意力层,同时编码器输出的数据输入编码器解码器注意力层,编码器解码器注意力层处理数据后输出至解码器的前馈神经网络,由解码器的前馈神经网络输出计算数据,并通过Softmax映射到词汇表上的概率分布;
编码器中的自注意力层和解码器中的自注意力层为相同的机制模块,自注意层包括注意力机制和多头注意力;
编码器中的前馈神经网络和解码器中的前馈神经网络为相同的机制模块;
编码器和解码器中的各个连接模块之间,从前一模块输出在输入下一模块前需要进行残差连接与层归一化处理。
优选的,注意力机制的计算规则为:
attention(a,V)=aV
其中a仅在第一层计算一次,之后的几层均直接使用第一层的a。
优选的,多头注意力的计算规则为:
MultiHead(V)=Concat(head1,...,headh)WO
在自注意力层中Q=K=V;在编码器解码器注意力层中,K与V来自编码器的输出,而Q来自解码器的输入。
优选的,前馈神经网络的计算规则为:
FFN(x)=max(0,xW1+b1)W2+b2
优选的,残差连接与层归一化处理计算规则为:
NormAdd(X)=LayerNorm(X+SubLayer(X))。
优选的,解码器输出的数据通过Softmax映射,其处理规则为:
pt=softmax(dt Wvocab)
其中dt表示t时刻解码器的输出,Wvocab表示词嵌入矩阵。
优选的,从自注意力层输入的数据为目标函数。
优选的,目标函数的计算规则为:
其中T表示输入的文本长度,yt表示标签,XN表示编码器的输出。
与现有技术相比,本发明的有益效果是:基于神经翻译的语法改错模型是目前解决语法改错这个问题最为有效的方法。基础的Transformer有编码器与解码器构成。其中Transformer编码器的基础单元由自注意力结构与前馈神经网络构成。解码器结构与编码器结构类似,但多一层编码器解码器注意力层用于连接编码器与解码器。
其中自注意力结构可以构建出句子中词与词之间的关系,其有效性在多个自然语言处理任务中被广泛地证明,通过注意力共享的策略能够在维持改错性能基本不变的情况下,降低注意力层的计算复杂度与空间复杂度。具体来说,在Transformer的编码器与解码器中,均有多层相同的结构构成,每层中都有自注意力机制,自注意力机制中的注意力权重计算是计算复杂度最高的步骤。编码器与解码器的多层结构可以分别共享一个注意力权重,从而降低计算与空间复杂度。
附图说明
图1为本发明的模型结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种基于注意力共享Transformer的语法改错模型,包括编码器与解码器,所述编码器由多层结构组成,每层结构均包含自注意力层与前馈神经网络,数据输入自注意力层,自注意力层进行计算后输出处理数据至前馈神经网络,前馈神经网络输出处理结果至解码器;
所述解码器由自注意力层、编码器解码器注意力层与前馈神经网络构成,数据输入自注意力层,自注意力层进行计算后输出处理数据至编码器解码器注意力层,同时编码器输出的数据输入编码器解码器注意力层,编码器解码器注意力层处理数据后输出至解码器的前馈神经网络,由解码器的前馈神经网络输出计算数据,并通过Softmax映射到词汇表上的概率分布;
编码器中的自注意力层和解码器中的自注意力层为相同的机制模块,自注意层包括注意力机制和多头注意力;
编码器中的前馈神经网络和解码器中的前馈神经网络为相同的机制模块;
编码器和解码器中的各个连接模块之间,从前一模块输出在输入下一模块前需要进行残差连接与层归一化处理。
注意力机制的计算规则为:
attention(a,V)=aV
其中a仅在第一层计算一次,之后的几层均直接使用第一层的a。
多头注意力的计算规则为:
MultiHead(V)=Concat(head1,...,headh)WO
在自注意力层中Q=K=V;在编码器解码器注意力层中,K与V来自编码器的输出,而Q来自解码器的输入。
前馈神经网络的计算规则为:
FFN(x)=max(0,xW1+b1)W2+b2
残差连接与层归一化处理计算规则为:
NormAdd(X)=LayerNorm(X+SubLayer(X))。
解码器输出的数据通过Softmax映射,其处理规则为:
pt=softmax(dt Wvocab)
其中dt表示t时刻解码器的输出,Wvocab表示词嵌入矩阵。
从自注意力层输入的数据为目标函数,目标函数的计算规则为:
其中T表示输入的文本长度,yt表示标签,XN表示编码器的输出。
通过本技术方案,在实际运用过程中:
实验设置的参数:编码器与解码器的层数N=6;模型维度d=1024;MultiHeadAttention的Heads=8;采用了Adam作为优化算法,(学习率0.001,采用了学习率预热与学习率衰减),dropout作为正则化方法(dropout rate=0.2);编码器的自注意力层的注意力权重a仅在第一层计算,后面5层直接用第一层的注意力权重;解码器的自注意力层与编码解码注意力层也仅只在第一层计算注意力权重,后面5层直接用第一层的注意力权重。解码过程中采用了Beam search,其中Beam的大小为4。该模型是单词级别的输入输出,其中稀有词根据BPE算法被切分为subword,该词表大小约为16000。
训练采用了预训练、训练、模型精调的三步策略。采用了随机生成预训练文本的方法生成平行语料用于预训练,在标注好的语料上进行训练,然后在目标领域数据集上进行精调。
在Write&Improve LOCNESS的实验结果如下表所示
实验结果显示,注意力共享机制下,语法改错模型的效果(F0.5)几乎与基线系统相同,但却可以减少计算量,加快推理速度。
在实际运用过程中,实验的超参数可以根据具体情况调整;除了第一层计算注意力权重外,还可以在其它层间歇地计算注意力权重,后一层直接使用前一层的注意力权重;编码器的自注意力模块、编码器解码器注意力模块与解码器注意力模块可以采用不同的注意力共享机制。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种基于注意力共享Transformer的语法改错模型,其特征在于:包括编码器与解码器,所述编码器由多层结构组成,每层结构均包含自注意力层与前馈神经网络,数据输入自注意力层,自注意力层进行计算后输出处理数据至前馈神经网络,前馈神经网络输出处理结果至解码器;
所述解码器由自注意力层、编码器解码器注意力层与前馈神经网络构成,数据输入自注意力层,自注意力层进行计算后输出处理数据至编码器解码器注意力层,同时编码器输出的数据输入编码器解码器注意力层,编码器解码器注意力层处理数据后输出至解码器的前馈神经网络,由解码器的前馈神经网络输出计算数据,并通过Softmax映射到词汇表上的概率分布;
编码器中的自注意力层和解码器中的自注意力层为相同的机制模块,自注意层包括注意力机制和多头注意力;
编码器中的前馈神经网络和解码器中的前馈神经网络为相同的机制模块;
编码器和解码器中的各个连接模块之间,从前一模块输出在输入下一模块前需要进行残差连接与层归一化处理。
3.根据权利要求1所述的一种基于注意力共享Transformer的语法改错模型,其特征在于:多头注意力的计算规则为:
MultiHead(V)=Concat(head1,...,headh)WO
where headi=attention(ai,V Wi V),
ai=a(Q Wi Q,K Wi K)
在自注意力层中Q=K=V;在编码器解码器注意力层中,K与V来自编码器的输出,而Q来自解码器的输入。
5.根据权利要求1所述的一种基于注意力共享Transformer的语法改错模型,其特征在于:残差连接与层归一化处理计算规则为:
NormAdd(X)=LayerNorm(X+SubLayer(X))。
6.根据权利要求1所述的一种基于注意力共享Transformer的语法改错模型,其特征在于:解码器输出的数据通过Softmax映射,其处理规则为:
pt=softmax(dt Wvocab)
其中dt表示t时刻解码器的输出,Wvocab表示词嵌入矩阵。
7.根据权利要求1所述的一种基于注意力共享Transformer的语法改错模型,其特征在于:从自注意力层输入的数据为目标函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010482641.0A CN111859927B (zh) | 2020-06-01 | 2020-06-01 | 一种基于注意力共享Transformer的语法改错模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010482641.0A CN111859927B (zh) | 2020-06-01 | 2020-06-01 | 一种基于注意力共享Transformer的语法改错模型 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111859927A true CN111859927A (zh) | 2020-10-30 |
CN111859927B CN111859927B (zh) | 2024-03-15 |
Family
ID=72985914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010482641.0A Active CN111859927B (zh) | 2020-06-01 | 2020-06-01 | 一种基于注意力共享Transformer的语法改错模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111859927B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113035178A (zh) * | 2021-03-16 | 2021-06-25 | 华南理工大学 | 基于transformer的语音识别解码加速方法 |
CN113051909A (zh) * | 2021-03-19 | 2021-06-29 | 浙江工业大学 | 一种基于深度学习的文本语义提取方法 |
CN113128204A (zh) * | 2021-04-13 | 2021-07-16 | 清华大学 | 语法改错质量评估方法和系统 |
CN113241075A (zh) * | 2021-05-06 | 2021-08-10 | 西北工业大学 | 一种基于残差高斯自注意力的Transformer端到端语音识别方法 |
CN113407711A (zh) * | 2021-06-17 | 2021-09-17 | 成都崇瑚信息技术有限公司 | 一种利用预训练模型的吉布斯受限文本摘要生成方法 |
WO2022116821A1 (zh) * | 2020-12-04 | 2022-06-09 | 北京有竹居网络技术有限公司 | 基于多语言机器翻译模型的翻译方法、装置、设备和介质 |
WO2023059033A1 (en) * | 2021-10-05 | 2023-04-13 | Samsung Electronics Co., Ltd. | Small and fast transformer with shared dictionary |
CN116992888A (zh) * | 2023-09-25 | 2023-11-03 | 天津华来科技股份有限公司 | 基于自然语义的数据分析方法及系统 |
CN117632496A (zh) * | 2023-11-27 | 2024-03-01 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 分布式计算架构下Transformer模型映射方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2936483A2 (en) * | 2012-12-24 | 2015-10-28 | Continental Automotive GmbH | Speech-to-text input method and system combining gaze tracking technology |
US20180341860A1 (en) * | 2017-05-23 | 2018-11-29 | Google Llc | Attention-based sequence transduction neural networks |
CN109829172A (zh) * | 2019-01-04 | 2019-05-31 | 北京先声智能科技有限公司 | 一种基于神经翻译的双向解码自动语法改错模型 |
CN110738057A (zh) * | 2019-09-05 | 2020-01-31 | 中山大学 | 一种基于语法约束和语言模型的文本风格迁移方法 |
-
2020
- 2020-06-01 CN CN202010482641.0A patent/CN111859927B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2936483A2 (en) * | 2012-12-24 | 2015-10-28 | Continental Automotive GmbH | Speech-to-text input method and system combining gaze tracking technology |
US20180341860A1 (en) * | 2017-05-23 | 2018-11-29 | Google Llc | Attention-based sequence transduction neural networks |
CN109829172A (zh) * | 2019-01-04 | 2019-05-31 | 北京先声智能科技有限公司 | 一种基于神经翻译的双向解码自动语法改错模型 |
CN110738057A (zh) * | 2019-09-05 | 2020-01-31 | 中山大学 | 一种基于语法约束和语言模型的文本风格迁移方法 |
Non-Patent Citations (1)
Title |
---|
高芬;苏依拉;牛向华;赵亚平;范婷婷;仁庆道尔吉;: "基于Transformer的蒙汉神经机器翻译研究", 计算机应用与软件, no. 02 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022116821A1 (zh) * | 2020-12-04 | 2022-06-09 | 北京有竹居网络技术有限公司 | 基于多语言机器翻译模型的翻译方法、装置、设备和介质 |
CN113035178A (zh) * | 2021-03-16 | 2021-06-25 | 华南理工大学 | 基于transformer的语音识别解码加速方法 |
CN113035178B (zh) * | 2021-03-16 | 2024-01-05 | 华南理工大学 | 基于transformer的语音识别解码加速方法 |
CN113051909A (zh) * | 2021-03-19 | 2021-06-29 | 浙江工业大学 | 一种基于深度学习的文本语义提取方法 |
CN113051909B (zh) * | 2021-03-19 | 2024-05-10 | 浙江工业大学 | 一种基于深度学习的文本语义提取方法 |
CN113128204A (zh) * | 2021-04-13 | 2021-07-16 | 清华大学 | 语法改错质量评估方法和系统 |
CN113241075A (zh) * | 2021-05-06 | 2021-08-10 | 西北工业大学 | 一种基于残差高斯自注意力的Transformer端到端语音识别方法 |
CN113407711A (zh) * | 2021-06-17 | 2021-09-17 | 成都崇瑚信息技术有限公司 | 一种利用预训练模型的吉布斯受限文本摘要生成方法 |
WO2023059033A1 (en) * | 2021-10-05 | 2023-04-13 | Samsung Electronics Co., Ltd. | Small and fast transformer with shared dictionary |
CN116992888A (zh) * | 2023-09-25 | 2023-11-03 | 天津华来科技股份有限公司 | 基于自然语义的数据分析方法及系统 |
CN117632496A (zh) * | 2023-11-27 | 2024-03-01 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 分布式计算架构下Transformer模型映射方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111859927B (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111859927A (zh) | 一种基于注意力共享Transformer的语法改错模型 | |
Vaswani et al. | Decoding with large-scale neural language models improves translation | |
Kano et al. | Transformer-based direct speech-to-speech translation with transcoder | |
WO2021077974A1 (zh) | 一种个性化对话内容生成方法 | |
CN108763504A (zh) | 一种基于强化双通道序列学习的对话回复生成方法及系统 | |
Xu et al. | Rescorebert: Discriminative speech recognition rescoring with bert | |
CN108897740A (zh) | 一种基于对抗神经网络的蒙汉机器翻译方法 | |
US20230325673A1 (en) | Neural network training utilizing loss functions reflecting neighbor token dependencies | |
CN108960407A (zh) | 递归神经网路语言模型训练方法、装置、设备及介质 | |
CN112331183A (zh) | 基于自回归网络的非平行语料语音转换方法及系统 | |
Gandhe et al. | Neural network language models for low resource languages | |
Liu et al. | Voice conversion with transformer network | |
Masumura et al. | Sequence-level consistency training for semi-supervised end-to-end automatic speech recognition | |
Lee et al. | Adaptable multi-domain language model for transformer asr | |
EP4405936A1 (en) | Joint unsupervised and supervised training for multilingual automatic speech recognition | |
Maekaku et al. | Speech representation learning combining conformer cpc with deep cluster for the zerospeech challenge 2021 | |
Baquero-Arnal et al. | Improved Hybrid Streaming ASR with Transformer Language Models. | |
Li et al. | Boost transformer with BERT and copying mechanism for ASR error correction | |
Hung et al. | The evaluation study of the deep learning model transformer in speech translation | |
Wan et al. | Improved dynamic memory network for dialogue act classification with adversarial training | |
Wang et al. | Improving contextual spelling correction by external acoustics attention and semantic aware data augmentation | |
Han et al. | DiaCorrect: Error correction back-end for speaker diarization | |
Fu et al. | DistillW2V2: A Small and Streaming Wav2vec 2.0 Based ASR Model | |
Fan et al. | Acoustic-aware non-autoregressive spell correction with mask sample decoding | |
Pan | English Machine Translation Model Based on an Improved Self‐Attention Technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 155, bungalow 17, No. 12, Jiancai Chengzhong Road, Xisanqi, Haidian District, Beijing 100096 Applicant after: BEIJING SINGSOUND INTELLIGENT TECHNOLOGY Co.,Ltd. Address before: 1027 bungalows, building 10, Beijing Xijiao farm, Shangzhuang village, Shangzhuang Township, Haidian District, Beijing Applicant before: BEIJING SINGSOUND INTELLIGENT TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |