CN110321568B - 基于融合词性和位置信息的汉-越卷积神经机器翻译方法 - Google Patents

基于融合词性和位置信息的汉-越卷积神经机器翻译方法 Download PDF

Info

Publication number
CN110321568B
CN110321568B CN201910613122.0A CN201910613122A CN110321568B CN 110321568 B CN110321568 B CN 110321568B CN 201910613122 A CN201910613122 A CN 201910613122A CN 110321568 B CN110321568 B CN 110321568B
Authority
CN
China
Prior art keywords
chinese
speech
information
vietnamese
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910613122.0A
Other languages
English (en)
Other versions
CN110321568A (zh
Inventor
余正涛
王文君
王振晗
高盛祥
何建雅琳
陈玮
黄于欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201910613122.0A priority Critical patent/CN110321568B/zh
Publication of CN110321568A publication Critical patent/CN110321568A/zh
Application granted granted Critical
Publication of CN110321568B publication Critical patent/CN110321568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于融合词性和位置信息的汉‑越卷积神经机器翻译方法,属于自然语言处理技术领域。本发明首先在收集的汉越双语平行语料的基础上,利用汉越词性标记工具对汉语和越南语进行词性信息标注,并在标记词性信息的双语语料基础上生成具有词性信息的词表,利用带词性的词表对汉越双语语料进行词与词性的联合编码与解码,然后通过门控线性单元融入词性信息,并采取多层卷积神经网络及不同大小卷积核进行翻译模型的训练,生成较好性能的汉‑越神经机器翻译模型再进行汉语越南语机器翻译。本发明有效的改善了汉越译文语序不一致的问题,能提升资源稀缺的汉‑越神经机器翻译性能。

Description

基于融合词性和位置信息的汉-越卷积神经机器翻译方法
技术领域
本发明涉及基于融合词性和位置信息的汉-越卷积神经机器翻译方法,属于自然语言处理技术领域。
背景技术
机器翻译,又称为自动翻译,是利用计算机将一种自然语言转换为另一种自然语言的过程。随着机器翻译技术的迅速发展,机器翻译在大规模语料上取得了较好的效果,然而由于获取平行语料的成本较高,在资源稀缺型语言的机器翻译效果并不理想。为有效提升资源稀缺型语言的机器翻译性能,通常将词法知识、句法知识等外部知识融入到翻译模型中。因此,对资源稀缺的汉-越机器翻译,上述方法具有较高的科学与实用价值。
目前,基于循环神经网络的汉-越机器翻译,是一种端到端的机器翻译方法,该方法生成的译文词序与越南语词序存在不一致问题(形容词、副词和动词等的修饰顺序不一致),例如“我是张老师的学生。”,通过该方法得到的译文为“
Figure BDA0002123009980000011
(我)là(是)Tru’o’ng(张)
Figure BDA0002123009980000012
(老师)
Figure BDA0002123009980000013
(的)
Figure BDA0002123009980000014
trò(学生).”;该例句的正确译文为“
Figure BDA0002123009980000018
(我)là(是)
Figure BDA0002123009980000019
Figure BDA0002123009980000015
trò(学生)
Figure BDA0002123009980000016
(的)
Figure BDA0002123009980000017
(老师)Tru’o’ng(张).”。其原因是汉语与越南语之间存在语言结构的差异,即汉语和越南语修饰语与被修饰语的语序不同。传统的处理方法是利用词性标注工具对双语语料进行词性标记,之后通过BPE工具进行分词,最后以模型嵌入或与词向量拼接的方式将词性信息融入模型翻译中。然而,通过BPE工具处理的语料会使词与词性信息无法形成一一对应的关系,从而破坏了词与相应词性之间的对应关系。针对这个问题,提出一种融合词性信息的汉-越卷积神经机器翻译方法。
发明内容
本发明提供了基于融合词性和位置信息的汉-越卷积神经机器翻译方法,以用于有效地改善汉越译文语序不一致的问题。
本发明的技术方案是:一种基于融合词性和位置信息的汉-越卷积神经机器翻译方法,首先在收集的汉越双语平行语料的基础上,利用汉越词性标记工具对汉语和越南语进行词性信息标注,并在标记词性信息的双语语料基础上生成具有词性信息的词表,利用带词性的词表对汉越双语语料进行词与词性的联合编码与解码,然后通过门控线性单元融入词性信息,并采取多层卷积神经网络及不同大小卷积核进行翻译模型的训练,生成较好性能的汉-越神经机器翻译模型再进行汉语越南语机器翻译。
所述基于融合词性和位置信息的汉-越卷积神经机器翻译方法的具体步骤如下:
Step1、获取汉越双语平行语料;主要通过网络爬虫requests技术或XPath爬取方法从相应网站爬取后,经相应处理得到规范格式的汉越双语平行语料,从中随机抽取一定数量的训练集、开发集和测试集;
Step2、利用汉越词性标记工具对汉语和越南语进行词性信息标注;具体的,采用结巴分词工具和基于SVMTooL的越南语词性标注工具分别对汉语和越南语进行词性信息的标记;
Step3、在标记词性信息的双语语料基础上生成具有词性信息的词表;其中,在生成的词表中,包含不同词性信息的词,就会将词性信息作为词法关系特征融入到翻译模型中,以指导模型生成符合语言语法的目标语句;如“发明/v”与“发明/n”;在模型训练时,将“发明”的词性信息作为词法关系特征融入到翻译模型中,以指导模型生成符合语言语法的目标语句。
Step4、利用带词性信息的词表对汉越双语语料进行词与词性的联合编码与解码;
其中,进一步地,编码器与解码器同样是共享块结构,并根据固定数量的输入元素来计算中间状态;在解码器中定义了第l块的输出表示为
Figure BDA0002123009980000021
在编码器中也定义了第l块的输出表示为
Figure BDA0002123009980000022
每一个块包含一个一维的卷积与一个非线性函数;
融入词性信息的CNN,在卷积过程中能获取到语言间相关的词法知识,而词法知识获取的程度与卷积核的大小密切相关。因此,针对不同数量的越南语音节,采用不同大小的卷积核,以获取不同程度的、完整的汉语与越南语的词法知识;如公式所示,分别设置了大小为3、5、7的卷积核:
Figure BDA0002123009980000023
为了防止网络退化,在每个卷积层中加入残差连接,其公式如下:
Figure BDA0002123009980000024
其中,W为权重参数,b为偏置项参数,
Figure BDA0002123009980000031
为j时刻的先前块的解码器状态;
在编码器中,使用教导层来确保输入与输出的长度始终保持一致;在解码器中,从左侧开始进行m-1个全零元素的填充,之后在卷积的末尾移除m个元素;则第j+1个词的计算公式如下:
Figure BDA0002123009980000032
其中,Wo为权重,bo为偏置项参数,
Figure BDA0002123009980000033
为第j时刻解码器最顶层的输出;
在解码层中,沿用了多步注意力机制,即上层注意力为下层注意力提供信息;为了计算第l块上第j个解码器状态的总和
Figure BDA0002123009980000034
将当前的解码器状态
Figure BDA0002123009980000035
与先前目标元素yj的嵌入相融合,其公式如下:
Figure BDA0002123009980000036
其中,
Figure BDA0002123009980000037
为融入注意力后第l块的权重参数,
Figure BDA0002123009980000038
为融入注意力后第l块的偏置项参数,
Figure BDA0002123009980000039
为第j时刻的解码器状态;
对于解码器第l层中的第l块上第i个编码器状态
Figure BDA00021230099800000310
与第j个解码器状态总和
Figure BDA00021230099800000311
的注意力
Figure BDA00021230099800000312
其计算公式如下:
Figure BDA00021230099800000313
其中,
Figure BDA00021230099800000314
为第l块上第j个解码器状态总和,
Figure BDA00021230099800000315
为第l块上第i个编码器状态;
对于上下文向量
Figure BDA00021230099800000316
其计算公式如下:
Figure BDA00021230099800000317
Step5、通过门控线性单元融入词性信息及位置信息,并采取多层卷积神经网络及不同大小卷积核进行翻译模型的训练,生成汉-越神经机器翻译模型进行汉语越南语机器翻译。
所述步骤Step5中,在融入词性信息时,以门控线性单元融入,在fairseq模型的基础上,利用以门控线性单元融入词性信息和位置信息;
对于输入序列x=(x1,...,xm),利用门控线性单元GLU将其嵌入到分布空间e中,得到的输入向量为e1,...,em,其中,ei∈Rd是嵌入矩阵D∈Rm×d的列,其计算如下:
Figure BDA00021230099800000318
其中,W1,V1∈Rk×m×n为权重,b1,c1∈Rn为偏置项,m为输入序列长度,σ为sigmoid函数,
Figure BDA0002123009980000041
是点乘;
对于输入序列x=(x1,...,xm)对应的绝对位置序列p=(p1,...,pm)采用同样的方法嵌入到分布空间e中,其中pi∈Rd,其维度大小始终与词向量维度大小相一致。模型根据词向量的信息查找相对应的位置向量信息,且该位置向量通过GLU不断优化,其表示如下:
Figure BDA0002123009980000042
其中,W2,V2∈Rk×m×n为权重,b2,c2∈Rn为偏置项,m为输入序列长度,σ为sigmoid函数,
Figure BDA0002123009980000043
是点乘,得到的最终输入向量表示为:
I=(e1+p1,...,em+pm)
对于解码器得到的输出序列y=(y1,...,yn)也进行上述处理。
本发明的有益效果是:
1、本发明所述方法通过将词性和位置信息融入,有效的改善了汉越译文语序不一致的问题,通过对比实验分析,结果表明本发明的方法均优于其他模型;
2、本发明的汉-越神经机器翻译模型不仅能学习到词语的位置信息还能学习到相关的词性信息,还能通过位置信息与词性信息的作用来约束译文的生成,汉-越译文语序不一致问题有较好的缓解作用,有效提升资源稀缺的汉-越神经机器翻译性能。
附图说明
图1为本发明中的流程图;
图2为本发明提出方法的词性融入图。
具体实施方式
实施例1:如图1-2所示,基于融合词性和位置信息的汉-越卷积神经机器翻译方法,本方法采用单GPU进行进行实验,所述方法具体步骤如下:
Step1、获取汉越双语平行语料;主要通过网络爬虫requests技术或XPath爬取方法从相应网站爬取后,经相应处理得到规范格式的汉越双语平行语料,从中随机抽取一定数量的训练集、开发集和测试集;
Step2、利用汉越词性标记工具对汉语和越南语进行词性信息标注;具体的,采用结巴分词工具和基于SVMTooL的越南语词性标注工具分别对汉语和越南语进行词性信息的标记
Step3、在标记词性信息的双语语料基础上生成具有词性信息的词表;其中,在生成的词表中,包含不同词性信息的词,就会将词性信息作为词法关系特征融入到翻译模型中,以指导模型生成符合语言语法的目标语句;如“发明/v”与“发明/n”;在模型训练时,将“发明”的词性信息作为词法关系特征融入到翻译模型中,以指导模型生成符合语言语法的目标语句。
Step4、利用带词性信息的词表对汉越双语语料进行词与词性的联合编码与解码;
其中,进一步地,编码器与解码器同样是共享块结构,并根据固定数量的输入元素来计算中间状态;在解码器中定义了第l块的输出表示为
Figure BDA0002123009980000051
在编码器中也定义了第l块的输出表示为
Figure BDA0002123009980000052
每一个块包含一个一维的卷积与一个非线性函数;
融入词性信息的CNN,在卷积过程中能获取到语言间相关的词法知识,而词法知识获取的程度与卷积核的大小密切相关,因此,针对不同数量的越南语音节,采用不同大小的卷积核,以获取不同程度的、完整的汉语与越南语的词法知识;如公式所示,分别设置了大小为3、5、7的卷积核:
Figure BDA0002123009980000053
为了防止网络退化,在每个卷积层中加入残差连接,其公式如下:
Figure BDA0002123009980000054
其中,W为权重参数,b为偏置项参数,
Figure BDA0002123009980000055
为j时刻的先前块的解码器状态;
在编码器中,使用教导层来确保输入与输出的长度始终保持一致;在解码器中,从左侧开始进行m-1个全零元素的填充,之后在卷积的末尾移除m个元素;则第j+1个词的计算公式如下:
Figure BDA0002123009980000056
其中,Wo为权重,bo为偏置项参数,
Figure BDA0002123009980000057
为第j时刻解码器最顶层的输出;
在解码层中,沿用了多步注意力机制,即上层注意力为下层注意力提供信息;为了计算第l块上第j个解码器状态的总和
Figure BDA0002123009980000058
将当前的解码器状态
Figure BDA0002123009980000059
与先前目标元素yj的嵌入相融合,其公式如下:
Figure BDA0002123009980000061
其中,
Figure BDA0002123009980000062
为融入注意力后第l块的权重参数,
Figure BDA0002123009980000063
为融入注意力后第l块的偏置项参数,
Figure BDA0002123009980000064
为第j时刻的解码器状态;
对于解码器第l层中的第l块上第i个编码器状态
Figure BDA0002123009980000065
与第j个解码器状态总和
Figure BDA0002123009980000066
的注意力
Figure BDA0002123009980000067
其计算公式如下:
Figure BDA0002123009980000068
其中,
Figure BDA0002123009980000069
为第l块上第j个解码器状态总和,
Figure BDA00021230099800000610
为第l块上第i个编码器状态;
对于上下文向量
Figure BDA00021230099800000611
其计算公式如下:
Figure BDA00021230099800000612
Step5、通过门控线性单元融入词性信息及位置信息,并采取多层卷积神经网络及不同大小卷积核进行翻译模型的训练,生成汉-越神经机器翻译模型进行汉语越南语机器翻译。
所述步骤Step5中,在融入词性信息时,以门控线性单元融入,在fairseq模型的基础上,利用以门控线性单元融入词性信息和位置信息;
对于输入序列x=(x1,...,xm),利用门控线性单元GLU将其嵌入到分布空间e中,得到的输入向量为e1,...,em,其中,ei∈Rd是嵌入矩阵D∈Rm×d的列,其计算如下:
Figure BDA00021230099800000613
其中,W1,V1∈Rk×m×n为权重,b1,c1∈Rn为偏置项,m为输入序列长度,σ为sigmoid函数,
Figure BDA00021230099800000614
是点乘;
对于输入序列x=(x1,...,xm)对应的绝对位置序列p=(p1,...,pm)采用同样的方法嵌入到分布空间e中,其中pi∈Rd,其维度大小始终与词向量维度大小相一致。模型根据词向量的信息查找相对应的位置向量信息,且该位置向量通过GLU不断优化,其表示如下:
Figure BDA00021230099800000615
其中,W2,V2∈Rk×m×n为权重,b2,c2∈Rn为偏置项,m为输入序列长度,σ为sigmoid函数,
Figure BDA0002123009980000071
是点乘,得到的最终输入向量表示为:
I=(e1+p1,...,em+pm)
对于解码器得到的输出序列y=(y1,...,yn)也进行上述处理。
为了验证本发明的有效性,在实验中将GNMT模型、不具有任何外部信息的CNN模型、融入位置信息的CNN模型(CNN+P)、具有词性信息的CNN模型(CNN+POS)以及本发明同时具有位置信息与词性信息的CNN模型(CNN+P+POS)进行对比。
其中,在模型参数设置时,设置的参数如下所示:
在GNMT实验模型中,词嵌入维度为512维,编码器与解码器网络的层数均为6层,其中每层的隐含单元数为256,dropout值为0.2,并用1.0初始化LSTM的遗忘门偏置项。
对于基于卷积神经网络实验的模型,每个模型需要3-4天的训练时间,编码器与解码器的嵌入维度均设置为768维。编码器设置为15层的卷积神经网络,解码器则采用LSTM网络,其中编码器中前9层的隐含单元数为512,后4层的隐含单元数为1024,最后两层的隐含单元数为2048,批次大小为64以及dropout值为0.1,卷积核大小为k。在基准实验中卷积核大小k=3,在对比同卷积核大小是k的取值分别为k={3,5,7}。
在探究影响机器翻译性能的因素方面,实验又对比了不同卷积核大小及不同深度的神经网络对实验结果的影响。每组模型实验重复进行三次,将每次实验最后保存的模型进行评测并取三次平均值作为最终实验结果的BLEU值:
表1为GNMT、CNN、CNN+P、CNN+POS和CNN+P+POS模型的实验结果
GNMT CNN CNN+P CNN+POS CNN+P+POS
汉-越 13.6 18.88 21.22 22.58 23.8
越-汉 20.56 18.23 21.19 29.29 29.36
表2为CNN+P+POS模型的汉-越不同卷积核大小实验结果
卷积核大小 汉-越 越-汉
3 23.8 29.36
5 19.53 18.86
7 20.14 19.50
表3为CNN+P+POS模型的汉-越不同网络层数实验结果
Figure BDA0002123009980000072
Figure BDA0002123009980000081
从以上数据可以看出,基于卷积神经网络的机器翻译效果明显优于基于RNN的GNMT,且将词性信息融入到CNN模型中的BLEU值优于其他模型。在基准实验模型CNN+P的基础上融入词性信息,模型不仅能学习到词语的位置信息还能学习到相关的词性信息,还能通过位置信息与词性信息的作用来约束译文的生成。因此,提出的方法对汉-越译文语序不一致问题有较好的缓解作用,有效提升资源稀缺的汉-越神经机器翻译性能。同时,在实验结果中得知,在模型的训练时,将编码器层数设为15,卷积核大小设为3时,得到的模型训练结果较优。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (4)

1.基于融合词性和位置信息的汉-越卷积神经机器翻译方法,其特征在于:
所述基于融合词性和位置信息的汉-越卷积神经机器翻译方法的具体步骤如下:
Step1、收集汉越双语平行语料;
Step2、利用汉越词性标记工具对汉语和越南语进行词性信息标注;
Step3、在标记词性信息的双语语料基础上生成具有词性信息的词表;
Step4、利用带词性信息的词表对汉越双语语料进行词与词性的联合编码与解码;
Step5、通过门控线性单元融入词性信息及位置信息,并采取多层卷积神经网络及不同大小卷积核进行翻译模型的训练,生成汉-越神经机器翻译模型进行汉语越南语机器翻译;
所述Step4中,编码器与解码器同样是共享块结构,并根据固定数量的输入元素来计算中间状态;在解码器中定义了第l块的输出表示为
Figure FDA0002576844590000011
在编码器中也定义了第l块的输出表示为
Figure FDA0002576844590000012
每一个块包含一个一维的卷积与一个非线性函数;n表示解码器中第l块的输出的序列长度;m表示编码器中第l块的输出的序列长度;
针对不同数量的越南语音节,采用不同大小的卷积核,以获取不同程度的、完整的汉语与越南语的词法知识;如下所示,分别设置了大小为3、5、7的卷积核:
Figure FDA0002576844590000013
为了防止网络退化,在每个卷积层中加入残差连接,其公式如下:
Figure FDA0002576844590000014
其中,
Figure FDA0002576844590000015
表示j时刻第l块的输出;v为激活函数;Wl表示第l块权重参数,bl为第l块的偏置项参数,
Figure FDA0002576844590000016
为j时刻的先前块的解码器状态;
Figure FDA0002576844590000017
为第
Figure FDA0002576844590000018
个先前块到第
Figure FDA0002576844590000019
个先前块的时间状态序列,
Figure FDA00025768445900000110
表示第
Figure FDA00025768445900000111
个先前块的时间状态,
Figure FDA00025768445900000112
表示第
Figure FDA00025768445900000113
个先前块的时间状态;
在编码器中,输入与输出的长度始终保持一致;在解码器中,从左侧开始进行m-1个全零元素的填充,之后在卷积的末尾移除m个元素;则第j+1个词的计算公式如下:
Figure FDA0002576844590000021
其中,p(yj+1|y1,...,yj,x)表示第j+1个词的概率,Wo为权重,bo为偏置项参数,
Figure FDA0002576844590000022
为第j时刻解码器最顶层的输出;
在解码层中,沿用了多步注意力机制,即上层注意力为下层注意力提供信息;为了计算第l块上第j个解码器状态的总和
Figure FDA0002576844590000023
将当前的解码器状态
Figure FDA0002576844590000024
与先前目标元素yj的嵌入相融合,其公式如下:
Figure FDA0002576844590000025
其中,
Figure FDA0002576844590000026
为融入注意力后第l块的权重参数,
Figure FDA0002576844590000027
为融入注意力后第l块的偏置项参数,
Figure FDA0002576844590000028
为第j时刻的解码器状态;
对于解码器第l块上第i个编码器状态
Figure FDA0002576844590000029
与第j个解码器状态总和
Figure FDA00025768445900000210
的注意力
Figure FDA00025768445900000211
其计算公式如下:
Figure FDA00025768445900000212
其中,
Figure FDA00025768445900000213
为第l块上第j个解码器状态总和,
Figure FDA00025768445900000214
为第l块上第i个编码器状态;
对于上下文向量
Figure FDA00025768445900000215
其计算公式如下:
Figure FDA00025768445900000216
其中,Ii表示第i个编码器的最终输入向量;
所述步骤Step5中,在融入词性信息时,以门控线性单元融入,在fairseq模型的基础上,利用门控线性单元融入词性信息和位置信息;
Step5.1、对于输入序列x=(x1,...,xm),利用门控线性单元GLU将其嵌入到分布空间e中,得到的输入向量为e1,…,em,其中,ei∈Rd是嵌入矩阵D∈Rm×d的列,其计算如下:
Figure FDA00025768445900000217
其中,W1,V1∈Rk×m×n为权重,b1,c1∈Rn为偏置项,σ为sigmoid函数,
Figure FDA00025768445900000218
是点乘;Rd表示d维实数集,d表示实数集的维数,k表示卷积核的大小;
Step5.2、对于输入序列x=(x1,...,xm)对应的绝对位置序列p=(p1,...,pm)采用同样的方法嵌入到分布空间e中,其中pi∈Rd,其维度大小始终与词向量维度大小相一致,模型根据词向量的信息查找相对应的位置向量信息,且该位置向量通过GLU不断优化,其表示如下:
Figure FDA0002576844590000031
其中,W2,V2∈Rk×m×n为权重,b2,c2∈Rn为偏置项,σ为sigmoid函数,
Figure FDA0002576844590000032
是点乘,
Figure FDA0002576844590000033
为[0,1,2,3,...,m-1]中的第i个元素,得到的最终输入向量表示为:
I=(e1+p1,...,em+pm);
对于解码器得到的输出序列y=(y1,...,yn)也进行利用门控线性单元融入词性信息和位置信息的处理,具体步骤如Step5.1-Step5.2的处理过程。
2.根据权利要求1所述的基于融合词性和位置信息的汉-越卷积神经机器翻译方法,其特征在于:所述Step1中,在收集汉越双语平行语料时,采用网络爬虫requests技术或XPath爬取方法从相应网站爬取、整理得到规范格式的汉越双语平行语料,并从中随机抽取一定数量的训练集、开发集和测试集。
3.根据权利要求1所述的基于融合词性和位置信息的汉-越卷积神经机器翻译方法,其特征在于:所述Step2中,在利用汉越词性标记工具对汉语和越南语进行词性信息标注时,采用结巴分词工具和基于SVMTooL的越南语词性标注工具分别对汉语和越南语进行词性信息的标记。
4.根据权利要求1所述的基于融合词性和位置信息的汉-越卷积神经机器翻译方法,其特征在于:所述Step3中,在生成的词表中,包含不同词性信息的词,就会将词性信息作为词法关系特征融入到翻译模型中,以指导模型生成符合语言语法的目标语句;在模型训练时,将词性信息作为词法关系特征融入到翻译模型中,以指导模型生成符合语言语法的目标语句。
CN201910613122.0A 2019-07-09 2019-07-09 基于融合词性和位置信息的汉-越卷积神经机器翻译方法 Active CN110321568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910613122.0A CN110321568B (zh) 2019-07-09 2019-07-09 基于融合词性和位置信息的汉-越卷积神经机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910613122.0A CN110321568B (zh) 2019-07-09 2019-07-09 基于融合词性和位置信息的汉-越卷积神经机器翻译方法

Publications (2)

Publication Number Publication Date
CN110321568A CN110321568A (zh) 2019-10-11
CN110321568B true CN110321568B (zh) 2020-08-28

Family

ID=68121631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910613122.0A Active CN110321568B (zh) 2019-07-09 2019-07-09 基于融合词性和位置信息的汉-越卷积神经机器翻译方法

Country Status (1)

Country Link
CN (1) CN110321568B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652006B (zh) * 2020-06-09 2021-02-09 北京中科凡语科技有限公司 一种计算机辅助翻译方法及装置
US11907678B2 (en) * 2020-11-10 2024-02-20 International Business Machines Corporation Context-aware machine language identification

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180052849A1 (en) * 2016-08-18 2018-02-22 International Business Machines Corporation Joint embedding of corpus pairs for domain mapping
CN107967262A (zh) * 2017-11-02 2018-04-27 内蒙古工业大学 一种神经网络蒙汉机器翻译方法
CN108681539A (zh) * 2018-05-07 2018-10-19 内蒙古工业大学 一种基于卷积神经网络的蒙汉神经翻译方法
CN109840331A (zh) * 2019-01-31 2019-06-04 沈阳雅译网络技术有限公司 一种基于用户词典的神经机器翻译方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763224A (zh) * 2016-06-28 2018-11-06 大连民族大学 评论信息多语机器翻译子系统的翻译方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180052849A1 (en) * 2016-08-18 2018-02-22 International Business Machines Corporation Joint embedding of corpus pairs for domain mapping
CN107967262A (zh) * 2017-11-02 2018-04-27 内蒙古工业大学 一种神经网络蒙汉机器翻译方法
CN108681539A (zh) * 2018-05-07 2018-10-19 内蒙古工业大学 一种基于卷积神经网络的蒙汉神经翻译方法
CN109840331A (zh) * 2019-01-31 2019-06-04 沈阳雅译网络技术有限公司 一种基于用户词典的神经机器翻译方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Exploring Different Granularity in Mongolian-Chinese Machine Translation Based on CNN;Wang Hongbin et al.;《2017 18th International Conference on Parallel and Distributed Computing, Applications and Technologies》;20171218;第112-116页 *
基于RNN和CNN的蒙汉神经机器翻译研究;包乌格德勒 等;《中文信息学报》;20180831;第32卷(第8期);第60-67页 *

Also Published As

Publication number Publication date
CN110321568A (zh) 2019-10-11

Similar Documents

Publication Publication Date Title
CN109783657B (zh) 基于受限文本空间的多步自注意力跨媒体检索方法及系统
Zhu et al. CAN-NER: Convolutional attention network for Chinese named entity recognition
CN107357789B (zh) 融合多语编码信息的神经机器翻译方法
Lee et al. Fully character-level neural machine translation without explicit segmentation
Chen et al. Abstractive text-image summarization using multi-modal attentional hierarchical RNN
CN109359294B (zh) 一种基于神经机器翻译的古汉语翻译方法
CN112100351A (zh) 一种通过问题生成数据集构建智能问答系统的方法及设备
CN110378409B (zh) 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
CN112541343B (zh) 基于词对齐的半监督对抗学习跨语言摘要生成方法
Zhao et al. A language model based evaluator for sentence compression
CN110427608B (zh) 一种引入分层形声特征的中文词向量表示学习方法
CN112559702A (zh) 基于Transformer的土木建筑信息领域自然语言问题生成方法
CN114969304A (zh) 基于要素图注意力的案件舆情多文档生成式摘要方法
CN110321568B (zh) 基于融合词性和位置信息的汉-越卷积神经机器翻译方法
CN110222338A (zh) 一种机构名实体识别方法
Jian et al. Lstm-based attentional embedding for English machine translation
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN114254645A (zh) 一种人工智能辅助写作系统
ShweSin et al. Large scale Myanmar to English neural machine translation system
Yang et al. Adaptive syncretic attention for constrained image captioning
CN114239612A (zh) 一种多模态神经机器翻译方法、计算机设备及存储介质
Jiang et al. Hadamard product perceptron attention for image captioning
Zhang Evaluating the factual correctness for abstractive summarization
CN112507717A (zh) 融合实体关键字特征的医疗领域实体分类方法
CN117009456A (zh) 医疗查询文本的处理方法、装置、设备、介质和电子产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant