CN108549646B

CN108549646B - 一种基于胶囊的神经网络机器翻译系统、信息数据处理终端

Info

Publication number: CN108549646B
Application number: CN201810371528.8A
Authority: CN
Inventors: 贝超; 程国艮
Original assignee: Glabal Tone Communication Technology Co ltd
Current assignee: Glabal Tone Communication Technology Co ltd
Priority date: 2018-04-24
Filing date: 2018-04-24
Publication date: 2022-04-15
Anticipated expiration: 2038-04-24
Also published as: WO2019205564A1; CN108549646A

Abstract

本发明属于计算机软件技术领域，公开了一种基于胶囊的神经网络机器翻译系统、信息数据处理终端，所述基于胶囊的神经网络机器翻译方法包括：把词映射得到高维向量空间得到词向量，得到结合语料中额外信息的词向量，同时结合词的位置信息；接收上下文向量，得到到目标语言的词向量，通过词典得到目标语言词汇。本发明通过改变神经网络内部结构，通过胶囊层改进后的词嵌入层可以学习到语料中额外的信息，使得原文和译文中所对应的词更加紧密了。原文和译文中带有类似额外信息的词在词向量空间中的距离更加紧密。

Description

一种基于胶囊的神经网络机器翻译系统、信息数据处理终端

技术领域

本发明属于计算机软件技术领域，尤其涉及一种基于胶囊的神经网络机器翻译系统、信息数据处理终端。

背景技术

目前，业内常用的现有技术是这样的：机器翻译是一种利用机器学习的技术将一种自然语言翻译成另外一种自然语言的过程。作为计算语言学的一个重要分支，它涉及认知科学、语言学等学科，是人工智能的终极目标之一。现有主流的机器翻译模型是使用基于自注意力机制的编码-解码结构，由编码器和解码器组成。二者均以自注意力层为主。翻译流程主要包括：首先把输入的词映射到高维的向量空间得到词向量，再把词向量输入到编码器，通过自注意力机制得到上下文向量，解码器再根据上下文向量和自注意力机制，通过softmax层输出到目标语言的词向量空间。最后通过词典得到目标语言词汇。现有工业界的通用机器翻译系统大多只是使用双语平行语料，并未额外使用语料中的句法和词性等信息。其主要原因在于两点：第一，使用语料中的句法和词性等信息的前提是在于已提取句法和词性等信息，而提取这类信息既耗费时间，也不能保证很高的准确率；第二，现有加入句法和词性等信息的发放中，大多会使得模型更加复杂，训练以及解码的时间成本更高，难以满足用户的需求。而双语平行语料中可提取的信息十分丰富，但并没有得到更好的利用。例如双语平行语料中的词性信息，可让原文和译文中相同词性的词有了更紧密的联系。同样的，这也拉近了原文和译文中主谓宾的距离。有效地利用双语平行语料中额外的信息，可以有效避免一些人名和数字的错翻漏翻等问题。

综上所述，现有技术存在的问题是：现有工业界的通用机器翻译系统大多只是使用双语平行语料，并未额外使用语料中的句法和词性等信息。

解决上述技术问题的难度和意义：使用语料中的句法和词性等信息的前提是在于已提取句法和词性等信息，而提取这类信息既耗费时间，也不能保证很高的准确率；现有加入句法和词性等信息的发放中，大多会使得模型更加复杂，训练以及解码的时间成本更高，难以满足用户的需求。

发明内容

针对现有技术存在的问题，本发明提供了一种基于胶囊的神经网络机器翻译系统、信息数据处理终端。

本发明是这样实现的，一种基于胶囊的神经网络机器翻译方法，所述基于胶囊的神经网络机器翻译方法包括：把词映射得到高维向量空间得到词向量，得到结合语料中额外信息的词向量，同时结合词的位置信息；接收上下文向量，得到到目标语言的词向量，通过词典得到目标语言词汇。

进一步，所述得到高维向量空间得到词向量的方法具体包括：

其中b_ij初始化为0。

所述基于胶囊的神经网络机器翻译方法进一步包括：

点乘注意力：

多头注意力：

MultiHead(Q,K,V)＝Concat(head1，...，head_n)；

其中，Q，K，V均为词向量；

前馈神经网络：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂。

进一步，所述通过词典得到目标语言词汇具体包括：

其中，θ_i为权重参数，k为目标语言词表的大小。

本发明的另一目的在于提供一种所述基于胶囊的神经网络机器翻译方法的基于胶囊的神经网络机器翻译系统，所述基于胶囊的神经网络机器翻译系统包括：

编码器，用于把词映射得到高维向量空间得到词向量，通过胶囊层得到结合语料中额外信息的词向量，同时结合词的位置信息，作为编码器的输入；

解码器，用于接收编码器的上下文向量。

本发明的另一目的在于提供一种实现所述基于胶囊的神经网络机器翻译方法的计算机程序。

本发明的另一目的在于提供一种实现所述基于胶囊的神经网络机器翻译方法的信息数据处理终端。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的基于胶囊的神经网络机器翻译方法。

综上所述，本发明的优点及积极效果为：本发明通过改变神经网络内部结构，通过胶囊层改进后的词嵌入层可以学习到语料中额外的信息，使得原文和译文中所对应的词更加紧密了。原文和译文中带有类似额外信息的词在词向量空间中的距离更加紧密。

现有利用语料中额外信息的方法中，均需要使用传统方法从语料中提取额外的信息，不但需要花费更多的时间，而且没有很高的准确率，由于并不在一个模型中训练，两个模型之间的适应程度也并不能保证。但是，本发明改进的模型结构可并行计算程度高，虽然使得模型更加复杂，但是使用可高并行计算的图形显卡(GPU)，并未增加很多时间上的消耗。同时，在同一个模型中训练，其适应性就无须担心。一个模型即可解决在神经网络机器翻译中利用额外的语料信息，工程上也更加简洁便捷。

附图说明

图1是本发明实施例提供的基于胶囊的神经网络机器翻译系统结构示意图；

图中：1、编码器；2、解码器。

图2是本发明实施例提供的基于胶囊的神经网络机器翻译方法流程图。

图3是本发明实施例提供的基于胶囊和自注意力的编码-解码神经网络模型示意图。

图4是本发明实施例提供的基于胶囊层的词嵌入层示意图。

图5是本发明实施例提供的自注意力层示意图；

图中：(a)点乘注意力；(b)多头注意力层。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明基于胶囊的神经网络机器翻译系统可以较好地在模型内部提取语料中额外的信息，并不耗费额外的预处理时间。并且，由于集成在神经网络机器翻译模型的内部，不受外部标注模型的影响，对于翻译模型的适应性更佳。

如图1所示，本发明实施例提供的基于胶囊的神经网络机器翻译系统包括：编码器1、解码器2。

编码器1，用于把词映射得到高维向量空间得到词向量，通过胶囊层得到结合语料中额外信息的词向量，同时结合词的位置信息，作为编码器的输入；

解码器2，用于接收编码器1的上下文向量。

如图2所示，本发明实施例提供的基于胶囊的神经网络机器翻译方法包括以下步骤：

S101：用把词映射得到高维向量空间得到词向量，得到结合语料中额外信息的词向量，同时结合词的位置信息；

S102：接收上下文向量，得到到目标语言的词向量，通过词典得到目标语言词汇。

下面结合附图对本发明的应用原理作进一步的描述。

胶囊层如图4，其具体计算如下：

其中b_ij初始化为0；

编码器和解码器均主要由自注意力层组成，如图5。其具体计算如下：点乘注意力：

多头注意力：

MultiHead(Q，K，V)＝Concat(head1，...，head_n)；

其中，Q，K，V均为词向量，Concat是指把向量拼接起来。

前馈神经网络：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂；

最后通过softmax得到目标语言的词向量，再通过词典得到目标语言词汇。其计算如下：

其中，θ_i为权重参数，k为目标语言词表的大小。

解码器2，用于接收编码器1的上下文向量。

下面结合附图对本发明的应用原理作进一步的描述。

胶囊层如图4，其具体计算如下：

其中b_ij初始化为0；

多头注意力：

MultiHead(Q，K，V)＝Concat(head1，...，head_n)；

其中，Q，K，V均为词向量，Concat是指把向量拼接起来。

前馈神经网络：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂；

其中，θ_i为权重参数，k为目标语言词表的大小。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。