CN111859991A

CN111859991A - 语言翻译处理模型训练方法和语言翻译处理方法

Info

Publication number: CN111859991A
Application number: CN202010743766.4A
Authority: CN
Inventors: 肖嵘
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2020-10-30
Anticipated expiration: 2040-07-29
Also published as: CN111859991B

Abstract

本发明实施例提供一种语言翻译处理模型训练方法，包括对样本语言文本执行向量转化，以得到多个样本分词数据对应的样本分词向量及位置向量；随机初始化转换神经网络模型中的权重参数；基于第一约束条件和第二约束条件，得到约束后的权重参数；根据样本分词向量、位置向量、约束后的权重参数计算样本注意力分值，并得到目标样本翻译语言文本；当目标样本翻译语言文本与样本语言文本对应的样本翻译语言文本不一致时，调整模型的约束后的权重参数，以得到训练后的语言翻译处理模型。本发明实施例提供语言翻译处理方法。本发明实施例的模型训练方法对权重参数增加约束条件，提升模型优化的速度，提高模型训练的稳定性。

Description

语言翻译处理模型训练方法和语言翻译处理方法

技术领域

本发明实施例涉及大数据领域，尤其涉及一种语言翻译处理模型训练方法、系统、计算机设备、计算机存储介质以及语言翻译处理方法。

背景技术

Transformer(转换神经网络)模型目前被广泛应用在自然语言处理、深度字符识别、语音是等领域中。其中，多头注意力模型为Transformer模型中的重要组成部分。

在语言翻译处理领域中，多头注意力模型通常在训练过程中，对部分模型参数直接进行优化，对映射矩阵约束太弱，甚至没有约束。由于映射矩阵对查询向量和关键字向量存在一种缩放作用，这会使得训练的过程不稳定。如果对映射矩阵的约束太弱，那么对于部分参数的任意一组解都能构造出无限组等价解，这使得模型容易陷入局部最小值，而导致模型训练速度慢，不利于模型的训练和优化。

发明内容

有鉴于此，本发明实施例提供了一种语言翻译处理模型训练方法、系统、计算机设备及计算机可读存储介质，用于解决现有的多头注意力模型训练速度慢，训练效果不佳的问题。

本发明实施例是通过下述技术方案来解决上述技术问题：

一种语言翻译处理模型训练方法，包括：

获取样本语言文本，对所述样本语言文本进行分词，以得到多个样本分词数据，并对所述多个样本分词数据执行向量转化，以得到多个样本分词数据对应的样本分词向量及位置向量；

随机初始化转换神经网络模型中的权重参数；

获取第一约束条件和第二约束条件，并基于所述第一约束条件和第二约束条件，得到约束后的权重参数；

根据所述样本分词向量、位置向量、约束后的权重参数计算样本注意力分值，并基于所述样本注意力分值得到目标样本翻译语言文本；

当目标样本翻译语言文本与样本语言文本对应的样本翻译语言文本不一致时，调整模型的约束后的权重参数，以得到训练后的语言翻译处理模型。

进一步地，所述获取样本语言文本，对所述样本语言文本进行分词，以得到多个样本分词数据包括：

获取所述样本语言文本的类型；

根据所述样本语言文本的类型选择对应的分词算法对所述样本语言文本进行分词，以得到多个样本分词数据。

进一步地，对所述多个样本分词数据执行向量转化，以得到多个样本分词数据对应的位置向量，还包括：

获取所述样本分词数据在所述样本语言文本中的位置数据；

对所述位置数据执行向量转化，以得到所述样本分词数据对应的位置向量。

进一步地，所述权重参数包括第一权重矩阵参数q和第二权重矩阵参数k，所述获取第一约束条件和第二约束条件之前还包括：

获取第一权重矩阵参数q、第二权重矩阵参数k和相似度公式F＝Q^tWK，并根据第一权重矩阵参数q、第二权重矩阵参数k和相似度公式得到第一约束条件和第二约束条件，其中，F为注意力分值，Q^t为查询样本矩阵Q的转置，K为关键字矩阵，权重矩阵参数W为第一权重矩阵参数q和第二权重矩阵参数k的乘积。

进一步地，所述获取第一约束条件和第二约束条件，并基于所述第一约束条件和第二约束条件，得到约束后的权重参数包括：

根据第一权重矩阵参数q和第二权重矩阵参数k定义第一约束条件W＝U^tV，其中，U^t为第一正交矩阵U的转置，V为第二正交矩阵；

对权重矩阵参数W进行奇异值分解，并定义第二约束条件

其中U*、V*均为权重矩阵参数W的标准分解，∧为对角矩阵；

根据第一约束条件W＝U^tV和第二约束条件

得到约束后的第一权重矩阵参数q’和约束后的第二权重矩阵参数k’，其中，q’＝U*q，k’＝V*k。

进一步地，所述基于所述样本注意力分值得到目标样本翻译语言文本包括：

将所述样本注意力分值进行归一化处理，以得到翻译概率；

选择翻译概率最高的样本翻译语言单词为目标样本翻译语言单词，组合多个目标样本翻译语言单词得到目标样本翻译语言文本。

为了实现上述目的，本发明实施例还提供一种语言翻译处理模型训练系统，包括：

样本采集模块，用于获取样本语言文本，对所述样本语言文本进行分词，以得到多个样本分词数据，并对所述多个样本分词数据执行向量转化，以得到多个样本分词数据对应的样本分词向量及位置向量；

初始化模块，用于随机初始化转换神经网络模型中的权重参数；

约束模块，用于获取第一约束条件和第二约束条件，并基于所述第一约束条件和第二约束条件，得到约束后的权重参数；

输出模块，用于根据所述样本分词向量、位置向量、约束后的权重参数计算样本注意力分值，并基于所述样本注意力分值得到目标样本翻译语言文本；

优化模块，用于当目标样本翻译语言文本与样本语言文本对应的样本翻译语言文本不一致时，调整模型的约束后的权重参数，以得到训练后的语言翻译处理模型。

为了实现上述目的，本发明实施例还提供一种计算机设备，所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述语言翻译处理模型训练方法的步骤。

为了实现上述目的，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行如上所述的语言翻译处理模型训练方法的步骤。

本发明实施例还提供一种语言翻译处理方法，包括：

获取目标语言文本，对所述目标语言文本进行分词，以得到多个目标分词数据，并对所述多个目标分词数据执行向量转化，以得到多个目标分词数据对应的目标分词向量以及目标位置向量；

将所述多个目标分词数据对应的目标分词向量以及目标位置向量输入至如上述的训练后的语言翻译处理模型，对所述目标分词向量以及目标位置向量执行编码，以得到目标注意力向量集；

通过所述训练后的语言翻译处理模型对所述目标注意力向量集中的多个目标注意力向量执行解码，以得到目标输出向量；

通过所述训练后的语言翻译处理模型将所述目标输出向量进行线性变换，以得到多个目标分词数据对应的翻译语言单词的目标注意力分值，并根据目标注意力分值确定目标翻译语言单词，组合多个目标翻译语言单词得到目标翻译语言文本。

本发明实施例提供的语言翻译处理模型训练方法、系统、计算机设备及计算机可读存储介质，对样本语言文本进行向量转化，以得到多个样本分词数据对应的样本分词向量及位置向量；根据第一约束条件和第二约束条件，得到约束后的权重参数；根据所述样本分词向量、位置向量、约束后的权重参数计算样本注意力分值，并得到目标样本翻译语言文本；当目标样本翻译语言文本与样本语言文本对应的样本翻译语言文本不一致时，调整模型的约束后的权重参数，以得到训练后的语言翻译处理模型，对权重参数增加约束条件，提升模型优化的速度，提高模型训练的稳定性。

以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

附图说明

图1为本发明实施例一之语言翻译处理模型训练方法的步骤流程图；

图2为本发明实施例一之语言翻译处理模型训练方法中得到多个样本分词数据的步骤流程图；

图3为本发明实施例一之语言翻译处理模型训练方法中得到多个样本分词数据对应的位置向量的步骤流程图；

图4为本发明实施例一之语言翻译处理模型训练方法中得到约束后的权重参数的步骤流程图；

图5为本发明实施例一之语言翻译处理模型训练方法中得到目标样本翻译语言文本的步骤流程图；

图6为本发明实施例二之语言翻译处理模型训练系统的程序模块示意图；

图7为本发明实施例三之计算机设备的硬件结构示意图；

图8为本发明实施例五之语言翻译处理方法的步骤流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

实施例一

请参阅图1，示出了本发明实施例之语言翻译处理模型训练方法的步骤流程图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备为执行主体进行示例性描述，具体如下：

如图1所示，所述语言翻译处理模型训练方法可以包括步骤S100～S140，其中：

步骤S100，获取样本语言文本，对所述样本语言文本进行分词，以得到多个样本分词数据，并对所述多个样本分词数据执行向量转化，以得到多个样本分词数据对应的样本分词向量及位置向量。

具体的，从预设置的训练样本集中获取样本语言文本，其中，样本语言文本包括至少一个样本语言语句。

在示例性的实施例中，请参阅图2，对所述样本语言文本进行分词，以得到多个样本分词数据还可以进一步包括：

步骤S101，获取所述样本语言文本的类型。

步骤S102，根据所述样本语言文本的类型选择对应的分词算法对所述样本语言文本进行分词，以得到多个样本分词数据。

具体的，可以根据样本语言文本的类型选择相应的分词算法对所述样本语言文本进行分词操作。举例而言，样本语言文本的类型为中文时，可采用基于词典分词算法、基于统计的机器学习算法对样本语言文本进行分词操作。其中，常见的基于词典的分词算法包括但不限于正向最大匹配法、逆向最大匹配法和双向匹配分词法等。基于统计的机器学习算法包括但不限于HMM(隐马尔可夫)、CRF(条件随机场)、SVM(支持向量机)、深度学习等算法。在示例性的实施例中，请参阅图3，对所述多个样本分词数据执行向量转化，以得到多个样本分词数据对应的位置向量还可以进一步包括：

步骤S103，获取所述样本分词数据在所述样本语言文本中的位置数据。

步骤S104，对所述位置数据执行向量转化，以得到所述样本分词数据对应的位置向量。

在示例性的实施例中，语言翻译处理模型是以转换神经网络(Transformer)模型为架构的模型，转换神经网络模型包括词嵌入层。示例性的，可以通过词嵌入层将所述多个样本分词数据转化为多个样本分词数据对应的样本分词向量。

步骤S110，随机初始化转换神经网络模型中的权重参数。

在示例性的实施例中，所述权重参数包括转换神经网络模型中的第一权重矩阵参数q和转换神经网络模型中的第二权重矩阵参数k。

步骤S120，获取第一约束条件和第二约束条件，并基于所述第一约束条件和第二约束条件，得到约束后的权重参数。

在示例性的实施例中，所述转换神经网络模型的多头注意力模型包括编码组件、解码组件和输出层等。编码组件包括多个编码器(encoder)，解码组件包括多个解码器(decoder)。编码器包括两个子层：编码器中的自注意力(self-attention)层和前向传播神经网络(feed-forword)层。解码器包括三个子层：解码器中的自注意力层、编码-解码注意力层和前向传播神经网络层。其中，自注意力层均可以为多头注意力模型。

具体的，所述语言翻译处理模型训练方法还包括：

获取第一权重矩阵参数q、第二权重矩阵参数k和相似度公式F＝Q^tWK，Q∈Rⁿ，K∈R^m，并根据第一权重矩阵参数q、第二权重矩阵参数k和相似度公式得到第一约束条件和第二约束条件，其中，F为注意力分值，Q^t为查询样本矩阵Q的转置，K为关键字矩阵，权重矩阵参数W为第一权重矩阵参数q和第二权重矩阵参数k的乘积，Rⁿ为第一空间，R^m为第二空间。

在示例性的实施例中，请参阅图4，步骤S120还可以进一步包括：

步骤S121，根据第一权重矩阵参数q和第二权重矩阵参数k定义第一约束条件W＝U^tV，U∈R^r×n，V∈R^r×m，其中，U^t为第一正交矩阵U的转置，V为第二正交矩阵，R^r为语义空间。

步骤S122，对权重矩阵参数W进行奇异值分解，并定义第二约束条件

其中U*、V*均为权重矩阵参数W的标准分解，∧为对角矩阵。

步骤S123，根据第一约束条件W＝U^tV和第二约束条件

举例而言，在转换神经网络模型中，W＝qk。那么，根据矩阵W＝U^tV的分解特性，得到约束后的第一参数可以定义为：q’＝U*q，k’＝V*k。其中，q’为约束后的第一权重矩阵参数、k’为约束后的第二权重矩阵参数，U为第一正交矩阵，V为第二正交矩阵。因此，F可以看做是，通过第一正交矩阵U和第二正交矩阵V将原始的样本Q和K映射到一个新空间R^r的点积。

其中，第一正交矩阵和第二正交矩阵的设置，既保证了约束后的第一参数线性相关，又保证了第一参数的独立性。因此，使得不同的注意力头聚焦到不同的维度上去。

由于W＝U^tV的矩阵分解通常并不唯一，即一个W可以找出无限多组的q和k的分解形式。假设U*、V*是转换神经网络模型的最优解，那么，对于任意一个满秩的矩阵Q∈R^r×r，Q^tU*、Q^-1V*是U*、V*另外一组等价解；U*乘上任何一个满秩矩阵得到一个新矩阵，V*乘上任何一个满秩矩阵的逆矩阵得到另一个新矩阵，这两个新矩阵乘起来，这个满秩矩阵和这个满秩矩阵的矩阵逆之间消掉的话，这两个新矩阵相乘得到的还是W，因此，任意一个满秩的矩阵和满秩矩阵的逆矩阵分别与U*、V*相乘，得到的还是W。因此，设置第一约束条件和第二约束条件，增加参数在模型训练过程中的约束，提高模型的训练速度。

为此，定义权重矩阵参数W的标准分解，根据矩阵W的奇异值(SVD)分解特性，以得到第二约束条件。

示例性的，对矩阵W进行SVD分解，有W＝U^t∧V，其中U∈R^r×n，V∈R^r×m，∧＝diag(λ₁，...，λ_r)，UU^t＝I，VV^t＝I，其中，diag指的是对角函数，U^t为第一正交矩阵U的转置，V^t为第二正交矩阵V的转置，I为单位矩阵，λ为特征值，r为整数。假设W是一个m×m的矩阵，根据SVD的谱分解特性，有：

其中，i指的是第i个样本翻译语言单词，U是一个m×m的矩阵，Σ是一个m×n的矩阵，V是一个n×n的矩阵。U和V都是酉矩阵，即满足UU^t＝I，VV^t＝I，I是单位矩阵。

那么，

其中λ为特征值。

我们令

则可以定义W＝U^*tV^*是W的标准分解。并且，该分解满足以下条件：V^*V^*t＝∧、U^*U^*t＝∧，U^*t为标准分解矩阵U^*的转置，V^*t为标准分解矩阵V^*的转置，未避免分解方程陷入平凡解，进一步约束定义，∑_iλ_i＝1。定义第一约束条件和第二约束条件后，可以得到约束后的第一权重矩阵参数q’＝U*q和约束后的第二权重矩阵参数k’＝V*k。

步骤S130，根据所述样本分词向量、位置向量、约束后的权重参数计算样本注意力分值，并基于所述样本注意力分值得到目标样本翻译语言文本。

在示例性的实施例中，步骤S130还可以进一步包括：

步骤S131，将所述样本注意力分值进行归一化处理，以得到翻译概率。

步骤S132，选择翻译概率最高的样本翻译语言单词为目标样本翻译语言单词，组合多个目标翻译语言单词得到目标样本翻译语言文本。

在示例性的实施例中，将所述样本分词向量输入至转换神经网络模型中多个编码器的底层编码器的自注意力层，通过相似度公式自编码后，输出至前向传播网络层；再将经由底层编码器的输出结果传递至下一个编码器中继续进行自编码；以此类推，最终多个编码器中顶端的编码器会转化为一个包含键向量和值向量的注意力向量集。这些注意力向量集中的向量输入至底端解码器依次传递至其中的自注意力层、编码-解码注意力层和前向传播神经网络层，再将经由底层解码器的输出结果传递至下一个解码器中继续进行解码，每个解码器都会输出一个输出序列的元素。以此类推，顶端的解码器会输出一个实数向量。将这个实数向量输入至全连接层进行线性变换，全连接层可以把解码组件产生的实数向量投射到一个比实数向量要大的对数几率向量里，输出注意力分值，这个注意力分值会经过一个softmax(分类器)层将注意力分值转化为0～1的范围内的翻译概率。最后，选择翻译概率最高的样本翻译语言单词经由输出层输出。多个样本翻译语言单词组成目标样本翻译语言文本。

步骤S140，当目标样本翻译语言文本与样本语言文本对应的样本翻译语言文本不一致时，调整模型的约束后的权重参数，以得到训练后的语言翻译处理模型。

在示例性的实施例中，将目标样本翻译语言文本与样本翻译语言文本进行比较，当比较结果为不一致时，即是目标样本翻译语言文本与样本翻译语言文本的翻译概率不一致时，通过反向传播算法调整权重参数，直至输出的目标样本翻译语言文本对应的翻译概率与样本翻译语言文本的翻译概率尽可能相同，甚至完全一致，则得到训练后的语言翻译处理模型。

具体的，反向传播算法是将训练数据输出的结果与真实结果进行比较，如果有误差，则计算训练数据输出的结果和真实结果之间的误差值，再将这个误差值从输出层反向传播回去，直到传播到输入层，再反向传播过程中，不断调整模型中的参数，不断迭代步骤S100～S140的过程，直到收敛为止。

所述语言翻译处理模型训练方法，对权重参数增加了一系列的约束条件，参数的优化结果不变，即参数对应的解的表达能力不变；对参数增加了很强的约束条件，使得参数的解既是线性相关又具有独立性，并且在不牺牲模型的学习能力的基础上，提高了模型的训练速度，提高了模型训练的效率，使得模型训练更稳定。本发明实施例中的基于转换神经网络的多头注意力模型的改进可以应用于其他应用场景中序列到序列的学习应用中去，例如可以应用在语音识别、OCR识别等。

实施例二

请继续参阅图6，示出了本发明语言翻译处理模型训练系统的程序模块示意图。在本实施例中，语言翻译处理模型训练系统20可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本发明，并可实现上述语言翻译处理模型训练方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序本身更适合于描述语言翻译处理模型训练系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能：

样本采集模块200，用于获取样本语言文本，对所述样本语言文本进行分词，以得到多个样本分词数据，并对所述多个样本分词数据执行向量转化，以得到多个样本分词数据对应的样本分词向量及位置向量。

在示例性的实施例中，所述样本采集模块200还用于：获取所述样本语言文本的类型；根据所述样本语言文本的类型选择对应的分词算法对所述样本语言文本进行分词，以得到多个样本分词数据。

在示例性的实施例中，所述样本采集模块200还用于：获取所述样本分词数据在所述样本语言文本中的位置数据；对所述位置数据执行向量转化，以得到所述样本分词数据对应的位置向量。

初始化模块210，用于随机初始化转换神经网络模型中的权重参数。

约束模块220，用于获取第一约束条件和第二约束条件，并基于所述第一约束条件和第二约束条件，得到约束后的权重参数；

在示例性的实施例中，所述权重参数包括第一权重矩阵参数q和第二权重矩阵参数k。所述约束模块220还用于根据第一权重矩阵参数q和第二权重矩阵参数k定义第一约束条件W＝U^tV，其中，U^t为第一正交矩阵U的转置，V为第二正交矩阵；对权重矩阵参数W进行奇异值分解，并定义第二约束条件

其中U*、V*均为权重矩阵参数W的标准分解，∧为对角矩阵；根据第一约束条件W＝U^tV和第二约束条件

得到约束后的第一权重矩阵参数q’＝U*q和约束后的第二权重矩阵参数k’＝V*k。

输出模块230，用于根据所述样本分词向量、位置向量、约束后的权重参数计算样本注意力分值，并基于所述样本注意力分值得到目标样本翻译语言文本。

在示例性的实施例中，所述输出模块230还用于：将所述样本注意力分值进行归一化处理，以得到翻译概率；选择翻译概率最高的样本翻译语言单词为目标样本翻译语言单词，组合多个目标样本翻译语言单词得到目标样本翻译语言文本。

优化模块240，用于当目标样本翻译语言文本与样本语言文本对应的样本翻译语言文本不一致时，调整模型的约束后的权重参数，以得到训练后的语言翻译处理模型。

实施例三

参阅图7，是本发明实施例三之计算机设备的硬件架构示意图。本实施例中，所述计算机设备2是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图7所示，所述计算机设备2至少包括，但不限于，可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及语言翻译处理模型训练系统20。其中：

本实施例中，存储器21至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备2的内部存储单元，例如该计算机设备2的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备2的外部存储设备，例如该计算机设备2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件，例如上述实施例的语言翻译处理模型训练系统20的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行语言翻译处理模型训练系统20，以实现上述实施例的语言翻译处理模型训练方法。

所述网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如，所述网络接口23用于通过网络将所述计算机设备2与外部终端相连，在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(WidebandCode Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图7仅示出了具有部件20-23的计算机设备2，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器21中的所述语言翻译处理模型训练系统20还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器21中，并由一个或多个处理器(本实施例为处理器22)所执行，以完成本发明。

例如，图6示出了所述实现语言翻译处理模型训练系统20实施例二的程序模块示意图，该实施例中，所述基于语言翻译处理模型训练系统20可以被划分为样本采集模块200、初始化模块210、约束模块220、输出模块230以及优化模块240。其中，本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述所述语言翻译处理模型训练系统20在所述计算机设备2中的执行过程。所述程序模块200-240的具体功能在实施例二中已有详细描述，在此不再赘述。

实施例四

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储语言翻译处理模型训练系统20，被处理器执行时实现上述实施例的语言翻译处理模型训练方法。

实施例五

参阅图8，示出了本发明实施例五之语言翻译处理方法的步骤流程图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下。

如图8所示，所述语言翻译处理方法可以包括步骤S300～S330，其中：

步骤S300，获取目标语言文本，对所述目标语言文本进行分词，以得到多个目标分词数据，并对所述多个目标分词数据执行向量转化，以得到多个目标分词数据对应的目标分词向量以及目标位置向量。

在示例性的实施例中，目标分词数据可以为短语也可以为单词。步骤S310，将所述多个目标分词数据对应的目标分词向量以及目标位置向量输入至如上述的训练后的语言翻译处理模型，对所述目标分词向量以及目标位置向量执行编码，以得到目标注意力向量集。

步骤S320，通过所述训练后的语言翻译处理模型对所述目标注意力向量集中的多个目标注意力向量执行解码，以得到目标输出向量。

步骤S330，通过所述训练后的语言翻译处理模型将所述目标输出向量进行线性变换，以得到多个目标分词数据对应的翻译语言单词的目标注意力分值，并根据目标注意力分值确定目标翻译语言单词，组合多个目标翻译语言单词得到目标翻译语言文本。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语言翻译处理模型训练方法，其特征在于，包括：

随机初始化转换神经网络模型中的权重参数；

2.根据权利要求1所述的语言翻译处理模型训练方法，其特征在于，所述获取样本语言文本，对所述样本语言文本进行分词，以得到多个样本分词数据包括：

获取所述样本语言文本的类型；

3.根据权利要求2所述的语言翻译处理模型训练方法，其特征在于，对所述多个样本分词数据执行向量转化，以得到多个样本分词数据对应的位置向量，还包括：

获取所述样本分词数据在所述样本语言文本中的位置数据；

4.根据权利要求1所述的语言翻译处理模型训练方法，其特征在于，所述权重参数包括第一权重矩阵参数q和第二权重矩阵参数k，所述获取第一约束条件和第二约束条件之前还包括：

5.根据权利要求4所述的语言翻译处理模型训练方法，其特征在于，所述获取第一约束条件和第二约束条件，并基于所述第一约束条件和第二约束条件，得到约束后的权重参数包括：

对权重矩阵参数W进行奇异值分解，并定义第二约束条件

其中U*、V*均为权重矩阵参数W的标准分解，∧为对角矩阵；

根据第一约束条件W＝U^tV和第二约束条件

6.根据权利要求1所述的语言翻译处理模型训练方法，其特征在于，所述基于所述样本注意力分值得到目标样本翻译语言文本包括：

将所述样本注意力分值进行归一化处理，以得到翻译概率；

7.一种语言翻译处理模型训练系统，其特征在于，包括：

8.一种计算机设备，所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的语言翻译处理模型训练方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行如权利要求1至6中任一项所述的语言翻译处理模型训练方法的步骤。

10.一种语言翻译处理方法，其特征在于，包括：

将所述多个目标分词数据对应的目标分词向量以及目标位置向量输入至如权利要求1至6中任一项所述的训练后的语言翻译处理模型，对所述目标分词向量以及目标位置向量执行编码，以得到目标注意力向量集；