CN110598222B

CN110598222B - 语言处理方法及装置、语言处理系统的训练方法及装置

Info

Publication number: CN110598222B
Application number: CN201910867015.0A
Authority: CN
Inventors: 徐智涛; 唐剑波; 李长亮; 郭馨泽
Original assignee: Beijing Kingsoft Digital Entertainment Co Ltd; Chengdu Kingsoft Digital Entertainment Co Ltd
Current assignee: Beijing Kingsoft Digital Entertainment Co Ltd; Chengdu Kingsoft Digital Entertainment Co Ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2023-05-30
Anticipated expiration: 2039-09-12
Also published as: CN110598222A

Abstract

本申请提供了语言处理方法及装置、语言处理系统的训练方法及装置，其中，所述语言处理方法包括：将包括多个待翻译语句的目标段落输入翻译模型，得到每个待翻译语句对应的翻译语句；将包含连接词的翻译语句中的连接词替换为连接标记，将不包含连接词的翻译语句中插入连接标记，生成每个翻译语句对应的标记翻译语句；将多个标记翻译语句输入已训练好的语言模型，语言模型将连接标记删除或替换为对应的最终连接词，得到每个标记翻译语句对应的最终翻译语句，根据每个标记翻译语句对应的最终翻译语句拼接得到翻译段落，从而使段落的翻译结果的语义表达更加流畅，实现了目标任务语言处理的有效提升。

Description

语言处理方法及装置、语言处理系统的训练方法及装置

技术领域

本申请涉及机器翻译技术领域，特别涉及一种语言处理方法及装置、语言处理系统的训练方法及装置、计算设备和计算机可读存储介质。

背景技术

现有的机器翻译的方法一般有：

1)基于统计的机器翻译：通过对大量语料进行统计计算，再利用隐马尔可夫或贝叶斯等方法进行句子的生成。

2)基于神经网络的机器翻译：通过对输入句子进行分词，再对词用向量表示，再将句子的信息通过神经网络进行编码，得到编码向量，再通过神经网络进行解码得到解码向量，继而依次生成翻译词语，根据翻译词语组成翻译语句。

无论何种方式，现有的机器翻译方法中，只考虑了每个句子单独的信息，而没有考虑句子与句子之间的逻辑等词的表达，如“而且”、“于是”等。这样往往导致各个句子自己的表达是清楚的，但是翻译结果组成的段落表达却并不流畅，影响了翻译效果。

发明内容

有鉴于此，本申请实施例提供了一种语言处理方法及装置、语言处理系统的训练方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

本申请实施例提供了一种语言处理系统的训练方法，所述方法包括：

将样本段落中的多个待翻译样本语句及对应的翻译样本语句作为平行语料输入至翻译模型进行训练，直至满足翻译模型的训练停止条件；

将所述样本段落中包含连接词的翻译样本语句中的连接词更换为连接标记，将未包含连接词的所述翻译样本语句中插入所述连接标记，生成每个翻译样本语句对应的标记翻译样本语句；

将多个所述标记翻译样本语句输入至语言模型进行训练，直至满足语言模型的训练停止条件。

可选地，将多个所述标记翻译样本语句输入至语言模型进行训练，直至满足语言模型的训练停止条件，包括：

将多个所述标记翻译样本语句输入语言模型，所述语言模型将所述连接标记删除或替换为对应的最终连接词，得到每个标记翻译样本语句对应的最终翻译样本语句；

根据所述最终翻译样本语句计算所述语言模型的困惑度，直至所述困惑度小于阈值。

本申请实施例提供了一种语言处理方法，所述方法包括：

将包括多个待翻译语句的目标段落输入翻译模型，得到每个待翻译语句对应的翻译语句；

将包含连接词的翻译语句中的所述连接词替换为连接标记，将不包含连接词的翻译语句中插入所述连接标记，生成每个翻译语句对应的标记翻译语句；

将多个所述标记翻译语句输入语言模型，所述语言模型将所述连接标记删除或替换为对应的最终连接词，得到每个标记翻译语句对应的最终翻译语句，其中，所述语言模型根据如上所述的语言处理系统的训练方法而得到；

根据每个标记翻译语句对应的最终翻译语句拼接得到翻译段落。

可选地，所述翻译模型包括编码器和解码器；

将包括多个待翻译语句的目标段落输入翻译模型，得到每个待翻译语句对应的翻译语句，包括：

将每个待翻译语句输入编码器，得到编码器输出的编码向量；

将编码向量和参考解码向量输入至解码器，得到解码器输出的解码向量；

将所述解码向量进行线性化和归一化处理，生成对应的翻译语句。

可选地，将包含连接词的翻译语句中的所述连接词替换为连接标记，将不包含连接词的翻译语句中插入所述连接标记，包括：

对所述翻译语句进行预处理，判断所述翻译语句是否包含连接词；

若是，将包含连接词的翻译语句中的所述连接词替换为所述连接标记；

若否，在所述不包含连接词的翻译语句的起始位置插入所述连接标记。

可选地，将多个所述标记翻译语句输入语言模型，所述语言模型将所述连接标记删除或替换为对应的最终连接词，得到每个标记翻译语句对应的最终翻译语句，包括：

S1、所述语言模型依次根据所述连接标记的相邻标记翻译语句，判断所述连接标记是否对应有连接词；

S2、若是，所述语言模型将所述连接标记替换为对应的最终连接词；

S3、若否，所述语言模型将所述连接标记删除；

S4、所述语言模型判断连接标记是否处理完毕，若否，执行步骤S1，若是，执行步骤S5；

S5、根据处理后的连接标记，得到每个标记翻译语句对应的最终翻译语句。

本申请实施例公开了一种语言处理系统的训练装置，包括：

第一训练模块，被配置为将样本段落中的多个待翻译样本语句及对应的翻译样本语句作为平行语料输入至翻译模型进行训练，直至满足翻译模型的训练停止条件；

翻译样本语句标记模块，被配置为将所述样本段落中包含连接词的翻译样本语句中的连接词更换为连接标记，将未包含连接词的所述翻译样本语句中插入所述连接标记，生成每个翻译样本语句对应的标记翻译样本语句；

第二训练模块，被配置为将多个所述标记翻译样本语句输入至语言模型进行训练，直至满足语言模型的训练停止条件。

本申请实施例公开了一种语言处理装置，包括：

翻译模块，被配置为将包括多个待翻译语句的目标段落输入翻译模型，得到每个待翻译语句对应的翻译语句；

翻译语句标记模块，被配置为将包含连接词的翻译语句中的所述连接词替换为连接标记，将不包含连接词的翻译语句中插入所述连接标记，生成每个翻译语句对应的标记翻译语句；

语言处理模块，被配置为将多个所述标记翻译语句输入语言模型，所述语言模型将所述连接标记删除或替换为对应的最终连接词，得到每个标记翻译语句对应的最终翻译语句，其中，所述语言模型根据权利要求1—2任一项所述的语言处理系统的训练方法而得到；

拼接模块，被配置为根据每个标记翻译语句对应的最终翻译语句拼接得到翻译段落。

本申请实施例公开了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现如上所述的语言处理方法或语言处理系统的训练方法的步骤。

本申请实施例公开了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如上所述的语言处理方法或语言处理系统的训练方法的步骤。

本申请提供的语言处理方法及装置，在通过已训练好的翻译模型得到每个待翻译语句对应的翻译语句后，将包含连接词的翻译语句中的连接词替换为连接标记，将不包含连接词的翻译语句中插入连接标记，生成每个翻译语句对应的标记翻译语句；然后根据已训练好的语言模型将多个标记翻译语句中的连接标记删除或替换为对应的最终连接词，得到每个标记翻译语句对应的最终翻译语句，从而在得到每个待翻译语句的翻译语句后，通过专门训练的语言模型来为句子之间可能需要连接词的生成连接词，以使段落的翻译结果的语义表达更加流畅，实现了目标任务语言处理的有效提升。

本实施例的语言处理系统的训练方法，通过将样本段落中的多个待翻译样本语句及对应的翻译样本语句输入至翻译模型进行训练，将所述样本段落中包含连接词的翻译样本语句中的连接词更换为连接标记，将未包含连接词的翻译样本语句中插入连接标记，生成每个翻译样本语句对应的标记翻译样本语句输入至语言模型进行训练，从而得到训练好的翻译模型和语言模型，以使段落的翻译结果的语义表达更加流畅，实现目标任务语言处理的有效提升。

附图说明

图1是本申请一实施例的计算设备的结构示意图；

图2是本申请一实施例的语言处理系统的训练方法的流程示意图；

图3是本申请一实施例的语言处理方法的流程示意图；

图4是本申请一实施例的翻译模型的架构示意图；

图5是本申请一实施例的语言处理方法的流程示意图；

图6是本申请另一实施例的语言处理方法的框架示意图；

图7是本申请一实施例的语言处理处理系统的训练装置的示意图；

图8是本申请一实施例的语言处理装置的示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

机器翻译：通过给机器输入源语言句子，机器返回目标语言的句子的过程。

Transformer模型：一种神经网络架构，用于机器翻译。其主要思想是将待翻译特征或向量经过编码层(encoder)编码成为一个编码特征或向量，然后利用解码层(decoder)对编码特征或向量进行解码，得到解码向量，然后将解码向量翻译成为对应的翻译语句。

RNN(Recurrent Neural Network，循环神经网络)模型：又称为递归神经网络，是一种具有反馈结构的神经网络，其输出不但与当前输入和网络的权值有关，而且也与之前网络的输入有关。

BERT(Bidirectional Encoder Representation from Transformers，双向注意力神经网络)：一种双向注意力神经网络模型。

LSTM(Long Short-Term Memory，长短期记忆模型)：是一种时间循环神经网络，能够处理时序信号的网络结构，是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的，适合于处理和预测时间序列中间隔和延迟非常长的重要事件。

困惑度(Perplexity，PPL)：困惑度是用在自然语言处理领域(NLP)中，衡量语言模型好坏的指标。它主要是根据每个词来估计一句话出现的概率。PPL越小，一句期望的句子出现的概率就越高。

在本申请中，提供了一种语言处理方法及装置、语言处理系统的训练方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的语言处理系统的训练方法的示意性流程图，包括下述步骤201～203：

201、将样本段落中的多个待翻译样本语句及对应的翻译样本语句作为平行语料输入至翻译模型进行训练，直至满足翻译模型的训练停止条件。

其中，翻译模型可以为多种，例如卷积神经网络(Convolutional NeuralNetworks，CNN)模型或循环神经网络(Recurrent Neural Networks，RNN)模型或者Transformer模型等。

其中，CNN模型一般包括：输入层、卷积层、池化层和全连接层。一方面CNN模型的神经元间的连接是非全连接的，另一方面同一层中某些神经元之间的连接的权重是共享的(即相同的)。它的非全连接和权值共享的网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。

RNN模型又称为递归神经网络，是一种具有反馈结构的神经网络，其输出不但与当前输入和网络的权值有关，而且也与之前网络的输入有关。RNN模型通过添加跨越时间点的自连接隐藏层，对时间进行建模；换句话说，隐藏层的反馈不仅仅进入输出端，而且还进入了下一时间的隐藏层。

Transformer模型的架构包括：编码器(encoder)—解码器(decoder)。编码器实现对输入的待翻译语句进行编码生成编码向量，解码器实现对编码向量进行解码生成对应的翻译语句。

其中，翻译模型的训练停止条件包括：将翻译模型生成的解码向量与预设的向量验证集进行对比，得到所述解码向量的误差的变化率小于稳定阈值。

具体地，稳定阈值可以根据实际需求而设定，例如设置为1％。这样，误差趋于稳定，就可以认为模型训练完毕了。

具体地，步骤201包括下述步骤S2011～S2014：

S2011、将所述待翻译样本语句输入至翻译模型的编码器，生成编码器的编码向量。

S2012、将参考解码向量以及编码向量输入至解码器进行解码，得到解码器输出的解码向量。

S2013、根据所述解码向量进行线性化和归一化处理，生成待翻译样本语句对应的翻译语句。

S2014、将待翻译样本语句对应的翻译语句以及翻译样本语句进行误差比对，并调整翻译模型的参数。

通过步骤S2011～S2014，可以得到训练好的翻译模型。

202、将所述样本段落中包含连接词的翻译样本语句中的连接词更换为连接标记，将未包含连接词的所述翻译样本语句中插入连接标记，生成每个翻译样本语句对应的标记翻译样本语句。

具体地，步骤202包括下述步骤S2021～S2023：

S2021、对翻译样本语句进行预处理，判断翻译样本语句是否包含连接词，若是，执行步骤S2022，若否，执行步骤S2023。

S2022、将包含连接词的翻译样本语句中的连接词替换为所述连接标记。

例如，在一个具体的使用例中，翻译样本语句为“明天预报要下雨，但是我还是要去踢足球”，其中包括连接词“但是”。在步骤S2022中，将连接词“但是”替换为标记“A”，得到的翻译样本语句为“明天预报要下雨，A我还是要去踢足球”。

S2023、在所述不包含连接词的翻译样本语句的起始位置插入连接标记。

例如，在一个具体的使用例中，翻译样本语句为“明天预报要下雨，我还是要去踢足球”，其中不包括连接词。在步骤S2023中：

一种方式是在第一句和第二句的起始位置均插入连接标记“A”，得到的翻译样本语句为“A明天预报要下雨，A我还是要去踢足球”。

另一种方式是在第二句的起始位置插入连接标记“A”，得到的翻译样本语句为“明天预报要下雨，A我还是要去踢足球”。

需要说明的是，对于相邻的两个句子，连接词大多情况下会出现在后一个句子的开始位置，表征前后两个句子的关系。例如“小明去踢球，然后去上学”、“我想去游乐场，但是没有时间”，“先对语料进行分析，再进行处理”，其中，“然后”“但是”“再”均位于后一句的起始位置。所以，对于上述第二种方式，选择在后一句不包含连接词的翻译样本语句的起始位置插入连接标记。

203、将多个所述标记翻译样本语句输入至语言模型进行训练，直至满足语言模型的训练停止条件。

其中，语言模型有多种。语言模型的训练阶段，思想为利用大量的单语语料进行无监督学习，并基于后向传播(BP)算法对语言模型的参数进行调整。例如LSTM模型、BERT模型等。

具体地，步骤203包括下述步骤S2031～S2032：

S2031、将多个标记翻译样本语句输入语言模型，语言模型将连接标记删除或替换为对应的最终连接词，得到每个标记翻译样本语句对应的最终翻译样本语句。

S2032、根据所述最终翻译样本语句计算所述语言模型的困惑度，直至所述困惑度小于阈值。

具体地，可以在每隔一段时间后计算语言模型的困惑度，如果看到困惑度小于阈值了，就说明过拟合了，这时候需要停止训练过程。

其中，阈值可以根据实际需求而设置，例如设置为15％、16％等。

另外需要注意的是，本申请中，并未仅仅使用带有连接词的翻译语句来训练语言模型，因为如果仅使用带有连接词的翻译语句来训练语言模型的话，那么语言模型会一定生成连接词，这样的语言模型达不到想要的效果。本实施例中，将处理好的标记翻译语句输入语言模型，让语言模型预测连接标记是否是连接词以及连接词是什么，从而达到翻译流畅的翻译语句。

本申请实施例还公开了一种语言处理方法，参见图3，包括步骤301至步骤304。

301、将包括多个待翻译语句的目标段落输入翻译模型，得到每个待翻译语句对应的翻译语句。

具体地，翻译模型可以为多种，例如卷积神经网络CNN模型或循环神经网络RNN模型或者Transformer模型等。

其中，本实施例以Transformer模型为例，对本实施例的图像描述的方法进行示意性的说明。Transformer模型的架构包括：编码器(encoder)—解码器(decoder)。编码器实现对输入的待翻译语句进行编码生成编码向量，解码器实现对编码向量进行解码生成对应的翻译语句。需要说明的是，其他可以实现编码器—解码器结构的单个模型或多个模型组成的模型组也可以实现本步骤301的处理方法均在本申请的保护范围内。

可选地，翻译模型包括编码器和解码器，步骤301包括：

S3011、将每个待翻译语句输入编码器，得到编码器输出的编码向量。

S3012、将编码向量和参考解码向量输入至解码器，得到解码器输出的解码向量。

S3013、将所述解码向量进行线性化和归一化处理，生成对应的翻译语句。

图4示出了一种Transformer模型的架构。模型分为编码器和解码器两部分。编码器由N个相同的编码层叠加于一起，每个编码层包括三个子层：第一自注意力层、第一多头注意力层和第一前馈层。其中，N≥1的正整数。

解码器由M个相同的解码层叠加于一起，每个解码层包括三个子层：隐式多头注意力层、第二多头注意力层和第二前馈层。其中，M≥1的正整数。

在使用过程中，在编码器，将待翻译语句进行嵌入层的处理，生成待翻译向量，将待翻译向量作为第一个编码层的输入，得到第一个编码层的输出，每个编码层的输出作为下一个编码层的输入，最后一个编码层的输出作为整个编码器输出的编码向量，输入至解码器的每个解码层。

在解码器侧，将参考解码向量和编码向量输入至第一个解码层，得到第一个解码层输出的解码向量；将编码向量和上一个解码层输出的解码向量输入至当前个解码层，得到当前个解码层输出的解码向量……最终得到最后一个解码层输出的解码向量作为解码器的解码向量。

将解码器的解码向量经由线性层和归一化层(softmax)进行转换，得到最终的翻译语句。

需要说明的是，翻译语句包括多个翻译词语，对于解码器来说，每次解码得到一个翻译词语，解码完成后将多个翻译词语拼接得到翻译语句。对于第一个翻译词语，参考解码向量为预设的初始解码向量；对于除去第一个翻译词语之外的其他翻译词语，其参考解码向量为上一个翻译词语对应的解码向量。

302、将包含连接词的翻译语句中的连接词替换为连接标记，将不包含连接词的翻译语句中插入所述连接标记，生成每个翻译语句对应的标记翻译语句。

需要解释的是，连接词为连接单字、片语或子句的字或字群，不能独立充当句子成分。

例如对于中文的连接词，例如“于是”、“然后”“而且”等等。

对于英文的连接词，表示选择关系或对等关系的连接词包括：either…or…，neither…nor…，or，as well as，and，both…and…；表示因果关系的连接词包括：therefore，so，as a result，as the result of，because等。

其中，该连接标记应当为语言模型可以识别的标记，为后续步骤中的语言模型的处理做准备。

具体地，步骤302包括下述步骤S3021～S3023：

S3021、对所述翻译语句进行预处理，判断所述翻译语句是否包含连接词，若是，执行步骤S3022，若否，执行步骤S3023。

S3022、将包含连接词的翻译语句中的连接词替换为所述连接标记。

例如，在一个具体的使用例中，翻译语句为“明天我会去看比赛，即使作业写不完”，其中包括连接词“即使”。在步骤S3022中，将连接词“即使”替换为标记“A”，得到的翻译语句为“明天我会去看比赛，A作业写不完”。

S3023、在所述不包含连接词的翻译语句的起始位置插入所述连接标记。

例如，在一个具体的使用例中，翻译语句为“明天我会去看比赛，我已经买好票了”，其中不包括连接词。在步骤S3023中：

一种方式是在第一句和第二句的起始位置均插入连接标记“A”，得到的翻译语句为“A明天我会去看比赛，A我已经买好票了”。

另一种方式是在第二句的起始位置插入连接标记“A”，得到的翻译语句为“明天我会去看比赛，A我已经买好票了”。

需要说明的是，对于相邻的两个句子，连接词大多情况下会出现在后一个句子的开始位置，表征前后两个句子的关系。例如“小明去踢球，然后去上学”、“我想去游乐场，但是没有时间”，“先对语料进行分析，再进行处理”，其中，“然后”“但是”“再”均位于后一句的起始位置。所以，对于上述第二种方式，选择在后一句不包含连接词的翻译语句的起始位置插入连接标记。

303、将多个标记翻译语句输入已训练好的语言模型，所述语言模型将所述连接标记删除或替换为对应的最终连接词，得到每个标记翻译语句对应的最终翻译语句。

其中，语言模型为根据前述实施例的训练方法进行训练而得到。

可选地，参见图5，步骤303包括：

501、所述语言模型依次根据所述连接标记的相邻标记翻译语句，判断所述连接标记是否对应有连接词，若是，执行步骤502，若否，执行步骤503。

502、所述语言模型将所述连接标记替换为对应的最终连接词。

具体地，在一个具体的使用例中，翻译模型生成的翻译语句为“明天预报要下雨，我还是要去踢足球”，对应的标记翻译语句为“明天预报要下雨，A我还是要去踢足球”。语言模型根据所述连接标记的相邻标记翻译语句，将连接标记A替换为对应的最终连接词“但是”。

503、所述语言模型将所述连接标记删除。

具体地，在一个具体的使用例中，翻译模型生成的翻译语句为“这是一个苹果，我要吃了它”，对应的标记翻译语句为“这是一个苹果，A我要吃了它”。语言模型根据所述连接标记的相邻标记翻译语句，确定两个翻译语句之间无需连接词，就将连接标记A删除。

504、所述语言模型判断连接标记是否处理完毕，若否，执行步骤501，若是，执行步骤505。

505、根据处理后的连接标记，得到每个标记翻译语句对应的最终翻译语句。

通过步骤501～505的处理，通过已训练好的语言模型判断连接标记是否有连接词以及连接词是什么，从而可以得到包含有正确的连接标记的最终翻译语句。

304、根据每个标记翻译语句对应的最终翻译语句拼接得到翻译段落。

具体地，可以按照最终翻译语句的顺序进行拼接，得到对应的翻译段落。

本申请提供的语言处理方法，在通过已训练好的翻译模型得到每个待翻译语句对应的翻译语句后，将包含连接词的翻译语句中的连接词替换为连接标记，将不包含连接词的翻译语句中插入连接标记，生成每个翻译语句对应的标记翻译语句；然后根据已训练好的语言模型将多个标记翻译语句中的连接标记删除或替换为对应的最终连接词，得到每个标记翻译语句对应的最终翻译语句，从而在得到每个待翻译语句的翻译语句后，通过专门训练的语言模型来为句子之间可能需要连接词的生成连接词，以使段落的翻译结果的语义表达更加流畅，实现了目标任务语言处理的有效提升。

为了进一步地对本实施例的技术方案进行说明，参见图6，图6示出了本实施例的语言处理系统的框架示意图。本实施例中，语言处理系统主要包括翻译模型和语言模型两个神经网络模型。

以目标段落“The citizen Wu is engaged in the same city express servicein XX district,because he often works late at night,he chooses a self-helpsupermarket to buy daily necessities.But what he did not think of was thatthe door could not be opened the last time he entered the supermarket forshopping”为例。

处理方法包括：

1)将包括多个待翻译语句的目标段落输入翻译模型，得到每个待翻译语句对应的翻译语句。

本实施例中，多个待翻译语句对应的翻译语句为“市民吴某某从事同城快递业务，经常深夜工作，选择自助无人超市进行购买日用品。于是让他没有想到的是，最后一次进入超市购物时，门却打不开了”，共6个翻译语句。

2)对所述翻译语句进行预处理，判断所述翻译语句是否包含连接词，若是，将包含连接词的翻译语句中的所述连接词替换为所述连接标记；若否，在不包含连接词的翻译语句的起始位置插入所述连接标记，生成每个翻译语句对应的标记翻译语句。

对于第一个翻译语句“市民吴某某从事同城快递业务”，其不包含连接词，插入连接标记生成的标记翻译语句为“A市民吴某某从事同城快递业务”。

对于第二个翻译语句“经常深夜工作”，其不包含连接词，插入连接标记生成的标记翻译语句为“A经常深夜工作”。

对于第三个翻译语句“选择自助无人超市进行购买日用品”，其不包含连接词，插入连接标记生成的标记翻译语句为“A选择自助无人超市进行购买日用品”。

对于第四个翻译语句“于是让他没有想到的是”，其包含连接词，插入连接标记替换原有的连接词“于是”，生成的标记翻译语句为“A让他没有想到的是”。

对于第五个翻译语句“最后一次进入超市购物时”，其不包含连接词，插入连接标记生成的标记翻译语句为“A最后一次进入超市购物时”。

对于第六个翻译语句“门却打不开了”，其包含连接词，插入连接标记替换原有的连接词“却”，生成的标记翻译语句为“门A打不开了”。

3)将多个标记翻译语句输入已训练好的语言模型，所述语言模型将所述连接标记删除或替换为对应的最终连接词，得到每个标记翻译语句对应的最终翻译语句。

具体地，步骤3)包括：

S3、若否，所述语言模型将所述连接标记删除；

对于第一个标记翻译语句为“A市民吴某某从事同城快递业务”，语言模型判断连接标记不应该对应有连接词，于是删除“A”。

对于第二个标记翻译语句为“A经常深夜工作”，语言模型判断连接标记应该对应有连接词“因为”，那么将连接词“因为”替换“A”。

对于第三个标记翻译语句为“A选择自助无人超市进行购买日用品”，语言模型判断连接标记应该对应有连接词“便”，那么将连接词“便”替换“A”。

对于第四个标记翻译语句为“A让他没有想到的是”，语言模型判断连接标记应该对应有连接词“但是”，那么将连接词“但是”替换“A”。那么对于第四个翻译语句，实现了“但是”替换“于是”，从而使翻译语句的语义表达更加流畅。

对于第五个标记翻译语句为“A最后一次进入超市购物时”，语言模型判断连接标记不应该对应有连接词，于是删除“A”。

对于第六个标记翻译语句为“门A打不开了”语言模型判断连接标记应该对应有连接词“却”，那么将连接词“却”替换“A”。

4)根据每个标记翻译语句对应的最终翻译语句拼接得到翻译段落。

最终，得到的最终翻译语句为“市民吴某某从事同城快递业务，因为经常深夜工作，便选择自助无人超市进行购买日用品。但是让他没有想到的是，最后一次进入超市购物时，门却打不开了”。通过比较可见，最终翻译语句要比翻译模型生成的翻译语句的语义表达更加流畅。

本申请实施例公开了一种语言处理系统的训练装置，参见图7，包括：

第一训练模块701，被配置为将样本段落中的多个待翻译样本语句及对应的翻译样本语句作为平行语料输入至翻译模型进行训练，直至满足翻译模型的训练停止条件；

翻译样本语句标记模块702，被配置为将所述样本段落中包含连接词的翻译样本语句中的连接词更换为连接标记，将未包含连接词的所述翻译样本语句中插入所述连接标记，生成每个翻译样本语句对应的标记翻译样本语句；

第二训练模块703，被配置为将多个所述标记翻译样本语句输入至语言模型进行训练，直至满足语言模型的训练停止条件。

具体地，第一训练模块701具体被配置为：将所述待翻译样本语句输入至翻译模型的编码器，生成编码器的编码向量；将参考解码向量以及编码向量输入至解码器进行解码，得到解码器输出的解码向量；根据所述解码向量进行线性化和归一化处理，生成待翻译样本语句对应的翻译语句；将待翻译样本语句对应的翻译语句以及翻译样本语句进行误差比对，并调整翻译模型的参数。

可选地，翻译样本语句标记模块702具体被配置为：对翻译样本语句进行预处理，判断翻译样本语句是否包含连接词，若是，将包含连接词的翻译样本语句中的连接词替换为连接标记，若否，在不包含连接词的翻译样本语句的起始位置插入连接标记。

可选地，第二训练模块703具体被配置为：将多个所述标记翻译样本语句输入语言模型，所述语言模型将所述连接标记删除或替换为对应的最终连接词，得到每个标记翻译样本语句对应的最终翻译样本语句；根据所述最终翻译样本语句计算所述语言模型的困惑度，直至所述困惑度小于阈值。

本实施例的语言处理系统的训练装置，通过将样本段落中的多个待翻译样本语句及对应的翻译样本语句输入至翻译模型进行训练，将所述样本段落中包含连接词的翻译样本语句中的连接词更换为连接标记，将未包含连接词的翻译样本语句中插入连接标记，生成每个翻译样本语句对应的标记翻译样本语句输入至语言模型进行训练，从而得到训练好的翻译模型和语言模型，以使段落的翻译结果的语义表达更加流畅，实现目标任务语言处理的有效提升。

本申请实施例公开了一种语言处理装置，参见图8，包括：

翻译模块801，被配置为将包括多个待翻译语句的目标段落输入翻译模型，得到每个待翻译语句对应的翻译语句；

翻译语句标记模块802，被配置为将包含连接词的翻译语句中的所述连接词替换为连接标记，将不包含连接词的翻译语句中插入所述连接标记，生成每个翻译语句对应的标记翻译语句；

语言处理模块803，被配置为将多个标记翻译语句输入语言模型，所述语言模型将所述连接标记删除或替换为对应的最终连接词，得到每个标记翻译语句对应的最终翻译语句，其中，所述语言模型为根据如上所述的语言处理系统的训练方法而得到；

拼接模块804，被配置为根据每个标记翻译语句对应的最终翻译语句拼接得到翻译段落。

可选地，所述翻译模型包括编码器和解码器，翻译模块801具体被配置为：将每个待翻译语句输入编码器，得到编码器输出的编码向量；将编码向量和参考解码向量输入至解码器，得到解码器输出的解码向量；将所述解码向量进行线性化和归一化处理，生成对应的翻译语句。

可选地，翻译语句标记模块802具体被配置为：对所述翻译语句进行预处理，判断所述翻译语句是否包含连接词；若是，将包含连接词的翻译语句中的所述连接词替换为所述连接标记；若否，在所述不包含连接词的翻译语句的起始位置插入所述连接标记。

可选地，语言处理模块803具体包括：

第一判断单元，被配置为调用语言模型依次根据所述连接标记的相邻标记翻译语句，判断所述连接标记是否对应有连接词，若是，执行替换单元，若否，执行删除单元；

替换单元，被配置为调用语言模型将连接标记替换为对应的最终连接词；

删除单元，被配置为调用语言模型将连接标记删除；

第二判断单元，被配置为调用语言模型判断连接标记是否处理完毕，若否，执行判断单元，若是，执行翻译语句生成单元；

翻译语句生成单元，被配置为根据处理后的连接标记，得到每个标记翻译语句对应的最终翻译语句。

本实施例提供的语言处理装置，在通过已训练好的翻译模型得到每个待翻译语句对应的翻译语句后，将包含连接词的翻译语句中的连接词替换为连接标记，将不包含连接词的翻译语句中插入连接标记，生成每个翻译语句对应的标记翻译语句；然后根据已训练好的语言模型将多个标记翻译语句中的连接标记删除或替换为对应的最终连接词，得到每个标记翻译语句对应的最终翻译语句，从而在得到每个待翻译语句的翻译语句后，通过专门训练的语言模型来为句子之间可能需要连接词的生成连接词，以使段落的翻译结果的语义表达更加流畅，实现了目标任务语言处理的有效提升。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述语言处理系统的训练方法或语言处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的语言处理系统的训练方法或语言处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述语言处理系统的训练方法或语言处理方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种语言处理系统的训练方法，其特征在于，所述方法包括：

将多个所述标记翻译样本语句输入至语言模型进行训练，直至满足语言模型的训练停止条件，其中，所述语言模型将所述连接标记删除或替换为对应的最终连接词，得到每个标记翻译样本语句对应的最终翻译样本语句。

2.如权利要求1所述的方法，其特征在于，所述语言模型的训练停止条件，包括：

3.一种语言处理方法，其特征在于，所述方法包括：

将多个所述标记翻译语句输入语言模型，所述语言模型将所述连接标记删除或替换为对应的最终连接词，得到每个标记翻译语句对应的最终翻译语句，其中，所述语言模型根据权利要求1—2任一项所述的语言处理系统的训练方法而得到；

4.如权利要求3所述的方法，其特征在于，所述翻译模型包括编码器和解码器；

将所述编码向量和参考解码向量输入至解码器，得到解码器输出的解码向量；

5.如权利要求3所述的方法，其特征在于，将包含连接词的翻译语句中的所述连接词替换为连接标记，将不包含连接词的翻译语句中插入所述连接标记，包括：

6.如权利要求3所述的方法，其特征在于，将多个所述标记翻译语句输入语言模型，所述语言模型将所述连接标记删除或替换为对应的最终连接词，得到每个标记翻译语句对应的最终翻译语句，包括：

S3、若否，所述语言模型将所述连接标记删除；

7.一种语言处理系统的训练装置，其特征在于，包括：

第二训练模块，被配置为将多个所述标记翻译样本语句输入至语言模型进行训练，直至满足语言模型的训练停止条件，其中，所述语言模型将所述连接标记删除或替换为对应的最终连接词，得到每个标记翻译样本语句对应的最终翻译样本语句。

8.一种语言处理装置，其特征在于，包括：

语言处理模块，被配置为将多个所述标记翻译语句输入语言模型，所述语言模型将所述连接标记删除或替换为对应的最终连接词，得到每个标记翻译语句对应的最终翻译语句，其中，所述语言模型根据权利要求1-2任一项所述的语言处理系统的训练方法而得到；

9.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-2或3-6任意一项所述方法的步骤。

10.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-2或3-6任意一项所述方法的步骤。