CN110969028B

CN110969028B - 用于同步翻译的系统和方法

Info

Publication number: CN110969028B
Application number: CN201910822283.0A
Authority: CN
Inventors: 马明博; 黄亮; 熊皓; 刘凯波; 张传强; 郑人杰; 何中军; 刘海容; 李幸; 吴华; 王海峰; 郑百功
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2018-09-28
Filing date: 2019-08-30
Publication date: 2023-09-26
Anticipated expiration: 2039-08-30
Also published as: CN110969028A; US11126800B2; US20200104371A1

Abstract

本文中提出用于同步翻译的前缀到前缀框架的实施方式，该架构隐式地学习以在单个翻译中进行预期。在这些框架内是有效“等待‑k”策略模型实施方式，其可以被训练为与源语句同时地生成目标语句，但滞后预定义数量个词。前缀到前缀框架的实施方式与完全语句翻译在四个方向上相比实现低时延和更好的质量：和本文中还提出一种解决先前时延度量的缺点的新颖时延度量。

Description

用于同步翻译的系统和方法

相关申请的交叉引用

本申请根据35 U.S.C.§119(e)要求2018年9月28日提交的标题为“具有任意时延约束的预测性同步翻译(Predictive Simultaneous Translation with ArbitraryLatency Constraints)”列出马明波(Mingbo Ma)、黄亮(Liang Huang)、熊浩(Hao Xiong)、张传强(Chuanqiang Zhang)、何忠军(Zhongjun He)、刘凯波(Kaibo Liu)、刘海荣(HairongLiu)、李兴(Xing Li)和王海峰(Haifeng Wang)作为发明人的共同待决且共同转让的美国专利申请号62/738,367的优先权权益，该申请以引用方式关于其全部内容引入本文中。本专利文件中提及的每个参考文献都以全文引用的方式并入本文中。

技术领域

本公开总体上涉及用于传译自动化的系统和方法。更具体地，本公开涉及用于具有结合的预期和可控制时延的同步翻译的系统和方法。

背景技术

同步翻译目的在于使同声传译自动化，同声传译在与源语言讲话同时进行翻译，其中仅有几秒的延迟。这个附加时延比交替传译的2x倍减速更合期望。利用这个吸引人的性质，同声传译已经广泛用于很多情形，包括多边组织(联合国/欧盟)和国际峰会(亚太经济合作组织/G20)。然而，归因于用两种语言进行同时理解和产生，对人类来说极具挑战性且耗费精力：全世界合格的同声传译员的数量非常有限，并且每个人一次只能进行约15至30分钟，因为仅在数分钟的传译之后出错率就会指数地增长。此外，有限的记忆力迫使人类传译员经常遗漏源内容。因此，迫切需要减轻人类传译员的负担并且使得同步翻译更易获得且负担得起的同步机器翻译技术。

不幸的是，同步翻译对于机器来说也是非常地困难，大部分归因于源语言与目标语言之间的发散词序。例如，为了将诸如日语或德语的主-动-宾(SOV)语言同步翻译成诸如英语或中文的主-宾-动(SVO)语言(技术上，德语是主句SOV+V2，并且嵌入分句SOV；普通话是(SVO+SOV)的混合)，必须知道(即，等待)源语言动词。因此，现有的所谓“实时”翻译系统依靠常规完整语句翻译，从而导致至少一个语句的不合需要的时延。

注意到动词在SOV到SVO翻译中的重要性，一些方法尝试通过明确地预测限于这种具体情况的句末德语或英语动词或者需要逐步解析源语句的不可预见的句法成分来减小时延。一些已经提出在优化的句段水平上进行翻译，以提高翻译准确性。

其他的使用两级模型，其基础模型是完整语句模型。在完整语句模型上，两级模型使用读/写(R/W)模型以在每一步决定是否等待另一源词(读)或者使用预先训练的基础模型发出目标词(写)。这个R/W模型通过强化学习进行训练以优选(而不是施行)具体时延，而无需更新基础模型。然而，此类方法全部具有共同的两个主要限制：(a)它们无法实现任何预定的时延，诸如，例如3个词的时延；(b)它们的基础翻译模型仍然在完整语句上进行训练；以及(c)它们的系统过分复杂化、涉及很多组成(诸如预先训练的模型、预测和强化学习)并且难以训练。

因此，期望具有结合预期和翻译的同步翻译。

发明内容

根据本公开的一方面，提供了一种用于低时延实时翻译的方法，所述方法包括：

直到接收到语句结束信号，执行包括以下的步骤：

使用神经网络来接收源语言标记，所述神经网络已经通过使用(1)比语句短的接收的源语言词序列和(2)一个或多个先前生成的目标语言词进行前缀到前缀地训练，以预测对应于所述语句的一些或全部目标语言词；

使用源语言标记作为前缀来预测目标语言标记，所述前缀比完整语句短；

响应于接收到下一源语言标记，更新所述前缀；

使用所更新的前缀和一个或多个先前预测的目标语言标记来预测下一目标语言标记；以及

输出所述下一目标语言标记；以及

响应于接收到源语句结束信号，使用所述语句中的基本上所有源语言标记来立刻生成任何剩余目标语言标记。

根据本公开的另一方面，提供了一种用于训练低时延实时翻译的神经网络模型的计算机实施的方法，所述方法包括：

通过执行包括以下的步骤来前缀到前缀地训练神经网络：

使用所述神经网络来接收与语句相关联的源语言标记；

使用源语言标记作为前缀来预测目标语言标记，所述前缀比所述语句短；

响应于接收到下一源语言标记，更新所述前缀；

输出所述下一目标语言标记。

根据本公开的一方面，提供了一种非暂时性计算机可读介质或媒体，其包括一个或多个指令序列，所述指令序列在被至少一个处理器执行时致使执行包括以下的步骤：

在神经网络处接收与语句相关联的第一组源语言标记；

将所述第一组源语言标记中的一者或多者用作预测第一组目标语言标记的前缀，其中所述前缀比所述语句短；

响应于接收到第二组源语言标记，更新所述前缀；

使用所更新的前缀和一个或多个先前预测的目标语言标记来预测第二组目标语言标记；以及

输出一个或多个目标语言标记，

响应于接收到语句结束信号，使用所述语句中的基本上所有源语言标记来立刻生成任何剩余目标语言标记，其中所述神经网络已经被训练为接收表示完整语句的源语言词的输入序列，并且输出目标语言词的对应序列。

附图说明

将参考本发明的实施方式，它们的示例可示于附图中。这些附图旨在是说明性的而非限制性的。虽然本发明大体上在这些实施方式的上下文中描述，但应理解，本发明的范围并不旨在限于这些特定实施方式。附图中的项可能未按比例绘制。

附图(“图”)1示出了根据本公开的各种实施方式的等待-k(wait-k)模型。

图2是图1中示出的等待-k模型的不同图示。

图3是根据本公开的实施方式的常用语句到语句(seq-to-seq)框架与前缀到前缀框架之间的比较。

图4示出了根据本公开的各种实施方式的尾部束搜索。

图5是根据本公开的各种实施方式中的用于使用已经针对低时延实时翻译以前缀到前缀方式训练的神经网络的说明性过程的流程图。

图6是根据本公开的各种实施方式中的用于使用已经针对低时延实时翻译以前缀到前缀方式按完整语句方式训练的神经网络的说明性过程的流程图。

图7A示出了等待-2策略如何使用户越来越不与说话者同步。

图7B示出了根据本公开的各种实施方式的等待-2策略加追赶如何缩小尾部并保持更接近理想对角线，由此减小有效时延。

图8是根据本公开的各种实施方式的用于防止翻译延迟随时间推移而增加的说明性过程的流程图。

图9A和图9B示出了根据本公开的各种实施方式的平均滞后时延度量。

图10是根据本公开的各种实施方式的用于测量用户与说话者不同步的程度的说明性过程的流程图。

图11A和图11B示出了与顾(Gu)等人(2017年)的模型进行的双语评估替换(BLEU)得分和AP的比较，对于德语到英语(图11A)和英语到德语(图11B)翻译上的不同等待-k模型。

图12A和图12B示出了根据本公开的各种实施方式的德语到英语(图12A)和英语到德语(图12B)的等待-k模型的BLEU得分与由平均滞后(AL)测量的时延。

图13A和图13B示出了根据本公开的各种实施方式的开发(dev)集上的中文到英语(图13A)和英语到中文(图13B)翻译上的不同等待-k模型的BLEU得分和AL比较。

图14A和图14B示出了根据本公开的各种实施方式的德语到英语同步翻译的翻译质量与时延度量，示出等待-k模型、测试时间等待-k结果、完整语句基线和顾等人(2017年)的重新实施，它们全部基于相同的变换器。

图15A和图15B示出了根据本公开的各种实施方式的英语到德语同步翻译的翻译质量与时延度量。

图16A和图16B示出了zh→en的翻译质量与时延。

图17A和图17B示出了en→zh的翻译质量与时延。

图18至图23示出了根据本公开的各种实施方式中已经从引入的模块和基线框架生成的实际运行示例，以展示所公开的系统的有效性。

图24描绘了根据本公开的各种实施方式的计算装置/信息处理系统的简化框图。

图25A至图25B描绘了根据本公开的各种实施方式的相应表2A和表2B，示出等待-k加变换器、其追赶版本和等待-k加RNN模型(具有各种k)在和/>测试集上的性能数据。

具体实施方式

在以下描述中，出于解释目的，阐明具体细节以便提供对本发明的理解。然而，将对本领域的技术人员显而易见的是，可在没有这些细节的情况下实践本发明。此外，本领域的技术人员将认识到，下文描述的本发明的实施方式可以以各种方式(例如过程、装置、系统、设备或方法)在有形的计算机可读介质上实施。

附图中示出的组件或模块是本发明实施方式的示例性说明，并且意图避免使本发明不清楚。还应理解，在本论述的全文中，组件可描述为单独的功能单元(可包括子单元)，但是本领域的技术人员将认识到，各种组件或其部分可划分成单独组件，或者可整合在一起(包括整合在单个的系统或组件内)。应注意，本文论述的功能或操作可实施为组件。组件可以以软件、硬件、或它们的组合实施。

此外，附图内的组件或系统之间的连接并不旨在限于直接连接。相反，在这些组件之间的数据可由中间组件修改、重格式化、或以其它方式改变。另外，可使用另外或更少的连接。还应注意，术语“联接”、“连接”、或“通信地联接”应理解为包括直接连接、通过一个或多个中间设备来进行的间接连接、和无线连接。

在本说明书中对“一个实施方式”、“优选实施方式”、“实施方式”或“多个实施方式”的提及表示结合实施方式所描述的具体特征、结构、特性或功能包括在本发明的至少一个实施方式中，以及可包括在多于一个的实施方式中。另外，在本说明书的各个地方出现以上所提到的短语并不一定全都是指相同的实施方式或多个相同实施方式。

在本说明书的各个地方使用某些术语目的在于说明，并且不应被理解为限制。服务、功能或资源并不限于单个服务、单个功能或单个资源；这些术语的使用可指代相关服务、功能或资源的可分布或聚合的分组。此外，本文中可使用存储器、数据库、信息库、数据存储、表格、硬件等来指代可输入或以其它方式记录信息的系统组件。

此外，应当注意：(1)某些步骤可以可选地执行；(2)步骤可不限于本文中所阐述的特定次序；(3)某些步骤可以以不同次序执行；以及(4)某些步骤可同时地进行。

此外，应当注意，本文中描述的许多实施方式是在音频记录的上下文中给出的，但是本领域技术人员将认识到，本公开的教导不限于音频应用，并且同样可用于创建和整合视频内容，并且还可扩展为包括视频中的对象或人物的分类、动作、位置、时间和其它参数。

本文中使用的任何标题仅用于组织目的，不应用于限制说明书或权利要求的范围。本文所引用的所有文件以引用方式整体并入本文。

A.概述

在本文件中，“词”是指词语或可以从中得出含义的语言标记的任何部分。如相关领域的技术人员应理解的，术语“同步”意指“实时地”，例如，同声传译员，即，同步不限于“恰好同时”的常用含义。

本文中提出了利用新颖的前缀到前缀框架的非常简单但有效的解决方案，所述前缀到前缀框架使用例如仅源语句的前缀来预测目标词。在这个框架内提出了简单的等待-k策略，其翻译例如始终是输入后的k个词。考虑图1和图2中的中文到英语示例，其中句末中文动词huìwù(“meet”)需要更早翻译以避免长时延。在仅给定前4个中文词的情况下(鉴于训练数据中的很多类似前缀，其为这个预测提供足够的线索)，等待-2模型正确地预期英语动词。所提出的实施方式作出以下贡献：

(1)适合于同步翻译且从头训练而不需要完整语句模型的前缀到前缀框架。这个框架通过直接预测目标词而不首先预测源词并且然后将源词翻译成目标词而在单个模型中无缝地结合隐含预期和翻译。

(2)可以满足时延要求的特殊情况“等待-k”策略；

(3)所提出的策略可以应用于多数的语句到语句模型，例如通过相对较小的改变；在递归神经网络(RNN)和变换器上展示了应用；

(4)被称为“平均滞后”的新时延度量解决先前度量的缺乏；以及

(5)实验表明策略在四个方向上实现低时延和合理BLEU得分(与完整语句翻译基线相比)：和/>

B.序言：完整语句神经机器翻译(NMT)

以下对标准(完整语句)神经翻译的简要综述设立一些注释。

不论不同语句到语句模型的特定设计如何，编码器始终采取输入序列x＝(x₁、……、x_n)，其中每个是d_x个维度的词向量并且产生隐状态的新序列h＝f(x)＝(h₁、……、h_n)。编码函数f可以由RNN或变换器实施。

另一方面，(贪婪)解码器基于源序列(实际上，其表示h)和先前生成的词来预测下一输出词y_t，表示为y_<t＝(y₁、……、y_t–1)。解码器在它发出语句结束信号(例如，<eos>)时停止，并且最终假设y＝(y₁、……、<eos>)具有概率

在训练时，每个ground-truth(标注真实)目标语句y^*的条件概率可以鉴于整个训练数据D上的输入x而最大化，或者等效地将以下损失最小化：

C.前缀到前缀和等待-k策略

在上文论述的完整语句翻译中，使用整个源语句x来预测每个y_i。但在同步翻译中，与(增长的)源语句同时进行翻译。因此，某些实施方式使得新颖的前缀到前缀架构的设计能够(被训练以)通过使用源前缀来预测目标语句中的词。

1.前缀到前缀架构

令g(t)为表示在决定目标词y_t时由编码器处理的源词数量的t的单调非减函数。例如，在图1和图2中，g(3)＝4，即，使用4个词的中文前缀来预测目标词y₃＝“met”。在实施方式中，可以使用源前缀(x₁、……、x_g(t))而不是整个输入x来预测目标词y_t：

p(y_t|x_≤g(t)，y_＜t)

因此，解码概率可以表达为：

并且给定训练D，训练目标可以表达为：

一般来说，g(t)可以用来表示任何任意的策略。在两种特殊情况下，g(t)可以是恒定的：(a)g(t)＝|x|：基线完整语句翻译；(b)g(t)＝0：不依赖于任何源信息的“谕示”。应注意，在任何情况下，对于所有的t，0≤g(t)≤|x|。

在实施方式中，“截止”步骤τ_g(|x|)可以被定义为在源语句结束时的解码步骤，例如，如下：

τ_g(|x|)＝min{t|g(t)＝|x|} (等式5)

例如，在示出根据本公开的各种实施方式的等待-k模型的图1和图2中，截止步骤为6，即，中文语句刚好在y₆＝“in”之前结束。在示例中，在图1中，等待-k模型鉴于源侧前缀x₁、……、x_t+k-1而输出每个目标词y_t，这通常是在看到对应的源词之前(此处，k＝2，在x₇＝“huìwù”之前输出y₃＝“met”)。在没有预期的情况下，需要5个词的等待110。

图2是图1中示出的等待-k模型的不同图示。图2突出了输出对应于句末中文动词huìwù的英语动词“met”的步骤。不同于将必须等待5个词的没有预期的同步翻译器，等待-k策略(此处k＝2)与源语句同时地翻译，但在k个词之后。所述模型仅鉴于字面地翻译成“布什总统在莫斯科”的前4个中文词(粗体)来正确地预测英语动词。

尽管同步翻译中多数的现有方法可以被视作所提出的框架的特殊情况，但只有它们的解码器是前缀到前缀，并且它们的训练仍依赖于基于完整语句的方法。换句话说，现有方法使用完整语句翻译模型来执行同步解码，这是训练与测试之间的不匹配。相反，各种实施方式训练模型以使用源前缀进行预测。

在实施方式中，前缀到前缀训练隐式地学习预期，并且有利地克服语序差异，诸如SOV→SVO。使用图1和图2中的示例，在实施方式中，归因于包括采取(X zài Y、……、Xmet...)形式的许多前缀对的训练数据，实现对应于动词的预期。因此，尽管前缀x≤4“Bùshí zǒngtǒng zài Mòskiē”(字面意思是“布什总统在莫斯科”)不含有动词，但前缀仍提供足够的线索来预测动词“会晤”。

2.等待-k策略

作为前缀到前缀框架内的示例，提出了等待-k策略，在实施方式中，首先等待k个源词，并且然后与剩余的源语句同时翻译，即，输出是输入后的k个词，即，类似于通常在说话者讲话几秒后开始并且在说话者结束之后几秒结束的人类同声传译。

图3是根据本公开的实施方式的常用语句到语句框架与前缀到前缀框架之间的比较。前缀到前缀框架实施例示出了等待-2策略作为示例。如图3中的示例中展示，假定k＝2，则可以使用前2个源词来预测第一目标词，并且可以使用前3个源词等来预测第二目标词。更正式地，其g(t)可以被定义为：

g_wait-k(t)＝min{k+t-1,|x|} (等式6)

在实施方式中，对于这个策略，截止点(|x|)为|x|-k。从这个步骤开始，g_wait-k(t)可以固定到|x|，即，可以使用完整源语句来生成剩余目标词(包括这个步骤)。输出的这个部分y_≥|x|-k可以被称为“尾部”，下文参考图8更详细地论述。

在实施方式中，可以在尾部上执行束搜索(本文中称为“尾部束搜索”)，但所有更早的词都可以一个接一个贪婪地生成。图4示出了根据本公开的各种实施方式的尾部束搜索。如图4所示，尾部束搜索可以在整个源语句结束之后发生。然而，每当g(t)＝g(t-1)，即，使用相同输入前缀预测一个以上的词(例如，等待-k中的尾部)时，一般的前缀到前缀策略都可以使用束搜索。

下文的实施细节进一步描述将RNN和变换器用作基础模型的一般前缀到前缀策略的两个示例性实施方案。

图5是根据本公开的各种实施方式中的用于使用已经针对低时延实时翻译以前缀到前缀方式训练的神经网络的说明性过程的流程图。在实施方式中，过程500通过使用已经以前缀到前缀方式进行训练的神经网络来开始，以接收源语言标记(505)。神经网络可以通过使用比语句短的源语言词序列和一个或多个先前生成的目标语言词进行训练，以预测对应于语句的一些或全部目标语言词。

在实施方式中，可以将源语言标记用作比完整语句短的前缀(510)，以预测目标语言标记。

响应于接收到下一源语言标记(515)，可以更新前缀，并且可以使用更新的前缀和一个或多个先前预测的目标语言标记来预测(520)下一目标语言标记，下一目标语言标记然后输出(525)。

最后，响应于接收到语句结束信号，可以使用语句中的基本上所有源语言标记来例如马上生成(530)任何剩余目标语言标记。

图6是根据本公开的各种实施方式中的用于使用已经针对低时延实时翻译以前缀到前缀方式按完整语句方式训练的神经网络的说明性过程的流程图。在实施方式中，过程500开始于训练(602)神经网络以基于表示完整语句的一组源语言标记而生成一组对应的目标语言标记。

神经网络用来接收与语句相关联的第一组(605)源语言标记。

将第一组源语言标记中的一者或多者用作预测第一组目标语言标记的前缀(610)，其中前缀比语句短。

响应于接收到第二组源语言标记，更新(615)前缀，并且将其与一个或多个先前预测的目标语言标记一起使用，以预测第二组(620)目标语言标记并输出(625)一个或多个目标语言标记。最后，响应于接收到语句结束信号，使用语句中的基本上所有源语言标记来立刻生成(625)任何剩余目标语言标记。

测试时间等待-k。作为以上分段中论述的测试时间前缀到前缀实施方案的示例，各种实施方式实施“测试时间等待-k”方法，即，使用完整语句模型但利用等待-k策略对其进行解码。实验表明，没有预期能力的这种方法的实施方式比利用真正的等待-k策略(当k较小时)的实施方案性能更差，但准确性逐渐地提高，并且最终两种方法都接近完整语句基线(k＝∞)。

D.改进：具有追赶的等待-k

如先前提及，等待-k解码滞后于输入的源流k个词。在输入语句和输出语句具有相等长度的理想情况下，翻译在源语句结束之后的k个步骤结束，即，尾部长度也是k。这与在说话者开始和停止之后几秒开始和停止的人类传译一致。

然而，输入语句和输出语句通常具有不同的长度。在诸如从中文到英语的一些方向上，目标侧经常显著比源侧长，其中平均ground-truthtgt/src比为约1.25。在这种情况下，如果遵循简朴的等待-k策略，则尾部长度将是0.25|x|+k，其随着输入长度而增加。例如，给定20个词的中文输入语句，等待-3策略的尾部将是8个词长，即，几乎是源长度的一半。这具有两个主要负面影响：

(a)随着解码进展，用户将实际上越来越滞后(其中每个中文词差不多翻译成1.25个英语词)，因此使用户越来越不与说话者同步，如图7A针对等待-2策略所示(对角线指示理想，即完美的同步)；以及(b)一旦源语句结束，就立刻显示相当长的尾部，因此对用户造成认知负担。在一个或多个实施方式中，尾部原则上可以与下一语句的前k个词同时显示，但尾部现在比k长得多。此类负面影响对于较长的输入语句来说变得更坏。为了解决这个问题，某些实施方式利用“等待-k+追赶”策略，使得就真实信息内容而言，用户仍然在输入后k个词，即，在由图7B中的对角线表示的理想完美同步策略后的k个源词。

图7B示出了根据本公开的各种实施方式的等待-2策略加追赶如何缩小尾部并且保持更接近理想对角线，由此减小有效时延。箭头702和704示出对角线后的相应2个和4个词滞后。例如，假设tgt/src比为r＝1.25，那么每4个源词可以输出5个目标词，即，表示为c＝r–1的追赶频率为0.25。

更正式地，使用追赶频率c，新策略可以表达为：

并且解码和训练目标可以相应地改变。应注意，在实施方式中，模型可以被训练为使用这个新策略来追赶。

另一方面，当从较长源语句翻译成较短目标，例如，从英语翻译成中文时，解码器有可能在编码器见到整个源语句之前完成生成，因此，忽略源侧上的“尾部”。因此，在实施方式中，采用“倒”追赶，即，在编码器而不是解码器上追赶。例如，在英语到中文翻译中，可以每4步编码一个额外词，即，每4个中文词编码5个英语词。在这种情况下，“解码”追赶频率c＝r–1＝–0.2等于为负，但等式7仍有效。应注意，可以使用任何任意的c，例如，c＝0.341，其中追赶模式不像“每4步1个”那么容易，但仍大致维持每源词c次追赶的频率。

E.新时延度量：平均滞后

除了翻译质量外，时延是用于评估同步翻译的另一重要方面。接下来回顾现有的时延度量，并且突出它们的限制。然后介绍解决这些限制的新时延度量。

1.现有度量：CW和AP

连续等待(CW)通常表示在两个目标词之间等待的源词的数量。基于本文中的标注，对于策略g(·)，步骤t处的每步CW为

CW_g(t)＝g(t)-g(t-1)

语句对(x，y)的CW是所有连续等待片段上的平均CW：

换句话说，CW测量连续等待片段的平均长度(最佳情况是用于逐词翻译的1或等待-1，并且最坏情况是用于完整语句MT的|x|)。CW的缺点是它对实际滞后不敏感，如前一段中论述；例如，追赶不影响CW。

另一现有时延测量平均比例(AP)测量图7A和图7B中的策略的阴影区的比例：

AP具有两个主要缺点：第一，它对输入长度敏感。例如，考虑等待-1策略。当|x|＝|y|＝1时AP为1，并且当|x|＝|y|＝2时AP为0.75，并且当|x|＝|y|→∞时最终AP接近0.5。然而，在所有这些情况下，存在一个词的延迟，因此AP在长句与短句之间不公平。第二，被表达为百分比，词数量的实际延迟对用户来说不明显。

图8是根据本公开的各种实施方式的用于防止翻译延迟随时间推移而增加的说明性过程的流程图。过程800包括训练前缀到前缀神经网络，以调整(805)许多目标和源语言标记之间的差异以保持它们的比例大约相同。在实施方式中，这可以通过平均添加或减去恒定数量的源语言标记来完成，以防止翻译延迟随时间推移而增加。

在实施方式中，比例可以倒置，例如，当在反方向上传译时(810)。

2.新度量：平均滞后

基于关于图7A和图7B论述的“滞后于理想策略”的概念，引入被称为“平均滞后”(AL)的新度量，并且在图9A中示出|x|＝|y|时的简单情况且图9B示出|x|≠|y|时的更一般情况。

在实施方式中，就源词的数量而言，AL可以用来量化用户与说话者不同步的程度。为简单起见，图9A示出了|x|＝|y|时的特殊情况。粗线指示“等待-0”策略，其中解码器在编码器前一个词。这个策略可以被定义为具有0的AL。策略902、904指示“等待-1”策略，其中解码器滞后于等待0策略一个词。在这种情况下，策略的AL可以被定义为1。策略912、914指示“等待-4”策略，其中解码器滞后于等待0策略4个词，因此其AL为4。应注意，在这两种情况下，仅数到(并包括)截止点(分别由水平箭头指示，即，分别是10和7)，因为尾部可以立即生成而没有进一步延迟。更正式地，对于|x|＝|y|的理想情况，可以定义：

并且推断出等待-k的AL恰好是k。

在如关于图7A和图7B解释的更现实情况下，诸如图9B表示的在|x|<|y|时的情况，当目标语句增长时越来越多的延迟可以累加。例如，图9B中的等待-1策略904在解码其截止步10处具有多于3个词的延迟，并且等待-4策略914在其截止步7处具有几乎6个词的延迟。这个差异主要是由tgt/src比引起的。在图9B中，存在每源词1.3个目标词。更一般地，“等待-0”策略可以偏移并且可以重新定义：

其中τ_g(|x|)表示截止步，并且r＝|y|/|x|是目标与源长度比。可以观察到等待-k加追赶具有

F.实施细节

接下来描述用于利用RNN和变换器来训练前缀到前缀的示例性实施细节。

1.背景：完整语句RNN

(单向)RNN解码器将序列x映射到隐状态序列：

那么隐状态列表h表示源侧。解码器可以采取另一RNN以便以解码步t生成目标侧隐表示：

2.训练同步RNN

不同于完整语句翻译，在同步翻译实施方式中，源词可以一个接一个地馈入编码器中。对于解码，可以修改等式11以使用源前缀进行预测：

3.背景：完整语句变换器

首先，逐步地简要回顾变换器架构以突出常规变换器与同步变换器实施方式之间的差异。变换器的编码器以自注意力的方式工作并采取输入序列x，并且产生隐状态的新序列z＝(z₁,...,z_n)，其中如下：

此处，是从输入空间到值空间的投影函数，并且α_ij表示注意力权重：

其中e_ij测量输入之间的相似度。

此处，和/>分别将x_i和x_j投影到查询空间和密钥空间。

本文中的实施方式可以使用6层自注意力，并且使用h来表示顶层外输出序列(即，源上下文)。

在解码器侧，在训练时间期间，ground-truth输出序列可以经历相同的自注意力以生成隐自注意状态序列c＝(c₁、……、c_m)。应注意，由于解码是递增的，因此如果等式13中的j>i，则e_ij可以设置为0，以将自注意力约束到先前生成的词。

在实施方式中，在每一层中，在通过自注意力收集每个目标词的隐表示之后，可以执行目标到源注意力：

类似于自注意力，β_ij测量h_j与c_i之间的相似度，如在等式13中。

4.训练同步变换器

在实施方式中，同步翻译递增地向编码器馈送源词，但此类增量编码器/解码器的朴素实施方案可能是低效的。下文描述较快速实施方案。

对于编码器，在训练时间期间，可以立刻向编码器馈送整个语句。但不同于常规变换器中的自注意力层(等式13)，在实施方式中，每个源词可能被约束为仅注意其前任(predecessor)(类似于解码器侧自注意力)，从而有效地模拟增量编码器。

然后，在实施方式中，以解码步长t的新定义的隐状态序列可以表达为：

当接收到新源词时，所有先前的源词应调整它们的表示。

G.实验

应注意，这些实验和结构仅通过说明的方式提供并且使用一个或多个具体实施方式在具体条件下执行；因此，这些实验和它们的结果都不应被用来限制本专利文件的公开的范围。

这个部分首先提出所引入的等待-k模型的准确性和时延。然后，表明追赶模型在很少或不牺牲准确性的情况下甚至进一步减小时延。最后，分析来自dev集和来自最近新闻的一些示例。

在四个同步翻译方向上展示了各种模型的性能：和/> 对于训练数据，将可从Workshop Statistical Machine Translation(统计机器翻译研讨会)(WMT15)得到的平行语料库用于/>翻译(450万个语句对)，并且将国家标准技术局语料库用于/>翻译(200万个语句对)。首先，在所有文本上应用字节对编码(BPE)以便减小源侧和目标侧的词汇量。然后，排除相应英语到德语和中文到德语的长度长于50和256个词的语句对。对于/>评估，将newstest-2013(dev)用作开发集，并且将newstest-2015(测试)用作分别具有3,000和2,169个语句对的测试集。实施方案改编自基于PyTorch的Open-Source Neural Machine Translation(开源神经机器翻译)(OpenNMT)。对于/>评估，NIST 2006和NIST 2008。它们含有616和691个中文语句，每一者具有四个英语参考。在追赶实验中，使用从1.25的dev集tgt/src长度比得出的解码追赶频率c＝0.25。对于/>翻译任务，不使用追赶，因为tgt/src比几乎为1。

当从中文翻译成英语时，报告4-参考BLEU得分，并且在反方向上，将四个英语参考中的第二个用作源文本并且报告1-参考BLEU得分。

实施方案改编自基于PyTorch的开源神经机器翻译(OpenNMT)。变换器的参数与原创论文(瓦斯瓦尼(Vaswani)等人，2017年，《您只需要集中注意力》(Attention is all youneed)，神经信息处理系统的发展30(Advances in Neural Information ProcessingSystems 30))中的基础模型的参数设置相同。

图10是根据本公开的各种实施方式的用于测量用户与说话者不同步的程度的说明性过程的流程图。过程1000在确定源语句结束的解码步(1005)时开始。然后确定解码步处的源语句中的词的数量(1010)。最后，将解码步处的源语句中的词的数量用作解码器与编码器不同步的程度的测量(1015)。在实施方式中，这个测量表示用户与说话者有多不同步。

1.等待-k模型的性能

在图11A和图11B中，将BLEU得分和AP与来自顾(Gu)等人2017年的模型进行比较，在用于英语到德语和德语到英语任务的dev集上。在图11A和图11B中，702和704表示具有RNN的完整语句基线(分别是贪婪解码和具有束大小11的束搜索)。线条图720和730表示等待-k策略的贪婪结果和具有RNN的尾部束搜索结果。点对是顾等人(2017年)使用贪婪解码和束搜索(束大小5)的结果，其中以各种延迟目标训练模型：706、708：完整语句；740、741：CW＝8；750、751：CW＝5；760、761：CW＝2；770、771：AP＝0.3；780、781：AP＝0.5；790、791：AP＝0.7。应注意，顾等人的利用AP＝0.5训练的模型实现大约0.7(de→en)和0.6(en→de)的测试时间AP。

结果表明，根据各种实施方式的基于RNN的模型在两个方向上都胜过来自顾等人(2017年)的模型，并且根据各种实施方式的同步变换器实现好得多的性能。

图12A和图12B示出了德语到英语(图12A)和英语到德语(图12B)的等待-k模型的BLEU得分与由AL测量的时延。将BLEU得分连同AL一起在基于RNN的与基于变换器的模型之间进行比较。还包括基于由顾等人(2017年)中的作者提供的解码动作序列，顾等人(2017年)的一个模型在每个方向上的AL值。

802、804和806、808分别是用于变换器和RNN模型的贪婪解码和束搜索基线。类似地，830和832使用贪婪策略进行解码，而820和822利用尾部束搜索进行解码。810：AP＝0.5和850：AP＝0.7是与图11A和图11B中相同的点。

中文与英语之间的性能在图13A和图13B中示出，它们示出了dev集上的中文到英语(图13A)和英语到中文(图13B)翻译的不同等待-k模型的BLEU得分和AL比较。应注意，4-参考BLEU用于中文到英语，但1-参考BLEU用于英语到中文，因为只有英语侧可用多个参考。902、904和906、908是贪婪解码和束搜索基线。图13A中针对中文到英语翻译比较了等待-k与等待-k加解码器追赶之间的差异。针对方向英语到中文，在图13B中，示出了等待-k加编码器追赶，因为源侧比目标侧长得多。

CW测量平均源片段长度并且也在表1中比较。

de→en	k＝3	k＝4	k＝5	k＝6	顾(Gu)等人
						CW	1.35	1.43	1.54	1.65	3.85
BLEU	18.54	19.78	20.53	21.23	20.70

en→de	k＝3	k＝4	k＝5	k＝6	顾(Gu)等人
						CW	1.13	1.22	1.33	1.48	3.36
BLEU	15.40	16.41	17.24	17.56	15.93

表1：通过CW和BLEU得分在dev集上与(顾等人，2017年)比较。在相似或更高BLEU水平，所公开的模型得到低得多的CW。

如在部分E中分析，等待-k具有接近1的AL。在相似或更好的BLEU得分下，CW比顾等人(2017年)的那些低得多，这指示更好的用户体验。

关于测试集的更全面比较在表2A和表2B(图25A和图25B)中示出，它们示出根据本公开的各种实施方式的等待-k加变换器、其追赶版本和等待-k加RNN模型(具有各种k)在和/>测试集上的性能数据。对于每个k，左侧的数字来自贪婪解码，并且右侧斜体字数字来自尾部束搜索。∞表示具有来自贪婪和束搜索的结果的基线。

2.等待-k模型的质量和时延

表3示出了根据本公开的各种实施方式的利用等待-k’训练且利用等待-k进行解码的模型的结果(其中∞意指完整语句)。所公开的等待-k是对角线，并且最后一行是“测试时间等待-k”解码。应注意，等待-k解码的良好结果可以使用已经利用稍微大于k’进行训练的模型来实现。

图14A至图17B绘制根据本公开的各种实施方式的完整语句基线、等待-k、测试时间等待-k(使用完整语句模型)的翻译质量(以BLEU表示)与时延(以AP和CW表示)，和相同变换器基线上的顾等人(2017年)的重新实施。★完整语句(贪婪和束搜索)，顾等人(2017年)；■：AP＝0.7。应注意，利用AP＝0.7训练的它们的模型实现0.8的测试时间AP和7.8的CW。

图14A和图14B示出了根据本公开的各种实施方式的德语到英语同步翻译的翻译质量与时延度量(AP和CW)，示出等待-k模型(对于k＝1、3、5、7、9)、测试时间等待-k结果、完整语句基线和顾等人(2017年)的重新实施，它们全部基于相同的变换器。

图16A和图16B示出了根据本公开的各种实施方式的zh→en，顾等人(2017年)的翻译质量与时延：AP＝0.3，/>AP＝0.5，■：AP＝0.7。

图17A和图17B示出了根据本公开的各种实施方式的en→zh，顾等人(2017年)的翻译质量与时延：AP＝0.3，/>AP＝0.5，■：AP＝0.7。

如图14A至图17B所示，随着k增加，(a)等待-k在BLEU得分方面改进且在时延方面变坏，并且(b)测试时间等待-k与等待-k之间的差距减小。最终，随着k→∞，测试时间等待-k与等待-k两者都接近完整语句基线，与直觉一致。

接下来，将结果与顾等人(2017年)的两级完整语句模型+强化学习在变换器上的重新实施进行比较。在BLEU与AP图上，两级完整语句模型表现类似于de→en和zh→en的测试时间等待-k并且比的测试时间等待-k略好，这是合理的，因为两者都在核心使用完整语句模型。然而，在BLEU与CW图上，两级完整语句模型具有更差的CW，这与顾等人公布的结果一致。这是因为R/W模型优选读和写的连续片段(例如，两级完整语句模型通常产生例如R RR R R W W W W R R R W W W W R……)，而使用等待-k的各种实施方式与输入同时翻译(初始片段具有长度k，并且其他片段具有长度1，因此导致相对较低CW)。应注意，发现对两级完整语句模型的训练因使用RL而相对不稳定，而所提出的实施方式非常稳健。

3.示例和讨论

图18至图23展现使用dev集和最近消息的一些中文到英语和英语到中文语句翻译示例。附图示出已经从所引入的模型和基线框架生成的实际运行示例，以展示所公开的系统的有效性。示出了编码步数和源语言(以及在从中文翻译时的拼音)，其中其注释在上侧。利用不同等待-k模型和基线的不同生成结果在图18至图23中的表的下部部分中示出。应注意，在整个源语句被编码之后开始生成词的基线方法是最后一行，而所公开的模型仅等待k个编码步骤。

图18示出了具有预期的dev集中的德语到英语示例。嵌入分句中的主动词“einigen”(agree)提前3个词正确地预测出(其中“sich”提供强烈的暗示)，而助动词“kann”(can)被预测为“has”。基线翻译是“但，尽管过会行动无法达成一致，几个国家不再等待”bs.:Bundesstaaten。

图19示出了具有预期的dev集中的中文到英语示例。等待-1和等待-3策略都产生完美的翻译，其中提早预测出“making preparations”。◇：进行时态标记。+追赶，这产生略糟的输出，且在源语句之前结束。

图20示出了来自在线新闻的中文到英语示例。等待-3模型正确地预期“expressed”和“welcome”两者(但缺少“warm”)，并且将PP(“to ... visit to china”)移动到最后，这按英语词序很流畅。

图21示出了dev集中的另一中文到英语示例。同样地，等待-3模型正确地预测“invitation”，因为中文造句“yìng NP de yāoqǐng”意思是“at the invitation of NP”。此外，这两者都预测“visit”(在等待-1中提早6个词)，并且等待-1甚至预测“Pakistan andIndia”。基线完整语句翻译与我们的等待-1策略相同。缩写词(invit.：邀请；pak.：巴基斯坦人/巴基斯坦；ind：印度人/印度；govts：政府；mar.：三月；&：和；+追赶)产生相同的翻译但更提早预测。

除了在图22示例(b)中，等待-k模型一般正确地预期，从而通常产生与完整语句基线一样好的翻译。在图22中，对于示例(a)，正确地预期动词“gǎndào”(“feel”)和表语“dānyōu”(“concerned”)两者，可能是由词“missing”暗示。+追赶。示例(b)表明，当最后一个词dānyōu变成bùmǎn(“dissatisfied”)时，等待-3翻译结果保持不变(对于示例(a)正确，但对于示例(b)不正确)，而等待-5保守地翻译并且在没有预期的情况下产生正确翻译。

4.对预期的人工评估

表4示出了使用来自dev集的每个语言对的100个示例在所有四个方向上对语句和词和准确性的预期率的人工评估。如所示，随着增加的k，预期率降低(在语句和词两个水平)，并且预期准确性提高。此外，预期率在四个方向中显著不同，其中

en→zh＞de→en＞zh→en＞en→de

有趣的是，这个顺序切好与完整语句模型与根据本公开的各种实施方式的等待-9模型之间的BLEU得分差距的顺序相同。

en→zh：2.0＞de→en：1.1＞zh→en：＞en→de：0.3

(4-参考BLEU的差异，其在实验中在1-参考BLEU中减小约一半)。这个顺序大致表征这些方向的同步翻译的相对难度。如图23中的示例语句展示，en→zh翻译特别困难，因为将英语句末时间从句(诸如“近年来”)强制长距离重排序到中文中的更早位置。还众所周知，de→en在同步翻译方面比en→de更有挑战，因为SOV→SVO涉及预测动词，而SVO→SOV在相对较小k(例如，k＝3)的等待-k模型中通常不需要预测，因为V通常比O短。例如，人工评估在k＝3、5和7的en→de中仅发现1.3％、0.1％和0％的词预期，并且在de→en中发现4.5％、1.5％和0.6％。

H.相关工作

顾等人(2017年)的工作可以在很多关键方面区别于本公开中的各种实施方式。例如，完整语句模型(a)无法预期未来的词；(b)不同于根据各种实施方式的实现k个词时延的等待-k模型，无法实现任何指定的时延度量；(c)不是真正的同步模型，而是使用完整语句基础模型进行翻译的两个模型的组合，因此在训练与测试之间产生不匹配；以及(d)不同于从头训练的本公开中的各种实施方式，训练也是两级的，使用强化学习(RL)来更新R/W模型。

在平行工作中，一些作者提出“渴望翻译”模型，其在整个输入语句馈入模型之前输出目标侧词。然而，该模型具有两个主要缺点。第一，它的目的在于使用束搜索翻译完整语句并且因此不是同步模型。第二，它不预期未来的词。第三，它使用词对齐来学习重排序并且在解码中通过发出∈标记来实现。相反，本公开的各种实施方式将重排序合并到单个等待预测模型中，该模型对于重排序是不可知的但能够重排序。

一种方法将预测动作添加到顾等人(2017年)的架构，但已使用的编码器和解码器仍在完整语句上训练。代替预测可能会在几个词之后来到的源动词，这种方法预测紧跟着的源词，这对SOV到SVO翻译来说不是特别有用。相反，本文中提出的各种实施方式直接在目标侧上预测，因此将预期结合到单个翻译模型中。

I.一些结论

提供了用于具有结合的预期的同步翻译的前缀到前缀训练和解码框架实施方式，以及可以实现任意词级时延同时维持高翻译质量的等待-k策略的实施方式。这些前缀到前缀架构实施方式具有被用于涉及同时性和渐进性的MT之外的其他序列任务的潜力。

J.计算系统实施方式

本专利文献的方面涉及、信息处理系统。出于本公开的目的，信息处理系统可包括出于商业、科学、控制或其它目的可操作来计算、运算、确定、分类、处理、传输、接收、检索、发起、路由、交换、存储、显示、通信、显现、检测、记录、再现、处理或利用任何形式信息、智能或数据的任何手段或手段的组合。例如，信息处理系统可为个人计算机(例如，桌上型或膝上型计算机)、平板电脑、移动设备(例如，个人数字助理或智能手机)、服务器(例如，刀片式服务器或机架式服务器)、网络存储设备或任何其它合适设备，并且可在大小、形状、性能、功能和价格方面改变。信息处理系统可包括随机存取存储器(RAM)、一个或多个处理资源(诸如中央处理单元(CPU)或硬件或软件控制逻辑)、ROM和/或其它类型的非易失性存储器。信息处理系统的另外组件可包括一个或多个盘驱动器、用于与外部设备通信的一个或多个网络端口、以及各种输入和输出设备(诸如扬声器、麦克风、摄像机、键盘、鼠标、触摸屏和/或视频显示器)。信息处理系统还可包括可操作为在各种硬件组件之间传输通信的一个或多个总线。

图24描绘根据本公开的实施方式的计算设备/信息处理系统(或是计算系统)的简化框图。应理解，计算系统可不同地配置并且包括不同组件，包括如图24中所示的更少或更多的部件，但应理解，针对系统2400所示出的功能可操作为支持计算系统的各种实施方式。

如图24所示，计算系统2400包括一个或多个中央处理单元(CPU)2401，CPU 2401提供计算资源并控制计算机。CPU 2401可实施有微处理器等，并且还可包括一个或多个图形处理单元2419和/或用于数学计算的浮点协处理器。系统2400还可包括系统存储器2402，系统存储器2402可呈随机存取存储器(RAM)、只读存储器(ROM)、或两者的形式。

如图24所示，还可提供多个控制器和外围设备。输入控制器2403表示至各种输入设备2404的接口，例如键盘、鼠标、触摸屏和/或触笔。计算系统2400还可包括存储控制器2407，该存储控制器2407用于与一个或多个存储设备2408对接，存储设备中的每个包括存储介质(诸如磁带或盘)或光学介质(其可用于记录用于操作系统、实用工具和应用程序的指令的程序，它们可包括实施本发明的各方面的程序的实施方式)。存储设备2408还可用于存储经处理的数据或是将要根据本发明处理的数据。系统2400还可包括显示控制器2409，该显示控制器2409用于为显示设备2411提供接口，显示设备2411可为阴极射线管、薄膜晶体管显示器、有机发光二极管、电致发光面板、等离子面板或其它类型的显示器。计算系统2400还可包括用于一个或多个外围设备2406的一个或多个外围控制器或接口2405。外围设备的示例可包括一个或多个打印机、扫描仪、输入设备、输出设备、传感器等。通信控制器2414可与一个或多个通信设备2415对接，这使系统2400能够通过各种网络(包括互联网、云资源(例如以太云、经以太网的光纤通道/数据中心桥接云等)、局域网、广域网、存储区域网络)中的任一网络，或通过任何合适电磁载波信号(包括红外信号)来连接至远程设备。

在示出的系统中，所有主要系统组件可连接至总线2416，总线2416可表示多于一个的物理总线。然而，各种系统组件可在物理上彼此接近或可不在物理上彼此接近。例如，输入数据和/或输出数据可远程地从一个物理位置传输到另一物理位置。另外，实现本发明的各方面的程序可经由网络从远程位置(例如，服务器)访问。此类数据和/或程序可通过各种机器可读介质中的任一机器可读介质来传送，机器可读介质包括但不限于：诸如硬盘、软盘和磁带的磁性介质；诸如CD-ROM和全息设备的光学介质；磁光介质；以及硬件设备，该硬件设备专门被配置成存储或存储并执行程序代码，该硬件设备例如专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、以及ROM和RAM设备。

本发明的方面可利用用于一个或多个处理器或处理单元以使步骤执行的指令在一个或多个非暂态计算机可读介质上编码。应注意，一个或多个非暂态计算机可读介质应当包括易失性存储器和非易失性存储器。应注意，替代实现方式是可能的，其包括硬件实现方式或软件/硬件实现方式。硬件实施的功能可使用ASIC、可编程的阵列、数字信号处理电路等来实现。因此，任何权利要求中的术语“手段”旨在涵盖软件实现方式和硬件实现方式两者。类似地，如本文使用的术语“计算机可读媒介或介质”包括具有实施在其上的指令程序的软件和/或硬件或它们的组合。利用所构想的这些替代实现方式，应当理解，附图以及随附描述提供本领域的技术人员编写程序代码(即，软件)和/或制造电路(即，硬件)以执行所需处理所要求的功能信息。

应当注意，本发明的实施方式还可涉及具有其上具有用于执行各种计算机实施的操作的计算机代码的非暂态有形计算机可读介质的计算机产品。介质和计算机代码可为出于本发明的目的而专门设计和构造的介质和计算机代码，或者它们可为相关领域中的技术人员已知或可用的。有形计算机可读介质的示例包括但不限于：诸如硬盘、软盘和磁带的磁性介质；诸如CD-ROM和全息设备的光学介质；磁光介质；以及专门配置成存储或存储并执行程序代码的硬件设备，例如，专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、以及ROM和RAM设备。计算机代码的示例包括机器代码(例如，编译器产生的代码)以及包含可由计算机使用解释器来执行的更高级代码的文件。本发明的实施方式可整体地或部分地实施为可在由处理设备执行的程序模块中的机器可执行指令。程序模块的示例包括库、程序、例程、对象、组件和数据结构。在分布的计算环境中，程序模块可物理上定位在本地、远程或两者的设定中。

本领域的技术人员将认识到，计算系统或编程语言对本发明的实践来说均不重要。本领域的技术人员将还将认识到，多个上述元件可物理地和/或在功能上划分成子模块或组合在一起。

本领域技术人员将理解，前文的示例和实施方式是示例性的，并且不限制本公开的范围。旨在说明的是，在本领域的技术人员阅读本说明书并研究附图后将对本领域的技术人员显而易见的本发明的所有、置换、增强、等同、组合或改进包括在本公开的真实精神和范围内。还应注意，任何权利要求书的元素可不同地布置，包括具有多个从属、配置和组合。

Claims

1.一种用于低时延实时翻译的方法，所述方法包括：

直到接收到语句结束信号，执行包括以下的步骤：

使用神经网络来接收源语言标记的语句，所述神经网络已经通过使用(1)比语句短的接收的源语言词序列和(2)一个或多个先前生成的目标语言词进行前缀到前缀地训练，以预测对应于所述语句的一些或全部目标语言词；

使用源语言标记的所述语句的前缀来预测目标语言标记，所述前缀比完整语句短；

响应于接收到下一源语言标记，更新所述前缀；

输出所述下一目标语言标记；以及

2.根据权利要求1所述的方法，其中使用源语言标记的所述前缀包括使用将所述源语言标记的子集限定为将用于预测的所述前缀的单调非减函数。

3.根据权利要求2所述的方法，其中更新所述前缀包括更新所述单调非减函数。

4.根据权利要求1所述的方法，其中前缀到前缀地训练所述神经网络包括将目标语言标记数量与源语言标记数量之间的比例维持大约相同，以防止翻译延迟随时间推移而增加。

5.根据权利要求4所述的方法，其中维持所述比例包括通过平均地添加或减去恒定数量的源语言标记来调整所述目标语言标记数量与所述源语言标记数量之间的差异。

6.根据权利要求4所述的方法，其中当在反方向上传译时，所述比例倒置。

7.根据权利要求1所述的方法，还包括：

确定源语句结束所在的解码步骤；

确定在所述解码步骤所述源语句中的词的数量；以及

将在所述解码步骤所述源语句中的词的数量用作解码器与编码器不同步的程度的测量，其表示用户与说话者不同步的程度。

8.一种用于训练低时延实时翻译的神经网络模型的计算机实施的方法，所述方法包括：

通过执行包括以下的步骤来前缀到前缀地训练神经网络：

使用所述神经网络来接收与语句相关联的源语言标记；

使用源语言标记的所述语句的前缀来预测目标语言标记，所述前缀比所述语句短；

响应于接收到下一源语言标记，更新所述前缀；

输出所述下一目标语言标记。

9.根据权利要求8所述的计算机实施的方法，其中前缀到前缀地训练所述神经网络包括通过使用预定数量的所述源语言标记来预测所述目标语言标记中的第一个。

10.根据权利要求9所述的计算机实施的方法，其中前缀到前缀地训练所述神经网络包括使用所述预定数量的源语言标记和一个附加源语言标记来生成第二目标语言标记。

11.根据权利要求8所述的计算机实施的方法，其中前缀到前缀地训练所述神经网络包括响应于到达截止点，向所述语句应用束搜索或完整语句模型，以生成任何剩余目标语言标记。

12.根据权利要求11所述的计算机实施的方法，其中所述截止点是所述语句结束时的时刻的解码步骤。

13.根据权利要求8所述的计算机实施的方法，其中基于递归神经网络(RNN)模型和变换器中的一者来训练所述神经网络。

14.根据权利要求8所述的计算机实施的方法，其中除非所述前缀包括源侧语句结束信号，否则所述神经网络不生成目标语句结束信号。

15.根据权利要求8所述的计算机实施的方法，其中每个源词均被约束为仅注意其前任，由此模拟增量编码器。

16.一种非暂时性计算机可读介质或媒体，其包括一个或多个指令序列，所述指令序列在被至少一个处理器执行时致使执行包括以下的步骤：

在神经网络处接收与语句相关联的第一组源语言标记；

将所述第一组源语言标记的所述语句的前缀来预测第一组目标语言标记，其中所述前缀比所述语句短；

响应于接收到第二组源语言标记，更新所述前缀；

输出一个或多个目标语言标记，

17.根据权利要求16所述的非暂时性计算机可读介质或媒体，其中所述至少一个处理器包括解码器，所述解码器响应于接收到所述第一组源语言标记而预测所述第一组目标语言标记。

18.根据权利要求16所述的非暂时性计算机可读介质或媒体，其中在训练阶段，编码器生成隐状态序列，所述编码器从所述隐状态序列生成所述目标语言词的对应序列。

19.根据权利要求18所述的非暂时性计算机可读介质或媒体，其中所述编码器通过使用递归神经网络来生成所述隐状态序列。

20.根据权利要求16所述的非暂时性计算机可读介质或媒体，其中经由用户界面从文本输入或者从已经使用自动化语音识别转换成标记的输入音频流接收多个源语言标记。