CN113486681A - 一种同传翻译方法、装置、设备及存储介质 - Google Patents

一种同传翻译方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113486681A
CN113486681A CN202110881817.4A CN202110881817A CN113486681A CN 113486681 A CN113486681 A CN 113486681A CN 202110881817 A CN202110881817 A CN 202110881817A CN 113486681 A CN113486681 A CN 113486681A
Authority
CN
China
Prior art keywords
data unit
output
translation
node
delay
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110881817.4A
Other languages
English (en)
Inventor
刘丹
李小喜
刘俊华
魏思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202110881817.4A priority Critical patent/CN113486681A/zh
Publication of CN113486681A publication Critical patent/CN113486681A/zh
Priority to PCT/CN2022/105363 priority patent/WO2023011125A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种同传翻译方法、装置、设备及存储介质,方法包括:对当前输入数据单元和当前已获得的输出数据单元进行处理,以获得处理结果,根据处理结果预测当前输入数据单元的位置处是否进行数据输出,以及在预测出进行数据输出时,确定输出数据单元并输出;其中,输出位置的预测以及输出位置处输出数据的确定以使翻译质量和翻译延迟共同优化为方向进行。本申请提供的同传翻译方法可实现翻译延迟的动态预测,并且,由于本申请提供的同传翻译方法以使翻译质量和翻译延迟共同优化为方向对数据输出位置和输出数据进行预测,因此,其能够预测出较为合适的翻译延迟以及质量较佳的翻译结果。

Description

一种同传翻译方法、装置、设备及存储介质
技术领域
本申请涉及翻译技术领域,尤其涉及一种同传翻译方法、装置、设备及存储介质。
背景技术
机器翻译,又称自动翻译,是利用计算机将一种自然语言(源语言)转换成另一种自然语言(目标语言)的过程。同传翻译(或同声传译),是指在源语言句子尚未结束时同时开始目标语言的产生。
目前研究较多的是文本-文本的同传翻译和语音-文本的同传翻译。其中,文本-文本的同传翻译往往作为更复杂的语音同传系统的子模块和实时语音识别共同工作,完成语音同传任务,而语音-文本的同传翻译直接端到端的完成源语言语音-目标语言文本的实时翻译过程,语音-文本的同传翻译直接降低了跨语言交流的时间成本,在一系列多语言沟通交流场景下发挥了重要作用,如国际会议、跨语言实时字幕生成等。
目前的同传翻译方案主要为基于wait-k的同传翻译方案,基于wait-k的同传翻译方案的大致思路是,从输入的第k个数据单位(比如字符)开始翻译,即输入第k个数据单元时,输出一个数据单元,输入第k+1个数据单元时,输出第2个数据单元,以此类推,即输入相对输出固定延迟k步。为了获得较好的同传翻译效果,通常需要设置较低的延迟,然而延迟偏低会导致翻译结果不忠实原文,即翻译质量不佳,为了获得较好的翻译质量,实用中必需采用相对较高的延迟,而过高的延迟对大多数翻译内容又不是必需的,导致延迟的浪费。
发明内容
有鉴于此,本申请提供了一种同传翻译方法、装置、设备及存储介质,用以解决基于wait-k的同传翻译方案所存在的问题,其技术方案如下:
一种同传翻译方法,包括:
对当前输入数据单元和当前已获得的输出数据单元进行处理,以获得处理结果;
根据所述处理结果预测当前输入数据单元的位置处是否进行数据输出,以及在预测出进行数据输出时,确定输出数据单元并输出;
其中,数据输出位置的预测以及所述数据输出位置处输出数据的确定以使翻译质量和翻译延迟共同优化为方向进行。
可选的,所述对当前输入数据单元和当前已获得的输出数据单元进行处理,以获得处理结果,包括:
对当前输入数据单元进行编码,以获得当前输入数据单元的编码结果;
若需要在当前输入数据单元的位置处进行输出决策,则根据当前输入数据单元的编码结果和历史输入数据单元的编码结果,确定当前输入数据单元对应的上下文向量;
根据当前已获得的输出数据单元确定用于预测下一输出数据单元的向量,作为输出数据预测向量;
所述根据所述处理结果预测当前输入数据单元的位置处是否进行数据输出,以及在预测出进行数据输出时,确定输出数据单元并输出,包括:
根据所述当前输入数据单元对应的上下文向量和所述输出数据预测向量,预测当前输入数据单元的位置处是否进行数据输出,以及在预测出进行数据输出时,确定输出数据单元并输出。
可选的,所述若需要在当前输入数据单元的位置处进行输出决策,则根据当前输入数据单元的编码结果和历史输入数据单元的编码结果,确定当前输入数据单元对应的上下文向量,包括:
若根据预设的决策步长确定需要在当前输入数据单元的位置处进行输出决策,则根据当前输入数据单元的编码结果和历史输入数据单元的编码结果,确定当前输入数据单元对应的上下文向量。
可选的,所述对当前输入数据单元和当前已获得的输出数据单元进行处理,以获得处理结果,根据所述处理结果预测当前输入数据单元的位置处是否进行数据输出,以及在预测出进行数据输出时,确定输出数据单元并输出,包括:
利用预先建立的同传翻译模型,对当前输入数据单元和当前已获得的输出数据单元进行处理,并根据处理结果预测当前输入数据单元的位置处是否进行数据输出,以及在预测出进行数据输出时,确定输出数据单元并输出;
其中,所述同传翻译模型采用训练数据单元序列训练得到,所述同传翻译模型的训练目标为,联合优化所述同传翻译模型在所述训练数据单元序列上的翻译质量和翻译延迟。
可选的,所述同传翻译模型包括:编码模块、注意力模块、向量预测模块和输出位置及输出数据预测模块;
所述编码模块,用于对当前输入数据单元进行编码,以获得当前输入数据单元的编码结果;
所述注意力模块,用于确定当前输入数据单元和历史输入数据单元分别对应的权重,并根据确定出的权重、当前输入数据单元的编码结果以及历史输入数据单元的编码结果,确定当前输入数据单元对应的上下文向量;
所述向量预测模块,用于根据当前已获得的输出数据单元确定用于预测下一输出数据单元的向量,作为输出数据预测向量;
所述输出位置及输出数据预测模块,用于根据当前输入数据单元对应的上下文向量和所述输出数据预测向量,预测当前输入数据单元的位置处是否进行数据输出,以及在预测出进行数据输出时,确定输出数据单元并输出。
可选的,建立所述同传翻译模型的过程包括:
将所述训练数据单元序列中的数据单元依次逐个输入同传翻译模型,以得到所述训练数据单元序列中数据单元对应的预测结果,以及所述训练数据单元序列对应的翻译结果;其中,所述训练数据单元序列中一数据单元对应的预测结果包括:在该数据单元的位置处输出设定的各数据单元的概率以及不进行输出的概率;
根据所述训练数据单元序列中数据单元对应的预测结果,以及所述训练数据单元序列到对应翻译结果的所有可能的同传路径,确定同传翻译模型在翻译质量这一维度上的预测损失以及在翻译延迟这一维度上的预测损失;
根据所述同传翻译模型在翻译质量这一维度上的预测损失以及在翻译延迟这一维度上的预测损失,更新同传翻译模型的参数。
可选的,所述根据所述训练数据单元序列中数据单元对应的预测结果,以及所述训练数据单元序列到对应翻译结果的所有可能的同传路径,确定同传翻译模型在翻译质量这一维度上的预测损失以及在翻译延迟这一维度上的预测损失,包括:
根据所述训练数据单元序列中数据单元对应的预测结果,确定所述所有可能的同传路径的概率和;
根据所述所有可能的同传路径的概率和,确定所述同传翻译模型在翻译质量这一维度上的预测损失;
根据所述训练数据单元序列对应的翻译结果中每个数据单元的理想输出位置以及每个数据单元在每条同传路径中的实际输出位置,确定所述所有可能的同传路径的延迟期望,作为同传翻译模型在翻译延迟这一维度上的预测损失。
可选的,确定所述训练数据单元序列对应的翻译结果中一数据单元的理想输出位置的过程包括:
根据所述训练数据单元序列的长度、所述训练数据单元序列对应的翻译结果的长度,以及该数据单元在所述训练数据单元序列对应的翻译结果中的位置,确定该数据单元的理想输出位置。
可选的,所述根据所述训练数据单元序列中数据单元对应的预测结果,确定所述所有可能的同传路径的概率和,包括:
针对所述所有可能的同传路径所经过的每个节点:
根据所述训练数据单元序列中数据单元对应的预测结果,确定经过该节点的所有前向路径的概率和以及经过该节点的所有后向路径的概率和;
根据经过该节点的所有前向路径的概率和以及经过该节点的所有后向路径的概率和,确定经过该节点的路径的概率,作为该节点对应的概率;
根据所述所有可能的同传路径所经过的所有节点分别对应的概率,确定所述所有可能的同传路径的概率和。
可选的,所述根据所述训练数据单元序列对应的翻译结果中每个数据单元的理想输出位置以及每个数据单元在每条同传路径中的实际输出位置,确定所述所有可能的同传路径的延迟期望,包括:
针对所述所有可能的同传路径所经过的每个节点:
根据所述训练数据单元序列对应的翻译结果中每个数据单元的理想输出位置以及每个数据单元在经过该节点的同传路径上的实际输出位置,确定经过该节点的所有同传路径的延迟期望,作为该节点对应的延迟期望;
根据所述所有可能的同传路径所经过的每个节点对应的延迟期望和概率,以及所述所有可能的同传路径的概率和,确定所述所有可能的同传路径的延迟期望,其中,一个节点对应的概率根据经过该节点的前向路径的概率和以及经过该节点的后向路径的概率和确定。
可选的,所述根据所述训练数据单元序列对应的翻译结果中每个数据单元的理想输出位置以及每个数据单元在经过该节点的同传路径上的实际输出位置,确定经过该节点的所有同传路径的延迟期望,包括:
针对经过该节点的每条前向路径:根据在该前向路径上输出的数据单元的实际输出位置和理想输出位置,确定该前向路径对应的延迟损失;
根据经过该节点的所有前向路径分别对应的延迟损失,确定经过该节点的所有前向路径的延迟期望;
针对经过该节点的每条后向路径:根据在该后向路径上输出的数据单元的实际输出位置和理想输出位置,确定该后向路径对应的延迟损失;
根据经过该节点的所有后向路径分别对应的延迟损失,确定经过该节点的所有后向路径的延迟期望;
根据经过该节点的所有前向路径的延迟期望和经过该节点的所有后向路径的延迟期望,确定经过该节点的所有路径的延迟期望。
可选的,根据一路径上输出的数据单元的理想输出位置和实际输出位置,确定该路径对应的延迟损失,包括:
针对该路径所经过的每个节点:
若该节点处有数据单元输出,则将该节点处输出的数据单元的实际输出位置相对于对应的理想输出位置的偏差作为该节点对应的延迟损失;
若该节点处无数据单元输出,则确定该节点对应的延迟损失为0。
一种同传翻译装置,包括:数据处理模块和数据预测模块;
所述数据处理模块,用于对当前输入数据单元和当前已获得的输出数据单元进行处理,以获得处理结果;
所述数据预测模块,用于根据所述处理结果预测当前输入数据单元的位置处是否进行数据输出,以及在预测出进行数据输出时,确定输出数据单元并输出;
其中,数据输出位置的预测以及所述数据输出位置处输出数据的确定以使翻译质量和翻译延迟共同优化为方向进行。
可选的,所述数据处理模块和所述数据预测模块由同传翻译模型实现;
其中,所述同传翻译模型采用训练数据单元序列训练得到,所述同传翻译模型的训练目标为,联合优化所述同传翻译模型在所述训练数据单元序列上的翻译质量和翻译延迟。
一种同传翻译设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现上述任一项所述的同传翻译方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现上述任一项所述的同传翻译方法的各个步骤。
经由上述方案可知,本申请提供的同传翻译方法、装置、设备及存储介质,可对当前输入数据单元和当前已获得的输出数据单元进行处理,以获得处理结果,并可根据处理结果预测当前输入数据单元的位置处是否进行数据输出,以及在预测出进行数据输出时,确定输出数据单元并输出,本申请中输出位置的预测以及输出位置处输出数据的确定以使翻译质量和翻译延迟共同优化为方向进行。本申请提供的同传翻译方法可实现翻译延迟的动态预测,并且,由于本申请提供的同传翻译方法以使翻译质量和翻译延迟共同优化为方向对数据输出位置和输出数据进行预测,因此,其能够预测出较为合适的翻译延迟以及质量较佳的翻译结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的同传翻译方法的流程示意图;
图2为本申请实施例提供的同传翻译模型的结构示意图;
图3为本申请实施例提供的由一数据单元序列到其对应的翻译结果的两条同传路径的示意图;
图4为本申请实施例提供的建立同传翻译模型的流程示意图;
图5为本申请实施例提供的基于RNN的同传翻译模型的一示例;
图6为本申请实施例提供的基于Transformer的同传翻译模型的一示例;
图7为本申请实施例提供的同传翻译模型的结构示意图;
图8为本申请实施例提供的同传翻译设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
鉴于现有的基于wait-k的同传翻译方案为基于固定策略(在何处输出数据是固定的)的同传翻译方案,而基于固定策略的同传翻译方案很容易存在延迟不足(延迟不足导致翻译质量不佳)或延迟过大(存在延迟浪费)的问题,有鉴于此,本案发明人想到可采用基于动态策略的同传翻译方案,并在该想法的基础上进行了深入研究,通过不断研究最终提出了一种效果较好的同传翻译方法,该方法可动态预测输出位置并在预测的输出位置处输出数据。
本申请提供的同传翻译方法可应用于具有数据处理能力的终端,终端按本申请提供的同传翻译方法对输入数据进行同传翻译,该终端可以包括处理组件、存储器、输入/输出接口和电源组件,可选的,该终端还可以包括多媒体组件、音频组件、传感器组件和通信组件等。其中:
处理组件用于进行数据处理,其可以进行本案的语音合成处理,处理组件可以包括一个或多个处理器,处理组件还可以包括一个或多个模块,便于与其它组件之间的交互。
存储器被配置为存储各种类型的数据,存储器可以有任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘、光盘等中的一种或多种的组合。
电源组件为终端的各种组件提供电力,电源组件可以包括电源管理系统、一个或多个电源等。
多媒体组件可以包括屏幕,优选的,屏幕可以为触摸显示屏,触摸显示屏可接收来自用户的输入信号。多媒体组件还可以包括前置摄像头和/或后置摄像头。
音频组件被配置为输出和/或输入音频信号,如音频组件可以包括麦克风,麦克风被配置为接收外部音频信号,音频组件还可以包括扬声器,扬声器被配置为输出音频信号,终端合成的语音可通过扬声器输出。
输入/输出接口为处理组件与外围接口模块之间的接口,外围接口模块可以为键盘、按钮等,其中,按钮可包括但不限定于主页按钮、音量按钮、启动按钮、锁定按钮等。
传感器组件可以包括一个或多个传感器,用于为终端提供各个方面的状态评估,例如,传感器组件可以检测终端的打开/关闭状态、用户与终端是否接触、装置的方位、速度、温度等。传感器组件可以包括但不限定于图像传感器、加速度传感器、陀螺仪传感器、压力传感器、温度传感器等中的一种或多种的组合。
通信组件被配置为便于终端和其它设备进行有线或无线通信。终端可接入基于通信标准的无线网络,如WiFi、2G、3G、4G、5G中的一种或多种的组合。
可选的,终端可被一个或多个应用专用集成电路(ASIC)、数字信号处理器(ASP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行本申请提供的同传翻译方法。
本申请提供的同传翻译方法还可应用于服务器,服务器按本申请提供的同传翻译方法对输入数据进行同传翻译。服务器可以包括一个或一个以上的中央处理器和存储器,其中,存储器被配置为存储各种类型的数据,存储器可以有任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘、光盘等中的一种或多种的组合。服务器还可以包括一个或一个以上电源、一个或一个以上有线网络接口和/或一个或一个以上无线网络接口、一个或一个以上操作系统。
接下来通过下述实施例对本申请提供的同传翻译方法进行介绍。
第一实施例
请参阅图1,示出了本申请提供的同传翻译方法的流程示意图,可以包括:
步骤S101:对当前输入数据单元和当前已获得的输出数据单元进行处理,以获得处理结果。
本申请提供的同传翻译方法可用于实现文本-文本的同传翻译,还可用于实现语音-文本的同传翻译,也可实现语音-语音的同传翻译。若本申请提供的同传翻译方法实现的是文本-文本的同传翻译,则输入数据单元可以为一个字符,即本申请处理的是字符序列,若本申请提供的同传翻译方法实现的是语音-文本的同传翻译或者语音-语音的同传翻译,则输入数据单元可以为一帧语音的声学特征,即本申请处理的声学特征序列。
具体的,对当前输入数据单元和当前已获得的输出数据单元进行处理,以获得处理结果的过程可以包括:
步骤S1011、在每获得一输入数据单元时,对当前输入数据单元进行编码,以获得当前输入数据单元的编码结果。
步骤S1012、若需要在当前输入数据单元的位置处进行输出决策,则根据当前输入数据单元的编码结果和历史输入数据单元的编码结果,确定当前输入数据单元对应的上下文向量。
在一种可能的实现方式中,可在每获得一个输入数据单元时,在获得的输入数据单元的位置处进行输出决策。在另一种可能的实现方式中,可预设决策步长D(D大于等于2),根据预设的决策步长D确定在何位置处进行输出决策,若根据预设的决策步长确定需要在当前输入数据单元的位置处进行输出决策,则根据当前输入数据单元的编码结果和历史输入数据单元的编码结果,确定当前输入数据单元对应的上下文向量。
上述提及的决策步长可根据具体的应用场景设定,比如,若本申请提供的同传翻译方法实现的是语音-文本的同传翻译,则可将决策步长D设置为32,即每隔32帧进行一次决策,若本申请提供的同传翻译方法实现的是文本-文本的同传翻译,则可将决策步长D设置为4。需要说明的是,本实施例并不限定决策步长为4、32,4、32仅为示例。
另外,需要说明的是,若当前输入数据单元的位置处不进行输出决策,则只对当前输入数据单元进行编码即可。
步骤S1013、根据当前已获得的输出数据单元确定用于预测下一输出数据单元的向量,作为输出数据预测向量。
需要说明的是,步骤S1011~步骤S1012处理的是输入数据单元,而步骤S1013处理的是输出数据单元,步骤S1011~步骤S1012与步骤S1013是两个独立的数据处理过程,为此,本实施例并不对输入数据单元的处理过程与输出数据单元的输出过程进行执行顺序的限定。
步骤S102:根据处理结果预测当前输入数据单元的位置处是否进行数据输出,以及在预测出进行数据输出时,确定输出数据单元并输出。
具体的,根据处理结果预测当前输入数据单元的位置处是否进行数据输出,以及在预测出进行数据输出时,确定输出数据单元并输出点的过程可以包括:根据当前输入数据单元对应的上下文向量和输出数据预测向量,确定当前输入数据单元的位置处是否进行数据输出,以及在确定进行数据输出时,确定输出数据单元并输出。
进一步的,可根据当前输入数据对应的上下文向量和输出数据预测向量确定在当前输入数据的位置处输出设定的各数据单元的概率以及不进行输出的概率,根据确定出的概率确定在当前输入数据的位置处是否需要进行数据输出,若需要进行输出,根据确定出的概率确定输出数据单元并输出。
在一种可能的实现方式,可预先构建词典,词典中可以包括多个词条,每个词条为一个数据单元,则本实施例根据当前输入数据对应的上下文向量和输出数据预测向量确定在当前输入数据的位置处输出词典中各词条的概率,以及输出“blank”(“blank”表示输出为空,即不进行输出)的概率,假设词典中包括N个词条,则最终会获得N+1个概率,进而可根据N+1个概率确定在当前输入数据的位置处是否需要进行数据输出,比如输出“blank”的输出概率均大于输出词典中各词条的输出概率,则确定当前输入数据的位置处不输出数据,接着对下一待决策的输入数据单元进行输出决策,若词典中部分或所有词条的输出概率大于“blank”的输出概率,则确定当前输入数据的位置处输出数据,将输出概率最大的词条输出。
需要说明的是,为了能够按合适的翻译延迟进行翻译,同时能够获得质量较佳的翻译结果,本实施例提供的同传翻译方法中,数据输出位置的预测以及数据输出位置处输出数据的确定以使翻译质量和翻译延迟共同优化为方向进行。可以理解的是,翻译延迟与翻译质量是一对矛盾体,翻译延迟减小,则翻译质量下降,翻译延迟增大,翻译质量提升,本实施例以使翻译质量和翻译延迟共同优化为方向进行数据输出位置以及数据输出位置处输出数据的确定,能够使得翻译延迟和翻译质量达到相对最优。
在一种可能的实现方式,上述步骤S101和步骤S102,即对当前输入数据单元和当前已获得的输出数据单元进行处理,根据处理结果预测当前输入数据单元的位置处是否进行数据输出,以及在预测出进行数据输出时,确定输出数据单元并输出的过程可基于预先建立的同传翻译模型实现。该同传翻译模型可针对输入数据单元动态预测是否进行数据输出,对于翻译过程,该同传翻译模型对输入数据单元和已获得的输出数据单元分别进行处理,进而根据输入数据单元的处理结果和输出数据单元的处理结果确定输出数据单元,在对输入数据单元进行处理时,引入注意力机制,使得在确定输出数据单元时能够关注到较为重要的数据,从而能够获得质量较佳的翻译结果。
请参阅图2,示出了同传翻译模型的结构示意图,其可以包括:编码模块201、注意力模块202、向量预测模块203和输出位置及输出数据预测模块204。其中:
编码模块201,用于对当前输入数据单元进行编码,以获得当前输入数据单元的编码结果。其中,当前输入数据单元的编码结果为能够表征当前输入数据单元的向量。图2中的xi表示第i个输入数据单元,其它x以此类推,hi表示第i个输入数据单元xi的编码结果,其它h以此类推。
注意力模块202,用于在需要在当前输入数据单元的位置处进行输出决策时,根据当前输入数据单元的编码结果和历史输入数据单元的编码结果,确定当前输入数据单元对应的上下文向量。具体的,确定当前输入数据单元和历史输入数据单元分别对应的权重,并根据确定出的权重、当前输入数据单元的编码结果以及历史输入数据单元的编码结果,确定当前输入数据单元对应的上下文向量,更为具体的,将当前输入数据单元的编码结果以及历史输入数据单元的编码结果按对应的权重加权求和,以得到当前输入数据单元对应的上下文向量。需要说明的是,本申请中的注意力模块202的引入使得同传翻译模型可以解决调序问题,从而能够提升翻译质量,比如,输入的数据单元为A1、A2,假设A1的翻译结果为B1,A2的翻译结果为B2,则注意力模块的引入使得可以先输出B2再输出B1,而不一定先输出B1再输出B2。
向量预测模块203,用于根据当前已获得的输出数据单元确定用于预测下一输出数据单元的向量,作为输出数据预测向量。其中,输出数据预测向量中含有用于预测下一输出数据的有用信息。图2中的
Figure BDA0003192299560000121
为用于预测第j个输出数据单元的向量,其根据已有的输出数据单元y1~yj-1确定。
输出位置及输出数据预测模块204,用于根据当前输入数据单元对应的上下文向量和输出数据预测向量,确定当前输入数据单元的位置处是否进行数据输出,以及在确定进行数据输出时,确定输出数据单元并输出。图中的Pr表示输出位置及输出数据预测模块204根据当前输入数据对应的上下文向量和输出数据预测向量确定在当前输入数据的位置处输出设定的各数据单元以及不进行输出的概率。
本实施例中的同传翻译模型采用训练数据单元序列训练得到,该同传翻译模型的训练目标为,联合优化同传翻译模型在训练数据单元序列上的翻译质量和翻译延迟。优选的,在采用训练数据单元序列训练同传翻译模型时,可联合优化由训练数据单元序列到对应翻译结果的所有可能的同传路径的翻译质量和翻译延迟。在训练阶段,由于同传翻译模型起初并不能判别出哪条同传路径为最优路径,因此,对训练数据单元序列到对应翻译结果的所有可能的同传路径的翻译质量和翻译延迟进行优化,需要说明的是,随着训练过程的不断进行,最优路径被同传翻译模型选择的概率将会越来越大,而非最优路径被同传翻译模型选择的概率将会越来越小,最终,同传翻译模型能够具备从所有可能的同传路径中选出最优路径的能力。需要说明的是,同传翻译模型选出最优路径的能力指的是在合适的输出位置(对应翻译延迟)输出合适数据(对应翻译质量)的能力。
本实施例结合图3对同传路径进行说明:一数据单元序列{x1,x2,x3,x4,x5,x6}到其对应的翻译结果(翻译结果也为一序列){y1,y2,y3,y4,y5,y6}存在多条同传路径,图3示出了其中的两条同传路径的示意图,每条同传路径能够表征翻译结果中的每个输出数据单元在何位置输出,比如,对于路径1,第1个输出数据单元y1在x2处输出,第2个输出数据单元y2也在x2处输出,第3个输出数据单元y3在x4处输出,…,对于路径2,第1个输出数据单元y1在x1处输出,第2个输出数据单元在x2处输出,…。需要说明的是,不同同传路径中至少部分输出数据单元输出的位置不同。
由于本申请实施例提供的同传翻译方法可基于同传翻译模型实现,而同传翻译模型在训练的过程中,以同时对训练数据单元序列到对应翻译结果的所有可能的同传路径的翻译质量和翻译延迟进行优化为目标,因此,训练得到的同传翻译模型具备预测出合适的翻译延迟以及输出质量较佳的翻译结果的能力,进而,基于训练得到的同传翻译模型对输入数据进行同传翻译,既能够获得合适的延迟,又能获得质量较好的翻译结果,即基于训练得到的同传翻译模型总体上可实现延迟与翻译质量的权衡。
本申请实施例提供的同传翻译方法,以使翻译质量和翻译延迟共同优化为方向,通过对当前输入数据单元和当前已获得的输出数据单元进行处理,来预测当前输入数据单元的位置处是否进行数据输出,以及在预测出进行数据输出时,确定输出数据单元并输出。可见,本申请实施例提供的同传翻译方法可实现翻译延迟的动态预测,并且,由于本申请提供的同传翻译方法以使翻译质量和翻译延迟共同优化为方向对数据输出位置和输出数据进行预测,因此,其能够预测出较为合适的翻译延迟以及质量较佳的翻译结果。
第二实施例
上述实施例提到,步骤S101~步骤S104的同传翻译过程可基于预先建立的同传翻译模型实现,本实施例重点对建立同传翻译模型的过程进行介绍。
请参阅图4,示出了建立同传翻译模型的流程示意图,可以包括:
步骤S401:将训练数据单元序列中的数据单元依次逐个输入同传翻译模型,以得到训练数据单元序列中数据单元对应的预测结果,以及训练数据单元序列对应的翻译结果。
其中,训练数据单元序列中一数据单元对应的预测结果包括:在该数据单元的位置处输出设定的各数据单元的概率以及不进行输出的概率。
针对训练数据单元序列x中输入同传翻译模型中的每个数据单元xi,同传翻译模型对xi进行编码,若xi的位置处需要进行输出决策,则根据xi的编码结果和x1~xi-1的编码结果,确定xi对应的上下文向量,根据当前已获得的输出数据单元确定用于预测下一输出数据单元的向量作为输出数据预测向量,根据xi对应的上下文向量和输出数据预测向量预测xi处输出设定的各数据单元的概率以及不进行输出的概率,作为xi对应的预测结果。在获得xi对应的预测结果后,可根据xi对应的预测结果确定xi处是否需要输出数据单元,若是,则进一步根据xi处输出设定的各数据单元的概率确定需要输出的数据单元并输出。需要说明的是,步骤S401中“训练数据单元序列对应的翻译结果”为由同传翻译模型输出的所有输出数据单元组成的翻译结果。
另外,需要说明的是,同传翻译模型对训练数据单元序列进行翻译的过程与第一实施例提供的翻译过程类似,具体可相互参见,本实施例在此不做赘述。
步骤S402:根据训练数据单元序列中数据单元对应的预测结果,以及训练数据单元序列到对应翻译结果的所有可能的同传路径,确定同传翻译模型在翻译质量这一维度上的预测损失以及在翻译延迟这一维度上的预测损失。
为了能够对同传翻译模型的翻译质量和翻译延迟共同优化,本实施例确定同传翻译模型在翻译质量这一维度上的预测损失以及在翻译延迟这一维度上的预测损失。
进一步的,步骤S302的具体实现过程可以包括:
步骤S4021、根据训练数据单元序列中数据单元对应的预测结果,确定训练数据单元序列到对应翻译结果的所有可能的同传路径的概率和。
若训练数据单元序列表示为x,训练数据单元序列x对应翻译结果表示为y,训练数据单元序列x到对应翻译结果y的所有可能的同传路径用H(x,y)表示,其中一条同传路径用
Figure BDA0003192299560000151
表示,即
Figure BDA0003192299560000152
则训练数据单元序列x到对应翻译结果y的所有可能的同传路径的概率和可表示为
Figure BDA0003192299560000153
具体的,步骤S4021的实现过程可以包括:
步骤a1、针对训练数据单元序列到对应翻译结果的所有可能的同传路径所经过的每个节点:
步骤a1-a、根据训练数据单元序列中数据单元对应的预测结果,确定经过该节点的所有前向路径的概率和以及经过该节点的所有后向路径的概率和。
其中,经过该节点的前向路径指的是,从开始节点到该节点的路径,类似的,经过该节点的后向路径指的是,从该节点到结束节点的路径。
步骤a1-b、根据经过该节点的所有前向路径的概率和以及经过该节点的所有后向路径的概率和,确定经过该节点的路径的概率,作为该节点对应的概率。
若将该节点表示为(i,j),将训练数据单元序列到对应翻译结果的所有可能的同传路径中,经过节点(i,j)的所有前向路径的概率和表示为α(i,j),将经过节点(i,j)的所有后向路径的概率和表示为β(i,j),则可通过将α(i,j)与β(i,j)相乘,来获得经过该节点的路径的概率。
需要说明的是,本申请提供的同传翻译模型的结构(输入数据和历史输出数据分开处理,二者不存在耦合)使得不同路径的汇聚节点处可获得相同的语义表示,从而使得经过汇聚节点的路径可合并,即,对于节点(i,j),可将经过节点(i,j)的所有前向路径进行合并计算,将经过节点(i,j)的所有后向路径进行合并计算。
经由上述步骤a1可获得训练数据单元序列到对应翻译结果的所有可能的同传路径所经过的每个节点对应的概率。
步骤a2、根据训练数据单元序列到对应翻译结果的所有可能的同传路径所经过的所有节点分别对应的概率,确定训练数据单元序列到对应翻译结果的所有可能的同传路径的概率和。
若将训练数据单元序列到对应翻译结果的所有可能的同传路径的概率和
Figure BDA0003192299560000154
表示为Pr(y|x),则Pr(y|x)可表示为:
Pr(y|x)=∑(i,j):i+j=mα(i,j)·β(i,j) (1)
上式表示,将训练数据单元序列到对应翻译结果的所有可能的同传路径所经过的所有节点分别对应的概率求和,其中,1≤m≤|x|+|y|,|x|表示训练数据单元序列x的长度,即x所包含的数据单元的个数,|y|表示训练数据单元序列x对应的翻译结果y的长度,即y所包含的数据单元的个数。
步骤S4022、根据训练数据单元序列到对应翻译结果的所有可能的同传路径的概率和,确定同传翻译模型在翻译质量这一维度上的预测损失。
若同传翻译模型在翻译质量这一维度上的预测损失用
Figure BDA0003192299560000161
表示,则可通过下式确定
Figure BDA0003192299560000162
Figure BDA0003192299560000163
即,同传翻译模型在翻译质量这一维度上的预测损失为训练数据单元序列到对应翻译结果的所有可能的同传路径边缘分布的负对数似然度。
步骤S4022、根据训练数据单元序列对应的翻译结果中每个数据单元的理想输出位置以及每个数据单元在每条同传路径中的实际输出位置,确定所有可能的同传路径的延迟期望,作为同传翻译模型在翻译延迟这一维度上的预测损失。
其中,训练数据单元序列对应的翻译结果中一数据单元的理想输出位置根据训练数据单元序列的长度、训练数据单元序列对应的翻译结果的长度,以及该数据单元在训练数据单元序列对应的翻译结果中的位置确定。
进一步的,步骤S4022的实现过程可以包括:
步骤b1、针对训练数据单元序列到对应翻译结果的所有可能的同传路径所经过的每个节点:根据训练数据单元序列对应的翻译结果中每个数据单元的理想输出位置以及每个数据单元在经过该节点的同传路径上的实际输出位置,确定经过该节点的所有同传路径的延迟期望,作为该节点对应的延迟期望。
具体的,根据训练数据单元序列对应的翻译结果中每个数据单元的理想输出位置以及每个数据单元在经过该节点的同传路径上的实际输出位置,确定经过该节点的所有同传路径的延迟期望的过程可以包括:
步骤b11-a、针对经过该节点的每条前向路径:根据在该前向路径上输出的数据单元的实际输出位置和理想输出位置,确定该前向路径对应的延迟损失。
步骤b12-a、根据经过该节点的所有前向路径分别对应的延迟损失,确定经过该节点的所有前向路径的延迟期望。
具体的,针对经过该节点的每条前向路径:确定该条前向路径对应的目标概率,将该条前向路径对应的目标概率与该前向路径对应的延迟损失相乘,得到该条前向路径对应的相乘结果,其中,该条前向路径对应的目标概率为该条前向路径的概率与经过该节点的所有前向路径的概率和的比值;将经过该节点的所有前向路径分别对应的相乘结果求和,得到经过该节点的所有前向路径的延迟期望。
步骤b11-b、针对经过该节点的每条后向路径:根据在该条后向路径上输出的数据单元的实际输出位置和理想输出位置,确定该条后向路径对应的延迟损失。
步骤b11-a和本步骤都需要根据一路径(前向路径或后向路径)上输出的数据单元的理想输出位置和实际输出位置,确定该路径对应的延迟损失,接下来给出这一过程的具体实现方式:
针对该路径所经过的每个节点:若该节点处有数据单元输出,则将该节点处输出的数据单元的实际输出位置相对于对应的理想输出位置的偏差作为该节点对应的延迟损失;若该节点处无数据单元输出,则确定该节点对应的延迟损失为0。
上述确定一路径
Figure BDA00031922995600001712
对应的延迟损失
Figure BDA0003192299560000171
均过程可通过下式表征:
Figure BDA0003192299560000172
Figure BDA0003192299560000173
Figure BDA0003192299560000174
其中,
Figure BDA0003192299560000175
表示路径
Figure BDA0003192299560000176
经过的第k个节点的延迟损失,
Figure BDA0003192299560000177
Figure BDA0003192299560000178
经过的所有节点的延迟损失的和,d(i,j)表示在第i个输入数据单元的位置处输出第j个数据单元的延迟,
Figure BDA0003192299560000179
表示在路径
Figure BDA00031922995600001713
的第k个节点处无数据单元输出,i-j·
Figure BDA00031922995600001710
中的i表示实际输出位置,
Figure BDA00031922995600001711
表示理想输出位置,d(i,j)的计算式中设置下限0是为了避免过于激进的策略,即避免出现输出速度过快而影响翻译质量。
步骤b12-b、根据经过该节点的所有后向路径分别对应的延迟损失,确定经过该节点的所有后向路径的延迟期望。
具体的,针对经过该节点的每条后向路径:确定该条后向路径对应的目标概率,将该条后向路径对应的目标概率与该条后向路径对应的延迟损失相乘,得到该条后向路径对应的相乘结果,其中,该条后向路径对应的目标概率为该条后向路径的概率与经过该节点的所有后向路径的概率和的比值;将经过该节点的所有后向路径分别对应的相乘结果求和,得到经过该节点的所有后向路径的延迟期望。
步骤b13-b、根据经过该节点的所有前向路径的延迟期望和经过该节点的所有后向路径的延迟期望,确定经过该节点的所有路径的延迟期望。
若将该节点表示为(i,j),将经过节点(i,j)的所有前向路径的延迟期望表示为αlat(i,j),将经过节点(i,j)的所有后向路径的延迟期望表示为βlat(i,j),则可将αlat(i,j)与βlat(i,j)求和,以得到经过节点(i,j)的所有路径的延迟期望c(i,j),即:
c(i,j)=αlat(i,j)+βlat(i,j) (6)
经由步骤b1可获得训练数据单元序列到对应翻译结果的所有可能的同传路径所经过的每个节点对应的延迟期望。
步骤b2、根据训练数据单元序列到对应翻译结果的所有可能的同传路径所经过的每个节点对应的延迟期望和概率,以及训练数据单元序列到对应翻译结果的所有可能的同传路径的概率和,确定训练数据单元序列到对应翻译结果的所有可能的同传路径的延迟期望。
需要说明的是,步骤b2中训练数据单元序列到对应翻译结果的所有可能的同传路径所经过的任一节点对应的概率,即为根据经过该节点的前向路径的概率和以及经过该节点的后向路径的概率和确定的概率。
若将同传翻译模型在翻译延迟这一维度上的预测损失用
Figure BDA0003192299560000181
表示,训练数据单元序列到对应翻译结果的所有可能的同传路径的延迟期望用
Figure BDA0003192299560000182
表示,即:
Figure BDA0003192299560000183
具体的,训练数据单元序列到对应翻译结果的所有可能的同传路径的延迟期望
Figure BDA0003192299560000191
可通过下式计算得到:
Figure BDA0003192299560000192
步骤S403:根据同传翻译模型在翻译质量这一维度上的预测损失以及在翻译延迟这一维度上的预测损失,更新同传翻译模型的参数。
具体的,根据同传翻译模型在翻译质量这一维度上的预测损失以及同传翻译模型在翻译延迟这一维度上的预测损失,确定同传翻译模型的总预测损失
Figure BDA0003192299560000193
根据同传翻译模型的总预测损失
Figure BDA0003192299560000194
更新同传翻译模型的参数。
其中,同传翻译模型的总预测损失
Figure BDA0003192299560000195
可表示为:
Figure BDA0003192299560000196
其中,λlatency为同传翻译模型在翻译延迟这一维度上的预测损失的权重,λlatency可根据具体的应用场景设定,λlatency设置的不同,训练得到的同传翻译模型的翻译延迟不同。
在根据同传翻译模型的总预测损失
Figure BDA0003192299560000197
更新同传翻译模型的参数时,需要进行梯度计算,在进行梯度计算时,可分别针对
Figure BDA0003192299560000198
Figure BDA0003192299560000199
计算梯度,进而根据计算出的梯度更新同传翻译模型的参数,具体的,可根据下式对
Figure BDA00031922995600001910
Figure BDA00031922995600001911
计算梯度:
Figure BDA00031922995600001912
Figure BDA00031922995600001913
按上述过程进行多次迭代训练,直至满足训练结果条件,训练结束后得到的模型即为建立的同传翻译模型。
由于在训练同传翻译模型的过程中,对所有可能的同传路径的翻译质量和翻译延迟共同进行优化,因此,训练得到的同传翻译模型既能够按合适的延迟进行翻译输出,又能输出质量较好的翻译结果。
另外,在训练过程中,本申请优选按预设的决策步长D进行输出决策,相比于针对在每个输入数据单元的位置处进行输出决策,运算复杂度能够从O(|x|·|y|)降低为
Figure BDA0003192299560000201
另外,除效率上的优势外,按预设的决策步长D进行输出决策(即多步决策),通过降低决策次数,降低了模型不恰当位置决策的风险,从而提升了模型的翻译质量。需要说明的是,若训练阶段,同传翻译模型按决策步长D进行输出决策,则在训练结束后的实际应用阶段,同传翻译模型也按决策步长D进行输出决策。
需要说明的是,上述的权重λlatency和决策步长D均为可调节参数,在实际应用中,可根据具体的应用场景调节λlatency和决策步长D使其与具体场景的应用需求匹配。权重λlatency和决策步长D对应翻译延迟和翻译质量的影响是,λlatency增大(或D减小),则同传翻译延迟减小,对应的翻译质量下降,反之,λlatency减小(或D增大),则同传翻译延迟增大,对应的翻译质量上升。
本申请实施例中的同传翻译模型可以但不限为基于RNN的同传翻译模型、基于Transformer的同传翻译模型,请参阅图5,示出了基于RNN的同传翻译模型的一示例,请参阅图6,示出了基于Transformer的同传翻译模型的一示例,不管是基于RNN的同传翻译模型还是基于Transformer的同传翻译模型,总体上均由编码模块、注意力模块、向量预测模块和输出位置及输出数据预测模块组成。需要说明的是,图6中右边的部分为用于处理已获得的输出数据单元的部分,即向量预测模块,其根据已获得的输出数据单元预测用于确定下一输出数据单元的向量,图6中间部分为用于即进行输出预测的部分,即输出位置及输出数据预测模块,图6左侧部分为用于处理输入数据的部分,即编码模块和注意力模块。
第三实施例
本申请实施例还提供了一种同传翻译装置,下面对本申请实施例提供的同传翻译装置进行描述,下文描述的同传翻译装置与上文描述的同传翻译方法可相互对应参照。
请参阅图7,示出了本申请实施例提供的同传翻译装置的结构示意图,可以包括:数据处理模块701和数据预测模块702。
数据处理模块701,用于对当前输入数据单元和当前已获得的输出数据单元进行处理,以获得处理结果。
数据预测模块702,用于根据所述处理结果预测当前输入数据单元的位置处是否进行数据输出,以及在预测出进行数据输出时,确定输出数据单元并输出。
其中,数据输出位置的预测以及所述数据输出位置处输出数据的确定以使翻译质量和翻译延迟共同优化为预测进行。
可选的,数据处理模块701可以包括:输入数据处理模块和历史输出数据处理模块。
输入数据处理模块,用于对当前输入数据单元进行编码,以获得当前输入数据单元的编码结果,以及,在需要在当前输入数据单元的位置处进行输出决策时,根据当前输入数据单元的编码结果和历史输入数据单元的编码结果,确定当前输入数据单元对应的上下文向量;
历史输出数据处理模块,用于根据当前已获得的输出数据单元确定用于预测下一输出数据单元的向量,作为输出数据预测向量。
数据预测模块702,具体用于根据当前输入数据单元对应的上下文向量和所述输出数据预测向量,确定当前输入数据单元的位置处是否进行数据输出,以及在确定进行数据输出时,确定输出数据单元并输出。
可选的,输入数据处理模块在根据当前输入数据单元的编码结果和历史输入数据单元的编码结果,确定当前输入数据单元对应的上下文向量时,具体用于:
若根据预设的决策步长确定需要在当前输入数据单元的位置处进行输出决策,则根据当前输入数据单元的编码结果和历史输入数据单元的编码结果,确定当前输入数据单元对应的上下文向量。
可选的,数据处理模块701和数据预测模块702由同传翻译模型实现。
其中,所述同传翻译模型采用训练数据单元序列训练得到,所述同传翻译模型的训练目标为,联合优化所述同传翻译模型在所述训练数据单元序列上的翻译质量和翻译延迟。
可选的,所述同传翻译模型包括:编码模块、注意力模块、向量预测模块和输出位置及输出数据预测模块;
所述编码模块,用于在每获得一输入数据单元时,对当前输入数据单元进行编码,以获得当前输入数据单元的编码结果;
所述注意力模块,用于确定当前输入数据单元和历史输入数据单元分别对应的权重,并根据确定出的权重、当前输入数据单元的编码结果以及历史输入数据单元的编码结果,确定当前输入数据单元对应的上下文向量;
所述向量预测模块,用于根据当前已获得的输出数据单元确定用于预测下一输出数据单元的向量,作为输出数据预测向量;
所述输出位置及输出数据预测模块,用于根据当前输入数据单元对应的上下文向量和所述输出数据预测向量,确定当前输入数据单元的位置处是否进行数据输出,以及在确定进行数据输出时,确定输出数据单元并输出。
可选的,本申请提供的同传翻译装置还可以包括:模型训练模块。
所述模型训练模块包括:数据获取模块、预测损失确定模块和模型参数更新模块。
所述数据获取模块,用于将所述训练数据单元序列中的数据单元依次逐个输入同传翻译模型,以得到所述训练数据单元序列中数据单元对应的预测结果,以及所述训练数据单元序列对应的翻译结果;其中,所述训练数据单元序列中一数据单元对应的预测结果包括:在该数据单元的位置处输出设定的各数据单元的概率以及不进行输出的概率。
所述预测损失确定模块,用于根据所述训练数据单元序列中数据单元对应的预测结果,以及所述训练数据单元序列到对应翻译结果的所有可能的同传路径,确定同传翻译模型在翻译质量这一维度上的预测损失以及在翻译延迟这一维度上的预测损失。
所述模型参数更新模块,用于根据所述同传翻译模型在翻译质量这一维度上的预测损失以及在翻译延迟这一维度上的预测损失,更新同传翻译模型的参数。
可选的,所述预测损失确定模块包括:第一预测损失确定模块和第二预测损失确定模块。
所述第一预测损失确定模块,用于根据所述训练数据单元序列中数据单元对应的预测结果,确定所述所有可能的同传路径的概率和,并根据所述所有可能的同传路径的概率和,确定所述同传翻译模型在翻译质量这一维度上的预测损失。
所述第二预测损失确定模块,用于根据所述训练数据单元序列对应的翻译结果中每个数据单元的理想输出位置以及每个数据单元在每条同传路径中的实际输出位置,确定所述所有可能的同传路径的延迟期望,作为同传翻译模型在翻译延迟这一维度上的预测损失。
可选的,本申请提供的同传翻译装置还可以包括:理想输出位置确定模块。
理想输出位置确定模块,用于确定所述训练数据单元序列对应的翻译结果中每个数据单元的理想输出位置;
可选的,理想输出位置确定模块在确定所述训练数据单元序列对应的翻译结果中一数据单元的理想输出位置时,具体用于根据所述训练数据单元序列的长度、所述训练数据单元序列对应的翻译结果的长度,以及该数据单元在所述训练数据单元序列对应的翻译结果中的位置确定。
可选的,所述第一预测损失确定模块在根据所述训练数据单元序列中数据单元对应的预测结果,确定所述所有可能的同传路径的概率和时,具体用于:
针对所述所有可能的同传路径所经过的每个节点:
根据所述训练数据单元序列中数据单元对应的预测结果,确定经过该节点的所有前向路径的概率和以及经过该节点的所有后向路径的概率和;
根据经过该节点的所有前向路径的概率和以及经过该节点的所有后向路径的概率和,确定经过该节点的路径的概率,作为该节点对应的概率;
根据所述所有可能的同传路径所经过的所有节点分别对应的概率,确定所述所有可能的同传路径的概率和。
可选的,所述第二预测损失确定模块在根据所述训练数据单元序列对应的翻译结果中每个数据单元的理想输出位置以及每个数据单元在每条同传路径中的实际输出位置,确定所述所有可能的同传路径的延迟期望时,具体用于:
针对所述所有可能的同传路径所经过的每个节点:
根据所述训练数据单元序列对应的翻译结果中每个数据单元的理想输出位置以及每个数据单元在经过该节点的同传路径上的实际输出位置,确定经过该节点的所有同传路径的延迟期望,作为该节点对应的延迟期望;
根据所述所有可能的同传路径所经过的每个节点对应的延迟期望和概率,以及所述所有可能的同传路径的概率和,确定所述所有可能的同传路径的延迟期望,其中,一个节点对应的概率根据经过该节点的前向路径的概率和以及经过该节点的后向路径的概率和确定。
可选的,所述第二预测损失确定模块在根据所述训练数据单元序列对应的翻译结果中每个数据单元的理想输出位置以及每个数据单元在经过该节点的同传路径上的实际输出位置,确定经过该节点的所有同传路径的延迟期望时,具体用于:
针对经过该节点的每条前向路径:根据在该前向路径上输出的数据单元的实际输出位置和理想输出位置,确定该前向路径对应的延迟损失;
根据经过该节点的所有前向路径分别对应的延迟损失,确定经过该节点的所有前向路径的延迟期望;
针对经过该节点的每条后向路径:根据在该向路径上输出的数据单元的实际输出位置和理想输出位置,确定该后向路径对应的延迟损失;
根据经过该节点的所有后向路径分别对应的延迟损失,确定经过该节点的所有后向路径的延迟期望;
根据经过该节点的所有前向路径的延迟期望和经过该节点的所有后向路径的延迟期望,确定经过该节点的所有路径的延迟期望。
可选的,所述第二预测损失确定模块在根据一路径上输出的数据单元的理想输出位置和实际输出位置,确定该路径对应的延迟损失时,具体用于:
针对该路径所经过的每个节点:
若该节点处有数据单元输出,则将该节点处输出的数据单元的实际输出位置相对于对应的理想输出位置的偏差作为该节点对应的延迟损失;
若该节点处无数据单元输出,则确定该节点对应的延迟损失为0。
本申请实施例提供的同传翻译装置,以使翻译质量和翻译延迟共同优化为方向,通过对当前输入数据单元和当前已获得的输出数据单元进行处理,来预测当前输入数据单元的位置处是否进行数据输出,以及在预测出进行数据输出时,确定输出数据单元并输出。可见,本申请实施例提供的同传翻译装置可实现翻译延迟的动态预测,并且,由于本申请提供的同传翻译装置以使翻译质量和翻译延迟共同优化为方向对数据输出位置和输出数据进行预测,因此,其能够预测出较为合适的翻译延迟以及质量较佳的翻译结果。。
第四实施例
本申请实施例还提供了一种同传翻译设备,请参阅图8,示出了该同传翻译设备的结构示意图,该同传翻译设备可以包括:至少一个处理器801,至少一个通信接口802,至少一个存储器803和至少一个通信总线804;
在本申请实施例中,处理器801、通信接口802、存储器803、通信总线804的数量为至少一个,且处理器801、通信接口802、存储器803通过通信总线804完成相互间的通信;
处理器801可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器803可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
对当前输入数据单元和当前已获得的输出数据单元进行处理,以获得处理结果;
根据所述处理结果预测当前输入数据单元的位置处是否进行数据输出,以及在预测出进行数据输出时,确定输出数据单元并输出;
其中,数据输出位置的预测以及所述数据输出位置处输出数据的确定以使翻译质量和翻译延迟共同优化为方向进行。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
第五实施例
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
对当前输入数据单元和当前已获得的输出数据单元进行处理,以获得处理结果;
根据所述处理结果预测当前输入数据单元的位置处是否进行数据输出,以及在预测出进行数据输出时,确定输出数据单元并输出;
其中,数据输出位置的预测以及所述数据输出位置处输出数据的确定以使翻译质量和翻译延迟共同优化为方向进行。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (16)

1.一种同传翻译方法,其特征在于,包括:
对当前输入数据单元和当前已获得的输出数据单元进行处理,以获得处理结果;
根据所述处理结果预测当前输入数据单元的位置处是否进行数据输出,以及在预测出进行数据输出时,确定输出数据单元并输出;
其中,数据输出位置的预测以及所述数据输出位置处输出数据的确定以使翻译质量和翻译延迟共同优化为方向进行。
2.根据权利要求1所述的同传翻译方法,其特征在于,所述对当前输入数据单元和当前已获得的输出数据单元进行处理,以获得处理结果,包括:
对当前输入数据单元进行编码,以获得当前输入数据单元的编码结果;
若需要在当前输入数据单元的位置处进行输出决策,则根据当前输入数据单元的编码结果和历史输入数据单元的编码结果,确定当前输入数据单元对应的上下文向量;
根据当前已获得的输出数据单元确定用于预测下一输出数据单元的向量,作为输出数据预测向量;
所述根据所述处理结果预测当前输入数据单元的位置处是否进行数据输出,以及在预测出进行数据输出时,确定输出数据单元并输出,包括:
根据所述当前输入数据单元对应的上下文向量和所述输出数据预测向量,预测当前输入数据单元的位置处是否进行数据输出,以及在预测出进行数据输出时,确定输出数据单元并输出。
3.根据权利要求2所述的同传翻译方法,其特征在于,所述若需要在当前输入数据单元的位置处进行输出决策,则根据当前输入数据单元的编码结果和历史输入数据单元的编码结果,确定当前输入数据单元对应的上下文向量,包括:
若根据预设的决策步长确定需要在当前输入数据单元的位置处进行输出决策,则根据当前输入数据单元的编码结果和历史输入数据单元的编码结果,确定当前输入数据单元对应的上下文向量。
4.根据权利要求1所述的同传翻译方法,其特征在于,所述对当前输入数据单元和当前已获得的输出数据单元进行处理,以获得处理结果,根据所述处理结果预测当前输入数据单元的位置处是否进行数据输出,以及在预测出进行数据输出时,确定输出数据单元并输出,包括:
利用预先建立的同传翻译模型,对当前输入数据单元和当前已获得的输出数据单元进行处理,并根据处理结果预测当前输入数据单元的位置处是否进行数据输出,以及在预测出进行数据输出时,确定输出数据单元并输出;
其中,所述同传翻译模型采用训练数据单元序列训练得到,所述同传翻译模型的训练目标为,联合优化所述同传翻译模型在所述训练数据单元序列上的翻译质量和翻译延迟。
5.根据权利要求4所述的同传翻译方法,其特征在于,所述同传翻译模型包括:编码模块、注意力模块、向量预测模块和输出位置及输出数据预测模块;
所述编码模块,用于对当前输入数据单元进行编码,以获得当前输入数据单元的编码结果;
所述注意力模块,用于确定当前输入数据单元和历史输入数据单元分别对应的权重,并根据确定出的权重、当前输入数据单元的编码结果以及历史输入数据单元的编码结果,确定当前输入数据单元对应的上下文向量;
所述向量预测模块,用于根据当前已获得的输出数据单元确定用于预测下一输出数据单元的向量,作为输出数据预测向量;
所述输出位置及输出数据预测模块,用于根据当前输入数据单元对应的上下文向量和所述输出数据预测向量,预测当前输入数据单元的位置处是否进行数据输出,以及在预测出进行数据输出时,确定输出数据单元并输出。
6.根据权利要求4所述的同传翻译方法,其特征在于,建立所述同传翻译模型的过程包括:
将所述训练数据单元序列中的数据单元依次逐个输入同传翻译模型,以得到所述训练数据单元序列中数据单元对应的预测结果,以及所述训练数据单元序列对应的翻译结果;其中,所述训练数据单元序列中一数据单元对应的预测结果包括:在该数据单元的位置处输出设定的各数据单元的概率以及不进行输出的概率;
根据所述训练数据单元序列中数据单元对应的预测结果,以及所述训练数据单元序列到对应翻译结果的所有可能的同传路径,确定同传翻译模型在翻译质量这一维度上的预测损失以及在翻译延迟这一维度上的预测损失;
根据所述同传翻译模型在翻译质量这一维度上的预测损失以及在翻译延迟这一维度上的预测损失,更新同传翻译模型的参数。
7.根据权利权利要求6所述的同传翻译方法,其特征在于,所述根据所述训练数据单元序列中数据单元对应的预测结果,以及所述训练数据单元序列到对应翻译结果的所有可能的同传路径,确定同传翻译模型在翻译质量这一维度上的预测损失以及在翻译延迟这一维度上的预测损失,包括:
根据所述训练数据单元序列中数据单元对应的预测结果,确定所述所有可能的同传路径的概率和;
根据所述所有可能的同传路径的概率和,确定所述同传翻译模型在翻译质量这一维度上的预测损失;
根据所述训练数据单元序列对应的翻译结果中每个数据单元的理想输出位置以及每个数据单元在每条同传路径中的实际输出位置,确定所述所有可能的同传路径的延迟期望,作为同传翻译模型在翻译延迟这一维度上的预测损失。
8.根据权利要求7所述的同传翻译方法,其特征在于,确定所述训练数据单元序列对应的翻译结果中一数据单元的理想输出位置的过程包括:
根据所述训练数据单元序列的长度、所述训练数据单元序列对应的翻译结果的长度,以及该数据单元在所述训练数据单元序列对应的翻译结果中的位置,确定该数据单元的理想输出位置。
9.根据权利要求7所述的同传翻译方法,其特征在于,所述根据所述训练数据单元序列中数据单元对应的预测结果,确定所述所有可能的同传路径的概率和,包括:
针对所述所有可能的同传路径所经过的每个节点:
根据所述训练数据单元序列中数据单元对应的预测结果,确定经过该节点的所有前向路径的概率和以及经过该节点的所有后向路径的概率和;
根据经过该节点的所有前向路径的概率和以及经过该节点的所有后向路径的概率和,确定经过该节点的路径的概率,作为该节点对应的概率;
根据所述所有可能的同传路径所经过的所有节点分别对应的概率,确定所述所有可能的同传路径的概率和。
10.根据权利要求7所述的同传翻译方法,其特征在于,所述根据所述训练数据单元序列对应的翻译结果中每个数据单元的理想输出位置以及每个数据单元在每条同传路径中的实际输出位置,确定所述所有可能的同传路径的延迟期望,包括:
针对所述所有可能的同传路径所经过的每个节点:
根据所述训练数据单元序列对应的翻译结果中每个数据单元的理想输出位置以及每个数据单元在经过该节点的同传路径上的实际输出位置,确定经过该节点的所有同传路径的延迟期望,作为该节点对应的延迟期望;
根据所述所有可能的同传路径所经过的每个节点对应的延迟期望和概率,以及所述所有可能的同传路径的概率和,确定所述所有可能的同传路径的延迟期望,其中,一个节点对应的概率根据经过该节点的前向路径的概率和以及经过该节点的后向路径的概率和确定。
11.根据权利要求10所述的同传翻译方法,其特征在于,所述根据所述训练数据单元序列对应的翻译结果中每个数据单元的理想输出位置以及每个数据单元在经过该节点的同传路径上的实际输出位置,确定经过该节点的所有同传路径的延迟期望,包括:
针对经过该节点的每条前向路径:根据在该前向路径上输出的数据单元的实际输出位置和理想输出位置,确定该前向路径对应的延迟损失;
根据经过该节点的所有前向路径分别对应的延迟损失,确定经过该节点的所有前向路径的延迟期望;
针对经过该节点的每条后向路径:根据在该后向路径上输出的数据单元的实际输出位置和理想输出位置,确定该后向路径对应的延迟损失;
根据经过该节点的所有后向路径分别对应的延迟损失,确定经过该节点的所有后向路径的延迟期望;
根据经过该节点的所有前向路径的延迟期望和经过该节点的所有后向路径的延迟期望,确定经过该节点的所有路径的延迟期望。
12.根据权利要求11所述的同传翻译方法,其特征在于,根据一路径上输出的数据单元的理想输出位置和实际输出位置,确定该路径对应的延迟损失,包括:
针对该路径所经过的每个节点:
若该节点处有数据单元输出,则将该节点处输出的数据单元的实际输出位置相对于对应的理想输出位置的偏差作为该节点对应的延迟损失;
若该节点处无数据单元输出,则确定该节点对应的延迟损失为0。
13.一种同传翻译装置,其特征在于,包括:数据处理模块和数据预测模块;
所述数据处理模块,用于对当前输入数据单元和当前已获得的输出数据单元进行处理,以获得处理结果;
所述数据预测模块,用于根据所述处理结果预测当前输入数据单元的位置处是否进行数据输出,以及在预测出进行数据输出时,确定输出数据单元并输出;
其中,数据输出位置的预测以及所述数据输出位置处输出数据的确定以使翻译质量和翻译延迟共同优化为方向进行。
14.根据权利要求13所述的同传翻译装置,其特征在于,所述数据处理模块和所述数据预测模块由同传翻译模型实现;
其中,所述同传翻译模型采用训练数据单元序列训练得到,所述同传翻译模型的训练目标为,联合优化所述同传翻译模型在所述训练数据单元序列上的翻译质量和翻译延迟。
15.一种同传翻译设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~12中任一项所述的同传翻译方法的各个步骤。
16.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~12中任一项所述的同传翻译方法的各个步骤。
CN202110881817.4A 2021-08-02 2021-08-02 一种同传翻译方法、装置、设备及存储介质 Pending CN113486681A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110881817.4A CN113486681A (zh) 2021-08-02 2021-08-02 一种同传翻译方法、装置、设备及存储介质
PCT/CN2022/105363 WO2023011125A1 (zh) 2021-08-02 2022-07-13 一种同传翻译方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110881817.4A CN113486681A (zh) 2021-08-02 2021-08-02 一种同传翻译方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113486681A true CN113486681A (zh) 2021-10-08

Family

ID=77944080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110881817.4A Pending CN113486681A (zh) 2021-08-02 2021-08-02 一种同传翻译方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN113486681A (zh)
WO (1) WO2023011125A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023011125A1 (zh) * 2021-08-02 2023-02-09 科大讯飞股份有限公司 一种同传翻译方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110211570A (zh) * 2019-05-20 2019-09-06 北京百度网讯科技有限公司 同声传译处理方法、装置及设备
CN110298046A (zh) * 2019-07-03 2019-10-01 科大讯飞股份有限公司 一种翻译模型训练方法、文本翻译方法及相关装置
CN110969028A (zh) * 2018-09-28 2020-04-07 百度(美国)有限责任公司 用于同步翻译的系统和方法
CN112735417A (zh) * 2020-12-29 2021-04-30 科大讯飞股份有限公司 语音翻译方法、电子设备、计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178099B (zh) * 2018-11-28 2023-03-10 腾讯科技(深圳)有限公司 一种文本翻译的方法以及相关装置
CN113486681A (zh) * 2021-08-02 2021-10-08 科大讯飞股份有限公司 一种同传翻译方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110969028A (zh) * 2018-09-28 2020-04-07 百度(美国)有限责任公司 用于同步翻译的系统和方法
CN110211570A (zh) * 2019-05-20 2019-09-06 北京百度网讯科技有限公司 同声传译处理方法、装置及设备
CN110298046A (zh) * 2019-07-03 2019-10-01 科大讯飞股份有限公司 一种翻译模型训练方法、文本翻译方法及相关装置
CN112735417A (zh) * 2020-12-29 2021-04-30 科大讯飞股份有限公司 语音翻译方法、电子设备、计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DAN LIU等: "The USTC-NELSLIP Systems for Simultaneous Speech Translation Task at IWSLT 2021", 《ARXIV》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023011125A1 (zh) * 2021-08-02 2023-02-09 科大讯飞股份有限公司 一种同传翻译方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2023011125A1 (zh) 2023-02-09

Similar Documents

Publication Publication Date Title
CN111078838A (zh) 关键词提取方法、关键词提取装置及电子设备
JP7278477B2 (ja) 復号化ネットワーク構築方法、音声認識方法、装置、設備及び記憶媒体
CN110475129B (zh) 视频处理方法、介质及服务器
TW201935273A (zh) 語句的使用者意圖識別方法和裝置
EP4073787A1 (en) System and method for streaming end-to-end speech recognition with asynchronous decoders
CN111128137A (zh) 一种声学模型的训练方法、装置、计算机设备和存储介质
CN107291690A (zh) 标点添加方法和装置、用于标点添加的装置
CN109961041B (zh) 一种视频识别方法、装置及存储介质
CN110379411B (zh) 针对目标说话人的语音合成方法和装置
CN110287303B (zh) 人机对话处理方法、装置、电子设备及存储介质
CN112802444B (zh) 语音合成方法、装置、设备及存储介质
JP2020004382A (ja) 音声対話方法及び装置
CN113362812A (zh) 一种语音识别方法、装置和电子设备
CN116884391B (zh) 基于扩散模型的多模态融合音频生成方法及装置
US20230064756A1 (en) Streaming End-to-End Speech Recognition Method, Apparatus and Electronic Device
CN110929837A (zh) 神经网络模型压缩方法及装置
CN113486681A (zh) 一种同传翻译方法、装置、设备及存储介质
JP7278309B2 (ja) 文章レベルテキストの翻訳方法及び装置
CN114154459A (zh) 语音识别文本处理方法、装置、电子设备及存储介质
WO2022246986A1 (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN110781674A (zh) 一种信息处理方法、装置、计算机设备及存储介质
WO2024037348A1 (zh) 音频处理方法、模型训练方法、装置、设备、介质及产品
CN107783935B (zh) 基于动态精度可配运算的近似计算可重构阵列
CN117669498A (zh) 信息处理方法和装置
CN112199963A (zh) 一种文本处理方法、装置和用于文本处理的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230526

Address after: 230026 Jinzhai Road, Baohe District, Hefei, Anhui Province, No. 96

Applicant after: University of Science and Technology of China

Applicant after: IFLYTEK Co.,Ltd.

Address before: NO.666, Wangjiang West Road, hi tech Zone, Hefei City, Anhui Province

Applicant before: IFLYTEK Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211008