CN116611459A

CN116611459A - 翻译模型的训练方法、装置、电子设备及存储介质

Info

Publication number: CN116611459A
Application number: CN202310886208.7A
Authority: CN
Inventors: 陈小帅
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-08-18
Anticipated expiration: 2043-07-19
Also published as: CN116611459B

Abstract

本申请提供了一种翻译模型的训练方法、装置、电子设备及存储介质；方法包括：获取第一训练集，其中，第一训练集包括多个第一文本对，其中，第一文本对包括第一原始文本和第一翻译文本，且第一原始文本与第一翻译文本的情感限定一致；获取第一原始文本对应的音频数据，从第一原始文本对应的音频数据提取第一音频特征；获取第一原始文本的第一文本特征；基于第一原始文本的第一文本特征和第一音频特征调用翻译模型进行文本翻译处理，得到第一预测文本；基于第一预测文本和第一翻译文本确定翻译模型的第一预测损失；基于第一预测损失更新翻译模型的参数。通过本申请，能够提升翻译模型进行文本翻译的准确性。

Description

翻译模型的训练方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术，尤其涉及一种翻译模型的训练方法、装置、电子设备及存储介质。

背景技术

人工智能（Artificial Intelligence， AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

相关技术中，可以通过人工智能方式将不同的语言翻译为其他类型的语言，例如：将中文翻译为英文。文本能够用于表达人类的感情，通过人工智能翻译得到的文本能够保留原始文本的含义，但难以表征原始文本所表达的感情，影响了翻译处理的准确性，进而影响了用户对文本内容的理解，影响了用户观看体验。相关技术中，暂无较好的方式能够提升翻译模型进行文本翻译的准确性。

发明内容

本申请实施例提供一种翻译模型的训练方法以及文本处理方法、装置、电子设备及计算机可读存储介质、计算机程序产品，能够提升翻译模型进行文本翻译的准确性。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种翻译模型的训练方法，所述方法包括：

获取第一训练集，其中，所述第一训练集包括多个第一文本对，其中，所述第一文本对包括第一原始文本和第一翻译文本，且所述第一原始文本与所述第一翻译文本的情感限定一致；

获取所述第一原始文本对应的音频数据，从所述第一原始文本对应的音频数据提取第一音频特征；

获取所述第一原始文本的第一文本特征；

基于所述第一原始文本的第一文本特征和所述第一音频特征调用所述翻译模型进行文本翻译处理，得到第一预测文本；

基于所述第一预测文本和所述第一翻译文本确定所述翻译模型的第一预测损失；

基于所述第一预测损失更新所述翻译模型的参数。

本申请实施例提供一种翻译模型的训练装置，包括：

第一数据获取模块，配置为获取第一训练集，其中，所述第一训练集包括多个第一文本对，其中，所述第一文本对包括第一原始文本和第一翻译文本，且所述第一原始文本与所述第一翻译文本的情感限定一致；

第一文本翻译模块，配置为获取所述第一原始文本对应的音频数据，从所述第一原始文本对应的音频数据提取第一音频特征；

所述第一文本翻译模块，配置为获取所述第一原始文本的第一文本特征；

所述第一文本翻译模块，配置为基于所述第一原始文本的第一文本特征和所述第一音频特征调用所述翻译模型进行文本翻译处理，得到第一预测文本；

模型训练模块，配置为基于所述第一预测文本和所述第一翻译文本确定所述翻译模型的第一预测损失；

所述模型训练模块，配置为基于所述第一预测损失更新所述翻译模型的参数。

本申请实施例提供一种文本处理方法，所述方法包括：

获取待翻译文本以及对应的音频数据；

对所述待翻译文本进行文本翻译处理，得到多个第二预测文本；

获取所述待翻译文本的文本特征；

从所述待翻译文本对应的音频数据提取第二音频特征；针对每个所述第二预测文本执行以下处理：获取所述第二预测文本的文本特征，以及基于所述第二预测文本的文本特征、第二音频特征和所述待翻译文本的文本特征，确定所述第二预测文本与所述待翻译文本的情感限定一致的概率；

将最大概率的所述第二预测文本作为与待翻译文本的情感限定一致的翻译文本。

本申请实施例提供一种文本处理装置，所述装置包括：

第二数据获取模块，配置为获取待翻译文本以及对应的音频数据；

第二文本翻译模块，配置为对所述待翻译文本进行文本翻译处理，得到多个第二预测文本；

所述第二文本翻译模块，配置为获取所述待翻译文本的文本特征；

所述第二文本翻译模块，配置为从所述待翻译文本对应的音频数据提取第二音频特征；针对每个所述第二预测文本执行以下处理：获取所述第二预测文本的文本特征，以及基于所述第二预测文本的文本特征、第二音频特征和所述待翻译文本的文本特征，确定所述第二预测文本与所述待翻译文本的情感限定一致的概率；

本申请实施例提供一种电子设备，所述电子设备包括：

存储器，用于存储计算机可执行指令；

处理器，用于执行所述存储器中存储的计算机可执行指令时，实现本申请实施例提供的翻译模型的训练方法或者文本处理方法。

本申请实施例提供一种计算机可读存储介质，存储有计算机可执行指令，用于被处理器执行时，实现本申请实施例提供的翻译模型的训练方法或者文本处理方法。

本申请实施例提供一种计算机程序产品，包括计算机程序或计算机可执行指令，述计算机程序或计算机可执行指令被处理器执行时，实现本申请实施例提供的翻译模型的训练方法。

本申请实施例具有以下有益效果：

获取翻译文本与原始文本的情感表达一致的文本对作为训练数据，使得训练后的翻译模型能够具备使翻译结果与原始文本的情感表达一致的功能，提升了翻译模型进行文本翻译的准确性。原始文本的音频能够体现原始文本的情感，基于音频特征和原始文本的文本特征进行翻译文本的预测处理，提升了原始文本与翻译得到的文本的情感一致性，提升了翻译结果的情感表达的准确性。

附图说明

图1是本申请实施例提供的翻译模型的训练方法的应用模式示意图；

图2A是本申请实施例提供的服务器的结构示意图；

图2B是本申请实施例提供的终端设备的结构示意图；

图3A是本申请实施例提供的翻译模型的训练方法的第一流程示意图；

图3B是本申请实施例提供的翻译模型的训练方法的第二流程示意图；

图3C是本申请实施例提供的翻译模型的训练方法的第三流程示意图；

图3D是本申请实施例提供的翻译模型的训练方法的第四流程示意图；

图3E是本申请实施例提供的翻译模型的训练方法的第五流程示意图；

图4是本申请实施例提供的翻译模型的文本处理方法的示意图；

图5A是本申请实施例提供的翻译模型的结构示意图；

图5B是本申请实施例提供的情感预测模型的结构示意图；

图6是本申请实施例提供的翻译模型的训练方法的一个可选的流程示意图；

图7A是本申请实施例提供的预训练的原理图；

图7B是本申请实施例提供的多模态训练的原理图；

图7C是本申请实施例提供的情感一致性检测的原理图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解， “一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

在本申请中，涉及到的数据抓取技术方案实施（例如：用于训练模型的原始文本与翻译文本），在本申请以上实施例运用到具体产品或技术中时，相关数据收集、使用和处理过程应该遵守国家法律法规要求，符合合法、正当、必要的原则，不涉及获取法律法规禁止或限制的数据类型，不会妨碍目标网站的正常运行。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1）模态（Modality），每一种信息的来源或者形式，都可以称为一种模态。例如，信息的媒介有语音、图像、文字等；信息的来源有多种多样的传感器，如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。

2）文本情感分析，是指通过计算技术对文本的主客观性、观点、情绪、极性的挖掘和分析，对文本的情感倾向做出分类判断。

3）前馈神经网络（Feedforward Neural Network，FNN），简称前馈网络，是人工神经网络的一种。前馈神经网络采用一种单向多层结构。其中每一层包含若干个神经元。在此种神经网络中，各神经元可以接收前一层神经元的信号，并产生输出到下一层。第0层叫输入层，最后一层叫输出层，其他中间层叫做隐含层（或隐藏层、隐层）。隐层可以是一层。也可以是多层。整个网络中无反馈，信号从输入层向输出层单向传播。

4）转换器模型（Transformer），模型是一种基于自注意力机制的深度神经网络模型，广泛应用于自然语言处理领域的各种任务，如文本分类、机器翻译和问答系统等。该模型可以将输入序列转换为输出序列，同时保留输入序列中的重要信息。由于转换器模型在处理长文本时表现优异，因此在中文自然语言处理领域得到了广泛的应用。相比于传统的循环神经网络（RNN）和卷积神经网络（CNN），转换器模型可以并行计算，加快训练速度。在自然语言处理、语音识别、图像生成等任务中都有广泛应用。

5）序列至序列模型（Sequence-to-Sequence，Seq2Seq），双向循环神经网络组成的编码器-解码器（encoder-decoder）神经网络结构，从而满足输入输出序列长度不相同的情况，实现一个序列到另一个序列之间的转换。

6）梅尔（Mel）频率，一种基于人耳对等距的音高（pitch）变化的感官判断而定的非线性频率刻度，是在进行信号处理时，更能够迎合人耳的听觉感受阈值变化来人为设定的频率刻度，在音频处理领域，有很多基础音频特征是通过mel频率来进行计算的。

7）傅里叶变换，表示能将满足一定条件的某个函数表示成三角函数（正弦和/或余弦函数）或者它们的积分的线性组合。

8）VGGish模型，类视觉几何群网络（Visual Geometry Group Network，VGG），VGGish模型支持从音频波形中提取具有语义的128维嵌入（embedding）特征向量。

9）情感限定，即文本所表达的情感，例如高兴、悲伤等。情感是人受外界刺激而产生的心理反应，文本所表达的情感的类型包括：喜、怒、悲、恐、惊讶、爱、憎等。

相关技术中，基于人工智能的文本翻译已经普及，在一些视频中，视频的原始字幕包括情感表达，包括情绪、音调，具有情感的字幕能够用于体现剧情、人物特点。在翻译字幕时候要考虑原始字幕的情感，翻译到目标语言类型后需要保持情感，才能更加保持视频的“原汁原味”的看点，否则翻译结果与视频内容表达的情感无法对齐，影响用户的观看效果。相关技术中暂无较好的方式提升翻译文本与原始文本之间的情感一致性。

本申请实施例提供一种翻译模型的训练方法、翻译模型的训练装置、文本处理方法、文本处理装置、电子设备和计算机可读存储介质及计算机程序产品，能够提升翻译模型进行文本翻译的准确性。

下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的电子设备可以实施终端设备，如笔记本电脑、平板电脑、台式计算机、机顶盒、智能电视、移动设备（例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备）、车载终端、虚拟现实（Virtual Reality，VR）设备、增强现实（Augmented Reality，AR）设备等各种类型的用户终端，也可以实施为服务器。下面，将说明电子设备实施为终端设备或服务器时示例性应用。

参考图1，图1是本申请实施例提供的翻译模型的训练方法的应用模式示意图；示例的，图1中涉及服务器200、网络300及终端设备400、数据库500。终端设备400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，音频数据是视频的音频数据，数据库500可以是视频平台的数据库，存储有字幕已经翻译为其他语言的视频，以及字幕未翻译的视频。服务器200可以是视频平台的服务器。终端设备中安装有视频播放器。

示例的，服务器200从数据库500中提取已经翻译为其他语言的视频的原始字幕以及翻译后的字幕作为训练数据，服务器200调用本申请实施例提供的翻译模型的训练方法，基于训练数据进行训练，得到训练后的翻译模型。用户通过手机观看视频的过程中，若存在翻译需求，则用户触发视频播放器中的翻译功能，终端设备400向服务器200发送翻译请求，服务器200基于翻译请求翻译对应的视频的字幕，并将携带了翻译完成的字幕的视频数据发送给终端设备400，以供用户观看。

在一些实施例中，本申请实施例提供的翻译模型的训练方法，还可以应用在以下场景中：语音实时翻译，例如：基于本申请实施例提供的翻译模型的训练方法训练得到的翻译模型，通过语音文本转换模型将语音转换为文本，调用翻译模型将转换得到的文本翻译为目标语言的文本。

本申请实施例可以通过数据库技术实现，数据库（Database），简而言之可视为电子化的文件柜存储电子文件的处所，用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据库管理系统（Database Management System，DBMS）是为管理数据库而设计的电脑软件系统，一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类，例如关系式、即可扩展标记语言（Extensible MarkupLanguage，XML）；或依据所支持的计算机类型来作分类，例如服务器群集、移动电话；或依据所用查询语言来作分类，例如结构化查询语言（Structured Query Language，SQL）、XQuery；或依据性能冲量重点来作分类，例如最大规模、最高运行速度；亦或其他的分类方式。不论使用哪种分类方式，一些DBMS能够跨类别，例如，同时支持多种查询语言。

本申请实施例，还可以通过云技术实现，云技术（Cloud Technology）基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，将来每个物品都有可能存在自己的哈希编码识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

在一些实施例中，服务器200可以实施为训练服务器、翻译服务器、视频平台服务器（或者音频平台服务器）等多个服务器。

在一些实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本发明实施例中不做限制。

在一些实施例中，终端设备400可以通过运行计算机程序来实现本申请实施例提供的翻译模型的训练方法，例如，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地（Native）应用程序（APPlication，APP），即需要在操作系统中安装才能运行的程序，例如视频APP；也可以是可以嵌入至任意APP中的小程序，即只需要下载到浏览器环境中就可以运行的程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

参见图2A，图2A是本申请实施例提供的服务器的结构示意图，图2A所示的服务器200包括：至少一个处理器410、存储器450、至少一个网络接口420。服务器200中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2A中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（DSP，Digital Signal Processor），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器 410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器（ROM，Read Only Memory），易失性存储器可以是随机存取存储器（RAM，Random Access Memory）。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个（有线或无线）网络接口420到达其他电子设备，示例性的网络接口420包括：蓝牙、无线相容性认证（WiFi）、和通用串行总线（USB，Universal Serial Bus）等；

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图2A示出了存储在存储器450中的翻译模型的训练装置455，其可以是程序和插件等形式的软件，包括以下软件模块：第一数据获取模块4551、第一文本翻译模块4552、模型训练模块4553，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

参见图2B，图2B是本申请实施例提供的终端设备的结构示意图，图2B所示的终端设备400包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。终端设备400中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2B中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（DSP，Digital Signal Processor），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器550可选地包括在物理位置上远离处理器 510的一个或多个存储设备。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器（ROM，Read Only Memory），易失性存储器可以是随机存取存储器（RAM，Random Access Memory）。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个（有线或无线）网络接口520到达其他电子设备，示例性的网络接口520包括：蓝牙、无线相容性认证（WiFi）、和通用串行总线（USB，Universal Serial Bus）等；

呈现模块553，用于经由一个或多个与用户接口530相关联的输出装置531（例如，显示屏、扬声器等）使得能够呈现信息（例如，用于操作外围设备和显示内容和信息的用户接口）；

输入处理模块554，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图2B示出了存储在存储器550中的文本处理装置556，其可以是程序和插件等形式的软件，包括以下软件模块：第二数据获取模块5561、第二文本翻译模块5562，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

将结合本申请实施例提供的终端的示例性应用和实施，说明本申请实施例提供的翻译模型的训练方法。

下面，说明本申请实施例提供的翻译模型的训练方法，如前所述，实现本申请实施例的翻译模型的训练方法的电子设备可以是终端设备或者服务器，又或者是终端设备和服务器的结合。因此下文中不再重复说明各个步骤的执行主体。

需要说明的是，下文中的文本翻译的示例中，是以中文翻译为英文为例说明的，本领域技术人员根据对下文的理解，可以将本申请实施例提供的翻译模型的训练方法应用于包括其他类型语言的文本翻译处理中。

参见图3A，图3A是本申请实施例提供的翻译模型的训练方法的第一流程示意图，以服务器为执行主体，将结合图3A示出的步骤进行说明。

在步骤301中，获取第一训练集，获取第一原始文本对应的音频数据。

示例的，第一训练集包括多个第一文本对，第一文本对包括第一原始文本和第一翻译文本，且第一原始文本与第一翻译文本的情感限定一致。情感限定一致是指翻译文本与原始文本所表达的人类的情感是一致的。例如：原始文本在视频中是角色的表示惊讶的台词，翻译文本在保持了原始文本的含义的基础上，也能够表达出角色的惊讶的情感。情感的类型包括：惊讶、喜悦、愤怒等。

示例的，第一原始文本可以是音频或者视频的字幕文本。假设第一原始文本是视频的字幕，音频数据是从视频中的音频轨道提取的。

例如：原始文本是角色台词“我给他面子叫一声叔”，与原始文本的情感限定一致的翻译文本为“When I still respect him，I call him uncle”。原始文本与翻译文本均能够体现角色所表达的愤怒的情感。第一文本对可以由从网络中抓取的情感限定一致的视频字幕文本以及视频翻译字幕组成。

在一些实施例中，步骤301中的获取第一训练集，可以通过以下方式实现：获取多个候选文本对，其中，候选文本对包括候选原始文本和候选翻译文本。基于候选文本对调用语言模型进行比较，得到表征候选原始文本和候选翻译文本是否情感限定一致的比较结果，将多个情感限定一致的候选文本对作为第一文本对，以组合为第一训练集。

示例的，候选文本对中的两个文本可以是情感限定一致或者不一致的。语言模型可以是预训练语言模型（Bidirectional Encoder Representations from Transformers，BERT）或者聊天机器人模型（Chat Generative Pre-trained Transformer，CHATGPT）。

其中，情感限定一致的条件包括以下至少之一：

条件1、候选原始文本和候选翻译文本表达的情感一致。

示例的，情感的类型包括：高兴、悲伤等。调用预训练语言模型对候选原始文本和候选翻译文本进行情感分类处理，得到候选原始文本和候选翻译文本分别属于的情感类型，将情感类型一致的候选原始文本和候选翻译文本加入第一训练集。

条件2、候选原始文本和候选翻译文本的语句结构一致。

语句结构是指文本中每个不同类型词汇的排序组合方式。例如：汉语句子的语句结构为（定语）主语+（状语）谓语+（补语或定语）+宾语。调用聊天机器人模型确定候选原始文本和候选翻译文本分别对应的语句结构，将语句结构一致的候选文本加入第一训练集。

条件3、候选原始文本和候选翻译文本的节奏一致。

以中文为例，中文句子的节奏主要可以分为三种类型：均匀节奏、不均匀节奏和跳动节奏。调用聊天机器人模型确定候选原始文本和候选翻译文本分别对应的发音的音节序列，将音节序列属于同一节奏类型的候选文本对作为节奏一致的候选文本对，并将节奏一致的候选文本对加入第一训练集。

在一些实施例中，可以获取通过人工筛选的方式从多个候选文本对中筛选出情感限定一致的第一文本对。

本申请实施例中，通过获取情感限定一致的第一文本对生成第一训练集，使得训练得到的翻译模型能够具有使预测得到的翻译文本与原始文本的情感表达一致的功能，提升翻译模型进行文本翻译的准确性，情感一致的翻译文本能够使得用户更容易理解原始文本的含义。

在步骤302中，从第一原始文本对应的音频数据提取第一音频特征。

示例的，将音频数据划分为多个音频帧进行特征提取，将每个音频帧的音频特征组合为第一原始文本对应的音频数据的第一音频特征。

在一些实施例中，参考图3B，图3B是本申请实施例提供的翻译模型的训练方法的第二流程示意图；步骤302可以通过图3B中的步骤3021至步骤3024实现，以下具体说明。

在步骤3021中，从音频数据提取多个音频帧，针对每个音频帧执行以下处理：对音频帧进行傅里叶变换，得到音频帧的多个频谱图。

示例的，每个音频帧对应的时长可以是相同的，假设音频数据为wav音频文件，音频数据可能存在多个声道（例如：左声道和右声道），将音频重采样为16kHz单声道音频。使用25ms的汉宁（Hanning）时窗函数、10ms的帧移对每个音频帧进行采样，并将每个采样结果进行短时傅里叶变换得到频谱图。每个频谱图分别对应不同的频带。

在步骤3022中，将音频帧的多个频谱图分别映射为多个梅尔频谱特征。

示例的，可以通过梅尔频谱滤波器组将多个频谱图分别映射为多个梅尔频谱特征。

在步骤3023中，将多个梅尔频谱特征组合为音频帧的音频特征。

示例的，根据多个梅尔频谱特征分别对应的频带的顺序进行组合，得到音频帧的音频特征。

在步骤3024中，将多个音频帧的音频特征连接为音频数据的第一音频特征。

示例的，将每个音频帧的音频特征按照音频帧在音频数据中的播放时间的先后顺序依次进行连接，得到音频数据的第一音频特征。

在一些实施例中，步骤3021至步骤3024可以通过VGGish模型实现。VGGish模型可以用于从音频波形中提取具有语义的128维嵌入（embedding）特征向量。

继续参考图3A，在步骤303中，获取第一原始文本的第一文本特征。

示例的，文本特征可以通过依次执行编码处理以及嵌入处理得到。

在一些实施例中，步骤303可以通过以下方式实现：对第一原始文本进行标记化处理，得到标记序列，其中，标记序列包括多个标记。对标记序列中每个标记进行嵌入处理，得到对应的嵌入向量。将每个标记对应的嵌入向量连接为第一原始文本的第一文本特征。

示例的，标记化处理可以通过字节对编码（BPE，Byte Pair Encoder）方式，又称双字母组合编码（digram coding），是一种数据压缩算法，用来在固定大小的词表中实现可变长度的子词，标记可以是区别于原始文本中的字符类型的字符，例如：文本中的字符为汉字，标记为数字。将词分成单个字符，然后依次用另一个字符替换频率最高的一对字符，直到循环次数结束。

示例的，嵌入向量可以是字符级别的（一个字符对应一个嵌入向量），也可以是词级别的（一个词对应一个嵌入向量，一个词包括至少一个字符）。将嵌入向量根据对应的字符或者词在文本中的位置依次连接，得到第一原始文本的第一文本特征。

在步骤304中，基于第一原始文本的第一文本特征和第一音频特征调用翻译模型进行文本翻译处理，得到第一预测文本。

示例的，文本对应的音频与文本具有相同的情感表达，基于音频特征以及文本特征进行文本翻译处理，可以提升翻译得到的预测文本与原始文本之间的情感表达的相似度。

在一些实施例中，翻译模型包括第一编码器和解码器。翻译模型可以是翻译模型可以是序列至序列模型（Seq2Seq）、转换器模型（Transformer）。参考图3C，图3C是本申请实施例提供的翻译模型的训练方法的第三流程示意图；图3A中的步骤304可以通过图3C中的步骤3041至步骤3043实现，以下具体说明。

在步骤3041中，基于第一原始文本的第一文本特征和第一音频特征调用第一编码器进行编码处理，得到中间特征向量。

参考图5A，图5A是本申请实施例提供的翻译模型的结构示意图，翻译模型503A包括第一编码器501A以及解码器502A。第一编码器501A用于将第一原始文本的第一文本特征和第一音频特征融合，得到中间特征向量。融合方式例如：字符对应的音频特征是字符发音的时间段的音频数据的音频特征，对第一音频特征中每个字符分别对应的音频特征进行归一化处理，得到第一原始文本中每个字符分别对应的权重值，将每个字符分别对应的权重值与第一文本特征中每个字符分别对应的嵌入向量关联，得到中间特征向量。

在步骤3042中，在解码器的每个时间步执行以下处理：基于中间特征向量、当前时间步之前的时间步预测输出的字符，调用解码器进行解码处理，得到当前时间步预测输出的字符。

假设：解码器的时间步上限为N，则解码器的解码处理直至解码到第N个时间步为止。当前时间步为第i个时间步，获取第1至第i-1个时间步分别输出的字符，基于中间特征向量、第1至第i-1个时间步分别输出的字符调用解码器进行解码处理，得到第i个时间步输出的字符。

在步骤3043中，将每个时间步预测输出的字符组合为第一预测文本。

示例的，将将每个时间步预测输出的字符按照时间步的先后时间顺序组合为第一预测文本。

本申请实施例中，原始文本的音频能够体现原始文本的情感，基于音频特征和原始文本的文本特征进行翻译文本的预测处理，提升了原始文本与翻译得到的文本的情感一致性。

继续参考图3A，在步骤305中，基于第一预测文本和第一翻译文本确定翻译模型的第一预测损失。

示例的，第一预测损失可以是负对数似然损失（Negative Log-Likelihood Loss，NLL loss），负对数似然损失的计算公式可以表征为：NLL（P（y|x），Y）=-logP（y|x）。其中，P（y|x）是翻译模型的预测文本，x是原始文本，Y是原始文本对应的翻译文本。

在步骤306中，基于第一预测损失更新翻译模型的参数。

示例的，基于负对数似然损失对翻译模型进行梯度计算，通过反向传播处理的方式更新翻译模型的参数。

在一些实施例中，在步骤306之前，通过以下方式预训练翻译模型：获取第二训练集。获取第二原始文本的第二文本特征。基于第二原始文本的第二文本特征调用翻译模型进行文本翻译处理，得到第二预测文本。基于第二预测文本和第二翻译文本确定翻译模型的第二预测损失。基于第二预测损失更新翻译模型的参数。

示例的，第二训练集包括多个第二文本对，第二文本对包括第二原始文本和第二翻译文本。第二训练集与第一训练集可以完全不同、交叉、完全相同。第二文本对中的原始文本与翻译文本所表征的含义相同，但所表征的情感可以不一致或者一致。第二预测损失可以是负对数似然损失（Negative Log-Likelihood Loss，NLL loss），基于负对数似然损失对模型进行梯度计算，并更新模型参数，得到预训练后的翻译模型。

本申请实施例中，通过预训练使翻译模型具备将待翻译文本翻译为目标语言的基础功能，能够提升训练翻译模型的效果，使得翻译模型能够更准确地对原始文本进行翻译。

在一些实施例中，参考图3D，图3D是本申请实施例提供的翻译模型的训练方法的第四流程示意图；在图3A的步骤306之后，执行图3D中的步骤307至步骤312，以下具体说明。

在步骤307中，获取待翻译文本以及对应的音频数据。

示例的，应用在实时翻译场景中，待翻译文本可以是用户通过语音输入终端设备的文本，音频数据是用户输入的语音对应的音频；应用在视频在线字幕翻译的场景中，待翻译文本可以是服务器从视频数据库中调取的没有目标语音字幕的视频文件，音频数据是从视频文件的音轨中提取的。

在步骤308中，基于待翻译文本调用更新后的翻译模型进行文本翻译处理，得到多个第二预测文本。

示例的，步骤308的原理可以参考上文中的步骤304。翻译模型基于待翻译文本可以输出到多个不同的预测文本。

在一些实施例中，步骤308可以通过以下方式实现：从待翻译文本的音频数据提取第二音频特征。获取待翻译文本的第四文本特征。基于第四文本特征和第二音频特征调用更新后的翻译模型进行文本翻译处理，得到多个第二预测文本。获取待翻译文本的第四文本特征的原理参考上文中的步骤303。

在步骤309中，从待翻译文本对应的音频数据提取第二音频特征。

示例的，步骤309的原理可以参考上文中的步骤302，此处不再赘述。

在步骤310中，针对每个第二预测文本执行以下处理：获取第二预测文本的第三文本特征。

示例的，步骤310的原理可以参考上文中的步骤303，此处不再赘述。

在步骤311中，基于第二预测文本的第三文本特征、第二音频特征和待翻译文本的第四文本特征调用情感预测模型进行比对处理，确定第二预测文本与待翻译文本的情感限定一致的概率。

示例的，情感预测模型包括：第二编码器（Encoder）、至少一个前馈神经网络和分类器。参考图5B，图5B是本申请实施例提供的情感预测模型的结构示意图；情感预测模型503B包括第二编码器501B、前馈神经网络502B以及分类器504B。

参考图3E，图3E是本申请实施例提供的翻译模型的训练方法的第五流程示意图；图3D的步骤311可以通过图3E中的步骤3111至步骤3113实现，以下具体说明。

在步骤3111中，基于第二预测文本的第三文本特征、第二音频特征和待翻译文本的第四文本特征调用第二编码器进行编码处理，得到编码结果。

示例的，编码处理可以通过以下方式实现：将第二预测文本的第三文本特征、第二音频特征和待翻译文本的第四文本特征组合为特征向量矩阵，对特征向量矩阵进行降维处理，得到向量形式的编码结果。

在步骤3112中，基于编码结果调用至少一个前馈神经网络依次进行线性变换处理，得到线性变换结果。

示例的，当前馈神经网络为多个时，除第一个前馈神经网络之外的每个前馈神经网络的输入是前一个前馈神经网络的输出。前馈神经网络的各神经元分层排列，每个神经元只与前一层的神经元相连。接收前一层的输出，并输出给下一层，各层间没有反馈。至少一个前馈神经网络对编码结果进行线性分类，得到编码结果中每个子特征分别对应的分类结果，将每个子特征分别对应的分类结果依次组合，得到线性变换结果。

在步骤3113中，基于线性变换结果调用分类器进行分类处理，得到第二预测文本与待翻译文本的情感限定一致的概率。

示例的，第二预测文本与待翻译文本的分类的类型包括：情感一致以及情感不一致。分类器模型用于预测第二预测文本与待翻译文本属于每种分类类型的概率。

继续参考图3D，在步骤312中，将最大概率的第二预测文本作为与待翻译文本的情感限定一致的翻译文本。

示例的，将第二预测文本分别对应的与待翻译文本的情感限定一致的概率进行降序排序，降序排序中首位的第二预测文本就是最大概率的第二预测文本，将最大概率的第二预测文本作为最终的翻译结果。

本申请实施例中，通过预测第二预测文本分别对应的与待翻译文本的情感限定一致的概率，并选取概率最大的第二预测文本作为翻译结果，提升了翻译文本的准确性。

在一些实施例中，步骤307至步骤312的执行主体可以是终端设备，或者服务器。

在一些实施例中，本申请实施例还提出一种文本处理方法，参见图4，图4是本申请实施例提供的文本处理方法的流程示意图，以图1中的终端设备400作为执行主体为例进行说明，将结合图4示出的步骤进行说明。

在步骤401中，获取待翻译文本以及对应的音频数据。

示例的，待翻译文本以及对应的音频数据可以是用户输入到终端设备400中的，例如：获取待翻译文本的方式可以是用户打字输入，获取音频数据的方式可以是用户语音输入。再例如：用户将终端设备中存储的文本文件以及对应的音频数据文件作为待翻译文本和对应的音频数据。

在步骤402中，基于待翻译文本进行文本翻译处理，得到多个第二预测文本。

示例的，基于待翻译文本以及对应的音频数据调用翻译模型执行以下步骤402至步骤407的处理，翻译模型是根据本申请实施例的翻译模型的训练方法训练得到的，训练完成的翻译模型存储在终端设备400中。

在步骤403中，获取待翻译文本的文本特征。

在步骤404中，从待翻译文本对应的音频数据提取第二音频特征。

在步骤405中，针对每个第二预测文本执行以下处理：获取第二预测文本的文本特征。

在步骤406中，基于第二预测文本的文本特征、第二音频特征和待翻译文本的文本特征，确定第二预测文本与待翻译文本的情感限定一致的概率。

在步骤407中，将最大概率的第二预测文本作为与待翻译文本的情感限定一致的翻译文本。

示例的，步骤401至步骤407的原理可以参考上文中的步骤307至步骤312，此处不再赘述。

在一些实施例中，图4所示的步骤401至步骤407的执行主体可以是服务器，服务器通过以下方式获取数据：终端设备400上传待翻译文本以及对应的音频数据至服务器，或者服务器从数据库读取待翻译文本以及对应的音频数据。服务器执行文本处理方法，并将翻译文本发送至终端设备，以供用户观看待翻译文本以及对应的翻译文本。

本申请实施例获取翻译文本与原始文本的情感表达一致的文本对作为训练数据，使得训练后的翻译模型能够具备使翻译结果与原始文本的情感表达一致的功能，提升了翻译模型进行文本翻译的准确性。原始文本的音频能够体现原始文本的情感，融入原始文本的音频模态的特征，并基于音频特征和原始文本的文本特征进行翻译文本的预测处理，提升了原始文本与翻译得到的文本的情感一致性，提升了翻译结果的情感表达的准确性。

下面，将说明本申请实施例翻译模型的训练方法在一个实际的应用场景中的示例性应用。

随着国际化业务越来越广泛，视频的字幕/配音需要在中文、英文等国际化语言进行翻译，以满足不同国家或者地区用户的观看需求，需要对原语言类型字幕进行翻译，翻译到观看用户适配的语言类型，便于用户更好的理解视频内容。视频字幕能够用于体现剧情、人物特点，人物所说的台词能够体现人物的情感等内容，因此，在翻译字幕时候要考虑原始字幕的情感，翻译到目标语言类型后需要保持情感，才能更加保持视频的“原汁原味”的看点，否则翻译结果与视频内容表达的情感无法对齐，影响用户的观看效果。例如：中文字幕的文本为“我给他面子叫一声叔”，机器直译为“if I give him face，call him uncle”，翻译得到的英文的文本不属于使用英文的观众的常用语，观众难以理解，观感差。经字幕翻译情感优化后，得到翻译结果为“When I still respect him， I call him uncle”，翻译结果与原始文本所表达的情感更加融洽，观众易于理解。

相关技术中，通过翻译模型可以对字幕从一种语言类型翻译到另外一个语言类型，但未考虑情感保持。通过在超大规模的文本数据上进行预训练，并在通用任务上进行指令监督训练，并通过强化学习等提升对齐能力。超大规模语言模型可实现对翻译结果进行风格等校验，但超大规模模型成本较高，且没有内部模型灵活可控。

相关技术均考虑到视频字幕所表达的情感，虽然翻译结果保留了原字幕的含义，但翻译结果与原有字幕在韵律、情绪表达、表述结构等情感方面存在较大差异，影响了翻译目标语言类型用户的观看体验。本申请实施例为了提升视频字幕翻译结果的情感保持，在视频字幕翻译模型中同试引入对情感表达关键的音频、字幕文本特征，并通过借助超大规模通用任务语言模型半自动化构建情感保持型字幕翻译监督数据，对视频字幕翻译模型进行监督调整，配合情感一致性判定模型，极大地提升了视频字幕翻译结果与视频、原始字幕的情感等一致性，提升不同语言类型一致的观影体验。本申请实施例通过多模态训练，将视频的音频、字幕文本进行联合建模理解，同时经过大规模翻译预训练、情感保持型监督训练，并结合情感一致性判定，提升视频字幕翻译的情感保持，增强视频的不同观众的观看体验。

参考图6，图6是本申请实施例提供的翻译模型的训练方法的一个可选的流程示意图，以服务器作为执行主体为例进行说明，对图6的步骤进行解释说明。

在步骤601中，对翻译模型进行预训练，得到预训练后的翻译模型。

示例的，预训练用于使翻译模型具备将原始语言类型的文本翻译为目标语言类型的文本的功能。以下以翻译模型所翻译的文本是视频的字幕为例进行说明，预训练阶段可以使用开源的文本翻译数据和视频字幕文本数据，开源的文本翻译数据可以是已有的视频网站或者百科网站的中英对数据，视频字幕文本包括已翻译好的中英字幕对数据。每个样本对包括一个原始文本以及一个翻译后的文本。

参考图7A，图7A是本申请实施例提供的预训练的原理图；对视频原始字幕文本进行文本标记化（tokenization），也即，文本分词。分词是自然语言处理的基础任务，按照特定需求能把文本中的句子、段落切分成一个字符串序列（其中的元素通常称为token 或叫词语）方便后续的处理分析工作。本申请实施例中采用字节对编码方式进行文本标记化，得到标记化的词1至词m（m为正整数），并通过查询标记化的每个词的词嵌入向量，将词嵌入向量输入转换器模型（Transformer）的解码器701A中进行解码处理，得到目标语言类型字幕的各个子词（词1至词n，n为正整数），将每个子词按照目标语言类型的语法的顺序组合为预测得到的翻译文本。

将预测得到的翻译文本与训练数据中原始字幕对应的目标语言类型字幕进行差异比对，计算出负对数似然损失（Negative Log-Likelihood Loss，NLL loss），基于负对数似然损失对模型进行梯度计算，并更新模型参数，得到预训练后的翻译模型。

本申请实施例中，预训练过程通过在大量翻译对数据上进行多轮的预训练，将字幕翻译模型收敛到一个比较好的翻译状态，预训练能够提升翻译的基础质量。

在步骤602中，基于音频数据以及原始文本，对预训练后的翻译模型进行多模态训练，得到训练完成的翻译模型。

示例的，多模型训练是指基于音频数据和原始文本预测翻译文本，并基于预测得到的翻译文本与训练数据中原始字幕对应的目标语言类型字幕之间的差异确定模型损失的训练。视频字幕的情感一般在字幕文本、对应的配音音频中体现，通过融入音频数据的特征，能够提升翻译字幕的情感与原始字幕的情感的一致性。

参考图7B，图7B是本申请实施例提供的多模态训练的原理图。

视频音频是从字幕文本对应的视频中分离出的音轨的数据所形成音频数据，将音频数据根据预设时长划分为多个音频帧数据，针对每个音频帧数据进行傅立叶变换，提取每个音频帧数据的傅里叶变换结果的梅尔频谱图，将每个音频帧的梅尔频谱图作为VGGish模型的输入，得到音频数据的音频帧向量。

获取视频原始字幕文本的词嵌入向量的过程可以参考上文的步骤601，将视频原始字幕文本的词嵌入向量、音频数据的音频帧向量均输入转换器模型的解码器701B进行解码处理，得到翻译后的文本。转换器模型的解码器701B是训练后的图7A中的转换器模型的解码器701A，也即预训练后的翻译模型。

步骤602中所使用的训练数据中，作为训练样本的原始字幕与翻译文本的情感限定一致、音调一致。使用这样的训练数据对步骤601训练得到的翻译模型进行训练后，翻译模型的输出与原始视频字幕的情感更加相似。

训练数据中的情感一致的字幕翻译文本，通过对原有的未考虑情感保持的翻译结果进行修正来获取，本申请实施例通过解决通用任务的超大规模语言模型来实现，如通过“gpt-3.5-turbo”对原有未考虑情感保持的翻译结果进行自动修正，指令提示词（prompt）可以为：

Movie caption: {视频字幕}

Its Original translation: {原有翻译}

通过上述方式自动对训练数据中原有字幕进行了情感一致性修正，然后经过一定的人工校验，只保留修正后的正确的文本作为训练数据。将上述经过确认的超大规模语言模型的输出文本作为情感保持型字幕翻译结果，用于对预训练的翻译模型监督训练，得到训练完成的翻译模型。

在步骤603中，基于待翻译文本调用翻译模型进行文本翻译处理，得到多个翻译文本，从多个翻译文本中选取与原始文本情感一致性最高的作为翻译结果。

示例的，翻译模型进行文本翻译处理的过程中，能够输出多个翻译文本，可以通过从其中选取与原始文本情感一致性较高的文本提升翻译的准确性。

参考图7C，图7C是本申请实施例提供的情感一致性检测的原理图。获取视频原始字幕文本的词嵌入向量的过程可以参考上文的步骤601，获取视频的音频数据的音频帧向量的原理参考上文的步骤602，此处不再赘述。

针对翻译模型输出的多个视频翻译字幕文本分别进行以下处理：对视频翻译字幕文本进行文本标记化（tokenization），可以采用字节对编码方式进行文本标记化，得到标记化的词1至词m（m为正整数），并通过查询标记化的每个词的词嵌入向量，得到视频翻译字幕文本的词嵌入向量。

将视频翻译字幕文本的词嵌入向量、视频原始字幕文本的词嵌入向量、音频数据的音频帧向量输入转换器模型的编码器701C中进行编码处理，得到编码结果，将编码结果输入到多个深度前馈神经网络702C（图7C中以两个深度前馈神经网络702C为例进行说明，每个深度前馈神经网络702C的结构相同、作用相同）连接成的网络中，并调用分类器703C对深度前馈神经网络702C最终的输出结果进行分类处理，得到视频翻译字幕文本与视频原始字幕文本的情感一致的概率。对每个视频翻译字幕文本所对应的情感一致的概率进行降序排序，将概率最高的作为最优的翻译结果。

本申请实施例提供的翻译模型的训练方法，具有以下效果：从翻译数据修正构建、模型训练、翻译结果情感一致性优选等方面综合进行优化，进一步提升了视频字幕翻译结果与视频、原始字幕的情感等一致性，使得字幕翻译更加贴合视频的情节、人物形象特点，提升不同语言类型一致的观影体验。通过增强观众的观影体验，提升视频软件的用户留存率。

下面继续说明本申请实施例提供的翻译模型的训练装置455的实施为软件模块的示例性结构，在一些实施例中，如图2A所示，存储在存储器450的翻译模型的训练装置455中的软件模块可以包括：第一数据获取模块4551，配置为获取第一训练集，其中，所述第一训练集包括多个第一文本对，其中，所述第一文本对包括第一原始文本和第一翻译文本，且所述第一原始文本与所述第一翻译文本的情感限定一致；第一文本翻译模块4552，配置为获取所述第一原始文本对应的音频数据，从所述第一原始文本对应的音频数据提取第一音频特征；所述第一文本翻译模块4552，配置为获取所述第一原始文本的第一文本特征；所述第一文本翻译模块4552，配置为基于所述第一原始文本的第一文本特征和所述第一音频特征调用所述翻译模型进行文本翻译处理，得到第一预测文本；模型训练模块4553，配置为基于所述第一预测文本和所述第一翻译文本确定所述翻译模型的第一预测损失；所述模型训练模块，配置为基于所述第一预测损失更新所述翻译模型的参数。

在一些实施例中，模型训练模块4553，配置为在所述基于所述第一预测损失更新所述翻译模型的参数之前，通过以下方式预训练所述翻译模型：

获取第二训练集，其中，所述第二训练集包括多个第二文本对，所述第二文本对包括第二原始文本和第二翻译文本；获取所述第二原始文本的第二文本特征；基于所述第二原始文本的第二文本特征调用所述翻译模型进行文本翻译处理，得到第二预测文本；基于所述第二预测文本和所述第二翻译文本确定所述翻译模型的第二预测损失；基于所述第二预测损失更新所述翻译模型的参数。

在一些实施例中，第一数据获取模块4551，配置为获取多个候选文本对，其中，所述候选文本对包括候选原始文本和候选翻译文本；基于所述候选文本对调用语言模型进行比较，得到表征所述候选原始文本和所述候选翻译文本是否情感限定一致的比较结果，其中，所述情感限定一致的条件包括以下至少之一：所述候选原始文本和所述候选翻译文本表达的情感一致，所述候选原始文本和所述候选翻译文本的语句结构一致，所述候选原始文本和所述候选翻译文本的节奏一致；将多个情感限定一致的候选文本对作为所述第一文本对，以组合为所述第一训练集。

在一些实施例中，所述第一文本翻译模块4552，配置为从所述音频数据提取多个音频帧，针对每个所述音频帧执行以下处理：

对所述音频帧进行傅里叶变换，得到所述音频帧的多个频谱图；将所述音频帧的多个频谱图分别映射为多个梅尔频谱特征；将多个梅尔频谱特征组合为所述音频帧的音频特征；将所述多个音频帧的音频特征连接为所述音频数据的第一音频特征。

在一些实施例中，所述第一文本翻译模块4552，配置为对所述第一原始文本进行标记化处理，得到标记序列，其中，所述标记序列包括多个标记；对所述标记序列中每个标记进行嵌入处理，得到对应的嵌入向量；将所述每个标记对应的嵌入向量连接为所述第一原始文本的第一文本特征。

在一些实施例中，所述第一原始文本是视频的字幕，所述音频数据是从所述视频中的音频轨道提取的。

在一些实施例中，所述翻译模型包括第一编码器和解码器；所述第一文本翻译模块4552，配置为基于所述第一原始文本的第一文本特征和所述第一音频特征调用所述第一编码器进行编码处理，得到中间特征向量；在所述解码器的每个时间步执行以下处理：基于所述中间特征向量、当前时间步之前的时间步预测输出的字符，调用所述解码器进行解码处理，得到当前时间步预测输出的字符；将每个时间步预测输出的字符组合为第一预测文本。

在一些实施例中，所述第一文本翻译模块4552，配置为在所述基于所述第一预测损失更新所述翻译模型的参数之后，获取待翻译文本以及对应的音频数据；基于所述待翻译文本调用更新后的所述翻译模型进行文本翻译处理，得到多个第二预测文本；从所述待翻译文本对应的音频数据提取第二音频特征；针对每个所述第二预测文本执行以下处理：获取所述第二预测文本的第三文本特征，以及基于所述第二预测文本的第三文本特征、第二音频特征和所述待翻译文本的第四文本特征调用情感预测模型进行比对处理，确定所述第二预测文本与所述待翻译文本的情感限定一致的概率；将最大概率的所述第二预测文本作为与待翻译文本的情感限定一致的翻译文本。

在一些实施例中，所述情感预测模型包括：第二编码器、至少一个前馈神经网络和分类器；所述第一文本翻译模块4552，配置为基于所述第二预测文本的第三文本特征、第二音频特征和所述待翻译文本的第四文本特征调用所述第二编码器进行编码处理，得到编码结果；基于所述编码结果调用所述至少一个前馈神经网络依次进行线性变换处理，得到线性变换结果，其中，当所述前馈神经网络为多个时，除第一个前馈神经网络之外的每个所述前馈神经网络的输入是前一个前馈神经网络的输出；基于所述线性变换结果调用所述分类器进行分类处理，得到所述第二预测文本与所述待翻译文本的情感限定一致的概率。

在一些实施例中，所述第一文本翻译模块4552，配置为从所述待翻译文本的音频数据提取第二音频特征；获取所述待翻译文本的第四文本特征；基于所述第四文本特征和所述第二音频特征调用更新后的所述翻译模型进行文本翻译处理，得到多个第二预测文本。

在一些实施例中，如图2B所示，存储在存储器550的文本处理装置556中的软件模块可以包括：第二数据获取模块5561，配置为获取待翻译文本以及对应的音频数据；第二文本翻译模块5562，配置为对所述待翻译文本进行文本翻译处理，得到多个第二预测文本；所述第二文本翻译模块5562，配置为获取所述待翻译文本的文本特征；所述第二文本翻译模块5562，配置为从所述待翻译文本对应的音频数据提取第二音频特征；针对每个所述第二预测文本执行以下处理：获取所述第二预测文本的文本特征，以及基于所述第二预测文本的文本特征、第二音频特征和所述待翻译文本的文本特征，确定所述第二预测文本与所述待翻译文本的情感限定一致的概率；将最大概率的所述第二预测文本作为与待翻译文本的情感限定一致的翻译文本。

本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序或计算机可执行指令，该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机程序或计算机可执行指令，处理器执行该计算机程序或计算机可执行指令，使得该电子设备执行本申请实施例上述的翻译模型的训练方法、或者文本处理方法。

本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质，其中存储有计算机可执行指令或者计算机程序，当计算机可执行指令或者计算机程序被处理器执行时，将引起处理器执行本申请实施例提供的翻译模型的训练方法或者本申请实施例提供的文本处理方法，例如，如图3A示出的翻译模型的训练方法或者图4示出的文本处理方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言（包括编译或解释语言，或者声明性或过程性语言）来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，计算机可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言（HTML，HyperText Markup Language）文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件（例如，存储一个或多个模块、子程序或代码部分的文件）中。

作为示例，可执行指令可被部署为在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行。

综上所述，通过本申请实施例获取翻译文本与原始文本的情感表达一致的文本对作为训练数据，使得训练后的翻译模型能够具备使翻译结果与原始文本的情感表达一致的功能，提升了翻译模型进行文本翻译的准确性。原始文本的音频能够体现原始文本的情感，融入原始文本的音频模态的特征，并基于音频特征和原始文本的文本特征进行翻译文本的预测处理，提升了原始文本与翻译得到的文本的情感一致性，提升了翻译结果的情感表达的准确性。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种翻译模型的训练方法，其特征在于，所述方法包括：

获取所述第一原始文本的第一文本特征；

基于所述第一预测损失更新所述翻译模型的参数。

2.根据权利要求1所述的方法，其特征在于，在所述基于所述第一预测损失更新所述翻译模型的参数之前，所述方法还包括：

通过以下方式预训练所述翻译模型：

获取第二训练集，其中，所述第二训练集包括多个第二文本对，所述第二文本对包括第二原始文本和第二翻译文本；

获取所述第二原始文本的第二文本特征；

基于所述第二原始文本的第二文本特征调用所述翻译模型进行文本翻译处理，得到第二预测文本；

基于所述第二预测文本和所述第二翻译文本确定所述翻译模型的第二预测损失；

基于所述第二预测损失更新所述翻译模型的参数。

3.根据权利要求1所述的方法，其特征在于，所述获取第一训练集，包括：

获取多个候选文本对，其中，所述候选文本对包括候选原始文本和候选翻译文本；

基于所述候选文本对调用语言模型进行比较，得到表征所述候选原始文本和所述候选翻译文本是否情感限定一致的比较结果，其中，所述情感限定一致的条件包括以下至少之一：所述候选原始文本和所述候选翻译文本表达的情感一致，所述候选原始文本和所述候选翻译文本的语句结构一致，所述候选原始文本和所述候选翻译文本的节奏一致；

将多个情感限定一致的候选文本对作为所述第一文本对，以组合为所述第一训练集。

4.根据权利要求1所述的方法，其特征在于，所述从所述第一原始文本对应的音频数据提取第一音频特征，包括：

从所述音频数据提取多个音频帧，针对每个所述音频帧执行以下处理：

对所述音频帧进行傅里叶变换，得到所述音频帧的多个频谱图；

将所述音频帧的多个频谱图分别映射为多个梅尔频谱特征；

将多个梅尔频谱特征组合为所述音频帧的音频特征；

将所述多个音频帧的音频特征连接为所述音频数据的第一音频特征。

5.根据权利要求1所述的方法，其特征在于，所述获取所述第一原始文本的第一文本特征，包括：

对所述第一原始文本进行标记化处理，得到标记序列，其中，所述标记序列包括多个标记；

对所述标记序列中每个标记进行嵌入处理，得到对应的嵌入向量；

将所述每个标记对应的嵌入向量连接为所述第一原始文本的第一文本特征。

6.根据权利要求5所述的方法，其特征在于，

所述第一原始文本是视频的字幕，所述音频数据是从所述视频中的音频轨道提取的。

7.根据权利要求1所述的方法，其特征在于，

所述翻译模型包括第一编码器和解码器；

所述基于所述第一原始文本的第一文本特征和所述第一音频特征调用所述翻译模型进行文本翻译处理，得到第一预测文本，包括：

基于所述第一原始文本的第一文本特征和所述第一音频特征调用所述第一编码器进行编码处理，得到中间特征向量；

在所述解码器的每个时间步执行以下处理：基于所述中间特征向量、当前时间步之前的时间步预测输出的字符，调用所述解码器进行解码处理，得到当前时间步预测输出的字符；

将每个时间步预测输出的字符组合为第一预测文本。

8.根据权利要求1至7任一项所述的方法，其特征在于，在所述基于所述第一预测损失更新所述翻译模型的参数之后，所述方法还包括：

获取待翻译文本以及对应的音频数据；

基于所述待翻译文本调用更新后的所述翻译模型进行文本翻译处理，得到多个第二预测文本；

从所述待翻译文本对应的音频数据提取第二音频特征；

针对每个所述第二预测文本执行以下处理：获取所述第二预测文本的第三文本特征，以及

基于所述第二预测文本的第三文本特征、第二音频特征和所述待翻译文本的第四文本特征调用情感预测模型进行比对处理，确定所述第二预测文本与所述待翻译文本的情感限定一致的概率；

9.根据权利要求8所述的方法，其特征在于，

所述情感预测模型包括：第二编码器、至少一个前馈神经网络和分类器；

所述基于所述第二预测文本的第三文本特征、第二音频特征和所述待翻译文本的第四文本特征调用情感预测模型进行比对处理，确定所述第二预测文本与所述待翻译文本的情感限定一致的概率，包括：

基于所述第二预测文本的第三文本特征、第二音频特征和所述待翻译文本的第四文本特征调用所述第二编码器进行编码处理，得到编码结果；

基于所述编码结果调用所述至少一个前馈神经网络依次进行线性变换处理，得到线性变换结果，其中，当所述前馈神经网络为多个时，除第一个前馈神经网络之外的每个所述前馈神经网络的输入是前一个前馈神经网络的输出；

基于所述线性变换结果调用所述分类器进行分类处理，得到所述第二预测文本与所述待翻译文本的情感限定一致的概率。

10.根据权利要求8所述的方法，其特征在于，所述基于所述待翻译文本调用更新后的所述翻译模型进行文本翻译处理，得到多个第二预测文本，包括：

从所述待翻译文本的音频数据提取第二音频特征；

获取所述待翻译文本的第四文本特征；

基于所述第四文本特征和所述第二音频特征调用更新后的所述翻译模型进行文本翻译处理，得到多个第二预测文本。

11.一种文本处理方法，其特征在于，所述方法包括：

获取待翻译文本以及对应的音频数据；

基于所述待翻译文本进行文本翻译处理，得到多个第二预测文本；

获取所述待翻译文本的文本特征；

从所述待翻译文本对应的音频数据提取第二音频特征；

针对每个所述第二预测文本执行以下处理：获取所述第二预测文本的文本特征，以及

基于所述第二预测文本的文本特征、第二音频特征和所述待翻译文本的文本特征，确定所述第二预测文本与所述待翻译文本的情感限定一致的概率；

12.一种翻译模型的训练装置，其特征在于，所述装置包括

13.一种文本处理装置，其特征在于，所述装置包括：

所述第二文本翻译模块，配置为从所述待翻译文本对应的音频数据提取第二音频特征；针对每个所述第二预测文本执行以下处理：获取所述第二预测文本的文本特征，以及

14.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储计算机可执行指令或者计算机程序；

处理器，用于执行所述存储器中存储的计算机可执行指令或者计算机程序时，实现权利要求1至10任一项所述的翻译模型的训练方法，或者权利要求11所述的文本处理方法。

15.一种计算机可读存储介质，存储有计算机可执行指令或者计算机程序，其特征在于，所述计算机可执行指令或者计算机程序被处理器执行时实现权利要求1至10任一项所述的翻译模型的训练方法，或者权利要求11所述的文本处理方法。