CN116469370A

CN116469370A - 目标语言语音合成方法和装置、电子设备、存储介质

Info

Publication number: CN116469370A
Application number: CN202310382588.0A
Authority: CN
Inventors: 张旭龙; 王健宗; 朱可欣
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-07-21

Abstract

本发明实施例提供目标语言语音合成方法和装置、电子设备、存储介质，涉及人工智能技术领域。该方法包括：将获取源语言文本，输入非自回归语言翻译模型得到目标语言翻译文本，然后进行分词、韵律预测、音素转换和语音合成得到目标语言语音数据。本实施例对输入的源语言文本进行方言的语法用词调整，将其翻译成语音相似的目标语言文本，然后进行语音合成，得到目标语言发音的语音数据。同时非自回归语言翻译模型利用并行生成解码方式，在翻译的过程中同时输出目标语言翻译文本中所有的词，在保证翻译准确性的前提下提升方言翻译速度，扩展方言翻译的应用场景。

Description

目标语言语音合成方法和装置、电子设备、存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及目标语言语音合成方法和装置、电子设备、存储介质。

背景技术

方言是各种地区的地方性语言，也是了解中国各地风俗、经济及文化所不可或缺的语言。然而部分方言与普通话之间虽然一定的关联性，但是仍有部分方言的发音、语法、用词与普通话有着较大区别。

相关技术中，部分厂商开发方言翻译软件，提供对使用者输入的普通话文字进行方言翻译，用以辅助使用者获取对应的方言语音。由于方言发音的复杂性，直接输入语义近似的普通话文本，方言翻译软件的翻译准确性较差，只能生成韵律差、不自然或者意义不通顺的方言语音数据。同时，相关技术中方言翻译软件在进行翻译时，采用自左向右的逐词输出的方式，翻译效率低。因此，如何提高方言翻译的准确性和翻译效率，成为了亟待解决的技术问题。

发明内容

本发明实施例的主要目的在于提出目标语言语音合成方法和装置、电子设备、存储介质，提高方言翻译的翻译准确性和翻译速度。

为实现上述目的，本申请实施例的第一方面提出了一种目标语言语音合成方法，包括：

获取待转换的源语言文本；

将所述源语言文本输入预先训练的非自回归语言翻译模型进行语言翻译，得到目标语言翻译文本；

对所述目标语言翻译文本进行分词，得到目标语言分词序列；

对所述目标语言分词序列进行韵律预测，得到目标语言分词韵律序列；

对所述目标语言分词韵律序列进行音素转换，得到目标语言语音音素序列；

将所述目标语言语音音素序列输入预先训练的语音合成模型进行语音合成，得到目标语言语音数据。

在一些实施例，所述非自回归语言翻译模型包括：编码器、非自回归解码器和长度预测器；所述将所述源语言文本输入非自回归语言翻译模型进行语言翻译，得到目标语言翻译文本，包括：

通过所述编码器对所述源语言文本进行特征提取，得到源语言特征序列；

通过所述长度预测器对所述源语言特征序列进行长度预测，得到所述源语言特征序列对应的预测文本长度；

基于所述预测文本长度，通过所述非自回归解码器对所述源语言特征序列进行解码处理，得到目标语言翻译文本。

在一些实施例，所述将所述源语言文本输入非自回归语言翻译模型进行语言翻译，得到目标语言翻译文本之前，还包括：训练所述非自回归语言翻译模型；

所述非自回归语言翻译模型的训练过程包括：

构建训练样本集，所述训练样本集中训练样本包括：源语言文本训练序列和目标语言文本训练序列；

将所述训练样本输入所述编码器，对所述源语言文本训练序列进行特征提取，得到源语言训练特征序列；

通过所述长度预测器对所述源语言训练特征序列进行长度预测，得到预测文本训练长度；

基于所述预测文本训练长度，通过所述非自回归解码器对所述源语言训练特征序列进行两次解码处理，得到目标语言解码文本训练序列；

根据损失函数计算所述目标语言文本训练序列和所述目标语言解码文本训练序列之间损失值；

根据所述损失值调整所述非自回归语言翻译模型的模型权重，直至达到收敛条件，得到训练好的所述非自回归语言翻译模型。

在一些实施例，所述基于所述预测文本训练长度，通过所述非自回归解码器对所述源语言训练特征序列进行两次解码处理，得到目标语言解码文本训练序列，包括：

基于所述预测文本训练长度，通过所述非自回归解码器对所述源语言训练特征序列进行第一次解码处理，得到目标语言第一解码文本序列；

根据所述目标语言第一解码文本序列与所述目标语言文本训练序列的比较信息，得到采样位置；

基于所述采样位置，用所述目标语言文本训练序列所述采样位置的目标文本替换所述源语言训练特征序列所述采样位置的源文本，得到第二次解码输入序列；

基于所述预测文本训练长度，通过所述非自回归解码器对所述第二次解码输入序列进行第二次解码处理，得到目标语言解码文本训练序列。

在一些实施例，所述损失函数为均方误差损失函数。

在一些实施例，所述将所述源语言文本输入非自回归语言翻译模型进行语言翻译，得到目标语言翻译文本之前，包括：

识别所述源语言文本中预设字符；

基于预设字符匹配库将所述源语言文本中所述预设字符替换为预设标识，得到替换后的所述源语言文本。

在一些实施例，所述将所述源语言文本输入非自回归语言翻译模型进行语言翻译，得到目标语言翻译文本之后，还包括：

获取所述目标语言翻译文本中所述预设标识；

基于预设字符匹配库将所述目标语言翻译文本中所述预设标识替换为所述预设字符，得到替换后的所述目标语言翻译文本。

为实现上述目的，本申请实施例的第二方面提供了一种目标语言语音合成装置，包括：

获取单元，用于获取待转换的源语言文本；

语言翻译单元，用于将所述源语言文本输入非自回归语言翻译模型进行语言翻译，得到目标语言翻译文本；

分词单元，用于对所述目标语言翻译文本进行分词，得到目标语言分词序列；

韵律预测单元，用于对所述目标语言分词序列进行韵律预测，得到目标语言分词韵律序列；

音素转换单元，用于对所述目标语言分词韵律序列进行音素转换，得到目标语言语音音素序列；

语音合成单元，用于将所述目标语言语音音素序列输入语音合成模型进行语音合成，得到目标语言语音数据。

为实现上述目的，本申请实施例的第三方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

为实现上述目的，本申请实施例的第四方面提出了一种存储介质，所述存储介质为计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法。

本发明实施例提出的目标语言语音合成方法和装置、电子设备、存储介质，通过获取待转换的源语言文本，将源语言文本输入非自回归语言翻译模型进行语言翻译，得到目标语言翻译文本，对目标语言翻译文本进行分词，得到目标语言分词序列，对目标语言分词序列进行韵律预测，得到目标语言分词韵律序列，对目标语言分词韵律序列进行音素转换，得到目标语言语音因素序列，将目标语言语音音素序列输入语音合成模型进行语音合成，得到目标语言语音数据。本实施例在方言翻译过程中，利用非自回归语言翻译模型对输入的普通话源语言文本进行方言的语法用词调整，将其翻译成语音相似的方言文本，然后对方言文本进行语音合成，得到方言发音的目标语言语音数据。同时，非自回归语言翻译模型利用并行生成解码方式，在翻译的过程中同时输出目标语言翻译文本中所有的词，在保证翻译准确性的前提下提升方言翻译速度，扩展方言翻译的应用场景。

附图说明

图1是本发明实施例提供的目标语言语音合成方法的流程图。

图2是本发明又一实施例提供的目标语言语音合成方法的流程图。

图3是图2中的步骤S104的流程图。

图4是图1中的步骤S120的流程图。

图5是本发明又一实施例提供的目标语言语音合成方法的步骤S111的流程图。

图6是本发明又一实施例提供的目标语言语音合成方法的步骤S131的流程图。

图7是本发明又一实施例提供的目标语言语音合成装置结构框图。

图8是本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

首先，对本发明中涉及的若干名词进行解析：

人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

注意力单元：注意力单元的研究最早出现在心理学中，当人在看到一个画面时，虽然面对的是所有大的画面，但是注意力只集中在某个点上。2014年Bahdanau等人首次将注意力单元引入机器翻译，结合注意力单元和神经网络，提升了机器翻译的正确率。随后很多研究都尝试将注意力单元与神经网络结合应用在不同任务中，并且都不同程度的取得相比传统方法更为显著的优势。

深度学习：是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。深度学习在搜索技术，数据挖掘，机器学习，机器翻译，自然语言处理，多媒体学习，语音，推荐和个性化技术，以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。

自然语言处理(Natural Language Processing,NLP)：自然语言处理，简单来说即是计算机接受用户自然语言形式的输入，并在内部通过人类所定义的算法进行加工、计算等系列操作，以模拟人类对自然语言的理解，并返回用户所期望的结果。

自回归模型(Autoregressive Translation,ART)：又称为时间序列模型，自回归模型是一种线性预测，利用前期若干时刻的随机变量的线性组合来描述以后某时刻随机变量的线性回归模型。即已知N个数据，可由模型推出第N点前面或后面的数据，所以其本质类似于插值，其目的都是为了增加有效数据，只是自回归模型是由N点递推，而插值是由两点(或少数几点)去推导多点，所以自回归模型要比插值方法效果更好。

非自回归模型(Non-Autoregressive Translation,NART)：不同于自回归模型，非自回归模型需要用已生成的词来预测下一个位置的词，非自回归模型打破了生成时的串行顺序，希望一次能够解码出整个目标句子，从而解决自回归模型带来的问题。与自回归模型相比，非自回归模型尝试同时生成一整个序列，一个简单的非自回归模型直接假设目标序列的每个词都是独立的。

Transformer模型：包括编码器和解码器。该模型的训练过程包括：获取样本，并将样本输入至Transformer模型中，通过Transformer模型的编码器对样本进行编码处理，得到样本隐藏特征向量，通过Transformer模型的解码器对样本隐藏特征向量进行解码处理，使得样本隐藏特征向量与参考词向量进行矩阵相乘，得到描述词段，通过Transformer模型的损失函数计算描述词段与参考描述词段的相似度，根据相似度对Transformer模型的损失函数进行优化，对损失函数的模型损失进行反向传播，不断地调整模型参数，直至相似度大于或者等于相似度阈值，停止对Transformer模型的优化，得到符合要求的模型。

汉语包括通用的普通话和种类繁多的方言，方言是各种地区的地方性语言，也是了解中国各地风俗、经济及文化所不可或缺的语言。然而部分方言与普通话之间虽然一定的关联性，但是仍有部分方言(如粤语或云贵地区方言)的发音、语法、用词与普通话有着较大区别。在我国国内，还存在很大基数的人仅会使用方言，不会说或者听不懂普通话，因此在日常生活中存在将普通话转化成方言语音的需求。

基于此，本发明实施例提供一种目标语言语音合成方法和装置、电子设备、存储介质，通过获取待转换的源语言文本，将源语言文本输入非自回归语言翻译模型进行语言翻译，得到目标语言翻译文本，对目标语言翻译文本进行分词，得到目标语言分词序列，对目标语言分词序列进行韵律预测，得到目标语言分词韵律序列，对目标语言分词韵律序列进行音素转换，得到目标语言语音因素序列，将目标语言语音音素序列输入语音合成模型进行语音合成，得到目标语言语音数据。本实施例在方言翻译过程中，利用非自回归语言翻译模型对输入的普通话源语言文本进行方言的语法用词调整，将其翻译成语音相似的方言文本，然后对方言文本进行语音合成，得到方言发音的目标语言语音数据。同时，非自回归语言翻译模型利用并行生成解码方式，在翻译的过程中同时输出目标语言翻译文本中所有的词，在保证翻译准确性的前提下提升方言翻译速度，扩展方言翻译的应用场景。例如应用本实施例的语音合成方法可以让不同民族的人们实现无障碍交流，有利于加强民族团结和文化交流，促进优秀民族文化的继承和发展，并且有利于扩展双语平行语料库，建立庞大的语言知识库等，具有现实的经济与应用价值。

本发明实施例提供目标语言语音合成方法和装置、电子设备、存储介质，具体通过如下实施例进行说明。

本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本发明实施例提供的目标语言语音合成方法，涉及人工智能技术领域，尤其涉及数据挖掘技术领域。本发明实施例提供的目标语言语音合成方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的计算机程序。举例来说，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(Native)应用程序(APP，Application)，即需要在操作系统中安装才能运行的程序，如支持语言合成的客户端，也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。其中，终端通过网络与服务器进行通信。该目标语言语音合成方法可以由终端或服务器执行，或由终端和服务器协同执行。

在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器；也可以是区块链系统中的服务节点，该区块链系统中的各服务节点之间形成组成点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission ControlProtocol)协议之上的应用层协议。服务器上可以安装语言合成系统的服务端，通过该服务端可以与终端进行交互，例如服务端上安装对应的软件，软件可以是实现目标语言语音合成方法的应用等，但并不局限于以上形式。终端与服务器之间可以通过蓝牙、USB(Universal Serial Bus，通用串行总线)或者网络等通讯连接方式进行连接，本实施例在此不做限制。

本发明可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

为了便于理解本申请实施例，下面首先结合具体应用场景的例子对方言翻译的概念进行简单介绍。

方言翻译是文本到语音合成的一种，属于人机语音通信的一种应用场景，利用文本到语音合成技术进行方言翻译可以根据输入的普通话文本生成对应的方言语音，从而使用者(如方言使用倾向者)可以通过听觉方便地获得这些信息。

在一应用场景中：用户需要获得目标句子的粤语发音，则可以通过输入或者终端屏幕划线选取的方式获得该目标句子的普通话文本，然后本公开实施例的语音合成方法，将这个普通话文本转化从粤语相应发音的粤语文本，然后对该粤语文本进行语音合成处理，得到目标句子的粤语语音数据。

输入：目标句子的普通话文本；

输出：转换为目标句子对应的粤语语音数据。

下面首先描述本发明实施例中的目标语言语音合成方法。

图1是本发明实施例提供的目标语言语音合成方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤S110至步骤S160。同时可以理解的是，本实施例对图1中步骤S110至步骤S160的顺序不做具体限定，可以根据实际需求调整步骤顺序或者减少、增加某些步骤。

步骤S110：获取待转换的源语言文本。

在一实施例中，对获取待转换的源语言文本的方式不加以限定，示例性地，源语言文本可以通过计算机设备的输入界面实时采集得到。示例性地，源语言文本可以由计算机设备对当前屏幕上显示的文字进行划线方式选取得到。示例性地，源语音文本可以由计算机设备从文本数据库中提取得到。示例性地，源语音文本可以由计算机设备从网络上爬取得到等。

在一实施例中，待转换的源语言文本是汉语文本，本实施例的目的是将汉语文本翻译成目标方言的语音数据。

步骤S120：将源语言文本输入非自回归语言翻译模型进行语言翻译，得到目标语言翻译文本。

在一实施例中，考虑到部分方言发音之间存在较大差异，不能得到一些通用的发音特征，因此在方言翻译中针对每一类方言均训练得到一个非自回归语言翻译模型。得到源语言文本后，根据方言翻译的需求选定目标方言，选取对应于目标方言的非自回归语言翻译模型进行语言翻译，得到目标方言对应的目标语言翻译文本。

由于本申请的目标语言语音合成方法首先将源语言文本进行语言翻译得到目标语言翻译文本，然后再对目标语言翻译文本进行语音合成，因此对非自回归语言翻译模型的推理速度要求较高。在一实施例中，在非自回归语言翻译模型中利用并行编码的方式提高推理速度。

在一实施例中，在使用非自回归语言翻译模型进行语言翻译之前，需要训练非自回归语言翻译模型，即对非自回归语言翻译模型利用训练样本进行训练，以得到比较优化的模型权重参数。

在一实施例中，参照图2，是一实施例示出的训练非自回归语言翻译模型的一种具体实现流程图，在本实施例中，包括步骤S101至步骤S106：

步骤S101，构建训练样本集。

在一实施例中，由于本实施例中非自回归语言翻译模型是一种非自回归模型，其不同于自回归模型，非自回归模型需要用已生成的词来预测下一个位置的词，非自回归模型打破了生成时的串行顺序，与自回归模型相比，非自回归模型尝试同时生成整个序列。因此训练样本集中训练样本不仅包括源语言文本训练序列还包括对应的目标语言文本训练序列。

在一实施例中，源语言文本训练序列为汉语文本序列，目标语言文本训练序列是目标方言对应的方言文本序列。可以使用公开的可免费下载使用的汉语方言双语平行语料数据集作为训练样本集，或者通过对大量平行语料数据进行采集与校对得到训练样本集。本实施例对训练样本集的获取方式不做限制。

步骤S102，将训练样本输入编码器，对源语言文本训练序列进行特征提取，得到源语言训练特征序列。

在一实施例中，编码器为多头注意力Transformer编码器，该实施例中编码器进行特征提取的过程分为两个部分，分别是：

1)获取源语言文本训练序列的文本嵌入和位置嵌入。

在一实施例中，文本嵌入完成源语言文本训练序列到源语言文本训练向量的转化过程，该步骤是将源语言文本训练序列转化成计算机能够用于计算的数据格式。在一实施例中，文本嵌入采用Word2Vec方式实现，得到的源语言文本训练向量以矩阵形式表示。

在一实施例中，位置嵌入即对源语言文本训练序列中元素的位置信息进行编码。例如可以通过绝对坐标编码的方式实现，或者通过sin-cos规则进行线性变换得到，本实施例对位置嵌入的具体过程不做限定。

在一实施例中，将文本嵌入和位置嵌入拼接得到特征嵌入信息。

2)进行注意力选取，得到注意力矩阵。

在一实施例中，首先对特征嵌入信息进行线性映射，分配三个不同的注意力权重，根据特征嵌入信息得到三个注意力权重矩阵。其中注意力权重包括：查询信息Q、键K和值V，其中查询信息Q、键K和值V都是向量，例如查询信息Q可以是输入的特征嵌入信息，注意力计算单元就是将查询信息Q和键K-值V的集合映射成一个注意力特征向量，而多个注意力计算单元包括不同的注意力权重序列，能够得到不同的注意力特征向量。

在一实施例中，注意力权重可以通过学习过程得到，特征嵌入信息对应多组不同的注意力权重序列，注意力选取的计算过程表示为：

其中，d_k表示查询信息Q的维度，可以是特征嵌入信息的维度，Softmax()表示Softmax函数。

在一实施例中，注意力权重矩阵分别表示为：

X_Q＝Q·X_embedding

X_K＝K·X_embedding

X_V＝V·X_embedding

其中，X_embedding表示特征嵌入信息，X_Q表示查询信息Q对应的注意力权重矩阵，X_K表示键K对应的注意力权重矩阵，X_V表示值V对应的注意力权重矩阵。

得到上述三个注意力权重矩阵后，进行多头注意力计算。在一实施例中，利用多头注意力提取源语言文本训练序列对应的多重语义，其中多头的数量为一个超参数h，即包含h个注意力单元。在一实施例中，利用超参数h将上述三个注意力权重矩阵进行分割成h部分，分别输入注意力单元中，依次进行向量点积操作，利用向量点积表示元素之间的相似度，并用softmax进行归一化得到表示注意力信息的源语言训练特征序列。

由上述可知，源语言训练特征序列表示源语言文本训练序列中各元素(如字或词组)与其他所有元素之间的相似程度。

步骤S103，通过长度预测器对源语言训练特征序列进行长度预测，得到预测文本训练长度。

在一实施例中，由于本实施例的非自回归语言翻译模型采用非自回归机制，因此生成序列的长度是未知的，因此通过长度预测器对源语言训练特征序列进行长度预测，得到预测文本训练长度。这里长度预测器是一种预先训练的分类器。

步骤S104，基于预测文本训练长度，通过非自回归解码器对源语言特征序列进行两次解码处理，得到目标语言解码文本训练序列。

相关技术中非自回归机制根据部分输入词预测其余目标文本，这种学习方式需要部分目标文本作为输入，不符合非自回归模型并行生成的要求。本实施例中非自回归解码器通过渐进学习的方式，学习到不同元素之间的依赖关系，在渐进学习的过程中，非自回归解码器会先学习并行输出一些初始的元素片段，然后逐渐学习对整个源语言特征序列进行单步并行生成，得到目标语言解码文本训练序列。

在一实施例中，与多头注意力Transformer编码器对应，非自回归解码器结构也是多头注意力Transformer编解码器结构。

在一实施例中，参照图3，是一实施例示出的步骤S104的一种具体实现流程图，在本实施例中，基于预测文本训练长度，通过非自回归解码器对源语言特征序列进行两次解码处理，得到目标语言解码文本训练序列的步骤S104，包括步骤S1041至步骤S1044：

步骤S1041，基于预测文本训练长度，通过非自回归解码器对源语言特征序列进行第一次解码处理，得到目标语言第一解码文本序列。

在一实施例中，非自回归解码器根据预测文本训练长度，使用并行解码的方式从源语言训练特征序列采样相应数量的目标文本，作为第一次解码处理得到的目标语言第一解码文本序列。

步骤S1042，根据目标语言第一解码文本序列与目标语言文本训练序列的比较信息，得到采样位置。

在一实施例中，将第一次解码得到的目标语言第一解码文本序列和训练样本中的目标语言文本训练序列进行对比。如果输出目标语言第一解码文本序列和目标语言文本训练序列相差较大，则说明非自回归解码器在训练中难以拟合该训练样本，因此非自回归解码器应该选取更多的目标文本作为输入在帮助非自回归解码器学习元素之间的关系。如果输出目标语言第一解码文本序列和目标语言文本训练序列相差较小，则说明非自回归解码器在训练中能够拟合该训练样本，因此非自回归解码器可以选取较少的目标文本作为输入。

在一实施例中，采样即上述目标文本的选取过程，采样位置为目标文本在目标语言文本训练序列中的位置，采样位置包括至少一个目标文本的位置。

步骤S1043，基于采样位置，用目标语言文本训练序列采样位置的目标文本替换源语言训练特征序列采样位置的源文本，得到第二次解码输入序列。

在一实施例中，第二次解码过程的输入序列与第一次解码得到的目标语言第一解码文本序列的有关系，根据目标语言第一解码文本序列的解码结果选取目标文本，然后用目标文本替换源语言训练特征序列对应位置的源文本，得到的第二次解码输入序列作为非自回归解码器第二次解码过程的输入序列。

步骤S1044，基于预测文本训练长度，通过非自回归解码器对第二次解码输入序列进行第二次解码处理，得到目标语言解码文本训练序列。

在一实施例中，第二次解码处理时，非自回归解码器基于第二次解码输入序列学习输出目标语言解码文本训练序列。

可以理解的是，在一实施例中非自回归解码器只在第二次解码时进行模型参数的更新，第一次解码过程作为参考过程，得到目标文本的采样位置和采样数量，采样得到的目标文本作为非自回归解码器的输入进行第二次解码过程，这样非自回归解码器在进行并行输出前，即依赖部分目标文本的真实值，在并行解码提高解码速度的同时，提高并行解码的解码准确性。

可以理解的是，训练好的非自回归解码器在使用时，只需一次并行解码即可得到对应的输出序列，只在训练过程中采用上述两次解码的方式进行权重的学习。

步骤S105，根据损失函数计算目标语言文本训练序列和目标语言解码文本训练序列之间损失值。

步骤S106，根据损失值调整非自回归语言翻译模型的模型权重，直至达到收敛条件，得到训练好的非自回归语言翻译模型。

相关技术中，非自回归机制使用最大似然估计作为损失函数进行训练，这种损失函数在并行输出非自回归模式中不能很好的建立输出各元素之间的依赖关系，训练效果不佳。

在一实施例中，利用损失函数进行对齐，在对齐过程中，首先估算一个源语言(例如普通话)中单词被被转化为任何目标语言中单词的概率，估算完概率后，将这些概率用于翻译过程，最后用字符串搜索方法来完成字符串的匹配。在一实施例中，利用自然语言处理中用到的对齐方式Giza++对齐方式进行对齐。该实施例中预测的是字符级别的对齐，将单词级别的对齐从单词维度转换为字符维度来计算损失值。

在一实施例中，利用均方误差损失函数进行训练。均方误差损失函数表示为：

其中，N表示每批数据量的大小，n表示第n个元素，y_n表示预测得到的目标语言解码文本训练序列中元素对应的概率，x_n表示目标语言文本训练序列中元素对应的概率。

在一实施例中，收敛条件可以是达到预设迭代次数也可以是均方误差最小，在此不做具体限定。

上述步骤描述了非自回归语言翻译模型的训练过程，训练完成得到的非自回归语言翻译模型能够用于步骤S120根据源语言文本进行语言翻译，得到目标语言翻译文本。

在一实施例中，参照图4，是一实施例示出的步骤S120的一种具体实现流程图，在本实施例中，将源语言文本输入非自回归语言翻译模型进行语言翻译，得到目标语言翻译文本的步骤S120，包括步骤S121至步骤S123：

步骤S121，通过编码器对源语言文本进行特征提取，得到源语言特征序列。

步骤S122，通过长度预测器对源语言特征序列进行长度预测，得到源语言特征序列对应的预测文本长度。

步骤S123，基于预测文本长度，通过非自回归解码器对源语言特征序列进行解码处理，得到目标语言翻译文本。

上述得到目标语言翻译文本后执行后续步骤。

步骤S130：对目标语言翻译文本进行分词，得到目标语言分词序列。

在一实施例中，可以采用基于词典的分词方法对目标语言翻译文本进行分词，得到目标语言分词序列，该方法按照预设策略将文本信息中待匹配的字符串与预先建立的词典中的词进行匹配。其中，预设策略包括：正向最大匹配法、逆向最大匹配法和双向匹配分词法等。本实施例也可以采用基于统计的机器学习算法对目标语言翻译文本进行分词，得到目标语言分词序列，该方法利用深度学习相关算法对文本信息中不同词语进行标注训练，不仅考虑词语出现的频率，还考虑上下文信息，具有良好的效果。或者，本实施例中将机器学习和词典结合对目标语言翻译文本进行分词，得到目标语言分词序列，一方面提高分词准确率，另一方面改善领域适应性。在分词操作过程中还包括去除停用词的过程，本实施例不对分词方法做具体限定。

在得到目标语言分词序列后，需要执行步骤S140根据目标方言的发音规律生成每个分词的韵律。

步骤S140：对目标语言分词序列进行韵律预测，得到目标语言分词韵律序列。

在一实施例中，不同方言的韵律有较大区别，表现在人们说方言时“轻重缓急，抑扬顿挫”的韵律特点，这些韵律特点在声学上表现为：停顿、音高、音长、音强等。本实施例利用训练好的韵律预测模型对目标语言分词序列中各分词元素的韵律特点进行预测。首先从目标语言分词序列中获取韵律的符号特征描述信息，其中符号特征描述信息包括：节奏层级和边界位置、重音等级和位置、语调类型等；然后将对应的符号特征描述信息转化为对应韵律的声学参数，其中声学参数包括：静音、基频、时长、能量等。

在一实施例中，通过预先训练的韵律预测模型得到目标语言分词序列对应的目标语言分词韵律序列，利用目标语言分词韵律序列进行后续方言语音合成，能够提高方言语音合成结果的自然度。

步骤S150：对目标语言分词韵律序列进行音素转换，得到目标语言语音音素序列。

在一实施例中，利用预设因素词典将目标语言分词韵律序列映射为对应的目标语言语音音素序列。

在一实施例中，目标语言分词韵律序列是汉语中汉字。由于汉字通常是由声母和韵母组成，根据语言学的原理可以对其再进一步细分，相同的韵母和不同的声母组合可以表现为不同的音素，因此通过语言学原理与构建的预设音素词典将声母和韵母定义为音素集合。

在一实施例中，将声母和韵母定义为66类音素组成预设音素词典，预设音素词典表示如下：

“a”,“aa”,“ai”,“an”,“ang”,“ao”,“b”,“c”,“ch”,“d”,“e”,“ee”,“ei”,“en”,“eng”,“er”,“f”,“g”,“h”,“i”,“ia”,“ian”,“iang”,“iao”,“ie”,“ii”,“in”,“ing”,“iong”,“iu”,“ix”,“iy”,“iz”,“j”,“k”,“l”,“m”,“n”,“o”,“ong”,“oo”,“ou”,“p”,“q”,“r”,“s”,“sh”,“t”,“u”,“ua”,“uai”,“uan”,“uang”,“ueng”,“ui”,“un”,“uo”,“uu”,“v”,“van”,“ve”,“vn”,“vv”,“x”,“z”,“zh”。

由上述可知，能够利用预设因素词典将目标语言分词韵律序列映射为对应的目标语言语音音素序列。

步骤S160：将目标语言语音音素序列输入语音合成模型进行语音合成，得到目标语言语音数据。

在一实施例中，由于目标语言语音音素序列中包含韵律信息，韵律信息可以体现在元素的持续时间上，因此目标语言语音音素序列中包含持续时间信息。在一实施例中，对目标语言语音音素序列进行特征提取，然后对特征提取结果进行特征编码，对应进行特征解码后得到声谱图，然后根据声谱图生成得到目标语言语音数据。

在一实施例中，声谱图为梅尔频谱。在一实施例中，利用声码器将梅尔频谱转化成对应的目标语言语音数据，目标语言语音数据是一种以波(wave)形式表示语音信号的波文件，本实施例在此不对目标语言语音数据的表现形式做限制。

在一些使用场景中，源语言文本中存在一些不能翻译的术语、专有名词、符号和数字等特殊内容，相关技术中在进行语音合成时，一般将这种特殊内容作为未知标记在文本中去除，不会出现在训练数据集中，只将去除特殊内容之后的文本进行语音合成。这种方式得到的语音合成数据并不能完全表达使用者的真实意图，尤其对于方言使用者而言，甚至会丢失掉一些重要信息。例如，在远方的年轻人为了远程指导只能听得懂方言(例如粤语)的父母使用12306网站线上订票，需要他们打开电脑，输入“12306.cn”，此时需要将这句操作语句“打开电脑，在顶部小锁位置处，把12315.cn敲进去”转化成对应粤语语音文本，然后将粤语语音文本进行语音合成，得到粤语语音数据。此时若将数字和“.”符号作为特殊内容去除之后，就会缺失重要信息。

在一实施例中，步骤S120之前，对得到的源语言文本进行特殊内容保护操作。参照图5，是一实施例示出的目标语言语音合成的一种具体实现流程图，在本实施例中对得到的源语言文本进行特殊内容保护操作包括：步骤S1111至步骤S1112：

步骤S1111，识别源语言文本中预设字符。

在一实施例中，按照预先定义的规则在源语言文本中识别预设字符，预设字符可以是不能翻译的术语(例如网址)、专有名词、特殊符号(如符号表达式)或数字中一种或一种以上的组合。

步骤S1112，基于预设字符匹配库将源语言文本中预设字符替换为预设标识，得到替换后的源语言文本。

在一实施例中，预先设定将预设字符替换为哪种预设标识，将并行语料库中预设标识和预设字符之间的映射关系保存在预设字符匹配库中，当需要进行预设字符替换时，仅需按照正则表达式匹配查找预设字符匹配库即可，这样可以使非自回归语言翻译模型学习到源语言文本中预设标记与翻译得到的目标语言翻译文本之间的对应关系。可以理解的是，预设字符匹配库可以根据实际需求适配更新。

在一实施例中，将替换后的源语言文本输入非自回归语言翻译模型进行语言翻译，得到目标语言翻译文本，此时目标语言翻译文本中包含预设标识。

因此，在一实施例中，步骤S130之前，对得到的目标语言翻译文本进行特殊内容恢复操作。参照图6，是一实施例示出的目标语言语音合成的一种具体实现流程图，在本实施例中对得到的目标语言翻译文本进行特殊内容恢复操作包括：步骤S1311至步骤S1312：

步骤S1311，获取目标语言翻译文本中预设标识。

步骤S1312，基于预设字符匹配库将目标语言翻译文本中预设标识替换为预设字符，得到替换后的目标语言翻译文本。

在一实施例中，对于目标语言翻译文本中包含的预设标识，按照预设字符匹配库中的映射关系，将目标语言翻译文本中预设标识替换为预设字符，得到替换后的目标语言翻译文本。替换过后的目标语言翻译文本中包含对应的预设字符，在后面进行方言语音合成时，不会丢失该部分信息。

本发明实施例提供的技术方案，通过获取待转换的源语言文本，将源语言文本输入非自回归语言翻译模型进行语言翻译，得到目标语言翻译文本，对目标语言翻译文本进行分词，得到目标语言分词序列，对目标语言分词序列进行韵律预测，得到目标语言分词韵律序列，对目标语言分词韵律序列进行音素转换，得到目标语言语音因素序列，将目标语言语音音素序列输入语音合成模型进行语音合成，得到目标语言语音数据。

本发明实施例在方言翻译过程中，利用非自回归语言翻译模型对输入的普通话源语言文本进行方言的语法用词调整，将其翻译成语音相似的方言文本，然后对方言文本进行语音合成，得到方言发音的目标语言语音数据。同时，非自回归语言翻译模型利用并行生成解码方式，在翻译的过程中同时输出目标语言翻译文本中所有的词，在保证翻译准确性的前提下提升方言翻译速度，扩展方言翻译的应用场景。

本发明实施例还提供一种目标语言语音合成装置，可以实现上述目标语言语音合成方法，参照图7，该装置包括：

获取单元710，用于获取待转换的源语言文本。

语言翻译单元720，用于将源语言文本输入非自回归语言翻译模型进行语言翻译，得到目标语言翻译文本。

分词单元730，用于对目标语言翻译文本进行分词，得到目标语言分词序列；

韵律预测单元740，用于对目标语言分词序列进行韵律预测，得到目标语言分词韵律序列。

音素转换单元750，用于对目标语言分词韵律序列进行音素转换，得到目标语言语音音素序列。

语音合成单元760，用于将目标语言语音音素序列输入语音合成模型进行语音合成，得到目标语言语音数据。

本实施例的目标语言语音合成装置的具体实施方式与上述目标语言语音合成方法的具体实施方式基本一致，在此不再赘述。

本发明实施例还提供了一种电子设备，包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

所述程序被存储在存储器中，处理器执行所述至少一个程序以实现本发明实施上述的目标语言语音合成方法。该电子设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，简称PDA)、车载电脑等任意智能终端。

请参阅图8，图8示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器801，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本发明实施例所提供的技术方案；

存储器802，可以采用ROM(ReadOnlyMemory，只读存储器)、静态存储设备、动态存储设备或者RAM(RandomAccessMemory，随机存取存储器)等形式实现。存储器802可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器802中，并由处理器801来调用执行本发明实施例的目标语言语音合成方法；

输入/输出接口803，用于实现信息输入及输出；

通信接口804，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；和

总线805，在设备的各个组件(例如处理器801、存储器802、输入/输出接口803和通信接口804)之间传输信息；

其中处理器801、存储器802、输入/输出接口803和通信接口804通过总线805实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种存储介质，存储介质为计算机可读存储介质，该存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述目标语言语音合成方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例提出的目标语言语音合成方法、目标语言语音合成装置、电子设备、存储介质，通过获取待转换的源语言文本，将源语言文本输入非自回归语言翻译模型进行语言翻译，得到目标语言翻译文本，对目标语言翻译文本进行分词，得到目标语言分词序列，对目标语言分词序列进行韵律预测，得到目标语言分词韵律序列，对目标语言分词韵律序列进行音素转换，得到目标语言语音因素序列，将目标语言语音音素序列输入语音合成模型进行语音合成，得到目标语言语音数据。本实施例在方言翻译过程中，利用非自回归语言翻译模型对输入的普通话源语言文本进行方言的语法用词调整，将其翻译成语音相似的方言文本，然后对方言文本进行语音合成，得到方言发音的目标语言语音数据。同时，非自回归语言翻译模型利用并行生成解码方式，在翻译的过程中同时输出目标语言翻译文本中所有的词，在保证翻译准确性的前提下提升方言翻译速度，扩展方言翻译的应用场景。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

Claims

1.一种目标语言语音合成方法，其特征在于，包括：

获取待转换的源语言文本；

2.根据权利要求1所述的目标语言语音合成方法，其特征在于，所述非自回归语言翻译模型包括：编码器、非自回归解码器和长度预测器；所述将所述源语言文本输入非自回归语言翻译模型进行语言翻译，得到目标语言翻译文本，包括：

3.根据权利要求2所述的目标语言语音合成方法，其特征在于，所述将所述源语言文本输入非自回归语言翻译模型进行语言翻译，得到目标语言翻译文本之前，还包括：训练所述非自回归语言翻译模型；

所述非自回归语言翻译模型的训练过程包括：

4.根据权利要求3所述的目标语言语音合成方法，其特征在于，所述基于所述预测文本训练长度，通过所述非自回归解码器对所述源语言训练特征序列进行两次解码处理，得到目标语言解码文本训练序列，包括：

5.根据权利要求3或4所述的目标语言语音合成方法，其特征在于，所述损失函数为均方误差损失函数。

6.根据权利要求1至4任一项所述的目标语言语音合成方法，其特征在于，所述将所述源语言文本输入非自回归语言翻译模型进行语言翻译，得到目标语言翻译文本之前，包括：

识别所述源语言文本中预设字符；

7.根据权利要求6所述的目标语言语音合成方法，其特征在于，所述将所述源语言文本输入非自回归语言翻译模型进行语言翻译，得到目标语言翻译文本之后，还包括：

获取所述目标语言翻译文本中所述预设标识；

8.一种目标语言语音合成装置，其特征在于，包括：

获取单元，用于获取待转换的源语言文本；

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的目标语言语音合成方法。

10.一种存储介质，所述存储介质为计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的目标语言语音合成方法。