CN112365878B

CN112365878B - 语音合成方法、装置、设备及计算机可读存储介质

Info

Publication number: CN112365878B
Application number: CN202011191060.8A
Authority: CN
Inventors: 周鸿斌; 贺天威; 黄杰雄; 戴长军
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2024-01-23
Anticipated expiration: 2040-10-30
Also published as: CN112365878A

Abstract

本申请提供了语音合成方法、装置、设备及计算机可读存储介质，涉及语音处理技术领域。该方法通过获取输入的多语言混合的文本信息，将文本信息转换为混合音素文本，利用预先编制的多语言混合音素字典查找混合音素文本中各音素对应的音素编号得到音素编号序列，基于音素编号序列预测生成频谱参数序列；其中，多语言混合音素字典依据多种语言的基础音素进行编写；利用声码器将频谱参数序列转换为对应的时序语音信号，合成混合语音，本技术方案实现了利用同一融合有多种语言的基础音素的多语言混合字典，能够合成具有同一音色的混合语音，自然流畅，降低混合语音的合成成本。

Description

语音合成方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及语音合成领域，具体而言，本申请涉及一种语音合成方法、装置、设备及计算机可读存储介质。

背景技术

TTS技术(Text-to-Speech，又称文语转换技术)隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术，可以应用在车载导航、语音交互、虚拟主播、有声读物、视频配音、广告视频素材合成和短视频模板等场景。

在日常生活中，人们在书写或者口语中经常遇到双语(Bilingual)的情况，以合成双语语音。在相关技术中，合成同一发言人的双语语音，则需要为同一发言人录制中文和英文两种语言的录音数据，对录音数据进行学习后进行双语合成。这种方法需要发言人同时精通中文和英文两种语言，且需要该发言人录制大量的中文和英文语音，成本高，且操作难度大。

发明内容

本申请的目的旨在至少解决上述技术缺陷之一，特别是双语语音数据获取难度大、成本高的问题。

第一方面，提供一种语音合成方法，包括以下步骤：

获取输入的多语言混合的文本信息，将文本信息转换为混合音素文本；

利用预先编制的多语言混合音素字典查找混合音素文本中各音素对应的音素编号得到音素编号序列，并基于音素编号序列预测生成频谱参数序列；其中，多语言混合音素字典依据多种语言的基础音素进行编写；

利用声码器将频谱参数序列转换为对应的时序语音信号，合成混合语音。

在一实施例中，语音合成方法，还包括：

获取至少两种语言所涉及的基础音素，将基础音素进行去重处理，得到混合音素集；

将混合音素集中的每个基础音素与对应的音素编号进行映射，得到多语言混合音素字典。

在一实施例中，获取至少两种语言所涉及的基础音素，将基础音素进行去重处理，得到混合音素集的步骤包括：

获取第一语言所涉及的第一基础音素和第二语言所涉及的第二基础音素，第一基础音素包括辅音字母、元音字母和声调中的至少一者，第二基础音素包括国际音标音素；

将字形相同或相似的第一基础音素和第二基础音素进行去重处理，得到混合音素集。

在一实施例中，基于音素编号序列预测生成频谱参数序列的步骤包括：

将音素编号序列输入预先训练好的声学模型的音素嵌入层，利用音素嵌入层将音素编号序列转换成对应的音素特征向量；

将音素特征向量输入到声学模型的编码器中进行预测，生成音素特征向量对应的隐变量序列；

将隐变量序列输入到声学模型的解码器，输出音素编号序列对应的频谱参数序列。

在一实施例中，将音素特征向量输入到声学模型的编码器中进行预测，生成音素特征对应的隐变量序列的步骤包括：

将音素特征向量输入到声学模型的编码器，结合音素特征向量对应的当前基础音素的相邻上下文音素的关系信息进行预测，生成音素特征向量对应的隐变量序列。

在一实施例中，将文本信息转换为混合音素文本的步骤包括：

提取文本信息中的第一语言文本和第二语言文本；

将第一语言文本转换为对应的拼音序列，将第二语言文本转换为国际音标序列；

将拼音序列和国际音标序列按序拼接起来，得到混合音素文本。

在一实施例中，语音合成方法，还包括：

获取预先设置的作为训练样本的混合音素序列样本及其对应的频谱参数序列样本；

将混合音素序列样本作为预先设置的多层深度神经网络的输入，将频谱参数序列样本作为多层深度神经网络的输出，得到预测声学参数；

计算预测声学参数与混合音素序列样本对应的真实声学参数的误差，并通过梯度下降方法更新多层深度神经网络中的参数，训练得到声学模型。

第二方面，提供一种语音合成装置，包括：

音素文本转换模块，用于获取输入的多语言混合的文本信息，将文本信息转换为混合音素文本；

参数序列生成模块，用于利用预先编制的多语言混合音素字典查找混合音素文本中各音素对应的音素编号，得到音素编号序列，并基于音素编号序列预测生成频谱参数序列；其中，多语言混合音素字典依据多种语言的基础音素进行编写；

混合语音合成模块，用于利用声码器将频谱参数序列转换为对应的时序语音信号，合成混合语音。

第三方面，提供一种电子设备，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据第一方面所述的语音合成方法。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现第一方面所述的语音合成方法。

本申请提供的技术方案带来的有益效果是：

通过获取输入的多语言混合的文本信息，将文本信息转换为混合音素文本；利用预先编制的多语言混合音素字典查找混合音素文本中各音素对应的音素编号得到音素编号序列，并基于音素编号序列预测生成频谱参数序列；其中，多语言混合音素字典依据多种语言的基础音素进行编写；利用声码器将频谱参数序列转换为对应的时序语音信号，合成混合语音，从而能够合成具有同一音色的混合语音，自然流畅，降低混合语音的合成成本。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请实施例提供的一种语音合成方法所涉及的实施环境的示意图；

图2是本申请实施例提供的一种语音合成方法的流程图；

图3是本申请实施例提供的一种语音合成的工作原理图；

图4是本申请实施例提供的一种语音合成装置的结构示意图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

下面对本申请涉及的几个名词进行介绍和解释：

TTS:Text-to-Speech,文本到语音转换，语音合成。

TN:Text Normalization,文本正则化。人类的语音系统(Spoken language)和书写系统(Written language)并不完全相同，例如我们在口语中说“二零二零年”，但是文本书写时可能会写作“2020年”。文本正则化，即将输入文本转换为与口语表述一致的文本，例如“2020年”经过文本正则化后变为“二零二零年”。

IPA：International Phonetic Alphabet,国际音标。

Phoneme:音素，最小的发音单位，例如phoneme/k/,可以表示cat中的”c”,kit中的”k”,look中的”k”的发音。中文的音素可以用国际音标表示，但一般更简单地使用汉语拼音的声母和韵母来表示，声调一般附着于韵母上。例如汉语拼音”ni2hao3”对应的声韵母为：[“n”,“i2”,“h”,“ao3”]。本发明中广义地将每个拼音字母也统称为音素，例如“ni2hao3”对应的拼音序列[“n”,”i”,”2”,”h”,”a”,”o”,“3”]。

时域：Time-domain,时域信号为语音信号最常见的表示及存贮形式。常见的音频采样率如24kHz表示1秒钟长的音频信号，由24000个时域采样值表示。

频域：Frequency-domain,时域信号经过傅利叶(Fourier transform)变换后，转换为频率信号谱的表示形式。频谱表示为复数形式，分为实部和虚部。在信号频域幅度谱中，横坐标表示时间，纵坐标表示频率，颜色表示幅度大小，颜色越深幅度越大。

下面对本申请实施例涉及的应用场景进行说明。

随着人们日常生活多语言交流的需要，多语言的语音合成在多个领域展开研究和应用，例如短视频合成、语音翻译、车载导航、语音交互、虚拟主播、有声读物、视频配音、广告视频素材合成等。

本实施例提供的语音合成方法、装置、设备及计算机可读存储介质，应用于短视频合成应用、语音翻译应用等涉及多语言的语音合成应用中。在这些多语言的语音合成的应用中，如语音翻译应用，能够将输入的多语言混合文本准确翻译成某一种语言的语音。

为了更好地阐述本申请的技术方案，下面示出本方案的语音合成方法所可以适用的某一应用环境。图1是本申请实施例提供的一种语音合成方法所涉及的实施环境的示意图，参见图1，该实施环境可以包括：终端101和服务器102。终端101和服务器102通信连接。

在终端101上可以安装有应用程序，该应用程序包括能够进行多语言的语音合成应用程序，如，该应用程序可以是地图导航应用、短视频合成应用、语音翻译应用等。本申请实施例不对应用程序的类型做出具体限定。

终端101可以是一个终端，也可以是多个终端。终端101包括车载终端、智能手机、智能电视、智能音箱、平板电脑、电子书阅读器、MP3(Moving Picture Experts GroupAudio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、掌上电脑、笔记本电脑和台式电脑中的至少一种。

用户通过向安装于终端101上的应用程序输入待语音合成的信息，该信息可以是文本信息，也可以是语音信息，比如，用户输入文本“亲爱的VV，我看着，想起曾经看过……”。应用程序则根据用户输入的多语言的混合文本，将该混合文本发送到服务器102进行语言合成，服务器102调用对应的训练好的神经网络模型对混合文本进行相应的数据处理，得到语音配音，其中“VV”是英文发音，其余为中文发音。服务器102将语音配音结果反馈到终端101进行播放。终端101通过预设的语音播放程序播放语音。或者，用户用某一语言输入一段话，语音翻译应用将该语音翻译成另一种语言，例如，用户用英文语音输入“DearVV,I watched it,I remembered that I have watched…”，服务器102会根据英文语言翻译成中文语言“亲爱的VV，我看着，想起曾经看过…”其中，“VV”为英文发音，其余为中文发音，并将中文发音反馈回终端101。

当然，本申请实施例提供的技术方案还可以应用于其他的定位场景，在此不再一一列举。

基于上述的应用场景，则需要将混合有多种语言的输入信息，如文本或语音，准确翻译成指定的其他单一语言语音、且具有该发言人同样的音色，以满足用户的语音合成需求。

目前，相关技术大多采用通过同一发言人录制多种语言的录音数据，分别利用这些录音数据进行训练，这需要同一发言人同时精通多种语言，这样的发言人难找，且费时费力，大部分的发言人仅精通一门语言，如精通汉语，但是不精通英语，则难以合成带有同一发言人音色的其他语言的语音。若利用不同的发言人的录音数据分别进行训练，则容易导致合成的语音与发言人的音色不同，如用户A输入“你好”文本，合成输入的语音为用户B的英文发音“hello”。

本申请提供的语音合成方法、装置、设备及计算机可读存储介质，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图2是本申请实施例提供的一种语音合成方法的流程图，该语音合成方法执行于计算机设备，如服务器等。

具体的，如图2所示，语音合成方法可以包括以下步骤：

S210、获取输入的多语言混合的文本信息，将文本信息转换为混合音素文本。

对于多语言混合的文本信息，可以是用户通过终端直接输入的多语言混合的文本信息，也可以是从其他终端上导入的多语言混合的文本信息，还可以是终端将语音信息通过语音识别等方式转换得到的多语言混合的文本信息。

服务器从终端获取多语言混合的文本信息，并根据转换规则转换为由基础音素组合得到的混合音素文本。在本实施例中，按照语言种类的不同，提取同一语言种类的文本信息。以多语言混合的文本信息包括两种语言信息为例进行说明。其中，转换规则可以预先设定，如多语言混合的文本信息转换为某一种指定语言。

提取文本信息中的第一语言文本和第二语言文本，将第一语言文本和第二语言文本转换为该语言对应的基础音素，例如将第一语言文本转换为对应的拼音序列，第二语言文本转换为对应的国际音标序列，将拼音序列和国际音标序列按序拼接起来，得到混合音素文本。

S220、利用预先编制的多语言混合音素字典查找混合音素文本中各音素对应的音素编号，得到音素编号序列，并基于音素编号序列预测生成频谱参数序列。

其中，多语言混合音素字典依据多种语言的基础音素进行编写。多种语言的字形相同或相似的基础音素共用同一音素编号。

基础音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，基础音素是从音质角度划分出来的最小语音单位。从生理性质来看，一个发音动作形成一个基础音素。如〔ma〕包含〔m〕〔a〕两个发音动作，是两个基础音素。相同发音动作发出的音就是同一基础音素，不同发音动作发出的音就是不同基础音素。如〔ma-mi〕中，两个〔m〕发音动作相同，是相同的基础音素，〔a〕〔i〕发音动作不同，是不同的基础音素。

在本实施例中，多语言混合音素字典中包括多种语言所涉及的基础音素。多种语言的字形相同或相似的基础音素共用同一音素编号。

例如：汉语的基础音素，如“你好”中的基础音素[h]和英语的基础音素，如“hello”中的基础音素[h]相同，则将这部分字形相同的基础音素进行去重处理，只保留其中一个基础音素，从而得到由不同种语言的基础音素编制而成的混合音素集。又如，汉语的基础音素[a]和英语的基础音素[a]的发音不同，但字形相同，则可以将汉语的基础音素[a]和英语的基础音素[a]进行融合，只保留一个[a]，对应一个音素标号，至于在实际应用中，多语言混合音素字典中的[a]是表示汉语中的基础音素[a]，还是英语的基础音素[a]，或者是其他语言的基础音素，则可以根据携带有该基础音素[a]的待语言合成的混合音素文本的上下文意思进行确定。将混合音素文本输入到声学模型中，该声学模型为训练好的声学模型，利用预先编制的多语言混合音素字典查找出该混合音素文本中的各个音素对应的音素编号，并将这些音素编号按照混合音素文本的各个音素的前后顺序进行排列得到音素编号序列，例如将多语言混合的文本信息“你好hello”对应的混合音素文本转换为音素编号序列：[59,3,131,88,27,18,132,88,15,97,18,11]。

在本实施例中，通过预先训练好的声学模型调用多语言混合音素字典，多语言混合音素字典可以表示为N×D嵌入向量表，其中，N可以表示为多语言混合音素字典中基础音素的个数，D可以表示为每个基础音素对应的符号长度，D取值为2的n次幂，n为正整数，一般的，D可以为64或128。其中，基础音素对应的音素编号i在N×D嵌入向量表中的第i行所对应的嵌入向量作为声学模型中的音素嵌入层的输入，例如，基础音素“n”的音素编号为59，对应这N×D嵌入向量表中的第59行的嵌入向量，将第59行的嵌入向量作为声学模型中的音素嵌入层的输入。

经过声学模型的音素嵌入层的处理后，将该音素编号对应的嵌入向量转换为对应的音素特征向量，将该音素特征向量输入到声学模型的编码器进行处理，根据语义关联关系结合该音素特征向量的相邻的音素特征向量，对该音素特征向量进行解析，得到该音素特征向量对应的隐变量序列，该隐变量序列包括当前基础音素的语音特征向量，还包括当前基础音素相邻的上下文音素的关联信息，进一步的，根据隐变量序列生成对应的频谱参数序列。

S230、利用声码器对频谱参数序列进行混合语音合成，将频谱参数序列转换为对应的时序语音信号。

在执行本步骤之前，首先需要对声码器进行训练，在训练声码器的过程中，预先设置的作为训练样本的频谱参数及其对应的真实时序语音信号，将频谱参数作为声码器的输入，将频谱参数对应的真实时序语音信号作为声码器的输出，将声码器根据输入的频谱参数而输出的实际时序语音信号与对应的真实时序语音信号进行比较，计算两者之间的误差，根据误差通过梯度下降方法更新声码器的参数。在本实施例中，声码器可以为开源神经网络声码器。需要说明的是，声码器的训练可以通过现有的训练方式进行，并不局限于本实施例所提供的方案。

声码器的任务是将频谱参数序列转换为对应的时序语音信号。在本实施例中，将频谱参数序列输入到训练好的声码器中，以通过声码器将频谱参数序列转换对应的时序语音信号，合成混合语音。

本实施例提供的语音合成方法，通过获取输入的多语言混合的文本信息，将文本信息转换为混合音素文本，将混合音素文本输入到声学模型中，利用预先编制的多语言混合音素字典查找混合音素文本中各音素对应的音素编号，得到音素编号序列，并基于音素编号序列预测生成频谱参数序列，该多语言混合音素字典依据多种语言的基础音素进行编写，利用声码器将频谱参数序列转换为对应的时序语音信号，合成混合语音，本实施例通过共享多语言的基础音素，实现同一基础音素可能对应多种不同语言的发音，使得不同语言间的切换更加自然，有利于实现合成同一音色的混合语音，自然流畅，降低混合语音的合成成本。

为了更清楚地阐述本申请的技术方案，下面针对语音合成方法的多个步骤进行进一步说明。

在一实施例中，步骤S120中的基于音素编号序列预测生成频谱参数序列，包括以下步骤：

S1201、将音素编号序列输入预先训练好的声学模型的音素嵌入层，利用声学模型的音素嵌入层将音素编号序列转换成对应的音素特征向量。

在本实施例中，多语言混合音素字典可以表示为N×D嵌入向量表，其中，N可以表示为多语言混合音素字典中基础音素的个数，D可以表示为每个基础音素对应的符号长度，D取值为2的n次幂，n为正整数，一般的，D可以为64或128。根据音素编号序列中各个音素编号对应在N×D嵌入向量表中的第i行所对应的嵌入向量，根据该嵌入向量利用声学模型的音素嵌入层将音素编号序列转换成对应的音素特征向量。在本实施例中，音素特征向量可以用浮点数向量表示。

例如，“你好hello”，它对应的声学模型输入参数是音素序列：利用多语言混合音素字典得到音素序列对应的音素编号序列，经过声学模型的音素嵌入层处理后的输出是：

n:[0.1,0.2,…,0.01]

i:[0.1,0.3,…,0.12]

...:…

[0.4,0.1,…,0.04]

其中，[n]、[i]和等，表示基础音素，[0.1,0.2,…,0.01]、[0.1,0.3,…,0.12]和[0.4,0.1,…,0.04]，表示其基础音素对应的音素特征向量。

S1202、将音素特征向量输入到声学模型的编码器中进行预测，生成音素特征向量对应的隐变量序列。

其中，隐变量序列包括当前基础音素的语音特征和当前基础音素的相邻上下文音素的关联信息。

由于同一基础音素及其音素编号，可能对应这不同语言的基础音素，比如，基础音素[h]，其可能对应着汉语的拼音字母[h]，也可能对应着英语的国际音标[h]，因此，在实际应用中，为了确定同一个基础音素及其音素编号所对应的语言种类，则需要根据该基础音素的相邻上下文音素的关联信息进行确定。

在一实施例中，通过将音素特征向量输入到声学模型的编码器，结合音素特征向量对应的当前基础音素的相邻上下文音素的关系信息进行预测，生成音素特征向量对应的隐变量序列。

比如，将基础音素[h]对应的音素特征向量输入到声学模型的编码器中，结合该音素序列中该基础音素[h]相邻上下文音素的语义关联信息等，如确定[h]之前的基础音素为[i]和[n]，之后的基础音素为[a]和[o]，则可以预测该音素序列存在“nihao”的可能性较大，从而推测出该基础音素[h]为汉语拼音的基础音素的可能性较大，从而预测生成该音素特征向量对应的隐变量序列，该隐变量序列包含当前基础音素[h]的语音特征和当前基础音素[h]的相邻上下文音素，如[i]和[n]以及[a]和[o]的关联信息。

基于上面的例子，基础音素对应的音素特征向量经过声学模型的编码器后，输出隐变量序列为：

[0.5,…,0.12]

[0.1,…,0.03]

…

[0.4,…,0.56]

S1203、将隐变量序列输入到声学模型的解码器，输出音素编号序列对应的频谱参数序列。

在本实施例中，将隐变量序列输入到声学模型的解码器，并利用解码器将隐变量序列逐层还原，得到音素编号序列对应的频谱参数序列。

将上述隐变量序列经过声学模型的解码器后，输出的频谱参数序列是：

[0.1,…,0.45]

…

[0.23,…,0.76]

为了便于理解本技术方案，现对多语言混合音素字典的生成进行介绍。

在一实施例中，多语言混合音素字典的生成可以包括以下步骤：

S310、获取至少两种语言所涉及的基础音素，将基础音素进行去重处理，得到混合音素集。

不同语言的基础音素可能有所不能，以汉语为例，汉语所涉及的基础音素包括汉语拼音所涉及的基础发音单元，如汉语“你好”，其对应的汉语拼音为ni2hao3，其中“2”表示“你”字的发音声调为第二声调，“3”表示“好”字的发音声调为第三声调，其涉及到的基础音素包括[n]、[i]、[2]、[h]、[a]、[o]、[3]七个基础音素。在本实施例中，英语的基础音素通过国际音标来表示，如英语“hello”的国际音标为其涉及到的基础音素包括[h]、[e]、[l]、/>[u]至少5个基础音素。

在本实施例中，将至少两种语言所涉及到的基础音素汇集，可以是全部基础音素，也可以是常用的词语所涉及到的基础音素。由于不同语言的基础音素之间可能有重合的部分，比如，汉语的基础音素，如“你好”中的基础音素[h]和英语的基础音素，如“hello”中的基础音素[h]相同，则将这部分基础音素进行去重处理。

在一实施例中，步骤S310中的获取至少两种语言所涉及的基础音素，将基础音素进行去重处理，得到混合音素集，可以包括以下步骤：

S3101、获取第一语言所涉及的第一基础音素和第二语言所涉及的第二基础音素，第一基础音素和第二基础音素包括辅音字母、元音字母和声调中的至少一者。

在一实施例中，第一基础音素可以是通过汉语拼音字母来表示，第二基础音素可以通过国际音标音素。不同基础音素的不同组合可能得到不同的发音。

辅音字母是一个和元音字母相对的概念。所有非元音字母的一般都是辅音字母，简单来说，除了半元音字母以外的所有非元音字母就是辅音字母了。

不同语言的辅音字母和元音字母可能不同，例如，最早的希腊字母，就有十七个辅音字母：β、γ、δ、ζ、θ、κ、λ、μ、ν、ξ、π、ρ、σ、τ、χ和ψ。这些辅音字母一般只代表一个辅音音素。在美国英语、西班牙语、德语、法语里面，辅音字母一般是21个或20个甚至22个，分别是b、c、d、f、g、h、j、k、l、m、n、p、q、r、s、t、v、w、x、y、z(德语还有β，法语里y是元音字母)。美国英语里，c、g有软硬音/s/和/k/、/>和/g/的区别，在a、o、u前发硬音，在e、i、y前发软音，只有少数词例外。德语里，g永远发硬音，意大利语、西班牙语，法语里c、g也有软音和硬音的区别。

S3102、将字形相同或相似的第一基础音素和第二基础音素进行去重处理，得到混合音素集。

由于不同语言的基础音素可能包括辅音字母和元音字母等，而这些辅音字母和元音字母大部分基于拉丁字母演变而言，所以不同语言的基础音素可能发音不同，但是字形相同。将字形相同的第一基础音素和第二基础音素进行去重处理，例如：汉语的基础音素，如“你好”中的基础音素[h]和英语的基础音素，如“hello”中的基础音素[h]相同，则将这部分字形相同或相似的基础音素进行去重处理，只保留其中一个基础音素，从而得到由不同种语言的基础音素编制而成的混合音素集。

320、将混合音素集中的每个基础音素与对应的音素编号进行映射，得到多语言混合音素字典。

将不同语言的基础音素进行汇总，得到基础音素集合，将这些基础音素按照预设的规则进行排序，可以是按照先辅音后元音，也可以是先元音后辅音，还可以是将这些基础音素按照任意排序得到基础音素序列，按照基础音素序列中的各个基础音素的排列顺序，为每个基础音素分别设置对应的音素编码，以使得每个基础音素与其唯一对应的音素编号进行映射，也即是说，通过音素编码可以查找到期对应的基础音素，得到多语言混合音素字典。在本实施例中，多语言混合音素字典可以通过数组的形式进行表达。

本实施例提供的多语言混合音素字典，将不同的语言中具有相同字形的基础音素进行整合去重，并用同一基础编号进行映射，例如，汉语拼音中的“h”和英文字母中的“h”两者发音相似，共用同一音素编号，如131，又如，汉语拼音中的“a”和英文字母中的“a”两者发音相似即便两者的发音不同、但基于字形相同或相似，这两者共用同一音素编号，如27，便于实现多种语言不同基础音素之间音素编号的共享和发音迁移。

在本实施例中，多语言混合音素字典统一了多种语言的基础音素，主要以下作用，以中文和英文混合语言为例进行说明：

(1)完全覆盖了中英文发音的基本音素，保证了中英文混合输入都能正确发音。中英双语的文本输入，经过文本前端处理后转换为国际音标(IPA)与汉语拼音的序列，序列中的每一个元素，都可以在统一的音素集中找到，都能正确发音。

(2)共享中英相似的发音，提升了中英文发音质量。国际音标(IPA)与汉语拼音各自使用的符号所表示的发音是存在共性的。例如“h“在国际音标中是”hello“中”h“的音素；在汉语拼音中是”ni2hao3“中”h“的拼音符号。统一国际音标与汉语拼音符号，有利于发音相近的音素(例如此处的”h“)共享特征表示。对于在国际音标和汉语拼音中发音不同但符号表示相同的情况，声学模型会通过音素的上下文的学习来区分。

如表1所示，表1是一实施例提供的多语言混合音素字典的局部基础音素及其音素编号。

表1多语言混合音素字典的局部基础音素及其音素编号

下面对声学模型的训练进行介绍。

在本实施例中，声学模型是多层深度神经网络，可采用例如Tacotron等，声学模型的首层为音素嵌入层(phoneme embedding)，可看作一个维度为N×D表格。

声学模型的训练可以通过以下步骤来实现：

S410、获取预先设置的作为训练样本的混合音素序列样本及其对应的频谱参数序列样本。

预先设置若干个混合音素序列作为训练样本，为混合音素序列样本中的各个混合音素进行标注，并确定训练样本中的混合音素序列对应的频谱参数序列，作为对声学模型进行训练的频谱参数序列样本。

S420、将混合音素序列样本作为预先设置的多层深度神经网络的输入，将频谱参数序列样本作为多层深度神经网络的输出，得到预测声学参数。

在本实施例中，将混合音素序列样本作为预先设置的多层深度神经网络的输入，将混合音素序列样本中的各个混合音素按序输入到该多层深度神经网络，将频谱参数序列样本作为多层深度神经网络的输出，得到该多层深度神经网络的预测声学参数，其中，混合音素序列样本中的各个混合音素与频谱参数序列样本中的频谱参数相对应。

S430、计算预测声学参数与混合音素序列样本对应的真实声学参数的误差，并通过梯度下降方法更新多层深度神经网络中的参数，训练得到声学模型。

计算预测声学参数与混合音素序列样本对应的真实声学参数的误差，若误差大于预设阈值，则表示在该预测声学参数下，输入的混合音素序列所对应输出的频谱参数距离真实值越大。在本实施例中，通过梯度下降方法不断更新多层深度神经网络中的参数，利用更新参数后的多层深度神经网络再次进行训练，将混合音素序列样本作为该多层深度神经网络的输入，将频谱参数序列样本作为多层深度神经网络的输出，得到新的预测声学参数，计算该新的预测声学参数与实声学参数的误差，根据该误差通过梯度下降方法更新多层深度神经网络中的参数，以此类推，重复插座，直至训练得到声学模型。

为了更清楚地阐述本申请，下面结合附图3对本技术方案进行说明。图3是本申请实施例提供的一种语音合成的工作原理图。

预先获取用户A的中文语音数据，利用用户A的中文语音数据进行训练，获取用户B的英文语音数据，利用用户B的英文语音数据进行训，为了提高训练效果，中文语音数据和英文语音数据均为流利标准的语音数据。预先编制多语言混合音素字典，字形相同或相似的基础音素进行融合去重。

如图3所示，用户A输入中英文混合的文本信息，如“你好hello”。对用户输入的文本信息经过前端文本分析处理，如文本正则化处理后，将输入的文本信息转换为基础音素序列将基础音素序列输入到声学模型中，通过预先编制的多语言混合音素字典，可以得到音素编号序列为：[59,3,131,88,27,18 132,88,15,97,18,11]，在经过预先训练好的声学模型的编码和解码处理后，输出预测得到待合成语音的频谱参数序列，利用声码器将该频谱参数序列转换为时序语音序列，输出混合语音信号，如“你好hello”，且中文和英文发音的音色相同，混合语音合成更加顺畅自然。

以上示例仅用于辅助阐述本公开技术方案，其涉及的图示内容及具体流程不构成对本公开技术方案的使用场景的限定。

下面对语音合成装置的相关实施例进行详细阐述。

图4是本申请实施例提供的一种语音合成装置的结构示意图，如图4所示，该语音合成装置200可以包括：音素文本转换模块210、参数序列生成模块220以及混合语音合成模块230，其中：

音素文本转换模块210，用于获取输入的多语言混合的文本信息，将文本信息转换为混合音素文本；

参数序列生成模块220，用于利用预先编制的多语言混合音素字典查找混合音素文本中各音素对应的音素编号，得到音素编号序列，并基于音素编号序列预测生成频谱参数序列；其中，多语言混合音素字典依据多种语言的基础音素进行编写；

混合语音合成模块230，用于利用声码器将频谱参数序列转换为对应的时序语音信号，合成混合语音。

本实施例提供的语音合成装置，通过获取输入的多语言混合的文本信息，将文本信息转换为混合音素文本，利用预先编制的多语言混合音素字典查找混合音素文本中各音素对应的音素编号，得到音素编号序列，并基于音素编号序列预测生成频谱参数序列，该多语言混合音素字典依据多种语言的基础音素进行编写，利用声码器将频谱参数序列转换为对应的时序语音信号，合成混合语音，本实施例通过共享多语言的基础音素，实现同一基础音素可能对应多种不同语言的发音，使得不同语言间的切换更加自然，能够合成具有同一音色的混合语音，自然流畅，降低混合语音的合成成本。

在一实施例中，语音合成装置200还可以包括：音素字典得到模块，包括：音素集生成单元，用于获取至少两种语言所涉及的基础音素，将基础音素进行去重处理，得到混合音素集；音素字典生成单元，用于将混合音素集中的每个基础音素与对应的音素编号进行映射，得到多语言混合音素字典。

在一实施例中，音素集生成单元包括：音素获取子单元和混合音素集得到子单元；其中，音素获取子单元，用于获取第一语言所涉及的第一基础音素和第二语言所涉及的第二基础音素，第一基础音素和第二基础音素包括辅音字母、元音字母和声调中的至少一者；混合音素集得到子单元，用于将字形相同或相似的第一基础音素和第二基础音素进行去重处理，得到混合音素集。

在一实施例中，参数序列生成模块220包括：特征向量转换单元、隐变量序列生成单元和频谱参数序列输出单元；

其中，特征向量转换单元，用于将音素编号序列输入预先训练好的声学模型的音素嵌入层，利用声学模型的音素嵌入层将音素编号序列转换成对应的音素特征向量；隐变量序列生成单元，用于将音素特征向量输入到声学模型的编码器中进行预测，生成音素特征向量对应的隐变量序列；频谱参数序列输出单元，用于将隐变量序列输入到声学模型的解码器，输出音素编号序列对应的频谱参数序列。

在一实施例中，隐变量序列生成单元，用于将音素特征向量输入到声学模型的编码器，结合音素特征向量对应的当前基础音素的相邻上下文音素的关系信息进行预测，生成音素特征向量对应的隐变量序列。

在一实施例中，音素文本转换模块210包括：文本提取单元、文本转换单元以及音素文本生成单元；

其中，文本提取单元，用于提取文本信息中的第一语言文本和第二语言文本；文本转换单元，用于将第一语言文本转换为对应的拼音序列，将第二语言文本转换为国际音标序列；音素文本生成单元，用于将拼音序列和国际音标序列按序拼接起来，得到混合音素文本。

在一实施例中，语音合成装置200还包括：声学模型训练模块，声学模型训练模块包括序列样本获取单元、声学参数得到单元和声学模型得到单元；

其中，序列样本获取单元，用于获取预先设置的作为训练样本的混合音素序列样本及其对应的频谱参数序列样本；声学参数得到单元，用于将混合音素序列样本作为预先设置的多层深度神经网络的输入，将频谱参数序列样本作为多层深度神经网络的输出，得到预测声学参数；声学模型得到单元，用于计算预测声学参数与混合音素序列样本对应的真实声学参数的误差，并通过梯度下降方法更新多层深度神经网络中的参数，训练得到声学模型。

本实施例的语音合成装置可执行本申请前述实施例所示的语音合成方法，其实现原理相类似，此处不再赘述。

本申请实施例中提供了一种电子设备，该电子设备包括：存储器和处理器；至少一个程序，存储于存储器中，用于被处理器执行时，与现有技术相比可实现：合成具有同一音色的混合语音，自然流畅，降低混合语音的合成成本。

在一个可选实施例中提供了一种电子设备，如图5所示，图5所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，本申请实施例实现了能够合成具有同一音色的混合语音，自然流畅，降低混合语音的合成成本。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备，如电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行时实现如下情况：

利用预先编制的多语言混合音素字典查找混合音素文本中各音素对应的音素编号，得到音素编号序列，并基于音素编号序列预测生成频谱参数序列；其中，多语言混合音素字典依据多种语言的基础音素进行编写；

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，音素文本转换模块还可以被描述为“转换音素文本的模块”。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语音合成方法，其特征在于，包括以下步骤：

获取输入的多语言混合的文本信息，将所述文本信息转换为混合音素文本，所述多语言混合的文本信息是通过对用户的多语言混合语音转换得到的；

利用预先编制的多语言混合音素字典查找所述混合音素文本中各音素对应的音素编号得到音素编号序列；其中，所述多语言混合音素字典依据同一用户的多种语言的基础音素进行编写而得，且多种语言的字形相同或相似的基础音素共用同一音素编号；其中，所述音素编号序列中每一音素编号对应的基础音素所属的语言基于所述混合音素文本的上下文确定；

基于所述音素编号序列预测生成频谱参数序列；

利用声码器将所述频谱参数序列转换为对应的时序语音信号，合成同一音色的混合语音。

2.根据权利要求1所述的语音合成方法，其特征在于，还包括：

获取至少两种语言所涉及的基础音素，将所述基础音素进行去重处理，得到混合音素集；

将所述混合音素集中的每个基础音素与对应的音素编号进行映射，得到多语言混合音素字典。

3.根据权利要求2所述的语音合成方法，其特征在于，所述获取至少两种语言所涉及的基础音素，将所述基础音素进行去重处理，得到混合音素集的步骤包括：

获取第一语言所涉及的第一基础音素和第二语言所涉及的第二基础音素，所述第一基础音素和第二基础音素包括辅音字母、元音字母和声调中的至少一者；

将字形相同或相似的所述第一基础音素和所述第二基础音素进行去重处理，得到混合音素集。

4.根据权利要求1所述的语音合成方法，其特征在于，所述基于所述音素编号序列预测生成频谱参数序列的步骤包括：

将所述音素编号序列输入预先训练好的声学模型的音素嵌入层，利用所述音素嵌入层将音素编号序列转换成对应的音素特征向量；

将所述音素特征向量输入到所述声学模型的编码器中进行预测，生成所述音素特征向量对应的隐变量序列；

将所述隐变量序列输入到所述声学模型的解码器，输出所述音素编号序列对应的频谱参数序列。

5.根据权利要求4所述的语音合成方法，其特征在于，所述将所述音素特征向量输入到所述声学模型的编码器中进行预测，生成所述音素特征对应的隐变量序列的步骤包括：

将所述音素特征向量输入到所述声学模型的编码器，结合所述音素特征向量对应的当前基础音素的相邻上下文音素的关系信息进行预测，生成所述音素特征向量对应的隐变量序列。

6.根据权利要求1所述的语音合成方法，其特征在于，所述将所述文本信息转换为混合音素文本的步骤包括：

提取所述文本信息中的第一语言文本和第二语言文本；

将所述第一语言文本转换为对应的拼音序列，将所述第二语言文本转换为国际音标序列；

将所述拼音序列和所述国际音标序列按序拼接起来，得到混合音素文本。

7.根据权利要求1所述的语音合成方法，其特征在于，还包括：

将所述混合音素序列样本作为预先设置的多层深度神经网络的输入，将所述频谱参数序列样本作为所述多层深度神经网络的输出，得到预测声学参数；

计算所述预测声学参数与所述混合音素序列样本对应的真实声学参数的误差，并通过梯度下降方法更新所述多层深度神经网络中的参数，训练得到声学模型。

8.一种语音合成装置，其特征在于，包括：

音素文本转换模块，用于获取输入的多语言混合的文本信息，将所述文本信息转换为混合音素文本，所述多语言混合的文本信息是通过对用户的多语言混合语音转换得到的；

参数序列生成模块，用于利用预先编制的多语言混合音素字典查找所述混合音素文本中各音素对应的音素编号，得到音素编号序列，并基于所述音素编号序列预测生成频谱参数序列；其中，所述多语言混合音素字典依据同一用户的多种语言的基础音素进行编写而得，且多种语言的字形相同或相似的基础音素共用同一音素编号；其中，所述音素编号序列中每一音素编号对应的基础音素所属的语言基于所述混合音素文本的上下文确定；

混合语音合成模块，用于利用声码器将所述频谱参数序列转换为对应的时序语音信号，合成同一音色的混合语音。

9.一种电子设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1-7任一项所述的语音合成方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7任一项所述的语音合成方法。