CN115148185A

CN115148185A - 语音合成方法及装置、电子设备及存储介质

Info

Publication number: CN115148185A
Application number: CN202210483322.0A
Authority: CN
Inventors: 杨丰煜; 朱汐; 王永庆; 王怡苹
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-10-04

Abstract

本公开实施例提供一种语音合成方法、装置、电子设备及计算机可读存储介质，所述消息处理方法包括：获取语障用户输入的文本数据；将所述文本数据输入至语音合成模型，得到合成语音数据；其中，所述合成语音数据和所述文本数据具有相同的语言内容，所述合成语音数据为音频数据；其中，所述语音合成模型为通过机器学习的方法使用样本集对基础模型进行训练得到，所述样本集包括：所述目标语音特征和与所述目标语音特征的语言内容相对应的文本数据，其中所述目标语音特征为预先选择的目标用户的语音特征。

Description

语音合成方法及装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，特别涉及一种语音合成方法、装置、电子设备及计算机可读存储介质。

背景技术

机器学习模型可以用于语音合成，例如，使用音频数据作为样本数据训练预定模型，将得到后续基于文字等合成语音的合成语音。

一方面，在相关技术中，合成语音可能存在的问题，包括：合成语音具有机械发声的特点。或者，合成语音的音色与特定用户自身的音色差异很大。

另一方面，在相关技术中，对于一部分语障用户自身具有发音或者语音表达问题，此时如何获取到语音数据生成机器学习模型能够替代语障用户生成语音，是现有技术中亟待解决的另一个问题。

发明内容

本公开实施例提供一种语音合成方法、装置、电子设备及计算机可读存储介质。

第一方面，本申请提供了一种语音合成方法，该方法可以包括：

获取语障用户输入的文本数据；

将所述文本数据输入至语音合成模型，得到合成语音数据；其中，所述合成语音数据和所述文本数据具有相同的语言内容，所述合成语音数据为音频数据；

其中，所述语音合成模型为通过机器学习的方法使用样本集对基础模型进行训练得到，所述样本集包括：所述目标语音特征和与所述目标语音特征的语言内容相对应的文本数据，其中所述目标语音特征为预先选择的目标用户的语音特征。

在一些可能的实施方式中，所述样本集包括多个样本，每个所述样本包括一个语音文本对；

每个所述语音文本对包括一个音素和与所述音素对应的梅尔谱特征参数，其中，所述音素为对文本进行预处理得到。

在一些可能的实施方式中，所述目标语音特征为从目标语音数据中进行特征提取得到，

所述方法还包括：在多个候选语音数据中进行选择，得到所述目标语音数据在多个候选语音数据中进行选择，得到所述目标语音数据。

在一些可能的实施方式中，在多个候选语音数据中进行选择，得到所述目标语音数据，包括：

将所述语障用户的语音数据和所述多个候选语音数据输入声纹识别模型，得到所述多个候选语音数据与所述语障用户的语音数据的音色相似度；

根据所述音色相似度，从所述多个候选语音数据中确定一个所述目标语音数据。

在一些可能的实施方式中，根据所述音色相似度，从所述多个候选语音数据中确定一个所述目标语音数据，包括：

获取所述语障用户的语音数据；

对所述语障用户的语音数据进行分析，得到第一语音特征；

对所述多个候选语音数据进行分析，得到第二语音特征；

所述将所述语障用户的语音数据和所述多个候选语音数据输入声纹识别模型，得到所述多个候选语音数据与所述语障用户的语音数据的音色相似度，包括：

从所述多个候选语音数据中选择所述第二语音特征与所述第一语音特征输入所述声纹识别模型，从所述语障用户的语音数据和所述多个候选语音数据输入声纹识别模型，得到所述多个候选语音数据与所述语障用户的语音数据的音色相似度。

在一些可能的实施方式中，根据所述音色相似度，在多个候选语音数据中进行选择，得到所述目标语音数据，包括：

根据所述音色相似度，从所述多个候选语音数据选择相似度位于第一相似度区间的候选语音数据作为第一语音数据；

根据第一语音数据所对应的用户属性与所述语障用户的用户属性相似度，从所述第一语音数据中选择相似度位于第二相似度区间的第一语音数据；

根据所述第一语音数据得到所述目标语音数据。

在一些可能的实施方式中，根据第一语音数据的发音用户的用户属性与所述语障用户的用户属性相似性，从所述第一语音数据中选择目标语音数据，包括：

基于语音合成请求，确定第二语音数据；其中，所述语音合成请求用于指示用户的选择结果，所述第二语音数据为所述第一语音数据中符合与所述语音合成请求匹配相匹配的语音数据；

根据所述第二语音数据，得到所述目标语音数据。

在一些可能的实施方式中，根据所述第二语音数据，得到所述目标语音数据，包括：

检测作用于所述第二语音数据的调整指令；

根据所述调整指令，调整所述第二语音数据得到所述目标语音数据，其中，所述调整指令，用于指示调整所述第二语音数据中不同频段声波的占比。

在一些可能的实施方式中，语音合成模型，包括：

文本编码模块，用于从第一音素序列提取语言学信息，并得到表征所述语言学信息的文本编码序列；其中，所述第一音素序列为对文本数据进行预处理后得到；

音素过滤模块，用于对所述文本编码序列进行过滤，得到由声母和/或韵母组成的第二音素序列；

时长预测模块，用于根据所述第二音素序列得到第一时长序列，其中，所述第一时长序列包括：所述第二音素序列中各个音素的时长；其中，所述第二音素序列和所述第一时长序列相加后，得到第一序列；

注意力机制模块，用于接收第一序列，将所述第一序列和基于所述第一序列得到声学特征序列的各个元素对齐后，得到第二序列；所述第二序列包括：各音素的声学特征的帧长；其中，所述声学特征序列的元素包括：音素对应的梅尔谱特征参数；

声学解码模块，用于根据所述第一序列和第二序列，得到所述合成语音数据的声学特征在一些可能的实施方式中，在使用所述目标语音数据训练所述基础模型时，使用音素分类模块根据所述基础模型的音素过滤模型输出的第二音素序列进行音素分类，得到音素分类结果；

根据所述音素分类结果以及所述文本数据对应的标签之间差异，确定损失值；

根据所述损失值，调整所述基础模型的模型参数以得到所述语音合成模型。

第二方面，本申请提供一种语音合成装置，包括用于实施第一方面的任意一种方法的若干个功能单元。语音合成装置可以包括：

获取模块，用于获取语障用户输入的文本数据；

合成模块，用于将所述文本数据输入至语音合成模型，得到合成语音数据；

其中，所述合成语音数据和所述文本数据具有相同的语言内容，所述合成语音数据为音频数据；其中，所述语音合成模型为通过机器学习的方法使用样本集对基础模型进行训练得到，所述样本集包括：所述目标语音特征和与所述目标语音特征的语言内容相对应的文本数据，其中所述目标语音特征为预先选择的目标用户的语音特征。

在一些可能的实施方式中，样本集包括多个样本，每个所述样本包括一个语音文本对；

在一些可能的实施方式中目标语音特征为从目标语音数据中进行特征提取得到，

所述装置还包括：

选择模块，用于在多个候选语音数据中进行选择，得到所述目标语音数据。

在一些可能的实施方式中，选择模块，具体用于：

获取所述语障用户的语音数据；

对所述语障用户的语音数据进行分析，得到第一语音特征；

对所述多个候选语音数据进行分析，得到第二语音特征；

在一些可能的实施方式中，选择模块，具体用于：

根据所述第一语音数据得到所述目标语音数据。

在一些可能的实施方式中，在得到第一语音数据之后，选择模块，具体用于：

根据所述第二语音数据，得到所述目标语音数据。

在一些可能的实施方式中，选择模块，具体用于：

根据反应所述语障用户的语音合成需求的选择输入，从所述第一语音数据中选择第二语音数据；其中，所述第二语音数据为所述选择输入选中的所述第一语音数据；

根据所述第二语音数据，得到所述目标语音数据。

在一些可能的实施方式中，语音合成模型，包括：

声学解码模块，用于根据所述第一序列和第二序列，得到所述合成语音数据的声学特征。

在一些可能的实施方式中，装置还包括：

分类模块，用于在使用所述目标语音数据训练所述基础模型时，使用音素分类模块根据所述基础模型的音素过滤模型输出的第二音素序列进行音素分类，得到音素分类结果；

确定模块，用于根据所述音素分类结果以及所述文本数据对应的标签之间差异，确定损失值；

调整模块，用于根据所述损失值，调整所述基础模型的模型参数以得到所述语音合成模型。

第三方面，本申请还提供一种电子设备，包括：

用于存储处理器可执行指令的存储器；

处理器；其中，处理器被配置为：用于执行可执行指令时，实现如第一方面及其可能的实施方式的方法。

第四方面，本申请提供了一种计算机可读存储介质，计算机可读存储介质存储有可执行程序，其中，可执行程序被处理器执行时实现如第一方面及其可能的实施方式的方法。

本申请实施例提供的技术方案与现有技术相比存在的有益效果是：

在本申请中，获取语障用户输入的文本数据，将所述文本数据输入至语音合成模型，得到合成语音数据，其中，所述合成语音数据和所述文本数据具有相同的语言内容，所述合成语音数据为音频数据，其中，所述语音合成模型为通过机器学习的方法使用样本集对基础模型进行训练得到，所述样本集包括：所述目标语音特征和与所述目标语音特征的语言内容相对应的文本数据，其中所述目标语音特征为预先选择的目标用户的语音特征。如此，可以基于语音合成模型完成发音有障碍的人士输入的文本数据的语音合成，使语障用户能够将所要表达的内容用自己定制的音色表达，提升特殊用户的无障碍沟通体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本申请实施例中的一种语音合成方法的实施例流程示意图。

图2是本申请实施例中的另一种语音合成方法的实施例流程示意图。

图3是本申请实施例中的另一种语音合成模型的结构示意图。

图4是本申请实施例的一种语音合成方法的实施例流程示意图。

图5为本申请实施例中一种语音合成模型的训练和使用阶段的示意图。

图6是本申请实施例中的一种语音合成装置的结构示意图。

图7是本申请实施例中的一种电子设备结构示意图。

具体实施方式

以下描述中，参考形成本申请一部分并以说明之方式示出本申请实施例的具体方面或可使用本申请实施例的具体方面的附图。应理解，本申请实施例可在其它方面中使用，并可包括附图中未描绘的结构或逻辑变化。因此，以下详细描述不应以限制性的意义来理解，且本申请的范围由所附权利要求书界定。例如，应理解，结合所描述方法的揭示内容可以同样适用于用于执行所述方法的对应设备或装置，且反之亦然。例如，如果描述一个或多个具体方法步骤，则对应的设备可以包含如功能单元等一个或多个单元，来执行所描述的一个或多个方法步骤(例如，一个单元执行一个或多个步骤，或多个单元，其中每个都执行多个步骤中的一个或多个)，即使附图中未明确描述或说明这种一个或多个单元。另一方面，例如，如果基于如功能单元等一个或多个单元描述具体装置，则对应的方法可以包含一个步骤来执行一个或多个单元的功能性(例如，一个步骤执行一个或多个单元的功能性，或多个步骤，其中每个执行多个单元中一个或多个单元的功能性)，即使附图中未明确描述或说明这种一个或多个步骤。进一步，应理解的是，除非另外明确提出，本文中所描述的各示例性实施例和/或方面的特征可以相互组合。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

语音合成(Text To Speech，TTS)，即“从文本到语音”，是人机对话的一部分，让机器能够说话。语音合成技术和语音识别技术是实现人机语音通信，建立一个有听和讲能力的口语系统所必需的两项关键技术。使计算机设备具有类似于人一样的说话能力。

在进行语音合成的过程中，需要先获取包含用户录音的音频数据和对应的文本的文本音频对作为训练数据，通过机器学习的方法将训练数据输入用大量数据预训得到语音合成模型。然和针对语障用户，语障用户存在语言障碍，例如，声带受损无法发声，或者不会说话等。如此，无法采集到语障用户的语音数据进行模型训练，这使得语障用户使用的合成语音模型产生的合成语音，并不能体现语障用户自身的声音特点。

有鉴于此，本申请实施例提供了一种语音合成方法，以解决上述问题。

参见图1所示，本申请实施例提供的一种语音合成方法，可以包括：

S101，获取语障用户输入的文本数据；

S102，将所述文本数据输入至语音合成模型，得到合成语音数据；其中，所述合成语音数据和所述文本数据具有相同的语言内容，所述合成语音数据为音频数据；

其中，其中，所述语音合成模型为通过机器学习的方法使用样本集对基础模型进行训练得到，所述样本集包括：所述目标语音特征和与所述目标语音特征的语言内容相对应的文本数据，其中所述目标语音特征为预先选择的目标用户的语音特征。

该语音合成方法可由终端设备或者服务器等电子设备执行。终端设备可以为用户设备 (User Equipment，UE)、个人数字处理(Personal Digital Assistant，PDA)、手持设备、可穿戴设备等。服务器可以用独立的服务器或多个物理服务器组成的服务器集群来实现。

从电子设备的用户界面(User Interface，UI)接收用户输入的文本数据，例如，通过实体键盘或者显示的虚拟键盘输入的文本数据。该文本数据可为各种语音合成模型能够识别的语言输入的数据。例如，该文本数据可为汉字输入的文本数据或者英文的文本数据。

所述语音合成模型包括但不限于：机器学习模型。总之，所述语音合成模型可为能够将输入数据转换为合成语音数据的模型。

本公开实施例提供的语音合成模块就是语音合成(Text To Speech，TTS)技术的一种，即“从文本到语音”，是人机对话的一部分。

示例性地，当电子设备获取到语障用户的输入数据时启动了语音合成功能，则将文本数据转换成适用于语音合成模型的输入序列，并输入所述语音合成模型；所述语音合成模型基于自身的模型参数对所述输入序列经过一系列计算处理之后，输出所述合成语音数据。

在本公开实施例中，所述目标用户不同于所述语障用户，所述语音合成模型是利用目标用户的语音数据训练生成的。

语障用户具有语言障碍功能，可能因为听不见不知道怎么说话，或者由于声带异常等问题不能说话。在本公开实施例中，可以使用语音合成模型在获取到语障用户的文本数据之后，生成模拟语障用户说话的合成语音数据。

目标用户是可以正常说话的用户。

所述合成语音数据为具有语障用户发音特点的语音数据。通过扬声器或者耳机输出之后，能够产生模拟语障用户说话的效果，如此，可以基于语音合成模型完成发音有障碍的人士输入的文本数据的语音合成，使语障用户能够将所要表达的内容用自己定制的音色表达，提升特殊用户的无障碍沟通体验。

在使用所述语音合成模型之前，需要训练得到所述语音合成模型。

所述基础模型可为使用大量的用户的语音数据完成了训练的一个通用语音模型。采用目标语音数据继续训练，就可以使得训练之后的语音合成模型可以输出语障用户想要的音色的语音合成模型。

示例性地，所述样本集包括多个样本，每个所述样本包括一个语音文本对；

梅尔谱特征参数为一种反映声音特点的参数。

所述预处理包括但不限于以下至少之一：

对语音文本的分词、词性预测、韵律词预测、韵律短语预测、语调短语预测和/或文字转音素等处理。

在一个实施例中，所述目标语音特征为从目标语音数据中进行特征提取得到，

所述方法还包括：

在多个候选语音数据中进行选择，得到所述目标语音数据。

例如预先设置了多个语音数据库，在语音数据库内具有很多候选语音数据。

本公开实施例中，所述目标语音数据就是从候选语音数据库中选择的。

示例性地，预先建立了各种语音数据捐赠者的语音数据库，该语音数据库内每一条语音都可以作为所述候选语音数据。

所述在多个候选语音数据中进行选择，得到所述目标语音数据，包括：

将所述语障用户的语音特征和所述多个候选语音数据的语音特征输入声纹识别模型，得到所述多个候选语音数据与所述语障用户的语音数据的音色相似度；

参考图2所示，在使用所述声纹识别模型得到所述音色相似度之前，所述方法还包括：

S201：获取所述语障用户的语音数据；

S202：对所述语障用户的语音数据进行分析，得到第一语音特征；

S203：对所述多个候选语音数据进行分析，得到第二语音特征；

S204：从所述多个候选语音数据中选择所述第二语音特征与所述第一语音特征输入所述声纹识别模型，得到所述多个候选语音数据与所述语障用户的语音数据的音色相似度；

S205：根据所述音色相似度，从所述多个候选语音数据中确定一个所述目标语音数据。

例如，所述语障用户可能发出简单的语音，例如，“啊啊”、“嗯嗯“、“啊咦”等语音，这些语音数据采集到之后，可以用于所述语障用户的语音特征的提取。

在本公开实施例中，第一语音特征和第二语音特征可为采用相同的语音特征提取方式提取的特征，该特征包括各种声学特征。

例如，通过对语音数据的预加重、分帧、加窗、傅里叶变化、能量谱计算以及梅尔滤波以及取对数等处理，可以得到上述第一语音特征和第二语音特征。

将提取的第一语音特征和第二语音特征共同输入到声纹识别模型中，得到声纹识别模型输出的音色相似度等反映语障用户和目标用户之间的声音特点相似度的特征，从而方便从多个备选语音数据中选择出用于训练基础模型的目标语音数据。

在一些实施例中，第一语音特征和第二语音特征还可包括：

音量响度、基频(音调)、声道长度和共振峰值等参数，选出所述目标用户，并选择目标用户的语音数据作为所述目标语音数据。

在一些实施例中，所述多个候选语音数据中选择一个所述目标语音数据，包括：

根据所述第二语音数据，得到所述目标语音数据。

在一个实施例中，可直接选择音色相似度最高的候选语音数据作为所述目标语音数据。

在本公开实施例中会进一步根据用户属性相似度选择目标语音数据。

在一些实施例中，第一相似度区间可包括：大于第一相似度阈值的区间。例如，第一相似度阈值可为50％、60％、70％或者80％等。

在另一些实施例中，第二相似度区间可包括：第二相似度阈值的区间，例如，第二相似度阈值可为55％、75％、80％或者85％等取值。

在本实施例中，发音者的身高和体重都会决定声音特点。因此，可以根据语音相似度选择出语音相似度从高到低排序最高的多个候选用户的候选语音数据作为所述第一语音数据。

进一步地，根据用户属性，从第一语音数据中进行进一步选择，从而得到目标语音数据。

示例性地，所述用户属性包括：用户属性可包括但不限于：性别、年龄、学历和/或地域等基础属性。

进一步地，该用户属性还包括：用户身高、体重和/或体型等会影响用户发音的非基础属性。

可以将一个或多个用户属性映射到特征空间，计算候选用户和语障用户的用户属性映射到特征空间内的特征向量之间的距离，得到用户属性相似性。

在一个实施例中，选择用户属性相似性最高的第一语音数据得到所述目标语音数据；

在另一个实施例中，根据用户属性相似度和音色相似度进行加权求和计算，得到加权求和值最高的候选用户作为目标用户，然后根据目标用户的语音数据确定目标语音数据。

在本公开实施例中，不仅会结合音色还会结合用户属性来确定目标用户，从而能够选择更符合语障用户需求的目标语音数据，从而使得语音合成模型的语音合成效果更佳。

在一个实施例中，，在得到第一语音数据之后，所述方法还包括：

根据所述第二语音数据，得到所述目标语音数据。

例如结合音色相似性和用户属性，选择出多个目标用户的候选用户，此时可以进一步获取语音合成请求；该语音合成请求可以根据语障用户的选择输入或者语障用户的亲友的选择输入确定。根据语音合成请求将进一步从第一语音数据中进一步选择出一个目标用户的第二语音数据。

例如，采用音箱等音频输出设备输出第一语音数据，语障用户或者语障用户的亲友可以根据自己的喜好选择一个第一语音数据作为所述第二语音数据。因而，所述选择输入反映的是语障用户的语音合成请求。该语音合成请求体现了用户的语音合成相关需求。

在一个实施例中，可以直接将第二语音数据作为目标语音数据，用于基础模型的训练。

在本实施例中，为了考虑目标用户的隐私保护等，还会进一步对语音数据的声音特点进行调整。

此时根据调整指令，调整所述第二语音数据得到调整后的第二语音数据，该调整后的第二语音数据即为所述目标语音数据。

故在一些实施例中，根据第一语音数据的发音用户的用户属性与所述语障用户的用户属性相似性，从所述第一语音数据中选择目标语音数据，包括：

检测作用于所述第二语音数据的调整指令；

例如，检测作用于UI界面的调整指令，该调整指令可为任意调整所述第二语音数据的音色的调整指令。用户的音色取决于声音的频率的占比，因此该调整指令可用于调整第二语音中不同声波频段的占比。

电子设备可根据调整指令，确定调整参数。该调整参数至少可用于调整第二语音数据的音色。

所述调整参数可包括：一个或多个调整所述第二语音数据的不同音波频段的频率在声音中占比，就生成一个新的语音数据，该新的语音数据就是前述目标语音数据。

例如，即便音色最接近的不同用户，在说话时的语气、情感、力度等方面总会存在细微差别，而这些差别便体现在声音的不同频段在声音中的占比。

例如，声波的6kHz-16kHz频段内，频率成分的变化影响的是音色表现力、解析力。在此频段内，过弱音色就会表现为没有色彩和个性；过强会尖噪刺耳。

声波的600HZ-6kHz频段内，频率成分的变化影响音色明亮度、清晰度；过弱时音色就暗淡、朦胧；过强就会表现为呆板。

声波的200Hz-600Hz，频率成分的变化影响的是音色的力度和结实度；过弱时音色就会表现为空虚、无力；过强则会生硬、没活力。

在20Hz-200HZ，频率成分的变化影响的是音色的浑厚度和丰满度；过弱时音色会表现为单薄、苍白；过强则会浑浊不清。

示例性的，对于声音均衡器的调整可以采用现有的音频处理工具，例如声音转换器(S ound eXchange，SoX)等。在对声音均衡器进行调整时，音频处理工具可以分别显示各个频段调整进度条，在进度条上显示拖动按钮。那么此时，调整指令便是基于对该调整进度条上的按钮的拖动操作。另外，对声音均衡器进行调整也可以是在音频处理工具上显示可以修改具体数值的数值框，通过修改具体数值实现对声音均衡器进行调整。此时，调整指令便是基于对均衡器具体数值修改的操作。

参考图3所示，本公开实施例中训练好的所述语音合成模型，包括：

音素过滤模块，用于对所述文本编码序列进行过滤，得到声母和/或韵母组成的第二音素序列；

本公开实施例提供的语音合成模型包括上述模块，上述模块完成上述操作之后，就可以将文本数据转换成合成语音数据。

文本数据在输入到文本编码模块之前，会通过文本分析模块进行相关的预处理，从而转换成第一音素序列。该预处理至少包括文字到音素的转换。进一步地，该预处理还包括但不限于：分词、词性预测、文字到音素的转换等。

所述文本编码模块提取的语音学信息包括但不限于：句法信息和/或语法信息。

音素过滤模块位于文本编码模块的后端，用于过滤掉文本编码序列中的音调和韵律，保留下声母和韵母组成的第二音素序列。

所述第一时长序列中包含的时长为单个音素的发音时长。

注意力机制模块基于注意力机制对第一序列进行处里，将第一序列转换为第二序列，从而得到各个音素的声学特征的帧长，可最终供声学解码模块得到合成语音的声学特征。最终语音合成模块会以该声学特征，将文本数据转换为合成语音数据。

合成语音数据是一种音频数据。

在一个实施例中，所述方法还包括：

在使用所述目标语音数据训练所述基础模型时，使用音素分类模块根据所述基础模型的音素过滤模型输出的第二音素序列进行音素分类，得到音素分类结果；

在一个实施例中，音素分类模块在合成语音模型使用阶段是不包含在合成语音模型中的。

在另一个实施例中，音素分类模块在训练阶段连接在音素过滤模块后端，用于基于音素过滤模块输出的音素，进行当前模型的音素处理等损失值的计算。

示例性地，若损失值大于损失阈值，则使用样本集继续训练，否则可以停止训练。

又示例性地，若损失值已经达到了最小值，同样可以停止训练，否则继续训练。

例如，音素分类结果可区别出各个音素的具体类别，该类别包括但不限于：声母和/ 或韵母等。所述文本数据对应的标签可为专家标记的标签等。

所述音素分类结果以及所述文本数据对应的标签之间差异可包括以下至少之一：

音素分类结果对应的音素分类与标签的匹配个数；

音素分类结果对应的音素分类与标签的匹配率；

音素分类结果对应的音素分类与标签的错误个数。

以上都可以用作音素分类结果以及所述文本数据对应的标签之间差异确认，若差异越大则损失值越大，若差异越小则损失值越小。

下面结合一个优选的实施例，对上述实施例涉及到的内容进行说明。

图4为本申请实施例的语音合成的一个流程示意图，上述语音合成方法可以包括：

电子设备首先获取语障用户的语音数据以及用户属性信息。

示例性的，语障用户为语言障碍者，即无法像正常人一样说话，只能够发出例如：“啊吧啊吧”的语音数据。本发明可以应用在语障用户A借助人工智能(AI)电话助理和用户B(可为语言无障碍功能的用户)进行语音通话的场景中，具体的步骤如下：

当设备接收到用户B的语音信息后，AI电话助理对用户B的语音进行语音识别，并将识别结果转化成语音文字呈现；

语障用户A看到用户B的语音文本后，将自己想要表达的内容的文本数据，输入到文本输入区之后点击发送。该文本数据可以是AI电话助理预先根据用户B的语音文本智能生成的文本答复语，也可以是用户A自己通过输入键盘编辑的文本数据。

AI电话助理将输入文本数据送入到用户预先定制的语音合成模型中，由语音合成模型将文字数据转成合成语音数据。从而使得语障用户A能将所表达的内容用自己定制的音色传达给对方(用户B)，进行无障碍的沟通。

本公开实施例如下部分提供确定目标语音的具体实现方案：

S1，提取声音参数，具体的，如果语障用户可以简单的发声，则获取语障用户的语音数据，例如“啊吧啊吧啊吧”的语音数据；

S2，对获取的语音数据进行分析，提取声学参数(例如，Fbank特征)。音频经过预加重、分帧和加窗、傅里叶变换、计算能量谱、梅尔滤波和取对数的操作后即可获得用于训练的声学参数(例如，Fbank特征)。

S3，获取多个捐献者(候选用户)的声音参数，用上述同样的方法提取声学参数(例如，Fbank特征)。

S4，分别计算语障用户和多个捐献者的音色相似度，根据预设的相似度阈值筛选出符合阈值范围内的相似度值对应的捐献者的音色当做初筛结果。

根据预设的相似度阈值筛选出符合阈值范围内的相似度值对应的捐献者的音色当做初筛结果可包括：将捐献者的声音参数和聋哑人的声学参数输入预先训练好的声纹识别模型，输出捐献者和聋哑人的音色相似度值。

其中，声纹识别模型可以采用X向量(X-VECTORS)模型。该模型也是经过机器学习得到，是将大量不同说话人的语音数据训练的一个神经网络的分类模型。

该分类模型可包含多层帧级别的时间延迟网络(time-delay neural network，TDNN) 层，一个统计池化层和两层句子级别的全连接层，以及一层softmax层。

该分类模型训练时使用的损失函数为CE交叉熵。

音色相似度得分计算，是将受捐者和捐献对象的语音数据提取的fbank参数输入上述的X-VECTORS模型中，将第1层全连接层输出的编码作为其语音特征表达，计算两个语音特征表达的PLDA得分。受捐者(语障用户)和捐献对象(候选用户)的语音数据输入模型后会得到一个相似度值。基于相似度值选择出部分捐献对象的语音数据作为进一步的候选。

S5，收集捐献者和聋哑人的年龄、身高和体重等用户属性，从初筛结果中选出外形特征与聋哑人最接近的若干捐献者。

S6，与用户一起讨论，从二筛结果中选定某一个音色作为基础音色。并与用户和用户的朋友共识调音方向(比如用户自己想象中的声音是干净偏沉稳、不尖锐、洪亮、有情绪表达，吐字清晰、羸弱有力量；用户朋友对用户声音的想象是坚定、阳光、清爽、通透、文质彬彬)

S7，根据用户和用户朋友的反馈信息利用sox工具对不同频段的均衡器进行调整，调整音色，得到用户想要的目标音色，并与用户最终确认。

从音色到声音参数多维度匹配，使得合成语音数据具有括阳光、有活力、有无地方口音等声音特点。

分频段均衡器包括：

S8，根据用户确定的目标音色，为该用户训练一个能合成目标音色的语音合成模型。

由语障用户针对目标用户的语音数据的音色进行评价，确定目标用户语音数据不同音波频段的均衡器如何调整，获得第三语音数据。例如，语障用户认为自己的声音是干净偏沉稳，则电子设备通过音频处理工具sox对目标用户语音数据6kHz-16kHz的频率进行调整，或者，语障用户认为自己的声音应该是洪亮，有情绪表达，则电子设备通过音频处理工具sox对目标用户语音数据200-600Hz的频率进行调整。直至符合语障用户要求。

图5为本申请实施例中语音合成模型的结构模型示意图，参见图5所示：

语音合成模型包括：文本分析模块、文本编码模块、音素过滤模块、音素分类模块、时长预测模块、注意力机制模块以及声学编码模块。各个模块均是不同模型结构的神经网络，具有不同的作用。

电子设备将获取到的语障用户的文本数据，通过文本分析模块进行处理，将该输入数据转换成适用于语音合成模型的音素序列，即第一输入数据。

文本分析模块对输入数据的处理过程包括：分词、词性预测、韵律词预测、韵律短语预测、语调短语预测、文字转音素等。

文本编码模块利用神经网络对经上述文本分析模块处理后的语障用户的输入数据获得的音素序列进行处理，从音素序列中提取语言学的信息。

语言学信息是指基于发音标注和韵律标注提取的一种语言学上的特征信息，例如音素序列、声调和停顿。

音素过滤模块用于将提取出语言学信息的音素序列中的音调和韵律标记过滤，只剩下由声母和韵母组成的音素。获取到过滤后的音素后，分别通过音素分类模块对音素进行分类以及时长预测模块分析每一音素对应的时长。其中，音素分类模块用于将从音素过滤模块获得的只包含声母和韵母组成的音素，按总的音素的类别进行分类，将相同的音素聚类不同的音素分类，起到信息强化的作用。时长预测模块与音素分类模块针对音素的处理可以是同步进行的。

注意力机制模块用于预测每一个音素对应的哪几帧从音频中提取的声学参数。

声学解码模块将从上述音素过滤模块、音素分类模块、时长预测模块、注意力机制模块全面获取到的信息解码成后续转换成音频所需的声学参数例如梅尔倒谱参数。

第一输出数据即为最终可以转换成第一音频数据的梅尔谱参数，预测的梅尔谱参数和真实的梅尔谱参数之间需要计算一个损失函数。第四输入数据即为偏移梅尔倒谱，也就是所述需要计算的损失函数。

第二输出数据是每一个音素对应的时间长度，预测的时长和真实的时长之间需要计算一个损失函数。

第三输出数据同样是每一个音素对应的时间长度，第三输出数据还包括表达每一个音素对应的那几帧从音频中提取的声学参数，预测的时长和真实的时长之间需要计算一个损失函数，用来加强时长的学习

第四输出数据是音素分类的结果，预测的音素分类和真实的音素分类之间需要计算一个损失函数。

上述模型将输入数据转换成合成语音数据的过程，即利用了注意力机制的灵活性，又利用显示的时长信息。同时，以单调注意力机制为基础，也对每一帧的时长信息加以利用，对于和成的合成语音数据，能够取得更高的自然度。

在图5中虚线框或者虚线箭头代表的是在模型训练过程中才会涉及，而实线框和实线箭头是语音合成模型上线之后才会使用到的。

至此，便实现了上述语音合成方法合成语音的过程。

基于相同的发明构思，本申请实施例提供一种语音合成装置，该语音合成装置包括用于实施上述语音合成方法的若干个功能单元。

图6为本申请实施例中的一种消息处理装置的结构示意图，参见图6所示，该语音合成装置600可以包括：

获取模块601，用于获取语障用户输入的文本数据；

合成模块602，用于将所述文本数据输入至语音合成模型，得到合成语音数据；

所述装置还包括：

在一些可能的实施方式中，所述选择模块，具体用于：

获取所述语障用户的语音数据；

对所述语障用户的语音数据进行分析，得到第一语音特征；

对所述多个候选语音数据进行分析，得到第二语音特征；

在一些可能的实施方式中，所述选择模块，具体用于：

根据所述第一语音数据得到所述目标语音数据。

在一些可能的实施方式中，在得到第一语音数据之后，所述选择模块，具体用于：

根据所述第二语音数据，得到所述目标语音数据。

在一些可能的实施方式中，所述选择模块，具体用于：

检测作用于所述第二语音数据的调整指令；

在一些可能的实施方式中，所述语音合成模型，包括：

在一些可能的实施方式中，所述装置还包括：

需要说明的是，第一获取模块601、生成模块602的具体实现过程可参考图1至图4实施例的详细描述，为了说明书的简洁，这里不再赘述。

基于相同的发明构思，本申请实施例提供一种电子设备，该电子设备可以与上述一个或者多个实施例中所述的语音合成方法一致。

图7为本申请实施例中的一种电子设备结构示意图，参照图7，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，多媒体数据组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820 来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器 (EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作状态，如拍摄状态或视频状态时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

多媒体数据组件810被配置为输出和/或输入多媒体数据信号。例如，多媒体数据组件810包括一个麦克风(MIC)，当电子设备800处于操作状态，如呼叫状态、记录状态和语音识别状态时，麦克风被配置为接收外部多媒体数据信号。所接收的多媒体数据信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，多媒体数据组件810还包括一个扬声器，用于输出多媒体数据信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800 或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如Wi-Fi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA) 技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成上述方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本公开实施例提供一种计算机存储介质，该计算存储介质可为非临时性计算机可读存储介质，当存储介质中的指令由服务器或终端的处理器执行时，使得电子设备能够执行前述任意技术方案提供的语音合成方法。

获取语障用户输入的文本数据；

在一个实施例中，所述样本集包括多个样本，每个所述样本包括一个语音文本对；

所述方法还包括：在多个候选语音数据中进行选择，得到所述目标语音数据。

在一个实施例中，所述在多个候选语音数据中进行选择，得到所述目标语音数据，包括：

在一个实施例中，所述根据所述音色相似度，从所述多个候选语音数据中确定一个所述目标语音数据，包括：

获取所述语障用户的语音数据；

对所述语障用户的语音数据进行分析，得到第一语音特征；

对所述多个候选语音数据进行分析，得到第二语音特征；

在一个实施例中，所述根据所述音色相似度，从所述多个候选语音数据中选择一个所述目标语音数据，包括：

根据所述第一语音数据得到所述目标语音数据。

可以理解地，

在得到第一语音数据之后，所述方法还包括：

根据所述第二语音数据，得到所述目标语音数据。

可以理解地，所述根据所述第二语音数据，得到所述目标语音数据，包括：

检测作用于所述第二语音数据的调整指令；

可以理解地，所述语音合成模型，包括：

在一个实施例中，所述方法还包括：

本领域技术人员可以理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

以上所述，仅为本申请示例性的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

获取语障用户输入的文本数据；

2.根据权利要求1所述的方法，其特征在于，

所述样本集包括多个样本，每个所述样本包括一个语音文本对；

3.根据权利要求1所述的方法，其特征在于，

所述目标语音特征为从目标语音数据中进行特征提取得到，

4.根据权利要求3所述的方法，其特征在于，所述在多个候选语音数据中进行选择，得到所述目标语音数据，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述音色相似度，从所述多个候选语音数据中确定一个所述目标语音数据，包括：

获取所述语障用户的语音数据；

对所述语障用户的语音数据进行分析，得到第一语音特征；

对所述多个候选语音数据进行分析，得到第二语音特征；

从所述多个候选语音数据中选择所述第二语音特征与所述第一语音特征输入所述声纹识别模型，得到所述多个候选语音数据与所述语障用户的语音数据的音色相似度。

6.根据权利要求3至5任一项所述的方法，其特征在于，所述根据所述音色相似度，在所述多个候选语音数据中进行选择，得到所述目标语音数据，包括：

根据所述第一语音数据得到所述目标语音数据。

7.根据权利要求6所述的方法，其特征在于，在得到第一语音数据之后，所述方法还包括：

根据所述第二语音数据，得到所述目标语音数据。

8.根据权利要求7所述的方法，其中，所述根据所述第二语音数据，得到所述目标语音数据，包括：

检测作用于所述第二语音数据的调整指令；

9.根据权利要求1所述的方法，其特征在于，所述语音合成模型，包括：

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

11.一种语音合成装置，其特征在于，所述装置包括：

获取模块，用于获取语障用户输入的文本数据；

12.一种电子设备，其特征在于，包括：

用于存储处理器可执行指令的存储器；

处理器，与所述存储器连接；其中，所述处理器被配置为执行如权利要求1至10中任一项所述的方法。

13.一种非临时性计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至10中任一项所述的方法。