CN109979428A

CN109979428A - 音频生成方法和装置、存储介质、电子设备

Info

Publication number: CN109979428A
Application number: CN201910262772.5A
Authority: CN
Inventors: 胡大盟; 袁武文
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2019-04-02
Filing date: 2019-04-02
Publication date: 2019-07-05
Anticipated expiration: 2039-04-02
Also published as: CN109979428B

Abstract

本公开实施例公开了一种音频生成方法和装置、存储介质、电子设备，其中，方法包括：确定多个音素片段中每个音素片段对应的多个预选波形片段，所述多个音素片段通过待转换文本得到；对于每个所述音素片段，基于所述音素片段的时长信息对所述多个预选波形片段进行时长过滤，从所述多个预选波形片段中获得所述音素片段对应的多个过滤波形片段；基于每个所述音素片段对应的多个过滤波形片段，确定所述待转换文本对应的音频波形。本公开实施例基于时长过滤获得的多个过滤波形片段，确定的目标音频波形更自然、更接近真人语音，提高了用户体验。

Description

音频生成方法和装置、存储介质、电子设备

技术领域

本公开涉及语音技术，尤其是一种音频生成方法和装置、存储介质、电子设备。

背景技术

随着智能化设备的普及以及语音识别技术的发展，人们的交互方式已经慢慢从传统的文本转向了更人性化的语音交互方式，语音交互属于更符合人类之间的交互方式，能够提高交互效率和用户体验。为了实现将文字交互转换为语音交互，可将文本信息通过语音合成技术转换为音频信息，语音合成技术能够让机器拥有发声的功能，改变了传统的文字交互方式。

发明内容

传统的语音合成技术主要基于隐马尔科夫链对声学特征进行建模，但这种方法并不能挑选时长较好的波形片段，使得拼接生成的音频存在不自然的问题。

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种音频生成方法和装置、存储介质、电子设备。

根据本公开实施例的一个方面，提供的一种音频生成方法，包括：

获得待转换文本对应的多个音素片段，确定所述多个音素片段中每个音素片段对应的多个预选波形片段；

对于每个所述音素片段，预测所述音素片段的时长信息，基于所述时长信息对所述多个预选波形片段进行时长过滤，从所述多个预选波形片段中获得所述音素片段对应的多个过滤波形片段；

基于每个所述音素片段对应的多个过滤波形片段，确定所述待转换文本对应的目标音频波形。

根据本公开实施例的另一方面，提供的一种音频生成装置，包括：

波形预选模块，用于确定所述多个音素片段中每个音素片段对应的多个预选波形片段，所述多个音素片段通过待转换文本得到；

时长过滤模块，用于对于每个所述音素片段，基于所述音素片段的时长信息对所述波形预选模块确定的多个预选波形片段进行时长过滤，从所述多个预选波形片段中获得所述音素片段对应的多个过滤波形片段；

波形获得模块，用于基于所述时长过滤模块获得的每个所述音素片段对应的所述多个过滤波形片段，确定所述待转换文本对应的音频波形。

根据本公开实施例的又一方面，提供的一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一项实施例所述的音频生成方法。

根据本公开实施例的还一方面，提供的一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于运行时所述计算机程序指令使得所述处理器执行如上述任一项实施例所述的音频生成方法。

基于本公开上述实施例提供的一种音频生成方法和装置、存储介质、电子设备，获得待转换文本对应的多个音素片段，确定多个音素片段中每个音素片段对应的多个预选波形片段；对于每个音素片段，预测音素片段的时长信息，基于时长信息对多个预选波形片段进行时长过滤，从多个预选波形片段中获得音素片段对应的多个过滤波形片段，通过对预选波形片段进行时长过滤，使获得的构成目标音频波形的过滤波形片段的时长更合理；基于时长过滤获得的多个过滤波形片段，确定的目标音频波形更自然、更接近真人语音，提高了用户体验。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开一示例性实施例提供的音频生成系统的结构示意图。

图2是本公开一示例性实施例提供的音频生成方法的流程示意图。

图3是本公开图2所示实施例中步骤202的流程示意图。

图4是本公开图3所示实施例中步骤2024的流程示意图。

图5是本公开图2所示实施例中步骤203的流程示意图。

图6是本公开一示例性实施例提供的音频生成方法中获得音素片段的示意图。

图7是本公开图2所示实施例中步骤201的流程示意图。

图8是本公开另一示例性实施例提供的音频生成方法的流程示意图。

图9是本公开一示例性实施例提供的音频生成装置的结构示意图。

图10是本公开另一示例性实施例提供的音频生成装置的结构示意图。

图11是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

在实现本公开的过程中，发明人发现，在给定足够多的高品质语音数据的前提下，单元挑选合成(Unit selection synthesis)能够产生较高质量的声音，因此单元挑选语音合成是目前商业产品中使用最广泛的语音合成技术。传统的基于单元挑选的语音合成技术主要为基于马尔科夫链对声学特征进行建模，该方法提高了传统拼接合成方法的合成效果，并且可以实现系统的自动构建和语种的无关性。

基于马尔可夫链的单元挑选方法，至少存在以下问题：

由于模型的参数有限，采用了决策树对部分音素的特征进行了合并，这导致其并不能完全拟合音素的声学特征。因此挑选出的波形单元并不一定是较好的单元，使得最后进行拼接生成的音频存在不自然的连接，影响听感。

示例性系统

图1是本公开一示例性实施例提供的音频生成系统的结构示意图。在该系统中，通过以下步骤实现音频生成。101，文本分析，对输入文本进行音素分析，获得音素片段(例如，五音素)。102，音素预选，基于音素片段从波形片段库中筛选获得多个音频波形片段。103，时长过滤，利用时长网络对音素片段进行时长预测，用预测得到的目标音素时长对音频波形片段进行过滤。104，确定目标损失，根据训练好的目标损失模型，获得每个音频波形片段的目标损失。105，确定拼接损失，利用拼接损失模型(对应连接神经网络)，确定拼接损失。106，最优路径搜索，获得目标损失和拼接损失最小的路径，获得最优的音频波形片段串。107，波形拼接，采用波形拼接算法对最终获得的音频波形片段进行平滑拼接，生成音频。其中，时长预测网络、目标神经网络和连接神经网络经过训练，对这三个网络可以分别训练或联合训练，可选地，训练过程可以包括：首先对训练语料库中的文本进行音段、韵律等获得音素特征，对训练语料库中的音频提取梅尔幅度谱获得声学特征；分别构建时长预测的时长预测网络、目标神经网络和连接神经网络；针对时长预测网络设计最小二乘损失函数；针对目标神经网络的损失和连接神经网络的损失设计高斯分布损失函数。

示例性方法

图2是本公开一示例性实施例提供的音频生成方法的流程示意图。本实施例可应用在音频处理设备等电子设备上，如图2所示，包括如下步骤：

步骤201，确定多个音素片段中每个音素片段对应的多个预选波形片段。

其中，多个音素片段通过待转换文本得到。其中，预选波形片段中包括多个音素，每个预选波形片段中至少一个音素与音素片段相同。

步骤202，对于每个音素片段，基于音素片段的时长信息对多个预选波形片段进行时长过滤，从多个预选波形片段中获得音素片段对应的多个过滤波形片段。

在一实施例中，音素片段包括多个音素，例如，包括5个音素等，本公开实施例不限制音素片段包括的音素个数；可选地，音素片段存在对应的时长信息，通过时长信息对预选波形片段进行时长过滤，实现了获得的过滤波形片段的时长信息更接近音素片段。

步骤203，基于每个音素片段对应的多个过滤波形片段，确定待转换文本对应的音频波形。

可选地，每个音素片段在待转换文本中对应不同的位置顺序，按照音素片段的位置顺序连接其对应的过滤波形片段，即可获得多个音频波形，本公开实施例可以将多个音频波形都作为待转换文本对应的音频波形，或者从多个音频波形中筛选效果最好的一个或多个作为待转换文本对应的音频波形。

基于本公开上述实施例提供的一种音频生成方法，获得待转换文本对应的多个音素片段，确定多个音素片段中每个音素片段对应的多个预选波形片段；对于每个音素片段，预测音素片段的时长信息，基于时长信息对多个预选波形片段进行时长过滤，从多个预选波形片段中获得音素片段对应的多个过滤波形片段，通过对预选波形片段进行时长过滤，由于经过时长过滤的预选波形片段的时长更接近音素片段的时长，使获得的构成目标音频波形的过滤波形片段的时长更合理；基于时长过滤获得的多个过滤波形片段，确定的目标音频波形更自然、更接近真人语音，提高了用户体验。

如图3所示，在上述图2所示实施例的基础上，步骤202可包括如下步骤：

步骤2021，利用时长预测网络对音素片段进行时长预测，获得音素片段的时长信息。

在一实施例中，可以在实现本实施例之前，对时长预测网络进行训练，以提高时长预测网络预测的时长信息的准确性。具体地，对时长预测网络的训练可以包括：

将样本音素片段输入至时长预测网络，通过时长预测网络获得样本音素片段的预测时长；

从样本音素片段中确定标注时长；

基于预测时长和标注时长对时长预测网络进行训练。

通过具有标注时长的样本音素片段对时长预测网络进行训练，该标注时长可以是基于人工标注获得的，或其他方式获得的，本实施例不限制获得标注时长的具体方式；基于预测时长和标注时长的差别可确定时长预测网络的损失，利用该损失对时长预测网络的网络参数进行调整，直到获得满足停止训练的条件(例如，预测时长和标注时长的差别小于预设值等)，获得训练后的时长预测网络，以训练后的时长预测网络对音素片段进行时长预测，可获得更准确的时长信息。

可选地，时长预测网络可以任意深度神经网络，例如，时长预测神经网络可以包括四层全连接层等，其中，时长预测网络的输入为音素片段(例如，5音素片段等)，输出为音素片段的时长信息，时长预测网络的损失函数可以为均方误差函数等。

步骤2022，确定多个预选波形片段各自对应的时长信息，得到至少一个时长信息。

可选地，本实施例中的预选波形片段可以从上述图1所示实施例中的波形单元库中经过音素预选102获取，波形单元库中存储多个波形片段，其中，每个波形片段具有对应的时长信息。在一个示例中，波形单元库中的波形片段可来源于一段时间的语音波形(如，30小时)，将这段语音波形按音素进行切分，获得多个波形片段，为了更好的与音素片段匹配，本实施例可将语音波形按音素片段包括的音素数量进行切分，例如，音素片段为五音素片段(包括5个音素)，本实施例对语音波形按照每5个音素进行切分，切分后的每个波形片段分别对应5个音素。

步骤2023，确定多个预选波形片段各自对应的时长信息与音素片段的时长信息之间的差值，得到至少一个差值。

将多个预选波形片段对应的多个时长信息分别与音素片段的时长信息计算差值，可确定预选波形片段的时长信息与音素片段的时长信息之间的差异，差异越小，说明预选波形片段与音素片段的波形差异越小；差异越大，说明预选波形片段与音素片段的波形差异越大。

步骤2024，基于至少一个差值，从多个预选波形片段中获得音素片段对应的多个过滤波形片段。

本实施例实现基于时长预测网络获得的音素片段的时长信息对多个预选波形片段的过滤，使过滤后获得的多个过滤波形片段与音素片段在时长上是相接近的，排除了与音素片段差异较大的预选波形片段，使获得的音素片段的目标波形片段的更自然。

如图4所示，在上述图3所示实施例的基础上，步骤2024可包括如下步骤：

步骤20241，确定至少一个差值各自对应的差值绝对值，得到至少一个差值绝对值。

本实施例中，由于多个预选波形片段对应的时长信息中可能存在大于音素片段对应的时长信息的时长信息，或小于音素片段对应的时长信息的时长信息，因此，本实施例以差值绝对值表示两个时长信息之间的差异。

步骤20242，按照至少一个差值绝对值的大小对多个预选波形片段进行排序。

步骤20243，按序获得预设数量的预选波形片段，将预设数量的预选波形片段作为音素片段对应的多个过滤波形片段。

可选地，将多个预选波形片段按照差值绝对值从小到大进行排序，此时，排序越靠前，说明该预选波形片段对应的时长信息与音素片段的时长信息越接近；按序获取排序靠前的预设数量(例如，100个)的预选波形片段作为音素片段对应的多个过滤波形片段，即，获得与音素片段的时长信息最接近的预设数量的预选波形片段；当然，对多个预选波形片段还可以按照差值绝对值从大到小进行排序，此时，从序列的最后开始获取预设数量的预选波形片段，以获得与音素片段的时长信息最接近的预设数量的预选波形片段，本实施例不限制具体排序方式。

本实施例中，由于多个预选波形片段对应的时长信息中可能存在大于音素片段对应的时长信息的时长信息，或小于音素片段对应的时长信息的时长信息，因此，通过以差值绝对值比较两个时长信息之间的差异，此时，无论预选波形片段对应的时长信息与音素片段对应的时长信息之间的差值是正数还是负数都可以明确确定二者之间的差异，而不受限于计算差值的顺序。

如图5所示，在上述图2所示实施例的基础上，步骤203可包括如下步骤：

步骤2031，确定每个所音素片段对应的多个过滤波形片段中每个过滤波形片段对应的第一声学特征。

可选地，获得第一声学特征的步骤可以包括：对多个过滤波形片段中每个过滤波形片段提取梅尔幅度谱系数；

基于梅尔幅度谱系数确定每个过滤波形片段对应的第一声学特征。

本实施例将提取的梅尔幅度谱系数作为过滤波形片段的第一声学特征。

本实施例中应用的梅尔幅度谱系数与梅尔频率倒谱系数相关，其中，梅尔频率倒谱是梅尔幅度谱做逆傅里叶变换得到的，实际逆变换一般是通过DCT离散余弦变换来实现，梅尔频率倒谱(Mel-Frequency Cepstrum)是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。梅尔频率倒谱系数(Mel-Frequency CepstralCoefficients，MFCCs)就是组成梅尔频率倒谱的系数。

步骤2032，基于第一声学特征确定每个过滤波形片段的目标损失值。

步骤2033，按照多个音素片段在待转换文本中的顺序，获得多个音素片段中每两个相邻的音素片段对应的过滤波形片段之间的连接损失值。

步骤2034，基于目标损失值和连接损失值，确定待转换文本对应的音频波形。

本实施例以获得的目标损失值和连接损失值确定多个音素片段中每个音素片段分别选择哪个过滤波形片段，并将选定的过滤波形片段按照音素片段对应待转换文本的顺序连接，获得待转换文本对应的音频波形。确定这些构成音频波形的过滤波形片段可以利用维特比算法或其他方法，找到目标损失值和连接损失值最小的路径，即获得待转换文本的最优音频波形(包括多个过滤波形片段)；本公开实施例不限制获得音频波形的具体方式。其中，维特比算法是一种动态规划算法用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列，特别是在马尔可夫信息源上下文和隐马尔可夫模型中。术语“维特比路径”和“维特比算法”也被用于寻找观察结果最有可能解释相关的动态规划算法。

可选地，步骤2032可以包括：

利用目标神经网络分别对多个音素片段中的每个音素片段进行处理，获得每个音素片段的第二声学特征的均值和方差；

基于第二声学特征的均值和方差、以及第一声学特征，获得每个过滤波形片段的目标损失值。

本实施例通过目标神经网络实现对音素片段的处理，目标神经网络的输入为音素片段(例如，五音素)，输出为音素片段对应的声学特征的均值和方差，再基于输出的均值和方差与过滤波形片段对应的第一声学特征计算可获得目标损失值，可选地，可将第二声学特征的均值和方差、以及第一声学特征带入目标损失函数，通过目标损失函数计算获得目标损失值，例如，利用以下公式(1)作为目标损失函数，计算目标损失值。

其中，Cost表示目标损失值，i表示第几维的特征索引，n为声学特征(包括第一声学特征和第二声学特征)的维数，mel表示第一声学特征，mean表示第二声学特征的均值，std表示第二声学特征的方差。

在一个可选的实施例中，利用目标神经网络分别对多个音素片段中的每个音素片段进行处理，获得每个音素片段的第二声学特征的均值和方差之前，还包括：

基于目标神经网络对样本音素片段进行处理，获得样本音素片段的样本声学特征的预测均值和预测方差；

基于预测均值和预测方差、以及样本声学特征，确定样本声学特征的最大似然函数，获得第一网络损失；

基于第一网络损失调整目标神经网络的网络参数。

本实施例中利用已知样本声学特征的样本音素片段对目标神经网络进行训练，在训练之前，从语料库中获取文本文件，根据文本文件及其对应的音频文件标注出(可以是人工标注等)停顿级别(指人真实发声的停顿)和拼音多音字，获得文本文件对应的样本音素片段，例如，如图6所示，实现基于文本文件获得音素片段；由于语料库中包括大量存在一一对应关系的文本文件和音频文件，可选地，基于文本文件对应的音频文件获得相应梅尔幅度谱系数作为样本音素片段的样本声学特征。

可选地，目标神经网络的网络结构可以类似于时长预测网络，即包括四层全连接层等，本实施例不限制目标神经网络的具体网络结构；目标神经网络的输入为音素片段(例如，5音素片段等)，输出为样本音素片段的样本声学特征的预测均值和预测方差；基于预测均值和预测方差、以及样本声学特征，确定样本声学特征的最大似然函数；以最大似然函数作为损失调整目标神经网络的网络参数。

可选地，步骤2033可以包括：

按照多个音素片段在文本中的顺序，将每两个相邻音素片段作为一组音素片段组，得到至少一组音素片段组；

基于音素片段组中一个音素片段对应的多个过滤波形片段的声学特征和音素片段组中另一音素片段对应的多个过滤波形片段的声学特征，获得每组音素片段组对应的过滤波形片段之间的多个第一声学特征差值；

基于连接神经网络分别对至少一组音素片段组中每组音素片段组进行处理，获得至少一个第二声学特征差值的均值和方差，第二声学特征差值基于音素片段组中两个音素片段对应的声学特征得到；

基于第二声学特征差值的均值和方差、以及第一声学特征差值，获得多个音素片段中每两个相邻的音素片段对应的过滤波形片段之间的连接损失值。

本实施例通过连接神经网络获得每两个相邻的音素片段对应的过滤波形片段之间的连接损失值；其中连接神经网络的输入为音素片段组，音素片段组中包括两个在待处理文本中连续的音素片段；输出为第二声学特征差值的均值和方差；基于二声学特征差值的均值和方差、以及第一声学特征差值即可该音素片段组获得连接损失值；获得连接损失值可利用损失函数计算获得，例如，可采用上述公式(1)计算获得连接损失值，此时，公式(1)中的Cost表示连接损失值，i表示第几维的特征索引，n为声学特征差值(包括第一声学特征差值和第二声学特征差值)的维数，mel表示第一声学特征差值，mean表示第二声学特征差值的均值，std表示第二声学特征差值的方差。

上述第一声学特征差值是两个在待处理文本中连续的音素片段分别对应的两个过滤波形片段对应的声学特征之间的差值，例如，一组音素片段组包括第一音素片段和第二音素片段，第一音素片段对应多个第一过滤波形片段，第二音素片段对应多个第二过滤波形片段；计算每个第一过滤波形片段的声学特征与每个第二过滤波形片段的声学特征的差值，得到多个第一声学特征差值。

可选地，基于连接神经网络分别对至少一组音素片段组中的每组音素片段组进行处理，获得至少一个第二声学特征差值的均值和方差之前，还包括：

从音素片段库中获得多组样本音素片段组，确定每组样本音素片段组对应的样本声学特征差值；

基于连接神经网络对样本音素片段组进行处理，获得样本声学特征差值的预测均值和预测方差；

基于样本声学特征差值的预测均值和预测方差、以及样本声学特征差值，确定样本声学特征差值的最大似然函数，获得第二网络损失；

基于第二网络损失调整连接神经网络的网络参数。

其中，音素片段库包括多个样本音素片段，每个样本音素片段对应一个样本声学特征。

本实施例中利用已知样本声学特征的样本音素片段对连接神经网络进行训练，在训练之前，可选地，从音素片段库中获得多组样本音素片段组；或者，从语料库中获取文本文件，根据文本文件及其对应的音频文件标注出(可以是人工标注等)停顿级别(指人真实发声的停顿)和拼音多音字，获得文本文件对应的样本音素片段，基于文本文件之间的连接关系获得样本音素片段组；由于语料库中包括大量存在一一对应关系的文本文件和音频文件，因此基于文本文件对应的音频文件获得相应梅尔幅度谱系数作为样本音素片段的样本声学特征，即可获得样本音素片段组对应的样本声学特征差值。

可选地，连接神经网络的网络结构可以类似于时长预测网络，即包括四层全连接层等，本实施例不限制连接神经网络的具体网络结构；连接神经网络的输入为音素片段组，输出为样本音素片段组的样本声学特征差值的预测均值和预测方差；基于预测均值和预测方差、以及样本声学特征差值，确定样本声学特征差值的最大似然函数；以最大似然函数作为损失调整连接神经网络的网络参数。

如图7所示，在上述图2所示实施例的基础上，步骤201可包括如下步骤：

步骤2011，对待转换文本进行音素分析处理，获得待转换文本中包括的多个音素。

步骤2012，基于多个音素在待转换文本中的顺序，确定每个音素对应的音素片段。

其中，每个音素片段包括至少三个音素，例如，每个音素片段包括五个音素。

可选地，将多个音素中的每个音素作为中间音素，基于中间音素、中间音素之前的至少一个音素和之后的至少一个音素构成音素片段，中间音素之前的音素为按照待转换文本的顺序排列在中间音素之前的音素；中间音素之后的音素为按照待转换文本的顺序排列在中间音素之后的音素。例如，在音素片段为五音素的情况下，对待转换文本“地平线”进行音素分析处理，获得音素为“dipingxian”，对这些音素进行分解，获得10个五音素，分别为“dip”、“dipi”、“dipin”、“iping”、“pingx”、“ingxi”、“ngxia”、“gxian”、“xian”和“ian”，即，分别以每个音素为中间音素获得对应的音素片段，其中当中间音素之前为空，或中间音素之后为空时，留置空位即可，仍将该音素片段作为五音素处理，例如，上述音素片段“dip”在音素d之前留置了两个空位，音素片段“xian”在音素n之后留置了一个空位。

步骤2013，确定多个音素片段中每个音素片段对应的多个预选波形片段。

可选地，基于每个音素片段，从波形片段库中筛选获得多个音频波形片段作为音素片段的预选波形片段；波形片段库中预存有存在对应关系的音素片段和音频波形片段，预选波形片段对应的音素片段与音素片段具有至少一个相同音素。

本实施例中，通过音素片段中包括的多个音素从波形片段库中筛选预先波形片段，波形片段库中包括的音频波形片段分别对应有音素片段；例如，音素片段为五音素(包括5个音素)时，对应的波形片段库中预存的音频波形片段对应的音素片段也为五音素，此时筛选预先波形片段可将音频波形片段对应的五音素中的至少3个音素与待处理文本中的五音素相同的音频波形片段作为预选波形片段。

如图8所示，在上述图2所示实施例的基础上，还包括：

步骤204，对目标音频波形中包括的多个过滤波形片段中每两个过滤波形片段之间的连接处进行平滑处理，得到平滑处理后的目标音频波形。

可选地，采用平移加汉宁窗叠加算法对相邻音素边界进行平滑，拼接输出合成的目标音频波形，通过平滑处理，减少了两个音频波形片段的连接处的突兀的波形，使获得的目标音频波形输出更自然，更接近真人语音。

本公开实施例提供的任一种音频生成方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种音频生成方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种音频生成方法。下文不再赘述。

示例性装置

图9是本公开一示例性实施例提供的音频生成装置的结构示意图。该实施例的装置可用于实现本公开上述各方法实施例。如图9所示，包括：

波形预选模块91，用于确定多个音素片段中每个音素片段对应的多个预选波形片段，多个音素片段通过待转换文本得到。

时长过滤模块92，用于对于每个音素片段，基于音素片段的时长信息对波形预选模块确定的多个预选波形片段进行时长过滤，从多个预选波形片段中获得音素片段对应的多个过滤波形片段；

波形获得模块93，用于基于时长过滤模块获得的每个音素片段对应的多个过滤波形片段，确定待转换文本对应的音频波形。

基于本公开上述实施例提供的一种音频生成装置，获得待转换文本对应的多个音素片段，确定多个音素片段中每个音素片段对应的多个预选波形片段；对于每个音素片段，预测音素片段的时长信息，基于时长信息对多个预选波形片段进行时长过滤，从多个预选波形片段中获得音素片段对应的多个过滤波形片段，通过对预选波形片段进行时长过滤，使获得的构成目标音频波形的过滤波形片段的时长更合理；基于时长过滤获得的多个过滤波形片段，确定的目标音频波形更自然、更接近真人语音，提高了用户体验。

图10是本公开另一示例性实施例提供的音频生成装置的结构示意图。在上述图9所示实施例的基础上，波形预选模块91，包括：

音素分析单元911，用于对待转换文本进行音素分析处理，获得待转换文本中包括的多个音素。

音素片段单元912，用于基于音素分析单元911获得的多个音素在待转换文本中的顺序，确定每个音素对应的音素片段。其中，每个音素片段包括至少三个音素。

波形预选单元913，用于确定音素片段单元912确定的多个音素片段中每个音素片段对应的多个预选波形片段。

可选地，音素片段单元912，具体用于将多个音素中的每个音素作为中间音素，基于中间音素、中间音素之前的至少一个音素和之后的至少一个音素构成音素片段，中间音素之前的音素为按照待转换文本的顺序排列在中间音素之前的音素；中间音素之后的音素为按照待转换文本的顺序排列在中间音素之后的音素。

可选地，波形预选单元913，具体用于基于每个音素片段，从波形片段库中筛选获得多个音频波形片段作为音素片段的预选波形片段；波形片段库中预存有存在对应关系的音素片段和音频波形片段，预选波形片段对应的音素片段与音素片段具有至少一个相同音素。

其中，时长过滤模块92，包括：

时长预测单元922，利用时长预测网络对音素片段进行时长预测，获得音素片段的时长信息。

时长信息单元923，用于确定多个预选波形片段各自对应的时长信息，得到至少一个时长信息。

差值确定单元924，用于确定时长信息单元923获得的多个预选波形片段各自对应的时长信息与时长预测单元922获得的音素片段的时长信息之间的差值，得到至少一个差值。

波形过滤单元925，用于基于差值确定单元924获得的至少一个差值，从多个预选波形片段中获得音素片段对应的多个过滤波形片段。

可选地，波形过滤单元925，具体用于确定至少一个差值各自对应的差值绝对值，得到至少一个差值绝对值；按照至少一个差值绝对值的大小对多个预选波形片段进行排序；按序获得预设数量的预选波形片段，将预设数量的预选波形片段作为音素片段对应的多个过滤波形片段。

时长过滤模块92，还包括：

时长网络训练单元921，用于将样本音素片段输入至时长预测网络，通过时长预测网络获得样本音素片段的预测时长；从样本音素片段中确定标注时长；基于预测时长和标注时长对时长预测网络进行训练。

波形获得模块93，包括：

第一声学特征单元931，用于确定每个音素片段对应的多个过滤波形片段中每个过滤波形片段对应的第一声学特征。

目标损失单元932，用于基于第一声学特征单元931确定的第一声学特征确定每个过滤波形片段的目标损失值；

连接损失单元933，用于按照多个音素片段在待转换文本中的顺序，获得多个音素片段中每两个相邻的音素片段对应的过滤波形片段之间的连接损失值；

音频波形确定单元934，用于基于目标损失单元932确定的目标损失值和连接损失单元933确定的连接损失值，确定待转换文本对应的音频波形。

可选地，第一声学特征单元931，具体用于对多个过滤波形片段中每个过滤波形片段提取梅尔幅度谱系数；基于梅尔幅度谱系数确定每个过滤波形片段对应的第一声学特征。

可选地，目标损失单元932，具体用于利用目标神经网络分别对多个音素片段中的每个音素片段进行处理，获得每个音素片段的第二声学特征的均值和方差；基于第二声学特征的均值和方差、以及第一声学特征，获得每个过滤波形片段的目标损失值。

可选地，目标损失单元932，还用于基于目标神经网络对样本音素片段进行处理，获得样本音素片段的样本声学特征的预测均值和预测方差；基于预测均值和预测方差、以及样本声学特征，确定样本声学特征的最大似然函数，获得第一网络损失；基于第一网络损失调整目标神经网络的网络参数。

可选地，连接损失单元933，具体用于按照多个音素片段在文本中的顺序，将每两个相邻音素片段作为一组音素片段组，得到至少一组音素片段组；基于音素片段组中一个音素片段对应的多个过滤波形片段的声学特征和音素片段组中另一音素片段对应的多个过滤波形片段的声学特征，获得每组音素片段组对应的过滤波形片段之间的多个第一声学特征差值；基于连接神经网络分别对至少一组音素片段组中每组音素片段组进行处理，获得至少一个第二声学特征差值的均值和方差，第二声学特征差值基于音素片段组中两个音素片段对应的声学特征得到；基于第二声学特征差值的均值和方差、以及第一声学特征差值，获得多个音素片段中每两个相邻的音素片段对应的过滤波形片段之间的连接损失值。

可选地，连接损失单元933，还用于从音素片段库中获得多组样本音素片段组，确定每组样本音素片段组对应的样本声学特征差值；音素片段库包括多个样本音素片段，每个样本音素片段对应一个样本声学特征；基于连接神经网络对样本音素片段组进行处理，获得样本声学特征差值的预测均值和预测方差；基于样本声学特征差值的预测均值和预测方差、以及样本声学特征差值，确定样本声学特征差值的最大似然函数，获得第二网络损失；基于第二网络损失调整连接神经网络的网络参数。

该实施例装置中还包括：平滑处理模块94，用于对目标音频波形中包括的多个过滤波形片段中每两个过滤波形片段之间的连接处进行平滑处理，得到平滑处理后的目标音频波形。

示例性电子设备

下面，参考图11来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图11图示了根据本公开实施例的电子设备的框图。

如图11所示，电子设备11包括一个或多个处理器111和存储器112。

处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备11中的其他组件以执行期望的功能。

存储器112可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器111可以运行所述程序指令，以实现上文所述的本公开的各个实施例的音频生成方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备11还可以包括：输入装置113和输出装置114，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备100或第二设备200时，该输入装置113可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置113可以是通信网络连接器，用于从第一设备100和第二设备200接收所采集的输入信号。

此外，该输入设备113还可以包括例如键盘、鼠标等等。

该输出装置114可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图11中仅示出了该电子设备11中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备11还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的音频生成方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的音频生成方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种音频生成方法，包括：

确定多个音素片段中每个音素片段对应的多个预选波形片段，所述多个音素片段通过待转换文本得到；

对于每个所述音素片段，基于所述音素片段的时长信息对所述多个预选波形片段进行时长过滤，从所述多个预选波形片段中获得所述音素片段对应的多个过滤波形片段；

基于每个所述音素片段对应的多个过滤波形片段，确定所述待转换文本对应的音频波形。

2.根据权利要求1所述的方法，其中，所述基于所述音素片段的时长信息对所述多个预选波形片段进行时长过滤，从所述多个预选波形片段中获得所述音素片段对应的多个过滤波形片段，包括：

利用时长预测网络对所述音素片段进行时长预测，获得所述音素片段的时长信息；

确定所述多个预选波形片段各自对应的时长信息，得到至少一个时长信息；

确定所述多个预选波形片段各自对应的时长信息与所述音素片段的时长信息之间的差值，得到至少一个差值；

基于所述至少一个差值，从所述多个预选波形片段中获得所述音素片段对应的多个过滤波形片段。

3.根据权利要求2所述的方法，其中，所述基于所述至少一个差值，从所述多个预选波形片段中获得所述音素片段对应的多个过滤波形片段，包括：

确定所述至少一个差值各自对应的差值绝对值，得到至少一个差值绝对值；

按照所述至少一个差值绝对值的大小对所述多个预选波形片段进行排序；

按序获得预设数量的预选波形片段，将所述预设数量的预选波形片段作为所述音素片段对应的多个过滤波形片段。

4.根据权利要求1所述的方法，其中，所述基于每个所述音素片段对应的多个过滤波形片段，确定所述待转换文本对应的音频波形，包括：

确定每个所述音素片段对应的多个过滤波形片段中每个过滤波形片段对应的第一声学特征；

基于所述第一声学特征确定每个所述过滤波形片段的目标损失值；

按照所述多个音素片段在所述待转换文本中的顺序，获得所述多个音素片段中每两个相邻的音素片段对应的过滤波形片段之间的连接损失值；

基于所述目标损失值和所述连接损失值，确定所述待转换文本对应的音频波形。

5.根据权利要求4所述的方法，其中，所述确定每个所述音素片段对应的多个过滤波形片段中每个过滤波形片段对应的第一声学特征，包括：

对所述多个过滤波形片段中每个过滤波形片段提取梅尔幅度谱系数；

基于所述梅尔幅度谱系数确定每个所述过滤波形片段对应的第一声学特征。

6.根据权利要求4所述的方法，其中，所述基于所述声学特征确定每个所述过滤波形片段的目标损失值，包括：

利用目标神经网络分别对所述多个音素片段中的每个音素片段进行处理，获得每个所述音素片段的第二声学特征的均值和方差；

基于所述第二声学特征的均值和方差、以及所述第一声学特征，获得每个所述过滤波形片段的目标损失值。

7.根据权利要求4所述的方法，其中，所述按照所述多个音素片段在所述文本中的顺序，获得所述多个音素片段中每两个相邻的音素片段对应的过滤波形片段之间的连接损失值，包括：

按照所述多个音素片段在所述文本中的顺序，将所述每两个相邻音素片段作为一组音素片段组，得到至少一组所述音素片段组；

基于所述音素片段组中一个音素片段对应的多个过滤波形片段的声学特征和所述音素片段组中另一音素片段对应的多个过滤波形片段的声学特征，获得每组所述音素片段组对应的过滤波形片段之间的多个第一声学特征差值；

基于连接神经网络分别对所述至少一组音素片段组中每组所述音素片段组进行处理，获得至少一个第二声学特征差值的均值和方差，所述第二声学特征差值基于所述音素片段组中两个音素片段对应的声学特征得到；

基于所述第二声学特征差值的均值和方差、以及所述第一声学特征差值，获得所述多个音素片段中每两个相邻的音素片段对应的过滤波形片段之间的连接损失值。

8.根据权利要求1所述的方法，所述确定所述多个音素片段中每个音素片段对应的多个预选波形片段，包括：

对所述待转换文本进行音素分析处理，获得所述待转换文本中包括的多个音素；

基于所述多个音素在所述待转换文本中的顺序，确定每个所述音素对应的所述音素片段，每个所述音素片段包括至少三个音素；

确定所述多个音素片段中每个所述音素片段对应的多个预选波形片段。

9.根据权利要求8所述的方法，其中，所述基于所述多个音素在所述待转换文本中的顺序，确定每个所述音素对应的所述音素片段，包括：

将所述多个音素中的每个音素作为中间音素，基于所述中间音素、所述中间音素之前的至少一个音素和之后的至少一个音素构成所述音素片段，所述中间音素之前的音素为按照所述待转换文本的顺序排列在所述中间音素之前的音素；所述中间音素之后的音素为按照所述待转换文本的顺序排列在所述中间音素之后的音素。

10.根据权利要求8所述的方法，其中，所述确定所述多个音素片段中每个所述音素片段对应的多个预选波形片段，包括：

基于每个所述音素片段，从波形片段库中筛选获得多个音频波形片段作为所述音素片段的预选波形片段；所述波形片段库中预存有存在对应关系的音素片段和音频波形片段，所述预选波形片段对应的音素片段与所述音素片段具有至少一个相同音素。

11.根据权利要求1-10任一所述的方法，其中，还包括：

对所述目标音频波形中包括的多个过滤波形片段中每两个过滤波形片段之间的连接处进行平滑处理，得到平滑处理后的目标音频波形。

12.一种音频生成装置，包括：

13.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-11中任一项所述的音频生成方法。

14.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于运行时所述计算机程序指令使得所述处理器执行如权利要求1-11中任一项所述的音频生成方法。