CN114093342B

CN114093342B - 一种细粒度韵律建模的语音生成装置、设备及存储介质

Info

Publication number: CN114093342B
Application number: CN202210078586.8A
Authority: CN
Inventors: 陶建华; 王诗明; 傅睿博; 易江燕
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-05-03
Anticipated expiration: 2042-01-24
Also published as: CN114093342A

Abstract

本发明提供细粒度韵律建模的语音生成模型、设备及存储介质，其中，模型包括：文本信息输入文本编码器模块，得到文本的编码特征；频谱信息输入韵律编码模块，得到音素级别的语音的韵律特征；语音的韵律特征输入解耦合模块，将语音的韵律特征中包含的文本内容信息和韵律信息解耦合，并只留下语音的韵律特征的韵律信息；文本的编码特征和语音的韵律特征的韵律信息输入解码器，生成合成语音。本发明提出的方案能够利用时长信息对音频进行时域的划分，韵律编码器可以建模语音的局部韵律信息以描述韵律的变化走势，同时韵律解耦合模块保证了韵律编码器模型只学习到语音的韵律信息而不包含文本信息。

Description

一种细粒度韵律建模的语音生成装置、设备及存储介质

技术领域

本发明属于语音生成领域，尤其涉及一种细粒度韵律建模的语音生成装置。

背景技术

随着语音合成的应用不断丰富和多样，用户对于合成语音的可懂度、稳定性、自然度和语音表现力等标准日益提高。有声读物、语音助手、对话交互等应用场景期望合成语音能够具有与真人语音类似的自然度。所以需要着重考虑生成语音的鲁棒性、实时率以及语调、重读、情感、风格、语义等信息对于合成语音自然度的影响。随着进几年语音生成技术的快速发展，非自回归语音生成升学模型框架已经成为了主流的研究趋势。相比与之前的自回归网络，非自回归网络拥有训练时间段、生成速度快、语音鲁棒性强、可控性强等优点，但于此同时，由于并行化生成的特点，语音的生成将会完全依赖于输入文本特征信息而无法使用历史语音信息对生成进行建模。由于语音合成是一个高度上采样的过程，文本-语音数据对之间的映射是一个一对多的音色，缺少历史信息的建模后，语音生成的建模过程会丢失很多文本中不含有信息——语音韵律信息。基于序列到序列框架下的语音合成模型可以灵活地引入表征学习的方法，提取更准确的韵律表征，以实现更加有效的和可控的语音合成声学建模，从而提高语音生成的自然度。

现有技术缺点

（1）由于语音合成是一个高度上采样的过程，文本-语音数据对之间的映射是一个一对多的音色，缺少历史信息的建模后，语音生成的建模过程会丢失很多文本中不含有信息——语音韵律信息。因此目前语音合成系统的生成语音会存在着高频部分能量不清晰，语气风格平淡等缺点。

（2）目前的语音韵律建模大多是是全局信息，即整条语音只对应一个韵律的隐向量编码。但是总所周知，语音的韵律是一个时变过程，全局的韵律信息能够很好的建模语音整体的情感，但是对局部的变化和表现则无能为力。

发明内容

为解决上述技术问题，本发明提出一种细粒度韵律建模的语音生成装置的技术方案，以解决上述技术问题。

本发明第一方面公开了一种细粒度韵律建模的语音生成装置；所述装置包括：

文本编码器、韵律编码器和解码器；

所述韵律编码器包括：韵律编码模块和解耦合模块；

文本信息输入所述文本编码器，得到文本的编码特征；

频谱信息输入所述韵律编码模块，得到音素级别的语音的韵律特征；

所述语音的韵律特征输入所述解耦合模块，将所述语音的韵律特征中包含的文本内容信息和韵律信息解耦合，并只留下所述语音的韵律特征的韵律信息；

所述文本的编码特征和所述语音的韵律特征的韵律信息输入所述解码器，生成合成语音。

根据本发明第一方面的技术方案，所述文本编码器包括：

字嵌入层、预编码层和循环神经网络；

所述文本信息依次输入所述字嵌入层、预编码层和循环神经网络，得到文本的编码特征。

根据本发明第一方面的技术方案，所述文本信息依次输入所述字嵌入层、预编码层和循环神经网络，得到文本的编码特征的具体方法包括：

所述文本信息输入所述字嵌入层，得到高维连续空间内的表示，所述高维连续空间内的表示输入所述预编码层，对所述高维连续空间内的表示进行维度和信息的压缩，得到压缩后的连续空间内的表示，将所述压缩后的连续空间内的表示输入循环神经网络，得到文本的编码特征。

根据本发明第一方面的技术方案，所述韵律编码模块包括：

频谱预处理网络、多头自注意力模块和全连接层；

所述频谱信息依次输入所述频谱预处理网络、多头自注意力模块和全连接层，得到音素级别的语音的韵律特征。

根据本发明第一方面的技术方案，所述频谱信息依次输入所述频谱预处理网络、多头自注意力模块和全连接层，得到音素级别的语音的韵律特征的具体方法包括：

所述频谱预处理网络将所述频谱信息拓展到高维度的频谱特征；

所述高维度的频谱特征输入所述多头自注意力模块，通过自注意力机制计算高维度的频谱特征在时间维度的加权和，得到注意力特征；

所述全连接层将所述注意力特征在特征维度计算加权和，最后对所述全连接层的输出通过在音素对应的时间段做平均，得到最后的音素级别的语音的韵律特征。

根据本发明第一方面的技术方案，所述解耦合模块设计成生成对抗网络解耦合所述语音的韵律特征中包含的文本内容信息和韵律信息。

根据本发明第一方面的技术方案，所述解耦合模块在网络优化过程中需要单独地与所述文本编码器和解码器进行轮流迭代优化。

根据本发明第一方面的技术方案，所述解码器包括：多层多头自注意力模块和后处理网络；

所述文本的编码特征和所述语音的韵律特征的韵律信息输入所述多头注意力模块进行特征变换，得到融合特征频谱，所述融合特征频谱输入所述后处理网络，利用局部的频谱信息对所述融合特征频谱进行微调，生成合成语音；所述局部的频谱信息为所述语音的韵律特征的韵律信息。

本发明第二方面提供了一种电子设备，所述设备包括存储器和处理器，所述存储器上存储有计算机程序，该计算机程序被所述处理器执行时，执行如本发明第一方面所述的一种细粒度韵律建模的语音生成装置中的语音生成装置。

本发明提出的方案能够利用时长信息对音频进行时域的划分，韵律编码器可以建模语音的局部韵律信息以描述韵律的变化走势，同时韵律解耦合模块保证了韵律编码器装置只学习到语音的韵律信息而不包含文本信息。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的一种细粒度韵律建模的语音生成装置的结构图；

图2为根据本发明实施例的一种电子设备的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

实施例1：

本发明第一方面公开了一种细粒度韵律建模的语音生成装置，图1为根据本发明实施例的一种细粒度韵律建模的语音生成装置的结构图，具体如图1所示，所述装置包括：

文本编码器、韵律编码器和解码器；

所述韵律编码器包括：韵律编码模块和解耦合模块；

文本信息输入所述文本编码器模块，得到文本的编码特征；

在一些实施例中，所述文本编码器包括：

字嵌入层、预编码层和循环神经网络；

所述文本信息依次输入所述字嵌入层、预编码层和循环神经网络，得到文本的编码特征；

在一些实施例中，所述文本信息依次输入所述字嵌入层、预编码层和循环神经网络，得到文本的编码特征的具体方法包括：

所述文本信息输入所述字嵌入层，得到256维连续空间内的表示，所述高维连续空间内的表示输入所述预编码层，对所述高维连续空间内的表示进行维度和信息的压缩，得到128维的连续空间内的表示，将所述压缩后的连续空间内的表示输入循环神经网络，得到文本的编码特征；

在一些实施例中，预编码层为两层的全连接层，通过预编码层去掉256维连续空间内的表示中的一些次要的信息和维度有助于提升装置的稳定性和泛化能力同时降低训练难度；

在一些实施例中，所述韵律编码模块包括：

频谱预处理网络、多头自注意力模块和全连接层；

所述频谱信息依次输入所述频谱预处理网络、多头自注意力模块和全连接层，得到音素级别的语音的韵律特征；

在一些实施例中，所述频谱信息依次输入所述频谱预处理网络、多头自注意力模块和全连接层，得到音素级别的语音的韵律特征的的具体方法包括：

所述频谱信息是指频谱的隐向量表征，在一些实施例中，具体地，所述频谱信息可以是80维梅尔频谱特征，通过在音素区间上的平均池化操作得到音素级的韵律特征。

所述频谱预处理网络将80维梅尔频谱特征拓展到高维度的频谱特征；

所述全连接层将所述注意力特征在特征维度计算加权和，最后对所述全连接层的输出通过在音素对应的时间段做平均，得到最后的音素级别的语音的韵律特征；

由于语音的韵律特征中同时包含有韵律信息和文本内容信息，若不对两种信息进行解耦合则会导致韵律编码器的输出结果会包含有文本信息，这会与文本编码器的结果产生冲突，导致生成语音发音错误、语音可懂度低等各种严重问题；

在一些实施例中，所述解耦合模块设计成生成对抗网络解耦合所述语音的韵律特征中包含的文本内容信息和韵律信息；

在一些实施例中，所述解耦合模块在网络优化过程中需要单独地与所述文本编码器和解码器进行轮流迭代优化；

所述文本的编码特征和所述语音的韵律特征的韵律信息输入所述解码器，生成合成语音；

在一些实施例中，所述解码器包括：6层多头自注意力模块和一个后处理网络；

所述文本的编码特征和所述语音的韵律特征的韵律信息输入所述6头注意力模块进行特征变换，得到融合特征频谱，所述融合特征频谱输入所述后处理网络，利用局部的频谱信息对所述融合特征频谱进行微调，生成合成语音；所述局部的频谱信息为所述语音的韵律特征的韵律信息。

其中，使用小窗口的局部自注意力机制，窗长为100ms，利用相邻帧的信息建模decoder生成的频谱信息与真实频谱信息的残差。

语音的生成过程：文本编码器的输入为待生成的伪造语音的文本，韵律编码器的输入为希望伪造语音所含有韵律特征所对应的指导语音，解码器的即可输出含有指导语音的音色的伪造语音。伪造语音将拥有和指导语音相近的音色和韵律，即可避免生成韵律平淡的特点，实现对语音鉴伪装置的攻击。

综上，本发明各个方面的技术方案与现有技术相比具有如下优点：利用时长信息对音频进行时域的划分，韵律编码器可以建模语音的局部韵律信息以描述韵律的变化走势，同时韵律解耦合模块保证了韵律编码器装置只学习到语音的韵律信息而不包含文本信息。

实施例2：

本发明第二方面公开了一种电子设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时，实现本发明实施例1中任一项的一种细粒度韵律建模的语音生成装置。

图2为根据本发明实施例的一种电子设备的结构图，如图2所示，电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、近场通信（NFC）或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本公开的技术方案相关的部分的结构图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

请注意，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA（现场可编程门阵列）或ASIC（专用集成电路）来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理（PDA）、移动音频或视频播放器、游戏操纵台、全球定位系统（GPS）接收机、或例如通用串行总线（USB）闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备（例如EPROM、EEPROM和闪存设备）、磁盘（例如内部硬盘或可移动盘）、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种细粒度韵律建模的语音生成装置，其特征在于，所述装置包括：

文本编码器、韵律编码器和解码器；

所述韵律编码器包括：韵律编码模块和解耦合模块；

文本信息输入所述文本编码器，得到文本的编码特征；

所述韵律编码模块包括：

频谱预处理网络、多头自注意力模块和全连接层；

所述频谱信息依次输入所述频谱预处理网络、多头自注意力模块和全连接层，得到音素级别的语音的韵律特征的具体方法包括：

2.根据权利要求1所述的一种细粒度韵律建模的语音生成装置，其特征在于，所述文本编码器包括：

字嵌入层、预编码层和循环神经网络；

3.根据权利要求2所述的一种细粒度韵律建模的语音生成装置，其特征在于，所述文本信息依次输入所述字嵌入层、预编码层和循环神经网络，得到文本的编码特征的具体方法包括：

4.根据权利要求1所述的一种细粒度韵律建模的语音生成装置，其特征在于，所述解耦合模块设计成生成对抗网络解耦合所述语音的韵律特征中包含的文本内容信息和韵律信息。

5.根据权利要求4所述的一种细粒度韵律建模的语音生成装置，其特征在于，所述解耦合模块在网络优化过程中需要单独地与所述文本编码器和解码器进行轮流迭代优化。

6.根据权利要求1所述的一种细粒度韵律建模的语音生成装置，其特征在于，所述解码器包括：多层多头自注意力模块和后处理网络；

7.一种电子设备，其特征在于，包括如权利要求1至6任意一项所述的一种细粒度韵律建模的语音生成装置。