CN112927677B

CN112927677B - 语音合成方法和装置

Info

Publication number: CN112927677B
Application number: CN202110335308.1A
Authority: CN
Inventors: 杨惠; 吴雨璇; 梁光; 周鼎皓; 陈昌儒
Original assignee: Beijing Dami Technology Co Ltd
Current assignee: Beijing Dami Technology Co Ltd
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2023-07-25
Anticipated expiration: 2041-03-29
Also published as: CN112927677A

Abstract

本发明实施例公开了一种语音合成方法和装置，通过文本信息对应的音素序列、音频信息对应的音频特征向量序列以及目标场景对应的场景特征向量，根据音素序列、音频特征向量序列和场景特征向量进行语音合成，以确定对应的语音信息。本发明实施例通过在语音合成过程中直接引入场景特征，使得通过同一语音合成方式在不同场景合成情感、语气不同的语音，实现了语音信息与场景的自动匹配。

Description

语音合成方法和装置

技术领域

本发明涉及语音合成领域，尤其涉及一种语音合成方法和装置。

背景技术

目前语音合成技术被广泛应用于各领域中，但不同的应用场景需要不同语气、情感的合成语音。现有技术在应对不同应用场景时会分别采用不同的语音合成方式，造成资源庞大的资源开销。

发明内容

有鉴于此，本发明实施例提供一种语音合成方法和装置，旨在自动合成与场景匹配的语音信息。

第一方面，本发明实施例提供了一种语音合成方法，所述方法包括：

确定文本信息和对应的音频信息；

确定所述文本信息对应的音素序列；

确定所述音频信息对应的音频特征向量序列，所述音频特征向量序列中包括多个音频特征向量；

确定目标场景对应的场景特征向量；

根据所述音素序列、音频特征向量序列和场景特征向量进行语音合成，以确定对应的语音信息。

进一步地，所述确定文本信息和对应的音频信息包括：

确定文本信息；

根据所述文本进行录制对应的音频信息。

进一步地，所述确定所述文本信息对应的音素序列包括：

确定所述文本信息中各文字对应的音素；

根据各所述音素确定音素序列，各所述音素在所述音素序列中的位置根据对应文字在时间维度上的顺序确定。

进一步地，所述确定所述音频信息对应的音频特征向量序列包括：

对所述音频信息进行分帧，得到包括多个音频信息片段的音频信息片段序列；

对各所述音频信息片段进行音频特征提取，以确定音频特征向量序列。

进一步地，所述对各所述音频信息片段进行音频特征提取具体为：

提取各所述音频信息片段的Fbank特征。

进一步地，所述确定目标场景对应的场景特征向量包括：

对多个预设的场景标识信息进行独热编码，以确定多个场景独热向量，所述场景标识信息用于表征对应的场景；

确定目标场景对应的场景独热向量为场景特征向量。

进一步地，所述根据所述音素序列、音频特征向量序列和场景特征向量进行语音合成，以确定对应的语音信息包括：

将所述音素序列、音频特征向量序列和场景特征向量输入训练得到的语音合成模型，以输出对应的语音信息。

进一步地，所述语音合成模型包括特征对齐层、特征拼接层和语音合成层；

所述将所述音素序列、音频特征向量序列和场景特征向量输入训练得到的语音合成模型，以输出对应的语音信息包括：

将所述音素序列和音频特征向量序列输入所述特征对齐层，输出音素向量序列；

将所述音素向量序列与所述场景特征向量输入所述特征拼接层进行特征拼接后输入语音合成层，以输出对应的语音信息。

第二方面，本发明实施例提供了一种语音合成装置，所述装置包括：

信息确定模块，用于确定文本信息和对应的音频信息；

第一序列确定模块，用于确定所述文本信息对应的音素序列；

第二序列确定模块，用于确定所述音频信息对应的音频特征向量序列，所述音频特征向量序列中包括多个音频特征向量；

向量确定模块，用于确定目标场景对应的场景特征向量；

语音合成模块，用于根据所述音素序列、音频特征向量序列和场景特征向量进行语音合成，以确定对应的语音信息。

第三方面，本发明实施例提供了一种计算机可读存储介质，用于存储计算机程序指令，所述计算机程序指令在被处理器执行时实现如第一方面中任一项所述的方法。

第四方面，本发明实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中任一项所述的方法。

本发明实施例通过文本信息对应的音素序列、音频信息对应的音频特征向量序列以及目标场景对应的场景特征向量，根据音素序列、音频特征向量序列和场景特征向量进行语音合成，以确定对应的语音信息。本发明实施例通过在语音合成过程中直接引入场景特征，使得通过同一语音合成方式在不同场景合成情感、语气不同的语音，实现了语音信息与场景的自动匹配。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1为本发明实施例的语音合成方法的流程图；

图2为本发明实施例确定音频特征向量的示意图；

图3为本发明实施例确定语音信息的示意图；

图4为本发明实施例的语音合成装置的示意图；

图5为本发明实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本发明实施例的语音合成方法可以通过服务器或可以进行语音合成的终端设备实现，用于通过引入场景特征直接生成与场景相关的语音信息，可以应用于任意语音合成场景和语音合成模型的训练场景。其中，服务器可以为单个的服务器、多个服务器组成的服务器集群。终端设备可以移动终端或固定终端。

图1为本发明实施例的语音合成方法的流程图。如图1所示，所述语音合成方法包括以下步骤：

步骤S100、确定文本信息和对应的音频信息。

具体地，音频信息与对应的文本信息为表征相同内容、格式不同的信息。其中，音频信息是用于记载对应内容的波形信息，可以为任意音频格式。文本信息为用于记载对应内容的文字格式信息，可以为中文、英文等语言。例如，“你好”或者“hello”。可选地，音频信息和对应的文本信息可以互相转化。也就是说，音频信息和对应的文本信息可以根据需要进行语音合成的内容同时生成。或者，可以先通过波形记录需要进行语音合成的内容以得到音频信息，再通过将波形信息转化为对应的文字格式信息的方式确定文本信息。或者，还可以先通过文本格式记录需要进行语音合成的内容以得到文本信息，再通过将文本信息转化成对应的波形信息确定音频信息。

在本发明实施例的一个可选地实现方式中，确定文本信息和对应的音频信息的方式为先确定需要合成语音信息的文本信息，再进一步将文本信息转化成对应的波形信息以确定对应的音频信息。可选地，文本信息转化成对应波形信息的方式为录制与文本信息对应的音频信息。

其中，音频信息的录制过程可以根据预设的录制规则确定，以实现将不同的文本信息录制为相同的格式，便于语音合成。在本发明实施例中，音频信息的录制规则可以为基于预定的采样率对音频进行采样，再将音频信息的音量统一到一个预定的分贝，并在音频末尾添加预定时间长度的静音。可选地，预定的采样率可以22050，预定的分贝可以为-6DB，音频末尾添加的静音长度可以为300ms。

进一步地，在本发明实施例应用于训练语音合成模型的应用场景时，可以确定包括多个目标文本信息的目标文本信息集合，并录制各目标文本信息对应音频信息，以用于构建语音合成模型的训练集。其中，各目标文本信息的确定方式可以为在存储大量文本信息的文本信息集合中获取能够覆盖全部音素的多个文本信息。即先将文本信息集合中的全部文本信息转换成对应的音素，再依次进行单句筛选直到获取的文本信息能够覆盖全部音素。单句筛选过程为先确定一个文本信息为目标文本信息，并获取目标文本信息中包括的音素，在全部音素组成的音素集合中删除目标文本信息中包括的音素，再在未筛选的文本信息中优先选择包含音素集合中剩余音素的文本信息。

在确定目标文本信息集合后，依次或分组对目标文本信息进行录制，得到对应的音频信息。

步骤S200、确定所述文本信息对应的音素序列。

具体地，在确定文本信息后，将文本信息中包括的各文字转换为音素，以进一步确定文本信息对应的音素序列。音素序列中包括顺序对应于文本信息时间维度的多个音素。其中，音素是构成音节的最小单位或最小的语音片段。可选地，确定音素序列的过程可以为先确定文本信息中包括的各文字对应音节，再获取各音节中最小单位的音素以确定音素序列。音素序列中各音素所在位置可以根据各音节对应文字在文本信息时间维度上的位置、以及各音素在对应音节时间维度上的位置确定。

例如，当文本信息为“普通话”，时，文字“普”对应的音节为“pu”，文字“通”对应的音节为“tong”，文字“话”对应的音节为“hua”。同时，音节“pu”对应的音素依次为“p”和“u”，音节“tong”对应的音素依次为“t”、“o”和“ng”，音节“hua”对应的音素依次为“h”、“u”和“a”。因此，根据文本信息中各文字在文本信息时间维度上的位置、以及各音素在对应音节时间维度上的位置确定音素序列为{“p”，“u”，“t”，“o”，“ng”，“h”，“u”，“a”}。

步骤S300、确定所述音频信息对应的音频特征向量序列。

具体地，在确定文本信息对应的音频信息后，对音频信息进行特征提取以得到包括多个音频特征向量的音频特征向量序列。进一步地，本发明实施例进行音频特征向量提取的过程还可以包括以下步骤：

步骤S310、对所述音频信息进行分帧，得到包括多个音频信息片段的音频信息片段序列。

具体地，在确定文本信息对应的音频信息后，先对音频信息进行分帧处理，以在时间维度上将音频信息的波形分割成多个长度为1帧的波形信息作为音频信息片段，并且进一步根据各音频信息片段在音频信息中的位置确定音频信息片段序列。也就是说，音频信息片段在音频信息片段序列中的位置对应于其在音频信息中位置。

步骤S320、对各所述音频信息片段进行音频特征提取，以确定音频特征向量序列。

具体地，在对音频信息分帧处理得到包括多个音频信息片段的音频信息片段序列后，分别对各音频信息片段进行音频特征提取，以提取到对应的音频特征向量，并进一步根据对应音频信息片段在音频信息片段序列中的位置确定音频特征向量序列。也就是说，音频特征向量在音频特征向量序列中的位置于对应的音频信息片段在音频信息片段序列中的位置相同。

在本发明实施例中，对各音频信息片段进行音频特征提取的过程为对音频信息片段进行FilterBank分析，以提取到对应的Fbank特征。其中，FilterBank分析为一种前端处理算法，以类似于人耳的方式对音频进行处理，可以提高语音识别的性能。Fbank特征的提取过程具体为先将音频信息片段由时域信号转换为频域信号，再将转换得到的频域信号输入梅尔滤波器后输出对应的Fbank特征。其中，音频信息片段由时域信号转换为频域信号的方式可以为傅里叶变换，可选地，本发明实施例中的变换方式可以采用离散傅里叶变换的方式进行信号转换。

图3为本发明实施例确定语音信息的示意图。如图3所示，本发明实施例确定语音信息的过程为先在时间维度上对音频信息20的波形进行分帧，得到包括多个音频信息片段21的音频信息片段序列。其中，各音频信息片段21的在序列中的位置根据其波形在音频信息20波形中时间维度上的位置确定。进一步地，在确定音频信息片段序列后，将其中包括的多个音频信息片段21分别进行特征提取，以得到包括多个音频特征向量22组成的音频特征向量序列。

步骤S400、确定目标场景对应的场景特征向量。

具体地，确定用于表征目标场景特征的场景特征向量。其中，目标场景为语音合成的应用场景，例如，可以为教学场景、客服场景以及方言场景等需要合成特定语气、语调或情感的场景。在本发明实施例中，确定目标场景对应的场景特征向量的方式可以为确定目标场景对应的场景独热向量为场景特征向量。其中，场景独热向量可以通过先确定多个场景对应的场景标识，再对各场景标识进行独热编码的方式确定，各场景标识分别用于表征对应的场景。

进一步地，独热编码又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有他独立的寄存器位，并且在任意时候，其中只有一位有效。可选地，有效位标记为1，无效位标记为0。例如，当对状态1、状态2、状态3和状态4四个状态进行编码时，各状态对应的编码结果分别为状态1：(1,0,0,0)、状态2：(0,1,0,0)、状态3：(0,0,1,0)、状态4：(0,0,0,1)。

也就是说，对场景标识进行独热编码的过程为使用与场景标识数量N相同的N位状态寄存器来对N个场景标识进行编码，使得每一个场景标识对应一个只有一位有效的独热特征。并在确定预先设定的各场景标识对应的独热特征后，在其中确定目标场景对应的场景特征向量。例如，当本发明实施例预先确定的场景包括教学场景、客服场景和方言场景三个场景时，依次确定各场景对应的场景标识为1、2和3，对各场景标识进行独热编码后得到教学场景对应的场景独热向量为(1,0,0)，客服场景对应的场景独热向量为(0,1,0)，方言场景对应的场景独热向量为(0,0,1)。当目标场景为教学场景时，确定对应的场景特征向量为(1,0,0)。

步骤S500、根据所述音素序列、音频特征向量序列和场景特征向量进行语音合成，以确定对应的语音信息。

具体地，在确定文本信息对应的音素序列、语音信息对应的音频特征向量序列和目标场景对应的场景特征向量后，基于音素序列、音频特征向量序列和场景特征向量三个不同维度的特征进行语音合成，以确定于目标场景匹配的语音信息。在本发明实施例的一个可选的应用场景中，本发明实施例语音合成的方式可以为将音素序列、音频特征向量序列和场景特征向量输入训练得到的语音合成模型，以自动输出与音素序列和音频特征向量序列以及场景特征向量对应的语音信息。

进一步地，用于进行语音合成的语音合成模型中包括特征对齐层、特征拼接层和语音合成层。音素序列、音频特征向量序列和场景特征向量在输入语音合成模型后，音素序列和音频特征向量序列输入特征对齐层进行音频强制对齐，输出对齐的音素向量序列。其中，对齐后的音素向量序列中包括多个音素向量，各音素向量分别对应文本信息中的一个文字。例如，当文本信息中包括的文字为“普通话”时，音素向量序列中包括{“音素向量1”，“音素向量2”，“音素向量3”}三个音素向量，“音素向量1”对应于“普”，“音素向量2”对应于“通”，“音素向量3”对应于“话”。

进一步地，音素向量序列与场景特征向量再输入特征拼接层进行特征拼接，然后输入语音合成层进行语音合成后输出对应的语音信息。

图3为本发明实施例确定语音信息的示意图。如图3所示，本发明实施例的语音信息确定方式为将音素序列30、音频特征向量序列31和场景特征向量32输入语音合成模型中确定对应的语音信息。

具体的，语音合成模型中包括特征对齐层33、特征拼接层34和语音合成层35。先将音素序列30和音频特征向量序列31输入特征对齐层33进行强制对齐，以得到音频特征向量序列。将音频特征向量序列和场景特征向量32输入特征拼接层34，在进行特征拼接后输入语音合成层35进行语音合成，得到与目标场景匹配的语音信息36。

在本发明实施例的另一个可选的应用场景中，本发明实施例应用于训练语音合成模型，即通过预先确定的多个文本信息、对应的音频信息和场景信息分别确定多个对应的音素序列、音频特征向量序列和场景特征向量，再将各音素序列、音频特征向量序列和场景特征向量作为语音合成模型的输入，根据模型输出与预期输出之间的差异计算损失，以进行模型训练。

图4为本发明实施例的语音合成装置的示意图。如图4所示，本发明实施例的语音合成装置包括信息确定模块40、第一序列确定模块41、第二序列确定模块42、向量确定模块43和语音合成模块44。

具体地。信息确定模块40用于确定文本信息和对应的音频信息。第一序列确定模块41用于确定所述文本信息对应的音素序列。第二序列确定模块42用于确定所述音频信息对应的音频特征向量序列，所述音频特征向量序列中包括多个音频特征向量。向量确定模块43用于确定目标场景对应的场景特征向量。语音合成模块44用于根据所述音素序列、音频特征向量序列和场景特征向量进行语音合成，以确定对应的语音信息。

图5是本发明实施例的电子设备的示意图。如图5所示，图5所示的电子设备为通用地址查询装置，其包括通用的计算机硬件结构，其至少包括处理器50和存储器51。处理器50和存储器51通过总线52连接。存储器51适于存储处理器50可执行的指令或程序。处理器50可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器50通过执行存储器51所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线52将上述多个组件连接在一起，同时将上述组件连接到显示控制器53和显示装置以及输入/输出(I/O)装置54。输入/输出(I/O)装置54可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置54通过输入/输出(I/O)控制器55与系统相连。

本领域的技术人员应明白，本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。

本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。

这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现流程图一个流程或多个流程中指定的功能。

也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

本发明的另一实施例涉及一种非易失性存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

确定文本信息和对应的音频信息；

确定所述文本信息对应的音素序列；

确定目标场景对应的场景特征向量；

根据所述音素序列、音频特征向量序列和场景特征向量进行语音合成，以确定对应的语音信息；

其中，所述根据所述音素序列、音频特征向量序列和场景特征向量进行语音合成，以确定对应的语音信息包括：

将所述音素序列、音频特征向量序列和场景特征向量输入训练得到的语音合成模型，以输出对应的语音信息；

所述确定目标场景对应的场景特征向量包括：

确定目标场景对应的场景独热向量为场景特征向量。

2.根据权利要求1所述的方法，其特征在于，所述确定文本信息和对应的音频信息包括：

确定文本信息；

根据所述文本进行录制对应的音频信息。

3.根据权利要求1所述的方法，其特征在于，所述确定所述文本信息对应的音素序列包括：

确定所述文本信息中各文字对应的音素；

4.根据权利要求1所述的方法，其特征在于，所述确定所述音频信息对应的音频特征向量序列包括：

5.根据权利要求4所述的方法，其特征在于，所述对各所述音频信息片段进行音频特征提取具体为：

提取各所述音频信息片段的Fbank特征。

6.根据权利要求1所述的方法，其特征在于，所述语音合成模型包括特征对齐层、特征拼接层和语音合成层；

7.一种语音合成装置，其特征在于，所述装置包括：

信息确定模块，用于确定文本信息和对应的音频信息；

向量确定模块，用于确定目标场景对应的场景特征向量；

语音合成模块，用于根据所述音素序列、音频特征向量序列和场景特征向量进行语音合成，以确定对应的语音信息；

其中，所述语音合成模块具体用于：

所述向量确定模块具体用于：

确定目标场景对应的场景独热向量为场景特征向量。

8.一种计算机可读存储介质，用于存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-6中任一项所述的方法。

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-6中任一项所述的方法。