CN111653265A

CN111653265A - 语音合成方法、装置、存储介质和电子设备

Info

Publication number: CN111653265A
Application number: CN202010340815.XA
Authority: CN
Inventors: 梁光; 杨惠; 舒景辰; 谭星; 张岱
Original assignee: Beijing Dami Technology Co Ltd
Current assignee: Beijing Dami Technology Co Ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2020-09-11
Anticipated expiration: 2040-04-26
Also published as: CN111653265B

Abstract

本申请提供的语音合成方法、装置、存储介质和电子设备，确定输入文本对应的音素序列；确定所述输入文本对应的情绪特征；根据所述音素序列和所述情绪特征，合成所述输入文本对应的语音。在上述语音合成方案中，可以根据输入文本合成输入文本对应的语音，而无需人工配音，降低了配音过程中所消耗的人工成本，并提升了配音的效率。

Description

语音合成方法、装置、存储介质和电子设备

技术领域

本申请涉及语音处理技术领域，具体而言，涉及一种语音合成方法、装置、存储介质和电子设备。

背景技术

在动画制作、视频配音、网上答题等多种场合下，都需要提供匹配的声音进行讲解。通常情况下需要在专业的录音棚中，由人工录制对应的语音，以便在播放对应画面时，可播放对应的声音。但这种人工配音的方式耗费的人工成本较高，配音的效率也较低。

发明内容

为了解决上述问题，本申请实施例提供了一种语音合成方法、装置和电子设备。

第一方面，本申请实施例提供了一种语音合成方法，包括以下步骤：

确定输入文本对应的音素序列；

确定所述输入文本对应的情绪特征；

根据所述音素序列和所述情绪特征，合成所述输入文本对应的语音。

可选地，所述确定所述输入文本对应的情绪特征，包括：

对所述输入文本进行情绪识别，得到所述输入文本对应的所述情绪特征。

可选地，所述确定所述输入文本对应的情绪特征，包括：

根据所述输入文本中的情绪标识，确定所述输入文本对应的所述情绪特征。

可选地，所述输入文本中包括多个播放角色的语音内容，所述确定输入文本对应的音素序列，包括：

确定所述多个播放角色中每个播放角色的角色序列，所述角色序列为所述播放角色的语音内容对应的音素序列；

所述确定所述输入文本对应的情绪特征，包括：

分别对所述输入文本中每个播放角色的语音内容进行情绪识别，得到所述每个播放角色的情绪特征；

所述根据所述音素序列和所述情绪特征，合成所述输入文本对应的语音，包括：

根据所述每个播放角色的角色序列和所述每个播放角色的情绪特征，合成所述每个播放角色对应的语音。

可选地，所述输入文本中包括多个播放角色的语音内容，所述方法还包括：

确定所述多个播放角色中每个播放角色的音色特征；

所述根据所述每个播放角色的角色序列和所述每个播放角色的情绪特征，合成所述每个播放角色对应的语音，包括：

根据所述每个播放角色的角色序列、所述每个播放角色的情绪特征和所述每个播放角色的音色特征，合成所述每个播放角色对应的语音。

可选地，所述方法还包括：

确定播放角色的音色特征，所述播放角色用于播放所述输入文本对应的语音；

根据所述音素序列、所述情绪特征和所述音色特征，合成所述输入文本对应的语音。

可选地，所述根据所述音素序列、所述情绪特征和所述音色特征，合成所述输入文本对应的语音，包括：

将所述音素序列、所述情绪特征和所述音色特征输入至预设语音合成模型中，以合成所述输入文本对应的语音，所述预设语音合成模型是通过多组训练数据训练出来的，所述训练数据包括：多个输入样本文本和与所述多个输入样本文本对应的多个播放语音，每个所述播放语音至少由一个播放角色录制而成。

第二方面，本申请实施例提供了一种语音合成装置，包括：

序列确定单元，用于确定输入文本对应的音素序列；

情绪确定单元，用于确定所述输入文本对应的情绪特征；

语音合成单元，用于根据所述音素序列和所述情绪特征，合成所述输入文本对应的语音。

第三方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项方法的步骤。

第四方面，本申请实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项方法的步骤。

附图说明

图1是本申请实施例提供的一种语音合成方法的流程示意图；

图2是本申请实施例提供的另一种语音合成方法的流程示意图；

图3是本申请实施例提供的又一种语音合成方法的流程示意图；

图4a是FastSpeech模型中前馈Transformer的架构示意图；

图4b是FastSpeech模型中FFT模块的架构示意图；

图4c是FastSpeech模型中长度调节器的架构示意图；

图4d是FastSpeech模型中时长预测器的架构示意图；

图5是本申请实施例提供的一种语音合成装置的结构示意图；

图6为本申请实施例所涉及的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请进行进一步的介绍。

在下述介绍中，术语“第一”、“第二”仅为用于描述的目的，而不能理解为指示或暗示相对重要性。下述介绍提供了本申请的多个实施例，不同实施例之间可以替换或者合并组合，因此本申请也可认为包含所记载的相同和/ 或不同实施例的所有可能组合。因而，如果一个实施例包含特征A、B、C，另一个实施例包含特征B、D，那么本申请也应视为包括含有A、B、C、D 的一个或多个所有其他可能的组合的实施例，尽管该实施例可能并未在以下内容中有明确的文字记载。

下面的描述提供了示例，并且不对权利要求书中阐述的范围、适用性或示例进行限制。可以在不脱离本申请内容的范围的情况下，对描述的元素的功能和布置做出改变。各个示例可以适当省略、替代或添加各种过程或组件。例如所描述的方法可以以所描述的顺序不同的顺序来执行，并且可以添加、省略或组合各种步骤。此外，可以将关于一些示例描述的特征组合到其他示例中。

参见图1，图1是本申请实施例提供的一种语音合成方法的流程示意图，在本申请实施例中，所述方法包括：

S101、确定输入文本对应的音素序列。

可先对输入文本进行预处理，以去除文本信息中的无效字符、消除歧义等，从而使最终合成的语音具有较好的播放效果。可将输入文本中包含的字或词逐个与音素字典进行匹配，确定输入文本中每个字或词的音素序列，最后组合输入文本中每个字或词的音素序列获得输入文本的音素序列。

S102、确定所述输入文本对应的情绪特征。

情绪特征用于指示输入文本对应的情绪信息。情绪特征可用于表征为输入文本内容进行配音时，播放角色的情绪为高兴、愤怒、生气等。

在一种可实施方式中，步骤S102可包括：

可以基于输入文本中各词组的词性识别输入文本的情绪特征。例如，可以筛选出该文本信息中的形容词，基于各个形容词的出现位置、出现频率以及情绪倾向，确定该文本信息所对应的情绪特征。可以基于该文本信息中的情绪变化，调整语音合成模型中的各组参数，使该语音合成模型所输出语音数据的音频特征可以基于该情绪特征的变化而变化。

在一种可实施方式中，步骤S102可包括：

输入文本中也可设置有情绪标识。该情绪标识表明播放角色应以与该识别对应的情绪来朗读该输入文本。在系统中预存情绪标识与情绪特征的对应关系，以便通过输入文本中的情绪标识可确定该输入文本对应的情绪特征。

S103、根据所述音素序列和所述情绪特征，合成所述输入文本对应的语音。

将音素序列和情绪特征输入语音合成模型，确定输入文本对应的声音波形，生成对应语音。其中，该语音合成模型可以为WaveNet(波网)模型、 DeepVoice2(深度语音)模型、Tacotron(端到端的语音合成)模型等，本申请实施例对具体应用哪种语音合成模型不做限定。

本申请实施例的方法可以根据输入文本合成输入文本对应的语音，而无需人工配音。因此，可以解决人工配音过程中人工成本高，配音效率较低的问题。

此外，本申请实施例的方法确定输入文本对应的情绪特征，并将情绪特征用于生成输入文本对应的语音。合成的语音可以更好地表达出输入文本内容所要表达的意思，使系统的自动配音效果更佳。

参见图2，图2是本申请实施例提供的一种语音合成方法的流程示意图，在本申请实施例中，输入文本中包括多个播放角色的语音内容，所述方法包括：

S201、确定所述多个播放角色中每个播放角色的角色序列，所述角色序列为所述播放角色的语音内容对应的音素序列。

S202、分别对所述输入文本中每个播放角色的语音内容进行情绪识别，得到所述每个播放角色的情绪特征。

S203、根据所述每个播放角色的角色序列和所述每个播放角色的情绪特征，合成所述每个播放角色对应的语音。

输入文本中的内容常常是多人之间的对话内容等，输入文本中包括多个播放角色的语音内容，既输入文本中的内容应由不同人按不同的播放角色进行配音。不同播放角色对应的语音内容和情绪特征都是不同的。依据不同播放角色，确定每个播放角色的角色序列和每个播放角色的情绪特征，合成所述每个播放角色对应的语音。本申请实施例的方法可使合成的语音更符合不同播放角色的不同特点，并使合成的语音播放效果更加生动。

可选地，所述方法还包括：

确定所述多个播放角色中每个播放角色的音色特征；

所述步骤S203可包括：

音色特征可以用于指示播放角色所对应的频率特征、波形特征等。在一种可能实现方式中，该音色特征可以由向量、矩阵等特征参数表示，各个特征参数的维度和具体数值可以由开发人员进行设置，本申请实施例不作限定。

现实生活中每个人都有不同的音色特征。本申请实施例的方法确定每个播放角色的音色特征，并基于每个播放角色对应的不同音色特征，合成输入文本的语音，可使合成的语音播放效果更符合现实生活中真人的配音效果。

参见图3，图3是本申请实施例提供的一种语音合成方法的流程示意图，在本申请实施例中，所述方法包括：

S301、确定输入文本对应的音素序列。

S302、确定所述输入文本对应的情绪特征。

S303、确定播放角色的音色特征，所述播放角色用于播放所述输入文本对应的语音。

S304、根据所述音素序列、所述情绪特征和所述音色特征，合成所述输入文本对应的语音。

可选地，所述步骤S304可包括：

本申请实施例的方法，通过至少一个播放角色录制的播放语音训练语音合成模型，可使训练后的语音合成模型识别出多个播放角色的音色特征，并基于不同播放角色的不同音色特征合成输出文本对应的语音。因此，本申请实施例的方法简单易行，且可使最终合成的语音具有贴近真实人声的特点。

此外，由于每个人都有不同的音色特征。本申请实施例的方法确定每个播放角色的音色特征，并基于每个播放角色对应的不同音色特征，合成输入文本的语音，可使合成的语音播放效果更生动有趣，更符合真实语境中真人说话的效果。

为使本发明的技术方案便于理解。下面介绍一种多人语音合成的方法的实现过程。本申请实施例提供的方法收集同多人语料，模拟合成仿真声音，即用真人甲、乙、丙、…的语音训练模拟合成声音输出。

输入样本文本A与文本对应的语音集合B，语音集合中的语音来自于不同的真人，每个语音对应一个特征向量，例如文本“今天你吃饭了吗”、“吃了”，对应的语音“今天你吃饭了吗”是甲的声音，“吃了”时候乙的声音；

本申请实施例的方法中需提取B的音色，音色用于表征发音韵律的特点，形成一个音色特征向量P，该特征向量P跟经过编码器的文本所得到的特征进行运算，如：拼接或乘法等，以使得得到的向量能够包含音色特征。

本申请实施例的方法可应用FastSpeech模型来实现。图4a-图4d为 FastSpeech模型的整体架构示意图。其中，图4a为FastSpeech模型中前馈 Transformer的架构示意图；图4b为FastSpeech模型中FFT模块的架构示意图；图4c为FastSpeech模型中长度调节器的架构示意图；图4d为FastSpeech 模型中时长预测器的架构示意图。

如图4a-图4d所示，FastSpeech模型分为编码器和解码器，其中，从底往上前面的phoneme embedding、positional encoding、FFT Block为编码器，后面的为positionalencoding、FFT Block、Linear Layer为解码器，

本申请实施例提供的方法中具体训练过程为：

步骤1.输入样本文本A和样本语音B。

步骤2.对输入样本文本A进行编码处理。步骤2具体包括下列步骤2.1 至步骤2.4。

2.1音素嵌入(phoneme embedding)：基于文本A(例如：“今天你吃饭了吗？”)提取发音序列，其中，每一个词对应一个音素序列(即1-n个音素，例如：“你”、“吃”等各自对应其音素序列)。具体过程是：经过查询音素表，将文本A转换成一个音素序列(用特征向量X表示)，并对特征向量X进行转化(经过矩阵关系运算降维)，转换成特征向量Y。

2.2位置编码(positional encoding)，基于向量计算，把文本A的文本序列信息加入到特征向量Y中，以体现时间序列，得到特征向量Z。

2.3FFT block，该模块是一个transformer前馈网络，包含关注重要信息(attention)机制、卷积层，其中卷积层为需要训练参数的网络层，经过该模块的处理计算，由特征向量Z得到特征向量G。

2.4提取B的音色，音色用于表征发音韵律的特点，形成一个音色特征向量P。将特征向量P与特征向量G进行拼接或乘法运算，得到特征向量U。

步骤3.时长提取(Length regular)，现有模型使用预训练好的模型，提取音素序列中每个因素的时长信息，但效果并不好(是句子的对齐，并未实现音素到音素的对齐)。本方案做了另一改进：使用统计模型(经典解码器)，实现了强制对齐，具体是：通过对每个单词进行发音时长的统计，对每个发音序列的时长进行概率评估，选择概率最大的序列作为输出结果，由此实现了音素到音素的对齐，进一步，基于得到的时长信息，对特征向量U进行运算，得到特征向量V。

步骤4.解码，具体包括下列步骤4.1至4.3。

4.1位置编码(positional encoding)，基于向量计算，把文本A的文本序列信息加入到特征向量V中，以体现时间序列，得到特征向量S。

4.2FFT block，经过该模块的处理计算，由特征向量S得到特征向量T。

4.3经过Linear Layer，得到特征向量T对应的梅尔频谱α，与最初输入的语音B的梅尔频谱β进行比较，即将贝塔作为比较的标签，计算损失，根据损失不断迭代训练上述的编码器和解码器。

更进一步地，提取输入样本文本A中的情绪特征，形成一个情绪特征向量Y，在上述第2.4步中，使用情绪特征向量Y与特征向量G进行拼接或乘法运算。具体地，运算时可以先将音色特征向量P与特征向量G进行拼接或乘法运算，再将运算结果与情绪特征向量Y进行运算。也可以先将情绪特征向量Y与特征向量G进行拼接或乘法运算，再将运算结果与音色特征向量P 进行运算。通过上述运算可以使得最终的运算结果同时包含情绪特征和音色特征，从而能够使得声音更饱满。

后续的语音合成过程，即是通过上述训练好的模型，输入文本，经过层层计算，得到最终的特征向量T，并得到对应的梅尔频谱，输出文本对应的语音。

上述图1～图4详细阐述了本申请实施例的语音合成方法。请参见图5，图5是本申请实施例提供的一种语音合成装置的结构示意图，如图5所示，所述语音合成装置包括：

序列确定单元501，用于确定输入文本对应的音素序列；

情绪确定单元502，用于确定所述输入文本对应的情绪特征；

语音合成单元503，用于根据所述音素序列和所述情绪特征，合成所述输入文本对应的语音。

可选地，所述情绪确定单元502具体用于：

可选地，所述序列确定单元501具体用于：

所述情绪确定单元502具体用于：

所述语音合成单元503具体用于：

可选地，所述装置还包括：

第一音色确定单元504，用于确定所述多个播放角色中每个播放角色的音色特征；

所述语音合成单元503具体用于：

可选地，所述装置还包括：

第二音色确定单元505，用于确定播放角色的音色特征，所述播放角色用于播放所述输入文本对应的语音；

所述语音合成单元503具体用于：

可选地，所述语音合成单元503具体用于：

本领域的技术人员可以清楚地了解到本申请实施例的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件，其中硬件例如可以是 FPGA(Field－Programmable Gate Array，现场可编程门阵列)、IC(Integrated Circuit，集成电路)等。

本申请实施例的各处理单元和/或模块，可通过实现本申请实施例所述的功能的模拟电路而实现，也可以通过执行本申请实施例所述的功能的软件而实现。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述语音合成方法的步骤。其中，计算机可读存储介质可以包括但不限于任何类型的盘，包括软盘、光盘、DVD、 CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、 VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC)，或适合于存储指令和/或数据的任何类型的媒介或设备。

参见图6，其示出了本申请实施例所涉及的一种电子设备的结构示意图，该电子设备可以用于实施上述实施例中语音合成方法。具体来讲：

存储器620可用于存储软件程序以及模块，处理器690通过运行存储在存储器620的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端设备的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器620还可以包括存储器控制器，以提供处理器690和输入单元630对存储器620的访问。

输入单元630可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元630可包括触敏表面631(例如：触摸屏、触摸板或触摸框)。触敏表面631，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面631 上或在触敏表面631附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面631可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器690，并能接收处理器690发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面631。

显示单元640可用于显示由用户输入的信息或提供给用户的信息以及终端设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元640可包括显示面板641，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、 OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板641。进一步的，触敏表面631可覆盖显示面板641，当触敏表面631检测到在其上或附近的触摸操作后，传送给处理器690以确定触摸事件的类型，随后处理器690根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然触敏表面631与显示面板641是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面631与显示面板641集成而实现输入和输出功能。

处理器690是终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器620内的软件程序和/或模块，以及调用存储在存储器620内的数据，执行终端设备的各种功能和处理数据，从而对终端设备进行整体监控。可选的，处理器690可包括一个或多个处理核心；其中，处理器690可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器690中。

具体在本实施例中，终端设备的显示单元是触摸屏显示器，终端设备还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含实现上述语音合成方法的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上介绍仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

确定输入文本对应的音素序列；

确定所述输入文本对应的情绪特征；

2.根据权利要求1所述的方法，其特征在于，所述确定所述输入文本对应的情绪特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述确定所述输入文本对应的情绪特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述输入文本中包括多个播放角色的语音内容，所述确定输入文本对应的音素序列，包括：

确定所述多个播放角色中每个播放角色的角色序列，所述角色序列为所述播放角色在所述输入文本中的语音内容对应的音素序列；

所述确定所述输入文本对应的情绪特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

确定所述多个播放角色中每个播放角色的音色特征；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述音素序列、所述情绪特征和所述音色特征，合成所述输入文本对应的语音，包括：

8.一种语音合成装置，其特征在于，所述装置包括：

序列确定单元，用于确定输入文本对应的音素序列；

情绪确定单元，用于确定所述输入文本对应的情绪特征；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现所述权利要求1-7中任一项所述方法的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现所述权利要求1-7中任一项所述方法的步骤。