CN110797006B

CN110797006B - 端到端的语音合成方法、装置及存储介质

Info

Publication number: CN110797006B
Application number: CN202010007974.8A
Authority: CN
Inventors: 邵志明; 黄宇凯; 郝玉峰; 曹琼; 李科; 宋琼
Original assignee: Beijing Speechocean Technology Co ltd
Current assignee: Beijing Speechocean Technology Co ltd
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2020-05-19
Anticipated expiration: 2040-01-06
Also published as: CN110797006A

Abstract

本发明涉及数据处理技术领域，提供端到端的语音合成方法、装置、模型训练方法、模型训练装置及存储介质，该端到端的语音合成方法包括：获取待处理文本；基于待处理文本，确定待处理文本中的韵律信息，生成待处理文本对应的带有韵律信息的文本序列，其中韵律信息用于表示待处理文本中的停顿时长；基于带有韵律信息的文本序列，生成带有韵律信息的拼音序列；将拼音序列输入端到端的语音合成模型，得到待处理文本对应的声波数据；合成声波数据，得到待处理文本对应的语音数据。该方法将带有韵律信息的拼音序列作为模型数据，将模型数据输入端到端的语音合成模型得到待处理文本对应的声波数据，使合成的语音韵律效果更好，提高了语音合成的质量。

Description

端到端的语音合成方法、装置及存储介质

技术领域

本发明一般地涉及互联网技术领域，特别是端到端的语音合成方法、端到端的语音合成装置、韵律模型训练方法、韵律模型训练装置、端到端的语音合成模型训练方法、端到端的语音合成模型训练装置及存储介质。

背景技术

语音合成，又称文语转换(TTS，Text To Speech)技术，能将任意文本转化为标准语音，即将文字信息转化为可听的声音信息，涉及声学、语言学、数字信号处理以及计算机科学。

韵律是包括在语音中的节奏、强调、语调等，韵律信息在语音合成中起到了十分重要的作用。

在使用端到端语音合成技术时，使用文本与语音一一对应的标准数据库训练语音合成模型，由于标准数据库中的容量有限，使语音合成模型无法学习到韵律信息的规则，使得合成的语音缺乏韵律感，无法达到良好的合成效果。

发明内容

为了解决现有技术中存在的上述问题，本发明提供端到端的语音合成方法、端到端的语音合成装置、韵律模型训练方法、韵律模型训练装置、端到端的语音合成模型训练方法、端到端的语音合成模型训练装置及存储介质。

一方面，本发明实施例提供端到端的语音合成方法包括：获取待处理文本；基于待处理文本，确定待处理文本中的韵律信息，生成待处理文本对应的带有韵律信息的文本序列，其中韵律信息用于表示待处理文本中的停顿时长；基于带有韵律信息的文本序列，生成带有韵律信息的拼音序列；将拼音序列输入端到端的语音合成模型，得到待处理文本对应的声波数据；合成声波数据，得到待处理文本对应的语音数据。

在一实施例中，基于待处理文本，确定待处理文本中的韵律信息，包括：基于待处理文本，根据标点、语句结构和词性，确定待处理文本中的韵律信息，生成带有韵律信息的文本序列。

在一实施例中，通过韵律模型，基于待处理文本，确定待处理文本中的韵律信息，生成待处理文本对应的带有韵律信息的文本序列。

在一实施例中，基于待处理文本，根据标点、语句结构和词性，确定待处理文本中的韵律信息，还包括：基于待处理文本，转换得到纯字文本；基于纯字文本，确定待处理文本中的韵律信息，生成带有韵律信息的文本序列。

在一实施例中，基于纯字文本，确定待处理文本中的韵律信息，生成带有韵律信息的文本序列还包括：对纯字文本进行分词，得到分词文本；基于分词文本，确定待处理文本中的韵律信息，生成带有韵律信息的文本序列。

在一实施例中，根据待处理文本，确定待处理文本中的韵律信息包括：基于对分词文本进行词性分析，确定待处理文本中的韵律信息，生成带有韵律信息的所述文本序列。

在一实施例中，端到端的语音合成方法还包括：根据带有韵律信息的文本序列进行发音预测，生成带有韵律信息的所述拼音序列。

本发明实施例的又一方面提供韵律模型训练方法，韵律模型用于如前任一项所述的语音合成方法，韵律模型训练方法包括：获取训练集，其中训练集包括文本以及与文本对应的韵律信息；将文本输入所述韵律模型，得到待测韵律数据；利用文本对应的韵律信息和待测韵律数据，训练韵律模型。

本发明实施例的又一方面提供端到端的语音合成模型训练方法，端到端的语音合成模型用于如前任一项所述的端到端的语音合成方法，端到端的语音合成模型训练方法包括：获取训练集，其中训练集包括多个文本以及与多个文本对应的多个语音；将语音转换为标准声波数据；将文本输入端到端的语音合成模型，得到待测声波数据；根据标准声波数据和待测声波数据，训练端到端的语音合成模型。

本发明实施例的又一方面提供端到端的语音合成装置，端到端的语音合成装置包括：获取模块，用于获取待处理文本；文本序列生成模块，用于基于待处理文本，确定待处理文本中的韵律信息，生成待处理文本对应的带有韵律信息的文本序列，其中韵律信息用于表示待处理文本中的停顿时长；拼音序列生成模块，用于基于带有韵律信息的文本序列，生成带有韵律信息的拼音序列；声波数据生成模块，用于将拼音序列输入端到端的语音合成模型，得到待处理文本对应的声波数据；合成模块，用于合成声波数据，得到待处理文本对应的语音数据。

本发明实施例的又一方面提供韵律模型训练装置，韵律模型用于如前任一项所述的语音合成方法，韵律模型训练装置包括：获取模块，用于获取训练集，其中训练集包括文本以及与文本对应的韵律信息；韵律数据获取模块，用于将文本输入所述韵律模型，得到待测韵律数据；训练模块，用于利用文本对应的韵律信息和待测韵律数据，训练韵律模型。

本发明实施例的又一方面提供端到端的语音合成模型训练装置，端到端的语音合成模型用于如前任一项所述的端到端的语音合成方法，端到端的语音合成模型训练装置包括：获取模块，用于获取训练集，其中训练集包括多个文本以及与多个文本对应的多个语音；转换模块，用于将语音转换为标准声波数据；数据生成模块，用于将文本输入端到端的语音合成模型，得到待测声波数据；训练模块，用于根据标准声波数据和待测声波数据，训练端到端的语音合成模型。

本发明实施例的又一方面提供一种电子设备，其中，电子设备包括：存储器，用于存储指令；以及处理器，用于调用存储器存储的指令执行端到端的语音合成方法、韵律模型训练方法或端到端的语音合成模型训练方法。

本发明实施例的又一方面提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行端到端的语音合成方法、韵律模型训练方法或端到端的语音合成模型训练方法。

本发明实施例将表征停顿时长的韵律信息与待处理文本结合，生成待处理文本的带有韵律信息的文本序列，进而生成对应的带有韵律信息的拼音序列，并将带有韵律信息的拼音序列作为模型数据输入端到端的语音合成模型得到待处理文本对应的声波数据，合成声波数据，得到待处理文本对应的语音数据，使合成的语音韵律效果更好，提高了语音合成的质量。

附图说明

通过参考附图阅读下文的详细描述，本发明实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示出了本发明实施例提供的一种端到端的语音合成方法的流程图；

图2示出了本发明实施例提供的又一种端到端的语音合成方法的流程图；

图3示出了本发明实施例提供的一种韵律模型训练方法的流程图；

图4示出了本发明实施例提供的一种端到端的语音合成模型训练方法的流程图；

图5示出了本发明实施例提供的一种端到端的语音合成装置框图；

图6示出了本发明实施例提供的一种韵律模型训练装置框图；

图7示出了本发明实施例提供的一种端到端的语音合成模型训练装置框图；

图8示出了本发明实施例提供的一种电子设备示意图；

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。

需要注意，虽然本文中使用“第一”、“第二”等表述来描述本发明的实施方式的不同模块、步骤和数据等，但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分，而并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。

韵律，包括节奏、强调、语调等，是人们表达思想情感的一种必要手段。相同的文字由于读音的韵律不同表意不同。

图1示出了本发明实施例提供的一种端到端的语音合成方法的流程图。如图1所示，该方法包括：

在步骤S101中，获取待处理文本。

待处理文本可以是包括汉字短语、语句或多条语句。待处理文本可以是实时获取也可以来自存储设备中。

在步骤S102中，基于待处理文本，确定待处理文本中的韵律信息，生成待处理文本对应的带有韵律信息的文本序列。

其中，韵律信息用于表示待处理文本中的停顿时长。本发明实施例对于获取待处理文本中的韵律信息的实现方式不做限定，可以采用当前技术中可以实现的确定待处理文本中的韵律信息的方法。

可以是根据预设规则，对待处理文本的韵律进行划分。可以是根据中文发音特点，确定预设规则，在待处理文本中加入韵律信息。

例如，韵律级别可以分为4级，表示待处理文本中的停顿时长有4种，对应韵律级别，可以选用对应的韵律标注符号对待处理文本进行标注。表1示出了韵律符号以及韵律符号表示的含义的对应关系。

表1

韵律符号	含义
		#1	韵律词，不停顿或者听感上不可感知。
#2	一级韵律短语，有较长停顿。
		#3	二级韵律短语，较短停顿。
#4	语调短语，停顿时间最长，一般出现在句尾。

参照上述划分法则以及表1所示的韵律符号，例如，待处理文本为“拍照时，嘟嘴扮可爱”，确定待处理文本中的韵律信息，即“拍照时”对应二级韵律短语、对应韵律符号为#3，“嘟嘴”对应一级韵律短语、对应韵律符号为#2，“扮”对应韵律词、对应韵律符号为#1，“可爱”出现在待处理文本的结尾，对应停顿时间最长，对应韵律符号为#4。

生成待处理文本对应的带有韵律信息的文本序列为“拍照时#3，嘟嘴#2扮#1可爱#4”。

在步骤S103中，基于带有韵律信息的文本序列，生成带有韵律信息的拼音序列。

待处理文本可以包括多个汉字，将多个汉字中的每个汉字对应拼音字母按照汉字的排列顺序排列，多个按顺序的拼音字母构成待处理文本对应的拼音序列。

例如上述待处理文本“拍照时，嘟嘴扮可爱”，对应的拼音序列为“pai1 zhao4shi2， du1 zui3 ban4 ke3 ai4”。

在经过步骤S102处理后，生成待处理文本对应的带有韵律信息的文本序列，将带有韵律信息的文本序列，生成带有韵律信息的拼音序列。

仍以上述待处理文本为例，“拍照时，嘟嘴扮可爱”对应的带有韵律信息的拼音序列为“pai1 zhao4 shi2 #3 ，du1 zui3 #2 ban4 #1 ke3 ai4 #4”。

在步骤S104中，将拼音序列输入端到端的语音合成模型，得到待处理文本对应的声波数据。

将上述待处理文本带有韵律信息的拼音序列作为模型数据输入端到端的语音合成模型，得到待处理文本对应的声波数据。

本公开的端到端语音合成方法中，直接输入文本或者拼音序列，输出音频波形，对分词、词性、多音字标注等文本特征信息提取过程得到极大简化、降低语言学知识的要求、减少人工干预，语音合成效果好。

语音合成模型为端到端的模型，其输入为待处理文本或待处理文本对应的拼音序列，输出为待处理文本对应的声波数据。根据待处理文本带有韵律信息的拼音序列的模型数据，使端到端的语音合成模型的更加优化。

在步骤S105中，合成声波数据，得到待处理文本对应的语音数据。

可以理解地，在本发明一实施例中，也可以是基于待处理文本，生成待处理文本对应的拼音序列。基于待处理文本，确定待处理文本中的韵律信息。基于拼音序列以及韵律信息，生成带有韵律信息的拼音序列。将拼音序列输入语音合成模型，得到待处理文本对应的声波数据，合成声波数据，得到待处理文本对应的语音数据。

本发明实施例将表征停顿时长的韵律信息与待处理文本结合，生成待处理文本的带有韵律信息的文本序列，进而生成对应的带有韵律信息的拼音序列，带有韵律信息的拼音序列，并将带有韵律信息的拼音序列作为模型数据输入端到端的语音合成模型得到待处理文本对应的声波数据，使合成的语音韵律效果更好，提高了语音合成的质量。

在一实施例中，基于待处理文本，根据标点、语句结构和词性，确定待处理文本中的韵律信息，生成带有韵律信息的文本序列，可以根据韵律信息表征的语音数据中的停顿时长在待处理文本中加入韵律信息，例如，表征不同韵律级别的韵律符号。

待处理文本中的韵律信息，用于指示语音数据中的停顿时长。在确定待处理文本中的韵律信息时，可以根据待处理文本的标点确定其韵律信息，例如，在待处理文本中的标点符号处，会存在或长或短的停顿。

还可以是根据待处理文本的语句结构确定其韵律信息，语句结构包括待处理文本语句中的句子成分，例如，主语、谓语、宾语或定语等句子成分。词组或短语充当不同的句子成分，不同的句子成分之间可以存在停顿。

还可以是根据待处理文本的词组的词性确定其韵律信息，例如，待处理文本中表示动作的动词，或者修饰作用的形容词都可以是存在停顿。

基于待处理文本的标点、语句结构和词性，确定待处理文本中的韵律信息，进而生成带有韵律信息的文本序列，可以改善语音合成模型的质量，使合成的语音自然度更佳。

可以是利用韵律模型，确定待处理文本中的韵律信息。可以使用条件随机场（conditional random field，CRF）进行韵律模型的训练。将待处理文本的带韵律信息的拼音序列作为输入，韵律模型在训练阶段可以根据语音数据和对应文本的韵律信息，学习韵律信息对应的停顿时长，使端到端语音合成的语音数据中韵律效果更好。

在一实施例中，基于待处理文本，转换得到纯字文本。基于纯字文本，确定待处理文本中的韵律信息，生成带有韵律信息的文本序列。

待处理文本中可以是包括一些特殊字符或者数字，例如“36℃”，即非纯文字文本。在将待处理文本转换为拼音序列之前，可以是先对存在的特殊字符或者数字进行转换，得到纯字文本。

仍以“36℃”为例，可以将其转换成“三十六摄氏度”的纯字文本，可以为后续确定待处理文本中的韵律信息，生成带有韵律信息的文本序列做准备，使生成的带有韵律信息的文本序列中不漏掉相应的文本内容，进一步改善语音合成效果。

在一实施例中，对纯字文本进行分词，得到分词文本。基于分词文本，确定待处理文本中的韵律信息，生成带有韵律信息的文本序列。

对纯字文本进行分词，例如对纯字文本进行语义解析，根据词性、词义、在语句中的成分，将语句划分为词组，例如，纯字文本为“我爱祖国”，得到的分词文本为“我”“爱”“祖国”。

基于分词文本“我”“爱”“祖国”，根据待处理文本中的韵律信息，生成带有韵律信息的文本序列，进一步使语音合成模型的输入对象更准确，可以达到良好的语音合成效果。

在一实施例中，基于对分词文本进行词性分析，确定待处理文本中的韵律信息，生成带有韵律信息的所述文本序列。

仍以上述待处理文本为“我爱祖国”为例，分词后的分词文本为“我”“爱”“祖国”，分别对“我”、“爱”、“祖国”进行词性分析，例如，分析得出，“我”是名词、在句子成分中作为主语，“爱”是动词、在句子成分中作为谓语，“祖国”也为名词，在句子成分中作为宾语。

基于对分词文本进行词性分析，确定待处理文本中的韵律信息，可以使韵律信息更为准确。

图2示出了本发明实施例提供的又一种端到端的语音合成方法的流程图。如图2所示，语音合成方法包括如下步骤S201至步骤S206。其中，步骤S201至步骤S205与步骤S101和步骤S105分别相同，在此不再赘述。以下仅就不同之处进行说明。

在步骤S206中，根据带有韵律信息的文本序列进行发音预测，生成带有韵律信息的所述拼音序列。

汉字中的多音字，即一个汉字可以是对应多个读音，其读法可以根据语义确定。为了得到待处理文本对应的准确的语音数据，对分词文本进行发音预测，即对可能包括多音字的待处理文本中的多音字确定其读音。

例如，纯字文本为“出门当心上当”，得到的分词文本为“出门”“当心”“上当”。其中，“当心”与“上当”中的当的声调为别为1和4。纯字文本“出门在外当心上当”对应的拼音依次为“chu1空格 men2”，“dang1空格 xin1”，“shang4空格dang4”，由这些拼音按照汉字出现的先后顺序，组成拼音序列。

图3示出了本发明实施例提供的一种韵律模型训练方法的流程图，韵律模型用于如前任一所述的语音合成方法。如图3所示，该韵律模型训练方法包括：

在步骤S301中，获取训练集，其中训练集包括文本以及与文本对应的韵律信息。

训练集包括的文本对应的韵律信息，可以是由人工进行标注，以使得文本与韵律信息节奏一致，达到韵律模型良好的训练效果。

在步骤S302中，将文本输入韵律模型，得到待测韵律数据。

在步骤S303中，利用文本对应的韵律信息和待测韵律数据，训练韵律模型。

可以理解的是，对文本对应的韵律信息和待测韵律数据的训练次数越多，得到的韵律模型越优化。

图4示出了本发明实施例提供的一种端到端的语音合成模型训练方法的流程图，端到端的语音合成模型用于如前任一所述的端到端的语音合成方法。语音合成模型是一个端到端的神经网络模型，输入为文本，输出的是文本对应的声音波形。如图4所示，该端到端的语音合成模型训练方法包括：

在步骤S401中，获取训练集，其中训练集包括多个文本以及与多个文本对应的多个语音。

多个文本对应的多个语音可以是来自标准文本语音库，也可以是采用人工标注的方法，标注多个文本对应的多个语音。

在步骤S402中，将语音转换为标准声波数据。将语音转换成标准声波数据可以采用当前技术中各种处理方法，本公开实施例对此不作限定。

在步骤S403中，将文本输入端到端的语音合成模型，得到待测声波数据。

将多个文本输入语音合成模型，得到待测声波数据。

在步骤S404中，根据标准声波数据和待测声波数据，训练端到端的语音合成模型。可以理解的是，对标准声波数据和待测声波数据的训练次数越多，得到的端到端的语音合成模型越优化。

图5示出了本发明实施例提供的一种端到端的语音合成装置框图。参照图5，该端到端的语音合成装置包括获取模块510、文本序列生成模块520、拼音序列生成模块530、声波数据生成模块540和合成模块550。

所述各个模块可分别执行上文中描述的端到端的语音合成方法的各个步骤/功能。以下仅对该端到端的语音合成装置的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

获取模块510，用于获取待处理文本。

文本序列生成模块520，用于基于待处理文本，确定待处理文本中的韵律信息，生成待处理文本对应的带有韵律信息的文本序列，其中韵律信息用于表示待处理文本中的停顿时长。

拼音序列生成模块530，用于基于带有韵律信息的文本序列，生成带有韵律信息的拼音序列。

声波数据生成模块540，用于将拼音序列输入端到端的语音合成模型，得到待处理文本对应的声波数据。

合成模块550，用于合成声波数据，得到待处理文本对应的语音数据。

在一实施例中，文本序列生成模块520还用于基于待处理文本，根据标点、语句结构和词性，确定待处理文本中的韵律信息，生成带有韵律信息的文本序列。

在一实施例中，文本序列生成模块520还用于通过韵律模型，基于待处理文本，确定待处理文本中的韵律信息，生成待处理文本对应的带有韵律信息的文本序列。

在一实施例中，文本序列生成模块520还用于基于待处理文本，转换得到纯字文本；基于纯字文本，确定待处理文本中的韵律信息，生成带有韵律信息的文本序列。

在一实施例中，文本序列生成模块520还用于对纯字文本进行分词，得到分词文本。基于分词文本，确定待处理文本中的韵律信息，生成带有韵律信息的文本序列。

在一实施例中，文本序列生成模块520还用于基于对分词文本进行词性分析，确定待处理文本中的韵律信息，生成带有韵律信息的所述文本序列。

在一实施例中，拼音序列生成模块530还用于根据带有韵律信息的文本序列进行发音预测，生成带有韵律信息的所述拼音序列。

图6示出了本发明实施例提供的一种韵律模型训练装置框图。参照图6，该韵律模型训练装置包括：获取模块610、韵律数据获取模块620和训练模块630。

获取模块610，用于获取训练集，其中训练集包括文本以及与文本对应的韵律信息。

韵律数据获取模块620，用于将文本输入所述韵律模型，得到待测韵律数据。

训练模块630，用于利用文本对应的韵律信息和待测韵律数据，训练韵律模型。

图7示出了本发明实施例提供的一种端到端的语音合成模型训练装置框图。参照图7，该端到端的语音合成模型训练装置包括：获取模块710、转换模块720、数据生成模块730和训练模块740。

所述各个模块可分别执行上文中描述的端到端的语音合成模型训练方法的各个步骤/功能。以下仅对该端到端的语音合成模型训练装置的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

获取模块710，用于获取训练集，其中训练集包括多个文本以及与多个文本对应的多个语音。

转换模块720，用于将语音转换为标准声波数据。

数据生成模块730，用于将文本输入端到端的语音合成模型，得到待测声波数据。

训练模块740，用于根据标准声波数据和待测声波数据，训练端到端的语音合成模型。

装置中的各个模块所实现的功能与上文描述的方法中的步骤相对应，其具体实现和技术效果请参见上文对于方法步骤的描述，在此不再赘述。

如图8所示，本发明的一个实施方式提供了一种电子设备80。其中，该电子设备80包括存储器810、处理器820、输入/输出（Input/Output，I/O）接口830。其中，存储器810，用于存储指令。处理器820，用于调用存储器810存储的指令执行本发明实施例的用于端到端的语音合成方法。其中，处理器820分别与存储器810、I/O接口830连接，例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器810可用于存储程序和数据，包括本发明实施例中涉及的用于端到端的语音合成方法的程序，处理器820通过运行存储在存储器810的程序从而执行电子设备80的各种功能应用以及数据处理。

本发明实施例中处理器820可以采用数字信号处理器(Digital SignalProcessing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现，所述处理器820可以是中央处理单元（Central Processing Unit，CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。

本发明实施例中的存储器810可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（Random Access Memory，RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（Read-OnlyMemory，ROM）、快闪存储器（Flash Memory）、硬盘（Hard Disk Drive，HDD）或固态硬盘（Solid-State Drive，SSD）等。

本发明实施例中，I/O接口830可用于接收输入的指令（例如数字或字符信息，以及产生与电子设备80的用户设置以及功能控制有关的键信号输入等），也可向外部输出各种信息（例如，图像或声音等）。本发明实施例中I/O接口830可包括物理键盘、功能按键（比如音量控制按键、开关按键等）、鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。

在一些实施方式中，本发明提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行上文所述的任何方法。

尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本发明的方法和装置能够利用标准编程技术来完成，利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是，此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。

此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中，软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现，其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。

出于示例和描述的目的，已经给出了本发明实施的前述说明。前述说明并非是穷举性的也并非要将本发明限制到所公开的确切形式，根据上述教导还可能存在各种变形和修改，或者是可能从本发明的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本发明的原理及其实际应用，以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本发明。

Claims

1.一种端到端的语音合成方法，其特征在于，包括：

获取待处理文本；

基于所述待处理文本，转换得到纯字文本；

对所述纯字文本进行分词，得到分词文本；

基于对所述分词文本进行词性分析，并根据标点、语句结构和词性，确定所述待处理文本中的韵律信息，生成所述待处理文本对应的带有韵律信息的文本序列，其中所述韵律信息用于表示所述待处理文本中的停顿时长；

基于带有韵律信息的所述文本序列，进行发音预测，生成带有韵律信息的拼音序列；

将所述拼音序列输入端到端的语音合成模型，得到所述待处理文本对应的声波数据；

合成所述声波数据，得到所述待处理文本对应的语音数据。

2.一种韵律模型训练方法，其特征在于，所述韵律模型用于如权利要求1所述的端到端的语音合成方法，所述韵律模型训练方法包括：

获取训练集，其中所述训练集包括文本以及与所述文本对应的韵律信息；

将所述文本输入所述韵律模型，得到待测韵律数据；

利用所述文本对应的所述韵律信息和所述待测韵律数据，训练韵律模型。

3.一种端到端的语音合成模型训练方法，其特征在于，所述端到端的语音合成模型用于如权利要求1所述的端到端的语音合成方法，所述端到端的语音合成模型训练方法包括：

获取训练集，其中所述训练集包括多个文本以及与所述多个文本对应的多个语音；

将所述语音转换为标准声波数据；

将所述文本输入所述端到端的语音合成模型，得到待测声波数据；

根据所述标准声波数据和所述待测声波数据，训练所述端到端的语音合成模型。

4.一种端到端的语音合成装置，其特征在于，所述端到端的语音合成装置包括：

获取模块，用于获取待处理文本；

文本序列生成模块，用于基于所述待处理文本，转换得到纯字文本；对所述纯字文本进行分词，得到分词文本；基于对所述分词文本进行词性分析，并根据标点、语句结构和词性，确定所述待处理文本中的韵律信息，生成所述待处理文本对应的带有韵律信息的文本序列，其中所述韵律信息用于表示所述待处理文本中的停顿时长；

拼音序列生成模块，用于基于带有韵律信息的所述文本序列，进行发音预测，生成带有韵律信息的拼音序列；

声波数据生成模块，用于将所述拼音序列输入端到端的语音合成模型，得到所述待处理文本对应的声波数据；

合成模块，用于合成所述声波数据，得到所述待处理文本对应的语音数据。

5.一种韵律模型训练装置，其特征在于，韵律模型用于如权利要求1所述的语音合成方法，所述韵律模型训练装置包括：

获取模块，用于获取训练集，其中所述训练集包括文本以及与所述文本对应的韵律信息；

韵律数据获取模块，用于将所述文本输入所述韵律模型，得到待测韵律数据；

训练模块，用于利用所述文本对应的所述韵律信息和所述待测韵律数据，训练韵律模型。

6.一种端到端的语音合成模型训练装置，其特征在于，所述端到端的语音合成模型用于如权利要求1所述的端到端的语音合成方法，所述端到端的语音合成模型训练装置包括：

获取模块，用于获取训练集，其中所述训练集包括多个文本以及与所述多个文本对应的多个语音；

转换模块，用于将所述语音转换为标准声波数据；

数据生成模块，用于将所述文本输入所述端到端的语音合成模型，得到待测声波数据；

训练模块，用于根据所述标准声波数据和所述待测声波数据，训练所述端到端的语音合成模型。

7.一种电子设备，其中，所述电子设备包括：

存储器，用于存储指令；以及

处理器，用于调用所述存储器存储的指令执行权利要求1所述的端到端的语音合成方法、权利要求2中所述的韵律模型训练方法或权利要求3中所述的端到端的语音合成模型训练方法。

8.一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由处理器执行时，执行权利要求1所述的端到端的语音合成方法、权利要求2中所述的韵律模型训练方法或权利要求3中所述的端到端的语音合成模型训练方法。