CN111276120B

CN111276120B - 语音合成方法、装置和计算机可读存储介质

Info

Publication number: CN111276120B
Application number: CN202010071427.6A
Authority: CN
Inventors: 邓利群; 张旸; 郑念祖; 王雅圣
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2022-08-19
Anticipated expiration: 2040-01-21
Also published as: CN111276120A

Abstract

本申请提供了一种语音合成的方法、装置和计算机可读存储介质，涉及人工智能领域，具体涉及语音识别领域中的一种语音合成技术。该方法包括：获取第一用户的待处理数据，通过目标模型对待处理数据进行处理，获得第一数据，其中，目标模型是基于第一用户的个性化训练数据对基础声学模型的第一子模型训练后得到的，向数据处理设备发送第一数据，以及接收处理结果，该处理结果是数据处理设备基于基础声学模型的第二子模型对第一数据进行处理获得的。本申请通过终端和数据处理设备相结合的数据处理的方法，降低了对数据处理设备存储模型和运算能力的要求，从而大大降低个性化语音合成的部署和实现成本。

Description

语音合成方法、装置和计算机可读存储介质

技术领域

本申请涉及人工智能领域，具体涉及语音识别领域中的一种语音合成技术，并且更具体地，涉及一种语音合成方法、装置和计算机可读存储介质。

背景技术

近年来，语音合成技术取得了极大进步，机器语音播报在智能移动终端、智能家居、车载音响等设备上得以广泛应用。人们对语音合成的要求也不再仅仅是“能听清”，而是转变成“表达力强”、“富有个性化”等。因此，语音合成的个性化功能已逐渐成为诸多产品的所宣称的“黑科技”，成为产品竞争力的亮点。个性化语音合成(text to speech,TTS)系统，即融合用户个性化定制的特征的语音合成系统，其中用户个性化特征不限于声音音色，说话韵律、情感等。以复刻用户声音音色的个性化TTS为例，其也可称为“声音克隆”，其允许用户只提供少量自己的文本和语音数据便能构建一个该用户的声音模型，进而能听到合成的“自己的声音”。

但是，由于个性化TTS本身的特点，例如，个性化TTS需要为每个用户建立其声学模型，假如某个产品有百万用户，就需要提供该百万用户所对应的百万个不同的声学模型，庞大数量的模型的存储需要占用很大的存储空间，当利用服务器等处理设备进行语音合成时，对其配置和运算能力都有很高的要求，大大增加了声学模型的部署成本，同时也增加了实际应用的困难。

发明内容

本申请提供一种语音合成方法、装置和计算机可读存储介质，能够降低个性化语音合成的实现成本。

第一方面，提供了一种语音合成方法，该方法包括：获取第一用户的待处理数据，通过目标模型对待处理数据进行处理，获得第一数据，其中，目标模型是基于第一用户的个性化训练数据对基础声学模型的第一子模型训练后得到的，向数据处理设备发送第一数据，以及接收处理结果，该处理结果是数据处理设备基于基础声学模型的第二子模型对第一数据进行处理获得的。

在本申请技术方案中，通过终端和数据处理设备相结合的数据处理的方法，降低了对数据处理设备存储模型和运算能力的要求，从而大大降低个性化语音合成的部署和实现成本。首先，在进行声学模型的部署时，数据处理设备中只需要部署通用声学子模型(对应于上述第二子模型)，而个性化声学子模型(对应于上述目标模型)可以分散部署在用户自己的终端设备中，使得数据处理设备不需要存储庞大数量的声学模型，且用户不需要担心自己的个性化声学模型被长期存放在通用平台上的隐私问题。其次，在语音合成过程中，用户的待处理数据可以先在本地终端设备进行处理，而不需要将个性化语音、语料等数据上传到数据处理设备，在一定程度上同样保护了用户的隐私。再次，在语音合成过程中，对于用户的个性化部分的处理由终端设备执行，同样降低了数据处理设备的运算需求，从而降低成本。

可选地，可以是获取第一用户的待处理数据，该待处理数据例如可以是个性化语音合成请求。

可选地，该个性化TTS请求可以是一段文本，也可以是一段语音，还可以是文字和语音的结合。也就是说，待处理数据可以是用户的待处理语音和/或待处理语料。例如，当将本申请实施例所提供的语音合成方法是应用于声音克隆的方法时，该个性化TTS请求可以是一段文本，或者一段文本的文本特征向量。又例如，当将本申请实施例所提供的语音合成方法是应用于风格个性化时，该个性化TTS请求可以是一段待合成语音，或者一段待合成语音的声学特征向量。又例如，当将本申请实施例所提供的语音合成方法是应用于情感个性化时，该个性化TTS请求可以是一段文本或者一段文本的文本特征向量，也可以是一段待合成语音或者一段待合成语音的声学特征向量，也可以是文本和语音的结合，或者是文本向量和语音向量的结合。

应理解，本申请实施例对文字的语言种类不做限定，例如可以是汉语、英语、德语等各类语言，本申请主要以汉语为例进行介绍。

可选地，还可以先对该个性化TTS请求进行例如请求参数验证、身份认证等预处理。

结合第一方面，在第一方面的某些实现方式中，上述个性化训练数据可以包括第一用户的待训练数据和目标数据，待训练数据包括待训练语料或待训练语音中的至少一种，目标数据包括对应于待训练数据的目标语音或目标语音的声学特征。

可选地，上述训练数据可以包括语音、语料等数据。其中，语料即语言材料，是指用文本以及文本上下文关系等描述现实世界中的语言以及语言的上下文关系。语音则是指负载了一定语言意义的声音。训练数据例如可以包括输入文本及输入文本对应的目标语音，或者上述训练数据还可以是特征向量，例如可以包括输入文本的文本特征以及输入文本对应的目标语音的声学特征。其中，输入文本的文本特征可以是通过对输入的文本进行特征预处理后得到的，目标语音的声学特征则可以是通过对输入的语音进行特征提取得到的。举例说明，假设输入文本为“你好”，对应的目标语音为待定制声音的“你好”发音(例如，希望定制说话人甲的声音，则目标语音是甲对“你好”的发音)；则对“你好”进行特征预处理得到输入文本的文本特征，对与“你好”对应的目标语音进行特征提取得到目标语音的声学特征(例如，说话人甲说“你好”的声学特征)。

需要说明的是，无论是个性化训练数据还是通用训练数据主要是针对不同主体而言，个性化训练数据是指某一用户(例如上述第一用户)的训练数据，例如可以包括该用户的语音和/或语料；而通用训练数据则是指至少一个用户的训练数据，例如可以包括这些用户的语音和/或语料。也就是说，个性化训练数据是指特定用户的训练数据，而通用训练数据则是指至少一个用户的训练数据的集合。

上述对文本的特征预处理可以包括归一化、字音转换、韵律停顿预测等处理。该过程可以由数据采集设备执行，也可以由终端设备或者其他设备执行。也就是说，数据采集设备获取的语料可以是输入文本的文本特征，也可以是输入文本，当获取的是输入文本时由数据采集设备对输入文本进行处理和特征提取。

应理解，输入文本可以由终端设备发送给数据采集设备，也可以由数据采集设备从存储装置读取获得，还可以通过实时采集获得。

还应理解，本申请实施例的语音合成方法也可以应用于风格个性化、情感个性化等其他个性化场景，例如当本申请实施例的语音合成方法用于风格个性化时，也就是说用于合成具有风格特色的声音时，上述训练数据可以包括语音、语料等数据。例如可以包括待合成语音的声学特征及目标语音的声学特征。其中，待合成语音的声学特征可以是通过对待合成语音进行特征预处理后得到的，目标语音的声学特征则可以是通过对目标语音进行特征提取得到的。举例说明，假设风格定制为方言定制，则待合成语音例如可以为甲的一段普通话语音，目标语音例如可以为甲的对应于该段普通话语音的方言语音，例如甲分别用普通话和方言说一句“你吃饭了吗”作为待合成语音和目标语音。上述不同个性化定制应用场景中，在语音合成和模型训练过程中略有不同，但过程大致相同，为了方便描述，本申请实施例以声音克隆为例进行介绍，但应理解对于方法的应用场景不存在限定。

结合第一方面，在第一方面的某些实现方式中，在获取第一用户的待处理数据之前，终端设备接收该目标模型。终端设备还可以将该目标模型部署在例如处理器或存储器中，以便后续操作中进行调用。

可选地，该目标模型可以是预先设置在终端的，也就是在进行语音合成之前设置在终端的。例如可以是在进行语音合成之前，数据处理设备将训练好的目标模型发送给终端设备。

可选地，上述接收的处理结果可以包括对应于第一数据的声学特征，或者该处理结果可以包括对应于第一数据的音频。

可选地，该处理结果可以是数据处理设备基于通用声学子模型(例如基础声学模型的第二子模型)对第一数据进行处理获得的。

可选地，当上述处理结果包括对应于第一数据的声学特征时，终端设备将接收到的声学特征合成为音频。也就是说，当终端设备接收的处理结果为声学特征时，可以利用例如声码器等将该声学特征合成为音频。而当终端设备接收的处理结果就是音频的时候，则不需要执行合成音频的步骤。

结合第一方面，在第一方面的某些实现方式中，上述第一数据还可以包括个性化编码，该个性化编码可以包括说话人编码、风格编码、情感编码中的至少一种。也就是说，在本申请实施例中，可以根据不同的个性化应用场景设置不同的个性化编码。例如当用于声音克隆时，个性化编码可以是说话人编码，当用于风格个性化时，个性化编码可以是风格编码，当用于情感个性化时，个性化编码可以是情感编码等。例如，在每个中间预测结果后添加说话人编码或者风格编码或者情感编码。

第二方面，提供了一种语音合成方法，该方法包括：从终端设备获取第一用户的第一数据，根据第二子模型对第一数据进行处理，得到处理结果，将处理结果发送给终端设备。在该方法中，第一数据包括终端设备通过目标模型对待处理数据进行处理后获得的数据，其中，目标模型是基于第一用户的个性化训练数据对第一子模型训练后得到的，第一用户的个性化训练数据包括第一用户的语音和/或语料。此外，上述第一子模型和第二子模型可以由基础声学模型划分获得，基础声学模型则可以基于通用训练数据获得，通用训练数据包括至少一个用户的语音和/或语料。

结合第二方面，在第二方面的某些实现方式中，上述个性化训练数据可以包括第一用户的待训练数据和目标数据，待训练数据包括待训练语料或待训练语音中的至少一种，目标数据包括对应于待训练数据的目标语音或目标语音的声学特征。

需要说明的是，第二方面所述终端设备可以执行第一方面所述各步骤，也就是说，第二方面中所接收的第一数据可以是终端设备执行第一方面相关步骤获得的，第二方面中所发送的处理结果可以由第一方面的终端设备接收。因此，第一方面和第二方面所涉及的个性化训练数据和通用训练数据可以采用相同或相似的方法获得，在此不再赘述。

结合第二方面，在第二方面的某些实现方式中，在获得目标模型之后，还可以将目标模型发送给终端设备。以便于终端设备可以在本地部署和/或调用该目标模型。

结合第二方面，在第二方面的某些实现方式中，在上述根据第二子模型对第一数据进行处理的过程中，可以先通过上述处理得到对应于第一数据的第一声学特征，再将包括该第一声学特征的处理结果发送给终端设备。则当终端设备接收到声学特征后，在终端设备中合成音频。

结合第二方面，在第二方面的某些实现方式中，在上述根据第二子模型对第一数据进行处理的过程中，可以先通过上述处理得到对应于第一数据的第二声学特征，再将第二声学特征合成为音频，进而将包括该音频的处理结果发送给终端设备。此时，终端设备不需要再进行合成音频的操作。

结合第二方面，在第二方面的某些实现方式中，上述第一数据还可以包括个性化编码，该个性化编码可以包括说话人编码、风格编码、情感编码中的至少一种。也就是说，在本申请实施例中，可以根据不同的个性化应用场景设置不同的个性化编码。例如当用于声音克隆时，个性化编码可以是说话人编码，当用于风格个性化时，个性化编码可以是风格编码，当用于情感个性化时，个性化编码可以是情感编码等。例如，在每个中间预测结果后添加说话人编码或者风格编码或者情感编码。

第三方面，提供了一种声学模型的训练方法，该方法包括：将基础声学模型划分出第一子模型，获取第一用户的个性化训练数据，根据个性化训练数据更新第一子模型，获得对应于第一子模型的目标模型。其中，基础声学模型是基于通用训练数据获得的，通用训练数据包括至少一个用户的语音和/或语料，个性化训练数据包括第一用户的语音和/或语料。

在本申请技术方案中，先对模型进行划分，在训练过程中更新第一子模型的参数，从而获得对应于特定用户的目标模型(也就是该特定用户的个性化声学子模型)，能够减小特定用户的对应的个性化模型的规模，从而减少存储空间等需要占用的资源。此外，对模型的划分能够便于后续对于模型的分别部署。具体而言，在进行声学模型的部署时，数据处理设备中只需要部署通用声学子模型，而个性化声学子模型(对应于上述目标模型)可以分散部署在用户自己的终端设备中，使得数据处理设备不需要存储庞大数量的声学模型，且用户不需要担心自己的个性化声学模型被长期存放在通用平台上的隐私问题。需要说明的是，假设将基础声学模型划分成了第一子模型和第二子模型，则通用声学子模型可以对应于第二子模型。在训练过程中也不需要对第二子模型进行更新，从而减少训练过程中的运算量。

可选地，上述训练数据可以包括语音和/或语料等数据，且可以对应于不同的个性化应用场景。例如，当本申请实施例所提供的声学模型训练方法应用于声音克隆时，该训练数据可以是原始文本的文本特征向量和对应于原始文本的目标语音的声学特征向量。又例如，当本申请实施例所提供的声学模型训练方法应用于风格个性化定制时，该训练数据可以是原始语音的声学特征向量和对应于原始语音的目标语音的声学特征向量。又例如，当本申请实施例所提供的声学模型训练方法应用于情感个性化定制时，该训练数据可以是原始文本的文本特征向量和对应于原始文本的目标语音的声学特征向量；也可以是原始语音的声学特征向量和对应于原始语音的目标语音的声学特征向量。

应理解，训练数据可以包括对应于文本等语料的数据，也可以包括对应于语音的数据。

第四方面，提供了一种语音合成装置，该装置包括用于执行上述第一方面的任意一种实现方式的方法的单元。该语音合成装置包括获取单元、处理单元和发送单元。

第五方面，提供了一种语音合成装置，该装置包括用于执行上述第二方面的任意一种实现方式的方法的单元。

第六方面，提供了一种声学模型的训练装置，该装置包括用于执行上述第三方面的任意一种实现方式的方法的单元。

第七方面，提供了一种语音合成装置，该装置包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行第一方面中的任意一种实现方式中的方法。

第八方面，提供了一种语音合成装置，该装置包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行第二方面中的任意一种实现方式中的方法。

第九方面，提供了一种声学模型的训练装置，该装置包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行第三方面中的任意一种实现方式中的方法。

第十方面，提供一种计算机可读介质，该计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行第一方面和/或第二方面中的任意一种实现方式中的方法。

第十一方面，提供一种计算机可读介质，该计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行第三方面中的任意一种实现方式中的方法。

第十二方面，提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述第一方面和/或第二方面中的任意一种实现方式中的方法。

第十三方面，提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行第三方面中的任意一种实现方式中的方法。

第十四方面，提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行上述第一方面和/或第二方面中的任意一种实现方式中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第一方面和/或第二方面中的任意一种实现方式中的方法。

第十五方面，提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行上述第三方面中的任意一种实现方式中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第三方面中的任意一种实现方式中的方法。

附图说明

图1是现有技术中一种语音合成系统的应用示意图；

图2是本申请实施例的一种语音合成系统的应用示意图；

图3是本申请实施例的一种语音合成系统的结构示意图；

图4是本申请实施例的一种系统架构的示意图；

图5是本申请实施例的一种芯片硬件结构图；

图6是Tacotron模型的结构示意图；

图7是本申请实施例的语音合成过程和声学模型的训练过程的示意图；

图8是本申请实施例的一种语音合成方法的示意性流程图；

图9是本申请实施例的一种语音合成方法的示意性流程图；

图10是本申请实施例的一种声学模型的训练方法的示意性流程图；

图11是本申请实施例的一种语音合成装置的示意性框图；

图12是本申请实施例的一种语音合成装置的示意性框图；

图13是本申请实施例的一种语音合成装置的硬件结构示意图；

图14是本申请实施例的一种语音合成装置的硬件结构示意图；

图15是本申请实施例的一种声学模型的训练装置的示意性框图；

图16是本申请实施例的一种声学模型的训练装置的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

本申请的方案可以应用在各类语音交互的场景中，例如手机、智能手环、可发声的穿戴式设备上的智能语音助手、智能音箱或可与人对话的各类机器或设备等等，在上述各类设备与人交互的过程中，能够输出用户定制的个性化的语音。下面介绍几种可能的个性化语音合成的应用场景。

应用场景1：声音克隆

在声音克隆的应用场景中，能够实现模拟说话人的声音，使得用户能够听到自己定制的说话人的声音。声音克隆可以在生活工作中进行广泛应用。例如可以用于语音交互、学习、陪伴家人等各类场合，下面结合可能的实物形式进行举例说明。

例子(1)：智能手机语音交互

在智能手机的语音交互场景中，智能手机的语音助手的声音不再是单一的机器声音，而是用户定制的个性化声音，例如可以是用户自己的声音，则在与语音助手“交流”的过程中，听到的是自己的声音。又例如可以定制成亲人的声音，则在与语音助手“交流”时，听到的是亲人的声音，让用户感受到亲人的陪伴。

例子(2)：学习机

在学习机或早教机等设备的语音交互场景中，这些设备可以是用户定制的个性化声音，例如可以定制成父母的声音，则在小朋友、学生等用户利用该学习机或早教机进行学习时，听到的是父母在朗读文章或讲解题目等。又例如可以定制成熟悉的老师的声音，模拟老师说话的语速、音色等语音特征，则可以让小朋友、学生等用户感觉就是在听自己的老师讲课，更利于提高学习的效果。

例子(3)：陪伴设备

将陪伴设备中定制个性化的声音，能够用于减少用户的孤独感等。例如，当用户是幼童时，通过听到父母的声音，可以让其感受到父母一直陪在自己身边，减少恐慌和不安全感，安抚幼童情绪。又例如，当用户是老人时，通过听到子女的声音，可以减少其孤独感和缓解对孩子的思念。

例子(4)：机器人

在与机器人进行语音交互的场景中，通过对用户进行个性化TTS，能够使得在与机器人进行交流时，不再是单一和无感情的机器声音，而是具有用户的个性化特征的声音。例如将说话人甲的语音进行语音合成，使得机器人能够模拟说话人甲的说话语调、声音音色等，假设用户乙与该机器人进行交流，则听到的不再是机器声音，而是具有用户甲的音色、说话语调、说话韵律、情感等个性化特征的声音。这种个性化定制可以产生很多特殊效果，例如将机器人的声音定制成影视角色的声音，感觉跟影视角色在对话，又例如将机器人的声音定制成某位喜剧演员的声音，给人带来幽默感。又例如将机器人的声音定制成熟悉的人的声音等。

例子(5)：其他语音设备

例如可以是朗读设备，用定制的个性化的语音朗读，比如应用于有声小说，改善大家“听故事”的感受。举例说明，可以利用评书大师的语音语料进行个性化TTS，从而使得朗读设备能够“克隆”评书大师的声音，进而可以听到评书大师给大家讲新故事。用户还可以自行选择想用谁的声音给自己朗读。又例如可以是播音设备等。

应用场景2：风格个性化的场景

在进行风格的个性化定制时，可以根据用户的请求定制成不同风格的个性化声音。“风格”可以理解为事物的特色，例如可以是语言的地域特色、声音的年龄特色，声音的性别特色等。例如，可以模拟不同年龄段的人说话，使得用户可以听到自己定制的不同年龄段的声音，例如可以进行童音定制，将用户说的话变成儿童的声音，而童音定制中因为会包含用户特有的一些特征，让用户感觉像是自己回到童年一样。又例如，可以模拟不同地域的说话，也就是说可以进行方言定制，则可以将用户说的话变成用户自己定制的方言，如果保留用户的特有的一些特性，只对语言的地域特色部分进行改变，则用户可以听到自己讲不同地域的方言。

这种风格个性化定制例如可以用于变声器。又例如可以用于配音，则使得在配音过程中不再局限于配音人员的原始声音特性，假设在影视作品配音时，就可以让成年的配音演员为儿童角色配音，而不再受自身声音特性的局限。

应用场景3：情感个性化的场景

在情感个性化的定制中，例如可以将声音定制成伤心、高兴等具有特定情感的个性化声音。这种定制同样可以应用于各个方面，例如用户情绪低落时，通过语音合成出来的声音依然是欢快的，从而能够在一定程度上改善或抚慰用户的情绪。

为了更好地理解本申请实施例的方案，下面先结合图1和图2对现有技术中语音合成系统和本申请实施例提供的语音合成系统的应用情况进行介绍和比较。其中，图1是现有技术中一种语音合成系统的应用示意图，图2是本申请实施例提供的一种语音合成系统的应用示意图。

图1所示的语音合成系统可以包括至少一个终端设备和至少一个数据处理设备。例如，可以包括终端设备#1以及数据处理设备#1。其中，终端设备可以是手机、个人电脑或者信息处理中心等智能终端。这里的终端设备可以作为个性化TTS的发起端，也可以作为个性化语音定制等请求的发起方，通常情况下，用户可以通过终端设备发起请求。例如，用户#1可以通过终端设备#1输入个性化TTS请求，终端设备#1将该请求发送给数据处理设备#1，由数据处理设备#1进行后续操作。

数据处理设备(例如图1所示数据处理设备#1)可以是云服务器、网络服务器、应用服务器以及管理服务器等具有数据处理功能的设备或服务器。这里的数据处理设备可以通过交互接口来接收来自终端设备的个性化TTS请求，然后再通过存储数据的存储器以及数据处理的处理器进行机器学习、深度学习、模型训练、语音合成等相关处理。另外，图1中所示的存储器可以是一个统称，包括本地存储以及存储历史数据的数据库。图1中的数据库可以在数据处理设备上，也可以在其它网络服务器上。

图1所示的语音合成系统中，数据处理设备需要对每个用户都建立其对应的多个声学模型，例如，数据处理设备#1对用户#1和用户#2建立其各自对应的多个声学模型。也就是说，需要在数据处理设备中部署每个用户的多个声学模型，用于在接收到个性化TTS请求后，利用训练好的多个声学模型进行个性化TTS，例如，在数据处理设备#1中部署用户#1和用户#2的多个声学模型，用于在接收到用户#1和/或用户#2个性化TTS请求后，利用训练好的多个声学模型进行个性化TTS。

但是当图1所示的语音合成系统需要为很多用户提供服务时，就需要提供所有用户的所有声学模型，且每个用户都有多个声学模型。举例说明，假设需要为100万个用户提供服务，假设每个用户均对应100个声学模型，则需要在数据处理设备部署1亿个声学模型。庞大数量的模型的存储需要占用很大的存储空间，如果只部署在一个数据处理设备中，则该数据处理设备需要具有非常高的配置和运算能力；如果利用多个数据处理设备协同工作，则一方面增加了设备数量，从而增加了设备成本，另一方面需要设备间的协同工作，降低了处理速率且增加了处理过程的复杂度。上述情况一方面均使得模型的部署成本大大增加，另一方面也均需要数据处理设备具有较高的配置和运算能力。此外，由于每个用户的多个声学模型中使用频率的差异也很大，例如，用户#1有10个对应的声学模型，用户#1这10个声学模型中的第1个声学模型使用频率很高，而第10个声学模型只在注册时使用了一次，则第10个声学模型一直占用资源，却不会再被使用，造成资源浪费。为此，本申请实施例提供一种新的语音合成系统，将用户的声学模型进行划分，并分别部署在终端设备和数据处理设备，能够减少在数据处理设备部署声学模型所需要的资源，从而降低对数据处理设备的各类配置以及计算能力等的要求，以及降低部署成本。

图2所示的语音合成系统可以包括至少一个终端设备和至少一个数据处理设备。例如，可以包括终端设备#1以及数据处理设备#1。其中，终端设备可以是手机、个人电脑或者信息处理中心等智能终端，可穿戴式智能设备，智能家居设备，车载音响等车载设备，机器人等其他设备。这里的终端设备可以作为个性化TTS的发起端，也可以作为个性化语音定制等请求的发起方，通常情况下，用户可以通过终端设备发起请求。但与图1所示终端设备不同的是，图2所示语音合成系统中会在终端设备(例如终端设备#1和终端设备#2)部署声学模型的子模型，即用户对应的声学模型的个性化部分，以下称之为个性化声学子模型(例如下文所述目标模型，即为个性化声学子模型)。例如，用户#1可以通过终端设备#1输入个性化TTS请求，终端设备#1对该请求进行预处理和利用个性化声学子模型生成中间预测结果(即下文所述第一数据)，并将该中间检测结果发送给数据处理设备#1，由数据处理设备#1进行后续操作。又例如，用户#2同样可以通过终端设备#2输入个性化TTS请求，终端设备#2对该请求进行预处理和利用个性化声学子模型生成中间预测结果，并将该中间检测结果发送给数据处理设备#1，由数据处理设备#1进行后续操作。

数据处理设备(例如图2所示数据处理设备#1)可以是云服务器、网络服务器、应用服务器以及管理服务器等具有数据处理功能的设备或服务器。这里的数据处理设备可以通过交互接口来接收来自于终端设备的中间预测结果，然后再通过存储数据的存储器以及数据处理的处理器进行机器学习、深度学习、模型训练、语音合成等相关处理。另外，图2中所示的存储器可以是一个统称，包括本地存储以及存储历史数据的数据库。图2中的数据库可以在数据处理设备上，也可以在其它网络服务器上。

图2所示的语音合成系统中，数据处理设备将基础声学模型划分为通用部分和个性化部分，其中通用部分在语音合成过程和模型训练过程中均不更新，也就是说，每个用户的声学模型中通用部分的参数是相同的，只有个性化部分是不同的，将基础声学模型的通用部分部署在数据处理设备(例如数据处理设备#1)中，在进行用户的个性化声学模型的模型训练时，只利用基础声学模型的个性化部分(例如下文所述基础声学模型的第一子模型)进行训练，并将训练好的个性化声学子模型(例如下文所述目标模型)部署在终端设备(例如终端设备#1和终端设备#2)。则在进行个性化语音合成时，例如，终端设备#1首先利用个性化声学子模型对获取的个性化TTS请求进行处理，获得中间预测结果，再将该中间预测结果发送给数据处理设备#1。数据处理设备#1接收到终端设备#1发送的该中间预测结果后，利用基础声学模型的通用部分(例如下文所述基础声学模型的第二子模型)对该中间预测结果进行处理，并将处理结果发回给终端设备#1。

也就是说，在图2所示语音合成系统中，只需要在数据处理设备中部署多个用户共用的通用声学子模型(可以称之为基础声学模型的第二子模型，也就是基础声学模型的通用部分)，而每个用户各自的个性化声学子模型只需要部署在各自对应的终端设备中，相当于个性化声学子模型分散保存在用户自己现有的终端设备中，不需要由数据处理设备存储，数据处理设备也不需要利用个性化声学子模型进行解码等操作。图2所示语音合成系统有效减少了在数据处理设备部署声学模型所需要的资源，从而降低对数据处理设备的各类资源配置、计算能力等的要求，以及降低部署成本。

在本申请技术方案中，可以利用神经网络(模型)进行语音合成。为了更好地理解本申请方案，下面先对神经网络的相关术语和概念进行介绍。

(1)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以x_s和截距1为输入的运算单元，该运算单元的输出可以如公式(1)所示：

其中，s＝1、2、……n，n为大于1的自然数，W_s为x_s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，该激活函数用于对神经网络中的特征进行非线性变换，从而将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入，激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(2)深度神经网络

深度神经网络(deep neural network，DNN)，也称多层神经网络，可以理解为具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：

其中，

是输入向量，

是输出向量，

是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量

经过如此简单的操作得到输出向量

由于DNN层数多，系数W和偏移向量

的数量也比较多。这些参数在DNN中的定义如下所述：以系数W为例，假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。

综上，第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(3)损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断地调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

(4)反向传播算法

神经网络可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始的神经网络模型中参数的数值，使得神经网络模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的神经网络模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的神经网络模型的参数，例如权重矩阵。

图3是本申请实施例的一种语音合成系统的结构示意图

在图3所示的个性化TTS系统100中，用户可以通过本地设备101或者本地设备102发起请求，并可以将发起的请求进行处理后获得的第一数据，通过通信网络传输到执行设备103，执行设备103在接收到用户的第一数据之后，可以对用户的第一数据进行继续处理，并将相应的处理结果再通过通信网络传输给本地设备101或者本地设备102。这样，用户就可以通过本地设备101或者本地设备102获取到相应的处理结果。

例如，用户可以通过本地设备101或者本地设备102输入个性化TTS请求，该个性化TTS请求例如可以是待处理文本，待处理文本在本地设备经过预处理得到规范化的输入文本，再利用个性化声学子模型(即基于基础声学模型的第一子模型获得的目标模型)生成中间预测结果，此时第一数据可以包括该中间预测结果。本地设备101将该中间预测结果或者该第一数据，通过通信网络传输到执行设备103，执行设备103对中间预测结果或者第一数据进行处理，利用通用声学子模型生成最终的声学特征，再将声学特征合成为相应的音频。接下来，执行设备103将待处理文本对应的音频通过通信网络传输到本地设备101或者本地设备102，这样用户通过本地设备101或者本地设备102就能够获取到待处理文本的合成音频了。需要说明的是，合成音频的过程也可以由本地设备执行，也就是说，执行设备103可以将声学特征通过通信网络传输到本地设备101或者本地设备102，由本地设备101或者本地设备102将接收到的声学特征合称为音频，这样用户通过本地设备101或者本地设备102就能够获取到待处理文本的合成音频了。

本申请实施例所述声学特征例如可以是梅尔频率倒谱系数(Mel frequencycepstrum coefficient,MFCC)，也可称之为梅尔普特征，或者可以是线性谱特征等。声学特征所涉及的声学参数可以包括基频(fundamental frequency)、语速(speech rate)、能量(energy)、韵律(prosody)、情感强度(emotion strength,or emotion intensity))等各类能够表示语音的特征，本申请实施例所述声学特征可以涉及一种或多种声学参数，例如可以为上述列举的一种或多种。下面对各声学特征的参数进行介绍。

基频：当发声体由于振动而发出声音时，声音一般可以分解为许多单纯的正弦波。也就是说，所有的自然声音基本都是由许多频率不同的正弦波组成的，其中频率最低的正弦波即为基音(即基频，可以用F0表示)，而其他频率较高的正弦波则为泛音。

语速：表征的是说话速度的快慢，一般用单位时间内的音节数来衡量。

能量：又称强度或音量，代表声音的大小，可由声音讯号的振幅来模拟，振幅越大，代表此声音波形的音量越大。

韵律：语音合成领域里，韵律泛指控制语调、音调、重音强调、停顿和节奏等的功能的特征。韵律可以反映出说话者的情感状态，讲话形式等。

情感强度：表征的是情感的强烈程度，如“高兴”，可以是微微高兴，较高兴，非常高兴等不同程度。

在图3所示的个性化TTS系统中，本地设备101或本地设备102可以相当于图2所示的终端设备，执行设备103可以相当于图2所示的数据处理设备。另外，图3中的数据存储系统104可以集成在执行设备103上，也可以设置在云上或其它网络服务器上。

图4是本申请实施例的一种系统架构的示意图。

在图4所示的系统架构200中，数据采集设备260用于采集训练数据并存入数据库230，训练设备220基于数据库230中维护的训练数据训练得到目标模型/规则201。这里训练得到的目标模型/规则201可以用于执行本申请实施例的语音合成方法。

上述对文本的特征预处理可以包括归一化、字音转换、韵律停顿预测等处理。该过程可以由数据采集设备260执行，也可以由客户设备240或者其他设备执行。其中，客户设备例如可以是客户设备240或图1所示终端设备或图2所示终端设备。也就是说，数据采集设备260获取的语料可以是输入文本的文本特征，也可以是输入文本，当获取的是输入文本时由数据采集设备260对输入文本进行处理和特征提取。

应理解，输入文本可以由终端设备发送给数据采集设备260，也可以由数据采集设备260从存储装置读取获得，还可以通过实时采集获得。

还应理解，本申请实施例的语音合成方法也可以应用于风格化定制、情感定制等其他个性化定制场景，例如当本申请实施例的语音合成方法用于风格个性化时，也就是说用于合成具有风格特色的声音时，上述训练数据可以包括语音、语料等数据。例如可以包括待合成语音的声学特征及目标语音的声学特征。其中，待合成语音的声学特征可以是通过对待合成语音进行特征预处理后得到的，目标语音的声学特征则可以是通过对目标语音进行特征提取得到的。举例说明，假设风格定制为方言定制，则待合成语音例如可以为甲的一段普通话语音，目标语音例如可以为甲的对应于该段普通话语音的方言语音，例如甲分别用普通话和方言说一句“你吃饭了吗”作为待合成语音和目标语音。上述不同个性化定制应用场景中，在语音合成和模型训练过程中略有不同，但过程大致相同，为了方便描述，本申请实施例以声音克隆为例进行介绍，但应理解对于方法的应用场景不存在限定。

下面以汉语为例，对文本的特征预处理进行介绍。归一化是指将文本中的数字、符号等非汉字字符按语义转成汉字。字音转换是指为各个汉字预测其对应的拼音，进而生成各个汉字的音素序列。韵律停顿预测是指预测重音标记、韵律短语、语调短语标记等。

进一步，以一段汉字进行说明，例如输入文本“我爱天安门”，则可以生成如下文本特征：

S_w_o_3_SP0_ai_4_SP1_t_ian_1_an_1_m_en_2_E

在“我爱天安门”的文本特征中，“S”为句首标记，也可以理解为开始标记；“E”为句尾标记，也可以理解为结束标记；数字“1”、“2”、“3”、“4”为声调标记；“SP0”、“SP1”为不同的停顿等级标记；汉语拼音的声母和韵母作为音素；不同音素/标记之间使用空格“_”隔开。可以看出该文本例子的文本特征中有17个文本特征元素。

又例如另一段输入文本为“大家好”，则可以生成如下文本特征：

S_d_a_4_SP0_j_ia_1_SP1_h_ao_3_E

在“大家好”的文本特征中，“S”为句首标记，也可以理解为开始标记；“E”为句尾标记，也可以理解为结束标记；数字“1”、“3”、“4”为声调标记；“SP0”、“SP1”为不同的停顿等级标记；汉语拼音的声母和韵母作为音素；不同音素/标记之间使用空格“_”隔开。可以看出该文本例子的文本特征中有13个文本特征元素。

需要说明的是，在本申请实施例中，对语言种类不存在限定，除上述汉语例子以外，还可以是英语、德语、日语等其他语言。

可以由数据采集设备260执行，也可以由终端设备或者其他设备执行。其中，终端设备例如可以是客户设备240或图1所示终端设备或图2所示终端设备。也就是说，数据采集设备260获取的语音可以是语音对应的声学特征，也可以是输入语音，当获取的是语音本身时，由数据采集设备260对输入语音进行特征提取，获得其对应的声学特征。

可选地，数据采集设备260从上述文本特征和声学特征中确定训练数据。

下面对训练设备220基于语言训练数据训练得到目标模型/规则201的过程进行详细介绍。

训练设备220可以将获取的训练数据输入到目标模型/规则201中，目标模型/规则201例如可以是由编码器-解码器构成的声学模型，然后根据解码器输出的声学特征结果与当前文本目标语音的声学特征进行对比，从而完成对目标模型/规则201的训练。

上述训练设备220得到的目标模型/规则201可以应用于不同的系统或设备中。在图4所示的系统化架构200中，执行设备210配置有I/O接口212，通过该I/O接口212执行设备210能够与外部设备进行数据交互，“用户”可以通过客户设备240向I/O接口212输入数据。例如，用户可以通过客户设备240向I/O接口212输入中间预测结果，也就是说，用户可以向客户设备240输入个性化TTS请求，再由客户设备240将经过一定处理后得到的中间预测结果经I/O接口212发送给执行设备210。

执行设备210可以调用数据存储系统250中的数据、代码等，也可以将数据、指令等存入数据存储系统250中。

可选地，执行设备210还可以将训练设备220得到的目标模型/规则201进行分割，得到其子模型/子规则，并将得到的子模型/子规则分别部署在客户设备240和执行设备210。例如，可以将目标模型/规则201的个性化子模型发送给客户设备240，由客户设备240将其部署在设备内；此外，目标模型/规则201的通用子模型在训练过程中没有更新参数，因此不做改变。

需要说明的是，目标模型/规则201是在基础声学模型的基础上训练获得的，在训练过程中部分更新部分不更新，更新部分对应于个性化声学子模型，不更新部分对应于通用声学子模型。基础声学模型可以是训练设备220利用多人的语音语料预先训练好的，也可以是现有的声学模型。

客户设备240和计算模块211可以配合工作，使用根据目标模型/规则201获得的个性化声学子模型和通用声学子模型对输入到客户设备240的数据(例如用户的个性化TTS请求)和输入到执行设备210的数据(例如来自于客户设备的中间预测结果)进行处理。具体地，客户设备240可以对输入的个性化TTS请求的文本进行处理，获得该文本对应的文本特征，然后将该文本特征输入到个性化声学子模型(对应于目标模型/规则201中被更新的部分)中进行处理，从而得到当前个性化TTS请求文本的语音合成的中间预测结果，客户设备240可以将该中间预测结果输入到计算模块211。计算模块211可以对输入的中间预测结果进行处理，从而得到最终的语音合成的声学特征和/或声学参数，进而得到最终的输出结果，例如对应于输入的个性化TTS请求的语音合成音频。

I/O接口212可以将输入数据发送给执行设备210相应模块，也可以将输出结果返回给客户设备240，提供给用户。例如，I/O接口212可以将输入的个性化TTS请求对应的中间预测结果发送给计算模块211，也可以将语音合成结果(例如合成语音的声学特征或音频)返回给客户设备240。

在图4所示的系统架构200中，用户可以向客户设备240中输入语音语料等数据，可以在客户设备240查看执行设备210输出的结果，具体的呈现形式可以是声音或者声音与显示的组合等具体方式。客户设备240也可以作为数据采集端将采集到的语音语料等数据存入数据库230。当然，也可以不经过客户设备240进行采集，而是由其他设备将用户的语音语料及I/O接口212的输出结果，作为新的样本数据存入数据库230。

图4所示的系统架构200与图2所示的应用场景有一定的对应关系。具体地，图4中的客户设备240可以对应于图2中的终端设备。在图4所示的系统架构200中，根据客户设备数据处理能力的不同，执行设备210和数据存储系统250可以集成在不同的设备中。例如，当客户设备240的数据处理能力较强时，执行设备210和数据存储系统250可以集成在客户设备240中；而当客户设备240数据处理能力不是很强时，执行设备210和数据存储系统250可以集成在专门的数据处理设备(如图2所示的数据处理设备)中；图4中的数据库230、训练设备220以及数据采集设备260既可以集成在专门的数据处理设备(如图2所示的数据处理设备)中，也可以设置在云上或网络上的其它服务器上，还可以分别设置在客户设备240(如图2所示的终端设备)和数据处理设备中。

值得注意的是，图4仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制。例如，在图4中，数据存储系统250相对执行设备210是外部存储器，在其它情况下，也可以将数据存储系统250置于执行设备210中。

如图4所示，根据训练设备220训练得到目标模型/规则201，可以是基于神经网络搭建的模型，这里的神经网络可以是卷积神经网络(convolutional neuron network，CNN)、循环神经网络(recurrent neural network,RNN)、时间递归神经网络(long-shortterm memory,LSTM)、双向时间递归神经网络(bidirectional long-short term memory,BLSTM)、深度卷积神经网络(deep convolutional neural networks,DCNN)等等。进一步的，目标模型/规则201可以是基于自关注神经网络(self-attention neural network)实现的，例如，这里的目标模型/规则201可以是基于现有的Tacotron模型进行改进实现的。

数据库230中的训练数据可以通过数据采集设备260获取，也可以通过客户设备240获取，还可以通过执行设备210获取。例如，可以通过数据采集设备260采集语音语料并进行相关处理，获得输入文本的文本特征、目标语音的声学特征等训练数据；还可以通过数据采集设备260获取输入文本的文本特征和目标语音的声学特征；此外，还可以通过客户设备或者执行设备获取各类训练数据。

训练设备220可以通过数据库230获取训练数据，并根据训练数据训练获得声学模型。训练设备220可以将训练获得的声学模型发送给执行设备210，由执行设备210对该声学模型进行划分，从而获得个性化声学子模型和通用声学子模型；训练设备220还可以先对训练获得的声学模型进行划分，从而获得个性化声学子模型和通用声学子模型，并将个性化声学子模型和通用声学子模型发送给执行设备210。

图5是本申请实施例的一种芯片硬件结构图。本申请实施例中的声学模型可以在图5所示的芯片上实现，图5所示的芯片能够执行本申请实施例的语音合成方法。下面对图5所示的芯片中的各个模块进行详细的介绍。

如图5所示，神经网络处理器(neural network processing unit，NPU)50作为协处理器挂载到主中央处理器(central processing unit，CPU)(Host CPU)上，由Host CPU分配任务。NPU的核心部分为运算电路50，控制器504控制运算电路503提取存储器(权重存储器或输入存储器)中的数据并进行运算。

在一些实现中，运算电路503内部包括多个处理单元(process engine,PE)。在一些实现中，运算电路503是二维脉动阵列。运算电路503还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路503是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器502中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器501中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)508中。

向量计算单元507可以对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元507可以用于神经网络中非卷积/非FC层的网络计算，如池化(pooling)，批归一化(batch normalization)，局部响应归一化(local response normalization)等。

在一些实现方式中，向量计算单元507能将经处理的输出的向量存储到统一缓存器506。例如，向量计算单元507可以将非线性函数应用到运算电路503的输出，例如累加值的向量，用以生成激活值。在一些实现方式中，向量计算单元507生成归一化的值、合并值，或二者均有。在一些实现方式中，处理过的输出的向量能够用作到运算电路503的激活输入，例如用于在神经网络中的后续层中的使用。

统一存储器506用于存放输入数据以及输出数据。

存储单元访问控制器505(direct memory access controller，DMAC)将外部存储器中的输入数据搬运到输入存储器501和/或统一存储器506、将外部存储器中的权重数据存入权重存储器502，以及将统一存储器506中的数据存入外部存储器。

总线接口单元(bus interface unit，BIU)510，用于通过总线实现主CPU、DMAC和取指存储器(instruction fetch buffer)509之间进行交互。

与控制器504连接的取指存储器509，用于存储控制器504使用的指令；

控制器504，用于调用取指存储器509中缓存的指令，实现控制该运算加速器的工作过程。

一般地，统一存储器506，输入存储器501，权重存储器502以及取指存储器509均为片上(on-chip)存储器，外部存储器为该NPU外部的存储器，该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random accessmemory，DDR SDRAM)、高带宽存储器(high bandwidth memory，HBM)或其他可读可写的存储器。

本申请的语音合成方法可以由声学模型来执行，本申请的声学模型可以是对现有的Tacotron模型进行改进得到的。为了更好地理解本申请实施例的声学模型，下面先对现有的Tacotron模型的结构进行详细的介绍。

图6是Tacotron模型的结构示意图。

如图6所示，Tacotron模型包括编码器(Encoder)和解码器(Decoder)，下面分别对编码器和解码器进行介绍。

编码器：

编码器可以由N层神经网络构成，编码器的输入可以包括一系列文本特征向量，输入的文本特征向量经过特征编码之后输入到编码器层。编码器的输出可以包括对应于输入的文本特征向量的中间预测向量(即中间预测结果)。

例如，编码器的输入可以包括“S_d_a_4_SP0_j_ia_1_SP1_h_ao_3_E”(即上文所列举的对应于“大家好”的文本特征)。

编码器的输出还可以包括说话人编码(speaker embedding)。说话人编码可以采用独热(one-hot)编码方式对说话人标识(speaker identification,speaker ID)进行编码生成。独热编码又称为一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。建立编码器输出的中间预测结果与说话人编码的连接，再在将中间预测结果输出时，将中间预测结果和对应的说话人编码均进行输出。

例如，假设T(i),i＝1,2,3,…,N为编码器输出的中间预测结果，S为当前说话人的说话人编码，则编码器的输出可以为D(i)＝T(i)&S,i＝1,2,3,…N,此处“&”为连接操作符号。

解码器：

与编码器类似，解码器也可以是一个N层的神经网络。解码器的输入可以包括编码器输出的中间预测结果，还可以包括说话人编码；解码器的输出可以是对应于中间预测结果的声学特征。在将中间预测结果输入到解码器时，将中间预测结果和对应的说话人编码均输入到解码器中。

例如，假设T(i),i＝1,2,3,…,N为编码器输出的中间预测结果，S为当前说话人的说话人编码，则解码器的输入可以为D(i)＝T(i)&S,i＝1,2,3,…N,此处“&”为连接操作符号。

在训练过程中，先准备好基础声学模型，并将基础声学模型作为初始化模型进行训练。需要说明的是，基础声学模型可以利用基础训练数据(即在训练基础声学模型时利用的语音语料等训练数据)训练而成。基础训练数据是数量较大，多个不同说话人和/或多个不同说话风格的训练语料集。例如在声音克隆的应用中，即利用某说话人的语料复制出该说话人的声音的应用中，该基础训练数据可以是包含多个不同说话人的语音语料的集合。由于利用基础训练数据所训练出来的基础声学模型是不同说话人通用的声学模型，因此也可以将该基础训练数据称之为通用训练数据。

而在训练新的声学模型时，将上述基础声学模型用作当前模型训练的初始化模型，并在使用新的训练数据(例如可以是实时采集的用户语音语料)进行训练的过程中，只更新模型中固定部分(即更新部分)的模型参数，从而得到个性化声学子模型。而模型中的其他部分(即不更新部分)的模型参数不更新，并作为通用声学子模型使用。

可选地，当利用图6所示模型进行上述训练过程时，可以只更新编码器部分的参数，不更新解码器部分的参数，也就是说，可以将编码器部分对应于个性化部分(即对应于个性化声学子模型)，将解码器部分对应于通用部分(即对应于通用声学子模型)。需要说明的是，基础声学模型可以划分为第一子模型和第二子模型，还可以将第一子模型对应于个性化部分，第二子模型对应于通用部分，以及可以将利用第一子模型获得的模型称之为目标模型或者个性化声学子模型，可以将第二子模型称之为通用声学子模型。

下面结合图7对本申请实施例的语音合成方法的主要合成过程以及声学模型的主要训练过程进行介绍。

图7是本申请实施例的语音合成过程和声学模型的训练过程的示意图。

如图7所示，在图7上半部分是声学模型的训练过程，图7的下半部分是利用声学模型进行语音合成的过程。下面分别对声学模型的训练过程和语音合成的过程进行简单介绍。

如图7所示，声学模型可以包括编码器和解码器，在对声学模型进行训练时可以利用训练数据对声学模型进行训练，其中，训练数据包括训练文本和目标语音。在训练过程中，可以将输入文本对应的训练数据(即图7所示文本对应训练数据)送入到图7所示的声学模型中，以得到输入文本的语音合成结果，然后根据该合成结果与目标结果(对应于输入文本的目标语音的训练数据，即图7所示语音训练数据)的差异来计算声学模型的预测损失，然后根据该预测损失来更新声学模型的参数，直到声学模型满足预设要求。

可选地，在图7所示的训练过程中可以先采用通用训练数据对声学模型中的编码器和解码器进行预训练，获得的模型称之为基础声学模型，该通用训练数据包括至少一个用户的语音和/或语料。

可选地，当基础声学模型是已经训练好的模型时，在图7所示的训练过程中可以先根据基础声学模型对声学模型中的编码器和解码器进行参数预设，即相当于模型初始化。

可选地，在图7所示的训练过程中，当需要训练新模型时，可以采用新的训练数据对基础声学模型进行训练，如图7中所示，采用第一用户文本对应训练数据和语音对应训练数据对基础声学模型进行训练。该第一用户可以不是训练基础声学模型时的用户之一，相当于先利用多个用户训练出一个基础声学模型，再在基础声学模型的基础上训练出一个新的用户的声学模型。但应理解，该第一用户也可以是训练基础声学模型时的用户之一，在这种情况下，相当于训练出已有用户的声学模型。

需要说明的是，在利用新的训练数据对声学模型进行训练时，编码器的参数会得到更新，但解码器的参数不会被更新。还应理解，可以先采用基础训练数据对声学模型中的编码器和解码器进行预训练以获得基础声学模型，但该步骤并非必须存在，也可以是利用已有的基础声学模型。

在经过训练得到第一声学模型之后，就可以将第一声学模型分为编码器对应的个性化声学子模型(即对应于第一用户的目标模型)，以及解码器对应的通用声学子模型(即对应于基础声学模型的第二子模型)，后续就可以根据个性化声学子模型和通用声学子模型对输入的文本进行合成了。

如图7下半部分所示，在对当前输入文本进行合成时，先对当前文本进行特征预处理，得到当前文本的文本特征向量。然后将文本特征向量送入到编码器中的输入表示生成器中，输入表示生成器用于对文本特征向量进行处理，生成编码输入。该编码输入再送入到终端设备的处理器中进行解码，得到中间预测结果，在输出中间预测结果之前还可以在输出结果中增加个性化编码的连接，以进行声音克隆为例，则可以增加说话人编码，此时，相当于把说话人编码和中间预测结果一起发送给数据处理设备。接下来，增加了说话人编码的中间预测结果作为数据处理设备中的处理器的输入，用于对中间预测结果进行解码。接下来，数据处理设备中的处理器预测生成声学特征，该声学特征对应于中间预测结果。接下来，该声学特征可以作为声码器的输入，由声码器将声学特征合成音频。声码器(vocoder)是指一种声音信号处理模块或软件，其能将声学特征编码成声音波形。

应理解，声码器也可以不设置在数据处理设备中，则数据处理设备将对应于中间预测结果的声学特征返回给终端设备，由终端设备将声学特征合称为音频。还应理解，上述终端设备的处理器是指能够用于实现语音合成相关操作的相应模块，该模块具体设置于终端设备的哪一部分不做限定，同理上述数据处理设备的处理器是指能够用于实现语音合成相关操作的相应模块，该模块具体设置于数据处理设备的哪一部分同样不做限定。

还应理解，上述是以声音克隆为例进行的介绍，因此，采用的个性化编码是说话人编码，当进行风格个性化的语音合成时，只需要将上述个性化编码由说话人编码替换为风格编码，当进行情感个性化的语音合成时，需要将上述个性化编码由说话人编码替换为情感编码，在此不再一一赘述。

下面结合图8和图9对本申请实施例的语音合成方法的过程进行介绍。图8是本申请实施例的一种语音合成方法的示意性流程图。图8所示的方法可以由上文所述各终端设备、客户设备、本地设备等执行，例如可以是移动终端(例如，智能手机)，平板电脑，笔记本电脑，增强现实/虚拟现实设备以及车载终端设备等等。图8所示方法对应于上述各端侧设备(终端设备、客户设备、本地设备)在语音合成过程中的操作。下面对图8所示各步骤进行介绍。

801、获取用户的待处理数据。

可选地，可以是获取第一用户的待处理数据，该待处理数据例如可以是个性化TTS请求。

可选地，该个性化TTS请求可以是一段文本，也可以是一段语音，还可以是文字和语音的结合。也就是说，待处理数据可以是用户的待处理语音和/或待处理语料。例如，当将本申请实施例所提供的语音合成方法是应用于声音克隆时，该个性化TTS请求可以是一段文本，或者一段文本的文本特征向量。又例如，当将本申请实施例所提供的语音合成方法是应用于风格个性化时，该个性化TTS请求可以是一段待合成语音，或者一段待合成语音的声学特征向量。又例如，当将本申请实施例所提供的语音合成方法是应用于情感个性化时，该个性化TTS请求可以是一段文本或者一段文本的文本特征向量，也可以是一段待合成语音或者一段待合成语音的声学特征向量，也可以是文本和语音的结合，或者是文本向量和语音向量的结合。

应理解，本申请实施例对文字的语言种类不做限定，例如可以是汉语、英语等各类语言，本申请主要以汉语为例进行介绍。

可选地，在步骤801可以通过上文所述客户设备或者终端设备获取待处理数据，或者也可以通过外接能够实现相同功能的设备获取待处理数据。

802、对待处理数据进行处理，获得第一数据。

可选地，可以首先对待处理数据进行特征提取，再利用声学模型(例如目标模型)对待处理数据的特征向量进行解码等处理，获得第一数据。

可选地，当步骤801所获取待处理数据为一段文本时，可以通过对该输入文本进行特征预处理，例如上文所述归一化、字音转换等处理，生成对应于待处理数据文本的文本特征，例如可以是文本特征向量。

可选地，当步骤801所获取待处理数据为一段待合成语音时，可以通过对该待合成语音进行特征提取，获得其声学特征，则该待合成语音的声学特征即为该待处理数据的特征向量。

可选地，可以利用上文所述客户设备或者终端设备获取待处理数据的特征，或者也可以通过外接能够实现相同功能的设备获取待处理数据的特征向量。

应理解，当步骤801获取的待处理数据是文本特征向量和/或声学特征向量时，则上述进行特征提取的过程可以不执行。

当获取上述待处理数据的特征向量之后，可以利用个性化声学子模型(例如基于基础声学模型的第一子模型获得的目标模型)对待处理数据的特征向量解码，获得中间预测结果。

可选地，可以通过上文所述客户设备或者终端设备利用个性化声学子模型对上述生成的文本特征向量进行解码，生成中间预测结果。

可选地，个性化声学子模型可以是通过训练获得的，例如可以利用图3-图7所述的相关方法和/或装置训练获得。可选地，个性化声学子模型可以利用图3中的执行设备获得，也可以利用图4中的训练设备和/或执行设备获得，还可以利用图5中的神经网络处理器50获得。

可选地，该个性化声学子模型(例如目标模型)，可以是预先设置在终端设备中的，也就是在进行语音合成之前设置在终端设备中。例如可以是在进行语音合成之前，数据处理设备将训练好的个性化声学子模型(例如目标模型)发送给终端设备。

可选地，第一数据可以包括上述中间预测结果，即利用个性化声学子模型对待处理数据进行解码获得的数据。可选地，第一数据还可以包括个性化编码，例如当用于声音克隆时，个性化编码可以是说话人编码，当用于风格个性化时，个性化编码可以是风格编码，当用于情感个性化时，个性化编码可以是情感编码等。以说话人编码为例，可以在每个中间预测结果后添加说话人编码，假设在利用个性化声学子模型对待处理数据处理后生成了17个中间预测结果向量，则可以在这17个中间预测结果后均增加说话人编码。

803、向数据处理设备发送第一数据。

可选地，可以利用通信单元、收发器、接口电路等将上述第一数据发送给数据处理设备。

804、接收对应于第一数据的处理结果，该处理结果可以包括对应于第一数据的声学特征，或者该处理结果可以包括对应于第一数据的音频。

可选地，当接收的处理结果是对应于第一数据的声学特征时，可以再将声学特征合成为音频，例如可以利用声码器等合成音频。而当接收的处理结果是对应于第一数据的音频时，相当于利用声学特征合成音频的操作是由数据处理设备执行的。

图9是本申请实施例的一种语音合成方法的示意性流程图，下面对图9中各步骤进行介绍。图9所示方法对应于语音合成过程中数据处理设备的操作。

901、获取来自于终端设备的第一数据。

可选地，假设该第一数据为第一用户对应的数据时，该第一数据可以包括该终端设备通过目标模型对待处理数据进行处理后获得的数据，目标模型则是基于第一用户的个性化训练数据对基础声学模型的第一子模型训练后得到的，第一用户的个性化训练数据可以包括第一用户的语音和/或语料。其中，基础声学模型可以基于通用训练数据获得，通用训练数据可以包括至少一个用户的语音和/或语料，基础声学模型还可以被划分为第一子模型和第二子模型。需要说明的是，该第一用户可以不是为基础声学模型提供语音和/或语料的用户之一。

可选地，该第一数据可以对应于图8所示步骤803所发送的第一数据。

902、对第一数据进行处理，得到处理结果。

可选地，可以利用通用声学子模型对第一数据中的中间预测结果进行解码，获得对应于中间预测结果的声学特征。需要说明的是，该通用声学子模型可以是指上文所述基础声学模型的第二子模型，也可以是指对应于上文所述基础声学模型的不更新部分的子模型，该不更新部分也可以称之为通用部分。

可选地，可以通过上文所述数据处理设备利用通用声学子模型对获取的中间预测结果进行解码，获得对应于中间预测结果的声学特征。

可选地，通用声学子模型可以是通过训练获得的，例如可以利用图3-图7相关方法训练获得。可选地，通用声学子模型可以利用图3中的执行设备获得，也可以利用图4中的训练设备和/或执行设备获得，还可以利用图5中的神经网络处理器50获得。

可选地，通用声学模型可以是预先设置在数据处理设备的，例如在获得基础声学模型后，可以将基础声学模型划分为第一子模型和第二子模型，其中第一子模型对应于个性化部分，也对应于更新部分，第二子模型则对应于基础声学模型的不更新部分，也对应于通用部分。则可以将第二子模型设置在数据处理设备，而在训练个性化声学子模型时，只需要更新第一子模型的参数。

可选地，该处理结果可以是上述声学特征，还可以是利用声码器等进一步将上述声学特征合成为的音频。

903、将处理结果发送给终端设备。

可选地，可以先利用声码器等将上述声学特征合成为音频，再将音频发送给终端设备。

可选地，还可以不进行合成音频的操作，而是将声学特征发送给终端设备。则当终端设备接收到声学特征后，在终端设备中将声学特征合成为音频。

需要说明的是，图8和图9所示的语音合成方法除了可以用于声音克隆，也就是复制不同说话人的声音，还可以用于多风格化TTS场景、多情感TTS场景等其他个性化TTS场景。在这些个性化TTS场景中，可以将实施步骤中的说话人编码替换成风格编码(styleembedding)、情感编码(emotion embedding)等即可。

下面结合图10对本申请实施例的声学模型的训练方法进行介绍。图10是本申请实施例的一种声学模型的训练方法的示意性流程图。

1001、获取个性化训练数据。

可选地，该个性化训练数据可以是某一特定用户(例如上文所述第一用户)的个性化训练数据，该个性化训练数据可以包括该用户的语音和/或语料等数据。

应理解，根据上文所述，训练数据可以是语音、语料等数据。训练数据例如可以包括输入文本及输入文本对应的目标语音，或者上述训练数据还可以是特征向量，例如可以包括输入文本的文本特征以及输入文本对应的目标语音的声学特征。其中，输入文本的文本特征可以是通过对输入的文本进行特征预处理后得到的，目标语音的声学特征则可以是通过对输入的语音进行特征提取得到的。举例说明，假设输入文本为“你好”，对应的目标语音为待定制声音的“你好”发音(例如，希望定制说话人甲的声音，则目标语音是甲对“你好”的发音)；则对“你好”进行特征预处理得到输入文本的文本特征，对与“你好”对应的目标语音进行特征提取得到目标语音的声学特征(例如，说话人甲说“你好”的声学特征)。

可选地，该个性化训练数据可以是对应于特定用户的语料的特征向量(例如文本的文本特征向量)，和/或对应于特定用户的语音的声学特征向量。

例如，当本申请实施例所提供的声学模型训练方法应用于声音克隆时，该训练数据可以是原始文本的文本特征向量和对应于原始文本的目标语音的声学特征向量。又例如，当本申请实施例所提供的声学模型训练方法应用于风格个性化定制时，该训练数据可以是原始语音的声学特征向量和对应于原始语音的目标语音的声学特征向量。又例如，当本申请实施例所提供的声学模型训练方法应用于情感个性化定制时，该训练数据可以是原始文本的文本特征向量和对应于原始文本的目标语音的声学特征向量；也可以是原始语音的声学特征向量和对应于原始语音的目标语音的声学特征向量。

1002、利用个性化训练数据获得第一声学模型。

可选地，利用个性化训练数据，并以基础声学模型为初始化模型进行训练，获得第一声学模型。

需要说明的是，第一声学模型是在基础声学模型的基础上训练获得的，在训练过程中只更新初始化模型中的固定部分(即更新部分，对应于第一子模型)的模型参数。而初始化模型中的其他部分(即不更新部分，对应于第二子模型)的模型参数不更新。更新部分对应于个性化声学子模型，不更新部分对应于通用声学子模型。假设利用上文所提供的Tacotron模型进行训练时，则在步骤1002只更新编码器的参数，不更新解码器的参数，也就是说编码器部分对应于个性化部分，会根据说话人不同而模型参数不同，解码器部分则对应于通用部分，对于所有说话人而言参数均相同。

可选地，基础声学模型可以是已经部署好的，也就是说基础声学模型是现有模型。基础声学模型还可以利用通用训练数据(即在训练基础声学模型时利用的语音语料等训练数据)训练获得。通用训练数据可以是数量较大，多个不同说话人和/或多个不同说话风格的训练语料集。例如在声音克隆的应用中，即利用某说话人的语料复制出该说话人的声音的应用中，该通用训练数据可以是包含多个不同说话人的语音语料的集合。

应理解，由于通用部分不需要更新参数，因此也可以不对该部分进行训练，只训练个性化部分。也就是说，相当于先将基础声学模型进行划分，例如划分为第一子模型(对应于个性化部分或更新部分的个性化声学子模型)和第二子模型(对应于通用部分或不更新部分的通用声学子模型)，在训练时，训练个性化声学子模型，但不训练通用声学子模型。假设利用上文所提供的Tacotron模型进行训练时，则在步骤1002可以训练编码器部分，但不训练解码器部分。

1003、获取个性化声学子模型和通用声学子模型。

可选地，将步骤1002获得的第一声学模型进行划分，获得个性化声学子模型和通用声学子模型。其中，通用声学子模型并未在训练过程中改变参数，所以可以认为所有说话人的通用声学子模型都是相同的。

可选地，可以将训练过程中的更新部分划分为个性化声学子模型或者称之为第一子模型，将训练过程中没有更新的部分划分为通用声学子模型或者称之为第二子模型。假设利用上文所提供的Tacotron模型进行训练时，则在步骤1003将编码器部分的输出模型划分为个性化声学子模型，解码器部分的输出模型划分为通用声学子模型。

可选地，在获取个性化声学子模型和通用声学子模型后，可以将个性化声学子模型部署在终端设备，例如可以将个性化声学子模型发送给终端设备，由终端设备进行部署。

应理解，通用声学子模型可以部署在数据处理设备，且由于在训练过程中，通用声学子模型不更新参数，所以可以只部署一次，例如可以在训练之前就将基础声学模型中对应部分部署为通用声学子模型。

还应理解，还可以先对声学模型进行划分，再进行声学模型的训练。在这种情况下，可以先将基础声学模型或者初始化模型等已有的声学模型进行划分，例如划分为第一子模型和第二子模型，其中第一子模型对应于更新部分，第二子模型对应于不更新部分。则在训练时，只利用某个用户的个性化训练数据对第一子模型进行训练，得到第一子模型对应的目标模型，而第二子模型作为通用声学子模型，不需要进行训练，且可以在训练前、训练中或者训练后将第二子模型部署在数据处理设备。

上文结合附图对本申请实施例的语音合成方法和声学模型的训练方法的过程进行了介绍，下面结合附图对本申请实施例的语音合成装置和声学模型的训练装置进行介绍。应理解，下文中介绍的语音合成装置能够执行本申请实施例的语音合成方法的各个过程，下文中介绍的声学模型的训练装置能够执行本申请实施例的声学模型的训练方法的各个过程，下面在介绍语音合成装置和声学模型的训练装置适当省略重复的描述。

图11是本申请实施例的一种语音合成装置的示意性框图。图11所示的语音合成装置2000包括获取单元2001、处理单元2002和收发单元2003。

语音合成装置2000可以用于执行本申请实施例的语音合成方法中终端设备执行的步骤。例如，获取单元2001可以用于执行图8所示语音合成方法中的步骤801，处理单元2002可以用于执行图8所示语音合成方法中的步骤802，收发单元2003可以用于执行图8所示语音合成方法中的步骤803和步骤804。

可选地，获取单元2001可以用于获取用户的待处理数据，例如获取用户的待合成个性化语音的文本。

可选地，处理单元2002可以用于对获取的待合成个性化语音的文本进行特征预处理，以获取其文本特征。

可选地，处理单元2002还可以用于利用个性化声学子模型对获取的待处理数据进行解码等处理生成中间预测结果，以及建立中间预测结果与个性化编码的连接，该个性化编码可以是说话人编码、风格编码、情感编码等对应于各类个性化应用场景的编码。

可选地，处理单元2002还可以确定要发送给数据处理设备的第一数据，该第一数据可以包括上述中间预测结果，还可以包括上述个性化编码。

可选地，收发单元2003可以用于将第一数据发送给数据处理设备。

可选地，收发单元2003还可以用于接收与第一数据对应的声学特征或音频。

可选地，当收发单元2003接收到与第一数据对应的声学特征时，处理单元2002还可以用于将声学特征合称为音频。

图11所示的装置2000中的获取单元2001可以是实时获取待处理数据的单元，例如可以通过获取单元2001实时获取用户的待处理数据(例如输入语音和/或输入文本)。此外，获取单元2001和收发单元2003的组合还可以相当于图13所示的装置4000中的通信接口4003，通过该通信接口4003可以获得待处理数据(例如待合成个性化语音的文本和/或语音)，或者，获取单元2001也可以相当于图13所示的装置4000中的处理器4002，此时可以通过处理器4002从存储器4001中获取待合成个性化语音的文本，或者通过通信接口4003从外部获取待合成个性化语音的文本。通过该通信接口4003还可以获得来自于数据处理设备的声学特征或音频。

此外，上述图11所示的装置2000中的处理单元2002可以相当于图13所示的装置4000中处理器4002。

图12是本申请实施例的一种语音合成装置的示意性框图。图12所示的语音合成装置3000包括收发单元3001和处理单元3002。语音合成装置3000可以用于执行本申请实施例的语音合成方法中数据处理设备执行的步骤。

可选地，收发单元3001可以用于执行图9所示语音合成方法中的步骤901和步骤903，处理单元3002可以用于执行图9所示语音合成方法中的步骤902。

图12所示的装置3000中的收发单元3001可以相当于图14所示的装置5000中的通信接口5003，处理单元3002可以相当于图15所示的装置5000中处理器5002。

图13是本申请实施例的一种语音合成装置的硬件结构示意图。图13所示的语音合成装置4000包括存储器4001、处理器4002、通信接口4003以及总线4004。其中，存储器4001、处理器4002、通信接口4003通过总线4004实现彼此之间的通信连接。

存储器4001可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器4001可以存储程序，当存储器4001中存储的程序被处理器4002执行时，处理器4002和通信接口4003用于执行本申请实施例的语音合成方法中终端设备执行的各个步骤。

处理器4002可以采用通用的CPU，微处理器，应用专用集成电路(applicationspecific integrated circuit，ASIC)，图形处理器(graphic processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的语音合成装置中的单元所需执行的功能，或者执行本申请实施例的语音合成方法中终端设备执行的各个步骤。

处理器4002还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请实施例的语音合成方法中终端设备执行的各个步骤可以通过处理器4002中的硬件的集成逻辑电路或者软件形式的指令完成。

上述处理器4002还可以是通用处理器、数字信号处理器(digital signalprocessing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gatearray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器4001，处理器4002读取存储器4001中的信息，结合其硬件完成本申请实施例的语音合成装置中包括的单元所需执行的功能，或者执行本申请实施例的语音合成方法中终端设备执行的各个步骤。

通信接口4003使用例如但不限于收发器一类的收发装置，来实现装置4000与其他设备或通信网络之间的通信。例如，可以通过通信接口4003发送第一数据，又例如可以通过通信接口4003接收语音合成的处理结果。

总线4004可包括在装置4000各个部件(例如，存储器4001、处理器4002、通信接口4003)之间传送信息的通路。

图14是本申请实施例的一种语音合成装置的硬件结构示意图。图14所示的语音合成装置5000包括存储器5001、处理器5002、通信接口5003以及总线5004。其中，存储器5001、处理器5002、通信接口5003通过总线5004实现彼此之间的通信连接。

存储器5001可以是ROM，静态存储设备和RAM。存储器5001可以存储程序，当存储器5001中存储的程序被处理器5002执行时，处理器5002和通信接口5003用于执行本申请实施例的语音合成方法中数据处理设备执行的各个步骤。

处理器5002可以采用通用的，CPU，微处理器，ASIC，GPU或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的语音合成装置中的单元所需执行的功能，或者执行本申请实施例的语音合成方法中数据处理设备执行的各个步骤。

处理器5002还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请实施例的语音合成方法中数据处理设备执行的各个步骤可以通过处理器5002中的硬件的集成逻辑电路或者软件形式的指令完成。

上述处理器5002还可以是通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器5001，处理器5002读取存储器5001中的信息，结合其硬件完成本申请实施例的语音合成装置中包括的单元所需执行的功能，或者执行本申请实施例的语音合成方法中数据处理设备执行的各个步骤。

通信接口5003使用例如但不限于收发器一类的收发装置，来实现装置5000与其他设备或通信网络之间的通信。例如，可以通过通信接口5003获取第一数据，又例如可以通过通信接口5003发送对第一数据进行处理得到的处理结果。

总线5004可包括在装置5000各个部件(例如，存储器5001、处理器5002、通信接口5003)之间传送信息的通路。

图15是本申请实施例的一种声学模型的训练装置的示意性框图。图15所示的声学模型的训练装置6000包括获取单元6001和处理单元6002。

获取单元6001和处理单元6002可以用于执行本申请实施例的声学模型的训练方法。

具体地，获取单元6001可以执行上述步骤1001，处理单元6002可以执行上述步骤1002至1003。

上述图15所示的装置6000中的获取单元6001可以相当于图16所示的装置7000中的通信接口7003，通过该通信接口7003可以获得相应的训练数据，或者，上述获取单元6001也可以提相当于处理器7002，此时可以通过处理器7002从存储器7001中获取训练数据，或者通过通信接口7003从外部获取训练数据。另外，装置6000中的处理单元6002可以相当于装置7000中的处理器7002。

图16是本申请实施例的一种声学模型的训练装置的硬件结构示意图。图16所示的声学模型的训练装置7000(该装置7000具体可以是一种计算机设备)包括存储器7001、处理器7002、通信接口7003以及总线7004。其中，存储器7001、处理器7002、通信接口7003通过总线7004实现彼此之间的通信连接。

存储器7001可以是ROM，静态存储设备，动态存储设备或者RAM。存储器7001可以存储程序，当存储器7001中存储的程序被处理器7002执行时，处理器7002用于执行本申请实施例的声学模型的训练方法的各个步骤。

处理器7002可以采用通用的CPU，微处理器，ASIC，GPU，或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的声学模型的训练方法。

处理器7002还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的声学模型的训练方法的各个步骤可以通过处理器7002中的硬件的集成逻辑电路或者软件形式的指令完成。

上述处理器7002还可以是通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器7001，处理器7002读取存储器7001中的信息，结合其硬件完成本声学模型的训练装置中包括的单元所需执行的功能，或者执行本申请实施例的声学模型的训练方法。

通信接口7003使用例如但不限于收发器一类的收发装置，来实现装置7000与其他设备或通信网络之间的通信。例如，可以通过通信接口7003获取待训练的语音语料。

总线7004可包括在装置7000各个部件(例如，存储器7001、处理器7002、通信接口7003)之间传送信息的通路。

需要说明的是，尽管上述装置4000、装置5000和装置7000仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，装置4000、装置5000和装置7000还可以包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，装置4000、装置5000和装置7000还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，装置4000、装置5000和装置7000也可仅仅包括实现本申请实施例所必须的器件，而不必包括图13、图14和图16中所示的全部器件。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音合成的方法，其特征在于，包括：

获取第一用户的待处理数据，所述待处理数据包括所述第一用户的待处理语音或待处理语料中的至少一种；

通过目标模型对所述待处理数据进行处理，获得第一数据，所述第一数据包括利用所述目标模型对所述待处理数据进行解码获得的数据，所述目标模型是基于所述第一用户的个性化训练数据对第一子模型训练后得到的，所述第一用户的个性化训练数据包括所述第一用户的语音和/或语料；

向数据处理设备发送所述第一数据；

接收处理结果，所述处理结果是所述数据处理设备基于第二子模型对所述第一数据进行处理获得的，所述处理结果包括对应于所述第一数据的声学特征，或者所述处理结果包括对应于所述第一数据的音频；其中，所述第一子模型和所述第二子模型由基础声学模型划分得到，所述基础声学模型是基于通用训练数据获得的，所述通用训练数据包括至少一个用户的语音和/或语料。

2.如权利要求1所述的方法，其特征在于，所述个性化训练数据具体包括所述第一用户的待训练数据和目标数据，所述待训练数据包括待训练语料或待训练语音中的至少一种，所述目标数据包括对应于所述待训练数据的目标语音或所述目标语音的声学特征。

3.如权利要求1或2所述的方法，其特征在于，在获取所述第一用户的所述待处理数据之前，所述方法还包括：接收所述目标模型。

4.如权利要求1至3中任一项所述的方法，其特征在于，所述第一数据还包括个性化编码，所述个性化编码包括说话人编码、风格编码、情感编码中的至少一种。

5.一种语音合成的方法，其特征在于，包括：

从终端设备获取第一用户的第一数据，所述第一数据包括所述终端设备通过目标模型对待处理数据进行处理后获得的数据；所述目标模型是基于所述第一用户的个性化训练数据对第一子模型训练后得到的，所述第一用户的个性化训练数据包括所述第一用户的语音和/或语料；

根据第二子模型对所述第一数据进行处理，得到处理结果；

将所述处理结果发送给所述终端设备；其中，所述第一子模型和所述第二子模型由基础声学模型划分得到，所述基础声学模型是基于通用训练数据获得的，所述通用训练数据包括至少一个用户的语音和/或语料。

6.如权利要求5所述的方法，其特征在于，所述个性化训练数据具体包括所述第一用户的待训练数据和目标数据，所述待训练数据包括待训练语料或待训练语音中的至少一种，所述目标数据包括对应于所述待训练数据的目标语音或所述目标语音的声学特征。

7.如权利要求5或6所述的方法，其特征在于，所述方法还包括：将所述目标模型发送给所述终端设备。

8.如权利要求5至7中任一项所述的方法，其特征在于，所述根据所述第二子模型对所述第一数据进行处理，得到处理结果，还包括：

根据所述第二子模型对所述第一数据进行处理，得到对应于所述第一数据的第一声学特征，所述处理结果包括所述第一声学特征。

9.如权利要求5至7中任一项所述的方法，其特征在于，所述根据所述第二子模型对所述第一数据进行处理，得到处理结果，还包括：

根据所述第二子模型对所述第一数据进行处理，得到对应于所述第一数据的第二声学特征；

将所述第二声学特征合成为音频，所述处理结果包括所述音频。

10.如权利要求5至9中任一项所述的方法，其特征在于，所述第一数据还包括个性化编码，所述个性化编码包括说话人编码、风格编码或者情感编码中的至少一种。

11.一种声学模型的训练方法，其特征在于，包括：

将基础声学模型划分出第一子模型，所述基础声学模型是基于通用训练数据获得的，所述通用训练数据包括至少一个用户的语音和/或语料；

获取第一用户的个性化训练数据，所述个性化训练数据包括所述第一用户的语音和/或语料；

根据所述个性化训练数据更新所述第一子模型，获得对应于所述第一子模型的目标模型。

12.一种语音合成的装置，其特征在于，包括：

获取单元，用于获取第一用户的待处理数据，所述待处理数据包括所述第一用户的待处理语音或待处理语料中的至少一种；

处理单元，用于通过目标模型对所述待处理数据进行处理，获得第一数据，所述第一数据包括利用所述目标模型对所述待处理数据进行解码获得的数据，所述目标模型是基于所述第一用户的个性化训练数据对第一子模型训练后得到的，所述第一用户的个性化训练数据包括所述第一用户的语音和/或语料；

收发单元，用于向数据处理设备发送所述第一数据；

所述收发单元，还用于接收处理结果，所述处理结果是所述数据处理设备基于第二子模型对所述第一数据进行处理获得的，所述处理结果包括对应于所述第一数据的声学特征，或者所述处理结果包括对应于所述第一数据的音频；其中，所述第一子模型和所述第二子模型由基础声学模型划分得到，所述基础声学模型是基于通用训练数据获得的，所述通用训练数据包括至少一个用户的语音和/或语料。

13.如权利要求12所述的装置，其特征在于，所述个性化训练数据具体包括所述第一用户的待训练数据和目标数据，所述待训练数据包括待训练语料或待训练语音中的至少一种，所述目标数据包括对应于所述待训练数据的目标语音或所述目标语音的声学特征。

14.如权利要求12或13所述的装置，其特征在于，在获取所述第一用户的所述待处理数据之前，所述收发单元还用于接收所述目标模型。

15.如权利要求12至14中任一项所述的装置，其特征在于，所述第一数据还包括个性化编码，所述个性化编码包括说话人编码、风格编码、情感编码中的至少一种。

16.一种语音合成的装置，其特征在于，包括：

收发单元，用于从终端设备获取第一用户的第一数据，所述第一数据包括所述终端设备通过目标模型对待处理数据进行处理后获得的数据，所述目标模型是基于所述第一用户的个性化训练数据对第一子模型训练后得到的，所述第一用户的个性化训练数据包括所述第一用户的语音和/或语料；

处理单元，用于根据第二子模型对所述第一数据进行处理，得到处理结果；

所述收发单元，还用于将所述处理结果发送给所述终端设备；其中，所述第一子模型和所述第二子模型由基础声学模型划分得到，所述基础声学模型是基于通用训练数据获得的，所述通用训练数据包括至少一个用户的语音和/或语料。

17.如权利要求16所述的装置，其特征在于，所述个性化训练数据具体包括所述第一用户的待训练数据和目标数据，所述待训练数据包括待训练语料或待训练语音中的至少一种，所述目标数据包括对应于所述待训练数据的目标语音或所述目标语音的声学特征。

18.如权利要求16或17所述的装置，其特征在于，所述收发单元还用于将所述目标模型发送给所述终端设备。

19.如权利要求16至18中任一项所述的装置，其特征在于，所述处理单元，具体用于根据所述第二子模型对所述第一数据进行处理，得到对应于所述第一数据的第一声学特征，所述处理结果包括所述第一声学特征。

20.如权利要求16至19中任一项所述的装置，其特征在于，所述处理单元，具体用于根据所述第二子模型对所述第一数据进行处理，得到对应于所述第一数据的第二声学特征；

21.如权利要求16至20中任一项所述的装置，其特征在于，所述第一数据还包括个性化编码，所述个性化编码包括说话人编码、风格编码或者情感编码中的至少一种。

22.一种声学模型的训练装置，其特征在于，包括：

处理单元，用于将基础声学模型划分出第一子模型，所述基础声学模型是基于通用训练数据获得，所述通用训练数据包括至少一个用户的语音和/或语料；

获取单元，用于获取第一用户的个性化训练数据，所述个性化训练数据包括所述第一用户的语音和/或语料；

所述处理单元，还用于根据所述个性化训练数据更新所述第一子模型，获得对应于所述第一子模型的目标模型。

23.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储用于设备执行的程序代码，该程序代码包括用于执行如权利要求1至4中任一项所述的语音合成的方法，或者，该程序代码包括用于执行如权利要求5至10中任一项所述的语音合成的方法。

24.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储用于设备执行的程序代码，该程序代码包括用于执行如权利要求11所述的声学模型的训练方法。

25.一种芯片，其特征在于，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，以执行如权利要求1至4中任一项所述的语音合成的方法，或者，以执行如权利要求5至10中任一项所述的语音合成的方法。

26.一种芯片，其特征在于，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，以执行如权利要求11所述的声学模型的训练方法。