CN112365879A

CN112365879A - 语音合成方法、装置、电子设备和存储介质

Info

Publication number: CN112365879A
Application number: CN202011218046.2A
Authority: CN
Inventors: 高占杰; 陈昌滨; 刘龙飞
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2021-02-12

Abstract

本申请提供了一种语音合成方法、装置、电子设备和存储介质，涉及计算机技术领域，具体涉及语音技术和深度学习等人工智能技术领域。具体实现方案为：获取待合成文本，并获取第一用户的音色特征；获取第二用户的阅读风格特征；根据待合成文本、第一用户的音色特征、阅读风格特征生成第一音频特征；根据第一音频特征生成目标语音。由此，通过利用第一用户的音色特征和第二用户的阅读风格特征，将待合成文本生转换为目标语音，使得生成的目标语音同时具备第一用户的音色和第二用户的阅读风格，使得生成的目标语音在保持第一用户的音色不变的情况下，迁移了第二用户的阅读风格，实现了语音合成的风格迁移。

Description

语音合成方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，具体涉及语音技术和深度学习等人工智能技术领域，尤其涉及一种语音合成方法、装置、电子设备和存储介质。

背景技术

语音合成，又称文语转换技术，能将任意文字信息实时转化为标准流畅的语音朗读出来。

目前，语音合成的应用越来越广泛。语音合成的风格，直接与录音风格相关，比如诗歌风格的录音，训练出来的模型能够出诗歌风格的语音，新闻风格的录音，训练出来的模型能出新闻风格的语音。如何合成多种风格的语音，满足人们的多样化需求，是亟待解决的问题。

发明内容

本申请提供一种语音合成方法、装置、电子设备和存储介质。

根据本申请的一方面，提供了一种语音合成方法，包括：

获取待合成文本，并获取第一用户的音色特征；

获取第二用户的阅读风格特征；

根据所述待合成文本、所述第一用户的音色特征、所述阅读风格特征生成第一音频特征；

根据所述第一音频特征生成目标语音。

根据本申请的另一方面，提供了一种语音合成装置，包括：

第一获取模块，用于获取待合成文本，并获取第一用户的音色特征；

第二获取模块，用于获取第二用户的阅读风格特征；

第一生成模块，用于根据所述待合成文本、所述第一用户的音色特征、所述阅读风格特征生成第一音频特征；

第二生成模块，用于根据所述第一音频特征生成目标语音。

根据本申请的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述一方面实施例所述的语音合成方法。

根据本申请另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其上存储有计算机程序，所述计算机指令用于使所述计算机执行上述一方面实施例所述的语音合成方法。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例提供的一种语音合成方法的流程示意图；

图2为本申请实施例提供的另一种语音合成方法的流程示意图；

图3为本申请实施例提供的另一种语音合成方法的流程示意图；

图4为本申请实施例提供的另一种语音合成方法的流程示意图；

图5为本申请实施例提供的另一种语音合成方法的流程示意图；

图6为本申请实施例提供的一种利用解码器和声码器生成目标语音的示意图；

图7为本申请实施例提供的一种语音合成装置的结构示意图；

图8为根据本申请实施例的语音合成方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本申请实施例的语音合成方法、装置、电子设备和存储介质。

人工智能是研究使用计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术领域也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术包括计算机视觉技术、语音识别技术、自然语言处理技术以及深度学习、大数据处理技术、知识图谱技术等几大方向。

语音技术是指在计算机领域中的关键技术有自动语音识别技术和语音合成技术。

深度学习是机器学习领域中一个新的研究方向。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

图1为本申请实施例提供的一种语音合成方法的流程示意图。

本申请实施例的语音合成方法，可由本申请实施例提供的语音合成装置执行，该装置可配置于电子设备中，通过根据第一用户的音色特征和第二用户的阅读风格特征生成目标语音，使得目标语音同时具备第一用户的音色和第二用户的阅读风格，实现风格迁移。

如图1所示，该语音合成方法包括：

步骤101，获取待合成文本，并获取第一用户的音色特征。

本实施例中，待合成文本为需要转换为语音的文本，其中，待合成文本可以是电子设备根据输入获取的，也可以是电子设备从预先存储的多个需要合成的文本中确定的。

在将文本转换为语音时，可将文本转换为某用户的音色的语音。本实施例中，可获取第一用户的音色特征。其中，第一用户是指待合成文本要生成的目标语音具有的音色所属的用户。

具体地，可获取第一用户的语音数据，比如，第一用户阅读文章的一段语音数据，或者朗读诗歌的一段语音数据等等，从第一用户的语音数据中提取第一用户的音色特征。

步骤102，获取第二用户的阅读风格特征。

在获取第二用户的阅读风格特征时，可以获取第二用户的语音数据，利用预先训练的神经网络，从第二用户的语音数据中，获取第二用户的阅读风格特征。

其中，阅读风格特征用于表征用户的阅读风格，阅读风格特征包括但不限于时长特征、能量特征、基频特征等。

本实施例中，第二用户可以是不同于第一用户的用户，比如，第一用户为用户A，第二用户为用户B。

步骤103，根据待合成文本、第一用户的音色特征、阅读风格特征生成第一音频特征。

本实施例中，可将待合成文本、第一用户的音色特征、第二用户的阅读风格特征，输入至解码器中进行解码，输出音频特征。为了便于描述，称为第一音频特征。其中，第一音频特征可以是梅尔频谱、梅尔倒频谱等等。

步骤104，根据第一音频特征生成目标语音。

在获取第一音频特征后，可利用通过深度学习预先训练的深度神经网络，对第一音频特征进行编码处理，生成待合成文本对应的目标语音，从而将待合成文本转换为目标语音。

本实施例中，在合成语音时，将第一用户的阅读风格特征替换为第二用户的阅读风格特征，根据第一用户的音色特征和第二用户的阅读风格特征，生成目标语音。

由于目标语音是根据第一用户的音色特征和第二用户的阅读风格特征生成的，因此，生成的目标语音既具有第一用户的音色，又具有第二用户的阅读风格，也即生成的目标语音在保持第一用户的音色不变的情况下，迁移了第二用户的阅读风格，实现了语音合成的风格迁移。

本申请实施例的语音合成方法，可以对阅读风格进行调整，采用第一用户的音色特征和不同用户的阅读风格特征，生成多种不同阅读风格的语音，风格迁移具有多样化。比如，利用用户A的音色特征与用户B的阅读风格特征，进行语音合成，或者用户A的音色特征与用户C的阅读风格特征，进行语音合成等。

本申请实施例中，通过获取待合成文本及第一用户的音色特征；获取第二用户的阅读风格特征；根据待合成文本、第一用户的音色特征、阅读风格特征生成第一音频特征；根据第一音频特征生成目标语音。由此，通过利用第一用户的音色特征和第二用户的阅读风格特征，将待合成文本生转换为目标语音，使得生成的目标语音同时具备第一用户的音色和第二用户的阅读风格，使得生成的目标语音在保持第一用户的音色不变的情况下，迁移了第二用户的阅读风格，实现了语音合成的风格迁移。

在本申请的一个实施例中，上述在获取第二用户的阅读风格特征时，可确定第二用户对应的基频特征、能量特征以及时长特征，将基频特征、能量特征以及时长特征作为第二用户的阅读风格特征。

具体地，可获取第二用户的语音数据，根据第二用户的语音数据，确定第二用户对应的时长特征，根据时长特征，确定基频特征和能量特征。其中，基频特征、能量特征和时长特征是用于表征第二用户的语音特点的特征。

本申请实施例中，上述在获取第二用户的阅读风格特征时，可确定与第二用户对应的基频特征、能量特征以及时长特征，并将基频特征、能量特征以及时长特征作为第二用户的阅读风格特征。由此，通过将第二用户对应的基频特征、能量特征以及时长特征三种特征，作为第二用户的阅读风格特征，利用该阅读风格特征生成语音，使得生成的语音完具有的阅读风格与第二用户的阅读风格更加接近。

在本申请的一个实施例中，上述在确定第二用户的基频特征、能量特征以及时长特征时，可利用图2所示的方式。图2为本申请实施例提供的另一种语音合成方法的流程示意图。

如图2所示，上述确定与第二用户对应的基频特征、能量特征以及时长特征，包括：

步骤201，获取第二用户的语音数据。

本实施例中，第二用户可以阅读几句话，或者朗读一首诗等，电子设备通过声音采集设备进行采集，获取第二用户的语音数据。或者，预先采集第二用户的语音数据，并上传至电子设备，从而电子设备获取第二用户的语音数据。

步骤202，解析语音数据得到训练文本。

在获取第二用户的语音数据后，对第二用户的语音数据进行语音识别，获取对应的文本，为了便于区分，这里称为训练样本。

步骤203，根据语音数据，确定训练文本对应的时长特征。

本实施例中，可根据第二用户的语音数据，确定训练样本对应的时长特征。其中，时长特征可用于表征用户的阅读节奏。具体地，确定训练文本对应的时长特征，可参见后续实施例。

步骤204，确定与语音数据对应的基频序列和能量序列。

本实施例中，可以从第二用户的语音数据中，提取基频序列和能量序列。具体地，可以对第二用户的语音数据进行分帧处理，并提取各语音帧的基音频率和能量，形成基频序列和能量序列。比如，可以25ms为帧长度，以10ms为帧间隔，进行分帧处理。

步骤205，采用时长特征对基频序列之中的基频进行目标处理，从而得到基频特征。

在获取第二用户的语音数据对应的训练文本对应的时长特征后，可利用训练样本对应的时长特征，对从第二用户的语音数据中提取的基频序列中的基频进行目标处理，得到训练文本对应的基频特征。

这里的目标处理是指能够得到基频特征的处理。

本实施例中，可以将第二用户的语音数据中的基频序列，转换为与训练文本的长度对应的基频，得到训练文本对应的基频特征。其中，训练文本的长度是指训练样本中包含的字的数量、或者包含的字母的数量、或者包含的音素的数量等。

步骤206，采用时长特征对能量序列中的能量进行目标处理，从而得到能量特征。

在获取第二用户的语音数据对应的训练文本对应的时长特征后，可利用训练样本对应的时长特征，对从第二用户的语音数据中提取的能量序列中的能量进行目标处理，得到训练文本对应的能量特征。

本实施例中，可以将第二用户的语音数据中的能量序列，转换为与训练文本的长度对应的能量，得到训练文本对应的能量特征。

在通过第二用户的语音数据，获取第二用户对应的时长特征、基频特征和能量特征后，可利用第二用户对应的时长特征、基频特征和能量特征，与其他用户的音色特征，比如第一用户的音色特征，进行语音合成，从而实现将第二用户的阅读风格进行迁移。

进一步地，为了提高合成效率，可预先构建三个神经网络，分别用于获取第二用户的基频特征、能量特征和时长特征。在进行语音合成时，可将待合成文本分别输入至三个神经网络中，获取第二用户对应的基频特征、能量特征和时长特征。

本申请实施例中，在确定与第二用户对应的基频特征、能量特征以及时长特征时，可获取第二用户的语音数据；解析语音数据以得到训练文本；根据语音数据，确定训练文本对应的时长特征；确定语音数据对应的基频序列和能量序列；采用时长特征对基频序列之中的基频进行目标处理，以得到基频特征；以及采用时长特征对能量序列中的能量进行目标处理，以得到能量特征。由此，通过根据第二用户的语音数据，可以得到第二用户对应的时长特征、基频特征、能量特征等阅读风格特征，从而将时长特征、基频特征和能量特征分离出来，便于进行风格迁移。

在本申请的一个实施例中，在上述根据语音数据，确定训练文本对应的时长特征时，可采用图3所示的方法。图3为本申请实施例提供的另一种语音合成方法的流程示意图。

如图3所示，上述根据语音数据，确定训练文本对应的时长特征，包括：

步骤301，解析训练文本得到多个文本单位。

本实施例中，可对第二用户的语音数据对应的训练文本进行解析，得到多个文本单位。其中，文本单位可以是字、字母、音素等。

比如，训练文本为中文，那么可对训练文本进行解析，从中提取字，得到训练文本包含的多个字。如果训练文本为英文，可以对训练文本进行解析，获取训练文本包含的多个字母。

步骤302，根据语音数据确定各个文本单位对应的时长，并将多个文本单位对应的时长作为时长特征。

在实际应用中，不同的用户阅读时，在各个文本单元的停留时长可能不同。基于此，在本实施例中，可根据语音数据，确定训练文本中各个文本单位对应的时长。

其中，各个文本单位对应的时长是指语音数据中阅读各个文本单位所用时长，或者各个文本单元对应的持续帧数。比如，某个字对应的时长为50ms，又如每帧为20ms，某个字对应的时长为2帧。

在获取训练文本中各个文本单位对应的时长后，可以将所有文本单位对应的时长，按照各个文本单元在训练文本中的先后顺序构成的序列，作为训练文本对应的时长特征。

比如，训练文本中包括10个字，可将10个字分别对应的时长，按照10个字在该训练文本中出现的先后顺序构成的序列，作为该训练文本对应的时长特征。

本申请实施例中，在根据语音数据，确定训练文本对应的时长特征时，可以解析训练文本以得到多个文本单元，根据语音数据确定各个文本单元对应的时长，并将多个文本单元对应的时长作为时长特征。由此，通过确定训练文本包括的各个文本元素对应的时长，得到训练文本对应的时长特征，提高了训练文本对应的时长特征的准确性。

在本申请的一个实施例中，在上述根据语音数据确定各个文本单元对应的时长时，可采用图4所示的方法。图4为本申请实施例提供的另一种语音合成方法的流程示意图。

如图4所示，上述根据语音数据确定各个文本单元对应的时长，包括：

步骤401，解析语音数据得到第二音频特征

本实施例中，可对第二用户的语音数据进行解析，从第二用户的语音数据中提取音频特征，为了便于描述和区分，将从第二用户的语音数据中提取的音频特征，称为第二音频特征。其中，第二音频特征包括但不限于梅尔频谱、梅尔倒频谱等等。

步骤402，对第二音频特征和各个文本单位，基于时间维度进行对齐处理。

本实施例中，可将第二音频特征和训练文本中的各个文本单位，输入至预先训练好的解码器中，利用解码器进行基于时间维度的对齐处理，解码器输出各个文本单元与第二音频特征的对齐矩阵。

步骤403，在对齐处理后，确定各个文本单位对应的时长。

本实施例中，解码器对第二音频特征和各个文本单位进行对齐处理后，输出各个文本单元与第二音频特征的对齐矩阵，通过该对齐矩阵，可以获取训练文本中每个文本单位对应的时长。

在获取各个文本单元对应的时长后，根据各个文本单元对应的时长，可以获取训练文本对应的时长特征。

本申请实施例中，在根据语音数据确定各个文本单元对应的时长时，可以解析语音数据以得到第二音频特征，对第二音频特征和各个文本单元，基于时间维度进行对齐处理，在对齐处理后，确定各个文本单元对应的时长。由此，通过将语音数据的第二音频特征与各个文本单元，进行基于时间维度的对齐处理，可以得到各个文本单元对应的时长，提高了文本单元对应的时长的确定准确性，从而基于第二用户对应的时长特征进行语音合成时，使得合成语音与第二用户的阅读节奏更贴合。

在本申请的一个实施例中，基频序列包括：与文本单元对应的基频，也就是说，第二用户的语音数据的基频序列，可以是第二用户的语音数据对应的训练文本中各个文本单元对应的基频构成的，在获取第二用户对应的基频特征时，可根据与每个文本单元对应的时长和基频，获取基频特征。下面结合图5进行说明，图5为本申请实施例提供的另一种语音合成方法的流程示意图。

如图5所示，上述采用时长特征对基频序列之中的基频进行目标处理，以得到基频特征，包括：

步骤501，针对与文本单位对应的基频，采用与文本单位对应的时长特征计算基频均值。

本实施例中，针对每个文本单元对应的基频，可以采用与每个文本单元对应的时长，计算与每个文本单元对应的基频均值。具体地，计算与每个文本单元对应的基频，在每个文本单元对应的时长上的平均值，得到每个文本单元对应的基频均值。

比如，某文本单元对应的时长为45ms,可将该文本单元对应的基频除以45ms，得到该文本单元对应的基频均值。

步骤502，将多个文本单元对应的基频均值作为基频特征。

在获取训练文本中每个文本单元对应的基频均值后，可以将多个文本单元分别对应的基频均值，按照对多个文本单元在训练文本中的顺序构成的序列，作为训练文本对应的基频特征，也即第二用户对应的基频特征。

比如，对训练文本进行解析得到15个文本单元，将15个文本单元分别对应的基频均值，按照15个文本单元在训练文本中的顺序构成的序列，作为训练文本对应的基频特征，也即获取第二用户对应的基频特征。

本申请实施例中，基频序列包括：与文本单元对应的基频，在采用时长特征对基频序列之中的基频进行目标处理，以得到基频特征时，可以针对与文本单元对应的基频，采用与文本单元对应的时长计算基频均值，并将多个文本单元对应的基频均值作为基频特征。由此，通过计算每个文本单元对应的基频均值，获取第二用户对应的基频特征，提高了基频特征的准确性。

在本申请的一个实施例中，能量序列包括：与文本单元对应的能量，也就是说，第二用户的语音数据的能量序列，可以是第二用户的语音数据对应的训练文本中各个文本单元对应的能量构成的，在获取第二用户的能量特征时，可根据与每个文本单元对应的时长和能量，获取能量特征，采用的方法与上述获取基频特征的方法类似。

具体地，针对每个文本单元对应的能量，可以采用与每个文本单元对应的时长，计算与每个文本单元对应的能量均值。具体地，计算与每个文本单元对应的能量，在每个文本单元对应的时长上的平均值，得到每个文本单元对应的能量均值。

在获取训练文本中每个文本单元对应的能量均值后，可以将多个文本单元分别对应的能量均值，按照对多个文本单元在训练文本中的顺序构成的序列，作为训练文本对应的能量特征，也即第二用户对应的能量特征。

比如，对训练文本进行解析得到15个文本单元，将15个文本单元分别对应的能量均值，按照15个文本单元在训练文本中的顺序构成的序列，作为训练文本对应的能量特征，也即获取第二用户对应的能量特征。

本申请实施例中，能量序列包括：与文本单元对应的能量，在采用时长特征对能量序列中的能量进行目标处理，以得到能量特征时，可以针对与文本单元对应的能量，采用与文本单元对应的时长计算能量均值，并将多个文本单元对应的能量均值作为能量特征。由此，通过计算每个文本单元对应的能量均值，获取第二用户对应的能量特征，提高了能量特征的准确性。

在本申请的一个实施例中，在获取第一音频特征后，可将第一音频特征输入至声码器中，利用声码器对第一音频特征进行编码处理，得到目标语音。

具体地，可根据待合成文本、第一用户的音色特征和第二用户的阅读风格特征生成第一音频特征，将第一音频特征输入至声码器，利用声码器进行编码处理，生成目标语音。

当第二用户的阅读风格特征包括时长特征、基频特征和能量特征时，合成目标语音的过程如图6所示。图6为本申请实施例提供的一种利用解码器和声码器生成目标语音的示意图。

如图6所示，将待合成文本、第一用户的音色特征、第二用户的时长特征、第二用户的基频特征和第二用户的能量特征，输入至解码器610中进行解码，得到第一音频特征，并将第一音频特征输入至声码器620，利用声码器620对第一音频特征进行编码处理，生成目标语音。

本申请实施例中，在根据第一音频特征生成目标语音时，可以通过声码器对第一音频特征编码处理，生成目标语音，提高了目标语音的合成效果。

为了实现上述实施例，本申请实施例还提出一种语音合成装置。图7为本申请实施例提供的一种语音合成装置的结构示意图。

如图7所示，该语音合成装置700包括：第一获取模块710、第二获取模块720、第一生成模块730和第二生成模块740。

第一获取模块710，用于获取待合成文本，并获取第一用户的音色特征；

第二获取模块720，用于获取第二用户的阅读风格特征；

第一生成模块730，用于根据待合成文本、第一用户的音色特征、阅读风格特征生成第一音频特征；

第二生成模块740，用于根据第一音频特征生成目标语音。

在本申请的一个实施例中，第二获取模块720，用于：

确定与第二用户对应的基频特征、能量特征以及时长特征，并将基频特征、能量特征以及时长特征作为第二用户的阅读风格特征。

在本申请的一个实施例中，第二获取模块720，包括：

第一获取单元，用于获取第二用户的语音数据；

解析单元，用于解析语音数据以得到训练文本；

第一确定单元，用于根据语音数据，确定训练文本对应的时长特征；

第二确定单元，用于确定语音数据对应的基频序列和能量序列；

第二获取单元，用于采用时长特征对基频序列之中的基频进行目标处理，以得到基频特征；以及

第三获取单元，用于采用时长特征对能量序列中的能量进行目标处理，以得到能量特征。

在本申请的一个实施例中，第一确定单元，包括：

解析子单元，用于解析训练文本以得到多个文本单元；

确定子单元，用于根据语音数据确定各个文本单元对应的时长，并将多个文本单元对应的时长作为时长特征。

在本申请的一个实施例中，确定子单元，用于：

解析语音数据以得到第二音频特征；

对第二音频特征和各个文本单元，基于时间维度进行对齐处理；

在对齐处理后，确定各个文本单元对应的时长。

在本申请的一个实施例中，基频序列包括：与文本单元对应的基频，其中，第二获取单元，用于：

针对与文本单元对应的基频，采用与文本单元对应的时长计算基频均值；

将多个文本单元对应的基频均值作为基频特征。

在本申请的一个实施例中，能量序列包括：与文本单元对应的能量，其中，第三获取单元，用于：

针对与文本单元对应的能量，采用与文本单元对应的时长计算能量均值；

将多个文本单元对应的能量均值作为能量特征。

需要说明的是，前述语音合成方法实施例的解释说明，也适用于该实施例的语音合成装置，故在此不再赘述。

本申请实施例的语音合成装置，通过获取待合成文本及第一用户的音色特征；获取第二用户的阅读风格特征；根据待合成文本、第一用户的音色特征、阅读风格特征生成第一音频特征；根据第一音频特征生成目标语音。由此，通过利用第一用户的音色特征和第二用户的阅读风格特征，将待合成文本生转换为目标语音，使得生成的目标语音同时具备第一用户的音色和第二用户的阅读风格，使得生成的目标语音在保持第一用户的音色不变的情况下，迁移了第二用户的阅读风格，实现了语音合成的风格迁移。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图8所示，是根据本申请实施例的语音合成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的语音合成方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语音合成方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语音合成方法对应的程序指令/模块(例如，附图7所示的第一获取模块710、第二获取模块720、第一生成模块730和第二生成模块740)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语音合成方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音合成电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至语音合成方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

语音合成方法的电子设备还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图8中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与语音合成方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS(VirtualPrivate Server,虚拟专用服务器)服务中，存在的管理难度大，业务扩展性弱的缺陷。

根据本申请实施例的技术方案，涉及语音技术和深度学习等人工智能技术领域，通过利用第一用户的音色特征和第二用户的阅读风格特征，将待合成文本生转换为目标语音，使得生成的目标语音同时具备第一用户的音色和第二用户的阅读风格，使得生成的目标语音在保持第一用户的音色不变的情况下，迁移了第二用户的阅读风格，实现了语音合成的风格迁移。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语音合成方法，包括：

获取待合成文本，并获取第一用户的音色特征；

获取第二用户的阅读风格特征；

根据所述第一音频特征生成目标语音。

2.根据权利要求1所述的方法，其中，所述获取第二用户的阅读风格特征，包括：

确定与所述第二用户对应的基频特征、能量特征以及时长特征，并将所述基频特征、能量特征以及时长特征作为所述第二用户的阅读风格特征。

3.根据权利要求2所述的方法，其中，所述确定与所述第二用户对应的基频特征、能量特征以及时长特征，包括：

获取所述第二用户的语音数据；

解析所述语音数据以得到训练文本；

根据所述语音数据，确定所述训练文本对应的时长特征；

确定所述语音数据对应的基频序列和能量序列；

采用所述时长特征对所述基频序列之中的基频进行目标处理，以得到所述基频特征；以及

采用所述时长特征对所述能量序列中的能量进行所述目标处理，以得到所述能量特征。

4.根据权利要求3所述的方法，其中，所述根据所述语音数据，确定所述训练文本对应的时长特征，包括：

解析所述训练文本以得到多个文本单元；

根据所述语音数据确定各个所述文本单元对应的时长，并将多个所述文本单元对应的时长作为所述时长特征。

5.根据权利要求4所述的方法，其中，所述根据所述语音数据确定各个所述文本单元对应的时长，包括：

解析所述语音数据以得到第二音频特征；

对所述第二音频特征和各个所述文本单元，基于时间维度进行对齐处理；

在所述对齐处理后，确定各个所述文本单元对应的时长。

6.根据权利要求4所述的方法，所述基频序列包括：与所述文本单元对应的基频，其中，所述采用所述时长特征对所述基频序列之中的基频进行目标处理，以得到所述基频特征，包括：

针对与所述文本单元对应的基频，采用与所述文本单元对应的时长计算基频均值；

将多个所述文本单元对应的基频均值作为所述基频特征。

7.根据权利要求4所述的方法，所述能量序列包括：与所述文本单元对应的能量，其中，所述采用所述时长特征对所述能量序列中的能量进行所述目标处理，以得到所述能量特征，包括：

针对与所述文本单元对应的能量，采用与所述文本单元对应的时长计算能量均值；

将多个所述文本单元对应的能量均值作为所述能量特征。

8.根据权利要求1所述的方法，其中，所述根据所述第一音频特征生成目标语音，包括：

采用声码器对所述第一音频特征进行编码处理，以得到所述目标语音。

9.一种语音合成装置，包括：

第二获取模块，用于获取第二用户的阅读风格特征；

第二生成模块，用于根据所述第一音频特征生成目标语音。

10.如权利要求9所述的装置，其中，所述第二获取模块，用于：

11.如权利要求10所述的装置，其中，所述第二获取模块，包括：

第一获取单元，用于获取所述第二用户的语音数据；

解析单元，用于解析所述语音数据以得到训练文本；

第一确定单元，用于根据所述语音数据，确定所述训练文本对应的时长特征；

第二确定单元，用于确定所述语音数据对应的基频序列和能量序列；

第二获取单元，用于采用所述时长特征对所述基频序列之中的基频进行目标处理，以得到所述基频特征；以及

第三获取单元，用于采用所述时长特征对所述能量序列中的能量进行所述目标处理，以得到所述能量特征。

12.如权利要求11所述的装置，其中，所述第一确定单元，包括：

解析子单元，用于解析所述训练文本以得到多个文本单元；

确定子单元，用于根据所述语音数据确定各个所述文本单元对应的时长，并将多个所述文本单元对应的时长作为所述时长特征。

13.如权利要求12所述的装置，其中，所述确定子单元，用于：

解析所述语音数据以得到第二音频特征；

在所述对齐处理后，确定各个所述文本单元对应的时长。

14.如权利要求12所述的装置，所述基频序列包括：与所述文本单元对应的基频，其中，所述第二获取单元，用于：

将多个所述文本单元对应的基频均值作为所述基频特征。

15.如权利要求12所述的装置，所述能量序列包括：与所述文本单元对应的能量，其中，所述第三获取单元，用于：

将多个所述文本单元对应的能量均值作为所述能量特征。

16.如权利要求9所述的装置，其中，所述第二生成模块，用于：

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的语音合成方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的语音合成方法。