CN107705783B

CN107705783B - 一种语音合成方法及装置

Info

Publication number: CN107705783B
Application number: CN201711206137.2A
Authority: CN
Inventors: 宋阳; 孟凡博; 樊博; 段文君; 牛露云; 赵超
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-11-27
Filing date: 2017-11-27
Publication date: 2022-04-26
Anticipated expiration: 2037-11-27
Also published as: CN107705783A

Abstract

本发明实施例提供一种语音合成方法和装置，所述方法包括：确定文本特征数据、目标音频的风格特征以及源音频数据的音色特征；所述风格特征包括时长韵律特征、基频特征、能量特征中的至少一种；根据所述文本特征数据、目标音频的风格特征以及所述源音频数据的音色特征进行语音合成，得到合成语音数据；所述合成语音数据具有源音频数据的音色以及目标音频的风格特征。本发明实施例可以使得合成语音具有源音频数据的音色以及目标音频的风格特征，提高了合成语音的情感表现力、更加自然，有效提高语音合成的质量。

Description

一种语音合成方法及装置

技术领域

本发明实施例涉及计算机技术领域，具体涉及一种语音合成方法及装置。

背景技术

语音合成是将文字信息转换为可懂的、流利的语音的技术。现有的语音合成技术，需要录制说话人的高质量音频数据，从音频数据中提取声学特征，再通过神经网络模型进行训练，得到语音合成模型。该语音合成模型的输入为文本信息特征，输出为声学特征。对于给定的任意文本，通过该语音合成模型，可以生成合成语音。由于相同的文本，在不同场景、不同上下文，都会有不同的表达方式。传统语音合成韵律较平，语音合成的效果，不能满足多场合的需求。

发明内容

本发明实施例提供了一种语音合成方法及装置，旨在解决现有技术中语言合成韵律较平、情感不丰富、不自然，语音合成质量不高的问题。

为此，本发明实施例提供如下技术方案：

第一方面，本发明实施例提供了一种语音合成方法，包括：确定文本特征数据、目标音频的风格特征以及源音频数据的音色特征；所述风格特征包括时长韵律特征、基频特征、能量特征中的至少一种；根据所述文本特征数据、目标音频的风格特征以及所述源音频数据的音色特征进行语音合成，得到合成语音数据；所述合成语音数据具有源音频数据的音色以及目标音频的风格特征。

第二方面，本发明实施例提供了一种语音合成装置，包括：确定单元，用于确定文本特征数据、目标音频的风格特征以及源音频数据的音色特征；合成单元，用于根据所述文本特征数据、目标音频的风格特征以及所述源音频数据的音色特征进行语音合成，得到合成语音数据；所述合成语音数据具有源音频数据的音色以及目标音频的风格特征。

第三方面，本发明实施例提供了一种用于语音合成的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：确定文本特征数据、目标音频的风格特征以及源音频数据的音色特征；所述风格特征包括时长韵律特征、基频特征、能量特征中的至少一种；根据所述文本特征数据、目标音频的风格特征以及所述源音频数据的音色特征进行语音合成，得到合成语音数据；所述合成语音数据具有源音频数据的音色以及目标音频的风格特征。

第四方面，本发明实施例提供了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如第一方面所示的语音合成方法。

本发明实施例提供的语音合成方法及装置，可以确定文本特征数据、目标音频的风格特征以及源音频数据的音色特征，根据所述文本特征数据、目标音频的风格特征以及所述源音频数据的音色特征进行语音合成，得到合成语音数据。由于合成语音数据具有源音频数据的音色以及目标音频的风格特征，因此使得合成的语音更加具有情感表现力，更加自然，提高了语音合成的质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的语音合成方法流程图；

图2为本发明另一实施例提供的语音合成方法流程图；

图3为本发明另一实施例提供的语音合成应用场景示意图；

图4为本发明一实施例提供的语音合成装置示意图；

图5是根据一示例性实施例示出的一种用于语音合成装置的框图；

图6是根据一示例性实施例示出的服务器的框图。

具体实施方式

本发明实施例提供了一种语音合成方法及装置，可以使得合成语音具有源音频数据的音色以及目标音频的风格特征，提高了合成语音的情感表现力、更加自然，有效提高语音合成的质量。

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面将结合附图1至附图3对本发明示例性实施例示出的语音合成方法进行介绍。

参见图1，为本发明一实施例提供的语音合成方法流程图。如图1所示，可以包括：

S101，确定文本特征数据、目标音频的风格特征以及源音频数据的音色特征。

具体实现时，对于给定的任意文本，可以通过文本分析获取文本信息特征。本发明对获取文本信息特征的方式不进行限定，可以采用现有技术的方法而进行。

其中，目标音频可以是具有某一种风格特征的音频。具体实现时，可以设置不同的风格供用户选择，根据用户的选择确定目标风格，根据目标风格确定目标音频以及目标音频的风格特征。举例说明，用户在录制故事时，可以选择风格为“孙敬修”、“凯叔”等，然后可以通过本发明提供的方法，录制内容为指定文本的、音频风格特征与“孙敬修”、“凯叔”相同的、采用用户自身音色特征的合成语音。举例说明，用户在录制评书、朗诵时，可以选择风格为“单田芳”、“濮存昕”等，然后可以通过本发明提供的方法，录制内容为指定文本的、音频风格特征与“单田芳”、“濮存昕”相同的、采用用户自身音色特征的合成语音。当然，也可以通过其他方式确定目标音频的风格特征。

其中，目标音频的风格特征用于表征一个人的说话风格、说话特点或者语言表现力。在本发明实施例中，风格特征一般是指与时长和韵律起伏相关性较高的时长韵律特征、基频特征、能量特征中的至少一种。所述时长韵律特征一般包括某个字/词的时长、停顿、是否重音等特征。

其中，源音频数据的音色特征一般包括该源音频数据的频谱特征、基频特征等。

S102，根据所述文本特征数据、目标音频的风格特征以及所述源音频数据的音色特征进行语音合成，得到合成语音数据。

在本发明实施例中，最终得到的合成语音数据具有源音频数据的音色以及目标音频的风格特征。

在一些可能的实施方式中，所述S102具体包括以下步骤：

S102A，根据所述文本特征数据、所述目标音频的时长韵律特征、所述源音频数据的音色特征得到所述源音频数据的声学特征数据。

在一些可能的实施方式中，所述根据所述文本特征数据、所述目标音频的时长韵律特征、所述源音频数据的音色特征得到所述源音频数据的声学特征包括：根据所述目标音频的时长韵律特征确定目标时长；根据所述文本特征数据、所述目标时长、所述源音频数据的音色特征得到所述源音频数据的声学特征数据。在这一实现方式中，根据目标音频的时长韵律特征确定了目标时长，取代了现有技术使用源音频数据预测时长的方式。之后，再根据文本特征数据、所述目标时长、所述源音频数据的音色特征得到所述源音频数据的声学特征数据。具体地，根据所述文本特征数据、所述目标音频的时长韵律特征，经过源说话人声学模型预测，得到源说话人的声学特征，包括基频、频谱和能量。

在一些可能的实施方式中，所述根据所述文本特征数据、所述目标音频的时长韵律特征、所述源音频数据的音色特征得到所述源音频数据的声学特征包括：根据所述文本特征数据、所述源音频数据的时长特征得到预测时长；根据所述预测时长与目标时长进行线性插值处理，得到插值后的时长特征；所述目标时长根据所述目标音频数据的时长韵律特征确定；根据所述文本特征数据、所述插值后的时长特征、所述源音频数据的音色特征得到所述源音频数据的声学特征数据。需要说明的是，在合成拖长音时，可能会出现合成效果不稳定的情况。为了改善这一情况，可以根据源音频数据的时长特征、该文本数据得到预测时长，根据目标音频数据的时长韵律特征确定目标时长。根据所述预测时长与目标时长进行线性插值处理，得到插值后的时长特征，利用差值后的时长特征以及源音频数据的音色特征得到声学特征数据。前面提到，可以利用目标音频的时长韵律特征，来预测源说话人的声学特征。为改善拖长音的合成效果，在这里可以利用预测时长与目标时长进行线性插值处理，达到更好的处理效果。

S102B，将所述目标音频的基频特征和/或能量特征与所述源音频数据的声学特征数据进行融合，得到融合后的声学特征数据。

具体实现时，可以将目标音频的基频特征和/或能量特征与所述源音频数据的声学特征数据中的基频特征和/或能量特征分别进行特征融合，得到融合后的声学特征数据。

在一些实施方式中，若采用预测时长和目标时长线性插值的方式得到时长特征，则在S102B后，还包括：在得到融合后的声学特征数据后，对融合后的声学特征数据进行线性插值处理，使得所述融合后的声学特征数据的时长与所述目标时长一致。

S102C，将所述声学特征数据转换成语音波形，得到具有目标音频的风格特征、源音频数据的音色特征的合成语音数据。

不同于前一种实施方式根据目标音频的时长韵律特征融合得到源音频的声学特征的方式，在另一些实施方式中，可以根据源音频的时长特征得到预测时长，根据预测时长以及目标音频的其他风格特征得到融合后的声学特征，再对该声学特征进行差值，以减少拖长音的影响。

具体地，所述根据所述文本特征数据、所述目标音频的时长韵律特征、所述源音频数据的音色特征得到所述源音频数据的声学特征包括：

S102A′，根据所述文本特征数据、所述源音频数据的音色特征和时长特征得到所述源音频数据的声学特征数据。

在这一实现方式中，可以根据文本特征数据、源音频数据的时长特征得到预测时长，根据所述预测时长、源音频数据的音色特征得到声学特征数据。

S102B′，将所述目标音频的基频特征和/或能量特征与所述源音频数据的声学特征数据进行融合，得到融合后的声学特征数据。

S102C′，对融合后的声学特征数据进行线性插值处理，使得所述融合后的声学特征数据的时长与目标时长一致。所述目标时长根据所述目标音频数据的时长韵律特征确定。一般地，当预测时长和目标时长不一致时，才需要对融合后的特征进行线性插值处理。

S102D′，将处理后的声学特征数据转换成语音波形，得到具有目标音频的风格特征、源音频数据的音色特征的合成语音数据。

在一些实施方式中，为了去除源音频数据中的源发言人的风格关联性，可以去除源音频数据的状态信息。在合成语音数据时，可以根据所述文本特征数据、目标音频的风格特征以及去除状态信息的源音频数据的音色特征进行语音合成，得到合成语音数据。

在本发明实施例中，可以将目标音频的风格特征融合到源音频数据中，使得合成后的语音更具有韵律特征，更具有表现力，有效提高了语音合成的质量。

为了便于本领域技术人员更清楚地理解本发明在具体场景下的实施方式，下面以一个具体示例对本发明实施方式进行介绍。需要说明的是，该具体示例仅为使得本领域技术人员更清楚地了解本发明，但本发明的实施方式不限于该具体示例。

S201，采集源音频数据，构建语音合成音库。

例如，可以采集源说话人的音频数据，构成语音合成音库。

S202，利用所述源音频数据对应的语音合成音库，构建语音合成模型。

一般地，在构建语音合成系统时，采用长短期记忆网络(英文全称为Long Short-Term Memory，英文简称为LSTM)模型，输入为文本信息和状态信息，输出为声学特征。申请人经过研究发现，状态信息具有较强的说话人相关性，即A说话人的状态信息直接用于B说话人合成时，会引起合成语音不稳定。因此，在本发明实施例中去除输入中的状态信息，使得合成效果更加稳定。具体地，可以去除源音频数据的状态信息。在构建语音合成模型时，输入为本部特征数据、输出为声学特征。

S203，确定目标音频的风格特征。所述风格特征包括时长韵律特征、基频特征、能量特征。所述目标音频可以是目标说话人的音频数据。

S204，结合目标音频的时长韵律特征，利用源音频数据的语音合成模型进行预测，得到源音频数据的声学特征，所述声学特征可以包括频谱、基频特征等。所述源音频数据的声学特征可以是源说话人的预测声学特征。

S205，将目标音频的基频特征与S204得到的声学特征的基频特征、将目标音频的能量特征与S204得到的声学特征的能量特征分别进行融合。

其中，特征融合算法可以是非常灵活的，下面为其中一种示例：

S_tr(n)＝(T(n)*S_mean/T_mean)*w+S(n)*(1-w),where 0≤w≤1.0

其中，S_tr(n)为特征融合后的第n帧基频(或能量)特征，S(n)为合成时源说活人第n帧预测的基频(或能量)特征，T(n)为提取的目标说活人第n帧预测的基频(或能量)特征，S_mean表示源说话人音库的特征均值，T_mean表示目标说话人音频对应的特征均值，w表示融合系数。

S206，将S205得到的特征通过声码器，转换成波形文件，即合成语音。

下面结合图3以及本发明的一个具体应用场景对语音合成方法进行介绍。参见图3，为本发明另一实施例提供的语音合成应用场景示意图。

如图3所示，在传统方法中，一般会根据文本特征数据和源音频数据得到声学特征。但在本发明实施例中，可以融合目标发言人的风格特征，合成具有源发音人音色特征、目标发言人风格特征的语音数据。例如，可以从目标风格音频中，提取与表现力相关的风格特征，包括时长韵律、基频、能量等。源说话人进行语音合成时，按照目标风格音频对应的风格特征中提取的时长韵律特征，预测得到声学特征；然后将声学特征中的基频、能量与风格特征中的基频、能量分别进行特征融合；进过特征融合后得到的声学特征，经过world声码器，转换成语音波形，即为“带有目标风格的合成声音”。

举例说明，传统故事机可以订阅各位专业老师上传的故事，可以听好友上传的故事，也可以父母自己录制上传故事。若由父母自己录制每一首故事，需要占用大量时间。此外，有些父母讲的不好，缺乏表现力。这时，可以录制父母的声音作为源音频数据，构建语音合成音库。可以利用合成音库中父母的声音与孙敬修、凯叔等专业人员的风格特征进行融合，得到具有父母音色的、孙敬修或凯叔等专业人员讲故事风格的合成语音，该合成语句保留的孙敬修或凯叔等专业人员讲故事的节奏、抑扬顿挫的感觉，使得输出的故事具有更丰富的表现力。由于保留了父亲或者母亲的音色特征，使得小朋友听起来具有亲切感。传统的语音合成的输入仅有文本特征，而本申请实施例中提供了目标音频的风格特征，使得合成语音更具有表现力，提高了语音合成质量。

下面对本发明实施例提供的唇语识别方法对应的设备和装置进行介绍。所述装置各单元或模块的设置可以参照图1至图3所示的方法而实现。

参见图4，为本发明一实施例提供的语音合成装置示意图。

一种语音合成装置400，包括：

确定单元401，用于确定文本特征数据、目标音频的风格特征以及源音频数据的音色特征。其中，所述确定单元401的具体实现可以参照图1所示实施例的步骤101而实现。

合成单元402，用于根据所述文本特征数据、目标音频的风格特征以及所述源音频数据的音色特征进行语音合成，得到合成语音数据。所述合成语音数据具有源音频数据的音色以及目标音频的风格特征其中，所述合成单元402的具体实现可以参照图1所示实施例的步骤102而实现。

在一些实施方式中，所述合成单元包括：

第一融合单元，用于根据所述文本特征数据、所述目标音频的时长韵律特征、所述源音频数据的音色特征得到所述源音频数据的声学特征数据；

第二融合单元，用于将所述目标音频的基频特征和/或能量特征与所述源音频数据的声学特征数据进行融合，得到融合后的声学特征数据；

第一转换单元，用于将所述声学特征数据转换成语音波形，得到具有目标音频的风格特征、源音频数据的音色特征的合成语音数据。

在一些实施方式中，所述第一融合单元包括：

目标时长确定单元，用于根据所述目标音频的时长韵律特征确定目标时长；

声学特征预测单元，用于根据所述文本特征数据、所述目标时长、所述源音频数据的音色特征得到所述源音频数据的声学特征数据。

在一些实施方式中，所述第一融合单元包括：

时长预测单元，用于根据所述文本特征数据、所述源音频数据的时长特征得到预测时长；

时长插值单元，用于根据所述预测时长与目标时长进行线性插值处理，得到插值后的时长特征；所述目标时长根据所述目标音频数据的时长韵律特征确定；

第一声学特征预测单元，用于根据所述文本特征数据、所述插值后的时长特征、所述源音频数据的音色特征得到所述源音频数据的声学特征数据。

在一些实施方式中，所述装置还包括：

第一特征插值单元，用于在得到融合后的声学特征数据后，对融合后的声学特征数据进行线性插值处理，使得所述融合后的声学特征数据的时长与所述目标时长一致。

在一些实施方式中，所述合成单元包括：

第二声学特征预测单元，用于根据所述文本特征数据、所述源音频数据的音色特征和时长特征得到所述源音频数据的声学特征数据；

第三融合单元，用于将所述目标音频的基频特征和/或能量特征与所述源音频数据的声学特征数据进行融合，得到融合后的声学特征数据；

第二特征插值单元，用于对融合后的声学特征数据进行线性插值处理，使得所述融合后的声学特征数据的时长与目标时长一致；所述目标时长根据所述目标音频数据的时长韵律特征确定；

第二转换单元，用于将处理后的声学特征数据转换成语音波形，得到具有目标音频的风格特征、源音频数据的音色特征的合成语音数据。

在一些实施方式中，所述装置还包括：

状态信息去除单元，用于去除源音频数据的状态信息；

所述合成单元具体用于：根据所述文本特征数据、目标音频的风格特征以及去除状态信息的源音频数据的音色特征进行语音合成，得到合成语音数据。

其中，本发明装置各单元或模块的设置可以参照图1至图3所示的方法而实现，在此不赘述。

参见图5，为根据一示例性实施例示出的一种用于语音合成装置的框图。参见图5，为根据一示例性实施例示出的一种用于语音合成装置的框图。例如，装置500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置500可以包括以下一个或多个组件：处理组件502，存储器504，电源组件506，多媒体组件508，音频组件510，输入/输出(I/O)的接口512，传感器组件514，以及通信组件516。

处理组件502通常控制装置500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理部件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在设备500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件506为装置500的各种组件提供电力。电源组件506可以包括电源管理系统，一个或多个电源，及其他与为装置500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当设备500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC)，当装置500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为装置500提供各个方面的状态评估。例如，传感器组件514可以检测到设备500的打开/关闭状态，组件的相对定位，例如所述组件为装置500的显示器和小键盘，传感器组件514还可以检测装置500或装置500一个组件的位置改变，用户与装置500接触的存在或不存在，装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件514经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件514还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

具体地，本发明实施例提供了一种语音合成装置500，包括有存储器504，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器504中，且经配置以由一个或者一个以上处理器520执行所述一个或者一个以上程序包含用于进行以下操作的指令：确定文本特征数据、目标音频的风格特征以及源音频数据的音色特征；所述风格特征包括时长韵律特征、基频特征、能量特征中的至少一种；根据所述文本特征数据、目标音频的风格特征以及所述源音频数据的音色特征进行语音合成，得到合成语音数据；所述合成语音数据具有源音频数据的音色以及目标音频的风格特征。

进一步地，所述处理器520具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：根据所述文本特征数据、所述目标音频的时长韵律特征、所述源音频数据的音色特征得到所述源音频数据的声学特征数据；将所述目标音频的基频特征和/或能量特征与所述源音频数据的声学特征数据进行融合，得到融合后的声学特征数据；将所述声学特征数据转换成语音波形，得到具有目标音频的风格特征、源音频数据的音色特征的合成语音数据。

进一步地，所述处理器520具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：根据所述目标音频的时长韵律特征确定目标时长；根据所述文本特征数据、所述目标时长、所述源音频数据的音色特征得到所述源音频数据的声学特征数据。

进一步地，所述处理器520具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：根据所述文本特征数据、所述源音频数据的时长特征得到预测时长；根据所述预测时长与目标时长进行线性插值处理，得到插值后的时长特征；所述目标时长根据所述目标音频数据的时长韵律特征确定；根据所述文本特征数据、所述插值后的时长特征、所述源音频数据的音色特征得到所述源音频数据的声学特征数据。

进一步地，所述处理器520具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：在得到融合后的声学特征数据后，对融合后的声学特征数据进行线性插值处理，使得所述融合后的声学特征数据的时长与所述目标时长一致。

进一步地，所述处理器520具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：根据所述文本特征数据、所述源音频数据的音色特征和时长特征得到所述源音频数据的声学特征数据；将所述目标音频的基频特征和/或能量特征与所述源音频数据的声学特征数据进行融合，得到融合后的声学特征数据；对融合后的声学特征数据进行线性插值处理，使得所述融合后的声学特征数据的时长与目标时长一致；所述目标时长根据所述目标音频数据的时长韵律特征确定；将处理后的声学特征数据转换成语音波形，得到具有目标音频的风格特征、源音频数据的音色特征的合成语音数据。

进一步地，所述处理器520具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：去除源音频数据的状态信息；根据所述文本特征数据、目标音频的风格特征以及去除状态信息的源音频数据的音色特征进行语音合成，得到合成语音数据。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由装置500的处理器520执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种机器可读介质，例如该机器可读介质可以为非临时性计算机可读存储介质，当所述介质中的指令由装置(终端或者服务器)的处理器执行时，使得装置能够执行一种语音合成方法，所述方法包括：确定文本特征数据、目标音频的风格特征以及源音频数据的音色特征；所述风格特征包括时长韵律特征、基频特征、能量特征中的至少一种；根据所述文本特征数据、目标音频的风格特征以及所述源音频数据的音色特征进行语音合成，得到合成语音数据；所述合成语音数据具有源音频数据的音色以及目标音频的风格特征。

图6是本发明实施例中服务器的结构示意图。该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在服务器600上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口660，一个或一个以上输入输出接口668，一个或一个以上键盘666，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音合成方法，其特征在于，包括：

确定文本特征数据、目标音频的风格特征以及源音频数据的音色特征；所述风格特征包括时长韵律特征、基频特征、能量特征中的至少一种，所述目标音频的风格特征用于表征一个人的说话风格、说话特点或者语言表现力；

去除所述源音频数据的状态信息，所述状态信息表征源发音人的风格关联性；

根据所述文本特征数据、所述目标音频的风格特征以及去除状态信息的源音频数据的音色特征进行语音合成，得到合成语音数据；所述合成语音数据具有所述去除状态信息的源音频数据的音色特征以及所述目标音频的风格特征。

2.根据权利要求1所述的方法，其特征在于，所述根据所述文本特征数据、所述目标音频的风格特征以及去除状态信息的源音频数据的音色特征进行语音合成，得到合成语音数据包括：

根据所述文本特征数据、所述目标音频的时长韵律特征、所述去除状态信息的源音频数据的音色特征得到所述去除状态信息的源音频数据的声学特征数据；

将所述目标音频的基频特征和/或能量特征，与所述去除状态信息的源音频数据的声学特征数据进行融合，得到融合后的声学特征数据；

将所述声学特征数据转换成语音波形，得到具有所述目标音频的风格特征以及所述去除状态信息的源音频数据的音色特征的合成语音数据。

3.根据权利要求2所述的方法，其特征在于，所述根据所述文本特征数据、所述目标音频的时长韵律特征、所述去除状态信息的源音频数据的音色特征得到所述去除状态信息的源音频数据的声学特征包括：

根据所述目标音频的时长韵律特征确定目标时长；

根据所述文本特征数据、所述目标时长、所述去除状态信息的源音频数据的音色特征，得到所述去除状态信息的源音频数据的声学特征数据。

4.根据权利要求2所述的方法，其特征在于，所述根据所述文本特征数据、所述目标音频的时长韵律特征、所述去除状态信息的源音频数据的音色特征得到所述去除状态信息的源音频数据的声学特征包括：

根据所述文本特征数据、所述去除状态信息的源音频数据的时长特征，得到预测时长；

根据所述预测时长与目标时长进行线性插值处理，得到插值后的时长特征；所述目标时长根据所述目标音频数据的时长韵律特征确定；

根据所述文本特征数据、所述插值后的时长特征、所述去除状态信息的源音频数据的音色特征，得到所述去除状态信息的源音频数据的声学特征数据。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

在得到融合后的声学特征数据后，对所述融合后的声学特征数据进行线性插值处理，使得所述融合后的声学特征数据的时长与所述目标时长一致。

6.根据权利要求1所述的方法，其特征在于，所述根据所述文本特征数据、所述目标音频的风格特征以及去除状态信息的源音频数据的音色特征，进行语音合成，得到合成语音数据包括：

根据所述文本特征数据、所述去除状态信息的源音频数据的音色特征和时长特征，得到所述去除状态信息的源音频数据的声学特征数据；

对所述融合后的声学特征数据进行线性插值处理，使得所述融合后的声学特征数据的时长与目标时长一致；所述目标时长根据所述目标音频数据的时长韵律特征确定；

将处理后的声学特征数据转换成语音波形，得到具有所述目标音频的风格特征以及所述去除状态信息的源音频数据的音色特征的合成语音数据。

7.一种语音合成装置，其特征在于，包括：

确定单元，用于确定文本特征数据、目标音频的风格特征以及源音频数据的音色特征；所述风格特征包括时长韵律特征、基频特征、能量特征中的至少一种，所述目标音频的风格特征用于表征一个人的说话风格、说话特点或者语言表现力；

状态信息去除单元，用于去除所述源音频数据的状态信息，所述状态信息表征源发音人的风格关联性；

合成单元，用于根据所述文本特征数据、所述目标音频的风格特征以及去除状态信息的源音频数据的音色特征进行语音合成，得到合成语音数据；所述合成语音数据具有所述去除状态信息的源音频数据的音色特征以及所述目标音频的风格特征。

8.根据权利要求7所述的装置，其特征在于，所述合成单元包括：

第一融合单元，用于根据所述文本特征数据、所述目标音频的时长韵律特征、所述去除状态信息的源音频数据的音色特征得到所述去除状态信息的源音频数据的声学特征数据；

第二融合单元，用于将所述目标音频的基频特征和/或能量特征与所述去除状态信息的源音频数据的声学特征数据进行融合，得到融合后的声学特征数据；

第一转换单元，用于将所述声学特征数据转换成语音波形，得到具有所述目标音频的风格特征以及所述去除状态信息的源音频数据的音色特征的合成语音数据。

9.根据权利要求8所述的装置，其特征在于，所述第一融合单元包括：

声学特征预测单元，用于根据所述文本特征数据、所述目标时长、所述去除状态信息的源音频数据的音色特征得到所述去除状态信息的源音频数据的声学特征数据。

10.根据权利要求8所述的装置，其特征在于，所述第一融合单元包括：

时长预测单元，用于根据所述文本特征数据、所述去除状态信息的源音频数据的时长特征得到预测时长；

第一声学特征预测单元，用于根据所述文本特征数据、所述插值后的时长特征、所述去除状态信息的源音频数据的音色特征得到所述去除状态信息的源音频数据的声学特征数据。

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

第一特征插值单元，用于在得到融合后的声学特征数据后，对所述融合后的声学特征数据进行线性插值处理，使得所述融合后的声学特征数据的时长与所述目标时长一致。

12.根据权利要求7所述的装置，其特征在于，所述合成单元包括：

第二声学特征预测单元，用于根据所述文本特征数据、所述去除状态信息的源音频数据的音色特征和时长特征得到所述去除状态信息的源音频数据的声学特征数据；

第三融合单元，用于将所述目标音频的基频特征和/或能量特征与所述去除状态信息的源音频数据的声学特征数据进行融合，得到融合后的声学特征数据；

第二特征插值单元，用于对所述融合后的声学特征数据进行线性插值处理，使得所述融合后的声学特征数据的时长与目标时长一致；所述目标时长根据所述目标音频数据的时长韵律特征确定；

第二转换单元，用于将处理后的声学特征数据转换成语音波形，得到具有所述目标音频的风格特征以及所述去除状态信息的源音频数据的音色特征的合成语音数据。

13.一种用于语音合成的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

14.根据权利要求13所述的装置，其特征在于，所述处理器具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：

15.根据权利要求14所述的装置，其特征在于，所述处理器具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：

根据所述目标音频的时长韵律特征确定目标时长；

16.根据权利要求14所述的装置，其特征在于，所述处理器具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：

17.根据权利要求16所述的装置，其特征在于，所述处理器具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：

18.根据权利要求13所述的装置，其特征在于，所述处理器具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：

19.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至6中一个或多个所述的语音合成方法。