CN111091807A

CN111091807A - 语音合成方法、装置、计算机设备及存储介质

Info

Publication number: CN111091807A
Application number: CN201911368538.7A
Authority: CN
Inventors: 劳振锋; 肖纯智
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-05-01
Anticipated expiration: 2039-12-26
Also published as: CN111091807B

Abstract

本申请公开了一种语音合成方法、装置、计算机设备及存储介质，属于语音信号处理领域。方法包括：获取第一对象的原始语音；对原始语音进行语音识别，得到原始语音对应的原始发音序列，原始发音序列中包括原始语音中各个字词的原始字词发音；从目标字词库中获取原始字词发音对应的目标字词发音，目标字词库中存储有第二对象对各个字词的字词发音；对各个目标字词发音进行拼接，生成目标发音序列；根据目标发音序列合成目标语音，目标语音具有第二对象的声音特征。采用本申请的语音合成方法，可直接利用第二对象的声音特征来实现合成目标语音，提高了语音合成的准确性，且目标语音具备原始语音的音高特征，使得目标语音呈现原始语音的流畅度。

Description

语音合成方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及语音信号处理领域，特别涉及一种语音合成方法、装置、计算机设备及存储介质。

背景技术

随着人工智能技术的不断发展，人类基于智能电子设备所实现的娱乐活动越来越丰富。如在语音通话过程中，可实现声音转换，使得第一对象所发出的声音转换成第二对象的声音，进一步丰富了语音通话场景；又如手机语音助手以及语音导航软件等，可实现提示语音的自定义说话对象，例如导航时的语音提示声音是某一位明星的声音。

与上述应用场景息息相关的技术为语音转换技术，随着人类对语音的要求越来越高，语音转换技术显得越来越重要，应用也越来越普遍。相关技术中用于实现语音转换的惯用技术手段为根据第二对象的声音特征建立转换模型，从而通过转换模型对第一对象声音特征进行训练，使得第一对象声音特征尽可能逼近第二对象声音特征，最终将第一对象的语音合成为第二对象的语音。

然而，由于第二对象语音环境的多样性，转换模型存在一定误差，因此，在通过转换模型对第一对象声音特征进行训练的过程中，易出现合成语音不理想的问题。

发明内容

本申请实施例提供了一种语音合成方法、装置、计算机设备及存储介质，所述技术方案如下：

一方面，提供了一种语音合成方法，所述方法包括：

获取第一对象的原始语音；

对所述原始语音进行语音识别，得到所述原始语音对应的原始发音序列，所述原始发音序列中包括所述原始语音中各个字词的原始字词发音；

从目标字词库中获取所述原始字词发音对应的目标字词发音，所述目标字词库中存储有第二对象对各个字词的字词发音，所述目标字词发音与所述原始字词发音匹配；

对各个所述目标字词发音进行拼接，生成目标发音序列；

根据所述目标发音序列合成目标语音，所述目标语音具有所述第二对象的声音特征。

另一方面，提供了一种语音合成装置，所述装置包括：

语音获取模块，用于获取第一对象的原始语音；

语音识别模块，用于对所述原始语音进行语音识别，得到所述原始语音对应的原始发音序列，所述原始发音序列中包括所述原始语音中各个字词的原始字词发音；

发音获取模块，用于从目标字词库中获取所述原始字词发音对应的目标字词发音，所述目标字词库中存储有第二对象对各个字词的字词发音，所述目标字词发音与所述原始字词发音匹配；

发音拼接模块，用于对各个所述目标字词发音进行拼接，生成目标发音序列；

语音合成模块，用于根据所述目标发音序列合成目标语音，所述目标语音具有所述第二对象的声音特征。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如上述方面所述的语音合成方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质存储有至少一条指令，所述至少一条指令用于被处理器执行以实现如上述方面所述的语音合成方法。

另一方面，还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述方面所述的语音合成方法。

本申请实施例中，终端对原始语音进行语音识别得到原始发音序列，并根据原始发音序列中的原始字词发音从目标字库中获取目标字词发音，目标字词发音在一定顺序下拼接成为目标发音序列，进一步的，终端根据目标发音序列生成目标语音。基于本申请实施例提供的语音合成方法，可直接利用第二对象的声音特征来实现目标语音的合成，在简化语音合成过程的同时，提高了语音合成的准确性，且目标语音具备原始语音的音高特征，使得目标语音能够很好地呈现原始语音的流畅度，且目标语音听起来也比较自然。

附图说明

图1示出了本申请一示例性实施例提供的语音合成方法的流程图；

图2示出了本申请一示例性实施例提供的语音进行分帧处理的示意图；

图3示出了本申请另一示例性实施例提供的语音合成方法的流程图；

图4示出了本申请另一示例性实施例提供的语音合成方法的流程图；

图5示出了本申请一示例性实施例提供的语音合成装置的结构框图；

图6示出了本申请一示例性实施例提供的计算机设备的结构方框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请提供的语音合成方法能够广泛应用于需要进行语音转换以及语音合成的场景中，且在省去对第一对象声音特征进行目标训练的基础上，能够实现将第一对象的语音转换为符合第二对象声音特征的合成语音。在一个可能的应用场景中，在配音领域，本申请提供的语音合成方法能够实现将专业配音演员的声音特征进行提取并存储，在该配音演员不方便工作时，可将替补配音演员的声音合成为该配音演员的语音，以方便后续工作的展开；在一个可能的应用场景中，在机密通讯领域，本申请提供的语音合成方法能够实现将第一对象的语音进行个性化伪装；在一个可能的应用场景中，第一对象使用数字化娱乐设施进行歌唱时，本申请提供的语音合成方法能够实现将当前歌唱声音转换为歌手声音，且保留有当前歌唱声音的音高。

可选的，上述可能的应用场景仅为示例性的举出，并不对本申请提供的语音合成方法可能的应用场景造成限定。

此外，在各个可能的应用场景中，包括本申请提供的计算机设备，该计算机设备具备存储功能以及语音合成功能，可选的，语音合成功能可以是计算机设备自带的功能，也可以是通过安装具备语音合成功能的软件来实现的。在一种可能的实施方式中，计算机设备存储有多个第二对象的语音语料，当计算机设备接收到第一对象对语音合成对象的选择后，即第二对象的选择，计算机设备获取第一对象的原始语音，通过语音识别技术识别出原始语音所包含的字词，继而根据该字词从所存储的第二对象的语音语料中确定出包含相近字词的语音语料，通过语音分析工具提取第一对象的声音特征以及该语音语料的声音特征，并输入语音合成工具，最终通过语音合成工具完成目标语音的合成。其中，语音分析工具所提取的声音特征是最终输入至语音合成工具的，因此，为了保障语音合成过程的稳定进行，语音分析工具和语音合成工具为相匹配的工具。可选的，在本申请各个实施例中，以语音分析工具为world语音分析工具和语音合成工具为world语音合成工具为例进行示例性的说明，但并不对本申请造成限定。

相关技术中，语音合成技术主要包括波形拼接和参数合成两种方法，world语音合成工具是一种基于参数合成的方法，并且可以应用于实时的语音合成，本申请实施例中，声音特征的输入即为world语音合成工具所需的参数输入。

此外，可选的，本申请提供的计算机设备可以是具备上述存储功能以及语音合成功能的一种终端，或者，是指一种服务器。且对于计算机设备为服务器而言，该服务器可以是服务于某一终端的服务器，在一个示例中，终端将第一对象的原始语音发送至对应的服务器，服务器接收到后实施本申请中语音合成的过程。需要说明的是，在本申请各个实施例中以终端执行为例进行示意性的说明。

请参考图1，其示出了本申请一示例性实施例提供的语音合成方法的流程图。该方法包括：

步骤101，获取第一对象的原始语音。

可选的，本申请实施例中的第一对象是指语音合成过程的发起者，即第一对象通过本申请实施例提供的语音合成方法实现将原始语音合成为符合第二对象声音特征的语音。其中，第二对象即为语音合成的目标对象。

本申请提供的语音合成方法，是一种既符合第二对象声音特征，也符合第一对象声音特征的语音合成方法。可选的，声音特征可以是音高、音长、发音、频谱包络以及非周期特征等相关特征中的至少一种。

基于本申请的语音合成工具可实现用于实时语音合成场景，可选的，本申请提供的语音合成方法既可以在实时语音场景下实施，也可以在非实时语音场景下实施。

在实时语音场景下，终端获取第一对象通话过程中或者歌唱过程中的语音信号，该语音信号即为第一对象的原始语音；在非实时语音场景下，终端获取所存储的与第一对象相关的语音语料作为原始语音。

对于实时语音场景而言，本申请提供的语音合成方法在语音合成过程中存在处理间隙，该处理间隙可以是基于语音合成工具的语音合成效率而预设的数值。如，语音合成工具的语音合成效率较高时，处理间隙数值较小；又如，语音合成工具的语音合成效率较低时，处理间隙数值较大。

在一个示例中，甲方与乙方正在通过即时通讯软件进行语音聊天，且甲方选择将自己的语音合成为符合丙方的语音。甲方的终端检测当前完成一段语音输入后，在2秒的处理间隙之后完成该段语音的语音合成，并将合成后的语音发送至乙方。

在一种可能的实施方式中，语音信号属于准稳态信号，即短时平稳。这个短时长一般为10-30ms，因此在获取第一对象的原始语音时，为减少语音信号整体的非稳态、时变的影响，需要对原始语音对应的语音信号进行分帧处理。

在一个示例中，终端获取本地存储的一段录音文件作为第一对象的原始语音，该段原始语音时长为10s，终端设定20ms为一帧长，则该段原始语音进行分帧处理后由500帧帧信号组成。

步骤102，对原始语音进行语音识别，得到原始语音对应的原始发音序列，原始发音序列中包括原始语音中各个字词的原始字词发音。

进一步的，在完成对第一对象的原始语音的获取之后，对所获取的原始语音进行语音识别，通过语音识别可实现对各个帧信号基于音素的概率预测。

其中，音素是构成字词的发音的基本语音单位，对于英语字词而言，常用的音素集是一套由39个音素构成的音素集，对于汉语字词而言，音素集为全部声母和韵母的合集。

在上述示例中，原始语音进行分帧处理后由500帧帧信号组成，终端通过语音识别技术预测出各帧帧信号的最大概率音素，即在音素集中，存在某个音素为某一帧信号对应的最大概率的音素，终端确定出各帧帧信号对应的最大概率音素。进一步的，根据英语字词或声母和韵母的组合规则，最终通过语音识别技术实现原始语音的文本转换，而文本转换的结果为得到原始语音对应的原始发音序列，原始发音序列中包括原始语音中各个字词的原始字词发音，其中，原始字词发音即为组合成字词的各个音素的组合发音。

步骤103，从目标字词库中获取原始字词发音对应的目标字词发音，目标字词库中存储有第二对象对各个字词的字词发音，目标字词发音与原始字词发音匹配。

在一种可能的实施方式中，终端存储有第二对象的字词库，该字词库是根据对第二对象进行语音识别得到的。在建立第二对象的字词库的过程中，同样的，终端获取第二对象的语音语料，通过语音识别得到各段语音语料的发音序列，从而将发音序列按照字词进行拆分，从而生成了包含第二对象对各个字词的字词发音的字词库。

可选的，终端存储有对应不同第二对象的多个字词库，其中，各个第二对象对应至少一个字词库。终端根据用户对第二对象的选择从多个字词库中确定出目标字词库。

进一步的，从目标字词库中获取原始字词发音对应的目标字词发音，目标字词发音与原始字词发音匹配。在一种可能的实施方式中，终端根据各个原始字词发音从目标字词库中获取与各个原始字词发音所匹配的目标字词发音。在判断目标字词发音与原始字词发音是否匹配的过程中，至少需要判断的内容为：判断目标字词对应的基音是否与原始字词发音对应的基音一致或相近(包括判断各个基音之间的组合顺序是否为一致或相近)；判断目标字词发音对应的时长是否与原始字词发音对应的时长一致或相近。需要说明的是，基于不同用户对语音合成的不同精准度要求，本申请实施例对上述针对需要判断的内容并不作限制。

步骤104，对各个目标字词发音进行拼接，生成目标发音序列。

可选的，从目标字词库中获取原始字词发音对应的目标字词发音的过程中，是终端按照各个原始字词发音在原始发音序列中的顺序进行的，因此，终端所获取的各个目标字词发音在拼接时也按照该顺序进行拼接，完成拼接后的发音序列即为目标发音序列。

其中，终端可以是从目标字词库中顺序获取原始字词发音对应的目标字词发音，则终端在完成第二个目标字词发音的获取时便实现与第一个目标字词发音的拼接，以此类推，最终完成拼接并生成目标发音序列；可选的，终端也可以是并行获取原始字词发音对应的目标字词发音，并在获取后，按照原始字词发音位于原始发音序列的顺序对各个目标字词发音进行排序，并将排序好的各个目标字词发音进行拼接，生成目标发音序列。

步骤105，根据目标发音序列合成目标语音，目标语音具有第二对象的声音特征。

在一种可能的实施方式中，终端获取与各个目标字词发音对应的语音片段，并按照目标发音序列的顺序将各个语音片段拼接，最终得到一段目标语音，由于目标语音来自于第二对象的语音语料，因此，目标语音具有第二对象的声音特征。

在另一种可能的实施方式中，终端通过语音合成工具合成目标语音，且所使用的语音合成工具为基于参数合成的语音合成工具，所需输入的参数为第一对象的声音特征，以及第二对象的声音特征，声音特征可以是音高、音长、发音、频谱包络以及非周期特征等相关特征中的至少一种。

在上述内容已提及，在本申请各个实施例中，语音合成工具为world语音合成工具为例进行示例性的说明，world语音合成工具是一种基于三种参数输入的语音合成工具，该三个参数包括第一对象语音语料的音高，以及第二对象语音语料的频谱包络和非周期特征。

可选的，终端获取与各个目标字词发音对应的语音片段，并按照目标发音序列的顺序将各个语音片段拼接，最终得到一段待处理语音；接着，终端通过world语音分析工具对该段待处理语音进行特征提取，即提取该段待处理语音的频谱包络和非周期特征；此外，终端还通过world语音分析工具对原始语音进行特征提取，得到原始语音的在各帧处的音高；最终，终端将原始语音各帧处的音高以及待处理语音的频谱包络和非周期特征输入world语音分析工具，world语音分析工具将各个参数进行合成，并得到目标语音。由于目标语音是根据第二对象待处理语音的频谱包络和非周期特征、以及第一对象原始语音在各帧处的音高合成的，因此，目标语音具有第二对象的声音特征。同时，基于目标语音所具备的原始语音的音高特征，使得目标语音能够很好地呈现原始语音的流畅度，且目标语音听起来也比较自然。

综上所述，本申请实施例中，终端对原始语音进行语音识别得到原始发音序列，并根据原始发音序列中的原始字词发音从目标字库中获取目标字词发音，目标字词发音在一定顺序下拼接成为目标发音序列，进一步的，终端根据目标发音序列生成目标语音。基于本申请实施例提供的语音合成方法，可直接利用第二对象的声音特征来实现目标语音的合成，在简化语音合成过程的同时，提高了语音合成的准确性，且目标语音具备原始语音的音高特征，使得目标语音能够很好地呈现原始语音的流畅度，且目标语音听起来也比较自然。

上述实施例中，终端对原始语音进行语音识别时，语音识别的结果为得到原始语音对应的原始发音序列。在本申请实施例中，语音识别的结果中还包括原始字词发音对应的原始音长和原始音高中的至少一种。

可选的，在各个字词库中，存储有第二对象对应同一字词的不同字词发音，各个不同的字词发音在发音上是准确的(即由一致的音素组成的字词发音)，但区别在于发音的时长和发音的音高。示意性的，如图2所示，其示出了一段时长为10s原始语音，终端设定20ms为一帧信号长度，在进行分帧处理后，该段原始语音由T0帧信号至T499帧信号组成，其中，音素m1包括了14帧帧信号的时长，而音素m2包括了8帧帧信号的时长，即音素在发音时是有不同发音时长的。那么，对于同一个字词，第二对象在不同场合说出时也会有发音时长的不同。

因此，在一种可能的实施方式中，终端可根据原始字词发音对应的原始音长和原始音高中的至少一种，在目标字库中的多个候选字词发音中，将匹配度最高的字词发音确定为目标字词发音。

请参考图3，其示出了本申请另一示例性实施例提供的语音合成方法的流程图。该方法包括：

步骤301，获取第一对象的原始语音。

本步骤请参考步骤101，本申请实施例在此不再赘述。

步骤302，对原始语音进行语音识别，得到原始语音对应的原始发音序列，原始发音序列中包括原始语音中各个字词的原始字词发音。

本步骤请参考步骤102，本申请实施例在此不再赘述。

步骤303，确定原始字词发音与目标字词库中各个字词发音的发音匹配度。

对于终端从目标字词库中获取与原始字词发音对应的目标字词发音而言，最低判断标准为该目标字词发音的发音是准确的，即目标字词发音是由原始字词发音包含的音素组成的，且各音素的排列顺序一致。

在一种可能的实施方式中，将原始字词发音与目标字词库中各个字词发音的音素匹配作为判断两者间发音匹配度的依据。

在一个示例中，原始字词发音为wo，则包含w和o这两个音素，且音素w排列在音素o的前面。则终端按照包含w和o这两个音素以及音素w排列在音素o的前面的判断标准从目标字词库中获取至少一个满足判断标准的字词发音。符合该判断标准的字词发音即满足最高发音匹配度。如目标字词库中包含有wo和wa，wo的发音匹配度大于wa的发音匹配度。

步骤304，根据发音匹配度从目标字词库中确定出至少一个候选字词发音。

终端根据发音匹配度从目标字词库中确定出至少一个候选字词发音，该候选字词发音对应的发音匹配度高于其他字词发音对应的发音匹配度。在一个示例中，终端将处于最高发音匹配度的字词发音确定为候选字词发音。若目标字词库中不包含有最高发音匹配度的字词发音，则按照发音匹配度的高低顺序依次获取当前最高发音匹配度的字词发音。所确定出的字词发音即为候选字词发音。

步骤305，从至少一个候选字词发音中确定目标字词发音。

可选的，本申请实施例中，语音识别的结果中还包括原始字词发音对应的原始音长和原始音高中的至少一种。

为了充分利用原始语音的语音识别的结果并提高获取目标字词发音的准确性，在一种可能的实施方式中，通过原始字词发音对应的原始音长和原始音高中的至少一种候选字词发音中确定出目标字词发音。

在一种可能的实施方式中，步骤305包括如下内容。

一、获取候选字词发音对应的候选音长和候选音高。

对于各个候选字词发音而言，其所组成的音素是与对应原始字词发音一致的。

在一个示例中，原始字词发音为wo，且音素w包括了5帧帧信号的时长，音素o包括了4帧帧信号的时长，对应的，终端根据发音匹配度从目标字词库中获取了三个候选字词发音，各个候选发音都为wo。

不同的是，第一候选字词发音中，音素w包括了5帧帧信号的时长，音素o包括了3帧帧信号的时长；第二候选字词发音中，音素w包括了10帧帧信号的时长，音素o包括了3帧帧信号的时长；第三候选字词发音中，音素w包括了8帧帧信号的时长，音素o包括了7帧帧信号的时长。虽然候选字词发音的音素是与原始字词发音的音素一致的，但各个音素的发音时长各不相同。

因此，在一种可能的实施方式中，终端获取候选字词发音对应的候选音长，并通过比较候选音长与原始音长，得出候选音长与原始音长的音长匹配度，其中，候选音长与原始音长的差值越小，则候选音长与原始音长的音长匹配度越高。如上述示例中，第一候选字词发音与原始音长的音长匹配度最高。

此外，原始字词发音与目标字词发音的音高是否匹配也是本申请实施例获取目标字词发音的重要因素。其中，音高是由语音信号的震动频率决定的。震动频率越高，则音高越高；震动频率越低，则音高越低。

在语音识别技术中，音高是构成语音的要素之一。字词音高变化的不同引起声调不同，有区别词义的作用，如“肖”(音高不变)、“淆”(音高上升)、“小”(音高先下降后上升)、“笑”(音高下降)。如汉语所使用的普通话的音高变化不同，形成了普通话的四个声调。

在一个示例中，原始字词发音为wo，音高先下降后上升。对应的，终端根据发音匹配度从目标字词库中获取了三个候选字词发音，各个候选发音都为wo。

不同的是，第一候选字词发音中，音高不变；第二候选字词发音中，音高下降；第三候选字词发音中，音高先下降后上升。虽然候选字词发音的音素是与原始字词发音的音素一致的，但候选字词发音的音高变化各不相同。

因此，在一种可能的实施方式中，终端获取候选字词发音对应的候选音高，并通过比较候选音高的变化与原始音高的变化，得出候选音高与原始音高的音高匹配度。如上述示例中，第三候选字词发音与原始音长的音长匹配度最高。

因此，终端在从候选字词发音中确定目标字词发音之前，执行获取候选字词发音对应的候选音长和候选音高的内容。

二、根据候选音长与原始音长的音长匹配度，和，候选音高与原始音高的音高匹配度中的至少一种，从候选字词发音中确定目标字词发音。

可选的，终端根据候选音长与原始音长的音长匹配度，和，候选音高与原始音高的音高匹配度中的至少一种，从候选字词发音中确定目标字词发音。

如，各个候选字词发音的候选音高的变化与原始字词发音的原始音高的变化一致，或，都不与原始字词发音的原始音高的变化一致，则终端根据候选音长与原始音长的音长匹配度，从候选字词发音中确定目标字词发音。

如，当终端根据候选音高与原始音高的音高匹配度，从候选字词发音中确定出的目标字词发音不止一个，则终端继续根据候选音长与原始音长的音长匹配度，从多个目标字词发音中确定出最匹配的目标字词发音。

又如，当终端根据候选音长与原始音长的音长匹配度，从候选字词发音中确定出的目标字词发音不止一个，则终端继续根据候选音高与原始音高的音高匹配度，从多个目标字词发音中确定出最匹配的目标字词发音。

步骤306，对各个目标字词发音进行拼接，生成目标发音序列。

本步骤请参考步骤104，本申请实施例在此不再赘述。

步骤307，根据目标发音序列合成目标语音，目标语音具有第二对象的声音特征。

本步骤请参考步骤105，本申请实施例在此不再赘述。

本申请实施例中，语音识别的结果中还包括原始字词发音对应的原始音长和原始音高中的至少一种，终端可根据原始字词发音对应的原始音长和原始音高中的至少一种，在目标字库中的多个候选字词发音中，将匹配度最高的字词发音确定为目标字词发音；在比对发音匹配度的基础上，通过比对候选字词发音的音长匹配度、音高匹配度中的至少一种，以实现提高获取目标字词发音的准确性，进而提高目标语音的真实性。

请参考图4，其示出了本申请另一个示例性实施例提供的语音合成方法的流程图。该方法包括：

步骤401，获取第二对象的语音语料。

可选的，第二对象可以是一个，或多个。

语音语料的获取对象可以是终端获取，如访问终端的本地资源，又如通过联网功能访问互联网资源；可选的，语音语料的获取对象还可以是人工获取，如利用人工劳动力采集与第二对象相关的语音语料。

在获取第二对象的语音语料时，其获取方式根据第二对象的类别设定。可选的，第二对象可以是位于第一对象交际网内的对象，如朋友，家人等；可选的，第二对象可以是活跃社交媒体的对象，如歌手，演员等；可选的，第二对象可以是虚拟对象，如动漫人物，游戏角色等。

在一个示例中，当第二对象是位于第一对象交际网内的对象时，则终端实施监测第一对象与第二对象之间的信息交互，如语音电话，微信语音等，并将监测得到的语音语料通过分字分词算法建立包含该第二对象所有字词的字词库。

在另一个示例中，当第二对象是活跃社交媒体的对象时，则终端通过访问互联网资源获取该第二对象的语音语料，如歌手的歌曲作品，演员的影视作品等，并将语音语料通过分字分词算法建立包含该第二对象所有字词的字词库；可选的，也可以采用人工获取方式，通过人工劳动力收集第二对象的语音语料，并对语音语料进行裁剪与分字处理，从而人工建立包含该第二对象所有字词的字词库。

可选的，上述第二对象可能的类别仅是举例说明，并不对本申请中的第二对象造成限定。

步骤402，从语音语料中提取第二对象对各个字词的字词发音、音长以及音高。

在上述实施例已说明，可选的，本申请通过world语音分析工具来获取语音信号的部分声音特征。

在一种可能的实施方式中，通过语音识别获取各个字词的字词发音与音长，其中，音长即为对应字词所占的帧信号的长度，如该字词占有50帧帧信号，每一帧信号为20ms，则该字词的音长为1s。

在一种可能的实施方式中，终端或人工将字词库中所存储的字词语音输入至world语音分析工具，world语音分析工具分析出各个字词语音对应的音高。

步骤403，将提取到的字词发音、音长以及音高关联存储至目标字词库。

在一种可能的实施方式中，在建立第二对象字词库时，根据语音语料的产生场景来为第二对象建立至少一个与场景相关的字词库。

在一个示例中，第二对象包括对应对话场景的字词库，对应演唱场景的字词库，以及对应演讲场景的字词库。当world语音分析工具分析出各个字词语音对应的字词发音、音长以及音高后，终端或者人工将分析得到的声音特征存储于对应的字词库中。

如，world语音分析工具完成一段歌唱语音片段的特征提取，终端或人工将所提取的声音特征(各个字词语音对应的字词发音、音长以及音高)存储至对应演唱场景的字词库，则该演唱场景的字词库即为目标字词库。

步骤404，获取第一对象的原始语音。

本步骤请参考步骤101，本申请实施例在此不再赘述。

步骤405，对原始语音进行语音识别，得到原始语音对应的原始发音序列，原始发音序列中包括原始语音中各个字词的原始字词发音。

本步骤请参考步骤102，本申请实施例在此不再赘述。

可选的，步骤404之后，步骤405与步骤406至步骤407并行执行，或者，步骤405与步骤406至步骤407顺序执行，且先后顺序不作限定。

步骤406，获取原始语音对应的语音类型。

由于第二对象的至少一个字词库是根据不同场景建立的。因此，在一种可能的实施方式中，终端或者人工对语音类型进行场景识别，语音类型用于指示产生原始语音的场景，场景包括对话场景、演唱场景和演讲场景中的至少一种。

步骤407，根据语音类型，从第二对象对应的至少两个字词库中确定目标字词库。

进一步的，在完成对原始语音进行场景识别后，根据场景识别结果确定出原始语音对应的语音类型，根据语音类型从第二对象对应的多个自字词库中确定出目标字词库，该目标字词库的对应的场景与当前原始语音的语音类型相匹配。其中，各个目标字词库根据属于语音类型的语音语料构建得到。

步骤408，从目标字词库中获取原始字词发音对应的目标字词发音，目标字词库中存储有第二对象对各个字词的字词发音，目标字词发音与原始字词发音匹配。

本步骤请参考步骤103，本申请实施例在此不再赘述。

步骤409，对各个目标字词发音进行拼接，生成目标发音序列。

本步骤请参考步骤104，本申请实施例在此不再赘述。

步骤410，提取目标发音序列对应的第一频谱包络，以及原始发音序列对应的第二频谱包络。

实际上，基于每个人说话实的速度、情绪等多样的影响因素，终端或人工是难以从目标字词库中获取与原始字词声音音素一致、时长一致和音高一致的目标字词声音的。

在一个示例中，针对包含“我爱祖国”字词的一段语音语料而言，原始发音序列包含有800帧帧信号，目标发音序列包含有1000帧帧信号，则目标发音序列下的语音时长要大于原始发音序列下的语音时长，较好的语音合成效果是在模仿第二对象声音特征的基础上保留第一对象的部分声音特征，如语速、连续变化的音高等，尤其是在实时语音合成场景下，若合成后的目标语音的语速不一致，极易造成通信的不流畅性。因此，若最终仅通过该目标发音序列作为目标语音，则所合成出的目标语音虽然符合第二对象的声音特征，但却不符合第一对象的语速。

针对上述问题，本申请实施例在合成目标语音之前，还包括序列匹配的过程，其中，提取目标发音序列对应的第一频谱包络，以及原始发音序列对应的第二频谱包络是进行序列匹配的预备工作。

步骤411，对第一频谱包络和第二频谱包络进行特征对齐，得到包络对齐后的目标发音序列。

可选的，该序列匹配可通过动态时间归整(Dynamic Time Warping，DTW)算法实现，DTW算法通过将时间序列进行延伸和缩短，来计算两个时间序列之间的相似性，实现将目标发音序列的序列长度调整为与原始发音序列一致或相近的时间序列。

DTW算法的实现是基于比较两个时间序列的特征值实现的。可选的，本申请实施例中，以向DTW算法中带入频谱包络值这一特征值为例进行示意性的说明。

其中，通过world语音分析工具获取原始发音序列在每一帧处的频谱包络值，并按时间戳将各个频谱包络值排列成为模板时间序列；相应的，通过world语音分析工具获取目标发音序列在每一帧处的频谱包络值，并按时间戳将各个频谱包络值排列成为测试时间序列。其中，测试时间序列即为目标发音序列的第一频谱包络，模板时间序列即为原始发音序列的第二频谱包络。

在一种可能的实施方式中，终端或人工通过world语音分析工具提取目标发音序列对应的第一频谱包络，以及原始发音序列对应的第二频谱包络，已完成DTW算法的特征值预备。

可选的，通过DTW算法对第一频谱包络和第二频谱包络进行特征对齐，得到包络对齐后的目标发音序列，目标发音序列在序列时长上与原始发音序列的序列时长一致。

步骤412，提取目标发音序列对应的目标频谱包络和非周期特征，目标频谱包络是经过包络对齐后的第一频谱包络。

在一种可能的实施方式中，基于world语音合成工具的使用规则，即通过合成原始发音序列的音高特征、目标发音序列的目标频谱包络和非周期特征，来实现目标语音的合成。因此，在合成目标语音之前，需完成对上述三个特征的获取。

可选的，通过DTW算法实现了目标发音序列与原始发音序列之间的序列匹配，使得语音合成后的目标语音符合第一对象的语速，尤其是在实时语音合成场景中，通过DTW算法实现的序列匹配，能够一定程度上保证实时通信的流畅性。

进一步的，终端通过world语音分析工具提取目标发音序列对应的目标频谱包络和非周期特征，目标频谱包络是经过包络对齐后的第一频谱包络，即目标频谱包络在DTW算法下实现序列匹配后的第一频谱包络。

其中，目标发音序列的非周期特征也是实现匹配对齐后的非周期特征。通过DTW算法实现对第一频谱包络进行匹配对齐，并得到目标频谱包络，在此过程中，目标发音序列的频谱包络已由第一频谱包络变为目标频谱包络。可选的，为了实现非周期特征的匹配对齐，可以获取第一频谱包络下的目标发音序列的非周期特征，与原始发音序列的非周期特征进行匹配对齐；可选的，为了实现非周期特征的匹配对齐，也可以获取目标频谱包络下的目标发音序列的非周期特征，由于目标频谱包络是匹配对齐后的频谱包络，所以目标频谱包络下的目标发音序列的非周期特征也是匹配对齐的，且该方法避免终端在完成对第一频谱包络的包络对齐后再次执行对非周期特征的匹配对齐过程。

步骤413，提取原始发音序列的音高特征。

可选的，基于语音合成过程的需要，终端通过world语音分析工具提取原始发音序列对应的音高特征。

步骤414，根据目标频谱包络、非周期特征和音高特征，合成目标语音。

可选的，本申请实施例通过原始发音序列的音高特征和目标发音序列的非周期特征以及经过包络对齐后的目标频谱包络来合成目标语音。

其中，音高已在上述内容介绍过，音高特征是由原始语音的震动频率决定的。震动频率越高，则音高越高；震动频率越低，则音高越低。

其中，目标频谱包络即为目标发音序列对应语音信号的语音频谱包络。语音信号是一个复杂的多频信号，各个频率成分具有不同的幅度，将不同频率的振幅最高点连接起来形成的曲线即为语音频谱包络，语音频谱包络在语音编码、语音识别、语音转换和语音合成等领域都有重要的作用。语音频谱包络的形状因人而异，即本申请实施例中提取的目标频谱包络能够代表第二对象的声音特征。目标频谱包络包括若干个峰和谷，其中，前三个共振峰包含了第二对象语音信号的大部分信息。

实际上，音高特征和目标频谱包络对应目标语音的周期特征部分的，对于合成一个完整的目标语音而言，非周期特征是必不可少的。

因此，在通过语音分析工具提取音高特征和目标频谱包络的基础上，还需要通过语音分析工具提取目标发音序列对应的语音信号的周期性特征。

可选的，本申请实施例选择world语音分析工具来完成上述声音特征的提取。且由于world语音分析工具与world语音合成工具是匹配应用的，world语音分析工具所提取的上述声音特征符合world语音合成工具的输入以及合成要求。

在一种可能的实施方式中，本申请各个实施例中，还包括对第一对象和第二对象的语音语料进行预处理的过程：对语音语料对应的语音信号进行预处理。可选的，本申请实施例中，预处理包括去均值处理、低通滤波处理和数值滤波处理中的至少一种，相应的，预处理用于消除非零均值以及噪声信号对语音信号的影响。进一步的，将经过预处理的语音信号进行语音识别以及特征提取，以实现本申请各个实施例中的语音合成方法。

在上述实施例的基础上，本申请实施例介绍了在语音合成之前还包括建立第二对象字词库的过程，且基于至少一个第二对象建立字词库，在建立字词库的过程中，还包括根据第二对象的语音语料的产生场景来为第二对象建立至少一个与场景相关的字词库，使得从目标字词库中获取的目标发音序列更符合原始发音序列的语音场景，进一步提高了目标语音的合成效果；此外，在进行语音合成之前，还包括序列匹配，即对第一频谱包络进行包络对齐，得到包络对齐后的目标频谱包络，使得最终合成的目标语音在符合第二对象声音特征的同时，还能够满足第一对象的原始语音的语速变化。同时，基于目标语音所具备的原始语音的音高特征，使得目标语音能够很好地呈现原始语音的流畅度，且目标语音听起来也比较自然。

请参考图5，其示出了本申请一示例性实施例提供的语音合成装置的结构框图，所述装置包括：

语音获取模块501，用于获取第一对象的原始语音；

语音识别模块502，用于对所述原始语音进行语音识别，得到所述原始语音对应的原始发音序列，所述原始发音序列中包括所述原始语音中各个字词的原始字词发音；

发音获取模块503，用于从目标字词库中获取所述原始字词发音对应的目标字词发音，所述目标字词库中存储有第二对象对各个字词的字词发音，所述目标字词发音与所述原始字词发音匹配；

发音拼接模块504，用于对各个所述目标字词发音进行拼接，生成目标发音序列；

语音合成模块505，用于根据所述目标发音序列合成目标语音，所述目标语音具有所述第二对象的声音特征。

可选的，所述发音获取模块503，包括：

第一确定单元，用于确定所述原始字词发音与所述目标字词库中各个字词发音的发音匹配度；

第二确定单元，用于根据所述发音匹配度从所述目标字词库中确定出至少一个候选字词发音，所述候选字词发音对应的发音匹配度高于其他字词发音对应的发音匹配度；

第三确定单元，用于从至少一个所述候选字词发音中确定所述目标字词发音。

可选的，所述语音识别的结果中还包括所述原始字词发音对应的原始音长和原始音高中的至少一种；

可选的，所述第三确定单元，还用于：

获取所述候选字词发音对应的候选音长和候选音高；

根据所述候选音长与所述原始音长的音长匹配度，和，所述候选音高与所述原始音高的音高匹配度中的至少一种，从所述候选字词发音中确定所述目标字词发音。

可选的，所述装置还包括：

第一获取模块，用于获取所述第二对象的语音语料；

第一提取模块，用于从所述语音语料中提取所述第二对象对各个字词的字词发音、音长以及音高；

关联存储模块，用于将提取到的字词发音、音长以及音高关联存储至所述目标字词库。

可选的，所述装置还包括：

第二提取模块，用于提取所述目标发音序列对应的第一频谱包络，以及所述原始发音序列对应的第二频谱包络；

特征对齐模块，用于对所述第一频谱包络和所述第二频谱包络进行特征对齐，得到包络对齐后的所述目标发音序列。

可选的，所述语音合成模块505，包括：

第一提取单元，用于提取所述目标发音序列对应的目标频谱包络和非周期特征，所述目标频谱包络是经过包络对齐后的所述第一频谱包络；

第二提取单元，用于提取所述原始发音序列的音高特征；

语音合成单元，用于根据所述目标频谱包络、所述非周期特征和所述音高特征，合成所述目标语音。

可选的，所述装置还包括：

第二获取模块，用于获取所述原始语音对应的语音类型，所述语音类型用于指示产生所述原始语音的场景，所述场景包括对话场景、演唱场景和演讲场景中的至少一种；

字词库确定模块，用于根据所述语音类型，从所述第二对象对应的至少两个字词库中确定所述目标字词库，所述目标字词库根据属于所述语音类型的语音语料构建得到。

请参考图6，其示出了本申请一示例性实施例提供的计算机设备600的结构方框图。该计算机设备600可以是便携式移动设备，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器。计算机设备600还可能被称为用户设备、便携式终端等其他名称。

通常，计算机设备600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是有形的和非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本申请中提供的计算机设备600的语音合成方法。

在一些实施例中，计算机设备600还可选包括有：外围设备接口603和至少一个外围设备。具体地，外围设备包括：射频电路604、触摸显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它计算机设备进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

触摸显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。触摸显示屏605还具有采集在触摸显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。触摸显示屏605用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，触摸显示屏605可以为一个，设置计算机设备600的前面板；在另一些实施例中，触摸显示屏605可以为至少两个，分别设置在计算机设备600的不同表面或呈折叠设计；在一些实施例中，触摸显示屏605可以是柔性显示屏，设置在计算机设备600的弯曲表面上或折叠面上。甚至，触摸显示屏605还可以设置成非矩形的不规则图形，也即异形屏。触摸显示屏605可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头用于实现视频通话或自拍，后置摄像头用于实现照片或视频的拍摄。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能，主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607用于提供用户和计算机设备600之间的音频接口。音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在计算机设备600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位计算机设备600的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源609用于为计算机设备600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，计算机设备600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以计算机设备600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测计算机设备600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对计算机设备600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在计算机设备600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在计算机设备600的侧边框时，可以检测用户对计算机设备600的握持信号，根据该握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时，可以根据用户对触摸显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，以根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置计算机设备600的正面、背面或侧面。当计算机设备600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制触摸显示屏605的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏605的显示亮度；当环境光强度较低时，调低触摸显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在计算机设备600的正面。接近传感器616用于采集用户与计算机设备600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与计算机设备600的正面之间的距离逐渐变小时，由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与计算机设备600的正面之间的距离逐渐变大时，由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对计算机设备600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

所述存储器中存储有至少一条指令，所述至少一条指令经配置以由一个或者一个以上处理器执行，以实现上述语音合成方法中各个步骤的功能。

本申请实施例还提供一种计算机可读存储介质，该存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上述各个实施例提供的语音合成方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

获取第一对象的原始语音；

对各个所述目标字词发音进行拼接，生成目标发音序列；

2.根据权利要求1所述的方法，其特征在于，所述从目标字词库中获取所述原始字词发音对应的目标字词发音，包括：

确定所述原始字词发音与所述目标字词库中各个字词发音的发音匹配度；

根据所述发音匹配度从所述目标字词库中确定出至少一个候选字词发音，所述候选字词发音对应的发音匹配度高于其他字词发音对应的发音匹配度；

从至少一个所述候选字词发音中确定所述目标字词发音。

3.根据权利要求2所述的方法，其特征在于，所述语音识别的结果中还包括所述原始字词发音对应的原始音长和原始音高中的至少一种；

所述从至少一个所述候选字词发音中确定所述目标字词发音，包括：

获取所述候选字词发音对应的候选音长和候选音高；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取所述第二对象的语音语料；

从所述语音语料中提取所述第二对象对各个字词的字词发音、音长以及音高；

将提取到的字词发音、音长以及音高关联存储至所述目标字词库。

5.根据权利要求1至4任一所述的方法，其特征在于，所述根据所述目标发音序列合成目标语音之前，所述方法还包括：

提取所述目标发音序列对应的第一频谱包络，以及所述原始发音序列对应的第二频谱包络；

对所述第一频谱包络和所述第二频谱包络进行特征对齐，得到包络对齐后的所述目标发音序列。

6.根据权利要求5所述的方法，其特征在于，所述根据所述目标发音序列合成目标语音，包括：

提取所述目标发音序列对应的目标频谱包络和非周期特征，所述目标频谱包络是经过包络对齐后的所述第一频谱包络；

提取所述原始发音序列的音高特征；

根据所述目标频谱包络、所述非周期特征和所述音高特征，合成所述目标语音。

7.根据权利要求1至4任一所述的方法，其特征在于，所述从目标字词库中获取所述原始字词发音对应的目标字词发音之前，所述方法还包括：

获取所述原始语音对应的语音类型，所述语音类型用于指示产生所述原始语音的场景，所述场景包括对话场景、演唱场景和演讲场景中的至少一种；

根据所述语音类型，从所述第二对象对应的至少两个字词库中确定所述目标字词库，所述目标字词库根据属于所述语音类型的语音语料构建得到。

8.一种语音合成装置，其特征在于，所述装置包括：

语音获取模块，用于获取第一对象的原始语音；

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如权利要求1至7任一所述的语音合成方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令，所述至少一条指令用于被处理器执行以实现如权利要求1至7任一所述的语音合成方法。