CN113808576A

CN113808576A - 语音转换方法、装置及计算机系统

Info

Publication number: CN113808576A
Application number: CN202010549934.6A
Authority: CN
Inventors: 赵胜奎; 阮忠孝; 王昊; 马斌
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2021-12-17

Abstract

本申请实施例公开了语音转换方法、装置及计算机系统，所述方法包括：从源发音者关联的源语音文件中提取语音后验图谱PPG特征序列；将所述PPG特征序列输入到预先训练获得的声学特征合成模型中，获得目标发音者对应的声学特征序列；其中，所述声学特征合成模型是利用所述目标发音者对应的训练语料训练获得的；在所述声学特征合成模型中，针对输入的PPG特征序列的编码结果的每一帧分别进行解码输出；根据所述目标发音者对应的声学特征序列生成目标语音文件。通过本申请实施例，能够更好的支持跨语言的语音转换，并提高语音转换效率。

Description

语音转换方法、装置及计算机系统

技术领域

本申请涉及语音转换技术领域，特别是涉及语音转换方法、装置及计算机系统。

背景技术

语音转换的基本任务是在保持说话内容的基础上，改变源发音者的声音特征，使之听起来像目标发音者的音色。

现有技术中存在一些语音转换系统，例如，一种系统中的做法是，首先将源发音者的说话语音进行录制，然后转换成文本，再将文本结合特定人的语音特征信息进行合成，再将合成的语音通过扬声器进行播放。该方案虽然能够实现语音转换，但是由于需要转换成文本，再从文本转换成目标发音者的声音，因此，在转换过程中可能会将源发音者在说话过程中的韵律等信息丢失，以至于转换后的语音不够生动自然。另外，由于转换过程中所用的文本信息是与语言相关的，并且，并且不同语言间文本信息无法通用，因此，限制了其跨语言语音转换的功能。例如，某发音者A是以中文为母语，发音者B以英文为母语，系统里收集到的数据中，与发音者A相关的都是该发音者A的中文语音，与发音者B相关的都是发音者B的英文语音。此时，如果想将发音者B用英文录制的一段语音转换为发音者A的声音进行输出，也即让这段语音听上去像是发音者A说的一段英文，则用现有技术的方案实现时，可能会出现无法转换成功的现象。

因此，如何更有效地实现语音转换，成为需要本领域技术人员解决的技术问题。

发明内容

本申请提供了语音转换方法、装置及计算机系统，能够更好的支持跨语言的语音转换，并提高语音转换效率。

本申请提供了如下方案：

一种语音转换方法，包括：

从源发音者关联的源语音文件中提取语音后验图谱PPG特征序列；

将所述PPG特征序列输入到预先训练获得的声学特征合成模型中，获得目标发音者对应的声学特征序列；其中，所述声学特征合成模型是利用所述目标发音者对应的训练语料训练获得的；在所述声学特征合成模型中，针对输入的PPG特征序列的编码结果的每一帧分别进行解码输出；

根据所述目标发音者对应的声学特征序列生成目标语音文件。

一种建立语音库的方法，包括：

获取源发音者关联的源语音文件，以及根据目标发音者的训练语料训练获得的声学特征合成模型以及声码器模型；

将所述PPG特征序列输入到所述声学特征合成模型中，获得目标发音者的声学特征序列；在所述声学特征合成模型中，针对输入的PPG特征序列编码结果的每一帧分别进行解码输出；

将所述目标发音者的声学特征序列输入到所述声码器模型中生成目标语音文件；

将所述目标语音文件添加到语音库中。

一种生成语音文件的方法，包括：

确定目标文本；

根据所述目标文本进行语音合成，获得第一语音文件；

从所述第一语音文件中提取PPG特征序列；

根据所述目标发音者对应的声学特征序列生成具有所述目标发音者声学特征的第二语音文件。

一种跨语言的语音转换方法，包括：

对第一语音文件进行文本识别，获得第一文本文件，其中，所述第一文本文件对应第一语言；

将所述第一文本文件翻译为第二文本文件，其中，所述第二文本文件对应第二语言；

根据第二目标文本进行语音合成，获得第二语音文件；

从所述第二语音文件中提取PPG特征序列；

根据所述目标发音者对应的声学特征序列，生成具有所述目标发音者声学特征的第三语音文件。

一种基于虚拟人物提供视频内容的方法，包括：

确定视频内容关联的目标虚拟人物，并根据目标虚拟人物对应的训练语料训练获得声学特征合成模型；

确定所述视频内容关联的语音信息；

从所述语音信息中提取PPG特征序列；

将所述PPG特征序列输入到所述声学特征合成模型中，获得目标虚拟人物对应的声学特征序列，其中，在所述声学特征合成模型中，针对输入的PPG特征序列的编码结果的每一帧分别进行解码输出；

根据所述目标虚拟人物对应的声学特征序列，生成具有所述目标虚拟人物声学特征的目标语音信息。

一种提供客户服务信息的方法，包括：

在通过语音方式提供客户服务的过程中，确定关联的语音信息；

从所述语音信息中提取PPG特征序列；

根据所述目标发音者对应的声学特征序列，生成具有所述目标发音者声学特征的目标语音信息，以便利用所述目标语音信息提供客户服务。

一种即时通信方法，包括：

在通过语音的方式进行即时通信对话的过程中，接收用户的语音信息；

从所述语音信息中提取PPG特征序列；

根据所述目标发音者对应的声学特征序列，生成具有所述目标发音者声学特征的目标语音信息；

将所述目标语音信息发送到参与所述即时通信对话的其他用户客户端。

一种语音转换方法，包括：

接收针对源语音文件进行语音转换的请求，并提供可选的发音者的信息；

根据被选中的发音者确定目标发音者；

将所述PPG特征序列输入到预先训练获得的声学特征合成模型中，获得所述目标发音者对应的声学特征序列；其中，所述声学特征合成模型是利用所述目标发音者对应的训练语料训练获得的；在所述声学特征合成模型中，针对输入的PPG特征序列的编码结果的每一帧分别进行解码输出；

根据所述目标发音者对应的声学特征序列，生成具有所述目标发音者声学特征的目标语音信息。

一种语音转换装置，包括：

第一PPG特征序列提取单元，用于从源发音者关联的源语音文件中提取语音后验图谱PPG特征序列；

第一声学特征序列获得单元，用于将所述PPG特征序列输入到预先训练获得的声学特征合成模型中，获得目标发音者对应的声学特征序列；其中，所述声学特征合成模型是利用所述目标发音者对应的训练语料训练获得的；在所述声学特征合成模型中，针对输入的PPG特征序列的编码结果的每一帧分别进行解码输出；

第一生成单元，用于根据所述目标发音者对应的声学特征序列生成目标语音文件。

一种建立语音库的装置，包括：

源语音文件获取单元，用于获取源发音者关联的源语音文件，以及根据目标发音者的训练语料训练获得的声学特征合成模型以及声码器模型；

第二PPG特征序列提取单元，用于从源发音者关联的源语音文件中提取语音后验图谱PPG特征序列；

第二声学特征序列获得单元，用于将所述PPG特征序列输入到所述声学特征合成模型中，获得目标发音者的声学特征序列；在所述声学特征合成模型中，针对输入的PPG特征序列编码结果的每一帧分别进行解码输出；

第二生成单元，用于将所述目标发音者的声学特征序列输入到所述声码器模型中生成目标语音文件；

文件添加单元，用于将所述目标语音文件添加到语音库中。

一种生成语音文件的装置，包括：

目标文本确定单元，用于确定目标文本；

第一语音文件获取单元，用于根据所述目标文本进行语音合成，获得第一语音文件；

第三PPG特征序列提取单元，用于从所述第一语音文件中提取PPG特征序列；

第三声学特征序列获得单元，用于将所述PPG特征序列输入到预先训练获得的声学特征合成模型中，获得目标发音者对应的声学特征序列；其中，所述声学特征合成模型是利用所述目标发音者对应的训练语料训练获得的；在所述声学特征合成模型中，针对输入的PPG特征序列的编码结果的每一帧分别进行解码输出；

第三生成单元，用于根据所述目标发音者对应的声学特征序列生成具有所述目标发音者声学特征的第二语音文件。

一种跨语言的语音转换装置，包括：

语音识别单元，用于对第一语音文件进行文本识别，获得第一文本文件，其中，所述第一文本文件对应第一语言；

文本翻译单元，用于将所述第一文本文件翻译为第二文本文件，其中，所述第二文本文件对应第二语言；

语音合成单元，用于根据第二目标文本进行语音合成，获得第二语音文件；

第四PPG特征序列提取单元，用于从所述第二语音文件中提取PPG特征序列；

第四声学特征序列获得单元，用于将所述PPG特征序列输入到预先训练获得的声学特征合成模型中，获得目标发音者对应的声学特征序列；其中，所述声学特征合成模型是利用所述目标发音者对应的训练语料训练获得的；在所述声学特征合成模型中，针对输入的PPG特征序列的编码结果的每一帧分别进行解码输出；

第四生成单元，用于根据所述目标发音者对应的声学特征序列，生成具有所述目标发音者声学特征的第三语音文件。

一种基于虚拟人物提供视频内容的装置，包括：

模型生成单元，用于确定视频内容关联的目标虚拟人物，并根据目标虚拟人物对应的训练语料训练获得声学特征合成模型；

语音信息确定单元，用于确定所述视频内容关联的语音信息；

第五PPG特征序列提取单元，用于从所述语音信息中提取PPG特征序列；

第五声学特征序列获得单元，用于将所述PPG特征序列输入到所述声学特征合成模型中，获得目标虚拟人物对应的声学特征序列，其中，在所述声学特征合成模型中，针对输入的PPG特征序列的编码结果的每一帧分别进行解码输出；

第五生成单元，用于根据所述目标虚拟人物对应的声学特征序列，生成具有所述目标虚拟人物声学特征的目标语音信息。

一种提供客户服务信息的装置，包括：

语音信息确定单元，用于在通过语音方式提供客户服务的过程中，确定关联的语音信息；

第六PPG特征序列提取单元，用于从所述语音信息中提取PPG特征序列；

第六声学特征序列获得单元，用于将所述PPG特征序列输入到预先训练获得的声学特征合成模型中，获得目标发音者对应的声学特征序列；其中，所述声学特征合成模型是利用所述目标发音者对应的训练语料训练获得的；在所述声学特征合成模型中，针对输入的PPG特征序列的编码结果的每一帧分别进行解码输出；

第六生成单元，用于根据所述目标发音者对应的声学特征序列，生成具有所述目标发音者声学特征的目标语音信息，以便利用所述目标语音信息提供客户服务。

一种即时通信装置，包括：

语音信息接收单元，用于在通过语音的方式进行即时通信对话的过程中，接收用户的语音信息；

第七PPG特征序列提取单元，用于从所述语音信息中提取PPG特征序列；

第七声学特征序列获得单元，用于将所述PPG特征序列输入到预先训练获得的声学特征合成模型中，获得目标发音者对应的声学特征序列；其中，所述声学特征合成模型是利用所述目标发音者对应的训练语料训练获得的；在所述声学特征合成模型中，针对输入的PPG特征序列的编码结果的每一帧分别进行解码输出；

第七生成单元，用于根据所述目标发音者对应的声学特征序列，生成具有所述目标发音者声学特征的目标语音信息；

发送单元，用于将所述目标语音信息发送到参与所述即时通信对话的其他用户客户端。

一种语音转换装置，包括：

选项提供单元，用于接收针对源语音文件进行语音转换的请求，并提供可选的发音者的信息；

目标发音者确定单元，用于根据被选中的发音者确定目标发音者；

第八PPG特征序列提取单元，用于从源发音者关联的源语音文件中提取语音后验图谱PPG特征序列；

第八声学特征序列获得单元，用于将所述PPG特征序列输入到预先训练获得的声学特征合成模型中，获得所述目标发音者对应的声学特征序列；其中，所述声学特征合成模型是利用所述目标发音者对应的训练语料训练获得的；在所述声学特征合成模型中，针对输入的PPG特征序列的编码结果的每一帧分别进行解码输出；

第八生成单元，用于根据所述目标发音者对应的声学特征序列，生成具有所述目标发音者声学特征的目标语音信息。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

在本申请实施例中，通过源语音文件中提取出的PPG特征转换成目标发音者的声学特征序列的方式，来进行语音转换，获得具有目标发音者声学特征(包括音色等)的目标语音文件。由于PPG特征中通常可以保留源语音文件中的声学信息，包括韵律信息、发音信息等，因此，可以使得生成的目标语音文件中也获得源语音文件中的韵律等信息，更加生动自然。另外，由于PPG特征是与语言无关的，因此，能够更好的支持跨语言的语音转换。再者，本申请实施例中在根据PPG特征转换获得目标发音者的声学特征序列时，使用的声学特征合成模型中，可以针对输入的PPG特征序列编码结果的每一帧分别进行解码输出，这样便不需要使用注意力机制，也即，不再需要针对每一帧编码结果分别进行注意力系数的计算，因此，可以提升转换的效率。

另外，由于不再使用注意力机制，每一次的解码过程不再依赖前一次的解码结果，因此，该模型结构还可以实现并行序列生成，运行一次模型便可以获得完整的声学特征序列，以进一步提升转换效率。

再者，在上述模型结构中，由于输入的PPG特征序列的长度与输出的声学特征序列的长度相等，因此，还可以方便地通过调整PPG特征序列长度的方式，对生成的目标语言进行改变语速的调整。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的系统架构的示意图；

图2是本申请实施例提供的第一方法的流程图；

图3是本申请实施例提供的第二方法的流程图；

图4是本申请实施例提供的第三方法的流程图；

图5是本申请实施例提供的第四方法的流程图；

图6是本申请实施例提供的第五方法的流程图；

图7是本申请实施例提供的第六方法的流程图；

图8是本申请实施例提供的第七方法的流程图；

图9是本申请实施例提供的第八方法的流程图；

图10是本申请实施例提供的第一装置的示意图；

图11是本申请实施例提供的第二装置的示意图；

图12是本申请实施例提供的第三装置的示意图；

图13是本申请实施例提供的第四装置的示意图；

图14是本申请实施例提供的第五装置的示意图；

图15是本申请实施例提供的第六装置的示意图；

图16是本申请实施例提供的第七装置的示意图；

图17是本申请实施例提供的第八装置的示意图；

图18是本申请实施例提供的计算机系统的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解本申请实施例，下面首先结合具体应用场景的例子对语音转换以及跨语言的语音转换的概念进行简单介绍。

应用场景一：输入法里提供的变声功能，用户在发送语音消息时，可以选择一个其他人(例如，某位名人等)的声音，另一端收到语音消息的人在播放语音消息时实际听到的是被选择的那个人的声音。

上述过程就用到了语音转换，将用户A的语音消息，转换为名人B的音色，让这段话听上去像是名人B说的。上述转换过程中通常是在娱乐等场景中使用，因此，通常不涉及跨语言，例如，上述例子中，用户A与名人B可能都是中国人，等等。此时，语音转换系统的输入输出分别是：

输入：源发音者A说出的源语音；

输出：转换为目标发音者B的音色的目标语音。

应用场景二：在电影配音场景中，比如演员A本人的母语为中文，但当电影需要该演员A说英文时，跨语言语音转换可以将一句英文配音演员B说的话替换成演员A的音色，从而产生演员A说英文的目标语音。

上述过程涉及到的跨语言的语音转换，这里需要说明的是，本申请实施例所述的跨语言的语音转换，并不涉及语言翻译的过程，不需要将输入的一段用中文表达的语言输出为用英文表达的语音，而是在同一种语言之间进行不同发音者的音色转换。也即，语音转换系统的输入与输出是同一种语言的语音，只是音色发生了变化。而所谓的跨语言的语音转换是指，目标发音者可能实际上并不会说某种语言，例如，某中国人并不会说英语，但是将一段英文的语音进行转换之后，使得这段语音具有了该中国人的音色，听上去就是该中国人说的这段英文语音。

应用场景三：同样是跨语言语音转换的场景，在建设多语言语音合成系统时，通常需要预先录制语音库，并且同一段文本，通常希望由同一个人使用多种语言分别进行录制，为了保证最终的语音合成效果，还会要求每种语言的发音都足够标准。但通常情况下，同一个人不太可能同时精通多种语言。此时，就可以通过跨语言语音转换，将多个人使用多种不同语言录制的声音，转换为同一个人的声音，进而使用这些声音进行多语言语音合成系统的建设。例如，需要使用用户A的声音获得中文、英文、日文、法文等多种语言的语音文件，但是，该用户A仅对中文精通，于是该用户A可以使用中文进行语音文件录制。同时可以找来精通英文的用户B录制英文语音，精通日文的用户C录制日文语音，精通法文的用户D录制法文语音，等等。之后，再通过语音转换系统，将用户B录制的英文语音转换为用户A的音色，类似的，将用户C录制的日文语音转换为用户A的音色，将用户D录制的法文语音转换为用户A的音色。这样，就可以得到该用户A的音色对应的英文、日文、法文等多种语言的语音文件。

总之，在进行跨语言的语音转换过程中，系统的输入输出分别是：

输入：源发音者使用X语言说出的源语音；

输出：转换为具有目标发音者的音色的、同样对应X语言的目标语音。

可见，无论是否进行跨语言的语音转换，语音转换系统的输入输出都是同一种语言的语音，期间不涉及翻译的过程。当然，无论是在娱乐场景还是相对正式的建语音库等场景中，在转换后，通常都需要保留源语音的韵律等信息，使得转换后的语音更生动自然。

本申请实施例就是针对具体的语音转换系统，提出了相应的解决方案，以期达到转换后的语音更生动自然，同时能够更好的支持跨语言转换的目的。具体的，在该方案中，参见图1，首先可以从源语言中提取PPG(语音后验图谱)特征，然后，再将该PPG特征输入到预先训练好的声学特征合成模型(可以是利用目标发音者的语料进行训练生成的)中，得到目标发音者的声学特征序列，最后再将目标发音者的声学特征序列转换为目标语音输出，即可得到具有目标发音者音色的语音文件。在在该方案中，由于把发音者相关的每一帧声学特征提取成与发音者不相关的语音后验图谱，并且该后验图谱通常可以保留源语音文件中的声学信息，比如韵律和发音信息等，因此，可以使得转换后的语音文件中也可以保留源语音中的韵律等信息，使得目标语音文件更生动自然。另外，由于每一帧的语音后验图谱与语言无关，因此，可以在不同发音者和不同语言之间通用，这样可以更好地实现跨语言的语音转换。当然，在具体实现时，由于在提取PPG特征的过程中可能会丢失一部分韵律信息，因此，在可选的方式中，还可以从源语音文件中提取基频信息，将其与PPG特征序列的编码结果进行连接后输入到解码器中，从而弥补韵律损失。

具体的，在上述方案中，声学特征合成模型可以有多种，例如，可以使用比较常见的基于编码器-注意力机制-解码器结构的模型。在该结构中，将PPG特征序列输入到编码器后，需要首先计算各帧编码结果的注意力系数，以判断需要在哪些帧对应的目标位置进行解码输出，之后，解码器就在这些目标位置进行解码输出，得到输出的声学特征序列。

但是，本申请发明人在实现本申请实施例的过程中发现，上述基于编码器-注意力机制-解码器结构的模型在机器翻译等应用中更适用，因为，在机器翻译过程中，输入与输出的序列长度通常是不相等的，因此，需要通过注意力机制来控制编码器在哪些位置上进行解码输出。在这种需要注意力机制的方案中，解码器每一次输出需要依赖上一次的输出结果，因此，模型每运行一次，只能得到一个输出结果，整个过程需要串行完成，这就使得整个转换过程需要花费很长的时间才能完成。

针对上述情况，在本申请实施例还提供了进一步的改进方案，在该方案中，考虑到声学特征模型的输入输出是同一种语言的语音文件，只是改变了音色，因此，可以在PPG编码结果的每一帧上都分别进行解码输出。这样，就不再需要注意力机制，可以采用编码器-解码器直连的模型结构，因此，可以提高效率。另外，该模型结构还可以实现并行序列生成，以进一步提升转换效率。再者，在上述模型结构中，还可以方便对生成的目标语言进行改变语速的调整。

下面对本申请实施例提供的具体实现方案进行详细介绍。

实施例一

首先，该实施例一提供了一种语音转换方法，参见图2，该方法具体可以包括：

S201：从源发音者关联的源语音中提取语音后验图谱PPG特征序列；

PPG是一个时间-类别矩阵，表示每个语音类别在一段音频的每个特定时间帧的后验概率，发音类别可以指单词，音素或senone(结合的上下文的三元音素或多元音素)。其中，所谓的后验概率是指在得到“结果”的信息后重新修正的概率，是“执果寻因”问题中的"果"。先验概率与后验概率有不可分割的联系，后验概率的计算通常要以先验概率为基础。具体的，事情还没有发生，要求这件事情发生的可能性的大小，是先验概率。事情已经发生，要求这件事情发生的原因是由某个因素引起的可能性的大小，是后验概率。先验概率不是根据有关自然状态的全部资料测定的，而只是利用现有的材料(主要是历史资料)计算的；后验概率使用了有关自然状态更加全面的资料，既有先验概率资料，也有补充资料。

其中，提取PPG特征序列的具体方式可以有多种，例如，其中一种方式下，可以首先从所述源语音中提取MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱)特征，然后，从所述MFCC特征中提取所述PPG特征。其中，在提取MFCC特征时，可以将所述源语音按照频率的不同分成宽度不等的片段，并将多个片段的能量进行叠加后去掉语言相关性，生成所述MFCC特征。

具体实现时，可以预先训练用于进行PPG特征提取的模型，通过该模型进行PPG特征的提取。具体的，PPG提取模型的训练可以使用语音识别系统的语音训练库，可以选用公开的语音库也可以使用不公开的语音库，首先从语音库提取MFCC声学特征和对齐的发音标注，然后使用Cross-Entropy Loss(交叉熵)等损失函数进行训练，使得PPG提取模型与发音者不相关。

S202：将所述PPG特征序列输入到预先训练获得的声学特征合成模型中，获得目标发音者的声学特征序列；其中，所述声学特征合成模型是利用所述目标发音者对应的训练语料训练获得的；在所述声学特征合成模型中，针对输入的PPG特征序列中的每一帧分别进行解码输出；

提取出的PPG特征序列可以输入到预先训练获得的声学特征合成模型中，其中，该模型可以是目标发音者对应的训练语料训练获得的，这样，便可以根据输入的PPG特征序列输出目标发音者的声学特征序列。具体的，声学特征合成模型的训练使用选定的目标发音者的语音库，首先从语音库通过PPG提取模型提取后验图谱特征，另外还可以提取基频特征，和LPCNet(将数字信号处理(DSP)和神经网络(NN)结合应用于语音合成中)声学特征。后验图谱特征和基频特征为网络的输入特征，LPCNet声学特征为网络的输出特征，使用MSELoss(均方误差损失函数)等模型进行网络训练。

其中，在本申请实施例中，为了能够提高转换的效率，在所述声学特征合成模型中，可以针对输入的PPG特征序列中的每一帧分别进行解码输出，这样就不需要注意力机制，也即，不需要判断需要在哪些帧的位置进行解码输出，直接对每一帧都进行解码输出即可。这样，可以使用编码器与解码器直连的模型结构来实现，由于不再需要进行针对每一帧的编码结果进行注意力系统的计算，因此，可以提高效率。

由于在不存在注意力机制的情况下，每一帧的输出并不依赖其他帧的解码结果，因此，可以实现并行序列生成。也就是说，可以将对所述PPG特征序列中的多帧数据进行并行处理。例如，将PPG特征序列的编码结果中的多帧数据并行输入到解码器中，这样，通过运行一次模型，即可生成目标发音者的声学特征序列。

另外，在上述模型结构中，由于在PPG编码结果的每一帧上都分别进行解码输出，因此，可以使得声学特征合成模型输出的声学特征序列的长度与输入的PPG特征序列的长度相等，这样，可以通过对所述PPG特征序列的长度进行调整，对生成的目标语言进行改变语速的调整。具体的，由于一帧的时间长度是固定的，对于同样的语音内容，如果语速提高，则语音文件的总时间会缩短，相应的，包含的帧数就会减少，因此，PPG序列长度会变短。而本申请实施例中，由于模型输出的声学特征序列的长度与PPG序列长度相等，因此，PPG序列长度的缩短，也会导致声学特征序列的缩短，从而改变输出的目标语音的语速。反之亦然。具体实现时，可以通过控制PPG序列中PPG特征的数量来控制PPG序列的长度，从而达到改变语速的目的。例如，在将源语音中提取出PPG序列后，如果将其中的部分PPG特征抽出，则剩余的PPG特征组成的序列将会缩短，对应着语速升高；相反，如果将其中部分PPG特征在对应的位置重复多次，则PPG特征组成的序列将会增长，对应着语速降低，等等。

需要说明的是，在具体实现时，虽然PPG特征能够保留源语音文件中的声学信息，包括韵律信息等，但是，仍然可能会损失包括韵律信息在内的部分声学信息。为此，在可选的实施方式中，还可以从源语音文件中提取出基频信息，在通过所述声学特征合成模型中的编码器获得所述PPG特征的编码结果后，可以将基频特征与PPG特征的编码结果进行连接，输入到声学特征合成模型中的解码器中进行解码输出。由于基频特征能够从一定程度上反应出源语音中的韵律等信息，因此，可以弥补所述PPG特征中损失的韵律信息。

另外，在具体实现时，在通过编码器与解码器直连的模型结构进行转换的过程中，为了提高训练效果，便于参数调整，编码器与解码器可以重合使用同一结构的网络层。例如，具体实现时，可以使用多层(例如，3层)一维的CNN(卷积神经网络)以及一层LSTM(长短期记忆网络)，等等。另外，解码器的后端还可以包括多层(例如，5层)的一维CNN网络，用于对解码器的输出进行增强或者弥补，以此提升输出的声学特征的准确度。

S203：根据所述目标发音者的声学特征序列生成目标语音。

在获得目标发音者的声学特征序列之后，可以生成具有目标发音者音色的目标语音。具体实现时，可以通过预先训练获得的声码器模型来完成上述生成目标语音的过程，该声码器模型也可以是根据目标发音者的语音语料进行训练生成的。例如，可以使用LPCNet声码器模型来实现，对LPCNet声码器模型的训练过程中，可以使用同一目标说话人的语音库，以LPCNet声学特征作为输入，语音的波形作为输出，使用MSE Loss(均方误差代价函数)等进行训练。

需要说明的是，在具体实现时，本申请实施例可能会涉及到PPG提取器，声学特征合成器，和LPCNet声码器这样三个模型，在具体实现时，可以分别对三个模型进行训练。其中，声学特征合成器和LPCNet声码器是与目标发音者相关的。所有模型训练完成后，把所有模型联通后，便可以进行语音转换。例如，给定需要转换的一句语音，并选定目标发音者的声学特征合成器和LPCNet声码器，首先从给定的一句语音提取出梅尔频谱系数特征(MFCC)和基频特征，使用PPG提取器从梅尔频谱系数特征提取出PPG特征，然后把PPG特征和基频特征串联起来一起输入到声学特征合成模块，生成LPCNet声学特征。最后，由LPCNet声码器把LPCNet声学特征合成具有目标发音者音色的目标语音文件。

总之，在本申请实施例中，通过源语音文件中提取出的PPG特征转换成目标发音者的声学特征序列的方式，来进行语音转换，获得具有目标发音者银色的目标语音文件，由于PPG特征中通常可以保留源语音文件中的声学信息，包括韵律信息、发音信息等，因此，可以使得生成的目标语音文件中也获得源语音文件中的韵律等信息，更加生动自然。另外，由于PPG特征是与语言无关的，因此，能够更好的支持跨语言的语音转换。再者，本申请实施例中在根据PPG特征转换获得目标发音者的声学特征序列时，使用的声学特征合成模型中，可以针对输入的PPG特征序列编码结果的每一帧分别进行解码输出，这样便不需要使用注意力机制，也即，不再需要针对每一帧编码结果分别进行注意力系数的计算，因此，可以提升转换的效率。

实施例二

该实施例二是针对一种具体的应用场景，提供了一种建立语音库的方法，参见图3，包括：

S301：获取源发音者关联的源语音文件，以及根据目标发音者的训练语料训练获得的声学特征合成模型以及声码器模型；

S302：从源发音者关联的源语音文件中提取语音后验图谱PPG特征序列；

S303：将所述PPG特征序列输入到所述声学特征合成模型中，获得目标发音者的声学特征序列；在所述声学特征合成模型中，针对输入的PPG特征序列编码结果的每一帧分别进行解码输出；

S304：将所述目标发音者的声学特征序列输入到所述声码器模型中生成目标语音文件；

S305：将所述目标语音文件添加到语音库中。

实施例三

该实施例三是针对另一种应用场景提供了一种生成语音文件的方法，在该场景中，是在已知一份文本文件的情况下，需要将其合成为语音文件，且需要具有目标发音者的声学特征。在这种情况下，可以首先将该文本文件转换为语音文件(不需要关注其音色等声学特征问题)，之后，再通过本申请实施例的方式，对合成获得的语音文件进行PPG特征提取，再生成目标发音者的声学特征序列，并最终生成具有所述目标发音者声学特征的语音文件。具体的，参见图4，该方法具体可以包括：

S401：确定目标文本；

S402：根据所述目标文本进行语音合成，获得第一语音文件；

S403：从所述第一语音文件中提取PPG特征序列；

S404：将所述PPG特征序列输入到预先训练获得的声学特征合成模型中，获得目标发音者对应的声学特征序列；其中，所述声学特征合成模型是利用所述目标发音者对应的训练语料训练获得的；在所述声学特征合成模型中，针对输入的PPG特征序列的编码结果的每一帧分别进行解码输出；

S405：根据所述目标发音者对应的声学特征序列生成具有所述目标发音者声学特征的第二语音文件。

其中，所述目标文本可以有多种，例如，可以包括待播出的新闻稿，或者目标视频内容的字幕文件，等等。

实施例四

该实施例四提供了一种跨语言的语音转换方法，也即，在某些场景中，可能需要将第一语言对应的第一语音文件，转换为第二语言对应的第二语音文件，且第二语音文件需要具有某指定发音者的音色等声学特征。例如，前文例子所述的电影配音场景等。此时，本申请实施例中可以首先将第一语音文件转换为第一文本，然后翻译为第二语言对应的第二文本，再通过语音合成的方式合成为第二语音文件。之后，再转换成具有目标发音者声学特征的第三语音文件。具体的，参见图5，该方法具体可以包括：

S501：对第一语音文件进行文本识别，获得第一文本文件，其中，所述第一文本文件对应第一语言；

S502：将所述第一文本文件翻译为第二文本文件，其中，所述第二文本文件对应第二语言；

S503：根据第二目标文本进行语音合成，获得第二语音文件；

S504：从所述第二语音文件中提取PPG特征序列；

S505：将所述PPG特征序列输入到预先训练获得的声学特征合成模型中，获得目标发音者对应的声学特征序列；其中，所述声学特征合成模型是利用所述目标发音者对应的训练语料训练获得的；在所述声学特征合成模型中，针对输入的PPG特征序列的编码结果的每一帧分别进行解码输出；

S506：根据所述目标发音者对应的声学特征序列，生成具有所述目标发音者声学特征的第三语音文件。

其中，所述第一语言与第二语言为不同语种。

或者，所述第一语言与第二语言为同一语种中的不同方言。

具体的，所述第一语音文件可以包括视频内容的配音文件。

其中，所述视频内容可以包括电影、电视剧集或纪录片。

实施例五

本申请实施例五提供了另一种应用场景，也即，在一些直播等场景中，可能会通过虚拟人物形象来提供直播内容，虚拟人物形象可以包括卡通人物或者一些知名人士的形象，等等，同时可能需要直播过程的具体的语音也与具体的虚拟人物形象对应。例如，以某卡通人物形象开直播的过程中，由于人们可能对该卡通人物的声音比较熟悉，因此，具体直播中的语音可能需要具有该卡通人物的音色，等等。此时，也可以根据本申请实施例提供的方案进行语音转换处理。具体的，该实施例五提供了一种基于虚拟人物提供视频内容的方法，参见图6，该方法具体可以包括：

S601：确定视频内容关联的目标虚拟人物，并根据目标虚拟人物对应的训练语料训练获得声学特征合成模型；

S602：确定所述视频内容关联的语音信息；

S603：从所述语音信息中提取PPG特征序列；

S604：将所述PPG特征序列输入到所述声学特征合成模型中，获得目标虚拟人物对应的声学特征序列，其中，在所述声学特征合成模型中，针对输入的PPG特征序列的编码结果的每一帧分别进行解码输出；

S605：根据所述目标虚拟人物对应的声学特征序列，生成具有所述目标虚拟人物声学特征的目标语音信息。

其中，所述视频内容包括直播内容。当然，也可以是非直播类的视频内容，例如，预先拍摄好的视频，并通过拍摄中或者拍摄后处理等方式，在其中添加了虚拟人物形象的内容，等等。

实施例六

该实施例六提供了具体的实现方案在客户服务场景下的应用。具体的，在一些客户服务系统中，可能会通过通话或者语音聊天等方式提供客户服务。为了使得客户服务的语音内容更容易被客户接受，或者带来更好的服务效果，可能需要将客户服务人员(包括真人或者机器人)的语音转换为某目标发音者的音色，等等。具体的，参见图7，该实施例六提供了一种提供客户服务信息的方法，该方法具体可以包括：

S701：在通过语音方式提供客户服务的过程中，确定关联的语音信息；

S702：从所述语音信息中提取PPG特征序列；

S703：将所述PPG特征序列输入到预先训练获得的声学特征合成模型中，获得目标发音者对应的声学特征序列；其中，所述声学特征合成模型是利用所述目标发音者对应的训练语料训练获得的；在所述声学特征合成模型中，针对输入的PPG特征序列的编码结果的每一帧分别进行解码输出；

S704：根据所述目标发音者对应的声学特征序列，生成具有所述目标发音者声学特征的目标语音信息，以便利用所述目标语音信息提供客户服务。

实施例七

该实施例七提供了具体的实现方案在即时通信场景下的应用。具体的，在用户以语音的方式与其他用户进行即时通信的过程中，出于娱乐等目的，可能会需要将自己的语音转换成其他某个发音者的音色，例如，某位名人的音色，等等。此时，就可以利用本申请实施例提供的方案进行语音转换。具体的，参见图8，该实施例七提供了一种即时通信方法，该方法具体可以包括：

S801：在通过语音的方式进行即时通信对话的过程中，接收用户的语音信息；

S802：从所述语音信息中提取PPG特征序列；

S803：将所述PPG特征序列输入到预先训练获得的声学特征合成模型中，获得目标发音者对应的声学特征序列；其中，所述声学特征合成模型是利用所述目标发音者对应的训练语料训练获得的；在所述声学特征合成模型中，针对输入的PPG特征序列的编码结果的每一帧分别进行解码输出；

S804：根据所述目标发音者对应的声学特征序列，生成具有所述目标发音者声学特征的目标语音信息；

S805：将所述目标语音信息发送到参与所述即时通信对话的其他用户客户端。

具体实现时，还可以提供多个可选的发音者的信息，并根据被选中的发音者确定所述目标发音者。

实施例八

在该实施例八中，在具体进行语音转换的过程中，还可以与用户进行交互，由用户选择具体将语音文件转换为哪个发音者的音色。具体的，该实施例八提供了一种语音转换方法，参见图9，该方法具体可以包括：

S901：接收针对源语音文件进行语音转换的请求，并提供可选的发音者的信息；

S902：根据被选中的发音者确定目标发音者；

S903：从源发音者关联的源语音文件中提取语音后验图谱PPG特征序列；

S904：将所述PPG特征序列输入到预先训练获得的声学特征合成模型中，获得所述目标发音者对应的声学特征序列；其中，所述声学特征合成模型是利用所述目标发音者对应的训练语料训练获得的；在所述声学特征合成模型中，针对输入的PPG特征序列的编码结果的每一帧分别进行解码输出；

S905：根据所述目标发音者对应的声学特征序列，生成具有所述目标发音者声学特征的目标语音信息。

在实际应用中，还可以包括其他多种具体的应用场景，这里不再一一列举。

关于前述实施例二至实施例八中的未详述部分，可以参见前述实施例一中的记载，这里不再赘述。

需要说明的是，本申请实施例中可能会涉及到对用户数据的使用，在实际应用中，可以在符合所在国的适用法律法规要求的情况下(例如，用户明确同意，对用户切实通知，等)，在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。

与实施例一相对应，本申请实施例还提供了一种语音转换装置，参见图10，该装置可以包括：

第一PPG特征序列提取单元1001，用于从源发音者关联的源语音文件中提取语音后验图谱PPG特征序列；

第一声学特征序列获得单元1002，用于将所述PPG特征序列输入到预先训练获得的声学特征合成模型中，获得目标发音者对应的声学特征序列；其中，所述声学特征合成模型是利用所述目标发音者对应的训练语料训练获得的；在所述声学特征合成模型中，针对输入的PPG特征序列的编码结果的每一帧分别进行解码输出；

第一生成单元1003，用于根据所述目标发音者对应的声学特征序列生成目标语音文件。

其中，第一PPG特征序列提取单元具体可以用于：

从所述源语音中提取梅尔频率倒谱MFCC特征，并从所述MFCC特征中提取所述PPG特征。

具体的，可以将所述源语音按照频率的不同分成宽度不等的片段，并将多个片段的音频能量进行叠加后生成所述MFCC特征。

另外，该装置还可以包括：

基频特征提取单元，用于从所述源语音中提取基频特征信息；

信息拼接单元，用于在通过所述声学特征合成模型中的编码器获得所述PPG特征的编码结果后，将所述基频特征信息与所述编码结果进行拼接，将拼接结果输入到声学特征合成模型中的解码器中进行解码输出，以弥补所述PPG特征中损失的韵律信息。

另外，还可以通过所述声学特征合成模型对所述PPG特征序列中的多帧数据进行并行处理。

其中，所述声学特征合成模型输出的声学特征序列的长度与输入的PPG特征序列的长度相等；

所述装置还可以包括：

语速调整单元，用于通过对所述PPG特征序列的长度进行调整，对生成的目标语言进行改变语速的调整。

其中，所述声学特征合成模型为编码器与解码器直连的模型结构。

所述编码器与解码器可以共同使用同一结构的网络层。

所述同一结构的网络层中包括多层一维的卷积神经网络CNN以及一层长短期记忆网络LSTM。

所述解码器的后端还包括多层的一维CNN网络，用于对所述解码器的输出进行增强或者弥补。

具体的，所述第一生成单元具体可以用于：

将所述目标发音者的声学特征序列输入到预先训练获得的声码器模型中，获得所述目标语言，其中，所述声码器模型是利用所述目标发音者对应的训练语料训练获得的。

与实施例二相对应，本申请实施例还提供了一种建立语音库的装置，参见图11，该装置可以包括：

源语音文件获取单元1101，用于获取源发音者关联的源语音文件，以及根据目标发音者的训练语料训练获得的声学特征合成模型以及声码器模型；

第二PPG特征序列提取单元1102，用于从源发音者关联的源语音文件中提取语音后验图谱PPG特征序列；

第二声学特征序列获得单元1103，用于将所述PPG特征序列输入到所述声学特征合成模型中，获得目标发音者的声学特征序列；在所述声学特征合成模型中，针对输入的PPG特征序列编码结果的每一帧分别进行解码输出；

第二生成单元1104，用于将所述目标发音者的声学特征序列输入到所述声码器模型中生成目标语音文件；

文件添加单元1105，用于将所述目标语音文件添加到语音库中。

与实施例三相对应，本申请实施例还提供了一种生成语音文件的装置，参见图12，该装置可以包括：

目标文本确定单元1201，用于确定目标文本；

语音文件获取单元1202，用于根据所述目标文本进行语音合成，获得第一语音文件；

第三PPG特征序列提取单元1203，用于从所述第一语音文件中提取PPG特征序列；

第三声学特征序列获得单元1204，用于将所述PPG特征序列输入到预先训练获得的声学特征合成模型中，获得目标发音者对应的声学特征序列；其中，所述声学特征合成模型是利用所述目标发音者对应的训练语料训练获得的；在所述声学特征合成模型中，针对输入的PPG特征序列的编码结果的每一帧分别进行解码输出；

第三生成单元1205，用于根据所述目标发音者对应的声学特征序列生成具有所述目标发音者声学特征的第二语音文件。

其中，所述目标文本包括待播出的新闻稿，或者目标视频内容的字幕文件。

与实施例四相对应，本申请实施例还提供了一种跨语言的语音转换装置，参见图13，还装置可以包括：

语音识别单元1301，用于对第一语音文件进行文本识别，获得第一文本文件，其中，所述第一文本文件对应第一语言；

文本翻译单元1302，用于将所述第一文本文件翻译为第二文本文件，其中，所述第二文本文件对应第二语言；

语音合成单元1303，用于根据第二目标文本进行语音合成，获得第二语音文件；

第四PPG特征序列提取单元1304，用于从所述第二语音文件中提取PPG特征序列；

第四声学特征序列获得单元1305，用于将所述PPG特征序列输入到预先训练获得的声学特征合成模型中，获得目标发音者对应的声学特征序列；其中，所述声学特征合成模型是利用所述目标发音者对应的训练语料训练获得的；在所述声学特征合成模型中，针对输入的PPG特征序列的编码结果的每一帧分别进行解码输出；

第四生成单元1306，用于根据所述目标发音者对应的声学特征序列，生成具有所述目标发音者声学特征的第三语音文件。

其中，所述第一语言与第二语言为不同语种。

或者，所述第一语言与第二语言为同一语种中的不同方言。

其中，所述第一语音文件包括视频内容的配音文件。

所述视频内容包括电影、电视剧集或纪录片。

与实施例五相对应，本申请实施例还提供了一种基于虚拟人物提供视频内容的装置，参见图14，该装置可以包括：

模型生成单元1401，用于确定视频内容关联的目标虚拟人物，并根据目标虚拟人物对应的训练语料训练获得声学特征合成模型；

语音信息确定单元1402，用于确定所述视频内容关联的语音信息；

第五PPG特征序列提取单元1403，用于从所述语音信息中提取PPG特征序列；

第五声学特征序列获得单元1404，用于将所述PPG特征序列输入到所述声学特征合成模型中，获得目标虚拟人物对应的声学特征序列，其中，在所述声学特征合成模型中，针对输入的PPG特征序列的编码结果的每一帧分别进行解码输出；

第五生成单元1405，用于根据所述目标虚拟人物对应的声学特征序列，生成具有所述目标虚拟人物声学特征的目标语音信息。

其中，所述视频内容包括直播内容。

与实施例六相对应，本申请实施例还提供了一种提供客户服务信息的装置，参见图15，该装置可以包括：

语音信息确定单元1501，用于在通过语音方式提供客户服务的过程中，确定关联的语音信息；

第六PPG特征序列提取单元1502，用于从所述语音信息中提取PPG特征序列；

第六声学特征序列获得单元1503，用于将所述PPG特征序列输入到预先训练获得的声学特征合成模型中，获得目标发音者对应的声学特征序列；其中，所述声学特征合成模型是利用所述目标发音者对应的训练语料训练获得的；在所述声学特征合成模型中，针对输入的PPG特征序列的编码结果的每一帧分别进行解码输出；

第六生成单元1504，用于根据所述目标发音者对应的声学特征序列，生成具有所述目标发音者声学特征的目标语音信息，以便利用所述目标语音信息提供客户服务。

与实施例七相对应，本申请实施例还提供了一种即时通信装置，参见图16，该装置可以包括：

语音信息接收单元1601，用于在通过语音的方式进行即时通信对话的过程中，接收用户的语音信息；

第七PPG特征序列提取单元1602，用于从所述语音信息中提取PPG特征序列；

第七声学特征序列获得单元1603，用于将所述PPG特征序列输入到预先训练获得的声学特征合成模型中，获得目标发音者对应的声学特征序列；其中，所述声学特征合成模型是利用所述目标发音者对应的训练语料训练获得的；在所述声学特征合成模型中，针对输入的PPG特征序列的编码结果的每一帧分别进行解码输出；

第七生成单元1604，用于根据所述目标发音者对应的声学特征序列，生成具有所述目标发音者声学特征的目标语音信息；

发送单元1605，用于将所述目标语音信息发送到参与所述即时通信对话的其他用户客户端。

与实施例八相对应，本申请实施例还提供了一种语音转换装置，参见图17，该装置可以包括：

选项提供单元1701，用于接收针对源语音文件进行语音转换的请求，并提供可选的发音者的信息；

目标发音者确定单元1702，用于根据被选中的发音者确定目标发音者；

第八PPG特征序列提取单元1703，用于从源发音者关联的源语音文件中提取语音后验图谱PPG特征序列；

第八声学特征序列获得单元1704，用于将所述PPG特征序列输入到预先训练获得的声学特征合成模型中，获得所述目标发音者对应的声学特征序列；其中，所述声学特征合成模型是利用所述目标发音者对应的训练语料训练获得的；在所述声学特征合成模型中，针对输入的PPG特征序列的编码结果的每一帧分别进行解码输出；

第八生成单元1705，用于根据所述目标发音者对应的声学特征序列，生成具有所述目标发音者声学特征的目标语音信息。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种计算机系统，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

其中，图18示例性的展示出了计算机系统的架构，具体可以包括处理器1810，视频显示适配器1811，磁盘驱动器1812，输入/输出接口1813，网络接口1814，以及存储器1820。上述处理器1810、视频显示适配器1811、磁盘驱动器1812、输入/输出接口1813、网络接口1814，与存储器1820之间可以通过通信总线1830进行通信连接。

其中，处理器1810可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器1820可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1820可以存储用于控制电子设备1800运行的操作系统1821，用于控制电子设备1800的低级别操作的基本输入输出系统(BIOS)。另外，还可以存储网页浏览器1823，数据存储管理系统1824，以及语音转换处理系统1825等等。上述语音转换处理系统1825就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器1820中，并由处理器1810来调用执行。

输入/输出接口1813用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口1814用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1830包括一通路，在设备的各个组件(例如处理器1810、视频显示适配器1811、磁盘驱动器1812、输入/输出接口1813、网络接口1814，与存储器1820)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1810、视频显示适配器1811、磁盘驱动器1812、输入/输出接口1813、网络接口1814，存储器1820，总线1830等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的语音转换方法、装置及计算机系统，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音转换方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

所述从源发音者关联的源语音文件中提取与PPG特征序列，包括：

3.根据权利要求2所述的方法，其特征在于，

所述从所述源语音中提取梅尔频率倒谱MFCC特征，包括：

将所述源语音按照频率的不同分成宽度不等的片段，并将多个片段的音频能量进行叠加后生成所述MFCC特征。

4.根据权利要求1所述的方法，其特征在于，还包括：

从所述源语音中提取基频特征信息；

在通过所述声学特征合成模型中的编码器获得所述PPG特征的编码结果后，将所述基频特征信息与所述编码结果进行拼接，将拼接结果输入到声学特征合成模型中的解码器中进行解码输出，以弥补所述PPG特征中损失的韵律信息。

5.根据权利要求1所述的方法，其特征在于，

通过所述声学特征合成模型对所述PPG特征序列中的多帧数据进行并行处理。

6.根据权利要求1所述的方法，其特征在于，

所述声学特征合成模型输出的声学特征序列的长度与输入的PPG特征序列的长度相等；

所述方法还包括：

通过对所述PPG特征序列的长度进行调整，对生成的目标语言进行改变语速的调整。

7.根据权利要求1至6任一项所述的方法，其特征在于，

所述声学特征合成模型为编码器与解码器直连的模型结构。

8.根据权利要求7所述的方法，其特征在于，

所述编码器与解码器共同使用同一结构的网络层。

9.根据权利要求8所述的方法，其特征在于，

10.根据权利要求7所述的方法，其特征在于，

11.根据权利要求1至6任一项所述的方法，其特征在于，

所述根据所述目标发音者的声学特征序列生成目标语音，包括：

12.一种建立语音库的方法，其特征在于，包括：

将所述目标语音文件添加到语音库中。

13.一种生成语音文件的方法，其特征在于，包括：

确定目标文本；

根据所述目标文本进行语音合成，获得第一语音文件；

从所述第一语音文件中提取PPG特征序列；

14.根据权利要求13所述的方法，其特征在于，

所述目标文本包括待播出的新闻稿，或者目标视频内容的字幕文件。

15.一种跨语言的语音转换方法，其特征在于，包括：

根据第二目标文本进行语音合成，获得第二语音文件；

从所述第二语音文件中提取PPG特征序列；

16.根据权利要求15所述的方法，其特征在于，

所述第一语言与第二语言为不同语种。

17.根据权利要求15所述的方法，其特征在于，

所述第一语言与第二语言为同一语种中的不同方言。

18.根据权利要求15所述的方法，其特征在于，

所述第一语音文件包括视频内容的配音文件。

19.根据权利要求18所述的方法，其特征在于，

所述视频内容包括电影、电视剧集或纪录片。

20.一种基于虚拟人物提供视频内容的方法，其特征在于，包括：

确定所述视频内容关联的语音信息；

从所述语音信息中提取PPG特征序列；

21.根据权利要求20所述的方法，其特征在于，

所述视频内容包括直播内容。

22.一种提供客户服务信息的方法，其特征在于，包括：

从所述语音信息中提取PPG特征序列；

23.一种即时通信方法，其特征在于，包括：

从所述语音信息中提取PPG特征序列；

24.根据权利要求23所述的方法，其特征在于，还包括：

提供多个可选的发音者的信息，并根据被选中的发音者确定所述目标发音者。

25.一种语音转换方法，其特征在于，包括：

根据被选中的发音者确定目标发音者；

26.一种语音转换装置，其特征在于，包括：

27.一种建立语音库的装置，其特征在于，包括：

文件添加单元，用于将所述目标语音文件添加到语音库中。

28.一种生成语音文件的装置，其特征在于，包括：

目标文本确定单元，用于确定目标文本；

29.一种跨语言的语音转换装置，其特征在于，包括：

30.一种基于虚拟人物提供视频内容的装置，其特征在于，包括：

31.一种提供客户服务信息的装置，其特征在于，包括：

32.一种即时通信装置，其特征在于，包括：

33.一种语音转换装置，其特征在于，包括：

34.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至25任一项所述的方法的步骤。

35.一种计算机系统，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至25任一项所述的方法的步骤。