CN113948062B

CN113948062B - 数据转换方法及计算机存储介质

Info

Publication number: CN113948062B
Application number: CN202111559250.5A
Authority: CN
Inventors: 任意; 雷鸣; 黄智颖; 张仕良; 陈谦; 鄢志杰
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-08-16
Anticipated expiration: 2041-12-20
Also published as: WO2023116243A1; CN113948062A

Abstract

本申请实施例提供了一种数据转换方法及计算机存储介质，其中，数据转换方法包括：获取待转换文本对应的音素向量、文本向量和目标人声的声纹特征向量；根据所述音素向量和所述文本向量，获得所述待转换文本对应的语言学特征向量；根据所述文本向量和所述声纹特征向量，预测获得所述待转换文本的隐藏韵律矢量；根据所述语言学特征向量、所述隐藏韵律矢量和所述声纹特征向量，生成所述待转换文本对应的语音频谱信息。通过本申请实施例，能够使得为待转换为语音的文本确定的韵律更为准确。

Description

数据转换方法及计算机存储介质

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种数据转换方法及计算机存储介质。

背景技术

语音合成技术又称文语转换（Text to Speech）技术，其能将文字信息转化为标准流畅的语音，相当于给机器装上了人工嘴巴。而要达到更近似人声的效果，则需要高表现力语音合成，该种语音合成需要对韵律进行建模，通过韵律模型提升语音合成的表现力。

一般来说，韵律成分包含：基频、能量和时长。现有的韵律建模通常基于韵律的基频特征构建，但一方面，由于基频提取不准，导致韵律建模效果差，进一步导致由此获取到的韵律信息也不准确；另一方面，未考虑到影响韵律的因素之间的关联性，也造成韵律建模效果差，获取的韵律信息不准确。

因此，如何提供一种有效的韵律建模方式，获得更贴合实际人声的韵律效果，成为亟待解决的问题。

发明内容

有鉴于此，本申请实施例提供一种数据转换方案，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种数据转换方法，包括：获取待转换文本对应的音素向量、文本向量和目标人声的声纹特征向量；根据所述音素向量和所述文本向量，获得所述待转换文本对应的语言学特征向量；根据所述文本向量和所述声纹特征向量，预测获得所述待转换文本的隐藏韵律矢量；根据所述语言学特征向量、所述隐藏韵律矢量和所述声纹特征向量，生成所述待转换文本对应的语音频谱信息。

根据本申请实施例的第二方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的数据转换方法。

根据本申请实施例提供的数据转换方案，在获取需要转换为语音的待转换文本的频谱时，综合考虑了待转换文本的音素、文本和目标人声的声纹特征。其中，基于音素和文本可以获得待转换文本的语言学特征，该特征携带有文本所对应的级别（如字符级别、词级别、句子级别等）的发音特征；基于文本和声纹特征可以预测获得待转换文本的隐藏韵律矢量，该矢量主要包含韵律的信息，采用这种方式下的韵律基于文本对应的特征获得，更为关注韵律自身的特性。而基于语言学特征、隐藏韵律矢量和声纹特征经处理最终获得的语音频谱信息，则更为贴合实际的声纹特征对应的目标人声的语音特点，与实际的目标人声的韵律更为接近。由此，使得后续基于获得的语音频谱信息生成的语音也更与实际人声相近。

可见，通过本申请实施例的方案，一方面，不再基于基频进行韵律建模，而是依据与韵律相关的多种信息进行韵律信息的提取，能够使得提取出的韵律更为准确；另一方面，综合考虑了影响韵律的多种因素（如音素、文本、目标人声的声纹等）之间的关系，也使得由此获得的韵律更为准确。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为适用本申请实施例的数据转换方法的示例性系统的示意图；

图2A为根据本申请实施例一的一种数据转换方法的步骤流程图；

图2B为图2A所示实施例中的一种模型示例的示意图；

图2C为图2A所示实施例中的一种场景示例的示意图；

图3A为根据本申请实施例二的一种数据转换方法的步骤流程图；

图3B为图3A所示实施例中的一种模型及其训练过程示例的示意图；

图4为根据本申请实施例三的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

图1示出了一种适用本申请实施例的数据转换方法的示例性系统。如图1所示，该系统100可以包括服务器102、通信网络104和/或一个或多个用户设备106，图1中示例为多个用户设备。

服务器102可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的服务器。在一些实施例中，服务器102可以执行任何适当的功能。例如，在一些实施例中，服务器102可以用于确定语音合成过程中需要使用的语音频谱信息。作为可选的示例，在一些实施例中，服务器102可以被用于基于待转换文本确定其对应的语音频谱信息，进而基于语音频谱信息进行语音合成。作为另一示例，在一些实施例中，服务器102可以基于待转换文本对应的音素、文本和目标人声的声纹确定其对应的语音频谱信息。

在一些实施例中，通信网络104可以是一个或多个有线和/或无线网络的任何适当的组合。例如，通信网络104能够包括以下各项中的任何一种或多种：互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线路(DSL)网络、帧中继网络、异步转移模式(ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。用户设备106能够通过一个或多个通信链路(例如，通信链路112)连接到通信网络104，该通信网络104能够经由一个或多个通信链路(例如，通信链路114)被链接到服务器102。通信链路可以是适合于在用户设备106和服务器102之间传送数据的任何通信链路，诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。

用户设备106可以包括适合于呈现界面以进行信息输入和输出、播放语音的任何一个或多个用户设备。在一些实施例中，用户设备106可以包括任何合适类型的设备。例如，在一些实施例中，用户设备106可以包括IOT设备、移动设备、平板计算机、膝上型计算机、台式计算机、可穿戴计算机、游戏控制台、媒体播放器、车辆娱乐系统和/或任何其他合适类型的用户设备。注意，在一些实施例中，用户设备106若具有较高的软硬件性能，也可替代实现服务器102的功能。

尽管将服务器102图示为一个设备，但是在一些实施例中，可以使用任何适当数量的设备来执行由服务器102执行的功能。例如，在一些实施例中，可以使用多个设备来实现由服务器102执行的功能。或者，可使用云服务实现服务器102的功能。

基于上述系统，本申请实施例提供了一种数据转换方法，以下通过多个实施例进行说明。

实施例一

参照图2A，示出了根据本申请实施例一的一种数据转换方法的步骤流程图。

本实施例的数据转换方法包括以下步骤：

步骤S202：获取待转换文本对应的音素向量、文本向量和目标人声的声纹特征向量。

其中，音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。比如，阿（a）只有一个音素，个（ge）有两个音素，等等。一般来说，在将文本转换为语音的过程中，音素是重要的考量和转换依据。而在具体的转换过程中，需要确定将文本具体转换为什么样的人声，因此需要通过声纹特征作为参考，以使最终生成近似目标人声的语音。

此外，本申请实施例中还使用了待转换文本的文本向量。在实际应用中，文本向量可以采用不同的级别，如，音素级别、字符级别、词级别、子句级别、句子级别等等。文本向量与其它用于生成韵律的向量如音素向量、声纹特征向量等具有较大的关联性，通过文本向量可以为后续生成与韵律相关的向量提供更为丰富的参考信息，包括但不限于文本信息和/或语义信息等。较优地，文本向量可采用字符级别，一方面与音素向量的对应性更好，另一方面，使用较为简单的网络结构即可实现，降低了方案实现复杂度和实现成本。

需要说明的是，本步骤中基于待转换文本生成对应的音素向量和文本向量的具体方式，以及目标人声的声纹特征向量的获取方式，均可由本领域技术人员根据实际情况采用适当方式（如神经网络模型或算法的方式）实现，本申请实施例对此不作限制。

步骤S204：根据音素向量和文本向量，获得待转换文本对应的语言学特征向量；根据文本向量和声纹特征向量，预测获得待转换文本的隐藏韵律矢量。

本申请实施例中，一方面，会将文本向量与音素向量相结合，生成携带韵律信息和语义信息的语言学特征向量；另一方面，会将文本向量与声纹特征向量相结合，预测出主要携带与文本有关的韵律信息的隐藏韵律矢量。

虽然两方面都使用了文本向量，但由上可见，使用文本向量所要实现的目标不同。因此，在一种可行方式中，两方面使用的文本向量可采用不同的方式获得。例如，可通过字符编码网络（也可称为字符编码器）获得与音素向量结合的文本向量；而通过上下文编码网络（也可称为上下文编码器如BERT模型）获得与声纹特征向量相结合的文本向量。由此，可以更好地满足不同部分的需求，也使得方案整体更具灵活性。

步骤S206：根据语言学特征向量、隐藏韵律矢量和声纹特征向量，生成待转换文本对应的语音频谱信息。

在获得了语言学特征向量、隐藏韵律矢量之后，结合之前获取的声纹特征向量，进行特征融合并基于融合后的特征进行相应处理如解码处理，即可获得语音频谱信息，其中包含有待转换文本的韵律信息。本申请实施例中，韵律信息包括但不限于语调、语速、能量和空间信息等。

在一种可行方式中，可以对语言学特征向量、隐藏韵律矢量和声纹特征向量进行拼接，生成拼接向量；对拼接向量进行解码，获得待转换文本对应的语音频谱信息。因拼接后的向量中携带了丰富的与待转换文本中与韵律相关联的信息，因此，基于拼接向量进行解码获得的语音频谱信息也更为准确。

在一种可行方式中，上述过程可通过神经网络模型实现，本申请中称为韵律模型，一种示例性的韵律模型如图2B所示。由图2B中可见，该韵律模型包括：音素编码网络（图中示意为Phoneme Encoder）、文本编码网络（图中示意为字符级别的Word Encoder）、隐藏韵律矢量预测网络（图中示意为LPV Predictor）、向量拼接层（图中示意为“+”号所在的虚线框部分）和解码网络（图中示意为Decoder所在的虚线框部分）。

其中，音素编码网络用于获取待转换文本对应的音素向量；文本编码网络用于获取待转换文本对应的文本向量；隐藏韵律矢量预测网络用于根据待转换文本对应的文本向量和获取的目标人声的声纹特征向量，预测获得待转换文本的隐藏韵律矢量；向量拼接层用于对音素向量和文本向量进行加和，获得待转换文本对应的语言学特征向量；以及，对语言学特征向量、隐藏韵律矢量和声纹特征向量进行拼接，生成拼接向量；解码网络用于对拼接向量进行解码，获得待转换文本对应的语音频谱信息。

在使用如图2B所示的韵律模型时，本申请实施例的方案可以实现为：通过韵律模型的音素编码网络获取待转换文本对应的音素向量；并且，通过韵律模型的文本编码网络获取待转换文本对应的文本向量；通过韵律模型的隐藏韵律矢量预测网络根据待转换文本对应的文本向量和获取的目标人声的声纹特征向量，预测获得待转换文本的隐藏韵律矢量；通过韵律模型的向量拼接层对音素向量和文本向量进行加和，获得待转换文本对应的语言学特征向量；以及，对语言学特征向量、隐藏韵律矢量和声纹特征向量进行拼接，生成拼接向量；通过韵律模型的解码网络对拼接向量进行解码，获得待转换文本对应的语音频谱信息。

此外，如图中所示，本示例中的韵律模型的解码网络部分还设置有长度规整层Length Regulator和线性化层Linear Layer。其中，Length Regulator用于调整语言学特征向量、隐藏韵律矢量和声纹特征向量的长度，使它们长度与语音频谱信息一致。LinearLayer则用于对Decoder的输出进行线性化处理。

由图2B中可见，Word Encoder和LPV Predictor虽然均对“Word”进行处理，但为了使“Word”更能符合各部分的需求，也使得韵律模型更为灵活，在一种可选方式中，文本编码网络包括字符编码网络和上下文编码网络。其中，字符编码网络如图中所示的WordEncoder，用于对待转换文本进行字符级别的编码，生成用于和音素向量进行加和的字符文本向量。上下文编码网络可以为诸如BERT网络或者其它可生成文本向量的网络，用于对待转换文本进行字符级别的编码，生成用于与声纹特征向量一起输入隐藏韵律矢量预测网络的字符文本向量。但如前所述，这两个编码网络也可采用同样的结构，同样适用于本申请实施例的方案。

以下，基于上述韵律模型，从语音合成过程的角度对本实施例的数据转换方法进行示例性说明，如图2C所示。

语音合成过程通常包括：前端处理、声学模型处理、声码器处理三部分。其中，前端处理主要是从待转换文本中获得发音和语言学的信息，包括但不限于：文本归一化（文本标准化）、字形转音形（如把文本字符转化为音素等发音信息，以便后续的声学模型可以准确地获该文本字符的发音）等等。

声学模型处理部分主要有声学模型完成，本示例中实现为上述韵律模型，该韵律模型基于前端处理产生的发音信息或者语言学信息来产生声学的特征，如梅尔频谱图。具体到本示例，韵律模型基于待转换文本的音素、字符级别的文本及待转换成的目标人声的声纹特征，输出梅尔频谱图。该过程如前所述，在此不再赘述。

经韵律模型输出的梅尔频谱图将被输入声码器，由声码器基于梅尔频谱图来合成最后声音的波形图。从而，完成从文本到语音的TTS转换过程。

在一个人机交互场景示例中，该语音合成过程包括：获取向智能设备发送的用户指令的响应，所述响应中包含有针对用户指令的待回复文本；获取待回复文本对应的音素向量、文本向量和目标人声的声纹特征向量；根据音素向量和文本向量，获得待回复文本对应的语言学特征向量；根据文本向量和声纹特征向量，预测获得待回复文本的隐藏韵律矢量；根据语言学特征向量、隐藏韵律矢量和声纹特征向量，生成待回复文本对应的语音频谱信息；根据语音频谱信息生成待回复文本对应的语音并播放。

本示例中，假设为人机交互场景，智能设备示例为智能音箱，用户指令示例为用户发出的语音问题，待回复文本则对应地为针对该语音问题的回复。则，用户X向智能音箱提出一个语音问题“‘少年中国说’的全文是什么”。智能音箱在接收到该语音问题后将其转换为文本，并发送至服务端进行查询；在获取到服务端返回的查询结果“少年中国说是清朝末年梁启超所作的散文，写于戊戌变法失败后的1900年，文中极力歌颂少年的朝气蓬勃。其全文如下：‘日本人之称我中国也，一则曰老大帝国，再则曰老大帝国。是语也，盖袭译欧西人之言也。呜呼！我中国其果老大矣乎。梁启超曰：恶！是何言！是何言！吾心目中有一少年中国在！……’”。智能音箱在接收到该查询结果后，会将查询结果中的每个字符转换成音素，形成音素序列。又因智能音箱有其自身的声纹特征。因此，智能音箱会按照字符顺序将音素序列中相对应的音素及字符以及声纹特征作为韵律模型的输入，经韵律模型的上述处理输出梅尔频谱图；再将梅尔频谱图输入声码器，由声码器合成最后的语音播放。由此，实现对用户X的语音问题的回复。

图2C中，为了便于说明，将韵律模型及声码器部分均单独示意，但本领域技术人员应当明了的是，在实际应用中，韵律模型及声码器均设置于智能音箱内，通过智能音箱中的相应部件如处理器控制执行。

在另一个直播场景示例中，该语音合成过程可以包括：获取待直播对象对应的直播剧本文本；获取直播剧本文本对应的音素向量、文本向量和目标人声的声纹特征向量；根据音素向量和文本向量，获得直播剧本文本对应的语言学特征向量；根据文本向量和声纹特征向量，预测获得直播剧本文本的隐藏韵律矢量；根据语言学特征向量、隐藏韵律矢量和声纹特征向量，生成直播剧本文本对应的语音频谱信息；根据语音频谱信息生成直播剧本文本对应的直播语音。

其中，直播对象对应的直播剧本可以是多个直播对象（如商品、或内容或节目等）对应的直播剧本如整场直播的剧本，也可以是多个直播对象中的某个或某些对应的直播剧本。在获得了直播剧本的情况下，可以采用如前所述的方法，将直播剧本最终转换为直播语音，以应用至直播场景中，如直播带货或直播内容推广，等等。该直播语音可以与虚拟主播适配，也可以与真人主播适配，可在直播场景中广泛适用。

在再一个演播场景中，该语音合成过程可以包括：获取待演播的剧本文本；获取剧本文本对应的音素向量、文本向量和目标人声的声纹特征向量；根据音素向量和文本向量，获得剧本文本对应的语言学特征向量；根据文本向量和声纹特征向量，预测获得剧本文本的隐藏韵律矢量；根据语言学特征向量、隐藏韵律矢量和声纹特征向量，生成剧本文本对应的语音频谱信息；根据语音频谱信息生成剧本文本对应的演播语音。

其中，待演播的剧本文本包括以下之一：音频或视频对应的台词剧本、电子书文本内容。在获得了剧本文本的情况下，可以采用如前所述的方法，将剧本文本最终转换为演播语音，以应用至演播场景中。例如，可以使用该演播语音为视频角色配音，或者实现音频生成，或者实现有声电子书等等。

可见，通过本实施例，在获取需要转换为语音的待转换文本的频谱时，综合考虑了待转换文本的音素、文本和目标人声的声纹特征。其中，基于音素和文本可以获得待转换文本的语言学特征，该特征携带有文本所对应的级别（如字符级别、词级别、句子级别等）的发音特征；基于文本和声纹特征可以预测获得待转换文本的隐藏韵律矢量，该矢量主要包含韵律的信息，采用这种方式下的韵律基于文本对应的特征获得，更为关注韵律自身的特性。而基于语言学特征、隐藏韵律矢量和声纹特征经处理最终获得的语音频谱信息，则更为贴合实际的声纹特征对应的目标人声的语音特点，与实际的目标人声的韵律更为接近。由此，使得后续基于获得的语音频谱信息生成的语音也更与实际人声相近。

可见，通过本实施例的方案，一方面，不再基于基频进行韵律建模，而是依据与韵律相关的多种信息进行韵律信息的提取，能够使得提取出的韵律更为准确；另一方面，综合考虑了影响韵律的多种因素（如音素、文本、目标人声的声纹等）之间的关系，也使得由此获得的韵律更为准确。

实施例二

参照图3A，示出了根据本申请实施例二的一种数据转换方法的步骤流程图。

本实施例以使用韵律模型进行数据转换为示例，先对该韵律模型的训练过程进行介绍，进而基于训练完成的韵律模型进行数据转换。

本实施例的数据转换方法包括以下步骤：

步骤S302：获取训练样本，使用训练样本对韵律模型进行训练。

其中，训练样本包括待转换文本样本及对应的语音样本、和声纹特征样本向量，本申请实施例中，语音样本使用低频段语音样本，如频段为0-2KHz频段的语音样本。一方面，低频段语音样本中携带有充分的与韵律相关的信息，不会对训练效果造成影响；另一方面，去除掉低频段之外频段的语音，可使模型结构较为简单。但需要说明的是，全频段语音样本也同样适用于本申请实施例的方案。此外，还可采用含有噪音的低质量语音样本，不再局限于高质量语音样本，这样，诸如视频中的音频、常规音频、广播音频等等均可作为本申请实施例中的语音样本，大大丰富了语音样本数量和选取范围，并降低了语音样本的获取成本。

本实施例中，韵律模型如图3B所示，其包括：音素编码网络（图中示意为PhonemeEncoder）、文本编码网络、韵律编码网络（图中示意为Prosody Encoder）、隐藏韵律矢量预测网络（图中示意为LPV Predictor）、向量拼接层（图中示意为“+”号所在的虚线框部分）和解码网络（图中示意为Decoder所在的虚线框部分）。

基于该结构，对韵律模型的训练包括：将待转换文本样本对应的音素输入音素编码网络，获得对应的音素样本向量；将待转换文本样本的字符输入文本编码网络，获得对应的字符样本文本向量；将语音样本、音素样本向量、字符样本文本向量和声纹特征样本向量输入韵律编码网络，获得对应的第一隐藏韵律样本矢量；基于音素样本向量、字符样本文本向量、声纹特征样本向量和第一隐藏韵律样本矢量，对韵律模型进行训练。

其中，为使模型更灵活，将文本编码网络分为字符编码网络（图中示意为字符级别的Word Encoder）和上下文编码网络（图中示意为右上角的Context Encoder）。基于此，将待转换文本的字符输入文本编码网络，获得对应的字符样本文本向量可以实现为：将待转换文本样本的字符分别输入字符编码网络和上下文编码网络，获得对应的第一字符样本文本向量和第二字符样本文本向量。相应地，将语音样本、音素样本向量、字符样本文本向量和声纹特征样本向量输入韵律编码网络，获得对应的第一隐藏韵律样本矢量可以实现为：将语音样本、音素样本向量、第一字符样本文本向量和声纹特征样本向量输入韵律编码网络，获得对应的第一隐藏韵律样本矢量。

此外，本实施例中，解码网络部分除Decoder外，还设置有长度规整层LengthRegulator和线性化层Linear Layer。其中，Length Regulator用于调整语言学特征样本向量、第一隐藏韵律样本矢量和声纹特征样本向量的长度，使它们长度与语音频谱信息一致。Linear Layer则用于对Decoder的输出进行线性化处理。

此种结构下，对于图3B中左侧L形虚线框部分的训练包括：将输入待转换文本样本的文本序列转换成音素序列（图中示意为Phoneme）和字符序列（图中示意为Word），分别输入音素编码网络Phoneme Encoder和字符编码网络Word Encoder。然后通过PhonemeEncoder获得音素样本向量Phoneme Eembedding，通过Word Encoder获得第一字符样本文本向量Word Eembedding。进而，对Phoneme Eembedding和Word Eembedding进行加和，获得语言学特征样本向量H_ling。然后，基于H_ling和H_spk（声纹特征样本向量，为矢量），样本人声的梅尔频谱（mel-spec），即语音样本的低频部分（如0-2KHz部分）通过韵律编码网络Prosody Encoder获得第一隐藏韵律样本矢量（LPV）。然后，H_ling、H_spk和第一隐藏韵律样本矢量拼接在一起，送入后续的解码网络获得预测的梅尔谱。

本实施例中，韵律编码网络Prosody Encoder的训练过程可示例性地实现为：通过韵律编码网络的第一卷积层基于音素样本向量和声纹特征样本向量，对语音样本进行特征提取，获得第一韵律样本特征；通过韵律编码网络的池化层对第一韵律样本特征进行字符级别的池化处理，获得字符级别的韵律样本特征；通过韵律编码网络的第二卷积层基于第一字符样本文本向量和声纹特征样本向量，对字符级别的韵律样本特征进行特征提取，获得第二韵律样本特征；通过韵律编码网络的矢量化层对第二韵律样本特征进行矢量化处理，获得第一隐藏韵律样本矢量。通过这种方式，简化了韵律编码网络结构，且能有效提取隐藏韵律样本矢量。

示例性地，如图3B中的（b）部分所示，韵律编码网络Prosody Encoder的输入是待转换文本样本对应的语音样本的梅尔频谱的低频部分、Phoneme Eembedding和WordEembedding（为简化表达，文中简单示意为H_ling）和H_spk，输出是字符级别的第一隐藏韵律样本矢量序列。韵律编码网络Prosody Encoder包含两级Conv Stacks：第一级ConvStacks在对梅尔频谱的低频部分进行处理时，输入除梅尔频谱的低频部分外，还有PhonemeEembedding和H_spk，通过Phoneme Eembedding的加入，使得对梅尔频谱的低频部分的卷积处理可以过滤掉音素对韵律的影响，然后，再将卷积处理后的梅尔频谱的低频部分通过字符级别的池化层Word-level Pooling的池化操作压缩至字符级别；第二级Conv Stacks则基于第一级Conv Stacks的输出和Word Eembedding、H_spk获得隐藏韵律表达，通过WordEembedding的加入，使得对梅尔频谱的低频部分的卷积处理可以过滤掉字符语义对韵律的影响；最后，基于这个隐藏韵律表达，通过矢量量化层（Vector Quantization）获得字符级别的第一隐藏韵律样本矢量序列。

在获得了第一隐藏韵律样本矢量之后，即可基于音素样本向量、第一字符样本文本向量、声纹特征样本向量和第一隐藏韵律样本矢量，对韵律模型进行训练。具体地，可以包括：通过向量拼接层对音素样本向量和第一字符样本文本向量进行加和，获得语言学特征向量；以及，对语言学特征向量、声纹特征样本向量和第一隐藏韵律样本矢量进行拼接，获得拼接样本向量；通过解码网络对拼接样本向量进行解码，根据解码结果对韵律模型进行训练。

在一种可选方案中，在通过解码网络对拼接样本向量进行解码之前，还可以通过长度规整层对拼接样本向量进行长度规整处理；然后，再通过解码网络对进行了长度规整处理后的拼接样本向量进行解码。具体可如图3B的（a）中所示。

此外，韵律编码网络Prosody Encoder不仅参与图3B（a）中左侧L形虚线框部分的训练，其还承担着对隐藏韵律矢量预测网络LPV Predictor的训练任务。在韵律模型的推理阶段，将主要由LPV Predictor实现韵律预测，韵律编码网络Prosody Encoder将不再发挥功能。因此，对韵律模型的训练还包括：将第二字符样本文本向量和声纹特征样本向量输入隐藏韵律矢量预测网络，预测获得第二隐藏韵律样本矢量；根据第一隐藏韵律样本矢量和第二隐藏韵律样本矢量的差异，对隐藏韵律矢量预测网络进行训练。

其中，如前所述，第二字符样本文本向量的获得可采用如图3B中右上角部分的上下文编码网络Context Encoder实现，其具体结构可采用BERT模型结构。但本领域技术人员应当明了的是，其它结构如任意的纯文本训练模型结构也可同样适用于本申请实施例的方案。

一种对隐藏韵律矢量预测网络进行训练的简单示意如图3B中右下角所示。从中可见，韵律编码网络Prosody Encoder基于语音样本的梅尔频谱的低频部分、PhonemeEembedding和Word Eembedding（为简化表达，文中简单示意为H_ling）和H_spk，输出第一隐藏韵律样本矢量。LPV Predictor基于待转换文本的字符序列（图中示意为Word）和H_spk，输出第二隐藏韵律样本矢量。图3B的（d）中将这两个隐藏韵律样本矢量均示意为LPV。基于这两个LPV和预设的损失函数，即可对LPV Predictor进行训练。其中，所述损失函数可以为任意适当的函数，包括但不限于距离函数如余弦距离函数等，本申请实施例对此不作限制。

LPV Predictor为一个自回归预测模型，由图3B中的（c）可见，一方面，LPVPredictor将输入的Word通过Context Encoder转换为字符向量，为与前述Word Encoder输出的Word Eembedding相区别，将Context Encoder输出的字符向量表示为Hi;另一方面，LPV Predictor在处理当前字符时，还以前一字符对应的LPV（图中示意为LPV_i-1）为参考。在对LPV_i-1进行自注意力计算后，与Hi和H_spk进行拼接，进而对拼接后的向量进行后续处理（如归一化、卷积等），并最终获得针对当前字符的韵律预测结果，即LPV_i。也即，该预测过程可实现为：将待预测的当前字符对应的第二字符样本文本向量和声纹特征样本向量输入隐藏韵律矢量预测网络；对当前字符对应的第二字符样本文本向量、声纹特征样本向量和当前字符的前一字符对应的第二隐藏韵律样本矢量进行特征融合；基于融合后的特征向量，预测获得当前字符的第二隐藏韵律样本矢量。通过自回归的方式，可以获得更为准确的韵律信息。

通过上述过程，即可实现对本实施例中的韵律模型的各部分的训练，在训练完成后，即可进行从文本到频谱的数据转换。

步骤S304：获取待转换文本对应的音素向量、文本向量和目标人声的声纹特征向量。

例如，采用训练完成后的图3B中的韵律模型，通过其音素编码网络PhonemeEncoder将待转换文本的音素序列编码为音素向量Phoneme Eembedding；通过其字符编码网络Word Encoder将待转换文本的字符序列转换为字符文本向量Word Eembedding。而目标人声的声纹特征向量H_spk则可预先获得，而基于目标人声提取其声纹特征向量的具体手段在本申请实施例中不作限制。

步骤S306：根据音素向量和文本向量，获得待转换文本对应的语言学特征向量；根据文本向量和声纹特征向量，预测获得待转换文本的隐藏韵律矢量。

例如，用训练完成后的图3B中的韵律模型，通过向量拼接层对PhonemeEembedding和Word Eembedding进行加和，获得语言学特征向量H_ling；通过LPVPredictor获得待转换文本的隐藏韵律矢量LPV。

步骤S308：根据语言学特征向量、隐藏韵律矢量和声纹特征向量，生成待转换文本对应的语音频谱信息。

例如，用训练完成后的图3B中的韵律模型，通过向量拼接层对H_ling、LPV和H_spk进行拼接。进而，依次通过解码网络中的Length Regulator、Decoder和Linear Layer进行与解码有关的处理，最终获得待转换文本对应的语音频谱信息。

进一步地，在获得了语音频谱信息的基础上，通过声码器即可输出相应的语音，实现从文本到语音的转换。

需要说明的是，上述步骤S304-S308的描述较为简单，相关部分可参照前述实施例一及步骤S302中的有关描述。

通过本实施例，使用隐藏韵律矢量来表征韵律，而非韵律成分，避免了传统方式中由于基频提取不准确以及针对各个韵律成分的预测缺少关联性，而导致的韵律建模效果差，获得的频谱效果也较差，进而导致语音合成效果不佳的问题。通过本实施例的方案，一方面，不再基于基频进行韵律建模，而是依据与韵律相关的多种信息进行韵律信息的提取，能够使得提取出的韵律更为准确；另一方面，综合考虑了影响韵律的多种因素（如音素、文本、目标人声的声纹等）之间的关系，也使得由此获得的韵律更为准确。

实施例三

参照图4，示出了根据本申请实施例三的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图4所示，该电子设备可以包括：处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。

其中：

处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。

通信接口404，用于与其它电子设备或服务器进行通信。

处理器402，用于执行程序410，具体可以执行上述数据转换方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机操作指令。

处理器402可能是CPU，或者是特定集成电路ASIC（Application SpecificIntegrated Circuit），或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行上述数据转换方法实施例中任一所描述的操作。

程序410中各步骤的具体实现可以参见上述上述数据转换方法实施例中的相关方法实施例中的相应步骤和单元中对应的描述，并具有相应的有益效果，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述多个方法实施例中的任一数据转换方法对应的操作。

需要说明的是，本申请多个实施例中的韵律编码网络的输入均以梅尔频谱为示例，但不限于此，其它声学特征（如LPC fea、MFCC、fbank、raw wave等）也同样适用。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质（诸如CD ROM、RAM、软盘、硬盘或磁光盘）中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件（诸如ASIC或FPGA）的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件（例如，RAM、ROM、闪存等），当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的数据转换方法。此外，当通用计算机访问用于实现在此示出的数据转换方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的数据转换方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种数据转换方法，包括：

通过韵律模型的音素编码网络获取待转换文本对应的音素向量、通过韵律模型的文本编码网络获取待转换文本对应的文本向量、获取目标人声的声纹特征向量；所述文本编码网络包括字符编码网络和上下文编码网络；所述字符编码网络，用于对所述待转换文本进行字符级别的编码，生成用于和所述音素向量进行加和的字符文本向量；所述上下文编码网络，用于对所述待转换文本进行字符级别的编码，生成用于与所述声纹特征向量一起输入隐藏韵律矢量预测网络的字符文本向量；

通过韵律模型的向量拼接层根据所述音素向量和所述文本向量，获得所述待转换文本对应的携带韵律信息和语义信息的语言学特征向量；通过韵律模型的隐藏韵律矢量预测网络根据所述文本向量和所述声纹特征向量，预测获得所述待转换文本对应的携带有与所述待转换文本有关的韵律信息的隐藏韵律矢量；

通过韵律模型的解码网络根据所述语言学特征向量、所述隐藏韵律矢量和所述声纹特征向量，生成所述待转换文本对应的语音频谱信息。

2.根据权利要求1所述的方法，其中，所述韵律模型至少包括：音素编码网络、文本编码网络、隐藏韵律矢量预测网络、向量拼接层和解码网络；

所述音素编码网络，用于获取待转换文本对应的音素向量；

所述文本编码网络，用于获取待转换文本对应的文本向量；

所述隐藏韵律矢量预测网络，用于根据所述待转换文本对应的文本向量和获取的目标人声的声纹特征向量，预测获得所述待转换文本的隐藏韵律矢量；

所述向量拼接层，用于对所述音素向量和所述文本向量进行加和，获得所述待转换文本对应的语言学特征向量；以及，对所述语言学特征向量、所述隐藏韵律矢量和所述声纹特征向量进行拼接，生成拼接向量；

所述解码网络，用于对所述拼接向量进行解码，获得所述待转换文本对应的语音频谱信息。

3.根据权利要求2所述的方法，其中，所述方法还包括：

获取训练样本，所述训练样本包括待转换文本样本及对应的语音样本、和声纹特征样本向量，所述语音样本为频段为0-2KHz频段的语音样本；

使用所述训练样本对所述韵律模型进行训练。

4.根据权利要求3所述的方法，其中，所述韵律模型还包括韵律编码网络；

所述使用所述训练样本对所述韵律模型进行训练，包括：

将所述待转换文本样本对应的音素输入音素编码网络，获得对应的音素样本向量；将所述待转换文本样本的字符输入文本编码网络，获得对应的字符样本文本向量；

将所述语音样本、所述音素样本向量、所述字符样本文本向量和所述声纹特征样本向量输入韵律编码网络，获得对应的第一隐藏韵律样本矢量；

基于所述音素样本向量、所述字符样本文本向量、所述声纹特征样本向量和所述第一隐藏韵律样本矢量，对所述韵律模型进行训练。

5.根据权利要求4所述的方法，其中，

所述将所述待转换文本样本的字符输入文本编码网络，获得对应的字符样本文本向量，包括：将所述待转换文本的字符分别输入字符编码网络和上下文编码网络，获得对应的第一字符样本文本向量和第二字符样本文本向量；

所述将所述语音样本、所述音素样本向量、所述字符样本文本向量和所述声纹特征样本向量输入韵律编码网络，获得对应的第一隐藏韵律样本矢量，包括：将所述语音样本、所述音素样本向量、所述第一字符样本文本向量和所述声纹特征样本向量输入韵律编码网络，获得对应的第一隐藏韵律样本矢量。

6.根据权利要求5所述的方法，其中，所述将所述语音样本、所述音素样本向量、所述第一字符样本文本向量和所述声纹特征样本向量输入韵律编码网络，获得对应的第一隐藏韵律样本矢量包括：

通过所述韵律编码网络的第一卷积层基于所述音素样本向量和所述声纹特征样本向量，对所述语音样本进行特征提取，获得第一韵律样本特征；

通过所述韵律编码网络的池化层对所述第一韵律样本特征进行字符级别的池化处理，获得字符级别的韵律样本特征；

通过所述韵律编码网络的第二卷积层基于所述第一字符样本文本向量和所述声纹特征样本向量，对所述字符级别的韵律样本特征进行特征提取，获得第二韵律样本特征；

通过所述韵律编码网络的矢量化层对所述第二韵律样本特征进行矢量化处理，获得第一隐藏韵律样本矢量。

7.根据权利要求5所述的方法，其中，所述基于所述音素样本向量、所述字符样本文本向量、所述声纹特征样本向量和所述第一隐藏韵律样本矢量，对所述韵律模型进行训练，包括：

将所述第二字符样本文本向量和所述声纹特征样本向量输入所述隐藏韵律矢量预测网络，预测获得第二隐藏韵律样本矢量；

根据所述第一隐藏韵律样本矢量和所述第二隐藏韵律样本矢量的差异，对所述隐藏韵律矢量预测网络进行训练。

8.一种数据转换方法，包括：

获取向智能设备发送的用户指令的响应，所述响应中包含有针对所述用户指令的待回复文本；

通过如权利要求1-7中任一项所述方法中的韵律模型获取所述待回复文本对应的音素向量、文本向量和目标人声的声纹特征向量；根据所述音素向量和所述文本向量，获得所述待回复文本对应的携带韵律信息和语义信息的语言学特征向量；根据所述文本向量和所述声纹特征向量，预测获得所述待回复文本对应的携带有与所述待回复文本有关的韵律信息的隐藏韵律矢量；根据所述语言学特征向量、所述隐藏韵律矢量和所述声纹特征向量，生成所述待回复文本对应的语音频谱信息；

根据所述语音频谱信息生成所述待回复文本对应的语音并播放。

9.一种数据转换方法，包括：

获取待直播对象对应的直播剧本文本；

通过如权利要求1-7中任一项所述方法中的韵律模型获取所述直播剧本文本对应的音素向量、文本向量和目标人声的声纹特征向量；根据所述音素向量和所述文本向量，获得所述直播剧本文本对应的携带韵律信息和语义信息的语言学特征向量；根据所述文本向量和所述声纹特征向量，预测获得所述直播剧本文本对应的携带有与所述直播剧本文本有关的韵律信息的隐藏韵律矢量；根据所述语言学特征向量、所述隐藏韵律矢量和所述声纹特征向量，生成所述直播剧本文本对应的语音频谱信息；

根据所述语音频谱信息生成所述直播剧本文本对应的直播语音。

10.一种数据转换方法，包括：

获取待演播的剧本文本，其中，所述待演播的剧本文本包括以下之一：音频或视频对应的台词剧本、电子书文本内容；

通过如权利要求1-7中任一项所述方法中的韵律模型获取所述剧本文本对应的音素向量、文本向量和目标人声的声纹特征向量；根据所述音素向量和所述文本向量，获得所述剧本文本对应的携带韵律信息和语义信息的语言学特征向量；根据所述文本向量和所述声纹特征向量，预测获得所述剧本文本对应的携带有与所述剧本文本有关的韵律信息的隐藏韵律矢量；根据所述语言学特征向量、所述隐藏韵律矢量和所述声纹特征向量，生成所述剧本文本对应的语音频谱信息；

根据所述语音频谱信息生成所述剧本文本对应的演播语音。

11.一种数据转换方法，包括：

通过如权利要求1-7中任一项所述方法中的韵律模型的音素编码网络获取待转换文本对应的音素向量；并且，通过所述韵律模型的文本编码网络获取所述待转换文本对应的文本向量；

通过所述韵律模型的隐藏韵律矢量预测网络根据所述待转换文本对应的文本向量和获取的目标人声的声纹特征向量，预测获得所述待转换文本对应的携带有与所述待转换文本有关的韵律信息的隐藏韵律矢量；

通过所述韵律模型的向量拼接层对所述音素向量和所述文本向量进行加和，获得所述待转换文本对应的携带韵律信息和语义信息的语言学特征向量；以及，对所述语言学特征向量、所述隐藏韵律矢量和所述声纹特征向量进行拼接，生成拼接向量；

通过所述韵律模型的解码网络对所述拼接向量进行解码，获得所述待转换文本对应的语音频谱信息。

12.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-11中任一所述的数据转换方法。