CN118116360A

CN118116360A - 语音风格提示信息的确定方法及装置、电子设备和介质

Info

Publication number: CN118116360A
Application number: CN202410238722.4A
Authority: CN
Inventors: 朱宁焱; 高羽; 王添翼
Original assignee: Midea Group Co Ltd; Midea Group Shanghai Co Ltd
Current assignee: Midea Group Co Ltd; Midea Group Shanghai Co Ltd
Priority date: 2024-03-01
Filing date: 2024-03-01
Publication date: 2024-05-31

Abstract

本发明提出了一种语音风格提示信息的确定方法及装置、电子设备和介质。语音风格提示信息的确定方法包括：根据参考音频，提取参考音频的发音特征以及键值对向量；根据目标文本以及参考音频的发音特征，确定预测基频值与预测能量值；根据预测基频值、预测能量值以及参考音频的发音特征，确定查询向量；根据注意力机制处理查询向量和键值对向量，得到目标文本的语音风格提示信息。

Description

语音风格提示信息的确定方法及装置、电子设备和介质

技术领域

本发明涉及语音处理技术领域，具体而言，涉及一种语音风格提示信息的确定方法及装置、电子设备和介质。

背景技术

语音合成技术是通过机械的电子的方法把文本转换成音频的技术，而个性化的语音合成技术则是用户可以定义语音合成音色的合成技术，个性化的语音合成要求语音合成模型能适应不同音色不同风格的发音人音色进行建模与语音合成。

目前，zero-shot即零次学习语音合成是个性化的语音合成技术的研究热点，零次学习语音合成技术为对于任意新的发音人也有建模能力的语音合成技术。其中，语音prompt(提示)工程为语音合成技术中的重要手段，通过给语音合成模型的解码器注入语音风格提示信息，来训练语音合成模型自动迭代式地输出后面音频的能力。

然而，现有的语音合成方案的语音prompt工程的结构效率不够高，语音风格提示信息的注入效率较低，且语音风格提示信息的稳定性较差，降低了语音合成的准确性。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此，本发明的第一个方面在于提出一种语音风格提示信息的确定方法。

本发明的第二个方面在于提出一种语音合成方法。

本发明的第三个方面在于提出一种语音风格提示信息的确定装置。

本发明的第四个方面在于提出一种语音合成装置。

本发明的第五个方面在于提出一种电子设备。

本发明的第六个方面在于提出一种可读存储介质。

本发明的第七个方面在于提出一种计算机程序产品。

有鉴于此，根据本发明的第一个方面，提出了一种语音风格提示信息的确定方法，该方法包括：根据参考音频，提取参考音频的发音特征以及键值对向量；根据目标文本以及参考音频的发音特征，确定预测基频值与预测能量值；根据预测基频值、预测能量值以及参考音频的发音特征，确定查询向量；根据注意力机制处理查询向量和键值对向量，得到目标文本的语音风格提示信息。

本发明提供的语音风格提示信息的确定方法的技术方案的执行主体可以为电子设备，还可以为语音风格提示信息的确定装置，还可以根据实际使用需求进行确定，在此不作具体限定。为了更加清楚地描述本发明提供的语音风格提示信息的确定方法，下面以语音风格提示信息的确定方法的执行主体为语音风格提示信息的确定装置进行说明。

具体地，在本发明所提供的语音风格提示信息的确定方法中，在确定注入到语音合成模型中的语音风格提示信息的过程中，语音风格提示信息的确定装置获取输入到语音合成模型的目标文本以及参考音频，并对参考音频进行预处理，以提取参考音频的发音特征以及键值对向量，进而再根据目标文本以及参考音频的发音特征，确定目标文本的预测基频值与预测能量值。进一步地，语音风格提示信息的确定装置再基于预测基频值、预测能量值以及参考音频的发音特征，确定注意力机制中的查询向量。在此基础上，语音风格提示信息的确定装置再基于注意力机制对确定的键值对向量以及查询向量进行处理，从而得到注入到语音合成模型中的目标文本的语音风格提示信息。这样，本发明基于并行式的提示输入机制，利用注意力机制实现任意长度的目标文本的语音风格提示信息的注入与特征融合，提升了语音风格提示信息的稳定性和准确性，提高了语音风格提示信息的注入效率，从而提升了后续进行语音合成的准确性。

根据本发明的上述语音风格提示信息的确定方法，还可以具有以下附加技术特征：

在一些技术方案中，可选地，键值对向量包括键向量和值向量，根据注意力机制处理查询向量和键值对向量，得到目标文本的语音风格提示信息，包括：根据注意力机制对应的注意力评分函数，对查询向量和键向量进行注意力打分，得到注意力分值矩阵；将注意力分值矩阵与值向量相乘，得到语音风格提示信息。

在该技术方案中，上述键值对向量具体可包括值向量以及键向量，其中值向量记作value，键向量记作key，进一步地，查询向量记作query。在此基础上，在语音风格提示信息的确定装置基于注意力机制对确定的键值对向量以及查询向量进行处理，从而得到注入到语音合成模型中的目标文本的语音风格提示信息的过程中，具体地，语音风格提示信息的确定装置利用注意力机制对应的注意力评分函数，对上述确定的键向量key以及查询向量query进行注意力打分，得到每个键向量key以及每个查询向量query的注意力分值，从而得到一个注意力分值矩阵。进一步地，语音风格提示信息的确定装置将上述值向量value与得到的注意力分值矩阵进行相乘，即可得到参考音频的隐状态表征，即得到上述语音风格提示信息。这样，利用注意力机制实现任意长度的目标文本的语音风格提示信息的注入与特征融合，提升了语音风格提示信息的稳定性和准确性，提高了语音风格提示信息的注入效率，从而提升了后续进行语音合成的准确性。

在一些技术方案中，可选地，语音风格提示信息的确定方法还包括：根据发音特征对目标文本进行编码，得到目标文本的时长预测信息；根据预测基频值、预测能量值以及参考音频的发音特征，确定查询向量，包括：将发音特征、预测基频值、预测能量值和时长预测信息进行解码，得到第一声学特征；按照特征维度对第一声学特征、预测基频值和预测能量值进行拼接，得到查询向量。

在该技术方案中，在提取参考音频的发音特征之后，语音风格提示信息的确定装置还可基于确定的发音特征，对目标文本进行编码，并对目标文本的音频时长进行预测，得到目标文本的时长预测信息。在此基础上，在语音风格提示信息的确定装置基于预测基频值、预测能量值以及参考音频的发音特征，确定注意力机制中的查询向量的过程中，具体地，语音风格提示信息的确定装置对发音特征、预测基频值、预测能量值和时长预测信息进行解编码操作，从而预测得到目标文本的第一声学特征。进一步地，语音风格提示信息的确定装置将预测得到的第一声学特征、预测能量值以及预测基频值按照特征维度进行拼接，从而拼接得到注意力机制中的查询向量。这样，保证了得到的查询向量的准确性，从而保证了后续确定的语音风格提示信息的准确性，能够提升后续进行语音合成的准确性。

在一些技术方案中，可选地，根据发音特征对目标文本进行编码，得到目标文本的时长预测信息，包括：根据发音特征对目标文本进行编码得到文本内容相关的内容隐状态特征；根据内容隐状态特征得到目标文本的时长预测信息。

在该技术方案中，在语音风格提示信息的确定装置基于确定的发音特征，对目标文本进行编码，从而得到目标文本的时长预测信息的过程中，具体地，语音风格提示信息的确定装置根据确定的发音特征对目标文本进行编码，以得到与目标文本的文本内容相关的内容隐状态特征。进一步地，语音风格提示信息的确定装置再根据编码得到的内容隐状态特征，对目标文本进行音素级别时长至声学特征级别时长的预测拓展，从而得到目标文本的时长预测信息。这样，保证了对目标文本进行时长预测的准确性，进而提升了后续确定的语音风格提示信息的稳定性和准确性。

在一些技术方案中，可选地，根据目标文本以及参考音频的发音特征，确定预测基频值与预测能量值，包括：根据目标文本的时长预测信息对内容隐状态特征进行时长扩展，得到与目标音频声学特征时间轴长度对齐的声学隐状态特征；根据声学隐状态特征和发音特征预测出对应目标文本的预测基频值与预测能量值。

在该技术方案中，在语音风格提示信息的确定装置根据目标文本以及参考音频的发音特征，确定目标文本的预测基频值与预测能量值的过程中，具体地，语音风格提示信息的确定装置根据目标文本的时长预测信息对目标文本的内容隐状态特征进行时长扩展，得到与目标音频声学特征时间轴长度对齐的声学隐状态特征。进一步地，语音风格提示信息的确定装置再根据声学隐状态特征和上述发音特征对目标文本的基频值和能量值进行预测，得到目标文本的预测基频值与预测能量值。这样，保证了对目标文本的基频值和能量值进行预测的准确性，从而提升了后续确定的语音风格提示信息的稳定性和准确性。

在一些技术方案中，可选地，提取参考音频的键值对向量，包括：提取参考音频的第二声学特征、实际基频值和实际能量值；按照特征维度对第二声学特征、实际基频值和实际能量值进行拼接，得到键值对向量。

在该技术方案中，在语音风格提示信息的确定装置提取参考音频的键值对向量的过程中，语音风格提示信息的确定装置提取参考音频的第二声学特征、实际基频值和实际能量值，并将提取到的第二声学特征、实际能量值以及实际基频值按照特征维度进行拼接，从而拼接得到注意力机制中的键值对向量。这样，保证了得到的键值对向量的准确性，从而保证了后续确定的语音风格提示信息的准确性，能够提升后续进行语音合成的准确性。

根据本发明的第二个方面，提出了一种语音合成方法，该方法包括：获取目标文本和具有目标语音风格的参考音频；根据如上述任一技术方案中的语音风格提示信息的确定方法，确定目标文本的语音风格提示信息；根据目标文本的第一声学特征和语音风格提示信息，确定目标声学特征；根据目标声学特征，合成具有目标语音风格且语音内容为目标文本的语音信息。

本发明提供的语音合成方法的技术方案的执行主体可以为电子设备，还可以为语音合成装置，还可以根据实际使用需求进行确定，在此不作具体限定。为了更加清楚地描述本发明提供的语音合成方法，下面以语音合成方法的执行主体为语音合成装置进行说明。

具体地，在本发明所提供的语音合成方法中，在通过语音合成模型合成语音的过程中，语音合成装置获取输入至语音合成模型中的目标文本以及具有目标语音风格的参考音频。进一步地，语音合成装置按照上述任一技术方案中的语音风格提示信息的确定方法，确定目标文本的语音风格提示信息。进一步地，语音合成装置再根据语音风格提示信息以及确定语音风格提示信息过程中得到的第一声学特征，确定目标声学特征，并根据目标声学特征，合成语音内容为目标文本且具有目标语音风格的语音信息。本发明提供的语音合成方法基于上述任一技术方案中的语音风格提示信息的确定方法实现，因此，本发明提供的语音合成方法具备上述任一技术方案中的语音风格提示信息的确定方法的全部有益效果，在此不再赘述。

根据本发明的第三个方面，提出了一种语音风格提示信息的确定装置，该装置包括：处理单元，用于根据参考音频，提取参考音频的发音特征以及键值对向量；处理单元，还用于根据目标文本以及参考音频的发音特征，确定预测基频值与预测能量值；处理单元，还用于根据预测基频值、预测能量值以及参考音频的发音特征，确定查询向量；处理单元，还用于根据注意力机制处理查询向量和键值对向量，得到目标文本的语音风格提示信息。

本发明提供的语音风格提示信息的确定装置包括处理单元，在确定注入到语音合成模型中的语音风格提示信息的过程中，处理单元获取输入到语音合成模型的目标文本以及参考音频，并对参考音频进行预处理，以提取参考音频的发音特征以及键值对向量，进而再根据目标文本以及参考音频的发音特征，确定目标文本的预测基频值与预测能量值。进一步地，处理单元再基于预测基频值、预测能量值以及参考音频的发音特征，确定注意力机制中的查询向量。在此基础上，处理单元再基于注意力机制对确定的键值对向量以及查询向量进行处理，从而得到注入到语音合成模型中的目标文本的语音风格提示信息。这样，基于并行式的提示输入机制，利用注意力机制实现任意长度的目标文本的语音风格提示信息的注入与特征融合，提升了语音风格提示信息的稳定性和准确性，提高了语音风格提示信息的注入效率，从而提升了后续进行语音合成的准确性。

根据本发明的第四个方面，提出了一种语音合成装置，该装置包括：获取单元，用于获取目标文本和具有目标语音风格的参考音频；处理单元，用于根据如上述任一技术方案中的语音风格提示信息的确定方法，确定目标文本的语音风格提示信息；处理单元，还用于根据目标文本的第一声学特征和语音风格提示信息，确定目标声学特征；处理单元，还用于根据目标声学特征，合成具有目标语音风格且语音内容为目标文本的语音信息。

本发明提供的语音合成装置包括获取单元以及处理单元，在通过语音合成模型合成语音的过程中，获取单元获取输入至语音合成模型中的目标文本以及具有目标语音风格的参考音频。进一步地，处理单元按照上述任一技术方案中的语音风格提示信息的确定方法，确定目标文本的语音风格提示信息。进一步地，处理单元再根据语音风格提示信息以及确定语音风格提示信息过程中得到的第一声学特征，确定目标声学特征，并根据目标声学特征，合成语音内容为目标文本且具有目标语音风格的语音信息。本发明提供的语音合成装置基于上述任一技术方案中的语音风格提示信息的确定方法进行语音合成，因此，本发明提供的语音合成装置具备上述任一技术方案中的语音风格提示信息的确定方法的全部有益效果，在此不再赘述。

根据本发明的第五个方面，提出了一种电子设备，包括处理器和存储器，存储器存储可在处理器上运行的程序或指令，程序或指令被处理器执行时实现如上述任一技术方案中的语音风格提示信息的确定方法的步骤，或者，程序或指令被处理器执行时实现如上述技术方案中的语音合成方法的步骤。因此，本发明第五个方面所提出的电子设备具备上述第一个方面任一技术方案中的语音风格提示信息的确定方法的全部有益效果，或者，本发明第五个方面所提出的电子设备具备上述第二个方面技术方案中的语音合成方法的全部有益效果，在此不再赘述。

根据本发明的第六个方面，提出了一种可读存储介质，其上存储有程序或指令，该程序或指令被处理器执行时实现如上述任一技术方案中的语音风格提示信息的确定方法的步骤，或者，该程序或指令被处理器执行时实现如上述任一技术方案中的语音合成方法的步骤。因此，本发明第六个方面所提出的可读存储介质具备上述第一个方面任一技术方案中的语音风格提示信息的确定方法的全部有益效果，或者，本发明第六个方面所提出的可读存储介质具备上述第二个方面技术方案中的语音合成方法的全部有益效果，在此不再赘述。

根据本发明的第七个方面，提出了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上述任一技术方案中的语音风格提示信息的确定方法的步骤，或者，该计算机程序被处理器执行时实现如上述任一技术方案中的语音合成方法的步骤。因此，本发明第七个方面所提出的计算机程序产品具备上述第一个方面任一技术方案中的语音风格提示信息的确定方法的全部有益效果，或者，本发明第七个方面所提出的计算机程序产品具备上述第二个方面技术方案中的语音合成方法的全部有益效果，在此不再赘述。

本发明的附加方面和优点将在下面的描述部分中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了本发明实施例的语音风格提示信息的确定方法的流程示意图；

图2示出了本发明实施例的语音合成方法的流程示意图；

图3示出了本发明实施例的语音风格提示信息的确定方法的原理图；

图4示出了本发明实施例的语音合成方法的原理图；

图5示出了本发明实施例的语音风格提示信息的确定装置的结构框图；

图6示出了本发明实施例的语音合成装置的结构框图；

图7示出了本发明实施例的电子设备的结构框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不限于下面公开的具体实施例的限制。

下面结合图1至图7，通过具体的实施例及其应用场景对本申请实施例提供的语音风格提示信息的确定方法及装置、电子设备和介质进行详细地说明。

其中，图1示出了本发明实施例的语音风格提示信息的确定方法的流程示意图；图2示出了本发明实施例的语音合成方法的流程示意图；图3示出了本发明实施例的语音风格提示信息的确定方法的原理图；图4示出了本发明实施例的语音合成方法的原理图；图5示出了本发明实施例的语音风格提示信息的确定装置的结构框图；图6示出了本发明实施例的语音合成装置的结构框图；图7示出了本发明实施例的电子设备的结构框图。

在本发明的一个实施例中，如图1所示，语音风格提示信息的确定方法具体可包括下述的步骤102至步骤110：

步骤102，根据参考音频，提取参考音频的发音特征以及键值对向量；

步骤104，根据目标文本以及参考音频的发音特征，确定预测基频值与预测能量值；

步骤106，根据预测基频值、预测能量值以及参考音频的发音特征，确定查询向量；

步骤108，根据注意力机制处理查询向量和键值对向量，得到目标文本的语音风格提示信息。

其中，上述发音特征是参考音频中发音人的特征，发音特征具体为参考音频中发音人的风格向量，即发音特征是一种向量表示，其类似于发音人的声纹信息。

进一步地，在语音风格提示信息的确定装置提取参考音频的发音特征的过程中，如图4所示，语音风格提示信息的确定装置对参考音频进行预处理，提取得到参考音频的第二声学特征、实际能量值以及实际基频值。在此基础上，语音风格提示信息的确定装置再利用参考音频编码器，基于参考音频的实际能量值、实际基频值以及第二声学特征，确定参考音频中发音人的发音特征。

进一步地，上述注意力机制具体可为交叉注意力机制即cross-attention，交叉注意力机制用于挖掘提取两个不同序列间的对于目标任务有益的关联信息。在实际的应用过程中，对于上述注意力机制的具体类型，本领域技术人员可根据实际情况进行设置，在此不作具体限制。

进一步地，在实际的应用过程中，本发明提出的语音风格提示信息的确定方法具体可应用于零次学习语音合成场景、零次学习音色迁移场景以及歌声合成场景等，在此不作具体限制。

在本发明的一些实施例中，可选地，上述键值对向量包括键向量和值向量，在此基础上，上述步骤108具体可包括下述的步骤108a和步骤108b：

步骤108a，根据注意力机制对应的注意力评分函数，对查询向量和键向量进行注意力打分，得到注意力分值矩阵；

步骤108b，将注意力分值矩阵与值向量相乘，得到语音风格提示信息。在该实施例中，上述键值对向量具体可包括值向量以及键向量，其中值向量记作value，键向量记作key，进一步地，查询向量记作query。在此基础上，在语音风格提示信息的确定装置基于注意力机制对确定的键值对向量以及查询向量进行处理，从而得到注入到语音合成模型中的目标文本的语音风格提示信息的过程中，具体地，如图3所示，语音风格提示信息的确定装置利用注意力机制对应的注意力评分函数，对上述确定的键向量key以及查询向量query进行注意力打分，得到每个键向量key以及每个查询向量query的注意力分值，从而得到一个注意力分值矩阵。进一步地，如图3所示，语音风格提示信息的确定装置将上述值向量value与得到的注意力分值矩阵进行相乘，即可得到参考音频的隐状态表征，即得到上述语音风格提示信息。这样，利用注意力机制实现任意长度的目标文本的语音风格提示信息的注入与特征融合，提升了语音风格提示信息的稳定性和准确性，提高了语音风格提示信息的注入效率，从而提升了后续进行语音合成的准确性。

在本发明的一些实施例中，可选地，上述语音风格提示信息的确定方法具体还可包括下述的步骤110，在此基础上，上述步骤106具体可包括下述的步骤106a和步骤106b：

步骤110，根据发音特征对目标文本进行编码，得到目标文本的时长预测信息；

步骤106a，将发音特征、预测基频值、预测能量值和时长预测信息进行解码，得到第一声学特征；

步骤106b，按照特征维度对第一声学特征、预测基频值和预测能量值进行拼接，得到查询向量。

在该实施例中，在提取参考音频的发音特征之后，语音风格提示信息的确定装置基于确定的发音特征，对目标文本进行编码，并对目标文本的音频时长进行预测，得到目标文本的时长预测信息。在此基础上，在语音风格提示信息的确定装置基于预测基频值、预测能量值以及参考音频的发音特征，确定注意力机制中的查询向量的过程中，具体地，语音风格提示信息的确定装置对发音特征、预测基频值、预测能量值和时长预测信息进行解编码操作，从而预测得到目标文本的第一声学特征。进一步地，如图3所示，语音风格提示信息的确定装置将预测得到的第一声学特征、预测能量值以及预测基频值按照特征维度进行拼接，从而拼接得到注意力机制中的查询向量。这样，保证了得到的查询向量的准确性，从而保证了后续确定的语音风格提示信息的准确性，能够提升后续进行语音合成的准确性。

其中，上述时长预测信息只用于扩展音素级别的时长至声学特征级别的时长，时长扩展的过程是把每个音素的特征按照它所占据的时长扩充之后再进行一一拼接的过程，上述时长预测信息本身不和其他特征有拼接操作，其只用于时长扩展。

进一步地，上述第一声学特征是预测的对应目标文本的中间声学特征，第一声学特征一般情况下可带有时间信息，第一声学特征属于频谱特征。

另外，在本发明提供的语音风格提示信息的确定方法中，上述查询向量的生成也可以不依赖于目标文本的时长预测信息或时长拓展信息，即可不依赖于图4中的“时长预测/拓展”模块的相关信息，在此不作具体限制。

在本发明的一些实施例中，可选地，上述步骤110具体可包括下述的步骤110a和步骤110b：

步骤110a，根据发音特征对目标文本进行编码得到文本内容相关的内容隐状态特征；

步骤110b，根据内容隐状态特征得到目标文本的时长预测信息。

在该实施例中，在语音风格提示信息的确定装置基于确定的发音特征，对目标文本进行编码，从而得到目标文本的时长预测信息的过程中，具体地，语音风格提示信息的确定装置根据确定的发音特征对目标文本进行编码，以得到与目标文本的文本内容相关的内容隐状态特征。进一步地，语音风格提示信息的确定装置再根据编码得到的内容隐状态特征，对目标文本进行音素级别时长至声学特征级别时长的预测拓展，从而得到目标文本的时长预测信息。这样，保证了对目标文本进行时长预测的准确性，进而提升了后续确定的语音风格提示信息的稳定性和准确性。

在本发明的一些实施例中，可选地，上述步骤104具体可包括下述的步骤104a和步骤104b：

步骤104a，根据目标文本的时长预测信息对内容隐状态特征进行时长扩展，得到与目标音频声学特征时间轴长度对齐的声学隐状态特征；

步骤104b，根据声学隐状态特征和发音特征预测出对应目标文本的预测基频值与预测能量值。

在该实施例中，在语音风格提示信息的确定装置根据目标文本以及参考音频的发音特征，确定目标文本的预测基频值与预测能量值的过程中，具体地，语音风格提示信息的确定装置根据目标文本的时长预测信息对目标文本的内容隐状态特征进行时长扩展，得到与目标音频声学特征时间轴长度对齐的声学隐状态特征。进一步地，语音风格提示信息的确定装置再根据声学隐状态特征和上述发音特征对目标文本的基频值和能量值进行预测，得到目标文本的预测基频值与预测能量值。这样，保证了对目标文本的基频值和能量值进行预测的准确性，从而提升了后续确定的语音风格提示信息的稳定性和准确性。

需要说明的是，在本发明提供的语音风格提示信息的确定方法中，对目标文本的预测基频值和预测能量值进行预测的过程在时长扩展过程之后，而非在时长扩展过程之前进行预测。具体地，在本发明提供的语音风格提示信息的确定方法中，语音风格提示信息的确定装置基于目标文本的内容隐状态特征，直接预测和目标音频的声学特征时长一致的、目标文本的预测基频值和预测能量值。

其中，上述目标音频可为上述参考音频，还可为其他音频，在此不作具体限制。

另外，在本发明提供的语音风格提示信息的确定方法中，语音风格提示信息的确定装置还可根据目标文本的声学隐状态特征和发音特征，预测出对应目标文本的第一声学特征，在此不作具体限制。

在本发明的一些实施例中，可选地，上述提取参考音频的键值对向量的步骤，具体可包括下述的步骤112和步骤114：

步骤112，提取参考音频的第二声学特征、实际基频值和实际能量值；

步骤114，按照特征维度对第二声学特征、实际基频值和实际能量值进行拼接，得到键值对向量。

在该实施例中，在语音风格提示信息的确定装置提取参考音频的键值对向量的过程中，语音风格提示信息的确定装置提取参考音频的第二声学特征、实际基频值和实际能量值。进一步地，如图3所示，语音风格提示信息的确定装置将提取到的第二声学特征、实际能量值以及实际基频值按照特征维度进行拼接，从而拼接得到注意力机制中的键向量以及值向量，即拼接得到注意力机制中的键值对向量。这样，保证了得到的键值对向量的准确性，从而保证了后续确定的语音风格提示信息的准确性，能够提升后续进行语音合成的准确性。

其中，上述第二声学特征是参考音频的中间声学特征，第二声学特征一般情况下可带有时间信息，第二声学特征属于参考音频的频谱特征。

在本发明的一些实施例中，如图2所示，语音合成方法具体可包括下述的步骤202至步骤208：

步骤202，获取目标文本和具有目标语音风格的参考音频；

步骤204，根据语音风格提示信息的确定方法，确定目标文本的语音风格提示信息；

步骤206，根据目标文本的第一声学特征和语音风格提示信息，确定目标声学特征；

步骤208，根据目标声学特征，合成具有目标语音风格且语音内容为目标文本的语音信息。

具体地，在本发明所提供的语音合成方法中，在通过语音合成模型合成语音的过程中，语音合成装置获取输入至语音合成模型中的目标文本以及具有目标语音风格的参考音频。进一步地，语音合成装置按照上述任一实施例中的语音风格提示信息的确定方法，确定目标文本的语音风格提示信息。进一步地，语音合成装置再根据语音风格提示信息以及确定语音风格提示信息过程中得到的第一声学特征，确定目标声学特征，并根据目标声学特征，合成语音内容为目标文本且具有目标语音风格的语音信息。本发明提供的语音合成方法基于上述任一实施例中的语音风格提示信息的确定方法实现，因此，本发明提供的语音合成方法具备上述任一实施例中的语音风格提示信息的确定方法的全部有益效果，在此不再赘述。

其中，上述第一声学特征是预测的对应目标文本的中间声学特征，第一声学特征一般情况下可带有时间信息，第一声学特征属于频谱特征。

综上所述，本发明实施例提供的语音合成方法的语音合成框架具体可如图4所示，相较于传统的语音合成框架，本发明实施例提供的语音合成方法的语音合成框架为并行式语音合成框架，且该语音合成框架在解码模块和解码后处理网络之间添加了一个交叉注意力模块。

在此基础上，在通过上述语音合成框架合成语音的过程中，如图4所示，对输入至语音合成框架中的参考音频进行预处理，提取得到参考音频的第二声学特征、实际能量值以及实际基频值，进而再利用参考音频编码器，基于参考音频的实际能量值、实际基频值以及第二声学特征，确定参考音频中发音人的发音特征。进一步地，基于确定的发音特征，通过编码模块对输入至语音合成框架中的目标文本进行编码，得到与目标文本的文本内容相关的内容隐状态特征，并根据内容隐状态特征对目标文本的音频时长进行预测及拓展，得到目标文本的时长预测信息。进一步地，根据目标文本的时长预测信息对内容隐状态特征进行时长扩展，得到与目标音频声学特征时间轴长度对齐的声学隐状态特征，并根据声学隐状态特征和发音特征预测出对应目标文本的预测能量值以及预测基频值。进一步地，对确定的发音特征、时长预测信息、预测能量值以及预测基频值进行解编码操作，从而预测得到目标文本的第一声学特征。

进一步地，如图4所示，将预测得到的第一声学特征、预测能量值以及预测基频值按照特征维度进行拼接，拼接得到注意力机制中的查询向量query，以及将提取到的第二声学特征、实际能量值以及实际基频值按照特征维度进行拼接，拼接得到注意力机制中的键向量key和值向量value。进一步地，将得到的查询向量query、键向量key和值向量value输入至交叉注意力模块，基于交叉注意力机制，对查询向量query、键向量key和值向量value进行处理，并输出目标文本的语音风格提示信息。进一步地，将解码模块输出的第一声学特征以及交叉注意力模块输出的语音风格提示信息相加后输入至解码后处理网络，解码后处理网络基于第一声学特征以及语音风格提示信息输出最终的目标声学特征，语音合成框架基于该目标声学特征，合成语音内容为目标文本且具有目标语音风格的语音信息。

可以理解的是，目前的零次学习语音合成在音色控制方面的挑战性较大，现有的零次学习语音合成方案对于集外发音人的泛化能力一般。并且，现有的语音合成方案的语音prompt工程结构的效率不够高，稳定性也较差，限制了零次学习场景的音色学习效果。而通过本申请实施例提供的语音风格提示信息的确定方法，能够实现语音风格提示信息的高效且稳定的注入，本发明基于并行式的提示输入机制，利用注意力机制实现任意长度的目标文本的语音风格提示信息的注入与特征融合，提升了语音风格提示信息的稳定性和准确性，提高了语音风格提示信息的注入效率，从而提升了后续进行语音合成的准确性。

在本发明的一个实施例中，还提出了一种语音风格提示信息的确定装置。如图5所示，图5示出了本发明实施例的语音风格提示信息的确定装置500的结构框图。其中，该语音风格提示信息的确定装置500具体可包括下述的处理单元502：

处理单元502，用于根据参考音频，提取参考音频的发音特征以及键值对向量；

处理单元502，还用于根据目标文本以及参考音频的发音特征，确定预测基频值与预测能量值；

处理单元502，还用于根据预测基频值、预测能量值以及参考音频的发音特征，确定查询向量；

处理单元502，还用于根据注意力机制处理查询向量和键值对向量，得到目标文本的语音风格提示信息。

本发明实施例提供的语音风格提示信息的确定装置500包括处理单元502，在确定注入到语音合成模型中的语音风格提示信息的过程中，处理单元502获取输入到语音合成模型的目标文本以及参考音频，并对参考音频进行预处理，以提取参考音频的发音特征以及键值对向量，进而再根据目标文本以及参考音频的发音特征，确定目标文本的预测基频值与预测能量值。进一步地，处理单元502再基于预测基频值、预测能量值以及参考音频的发音特征，确定注意力机制中的查询向量。在此基础上，处理单元502再基于注意力机制对确定的键值对向量以及查询向量进行处理，从而得到注入到语音合成模型中的目标文本的语音风格提示信息。这样，基于并行式的提示输入机制，利用注意力机制实现任意长度的目标文本的语音风格提示信息的注入与特征融合，提升了语音风格提示信息的稳定性和准确性，提高了语音风格提示信息的注入效率，从而提升了后续进行语音合成的准确性。

进一步地，在处理单元502提取参考音频的发音特征的过程中，如图4所示，处理单元502对参考音频进行预处理，提取得到参考音频的第二声学特征、实际能量值以及实际基频值。在此基础上，处理单元502再利用参考音频编码器，基于参考音频的实际能量值、实际基频值以及第二声学特征，确定参考音频中发音人的发音特征。

进一步地，在实际的应用过程中，本发明提出的语音风格提示信息的确定装置500具体可应用于零次学习语音合成场景、零次学习音色迁移场景以及歌声合成场景等，在此不作具体限制。

在本发明的一些实施例中，可选地，键值对向量包括键向量和值向量，处理单元502具体用于：根据注意力机制对应的注意力评分函数，对查询向量和键向量进行注意力打分，得到注意力分值矩阵；将注意力分值矩阵与值向量相乘，得到语音风格提示信息。

在本发明的一些实施例中，可选地，处理单元502具体用于：根据发音特征对目标文本进行编码，得到目标文本的时长预测信息；将发音特征、预测基频值、预测能量值和时长预测信息进行解码，得到第一声学特征；按照特征维度对第一声学特征、预测基频值和预测能量值进行拼接，得到查询向量。

在本发明的一些实施例中，可选地，处理单元502具体用于：根据发音特征对目标文本进行编码得到文本内容相关的内容隐状态特征；根据内容隐状态特征得到目标文本的时长预测信息。

在本发明的一些实施例中，可选地，处理单元502具体用于：根据目标文本的时长预测信息对内容隐状态特征进行时长扩展，得到与目标音频声学特征时间轴长度对齐的声学隐状态特征；根据声学隐状态特征和发音特征预测出对应目标文本的预测基频值与预测能量值。

在本发明的一些实施例中，可选地，处理单元502具体用于：提取参考音频的第二声学特征、实际基频值和实际能量值；按照特征维度对第二声学特征、实际基频值和实际能量值进行拼接，得到键值对向量。

在本发明的一个实施例中，还提出了一种语音合成装置。如图6所示，图6示出了本发明实施例的语音合成装置600的结构框图。其中，该语音合成装置600具体可包括下述的获取单元602和处理单元604：

获取单元602，用于获取目标文本和具有目标语音风格的参考音频；

处理单元604，用于根据如上述任一实施例中的语音风格提示信息的确定方法，确定目标文本的语音风格提示信息；

处理单元604，还用于根据目标文本的第一声学特征和语音风格提示信息，确定目标声学特征；

处理单元604，还用于根据目标声学特征，合成具有目标语音风格且语音内容为目标文本的语音信息。

本发明实施例提供的语音合成装置600包括获取单元602以及处理单元604，在通过语音合成模型合成语音的过程中，获取单元602获取输入至语音合成模型中的目标文本以及具有目标语音风格的参考音频。进一步地，处理单元604按照上述任一实施例中的语音风格提示信息的确定方法，确定目标文本的语音风格提示信息。进一步地，处理单元604再根据语音风格提示信息以及确定语音风格提示信息过程中得到的第一声学特征，确定目标声学特征，并根据目标声学特征，合成语音内容为目标文本且具有目标语音风格的语音信息。本发明提供的语音合成装置600基于上述任一实施例中的语音风格提示信息的确定方法进行语音合成，因此，本发明提供的语音合成装置600具备上述任一实施例中的语音风格提示信息的确定方法的全部有益效果，在此不再赘述。

在本发明的一个实施例中，还提出了一种电子设备。如图7所示，图7示出了本发明实施例提供的电子设备700的结构框图。其中，该电子设备700包括：

存储器702，存储器702上存储有程序或指令；

处理器704，处理器704执行上述程序或指令时实现如上述任一实施例中的语音风格提示信息的确定方法的步骤，或者，处理器704执行上述程序或指令时实现如上述实施例中的语音合成方法的步骤。

本实施例提供的电子设备700包括存储器702和处理器704，存储器702中的程序或指令被处理器704执行时实现如上述任一实施例中的语音风格提示信息的确定方法的步骤，或者，存储器702中的程序或指令被处理器704执行时实现如上述实施例中的语音合成方法的步骤。因此，该电子设备700具备上述任一实施例中的语音风格提示信息的确定方法的全部有益效果，或者，该电子设备700具备上述实施例中的语音合成方法的全部有益效果，在此不再赘述。

具体地，存储器702和处理器704可以通过总线或者其它方式连接。处理器704可包括一个或多个处理单元，处理器704可以为中央处理器(Central Processing Unit，CPU)、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable GateArray，FPGA)等芯片。

在实际的应用过程中，上述电子设备700包括但不限于：台式电脑、笔记本电脑、平板电脑、手机、智能手表、变声器以及录音机等，在此不作具体限制。

本发明第六方面的实施例，提出了一种可读存储介质。其上存储有程序或指令，程序或指令被处理器执行时实现如上述任一实施例中的语音风格提示信息的确定方法的步骤，或者，程序或指令被处理器执行时实现如上述实施例中的语音合成方法的步骤。

本发明实施例提供的可读存储介质，其存储的程序或指令被处理器执行时，可实现如上述任一实施例中的语音风格提示信息的确定方法的步骤，或者，可实现如上述实施例中的语音合成方法的步骤。因此，该可读存储介质具备上述任一实施例中的语音风格提示信息的确定方法的全部有益效果，或者，该可读存储介质具备上述实施例中的语音合成方法的全部有益效果，在此不再赘述。

具体地，上述可读存储介质可以包括能够存储或传输信息的任何介质。可读存储介质的例子包括电子电路、半导体存储器设备、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、光盘只读存储器(Compact Disc Read-OnlyMemory，CD-ROM)、闪存、可擦除ROM(EROM)、磁带、软盘、光盘、硬盘、光纤介质、射频(RF)链路、光数据存储设备等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

本发明第七方面的实施例，提出了一种计算机程序产品，其包括计算机程序，该计算机程序被处理器执行时实现如上述任一实施例中的语音风格提示信息的确定方法的步骤，或者，该计算机程序被处理器执行时实现如上述实施例中的语音合成方法的步骤。因此，本发明第七个方面所提出的计算机程序产品具备上述第一个方面任一实施例中的语音风格提示信息的确定方法的全部有益效果，或者，本发明第七个方面所提出的计算机程序产品具备上述第二个方面实施例中的语音合成方法的全部有益效果，在此不再赘述。

在实际的应用过程中，上述计算机程序产品包括但不限于：台式电脑、笔记本电脑、平板电脑、手机、智能手表、变声器、录音机、上位机以及服务器平台等，在此不作具体限制。

在本说明书的描述中，术语“第一”、“第二”仅用于描述的目的，而不能理解为指示或暗示相对重要性，除非另有明确的规定和限定；术语“连接”、“安装”、“固定”等均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音风格提示信息的确定方法，其特征在于，包括：

根据参考音频，提取所述参考音频的发音特征以及键值对向量；

根据目标文本以及所述参考音频的发音特征，确定预测基频值与预测能量值；

根据所述预测基频值、所述预测能量值以及所述参考音频的发音特征，确定查询向量；

根据注意力机制处理所述查询向量和所述键值对向量，得到所述目标文本的语音风格提示信息。

2.根据权利要求1所述的语音风格提示信息的确定方法，其特征在于，所述键值对向量包括键向量和值向量，所述根据注意力机制处理所述查询向量和所述键值对向量，得到所述目标文本的语音风格提示信息，包括：

根据所述注意力机制对应的注意力评分函数，对所述查询向量和所述键向量进行注意力打分，得到注意力分值矩阵；

将所述注意力分值矩阵与所述值向量相乘，得到所述语音风格提示信息。

3.根据权利要求1所述的语音风格提示信息的确定方法，其特征在于，所述确定方法还包括：

根据所述发音特征对所述目标文本进行编码，得到所述目标文本的时长预测信息；

所述根据所述预测基频值、所述预测能量值以及所述参考音频的发音特征，确定查询向量，包括：

将所述发音特征、所述预测基频值、所述预测能量值和所述时长预测信息进行解码，得到第一声学特征；

按照特征维度对所述第一声学特征、所述预测基频值和所述预测能量值进行拼接，得到所述查询向量。

4.根据权利要求3所述的语音风格提示信息的确定方法，其特征在于，所述根据所述发音特征对所述目标文本进行编码，得到所述目标文本的时长预测信息，包括：

根据所述发音特征对所述目标文本进行编码得到文本内容相关的内容隐状态特征；

根据所述内容隐状态特征得到所述目标文本的所述时长预测信息。

5.根据权利要求4所述的语音风格提示信息的确定方法，其特征在于，所述根据目标文本以及所述参考音频的发音特征，确定预测基频值与预测能量值，包括：

根据所述目标文本的所述时长预测信息对所述内容隐状态特征进行时长扩展，得到与目标音频声学特征时间轴长度对齐的声学隐状态特征；

根据所述声学隐状态特征和所述发音特征预测出对应所述目标文本的所述预测基频值与所述预测能量值。

6.根据权利要求1至5中任一项所述的语音风格提示信息的确定方法，其特征在于，提取所述参考音频的键值对向量，包括：

提取所述参考音频的第二声学特征、实际基频值和实际能量值；

按照特征维度对所述第二声学特征、所述实际基频值和所述实际能量值进行拼接，得到所述键值对向量。

7.一种语音合成方法，其特征在于，包括：

获取目标文本和具有目标语音风格的参考音频；

根据如权利要求1至6中任一项所述的语音风格提示信息的确定方法，确定所述目标文本的语音风格提示信息；

根据所述目标文本的第一声学特征和所述语音风格提示信息，确定目标声学特征；

根据所述目标声学特征，合成具有所述目标语音风格且语音内容为所述目标文本的语音信息。

8.一种语音风格提示信息的确定装置，其特征在于，包括：

处理单元，用于根据参考音频，提取所述参考音频的发音特征以及键值对向量；

所述处理单元，还用于根据目标文本以及所述参考音频的发音特征，确定预测基频值与预测能量值；

所述处理单元，还用于根据所述预测基频值、所述预测能量值以及所述参考音频的发音特征，确定查询向量；

所述处理单元，还用于根据注意力机制处理所述查询向量和所述键值对向量，得到所述目标文本的语音风格提示信息。

9.一种语音合成装置，其特征在于，包括：

获取单元，用于获取目标文本和具有目标语音风格的参考音频；

处理单元，用于根据如权利要求1至6中任一项所述的语音风格提示信息的确定方法，确定所述目标文本的语音风格提示信息；

所述处理单元，还用于根据所述目标文本的第一声学特征和所述语音风格提示信息，确定目标声学特征；

所述处理单元，还用于根据所述目标声学特征，合成具有所述目标语音风格且语音内容为所述目标文本的语音信息。

10.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至6中任一项所述的语音风格提示信息的确定方法的步骤，或者，所述程序或指令被所述处理器执行时实现如权利要求7所述的语音合成方法的步骤。

11.一种可读存储介质，其特征在于，所述可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如权利要求1至6中任一项所述的语音风格提示信息的确定方法的步骤，或者，所述程序或指令被处理器执行时实现如权利要求7所述的语音合成方法的步骤。

12.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的语音风格提示信息的确定方法的步骤，或者，所述计算机程序被处理器执行时实现如权利要求7所述的语音合成方法的步骤。