CN117711375A

CN117711375A - 语音生成方法、装置、计算机设备和存储介质

Info

Publication number: CN117711375A
Application number: CN202311829187.1A
Authority: CN
Inventors: 周远侠
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-03-15

Abstract

本申请涉及一种语音生成方法、装置、计算机设备和存储介质，涉及计算机技术领域。可用于金融科技领域或其他相关领域。所述方法包括：从预设的语音数据库中查找语音文本对应的音节标记数据；根据语音文本，确定语音文本的韵律参数信息；根据韵律参数信息和音节标记数据，对语音文本的语音波形数据进行修改，得到音节标记数据对应的待合成波形数据；根据待合成波形数据，生成语音文本对应的目标语音。采用本方法能够通过分析语音文本的上下文语义，确定语音文本的韵律参数，结合语音文本在语音数据库中的音节标记数据，修改语音文本各语音段对应的语音波形，得到具有与语音文本的上下文语义相匹配的韵律特征的目标语音，提高合成的语音的自然度。

Description

语音生成方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音生成方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

在金融领域中，客户服务是用户与平台之间进行高效交流的重要途径，自动客服可以大大提高用户与平台之间的交流效率，自动客服的客服语音对改善用户体验发挥着重要作用。

传统技术主要采用线性预测编码技术（LPC）进行语音合成，线性预测编码技术是一种时间波形的编码技术，线性预测编码技术可以看作对语音的解码和拼接过程，然而，传统技术无法考虑到自然语流中的语音和孤立状况下的语音之间的区别，不利于提高合成的语音的自然度。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高合成的语音的自然度的语音生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种语音生成方法，包括：

从预设的语音数据库中查找语音文本对应的音节标记数据；所述预设的语音数据库包括至少一个经过预先音节标记的音节样本；

根据所述语音文本，确定所述语音文本对应的韵律参数信息；

根据所述韵律参数信息和所述音节标记数据，对所述语音文本的语音波形数据进行修改，得到所述音节标记数据对应的待合成波形数据；

根据所述待合成波形数据，生成所述语音文本对应的目标语音。

在其中一个实施例中，所述根据所述语音文本，确定所述语音文本对应的韵律参数信息，包括：

按照预设的词调规则和语调规则，确定所述语音文本对应的调域信息和调型信息；

根据所述语音文本，确定所述语音文本对应的发音时长信息和发音停顿信息；

根据所述调域信息、所述调型信息、所述发音时长信息和所述发音停顿信息，确定所述语音文本对应的韵律参数信息。

在其中一个实施例中，所述根据所述韵律参数信息和所述音节标记数据，对所述语音文本的语音波形数据进行修改，得到所述音节标记数据对应的待合成波形数据，包括：

获取所述语音波形数据中各语音片段的基音周期，根据所述各语音片段的基音周期，确定各语音片段的基音标注位置；

根据所述基音周期和所述基音标注位置，生成所述各语音片段的片段波形数据对应的同步波形数据；所述同步波形数据与所述各语音片段的片段波形数据的基音标记相匹配；

根据所述韵律参数信息和所述音节标记数据，对所述同步波形数据进行修改，得到所述音节标记数据对应的待合成波形数据。

在其中一个实施例中，所述根据所述各语音片段的基音周期，确定各语音片段的基音标注位置，包括：

针对所述各语音片段中的任意一个浊音片段，将所述浊音片段中目标峰值数据对应的坐标位置作为标注点；

根据所述浊音片段中目标峰值数据对应的基音周期和所述标注点，确定所述浊音片段对应的候选标注位置；

基于动态规划，从所述候选标注位置中筛选出所述浊音片段的基音标注位置；所述基音标注位置满足预设的动态规划路径条件；

根据所述浊音片段的基音标注位置，确定所述各语音片段的基音标注位置。

在其中一个实施例中，所述根据所述韵律参数信息和所述音节标记数据，对所述同步波形数据进行修改，得到所述音节标记数据对应的待合成波形数据，包括：

根据所述韵律参数信息，确定所述音节标记数据对应的基频修改参数和时长修改参数；

根据所述基频修改参数和所述时长修改参数，确定所述同步波形数据对应的合成时间信息和分析时间信息；

在所述合成时间信息和所述分析时间信息对应的时间点，按照所述基频修改参数和所述时长修改参数，对所述同步波形数据进行修改，得到所述音节标记数据对应的待合成波形数据。

在其中一个实施例中，所述按照所述基频修改参数和所述时长修改参数，对所述同步波形数据进行修改，得到所述音节标记数据对应的待合成波形数据，包括：

根据所述基频修改参数和所述时长修改参数，确定所述同步波形数据对应的待修改标注点和待修改标注点间距信息；

根据所述待修改标注点和所述待修改标注点间距信息，修改所述同步波形数据的音长和音高，得到所述音节标记数据对应的待合成波形数据。

在其中一个实施例中，所述从预设的语音数据库中查找语音文本对应的音节标记数据，包括：

获取所述语音文本对应的音节数据；

在所述预设的语音数据库中的音节样本中查找与所述音节数据相匹配的候选音节数据；

将所述候选音节数据作为所述语音文本对应的音节标记数据。

第二方面，本申请还提供了一种语音生成装置，包括：

查找模块，用于从预设的语音数据库中查找语音文本对应的音节标记数据；所述预设的语音数据库包括至少一个经过预先音节标记的音节样本；

确定模块，用于根据所述语音文本，确定所述语音文本对应的韵律参数信息；

修改模块，用于根据所述韵律参数信息和所述音节标记数据，对所述语音文本的语音波形数据进行修改，得到所述音节标记数据对应的待合成波形数据；

生成模块，用于根据所述待合成波形数据，生成所述语音文本对应的目标语音。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

上述语音生成方法、装置、计算机设备、存储介质和计算机程序产品，通过从预设的语音数据库中查找语音文本对应的音节标记数据，从而利用预设的语音数据库中经过预先音节标记的音节样本，确定语音文本中各音节对应的音节信息；根据语音文本，确定语音文本对应的韵律参数信息，从而通过分析语音文本的语义，确定与语音文本的韵律相关的参数信息；根据韵律参数信息和音节标记数据，对语音文本的语音波形数据进行修改，得到音节标记数据对应的待合成波形数据，从而基于韵律参数信息和音节标记数据，针对性地修改语音文本的语音波形数据，得到待合成波形数据；根据待合成波形数据，生成语音文本对应的目标语音，能够通过分析语音文本的韵律特征，结合语音文本在预设的语音数据库中的音节标记数据，对语音文本的各语音段对应的语音波形进行针对性修改，得到待合成语音波形数据，并将待合成语音波形数据拼接和转换，得到目标语音，实现通过分析语音文本的上下文语义，确定语音文本的韵律参数，结合语音文本在预设的语音数据库中的音节标记数据，修改语音文本的各语音段对应的语音波形，并对修改得到的待合成波形进行拼接和转换，得到具有与语音文本的上下文语义相匹配的韵律特征的目标语音，进而提高合成的语音的自然度。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中一种语音生成方法的应用环境图；

图2为一个实施例中一种语音生成方法的流程示意图；

图3为一个实施例中一种基音标注位置的示意图；

图4为一个实施例中一种客服语音生成方法的流程示意图；

图5为一个实施例中一种语音生成装置的结构框图；

图6为一个实施例中一种计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的语音生成方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。从预设的语音数据库中查找语音文本对应的音节标记数据；预设的语音数据库包括至少一个经过预先音节标记的音节样本；根据语音文本，确定语音文本对应的韵律参数信息；根据韵律参数信息和音节标记数据，对语音文本的语音波形数据进行修改，得到音节标记数据对应的待合成波形数据；根据待合成波形数据，生成语音文本对应的目标语音。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个示例性的实施例中，如图2所示，提供了一种语音生成方法，以该方法应用于服务器为例进行说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤S202，从预设的语音数据库中查找语音文本对应的音节标记数据。

其中，预设的语音数据库可以是指包含由汉语普通话所有音节的数据库，预设的语音数据库包括至少一个经过预先音节标记的音节样本，例如：当需要为银行自动客服合成语音时，预设的语音数据库可以包括汉语普通话所有的音节，预设的语音数据库还可以包括银行客户服务问答专业语料库，一些儿化音也可以作为音节录入预设的语音数据库，预设的语音数据库中的音节（音节样本）需要经过预先的音节标记（基音标记），具体的，可以对音节的声母的清音部分按均匀间隔进行标记，从而使得经过预先音节标记的音节和对应标记构成分析时刻序列，还可以将分析时刻序列保存至预设的基音标记库和/或语音数据库。

其中，语音文本可以是指用于语音合成的文字信息，实际应用中，语音文本可以包括任意长度的文字信息。

其中，音节标记数据可以是指预设的语音数据库中与语音文本的音节相匹配的音节样本和/或分析时刻序列，实际应用中，音节标记数据可以包括对语音文本的音节进行基音标记后得到的数据。

作为一种示例，为了获得自然流畅的合成语音，服务器可以通过预设的语音数据库，确定语音文本对应的音节数据，音节数据能够作为语音合成的依据，具体地，服务器可以从预设的语音数据库中查找语音文本的音节数据相匹配的音节标记数据。

步骤S204，根据语音文本，确定语音文本对应的韵律参数信息。

其中，韵律参数信息可以是指表征语音文本的韵律特征的数据，实际应用中，韵律参数信息可以包括但不限于音长、音高、语速、共振峰和语速等。

作为一种示例，为了保证合成的语音能够充分结合上下文的语音特征，服务器需要对语音文本进行语音分析，确定语音文本对应的韵律参数信息，具体地，服务器可以利用预训练的语音学处理模型，对语音文本进行语义分析，语音学处理模型可以根据汉语语句发音的词调规则和语调规则，确定每个音节的原始音节波形、分析基音标记、调域、调型曲线以及时长、停顿等韵律参数。

步骤S206，根据韵律参数信息和音节标记数据，对语音文本的语音波形数据进行修改，得到音节标记数据对应的待合成波形数据。

其中，语音波形数据可以是指表征语音文本的各音节对应的语音信号的响度（或频率）随时间变化的规律的数据，实际应用中，语音波形数据可以包括语音文本的各音节的原始音节波形，原始音节波形可以是指音节的原始发音对应的波形。

其中，待合成波形数据可以是指用于生成语音的波形，实际应用中，最终生成的语音可以利用待合成波形数据转换得到。

作为一种示例，服务器根据韵律参数信息和音节标记数据，对语音文本的语音波形数据进行修改，具体地，服务器可以根据韵律参数信息和音节标记数据，对语音文本的语音波形数据中的各原始音节波形进行修改，得到音节标记数据对应的待合成波形数据，待合成波形数据可以包括若干个波形数据。

步骤S208，根据待合成波形数据，生成语音文本对应的目标语音。

其中，目标语音可以是指以特定朗读方式（如特定音色、特定语气、特定节奏等）朗读语音文本的音频，实际应用中，目标语音可以包括客服语音。

作为一种示例，服务器可以将待合成波形数据拼接，得到语音合成波形数据，服务器可以将语音合成波形数据转换为语音文本对应的目标语音。

上述语音生成方法中，通过从预设的语音数据库中查找语音文本对应的音节标记数据，从而利用预设的语音数据库中经过预先音节标记的音节样本，确定语音文本中各音节对应的音节信息；根据语音文本，确定语音文本对应的韵律参数信息，从而通过分析语音文本的语义，确定与语音文本的韵律相关的参数信息；根据韵律参数信息和音节标记数据，对语音文本的语音波形数据进行修改，得到音节标记数据对应的待合成波形数据，从而基于韵律参数信息和音节标记数据，针对性地修改语音文本的语音波形数据，得到待合成波形数据；根据待合成波形数据，生成语音文本对应的目标语音，能够通过分析语音文本的韵律特征，结合语音文本在预设的语音数据库中的音节标记数据，对语音文本的各语音段对应的语音波形进行针对性修改，得到待合成语音波形数据，并将待合成语音波形数据拼接和转换，得到目标语音，实现通过分析语音文本的上下文语义，确定语音文本的韵律参数，结合语音文本在预设的语音数据库中的音节标记数据，修改语音文本的各语音段对应的语音波形，并对修改得到的待合成波形进行拼接和转换，得到具有与语音文本的上下文语义相匹配的韵律特征的目标语音，进而提高合成的语音的自然度。

在一个示例性的实施例中，根据语音文本，确定语音文本对应的韵律参数信息，包括：按照预设的词调规则和语调规则，确定语音文本对应的调域信息和调型信息；根据语音文本，确定语音文本对应的发音时长信息和发音停顿信息；根据调域信息、调型信息、发音时长信息和发音停顿信息，确定语音文本对应的韵律参数信息。

其中，词调规则可以是指预先设置的、用于分析语音文本的文词和音调的信息。

其中，语调规则可以是指预先设置的、用于分析朗读语音文本时声音的高低轻重快慢变化的信息。

其中，调域信息可以是指表征语音文本的各音节的音高的信息。

其中，调型信息可以是指表征语音文本的各音节的声调的类型的信息。

其中，发音时长信息可以是指表征语音文本的各音节的发音时长的信息。

其中，发音停顿信息可以是指表征语音文本中停顿和停顿时长的信息。

作为一种示例，服务器可以利用预训练的语音学处理模型，对语音文本进行语义分析，具体地，服务器按照预设的词调规则和语调规则，确定语音文本对应的调域信息和调型信息，服务器根据语音文本，确定语音文本对应的发音时长信息和发音停顿信息，服务器根据调域信息、调型信息、发音时长信息和发音停顿信息，确定语音文本对应的韵律参数信息。

本实施例中，通过按照预设的词调规则和语调规则，确定语音文本对应的调域信息和调型信息；根据语音文本，确定语音文本对应的发音时长信息和发音停顿信息；根据调域信息、调型信息、发音时长信息和发音停顿信息，确定语音文本对应的韵律参数信息，能够充分结合语音文本的上下文，对语音文本进行语义分析，得到准确的韵律参数信息，从而为后续语音波形的修改提供数据基础，实现对语音波形的准确修改，进而提高合成的语音的自然度。

在一些实施例中，根据韵律参数信息和音节标记数据，对语音文本的语音波形数据进行修改，得到音节标记数据对应的待合成波形数据，包括：获取语音波形数据中各语音片段的基音周期，根据各语音片段的基音周期，确定各语音片段的基音标注位置；根据基音周期和基音标注位置，生成各语音片段的片段波形数据对应的同步波形数据；根据韵律参数信息和音节标记数据，对同步波形数据进行修改，得到音节标记数据对应的待合成波形数据。

其中，各语音片段可以是指按照预设的划分条件，将语音文本中的音节划分为若干语音片段后得到的数据。

其中，基音周期可以是指发音时一个声门周期的持续时间，实际应用中，人在发浊音时，气流通过声门使声带产生张驰振荡式振动，产生一股准周期脉冲气流，这一气流激励声道就产生浊音，又称有声语音，它携带着语音中的大部分能量，这种声带振动的频率称为基频(Fundamental Frequency)，一个声门周期的持续时间就称为基音周期（PitchPeriod），基频是基音周期的倒数；基音周期可以由声带逐渐开启到面积最大（约占基音周期的50%）、逐渐关闭到完全闭合（约占基音周期的35%）、完全闭合（约占基音周期的15%）三部分组成。

其中，基音标注位置可以是指用于表征声道的脉冲响应的位置的信息。

其中，片段波形数据可以是指语音文本的各语音片段对应的波形数据，实际应用中，可以将语音文本的语音波形数据划分为若干个片段波形数据。

其中，同步波形数据可以是指与语音文本对应的片段波形数据具有相同的基音标注（或基音标记）的波形数据，实际应用中，同步波形数据与各语音片段的片段波形数据的基音标记相匹配，具体地，基音标记可以包括基音标注位置。

作为一种示例，服务器通过分析语音文本的语音波形数据和音节标记数据，确定语音波形数据中各语音片段的基音周期，具体地，基音标注需要确定基音周期，基音周期的确定方法可以包括自相关法、自相关法、线性预测法等多种方法，以线性预测法为例，步骤为1-降采样、2-线性预测分析、3-逆滤波信号、4-计算短时自相关，得到的峰值即对应着基音周期，得到基音周期后还可以经过中值滤波进行平滑处理；服务器根据各语音片段的基音周期，确定各语音片段的基音标注位置，服务器根据各语音片段的片段波形数据基音周期和基音标注位置，生成与各语音片段的片段波形数据的基音标记相匹配的同步波形数据，服务器根据韵律参数信息和音节标记数据，对同步波形数据进行修改，得到音节标记数据对应的待合成波形数据。

本实施例中，通过获取语音波形数据中各语音片段的基音周期，根据各语音片段的基音周期，确定各语音片段的基音标注位置；根据基音周期和基音标注位置，生成各语音片段的片段波形数据对应的同步波形数据；根据韵律参数信息和音节标记数据，对同步波形数据进行修改，得到音节标记数据对应的待合成波形数据，能够通过分析语音文本的各语音片段对应的基音周期和基音标注位置，生成与各语音片段的片段波形数据具有相同基音标记的同步波形数据，并根据韵律参数信息和音节标记数据，对同步波形数据进行修改，保证同步波形数据保留各语音片段的片段波形数据对应的主要音段特征的同时，结合韵律参数信息和音节标记数据修改同步波形数据，以满足语音文本的上下文语义要求，从而提高生成的语音的自然度。

在一些实施例中，根据各语音片段的基音周期，确定各语音片段的基音标注位置，包括：针对各语音片段中的任意一个浊音片段，将浊音片段中目标峰值数据对应的坐标位置作为标注点；根据浊音片段中目标峰值数据对应的基音周期和标注点，确定浊音片段对应的候选标注位置；基于动态规划，从候选标注位置中筛选出浊音片段的基音标注位置；根据浊音片段的基音标注位置，确定各语音片段的基音标注位置。

其中，浊音片段可以是指语音文本的各语音片段中发音时声带振动的语音片段。

其中，目标峰值数据可以是指浊音片段对应的语音波形数据中响度（或频率）的最大值。

其中，坐标位置可以是指浊音片段对应的语音波形图中目标峰值数据在横坐标轴（如时间轴）上的坐标值。

其中，标注点可以是指用于标记基音脉冲的位置。

其中，候选标注位置可以是指据浊音片段中目标峰值数据对应的基音周期和标注点，从浊音片段对应的语音波形图的横坐标轴（如时间轴）上筛选出的若干个坐标值。

其中，基音标注位置可以是指用于标记脉冲响应的位置，实际应用中，基音标注位置满足预设的动态规划路径条件，预设的动态规划路径条件可以包括浊音片段的相邻两帧的各候选标准位置之间的距离最短。

作为一种示例，语音文本可以包括清音片段和浊音片段，对于清音片段，服务器可以将清音片段的基音周期设置为预设的基音周期参数（如常数），得到每一帧的基音周期后，服务器可以根据基音周期将语音文本划分为清音片段和浊音片段，对于浊音片段，服务器在浊音片段对应的语音波形数据中筛选出目标峰值数据，服务器将该目标峰值数据对应的坐标位置t作为记忆脉冲的标注点，服务器获取目标峰值数据对应的基音周期T，服务器在浊音片段的语音波形图中的[t-1.5T，t-0.5T]和[t+0.5T，t+1.5T]范围内以t为中心向两边搜索，在搜索区间内选择三个峰值作为待定的基音标注位置（候选标注位置），然后依次搜索当前浊音片段，服务器对所有候选标注位置基于动态规划求解最佳路径，使得相邻两帧之间的标注距离最短（如相邻两帧的各候选标准位置之间的距离最短），标注距离最短对应的两个候选标准位置可以作为基音标注位置，服务器对其他浊音片段重复上述操作，以确定各浊音片段对应的基音标准位置，如图3所示，提供了一种基音标注位置的示意图。

本实施例中，通过针对各语音片段中的任意一个浊音片段，将浊音片段中目标峰值数据对应的坐标位置作为标注点；根据浊音片段中目标峰值数据对应的基音周期和标注点，确定浊音片段对应的候选标注位置；基于动态规划，从候选标注位置中筛选出浊音片段的基音标注位置；根据浊音片段的基音标注位置，确定各语音片段的基音标注位置，能够基于动态规划，准确确定各浊音片段对应的基音标注位置，从而保证同步波形数据能够充分保留语音文本的各语音片段的片段波形数据对应的主要音段特征，为后续语音修改和语音合成提供数据基础，进而提高生成的语音的自然度。

在一些实施例中，根据韵律参数信息和音节标记数据，对同步波形数据进行修改，得到音节标记数据对应的待合成波形数据，包括：根据韵律参数信息，确定音节标记数据对应的基频修改参数和时长修改参数；根据基频修改参数和时长修改参数，确定同步波形数据对应的合成时间信息和分析时间信息；在合成时间信息和分析时间信息对应的时间点，按照基频修改参数和时长修改参数，对同步波形数据进行修改，得到音节标记数据对应的待合成波形数据。

其中，基频修改参数可以是指用于修改语音文本的音节标记数据对应的基频的数据，实际应用中，基频修改参数可以基于韵律参数信息中的调型信息和音节标记数据中的分析时刻序列确定得到。

其中，时长修改参数可以是指用于修改语音文本的音节标记数据对应的发音时长的数据，实际应用中，基频修改参数可以基于韵律参数信息中的发音时长信息和音节标记数据中的分析时刻序列确定得到。

其中，合成时间信息可以是指用于表征同步波形数据中需要进行基频修改和/或时长修改等操作的位置的数据，实际应用中，合成时间信息可以包括同步波形数据对应的波形图中横坐标轴（时间轴）上的至少一个坐标值。

其中，分析时间信息可以是指用于表征语音文本的各语音片段对应的片段波形数据中需要进行基频修改和/或时长修改等操作的位置的数据，实际应用中，合成时间信息可以包括语音文本的各语音片段对应的片段波形数据对应的波形图中横坐标轴（时间轴）上的至少一个坐标值。

作为一种示例，服务器可以根据韵律参数信息中的调型信息和音节标记数据中的分析时刻序列，确定音节标记数据对应的基频修改参数，服务器可以根据韵律参数信息中的发音时长信息和音节标记数据中的分析时刻序列，确定音节标记数据对应的时长修改参数，服务器根据基频修改参数和时长修改参数，确定语音文本的各语音片段对应的片段波形数据对应的分析时间信息，由于同步波形数据需要与语音文本的各语音片段对应的片段波形数据具有相同的基音标记，因此同步波形数据对应的合成时间信息和语音文本的各语音片段对应的片段波形数据的分析时间信息需要相同，此时服务器可以根据语音文本的各语音片段对应的片段波形数据对应的分析时间信息，确定同步波形数据对应的合成时间信息，服务器在合成时间信息和分析时间信息对应的时间点，按照基频修改参数和时长修改参数，对同步波形数据进行修改，得到音节标记数据对应的待合成波形数据。

本实施例中，通过根据韵律参数信息，确定音节标记数据对应的基频修改参数和时长修改参数；根据基频修改参数和时长修改参数，确定同步波形数据对应的合成时间信息和分析时间信息；在合成时间信息和分析时间信息对应的时间点，按照基频修改参数和时长修改参数，对同步波形数据进行修改，得到音节标记数据对应的待合成波形数据，能够利用韵律参数信息确定基频修改参数和时长修改参数，并进一步确定同步波形数据对应的合成时间信息，进而在合成时间信息对应的时间点对同步波形数据仅修改，确定准确的待合成波形数据，进而提高生成的语音的自然度。

在一些实施例中，按照基频修改参数和时长修改参数，对同步波形数据进行修改，得到音节标记数据对应的待合成波形数据，包括：根据基频修改参数和时长修改参数，确定同步波形数据对应的待修改标注点和待修改标注点间距信息；根据待修改标注点和待修改标注点间距信息，修改同步波形数据的音长和音高，得到音节标记数据对应的待合成波形数据。

其中，待修改标注点可以是指用于表征同步波形数据中需要进行音高修改、和/或音长修改等操作的位置的数据，实际应用中，待修改标注点可以包括同步波形数据对应的波形图中横坐标轴（时间轴）上的至少一个坐标值。

其中，待修改标注点间距信息可以是指用于表征待修改标注点之间的距离的信息。

其中，音长可以是指同步波形数据中表征发音时长的数据。

其中，音高可以是指同步波形数据中表征发音频率和或发音响度的数据。

作为一种示例，服务器根据基频修改参数和时长修改参数，确定同步波形数据对应的待修改标注点和待修改标注点间距信息，服务器根据待修改标注点和待修改标注点间距信息，修改同步波形数据的音长和音高，得到音节标记数据对应的待合成波形数据，具体地，对同步波形数据进行修改可以看作基音修改，修改音长可以通过在同步波形数据中插入或删除待修改标注点实现，修改音高可以通过改变在同步波形数据中待修改标注点之间的距离实现，例如：同步波形数据中的待修改标注点可以存在有对应的周期，减少周期，在时间维度上可以看作减少语音的发音时间，增加周期，在时间维度上可以看作增加语音的发音时间；减少同步波形数据中待修改标注点之间的距离，可以使基音变高，增加同步波形数据中待修改标注点之间的距离，可以使基音变低。

本实施例中，通过根据基频修改参数和时长修改参数，确定同步波形数据对应的待修改标注点和待修改标注点间距信息；根据待修改标注点和待修改标注点间距信息，修改同步波形数据的音长和音高，得到音节标记数据对应的待合成波形数据，能够基于基频修改参数和时长修改参数，确定同步波形数据对应的待修改标注点和待修改标注点间距信息，从而对同步波形数据的音长和音高进行准确的精细修改，得到准确的待合成波形数据，进而提高生成的语音的自然度。

在一些实施例中，从预设的语音数据库中查找语音文本对应的音节标记数据，包括：获取语音文本对应的音节数据；在预设的语音数据库中的音节样本中查找与音节数据相匹配的候选音节数据；将候选音节数据作为语音文本对应的音节标记数据。

其中，语音文本对应的音节数据可以是指表征语音文本中各字对应的音节的数据。

其中，候选音节数据可以是指预设的语音数据库中与语音文本中各字对应的音节具有相同音节的数据。

作为一种示例，为了获得准确的音节标记数据，可以预先设置一个语音数据库，语音数据库中包含若干经过预先基音标记的样本音节数据，服务器分析语音文本中各字对应的音节，服务器根据语音文本中各字对应的音节，在语音数据库中查找与语音文本中各字对应的音节相同的音节样本作为候选音节数据，服务器将候选音节数据作为语音文本对应的音节标记数据。

本实施例中，通过获取语音文本对应的音节数据；在预设的语音数据库中的音节样本中查找与音节数据相匹配的候选音节数据；将候选音节数据作为语音文本对应的音节标记数据，能够通过预设的语音数据库，准确确定语音文本对应的音节标记数据，为后续语音合成提供数据基础，进而提高生成的语音的自然度。

在一些实施例中，如图4所示，提供了一种客服语音生成方法的流程示意图，服务器可以将获取到（或输入）的语音文本（如汉语文本）输入至语言学处理模型中，语言学处理模型包括预设的语音数据库（如汉语音节音库、汉语基音标记库、汉语音节调型合成函数库和银行客户服务问答专业语料库），语言学处理模型可以分析语音文本，得到语音文本对应的音节标记数据和韵律参数信息（如原始音节波形、分析基音标记、调域、调型曲线以及目标时长、停顿与否标记等），服务器根据语音文本对应的音节标记数据和韵律参数信息，合成语音文本对应的目标语音，合成目标语音的过程还涉及韵律的修改，具体地，修改韵律可以包括改变基频间隔的时间长度来调整音高以及重复或者省略一些基音片段来调整音长，达到变速和变调的效果，进而改变语音；合成语音文本对应的目标语音可以包括基音同步分析、基音标注、基音同步修改和基音同步叠加，其中，基音同步分析可以利用语音文本的语音波形数据和音节标记数据，确定语音文本中各语音单元的基音周期，基音同步分析过程中语音文本的语音波形数据可以被划分为一系列短时分析信号；基音标注可以用于标注声道的脉冲响应，语音可以分为清音段和浊音段，对于不同的语音段标注方式也不同，对于语音文本对应的浊音片段，需要先确定语音文本对应的浊音片段的基音周期，对于语音文本对应的清音片段，可以直接将语音文本对应的清音片段的基音周期设定一个确定的常数；在获得语音文本对应的每一帧（如浊音片段和清音片段）的基音周期后，可以根据基音周期的值直接将语音分为浊音片段和清音片段，对每个浊音段进行如下操作：找出浊音片段的最大峰值，该峰值对应的位置t就是一个基音脉冲的标注点，取出该浊音片段最大峰值对应的基音周期T，在[t-1.5T，t-0.5T]和[t+0.5T，t+1.5T]范围内以t为中心向两边搜索，在搜索区间内选择三个峰值作为待定的基音标注位置，然后依此搜索当前浊音片段，对所有候选位置基于动态规划求解最佳路径，使得相邻两帧之间的标注距离最短，得到所需要的基音标注位置，对其他浊音片段重复上述操作；基音同步修改可以对基音进行修改，例如：音长可以通过插入、删除语音单元的待修改标注点（或同步标注点）实现，音高可以通过增加、减少语音单元的待修改标注点之间的间距实现，减少待修改标注点对应的周期，在时间维度上，语音时间减少，即音长减少，反之则会增加，减少待修改标注点之间的间距，可以使得基音变高，反之则会变低，基音同步修改可以根据调型信息（如目的调型）和语音文本对应的原始分析时刻确定基频修改参数（基频修改系数）和分析基音轮廓，根据发音时长信息（如目的时长）和语音文本中各音节对应的音节原始时长确定时长修改参数（时长修改系数），服务器根据基频修改系数、分析基音轮廓、时间修改系数和原始分析时刻确定合成时刻（合成时间信息）和虚拟分析时刻（分析时间信息），在基音同步修改过程中，短时分析信号序列可以转变为一系列经过修改的短时合成信号，上述短时合成信号序列与一套新的合成信号（同步波形数据对应的信号）的基音标记同步，基音同步修改过程中可以涉及到短时信号序列数量的修改，短时信号序列之间延迟的修改以及每一个短时信号波形可能要发生的修改；基音同步叠加可以根据各合成时刻对应的虚拟分析时刻，确定与各合成时刻最靠近的虚拟分析时刻及相应的短时合成信号，最后将各帧基音同步叠加，具体地，可以利用LSEE-MSTFT方法进行叠加估计，得到该音节的韵律合成信号（语音文本对应的待合成波形数据的信号），并产生待合成波形数据，进而将待合成波形数据转换为语音文本对应的目标语音，具体地，合成语音文本对应的目标语音可以包括韵律调整操作，韵律调整操作可以包括：获取语音文本对应的原始语音波形、分析基音标记、调域、调型、目标时长、停顿与否标记，根据输入的调域和调型确定基频尺度修改系数（基频修改参数）；根据输入的目标时长和原始音节的时长给出时间尺度修改系数（时长修改参数）；令第一个合成基音标记（同步波形数据对应的基音标记）等于第一个分析基音标记（语音文本的各语音片段对应的片段波形数据对应的基音标记）；从第一个分析基音标记确定第一帧短时合成信号（同步波形数据中的信号）；根据基音轮廓和基音修改系数递推出下一个合成时间信息对应的最接近的分析基音标记，进而确定第一帧短时合成信号对应的下一帧短时合成信号；如果第一帧短时合成信号对应的下一帧短时合成信号是最后一帧，则叠加合成所有的短时合成信号，得到待合成波形数据，否则继续递推算出下一个合成基音标记，直至给出最后一帧短时合成信号，可以理解的是，在得到待合成波形数据的过程中，服务器可以对语音文本中的每个句子进行检查，当语音文本中的某个句子结束时，服务器可以将该句对应的待合成波形数据转换为对应的语音并进行播放，以对生成的语音进行实时检查，服务器还可以在语音文本中的所有语句都完成对应的语音生成操作，即语音文本结束时，基于语音文本对应的待合成波形数据，生成语音文本对应的目标语音。

本实施例中，结合基于语音数据库（如银行客户服务问答专业语料库）对语音文本进行语义分析，确定汉语普通话的音系特征，并采用动态合成调型的方式，根据输入的韵律参数信息（如调型、调域和时长）等，动态地合成目标基音轮廓曲线，从而能够考虑汉语音节中清音的无调特性，使同一音节在清音段相邻合成基音标记间隔等于分析基音标记间隔，目标基音轮廓特征全部加于浊音段，并且实现时间和基频尺度的同时修改，不仅节约了运行开销，也减少因计算合成基音标记不准确而产生的合成韵律参数的误差，能够根据语音文本上下文的要求，方便地控制语音信号的韵律参数，对拼接单元的韵律特征进行调整，使合成波形既保持了原始发音的主要音段特征，又能使拼接单元的韵律特征符合上下文的要求，从而是生成的语音具有更高的清晰度和自然度。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的语音生成方法的语音生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个语音生成装置实施例中的具体限定可以参见上文中对于语音生成方法的限定，在此不再赘述。

在一个示例性的实施例中，如图5所示，提供了一种语音生成装置，包括：查找模块502、确定模块504、修改模块506和生成模块508，其中：

查找模块502，用于从预设的语音数据库中查找语音文本对应的音节标记数据；所述预设的语音数据库包括至少一个经过预先音节标记的音节样本。

确定模块504，用于根据所述语音文本，确定所述语音文本对应的韵律参数信息。

修改模块506，用于根据所述韵律参数信息和所述音节标记数据，对所述语音文本的语音波形数据进行修改，得到所述音节标记数据对应的待合成波形数据。

生成模块508，用于根据所述待合成波形数据，生成所述语音文本对应的目标语音。

在一个示例性实施例中，上述确定模块504具体还用于按照预设的词调规则和语调规则，确定所述语音文本对应的调域信息和调型信息；根据所述语音文本，确定所述语音文本对应的发音时长信息和发音停顿信息；根据所述调域信息、所述调型信息、所述发音时长信息和所述发音停顿信息，确定所述语音文本对应的韵律参数信息。

在一个示例性实施例中，上述修改模块506具体还用于获取所述语音波形数据中各语音片段的基音周期，根据所述各语音片段的基音周期，确定各语音片段的基音标注位置；根据所述基音周期和所述基音标注位置，生成所述各语音片段的片段波形数据对应的同步波形数据；所述同步波形数据与所述各语音片段的片段波形数据的基音标记相匹配；根据所述韵律参数信息和所述音节标记数据，对所述同步波形数据进行修改，得到所述音节标记数据对应的待合成波形数据。

在一个示例性实施例中，上述修改模块506具体还用于针对所述各语音片段中的任意一个浊音片段，将所述浊音片段中目标峰值数据对应的坐标位置作为标注点；根据所述浊音片段中目标峰值数据对应的基音周期和所述标注点，确定所述浊音片段对应的候选标注位置；基于动态规划，从所述候选标注位置中筛选出所述浊音片段的基音标注位置；所述基音标注位置满足预设的动态规划路径条件；根据所述浊音片段的基音标注位置，确定所述各语音片段的基音标注位置。

在一个示例性实施例中，上述修改模块506具体还用于根据所述韵律参数信息，确定所述音节标记数据对应的基频修改参数和时长修改参数；根据所述基频修改参数和所述时长修改参数，确定所述同步波形数据对应的合成时间信息和分析时间信息；在所述合成时间信息和所述分析时间信息对应的时间点，按照所述基频修改参数和所述时长修改参数，对所述同步波形数据进行修改，得到所述音节标记数据对应的待合成波形数据。

在一个示例性实施例中，上述修改模块506具体还用于根据所述基频修改参数和所述时长修改参数，确定所述同步波形数据对应的待修改标注点和待修改标注点间距信息；根据所述待修改标注点和所述待修改标注点间距信息，修改所述同步波形数据的音长和音高，得到所述音节标记数据对应的待合成波形数据。

在一个示例性实施例中，上述查找模块502具体还用于获取所述语音文本对应的音节数据；在所述预设的语音数据库中的音节样本中查找与所述音节数据相匹配的候选音节数据；将所述候选音节数据作为所述语音文本对应的音节标记数据。

上述语音生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个示例性的实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种语音生成方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要符合相关规定。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种语音生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述语音文本，确定所述语音文本对应的韵律参数信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述韵律参数信息和所述音节标记数据，对所述语音文本的语音波形数据进行修改，得到所述音节标记数据对应的待合成波形数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述各语音片段的基音周期，确定各语音片段的基音标注位置，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述韵律参数信息和所述音节标记数据，对所述同步波形数据进行修改，得到所述音节标记数据对应的待合成波形数据，包括：

6.根据权利要求5所述的方法，其特征在于，所述按照所述基频修改参数和所述时长修改参数，对所述同步波形数据进行修改，得到所述音节标记数据对应的待合成波形数据，包括：

7.根据权利要求1所述的方法，其特征在于，所述从预设的语音数据库中查找语音文本对应的音节标记数据，包括：

获取所述语音文本对应的音节数据；

8.一种语音生成装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

11.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。