CN113345413B

CN113345413B - 基于音频特征提取的语音合成方法、装置、设备及介质

Info

Publication number: CN113345413B
Application number: CN202110609662.9A
Authority: CN
Inventors: 郭洋; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2023-12-29
Anticipated expiration: 2041-06-01
Also published as: CN113345413A

Abstract

本发明公开了基于音频特征提取的语音合成方法、装置、设备及介质，方法包括：根据第一提取规则从用户输入的初始语音中提取整体音频系数信息，将整体音频系数信息输入映射处理模型得到预设维度的个体区别特征，根据第二提取规则从初始语音中提取得到音频特征系数信息，将音频特征形式信息与个体区别特征共同输入语音合成模型以得到合成语音。本发明属于语音合成技术领域，可获取到具有较强鲁棒性的个体区别特征，并基于个体区别特征与音频特征系数信息组合以进行语音合成得到合成语音，由于在合成语音中添加了个体区别特征，可在合成语音中实现高质量地模拟自然人声的效果，从而大幅提高了所合成的语音信息的质量。

Description

基于音频特征提取的语音合成方法、装置、设备及介质

技术领域

本发明涉及语音合成技术领域，属于智慧城市中基于音频特征提取技术进行智能语音合成的应用场景，尤其涉及一种基于音频特征提取的语音合成方法、装置、设备及介质。

背景技术

语音交互是以语音为媒介的新一代交互模式，其已被广泛运用于导航、拨号系统和智能客服等应用场景，可通过声码器提取得到音频特征，传统声码器主要基于参数化建模语音的源滤波模型，该模型将语音建模为基频、频谱包络和非周期等声学特征，基于所提取到的音频特征进行合成得到合成语音信息。然而发明人发现，现有技术方法提取到的音频特征所合成的语音信息存在自然度较差的问题，无法真实模拟自然人声，也即是易造成合成的语音信息质量不高。因此，现有的技术方法中的语音合成方法存在合成质量不高的问题。

发明内容

本发明实施例提供了一种基于音频特征提取的语音合成方法、装置、设备及介质，旨在解决现有技术方法中的语音合成方法所存在的合成质量不高的问题。

第一方面，本发明实施例提供了一种基于音频特征提取的语音合成方法，其包括：

若接收到用户输入的初始语音，则根据预置的第一提取规则从所述初始语音中提取得到整体音频系数信息；

将所述整体音频系数信息输入预置的映射处理模型进行映射处理，得到预设维度的个体区别特征；

根据预置的第二提取规则从所述初始语音中提取得到音频特征系数信息；

将所述音频特征系数信息与所述个体区别特征输入预置的语音合成模型，得到与所述初始语音对应的合成语音。

第二方面，本发明实施例提供了一种基于音频特征提取的语音合成装置，其包括：

整体音频系数信息获取单元，用于若接收到用户输入的初始语音，则根据预置的第一提取规则从所述初始语音中提取得到整体音频系数信息；

个体区别特征信息获取单元，用于将所述整体音频系数信息输入预置的映射处理模型进行映射处理，得到预设维度的个体区别特征；

音频特征系数信息获取单元，用于根据预置的第二提取规则从所述初始语音中提取得到音频特征系数信息；

合成语音获取单元，用于将所述音频特征系数信息与所述个体区别特征输入预置的语音合成模型，得到与所述初始语音对应的合成语音。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于音频特征提取的语音合成方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于音频特征提取的语音合成方法。

本发明实施例提供了一种基于音频特征提取的语音合成方法、装置、计算机可读存储介质。根据第一提取规则从用户输入的初始语音中提取整体音频系数信息，将整体音频系数信息输入映射处理模型得到预设维度的个体区别特征，根据第二提取规则从初始语音中提取得到音频特征系数信息，将音频特征形式信息与个体区别特征共同输入语音合成模型以得到合成语音。通过上述方法，可获取到具有较强鲁棒性的个体区别特征，并基于个体区别特征与音频特征系数信息组合以进行语音合成得到合成语音，由于在合成语音中添加了个体区别特征，可在合成语音中实现高质量地模拟自然人声的效果，从而大幅提高了所合成的语音信息的质量。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于音频特征提取的语音合成方法的流程示意图；

图2为本发明实施例提供的基于音频特征提取的语音合成方法的另一流程示意图；

图3为本发明实施例提供的基于音频特征提取的语音合成方法的子流程示意图；

图4为本发明实施例提供的基于音频特征提取的语音合成方法的另一流程示意图；

图5为本发明实施例提供的基于音频特征提取的语音合成方法的另一子流程示意图；

图6为本发明实施例提供的基于音频特征提取的语音合成方法的另一子流程示意图；

图7为本发明实施例提供的基于音频特征提取的语音合成方法的另一子流程示意图；

图8为本发明实施例提供的基于音频特征提取的语音合成装置的示意性框图；

图9为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1是本发明实施例提供的基于音频特征提取的语音合成方法的流程示意图；该基于音频特征提取的语音合成方法应用于用户终端或管理服务器中，该基于音频特征提取的语音合成方法通过安装于用户终端或管理服务器中的应用软件进行执行，用户终端即是可接收用户输入的初始语音并进行语音合成得到对应合成语音的终端设备，例如台式电脑、笔记本电脑、平板电脑或手机等，管理服务器即是可接收用户通过用户终端发送的初始语音并进行语音合成得到对应合成语音的服务器端，如企业或政府部门所构建的服务器。如图1所示，该方法包括步骤S110～S140。

S110、若接收到用户输入的初始语音，则根据预置的第一提取规则从所述初始语音中提取得到整体音频系数信息。

若接收到用户输入的初始语音，则根据预置的第一提取规则从所述初始语音中提取得到整体音频系数信息。所述第一提取规则包括频谱转换规则、频率转换公式及多通道滤波器。用户可输入初始语音，初始语音即为用户发声得到的一段语音信息，初始语音中即包含有用户希望通过语音表达的真实意图，初始语音的时长不限。可通过第一提取规则从初始语音信息中提取得到整体音频系数信息，整体音频系数信息即可对初始语音的音频特征进行量化表示，也即是整体音频系数信息可用于体现初始语音的整体音频特征。第一提取规则即为从初始语音中提取得到整体音频系数信息的具体规则。

在一实施例中，如图4所示，步骤S110包括子步骤S111、S112、S113和S114。

S111、对所述初始语音进行分帧处理得到对应的多帧音频信息。

语音信息在计算机中以包含音轨的声谱图的形式进行表示，则该声谱图中包含很多帧，每一帧即对应一个时间单元，则可从初始语音中获取得到每一帧音频信息，每一帧音频信息即对应一个时间单元内所包含的声谱图信息，例如，时间单元为5ms，则一帧音频信息即为初始语音的声谱图中5ms所对应的声谱图信息。

S112、根据预置的单位时间及所述频谱转换规则将每一所述单位时间内包含的所述音频信息转换为对应的音频频谱。

可根据单位时间对音频信息进行分段得到多个音频信息段，每一音频信息段中均对应一个单位时间内包含的多帧音频信息，例如可预先设置单位时间为500ms、帧移125ms，每一帧音频信息的时间单元为5ms，则每一单位时间内可获取到100帧音频信息，也即一个音频信息段中包含100帧音频信息，后一音频信息段内的第1帧音频信息即为前一音频信息段内的第26帧音频信息。之后可根据频谱转换规则对得到的每一音频信息段进行加窗处理及快速傅里叶变换(fast Fourier transform，FFT)然后旋转90度，得到与每一音频信息段对应的音频频谱，在音频频谱中的频谱表示频率与能量的关系。

S113、根据所述频率转换公式将每一所述音频频谱转换为对应的非线性音频频谱。

根据频率转换公式将以线性方式表示的音频频谱转换为非线性音频频谱，为模拟人类发声系统进行发声所得到的语音的特点，可通过非线性音频频谱模拟人类发声系统所得到的语音的特点，并进一步从中获取符合人类发声系统的鲁棒性特征。音频频谱及非线性音频频谱均为采用频谱曲线进行表示，则频谱曲线由多个连续的频谱值所组成。

具体的，频率转换公式可采用公式(1)进行表示：

f(r)＝2375×log(1+r/700) (1)；

其中f(r)为转换后非线性音频频谱的频谱值，r为音频频谱的频率值。

S114、根据所述多通道滤波器对每一所述非线性音频频谱进行多通道滤波处理，得到与每一所述非线性音频频谱对应的多个音频系数，将得到的所述音频系数作为所述整体音频系数信息。

根据通道滤波器对每一非线性音频频谱分别进行多通道滤波处理，即可得到每一非线性音频频谱的多个音频系数。具体的，通道滤波器可以是基于梅尔频谱滤波器构建的多通道的滤波器，所得到的音频系数中包含与每一通道对应的系数值；例如，可构建得到256通道的滤波器，则采用上述通道滤波器对一个非线性音频频谱进行多通道滤波处理可对应得到256维梅尔谱特征，256维梅尔谱特征即为与该非线性音频频谱对应的音频系数。获取每一非线性音频频谱对应的多个音频系数及可作为整体音频系数信息。

S120、将所述整体音频系数信息输入预置的映射处理模型进行映射处理，得到预设维度的个体区别特征。

将所述整体音频系数信息输入预置的映射处理模型进行映射处理，得到预设维度的个体区别特征。具体的，映射处理模型即为对所得到的整体音频系数信息进行映射处理的神经网络模型，可将所得到的整体音频系数信息输入映射处理模型进行映射处理，得到对应的个体区别特征，则个体区别特征中包含的特征值数量与预设维度的数量相等。

在一实施例中，如图5所示，步骤S120包括子步骤S121和S122。

S121、将所述整体音频系数信息中多个非线性音频频谱的音频系数依次输入所述映射处理模型进行映射处理，得到每一所述非线性音频频谱与所述预设维度对应的映射特征。

将一个非线性音频频谱的音频系数输入映射处理模型进行映射处理，即可得到一个与预设维度对应的映射特征，则每一非线性音频频谱进行映射处理后即可得到与每一非线性音频频谱分别对应的映射特征。映射处理模型由一个输入层、多个中间层及一个输出层组成的神经网络模型，输入层与中间层之间、中间层与其他相邻的中间层之间、中间层与输出节点之间均通过关联公式进行关联，每一关联公式均可表示为一个一次函数，一次函数中包含相应参数值，输入层中每一输入节点对应音频系数中的一通道的系数值，每一输出节点对应一个维度，将一个音频系数由输入层输入映射处理模型，即可由输出层获取相应输出结果，输出结果即为与每一输出节点对应维度的特征值，每一输出节点的特征值即进行组合即可得到对应的映射特征。

S122、对多个所述非线性音频频谱与每一维度对应的映射特征分别进行归一化计算，得到每一维度对应的归一化特征值，将得到的所述归一化特征值作为所述个体区别特征。

可对所得到的映射特征在每一维度分别进行归一化计算，得到对应的个体区别特征，则所得到的个体区别特征中包含与每一维度对应的归一化特征值。具体的，归一化计算的具体计算过程可采用公式(2)进行表示：

其中，x_i即为第i个映射特征中与某一维度对应的特征值，n为映射特征的总数，Vx即为计算所得到的与相应维度对应的一个归一化特征值。

在一实施例中，如图2所示，步骤S120之前包括子步骤S1210。

S1210、根据预存的训练音频数据集及预置的映射训练规则对所述映射处理模型进行训练，得到训练后的映射处理模型。

在使用映射处理模型之前，还可通过映射训练规则及训练音频数据集对映射处理模型进行训练。具体的，所述映射训练规则包括第一损失值计算公式、第二损失值计算公式、梯度计算公式及损失阈值，训练音频数据集中包含多条训练音频，可获取每一说话人分别发出的多条训练音频组成得到训练音频数据集，每一训练音频中还包含说话人标签，说话人标签即为与该训练音频的说话人唯一对应的标签信息。

在一实施例中，如图3所示，步骤S1210包括子步骤S1211～S1218。

S1211、根据所述第一提取规则从所述训练音频数据集中任意获取的两条训练音频中分别提取得到对应的第一音频系数信息及第二音频系数信息；S1212、将所述第一音频系数信息及所述第二音频系数信息分别输入所述映射处理模型进行映射处理得到第一区别特征及第二区别特征。

可从训练音频数据集中任意获取两条训练音频，并分别获取得到第一音频系数信息及第二音频系数信息，获取过程与从初始语音中提取得到整体音频系数信息的具体过程相同，在此不作赘述。将第一音频系数信息及第二音频系数信息依次输入映射处理模型进行映射处理，可得到对应的第一区别特征及第二区别特征，映射处理的具体过程与对整体音频系数信息进行映射处理的具体过程相同，在此不作赘述。

S1213、根据所述两条训练音频的说话人标签判断所述两条训练音频是否属于同一说话人。

任意获取到的两条训练音频可属于同一说话人，也可属于不同的两个说话人，则可通过训练音频的说话人标签对两条训练音频是否属于同一说话人进行判断，若说话人标签相同，则判断得到两条训练音频属于同一说话人；否则判断得到两条训练音频不属于同一说话人。

S1214、若所述两条训练音频属于同一说话人，则根据所述第一损失值计算公式计算所述第一区别特征与所述第二区别特征之间的损失值；S1215、若所述两条训练音频不属于同一说话人，则根据所述第二损失值计算公式计算所述第一区别特征与所述第二区别特征之间的损失值。

若两条训练音频属于同一说话人，则根据第一损失值计算公式计算对应的损失值；若两条训练音频不属于同一说话人，则根据第二损失值计算公式计算对应的损失值，第一损失值计算公式与第二损失值计算公式不相同，在两条训练音频属于同一说话人及不属于同一说话人分别对应的两种不同情况中，采用不同计算公式对应计算得到两种情况下的损失值，可使损失值计算更有针对性，并在对映射处理模型进行训练的过程中使模型能够更快收敛，从而提高模型的训练效率。

例如，第一损失值计算公式可采用公式(3)进行表示：

Ls₁＝S×e^-S (3)；

其中，S的获取过程可采用公式(4)进行表示：

其中，r_j为第一区别特征中第j维度的特征值，t_j为第二区别特征中第j维度的特征值，m为预设维度数。

第二损失值计算公式可采用公式(5)进行表示：

Ls₂＝(1-S)×e^S-1 (5)；

其中，S即为采用公式(4)所计算得到的计算值。

S1216、判断所述损失值是否大于所述损失阈值；S1217、若所述损失值大于所述损失阈值，则根据所述梯度计算公式及所述损失值计算得到所述映射处理模型中参数的更新值以对所述参数的原始参数值进行更新，返回执行所述根据所述第一提取规则从所述训练音频数据集中任意获取的两条训练音频中分别提取得到对应的第一音频系数信息及第二音频系数信息的步骤；S1218、若所述损失值不大于所述损失阈值，则将当前映射处理模型确定为所述训练后的映射处理模型。

判断所得到的损失值是否大于损失阈值，若大于损失阈值则，根据梯度计算公式及损失值计算映射处理模型中每一参数的更新值，并通过更新值对每一参数的原始参数值进行更新，对所有参数值进行一次更新也即完成对映射处理模型进行一次训练，对映射处理模型进行一次训练后，返回执行步骤S1211，初始映射处理模型经过多次迭代训练才能够得到训练后的映射处理模型。若不大于损失阈值，则将当前的映射处理模型作为最终所得到的训练后的映射处理模型进行后续使用。具体的，梯度计算公式可采用公式(6)进行表示：

其中，为计算得到的参数c的更新值，ω_c为参数c的原始参数值，L即为上述计算得到的任一损失值，η为梯度计算公式中预置的学习率，/>为基于损失值及参数c对应的计算值对该参数c的偏导值(这一计算过程中需使用参数对应的计算值)。

S130、根据预置的第二提取规则从所述初始语音中提取得到音频特征系数信息。

可通过第二提取特征从初始语音中提取得到对应的音频特征系数信息，音频特征系数信息可以是对初始语音中用户通过语音表达的真实意图所对应的特征信息。具体的，第二提取规则即是从初始语音中提取得到对应音频特征系数信息的具体规则，所述第二提取规则包括声学模型、语音特征词典及音频特征采样规则。

从初始语音中提取得到音频特征系数信息的具体步骤包括：根据所述声学模型对所述初始语音进行切分以得到所述初始语音中所包含的多个音素。具体的，初始语音由多个字符发音的音素而组成，一个字符的音素包括该字符发音的频率和音色。声学模型中包含所有字符发音的音素，通过将初始语音与声学模型中所有的音素进行匹配，即可对初始语音中的单个字符的音素进行切分，通过切分最终得到初始语音中所包含的多个音素。根据所述语音特征词典对所述音素进行匹配以将所述音素转换为拼音信息。语音特征词典中包含所有字符拼音对应的音素信息，通过将所得到的音素与字符拼音对应的音素信息进行匹配，即可将单个字符的音素转换为语音特征词典中与该音素相匹配的字符拼音，以实现将初始语音中所包含的所有音素转换为拼音信息。根据所述音频特征采样规则对所述拼音信息的标准发音进行采样，得到与所述拼音信息对应的音频特征系数信息。每一拼音信息均对应一个标准发音，通过音频特征采样规则即可对标准发音进行采样得到拼音信息的音频特征系数信息，也即是得到与初始语音对应的音频特征系数信息。例如，可按时间单元为0.1ms将每一拼音信息的标准发音拆分为对应多帧音频信息，每一帧音频信息及对应一个采样点，通过三种不同采样方式对多帧音频信息进行采样，并对多种采样方式所得到的音频特征系数进行平均计算，作为与该拼音信息对应的音频特征系数信息，例如，三种采样规则可分别是窗长600采样点、帧移120采样点，窗长1200采样点、帧移240采样点，窗长240采样点、帧移48采样点。

此外，在其他实施方式中，音频特征系数信息也可从该用户或其他用户所输入的文本信息中对应获取得到，同样的，可先将文本信息中的每一字符对应转换成拼音信息，基于拼音信息的发音进一步获取对应音频特征系数信息。

S140、将所述音频特征系数信息与所述个体区别特征输入预置的语音合成模型，得到与所述初始语音对应的合成语音。

将所述音频特征系数信息与所述个体区别特征输入预置的语音合成模型，得到与所述初始语音对应的合成语音。可将所得到的音频特征系数信息与个体区别特征同时输入语音合成模型，通过语音合成模型即可输出与初始语音对应的合成语音。语音合成模型可以是基于MultiBand-MelGAN构建得到的神经网络模型，该语音合成模型包含一个输入层、多个中间层及一个输出层组成的神经网络模型，语音合成模型中也包含多个参数值，输入层用于输入音频特征系数信息与个体区别特征，输出层用于输出对应的合成特征输出信息。

在一实施例中，如图6所示，步骤S140之前还包括子步骤S1410。

S1410、根据预存的真实音频数据集及预置的合成模型训练规则对所述语音合成模型进行训练，得到训练后的语音合成模型。所述合成模型训练规则包括损失值计算公式及参数梯度计算公式。

具体的，训练过程包括：根据所述第一提取规则对所述真实音频数据集中顺序获取的一个真实音频进行提取得到真实音频系数信息；将所述真实音频系数信息输入训练后的所述映射处理模型进行映射处理得到预设维度的真实个体区别特征；根据所述第二提取规则从所述真实音频中提取得到真实特征信息；将所述真实个体区别特征与所述真实特征信息输入所述语音合成模型得到对应的训练合成语音。相应步骤与上述步骤的具体实现过程均相同，在此不作赘述。

根据所述损失值计算公式计算所述真实音频与所述训练合成语音之间的音频损失值。具体的，可通过上述音频特征采样规则分别采集得到真实音频与训练合成语音对应的两个音频特征系数信息，并根据损失值计算公式计算两个音频特征系数信息之间的音频损失值。损失值计算公式可采用公式(7)进行表示：

其中，Lm表示所计算得到的音频损失值，STFT表示短时傅里叶变换计算，w表示真实音频的音频特征系数信息，w'表示训练合成语音的音频特征系数信息，|a|表示对a取绝对值，||b||₁表示计算b的L1范数，||c||₂表示计算c的L2范数。

根据所述参数梯度计算公式及所述音频损失值计算得到所述语音合成模型中参数的更新值以对所述参数的原始参数值进行更新；判断所述真实音频数据集是否包含下一真实音频；若所述真实音频数据集包含下一真实音频，返回执行所述根据所述第一提取规则对所述真实音频数据集中顺序获取的一个真实音频进行提取得到真实音频系数信息的步骤；若所述真实音频数据集不包含下一真实音频，将所述语音合成模型作为训练后的语音合成模型。

计算参数更新值以对语音合成模型进行训练的具体过程与对映射处理模型中的参数值进行更新的具体过程相同，在此不作赘述。使用真实音频数据集中每一真实音频依次对语音合成模型进行迭代训练，以获取训练后的语音合成模型进行使用。

在一实施例中，如图7所示，步骤S140包括子步骤S141和S142。

S141、根据预置的合成比例将所述个体区别特征依次与每一所述音频特征系数信息进行特征合成，得到与每一所述音频特征系数信息对应的合成特征信息。

具体的，可根据预置的合成比例对个体区别特征与音频特征系数信息进行特征合成，可根据合成比例将个体区别特征中每一维度的特征值依次与音频特征系数信息中每一维度的特征值进行合成计算，得到与每一音频特征系数信息对应的合成特征。例如，合成比例可设置为0.2和0.8，则特征合成和采用公式：H_k＝0.2h_1k+0.8h_2k进行表示，其中H_k表示对第k个维度进行特征合成所得到的合成特征值，h_1k表示个体区别特征中第k个维度的特征值，h_2k表示任意一个音频特征系数信息中第k个维度的特征值。

S142、将每一所述合成特征信息输入所述语音合成模型进行语音合成，得到与所述初始语音对应的合成语音。

具体的，将每一合成特征信息输入语音特征模型得到每一合成特征的合成特征输出信息，根据音频特征系数信息的顺序对多得到的多个合成特征输出信息进行组合最终得到与初始语音对应的合成语音。

本申请中的技术方法可应用于智慧政务/智慧城管/智慧社区/智慧安防/智慧物流/智慧医疗/智慧教育/智慧环保/智慧交通等包含基于音频特征提取技术进行智能语音合成的应用场景中，从而推动智慧城市的建设。

在本发明实施例所提供的基于音频特征提取的语音合成方法中，根据第一提取规则从用户输入的初始语音中提取整体音频系数信息，将整体音频系数信息输入映射处理模型得到预设维度的个体区别特征，根据第二提取规则从初始语音中提取得到音频特征系数信息，将音频特征形式信息与个体区别特征共同输入语音合成模型以得到合成语音。通过上述方法，可获取到具有较强鲁棒性的个体区别特征，并基于个体区别特征与音频特征系数信息组合以进行语音合成得到合成语音，由于在合成语音中添加了个体区别特征，可在合成语音中实现高质量地模拟自然人声的效果，从而大幅提高了所合成的语音信息的质量。

本发明实施例还提供一种基于音频特征提取的语音合成装置，该基于音频特征提取的语音合成装置可配置于用户终端或管理服务器中，该基于音频特征提取的语音合成装置用于执行前述的基于音频特征提取的语音合成方法的任一实施例。具体地，请参阅图8，图8为本发明实施例提供的基于音频特征提取的语音合成装置的示意性框图。

如图8所示，基于音频特征提取的语音合成装置100包括整体音频系数信息获取单元110、个体区别特征信息获取单元120、音频特征系数信息获取单元130和合成语音获取单元140。

整体音频系数信息获取单元110，用于若接收到用户输入的初始语音，则根据预置的第一提取规则从所述初始语音中提取得到整体音频系数信息。

在一具体实施例中，所述整体音频系数信息获取单元110包括子单元：分帧处理单元，用于对所述初始语音进行分帧处理得到对应的多帧音频信息；音频频谱获取单元，用于根据预置的单位时间及所述频谱转换规则将每一所述单位时间内包含的所述音频信息转换为对应的音频频谱；非线性音频频谱获取单元，用于根据所述频率转换公式将每一所述音频频谱转换为对应的非线性音频频谱；滤波处理单元，用于根据所述多通道滤波器对每一所述非线性音频频谱进行多通道滤波处理，得到与每一所述非线性音频频谱对应的多个音频系数，将得到的所述音频系数作为所述整体音频系数信息。

个体区别特征信息获取单元120，用于将所述整体音频系数信息输入预置的映射处理模型进行映射处理，得到预设维度的个体区别特征。

在一具体实施例中，所述个体区别特征信息获取单元120包括子单元：映射特征获取单元，用于将所述整体音频系数信息中多个非线性音频频谱的音频系数依次输入所述映射处理模型进行映射处理，得到每一所述非线性音频频谱与所述预设维度对应的映射特征；归一化计算单元，用于对多个所述非线性音频频谱与每一维度对应的映射特征分别进行归一化计算，得到每一维度对应的归一化特征值，将得到的所述归一化特征值作为所述个体区别特征。

在一具体实施例中，所述基于音频特征提取的语音合成装置100还包括子单元：映射处理模型训练单元，用于根据预存的训练音频数据集及预置的映射训练规则对所述映射处理模型进行训练，得到训练后的映射处理模型。

在一具体实施例中，所述映射处理模型训练单元包括子单元：音频系数信息提取单元，用于根据所述第一提取规则从所述训练音频数据集中任意获取的两条训练音频中分别提取得到对应的第一音频系数信息及第二音频系数信息；区别特征获取单元，用于将所述第一音频系数信息及所述第二音频系数信息分别输入所述映射处理模型进行映射处理得到第一区别特征及第二区别特征；说话人判断单元，用于根据所述两条训练音频的说话人标签判断所述两条训练音频是否属于同一说话人；第一损失值计算单元，用于若所述两条训练音频属于同一说话人，则根据所述第一损失值计算公式计算所述第一区别特征与所述第二区别特征之间的损失值；第二损失值计算单元，用于若所述两条训练音频不属于同一说话人，则根据所述第二损失值计算公式计算所述第一区别特征与所述第二区别特征之间的损失值；损失值判断单元，用于判断所述损失值是否大于所述损失阈值；参数值更新单元，用于若所述损失值大于所述损失阈值，则根据所述梯度计算公式及所述损失值计算得到所述映射处理模型中参数的更新值以对所述参数的原始参数值进行更新，返回执行所述根据所述第一提取规则从所述训练音频数据集中任意获取的两条训练音频中分别提取得到对应的第一音频系数信息及第二音频系数信息的步骤；映射处理模型确定单元，用于若所述损失值不大于所述损失阈值，则将当前映射处理模型确定为所述训练后的映射处理模型。

音频特征系数信息获取单元130，用于根据预置的第二提取规则从所述初始语音中提取得到音频特征系数信息。

合成语音获取单元140，用于将所述音频特征系数信息与所述个体区别特征输入预置的语音合成模型，得到与所述初始语音对应的合成语音。

在一具体实施例中，所述基于音频特征提取的语音合成装置100还包括子单元：语音合成模型训练单元，用于根据预存的真实音频数据集及预置的合成模型训练规则对所述语音合成模型进行训练，得到训练后的语音合成模型。

在一具体实施例中，所述合成语音获取单元140包括子单元：合成特征信息获取单元，用于根据预置的合成比例将所述个体区别特征依次与每一所述音频特征系数信息进行特征合成，得到与每一所述音频特征系数信息对应的合成特征信息；语音合成处理单元，用于将每一所述合成特征信息输入所述语音合成模型进行语音合成，得到与所述初始语音对应的合成语音。

在本发明实施例所提供的基于音频特征提取的语音合成装置应用上述基于音频特征提取的语音合成方法，根据第一提取规则从用户输入的初始语音中提取整体音频系数信息，将整体音频系数信息输入映射处理模型得到预设维度的个体区别特征，根据第二提取规则从初始语音中提取得到音频特征系数信息，将音频特征形式信息与个体区别特征共同输入语音合成模型以得到合成语音。通过上述方法，可获取到具有较强鲁棒性的个体区别特征，并基于个体区别特征与音频特征系数信息组合以进行语音合成得到合成语音，由于在合成语音中添加了个体区别特征，可在合成语音中实现高质量地模拟自然人声的效果，从而大幅提高了所合成的语音信息的质量。

上述基于音频特征提取的语音合成装置可以实现为计算机程序的形式，该计算机程序可以在如图9所示的计算机设备上运行。

请参阅图9，图9是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行基于音频特征提取的语音合成方法并基于音频特征提取技术进行智能语音合成的用户终端或管理服务器。

参阅图9，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括存储介质503和内存储器504。

该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于音频特征提取的语音合成方法，其中，存储介质503可以为易失性的存储介质或非易失性的存储介质。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于音频特征提取的语音合成方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图9中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现上述的基于音频特征提取的语音合成方法中对应的功能。

本领域技术人员可以理解，图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图9所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为易失性或非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现上述的基于音频特征提取的语音合成方法中所包含的步骤。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于音频特征提取的语音合成方法，其特征在于，包括：

将所述音频特征系数信息与所述个体区别特征输入预置的语音合成模型，得到与所述初始语音对应的合成语音；

所述将所述整体音频系数信息输入预置的映射处理模型进行映射处理，得到预设维度的个体区别特征之前，还包括：

根据预存的训练音频数据集及预置的映射训练规则对所述映射处理模型进行训练，得到训练后的映射处理模型；

所述映射训练规则包括第一损失值计算公式、第二损失值计算公式、梯度计算公式及损失阈值，所述根据预存的训练音频数据集及预置的映射训练规则对所述映射处理模型进行训练，得到训练后的映射处理模型，包括：

根据所述第一提取规则从所述训练音频数据集中任意获取的两条训练音频中分别提取得到对应的第一音频系数信息及第二音频系数信息；

将所述第一音频系数信息及所述第二音频系数信息分别输入所述映射处理模型进行映射处理得到第一区别特征及第二区别特征；

根据所述两条训练音频的说话人标签判断所述两条训练音频是否属于同一说话人；

若所述两条训练音频属于同一说话人，则根据所述第一损失值计算公式计算所述第一区别特征与所述第二区别特征之间的损失值；

若所述两条训练音频不属于同一说话人，则根据所述第二损失值计算公式计算所述第一区别特征与所述第二区别特征之间的损失值；

判断所述损失值是否大于所述损失阈值；

若所述损失值大于所述损失阈值，则根据所述梯度计算公式及所述损失值计算得到所述映射处理模型中参数的更新值以对所述参数的原始参数值进行更新，返回执行所述根据所述第一提取规则从所述训练音频数据集中任意获取的两条训练音频中分别提取得到对应的第一音频系数信息及第二音频系数信息的步骤；

若所述损失值不大于所述损失阈值，则将当前映射处理模型确定为所述训练后的映射处理模型；

所述第一提取规则包括频谱转换规则、频率转换公式及多通道滤波器，所述根据预置的第一提取规则从所述初始语音中提取得到整体音频系数信息，包括：

对所述初始语音进行分帧处理得到对应的多帧音频信息；

根据预置的单位时间及所述频谱转换规则将每一所述单位时间内包含的所述音频信息转换为对应的音频频谱；

根据所述频率转换公式将每一所述音频频谱转换为对应的非线性音频频谱；

根据所述多通道滤波器对每一所述非线性音频频谱进行多通道滤波处理，得到与每一所述非线性音频频谱对应的多个音频系数，将得到的所述音频系数作为所述整体音频系数信息；

所述将所述整体音频系数信息输入预置的映射处理模型进行映射处理，得到预设维度的个体区别特征，包括：

将所述整体音频系数信息中多个非线性音频频谱的音频系数依次输入所述映射处理模型进行映射处理，得到每一所述非线性音频频谱与所述预设维度对应的映射特征；

对多个所述非线性音频频谱与每一维度对应的映射特征分别进行归一化计算，得到每一维度对应的归一化特征值，将得到的所述归一化特征值作为所述个体区别特征。

2.根据权利要求1所述的基于音频特征提取的语音合成方法，其特征在于，所述将所述音频特征系数信息与所述个体区别特征输入预置的语音合成模型，得到与所述初始语音对应的合成语音之前，还包括：

根据预存的真实音频数据集及预置的合成模型训练规则对所述语音合成模型进行训练，得到训练后的语音合成模型。

3.根据权利要求1所述的基于音频特征提取的语音合成方法，其特征在于，所述将所述音频特征系数信息与所述个体区别特征输入预置的语音合成模型，得到与所述初始语音对应的合成语音，包括：

根据预置的合成比例将所述个体区别特征依次与每一所述音频特征系数信息进行特征合成，得到与每一所述音频特征系数信息对应的合成特征信息；

将每一所述合成特征信息输入所述语音合成模型进行语音合成，得到与所述初始语音对应的合成语音。

4.一种基于音频特征提取的语音合成装置，所述装置用于执行如权利要求1-3任一项所述的基于音频特征提取的语音合成方法，其特征在于，所述装置包括：

5.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的基于音频特征提取的语音合成方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的基于音频特征提取的语音合成方法。