CN113314109B

CN113314109B - 一种基于循环生成网络的语音生成方法

Info

Publication number: CN113314109B
Application number: CN202110860966.2A
Authority: CN
Inventors: 汤鲲; 朱和军; 李磊; 柳斌; 王康
Original assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Current assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-11-02
Anticipated expiration: 2041-07-29
Also published as: CN113314109A

Abstract

本发明涉及一种基于循环生成网络的语音生成方法，基于由彼此相同语言字符串的语料组

与真实语音组

所组成的各样本，应用语料组

所对应的Mel频谱

、以及真实语音组

所对应的Mel频谱

，结合预设第一网络模型所构建生成器G与预设第二网络模型所构建判别器D融合的损失函数，针对预设第一网络模型所构建生成器G进行训练，如此在语音序列生成器的实际应用中，能够生成更加丰富的音色和情绪，将极大增强样本的普适性和丰富性，真正做到对语音识别网络的有效训练，进而获得语音序列生成器，将有效提高实际应用中语音获得的效率与准确率。

Description

一种基于循环生成网络的语音生成方法

技术领域

本发明涉及一种基于循环生成网络的语音生成方法，属于光纤传感技术领域。

背景技术

语音增强方法目前主要有：对信号本身做改变、与真实环境的噪声叠加、利用合成技术生成语音信号，目前利用合成技术进行语音增强主要有三种实现方式，分别为：波形拼接，参数合成以及端到端的语音合成技术。

波形拼接语音合成：通过前期录制大量的音频，尽可能全的覆盖所有的音节音素，基于统计规则的大语料库拼接成对应的文本音频，所以波形拼接技术通过已有库中的音节进行拼接，实现语音合成的功能。一般此技术需要大量的录音，录音量越大，效果越好，通常的好的音库，录音量在50小时以上；但是由于需要的录音量大，覆盖要求高，字间协同过渡生硬，不平滑，不是很自然。

参数语音合成技术：参数语音合成技术主要是通过数学方法对已有录音进行频谱特性参数建模，构建文本序列到语音特征之间的映射关系，生成参数合成器。所以当输入一个文本时，先将文本序列映射出对应的音频特征，再通过声学模型(声码器)将音频特征转化为我们听得懂的声音，但是音质没有波形拼接的好，机械感强，有杂音等。

端到端语音合成技术：端到端语音合成技术是目前比较火的技术，通过神经网络学习的方法，实现直接输入文本或者注音字符，输出合成音频的功能，极大地简化了复杂的语言分析部分。所以端到端的语音合成技术，大大降低了对语言学知识的要求，且可以实现多种语言的语音合成，不再受语言学知识的限制。通过端到端合成的音频，效果得到的进一步的优化，声音更加贴近真人，但是性能大大降低，合成的音频背景较为单一。

随着人工智能技术的发展，语音识别技术取得了巨大的进步，并开始进入家电、通信、汽车、医疗等各个领域。相关技术中，在训练语音识别模型时，为得到一个性能优良的语音识别模型，训练样本仅仅通过人工标注大量的语音识别数据来获得，以此保证训练效果。

然而，仅仅通过人工标注的方式来获得大量的训练样本，耗时且人力成本高。语音增强技术能够利用有限训练样本增强模型泛化能力，因此，利用合成技术增加语音数据丰富度是语音识别训练过程中必不可少的环节。

目前语音合成技术落地是比较成熟的，比如前面说到的各种播报场景，读小说、读新闻以及现在比较火的人机交互。但是目前还是存在一些解决不掉的问题，主要分为：拟人化、情绪化和定制化。

拟人化：合成音的整体韵律还是比真人要差很多

情绪化：真人在说话的时候，可以察觉到当前情绪状态，在语言表达时，通过声音就可以知道这个人是否开心，或者沮丧，也会结合表达的内容传达具体的情绪状态。但是用合成的音频，整体感情和情绪是比较平稳的，没有很大的起伏。

定制化：真实语音数据对于不同场景噪声的累积与叠加，如何使得噪声场景(机场、火车、人群等)更加逼真，将直接干预识别模型的训练效果。

发明内容

本发明所要解决的技术问题是提供一种基于循环生成网络的语音生成方法，设计全新架构的语音序列生成器，能够高效、准确实现语音的获得。

本发明为了解决上述技术问题采用以下技术方案：本发明设计了一种基于循环生成网络的语音生成方法，包括按如下步骤i至步骤iv，获得语音序列生成器；以及按如下步骤A至步骤B，应用语音序列生成器，获得由目标语言字符串与相应音调序列组成的目标语料组所对应的目标语音序列；

步骤i.基于语言字符串与相应音调序列组成的语料组、以及语言字符串与真实语音序列组成的真实语音组，确定预设数量的样本；其中，各样本分别由彼此相同语言字符串的语料组T_hc与真实语音组Y_real所组成，然后进入步骤ii；

步骤ii.分别针对各个样本中的语料组T_hc和真实语音组Y_real进行频谱合成处理，获得语料组T_hc所对应的Mel频谱M_T和真实语音组Y_real所对应的Mel频谱M_Y；然后进入步骤iii；

步骤iii.基于预设第一网络模型，以样本中语料组T_hc所对应Mel频谱M_T为输入，相应仿真语音序列Y_fake为输出，构建生成器G；

基于预设第二网络模型，以仿真语音序列Y_fake与对应样本中真实语音组Y_real的真实语音序列之间的对抗损失，构建判别器D；

基于预设第三网络模型，以针对仿真语音序列Y_fake进行频谱提取所获频谱X_rec、以及对应样本中语料组T_hc所对应Mel频谱M_T、真实语音组Y_real所对应Mel频谱M_Y三者之间的一致性，构建判别器Y；然后进入步骤iv；

步骤iv.基于各个样本，结合判别器D所获结果与判别器Y所获结果融合所构建的损失函数，以及预设损失收敛阈值，针对生成器G进行训练，所获训练后的生成器G即为语音序列生成器；

步骤A.针对由目标语言字符串与相应音调序列所组成目标语料组，执行频谱合成处理，获得目标语料组所对应的Mel目标频谱，然后进入步骤B；

步骤B.针对Mel目标频谱，应用语音序列生成器，获得相对应的目标语音序列。

作为本发明的一种优选技术方案：所述步骤ii中，分别针对各个样本，按如下步骤ii-1-1至步骤ii-1-3，针对样本中的语料组T_hc进行频谱合成处理，获得该语料组T_hc所对应的Mel频谱M_T；

步骤ii-1-1.应用分词/词性句法分析与文字标注多音消歧方法，获得语料组T_hc所对应的音素，然后进入步骤ii-1-2；

步骤ii-1-2.应用embedding层将该语料组T_hc所对应的音素转换为Embedding向量，然后进入步骤ii-1-3；

步骤ii-1-3.根据该语料组T_hc所对应的Embedding向量，映射获得该语料组T_hc中语言字符串所对应的音频特征，即获得该语料组T_hc所对应的Mel频谱M_T。

作为本发明的一种优选技术方案：所述步骤ii中，分别针对各个样本，按如下步骤ii-2-1至步骤ii-2-3，针对样本中的真实语音组Y_real进行频谱提取处理，获得该真实语音组Y_real所对应的Mel频谱M_Y；

步骤ii-2-1.针对真实语音组Y_real中的真实语音序列执行预加重、分帧和加窗处理，获得各桢语音信号，然后进入步骤ii-2-2；

步骤ii-2-2.分别对各桢语音信号进行短时傅立叶变换STFT，获得各桢语音信号分别所对应的短时幅度谱，然后进入步骤ii-2-3；

步骤ii-2-3.应用Mel滤波器分别对各桢语音信号所对应的短时幅度谱进行滤波处理，更新各桢语音信号分别所对应的短时幅度谱，并组成获得该真实语音组Y_real所对应的Mel频谱M_Y。

作为本发明的一种优选技术方案：所述步骤iv中，基于各个样本，结合如下判别器D所获结果与判别器Y所获结果融合所构建的损失函数：

L_{GAN_y}＝E[logY(M_T)]+E[logY(1-P(y))]+E[logY(1-P(G(M_T)))]

L_cycle＝E[||G(P(y))-y||₁]+E[||P(G(M_T))-M_T||₁]

获得损失值Loss，并结合预设损失收敛阈值，针对生成器G进行训练，所获训练后的生成器G即为语音序列生成器；其中，y表示真实语音组Y_real中的真实语音序列，G(·)表示生成器G所对应的函数，D(·)表示判别器D所对应的函数，Y(·)表示判别器Y所对应的函数，P(·)表示频谱提取函数，E(·)表示期望函数，m表示预设融合阈值。

作为本发明的一种优选技术方案：所述预设融合阈值m＝0.6，所述预设损失收敛阈值等于0.01。

作为本发明的一种优选技术方案：所述用于构建生成器G的预设第一网络模型自其输入端至其输出端方向，依次包括第一卷积层、第一激活层、第一上采样层、第一残差网络层、第二上采样层、第二残差网络层、第三上采样层、第三残差网络层、第四上采样层、第四残差网络层、第二卷积层、第二激活层；其中各第一残差网络层、第二残差网络层、第三残差网络层、第四残差网络层分别自其输入端至其输出端均包括3级残差子模块串联结构，各残差子模块分别均为3*1尺寸激活层与卷积层的串联结构，第一上采样层、第二上采样层分别均为8级残差模块串联，第三上采样层、第四上采样层分别均为2级残差模块串联。

作为本发明的一种优选技术方案：所述预设第二网络模型自其输入端至其输出端方向，依次包括第一卷积层、第一下采样层、第二卷积层、第三卷积层，其中，第一卷积层中kernel_size＝15、padding＝0，第二卷积层中kernel_size＝5,stride＝1,padding＝2，第三卷积层中kernel_size＝3,stride＝1,padding＝1，第一下采样层为4级残差模块串联。

作为本发明的一种优选技术方案：所述预设第三网络模型自其输入端至其输出端方向，依次包括第一卷积层、Dense Block1、第二卷积层、第一池化层、Dense Block2、第三卷积层，其中，各卷积层的尺寸为7x7、且stride＝2，第一池化层为尺寸3x3的最大池化层、且stride＝2，Dense Block1、Dense Block2分别均由12级子模块串联构成，各子模块分别均为1x1尺寸卷积层与3x3尺寸卷积层的串联结构。

本发明所述一种基于循环生成网络的语音生成方法，采用以上技术方案与现有技术相比，具有以下技术效果：

本发明所设计一种基于循环生成网络的语音生成方法，基于由彼此相同语言字符串的语料组T_hc与真实语音组Y_real所组成的各样本，应用语料组T_hc所对应的Mel频谱M_T、以及真实语音组Y_real所对应的Mel频谱M_Y，结合预设第一网络模型所构建生成器G与预设第二网络模型所构建判别器D融合的损失函数，针对预设第一网络模型所构建生成器G进行训练，如此在语音序列生成器的实际应用中，能够生成更加丰富的音色和情绪，将极大增强样本的普适性和丰富性，真正做到对语音识别网络的有效训练，进而获得语音序列生成器，将有效提高实际应用中语音获得的效率与准确率。

附图说明

图1是本发明所设计基于循环生成网络的语音生成方法中训练流程图；

图2是本发明所设计基于循环生成网络的语音生成方法中频谱合成流程图；

图3是本发明所设计基于循环生成网络的语音生成方法中频谱提取的结构图；

图4是本发明所设计基于循环生成网络的语音生成方法中生成器G的结构图；

图5是本发明所设计基于循环生成网络的语音生成方法中判别器D的结构图；

图6是本发明所设计基于循环生成网络的语音生成方法中判别器Y的结构图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

本发明设计了一种基于循环生成网络的语音生成方法，实际应用当中，按图1所示，具体执行按如下步骤i至步骤iv，获得语音序列生成器。

步骤i.基于语言字符串与相应音调序列组成的语料组、以及语言字符串与真实语音序列组成的真实语音组，确定预设数量的样本；其中，各样本分别由彼此相同语言字符串的语料组T_hc与真实语音组Y_real所组成，然后进入步骤ii。

实际应用中，对于语料组T_hc来说，诸如设计为{“语言字符串”：“大家好”，“音调序列”：“413”}，对于真实语音组Y_real来说，诸如设计{“语言字符串”：“大家好”，“真实语音序列”：“序列Y_i”}；其中对于各个字符的音调来说，音调分为5个(“0”，“1”，“2”，“3”“4”)。

步骤ii.分别针对各个样本中的语料组T_hc和真实语音组Y_real进行频谱合成处理，获得语料组T_hc所对应的Mel频谱M_T和真实语音组Y_real所对应的Mel频谱M_Y；然后进入步骤iii。

关于上述步骤ii中语料组T_hc所对应Mel频谱M_T的获得，具体分别针对各个样本，按图2所示，按如下步骤ii-1-1至步骤ii-1-3，针对样本中的语料组T_hc进行频谱合成处理，获得该语料组T_hc所对应的Mel频谱M_T。

步骤ii-1-1.应用分词/词性句法分析与文字标注多音消歧方法，获得语料组T_hc所对应的音素，然后进入步骤ii-1-2。

步骤ii-1-2.应用embedding层将该语料组T_hc所对应的音素转换为Embedding向量，然后进入步骤ii-1-3。

关于上述步骤ii中真实语音组Y_real所对应Mel频谱M_Y的获得，具体分别针对各个样本，按图3所示，按如下步骤ii-2-1至步骤ii-2-3，针对样本中的真实语音组Y_real进行频谱提取处理，获得该真实语音组Y_real所对应的Mel频谱M_Y。

步骤ii-2-1.针对真实语音组Y_real中的真实语音序列执行预加重、分帧和加窗处理，获得各桢语音信号，然后进入步骤ii-2-2。

步骤ii-2-2.分别对各桢语音信号进行短时傅立叶变换STFT，获得各桢语音信号分别所对应的短时幅度谱，然后进入步骤ii-2-3。

步骤iii.基于预设第一网络模型，以样本中语料组T_hc所对应Mel频谱M_T为输入，相应仿真语音序列Y_fake为输出，构建生成器G；实际应用中，用于构建生成器G的预设第一网络模型自其输入端至其输出端方向，如图4、以及下表1所示，依次包括第一卷积层、第一激活层、第一上采样层、第一残差网络层、第二上采样层、第二残差网络层、第三上采样层、第三残差网络层、第四上采样层、第四残差网络层、第二卷积层、第二激活层；其中各第一残差网络层、第二残差网络层、第三残差网络层、第四残差网络层分别自其输入端至其输出端均包括3级残差子模块串联结构，各残差子模块分别均为3*1尺寸激活层与卷积层的串联结构，第一上采样层、第二上采样层分别均为8级残差模块串联，第三上采样层、第四上采样层分别均为2级残差模块串联。

表1

生成器结构	参数
		输入	语音频谱图
第一卷积层	kernel_size＝7,padding＝0
		第一leakYrelu	Alpha＝0.2
第一上采样层	8X
		第一残差网络层	3(IReLU31,dilation＝1conv)
第二上采样层	8X
		第二残差网络层	3(IReLU31,dilation＝1conv)
第三上采样层	2X
		第三残差网络层	3(IReLU31,dilation＝1conv)
第四上采样层	2X
		第四残差网络层	3(IReLU31,dilation＝1conv)
第二卷积层	kernel_size＝7,padding＝0
		第二leakYrelu	Alpha＝0.2
输出	波形图

基于预设第二网络模型，以仿真语音序列Y_fake与对应样本中真实语音组Y_real的真实语音序列之间的对抗损失，构建判别器D；实际应用中，用于构建判别器D的预设第二网络模型自其输入端至其输出端方向，如图5、下表2所示，依次包括第一卷积层、第一下采样层、第二卷积层、第三卷积层，其中，第一卷积层中kernel_size＝15、padding＝0，第二卷积层中kernel_size＝5,stride＝1,padding＝2，第三卷积层中kernel_size＝3,stride＝1,padding＝1，第一下采样层为4级残差模块串联。

表2

基于预设第三网络模型，以针对仿真语音序列Y_fake进行频谱提取所获频谱X_rec、以及对应样本中语料组T_hc所对应Mel频谱M_T、真实语音组Y_real所对应Mel频谱M_Y三者之间的一致性，构建判别器Y；实际应用中，如图6所示，用于构建判别器Y的预设第三网络模型自其输入端至其输出端方向，依次包括第一卷积层、Dense Block1、第二卷积层、第一池化层、Dense Block2、第三卷积层，其中，各卷积层的尺寸为7x7、且stride＝2，第一池化层为尺寸3x3的最大池化层、且stride＝2，Dense Block1、Dense Block2分别均由12级子模块串联构成，各子模块分别均为1x1尺寸卷积层与3x3尺寸卷积层的串联结构。

当按上述设计，构建获得生成器G、判别器D、判别器Y后，然后进入步骤iv。

步骤iv.基于各个样本，结合如下判别器D所获结果与判别器Y所获结果融合所构建的损失函数：

L_{GAN_y}＝E[logY(M_T)]+E[logY(1-P(y))]+E[logY(1-P(G(M_T)))]

L_cycle＝E[||G(P(y))-y||₁]+E[||P(G(M_T))-M_T||₁]

获得损失值Loss，并结合诸如预设损失收敛阈值等于0.01，针对生成器G进行训练，所获训练后的生成器G即为语音序列生成器；其中，y表示真实语音组Y_real中的真实语音序列，G(·)表示生成器G所对应的函数，D(·)表示判别器D所对应的函数，Y(·)表示判别器Y所对应的函数，P(·)表示频谱提取函数，E(·)表示期望函数，m表示预设融合阈值，诸如m＝0.6。

基于上述步骤i至步骤iv所获得的语音序列生成器，进一步按如下步骤A至步骤B，应用语音序列生成器，获得由目标语言字符串与相应音调序列组成的目标语料组所对应的目标语音序列。

步骤A.针对由目标语言字符串与相应音调序列所组成目标语料组，执行频谱合成处理，获得目标语料组所对应的Mel目标频谱，然后进入步骤B。

在以往的端到端语音合成技术中，假设生成的初始仿真数据所在的空间定义为X，需要解决的场景中语音所在的空间定义为Y。我们要解决的问题是，将已生成充足的空间X中的仿真数据，转换到空间Y中，使得仿真数据更加真实，帮助语音识别网络模型的训练。但是以往的训练往往导致，每个Xi和每个Yi之间只能一一对应，甚至出现所有仿真数据X都会对应到一个Yi。使用了本专利所述的循环生成网络，保证了仿真数据Xi会对应到所有的Y。

上述结果数字化阐述在真实的实施案例表述为：当Y中有各种复杂背景(“餐厅”、“火车”、“人群噪音”背景)的对话语音时，在其他GAN网络只能生成单一的“餐厅”噪音背景对话语音，而本方案可以生成“嘈杂的人群和餐厅”等混合噪声背景对话语音。

同时，由于Mel频谱特征图也加入了判别器Y的训练，在其他GAN网络中，只能生成基于Mel频谱固定的音色和情绪，本专利将生成更加丰富的音色和情绪，将极大的增强样本的普适性和丰富性，真正做到有效帮助语音识别网络训练。

上述技术方案所设计一种基于循环生成网络的语音生成方法，基于由彼此相同语言字符串的语料组T_hc与真实语音组Y_real所组成的各样本，应用语料组T_hc所对应的Mel频谱M_T、以及真实语音组Y_real所对应的Mel频谱M_Y，结合预设第一网络模型所构建生成器G与预设第二网络模型所构建判别器D融合的损失函数，针对预设第一网络模型所构建生成器G进行训练，如此在语音序列生成器的实际应用中，能够生成更加丰富的音色和情绪，将极大增强样本的普适性和丰富性，真正做到对语音识别网络的有效训练，进而获得语音序列生成器，将有效提高实际应用中语音获得的效率与准确率。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于循环生成网络的语音生成方法，其特征在于：包括按如下步骤i至步骤iv，获得语音序列生成器；以及按如下步骤A至步骤B，应用语音序列生成器，获得由目标语言字符串与相应音调序列组成的目标语料组所对应的目标语音序列；

针对上述步骤ii设计两套方案应用，第一套方案分别针对各个样本，按如下步骤ii-1-1至步骤ii-1-3，针对样本中的语料组T_hc进行频谱合成处理，获得该语料组T_hc所对应的Mel频谱M_T；

步骤ii-1-3.根据该语料组T_hc所对应的Embedding向量，映射获得该语料组T_hc中语言字符串所对应的音频特征，即获得该语料组T_hc所对应的Mel频谱M_T；

第二套方案分别针对各个样本，按如下步骤ii-2-1至步骤ii-2-3，针对样本中的真实语音组Y_real进行频谱提取处理，获得该真实语音组Y_real所对应的Mel频谱M_Y；

步骤ii-2-3.应用Mel滤波器分别对各桢语音信号所对应的短时幅度谱进行滤波处理，更新各桢语音信号分别所对应的短时幅度谱，并组成获得该真实语音组Y_real所对应的Mel频谱M_Y；

2.根据权利要求1所述一种基于循环生成网络的语音生成方法，其特征在于：所述步骤iv中，基于各个样本，结合如下判别器D所获结果与判别器Y所获结果融合所构建的损失函数：

L_{GAN_y}＝E[logY(M_T)]+E[logY(1-P(y))]+E[logY(1-P(G(M_T)))]

L_cycle＝E[||G(P(y))-y||₁]+E[||P(G(M_T))-M_T||₁]

3.根据权利要求2所述一种基于循环生成网络的语音生成方法，其特征在于：所述预设融合阈值m＝0.6，所述预设损失收敛阈值等于0.01。

4.根据权利要求1所述一种基于循环生成网络的语音生成方法，其特征在于：所述用于构建生成器G的预设第一网络模型自其输入端至其输出端方向，依次包括第一卷积层、第一激活层、第一上采样层、第一残差网络层、第二上采样层、第二残差网络层、第三上采样层、第三残差网络层、第四上采样层、第四残差网络层、第二卷积层、第二激活层；其中各第一残差网络层、第二残差网络层、第三残差网络层、第四残差网络层分别自其输入端至其输出端均包括3级残差子模块串联结构，各残差子模块分别均为3*1尺寸激活层与卷积层的串联结构，第一上采样层、第二上采样层分别均为8级残差模块串联，第三上采样层、第四上采样层分别均为2级残差模块串联。

5.根据权利要求1所述一种基于循环生成网络的语音生成方法，其特征在于：所述预设第二网络模型自其输入端至其输出端方向，依次包括第一卷积层、第一下采样层、第二卷积层、第三卷积层，其中，第一卷积层中kernel_size＝15、padding＝0，第二卷积层中kernel_size＝5,stride＝1,padding＝2，第三卷积层中kernel_size＝3,stride＝1,padding＝1，第一下采样层为4级残差模块串联。

6.根据权利要求1所述一种基于循环生成网络的语音生成方法，其特征在于：所述预设第三网络模型自其输入端至其输出端方向，依次包括第一卷积层、Dense Block1、第二卷积层、第一池化层、Dense Block2、第三卷积层，其中，各卷积层的尺寸为7x7、且stride＝2，第一池化层为尺寸3x3的最大池化层、且stride＝2，Dense Block1、Dense Block2分别均由12级子模块串联构成，各子模块分别均为1x1尺寸卷积层与3x3尺寸卷积层的串联结构。