CN113314109B - 一种基于循环生成网络的语音生成方法 - Google Patents
一种基于循环生成网络的语音生成方法 Download PDFInfo
- Publication number
- CN113314109B CN113314109B CN202110860966.2A CN202110860966A CN113314109B CN 113314109 B CN113314109 B CN 113314109B CN 202110860966 A CN202110860966 A CN 202110860966A CN 113314109 B CN113314109 B CN 113314109B
- Authority
- CN
- China
- Prior art keywords
- layer
- real
- voice
- group
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000001228 spectrum Methods 0.000 claims abstract description 75
- 230000006870 function Effects 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000015572 biosynthetic process Effects 0.000 claims description 26
- 238000003786 synthesis reaction Methods 0.000 claims description 26
- 238000005070 sampling Methods 0.000 claims description 25
- 238000000605 extraction Methods 0.000 claims description 10
- 238000004088 simulation Methods 0.000 claims description 8
- 239000000463 material Substances 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000008451 emotion Effects 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 6
- 230000000306 recurrent effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000010339 dilation Effects 0.000 description 4
- 230000002996 emotional effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000004804 winding Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
技术领域
本发明涉及一种基于循环生成网络的语音生成方法,属于光纤传感技术领域。
背景技术
语音增强方法目前主要有:对信号本身做改变、与真实环境的噪声叠加、利用合成技术生成语音信号,目前利用合成技术进行语音增强主要有三种实现方式,分别为:波形拼接,参数合成以及端到端的语音合成技术。
波形拼接语音合成:通过前期录制大量的音频,尽可能全的覆盖所有的音节音素,基于统计规则的大语料库拼接成对应的文本音频,所以波形拼接技术通过已有库中的音节进行拼接,实现语音合成的功能。一般此技术需要大量的录音,录音量越大,效果越好,通常的好的音库,录音量在50小时以上;但是由于需要的录音量大,覆盖要求高,字间协同过渡生硬,不平滑,不是很自然。
参数语音合成技术:参数语音合成技术主要是通过数学方法对已有录音进行频谱特性参数建模,构建文本序列到语音特征之间的映射关系,生成参数合成器。所以当输入一个文本时,先将文本序列映射出对应的音频特征,再通过声学模型(声码器)将音频特征转化为我们听得懂的声音,但是音质没有波形拼接的好,机械感强,有杂音等。
端到端语音合成技术:端到端语音合成技术是目前比较火的技术,通过神经网络学习的方法,实现直接输入文本或者注音字符,输出合成音频的功能,极大地简化了复杂的语言分析部分。所以端到端的语音合成技术,大大降低了对语言学知识的要求,且可以实现多种语言的语音合成,不再受语言学知识的限制。通过端到端合成的音频,效果得到的进一步的优化,声音更加贴近真人,但是性能大大降低,合成的音频背景较为单一。
随着人工智能技术的发展,语音识别技术取得了巨大的进步,并开始进入家电、通信、汽车、医疗等各个领域。相关技术中,在训练语音识别模型时,为得到一个性能优良的语音识别模型,训练样本仅仅通过人工标注大量的语音识别数据来获得,以此保证训练效果。
然而,仅仅通过人工标注的方式来获得大量的训练样本,耗时且人力成本高。语音增强技术能够利用有限训练样本增强模型泛化能力,因此,利用合成技术增加语音数据丰富度是语音识别训练过程中必不可少的环节。
目前语音合成技术落地是比较成熟的,比如前面说到的各种播报场景,读小说、读新闻以及现在比较火的人机交互。但是目前还是存在一些解决不掉的问题,主要分为:拟人化、情绪化和定制化。
拟人化:合成音的整体韵律还是比真人要差很多
情绪化:真人在说话的时候,可以察觉到当前情绪状态,在语言表达时,通过声音就可以知道这个人是否开心,或者沮丧,也会结合表达的内容传达具体的情绪状态。但是用合成的音频,整体感情和情绪是比较平稳的,没有很大的起伏。
定制化:真实语音数据对于不同场景噪声的累积与叠加,如何使得噪声场景(机场、火车、人群等)更加逼真,将直接干预识别模型的训练效果。
发明内容
本发明所要解决的技术问题是提供一种基于循环生成网络的语音生成方法,设计全新架构的语音序列生成器,能够高效、准确实现语音的获得。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种基于循环生成网络的语音生成方法,包括按如下步骤i至步骤iv,获得语音序列生成器;以及按如下步骤A至步骤B,应用语音序列生成器,获得由目标语言字符串与相应音调序列组成的目标语料组所对应的目标语音序列;
步骤i.基于语言字符串与相应音调序列组成的语料组、以及语言字符串与真实语音序列组成的真实语音组,确定预设数量的样本;其中,各样本分别由彼此相同语言字符串的语料组Thc与真实语音组Yreal所组成,然后进入步骤ii;
步骤ii.分别针对各个样本中的语料组Thc和真实语音组Yreal进行频谱合成处理,获得语料组Thc所对应的Mel频谱MT和真实语音组Yreal所对应的Mel频谱MY;然后进入步骤iii;
步骤iii.基于预设第一网络模型,以样本中语料组Thc所对应Mel频谱MT为输入,相应仿真语音序列Yfake为输出,构建生成器G;
基于预设第二网络模型,以仿真语音序列Yfake与对应样本中真实语音组Yreal的真实语音序列之间的对抗损失,构建判别器D;
基于预设第三网络模型,以针对仿真语音序列Yfake进行频谱提取所获频谱Xrec、以及对应样本中语料组Thc所对应Mel频谱MT、真实语音组Yreal所对应Mel频谱MY三者之间的一致性,构建判别器Y;然后进入步骤iv;
步骤iv.基于各个样本,结合判别器D所获结果与判别器Y所获结果融合所构建的损失函数,以及预设损失收敛阈值,针对生成器G进行训练,所获训练后的生成器G即为语音序列生成器;
步骤A.针对由目标语言字符串与相应音调序列所组成目标语料组,执行频谱合成处理,获得目标语料组所对应的Mel目标频谱,然后进入步骤B;
步骤B.针对Mel目标频谱,应用语音序列生成器,获得相对应的目标语音序列。
作为本发明的一种优选技术方案:所述步骤ii中,分别针对各个样本,按如下步骤ii-1-1至步骤ii-1-3,针对样本中的语料组Thc进行频谱合成处理,获得该语料组Thc所对应的Mel频谱MT;
步骤ii-1-1.应用分词/词性句法分析与文字标注多音消歧方法,获得语料组Thc所对应的音素,然后进入步骤ii-1-2;
步骤ii-1-2.应用embedding层将该语料组Thc所对应的音素转换为Embedding向量,然后进入步骤ii-1-3;
步骤ii-1-3.根据该语料组Thc所对应的Embedding向量,映射获得该语料组Thc中语言字符串所对应的音频特征,即获得该语料组Thc所对应的Mel频谱MT。
作为本发明的一种优选技术方案:所述步骤ii中,分别针对各个样本,按如下步骤ii-2-1至步骤ii-2-3,针对样本中的真实语音组Yreal进行频谱提取处理,获得该真实语音组Yreal所对应的Mel频谱MY;
步骤ii-2-1.针对真实语音组Yreal中的真实语音序列执行预加重、分帧和加窗处理,获得各桢语音信号,然后进入步骤ii-2-2;
步骤ii-2-2.分别对各桢语音信号进行短时傅立叶变换STFT,获得各桢语音信号分别所对应的短时幅度谱,然后进入步骤ii-2-3;
步骤ii-2-3.应用Mel滤波器分别对各桢语音信号所对应的短时幅度谱进行滤波处理,更新各桢语音信号分别所对应的短时幅度谱,并组成获得该真实语音组Yreal所对应的Mel频谱MY。
作为本发明的一种优选技术方案:所述步骤iv中,基于各个样本,结合如下判别器D所获结果与判别器Y所获结果融合所构建的损失函数:
LGAN_y=E[logY(MT)]+E[logY(1-P(y))]+E[logY(1-P(G(MT)))]
Lcycle=E[||G(P(y))-y||1]+E[||P(G(MT))-MT||1]
获得损失值Loss,并结合预设损失收敛阈值,针对生成器G进行训练,所获训练后的生成器G即为语音序列生成器;其中,y表示真实语音组Yreal中的真实语音序列,G(·)表示生成器G所对应的函数,D(·)表示判别器D所对应的函数,Y(·)表示判别器Y所对应的函数,P(·)表示频谱提取函数,E(·)表示期望函数,m表示预设融合阈值。
作为本发明的一种优选技术方案:所述预设融合阈值m=0.6,所述预设损失收敛阈值等于0.01。
作为本发明的一种优选技术方案:所述用于构建生成器G的预设第一网络模型自其输入端至其输出端方向,依次包括第一卷积层、第一激活层、第一上采样层、第一残差网络层、第二上采样层、第二残差网络层、第三上采样层、第三残差网络层、第四上采样层、第四残差网络层、第二卷积层、第二激活层;其中各第一残差网络层、第二残差网络层、第三残差网络层、第四残差网络层分别自其输入端至其输出端均包括3级残差子模块串联结构,各残差子模块分别均为3*1尺寸激活层与卷积层的串联结构,第一上采样层、第二上采样层分别均为8级残差模块串联,第三上采样层、第四上采样层分别均为2级残差模块串联。
作为本发明的一种优选技术方案:所述预设第二网络模型自其输入端至其输出端方向,依次包括第一卷积层、第一下采样层、第二卷积层、第三卷积层,其中,第一卷积层中kernel_size=15、padding=0,第二卷积层中kernel_size=5,stride=1,padding=2,第三卷积层中kernel_size=3,stride=1,padding=1,第一下采样层为4级残差模块串联。
作为本发明的一种优选技术方案:所述预设第三网络模型自其输入端至其输出端方向,依次包括第一卷积层、Dense Block1、第二卷积层、第一池化层、Dense Block2、第三卷积层,其中,各卷积层的尺寸为7x7、且stride=2,第一池化层为尺寸3x3的最大池化层、且stride=2,Dense Block1、Dense Block2分别均由12级子模块串联构成,各子模块分别均为1x1尺寸卷积层与3x3尺寸卷积层的串联结构。
本发明所述一种基于循环生成网络的语音生成方法,采用以上技术方案与现有技术相比,具有以下技术效果:
本发明所设计一种基于循环生成网络的语音生成方法,基于由彼此相同语言字符串的语料组Thc与真实语音组Yreal所组成的各样本,应用语料组Thc所对应的Mel频谱MT、以及真实语音组Yreal所对应的Mel频谱MY,结合预设第一网络模型所构建生成器G与预设第二网络模型所构建判别器D融合的损失函数,针对预设第一网络模型所构建生成器G进行训练,如此在语音序列生成器的实际应用中,能够生成更加丰富的音色和情绪,将极大增强样本的普适性和丰富性,真正做到对语音识别网络的有效训练,进而获得语音序列生成器,将有效提高实际应用中语音获得的效率与准确率。
附图说明
图1是本发明所设计基于循环生成网络的语音生成方法中训练流程图;
图2是本发明所设计基于循环生成网络的语音生成方法中频谱合成流程图;
图3是本发明所设计基于循环生成网络的语音生成方法中频谱提取的结构图;
图4是本发明所设计基于循环生成网络的语音生成方法中生成器G的结构图;
图5是本发明所设计基于循环生成网络的语音生成方法中判别器D的结构图;
图6是本发明所设计基于循环生成网络的语音生成方法中判别器Y的结构图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
本发明设计了一种基于循环生成网络的语音生成方法,实际应用当中,按图1所示,具体执行按如下步骤i至步骤iv,获得语音序列生成器。
步骤i.基于语言字符串与相应音调序列组成的语料组、以及语言字符串与真实语音序列组成的真实语音组,确定预设数量的样本;其中,各样本分别由彼此相同语言字符串的语料组Thc与真实语音组Yreal所组成,然后进入步骤ii。
实际应用中,对于语料组Thc来说,诸如设计为{“语言字符串”:“大家好”,“音调序列”:“413”},对于真实语音组Yreal来说,诸如设计{“语言字符串”:“大家好”,“真实语音序列”:“序列Yi”};其中对于各个字符的音调来说,音调分为5个(“0”,“1”,“2”,“3”“4”)。
步骤ii.分别针对各个样本中的语料组Thc和真实语音组Yreal进行频谱合成处理,获得语料组Thc所对应的Mel频谱MT和真实语音组Yreal所对应的Mel频谱MY;然后进入步骤iii。
关于上述步骤ii中语料组Thc所对应Mel频谱MT的获得,具体分别针对各个样本,按图2所示,按如下步骤ii-1-1至步骤ii-1-3,针对样本中的语料组Thc进行频谱合成处理,获得该语料组Thc所对应的Mel频谱MT。
步骤ii-1-1.应用分词/词性句法分析与文字标注多音消歧方法,获得语料组Thc所对应的音素,然后进入步骤ii-1-2。
步骤ii-1-2.应用embedding层将该语料组Thc所对应的音素转换为Embedding向量,然后进入步骤ii-1-3。
步骤ii-1-3.根据该语料组Thc所对应的Embedding向量,映射获得该语料组Thc中语言字符串所对应的音频特征,即获得该语料组Thc所对应的Mel频谱MT。
关于上述步骤ii中真实语音组Yreal所对应Mel频谱MY的获得,具体分别针对各个样本,按图3所示,按如下步骤ii-2-1至步骤ii-2-3,针对样本中的真实语音组Yreal进行频谱提取处理,获得该真实语音组Yreal所对应的Mel频谱MY。
步骤ii-2-1.针对真实语音组Yreal中的真实语音序列执行预加重、分帧和加窗处理,获得各桢语音信号,然后进入步骤ii-2-2。
步骤ii-2-2.分别对各桢语音信号进行短时傅立叶变换STFT,获得各桢语音信号分别所对应的短时幅度谱,然后进入步骤ii-2-3。
步骤ii-2-3.应用Mel滤波器分别对各桢语音信号所对应的短时幅度谱进行滤波处理,更新各桢语音信号分别所对应的短时幅度谱,并组成获得该真实语音组Yreal所对应的Mel频谱MY。
步骤iii.基于预设第一网络模型,以样本中语料组Thc所对应Mel频谱MT为输入,相应仿真语音序列Yfake为输出,构建生成器G;实际应用中,用于构建生成器G的预设第一网络模型自其输入端至其输出端方向,如图4、以及下表1所示,依次包括第一卷积层、第一激活层、第一上采样层、第一残差网络层、第二上采样层、第二残差网络层、第三上采样层、第三残差网络层、第四上采样层、第四残差网络层、第二卷积层、第二激活层;其中各第一残差网络层、第二残差网络层、第三残差网络层、第四残差网络层分别自其输入端至其输出端均包括3级残差子模块串联结构,各残差子模块分别均为3*1尺寸激活层与卷积层的串联结构,第一上采样层、第二上采样层分别均为8级残差模块串联,第三上采样层、第四上采样层分别均为2级残差模块串联。
表1
生成器结构 | 参数 |
输入 | 语音频谱图 |
第一卷积层 | kernel_size=7,padding=0 |
第一leakYrelu | Alpha=0.2 |
第一上采样层 | 8X |
第一残差网络层 | 3*(IReLU3*1,dilation=1conv) |
第二上采样层 | 8X |
第二残差网络层 | 3*(IReLU3*1,dilation=1conv) |
第三上采样层 | 2X |
第三残差网络层 | 3*(IReLU3*1,dilation=1conv) |
第四上采样层 | 2X |
第四残差网络层 | 3*(IReLU3*1,dilation=1conv) |
第二卷积层 | kernel_size=7,padding=0 |
第二leakYrelu | Alpha=0.2 |
输出 | 波形图 |
基于预设第二网络模型,以仿真语音序列Yfake与对应样本中真实语音组Yreal的真实语音序列之间的对抗损失,构建判别器D;实际应用中,用于构建判别器D的预设第二网络模型自其输入端至其输出端方向,如图5、下表2所示,依次包括第一卷积层、第一下采样层、第二卷积层、第三卷积层,其中,第一卷积层中kernel_size=15、padding=0,第二卷积层中kernel_size=5,stride=1,padding=2,第三卷积层中kernel_size=3,stride=1,padding=1,第一下采样层为4级残差模块串联。
表2
基于预设第三网络模型,以针对仿真语音序列Yfake进行频谱提取所获频谱Xrec、以及对应样本中语料组Thc所对应Mel频谱MT、真实语音组Yreal所对应Mel频谱MY三者之间的一致性,构建判别器Y;实际应用中,如图6所示,用于构建判别器Y的预设第三网络模型自其输入端至其输出端方向,依次包括第一卷积层、Dense Block1、第二卷积层、第一池化层、Dense Block2、第三卷积层,其中,各卷积层的尺寸为7x7、且stride=2,第一池化层为尺寸3x3的最大池化层、且stride=2,Dense Block1、Dense Block2分别均由12级子模块串联构成,各子模块分别均为1x1尺寸卷积层与3x3尺寸卷积层的串联结构。
当按上述设计,构建获得生成器G、判别器D、判别器Y后,然后进入步骤iv。
步骤iv.基于各个样本,结合如下判别器D所获结果与判别器Y所获结果融合所构建的损失函数:
LGAN_y=E[logY(MT)]+E[logY(1-P(y))]+E[logY(1-P(G(MT)))]
Lcycle=E[||G(P(y))-y||1]+E[||P(G(MT))-MT||1]
获得损失值Loss,并结合诸如预设损失收敛阈值等于0.01,针对生成器G进行训练,所获训练后的生成器G即为语音序列生成器;其中,y表示真实语音组Yreal中的真实语音序列,G(·)表示生成器G所对应的函数,D(·)表示判别器D所对应的函数,Y(·)表示判别器Y所对应的函数,P(·)表示频谱提取函数,E(·)表示期望函数,m表示预设融合阈值,诸如m=0.6。
基于上述步骤i至步骤iv所获得的语音序列生成器,进一步按如下步骤A至步骤B,应用语音序列生成器,获得由目标语言字符串与相应音调序列组成的目标语料组所对应的目标语音序列。
步骤A.针对由目标语言字符串与相应音调序列所组成目标语料组,执行频谱合成处理,获得目标语料组所对应的Mel目标频谱,然后进入步骤B。
步骤B.针对Mel目标频谱,应用语音序列生成器,获得相对应的目标语音序列。
在以往的端到端语音合成技术中,假设生成的初始仿真数据所在的空间定义为X,需要解决的场景中语音所在的空间定义为Y。我们要解决的问题是,将已生成充足的空间X中的仿真数据,转换到空间Y中,使得仿真数据更加真实,帮助语音识别网络模型的训练。但是以往的训练往往导致,每个Xi和每个Yi之间只能一一对应,甚至出现所有仿真数据X都会对应到一个Yi。使用了本专利所述的循环生成网络,保证了仿真数据Xi会对应到所有的Y。
上述结果数字化阐述在真实的实施案例表述为:当Y中有各种复杂背景(“餐厅”、“火车”、“人群噪音”背景)的对话语音时,在其他GAN网络只能生成单一的“餐厅”噪音背景对话语音,而本方案可以生成“嘈杂的人群和餐厅”等混合噪声背景对话语音。
同时,由于Mel频谱特征图也加入了判别器Y的训练,在其他GAN网络中,只能生成基于Mel频谱固定的音色和情绪,本专利将生成更加丰富的音色和情绪,将极大的增强样本的普适性和丰富性,真正做到有效帮助语音识别网络训练。
上述技术方案所设计一种基于循环生成网络的语音生成方法,基于由彼此相同语言字符串的语料组Thc与真实语音组Yreal所组成的各样本,应用语料组Thc所对应的Mel频谱MT、以及真实语音组Yreal所对应的Mel频谱MY,结合预设第一网络模型所构建生成器G与预设第二网络模型所构建判别器D融合的损失函数,针对预设第一网络模型所构建生成器G进行训练,如此在语音序列生成器的实际应用中,能够生成更加丰富的音色和情绪,将极大增强样本的普适性和丰富性,真正做到对语音识别网络的有效训练,进而获得语音序列生成器,将有效提高实际应用中语音获得的效率与准确率。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (6)
1.一种基于循环生成网络的语音生成方法,其特征在于:包括按如下步骤i至步骤iv,获得语音序列生成器;以及按如下步骤A至步骤B,应用语音序列生成器,获得由目标语言字符串与相应音调序列组成的目标语料组所对应的目标语音序列;
步骤i.基于语言字符串与相应音调序列组成的语料组、以及语言字符串与真实语音序列组成的真实语音组,确定预设数量的样本;其中,各样本分别由彼此相同语言字符串的语料组Thc与真实语音组Yreal所组成,然后进入步骤ii;
步骤ii.分别针对各个样本中的语料组Thc和真实语音组Yreal进行频谱合成处理,获得语料组Thc所对应的Mel频谱MT和真实语音组Yreal所对应的Mel频谱MY;然后进入步骤iii;
针对上述步骤ii设计两套方案应用,第一套方案分别针对各个样本,按如下步骤ii-1-1至步骤ii-1-3,针对样本中的语料组Thc进行频谱合成处理,获得该语料组Thc所对应的Mel频谱MT;
步骤ii-1-1.应用分词/词性句法分析与文字标注多音消歧方法,获得语料组Thc所对应的音素,然后进入步骤ii-1-2;
步骤ii-1-2.应用embedding层将该语料组Thc所对应的音素转换为Embedding向量,然后进入步骤ii-1-3;
步骤ii-1-3.根据该语料组Thc所对应的Embedding向量,映射获得该语料组Thc中语言字符串所对应的音频特征,即获得该语料组Thc所对应的Mel频谱MT;
第二套方案分别针对各个样本,按如下步骤ii-2-1至步骤ii-2-3,针对样本中的真实语音组Yreal进行频谱提取处理,获得该真实语音组Yreal所对应的Mel频谱MY;
步骤ii-2-1.针对真实语音组Yreal中的真实语音序列执行预加重、分帧和加窗处理,获得各桢语音信号,然后进入步骤ii-2-2;
步骤ii-2-2.分别对各桢语音信号进行短时傅立叶变换STFT,获得各桢语音信号分别所对应的短时幅度谱,然后进入步骤ii-2-3;
步骤ii-2-3.应用Mel滤波器分别对各桢语音信号所对应的短时幅度谱进行滤波处理,更新各桢语音信号分别所对应的短时幅度谱,并组成获得该真实语音组Yreal所对应的Mel频谱MY;
步骤iii.基于预设第一网络模型,以样本中语料组Thc所对应Mel频谱MT为输入,相应仿真语音序列Yfake为输出,构建生成器G;
基于预设第二网络模型,以仿真语音序列Yfake与对应样本中真实语音组Yreal的真实语音序列之间的对抗损失,构建判别器D;
基于预设第三网络模型,以针对仿真语音序列Yfake进行频谱提取所获频谱Xrec、以及对应样本中语料组Thc所对应Mel频谱MT、真实语音组Yreal所对应Mel频谱MY三者之间的一致性,构建判别器Y;然后进入步骤iv;
步骤iv.基于各个样本,结合判别器D所获结果与判别器Y所获结果融合所构建的损失函数,以及预设损失收敛阈值,针对生成器G进行训练,所获训练后的生成器G即为语音序列生成器;
步骤A.针对由目标语言字符串与相应音调序列所组成目标语料组,执行频谱合成处理,获得目标语料组所对应的Mel目标频谱,然后进入步骤B;
步骤B.针对Mel目标频谱,应用语音序列生成器,获得相对应的目标语音序列。
2.根据权利要求1所述一种基于循环生成网络的语音生成方法,其特征在于:所述步骤iv中,基于各个样本,结合如下判别器D所获结果与判别器Y所获结果融合所构建的损失函数:
LGAN_y=E[logY(MT)]+E[logY(1-P(y))]+E[logY(1-P(G(MT)))]
Lcycle=E[||G(P(y))-y||1]+E[||P(G(MT))-MT||1]
获得损失值Loss,并结合预设损失收敛阈值,针对生成器G进行训练,所获训练后的生成器G即为语音序列生成器;其中,y表示真实语音组Yreal中的真实语音序列,G(·)表示生成器G所对应的函数,D(·)表示判别器D所对应的函数,Y(·)表示判别器Y所对应的函数,P(·)表示频谱提取函数,E(·)表示期望函数,m表示预设融合阈值。
3.根据权利要求2所述一种基于循环生成网络的语音生成方法,其特征在于:所述预设融合阈值m=0.6,所述预设损失收敛阈值等于0.01。
4.根据权利要求1所述一种基于循环生成网络的语音生成方法,其特征在于:所述用于构建生成器G的预设第一网络模型自其输入端至其输出端方向,依次包括第一卷积层、第一激活层、第一上采样层、第一残差网络层、第二上采样层、第二残差网络层、第三上采样层、第三残差网络层、第四上采样层、第四残差网络层、第二卷积层、第二激活层;其中各第一残差网络层、第二残差网络层、第三残差网络层、第四残差网络层分别自其输入端至其输出端均包括3级残差子模块串联结构,各残差子模块分别均为3*1尺寸激活层与卷积层的串联结构,第一上采样层、第二上采样层分别均为8级残差模块串联,第三上采样层、第四上采样层分别均为2级残差模块串联。
5.根据权利要求1所述一种基于循环生成网络的语音生成方法,其特征在于:所述预设第二网络模型自其输入端至其输出端方向,依次包括第一卷积层、第一下采样层、第二卷积层、第三卷积层,其中,第一卷积层中kernel_size=15、padding=0,第二卷积层中kernel_size=5,stride=1,padding=2,第三卷积层中kernel_size=3,stride=1,padding=1,第一下采样层为4级残差模块串联。
6.根据权利要求1所述一种基于循环生成网络的语音生成方法,其特征在于:所述预设第三网络模型自其输入端至其输出端方向,依次包括第一卷积层、Dense Block1、第二卷积层、第一池化层、Dense Block2、第三卷积层,其中,各卷积层的尺寸为7x7、且stride=2,第一池化层为尺寸3x3的最大池化层、且stride=2,Dense Block1、Dense Block2分别均由12级子模块串联构成,各子模块分别均为1x1尺寸卷积层与3x3尺寸卷积层的串联结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110860966.2A CN113314109B (zh) | 2021-07-29 | 2021-07-29 | 一种基于循环生成网络的语音生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110860966.2A CN113314109B (zh) | 2021-07-29 | 2021-07-29 | 一种基于循环生成网络的语音生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113314109A CN113314109A (zh) | 2021-08-27 |
CN113314109B true CN113314109B (zh) | 2021-11-02 |
Family
ID=77381915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110860966.2A Active CN113314109B (zh) | 2021-07-29 | 2021-07-29 | 一种基于循环生成网络的语音生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113314109B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114898766A (zh) * | 2022-07-12 | 2022-08-12 | 四川高速公路建设开发集团有限公司 | 基于gan网络的分布式光纤语音增强方法及隧道救援系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109064423A (zh) * | 2018-07-23 | 2018-12-21 | 福建帝视信息科技有限公司 | 一种基于非对称循环生成对抗损失的智能修图方法 |
CN109147810A (zh) * | 2018-09-30 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 建立语音增强网络的方法、装置、设备和计算机存储介质 |
CN110060691A (zh) * | 2019-04-16 | 2019-07-26 | 南京邮电大学 | 基于i向量和VARSGAN的多对多语音转换方法 |
CN110599530A (zh) * | 2019-09-03 | 2019-12-20 | 西安电子科技大学 | 基于双正则约束的mvct图像纹理增强方法 |
CN110619885A (zh) * | 2019-08-15 | 2019-12-27 | 西北工业大学 | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 |
CN111724770A (zh) * | 2020-05-19 | 2020-09-29 | 中国电子科技网络信息安全有限公司 | 一种基于深度卷积生成对抗网络的音频关键词识别方法 |
CN112599145A (zh) * | 2020-12-07 | 2021-04-02 | 天津大学 | 基于生成对抗网络的骨传导语音增强方法 |
CN112712812A (zh) * | 2020-12-24 | 2021-04-27 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频信号生成方法、装置、设备以及存储介质 |
JP2021510846A (ja) * | 2018-03-05 | 2021-04-30 | 日本電気株式会社 | 音声特徴補償装置、方法およびプログラム |
-
2021
- 2021-07-29 CN CN202110860966.2A patent/CN113314109B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021510846A (ja) * | 2018-03-05 | 2021-04-30 | 日本電気株式会社 | 音声特徴補償装置、方法およびプログラム |
CN109064423A (zh) * | 2018-07-23 | 2018-12-21 | 福建帝视信息科技有限公司 | 一种基于非对称循环生成对抗损失的智能修图方法 |
CN109147810A (zh) * | 2018-09-30 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 建立语音增强网络的方法、装置、设备和计算机存储介质 |
CN110060691A (zh) * | 2019-04-16 | 2019-07-26 | 南京邮电大学 | 基于i向量和VARSGAN的多对多语音转换方法 |
CN110619885A (zh) * | 2019-08-15 | 2019-12-27 | 西北工业大学 | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 |
CN110599530A (zh) * | 2019-09-03 | 2019-12-20 | 西安电子科技大学 | 基于双正则约束的mvct图像纹理增强方法 |
CN111724770A (zh) * | 2020-05-19 | 2020-09-29 | 中国电子科技网络信息安全有限公司 | 一种基于深度卷积生成对抗网络的音频关键词识别方法 |
CN112599145A (zh) * | 2020-12-07 | 2021-04-02 | 天津大学 | 基于生成对抗网络的骨传导语音增强方法 |
CN112712812A (zh) * | 2020-12-24 | 2021-04-27 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频信号生成方法、装置、设备以及存储介质 |
Non-Patent Citations (2)
Title |
---|
基于循环神经网络的实时语音增强算法;肖纯鑫 等;《计算机工程与设计》;20210716;第42卷(第7期);第1989-1994页 * |
基于深度卷积生成对抗网络的语音生成技术;朱纯 等;《仪表技术》;20181231(第2期);第13-15、20页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113314109A (zh) | 2021-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101606190B (zh) | 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法 | |
CN110136687B (zh) | 一种基于语音训练克隆口音及声韵方法 | |
CN112331222B (zh) | 一种转换歌曲音色的方法、系统、设备及存储介质 | |
CN113436606B (zh) | 一种原声语音翻译方法 | |
KR102272554B1 (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
CN116798405A (zh) | 语音合成方法、装置、存储介质和电子设备 | |
KR20190135853A (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
CN113314109B (zh) | 一种基于循环生成网络的语音生成方法 | |
CN116092472A (zh) | 一种语音合成方法和合成系统 | |
CN117789771A (zh) | 一种跨语言端到端情感语音合成方法及系统 | |
Onaolapo et al. | A simplified overview of text-to-speech synthesis | |
CN111724809A (zh) | 一种基于变分自编码器的声码器实现方法及装置 | |
Gao et al. | Polyscriber: Integrated fine-tuning of extractor and lyrics transcriber for polyphonic music | |
CN112242134B (zh) | 语音合成方法及装置 | |
Nazir et al. | Deep learning end to end speech synthesis: A review | |
CN116129868A (zh) | 一种结构化画本的生成方法和生成系统 | |
CN115359775A (zh) | 一种端到端的音色及情感迁移的中文语音克隆方法 | |
Aso et al. | Speakbysinging: Converting singing voices to speaking voices while retaining voice timbre | |
Nthite et al. | End-to-End Text-To-Speech synthesis for under resourced South African languages | |
CN118197277B (zh) | 语音合成方法、装置、电子设备和存储介质 | |
González-Docasal et al. | Exploring the limits of neural voice cloning: A case study on two well-known personalities | |
Yoon et al. | Enhancing Multilingual TTS with Voice Conversion Based Data Augmentation and Posterior Embedding | |
CN112992118B (zh) | 一种少语料的语音模型训练及合成方法 | |
CN116825090B (zh) | 语音合成模型的训练方法、装置及语音合成方法、装置 | |
Bous | A neural voice transformation framework for modification of pitch and intensity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |