CN114743539A - 语音合成方法、装置、设备及存储介质 - Google Patents
语音合成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114743539A CN114743539A CN202210516103.8A CN202210516103A CN114743539A CN 114743539 A CN114743539 A CN 114743539A CN 202210516103 A CN202210516103 A CN 202210516103A CN 114743539 A CN114743539 A CN 114743539A
- Authority
- CN
- China
- Prior art keywords
- text
- synthesized
- vector information
- speech synthesis
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 28
- 239000013598 vector Substances 0.000 claims abstract description 158
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 74
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 74
- 238000012549 training Methods 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 39
- 230000008569 process Effects 0.000 claims abstract description 24
- 238000001228 spectrum Methods 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 18
- 238000013507 mapping Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明属于人工智能技术领域,提出一种语音合成方法、装置、设备及存储介质,该方法包括:将待合成文本输入到语音合成系统中;基于图编码器,根据待合成文本,获取待合成文本对应的韵律向量信息;基于线性层,根据待合成文本对应的韵律向量信息,获取先验分布的均值和方差;基于随机时长预测器,将待合成文本对应的韵律向量信息和预设噪声,获取因素时长对数,并对先验分布的均值和方差、因素时长的对数进行对齐,获取因素时长;基于标准化流模块,根据因素时长,获取中间向量信息;基于解码器,根据中间向量信息,获取合成语音。减少了传统级联模型造成的累积误差,并且大大简化了传统语音合成模型的训练过程。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种语音合成方法、装置、设备及存储介质。
背景技术
语音合成(Text-To-Speech,简称TTS)是指通过文字人工生成人类的声音,也就是让设备根据相应的输入文本发出语音。近年来,神经语音合成系统高速发展,摆脱了传统方法冗杂的合成流程,不再依赖高度专业的文法、词法特征提取,而是将原始文本经过神经网络转成梅尔谱,再将梅尔谱转成声音波形,实现了端到端的语音合成系统,所合成的语音质量近似人声,其在人工智能行业有着非常重要的应用,比如语音助手和各种场景的翻译、有声读物、新闻播报、人工智能电话和人工智能主播等等。
不考虑前端文本处理的情况下,语音合成的主要建模过程被简化为两个主要阶段。第一阶段:将前端文本处理得到的规范文本序列转换为中间特征表示,如梅尔频谱声学特征或语言学特征表示。第二阶段:将中间特征表示重构为语音波形。
尽管并行化的TTS系统蓬勃发展,但两阶段模型仍然存在一些问题:1,由于第二阶段需要依赖于第一阶段的输出进行训练,因此序列化或微调的训练方式仍然必不可少;2,可学习的特征表示有助于提升TTS的表现,但是两阶段模型中第一阶段和第二阶段的衔接依赖于预先定义好的中间特征表示,模型表现仍然有进一步提升的空间。这种两步处理的累积误差可能会导致最终结果与预期结果产生较大误差,并且第一步声学模型的误差会直接影响第二步模型的效果,声学模型和声码器的细微差异度会导致整体语音合成系统的效果不佳。
发明内容
本发明提供一种语音合成方法、装置、设备及存储介质,其主要目的在于不需要中间声学特征表示便可直接为文本生成高自然度的合成语音,实现端到端的语音合成方法,有效提高语音合成模型的使用效果。
第一方面,本发明实施例提供一种语音合成方法,包括:
将待合成文本输入到语音合成系统中,所述语音合成系统包括图编码器、线性层、随机时长预测器、标准化流模块和解码器,所述语音合成系统通过样本文本、所述样本文本对应的线性频谱、所述样本文本对应的语音标签进行训练得到;
基于所述图编码器,根据所述待合成文本,获取所述待合成文本对应的韵律向量信息;
基于所述线性层,根据所述待合成文本对应的韵律向量信息,获取先验分布的均值和方差;
基于随机时长预测器,将所述待合成文本对应的韵律向量信息和预设噪声,获取因素时长对数,并对所述先验分布的均值和方差、所述因素时长的对数进行对齐,获取因素时长;
基于标准化流模块,根据所述因素时长,获取中间向量信息;
基于所述解码器,根据所述中间向量信息,获取合成语音。
优选地,所述基于所述图编码器,根据所述待合成文本,获取所述待合成文本对应的韵律向量信息,包括:
将所述待合成文本转换为图嵌入向量信息,所述图嵌入向量信息包括多个节点向量和多个边向量;
对多个边向量进行筛选,获取相对应两个节点向量之间的目标边向量,对所述目标边向量进行编码,获取所述待合成文本对应的韵律向量信息,所述目标边向量表示对应两个节点向量的韵律关系。
优选地,所述将所述待合成文本转换为图嵌入向量信息,包括:
将所述待合成文本拆分为各个字词,并获得各个字词之间的顺序关系;
对各个字词和各个字词之间的顺序关系进行映射转换,得到所述图嵌入向量信息。
优选地,所述语音合成系统在训练过程中还包括后验编码器和鉴别器,所述语音合成系统通过样本文本、所述样本文本对应的线性频谱、所述样本文本对应的语音标签进行训练得到,包括:
将所述线性频谱输入到后验编码器中,获取隐变量;
将所述隐变量输入到所述标准化流模块中,获取所述样本文本对应的因素时长和第二中间向量信息;
将所述第二中间向量信息输入到所述解码器中,获取所述样本文本对应的预测语音;
将所述样本文本输入到所述图编码器中,获取所述样本文本对应的韵律向量信息;
将所述样本文本对应的韵律向量信息输入到所述线性层中,得到所述样本文本对应的均值和方差;
对所述样本文本对应的因素时长、所述样本文本对应的均值和方差进行对齐,并将对齐结果输入到所述随机时长预测器中,得到预测噪声;
根据所述图编码器、所述预测噪声、所述鉴别器和所述解码器进行对抗训练的最小二乘损失函数,结合预设损失函数,计算出训练损失;
将所述预测语音和所述语音标签输入到所述鉴别器中,若所述鉴别器判断所述预测语音与所述语音标签之间的差异在预设误差范围之内,且所述训练损失也在预设损失范围之内,则结束训练。
优选地,还包括:
若所述鉴别器判断所述预测语音与所述语音标签之间的差异在预设误差范围之外,或,所述训练损失也在预设损失范围之外,则调整所述图编码器、所述线性层、所述随机时长预测器、所述标准化流模块和所述解码器的模型参数,重新进行训练,直到所述鉴别器判断重新训练后得到的预测语音与所述语音标签之间的差异在预设误差范围之内,且重新训练后计算出的训练损失也在预设损失范围之内。
优选地,所述基于所述解码器,根据所述中间向量信息,获取合成语音,包括:
从所述中间向量信息中提取出语音频谱特征;
对所述语音频谱特征进行映射,获取所述合成语音。
优选地,所述解码器具体为声码器。
第二方面,本发明实施例提供一种语音合成装置,包括:
输入模块,用于将待合成文本输入到语音合成系统中,所述语音合成系统包括图编码器、线性层、随机时长预测器、标准化流模块和解码器,所述语音合成系统通过样本文本、所述样本文本对应的线性频谱、所述样本文本对应的语音标签进行训练得到;
韵律模块,用于基于所述图编码器,根据所述待合成文本,获取所述待合成文本对应的韵律向量信息;
线性模块,用于基于所述线性层,根据所述待合成文本对应的韵律向量信息,获取先验分布的均值和方差;
因素模块,用于基于随机时长预测器,将所述待合成文本对应的韵律向量信息和预设噪声,获取因素时长对数,并对所述先验分布的均值和方差、所述因素时长的对数进行对齐,获取因素时长;
向量模块,用于基于标准化流模块,根据所述因素时长,获取中间向量信息;
合成模块,用于基于所述解码器,根据所述中间向量信息,获取合成语音。
第三方面,本发明实施例提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语音合成方法的步骤。
第四方面,本发明实施例提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语音合成方法的步骤。
本发明提出的一种语音合成方法、装置、设备及存储介质,其涉及到的语音合成系统利用样本文本、线性频谱和语音标签进行训练,利用图编码器和标准化流模块,使用中间特征表示将两阶段模型融合为单阶段模型,在应用该语音合成系统时,直接将待合成文本输入到语音合成系统即可,不需要中间声学特征表示便可直接为文本生成高自然度的合成语音,从而实现了端到端的语音合成,减少了传统级联模型造成的累积误差,并且大大简化了传统语音合成模型的训练过程,降低了传统第一阶段和第二阶段中模型对齐的难度。
附图说明
图1为本发明实施例提供的一种语音合成方法的应用场景示意图;
图2为本发明实施例提供的一种语音合成方法的流程图;
图3为本发明实施例中语音合成系统在应用时的结构示意图;
图4为本发明实施例中训练过程中语音合成模型的结构示意图;
图5为本发明实施例提供的一种语音合成装置的结构示意图;
图6为本发明实施例中提供的一种计算机设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为本发明实施例提供的一种语音合成方法的应用场景示意图,如图1所示,用户在客户端中输入待合成语音,客户端获取到该待合成语音后,将该待合成语音发送给服务端,服务端接收到该待合成语音后,执行该一种语音合成方法,最后得到合成语音。
需要说明的是,服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。客户端可为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。客户端和服务端可以通过蓝牙、USB(Universal Serial Bus,通用串行总线)或者其他通讯连接方式进行连接,本发明实施例在此不做限制。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,简称AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习、深度学习等几大方向。
图2为本发明实施例提供的一种语音合成方法的流程图,如图2所示,该方法包括:
S210,将待合成文本输入到语音合成系统中,所述语音合成系统包括图编码器、线性层、随机时长预测器、标准化流模块和解码器,所述语音合成系统通过样本文本、所述样本文本对应的线性频谱、所述样本文本对应的语音标签进行训练得到;
首先获取待合成文本,待合成文本包括短句和短文本等,获取的方式包括用户输入的文本,或者获取预设存储路径中存储的文本等,其中,该预设存储路径包括区块链。然后将待合成文本输入到语音合成系统中,本发明实施例中,该语音合成系统可以预先存储在区块链中,该语音合成系统为经过样本文本、样本文本对应的线性频谱、样本文本对应的语音标签进行训练得到。本发明实施例中,样本文本为各种需要短句或者短文本,比如“我爱我的祖国”“地球围绕太阳公转”“天空是蓝色的”等等;样本文本对应的线性频谱是指对样本文本进行转换得到的语音频谱,比如可以是梅尔语音频谱,具体获取方式可以是利用神经网络对该样本文本进行抽取,得到该样本文本对应的梅尔语音频谱,也可以是通过其它现有的方式进行获取,本发明实施例在此不做具体的限定;样本文本对应的语音标签就是自然人对样本文本的读语音,该自然人可以是老人、小孩、配音演员或者影视演员等等,具体可以根据实际情况进行确定。
本发明实施例中,图3为本发明实施例中语音合成系统在应用时的结构示意图,如图3所示,该语音合成系统由图编码器、线性层、随机时长预测器、标准化流模块和解码器。
S220,基于所述图编码器,根据所述待合成文本,获取所述待合成文本对应的韵律向量信息;
首先将该待合成文本输入到图编码器中,得到该待合成文本对应的韵律向量信息。具体地,图编码器中包括映射函数,通过该映射函数对待合成文本进行映射编码,得到该待合成文本对应的韵律向量信息。
本发明实施例中通过图编码器从待合成文本中分析韵律信息,将待合成文本中的语义信息映射到不同语音韵律节奏,使得韵律调节的过程成为一个全自动化的过程,提高了语音合成的准确率。
S230,基于所述线性层,根据所述待合成文本对应的韵律向量信息,获取先验分布的均值和方差;
然后将待合成文本对应的韵律向量信息输入到线性层中,得到先验分布的均值和方差。
S240,基于随机时长预测器,将所述待合成文本对应的韵律向量信息和预设噪声,获取因素时长对数,并对所述先验分布的均值和方差、所述因素时长的对数进行对齐,获取因素时长;
将该待合成文本对应的韵律向量信息和预设噪声输入到随机时长预测器中,得到因素时长对数。随机时长预测器(Stochastic Duration Predictor,SDP)输入图编码器的结果,输出音素时长的对数。图编码器首先通过前处理一维卷积,之后进入带洞深度可分离卷积(Dialted and Depth-Separable Convolution,DDSConv),然后通过后处理一维卷积之后,最后进入神经样条流(Neural spline flows)输出音素时长的对数。
S250,基于标准化流模块,根据所述因素时长,获取中间向量信息;
然后将音素时长输入到标准化流模块中,得到中间向量信息,该中间向量信息是语音图谱表示,用来表征语音信息。本发明实施例中,标准化流是4个仿射耦合层组成的模块,每个耦合层包含4个WaveNet残差结构,用于增强先验编码器的表达能力,本发明实施例中限制了耦合层为保持大小的变换(volume-preserving transformations),因此耦合层不会产生缩放参数,上述的具体实现上,耦合层由残差耦合层和翻转层组成,残差耦合层实际是WaveNet的残差结构。
S260,基于所述解码器,根据所述中间向量信息,获取合成语音。
最后将该中间向量信息输入到解码器中,得到合成语音。本发明实施例中,解码器本质上是HiFi-GAN生成器,能够将声学模型产生的频谱转换为高质量的音频,它由一堆转置卷积组成,每个转置卷积后面都有一个多感受野融合模块,多感受野融合模块的输出是具有不同感受野大小的残差块的输出之和。
HiFi-GAN生成器的优点如下:
1、引入了多周期判别器(Multi-Period Discriminator,MPD)。HiFiGAN同时拥有多尺度判别器(Multi-Scale Discriminator,MSD)和多周期判别器,目标就是尽可能增强GAN判别器甄别合成或真实音频的能力。
2、生成器中提出了多感受野融合模块。WaveNet为了增大感受野,叠加带洞卷积,逐样本点生成,音质确实很好,但是也使得模型较大,推理速度较慢。HiFiGAN则提出了一种残差结构,交替使用带洞卷积和普通卷积增大感受野,保证合成音质的同时,提高推理速度。
本发明提出的一种语音合成方法,其涉及到的语音合成系统利用样本文本、线性频谱和语音标签进行训练,利用图编码器和标准化流模块,使用中间特征表示将两阶段模型融合为单阶段模型,在应用该语音合成系统时,直接将待合成文本输入到语音合成系统即可,不需要中间声学特征表示便可直接为文本生成高自然度的合成语音,从而实现了端到端的语音合成,减少了传统级联模型造成的累积误差,并且大大简化了传统语音合成模型的训练过程,降低了传统第一阶段和第二阶段中模型对齐的难度。
在上述实施例的基础上,优选地,所述基于所述图编码器,根据所述待合成文本,获取所述待合成文本对应的韵律向量信息,包括:
将所述待合成文本转换为图嵌入向量信息,所述图嵌入向量信息包括多个节点向量和多个边向量;
对多个边向量进行筛选,获取相对应两个节点向量之间的目标边向量,对所述目标边向量进行编码,获取所述待合成文本对应的韵律向量信息,所述目标边向量表示对应两个节点向量的韵律关系。
具体地,在检测到待合成文本时,先将该待合成文本转换成图嵌入向量信息,图嵌入是一种将图数据高维稠密的矩阵映射为低微稠密向量的过程,通过将图表示为一组低维向量,存在不同类型的图,例如同构图、一构图、属性图等等。该图嵌入向量信息包括节点向量信息和边向量信息,通过该节点向量信息得到各个字词的向量信息,通过该边向量信息得到各个字词之间的韵律信息,其中,边向量信息包括有向边向量信息、反向边向量信息和顺序边向量信息。
获取到图嵌入向量信息后,在多个边向量中进行筛选,从多个边向量中筛选出目标边向量,目标边向量为相互对应的两个节点之间的边向量,相互对应的两个节点是相互对应的。该图编码器中包括映射函数,通过该映射函数将目标边向量进行编码,得到该待合成文本对应的韵律向量信息,该韵律向量信息可以看做是中间向量信息。
在上述实施例的基础上,优选地,所述将所述待合成文本转换为图嵌入向量信息,包括:
将所述待合成文本拆分为各个字词,并获得各个字词之间的顺序关系;
对各个字词和各个字词之间的顺序关系进行映射转换,得到所述图嵌入向量信息。
具体地,在检测到该待合成文本时,将该待合成文本拆分为各个字词,并获取各个字词之间的顺序关系,例如,待合成文本为“我爱我的祖国”,将该“我爱我的祖国”拆分成为“我”“爱”“我”“的”“祖”“国”,并且获取各个字词之间的顺序,其顺序为“我”→“爱”→“我”→“的”→“祖”→“国”。
在获取到各个字词后和各个字词之间的顺序后,对各个字词和各个字词之间的顺序进行映射,得到各个字词之间的字词向量信息和边向量信息,从而得到对应的图嵌入向量信息,其中,边向量信息中的权重为0。
在上述实施例的基础上,优选地,所述语音合成系统在训练过程中还包括后验编码器和鉴别器,所述语音合成系统通过样本文本、所述样本文本对应的线性频谱、所述样本文本对应的语音标签进行训练得到,包括:
将所述线性频谱输入到后验编码器中,获取隐变量;
将所述隐变量输入到所述标准化流模块中,获取所述样本文本对应的因素时长和第二中间向量信息;
将所述第二中间向量信息输入到所述解码器中,获取所述样本文本对应的预测语音;
将所述样本文本输入到所述图编码器中,获取所述样本文本对应的韵律向量信息;
将所述样本文本对应的韵律向量信息输入到所述线性层中,得到所述样本文本对应的均值和方差;
对所述样本文本对应的因素时长、所述样本文本对应的均值和方差进行对齐,并将对齐结果输入到所述随机时长预测器中,得到预测噪声;
根据所述图编码器、所述预测噪声、所述鉴别器和所述解码器进行对抗训练的最小二乘损失函数,结合预设损失函数,计算出训练损失;
将所述预测语音和所述语音标签输入到所述鉴别器中,若所述鉴别器判断所述预测语音与所述语音标签之间的差异在预设误差范围之内,且所述训练损失也在预设损失范围之内,则结束训练。
图4为本发明实施例中训练过程中语音合成模型的结构示意图,如图4所示,在训练过程中,该语音合成模型还包括后验编码器410和鉴别器420,在对该语音合成模型进行训练的过程中,需要输入的数据有样本文本、线性频谱和语音标签,先将线性频谱输入到后验编码器中,获取隐变量,后验编码器包含16个WaveNet残差结构,输入线性对数幅度谱(linear-scale log magnitude spectrograms),输出192维的后验隐变量。对于后验编码器,使用WaveGlow和Glow-TTS中使用的非因果WaveNet残差块,WaveNet残差块由具有门控激活单元和跳过连接的扩张卷积层组成,块上方的线性投影层产生正态后验分布的均值和方差。
然后将该隐变量输入到标准化流模块中,得到该样本文本对应的因素时长和第二中间向量信息,将第二中间向量信息输入到解码器中,得到样本文本对应的预测语音,该预测语音为该语音合成系统合成出来的语音,通过将该预测语音和语音标签一起输入到鉴别器中,通过鉴别器判断该预测语音与语音标签之间的差距是不是在预设误差范围之内,如果是,说明此次训练结果较好。
同时,将样本文本输入到图编码器中,得到该样本文本对应的韵律向量信息,并将韵律向量信息输入到线性层中,得到该样本文本对应的均值和方差,并将样本文本对应的因素时长、样本文本对应的均值和方差进行对齐,将对齐结果输入到随机时长预测器中,得到预测噪声。然后利用图编码器、预测噪声、鉴别器、解码器进行对抗训练的最小二乘损失函数,结合预设损失函数,计算出训练损失。比较训练损失与预设损失范围的大小,如果训练损失在预设损失范围之内,则结束训练。反之,调整图编码器、线性层、随机时长预测器、标准化流模块和解码器的模型参数,重新进行训练,直到鉴别器判断重新训练后得到的预测语音与语音标签之间的差异在预设误差范围之内,且重新训练后计算出的训练损失也在预设损失范围之内。
在上述实施例的基础上,优选地,所述基于所述解码器,根据所述中间向量信息,获取合成语音,包括:
从所述中间向量信息中提取出语音频谱特征;
对所述语音频谱特征进行映射,获取所述合成语音。
具体地,本发明实施例中的解码器为声码器,根据中间向量信息,获取合成语音的具体过程包括:从中间向量信息中提取出语音频谱特征,然后对该语音频谱特征进行映射,得到合成语音。
图5为本发明实施例提供的一种语音合成装置的结构示意图,如图5所示,该装置包括:输入模块510、韵律模块520、线性模块530、因素模块540、向量模块550和合成模块560,其中:
输入模块510用于将待合成文本输入到语音合成系统中,所述语音合成系统包括图编码器、线性层、随机时长预测器、标准化流模块和解码器,所述语音合成系统通过样本文本、所述样本文本对应的线性频谱、所述样本文本对应的语音标签进行训练得到;
韵律模块520用于基于所述图编码器,根据所述待合成文本,获取所述待合成文本对应的韵律向量信息;
线性模块530用于基于所述线性层,根据所述待合成文本对应的韵律向量信息,获取先验分布的均值和方差;
因素模块540用于基于随机时长预测器,将所述待合成文本对应的韵律向量信息和预设噪声,获取因素时长对数,并对所述先验分布的均值和方差、所述因素时长的对数进行对齐,获取因素时长;
向量模块550用于基于标准化流模块,根据所述因素时长,获取中间向量信息;
合成模块560用于基于所述解码器,根据所述中间向量信息,获取合成语音。
本实施例为与上述方法实施例相对应的系统实施例,其具体实施过程与上述方法实施例相同,详情请参考上述方法实施例,本系统实施例在此不再赘述。
在上述实施例的基础上,优选地,所述韵律模块包括嵌入单元和向量单元,其中:
所述嵌入单元用于将所述待合成文本转换为图嵌入向量信息,所述图嵌入向量信息包括多个节点向量和多个边向量;
所述向量单元用于对多个边向量进行筛选,获取相对应两个节点向量之间的目标边向量,对所述目标边向量进行编码,获取所述待合成文本对应的韵律向量信息,所述目标边向量表示对应两个节点向量的韵律关系。
在上述实施例的基础上,优选地,所述嵌入单元包括顺序单元和转换单元,其中:
所述顺序单元用于将所述待合成文本拆分为各个字词,并获得各个字词之间的顺序关系;
所述转换单元用于对各个字词和各个字词之间的顺序关系进行映射转换,得到所述图嵌入向量信息。
在上述实施例的基础上,优选地,所述语音合成系统在训练过程中还包括后验编码器和鉴别器,所述输入模块包括第一输入单元、第二输入单元、第三输入单元、第四输入单元、第五输入单元、第六输入单元、第七输入单元和第八输入单元,其中:
所述第一输入单元用于将所述线性频谱输入到后验编码器中,获取隐变量;
所述第二输入单元用于将所述隐变量输入到所述标准化流模块中,获取所述样本文本对应的因素时长和第二中间向量信息;
所述第三输入单元用于将所述第二中间向量信息输入到所述解码器中,获取所述样本文本对应的预测语音;
所述第四输入单元用于将所述样本文本输入到所述图编码器中,获取所述样本文本对应的韵律向量信息;
所述第五输入单元用于将所述样本文本对应的韵律向量信息输入到所述线性层中,得到所述样本文本对应的均值和方差;
所述第六输入单元用于对所述样本文本对应的因素时长、所述样本文本对应的均值和方差进行对齐,并将对齐结果输入到所述随机时长预测器中,得到预测噪声;
所述第七输入单元用于根据所述图编码器、所述预测噪声、所述鉴别器和所述解码器进行对抗训练的最小二乘损失函数,结合预设损失函数,计算出训练损失;
所述第八输入单元用于将所述预测语音和所述语音标签输入到所述鉴别器中,若所述鉴别器判断所述预测语音与所述语音标签之间的差异在预设误差范围之内,且所述训练损失也在预设损失范围之内,则结束训练。
在上述实施例的基础上,优选地,所述输入模块包括第九输入单元,其中:
所述第九输入单元用于若所述鉴别器判断所述预测语音与所述语音标签之间的差异在预设误差范围之外,或,所述训练损失也在预设损失范围之外,则调整所述图编码器、所述线性层、所述随机时长预测器、所述标准化流模块和所述解码器的模型参数,重新进行训练,直到所述鉴别器判断重新训练后得到的预测语音与所述语音标签之间的差异在预设误差范围之内,且重新训练后计算出的训练损失也在预设损失范围之内。
在上述实施例的基础上,优选地,所述合成模块包括提取单元和映射单元,其中:
所述提取单元用于从所述中间向量信息中提取出语音频谱特征;
所述映射单元用于对所述语音频谱特征进行映射,获取所述合成语音。
在上述实施例的基础上,优选地,所述解码器具体为声码器。
上述语音合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图6为本发明实施例中提供的一种计算机设备的结构示意图,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机存储介质、内存储器。该计算机存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行语音合成方法过程中生成或获取的数据,如韵律向量信息、均值和方差等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音合成方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中的语音合成方法的步骤。或者,处理器执行计算机程序时实现语音合成装置这一实施例中的各模块/单元的功能。
在一实施例中,提供一计算机存储介质,该计算机存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中语音合成方法的步骤。或者,该计算机程序被处理器执行时实现上述语音合成装置这一实施例中的各模块/单元的功能。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音合成方法,其特征在于,包括:
将待合成文本输入到语音合成系统中,所述语音合成系统包括图编码器、线性层、随机时长预测器、标准化流模块和解码器,所述语音合成系统通过样本文本、所述样本文本对应的线性频谱、所述样本文本对应的语音标签进行训练得到;
基于所述图编码器,根据所述待合成文本,获取所述待合成文本对应的韵律向量信息;
基于所述线性层,根据所述待合成文本对应的韵律向量信息,获取先验分布的均值和方差;
基于随机时长预测器,将所述待合成文本对应的韵律向量信息和预设噪声,获取因素时长对数,并对所述先验分布的均值和方差、所述因素时长的对数进行对齐,获取因素时长;
基于标准化流模块,根据所述因素时长,获取中间向量信息;
基于所述解码器,根据所述中间向量信息,获取合成语音。
2.根据权利要求1所述的语音合成方法,其特征在于,所述基于所述图编码器,根据所述待合成文本,获取所述待合成文本对应的韵律向量信息,包括:
将所述待合成文本转换为图嵌入向量信息,所述图嵌入向量信息包括多个节点向量和多个边向量;
对多个边向量进行筛选,获取相对应两个节点向量之间的目标边向量,对所述目标边向量进行编码,获取所述待合成文本对应的韵律向量信息,所述目标边向量表示对应两个节点向量的韵律关系。
3.根据权利要求2所述的语音合成方法,其特征在于,所述将所述待合成文本转换为图嵌入向量信息,包括:
将所述待合成文本拆分为各个字词,并获得各个字词之间的顺序关系;
对各个字词和各个字词之间的顺序关系进行映射转换,得到所述图嵌入向量信息。
4.根据权利要求1所述的语音合成方法,其特征在于,所述语音合成系统在训练过程中还包括后验编码器和鉴别器,所述语音合成系统通过样本文本、所述样本文本对应的线性频谱、所述样本文本对应的语音标签进行训练得到,包括:
将所述线性频谱输入到后验编码器中,获取隐变量;
将所述隐变量输入到所述标准化流模块中,获取所述样本文本对应的因素时长和第二中间向量信息;
将所述第二中间向量信息输入到所述解码器中,获取所述样本文本对应的预测语音;
将所述样本文本输入到所述图编码器中,获取所述样本文本对应的韵律向量信息;
将所述样本文本对应的韵律向量信息输入到所述线性层中,得到所述样本文本对应的均值和方差;
对所述样本文本对应的因素时长、所述样本文本对应的均值和方差进行对齐,并将对齐结果输入到所述随机时长预测器中,得到预测噪声;
根据所述图编码器、所述预测噪声、所述鉴别器和所述解码器进行对抗训练的最小二乘损失函数,结合预设损失函数,计算出训练损失;
将所述预测语音和所述语音标签输入到所述鉴别器中,若所述鉴别器判断所述预测语音与所述语音标签之间的差异在预设误差范围之内,且所述训练损失也在预设损失范围之内,则结束训练。
5.根据权利要求4所述的语音合成方法,其特征在于,还包括:
若所述鉴别器判断所述预测语音与所述语音标签之间的差异在预设误差范围之外,或,所述训练损失也在预设损失范围之外,则调整所述图编码器、所述线性层、所述随机时长预测器、所述标准化流模块和所述解码器的模型参数,重新进行训练,直到所述鉴别器判断重新训练后得到的预测语音与所述语音标签之间的差异在预设误差范围之内,且重新训练后计算出的训练损失也在预设损失范围之内。
6.根据权利要求1至5任一所述的语音合成方法,其特征在于,所述基于所述解码器,根据所述中间向量信息,获取合成语音,包括:
从所述中间向量信息中提取出语音频谱特征;
对所述语音频谱特征进行映射,获取所述合成语音。
7.根据权利要求6所述的语音合成方法,其特征在于,所述解码器具体为声码器。
8.一种语音合成装置,其特征在于,包括:
输入模块,用于将待合成文本输入到语音合成系统中,所述语音合成系统包括图编码器、线性层、随机时长预测器、标准化流模块和解码器,所述语音合成系统通过样本文本、所述样本文本对应的线性频谱、所述样本文本对应的语音标签进行训练得到;
韵律模块,用于基于所述图编码器,根据所述待合成文本,获取所述待合成文本对应的韵律向量信息;
线性模块,用于基于所述线性层,根据所述待合成文本对应的韵律向量信息,获取先验分布的均值和方差;
因素模块,用于基于随机时长预测器,将所述待合成文本对应的韵律向量信息和预设噪声,获取因素时长对数,并对所述先验分布的均值和方差、所述因素时长的对数进行对齐,获取因素时长;
向量模块,用于基于标准化流模块,根据所述因素时长,获取中间向量信息;
合成模块,用于基于所述解码器,根据所述中间向量信息,获取合成语音。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述语音合成方法的步骤。
10.一种计算机存储介质,所述计算机存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述语音合成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210516103.8A CN114743539A (zh) | 2022-05-12 | 2022-05-12 | 语音合成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210516103.8A CN114743539A (zh) | 2022-05-12 | 2022-05-12 | 语音合成方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114743539A true CN114743539A (zh) | 2022-07-12 |
Family
ID=82286495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210516103.8A Pending CN114743539A (zh) | 2022-05-12 | 2022-05-12 | 语音合成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114743539A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116704999A (zh) * | 2022-09-15 | 2023-09-05 | 荣耀终端有限公司 | 一种音频数据处理方法、装置、存储介质和电子设备 |
-
2022
- 2022-05-12 CN CN202210516103.8A patent/CN114743539A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116704999A (zh) * | 2022-09-15 | 2023-09-05 | 荣耀终端有限公司 | 一种音频数据处理方法、装置、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109859736B (zh) | 语音合成方法及系统 | |
WO2022141842A1 (zh) | 基于深度学习的语音训练方法、装置、设备以及存储介质 | |
CN112712813B (zh) | 语音处理方法、装置、设备及存储介质 | |
US11475874B2 (en) | Generating diverse and natural text-to-speech samples | |
US11961515B2 (en) | Contrastive Siamese network for semi-supervised speech recognition | |
WO2022252904A1 (zh) | 基于人工智能的音频处理方法、装置、设备、存储介质及计算机程序产品 | |
CN113761841B (zh) | 将文本数据转换为声学特征的方法 | |
CN112837669A (zh) | 语音合成方法、装置及服务器 | |
CN114360502A (zh) | 语音识别模型的处理方法、语音识别方法及装置 | |
CN113450765A (zh) | 语音合成方法、装置、设备及存储介质 | |
CN115836300A (zh) | 用于文本到语音的自训练WaveNet | |
CN116303966A (zh) | 基于提示学习的对话行为识别系统 | |
CN115762489A (zh) | 语音识别模型的数据处理系统及方法、语音识别方法 | |
CN117592564A (zh) | 问答交互方法、装置、设备及介质 | |
CN114743539A (zh) | 语音合成方法、装置、设备及存储介质 | |
CN113823265A (zh) | 一种语音识别方法、装置和计算机设备 | |
CN116597807A (zh) | 基于多尺度风格的语音合成方法、装置、设备及介质 | |
CN116994553A (zh) | 语音合成模型的训练方法、语音合成方法、装置及设备 | |
CN116092478A (zh) | 语音情感转换的方法、装置、设备和存储介质 | |
CN115376484A (zh) | 基于多帧预测的轻量级端到端语音合成系统构建方法 | |
CN115359780A (zh) | 语音合成方法、装置、计算机设备及存储介质 | |
CN113990295A (zh) | 一种视频生成方法和装置 | |
CN112687262A (zh) | 语音转换方法、装置、电子设备及计算机可读存储介质 | |
Barakat et al. | Deep learning-based expressive speech synthesis: a systematic review of approaches, challenges, and resources | |
US20240242712A1 (en) | Contrastive Siamese Network for Semi-supervised Speech Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |