CN113112995A - 词声学特征系统、词声学特征系统的训练方法及系统 - Google Patents
词声学特征系统、词声学特征系统的训练方法及系统 Download PDFInfo
- Publication number
- CN113112995A CN113112995A CN202110594227.3A CN202110594227A CN113112995A CN 113112995 A CN113112995 A CN 113112995A CN 202110594227 A CN202110594227 A CN 202110594227A CN 113112995 A CN113112995 A CN 113112995A
- Authority
- CN
- China
- Prior art keywords
- word
- phoneme
- features
- acoustic
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 title claims abstract description 51
- 238000001228 spectrum Methods 0.000 claims abstract description 86
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 18
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 18
- 238000010606 normalization Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 230000033764 rhythmic process Effects 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims 1
- 238000001308 synthesis method Methods 0.000 description 12
- 239000013598 vector Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000012074 hearing test Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种词声学特征系统的训练方法。该方法包括:将词声学特征系统输出的词声学特征,与音素编码器输出的音素特征序列拼接,得到带有词声学特征的音素特征序列,与实际韵律特征拼接,得到带有韵律与词声学特征的音素特征序列;调节编码长度,加入音高与能量特征后,进行解码,得到预测梅尔频谱;基于实际梅尔频谱与预测梅尔频谱对词声学特征系统进行训练。本发明实施例还提供一种词声学特征系统以及一种词声学特征系统的训练系统。本发明实施例利用训练的词声学特征系统得到不但具有词义,而且还具有发音的词声学特征,并且通过对词声学特征系统不断的训练,使词声学特征更加准确,从而在语音合成时进一步提升语音合成的质量。
Description
技术领域
本发明涉及智能语音领域,尤其涉及一种词声学特征系统、词声学特征系统的训练方法及系统。
背景技术
具有序列到序列体系结构的端到端文本到语音合成模型在生成自然语音方面取得了巨大的成功。通过文本分析或者从预训练模型中抽取词的向量表征,通过词向量编码器之后与音素特征序列(音素编码器的输出)进行对齐与拼接来特征词特征。获取这些特征向量的方式包括:
通过统计的方法获得词特征,如词频等,再利用文本分析的方法生成词特征向量;
从常见的机器学习任务(如翻译任务)中抽取编码器输出作为词向量;
利用BERT编码层抽取词向量;
利用GloVe模型中抽取词向量。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
这些模型或者文本分析方法关注词的词义而非词的发音,仅将音素用作输入令牌,而忽略有关音素来自哪个单词的信息。且在训练过程中词向量固定不变。因此这些表征词意的特征向量对提高合成质量效果较差。
发明内容
为了至少解决现有方法中已有模型仅关注词的词义,忽略词的发音,使得特征向量对提高语音的合成质量效果较差的问题。
第一方面,本发明实施例提供一种词声学特征系统,包括:
词编码器,用于接收词序列和位置编码,输出词特征;
词音素对齐器,用于利用音素序列中各音素对应的词,对所述词特征对齐处理,输出与所述音素序列长度对应的词特征,以供所述词特征与所述音素特征拼接,得到词声学特征。
第二方面,本发明另一实施例提供一种词声学特征系统的训练方法,包括:
将词声学特征系统输出的词声学特征,与音素编码器输出的音素特征序列拼接,得到带有词声学特征的音素特征序列,将所述带有词声学特征的音素特征序列与通过韵律提取器从实际梅尔频谱提取的实际韵律特征拼接,得到带有韵律与词声学特征的音素特征序列;
调节所述带有韵律与词声学特征的音素特征序列的编码长度,加入从所述实际梅尔频谱中提取的音高与能量特征后,进行解码,得到预测梅尔频谱;
基于所述实际梅尔频谱与所述预测梅尔频谱对所述词声学特征系统进行训练。
第三方面,本发明另一实施例提供一种语音合成方法,包括:
将待合成文本的词序列输入至词声学特征系统,得到所述待合成文本的词声学特征,将所述词声学特征与音素编码器的输出进行拼接,得到带有词声学特征的音素特征序列;
通过韵律预测器确定所述带有词声学特征的音素特征序列的预测韵律特征,将所述词声学特征与所述预测韵律特征拼接,得到带有韵律与词声学特征的音素特征序列确定为预测音素特征序列;
调节所述预测音素特征序列的编码长度,加入从所述预测音素特征序列中预测的音高与能量特征后进行解码,得到预测梅尔频谱,基于所述预测梅尔频谱生成语音音频。
第四方面,本发明另一实施例提供一种词声学特征系统的训练系统,包括:
音素特征序列确定程序模块,用于词声学特征系统输出的词声学特征,与音素编码器输出的音素特征序列拼接,得到带有词声学特征的音素特征序列,将所述带有词声学特征的音素特征序列与通过韵律提取器从实际梅尔频谱提取的实际韵律特征拼接,得到带有韵律与词声学特征的音素特征序列;
梅尔频谱预测程序模块,用于调节所述带有韵律与词声学特征的音素特征序列的编码长度,加入从所述实际梅尔频谱中提取的音高与能量特征后,进行解码,得到预测梅尔频谱;
训练程序模块,用于基于所述实际梅尔频谱与所述预测梅尔频谱对所述词声学特征系统进行训练。
第五方面,本发明另一实施例提供一种语音合成系统,包括:
音素特征序列确定程序模块,用于将待合成文本的词序列输入至词声学特征系统,得到所述待合成文本的词声学特征,将所述词声学特征与音素编码器的输出进行拼接,得到带有词声学特征的音素特征序列;
韵律特征程序模块,用于通过韵律预测器确定所述带有词声学特征的音素特征序列的预测韵律特征,将所述词声学特征与所述预测韵律特征拼接,得到带有韵律与词声学特征的音素特征序列确定为预测音素特征序列;
梅尔频谱预测程序模块,用于调节所述预测音素特征序列的编码长度,加入从所述预测音素特征序列中预测的音高与能量特征后进行解码,得到预测梅尔频谱,基于所述预测梅尔频谱生成语音音频。
第六方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的词声学特征系统的训练方法以及语音合成方法的步骤。
第七方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的词声学特征系统的训练方法以及语音合成方法的步骤。
本发明实施例的有益效果在于:利用训练的词声学特征系统得到不但具有词义,而且还具有发音的词声学特征,并且通过对词声学特征系统不断的训练,使词声学特征更加准确,从而在语音合成时进一步提升语音合成的质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种词声学特征系统的结构示意图;
图2是本发明一实施例提供的一种词声学特征系统的训练方法的流程图;
图3是本发明一实施例提供的一种词声学特征系统的训练方法的具有声词特征的模型体系结构示意图;
图4是本发明一实施例提供的一种语音合成方法的流程图;
图5是本发明一实施例提供的一种语音合成方法的文本规范示意图;
图6是本发明一实施例提供的一种语音合成方法的各种编码器结构的参数数量和推理速度(秒/帧)的数据图;
图7是本发明一实施例提供的一种语音合成方法的不同编码结构的语音级韵律的对数似然曲线图;
图8是本发明一实施例提供的一种语音合成方法的不同词频阈值下的词汇量和OOV比率数据图;
图9是本发明一实施例提供的一种语音合成方法的不同词频阈值下音素级韵律的对数似然曲线图;
图10是本发明一实施例提供的一种语音合成方法的自然性方面的AB偏好测试示意图;
图11是本发明一实施例提供的一种词声学特征系统的训练系统的结构示意图;
图12是本发明一实施例提供的一种语音合成系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种词声学特征系统的结构示意图,该系统可配置在终端中。
本实施例提供的一种词声学特征系统10包括:词编码器11和词音素对齐器12。
其中,词编码器11用于接收词序列和位置编码,输出词特征;词音素对齐器12用于利用音素序列中各音素对应的词,对所述词特征对齐处理,输出与所述音素序列长度对应的词特征,以供所述词特征与所述音素特征拼接,得到词声学特征。
如图2所示为本发明一实施例提供的一种词声学特征系统的训练方法的流程图,包括如下步骤:
S11:将词声学特征系统输出的词声学特征,与音素编码器输出的音素特征序列拼接,得到带有词声学特征的音素特征序列,将所述带有词声学特征的音素特征序列与通过韵律提取器从实际梅尔频谱提取的实际韵律特征拼接,得到带有韵律与词声学特征的音素特征序列;
S12:调节所述带有韵律与词声学特征的音素特征序列的编码长度,加入从所述实际梅尔频谱中提取的音高与能量特征后,进行解码,得到预测梅尔频谱;
S13:基于所述实际梅尔频谱与所述预测梅尔频谱对所述词声学特征系统进行训练。
在本实施方式中,作为基础,本方法使用FastSpeech2作为声学模型。单词特性对于TTS系统生成高度自然的语音很重要。在人类交流中,都知晓说话中的单词对于正确发音句子至关重要。基于这样的事实,即许多单词都有其特定的韵律类型,这会显着影响自然性。例如,当阅读“It is so big”时,通常可能会强调“so”一词,而不是“is”一词。同样,在许多情况下,“so”通常是强调的词。本方法希望模型记住每个单词的此类信息。
在标准的FastSpeech2系统中,由于没有明确考虑韵律建模,这使得在没有主观听觉测试的情况下很难客观地评估TTS系统的韵律预测性能。
因此,对于步骤S11,本方法向模型引入了词编码器,词音素对齐器。
模型中具有音素级别的韵律预测模块,该模块可以自回归地预测每个音素的韵律特征的分布。从而构建词声学特征系统。
通过词编码器、音素对齐器构建的词声学特征系统得到词声学特征。
具体来说,在训练中,准备的训练数据包括文本的词序列,和文本的音素序列。如图3所示,
词序列(word sequence W)与位置编码通过词编码器(word encoder)之后,由于训练数据都是提前准备好的,可以预先知道各音素所对应的词,同样的,也知道对应的音素序列,将其与通过音素编码器输出的音素特征序列进行拼接。利用预先抽取的音素持续时间(phoneme duration)与音素序列(phoneme sequence)在词音素对齐器(Word-PhonemeAligner)中对齐,其中,词音素对齐器(Word-Phoneme Aligner)的作用如下,例如:PRINTING这个词对应的音素序列为P R IH1 N T IH0 NG,那么,设PRINTING的词特征为v,对齐之后的结果为[v,v,v,v,v,v,v],使得每个音素都对应词向量。
对齐处理后,得到词声学特征的特征h(如图3所示,在结构中,词序列与位置编码输入至词编码器后,将词编码器的输出直接输入至词音素对齐器。经过对齐处理后的输出与音素编码器的输出进行拼接,而非词音素对齐器接收词编码器和音素编码器的输出进行对齐处理,这样的设计便于在已有模型上调整,不用修改整个模型结构)。
对于步骤S12,由于在训练阶段,预备好了训练文本对应的实际梅尔频谱图。使用韵律提取器从实际梅尔频谱图的普段中提取所有K个音素的韵律特征e。将得到的韵律特征投影到对应的隐状态序列的词声学特征的特征h中,也就是将所述带有词声学特征的音素特征序列与通过韵律提取器从实际梅尔频谱提取的实际韵律特征拼接,得到带有韵律与词声学特征的音素特征序列。为了重构梅尔频谱图,使用ek表示第k个音素的韵律特征。假设ek分布是一个GGM(Gaussian Mixed Model,高斯混合模型),其参数由韵律预测器预测。在推理阶段中,从预测的每个音素的韵律分布中抽取。
韵律预测的训练准则是韵律特征e的负对数似然,因此得到了损失函数来训练韵律预测器:
其中,通过log p表示负对数,因此,整个体系结构是优化的损失功能。
从而,通过上述步骤可以得到预测梅尔频谱图。
对于步骤S13,在得到了预测梅尔频谱图和实际梅尔频谱图,可以比较二者的差值,基于得到的差值对声学模型进行训练,在训练中,主要训练词声学特征系统的词编码器和词、词声学特征,从而实现此词声学特征系统的训练。
作为一种实施方式,所述调节所述带有韵律与词声学特征的音素特征序列的编码长度,加入从所述实际梅尔频谱中提取的音高与能量特征后,进行解码,得到预测梅尔频谱包括:
利用可变信息适配器中的长度调节器调节所述带有韵律与词声学特征的音素特征序列的编码长度后加入从所述实际梅尔频谱中提取的音高与能量特征,得到预测音素特征序列;
将所述预测音素特征序列输入至梅尔频谱解码器,得到预测梅尔频谱。
在本实施方式中,在训练时,音高能量特征是从实际梅尔频谱中提取的。模型中包含一个音素编码器,可以将输入音素序列p转换为隐藏的状态序列h,即:
h=Encode(p)
然后,隐藏状态序列h被传递给一个可变信息适配器通过Adapt(h)进行处理,其中,可变信息适配器(方差适配器,variance adapter)中也会对输入的序列进行调整,这边调整的目的是将音素序列与梅尔频谱序列进行对齐:比如P R IH1 N T IH0 NG这个音素序列,在梅尔频谱中P可能占3帧,R占2帧等(因为不同的音素发生的帧数不一样),则将P重复3遍,R重复两遍,与梅尔频谱对齐。将处理后的参数使用解码器进行解析,最终输出梅尔频谱:
y=Decode(Adapt(h))
通过该实施方式可以看出,利用训练的词声学特征系统得到不但具有词义,而且还具有发音的词声学特征,并且通过对词声学特征系统不断的训练,使词声学特征更加准确,从而在语音合成时进一步提升语音合成的质量。
如图4所示为本发明一实施例提供的一种语音合成方法的流程图,包括如下步骤:
S21:将待合成文本的词序列输入至词声学特征系统,得到所述待合成文本的词声学特征,将所述词声学特征与音素编码器的输出进行拼接,得到带有词声学特征的音素特征序列;
S22:通过韵律预测器确定所述带有词声学特征的音素特征序列的预测韵律特征,将所述词声学特征与所述预测韵律特征拼接,得到带有韵律与词声学特征的音素特征序列确定为预测音素特征序列;
S23:调节所述预测音素特征序列的编码长度,加入从所述预测音素特征序列中预测的音高与能量特征后进行解码,得到预测梅尔频谱,基于所述预测梅尔频谱生成语音音频。
在本实施方式中,TTS(Text To Speech,文本到语音)系统都使用音素作为声音输入令牌,而忽略了有关音素来自哪个单词的信息。但是,单词特性对于TTS系统生成高度自然的语音很重要。在人类交流中,知晓要说的单词,这对于正确发音句子至关重要。现有技术中仅使用了来自NLP任务的语言单词特征,但是这种改进通常是有限的。在本方法中,使用声学词特征进行自然语音的合成。在合成时,音高和能量特征是从带有韵律与词声学特征的音素特征序列中预测而来的。
对于步骤S21,例如,待合成文本为:“where did you get that tail?”asked thefarmer。待合成文本的词序列可以直接对应,文本中每个词又带有常规的音素,这些都可以直接获得,将词序列和音素序列输入至上述方法中训练好的词声学特征系统。
作为一种实施方式,在将待合成文本的词序列输入至词声学特征系统之前,所述方法还包括:对所述词序列进行文本归一化。
在本实施方式中,原始文本包含复杂的情况,如单词形式的变化,罕见的单词和罕见的标点符号。因此,在使用TTS中的词语之前,有必要进行文本规范化。
首先,使用NLP工具Stanza将每个单词转换为其原型。因此,产生的词不包含复数形式,第三人称单数,过去时等。这是一个关键的步骤,以大幅度减少词汇大小,缓解声学词特征训练的稀疏性。然后去掉一些少见的标点符号,只保留逗号、句号、冒号、分号、问号和感叹号。
为了确保对每个声学单词特征进行良好的训练,只考虑训练集中的高频词。在这项工作中,设置了单词频率阈值。词汇中仅包含频率高于阈值的单词,而其他单词则被视为词汇外(OOV)单词。同时还计算单词序列和音素序列之间的对齐方式。在音素序列中出现静音的位置,如果有相应的标点符号,将标点符号与静音对齐。否则,会在单词序列中添加一个空白标记以进行正确对齐。
图5展示了文本规范化的一个示例。在这里,将“did”和“asked”转换为他们的原型“do”和“ask”。引号被删除,“farmer”被视为OOV。向单词序列添加空白标记,以与音素序列开头的无声片段对齐。通过文本归一化进一步提升TTS的语音质量。
对于步骤S22,由于同时使用单词和音素作为输入。因此,在TTS系统中引入了字编码器和字音素对齐器,其结构如图3所示。字编码器将归一化的字序列w作为输入,并生成隐藏状态序列hw。然后,根据与相应单词对齐的音素数量,复制hw中的每个隐藏状态。因此,输出具有与音素编码器输出hp相同的序列长度。然后将和hp连接起来,得到带有韵律的词声学特征h,其用于语音级韵律预测。通常,最终隐藏状态h是通过编码单词和音素序列来获得的,即:
h=Encode(p,w)
对于步骤S23,编码长度在步骤S22中已经说明,在此不再赘述。对于解码器,其包含一个内核大小为3的1D卷积层,后面是6层的Transformer。卷积层的设计是为了直接考虑相邻的单词上下文,Transformer层用于序列建模。通过解码器,得到了待合成文本的预测梅尔频谱。该梅尔频谱相较于现有的梅尔频谱涵盖了词意和词的发音。从而将该梅尔频谱用于TTS生成语音,可以获得发音质量更高的语音。
对本方法进行实验,LJSpeech是一个单一说话者的英语数据集,包含大约24小时的语音和13100语音。随机挑选了50条语音进行验证和测试。为简单起见,语音将重新采样到16KHz。在训练TTS之前,使用在Librispeech(另一种已有数据集)上训练的HMM-GMM(Hidden Markov Model-Gaussian Mixed Model,隐马尔可夫-高斯混合)ASR(AutomaticSpeech Recognition,自动语音识别)模型计算训练数据的音素对齐方式,然后从对齐方式中提取每个音素的持续时间以进行训练。
本方法的TTS模型基于FastSpeech2,基于GMM的韵律建模。GMS中的高斯分量数设置为20,公式中的β设置为0.02。Adam优化器与noam学习速率调度器一起用于TTS训练。使用320维mel-spectrogram(梅尔谱图)作为声学特征,帧位移为12.5ms,帧长为50ms。采用Mel-GAN(Generative Adversarial Network,生成式对抗网络)作为波形重建的声码器。
对于字编码结构,将比较三种常见的字编码器架构的性能。
(1)None:不使用字编码器的基线。
(2)BLSTM:512维双向LSTM层。
(3)Transformer:6层512维Transformer块。
(4)Conv+Transformer:一层1D CNN,内核大小为3,然后是6层512维Transformer块。
首先研究了TTS系统的模型大小和推理速度。在Intel Xeon E5-2680CPU上合成了测试集。如图6所示,当模型尺寸增大时,推理速度变慢。使用Conv+Transformer的最大模型的推理速度比不使用word编码器的基线慢39%。如果使用BLSTM作为单词编码器,模型大小和推理速度都非常接近基线。
图7说明了具有各种文字编码器架构的音素级韵律的对数似然曲线。在训练集和验证集上,都可以观察到所有带有声学单词编码器的系统都优于不使用单词信息的基线系统。此外,Conv+Transformer在三种常见架构中均实现了最佳性能。这是合理的,因为已经知道Transformer在序列建模方面比简单的LSTM具有更好的功能,并且卷积层直接考虑了相邻的单词上下文。因此,在以下所有实验中使用Conv+Transformer以获得最佳性能。
对于词频阈值,只考虑训练集中的高频单词,并将其他单词视为OOV。单词频率阈值确定词汇量,这也会影响系统性能。在这里,应用三个不同的阈值,即10、50和100,然后计算训练集中的词汇量和OOV单词的比例。结果显示在如图8中。例如,当单词频率阈值设置为50时,词汇表包含529个单词,并且覆盖训练集中的77.3%的单词。通常,当词频阈值增加时,词汇量会减少,OOV比率会增加。
还绘制了不同词频阈值的音素级韵律的对数似然曲线。如图9所示,在阈值为50时获得了最佳性能。阈值越大,考虑的单词越少,系统性能越差。然而,当阈值太小时,词汇表中会包含很多低频词。这些声学词特征仅在非常有限的数据下进行训练,这也导致了系统性能的下降。
对于语音的自然性,将声学单词特征系统缩写为AWE(Acoustic WordEmbedding)。通过上面的分析,使用Conv+Transformer构建为单词编码器,并在AWE中将单词频率阈值设置为50。在本方法中,就自然性将AWE与其他三个系统进行了比较。
(1)None:首先构建一个基本的基于FastSpeech2的TTS系统,而无需使用单词信息。
(2)GloVe:遵循现有步骤,该方法从预先训练的NLP任务中提取语言单词特征。类似地,对单词特征进行编码,然后将其添加到音素编码器输出中。在实验中,从GloVe获得了语言单词特征。
(3)BERT:遵循现有步骤,该方法从预训练的BERT中提取单词表示,然后将单词表示应用于TTS系统。需要说明的是,BERT以子字为单位输入,每个字通常对应多个BERT隐藏状态。因此,将平均池化应用于多个状态,以获得单词表示形式。
AB偏好主观听力测试是在自然性方面进行的。听众可以从两个不同的系统中选择两个合成语音,并从中选择一个更好的。图10展示了主观结果。正如预期的那样,采用声学词特征的系统不仅优于不直接使用任何词信息的基准,而且优于使用语言词特征的系统。
从而,本方法可以直接在TTS系统中训练声学单词特征。音素和单词序列都用作TTS系统的输入,并分别通过两个编码器。然后将两个输出隐藏状态串联起来,以进行音素级韵律预测。在LJSpeech数据集上的实验表明,使用卷积和紧随其后的Transformer层作为单词编码器可获得最佳性能。还发现应仔细选择单词频率阈值。阈值太大或太小都会导致性能下降。最后,将提议的系统与不直接使用单词信息的基线以及使用预训练语言单词表示的一些现有工作进行比较。主观听力测试表明,本方法的系统在自然性方面优于所有其他系统。
如图11所示为本发明一实施例提供的一种词声学特征系统的训练系统示意图,该系统可执行上述任意实施例所述的词声学特征系统的训练方法,并配置在终端中。
本实施例提供的一种词声学特征系统的训练系统20包括:音素特征序列确定程序模块21,梅尔频谱预测程序模块22和训练程序模块23。
其中,音素特征序列确定程序模块21用于将词声学特征系统输出的词声学特征,与音素编码器输出的音素特征序列拼接,得到带有词声学特征的音素特征序列,将所述带有词声学特征的音素特征序列与通过韵律提取器从实际梅尔频谱提取的实际韵律特征拼接,得到带有韵律与词声学特征的音素特征序列;梅尔频谱预测程序模块22用于调节所述带有韵律与词声学特征的音素特征序列的编码长度,加入从所述实际梅尔频谱中提取的音高与能量特征后,进行解码,得到预测梅尔频谱;训练程序模块23用于基于所述实际梅尔频谱与所述预测梅尔频谱对所述词声学特征系统进行训练。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的词声学特征系统的训练方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
将权词声学特征系统输出的词声学特征,与音素编码器输出的音素特征序列拼接,得到带有词声学特征的音素特征序列,将所述带有词声学特征的音素特征序列与通过韵律提取器从实际梅尔频谱提取的实际韵律特征拼接,得到带有韵律与词声学特征的音素特征序列;
调节所述带有韵律与词声学特征的音素特征序列的编码长度,加入从所述实际梅尔频谱中提取的音高与能量特征后,进行解码,得到预测梅尔频谱;
基于所述实际梅尔频谱与所述预测梅尔频谱对所述词声学特征系统进行训练。
如图12所示为本发明一实施例提供的一种语音合成系统统示意图,该系统可执行上述任意实施例所述的语音合成方法,并配置在终端中。
本实施例提供的一种语音合成系统30包括:音素特征序列确定程序模块31,韵律特征程序模块32和梅尔频谱预测程序模块33。
其中,音素特征序列确定程序模块31用于将待合成文本的词序列输入至词声学特征系统,得到所述待合成文本的词声学特征,将所述词声学特征与音素编码器的输出进行拼接,得到带有词声学特征的音素特征序列;韵律特征程序模块32用于通过韵律预测器确定所述带有词声学特征的音素特征序列的预测韵律特征,将所述词声学特征与所述预测韵律特征拼接,得到带有韵律与词声学特征的音素特征序列确定为预测音素特征序列;梅尔频谱预测程序模块33用于调节所述预测音素特征序列的编码长度,加入从所述预测音素特征序列中预测的音高与能量特征后进行解码,得到预测梅尔频谱,基于所述预测梅尔频谱生成语音音频。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的语音合成方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
将待合成文本的词序列输入至词声学特征系统,得到所述待合成文本的词声学特征,将所述词声学特征与音素编码器的输出进行拼接,得到带有词声学特征的音素特征序列;
通过韵律预测器确定所述带有词声学特征的音素特征序列的预测韵律特征,将所述词声学特征与所述预测韵律特征拼接,得到带有韵律与词声学特征的音素特征序列确定为预测音素特征序列;
调节所述预测音素特征序列的编码长度,加入从所述预测音素特征序列中预测的音高与能量特征后进行解码,得到预测梅尔频谱,基于所述预测梅尔频谱生成语音音频。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的词声学特征系统的训练方法以及语音合成方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
在本文中,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种词声学特征系统,包括:
词编码器,用于接收词序列和位置编码,输出词特征;
词音素对齐器,用于利用音素序列中各音素对应的词,对所述词特征对齐处理,输出与所述音素序列长度对应的词特征,以供所述词特征与所述音素特征拼接,得到词声学特征。
2.一种词声学特征系统的训练方法,包括:
将权利要求1所述的词声学特征系统输出的词声学特征,与音素编码器输出的音素特征序列拼接,得到带有词声学特征的音素特征序列,将所述带有词声学特征的音素特征序列与通过韵律提取器从实际梅尔频谱提取的实际韵律特征拼接,得到带有韵律与词声学特征的音素特征序列;
调节所述带有韵律与词声学特征的音素特征序列的编码长度,加入从所述实际梅尔频谱中提取的音高与能量特征后,进行解码,得到预测梅尔频谱;
基于所述实际梅尔频谱与所述预测梅尔频谱对所述词声学特征系统进行训练。
3.根据权利要求2所述的方法,其中,所述调节所述带有韵律与词声学特征的音素特征序列的编码长度,加入从所述实际梅尔频谱中提取的音高与能量特征后,进行解码,得到预测梅尔频谱包括:
利用可变信息适配器中的长度调节器调节所述带有韵律与词声学特征的音素特征序列的编码长度后加入从所述实际梅尔频谱中提取的音高与能量特征,得到预测音素特征序列;
将所述预测音素特征序列输入至梅尔频谱解码器,得到预测梅尔频谱。
4.一种语音合成方法,包括:
将待合成文本的词序列输入至权利要求1所述的词声学特征系统,得到所述待合成文本的词声学特征,将所述词声学特征与音素编码器的输出进行拼接,得到带有词声学特征的音素特征序列;
通过韵律预测器确定所述带有词声学特征的音素特征序列的预测韵律特征,将所述词声学特征与所述预测韵律特征拼接,得到带有韵律与词声学特征的音素特征序列确定为预测音素特征序列;
调节所述预测音素特征序列的编码长度,加入从所述预测音素特征序列中预测的音高与能量特征后进行解码,得到预测梅尔频谱,基于所述预测梅尔频谱生成语音音频。
5.根据权利要求4所述的方法,其中,在将待合成文本的词序列输入至词声学特征系统之前,所述方法还包括:对所述词序列进行文本归一化。
6.一种词声学特征系统的训练系统,包括:
音素特征序列确定程序模块,用于将权利要求1所述的词声学特征系统输出的词声学特征,与音素编码器输出的音素特征序列拼接,得到带有词声学特征的音素特征序列,将所述带有词声学特征的音素特征序列与通过韵律提取器从实际梅尔频谱提取的实际韵律特征拼接,得到带有韵律与词声学特征的音素特征序列;
梅尔频谱预测程序模块,用于调节所述带有韵律与词声学特征的音素特征序列的编码长度,加入从所述实际梅尔频谱中提取的音高与能量特征后,进行解码,得到预测梅尔频谱;
训练程序模块,用于基于所述实际梅尔频谱与所述预测梅尔频谱对所述词声学特征系统进行训练。
7.根据权利要求6所述的系统,其中,所述梅尔频谱预测程序模块用于:
利用可变信息适配器中的长度调节器调节所述带有韵律与词声学特征的音素特征序列的编码长度后加入从所述实际梅尔频谱中提取的音高与能量特征,得到预测音素特征序列;
将所述预测音素特征序列输入至梅尔频谱解码器,得到预测梅尔频谱。
8.一种语音合成系统,包括:
音素特征序列确定确定程序模块,用于将待合成文本的词序列输入至权利要求1所述的词声学特征系统,得到所述待合成文本的词声学特征,将所述词声学特征与音素编码器的输出进行拼接,得到带有词声学特征的音素特征序列;
韵律特征程序模块,用于通过韵律预测器确定所述带有词声学特征的音素特征序列的预测韵律特征,将所述词声学特征与所述预测韵律特征拼接,得到带有韵律与词声学特征的音素特征序列确定为预测音素特征序列;
梅尔频谱预测程序模块,用于调节所述预测音素特征序列的编码长度,加入从所述预测音素特征序列中预测的音高与能量特征后进行解码,得到预测梅尔频谱,基于所述预测梅尔频谱生成语音音频。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110594227.3A CN113112995B (zh) | 2021-05-28 | 2021-05-28 | 词声学特征系统、词声学特征系统的训练方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110594227.3A CN113112995B (zh) | 2021-05-28 | 2021-05-28 | 词声学特征系统、词声学特征系统的训练方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113112995A true CN113112995A (zh) | 2021-07-13 |
CN113112995B CN113112995B (zh) | 2022-08-05 |
Family
ID=76723393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110594227.3A Active CN113112995B (zh) | 2021-05-28 | 2021-05-28 | 词声学特征系统、词声学特征系统的训练方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113112995B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744714A (zh) * | 2021-09-27 | 2021-12-03 | 深圳市木愚科技有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
CN114783410A (zh) * | 2022-04-18 | 2022-07-22 | 思必驰科技股份有限公司 | 语音合成方法、系统、电子设备和存储介质 |
CN115831089A (zh) * | 2021-12-27 | 2023-03-21 | 北京百度网讯科技有限公司 | 声学特征的确定方法、装置、设备、介质及产品 |
CN116092479A (zh) * | 2023-04-07 | 2023-05-09 | 杭州东上智能科技有限公司 | 一种基于对比文本-音频对的文本韵律生成方法和系统 |
CN118197277A (zh) * | 2024-05-15 | 2024-06-14 | 国家超级计算天津中心 | 语音合成方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109346064A (zh) * | 2018-12-13 | 2019-02-15 | 苏州思必驰信息科技有限公司 | 用于端到端语音识别模型的训练方法及系统 |
CN110534089A (zh) * | 2019-07-10 | 2019-12-03 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
CN112767917A (zh) * | 2020-12-31 | 2021-05-07 | 科大讯飞股份有限公司 | 语音识别方法、装置及存储介质 |
-
2021
- 2021-05-28 CN CN202110594227.3A patent/CN113112995B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109346064A (zh) * | 2018-12-13 | 2019-02-15 | 苏州思必驰信息科技有限公司 | 用于端到端语音识别模型的训练方法及系统 |
CN110534089A (zh) * | 2019-07-10 | 2019-12-03 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
CN112767917A (zh) * | 2020-12-31 | 2021-05-07 | 科大讯飞股份有限公司 | 语音识别方法、装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
CHENPENG DU 等: "Mixture Density Network for Phone-Level Prosody Modelling in Speech Synthesis", 《ARXIV 2021》 * |
YI REN 等: "FASTSPEECH 2: FAST AND HIGH-QUALITY END-TO-END TEXT TO SPEECH", 《ARXIV 2020》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744714A (zh) * | 2021-09-27 | 2021-12-03 | 深圳市木愚科技有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
CN113744714B (zh) * | 2021-09-27 | 2024-04-05 | 深圳市木愚科技有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
CN115831089A (zh) * | 2021-12-27 | 2023-03-21 | 北京百度网讯科技有限公司 | 声学特征的确定方法、装置、设备、介质及产品 |
CN115831089B (zh) * | 2021-12-27 | 2023-12-01 | 北京百度网讯科技有限公司 | 声学特征的确定方法、装置、设备、介质及产品 |
CN114783410A (zh) * | 2022-04-18 | 2022-07-22 | 思必驰科技股份有限公司 | 语音合成方法、系统、电子设备和存储介质 |
CN116092479A (zh) * | 2023-04-07 | 2023-05-09 | 杭州东上智能科技有限公司 | 一种基于对比文本-音频对的文本韵律生成方法和系统 |
CN118197277A (zh) * | 2024-05-15 | 2024-06-14 | 国家超级计算天津中心 | 语音合成方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113112995B (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113112995B (zh) | 词声学特征系统、词声学特征系统的训练方法及系统 | |
CN108847249B (zh) | 声音转换优化方法和系统 | |
CA2161540C (en) | A method and apparatus for converting text into audible signals using a neural network | |
CN108899009B (zh) | 一种基于音素的中文语音合成系统 | |
US7567896B2 (en) | Corpus-based speech synthesis based on segment recombination | |
CN110033755A (zh) | 语音合成方法、装置、计算机设备及存储介质 | |
CN109313891B (zh) | 用于语音合成的系统和方法 | |
CN112489629B (zh) | 语音转写模型、方法、介质及电子设备 | |
CN111785258B (zh) | 一种基于说话人特征的个性化语音翻译方法和装置 | |
KR102272554B1 (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
CN114464162B (zh) | 语音合成方法、神经网络模型训练方法、和语音合成模型 | |
CN112634860B (zh) | 儿童语音识别模型训练语料筛选方法 | |
WO2022046781A1 (en) | Reference-fee foreign accent conversion system and method | |
CN114582317A (zh) | 语音合成方法、声学模型的训练方法及装置 | |
Nose et al. | Speaker-independent HMM-based voice conversion using adaptive quantization of the fundamental frequency | |
CN113628608A (zh) | 语音生成方法、装置、电子设备及可读存储介质 | |
Raghavendra et al. | Speech synthesis using artificial neural networks | |
CN114783410B (zh) | 语音合成方法、系统、电子设备和存储介质 | |
Fong et al. | Analysing Temporal Sensitivity of VQ-VAE Sub-Phone Codebooks | |
CN114974218A (zh) | 语音转换模型训练方法及装置、语音转换方法及装置 | |
Govender et al. | The CSTR entry to the 2018 Blizzard Challenge | |
Ronanki et al. | The CSTR entry to the Blizzard Challenge 2017 | |
JP2021085943A (ja) | 音声合成装置及びプログラム | |
Alastalo | Finnish end-to-end speech synthesis with Tacotron 2 and WaveNet | |
Louw | Neural speech synthesis for resource-scarce languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |