CN113506562A - 基于声学特征与文本情感特征融合的端到端语音合成方法及系统 - Google Patents
基于声学特征与文本情感特征融合的端到端语音合成方法及系统 Download PDFInfo
- Publication number
- CN113506562A CN113506562A CN202110812076.4A CN202110812076A CN113506562A CN 113506562 A CN113506562 A CN 113506562A CN 202110812076 A CN202110812076 A CN 202110812076A CN 113506562 A CN113506562 A CN 113506562A
- Authority
- CN
- China
- Prior art keywords
- features
- phoneme
- acoustic
- text
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 30
- 230000002996 emotional effect Effects 0.000 title claims abstract description 25
- 238000001308 synthesis method Methods 0.000 title claims abstract description 20
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 62
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 62
- 238000001228 spectrum Methods 0.000 claims abstract description 61
- 230000008451 emotion Effects 0.000 claims abstract description 48
- 239000013598 vector Substances 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims description 43
- 238000000605 extraction Methods 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000011362 coarse particle Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000010419 fine particle Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000001020 rhythmical effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于声学特征与文本情感特征融合的端到端语音合成方法及系统,构建了端到端语音合成模型,可以根据音素序列的嵌入向量获得文本的韵律隐特征,进行音素与Mel频谱对齐,通过声学编码器从中分别获取音素级和句子级别的声学特征,并在声学特征中加入隐特征,与此同时从文本中获取文本情感特征;再次将声学特征与文本情感特征进行特征融合,输入到FastSpeech2的方差适配器进行特征增强与扩充;最后将方差适配器的输出输入到FastSpeech2的Mel解码器实现并行解码,得到合成语音的频谱图;使用声码器将频谱图特征映射为声音波形,得到合成的语音。本发明在保证效率的同时可以提高语音合成的自然度。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于声学特征与文本情感特征融合的端到端语音合成方法及系统。
背景技术
语音合成(Speech Synthesis),又称文语转换技术是指计算机通过分析将任意文本转化为流畅语音的技术。语音合成作为实现人机语音交互系统的核心技术之一;是语音处理技术中一个重要的方向,其应用价值越来越受到重视。语音合成系统的质量评价一般分为以下几个方面,自然度,鲁棒性以及生成语音的准确性。在实际的应用场景下,整个系统的延迟,计算复杂度以及合成耗时等也都是需要考虑的因素。传统的语音合成技术包括拼接法以及统计参数法。其中,拼接法通过事先录制好大量的语音,合成时根据文本内容选取大量的基本单元连接成流畅的语音,而这种方法对录制的语音有较高覆盖率的要求,所建立的数据库也较为庞大,在实际设备上使用时往往会受到设备容量的限制;统计参数法是根据统计模型来建立文本特征到声学特征的映射,再用这些声学特征还原成波形,此类方法不需要事先录制语音,但是合成语音的质量偏低。这些传统方法都是基于声学特征的分析以及合成来实现,这些方法由于具备鲁棒性强以及准确性强的特点,在工业界被较为广泛地使用。然而,这些方法共通的缺点是合成的语音在自然度上缺陷较大。
近年来,随着深度学习的飞速发展,端到端的语音合成方法越来越多,比起传统的方法,端到端的语音合成合成的语音自然度更高,并且能够直接对文本建模合成谱图,极大的简化了合成的流程。现在主流的方法有两种,一种是基于 Google提出的Tacotron2,一种是基于微软浙大联合提出的FastSpeech。
本申请发明人在实施本发明的过程中,发现现有技术中存在如下技术问题:
上述两种模型在结构上有所差异,结构上的差异导致效率效果有所差异。基于Tacotron2的方法由于是自回归的结构,合成语音在自然度上更好,但是很难实现计算的并行,导致合成的效率较低;基于FastSpeech的方法由于是非自回归的结构,在GPU环境下合成效率能提高两个数量级,但是合成语音的自然度不如基于Tacotron2的方法。
由此可知,现有技术中的方法存在合成自然度不高的技术问题。
发明内容
本发明提出一种基于声学特征与文本情感特征融合的端到端语音合成方法及系统,用于解决或者至少部分解决现有技术中的方法存在的合成自然度不高的技术问题。
为了解决上述技术问题,本发明第一方面提供了基于声学特征与文本情感特征融合的端到端语音合成方法,包括:
S1:获取样本文本及对应的标准语音音频,将样本文本转化为音素序列,标准音频转化为标准Mel频谱,将样本文本、音素序列以及样本文本对应的Mel 频谱作为训练数据;
S2:构建端到端语音合成模型,端到端语音合成模型包括音素嵌入层、音素编码器、声学编码器、文本情感提取模型、方差适配器、Mel解码器以及声码器,其中,音素嵌入层用于根据音素序列获得音素的向量表示;音素编码器用于根据音素的向量获得文本的韵律隐特征;声学编码器用于根据音素与Mel频谱对齐后的谱图、韵律隐特征获得声学特征;文本情感提取模型用于从样本文本中提取文本情感特征;方差适配器用于将声学特征与文本情感特征的融合、方差适配器提取的特征进行特征增强与扩充;Mel解码器用于根据方差适配器输出实现并行解码,得到合成语音的Mel频谱,Mel解码器为FastSeech2的解码器;声码器用于将频谱图特征映射为声音波形,得到合成的语音;
S3:将训练数据输入至端到端语音合成模型,根据Mel解码器合成的语音的Mel频谱和步骤S1中提取出标准Mel频谱之间误差设计损失函数,训练过程中更新模型的参数直到模型收敛,得到训练好的端语音合成模型;
S4:利用训练好的端到端语音合成模型进行语音合成。
在一种实施方式中,步骤S2中声学编码器包括音素特征声学编码器和句子特征声学编码器,
音素特征声学编码器用于对音素与Mel频谱进行对齐后的谱图进行特征提取,并在提取过程中加入韵律隐特征,获得音素级别声学特征;
句子特征声学编码器用于根据样本的Mel频谱进行特征提取后加入韵律隐特征,得到句子级别声学特征。
在一种实施方式中,音素编码器为FastSpeech2音素编码器,文本情感特征提取模型为基于LSTM网络的模型,音素特征声学编码器为基于卷积层的声学编码器,句子特征声学编码器为基于卷积层的声学编码器。
在一种实施方式中,音素级别声学特征的提取方式为:
Pt=Aco_encoder1(Pt-1,Ct',ht),Ct'=align(Ct,P),
Ct和P分别表示t时刻的谱图与音素序列,ht表示t时刻的韵律隐特征,Pt为t时刻的音素级别声学特征,align()表示对齐函数,Aco_encoder1为音素级别声学编码器,Pt-1为t-1时刻的音素级别声学特征,Ct'表示对齐后的谱图。
在一种实施方式中,句子级别声学特征的提取方式为:
Ut=Aco_encoder2(Ut-1,Ct)+ht
Ut表示t时刻的句子级别特征,ht表示t时刻的韵律隐特征,Ct为谱图 Aco_encoder为句子级别声学编码器,Ut-1表示t-1时刻的句子级别特征。
在一种实施方式中,文本情感特征的提取过程包括:
it=σ(Wiitt+bii+WhiHt-1+bhi),
ft=σ(Wiftt+bif+WhfHt-1+bhf)
gt=tanh(Wigtt+big+WhfHt-1+bhf)
ot=σ(Wiott+bio+WhoHt-1+bho)
ct=ft*ct-1+it*gt
h't=ottanh(ct)
Et=dropout(h't)
其中,tt为文本嵌入后向量,Ht-1为LSTM隐层向量,it为输入门,ft为遗忘门,gt为记忆单元用来备选更新内容,ot为输出门,ct为细胞更新,h't为经过LSTM网络的最后输出,Et为ht经过dropout后输出的文本情感特征,Wii,Whi为输入门和输入门隐藏层的权重,Wif,Whf为遗忘门门和遗忘门隐藏层的权重, Wig为记忆单元权重,Wio,Who为输出门和输出门隐藏层的权重,bhi,bhf,bhf, bho为输入门、遗忘门、记忆单元、输出门的偏置参数,σ(·)为sigmoid()函数。
在一种实施方式中,将声学特征与文本情感特征的融合采用早融合Concat 技术,将句子级别声学特征、音素级别声学特征以及文本情感特征进行连接后,输出融合后的特征Tt,融合后的特征输入到方差适配器中,与方差适配器提取的特征Vt进行特征增强和扩充,处理过程包括:
Tt=concat(Pt,Ut,Et)
λ=Beta(α,β)
Vt'=λ×Tt+(1-λ)×Vt+Vt
其中,Tt为通过Concat技术得到的融合后的特征,Pt,Ut,Et分别为音素级别声学特征、句子级别声学特征、文本情感特征,Vt为Fastspeech2中方差适配器中提取的特征,Vt'为方差适配器输出的特征,即融合后的特征与方差适配器提取的特征进行增强和扩充后的特征,λ为经过Beta()函数得到的随机概率,α,β为开始输入参数。
基于同样的发明构思,本发明第二方面提供了基于声学特征与文本情感特征融合的端到端语音合成系统,包括:
训练数据获取模块,用于获取样本文本及对应的标准语音音频,将样本文本转化为音素序列,标准音频转化为标准Mel频谱,将样本文本、音素序列以及样本文本对应的Mel频谱作为训练数据;
模型构建模块,用于构建端到端语音合成模型,端到端语音合成模型包括音素嵌入层、音素编码器、声学编码器、文本情感提取模型、方差适配器、Mel解码器以及声码器,其中,音素嵌入层用于根据音素序列获得音素的向量表示;音素编码器用于根据音素的向量获得文本的韵律隐特征;声学编码器用于根据音素与Mel频谱对齐后的谱图、韵律隐特征获得声学特征;文本情感提取模型用于从样本文本中提取文本情感特征;方差适配器用于将声学特征与文本情感特征的融合、方差适配器提取的特征进行特征增强与扩充;Mel解码器用于根据方差适配器输出实现并行解码,得到合成语音的Mel频谱,Mel解码器为FastSeech2 的解码器;声码器用于将频谱图特征映射为声音波形,得到合成的语音;
模型训练模块,用于将训练数据输入至端到端语音合成模型,根据Mel解码器合成的语音的Mel频谱和步骤S1中提取出标准Mel频谱之间误差设计损失函数,训练过程中更新模型的参数直到模型收敛,得到训练好的端语音合成模型;
语音合成模块,用于利用训练好的端到端语音合成模型进行语音合成。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的基于声学特征与文本情感特征融合的端到端语音合成方法,构建了端到端语音合成模型,包括音素嵌入层、音素编码器、声学编码器、文本情感提取模型、方差适配器、Mel解码器以及声码器,通过声学编码器可以提取样本中的声学特征,通过文本情感提取模型可以提取文本情感特征,并将提取的声学特征与文本情感特征进行融合来增强和扩充韵律,提高了合成语音的自然度,由于采用基于FastSpeech的自回归方法,并行计算解码器,提高了合成效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于声学特征与文本情感特征融合的端到端语音合成方法整体流程图;
图2为本发明实施例中声学特征提取过程示意图;
图3为本发明实施中音素特征声学编码器和音素特征声学预测器的示意图;
图4为本发明实施例中句子级别声学编码器的结构示意图;
图5为本发明实施例中文本情感特征提取过程示意图。
具体实施方式
韵律,包括前端韵律和后端韵律。前端的韵律指的是文本中蕴含的除文本内容之外的信息,包括语调、重音、节奏以及说话的风格等。后端的韵律是从声学特征学习的具体表现形式,其内容包含情感,语速,语音质量等级等等信息。按照韵律调整的粒度分为两类:粗粒度和细粒度。粗粒度为句子级别的迁移调控,细粒度为phrase,word,phone的调控。在现有技术中,基于Tacotron2的方法中可以学习到较好的韵律,但是无法实现计算的并行;而基于FastSpeech的方法则因为无法对韵律进行较好的学习,导致合成的韵律感较差。
本发明的目的在于提供一种基于声学特征与文本情感特征融合的端到端语音合成方法,在保证计算效率的同时,提高语音合成中韵律感、自然度。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种基于声学特征与文本情感特征融合的端到端语音合成方法,包括:
S1:获取样本文本及对应的标准语音音频,将样本文本转化为音素序列,标准音频转化为标准Mel频谱,将样本文本、音素序列以及样本文本对应的Mel 频谱作为训练数据;
S2:构建端到端语音合成模型,端到端语音合成模型包括音素嵌入层、音素编码器、声学编码器、文本情感提取模型、方差适配器、Mel解码器以及声码器,其中,音素嵌入层用于根据音素序列获得音素的向量表示;音素编码器用于根据音素的向量获得文本的韵律隐特征;声学编码器用于根据音素与Mel频谱对齐后的谱图、韵律隐特征获得声学特征;文本情感提取模型用于从样本文本中提取文本情感特征;方差适配器用于将声学特征与文本情感特征的融合作为输入,进行特征增强与扩充;Mel解码器用于根据方差适配器输出实现并行解码,得到合成语音的Mel频谱,Mel解码器为FastSeech2的解码器;声码器用于将频谱图特征映射为声音波形,得到合成的语音;
S3:将训练数据输入至端到端语音合成模型,根据Mel解码器合成的语音的Mel频谱和步骤S1中提取出标准Mel频谱之间误差设计损失函数,训练过程中更新模型的参数直到模型收敛,得到训练好的端语音合成模型;
S4:利用训练好的端到端语音合成模型进行语音合成。
具体来说,首先获取样本文本及对应的标准语音音频,将样本文本转化为音素序列,标准音频转化为标准Mel频谱;将音素序列经音素嵌入层后输入到音素编码器中获得文本的韵律隐特征;再将韵律隐特征输入到声学编码器中,同时进行音素与Mel频谱对齐,声学编码器从中分别获取音素级和句子级别的声学特征,并在声学特征中加入隐特征;与此同时从文本中获取文本情感特征;再次将声学特征与文本情感特征进行特征融合,输入到FastSpeech2的方差适配器进行特征增强与扩充;最后将方差适配器的输出输入到FastSpeech2的Mel解码器实现并行解码,得到合成语音的频谱图;使用声码器将频谱图特征映射为声音波形,得到合成的语音。
请参见图1,为基于声学特征与文本情感特征融合的端到端语音合成方法整体流程图。音素embedding为音素嵌入层,音素输入音素嵌入层后得到音素的向量表示,加入位置编码后,输入音素编码器。位置编码采用的是Fastspeech模型中的位置编码,主要是构造一个与输入embedding维度一样的矩阵,然后跟输入 embedding相加得到multi-headattention(多头注意力机制)的输入。具体方法为:
其中,PE为二维矩阵,大小和输入的embedding的维度一样,pos表示词语在句子中的位置dmodel表示词向量的维度,i表示词向量的位置。上述公式表示在每个词语的词向量的偶数位置添加sin变量,奇数位置添加cos变量,以此来填满整个PE矩阵,然后加到inputembedding(音素的向量表示)中去,这样便完成位置编码的引入。
声学编码器提取的声学特征与文本情感提取模型提取的文本情感特征进行融合,然后输入方差适配器进行特征增强与扩充,再次引入位置编码后输入 FastSeech2的解码器合成语音的Mel频谱,最后通过声码器将频谱图特征映射为声音波形,得到合成的语音。
文本情感特征提取模型和声码器是提前训练好的模型,因而在进行调参(参数更新)时,本发明只需要进行音素编码编码器,声学编码器,方差适配器,解码器,mel解码器部分的调参即可。
在一种实施方式中,步骤S2中声学编码器包括音素特征声学编码器和句子特征声学编码器,
音素特征声学编码器用于对音素与Mel频谱进行对齐后的谱图进行特征提取,并在提取过程中加入韵律隐特征,获得音素级别声学特征;
句子特征声学编码器用于根据样本的Mel频谱进行特征提取后加入韵律隐特征,得到句子级别声学特征。
具体实施过程中,请参见图2,为声学特征提取过程示意图,音素与Mel频谱的谱图对齐后输入音素级别声学编码器(音素特征声学编码器),韵律隐特征也输入音素特征声学编码器,从而得到音素特征声学编码器。Mel频谱的谱图输入句子级别声学编码器(句子特征声学编码器)提取得到特征后加入韵律隐特征,从而得到句子级别声学特征。
在一种实施方式中,音素编码器为FastSpeech2音素编码器,文本情感特征提取模型为基于LSTM网络的模型,音素特征声学编码器为基于卷积层的声学编码器,句子特征声学编码器为基于卷积层的声学编码器。
具体来说,音律隐特征是基于FastSpeech2音素编码器计算后得到的,句子级别声学特征是Mel谱图经过基于卷积层的两个声学编码器得到的,音素级别声学特征是Mel谱图与音素对齐后经过基于卷积层的两个声学编码器得到的;文本情感特征提取是基于LSTM网络提取得到的。通过FastSpeech2的方差适配器进行韵律特征的增强和扩充,再通过FastSpeech2的解码器生成频谱。
具体实施时,训练数据中样本形式为文本、音素序列、频谱。频谱转换为 MFCC。频谱转换为MFCC(梅尔倒谱系数)。
MFCC提取过程部分过程及公式为:
(1)预加重:H(Z)=1-μz-1,μ为预加重系数,通常取0.9-1.0之间,z为语音信号,H(Z)表示预加重后的结果。
(2)分帧:先将N个采样点集合成一个观测单位。通常情况下N的值为256 或512,涵盖的时间约为20~30ms左右,为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3。通常语音信号的采样频率为8KHz或16KHz。
(3)加窗:S'(n)=S(n)×W(n),
其中,S(n)为H(Z)分帧后信号,W(n)为汉明窗n为帧的大小,S'(n)为加窗处理后的语音信号,a为汉明窗产生系数,不同的a产生不同的汉明窗,一般取0.46。
(4)FFT(FastFouriertransform快速傅里叶变换):
N表示傅里叶变换点数,K是经过FFT计算后的点的下标,2π是傅里叶转换周期,j是欧拉公式中的虚数单位。
(5)三角带通滤波器:
(6)取对数:每个滤波器组输出的对数能量
Xa(k)为进行FFT后的各帧的频谱,Hm(k)为三角带通滤波器,m为滤波器个数,N为FFT中的点数。
(7)DCT:经离散余弦变换(DCT)得到MFCC系数
s(m)为每组滤波器输出的对数能量,M表示三角滤波器的个数,L指的是 MFCC系数阶数。
具体实施时,还包括模型的预测,主要包括:在音素级别特征提取时所需时长,由训练好的时长模型(FastSpeech中的时长预测模型)进行预测,其余流程与训练阶段相同,得到生成的频谱后使用预训练好的声码器模型得到最终的合成语音。
在一种实施方式中,音素级别声学特征的提取方式为:
Pt=Aco_encoder1(Pt-1,Ct',ht),Ct'=align(Ct,P),
Ct和P分别表示t时刻的谱图与音素序列,ht表示t时刻的韵律隐特征,Pt为t时刻的音素级别声学特征,align()表示对齐函数,Aco_encoder1为音素级别声学编码器,Pt-1为t-1时刻的音素级别声学特征,Ct'表示对齐后的谱图。
请参见图3,左边为音素特征声学编码器,右边为音素特征声学预测器,音素特征声学编码器将Mel谱图进行一维卷积、线性标准化、然后通过线性层进行线性化处理得到音素级别特征向量,音素特征声学预测器将音素隐特征(韵律隐特征)进行与音素特征声学编码器同样的操作,得到预测音素级别特征向量,即表征音素特征的向量。
在一种实施方式中,句子级别声学特征的提取方式为:
Ut=Aco_encoder2(Ut-1,Ct)+ht
Ut表示t时刻的句子级别特征,ht表示t时刻的韵律隐特征,Ct为谱图 Aco_encoder为句子级别声学编码器,Ut-1表示t-1时刻的句子级别特征。
请参见图4,本发明实施例中句子级别声学编码器的结构示意图,将Mel谱图进行一维卷积、线性标准化、然后通过池化层处理得到句子级别特征向量,即表征句子特征的向量。
在一种实施方式中,文本情感特征的提取过程包括:
it=σ(Wiitt+bii+WhiHt-1+bhi),
ft=σ(Wiftt+bif+WhfHt-1+bhf)
gt=tanh(Wigtt+big+WhfHt-1+bhf)
ot=σ(Wiott+bio+WhoHt-1+bho)
ct=ft*ct-1+it*gt
h't=ottanh(ct)
Et=dropout(h't)
其中,tt为文本嵌入后向量,Ht-1为LSTM隐层向量,it为输入门,ft为遗忘门,gt为记忆单元用来备选更新内容,ot为输出门,ct为细胞更新,h't为经过LSTM网络的最后输出,Et为ht经过Dropout后输出的文本情感特征,Wii,Whi为输入门和输入门隐藏层的权重,Wif,Whf为遗忘门门和遗忘门隐藏层的权重, Wig为记忆单元权重,Wio,Who为输出门和输出门隐藏层的权重,bhi,bhf,bhf, bho为输入门、遗忘门、记忆单元、输出门的偏置参数,σ(·)为sigmoid()函数。
请参见图5,为本发明实施例中文本情感特征提取过程示意图。文本通过词嵌入层得到文本嵌入后向量,然后通过LSTM网络进行处理得到h't,再通过Dropout层得到情感特征向量,即表征文本情感特征的向量。
在一种实施方式中,将声学特征与文本情感特征的融合采用早融合Concat 技术,将句子级别声学特征、音素级别声学特征以及文本情感特征进行连接后,输出融合后的特征Tt,融合后的特征输入到方差适配器中,与方差适配器提取的特征Vt进行特征增强和扩充,处理过程包括:
Tt=concat(Pt,Ut,Et)
λ=Beta(α,β)
Vt'=λ×Tt+(1-λ)×Vt+Vt
其中,Tt为通过Concat技术得到的融合后的特征,Pt,Ut,Et分别为音素级别声学特征、句子级别声学特征、文本情感特征,Vt为Fastspeech2中方差适配器中提取的特征,Vt'为方差适配器输出的特征,即融合后的特征与方差适配器提取的特征进行增强和扩充后的特征,λ为经过Beta()函数得到的随机概率,α,β为开始输入参数。
具体实施过程中,方差适配器中提取的特征包括时长、能量、音高等特征。
相对于现有技术,本发明的有益效果是:
1、相比基于Tactron2的方法,由于采用基于FastSpeech的自回归方法,并行计算解码器,提高了合成效率。
2、相比基于FastSpeech的方法,通过引入文本情感特征与声学特征的特征融合来增强和扩充韵律,提高合成语音的自然度。
实施例二
基于同样的发明构思,本实施例提供了基于声学特征与文本情感特征融合的端到端语音合成系统,包括:
训练数据获取模块,用于获取样本文本及对应的标准语音音频,将样本文本转化为音素序列,标准音频转化为标准Mel频谱,将样本文本、音素序列以及样本文本对应的Mel频谱作为训练数据;
模型构建模块,用于构建端到端语音合成模型,端到端语音合成模型包括音素嵌入层、音素编码器、声学编码器、文本情感提取模型、方差适配器、Mel解码器以及声码器,其中,音素嵌入层用于根据音素序列获得音素的向量表示;音素编码器用于根据音素的向量获得文本的韵律隐特征;声学编码器用于根据音素与Mel频谱对齐后的谱图、韵律隐特征获得声学特征;文本情感提取模型用于从样本文本中提取文本情感特征;方差适配器用于将声学特征与文本情感特征的融合作为输入,进行特征增强与扩充;Mel解码器用于根据方差适配器输出实现并行解码,得到合成语音的Mel频谱,Mel解码器为FastSeech2的解码器;声码器用于将频谱图特征映射为声音波形,得到合成的语音;
模型训练模块,用于将训练数据输入至端到端语音合成模型,根据Mel解码器合成的语音的Mel频谱和步骤S1中提取出标准Mel频谱之间误差设计损失函数,训练过程中更新模型的参数直到模型收敛,得到训练好的端语音合成模型;
语音合成模块,用于利用训练好的端到端语音合成模型进行语音合成。
由于本发明实施例二所介绍的系统,为实施本发明实施例一中基于声学特征与文本情感特征融合的端到端语音合成方法所采用的系统,故而基于本发明实施例一所介绍的方法,本领域所属技术人员能够了解该系统的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的系统都属于本发明所欲保护的范围。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.基于声学特征与文本情感特征融合的端到端语音合成方法,其特征在于,包括:
S1:获取样本文本及对应的标准语音音频,将样本文本转化为音素序列,标准音频转化为标准Mel频谱,将样本文本、音素序列以及样本文本对应的Mel频谱作为训练数据;
S2:构建端到端语音合成模型,端到端语音合成模型包括音素嵌入层、音素编码器、声学编码器、文本情感提取模型、方差适配器、Mel解码器以及声码器,其中,音素嵌入层用于根据音素序列获得音素的向量表示;音素编码器用于根据音素的向量获得文本的韵律隐特征;声学编码器用于根据音素与Mel频谱对齐后的谱图、韵律隐特征获得声学特征;文本情感提取模型用于从样本文本中提取文本情感特征;方差适配器用于将声学特征与文本情感特征的融合、方差适配器提取的特征进行特征增强与扩充;Mel解码器用于根据方差适配器输出实现并行解码,得到合成语音的Mel频谱,Mel解码器为FastSeech2的解码器;声码器用于将频谱图特征映射为声音波形,得到合成的语音;
S3:将训练数据输入至端到端语音合成模型,根据Mel解码器合成的语音的Mel频谱和步骤S1中提取出标准Mel频谱之间误差设计损失函数,训练过程中更新模型的参数直到模型收敛,得到训练好的端语音合成模型;
S4:利用训练好的端到端语音合成模型进行语音合成。
2.如权利要求1所述的语音合成方法,其特征在于,步骤S2中声学编码器包括音素特征声学编码器和句子特征声学编码器,
音素特征声学编码器用于对音素与Mel频谱进行对齐后的谱图进行特征提取,并在提取过程中加入韵律隐特征,获得音素级别声学特征;
句子特征声学编码器用于根据样本的Mel频谱进行特征提取后加入韵律隐特征,得到句子级别声学特征。
3.如权利要求2所述的语音合成方法,其特征在于,音素编码器为FastSpeech2音素编码器,文本情感特征提取模型为基于LSTM网络的模型,音素特征声学编码器为基于卷积层的声学编码器,句子特征声学编码器为基于卷积层的声学编码器。
4.如权利要求2所述的语音合成方法,其特征在于,音素级别声学特征的提取方式为:
Pt=Aco_encoder1(Pt-1,Ct',ht),Ct'=align(Ct,P),
Ct和P分别表示t时刻的谱图与音素序列,ht表示t时刻的韵律隐特征,Pt为t时刻的音素级别声学特征,align()表示对齐函数,Aco_encoder1为音素级别声学编码器,Pt-1为t-1时刻的音素级别声学特征,Ct'表示对齐后的谱图。
5.如权利要2所述的语音合成方法,其特征在于,句子级别声学特征的提取方式为:
Ut=Aco_encoder2(Ut-1,Ct)+ht
Ut表示t时刻的句子级别特征,ht表示t时刻的韵律隐特征,Ct为谱图Aco_encoder为句子级别声学编码器,Ut-1表示t-1时刻的句子级别特征。
6.如权利要1所述的语音合成方法,其特征在于,文本情感特征的提取过程包括:
it=σ(Wiitt+bii+WhiHt-1+bhi),
ft=σ(Wiftt+bif+WhfHt-1+bhf)
gt=tanh(Wigtt+big+WhfHt-1+bhf)
ot=σ(Wiott+bio+WhoHt-1+bho)
ct=ft*ct-1+it*gt
h't=ot tanh(ct)
Et=dropout(h't)
其中,tt为文本嵌入后向量,Ht-1为LSTM隐层向量,it为输入门,ft为遗忘门,gt为记忆单元用来备选更新内容,ot为输出门,ct为细胞更新,h't为经过LSTM网络的最后输出,Et为ht经过dropout后输出的文本情感特征,Wii,Whi为输入门和输入门隐藏层的权重,Wif,Whf为遗忘门门和遗忘门隐藏层的权重,Wig为记忆单元权重,Wio,Who为输出门和输出门隐藏层的权重,bhi,bhf,bhf,bho为输入门、遗忘门、记忆单元、输出门的偏置参数,σ(·)为sigmoid()函数。
7.如权利要2所述的语音合成方法,其特征在于,将声学特征与文本情感特征的融合采用早融合Concat技术,将句子级别声学特征、音素级别声学特征以及文本情感特征进行连接后,输出融合后的特征Tt,融合后的特征输入到方差适配器中,与方差适配器提取的特征Vt进行特征增强和扩充,处理过程包括:
Tt=concat(Pt,Ut,Et)
λ=Beta(α,β)
Vt'=λ×Tt+(1-λ)×Vt+Vt
其中,Tt为通过Concat技术得到的融合后的特征,Pt,Ut,Et分别为音素级别声学特征、句子级别声学特征、文本情感特征,Vt为Fastspeech2中方差适配器中提取的特征,Vt'为方差适配器输出的特征,即融合后的特征与方差适配器提取的特征进行增强和扩充后的特征,λ为经过Beta()函数得到的随机概率,α,β为开始输入参数。
8.基于声学特征与文本情感特征融合的端到端语音合成系统,其特征在于,包括:
训练数据获取模块,用于获取样本文本及对应的标准语音音频,将样本文本转化为音素序列,标准音频转化为标准Mel频谱,将样本文本、音素序列以及样本文本对应的Mel频谱作为训练数据;
模型构建模块,用于构建端到端语音合成模型,端到端语音合成模型包括音素嵌入层、音素编码器、声学编码器、文本情感提取模型、方差适配器、Mel解码器以及声码器,其中,音素嵌入层用于根据音素序列获得音素的向量表示;音素编码器用于根据音素的向量获得文本的韵律隐特征;声学编码器用于根据音素与Mel频谱对齐后的谱图、韵律隐特征获得声学特征;文本情感提取模型用于从样本文本中提取文本情感特征;方差适配器用于将声学特征与文本情感特征的融合、方差适配器提取的特征进行特征增强与扩充;Mel解码器用于根据方差适配器输出实现并行解码,得到合成语音的Mel频谱,Mel解码器为FastSeech2的解码器;声码器用于将频谱图特征映射为声音波形,得到合成的语音;
模型训练模块,用于将训练数据输入至端到端语音合成模型,根据Mel解码器合成的语音的Mel频谱和步骤S1中提取出标准Mel频谱之间误差设计损失函数,训练过程中更新模型的参数直到模型收敛,得到训练好的端语音合成模型;
语音合成模块,用于利用训练好的端到端语音合成模型进行语音合成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110812076.4A CN113506562B (zh) | 2021-07-19 | 2021-07-19 | 基于声学特征与文本情感特征融合的端到端语音合成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110812076.4A CN113506562B (zh) | 2021-07-19 | 2021-07-19 | 基于声学特征与文本情感特征融合的端到端语音合成方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113506562A true CN113506562A (zh) | 2021-10-15 |
CN113506562B CN113506562B (zh) | 2022-07-19 |
Family
ID=78013734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110812076.4A Active CN113506562B (zh) | 2021-07-19 | 2021-07-19 | 基于声学特征与文本情感特征融合的端到端语音合成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113506562B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113948062A (zh) * | 2021-12-20 | 2022-01-18 | 阿里巴巴达摩院(杭州)科技有限公司 | 数据转换方法及计算机存储介质 |
CN114005446A (zh) * | 2021-11-01 | 2022-02-01 | 科大讯飞股份有限公司 | 情感分析方法、相关设备及可读存储介质 |
CN114255736A (zh) * | 2021-12-23 | 2022-03-29 | 思必驰科技股份有限公司 | 韵律标注方法及系统 |
CN114420087A (zh) * | 2021-12-27 | 2022-04-29 | 北京百度网讯科技有限公司 | 声学特征的确定方法、装置、设备、介质及产品 |
CN114842825A (zh) * | 2022-04-20 | 2022-08-02 | 杭州倒映有声科技有限公司 | 情感迁移语音合成方法及系统 |
CN115101046A (zh) * | 2022-06-21 | 2022-09-23 | 鼎富智能科技有限公司 | 一种特定说话人语音合成方法和装置 |
CN116863909A (zh) * | 2023-09-04 | 2023-10-10 | 世优(北京)科技有限公司 | 基于因子图的语音合成方法、装置及系统 |
CN117133270A (zh) * | 2023-09-06 | 2023-11-28 | 联通(广东)产业互联网有限公司 | 语音合成方法、装置、电子设备及存储介质 |
TWI829312B (zh) * | 2021-12-01 | 2024-01-11 | 美商萬國商業機器公司 | 訓練一自動語音辨識系統之方法、電腦程式產品及電腦系統 |
CN117877460A (zh) * | 2024-01-12 | 2024-04-12 | 汉王科技股份有限公司 | 语音合成方法、装置、语音合成模型训练方法、装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070208569A1 (en) * | 2006-03-03 | 2007-09-06 | Balan Subramanian | Communicating across voice and text channels with emotion preservation |
US20130211838A1 (en) * | 2010-10-28 | 2013-08-15 | Acriil Inc. | Apparatus and method for emotional voice synthesis |
CN108597492A (zh) * | 2018-05-02 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN110570845A (zh) * | 2019-08-15 | 2019-12-13 | 武汉理工大学 | 一种基于域不变特征的语音识别方法 |
US20200074985A1 (en) * | 2018-05-11 | 2020-03-05 | Google Llc | Clockwork Hierarchical Variational Encoder |
US10741169B1 (en) * | 2018-09-25 | 2020-08-11 | Amazon Technologies, Inc. | Text-to-speech (TTS) processing |
CN111667816A (zh) * | 2020-06-15 | 2020-09-15 | 北京百度网讯科技有限公司 | 模型训练方法、语音合成方法、装置、设备和存储介质 |
CN111754976A (zh) * | 2020-07-21 | 2020-10-09 | 中国科学院声学研究所 | 一种韵律控制语音合成方法、系统及电子装置 |
CN112786007A (zh) * | 2021-01-20 | 2021-05-11 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
CN112786009A (zh) * | 2021-02-26 | 2021-05-11 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
CN113096640A (zh) * | 2021-03-08 | 2021-07-09 | 北京达佳互联信息技术有限公司 | 一种语音合成方法、装置、电子设备及存储介质 |
-
2021
- 2021-07-19 CN CN202110812076.4A patent/CN113506562B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070208569A1 (en) * | 2006-03-03 | 2007-09-06 | Balan Subramanian | Communicating across voice and text channels with emotion preservation |
US20130211838A1 (en) * | 2010-10-28 | 2013-08-15 | Acriil Inc. | Apparatus and method for emotional voice synthesis |
CN108597492A (zh) * | 2018-05-02 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
US20200074985A1 (en) * | 2018-05-11 | 2020-03-05 | Google Llc | Clockwork Hierarchical Variational Encoder |
US10741169B1 (en) * | 2018-09-25 | 2020-08-11 | Amazon Technologies, Inc. | Text-to-speech (TTS) processing |
CN110570845A (zh) * | 2019-08-15 | 2019-12-13 | 武汉理工大学 | 一种基于域不变特征的语音识别方法 |
CN111667816A (zh) * | 2020-06-15 | 2020-09-15 | 北京百度网讯科技有限公司 | 模型训练方法、语音合成方法、装置、设备和存储介质 |
CN111754976A (zh) * | 2020-07-21 | 2020-10-09 | 中国科学院声学研究所 | 一种韵律控制语音合成方法、系统及电子装置 |
CN112786007A (zh) * | 2021-01-20 | 2021-05-11 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
CN112786009A (zh) * | 2021-02-26 | 2021-05-11 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
CN113096640A (zh) * | 2021-03-08 | 2021-07-09 | 北京达佳互联信息技术有限公司 | 一种语音合成方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
智鹏鹏等: "利用说话人自适应实现基于DNN的情感语音合成", 《重庆邮电大学学报(自然科学版)》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114005446A (zh) * | 2021-11-01 | 2022-02-01 | 科大讯飞股份有限公司 | 情感分析方法、相关设备及可读存储介质 |
US11908454B2 (en) | 2021-12-01 | 2024-02-20 | International Business Machines Corporation | Integrating text inputs for training and adapting neural network transducer ASR models |
TWI829312B (zh) * | 2021-12-01 | 2024-01-11 | 美商萬國商業機器公司 | 訓練一自動語音辨識系統之方法、電腦程式產品及電腦系統 |
CN113948062A (zh) * | 2021-12-20 | 2022-01-18 | 阿里巴巴达摩院(杭州)科技有限公司 | 数据转换方法及计算机存储介质 |
CN114255736A (zh) * | 2021-12-23 | 2022-03-29 | 思必驰科技股份有限公司 | 韵律标注方法及系统 |
CN114420087B (zh) * | 2021-12-27 | 2022-10-21 | 北京百度网讯科技有限公司 | 声学特征的确定方法、装置、设备、介质及产品 |
CN114420087A (zh) * | 2021-12-27 | 2022-04-29 | 北京百度网讯科技有限公司 | 声学特征的确定方法、装置、设备、介质及产品 |
CN114842825A (zh) * | 2022-04-20 | 2022-08-02 | 杭州倒映有声科技有限公司 | 情感迁移语音合成方法及系统 |
CN115101046A (zh) * | 2022-06-21 | 2022-09-23 | 鼎富智能科技有限公司 | 一种特定说话人语音合成方法和装置 |
CN116863909A (zh) * | 2023-09-04 | 2023-10-10 | 世优(北京)科技有限公司 | 基于因子图的语音合成方法、装置及系统 |
CN116863909B (zh) * | 2023-09-04 | 2023-11-07 | 世优(北京)科技有限公司 | 基于因子图的语音合成方法、装置及系统 |
CN117133270A (zh) * | 2023-09-06 | 2023-11-28 | 联通(广东)产业互联网有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN117877460A (zh) * | 2024-01-12 | 2024-04-12 | 汉王科技股份有限公司 | 语音合成方法、装置、语音合成模型训练方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113506562B (zh) | 2022-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113506562B (zh) | 基于声学特征与文本情感特征融合的端到端语音合成方法及系统 | |
CN111754976B (zh) | 一种韵律控制语音合成方法、系统及电子装置 | |
CN109147758B (zh) | 一种说话人声音转换方法及装置 | |
McAuliffe et al. | Montreal forced aligner: Trainable text-speech alignment using kaldi. | |
Sun et al. | Voice conversion using deep bidirectional long short-term memory based recurrent neural networks | |
JP6777768B2 (ja) | 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム | |
Sheikhan et al. | Using DTW neural–based MFCC warping to improve emotional speech recognition | |
CN112489629B (zh) | 语音转写模型、方法、介质及电子设备 | |
CN110648684B (zh) | 一种基于WaveNet的骨导语音增强波形生成方法 | |
Bhatt et al. | Feature extraction techniques with analysis of confusing words for speech recognition in the Hindi language | |
CN116994553A (zh) | 语音合成模型的训练方法、语音合成方法、装置及设备 | |
CN109326278B (zh) | 一种声学模型构建方法及装置、电子设备 | |
Singh et al. | Spectral modification based data augmentation for improving end-to-end ASR for children's speech | |
Rajesh Kumar et al. | Optimization-enabled deep convolutional network for the generation of normal speech from non-audible murmur based on multi-kernel-based features | |
Dalmiya et al. | An efficient method for Tamil speech recognition using MFCC and DTW for mobile applications | |
CN114974218A (zh) | 语音转换模型训练方法及装置、语音转换方法及装置 | |
CN113436607B (zh) | 一种快速语音克隆方法 | |
CN112216293A (zh) | 一种音色转换方法和装置 | |
Zhao et al. | Research on voice cloning with a few samples | |
CN113112985B (zh) | 一种基于深度学习的语音合成方法 | |
Wisesty et al. | Feature extraction analysis on Indonesian speech recognition system | |
CN104485099A (zh) | 一种合成语音自然度的提升方法 | |
Gao et al. | Improving F0 prediction using bidirectional associative memories and syllable-level F0 features for HMM-based Mandarin speech synthesis | |
Himawan et al. | Jointly Trained Conversion Model With LPCNet for Any-to-One Voice Conversion Using Speaker-Independent Linguistic Features | |
CN113053356A (zh) | 语音波形生成方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |