CN111951778A - 一种低资源下利用迁移学习进行情感语音合成的方法 - Google Patents

一种低资源下利用迁移学习进行情感语音合成的方法 Download PDF

Info

Publication number
CN111951778A
CN111951778A CN202010681019.2A CN202010681019A CN111951778A CN 111951778 A CN111951778 A CN 111951778A CN 202010681019 A CN202010681019 A CN 202010681019A CN 111951778 A CN111951778 A CN 111951778A
Authority
CN
China
Prior art keywords
emotion
style
training
encoder
speech synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010681019.2A
Other languages
English (en)
Other versions
CN111951778B (zh
Inventor
王龙标
徐杰
党建武
贡诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202010681019.2A priority Critical patent/CN111951778B/zh
Publication of CN111951778A publication Critical patent/CN111951778A/zh
Application granted granted Critical
Publication of CN111951778B publication Critical patent/CN111951778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种低资源下利用迁移学习进行情感语音合成的方法,包括以下步骤:步骤一,情感向量预训练:利用EMOV‑DB数据集对于一个语音情感识别模型进行训练,这一语音情感识别模型是由风格化端到端语音合成的基本方法GST+Tacotron2模型中风格向量提取部分进一步处理得到的;步骤二,语音合成模型预训练:对于基本的Tacotron2模型,利用LJSpeech‑1.1的数据集进行预训练;步骤三,进行迁移学习训练:对于基本的Tacotron2模型在编码器的结果上连接上步骤一中得到的中间结果,并进行迁移学习训练。本发明采用预训练和迁移学习的方法,能够充分利用单个说话人少量的情感数据,在一个统一的情感语音合成模型的基础上,合成出质量达到一定水平的、情感倾向明显的合成语音。

Description

一种低资源下利用迁移学习进行情感语音合成的方法
技术领域
本发明涉及语音合成领域,具体是涉及一种在低资源下,利用现有数据进行迁移学习从而实现情感语音合成的方法。
背景技术
近年来,端到端语音合成领域发展迅速,在大数据集进行训练的前提下,语音合成的质量和清晰度有了很大的提升。对于在大数据量进行训练的前提下的情感语音合成目前已经达到了一个可以令人接受的水平,但在一些特殊情况下,可能没有条件获得进行训练的大数据量的数据集,或者获取代价比较高。
发明内容
本发明的目的是为了克服现有技术中的不足,提供一种低资源下利用迁移学习进行情感语音合成的方法,该方法可以在少量用于训练的数据的前提下进行情感语音合成,采用迁移学习和模型预训练的方法,充分利用了单个说话人少量的含有情感的语音数据,在达到可以识别的情感的语音质量的前提下,利用较少的空间资源,实现情感语音合成的目的。
本发明的目的是通过以下技术方案实现的:
一种低资源下利用迁移学习进行情感语音合成的方法,包括以下步骤:
步骤一,情感向量预训练:利用情感语音合成数据集对于一个语音情感识别模型进行训练获得中间结果,语音情感识别模型是由风格化端到端语音合成的基本方法中基于GST(Global Style Token)机制通过风格向量提取进一步处理得到的;
步骤二,语音合成模型预训练:对于基本的端到端语音合成模型,利用基本的单说话人语料的语音合成数据集进行预训练;具体是对步骤一获取的目标说话人的各种情感语音的中间结果,取出其中中性的结果,随机获取基本的单说话人语料语音合成数据集数据量次;用基本的单说话人语料语音合成数据集对上述的端到端语音合成模型进行基础的训练。
步骤三,进行迁移学习训练:对于基本的端到端语音合成模型在编码器的结果中连接上步骤一中得到的中间结果,并进行迁移学习训练;最终生成具有情感的语音文件。
进一步的,步骤一中具体如下:
基本的端到端语音合成模型结构如下,
xencoder=encoder(xtext)
xattention=attention(xencoder)
xdecoder=decoder(xattention)
其中,xtext为文本中提取的特征信息;xencoder、xattention为相应的中间结果;xdecoder为最终的结果信息,为梅尔谱信息或频谱信息;最终的结果信息通过声码器转化为语音信息生成语音文件;
在基本的端到端语音合成模型的基础上增加GST(Global Style Token)结构,具体如下,
xencoder=encoder(xtext)
xstyle=StyleToken(xref)
xmiddle=concatenate(xencoder,xstyle)
xattention=attention(xmiddle)
xdecoder=decoder(xattention)
其中,xtext、xencoder、xattention和xdecoder同基本的端到端语音合成模型中相同,xmiddle为最终结合后的输入到解码器的编码器结构的输出,xref为作为风格参考的语音提取的梅尔谱信息,经过GST(Global Style Token)的结构的处理得到xstyle,xstyle带有风格相关的信息;
利用GST(Global Style Token)结构进行一个情感分类任务,具体如下,
xstyle=StyleToken(xref)
xemotion=dense(xstyle)
其中,GST(Global Style Token)的结构不变,xemotion为相应的情感标签信息;dense为基本的深度学习全连接层,用于将中间结果转化为标签长度的维度的向量;
对上述语音情感识别模型,经过情感语音合成数据集的数据进行训练,然后将目标说话人的相关数据在上述语音情感识别模型中进行处理,获取xstyle作为之后步骤的输入信息,xstyle即体现了目标说话人不同情感的信息,又体现了同一情感中不同句子的关于语音的风格上的差别。
进一步的,步骤二中具体如下:对基本的端到端语音合成模型进行改造,改造后的结构如下:
xencoder=encoder(xtext)
xmiddle=concatenate(xencoder,xstyle)
xattention=attention(xmiddle)
xdecoder=decoder(xattention)
其中xtext为文本中提取的特征信息;xencoder、xattention为相应的中间结果;xmiddle为最终结合后的输入到解码器的编码器结构的输出,xdecoder为最终的结果信息,xstyle为步骤一训练中获得的语音情感识别模型的中间结果;取出语音情感识别模型中的xstyle值的中性结果作为基本的端到端语音合成模型中xstyle输入值。
进一步的,步骤三中训练完成后,在步骤一语音情感识别模型的中间结果中选取各个情感的xstyle结果作为基本的端到端语音合成模型中生成语音的xstyle值输入,从而生成有情感的语音文件。
进一步的,步骤一所需的训练步数为50000步,初始学习率为1e-4,在5000步开始学习率下降,学习率最终下降为1e-6。
进一步的,步骤二所需的训练步数为150000步,初始学习率为1e-3,在5000步开始学习率下降,学习率最终下降为1e-5
进一步的,步骤三所需的训练步数为40000步,参数设置与步骤二相同。
与现有技术相比,本发明的技术方案所带来的有益效果是:
1.本发明采用预训练和迁移学习的方法,能够充分利用单个说话人少量的情感数据。通过迁移学习,语音情感识别模型能够生成具有良好聚类结构,并能表征一定语音信息的中间向量,通过这一中间向量,本方法在一个统一的情感语音合成模型的基础上,能合成出质量达到一定水平的、情感倾向明显的合成语音。
2.对于之前的情感语音合成方法一般需要上万条数据的数据集进行训练(在单个情感训练过程中一般需要等同于LJSpeech-1.1数据集(13000条)的数据量),但利用本方法实际使用的单一情感语音语料数据量只有大约500条,而情感语音数据的收集又是极其困难的。本方法基于迁移学习进行训练,能够在比较小的情感数据量的前提下得到质量和情感强度可以清晰识别的情感语音合成结果。
3.对于一般的情感语音合成方法,一般需要对于单个情感训练一个语音合成模型,而一个语音合成模型是会消耗大约600m的存储空间的,而单独一个语音合成模型的训练过程往往需要15w步以上的训练过程,这在一台计算机上往往需要4到5天的时间。本方法最终对于各个情感整体训练了一个语音合成模型,所以在训练时长和存储消耗上会优于以往的方法。
4.本发明方法可以更好的利用目标说话人有限的情感语音数据信息,利用一个基本的端到端语音合成模型和一个语音情感识别模型达到合成一定清晰度并具有明显情感倾向的语音信息的目的(具体数据对比可参看后文表2、表3)。
附图说明
图1是方法实施的整体步骤流程图;
图2是利用EMOV-DB(情感语音合成数据集)数据集进行语音情感识别模型图;
图3是对于基本的Tacotron2模型在编码器的结果上连接步骤一中间结果的端到端语音合成模型图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本实施例提供一种低资源下利用迁移学习进行情感语音合成的方法,在本实施例的实际操作中使用了:EMOV-DB和LJSpeech-1.1两个数据集,其中EMOV-DB数据集为低资源的情感语音合成数据集,数据集中文字是基于CMU北极数据库的。数据集包括四个演讲者的录音——两男两女。情绪类型包括中性、困倦、愤怒、厌恶和娱乐。LJSpeech-1.1数据集是一个单人的中性情感的语音合成数据集,其包含来自单个演讲者的13,100个简短音频片段,这些片段来自7部非小说类书籍。为每个剪辑提供了转录。剪辑的长度从1到10秒不等,总长度约为24小时。对于EMOV-DB数据集具体得说话人和情感情况如下:
-珍妮(女性,英语:中性(417个文件),有趣(222个文件),愤怒(523个文件),困倦(466个文件),厌恶(189个文件)
-贝亚(女性,英语:中性(373个文件),娱乐(309个文件),愤怒(317个文件),困倦(520个文件),厌恶(347个文件)
-山姆(男性,英语:中性(493个文件),有趣(501个文件),愤怒(468个文件),困倦(495个文件),厌恶(497个文件)
-乔希(男,英文:中性(302个文件),有趣(298个文件),困倦(263个文件)
对于本实施例可以使用数据量类似的同样语音质量的数据集进行操作,可以达到同本实施例实验相同的效果。
本方法主要是基于论文:[Style Tokens:Unsupervised Style Modeling,Control and Transfer in End-to-End Speech Synthesis](https://arxiv.org/abs/1803.09017)进行的相关改进。原始论文主要针对大数据集下的风格迁移的语音合成任务,但对于小数据量的情感语音合成任务并不适用。所以在本方法中通过将论文中提到的方法进行改进(改进主要是对GST-Tacotron2模型进行拆分,并引入新的任务目标以方便生成更能指导语音合成过程的中间结果)。通过本方法的改进GST-Tacotron2模型能更好的获取参考语音当中的情感信息,从而在小数据量的情况下更好的指导情感语音合成任务。其具体步骤(如图1所示)如下:
步骤一,情感向量预训练:
如图2所示,主要是利用EMOV-DB数据集(情感语音合成数据集)的全部数据对于一个语音情感识别模型进行训练。
在本方法中,主要是利用Style Token的结构进行一个情感分类任务,其结构如下:
xstyle=StyleToken(xref)
xemotion=dense(xstyle)
其中,Style Token的结构分为Reference encoder和Attention两个部分,其中Reference encoder为6层Conv-2d(kernel 22,33,output channel 32,32,64,64,128,128)+1层GRU(128),而Attention为多头注意力机制,语音情感识别模型中,使用了4头注意力,其具体结构如下:
xconv0=conv(xref)
xbn0=batch_normalization(xconv0)
xconv1=conv(xbn0)
xbn1=batch_normalization(xconv1)
xconv2=conv(xbn1)
xbn2=batch_normalization(xconv2)
xconv3=conv(xbn2)
xbn3=batch_normalization(xconv3)
xconv4=conv(xbn3)
xbn4=batch_normalization(xconv4)
xconv5=conv(xbn4)
xbn5=batch_normalization(xconv5)
xgru=gru(xbn5)
xstyle=multihead_attention(xgru)
对于Style Token结构后面的xemotion为相应的情感标签信息,其维度为512。Dense为基本的深度学习全连接层,主要用于将中间结果转化为标签维度的向量。具体而言就是将512维转化为5维,之后进行Softmax的处理。使用交叉熵作为损失函数,优化器选取Adam优化器。
语音情感识别模型中具体结构信息情况如下:
表1语音情感识别模型结构信息情况
网络层 结构 Size
卷积层 六层卷积 kernel 22,33,output channel 32,32,64,64,128,128
GRU层 双向GRU 128
注意力层 4个头多头注意力机制 (128,512)
密集层 全连接网络 (512,5)
对上述语音情感识别模型,经过EMOV-DB(情感语音合成数据集)的数据进行训练,然后将目标说话人的相关数据在语音情感识别模型中进行处理,获取xstyle作为后面步骤的输入信息,认为这一向量即体现了目标说话人不同情感的信息,又体现了同一情感中不同句子的关于语音的风格上的差别。
步骤二,端到端语音合成模型预训练:
对于基本的tacotron2模型,利用LJSpeech-1.1(基本的单说话人语料语音合成数据集)的数据集进行预训练,具体而言:
如图3所示,对于基本的tacotron2模型进行改造,改造后的结构如下:
xencoder=encoder(xtext)
xmiddle=concatenate(xencoder,xstyle)
xattention=attention(xmiddle)
xdecoder=decoder(xattention)
公式中xstyle为步骤一训练中获得的语音情感识别模型的中间结果。具体而言,就是对步骤一获取的目标说话人的各种情感语音的中间结果,取出其中中性的结果,随机获取LJSpeech-1.1(基本的单说话人语料语音合成数据集)数据集数据量次。
上述端到端语音合成模型中编码器模块包含一个字符嵌入层(CharacterEmbedding),一个3层卷积,一个双向LSTM层。输入字符被编码成512维的字符向量;然后穿过一个三层卷积,每层卷积包含512个5x1的卷积核,即每个卷积核横跨5个字符,卷积层会对输入的字符序列进行大跨度上下文建模(类似于N-grams),这里使用卷积层获取上下文主要是由于实践中RNN很难捕获长时依赖;卷积层后接批归一化(batch normalization),使用ReLu进行激活;最后一个卷积层的输出被传送到一个双向的LSTM层用以生成编码特征,这个LSTM包含512个单元(每个方向256个单元)。
fe=ReLU(F3*ReLU(F2*ReLU(F1*E(x))))
H=EncoderRecurrency(fe)
其中,F1、F2、F3为3个卷积核,ReLU为每一个卷积层上的非线性激活,E表示对字符序列X做embedding,EncoderRecurrency表示双向LSTM。
注意力机制使用了基于位置敏感的注意力机制(Attention-Based Models forSpeech Recognition),是对之前注意力机制的扩展(Neural machine translation byjointly learning to align and translate);这样处理可以使用之前解码处理的累积注意力权重作为一个额外的特征,因此使得端到端语音合成模型在沿着输入序列向前移动的时候保持前后一致,减少了解码过程中潜在的子序列重复或遗漏。位置特征用32个长度为31的1维卷积核卷积得出,然后把输入序列和为位置特征投影到128维隐层表征,计算出注意力权重。
Figure BDA0002585835450000071
其中,Va、W、V、U和b为待训练参数,si为当前解码器隐状态,hj是当前编码器隐状态,fi,j是之前的注意力权重αi-1经卷积而得的位置特征。
解码器是一个自回归循环神经网络,它从编码的输入序列预测输出声谱图,一次预测一帧。上一步预测出的频谱首先被传入一个“pre-net”,每层由256个隐藏ReLU单元组成的双层全连接层,pre-net作为一个信息瓶颈层,对于学习注意力是必要的。pre-net的输出和注意力上下文向量拼接在一起,传给一个两层堆叠的由1024个单元组成的单向LSTM。LSTM的输出再次和注意力上下文向量拼接在一起,然后经过一个线性投影来预测目标频谱帧。最后,目标频谱帧经过一个5层卷积的“post-net”来预测一个残差叠加到卷积前的频谱帧上,用以改善频谱重构的整个过程。post-net每层由512个5X1卷积核组成,后接批归一化层,除了最后一层卷积,每层批归一化都用tanh激活。并行于频谱帧的预测,解码器LSTM的输出与注意力上下文向量拼接在一起,投影成一个标量后传递给sigmoid激活函数,来预测输出序列是否已经完成的概率。
用LJSpeech-1.1(基本的单说话人语料语音合成数据集)数据集对上述端到端语音合成模型进行基础的训练,其中xstyle由随机获取的中性的结果作为输入值。步骤二所需的训练步数为150000步,初始学习率为1e-3,在5000步开始学习率下降,每1000步下降0.3,学习率最终下降为1e-5。
步骤三,进行迁移学习训练:
对于基本的tacotron2模型在编码器的结果上连接上步骤一中得到的中间结果,并进行迁移学习训练。具体而言:
对于步骤二中提到的端到端语音合成模型,利用目标说话人的语音数据进行迁移学习训练,其中xstyle为步骤二训练中获得的端到端语音合成模型的对于目标说话人的中间结果。所需的训练步数为40000步,参数设置与步骤二相同。
训练完成后,在步骤一语音情感识别模型的中间结果中选取各个情感的合适作为生成语音的xstyle值输入,之后便可以生成合适的具有情感的语音文件所需的梅尔谱预测信息。对于预测的梅尔谱信息可通过声码器进行转换,转换为相应的音频文件,在本发明中可以使用的声码器有G-L算法和WaveNet等
进一步地,在具体实践过程中对本发明同利用One-hot编码的Tacotron2(一种常用的端到端语音合成模型)迁移学习情感语音合成结果进行了MCD和XAB分数的比较,MCD结果见表2,XAB结果见表3。以上结果说明本发明在情感语音效果上相比于之前的结果存在一定优势。
表2 MCD客观测评得分情况
Figure BDA0002585835450000081
表3 XAB主观测评得分情况
Figure BDA0002585835450000082
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。

Claims (7)

1.一种低资源下利用迁移学习进行情感语音合成的方法,其特征在于,包括以下步骤:
步骤一,情感向量预训练:利用情感语音合成数据集对于一个语音情感识别模型进行训练获得中间结果,语音情感识别模型是由风格化端到端语音合成的基本方法中基于GST(Global Style Token)机制通过风格向量提取进一步处理得到的;
步骤二,语音合成模型预训练:对于基本的端到端语音合成模型,利用基本的单说话人语料的语音合成数据集进行预训练;具体是对步骤一获取的目标说话人的各种情感语音的中间结果,取出其中中性的结果,随机获取基本的单说话人语料语音合成数据集数据量次;用基本的单说话人语料语音合成数据集对上述的端到端语音合成模型进行基础的训练。
步骤三,进行迁移学习训练:对于基本的端到端语音合成模型在编码器的结果中连接上步骤一中得到的中间结果,并进行迁移学习训练;最终生成具有情感的语音文件。
2.根据权利要求1所述一种低资源下利用迁移学习进行情感语音合成的方法,其特征在于,步骤一中具体如下:
基本的端到端语音合成模型结构如下,
xencoder=encoder(xtext)
xattention=attention(xencoder)
xdecoder=decoder(xattention)
其中,xtext为文本中提取的特征信息;xencoder、xattention为相应的中间结果;xdecoder为最终的结果信息,为梅尔谱信息或频谱信息;最终的结果信息通过声码器转化为语音信息生成语音文件;
在基本的端到端语音合成模型的基础上增加GST(Global Style Token)结构,具体如下,
xencoder=encoder(xtext)
xstyle=StyleToken(xref)
xmiddle=concatenate(xencoder,xstyle)
xattention=attention(xmiddle)
xdecoder=decoder(xattention)
其中,xtext、xencoder、xattention和xdecoder同基本的端到端语音合成模型中相同,xref为作为风格参考的语音提取的梅尔谱信息,经过GST(Global Style Token)的结构的处理得到xstyle,xmiddle为最终结合后的输入到解码器的编码器结构的输出,xstyle带有风格相关的信息;
利用GST(Global Style Token)结构进行一个情感分类任务,具体如下,
xstyle=StyleToken(xref)
xemotion=dense(xstyle)
其中,GST(Global Style Token)的结构不变,xemotion为相应的情感标签信息;dense为基本的深度学习全连接层,用于将中间结果转化为标签长度的维度的向量;
对上述语音情感识别模型,经过情感语音合成数据集的数据进行训练,然后将目标说话人的相关数据在上述语音情感识别模型中进行处理,获取xstyle作为之后步骤的输入信息,xstyle即体现了目标说话人不同情感的信息,又体现了同一情感中不同句子的关于语音的风格上的差别。
3.根据权利要求1所述一种低资源下利用迁移学习进行情感语音合成的方法,其特征在于,步骤二中具体如下:对基本的端到端语音合成模型进行改造,改造后的结构如下:
xencoder=encoder(xtext)
xmiddle=concatenate(xencoder,xstyle)
xattention=attention(xmiddle)
xdecoder=decoder(xattention)
其中xtext为文本中提取的特征信息;xencoder、xattention为相应的中间结果;xmiddle为最终结合后的输入到解码器的编码器结构的输出,xdecoder为最终的结果信息,xstyle为步骤一训练中获得的语音情感识别模型的中间结果;取出语音情感识别模型中的xstyle值的中性结果作为基本的端到端语音合成模型中xstyle输入值。
4.根据权利要求1所述一种低资源下利用迁移学习进行情感语音合成的方法,其特征在于,步骤三中训练完成后,在步骤一语音情感识别模型的中间结果中选取各个情感的xstyle结果作为基本的端到端语音合成模型中生成语音的xstyle值输入,从而生成有情感的语音文件。
5.根据权利要求1或2所述一种低资源下利用迁移学习进行情感语音合成的方法,其特征在于,步骤一所需的训练步数为50000步,初始学习率为1e-4,在5000步开始学习率下降,学习率最终下降为1e-6。
6.根据权利要求1或3所述一种低资源下利用迁移学习进行情感语音合成的方法,其特征在于,步骤二所需的训练步数为150000步,初始学习率为1e-3,在5000步开始学习率下降,学习率最终下降为1e-5。
7.根据权利要求1或4所述一种低资源下利用迁移学习进行情感语音合成的方法,其特征在于,步骤三所需的训练步数为40000步,参数设置与步骤二相同。
CN202010681019.2A 2020-07-15 2020-07-15 一种低资源下利用迁移学习进行情感语音合成的方法 Active CN111951778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010681019.2A CN111951778B (zh) 2020-07-15 2020-07-15 一种低资源下利用迁移学习进行情感语音合成的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010681019.2A CN111951778B (zh) 2020-07-15 2020-07-15 一种低资源下利用迁移学习进行情感语音合成的方法

Publications (2)

Publication Number Publication Date
CN111951778A true CN111951778A (zh) 2020-11-17
CN111951778B CN111951778B (zh) 2023-10-17

Family

ID=73341820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010681019.2A Active CN111951778B (zh) 2020-07-15 2020-07-15 一种低资源下利用迁移学习进行情感语音合成的方法

Country Status (1)

Country Link
CN (1) CN111951778B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562634A (zh) * 2020-12-02 2021-03-26 平安科技(深圳)有限公司 多风格音频合成方法、装置、设备及存储介质
CN114023300A (zh) * 2021-11-03 2022-02-08 四川大学 一种基于扩散概率模型的中文语音合成方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107221344A (zh) * 2017-04-07 2017-09-29 南京邮电大学 一种语音情感迁移方法
CN108597539A (zh) * 2018-02-09 2018-09-28 桂林电子科技大学 基于参数迁移和语谱图的语音情感识别方法
JP2018180459A (ja) * 2017-04-21 2018-11-15 株式会社日立超エル・エス・アイ・システムズ 音声合成システム、音声合成方法、及び音声合成プログラム
CN110148398A (zh) * 2019-05-16 2019-08-20 平安科技(深圳)有限公司 语音合成模型的训练方法、装置、设备及存储介质
WO2019222591A1 (en) * 2018-05-17 2019-11-21 Google Llc Synthesis of speech from text in a voice of a target speaker using neural networks
CN111210803A (zh) * 2020-04-21 2020-05-29 南京硅基智能科技有限公司 一种基于Bottleneck特征训练克隆音色及韵律的系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107221344A (zh) * 2017-04-07 2017-09-29 南京邮电大学 一种语音情感迁移方法
JP2018180459A (ja) * 2017-04-21 2018-11-15 株式会社日立超エル・エス・アイ・システムズ 音声合成システム、音声合成方法、及び音声合成プログラム
CN108597539A (zh) * 2018-02-09 2018-09-28 桂林电子科技大学 基于参数迁移和语谱图的语音情感识别方法
WO2019222591A1 (en) * 2018-05-17 2019-11-21 Google Llc Synthesis of speech from text in a voice of a target speaker using neural networks
CN110148398A (zh) * 2019-05-16 2019-08-20 平安科技(深圳)有限公司 语音合成模型的训练方法、装置、设备及存储介质
CN111210803A (zh) * 2020-04-21 2020-05-29 南京硅基智能科技有限公司 一种基于Bottleneck特征训练克隆音色及韵律的系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TITS N ET AL.: "《Exploring Transfer Learning for Low Resource Emotional TTS》", 《 INTELLIGENT SYSTEMS AND APPLICATIONS》, vol. 1037 *
张亚强: "《基于迁移学习和自学习情感表征的情感语音合成》", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 08 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562634A (zh) * 2020-12-02 2021-03-26 平安科技(深圳)有限公司 多风格音频合成方法、装置、设备及存储介质
CN112562634B (zh) * 2020-12-02 2024-05-10 平安科技(深圳)有限公司 多风格音频合成方法、装置、设备及存储介质
CN114023300A (zh) * 2021-11-03 2022-02-08 四川大学 一种基于扩散概率模型的中文语音合成方法

Also Published As

Publication number Publication date
CN111951778B (zh) 2023-10-17

Similar Documents

Publication Publication Date Title
CN110097894B (zh) 一种端到端的语音情感识别的方法和系统
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及系统
CN112017644B (zh) 一种声音变换系统、方法及应用
CN106228977B (zh) 基于深度学习的多模态融合的歌曲情感识别方法
CN110634491B (zh) 语音信号中针对通用语音任务的串联特征提取系统及方法
CN112184858B (zh) 基于文本的虚拟对象动画生成方法及装置、存储介质、终端
CN108717856A (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN108492817A (zh) 一种基于虚拟偶像的歌曲数据处理方法及演唱交互系统
CN103544963A (zh) 一种基于核半监督判别分析的语音情感识别方法
CN102568476B (zh) 基于自组织特征映射网络聚类和径向基网络的语音转换法
CN104217713A (zh) 汉藏双语语音合成方法及装置
Chen et al. Learning multi-scale features for speech emotion recognition with connection attention mechanism
CN111951778B (zh) 一种低资源下利用迁移学习进行情感语音合成的方法
CN112183109B (zh) 基于mass的诗句生成信息隐写方法
Wang et al. One-shot voice conversion using star-gan
CN112184859A (zh) 端到端的虚拟对象动画生成方法及装置、存储介质、终端
CN115455136A (zh) 智能数字人营销交互方法、装置、计算机设备及存储介质
CN106531192A (zh) 基于冗余特征和多词典表示的语音情感识别方法及系统
CN111090726A (zh) 一种基于nlp的电力行业文字客服交互方法
Xiao et al. Recognition of emotions in speech by a hierarchical approach
Jin et al. Speech separation and emotion recognition for multi-speaker scenarios
Shahid et al. Generative emotional ai for speech emotion recognition: The case for synthetic emotional speech augmentation
CN114626424B (zh) 一种基于数据增强的无声语音识别方法及装置
Li et al. Research on speech emotion recognition based on deep neural network
CN116129868A (zh) 一种结构化画本的生成方法和生成系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant