CN111883102B - 一种双层自回归解码的序列到序列语音合成方法及系统 - Google Patents

一种双层自回归解码的序列到序列语音合成方法及系统 Download PDF

Info

Publication number
CN111883102B
CN111883102B CN202010672991.3A CN202010672991A CN111883102B CN 111883102 B CN111883102 B CN 111883102B CN 202010672991 A CN202010672991 A CN 202010672991A CN 111883102 B CN111883102 B CN 111883102B
Authority
CN
China
Prior art keywords
phoneme
level
frame
acoustic
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010672991.3A
Other languages
English (en)
Other versions
CN111883102A (zh
Inventor
周骁
凌震华
戴礼荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202010672991.3A priority Critical patent/CN111883102B/zh
Publication of CN111883102A publication Critical patent/CN111883102A/zh
Application granted granted Critical
Publication of CN111883102B publication Critical patent/CN111883102B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提出一种双层自回归解码的序列到序列语音合成方法及系统,系统包括编码器和解码器,所述解码器包括:音素级表征模块、音素级预测模块、帧级预测模块;所述编码器将音素名、音调和韵律短语边界信息用向量表征,然后使用卷积神经网络和双向长短时记忆网络将这些信息编码融合得到句子中每个音素的上下文单元表征;所述音素级表征模块,通过帧一级的长短时记忆网络(LSTM)和池化处理获得每个音素单元的声学单元表征;所述音素级预测模块,采用音素级自回归结构来预测当前音素的声学单元表征并建立连续音素之间的依赖关系;所述帧级预测模块,通过解码器LSTM来预测帧级的声学特征。

Description

一种双层自回归解码的序列到序列语音合成方法及系统
技术领域
本发明属于语音信号处理领域,具体涉及一种双层自回归解码的序列到序列语音合成方法及系统。
背景技术
语音合成(speech synthesis)旨在使机器像人类一样流畅自然地说话,它使许多语音交互应用受益,例如智能个人助理和机器人。当前,统计参数语音合成(statisticalparametric speech synthesis,SPSS)是其中一种主流的方法。
统计参数语音合成利用声学模型来建模文本特征和声学特征之间的关系,并利用声码器(vocoder)在给定预测声学特征的情况下得到语音波形。尽管这种方法可以产生清晰的声音,但由于声学模型和声码器的局限性,合成语音的质量始终会有所下降。最近,Wang和Shen等人提出了基于神经网络的序列到序列(sequence-to-sequence)语音合成声学模型,并证明了直接从文本中预测梅尔谱的出色性能。它解决了传统SPSS方法的诸多不足,例如需要大量领域内的专业知识、SPSS每个模块独立训练导致可能出现的累计误差等。这种序列到序列的语音合成方法对人工参与的依赖度低,只需要在配对的文本和语音上进行训练。
但是由于序列到序列语音合成方法将声学模型与时长模型统一在一个模型之内,并且由于Tacotron模型的加性注意力机制(additive attention)不够鲁棒,这可能会导致预测的声学特征出现一些错误,尤其是在输入复杂的域外文本时更是如此。为了缓解这个问题,人们对注意力机制提出了一些改进,例如前向注意力,逐步单调注意力(SMA)和位置相对注意力等机制。其中前向注意力机制提出了一种在每步解码时仅考虑满足单调条件的对齐路径;逐步单调注意力机制(stepwise monotonic attention,SMA)进一步限制了对齐的路径并且解决了注意力坍塌的问题。不过这些方法始终是在帧层面进行自回归的,不具有长时建模声学特征从而让模型自然地获得鲁棒性的能力。
目前基于神经网络的序列到序列语音合成方法都是基于帧级自回归解码结构进行设计的,存在长时相关性建模能力的不足,此外模型所采用的注意力机制的鲁棒性也不够理想,在合成复杂文本时存在重复、漏读、无法停止等合成语音错误。
发明内容
为了解决上述问题,本发明提出了一种双层自回归解码的序列到序列语音合成方法及系统。该系统的解码器使用音素和帧两级自回归结构进行声学特征序列的预测,同时利用训练数据中明确的音素边界信息以及通过可解释的音素转移概率,代替传统模型中的注意力机制,来实现声学特征序列与文本特征序列间的对齐。本发明提出的模型在保证合成语音自然度的前提下,可以有效减少声学特征预测错误,提高语音合成的鲁棒性。本发明综合利用神经网络、统计参数语音合成两个技术领域的特性,针对合成文本的鲁棒性不足,采用预测音素间转移概率的方法去取代注意力机制;针对只在帧层面进行的自回归难以建模特征间长时依赖性的问题,引入了音素级的自回归方法并重新设计了解码器。
本发明的技术方案如下:一种双层自回归解码的序列到序列语音合成系统,包括编码器和解码器,所述解码器包括:音素级表征模块、音素级预测模块、帧级预测模块;
所述编码器输入是一个句子中音素的语言表征,即将音素名、音调和韵律短语边界信息用向量表征,然后使用卷积神经网络和双向长短时记忆网络将这些信息编码融合得到句子中每个音素的上下文单元表征;
所述音素级表征模块,输入是一个音素内帧级的声学特征,通过帧一级的长短时记忆网络(即LSTM)和池化处理获得每个音素单元的声学单元表征;
所述音素级预测模块,输入是历史所有音素的声学单元表征以及当前音素的上下文单元表征,音素级预测模块采用音素级自回归结构来预测当前音素的声学单元表征并建立连续音素之间的依赖关系;
所述帧级预测模块,其输入有两部分,一部分是音素级预测模块预测出的当前单元的声学单元表征,另一部分是音素级表征模块中作用在帧一级LSTM的隐藏状态;最终通过解码器LSTM来预测帧级的声学特征。
根据本发明的另一方面,提出一种双层自回归解码的序列到序列语音合成方法,包括如下步骤:
步骤1:语言表征编码,利用编码器,将待合成音素序列对应的语言表征转换为上下文单元表征;
步骤2:声学特征预测,利用解码器,从步骤1中得到上下文单元表征中预测文本对应的梅尔谱特征,具体包括几个子步骤:
步骤2.1:音素级表征生成,通过音素表征模块将音素内帧级的声学特征编码为该音素的声学单元表征;
步骤2.2:音素级表征预测,利用步骤2.1得到的历史音素的声学单元表征和当前音素的上下文单元表征,预测当前音素的声学单元表征;
步骤2.3:帧级特征预测,利用步骤2.2预测的当前音素的声学单元表征以及当前帧的声学特征,预测下一帧的声学特征。
进一步的,所述步骤1如下:
将长度为N的音素序列对应的语言表征序列输入编码器,通过三个1维的卷积神经网络和双向长短时记忆网络(bidirectional long short-term memory,BiLSTM)获得上下文单元表征序列
Figure BDA0002583011910000031
BiLSTM由一个前向LSTM和反向LSTM拼接而成,将BiLSTM沿着两个方向的隐藏状态向量连接起来以获得上下文单元表征序列H,其中对于第n个单元的上下文单元表征
Figure BDA0002583011910000032
函数concat表示向量拼接,
Figure BDA0002583011910000033
Figure BDA0002583011910000034
分别是前向和后向LSTM对应第n个单元的隐藏状态。
进一步的,所述步骤2.1包括:
音素级表征模块通过汇总一个音素中所有的帧级声学特征以获得其音素级的声学单元表征;在合成阶段,该音素级表征模块的输入是上一帧对应的预测梅尔谱;在训练阶段,输入是上一帧对应的自然梅尔谱;上一帧的梅尔谱首先经过全连接预处理网络,然后采用帧一级LSTM来建模音素中帧级声学特征序列间的依赖性;根据已知的音素边界在音素的开始帧位置重置LSTM状态;最后为了得到单元对应的定长的音素级声学单元表征
Figure BDA0002583011910000035
使用池化方法将LSTM得到的隐藏状态序列转换为声学单元表征向量
Figure BDA0002583011910000036
进一步的,所述步骤2.1中,在训练阶段,为了将上下文单元表征和声学单元表征联系起来,采用注意力机制来获得每个音素的声学单元表征的识别概率,进而计算音素识别损失;假设一句话包含N个音素,在这里对于第n个音素,询问值(Query)是声学单元表征
Figure BDA0002583011910000037
键值(Keys)是上下文单元表征序列
Figure BDA0002583011910000038
注意力机制中第n个键值对应的权重被用作第n个音素识别概率的估计值,训练阶段通过交叉熵函数将其与句中音素的独热编码进行比较,以得到音素识别损失。
进一步的,所述音素识别损失
Figure BDA0002583011910000039
的计算步骤如下:
第一步、将询问值
Figure BDA00025830119100000310
与上下文单元表征
Figure BDA00025830119100000311
拼接,再与矩阵
Figure BDA00025830119100000312
相乘,经tanh函数计算后再与向量
Figure BDA00025830119100000313
的转置进行点积运算得到每个键值对应的能量
Figure BDA00025830119100000314
第二步使用softmax函数将所有键值对应的能量e={e1,e2,…,eN}归一化得到键值对应的概率值α={α12,…,αN};
第三步通过计算多分类的交叉熵将当前第n个音素对应的概率值αn转换为音素识别损失
Figure BDA0002583011910000041
其中向量va和矩阵Wa是待训练的模型参数,D是单元表征的维度,h是注意力机制中隐层的维度,
Figure BDA0002583011910000042
代表实数域空间,concat代表向量拼接的函数。
Figure BDA0002583011910000043
Figure BDA0002583011910000044
Figure BDA0002583011910000045
进一步的,所述步骤2.2包括所述音素级预测模块采用音素级自回归结构来预测当前的声学单元表征并描述连续音素间的依赖性,该音素级预测模块包括音素一级LSTM和循环预测器gc,其中音素一级LSTM将历史音素单元的声学单元表征
Figure BDA0002583011910000046
转换为声学历史向量
Figure BDA0002583011910000047
采用如下公式:
Figure BDA0002583011910000048
其中,
Figure BDA0002583011910000049
被设置为零向量;循环预测器gc是一个全连接网络,它的输入是声学历史向量
Figure BDA00025830119100000410
和当前音素的上下文单元表征
Figure BDA00025830119100000411
它的输出是当前音素的预测的声学单元表征
Figure BDA00025830119100000412
采用如下公式:
Figure BDA00025830119100000413
之后再将预测的声学单元表征上采样到帧级送至下一个帧级预测模块;
为了保证构成音素级的自回归结构,在训练阶段,需要计算一致性损失函数,定义为预测的声学单元表征
Figure BDA00025830119100000414
与真实的声学单元表征
Figure BDA00025830119100000415
之间的均方误差。
进一步的,所述帧级预测模块通过解码器LSTM预测帧级声学特征;该帧级预测模块的输入有两部分组成,一个是由音素级预测模块预测出的当前音素的声学单元表征
Figure BDA00025830119100000416
另一个是音素级表征模块中帧一级LSTM在当前帧上对应的隐藏状态;这两个部分拼接之后进入解码器LSTM,其隐藏状态经一个全连接预测当前帧的梅尔谱,待预测完毕后使用后处理网络生成残差以细化预测的梅尔谱;在训练网络时,需要计算梅尔谱的重构误差损失;定义为经过后处理网络前后的预测梅尔谱与自然梅尔谱之间的均方误差的和;
解码器LSTM的隐藏状态再经另一个全连接,通过注意力机制去预测描述当前帧属于下一音素首帧的可能性,即该帧的转移概率;使用一个基于注意力机制的模块计算转移概率,若当前帧属于第n个音素,注意力机制的键值(Key)是当前音素和下一音素的上下文单元表征
Figure BDA00025830119100000417
Figure BDA00025830119100000418
询问值(Query)是解码器当前帧LSTM隐藏状态的线性变换;利用
Figure BDA00025830119100000419
对应的注意力权重作为转移概率。
进一步的,在训练阶段除了需要梅尔谱和语义表征序列之外,也需要语料库中的音素边界作为输入,通过基于HMM的强制对齐来获得;为了隐式建模时长,在训练时需要计算转移损失,它定义为预测的转移概率与由音素边界确定的真实转移概率之间的交叉熵;考虑到跳转帧和非跳转帧之间数量的不平衡,采用加权策略来增强跳转帧在转移损失中的影响。
进一步的,计算此转移损失
Figure BDA0002583011910000051
的步骤如下:
第一步将询问值
Figure BDA0002583011910000052
与上下文单元表征
Figure BDA0002583011910000053
拼接,再与矩阵
Figure BDA0002583011910000054
相乘,经tanh函数计算后再与向量
Figure BDA0002583011910000055
的转置进行点积运算得到非跳转帧对应的能量
Figure BDA0002583011910000056
ej的计算使用上下文单元表征
Figure BDA0002583011910000057
其余与es的计算相同;
第二步使用softmax函数将两个键值对应的能量e={es,ej}归一化得到键值的概率值α={αsj};
第三步通过计算交叉熵将其与句中由音素边界确定的真实转移概率y={ys,yj}(对于跳转帧{ys=0,yj=1},对于非跳转帧{ys=1,yj=0})进行比较,以得到音素识别损失
Figure BDA0002583011910000058
其中vb、Wb是待训练的模型参数,D是单元表征的维度,h是注意力机制中隐层的维度,
Figure BDA0002583011910000059
代表实数域空间,concat代表向量拼接的函数。
Figure BDA00025830119100000510
Figure BDA00025830119100000511
Figure BDA00025830119100000512
Figure BDA00025830119100000513
有益效果
本发明的优点在于:
第一,在解码器中使用音素和帧两级自回归结构进行声学特征序列的预测,以更好建模声学与文本特征间的长时依赖关系;
第二,利用训练数据中明确的音素边界信息并预测可解释的音素转移概率,代替传统模型中的注意力机制,来实现声学特征序列与文本特征序列间的对齐。实验结果表明,该模型与传统序列到序列语音合成方法相比,在保证合成语音自然度的前提下,有效减少了声学特征预测错误,提高了语音合成的鲁棒性。
综上,传统的基于注意力机制的序列到序列神经网络缺乏鲁棒性,对复杂的文本易合成出错,另外它们基于帧级自回归模型预测声学特征,对于特征间长时依赖关系的建模能力不足。本发明提出的双层自回归解码的序列到序列语音合成方法能在帧级和音素级两个层面建立自回归模型,可更充分的挖掘文本至语音间的映射关系,提高语音合成的鲁棒性。
附图说明
图1:本发明的一种双层自回归解码的序列到序列语音合成方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
根据本发明的一个实施例,提出一种一种双层自回归解码的序列到序列语音合成系统,包括编码器和解码器。所述编码器结构与Tacotraon2模型相同,其解码器又包括音素级表征、音素级预测、帧级预测三个模块。另外,总共四个损失函数被提出用于指导模型训练。
1.编码器模块。该模块的输入是一个句子中音素的语言表征,即将音素名、音调和韵律短语边界信息用向量表征,然后使用卷积神经网络(convolutional neural network,CNNs)和双向长短时记忆网络(bidirectional long short-term memory,BiLSTM)将这些信息编码融合得到句子中每个音素的上下文单元表征。
2.音素级表征模块。这个模块的输入是一个音素内帧级的声学特征,通过帧一级的长短时记忆网络(long short-term memory,LSTM)和池化处理获得每个音素单元的声学单元表征。
3.音素级预测模块。这个模块的输入是历史所有音素的声学单元表征以及当前音素的上下文单元表征,此模块采用音素级自回归结构来预测当前音素的声学单元表征并建立连续音素之间的依赖关系。
4.帧级预测模块。这个模块的输入有两部分,一个是音素级预测模块预测出的当前单元的声学单元表征,另一个是音素级表征模块中作用在帧一级的LSTM的隐藏状态。最终通过解码器LSTM来预测帧级的声学特征。
5.该模型在训练阶段总共使用了四个损失函数。1)重构误差,用于计算预测的梅尔谱和自然梅尔谱之间的差异;2)转移损失,通过建模帧对应音素的转移概率对音素时长进行隐式建模;3)一致性损失,用于构成音素级的自回归结构;4)音素识别损失,用来约束声学单元表征和上下文单元表征之间的差异。
到此为止,多模块协同的语音合成神经网络结构已搭建完毕。通过随机梯度算法或者其改进算法,比如SGD,Adam,AdaDelta等,最小化神经网络模型在训练集的损失函数的加权和来进行神经网络参数的训练。
最后,在合成阶段,测试文本的上下文特征序列输入至已经训练好的上述训练好的模型预测梅尔谱,再通过声码器重构语音波形。
根据本发明的一个实施例,如图1,编码器的输入是句子的音素序列对应的语言表征,对于第n个单元其文本语义经过编码器编码后输出上下文单元表征
Figure BDA0002583011910000071
解码器的音素级表征模块的输入是第n个单元其音素内所有的帧级声学特征,输出是声学单元表征
Figure BDA0002583011910000072
解码器的音素级预测模块的输入是两部分,一个是当前音素的上下文单元表征
Figure BDA0002583011910000073
另一个是历史音素对应的声学单元表征
Figure BDA0002583011910000074
输出是当前音素的预测的声学单元表征
Figure BDA0002583011910000075
解码器的帧级预测模块输入是两部分,一个是当前音素的预测的声学单元表征
Figure BDA0002583011910000076
另一个是解码器中音素级表征模块内的帧级特征,输出是相应文本对应的梅尔谱。
根据本发明的一个实施例,编码器模块具体为:
为了更好的利用上下文信息,本发明将长度为N的音素序列对应的语言表征序列输入编码器,通过三个1维的卷积神经网络和双向长短时记忆网络(bidirectional longshort-termmemory,BiLSTM)获得上下文单元表征序列
Figure BDA0002583011910000077
由于BiLSTM由一个前向LSTM和反向LSTM拼接而成,将BiLSTM沿着两个方向的隐藏状态向量连接起来以获得上下文单元表征序列H,其中对于第n个单元的上下文单元表征
Figure BDA0002583011910000078
函数concat表示向量拼接,
Figure BDA0002583011910000079
Figure BDA00025830119100000710
分别是前向和后向LSTM对应第n个单元的隐藏状态。
进一步的,所述的音素级表征模块通过汇总一个音素中所有的帧级声学特征以获得其音素级的声学单元表征。在合成阶段,该音素级表征模块的输入是上一帧对应的预测梅尔谱;在训练阶段,输入是上一帧对应的自然梅尔谱。上一帧的梅尔谱首先经过全连接预处理网络,然后采用帧一级LSTM来建模音素中帧级声学特征序列间的依赖性。为了只考虑音素内的帧序列而忽略相邻音素的影响,本发明根据已知的音素边界在音素的开始帧位置重置LSTM状态。最后为了得到单元对应的定长的音素级声学单元表征
Figure BDA00025830119100000711
使用通用池化方法将LSTM得到的隐藏状态序列转换为声学单元表征向量
Figure BDA00025830119100000712
在训练阶段,为了将上下文单元表征和声学单元表征联系起来,这里采用注意力机制来获得每个音素的声学单元表征的识别概率,进而计算音素识别损失
Figure BDA00025830119100000713
假设一句话包含N个音素,在这里对于第n个音素,询问值(Query)是声学单元表征
Figure BDA0002583011910000081
键值(Keys)是上下文单元表征序列
Figure BDA0002583011910000082
注意力机制中第n个键值对应的权重被用作第n个音素的识别概率的估计值。训练阶段通过交叉熵函数将其与句中音素的独热编码进行比较,以得到音素识别损失
Figure BDA0002583011910000083
音素识别损失有助于限制两种单元表征的空间,可以让声学单元表征融入更多偏文本方面的信息,有助于减小发音的错误。计算此音素识别损失
Figure BDA0002583011910000084
损失的步骤如下:
第一步将询问值
Figure BDA0002583011910000085
与上下文单元表征
Figure BDA0002583011910000086
拼接,再与矩阵
Figure BDA0002583011910000087
相乘,经tanh函数计算后再与向量
Figure BDA0002583011910000088
的转置进行点积运算得到每个键值对应的能量
Figure BDA0002583011910000089
第二步使用softmax函数将所有键值对应的能量e={e1,e2,…,eN}归一化得到键值对应的概率值α={α12,…,αN};
第三步通过计算多分类的交叉熵将当前第n个音素对应的概率值αn转换为音素识别损失
Figure BDA00025830119100000810
其中向量va和矩阵Wa是待训练的模型参数,D是单元表征的维度,h是注意力机制中隐层的维度,
Figure BDA00025830119100000811
代表实数域空间,concat代表向量拼接的函数。
Figure BDA00025830119100000812
Figure BDA00025830119100000813
Figure BDA00025830119100000814
由于音素级表征模块中的帧一级LSTM的状态在音素边界处被截断,因此解码当前音素时无法使用先前的音素信息。此外,音素级表征模块在其所有帧都已解码之前无法输出其音素级的声学单元表征。
为了解决这些问题,所述音素级预测模块采用音素级自回归结构来预测当前的声学单元表征并描述连续音素间的依赖性。该音素级预测模块由音素一级LSTM和循环预测器gc组成。其中音素一级LSTM将历史音素单元的声学单元表征
Figure BDA00025830119100000815
转换为声学历史向量
Figure BDA00025830119100000816
采用如下公式:
Figure BDA00025830119100000817
其中,
Figure BDA00025830119100000818
被设置为零向量。循环预测器gc是一个全连接网络,它的输入是声学历史向量
Figure BDA00025830119100000819
和当前音素的上下文单元表征
Figure BDA00025830119100000820
它的输出是当前音素的预测的声学单元表征,采用如下公式:
Figure BDA00025830119100000821
之后再将预测的声学单元表征上采样到帧级送至下一个帧级预测模块。
为了保证构成音素级的自回归结构,在训练阶段,这里需要计算一致性损失
Figure BDA00025830119100000822
以保证构成音素级的自回归结构,定义为预测的声学单元表征
Figure BDA0002583011910000091
与真实的声学单元表征
Figure BDA0002583011910000092
之间的均方误差。通过这个损失函数,本发明能将预测的声学单元表征估计的尽可能与真实一致。一致性损失可使用如下公式计算,其中i代表
Figure BDA0002583011910000093
的维度,
Figure BDA0002583011910000094
代表
Figure BDA0002583011910000095
第i维的数值,对于
Figure BDA0002583011910000096
同理。其中D是单元表征的维度,MSE代表计算均方误差的函数。
Figure BDA0002583011910000097
所述帧级预测模块通过解码器LSTM预测帧级声学特征。该帧级预测模块的输入有两部分组成,一个是由音素级预测模块预测出的当前音素的声学单元表征
Figure BDA0002583011910000098
另一个是音素级表征模块中帧一级LSTM在当前帧上对应的隐藏状态。这两个部分拼接之后进入解码器LSTM,其隐藏状态经一个全连接预测当前帧的梅尔谱,待预测完毕后得到初步梅尔谱specpre,使用后处理网络生成残差以细化预测的梅尔谱得到精细梅尔谱specpost。在训练网络时,这里需要计算梅尔谱的重构误差损失
Figure BDA0002583011910000099
重构误差损失定义为经过后处理网络前后的预测梅尔谱与自然梅尔谱specnat之间的均方误差的和,即
Figure BDA00025830119100000910
Figure BDA00025830119100000911
它的目的是让预测的梅尔谱更加逼近真实梅尔谱,有助于得到质量更高的语音。
解码器LSTM的隐藏状态再经另一个全连接,通过注意力机制去预测描述当前帧属于下一音素首帧的可能性,即该帧的转移概率。本发明使用一个基于注意力机制的模块去计算转移概率,若当前帧属于第n个音素,注意力机制的键值(Keys)是当前音素和下一音素的上下文单元表征
Figure BDA00025830119100000912
Figure BDA00025830119100000913
询问值q(Query)是解码器当前帧LSTM隐藏状态的线性变换。这里使用注意力机制的目的不是获得键值的加权和,而是利用
Figure BDA00025830119100000914
对应的权重作为转移概率。在训练阶段除了需要梅尔谱和语义表征序列之外,也需要语料库中的音素边界作为输入,这可以通过基于隐马尔可夫(Hidden Markov Model,HMM)的强制对齐来获得。为了隐式建模时长,在训练时需要计算转移损失
Figure BDA00025830119100000915
它定义为预测的转移概率与由音素边界确定的真实转移概率之间的交叉熵。转移损失通过隐式建模时长有助于得到更加真实的语音时长,让合成语音的韵律更加自然。计算此转移损失
Figure BDA00025830119100000916
的步骤如下:
第一步将询问值
Figure BDA00025830119100000917
与上下文单元表征
Figure BDA00025830119100000918
拼接,再与矩阵
Figure BDA00025830119100000919
相乘,经tanh函数计算后再与向量
Figure BDA00025830119100000920
的转置进行点积运算得到非跳转帧对应的能量
Figure BDA00025830119100000921
ej的计算使用上下文单元表征
Figure BDA00025830119100000922
其余与es的计算相同;
第二步使用softmax函数将两个键值对应的能量e={es,ej}归一化得到键值的概率值α={αsj};
第三步通过计算交叉熵将其与句中由音素边界确定的真实转移概率y={ys,yj}(对于跳转帧{ys=0,yj=1},对于非跳转帧{ys=1,yj=0})进行比较,以得到音素识别损失
Figure BDA0002583011910000101
其中vb、Wb是待训练的模型参数,D是单元表征的维度,h是注意力机制中隐层的维度,
Figure BDA0002583011910000102
代表实数域空间,concat代表向量拼接的函数。
Figure BDA0002583011910000103
Figure BDA0002583011910000104
Figure BDA0002583011910000105
Figure BDA0002583011910000106
考虑到跳转帧和非跳转帧之间数量的不平衡,采用了加权策略来增强跳转帧在转移损失中的影响。即
Figure BDA0002583011910000107
修正为-ys log(αs)-ω*yj log(αj),其中ω是手动设置的为了增强跳转帧影响的权重。
根据本发明的一个实施例,损失函数为:
1)重构误差
Figure BDA0002583011910000108
用于计算预测的梅尔谱和自然梅尔谱之间的差异;
2)转移损失
Figure BDA0002583011910000109
通过建模帧对应音素的转移概率对音素时长进行隐式建模;
3)一致性损失
Figure BDA00025830119100001010
用于构成音素级的自回归结构;
4)音素识别损失
Figure BDA00025830119100001011
用来约束声学单元表征和上下文单元表征之间的差异。
整个神经网络模型采用端到端的方式进行参数训练,训练的目标是在训练集上最小化以上介绍的四个损失函数的加权和。
根据本发明的一个实施例,合成过程为:建立该模型后,其合成过程与其他序列到序列语音合成方法基本相同。区别在于该模型的解码过程中没有基于注意力机制的对齐方式,而是基于转移概率实现音素时长的预测。在生成某帧对应梅尔谱的过程中,一旦其在帧级预测模块中的转移概率超过0.5这个阈值,解码器将重置音素级表征模块中的帧一级LSTM状态,然后开始解码下一个音素。
为了验证本发明所提出方法的有效性,设计了如下实验。
(1)实验设置
本文使用的是中文新闻女声音库,包含12319句话,约17.51小时。这12319句话被分成了训练、验证和领域内测试三个数据集,每个数据集分别含有11608、611和100句话。训练集用于训练提出的模型,验证集用于调整超参数,领域内测试集用于测试该模型的自然度。我们还在337句的领域外测试集上评估了该模型的鲁棒性,包括中国古典诗词、小说、导航文本以及数字串等。语音自然度和鲁棒性作为最终的评价指标。训练模型时80维的梅尔谱被用作声学特征,帧长为64ms,帧移为15ms。并且我们采用音素序列而不是直接使用汉字序列作为模型输入。输入该模型的音素序列类型包括音素、音调和韵律短语边界。模型使用PyTorch实现,Adam参数优化器优化,在训练集上进行200轮训练,训练一次的批处理大小为80。初始学习率为10-3,然后学习速率指数每10轮衰减0.9倍。
(2)实验结果
关于不同模型鲁棒性的实验结果如表1和表2所示。基准模型是基于两种注意力机制的序列到序列语音合成方法,分别是基于加性注意力机制的Tacotron2_org和基于单调注意力机制的Tacotron2_SMA。对于领域类句子,重点考察的是句子停止符预测错误的次数以及合成语音音调、频谱和韵律不合适的次数。对于领域外的句子,重点考察的是句子停止符预测错误的次数以及重复、漏读和模型注意力坍塌的次数。
表1:不同模型对于领域内测试句的合成错误次数
停止符预测错误 不正确的音调 频谱噪音 不合适的韵律
Tacotron2_org 3 20 82 52
Tacotron2_SMA 0 29 55 27
UniNet_SPSS 0 15 43 19
表2:不同模型对于领域外测试句的合成错误次数
停止符预测错误 重复 漏读 注意力坍塌
Tacotron2_org 1 2 4 4
Tacotron2_SMA 0 2 1 0
UniNet_SPSS 0 0 0 0
关于不同模型的测听结果见表3,其中基准模型是基于两种注意力机制的序列到序列语音合成方法Tacotron2_org和Tacotron2_SMA。通过表1、表2和表3的主观评估的结果表明:在基于序列到序列的语音合成方法上,与具有相似自然度的两个Tacotron2系统相比,我们提出的模型具有更好的鲁棒性。
表3:统计参数语音合成上不同模型在自然度上的倾向性测听
Tacotron2_org Tacotron2_SMA UniNet N/P p
39.55 - 39.09 21.36 0.95
- 39.09 37.88 23.03 0.80
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (7)

1.一种双层自回归解码的序列到序列语音合成方法,其特征在于,包括如下步骤:
步骤1:语言表征编码,利用编码器,将待合成音素序列对应的语言表征转换为上下文单元表征;
步骤2:声学特征预测,利用解码器,从步骤1中得到上下文单元表征中预测文本对应的梅尔谱特征,具体包括几个子步骤:
步骤2.1:音素级表征生成,通过音素表征模块将音素内帧级的声学特征编码为该音素的声学单元表征;
步骤2.2:音素级表征预测,利用步骤2.1得到的历史音素的声学单元表征和当前音素的上下文单元表征,预测当前音素的声学单元表征;
步骤2.3:帧级特征预测,利用步骤2.2预测的当前音素的声学单元表征以及当前帧的声学特征,预测下一帧的声学特征;
所述步骤1如下:
将长度为N的音素序列对应的语言表征序列输入编码器,通过三个1维的卷积神经网络和双向长短时记忆网络,即BiLSTM,获得上下文单元表征序列
Figure FDA0003907997200000011
BiLSTM由一个前向LSTM和反向LSTM拼接而成,将BiLSTM沿着两个方向的隐藏状态向量连接起来以获得上下文单元表征序列H,其中对于第n个单元的上下文单元表征
Figure FDA0003907997200000012
函数concat表示向量拼接,
Figure FDA0003907997200000013
Figure FDA0003907997200000014
分别是前向和后向LSTM对应第n个单元的隐藏状态;
所述步骤2.1包括:
音素级表征模块通过汇总一个音素中所有的帧级声学特征以获得其音素级的声学单元表征;在合成阶段,该音素级表征模块的输入是上一帧对应的预测梅尔谱;在训练阶段,输入是上一帧对应的自然梅尔谱;上一帧的梅尔谱首先经过全连接预处理网络,然后采用帧一级LSTM来建模音素中帧级声学特征序列间的依赖性;根据已知的音素边界在音素的开始帧位置重置LSTM状态;最后为了得到单元对应的定长的音素级声学单元表征
Figure FDA0003907997200000015
使用池化方法将LSTM得到的隐藏状态序列转换为声学单元表征向量
Figure FDA0003907997200000016
所述步骤2.2包括所述音素级预测模块采用音素级自回归结构来预测当前的声学单元表征并描述连续音素间的依赖性,该音素级预测模块包括音素一级LSTM和循环预测器gc,其中音素一级LSTM将历史音素单元的声学单元表征
Figure FDA0003907997200000021
转换为声学历史向量
Figure FDA0003907997200000022
采用如下公式:
Figure FDA0003907997200000023
其中,
Figure FDA0003907997200000024
被设置为零向量;循环预测器gc是一个全连接网络,它的输入是声学历史向量
Figure FDA0003907997200000025
和当前音素的上下文单元表征
Figure FDA0003907997200000026
它的输出是当前音素的预测的声学单元表征
Figure FDA0003907997200000027
采用如下公式:
Figure FDA0003907997200000028
之后再将预测的声学单元表征上采样到帧级送至下一个帧级预测模块;
为了保证构成音素级的自回归结构,在训练阶段,需要计算一致性损失函数,定义为预测的声学单元表征
Figure FDA0003907997200000029
与真实的声学单元表征
Figure FDA00039079972000000210
之间的均方误差。
2.根据权利要求1所述的一种双层自回归解码的序列到序列语音合成方法,其特征在于,所述步骤2.1中,在训练阶段,为了将上下文单元表征和声学单元表征联系起来,采用注意力机制来获得每个音素的声学单元表征的识别概率,进而计算音素识别损失;假设一句话包含N个音素,在这里对于第n个音素,询问值Query是声学单元表征
Figure FDA00039079972000000211
键值Keys是上下文单元表征序列
Figure FDA00039079972000000212
注意力机制中第n个键值对应的权重被用作第n个音素识别概率的估计值,训练阶段通过交叉熵函数将其与句中音素的独热编码进行比较,以得到音素识别损失。
3.根据权利要求2所述的一种双层自回归解码的序列到序列语音合成方法,其特征在于,所述音素识别损失
Figure FDA00039079972000000213
的计算步骤如下:
第一步、将询问值
Figure FDA00039079972000000214
与上下文单元表征
Figure FDA00039079972000000215
拼接,再与矩阵
Figure FDA00039079972000000216
相乘,经tanh函数计算后再与向量
Figure FDA00039079972000000217
的转置进行点积运算得到每个键值对应的能量
Figure FDA00039079972000000218
第二步使用softmax函数将所有键值对应的能量e={e1,e2,…,eN}归一化得到键值对应的概率值α={α12,…,αN};
第三步通过计算多分类的交叉熵将当前第n个音素对应的概率值αn转换为音素识别损失
Figure FDA00039079972000000219
其中向量va和矩阵Wa是待训练的模型参数,D是单元表征的维度,h是注意力机制中隐层的维度,
Figure FDA00039079972000000220
代表实数域空间,concat代表向量拼接的函数;
Figure FDA00039079972000000221
Figure FDA0003907997200000031
Figure FDA0003907997200000032
4.根据权利要求1所述的一种双层自回归解码的序列到序列语音合成方法,其特征在于,所述帧级预测模块通过解码器LSTM预测帧级声学特征;该帧级预测模块的输入有两部分组成,一个是由音素级预测模块预测出的当前音素的声学单元表征
Figure FDA0003907997200000033
另一个是音素级表征模块中帧一级LSTM在当前帧上对应的隐藏状态;这两个部分拼接之后进入解码器LSTM,其隐藏状态经一个全连接预测当前帧的梅尔谱,待预测完毕后使用后处理网络生成残差以细化预测的梅尔谱;在训练网络时,需要计算梅尔谱的重构误差损失;定义为经过后处理网络前后的预测梅尔谱与自然梅尔谱之间的均方误差的和;
解码器LSTM的隐藏状态再经另一个全连接,通过注意力机制去预测描述当前帧属于下一音素首帧的可能性,即该帧的转移概率;使用一个基于注意力机制的模块计算转移概率,若当前帧属于第n个音素,注意力机制的键值(Key)是当前音素和下一音素的上下文单元表征
Figure FDA0003907997200000034
Figure FDA0003907997200000035
询问值q(Query)是解码器当前帧LSTM隐藏状态的线性变换;利用
Figure FDA0003907997200000036
对应的注意力权重作为转移概率。
5.根据权利要求1所述的一种双层自回归解码的序列到序列语音合成方法,其特征在于,在训练阶段除了需要梅尔谱和语义表征序列之外,也需要语料库中的音素边界作为输入,通过基于HMM的强制对齐来获得;为了隐式建模时长,在训练时需要计算转移损失,它定义为预测的转移概率与由音素边界确定的真实转移概率之间的交叉熵;考虑到跳转帧和非跳转帧之间数量的不平衡,采用加权策略来增强跳转帧在转移损失中的影响。
6.根据权利要求5所述的一种双层自回归解码的序列到序列语音合成方法,其特征在于,计算转移损失
Figure FDA0003907997200000037
的步骤如下:
第一步将询问值
Figure FDA0003907997200000038
与上下文单元表征
Figure FDA0003907997200000039
拼接,再与矩阵
Figure FDA00039079972000000310
相乘,经tanh函数计算后再与向量
Figure FDA00039079972000000311
的转置进行点积运算得到非跳转帧对应的能量
Figure FDA00039079972000000312
Figure FDA00039079972000000313
ej的计算使用上下文单元表征
Figure FDA00039079972000000314
其余与es的计算相同;
第二步使用softmax函数将两个键值对应的能量e={es,ej}归一化得到键值的概率值α={αsj};
第三步通过计算交叉熵将概率值α与句中由音素边界确定的真实转移概率y={ys,yj}进行比较,其中,对于跳转帧{ys=0,yj=1},对于非跳转帧{ys=1,yj=0},以得到音素识别损失
Figure FDA0003907997200000041
其中vb、Wb是待训练的模型参数,D是单元表征的维度,h是注意力机制中隐层的维度,
Figure FDA0003907997200000042
代表实数域空间,concat代表向量拼接的函数;
Figure FDA0003907997200000043
Figure FDA0003907997200000044
Figure FDA0003907997200000045
Figure FDA0003907997200000046
7.一种使用权利要求1所述的一种双层自回归解码的序列到序列语音合成方法的双层自回归解码的序列到序列语音合成系统,其特征在于,包括编码器和解码器,所述解码器包括:音素级表征模块、音素级预测模块、帧级预测模块;
所述编码器输入是一个句子中音素的语言表征,即将音素名、音调和韵律短语边界信息用向量表征,然后使用卷积神经网络和双向长短时记忆网络将这些信息编码融合得到句子中每个音素的上下文单元表征;
所述音素级表征模块,输入是一个音素内帧级的声学特征,通过帧一级的长短时记忆网络,即LSTM,和池化处理获得每个音素单元的声学单元表征;
所述音素级预测模块,输入是历史所有音素的声学单元表征以及当前音素的上下文单元表征,音素级预测模块采用音素级自回归结构来预测当前音素的声学单元表征并建立连续音素之间的依赖关系;
所述帧级预测模块,其输入有两部分,一部分是音素级预测模块预测出的当前单元的声学单元表征,另一部分是音素级表征模块中作用在帧一级LSTM的隐藏状态;最终通过解码器LSTM来预测帧级的声学特征。
CN202010672991.3A 2020-07-14 2020-07-14 一种双层自回归解码的序列到序列语音合成方法及系统 Active CN111883102B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010672991.3A CN111883102B (zh) 2020-07-14 2020-07-14 一种双层自回归解码的序列到序列语音合成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010672991.3A CN111883102B (zh) 2020-07-14 2020-07-14 一种双层自回归解码的序列到序列语音合成方法及系统

Publications (2)

Publication Number Publication Date
CN111883102A CN111883102A (zh) 2020-11-03
CN111883102B true CN111883102B (zh) 2022-12-30

Family

ID=73150719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010672991.3A Active CN111883102B (zh) 2020-07-14 2020-07-14 一种双层自回归解码的序列到序列语音合成方法及系统

Country Status (1)

Country Link
CN (1) CN111883102B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634920B (zh) * 2020-12-18 2024-01-02 平安科技(深圳)有限公司 基于域分离的语音转换模型的训练方法及装置
CN112508121B (zh) * 2020-12-22 2024-03-22 南京大学 一种工业机器人感知外界的方法和系统
CN112802450B (zh) * 2021-01-05 2022-11-18 杭州一知智能科技有限公司 一种韵律可控的中英文混合的语音合成方法及其系统
CN112820279B (zh) * 2021-03-12 2024-02-09 深圳市臻络科技有限公司 基于语音上下文动态特征的帕金森检测模型构建方法
CN113345406B (zh) * 2021-05-19 2024-01-09 苏州奇梦者网络科技有限公司 神经网络声码器语音合成的方法、装置、设备以及介质
CN113488020B (zh) * 2021-07-02 2024-04-12 科大讯飞股份有限公司 语音合成方法和相关设备、装置、介质
CN113409759B (zh) * 2021-07-07 2023-04-07 浙江工业大学 一种端到端实时语音合成方法
CN113782007A (zh) * 2021-09-07 2021-12-10 上海企创信息科技有限公司 一种语音识别方法、装置、语音识别设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767755A (zh) * 2019-03-01 2019-05-17 广州多益网络股份有限公司 一种语音合成方法和系统
CN110534089A (zh) * 2019-07-10 2019-12-03 西安交通大学 一种基于音素和韵律结构的中文语音合成方法
US10573296B1 (en) * 2018-12-10 2020-02-25 Apprente Llc Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10896669B2 (en) * 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10573296B1 (en) * 2018-12-10 2020-02-25 Apprente Llc Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping
CN109767755A (zh) * 2019-03-01 2019-05-17 广州多益网络股份有限公司 一种语音合成方法和系统
CN110534089A (zh) * 2019-07-10 2019-12-03 西安交通大学 一种基于音素和韵律结构的中文语音合成方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于LPCNet的语音合成方法研究;陈小东等;《计算机与数字工程》;20200520(第05期);第156-160、239页 *
基于受限玻尔兹曼机的频谱建模与单元挑选语音合成方法;凌震华等;《模式识别与人工智能》;20150831;第673-679页 *
基于循环神经网络的中文语音合成研究与应用;应雨婷;《中国优秀硕士学位论文全文数据库(电子期刊)》;20200615;I136-199 *
混合单元选择语音合成系统的目标代价构建;蔡文彬等;《计算机工程与应用》;20181215(第24期);第25-30页 *

Also Published As

Publication number Publication date
CN111883102A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN111883102B (zh) 一种双层自回归解码的序列到序列语音合成方法及系统
EP3680894B1 (en) Real-time speech recognition method and apparatus based on truncated attention, device and computer-readable storage medium
Li et al. The speechtransformer for large-scale mandarin chinese speech recognition
CN110189749B (zh) 语音关键词自动识别方法
CN111739508B (zh) 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统
JP4274962B2 (ja) 音声認識システム
Mimura et al. Leveraging sequence-to-sequence speech synthesis for enhancing acoustic-to-word speech recognition
US8548808B2 (en) Speech understanding apparatus using multiple language models and multiple language understanding models
Wang et al. A Vector Quantized Variational Autoencoder (VQ-VAE) Autoregressive Neural $ F_0 $ Model for Statistical Parametric Speech Synthesis
Bai et al. Learn spelling from teachers: Transferring knowledge from language models to sequence-to-sequence speech recognition
Tyagi et al. Dynamic prosody generation for speech synthesis using linguistics-driven acoustic embedding selection
CN114023316A (zh) 基于TCN-Transformer-CTC的端到端中文语音识别方法
CN113506562B (zh) 基于声学特征与文本情感特征融合的端到端语音合成方法及系统
KR20230127293A (ko) 정보 합성 방법 및 장치, 전자 장치 및 컴퓨터 판독가능 저장 매체
CN114023300A (zh) 一种基于扩散概率模型的中文语音合成方法
Niwa et al. Statistical voice conversion based on WaveNet
CN113205792A (zh) 一种基于Transformer和WaveNet的蒙古语语音合成方法
JP4836076B2 (ja) 音声認識システム及びコンピュータプログラム
CN113450761A (zh) 一种基于变分自编码器的并行语音合成方法和装置
WO2022148176A1 (en) Method, device, and computer program product for english pronunciation assessment
Sawada et al. The nitech text-to-speech system for the blizzard challenge 2016
CN113539268A (zh) 一种端到端语音转文本罕见词优化方法
Milone et al. Prosodic and accentual information for automatic speech recognition
Joshi et al. Attention based end to end speech recognition for voice search in hindi and english
Chen et al. Unsupervised multi-scale expressive speaking style modeling with hierarchical context information for audiobook speech synthesis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant