CN113707127A - 一种基于线性自注意力的语音合成方法及系统 - Google Patents
一种基于线性自注意力的语音合成方法及系统 Download PDFInfo
- Publication number
- CN113707127A CN113707127A CN202111007669.XA CN202111007669A CN113707127A CN 113707127 A CN113707127 A CN 113707127A CN 202111007669 A CN202111007669 A CN 202111007669A CN 113707127 A CN113707127 A CN 113707127A
- Authority
- CN
- China
- Prior art keywords
- sequence
- neural network
- text
- attention
- linear
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001308 synthesis method Methods 0.000 title abstract description 12
- 238000013528 artificial neural network Methods 0.000 claims abstract description 117
- 238000001228 spectrum Methods 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 27
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 17
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 12
- 230000003321 amplification Effects 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims 2
- 238000002620 method output Methods 0.000 abstract 1
- 238000004590 computer program Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请涉及一种基于线性自注意力的语音合成方法和系统,所述方法包括:根据音频进行处理,获得对应文本的音素序列;根据所述音素序列通过神经网络编码器得到第一文本特征序列;所述神经网络编码器用于对所述音素序列进行线性自注意力计算和乘性位置编码以得到第一文本特征序列;根据所述第一文本特征序列通过时长预测模型扩增得到第二文本特征序列;根据所述第二文本特征序列通过神经网络解码器得到对应的梅尔谱特征序列;根据所述梅尔谱特征序列通过神经网络声码器得到转换后的语音。本申请以线性的时间、空间复杂度输出梅尔谱,输入神经网络声码器得到语音。该方法解决了传统并行语音合成声学模型时间、空间复杂度较高的问题。
Description
技术领域
本申请涉及语音合成(TTS)技术领域,具体而言,涉及一种基于线性自注意力的语音合成方法及系统。
背景技术
语音合成(TTS)是近些年来研究比较热门的课题,其为一种将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术,是语音信号处理中具有挑战性的研究问题之一。
一般来说,一个说话人的一段语音可以由三个因素组成,1)语言层面的句子结构,词汇选择;2)语音的韵律特征;3)语音的短时特征,例如频谱和共振峰。当语言层面固定时,韵律信息和短时因素是关系到说话人个性的相关因素。因而语音合成主要需要解决的问题为,从文本信息重建其他的所有信息。
虽然现实生活中语音合成系统有着广泛的应用,但是目前很多因素限制着语音合成在实际中的应用。例如,自回归语音合成模型需要的训练和推理时间较长,而基于注意力机制的并行语音合成模型的时间空间复杂度与序列长度程二次方关系。
发明内容
本申请的目的在于解决传统并行语音合成声学模型时间、空间复杂度较高的问题。
为实现上述目的,本申请提供了一种基于线性自注意力的语音合成方法及系统。
第一方面,本申请实施例提供的一种基于线性自注意力的语音合成方法,所述方法包括:根据音频进行处理,获得对应文本的音素序列;根据所述音素序列通过神经网络编码器得到第一文本特征,所述神经网络编码器用于对所述音素序列进行线性自注意力计算和乘性位置编码以得到第一文本特征序列;根据所述第一文本特征序列通过时长预测模型扩增得到第二文本特征序列;根据所述第二文本特征序列通过神经网络解码器解码得到对应的梅尔谱特征序列;根据所述梅尔谱特征通过神经网络声码器得到转换后的语音。
作为一种可以实现的实施方式,所述方法还包括:提取训练集中的音频的对数梅尔谱特征序列;所述音频为带有标注文本的语音信号;获取所述音频对应的文本的音素序列;基于所述音素序列和梅尔谱特征序列联合训练所述神经网络编码器、时长预测模型、神经网络解码器和/或神经网络声码器,得到训练好的所述神经网络编码器、时长预测模型、神经网络解码器和或神经网络声码器。
作为一种可以实现的实施方式,所述提取训练集中的音频的梅尔谱特征序列,包括,将所述训练集中的音频进行预加重和分帧处理;对分帧后所述音频的每一帧进行加窗和快速傅里叶变换,得到所述音频的频谱和能量谱;对所述音频的能量谱计算通过梅尔滤波器的能量,并取对数,得到所述音频的对数梅尔谱特征序列。
作为一种可以实现的实施方式,所述输入神经网络编码器至少包括嵌入层和第一全局自注意力神经网络;所述根据所述音素序列通过神经网络编码器得到第一文本特征序列,包括:将所述音素序列输入所述嵌入层,得到第一特征序列,所述第一特征序列的长度等于音素序列长度;将所述第一特征序列通过所述第一全局自注意力神经网络,得到所述第一文本特征序列。
作为一种可以实现的实施方式,所述全局自注意力神经网络至少包括第一线性自注意力模块;所述将所述第一特征序列通过所述全局自注意力神经网络,得到所述第一文本特征序列,包括:将所述第一特征序列经过线性自注意力模块,采用多头自注意力,对于每个头,先对所述第一特征序列进行线性投影,得到至少三个线性投影矩阵,然后对所述至少三个线性投影矩阵进行线性注意力操作,得到向量M,将所述向量M拼接并做线性投影,输出第二特征序列,所述第二特征序列的长度和所述音素序列的长度相同。
作为一种可以实现的实施方式,所述全局自注意力神经网络包括第一乘性位置编码模块,所述第一乘性位置编码模块用于对所述线性投影矩阵加入乘性位置信息得到第三特征序列。
作为一种可以实现的实施方式,所述全局自注意力神经网络包括第一前馈神经网络,所述第一前馈神经网络由两个线性投影组成,中间由修正线性单元作为激活函数进行连接,得到两个线性投影的权重矩阵,所述第一前馈神经网络输入为第三特征序列,输出为第一文本特征序列。
作为一种可以实现的实施方式,所述时长预测模型包括卷积结构,所述根据所述第一文本特征通过时长预测模型扩增得到第二文本特征,包括:通过对所述音素序列的每个音素的持续时长进行预测,并对所述第一文本特征序列进行扩增,得到得到所述第二文本特征序列;所述第二文本特征序列与所述梅尔谱序列长度相同。
第二方面,本申请实施例提供一种基于线性自注意力的语音合成系统,所述系统包括:信号处理模块,用于根据音频进行处理,获得对应文本的音素序列;神经网络编码器,用于根据所述音素序列得到第一文本特征;所述神经网络编码器包括线性自注意力模块和乘性位置编码模块;时长预测模型,用于根据所述第一文本特征扩增得到第二文本特征;神经网络解码器,用于根据所述第二文本特征得到对应的梅尔谱特征序列;所述神经网络解码器包括线性自注意力模块和乘性位置编码模块;神经网络声码器,用于根据所述梅尔谱特征得到转换后的语音。
第三方面,本申请实施例提供一种电子设备,包括存储器和处理器;所述处理器用于执行所述存储器所存储的计算机执行指令,所述处理器运行所述计算机执行指令执行上述任意一项所述方法。
第四方面,本申请实施例提供一种存储介质,包括可读存储介质和存储在所述可读存储介质中的计算机程序,所述计算机程序用于执行上述任意一项所述方法。
本申请提供一种基于线性自注意力的语音合成方法和系统。该方法以音素序列为输入,通过自注意力机制对特征间的依赖关系建模,以线性的时间、空间复杂度输出梅尔谱,输入神经网络声码器得到语音。该方法解决了传统并行语音合成声学模型时间、空间复杂度较高的问题。
本申请使用线性注意力机制,降低了并行语音合成声学模型的时间、空间复杂度。
附图说明
为了更清楚地说明本说明书披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种基于线性自注意力的语音合成系统的架构图;
图2为本申请本申请实施例提供的一种基于线性自注意力的语音合成方法的模型训练流程图;
图3为本申请本申请实施例提供的一种基于线性自注意力的语音合成方法的流程图;
图4为本申请本申请实施例提供的一种电子设备示意图。
具体实施方式
下面通过附图和实施例,对本申请的技术方案做进一步的详细描述。
本申请公开了一种基于端到端语音合成系统和方法,如图1所示,该系统包括:信号处理模块11、神经网络编码器12、时长预测模型13、神经网络解码器14和神经网络神经网络声码器15。
其中,信号处理模块11用于对待识别的音频进行进行处理,得到待转换音频的音素序列。
神经网络编码器12用于将音素序列编码为文本特征序列,记为第一文本特征。包括线性自注意力模块和乘性位置编码模块模块。
在一些可以实现的实施方式中,神经网络编码器12包括前端的嵌入层和后端的第一全局自注意力神经网络。
第一全局自注意力神经网络包括第一线性自注意力模块、第一乘性位置编码模块和第一前馈神经网络。
神经网络编码器12的输入是音素序列X=[x1,x2,…,xN],其中N为自然数,xN为第N个音素;神经网络编码器12的前端嵌入层根据输入的音素序列X,输出256维特征序列C1=[c1,c2,…,cT],其中T为自然数,cT为第T个特征元素;特征序列C的长度等于音素序列X的长度。神经网络编码器12的后端有4层全局自注意力神经网络,根据特征序列C输出256维特征序列H1=[h1,h2,…,ht],其中t为自然数,ht为第t个特征元素;特征序列H1的长度和全局自注意力神经网络输出的序列长度相同。
时长预测模型13用于对每个音素的持续时长进行预测,并对文本特征序列H1=[h1,h2,…,ht]进行扩增,得到特征序列C2=[c′1,c′2,…,c′t],使其与梅尔谱序列长度相同。
神经网络解码器14用于将经过扩增的文本特征序列C2=[c′1,c′2,…,c′t]转换为梅尔谱序列,包括线性自注意力模块和乘性位置解码模块。
神经网络解码器14包括4层全注意力神经网络和前向计算模块。输入256维特征序列C2=[c′1,c′2,…,c′t]。后端有4层全局自注意力神经网络,输出256维特征序列H2=[h′1,h′2,…,h′t],特征序列的长度和梅尔谱序列长度相同。
神经网络神经网络声码器15包括基于转置卷积神经网络、带有残差模块的卷积模块的生成器和基于卷积神经网络的判别器,将转换后的特征序列H2=[h′1,h′2,…,h′t]经过神经网络声码器15得到转换后的语音。
本申请公开了一种基于线性自注意力的语音合成方法,基于文本,生成目标说话人的谱特征,再利用谱特征经过神经网络声码器15生成转换后的语音,且模型的复杂度与语音长度程线性关系。方法包括:对文本进行处理,得对数梅尔谱特征序列和音素序列数据对;将音素序列经过包含线性自注意力模块和乘性位置编码模块的神经网络编码器12得到文本特征;利用音素序列,经过时长预测模型13得到扩增过的文本特征;将扩增过的文本特征经过包含线性自注意力模块和乘性位置编码模块的神经网络解码器14得到转换后的梅尔谱特征序列;将转换后的梅尔谱特征序列经过神经网络声码器15得到转换后的语音。
如图2所示,在执行本申请的方法之前首先建立带有标注的音频训练集,提取相应的梅尔谱特征,基于训练集训练语音合成系统的神经网络编码器12、时长预测模型13、神经网络解码器14和神经网络声码器15。
在一些可以实现的实施方式中,上述训练过程具体包括:
步骤101)对音频训练集中的音频进行预加重,提升高频部分;
步骤102)对预加重后音频进行分帧,示例性地,可以将预加重后音频分帧为每帧25毫秒,帧移10毫秒;
步骤103)对每一帧进行加窗,窗函数为汉明窗;
步骤104)对加窗后每一帧进行快速傅里叶变换得到每一帧对应的频谱,进一步得到每一帧的能量谱;
步骤105)对每一帧的能量谱计算通过梅尔滤波器的能量,并取对数,得到对数梅尔谱序列,示例性地,梅尔滤波器的个数可以为80,得到80维的对数梅尔谱特征序列。
步骤106)根据该音频对应的标注文本得到对应的音素序列,获得音素序列和对数梅尔谱特征序列的数据对。
根据音素序列和对应的对数梅尔谱特征序列,训练神经网络编码器12、时长预测模型13、神经网络解码器14和神经网络声码器15。
基于上述训练好的神经网络编码器12、时长预测模型13、神经网络解码器14和神经网络神经网络声码器15,执行本申请的方法,如图3所示,包括如下步骤:
S201,对该音频对应的标注文本进行处理,转换为音素序列,得到对应文本的音素序列X=[x1,x2,…,xN]。
S202,利用步骤S201得到的音素序列,经过包含线性自注意力模块和乘性位置编码模块的神经网络编码器12得到第一文本特征系列。
在一些可以实现的实施方式中,神经网络编码器12的输入是音素序列包括前端的嵌入层,和后端的4层第一全局自注意力神经网络;第一全局自注意力神经网络包括第一自注意力子层、第一乘性位置编码模块和第一前馈神经网络。神经网络编码器12输出的特征序列的长度和第一全局自注意力神经网络输出的序列长度相同。
在一些可以实现的实施方式中,将音素序列X=[x1,x2,…,xN]输入神经网络编码器12,经过前端的嵌入层,得到256维度的特征序列C1=[c1,c2,…,cT],记为第一特征序列;特征序列C1的长度等于音素序列X长度。后端的4层全局注意力神经网络,根据特征序列C1=[c1,c2,…,cT]输出为256维特征序列H1=[h1,h2,…,ht],特征序列H1=[h1,h2,…,ht]的长度和梅尔谱序列的长度相同。
在一些可以实现的实施方式中,第一全局注意力神经网络包括第一线性自注意力模块,第一线性自注意力模块采用多头自注意力,对于每个头,先对输入的256维特征序列H1=[h1,h2,…,ht]的矩阵进行线性投影,得到三个矩阵Q、K、V,然后对这三个矩阵进行线性注意力(linear attention)操作,得到向量M,将所有头的向量M拼接并做线性投影得到该子层的输出,拼接后的输出序列记为第二特征序列。向量M由下式计算:
在一些可以实现的实施方式中,第一全局注意力神经网络包括第一乘性位置编码模块,用于对Q、K矩阵进行乘性位置编码,加入乘性位置信息,输出第三特征序列。
定义q为维度为N*2的矩阵,qm=(qm,1,qm,2)为q中绝对位置为m的二维向量,对q中每个位置的二维向量做如下操作以加入乘性位置信息:
对Q、K矩阵中每相邻的两列都进行乘性位置编码操作以引入位置信息。示例性地,矩阵Q、K维度分别为N*256,对矩阵Q的第一、第二列,矩阵K的第一、第二列使用相同的θ1,对矩阵Q的第三、第四列,矩阵K的第三、第四列使用相同的θ2,以此类推,每个乘性位置编码模块有128个可学习的θ角,这128个可学习的θ角在训练中完成学习。
在一些可以实现的实施方式中,第一全局注意力神经网络包括第一前馈神经网络,前馈神经网络由两个线性投影组成,中间由修正线性单元作为激活函数进行连接,如下:
FFN(X)=max(XW1+b1,0)W2+b2 (3)
式(3)中FFN(·)为修正线性单元,W1、W2为两个线性投影的权重矩阵,维度分别为d×df和df×d;b1、b2为偏置向量。X为线性注意力层输出的特征,d为线性注意力层输出的特征的维度,df为前馈神经网络的隐层维度。最终的计算将输出的256维的第一文本特征序列H1=[h1,h2,…,ht]。
S203,根据音素序列,通过时长预测模型13对每个音素的持续时长进行预测,并对文本特征序列H1进行扩增,得到特征序列C2=[c′1,c′2,…,c′t],记为第二文本特征序列;使其与梅尔谱序列长度相同。该时长预测模型13包括卷积结构。
需要理解的是,编码器12输出的编码过的文本特征序列H1,其长度和音素序列长度相等,扩增就是直接复制,持续时长由语音中每个音素的实际持续长度得到。
在一些可以实现的实施方式中,步骤3)具体包括:根据神经网络编码器12得到的H1=[h1,h2,…,ht],经过一个包含卷积结构的时长预测模型13,得到每个音素的预测持续帧数,再根据时长扩增每个音素对应的文本特征序列,得到扩增过的文本特征矩阵C2=[c′1,c′2,…,c′t]。
S204,将步骤S203中提取的扩增过的文本特征序列C2=[c′1,c′2,…,c′t]经过神经网络解码器14解码得到转换后的梅尔谱特征序列。
在一些可以实现的实施方式中,步骤S204具体包括:根据步骤S203得到的经过扩增的文本特征矩阵C2=[c′1,c′2,…,c′t],经过神经网络解码器14解码,神经网络解码器14包括后端的4层第二全局注意力神经网络,输出256维文本特征序列,该文本特征序列的长度和梅尔谱序列长度相同。
在一些可以实现的实施方式中,第二全局注意力神经网络包括第二线性自注意力模块,第二线性自注意力模块采用多头自注意力,对于每个头,先对输入文本特征矩阵C2=[c′1,c′2,…,c′t]进行线性投影,得到三个矩阵Q'、K'、V',然后对这三个矩阵进行线性注意力(linear attention)操作,得到向量M',将所有头的M'拼接并做线性投影得到该子层的输出。M'由式(1)的公式计算获得,此处不再赘述。
在一些可以实现的实施方式中,第二全局注意力神经网络包括第二前馈神经网络,第二前馈神经网络由两个线性投影组成,中间由修正线性单元作为激活函数进行连接,根据公式(3)计算,此处不再赘述。
最终的计算将输出的256维的文本特征序列,经过第二全局注意力神经网络最后的线性映射层得到80维的梅尔谱特征序列。
S205,将该梅尔谱特征序列经过神经网络声码器15得到转换后的语音。
在一些可以实现的实施方式中,步骤S205具体包括:根据步骤S204得到的梅尔谱特征序列作为神经网络声码器15的输入,通过包括转置卷积和残差连接层等神经子网络的神经网络声码器15得到最终的合成语音。
本申请实施例提供一种电子装置1100,如图4所示,包括处理器1101和存储器1102;处理器1101用于执行所述存储器1102所存储的计算机执行指令,处理器1101运行计算机执行指令执行上述任意实施例所述的基于线性自注意力的语音合成方法。
本申请实施例提供一种存储介质1103,包括可读存储介质和存储在所述可读存储介质中的计算机程序,所述计算机程序用于实现上述任意一实施例所述的所述的基于线性自注意力的语音合成方法。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上具体实施方式,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本申请的具体实施方式而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于线性自注意力的语音合成方法,其特征在于所述方法包括:
根据音频进行处理,获得对应文本的音素序列;
根据所述音素序列通过神经网络编码器得到第一文本特征序列,所述神经网络编码器用于对所述音素序列进行线性自注意力计算和乘性位置编码以得到第一文本特征序列;
根据所述第一文本特征序列通过时长预测模型扩增得到第二文本特征序列;
根据所述第二文本特征序列通过神经网络解码器解码得到对应的梅尔谱特征序列;
根据所述梅尔谱特征通过神经网络声码器得到转换后的语音。
2.根据权利要求1方法,其特征在于,所述方法还包括:
提取训练集中的音频的对数梅尔谱特征序列;所述音频为带有标注文本的语音信号;
获取所述音频对应的文本的音素序列;
基于所述音素序列和梅尔谱特征序列联合训练所述神经网络编码器、时长预测模型、神经网络解码器和/或神经网络声码器,得到训练好的所述神经网络编码器、时长预测模型、神经网络解码器和或神经网络声码器。
3.根据权利要求2方法,其特征在于,所述提取训练集中的音频的对数梅尔谱特征序列,包括,
将所述训练集中的音频进行预加重和分帧处理;
对分帧后所述音频的每一帧进行加窗和快速傅里叶变换,得到所述音频的频谱和能量谱;
对所述音频的能量谱计算通过梅尔滤波器的能量,并取对数,得到所述音频的对数梅尔谱特征序列。
4.根据权利要求2方法,其特征在于,所述输入神经网络编码器至少包括嵌入层和第一全局自注意力神经网络;所述根据所述音素序列通过神经网络编码器得到第一文本特征序列,包括:
将所述音素序列输入所述嵌入层,得到第一特征序列,所述第一特征序列的长度等于音素序列长度;
将所述第一特征序列通过所述第一全局自注意力神经网络,得到所述第一文本特征序列。
5.根据权利要求4方法,其特征在于,所述全局自注意力神经网络至少包括第一线性自注意力模块;所述将所述第一特征序列通过所述全局自注意力神经网络,得到所述第一文本特征序列,包括:
将所述第一特征序列经过线性自注意力模块,采用多头自注意力,对于每个头,先对所述第一特征序列进行线性投影,得到至少三个线性投影矩阵,然后对所述至少三个线性投影矩阵进行线性注意力操作,得到向量M,将所述向量M拼接并做线性投影,输出第二特征序列,所述第二特征序列的长度和所述音素序列的长度相同。
6.根据权利要求5方法,其特征在于,所述全局自注意力神经网络包括第一乘性位置编码模块,所述第一乘性位置编码模块用于对所述线性投影矩阵加入乘性位置信息得到第三特征序列。
7.根据权利要求6方法,其特征在于,所述全局自注意力神经网络包括第一前馈神经网络,所述第一前馈神经网络由两个线性投影组成,中间由修正线性单元作为激活函数进行连接,得到两个线性投影的权重矩阵,所述第一前馈神经网络输入为第三特征序列,输出为第一文本特征序列。
8.根据权利要求1方法,其特征在于,所述时长预测模型为卷积结构,所述根据所述第一文本特征通过时长预测模型扩增得到第二文本特征,包括:
通过对所述音素序列的每个音素的持续时长进行预测,并对所述第一文本特征序列进行扩增,得到得到所述第二文本特征序列;所述第二文本特征序列与所述梅尔谱序列长度相同。
9.一种基于线性自注意力的语音合成系统,所述系统包括:
信号处理模块,用于根据音频进行处理,获得对应文本的音素序列;
神经网络编码器,用于根据所述音素序列得到第一文本特征,所述神经网络编码器用于对所述音素序列进行线性自注意力计算和乘性位置编码以得到第一文本特征序列;
时长预测模型,用于根据所述第一文本特征序列扩增得到第二文本特征序列;
神经网络解码器,用于根据所述第二文本特征序列得到对应的梅尔谱特征序列;
神经网络声码器,用于根据所述梅尔谱特征得到转换后的语音。
10.一种电子设备,包括存储器和处理器;所述处理器用于执行所述存储器所存储的计算机执行指令,所述处理器运行所述计算机执行指令执行权利要求1-8任意一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111007669.XA CN113707127B (zh) | 2021-08-30 | 2021-08-30 | 一种基于线性自注意力的语音合成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111007669.XA CN113707127B (zh) | 2021-08-30 | 2021-08-30 | 一种基于线性自注意力的语音合成方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113707127A true CN113707127A (zh) | 2021-11-26 |
CN113707127B CN113707127B (zh) | 2023-12-15 |
Family
ID=78657067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111007669.XA Active CN113707127B (zh) | 2021-08-30 | 2021-08-30 | 一种基于线性自注意力的语音合成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113707127B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115798455A (zh) * | 2023-02-07 | 2023-03-14 | 深圳元象信息科技有限公司 | 语音合成方法、系统、电子设备及存储介质 |
CN117809621A (zh) * | 2024-02-29 | 2024-04-02 | 暗物智能科技(广州)有限公司 | 一种语音合成方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109767752A (zh) * | 2019-02-27 | 2019-05-17 | 平安科技(深圳)有限公司 | 一种基于注意力机制的语音合成方法及装置 |
CN111145718A (zh) * | 2019-12-30 | 2020-05-12 | 中国科学院声学研究所 | 一种基于自注意力机制的中文普通话字音转换方法 |
US20200258496A1 (en) * | 2019-02-08 | 2020-08-13 | Tencent America LLC | Enhancing hybrid self-attention structure with relative-position-aware bias for speech synthesis |
CN111899716A (zh) * | 2020-08-03 | 2020-11-06 | 北京帝派智能科技有限公司 | 一种语音合成方法和系统 |
CN112735377A (zh) * | 2020-12-28 | 2021-04-30 | 平安科技(深圳)有限公司 | 语音合成方法、装置、终端设备及存储介质 |
CN112735389A (zh) * | 2020-12-29 | 2021-04-30 | 平安科技(深圳)有限公司 | 基于深度学习的语音训练方法、装置、设备以及存储介质 |
CN112786007A (zh) * | 2021-01-20 | 2021-05-11 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
CN112802448A (zh) * | 2021-01-05 | 2021-05-14 | 杭州一知智能科技有限公司 | 一种新音色生成的语音合成方法和系统 |
KR102287499B1 (ko) * | 2020-09-15 | 2021-08-09 | 주식회사 에이아이더뉴트리진 | 음소 단위 운율을 반영한 음성 합성 방법 및 장치 |
-
2021
- 2021-08-30 CN CN202111007669.XA patent/CN113707127B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200258496A1 (en) * | 2019-02-08 | 2020-08-13 | Tencent America LLC | Enhancing hybrid self-attention structure with relative-position-aware bias for speech synthesis |
CN109767752A (zh) * | 2019-02-27 | 2019-05-17 | 平安科技(深圳)有限公司 | 一种基于注意力机制的语音合成方法及装置 |
CN111145718A (zh) * | 2019-12-30 | 2020-05-12 | 中国科学院声学研究所 | 一种基于自注意力机制的中文普通话字音转换方法 |
CN111899716A (zh) * | 2020-08-03 | 2020-11-06 | 北京帝派智能科技有限公司 | 一种语音合成方法和系统 |
KR102287499B1 (ko) * | 2020-09-15 | 2021-08-09 | 주식회사 에이아이더뉴트리진 | 음소 단위 운율을 반영한 음성 합성 방법 및 장치 |
CN112735377A (zh) * | 2020-12-28 | 2021-04-30 | 平安科技(深圳)有限公司 | 语音合成方法、装置、终端设备及存储介质 |
CN112735389A (zh) * | 2020-12-29 | 2021-04-30 | 平安科技(深圳)有限公司 | 基于深度学习的语音训练方法、装置、设备以及存储介质 |
CN112802448A (zh) * | 2021-01-05 | 2021-05-14 | 杭州一知智能科技有限公司 | 一种新音色生成的语音合成方法和系统 |
CN112786007A (zh) * | 2021-01-20 | 2021-05-11 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
Non-Patent Citations (2)
Title |
---|
张译之: "基于深度神经网络的语音合成算法研究", 《中国优秀硕士论文全文数据库 信息科技辑》, no. 05, pages 1 - 59 * |
邱锡鹏: "《神经网络与深度学习》", 机械工业出版社, pages: 388 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115798455A (zh) * | 2023-02-07 | 2023-03-14 | 深圳元象信息科技有限公司 | 语音合成方法、系统、电子设备及存储介质 |
CN117809621A (zh) * | 2024-02-29 | 2024-04-02 | 暗物智能科技(广州)有限公司 | 一种语音合成方法、装置、电子设备及存储介质 |
CN117809621B (zh) * | 2024-02-29 | 2024-06-11 | 暗物智能科技(广州)有限公司 | 一种语音合成方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113707127B (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111754976B (zh) | 一种韵律控制语音合成方法、系统及电子装置 | |
CN112017644B (zh) | 一种声音变换系统、方法及应用 | |
US20220076693A1 (en) | Bi-directional recurrent encoders with multi-hop attention for speech emotion recognition | |
US8484022B1 (en) | Adaptive auto-encoders | |
CN111837178A (zh) | 语音处理系统和处理语音信号的方法 | |
CN112435654B (zh) | 通过帧插入对语音数据进行数据增强 | |
WO2019163849A1 (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
KR20230156121A (ko) | 비지도 병렬 타코트론 비-자기회귀 및 제어 가능한 TTS(text-to-speech) | |
CN116364055B (zh) | 基于预训练语言模型的语音生成方法、装置、设备及介质 | |
CN113707127B (zh) | 一种基于线性自注意力的语音合成方法及系统 | |
CN113781995B (zh) | 语音合成方法、装置、电子设备及可读存储介质 | |
US11315548B1 (en) | Method and system for performing domain adaptation of end-to-end automatic speech recognition model | |
KR20230084229A (ko) | 병렬 타코트론: 비-자동회귀 및 제어 가능한 tts | |
CN111899716A (zh) | 一种语音合成方法和系统 | |
CN111710326A (zh) | 英文语音的合成方法及系统、电子设备及存储介质 | |
Gu et al. | Waveform Modeling Using Stacked Dilated Convolutional Neural Networks for Speech Bandwidth Extension. | |
US20230197061A1 (en) | Method and System for Outputting Target Audio, Readable Storage Medium, and Electronic Device | |
CN113763973A (zh) | 音频信号增强方法、装置、计算机设备和存储介质 | |
CN112735377B (zh) | 语音合成方法、装置、终端设备及存储介质 | |
WO2023175198A1 (en) | Vocoder techniques | |
CN113628630B (zh) | 基于编解码网络的信息转换方法和装置、电子设备 | |
Shankarappa et al. | A faster approach for direct speech to speech translation | |
KR20240070689A (ko) | 콘포머에 대한 추론 성능의 최적화 | |
KR20230148048A (ko) | 감정 추정 기반의 감정 음성 합성 방법 및 시스템 | |
US11670292B2 (en) | Electronic device, method and computer program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |