CN111724809A - 一种基于变分自编码器的声码器实现方法及装置 - Google Patents

一种基于变分自编码器的声码器实现方法及装置 Download PDF

Info

Publication number
CN111724809A
CN111724809A CN202010541602.3A CN202010541602A CN111724809A CN 111724809 A CN111724809 A CN 111724809A CN 202010541602 A CN202010541602 A CN 202010541602A CN 111724809 A CN111724809 A CN 111724809A
Authority
CN
China
Prior art keywords
condition information
audio
encoder
decoder
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010541602.3A
Other languages
English (en)
Inventor
刘雨松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Yinengtong Communication Technology Co ltd
Original Assignee
Suzhou Yinengtong Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Yinengtong Communication Technology Co ltd filed Critical Suzhou Yinengtong Communication Technology Co ltd
Priority to CN202010541602.3A priority Critical patent/CN111724809A/zh
Publication of CN111724809A publication Critical patent/CN111724809A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

为了解决现有技术采用自回归方式的音频生成效率低的问题,提供一种基于变分自编码器的声码器实现方法及装置,包括训练过程和应用过程,其特征在于,训练过程包括步骤:将音频源信号输入预处理模块,得到梅尔谱图;再将梅尔谱图输入条件信息模块,得到条件信息;再将条件信息和音频源信号共同输入编码器中,得到中间隐藏信息;再将中间隐藏信息和条件信息共同输入解码器中,得到输出音频;进行损失函数计算并进行参数优化,当总损失函数值低于某个阈值,训练完成;应用过程包括步骤:将前端得到的频谱图输入条件信息模块得到条件信息,将条件信息和已知的标准高斯白噪声输入解码器,得到输出音频。

Description

一种基于变分自编码器的声码器实现方法及装置
技术领域
本发明涉及语音合成领域,具体的,涉及一种基于变分自编码器的声码器实现方法及装置。
背景技术
在语音合成(Text to Speech,简称TTS)技术,涉及声学、语言学、数字信号处理技术、多媒体技术等多个学科技术,是中文信息处理领域的一项前沿技术。语音合成就是一个将文本转化为语音输出的过程,该过程分成三个部分,文字前端、声学模型和声码器,文字前端将文字转化为音素、语气、语调控制信息,声学模型再将这些信息转化为频谱图,声码器的作用是将频谱图转化为声波,声码器为TTS流程中的后端。
声码器承担着很重要的角色,声码器的好坏往往决定着整个语音合成系统的质量。在现有的声码器实现方法中,大致可以分为传统的信号处理方法和神经网络的方法,但是目前这两种方案在本质上都是基于全自回归的方式,即前一个采样点决定后一个采样点,即表现为算法框架被反复调用,所以音波生成的效率较差,亟待改进。
因此,本领域迫切需要一种音波生成效率高的声码器及其实现方法。
发明内容
本发明的目的在于,提供一种基于变分自编码器的声码器实现方法及装置,可以使用标准高斯白噪声直接得到音频,使得一段音频能够同时生成,而不是一个采样点一个采样点的生成,大大提高了音波生成速度,并且使得网络训练变得稳定可靠。
本申请的技术是将语音合成的前端得到的频谱图转化为人可以听到的音波,本申请人经过长期广泛深入的研究,将变分自编码器(Variational Auto-Encoder,VAE)适应性的引入声码器方案中,不再采用现有技术全自回归式的音波产生方式,而是根据某个帧的声音特征,并行化生成相应音频。本申请通过大量筛选和测试,将变分自编码器的编码器和解码器与声码器的其他构件连接,并进行流程设计和流程优化,以及进行条件信息及参数的测试和设定等,创造性的发明了一种基于变分自编码器的声码器实现方法及装置。本申请人在此基础上完成了本发明。
本申请的一方面,提供一种基于变分自编码器的声码器实现方法,所述方法包括训练过程和应用过程,其特征在于,所述训练过程包括步骤:
S1,将音频源信号输入预处理模块,得到梅尔谱图;
S2,将梅尔谱图输入条件信息模块,得到条件信息;
S3,将条件信息和音频源信号共同输入编码器中,编码器将条件信息和音频源信号进行融合,得到中间隐藏信息;
S4,将中间隐藏信息和条件信息共同输入解码器中,解码器将输入的中间隐藏信息和条件信息进行转化,得到输出音频;
S5,将输出音频与音频源信号采用交叉熵进行损失函数计算,将中间隐藏信息和已知的标准高斯白噪声采用KL散度进行损失函数计算;然后将两个损失函数的交叉熵和KL散度,计算得到总损失函数值;
S6,然后不断重复S1-S5的步骤,采用梯度下降法进行参数优化,总损失函数值会不断降低,当总损失函数值低于某个阈值,训练完成;
训练完成后可进行应用,所述应用过程包括步骤:
将前端文字转频谱中得到的频谱图,输入条件信息模块得到条件信息,将条件信息和已知的标准高斯白噪声输入解码器,得到输出音频。
在一些实施方式中,所述预处理模块将音频源信号进行相应的特征提取,所述预处理模块依次包括:音频量化、音频分帧、傅立叶变换、和梅尔谱图变换;
进一步的,所述音频源信号经过预处理模块,变为离散数值。
在一些实施方式中,所述条件信息模块采用多层深度神经网络,所述条件信息模块包括:多层的卷积层、双向长短时记忆层、非线性变换、残差层中的一个或多个任意组合。
进一步的,所述条件信息模块优选为多层的卷积层。
在一些实施方式中,所述编码器采用多层深度神经网络,所述编码器包括:嵌入向量模块,将离散数值重新转化为连续值;以及卷积层、双向长短时记忆层、非线性变换、残差层中的一个或多个任意组合,得到中间隐藏信息。
进一步的,中间隐藏信息是一个高维矩阵,代表着神经网络对信息的深度编码,目标为希望中间隐藏信息服从正态分布。
进一步的,选用卷积层、双向长短时记忆层、非线性变换、残差层中的一个或多个任意组合,都能实现本发明的技术效果,但是具体选用其中的哪个或者哪些组合,需要根据实际的场景进行实验和选择,其中,卷积层主要学习前后多个音波点之间的特征,长短时记忆层主要用于学习整个音频波点间点特征,可以选择其一或同时使用。
在一些实施方式中,所述解码器采用多层深度神经网络,所述解码器包括:卷积层、双向长短时记忆层、非线性变换、残差层中的一个或多个任意组合。
在一些实施方式中,所述采用交叉熵(crossentropy)进行损失函数计算是用于判别解码器输出的输出音频的结果质量,即将源音频作为标准答案与输出音频进行比较;所述采用KL散度(相对熵,KL Divergence)进行损失函数计算是为了将中间隐藏信息的分布变为接近高斯分布,KL散度用于衡量中间隐藏信息和标准高斯白噪声两个分布的相似度,中间隐藏信息与标准高斯白噪声的分布差异越大时,KL散度越大,反之KL散度越小。
进一步的,已知的标准高斯白噪声为已经得到的标准高斯白噪声,在测试过程中,标准高斯白噪声的样本个数决定了音频的长度,有多少个高斯噪声样本点,就有多少个音频点产生,样本个数的选取由音频采样率决定。
在一些实施方式中,采用梯度下降法进行参数优化是采用梯度下降法对神经网络的参数进行优化,该神经网络指条件信息模块、编码器、和解码器的多层深度神经网络。
进一步的,当总损失函数低于某个阈值时,说明神经网络的输出结果和目标一模一样,表明网络训练过程结束。
训练过程完成神经网络训练后,应用过程可根据前端文字转频谱得到的频谱图,输出任意相应的输出音频。
在一些实施方式中,S4和应用过程得到的输出音频为产生音频的量化值ID,ID对应的为唯一整数值。
进一步的,音频源信号会最终会被量化为0到255之间的整数(幅值),共有256种可能性。与传统基于全自回归式的生成方式不同,基于全自回归式的生成方式为产生后一个点需要先知道前一个点,是一个采样点一个采样点的生成,而在本申请中,由于高斯白噪声点之间为互相独立,则可以一次性全部产生,即可以并行化生成,效率大大提高。
本申请的一另方面,提供一种基于变分自编码器的声码器装置,其特征在于,所述装置包括:预处理模块、条件信息模块、编码器、解码器,在训练过程中,
所述预处理模块将输入的音频源信号处理为梅尔谱图;
然后所述条件信息模块将输入的梅尔谱图转换为条件信息;
然后所述编码器将输入的条件信息和音频源信号进行融合,得到中间隐藏信息;
然后所述解码器将输入的中间隐藏信息和条件信息共同进行转化,得到输出音频;
然后将输出音频与音频源信号采用交叉熵进行损失函数计算,将中间隐藏信息和已知的标准高斯白噪声采用KL散度进行损失函数计算;然后将两个损失函数的交叉熵和KL散度,计算得到总损失函数值;
然后不断重复上述步骤,采用梯度下降法进行参数优化,总损失函数值会不断降低,当总损失函数值低于某个阈值,训练完成;
在应用过程中,
所述条件信息模块将输入的前端文字转频谱中得到的频谱图,转化为条件信息,所述解码器将输入的条件信息和已知的标准高斯白噪声进行转化,得到输出音频。
在一些实施方式中,所述预处理模块将音频源信号进行相应的特征提取,所述预处理模块依次包括:音频量化、音频分帧、傅立叶变换、和梅尔谱图变换;
进一步的,所述音频源信号经过预处理模块,变为离散数值。
在一些实施方式中,所述条件信息模块采用多层深度神经网络,所述条件信息模块包括:多层的卷积层、双向长短时记忆层、非线性变换、残差层中的一个或多个任意组合。
进一步的,所述条件信息模块优选为多层的卷积层。
在一些实施方式中,所述编码器采用多层深度神经网络,所述编码器包括:嵌入向量模块,将离散数值重新转化为连续值;以及卷积层、双向长短时记忆层、非线性变换、残差层中的一个或多个任意组合,得到中间隐藏信息。
进一步的,中间隐藏信息是一个高维矩阵,代表着神经网络对信息的深度编码,目标为希望中间隐藏信息服从正态分布。
进一步的,选用卷积层、双向长短时记忆层、非线性变换、残差层中的一个或多个任意组合,都能实现本发明的技术效果,但是具体选用其中的哪个或者哪些组合,需要根据实际的场景进行实验和选择,其中,卷积层主要学习前后多个音波点之间的特征,长短时记忆层主要用于学习整个音频波点间点特征,可以选择其一或同时使用。
在一些实施方式中,所述解码器采用多层深度神经网络,所述解码器包括:卷积层、双向长短时记忆层、非线性变换、残差层中的一个或多个任意组合。
在一些实施方式中,所述采用交叉熵(crossentropy)进行损失函数计算是用于判别解码器输出的输出音频的结果质量,即将源音频作为标准答案与输出音频进行比较;所述采用KL散度(相对熵,KL Divergence)进行损失函数计算是为了将中间隐藏信息的分布变为接近高斯分布,KL散度用于衡量中间隐藏信息和标准高斯白噪声两个分布的相似度,中间隐藏信息与标准高斯白噪声的分布差异越大时,KL散度越大,反之KL散度越小。
进一步的,已知的标准高斯白噪声为已经得到的标准高斯白噪声,在测试过程中,标准高斯白噪声的样本个数决定了音频的长度,有多少个高斯噪声样本点,就有多少个音频点产生,样本个数的选取由音频采样率决定。
在一些实施方式中,采用梯度下降法进行参数优化是采用梯度下降法对神经网络的参数进行优化,该神经网络指条件信息模块、编码器、和解码器的多层深度神经网络。
进一步的,当总损失函数低于某个阈值时,说明神经网络的输出结果和目标一模一样,表明网络训练过程结束。
训练过程完成神经网络训练后,应用过程可根据前端文字转频谱得到的频谱图,输出任意相应的输出音频。
在一些实施方式中,S4和应用过程得到的输出音频为产生音频的量化值I D,I D对应的为唯一整数值。
由此可见,采用本发明的基于变分自编码器的声码器实现方法,可以使用高斯白噪声直接得到音频,使得音频信号时间维度上的相关性得到打破,使得一段音频能够同时生成,大大提高了生成速度。
并且,本发明使用变分自编码器的形式,构建网络,使得训练变得稳定可靠。
附图说明
图1:本发明的基于变分自编码器的声码器的训练过程的框架图。
图2:本发明的基于变分自编码器的声码器的应用过程的框架图。
具体实施方式
描述以下实施例以辅助对本发明的理解。不意在且不应当以任何方式将实施例解释成为限制本发明的保护范围。
在以下描述中,本领域的技术人员将认识到,下文描述的本发明的实施方式可以以各种方式(例如过程、装置、系统、设备或方法)在有形的计算机可读介质上实施。在本论述的全文中,组件可描述为单独的功能单元(可包括子单元),但是本领域的技术人员将认识到,各种组件或其部分可划分成单独组件,或者可整合在一起(包括整合在单个的系统或组件内)。应注意,本文论述的功能或操作可实施为组件。组件可以以软件、硬件、或它们的组合实施。
此外,附图内的组件或系统之间的连接并不旨在限于直接连接。相反,在这些组件之间的数据可由中间组件修改、重格式化、或以其它方式改变。另外,可使用另外或更少的连接。还应注意,术语“联接”、“连接”、或“输入”应理解为包括直接连接、通过一个或多个中间设备来进行的间接连接、和无线连接。
实施例1:
一种基于变分自编码器的声码器实现方法,包括训练过程和应用过程,如图1所示,为本发明的基于变分自编码器的声码器的训练过程的框架图,训练过程如下:
S1,将音频源信号输入预处理模块,得到梅尔谱图;所述预处理模块将音频源信号进行相应的特征提取,所述预处理模块依次由音频量化、音频分帧、傅立叶变换、和梅尔谱图变换组成,所述音频源信号经过预处理模块被量化后,变为离散数值。
S2,将梅尔谱图输入条件信息模块,得到条件信息;所述条件信息模块采用多层深度神经网络,所述条件信息模块由多层的卷积层组成。
S3,将条件信息和音频源信号共同输入编码器中,编码器将条件信息和音频源信号进行融合,得到中间隐藏信息;所述编码器采用多层深度神经网络,所述编码器由嵌入向量模块、卷积层、双向长短时记忆层、和非线性变换组成,得到中间隐藏信息。
S4,将中间隐藏信息和条件信息共同输入解码器中,解码器将输入的中间隐藏信息和条件信息进行转化,得到输出音频;所述解码器采用多层深度神经网络,所述解码器由双向长短时记忆层、和非线性变换组成。
S5,将输出音频与音频源信号采用交叉熵进行损失函数计算,将中间隐藏信息和已知的标准高斯白噪声采用KL散度进行损失函数计算;然后将两个损失函数的交叉熵和KL散度,计算得到总损失函数值。
S6,然后不断重复S1-S5的步骤,采用梯度下降法进行以上神经网络的参数优化,总损失函数值会不断降低,当总损失函数值低于某个阈值,训练完成。
训练完成后,应用过程可根据前端得到的频谱图,输出任意具有相应特征的音频,如图2所示,为本发明的基于变分自编码器的声码器的应用过程的框架图,应用过程如下:
将前端文字转频谱得到的频谱图,输入条件信息模块得到条件信息,将条件信息和已知的标准高斯白噪声共同输入解码器,得到输出音频。
S4和应用过程的输出音频为产生音频的量化值ID,ID对应的为唯一整数值,并且使得一段音频能够同时生成,可以一次给出几百-几千个点的幅值,大大提高了音波生成速度,并且使得网络训练变得稳定可靠。
实施例2:
一种基于变分自编码器的声码器装置,其特征在于,所述装置包括:预处理模块、条件信息模块、编码器、解码器,如图1所示,为本发明的基于变分自编码器的声码器的训练过程的框架图,训练过程如下:
所述预处理模块将输入的音频源信号处理为梅尔谱图,所述预处理模块依次由音频量化、音频分帧、傅立叶变换、和梅尔谱图变换组成;
所述条件信息模块将输入的梅尔谱图转换为条件信息,所述条件信息模块采用多层深度神经网络,所述条件信息模块由双向长短时记忆层、非线性变换组成;
所述编码器将输入的条件信息和音频源信号进行融合,得到中间隐藏信息;所述编码器采用多层深度神经网络,所述编码器由嵌入向量模块、卷积层、非线性变换、和残差组成;
所述解码器将输入的中间隐藏信息和条件信息共同进行转化,得到输出音频;所述解码器采用多层深度神经网络,所述解码器由卷积层、双向长短时记忆层、非线性变换、残差组成,输出音频为产生音频的量化值ID,ID对应的为唯一整数值。
将输出音频与音频源信号采用交叉熵进行损失函数计算,将中间隐藏信息和已知的标准高斯白噪声采用KL散度进行损失函数计算;然后将两个损失函数的交叉熵和KL散度,计算得到总损失函数值。
然后不断重复S1-S5的步骤,采用梯度下降法进行上述神经网络的参数优化,总损失函数值会不断降低,当总损失函数值低于某个阈值,说明神经网络的输出结果和目标一模一样,训练完成。
训练完成后,应用过程可根据前端得到的频谱图,输出任意具有相应特征的音频,如图2所示,为本发明的基于变分自编码器的声码器的应用过程的框架图,应用过程如下:
所述条件信息模块将输入的前端文字转频谱中得到的频谱图,转化为条件信息,所述解码器将输入的条件信息和已知的标准高斯白噪声进行转化,得到输出音频。
输出音频为产生音频的量化值ID,ID对应的为唯一整数值,并且使得一段音频能够同时生成,可以一次给出几百-几千个点的幅值,大大提高了音波生成速度,并且使得网络训练变得稳定可靠。
尽管本发明已公开了多个方面和实施方式,但是其它方面和实施方式对本领域技术人员而言将是显而易见的,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。本发明公开的多个方面和实施方式仅用于举例说明,其并非旨在限制本发明,本发明的实际保护范围以权利要求为准。

Claims (10)

1.一种基于变分自编码器的声码器实现方法,所述方法包括训练过程和应用过程,其特征在于,所述训练过程包括步骤:
S1,将音频源信号输入预处理模块,得到梅尔谱图;
S2,将梅尔谱图输入条件信息模块,得到条件信息;
S3,将条件信息和音频源信号共同输入编码器中,编码器将条件信息和音频源信号进行融合,得到中间隐藏信息;
S4,将中间隐藏信息和条件信息共同输入解码器中,解码器将输入的中间隐藏信息和条件信息进行转化,得到输出音频;
S5,将输出音频与音频源信号采用交叉熵进行损失函数计算,将中间隐藏信息和已知的标准高斯白噪声采用KL散度进行损失函数计算;然后将两个损失函数的交叉熵和KL散度,计算得到总损失函数值;
S6,然后不断重复S1-S5的步骤,采用梯度下降法进行参数优化,总损失函数值会不断降低,当总损失函数值低于某个阈值,训练完成;
训练完成后可进行应用,所述应用过程包括步骤:
将前端文字转频谱中得到的频谱图,输入条件信息模块得到条件信息,将条件信息和已知的标准高斯白噪声输入解码器,得到输出音频。
2.如权利要求1所述的方法,其特征在于,所述预处理模块依次包括:音频量化、音频分帧、傅立叶变换、和梅尔谱图变换。
3.如权利要求1所述的方法,其特征在于,所述条件信息模块、编码器、和解码器均采用多层深度神经网络。
4.如权利要求3所述的方法,其特征在于,所述条件信息模块包括:多层的卷积层、双向长短时记忆层、非线性变换、残差层中的一个或多个任意组合,所述编码器包括:嵌入向量模块,以及卷积层、双向长短时记忆层、非线性变换、残差层中的一个或多个任意组合,所述解码器包括:卷积层、双向长短时记忆层、非线性变换、残差层中的一个或多个任意组合。
5.如权利要求4所述的方法,其特征在于,所述条件信息模块为多层的卷积层。
6.如权利要求1所述的方法,其特征在于,在测试过程中,标准高斯白噪声的样本个数决定了音频的长度,有多少个高斯噪声样本点,就有多少个音频点产生,样本个数的选取由音频采样率决定。
7.如权利要求1所述的方法,其特征在于:所述训练过程完成后,应用过程可根据前端得到的频谱图,输出任意相应的输出音频,且一段音频能够同时生成;所述输出音频为产生音频的量化值ID,ID对应的为唯一整数值。
8.一种基于变分自编码器的声码器装置,其特征在于,所述装置包括:预处理模块、条件信息模块、编码器、解码器,在训练过程中,
所述预处理模块将输入的音频源信号处理为梅尔谱图;
然后所述条件信息模块将输入的梅尔谱图转换为条件信息;
然后所述编码器将输入的条件信息和音频源信号进行融合,得到中间隐藏信息;
然后所述解码器将输入的中间隐藏信息和条件信息共同进行转化,得到输出音频;
然后将输出音频与音频源信号采用交叉熵进行损失函数计算,将中间隐藏信息和已知的标准高斯白噪声采用KL散度进行损失函数计算;然后将两个损失函数的交叉熵和KL散度,计算得到总损失函数值;
然后不断重复上述步骤,采用梯度下降法进行参数优化,总损失函数值会不断降低,当总损失函数值低于某个阈值,训练完成;
在应用过程中,
所述条件信息模块将输入的前端文字转频谱中得到的频谱图,转化为条件信息,所述解码器将输入的条件信息和已知的标准高斯白噪声进行转化,得到输出音频。
9.如权利要求8所述的装置,其特征在于,所述预处理模块依次包括:音频量化、音频分帧、傅立叶变换、和梅尔谱图变换;所述条件信息模块、编码器、和解码器均采用多层深度神经网络;所述训练过程完成后,应用过程可根据前端得到的频谱图,输出任意相应的输出音频,且一段音频能够同时生成;所述输出音频为产生音频的量化值ID,ID对应的为唯一整数值。
10.如权利要求9所述的装置,其特征在于,所述条件信息模块包括:多层的卷积层、双向长短时记忆层、非线性变换、残差层中的一个或多个任意组合,所述编码器包括:嵌入向量模块,以及卷积层、双向长短时记忆层、非线性变换、残差层中的一个或多个任意组合,所述解码器包括:卷积层、双向长短时记忆层、非线性变换、残差层中的一个或多个任意组合。
CN202010541602.3A 2020-06-15 2020-06-15 一种基于变分自编码器的声码器实现方法及装置 Pending CN111724809A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010541602.3A CN111724809A (zh) 2020-06-15 2020-06-15 一种基于变分自编码器的声码器实现方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010541602.3A CN111724809A (zh) 2020-06-15 2020-06-15 一种基于变分自编码器的声码器实现方法及装置

Publications (1)

Publication Number Publication Date
CN111724809A true CN111724809A (zh) 2020-09-29

Family

ID=72566674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010541602.3A Pending CN111724809A (zh) 2020-06-15 2020-06-15 一种基于变分自编码器的声码器实现方法及装置

Country Status (1)

Country Link
CN (1) CN111724809A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489606A (zh) * 2020-11-26 2021-03-12 北京有竹居网络技术有限公司 旋律生成方法、装置、可读介质及电子设备
CN112735467A (zh) * 2020-12-28 2021-04-30 福州数据技术研究院有限公司 一种基于序列神经网络自动编码解码器的风叶声音边界定位方法和存储设备
CN113113030A (zh) * 2021-03-22 2021-07-13 浙江大学 一种基于降噪自编码器的高维受损数据无线传输方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108461079A (zh) * 2018-02-02 2018-08-28 福州大学 一种面向音色转换的歌声合成方法
CN108777140A (zh) * 2018-04-27 2018-11-09 南京邮电大学 一种非平行语料训练下基于vae的语音转换方法
CN109326283A (zh) * 2018-11-23 2019-02-12 南京邮电大学 非平行文本条件下基于文本编码器的多对多语音转换方法
CN109377978A (zh) * 2018-11-12 2019-02-22 南京邮电大学 非平行文本条件下基于i向量的多对多说话人转换方法
CN110060701A (zh) * 2019-04-04 2019-07-26 南京邮电大学 基于vawgan-ac的多对多语音转换方法
CN110211575A (zh) * 2019-06-13 2019-09-06 苏州思必驰信息科技有限公司 用于数据增强的语音加噪方法及系统
US20190348020A1 (en) * 2018-05-11 2019-11-14 Google Llc Clockwork Hierarchical Variational Encoder
CN110718208A (zh) * 2019-10-15 2020-01-21 四川长虹电器股份有限公司 基于多任务声学模型的语音合成方法及系统
CN110717313A (zh) * 2019-10-12 2020-01-21 苏州意能通信息技术有限公司 一种基于标准化流的全并行化文本生成方法
US20200066253A1 (en) * 2017-10-19 2020-02-27 Baidu Usa Llc Parallel neural text-to-speech

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200066253A1 (en) * 2017-10-19 2020-02-27 Baidu Usa Llc Parallel neural text-to-speech
CN108461079A (zh) * 2018-02-02 2018-08-28 福州大学 一种面向音色转换的歌声合成方法
CN108777140A (zh) * 2018-04-27 2018-11-09 南京邮电大学 一种非平行语料训练下基于vae的语音转换方法
US20190348020A1 (en) * 2018-05-11 2019-11-14 Google Llc Clockwork Hierarchical Variational Encoder
CN109377978A (zh) * 2018-11-12 2019-02-22 南京邮电大学 非平行文本条件下基于i向量的多对多说话人转换方法
CN109326283A (zh) * 2018-11-23 2019-02-12 南京邮电大学 非平行文本条件下基于文本编码器的多对多语音转换方法
CN110060701A (zh) * 2019-04-04 2019-07-26 南京邮电大学 基于vawgan-ac的多对多语音转换方法
CN110211575A (zh) * 2019-06-13 2019-09-06 苏州思必驰信息科技有限公司 用于数据增强的语音加噪方法及系统
CN110717313A (zh) * 2019-10-12 2020-01-21 苏州意能通信息技术有限公司 一种基于标准化流的全并行化文本生成方法
CN110718208A (zh) * 2019-10-15 2020-01-21 四川长虹电器股份有限公司 基于多任务声学模型的语音合成方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石杨: "非平行文本条件下基于文本编码器、VAE和ACGAN的多对多语音转换研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489606A (zh) * 2020-11-26 2021-03-12 北京有竹居网络技术有限公司 旋律生成方法、装置、可读介质及电子设备
CN112489606B (zh) * 2020-11-26 2022-09-27 北京有竹居网络技术有限公司 旋律生成方法、装置、可读介质及电子设备
CN112735467A (zh) * 2020-12-28 2021-04-30 福州数据技术研究院有限公司 一种基于序列神经网络自动编码解码器的风叶声音边界定位方法和存储设备
CN113113030A (zh) * 2021-03-22 2021-07-13 浙江大学 一种基于降噪自编码器的高维受损数据无线传输方法
CN113113030B (zh) * 2021-03-22 2022-03-22 浙江大学 一种基于降噪自编码器的高维受损数据无线传输方法

Similar Documents

Publication Publication Date Title
CN111247585B (zh) 语音转换方法、装置、设备及存储介质
Akbari et al. Lip2audspec: Speech reconstruction from silent lip movements video
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
US9135923B1 (en) Pitch synchronous speech coding based on timbre vectors
CN1750124B (zh) 带限音频信号的带宽扩展
EP1995723B1 (en) Neuroevolution training system
Boril et al. Unsupervised equalization of Lombard effect for speech recognition in noisy adverse environments
Tachibana et al. An investigation of noise shaping with perceptual weighting for WaveNet-based speech generation
Song et al. ExcitNet vocoder: A neural excitation model for parametric speech synthesis systems
CN111724809A (zh) 一种基于变分自编码器的声码器实现方法及装置
CN110767210A (zh) 一种生成个性化语音的方法及装置
Siuzdak et al. WavThruVec: Latent speech representation as intermediate features for neural speech synthesis
CN109979436B (zh) 一种基于频谱自适应法的bp神经网络语音识别系统及方法
CN112489629A (zh) 语音转写模型、方法、介质及电子设备
KR102272554B1 (ko) 텍스트- 다중 음성 변환 방법 및 시스템
GB2603776A (en) Methods and systems for modifying speech generated by a text-to-speech synthesiser
Yoshimura et al. Mel-cepstrum-based quantization noise shaping applied to neural-network-based speech waveform synthesis
Hagen Robust speech recognition based on multi-stream processing
Singh et al. Spectral Modification Based Data Augmentation For Improving End-to-End ASR For Children's Speech
US20240127832A1 (en) Decoder
Oura et al. Deep neural network based real-time speech vocoder with periodic and aperiodic inputs
Zhao et al. Research on voice cloning with a few samples
Rao et al. SFNet: A computationally efficient source filter model based neural speech synthesis
Vlaj et al. Voice activity detection algorithm using nonlinear spectral weights, hangover and hangbefore criteria
CN114724589A (zh) 语音质检的方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200929

RJ01 Rejection of invention patent application after publication