CN112951253A - 一种基于Cycle-GAN的音频风格转换方法及系统 - Google Patents

一种基于Cycle-GAN的音频风格转换方法及系统 Download PDF

Info

Publication number
CN112951253A
CN112951253A CN201911160905.4A CN201911160905A CN112951253A CN 112951253 A CN112951253 A CN 112951253A CN 201911160905 A CN201911160905 A CN 201911160905A CN 112951253 A CN112951253 A CN 112951253A
Authority
CN
China
Prior art keywords
audio
cycle
style
generator
gan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911160905.4A
Other languages
English (en)
Inventor
谢裕麟
贾奎
曾锦权
麦泺欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201911160905.4A priority Critical patent/CN112951253A/zh
Publication of CN112951253A publication Critical patent/CN112951253A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

本发明公开了一种基于Cycle‑GAN的音频风格转换方法及系统,所述方法包括以下步骤:S1、通过CQT转换计算音频的CQT频谱;S2、利用Cycle‑GAN模型的非时域表达音色转换,得到对应目标领域风格的音频,从而实现音频风格迁移;S3、获得目标风格音频。该系统包括前向生成网络、逆向生成网络、两种风格的判别网络以及服务响应云平台,其中,前向生成网络,用于将输入音频转换为特定目标风格的音频;逆向生成网络,用于将目标风格的音频转换为原来风格的音频;网络响应云平台,用于传输和响应用户请求的输入数据等。本发明将生成对抗网络应用于音频风格转换,并且保持相应的语义信息,具有广阔的应用前景。

Description

一种基于Cycle-GAN的音频风格转换方法及系统
技术领域
本发明涉及用深度学习技术来处理音频信息的技术领域,具体涉及一种基于Cycle-GAN的音频风格转换方法及系统。
背景技术
由于计算机技术的发展和互联网的普及,大量的数据在人们的日常生活中产生,而正是由于这些大数据的存在,助力了人工智能算法来高强度地训练和准确地预测。另一方面,硬件技术的飞速发展使得计算能力得到很大的提升,这也在另一方面促使了人工智能算法的繁荣。目前为止,一些用于实现人工智能的超越人类能力的方法已经被实现,比如Alpha Go围棋算法。其中一种实现人工智能的方法就是神经网络。
如上所述,近年来神经网络的发展让很多研究人员看到其在艺术创作方面的潜质,这些神经网络能够模仿人类创作出一些符合人类审美标准的艺术作品,其中的一些生成模型如变分自编码器(VAE)和对抗生成网络(GAN)正在被广泛地应用于图片和视频的风格迁移(Style Transfer)任务中,不仅给大众带来了娱乐,更加揭示了深度学习方法创作和辅助创作艺术作品的可能。而音乐作为听觉的艺术,同样可以通过深度学习方法得到创作或者二次创作。
这里所说的音乐创作指的是通过训练一个神经网络,运行该程序后可以自动地生成出一段符合人听觉习惯和审美的音乐,具体的生成效果可以由训练过程的各种因素进行控制。而这里的二次创作指的是大家可以对于一段已经存在的音乐,通过神经网络的自动化加工,生成出一段在内容等方面具有延续性且某些特质发生改变的音乐,此过程即完成了对一段存在的音乐进行二次创作。
发明内容
本发明的目的是为了解决使用深度学习技术进行音频生成的问题,提供一种基于Cycle-GAN的音频风格转换方法。
本发明至少通过如下技术方案之一实现。
一种基于Cycle-GAN的音频风格转换方法,所述方法包括以下步骤:
S1、通过CQT转换(ConstantQtransform,CQT),获取音频的CQT频谱;
S2、利用Cycle-GAN模型对音频的CQT频谱进行风格迁移,得到对应目标领域音色的音频的CQT频谱,从而实现音频CQT频谱的转换;
S3、预训练WaveNet模型,通过使用预训练的WaveNet生成器,将步骤S2得到的CQT频谱进行相位的推断,实现从CQT频谱到时域音频的变换,最终实现音频音色的转换,获得目标风格音频。
进一步的,步骤S1获取音频的CQT频谱具体如下:
将音频的频率值ωk按以下模式进行几何分布:
Figure BDA0002286118870000021
其中k∈{1,2,3,…kmax}表示的是滤波器个数,b是一个决定不同频带之间几何分散的常数,ω0代表初始频率,kmax表示滤波器个数上限,为了使得不同频率的滤波器相邻接,第k个滤波器的带宽Δk
Figure BDA0002286118870000022
式(1)和式(2)得到不变的频率,计算分辨率比值Q,也称为质量因素:
Figure BDA0002286118870000023
使用常数Q变换即CQT变换,根据时域的波形获得CQT频谱;
对于CQT变换中的相关参数,使用16ms的帧跳跃,w0取为32.70Hz,对应于键盘中最低的C音的频率,b取48,kmax设置为336,γ在0和1之间,在完成CQT转换后,对所得结果取对数幅度作为一张抛弃相位信息的图片。
进一步的,步骤S2的Cycle-GAN模型包括两个生成式对抗网络(GAN,GenerativeAdversarial Networks)、生成器G、生成器F、判别器DX和判别器DY
利用Cycle-GAN模型对音频的CQT频谱进行风格迁移,迁移过程如下:生成器G将X域的图片x转换为Y域的风格,而生成器F将Y域的图片y转换为X域的风格,生成器G和生成器F应该是互逆的,具体的,X域的图片
Figure BDA0002286118870000024
经过生成器G转换为图片
Figure BDA0002286118870000025
之后,图片
Figure BDA0002286118870000026
通过生成器F转换为图片
Figure BDA0002286118870000031
同样地,Y域的图片
Figure BDA0002286118870000032
经过生成器F转换为图片
Figure BDA0002286118870000033
之后,图片
Figure BDA0002286118870000034
通过生成器G转换为图片
Figure BDA0002286118870000035
即:
F(G(x))=X;G(F(y))=Y (4)
为了使重构图片F(G(x))与原图X一致,重构图片G(F(y))与原图Y一致,为此采用L1损失或者L2损失,实现这一个Cycle Consistency(循环一致性),使用一个CycleConsistency Loss(循环一致性损失):
Figure BDA0002286118870000036
同时训练两个GAN:生成器G用于将X域的图片转换成Y域风格的图片
Figure BDA0002286118870000037
判别器DY则分辨
Figure BDA0002286118870000038
的真假,生成器F将Y域的图片转换成X域风格的图片
Figure BDA0002286118870000039
判别器DX则判别
Figure BDA00022861188700000310
的真假,这里的两个生成网络被两个GAN结构共享,同时各自还有一个判别网络,判别器和生成器损失函数如下所示:
Figure BDA00022861188700000311
Cycle-GAN模型的损失函数:
L(G,F,DX,DY)=LGAN(G,DY,X,Y)+LGAN(F,DX,Y,X)+Lcyc(G,F) (7)
训练Cycle-GAN模型的时,在没有成对训练数据的情况下,将步骤S1中得到的CQT频谱从源域迁移到目标域;
Cycle-GAN模型经过训练后,在生成图片阶段,只需使用一个生成器G或者生成器F,进行一次单向的图片输入,则得到对应目标领域风格的图片,从而实现图片风格即音频风格的迁移。
进一步的,步骤S3获得目标风格音频是将步骤S2生成的CQT频谱转换为时域的音频,使用WaveNet生成器来产生时域波形;
WaveNet模型的预训练是对所有的扩张卷积层和初始的因果卷积使用内核大小为3的卷积核,在残差链接和跳跃连接中,所有的残差块都具有256的宽度,第一个因果卷积将通道大小从1映射到256,该模型使用Adam优化器进行训练,学习率为0.0001,批大小为4,样本长度为8196;
所述WaveNet生成器通过一个前向的生成过程,基于CQT频谱得到丢失的相位信息;
所述该WaveNet生成器是一个自回归的生成模型,用于生成高质量的原始音频波形(raw waveform),其主要作用是将Cycle-GAN模型转换后的音频的CQT频谱转换到频域。
根据所述的一种基于Cycle-GAN的音频风格转换方法的系统,包括Cycle-GAN模型和服务响应云平台;所述Cycle-GAN模型包括前向生成网络、逆向生成网络、两种风格的判别网络;其中,所述的前向生成网络,用于将输入音频通过Cycle-GAN模型转换为特定目标风格的音频;所述的逆向生成网络,用于将目标风格的音频通过Cycle-GAN模型为原来风格的音频;所述的两个风格的判别器分别用于判别原风格与目标风格;
所述的网络响应云平台,用于传输和响应用户请求的输入数据;
所述前向生成网络和逆向生成网络均为生成器;所述判别网络为判别器;
进一步的,Cycle-GAN模型参数作如下设置:对于输入的100维正态分布数据,先通过一个线性层将其转换为256维,再改变其形状为二维数据,随后,使用滤波器大小为5、步长为2的二维转置卷积操作对数据进行上采样,经过ReLU非线性层进行激活,重复该过程4次后,使用tanh函数层将数据范围压缩在-1和1之间,输出作为生成器的生成样本;
对于判别器,接收生成器产生的样本,连续使用5组由滤波器大小为5、步长为2的二维卷积和α=0.2的LReLU非线性层进行下采样,通过改变形状后使用一个全连接层缩小数据的维度,输出判别的结果。
进一步的,网络响应云平台对用户请求的响应包括以下步骤:
S1、用户通过从网页端向服务端上传音频文件,向服务端发起服务请求;
S4、服务端接收到来自用户的请求之后,服务端调用搭载在网络响应云平台上已经训练好的Cycle-GAN模型,对上传的音频文件进行处理;
在此期间,服务端从Cycle-GAN模型的输出日志中获得Cycle-GAN模型的当前状态,将Cycle-GAN模型的当前状态打包后发送回网页端用户交互平台,并将当前处理文件处理状态及预训练网络状态输出到网页,即实时向用户显示模型当前对数据处理的进程;
S3、Cycle-GAN模型处理用户在网页交互平台上传的音频文件之后,将得到的转换后音频文件保存在服务器,服务器再将该转换后音频文件发送到网页端用户交互平台,网页端接收到文件之后,下载按钮从灰色变亮,提示用户数据处理完毕,能进行下载。
本发明相对于现有技术具有如下的优点及效果:
1、本发明有效地解决了音频音色转换问题,相比使用短时傅里叶变换作为转换方法的模型来说具有更强的信噪比,能够减少生成出来的音频频谱中的棋盘伪迹,从而减轻转换后时域音频表现出来的噪声。
2、本发明训练过程中不需要获得严格的成对训练样本,能够有效地提高本模型的鲁棒性,对大多数的音频都具有实用性,给训练数据的采集、预处理以及模型的训练都带来了便利。
3、本发明的前端具有较好的用户设计,有效地链接了前端用户交互平台与后端服务器处理平台,使得普通用户能够在没有相关计算机基础的情况下,直接体验到前沿深度学习成果,实现了成果转化、产研结合。
附图说明
图1是本实施例的基于Cycle-GAN的音频风格转换方法对输入音频数据处理过程示意图;
图2是本实施例生成器的结构图;
图3是本实施例判别器的结构图;
图4是本发明的网络响应云平台对用户请求的响应流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示的一种基于Cycle-GAN的音频风格转换方法,包括以下步骤:
S1、通过CQT转换(ConstantQtransform,CQT)计算音频的CQT频谱,具体如下:
将音频的频率值ωk按以下模式进行几何分布:
Figure BDA0002286118870000051
其中k∈{1,2,3,…kmax}表示的是滤波器个数,b是一个决定不同频带之间几何分散的常数,ω0代表初始频率,kmax表示滤波器个数上限,为了使得不同频率的滤波器相邻接,第k个滤波器的带宽Δk通过以下公式进行计算:
Figure BDA0002286118870000052
根据式(1)和式(2)得到不变的频率,计算分辨率比值Q,也称为质量因素(quality(Q)factor):
Figure BDA0002286118870000061
通过使用CQT变换,计算音频的CQT频谱(下面详述),然后将其对数幅度看作一张抛弃相位信息的图片。
波形到CQT频谱预处理:
使用常数Q变换即CQT变换,可以根据时域的波形计算出来CQT频谱。在这里,对于CQT中的相关参数,使用16ms的帧跳跃(在16kHz音频中对应256个样本点),w0取为32.70Hz(对应于键盘中最低的C音的频率),b取48,kmax设置为336,γ在0和1之间取0.8。在完成CQT转换后,对所得结果取对数幅度作为最终的网络输入表达形式。
步骤S2利用Cycle-GAN模型对音频的CQT频谱进行风格迁移,得到对应目标领域音色的音频的CQT频谱,从而实现音频CQT频谱的转换。
所述Cycle-GAN模型包括两个生成式对抗网络(GAN,Generative AdversarialNetworks)、生成器G、生成器F、判别器DX和判别器DY,CycleGAN的核心理念是,如果有一个图像风格转换器G可以将X域的图片转换为Y域的风格,而F可以将Y域的图片转换为X域的风格,那么G和F应该是互逆的。也就是说,X域的图片经过生成器G转换为图片
Figure BDA0002286118870000065
之后,
Figure BDA0002286118870000066
应该可以通过另一个生成器F转换为X。同样地,Y域的图片经过F转换为
Figure BDA0002286118870000067
之后,
Figure BDA0002286118870000068
应该可以通过G转换为Y。即:F(G(x))=X;G(F(y))=Y。生成器需要重建图片x,必然希望重构图片F(G(x))与原图x尽量一致,为此采用L1损失或者L2损失。为了实现这一个Cycle Consistency,使用了一个Cycle Consistency Loss:
Figure BDA0002286118870000062
CycleGAN的模型同时训练两个原始GAN:生成器G、F和判别器DX,DY。G用于将X域的图片转换成Y域风格的图片,DY则分辨
Figure BDA0002286118870000063
的真假,F将Y域的图片转换成X域的风格,DX则判别
Figure BDA0002286118870000064
的真假。这里的两个生成网络被两个GAN结构共享,同时各自还有一个判别网络,因此共有两个判别器和生成器,他们的损失函数如下所示:
Figure BDA0002286118870000071
网络的所有损失:
L(G,F,DX,DY)=LGAN(G,DY,X,Y)+LGAN(F,DX,Y,X)+Lcyc(G,F) (5)
经过上述的训练后,在生成图片阶段,只需使用其中的一个生成器(G/F),进行一次单向的图片输入,则可以得到对应目标领域风格的图片,从而实现图片风格迁移。
训练Cycle-GAN模型的时,在没有成对训练数据的情况下,将步骤S1中计算得到的CQT频谱从源域迁移到目标域。
S3、预训练WaveNet模型,通过使用预训练的WaveNet生成器,将转换后上文音频CQT频谱进行相位的推断,实现从CQT频谱到时域音频的变换,最终实现音频音色的转换,获得目标风格音频。
所述WaveNet生成器能够通过一个前向的生成过程,基于CQT频谱推理出丢失的相位信息;该WaveNet生成器是一个自回归的生成模型,用于生成高质量的原始音频波形(rawwaveform),其主要作用是将Cycle-GAN生成的转换后音频的CQT频谱转换到频域,这是因为目前不存在可行的相位推断算法用于从CQT幅度频谱图中推断相位信息从而生成对应的音频信号。
一种基于Cycle-GAN的音频风格转换方法的系统,该系统包括Cycle-GAN模型和服务响应云平台;所述Cycle-GAN模型包括前向生成网络、逆向生成网络、两种风格的判别网络;其中,所述的前向生成网络,用于将输入音频通过Cycle-GAN模型转换为特定目标风格的音频;所述的逆向生成网络,用于将目标风格的音频通过Cycle-GAN模型为原来风格的音频;所述的两个风格的判别器分别用于判别原风格与目标风格;所述的网络响应云平台,用于传输和响应用户请求的输入数据;所述前向生成网络和逆向生成网络均为生成器;所述判别网络为判别器;
如图2所示,Cycle-GAN模型参数包括:对于输入的100维正态分布数据,先通过一个线性层将其转换为256维,再改变其形状为二维数据。随后,使用滤波器大小为5、步长为2的二维转置卷积操作对数据进行上采样,经过ReLU非线性层进行激活,重复该过程4次后,使用tanh层将数据范围压缩在-1和1之间,输出作为生成器的生成样本;
如图3所示,对于判别器,接收生成器产生的样本,连续使用5组由滤波器大小为5、步长为2的二维卷积和α=0.2的LReLU非线性层进行下采样,最后通过改变形状后使用一个全连接层缩小数据的维度,输出判别的结果。
如图4所示,网络响应云平台对用户请求的响应如下:
用户通过从网页端向服务端(服务器)上传音频文件,向服务端发起服务请求;
服务端接收到来自用户的请求之后,调用搭载在网络响应云平台上已经训练好的Cycle-GAN模型对上传文件进行时频转换后调用图形处理器(GPU)开始银色转换;
在此期间,服务端从Cycle-GAN模型的输出日志中获得Cycle-GAN模型的当前状态,将Cycle-GAN模型的当前状态打包后发送回网页端,并按照用户可理解的格式输出到网页,即可实时向用户显示模型当前对数据处理的进程。
生成转换后音频,将文件传回到服务端,服务端再将文件发送到网页端,网页端接收到文件之后,下载按钮从灰色变亮,提示用户数据处理完毕,可进行下载。
以上所述,仅为本发明较佳的实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明所公开的范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都属于本发明的保护范围。

Claims (7)

1.一种基于Cycle-GAN的音频风格转换方法,其特征在于,所述方法包括以下步骤:
S1、通过CQT转换,获取音频的CQT频谱;
S2、利用Cycle-GAN模型对音频的CQT频谱进行风格迁移,得到对应目标领域音色的音频的CQT频谱,从而实现音频CQT频谱的转换;
S3、预训练WaveNet模型,通过使用预训练的WaveNet生成器,将步骤S2得到的CQT频谱进行相位的推断,实现从CQT频谱到时域音频的变换,最终实现音频音色的转换,获得目标风格音频。
2.根据权利要求权1所述的一种基于Cycle-GAN的音频风格转换方法,其特征在于,步骤S1获取音频的CQT频谱具体如下:
将音频的频率值ωk按以下模式进行几何分布:
Figure FDA0002286118860000011
其中k∈{1,2,3,…kmax}表示的是滤波器个数,b是一个决定不同频带之间几何分散的常数,ω0代表初始频率,kmax表示滤波器个数上限,为了使得不同频率的滤波器相邻接,第k个滤波器的带宽Δk
Figure FDA0002286118860000012
式(1)和式(2)得到不变的频率,计算分辨率比值Q,也称为质量因素:
Figure FDA0002286118860000013
使用常数Q变换即CQT变换,根据时域的波形获得CQT频谱;
对于CQT变换中的相关参数,使用16ms的帧跳跃,w0取为32.70Hz,对应于键盘中最低的C音的频率,b取48,kmax设置为336,γ在0和1之间,在完成CQT转换后,对所得结果取对数幅度作为一张抛弃相位信息的图片。
3.根据权利要求权1所述的一种基于Cycle-GAN的音频风格转换方法,其特征在于,步骤S2的Cycle-GAN模型包括两个生成式对抗网络(GAN,Generative AdversarialNetworks)、生成器G、生成器F、判别器DX和判别器DY
利用Cycle-GAN模型对音频的CQT频谱进行风格迁移,迁移过程如下:生成器G将X域的图片x转换为Y域的风格,而生成器F将Y域的图片y转换为X域的风格,生成器G和生成器F应该是互逆的,具体的,X域的图片
Figure FDA0002286118860000021
经过生成器G转换为图片
Figure FDA0002286118860000022
之后,图片
Figure FDA0002286118860000023
通过生成器F转换为图片
Figure FDA0002286118860000024
同样地,Y域的图片
Figure FDA0002286118860000025
经过生成器F转换为图片
Figure FDA0002286118860000026
之后,图片
Figure FDA0002286118860000027
通过生成器G转换为图片
Figure FDA0002286118860000028
即:
F(G(x))=X;G(F(y))=Y (4)
为了使重构图片F(G(x))与原图X一致,重构图片G(F(y))与原图Y一致,为此采用L1损失或者L2损失,实现一个循环一致性(Cycle Consistency),使用一个循环一致性损失(Cycle Consistency Loss):
Figure FDA0002286118860000029
同时训练两个GAN:生成器G用于将X域的图片转换成Y域风格的图片
Figure FDA00022861188600000210
判别器DY则分辨
Figure FDA00022861188600000211
的真假,生成器F将Y域的图片转换成X域风格的图片
Figure FDA00022861188600000212
判别器DX则判别
Figure FDA00022861188600000213
的真假,这里的两个生成网络被两个GAN结构共享,同时各自还有一个判别网络,判别器和生成器损失函数如下所示:
Figure FDA00022861188600000214
Cycle-GAN模型的损失函数:
L(G,F,DX,DY)=LGAN(G,DY,X,Y)+LGAN(F,DX,Y,X)+Lcyc(G,F)(7)
训练Cycle-GAN模型的时,在没有成对训练数据的情况下,将步骤S1中得到的CQT频谱从源域迁移到目标域;
Cycle-GAN模型经过训练后,在生成图片阶段,只需使用一个生成器G或者生成器F,进行一次单向的图片输入,则得到对应目标领域风格的图片,从而实现图片风格即音频风格的迁移。
4.根据权利要求权1所述的一种基于Cycle-GAN的音频风格转换方法,其特征在于,步骤S3获得目标风格音频是将步骤S2得到的CQT频谱转换为时域的音频,使用WaveNet生成器来产生时域波形;
WaveNet模型的预训练是对所有的扩张卷积层和初始的因果卷积使用内核大小为3的卷积核,在残差链接和跳跃连接中,所有的残差块都具有256的宽度,第一个因果卷积将通道大小从1映射到256,该模型使用Adam优化器进行训练,学习率为0.0001,批大小为4,样本长度为8196;
所述WaveNet生成器通过一个前向的生成过程,基于CQT频谱得到丢失的相位信息;
所述该WaveNet生成器是一个自回归的生成模型,用于生成高质量的原始音频波形(raw waveform),其主要作用是将Cycle-GAN模型转换后的音频的CQT频谱转换到频域。
5.一种实施权利要求1所述的一种基于Cycle-GAN的音频风格转换方法的系统,其特征在于,该系统包括Cycle-GAN模型和服务响应云平台;所述Cycle-GAN模型包括前向生成网络、逆向生成网络、两种风格的判别网络;其中,所述的前向生成网络,用于将输入音频通过Cycle-GAN模型转换为特定目标风格的音频;所述的逆向生成网络,用于将目标风格的音频通过Cycle-GAN模型为原来风格的音频;所述的两个风格的判别器分别用于判别原风格与目标风格;
所述的网络响应云平台,用于传输和响应用户请求的输入数据;
所述前向生成网络和逆向生成网络均为生成器;所述判别网络为判别器。
6.根据权利要求5所述的系统,其特征在于,Cycle-GAN模型参数作如下设置:对于输入的100维正态分布数据,先通过一个线性层将其转换为256维,再改变其形状为二维数据,随后,使用滤波器大小为5、步长为2的二维转置卷积操作对数据进行上采样,经过ReLU非线性层进行激活,重复该过程4次后,使用tanh函数层将数据范围压缩在-1和1之间,输出作为生成器的生成样本;
对于判别器,接收生成器产生的样本,连续使用5组由滤波器大小为5、步长为2的二维卷积和α=0.2的LReLU非线性层进行下采样,通过改变形状后使用一个全连接层缩小数据的维度,输出判别的结果。
7.根据权利要求5所述的系统,其特征在于,网络响应云平台对用户请求的响应包括以下步骤:
S1、用户通过从网页端向服务端上传音频文件,向服务端发起服务请求;
S4、服务端接收到来自用户的请求之后,服务端调用搭载在网络响应云平台上已经训练好的Cycle-GAN模型,对上传的音频文件进行处理;
在此期间,服务端从Cycle-GAN模型的输出日志中获得Cycle-GAN模型的当前状态,将Cycle-GAN模型的当前状态打包后发送回网页端用户交互平台,并将当前处理文件处理状态及预训练网络状态输出到网页,即实时向用户显示模型当前对数据处理的进程;
S3、Cycle-GAN模型处理用户在网页交互平台上传的音频文件之后,将得到的转换后音频文件保存在服务器,服务器再将该转换后音频文件发送到网页端用户交互平台,网页端接收到文件之后,下载按钮从灰色变亮,提示用户数据处理完毕,能够进行下载。
CN201911160905.4A 2019-11-24 2019-11-24 一种基于Cycle-GAN的音频风格转换方法及系统 Pending CN112951253A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911160905.4A CN112951253A (zh) 2019-11-24 2019-11-24 一种基于Cycle-GAN的音频风格转换方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911160905.4A CN112951253A (zh) 2019-11-24 2019-11-24 一种基于Cycle-GAN的音频风格转换方法及系统

Publications (1)

Publication Number Publication Date
CN112951253A true CN112951253A (zh) 2021-06-11

Family

ID=76224770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911160905.4A Pending CN112951253A (zh) 2019-11-24 2019-11-24 一种基于Cycle-GAN的音频风格转换方法及系统

Country Status (1)

Country Link
CN (1) CN112951253A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117198308A (zh) * 2023-09-11 2023-12-08 辽宁工程技术大学 一种车内反馈音效的风格迁移方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018136430A (ja) * 2017-02-21 2018-08-30 日本電信電話株式会社 音声変換モデル学習装置、音声変換装置、方法、及びプログラム
CN109036382A (zh) * 2018-08-15 2018-12-18 武汉大学 一种基于kl散度的音频特征提取方法
CN110246488A (zh) * 2019-06-14 2019-09-17 苏州思必驰信息科技有限公司 半优化CycleGAN模型的语音转换方法及装置
CN110459232A (zh) * 2019-07-24 2019-11-15 浙江工业大学 一种基于循环生成对抗网络的语音转换方法
CN110458216A (zh) * 2019-07-31 2019-11-15 中山大学 基于条件生成对抗网络的图像风格迁移方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018136430A (ja) * 2017-02-21 2018-08-30 日本電信電話株式会社 音声変換モデル学習装置、音声変換装置、方法、及びプログラム
CN109036382A (zh) * 2018-08-15 2018-12-18 武汉大学 一种基于kl散度的音频特征提取方法
CN110246488A (zh) * 2019-06-14 2019-09-17 苏州思必驰信息科技有限公司 半优化CycleGAN模型的语音转换方法及装置
CN110459232A (zh) * 2019-07-24 2019-11-15 浙江工业大学 一种基于循环生成对抗网络的语音转换方法
CN110458216A (zh) * 2019-07-31 2019-11-15 中山大学 基于条件生成对抗网络的图像风格迁移方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SICONG HUANG ET AL.: "《TimbreTron A WaveNet(CycleGAN(CQT(Audio))) Pipeline for Musical Timbre Transfer》", 《ARXIV》 *
李涛: "《基于CycleGAN网络实现非平行语料库条件下的语音转换》", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117198308A (zh) * 2023-09-11 2023-12-08 辽宁工程技术大学 一种车内反馈音效的风格迁移方法
CN117198308B (zh) * 2023-09-11 2024-03-19 辽宁工程技术大学 一种车内反馈音效的风格迁移方法

Similar Documents

Publication Publication Date Title
CN110136731B (zh) 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
CN109346063B (zh) 一种语音数据增强方法
CN112289342A (zh) 使用神经网络生成音频
CN110335350B (zh) 基于地形特征的虚拟地形生成方法
CN110189766B (zh) 一种基于神经网络的语音风格转移方法
CN112070668A (zh) 一种基于深度学习和边缘增强的图像超分辨方法
JP7124373B2 (ja) 学習装置、音響生成装置、方法及びプログラム
CN114783459B (zh) 一种语音分离方法、装置、电子设备和存储介质
CN112951253A (zh) 一种基于Cycle-GAN的音频风格转换方法及系统
CN115170388A (zh) 人物线稿生成方法、装置、设备及介质
JP2023548707A (ja) 音声強調方法、装置、機器及びコンピュータプログラム
CN113423005B (zh) 一种基于改进神经网络的智能音乐生成方法及系统
CN112786001A (zh) 语音合成模型训练方法、语音合成方法和装置
CN112686817B (zh) 一种基于不确定性估计的图像补全方法
CN116705056A (zh) 音频生成方法、声码器、电子设备及存储介质
CN109272450A (zh) 一种基于卷积神经网络的图像超分方法
CN108417198A (zh) 一种基于频谱包络和基音周期的男女语音转换方法
CN114626424B (zh) 一种基于数据增强的无声语音识别方法及装置
CN115294995A (zh) 语音转换方法、语音转换装置、电子设备、存储介质
CN113241054B (zh) 语音平滑处理模型生成方法、语音平滑处理方法及装置
CN114898018A (zh) 数字对象的动画生成方法、装置、电子设备及存储介质
CN114663539A (zh) 一种基于音频驱动的口罩下2d人脸还原技术
CN114549288A (zh) 一种基于深度学习的素描风景图生成方法
CN112200751A (zh) 一种图像增强方法
CN113343761A (zh) 一种基于生成对抗的实时人脸表情迁移方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210611

RJ01 Rejection of invention patent application after publication