CN116705056A - 音频生成方法、声码器、电子设备及存储介质 - Google Patents
音频生成方法、声码器、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116705056A CN116705056A CN202310923000.8A CN202310923000A CN116705056A CN 116705056 A CN116705056 A CN 116705056A CN 202310923000 A CN202310923000 A CN 202310923000A CN 116705056 A CN116705056 A CN 116705056A
- Authority
- CN
- China
- Prior art keywords
- audio
- module
- mel
- frequency band
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 98
- 238000003860 storage Methods 0.000 title claims abstract description 20
- 230000000737 periodic effect Effects 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- 230000001537 neural effect Effects 0.000 claims abstract description 18
- 239000000284 extract Substances 0.000 claims abstract description 8
- 230000005236 sound signal Effects 0.000 claims description 72
- 230000006870 function Effects 0.000 claims description 45
- 230000015572 biosynthetic process Effects 0.000 claims description 39
- 238000003786 synthesis reaction Methods 0.000 claims description 39
- 238000001228 spectrum Methods 0.000 claims description 29
- 230000004913 activation Effects 0.000 claims description 25
- 238000000354 decomposition reaction Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 24
- 238000001914 filtration Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 13
- 230000009977 dual effect Effects 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 7
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 238000005520 cutting process Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 238000010606 normalization Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000009432 framing Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000001308 synthesis method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000009420 retrofitting Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Abstract
本申请公开一种音频生成方法、声码器、电子设备及存储介质。音频生成方法由神经网络型声码器实施,该音频生成方法包括:获取待生成音频的梅尔谱图;将所述梅尔谱图输入神经网络型声码器,其中所述神经网络型声码器包括基频提取模块、波发生模块和生成器网络模块;由所述基频提取模块从所述梅尔谱图中提取多个音频帧的基频音调值,由所述波发生模块将多个所述基频音调值对应的周期性波信号进行融合得到融合声源信号,由所述生成器网络模块利用融合声源信号和梅尔谱图生成目标音频。根据本申请实施例,能够提高音频音质和自然度。
Description
技术领域
本申请涉及音频处理技术领域,具体地涉及一种音频生成方法、声码器、电子设备及存储介质。
背景技术
目前常用的声码器主要分为两大类:传统声码器和神经网络型可学习声码器。常用的传统声码器主要有Griffin-Lim声码器和WORLD声码器,常用神经网络声码器主要有HiFiGAN、MelGAN等GAN类声码器。
传统声码器重建的语音信号较差,尤其针对歌声,机器感太强,听感生硬,音质较差。神经网络可学习声码器普遍都是针对普通语音的,输出的语音音质还原度比较高,但是对于训练集外的人声还原能力较差,生成的歌声电音感较强,自然度不够,人工痕迹明显,存在明显的伪声。
本背景技术描述的内容仅为了便于了解本领域的相关技术,不视作对现有技术的承认。
发明内容
因此,本申请实施例意图提供一种音频生成方法电子设备及存储介质,以解决音频音质较差,自然度不够的问题。
在第一方面,提供了一种音频生成方法,所述音频生成方法由神经网络型声码器实施,所述神经网络型声码器包括基频提取模块、波发生模块和生成器网络模块,所述音频生成方法包括:
获取待生成音频的梅尔谱图;
由所述基频提取模块从所述梅尔谱图中提取多个音频帧的基频音调值;
由所述波发生模块将多个所述基频音调值对应的周期性波信号进行融合得到融合声源信号;
由所述生成器网络模块利用融合声源信号和梅尔谱图生成目标音频。
在一些可选的实现方式中,所述基频提取模块包括划分子模块、梅尔预测网络子模块、梅尔编码子模块和音调预测子模块;
所述由所述基频提取模块从所述梅尔谱图中提取多个音频帧的基频音调值,包括:
由所述梅尔谱划分子模块将所述梅尔谱图划分为多帧子图;
由所述梅尔预测网络子模块对每一帧所述子图进行卷积,生成第一中间音调值;
由所述梅尔编码子模块对所述第一中间音调值进行卷积和归一化处理,生成第二中间音调值;
由所述音调预测子模块对所述第二中间音调值进行卷积、激活和归一化处理,得到多个基频音调值。
在一些可选的实现方式中,所述波发生模块包括周期性波发生器子模块和源过滤子网络;
所述由所述波发生模块将多个所述基频音调值对应的周期性波信号进行融合得到融合声源信号,包括:
由所述周期性波发生器子模块生成各个所述基频音调值分别对应的周期性波信号;以及由所述源过滤子网络融合所述周期性波信号,得到所述融合声源信号。
在一些可选的实现方式中,所述生成器网络模块包括频段切分子模块、波网子模块及频段合成子模块,
所述由所述生成器网络模块利用融合声源信号和梅尔谱图生成目标音频,包括:
由所述频段切分子模块对所述融合声源信号进行频段切分,得到至少两个第一频段信号;
针对各个所述第一频段信号,将所述第一频段信号和所述梅尔谱图输入双输入波网模块的所述波网子模块,得到第二频段信号;
将各个所述第二频段信号输入所述频段合成子模块,合成所述目标音频。
在一些可选的实现方式中,所述将所述第一频段信号和所述梅尔谱图输入双输入波网模块的所述波网子模块,得到第二频段信号,包括:
将所述第一频段信号输入双输入波网模块的空洞卷积层以得到至少两个第一子频段;
将所述梅尔谱图输入双输入波网模块的1x1卷积层以得到至少两个子梅尔谱图;
将各第一子频段与各子梅尔谱图合并输入到至少两个激活函数以得到至少两个中间音频;
将所述至少两个中间音频叉乘输入1x1卷积层以得到所述第二频段信号。
在一些可选的实现方式中,所述频段切分子模块为多相正交镜像过滤器(PQMF)分解模块;频段合成子模块为多相正交镜像过滤器(PQMF)合成模块;
由所述频段切分子模块对所述融合声源信号进行频段切分,得到至少两个第一频段信号,包括:利用所述多相正交镜像过滤器(PQMF)分解模块对所述融合声源信号进行频段滤波得到位于不同频段的所述第一频段信号;
将各个所述第二频段信号输入所述频段合成子模块,合成所述目标音频,包括:利用多相正交镜像过滤器(PQMF)合成模块对所述第二频段信号进行频段叠加以合成所述目标音频。
在一些可选的实现方式中,所述获取待生成音频的梅尔谱图,包括:
获取对应目标音频的目标乐谱信息;
从所述目标乐谱信息中确定目标歌词音素序列和目标乐理特征;
将所述目标歌词音素序列和所述目标乐理特征输入训练好的声学模型,得到所述待生成音频的梅尔谱图。
在一些可选的实现方式中,由生成式对抗网络进行训练得到所述声码器,其音频生成方法还包括:
构建生成式对抗网络,所述生成式对抗网络包括生成器和判别器;
从样本音频信号提取带有样本音频特征的训练用梅尔谱图;
将所述训练用梅尔谱图输入所述生成式对抗网络的生成器,通过所述生成器对所述样本音频特征进行处理,得到所述样本音频特征对应的处理音频信号;
将所述处理音频信号和所述原始音频信号发送至所述判别器,以使所述判别器分别对所述处理音频信号和所述原始音频信号进行判别,得到判别结果;
利用确定损失函数,根据所述判别结果迭代更新所述生成式对抗网络以对其进行训练,直至训练完成;
利用训练好的生成式对抗网络的生成器的训练好的参数构建所述神经网络型声码器;
其中,所述生成器包括待训练的基频提取网络模块、待训练的波生成网络模块和待训练的生成器网络模块。
在一些可选的实现方式中,所述判别器包括多个并行判别器。
在一些可选的实现方式中,多个并行判别器包括多尺度判别器、多周期判别器和由预设数量的空洞卷积层组成的判别器。
在第二方面,提供一种神经网络型声码器,包括:
基频提取模块,配置成从梅尔谱图中提取多个基频音调值;
波发生模块,配置成生成所述多个基频音调值对应的融合声源信号;以及
生成器网络模块,配置成由共同输入的所述融合声源信号和梅尔谱图生成目标音频。
第三方面,提供了一种电子设备,包括:处理器和存储有计算机程序的存储器,所述处理器被配置为在运行计算机程序时实现本公开第一方面及其任一实现方式中的音频生成方法。
第四方面,提供了一种存储介质,其上存储有计算机程序,其中,所述程序被处理器运行时实现本公开第一方面及其任一实现方式中的音频生成方法。
本申请实施例使用的音频生成方法,通过使用经改造的神经网络型声码器、尤其是经改造的生成式对抗网络的声码器,通过基频提取模块从梅尔谱图中提取多个基频音调值;由所述波发生模块将多个所述基频音调值对应的周期性波信号进行融合得到融合声源信号;由所述生成器网络模块利用融合声源信号和梅尔谱图生成目标音频。相比于当前的神经网络可学习声码器,本申请实施例的音频生成方法使用声源信号和梅尔谱图共同生成目标信号,能够丰富谐波细节,尤其使得高频谐波更丰富,且音色还原度更高,声音更明亮,进而能够提高音频音质和自然度。
本申请实施例的其他可选特征和技术效果一部分在下文描述,一部分可通过阅读本文而明白。
附图说明
以下,结合附图来详细说明本申请的实施例,所示出的元件不受附图所显示的比例限制,附图中相同或相似的附图标记表示相同或类似的元件,其中:
图1示出了根据本申请实施例的音频生成方法的示例流程图;
图2示出了根据本申请实施例的音频生成方法中基频提取模块的示例结构图;
图3示出了根据本申请实施例的音频生成方法中声码器的示意结构图;
图4示出了根据本申请实施例的音频生成方法的示例流程图;
图5示出了根据本申请实施例的音频生成方法的示例流程图;
图6示出了根据本申请实施例的音频生成方法的示例流程图;
图7示出了根据本申请实施例的一种生成器网络模块的示例性结构图;
图8示出了根据本申请实施例的音频生成方法的示例流程图;
图9示出了根据本申请实施例的声码器的训练方法的示例训练框图;
图10示出了根据本申请实施例的判别器的示例性结构图;
图11示出了根据本申请实施例的判别器的示例性结构图;
图12示出了根据本申请实施例的判别器的示例性结构图;
图13示出了根据本申请实施例的音频生成方法的示例流程图;
图14示出了能实施根据本申请实施例的方法的电子设备的示例性结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面结合具体实施方式和附图,对本申请做进一步详细说明。在此,本申请的示意性实施方式及其说明用于解释本申请,但并不作为对本申请的限定。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
本申请实施例提供了一种音频生成方法,可以由神经网络型声码器实施,下面先对本申请实施例提供的音频生成方法进行介绍。
本申请实施例提供的音频生成方法能够通过对于音频在频域上的分解以更好的处理与丰富谐波细节,尤其使得高频谐波更丰富,还考虑了人耳的听觉感知特性,通过更好地捕捉音频信号的共振成分改善了音色还原度和声音明亮度,进而能够提高音频音质和自然度。由此,本申请实施例使用的音频生成方法能广泛应用于提升音频如歌声音质、歌声(音色和/或语言)转换和/或合成音频如歌声等众多应用场合。相应地,本申请实施例提供的音频生成方法在某些情形下可以称为音频如歌声合成方法等。
在一些实施例中,本申请实施例提供的音频生成方法可以应用于提供虚拟歌手(歌姬)。,虚拟歌手(歌姬)是指通过计算机技术创建出来的“虚拟”角色,通常是拥有自己的个性、外貌和声音,能够唱歌或进行其它表演活动。在本申请实施例中,虚拟歌手(歌姬)的歌曲歌唱可以是基于已有歌声提升音质而得,也可以是基于歌声合成技术合成的虚拟歌曲。
在一些实施例中,本申请实施例提供的音频生成方法可以应用于音乐创作。例如,可以基于本申请实施例提供的音频生成方法来实现歌声合成,并进而构建的虚拟歌。
在一些实施例中,本申请实施例提供的音频生成方法可以应用于明星合成,即AI明星,这是指使用明星音色唱翻唱歌曲,或者改动曲谱或者歌词等。
在另外的一些实施例中,本申请实施例提供的音频生成方法可以简单地用于提升已有音频如歌声的音质,即生成更优音质的音频如歌声。
图1示出了本申请实施例的音频生成方法的示例性流程图,该方法可以应用于电子设备,具体可以由神经网络型声码器实施,该声码器可以由生成式对抗网络(GAN)进行训练得到。如图1所示,该音频生成方法可以包括步骤S120-S160。
S120、获取待生成音频的梅尔谱图。
在本申请实施例中,待生成音频指待利用本申请实施例所述的音频生成方法的音频。
在本申请实施例中,音频的梅尔谱图(Mel Spectrogram)是一种用于音频处理领域的频谱表示方法,通过将频率线性转换为非线性的梅尔尺度(Mel Scale),将音频信号在不同频率上的能量分布以图像形式展现出来。
在本申请实施例中,获取待生成音频的梅尔谱图可以是直接获取存储在电子设备的待生成音频的梅尔谱图。
在本申请实施例中,获取待生成音频的梅尔谱图也可以是获取待生成音频的频谱图,再将该频谱图转化为梅尔谱图。
在本申请实施例中,获取待生成音频的梅尔谱图还可以是通过声学模型生成待生成音频的梅尔谱图。可选地,梅尔谱图可以为对数梅尔谱图。
在本申请的一些具体实施例中,可以由目标乐谱通过声学模型生成待生成音频的梅尔谱图。
例如图4所示,步骤S120可包括步骤S121至S123:
S121、获取对应目标音频的目标乐谱信息;
可以根据需要获取相关歌曲的乐谱如五线谱信息。
S122、从目标乐谱信息中确定目标歌词音素序列和目标乐理特征;
音素是语言学中的一个概念,指的是语音中最小的可区别音位单位。简单来说,音素是语言中不同的声音单位,它们可以在一个词语中进行替换而不改变该词语的意义。音素是构成语言的基本单位之一。在本申请实施例中,该音速序列是由从该目标乐谱信息获取的歌词得到的。
乐理特征为可用于描述音乐的各种属性和元素的特征,这些特征可以帮助我们理解和分析音乐的结构、表达和风格。在一些实施例中,乐理特征包括音高、节奏、和声和旋律或其衍生特征中的一个或多个。在一个具体实施例中,乐理特征包括音高、音高时长和连音。
S123、将目标歌词音素序列和所述目标乐理特征输入训练好的声学模型,得到所述待生成音频的梅尔谱图。
在本申请实施例中,可以选择任何合适的训练好的声学模型,例如深度学习模型,包括但不限于Tacotron 2模型、Transformer TTS模型、FastSpeech 2模型、序列到序列(Seq2Seq)模型、波网(WaveNet)模型中的一种或多种。所述深度学习模型可以通过包括卷积神经网络(CNN)、循环神经网络(RNN)、残差神经网络(ResNet)、生成对抗网络(GAN)在内的多种深度学习架构进行训练。
在另一些实施例中,所获取的梅尔谱图可以是由已有的音频如歌声直接或经一定处理后转换而得的。人们将明白,虽然本申请实施例涉及音频生成方法,但该生成方法所使用的梅尔谱图可以是由已有的音频转换而得,并可以获得上述的提升音频音质的效果。
S130、将梅尔谱图输入神经网络型声码器,其中神经网络型声码器包括基频提取模块、波发生模块和生成器网络模块。
在本申请的实施例中,所述声码器是一种用于将语音或音频信号合成或生成的音频处理模块,可以为神经网络型声码器,即神经网络来实现音频合成或音频生成的声码器;
在一些实施例中,所述基频提取模块是一种用于从输入的音频信号中提取基频信息的模块,作为解释而非限定的,其可通过基音周期估计(Pitch Detection)算法等方法来实现;
在一些实施例中,所述波发生模块是一种利用基频和其他特征,使用合成方法或声码器算法来生成最终的音频波形的模块;在进一步的具体实施例,如下文S150的步骤中,所述波发生模块可为神经源过滤器(source filter network,NSF)模块,在此不做赘述。
在一些实施例中,所述生成器网络模块是指神经网络中的一部分,其用于生成音频信号,其可使用深度学习中的生成模型,比如下文所述生成对抗网络(GANs),以学习音频的分布并生成期待的音频样本。
S140、由所述基频提取模块从所述梅尔谱图中提取多个音频帧的基频音调值。
在本申请实施例中,术语“基频音调值”是一段声音在频域中最低的频率,也被称为基频频率、基音频率。
在本申请实施例中,基频音调可以理解为基频(fundamental frequency,F0)的音高(pitch),其中音高(pitch)与声音的基频有关,由此基频音调反映的是音高信息。
在S140中,例如通过分帧的方式,可以利用音频提取模块从获取的待生成音频的梅尔谱图提取多个音频帧的基频音调值。
具体地,如图2所示,声码器可以包括基频提取(pitch Extract)模块20。更具体地,基频提取模块20可以包括划分子模块21、梅尔预测网络子模块22、梅尔编码子模块23和音调预测子模块24。
结合参考图2和图5,步骤S140可包括:
S141、由所述梅尔谱划分子模块将所述待生成音频的梅尔谱图划分为多帧子图;
在本申请实施例中,“分为多帧”是指音频信号被分割成的具有单位时间的小段,这通常用来表示一个音频文件中的采样数或者每秒钟的采样率,在数字音频中,通常以每秒采样数来表示音频帧数。
作为解释,将待生成音频的梅尔谱图划分为多帧是为了更好地表示声音特征和时域变化。梅尔谱图通常是通过对音频信号进行短时傅里叶变换(Short-Time FourierTransform,STFT)并应用梅尔滤波器组得到的。这样的转换会将音频分成一系列连续的时间窗口,每个时间窗口称为一帧。
在此,可以将梅尔谱图划分为多帧,由此将梅尔谱图形式的音频信号分成多个短时段,每个短时段对应一帧。由于声音的基频往往随时间而变化,基频提取可以先把信号分帧(帧长通常为几十毫秒),再逐帧提取基频。在本申请实施例中,基频的提取通过神经网络实现,例如下文步骤S142至S144所述。
S142、通过所述梅尔预测网络子模块对所述梅尔谱图的每一帧进行卷积,生成第一中间音调值;
在本申请实施例中,例如可以对梅尔谱图的每一帧进行卷积以生成初始的基频音调值,即第一中间音调值。
该梅尔预测网络子模块可表示为mel_prenet。在一个示例性实施例中,mel_prenet可包括多层卷积核。可选地,卷积核层数为3层一维卷积核(convld),卷积核尺寸为5(kernel size=5)。在此,卷积核(Convolutional Kernel)呈小矩阵(kernel size=5),用于在卷积操作中对输入的分帧梅尔谱图进行滤波和特征提取。
S143、通过所述梅尔编码子模块对所述第一中间音调值进行卷积和第一预设归一化,生成第二中间音调值;
该梅尔编码子模块可以表示为mel_encoder,其可以包括5层一维卷积核(卷积核尺寸例如同样为5)和组归一化(GroupNorm)层。
S144、通过所述音调预测子模块对所述第二中间音调值进行卷积得到第三中间音调值,并将第三中间音调值输入预设激活函数,得到第四中间音调值,且对第四中间音调值进行第二预设归一化,得到对应所述梅尔谱图多帧的所述多个音频帧的基频音调值。
该音调预测子模块可以表示为pitch_predictor,其同样可包括5层一维卷积核(卷积核尺寸例如同样为5)、预设激活函数(层)如ReLU函数和分层归一化(LayerNorm)层。在另外的实施例中,可以选择其他的激活函数(层)。
在上述步骤S142至S144中,首先可以通过梅尔预测网络网络子模块的3层一维卷积核对梅尔谱图进行卷积,生成第一中间音调值。这个卷积操作可以提取梅尔谱图中的局部特征,并捕捉基频音调的模式和转变。
接下来,在梅尔编码子模块中使用5层卷积核大小为5的一维卷积核对第一中间音调值进行卷积,并通过梅尔编码层中的组归一化(GroupNorm)对卷积后的第一中间音调值进行归一化处理,生成第二中间音调值。这个卷积和归一化操作有助于提取更高级别的基频音调信息,并对基频音调值进行适当的限制和平滑。
然后,通过音调预测子模块的5层一维卷积核对第二中间音调值进行卷积。音调预测子模块将卷积后的第二中间音调值进一步卷积得到第三中间音调值。接着,将第三中间音调值输入到预设激活函数(如ReLU函数)中,生成第四中间音调值。对第四中间音调值进行分层归一化,可以得到至少两个基频音调值。这一过程有助于对基频音调值进行进一步的调整和优化。
在一些实施例中,梅尔编码子模块在预训练阶段可以选择均方误差(Mean SquareError,MSE)作为损失函数。
需要注意的是,上述描述只是一个示例,用于说明在基频音调值提取的一种可能的示例。但是可以想到其他的网络结构、参数设置、损失函数等可以根据具体需求进行调整,这落入本发明的范围内。
总体而言,通过多层卷积和归一化操作,可以逐步提取和调整音调值,并生成基频音调值,从而为后续的音频合成或音乐处理任务提供音调特征。
如前所述,由于通过对分帧梅尔谱图提取基频音调值,因此基频音调值数目可以与音频帧数可以相等。例如,梅尔谱图中的音频帧数为10帧,则与基频音调值个数也可以为10帧。当然,梅尔谱图中的音频帧数与基频音调值个数也可以不相等。比如,梅尔谱图中的音频帧数可以大于基频音调值对应的音频帧数,此时某些帧未提取到基频音调值。
在其他实施例中,还可以想到其他提取基频音调值的手段,这落入本发明范围内。
可选地,经提取的基频音调值还可以经上采样处理。
S150、由所述波发生模块将多个所述基频音调值对应的周期性波信号进行融合得到融合声源信号。
在S150中,从梅尔谱图中提取基频音调值之后,还可以通过波发生模块将多个所述基频音调值对应的周期性波信号进行融合以生成多个基频音调值对应的融合声源信号,更具体地为融合声源波形图。
在进一步实施例中,可以通过生成周期性波和过滤融合两个过程来生成融合声源信号如融合声源波形图。
在更具体的实施例中,该波发生模块为神经源过滤器(source filter network,NSF)模块。在进一步实施例中,神经源过滤器模块包括周期性波发生器子模块和具有卷积核和激活函数子模块的源过滤子网络。
具体地,例如参考图6,该步骤S150可以具体包括步骤S151和S152。
可选地,声码器可以包括神经源过滤器(source filter network,NSF)模块,神经源过滤器模块是一种用于神经信号处理的算法模块,该模块可以滤除在神经信号中出现的伪迹信号,限制信噪比并提高信号准确性。该算法基于信号处理的数学理论和神经生理学原理,从信号中提取和过滤出有用的信息,过滤器通常采用数字滤波器、小波变换、时频分析等方法,可以应用于多种神经信号,包括EEG、EMG、ERP等,
S151、利用周期性波发生器子模块生成各个所述基频音调值分别对应的周期性波信号。
在本公开实施例中,其可以包括周期性波发生器子模块。在这种情况下,可以利用周期性波发生器子模块生成各个基频音调值分别对应的周期性波形,这些周期性波形各自可以具有根据基频音调值确定的频率和幅值。在一些可选的实施方式中,周期性波为正弦波(信号),相应地,波发生器子模块可以为正弦波发生器(Sine Generator)子模块。
S152、利用源过滤子网络融合各个基频音调值对应的周期性波信号,得到融合声源信号。
在生成各个基频音调值分别对应的周期性波信号之后,可以融合全部这些波信号得到融合声源信号如波形图。具体地,融合全部目标信号例如可以通过叠加或其他融合方式来实现。可选地,融合信号可能存在噪声、失真或其他干扰,可以进一步处理,例如借助该源过滤器子网络处理,以提高信号质量和清晰度。该处理过程通常包括噪声消除、音量平衡、滤波和增强等技术。
在一些可选的实施方式中,如前所述,神经源过滤器模块还可以包括源过滤网络子模块。在一个具体示例中,源过滤网络子模块包括卷积核和激活函数,在这种情况下,可以利用卷积核和激活函数得到目标声源。优选地,卷积核为1*1的卷积核,激活函数为tanh激活函数。但是可以想到,可以使用其他的激活函数。
在本实施例中,神经源过滤器模块使用基频F0构建融合声源波形图,但是人们将明白,可以对融合声源波形图进行相应处理以得到对应的融合声源频谱。后续用于输入生成器网络模块的融合声源信号可以为融合声源波形图形式或者其他转换形式,这落入本申请范围内。例如,上述融合声源频谱可用于后续的基于频谱的信号切分。
S160、由所述生成器网络模块利用融合声源信号和梅尔谱图生成目标音频。
在获得融合声源信号后,可以将获得融合声源信号如波形图和梅尔谱图(经预处理或不经预处理)共同输入到经修改的生成器网络模块,尤其是经修改的HiFiGAN模块中,以获得根据本申请实施例所述的目标音频。
在一些可选的实施方式中,结合参考图3、图7和图8,生成器网络模块可以包括频段切分子模块、波网子模块(WaveNet block)、频段合成子模块。
在一些实施例中,在利用生成器网络模块生成目标音频时,步骤S160可以包括如下若干步骤S161至S163:
S161、利用频段切分子模块对所述融合声源信号进行频段切分,得到切分的至少两个第一频段信号;
在该实施例中,第一频段信号可以为融合声源基于频段切分而成的信号。在一个具体实施例中,频段切分子模块可以为PQMF(Polyphase Quadrature Mirror filter,多相正交镜像滤波器)分解模块,其用于将融合声源信号按照正交切分成多个不同频段的子信号。
具体地,该步骤S161包括:利用所述多相正交镜像过滤器(PQMF)分解模块对所述融合声源信号进行频段滤波得到位于不同频段的所述第一频段信号。
在本申请实施例中,所述PQMF分解模块用于将融合信号划分为多个频段,并保持频谱的平滑性和正交性,其例如可通过一系列滤波器和延迟组合来实现频段切分。PQMF分解模块还可以将输入信号进行滤波和下采样操作,从而得到多个不同频段的子信号,即第一频段信号,每个子信号代表了原始融合音频信号在特定频段的能量分布。
在具体实施例中,所述PQMF分解模块的分解可以包括但不限于信号分帧、滤波处理以及可选的窗函数加窗、下采样等功能。
在一些实施例中,可以利用该PQMF分解模块对融合声源信号进行信号分帧。例如,可以将输入的融合声源信号划分为短时帧(例如20-40毫秒)。例如在上述步骤S161中,被输入的所述融合声源信号将会被划分并转换为短时帧数据,这有利于对其进行频域分析和处理。
在一些实施例中,可以利用该PQMF分解模块对(经分帧的)融合声源信号滤波处理。具体地,每个短时帧数据通过多相滤波器组(Polyphase Filter Bank)进行滤波操作。例如在上述步骤S161中,所述融合声源信号经信号分帧处理后,可在本步骤中进行频段滤波得到位于不同频段的至少两个第一频段信号。
人们应该明白,本领域的技术人员可根据具体的需求配置所述滤波处理,包括但不限于进行滤波器组合、滤波器插值、加权求和等操作。
在一些实施例中,所述多相滤波器组可由一组低通滤波器和一组高通滤波器构成,其中低通滤波器将信号分解为低频成分,而高通滤波器将信号分解为高频成分。
在一些实施例中,所述PQMF分解模块的分解还可选地包括进行可选的窗函数加窗。例如,可以在上述滤波处理之前,可对信号分帧后所得到的短时帧数据应用窗函数,包括但不限于矩形窗、汉宁窗等。以上加窗处理能减小所述短时帧数据在后续频域分析中的频谱泄漏(Spectral Leakage)现象,确保在频谱分析时获得更准确的频谱信息。
在一些实施例中,所述PQMF分解模块的分解还可选地包括进行下采样。例如,在上述滤波处理之后,可对上述多相滤波器中各滤波器组的输出进行下采样,以减少数据的采样率,进而提高计算效率和存储效率。
相应的,在经过上述PQMF分解模块的分解后,例如上述步骤S161中的所述融合声源信号被分解成多个子频带,每个子频带具有不同的频率范围。作为解释而非限制地,这种分解使得所述融合声源信号在频域上更容易进行编码或其他处理,例如压缩编码、声音增强或其他音频处理算法。
尽管示意性描述了用于频段切分的PQMF分解模块,但是可以想到还可使用其他的基于频段的信号切分方法。
S162、针对各个第一频段信号,将第一频段信号和梅尔谱图输入双输入波网模块的波网(WaveNet)子模块,得到第二频段信号;
如前所述,被输入的梅尔谱图可以选择进行预处理。例如,在一些实施例中,在步骤S162输入的梅尔谱图可以经上采样模块进行上采样处理。第一上采样模块的作用是增加梅尔谱图的采样率,从而提高其时间分辨率。通过上采样,可以更好地保留原始音频的细节和动态特性,以便在后续的处理过程中更准确地重建音频波形。
在本申请实施例中,波网(WaveNet)涉及生成音频波形的深度学习模型,其基于深度卷积神经网络(CNN)结构并可用于音频合成,其可采用空洞卷积(Dilation Conv)技术、通过建模音频波形的概率分布来生成高质量的音频波形。具体的,上述波网(WaveNet)的模块结构中可包括层叠的可进行空洞卷积(Dilation Conv)的空洞卷积层(ConvolutionalLayers)、激活函数(Activation Functions)。此外,波网(WaveNet)的模块结构还可包括可选特征,如跳跃连接(Skip Connections),下采样(Downsampling)以及条件建模(Conditional Modeling)等。
在本申请实施例中,波网子模块为双输入波网子模块。
下面结合图7描述本申请的双输入波网子模块的具体实施例:
如图7所示,所述各第一频段信号被输入所述双输入波网模块的空洞卷积层进行一系列的空洞卷积操作以得到至少两个第一子频段。所述梅尔谱图被与上述各第一频段信号并行地输入所述双输入波网模块的1x1卷积层进行卷积以得到至少两个子梅尔谱图。
如图7所示,在该双输入波网(WaveNet)子模块中,所述第一频段信号和对应的梅尔谱图可被输入到所述双输入波网模块的子模块中,具体的,所述第一频段信号被输入空洞卷积层(Dilation Conv)中并被分成xa和xb,同时与其对应的梅尔谱图被输入1×1卷积层(Conv lx1)并被分成sa和sb;所述xa和xb、sa和sb经由所述双输入波网子模块的至少两个激活函数进行特征融合,具体的,所述xa和sa被输入激活函数Tanh,同时所述xb和sb被输入激活函数Sigmoid,以得到至少两个中间音频。将上述获得的至少两个中间音频叉乘输入所述双输入波网子模块的1x1卷积层(Conv lx1)以得到第二频段信号H。相应地,本申请实施例相比于已知的对抗式生成网络(GAN)模型尤其是其波网模块(WaveNet Block)进行了改进,由原来的单一输入(如单一的音频信号作为输入)修改为融合音频频段信号和梅尔谱图的双输入,这样的双输入结构可以更充分地利用两种不同的信号表示,将音频波形和梅尔谱图的信息进行融合,从而生成更准确和高质量的音频波形。并且本申请实施例通过对于音频在频域上的分解以更好的处理与丰富谐波细节,尤其使得高频谐波更丰富,还融合梅尔谱图考虑了人耳的听觉感知特性,通过更好地捕捉音频信号的共振成分改善了音色还原度和声音明亮度,进而提高了音频音质和自然度。
在进一步的实施例中,波网子模块可为双输入-双输出波网子模块。
具体地,继续参考图7,在该双输入-双输出波网(WaveNet)子模块中,在将上述获得的至少两个中间音频叉乘输入所述双输入-双输出波网子模块的1x1卷积层(Conv lx1)以得到第二频段信号H的同时,还将上述获得的至少两个中间音频叉乘输入所述双输入-双输出波网子模块的1x1卷积层(Conv lx1)得到第三音频信号,将第三音频信号与上述获得的至少两个中间音频的叉乘相加,生成迭代后的第一音频迭代信号X3。在后续过程中,可以只用到第二频段音频H,而可以将迭代后的第一音频迭代信号X3舍弃。
S163、将各个第二频段信号输入频段合成子模块,合成目标音频。
在一些实施例中,对应于步骤S163,可以利用频段合成子模块将全部第二频段信号合成目标音频。类似地,频段合成子模块可以相应为PQMF合成模块。
在具体实施例中,所述PQMF合成模块的合成包括但不限于用于将上述全部第二频段信号成为完整音频信号。PQMF合成处理可以为所述PQMF合成处理的逆过程。例如该步骤S163的PQMF合成可以是上述S161步骤中PQMF分解的逆过程。
在具体实施例中,所述PQMF合成模块的合成可以包括但不限于滤波器组补偿、音频帧合并以及可选的去窗、上采样等功能。
在一些实施例中,可以利用该PQMF合成模块对子频段信号进行卷积,以获得音频帧信号。例如,可以采用滤波器组对子频段信号进行卷积以获得音频帧信号。例如在上述步骤S163中,由上述波网(WaveNet)子模块输入的各个第二频段信号可通过滤波器组进行卷积,以将所述各个第二频段信号转换为音频帧信号;
在一些实施例中,可以利用该PQMF合成模块对音频帧信号进行音频帧合并以获得目标音频。具体的,可对上一步骤所得到的一系列音频帧信号进行重叠相加。例如在上述步骤S163中,由所述各个第二频段信号转换得到的音频帧信号可被进行重叠相加,以得到目标音频。
在一些实施例中,所述PQMF合成模块的合成还可选地包括可进行去窗。例如,可以在上述音频帧合并之后,可对重叠相加后的音频信号进行去窗操作以还原原始信号的幅度。
在一些实施例中,所述PQMF合成模块的合成还可选地包括可进行上采样。例如,可以在上述音频帧合并之后对上诉音频帧合并输出的音频进行上采样,以增加每秒的采样数,得到恢复原始采样率的目标音频。
尽管示意性描述了用于频段合成的PQMF合成模块,但是可以想到还可使用其他的基于频段的信号合成方法。
在上述步骤S161至S163的利用生成器网络模型进行处理的示例中,PQMF分解可以将输入的融合声源信号分解为至少两个子带,即第一频段信号,每个都包含原始信号的一部分频率;可选地,可以对第一频段信号和梅尔谱图进行卷积处理,例如通过一维卷积核Conv1D处理,以便获取第一频段信号和梅尔谱图中的局部特征;后续,WaveNet可以捕捉到音频信号(包括第一频段信号和梅尔谱图)中的更深层次的特征;
接下来,在进行相反的PQMF合成之前,可以使用1x1卷积和激活函数(如ReLU激活函数)来改变信号深度和增加模型的非线性度;最后,可以通过PQMF合成获得生成的音频。此外,该生成器网络模型同时还可以输出经迭代的第一频段信号,其可丢弃不用。
以下结合一个具体的实施例对音频生成过程进行介绍。
请参阅图3,图3示意出了声码器1000的示意结构图。首先,将(B,C,T)的梅尔谱图同时输入基频提取模块20和第二上采样(Upsample)模块10。基频提取模块20将从梅尔谱图中提取到的(B,1,T)的至少两个音频音调值输入至第一上采样模块30。第一上采样模块30对至少两个音频音调值进行上采样,并将采样后的(B,1,T*512)的至少两个音频音调值输入神经源过滤器模块40。神经源过滤器模块40生成(B,1,T*512)的至少两个音频音调值分别对应的目标信号,并融合全部目标信号得到目标声源。神经源过滤器模块40将目标声源输入PQMF分解模块50。目标声源输入PQMF分解模块50将目标声源分解为(B,4,T*512)的多个第一频段信号。输入PQMF分解模块50将多个第一频段信号输入至卷积核60中。卷积核60对多个第一频段信号进行卷积之后,得到(B,64,T*128)的多个第三频段信号。第二上采样模块10对梅尔谱图进行上采样后得到(B,C,T*128)的梅尔谱图。将多个第三频段信号和(B,C,T*128)的梅尔谱图同时输入3层的波网子模块70。波网子模块70根据多个第三频段信号和(B,C,T*128)的梅尔谱图,生成至少两个初始目标音频。波网子模块70将至少两个初始目标音频输入到2层卷积层和/或激活函数80中,并将输出的至少两个第一中间目标音频输入至PQMF合成模块90中。PQMF合成模块90将至少两个第一中间目标音频合成一个(B,1,T*512)的第二中间目标音频,将第二中间目标音频输入PQMF卷积层100,经过卷积得到(B,1,T*512)的目标音频。其中,C表示特征维度,B为batch_size,表示多少个批次,多少个片段;T表示目标信号的帧数。卷积层和/或激活函数80中的激活函数可以为ReLU激活函数。波网子模块70中的膨胀系数(dilation)可以为但不局限于{1,2,4,…,512}。
具体的,PQMF卷积层100包括第一PQMF卷积层(pqmf_conv1d_1)和第二PQMF卷积层(pqmf_conv1d_2),其中,各卷积层可拥有不同的卷积核尺寸k、其决定了用卷积核对输入音频进行卷积操作时的连续样本数;输入通道i,即数据的输入深度;以及输出通道o,即输出通道的数量。在一些实施例中,参照图3,第二中间目标音频被输入所述第一PQMF卷积层进行第一卷积并输出,其中,第一PQMF卷积层的卷积核尺寸k可以为5,输入通道i为1,输出通道o为128。随后,上述第一PQMF卷积层的输出被输入所述第二PQMF卷积层,经过第二卷积并得到目标音频,其中,第二PQMF卷积层的卷积核尺寸k可以为5,输入通道i可以为128,输出通道o可以为0。当然,PQMF卷积层所涉及的各个参数只是举例说明,人们应该明白在实际应用中上述参数可以为本领域技术人员根据实际需求而设置的其他值。
另外,如上所述,本申实施例的音频生成方法还可以包括训练步骤,即步骤S110(图中未示出)、由生成式对抗网络(GAN)训练得到神经网络型声码器,其具体训练方法可以包括S111至S116。
S111、构建生成式对抗网络,生成式对抗网络包括生成器和判别器。在一些可选的实施方式中,如图9所示,生成器910可以包括待训练的基频提取网络模块911、待训练的神经源过滤器网络模块912和待训练的生成器网络模块913。
S112、从原始音频信号提取带有原始音频特征的梅尔谱图。
在一些实施例中,可以从原始音频信号提取带有原始音频特征的梅尔谱图,原始音频信号可以是不同人的语音信号,梅尔谱图可以为对数梅尔谱图。
示例性地,从原始音频信号提取带有原始音频特征的梅尔谱图,可以为:假设训练时原始音频信号(audio signal)的梅尔谱帧数为100帧,设置短时傅里叶变换STFT变换过程中的超参数为:frame_length=2048,hop_length=512,fft_length=2048,大小为[1025,100];同时设置sample_rate=32000,n_mels=128,fmin=0,fmax=0.5*sample_rate。先将原始音频信号进行STFT得到STFT频谱;再将计算得到的mel_weight_matrix,与STFT频谱相乘,进而得到梅尔谱Mel-Spectrogram;最后对梅尔谱Mel-Spectrogram取log操作之后得到对数梅尔谱Log Mel-Spectrogram,对数梅尔谱的shape大小为[Batch,T,F],将[Batch,T,F]作为原始音频信号的原始音频特征。上述只是本申请的一个示例,本申请并不以此为限。
其中,frame_length表示帧长度,hop_length表示帧移,fft_length表示FFT的窗口长度,sample_rate表示采样率,n_mels表示产生的梅尔带数,fmin表示最低频率,fmax表示最高频率;mel_weight_matrix表示梅尔权值矩阵,Batch为batch_size表示多少个批次,多少个片段;T表示原始样本频谱数据的帧数,F表示梅尔频谱数。
S113、将训练用梅尔谱图输入生成式对抗网络的生成器,通过生成器对原始音频特征进行处理,得到原始音频特征对应的处理音频信号。
参考图9,可以将梅尔谱图同时输入待训练的基频提取网络模块911和梅尔谱图输入待训练的生成器网络模块913。
示例性地,在从原始音频信号提取带有原始音频特征的梅尔谱图之后,可以将梅尔谱图输入生成式对抗网络的生成器,通过生成器对原始音频特征进行处理,得到原始音频特征对应的处理音频信号。
再度参考图7并沿用其中的字母表示,生成器可以包括空洞卷积层(DilationConv)和卷积层(Conv lx1),其中,可利用所述空洞卷积层将原始融合音频X1分离成xa和xb,同时利用1×1卷积层将梅尔谱图Mel分离成sa和sb,基于xa、sa和激活函数Tanh,得到第一音频信号;并基于xb、sb和激活函数Sigmoid,得到第二音频信号;将第一音频信号和第二音频信号的乘积X2输入卷积层,得到处理音频信号H,同时将第一音频信号和第二音频信号的乘积X2输入卷积层得到第三音频信号,将第三音频信号与第一音频信号和第二音频信号的乘积X2相加,生成迭代后的第一音频迭代信号X3。其中,sa、sb表示频谱通过卷积层Conv1x1之后进行通道分离得到的两个矩阵;xa、xb表示升采样得到的信号通过卷积层Conv1x1之后进行通道分离得到的两个矩阵。
在一些可选的实施方式中,将梅尔谱图输入生成式对抗网络的生成器710,可以包括:
S114、将处理音频信号和原始音频信号发送至判别器,以使判别器分别对处理音频信号和原始音频信号进行判别,得到判别结果。
示例性地,在将梅尔谱图输入生成式对抗网络的生成器,通过生成器对原始音频特征进行处理,得到原始音频特征对应的处理音频信号之后,还可以将处理音频信号和原始音频信号发送至判别器,以使判别器分别对处理音频信号和原始音频信号进行判别,得到判别结果,判别结果包括真或假。
在一些可选的实施方式中,判别器920包括多个并行判别器。
判别器920可以包括以下输入:生成器输出的处理音频信号、原始音频信号和标签(recordings)。
可选地,如图9至图11所示,判别器920可以包括多尺度判别器921、多周期判别器922和预设数量层的空洞卷积组成的判别器923。
如图9所示,多尺度判别器921、多周期判别器922和预设数量层的空洞卷积组成的判别器923的输出结果均可以为真(real)或假(fake)。
在本实施例中,通过使用多尺度判别器、多周期判别器和预设数量层的空洞卷积组成的判别器,能够增加判别器的视场野。
多尺度判别器921(Multi-Scale Discriminator,MSD)能够判别音频在时序维度上的连续性和长感受野的依赖性。其中,感受野可以理解为卷积神经网络的每一层输出的特征图(feature map)上的像素点在原图像上映射的区域大小。
多周期判别器922(Multi-Period Discriminator,MPD)能够判别音频的周期性。
空洞卷积,或者称为膨胀卷积:(Dilated/Atrous Convolution,或者是Convolution with holes),可以是在标准的卷积图(Convolution Map)里注入空洞,以此来增加接收场(reception field)。
MSD和MPD的输入均为生成式对抗网络输出的假波形Fake和真波形Real。其中,如图10所示,MSD包括3种尺度的子模块:原始波形,2倍下采样,4倍下采样。每个模块均由8层的一维卷积层串联实现:将假波形Fake和真波形Real通过平均池化层(Average Pooling)进行下采样。如图9所示,MPD包含6种周期的子模块:2、3、5、7、11、17周期;每个模块由6层的二位卷积串联实现:假波形Fake和真波形Real通过重构reshape变为多周期的2D特征。
示例性地,如图11所示,预设数量层的空洞卷积组成的判别器可以包括10层空洞卷积组成的卷积序列。空洞卷积组成的卷积序列中空洞卷积(Dilated Conv)的卷积核大小可以为7,通道数(channel)可以为64,膨胀系数可以分别为[1,2,3,4,5,6,7,8,9,10]。将原始音频依次输入10层空洞卷积组成的卷积序列和卷积层conv1d之后,得到P,P的取值范围为[0,1]。其中,P表示真或假。
本申请实施例提供的生成器,由相关技术中的单一输入和单一输出,改进为至少两个输入和至少两个输出。
S115、利用确定损失函数,根据判别结果迭代更新生成式对抗网络以对其进行训练,直至得到训练好的生成器的优化参数。
示例性地,在将处理音频信号和原始音频信号发送至判别器,以使判别器分别对处理音频信号和原始音频信号进行判别,得到判别结果之后,还可以根据判别结果,利用所确定的损失函数,对生成式对抗网络进行训练。
在一些可选的实施方式中,损失函数可以包括生成器损失函数和判别器损失函数。
可选地,生成器损失函数和判别器损失函数可以均为合页损失函数(Hingeloss)。
示例性地,生成器损失函数如公式(1)所示。
minG∑k=1,2,3-Dk(G(Xlog_mel,θ)) (1);
判别器损失函数如公式(2)所示。
其中,Xlog_mel表示xt,f的Log Mel-Spectrogram,xt,f表示原始音频信号,θ表示处理音频信号,Xlog_mel表示xt,f的Log Mel-Spectrogram,Dk表示多尺度判别器、多周期判别器和预设数量层的空洞卷积组成的判别器,k=1,2,3,也就是D1,D2和D3。
在训练时,从训练集中迭代送入数据进行训练,使用梯度下降法不断优化损失函数值,训练生成式对抗网络中的权值(weight),使得回归无限接近,然后将生成器的权值作为生成器的优化参数。
S116、利用生成器的优化参数构建声码器。
在该实施例中,训练好的生成器的参数可以用做声码器的参数,或者可以直接使用训练好的生成器(丢弃判别器)作为声码器。
本申请实施例中使用的声码器训练步骤,首先构建生成式对抗网络;其次,从原始音频信号提取带有原始音频特征的梅尔谱图;第三,将梅尔谱图输入生成式对抗网络的生成器,通过生成器对原始音频特征进行处理,得到原始音频特征对应的处理音频信号;第四,将处理音频信号和原始音频信号发送至判别器,以使判别器分别对处理音频信号和原始音频信号进行判别,得到判别结果;第五,根据判别结果,利用所确定的损失函数,对生成式对抗网络进行训练;第六,直至得到训练好的生成器的优化参数;第七,根据生成器的优化参数,构建声码器。进而,可利用声码器,生成各个基频音调值分别对应的目标信号,进而融合全部目标信号,得到目标声源,能够丰富谐波细节,使得频谱更清晰,进而能够提高音频音质和自然度。
此外,本申请实施例还可以涉及独立的训练方法,用于训练神经网络型声码器。
此外,本申请实施例还可以用于生成音频的神经网络型声码器,其是利用对抗式生成网络训练而成,并且可以由已知的声码器改造成双输入输出获得更高的音色还原度,情感和风格变化更加丰富的音频如歌声;此外该声码器还通过改造声码器的其他已知模块或其他特征获得进一步的效果。该声码器还可以表示为SourceFilterGAN。
在本申请实施例中,提供一种电子设备,包括:处理器和存储有计算机程序的存储器,所述处理器被配置为在运行计算机程序时执行任一本申请实施例的音频生成方法。
在本申请实施例中,提供另一种电子设备,包括:处理器和存储有计算机程序的存储器,所述处理器被配置为在运行计算机程序时执行任一本申请实施例的音乐合成方法。
在本申请实施例中,提供又一种电子设备,包括:处理器和存储有计算机程序的存储器,所述处理器被配置为在运行计算机程序时执行任一本申请实施例的声码器的训练方法。
图14示出了一种可以实施本申请实施例的方法或实现本申请实施例的电子设备1400的示意图,在一些实施例中可以包括比图示更多或更少的电子设备。在一些实施例中,可以利用单个或多个电子设备实施。在一些实施例中,可以利用云端或分布式的电子设备实施。
如图14所示,电子设备1400包括处理器1401,其可以根据存储在只读存储器(ROM)1402中的程序和/或数据或者从存储部分1408加载到随机访问存储器(RAM)1403中的程序和/或数据而执行各种适当的操作和处理。处理器1401可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器1401可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如,中央处理器(CPU)、图形处理器(GPU)、神经网络处理器(NPU)、数字信号处理器(DSP)等等。在RAM 1403中,还存储有电子设备1400操作所需的各种程序和数据。处理器1401、ROM 1402以及RAM 1403通过总线1404彼此相连。输入/输出(I/O)接口1405也连接至总线1404。
上述处理器与存储器共同用于执行存储在存储器中的程序,所述程序被计算机执行时能够实现上述各实施例描述的方法、步骤或功能。
以下部件连接至I/O接口1405:包括键盘、鼠标、触摸屏等的输入部分1406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1407;包括硬盘等的存储部分1408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1409。通信部分1409经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口1405。可拆卸介质1411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分1408。图14中仅示意性示出部分组件,并不意味着计算机系统900只包括图14所示组件。
上述实施例阐明的系统、装置、模块或单元,可以由计算机或其关联部件实现。计算机例如可以为移动终端、智能电话、个人计算机、膝上型计算机、车载人机交互设备、个人数字助理、媒体播放器、导航设备、游戏控制台、平板电脑、可穿戴设备、智能电视、物联网系统、智能家居、工业计算机、服务器或者其组合。
尽管未示出,在本申请实施例中,提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序配置成被运行时执行任一本申请实施例的音频生成方法。
在本申请实施例中,还提供另一种存储介质,所述存储介质存储有计算机程序,所述计算机程序配置成被运行时执行任一本申请实施例的音乐合成方法。
在本申请实施例中,还提供又一种存储介质,所述存储介质存储有计算机程序,所述计算机程序配置成被运行时执行任一本申请实施例的生成器的训练方法。
在本申请的实施例的存储介质包括永久性和非永久性、可移动和非可移动的可以由任何方法或技术来实现信息存储的物品。存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
在本申请的实施例的方法、程序、系统、装置等,可以在单个或多个连网的计算机中执行或实现,也可以在分布式计算环境中实践。在本说明书实施例中,在这些分布式计算环境中,可以由通过通信网络而被连接的远程处理设备来执行任务。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本领域技术人员可想到,上述实施例阐明的功能模块/单元或控制器以及相关方法步骤的实现,可以用软件、硬件和软/硬件结合的方式实现。
除非明确指出,根据本申请实施例记载的方法、程序的动作或步骤并不必须按照特定的顺序来执行并且仍然可以实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本文中,针对本申请的多个实施例进行了描述,但为简明起见,各实施例的描述并不是详尽的,各个实施例之间相同或相似的特征或部分可能会被省略。在本文中,“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”意指适用于根据本申请的至少一个实施例或示例中,而非所有实施例。上述术语并不必然意味着指代相同的实施例或示例。在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
已参考上述实施例具体示出并描述了本申请的示例性系统及方法,其仅为实施本系统及方法的最佳模式的示例。本领域的技术人员可以理解的是可以在实施本系统及/或方法时对这里描述的系统及方法的实施例做各种改变而不脱离界定在所附权利要求中的本申请的精神及范围。
Claims (11)
1.一种音频生成方法,其特征在于,包括:
获取待生成音频的梅尔谱图;
将所述梅尔谱图输入神经网络型声码器,其中所述神经网络型声码器包括基频提取模块、波发生模块和生成器网络模块;
由所述基频提取模块从所述梅尔谱图中提取多个音频帧的基频音调值,由所述波发生模块将多个所述基频音调值对应的周期性波信号进行融合得到融合声源信号,由所述生成器网络模块利用融合声源信号和梅尔谱图生成目标音频。
2.根据权利要求1所述的音频生成方法,其特征在于,所述基频提取模块包括梅尔谱划分子模块、梅尔预测网络子模块、梅尔编码子模块和音调预测子模块;
所述由所述基频提取模块从所述梅尔谱图中提取多个音频帧的基频音调值,包括:
由所述梅尔谱划分子模块将所述梅尔谱图划分为多帧子图;
由所述梅尔预测网络子模块对每一帧所述子图进行卷积,生成第一中间音调值;
由所述梅尔编码子模块对所述第一中间音调值进行卷积和归一化处理,生成第二中间音调值;
由所述音调预测子模块对所述第二中间音调值进行卷积、激活和归一化处理,得到多个基频音调值。
3.根据权利要求1所述的音频的生成方法,其特征在于,所述波发生模块包括周期性波发生器子模块和源过滤子网络;
所述由所述波发生模块将多个所述基频音调值对应的周期性波信号进行融合得到融合声源信号,包括:
由所述周期性波发生器子模块生成各个所述基频音调值分别对应的周期性波信号;以及由所述源过滤子网络融合所述周期性波信号,得到所述融合声源信号。
4.根据权利要求1所述的音频生成方法,其特征在于,所述生成器网络模块包括频段切分子模块、波网子模块及频段合成子模块,
所述由所述生成器网络模块利用融合声源信号和梅尔谱图生成目标音频,包括:
由所述频段切分子模块对所述融合声源信号进行频段切分,得到至少两个第一频段信号;
针对各个所述第一频段信号,将所述第一频段信号和所述梅尔谱图输入所述波网子模块,得到第二频段信号;
将各个所述第二频段信号输入所述频段合成子模块,合成所述目标音频。
5.根据权利要求4所述的音频生成方法,其特征在于,所述波网子模块为双输入波网模块;则所述将所述第一频段信号和所述梅尔谱图输入所述波网子模块,得到第二频段信号,包括:
将所述第一频段信号输入所述双输入波网模块的空洞卷积层以得到至少两个第一子频段;
将所述梅尔谱图输入所述双输入波网模块的卷积层以得到至少两个子梅尔谱图;
将各所述第一子频段与各所述子梅尔谱图合并输入到至少两个激活函数以得到至少两个中间音频;
将所述至少两个中间音频叉乘输入卷积层以得到所述第二频段信号。
6.根据权利要求4所述的音频生成方法,其特征在于,所述频段切分子模块为多相正交镜像过滤器分解模块;频段合成子模块为多相正交镜像过滤器合成模块;
由所述频段切分子模块对所述融合声源信号进行频段切分,得到至少两个第一频段信号,包括:利用所述多相正交镜像过滤器分解模块对所述融合声源信号进行频段滤波得到位于不同频段的所述第一频段信号;
将各个所述第二频段信号输入所述频段合成子模块,合成所述目标音频,包括:利用多相正交镜像过滤器合成模块对所述第二频段信号进行频段叠加以合成所述目标音频。
7.根据权利要求1所述的音频生成方法,其特征在于,所述获取待生成音频的梅尔谱图,包括:
获取对应目标音频的目标乐谱信息;
从所述目标乐谱信息中确定目标歌词音素序列和目标乐理特征;
将所述目标歌词音素序列和所述目标乐理特征输入训练好的声学模型,得到所述待生成音频的梅尔谱图。
8.根据权利要求1所述的音频生成方法,其特征在于,所述音频生成方法还包括:
构建生成式对抗网络,所述生成式对抗网络包括生成器和判别器;
从样本音频信号提取带有样本音频特征的训练用梅尔谱图;
将所述训练用梅尔谱图输入所述生成式对抗网络的生成器,通过所述生成器对所述样本音频特征进行处理,得到所述样本音频特征对应的处理音频信号;
将所述处理音频信号和所述样本音频信号发送至所述判别器,以使所述判别器分别对所述处理音频信号和所述样本音频信号进行判别,得到判别结果;
根据所述判别结果迭代更新所述生成式对抗网络,直至训练完成;
利用训练好的生成式对抗网络的生成器构建所述神经网络型声码器。
9.根据权利要求8所述的音频生成方法,其特征在于,所述判别器包括多个并行判别器,所述并行判别器包括多尺度判别器、多周期判别器和由预设数量的空洞卷积层组成的判别器。
10.一种电子设备,其特征在于,包括:处理器和存储有计算机程序的存储器,所述处理器被配置为在运行计算机程序时实现权利要求1-9中任一项所述的音频生成方法。
11.一种存储介质,其上存储有计算机程序,其中,所述程序被处理器运行时实现权利要求1-9中任一项所述的音频生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310923000.8A CN116705056A (zh) | 2023-07-25 | 2023-07-25 | 音频生成方法、声码器、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310923000.8A CN116705056A (zh) | 2023-07-25 | 2023-07-25 | 音频生成方法、声码器、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116705056A true CN116705056A (zh) | 2023-09-05 |
Family
ID=87845374
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310923000.8A Pending CN116705056A (zh) | 2023-07-25 | 2023-07-25 | 音频生成方法、声码器、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116705056A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117289208A (zh) * | 2023-11-24 | 2023-12-26 | 北京瑞森新谱科技股份有限公司 | 一种声源定位方法和装置 |
-
2023
- 2023-07-25 CN CN202310923000.8A patent/CN116705056A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117289208A (zh) * | 2023-11-24 | 2023-12-26 | 北京瑞森新谱科技股份有限公司 | 一种声源定位方法和装置 |
CN117289208B (zh) * | 2023-11-24 | 2024-02-20 | 北京瑞森新谱科技股份有限公司 | 一种声源定位方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yin et al. | Phasen: A phase-and-harmonics-aware speech enhancement network | |
US11282505B2 (en) | Acoustic signal processing with neural network using amplitude, phase, and frequency | |
Eskimez et al. | Adversarial training for speech super-resolution | |
CN108198566B (zh) | 信息处理方法及装置、电子设备及存储介质 | |
US20230317056A1 (en) | Audio generator and methods for generating an audio signal and training an audio generator | |
Bak et al. | Avocodo: Generative adversarial network for artifact-free vocoder | |
CN116705056A (zh) | 音频生成方法、声码器、电子设备及存储介质 | |
JP7124373B2 (ja) | 学習装置、音響生成装置、方法及びプログラム | |
Peer et al. | Phase-aware deep speech enhancement: It's all about the frame length | |
WO2022005615A1 (en) | Speech enhancement | |
Chen et al. | Audio style transfer using shallow convolutional networks and random filters | |
Saleem et al. | Multi-objective long-short term memory recurrent neural networks for speech enhancement | |
JP2019139102A (ja) | 音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム | |
Do et al. | Speech Separation in the Frequency Domain with Autoencoder. | |
Yechuri et al. | A nested U-net with efficient channel attention and D3Net for speech enhancement | |
Kantamaneni et al. | Speech enhancement with noise estimation and filtration using deep learning models | |
Jain et al. | ATT: Attention-based timbre transfer | |
Nustede et al. | Towards speech enhancement using a variational U-Net architecture | |
CN116013343A (zh) | 语音增强方法、电子设备和存储介质 | |
US11776528B2 (en) | Method for changing speed and pitch of speech and speech synthesis system | |
Doumanidis et al. | Rnnoise-ex: Hybrid speech enhancement system based on rnn and spectral features | |
Lee | Deep learning restoration of signals with additive and convolution noise | |
CN113066472A (zh) | 合成语音处理方法及相关装置 | |
Pan et al. | PVGAN: A Pathological Voice Generation Model Incorporating a Progressive Nesting Strategy | |
CN112712812B (zh) | 音频信号生成方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |