CN116072134A - 基于dct-ddpm的音乐音频修复方法及系统 - Google Patents

基于dct-ddpm的音乐音频修复方法及系统 Download PDF

Info

Publication number
CN116072134A
CN116072134A CN202310105130.0A CN202310105130A CN116072134A CN 116072134 A CN116072134 A CN 116072134A CN 202310105130 A CN202310105130 A CN 202310105130A CN 116072134 A CN116072134 A CN 116072134A
Authority
CN
China
Prior art keywords
convolution
module
audio
dct
ddpm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310105130.0A
Other languages
English (en)
Inventor
魏骁勇
刘凯洋
杨震群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202310105130.0A priority Critical patent/CN116072134A/zh
Publication of CN116072134A publication Critical patent/CN116072134A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于DCT‑DDPM的音乐音频修复方法及系统,属于语音处理领域和深度学习领域,解决现有技术只能进行无条件修改,无法还原原始片段信息的问题。本发明包括1)音乐音频数据的获取;2)将音频数据变换到频域;3)处理得到带有Mask的梅尔频谱图;4)训练DCT‑DDPM;5)基于训练好的DCT‑DDPM对对音频进行修复;6)将修复得到的梅尔频谱图变换到时域。本发明用于音乐音频修复。

Description

基于DCT-DDPM的音乐音频修复方法及系统
技术领域
一种基于DCT-DDPM的音乐音频修复方法及系统,用于音乐音频修复,属于语音处理领域和深度学习领域。
背景技术
音频信号在传输和存储的过程中经常会有部分损坏。例如,音频信号在远距离传输时会产生丢包现象,在用光盘等介质存储时,如果介质的一部分损毁,也会导致音频信号的局部损坏。而一项基于音频上下文的语义信息从损坏的音频片段(也称间隙)中恢复信息的研究被称为音频修复。
在音乐音频修复领域,当音乐音频信号损坏的间隙长度不超过100ms时,音频修复的目的是根据上下文特征精确恢复原始信号,这方面的现有研究有基于稀疏度的、基于概率非负矩阵分解或基于神经网络的模型。然而,对于几百甚至几千毫秒的长间隙(大于100ms),在没有额外信息的情况下,要精确地恢复音频信号丢失的信息是不切实际的。
因此,目前的相关工作对长空隙进行修复的首要目的是生成与上下文语义兼容的片段来插入到间隙中,使得人们在听到音频时不会或尽量少地产生突兀感。一项现有研究试图通过利用音频信号中已有的信息,将合适的候选片段插入空隙中,这种方法不需要收集数据进行训练,但是其局限性也很大,因为无法产生新的信息,而现有的信息在很多情况下不一定适合插入。另外的一项工作使用包含多尺度上下文编码器的生成对抗网络(GAN),在频域生成音频片段,这种方法在训练数据量小时生成的音频片段质量很差,同时只能修复固定长度的间隙,例如480ms,960ms,很难在实际应用。另外,目前已有的音频修复工作集中于无条件修复,也就是说只能生成新的片段,而无法还原原始片段的信息。
综上所述,现有的音频修复方法存在如下技术问题:
1.只能进行无条件修改,无法还原原始片段信息的问题,当听众听到熟悉的音乐时会产生很大的不适应感;
2.传统的机器学习方法只能修复100ms以下的片段,而现有的深度学习方法在修复100ms以上的片段时,只能修复固定长度的片段,对于不同长度的片段要重新训练;
3.现有的机器学习和深度学习方法生成的片段质量不佳,和上下文片段的旋律和清晰度有较大差距;
4.现有的机器学习和深度学习方法鲁棒性差,在跨数据集修复时,即使是同种乐器,若音频内容特征有差距,那么修复的质量也会大大降低。
发明内容
针对上述研究的问题,本发明的目的在于提供一种基于DCT-DDPM的音乐音频修复方法及系统,解决现有技术只能进行无条件修改,无法还原原始片段信息的问题。
为了达到上述目的,本发明采用如下技术方案:
一种基于DCT-DDPM的音乐音频修复方法,包括如下步骤:
步骤1:获取音乐的音频及对应音频的乐谱,其中,乐谱为MIDI文件;
步骤2:使用短时傅里叶变换和梅尔滤波器将音频转换为梅尔频谱图,并把梅尔频谱图平均切分,将乐谱转换为pianoroll格式,转换后并进行切分,将切分后的音频的梅尔频谱图和pianoroll格式的乐谱对齐;
步骤3:将梅尔频谱图的随机范围替换为高斯噪声作为Mask,得到带有Mask的梅尔频谱图,其中,Mask表示遮挡;
步骤4:在无条件修复的情况下,将带有Mask的梅尔频谱图和步骤2得到的梅尔频谱图使用拼接函数在通道维度上拼接后送入DCT-DDPM进行训练,或在条件修复的情况下,将Pianoroll格式的乐谱特征提取后再与带有Mask的梅尔频谱图使用拼接函数在通道维度上拼接后送入DCT-DDPM进行训练,最后得到对应的训练后的DCT-DDPM,其中,DCT-DDPM为离散余弦变换去噪扩散概率模型;
步骤5:当DCT-DDPM训练完毕后,对于有间隙的音频,将待修复的音频转换为待修复的梅尔频谱图后,在无条件修复的情况下,首先随机初始化一个与待修复的梅尔频谱图形状相同的高斯噪声,然后将待修复的梅尔频谱图和高斯噪声在通道维度拼接后送入DCT-DDPM,得到完整的梅尔频谱图,或在条件修复的情况下,使用乐谱编码器提取待修复的音频所对应的Pianoroll格式的乐谱的乐谱特征后,再与带有Mask的梅尔频谱图在通道维度拼接后送入DCT-DDPM,得到完整的梅尔频谱图;
步骤6:使用神经网络声码器或者PGHI相位重建算法将得到的完整的梅尔频谱图反转为音频波形。
进一步,所述步骤1中,音乐的音频的时长最低为0.5小时,获取的音频的采样率均重采样到24kHZ。
进一步,所述步骤2中,短时傅里叶变换的参数为:win_size=50ms,fft_size=50ms,hop_size=12.5ms,其中,STFT表示短时傅里叶变换,win_size代表STFT中窗函数的窗大小,fft_size代表使用多长的局部数据进行傅里叶变换,hop_size代表窗函数在取不同窗时的重叠范围,hop_size、fft_size和win_size的取值得到梅尔频谱图一帧所对应的音频长度为12.5ms;
切分梅尔频谱图的切分长度为512帧;
pianoroll格式的乐谱与梅尔频谱图的切分方式相同,切分后的pianoroll格式的乐谱与切分后的梅尔频谱图形状相同,其中,切分pianoroll格式的文件包括pretty-midi。
进一步,所述步骤3中,随机范围的取值区间为[0,128],对应的音频长度为0ms到1600ms。
进一步,所述步骤4中,DCT-DDPM的结构为Unet结构,包括结构相对称的编码器和解码器,编码器依次由输入卷积和3个残差模块组成,解码器依次由3个残差模块和输出卷积组成,编码器的最后一个残差模块和解码器的第一个残差模块之间通过另一个残差卷积模块相连接,编码器的第i个残差模块的输出和解码器的第4-i个残差模块的输入跳跃连接,其中,3≥i≥1,跳跃连接指的是编码器第i个残差模块的输出会和解码器的第4-i个残差模块的输入在通道维度拼接后再送入解码器的残差模块;
编码器中的每个残差模块由依次相连接的一个残差卷积模块和一个重采样层组成,其中,编码器中的重采样层为下采样,解码器中的每个残差模块由依次相连接的一个重采样层和一个残差卷积模块组成,其中,解码器中的重采样层为上采样;
在编码器的第一层和解码器的最后一层都有一个单独的卷积,即输入卷积和输出卷积,其分别用于:在无条件修复的情况下,编码器第一层的卷积将梅尔频谱图和带有Mask的梅尔频谱图在通道维度拼接后得到的特征的通道从2变为64,解码器的最后一层卷积把输出数据的通道从64变为1;在条件修复的情况下,将pianoroll格式的乐谱先输入到乐谱编码器中,得到乐谱特征,然后编码器第一层的卷积将乐谱编码器输出的乐谱特征和带有Mask的梅尔频谱图在通道维度拼接后得到的特征的通道从2变为64,解码器的最后一层卷积将输出数据的通道从64变为1。
每个残差卷积模块包括两个并列的卷积模块,两个卷积模块分别接受对应的特征图和time embedding的输入,接受特征图输入的卷积模块由依次相连接的接收特征图输入的正则化函数、激活函数和1×3卷积构成;而接受time embedding输入的卷积模块由依次相连接的接收time embedding输入的激活函数、Linear和1×3卷积构成,两个卷积模块的卷积在编码器中,会让输入的特征的通道维度加倍,在解码器中,会让输入的特征通道的维度减半,time embedding表示时间步嵌入,是DDPM在训练时要根据范围对数据加噪,设定取值范围在[1,1000]之间;
输入的特征图和time embedding分别经过对应的卷积模块后相加,并依次输入到正则化函数、激活函数和DCTS模块中,得到输出的特征图,最后,DCTS模块输出的特征图会加上输入残差卷积模块的特征图作为最终的输出特征图;
DCTS模块包括依次相连接的DCT模块、1×1卷积、激活函数和iDCT,在残差卷积中,所有卷积核步长均为1,即1×1卷积步长为1,DCT模块表示离散余弦变换模块,iDCT表示反离散余弦变换模块;
乐谱编码器的结构包含依次连接的1×1卷积,Transformer层和1×1卷积,第一个卷积将pianoroll格式的乐谱的通道维度从1变换为128,为输入卷积,第二个卷积则将Transformer输出的特征的通道维度从128变换为1,为输出卷积。
进一步,所述步骤6中,得到的完整的梅尔频谱图大于10小时,使用神经网络声码器,否则使用PGHI相位重建算法将得到的完整的梅尔频谱图反转为波形;
神经网络声码器为HifiGAN。
一种基于DCT-DDPM的音乐音频修复系统,
获取模块:获取音乐的音频及对应音频的乐谱,其中,乐谱为MIDI文件;
处理模块:使用短时傅里叶变换和梅尔滤波器将音频转换为梅尔频谱图,并把梅尔频谱图平均切分,将乐谱转换为pianoroll格式,转换后并进行切分,将切分后的音频的梅尔频谱图和pianoroll格式的乐谱对齐;
Mask模块:将梅尔频谱图的随机范围替换为高斯噪声作为Mask,得到带有Mask的梅尔频谱图,其中,Mask表示遮挡;
训练模块:在无条件修复的情况下,将带有Mask的梅尔频谱图和步骤2得到的梅尔频谱图使用拼接函数(torch.cat)在通道维度上拼接后送入DCT-DDPM进行训练,或在条件修复的情况下,将Pianoroll格式的乐谱特征提取后再与带有Mask的梅尔频谱图使用拼接函数(torch.cat)在通道维度上拼接后送入DCT-DDPM进行训练,最后得到对应的训练后的DCT-DDPM,其中,DCT-DDPM为离散余弦变换去噪扩散概率模型;
修复模块:当DCT-DDPM训练完毕后,对于有间隙的音频,将待修复的音频转换为待修复的梅尔频谱图后,在无条件修复的情况下,首先随机初始化一个与待修复的梅尔频谱图形状相同的高斯噪声,然后将待修复的梅尔频谱图和高斯噪声在通道维度拼接后送入DCT-DDPM,得到完整的梅尔频谱图,或在条件修复的情况下,使用乐谱编码器提取待修复的音频所对应的Pianoroll格式的乐谱的乐谱特征后,再与带有Mask的梅尔频谱图在通道维度拼接后送入DCT-DDPM,得到完整的梅尔频谱图;
音频波形处理模块:使用神经网络声码器或者PGHI相位重建算法将得到的完整的梅尔频谱图反转为音频波形。
进一步,所述获取模块中,音乐的音频的时长最低为0.5小时,获取的音频的采样率均重采样到24kHZ;
所述处理模块中,短时傅里叶变换的参数为:win_size=50ms,fft_size=50ms,hop_size=12.5ms,其中,STFT表示短时傅里叶变换,win_size代表STFT中窗函数的窗大小,fft_size代表使用多长的局部数据进行傅里叶变换,hop_size代表窗函数在取不同窗时的重叠范围,hop_size、fft_size和win_size的取值得到梅尔频谱图一帧所对应的音频长度为12.5ms;
切分梅尔频谱图的切分长度为512帧;
pianoroll格式的乐谱与梅尔频谱图的切分方式相同,切分后的pianoroll格式的乐谱与切分后的梅尔频谱图形状相同,其中,切分pianoroll格式的文件包括pretty-midi;
所述Mask模块中,随机范围的取值区间为[0,128],对应的音频长度为0ms到1600ms。
进一步,所述训练模块中,DCT-DDPM的结构为Unet结构,包括结构相对称的编码器和解码器,编码器依次由输入卷积和3个残差模块组成,解码器依次由3个残差模块和输出卷积组成,编码器的最后一个残差模块和解码器的第一个残差模块之间通过另一个残差卷积模块相连接,编码器的第i个残差模块的输出和解码器的第4-i个残差模块的输入跳跃连接,其中,3≥i≥1,跳跃连接指的是编码器第i个残差模块的输出会和解码器的第4-i个残差模块的输入在通道维度拼接后再送入解码器的残差模块;
编码器中的每个残差模块由依次相连接的一个残差卷积模块和一个重采样层组成,其中,编码器中的重采样层为下采样,解码器中的每个残差模块由依次相连接的一个重采样层和一个残差卷积模块组成,其中,解码器中的重采样层为上采样;
在编码器的第一层和解码器的最后一层都有一个单独的卷积,即输入卷积和输出卷积,其分别用于:在无条件修复的情况下,编码器第一层的卷积将梅尔频谱图和带有Mask的梅尔频谱图在通道维度拼接后得到的特征的通道从2变为64,解码器的最后一层卷积把输出数据的通道从64变为1;在条件修复的情况下,将pianoroll格式的乐谱先输入到乐谱编码器中,得到乐谱特征,然后编码器第一层的卷积将乐谱编码器输出的乐谱特征和带有Mask的梅尔频谱图在通道维度拼接后得到的特征的通道从2变为64,解码器的最后一层卷积将输出数据的通道从64变为1。
每个残差卷积模块包括两个并列的卷积模块,两个卷积模块分别接受对应的特征图和time embedding的输入,接受特征图输入的卷积模块由依次相连接的接收特征图输入的正则化函数、激活函数和1×3卷积构成;而接受time embedding输入的卷积模块由依次相连接的接收time embedding输入的激活函数、Linear和1×3卷积构成,两个卷积模块的卷积在编码器中,会让输入的特征的通道维度加倍,在解码器中,会让输入的特征通道的维度减半,time embedding表示时间步嵌入,是DDPM在训练时要根据范围对数据加噪,设定取值范围在[1,1000]之间;
输入的特征图和time embedding分别经过对应的卷积模块后相加,并依次输入到正则化函数、激活函数和DCTS模块中,得到输出的特征图,最后,DCTS模块输出的特征图会加上输入残差卷积模块的特征图作为最终的输出特征图;
DCTS模块包括依次相连接的DCT模块、1×1卷积、激活函数和iDCT,在残差卷积中,所有卷积核步长均为1,即1×1卷积步长为1,iDCT表示反离散余弦变换模块;
乐谱编码器的结构包含依次连接的1×1卷积,Transformer层和1×1卷积,第一个卷积将pianoroll格式的乐谱的通道维度从1变换为128,为输入卷积,第二个卷积则将Transformer输出的特征的通道维度从128变换为1,为输出卷积。
进一步,所述音频波形处理模块中,得到的完整的梅尔频谱图大于10小时,使用神经网络声码器,否则使用PGHI相位重建算法将得到的完整的梅尔频谱图反转为波形;
神经网络声码器为HifiGAN。
本发明同现有技术相比,其有益效果表现在:
一、本发明使用DCT-DDPM对音乐音频进行修复,相较于目前相关工作使用的GAN,训练更加稳定,生成的音频片段效果更加真实自然,能够和信号上下文兼容,并且利于在需要轻量化模型的环境下部署;
二、本发明是在结合梅尔谱特征的情况下,提出了一种基于快速傅里叶变换结构的模型DCT-DDPM,将DDPM的模型参数缩减到10M,建模能力降低很多,并能够保证修复的质量,即因加入DCTS(DCT Structure)模块,其使用了不需要训练的DCT和iDCT模块,当特征图输入时即可通过变换获得全局感受野,同时能够捕捉梅尔谱图像的频率信息。DCTS能够在不增加参数的情况下很好保证的模型的生成质量;另外,作为一种频域变换方法,DCT变换后得到的输出仍然是实值,这使得pytorch等深度学习框架更好处理。
三、本发明处理音频数据时添加随机Mask,以增强模型(DCT-DDPM)的鲁棒性,使得模型在训练好后能够修复随机长度的音乐音频间隙,相较于目前只能修复固定长度间隙的工作,应用价值有大幅度提高;
四、本发明能够融合音频对应的乐谱特征,生成和原始音频片段信息相似的片段,能够极大地减少人们听到修复片段时的突兀感,特别是在修复大众熟悉的音乐时;
五、本发明融合了FFTS和Unet结构,能够让轻量级的模型有较好的修复质量,同时增加了模型推理的速度;
六、本发明在修复间隙时,对于间隙的位置没有要求,能够处理处于片段开始或末尾的间隙,相较于之前的工作具有更广泛的应用场景。
附图说明
图1为本发明的流程示意图;
图2为本发明的具体流程,包括无条件修复和有条件修复;
图3为本发明中音乐的音频片段与其对应的pianoroll矩阵的示意图;
图4为本发明中DCT-DDPM的模型结构;
图5为本发明生成的效果图,其中,图表示的是时长为6.4s的音乐修复的梅尔谱示例,白色条带部分表示修复区域,修复区域的长度为1.6s。
具体实施方式
下面将结合附图及具体实施方式对本发明作进一步的描述。
发明提供了基于DCT-DDPM的音乐音频修复方法,解决现有研究修复质量差,只能修复固定长度片段的问题,同时能够根据乐谱还原原始片段的信息。
本发明的主要流程包括:1)音乐音频数据的获取;2)将音频数据变换到频域;3)处理得到带有Mask的梅尔频谱图;4)训练DCT-DDPM;5)基于训练好的DCT-DDPM对对音频进行修复;6)将修复得到的梅尔频谱图变换到时域。具体实现步骤如下:
一、音乐音频数据的获取
获取音乐音频数据,例如钢琴,小提琴等单乐器演奏音频或弦乐四重奏等多乐器演奏音频,所需的音频数据时长最低为0.5小时,获取的音频采样率均重采样到24kHZ,在条件修复的情况下,还要获取音频片段对应的乐谱(MIDI文件)。
二、将音频数据变换到频域
使用STFT(短时傅里叶变换)和梅尔滤波器将音频转换为梅尔频谱图,并把梅尔频谱图平均切分为一定长度,STFT的详细参数为:hop_size=12.5ms,fft_size=40ms,win_size=12.5ms,因此得到的梅尔频谱图一帧所对应的音频长度为12.5ms。切分梅尔谱时的切分长度为512帧。最终获得的梅尔频谱图的形状为(1,80,512),在条件修复的情况下,还需将MIDI文件变为pianoroll格式的乐谱,并进行切分,切分后和切分的音频的梅尔频谱图对齐。pianoroll是一种用矩阵表示乐谱信息的格式,形状和梅尔频谱图完全一致。和梅尔频谱图以相同的方式切分后,形状同样为(1,128,512),其中,128代表音高;
得到带有Mask的梅尔频谱图将梅尔频谱图的随机范围替换为高斯噪声作为Mask,得到带有Mask的梅尔频谱图,其中,Mask表示遮挡,即将音频转换得到的梅尔频谱图随机裁剪间隙并用高斯噪声填充间隙,间隙的范围区间为[0,128],对应的音频长度为0ms到1600ms。
四、训练DCT-DDPM
将带有Mask的梅尔频谱图和音频转换得到梅尔频谱图使用拼接函数在通道维度上拼接后送入DCT-DDPM进行训练;
DCT-DDPM的结构为Unet结构,其Encoder(编码器)和Decoder(解码器)结构对称,编码器依次由输入卷积和3个残差模块组成,解码器依次由3个残差模块和输出卷积组成,编码器的最后一个残差模块和解码器的第一个残差模块之间通过另一个残差卷积模块相连接,编码器的第i个残差模块的输出和解码器的第4-i个残差模块的输入跳跃连接,其中,3≥i≥1,跳跃连接指的是编码器第i个残差模块的输出会和解码器的第4-i个残差模块的输入在通道维度拼接后再送入解码器的残差模块;
编码器中的每个残差模块由依次相连接的一个残差卷积模块和一个重采样层组成,其中,编码器中的重采样层为下采样,解码器中的每个残差模块由依次相连接的一个重采样层和一个残差卷积模块组成,其中,解码器中的重采样层为上采样;
在编码器的第一层和解码器的最后一层都有一个单独的卷积,即输入卷积和输出卷积,其分别用于:在无条件修复的情况下,编码器第一层的卷积将梅尔频谱图和带有Mask的梅尔频谱图在通道维度拼接后得到的特征的通道从2变为64,解码器的最后一层卷积把输出数据的通道从64变为1;在条件修复的情况下,将pianoroll格式的乐谱先输入到乐谱编码器中,得到乐谱特征,然后编码器第一层的卷积将乐谱编码器输出的乐谱特征和带有Mask的梅尔频谱图在通道维度拼接后得到的特征的通道从2变为64,解码器的最后一层卷积将输出数据的通道从64变为1。
每个残差卷积模块包括两个并列的卷积模块,两个卷积模块分别接受对应的特征图和time embedding的输入,接受特征图输入的卷积模块由依次相连接的接收特征图输入的正则化函数、激活函数和1×3卷积构成;而接受time embedding输入的卷积模块由依次相连接的接收time embedding输入的激活函数、Linear和1×3卷积构成,两个卷积模块的卷积在编码器中,会让输入的特征的通道维度加倍,在解码器中,会让输入的特征通道的维度减半,time embedding表示时间步嵌入,是DDPM在训练时要根据范围对数据加噪,设定取值范围在[1,1000]之间;
输入的特征图和time embedding分别经过对应的卷积模块后相加,并依次输入到正则化函数、激活函数和DCTS模块中,得到输出的特征图,最后,DCTS模块输出的特征图会加上输入残差卷积模块的特征图作为最终的输出特征图;
DCTS模块包括依次相连接的DCT模块、1×1卷积、激活函数和iDCT,在残差卷积中,所有卷积核步长均为1,即1×1卷积步长为1,DCT模块表示离散余弦变换模块,iDCT表示反离散余弦变换模块;
乐谱编码器的结构包含依次连接的1×1卷积,Transformer层和1×1卷积,第一个卷积将pianoroll格式的乐谱的通道维度从1变换为128,为输入卷积,第二个卷积则将Transformer输出的特征的通道维度从128变换为1,为输出卷积。
五、基于训练好的DCT-DDPM对对音频进行修复
当DCT-DDPM训练完毕后,对于有间隙的音频,将待修复的音频转换为待修复的梅尔频谱图后,在无条件修复的情况下,首先随机初始化一个与待修复的梅尔频谱图形状相同的高斯噪声,然后将待修复的梅尔频谱图和高斯噪声在通道维度拼接后送入DCT-DDPM,得到完整的梅尔频谱图,或在条件修复的情况下,将待修复的音频所对应的Pianoroll格式的乐谱提取得到的乐谱特征与带有Mask的梅尔频谱图在通道维度拼接后送入DCT-DDPM,得到完整的梅尔频谱图。
六、将梅尔频谱图变换到时域
在步骤5中获得了修复后的梅尔频谱图之后,使用神经网络声码器或者PGHI相位重建算法声码器将梅尔频谱图反转为音频波形。神经网络声码器可以选用HifiGAN等。由于神经网络声码器需要一定量的数据进行训练,建议当数据量大于10小时时使用神经网络声码器,否则使用PGHI相位重建算法将梅尔频谱图反转为波形。
目前,音乐音频修复领域的主流方法是深度学习方法,而DDPM作为一种最近逐渐受到图像领域关注的生成式模型,相对于GAN具有训练稳定,生成质量高的特点。将DCT-DDPM应用于音乐音频修复领域,能够获得比GAN更好的修复效果。同时本方法提出了融合音频乐谱信息的方式,在提供音频片段对应的乐谱的情况下,能够生成高度还原原始音乐片段的新片段。本方法相较于传统的机器学习算法或者生成对抗网络的方法,能够修复更长的间隙,同时本方法能够根据损毁片段的乐谱信息生成高度还原原始片段的新音频片段,这是之前的方法所不具备的。
以上仅是本发明众多具体应用范围中的代表性实施例,对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案,均落在本发明权利保护范围之内。

Claims (10)

1.一种基于DCT-DDPM的音乐音频修复方法,其特征在于,包括如下步骤:
步骤1:获取音乐的音频及对应音频的乐谱,其中,乐谱为MIDI文件;
步骤2:使用短时傅里叶变换和梅尔滤波器将音频转换为梅尔频谱图,并把梅尔频谱图平均切分,将乐谱转换为pianoroll格式,转换后并进行切分,将切分后的音频的梅尔频谱图和pianoroll格式的乐谱对齐;
步骤3:将梅尔频谱图的随机范围替换为高斯噪声作为Mask,得到带有Mask的梅尔频谱图,其中,Mask表示遮挡;
步骤4:在无条件修复的情况下,将带有Mask的梅尔频谱图和步骤2得到的梅尔频谱图使用拼接函数在通道维度上拼接后送入DCT-DDPM进行训练,或在条件修复的情况下,将Pianoroll格式的乐谱特征提取后再与带有Mask的梅尔频谱图使用拼接函数在通道维度上拼接后送入DCT-DDPM进行训练,最后得到对应的训练后的DCT-DDPM,其中,DCT-DDPM为离散余弦变换去噪扩散概率模型;
步骤5:当DCT-DDPM训练完毕后,对于有间隙的音频,将待修复的音频转换为待修复的梅尔频谱图后,在无条件修复的情况下,首先随机初始化一个与待修复的梅尔频谱图形状相同的高斯噪声,然后将待修复的梅尔频谱图和高斯噪声在通道维度拼接后送入DCT-DDPM,得到完整的梅尔频谱图,或在条件修复的情况下,使用乐谱编码器提取待修复的音频所对应的Pianoroll格式的乐谱的乐谱特征后,再与带有Mask的梅尔频谱图在通道维度拼接后送入DCT-DDPM,得到完整的梅尔频谱图;
步骤6:使用神经网络声码器或者PGHI相位重建算法将得到的完整的梅尔频谱图反转为音频波形。
2.根据权利要求1所述的一种基于DCT-DDPM的音乐音频修复方法,其特征在于:所述步骤1中,音乐的音频的时长最低为0.5小时,获取的音频的采样率均重采样到24kHZ。
3.根据权利要求2所述的一种基于DCT-DDPM的音乐音频修复方法,其特征在于:所述步骤2中,短时傅里叶变换的参数为:win_size=50ms,fft_size=50ms,hop_size=12.5ms,其中,STFT表示短时傅里叶变换,win_size代表STFT中窗函数的窗大小,fft_size代表使用多长的局部数据进行傅里叶变换,hop_size代表窗函数在取不同窗时的重叠范围,hop_size、fft_size和win_size的取值得到梅尔频谱图一帧所对应的音频长度为12.5ms;
切分梅尔频谱图的切分长度为512帧;
pianoroll格式的乐谱与梅尔频谱图的切分方式相同,切分后的pianoroll格式的乐谱与切分后的梅尔频谱图形状相同,其中,切分pianoroll格式的文件包括pretty-midi。
4.根据权利要求3所述的一种基于DCT-DDPM的音乐音频修复方法,其特征在于:所述步骤3中,随机范围的取值区间为[0,128],对应的音频长度为0ms到1600ms。
5.根据权利要求4所述的一种基于DCT-DDPM的音乐音频修复方法,其特征在于:所述步骤4中,DCT-DDPM的结构为Unet结构,包括结构相对称的编码器和解码器,编码器依次由输入卷积和3个残差模块组成,解码器依次由3个残差模块和输出卷积组成,编码器的最后一个残差模块和解码器的第一个残差模块之间通过另一个残差卷积模块相连接,编码器的第i个残差模块的输出和解码器的第4-i个残差模块的输入跳跃连接,其中,3≥i≥1,跳跃连接指的是编码器第i个残差模块的输出会和解码器的第4-i个残差模块的输入在通道维度拼接后再送入解码器的残差模块;
编码器中的每个残差模块由依次相连接的一个残差卷积模块和一个重采样层组成,其中,编码器中的重采样层为下采样,解码器中的每个残差模块由依次相连接的一个重采样层和一个残差卷积模块组成,其中,解码器中的重采样层为上采样;
在编码器的第一层和解码器的最后一层都有一个单独的卷积,即输入卷积和输出卷积,其分别用于:在无条件修复的情况下,编码器第一层的卷积将梅尔频谱图和带有Mask的梅尔频谱图在通道维度拼接后得到的特征的通道从2变为64,解码器的最后一层卷积把输出数据的通道从64变为1;在条件修复的情况下,将pianoroll格式的乐谱先输入到乐谱编码器中,得到乐谱特征,然后编码器第一层的卷积将乐谱编码器输出的乐谱特征和带有Mask的梅尔频谱图在通道维度拼接后得到的特征的通道从2变为64,解码器的最后一层卷积将输出数据的通道从64变为1。
每个残差卷积模块包括两个并列的卷积模块,两个卷积模块分别接受对应的特征图和time embedding的输入,接受特征图输入的卷积模块由依次相连接的接收特征图输入的正则化函数、激活函数和1×3卷积构成;而接受time embedding输入的卷积模块由依次相连接的接收time embedding输入的激活函数、Linear和1×3卷积构成,两个卷积模块的卷积在编码器中,会让输入的特征的通道维度加倍,在解码器中,会让输入的特征通道的维度减半,time embedding表示时间步嵌入,是DDPM在训练时要根据范围对数据加噪,设定取值范围在[1,1000]之间;
输入的特征图和time embedding分别经过对应的卷积模块后相加,并依次输入到正则化函数、激活函数和DCTS模块中,得到输出的特征图,最后,DCTS模块输出的特征图会加上输入残差卷积模块的特征图作为最终的输出特征图;
DCTS(离散余弦变换结构)模块包括依次相连接的DCT模块、1×1卷积、激活函数和iDCT,在残差卷积中,所有卷积核步长均为1,即1×1卷积步长为1,DCT模块表示离散余弦变换模块,iDCT表示反离散余弦变换模块;
乐谱编码器的结构包含依次连接的1×1卷积,Transformer层和1×1卷积,第一个卷积将pianoroll格式的乐谱的通道维度从1变换为128,为输入卷积,第二个卷积则将Transformer输出的特征的通道维度从128变换为1,为输出卷积。
6.根据权利要求5所述的一种基于DCT-DDPM的音乐音频修复方法,其特征在于:所述步骤6中,得到的完整的梅尔频谱图大于10小时,使用神经网络声码器,否则使用PGHI相位重建算法将得到的完整的梅尔频谱图反转为波形;
神经网络声码器为HifiGAN。
7.一种基于DCT-DDPM的音乐音频修复系统,其特征在于:
获取模块:获取音乐的音频及对应音频的乐谱,其中,乐谱为MIDI文件;
处理模块:使用短时傅里叶变换和梅尔滤波器将音频转换为梅尔频谱图,并把梅尔频谱图平均切分,将乐谱转换为pianoroll格式,转换后并进行切分,将切分后的音频的梅尔频谱图和pianoroll格式的乐谱对齐;
Mask模块:将梅尔频谱图的随机范围替换为高斯噪声作为Mask,得到带有Mask的梅尔频谱图,其中,Mask表示遮挡;
训练模块:在无条件修复的情况下,将带有Mask的梅尔频谱图和步骤2得到的梅尔频谱图使用拼接函数在通道维度上拼接后送入DCT-DDPM进行训练,或在条件修复的情况下,将Pianoroll格式的乐谱特征提取后再与带有Mask的梅尔频谱图使用拼接函数在通道维度上拼接后送入DCT-DDPM进行训练,最后得到对应的训练后的DCT-DDPM,其中,DCT-DDPM为离散余弦变换去噪扩散概率模型;
修复模块:当DCT-DDPM训练完毕后,对于有间隙的音频,将待修复的音频转换为待修复的梅尔频谱图后,在无条件修复的情况下,首先随机初始化一个与待修复的梅尔频谱图形状相同的高斯噪声,然后将待修复的梅尔频谱图和高斯噪声在通道维度拼接后送入DCT-DDPM,得到完整的梅尔频谱图,或在条件修复的情况下,使用乐谱编码器提取待修复的音频所对应的Pianoroll格式的乐谱的乐谱特征后,再与带有Mask的梅尔频谱图在通道维度拼接后送入DCT-DDPM,得到完整的梅尔频谱图;
音频波形处理模块:使用神经网络声码器或者PGHI相位重建算法将得到的完整的梅尔频谱图反转为音频波形。
8.根据权利要求7所述的一种基于DCT-DDPM的音乐音频修复系统,其特征在于:所述获取模块中,音乐的音频的时长最低为0.5小时,获取的音频的采样率均重采样到24kHZ;
所述处理模块中,短时傅里叶变换的参数为:win_size=50ms,fft_size=50ms,hop_size=12.5ms,其中,STFT表示短时傅里叶变换,win_size代表STFT中窗函数的窗大小,fft_size代表使用多长的局部数据进行傅里叶变换,hop_size代表窗函数在取不同窗时的重叠范围,hop_size、fft_size和win_size的取值得到梅尔频谱图一帧所对应的音频长度为12.5ms;
切分梅尔频谱图的切分长度为512帧;
pianoroll格式的乐谱与梅尔频谱图的切分方式相同,切分后的pianoroll格式的乐谱与切分后的梅尔频谱图形状相同,其中,切分pianoroll格式的文件包括pretty-midi;
所述Mask模块中,随机范围的取值区间为[0,128],对应的音频长度为0ms到1600ms。
9.根据权利要求8所述的一种基于DCT-DDPM的音乐音频修复系统,其特征在于:所述训练模块中,DCT-DDPM的结构为Unet结构,包括结构相对称的编码器和解码器,编码器依次由输入卷积和3个残差模块组成,解码器依次由3个残差模块和输出卷积组成,编码器的最后一个残差模块和解码器的第一个残差模块之间通过另一个残差卷积模块相连接,编码器的第i个残差模块的输出和解码器的第4-i个残差模块的输入跳跃连接,其中,3≥i≥1,跳跃连接指的是编码器第i个残差模块的输出会和解码器的第4-i个残差模块的输入在通道维度拼接后再送入解码器的残差模块;
编码器中的每个残差模块由依次相连接的一个残差卷积模块和一个重采样层组成,其中,编码器中的重采样层为下采样,解码器中的每个残差模块由依次相连接的一个重采样层和一个残差卷积模块组成,其中,解码器中的重采样层为上采样;
在编码器的第一层和解码器的最后一层都有一个单独的卷积,即输入卷积和输出卷积,其分别用于:在无条件修复的情况下,编码器第一层的卷积将梅尔频谱图和带有Mask的梅尔频谱图在通道维度拼接后得到的特征的通道从2变为64,解码器的最后一层卷积把输出数据的通道从64变为1;在条件修复的情况下,将pianoroll格式的乐谱先输入到乐谱编码器中,得到乐谱特征,然后编码器第一层的卷积将乐谱编码器输出的乐谱特征和带有Mask的梅尔频谱图在通道维度拼接后得到的特征的通道从2变为64,解码器的最后一层卷积将输出数据的通道从64变为1。
每个残差卷积模块包括两个并列的卷积模块,两个卷积模块分别接受对应的特征图和time embedding的输入,接受特征图输入的卷积模块由依次相连接的接收特征图输入的正则化函数、激活函数和1×3卷积构成;而接受time embedding输入的卷积模块由依次相连接的接收time embedding输入的激活函数、Linear和1×3卷积构成,两个卷积模块的卷积在编码器中,会让输入的特征的通道维度加倍,在解码器中,会让输入的特征通道的维度减半,time embedding表示时间步嵌入,是DDPM在训练时要根据范围对数据加噪,设定取值范围在[1,1000]之间;
输入的特征图和time embedding分别经过对应的卷积模块后相加,并依次输入到正则化函数、激活函数和DCTS模块中,得到输出的特征图,最后,DCTS模块输出的特征图会加上输入残差卷积模块的特征图作为最终的输出特征图;
DCTS模块包括依次相连接的DCT模块、1×1卷积、激活函数和iDCT,在残差卷积中,所有卷积核步长均为1,即1×1卷积步长为1,DCT模块表示离散余弦变换模块,iDCT表示反离散余弦变换模块;
乐谱编码器的结构包含依次连接的1×1卷积,Transformer层和1×1卷积,第一个卷积将pianoroll格式的乐谱的通道维度从1变换为128,为输入卷积,第二个卷积则将Transformer输出的特征的通道维度从128变换为1,为输出卷积。
10.根据权利要求9所述的一种基于DCT-DDPM的音乐音频修复系统,其特征在于:所述音频波形处理模块中,得到的完整的梅尔频谱图大于10小时,使用神经网络声码器,否则使用PGHI相位重建算法将得到的完整的梅尔频谱图反转为波形;
神经网络声码器为HifiGAN。
CN202310105130.0A 2023-02-07 2023-02-07 基于dct-ddpm的音乐音频修复方法及系统 Pending CN116072134A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310105130.0A CN116072134A (zh) 2023-02-07 2023-02-07 基于dct-ddpm的音乐音频修复方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310105130.0A CN116072134A (zh) 2023-02-07 2023-02-07 基于dct-ddpm的音乐音频修复方法及系统

Publications (1)

Publication Number Publication Date
CN116072134A true CN116072134A (zh) 2023-05-05

Family

ID=86169658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310105130.0A Pending CN116072134A (zh) 2023-02-07 2023-02-07 基于dct-ddpm的音乐音频修复方法及系统

Country Status (1)

Country Link
CN (1) CN116072134A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117789744A (zh) * 2024-02-26 2024-03-29 青岛海尔科技有限公司 基于模型融合的语音降噪方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117789744A (zh) * 2024-02-26 2024-03-29 青岛海尔科技有限公司 基于模型融合的语音降噪方法、装置及存储介质
CN117789744B (zh) * 2024-02-26 2024-05-24 青岛海尔科技有限公司 基于模型融合的语音降噪方法、装置及存储介质

Similar Documents

Publication Publication Date Title
US9135923B1 (en) Pitch synchronous speech coding based on timbre vectors
DE112020004348B4 (de) Feststellen und wiederherstellen von ausserhalb des wortschatzes liegenden wörtern in sprache-zu-text-transkriptionssystemen
CN111508498A (zh) 对话式语音识别方法、系统、电子设备和存储介质
WO2023030235A1 (zh) 目标音频的输出方法及系统、可读存储介质、电子装置
CN111951796B (zh) 语音识别方法及装置、电子设备、存储介质
JP2005049859A (ja) オーディオデータを自動的に認識する方法及び装置
CN112489629A (zh) 语音转写模型、方法、介质及电子设备
CN113781995A (zh) 语音合成方法、装置、电子设备及可读存储介质
US20220262375A1 (en) Deep learning segmentation of audio using magnitude spectrogram
CN116072134A (zh) 基于dct-ddpm的音乐音频修复方法及系统
WO2020175530A1 (ja) データ変換学習装置、データ変換装置、方法、及びプログラム
US20240013775A1 (en) Patched multi-condition training for robust speech recognition
US20220108711A1 (en) Deep learning segmentation of audio using magnitude spectrogram
CN112133288A (zh) 一种语音转文字的处理方法、系统及设备
EP3113180B1 (en) Method for performing audio inpainting on a speech signal and apparatus for performing audio inpainting on a speech signal
KR102555698B1 (ko) 인공지능을 이용한 자동 자막 동기화 방법 및 장치
CN115240645A (zh) 基于注意力重打分的流式语音识别方法
JP7267034B2 (ja) キャプション生成装置、キャプション生成方法、およびプログラム
CN113113033A (zh) 一种音频处理方法、设备及可读存储介质
WO2022082607A1 (en) Vocal track removal by convolutional neural network embedded voice finger printing on standard arm embedded platform
WO2021245771A1 (ja) 学習データ生成装置、モデル学習装置、学習データ生成方法、モデル学習方法、およびプログラム
Chao et al. Time-Reversal Enhancement Network With Cross-Domain Information for Noise-Robust Speech Recognition
WO2021234905A1 (ja) 学習データ生成装置、モデル学習装置、学習データ生成方法、およびプログラム
WO2021234904A1 (ja) 学習データ生成装置、モデル学習装置、学習データ生成方法、およびプログラム
US20240265932A1 (en) Device and method for automatically removing a background sound source of a video

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination