CN113140204A - 一种用于脉冲星信号控制的数字音乐合成方法及设备 - Google Patents
一种用于脉冲星信号控制的数字音乐合成方法及设备 Download PDFInfo
- Publication number
- CN113140204A CN113140204A CN202110441744.7A CN202110441744A CN113140204A CN 113140204 A CN113140204 A CN 113140204A CN 202110441744 A CN202110441744 A CN 202110441744A CN 113140204 A CN113140204 A CN 113140204A
- Authority
- CN
- China
- Prior art keywords
- music
- pulsar
- sample
- loudness
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 70
- 238000000034 method Methods 0.000 claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 43
- 230000005236 sound signal Effects 0.000 claims abstract description 41
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 35
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 30
- 238000001228 spectrum Methods 0.000 claims abstract description 20
- 238000003062 neural network model Methods 0.000 claims abstract description 8
- 239000000203 mixture Substances 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 85
- 238000009826 distribution Methods 0.000 claims description 83
- 239000011159 matrix material Substances 0.000 claims description 70
- 238000005070 sampling Methods 0.000 claims description 37
- 238000009432 framing Methods 0.000 claims description 26
- 239000002131 composite material Substances 0.000 claims description 24
- 230000002194 synthesizing effect Effects 0.000 claims description 21
- 238000012546 transfer Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000012512 characterization method Methods 0.000 claims description 17
- 230000003595 spectral effect Effects 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 8
- 239000000654 additive Substances 0.000 claims description 7
- 230000000996 additive effect Effects 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 7
- 239000012634 fragment Substances 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 4
- 238000006073 displacement reaction Methods 0.000 claims description 4
- 239000002245 particle Substances 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims 3
- 230000008569 process Effects 0.000 abstract description 5
- 238000000605 extraction Methods 0.000 abstract 1
- 238000001914 filtration Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 229910001369 Brass Inorganic materials 0.000 description 1
- 239000010951 brass Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H7/00—Instruments in which the tones are synthesised from a data store, e.g. computer organs
- G10H7/008—Means for controlling the transition from one tone waveform to another
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
Description
技术领域
本发明涉及数字信号处理技术领域,具体地涉及一种用于脉冲星信号控制的数字音乐合成方法及设备。
背景技术
现有技术中,基于深度学习的音乐合成模型一般直接生成音乐的时域波形或频谱图分布,尽管足以表征任意音乐信号,但是这些方法并未利用声音产生、传播和感知的物理原理,模型参数规模巨大,效率较低。
比如,国家专利公开文献CN107871492A,公开了一种“音乐合成方法和系统”,包括获取待合成声音信息,根据待合成声音信息获取对应的线性预测系数;根据线性预测系数获取待合成声音信息的线性预测滤波器;接收乐曲输入信息,根据乐曲输入信息获取待合成乐曲信息;根据待合成乐曲信息与线性预测滤波器进行编码合成得到合成音乐。该发明提供的音乐合成方法直接生成音乐的时域波形和频谱数据,尽管足以表征音乐信号,但是该发明并未利用声音产生、传播和感知的物理原理,模型参数规模巨大,音乐合成效率较低。
发明内容
本发明提供一种用于脉冲星信号控制的数字音乐合成方法及设备,从而解决现有技术的上述问题。
第一方面,本发明提供了一种用于脉冲星信号控制的数字音乐合成方法,包括以下步骤:
S1)获取音乐数据集Set,建立用于数字音乐合成的基于可微分数字信号处理算法的自动编码器模型利用音乐数据集Set对自动编码器模型进行训练,获得训练好的自动编码器模型自动编码器模型包括基频编码器响度编码器和解码器
S11)将音乐数据集按比例划分为训练集TrainSet和测试集TestSet,利用训练集TrainSet和测试集TestSet分别对自动编码器模型进行训练和测试,其中si为第i个原始音乐数据样本,i=1、2、…、Na,Na为原始音乐数据样本总数,每个原始音乐数据样本为预设时长duration的单音道音频数据,且每个原始音乐数据样本包含Nsample个时域采样点,每一个时域采样点对应有一个采样值,Nsample=duration×SR,SR为采样率;训练集TrainSet={sj},sj是训练集中第j个原始音乐数据样本,j=1、2、…、N′a;测试集TestSet={sm},sm为测试集中第m个原始音乐样本,m=1、2、…、N″a;
S12)遍历训练集TrainSet中的所有原始音乐数据样本、并使用汉明窗在预设窗口大小Wframe、预设跳跃大小hopsize、预设重叠度、预设帧长度以及预设每帧位移量下分别对每个原始音乐数据样本进行分帧处理,获得分帧处理后的音频样本集,进行分帧处理后的音频样本集中每个音频样本含有Nframe帧,
S15)使用步骤S13)提取的每个音频样本的基频特征F0以及步骤S14)提取的每个音频样本的响度特征loudness,利用解码器获取每个音频样本的幅度包络Amp、归一化的谐波分布c和滤波器的传递函数H,解码器为由多层感知机、由门控循环单元组成的循环神经网络层和全连接层组成的深度神经网络模型,每个音频样本的每帧输出一个幅度包络值、Nh个基频整数倍谐波的归一化的幅度值和Nfilter个滤波器传递函数的采样值,滤波器的传递函数在0Hz到奈奎斯特频率fnyqist范围内均匀采样,奈奎斯特频每个音频样本的幅度包络Amp的维度为Nframe×1,归一化的谐波分布c的维度为Nframe×Nh,滤波器的传递函数H的维度为Nframe×Nfilter;
S16)根据步骤S13)提取的每个音频样本的基频特征F0和步骤S15)获取的每个音频样本的幅度包络Amp和归一化的谐波分布c,利用加法合成器AddSyn得到采样率为SR且长度为duration的复合音信号sig′h;
S17)利用减法合成器SubSyn对步骤S15)得到的滤波器的传递函数H进行减法合成,得到采样率为SR且长度为duration的滤波的时域噪声信号sig′wn;
S18)将复合音信号sig′h和滤波的时域噪声信号sig′wn进行矩阵加法操作,得到原始音乐数据样本对应的合成音乐信号其中为以第j个原始音乐数据样本sj为原型而合成的数字音乐信号,jj取1、2、…、N′a,获得与训练集TrainSet相对应的合成音乐数据集
进一步的,在步骤S16)中,根据步骤S13)提取的每个音频样本的基频特征F0和步骤S15)获取的每个音频样本的幅度包络Amp和归一化的谐波分布c,利用加法合成器AddSyn得到采样率为SR且长度为duration的复合音信号sig′h,包括以下步骤:
S161)将步骤S13)得到的每个音频样本的基频特征F0与维度为Nh×Nh的矩阵相乘、并使用线性插值进行上采样处理得到基音和泛音的频率分布矩阵freq,频率分布矩阵freq的维度为Nsample×Nh;
S162)利用累计操作函数对频率分布矩阵freq进行列维度的累计操作,得到基音和泛音的相位分布矩阵φ,所述累计操作函数为其中φ[row_i,col_i]为相位分布矩阵的第row_i行、第col_i列的元素值,freq[ii,col_i]是频率分布矩阵freq的第ii行、第col_i列的元素值;
S163)将步骤S15)得到的每个音频样本的幅度包络Amp与维度为1×Nh且元素全为1的矩阵相乘,得到全局幅度Ampt;将步骤S15)得到的归一化的谐波幅度分布c与全局幅度Ampt进行哈达玛积运算,使用线性插值进行上采样处理得到基音和泛音的幅度分布矩阵Amph,幅度分布矩阵Amph的维度为Nsample×Nh;
S164)根据步骤S161)得到的频率分布矩阵freq,将幅度分布矩阵Amph中频率高于奈奎斯特频率fnyqist的幅度值设置为零,得到更新后的基音和泛音的幅度分布矩阵Amp′h;
S165)使用步骤S162)得到的基音和泛音的相位分布矩阵φ和步骤S164)得到的幅度分布矩阵Amp′h,进行正弦函数操作,得到由维度为Nsample×Nh的二维矩阵表示的Nh个的正弦波信号sigh=Amp′hοsinφ,ο表示矩阵的哈达玛积运算,正弦波信号sigh与维度为Nh×1且元素全为1的矩阵相乘,得到由一个基音和Nh-1个泛音组合成的复合音信号sig′h。
进一步的,在步骤S17)中,利用减法合成器SubSyn对步骤S15)得到的滤波器的传递函数H进行减法合成,得到采样率为SR且长度为duration的滤波的时域噪声信号sig′wn,包括以下步骤:
S171)获取取值在[-1,1]范围内且维度为Nsample×1的均匀白噪声sigwn,对均匀白噪声sigwn进行快速傅里叶变换FFT处理,得到快速傅里叶变换处理后的均匀白噪声的频域分布Fsigwn;
S172)对步骤S15)得到的滤波器的传递函数H进行快速傅里叶逆变换处理,得到快速傅里叶逆变换iFFT处理后滤波器的时域波形信号,对快速傅里叶逆变换处理后滤波器的时域波形信号使用汉宁窗进行加权处理,得到滤波器的时变有限脉冲响应sigfilter,所述时变有限脉冲响应sigfilter的维度为Nsample×1,对所述时变有限脉冲响应sigfilter进行FFT处理,得到FFT处理后的滤波器的频域分布H′;
S173)将所述均匀白噪声频域分布Fsigwn和所述FFT处理后的滤波器的频域分布H′相乘后做iFFT处理,得到维度为Nsample×1的滤波的时域噪声信号sig′wn,所述滤波的时域噪声信号sig′wn=iFFT(Fsigwn×H′)。
S191)分别遍历步骤S11)中训练集TrainSet的所有原始音乐数据样本和步骤S18)中合成音乐数据集TrainSet′的所有合成音乐样本、并使用K种尺度的帧进行短时傅里叶变换STFT,得到训练集TrainSet对应的第一幅度频谱函数集合{Sk}和合成音乐数据集TrainSet′对应的第二幅度频谱函数集合Sk为采用第k种帧长度经STFT计算得到的原始音乐样本频谱图函数,为采用第k种帧长度经STFT计算得到的合成音乐样本频谱图函数,k=1,2,…,K,K为帧长度的总种数;
S192)根据所述第一幅度频谱函数集合{Sk}和所述第二幅度频谱函数集合计算K个第一损失函数其中j=jj,Sk,j为采用第k种帧长度经STFT计算得到的原始音乐样本频谱图函数Sk中第j个原始音乐数据样本sj的频谱图函数,为采用第k种帧长度经STFT计算得到的合成音乐样本频谱图函数中以第j个原始音乐数据样本sj为原型而合成的数字音乐信号的频谱图函数;
S193)根据第一幅度频谱函数集合{Sk}和第二幅度频谱函数集合计算K个第二损失函数logSk,j为采用第k种帧长度经STFT计算得到的原始音乐样本频谱图函数Sk中第j个原始音乐数据样本sj的频谱图函数的对数值,为采用第k种帧长度经STFT计算得到的合成音乐样本频谱图函数中以第j个原始音乐数据样本sj为原型而合成的数字音乐信号的频谱图函数的对数值;
S194)对K个第一损失函数和K个第二损失函数进行加法操作,得到经验风险函数集为根据第k种帧长度计算STFT得到的经验风险函数,所述根据第k种帧长度计算STFT得到的经验风险函数α为取值在[0,1]范围内的权重参数;
S21)使用Npulsar颗脉冲星参与音乐合成控制,遍历Npulsar个脉冲星单位周期内的采样值,利用线性插值进行上采样处理,得到长度为duration且采样率为SR的脉冲星音频信号;
S22)利用汉明窗对步骤S21)得到的脉冲星音频信号进行分帧及加权处理,获得分帧后的脉冲星信号,窗口大小为Wframe个时间步,跳跃大小为hopsize个时间步,每个脉冲星信号含有Nframe帧;
S25)对脉冲星的基频特征表示AFF0和脉冲星的响度特征表示AFloudness在特征维度进行矩阵堆叠操作,特征维度是矩阵的第二维,得到脉冲星的特征表示AFX,脉冲星的特征表示AFX的维度为Nframe×2×Npulsar,其中AFX[:,0,:]=AFF0,AFX[:,1,:]=AFloudness。
S31)根据应用场景要求从乐曲库Musics中选取第z首乐曲的音频信号mcsigz,将所述第z首乐曲的音频信号mcsigz拆分成Q个长度为duration的原始音乐片段,利用所述训练好的自动编码器模型中的基频编码器和响度编码器进行音乐片段分析,得到原始音乐片段的特征表示集{AFy,q},其中AFy,q为第q个原始音乐片段msz,q的特征表示,q=1、2、…、Q;
S32)根据步骤S2)得到的脉冲星的特征表示AFX和步骤S31)得到的原始音乐片段的特征表示集{AFy,q}构建Q个Npulsar元线性方程组,采用最小二乘法求解所述Q个Npulsar元线性方程组,得到脉冲星控制权重系数集{AFW,q},根据所述脉冲星特征表示AFX和所述脉冲星控制权重系数集{AFW,q}计算音乐片段的拟合特征表示集{AF′y,q};
S33)根据音乐片段的拟合特征表示集{AF′y,q}并利用解码器得到幅度包络集{Ampq}、归一化的谐波分布集{cq}和滤波器的频域分布集{Hq},第q个音乐片段的幅度包络Ampq的维度为Nframe×1,第q个音乐片段的归一化的谐波分布cq的维度是Nframe×Nh,第q个音乐片段的滤波器的频域分布Hq的维度是Nframe×Nfilter;
S34)利用加法合成器AddSyn对原始音乐片段的特征表示集{AFy,q}、幅度包络集{Ampq}和所述归一化的谐波分布集{cq}进行加法合成,得到采样率为SR长度为duration的复合音信号集{sig′h,q},sig′h,q是第q个音乐片段的复合音信号;
S35)利用减法合成器SubSyn对滤波器的频域分布集{Hq}进行减法合成,得到采样率为SR长度为duration的滤波后的噪声信号集{sig′wn,q},sig′wn,q是第q个音乐片段的滤波后的噪声信号;
S38)遍历步骤S32)得到的脉冲星控制权重系数集{AFW,q},使用线性插值对所述脉冲星控制权重系数集{AFW,q}进行上采样,得到上采样后的脉冲星控制权重系数集{AF′W,q},按照步骤S31)中拆分音频信号的顺序对所述上采样后的脉冲星控制权重系数集{AF′W,q}进行组合,得到基于乐曲库中第z首乐曲的脉冲星控制下合成音乐的权重AFW,z,所述权重AFW,z的维度为(Q×Nsample)×Npulsar×1;
S39)使用步骤S37)中脉冲星控制合成的乐曲mcsig′z和步骤S38)得到的基于乐曲库中第z首乐曲的脉冲星控制下合成音乐的权重AFW,z,在播放乐曲mcsig′z的同时动态展示脉冲星控制权重系数。
S311)利用矩阵窗将第z首乐曲的音频信号mcsigz拆分成Q个长度为duration的原始音乐片段msz,1、msz,2、…、msz,Q;
S312)遍历Q个长度为duration的原始音乐片段,使用汉明窗分别对Q个长度为duration的原始音乐片段进行分帧处理,获得分帧处理后的音乐片段,窗口大小为Wframe个时间步,跳跃大小为hopsize个时间步,每个原始音乐片段含有Nframe帧;
S313)利用基频编码器提取分帧处理后的音乐片段的基频特征,得到基频特征表示集{AFF0,q},AFF0,q为第q个原始音乐片段msz,q的基频特征,第q个原始音乐片段msz,q的基频特征AFF0,q的维度为Nframe×1×1;
S314)利用响度编码器提取分帧处理后的音乐片段的响度特征,得到响度特征表示集{AFloud,q},AFloud,q为第q个原始音乐片段msz,q的响度特征,第q个原始音乐片段msz,q的响度特征的维度为Nframe×1×1;
S315)对基频特征表示集{AFF0,q}和响度特征表示集{AFloud,q}在特征维度上进行堆叠操作,得到原始音乐片段的特征表示集{AFy,q},其中AFy,q为第q个原始音乐片段msz,q的特征表示,第q个原始音乐片段msz,q的特征表示的维度为Nframe×2×1,AFy,q[:,0,:]=AFF0,q,AFy,q[:,1,:]=AFloud,q。
进一步的,在步骤S32)中,根据步骤S2)得到的脉冲星的特征表示AFX和步骤S31)得到的原始音乐片段的特征表示集{AFy,q}构建Q个Npulsar元线性方程组,采用最小二乘法求解所述Q个Npulsar元线性方程组,得到脉冲星控制权重系数集{AFW,q},根据脉冲星特征表示AFX和脉冲星控制权重系数集{AFW,q}计算音乐片段的拟合特征表示集{AF′y,q}计算音乐片段的拟合的特征表示集{AF′y,q},包括以下步骤:
S321)遍历步骤S31)得到的音乐片段特征表示集{AFy,q}以及步骤S2)得到的脉冲星的特征表示AFX,构建Q个Npulsar元线性方程组,Q个Npulsar元线性方程组中第q个方程组表示为AFX×AFW,q=AFy,q,其中AFW,q为待求解的第q个原始音乐片段对应的脉冲星控制权重系数,待求解的第q个原始音乐片段对应的脉冲星控制权重系数AFW,q的维度为Nframe×Npulsar×1;
S322)采用最小二乘法求解所述Q个Npulsar元线性方程组,得到脉冲星控制权重系数集{AFW,q};
S323)根据步骤S2)得到的脉冲星特征表示AFX和步骤S322)得到的脉冲星控制权重系数集{AFW,q}计算音乐片段的拟合特征表示集{AF′y,q},AF′y,q是第q个音乐片段的拟合特征表示,AF′y,q[:,0,:]=AF′F0,q=AFF0×AFW,q,AF′y,q[:,1,:]=AF′loud,q=AFloudness×AFW,q,其中AF′F0,q第q个音乐片段的拟合基频特征,AF′loud,q第q个音乐片段的拟合响度特征,AFF0为步骤S25)得到的所述脉冲星的基频特征表示,AFloudness为步骤S25)得到的所述脉冲星的响度特征表示。
另一方面,本发明提供了一种用于脉冲星信号控制的数字音乐合成设备,用于脉冲星信号控制的数字音乐合成设备包括:存储器、处理器及存储在存储器上并可在所述处理器上运行的用于脉冲星信号控制的数字音乐合成程序,用于脉冲星信号控制的数字音乐合成程序被处理器执行时实现用于脉冲星信号控制的数字音乐合成方法的步骤。
再一方面,本发明提供了一种计算机可读存储介质,计算机可读存储介质上存储有用于脉冲星信号控制的数字音乐合成程序,用于脉冲星信号控制的数字音乐合成程序被处理器执行时实现用于脉冲星信号控制的数字音乐合成方法的步骤。
本发明采用基于可微分数字信号处理方法(Differentiable Digital SignalProcessing,DDSP)的自编解码器,结合深度学习方法和数字信号处理方法,实现了对数字音乐信号的分析和合成任务。本发明中音乐分析方法使用深度卷积神经网络模型提取基频特征以及使用了A加权功率谱得到响度特征,结合最小二乘法求解多元线性方程组,得到脉冲星信号的控制权重信号,实时展示各脉冲星在音乐合成过程中的贡献大小。本发明中数字音乐合成方法利用深度神经网络模型得到基波和谐波信号的幅度分布和滤波器频谱,利用数字信号处理技术得到复合音信号和经过滤波处理的噪声信号,根据声音产生和传播的物理特性,采用谱建模理论,将复合音信号和滤波后的噪声信号组合成合成的音乐信号。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本实施例一提供的用于脉冲星信号控制的数字音乐合成方法流程示意图。
图3为本实施例一提供的利用脉冲星信号控制音乐合成的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他单元。
实施例一,第一方面,本发明提供一种用于脉冲星信号控制的数字音乐合成方法,如图1所示,包括以下步骤:
S1)获取开源的音乐数据集Set,本实施例中,采用开源音乐数据集NSynth的子集作为音乐数据集Set。建立用于数字音乐合成的基于可微分数字信号处理算法的自动编码器模型利用音乐数据集Set对自动编码器模型进行训练,获得训练好的自动编码器模型自动编码器模型包括基频编码器响度编码器和解码器
S11)将音乐数据集按4:1比例划分为训练集TrainSet和测试集TestSet,利用训练集TrainSet和测试集TestSet分别对所述自动编码器模型进行训练和测试,其中si为第i个原始音乐数据样本,i=1、2、…、Na,Na为原始音乐数据样本总数,Na=70379,每个原始音乐数据样本为预设时长duration的单音道音频数据,duration=4s,且每个原始音乐数据样本包含Nsample个时域采样点(时间步),每一个时域采样点对应有一个采样值,Nsample=duration×SR,SR为采样率,采样率SR=16000Hz,样本的音色涵盖弦乐器、铜管乐器、木管乐器、编钟类乐器,基音为MIDI值[24,84]范围内,基音频率范围是[32Hz,1000Hz]。训练集TrainSet={sj},sj是训练集中第j个原始音乐数据样本,j=1、2、…、N′a,N′a=56303,测试集TestSet={sm},sm为测试集中第m个原始音乐样本,m=1、2、…、N″a,N″a=14076;
S12)遍历训练集TrainSet中的所有原始音乐数据样本、并使用汉明窗在预设窗口大小Wframe、预设跳跃大小hopsize、预设重叠度、预设帧长度以及预设每帧位移量下分别对每个原始音乐数据样本进行分帧处理,Wframe=128个时间步,hopsize=64个时间步,预设重叠度为50%,预设帧长度为8ms,预设每帧位移量为4ms,获得分帧处理后的音频样本集,进行分帧处理后的音频样本集中每个音频样本含有Nframe帧,帧;
S13)利用基频编码器提取步骤S12)中每个音频样本的基频特征F0,基频编码器采用深度卷积神经网络模型(Convolutional Representation for PitchEstimation,CREPE)提取每个音频样本的基频特征,每个音频样本的基频特征F0的维度为Nframe×1,基频的单位为赫兹;
S14)利用响度编码器提取步骤S12)中每个音频样本的响度特征loudness,响度编码器采用音频样本的功率谱A加权计算响度,每个音频样本的响度特征loudness的维度为Nframe×1,响度的单位为分贝;
S15)使用步骤S13)提取的每个音频样本的基频特征F0以及步骤S14)提取的每个音频样本的响度特征loudness,利用解码器获取每个音频样本的幅度包络Amp、归一化的谐波分布c和滤波器的传递函数H,所述解码器为由多层感知机、由门控循环单元组成的循环神经网络层和全连接层组成的深度神经网络模型,每个音频样本的每帧输出一个幅度包络值、Nh个基频整数倍谐波的归一化的幅度值和Nfilter个滤波器传递函数的采样值,滤波器的传递函数在0Hz到奈奎斯特频率fnyqist范围内均匀采样,奈奎斯特频每个音频样本的幅度包络Amp的维度为Nframe×1,归一化的谐波分布c的维度为Nframe×Nh,滤波器的传递函数H的维度为Nframe×Nfilter;
S16)根据步骤S13)提取的每个音频样本的基频特征F0和步骤S15)获取的每个音频样本的幅度包络Amp和归一化的谐波分布c,利用加法合成器AddSyn得到采样率为SR且长度为duration的复合音信号sig′h,包括以下步骤:
S161)将步骤S13)得到的每个音频样本的基频特征F0与维度为Nh×Nh的矩阵相乘、并使用线性插值进行上采样处理得到基音(基波)和泛音(谐波)的频率分布矩阵freq,频率分布矩阵freq的维度为Nsample×Nh;
S162)利用累计操作函数对频率分布矩阵freq进行列维度的累计操作,得到基音和泛音的相位分布矩阵φ,累计操作函数为其中φ[row_i,col_i]为相位分布矩阵的第row_i行、第col_i列的元素值,freq[ii,col_i]是频率分布矩阵freq的第ii行、第col_i列的元素值;
S163)将步骤S15)得到的每个音频样本的幅度包络Amp与维度为1×Nh且元素全为1的矩阵相乘,得到全局幅度Ampt;将步骤S15)得到的归一化的谐波幅度分布c与全局幅度Ampt进行哈达玛积运算,使用线性插值进行上采样处理得到基音和泛音的幅度分布矩阵Amph,幅度分布矩阵Amph的维度为Nsample×Nh;
S164)根据步骤S161)得到的频率分布矩阵freq,将幅度分布矩阵Amph中频率高于奈奎斯特频率fnyqist的幅度值设置为零,得到更新后的基音和泛音的幅度分布矩阵Amp′h;
S165)使用步骤S162)得到的基音和泛音的相位分布矩阵φ和步骤S164)得到的幅度分布矩阵Amp′h,进行正弦函数操作,得到由维度为Nsample×Nh的二维矩阵表示的Nh个的正弦波信号sigh=Amp′hοsinφ,ο表示矩阵的哈达玛积运算,,正弦波信号sigh与维度为Nh×1且元素全为1的矩阵相乘,得到由一个基音(基波)和(Nh-1)个泛音(谐波)组合成的复合音信号sig′h。
S17)利用减法合成器SubSyn对步骤S15)得到的滤波器的传递函数H进行减法合成,得到采样率为SR且长度为duration的滤波的时域噪声信号sig′wn;在步骤S17)中,利用减法合成器SubSyn对步骤S15)得到的滤波器的传递函数H进行减法合成,得到采样率为SR且长度为duration的滤波的时域噪声信号sig′wn,包括以下步骤:
S171)获取取值在[-1,1]范围内且维度为Nsample×1的均匀白噪声sigwn,对所述均匀白噪声sigwn进行快速傅里叶变换FFT(Fast Fourier Transform)处理,得到快速傅里叶变换处理后的均匀白噪声的频域分布Fsigwn;
S172)对步骤S15)得到的滤波器的传递函数H进行快速傅里叶逆变换iFFT(inverse Fast Fourier Transform)处理,得到快速傅里叶逆变换处理后滤波器的时域波形信号,对快速傅里叶逆变换处理后滤波器的时域波形信号使用汉宁窗进行加权处理,汉宁窗窗口大小为Whan=65个时间步(采样点),跳跃大小为hopsize=65个时间步,得到滤波器的时变有限脉冲响应sigfilter,时变有限脉冲响应sigfilter的维度为Nsample×1,对时变有限脉冲响应sigfilter进行FFT处理,得到FFT处理后的滤波器的频域分布H′;
S173)将均匀白噪声频域分布Fsigwn和FFT处理后的滤波器的频域分布H′相乘后做iFFT处理,得到维度为Nsample×1的滤波的时域噪声信号sig′wn,滤波的时域噪声信号sig′wn=iFFT(Fsigwn×H′)。
S18)将复合音信号sig′h和滤波的时域噪声信号sig′wn进行矩阵加法操作,得到原始音乐数据样本对应的合成音乐信号其中为以第j个原始音乐数据样本sj为原型而合成的数字音乐信号,jj取1、2、…、N′a,获得与训练集TrainSet相对应的合成音乐数据集
S19)遍历步骤S11)中训练集TrainSet的所有原始音乐数据样本和步骤S18)得到的合成音乐数据集TrainSet′中的所有合成音乐样本,计算经验风险函数在步骤S19)中,遍历步骤S11)中训练集TrainSet的所有原始音乐数据样本和步骤S18)得到的合成音乐数据集TrainSet′中的所有合成音乐样本,计算经验风险函数包括以下步骤:
S191)分别遍历步骤S11)中训练集TrainSet的所有原始音乐数据样本和步骤S18)中合成音乐数据集TrainSet′的所有合成音乐样本、并使用K种尺度的帧(即FFT大小)进行短时傅里叶变换(Short Time Fourier Transform,STFT),得到训练集TrainSet对应的第一幅度频谱函数集合{Sk}和合成音乐数据集TrainSet′对应的第二幅度频谱函数集合其中K=6,帧的大小分别为64、128、256、512、1024、2048个时间步,Sk为采用第k种帧长度经STFT计算得到的原始音乐样本频谱图函数,为采用第k种帧长度经STFT计算得到的合成音乐样本频谱图函数,k=1,2,…,K,K为帧长度的总种数;
S192)根据第一幅度频谱函数集合{Sk}和第二幅度频谱函数集合计算K个第一损失函数其中j=jj,Sk,j为采用第k种帧长度经STFT计算得到的原始音乐样本频谱图函数Sk中第j个原始音乐数据样本sj的频谱图函数,为采用第k种帧长度经STFT计算得到的合成音乐样本频谱图函数中以第j个原始音乐数据样本sj为原型而合成的数字音乐信号的频谱图函数;
S193)根据第一幅度频谱函数集合{Sk}和第二幅度频谱函数集合计算K个第二损失函数logSk,j为采用第k种帧长度经STFT计算得到的原始音乐样本频谱图函数Sk中第j个原始音乐数据样本sj的频谱图函数的对数值,为采用第k种帧长度经STFT计算得到的合成音乐样本频谱图函数中以第j个原始音乐数据样本sj为原型而合成的数字音乐信号的频谱图函数的对数值;
S194)对K个第一损失函数和K个第二损失函数进行加法操作,得到经验风险函数集为根据第k种帧长度计算STFT得到的经验风险函数,所述根据第k种帧长度计算STFT得到的经验风险函数α为取值在[0,1]范围内的权重参数;
S21)使用Npulsar颗脉冲星参与音乐合成控制,遍历Npulsar个脉冲星单位周期内的采样值,利用线性插值进行上采样处理,得到长度为duration且采样率为SR的脉冲星音频信号;
S22)利用汉明窗对步骤S21)得到的脉冲星音频信号进行分帧处理,获得分帧后的脉冲星信号,窗口大小为Wframe个时间步,跳跃大小为hopsize个时间步,每个脉冲星信号含有Nframe帧;
S25)对脉冲星的基频特征表示AFF0和脉冲星的响度特征表示AFloudness在特征维度进行矩阵堆叠操作,特征维度是矩阵的第二维(即脉冲星的基频特征表示AFF0的第二维以及脉冲星的响度特征表示AFloudness的第二维),得到脉冲星的特征表示AFX,脉冲星的特征表示AFX的维度为Nframe×2×Npulsar,其中AFX[:,0,:]=AFF0,AFX[:,1,:]=AFloudness。
S3)获取乐曲库Musics,根据训练好的自动编码器模型M和脉冲星的特征表示AFX对乐曲库Musics中乐曲的音频信号进行脉冲星信号控制的数字音乐合成任务,如图3所示,包括以下步骤:
S31)根据应用场景要求从乐曲库Musics中选取第z首乐曲的音频信号mcsigz(例如一首小提琴音色的乐曲),将第z首乐曲的音频信号mcsigz拆分成Q个长度为duration的原始音乐片段,利用训练好的自动编码器模型中的基频编码器和响度编码器进行音乐片段分析,得到原始音乐片段的特征表示集{AFy,q},其中AFy,q为第q个原始音乐片段msz,q的特征表示,q=1、2、…、Q。
S311)利用矩阵窗将所述第z首乐曲的音频信号mcsigz拆分成Q个长度为duration的原始音乐片段msz,1、msz,2、…、msz,Q;
S312)遍历Q个长度为duration的原始音乐片段,使用汉明窗分别对所述Q个长度为duration的原始音乐片段进行分帧处理,获得分帧处理后的音乐片段,窗口大小为Wframe个时间步,跳跃大小为hopsize个时间步,每个原始音乐片段含有Nframe帧;
S313)利用基频编码器Mfe提取分帧处理后的音乐片段的基频特征,得到基频特征表示集{AFF0,q},AFF0,q为第q个原始音乐片段msz,q的基频特征,第q个原始音乐片段msz,q的基频特征AFF0,q的维度为Nframe×1×1;
S314)利用响度编码器提取分帧处理后的音乐片段的响度特征,得到响度特征表示集{AFloud,q},AFloud,q为第q个原始音乐片段msz,q的响度特征,第q个原始音乐片段msz,q的响度特征的维度为Nframe×1×1;
S315)对基频特征表示集{AFF0,q}和响度特征表示集{AFloud,q}在特征维度上进行矩阵堆叠操作,得到原始音乐片段的特征表示集{AFy,q},其中AFy,q为第q个原始音乐片段msz,q的特征表示,第q个原始音乐片段msz,q的特征表示的维度为Nframe×2×1,AFy,q[:,0,:]=AFF0,q,AFy,q[:,1,:]=AFloud,q。
S32)根据步骤S2)得到的脉冲星的特征表示AFX和步骤S31)得到的原始音乐片段的特征表示集{AFy,q}构建Q个Npulsar元线性方程组,采用最小二乘法求解Q个Npulsar元线性方程组,得到脉冲星控制权重系数集{AFW,q},根据脉冲星特征表示AFX和脉冲星控制权重系数集{AFW,q}计算音乐片段的拟合特征表示集{AF′y,q},包括以下步骤:
S321)遍历步骤S31)得到的音乐片段特征表示集{AFy,q}以及步骤S2)得到的脉冲星的特征表示AFX,构建Q个Npulsar元线性方程组,所述Q个Npulsar元线性方程组中第q个方程组表示为AFX×AFW,q=AFy,q,其中AFW,q为待求解的第q个原始音乐片段对应的脉冲星控制权重系数,所述待求解的第q个原始音乐片段对应的脉冲星控制权重系数AFW,q的维度为Nframe×Npulsar×1;
S322)采用最小二乘法求解Q个Npulsar元线性方程组,得到脉冲星控制权重系数集{AFW,q};
S323)根据步骤S2)得到的脉冲星特征表示AFX和步骤S322)得到的脉冲星控制权重系数集{AFW,q}计算音乐片段的拟合特征表示集{AF′y,q},AF′y,q是第q个音乐片段的拟合特征表示,AF′y,q[:,0,:]=AF′F0,q=AFF0×AFW,q,AF′y,q[:,1,:]=AF′loud,q=AFloudness×AFW,q,其中AF′F0,q第q个音乐片段的拟合基频特征,AF′loud,q第q个音乐片段的拟合响度特征,AFF0为步骤S25)得到的所述脉冲星的基频特征表示,AFloudness为步骤S25)得到的所述脉冲星的响度特征表示。
S33)根据音乐片段的拟合特征表示集{AF′y,q}并利用解码器得到幅度包络集{Ampq}、归一化的谐波分布集{cq}和滤波器的频域分布集{Hq},第q个音乐片段的幅度包络Ampq的维度为Nframe×1,第q个音乐片段的归一化的谐波分布cq的维度是Nframe×Nh,第q个音乐片段的滤波器的频域分布Hq的维度是Nframe×Nfilter;
S34)利用加法合成器AddSyn对原始音乐片段的特征表示集{AFy,q}、幅度包络集{Ampq}和归一化的谐波分布集{cq}进行加法合成,得到采样率为SR长度为duration的复合音信号集{sig′h,q},sig′h,q是第q个音乐片段的复合音信号;
S35)利用减法合成器SubSyn对滤波器的频域分布集{Hq}进行减法合成,得到采样率为SR长度为duration的滤波后的噪声信号集{sig′wn,q},sig′wn,q是第q个音乐片段的滤波后的噪声信号;
S36)根据谱模型合成理论对复合音信号集{sig′h,q}和滤波后的噪声信号集{sig′wn,q}进行矩阵加法操作,得到Q个原始音乐片段对应的合成音乐片段集 为根据第q个原始音乐样本msz,q合成的数字音乐信号,
S38)遍历步骤S32)得到的脉冲星控制权重系数集{AFW,q},使用线性插值对脉冲星控制权重系数集{AFW,q}进行上采样,得到上采样后的脉冲星控制权重系数集{AF′W,q},按照步骤S31)中拆分音频信号的顺序对所述上采样后的脉冲星控制权重系数集{AF′W,q}进行组合,得到基于乐曲库中第z首乐曲的脉冲星控制下合成音乐的权重AFW,z,权重AFW,z的维度为(Q×Nsample)×Npulsar×1;
S39)使用步骤S37)中脉冲星控制合成的乐曲mcsig′z和步骤S38)得到的基于乐曲库中第z首乐曲的脉冲星控制下合成音乐的权重AFW,z,在播放乐曲mcsig′z的同时动态展示脉冲星控制权重系数。
另一方面,本发明提供了一种用于脉冲星信号控制的数字音乐合成设备,用于脉冲星信号控制的数字音乐合成设备包括:存储器、处理器及存储在存储器上并可在所述处理器上运行的用于脉冲星信号控制的数字音乐合成程序,用于脉冲星信号控制的数字音乐合成程序被处理器执行时实现用于脉冲星信号控制的数字音乐合成方法的步骤。
再一方面,本发明提供了一种计算机可读存储介质,计算机可读存储介质上存储有用于脉冲星信号控制的数字音乐合成程序,用于脉冲星信号控制的数字音乐合成程序被处理器执行时实现用于脉冲星信号控制的数字音乐合成方法的步骤。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:
本发明提出的一种用于脉冲星控制数字音乐合成的方法,采用基于DDSP的自编解码器,结合深度学习方法和数字信号处理方法,实现了对数字音乐信号的分析和合成任务。
本发明中音乐分析方法使用深度卷积神经网络模型提取基频特征,使用A加权功率谱得到响度特征。
本发明采用了最小二乘法求解多元线性方程组,得到脉冲星信号的控制权重信号,实时展示各脉冲星在音乐合成过程中的贡献大小。
本发明中数字音乐合成方法利用深度神经网络模型得到基波和谐波信号的幅度分布和滤波器频谱,利用数字信号处理技术得到复合音信号和经过滤波处理的噪声信号,根据声音产生和传播的物理特性,采用谱建模理论,将复合音信号和滤波后的噪声信号组合成合成的音乐信号。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
Claims (10)
1.一种用于脉冲星信号控制的数字音乐合成方法,其特征在于,包括以下步骤:
S1)获取音乐数据集Set,建立用于数字音乐合成的基于可微分数字信号处理算法的自动编码器模型利用所述音乐数据集Set对所述自动编码器模型进行训练,获得训练好的自动编码器模型所述自动编码器模型包括基频编码器响度编码器和解码器
S11)将音乐数据集按比例划分为训练集TrainSet和测试集TestSet,利用训练集TrainSet和测试集TestSet分别对所述自动编码器模型进行训练和测试,其中si为第i个原始音乐数据样本,i=1、2、…、Na,Na为原始音乐数据样本总数,每个原始音乐数据样本为预设时长duration的单音道音频数据,且每个原始音乐数据样本包含Nsample个时域采样点,每一个时域采样点对应有一个采样值,Nsample=duration×SR,SR为采样率;训练集TrainSet={sj},sj是训练集中第j个原始音乐数据样本,j=1、2、…、N′a;测试集TestSet={sm},sm为测试集中第m个原始音乐样本,m=1、2、…、N″a;
S12)遍历所述训练集TrainSet中的所有原始音乐数据样本、并使用汉明窗在预设窗口大小Wframe、预设跳跃大小hopsize、预设重叠度、预设帧长度以及预设每帧位移量下分别对每个原始音乐数据样本进行分帧处理,获得分帧处理后的音频样本集,进行分帧处理后的音频样本集中每个音频样本含有Nframe帧,
S13)利用所述基频编码器提取步骤S12)中每个音频样本的基频特征F0,所述基频编码器采用深度卷积神经网络模型CREPE提取每个音频样本的基频特征,每个音频样本的基频特征F0的维度为Nframe×1;
S15)使用步骤S13)提取的每个音频样本的基频特征F0以及步骤S14)提取的每个音频样本的响度特征loudness,利用所述解码器获取每个音频样本的幅度包络Amp、归一化的谐波分布c和滤波器的传递函数H,所述解码器为由多层感知机、由门控循环单元组成的循环神经网络层和全连接层组成的深度神经网络模型,每个音频样本的每帧输出一个幅度包络值、Nh个基频整数倍谐波的归一化的幅度值和Nfilter个滤波器传递函数的采样值,滤波器的传递函数在0Hz到奈奎斯特频率fnyqist范围内均匀采样,所述奈奎斯特频每个音频样本的幅度包络Amp的维度为Nframe×1,归一化的谐波分布c的维度为Nframe×Nh,滤波器的传递函数H的维度为Nframe×Nfilter;
S16)根据步骤S13)提取的每个音频样本的基频特征F0和步骤S15)获取的每个音频样本的幅度包络Amp和归一化的谐波分布c,利用加法合成器AddSyn得到采样率为SR且长度为duration的复合音信号sig′h;
S17)利用减法合成器SubSyn对步骤S15)得到的滤波器的传递函数H进行减法合成,得到采样率为SR且长度为duration的滤波的时域噪声信号sig′wn;
S18)将所述复合音信号sig′h和所述滤波的时域噪声信号sig′wn进行矩阵加法操作,得到原始音乐数据样本对应的合成音乐信号其中为以第j个原始音乐数据样本sj为原型而合成的数字音乐信号,jj取1、2、…、N′a,获得与训练集TrainSet相对应的合成音乐数据集
3.根据权利要求2所述的用于脉冲星信号控制的数字音乐合成方法,其特征在于,在步骤S16)中,根据步骤S13)提取的每个音频样本的基频特征F0和步骤S15)获取的每个音频样本的幅度包络Amp和归一化的谐波分布c,利用加法合成器AddSyn得到采样率为SR且长度为duration的复合音信号sig′h,包括以下步骤:
S161)将步骤S13)得到的每个音频样本的基频特征F0与维度为Nh×Nh的矩阵相乘、并使用线性插值进行上采样处理得到基音和泛音的频率分布矩阵freq,所述频率分布矩阵freq的维度为Nsample×Nh;
S162)利用累计操作函数对所述频率分布矩阵freq进行列维度的累计操作,得到基音和泛音的相位分布矩阵φ,所述累计操作函数为 其中φ[row_i,col_i]为相位分布矩阵的第row_i行、第col_i列的元素值,freq[ii,col_i]是频率分布矩阵freq的第ii行、第col_i列的元素值;
S163)将步骤S15)得到的每个音频样本的幅度包络Amp与维度为1×Nh且元素全为1的矩阵相乘,得到全局幅度Ampt;将步骤S15)得到的归一化的谐波幅度分布c与所述全局幅度Ampt进行哈达玛积运算,使用线性插值进行上采样处理得到基音和泛音的幅度分布矩阵Amph,所述幅度分布矩阵Amph的维度为Nsample×Nh;
S164)根据步骤S161)得到的频率分布矩阵freq,将所述幅度分布矩阵Amph中频率高于奈奎斯特频率fnyqist的幅度值设置为零,得到更新后的基音和泛音的幅度分布矩阵Amp′h;
4.根据权利要求2或3所述的用于脉冲星信号控制的数字音乐合成方法,其特征在于,在步骤S17)中,利用减法合成器SubSyn对步骤S15)得到的滤波器的传递函数H进行减法合成,得到采样率为SR且长度为duration的滤波的时域噪声信号sig′wn,包括以下步骤:
S171)获取取值在[-1,1]范围内且维度为Nsample×1的均匀白噪声sigwn,对所述均匀白噪声sigwn进行快速傅里叶变换FFT处理,得到快速傅里叶变换处理后的均匀白噪声的频域分布Fsigwn;
S172)对步骤S15)得到的滤波器的传递函数H进行快速傅里叶逆变换处理,得到快速傅里叶逆变换iFFT处理后滤波器的时域波形信号,对所述快速傅里叶逆变换处理后滤波器的时域波形信号使用汉宁窗进行加权处理,得到滤波器的时变有限脉冲响应sigfilter,所述时变有限脉冲响应sigfilter的维度为Nsample×1,对所述时变有限脉冲响应sigfilter进行FFT处理,得到FFT处理后的滤波器的频域分布H′;
S173)将所述均匀白噪声频域分布Fsigwn和所述FFT处理后的滤波器的频域分布H′相乘后做iFFT处理,得到维度为Nsample×1的滤波的时域噪声信号sig′wn,所述滤波的时域噪声信号sig′wn=iFFT(Fsigwn×H′)。
5.根据权利要求4所述的用于脉冲星信号控制的数字音乐合成方法,其特征在于,在步骤S19)中,遍历步骤S11)中训练集TrainSet的所有原始音乐数据样本和步骤S18)得到的合成音乐数据集TrainSet′中的所有合成音乐样本,计算经验风险函数包括以下步骤:
S191)分别遍历步骤S11)中训练集TrainSet的所有原始音乐数据样本和步骤S18)中合成音乐数据集TrainSet′的所有合成音乐样本、并使用K种尺度的帧进行短时傅里叶变换STFT,得到训练集TrainSet对应的第一幅度频谱函数集合{Sk}和合成音乐数据集TrainSet′对应的第二幅度频谱函数集合Sk为采用第k种帧长度经STFT计算得到的原始音乐样本频谱图函数,为采用第k种帧长度经STFT计算得到的合成音乐样本频谱图函数,k=1,2,…,K,K为帧长度的总种数;
S192)根据所述第一幅度频谱函数集合{Sk}和所述第二幅度频谱函数集合计算K个第一损失函数其中j=jj,Sk,j为采用第k种帧长度经STFT计算得到的原始音乐样本频谱图函数Sk中第j个原始音乐数据样本sj的频谱图函数,为采用第k种帧长度经STFT计算得到的合成音乐样本频谱图函数中以第j个原始音乐数据样本sj为原型而合成的数字音乐信号的频谱图函数;
S193)根据所述第一幅度频谱函数集合{Sk}和所述第二幅度频谱函数集合计算K个第二损失函数logSk,j为采用第k种帧长度经STFT计算得到的原始音乐样本频谱图函数Sk中第j个原始音乐数据样本sj的频谱图函数的对数值,为采用第k种帧长度经STFT计算得到的合成音乐样本频谱图函数中以第j个原始音乐数据样本sj为原型而合成的数字音乐信号的频谱图函数的对数值;
S194)对所述K个第一损失函数和所述K个第二损失函数进行加法操作,得到经验风险函数集 为根据第k种帧长度计算STFT得到的经验风险函数,所述根据第k种帧长度计算STFT得到的经验风险函数α为取值在[0,1]范围内的权重参数;
6.根据权利要求1或5所述的用于脉冲星信号控制的数字音乐合成方法,其特征在于,在步骤S2)中,利用所述基频编码器和所述响度编码器对所述Npulsar颗脉冲星的信号进行特征提取,得到脉冲星的特征表示AFX,包括以下步骤:
S21)使用Npulsar颗脉冲星参与音乐合成控制,遍历Npulsar个脉冲星单位周期内的采样值,利用线性插值进行上采样处理,得到长度为duration且采样率为SR的脉冲星音频信号;
S22)利用汉明窗对步骤S21)得到的脉冲星音频信号进行分帧及加权处理,获得分帧后的脉冲星信号,窗口大小为Wframe个时间步,跳跃大小为hopsize个时间步,每个脉冲星信号含有Nframe帧;
S25)对所述脉冲星的基频特征表示AFF0和所述脉冲星的响度特征表示AFloudness在特征维度进行矩阵堆叠操作,特征维度是矩阵的第二维,得到脉冲星的特征表示AFX,所述脉冲星的特征表示AFX的维度为Nframe×2×Npulsar,其中AFX[:,0,:]=AFF0,AFX[:,1,:]=AFloudness。
7.根据权利要求6所述的用于脉冲星信号控制的数字音乐合成方法,其特征在于,在步骤S3)中,获取乐曲库Musics,根据所述训练好的自动编码器模型和所述脉冲星的特征表示AFX对所述乐曲库Musics中乐曲的音频信号进行脉冲星信号控制的数字音乐合成任务,包括以下步骤:
S31)根据应用场景要求从乐曲库Musics中选取第z首乐曲的音频信号mcsigz,将所述第z首乐曲的音频信号mcsigz拆分成Q个长度为duration的原始音乐片段,利用所述训练好的自动编码器模型中的基频编码器和响度编码器进行音乐片段分析,得到原始音乐片段的特征表示集{AFy,q},其中AFy,q为第q个原始音乐片段msz,q的特征表示,q=1、2、…、Q;
S32)根据步骤S2)得到的脉冲星的特征表示AFX和步骤S31)得到的原始音乐片段的特征表示集{AFy,q},构建Q个Npulsar元线性方程组,采用最小二乘法求解所述Q个Npulsar元线性方程组,得到脉冲星控制权重系数集{AFW,q},根据所述脉冲星特征表示AFX和所述脉冲星控制权重系数集{AFW,q}计算音乐片段的拟合特征表示集{AF′y,q};
S33)根据所述音乐片段的拟合特征表示集{AF′y,q}并利用所述解码器.得到幅度包络集{Ampq}、归一化的谐波分布集{cq}和滤波器的频域分布集{Hq},第q个音乐片段的幅度包络Ampq的维度为Nframe×1,第q个音乐片段的归一化的谐波分布cq的维度是Nframe×Nh,第q个音乐片段的滤波器的频域分布Hq的维度是Nframe×Nfilter;
S34)利用加法合成器AddSyn对所述原始音乐片段的特征表示集{AFy,q}、所述幅度包络集{Ampq}和所述归一化的谐波分布集{cq}进行加法合成,得到采样率为SR长度为duration的复合音信号集{sig′h,q},sig′h,q是第q个音乐片段的复合音信号;
S35)利用减法合成器SubSyn对所述滤波器的频域分布集{Hq}进行减法合成,得到采样率为SR长度为duration的滤波后的噪声信号集{sig′wn,q},sig′wn,q是第q个音乐片段的滤波后的噪声信号;
S36)对所述复合音信号集{sig′h,q}和所述滤波后的噪声信号集{sig′wn,q}进行矩阵加法操作,得到Q个原始音乐片段对应的合成音乐片段集 为根据第q个原始音乐样本msz,q合成的数字音乐信号,
S38)遍历步骤S32)得到的脉冲星控制权重系数集{AFW,q},使用线性插值对所述脉冲星控制权重系数集{AFW,q}进行上采样,得到上采样后的脉冲星控制权重系数集{AF′W,q},按照步骤S31)中拆分音频信号的顺序对所述上采样后的脉冲星控制权重系数集{AF′W,q}进行组合,得到基于乐曲库中第z首乐曲的脉冲星控制下合成音乐的权重AFW,z,所述权重AFW,z的维度为(Q×Nsample)×Npulsar×1;
S39)使用步骤S37)中脉冲星控制合成的乐曲mcsig′z和步骤S38)得到的基于乐曲库中第z首乐曲的脉冲星控制下合成音乐的权重AFW,z,在播放乐曲mcsig′z的同时动态展示脉冲星控制权重系数。
8.根据权利要求7所述的用于脉冲星信号控制的数字音乐合成方法,其特征在于,在步骤S31)中,将所述第z首乐曲的音频信号mcsigz拆分成Q个长度为duration的原始音乐片段,利用所述训练好的自动编码器模型中的基频编码器和响度编码器进行音乐片段分析,包括以下步骤:
S311)利用矩阵窗将所述第z首乐曲的音频信号mcsigz拆分成Q个长度为duration的原始音乐片段msz,1、msz,2、…、msz,Q;
S312)遍历所述Q个长度为duration的原始音乐片段,使用汉明窗分别对所述Q个长度为duration的原始音乐片段进行分帧处理,获得分帧处理后的音乐片段,窗口大小为Wframe个时间步,跳跃大小为hopsize个时间步,每个原始音乐片段含有Nframe帧;
S313)利用所述基频编码器提取所述分帧处理后的音乐片段的基频特征,得到基频特征表示集{AFF0,q},AFF0,q为第q个原始音乐片段msz,q的基频特征,所述第q个原始音乐片段msz,q的基频特征AFF0,q的维度为Nframe×1×1;
S314)利用所述响度编码器提取所述分帧处理后的音乐片段的响度特征,得到响度特征表示集{AFloud,q},AFloud,q为第q个原始音乐片段msz,q的响度特征,所述第q个原始音乐片段msz,q的响度特征的维度为Nframe×1×1;
S315)对所述基频特征表示集{AFF0,q}和所述响度特征表示集{AFloud,q}在特征维度上进行矩阵堆叠操作,得到原始音乐片段的特征表示集{AFy,q},其中AFy,q为第q个原始音乐片段msz,q的特征表示,所述第q个原始音乐片段msz,q的特征表示的维度为Nframe×2×1,AFy,q[:,0,:]=AFF0,q,AFy,q[:,1,:]=AFloud,q。
9.根据权利要求8所述的用于脉冲星信号控制的数字音乐合成方法,其特征在于,在步骤S32)中,根据步骤S2)得到的脉冲星的特征表示AFX和步骤S31)得到的原始音乐片段的特征表示集{AFy,q}构建Q个Npulsar元线性方程组,采用最小二乘法求解所述Q个Npulsar元线性方程组,得到脉冲星控制权重系数集{AFW,q},根据所述脉冲星特征表示AFX和所述脉冲星控制权重系数集{AFW,q}计算音乐片段的拟合特征表示集{AF′y,q}计算音乐片段的拟合的特征表示集{AF′y,q},包括以下步骤:
S321)遍历步骤S31)得到的音乐片段特征表示集{AFy,q}以及步骤S2)得到的脉冲星的特征表示AFX,构建Q个Npulsar元线性方程组,所述Q个Npulsar元线性方程组中第q个方程组表示为AFX×AFW,q=AFy,q,其中AFW,q为待求解的第q个原始音乐片段对应的脉冲星控制权重系数,所述待求解的第q个原始音乐片段对应的脉冲星控制权重系数AFW,q的维度为Nframe×Npulsar×1;
S322)采用最小二乘法求解所述Q个Npulsar元线性方程组,得到脉冲星控制权重系数集{AFW,q};
S323)根据步骤S2)得到的脉冲星特征表示AFX和步骤S322)得到的脉冲星控制权重系数集{AFW,q}计算音乐片段的拟合特征表示集{AF′y,q},AF′y,q是第q个音乐片段的拟合特征表示,AF′y,q[:,0,:]=AF′F0,q=AFF0×AFW,q’AF′y,q[:,1,:]=AF′loud,q=AFloudness×AFW,q,其中AF′F0,q第q个音乐片段的拟合基频特征,AF′loud,q第q个音乐片段的拟合响度特征,AFF0为步骤S25)得到的所述脉冲星的基频特征表示,AFloudness为步骤S25)得到的所述脉冲星的响度特征表示。
10.一种用于脉冲星信号控制的数字音乐合成设备,其特征在于,所述用于脉冲星信号控制的数字音乐合成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的用于脉冲星信号控制的数字音乐合成程序,所述用于脉冲星信号控制的数字音乐合成程序被所述处理器执行时实现如权利要求1至9任一项所述的用于脉冲星信号控制的数字音乐合成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110441744.7A CN113140204B (zh) | 2021-04-23 | 2021-04-23 | 一种用于脉冲星信号控制的数字音乐合成方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110441744.7A CN113140204B (zh) | 2021-04-23 | 2021-04-23 | 一种用于脉冲星信号控制的数字音乐合成方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113140204A true CN113140204A (zh) | 2021-07-20 |
CN113140204B CN113140204B (zh) | 2021-10-15 |
Family
ID=76812184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110441744.7A Active CN113140204B (zh) | 2021-04-23 | 2021-04-23 | 一种用于脉冲星信号控制的数字音乐合成方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113140204B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6689947B2 (en) * | 1998-05-15 | 2004-02-10 | Lester Frank Ludwig | Real-time floor controller for control of music, signal processing, mixing, video, lighting, and other systems |
CN101603831A (zh) * | 2009-07-20 | 2009-12-16 | 西安电子科技大学 | 一种脉冲星信号模拟器 |
US10068557B1 (en) * | 2017-08-23 | 2018-09-04 | Google Llc | Generating music with deep neural networks |
CN108550372A (zh) * | 2018-03-24 | 2018-09-18 | 上海诚唐展览展示有限公司 | 一种将天文射电信号转换为音频的系统 |
CN109817197A (zh) * | 2019-03-04 | 2019-05-28 | 天翼爱音乐文化科技有限公司 | 歌声生成方法、装置、计算机设备和存储介质 |
CN111369971A (zh) * | 2020-03-11 | 2020-07-03 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、存储介质和电子设备 |
CN111681637A (zh) * | 2020-04-28 | 2020-09-18 | 平安科技(深圳)有限公司 | 歌曲合成方法、装置、设备及存储介质 |
-
2021
- 2021-04-23 CN CN202110441744.7A patent/CN113140204B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6689947B2 (en) * | 1998-05-15 | 2004-02-10 | Lester Frank Ludwig | Real-time floor controller for control of music, signal processing, mixing, video, lighting, and other systems |
CN101603831A (zh) * | 2009-07-20 | 2009-12-16 | 西安电子科技大学 | 一种脉冲星信号模拟器 |
US10068557B1 (en) * | 2017-08-23 | 2018-09-04 | Google Llc | Generating music with deep neural networks |
CN108550372A (zh) * | 2018-03-24 | 2018-09-18 | 上海诚唐展览展示有限公司 | 一种将天文射电信号转换为音频的系统 |
CN109817197A (zh) * | 2019-03-04 | 2019-05-28 | 天翼爱音乐文化科技有限公司 | 歌声生成方法、装置、计算机设备和存储介质 |
CN111369971A (zh) * | 2020-03-11 | 2020-07-03 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、存储介质和电子设备 |
CN111681637A (zh) * | 2020-04-28 | 2020-09-18 | 平安科技(深圳)有限公司 | 歌曲合成方法、装置、设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
BOB L. STURM: ""Adaptive Concatenative Sound Synthesis and Its Application to Micromontage Composition"", 《COMPUTER MUSIC JOURNAL》 * |
JESSE ENGEL等: ""DDSP:Differentiable digital signal processing"", 《ARXIV:2001.04643V1 [》 * |
中国音乐财经网: ""第一首根据脉冲星信号制作的歌曲,来自天文与音乐的趣味脑洞"", 《HTTPS://WWW.SOHU.COM/A/365138742_109401》 * |
王南阳等: ""掩膜型语音集成电路介绍"", 《电子制作》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113140204B (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8842847B2 (en) | System for simulating sound engineering effects | |
Kim et al. | Neural music synthesis for flexible timbre control | |
CN113314140A (zh) | 一种端到端时域多尺度卷积神经网络的音源分离算法 | |
US20230343348A1 (en) | Machine-Learned Differentiable Digital Signal Processing | |
Saito et al. | Specmurt analysis of polyphonic music signals | |
Hayes et al. | Neural waveshaping synthesis | |
Smith | Virtual acoustic musical instruments: Review and update | |
Ramírez et al. | A general-purpose deep learning approach to model time-varying audio effects | |
Rodriguez-Serrano et al. | Online score-informed source separation with adaptive instrument models | |
Välimäki et al. | Creating endless sounds | |
Gupta et al. | Signal representations for synthesizing audio textures with generative adversarial networks | |
Masuda et al. | Improving semi-supervised differentiable synthesizer sound matching for practical applications | |
Zhang | Application of audio visual tuning detection software in piano tuning teaching | |
CN113140204B (zh) | 一种用于脉冲星信号控制的数字音乐合成方法及设备 | |
Ferreira-Paiva et al. | A survey of data augmentation for audio classification | |
CN112289289A (zh) | 一种可编辑的普遍音色合成分析系统及方法 | |
Mitchell et al. | Exploring quality and generalizability in parameterized neural audio effects | |
Martínez Ramírez | Deep learning for audio effects modeling | |
Hanna et al. | Time scale modification of noises using a spectral and statistical model | |
Shier et al. | Differentiable modelling of percussive audio with transient and spectral synthesis | |
Trail et al. | Direct and surrogate sensing for the Gyil african xylophone. | |
US11756558B2 (en) | Sound signal generation method, generative model training method, sound signal generation system, and recording medium | |
Kreutzer et al. | A parametric model for spectral sound synthesis of musical sounds | |
Rao et al. | On the detection of melodic pitch in a percussive background | |
Schneider et al. | Fourier-Time-Transformation (FTT), Analysis of sound and auditory perception |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |