CN113140204A

CN113140204A - 一种用于脉冲星信号控制的数字音乐合成方法及设备

Info

Publication number: CN113140204A
Application number: CN202110441744.7A
Authority: CN
Inventors: 龙飞; 刘肖萌
Original assignee: Chinaso Information Technology Co ltd
Current assignee: Chinaso Information Technology Co ltd
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2021-07-20
Anticipated expiration: 2041-04-23
Also published as: CN113140204B

Abstract

本发明涉及数字信号处理领域，公开了一种用于脉冲星信号控制的数字音乐合成方法及设备，包括建立自动编码器模型

对自动编码器模型

进行训练，获得训练好的自动编码器模型

获取脉冲星的信号，利用基频编码器和响度编码器对多颗脉冲星的信号进行特征提取，得到脉冲星的特征表示；根据自动编码器模型

和所述脉冲星的特征表示对乐曲的音频信号进行脉冲星信号控制的数字音乐合成任务。本发明中使用深度卷积神经网络模型提取基频特征及使用A加权功率谱得到响度特征，结合最小二乘法求解多元线性方程组，得到脉冲星信号的控制权重信号，实时展示各脉冲星在音乐合成过程中的贡献大小，有效降低了模型参数规模，音乐合成效率高。

Description

一种用于脉冲星信号控制的数字音乐合成方法及设备

技术领域

本发明涉及数字信号处理技术领域，具体地涉及一种用于脉冲星信号控制的数字音乐合成方法及设备。

背景技术

现有技术中，基于深度学习的音乐合成模型一般直接生成音乐的时域波形或频谱图分布，尽管足以表征任意音乐信号，但是这些方法并未利用声音产生、传播和感知的物理原理，模型参数规模巨大，效率较低。

比如，国家专利公开文献CN107871492A，公开了一种“音乐合成方法和系统”，包括获取待合成声音信息，根据待合成声音信息获取对应的线性预测系数；根据线性预测系数获取待合成声音信息的线性预测滤波器；接收乐曲输入信息，根据乐曲输入信息获取待合成乐曲信息；根据待合成乐曲信息与线性预测滤波器进行编码合成得到合成音乐。该发明提供的音乐合成方法直接生成音乐的时域波形和频谱数据，尽管足以表征音乐信号，但是该发明并未利用声音产生、传播和感知的物理原理，模型参数规模巨大，音乐合成效率较低。

发明内容

本发明提供一种用于脉冲星信号控制的数字音乐合成方法及设备，从而解决现有技术的上述问题。

第一方面，本发明提供了一种用于脉冲星信号控制的数字音乐合成方法，包括以下步骤：

S1)获取音乐数据集Set，建立用于数字音乐合成的基于可微分数字信号处理算法的自动编码器模型

利用音乐数据集Set对自动编码器模型

进行训练，获得训练好的自动编码器模型

自动编码器模型

包括基频编码器

响度编码器

和解码器

S2)获取参与音乐合成控制的N_pulsar颗脉冲星的信号，利用基频编码器

和响度编码器

对N_pulsar颗脉冲星的信号进行特征提取，得到脉冲星的特征表示AF_X；

S3)获取乐曲库Musics，根据训练好的自动编码器模型

和脉冲星的特征表示AF_X对乐曲库Musics中乐曲的音频信号进行脉冲星信号控制的数字音乐合成任务。

进一步的，在步骤S1)中，利用音乐数据集Set对自动编码器模型

进行训练，获得训练好的自动编码器模型

包括以下步骤：

S11)将音乐数据集

按比例划分为训练集TrainSet和测试集TestSet，利用训练集TrainSet和测试集TestSet分别对自动编码器模型

进行训练和测试，其中s_i为第i个原始音乐数据样本，i＝1、2、…、N_a，N_a为原始音乐数据样本总数，每个原始音乐数据样本为预设时长duration的单音道音频数据，且每个原始音乐数据样本包含N_sample个时域采样点，每一个时域采样点对应有一个采样值，N_sample＝duration×SR，SR为采样率；训练集TrainSet＝{s_j},s_j是训练集中第j个原始音乐数据样本，j＝1、2、…、N′_a；测试集TestSet＝{s_m},s_m为测试集中第m个原始音乐样本，m＝1、2、…、N″_a；

S12)遍历训练集TrainSet中的所有原始音乐数据样本、并使用汉明窗在预设窗口大小W_frame、预设跳跃大小hop_size、预设重叠度、预设帧长度以及预设每帧位移量下分别对每个原始音乐数据样本进行分帧处理，获得分帧处理后的音频样本集，进行分帧处理后的音频样本集中每个音频样本含有N_frame帧，

S13)利用基频编码器

提取步骤S12)中每个音频样本的基频特征F0，基频编码器

采用深度卷积神经网络模型CREPE提取每个音频样本的基频特征，每个音频样本的基频特征F0的维度为N_frame×1；

S14)利用响度编码器

提取步骤S12)中每个音频样本的响度特征loudness，响度编码器

采用音频样本的功率谱A加权计算响度，每个音频样本的响度特征loudness的维度为N_frame×1；

S15)使用步骤S13)提取的每个音频样本的基频特征F0以及步骤S14)提取的每个音频样本的响度特征loudness，利用解码器

获取每个音频样本的幅度包络Amp、归一化的谐波分布c和滤波器的传递函数H，解码器

为由多层感知机、由门控循环单元组成的循环神经网络层和全连接层组成的深度神经网络模型，每个音频样本的每帧输出一个幅度包络值、N_h个基频整数倍谐波的归一化的幅度值和N_filter个滤波器传递函数的采样值，滤波器的传递函数在0Hz到奈奎斯特频率f_nyqist范围内均匀采样，奈奎斯特频

每个音频样本的幅度包络Amp的维度为N_frame×1，归一化的谐波分布c的维度为N_frame×N_h，滤波器的传递函数H的维度为N_frame×N_filter；

S16)根据步骤S13)提取的每个音频样本的基频特征F0和步骤S15)获取的每个音频样本的幅度包络Amp和归一化的谐波分布c，利用加法合成器AddSyn得到采样率为SR且长度为duration的复合音信号sig′_h；

S17)利用减法合成器SubSyn对步骤S15)得到的滤波器的传递函数H进行减法合成,得到采样率为SR且长度为duration的滤波的时域噪声信号sig′_wn；

S18)将复合音信号sig′_h和滤波的时域噪声信号sig′_wn进行矩阵加法操作，得到原始音乐数据样本对应的合成音乐信号

其中

为以第j个原始音乐数据样本s_j为原型而合成的数字音乐信号，jj取1、2、…、N′_a，获得与训练集TrainSet相对应的合成音乐数据集

S19)遍历步骤S11)中训练集TrainSet的所有原始音乐数据样本和步骤S18)得到的合成音乐数据集TrainSet′中的所有合成音乐样本，计算经验风险函数

S20)使用Adam优化算法最小化所述经验风险函数

完成自动编码器模型

的训练。

进一步的，在步骤S16)中，根据步骤S13)提取的每个音频样本的基频特征F0和步骤S15)获取的每个音频样本的幅度包络Amp和归一化的谐波分布c，利用加法合成器AddSyn得到采样率为SR且长度为duration的复合音信号sig′_h，包括以下步骤：

S161)将步骤S13)得到的每个音频样本的基频特征F0与维度为N_h×N_h的矩阵

相乘、并使用线性插值进行上采样处理得到基音和泛音的频率分布矩阵freq，频率分布矩阵freq的维度为N_sample×N_h；

S162)利用累计操作函数对频率分布矩阵freq进行列维度的累计操作，得到基音和泛音的相位分布矩阵φ，所述累计操作函数为

其中φ_{[row_i,col_i]}为相位分布矩阵的第row_i行、第col_i列的元素值，freq_{[ii,col_i]}是频率分布矩阵freq的第ii行、第col_i列的元素值；

S163)将步骤S15)得到的每个音频样本的幅度包络Amp与维度为1×N_h且元素全为1的矩阵相乘，得到全局幅度Amp_t；将步骤S15)得到的归一化的谐波幅度分布c与全局幅度Amp_t进行哈达玛积运算，使用线性插值进行上采样处理得到基音和泛音的幅度分布矩阵Amp_h，幅度分布矩阵Amp_h的维度为N_sample×N_h；

S164)根据步骤S161)得到的频率分布矩阵freq，将幅度分布矩阵Amp_h中频率高于奈奎斯特频率f_nyqist的幅度值设置为零，得到更新后的基音和泛音的幅度分布矩阵Amp′_h；

S165)使用步骤S162)得到的基音和泛音的相位分布矩阵φ和步骤S164)得到的幅度分布矩阵Amp′_h，进行正弦函数操作，得到由维度为N_sample×N_h的二维矩阵表示的N_h个的正弦波信号sig_h＝Amp′_hοsinφ，ο表示矩阵的哈达玛积运算,正弦波信号sig_h与维度为N_h×1且元素全为1的矩阵相乘，得到由一个基音和N_h-1个泛音组合成的复合音信号sig′_h。

进一步的，在步骤S17)中，利用减法合成器SubSyn对步骤S15)得到的滤波器的传递函数H进行减法合成,得到采样率为SR且长度为duration的滤波的时域噪声信号sig′_wn，包括以下步骤：

S171)获取取值在[-1,1]范围内且维度为N_sample×1的均匀白噪声sig_wn，对均匀白噪声sig_wn进行快速傅里叶变换FFT处理,得到快速傅里叶变换处理后的均匀白噪声的频域分布Fsig_wn；

S172)对步骤S15)得到的滤波器的传递函数H进行快速傅里叶逆变换处理,得到快速傅里叶逆变换iFFT处理后滤波器的时域波形信号，对快速傅里叶逆变换处理后滤波器的时域波形信号使用汉宁窗进行加权处理，得到滤波器的时变有限脉冲响应sig_filter，所述时变有限脉冲响应sig_filter的维度为N_sample×1，对所述时变有限脉冲响应sig_filter进行FFT处理,得到FFT处理后的滤波器的频域分布H′；

S173)将所述均匀白噪声频域分布Fsig_wn和所述FFT处理后的滤波器的频域分布H′相乘后做iFFT处理,得到维度为N_sample×1的滤波的时域噪声信号sig′_wn,所述滤波的时域噪声信号sig′_wn＝iFFT(Fsig_wn×H′)。

进一步的，在步骤S19)中，遍历步骤S11)中训练集TrainSet的所有原始音乐数据样本和步骤S18)得到的合成音乐数据集TrainSet′中的所有合成音乐样本，计算经验风险函数

包括以下步骤：

S191)分别遍历步骤S11)中训练集TrainSet的所有原始音乐数据样本和步骤S18)中合成音乐数据集TrainSet′的所有合成音乐样本、并使用K种尺度的帧进行短时傅里叶变换STFT，得到训练集TrainSet对应的第一幅度频谱函数集合{S_k}和合成音乐数据集TrainSet′对应的第二幅度频谱函数集合

S_k为采用第k种帧长度经STFT计算得到的原始音乐样本频谱图函数，

为采用第k种帧长度经STFT计算得到的合成音乐样本频谱图函数，k＝1,2,…,K，K为帧长度的总种数；

S192)根据所述第一幅度频谱函数集合{S_k}和所述第二幅度频谱函数集合

计算K个第一损失函数

其中j＝jj，S_k,j为采用第k种帧长度经STFT计算得到的原始音乐样本频谱图函数S_k中第j个原始音乐数据样本s_j的频谱图函数，

为采用第k种帧长度经STFT计算得到的合成音乐样本频谱图函数

中以第j个原始音乐数据样本s_j为原型而合成的数字音乐信号

的频谱图函数；

S193)根据第一幅度频谱函数集合{S_k}和第二幅度频谱函数集合

计算K个第二损失函数

logS_k,j为采用第k种帧长度经STFT计算得到的原始音乐样本频谱图函数S_k中第j个原始音乐数据样本s_j的频谱图函数的对数值，

中以第j个原始音乐数据样本s_j为原型而合成的数字音乐信号

的频谱图函数的对数值；

S194)对K个第一损失函数

和K个第二损失函数

进行加法操作，得到经验风险函数集

为根据第k种帧长度计算STFT得到的经验风险函数，所述根据第k种帧长度计算STFT得到的经验风险函数

α为取值在[0,1]范围内的权重参数；

S195)对经验风险函数集

中的各个元素进行求和，得到求和后的经验风险函数

进一步的，在步骤S2)中，利用基频编码器

和响度编码器

对N_pulsar颗脉冲星的信号进行特征提取，得到脉冲星的特征表示AF_X，包括以下步骤：

S21)使用N_pulsar颗脉冲星参与音乐合成控制，遍历N_pulsar个脉冲星单位周期内的采样值，利用线性插值进行上采样处理，得到长度为duration且采样率为SR的脉冲星音频信号；

S22)利用汉明窗对步骤S21)得到的脉冲星音频信号进行分帧及加权处理，获得分帧后的脉冲星信号，窗口大小为W_frame个时间步，跳跃大小为hop_size个时间步，每个脉冲星信号含有N_frame帧；

S23)利用基频编码器

获取所述分帧后的脉冲星信号的基频特征，得到脉冲星的基频特征表示AF_F0，所述脉冲星的基频特征表示AF_F0的维度为N_frame×1×N_pulsar；

S24)利用响度编码器

获取分帧后的脉冲星信号的响度特征，得到脉冲星的响度特征表示AF_loudness，脉冲星的响度特征表示AF_loudness的维度为N_frame×1×N_pulsar；

S25)对脉冲星的基频特征表示AF_F0和脉冲星的响度特征表示AF_lo_udness在特征维度进行矩阵堆叠操作，特征维度是矩阵的第二维，得到脉冲星的特征表示AF_X，脉冲星的特征表示AF_X的维度为N_frame×2×N_pulsar，其中AF_X[：,0，：]＝AF_F0，AF_X[：，1，：]＝AF_loudness。

进一步的，在步骤S3)中，获取乐曲库Musics，根据训练好的自动编码器模型

和脉冲星的特征表示AF_X对乐曲库Musics中乐曲的音频信号进行脉冲星信号控制的数字音乐合成任务，包括以下步骤：

S31)根据应用场景要求从乐曲库Musics中选取第z首乐曲的音频信号mcsig_z，将所述第z首乐曲的音频信号mcsig_z拆分成Q个长度为duration的原始音乐片段，利用所述训练好的自动编码器模型

中的基频编码器

和响度编码器

进行音乐片段分析，得到原始音乐片段的特征表示集{AF_y，q}，其中AF_y，q为第q个原始音乐片段ms_z，q的特征表示，q＝1、2、…、Q；

S32)根据步骤S2)得到的脉冲星的特征表示AF_X和步骤S31)得到的原始音乐片段的特征表示集{AF_y,q}构建Q个N_pulsar元线性方程组，采用最小二乘法求解所述Q个N_pulsar元线性方程组，得到脉冲星控制权重系数集{AF_W,q}，根据所述脉冲星特征表示AF_X和所述脉冲星控制权重系数集{AF_W,q}计算音乐片段的拟合特征表示集{AF′_y,q}；

S33)根据音乐片段的拟合特征表示集{AF′_y,q}并利用解码器

得到幅度包络集{Amp_q}、归一化的谐波分布集{c_q}和滤波器的频域分布集{H_q}，第q个音乐片段的幅度包络Amp_q的维度为N_frame×1，第q个音乐片段的归一化的谐波分布c_q的维度是N_frame×N_h，第q个音乐片段的滤波器的频域分布H_q的维度是N_frame×N_filter；

S34)利用加法合成器AddSyn对原始音乐片段的特征表示集{AF_y,q}、幅度包络集{Amp_q}和所述归一化的谐波分布集{c_q}进行加法合成，得到采样率为SR长度为duration的复合音信号集{sig′_h,q}，sig′_h,q是第q个音乐片段的复合音信号；

S35)利用减法合成器SubSyn对滤波器的频域分布集{H_q}进行减法合成，得到采样率为SR长度为duration的滤波后的噪声信号集{sig′_wn,q}，sig′_wn,q是第q个音乐片段的滤波后的噪声信号；

S36)对复合音信号集{sig′_h，q}和滤波后的噪声信号集{sig′_wn，q}进行矩阵加法操作，得到Q个原始音乐片段对应的合成音乐片段集

为根据第q个原始音乐样本ms_z，q合成的数字音乐信号，

S37)使用步骤S36)得到的合成音乐片段集

按照步骤S31)中拆分音频信号的顺序对合成音乐片段集

进行组合，得到脉冲星控制合成的乐曲mcsig′_z；

S38)遍历步骤S32)得到的脉冲星控制权重系数集{AF_W，q}，使用线性插值对所述脉冲星控制权重系数集{AF_W，q}进行上采样，得到上采样后的脉冲星控制权重系数集{AF′_W,q}，按照步骤S31)中拆分音频信号的顺序对所述上采样后的脉冲星控制权重系数集{AF′_W,q}进行组合，得到基于乐曲库中第z首乐曲的脉冲星控制下合成音乐的权重AF_W,z，所述权重AF_W,z的维度为(Q×N_sample)×N_pulsar×1；

S39)使用步骤S37)中脉冲星控制合成的乐曲mcsig′_z和步骤S38)得到的基于乐曲库中第z首乐曲的脉冲星控制下合成音乐的权重AF_W,z，在播放乐曲mcsig′_z的同时动态展示脉冲星控制权重系数。

进一步的，在步骤S31)中，将第z首乐曲的音频信号mcsig_z拆分成Q个长度为duration的原始音乐片段，利用训练好的自动编码器模型

中的基频编码器

和响度编码器

进行音乐片段分析，包括以下步骤：

S311)利用矩阵窗将第z首乐曲的音频信号mcsig_z拆分成Q个长度为duration的原始音乐片段ms_z,1、ms_z,2、…、ms_z,Q；

S312)遍历Q个长度为duration的原始音乐片段，使用汉明窗分别对Q个长度为duration的原始音乐片段进行分帧处理，获得分帧处理后的音乐片段，窗口大小为W_frame个时间步，跳跃大小为hop_size个时间步，每个原始音乐片段含有N_frame帧；

S313)利用基频编码器

提取分帧处理后的音乐片段的基频特征，得到基频特征表示集{AF_F0,q}，AF_F0,q为第q个原始音乐片段ms_z,q的基频特征，第q个原始音乐片段ms_z,q的基频特征AF_F0,q的维度为N_frame×1×1；

S314)利用响度编码器

提取分帧处理后的音乐片段的响度特征，得到响度特征表示集{AF_loud,q}，AF_loud,q为第q个原始音乐片段ms_z,q的响度特征，第q个原始音乐片段ms_z,q的响度特征的维度为N_frame×1×1；

S315)对基频特征表示集{AF_F0,q}和响度特征表示集{AF_loud,q}在特征维度上进行堆叠操作，得到原始音乐片段的特征表示集{AF_y,q}，其中AF_y,q为第q个原始音乐片段ms_z,q的特征表示，第q个原始音乐片段ms_z,q的特征表示的维度为N_frame×2×1，AF_y，q[：,0,：]＝AF_F0，q，AF_y,q[：,1,：]＝AF_loud,q。

进一步的，在步骤S32)中，根据步骤S2)得到的脉冲星的特征表示AF_X和步骤S31)得到的原始音乐片段的特征表示集{AF_y，q}构建Q个N_pulsar元线性方程组，采用最小二乘法求解所述Q个N_pulsar元线性方程组，得到脉冲星控制权重系数集{AF_W,q}，根据脉冲星特征表示AF_X和脉冲星控制权重系数集{AF_W,q}计算音乐片段的拟合特征表示集{AF′_y,q}计算音乐片段的拟合的特征表示集{AF′_y,q}，包括以下步骤：

S321)遍历步骤S31)得到的音乐片段特征表示集{AF_y,q}以及步骤S2)得到的脉冲星的特征表示AF_X，构建Q个N_pulsar元线性方程组，Q个N_pulsar元线性方程组中第q个方程组表示为AF_X×AF_W,q＝AF_y,q，其中AF_W,q为待求解的第q个原始音乐片段对应的脉冲星控制权重系数，待求解的第q个原始音乐片段对应的脉冲星控制权重系数AF_W,q的维度为N_frame×N_pulsar×1；

S322)采用最小二乘法求解所述Q个N_pulsar元线性方程组，得到脉冲星控制权重系数集{AF_W,q}；

S323)根据步骤S2)得到的脉冲星特征表示AF_X和步骤S322)得到的脉冲星控制权重系数集{AF_W,q}计算音乐片段的拟合特征表示集{AF′_y,q}，AF′_y,q是第q个音乐片段的拟合特征表示，AF′_y,q[：,0,：]＝AF′_F0,q＝AF_F0×AF_W,q，AF′_y,q[：,1,：]＝AF′_loud,q＝AF_loudness×AF_W,q，其中AF′_F0,q第q个音乐片段的拟合基频特征，AF′_loud,q第q个音乐片段的拟合响度特征,AF_F0为步骤S25)得到的所述脉冲星的基频特征表示，AF_loudness为步骤S25)得到的所述脉冲星的响度特征表示。

另一方面，本发明提供了一种用于脉冲星信号控制的数字音乐合成设备，用于脉冲星信号控制的数字音乐合成设备包括：存储器、处理器及存储在存储器上并可在所述处理器上运行的用于脉冲星信号控制的数字音乐合成程序，用于脉冲星信号控制的数字音乐合成程序被处理器执行时实现用于脉冲星信号控制的数字音乐合成方法的步骤。

再一方面，本发明提供了一种计算机可读存储介质，计算机可读存储介质上存储有用于脉冲星信号控制的数字音乐合成程序，用于脉冲星信号控制的数字音乐合成程序被处理器执行时实现用于脉冲星信号控制的数字音乐合成方法的步骤。

本发明采用基于可微分数字信号处理方法(Differentiable Digital SignalProcessing,DDSP)的自编解码器，结合深度学习方法和数字信号处理方法，实现了对数字音乐信号的分析和合成任务。本发明中音乐分析方法使用深度卷积神经网络模型提取基频特征以及使用了A加权功率谱得到响度特征，结合最小二乘法求解多元线性方程组，得到脉冲星信号的控制权重信号，实时展示各脉冲星在音乐合成过程中的贡献大小。本发明中数字音乐合成方法利用深度神经网络模型得到基波和谐波信号的幅度分布和滤波器频谱，利用数字信号处理技术得到复合音信号和经过滤波处理的噪声信号，根据声音产生和传播的物理特性，采用谱建模理论，将复合音信号和滤波后的噪声信号组合成合成的音乐信号。

本发明的有益效果是：本发明构建了基于可微分数字信号处理算法DDSP的自动编码器模型

利用自动编码器模型

实现音乐信号分析和合成的基础上，加入脉冲星控制信号的作用，通过最小二乘法求解得到脉冲星控制权重，在合成音乐的音频信号播放的同时，动态显示脉冲星控制权重信号。本发明基于DDSP的自动编码器模型

将音频信号处理和感知的原理知识作为归纳偏置，有效降低了模型参数规模，使用基于深度神经网络的编码器分析音乐信号的高效特征表示，利用谱建模理论使用解码器将特征表示转化成合成的音乐信号，音乐合成效率高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本实施例一提供的用于脉冲星信号控制的数字音乐合成方法流程示意图。

图2为本实施例一提供的对自动编码器模型

进行训练的流程示意图。

图3为本实施例一提供的利用脉冲星信号控制音乐合成的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他单元。

实施例一，第一方面，本发明提供一种用于脉冲星信号控制的数字音乐合成方法，如图1所示，包括以下步骤：

S1)获取开源的音乐数据集Set，本实施例中，采用开源音乐数据集NSynth的子集作为音乐数据集Set。建立用于数字音乐合成的基于可微分数字信号处理算法的自动编码器模型

利用音乐数据集Set对自动编码器模型

进行训练，获得训练好的自动编码器模型

自动编码器模型

包括基频编码器

响度编码器

和解码器

在步骤S1)中，利用音乐数据集Set对自动编码器模型

进行训练，获得训练好的自动编码器模型

如图2所示，包括以下步骤：

S11)将音乐数据集

按4：1比例划分为训练集TrainSet和测试集TestSet，利用训练集TrainSet和测试集TestSet分别对所述自动编码器模型

进行训练和测试，其中s_i为第i个原始音乐数据样本，i＝1、2、…、N_a，N_a为原始音乐数据样本总数，N_a＝70379，每个原始音乐数据样本为预设时长duration的单音道音频数据，duration＝4s，且每个原始音乐数据样本包含N_sample个时域采样点(时间步)，每一个时域采样点对应有一个采样值，N_sample＝duration×SR，SR为采样率，采样率SR＝16000Hz，样本的音色涵盖弦乐器、铜管乐器、木管乐器、编钟类乐器，基音为MIDI值[24，84]范围内，基音频率范围是[32Hz,1000Hz]。训练集TrainSet＝{s_j},s_j是训练集中第j个原始音乐数据样本，j＝1、2、…、N′_a，N′_a＝56303，测试集TestSet＝{s_m},s_m为测试集中第m个原始音乐样本，m＝1、2、…、N″_a，N″_a＝14076；

S12)遍历训练集TrainSet中的所有原始音乐数据样本、并使用汉明窗在预设窗口大小W_frame、预设跳跃大小hop_size、预设重叠度、预设帧长度以及预设每帧位移量下分别对每个原始音乐数据样本进行分帧处理，W_frame＝128个时间步，hop_size＝64个时间步，预设重叠度为50％，预设帧长度为8ms，预设每帧位移量为4ms，获得分帧处理后的音频样本集，进行分帧处理后的音频样本集中每个音频样本含有N_frame帧，

帧；

S13)利用基频编码器

提取步骤S12)中每个音频样本的基频特征F0，基频编码器

采用深度卷积神经网络模型(Convolutional Representation for PitchEstimation,CREPE)提取每个音频样本的基频特征，每个音频样本的基频特征F0的维度为N_frame×1，基频的单位为赫兹；

S14)利用响度编码器

提取步骤S12)中每个音频样本的响度特征loudness，响度编码器

采用音频样本的功率谱A加权计算响度，每个音频样本的响度特征loudness的维度为N_frame×1，响度的单位为分贝；

获取每个音频样本的幅度包络Amp、归一化的谐波分布c和滤波器的传递函数H，所述解码器

S16)根据步骤S13)提取的每个音频样本的基频特征F0和步骤S15)获取的每个音频样本的幅度包络Amp和归一化的谐波分布c，利用加法合成器AddSyn得到采样率为SR且长度为duration的复合音信号sig′_h，包括以下步骤：

相乘、并使用线性插值进行上采样处理得到基音(基波)和泛音(谐波)的频率分布矩阵freq，频率分布矩阵freq的维度为N_sample×N_h；

S162)利用累计操作函数对频率分布矩阵freq进行列维度的累计操作，得到基音和泛音的相位分布矩阵φ，累计操作函数为

S165)使用步骤S162)得到的基音和泛音的相位分布矩阵φ和步骤S164)得到的幅度分布矩阵Amp′_h，进行正弦函数操作，得到由维度为N_sample×N_h的二维矩阵表示的N_h个的正弦波信号sig_h＝Amp′_hοsinφ，ο表示矩阵的哈达玛积运算,,正弦波信号sig_h与维度为N_h×1且元素全为1的矩阵相乘，得到由一个基音(基波)和(N_h-1)个泛音(谐波)组合成的复合音信号sig′_h。

S17)利用减法合成器SubSyn对步骤S15)得到的滤波器的传递函数H进行减法合成,得到采样率为SR且长度为duration的滤波的时域噪声信号sig′_wn；在步骤S17)中，利用减法合成器SubSyn对步骤S15)得到的滤波器的传递函数H进行减法合成,得到采样率为SR且长度为duration的滤波的时域噪声信号sig′_wn，包括以下步骤：

S171)获取取值在[-1,1]范围内且维度为N_sample×1的均匀白噪声sig_wn，对所述均匀白噪声sig_wn进行快速傅里叶变换FFT(Fast Fourier Transform)处理,得到快速傅里叶变换处理后的均匀白噪声的频域分布Fsig_wn；

S172)对步骤S15)得到的滤波器的传递函数H进行快速傅里叶逆变换iFFT(inverse Fast Fourier Transform)处理,得到快速傅里叶逆变换处理后滤波器的时域波形信号，对快速傅里叶逆变换处理后滤波器的时域波形信号使用汉宁窗进行加权处理，汉宁窗窗口大小为W_han＝65个时间步(采样点)，跳跃大小为hop_size＝65个时间步，得到滤波器的时变有限脉冲响应sig_filter，时变有限脉冲响应sig_filter的维度为N_sample×1，对时变有限脉冲响应sig_filter进行FFT处理,得到FFT处理后的滤波器的频域分布H′；

S173)将均匀白噪声频域分布Fsig_wn和FFT处理后的滤波器的频域分布H′相乘后做iFFT处理,得到维度为N_sample×1的滤波的时域噪声信号sig′_wn,滤波的时域噪声信号sig′_wn＝iFFT(Fsig_wn×H′)。

其中

在步骤S19)中，遍历步骤S11)中训练集TrainSet的所有原始音乐数据样本和步骤S18)得到的合成音乐数据集TrainSet′中的所有合成音乐样本，计算经验风险函数

包括以下步骤：

S191)分别遍历步骤S11)中训练集TrainSet的所有原始音乐数据样本和步骤S18)中合成音乐数据集TrainSet′的所有合成音乐样本、并使用K种尺度的帧(即FFT大小)进行短时傅里叶变换(Short Time Fourier Transform,STFT)，得到训练集TrainSet对应的第一幅度频谱函数集合{S_k}和合成音乐数据集TrainSet′对应的第二幅度频谱函数集合

其中K＝6，帧的大小分别为64、128、256、512、1024、2048个时间步，S_k为采用第k种帧长度经STFT计算得到的原始音乐样本频谱图函数，

S192)根据第一幅度频谱函数集合{S_k}和第二幅度频谱函数集合

计算K个第一损失函数

中以第j个原始音乐数据样本s_j为原型而合成的数字音乐信号

的频谱图函数；

S193)根据第一幅度频谱函数集合{S_k}和第二幅度频谱函数集合

计算K个第二损失函数

中以第j个原始音乐数据样本s_j为原型而合成的数字音乐信号

的频谱图函数的对数值；

S194)对K个第一损失函数

和K个第二损失函数

进行加法操作，得到经验风险函数集

α为取值在[0,1]范围内的权重参数；

S195)对经验风险函数集

中的各个元素进行求和，得到求和后的经验风险函数

S20)使用Adam优化算法最小化所述经验风险函数

完成自动编码器模型

的训练。

和响度编码器

对N_pulsar颗脉冲星的信号进行特征提取，得到脉冲星的特征表示AF_X。

在步骤S2)中，利用基频编码器

和响度编码器

S22)利用汉明窗对步骤S21)得到的脉冲星音频信号进行分帧处理，获得分帧后的脉冲星信号，窗口大小为W_frame个时间步，跳跃大小为hop_size个时间步，每个脉冲星信号含有N_frame帧；

S23)利用基频编码器

获取分帧后的脉冲星信号的基频特征，得到脉冲星的基频特征表示AF_F0，脉冲星的基频特征表示AF_F0的维度为N_frame×1×N_pulsar；

S24)利用响度编码器

S25)对脉冲星的基频特征表示AF_F0和脉冲星的响度特征表示AF_loudness在特征维度进行矩阵堆叠操作，特征维度是矩阵的第二维(即脉冲星的基频特征表示AF_F0的第二维以及脉冲星的响度特征表示AF_loudness的第二维)，得到脉冲星的特征表示AF_X，脉冲星的特征表示AF_X的维度为N_frame×2×N_pulsar，其中AF_X[：,0,：]＝AF_F0，AF_X[：,1,：]＝AF_loudness。

S3)获取乐曲库Musics，根据训练好的自动编码器模型M和脉冲星的特征表示AF_X对乐曲库Musics中乐曲的音频信号进行脉冲星信号控制的数字音乐合成任务，如图3所示，包括以下步骤：

S31)根据应用场景要求从乐曲库Musics中选取第z首乐曲的音频信号mcsig_z(例如一首小提琴音色的乐曲)，将第z首乐曲的音频信号mcsig_z拆分成Q个长度为duration的原始音乐片段，利用训练好的自动编码器模型

中的基频编码器

和响度编码器

进行音乐片段分析，得到原始音乐片段的特征表示集{AF_y,q}，其中AF_y,q为第q个原始音乐片段ms_z,q的特征表示，q＝1、2、…、Q。

在步骤S31)中，将第z首乐曲的音频信号mcsig_z拆分成Q个长度为duration的原始音乐片段，利用训练好的自动编码器模型

中的基频编码器

和响度编码器

进行音乐片段分析，包括以下步骤：

S311)利用矩阵窗将所述第z首乐曲的音频信号mcsig_z拆分成Q个长度为duration的原始音乐片段ms_z,1、ms_z,2、…、ms_z,Q；

S312)遍历Q个长度为duration的原始音乐片段，使用汉明窗分别对所述Q个长度为duration的原始音乐片段进行分帧处理，获得分帧处理后的音乐片段，窗口大小为W_frame个时间步，跳跃大小为hop_size个时间步，每个原始音乐片段含有N_frame帧；

S313)利用基频编码器M_fe提取分帧处理后的音乐片段的基频特征，得到基频特征表示集{AF_F0,q}，AF_F0,q为第q个原始音乐片段ms_z,q的基频特征，第q个原始音乐片段ms_z,q的基频特征AF_F0,q的维度为N_frame×1×1；

S314)利用响度编码器

S315)对基频特征表示集{AF_F0,q}和响度特征表示集{AF_loud,q}在特征维度上进行矩阵堆叠操作，得到原始音乐片段的特征表示集{AF_y,q}，其中AF_y,q为第q个原始音乐片段ms_z,q的特征表示，第q个原始音乐片段ms_z,q的特征表示的维度为N_frame×2×1，AF_y,q[：,0,：]＝AF_F0,q，AF_y,q[：,1,：]＝AF_loud,q。

S32)根据步骤S2)得到的脉冲星的特征表示AF_X和步骤S31)得到的原始音乐片段的特征表示集{AF_y,q}构建Q个N_pulsar元线性方程组，采用最小二乘法求解Q个N_pulsar元线性方程组，得到脉冲星控制权重系数集{AF_W,q}，根据脉冲星特征表示AF_X和脉冲星控制权重系数集{AF_W,q}计算音乐片段的拟合特征表示集{AF′_y,q}，包括以下步骤：

S321)遍历步骤S31)得到的音乐片段特征表示集{AF_y,q}以及步骤S2)得到的脉冲星的特征表示AF_X，构建Q个N_pulsar元线性方程组，所述Q个N_pulsar元线性方程组中第q个方程组表示为AF_X×AF_W,q＝AF_y,q，其中AF_W,q为待求解的第q个原始音乐片段对应的脉冲星控制权重系数，所述待求解的第q个原始音乐片段对应的脉冲星控制权重系数AF_W,q的维度为N_frame×N_pulsar×1；

S322)采用最小二乘法求解Q个N_pulsar元线性方程组，得到脉冲星控制权重系数集{AF_W,q}；

S33)根据音乐片段的拟合特征表示集{AF′_y,q}并利用解码器

S34)利用加法合成器AddSyn对原始音乐片段的特征表示集{AF_y,q}、幅度包络集{Amp_q}和归一化的谐波分布集{c_q}进行加法合成，得到采样率为SR长度为duration的复合音信号集{sig′_h,q}，sig′_h,q是第q个音乐片段的复合音信号；

S36)根据谱模型合成理论对复合音信号集{sig′_h,q}和滤波后的噪声信号集{sig′_wn,q}进行矩阵加法操作，得到Q个原始音乐片段对应的合成音乐片段集

为根据第q个原始音乐样本ms_z,q合成的数字音乐信号，

S37)使用步骤S36)得到的合成音乐片段集

按照步骤S31)中拆分音频信号的顺序对合成音乐片段集

进行组合，得到脉冲星控制合成的乐曲mcsig′_z；

S38)遍历步骤S32)得到的脉冲星控制权重系数集{AF_W,q}，使用线性插值对脉冲星控制权重系数集{AF_W,q}进行上采样，得到上采样后的脉冲星控制权重系数集{AF′_W,q}，按照步骤S31)中拆分音频信号的顺序对所述上采样后的脉冲星控制权重系数集{AF′_W,q}进行组合，得到基于乐曲库中第z首乐曲的脉冲星控制下合成音乐的权重AF_W,z，权重AF_W,z的维度为(Q×N_sample)×N_pulsar×1；

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

本发明提出的一种用于脉冲星控制数字音乐合成的方法，采用基于DDSP的自编解码器，结合深度学习方法和数字信号处理方法，实现了对数字音乐信号的分析和合成任务。

本发明中音乐分析方法使用深度卷积神经网络模型提取基频特征，使用A加权功率谱得到响度特征。

本发明采用了最小二乘法求解多元线性方程组，得到脉冲星信号的控制权重信号，实时展示各脉冲星在音乐合成过程中的贡献大小。

本发明中数字音乐合成方法利用深度神经网络模型得到基波和谐波信号的幅度分布和滤波器频谱，利用数字信号处理技术得到复合音信号和经过滤波处理的噪声信号，根据声音产生和传播的物理特性，采用谱建模理论，将复合音信号和滤波后的噪声信号组合成合成的音乐信号。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种用于脉冲星信号控制的数字音乐合成方法，其特征在于，包括以下步骤：

利用所述音乐数据集Set对所述自动编码器模型

进行训练，获得训练好的自动编码器模型

所述自动编码器模型

包括基频编码器

响度编码器

和解码器

S2)获取参与音乐合成控制的N_pulsar颗脉冲星的信号，利用所述基频编码器

和所述响度编码器

对所述N_pulsar颗脉冲星的信号进行特征提取，得到脉冲星的特征表示AF_X；

S3)获取乐曲库Musics，根据所述训练好的自动编码器模型

和所述脉冲星的特征表示AF_X对所述乐曲库Musics中乐曲的音频信号进行脉冲星信号控制的数字音乐合成任务。

2.根据权利要求1所述的用于脉冲星信号控制的数字音乐合成方法，其特征在于，在步骤S1)中，利用所述音乐数据集Set对所述自动编码器模型

进行训练，获得训练好的自动编码器模型

包括以下步骤：

S11)将音乐数据集

按比例划分为训练集TrainSet和测试集TestSet，利用训练集TrainSet和测试集TestSet分别对所述自动编码器模型

进行训练和测试，其中s_i为第i个原始音乐数据样本，i＝1、2、…、N_a，N_a为原始音乐数据样本总数，每个原始音乐数据样本为预设时长duration的单音道音频数据，且每个原始音乐数据样本包含N_sample个时域采样点，每一个时域采样点对应有一个采样值，N_sample＝duration×SR，SR为采样率；训练集TrainSet＝{s_j}，s_j是训练集中第j个原始音乐数据样本，j＝1、2、…、N′_a；测试集TestSet＝{s_m}，s_m为测试集中第m个原始音乐样本，m＝1、2、…、N″_a；

S12)遍历所述训练集TrainSet中的所有原始音乐数据样本、并使用汉明窗在预设窗口大小W_frame、预设跳跃大小hop_size、预设重叠度、预设帧长度以及预设每帧位移量下分别对每个原始音乐数据样本进行分帧处理，获得分帧处理后的音频样本集，进行分帧处理后的音频样本集中每个音频样本含有N_frame帧，

S13)利用所述基频编码器

提取步骤S12)中每个音频样本的基频特征F0，所述基频编码器

S14)利用所述响度编码器

提取步骤S12)中每个音频样本的响度特征loudness，所述响度编码器

S15)使用步骤S13)提取的每个音频样本的基频特征F0以及步骤S14)提取的每个音频样本的响度特征loudness，利用所述解码器

为由多层感知机、由门控循环单元组成的循环神经网络层和全连接层组成的深度神经网络模型，每个音频样本的每帧输出一个幅度包络值、N_h个基频整数倍谐波的归一化的幅度值和N_filter个滤波器传递函数的采样值，滤波器的传递函数在0Hz到奈奎斯特频率f_nyqist范围内均匀采样，所述奈奎斯特频

S17)利用减法合成器SubSyn对步骤S15)得到的滤波器的传递函数H进行减法合成，得到采样率为SR且长度为duration的滤波的时域噪声信号sig′_wn；

S18)将所述复合音信号sig′_h和所述滤波的时域噪声信号sig′_wn进行矩阵加法操作，得到原始音乐数据样本对应的合成音乐信号

其中

S20)使用Adam优化算法最小化所述经验风险函数

完成自动编码器模型

的训练。

3.根据权利要求2所述的用于脉冲星信号控制的数字音乐合成方法，其特征在于，在步骤S16)中，根据步骤S13)提取的每个音频样本的基频特征F0和步骤S15)获取的每个音频样本的幅度包络Amp和归一化的谐波分布c，利用加法合成器AddSyn得到采样率为SR且长度为duration的复合音信号sig′_h，包括以下步骤：

相乘、并使用线性插值进行上采样处理得到基音和泛音的频率分布矩阵freq，所述频率分布矩阵freq的维度为N_sample×N_h；

S162)利用累计操作函数对所述频率分布矩阵freq进行列维度的累计操作，得到基音和泛音的相位分布矩阵φ，所述累计操作函数为

其中φ_{[row_i，col_i]}为相位分布矩阵的第row_i行、第col_i列的元素值，freq_{[ii，col_i]}是频率分布矩阵freq的第ii行、第col_i列的元素值；

S163)将步骤S15)得到的每个音频样本的幅度包络Amp与维度为1×N_h且元素全为1的矩阵相乘，得到全局幅度Amp_t；将步骤S15)得到的归一化的谐波幅度分布c与所述全局幅度Amp_t进行哈达玛积运算，使用线性插值进行上采样处理得到基音和泛音的幅度分布矩阵Amp_h，所述幅度分布矩阵Amp_h的维度为N_sample×N_h；

S164)根据步骤S161)得到的频率分布矩阵freq，将所述幅度分布矩阵Amp_h中频率高于奈奎斯特频率f_nyqist的幅度值设置为零，得到更新后的基音和泛音的幅度分布矩阵Amp′_h；

S165)使用步骤S162)得到的基音和泛音的相位分布矩阵φ和步骤S164)得到的幅度分布矩阵Amp′_h，进行正弦函数操作，得到由维度为N_sample×N_h的二维矩阵表示的N_h个的正弦波信号

表示矩阵的哈达玛积运算，正弦波信号sig_h与维度为N_h×1且元素全为1的矩阵相乘，得到由一个基音和N_h-1个泛音组合成的复合音信号sig′_h。

4.根据权利要求2或3所述的用于脉冲星信号控制的数字音乐合成方法，其特征在于，在步骤S17)中，利用减法合成器SubSyn对步骤S15)得到的滤波器的传递函数H进行减法合成，得到采样率为SR且长度为duration的滤波的时域噪声信号sig′_wn，包括以下步骤：

S171)获取取值在[-1，1]范围内且维度为N_sample×1的均匀白噪声sig_wn，对所述均匀白噪声sig_wn进行快速傅里叶变换FFT处理，得到快速傅里叶变换处理后的均匀白噪声的频域分布Fsig_wn；

S172)对步骤S15)得到的滤波器的传递函数H进行快速傅里叶逆变换处理，得到快速傅里叶逆变换iFFT处理后滤波器的时域波形信号，对所述快速傅里叶逆变换处理后滤波器的时域波形信号使用汉宁窗进行加权处理，得到滤波器的时变有限脉冲响应sig_filter，所述时变有限脉冲响应sig_filter的维度为N_sample×1，对所述时变有限脉冲响应sig_filter进行FFT处理，得到FFT处理后的滤波器的频域分布H′；

S173)将所述均匀白噪声频域分布Fsig_wn和所述FFT处理后的滤波器的频域分布H′相乘后做iFFT处理，得到维度为N_sample×1的滤波的时域噪声信号sig′_wn，所述滤波的时域噪声信号sig′_wn＝iFFT(Fsig_wn×H′)。

5.根据权利要求4所述的用于脉冲星信号控制的数字音乐合成方法，其特征在于，在步骤S19)中，遍历步骤S11)中训练集TrainSet的所有原始音乐数据样本和步骤S18)得到的合成音乐数据集TrainSet′中的所有合成音乐样本，计算经验风险函数

包括以下步骤：

为采用第k种帧长度经STFT计算得到的合成音乐样本频谱图函数，k＝1，2，…，K，K为帧长度的总种数；

计算K个第一损失函数

其中j＝jj，S_k，j为采用第k种帧长度经STFT计算得到的原始音乐样本频谱图函数S_k中第j个原始音乐数据样本s_j的频谱图函数，

中以第j个原始音乐数据样本s_j为原型而合成的数字音乐信号

的频谱图函数；

S193)根据所述第一幅度频谱函数集合{S_k}和所述第二幅度频谱函数集合

计算K个第二损失函数

logS_k，j为采用第k种帧长度经STFT计算得到的原始音乐样本频谱图函数S_k中第j个原始音乐数据样本s_j的频谱图函数的对数值，

中以第j个原始音乐数据样本s_j为原型而合成的数字音乐信号

的频谱图函数的对数值；

S194)对所述K个第一损失函数

和所述K个第二损失函数

进行加法操作，得到经验风险函数集

α为取值在[0，1]范围内的权重参数；

S195)对所述经验风险函数集

中的各个元素进行求和，得到求和后的经验风险函数

6.根据权利要求1或5所述的用于脉冲星信号控制的数字音乐合成方法，其特征在于，在步骤S2)中，利用所述基频编码器

和所述响度编码器

对所述N_pulsar颗脉冲星的信号进行特征提取，得到脉冲星的特征表示AF_X，包括以下步骤：

S23)利用基频编码器

S24)利用所述响度编码器

获取所述分帧后的脉冲星信号的响度特征，得到脉冲星的响度特征表示AF_loudness，所述脉冲星的响度特征表示AF_loudness的维度为N_frame×1×N_pulsar；

S25)对所述脉冲星的基频特征表示AF_F0和所述脉冲星的响度特征表示AF_loudness在特征维度进行矩阵堆叠操作，特征维度是矩阵的第二维，得到脉冲星的特征表示AF_X，所述脉冲星的特征表示AF_X的维度为N_frame×2×N_pulsar，其中AF_X[：，0，：]＝AF_F0，AF_X[：，1，：]＝AF_loudness。

7.根据权利要求6所述的用于脉冲星信号控制的数字音乐合成方法，其特征在于，在步骤S3)中，获取乐曲库Musics，根据所述训练好的自动编码器模型

和所述脉冲星的特征表示AF_X对所述乐曲库Musics中乐曲的音频信号进行脉冲星信号控制的数字音乐合成任务，包括以下步骤：

中的基频编码器

和响度编码器

S32)根据步骤S2)得到的脉冲星的特征表示AF_X和步骤S31)得到的原始音乐片段的特征表示集{AF_y，q}，构建Q个N_pulsar元线性方程组，采用最小二乘法求解所述Q个N_pulsar元线性方程组，得到脉冲星控制权重系数集{AF_W，q}，根据所述脉冲星特征表示AF_X和所述脉冲星控制权重系数集{AF_W，q}计算音乐片段的拟合特征表示集{AF′_y，q}；

S33)根据所述音乐片段的拟合特征表示集{AF′_y，q}并利用所述解码器.

S34)利用加法合成器AddSyn对所述原始音乐片段的特征表示集{AF_y，q}、所述幅度包络集{Amp_q}和所述归一化的谐波分布集{c_q}进行加法合成，得到采样率为SR长度为duration的复合音信号集{sig′_h，q}，sig′_h，q是第q个音乐片段的复合音信号；

S35)利用减法合成器SubSyn对所述滤波器的频域分布集{H_q}进行减法合成，得到采样率为SR长度为duration的滤波后的噪声信号集{sig′_wn，q}，sig′_wn，q是第q个音乐片段的滤波后的噪声信号；

S36)对所述复合音信号集{sig′_h，q}和所述滤波后的噪声信号集{sig′_wn，q}进行矩阵加法操作，得到Q个原始音乐片段对应的合成音乐片段集

为根据第q个原始音乐样本ms_z，q合成的数字音乐信号，

S37)使用步骤S36)得到的合成音乐片段集

按照步骤S31)中拆分音频信号的顺序对所述合成音乐片段集

进行组合，得到脉冲星控制合成的乐曲mcsig′_z；

S38)遍历步骤S32)得到的脉冲星控制权重系数集{AF_W，q}，使用线性插值对所述脉冲星控制权重系数集{AF_W，q}进行上采样，得到上采样后的脉冲星控制权重系数集{AF′_W，q}，按照步骤S31)中拆分音频信号的顺序对所述上采样后的脉冲星控制权重系数集{AF′_W，q}进行组合，得到基于乐曲库中第z首乐曲的脉冲星控制下合成音乐的权重AF_W，z，所述权重AF_W，z的维度为(Q×N_sample)×N_pulsar×1；

S39)使用步骤S37)中脉冲星控制合成的乐曲mcsig′_z和步骤S38)得到的基于乐曲库中第z首乐曲的脉冲星控制下合成音乐的权重AF_W，z，在播放乐曲mcsig′_z的同时动态展示脉冲星控制权重系数。

8.根据权利要求7所述的用于脉冲星信号控制的数字音乐合成方法，其特征在于，在步骤S31)中，将所述第z首乐曲的音频信号mcsig_z拆分成Q个长度为duration的原始音乐片段，利用所述训练好的自动编码器模型

中的基频编码器

和响度编码器

进行音乐片段分析，包括以下步骤：

S311)利用矩阵窗将所述第z首乐曲的音频信号mcsig_z拆分成Q个长度为duration的原始音乐片段ms_z，1、ms_z，2、…、ms_z，Q；

S312)遍历所述Q个长度为duration的原始音乐片段，使用汉明窗分别对所述Q个长度为duration的原始音乐片段进行分帧处理，获得分帧处理后的音乐片段，窗口大小为W_frame个时间步，跳跃大小为hop_size个时间步，每个原始音乐片段含有N_frame帧；

S313)利用所述基频编码器

提取所述分帧处理后的音乐片段的基频特征，得到基频特征表示集{AF_F0，q}，AF_F0，q为第q个原始音乐片段ms_z，q的基频特征，所述第q个原始音乐片段ms_z，q的基频特征AF_F0，q的维度为N_frame×1×1；

S314)利用所述响度编码器

提取所述分帧处理后的音乐片段的响度特征，得到响度特征表示集{AF_loud，q}，AF_loud，q为第q个原始音乐片段ms_z，q的响度特征，所述第q个原始音乐片段ms_z，q的响度特征的维度为N_frame×1×1；

S315)对所述基频特征表示集{AF_F0，q}和所述响度特征表示集{AF_loud，q}在特征维度上进行矩阵堆叠操作，得到原始音乐片段的特征表示集{AF_y，q}，其中AF_y，q为第q个原始音乐片段ms_z，q的特征表示，所述第q个原始音乐片段ms_z，q的特征表示的维度为N_frame×2×1，AF_y，q[：，0，：]＝AF_F0，q，AF_y，q[：，1，：]＝AF_loud，q。

9.根据权利要求8所述的用于脉冲星信号控制的数字音乐合成方法，其特征在于，在步骤S32)中，根据步骤S2)得到的脉冲星的特征表示AF_X和步骤S31)得到的原始音乐片段的特征表示集{AF_y，q}构建Q个N_pulsar元线性方程组，采用最小二乘法求解所述Q个N_pulsar元线性方程组，得到脉冲星控制权重系数集{AF_W，q}，根据所述脉冲星特征表示AF_X和所述脉冲星控制权重系数集{AF_W，q}计算音乐片段的拟合特征表示集{AF′_y，q}计算音乐片段的拟合的特征表示集{AF′_y，q}，包括以下步骤：

S321)遍历步骤S31)得到的音乐片段特征表示集{AF_y，q}以及步骤S2)得到的脉冲星的特征表示AF_X，构建Q个N_pulsar元线性方程组，所述Q个N_pulsar元线性方程组中第q个方程组表示为AF_X×AF_W，q＝AF_y，q，其中AF_W，q为待求解的第q个原始音乐片段对应的脉冲星控制权重系数，所述待求解的第q个原始音乐片段对应的脉冲星控制权重系数AF_W，q的维度为N_frame×N_pulsar×1；

S322)采用最小二乘法求解所述Q个N_pulsar元线性方程组，得到脉冲星控制权重系数集{AF_W，q}；

S323)根据步骤S2)得到的脉冲星特征表示AF_X和步骤S322)得到的脉冲星控制权重系数集{AF_W，q}计算音乐片段的拟合特征表示集{AF′_y，q}，AF′_y，q是第q个音乐片段的拟合特征表示，AF′_y，q[：，0，：]＝AF′_F0，q＝AF_F0×AF_W，q’AF′_y，q[：，1，：]＝AF′_loud，q＝AF_loudness×AF_W，q，其中AF′_F0，q第q个音乐片段的拟合基频特征，AF′_loud，q第q个音乐片段的拟合响度特征，AF_F0为步骤S25)得到的所述脉冲星的基频特征表示，AF_loudness为步骤S25)得到的所述脉冲星的响度特征表示。

10.一种用于脉冲星信号控制的数字音乐合成设备，其特征在于，所述用于脉冲星信号控制的数字音乐合成设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的用于脉冲星信号控制的数字音乐合成程序，所述用于脉冲星信号控制的数字音乐合成程序被所述处理器执行时实现如权利要求1至9任一项所述的用于脉冲星信号控制的数字音乐合成方法的步骤。