CN113140204A - 一种用于脉冲星信号控制的数字音乐合成方法及设备 - Google Patents

一种用于脉冲星信号控制的数字音乐合成方法及设备 Download PDF

Info

Publication number
CN113140204A
CN113140204A CN202110441744.7A CN202110441744A CN113140204A CN 113140204 A CN113140204 A CN 113140204A CN 202110441744 A CN202110441744 A CN 202110441744A CN 113140204 A CN113140204 A CN 113140204A
Authority
CN
China
Prior art keywords
music
pulsar
sample
loudness
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110441744.7A
Other languages
English (en)
Other versions
CN113140204B (zh
Inventor
龙飞
刘肖萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinaso Information Technology Co ltd
Original Assignee
Chinaso Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinaso Information Technology Co ltd filed Critical Chinaso Information Technology Co ltd
Priority to CN202110441744.7A priority Critical patent/CN113140204B/zh
Publication of CN113140204A publication Critical patent/CN113140204A/zh
Application granted granted Critical
Publication of CN113140204B publication Critical patent/CN113140204B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/008Means for controlling the transition from one tone waveform to another
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本发明涉及数字信号处理领域,公开了一种用于脉冲星信号控制的数字音乐合成方法及设备,包括建立自动编码器模型
Figure DDA0003035277890000011
对自动编码器模型
Figure DDA0003035277890000012
进行训练,获得训练好的自动编码器模型
Figure DDA0003035277890000013
获取脉冲星的信号,利用基频编码器和响度编码器对多颗脉冲星的信号进行特征提取,得到脉冲星的特征表示;根据自动编码器模型
Figure DDA0003035277890000014
和所述脉冲星的特征表示对乐曲的音频信号进行脉冲星信号控制的数字音乐合成任务。本发明中使用深度卷积神经网络模型提取基频特征及使用A加权功率谱得到响度特征,结合最小二乘法求解多元线性方程组,得到脉冲星信号的控制权重信号,实时展示各脉冲星在音乐合成过程中的贡献大小,有效降低了模型参数规模,音乐合成效率高。

Description

一种用于脉冲星信号控制的数字音乐合成方法及设备
技术领域
本发明涉及数字信号处理技术领域,具体地涉及一种用于脉冲星信号控制的数字音乐合成方法及设备。
背景技术
现有技术中,基于深度学习的音乐合成模型一般直接生成音乐的时域波形或频谱图分布,尽管足以表征任意音乐信号,但是这些方法并未利用声音产生、传播和感知的物理原理,模型参数规模巨大,效率较低。
比如,国家专利公开文献CN107871492A,公开了一种“音乐合成方法和系统”,包括获取待合成声音信息,根据待合成声音信息获取对应的线性预测系数;根据线性预测系数获取待合成声音信息的线性预测滤波器;接收乐曲输入信息,根据乐曲输入信息获取待合成乐曲信息;根据待合成乐曲信息与线性预测滤波器进行编码合成得到合成音乐。该发明提供的音乐合成方法直接生成音乐的时域波形和频谱数据,尽管足以表征音乐信号,但是该发明并未利用声音产生、传播和感知的物理原理,模型参数规模巨大,音乐合成效率较低。
发明内容
本发明提供一种用于脉冲星信号控制的数字音乐合成方法及设备,从而解决现有技术的上述问题。
第一方面,本发明提供了一种用于脉冲星信号控制的数字音乐合成方法,包括以下步骤:
S1)获取音乐数据集Set,建立用于数字音乐合成的基于可微分数字信号处理算法的自动编码器模型
Figure BDA0003035277870000011
利用音乐数据集Set对自动编码器模型
Figure BDA0003035277870000012
进行训练,获得训练好的自动编码器模型
Figure BDA0003035277870000013
自动编码器模型
Figure BDA0003035277870000014
包括基频编码器
Figure BDA0003035277870000015
响度编码器
Figure BDA0003035277870000021
和解码器
Figure BDA0003035277870000022
S2)获取参与音乐合成控制的Npulsar颗脉冲星的信号,利用基频编码器
Figure BDA0003035277870000023
和响度编码器
Figure BDA0003035277870000024
对Npulsar颗脉冲星的信号进行特征提取,得到脉冲星的特征表示AFX
S3)获取乐曲库Musics,根据训练好的自动编码器模型
Figure BDA0003035277870000028
和脉冲星的特征表示AFX对乐曲库Musics中乐曲的音频信号进行脉冲星信号控制的数字音乐合成任务。
进一步的,在步骤S1)中,利用音乐数据集Set对自动编码器模型
Figure BDA0003035277870000029
进行训练,获得训练好的自动编码器模型
Figure BDA00030352778700000210
包括以下步骤:
S11)将音乐数据集
Figure BDA00030352778700000211
按比例划分为训练集TrainSet和测试集TestSet,利用训练集TrainSet和测试集TestSet分别对自动编码器模型
Figure BDA0003035277870000025
进行训练和测试,其中si为第i个原始音乐数据样本,i=1、2、…、Na,Na为原始音乐数据样本总数,每个原始音乐数据样本为预设时长duration的单音道音频数据,且每个原始音乐数据样本包含Nsample个时域采样点,每一个时域采样点对应有一个采样值,Nsample=duration×SR,SR为采样率;训练集TrainSet={sj},sj是训练集中第j个原始音乐数据样本,j=1、2、…、N′a;测试集TestSet={sm},sm为测试集中第m个原始音乐样本,m=1、2、…、N″a
S12)遍历训练集TrainSet中的所有原始音乐数据样本、并使用汉明窗在预设窗口大小Wframe、预设跳跃大小hopsize、预设重叠度、预设帧长度以及预设每帧位移量下分别对每个原始音乐数据样本进行分帧处理,获得分帧处理后的音频样本集,进行分帧处理后的音频样本集中每个音频样本含有Nframe帧,
Figure BDA0003035277870000026
S13)利用基频编码器
Figure BDA0003035277870000027
提取步骤S12)中每个音频样本的基频特征F0,基频编码器
Figure BDA0003035277870000031
采用深度卷积神经网络模型CREPE提取每个音频样本的基频特征,每个音频样本的基频特征F0的维度为Nframe×1;
S14)利用响度编码器
Figure BDA0003035277870000032
提取步骤S12)中每个音频样本的响度特征loudness,响度编码器
Figure BDA0003035277870000033
采用音频样本的功率谱A加权计算响度,每个音频样本的响度特征loudness的维度为Nframe×1;
S15)使用步骤S13)提取的每个音频样本的基频特征F0以及步骤S14)提取的每个音频样本的响度特征loudness,利用解码器
Figure BDA0003035277870000034
获取每个音频样本的幅度包络Amp、归一化的谐波分布c和滤波器的传递函数H,解码器
Figure BDA0003035277870000035
为由多层感知机、由门控循环单元组成的循环神经网络层和全连接层组成的深度神经网络模型,每个音频样本的每帧输出一个幅度包络值、Nh个基频整数倍谐波的归一化的幅度值和Nfilter个滤波器传递函数的采样值,滤波器的传递函数在0Hz到奈奎斯特频率fnyqist范围内均匀采样,奈奎斯特频
Figure BDA0003035277870000036
每个音频样本的幅度包络Amp的维度为Nframe×1,归一化的谐波分布c的维度为Nframe×Nh,滤波器的传递函数H的维度为Nframe×Nfilter
S16)根据步骤S13)提取的每个音频样本的基频特征F0和步骤S15)获取的每个音频样本的幅度包络Amp和归一化的谐波分布c,利用加法合成器AddSyn得到采样率为SR且长度为duration的复合音信号sig′h
S17)利用减法合成器SubSyn对步骤S15)得到的滤波器的传递函数H进行减法合成,得到采样率为SR且长度为duration的滤波的时域噪声信号sig′wn
S18)将复合音信号sig′h和滤波的时域噪声信号sig′wn进行矩阵加法操作,得到原始音乐数据样本对应的合成音乐信号
Figure BDA0003035277870000037
其中
Figure BDA0003035277870000038
为以第j个原始音乐数据样本sj为原型而合成的数字音乐信号,jj取1、2、…、N′a,获得与训练集TrainSet相对应的合成音乐数据集
Figure BDA0003035277870000039
S19)遍历步骤S11)中训练集TrainSet的所有原始音乐数据样本和步骤S18)得到的合成音乐数据集TrainSet′中的所有合成音乐样本,计算经验风险函数
Figure BDA0003035277870000045
S20)使用Adam优化算法最小化所述经验风险函数
Figure BDA0003035277870000044
完成自动编码器模型
Figure BDA0003035277870000043
的训练。
进一步的,在步骤S16)中,根据步骤S13)提取的每个音频样本的基频特征F0和步骤S15)获取的每个音频样本的幅度包络Amp和归一化的谐波分布c,利用加法合成器AddSyn得到采样率为SR且长度为duration的复合音信号sig′h,包括以下步骤:
S161)将步骤S13)得到的每个音频样本的基频特征F0与维度为Nh×Nh的矩阵
Figure BDA0003035277870000041
相乘、并使用线性插值进行上采样处理得到基音和泛音的频率分布矩阵freq,频率分布矩阵freq的维度为Nsample×Nh
S162)利用累计操作函数对频率分布矩阵freq进行列维度的累计操作,得到基音和泛音的相位分布矩阵φ,所述累计操作函数为
Figure BDA0003035277870000042
其中φ[row_i,col_i]为相位分布矩阵的第row_i行、第col_i列的元素值,freq[ii,col_i]是频率分布矩阵freq的第ii行、第col_i列的元素值;
S163)将步骤S15)得到的每个音频样本的幅度包络Amp与维度为1×Nh且元素全为1的矩阵相乘,得到全局幅度Ampt;将步骤S15)得到的归一化的谐波幅度分布c与全局幅度Ampt进行哈达玛积运算,使用线性插值进行上采样处理得到基音和泛音的幅度分布矩阵Amph,幅度分布矩阵Amph的维度为Nsample×Nh
S164)根据步骤S161)得到的频率分布矩阵freq,将幅度分布矩阵Amph中频率高于奈奎斯特频率fnyqist的幅度值设置为零,得到更新后的基音和泛音的幅度分布矩阵Amp′h
S165)使用步骤S162)得到的基音和泛音的相位分布矩阵φ和步骤S164)得到的幅度分布矩阵Amp′h,进行正弦函数操作,得到由维度为Nsample×Nh的二维矩阵表示的Nh个的正弦波信号sigh=Amp′hοsinφ,ο表示矩阵的哈达玛积运算,正弦波信号sigh与维度为Nh×1且元素全为1的矩阵相乘,得到由一个基音和Nh-1个泛音组合成的复合音信号sig′h
进一步的,在步骤S17)中,利用减法合成器SubSyn对步骤S15)得到的滤波器的传递函数H进行减法合成,得到采样率为SR且长度为duration的滤波的时域噪声信号sig′wn,包括以下步骤:
S171)获取取值在[-1,1]范围内且维度为Nsample×1的均匀白噪声sigwn,对均匀白噪声sigwn进行快速傅里叶变换FFT处理,得到快速傅里叶变换处理后的均匀白噪声的频域分布Fsigwn
S172)对步骤S15)得到的滤波器的传递函数H进行快速傅里叶逆变换处理,得到快速傅里叶逆变换iFFT处理后滤波器的时域波形信号,对快速傅里叶逆变换处理后滤波器的时域波形信号使用汉宁窗进行加权处理,得到滤波器的时变有限脉冲响应sigfilter,所述时变有限脉冲响应sigfilter的维度为Nsample×1,对所述时变有限脉冲响应sigfilter进行FFT处理,得到FFT处理后的滤波器的频域分布H′;
S173)将所述均匀白噪声频域分布Fsigwn和所述FFT处理后的滤波器的频域分布H′相乘后做iFFT处理,得到维度为Nsample×1的滤波的时域噪声信号sig′wn,所述滤波的时域噪声信号sig′wn=iFFT(Fsigwn×H′)。
进一步的,在步骤S19)中,遍历步骤S11)中训练集TrainSet的所有原始音乐数据样本和步骤S18)得到的合成音乐数据集TrainSet′中的所有合成音乐样本,计算经验风险函数
Figure BDA0003035277870000061
包括以下步骤:
S191)分别遍历步骤S11)中训练集TrainSet的所有原始音乐数据样本和步骤S18)中合成音乐数据集TrainSet′的所有合成音乐样本、并使用K种尺度的帧进行短时傅里叶变换STFT,得到训练集TrainSet对应的第一幅度频谱函数集合{Sk}和合成音乐数据集TrainSet′对应的第二幅度频谱函数集合
Figure BDA0003035277870000062
Sk为采用第k种帧长度经STFT计算得到的原始音乐样本频谱图函数,
Figure BDA0003035277870000063
为采用第k种帧长度经STFT计算得到的合成音乐样本频谱图函数,k=1,2,…,K,K为帧长度的总种数;
S192)根据所述第一幅度频谱函数集合{Sk}和所述第二幅度频谱函数集合
Figure BDA0003035277870000064
计算K个第一损失函数
Figure BDA0003035277870000065
其中j=jj,Sk,j为采用第k种帧长度经STFT计算得到的原始音乐样本频谱图函数Sk中第j个原始音乐数据样本sj的频谱图函数,
Figure BDA0003035277870000066
为采用第k种帧长度经STFT计算得到的合成音乐样本频谱图函数
Figure BDA0003035277870000067
中以第j个原始音乐数据样本sj为原型而合成的数字音乐信号
Figure BDA0003035277870000068
的频谱图函数;
S193)根据第一幅度频谱函数集合{Sk}和第二幅度频谱函数集合
Figure BDA0003035277870000069
计算K个第二损失函数
Figure BDA00030352778700000610
logSk,j为采用第k种帧长度经STFT计算得到的原始音乐样本频谱图函数Sk中第j个原始音乐数据样本sj的频谱图函数的对数值,
Figure BDA00030352778700000611
为采用第k种帧长度经STFT计算得到的合成音乐样本频谱图函数
Figure BDA00030352778700000612
中以第j个原始音乐数据样本sj为原型而合成的数字音乐信号
Figure BDA00030352778700000613
的频谱图函数的对数值;
S194)对K个第一损失函数
Figure BDA00030352778700000614
和K个第二损失函数
Figure BDA00030352778700000615
进行加法操作,得到经验风险函数集
Figure BDA00030352778700000616
为根据第k种帧长度计算STFT得到的经验风险函数,所述根据第k种帧长度计算STFT得到的经验风险函数
Figure BDA0003035277870000071
α为取值在[0,1]范围内的权重参数;
S195)对经验风险函数集
Figure BDA0003035277870000072
中的各个元素进行求和,得到求和后的经验风险函数
Figure BDA0003035277870000073
进一步的,在步骤S2)中,利用基频编码器
Figure BDA0003035277870000074
和响度编码器
Figure BDA0003035277870000075
对Npulsar颗脉冲星的信号进行特征提取,得到脉冲星的特征表示AFX,包括以下步骤:
S21)使用Npulsar颗脉冲星参与音乐合成控制,遍历Npulsar个脉冲星单位周期内的采样值,利用线性插值进行上采样处理,得到长度为duration且采样率为SR的脉冲星音频信号;
S22)利用汉明窗对步骤S21)得到的脉冲星音频信号进行分帧及加权处理,获得分帧后的脉冲星信号,窗口大小为Wframe个时间步,跳跃大小为hopsize个时间步,每个脉冲星信号含有Nframe帧;
S23)利用基频编码器
Figure BDA0003035277870000076
获取所述分帧后的脉冲星信号的基频特征,得到脉冲星的基频特征表示AFF0,所述脉冲星的基频特征表示AFF0的维度为Nframe×1×Npulsar
S24)利用响度编码器
Figure BDA0003035277870000077
获取分帧后的脉冲星信号的响度特征,得到脉冲星的响度特征表示AFloudness,脉冲星的响度特征表示AFloudness的维度为Nframe×1×Npulsar
S25)对脉冲星的基频特征表示AFF0和脉冲星的响度特征表示AFloudness在特征维度进行矩阵堆叠操作,特征维度是矩阵的第二维,得到脉冲星的特征表示AFX,脉冲星的特征表示AFX的维度为Nframe×2×Npulsar,其中AFX[:,0,:]=AFF0,AFX[:,1,:]=AFloudness
进一步的,在步骤S3)中,获取乐曲库Musics,根据训练好的自动编码器模型
Figure BDA0003035277870000078
和脉冲星的特征表示AFX对乐曲库Musics中乐曲的音频信号进行脉冲星信号控制的数字音乐合成任务,包括以下步骤:
S31)根据应用场景要求从乐曲库Musics中选取第z首乐曲的音频信号mcsigz,将所述第z首乐曲的音频信号mcsigz拆分成Q个长度为duration的原始音乐片段,利用所述训练好的自动编码器模型
Figure BDA0003035277870000081
中的基频编码器
Figure BDA0003035277870000082
和响度编码器
Figure BDA0003035277870000083
进行音乐片段分析,得到原始音乐片段的特征表示集{AFy,q},其中AFy,q为第q个原始音乐片段msz,q的特征表示,q=1、2、…、Q;
S32)根据步骤S2)得到的脉冲星的特征表示AFX和步骤S31)得到的原始音乐片段的特征表示集{AFy,q}构建Q个Npulsar元线性方程组,采用最小二乘法求解所述Q个Npulsar元线性方程组,得到脉冲星控制权重系数集{AFW,q},根据所述脉冲星特征表示AFX和所述脉冲星控制权重系数集{AFW,q}计算音乐片段的拟合特征表示集{AF′y,q};
S33)根据音乐片段的拟合特征表示集{AF′y,q}并利用解码器
Figure BDA0003035277870000084
得到幅度包络集{Ampq}、归一化的谐波分布集{cq}和滤波器的频域分布集{Hq},第q个音乐片段的幅度包络Ampq的维度为Nframe×1,第q个音乐片段的归一化的谐波分布cq的维度是Nframe×Nh,第q个音乐片段的滤波器的频域分布Hq的维度是Nframe×Nfilter
S34)利用加法合成器AddSyn对原始音乐片段的特征表示集{AFy,q}、幅度包络集{Ampq}和所述归一化的谐波分布集{cq}进行加法合成,得到采样率为SR长度为duration的复合音信号集{sig′h,q},sig′h,q是第q个音乐片段的复合音信号;
S35)利用减法合成器SubSyn对滤波器的频域分布集{Hq}进行减法合成,得到采样率为SR长度为duration的滤波后的噪声信号集{sig′wn,q},sig′wn,q是第q个音乐片段的滤波后的噪声信号;
S36)对复合音信号集{sig′h,q}和滤波后的噪声信号集{sig′wn,q}进行矩阵加法操作,得到Q个原始音乐片段对应的合成音乐片段集
Figure BDA0003035277870000091
为根据第q个原始音乐样本msz,q合成的数字音乐信号,
Figure BDA0003035277870000092
S37)使用步骤S36)得到的合成音乐片段集
Figure BDA0003035277870000093
按照步骤S31)中拆分音频信号的顺序对合成音乐片段集
Figure BDA0003035277870000094
进行组合,得到脉冲星控制合成的乐曲mcsig′z
S38)遍历步骤S32)得到的脉冲星控制权重系数集{AFW,q},使用线性插值对所述脉冲星控制权重系数集{AFW,q}进行上采样,得到上采样后的脉冲星控制权重系数集{AF′W,q},按照步骤S31)中拆分音频信号的顺序对所述上采样后的脉冲星控制权重系数集{AF′W,q}进行组合,得到基于乐曲库中第z首乐曲的脉冲星控制下合成音乐的权重AFW,z,所述权重AFW,z的维度为(Q×Nsample)×Npulsar×1;
S39)使用步骤S37)中脉冲星控制合成的乐曲mcsig′z和步骤S38)得到的基于乐曲库中第z首乐曲的脉冲星控制下合成音乐的权重AFW,z,在播放乐曲mcsig′z的同时动态展示脉冲星控制权重系数。
进一步的,在步骤S31)中,将第z首乐曲的音频信号mcsigz拆分成Q个长度为duration的原始音乐片段,利用训练好的自动编码器模型
Figure BDA0003035277870000097
中的基频编码器
Figure BDA0003035277870000095
和响度编码器
Figure BDA0003035277870000096
进行音乐片段分析,包括以下步骤:
S311)利用矩阵窗将第z首乐曲的音频信号mcsigz拆分成Q个长度为duration的原始音乐片段msz,1、msz,2、…、msz,Q
S312)遍历Q个长度为duration的原始音乐片段,使用汉明窗分别对Q个长度为duration的原始音乐片段进行分帧处理,获得分帧处理后的音乐片段,窗口大小为Wframe个时间步,跳跃大小为hopsize个时间步,每个原始音乐片段含有Nframe帧;
S313)利用基频编码器
Figure BDA0003035277870000101
提取分帧处理后的音乐片段的基频特征,得到基频特征表示集{AFF0,q},AFF0,q为第q个原始音乐片段msz,q的基频特征,第q个原始音乐片段msz,q的基频特征AFF0,q的维度为Nframe×1×1;
S314)利用响度编码器
Figure BDA0003035277870000102
提取分帧处理后的音乐片段的响度特征,得到响度特征表示集{AFloud,q},AFloud,q为第q个原始音乐片段msz,q的响度特征,第q个原始音乐片段msz,q的响度特征的维度为Nframe×1×1;
S315)对基频特征表示集{AFF0,q}和响度特征表示集{AFloud,q}在特征维度上进行堆叠操作,得到原始音乐片段的特征表示集{AFy,q},其中AFy,q为第q个原始音乐片段msz,q的特征表示,第q个原始音乐片段msz,q的特征表示的维度为Nframe×2×1,AFy,q[:,0,:]=AFF0,q,AFy,q[:,1,:]=AFloud,q
进一步的,在步骤S32)中,根据步骤S2)得到的脉冲星的特征表示AFX和步骤S31)得到的原始音乐片段的特征表示集{AFy,q}构建Q个Npulsar元线性方程组,采用最小二乘法求解所述Q个Npulsar元线性方程组,得到脉冲星控制权重系数集{AFW,q},根据脉冲星特征表示AFX和脉冲星控制权重系数集{AFW,q}计算音乐片段的拟合特征表示集{AF′y,q}计算音乐片段的拟合的特征表示集{AF′y,q},包括以下步骤:
S321)遍历步骤S31)得到的音乐片段特征表示集{AFy,q}以及步骤S2)得到的脉冲星的特征表示AFX,构建Q个Npulsar元线性方程组,Q个Npulsar元线性方程组中第q个方程组表示为AFX×AFW,q=AFy,q,其中AFW,q为待求解的第q个原始音乐片段对应的脉冲星控制权重系数,待求解的第q个原始音乐片段对应的脉冲星控制权重系数AFW,q的维度为Nframe×Npulsar×1;
S322)采用最小二乘法求解所述Q个Npulsar元线性方程组,得到脉冲星控制权重系数集{AFW,q};
S323)根据步骤S2)得到的脉冲星特征表示AFX和步骤S322)得到的脉冲星控制权重系数集{AFW,q}计算音乐片段的拟合特征表示集{AF′y,q},AF′y,q是第q个音乐片段的拟合特征表示,AF′y,q[:,0,:]=AF′F0,q=AFF0×AFW,q,AF′y,q[:,1,:]=AF′loud,q=AFloudness×AFW,q,其中AF′F0,q第q个音乐片段的拟合基频特征,AF′loud,q第q个音乐片段的拟合响度特征,AFF0为步骤S25)得到的所述脉冲星的基频特征表示,AFloudness为步骤S25)得到的所述脉冲星的响度特征表示。
另一方面,本发明提供了一种用于脉冲星信号控制的数字音乐合成设备,用于脉冲星信号控制的数字音乐合成设备包括:存储器、处理器及存储在存储器上并可在所述处理器上运行的用于脉冲星信号控制的数字音乐合成程序,用于脉冲星信号控制的数字音乐合成程序被处理器执行时实现用于脉冲星信号控制的数字音乐合成方法的步骤。
再一方面,本发明提供了一种计算机可读存储介质,计算机可读存储介质上存储有用于脉冲星信号控制的数字音乐合成程序,用于脉冲星信号控制的数字音乐合成程序被处理器执行时实现用于脉冲星信号控制的数字音乐合成方法的步骤。
本发明采用基于可微分数字信号处理方法(Differentiable Digital SignalProcessing,DDSP)的自编解码器,结合深度学习方法和数字信号处理方法,实现了对数字音乐信号的分析和合成任务。本发明中音乐分析方法使用深度卷积神经网络模型提取基频特征以及使用了A加权功率谱得到响度特征,结合最小二乘法求解多元线性方程组,得到脉冲星信号的控制权重信号,实时展示各脉冲星在音乐合成过程中的贡献大小。本发明中数字音乐合成方法利用深度神经网络模型得到基波和谐波信号的幅度分布和滤波器频谱,利用数字信号处理技术得到复合音信号和经过滤波处理的噪声信号,根据声音产生和传播的物理特性,采用谱建模理论,将复合音信号和滤波后的噪声信号组合成合成的音乐信号。
本发明的有益效果是:本发明构建了基于可微分数字信号处理算法DDSP的自动编码器模型
Figure BDA0003035277870000121
利用自动编码器模型
Figure BDA0003035277870000122
实现音乐信号分析和合成的基础上,加入脉冲星控制信号的作用,通过最小二乘法求解得到脉冲星控制权重,在合成音乐的音频信号播放的同时,动态显示脉冲星控制权重信号。本发明基于DDSP的自动编码器模型
Figure BDA0003035277870000123
将音频信号处理和感知的原理知识作为归纳偏置,有效降低了模型参数规模,使用基于深度神经网络的编码器分析音乐信号的高效特征表示,利用谱建模理论使用解码器将特征表示转化成合成的音乐信号,音乐合成效率高。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本实施例一提供的用于脉冲星信号控制的数字音乐合成方法流程示意图。
图2为本实施例一提供的对自动编码器模型
Figure BDA0003035277870000124
进行训练的流程示意图。
图3为本实施例一提供的利用脉冲星信号控制音乐合成的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他单元。
实施例一,第一方面,本发明提供一种用于脉冲星信号控制的数字音乐合成方法,如图1所示,包括以下步骤:
S1)获取开源的音乐数据集Set,本实施例中,采用开源音乐数据集NSynth的子集作为音乐数据集Set。建立用于数字音乐合成的基于可微分数字信号处理算法的自动编码器模型
Figure BDA0003035277870000131
利用音乐数据集Set对自动编码器模型
Figure BDA0003035277870000132
进行训练,获得训练好的自动编码器模型
Figure BDA0003035277870000133
自动编码器模型
Figure BDA0003035277870000134
包括基频编码器
Figure BDA0003035277870000135
响度编码器
Figure BDA0003035277870000136
和解码器
Figure BDA0003035277870000137
在步骤S1)中,利用音乐数据集Set对自动编码器模型
Figure BDA0003035277870000138
进行训练,获得训练好的自动编码器模型
Figure BDA0003035277870000139
如图2所示,包括以下步骤:
S11)将音乐数据集
Figure BDA00030352778700001311
按4:1比例划分为训练集TrainSet和测试集TestSet,利用训练集TrainSet和测试集TestSet分别对所述自动编码器模型
Figure BDA00030352778700001310
进行训练和测试,其中si为第i个原始音乐数据样本,i=1、2、…、Na,Na为原始音乐数据样本总数,Na=70379,每个原始音乐数据样本为预设时长duration的单音道音频数据,duration=4s,且每个原始音乐数据样本包含Nsample个时域采样点(时间步),每一个时域采样点对应有一个采样值,Nsample=duration×SR,SR为采样率,采样率SR=16000Hz,样本的音色涵盖弦乐器、铜管乐器、木管乐器、编钟类乐器,基音为MIDI值[24,84]范围内,基音频率范围是[32Hz,1000Hz]。训练集TrainSet={sj},sj是训练集中第j个原始音乐数据样本,j=1、2、…、N′a,N′a=56303,测试集TestSet={sm},sm为测试集中第m个原始音乐样本,m=1、2、…、N″a,N″a=14076;
S12)遍历训练集TrainSet中的所有原始音乐数据样本、并使用汉明窗在预设窗口大小Wframe、预设跳跃大小hopsize、预设重叠度、预设帧长度以及预设每帧位移量下分别对每个原始音乐数据样本进行分帧处理,Wframe=128个时间步,hopsize=64个时间步,预设重叠度为50%,预设帧长度为8ms,预设每帧位移量为4ms,获得分帧处理后的音频样本集,进行分帧处理后的音频样本集中每个音频样本含有Nframe帧,
Figure BDA0003035277870000141
帧;
S13)利用基频编码器
Figure BDA0003035277870000142
提取步骤S12)中每个音频样本的基频特征F0,基频编码器
Figure BDA0003035277870000143
采用深度卷积神经网络模型(Convolutional Representation for PitchEstimation,CREPE)提取每个音频样本的基频特征,每个音频样本的基频特征F0的维度为Nframe×1,基频的单位为赫兹;
S14)利用响度编码器
Figure BDA0003035277870000144
提取步骤S12)中每个音频样本的响度特征loudness,响度编码器
Figure BDA0003035277870000145
采用音频样本的功率谱A加权计算响度,每个音频样本的响度特征loudness的维度为Nframe×1,响度的单位为分贝;
S15)使用步骤S13)提取的每个音频样本的基频特征F0以及步骤S14)提取的每个音频样本的响度特征loudness,利用解码器
Figure BDA0003035277870000146
获取每个音频样本的幅度包络Amp、归一化的谐波分布c和滤波器的传递函数H,所述解码器
Figure BDA0003035277870000147
为由多层感知机、由门控循环单元组成的循环神经网络层和全连接层组成的深度神经网络模型,每个音频样本的每帧输出一个幅度包络值、Nh个基频整数倍谐波的归一化的幅度值和Nfilter个滤波器传递函数的采样值,滤波器的传递函数在0Hz到奈奎斯特频率fnyqist范围内均匀采样,奈奎斯特频
Figure BDA0003035277870000148
每个音频样本的幅度包络Amp的维度为Nframe×1,归一化的谐波分布c的维度为Nframe×Nh,滤波器的传递函数H的维度为Nframe×Nfilter
S16)根据步骤S13)提取的每个音频样本的基频特征F0和步骤S15)获取的每个音频样本的幅度包络Amp和归一化的谐波分布c,利用加法合成器AddSyn得到采样率为SR且长度为duration的复合音信号sig′h,包括以下步骤:
S161)将步骤S13)得到的每个音频样本的基频特征F0与维度为Nh×Nh的矩阵
Figure BDA0003035277870000151
相乘、并使用线性插值进行上采样处理得到基音(基波)和泛音(谐波)的频率分布矩阵freq,频率分布矩阵freq的维度为Nsample×Nh
S162)利用累计操作函数对频率分布矩阵freq进行列维度的累计操作,得到基音和泛音的相位分布矩阵φ,累计操作函数为
Figure BDA0003035277870000152
其中φ[row_i,col_i]为相位分布矩阵的第row_i行、第col_i列的元素值,freq[ii,col_i]是频率分布矩阵freq的第ii行、第col_i列的元素值;
S163)将步骤S15)得到的每个音频样本的幅度包络Amp与维度为1×Nh且元素全为1的矩阵相乘,得到全局幅度Ampt;将步骤S15)得到的归一化的谐波幅度分布c与全局幅度Ampt进行哈达玛积运算,使用线性插值进行上采样处理得到基音和泛音的幅度分布矩阵Amph,幅度分布矩阵Amph的维度为Nsample×Nh
S164)根据步骤S161)得到的频率分布矩阵freq,将幅度分布矩阵Amph中频率高于奈奎斯特频率fnyqist的幅度值设置为零,得到更新后的基音和泛音的幅度分布矩阵Amp′h
S165)使用步骤S162)得到的基音和泛音的相位分布矩阵φ和步骤S164)得到的幅度分布矩阵Amp′h,进行正弦函数操作,得到由维度为Nsample×Nh的二维矩阵表示的Nh个的正弦波信号sigh=Amp′hοsinφ,ο表示矩阵的哈达玛积运算,,正弦波信号sigh与维度为Nh×1且元素全为1的矩阵相乘,得到由一个基音(基波)和(Nh-1)个泛音(谐波)组合成的复合音信号sig′h
S17)利用减法合成器SubSyn对步骤S15)得到的滤波器的传递函数H进行减法合成,得到采样率为SR且长度为duration的滤波的时域噪声信号sig′wn;在步骤S17)中,利用减法合成器SubSyn对步骤S15)得到的滤波器的传递函数H进行减法合成,得到采样率为SR且长度为duration的滤波的时域噪声信号sig′wn,包括以下步骤:
S171)获取取值在[-1,1]范围内且维度为Nsample×1的均匀白噪声sigwn,对所述均匀白噪声sigwn进行快速傅里叶变换FFT(Fast Fourier Transform)处理,得到快速傅里叶变换处理后的均匀白噪声的频域分布Fsigwn
S172)对步骤S15)得到的滤波器的传递函数H进行快速傅里叶逆变换iFFT(inverse Fast Fourier Transform)处理,得到快速傅里叶逆变换处理后滤波器的时域波形信号,对快速傅里叶逆变换处理后滤波器的时域波形信号使用汉宁窗进行加权处理,汉宁窗窗口大小为Whan=65个时间步(采样点),跳跃大小为hopsize=65个时间步,得到滤波器的时变有限脉冲响应sigfilter,时变有限脉冲响应sigfilter的维度为Nsample×1,对时变有限脉冲响应sigfilter进行FFT处理,得到FFT处理后的滤波器的频域分布H′;
S173)将均匀白噪声频域分布Fsigwn和FFT处理后的滤波器的频域分布H′相乘后做iFFT处理,得到维度为Nsample×1的滤波的时域噪声信号sig′wn,滤波的时域噪声信号sig′wn=iFFT(Fsigwn×H′)。
S18)将复合音信号sig′h和滤波的时域噪声信号sig′wn进行矩阵加法操作,得到原始音乐数据样本对应的合成音乐信号
Figure BDA0003035277870000161
其中
Figure BDA0003035277870000162
为以第j个原始音乐数据样本sj为原型而合成的数字音乐信号,jj取1、2、…、N′a,获得与训练集TrainSet相对应的合成音乐数据集
Figure BDA0003035277870000171
S19)遍历步骤S11)中训练集TrainSet的所有原始音乐数据样本和步骤S18)得到的合成音乐数据集TrainSet′中的所有合成音乐样本,计算经验风险函数
Figure BDA00030352778700001711
在步骤S19)中,遍历步骤S11)中训练集TrainSet的所有原始音乐数据样本和步骤S18)得到的合成音乐数据集TrainSet′中的所有合成音乐样本,计算经验风险函数
Figure BDA00030352778700001712
包括以下步骤:
S191)分别遍历步骤S11)中训练集TrainSet的所有原始音乐数据样本和步骤S18)中合成音乐数据集TrainSet′的所有合成音乐样本、并使用K种尺度的帧(即FFT大小)进行短时傅里叶变换(Short Time Fourier Transform,STFT),得到训练集TrainSet对应的第一幅度频谱函数集合{Sk}和合成音乐数据集TrainSet′对应的第二幅度频谱函数集合
Figure BDA0003035277870000172
其中K=6,帧的大小分别为64、128、256、512、1024、2048个时间步,Sk为采用第k种帧长度经STFT计算得到的原始音乐样本频谱图函数,
Figure BDA0003035277870000173
为采用第k种帧长度经STFT计算得到的合成音乐样本频谱图函数,k=1,2,…,K,K为帧长度的总种数;
S192)根据第一幅度频谱函数集合{Sk}和第二幅度频谱函数集合
Figure BDA0003035277870000174
计算K个第一损失函数
Figure BDA0003035277870000175
其中j=jj,Sk,j为采用第k种帧长度经STFT计算得到的原始音乐样本频谱图函数Sk中第j个原始音乐数据样本sj的频谱图函数,
Figure BDA0003035277870000176
为采用第k种帧长度经STFT计算得到的合成音乐样本频谱图函数
Figure BDA0003035277870000177
中以第j个原始音乐数据样本sj为原型而合成的数字音乐信号
Figure BDA0003035277870000178
的频谱图函数;
S193)根据第一幅度频谱函数集合{Sk}和第二幅度频谱函数集合
Figure BDA0003035277870000179
计算K个第二损失函数
Figure BDA00030352778700001710
logSk,j为采用第k种帧长度经STFT计算得到的原始音乐样本频谱图函数Sk中第j个原始音乐数据样本sj的频谱图函数的对数值,
Figure BDA0003035277870000181
为采用第k种帧长度经STFT计算得到的合成音乐样本频谱图函数
Figure BDA0003035277870000182
中以第j个原始音乐数据样本sj为原型而合成的数字音乐信号
Figure BDA0003035277870000183
的频谱图函数的对数值;
S194)对K个第一损失函数
Figure BDA0003035277870000184
和K个第二损失函数
Figure BDA0003035277870000185
进行加法操作,得到经验风险函数集
Figure BDA0003035277870000186
为根据第k种帧长度计算STFT得到的经验风险函数,所述根据第k种帧长度计算STFT得到的经验风险函数
Figure BDA0003035277870000187
α为取值在[0,1]范围内的权重参数;
S195)对经验风险函数集
Figure BDA0003035277870000188
中的各个元素进行求和,得到求和后的经验风险函数
Figure BDA0003035277870000189
S20)使用Adam优化算法最小化所述经验风险函数
Figure BDA00030352778700001810
完成自动编码器模型
Figure BDA00030352778700001811
的训练。
S2)获取参与音乐合成控制的Npulsar颗脉冲星的信号,利用基频编码器
Figure BDA00030352778700001816
和响度编码器
Figure BDA00030352778700001812
对Npulsar颗脉冲星的信号进行特征提取,得到脉冲星的特征表示AFX
在步骤S2)中,利用基频编码器
Figure BDA00030352778700001813
和响度编码器
Figure BDA00030352778700001814
对Npulsar颗脉冲星的信号进行特征提取,得到脉冲星的特征表示AFX,包括以下步骤:
S21)使用Npulsar颗脉冲星参与音乐合成控制,遍历Npulsar个脉冲星单位周期内的采样值,利用线性插值进行上采样处理,得到长度为duration且采样率为SR的脉冲星音频信号;
S22)利用汉明窗对步骤S21)得到的脉冲星音频信号进行分帧处理,获得分帧后的脉冲星信号,窗口大小为Wframe个时间步,跳跃大小为hopsize个时间步,每个脉冲星信号含有Nframe帧;
S23)利用基频编码器
Figure BDA00030352778700001815
获取分帧后的脉冲星信号的基频特征,得到脉冲星的基频特征表示AFF0,脉冲星的基频特征表示AFF0的维度为Nframe×1×Npulsar
S24)利用响度编码器
Figure BDA0003035277870000191
获取分帧后的脉冲星信号的响度特征,得到脉冲星的响度特征表示AFloudness,脉冲星的响度特征表示AFloudness的维度为Nframe×1×Npulsar
S25)对脉冲星的基频特征表示AFF0和脉冲星的响度特征表示AFloudness在特征维度进行矩阵堆叠操作,特征维度是矩阵的第二维(即脉冲星的基频特征表示AFF0的第二维以及脉冲星的响度特征表示AFloudness的第二维),得到脉冲星的特征表示AFX,脉冲星的特征表示AFX的维度为Nframe×2×Npulsar,其中AFX[:,0,:]=AFF0,AFX[:,1,:]=AFloudness
S3)获取乐曲库Musics,根据训练好的自动编码器模型M和脉冲星的特征表示AFX对乐曲库Musics中乐曲的音频信号进行脉冲星信号控制的数字音乐合成任务,如图3所示,包括以下步骤:
S31)根据应用场景要求从乐曲库Musics中选取第z首乐曲的音频信号mcsigz(例如一首小提琴音色的乐曲),将第z首乐曲的音频信号mcsigz拆分成Q个长度为duration的原始音乐片段,利用训练好的自动编码器模型
Figure BDA0003035277870000192
中的基频编码器
Figure BDA0003035277870000193
和响度编码器
Figure BDA0003035277870000194
进行音乐片段分析,得到原始音乐片段的特征表示集{AFy,q},其中AFy,q为第q个原始音乐片段msz,q的特征表示,q=1、2、…、Q。
在步骤S31)中,将第z首乐曲的音频信号mcsigz拆分成Q个长度为duration的原始音乐片段,利用训练好的自动编码器模型
Figure BDA0003035277870000195
中的基频编码器
Figure BDA0003035277870000196
和响度编码器
Figure BDA0003035277870000197
进行音乐片段分析,包括以下步骤:
S311)利用矩阵窗将所述第z首乐曲的音频信号mcsigz拆分成Q个长度为duration的原始音乐片段msz,1、msz,2、…、msz,Q
S312)遍历Q个长度为duration的原始音乐片段,使用汉明窗分别对所述Q个长度为duration的原始音乐片段进行分帧处理,获得分帧处理后的音乐片段,窗口大小为Wframe个时间步,跳跃大小为hopsize个时间步,每个原始音乐片段含有Nframe帧;
S313)利用基频编码器Mfe提取分帧处理后的音乐片段的基频特征,得到基频特征表示集{AFF0,q},AFF0,q为第q个原始音乐片段msz,q的基频特征,第q个原始音乐片段msz,q的基频特征AFF0,q的维度为Nframe×1×1;
S314)利用响度编码器
Figure BDA0003035277870000201
提取分帧处理后的音乐片段的响度特征,得到响度特征表示集{AFloud,q},AFloud,q为第q个原始音乐片段msz,q的响度特征,第q个原始音乐片段msz,q的响度特征的维度为Nframe×1×1;
S315)对基频特征表示集{AFF0,q}和响度特征表示集{AFloud,q}在特征维度上进行矩阵堆叠操作,得到原始音乐片段的特征表示集{AFy,q},其中AFy,q为第q个原始音乐片段msz,q的特征表示,第q个原始音乐片段msz,q的特征表示的维度为Nframe×2×1,AFy,q[:,0,:]=AFF0,q,AFy,q[:,1,:]=AFloud,q
S32)根据步骤S2)得到的脉冲星的特征表示AFX和步骤S31)得到的原始音乐片段的特征表示集{AFy,q}构建Q个Npulsar元线性方程组,采用最小二乘法求解Q个Npulsar元线性方程组,得到脉冲星控制权重系数集{AFW,q},根据脉冲星特征表示AFX和脉冲星控制权重系数集{AFW,q}计算音乐片段的拟合特征表示集{AF′y,q},包括以下步骤:
S321)遍历步骤S31)得到的音乐片段特征表示集{AFy,q}以及步骤S2)得到的脉冲星的特征表示AFX,构建Q个Npulsar元线性方程组,所述Q个Npulsar元线性方程组中第q个方程组表示为AFX×AFW,q=AFy,q,其中AFW,q为待求解的第q个原始音乐片段对应的脉冲星控制权重系数,所述待求解的第q个原始音乐片段对应的脉冲星控制权重系数AFW,q的维度为Nframe×Npulsar×1;
S322)采用最小二乘法求解Q个Npulsar元线性方程组,得到脉冲星控制权重系数集{AFW,q};
S323)根据步骤S2)得到的脉冲星特征表示AFX和步骤S322)得到的脉冲星控制权重系数集{AFW,q}计算音乐片段的拟合特征表示集{AF′y,q},AF′y,q是第q个音乐片段的拟合特征表示,AF′y,q[:,0,:]=AF′F0,q=AFF0×AFW,q,AF′y,q[:,1,:]=AF′loud,q=AFloudness×AFW,q,其中AF′F0,q第q个音乐片段的拟合基频特征,AF′loud,q第q个音乐片段的拟合响度特征,AFF0为步骤S25)得到的所述脉冲星的基频特征表示,AFloudness为步骤S25)得到的所述脉冲星的响度特征表示。
S33)根据音乐片段的拟合特征表示集{AF′y,q}并利用解码器
Figure BDA0003035277870000212
得到幅度包络集{Ampq}、归一化的谐波分布集{cq}和滤波器的频域分布集{Hq},第q个音乐片段的幅度包络Ampq的维度为Nframe×1,第q个音乐片段的归一化的谐波分布cq的维度是Nframe×Nh,第q个音乐片段的滤波器的频域分布Hq的维度是Nframe×Nfilter
S34)利用加法合成器AddSyn对原始音乐片段的特征表示集{AFy,q}、幅度包络集{Ampq}和归一化的谐波分布集{cq}进行加法合成,得到采样率为SR长度为duration的复合音信号集{sig′h,q},sig′h,q是第q个音乐片段的复合音信号;
S35)利用减法合成器SubSyn对滤波器的频域分布集{Hq}进行减法合成,得到采样率为SR长度为duration的滤波后的噪声信号集{sig′wn,q},sig′wn,q是第q个音乐片段的滤波后的噪声信号;
S36)根据谱模型合成理论对复合音信号集{sig′h,q}和滤波后的噪声信号集{sig′wn,q}进行矩阵加法操作,得到Q个原始音乐片段对应的合成音乐片段集
Figure BDA0003035277870000211
Figure BDA0003035277870000221
为根据第q个原始音乐样本msz,q合成的数字音乐信号,
Figure BDA0003035277870000222
S37)使用步骤S36)得到的合成音乐片段集
Figure BDA0003035277870000223
按照步骤S31)中拆分音频信号的顺序对合成音乐片段集
Figure BDA0003035277870000224
进行组合,得到脉冲星控制合成的乐曲mcsig′z
S38)遍历步骤S32)得到的脉冲星控制权重系数集{AFW,q},使用线性插值对脉冲星控制权重系数集{AFW,q}进行上采样,得到上采样后的脉冲星控制权重系数集{AF′W,q},按照步骤S31)中拆分音频信号的顺序对所述上采样后的脉冲星控制权重系数集{AF′W,q}进行组合,得到基于乐曲库中第z首乐曲的脉冲星控制下合成音乐的权重AFW,z,权重AFW,z的维度为(Q×Nsample)×Npulsar×1;
S39)使用步骤S37)中脉冲星控制合成的乐曲mcsig′z和步骤S38)得到的基于乐曲库中第z首乐曲的脉冲星控制下合成音乐的权重AFW,z,在播放乐曲mcsig′z的同时动态展示脉冲星控制权重系数。
另一方面,本发明提供了一种用于脉冲星信号控制的数字音乐合成设备,用于脉冲星信号控制的数字音乐合成设备包括:存储器、处理器及存储在存储器上并可在所述处理器上运行的用于脉冲星信号控制的数字音乐合成程序,用于脉冲星信号控制的数字音乐合成程序被处理器执行时实现用于脉冲星信号控制的数字音乐合成方法的步骤。
再一方面,本发明提供了一种计算机可读存储介质,计算机可读存储介质上存储有用于脉冲星信号控制的数字音乐合成程序,用于脉冲星信号控制的数字音乐合成程序被处理器执行时实现用于脉冲星信号控制的数字音乐合成方法的步骤。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:
本发明提出的一种用于脉冲星控制数字音乐合成的方法,采用基于DDSP的自编解码器,结合深度学习方法和数字信号处理方法,实现了对数字音乐信号的分析和合成任务。
本发明中音乐分析方法使用深度卷积神经网络模型提取基频特征,使用A加权功率谱得到响度特征。
本发明采用了最小二乘法求解多元线性方程组,得到脉冲星信号的控制权重信号,实时展示各脉冲星在音乐合成过程中的贡献大小。
本发明中数字音乐合成方法利用深度神经网络模型得到基波和谐波信号的幅度分布和滤波器频谱,利用数字信号处理技术得到复合音信号和经过滤波处理的噪声信号,根据声音产生和传播的物理特性,采用谱建模理论,将复合音信号和滤波后的噪声信号组合成合成的音乐信号。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (10)

1.一种用于脉冲星信号控制的数字音乐合成方法,其特征在于,包括以下步骤:
S1)获取音乐数据集Set,建立用于数字音乐合成的基于可微分数字信号处理算法的自动编码器模型
Figure FDA0003035277860000011
利用所述音乐数据集Set对所述自动编码器模型
Figure FDA0003035277860000012
进行训练,获得训练好的自动编码器模型
Figure FDA0003035277860000013
所述自动编码器模型
Figure FDA0003035277860000014
包括基频编码器
Figure FDA0003035277860000015
响度编码器
Figure FDA0003035277860000016
和解码器
Figure FDA0003035277860000017
S2)获取参与音乐合成控制的Npulsar颗脉冲星的信号,利用所述基频编码器
Figure FDA0003035277860000018
和所述响度编码器
Figure FDA0003035277860000019
对所述Npulsar颗脉冲星的信号进行特征提取,得到脉冲星的特征表示AFX
S3)获取乐曲库Musics,根据所述训练好的自动编码器模型
Figure FDA00030352778600000110
和所述脉冲星的特征表示AFX对所述乐曲库Musics中乐曲的音频信号进行脉冲星信号控制的数字音乐合成任务。
2.根据权利要求1所述的用于脉冲星信号控制的数字音乐合成方法,其特征在于,在步骤S1)中,利用所述音乐数据集Set对所述自动编码器模型
Figure FDA00030352778600000111
进行训练,获得训练好的自动编码器模型
Figure FDA00030352778600000112
包括以下步骤:
S11)将音乐数据集
Figure FDA00030352778600000113
按比例划分为训练集TrainSet和测试集TestSet,利用训练集TrainSet和测试集TestSet分别对所述自动编码器模型
Figure FDA00030352778600000114
进行训练和测试,其中si为第i个原始音乐数据样本,i=1、2、…、Na,Na为原始音乐数据样本总数,每个原始音乐数据样本为预设时长duration的单音道音频数据,且每个原始音乐数据样本包含Nsample个时域采样点,每一个时域采样点对应有一个采样值,Nsample=duration×SR,SR为采样率;训练集TrainSet={sj},sj是训练集中第j个原始音乐数据样本,j=1、2、…、N′a;测试集TestSet={sm},sm为测试集中第m个原始音乐样本,m=1、2、…、N″a
S12)遍历所述训练集TrainSet中的所有原始音乐数据样本、并使用汉明窗在预设窗口大小Wframe、预设跳跃大小hopsize、预设重叠度、预设帧长度以及预设每帧位移量下分别对每个原始音乐数据样本进行分帧处理,获得分帧处理后的音频样本集,进行分帧处理后的音频样本集中每个音频样本含有Nframe帧,
Figure FDA0003035277860000021
S13)利用所述基频编码器
Figure FDA0003035277860000022
提取步骤S12)中每个音频样本的基频特征F0,所述基频编码器
Figure FDA0003035277860000023
采用深度卷积神经网络模型CREPE提取每个音频样本的基频特征,每个音频样本的基频特征F0的维度为Nframe×1;
S14)利用所述响度编码器
Figure FDA0003035277860000024
提取步骤S12)中每个音频样本的响度特征loudness,所述响度编码器
Figure FDA0003035277860000025
采用音频样本的功率谱A加权计算响度,每个音频样本的响度特征loudness的维度为Nframe×1;
S15)使用步骤S13)提取的每个音频样本的基频特征F0以及步骤S14)提取的每个音频样本的响度特征loudness,利用所述解码器
Figure FDA0003035277860000026
获取每个音频样本的幅度包络Amp、归一化的谐波分布c和滤波器的传递函数H,所述解码器
Figure FDA0003035277860000027
为由多层感知机、由门控循环单元组成的循环神经网络层和全连接层组成的深度神经网络模型,每个音频样本的每帧输出一个幅度包络值、Nh个基频整数倍谐波的归一化的幅度值和Nfilter个滤波器传递函数的采样值,滤波器的传递函数在0Hz到奈奎斯特频率fnyqist范围内均匀采样,所述奈奎斯特频
Figure FDA0003035277860000028
每个音频样本的幅度包络Amp的维度为Nframe×1,归一化的谐波分布c的维度为Nframe×Nh,滤波器的传递函数H的维度为Nframe×Nfilter
S16)根据步骤S13)提取的每个音频样本的基频特征F0和步骤S15)获取的每个音频样本的幅度包络Amp和归一化的谐波分布c,利用加法合成器AddSyn得到采样率为SR且长度为duration的复合音信号sig′h
S17)利用减法合成器SubSyn对步骤S15)得到的滤波器的传递函数H进行减法合成,得到采样率为SR且长度为duration的滤波的时域噪声信号sig′wn
S18)将所述复合音信号sig′h和所述滤波的时域噪声信号sig′wn进行矩阵加法操作,得到原始音乐数据样本对应的合成音乐信号
Figure FDA0003035277860000031
其中
Figure FDA0003035277860000032
为以第j个原始音乐数据样本sj为原型而合成的数字音乐信号,jj取1、2、…、N′a,获得与训练集TrainSet相对应的合成音乐数据集
Figure FDA0003035277860000033
S19)遍历步骤S11)中训练集TrainSet的所有原始音乐数据样本和步骤S18)得到的合成音乐数据集TrainSet′中的所有合成音乐样本,计算经验风险函数
Figure FDA0003035277860000039
S20)使用Adam优化算法最小化所述经验风险函数
Figure FDA0003035277860000034
完成自动编码器模型
Figure FDA0003035277860000035
的训练。
3.根据权利要求2所述的用于脉冲星信号控制的数字音乐合成方法,其特征在于,在步骤S16)中,根据步骤S13)提取的每个音频样本的基频特征F0和步骤S15)获取的每个音频样本的幅度包络Amp和归一化的谐波分布c,利用加法合成器AddSyn得到采样率为SR且长度为duration的复合音信号sig′h,包括以下步骤:
S161)将步骤S13)得到的每个音频样本的基频特征F0与维度为Nh×Nh的矩阵
Figure FDA0003035277860000036
相乘、并使用线性插值进行上采样处理得到基音和泛音的频率分布矩阵freq,所述频率分布矩阵freq的维度为Nsample×Nh
S162)利用累计操作函数对所述频率分布矩阵freq进行列维度的累计操作,得到基音和泛音的相位分布矩阵φ,所述累计操作函数为
Figure FDA0003035277860000037
Figure FDA0003035277860000038
其中φ[row_i,col_i]为相位分布矩阵的第row_i行、第col_i列的元素值,freq[ii,col_i]是频率分布矩阵freq的第ii行、第col_i列的元素值;
S163)将步骤S15)得到的每个音频样本的幅度包络Amp与维度为1×Nh且元素全为1的矩阵相乘,得到全局幅度Ampt;将步骤S15)得到的归一化的谐波幅度分布c与所述全局幅度Ampt进行哈达玛积运算,使用线性插值进行上采样处理得到基音和泛音的幅度分布矩阵Amph,所述幅度分布矩阵Amph的维度为Nsample×Nh
S164)根据步骤S161)得到的频率分布矩阵freq,将所述幅度分布矩阵Amph中频率高于奈奎斯特频率fnyqist的幅度值设置为零,得到更新后的基音和泛音的幅度分布矩阵Amp′h
S165)使用步骤S162)得到的基音和泛音的相位分布矩阵φ和步骤S164)得到的幅度分布矩阵Amp′h,进行正弦函数操作,得到由维度为Nsample×Nh的二维矩阵表示的Nh个的正弦波信号
Figure FDA0003035277860000041
Figure FDA0003035277860000042
表示矩阵的哈达玛积运算,正弦波信号sigh与维度为Nh×1且元素全为1的矩阵相乘,得到由一个基音和Nh-1个泛音组合成的复合音信号sig′h
4.根据权利要求2或3所述的用于脉冲星信号控制的数字音乐合成方法,其特征在于,在步骤S17)中,利用减法合成器SubSyn对步骤S15)得到的滤波器的传递函数H进行减法合成,得到采样率为SR且长度为duration的滤波的时域噪声信号sig′wn,包括以下步骤:
S171)获取取值在[-1,1]范围内且维度为Nsample×1的均匀白噪声sigwn,对所述均匀白噪声sigwn进行快速傅里叶变换FFT处理,得到快速傅里叶变换处理后的均匀白噪声的频域分布Fsigwn
S172)对步骤S15)得到的滤波器的传递函数H进行快速傅里叶逆变换处理,得到快速傅里叶逆变换iFFT处理后滤波器的时域波形信号,对所述快速傅里叶逆变换处理后滤波器的时域波形信号使用汉宁窗进行加权处理,得到滤波器的时变有限脉冲响应sigfilter,所述时变有限脉冲响应sigfilter的维度为Nsample×1,对所述时变有限脉冲响应sigfilter进行FFT处理,得到FFT处理后的滤波器的频域分布H′;
S173)将所述均匀白噪声频域分布Fsigwn和所述FFT处理后的滤波器的频域分布H′相乘后做iFFT处理,得到维度为Nsample×1的滤波的时域噪声信号sig′wn,所述滤波的时域噪声信号sig′wn=iFFT(Fsigwn×H′)。
5.根据权利要求4所述的用于脉冲星信号控制的数字音乐合成方法,其特征在于,在步骤S19)中,遍历步骤S11)中训练集TrainSet的所有原始音乐数据样本和步骤S18)得到的合成音乐数据集TrainSet′中的所有合成音乐样本,计算经验风险函数
Figure FDA0003035277860000051
包括以下步骤:
S191)分别遍历步骤S11)中训练集TrainSet的所有原始音乐数据样本和步骤S18)中合成音乐数据集TrainSet′的所有合成音乐样本、并使用K种尺度的帧进行短时傅里叶变换STFT,得到训练集TrainSet对应的第一幅度频谱函数集合{Sk}和合成音乐数据集TrainSet′对应的第二幅度频谱函数集合
Figure FDA0003035277860000052
Sk为采用第k种帧长度经STFT计算得到的原始音乐样本频谱图函数,
Figure FDA0003035277860000053
为采用第k种帧长度经STFT计算得到的合成音乐样本频谱图函数,k=1,2,…,K,K为帧长度的总种数;
S192)根据所述第一幅度频谱函数集合{Sk}和所述第二幅度频谱函数集合
Figure FDA0003035277860000054
计算K个第一损失函数
Figure FDA0003035277860000055
其中j=jj,Sk,j为采用第k种帧长度经STFT计算得到的原始音乐样本频谱图函数Sk中第j个原始音乐数据样本sj的频谱图函数,
Figure FDA0003035277860000056
为采用第k种帧长度经STFT计算得到的合成音乐样本频谱图函数
Figure FDA0003035277860000057
中以第j个原始音乐数据样本sj为原型而合成的数字音乐信号
Figure FDA0003035277860000058
的频谱图函数;
S193)根据所述第一幅度频谱函数集合{Sk}和所述第二幅度频谱函数集合
Figure FDA0003035277860000061
计算K个第二损失函数
Figure FDA0003035277860000062
logSk,j为采用第k种帧长度经STFT计算得到的原始音乐样本频谱图函数Sk中第j个原始音乐数据样本sj的频谱图函数的对数值,
Figure FDA0003035277860000063
为采用第k种帧长度经STFT计算得到的合成音乐样本频谱图函数
Figure FDA0003035277860000064
中以第j个原始音乐数据样本sj为原型而合成的数字音乐信号
Figure FDA0003035277860000065
的频谱图函数的对数值;
S194)对所述K个第一损失函数
Figure FDA0003035277860000066
和所述K个第二损失函数
Figure FDA0003035277860000067
进行加法操作,得到经验风险函数集
Figure FDA0003035277860000068
Figure FDA0003035277860000069
为根据第k种帧长度计算STFT得到的经验风险函数,所述根据第k种帧长度计算STFT得到的经验风险函数
Figure FDA00030352778600000610
α为取值在[0,1]范围内的权重参数;
S195)对所述经验风险函数集
Figure FDA00030352778600000611
中的各个元素进行求和,得到求和后的经验风险函数
Figure FDA00030352778600000612
6.根据权利要求1或5所述的用于脉冲星信号控制的数字音乐合成方法,其特征在于,在步骤S2)中,利用所述基频编码器
Figure FDA00030352778600000613
和所述响度编码器
Figure FDA00030352778600000614
对所述Npulsar颗脉冲星的信号进行特征提取,得到脉冲星的特征表示AFX,包括以下步骤:
S21)使用Npulsar颗脉冲星参与音乐合成控制,遍历Npulsar个脉冲星单位周期内的采样值,利用线性插值进行上采样处理,得到长度为duration且采样率为SR的脉冲星音频信号;
S22)利用汉明窗对步骤S21)得到的脉冲星音频信号进行分帧及加权处理,获得分帧后的脉冲星信号,窗口大小为Wframe个时间步,跳跃大小为hopsize个时间步,每个脉冲星信号含有Nframe帧;
S23)利用基频编码器
Figure FDA00030352778600000615
获取所述分帧后的脉冲星信号的基频特征,得到脉冲星的基频特征表示AFF0,所述脉冲星的基频特征表示AFF0的维度为Nframe×1×Npulsar
S24)利用所述响度编码器
Figure FDA0003035277860000071
获取所述分帧后的脉冲星信号的响度特征,得到脉冲星的响度特征表示AFloudness,所述脉冲星的响度特征表示AFloudness的维度为Nframe×1×Npulsar
S25)对所述脉冲星的基频特征表示AFF0和所述脉冲星的响度特征表示AFloudness在特征维度进行矩阵堆叠操作,特征维度是矩阵的第二维,得到脉冲星的特征表示AFX,所述脉冲星的特征表示AFX的维度为Nframe×2×Npulsar,其中AFX[:,0,:]=AFF0,AFX[:,1,:]=AFloudness
7.根据权利要求6所述的用于脉冲星信号控制的数字音乐合成方法,其特征在于,在步骤S3)中,获取乐曲库Musics,根据所述训练好的自动编码器模型
Figure FDA0003035277860000072
和所述脉冲星的特征表示AFX对所述乐曲库Musics中乐曲的音频信号进行脉冲星信号控制的数字音乐合成任务,包括以下步骤:
S31)根据应用场景要求从乐曲库Musics中选取第z首乐曲的音频信号mcsigz,将所述第z首乐曲的音频信号mcsigz拆分成Q个长度为duration的原始音乐片段,利用所述训练好的自动编码器模型
Figure FDA0003035277860000073
中的基频编码器
Figure FDA0003035277860000074
和响度编码器
Figure FDA0003035277860000075
进行音乐片段分析,得到原始音乐片段的特征表示集{AFy,q},其中AFy,q为第q个原始音乐片段msz,q的特征表示,q=1、2、…、Q;
S32)根据步骤S2)得到的脉冲星的特征表示AFX和步骤S31)得到的原始音乐片段的特征表示集{AFy,q},构建Q个Npulsar元线性方程组,采用最小二乘法求解所述Q个Npulsar元线性方程组,得到脉冲星控制权重系数集{AFW,q},根据所述脉冲星特征表示AFX和所述脉冲星控制权重系数集{AFW,q}计算音乐片段的拟合特征表示集{AF′y,q};
S33)根据所述音乐片段的拟合特征表示集{AF′y,q}并利用所述解码器.
Figure FDA0003035277860000081
得到幅度包络集{Ampq}、归一化的谐波分布集{cq}和滤波器的频域分布集{Hq},第q个音乐片段的幅度包络Ampq的维度为Nframe×1,第q个音乐片段的归一化的谐波分布cq的维度是Nframe×Nh,第q个音乐片段的滤波器的频域分布Hq的维度是Nframe×Nfilter
S34)利用加法合成器AddSyn对所述原始音乐片段的特征表示集{AFy,q}、所述幅度包络集{Ampq}和所述归一化的谐波分布集{cq}进行加法合成,得到采样率为SR长度为duration的复合音信号集{sig′h,q},sig′h,q是第q个音乐片段的复合音信号;
S35)利用减法合成器SubSyn对所述滤波器的频域分布集{Hq}进行减法合成,得到采样率为SR长度为duration的滤波后的噪声信号集{sig′wn,q},sig′wn,q是第q个音乐片段的滤波后的噪声信号;
S36)对所述复合音信号集{sig′h,q}和所述滤波后的噪声信号集{sig′wn,q}进行矩阵加法操作,得到Q个原始音乐片段对应的合成音乐片段集
Figure FDA0003035277860000082
Figure FDA0003035277860000083
为根据第q个原始音乐样本msz,q合成的数字音乐信号,
Figure FDA0003035277860000084
S37)使用步骤S36)得到的合成音乐片段集
Figure FDA0003035277860000085
按照步骤S31)中拆分音频信号的顺序对所述合成音乐片段集
Figure FDA0003035277860000086
进行组合,得到脉冲星控制合成的乐曲mcsig′z
S38)遍历步骤S32)得到的脉冲星控制权重系数集{AFW,q},使用线性插值对所述脉冲星控制权重系数集{AFW,q}进行上采样,得到上采样后的脉冲星控制权重系数集{AF′W,q},按照步骤S31)中拆分音频信号的顺序对所述上采样后的脉冲星控制权重系数集{AF′W,q}进行组合,得到基于乐曲库中第z首乐曲的脉冲星控制下合成音乐的权重AFW,z,所述权重AFW,z的维度为(Q×Nsample)×Npulsar×1;
S39)使用步骤S37)中脉冲星控制合成的乐曲mcsig′z和步骤S38)得到的基于乐曲库中第z首乐曲的脉冲星控制下合成音乐的权重AFW,z,在播放乐曲mcsig′z的同时动态展示脉冲星控制权重系数。
8.根据权利要求7所述的用于脉冲星信号控制的数字音乐合成方法,其特征在于,在步骤S31)中,将所述第z首乐曲的音频信号mcsigz拆分成Q个长度为duration的原始音乐片段,利用所述训练好的自动编码器模型
Figure FDA0003035277860000091
中的基频编码器
Figure FDA0003035277860000092
和响度编码器
Figure FDA0003035277860000093
进行音乐片段分析,包括以下步骤:
S311)利用矩阵窗将所述第z首乐曲的音频信号mcsigz拆分成Q个长度为duration的原始音乐片段msz,1、msz,2、…、msz,Q
S312)遍历所述Q个长度为duration的原始音乐片段,使用汉明窗分别对所述Q个长度为duration的原始音乐片段进行分帧处理,获得分帧处理后的音乐片段,窗口大小为Wframe个时间步,跳跃大小为hopsize个时间步,每个原始音乐片段含有Nframe帧;
S313)利用所述基频编码器
Figure FDA0003035277860000094
提取所述分帧处理后的音乐片段的基频特征,得到基频特征表示集{AFF0,q},AFF0,q为第q个原始音乐片段msz,q的基频特征,所述第q个原始音乐片段msz,q的基频特征AFF0,q的维度为Nframe×1×1;
S314)利用所述响度编码器
Figure FDA0003035277860000095
提取所述分帧处理后的音乐片段的响度特征,得到响度特征表示集{AFloud,q},AFloud,q为第q个原始音乐片段msz,q的响度特征,所述第q个原始音乐片段msz,q的响度特征的维度为Nframe×1×1;
S315)对所述基频特征表示集{AFF0,q}和所述响度特征表示集{AFloud,q}在特征维度上进行矩阵堆叠操作,得到原始音乐片段的特征表示集{AFy,q},其中AFy,q为第q个原始音乐片段msz,q的特征表示,所述第q个原始音乐片段msz,q的特征表示的维度为Nframe×2×1,AFy,q[:,0,:]=AFF0,q,AFy,q[:,1,:]=AFloud,q
9.根据权利要求8所述的用于脉冲星信号控制的数字音乐合成方法,其特征在于,在步骤S32)中,根据步骤S2)得到的脉冲星的特征表示AFX和步骤S31)得到的原始音乐片段的特征表示集{AFy,q}构建Q个Npulsar元线性方程组,采用最小二乘法求解所述Q个Npulsar元线性方程组,得到脉冲星控制权重系数集{AFW,q},根据所述脉冲星特征表示AFX和所述脉冲星控制权重系数集{AFW,q}计算音乐片段的拟合特征表示集{AF′y,q}计算音乐片段的拟合的特征表示集{AF′y,q},包括以下步骤:
S321)遍历步骤S31)得到的音乐片段特征表示集{AFy,q}以及步骤S2)得到的脉冲星的特征表示AFX,构建Q个Npulsar元线性方程组,所述Q个Npulsar元线性方程组中第q个方程组表示为AFX×AFW,q=AFy,q,其中AFW,q为待求解的第q个原始音乐片段对应的脉冲星控制权重系数,所述待求解的第q个原始音乐片段对应的脉冲星控制权重系数AFW,q的维度为Nframe×Npulsar×1;
S322)采用最小二乘法求解所述Q个Npulsar元线性方程组,得到脉冲星控制权重系数集{AFW,q};
S323)根据步骤S2)得到的脉冲星特征表示AFX和步骤S322)得到的脉冲星控制权重系数集{AFW,q}计算音乐片段的拟合特征表示集{AF′y,q},AF′y,q是第q个音乐片段的拟合特征表示,AF′y,q[:,0,:]=AF′F0,q=AFF0×AFW,q’AF′y,q[:,1,:]=AF′loud,q=AFloudness×AFW,q,其中AF′F0,q第q个音乐片段的拟合基频特征,AF′loud,q第q个音乐片段的拟合响度特征,AFF0为步骤S25)得到的所述脉冲星的基频特征表示,AFloudness为步骤S25)得到的所述脉冲星的响度特征表示。
10.一种用于脉冲星信号控制的数字音乐合成设备,其特征在于,所述用于脉冲星信号控制的数字音乐合成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的用于脉冲星信号控制的数字音乐合成程序,所述用于脉冲星信号控制的数字音乐合成程序被所述处理器执行时实现如权利要求1至9任一项所述的用于脉冲星信号控制的数字音乐合成方法的步骤。
CN202110441744.7A 2021-04-23 2021-04-23 一种用于脉冲星信号控制的数字音乐合成方法及设备 Active CN113140204B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110441744.7A CN113140204B (zh) 2021-04-23 2021-04-23 一种用于脉冲星信号控制的数字音乐合成方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110441744.7A CN113140204B (zh) 2021-04-23 2021-04-23 一种用于脉冲星信号控制的数字音乐合成方法及设备

Publications (2)

Publication Number Publication Date
CN113140204A true CN113140204A (zh) 2021-07-20
CN113140204B CN113140204B (zh) 2021-10-15

Family

ID=76812184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110441744.7A Active CN113140204B (zh) 2021-04-23 2021-04-23 一种用于脉冲星信号控制的数字音乐合成方法及设备

Country Status (1)

Country Link
CN (1) CN113140204B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6689947B2 (en) * 1998-05-15 2004-02-10 Lester Frank Ludwig Real-time floor controller for control of music, signal processing, mixing, video, lighting, and other systems
CN101603831A (zh) * 2009-07-20 2009-12-16 西安电子科技大学 一种脉冲星信号模拟器
US10068557B1 (en) * 2017-08-23 2018-09-04 Google Llc Generating music with deep neural networks
CN108550372A (zh) * 2018-03-24 2018-09-18 上海诚唐展览展示有限公司 一种将天文射电信号转换为音频的系统
CN109817197A (zh) * 2019-03-04 2019-05-28 天翼爱音乐文化科技有限公司 歌声生成方法、装置、计算机设备和存储介质
CN111369971A (zh) * 2020-03-11 2020-07-03 北京字节跳动网络技术有限公司 语音合成方法、装置、存储介质和电子设备
CN111681637A (zh) * 2020-04-28 2020-09-18 平安科技(深圳)有限公司 歌曲合成方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6689947B2 (en) * 1998-05-15 2004-02-10 Lester Frank Ludwig Real-time floor controller for control of music, signal processing, mixing, video, lighting, and other systems
CN101603831A (zh) * 2009-07-20 2009-12-16 西安电子科技大学 一种脉冲星信号模拟器
US10068557B1 (en) * 2017-08-23 2018-09-04 Google Llc Generating music with deep neural networks
CN108550372A (zh) * 2018-03-24 2018-09-18 上海诚唐展览展示有限公司 一种将天文射电信号转换为音频的系统
CN109817197A (zh) * 2019-03-04 2019-05-28 天翼爱音乐文化科技有限公司 歌声生成方法、装置、计算机设备和存储介质
CN111369971A (zh) * 2020-03-11 2020-07-03 北京字节跳动网络技术有限公司 语音合成方法、装置、存储介质和电子设备
CN111681637A (zh) * 2020-04-28 2020-09-18 平安科技(深圳)有限公司 歌曲合成方法、装置、设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BOB L. STURM: ""Adaptive Concatenative Sound Synthesis and Its Application to Micromontage Composition"", 《COMPUTER MUSIC JOURNAL》 *
JESSE ENGEL等: ""DDSP:Differentiable digital signal processing"", 《ARXIV:2001.04643V1 [》 *
中国音乐财经网: ""第一首根据脉冲星信号制作的歌曲,来自天文与音乐的趣味脑洞"", 《HTTPS://WWW.SOHU.COM/A/365138742_109401》 *
王南阳等: ""掩膜型语音集成电路介绍"", 《电子制作》 *

Also Published As

Publication number Publication date
CN113140204B (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
US8842847B2 (en) System for simulating sound engineering effects
Kim et al. Neural music synthesis for flexible timbre control
CN113314140A (zh) 一种端到端时域多尺度卷积神经网络的音源分离算法
US20230343348A1 (en) Machine-Learned Differentiable Digital Signal Processing
Saito et al. Specmurt analysis of polyphonic music signals
Hayes et al. Neural waveshaping synthesis
Smith Virtual acoustic musical instruments: Review and update
Ramírez et al. A general-purpose deep learning approach to model time-varying audio effects
Rodriguez-Serrano et al. Online score-informed source separation with adaptive instrument models
Välimäki et al. Creating endless sounds
Gupta et al. Signal representations for synthesizing audio textures with generative adversarial networks
Masuda et al. Improving semi-supervised differentiable synthesizer sound matching for practical applications
Zhang Application of audio visual tuning detection software in piano tuning teaching
CN113140204B (zh) 一种用于脉冲星信号控制的数字音乐合成方法及设备
Ferreira-Paiva et al. A survey of data augmentation for audio classification
CN112289289A (zh) 一种可编辑的普遍音色合成分析系统及方法
Mitchell et al. Exploring quality and generalizability in parameterized neural audio effects
Martínez Ramírez Deep learning for audio effects modeling
Hanna et al. Time scale modification of noises using a spectral and statistical model
Shier et al. Differentiable modelling of percussive audio with transient and spectral synthesis
Trail et al. Direct and surrogate sensing for the Gyil african xylophone.
US11756558B2 (en) Sound signal generation method, generative model training method, sound signal generation system, and recording medium
Kreutzer et al. A parametric model for spectral sound synthesis of musical sounds
Rao et al. On the detection of melodic pitch in a percussive background
Schneider et al. Fourier-Time-Transformation (FTT), Analysis of sound and auditory perception

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant