CN117198308A - 一种车内反馈音效的风格迁移方法 - Google Patents
一种车内反馈音效的风格迁移方法 Download PDFInfo
- Publication number
- CN117198308A CN117198308A CN202311165355.1A CN202311165355A CN117198308A CN 117198308 A CN117198308 A CN 117198308A CN 202311165355 A CN202311165355 A CN 202311165355A CN 117198308 A CN117198308 A CN 117198308A
- Authority
- CN
- China
- Prior art keywords
- spectrum
- music
- cqt
- target
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005012 migration Effects 0.000 title claims abstract description 56
- 238000013508 migration Methods 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000000694 effects Effects 0.000 title claims abstract description 27
- 238000001228 spectrum Methods 0.000 claims abstract description 95
- 238000006243 chemical reaction Methods 0.000 claims abstract description 27
- 230000008569 process Effects 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 32
- 238000009792 diffusion process Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 22
- 230000003595 spectral effect Effects 0.000 claims description 16
- 238000009432 framing Methods 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 11
- 230000037433 frameshift Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000036961 partial effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000012292 cell migration Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Abstract
本发明公开了一种车内反馈音效的风格迁移方法,采集原始风格音乐音频的双通道音乐样本生成音频样本集;通过对音频样本集中的音乐样本进行CQT变换特征提取获取CQT频谱Xcqt;并基于风格迁移算法对CQT频谱Xcqt进行音频风格迁移处理,获取目标风格音频;将获取的所述目标风格音频输出至汽车内,实现车内反馈音效的风格迁移过程。本发明提供了一种车内反馈音效的风格迁移方法,有效的解决了现有方法生成的音频质量不高,无法完整保留原始音频旋律的问题;使在保留原始音频旋律的同时实现音色的转变,生成高质量的音频,提升了人们对汽车座舱的声音体验感。
Description
技术领域
本发明涉及汽车行业,用于汽车座舱中的声音体验设计的技术领域,尤其涉及一种车内反馈音效的风格迁移方法。
背景技术
随着汽车智能化程度和人们对汽车驾乘舒适度的要求的提高,各大车厂正争相打造沉浸式座舱体验,声音体验已经成为汽车座舱中无法忽略的一环。声音的风格迁移是生成座舱反馈音效的技术途径;传统的音效的风格迁移方法无法通过提取原有音频的音乐旋律,并进行音乐音色替换生成音效的风格迁移,然而传统的音效的风格迁移方法无法不能完整的保留原始音频旋律,导致迁移后的音频质量不高,大大降低了人们对汽车座舱迁移后的反馈音效的需求。
发明内容
本发明提供一种车内反馈音效的风格迁移方法,以克服上述技术问题。
为了实现上述目的,本发明的技术方案是:
一种车内反馈音效的风格迁移方法,包括以下步骤:
S1:采集原始风格音乐音频的双通道音乐样本生成音频样本集;
S2:对所述音频样本集中的音乐样本进行CQT变换特征提取,获取CQT频谱Xcqt;
S3:通过风格迁移算法对所述CQT频谱Xcqt进行音频风格迁移处理,获取目标风格音频;
S4:将获取的所述目标风格音频输出至汽车内,实现车内反馈音效的风格迁移过程。
进一步的,S2中所述获取CQT频谱Xcqt,包括以下步骤:
S2.1:将所述音频样本集中的双通道音乐样本的数据格式统一转换为WAV格式;
S2.2:将格式转换后的所述双通道音乐样本进行通道转换获取单通道音乐样本;且所述进行通道转换的公式为
X=Transform(Music1m×c)
其中,X表示转换成单通道后的音乐样本数据;Transform(*)表示将双通道的音乐样本转换为单通道;Music1m×c是大小为m×c的二维音乐样本矩阵;m表示音乐样本在时间序列上的长度;c表示音乐样本的通道数;
S2.3:对所述单通道音乐样本进行分帧操作,获取单通道音乐样本的分量向量;且所述进行分帧操作的计算公式为
xn=X[nM:nM+N-1],n∈[0,Z)
其中,n表示帧索引值;Z表示帧数;表示单通道音乐样本在第n帧处的分量向量;N表示帧长;M表示帧移;
S2.4:根据分帧操作后的单通道音乐样本的频率构建中心频率呈几何分布的滤波器组;且所述中心频率呈几何分布的滤波器组的表达式为
w(k,m)=α+(1-α)cos(2πm/Nk),α=25/46,m∈[0,Nk-1]
其中,w(k,m)表示中心频率呈几何分布的滤波器组;α表示给定系数;Nk表示随频率变换的滤波器窗口长度;m表示音乐样本在时间序列上的长度;k表示音乐样本分帧操作后的时间序列的数量;
S2.5:基于所述中心频率呈几何分布的滤波器组对所述单通道音乐样本的分量向量进行CQT变换特征提取半音的频谱序列,获取CQT变换的单通道音乐样本的各谱分量;
所述获取CQT变换的单通道音乐样本的各谱分量的计算公式为
其中,表示用来保存中心频率为fk的第k个半音的频谱能量;xn(m)为经过分帧处理后的单通道音乐数据的时域信号;/>表示长度为Nk的窗函数;j表示复数单位;Q表示常量参数;Nk表示随频率变换的滤波器窗口长度;
S2.6:将所述获取CQT变换的单通道音乐样本的各谱分量通过concat函数进行拼接联合操作,获得CQT频谱Xcqt;且所述得CQT频谱Xcqt的表达式为
其中,表示包含各个频谱分量的分音矩阵。
进一步的,S3中所述通过风格迁移算法对所述CQT频谱Xcqt进行音频风格迁移,包括以下步骤:
S3.1:定义风格迁移算法的前向扩散过程权重项βt(t=1,2,...,T),并根据所述前向扩散过程权重项βt设置风格迁移算法参数αt=1-βt;
S3.2:通过前向扩散过程公式对所述CQT频谱Xcqt进行前向扩散,获得经过t步前向扩散后的最终频谱图Xt;且所述前向扩散过程公式为
其中,Xt表示经过t步前向扩散后的谱图;X1表示未经过前向扩散的原始CQT频谱;ε表示服从高斯分布的噪声;N表示高斯分布;I表示单位矩阵;
S3.3:构建含有目标音色的音乐样本的目标音色特征矩阵prompt,并将所述目标音色特征矩阵prompt与经过t步前向扩散后的所述最终频谱图Xt,通过所述风格迁移算法的反向生成过程,获得具有目标音色的音乐音频。
进一步的,S3.3中所述构建含有目标音色的音乐样本的目标音色特征矩阵prompt,包括以下步骤:
S3.3.1:给定目标音乐样本,并基于快速傅里叶变换将所述目标音乐样本的数据信号从时域信号转换为频域信号,更新所述目标音乐样本;
所述目标音乐样本从时域信号转换为频域信号的计算公式为
其中,F表示经过快速傅里叶变换后的频域信号;Y表示音乐样本经过采样后的时域信号;FS表示时域中的采样点总数;j表示复数单位;N表示帧长;
S3.3.2:计算更新后的所述目标音乐样本的频谱质心;所述频谱质心的计算公式为
其中,Cn表示目标音乐样本第n帧的频谱质心;ln表示第n帧信号经过快速傅里叶变换后子带w中频率的最小值;hn表示第n帧信号经过快速傅里叶变换后子带w中频率的最大值;Fn(w)表示第n帧中子带w经过时域信号转换为频域信号的输出;
并基于所述频谱质心获取频谱质心的一阶导数Cn′与频谱质心的二阶导数Cn″;所述频谱质心的一阶导数Cn′与二阶导数Cn″的表达式为
Cn′=(Cn+1-Cn)/Cn
Cn″=(Cn+1′-Cn′)/Cn′
其中,Cn表示目标音乐样本第n帧的频谱质心;Cn+1表示目标音乐样本第n+1帧的频谱质心;
S3.3.3:计算更新后的所述目标音乐样本的频谱带宽;且所述频谱带宽的计算公式为
其中,Sn表示目标音乐样本第n帧的频谱带宽;w0表示常量参数;Cn表示目标音乐样本第n帧的频谱质心;Fn(w)表示第n帧中子带w经过时域信号转换为频域信号的输出;
并基于所述频谱带宽获取频谱带宽的一阶导数Sn′与频谱带宽的二阶导数Sn″;所述频谱带宽的一阶导数Sn′与二阶导数Sn″的表达式为
Sn′=(Sn+1-Sn)/Sn
Sn″=(Sn+1′-Sn′)/Sn′
其中,Sn表示目标音乐样本第n帧的频谱带宽;Sn+1表示目标音乐样本第n+1帧的频谱带宽;
S3.3.4:将所述频谱质心、频谱质心的一阶导数Cn′与二阶导数Cn″以及频谱带宽的一阶导数Sn′与二阶导数Sn″通过concat函数进行拼接联合操作,获得目标音色特征矩阵prompt;
所述目标音色特征矩阵prompt的表达式为
prompt=concat(Cn,Cn′,Cn″,Sn,Sn′,Sn″)。
进一步的,S3.3中通过所述风格迁移算法的反向生成过程,获得具有目标音色的音乐音频,具体为
将S3.2获取的最终频谱图Xt输入至带有ReLU激活函数的第一卷积层中进行卷积处理,获得优化频谱图;
out1=ReLU(conv1d(Xt))
其中,out1表示第一卷积层的输出;conv1d表示一维卷积层;
将S3.3.4获取的目标音色特征矩阵prompt输入到第二卷积层中,通过卷积操作对目标音色特征矩阵prompt中的目标音色特征进行特征表达;
out2=conv1d(prompt)
其中,out2表示第二卷积层的输出;
将所述第一卷积层的输出out1与第二卷积层的输出out2通过concat函数进行拼接联合操作并输出联合结果out3;
out3=concat(out1,out2)
将联合结果out3输入到第三卷积层中进行卷积运算;并将所述第三卷积层的输出out输入至所述风格迁移算法的反向生成过程,获取具有目标音色的音乐音频;所述风格迁移算法的反向生成过程的计算公式为
out=conv1d(out3)
其中,out表示第三卷积层卷积后的输出;OUTt表示经过反向生成过程得到的具有目标音色的音乐音频;βt表示前向扩散过程权重项;ε表示服从高斯分布的噪声。
有益效果:本发明提供了一种车内反馈音效的风格迁移方法,通过对音频样本集中的音乐样本进行CQT变换特征提取获取CQT频谱Xcqt;并基于风格迁移算法对CQT频谱Xcqt进行音频风格迁移,获取目标风格音频;将获取的所述目标风格音频输出至汽车内,实现车内反馈音效的风格迁移。使得在保留原始音频旋律的同时实现音乐音色的转变,生成高质量的音频,大大提升了人们对汽车座舱迁移后的反馈音效的需求;有效的解决了现有方法生成的音频质量不高,无法完整保留原始音频旋律的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种车内反馈音效的风格迁移方法的流程图;
图2为本实施例中音乐样本特征提取流程图;
图3为本实施例中风格迁移算法的前向扩散过程示意图;
图4为本实施例中获取目标音色特征矩阵prompt的流程图;
图5为本实施例中风格迁移算法流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供了一种车内反馈音效的风格迁移方法,如图1所示,包括以下步骤:
S1:采集原始风格音乐音频的双通道音乐样本生成音频样本集;具体地,所述采集原始风格音乐音频的音乐样本采样率fs为16kHz;
S2:对所述音频样本集中的音乐样本进行CQT变换特征提取,获取CQT频谱Xcqt,如图2所示,具体包括以下步骤:
S2.1:将所述音频样本集中的双通道音乐样本的数据格式统一转换为WAV格式;其中所述数据格式统一转换的实现手段为现有公知技术,并非本申请的发明点,在此不再赘述;
S2.2:将格式转换后的所述双通道音乐样本进行通道转换获取单通道音乐样本;且所述进行通道转换的公式为
X=Transform(Music1m×c)
其中,X表示转换成单通道后的音乐样本数据;Transform(*)表示将双通道的音乐样本转换为单通道;Music1m×c是大小为m×c的二维音乐样本矩阵;m表示音乐样本在时间序列上的长度;c表示音乐样本的通道数;
S2.3:设置帧长N为1024个采样点,帧移M为480个采样点;对所述单通道音乐样本进行分帧操作,获取单通道音乐样本的分量向量;且所述进行分帧操作的计算公式为
xn=X[nM:nM+N-1],n∈[0,Z)
其中,n表示帧索引值;Z表示帧数;表示单通道音乐样本在第n帧处的分量向量;N表示帧长;M表示帧移;
S2.4:根据分帧操作后的单通道音乐样本的频率构建中心频率呈几何分布的滤波器组;
具体地,将经过S2.3处理后的单通道音乐数据的最高频率定义为fmax(且最高频率应低于奈奎斯特频率),最低频率定义为fmin(优选为130.8Hz),根据最低频率fmin计算第k个分量向量的频率,计算公式为:
其中,bins表示一个八度范围内所包含的频谱线数,为了获取一个八度中的12个半音;在本实施例中设置bins为12;fk表示第k个分量向量的频率;表示向正方向取整;
根据第k个分量向量的频率计算CQT变换中的常量Q,即中心频率与带宽之比,所述计算CQT变换中的常量Q的计算公式为
其中,fk表示第k个分量向量的频率;Δfk表示频率fk处的频率带宽,即频率解析度;
根据所述第k个分量向量的频率、CQT变换常量Q以及原始风格音乐音频的采样率fs计算第k个滤波器的窗口长度,所述第k个滤波器的窗口长度的计算公式为
其中,Nk是随频率变换的滤波器窗口长度;fs为样本数据的采样率;表示向正方向取整;
本实施例中优选汉明窗函数作为滤波器的窗函数;所述滤波器的窗函数的表达式为
其中,w(n)表示汉明窗窗函数,α0为给定常量系数,取值为0.53836;
基于所述滤波器的窗函数可得到中心频率呈几何分布的滤波器组,且所述中心频率呈几何分布的滤波器组的表达式为
w(k,m)=α+(1-α)cos(2πm/Nk),α=25/46,m∈[0,Nk-1]
其中,w(k,m)表示中心频率呈几何分布的滤波器组;α表示给定系数;Nk表示随频率变换的滤波器窗口长度;m表示音乐样本在时间序列上的长度;k表示音乐样本分帧操作后的时间序列的数量;
S2.5:基于所述中心频率呈几何分布的滤波器组对所述单通道音乐样本的分量向量进行CQT变换特征提取半音的频谱序列,获取CQT变换的单通道音乐样本的各谱分量;
所述获取CQT变换的单通道音乐样本的各谱分量的计算公式为
其中,表示用来保存中心频率为fk的第k个半音的频谱能量;xn(m)为经过分帧处理后的单通道音乐数据的时域信号;/>表示长度为Nk的窗函数;不同频率采用不同的窗口长度,对于低频的波,它的带宽十分小,但有更高的频率分辨率来分解相近的音符;但是对于高频的波,它的带宽比较大,在高频有更高的时间分辨率来跟踪快速变化的泛音,这样可以避免时频分辨率均匀的缺点,j是复数单位,表示正弦和余弦函数中的虚部,以便进行频域分析;Q表示常量参数;Nk表示随频率变换的滤波器窗口长度;
S2.6:将所述获取CQT变换的单通道音乐样本的各谱分量进行联合,获得CQT频谱Xcqt;且所述得CQT频谱Xcqt的表达式为
其中,表示包含各个频谱分量的分音矩阵;/>表示多维向量。
S3:通过风格迁移算法对所述CQT频谱Xcqt进行音频风格迁移,获取目标风格音频,如图5所示,具体包括以下步骤:
S3.1:定义风格迁移算法的前向扩散过程权重项βt(t=1,2,...,T),该权重项βt随步数t的增加而逐渐增大,取值范围为[0.0001,0.002],并根据所述前向扩散过程权重项βt设置风格迁移算法参数αt=1-βt;
S3.2:如图3所示,通过前向扩散过程公式对所述CQT频谱Xcqt进行前向扩散,获得经过t步前向扩散后的最终频谱图Xt;且所述前向扩散过程公式为
其中,Xt表示经过t步前向扩散后的谱图;X1表示未经过前向扩散的原始CQT频谱(即CQT变换特征提取过程的输出);ε表示服从高斯分布的噪声;N表示高斯分布;I表示单位矩阵;
S3.3:构建含有目标音色的音乐样本的目标音色特征矩阵prompt,为了使最终生成的音乐具有目标音色,我们将采用如下操作对含有目标音色(如:音乐由小提琴演奏,则目标音色为小提琴的乐器音色)的音乐样本进行特征提取,把提取出来的表征目标音色的特征作为辅助条件输入反向生成过程中,所述构建含有目标音色的音乐样本的目标音色特征矩阵prompt,如图4所示,具体包括以下步骤:
S3.3.1:给定目标音乐样本,并基于快速傅里叶变换将所述目标音乐样本的数据信号从时域信号转换为频域信号,更新所述目标音乐样本;
具体地,为了防止在音色提取过程中重要的原始信息丢失,通过快速傅里叶变换将目标音乐样本从时域转换到频域上,并通过参数设置将转换后的频域分割成120ms的帧,帧移为40ms;所述目标音乐样本从时域信号转换为频域信号的计算公式为
其中,F表示经过快速傅里叶变换后的频域信号;Y表示音乐样本经过采样后的时域信号;FS表示时域中的采样点总数;j表示复数单位;N表示帧长;
S3.3.2:计算更新后的所述目标音乐样本的频谱质心;所述频谱质心的计算公式为
其中,Cn表示目标音乐样本第n帧的频谱质心;ln表示第n帧信号经过快速傅里叶变换后子带w中频率的最小值;hn表示第n帧信号经过快速傅里叶变换后子带w中频率的最大值;Fn(w)表示第n帧中子带w经过时域信号转换为频域信号的输出;
并基于所述频谱质心获取频谱质心的一阶导数Cn′与频谱质心的二阶导数Cn″;所述频谱质心的一阶导数Cn′与二阶导数Cn″的表达式为
Cn′=(Cn+1-Cn)/Cn
Cn″=(Cn+1′-Cn′)/Cn′
其中,Cn表示目标音乐样本第n帧的频谱质心;Cn+1表示目标音乐样本第n+1帧的频谱质心;
S3.3.3:计算更新后的所述目标音乐样本的频谱带宽;且所述频谱带宽的计算公式为
其中,Sn表示目标音乐样本第n帧的频谱带宽;w0表示常量参数;Cn表示目标音乐样本第n帧的频谱质心;Fn(w)表示第n帧中子带w经过时域信号转换为频域信号的输出;
并基于所述频谱带宽获取频谱带宽的一阶导数Sn′与频谱带宽的二阶导数Sn″;所述频谱带宽的一阶导数Sn′与二阶导数Sn″的表达式为
Sn′=(Sn+1-Sn)/Sn
Sn″=(Sn+1′-Sn′)/Sn′
其中,Sn表示目标音乐样本第n帧的频谱带宽;Sn+1表示目标音乐样本第n+1帧的频谱带宽;
S3.3.4:将所述频谱质心、频谱质心的一阶导数Cn′与二阶导数Cn″以及频谱带宽的一阶导数Sn′与二阶导数Sn″通过concat函数进行拼接联合操作,获得目标音色特征矩阵prompt;
所述目标音色特征矩阵prompt的表达式为
prompt=concat(Cn,Cn′,Cn″,Sn,Sn′,Sn″);
并将所述目标音色特征矩阵prompt与经过t步前向扩散后的所述最终频谱图Xt,通过所述风格迁移算法的反向生成过程,获得具有目标音色的音乐音频,具体为
将S3.2获取的最终频谱图Xt输入至带有ReLU激活函数的第一卷积层中进行卷积处理,获得优化频谱图;
out1=ReLU(conv1d(Xt))
其中,out1表示第一卷积层的输出;conv1d表示一维卷积层,所述第一卷积层为一维卷积且卷积核大小为1x1;
将S3.3.4获取的目标音色特征矩阵prompt输入到第二卷积层中,通过卷积操作对目标音色特征矩阵prompt中的目标音色特征进行特征表达;
out2=conv1d(prompt)
其中,out2表示第二卷积层的输出;所述第二卷积层为一维卷积且卷积核大小为1x1;
将所述第一卷积层的输出out1与第二卷积层的输出out2通过concat函数进行拼接联合操作并输出联合结果out3;
out3=concat(out1,out2)
将联合结果out3输入到第三卷积层中进行卷积运算;所述第三卷积层为一维卷积且卷积核大小为3x3;并将所述第三卷积层的输出out输入至所述风格迁移算法的反向生成过程,获取具有目标音色的音乐音频;所述风格迁移算法的反向生成过程的计算公式为
out=conv1d(out3)
其中,out表示第三卷积层卷积后的输出;OUTt表示经过反向生成过程得到的具有目标音色的音乐音频;βt表示前向扩散过程权重项;ε表示服从高斯分布的噪声;
S4:将获取的所述目标风格音频输出至汽车内,实现车内反馈音效的风格迁移。
本发明的有益效果具体包括两个方面:1.对原始风格音频和目标风格音频进行音乐特征提取,并将提取的原始风格音频与设计的音乐特征组合作为风格迁移算法的输入,使其更好的完成风格迁移任务;2.结合了深度学习模型的车内反馈音风格迁移技术方案具有更好的转换性能,可以生成更高质量的音频,将生成的具有目标音色的反馈音效应用于汽车座舱有效提升声音的品质感。
具体地,所述深度学习模型包括第一卷积层、第二卷积层以及第三卷积层;且所述第一卷积层与第二卷积层的输出端分别连接至所述第三卷积层的输入端;所述第一卷积层用于获取的最终频谱图Xt进行卷积处理;所述第二卷积层用于获取的目标音色特征矩阵prompt进行卷积处理;所述第三卷积层用于将所述第一卷积层的输出out1与第二卷积层的输出out2进行联合,输出用于所述风格迁移算法的反向生成过程的输入数据;其中,本实施例中的各卷积层的计算方法均为现有的,此处仅为根据本发明所涉及的深度学习模型结构来实现输入数据得到对应输出结果的功能。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (5)
1.一种车内反馈音效的风格迁移方法,其特征在于,包括以下步骤:
S1:采集原始风格音乐音频的双通道音乐样本生成音频样本集;
S2:对所述音频样本集中的音乐样本进行CQT变换特征提取,获取CQT频谱Xcqt;
S3:通过风格迁移算法对所述CQT频谱Xcqt进行音频风格迁移处理,获取目标风格音频;
S4:将获取的所述目标风格音频输出至汽车内,实现车内反馈音效的风格迁移过程。
2.根据权利要求1所述的一种车内反馈音效的风格迁移方法,其特征在于,S2中所述获取CQT频谱Xcqt,包括以下步骤:
S2.1:将所述音频样本集中的双通道音乐样本的数据格式统一转换为WAV格式;
S2.2:将格式转换后的所述双通道音乐样本进行通道转换,获取单通道音乐样本;且所述进行通道转换的公式为
X=Transform(Music1m×c)
其中,X表示转换成单通道后的音乐样本数据;Transform(*)表示将双通道的音乐样本转换为单通道;Music1m×c是大小为m×c的二维音乐样本矩阵;m表示音乐样本在时间序列上的长度;c表示音乐样本的通道数;
S2.3:对所述单通道音乐样本进行分帧操作,获取单通道音乐样本的分量向量;且所述进行分帧操作的计算公式为
xn=X[nM:nM+N-1],n∈[0,Z)
其中,n表示帧索引值;Z表示帧数;表示单通道音乐样本在第n帧处的分量向量;N表示帧长;M表示帧移;
S2.4:根据分帧操作后的单通道音乐样本的音频数据频率构建中心频率呈几何分布的滤波器组;且所述中心频率呈几何分布的滤波器组的表达式为
w(k,m)=α+(1-α)cos(2πm/Nk),α=25/46,m∈[0,Nk-1]
其中,w(k,m)表示中心频率呈几何分布的滤波器组;α表示给定系数;Nk表示随频率变换的滤波器窗口长度;m表示音乐样本在时间序列上的长度;k表示音乐样本分帧操作后的时间序列的数量;
S2.5:基于所述中心频率呈几何分布的滤波器组对所述单通道音乐样本的分量向量进行CQT变换特征提取半音的频谱序列,获取CQT变换的单通道音乐样本的各谱分量;
所述获取CQT变换的单通道音乐样本的各谱分量的计算公式为
其中,表示用来保存中心频率为fk的第k个半音的频谱能量;xn(m)为经过分帧处理后的单通道音乐数据的时域信号;/>表示长度为Nk的窗函数;j表示复数单位;Q表示常量参数;Nk表示随频率变换的滤波器窗口长度;
S2.6:将所述获取CQT变换的单通道音乐样本的各谱分量进行联合,获得CQT频谱Xcqt;且所述得CQT频谱Xcqt的表达式为
其中,表示包含各个频谱分量的分音矩阵。
3.根据权利要求1所述的一种车内反馈音效的风格迁移方法,其特征在于,S3中所述通过风格迁移算法对所述CQT频谱Xcqt进行音频风格迁移,包括以下步骤:
S3.1:定义风格迁移算法的前向扩散过程权重项βt(t=1,2,...,T),并根据所述前向扩散过程权重项βt设置风格迁移算法参数αt=1-βt;
S3.2:通过前向扩散过程公式对所述CQT频谱Xcqt进行前向扩散,获得经过t步前向扩散后的最终频谱图Xt;且所述前向扩散过程公式为
其中,Xt表示经过t步前向扩散后的谱图;X1表示未经过前向扩散的原始CQT频谱;ε表示服从高斯分布的噪声;N表示高斯分布;I表示单位矩阵;
S3.3:构建含有目标音色的音乐样本的目标音色特征矩阵prompt,并将所述目标音色特征矩阵prompt与经过t步前向扩散后的所述最终频谱图Xt,通过所述风格迁移算法的反向生成过程,获得具有目标音色的音乐音频。
4.根据权利要求3所述的一种车内反馈音效的风格迁移方法,其特征在于,S3.3中所述构建含有目标音色的音乐样本的目标音色特征矩阵prompt,包括以下步骤:
S3.3.1:给定目标音乐样本,并基于快速傅里叶变换将所述目标音乐样本的数据信号从时域信号转换为频域信号,更新所述目标音乐样本;
所述目标音乐样本从时域信号转换为频域信号的计算公式为
其中,F表示经过快速傅里叶变换后的频域信号;Y表示音乐样本经过采样后的时域信号;FS表示时域中的采样点总数;j表示复数单位;N表示帧长;
S3.3.2:计算更新后的所述目标音乐样本的频谱质心;所述频谱质心的计算公式为
其中,Cn表示目标音乐样本第n帧的频谱质心;ln表示第n帧信号经过快速傅里叶变换后子带w中频率的最小值;hn表示第n帧信号经过快速傅里叶变换后子带w中频率的最大值;Fn(w)表示第n帧中子带w经过时域信号转换为频域信号的输出;
并基于所述频谱质心获取频谱质心的一阶导数Cn′与频谱质心的二阶导数Cn″;所述频谱质心的一阶导数Cn′与二阶导数Cn″的表达式为
Cn′=(Cn+1-Cn)/Cn
Cn″=(Cn+1′-Cn′)/Cn′
其中,Cn表示目标音乐样本第n帧的频谱质心;Cn+1表示目标音乐样本第n+1帧的频谱质心;
S3.3.3:计算更新后的所述目标音乐样本的频谱带宽;且所述频谱带宽的计算公式为
其中,Sn表示目标音乐样本第n帧的频谱带宽;w0表示常量参数;Cn表示目标音乐样本第n帧的频谱质心;Fn(w)表示第n帧中子带w经过时域信号转换为频域信号的输出;
并基于所述频谱带宽获取频谱带宽的一阶导数Sn′与频谱带宽的二阶导数Sn″;所述频谱带宽的一阶导数Sn′与二阶导数Sn″的表达式为
Sn′=(Sn+1-Sn)/Sn
Sn″=(Sn+1′-Sn′)/Sn′
其中,Sn表示目标音乐样本第n帧的频谱带宽;Sn+1表示目标音乐样本第n+1帧的频谱带宽;
S3.3.4:将所述频谱质心、频谱质心的一阶导数Cn′与二阶导数Cn″以及频谱带宽的一阶导数Sn′与二阶导数Sn″通过concat函数进行拼接联合操作,获得目标音色特征矩阵prompt;
所述目标音色特征矩阵prompt的表达式为
prompt=concat(Cn,Cn′,Cn″,Sn,Sn′,Sn″)。
5.根据权利要求4所述的一种车内反馈音效的风格迁移方法,其特征在于,S3.3中通过所述风格迁移算法的反向生成过程,获得具有目标音色的音乐音频,具体为
将S3.2获取的最终频谱图Xt输入至带有ReLU激活函数的第一卷积层中进行卷积处理,获得优化频谱图;
out1=ReLU(conv1d(Xt))
其中,out1表示第一卷积层的输出;conv1d表示一维卷积层;
将S3.3.4获取的目标音色特征矩阵prompt输入到第二卷积层中,通过卷积操作对目标音色特征矩阵prompt中的目标音色特征进行特征表达;
out2=conv1d(prompt)
其中,out2表示第二卷积层的输出;
将所述第一卷积层的输出out1与第二卷积层的输出out2通过concat函数进行拼接联合操作并输出联合结果out3;
out3=concat(out1,out2)
将联合结果out3输入到第三卷积层中进行卷积运算;并将所述第三卷积层的输出out输入至所述风格迁移算法的反向生成过程,获取具有目标音色的音乐音频;所述风格迁移算法的反向生成过程的计算公式为
out=conv1d(out3)
其中,out表示第三卷积层卷积后的输出;OUTt表示经过反向生成过程得到的具有目标音色的音乐音频;βt表示前向扩散过程权重项;ε表示服从高斯分布的噪声。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311165355.1A CN117198308B (zh) | 2023-09-11 | 2023-09-11 | 一种车内反馈音效的风格迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311165355.1A CN117198308B (zh) | 2023-09-11 | 2023-09-11 | 一种车内反馈音效的风格迁移方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117198308A true CN117198308A (zh) | 2023-12-08 |
CN117198308B CN117198308B (zh) | 2024-03-19 |
Family
ID=88999395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311165355.1A Active CN117198308B (zh) | 2023-09-11 | 2023-09-11 | 一种车内反馈音效的风格迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117198308B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117496927A (zh) * | 2024-01-02 | 2024-02-02 | 广州市车厘子电子科技有限公司 | 基于扩散模型的音乐音色风格转换方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2328353A1 (en) * | 1998-04-14 | 1999-10-21 | Hearing Enhancement Company, Llc | User adjustable volume control that accommodates hearing |
KR20080052405A (ko) * | 2006-12-06 | 2008-06-11 | 야마하 가부시키가이샤 | 탑재식 음악 재생 장치 및 음악 정보 분배 시스템 |
US7415120B1 (en) * | 1998-04-14 | 2008-08-19 | Akiba Electronics Institute Llc | User adjustable volume control that accommodates hearing |
CN110148424A (zh) * | 2019-05-08 | 2019-08-20 | 北京达佳互联信息技术有限公司 | 语音处理方法、装置、电子设备及存储介质 |
CN111816202A (zh) * | 2020-07-13 | 2020-10-23 | 金陵科技学院 | 一种带有人声的音乐的风格迁移方法 |
CN112951253A (zh) * | 2019-11-24 | 2021-06-11 | 华南理工大学 | 一种基于Cycle-GAN的音频风格转换方法及系统 |
CN113782011A (zh) * | 2021-08-26 | 2021-12-10 | 清华大学苏州汽车研究院(相城) | 频带增益模型的训练方法及用于车载场景的语音降噪方法 |
CN113851140A (zh) * | 2020-06-28 | 2021-12-28 | 阿里巴巴集团控股有限公司 | 语音转换相关方法、系统及装置 |
CN114339539A (zh) * | 2021-11-25 | 2022-04-12 | 清华大学苏州汽车研究院(相城) | 一种采用麦克风阵列拾音的多通道语音增强方法 |
-
2023
- 2023-09-11 CN CN202311165355.1A patent/CN117198308B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2328353A1 (en) * | 1998-04-14 | 1999-10-21 | Hearing Enhancement Company, Llc | User adjustable volume control that accommodates hearing |
US7415120B1 (en) * | 1998-04-14 | 2008-08-19 | Akiba Electronics Institute Llc | User adjustable volume control that accommodates hearing |
KR20080052405A (ko) * | 2006-12-06 | 2008-06-11 | 야마하 가부시키가이샤 | 탑재식 음악 재생 장치 및 음악 정보 분배 시스템 |
CN110148424A (zh) * | 2019-05-08 | 2019-08-20 | 北京达佳互联信息技术有限公司 | 语音处理方法、装置、电子设备及存储介质 |
CN112951253A (zh) * | 2019-11-24 | 2021-06-11 | 华南理工大学 | 一种基于Cycle-GAN的音频风格转换方法及系统 |
CN113851140A (zh) * | 2020-06-28 | 2021-12-28 | 阿里巴巴集团控股有限公司 | 语音转换相关方法、系统及装置 |
CN111816202A (zh) * | 2020-07-13 | 2020-10-23 | 金陵科技学院 | 一种带有人声的音乐的风格迁移方法 |
CN113782011A (zh) * | 2021-08-26 | 2021-12-10 | 清华大学苏州汽车研究院(相城) | 频带增益模型的训练方法及用于车载场景的语音降噪方法 |
CN114339539A (zh) * | 2021-11-25 | 2022-04-12 | 清华大学苏州汽车研究院(相城) | 一种采用麦克风阵列拾音的多通道语音增强方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117496927A (zh) * | 2024-01-02 | 2024-02-02 | 广州市车厘子电子科技有限公司 | 基于扩散模型的音乐音色风格转换方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117198308B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108417228B (zh) | 乐器音色迁移下的人声音色相似性度量方法 | |
JP5294300B2 (ja) | 音信号の分離方法 | |
CN117198308B (zh) | 一种车内反馈音效的风格迁移方法 | |
Jaiswal et al. | Clustering NMF basis functions using shifted NMF for monaural sound source separation | |
CN108962279A (zh) | 音频数据的乐器识别方法及装置、电子设备、存储介质 | |
Peer et al. | Phase-aware deep speech enhancement: It's all about the frame length | |
US11735197B2 (en) | Machine-learned differentiable digital signal processing | |
Nakamura et al. | Time-domain audio source separation based on Wave-U-Net combined with discrete wavelet transform | |
WO2022161475A1 (zh) | 音频处理方法、装置及电子设备 | |
Nercessian | Differentiable world synthesizer-based neural vocoder with application to end-to-end audio style transfer | |
Zhu et al. | A comparison of handcrafted, parameterized, and learnable features for speech separation | |
CN107017005B (zh) | 一种基于dft的双通道语声分离方法 | |
Jaiswal et al. | Shifted nmf using an efficient constant-q transform for monaural sound source separation | |
CN107146630B (zh) | 一种基于stft的双通道语声分离方法 | |
Tachibana et al. | A real-time audio-to-audio karaoke generation system for monaural recordings based on singing voice suppression and key conversion techniques | |
US6253172B1 (en) | Spectral transformation of acoustic signals | |
CN116705056A (zh) | 音频生成方法、声码器、电子设备及存储介质 | |
Jaiswal et al. | Towards shifted nmf for improved monaural separation | |
Wu et al. | Multipitch estimation by joint modeling of harmonic and transient sounds | |
Vinitha George et al. | A novel U-Net with dense block for drum signal separation from polyphonic music signal mixture | |
CN114550675A (zh) | 一种基于CNN--Bi-LSTM网络的钢琴转录方法 | |
CN113744715A (zh) | 声码器语音合成方法、装置、计算机设备及存储介质 | |
Cai et al. | Dual-channel Drum Separation for Low-cost Drum Recording Using Non-negative Matrix Factorization | |
CN113140204B (zh) | 一种用于脉冲星信号控制的数字音乐合成方法及设备 | |
Hanna et al. | Time scale modification of noises using a spectral and statistical model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |