CN117198308A

CN117198308A - 一种车内反馈音效的风格迁移方法

Info

Publication number: CN117198308A
Application number: CN202311165355.1A
Authority: CN
Inventors: 孙宁; 姜彦吉; 张潇
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2023-09-11
Filing date: 2023-09-11
Publication date: 2023-12-08
Anticipated expiration: 2043-09-11
Also published as: CN117198308B

Abstract

本发明公开了一种车内反馈音效的风格迁移方法，采集原始风格音乐音频的双通道音乐样本生成音频样本集；通过对音频样本集中的音乐样本进行CQT变换特征提取获取CQT频谱X^cqt；并基于风格迁移算法对CQT频谱X^cqt进行音频风格迁移处理，获取目标风格音频；将获取的所述目标风格音频输出至汽车内，实现车内反馈音效的风格迁移过程。本发明提供了一种车内反馈音效的风格迁移方法，有效的解决了现有方法生成的音频质量不高，无法完整保留原始音频旋律的问题；使在保留原始音频旋律的同时实现音色的转变，生成高质量的音频，提升了人们对汽车座舱的声音体验感。

Description

一种车内反馈音效的风格迁移方法

技术领域

本发明涉及汽车行业，用于汽车座舱中的声音体验设计的技术领域，尤其涉及一种车内反馈音效的风格迁移方法。

背景技术

随着汽车智能化程度和人们对汽车驾乘舒适度的要求的提高，各大车厂正争相打造沉浸式座舱体验，声音体验已经成为汽车座舱中无法忽略的一环。声音的风格迁移是生成座舱反馈音效的技术途径；传统的音效的风格迁移方法无法通过提取原有音频的音乐旋律，并进行音乐音色替换生成音效的风格迁移，然而传统的音效的风格迁移方法无法不能完整的保留原始音频旋律，导致迁移后的音频质量不高，大大降低了人们对汽车座舱迁移后的反馈音效的需求。

发明内容

本发明提供一种车内反馈音效的风格迁移方法，以克服上述技术问题。

为了实现上述目的，本发明的技术方案是：

一种车内反馈音效的风格迁移方法，包括以下步骤：

S1：采集原始风格音乐音频的双通道音乐样本生成音频样本集；

S2：对所述音频样本集中的音乐样本进行CQT变换特征提取，获取CQT频谱X^cqt；

S3：通过风格迁移算法对所述CQT频谱X^cqt进行音频风格迁移处理，获取目标风格音频；

S4：将获取的所述目标风格音频输出至汽车内，实现车内反馈音效的风格迁移过程。

进一步的，S2中所述获取CQT频谱X^cqt，包括以下步骤：

S2.1：将所述音频样本集中的双通道音乐样本的数据格式统一转换为WAV格式；

S2.2：将格式转换后的所述双通道音乐样本进行通道转换获取单通道音乐样本；且所述进行通道转换的公式为

X＝Transform(Music1_m×c)

其中，X表示转换成单通道后的音乐样本数据；Transform(*)表示将双通道的音乐样本转换为单通道；Music1_m×c是大小为m×c的二维音乐样本矩阵；m表示音乐样本在时间序列上的长度；c表示音乐样本的通道数；

S2.3：对所述单通道音乐样本进行分帧操作，获取单通道音乐样本的分量向量；且所述进行分帧操作的计算公式为

x_n＝X[nM:nM+N-1],n∈[0,Z)

其中，n表示帧索引值；Z表示帧数；表示单通道音乐样本在第n帧处的分量向量；N表示帧长；M表示帧移；

S2.4：根据分帧操作后的单通道音乐样本的频率构建中心频率呈几何分布的滤波器组；且所述中心频率呈几何分布的滤波器组的表达式为

w(k,m)＝α+(1-α)cos(2πm/N_k),α＝25/46,m∈[0,N_k-1]

其中，w(k,m)表示中心频率呈几何分布的滤波器组；α表示给定系数；N_k表示随频率变换的滤波器窗口长度；m表示音乐样本在时间序列上的长度；k表示音乐样本分帧操作后的时间序列的数量；

S2.5：基于所述中心频率呈几何分布的滤波器组对所述单通道音乐样本的分量向量进行CQT变换特征提取半音的频谱序列，获取CQT变换的单通道音乐样本的各谱分量；

所述获取CQT变换的单通道音乐样本的各谱分量的计算公式为

其中，表示用来保存中心频率为f_k的第k个半音的频谱能量；x_n(m)为经过分帧处理后的单通道音乐数据的时域信号；/>表示长度为N_k的窗函数；j表示复数单位；Q表示常量参数；N_k表示随频率变换的滤波器窗口长度；

S2.6：将所述获取CQT变换的单通道音乐样本的各谱分量通过concat函数进行拼接联合操作，获得CQT频谱X^cqt；且所述得CQT频谱X^cqt的表达式为

其中，表示包含各个频谱分量的分音矩阵。

进一步的，S3中所述通过风格迁移算法对所述CQT频谱X^cqt进行音频风格迁移，包括以下步骤：

S3.1：定义风格迁移算法的前向扩散过程权重项β_t(t＝1,2,...,T)，并根据所述前向扩散过程权重项β_t设置风格迁移算法参数α_t＝1-β_t；

S3.2：通过前向扩散过程公式对所述CQT频谱X^cqt进行前向扩散，获得经过t步前向扩散后的最终频谱图X_t；且所述前向扩散过程公式为

其中，X_t表示经过t步前向扩散后的谱图；X₁表示未经过前向扩散的原始CQT频谱；ε表示服从高斯分布的噪声；N表示高斯分布；I表示单位矩阵；

S3.3：构建含有目标音色的音乐样本的目标音色特征矩阵prompt，并将所述目标音色特征矩阵prompt与经过t步前向扩散后的所述最终频谱图X_t，通过所述风格迁移算法的反向生成过程，获得具有目标音色的音乐音频。

进一步的，S3.3中所述构建含有目标音色的音乐样本的目标音色特征矩阵prompt，包括以下步骤：

S3.3.1：给定目标音乐样本，并基于快速傅里叶变换将所述目标音乐样本的数据信号从时域信号转换为频域信号，更新所述目标音乐样本；

所述目标音乐样本从时域信号转换为频域信号的计算公式为

其中，F表示经过快速傅里叶变换后的频域信号；Y表示音乐样本经过采样后的时域信号；FS表示时域中的采样点总数；j表示复数单位；N表示帧长；

S3.3.2：计算更新后的所述目标音乐样本的频谱质心；所述频谱质心的计算公式为

其中，C_n表示目标音乐样本第n帧的频谱质心；l_n表示第n帧信号经过快速傅里叶变换后子带w中频率的最小值；h_n表示第n帧信号经过快速傅里叶变换后子带w中频率的最大值；F_n(w)表示第n帧中子带w经过时域信号转换为频域信号的输出；

并基于所述频谱质心获取频谱质心的一阶导数C_n′与频谱质心的二阶导数C_n″；所述频谱质心的一阶导数C_n′与二阶导数C_n″的表达式为

C_n′＝(C_n+1-C_n)/C_n

C_n″＝(C_n+1′-C_n′)/C_n′

其中，C_n表示目标音乐样本第n帧的频谱质心；C_n+1表示目标音乐样本第n+1帧的频谱质心；

S3.3.3：计算更新后的所述目标音乐样本的频谱带宽；且所述频谱带宽的计算公式为

其中，S_n表示目标音乐样本第n帧的频谱带宽；w₀表示常量参数；C_n表示目标音乐样本第n帧的频谱质心；F_n(w)表示第n帧中子带w经过时域信号转换为频域信号的输出；

并基于所述频谱带宽获取频谱带宽的一阶导数S_n′与频谱带宽的二阶导数S_n″；所述频谱带宽的一阶导数S_n′与二阶导数S_n″的表达式为

S_n′＝(S_n+1-S_n)/S_n

S_n″＝(S_n+1′-S_n′)/S_n′

其中，S_n表示目标音乐样本第n帧的频谱带宽；S_n+1表示目标音乐样本第n+1帧的频谱带宽；

S3.3.4：将所述频谱质心、频谱质心的一阶导数C_n′与二阶导数C_n″以及频谱带宽的一阶导数S_n′与二阶导数S_n″通过concat函数进行拼接联合操作，获得目标音色特征矩阵prompt；

所述目标音色特征矩阵prompt的表达式为

prompt＝concat(C_n,C_n′,C_n″,S_n,S_n′,S_n″)。

进一步的，S3.3中通过所述风格迁移算法的反向生成过程，获得具有目标音色的音乐音频，具体为

将S3.2获取的最终频谱图X_t输入至带有ReLU激活函数的第一卷积层中进行卷积处理，获得优化频谱图；

out₁＝ReLU(conv1d(X_t))

其中，out₁表示第一卷积层的输出；conv1d表示一维卷积层；

将S3.3.4获取的目标音色特征矩阵prompt输入到第二卷积层中，通过卷积操作对目标音色特征矩阵prompt中的目标音色特征进行特征表达；

out₂＝conv1d(prompt)

其中，out₂表示第二卷积层的输出；

将所述第一卷积层的输出out₁与第二卷积层的输出out₂通过concat函数进行拼接联合操作并输出联合结果out₃；

out₃＝concat(out₁,out₂)

将联合结果out₃输入到第三卷积层中进行卷积运算；并将所述第三卷积层的输出out输入至所述风格迁移算法的反向生成过程，获取具有目标音色的音乐音频；所述风格迁移算法的反向生成过程的计算公式为

out＝conv1d(out₃)

其中，out表示第三卷积层卷积后的输出；OUT_t表示经过反向生成过程得到的具有目标音色的音乐音频；β_t表示前向扩散过程权重项；ε表示服从高斯分布的噪声。

有益效果：本发明提供了一种车内反馈音效的风格迁移方法，通过对音频样本集中的音乐样本进行CQT变换特征提取获取CQT频谱X^cqt；并基于风格迁移算法对CQT频谱X^cqt进行音频风格迁移，获取目标风格音频；将获取的所述目标风格音频输出至汽车内，实现车内反馈音效的风格迁移。使得在保留原始音频旋律的同时实现音乐音色的转变，生成高质量的音频，大大提升了人们对汽车座舱迁移后的反馈音效的需求；有效的解决了现有方法生成的音频质量不高，无法完整保留原始音频旋律的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种车内反馈音效的风格迁移方法的流程图；

图2为本实施例中音乐样本特征提取流程图；

图3为本实施例中风格迁移算法的前向扩散过程示意图；

图4为本实施例中获取目标音色特征矩阵prompt的流程图；

图5为本实施例中风格迁移算法流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供了一种车内反馈音效的风格迁移方法，如图1所示，包括以下步骤：

S1：采集原始风格音乐音频的双通道音乐样本生成音频样本集；具体地，所述采集原始风格音乐音频的音乐样本采样率f_s为16kHz；

S2：对所述音频样本集中的音乐样本进行CQT变换特征提取，获取CQT频谱X^cqt，如图2所示，具体包括以下步骤：

S2.1：将所述音频样本集中的双通道音乐样本的数据格式统一转换为WAV格式；其中所述数据格式统一转换的实现手段为现有公知技术，并非本申请的发明点，在此不再赘述；

X＝Transform(Music1_m×c)

S2.3：设置帧长N为1024个采样点，帧移M为480个采样点；对所述单通道音乐样本进行分帧操作，获取单通道音乐样本的分量向量；且所述进行分帧操作的计算公式为

x_n＝X[nM:nM+N-1],n∈[0,Z)

S2.4：根据分帧操作后的单通道音乐样本的频率构建中心频率呈几何分布的滤波器组；

具体地，将经过S2.3处理后的单通道音乐数据的最高频率定义为f_max(且最高频率应低于奈奎斯特频率)，最低频率定义为f_min(优选为130.8Hz)，根据最低频率f_min计算第k个分量向量的频率，计算公式为：

其中，bins表示一个八度范围内所包含的频谱线数，为了获取一个八度中的12个半音；在本实施例中设置bins为12；f_k表示第k个分量向量的频率；表示向正方向取整；

根据第k个分量向量的频率计算CQT变换中的常量Q，即中心频率与带宽之比，所述计算CQT变换中的常量Q的计算公式为

其中，f_k表示第k个分量向量的频率；Δf_k表示频率f_k处的频率带宽，即频率解析度；

根据所述第k个分量向量的频率、CQT变换常量Q以及原始风格音乐音频的采样率f_s计算第k个滤波器的窗口长度，所述第k个滤波器的窗口长度的计算公式为

其中，N_k是随频率变换的滤波器窗口长度；f_s为样本数据的采样率；表示向正方向取整；

本实施例中优选汉明窗函数作为滤波器的窗函数；所述滤波器的窗函数的表达式为

其中，w(n)表示汉明窗窗函数，α₀为给定常量系数，取值为0.53836；

基于所述滤波器的窗函数可得到中心频率呈几何分布的滤波器组，且所述中心频率呈几何分布的滤波器组的表达式为

w(k,m)＝α+(1-α)cos(2πm/N_k),α＝25/46,m∈[0,N_k-1]

所述获取CQT变换的单通道音乐样本的各谱分量的计算公式为

其中，表示用来保存中心频率为f_k的第k个半音的频谱能量；x_n(m)为经过分帧处理后的单通道音乐数据的时域信号；/>表示长度为N_k的窗函数；不同频率采用不同的窗口长度，对于低频的波，它的带宽十分小，但有更高的频率分辨率来分解相近的音符；但是对于高频的波，它的带宽比较大，在高频有更高的时间分辨率来跟踪快速变化的泛音，这样可以避免时频分辨率均匀的缺点，j是复数单位，表示正弦和余弦函数中的虚部，以便进行频域分析；Q表示常量参数；N_k表示随频率变换的滤波器窗口长度；

S2.6：将所述获取CQT变换的单通道音乐样本的各谱分量进行联合，获得CQT频谱X^cqt；且所述得CQT频谱X^cqt的表达式为

其中，表示包含各个频谱分量的分音矩阵；/>表示多维向量。

S3：通过风格迁移算法对所述CQT频谱X^cqt进行音频风格迁移，获取目标风格音频，如图5所示，具体包括以下步骤：

S3.1：定义风格迁移算法的前向扩散过程权重项β_t(t＝1,2,...,T)，该权重项β_t随步数t的增加而逐渐增大，取值范围为[0.0001,0.002]，并根据所述前向扩散过程权重项β_t设置风格迁移算法参数α_t＝1-β_t；

S3.2：如图3所示，通过前向扩散过程公式对所述CQT频谱X^cqt进行前向扩散，获得经过t步前向扩散后的最终频谱图X_t；且所述前向扩散过程公式为

其中，X_t表示经过t步前向扩散后的谱图；X₁表示未经过前向扩散的原始CQT频谱(即CQT变换特征提取过程的输出)；ε表示服从高斯分布的噪声；N表示高斯分布；I表示单位矩阵；

S3.3：构建含有目标音色的音乐样本的目标音色特征矩阵prompt，为了使最终生成的音乐具有目标音色，我们将采用如下操作对含有目标音色(如：音乐由小提琴演奏，则目标音色为小提琴的乐器音色)的音乐样本进行特征提取，把提取出来的表征目标音色的特征作为辅助条件输入反向生成过程中，所述构建含有目标音色的音乐样本的目标音色特征矩阵prompt，如图4所示，具体包括以下步骤：

具体地，为了防止在音色提取过程中重要的原始信息丢失，通过快速傅里叶变换将目标音乐样本从时域转换到频域上，并通过参数设置将转换后的频域分割成120ms的帧，帧移为40ms；所述目标音乐样本从时域信号转换为频域信号的计算公式为

C_n′＝(C_n+1-C_n)/C_n

C_n″＝(C_n+1′-C_n′)/C_n′

S_n′＝(S_n+1-S_n)/S_n

S_n″＝(S_n+1′-S_n′)/S_n′

所述目标音色特征矩阵prompt的表达式为

prompt＝concat(C_n,C_n′,C_n″,S_n,S_n′,S_n″)；

并将所述目标音色特征矩阵prompt与经过t步前向扩散后的所述最终频谱图X_t，通过所述风格迁移算法的反向生成过程，获得具有目标音色的音乐音频，具体为

out₁＝ReLU(conv1d(X_t))

其中，out₁表示第一卷积层的输出；conv1d表示一维卷积层，所述第一卷积层为一维卷积且卷积核大小为1x1；

out₂＝conv1d(prompt)

其中，out₂表示第二卷积层的输出；所述第二卷积层为一维卷积且卷积核大小为1x1；

out₃＝concat(out₁,out₂)

将联合结果out₃输入到第三卷积层中进行卷积运算；所述第三卷积层为一维卷积且卷积核大小为3x3；并将所述第三卷积层的输出out输入至所述风格迁移算法的反向生成过程，获取具有目标音色的音乐音频；所述风格迁移算法的反向生成过程的计算公式为

out＝conv1d(out₃)

其中，out表示第三卷积层卷积后的输出；OUT_t表示经过反向生成过程得到的具有目标音色的音乐音频；β_t表示前向扩散过程权重项；ε表示服从高斯分布的噪声；

S4：将获取的所述目标风格音频输出至汽车内，实现车内反馈音效的风格迁移。

本发明的有益效果具体包括两个方面：1.对原始风格音频和目标风格音频进行音乐特征提取，并将提取的原始风格音频与设计的音乐特征组合作为风格迁移算法的输入，使其更好的完成风格迁移任务；2.结合了深度学习模型的车内反馈音风格迁移技术方案具有更好的转换性能，可以生成更高质量的音频，将生成的具有目标音色的反馈音效应用于汽车座舱有效提升声音的品质感。

具体地，所述深度学习模型包括第一卷积层、第二卷积层以及第三卷积层；且所述第一卷积层与第二卷积层的输出端分别连接至所述第三卷积层的输入端；所述第一卷积层用于获取的最终频谱图X_t进行卷积处理；所述第二卷积层用于获取的目标音色特征矩阵prompt进行卷积处理；所述第三卷积层用于将所述第一卷积层的输出out₁与第二卷积层的输出out₂进行联合，输出用于所述风格迁移算法的反向生成过程的输入数据；其中，本实施例中的各卷积层的计算方法均为现有的，此处仅为根据本发明所涉及的深度学习模型结构来实现输入数据得到对应输出结果的功能。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种车内反馈音效的风格迁移方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种车内反馈音效的风格迁移方法，其特征在于，S2中所述获取CQT频谱X^cqt，包括以下步骤：

S2.2：将格式转换后的所述双通道音乐样本进行通道转换，获取单通道音乐样本；且所述进行通道转换的公式为

X＝Transform(Music1_m×c)

x_n＝X[nM:nM+N-1],n∈[0,Z)

S2.4：根据分帧操作后的单通道音乐样本的音频数据频率构建中心频率呈几何分布的滤波器组；且所述中心频率呈几何分布的滤波器组的表达式为

w(k,m)＝α+(1-α)cos(2πm/N_k),α＝25/46,m∈[0,N_k-1]

所述获取CQT变换的单通道音乐样本的各谱分量的计算公式为

其中，表示包含各个频谱分量的分音矩阵。

3.根据权利要求1所述的一种车内反馈音效的风格迁移方法，其特征在于，S3中所述通过风格迁移算法对所述CQT频谱X^cqt进行音频风格迁移，包括以下步骤：

4.根据权利要求3所述的一种车内反馈音效的风格迁移方法，其特征在于，S3.3中所述构建含有目标音色的音乐样本的目标音色特征矩阵prompt，包括以下步骤：

所述目标音乐样本从时域信号转换为频域信号的计算公式为

C_n′＝(C_n+1-C_n)/C_n

C_n″＝(C_n+1′-C_n′)/C_n′

S_n′＝(S_n+1-S_n)/S_n

S_n″＝(S_n+1′-S_n′)/S_n′

所述目标音色特征矩阵prompt的表达式为

prompt＝concat(C_n,C_n′,C_n″,S_n,S_n′,S_n″)。

5.根据权利要求4所述的一种车内反馈音效的风格迁移方法，其特征在于，S3.3中通过所述风格迁移算法的反向生成过程，获得具有目标音色的音乐音频，具体为

out₁＝ReLU(conv1d(X_t))

其中，out₁表示第一卷积层的输出；conv1d表示一维卷积层；

out₂＝conv1d(prompt)

其中，out₂表示第二卷积层的输出；

out₃＝concat(out₁,out₂)

out＝conv1d(out₃)