CN108538301B

CN108538301B - 一种基于神经网络音频技术的智能数码乐器

Info

Publication number: CN108538301B
Application number: CN201810148863.1A
Authority: CN
Inventors: 赵平; 范廷国; 呼晓鹏
Original assignee: Ringway Tech Jiangsu Co ltd
Current assignee: Ringway Tech Jiangsu Co ltd
Priority date: 2018-02-13
Filing date: 2018-02-13
Publication date: 2021-05-07
Anticipated expiration: 2038-02-13
Also published as: CN108538301A

Abstract

本发明公开了一种基于神经网络音频技术的智能数码乐器，智能数码乐器包括数码乐器本体以及设置在数码乐器本体的内的神经网络音频改进单元；神经网络音频改进单元包括可编程的神经网络控制器、音频传感器、音源CPU、通信模块、转换模块；音频传感器用于采集音频数据，转换模块将采集的音频数据输入神经网络控制器，通过神经网络控制器改进后输出数据，再通过转换模块转化成目标音频数据，音源CPU通过通信模块与神经网络控制器连接。本发明通过两种神经网络的互补，形成了诊断以及深度学习的，使得数码乐器的发出的声音更加接近于人类或者乐器发出的声音。

Description

一种基于神经网络音频技术的智能数码乐器

技术领域

本发明涉及一种基于神经网络音频技术的智能数码乐器，属于数码乐器技术领域。

背景技术

人们一直在尝试着用神经网络对一系列音乐元素进行建模，例如和弦、音高等等。人们在1943年开始用神经网络解决语音识别的问题。但是在那个年代，没有足够的计算能力来得到较好的结果，所以神经网络的方法在那个时候并不流行。而现在，由于GPU计算资源和可获得的大数据，结果可以变得相当好，于是使用像神经网络来进行来实现音乐风格的神经转换越来越得到认可。

现有技术中存在使用神经网络对音频数据进行训练，使得更加接近于人类和乐器的声音，但是往往由于计算量的关系，造成神经网络使用的局限性。

发明内容

本发明提供了一种基于神经网络音频技术的智能数码乐器，通过两种神经网络的互补，先通过诊断，然后再进行深度学习的方法使得数码乐器输出的音频数据更加接近于现实中的音频。

本发明的技术方案如下：

一种基于神经网络音频技术的智能数码乐器，所述智能数码乐器包括数码乐器本体以及设置在数码乐器本体的内的神经网络音频改进单元；

所述神经网络音频改进单元包括可编程的神经网络控制器、音频传感器、音源CPU、通信模块、转换模块；所述音频传感器用于采集音频数据，所述转换模块将采集的音频数据输入神经网络控制器，通过神经网络控制器改进后输出数据，再通过转换模块转化成目标音频数据，所述音源CPU通过通信模块与神经网络控制器连接。

上述神经网络控制器包括RBF神经网络估计器和模糊神经网络估计器，首先通过RBF神经网络估计器对输入音频数据进行诊断，然后通过模糊神经网络估计器进行深度学习。

上述RBF神经网络估计器基于RBF神经网络,对数码乐器输出的音频数据进行诊断，所述步骤如下：

(3-1)、以由仿真模型得到的正常条件下的音频数据样本为输入，训练RBF神经网络，得到其相应的特征参数；

(3-2)、然后以音频传感器采集到的音频数据的实际参数为待测样本，使用迭代自适应逆滤波得到声波信号；从声门波信号中提取特征参数，并作为已训练好的RBF神经网络的输入，得到RBF神经网络的估计输出，进一步计算出估计输出和系统实际输出信号之间的残差，

(3-3)、若残差超过故障限，则说明音频数据与目标样本存在差异；反之，说明音频数据输出正常。

上述RBF神经网络属于三层前馈网络，包括输入层、输出层、隐含层，以x_i(i＝1,2,3,…,n)为输入矢量，n为输入层节点数，f_i(i＝1,2,3,…,m)为隐含层的函数，ω_i(i＝1,2,3,…,m)为隐含层到输出层的权值，m为隐含层的节点数，y_m为网络的输出,即：

输入层和隐含层间由高斯函数构成，而输出层与隐含层则由线性函数构成，所述隐含层节点的作用函数对输入信号将在局部产生响应，即当输入信号靠近基函数的中心范围时，隐含层节点将产生较大的输出；

采用的高斯基函数为：

其中，f(x)为隐含层节点的作用函数，x为n维输入矢量；c_j为第j基函数的中心，与x具有相同维数的矢量；带宽参数σ_j决定了第j个基函数围绕中心点的宽度；k是感知单元的个数，C_j由最小二乘法得到。

上述模糊神经网络估计器使用模糊神经网络，对输出不正常的音频数据进行深度学习并进行改进，所述步骤方法如下：

(5-1)、对被控对象音频数据建立模糊神经网络模型；

(5-2)、设置模糊神经网络结构，包括层数、节点数；

(5-3)、设置模糊神经网络的各个参数，并通过粒子群算法求得各参数最优初值；

(5-4)、将各参数最优初值赋值给模糊神经网络；

(5-5)、利用样本对模糊神经网络进行训练，得到与样本数据相同的音频数据。

上述步骤(5-2)中模糊神经网络结构包括前件网络和后件网络，所述前件网络将输入量映射到各模糊子集后经合成运算得到各规则适应度值，后件网络对各输入量线性加权后根据各规则适应度值计算出网络输出值；

所述前件网络为四层网络结构：

第一层：输入层；各输入变量x₁，x₂，…x_n经过该层节点进入到网络下一层，是外部信息进入该网络的入口，该层节点数N₁＝2，分别为x₁、x₂，具体为：

式中，K₁、K₂为量化因子，c(t)和y(t)分别为数码乐器输出端音频数据的设定值和实测值；e(t)表示数码乐器输出端音频数据的设定值和实测值之差；

第二层：模糊化层；该层中的所有节点均表示一个模糊语言变量值，通过采用隶属度函数计算各输入量属于各模糊语言子集的程度,输入x₁、x₂分割为7个模糊子集{NB,NM,NS,ZO,PS,PM,PB}，隶属度函数均采用高斯铃型函数，各输入变量的隶属度值计算公式为:

式中，c_ij为隶属度函数的中心；σ_ij为隶属度函数的宽度,i＝1,2,…,n；j＝1,2,…,m_i；n为输入变量个数，m_i为输入变量x_i的模糊分割数；

第三层：模糊规则适应度值计算层；该层节点表示模糊系统中的模糊规则，通过模糊算子计算出各规则适应度值，采用的模糊算子为连乘算子，表达式如下：

式中，j₁＝1,2,…,m₁，j₂＝1,2,…,m₂，…,j_n＝1,2,…,m_n；i＝1,2,…,m，

该层节点中，越靠近输入值的模糊语言子集的隶属函数值就越大；反之，距离输入值越远的模糊语言子集的隶属度函数值就越小；隶属度函数值越小的节点对输出值的贡献就越小，而该层节点中仅有少数节点值较大，其余节点值很小对输出几乎无作用，也即是说它具有局部逼近特性，该层节点数N₃＝m；

第四层：归一化层；该层主要实现对上层各规则适应度值的归一化操作，故本层节点数与第三层节点数一致；

后件网络为三层网络结构：

第一层：输入层；它是外部输入变量与网络内部节点的接口；该层含有一个值为1的输入节点，为线性加权算子的常数项；

第二层：模糊规则推理层；该层与前件网络中第三层节点相同，所有节点组合成一个完整的模糊规则库，故由前可知节点数为m个；实现模糊规则推理计算，此处为对输入变量进行线性组合操作，即

第三层：输出层；该层节点根据规则适应度值计算网络输出；

本发明所达到的有益效果：本发明通过两种神经网络的互补，形成了诊断以及深度学习的，使得数码乐器的发出的声音更加接近于人类或者乐器发出的声音。

附图说明

图1是本发明的结构示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，一种基于神经网络音频技术的智能数码乐器，所述智能数码乐器包括数码乐器本体以及设置在数码乐器本体的内的神经网络音频改进单元；

(3-2)、然后以音频传感器采集到的音频数据的实际参数为待测样本，，使用迭代自适应逆滤波得到声波信号；包括从声波信号中提取特征参数，特征参数包括信噪比、失真度、频响范围等，并作为已训练好的RBF神经网络的输入，得到RBF神经网络的估计输出，进一步计算出估计输出和系统实际输出信号之间的残差，

采用的高斯基函数为：

公式(2)中的带宽参数σ_i应用最小二乘法后，令每个类中心c_j等于类中心与该类训练样本之间的平均距离，即：

其中N_j为第j个样本的个数，τ为转置；

权值的调整采用梯度下降法，其迭代公式为：

ω(t+1)＝ω(t)+η(u-y)f^τ(x) (4)

其中，η为学习速率，u为网络的期望输出，y为网络的输出，f(x)为隐层输出，τ为转置。

残差定义与正常状态下的距离MD为：

其中，k为数据的维数，R为与y和y_out的方差-协方差、相关系数相关的矩阵，T为转置；

对计算的距离进行归一化处理，从而得到残差α，采用的残差归一化函数形式如下：

其中，c₀基于正常数据对应的α设定值来确定，如下所示：

Mean(MD_normal)为正常状态下的MD的平均值，α_pre是正常状态下对应的α设定值，

当α<设定的故障限时，音频数据与样本相近；当α>设定的故障限时，音频数据有差异。通过模糊神经网络进行深度学习和改进。

(5-1)、对被控对象音频数据建立模糊神经网络模型；

(5-2)、设置模糊神经网络结构，包括层数、节点数；

(5-4)、将各参数最优初值赋值给模糊神经网络；

所述前件网络为四层网络结构：

式中，c_ij为隶属度函数的中心；σ_ij为隶属度函数的宽度,i＝1,2,…,n；j＝1,2,…,m_i；n为输入变量个数，m_i为输入变量x_i的模糊分割数，该层节点数N₂＝m₁+m₂；

后件网络为三层网络结构：

步骤(5-5)中采用的样本训练方法的学习算法是是基于最小均方误差准则对网络权值、阈值进行有监督学习的一种算法,当一个含r个样本的训练样本集传入网络且计算出一组输出时，误差性能函数应为各输出单元误差的平方和：

式中，t_i与y_i分别表示控制器的期望输出与实际输出；

假设模糊神经网络中第q层第j个神经元，则该神经元的输入为：

该神经元的输出为

为了对

和

的推导，先根据误差反向传播算法计算出

式中j＝1,2,…,m；i＝1,2,…,n，β＞0为学习速率；

将模糊神经网络在学习过程中，信号正向传播经过各层节点的输入输出关系表示成如下数学表达式：

第一层：

第二层：

式中，i＝1,2,…,n；j＝1,2,…,m_i；

第三层：

式中，j＝1,2,…,m；

第四层：

式中，j＝1,2,…,m；

第五层：

由误差反向传播特性可知，首先利用误差反向传播算法计算出

和

然后通过一阶梯度下降算法来调整c_ij和σ_ij；

若

是第三层中第k个规则节点的一个输入时：

最后根据一阶梯度下降法求得：

式中，i＝1,2,…,n；j＝1,2,…,m_i；

式中，i＝1,2,…,n；j＝1,2,…,m_i；β＞0为学习速率。

学习算法中引入动量项来改善学习性能，加动量项后的参数调整公式为：

加入动量项后，若

则Δw(k+1)＝m_cΔw(k)＝m_c[w(k)-w(k-1)]，避免了学习停滞陷入局部最优及振荡的情况，但是当修正的参数导致其误差增长太大时，应暂停动量作用并取消该修正，故引入以下监督机制，引导动量项科学作用：

式中，E(k)为误差代价函数值；

引入动态调整学习速率机制：

将附加动量项法与动态调整学习速率法相结合，采用的学习算法的参数修正公式为：

c_ij(k+1)＝c_ij(k)+(1-m_c)Δc_ij(k+1)+m_c(c_ij(k)-c_ij(k-1)) (39)

σ_ij(k+1)＝σ_ij(k)+(1-m_c)Δσ_ij(k+1)+m_c(σ_ij(k)-σ_ij(k-1)) (40)。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于神经网络音频技术的智能数码乐器，其特征在于：所述智能数码乐器包括数码乐器本体以及设置在数码乐器本体的内的神经网络音频改进单元；

所述神经网络音频改进单元包括可编程的神经网络控制器、音频传感器、音源CPU、通信模块、转换模块；所述音频传感器用于采集音频数据，所述转换模块将采集的音频数据输入神经网络控制器，通过神经网络控制器改进后输出数据，再通过转换模块转化成目标音频数据，所述音源CPU通过通信模块与神经网络控制器连接；

所述神经网络控制器包括RBF神经网络估计器和模糊神经网络估计器，首先通过RBF神经网络估计器对输入音频数据进行诊断，然后通过模糊神经网络估计器进行深度学习。

2.根据权利要求1所述的一种基于神经网络音频技术的智能数码乐器，其特征在于：所述RBF神经网络估计器基于RBF神经网络,对数码乐器输出的音频数据进行诊断，步骤如下：

(3-2)、然后以音频传感器采集到的音频数据的实际参数为待测样本，使用迭代自适应逆滤波得到声门波信号；从声波信号中提取特征参数，并作为已训练好的RBF神经网络的输入，得到RBF神经网络的估计输出，进一步计算出估计输出和系统实际输出信号之间的残差；

3.根据权利要求2所述的一种基于神经网络音频技术的智能数码乐器，其特征在于：所述RBF神经网络属于三层前馈网络，包括输入层、输出层、隐含层，以x_i(i＝1,2,3,…,n)为输入矢量，n为输入层节点数，f_i(i＝1,2,3,…,m)为隐含层的函数，ω_i(i＝1,2,3,…,m)为隐含层到输出层的权值，m为隐含层的节点数，y_m为网络的输出,即：

采用的高斯基函数为：

4.根据权利要求1所述的一种基于神经网络音频技术的智能数码乐器，其特征在于：所述模糊神经网络估计器使用模糊神经网络，对输出不正常的音频数据进行深度学习并进行改进，步骤方法如下：

(5-1)、对被控对象音频数据建立模糊神经网络模型；

(5-2)、设置模糊神经网络结构，包括层数、节点数；

(5-4)、将各参数最优初值赋值给模糊神经网络；

5.根据权利要求4所述的一种基于神经网络音频技术的智能数码乐器，其特征在于：所述步骤(5-2)中模糊神经网络结构包括前件网络和后件网络，所述前件网络将输入量映射到各模糊子集后经合成运算得到各规则适应度值，后件网络对各输入量线性加权后根据各规则适应度值计算出网络输出值；

所述前件网络为四层网络结构：

后件网络为三层网络结构：