CN108538301B - 一种基于神经网络音频技术的智能数码乐器 - Google Patents
一种基于神经网络音频技术的智能数码乐器 Download PDFInfo
- Publication number
- CN108538301B CN108538301B CN201810148863.1A CN201810148863A CN108538301B CN 108538301 B CN108538301 B CN 108538301B CN 201810148863 A CN201810148863 A CN 201810148863A CN 108538301 B CN108538301 B CN 108538301B
- Authority
- CN
- China
- Prior art keywords
- layer
- neural network
- fuzzy
- input
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 105
- 238000005516 engineering process Methods 0.000 title claims abstract description 12
- 238000006243 chemical reaction Methods 0.000 claims abstract description 12
- 238000013135 deep learning Methods 0.000 claims abstract description 9
- 238000004891 communication Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 53
- 238000000034 method Methods 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 7
- 230000009471 action Effects 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 239000002245 particle Substances 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 claims 1
- 241000282414 Homo sapiens Species 0.000 abstract description 3
- 238000003745 diagnosis Methods 0.000 abstract description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 241000764238 Isis Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0091—Means for obtaining special acoustic effects
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Feedback Control In General (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本发明公开了一种基于神经网络音频技术的智能数码乐器,智能数码乐器包括数码乐器本体以及设置在数码乐器本体的内的神经网络音频改进单元;神经网络音频改进单元包括可编程的神经网络控制器、音频传感器、音源CPU、通信模块、转换模块;音频传感器用于采集音频数据,转换模块将采集的音频数据输入神经网络控制器,通过神经网络控制器改进后输出数据,再通过转换模块转化成目标音频数据,音源CPU通过通信模块与神经网络控制器连接。本发明通过两种神经网络的互补,形成了诊断以及深度学习的,使得数码乐器的发出的声音更加接近于人类或者乐器发出的声音。
Description
技术领域
本发明涉及一种基于神经网络音频技术的智能数码乐器,属于数码乐器技术领域。
背景技术
人们一直在尝试着用神经网络对一系列音乐元素进行建模,例如和弦、音高等等。人们在1943年开始用神经网络解决语音识别的问题。但是在那个年代,没有足够的计算能力来得到较好的结果,所以神经网络的方法在那个时候并不流行。而现在,由于GPU计算资源和可获得的大数据,结果可以变得相当好,于是使用像神经网络来进行来实现音乐风格的神经转换越来越得到认可。
现有技术中存在使用神经网络对音频数据进行训练,使得更加接近于人类和乐器的声音,但是往往由于计算量的关系,造成神经网络使用的局限性。
发明内容
本发明提供了一种基于神经网络音频技术的智能数码乐器,通过两种神经网络的互补,先通过诊断,然后再进行深度学习的方法使得数码乐器输出的音频数据更加接近于现实中的音频。
本发明的技术方案如下:
一种基于神经网络音频技术的智能数码乐器,所述智能数码乐器包括数码乐器本体以及设置在数码乐器本体的内的神经网络音频改进单元;
所述神经网络音频改进单元包括可编程的神经网络控制器、音频传感器、音源CPU、通信模块、转换模块;所述音频传感器用于采集音频数据,所述转换模块将采集的音频数据输入神经网络控制器,通过神经网络控制器改进后输出数据,再通过转换模块转化成目标音频数据,所述音源CPU通过通信模块与神经网络控制器连接。
上述神经网络控制器包括RBF神经网络估计器和模糊神经网络估计器,首先通过RBF神经网络估计器对输入音频数据进行诊断,然后通过模糊神经网络估计器进行深度学习。
上述RBF神经网络估计器基于RBF神经网络,对数码乐器输出的音频数据进行诊断,所述步骤如下:
(3-1)、以由仿真模型得到的正常条件下的音频数据样本为输入,训练RBF神经网络,得到其相应的特征参数;
(3-2)、然后以音频传感器采集到的音频数据的实际参数为待测样本,使用迭代自适应逆滤波得到声波信号;从声门波信号中提取特征参数,并作为已训练好的RBF神经网络的输入,得到RBF神经网络的估计输出,进一步计算出估计输出和系统实际输出信号之间的残差,
(3-3)、若残差超过故障限,则说明音频数据与目标样本存在差异;反之,说明音频数据输出正常。
上述RBF神经网络属于三层前馈网络,包括输入层、输出层、隐含层,以xi(i=1,2,3,…,n)为输入矢量,n为输入层节点数,fi(i=1,2,3,…,m)为隐含层的函数,ωi(i=1,2,3,…,m)为隐含层到输出层的权值,m为隐含层的节点数,ym为网络的输出,即:
输入层和隐含层间由高斯函数构成,而输出层与隐含层则由线性函数构成,所述隐含层节点的作用函数对输入信号将在局部产生响应,即当输入信号靠近基函数的中心范围时,隐含层节点将产生较大的输出;
采用的高斯基函数为:
其中,f(x)为隐含层节点的作用函数,x为n维输入矢量;cj为第j基函数的中心,与x具有相同维数的矢量;带宽参数σj决定了第j个基函数围绕中心点的宽度;k是感知单元的个数,Cj由最小二乘法得到。
上述模糊神经网络估计器使用模糊神经网络,对输出不正常的音频数据进行深度学习并进行改进,所述步骤方法如下:
(5-1)、对被控对象音频数据建立模糊神经网络模型;
(5-2)、设置模糊神经网络结构,包括层数、节点数;
(5-3)、设置模糊神经网络的各个参数,并通过粒子群算法求得各参数最优初值;
(5-4)、将各参数最优初值赋值给模糊神经网络;
(5-5)、利用样本对模糊神经网络进行训练,得到与样本数据相同的音频数据。
上述步骤(5-2)中模糊神经网络结构包括前件网络和后件网络,所述前件网络将输入量映射到各模糊子集后经合成运算得到各规则适应度值,后件网络对各输入量线性加权后根据各规则适应度值计算出网络输出值;
所述前件网络为四层网络结构:
第一层:输入层;各输入变量x1,x2,…xn经过该层节点进入到网络下一层,是外部信息进入该网络的入口,该层节点数N1=2,分别为x1、x2,具体为:
式中,K1、K2为量化因子,c(t)和y(t)分别为数码乐器输出端音频数据的设定值和实测值;e(t)表示数码乐器输出端音频数据的设定值和实测值之差;
第二层:模糊化层;该层中的所有节点均表示一个模糊语言变量值,通过采用隶属度函数计算各输入量属于各模糊语言子集的程度,输入x1、x2分割为7个模糊子集{NB,NM,NS,ZO,PS,PM,PB},隶属度函数均采用高斯铃型函数,各输入变量的隶属度值计算公式为:
式中,cij为隶属度函数的中心;σij为隶属度函数的宽度,i=1,2,…,n;j=1,2,…,mi;n为输入变量个数,mi为输入变量xi的模糊分割数;
第三层:模糊规则适应度值计算层;该层节点表示模糊系统中的模糊规则,通过模糊算子计算出各规则适应度值,采用的模糊算子为连乘算子,表达式如下:
式中,j1=1,2,…,m1,j2=1,2,…,m2,…,jn=1,2,…,mn;i=1,2,…,m,该层节点中,越靠近输入值的模糊语言子集的隶属函数值就越大;反之,距离输入值越远的模糊语言子集的隶属度函数值就越小;隶属度函数值越小的节点对输出值的贡献就越小,而该层节点中仅有少数节点值较大,其余节点值很小对输出几乎无作用,也即是说它具有局部逼近特性,该层节点数N3=m;
第四层:归一化层;该层主要实现对上层各规则适应度值的归一化操作,故本层节点数与第三层节点数一致;
后件网络为三层网络结构:
第一层:输入层;它是外部输入变量与网络内部节点的接口;该层含有一个值为1的输入节点,为线性加权算子的常数项;
第二层:模糊规则推理层;该层与前件网络中第三层节点相同,所有节点组合成一个完整的模糊规则库,故由前可知节点数为m个;实现模糊规则推理计算,此处为对输入变量进行线性组合操作,即
第三层:输出层;该层节点根据规则适应度值计算网络输出;
本发明所达到的有益效果:本发明通过两种神经网络的互补,形成了诊断以及深度学习的,使得数码乐器的发出的声音更加接近于人类或者乐器发出的声音。
附图说明
图1是本发明的结构示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,一种基于神经网络音频技术的智能数码乐器,所述智能数码乐器包括数码乐器本体以及设置在数码乐器本体的内的神经网络音频改进单元;
所述神经网络音频改进单元包括可编程的神经网络控制器、音频传感器、音源CPU、通信模块、转换模块;所述音频传感器用于采集音频数据,所述转换模块将采集的音频数据输入神经网络控制器,通过神经网络控制器改进后输出数据,再通过转换模块转化成目标音频数据,所述音源CPU通过通信模块与神经网络控制器连接。
上述神经网络控制器包括RBF神经网络估计器和模糊神经网络估计器,首先通过RBF神经网络估计器对输入音频数据进行诊断,然后通过模糊神经网络估计器进行深度学习。
上述RBF神经网络估计器基于RBF神经网络,对数码乐器输出的音频数据进行诊断,所述步骤如下:
(3-1)、以由仿真模型得到的正常条件下的音频数据样本为输入,训练RBF神经网络,得到其相应的特征参数;
(3-2)、然后以音频传感器采集到的音频数据的实际参数为待测样本,,使用迭代自适应逆滤波得到声波信号;包括从声波信号中提取特征参数,特征参数包括信噪比、失真度、频响范围等,并作为已训练好的RBF神经网络的输入,得到RBF神经网络的估计输出,进一步计算出估计输出和系统实际输出信号之间的残差,
(3-3)、若残差超过故障限,则说明音频数据与目标样本存在差异;反之,说明音频数据输出正常。
上述RBF神经网络属于三层前馈网络,包括输入层、输出层、隐含层,以xi(i=1,2,3,…,n)为输入矢量,n为输入层节点数,fi(i=1,2,3,…,m)为隐含层的函数,ωi(i=1,2,3,…,m)为隐含层到输出层的权值,m为隐含层的节点数,ym为网络的输出,即:
输入层和隐含层间由高斯函数构成,而输出层与隐含层则由线性函数构成,所述隐含层节点的作用函数对输入信号将在局部产生响应,即当输入信号靠近基函数的中心范围时,隐含层节点将产生较大的输出;
采用的高斯基函数为:
其中,f(x)为隐含层节点的作用函数,x为n维输入矢量;cj为第j基函数的中心,与x具有相同维数的矢量;带宽参数σj决定了第j个基函数围绕中心点的宽度;k是感知单元的个数,Cj由最小二乘法得到。
公式(2)中的带宽参数σi应用最小二乘法后,令每个类中心cj等于类中心与该类训练样本之间的平均距离,即:
其中Nj为第j个样本的个数,τ为转置;
权值的调整采用梯度下降法,其迭代公式为:
ω(t+1)=ω(t)+η(u-y)fτ(x) (4)
其中,η为学习速率,u为网络的期望输出,y为网络的输出,f(x)为隐层输出,τ为转置。
残差定义与正常状态下的距离MD为:
其中,k为数据的维数,R为与y和yout的方差-协方差、相关系数相关的矩阵,T为转置;
对计算的距离进行归一化处理,从而得到残差α,采用的残差归一化函数形式如下:
其中,c0基于正常数据对应的α设定值来确定,如下所示:
Mean(MDnormal)为正常状态下的MD的平均值,αpre是正常状态下对应的α设定值,
当α<设定的故障限时,音频数据与样本相近;当α>设定的故障限时,音频数据有差异。通过模糊神经网络进行深度学习和改进。
上述模糊神经网络估计器使用模糊神经网络,对输出不正常的音频数据进行深度学习并进行改进,所述步骤方法如下:
(5-1)、对被控对象音频数据建立模糊神经网络模型;
(5-2)、设置模糊神经网络结构,包括层数、节点数;
(5-3)、设置模糊神经网络的各个参数,并通过粒子群算法求得各参数最优初值;
(5-4)、将各参数最优初值赋值给模糊神经网络;
(5-5)、利用样本对模糊神经网络进行训练,得到与样本数据相同的音频数据。
上述步骤(5-2)中模糊神经网络结构包括前件网络和后件网络,所述前件网络将输入量映射到各模糊子集后经合成运算得到各规则适应度值,后件网络对各输入量线性加权后根据各规则适应度值计算出网络输出值;
所述前件网络为四层网络结构:
第一层:输入层;各输入变量x1,x2,…xn经过该层节点进入到网络下一层,是外部信息进入该网络的入口,该层节点数N1=2,分别为x1、x2,具体为:
式中,K1、K2为量化因子,c(t)和y(t)分别为数码乐器输出端音频数据的设定值和实测值;e(t)表示数码乐器输出端音频数据的设定值和实测值之差;
第二层:模糊化层;该层中的所有节点均表示一个模糊语言变量值,通过采用隶属度函数计算各输入量属于各模糊语言子集的程度,输入x1、x2分割为7个模糊子集{NB,NM,NS,ZO,PS,PM,PB},隶属度函数均采用高斯铃型函数,各输入变量的隶属度值计算公式为:
式中,cij为隶属度函数的中心;σij为隶属度函数的宽度,i=1,2,…,n;j=1,2,…,mi;n为输入变量个数,mi为输入变量xi的模糊分割数,该层节点数N2=m1+m2;
第三层:模糊规则适应度值计算层;该层节点表示模糊系统中的模糊规则,通过模糊算子计算出各规则适应度值,采用的模糊算子为连乘算子,表达式如下:
式中,j1=1,2,…,m1,j2=1,2,…,m2,…,jn=1,2,…,mn;i=1,2,…,m,该层节点中,越靠近输入值的模糊语言子集的隶属函数值就越大;反之,距离输入值越远的模糊语言子集的隶属度函数值就越小;隶属度函数值越小的节点对输出值的贡献就越小,而该层节点中仅有少数节点值较大,其余节点值很小对输出几乎无作用,也即是说它具有局部逼近特性,该层节点数N3=m;
第四层:归一化层;该层主要实现对上层各规则适应度值的归一化操作,故本层节点数与第三层节点数一致;
后件网络为三层网络结构:
第一层:输入层;它是外部输入变量与网络内部节点的接口;该层含有一个值为1的输入节点,为线性加权算子的常数项;
第二层:模糊规则推理层;该层与前件网络中第三层节点相同,所有节点组合成一个完整的模糊规则库,故由前可知节点数为m个;实现模糊规则推理计算,此处为对输入变量进行线性组合操作,即
第三层:输出层;该层节点根据规则适应度值计算网络输出;
步骤(5-5)中采用的样本训练方法的学习算法是是基于最小均方误差准则对网络权值、阈值进行有监督学习的一种算法,当一个含r个样本的训练样本集传入网络且计算出一组输出时,误差性能函数应为各输出单元误差的平方和:
式中,ti与yi分别表示控制器的期望输出与实际输出;
假设模糊神经网络中第q层第j个神经元,则该神经元的输入为:
式中j=1,2,…,m;i=1,2,…,n,β>0为学习速率;
将模糊神经网络在学习过程中,信号正向传播经过各层节点的输入输出关系表示成如下数学表达式:
第一层:
第二层:
式中,i=1,2,…,n;j=1,2,…,mi;
第三层:
第四层:
式中,j=1,2,…,m;
第五层:
最后根据一阶梯度下降法求得:
式中,i=1,2,…,n;j=1,2,…,mi;
式中,i=1,2,…,n;j=1,2,…,mi;β>0为学习速率。
学习算法中引入动量项来改善学习性能,加动量项后的参数调整公式为:
加入动量项后,若则Δw(k+1)=mcΔw(k)=mc[w(k)-w(k-1)],避免了学习停滞陷入局部最优及振荡的情况,但是当修正的参数导致其误差增长太大时,应暂停动量作用并取消该修正,故引入以下监督机制,引导动量项科学作用:
式中,E(k)为误差代价函数值;
引入动态调整学习速率机制:
将附加动量项法与动态调整学习速率法相结合,采用的学习算法的参数修正公式为:
cij(k+1)=cij(k)+(1-mc)Δcij(k+1)+mc(cij(k)-cij(k-1)) (39)
σij(k+1)=σij(k)+(1-mc)Δσij(k+1)+mc(σij(k)-σij(k-1)) (40)。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (5)
1.一种基于神经网络音频技术的智能数码乐器,其特征在于:所述智能数码乐器包括数码乐器本体以及设置在数码乐器本体的内的神经网络音频改进单元;
所述神经网络音频改进单元包括可编程的神经网络控制器、音频传感器、音源CPU、通信模块、转换模块;所述音频传感器用于采集音频数据,所述转换模块将采集的音频数据输入神经网络控制器,通过神经网络控制器改进后输出数据,再通过转换模块转化成目标音频数据,所述音源CPU通过通信模块与神经网络控制器连接;
所述神经网络控制器包括RBF神经网络估计器和模糊神经网络估计器,首先通过RBF神经网络估计器对输入音频数据进行诊断,然后通过模糊神经网络估计器进行深度学习。
2.根据权利要求1所述的一种基于神经网络音频技术的智能数码乐器,其特征在于:所述RBF神经网络估计器基于RBF神经网络,对数码乐器输出的音频数据进行诊断,步骤如下:
(3-1)、以由仿真模型得到的正常条件下的音频数据样本为输入,训练RBF神经网络,得到其相应的特征参数;
(3-2)、然后以音频传感器采集到的音频数据的实际参数为待测样本,使用迭代自适应逆滤波得到声门波信号;从声波信号中提取特征参数,并作为已训练好的RBF神经网络的输入,得到RBF神经网络的估计输出,进一步计算出估计输出和系统实际输出信号之间的残差;
(3-3)、若残差超过故障限,则说明音频数据与目标样本存在差异;反之,说明音频数据输出正常。
3.根据权利要求2所述的一种基于神经网络音频技术的智能数码乐器,其特征在于:所述RBF神经网络属于三层前馈网络,包括输入层、输出层、隐含层,以xi(i=1,2,3,…,n)为输入矢量,n为输入层节点数,fi(i=1,2,3,…,m)为隐含层的函数,ωi(i=1,2,3,…,m)为隐含层到输出层的权值,m为隐含层的节点数,ym为网络的输出,即:
输入层和隐含层间由高斯函数构成,而输出层与隐含层则由线性函数构成,所述隐含层节点的作用函数对输入信号将在局部产生响应,即当输入信号靠近基函数的中心范围时,隐含层节点将产生较大的输出;
采用的高斯基函数为:
其中,f(x)为隐含层节点的作用函数,x为n维输入矢量;cj为第j基函数的中心,与x具有相同维数的矢量;带宽参数σj决定了第j个基函数围绕中心点的宽度;k是感知单元的个数,Cj由最小二乘法得到。
4.根据权利要求1所述的一种基于神经网络音频技术的智能数码乐器,其特征在于:所述模糊神经网络估计器使用模糊神经网络,对输出不正常的音频数据进行深度学习并进行改进,步骤方法如下:
(5-1)、对被控对象音频数据建立模糊神经网络模型;
(5-2)、设置模糊神经网络结构,包括层数、节点数;
(5-3)、设置模糊神经网络的各个参数,并通过粒子群算法求得各参数最优初值;
(5-4)、将各参数最优初值赋值给模糊神经网络;
(5-5)、利用样本对模糊神经网络进行训练,得到与样本数据相同的音频数据。
5.根据权利要求4所述的一种基于神经网络音频技术的智能数码乐器,其特征在于:所述步骤(5-2)中模糊神经网络结构包括前件网络和后件网络,所述前件网络将输入量映射到各模糊子集后经合成运算得到各规则适应度值,后件网络对各输入量线性加权后根据各规则适应度值计算出网络输出值;
所述前件网络为四层网络结构:
第一层:输入层;各输入变量x1,x2,…xn经过该层节点进入到网络下一层,是外部信息进入该网络的入口,该层节点数N1=2,分别为x1、x2,具体为:
式中,K1、K2为量化因子,c(t)和y(t)分别为数码乐器输出端音频数据的设定值和实测值;e(t)表示数码乐器输出端音频数据的设定值和实测值之差;
第二层:模糊化层;该层中的所有节点均表示一个模糊语言变量值,通过采用隶属度函数计算各输入量属于各模糊语言子集的程度,输入x1、x2分割为7个模糊子集{NB,NM,NS,ZO,PS,PM,PB},隶属度函数均采用高斯铃型函数,各输入变量的隶属度值计算公式为:
式中,cij为隶属度函数的中心;σij为隶属度函数的宽度,i=1,2,…,n;j=1,2,…,mi;n为输入变量个数,mi为输入变量xi的模糊分割数,该层节点数N2=m1+m2;
第三层:模糊规则适应度值计算层;该层节点表示模糊系统中的模糊规则,通过模糊算子计算出各规则适应度值,采用的模糊算子为连乘算子,表达式如下:
式中,j1=1,2,…,m1,j2=1,2,…,m2,…,jn=1,2,…,mn;i=1,2,…,m,该层节点中,越靠近输入值的模糊语言子集的隶属函数值就越大;反之,距离输入值越远的模糊语言子集的隶属度函数值就越小;隶属度函数值越小的节点对输出值的贡献就越小,而该层节点中仅有少数节点值较大,其余节点值很小对输出几乎无作用,也即是说它具有局部逼近特性,该层节点数N3=m;
第四层:归一化层;该层主要实现对上层各规则适应度值的归一化操作,故本层节点数与第三层节点数一致;
后件网络为三层网络结构:
第一层:输入层;它是外部输入变量与网络内部节点的接口;该层含有一个值为1的输入节点,为线性加权算子的常数项;
第二层:模糊规则推理层;该层与前件网络中第三层节点相同,所有节点组合成一个完整的模糊规则库,故由前可知节点数为m个;实现模糊规则推理计算,此处为对输入变量进行线性组合操作,即
第三层:输出层;该层节点根据规则适应度值计算网络输出;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810148863.1A CN108538301B (zh) | 2018-02-13 | 2018-02-13 | 一种基于神经网络音频技术的智能数码乐器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810148863.1A CN108538301B (zh) | 2018-02-13 | 2018-02-13 | 一种基于神经网络音频技术的智能数码乐器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108538301A CN108538301A (zh) | 2018-09-14 |
CN108538301B true CN108538301B (zh) | 2021-05-07 |
Family
ID=63486105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810148863.1A Active CN108538301B (zh) | 2018-02-13 | 2018-02-13 | 一种基于神经网络音频技术的智能数码乐器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108538301B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111048110A (zh) * | 2018-10-15 | 2020-04-21 | 杭州网易云音乐科技有限公司 | 乐器识别方法、介质、装置和计算设备 |
CN109840501B (zh) * | 2019-01-31 | 2021-06-01 | 深圳市商汤科技有限公司 | 一种图像处理方法及装置、电子设备、存储介质 |
CN112435683B (zh) * | 2020-07-30 | 2023-12-01 | 珠海市杰理科技股份有限公司 | 基于t-s模糊神经网络的自适应噪声估计及语音降噪方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1389850A (zh) * | 2001-06-05 | 2003-01-08 | 牛传峰 | 利用计算机实现用电子键盘弹奏出真实乐器声音的方法 |
CN1720517A (zh) * | 2002-11-28 | 2006-01-11 | 新加坡科技研究局 | 数字声音数据的摘要制作 |
CN101652807A (zh) * | 2007-02-01 | 2010-02-17 | 缪斯亚米有限公司 | 音乐转录 |
JP4799333B2 (ja) * | 2006-09-14 | 2011-10-26 | シャープ株式会社 | 楽曲分類方法、楽曲分類装置及びコンピュータプログラム |
US9099066B2 (en) * | 2013-03-14 | 2015-08-04 | Stephen Welch | Musical instrument pickup signal processor |
CN106528035A (zh) * | 2015-09-09 | 2017-03-22 | 三星电子株式会社 | 控制声音的设备和方法及训练类型识别模型的设备和方法 |
CN107045867A (zh) * | 2017-03-22 | 2017-08-15 | 科大讯飞股份有限公司 | 自动作曲方法、装置和终端设备 |
CN107644630A (zh) * | 2017-09-28 | 2018-01-30 | 清华大学 | 基于神经网络的旋律生成方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9715870B2 (en) * | 2015-10-12 | 2017-07-25 | International Business Machines Corporation | Cognitive music engine using unsupervised learning |
-
2018
- 2018-02-13 CN CN201810148863.1A patent/CN108538301B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1389850A (zh) * | 2001-06-05 | 2003-01-08 | 牛传峰 | 利用计算机实现用电子键盘弹奏出真实乐器声音的方法 |
CN1720517A (zh) * | 2002-11-28 | 2006-01-11 | 新加坡科技研究局 | 数字声音数据的摘要制作 |
JP4799333B2 (ja) * | 2006-09-14 | 2011-10-26 | シャープ株式会社 | 楽曲分類方法、楽曲分類装置及びコンピュータプログラム |
CN101652807A (zh) * | 2007-02-01 | 2010-02-17 | 缪斯亚米有限公司 | 音乐转录 |
US9099066B2 (en) * | 2013-03-14 | 2015-08-04 | Stephen Welch | Musical instrument pickup signal processor |
CN106528035A (zh) * | 2015-09-09 | 2017-03-22 | 三星电子株式会社 | 控制声音的设备和方法及训练类型识别模型的设备和方法 |
CN107045867A (zh) * | 2017-03-22 | 2017-08-15 | 科大讯飞股份有限公司 | 自动作曲方法、装置和终端设备 |
CN107644630A (zh) * | 2017-09-28 | 2018-01-30 | 清华大学 | 基于神经网络的旋律生成方法及装置 |
Non-Patent Citations (2)
Title |
---|
A multi-channel recurrent network for synthesizing struck coupled-string musical instruments;Wei-Chen Chang;《Proceedings of the 12th IEEE Workshop on Neural Networks for Signal Processing》;20021107;677-686 * |
计算机音乐制作中电子合成音色的应用探析;戴姗珊;《通俗歌曲》;20170630;33 * |
Also Published As
Publication number | Publication date |
---|---|
CN108538301A (zh) | 2018-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110428082B (zh) | 基于注意力神经网络的水质预测方法 | |
CN105206270B (zh) | 一种组合pca和rbm的孤立数字语音识别分类系统及方法 | |
CN108538301B (zh) | 一种基于神经网络音频技术的智能数码乐器 | |
CN112364779A (zh) | 信号处理与深-浅网络多模型融合的水声目标识别方法 | |
CN106022954B (zh) | 基于灰色关联度的多重bp神经网络负荷预测方法 | |
CN107301864A (zh) | 一种基于Maxout神经元的深度双向LSTM声学模型 | |
Kan et al. | Simple reservoir computing capitalizing on the nonlinear response of materials: theory and physical implementations | |
CN111539132B (zh) | 一种基于卷积神经网络的动载荷时域识别方法 | |
CN111144552B (zh) | 一种粮食品质多指标预测方法及装置 | |
CN108710974A (zh) | 一种基于深度置信网络的水体氨氮预测方法及装置 | |
CN112149355B (zh) | 基于半监督动态反馈堆栈降噪自编码器模型的软测量方法 | |
CN112365885B (zh) | 唤醒模型的训练方法、装置和计算机设备 | |
CN111046961B (zh) | 基于双向长短时记忆单元和胶囊网络的故障分类方法 | |
CN112362756A (zh) | 一种基于深度学习的混凝土结构损伤监测方法及系统 | |
CN114186672A (zh) | 一种用于脉冲神经网络的高效高精度训练算法 | |
KR100306848B1 (ko) | 신경회로망을 이용한 선택적 주의집중 방법 | |
CN112161815A (zh) | 一种车辆路噪主观评价值预测方法 | |
Tian et al. | Joint learning model for underwater acoustic target recognition | |
CN115169218A (zh) | 基于深度置信网络的齿轮振动噪声预估方法 | |
RU151549U1 (ru) | Искусственная нейронная сеть | |
CN105426962A (zh) | 一种不完全递归支集动态神经网络构建及训练方法 | |
CN117034060A (zh) | 基于ae-rcnn的洪水分级智能预报方法 | |
CN114384427B (zh) | 基于量子神经网络的锂离子电池容量非线性退化预测方法 | |
CN113887570B (zh) | 一种基于神经网络的太阳耀斑二分类预测方法 | |
CN113033695B (zh) | 一种电子器件故障的预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |