CN108538301B - 一种基于神经网络音频技术的智能数码乐器 - Google Patents

一种基于神经网络音频技术的智能数码乐器 Download PDF

Info

Publication number
CN108538301B
CN108538301B CN201810148863.1A CN201810148863A CN108538301B CN 108538301 B CN108538301 B CN 108538301B CN 201810148863 A CN201810148863 A CN 201810148863A CN 108538301 B CN108538301 B CN 108538301B
Authority
CN
China
Prior art keywords
layer
neural network
fuzzy
input
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810148863.1A
Other languages
English (en)
Other versions
CN108538301A (zh
Inventor
赵平
范廷国
呼晓鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ringway Tech Jiangsu Co ltd
Original Assignee
Ringway Tech Jiangsu Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ringway Tech Jiangsu Co ltd filed Critical Ringway Tech Jiangsu Co ltd
Priority to CN201810148863.1A priority Critical patent/CN108538301B/zh
Publication of CN108538301A publication Critical patent/CN108538301A/zh
Application granted granted Critical
Publication of CN108538301B publication Critical patent/CN108538301B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0091Means for obtaining special acoustic effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Feedback Control In General (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本发明公开了一种基于神经网络音频技术的智能数码乐器,智能数码乐器包括数码乐器本体以及设置在数码乐器本体的内的神经网络音频改进单元;神经网络音频改进单元包括可编程的神经网络控制器、音频传感器、音源CPU、通信模块、转换模块;音频传感器用于采集音频数据,转换模块将采集的音频数据输入神经网络控制器,通过神经网络控制器改进后输出数据,再通过转换模块转化成目标音频数据,音源CPU通过通信模块与神经网络控制器连接。本发明通过两种神经网络的互补,形成了诊断以及深度学习的,使得数码乐器的发出的声音更加接近于人类或者乐器发出的声音。

Description

一种基于神经网络音频技术的智能数码乐器
技术领域
本发明涉及一种基于神经网络音频技术的智能数码乐器,属于数码乐器技术领域。
背景技术
人们一直在尝试着用神经网络对一系列音乐元素进行建模,例如和弦、音高等等。人们在1943年开始用神经网络解决语音识别的问题。但是在那个年代,没有足够的计算能力来得到较好的结果,所以神经网络的方法在那个时候并不流行。而现在,由于GPU计算资源和可获得的大数据,结果可以变得相当好,于是使用像神经网络来进行来实现音乐风格的神经转换越来越得到认可。
现有技术中存在使用神经网络对音频数据进行训练,使得更加接近于人类和乐器的声音,但是往往由于计算量的关系,造成神经网络使用的局限性。
发明内容
本发明提供了一种基于神经网络音频技术的智能数码乐器,通过两种神经网络的互补,先通过诊断,然后再进行深度学习的方法使得数码乐器输出的音频数据更加接近于现实中的音频。
本发明的技术方案如下:
一种基于神经网络音频技术的智能数码乐器,所述智能数码乐器包括数码乐器本体以及设置在数码乐器本体的内的神经网络音频改进单元;
所述神经网络音频改进单元包括可编程的神经网络控制器、音频传感器、音源CPU、通信模块、转换模块;所述音频传感器用于采集音频数据,所述转换模块将采集的音频数据输入神经网络控制器,通过神经网络控制器改进后输出数据,再通过转换模块转化成目标音频数据,所述音源CPU通过通信模块与神经网络控制器连接。
上述神经网络控制器包括RBF神经网络估计器和模糊神经网络估计器,首先通过RBF神经网络估计器对输入音频数据进行诊断,然后通过模糊神经网络估计器进行深度学习。
上述RBF神经网络估计器基于RBF神经网络,对数码乐器输出的音频数据进行诊断,所述步骤如下:
(3-1)、以由仿真模型得到的正常条件下的音频数据样本为输入,训练RBF神经网络,得到其相应的特征参数;
(3-2)、然后以音频传感器采集到的音频数据的实际参数为待测样本,使用迭代自适应逆滤波得到声波信号;从声门波信号中提取特征参数,并作为已训练好的RBF神经网络的输入,得到RBF神经网络的估计输出,进一步计算出估计输出和系统实际输出信号之间的残差,
(3-3)、若残差超过故障限,则说明音频数据与目标样本存在差异;反之,说明音频数据输出正常。
上述RBF神经网络属于三层前馈网络,包括输入层、输出层、隐含层,以xi(i=1,2,3,…,n)为输入矢量,n为输入层节点数,fi(i=1,2,3,…,m)为隐含层的函数,ωi(i=1,2,3,…,m)为隐含层到输出层的权值,m为隐含层的节点数,ym为网络的输出,即:
Figure GDA0002972189570000021
输入层和隐含层间由高斯函数构成,而输出层与隐含层则由线性函数构成,所述隐含层节点的作用函数对输入信号将在局部产生响应,即当输入信号靠近基函数的中心范围时,隐含层节点将产生较大的输出;
采用的高斯基函数为:
Figure GDA0002972189570000022
其中,f(x)为隐含层节点的作用函数,x为n维输入矢量;cj为第j基函数的中心,与x具有相同维数的矢量;带宽参数σj决定了第j个基函数围绕中心点的宽度;k是感知单元的个数,Cj由最小二乘法得到。
上述模糊神经网络估计器使用模糊神经网络,对输出不正常的音频数据进行深度学习并进行改进,所述步骤方法如下:
(5-1)、对被控对象音频数据建立模糊神经网络模型;
(5-2)、设置模糊神经网络结构,包括层数、节点数;
(5-3)、设置模糊神经网络的各个参数,并通过粒子群算法求得各参数最优初值;
(5-4)、将各参数最优初值赋值给模糊神经网络;
(5-5)、利用样本对模糊神经网络进行训练,得到与样本数据相同的音频数据。
上述步骤(5-2)中模糊神经网络结构包括前件网络和后件网络,所述前件网络将输入量映射到各模糊子集后经合成运算得到各规则适应度值,后件网络对各输入量线性加权后根据各规则适应度值计算出网络输出值;
所述前件网络为四层网络结构:
第一层:输入层;各输入变量x1,x2,…xn经过该层节点进入到网络下一层,是外部信息进入该网络的入口,该层节点数N1=2,分别为x1、x2,具体为:
Figure GDA0002972189570000031
式中,K1、K2为量化因子,c(t)和y(t)分别为数码乐器输出端音频数据的设定值和实测值;e(t)表示数码乐器输出端音频数据的设定值和实测值之差;
第二层:模糊化层;该层中的所有节点均表示一个模糊语言变量值,通过采用隶属度函数计算各输入量属于各模糊语言子集的程度,输入x1、x2分割为7个模糊子集{NB,NM,NS,ZO,PS,PM,PB},隶属度函数均采用高斯铃型函数,各输入变量的隶属度值计算公式为:
Figure GDA0002972189570000032
式中,cij为隶属度函数的中心;σij为隶属度函数的宽度,i=1,2,…,n;j=1,2,…,mi;n为输入变量个数,mi为输入变量xi的模糊分割数;
第三层:模糊规则适应度值计算层;该层节点表示模糊系统中的模糊规则,通过模糊算子计算出各规则适应度值,采用的模糊算子为连乘算子,表达式如下:
Figure GDA0002972189570000041
式中,j1=1,2,…,m1,j2=1,2,…,m2,…,jn=1,2,…,mn;i=1,2,…,m,
Figure GDA0002972189570000042
该层节点中,越靠近输入值的模糊语言子集的隶属函数值就越大;反之,距离输入值越远的模糊语言子集的隶属度函数值就越小;隶属度函数值越小的节点对输出值的贡献就越小,而该层节点中仅有少数节点值较大,其余节点值很小对输出几乎无作用,也即是说它具有局部逼近特性,该层节点数N3=m;
第四层:归一化层;该层主要实现对上层各规则适应度值的归一化操作,故本层节点数与第三层节点数一致;
Figure GDA0002972189570000043
后件网络为三层网络结构:
第一层:输入层;它是外部输入变量与网络内部节点的接口;该层含有一个值为1的输入节点,为线性加权算子的常数项;
第二层:模糊规则推理层;该层与前件网络中第三层节点相同,所有节点组合成一个完整的模糊规则库,故由前可知节点数为m个;实现模糊规则推理计算,此处为对输入变量进行线性组合操作,即
Figure GDA0002972189570000044
第三层:输出层;该层节点根据规则适应度值计算网络输出;
Figure GDA0002972189570000051
本发明所达到的有益效果:本发明通过两种神经网络的互补,形成了诊断以及深度学习的,使得数码乐器的发出的声音更加接近于人类或者乐器发出的声音。
附图说明
图1是本发明的结构示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,一种基于神经网络音频技术的智能数码乐器,所述智能数码乐器包括数码乐器本体以及设置在数码乐器本体的内的神经网络音频改进单元;
所述神经网络音频改进单元包括可编程的神经网络控制器、音频传感器、音源CPU、通信模块、转换模块;所述音频传感器用于采集音频数据,所述转换模块将采集的音频数据输入神经网络控制器,通过神经网络控制器改进后输出数据,再通过转换模块转化成目标音频数据,所述音源CPU通过通信模块与神经网络控制器连接。
上述神经网络控制器包括RBF神经网络估计器和模糊神经网络估计器,首先通过RBF神经网络估计器对输入音频数据进行诊断,然后通过模糊神经网络估计器进行深度学习。
上述RBF神经网络估计器基于RBF神经网络,对数码乐器输出的音频数据进行诊断,所述步骤如下:
(3-1)、以由仿真模型得到的正常条件下的音频数据样本为输入,训练RBF神经网络,得到其相应的特征参数;
(3-2)、然后以音频传感器采集到的音频数据的实际参数为待测样本,,使用迭代自适应逆滤波得到声波信号;包括从声波信号中提取特征参数,特征参数包括信噪比、失真度、频响范围等,并作为已训练好的RBF神经网络的输入,得到RBF神经网络的估计输出,进一步计算出估计输出和系统实际输出信号之间的残差,
(3-3)、若残差超过故障限,则说明音频数据与目标样本存在差异;反之,说明音频数据输出正常。
上述RBF神经网络属于三层前馈网络,包括输入层、输出层、隐含层,以xi(i=1,2,3,…,n)为输入矢量,n为输入层节点数,fi(i=1,2,3,…,m)为隐含层的函数,ωi(i=1,2,3,…,m)为隐含层到输出层的权值,m为隐含层的节点数,ym为网络的输出,即:
Figure GDA0002972189570000061
输入层和隐含层间由高斯函数构成,而输出层与隐含层则由线性函数构成,所述隐含层节点的作用函数对输入信号将在局部产生响应,即当输入信号靠近基函数的中心范围时,隐含层节点将产生较大的输出;
采用的高斯基函数为:
Figure GDA0002972189570000062
其中,f(x)为隐含层节点的作用函数,x为n维输入矢量;cj为第j基函数的中心,与x具有相同维数的矢量;带宽参数σj决定了第j个基函数围绕中心点的宽度;k是感知单元的个数,Cj由最小二乘法得到。
公式(2)中的带宽参数σi应用最小二乘法后,令每个类中心cj等于类中心与该类训练样本之间的平均距离,即:
Figure GDA0002972189570000063
其中Nj为第j个样本的个数,τ为转置;
权值的调整采用梯度下降法,其迭代公式为:
ω(t+1)=ω(t)+η(u-y)fτ(x) (4)
其中,η为学习速率,u为网络的期望输出,y为网络的输出,f(x)为隐层输出,τ为转置。
残差定义与正常状态下的距离MD为:
Figure GDA0002972189570000071
其中,k为数据的维数,R为与y和yout的方差-协方差、相关系数相关的矩阵,T为转置;
对计算的距离进行归一化处理,从而得到残差α,采用的残差归一化函数形式如下:
Figure GDA0002972189570000072
其中,c0基于正常数据对应的α设定值来确定,如下所示:
Figure GDA0002972189570000073
Mean(MDnormal)为正常状态下的MD的平均值,αpre是正常状态下对应的α设定值,
当α<设定的故障限时,音频数据与样本相近;当α>设定的故障限时,音频数据有差异。通过模糊神经网络进行深度学习和改进。
上述模糊神经网络估计器使用模糊神经网络,对输出不正常的音频数据进行深度学习并进行改进,所述步骤方法如下:
(5-1)、对被控对象音频数据建立模糊神经网络模型;
(5-2)、设置模糊神经网络结构,包括层数、节点数;
(5-3)、设置模糊神经网络的各个参数,并通过粒子群算法求得各参数最优初值;
(5-4)、将各参数最优初值赋值给模糊神经网络;
(5-5)、利用样本对模糊神经网络进行训练,得到与样本数据相同的音频数据。
上述步骤(5-2)中模糊神经网络结构包括前件网络和后件网络,所述前件网络将输入量映射到各模糊子集后经合成运算得到各规则适应度值,后件网络对各输入量线性加权后根据各规则适应度值计算出网络输出值;
所述前件网络为四层网络结构:
第一层:输入层;各输入变量x1,x2,…xn经过该层节点进入到网络下一层,是外部信息进入该网络的入口,该层节点数N1=2,分别为x1、x2,具体为:
Figure GDA0002972189570000081
式中,K1、K2为量化因子,c(t)和y(t)分别为数码乐器输出端音频数据的设定值和实测值;e(t)表示数码乐器输出端音频数据的设定值和实测值之差;
第二层:模糊化层;该层中的所有节点均表示一个模糊语言变量值,通过采用隶属度函数计算各输入量属于各模糊语言子集的程度,输入x1、x2分割为7个模糊子集{NB,NM,NS,ZO,PS,PM,PB},隶属度函数均采用高斯铃型函数,各输入变量的隶属度值计算公式为:
Figure GDA0002972189570000082
式中,cij为隶属度函数的中心;σij为隶属度函数的宽度,i=1,2,…,n;j=1,2,…,mi;n为输入变量个数,mi为输入变量xi的模糊分割数,该层节点数N2=m1+m2
第三层:模糊规则适应度值计算层;该层节点表示模糊系统中的模糊规则,通过模糊算子计算出各规则适应度值,采用的模糊算子为连乘算子,表达式如下:
Figure GDA0002972189570000091
式中,j1=1,2,…,m1,j2=1,2,…,m2,…,jn=1,2,…,mn;i=1,2,…,m,
Figure GDA0002972189570000092
该层节点中,越靠近输入值的模糊语言子集的隶属函数值就越大;反之,距离输入值越远的模糊语言子集的隶属度函数值就越小;隶属度函数值越小的节点对输出值的贡献就越小,而该层节点中仅有少数节点值较大,其余节点值很小对输出几乎无作用,也即是说它具有局部逼近特性,该层节点数N3=m;
第四层:归一化层;该层主要实现对上层各规则适应度值的归一化操作,故本层节点数与第三层节点数一致;
Figure GDA0002972189570000093
后件网络为三层网络结构:
第一层:输入层;它是外部输入变量与网络内部节点的接口;该层含有一个值为1的输入节点,为线性加权算子的常数项;
第二层:模糊规则推理层;该层与前件网络中第三层节点相同,所有节点组合成一个完整的模糊规则库,故由前可知节点数为m个;实现模糊规则推理计算,此处为对输入变量进行线性组合操作,即
Figure GDA0002972189570000094
第三层:输出层;该层节点根据规则适应度值计算网络输出;
Figure GDA0002972189570000095
步骤(5-5)中采用的样本训练方法的学习算法是是基于最小均方误差准则对网络权值、阈值进行有监督学习的一种算法,当一个含r个样本的训练样本集传入网络且计算出一组输出时,误差性能函数应为各输出单元误差的平方和:
Figure GDA0002972189570000101
式中,ti与yi分别表示控制器的期望输出与实际输出;
假设模糊神经网络中第q层第j个神经元,则该神经元的输入为:
Figure GDA0002972189570000102
该神经元的输出为
Figure GDA0002972189570000103
为了对
Figure GDA0002972189570000104
Figure GDA0002972189570000105
的推导,先根据误差反向传播算法计算出
Figure GDA0002972189570000106
Figure GDA0002972189570000107
Figure GDA0002972189570000108
式中j=1,2,…,m;i=1,2,…,n,β>0为学习速率;
将模糊神经网络在学习过程中,信号正向传播经过各层节点的输入输出关系表示成如下数学表达式:
第一层:
Figure GDA0002972189570000109
第二层:
Figure GDA00029721895700001010
Figure GDA00029721895700001011
式中,i=1,2,…,n;j=1,2,…,mi
第三层:
Figure GDA0002972189570000111
Figure GDA0002972189570000112
式中,j=1,2,…,m;
Figure GDA0002972189570000113
第四层:
Figure GDA0002972189570000114
Figure GDA0002972189570000115
式中,j=1,2,…,m;
第五层:
Figure GDA0002972189570000116
Figure GDA0002972189570000117
由误差反向传播特性可知,首先利用误差反向传播算法计算出
Figure GDA0002972189570000118
Figure GDA0002972189570000119
然后通过一阶梯度下降算法来调整cij和σij
Figure GDA00029721895700001110
Figure GDA00029721895700001111
Figure GDA00029721895700001112
Figure GDA0002972189570000121
Figure GDA0002972189570000122
是第三层中第k个规则节点的一个输入时:
Figure GDA0002972189570000123
最后根据一阶梯度下降法求得:
Figure GDA0002972189570000124
Figure GDA0002972189570000125
Figure GDA0002972189570000126
式中,i=1,2,…,n;j=1,2,…,mi
Figure GDA0002972189570000127
式中,i=1,2,…,n;j=1,2,…,mi;β>0为学习速率。
学习算法中引入动量项来改善学习性能,加动量项后的参数调整公式为:
Figure GDA0002972189570000128
加入动量项后,若
Figure GDA0002972189570000129
则Δw(k+1)=mcΔw(k)=mc[w(k)-w(k-1)],避免了学习停滞陷入局部最优及振荡的情况,但是当修正的参数导致其误差增长太大时,应暂停动量作用并取消该修正,故引入以下监督机制,引导动量项科学作用:
Figure GDA00029721895700001210
式中,E(k)为误差代价函数值;
引入动态调整学习速率机制:
Figure GDA0002972189570000131
将附加动量项法与动态调整学习速率法相结合,采用的学习算法的参数修正公式为:
Figure GDA0002972189570000132
cij(k+1)=cij(k)+(1-mc)Δcij(k+1)+mc(cij(k)-cij(k-1)) (39)
σij(k+1)=σij(k)+(1-mc)Δσij(k+1)+mcij(k)-σij(k-1)) (40)。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (5)

1.一种基于神经网络音频技术的智能数码乐器,其特征在于:所述智能数码乐器包括数码乐器本体以及设置在数码乐器本体的内的神经网络音频改进单元;
所述神经网络音频改进单元包括可编程的神经网络控制器、音频传感器、音源CPU、通信模块、转换模块;所述音频传感器用于采集音频数据,所述转换模块将采集的音频数据输入神经网络控制器,通过神经网络控制器改进后输出数据,再通过转换模块转化成目标音频数据,所述音源CPU通过通信模块与神经网络控制器连接;
所述神经网络控制器包括RBF神经网络估计器和模糊神经网络估计器,首先通过RBF神经网络估计器对输入音频数据进行诊断,然后通过模糊神经网络估计器进行深度学习。
2.根据权利要求1所述的一种基于神经网络音频技术的智能数码乐器,其特征在于:所述RBF神经网络估计器基于RBF神经网络,对数码乐器输出的音频数据进行诊断,步骤如下:
(3-1)、以由仿真模型得到的正常条件下的音频数据样本为输入,训练RBF神经网络,得到其相应的特征参数;
(3-2)、然后以音频传感器采集到的音频数据的实际参数为待测样本,使用迭代自适应逆滤波得到声门波信号;从声波信号中提取特征参数,并作为已训练好的RBF神经网络的输入,得到RBF神经网络的估计输出,进一步计算出估计输出和系统实际输出信号之间的残差;
(3-3)、若残差超过故障限,则说明音频数据与目标样本存在差异;反之,说明音频数据输出正常。
3.根据权利要求2所述的一种基于神经网络音频技术的智能数码乐器,其特征在于:所述RBF神经网络属于三层前馈网络,包括输入层、输出层、隐含层,以xi(i=1,2,3,…,n)为输入矢量,n为输入层节点数,fi(i=1,2,3,…,m)为隐含层的函数,ωi(i=1,2,3,…,m)为隐含层到输出层的权值,m为隐含层的节点数,ym为网络的输出,即:
Figure FDA0002972189560000021
输入层和隐含层间由高斯函数构成,而输出层与隐含层则由线性函数构成,所述隐含层节点的作用函数对输入信号将在局部产生响应,即当输入信号靠近基函数的中心范围时,隐含层节点将产生较大的输出;
采用的高斯基函数为:
Figure FDA0002972189560000022
其中,f(x)为隐含层节点的作用函数,x为n维输入矢量;cj为第j基函数的中心,与x具有相同维数的矢量;带宽参数σj决定了第j个基函数围绕中心点的宽度;k是感知单元的个数,Cj由最小二乘法得到。
4.根据权利要求1所述的一种基于神经网络音频技术的智能数码乐器,其特征在于:所述模糊神经网络估计器使用模糊神经网络,对输出不正常的音频数据进行深度学习并进行改进,步骤方法如下:
(5-1)、对被控对象音频数据建立模糊神经网络模型;
(5-2)、设置模糊神经网络结构,包括层数、节点数;
(5-3)、设置模糊神经网络的各个参数,并通过粒子群算法求得各参数最优初值;
(5-4)、将各参数最优初值赋值给模糊神经网络;
(5-5)、利用样本对模糊神经网络进行训练,得到与样本数据相同的音频数据。
5.根据权利要求4所述的一种基于神经网络音频技术的智能数码乐器,其特征在于:所述步骤(5-2)中模糊神经网络结构包括前件网络和后件网络,所述前件网络将输入量映射到各模糊子集后经合成运算得到各规则适应度值,后件网络对各输入量线性加权后根据各规则适应度值计算出网络输出值;
所述前件网络为四层网络结构:
第一层:输入层;各输入变量x1,x2,…xn经过该层节点进入到网络下一层,是外部信息进入该网络的入口,该层节点数N1=2,分别为x1、x2,具体为:
Figure FDA0002972189560000031
式中,K1、K2为量化因子,c(t)和y(t)分别为数码乐器输出端音频数据的设定值和实测值;e(t)表示数码乐器输出端音频数据的设定值和实测值之差;
第二层:模糊化层;该层中的所有节点均表示一个模糊语言变量值,通过采用隶属度函数计算各输入量属于各模糊语言子集的程度,输入x1、x2分割为7个模糊子集{NB,NM,NS,ZO,PS,PM,PB},隶属度函数均采用高斯铃型函数,各输入变量的隶属度值计算公式为:
Figure FDA0002972189560000032
式中,cij为隶属度函数的中心;σij为隶属度函数的宽度,i=1,2,…,n;j=1,2,…,mi;n为输入变量个数,mi为输入变量xi的模糊分割数,该层节点数N2=m1+m2
第三层:模糊规则适应度值计算层;该层节点表示模糊系统中的模糊规则,通过模糊算子计算出各规则适应度值,采用的模糊算子为连乘算子,表达式如下:
Figure FDA0002972189560000041
式中,j1=1,2,…,m1,j2=1,2,…,m2,…,jn=1,2,…,mn;i=1,2,…,m,
Figure FDA0002972189560000042
该层节点中,越靠近输入值的模糊语言子集的隶属函数值就越大;反之,距离输入值越远的模糊语言子集的隶属度函数值就越小;隶属度函数值越小的节点对输出值的贡献就越小,而该层节点中仅有少数节点值较大,其余节点值很小对输出几乎无作用,也即是说它具有局部逼近特性,该层节点数N3=m;
第四层:归一化层;该层主要实现对上层各规则适应度值的归一化操作,故本层节点数与第三层节点数一致;
Figure FDA0002972189560000043
后件网络为三层网络结构:
第一层:输入层;它是外部输入变量与网络内部节点的接口;该层含有一个值为1的输入节点,为线性加权算子的常数项;
第二层:模糊规则推理层;该层与前件网络中第三层节点相同,所有节点组合成一个完整的模糊规则库,故由前可知节点数为m个;实现模糊规则推理计算,此处为对输入变量进行线性组合操作,即
Figure FDA0002972189560000044
第三层:输出层;该层节点根据规则适应度值计算网络输出;
Figure FDA0002972189560000045
CN201810148863.1A 2018-02-13 2018-02-13 一种基于神经网络音频技术的智能数码乐器 Active CN108538301B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810148863.1A CN108538301B (zh) 2018-02-13 2018-02-13 一种基于神经网络音频技术的智能数码乐器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810148863.1A CN108538301B (zh) 2018-02-13 2018-02-13 一种基于神经网络音频技术的智能数码乐器

Publications (2)

Publication Number Publication Date
CN108538301A CN108538301A (zh) 2018-09-14
CN108538301B true CN108538301B (zh) 2021-05-07

Family

ID=63486105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810148863.1A Active CN108538301B (zh) 2018-02-13 2018-02-13 一种基于神经网络音频技术的智能数码乐器

Country Status (1)

Country Link
CN (1) CN108538301B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111048110A (zh) * 2018-10-15 2020-04-21 杭州网易云音乐科技有限公司 乐器识别方法、介质、装置和计算设备
CN109840501B (zh) * 2019-01-31 2021-06-01 深圳市商汤科技有限公司 一种图像处理方法及装置、电子设备、存储介质
CN112435683B (zh) * 2020-07-30 2023-12-01 珠海市杰理科技股份有限公司 基于t-s模糊神经网络的自适应噪声估计及语音降噪方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1389850A (zh) * 2001-06-05 2003-01-08 牛传峰 利用计算机实现用电子键盘弹奏出真实乐器声音的方法
CN1720517A (zh) * 2002-11-28 2006-01-11 新加坡科技研究局 数字声音数据的摘要制作
CN101652807A (zh) * 2007-02-01 2010-02-17 缪斯亚米有限公司 音乐转录
JP4799333B2 (ja) * 2006-09-14 2011-10-26 シャープ株式会社 楽曲分類方法、楽曲分類装置及びコンピュータプログラム
US9099066B2 (en) * 2013-03-14 2015-08-04 Stephen Welch Musical instrument pickup signal processor
CN106528035A (zh) * 2015-09-09 2017-03-22 三星电子株式会社 控制声音的设备和方法及训练类型识别模型的设备和方法
CN107045867A (zh) * 2017-03-22 2017-08-15 科大讯飞股份有限公司 自动作曲方法、装置和终端设备
CN107644630A (zh) * 2017-09-28 2018-01-30 清华大学 基于神经网络的旋律生成方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9715870B2 (en) * 2015-10-12 2017-07-25 International Business Machines Corporation Cognitive music engine using unsupervised learning

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1389850A (zh) * 2001-06-05 2003-01-08 牛传峰 利用计算机实现用电子键盘弹奏出真实乐器声音的方法
CN1720517A (zh) * 2002-11-28 2006-01-11 新加坡科技研究局 数字声音数据的摘要制作
JP4799333B2 (ja) * 2006-09-14 2011-10-26 シャープ株式会社 楽曲分類方法、楽曲分類装置及びコンピュータプログラム
CN101652807A (zh) * 2007-02-01 2010-02-17 缪斯亚米有限公司 音乐转录
US9099066B2 (en) * 2013-03-14 2015-08-04 Stephen Welch Musical instrument pickup signal processor
CN106528035A (zh) * 2015-09-09 2017-03-22 三星电子株式会社 控制声音的设备和方法及训练类型识别模型的设备和方法
CN107045867A (zh) * 2017-03-22 2017-08-15 科大讯飞股份有限公司 自动作曲方法、装置和终端设备
CN107644630A (zh) * 2017-09-28 2018-01-30 清华大学 基于神经网络的旋律生成方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A multi-channel recurrent network for synthesizing struck coupled-string musical instruments;Wei-Chen Chang;《Proceedings of the 12th IEEE Workshop on Neural Networks for Signal Processing》;20021107;677-686 *
计算机音乐制作中电子合成音色的应用探析;戴姗珊;《通俗歌曲》;20170630;33 *

Also Published As

Publication number Publication date
CN108538301A (zh) 2018-09-14

Similar Documents

Publication Publication Date Title
CN110428082B (zh) 基于注意力神经网络的水质预测方法
CN105206270B (zh) 一种组合pca和rbm的孤立数字语音识别分类系统及方法
CN108538301B (zh) 一种基于神经网络音频技术的智能数码乐器
CN112364779A (zh) 信号处理与深-浅网络多模型融合的水声目标识别方法
CN106022954B (zh) 基于灰色关联度的多重bp神经网络负荷预测方法
CN107301864A (zh) 一种基于Maxout神经元的深度双向LSTM声学模型
Kan et al. Simple reservoir computing capitalizing on the nonlinear response of materials: theory and physical implementations
CN111539132B (zh) 一种基于卷积神经网络的动载荷时域识别方法
CN111144552B (zh) 一种粮食品质多指标预测方法及装置
CN108710974A (zh) 一种基于深度置信网络的水体氨氮预测方法及装置
CN112149355B (zh) 基于半监督动态反馈堆栈降噪自编码器模型的软测量方法
CN112365885B (zh) 唤醒模型的训练方法、装置和计算机设备
CN111046961B (zh) 基于双向长短时记忆单元和胶囊网络的故障分类方法
CN112362756A (zh) 一种基于深度学习的混凝土结构损伤监测方法及系统
CN114186672A (zh) 一种用于脉冲神经网络的高效高精度训练算法
KR100306848B1 (ko) 신경회로망을 이용한 선택적 주의집중 방법
CN112161815A (zh) 一种车辆路噪主观评价值预测方法
Tian et al. Joint learning model for underwater acoustic target recognition
CN115169218A (zh) 基于深度置信网络的齿轮振动噪声预估方法
RU151549U1 (ru) Искусственная нейронная сеть
CN105426962A (zh) 一种不完全递归支集动态神经网络构建及训练方法
CN117034060A (zh) 基于ae-rcnn的洪水分级智能预报方法
CN114384427B (zh) 基于量子神经网络的锂离子电池容量非线性退化预测方法
CN113887570B (zh) 一种基于神经网络的太阳耀斑二分类预测方法
CN113033695B (zh) 一种电子器件故障的预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant