CN108229659A - 基于深度学习的钢琴单键音识别方法 - Google Patents
基于深度学习的钢琴单键音识别方法 Download PDFInfo
- Publication number
- CN108229659A CN108229659A CN201711472065.6A CN201711472065A CN108229659A CN 108229659 A CN108229659 A CN 108229659A CN 201711472065 A CN201711472065 A CN 201711472065A CN 108229659 A CN108229659 A CN 108229659A
- Authority
- CN
- China
- Prior art keywords
- singly
- piano
- bound
- group
- full articulamentum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000013135 deep learning Methods 0.000 title claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 14
- 230000005236 sound signal Effects 0.000 claims abstract description 13
- 238000003062 neural network model Methods 0.000 claims abstract description 8
- 230000009466 transformation Effects 0.000 claims abstract description 5
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 4
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 25
- 210000002569 neuron Anatomy 0.000 claims description 23
- 230000004913 activation Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 8
- 230000000644 propagated effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 210000005036 nerve Anatomy 0.000 claims description 2
- 238000012360 testing method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 229910000831 Steel Inorganic materials 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 239000010959 steel Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/141—Discrete Fourier transforms
- G06F17/142—Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computational Mathematics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Pure & Applied Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Discrete Mathematics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度学习的钢琴单键音识别方法,步骤1,对钢琴88个单键音信号进行采集,获得一组具有88个单键音信号的样本数据,共采集n+1组,对每组的每个数据进行类别标号,然后通过信号合成系统生成得到时域信号,将时域信号进行傅里叶变换成频域信号,再将频域信号进行正则化处理,得到1组实验样本和n组训练样本;步骤2,将n组训练样本的数据放进神经网络模型中进行训练;步骤3,将1组实验样本数据的参数传入到训练完成的神经网络中,神经网络对该组的每个数据的参数进行拟合,获取神经网络所判断出的该组的类别,将类别与其标记的类别标号进行一一比对,得到识别率。解决了现有技术中存在的靠人耳识别误差大的问题。
Description
技术领域
本发明属于声音处理方法技术领域,涉及一种基于深度学习的钢琴单键音识别方法。
背景技术
钢琴有着“音乐之王”的美称,由88个琴键和金属弦音板组成。钢琴音域范围从A2(27.5Hz)至c5(4186Hz),几乎囊括了音乐体系中的全部音乐。随着人民的生活水平不断提高,国内开始出现越来越多的家长注重孩子在音乐特别是钢琴方面发展,但是目前我国的钢琴教育行业却面临着种种困难,钢琴音的调整校准主要还是靠人耳识别,存在着较大的误差,调音师从业人员数量稀少,调音师每次调音的费用每次高达600-900元不等,这些问题都在各种不同程度上影响着我国钢琴教育行业的持续发展。
发明内容
本发明的目的是提供一种基于深度学习的钢琴单键音识别方法,解决了现有技术中存在的靠人耳识别误差大的问题。
本发明所采用的技术方案是,基于深度学习的钢琴单键音识别方法,具体按照以下步骤实施:
步骤1,通过信号采集系统对钢琴88个单键音信号进行采集,获得一组具有88个单键音信号的样本数据,样本为2050维,共采集n+1组,对每组的每个数据进行类别标号,然后将每组88个单键音信号通过信号合成系统生成得到时域信号,将时域信号进行傅里叶变换成频域信号,再将获得的频域信号的数据进行正则化处理,保留频域信号的形状,得到经正则化处理的频域信号;
步骤2,将经步骤1处理的前n组数据放进神经网络模型中进行训练,该神经网络模型包括依次级联的输入层、第一全连接层、第一Dropout层、第二全连接层、第二Dropout层和输出层。
步骤3,将步骤1中经处理的最后一组频域信号数据的参数传入到经步骤2训练完成的神经网络中,神经网络对该组的每个数据的参数进行拟合,在输出层获取神经网络所判断出的最后一组的类别,将最后一组的类别与其标记的类别标号进行一一比对,得到识别率m为所对比的正确数量,M为该组样本总数。
本发明的特征还在于,
步骤2具体为:
步骤2.1,将经处理完成的前n组频域信号,共2050维传入输入层进行加权求和操作,然后输入第一全连接层;
步骤2.1,在第一全连接层进行tanh激活操作,然后进入第一Dropout层;
步骤2.3,在第一Dropout层进行防过拟合处理,然后进入第二全连接层;
步骤2.4,在第二全连接层进行relu激活操作,然后进入第二Dropout层;
步骤2.5,在第二Dropout层进行防过拟合处理,然后进入输出层;
步骤2.6,在输出层进行softmax分类,共分为88类。
在进行softmax分类后,该神经网络会根据损失函数计算出相应的训练集的误差,通过梯度下降的方法反向传播误差,从而更新权重与阈值,使整个神经网络的准确率更高。
损失函数为:categorical_crossentropy,即交叉熵损失函数,其交叉熵损失函数标准形式为:L(Y,P(Y|X))=-logP(Y|X),损失函数是每个钢琴单键音频域信号数据的损失,L(Y,P(Y|X))是指分类为Y的情况下,使P(Y|X)达到最大,Y代表钢琴单键音结果为正确的分类结果,P(Y|X)则是代表正确分类的概率,那么对于对数取反就会使P(Y|X)越大,损失函数就越小。
relu激活采用的激活函数为f(x)=max(x,0);tanh激活采用的激活函数为softmax分类采用的分类函数为其中j=1,2,...,K,分类函数将神经网络处理过后的K维的钢琴单键音频域信号向量z压缩到另一个K维实向量σ(z)j,使得每一个元素的范围都在{0,1}之间,并且所有元素的和为1。
步骤2.1中加权求和操作的计算公式如下所示:其中Hj为第一全连接层的输入,ωij为输入层到第一全连接层的权重,ai为输入层到全连接层的偏置,Hj代表该层第j个神经元的输出,xi代表上一个神经元的输入,ωij表示上一层第i个神经元与该层第j个神经元之间连接的权重。
第一全连接层共6000个神经元。
第二全连接层共3000个神经元。
步骤2.3和步骤2.5中在第一Dropout层、第二Dropout层进行防过拟合处理的过程为:随机先择50%的神经元进行断开操作。
本发明的有益效果是,本发明首先通过对不同的单键音信号进行快速傅里叶变换等一系列处理,然后将处理好的数据放进神经网络中进行训练,在该神经网络模型中有效的解决了各种梯度消失以及过拟合现象的发生,从而保证了整个网络的高效快速准确的运行,所得出的实验结果更是达到了97.53%。
附图说明
图1是本发明基于深度学习的钢琴单键音识别方法的流程图;
图2是本发明在神经网络模型中进行训练的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于深度学习的钢琴单键音识别方法,如图1所示,具体按照以下步骤实施:
步骤1,通过信号采集系统对钢琴88个单键音信号进行采集,获得一组具有88个单键音信号的样本数据,样本为2050维,共采集n+1组,对每组的每个数据进行类别标号,然后将每组88个单键音信号通过信号合成系统生成得到时域信号,将时域信号进行傅里叶变换成频域信号,再将获得的频域信号的数据进行正则化处理,保留频域信号的形状,得到经正则化处理的频域信号;其中傅里叶变换的公式如下:公式中F(ω)为f(t)的像函数,f(t)为F(ω)的元像函数;时域信号转换成频域信号的过程中,将钢琴不同音域发出的复杂信号分解成简单的信号(正弦信号)的叠加,从而更加精准的还原钢琴音最根本的信号结构。在线性系统中采用线性叠加原理,将单一的频率的正弦波作为输出,获取输出信号,从而得到频率响应关系,对信号的频域分析的结果推到出任意复杂信号的输入时的输出;
步骤2,将经步骤1处理的前n组数据放进神经网络模型中进行训练,该神经网络模型包括依次级联的输入层、第一全连接层、第一Dropout层、第二全连接层、第二Dropout层和输出层。
步骤3,将步骤1中经处理的最后一组频域信号数据的参数传入到经步骤2训练完成的神经网络中,神经网络对该组的每个数据的参数进行拟合,在输出层获取神经网络所判断出的最后一组的类别,将最后一组的类别与其标记的类别标号进行一一比对,得到识别率m为所对比的正确数量,M为该组样本总数。
如图2所示,步骤2具体为:
步骤2.1,将经处理完成的前n组频域信号,共2050维传入输入层进行加权求和操作,权求和操作的计算公式如下所示:其中Hj为第一全连接层的输入,ωij为输入层到第一全连接层的权重,ai为输入层到全连接层的偏置Hj代表该层第j个神经元的输出,xi代表上一个神经元的输入,ωij表示上一层第i个神经元与该层第j个神经元之间连接的权重,n=2050,然后输入第一全连接层;
步骤2.1,在第一全连接层进行tanh激活操作,该层共6000个神经元,tanh激活采用的激活函数为则第一全连接层的激活操作为然后进入第一Dropout层;
步骤2.3,在第一Dropout层进行防过拟合处理,随机先择50%的神经元进行断开操作,然后进入第二全连接层;经过交叉验证,隐含节点dropout率等于0.5时的效果最好,因为0.5时Dropout随机生成的网络结构最多;
步骤2.4,在第二全连接层进行relu激活操作,该层共3000个神经元,relu激活采用的激活函数为f(x)=max(x,0),然后进入第二Dropout层;relu激活函数再反向传播过程中减轻了梯度弥散的问题,同时在神经网络中前几层的参数可以以更快的更新,在正向传播过程中relu只需要设置阈值,也加快了正确传播的计算速度;
步骤2.5,在第二Dropout层进行防过拟合处理,然后进入输出层;
步骤2.6,在输出层进行softmax分类,softmax分类采用的分类函数为共分为88类,其中j=1,2,...,K,分类函数将神经网络处理过后的K维的钢琴单键音频域信号向量z压缩到另一个K维实向量σ(z)j,使得每一个元素的范围都在{0,1}之间,并且所有元素的和为1。
在进行softmax分类后,该神经网络会根据损失函数计算出相应的训练集的误差,通过梯度下降的方法反向传播误差,从而更新权重与阈值,使整个神经网络的准确率更高,其中,损失函数为:categorical_crossentropy,即交叉熵损失函数,其交叉熵损失函数标准形式为:L(Y,P(Y|X))=-logP(Y|X),损失函数是每个钢琴单键音频域信号数据的损失,L(Y,P(Y|X))是指分类为Y的情况下,使P(Y|X)达到最大,我们这里使用最大概率的分类做预测,Y代表钢琴单键音结果为正确的分类结果,P(Y|X)则是代表正确分类的概率,那么对于对数取反就会使P(Y|X)越大,损失函数就越小。
本发明的整个神经网络模型采用的优化器为adam优化,adam优化为随机梯度下降算法的扩展式,它能基于训练数据迭代的更新神经网络权重,十分高效的实现了更快速的计算与更少的内存使用。
实施例
本实施例选择Python2.7和Keras以及Tensorflow作为实现平台,编程实现本发明方案的设计。实施过程是选取88个钢琴单键音时域信号作为实验对象。通过信号采集系统对钢琴88个单键音信号进行采集,获得一组具有88个单键音信号的样本数据,样本为2050维,共采集8组。其中前7组作为训练样本,最后1组作为测试样本。
具体操作步骤如下:
(1)将每组钢琴的88个单键音进行合成,并通过专业的信号采集系统(采集范围包含A2(27.5Hz)至c5(4186Hz))获取时域信号。
(2)通过快速傅里叶变换,将这些钢琴单键音从时域信号变为频域信号。从时域来看时域信号中,很多的信号是叠加在一起的,不好分离出需要的特征信号,然而从频域来看,会发现信号都是分开的,我们可以很容易从中将信号分离开来,这个信号的转换过程就需要快速傅里叶变换:
(3)神经网络的训练与测试:
a)将处理完成前7组训练样本的频域信号传入输入层进行加权求和操作,在第一全连接层的输出(共6000个神经元):
b)进入Dropout层进行防过拟合处理,随机先择50%的神经元进行断开操作;经过交叉验证,隐含节点dropout率等于0.5时的效果最好,因为0.5时Dropout随机生成的网络结构最多。
c)再次进入第二全连接层,该第二全连接层使用relu作为激活函数,该层共3000个神经元。
e)第二全连接层的输出数据再次进行b步操作,该层输出的数据为可以交由softmax分类器进行分类(共88类)。
f)以上为神经网络的正向传播具体操作,在由softmax分类器分类后,该网络会根据损失函数计算出相应的训练集的误差,通过梯度下降的方法反向传播误差,从而更新权重与阈值,从而使整个神经网络达到更高的准确率。
该过程为神经网络的训练过程,通过输出可视误差以及增加训练次数,整个神经网络最终会达到预期效果。
g)将最后1组测试样本数据的参数传入到训练完成的神经网络,神经网络对该组的每一个数据的参数进行拟合,最终在softmax分类层获取神经网络所判断出的该组类别,该组类别与提前进行标记的类别标号进行一一比对:m为所对比的正确数量,M为该组样本总数。识别率为97.53%,通过输出对比数据,可以看出,测试样本的预测输出和目标输出基本相同,虽然部分出现偏差,但总体上十分接近。
Claims (9)
1.基于深度学习的钢琴单键音识别方法,其特征在于,具体按照以下步骤实施:
步骤1,通过信号采集系统对钢琴88个单键音信号进行采集,获得一组具有88个单键音信号的样本数据,样本为2050维,共采集n+1组,对每组的每个数据进行类别标号,然后将每组88个单键音信号通过信号合成系统生成得到时域信号,将时域信号进行傅里叶变换成频域信号,再将获得的频域信号的数据进行正则化处理,保留频域信号的形状,得到经正则化处理的频域信号;
步骤2,将经步骤1处理的前n组数据放进神经网络模型中进行训练,该神经网络模型包括依次级联的输入层、第一全连接层、第一Dropout层、第二全连接层、第二Dropout层和输出层。
步骤3,将步骤1中经处理的最后一组频域信号数据的参数传入到经步骤2训练完成的神经网络中,神经网络对该组的每个数据的参数进行拟合,在输出层获取神经网络所判断出的最后一组的类别,将最后一组的类别与其标记的类别标号进行一一比对,得到识别率m为所对比的正确数量,M为该组样本总数。
2.根据权利要求1所述的基于深度学习的钢琴单键音识别方法,其特征在于,所述步骤2具体为:
步骤2.1,将经处理完成的前n组频域信号,共2050维传入输入层进行加权求和操作,然后输入第一全连接层;
步骤2.1,在第一全连接层进行tanh激活操作,然后进入第一Dropout层;
步骤2.3,在第一Dropout层进行防过拟合处理,然后进入第二全连接层;
步骤2.4,在第二全连接层进行relu激活操作,然后进入第二Dropout层;
步骤2.5,在第二Dropout层进行防过拟合处理,然后进入输出层;
步骤2.6,在输出层进行softmax分类,共分为88类。
3.根据权利要求2所述的基于深度学习的钢琴单键音识别方法,其特征在于,所述在进行softmax分类后,该神经网络会根据损失函数计算出相应的训练集的误差,通过梯度下降的方法反向传播误差,更新权重与阈值。
4.根据权利要求3所述的基于深度学习的钢琴单键音识别方法,其特征在于,所述损失函数为:categorical_crossentropy,即交叉熵损失函数,其交叉熵损失函数标准形式为:L(Y,P(Y|X))=-logP(Y|X),损失函数是指每个钢琴单键音频域信号数据的损失;L(Y,P(Y|X))是指分类为Y的情况下,P(Y|X)达到最大,Y代表钢琴单键音结果为正确的分类结果,而P(Y|X)则是代表正确分类的概率,对数取反就会使P(Y|X)越大,损失函数就越小。
5.根据权利要求2所述的基于深度学习的钢琴单键音识别方法,其特征在于,所述relu激活采用的激活函数为f(x)=max(x,0);tanh激活采用的激活函数为softmax分类采用的分类函数为其中j=1,2,...,K,分类函数是将神经网络处理过后的K维的钢琴单键音频域信号向量z压缩到另一个K维实向量σ(z)j,使得每一个元素的范围都在{0,1}之间,并且所有元素的和为1。
6.根据权利要求2所述的基于深度学习的钢琴单键音识别方法,其特征在于,所述步骤2.1中加权求和操作的计算公式如下所示:其中Hj为第一全连接层的输入,ωij为输入层到第一全连接层的权重,ai为输入层到全连接层的偏置,Hj代表该层第j个神经元的输出,xi代表上一个神经元的输入,ωij表示上一层第i个神经元与该层第j个神经元之间连接的权重。
7.根据权利要求2所述的基于深度学习的钢琴单键音识别方法,其特征在于,所述第一全连接层共6000个神经元。
8.根据权利要求7所述的基于深度学习的钢琴单键音识别方法,其特征在于,所述第二全连接层共3000个神经元。
9.根据权利要求8所述的基于深度学习的钢琴单键音识别方法,其特征在于,所述步骤2.3和步骤2.5中在第一Dropout层、第二Dropout层进行防过拟合处理的过程为:随机先择50%的神经元进行断开操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711472065.6A CN108229659A (zh) | 2017-12-29 | 2017-12-29 | 基于深度学习的钢琴单键音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711472065.6A CN108229659A (zh) | 2017-12-29 | 2017-12-29 | 基于深度学习的钢琴单键音识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108229659A true CN108229659A (zh) | 2018-06-29 |
Family
ID=62646734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711472065.6A Pending CN108229659A (zh) | 2017-12-29 | 2017-12-29 | 基于深度学习的钢琴单键音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108229659A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109002942A (zh) * | 2018-09-28 | 2018-12-14 | 河南理工大学 | 一种基于随机神经网络的短期负荷预测方法 |
CN110243886A (zh) * | 2019-07-09 | 2019-09-17 | 邓博洋 | 一种基于非线性特征的低产气油井井口含水率预测方法 |
CN110243885A (zh) * | 2019-07-09 | 2019-09-17 | 东营智图数据科技有限公司 | 一种基于时频特征的低产气油井井口含水率预测方法 |
CN110632132A (zh) * | 2019-07-09 | 2019-12-31 | 东营智图数据科技有限公司 | 一种基于多传感器测量及深度卷积神经网络的高产气油井井口产液含水率预测方法 |
CN110781944A (zh) * | 2019-10-21 | 2020-02-11 | 中冶南方(武汉)自动化有限公司 | 一种基于深度学习的铁水自动扒渣控制方法 |
CN111340375A (zh) * | 2020-02-28 | 2020-06-26 | 创新奇智(上海)科技有限公司 | 一种电费回收风险预测方法、装置、电子设备及存储介质 |
CN111582008A (zh) * | 2019-02-19 | 2020-08-25 | 富士通株式会社 | 训练分类模型的装置和方法及利用分类模型分类的装置 |
CN111695499A (zh) * | 2020-06-09 | 2020-09-22 | 小叶子(北京)科技有限公司 | 一种琴键识别方法、装置、电子设备及存储介质 |
CN111984242A (zh) * | 2020-08-20 | 2020-11-24 | 中电科仪器仪表有限公司 | 一种合成信号的分解方法及系统 |
CN112819142A (zh) * | 2021-02-04 | 2021-05-18 | 成都市深思创芯科技有限公司 | 一种短时突触可塑性工作记忆计算系统及方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007044377A2 (en) * | 2005-10-06 | 2007-04-19 | Dts, Inc. | Neural network classifier for seperating audio sources from a monophonic audio signal |
CN105845127A (zh) * | 2015-01-13 | 2016-08-10 | 阿里巴巴集团控股有限公司 | 语音识别方法及其系统 |
CN106295717A (zh) * | 2016-08-30 | 2017-01-04 | 南京理工大学 | 一种基于稀疏表示和机器学习的西洋乐器分类方法 |
CN106328122A (zh) * | 2016-08-19 | 2017-01-11 | 深圳市唯特视科技有限公司 | 一种利用长短期记忆模型递归神经网络的语音识别方法 |
CN106446952A (zh) * | 2016-09-28 | 2017-02-22 | 北京邮电大学 | 一种乐谱图像识别方法及装置 |
CN106653003A (zh) * | 2016-12-26 | 2017-05-10 | 北京云知声信息技术有限公司 | 语音识别方法及装置 |
CN107077842A (zh) * | 2014-12-15 | 2017-08-18 | 百度(美国)有限责任公司 | 用于语音转录的系统和方法 |
CN107408111A (zh) * | 2015-11-25 | 2017-11-28 | 百度(美国)有限责任公司 | 端对端语音识别 |
-
2017
- 2017-12-29 CN CN201711472065.6A patent/CN108229659A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007044377A2 (en) * | 2005-10-06 | 2007-04-19 | Dts, Inc. | Neural network classifier for seperating audio sources from a monophonic audio signal |
CN101366078A (zh) * | 2005-10-06 | 2009-02-11 | Dts公司 | 从单音音频信号分离音频信源的神经网络分类器 |
CN107077842A (zh) * | 2014-12-15 | 2017-08-18 | 百度(美国)有限责任公司 | 用于语音转录的系统和方法 |
CN105845127A (zh) * | 2015-01-13 | 2016-08-10 | 阿里巴巴集团控股有限公司 | 语音识别方法及其系统 |
CN107408111A (zh) * | 2015-11-25 | 2017-11-28 | 百度(美国)有限责任公司 | 端对端语音识别 |
CN106328122A (zh) * | 2016-08-19 | 2017-01-11 | 深圳市唯特视科技有限公司 | 一种利用长短期记忆模型递归神经网络的语音识别方法 |
CN106295717A (zh) * | 2016-08-30 | 2017-01-04 | 南京理工大学 | 一种基于稀疏表示和机器学习的西洋乐器分类方法 |
CN106446952A (zh) * | 2016-09-28 | 2017-02-22 | 北京邮电大学 | 一种乐谱图像识别方法及装置 |
CN106653003A (zh) * | 2016-12-26 | 2017-05-10 | 北京云知声信息技术有限公司 | 语音识别方法及装置 |
Non-Patent Citations (3)
Title |
---|
RAINER KELZ 等: "On the Potential of Simple Framewise Approaches to Piano Transcription", 《PROCEEDINGS OF THE 17TH INTERNATIONAL SOCIETY FOR MUSIC INFORMATION RETRIEVAL CONFERENCE》 * |
SIDDHARTH SIGTIA 等: "An End-to-End Neural Network for Polyphonic Piano Music Transcription", 《IEEE/ACM TRANSACTIONS ON AUDIO,SPEECH,AND LANGUAGE PROCESSING》 * |
刘晴: "基于极限学习机和深度信念网的单音识别", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109002942A (zh) * | 2018-09-28 | 2018-12-14 | 河南理工大学 | 一种基于随机神经网络的短期负荷预测方法 |
CN111582008B (zh) * | 2019-02-19 | 2023-09-08 | 富士通株式会社 | 训练分类模型的装置和方法及利用分类模型分类的装置 |
CN111582008A (zh) * | 2019-02-19 | 2020-08-25 | 富士通株式会社 | 训练分类模型的装置和方法及利用分类模型分类的装置 |
CN110632132A (zh) * | 2019-07-09 | 2019-12-31 | 东营智图数据科技有限公司 | 一种基于多传感器测量及深度卷积神经网络的高产气油井井口产液含水率预测方法 |
CN110243885A (zh) * | 2019-07-09 | 2019-09-17 | 东营智图数据科技有限公司 | 一种基于时频特征的低产气油井井口含水率预测方法 |
CN110243886A (zh) * | 2019-07-09 | 2019-09-17 | 邓博洋 | 一种基于非线性特征的低产气油井井口含水率预测方法 |
CN110781944A (zh) * | 2019-10-21 | 2020-02-11 | 中冶南方(武汉)自动化有限公司 | 一种基于深度学习的铁水自动扒渣控制方法 |
CN110781944B (zh) * | 2019-10-21 | 2022-07-05 | 中冶南方(武汉)自动化有限公司 | 一种基于深度学习的铁水自动扒渣控制方法 |
CN111340375A (zh) * | 2020-02-28 | 2020-06-26 | 创新奇智(上海)科技有限公司 | 一种电费回收风险预测方法、装置、电子设备及存储介质 |
CN111695499A (zh) * | 2020-06-09 | 2020-09-22 | 小叶子(北京)科技有限公司 | 一种琴键识别方法、装置、电子设备及存储介质 |
CN111695499B (zh) * | 2020-06-09 | 2024-04-16 | 小叶子(北京)科技有限公司 | 一种琴键识别方法、装置、电子设备及存储介质 |
CN111984242A (zh) * | 2020-08-20 | 2020-11-24 | 中电科仪器仪表有限公司 | 一种合成信号的分解方法及系统 |
CN112819142A (zh) * | 2021-02-04 | 2021-05-18 | 成都市深思创芯科技有限公司 | 一种短时突触可塑性工作记忆计算系统及方法 |
CN112819142B (zh) * | 2021-02-04 | 2024-01-19 | 成都市深思创芯科技有限公司 | 一种短时突触可塑性工作记忆计算系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108229659A (zh) | 基于深度学习的钢琴单键音识别方法 | |
CN110390955B (zh) | 一种基于深度域适应性卷积神经网络的跨库语音情感识别方法 | |
CN112364779B (zh) | 信号处理与深-浅网络多模型融合的水声目标识别方法 | |
CN108228716B (zh) | 基于加权极限学习机的SMOTE_Bagging集成污水处理故障诊断方法 | |
CN108010514A (zh) | 一种基于深度神经网络的语音分类方法 | |
CN109559736B (zh) | 一种基于对抗网络的电影演员自动配音方法 | |
CN103531199B (zh) | 基于快速稀疏分解和深度学习的生态声音识别方法 | |
CN110136731A (zh) | 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法 | |
CN107680582A (zh) | 声学模型训练方法、语音识别方法、装置、设备及介质 | |
CN112562741B (zh) | 一种基于点积自注意力卷积神经网络的歌声检测方法 | |
CN107293291A (zh) | 一种基于自适应学习率的端到端的语音识别方法 | |
CN111400540B (zh) | 一种基于挤压和激励残差网络的歌声检测方法 | |
Shen et al. | A deep learning method for Chinese singer identification | |
CN113176022B (zh) | 一种分段式神经网络压力传感器压力检测方法及系统 | |
CN111429947A (zh) | 一种基于多级残差卷积神经网络的语音情感识别方法 | |
CN115762536A (zh) | 一种基于桥接Transformer的小样本优化鸟声识别方法 | |
CN107293290A (zh) | 建立语音声学模型的方法和装置 | |
CN111123894B (zh) | 一种基于lstm和mlp结合的化工过程故障诊断方法 | |
CN103077408A (zh) | 基于小波神经网络的海底声纳图像转换为声学底质类别方法 | |
Wu et al. | Automatic chord estimation based on a frame-wise convolutional recurrent neural network with non-aligned annotations | |
CN113763966B (zh) | 一种端到端的文本无关声纹识别方法及系统 | |
CN113192471B (zh) | 一种基于神经网络的乐曲主旋律音轨识别方法 | |
CN113111786A (zh) | 基于小样本训练图卷积网络的水下目标识别方法 | |
CN116434758A (zh) | 声纹识别模型训练方法、装置、电子设备及存储介质 | |
CN113707172B (zh) | 稀疏正交网络的单通道语音分离方法、系统、计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180629 |