CN109584904B - 应用于基础音乐视唱教育的视唱音频唱名识别建模方法 - Google Patents
应用于基础音乐视唱教育的视唱音频唱名识别建模方法 Download PDFInfo
- Publication number
- CN109584904B CN109584904B CN201811580476.1A CN201811580476A CN109584904B CN 109584904 B CN109584904 B CN 109584904B CN 201811580476 A CN201811580476 A CN 201811580476A CN 109584904 B CN109584904 B CN 109584904B
- Authority
- CN
- China
- Prior art keywords
- audio
- data
- video
- song
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000000694 effects Effects 0.000 claims abstract description 6
- 230000008569 process Effects 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 32
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 16
- 230000000306 recurrent effect Effects 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 7
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 238000003825 pressing Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 3
- 238000003491 array Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 2
- 230000009467 reduction Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/06—Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
应用于基础音乐视唱教育的视唱音频唱名识别建模方法,涉及视唱音频唱名识别。提供可帮助用户提升自己音乐视唱方面能力的一种应用于基础音乐视唱教育的视唱音频唱名识别建模方法。唱名识别效果可以达到专业的识别的水平,识别精准率较高;唱名识别运算效率较高,可以在3~5s之内完成唱名识别过程,达到工业应用要求;唱名识别抗噪能力较强,在有一定背景噪声的情况下也能较好的识别。
Description
技术领域
本发明涉及视唱音频唱名识别,尤其是涉及一种应用于基础音乐视唱教育的视唱音频唱名识别建模方法。
背景技术
基础音乐视唱教育系统是一款针对中小学生学习音乐的辅助移动端系统软件。本系统使用手机端微信小程序架构、服务端JavaEE架构和MySQL5.5数据库等技术,设计和实现了包括“在线学习”、“闯关训练”、“课程管理”、“习题管理”等功能的中小学音乐素养在线学习训练系统。其中本系统中的“闯关训练”功能中包含了在线视唱训练,即用户在移动端设备上录制一段视唱音频后上传到系统后台,在线视唱训练功能模块分析视唱音频的节奏和音准特征,给出机器评分。但是由于系统对视唱音频的音准打分准确率不够稳定,所以本系统将新增视唱音频唱名识别的模块,提高在线视唱音频评分准确率。
在视唱音频唱名识别的模块实现用户录音与音频文件上传,进入系统后台服务器,对视唱练习音频进行智能唱名识别,并将识别结果反馈回客户端。智能识别模块应用了机器学习建模,通过神经网络模型对音频数据进行特征分析,建立一个唱名识别的分类模型,从而实现精准识别,并将结果反馈给用户,帮助用户提升自己音乐视唱方面的能力。
参考文献:
[1]朱俊敏,张潇,王旌阳,等.小波域音频信号降噪研究[J].计算机工程与应用,2009,45(6):149-154.
[2]朱燕平.语音信号的小波降噪[J].视听界(广播电视技术),2013(6).
[3]刘欢,王骏,林其光,等.时域和频域特征相融合的语音端点检测新方法[J].江苏科技大学学报(自然科学版),2017,31(1):73-78.
[4]毕东生,张培玲,刘瑾,等.基于巴特沃斯低通滤波器的语音降噪[J].数字化用户,2017,23(27).
[5]马道钧,张敬怀.语音数据的分析与处理[J].北京电子科技学院学报,2005,13(4):61-63.
发明内容
本发明的目的是提供可帮助用户提升自己音乐视唱方面能力的一种应用于基础音乐视唱教育的视唱音频唱名识别建模方法。
本发明包括以下步骤:
1)通过Web端录音软件,在界面上选择多音录制或者单音录制,其中单音录制的唱名为do,re,mi,fa,so,la,xi七个音符中的一个,选中之后通过按下录音键实现本地录音,按下上传键实现上传,上传之后自动记录在服务器上,并以唱名和序号进行文件命名,以此收集多人视唱练习的音频;
2)将步骤1)的音频数据进行去噪进行去噪,剪裁无音频的空白片段,进行人声增强的数据预处理;
3)将步骤2)处理过的音频数据根据多音视唱曲目中音频的变化特征、音频频率高低的变化和时域高低变化上的差异进行剪辑,分别生成独立的音频数据;将每个独立音频数据存储在硬盘上,作为测试初始数据,单音视唱数据作为训练初始数据和测试初始数据;
4)将步骤3)中的单音视唱音频数据按2︰1划分,其中2份为训练数据,1份为测试数据,经分割的多音视唱音频变成单音音频后作测试数据;
5)读取步骤4)中音频文件,将音频数据预处理后,使用梅尔频率倒谱系数方法分别提取多音与单音音频特征;将训练用的音频特征数据进行抽取与处理,使得特征长度一致;
6)将步骤5)处理过的训练音频数据输入循环神经网络(RNN)中,用RNN的反向传播算法进行模型的训练;
7)经分割的多音视唱音频变成单音音频后作识别模型的测试数据,调整优化模型。
在步骤2)中,所述数据预处理中,白噪音在每个音频文件中都会存在,消除白噪音会对音频质量有所提高,所以在对音频做处理之前,先对音频做降噪处理,主要采用小波降噪和butter滤波器降噪。
在步骤3)中,读取音频数据的音准、时长、频率、节拍等数据,其中音准是一个比较重要的指标,音准的判断不应仅仅对照于刻板的频率表,更要考虑到旋律中的音程关系,因此,相对音准的概念在音频剪辑中就显得格外必要;因此在剪辑时,根据频率中音准能量高低的变化时间节点进行剪辑,分别生成独立的音频数据;音频的特征在时域和频域[5]两个方面表现不同。音频采样率为22040Hz,对音频进行预加重、分帧和加窗等处理,得到音频每帧的频率数值,音频频率高低的变化与时域上的对应可以反映出孤立音的差异,因此对其进行剪辑,分别生成独立的音频数据。
在步骤5)中,所述梅尔频率倒谱系数是组成梅尔频率倒谱的系数,梅尔频率倒谱系数特征提取包含两个关键步骤:首先转化到梅尔频率,然后进行倒谱分析。
唱名音频数据经过梅尔频率倒谱系数提取特征,记录每一帧数据的长度,考虑到每个唱名视唱时长短不一,提取的音频特征将按比例抽取,即每一组中音频数组长度最短为n,其他音频数组长度为m,则按照每隔m/n个点抽取特征。
所述提取的音频特征需要进一步的处理,如归一化等,使每个数据的特征长度相同,使其可以训练,具体操作如下:保存最短音频的特征长度,在对其他每一个数据按比例跳跃取点,最终使所有特征长度等于最短音频的特征长度,达到归一化效果。
音频数据放在设计的循环神经网络(RNN)中,用循环神经网络的反向传播算法进行模型训练,目标是识别出7种不同的唱名;所述循环神经网络的训练过程包括:
(1)根据数据特性选择重要的参数,包括激活函数、神经网络的隐层数量、各个隐层神经元节点个数、学习率等;
(2)从训练数据中提取梅尔倒谱系数作为特征,以每个音频所对应的唱名作为预测目标,进行循环神经网络训练。对每个隐层的参数采用随机数对其初始化,使用反向传播算法、梯度下降法让循环神经网络逼近目标值,最终产生的循环神经网络模型预测未知音频的唱名。
与现有技术相比,本发明的有益效果如下:
1.本发明的唱名识别效果可以达到专业的识别的水平,识别精准率较高;
2.本发明的唱名识别运算效率较高,可以在3~5s之内完成唱名识别过程,达到工业应用要求;
3.本发明的唱名识别抗噪能力较强,在有一定背景噪声的情况下也能较好的识别。
附图说明
图1为本发明的识别过程流程图。
图2为小波分解图。
图3为信号重构图。
图4为音准能量变化图
图5为音准频率变化图。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明。
参见图1,本发明实施例包括以下步骤:
步骤一:通过Web端录音软件,界面上可以选择多音录制或者单音录制。其中单音录制的唱名为do,re,mi,fa,so,la,xi七个音符中的一个。选中之后通过按下录音键实现本地录音,按下上传键实现上传。上传之后自动记录在服务器上,并以唱名和序号进行文件命名。以此收集多人视唱练习的音频;
步骤二:将步骤一的音频数据进行去噪,剪裁无音频的空白片段,进行人声增强的数据预处理;
步骤三:将步骤二处理过的音频数据根据多音视唱曲目中音频的变化特征、音频频率高低的变化与时域高低变化上的差异进行剪辑,分别生成独立的音频数据;将每个独立音频数据存储在硬盘上,作为测试初始数据。单音视唱数据可以作为训练初始数据和测试初始数据;
步骤四:将步骤三中的单音视唱音频数据按2:1划分,其中的2份作为训练数据,1份为测试数据。经分割的多音视唱音频变成单音音频后作测试数据;
步骤五:读取步骤四中音频文件,将音频数据预处理后,使用梅尔频率倒谱系数方法分别提取多音与单音音频特征;将训练用的音频特征数据进行抽取与处理,使得特征长度一致;
步骤六:将步骤五处理过的训练音频数据输入循环神经网络(RNN)中,用RNN的反向传播算法进行模型的训练;
步骤七:经分割的多音视唱音频变成单音音频后作识别模型的测试数据,调整优化模型。
在步骤二的数据预处理中,白噪音在每个音频文件中都会存在,因此消除白噪音会对音频质量有所提高,所以在对音频做处理之前,先对其做降噪处理,主要采用小波降噪和butter滤波器降噪。
在数字音频处理中,噪声会干扰原信号,造成文件信息质量下降,因此对哼唱音频的降噪和人声增强是音频预处理中必要的步骤。朱俊敏等[1]人提出的小波阈音频信号降噪方法和朱艳平[2]提出的多种小波降噪的精确性较好。因此,本发明结合测试数据特点采用小波变换,它是一种新的变换分析方法,能够在时间(空间)频率的局部化分析,通过伸缩平移运算对信号(函数)逐步进行多尺度细化,最终达到高频处时间细分,低频处频率细分,能自动适应时频信号分析的要求。小波变换具有良好的时频局部化特性,其线性表示为:WX=Wf+We,保留主要由信号控制的小波系数,发现并去掉由噪声控制的小波系数,剩下的小波系数做逆变换得到去躁信号。
小波分解与信号重构图解参见图2和3。
刘欢[3]等提出的时域和频域特征相融合的语音端点检测新方法在信噪比较小时准确率较高。在识别音频头尾部的空白音时,先对音频序列分帧,计算每帧的能量大小,若小于某个阈值,则认定为头部空白部分,继续向下循环,若大于该阈值,则跳出循环并返回该位置,最后向主函数返回头部空白部分以及去除空白部分的音频序列。
将得到的头部空白部分可以认定为只有背景的白噪音,并对其进行小波变换以及对原音频序列进行小波变换。将原音频所转换的小波数组中值是在头部空白部分小波数组中的最大值和最小值之间的数置零,然后再将新的小波数组转换成音频序列并输出。
巴特沃斯滤波器的特点是通频带内的频率响应曲线最大限度平坦,没有起伏,而在阻频带则逐渐下降为零。毕东生等[4]提出巴特沃斯低通滤波器的语音降噪。在振幅的对数对角频率的波特图上,从某一边界角频率开始,振幅随着角频率的增加而逐步减少,趋向负无穷大。
巴特沃斯低通滤波器可用如下振幅的平方对频率的公式表示为:
其中,n=滤波器的阶数,ωc=截止频率=振幅下降为-3db时的频率,ωp=通频带边缘频率在通频带边缘的数值。
在步骤三中,读取音频数据的音准、时长、频率、节拍等数据,其中音准是一个比较重要的指标。音准的判断不应仅仅对照于刻板的频率表,更要考虑到旋律中的音程关系,因此,相对音准的概念在音频剪辑中就显得格外必要。因此在剪辑时,根据频率中音准能量高低的变化时间节点进行剪辑,分别生成独立的音频数据。音准能量和频率变化如图4图5所示。音频的特征在时域和频域[5]两个方面表现不同。音频采样率为22040Hz,对音频进行预加重、分帧和加窗等处理,得到音频每帧的频率数值,音频频率高低的变化与时域上的对应可以反映出孤立音的差异,因此对其进行剪辑,分别生成独立的音频数据。
在步骤五中,梅尔频率倒谱系数就是组成梅尔频率倒谱的系数,梅尔频率倒谱系数特征提取包含两个关键步骤:转化到梅尔频率,然后进行倒谱分析。A等人运用梅尔频率倒谱系数(MFCC)等特征对音频信号进行相似性分析得到不错的效果。
唱名音频数据经过梅尔频率倒谱系数提取特征,记录了每一帧数据的长度,考虑到每个唱名视唱时长短不一,提取的特征将按比例抽取。既每一组中音频数组长度最短为n,其他音频数组长度为m,则按照每隔m/n个点抽取特征。
音频数据放在设计的循环神经网络(RNN)中,用循环神经网络的反向传播算法进行模型训练,目标是识别出七种不同的唱名。所述循环神经网络的训练过程包括:
(1)根据数据特性选择重要的参数,包括激活函数、神经网络的隐层数量、各个隐层神经元节点个数、学习率等;
(2)从训练数据中提取梅尔倒谱系数作为特征,以每个音频所对应的唱名作为预测目标,进行循环神经网络训练。对每个隐层的参数采用随机数对其初始化,使用反向传播算法、梯度下降法让循环神经网络逼近目标值,最终产生的循环神经网络模型预测未知音频的唱名。
Claims (6)
1.应用于基础音乐视唱教育的视唱音频唱名识别建模方法,其特征在于包括以下步骤:
1)通过Web端录音软件,在界面上选择多音录制或者单音录制,其中单音录制的唱名为do,re,mi,fa,so,la,xi七个音符中的一个,选中之后通过按下录音键实现本地录音,按下上传键实现上传,上传之后自动记录在服务器上,并以唱名和序号进行文件命名,以此收集多人视唱练习的音频;
2)将步骤1)的音频数据进行去噪进行去噪,剪裁无音频的空白片段,进行人声增强的数据预处理;
3)将步骤2)处理过的音频数据根据多音视唱曲目中音频的变化特征、音频频率高低的变化和时域高低变化上的差异进行剪辑,分别生成独立的音频数据;将每个独立音频数据存储在硬盘上,作为测试初始数据,单音视唱数据作为训练初始数据和测试初始数据;
4)将步骤3)中的单音视唱音频数据按2︰1划分,其中2份为训练数据,1份为测试数据,经分割的多音视唱音频变成单音音频后作测试数据;
5)读取步骤4)中音频文件,将音频数据预处理后,使用梅尔频率倒谱系数方法分别提取多音与单音音频特征;将训练用的音频特征数据进行抽取与处理,使得特征长度一致;
所述音频数据放在设计的循环神经网络中,用循环神经网络的反向传播算法进行模型训练,目标是识别出7种不同的唱名;所述循环神经网络的训练过程包括:
(1)根据数据特性选择重要的参数,包括激活函数、神经网络的隐层数量、各个隐层神经元节点个数、学习率;
(2)从训练数据中提取梅尔倒谱系数作为特征,以每个音频所对应的唱名作为预测目标,进行循环神经网络训练;对每个隐层的参数采用随机数对其初始化,使用反向传播算法、梯度下降法让循环神经网络逼近目标值,最终产生的循环神经网络模型预测未知音频的唱名;
6)将步骤5)处理过的训练音频数据输入循环神经网络中,用RNN的反向传播算法进行模型的训练;
7)经分割的多音视唱音频变成单音音频后作识别模型的测试数据,调整优化模型。
2.如权利要求1所述应用于基础音乐视唱教育的视唱音频唱名识别建模方法,其特征在于在步骤2)中,所述数据预处理中,先对音频做降噪处理,采用小波降噪和butter滤波器降噪。
3.如权利要求1所述应用于基础音乐视唱教育的视唱音频唱名识别建模方法,其特征在于在步骤3)中,读取音频数据的音准、时长、频率、节拍数据,在剪辑时,根据频率中音准能量高低的变化时间节点进行剪辑,分别生成独立的音频数据;音频的特征在时域和频域两个方面表现不同;音频采样率为22040Hz,对音频进行预加重、分帧和加窗处理,得到音频每帧的频率数值,音频频率高低的变化与时域上的对应反映出孤立音的差异,因此对其进行剪辑,分别生成独立的音频数据。
4.如权利要求1所述应用于基础音乐视唱教育的视唱音频唱名识别建模方法,其特征在于在步骤5)中,所述梅尔频率倒谱系数是组成梅尔频率倒谱的系数,梅尔频率倒谱系数特征提取包含两个关键步骤:首先转化到梅尔频率,然后进行倒谱分析。
5.如权利要求1所述应用于基础音乐视唱教育的视唱音频唱名识别建模方法,其特征在于在步骤5)中,唱名音频数据经过梅尔频率倒谱系数提取特征,记录每一帧数据的长度,考虑到每个唱名视唱时长短不一,提取的音频特征将按比例抽取,即每一组中音频数组长度最短为n,其他音频数组长度为m,则按照每隔m/n个点抽取特征。
6.如权利要求5所述应用于基础音乐视唱教育的视唱音频唱名识别建模方法,其特征在于对所述提取的音频特征进一步处理,所述进一步处理采用归一化,使每个数据的特征长度相同,具体操作如下:保存最短音频的特征长度,在对其他每一个数据按比例跳跃取点,最终使所有特征长度等于最短音频的特征长度,达到归一化效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811580476.1A CN109584904B (zh) | 2018-12-24 | 2018-12-24 | 应用于基础音乐视唱教育的视唱音频唱名识别建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811580476.1A CN109584904B (zh) | 2018-12-24 | 2018-12-24 | 应用于基础音乐视唱教育的视唱音频唱名识别建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109584904A CN109584904A (zh) | 2019-04-05 |
CN109584904B true CN109584904B (zh) | 2022-10-28 |
Family
ID=65931499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811580476.1A Active CN109584904B (zh) | 2018-12-24 | 2018-12-24 | 应用于基础音乐视唱教育的视唱音频唱名识别建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109584904B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110265051A (zh) * | 2019-06-04 | 2019-09-20 | 福建小知大数信息科技有限公司 | 应用于基础音乐视唱教育的视唱音频智能评分建模方法 |
CN110364184B (zh) * | 2019-07-15 | 2022-01-28 | 西安音乐学院 | 基于深度卷积神经网络dcnn和ctc算法的音准评估方法 |
CN111816148B (zh) * | 2020-06-24 | 2023-04-07 | 厦门大学 | 一种基于生成对抗网络的虚拟人声视唱方法和系统 |
CN112633175A (zh) * | 2020-12-24 | 2021-04-09 | 哈尔滨理工大学 | 复杂环境下基于多尺度卷积神经网络单音符实时识别算法 |
CN114758560B (zh) * | 2022-03-30 | 2023-06-06 | 厦门大学 | 一种基于动态时间规整的哼唱音准评价方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222427A (zh) * | 2011-06-20 | 2011-10-19 | 东北师范大学 | 一种音乐视唱教学辅助装置 |
CN107480152A (zh) * | 2016-06-08 | 2017-12-15 | 北京新岸线网络技术有限公司 | 一种音频分析及检索方法和系统 |
CN208014363U (zh) * | 2017-05-23 | 2018-10-26 | 广州丰谱信息技术有限公司 | 一种弹奏音高可调且唱名恒定的键盘视唱琴 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10109648C2 (de) * | 2001-02-28 | 2003-01-30 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals |
US7213766B2 (en) * | 2003-11-17 | 2007-05-08 | Dpd Patent Trust Ltd | Multi-interface compact personal token apparatus and methods of use |
US9240188B2 (en) * | 2004-09-16 | 2016-01-19 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
-
2018
- 2018-12-24 CN CN201811580476.1A patent/CN109584904B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222427A (zh) * | 2011-06-20 | 2011-10-19 | 东北师范大学 | 一种音乐视唱教学辅助装置 |
CN107480152A (zh) * | 2016-06-08 | 2017-12-15 | 北京新岸线网络技术有限公司 | 一种音频分析及检索方法和系统 |
CN208014363U (zh) * | 2017-05-23 | 2018-10-26 | 广州丰谱信息技术有限公司 | 一种弹奏音高可调且唱名恒定的键盘视唱琴 |
Also Published As
Publication number | Publication date |
---|---|
CN109584904A (zh) | 2019-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584904B (zh) | 应用于基础音乐视唱教育的视唱音频唱名识别建模方法 | |
Venkataramanan et al. | Emotion recognition from speech | |
CN110019931B (zh) | 音频分类方法、装置、智能设备和存储介质 | |
JP4797342B2 (ja) | オーディオデータを自動的に認識する方法及び装置 | |
CN113012720B (zh) | 谱减法降噪下多语音特征融合的抑郁症检测方法 | |
CN105788592A (zh) | 一种音频分类方法及装置 | |
CN102486920A (zh) | 音频事件检测方法和装置 | |
Zlatintsi et al. | Multiscale fractal analysis of musical instrument signals with application to recognition | |
CN112750442B (zh) | 一种具有小波变换的朱鹮种群生态体系监测系统及其方法 | |
CN112735442B (zh) | 一种具有音频分离声纹识别的湿地生态监测系统及其音频分离方法 | |
Permana et al. | Implementation of constant-Q transform (CQT) and mel spectrogram to converting bird’s sound | |
KR102018286B1 (ko) | 음원 내 음성 성분 제거방법 및 장치 | |
Arumugam et al. | An efficient approach for segmentation, feature extraction and classification of audio signals | |
Benetos et al. | Auditory spectrum-based pitched instrument onset detection | |
Jeyalakshmi et al. | HMM and K-NN based automatic musical instrument recognition | |
CN111681674B (zh) | 一种基于朴素贝叶斯模型的乐器种类识别方法和系统 | |
Kaminski et al. | Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models | |
Huaysrijan et al. | Deep convolution neural network for Thai classical music instruments sound recognition | |
Patil et al. | Content-based audio classification and retrieval: A novel approach | |
Pawar et al. | Automatic tonic (shruti) identification system for indian classical music | |
Brucal et al. | Filipino speech to text system using Convolutional Neural Network | |
Aurchana et al. | Musical instruments sound classification using GMM | |
Dubey et al. | Music Instrument Recognition using Deep Learning | |
Chaudhary et al. | Musical instrument recognition using audio features with integrated entropy method | |
Singh | pyAudioProcessing: Audio Processing, Feature Extraction, and Machine Learning Modeling. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |