CN110364184A - 基于深度卷积神经网络dcnn和ctc算法的音准评估方法 - Google Patents
基于深度卷积神经网络dcnn和ctc算法的音准评估方法 Download PDFInfo
- Publication number
- CN110364184A CN110364184A CN201910633546.3A CN201910633546A CN110364184A CN 110364184 A CN110364184 A CN 110364184A CN 201910633546 A CN201910633546 A CN 201910633546A CN 110364184 A CN110364184 A CN 110364184A
- Authority
- CN
- China
- Prior art keywords
- audio data
- note
- pitch
- signal
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 21
- 238000012360 testing method Methods 0.000 claims abstract description 120
- 238000013135 deep learning Methods 0.000 claims abstract description 42
- 230000033764 rhythmic process Effects 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000001228 spectrum Methods 0.000 claims description 47
- 230000005236 sound signal Effects 0.000 claims description 30
- 230000009466 transformation Effects 0.000 claims description 14
- 238000009432 framing Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 238000013480 data collection Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 239000012141 concentrate Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000000452 restraining effect Effects 0.000 claims 1
- 230000011218 segmentation Effects 0.000 abstract description 5
- 238000011156 evaluation Methods 0.000 abstract description 4
- 238000011161 development Methods 0.000 abstract description 3
- 230000018109 developmental process Effects 0.000 abstract description 3
- 239000003550 marker Substances 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000001737 promoting effect Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000003475 lamination Methods 0.000 description 2
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明公开了一种基于深度卷积神经网络DCNN和CTC算法的音准评估方法,包括步骤:一、训练深度学习网络模型;二、测试音频数据中音符的识别;三、测试音频数据中音高的识别;四、测试音频数据中节奏的识别。本发明利用深度学习方法对测试旋律中的音符进行识别与分割,然后针对分割后的每一个音符提取其音高和时长的特征信息,并与标准音频进行对比和分析,以给出评价结果,以达到音乐教学的目的,同时给出形象的可视化标记,以实现能够为音乐基础教学的有效开展提供较为可靠全面的音准评估解决方案,评估音频质量。
Description
技术领域
本发明属于音准评估技术领域,具体涉及一种基于深度卷积神经网络DCNN和CTC算法的音乐教学中音准评估方法。
背景技术
音高、音强、音长、音色是音的四种性质。其中,音高和音长对音准的质量具有决定性意义。在音乐教育领域,视唱练耳是最重要的音乐基础课程,该课程通过视唱和听音等途径和手段,培养学习者正确的音准、节奏和乐谱视唱能力,使学习者具备专业的音乐素养,并促进其音乐审美能力的提高。然而,当前的视唱练耳教学普遍是19世纪的“工厂模式”,所有学生在同一时间、地点,以相同的速度及方式学习,采用“流水线”模式,逐年级培养。老师投入教学、辅导与评估学生的时间与精力非常有限,学习同质化情况严重,无法较好的满足不同的学习需求。
目前,国外主要的音频对比,即旋律匹配的方法有字符串匹配、编辑距离、动态规划、线性伸缩、HMM等。字符串匹配方法就是用字符串来表示旋律,然后通过字符串检索、快速匹配等方法进行匹配,通过从数据库中检索与哼唱旋律的特征字符串间编辑距离最小的歌曲作为匹配结果。动态规划是计算机科学中常用的用于求解可分解为子问题的最优化方法,因此较多的旋律匹配的研究都基于动态规划的方法,现有还有使用多次的动态规划并同时估计高音偏移以达到最好的匹配效果,在估计音高偏移时使用启发式估计算法,这种基于动态规划的方法能够满足一般哼唱水平的人的使用要求,但动态规划方法匹配时间长,计算量大。线性伸缩匹配的方法作为距离函数并利用树结构搜索哼唱旋律的最近邻作为检索结果。隐马尔可夫模型(HMM)作为语音识别的重要工具,使用HMM进行语音识别和旋律匹配时,数据库中的旋律表示为HMM的模型,而查询旋律则作为观察序列。然后,在旋律匹配时利用HMM的前向算法计算匹配的相似度作为匹配概率,该方法的局限是对于查询旋律长度大于HMM中的最长路径时会导致错误。因此,如何有效地识别旋律中的音符,并且对每个音符的音高和音长与标准音频进行对比和分析,以对测试旋律中每个音符的音高和音长进行准确评估是急需解决的重点问题。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于深度卷积神经网络DCNN和CTC算法的音准评估方法,利用深度学习方法对测试旋律中的音符进行识别与分割,然后针对分割后的每一个音符提取其音高和时长的特征信息,并与标准音频进行对比和分析,以给出评价结果,以达到音乐教学的目的,同时给出形象的可视化标记,以实现能够为音乐基础教学的有效开展提供较为可靠全面的音准评估解决方案,评估音频质量,便于推广使用。
为解决上述技术问题,本发明采用的技术方案是:基于深度卷积神经网络DCNN和CTC算法的音准评估方法,其特征在于,该方法包括以下步骤:
步骤一、训练深度学习网络模型,过程如下:
步骤101、利用音频录制设备采集专业歌唱家在规定时间内的多组人声音频数据,并传输存储至计算机,在计算机中对每组人声音频数据按照人名和音乐片段编号进行旋律命名,并对每组人声音频数据配备一个MIDI文件,多组人声音频数据构成标准音频数据集;
步骤102、计算机对标准音频数据集中每一组人声音频数据进行特征提取,每组人声音频数据的特征提取方法均相同,任一组人声音频数据的特征提取过程为:
步骤1021、计算机对人声音频数据进行分帧,每帧音频信号的帧长为10ms~30ms,连续相邻的两帧音频信号相重叠;
步骤1022、根据公式计算机对该组人声音频数据中音频信号分帧序列Sn进行加窗处理,得到音频信号加窗分帧序列S'n,其中,N为每帧音频信号的采样点数,n为每帧音频信号的采样点的编号且n=0,2,…,N-1;
步骤1023、根据公式计算机对加窗音频信号进行快速傅里叶变化,得到加窗音频信号的快速傅里叶变化信号X(k);
根据公式magX(k)=abs(X(k)),计算加窗音频信号的快速傅里叶变化信号X(k)的模值magX(k),其中,abs(·)为求模函数;
步骤1024、根据公式X'(k)=log(1+magX(k)),计算机对加窗音频信号的快速傅里叶变化信号X(k)的模值magX(k)进行归一化处理,得到magX(k)的归一化结果X'(k);
步骤1025、利用magX(k)的归一化结果X'(k)生成的该组人声音频数据特征语谱图;
步骤103、计算机利用深度卷积神经网络DCNN和CTC语音识别算法构建深度学习网络模型,深度学习网络模型由输入层I1、卷积层C1、卷积层C2、池化层P1、卷积层C3、卷积层C4、池化层P2、变换层ReShape、密集连接层Dense和输出层O1构成,其中,卷积层C1、卷积层C2、卷积层C3和卷积层C4均采用3×3的卷积核,池化层P1采用2×2的池化窗口,池化层P2采用1×1的池化窗口;
每组人声音频数据特征语谱图作为深度学习网络模型的输入层I1,深度学习网络模型的输出层O1输出的为每组人声音频的音符;
计算机利用标准音频数据集,训练深度学习网络模型,直至深度学习网络模型的输出层O1输出的音符正确率大于80%,得到训练好的深度学习网络模型;
步骤二、测试音频数据中音符的识别:测试人员在计算机中选择试唱的标准旋律曲目,该标准旋律曲目对应的MIDI文件生成五线谱,训练好的深度学习网络模型对标准旋律曲目对应的人声音频数据进行音符识别,并通过计算机显示;
同时,测试人员利用音频录制设备采集测试人员的测试音频数据,并传输存储至计算机中,计算机利用训练好的深度学习网络模型对测试音频数据进行音符识别;
计算机将识别的测试音频数据的音符与标准旋律曲目对应的人声音频数据的音符进行一一匹配,对匹配错误的音符进行标记;
步骤三、测试音频数据中音高的识别:计算机对标准旋律曲目对应的人声音频数据的音符进行分割,同时对识别的测试音频数据的音符进行分割,获取多组相对应音符对应的音频数据,对每组音符对应的音频数据的音高进行比对,每组音符对应的音频数据的音高的比对方法均相同,任一组音符对应的音频数据的音高比对过程为:
步骤301、根据公式对标准旋律曲目的人声音频数据的第p个音符对应的音频数据f1 p(t)进行傅里叶变换,得到f1 p(t)的傅里叶变换信号F1 p(ω),同时对测试音频数据对应的音符对应的音频数据进行傅里叶变换,得到的傅里叶变换信号其中,F[·]为傅里叶变换函数,p为标准旋律曲目中音符的编号,t为时间变量,ω为角频率变量;
步骤302、根据公式计算F1 p(ω)的倒谱信号和的倒谱信号倒谱信号的周期和f1 p(t)的周期一致,通过倒谱信号的周期获取f1 p(t)的周期,倒谱信号的周期与倒谱信号的基频互为倒数,倒谱信号的周期和的周期一致,通过倒谱信号的周期获取的周期,倒谱信号的周期与倒谱信号的基频互为倒数;
步骤303、根据公式计算对应的两个音符之间的音高差ΔC,其中,为倒谱信号的基频,为倒谱信号的基频;
计算机将识别的测试音频数据中指定音符的音高与标准旋律曲目中对应音符的音高进行一一比对,对音高差不在音高阈值内的音符进行标记;
步骤四、测试音频数据中节奏的识别:计算机对每组音符对应的音频数据的时长进行比对,每组音符对应的音频数据的时长的比对方法均相同,任一组音符对应的音频数据的时长比对过程为:
步骤401、计算机对标准旋律曲目的人声音频数据的第p个音符对应的音频数据f1 p(t)进行离散傅里叶变换,并对离散傅里叶变换后的标准频谱信号进行子频带划分,根据公式计算该离散傅里叶变换后的标准频谱信号的能量同时对测试音频数据对应的音符对应的音频数据进行离散傅里叶变换,并对离散傅里叶变换后的测试频谱信号进行子频带划分,根据公式计算该离散傅里叶变换后的测试频谱信号的能量其中,q为划分的子频带的编号且q=1,2,…,Q,Q为不小于10的正整数,F1 p(q)为第p个音符对应的音频数据f1 p(t)离散傅里叶变换后的标准频谱信号中第q个子频带的幅值,为测试音频数据对应的音符对应的音频数据离散傅里叶变换后的测试频谱信号中第q个子频带的幅值;
步骤402、根据公式计算标准旋律曲目的人声音频数据的第p个音符对应的所有子频带的能量和与标准旋律曲目的人声音频数据的第p-1个音符对应的所有子频带的能量和之间的欧几里得距离
根据公式计算相邻两个测试音频数据对应的音符对应的所有子频带的能量和之间的欧几里得距离
步骤403、根据公式计算对第q个子频带的偏导数当表明第p个标准频谱信号中第q个子频带的能量高于第p-1个标准频谱信号中第q个子频带的能量,此处为标准旋律曲目中第p个音符起始点;当表明第p个标准频谱信号中第q个子频带的能量不高于第p-1个标准频谱信号中第q个子频带的能量,此处非标准旋律曲目第p个音符起始点;
根据公式计算对第q个子频带的偏导数当表明第p个测试频谱信号中第q个子频带的能量高于第p-1个测试频谱信号中第q个子频带的能量,此处为测试音频数据第p个音符起始点;当表明第p个测试频谱信号中第q个子频带的能量不高于第p-1个测试频谱信号中第q个子频带的能量,此处非测试音频数据第p个音符起始点;
步骤404、将标准旋律曲目的人声音频数据的第p+1个音符视为标准旋律曲目的人声音频数据的第p个音符,同时将测试音频数据的第p+1个音符视为测试音频数据的第p个音符,循环步骤401至步骤403,获取标准旋律曲目中第p+1个音符起始点和测试音频数据第p+1个音符起始点;
标准旋律曲目中第p+1个音符起始点,即为标准旋律曲目中第p个音符结束点,标准旋律曲目中第p+1个音符起始点与标准旋律曲目中第p个音符起始点之间的时间间隔即为标准旋律曲目中第p个音符对应的音频数据的时长;
测试音频数据中第p+1个音符起始点,即为测试音频数据中第p个音符结束点,测试音频数据中第p+1个音符起始点与测试音频数据中第p个音符起始点之间的时间间隔即为测试音频数据的第p个音符对应的音频数据的时长;
计算机将识别的测试音频数据中指定音符的时长与标准旋律曲目中对应音符的时长进行一一比对,对时长差不在时长阈值内的音符进行标记,实现测试音频数据中节奏的识别。
上述的基于深度卷积神经网络DCNN和CTC算法的音准评估方法,其特征在于:步骤1021中计算机对人声音频数据进行分帧,每帧音频信号的帧长为25ms,连续相邻的两帧音频信号重叠率为50%~85%。
上述的基于深度卷积神经网络DCNN和CTC算法的音准评估方法,其特征在于:步骤303中,当ΔC>0时,测试音频数据中指定音符的音高高于标准旋律曲目中对应音符的音高;当ΔC=0时,测试音频数据中指定音符的音高等于标准旋律曲目中对应音符的音高;当ΔC<0时,测试音频数据中指定音符的音高低于标准旋律曲目中对应音符的音高。
上述的基于深度卷积神经网络DCNN和CTC算法的音准评估方法,其特征在于:步骤303中音高阈值为30音分~50音分。
本发明与现有技术相比具有以下优点:
1、本发明利用专业歌唱家在规定时间内的多组人声音频数据训练深度学习网络模型,深度学习网络模型由输入层I1、卷积层C1、卷积层C2、池化层P1、卷积层C3、卷积层C4、池化层P2、变换层ReShape、密集连接层Dense和输出层O1构成,卷积层C3和卷积层C4中滤波器数目多于卷积层C1和卷积层C2中滤波器数目,池化层P2的池化窗口小于池化层P1的池化窗口,增强了深度卷积神经网络DCNN的表达能力,可以体现连续的历史数据和预测数据信息,保证了语音的长时相关性,具有更好的鲁棒性,计算速度快;同时,在深度卷积神经网络DCNN中结合CTC语音识别算法,CTC语音识别算法,将重复的元素合并,将静音符去除,实现整个模型的端到端训练,两个池化层的结构使得该端到端训练更加稳定,同时可以实现神经网络不定长度序列的输出,便于推广使用。
2、本发明将人声音频数据特征语谱图作为深度学习网络模型的输入层,将音调的语音识别问题转换为计算机视觉问题,进行“看图说话”,可靠稳定,使用效果好。
3、本发明在录制专业歌唱家在规定时间内的多组人声音频数据时,在计算机中对每组人声音频数据按照人名和音乐片段编号进行旋律命名,并对每组人声音频数据配备一个MIDI文件,在识别音准时,对应的MIDI文件自动生成五线谱,再利用训练好的深度学习网络模型对标准旋律曲目对应的人声音频数据进行音符识别,可视化效果好。
4、本发明识别音高时,对音频数据的指定音符对应的音频数据进行傅里叶变换,实现音频数据的指定音符时域向频域的转换,音高与基频之间存在直接关系,采用倒谱方法获取倒谱信号的周期,进而获取基频,通过测试音符的基频与标准音符的基频差获取对应的两个音符之间的音高差,当音高差为正,测试音频数据中指定音符的音高高于标准旋律曲目中对应音符的音高;当音高差等于0,测试音频数据中指定音符的音高等于标准旋律曲目中对应音符的音高;当音高差为负,测试音频数据中指定音符的音高低于标准旋律曲目中对应音符的音高,直观简洁。
5、本发明通过计算相邻两音符对应的所有子频带的能量和之间的欧几里得距离,进而获取频谱信号中相邻两个子频带的能量高低,能量增加是由于有新的音符的产生,因此可确定音符的起始时间,通过两个音符的起始时间差可锁定一个音符的时长,识别简单,准确性高,同时方法步骤简单,在识别音符的基础上,抓住音高和节奏两个音乐要素,避免了对单个要素进行评估的片面性,具有较高的识别率,能够帮助学习者纠正音高和节奏的错误,并给予及时、有效的评价指导,对优化传统教育模式具有实际应用价值,便于推广使用。
综上所述,本发明利用深度学习方法对测试旋律中的音符进行识别与分割,然后针对分割后的每一个音符提取其音高和时长的特征信息,并与标准音频进行对比和分析,以给出评价结果,以达到音乐教学的目的,同时给出形象的可视化标记,以实现能够为音乐基础教学的有效开展提供较为可靠全面的音准评估解决方案,评估音频质量,便于推广使用。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明方法的方法流程框图。
图2为本发明一组人声音频数据的特征语谱图。
图3为本发明实施例中第一组测试音频数据的音准与标准旋律曲目对应的人声音频数据的音准比对效果示意图。
图4为本发明实施例中第二组测试音频数据的音准与标准旋律曲目对应的人声音频数据的音准比对效果示意图。
图5为本发明实施例中第三组测试音频数据的音准与标准旋律曲目对应的人声音频数据的音准比对效果示意图。
具体实施方式
如图1和图2所示,本发明的基于深度卷积神经网络DCNN和CTC算法的音准评估方法,包括以下步骤:1.基于深度卷积神经网络DCNN和CTC算法的音准评估方法,其特征在于,该方法包括以下步骤:
步骤一、训练深度学习网络模型,过程如下:
步骤101、利用音频录制设备采集专业歌唱家在规定时间内的多组人声音频数据,并传输存储至计算机,在计算机中对每组人声音频数据按照人名和音乐片段编号进行旋律命名,并对每组人声音频数据配备一个MIDI文件,多组人声音频数据构成标准音频数据集;
步骤102、计算机对标准音频数据集中每一组人声音频数据进行特征提取,每组人声音频数据的特征提取方法均相同,任一组人声音频数据的特征提取过程为:
步骤1021、计算机对人声音频数据进行分帧,每帧音频信号的帧长为10ms~30ms,连续相邻的两帧音频信号相重叠;
本实施例中,步骤1021中计算机对人声音频数据进行分帧,每帧音频信号的帧长为25ms,连续相邻的两帧音频信号重叠率为50%~85%。
步骤1022、根据公式计算机对该组人声音频数据中音频信号分帧序列Sn进行加窗处理,得到音频信号加窗分帧序列S'n,其中,N为每帧音频信号的采样点数,n为每帧音频信号的采样点的编号且n=0,2,…,N-1;
步骤1023、根据公式计算机对加窗音频信号进行快速傅里叶变化,得到加窗音频信号的快速傅里叶变化信号X(k);
根据公式magX(k)=abs(X(k)),计算加窗音频信号的快速傅里叶变化信号X(k)的模值magX(k),其中,abs(·)为求模函数;
步骤1024、根据公式X'(k)=log(1+magX(k)),计算机对加窗音频信号的快速傅里叶变化信号X(k)的模值magX(k)进行归一化处理,得到magX(k)的归一化结果X'(k);
步骤1025、利用magX(k)的归一化结果X'(k)生成的该组人声音频数据特征语谱图;
实际使用时,将人声音频数据特征语谱图作为深度学习网络模型的输入层,将音调的语音识别问题转换为计算机视觉问题,进行“看图说话”,可靠稳定,使用效果好。
步骤103、计算机利用深度卷积神经网络DCNN和CTC语音识别算法构建深度学习网络模型,深度学习网络模型由输入层I1、卷积层C1、卷积层C2、池化层P1、卷积层C3、卷积层C4、池化层P2、变换层ReShape、密集连接层Dense和输出层O1构成,其中,卷积层C1、卷积层C2、卷积层C3和卷积层C4均采用3×3的卷积核,池化层P1采用2×2的池化窗口,池化层P2采用1×1的池化窗口;
每组人声音频数据特征语谱图作为深度学习网络模型的输入层I1,深度学习网络模型的输出层O1输出的为每组人声音频的音符;
计算机利用标准音频数据集,训练深度学习网络模型,直至深度学习网络模型的输出层O1输出的音符正确率大于80%,得到训练好的深度学习网络模型;
需要说明的是,利用专业歌唱家在规定时间内的多组人声音频数据训练深度学习网络模型,深度学习网络模型由输入层I1、卷积层C1、卷积层C2、池化层P1、卷积层C3、卷积层C4、池化层P2、变换层ReShape、密集连接层Dense和输出层O1构成,卷积层C3和卷积层C4中滤波器数目多于卷积层C1和卷积层C2中滤波器数目,池化层P2的池化窗口小于池化层P1的池化窗口,增强了深度卷积神经网络DCNN的表达能力,可以体现连续的历史数据和预测数据信息,保证了语音的长时相关性,具有更好的鲁棒性,计算速度快;同时,在深度卷积神经网络DCNN中结合CTC语音识别算法,CTC语音识别算法,将重复的元素合并,将静音符去除,实现整个模型的端到端训练,两个池化层的结构使得该端到端训练更加稳定,同时可以实现神经网络不定长度序列的输出。
步骤二、测试音频数据中音符的识别:测试人员在计算机中选择试唱的标准旋律曲目,该标准旋律曲目对应的MIDI文件生成五线谱,训练好的深度学习网络模型对标准旋律曲目对应的人声音频数据进行音符识别,并通过计算机显示;
同时,测试人员利用音频录制设备采集测试人员的测试音频数据,并传输存储至计算机中,计算机利用训练好的深度学习网络模型对测试音频数据进行音符识别;
计算机将识别的测试音频数据的音符与标准旋律曲目对应的人声音频数据的音符进行一一匹配,对匹配错误的音符进行标记;
实际使用时,在录制专业歌唱家在规定时间内的多组人声音频数据时,在计算机中对每组人声音频数据按照人名和音乐片段编号进行旋律命名,并对每组人声音频数据配备一个MIDI文件,在识别音准时,对应的MIDI文件自动生成五线谱,再利用训练好的深度学习网络模型对标准旋律曲目对应的人声音频数据进行音符识别,可视化效果好。
步骤三、测试音频数据中音高的识别:计算机对标准旋律曲目对应的人声音频数据的音符进行分割,同时对识别的测试音频数据的音符进行分割,获取多组相对应音符对应的音频数据,对每组音符对应的音频数据的音高进行比对,每组音符对应的音频数据的音高的比对方法均相同,任一组音符对应的音频数据的音高比对过程为:
步骤301、根据公式对标准旋律曲目的人声音频数据的第p个音符对应的音频数据f1 p(t)进行傅里叶变换,得到f1 p(t)的傅里叶变换信号F1 p(ω),同时对测试音频数据对应的音符对应的音频数据进行傅里叶变换,得到的傅里叶变换信号其中,F[·]为傅里叶变换函数,p为标准旋律曲目中音符的编号,t为时间变量,ω为角频率变量;
步骤302、根据公式计算F1 p(ω)的倒谱信号和的倒谱信号倒谱信号的周期和f1 p(t)的周期一致,通过倒谱信号的周期获取f1 p(t)的周期,倒谱信号的周期与倒谱信号的基频互为倒数,倒谱信号的周期和的周期一致,通过倒谱信号的周期获取的周期,倒谱信号的周期与倒谱信号的基频互为倒数;
步骤303、根据公式计算对应的两个音符之间的音高差ΔC,其中,为倒谱信号的基频,为倒谱信号的基频;
本实施例中,步骤303中,当ΔC>0时,测试音频数据中指定音符的音高高于标准旋律曲目中对应音符的音高;当ΔC=0时,测试音频数据中指定音符的音高等于标准旋律曲目中对应音符的音高;当ΔC<0时,测试音频数据中指定音符的音高低于标准旋律曲目中对应音符的音高。
本实施例中,步骤303中音高阈值为30音分~50音分。
计算机将识别的测试音频数据中指定音符的音高与标准旋律曲目中对应音符的音高进行一一比对,对音高差不在音高阈值内的音符进行标记;
需要说明的是,识别音高时,对音频数据的指定音符对应的音频数据进行傅里叶变换,实现音频数据的指定音符时域向频域的转换,音高与基频之间存在直接关系,采用倒谱方法获取倒谱信号的周期,进而获取基频,通过测试音符的基频与标准音符的基频差获取对应的两个音符之间的音高差,当音高差为正,测试音频数据中指定音符的音高高于标准旋律曲目中对应音符的音高;当音高差等于0,测试音频数据中指定音符的音高等于标准旋律曲目中对应音符的音高;当音高差为负,测试音频数据中指定音符的音高低于标准旋律曲目中对应音符的音高,直观简洁。
步骤四、测试音频数据中节奏的识别:计算机对每组音符对应的音频数据的时长进行比对,每组音符对应的音频数据的时长的比对方法均相同,任一组音符对应的音频数据的时长比对过程为:
步骤401、计算机对标准旋律曲目的人声音频数据的第p个音符对应的音频数据f1 p(t)进行离散傅里叶变换,并对离散傅里叶变换后的标准频谱信号进行子频带划分,根据公式计算该离散傅里叶变换后的标准频谱信号的能量同时对测试音频数据对应的音符对应的音频数据进行离散傅里叶变换,并对离散傅里叶变换后的测试频谱信号进行子频带划分,根据公式计算该离散傅里叶变换后的测试频谱信号的能量其中,q为划分的子频带的编号且q=1,2,…,Q,Q为不小于10的正整数,F1 p(q)为第p个音符对应的音频数据f1 p(t)离散傅里叶变换后的标准频谱信号中第q个子频带的幅值,为测试音频数据对应的音符对应的音频数据离散傅里叶变换后的测试频谱信号中第q个子频带的幅值;
步骤402、根据公式计算标准旋律曲目的人声音频数据的第p个音符对应的所有子频带的能量和与标准旋律曲目的人声音频数据的第p-1个音符对应的所有子频带的能量和之间的欧几里得距离
根据公式计算相邻两个测试音频数据对应的音符对应的所有子频带的能量和之间的欧几里得距离
步骤403、根据公式计算对第q个子频带的偏导数当表明第p个标准频谱信号中第q个子频带的能量高于第p-1个标准频谱信号中第q个子频带的能量,此处为标准旋律曲目中第p个音符起始点;当表明第p个标准频谱信号中第q个子频带的能量不高于第p-1个标准频谱信号中第q个子频带的能量,此处非标准旋律曲目第p个音符起始点;
根据公式计算对第q个子频带的偏导数当表明第p个测试频谱信号中第q个子频带的能量高于第p-1个测试频谱信号中第q个子频带的能量,此处为测试音频数据第p个音符起始点;当表明第p个测试频谱信号中第q个子频带的能量不高于第p-1个测试频谱信号中第q个子频带的能量,此处非测试音频数据第p个音符起始点;
步骤404、将标准旋律曲目的人声音频数据的第p+1个音符视为标准旋律曲目的人声音频数据的第p个音符,同时将测试音频数据的第p+1个音符视为测试音频数据的第p个音符,循环步骤401至步骤403,获取标准旋律曲目中第p+1个音符起始点和测试音频数据第p+1个音符起始点;
标准旋律曲目中第p+1个音符起始点,即为标准旋律曲目中第p个音符结束点,标准旋律曲目中第p+1个音符起始点与标准旋律曲目中第p个音符起始点之间的时间间隔即为标准旋律曲目中第p个音符对应的音频数据的时长;
测试音频数据中第p+1个音符起始点,即为测试音频数据中第p个音符结束点,测试音频数据中第p+1个音符起始点与测试音频数据中第p个音符起始点之间的时间间隔即为测试音频数据的第p个音符对应的音频数据的时长;
计算机将识别的测试音频数据中指定音符的时长与标准旋律曲目中对应音符的时长进行一一比对,对时长差不在时长阈值内的音符进行标记,实现测试音频数据中节奏的识别。
需要说明的是,通过计算相邻两音符对应的所有子频带的能量和之间的欧几里得距离,进而获取频谱信号中相邻两个子频带的能量高低,能量增加是由于有新的音符的产生,因此可确定音符的起始时间,通过两个音符的起始时间差可锁定一个音符的时长,识别简单,准确性高。
本发明使用时,如图3至图5所示,选取三段旋律,任一段旋律测试时,首先利用MIDI文件自动生成五线谱,训练好的深度学习网络模型对标准旋律曲目对应的人声音频数据进行音符识别,并获得不同音符分割后的数据信息,计算每个音符对应的频率信息,并将其与音高进行转换,设置音高差异阈值为40音分,比较标准音频数据和测试音频数据中对应音符音高之间的差异,图3至图5中,黑色的音符表示其音准评估正确;灰色的音符表示其音准评估有误,其中,有误音符下侧的箭头表示音高有误,箭头指向上方,表示音高唱高了;箭头指向下方,表示音高唱低了;有误音符下侧出现时长标尺表示节奏有误,时长标尺中心线上侧的横线表示标准音频中对应音符的时长,时长标尺中心线下侧的横线表示测试音频中音符的时长,通过时长标尺中心线上下侧两个横线的起停时间,确定测试人员试唱节奏,当时长标尺中心线下侧的横线起点位于时长标尺中心线上侧的横线起点的左侧,表面该音符唱快了;当时长标尺中心线下侧的横线结束点位于时长标尺中心线上侧的横线起点的左侧,表面该音符唱快了;当时长标尺中心线下侧的横线起点位于时长标尺中心线上侧的横线起点的右侧,表面该音符唱慢了;当时长标尺中心线下侧的横线结束点位于时长标尺中心线上侧的横线起点的右侧,表面该音符唱慢了。
本发明方法步骤简单,在识别音符的基础上,抓住音高和节奏两个音乐要素,避免了对单个要素进行评估的片面性,具有较高的识别率,能够帮助学习者纠正音高和节奏的错误,并给予及时、有效的评价指导,对优化传统教育模式具有实际应用价值。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何限制,凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化,均仍属于本发明技术方案的保护范围内。
Claims (4)
1.基于深度卷积神经网络DCNN和CTC算法的音准评估方法,其特征在于,该方法包括以下步骤:
步骤一、训练深度学习网络模型,过程如下:
步骤101、利用音频录制设备采集专业歌唱家在规定时间内的多组人声音频数据,并传输存储至计算机,在计算机中对每组人声音频数据按照人名和音乐片段编号进行旋律命名,并对每组人声音频数据配备一个MIDI文件,多组人声音频数据构成标准音频数据集;
步骤102、计算机对标准音频数据集中每一组人声音频数据进行特征提取,每组人声音频数据的特征提取方法均相同,任一组人声音频数据的特征提取过程为:
步骤1021、计算机对人声音频数据进行分帧,每帧音频信号的帧长为10ms~30ms,连续相邻的两帧音频信号相重叠;
步骤1022、根据公式计算机对该组人声音频数据中音频信号分帧序列Sn进行加窗处理,得到音频信号加窗分帧序列S'n,其中,N为每帧音频信号的采样点数,n为每帧音频信号的采样点的编号且n=0,2,…,N-1;
步骤1023、根据公式计算机对加窗音频信号进行快速傅里叶变化,得到加窗音频信号的快速傅里叶变化信号X(k);
根据公式magX(k)=abs(X(k)),计算加窗音频信号的快速傅里叶变化信号X(k)的模值magX(k),其中,abs(·)为求模函数;
步骤1024、根据公式X'(k)=log(1+magX(k)),计算机对加窗音频信号的快速傅里叶变化信号X(k)的模值magX(k)进行归一化处理,得到magX(k)的归一化结果X'(k);
步骤1025、利用magX(k)的归一化结果X'(k)生成的该组人声音频数据特征语谱图;
步骤103、计算机利用深度卷积神经网络DCNN和CTC语音识别算法构建深度学习网络模型,深度学习网络模型由输入层I1、卷积层C1、卷积层C2、池化层P1、卷积层C3、卷积层C4、池化层P2、变换层ReShape、密集连接层Dense和输出层O1构成,其中,卷积层C1、卷积层C2、卷积层C3和卷积层C4均采用3×3的卷积核,池化层P1采用2×2的池化窗口,池化层P2采用1×1的池化窗口;
每组人声音频数据特征语谱图作为深度学习网络模型的输入层I1,深度学习网络模型的输出层O1输出的为每组人声音频的音符;
计算机利用标准音频数据集,训练深度学习网络模型,直至深度学习网络模型的输出层O1输出的音符正确率大于80%,得到训练好的深度学习网络模型;
步骤二、测试音频数据中音符的识别:测试人员在计算机中选择试唱的标准旋律曲目,该标准旋律曲目对应的MIDI文件生成五线谱,训练好的深度学习网络模型对标准旋律曲目对应的人声音频数据进行音符识别,并通过计算机显示;
同时,测试人员利用音频录制设备采集测试人员的测试音频数据,并传输存储至计算机中,计算机利用训练好的深度学习网络模型对测试音频数据进行音符识别;
计算机将识别的测试音频数据的音符与标准旋律曲目对应的人声音频数据的音符进行一一匹配,对匹配错误的音符进行标记;
步骤三、测试音频数据中音高的识别:计算机对标准旋律曲目对应的人声音频数据的音符进行分割,同时对识别的测试音频数据的音符进行分割,获取多组相对应音符对应的音频数据,对每组音符对应的音频数据的音高进行比对,每组音符对应的音频数据的音高的比对方法均相同,任一组音符对应的音频数据的音高比对过程为:
步骤301、根据公式对标准旋律曲目的人声音频数据的第p个音符对应的音频数据f1 p(t)进行傅里叶变换,得到f1 p(t)的傅里叶变换信号F1 p(ω),同时对测试音频数据对应的音符对应的音频数据进行傅里叶变换,得到的傅里叶变换信号其中,F[·]为傅里叶变换函数,p为标准旋律曲目中音符的编号,t为时间变量,ω为角频率变量;
步骤302、根据公式计算F1 p(ω)的倒谱信号和的倒谱信号倒谱信号的周期和f1 p(t)的周期一致,通过倒谱信号的周期获取f1 p(t)的周期,倒谱信号的周期与倒谱信号的基频互为倒数,倒谱信号的周期和的周期一致,通过倒谱信号的周期获取的周期,倒谱信号的周期与倒谱信号的基频互为倒数;
步骤303、根据公式计算对应的两个音符之间的音高差ΔC,其中,为倒谱信号的基频,为倒谱信号的基频;
计算机将识别的测试音频数据中指定音符的音高与标准旋律曲目中对应音符的音高进行一一比对,对音高差不在音高阈值内的音符进行标记;
步骤四、测试音频数据中节奏的识别:计算机对每组音符对应的音频数据的时长进行比对,每组音符对应的音频数据的时长的比对方法均相同,任一组音符对应的音频数据的时长比对过程为:
步骤401、计算机对标准旋律曲目的人声音频数据的第p个音符对应的音频数据f1 p(t)进行离散傅里叶变换,并对离散傅里叶变换后的标准频谱信号进行子频带划分,根据公式计算该离散傅里叶变换后的标准频谱信号的能量同时对测试音频数据对应的音符对应的音频数据进行离散傅里叶变换,并对离散傅里叶变换后的测试频谱信号进行子频带划分,根据公式计算该离散傅里叶变换后的测试频谱信号的能量其中,q为划分的子频带的编号且q=1,2,…,Q,Q为不小于10的正整数,F1 p(q)为第p个音符对应的音频数据f1 p(t)离散傅里叶变换后的标准频谱信号中第q个子频带的幅值,为测试音频数据对应的音符对应的音频数据离散傅里叶变换后的测试频谱信号中第q个子频带的幅值;
步骤402、根据公式计算标准旋律曲目的人声音频数据的第p个音符对应的所有子频带的能量和与标准旋律曲目的人声音频数据的第p-1个音符对应的所有子频带的能量和之间的欧几里得距离
根据公式计算相邻两个测试音频数据对应的音符对应的所有子频带的能量和之间的欧几里得距离
步骤403、根据公式计算对第q个子频带的偏导数当表明第p个标准频谱信号中第q个子频带的能量高于第p-1个标准频谱信号中第q个子频带的能量,此处为标准旋律曲目中第p个音符起始点;当表明第p个标准频谱信号中第q个子频带的能量不高于第p-1个标准频谱信号中第q个子频带的能量,此处非标准旋律曲目第p个音符起始点;
根据公式计算对第q个子频带的偏导数当表明第p个测试频谱信号中第q个子频带的能量高于第p-1个测试频谱信号中第q个子频带的能量,此处为测试音频数据第p个音符起始点;当表明第p个测试频谱信号中第q个子频带的能量不高于第p-1个测试频谱信号中第q个子频带的能量,此处非测试音频数据第p个音符起始点;
步骤404、将标准旋律曲目的人声音频数据的第p+1个音符视为标准旋律曲目的人声音频数据的第p个音符,同时将测试音频数据的第p+1个音符视为测试音频数据的第p个音符,循环步骤401至步骤403,获取标准旋律曲目中第p+1个音符起始点和测试音频数据第p+1个音符起始点;
标准旋律曲目中第p+1个音符起始点,即为标准旋律曲目中第p个音符结束点,标准旋律曲目中第p+1个音符起始点与标准旋律曲目中第p个音符起始点之间的时间间隔即为标准旋律曲目中第p个音符对应的音频数据的时长;
测试音频数据中第p+1个音符起始点,即为测试音频数据中第p个音符结束点,测试音频数据中第p+1个音符起始点与测试音频数据中第p个音符起始点之间的时间间隔即为测试音频数据的第p个音符对应的音频数据的时长;
计算机将识别的测试音频数据中指定音符的时长与标准旋律曲目中对应音符的时长进行一一比对,对时长差不在时长阈值内的音符进行标记,实现测试音频数据中节奏的识别。
2.按照权利要求1所述的基于深度卷积神经网络DCNN和CTC算法的音准评估方法,其特征在于:步骤1021中计算机对人声音频数据进行分帧,每帧音频信号的帧长为25ms,连续相邻的两帧音频信号重叠率为50%~85%。
3.按照权利要求1所述的基于深度卷积神经网络DCNN和CTC算法的音准评估方法,其特征在于:步骤303中,当ΔC>0时,测试音频数据中指定音符的音高高于标准旋律曲目中对应音符的音高;当ΔC=0时,测试音频数据中指定音符的音高等于标准旋律曲目中对应音符的音高;当ΔC<0时,测试音频数据中指定音符的音高低于标准旋律曲目中对应音符的音高。
4.按照权利要求1所述的基于深度卷积神经网络DCNN和CTC算法的音准评估方法,其特征在于:步骤303中音高阈值为30音分~50音分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910633546.3A CN110364184B (zh) | 2019-07-15 | 2019-07-15 | 基于深度卷积神经网络dcnn和ctc算法的音准评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910633546.3A CN110364184B (zh) | 2019-07-15 | 2019-07-15 | 基于深度卷积神经网络dcnn和ctc算法的音准评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110364184A true CN110364184A (zh) | 2019-10-22 |
CN110364184B CN110364184B (zh) | 2022-01-28 |
Family
ID=68219273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910633546.3A Active CN110364184B (zh) | 2019-07-15 | 2019-07-15 | 基于深度卷积神经网络dcnn和ctc算法的音准评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110364184B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179691A (zh) * | 2019-12-31 | 2020-05-19 | 苏州缪斯谈谈科技有限公司 | 一种音符时长显示方法、装置、电子设备及存储介质 |
CN111508480A (zh) * | 2020-04-20 | 2020-08-07 | 网易(杭州)网络有限公司 | 音频识别模型的训练方法、音频识别方法、装置及设备 |
CN114613390A (zh) * | 2022-02-28 | 2022-06-10 | 杭州小伴熊科技有限公司 | 一种音乐教学方法及系统 |
CN116884438A (zh) * | 2023-09-08 | 2023-10-13 | 杭州育恩科技有限公司 | 基于声学特征的练琴音准检测方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107369359A (zh) * | 2017-09-20 | 2017-11-21 | 郑州幼儿师范高等专科学校 | 一种声乐发音训练系统 |
CN107705775A (zh) * | 2017-08-17 | 2018-02-16 | 广东工业大学 | 一种基于rbf神经网络的多种乐器调音方法 |
CN109272990A (zh) * | 2018-09-25 | 2019-01-25 | 江南大学 | 基于卷积神经网络的语音识别方法 |
US10192556B2 (en) * | 2015-06-19 | 2019-01-29 | Google Llc | Speech recognition with acoustic models |
CN208622269U (zh) * | 2018-04-23 | 2019-03-19 | 西安音乐学院 | 一种声乐训练辅助装置 |
CN109584904A (zh) * | 2018-12-24 | 2019-04-05 | 厦门大学 | 应用于基础音乐视唱教育的视唱音频唱名识别建模方法 |
CN109979488A (zh) * | 2019-03-14 | 2019-07-05 | 浙江大学 | 基于重音分析的人声转乐谱系统 |
-
2019
- 2019-07-15 CN CN201910633546.3A patent/CN110364184B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10192556B2 (en) * | 2015-06-19 | 2019-01-29 | Google Llc | Speech recognition with acoustic models |
CN107705775A (zh) * | 2017-08-17 | 2018-02-16 | 广东工业大学 | 一种基于rbf神经网络的多种乐器调音方法 |
CN107369359A (zh) * | 2017-09-20 | 2017-11-21 | 郑州幼儿师范高等专科学校 | 一种声乐发音训练系统 |
CN208622269U (zh) * | 2018-04-23 | 2019-03-19 | 西安音乐学院 | 一种声乐训练辅助装置 |
CN109272990A (zh) * | 2018-09-25 | 2019-01-25 | 江南大学 | 基于卷积神经网络的语音识别方法 |
CN109584904A (zh) * | 2018-12-24 | 2019-04-05 | 厦门大学 | 应用于基础音乐视唱教育的视唱音频唱名识别建模方法 |
CN109979488A (zh) * | 2019-03-14 | 2019-07-05 | 浙江大学 | 基于重音分析的人声转乐谱系统 |
Non-Patent Citations (3)
Title |
---|
史蒂芬•M.托马舍克著: "《科学图书馆 音乐科学实验》", 31 January 2012 * |
王金甲: "基于特征融合进行活动识别的DCNN方法", 《高技术通讯》 * |
颜春英等: "《音乐理论创新与演奏》", 31 January 2017 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179691A (zh) * | 2019-12-31 | 2020-05-19 | 苏州缪斯谈谈科技有限公司 | 一种音符时长显示方法、装置、电子设备及存储介质 |
CN111508480A (zh) * | 2020-04-20 | 2020-08-07 | 网易(杭州)网络有限公司 | 音频识别模型的训练方法、音频识别方法、装置及设备 |
CN114613390A (zh) * | 2022-02-28 | 2022-06-10 | 杭州小伴熊科技有限公司 | 一种音乐教学方法及系统 |
CN116884438A (zh) * | 2023-09-08 | 2023-10-13 | 杭州育恩科技有限公司 | 基于声学特征的练琴音准检测方法及系统 |
CN116884438B (zh) * | 2023-09-08 | 2023-12-01 | 杭州育恩科技有限公司 | 基于声学特征的练琴音准检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110364184B (zh) | 2022-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110364184A (zh) | 基于深度卷积神经网络dcnn和ctc算法的音准评估方法 | |
Lee et al. | Acoustic chord transcription and key extraction from audio using key-dependent HMMs trained on synthesized audio | |
Barbancho et al. | Automatic transcription of guitar chords and fingering from audio | |
US8535236B2 (en) | Apparatus and method for analyzing a sound signal using a physiological ear model | |
CN104143324B (zh) | 一种乐音音符识别方法 | |
CN105427708A (zh) | 一种声乐发音训练系统 | |
CN105825852A (zh) | 一种英语口语朗读考试评分方法 | |
CN102723079B (zh) | 基于稀疏表示的音乐和弦自动识别方法 | |
CN103366759A (zh) | 语音数据的测评方法和装置 | |
CN103366735B (zh) | 语音数据的映射方法和装置 | |
CN116206496B (zh) | 一种基于人工智能的英语口语练习分析比对系统 | |
CN108876951A (zh) | 一种基于声音识别的教学考勤方法 | |
CN110473548B (zh) | 一种基于声学信号的课堂交互网络分析方法 | |
CN108549675A (zh) | 一种基于大数据及神经网络的钢琴教学方法 | |
CN114863937A (zh) | 基于深度迁移学习与XGBoost的混合鸟鸣识别方法 | |
Hou et al. | Transfer learning for improving singing-voice detection in polyphonic instrumental music | |
Pikrakis et al. | Tracking melodic patterns in flamenco singing by analyzing polyphonic music recordings | |
CN202758611U (zh) | 语音数据的测评装置 | |
CN110853457B (zh) | 可互动的音乐教学指导方法 | |
CN112201100A (zh) | 一种中小学艺术素质测评中音乐演唱评分系统和方法 | |
CN113779301A (zh) | 一种音乐教学方法及装置 | |
CN114678039A (zh) | 一种基于深度学习的歌唱评价方法 | |
CN111210845B (zh) | 一种基于改进自相关特征的病理语音检测装置 | |
Tian | Multi-note intelligent fusion method of music based on artificial neural network | |
Yang et al. | On the design of solfeggio audio machine assessment system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |