CN110364184A

CN110364184A - 基于深度卷积神经网络dcnn和ctc算法的音准评估方法

Info

Publication number: CN110364184A
Application number: CN201910633546.3A
Authority: CN
Inventors: 冯勇; 王薇; 许鹏飞; 康金龙
Original assignee: Shaanxi Hesheng Technology Co Ltd; XI'AN CONSERVATORY OF MUSIC
Current assignee: Shaanxi Hesheng Technology Co Ltd; XI'AN CONSERVATORY OF MUSIC
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2019-10-22
Anticipated expiration: 2039-07-15
Also published as: CN110364184B

Abstract

本发明公开了一种基于深度卷积神经网络DCNN和CTC算法的音准评估方法，包括步骤：一、训练深度学习网络模型；二、测试音频数据中音符的识别；三、测试音频数据中音高的识别；四、测试音频数据中节奏的识别。本发明利用深度学习方法对测试旋律中的音符进行识别与分割，然后针对分割后的每一个音符提取其音高和时长的特征信息，并与标准音频进行对比和分析，以给出评价结果，以达到音乐教学的目的，同时给出形象的可视化标记，以实现能够为音乐基础教学的有效开展提供较为可靠全面的音准评估解决方案，评估音频质量。

Description

基于深度卷积神经网络DCNN和CTC算法的音准评估方法

技术领域

本发明属于音准评估技术领域，具体涉及一种基于深度卷积神经网络DCNN和CTC算法的音乐教学中音准评估方法。

背景技术

音高、音强、音长、音色是音的四种性质。其中，音高和音长对音准的质量具有决定性意义。在音乐教育领域，视唱练耳是最重要的音乐基础课程，该课程通过视唱和听音等途径和手段，培养学习者正确的音准、节奏和乐谱视唱能力，使学习者具备专业的音乐素养，并促进其音乐审美能力的提高。然而，当前的视唱练耳教学普遍是19世纪的“工厂模式”，所有学生在同一时间、地点，以相同的速度及方式学习，采用“流水线”模式，逐年级培养。老师投入教学、辅导与评估学生的时间与精力非常有限，学习同质化情况严重，无法较好的满足不同的学习需求。

目前，国外主要的音频对比，即旋律匹配的方法有字符串匹配、编辑距离、动态规划、线性伸缩、HMM等。字符串匹配方法就是用字符串来表示旋律，然后通过字符串检索、快速匹配等方法进行匹配，通过从数据库中检索与哼唱旋律的特征字符串间编辑距离最小的歌曲作为匹配结果。动态规划是计算机科学中常用的用于求解可分解为子问题的最优化方法，因此较多的旋律匹配的研究都基于动态规划的方法，现有还有使用多次的动态规划并同时估计高音偏移以达到最好的匹配效果，在估计音高偏移时使用启发式估计算法，这种基于动态规划的方法能够满足一般哼唱水平的人的使用要求，但动态规划方法匹配时间长，计算量大。线性伸缩匹配的方法作为距离函数并利用树结构搜索哼唱旋律的最近邻作为检索结果。隐马尔可夫模型(HMM)作为语音识别的重要工具，使用HMM进行语音识别和旋律匹配时，数据库中的旋律表示为HMM的模型，而查询旋律则作为观察序列。然后，在旋律匹配时利用HMM的前向算法计算匹配的相似度作为匹配概率，该方法的局限是对于查询旋律长度大于HMM中的最长路径时会导致错误。因此，如何有效地识别旋律中的音符，并且对每个音符的音高和音长与标准音频进行对比和分析，以对测试旋律中每个音符的音高和音长进行准确评估是急需解决的重点问题。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于深度卷积神经网络DCNN和CTC算法的音准评估方法，利用深度学习方法对测试旋律中的音符进行识别与分割，然后针对分割后的每一个音符提取其音高和时长的特征信息，并与标准音频进行对比和分析，以给出评价结果，以达到音乐教学的目的，同时给出形象的可视化标记，以实现能够为音乐基础教学的有效开展提供较为可靠全面的音准评估解决方案，评估音频质量，便于推广使用。

为解决上述技术问题，本发明采用的技术方案是：基于深度卷积神经网络DCNN和CTC算法的音准评估方法，其特征在于，该方法包括以下步骤：

步骤一、训练深度学习网络模型，过程如下：

步骤101、利用音频录制设备采集专业歌唱家在规定时间内的多组人声音频数据，并传输存储至计算机，在计算机中对每组人声音频数据按照人名和音乐片段编号进行旋律命名，并对每组人声音频数据配备一个MIDI文件，多组人声音频数据构成标准音频数据集；

步骤102、计算机对标准音频数据集中每一组人声音频数据进行特征提取，每组人声音频数据的特征提取方法均相同，任一组人声音频数据的特征提取过程为：

步骤1021、计算机对人声音频数据进行分帧，每帧音频信号的帧长为10ms～30ms，连续相邻的两帧音频信号相重叠；

步骤1022、根据公式计算机对该组人声音频数据中音频信号分帧序列S_n进行加窗处理，得到音频信号加窗分帧序列S'_n，其中，N为每帧音频信号的采样点数，n为每帧音频信号的采样点的编号且n＝0,2，…，N-1；

步骤1023、根据公式计算机对加窗音频信号进行快速傅里叶变化，得到加窗音频信号的快速傅里叶变化信号X(k)；

根据公式mag_X(k)＝abs(X(k))，计算加窗音频信号的快速傅里叶变化信号X(k)的模值mag_X(k)，其中，abs(·)为求模函数；

步骤1024、根据公式X'(k)＝log(1+mag_X(k))，计算机对加窗音频信号的快速傅里叶变化信号X(k)的模值mag_X(k)进行归一化处理，得到mag_X(k)的归一化结果X'(k)；

步骤1025、利用mag_X(k)的归一化结果X'(k)生成的该组人声音频数据特征语谱图；

步骤103、计算机利用深度卷积神经网络DCNN和CTC语音识别算法构建深度学习网络模型，深度学习网络模型由输入层I₁、卷积层C₁、卷积层C₂、池化层P₁、卷积层C₃、卷积层C₄、池化层P₂、变换层ReShape、密集连接层Dense和输出层O₁构成，其中，卷积层C₁、卷积层C₂、卷积层C₃和卷积层C₄均采用3×3的卷积核，池化层P₁采用2×2的池化窗口，池化层P₂采用1×1的池化窗口；

每组人声音频数据特征语谱图作为深度学习网络模型的输入层I₁，深度学习网络模型的输出层O₁输出的为每组人声音频的音符；

计算机利用标准音频数据集，训练深度学习网络模型，直至深度学习网络模型的输出层O₁输出的音符正确率大于80％，得到训练好的深度学习网络模型；

步骤二、测试音频数据中音符的识别：测试人员在计算机中选择试唱的标准旋律曲目，该标准旋律曲目对应的MIDI文件生成五线谱，训练好的深度学习网络模型对标准旋律曲目对应的人声音频数据进行音符识别，并通过计算机显示；

同时，测试人员利用音频录制设备采集测试人员的测试音频数据，并传输存储至计算机中，计算机利用训练好的深度学习网络模型对测试音频数据进行音符识别；

计算机将识别的测试音频数据的音符与标准旋律曲目对应的人声音频数据的音符进行一一匹配，对匹配错误的音符进行标记；

步骤三、测试音频数据中音高的识别：计算机对标准旋律曲目对应的人声音频数据的音符进行分割，同时对识别的测试音频数据的音符进行分割，获取多组相对应音符对应的音频数据，对每组音符对应的音频数据的音高进行比对，每组音符对应的音频数据的音高的比对方法均相同，任一组音符对应的音频数据的音高比对过程为：

步骤301、根据公式对标准旋律曲目的人声音频数据的第p个音符对应的音频数据f₁ ^p(t)进行傅里叶变换，得到f₁ ^p(t)的傅里叶变换信号F₁ ^p(ω)，同时对测试音频数据对应的音符对应的音频数据进行傅里叶变换，得到的傅里叶变换信号其中，F[·]为傅里叶变换函数，p为标准旋律曲目中音符的编号，t为时间变量，ω为角频率变量；

步骤302、根据公式计算F₁ ^p(ω)的倒谱信号和的倒谱信号倒谱信号的周期和f₁ ^p(t)的周期一致，通过倒谱信号的周期获取f₁ ^p(t)的周期，倒谱信号的周期与倒谱信号的基频互为倒数，倒谱信号的周期和的周期一致，通过倒谱信号的周期获取的周期，倒谱信号的周期与倒谱信号的基频互为倒数；

步骤303、根据公式计算对应的两个音符之间的音高差ΔC，其中，为倒谱信号的基频，为倒谱信号的基频；

计算机将识别的测试音频数据中指定音符的音高与标准旋律曲目中对应音符的音高进行一一比对，对音高差不在音高阈值内的音符进行标记；

步骤四、测试音频数据中节奏的识别：计算机对每组音符对应的音频数据的时长进行比对，每组音符对应的音频数据的时长的比对方法均相同，任一组音符对应的音频数据的时长比对过程为：

步骤401、计算机对标准旋律曲目的人声音频数据的第p个音符对应的音频数据f₁ ^p(t)进行离散傅里叶变换，并对离散傅里叶变换后的标准频谱信号进行子频带划分，根据公式计算该离散傅里叶变换后的标准频谱信号的能量同时对测试音频数据对应的音符对应的音频数据进行离散傅里叶变换，并对离散傅里叶变换后的测试频谱信号进行子频带划分，根据公式计算该离散傅里叶变换后的测试频谱信号的能量其中，q为划分的子频带的编号且q＝1,2，…，Q，Q为不小于10的正整数，F₁ ^p(q)为第p个音符对应的音频数据f₁ ^p(t)离散傅里叶变换后的标准频谱信号中第q个子频带的幅值，为测试音频数据对应的音符对应的音频数据离散傅里叶变换后的测试频谱信号中第q个子频带的幅值；

步骤402、根据公式计算标准旋律曲目的人声音频数据的第p个音符对应的所有子频带的能量和与标准旋律曲目的人声音频数据的第p-1个音符对应的所有子频带的能量和之间的欧几里得距离

根据公式计算相邻两个测试音频数据对应的音符对应的所有子频带的能量和之间的欧几里得距离

步骤403、根据公式计算对第q个子频带的偏导数当表明第p个标准频谱信号中第q个子频带的能量高于第p-1个标准频谱信号中第q个子频带的能量，此处为标准旋律曲目中第p个音符起始点；当表明第p个标准频谱信号中第q个子频带的能量不高于第p-1个标准频谱信号中第q个子频带的能量，此处非标准旋律曲目第p个音符起始点；

根据公式计算对第q个子频带的偏导数当表明第p个测试频谱信号中第q个子频带的能量高于第p-1个测试频谱信号中第q个子频带的能量，此处为测试音频数据第p个音符起始点；当表明第p个测试频谱信号中第q个子频带的能量不高于第p-1个测试频谱信号中第q个子频带的能量，此处非测试音频数据第p个音符起始点；

步骤404、将标准旋律曲目的人声音频数据的第p+1个音符视为标准旋律曲目的人声音频数据的第p个音符，同时将测试音频数据的第p+1个音符视为测试音频数据的第p个音符，循环步骤401至步骤403，获取标准旋律曲目中第p+1个音符起始点和测试音频数据第p+1个音符起始点；

标准旋律曲目中第p+1个音符起始点，即为标准旋律曲目中第p个音符结束点，标准旋律曲目中第p+1个音符起始点与标准旋律曲目中第p个音符起始点之间的时间间隔即为标准旋律曲目中第p个音符对应的音频数据的时长；

测试音频数据中第p+1个音符起始点，即为测试音频数据中第p个音符结束点，测试音频数据中第p+1个音符起始点与测试音频数据中第p个音符起始点之间的时间间隔即为测试音频数据的第p个音符对应的音频数据的时长；

计算机将识别的测试音频数据中指定音符的时长与标准旋律曲目中对应音符的时长进行一一比对，对时长差不在时长阈值内的音符进行标记，实现测试音频数据中节奏的识别。

上述的基于深度卷积神经网络DCNN和CTC算法的音准评估方法，其特征在于：步骤1021中计算机对人声音频数据进行分帧，每帧音频信号的帧长为25ms，连续相邻的两帧音频信号重叠率为50％～85％。

上述的基于深度卷积神经网络DCNN和CTC算法的音准评估方法，其特征在于：步骤303中，当ΔC>0时，测试音频数据中指定音符的音高高于标准旋律曲目中对应音符的音高；当ΔC＝0时，测试音频数据中指定音符的音高等于标准旋律曲目中对应音符的音高；当ΔC<0时，测试音频数据中指定音符的音高低于标准旋律曲目中对应音符的音高。

上述的基于深度卷积神经网络DCNN和CTC算法的音准评估方法，其特征在于：步骤303中音高阈值为30音分～50音分。

本发明与现有技术相比具有以下优点：

1、本发明利用专业歌唱家在规定时间内的多组人声音频数据训练深度学习网络模型，深度学习网络模型由输入层I₁、卷积层C₁、卷积层C₂、池化层P₁、卷积层C₃、卷积层C₄、池化层P₂、变换层ReShape、密集连接层Dense和输出层O₁构成，卷积层C₃和卷积层C₄中滤波器数目多于卷积层C₁和卷积层C₂中滤波器数目，池化层P₂的池化窗口小于池化层P₁的池化窗口，增强了深度卷积神经网络DCNN的表达能力，可以体现连续的历史数据和预测数据信息，保证了语音的长时相关性，具有更好的鲁棒性，计算速度快；同时，在深度卷积神经网络DCNN中结合CTC语音识别算法，CTC语音识别算法，将重复的元素合并，将静音符去除，实现整个模型的端到端训练，两个池化层的结构使得该端到端训练更加稳定，同时可以实现神经网络不定长度序列的输出，便于推广使用。

2、本发明将人声音频数据特征语谱图作为深度学习网络模型的输入层，将音调的语音识别问题转换为计算机视觉问题，进行“看图说话”，可靠稳定，使用效果好。

3、本发明在录制专业歌唱家在规定时间内的多组人声音频数据时，在计算机中对每组人声音频数据按照人名和音乐片段编号进行旋律命名，并对每组人声音频数据配备一个MIDI文件，在识别音准时，对应的MIDI文件自动生成五线谱，再利用训练好的深度学习网络模型对标准旋律曲目对应的人声音频数据进行音符识别，可视化效果好。

4、本发明识别音高时，对音频数据的指定音符对应的音频数据进行傅里叶变换，实现音频数据的指定音符时域向频域的转换，音高与基频之间存在直接关系，采用倒谱方法获取倒谱信号的周期，进而获取基频，通过测试音符的基频与标准音符的基频差获取对应的两个音符之间的音高差，当音高差为正，测试音频数据中指定音符的音高高于标准旋律曲目中对应音符的音高；当音高差等于0，测试音频数据中指定音符的音高等于标准旋律曲目中对应音符的音高；当音高差为负，测试音频数据中指定音符的音高低于标准旋律曲目中对应音符的音高，直观简洁。

5、本发明通过计算相邻两音符对应的所有子频带的能量和之间的欧几里得距离，进而获取频谱信号中相邻两个子频带的能量高低，能量增加是由于有新的音符的产生，因此可确定音符的起始时间，通过两个音符的起始时间差可锁定一个音符的时长，识别简单，准确性高，同时方法步骤简单，在识别音符的基础上，抓住音高和节奏两个音乐要素，避免了对单个要素进行评估的片面性，具有较高的识别率，能够帮助学习者纠正音高和节奏的错误，并给予及时、有效的评价指导，对优化传统教育模式具有实际应用价值，便于推广使用。

综上所述，本发明利用深度学习方法对测试旋律中的音符进行识别与分割，然后针对分割后的每一个音符提取其音高和时长的特征信息，并与标准音频进行对比和分析，以给出评价结果，以达到音乐教学的目的，同时给出形象的可视化标记，以实现能够为音乐基础教学的有效开展提供较为可靠全面的音准评估解决方案，评估音频质量，便于推广使用。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明方法的方法流程框图。

图2为本发明一组人声音频数据的特征语谱图。

图3为本发明实施例中第一组测试音频数据的音准与标准旋律曲目对应的人声音频数据的音准比对效果示意图。

图4为本发明实施例中第二组测试音频数据的音准与标准旋律曲目对应的人声音频数据的音准比对效果示意图。

图5为本发明实施例中第三组测试音频数据的音准与标准旋律曲目对应的人声音频数据的音准比对效果示意图。

具体实施方式

如图1和图2所示，本发明的基于深度卷积神经网络DCNN和CTC算法的音准评估方法，包括以下步骤：1.基于深度卷积神经网络DCNN和CTC算法的音准评估方法，其特征在于，该方法包括以下步骤：

步骤一、训练深度学习网络模型，过程如下：

本实施例中，步骤1021中计算机对人声音频数据进行分帧，每帧音频信号的帧长为25ms，连续相邻的两帧音频信号重叠率为50％～85％。

实际使用时，将人声音频数据特征语谱图作为深度学习网络模型的输入层，将音调的语音识别问题转换为计算机视觉问题，进行“看图说话”，可靠稳定，使用效果好。

需要说明的是，利用专业歌唱家在规定时间内的多组人声音频数据训练深度学习网络模型，深度学习网络模型由输入层I₁、卷积层C₁、卷积层C₂、池化层P₁、卷积层C₃、卷积层C₄、池化层P₂、变换层ReShape、密集连接层Dense和输出层O₁构成，卷积层C₃和卷积层C₄中滤波器数目多于卷积层C₁和卷积层C₂中滤波器数目，池化层P₂的池化窗口小于池化层P₁的池化窗口，增强了深度卷积神经网络DCNN的表达能力，可以体现连续的历史数据和预测数据信息，保证了语音的长时相关性，具有更好的鲁棒性，计算速度快；同时，在深度卷积神经网络DCNN中结合CTC语音识别算法，CTC语音识别算法，将重复的元素合并，将静音符去除，实现整个模型的端到端训练，两个池化层的结构使得该端到端训练更加稳定，同时可以实现神经网络不定长度序列的输出。

实际使用时，在录制专业歌唱家在规定时间内的多组人声音频数据时，在计算机中对每组人声音频数据按照人名和音乐片段编号进行旋律命名，并对每组人声音频数据配备一个MIDI文件，在识别音准时，对应的MIDI文件自动生成五线谱，再利用训练好的深度学习网络模型对标准旋律曲目对应的人声音频数据进行音符识别，可视化效果好。

本实施例中，步骤303中，当ΔC>0时，测试音频数据中指定音符的音高高于标准旋律曲目中对应音符的音高；当ΔC＝0时，测试音频数据中指定音符的音高等于标准旋律曲目中对应音符的音高；当ΔC<0时，测试音频数据中指定音符的音高低于标准旋律曲目中对应音符的音高。

本实施例中，步骤303中音高阈值为30音分～50音分。

需要说明的是，识别音高时，对音频数据的指定音符对应的音频数据进行傅里叶变换，实现音频数据的指定音符时域向频域的转换，音高与基频之间存在直接关系，采用倒谱方法获取倒谱信号的周期，进而获取基频，通过测试音符的基频与标准音符的基频差获取对应的两个音符之间的音高差，当音高差为正，测试音频数据中指定音符的音高高于标准旋律曲目中对应音符的音高；当音高差等于0，测试音频数据中指定音符的音高等于标准旋律曲目中对应音符的音高；当音高差为负，测试音频数据中指定音符的音高低于标准旋律曲目中对应音符的音高，直观简洁。

需要说明的是，通过计算相邻两音符对应的所有子频带的能量和之间的欧几里得距离，进而获取频谱信号中相邻两个子频带的能量高低，能量增加是由于有新的音符的产生，因此可确定音符的起始时间，通过两个音符的起始时间差可锁定一个音符的时长，识别简单，准确性高。

本发明使用时，如图3至图5所示，选取三段旋律，任一段旋律测试时，首先利用MIDI文件自动生成五线谱，训练好的深度学习网络模型对标准旋律曲目对应的人声音频数据进行音符识别，并获得不同音符分割后的数据信息，计算每个音符对应的频率信息，并将其与音高进行转换，设置音高差异阈值为40音分，比较标准音频数据和测试音频数据中对应音符音高之间的差异，图3至图5中，黑色的音符表示其音准评估正确；灰色的音符表示其音准评估有误，其中，有误音符下侧的箭头表示音高有误，箭头指向上方，表示音高唱高了；箭头指向下方，表示音高唱低了；有误音符下侧出现时长标尺表示节奏有误，时长标尺中心线上侧的横线表示标准音频中对应音符的时长，时长标尺中心线下侧的横线表示测试音频中音符的时长，通过时长标尺中心线上下侧两个横线的起停时间，确定测试人员试唱节奏，当时长标尺中心线下侧的横线起点位于时长标尺中心线上侧的横线起点的左侧，表面该音符唱快了；当时长标尺中心线下侧的横线结束点位于时长标尺中心线上侧的横线起点的左侧，表面该音符唱快了；当时长标尺中心线下侧的横线起点位于时长标尺中心线上侧的横线起点的右侧，表面该音符唱慢了；当时长标尺中心线下侧的横线结束点位于时长标尺中心线上侧的横线起点的右侧，表面该音符唱慢了。

本发明方法步骤简单，在识别音符的基础上，抓住音高和节奏两个音乐要素，避免了对单个要素进行评估的片面性，具有较高的识别率，能够帮助学习者纠正音高和节奏的错误，并给予及时、有效的评价指导，对优化传统教育模式具有实际应用价值。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何限制，凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化，均仍属于本发明技术方案的保护范围内。

Claims

1.基于深度卷积神经网络DCNN和CTC算法的音准评估方法，其特征在于，该方法包括以下步骤：

步骤一、训练深度学习网络模型，过程如下：

2.按照权利要求1所述的基于深度卷积神经网络DCNN和CTC算法的音准评估方法，其特征在于：步骤1021中计算机对人声音频数据进行分帧，每帧音频信号的帧长为25ms，连续相邻的两帧音频信号重叠率为50％～85％。

3.按照权利要求1所述的基于深度卷积神经网络DCNN和CTC算法的音准评估方法，其特征在于：步骤303中，当ΔC>0时，测试音频数据中指定音符的音高高于标准旋律曲目中对应音符的音高；当ΔC＝0时，测试音频数据中指定音符的音高等于标准旋律曲目中对应音符的音高；当ΔC<0时，测试音频数据中指定音符的音高低于标准旋律曲目中对应音符的音高。

4.按照权利要求1所述的基于深度卷积神经网络DCNN和CTC算法的音准评估方法，其特征在于：步骤303中音高阈值为30音分～50音分。