CN114678039A - 一种基于深度学习的歌唱评价方法 - Google Patents
一种基于深度学习的歌唱评价方法 Download PDFInfo
- Publication number
- CN114678039A CN114678039A CN202210388559.0A CN202210388559A CN114678039A CN 114678039 A CN114678039 A CN 114678039A CN 202210388559 A CN202210388559 A CN 202210388559A CN 114678039 A CN114678039 A CN 114678039A
- Authority
- CN
- China
- Prior art keywords
- evaluation
- singing
- audio
- deep learning
- evaluation value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 114
- 238000013135 deep learning Methods 0.000 title claims abstract description 22
- 230000033764 rhythmic process Effects 0.000 claims abstract description 29
- 238000013210 evaluation model Methods 0.000 claims abstract description 20
- 238000004140 cleaning Methods 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 8
- 230000008030 elimination Effects 0.000 claims description 6
- 238000003379 elimination reaction Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 238000000926 separation method Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 239000000523 sample Substances 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005094 computer simulation Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000013074 reference sample Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供了歌唱评价技术领域的一种基于深度学习的歌唱评价方法,包括如下步骤:步骤S10、获取大量的歌唱数据,对各所述歌唱数据进行清洗;步骤S20、提取清洗后的各所述歌唱数据的音频特征,构建特征数据集;步骤S30、创建一音频对齐模型,基于所述音频对齐模型对特征数据集中的各音频特征进行对齐;步骤S40、基于深度学习创建一多维度评价模型,利用对齐后的所述特征数据集对多维度评价模型进行训练;步骤S50、获取待评价音频,将所述待评价音频输入多维度评价模型,得到音准评价值、节奏评价值以及发音评价值并进行展示。本发明的优点在于:极大的提升了歌唱评价的准确性以及可解释性。
Description
技术领域
本发明涉及歌唱评价技术领域,特别指一种基于深度学习的歌唱评价方法。
背景技术
随着音乐教育逐渐受到社会的关注,参与音乐学习和从事音乐教育的人数在持续增长。任何学科在学习的初始阶段,收到及时的评价和反馈都是非常重要的,音乐学习也不例外。音乐的学习主要是对熟练度的积累过程,及早的认识到自身的不足,可以让学生在学习过程中避免将初期的错误在日复一日的练习后培养成根深蒂固、难以纠正的坏毛病。然而在音乐学习过程中,除非是生长在音乐家庭的学生,否则无法做到时刻有老师陪伴在身边,学生接受不到即时、专业的反馈,这极大限制了学生的学习效率。
虽然市面上存在一些歌唱评价系统,但都是围绕着娱乐场景进行设计和实现的,这些场景下的目标用户并不真正的关心最后的评价结果是否完全准确,也不关心哪一部分做的不好,对于歌唱评价的评价结果往往缺乏准确性和可解释性。
因此,如何提供一种基于深度学习的歌唱评价方法,实现提升歌唱评价的准确性以及可解释性,成为一个亟待解决的技术问题。
发明内容
本发明要解决的技术问题,在于提供一种基于深度学习的歌唱评价方法,实现提升歌唱评价的准确性以及可解释性。
本发明是这样实现的:一种基于深度学习的歌唱评价方法,包括如下步骤:
步骤S10、获取大量的歌唱数据,对各所述歌唱数据进行清洗;
步骤S20、提取清洗后的各所述歌唱数据的音频特征,构建特征数据集;
步骤S30、创建一音频对齐模型,基于所述音频对齐模型对特征数据集中的各音频特征进行对齐;
步骤S40、基于深度学习创建一多维度评价模型,利用对齐后的所述特征数据集对多维度评价模型进行训练;
步骤S50、获取待评价音频,将所述待评价音频输入多维度评价模型,得到音准评价值、节奏评价值以及发音评价值并进行展示。
进一步地,所述步骤S10具体为:
从不同渠道获取大量的歌唱数据,对各所述歌唱数据依次进行格式转换、人声分离、空白段剔除以及降噪的清洗。
进一步地,所述步骤S20具体为:
对清洗后的各所述歌唱数据进行预处理得到对应的频域信号,基于各所述频域信号提取包括梅尔频率倒谱系数、色度特征、节拍图、信噪比、谐噪比、频率微扰以及共振峰的音频特征,基于各所述音频特征构建特征数据集。
进一步地,所述对清洗后的各所述歌唱数据进行预处理得到对应的频域信号具体为:
对清洗后的各所述歌唱数据依次进行预加重、分帧以及加窗得到对应的时域信号,对各所述时域信号进行快速傅里叶变换得到对应的频域信号,完成所述歌唱数据的预处理。
进一步地,所述梅尔频率倒谱系数通过对频域信号进行梅尔滤波组的滤波、离散余弦变换、动态差分参数提取而得到。
进一步地,所述色度特征包括色度向量以及色度图谱。
进一步地,所述步骤S30中,所述音频对齐模型基于Guided Attention创建。
进一步地,所述步骤S40中,所述多维度评价模型包括一音准评价子模型、一节奏评价子模型以及一发音评价子模型。
进一步地,所述步骤S50具体为:
获取待评价音频,对所述待评价音频依次进行清洗、提取音频特征以及对齐后,输入所述音准评价子模型得到音准评价值,输入所述节奏评价子模型得到节奏评价值,输入所述发音评价子模型得到发音评价值,存储并展示所述音准评价值、节奏评价值以及发音评价值。
本发明的优点在于:
通过对歌唱数据依次进行格式转换、人声分离、空白段剔除以及降噪的清洗,再提取包括梅尔频率倒谱系数、色度特征、节拍图、信噪比、谐噪比、频率微扰以及共振峰的音频特征并构建特征数据集,再利用基于Guided Attention创建的音频对齐模型对特征数据集中的各音频特征进行对齐,然后利用对齐后的特征数据集对创建的音准评价子模型、节奏评价子模型以及发音评价子模型进行训练,最后利用训练后的音准评价子模型、节奏评价子模型以及发音评价子模型对待评价音频进行歌唱评价,得到对应的音准评价值、节奏评价值以及发音评价值,由于通过多维特征对多维度评价模型进行训练,并基于音准、节奏和发音三个维度分别给出待评价音频各片段对应的评价值,即对待评价音频进行细粒度、多维度的评价,最终极大的提升了歌唱评价的准确性以及可解释性。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1是本发明一种基于深度学习的歌唱评价方法的流程图。
具体实施方式
本申请实施例中的技术方案,总体思路如下:通过梅尔频率倒谱系数、色度特征、节拍图、信噪比、谐噪比、频率微扰以及共振峰的音频特征对多维度评价模型进行训练,基于音准、节奏和发音三个维度分别给出待评价音频各片段对应的评价值,即对待评价音频进行细粒度、多维度的评价,以提升歌唱评价的准确性以及可解释性。
请参照图1所示,本发明一种基于深度学习的歌唱评价方法的较佳实施例,包括如下步骤:
步骤S10、获取大量的歌唱数据,对各所述歌唱数据进行清洗;所述歌唱数据携带歌词;
步骤S20、提取清洗后的各所述歌唱数据的音频特征,构建特征数据集;要想对不同的歌唱数据进行评价,需要统一的音频特征对歌唱数据的各方面作出表示,不同的音频特征能够从不同的方面来反映歌唱数据,不同的音频特征对歌唱数据的评价效果不同,因而提取多维、有效的音频特征显得尤为重要;
步骤S30、创建一音频对齐模型,基于所述音频对齐模型对特征数据集中的各音频特征进行对齐;
步骤S40、基于深度学习(深度神经网络,DNN)创建一多维度评价模型,利用对齐后的所述特征数据集对多维度评价模型进行训练;DNN是一种计算模型,由大量的节点(或神经元)直接相互关联而构成,网络的输出由于激励函数和权重的不同而不同,是对于某种函数的逼近或是对映射关系的近似描述;
步骤S50、获取待评价音频,将所述待评价音频输入多维度评价模型,得到音准评价值、节奏评价值以及发音评价值并进行展示。
通过监督学习建立的所述多维度评价模型可以根据目标维度的标签,来自动关注到有效的特征维度,并且本发明的所述多维度评价模型对歌唱数据进行片段式的评价,在兼顾多维度评价的同时,还可以做到较细粒度的评价,可以有效地为教育场景下的用户提供反馈。
所述步骤S10具体为:
从不同渠道获取大量的歌唱数据,对各所述歌唱数据依次进行格式转换、人声分离、空白段剔除以及降噪的清洗。所述歌唱数据可以从音乐网站、音乐信息检索领域的公开数据集、人工采集等渠道获取。
由于收集得到的所述歌唱数据的格式可能多种多样,而wav格式是一种较为通用的、简单、直观的格式,为了方便后续统一处理,因此将格式统一转换为wav,并且将所有歌唱数据的采样率和声道数进行统一。由于收集到的歌唱数据大都带有伴奏或其他背景噪声,为了让后续模型更加关注演唱数据中的人声,因此有必要从歌唱数据中分离出人声。由于普通歌唱数据的首尾和中间部分会分布着空白部分,为了让后续模型的创建更加高效,有必要进行声音时间检测并剔除空白段。由于收集到的歌唱数据可能含有噪声,明显的噪声将会对模型有消极的影响,因此需要将噪声降低到某一阈值内。
所述步骤S20具体为:
对清洗后的各所述歌唱数据进行预处理得到对应的频域信号,基于各所述频域信号提取包括梅尔频率倒谱系数、色度特征、节拍图(Tempogram)、信噪比、谐噪比、频率微扰以及共振峰的音频特征,基于各所述音频特征构建特征数据集。分析音乐节拍间隔的基本方法被称为节拍图,一般通过分析频谱图得到,它指出在一段时间内音乐节拍间隔的大小,包含歌唱音频中随着时间变化的节拍信息。
所述对清洗后的各所述歌唱数据进行预处理得到对应的频域信号具体为:
对清洗后的各所述歌唱数据依次进行预加重、分帧以及加窗得到对应的时域信号,对各所述时域信号进行快速傅里叶变换得到对应的频域信号,完成所述歌唱数据的预处理。
所述梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)通过对频域信号进行梅尔滤波组的滤波、离散余弦变换、动态差分参数提取而得到。所述梅尔频率倒谱系数是在Mel标度频率域提取出来的倒谱参数,考虑了人类的听觉特征,先将线性频谱映射到基于听觉感知的Mel非线性频谱中,然后转换到倒谱上,Mel标度描述了人耳频率的非线性特性。
所述色度特征包括色度向量(Chroma Vector)以及色度图谱(Chromagram)。色度向量是一个含有12个元素的向量,这些元素分别代表一个时间片(如1帧)内12个音级中的能量,即不同八度的同一音级能量累加;色度图谱则是色度向量的序列,概括了音频时间片内的音高种类信息。
所述步骤S30中,所述音频对齐模型基于Guided Attention创建。只有粗标签的弱监督学习可以通过反向传播梯度获得深度神经网络的视觉解释,例如注意力图,这些注意力图可用作对象定位和语义分割等任务的先验;在语音场景中,由于演唱音频的时序性,理论上注意力图仅在主对角线的一定范围内存在有效值,Guided Attention正是将这种约束条件加入Attention机制中,一旦存在有效值偏离对角线,就会给出相应的惩罚。
所述步骤S40中,所述多维度评价模型包括一音准评价子模型、一节奏评价子模型以及一发音评价子模型。
从音准角度出发,应该做到唱出的音高与规定的音高一致,可用音高等技术观测来计算评价。传统方法将演唱评价看作回归或多分数段的分类任务,并采用端到端的深度学习模型来直接进行有监督学习,但是并不能满足中小学教育场景的细粒度的评价反馈,本发明采用基于片段式输入的度量学习模型,基于歌唱数据的片段从多个维度建模。所述音准评价子模型的输入共包括三个通道,分别是参考样本、高质量样本、低质量样本的MFCC、色度矩阵以及节拍图等特征,通过神经网络将输入的高维度特征映射到一个低维度空间,并通过Triplet Loss以及反向传播,促使所述音准评价子模型将高质量样本分到距离较近的低维空间中,而将低质量样本分到距离较远的低维空间中,后续再基于每个样本对应该低维度空间中的向量的距离进行评分。
从节奏角度出发,应该做到对歌曲中音的长短组合记忆清晰,对强弱表现准确,对表现音乐特点的节奏音型表现鲜明,可以通过音的长短、快慢、停顿等技术观测来实现。在创建所述节奏评价子模型时,除了上述的多个特征,还加入了各个音的长短、快慢和停顿程度等指标,并将这些估计特征作为评价节奏准确性的重要指标。
从发音角度出发,应该做到歌唱时能清楚的唱出歌词中的每个字音,吐字清晰,发音准确,可以通过歌词发音、音素发音、类语音识别等技术观测来实现。首先识别所述歌唱数据的歌词得到语音序列的概率分布,再基于所述音频对齐模型将待评价样本的音素序列与标准音素序列进行对齐,然后基于待评价音素的概率分布进行评分。
所述步骤S50具体为:
获取待评价音频,对所述待评价音频依次进行清洗、提取音频特征以及对齐后,输入所述音准评价子模型得到音准评价值,输入所述节奏评价子模型得到节奏评价值,输入所述发音评价子模型得到发音评价值,存储并展示所述音准评价值、节奏评价值以及发音评价值。
综上所述,本发明的优点在于:
通过对歌唱数据依次进行格式转换、人声分离、空白段剔除以及降噪的清洗,再提取包括梅尔频率倒谱系数、色度特征、节拍图、信噪比、谐噪比、频率微扰以及共振峰的音频特征并构建特征数据集,再利用基于Guided Attention创建的音频对齐模型对特征数据集中的各音频特征进行对齐,然后利用对齐后的特征数据集对创建的音准评价子模型、节奏评价子模型以及发音评价子模型进行训练,最后利用训练后的音准评价子模型、节奏评价子模型以及发音评价子模型对待评价音频进行歌唱评价,得到对应的音准评价值、节奏评价值以及发音评价值,由于通过多维特征对多维度评价模型进行训练,并基于音准、节奏和发音三个维度分别给出待评价音频各片段对应的评价值,即对待评价音频进行细粒度、多维度的评价,最终极大的提升了歌唱评价的准确性以及可解释性。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (9)
1.一种基于深度学习的歌唱评价方法,其特征在于:包括如下步骤:
步骤S10、获取大量的歌唱数据,对各所述歌唱数据进行清洗;
步骤S20、提取清洗后的各所述歌唱数据的音频特征,构建特征数据集;
步骤S30、创建一音频对齐模型,基于所述音频对齐模型对特征数据集中的各音频特征进行对齐;
步骤S40、基于深度学习创建一多维度评价模型,利用对齐后的所述特征数据集对多维度评价模型进行训练;
步骤S50、获取待评价音频,将所述待评价音频输入多维度评价模型,得到音准评价值、节奏评价值以及发音评价值并进行展示。
2.如权利要求1所述的一种基于深度学习的歌唱评价方法,其特征在于:所述步骤S10具体为:
从不同渠道获取大量的歌唱数据,对各所述歌唱数据依次进行格式转换、人声分离、空白段剔除以及降噪的清洗。
3.如权利要求1所述的一种基于深度学习的歌唱评价方法,其特征在于:所述步骤S20具体为:
对清洗后的各所述歌唱数据进行预处理得到对应的频域信号,基于各所述频域信号提取包括梅尔频率倒谱系数、色度特征、节拍图、信噪比、谐噪比、频率微扰以及共振峰的音频特征,基于各所述音频特征构建特征数据集。
4.如权利要求3所述的一种基于深度学习的歌唱评价方法,其特征在于:所述对清洗后的各所述歌唱数据进行预处理得到对应的频域信号具体为:
对清洗后的各所述歌唱数据依次进行预加重、分帧以及加窗得到对应的时域信号,对各所述时域信号进行快速傅里叶变换得到对应的频域信号,完成所述歌唱数据的预处理。
5.如权利要求3所述的一种基于深度学习的歌唱评价方法,其特征在于:所述梅尔频率倒谱系数通过对频域信号进行梅尔滤波组的滤波、离散余弦变换、动态差分参数提取而得到。
6.如权利要求3所述的一种基于深度学习的歌唱评价方法,其特征在于:所述色度特征包括色度向量以及色度图谱。
7.如权利要求1所述的一种基于深度学习的歌唱评价方法,其特征在于:所述步骤S30中,所述音频对齐模型基于Guided Attention创建。
8.如权利要求1所述的一种基于深度学习的歌唱评价方法,其特征在于:所述步骤S40中,所述多维度评价模型包括一音准评价子模型、一节奏评价子模型以及一发音评价子模型。
9.如权利要求8所述的一种基于深度学习的歌唱评价方法,其特征在于:所述步骤S50具体为:
获取待评价音频,对所述待评价音频依次进行清洗、提取音频特征以及对齐后,输入所述音准评价子模型得到音准评价值,输入所述节奏评价子模型得到节奏评价值,输入所述发音评价子模型得到发音评价值,存储并展示所述音准评价值、节奏评价值以及发音评价值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210388559.0A CN114678039A (zh) | 2022-04-13 | 2022-04-13 | 一种基于深度学习的歌唱评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210388559.0A CN114678039A (zh) | 2022-04-13 | 2022-04-13 | 一种基于深度学习的歌唱评价方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114678039A true CN114678039A (zh) | 2022-06-28 |
Family
ID=82078274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210388559.0A Pending CN114678039A (zh) | 2022-04-13 | 2022-04-13 | 一种基于深度学习的歌唱评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114678039A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117594242A (zh) * | 2024-01-19 | 2024-02-23 | 浙江大学 | 人体疲劳度评估优化方法、装置、设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117568A (ja) * | 1999-10-21 | 2001-04-27 | Yamaha Corp | 歌唱評価装置およびカラオケ装置 |
WO2015111671A1 (ja) * | 2014-01-23 | 2015-07-30 | ヤマハ株式会社 | 歌唱評価装置、歌唱評価方法及び歌唱評価プログラム |
CN114093386A (zh) * | 2021-11-10 | 2022-02-25 | 厦门大学 | 一种面向教育的多维度歌唱评价方法 |
-
2022
- 2022-04-13 CN CN202210388559.0A patent/CN114678039A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117568A (ja) * | 1999-10-21 | 2001-04-27 | Yamaha Corp | 歌唱評価装置およびカラオケ装置 |
WO2015111671A1 (ja) * | 2014-01-23 | 2015-07-30 | ヤマハ株式会社 | 歌唱評価装置、歌唱評価方法及び歌唱評価プログラム |
CN114093386A (zh) * | 2021-11-10 | 2022-02-25 | 厦门大学 | 一种面向教育的多维度歌唱评价方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117594242A (zh) * | 2024-01-19 | 2024-02-23 | 浙江大学 | 人体疲劳度评估优化方法、装置、设备和存储介质 |
CN117594242B (zh) * | 2024-01-19 | 2024-04-09 | 浙江大学 | 人体疲劳度评估优化方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105023573B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
CN110111773A (zh) | 基于卷积神经网络的音乐信号多乐器识别方法 | |
CN102723079B (zh) | 基于稀疏表示的音乐和弦自动识别方法 | |
Zlatintsi et al. | Multiscale fractal analysis of musical instrument signals with application to recognition | |
CN101366078A (zh) | 从单音音频信号分离音频信源的神经网络分类器 | |
CN106997765B (zh) | 人声音色的定量表征方法 | |
CN103054586B (zh) | 一种基于汉语言语测听动态词表的汉语言语自动测听方法 | |
CN112259104A (zh) | 一种声纹识别模型的训练装置 | |
CN116665669A (zh) | 一种基于人工智能的语音交互方法及系统 | |
Chaki | Pattern analysis based acoustic signal processing: a survey of the state-of-art | |
CN112289326B (zh) | 一种利用具有噪音去除的鸟类识别综合管理系统的噪音去除方法 | |
CN111128236A (zh) | 一种基于辅助分类深度神经网络的主乐器识别方法 | |
CN110473548B (zh) | 一种基于声学信号的课堂交互网络分析方法 | |
CN115050387A (zh) | 一种艺术测评中多维度唱奏分析测评方法及系统 | |
Ling | An acoustic model for English speech recognition based on deep learning | |
CN114678039A (zh) | 一种基于深度学习的歌唱评价方法 | |
Kayis et al. | artificial intelligence-based classification with classical Turkish music makams: Possibilities to Turkish music education. | |
CN117012230A (zh) | 歌唱发音咬字评价模型 | |
Zwan et al. | System for automatic singing voice recognition | |
CN114302301B (zh) | 频响校正方法及相关产品 | |
CN111681674B (zh) | 一种基于朴素贝叶斯模型的乐器种类识别方法和系统 | |
CN111091816B (zh) | 一种基于语音评测的数据处理系统及方法 | |
CN111210845B (zh) | 一种基于改进自相关特征的病理语音检测装置 | |
CN113129923A (zh) | 一种艺术测评中多维度唱奏分析测评方法及系统 | |
CN112735443A (zh) | 一种具有自动分类的海洋空间资源管理系统及其自动分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |