CN115579021A - 一种基于神经网络和视听融合的声乐表演评分方法及系统 - Google Patents
一种基于神经网络和视听融合的声乐表演评分方法及系统 Download PDFInfo
- Publication number
- CN115579021A CN115579021A CN202211165910.6A CN202211165910A CN115579021A CN 115579021 A CN115579021 A CN 115579021A CN 202211165910 A CN202211165910 A CN 202211165910A CN 115579021 A CN115579021 A CN 115579021A
- Authority
- CN
- China
- Prior art keywords
- audio
- scoring
- neural network
- emotion
- music
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 84
- 230000004927 fusion Effects 0.000 title claims abstract description 37
- 230000001755 vocal effect Effects 0.000 title claims abstract description 33
- 238000013077 scoring method Methods 0.000 title claims abstract description 20
- 230000008451 emotion Effects 0.000 claims abstract description 74
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000011156 evaluation Methods 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 72
- 238000012549 training Methods 0.000 claims description 55
- 238000012360 testing method Methods 0.000 claims description 25
- 230000033764 rhythmic process Effects 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 19
- 238000012795 verification Methods 0.000 claims description 16
- 238000001228 spectrum Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000001815 facial effect Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000003068 static effect Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 claims description 3
- 230000008921 facial expression Effects 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000012854 evaluation process Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000003796 beauty Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 239000011435 rock Substances 0.000 description 2
- 241001050985 Disco Species 0.000 description 1
- 208000012322 Raynaud phenomenon Diseases 0.000 description 1
- 239000011358 absorbing material Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000004513 sizing Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/84—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
- G06V10/85—Markov-related models; Markov random fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Probability & Statistics with Applications (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
本发明涉及一种基于神经网络和视听融合的声乐表演评分方法及系统,属于声乐测评领域。该方法利用不同的神经网络分别得到三个维度的专家评分数据,包括音频评分、情感评分与着装评分,然后将三个维度的评分输入到专家评分拟合神经网络,最后得到综合评分。本发明使评测结果更加真实有效、贴近专家评分,评分流程更加高效便捷。
Description
技术领域
本发明属于声乐测评领域,涉及一种基于神经网络和视听融合的声乐表演评分方法及系统。
背景技术
在现在的美育考试中,如声乐考试,通常由考官对考生的演唱水平进行客观评价并给出相应分值。在此过程中,可能会因为某些因素使得考试缺乏主观性、准确性与高效便捷性。
市面上现有的音频特征提取、评分软件,已经可以很好的对演唱者的演唱节奏、气息、声调等方面进行评分,但是评分维度单一,缺乏了对艺术整体性的体现。
因此,为了提高现有音频测评软件的准确性,亟需一种基于神经网络和视听融合的声乐表演评分方法及系统来解决此问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于神经网络和视听融合的声乐表演评分方法,结合视觉与听觉对于演唱者演唱时的面部表现情感以及演唱者着装进行一系列的评分和判断,具体是采用大量多维度的专家评分数据,包括音频评分、着装评分与情感评分,利用神经网络构建了专家库体系,使评测结果更加真实有效、贴近专家评分。此外,评分流程更加高效便捷。
为达到上述目的,本发明提供如下技术方案:
方案1:一种基于神经网络和视听融合的声乐表演评分方法,利用不同的神经网络分别得到三个维度的评分数据,包括音频评分、情感评分与着装评分,然后将三个维度的评分输入到视听融合专家评分网络,最后得到总体评分。该方法具体包括以下步骤:
S1:获取表演者的音频数据,预处理得到高音特征和节奏特征,然后分别与标准音频数据对比得到最小距离向量和节奏契合度,并将其输入音频评分神经网络中得到音频评分;
S2:对演唱视频进行关键帧提取,预处理得到关键帧对应的音频和人脸区域图片,从中对应提取音高序列和面部特征,将其对应输入到音频情感神经网络和人脸关键点检测器中,得到音频情感特征向量和面部表情特征向量,然后计算音频情感特征向量与面部情感特征向量的欧式距离,即特征向量相似性;最后将特征向量相似性输入视听融合情感评分神经网络中得到情感评分;
S3:截取演唱视频中一帧的图片,从中提取服装的关键特征,输入服装风格评估神经网络得到演唱者服装风格图像特征向量;然后从对应视频的音频数据中得到梅尔频谱图,输入音频风格评估神经网络得到演唱者音乐风格特征向量;最后将演唱者的服装风格特征向量和音乐风格特征向量输入视听融合着装评分神经网络中得到着装评分;
S4:将音频评分、情感评分和着装评分输入到视听融合专家评分网络,得到总体评分。
进一步,步骤S1具体包括以下步骤:
S101:将由专家打分的表演者视频样本根据7:2:1将样本数据划分成训练集、验证集和测试集;
S102:对音频数据进行预处理,采用音强进行边界检测和去噪处理,利用带通滤波器进行预滤波,利用高通滤波器对语音信号进行预加重,最后对音频数据进行分帧加窗;
S103:采用谐波总和法(SHS)进行音高特征提取,对输入音频进行分帧加窗的处理,对每一帧的语音信号进行短时傅里叶变换得到频谱,针对每个频率,叠加倍频谐波的能量,最后得到歌唱数据的音高。
S104:对提取的音高序列进行平滑处理;
S105:采用相似度匹配算法(DTW),度量提取的音高特征和标准音高特征的相似度,得到两段旋律特征向量的最小距离;
S106:对音乐标准库提供的solo歌声和伴奏音乐,按照一定的时移进行混音,合成适用于训练节奏模型的抢拍、慢拍和合拍音频;
S107:求取频率强度曲线,首先进行音频预处理(预滤波,预加重等),对音频分帧加窗,通过傅里叶变换得到信号频谱,根据谐波总和法的思想,叠加各个频率的能量总和,得到频率能量曲线,通过刻度转换,采用半音值表示音频音高,得到频率强度曲线;
S108:使用标准带伴奏歌声提取频率强度曲线,训练,建立基于以隐马尔科夫模型的节奏模型,频率强度序列视为可观测序列;
S109:采用维比特算法进行音乐的模型识别,选择具有最大的累积概率的路径作为识别结果;
S110:综合所有音频片段的模型识别结果,量化整首演唱音乐的节奏契合程度;
S111:将S105中得到的旋律特征向量的最小距离,以及S110得到的节奏契合程度输入到音频评分神经网络(基于专家评分的有监督学习bp神经网络),训练得到音频评分。
进一步,步骤S2具体包括以下步骤:
S201:对视频数据进行关键帧提取,得到静态图片,并记录关键帧开始与结束时刻,并从静态图片中检测出人脸区域,得到人脸区域图片;
S202:对每帧人脸区域图片进行高斯滤波,并根据霍夫变换计算倾斜角度,最后根据倾斜角度进行图像的矫正;
S203:对图像进行灰度化与归一化;
S204:采用人脸关键点检测模型库,获取面部特征点;
S205:通过开口程度、眯眼程度、眉毛上扬程度等信息来识别演唱者演唱情绪。可分为:欢快、哀伤、抒情、激情、愤怒、从容、坚毅和安静8种演唱情绪类型,得到面部情感特征向量;
S206:在专家所进行情感分类标注后的音频中,按照训练数据:验证数据:测试数据=7:2:1划分;
S207:构建音频情感提取神经网络(三层的BP神经网络)作为音频情感分类器,并提取音频特征向量:音高、频率、音强作为网络输入;
S208:完成音频情感提取神经网络构建后,输入训练数据进行训练;训练完毕后,使用验证数据进行验证,可以达到预期要求。
S209:将被测音频通过S205所记录的时刻进行截取后,放入先前训练好的音频情感提取神经网络,得到该音频情感特征向量;
S210:计算音频情感特征向量与面部情感特征向量的欧式距离,度量其向量相似性;
S211:将特征向量相似性信息放入视听融合情感评分神经网络中,按照专家定制的标准,得到情感评分。
进一步,步骤S3具体包括以下步骤:
S301:在输入的视频信息中截取一帧的图片内容作为演唱者服装风格识别分析的输入信息,将输入的视频信息中的声音轨道内容导出为.wav格式,作为音乐曲风分析的输入信息;
S302:在服装风格识别分析中通过图像处理和机器学习技术,建立演唱者服装图像和实际服装风格之间的映射关系;
S303:在图像处理过程中,使用服装风格评估卷积神经网络,为了有效地降低了网络的复杂度且、减少了参数的数量,网络中主要采用以下步骤:卷积、池化、全连接与激活函数,完成神经网络的构建;
S304:用机器学习进行服装风格分析中,使用训练较好的服装风格评估神经网络,将输入的图片进行像素点提取格式化,然后对每张图片进行卷积和池化等一系列操作,获取关键特征点;
S305:通过图像中演唱者衣着的面料、花色、局部绣花、领结领花等不同分类信息来识别演唱者的服装风格;可以分为经典、淑女、浪漫、民族、前卫、轻快、学院、休闲、中性、田园、朋克、街头、简约、运动、优雅、未来等16种衣着风格。
S306:在音乐曲风分析中,将音频信息进行预处理、傅里叶变换得到频域信息,并对频域信息进行叠加,得到梅尔频谱,使用音乐风格评估神经网络来对这些样本进行训练分类,得到演唱音乐与表演者音乐风格之间的映射关系;
S307:在音乐风格评估神经网络中输入一个已经优化的数据集,利用傅里叶变化将音频数据转移到频域,进行导出歌曲所有频率基于时间的演变信息;
S308:创建频谱的固定长度的片,将声乐频谱降低到256×256分辨率的切片,作为代表音乐风格的独立样本;
S309:建立一个分类器,把训练集的歌曲切成方形光谱图像之后,作为一个数据集,其中每个类型包含数万个样本;
S310:使用了Tensorflow深度学习库进行的包装器TFLearn,用深层卷积神经网络,对这些样本进行训练分类;
S311:将.wav格式的音乐输入S310训练好的深层卷积神经网络,根据不同曲风的声音频率有一定的区别,得出可以分为民族、美声、蓝调、经典、迪斯科、嘻哈、爵士、金属、流行、雷鬼、摇滚等11中音乐风格;
S312:将所输出的演唱者服装风格特征向量与音乐风格特征向量,放入视听融合着装评分神经网络中,按照专家定制的标准,计算特征向量的相似度,得到演奏者演奏服装与音乐风格的匹配度评分,即着装评分。
进一步,步骤S4中,视听融合专家评分网络是采用专家评分的机制,专家根据三个维度打分,分别是音频评分、情感评分和着装评分,三个维度均采用百分制,根据三个维度的分数构建数据集,神经网络通过有监督的学习专家的评分点,进一步的,专家根据音乐表演的总体表现进行打分,该总体分数依然是百分制,根据专家所打分数构建数据集,视听融合专家评分网络学习专家对三个维度打分的权重。该评分方法,改善了传统评分方法仅根据音高,节奏打分,过于机械的特点,以专家给定的专业评分数据作为预测目标,与传统打分点相结合,使分数更具有可靠性,更加人性化。
进一步,音频评分神经网络、视听融合情感评分神经网络、视听融合着装评分神经网络和视听融合专家评分网络可独立同步进行训练,训练完成后组会一起使用;各网络在训练过程中,先将由专家打分的表演者视频样本根据7:2:1将数据分成训练集、验证集和测试集;每个样本包含视频和4个百分制的得分,其中得分由专家针对情感、着装、音乐和总评分别给出;针对各网络的训练,(1)根据数据特性选择重要参数,包括卷积核(尺寸、数目)、注意力机制、激活函数、损失函数、网络层数、网络优化器和学习率等;(2)按照时间轴同步,将图像的特征向量和音频的特征向量联合输入到各评分神经网络中,以网络的输出分数和专家给定专业评分数的差值作为损失函数,采用反向传播算法让损失函数最小化;(3)通过观测训练集和验证集的损失函数曲线,当两者的曲线走势出现转折时,终止训练过程,并以此时的迭代次数确定神经网络参数,并用测试数据进行测试;(4)对训练好的神经网络对测试集进行测试,如果网络输出的评分和专家给出的分数差值在1分之内,则该网络已通过测试,可以用于后续的其他表演者的测评过程;否则,重新对网络进行设计调整,并重复网络训练过程。
方案2:一种基于神经网络和视听融合的声乐表演评分系统,包括服务器、摄像头、麦克风、DSP解码器和通信网络;所述服务器用于执行方案一中的声乐表演评分方法。
本发明的有益效果在于:本发明采用的专家评分拟合神经网络是根据专家对声乐表演的总体表现评分构建数据集,改善了传统评分方法仅根据音高,节奏打分,过于机械的特点,以专家给定的专业评分数据作为预测目标,更加人性化。
本发明方法结合了声乐表演时的情感评分、着装评分与音准评分,同时采用了与专家评分相结合的方式,使得测评标准更加的多元化、测评结果更加准确化,很好地满足了中小学艺术素质测评中音乐演唱评分客观准确的要求。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为声乐表演俯视图;
图2为总体架构示意图;
图3为网络训练和测评过程示意图;
图4为声乐表演表情识别示意图;
图5为演唱者服装匹配度评分示意图;
图6为音乐风格识别示意图;
图7为神经网络的框架图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图7,本实施例提供一种基于神经网络和视听融合的声乐表演评分系统,包括服务器、摄像头、麦克风、DSP解码器、通信网络。通信网络为有线网络或者无线网络(如Wi-Fi等),用于数据交互。服务器为云服务器或者实体服务器,用于处理数据(即执行基于神经网络和视听融合的声乐表演评分方法)。
图1是声乐表演俯视图,包括房间大小设计、麦克风阵列、摄像机部署和吸声材料安装等。
图2是基于神经网络和视听融合的声乐表演评分方法流程图,该方法具体包括以下步骤:
步骤1:将系统预先收集的包含专家评分的视唱练习数据进行划分,将数据按7:2:1划分,其中的7份作为训练数据,2份为验证数据,1份作为测试数据,使用训练数据建模;
步骤2:对歌唱数据进行预处理,采用音强进行边界检测和去噪处理,利用带通滤波器进行预滤波,利用高通滤波器对语音信号进行预加重,最后对歌唱数据进行分帧加窗。
步骤3:采用谐波总和法(SHS)进行音高特征提取,对输入音频进行分帧加窗的处理,对每一帧的语音信号进行短时傅里叶变换得到频谱,针对每个频率,叠加倍频谐波的能量,最后得到歌唱数据的音高。
步骤4:对提取的音高序列进行平滑处理。
步骤5:采用相似度匹配算法(DTW),度量提取的音高特征和标准音高特征的相似度,得到两段旋律特征向量的最小距离。
步骤6:对音乐标准库提供的solo歌声和伴奏音乐,按照一定的时移进行混音,合成适用于训练节奏模型的抢拍,慢拍,合拍音频。
步骤7:求取频率强度曲线,首先进行音频预处理(预滤波,预加重等),对音频分帧加窗,通过傅里叶变换得到信号频谱,根据谐波总和法的思想,叠加各个频率的能量总和,得到频率能量曲线,通过刻度转换,采用半音值表示音频音高,得到频率强度曲线。
步骤8:使用标准带伴奏歌声提取频率强度曲线,训练,建立基于以隐马尔科夫模型的节奏模型,频率强度序列视为可观测序列。
步骤9:采用维比特算法进行音乐的模型识别,选择具有最大的累积概率的路径作为识别结果。
步骤10:综合所有音频片段的模型识别结果,量化整首演唱音乐的节奏契合程度。
步骤11:将步骤5中得到的旋律特征向量的最小距离,步骤10得到的节奏契合程度作为输入值,采用基于专家评分的有监督学习bp神经网络,训练神经网络,百分制评分即为网络输出。
步骤12:使用Python的PyAV和Pillow库对演唱视频进行关键帧提取,得到静态图片,并记录关键帧开始与结束时刻,使用OpenCV中的Viola-Jones检测器从静态图片中检测出人脸区域,得到人脸区域图片。
步骤13:对每帧人脸区域图片进行高斯滤波,并根据霍夫变换进行倾斜角度的计算,最后根据倾斜角度进行图像的矫正。
步骤14:对图像进行灰度化与归一化。
步骤15:采用Dlib库中人脸68个关键点检测shape_predictor_68_face_landmarks.dat的dat模型库,进行面部68个特征点的信息获取。
步骤16:通过开口程度、眯眼程度、眉毛上扬程度等信息来识别演唱者演唱情绪。可分为:欢快、哀伤、抒情、激情、愤怒、从容、坚毅和安静8种演唱情绪类型,得到面部情感特征向量。
步骤17:在专家所进行情感分类标注后的音频中,按照7:2:1的比例划分,7份训练数据,2份验证数据,1份测试数据。
步骤18:构建3层的BP神经网络作为音频情感分类器,并利用Python的librosa库提取音频特征向量:音高、频率、音强。
其中,输入层为情感特征的三维向量,分别为:音高、频率、音强。因此,输入层节点数为3。
BP神经网络分类器输出的是音频情感,有欢快、哀伤、抒情、激情、愤怒、从容、坚毅和安静8种音乐情感类型,因此输出层节点为3(log28=3)。其中,八种情感分别表示为:欢快的(0,0,0)、哀伤的(0,0,1)、抒情的(0,1,0)、激情的(0,1,1)、愤怒的(1,0,0)、从容的(1,0,1)、坚毅的(1,1,0)、安静的(1,1,1)。
步骤181:根据Kolmogorov定理,设计隐藏节点数为7层。最终构建的网络结构是3×7×3,3个神经元为输入层,7个神经元为隐藏层,3个神经元为输出层。
步骤182:隐藏层与输出层均选用Sigmoid函数作为激活函数。并且设定最大循环次数为2000,误差期望值为0.001。
步骤19:完成BP神经网络模型的构建后,输入训练数据进行训练。训练完毕后,使用验证数据进行验证,可以达到预期要求。
步骤20:将被测音频通过步骤16所记录的时刻进行截取后,放入先前训练好的BP神经网络,得到该音频情感特征向量。
步骤21:使用Python计算音频情感特征向量与面部情感特征向量的欧式距离,度量其向量相似性。
步骤22:将特征向量相似性信息放入专家评分网络中,按照专家定制的标准,得到演唱情感评分,按照百分制输出。
步骤23:在输入的视频信息中截取一帧的图片内容作为演唱者服装风格识别分析的输入信息,将输入的视频信息中的声音轨道内容导出为.wav格式,作为音乐曲风分析的输入信息。
步骤24:在服装风格识别分析中通过图像处理和机器学习技术,建立演唱者服装图像和实际服装风格之间的映射关系。
步骤25:在图像处理过程中,使用卷积神经网络,为了有效地降低了网络的复杂度且、减少了参数的数量,网络中主要采用以下步骤:卷积、池化、全连接与激活函数,完成神经网络的构建。
步骤26:用机器学习进行服装风格分析中,使用训练较好的卷积神经网络模型,将输入的图片进行像素点提取格式化,然后对每张图片进行卷积、池化等一系列操作,进行关键特征点的获取。
步骤27:通过图像中演唱者衣着的面料、花色、局部绣花、领结领花等不同分类信息来识别演唱者的服装风格。可以分为经典、淑女、浪漫、民族、前卫、轻快、学院、休闲、中性、田园、朋克、街头、简约、运动、优雅、未来等16种衣着风格。
步骤28:在音乐曲风分析中,将音频信息进行预处理、傅里叶变换得到频域信息,并对频域信息进行叠加,得到梅尔频谱,使用深层卷积神经网络来对这些样本进行训练分类,来得到演唱音乐与演唱者音乐风格之间的映射关系。
步骤29:在深层卷积神经网络中输入一个已经优化的数据集,利用傅里叶变化将音频数据转移到频域,进行导出歌曲所有频率基于时间的演变信息。
步骤30:创建频谱的固定长度的片,将声乐频谱降低到256×256分辨率的切片,作为代表音乐风格的独立样本。
步骤31:建立一个分类器,把训练集的歌曲切成方形光谱图像之后,作为一个数据集,其中每个类型包含数万个样本。
步骤32:使用了Tensorflow深度学习库进行的包装器TFLearn,用深层卷积神经网络,对这些样本进行训练分类。
步骤33:使用如上述所训练好的深层卷积神经网络,将.wav格式的音乐进行输入,根据不同曲风的声音频率有一定的区别,可以分为民族、美声、蓝调、经典、迪斯科、嘻哈、爵士、金属、流行、雷鬼、摇滚等11中音乐风格。
步骤34:将所输出的衣着风格的特征向量与音乐风格的特征向量,放入专家评分网络中,按照专家定制的标准,计算特征向量的相似度,得到演奏者演奏服装与音乐风格的匹配度评分,按照百分制输出。
步骤35:基于步骤11、22和34,将各个网络所得到的百分制评分输入专家评分网络,该网络是有监督学习网络,采用传统bp反向传播网络,基于专家对演唱者声乐表演的总体表现打分,输入为音频评分,表情评分,服装评分,输出为一个总体表现百分制评分。
如图3所示,视听融合专家评分网络包含了训练和测评两个过程。
在训练过程中,先将由专家打分的表演者视频样本根据7:2:1将数据分成训练集、验证集和测试集。每个样品包含了视频和4个百分制的得分,其中得分由专家针对情感、着装、音乐和总评分别给出。针对网络训练,(1)根据数据特性选择重要参数,包括卷积核(尺寸、数目)、注意力机制、激活函数、损失函数、网络层数、网络优化器、学习率等;(2)按照时间轴同步,将图像的特征向量和音频的特征向量联合输入到评估神经网络中,以网络的输出分数和专家给定专业评分数的差值作为损失函数,采用反向传播算法让损失函数最小化;(3)多维专家评估网络(包括音频评分神经网络、视听融合情感评分神经网络、视听融合着装评分神经网络)和视听融合专家评分网络可以独立同步进行训练,训练完成后可以组会一起使用;(4)通过观测训练集和验证集的损失函数曲线,当两者的曲线走势出现转折时,终止训练过程,并以此时的迭代次数确定神经网络参数,并用测试数据进行测试;(5)对训练好的神经网络对测试集进行测试,如果网络输出的评分和专家给定的分数差值在1分之内,则该网络已通过测试,可以用于后续的其他表演者的测评过程;否则,重新对网络进行设计调整,并重复网络训练过程。
视听融合专家评分网络模块主要包含了信号预处理、多维专家评估网络、专家评分拟合网络三部分。信号预处理将图像、音频信号分离,得到图像和音频文件。多维专家评估网络包含了情感、着装、音频三部分的评分网络,通过专家针对此三方面的打分数据作为网络的有监督学习,形成对表演者多维度的评价。专家评分拟合网络主要通过神经网络,自动拟合三方面评分分数对总评分的权重计算。
在测评过程中,把表演者视频输入到已训练完成的视听融合专家评分网络中,就可以直接得到最终评分分数。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (7)
1.一种基于神经网络和视听融合的声乐表演评分方法,其特征在于,利用不同的神经网络分别得到三个维度的评分数据,包括音频评分、情感评分与着装评分,然后将三个维度的评分输入到视听融合专家评分网络,最后得到总体评分;该方法具体包括以下步骤:
S1:获取表演者的音频数据,预处理得到高音特征和节奏特征,然后分别与标准音频数据对比得到最小距离向量和节奏契合度,并将其输入音频评分神经网络中得到音频评分;
S2:对演唱视频进行关键帧提取,预处理得到关键帧对应的音频和人脸区域图片,从中对应提取音高序列和面部特征,将其对应输入到音频情感神经网络和人脸关键点检测器中,得到音频情感特征向量和面部表情特征向量,然后计算音频情感特征向量与面部情感特征向量的欧式距离,即特征向量相似性;最后将特征向量相似性输入视听融合情感评分神经网络中得到情感评分;
S3:截取演唱视频中一帧的图片,从中提取服装的关键特征,输入服装风格评估神经网络得到演唱者服装风格图像特征向量;然后从对应视频的音频数据中得到梅尔频谱图,输入音频风格评估神经网络得到演唱者音乐风格特征向量;最后将演唱者的服装风格特征向量和音乐风格特征向量输入视听融合着装评分神经网络中得到着装评分;
S4:将音频评分、情感评分和着装评分输入到视听融合专家评分网络,得到总体评分。
2.根据权利要求1所述的声乐表演评分方法,其特征在于,步骤S1具体包括以下步骤:
S101:将由专家打分的表演者视频样本根据7:2:1将样本数据划分成训练集、验证集和测试集;
S102:对音频数据进行预处理,采用音强进行边界检测和去噪处理,利用带通滤波器进行预滤波,利用高通滤波器对语音信号进行预加重,最后对音频数据进行分帧加窗;
S103:采用谐波总和法进行音高特征提取,对输入音频进行分帧加窗的处理,对每一帧的语音信号进行短时傅里叶变换得到频谱,针对每个频率,叠加倍频谐波的能量,最后得到歌唱数据的音高;
S104:对提取的音高序列进行平滑处理;
S105:采用相似度匹配算法,度量提取的音高特征和标准音高特征的相似度,得到两段旋律特征向量的最小距离;
S106:对音乐标准库提供的solo歌声和伴奏音乐,按照一定的时移进行混音,合成适用于训练节奏模型的抢拍、慢拍和合拍音频;
S107:求取频率强度曲线,首先进行音频预处理,对音频分帧加窗,通过傅里叶变换得到信号频谱,根据谐波总和法的思想,叠加各个频率的能量总和,得到频率能量曲线,通过刻度转换,采用半音值表示音频音高,得到频率强度曲线;
S108:使用标准带伴奏歌声提取频率强度曲线,训练,建立基于以隐马尔科夫模型的节奏模型,频率强度序列视为可观测序列;
S109:采用维比特算法进行音乐的模型识别,选择具有最大的累积概率的路径作为识别结果;
S110:综合所有音频片段的模型识别结果,量化整首演唱音乐的节奏契合程度;
S111:将S105中得到的旋律特征向量的最小距离,以及S110得到的节奏契合程度输入到音频评分神经网络,训练得到音频评分。
3.根据权利要求1所述的声乐表演评分方法,其特征在于,步骤S2具体包括以下步骤:
S201:对视频数据进行关键帧提取,得到静态图片,并记录关键帧开始与结束时刻,并从静态图片中检测出人脸区域,得到人脸区域图片;
S202:对每帧人脸区域图片进行高斯滤波,并根据霍夫变换计算倾斜角度,最后根据倾斜角度进行图像的矫正;
S203:对图像进行灰度化与归一化;
S204:采用人脸关键点检测模型库,获取面部特征点;
S205:识别演唱者演唱情绪得到面部情感特征向量;
S206:在专家所进行情感分类标注后的音频中,按照训练数据:验证数据:测试数据=7:2:1划分;
S207:构建音频情感提取神经网络作为音频情感分类器,并提取音频特征向量:音高、频率、音强作为网络输入;
S208:完成音频情感提取神经网络构建后,输入训练数据进行训练;
S209:将被测音频通过S205所记录的时刻进行截取后,放入先前训练好的音频情感提取神经网络,得到该音频情感特征向量;
S210:计算音频情感特征向量与面部情感特征向量的欧式距离,度量其向量相似性;
S211:将特征向量相似性信息放入视听融合情感评分神经网络中,按照专家定制的标准,得到情感评分。
4.根据权利要求1所述的声乐表演评分方法,其特征在于,步骤S3具体包括以下步骤:
S301:在输入的视频信息中截取一帧的图片内容作为演唱者服装风格识别分析的输入信息,将输入的视频信息中的声音轨道内容导出为.wav格式,作为音乐曲风分析的输入信息;
S302:在服装风格识别分析中通过图像处理和机器学习技术,建立演唱者服装图像和实际服装风格之间的映射关系;
S303:在图像处理过程中,使用服装风格评估神经网络;
S304:用机器学习进行服装风格分析中,使用训练好的服装风格评估神经网络,将输入的图片进行像素点提取格式化,然后对每张图片进行卷积和池化,获取关键特征点;
S305:通过图像中演唱者衣着的不同分类信息来识别演唱者的服装风格;
S306:在音乐曲风分析中,将音频信息进行预处理、傅里叶变换得到频域信息,并对频域信息进行叠加,得到梅尔频谱,使用音乐风格评估神经网络来对样本进行训练分类,得到演唱音乐与表演者音乐风格之间的映射关系;
S307:在音乐风格评估神经网络中输入一个已经优化的数据集,利用傅里叶变化将音频数据转移到频域,进行导出歌曲所有频率基于时间的演变信息;
S308:创建频谱的固定长度的片,将声乐频谱降低到256×256分辨率的切片,作为代表音乐风格的独立样本;
S309:建立一个分类器,把训练集的歌曲切成方形光谱图像之后,作为一个数据集,其中每个类型包含数万个样本;
S310:使用深层卷积神经网络,对这些样本进行训练分类;
S311:将.wav格式的音乐输入S310训练好的深层卷积神经网络,根据不同曲风的声音频率的区别,得出音乐风格;
S312:将所输出的演唱者服装风格特征向量与音乐风格特征向量,放入视听融合着装评分神经网络中,按照专家定制的标准,计算特征向量的相似度,得到演奏者演奏服装与音乐风格的匹配度评分,即着装评分。
5.根据权利要求1所述的声乐表演评分方法,其特征在于,步骤S4中,视听融合专家评分网络是采用专家评分的机制,专家根据三个维度打分,分别是音频评分、情感评分和着装评分,三个维度均采用百分制,根据三个维度的分数构建数据集,神经网络通过有监督的学习专家的评分点,进一步的,专家根据音乐表演的总体表现进行打分,该总体分数依然是百分制,根据专家所打分数构建数据集,视听融合专家评分网络学习专家对三个维度打分的权重。
6.根据权利要求1所述的声乐表演评分方法,其特征在于,音频评分神经网络、视听融合情感评分神经网络、视听融合着装评分神经网络和视听融合专家评分网络能独立同步进行训练,训练完成后组会一起使用;各网络在训练过程中,先将由专家打分的表演者视频样本根据7:2:1将数据分成训练集、验证集和测试集;每个样本包含视频和4个百分制的得分,其中得分由专家针对情感、着装、音乐和总评分别给出;针对各网络的训练,(1)根据数据特性选择重要参数,包括卷积核、注意力机制、激活函数、损失函数、网络层数、网络优化器和学习率;(2)按照时间轴同步,将图像的特征向量和音频的特征向量联合输入到各评分神经网络中,以网络的输出分数和专家给定专业评分数的差值作为损失函数,采用反向传播算法让损失函数最小化;(3)通过观测训练集和验证集的损失函数曲线,当两者的曲线走势出现转折时,终止训练过程,并以此时的迭代次数确定神经网络参数,并用测试数据进行测试;(4)对训练好的神经网络对测试集进行测试,如果网络输出的评分和专家给出的分数差值在1分之内,则该网络已通过测试;否则,重新对网络进行设计调整,并重复网络训练过程。
7.一种基于神经网络和视听融合的声乐表演评分系统,其特征在于,包括服务器、摄像头、麦克风、DSP解码器和通信网络;所述服务器中用于执行权利要求1~6中任意一项所述声乐表演评分方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211165910.6A CN115579021A (zh) | 2022-09-23 | 2022-09-23 | 一种基于神经网络和视听融合的声乐表演评分方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211165910.6A CN115579021A (zh) | 2022-09-23 | 2022-09-23 | 一种基于神经网络和视听融合的声乐表演评分方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115579021A true CN115579021A (zh) | 2023-01-06 |
Family
ID=84580307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211165910.6A Pending CN115579021A (zh) | 2022-09-23 | 2022-09-23 | 一种基于神经网络和视听融合的声乐表演评分方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115579021A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117475360A (zh) * | 2023-12-27 | 2024-01-30 | 南京纳实医学科技有限公司 | 基于改进型mlstm-fcn的音视频特点的生物体征提取与分析方法 |
CN118398030A (zh) * | 2024-06-26 | 2024-07-26 | 厦门理工学院 | 基于改进径向基函数的ai生成音乐识别方法、装置及设备 |
-
2022
- 2022-09-23 CN CN202211165910.6A patent/CN115579021A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117475360A (zh) * | 2023-12-27 | 2024-01-30 | 南京纳实医学科技有限公司 | 基于改进型mlstm-fcn的音视频特点的生物体征提取与分析方法 |
CN117475360B (zh) * | 2023-12-27 | 2024-03-26 | 南京纳实医学科技有限公司 | 基于改进型mlstm-fcn的音视频特点的生物特征提取与分析方法 |
CN118398030A (zh) * | 2024-06-26 | 2024-07-26 | 厦门理工学院 | 基于改进径向基函数的ai生成音乐识别方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tzanetakis et al. | Marsyas: A framework for audio analysis | |
CN105023573B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
Gillet et al. | Transcription and separation of drum signals from polyphonic music | |
CN115579021A (zh) | 一种基于神经网络和视听融合的声乐表演评分方法及系统 | |
CN104395953A (zh) | 来自音乐音频信号的拍子、和弦和强拍的评估 | |
CN112289326B (zh) | 一种利用具有噪音去除的鸟类识别综合管理系统的噪音去除方法 | |
TW200816164A (en) | Intelligent classification of sound signals with application and method | |
Peeters et al. | Sound indexing using morphological description | |
US11271993B2 (en) | Streaming music categorization using rhythm, texture and pitch | |
US20190199781A1 (en) | Music categorization using rhythm, texture and pitch | |
Lee et al. | Learning a joint embedding space of monophonic and mixed music signals for singing voice | |
Hou et al. | Transfer learning for improving singing-voice detection in polyphonic instrumental music | |
Murthy et al. | Singer identification from smaller snippets of audio clips using acoustic features and DNNs | |
CN112634841B (zh) | 一种基于声音识别的吉他谱自动生成方法 | |
Völkel et al. | Automatic genre classification of latin american music using characteristic rhythmic patterns | |
Ullrich et al. | Music transcription with convolutional sequence-to-sequence models | |
Dong et al. | Vocal Pitch Extraction in Polyphonic Music Using Convolutional Residual Network. | |
Rocamora | Computational methods for percussion music analysis: The Afro-Uruguayan Candombe drumming as a case study | |
Jha et al. | Assessing vowel quality for singing evaluation | |
Bader et al. | Computational timbre and tonal system similarity analysis of the music of Northern Myanmar-based Kachin compared to Xinjiang-based Uyghur ethnic groups | |
US20230005201A1 (en) | Harmony-aware human motion synthesis with music | |
Nichols et al. | Automatically discovering talented musicians with acoustic analysis of youtube videos | |
CN112735444B (zh) | 一种具有模型匹配的中华凤头燕鸥识别系统及其模型匹配方法 | |
Murthy et al. | Vocal and Non-vocal Segmentation based on the Analysis of Formant Structure | |
Chien et al. | An acoustic-phonetic model of F0 likelihood for vocal melody extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |