CN114882905A - 一种基于神经网络的音乐节拍速度检测方法 - Google Patents
一种基于神经网络的音乐节拍速度检测方法 Download PDFInfo
- Publication number
- CN114882905A CN114882905A CN202210374604.7A CN202210374604A CN114882905A CN 114882905 A CN114882905 A CN 114882905A CN 202210374604 A CN202210374604 A CN 202210374604A CN 114882905 A CN114882905 A CN 114882905A
- Authority
- CN
- China
- Prior art keywords
- music
- envelope
- num
- neural network
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 19
- 238000001514 detection method Methods 0.000 title claims abstract description 9
- 238000001914 filtration Methods 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000012360 testing method Methods 0.000 claims abstract description 8
- 238000009432 framing Methods 0.000 claims abstract description 4
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 3
- 238000001228 spectrum Methods 0.000 claims description 7
- 230000037433 frameshift Effects 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 101100517651 Caenorhabditis elegans num-1 gene Proteins 0.000 claims description 3
- 238000012952 Resampling Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 2
- 230000005236 sound signal Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 15
- 230000001755 vocal effect Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 206010019133 Hangover Diseases 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/40—Rhythm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明涉及一种基于神经网络的音乐节拍速度检测方法,属于音频信号处理技术领域。本发明根据音乐信号的频谱图判断是否为乐器音乐、或人声音乐;根据上述判断结果,若为乐器音乐,则进行高通滤波,若为人声音乐,则进行低通滤波;在滤波之后,进行信号分帧,然后取每一帧的最大值,合成包络;对包络进行一阶差分、二阶差分;对差分结果进行多次移动均线处理;移动均线处理完成之后,输入神经网络里面进行训练,最后测试得出音乐节拍值的结果。本发明牵涉的大部分算法均在时域进行,少部分涉及到频域。相比在纯频域计算节拍速度的方法,本方法更加简单方便,计算速度与准确率更高。
Description
技术领域
本发明涉及一种基于神经网络的音乐节拍速度检测方法,属于音频信号处理技术领域。
背景技术
BPM是每分钟节拍数,数值的大小代表着速度的快慢,它是一首音乐的重要组成部分。不同的BPM的音乐播放或者演奏出来的情感基调是不一样的:速度缓慢的较多是抒情、叙事的歌曲类型,速度适中的较多为欢快、轻松的歌曲类型,速度较快的较多是急促、紧张的音乐类型。基于神经网络的音乐节拍速度检测方法功能就是准确的计算出不同音乐曲子的节拍速度,在得到音乐节拍速度之后,可以进一步音乐节奏分析,音乐节拍跟踪,和音乐类型分类等等研究。
与本申请相关的现有技术是专利文献CN114005464A,公开了一种节拍速度估测方法、装置、计算机设备及存储介质。该方法包括:在当前音乐中提取音频特征;对所述音频特征进行自相关处理;对当前音乐列举每分钟节拍数的多个可能选项;基于每分钟节拍数的每一可能选项分别生成特征拍阵列;对自相关处理后的音频特征和每一所述特征拍阵列进行互相关处理;基于互相关处理结果,选取动态范围符合预设阈值的互相关函数作为当前音乐的节拍速度估测结果。
发明内容
本发明要解决的技术问题是提供一种基于神经网络的音乐节拍速度检测方法,可以大幅度提高音乐节拍估测的准确度,从而解决上述问题。
本发明的技术方案是:一种基于神经网络的音乐节拍速度检测方法,具体步骤为:
Step1:检测音乐类型,根据音乐信号的频谱图判断是否为乐器音乐、或人声音乐。
序列x[n]表示一维音乐信号,首先对信号进行傅里叶变换得到幅度频谱F(n)。对幅度频谱F(n)进行可视化,检测(0-300Hz)附近的冲激线群。若冲激线之间有明显间隔,则判断音乐类型为乐器独奏。若间隔不明显,并且附有其他连续的频谱分量,则判断音乐类型为人声音乐。
Step2:进行信号滤波,若为乐器音乐,则进行高通滤波,若为人声音乐,则进行低通滤波。
根据上述判断结果,若为乐器音乐,则进行高通滤波处理,高通滤波器的截止频率为2400Hz。若为人声音乐,则进行低通滤波处理,低通滤波器的截止频率为1600Hz。
Step3:在滤波之后,进行信号分帧,然后取每一帧的最大值,合成包络。
时域信号分帧,音乐信号的重采样率设为8000Hz/s,分帧的帧长frame_length=2048点,帧移frame_shift=512点,帧数num计算的表达式如下:
取每一帧的最大值形成包络,此时的序列设为envelope[num],num为语音帧数,但是为了后面数据的统一性,取值num=1000帧。
Step4:对包络进行一阶差分、二阶差分。
对包络信号envelope[num]进行一阶差分,得到envelope_1[num]信号,每一个冲激线代表一个峰值,一阶差分公式如下所示:
envelope_1[n]=envelope_1[n+1]-envelope_1[n],(n=0,1,2,...num-1)
对包络信号envelope[num]进行二阶差分,得到envelope_2[num]信号,每一个冲激线代表一个峰值,二阶差分公式如下所示:
envelope_2[n]=envelope_2[n+2]-2×envelope_2[n+1]+envelope_2[n],(n=0,1,2,...,num-2)
Step5:对差分结果进行多次移动均线处理。
对一阶、二阶差分数据多次进行移动均线处理,表达公式如下:
mean_1[num]表示一阶差分数据envelope_1[num]每一帧的平均值,num为语音帧数,mean_2[num]表示二阶差分数据envelope_2[num]每一帧的平均值,num为语音帧数。对移动均线处理后的数据设定相同的音乐节拍值,当做训练的标签。
Step6在多次移动均线处理完成之后,输入神经网络里面进行训练,最后测试得出节拍速度结果。
mean_envelope_1[n]数据和对应的标签值输入神经网络模型里面进行训练,得到模型一。mean_envelope_2[n]数据和对应的标签值输入神经网络模型里面进行训练,得到模型二。mean_envelope_1[n]、mean_envelope_2[n]数据和对应的标签值混合输入神经网络模型里面进行训练,得到模型三。选择参数效果最好的模型进行测试,得出音乐节拍速度值。
本发明的有益效果是:本发明牵涉的大部分算法均在时域进行,少部分涉及到频域。相比在纯频域计算节拍速度的方法,本发明更加简单方便,计算速度与准确率更高。
附图说明
图1是本发明的流程示意图;
图2是本发明实施例中的乐器音乐时域波形图;
图3是本发明实施例中的人声音乐时域波形图;
图4是本发明实施例中的乐器音乐频域波形图;
图5是本发明实施例中的人声音乐频域波形图;
图6是本发明实施例中的乐器音乐高通滤波后的时域波形图;
图7是本发明实施例中的人声音乐低通滤波后的时域波形图;
图8是本发明实施例中的乐器音乐滤波后的时域包络图;
图9是本发明实施例中的人声音乐滤波后的时域包络图;
图10是本发明实施例中的乐器音乐的包络一阶差分图;
图11是本发明实施例中的乐器音乐的包络二阶差分图;
图12是本发明实施例中的人声音乐的包络一阶差分图;
图13是本发明实施例中的人声音乐的包络二阶差分图;
图14是本发明实施例中的乐器音乐一阶差分之后的移动均线图;
图15是本发明实施例中的乐器音乐二阶差分之后的移动均线图;
图16是本发明实施例中的人声音乐一阶差分之后的移动均线图;
图17是本发明实施例中的人声音乐二阶差分之后的移动均线图;
图18是本发明实施例中的乐器音乐模型一训练处理的误差图;
图19是本发明实施例中的乐器音乐模型二训练处理的误差图;
图20是本发明实施例中的乐器音乐模型三训练处理的误差图;
图21是本发明实施例中的人声音乐模型一训练处理的误差图;
图22是本发明实施例中的人声音乐模型二训练处理的误差图;
图23是本发明实施例中的人声音乐模型三训练处理的误差图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种基于神经网络的音乐节拍速度检测方法,具体步骤为:
Step1:检测音乐类型,根据音乐信号的频谱图判断是否为乐器音乐、或人声音乐;
Step2:进行信号滤波,若为乐器音乐,则进行高通滤波,若为人声音乐,则进行低通滤波;
Step3:在滤波之后,进行信号分帧,然后取每一帧的最大值,合成包络;
Step4:对包络进行一阶差分、二阶差分;
Step5:对差分结果进行多次移动均线处理;
Step6在多次移动均线处理完成之后,输入神经网络里面进行训练,最后测试得出节拍速度结果。
下面对每一步进行详细的描述。
首先,需要分辨出音乐信号是乐器音乐类型还是人声音乐类型,在时域上可视化出这两大类音乐的图形,每一段音乐信号的时长大概是15s-25s之间。如图2-3所示,可视化时域波形图之后,区别不明显,导致不能分辨音乐类型,所以需要快速傅里叶变换转到频域上进行观它们。如图4-5所示,这时候可以看到它们的区别。检测(0-300Hz)附近的冲激线群;若冲激线之间有明显间隔,则判断音乐类型为乐器独奏;若间隔不明显,并且附有其他连续的频谱分量,则判断音乐类型为人声音乐。
在确认音乐类型之后,需要进行信号滤波,本实施例的所有的音乐信号采样频率为8000Hz。若为乐器音乐,则进行高通滤波处理,高通滤波器的截止频率为2400Hz;若为人声音乐,则进行低通滤波处理,低通滤波器的截止频率为1600Hz,如图6-7所示。
经过滤波之后,需要取出信号的包络图,这里采用分帧取最大值的方法来进行包络提取。时域信号分帧,音乐信号的重采样率设为8000Hz/s,分帧的帧长frame_length=2048点,帧移frame_shift=512点,帧数num计算的表达式如下:
取每一帧的最大值形成包络,此时的序列设为envelope[num],num为语音帧数,但是为了后面数据的统一性,取值num=1000帧,如图8-9所示。此时的包络图并不是整个输入信号的包络图,因为需要去除一些尾声。
经过包络提取之后,信号的峰值已经非常明显了,但是高峰旁边还有许多次高峰,不利于节奏速度的提取,这时进行一二阶差分可以让峰值突出,次高峰削弱。对包络信号envelope[num]进行一阶差分,得到envelope_1[num]信号,每一个冲激线代表一个峰值,一阶差分公式如下所示:
envelope_1[n]=envelope_1[n+1]-envelope_1[n],(n=0,1,2,...num-1)
对包络信号envelope[num]进行二阶差分,得到envelope_2[num]信号,每一个冲激线代表一个峰值,二阶差分公式如下所示:
envelope_2[n]=envelope_2[n+2]-2×envelope_2[n+1]+envelope_2[n],(n=0,1,2,...,num-2)如图10-11所示。
一二差分之后的图具有负数值,现在需要把负数值去掉,只留下上半轴的数据;同时想要再次突出最高峰,削弱次高峰,利用多次移动均线可以解决这个问题。对一阶、二阶差分数据进行多次移动均线处理,表达公式如下:
mean_1[num]表示一阶差分数据envelope_1[num]每一帧的平均值,num为语音帧数,mean_2[num]表示二阶差分数据envelope_2[num]每一帧的平均值,num为语音帧数;如图12-13所示。
对移动均线处理后的数据设定相同的音乐节拍值,当做训练的标签。训练数据一共有三类:第一类是一阶差分数据进行训练、第二类是二阶差分数据进行训练、第三类是一二阶差分数据混合进行训练,结果分别得到每种音乐类型的三种不同的训练效果图。如图14-23所示,经过模型测试集数据测试,选取效果最好的模型进行节拍速度值预测。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (7)
1.一种基于神经网络的音乐节拍速度检测方法,其特征在于:
Step1:检测音乐类型,根据音乐信号的频谱图判断是否为乐器音乐、或人声音乐;
Step2:进行信号滤波,若为乐器音乐,则进行高通滤波,若为人声音乐,则进行低通滤波;
Step3:在滤波之后,进行信号分帧,然后取每一帧的最大值,合成包络;
Step4:对包络进行一阶差分、二阶差分;
Step5:对差分结果进行多次移动均线处理;
Step6在多次移动均线处理完成之后,输入神经网络里面进行训练,最后测试得出节拍速度结果。
2.根据权利要求1所述的基于神经网络的音乐节拍速度检测方法,其特征在于所述Step1具体为:
Step1.1:序列x[n]表示一维音乐信号,对信号进行傅里叶变换得到幅度频谱F(n);
Step1.2:对幅度频谱F(n)进行可视化,检测(0-300Hz)附近的冲激线群;
Step1.3:若冲激线之间有明显间隔,则判断音乐类型为乐器独奏;若间隔不明显,并且附有其他连续的频谱分量,则判断音乐类型为人声音乐。
3.根据权利要求1所述的基于神经网络的音乐节拍速度检测方法,其特征在于所述Step2具体为:
Step2.1:对音乐信号进行分类滤波,设滤波后的信号序列为x_filter[n];
Step2.2:若为乐器音乐,则进行高通滤波处理,高通滤波器的截止频率为2400Hz;若为人声音乐,则进行低通滤波处理,低通滤波器的截止频率为1600Hz。
5.根据权利要求1所述的基于神经网络的音乐节拍速度检测方法,其特征在于所述Step4具体为:
Step4.1:对包络信号envelope[num]进行一阶差分,得到envelope_1[num]信号,每一个冲激线代表一个峰值,一阶差分公式如下所示:
envelope_1[n]=envelope_1[n+1]-envelope_1[n],(n=0,1,2,...num-1)
Step4.2:对包络信号envelope[num]进行二阶差分,得到envelope_2[num]信号,每一个冲激线代表一个峰值,二阶差分公式如下所示:
envelope_2[n]=envelope_2[n+2]-2×envelope_2[n+1]+envelope_2[n],(n=0,1,2,...,num-2)。
7.根据权利要求1所述的基于神经网络的音乐节拍速度检测方法,其特征在于所述Step6具体为:
Step6.1:mean_envelope_1[n]数据和对应的标签值输入神经网络模型里面进行训练,得到模型一;
Step6.2:mean_envelope_2[n]数据和对应的标签值输入神经网络模型里面进行训练,得到模型二;
Step6.3:mean_envelope_1[n]、mean_envelope_2[n]数据和对应的标签值混合输入神经网络模型里面进行训练,得到模型三;
Step6.4:选择参数效果最好的模型进行测试,得出音乐节拍速度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210374604.7A CN114882905A (zh) | 2022-04-11 | 2022-04-11 | 一种基于神经网络的音乐节拍速度检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210374604.7A CN114882905A (zh) | 2022-04-11 | 2022-04-11 | 一种基于神经网络的音乐节拍速度检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114882905A true CN114882905A (zh) | 2022-08-09 |
Family
ID=82668660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210374604.7A Pending CN114882905A (zh) | 2022-04-11 | 2022-04-11 | 一种基于神经网络的音乐节拍速度检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114882905A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116001664A (zh) * | 2022-12-12 | 2023-04-25 | 瑞声声学科技(深圳)有限公司 | 体感式的车内提醒方法、系统及相关设备 |
CN116129837A (zh) * | 2023-04-12 | 2023-05-16 | 深圳市宇思半导体有限公司 | 一种用于音乐节拍跟踪的神经网络数据增强模块和算法 |
-
2022
- 2022-04-11 CN CN202210374604.7A patent/CN114882905A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116001664A (zh) * | 2022-12-12 | 2023-04-25 | 瑞声声学科技(深圳)有限公司 | 体感式的车内提醒方法、系统及相关设备 |
CN116129837A (zh) * | 2023-04-12 | 2023-05-16 | 深圳市宇思半导体有限公司 | 一种用于音乐节拍跟踪的神经网络数据增强模块和算法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Goto | A robust predominant-F0 estimation method for real-time detection of melody and bass lines in CD recordings | |
CN114882905A (zh) | 一种基于神经网络的音乐节拍速度检测方法 | |
CN103854644B (zh) | 单声道多音音乐信号的自动转录方法及装置 | |
CN104599663B (zh) | 歌曲伴奏音频数据处理方法和装置 | |
CN104143324B (zh) | 一种乐音音符识别方法 | |
CN104992712B (zh) | 能识别音乐自动成谱的方法 | |
Eronen et al. | Music Tempo Estimation With $ k $-NN Regression | |
JPH10197575A (ja) | 信号分析方法 | |
Taenzer et al. | Investigating CNN-based Instrument Family Recognition for Western Classical Music Recordings. | |
CN107210029A (zh) | 用于处理一连串信号以进行复调音符辨识的方法和装置 | |
TW200532645A (en) | Method for music analysis | |
Maddage et al. | Singing voice detection using twice-iterated composite fourier transform | |
Goto | A predominant-f0 estimation method for real-world musical audio signals: MAP estimation for incorporating prior knowledge about f0s and tone models | |
Pilia et al. | Time scaling detection and estimation in audio recordings | |
CN110751935A (zh) | 乐器演奏点的确定及节奏评分的方法 | |
Fitria et al. | Music transcription of javanese gamelan using short time fourier transform (stft) | |
Coyle et al. | Onset detection using comb filters | |
JP5203404B2 (ja) | テンポ値検出装置およびテンポ値検出方法 | |
Sharma et al. | Singing characterization using temporal and spectral features in indian musical notes | |
Lao et al. | Computationally inexpensive and effective scheme for automatic transcription of polyphonic music | |
WO2008001779A1 (fr) | procédé d'estimation de fréquence de référence et système d'estimation de signal acoustique | |
Siki et al. | Time-frequency analysis on gong timor music using short-time fourier transform and continuous wavelet transform | |
Supper et al. | An auditory onset detection algorithm for improved automatic source localization | |
Maula et al. | Spectrum identification of peking as a part of traditional instrument of gamelan | |
Gainza et al. | Harmonic sound source separation using FIR comb filters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |