CN114882905A - 一种基于神经网络的音乐节拍速度检测方法 - Google Patents

一种基于神经网络的音乐节拍速度检测方法 Download PDF

Info

Publication number
CN114882905A
CN114882905A CN202210374604.7A CN202210374604A CN114882905A CN 114882905 A CN114882905 A CN 114882905A CN 202210374604 A CN202210374604 A CN 202210374604A CN 114882905 A CN114882905 A CN 114882905A
Authority
CN
China
Prior art keywords
music
envelope
num
neural network
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210374604.7A
Other languages
English (en)
Inventor
邵玉斌
黄辉波
龙华
杜庆治
段云
周大春
张昊阁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202210374604.7A priority Critical patent/CN114882905A/zh
Publication of CN114882905A publication Critical patent/CN114882905A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明涉及一种基于神经网络的音乐节拍速度检测方法,属于音频信号处理技术领域。本发明根据音乐信号的频谱图判断是否为乐器音乐、或人声音乐;根据上述判断结果,若为乐器音乐,则进行高通滤波,若为人声音乐,则进行低通滤波;在滤波之后,进行信号分帧,然后取每一帧的最大值,合成包络;对包络进行一阶差分、二阶差分;对差分结果进行多次移动均线处理;移动均线处理完成之后,输入神经网络里面进行训练,最后测试得出音乐节拍值的结果。本发明牵涉的大部分算法均在时域进行,少部分涉及到频域。相比在纯频域计算节拍速度的方法,本方法更加简单方便,计算速度与准确率更高。

Description

一种基于神经网络的音乐节拍速度检测方法
技术领域
本发明涉及一种基于神经网络的音乐节拍速度检测方法,属于音频信号处理技术领域。
背景技术
BPM是每分钟节拍数,数值的大小代表着速度的快慢,它是一首音乐的重要组成部分。不同的BPM的音乐播放或者演奏出来的情感基调是不一样的:速度缓慢的较多是抒情、叙事的歌曲类型,速度适中的较多为欢快、轻松的歌曲类型,速度较快的较多是急促、紧张的音乐类型。基于神经网络的音乐节拍速度检测方法功能就是准确的计算出不同音乐曲子的节拍速度,在得到音乐节拍速度之后,可以进一步音乐节奏分析,音乐节拍跟踪,和音乐类型分类等等研究。
与本申请相关的现有技术是专利文献CN114005464A,公开了一种节拍速度估测方法、装置、计算机设备及存储介质。该方法包括:在当前音乐中提取音频特征;对所述音频特征进行自相关处理;对当前音乐列举每分钟节拍数的多个可能选项;基于每分钟节拍数的每一可能选项分别生成特征拍阵列;对自相关处理后的音频特征和每一所述特征拍阵列进行互相关处理;基于互相关处理结果,选取动态范围符合预设阈值的互相关函数作为当前音乐的节拍速度估测结果。
发明内容
本发明要解决的技术问题是提供一种基于神经网络的音乐节拍速度检测方法,可以大幅度提高音乐节拍估测的准确度,从而解决上述问题。
本发明的技术方案是:一种基于神经网络的音乐节拍速度检测方法,具体步骤为:
Step1:检测音乐类型,根据音乐信号的频谱图判断是否为乐器音乐、或人声音乐。
序列x[n]表示一维音乐信号,首先对信号进行傅里叶变换得到幅度频谱F(n)。对幅度频谱F(n)进行可视化,检测(0-300Hz)附近的冲激线群。若冲激线之间有明显间隔,则判断音乐类型为乐器独奏。若间隔不明显,并且附有其他连续的频谱分量,则判断音乐类型为人声音乐。
Step2:进行信号滤波,若为乐器音乐,则进行高通滤波,若为人声音乐,则进行低通滤波。
根据上述判断结果,若为乐器音乐,则进行高通滤波处理,高通滤波器的截止频率为2400Hz。若为人声音乐,则进行低通滤波处理,低通滤波器的截止频率为1600Hz。
Step3:在滤波之后,进行信号分帧,然后取每一帧的最大值,合成包络。
时域信号分帧,音乐信号的重采样率设为8000Hz/s,分帧的帧长frame_length=2048点,帧移frame_shift=512点,帧数num计算的表达式如下:
Figure BDA0003590277090000021
取每一帧的最大值形成包络,此时的序列设为envelope[num],num为语音帧数,但是为了后面数据的统一性,取值num=1000帧。
Step4:对包络进行一阶差分、二阶差分。
对包络信号envelope[num]进行一阶差分,得到envelope_1[num]信号,每一个冲激线代表一个峰值,一阶差分公式如下所示:
envelope_1[n]=envelope_1[n+1]-envelope_1[n],(n=0,1,2,...num-1)
对包络信号envelope[num]进行二阶差分,得到envelope_2[num]信号,每一个冲激线代表一个峰值,二阶差分公式如下所示:
envelope_2[n]=envelope_2[n+2]-2×envelope_2[n+1]+envelope_2[n],(n=0,1,2,...,num-2)
Step5:对差分结果进行多次移动均线处理。
对一阶、二阶差分数据多次进行移动均线处理,表达公式如下:
Figure BDA0003590277090000022
Figure BDA0003590277090000023
mean_1[num]表示一阶差分数据envelope_1[num]每一帧的平均值,num为语音帧数,mean_2[num]表示二阶差分数据envelope_2[num]每一帧的平均值,num为语音帧数。对移动均线处理后的数据设定相同的音乐节拍值,当做训练的标签。
Step6在多次移动均线处理完成之后,输入神经网络里面进行训练,最后测试得出节拍速度结果。
mean_envelope_1[n]数据和对应的标签值输入神经网络模型里面进行训练,得到模型一。mean_envelope_2[n]数据和对应的标签值输入神经网络模型里面进行训练,得到模型二。mean_envelope_1[n]、mean_envelope_2[n]数据和对应的标签值混合输入神经网络模型里面进行训练,得到模型三。选择参数效果最好的模型进行测试,得出音乐节拍速度值。
本发明的有益效果是:本发明牵涉的大部分算法均在时域进行,少部分涉及到频域。相比在纯频域计算节拍速度的方法,本发明更加简单方便,计算速度与准确率更高。
附图说明
图1是本发明的流程示意图;
图2是本发明实施例中的乐器音乐时域波形图;
图3是本发明实施例中的人声音乐时域波形图;
图4是本发明实施例中的乐器音乐频域波形图;
图5是本发明实施例中的人声音乐频域波形图;
图6是本发明实施例中的乐器音乐高通滤波后的时域波形图;
图7是本发明实施例中的人声音乐低通滤波后的时域波形图;
图8是本发明实施例中的乐器音乐滤波后的时域包络图;
图9是本发明实施例中的人声音乐滤波后的时域包络图;
图10是本发明实施例中的乐器音乐的包络一阶差分图;
图11是本发明实施例中的乐器音乐的包络二阶差分图;
图12是本发明实施例中的人声音乐的包络一阶差分图;
图13是本发明实施例中的人声音乐的包络二阶差分图;
图14是本发明实施例中的乐器音乐一阶差分之后的移动均线图;
图15是本发明实施例中的乐器音乐二阶差分之后的移动均线图;
图16是本发明实施例中的人声音乐一阶差分之后的移动均线图;
图17是本发明实施例中的人声音乐二阶差分之后的移动均线图;
图18是本发明实施例中的乐器音乐模型一训练处理的误差图;
图19是本发明实施例中的乐器音乐模型二训练处理的误差图;
图20是本发明实施例中的乐器音乐模型三训练处理的误差图;
图21是本发明实施例中的人声音乐模型一训练处理的误差图;
图22是本发明实施例中的人声音乐模型二训练处理的误差图;
图23是本发明实施例中的人声音乐模型三训练处理的误差图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种基于神经网络的音乐节拍速度检测方法,具体步骤为:
Step1:检测音乐类型,根据音乐信号的频谱图判断是否为乐器音乐、或人声音乐;
Step2:进行信号滤波,若为乐器音乐,则进行高通滤波,若为人声音乐,则进行低通滤波;
Step3:在滤波之后,进行信号分帧,然后取每一帧的最大值,合成包络;
Step4:对包络进行一阶差分、二阶差分;
Step5:对差分结果进行多次移动均线处理;
Step6在多次移动均线处理完成之后,输入神经网络里面进行训练,最后测试得出节拍速度结果。
下面对每一步进行详细的描述。
首先,需要分辨出音乐信号是乐器音乐类型还是人声音乐类型,在时域上可视化出这两大类音乐的图形,每一段音乐信号的时长大概是15s-25s之间。如图2-3所示,可视化时域波形图之后,区别不明显,导致不能分辨音乐类型,所以需要快速傅里叶变换转到频域上进行观它们。如图4-5所示,这时候可以看到它们的区别。检测(0-300Hz)附近的冲激线群;若冲激线之间有明显间隔,则判断音乐类型为乐器独奏;若间隔不明显,并且附有其他连续的频谱分量,则判断音乐类型为人声音乐。
在确认音乐类型之后,需要进行信号滤波,本实施例的所有的音乐信号采样频率为8000Hz。若为乐器音乐,则进行高通滤波处理,高通滤波器的截止频率为2400Hz;若为人声音乐,则进行低通滤波处理,低通滤波器的截止频率为1600Hz,如图6-7所示。
经过滤波之后,需要取出信号的包络图,这里采用分帧取最大值的方法来进行包络提取。时域信号分帧,音乐信号的重采样率设为8000Hz/s,分帧的帧长frame_length=2048点,帧移frame_shift=512点,帧数num计算的表达式如下:
Figure BDA0003590277090000041
取每一帧的最大值形成包络,此时的序列设为envelope[num],num为语音帧数,但是为了后面数据的统一性,取值num=1000帧,如图8-9所示。此时的包络图并不是整个输入信号的包络图,因为需要去除一些尾声。
经过包络提取之后,信号的峰值已经非常明显了,但是高峰旁边还有许多次高峰,不利于节奏速度的提取,这时进行一二阶差分可以让峰值突出,次高峰削弱。对包络信号envelope[num]进行一阶差分,得到envelope_1[num]信号,每一个冲激线代表一个峰值,一阶差分公式如下所示:
envelope_1[n]=envelope_1[n+1]-envelope_1[n],(n=0,1,2,...num-1)
对包络信号envelope[num]进行二阶差分,得到envelope_2[num]信号,每一个冲激线代表一个峰值,二阶差分公式如下所示:
envelope_2[n]=envelope_2[n+2]-2×envelope_2[n+1]+envelope_2[n],(n=0,1,2,...,num-2)如图10-11所示。
一二差分之后的图具有负数值,现在需要把负数值去掉,只留下上半轴的数据;同时想要再次突出最高峰,削弱次高峰,利用多次移动均线可以解决这个问题。对一阶、二阶差分数据进行多次移动均线处理,表达公式如下:
Figure BDA0003590277090000051
Figure BDA0003590277090000052
mean_1[num]表示一阶差分数据envelope_1[num]每一帧的平均值,num为语音帧数,mean_2[num]表示二阶差分数据envelope_2[num]每一帧的平均值,num为语音帧数;如图12-13所示。
对移动均线处理后的数据设定相同的音乐节拍值,当做训练的标签。训练数据一共有三类:第一类是一阶差分数据进行训练、第二类是二阶差分数据进行训练、第三类是一二阶差分数据混合进行训练,结果分别得到每种音乐类型的三种不同的训练效果图。如图14-23所示,经过模型测试集数据测试,选取效果最好的模型进行节拍速度值预测。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (7)

1.一种基于神经网络的音乐节拍速度检测方法,其特征在于:
Step1:检测音乐类型,根据音乐信号的频谱图判断是否为乐器音乐、或人声音乐;
Step2:进行信号滤波,若为乐器音乐,则进行高通滤波,若为人声音乐,则进行低通滤波;
Step3:在滤波之后,进行信号分帧,然后取每一帧的最大值,合成包络;
Step4:对包络进行一阶差分、二阶差分;
Step5:对差分结果进行多次移动均线处理;
Step6在多次移动均线处理完成之后,输入神经网络里面进行训练,最后测试得出节拍速度结果。
2.根据权利要求1所述的基于神经网络的音乐节拍速度检测方法,其特征在于所述Step1具体为:
Step1.1:序列x[n]表示一维音乐信号,对信号进行傅里叶变换得到幅度频谱F(n);
Step1.2:对幅度频谱F(n)进行可视化,检测(0-300Hz)附近的冲激线群;
Step1.3:若冲激线之间有明显间隔,则判断音乐类型为乐器独奏;若间隔不明显,并且附有其他连续的频谱分量,则判断音乐类型为人声音乐。
3.根据权利要求1所述的基于神经网络的音乐节拍速度检测方法,其特征在于所述Step2具体为:
Step2.1:对音乐信号进行分类滤波,设滤波后的信号序列为x_filter[n];
Step2.2:若为乐器音乐,则进行高通滤波处理,高通滤波器的截止频率为2400Hz;若为人声音乐,则进行低通滤波处理,低通滤波器的截止频率为1600Hz。
4.根据权利要求1所述的基于神经网络的音乐节拍速度检测方法,其特征在于所述Step3具体为:
Step3.1:时域信号分帧,音乐信号的重采样率设为8000Hz/s,分帧的帧长frame_length=2048点,帧移frame_shift=512点,帧数num计算的表达式如下:
Figure FDA0003590277080000011
Step3.2:取每一帧的最大值形成包络,此时的序列设为envelope[num],num为语音帧数。
5.根据权利要求1所述的基于神经网络的音乐节拍速度检测方法,其特征在于所述Step4具体为:
Step4.1:对包络信号envelope[num]进行一阶差分,得到envelope_1[num]信号,每一个冲激线代表一个峰值,一阶差分公式如下所示:
envelope_1[n]=envelope_1[n+1]-envelope_1[n],(n=0,1,2,...num-1)
Step4.2:对包络信号envelope[num]进行二阶差分,得到envelope_2[num]信号,每一个冲激线代表一个峰值,二阶差分公式如下所示:
envelope_2[n]=envelope_2[n+2]-2×envelope_2[n+1]+envelope_2[n],(n=0,1,2,...,num-2)。
6.根据权利要求1所述的基于神经网络的音乐节拍速度检测方法,其特征在于所述Step5具体为:
Step5.1:对一阶、二阶差分数据进行多次移动均线处理,表达公式如下:
Figure FDA0003590277080000021
Figure FDA0003590277080000022
mean_1[num]表示一阶差分数据envelope_1[num]每一帧的平均值,num为语音帧数,
mean_2[num]表示二阶差分数据envelope_2[num]每一帧的平均值,num为语音帧数。
7.根据权利要求1所述的基于神经网络的音乐节拍速度检测方法,其特征在于所述Step6具体为:
Step6.1:mean_envelope_1[n]数据和对应的标签值输入神经网络模型里面进行训练,得到模型一;
Step6.2:mean_envelope_2[n]数据和对应的标签值输入神经网络模型里面进行训练,得到模型二;
Step6.3:mean_envelope_1[n]、mean_envelope_2[n]数据和对应的标签值混合输入神经网络模型里面进行训练,得到模型三;
Step6.4:选择参数效果最好的模型进行测试,得出音乐节拍速度。
CN202210374604.7A 2022-04-11 2022-04-11 一种基于神经网络的音乐节拍速度检测方法 Pending CN114882905A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210374604.7A CN114882905A (zh) 2022-04-11 2022-04-11 一种基于神经网络的音乐节拍速度检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210374604.7A CN114882905A (zh) 2022-04-11 2022-04-11 一种基于神经网络的音乐节拍速度检测方法

Publications (1)

Publication Number Publication Date
CN114882905A true CN114882905A (zh) 2022-08-09

Family

ID=82668660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210374604.7A Pending CN114882905A (zh) 2022-04-11 2022-04-11 一种基于神经网络的音乐节拍速度检测方法

Country Status (1)

Country Link
CN (1) CN114882905A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116001664A (zh) * 2022-12-12 2023-04-25 瑞声声学科技(深圳)有限公司 体感式的车内提醒方法、系统及相关设备
CN116129837A (zh) * 2023-04-12 2023-05-16 深圳市宇思半导体有限公司 一种用于音乐节拍跟踪的神经网络数据增强模块和算法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116001664A (zh) * 2022-12-12 2023-04-25 瑞声声学科技(深圳)有限公司 体感式的车内提醒方法、系统及相关设备
CN116129837A (zh) * 2023-04-12 2023-05-16 深圳市宇思半导体有限公司 一种用于音乐节拍跟踪的神经网络数据增强模块和算法

Similar Documents

Publication Publication Date Title
Goto A robust predominant-F0 estimation method for real-time detection of melody and bass lines in CD recordings
CN114882905A (zh) 一种基于神经网络的音乐节拍速度检测方法
CN103854644B (zh) 单声道多音音乐信号的自动转录方法及装置
CN104599663B (zh) 歌曲伴奏音频数据处理方法和装置
CN104143324B (zh) 一种乐音音符识别方法
CN104992712B (zh) 能识别音乐自动成谱的方法
Eronen et al. Music Tempo Estimation With $ k $-NN Regression
JPH10197575A (ja) 信号分析方法
Taenzer et al. Investigating CNN-based Instrument Family Recognition for Western Classical Music Recordings.
CN107210029A (zh) 用于处理一连串信号以进行复调音符辨识的方法和装置
TW200532645A (en) Method for music analysis
Maddage et al. Singing voice detection using twice-iterated composite fourier transform
Goto A predominant-f0 estimation method for real-world musical audio signals: MAP estimation for incorporating prior knowledge about f0s and tone models
Pilia et al. Time scaling detection and estimation in audio recordings
CN110751935A (zh) 乐器演奏点的确定及节奏评分的方法
Fitria et al. Music transcription of javanese gamelan using short time fourier transform (stft)
Coyle et al. Onset detection using comb filters
JP5203404B2 (ja) テンポ値検出装置およびテンポ値検出方法
Sharma et al. Singing characterization using temporal and spectral features in indian musical notes
Lao et al. Computationally inexpensive and effective scheme for automatic transcription of polyphonic music
WO2008001779A1 (fr) procédé d'estimation de fréquence de référence et système d'estimation de signal acoustique
Siki et al. Time-frequency analysis on gong timor music using short-time fourier transform and continuous wavelet transform
Supper et al. An auditory onset detection algorithm for improved automatic source localization
Maula et al. Spectrum identification of peking as a part of traditional instrument of gamelan
Gainza et al. Harmonic sound source separation using FIR comb filters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination