CN109308910B - 确定音频的bpm的方法和装置 - Google Patents
确定音频的bpm的方法和装置 Download PDFInfo
- Publication number
- CN109308910B CN109308910B CN201811100284.6A CN201811100284A CN109308910B CN 109308910 B CN109308910 B CN 109308910B CN 201811100284 A CN201811100284 A CN 201811100284A CN 109308910 B CN109308910 B CN 109308910B
- Authority
- CN
- China
- Prior art keywords
- bpm
- audio
- determining
- preset
- confidence coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000001228 spectrum Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 206010011376 Crepitations Diseases 0.000 description 1
- 208000037656 Respiratory Sounds Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/071—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for rhythm pattern analysis or rhythm style recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/076—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本申请提供了一种确定音频的bpm的方法和装置,属于计算机技术领域。所述方法包括:在确定目标音频的bpm时,可以获取基于madmom算法,确定出的目标音频的第一每分钟节拍数bpm和第二bpm、以及第一bpm对应的第一置信度和第二bpm对应的第二置信度,如果第一置信度和第二置信度中有大于或等于第一预设阈值的置信度,则将大于预设阈值的置信度对应的bpm,确定为目标音频的bpm;如果第一置信度和第二置信度均小于第一预设阈值,则获取与目标音频满足预设相似条件的预设数目个音频的bpm,确定预设数目个音频的bpm中,出现频率大于第二预设阈值的第三bpm,根据第一bpm、第二bpm和第三bpm,确定目标音频的bpm。采用本申请,可以提高标记bpm的效率。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种确定音频的bpm的方法和装置。
背景技术
bpm(beats per minute,每分钟节拍数)是音乐的重要特征之一,是整个音乐的速度标记,为独立在曲谱外的速度标准。
相关技术中,技术人员为每首歌曲标记bpm,并对应歌曲的音频数据存储在音频库中,用户在跑步时,一边跑步一边听歌曲,在由终端智能推荐歌曲时,终端可以检测用户跑步的步频,选择与该步频相近的bpm的歌曲,进行推荐。
由于歌曲库中歌曲比较多,每首歌曲都是人工标记bpm,会导致标记bpm的效率比较低。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种确定音频的bpm的方法和装置。所述技术方案如下:
第一方面,提供了一种确定音频的bpm的方法,所述方法包括:
获取基于madmom算法,确定出的目标音频的第一每分钟节拍数bpm和第二bpm、以及所述第一bpm对应的第一置信度和所述第二bpm对应的第二置信度,其中,所述第一置信度与所述第二置信度之和等于1;
如果所述第一置信度和所述第二置信度中有大于或等于预设阈值的置信度,则将大于所述预设阈值的置信度对应的bpm,确定为所述目标音频的bpm;
如果所述第一置信度和所述第二置信度均小于所述第一预设阈值,则获取与所述目标音频满足预设相似条件的预设数目个音频的bpm,确定所述预设数目个音频的bpm中,出现频率最高的第三bpm,根据所述第一bpm、所述第二bpm和所述第三bpm,确定所述目标音频的bpm。
可选的,所述根据所述第一bpm、所述第二bpm和所述第三bpm,确定所述目标音频的bpm,包括:
确定所述第一bpm与所述第三bpm的差值的第一绝对值,并确定所述第二bpm与所述第三bpm的差值的第二绝对值;
如果所述第一绝对值大于或等于所述第二绝对值,则将所述第二bpm确定为所述目标音频的bpm;
如果所述第一绝对值小于所述第二绝对值,则将所述第一bpm确定为所述目标音频的bpm。
可选的,所述获取与所述目标音频满足预设相似条件的预设数目个音频的bpm,包括:
根据所述目标音频的音频数据和预设的相似音频确定模型,确定与所述目标音频满足预设相似条件的预设数目个音频的音频标识;
使用所述预设数目个音频的音频标识,确定与所述目标音频满足预设相似条件的预设数目个音频的bpm。
可选的,所述方法还包括:
根据训练样本集和预设的初始相似音频确定模型,训练得到相似音频确定模型,其中,所述训练样本集中包括多个音频,以及每个音频对应的标定bpm。
可选的,所述获取与所述目标音频满足预设相似条件的预设数目个音频的bpm,包括:
获取与所述目标音频满足频谱信息相似条件的预设数目个音频的bpm。
第二方面,提供了一种确定音频的bpm的装置,所述装置包括:
获取模块,用于获取基于madmom算法,确定出的目标音频的第一每分钟节拍数bpm和第二bpm、以及所述第一bpm对应的第一置信度和所述第二bpm对应的第二置信度,其中,所述第一置信度与所述第二置信度之和等于1;
确定模块,用于如果所述第一置信度和所述第二置信度中有大于或等于预设阈值的置信度,则将大于所述预设阈值的置信度对应的bpm,确定为所述目标音频的bpm;如果所述第一置信度和所述第二置信度均小于所述第一预设阈值,则获取与所述目标音频满足预设相似条件的预设数目个音频的bpm,确定所述预设数目个音频的bpm中,出现频率最高的第三bpm,根据所述第一bpm、所述第二bpm和所述第三bpm,确定所述目标音频的bpm。
可选的,所述确定模块,用于:
确定所述第一bpm与所述第三bpm的差值的第一绝对值,并确定所述第二bpm与所述第三bpm的差值的第二绝对值;
如果所述第一绝对值大于或等于所述第二绝对值,则将所述第二bpm确定为所述目标音频的bpm;
如果所述第一绝对值小于所述第二绝对值,则将所述第一bpm确定为所述目标音频的bpm。
可选的,所述确定模块,用于:
根据所述目标音频的音频数据和预设的相似音频确定模型,确定与所述目标音频满足预设相似条件的预设数目个音频的音频标识;
使用所述预设数目个音频的音频标识,确定与所述目标音频满足预设相似条件的预设数目个音频的bpm。
可选的,所述装置还包括:
训练模块,用于根据训练样本集和预设的初始相似音频确定模型,训练得到相似音频确定模型,其中,所述训练样本集中包括多个音频,以及每个音频对应的标定bpm。
可选的,所述确定模块,用于:
获取与所述目标音频满足频谱信息相似条件的预设数目个音频的bpm。
本发明实施例提供的技术方案带来的有益效果至少包括:
本发明实施例中,在确定目标音频的bpm时,可以获取基于madmom算法,确定出的目标音频的第一每分钟节拍数bpm和第二bpm、以及第一bpm对应的第一置信度和第二bpm对应的第二置信度,其中,第一置信度与第二置信度之和等于1,如果第一置信度和第二置信度中有大于或等于第一预设阈值的置信度,则将大于预设阈值的置信度对应的bpm,确定为目标音频的bpm;如果第一置信度和第二置信度均小于第一预设阈值,则获取与目标音频满足预设相似条件的预设数目个音频的bpm,确定预设数目个音频的bpm中,出现频率大于第二预设阈值的第三bpm,根据第一bpm、第二bpm和第三bpm,确定目标音频的bpm。这样,在使用madmom算法输出的两个bpm的置信度,其中一个比较大时,直接输出置信度高于一定数值的bpm,而且在使用madmom算法输出的两个bpm的置信度均比较低时,还考虑了与目标音频相似的多个音频的bpm,使确定出的bpm比较准确,不需要人工标注,所以标记bpm的效率比较高。
附图说明
图1是本发明实施例提供的一种确定音频的bpm的方法流程图;
图2是本发明实施例提供的一种训练相似音频确定模型的示意图;
图3是本发明实施例提供的一种确定音频的bpm的装置的结构示意图;
图4是本发明实施例提供的一种确定音频的bpm的装置的结构示意图;
图5是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种确定音频的bpm的方法,该方法的执行主体可以是服务器,其中,服务器可以是音频应用程序的后台服务器。该服务器中可以设置有处理器、存储器和收发器等,处理器可以用于确定音频的bpm的过程的处理,存储器可以用于存储确定音频的bpm的过程中需要的数据以及产生的数据,收发器可以用于接收以及发送数据。
本发明实施例提供了一种确定音频的bpm的方法,如图1所示,该方法的执行流程可以如下:
步骤101,获取基于madmom算法,确定出的目标音频的第一bpm和第二bpm、以及第一bpm对应的第一置信度和第二bpm对应的第二置信度,其中,第一置信度与第二置信度之和等于1。
其中,目标音频为要确定bpm的任一音频,如目标音频为歌曲《冰雨》。
在实施中,服务器要确定目标音频的bpm时,可以将目标音频的音频数据输入到预先存储的madmom算法,madmom算法则会输出目标音频的第一bpm和第一bpm对应的第一置信度、以及第二bpm和第二bpm对应的第二置信度,第一置信度用于反映目标音频的bpm为第一bpm的概率,第二置信度用于反映目标音频的bpm为第二bpm的概率,第一置信度与第二置信度之和等于1。
需要说明的是,madmom算法是一种常规的bpm确定模型,算法原理可以如下:技术人员获取大量的音频,作为样本集,将每个音频经过预处理后(预处理包括将每个音频通过短时傅里叶变换,经每个音频从时域转换到频域,根据八度音阶设置3个滤波器滤波后转换到对数域),构建一个初始bpm确定模型,该初始bpm确定模型一般是基于卷积神经网络(Recurrent Neural Networks,RNN)设置的,然后基于进行预处理后的样本集对初始bpm确定模型进行训练,得到初始bpm确定模型中的待训练参数的参数值,将待训练参数的参数值代入初始bpm确定模型中,得到bpm确定模型,在bpm确定模型中输入一个音频后,该bpm确定模型的输出为该音频中每个音频帧作为一个节拍点的概率。后续我们要确定某个音频的bpm,可以将该音频输出到bpm确定模型,该bpm确定模型会输出该音频中每个音频帧作为一个节拍点的概率,然后输入到多个梳状滤波器中,得到多个输出后,累加得到最大值和次大值,即可计算输出两个bpm,以及每个bpm对应的概率。
另外,对于一个音频,凡是能输出两个bpm,以及每个bpm对应的概率的算法,都可以应用于本发明实施例,作为madmom算法的替代算法。
步骤102,如果第一置信度和第二置信度中有大于或等于预设阈值的置信度,则将大于预设阈值的置信度对应的bpm,确定为目标音频的bpm。
其中,预设阈值可以由技术人员预设,并且存储至服务器中,预设阈值可以是0.6等。
在实施中,服务器可以比较第一置信度与预设阈值的大小,并且比较第二置信度与预设阈值的大小,如果在第一置信度和第二置信度中有大于或等于预设阈值的置信度,可以将大于预设阈值的置信度对应的bpm,确定为目标音频的bpm。例如,预设阈值为0.6,第一bpm对应的第一置信度为0.92,第二bpm对应的第二置信度为0.08,第一置信度大于0.6,可以将第一bpm确定为目标音频的bpm。
步骤103,如果第一置信度和第二置信度均小于第一预设阈值,则获取与目标音频满足预设相似条件的预设数目个音频的bpm,确定预设数目个音频的bpm中,出现频率最高的第三bpm,根据第一bpm、第二bpm和第三bpm,确定目标音频的bpm。
其中,预设相似条件可以由技术人员预设,并且存储至服务器中,如预设相似条件为音色相似等。预设数目可以由技术人员预设,并且存储至服务器中,如40等。
在实施中,服务器在比较第一置信度与预设阈值的大小、第二置信度与预设阈值的大小时,如果第一置信度和第二置信度均小于预设阈值,服务器可以在音频库中获取与目标音频满足预设相似条件的预设数目个音频的标识,然后获取预设的音频的标识与音频的bpm的对应关系(可以预设,并且提前存储至服务器中),在该对应关系中获取这预设数目个音频的bpm。
服务器可以统计这预设数目个bpm中,每个bpm的出现概率,确定出现概率最高的第三bpm。
服务器在确定出第三bpm后,可以使用第一bpm、第二bpm和第三bpm,确定目标音频的bpm。
需要说明的是,上述音频库中的音频一般都已标定好的准确bpm。
另外,为了使最终确定出的目标音频的bpm更准确,可以在确定第三bpm时,选择出现概率最高且大于预设数值的第三bpm(预设数值可以预设,并且存储至服务器中,如0.6)。例如,预设数值为0.6,预设数目为40,bpm为120的出现概率为0.7,0.7最高且0.7大于0.6,第三bpm为120。
可选的,使用第一bpm、第二bpm和第三bpm,确定目标音频的bpm的方式可以如下:
确定第一bpm与第三bpm的差值的第一绝对值,并确定第二bpm与第三bpm的差值的第二绝对值;如果第一绝对值大于或等于第二绝对值,则将第二bpm确定为目标音频的bpm;如果第一绝对值小于第二绝对值,则将第一bpm确定为目标音频的bpm。
在实施中,服务器可以计算第一bpm与第三bpm的差值,然后求其绝对值,得到第一绝对值,并且可以计算第二bpm与第三bpm的差值,求其绝对值,得到第二绝对值。然后服务器可以判断第一绝对值和第二绝对值的大小,如果第一绝对值大于或等于第二绝对值,说明第一bpm与第三bpm的差值更大,可以将第二bpm确定为目标音频的bpm,如果第一绝对值小于第二绝对值,说明第二bpm与第三bpm的差值更大,可以将第一bpm确定为目标音频的bpm。
可选的,可以使用预先训练的模型获取上述提到的预设数目个音频的bpm,相应的处理可以如下:
根据目标音频的音频数据和预设的相似音频确定模型,确定与目标音频满足预设相似条件的预设数目个音频的音频标识;使用预设数目个音频的音频标识,确定预设数目个音频的bpm。
其中,相似音频确定模型可以预先训练得到,并且存储在服务器中,相似音频确定模型一般是使用musly工具来训练得到的。
在实施中,服务器可以获取预设的相似音频确定模型,将目标音频输入到相似音频确定模型中,该相似音频确定模型则会输出与目标音频满足预设相似条件的预设数目个音频的音频标识,然后服务器可以获取预设的音频的标识与音频的bpm的对应关系(可以预设,并且提前存储至服务器中),在该对应关系中获取这预设数目个音频的bpm。
可选的,本发明实施例中,还给出了确定相似音频确定模型的方式,相应的处理可以如下:
根据训练样本集和预设的初始相似音频确定模型,训练得到相似音频确定模型,其中,训练样本集中包括多个音频,以及每个音频对应的标定bpm。
在实施中,如图2所示,s1、服务器可以获取训练样本集,训练样本集中包括多个音频,以及每个音频对应的标定bpm,音频的标定bpm一般是由人工标定的准确的bpm。S2、然后服务器可以获取预设的初始相似音频确定模型,初始相似音频确定模型可以是神经网络模型,服务器可以使用训练样本集对初始相似音频确定模型,进行训练,得到初始音频确定模型中的待训练参数的参数值,S3、将待训练参数的参数值代入到初始相似音频确定模型中,得到相似音频确定模型。
可选的,预设相似条件可以是频谱信息相似,相应的处理可以如下:
获取与所述目标音频满足频谱信息相似条件的预设数目个音频的bpm。
其中,音频的频谱信息可以包括音频的频谱包络、基频、非周期性特征等。音色是听觉感觉到的声音的特色,纯音不存在音色问题,复音才有音色的不同。音色主要决定于声音的频谱,即基音和各次谐音的组成,也和波形、声压及声音的时间特性有关系。频谱包络可以作为音色的标准,基频是音高的表征,非周期性特征是不规则的周期信号的表征,如鼓点、嚓声、清音等。
在实施中,服务器可以确定音频库中,每个音频的频谱信息,将频谱信息中包括的每一维频谱信息作为一个维度,分别获取为每个维度设置的权值(各维度的权值相加等于一)。对于音频库的每个音频,将该音频的频谱信息的每个维度与目标音频的该维度进行比较,确定相似度,这样得到每个维度下该音频与目标音频的相似度,按照每个维度设置的权值,进行加权,得到加权值,这样,就得到了该音频与目标音频的总相似度。获取总相似度最高的预设数目个音频的标识,然后服务器可以获取预设的音频的标识与音频的bpm的对应关系(可以预设,并且提前存储至服务器中),在该对应关系中获取这预设数目个音频的bpm。
本发明实施例中,在确定目标音频的bpm时,可以获取基于madmom算法,确定出的目标音频的第一每分钟节拍数bpm和第二bpm、以及第一bpm对应的第一置信度和第二bpm对应的第二置信度,其中,第一置信度与第二置信度之和等于1,如果第一置信度和第二置信度中有大于或等于第一预设阈值的置信度,则将大于预设阈值的置信度对应的bpm,确定为目标音频的bpm;如果第一置信度和第二置信度均小于第一预设阈值,则获取与目标音频满足预设相似条件的预设数目个音频的bpm,确定预设数目个音频的bpm中,出现频率大于第二预设阈值的第三bpm,根据第一bpm、第二bpm和第三bpm,确定目标音频的bpm。这样,在使用madmom算法输出的两个bpm的置信度,其中一个比较大时,直接输出置信度高于一定数值的bpm,而且在使用madmom算法输出的两个bpm的置信度均比较低时,还考虑了与目标音频相似的多个音频的bpm,使确定出的bpm比较准确,不需要人工标注,所以标记bpm的效率比较高。
基于相同的技术构思,本发明实施例还提供了一种确定音频的bpm的装置,如图3所示,该装置包括:
获取模块310,用于获取基于madmom算法,确定出的目标音频的第一每分钟节拍数bpm和第二bpm、以及所述第一bpm对应的第一置信度和所述第二bpm对应的第二置信度,其中,所述第一置信度与所述第二置信度之和等于1;
确定模块320,用于如果所述第一置信度和所述第二置信度中有大于或等于预设阈值的置信度,则将大于所述预设阈值的置信度对应的bpm,确定为所述目标音频的bpm;如果所述第一置信度和所述第二置信度均小于所述第一预设阈值,则获取与所述目标音频满足预设相似条件的预设数目个音频的bpm,确定所述预设数目个音频的bpm中,出现频率最高的第三bpm,根据所述第一bpm、所述第二bpm和所述第三bpm,确定所述目标音频的bpm。
可选的,所述确定模块320,用于:
确定所述第一bpm与所述第三bpm的差值的第一绝对值,并确定所述第二bpm与所述第三bpm的差值的第二绝对值;
如果所述第一绝对值大于或等于所述第二绝对值,则将所述第二bpm确定为所述目标音频的bpm;
如果所述第一绝对值小于所述第二绝对值,则将所述第一bpm确定为所述目标音频的bpm。
可选的,所述确定模块320,用于:
根据所述目标音频的音频数据和预设的相似音频确定模型,确定与所述目标音频满足预设相似条件的预设数目个音频的音频标识;
使用所述预设数目个音频的音频标识,确定与所述目标音频满足预设相似条件的预设数目个音频的bpm。
可选的,如图4所示,所述装置还包括:
训练模块330,用于根据训练样本集和预设的初始相似音频确定模型,训练得到相似音频确定模型,其中,所述训练样本集中包括多个音频,以及每个音频对应的标定bpm。
可选的,所述确定模块320,用于:
获取与所述目标音频满足频谱信息相似条件的预设数目个音频的bpm。
本发明实施例中,在确定目标音频的bpm时,可以获取基于madmom算法,确定出的目标音频的第一每分钟节拍数bpm和第二bpm、以及第一bpm对应的第一置信度和第二bpm对应的第二置信度,其中,第一置信度与第二置信度之和等于1,如果第一置信度和第二置信度中有大于或等于第一预设阈值的置信度,则将大于预设阈值的置信度对应的bpm,确定为目标音频的bpm;如果第一置信度和第二置信度均小于第一预设阈值,则获取与目标音频满足预设相似条件的预设数目个音频的bpm,确定预设数目个音频的bpm中,出现频率大于第二预设阈值的第三bpm,根据第一bpm、第二bpm和第三bpm,确定目标音频的bpm。这样,在使用madmom算法输出的两个bpm的置信度,其中一个比较大时,直接输出置信度高于一定数值的bpm,而且在使用madmom算法输出的两个bpm的置信度均比较低时,还考虑了与目标音频相似的多个音频的bpm,使确定出的bpm比较准确,不需要人工标注,所以标记bpm的效率比较高。
需要说明的是:上述实施例提供的确定音频的bpm的装置在确定音频的bpm时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的确定音频的bpm与确定音频的bpm的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图5是本发明实施例提供的一种服务器的结构示意图,该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processingunits,CPU)501和一个或一个以上的存储器502,其中,所述存储器502中存储有至少一条指令,所述至少一条指令由所述处理器501加载并执行以实现上述确定音频的bpm的方法步骤。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种确定音频的bpm的方法,其特征在于,所述方法包括:
获取基于madmom算法,确定出的目标音频的第一bpm和第二bpm、以及所述第一bpm对应的第一置信度和所述第二bpm对应的第二置信度,其中,所述第一置信度与所述第二置信度之和等于1;
如果所述第一置信度和所述第二置信度中有大于或等于第一预设阈值的置信度,则将大于或等于所述第一预设阈值的置信度对应的bpm,确定为所述目标音频的bpm;
如果所述第一置信度和所述第二置信度均小于所述第一预设阈值,则获取与所述目标音频满足预设相似条件的预设数目个音频的音频标识,获取音频标识与音频的bpm之间的对应关系,在所述对应关系中获取所述预设数目个音频的bpm,确定所述预设数目个音频的bpm中,出现频率最高的第三bpm,根据所述第一bpm、所述第二bpm和所述第三bpm,确定所述目标音频的bpm;
其中,所述对应关系中的音频的bpm为标定好的准确的bpm。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一bpm、所述第二bpm和所述第三bpm,确定所述目标音频的bpm,包括:
确定所述第一bpm与所述第三bpm的差值的第一绝对值,并确定所述第二bpm与所述第三bpm的差值的第二绝对值;
如果所述第一绝对值大于或等于所述第二绝对值,则将所述第二bpm确定为所述目标音频的bpm;
如果所述第一绝对值小于所述第二绝对值,则将所述第一bpm确定为所述目标音频的bpm。
3.根据权利要求1所述的方法,其特征在于,所述获取与所述目标音频满足预设相似条件的预设数目个音频的bpm,包括:
根据所述目标音频的音频数据和预设的相似音频确定模型,确定与所述目标音频满足预设相似条件的预设数目个音频的音频标识;
使用所述预设数目个音频的音频标识,确定与所述目标音频满足预设相似条件的预设数目个音频的bpm。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据训练样本集和预设的初始相似音频确定模型,训练得到相似音频确定模型,其中,所述训练样本集中包括多个音频,以及每个音频对应的标定bpm。
5.根据权利要求1所述的方法,其特征在于,所述获取与所述目标音频满足预设相似条件的预设数目个音频的bpm,包括:
获取与所述目标音频满足频谱信息相似条件的预设数目个音频的bpm。
6.一种确定音频的bpm的装置,其特征在于,所述装置包括:
获取模块,用于获取基于madmom算法,确定出的目标音频的第一bpm和第二bpm、以及所述第一bpm对应的第一置信度和所述第二bpm对应的第二置信度,其中,所述第一置信度与所述第二置信度之和等于1;
确定模块,用于如果所述第一置信度和所述第二置信度中有大于或等于第一预设阈值的置信度,则将大于或等于所述第一预设阈值的置信度对应的bpm,确定为所述目标音频的bpm;如果所述第一置信度和所述第二置信度均小于所述第一预设阈值,则获取与所述目标音频满足预设相似条件的预设数目个音频的音频标识,获取音频标识与音频的bpm之间的对应关系,在所述对应关系中获取所述预设数目个音频的bpm,确定所述预设数目个音频的bpm中,出现频率最高的第三bpm,根据所述第一bpm、所述第二bpm和所述第三bpm,确定所述目标音频的bpm;
其中,所述对应关系中的音频的bpm为标定好的准确的bpm。
7.根据权利要求6所述的装置,其特征在于,所述确定模块,用于:
确定所述第一bpm与所述第三bpm的差值的第一绝对值,并确定所述第二bpm与所述第三bpm的差值的第二绝对值;
如果所述第一绝对值大于或等于所述第二绝对值,则将所述第二bpm确定为所述目标音频的bpm;
如果所述第一绝对值小于所述第二绝对值,则将所述第一bpm确定为所述目标音频的bpm。
8.根据权利要求6所述的装置,其特征在于,所述确定模块,用于:
根据所述目标音频的音频数据和预设的相似音频确定模型,确定与所述目标音频满足预设相似条件的预设数目个音频的音频标识;
使用所述预设数目个音频的音频标识,确定与所述目标音频满足预设相似条件的预设数目个音频的bpm。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
训练模块,用于根据训练样本集和预设的初始相似音频确定模型,训练得到相似音频确定模型,其中,所述训练样本集中包括多个音频,以及每个音频对应的标定bpm。
10.根据权利要求6所述的装置,其特征在于,所述确定模块,用于:
获取与所述目标音频满足频谱信息相似条件的预设数目个音频的bpm。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811100284.6A CN109308910B (zh) | 2018-09-20 | 2018-09-20 | 确定音频的bpm的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811100284.6A CN109308910B (zh) | 2018-09-20 | 2018-09-20 | 确定音频的bpm的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109308910A CN109308910A (zh) | 2019-02-05 |
CN109308910B true CN109308910B (zh) | 2022-03-22 |
Family
ID=65225101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811100284.6A Active CN109308910B (zh) | 2018-09-20 | 2018-09-20 | 确定音频的bpm的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109308910B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111048111B (zh) * | 2019-12-25 | 2023-07-04 | 广州酷狗计算机科技有限公司 | 检测音频的节奏点的方法、装置、设备及可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102347022A (zh) * | 2010-08-02 | 2012-02-08 | 索尼公司 | 音乐速度检测装置、音乐速度检测方法和程序 |
CN106652981A (zh) * | 2016-12-28 | 2017-05-10 | 广州酷狗计算机科技有限公司 | Bpm检测方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8071869B2 (en) * | 2009-05-06 | 2011-12-06 | Gracenote, Inc. | Apparatus and method for determining a prominent tempo of an audio work |
JP6017687B2 (ja) * | 2012-06-29 | 2016-11-02 | ノキア テクノロジーズ オーユー | オーディオ信号分析 |
-
2018
- 2018-09-20 CN CN201811100284.6A patent/CN109308910B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102347022A (zh) * | 2010-08-02 | 2012-02-08 | 索尼公司 | 音乐速度检测装置、音乐速度检测方法和程序 |
CN106652981A (zh) * | 2016-12-28 | 2017-05-10 | 广州酷狗计算机科技有限公司 | Bpm检测方法及装置 |
Non-Patent Citations (1)
Title |
---|
改进的BPM音频节奏特征提取算法研究;吴昊等;《兰州文理学院学报(自然科学版)》;20180710(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109308910A (zh) | 2019-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8438013B2 (en) | Music-piece classification based on sustain regions and sound thickness | |
US7754958B2 (en) | Sound analysis apparatus and program | |
JP5732994B2 (ja) | 楽曲検索装置および方法、プログラム、並びに記録媒体 | |
US8193436B2 (en) | Segmenting a humming signal into musical notes | |
CN111369982A (zh) | 音频分类模型的训练方法、音频分类方法、装置及设备 | |
Benetos et al. | Polyphonic music transcription using note onset and offset detection | |
US20100332222A1 (en) | Intelligent classification method of vocal signal | |
Benetos et al. | Joint multi-pitch detection using harmonic envelope estimation for polyphonic music transcription | |
Dressler | Pitch estimation by the pair-wise evaluation of spectral peaks | |
US9804818B2 (en) | Musical analysis platform | |
CN110880329A (zh) | 一种音频识别方法及设备、存储介质 | |
US10249315B2 (en) | Method and apparatus for detecting correctness of pitch period | |
US20080262836A1 (en) | Pitch estimation apparatus, pitch estimation method, and program | |
EP2022041A1 (en) | Selection of tonal components in an audio spectrum for harmonic and key analysis | |
Kirchhoff et al. | Evaluation of features for audio-to-audio alignment | |
Mehrabi et al. | Similarity measures for vocal-based drum sample retrieval using deep convolutional auto-encoders | |
CN109308910B (zh) | 确定音频的bpm的方法和装置 | |
Subramanian et al. | Audio signal classification | |
Benetos et al. | Auditory spectrum-based pitched instrument onset detection | |
CN113593604A (zh) | 检测音频质量方法、装置及存储介质 | |
KR100974871B1 (ko) | 특징 벡터 선택 방법 및 장치, 그리고 이를 이용한 음악장르 분류 방법 및 장치 | |
CN114302301B (zh) | 频响校正方法及相关产品 | |
Marolt | Automatic transcription of bell chiming recordings | |
CN111599345B (zh) | 语音识别算法评估方法、系统、移动终端及存储介质 | |
Tang et al. | Melody Extraction from Polyphonic Audio of Western Opera: A Method based on Detection of the Singer's Formant. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |