CN111785237B - 音频节奏确定方法、装置、存储介质和电子设备 - Google Patents
音频节奏确定方法、装置、存储介质和电子设备 Download PDFInfo
- Publication number
- CN111785237B CN111785237B CN202010517839.8A CN202010517839A CN111785237B CN 111785237 B CN111785237 B CN 111785237B CN 202010517839 A CN202010517839 A CN 202010517839A CN 111785237 B CN111785237 B CN 111785237B
- Authority
- CN
- China
- Prior art keywords
- audio
- information
- rhythm
- confidence coefficient
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000033764 rhythmic process Effects 0.000 title claims abstract description 160
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000003860 storage Methods 0.000 title claims description 11
- 238000005259 measurement Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000009826 distribution Methods 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 230000004907 flux Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000001953 sensory effect Effects 0.000 description 3
- 238000009827 uniform distribution Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000013066 combination product Substances 0.000 description 1
- 229940127555 combination product Drugs 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 235000021251 pulses Nutrition 0.000 description 1
- 230000001020 rhythmical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/076—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02B—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
- Y02B20/00—Energy efficient lighting technologies, e.g. halogen lamps or gas discharge lamps
- Y02B20/40—Control techniques providing energy savings, e.g. smart controller or presence detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本申请提供了一种音频节奏确定方法、装置和电子设备,其中,方法包括:获取音频文件的多个音频特征;确定所述多个音频特征中每个音频特征对应的音频节奏信息;在所述每个音频特征对应的音频节奏信息中获取优选节奏信息,将所述优选节奏信息确定为所述音频文件的节奏信息。采用本申请实施例,可使最终确定的节奏信息较准确地表征出音频文件的节奏信息。
Description
技术领域
本申请涉及音频处理技术领域,具体而言,涉及一种音频节奏确定方法、装置、存储介质和电子设备。
背景技术
针对音频文件的节奏分析已被广泛的应用在与音视频相关的多个领域中。如对短视频拍摄的配乐进行节奏分析,可以创建出更具感官冲击的专场卡点视频。又如根据音频文件的节奏特性可对用户的手机乐库进行风格分类,并进行音乐推荐等。
发明内容
为了解决上述问题,本申请实施例提供了一种音频节奏确定方法、装置、存储介质和电子设备,可以较准确地识别出音频文件的节奏信息。
第一方面,本申请实施例提供了一种音频节奏确定方法,包括以下步骤:
获取音频文件的多个音频特征;
确定所述多个音频特征中每个音频特征对应的音频节奏信息;
在所述每个音频特征对应的音频节奏信息中获取优选节奏信息,将所述优选节奏信息确定为所述音频文件的节奏信息。
第二方面,本申请实施例提供了一种音频节奏确定装置,包括:
特征获取单元,用于获取音频文件的多个音频特征;
第一信息确定单元,用于确定所述多个音频特征中每个音频特征对应的音频节奏信息;
第二信息确定单元,用于在所述每个音频特征对应的音频节奏信息中获取优选节奏信息,将所述优选节奏信息确定为所述音频文件的节奏信息。
第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
第四方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项方法的步骤。
在本申请实施例中,获取音频文件的多个音频特征;确定所述多个音频特征中每个音频特征对应的音频节奏信息;在所述每个音频特征对应的音频节奏信息中获取优选节奏信息,将所述优选节奏信息确定为所述音频文件的节奏信息。较全面地考虑了基于多个音频特征的多个节奏信息,从多个节奏信息中选择出可较准确地对应于音频文件的优选节奏信息,并且以该优选节奏信息作为音频文件的节奏信息。因此,最终确定的节奏信息可较准确地表征出音频文件的节奏信息。
附图说明
图1为本申请实施例提供的一种音频节奏确定方法的流程示意图;
图2为本申请实施例提供的另一种音频节奏确定方法的流程示意图;
图3为本申请实施例提供的一种音频节奏确定方法的架构示意图;
图4为本申请实施例提供的一种计算音频节奏信息的互信息的方法示意图;
图5a为本申请实施例提供的一种时间误差的概率分布示意图;
图5b为本申请实施例提供的一种时间误差的概率分布示意图;
图6为本申请实施例提供的一种音频节奏的应用示意图;
图7为本申请实施例提供的一种音频节奏确定装置的结构示意图;
图8为本申请实施例所涉及的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请进行进一步的介绍。
在下述介绍中,术语“第一”、“第二”仅为用于描述的目的,而不能理解为指示或暗示相对重要性。下述介绍提供了本申请的多个实施例,不同实施例之间可以替换或者合并组合,因此本申请也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而,如果一个实施例包含特征A、B、C,另一个实施例包含特征B、D,那么本申请也应视为包括含有A、B、C、D的一个或多个所有其他可能的组合的实施例,尽管该实施例可能并未在以下内容中有明确的文字记载。
下面的描述提供了示例,并且不对权利要求书中阐述的范围、适用性或示例进行限制。可以在不脱离本申请内容的范围的情况下,对描述的元素的功能和布置做出改变。各个示例可以适当省略、替代或添加各种过程或组件。例如所描述的方法可以以所描述的顺序不同的顺序来执行,并且可以添加、省略或组合各种步骤。此外,可以将关于一些示例描述的特征组合到其他示例中。
可采用基于记录固有属性或是基于一定的音频特征对音频文件的节奏进行分析。但无论是基于记录固有属性的分析方式还是基于一定的音频特征分析的算法层面的分析方式都存在一定的问题。首先如果淡出只基于记录固有属性,在相对复杂的和弦或者旋律出现的时候,单纯的记录分析方式肯定达不到通过算法分析音频特征的稳定性,而对于基于单一音频特征来分析音频节奏特性的方式也会存在一定的问题,目前主要的问题是不同的特征来自不同的信息维度所以会对衡量得到的音频节奏特性精度有一定的影响,如何能从不同的信息维度中获取相对最准确衡量音频节奏特性的特征信息则是现有方法都没有考虑到的关键问题。
下面结合具体实施例进行说明。
参见图1,图1是本申请实施例提供的一种音频节奏确定方法的流程示意图,在本申请实施例中,所述方法包括:
S101、获取音频文件的多个音频特征。
音频特征用于表征音频文件的特征。音频特征包括但不限于:能量流(EnergyFlux,EF)、频谱变迁(Spectral Flux,SF)、复谱差(Complex Spectral Difference,CSD)及节拍强调函数(Beat Emphasis Function,BEF)。可根据不同音频文件的属性信息和需求选择音频特征。以下就以EF、SF、CSD及BEF这四个音频特征为例,进行介绍。
关于EF的计算方法:通过使用2048的窗口大小和512的hop-size(对应于11.6 ms的输入特征分辨率)计算短时傅立叶变换帧来计算。 其中,hop-size用于表征两个相邻窗口之间错开的样本数。hop-size越小,则说明时序解析度越高,计算成本也越高。hop-size通常为buffer-size的一半或四分之一。从这些帧中,将每个输入特征样本计算为当前短时傅立叶变换帧与其前身之间的均方根(RMS)值的差的大小,其中,Xn(k)为当前输入样本的短时傅里叶变换帧,Xn-1(k)为前一输入样本的短时傅里叶变换帧。EF的计算公式为:
关于SFX的计算方法:通过使用2048的窗口大小和512的hop size(对应于11.6 ms的输入特征分辨率)计算短时傅立叶变换(STFT)帧来计算的。 从这些帧中,每个输入特征样本被计算为在大小上当前STFT的每个频率仓变换帧和它的前身之间的正差的总和,其中,Xn(k)为当前输入样本的短时傅里叶变换帧,Xn-1(k)为前一输入样本的短时傅里叶变换帧。SFX的计算公式为:
关于CSD的计算方法:CSD 是通过对512个样本跃点大小的1024个样本帧进行短时傅立叶变换而得出的,分辨率为11.6 ms。 如果幅度或与预期相位值的偏差发生显着变化(与仅计算频率幅度变化的频谱通量不同),则此功能会产生较大的值。 是当前帧的预期目标幅度和相位,并且是根据前两个帧的值(假设幅度和相位变化率恒定)估算的。其中,Xn(k)为当前输入样本的短时傅里叶变换帧,Xn-1(k)为前一输入样本的短时傅里叶变换帧。CSD的计算公式为
关于BEF的计算方法: BEF定义为子带复谱差函数的加权组合,通过推导驱动子带节拍测量的20个子带起始检测函数的加权线性组合来强调信号的beats强度。BEF的计算公式为:
其中加权函数w(b)偏向具有突出周期性结构的sub-band,BEF是从具有1024个样本跃点大小的2048个样本帧的短时傅立叶变换中计算出来的,输出被内插为两倍,从而得到了11.6 ms的分辨率。
S102、确定所述多个音频特征中每个音频特征对应的音频节奏信息。
对音频文件的节奏分析通常意义上的对于每段音频的节奏感的自动识别。这其中的节奏感包含三种维度定位,第一种就是广义的节拍(BPM),是连续的时间点;第二种是重拍,是指音乐中能量最强的点,通常是电子舞曲音乐等现代音乐风格中比较常见的强特征,具有很强烈的听觉冲击;第三种是曲调的转换,一段音乐文件可以是很多不同的和弦的组合拼接的方式,如果把这些和谐转变的地方作为音乐的一种特性点来考虑也是目前比较流行的音乐特性分析的一种实例。具体结合产品应用场景有:短视频拍摄的配乐分析从而创造更具感官冲击的专场卡点视频,根据音乐的特性对用户的手机乐库进行风格分类,根据音乐特性分析用户的风格喜好并基于此进行音乐推荐。所以此类问题是世界上科研和产品领域都关注的热点问题。
如上分析,音频节奏信息可包括:广义的节拍信息、重拍信息、曲调的转换信息等。可通过多种方式,确定S101中获取的每个音频特征对应的音频节奏信息。如可采用Degara模型来进行对音频文件节拍进行周期估计和跟踪,以确定音频特征对应的音频节奏信息。本申请实施例对如何获取音频特征对应的音频节奏信息的实施方式不做限定。
S103、在所述每个音频特征对应的音频节奏信息中获取优选节奏信息,将所述优选节奏信息确定为所述音频文件的节奏信息。
可通过多种方式从多个音频节奏信息中选取优选节奏信息。如可将多个音频节奏信息应用到后续的音频节奏的相关应用中,评测效果较好的音频节奏信息作为优选节奏信息。还可以计算各音频节奏信息之间的关联参数,将与其它音频节奏信息都具有较好关联性的也能评节奏信息作为优选节奏信息。
可选地,S103可包括:
获取每个所述音频节奏信息对应的互信息度量值;
确定所述每个所述音频节奏信息对应的互信息度量值中的最大互信息度量值,将所述最大互信息度量值指示的音频节奏信息确定为所述优选节奏信息。
这里选择使用Mutual Agreement方案来评估每个音频特征得到的音频节奏信息去得到优选的音频节奏信息。本申请实施例中优选的音频节奏信息与最大的互信息值(Mutual Agreement,MA)相对应,即选取具有最大的MA对应的音频节奏信息作为优选信息。
可选地,所述获取每个所述音频节奏信息对应的互信息度量值,包括:
计算所述音频节奏信息中当前音频节奏信息与其余音频节奏信息之间的互信息值;
计算所述互信息值的第一平均值,将所述第一平均值作为所述当前音频节奏信息的目标互信息度量值,并生成包含所述目标互信息度量值的每个所述音频节奏信息对应的互信息度量值。
计算当前音频节奏信息与其余音频节奏信息之间的互信息值,并计算上述互信息值的第一平均值,将第一平均值作为当前音频节奏信息的目标互信息度量值。依次生成步骤S102中所有音频节奏信息对应的目标互信息度量值。将上述多个音频节奏信息的目标互信息度量值作为多个音频节奏信息的互信息度量值。目标互信息度量表征了音频节奏信息与其它音频节奏信息之间的关联程度。可选取具有最大的目标互信息度量对应的音频节奏信息作为优选音频节奏信息。
本申请实施例提供的音频节奏确定方法,可综合地考虑了基于多个音频特征的多个节奏信息,从多个节奏信息中选择出可较准确地对应于音频文件的优选节奏信息,并且以该优选节奏信息作为音频文件的节奏信息。因此,最终确定的节奏信息可较准确地表征出音频文件的节奏信息。
图2为本申请实施例提供的另一种音频节奏确定方法的流程示意图,在本申请实施例中,所述方法包括:
S201、获取音频文件的多个音频特征。
S202、确定所述多个音频特征中每个音频特征对应的音频节奏信息。
S203、计算每个音频节奏信息对应的互信息度量值的第二平均值,将所述第二平均值确定为节奏检测的置信度。
每个音频节奏信息对应的互信息度量值的第二平均值,可用于表征音频节奏信息的准确程度。一般地,如果第二平均值较大,则说明节奏信息的准确程度较好。如果第二平均值较小,则说明节奏信息的准确程度较差。通过将计算第二平均值可评价确定的节奏信息的准确程度。
S204、若所述置信度大于或者等于所述第一置信度阈值,确定所述每个所述音频节奏信息对应的互信息度量值中的最大互信息度量值。
可选地,S204可包括:
若所述置信度大于或者等于所述第一置信度阈值且小于第二置信度阈值,将所述多个音频特征识别为第一准确度级别,并确定所述每个所述音频节奏信息对应的互信息度量值中的最大互信息度量值,所述第二置信度阈值大于所述第一置信度阈值;
若所述置信度大于或者等于所述第二置信度阈值且小于第三置信度阈值,将所述多个音频特征识别为第二准确度级别,并确定所述每个所述音频节奏信息对应的互信息度量值中的最大互信息度量值,所述第三置信度阈值大于所述第二置信度阈值。
上述第一置信度阈值、第二置信度阈值和第三置信度阈值可由技术人员直接在系统中进行设定,也可由相关人员根据经验值进行设定。如果所述置信度大于或者等于所述第一置信度阈值,则说明获取到的音频节奏信息较准确,并确定所述每个所述音频节奏信息对应的互信息度量值中的最大互信息度量值对应的音频节奏信息作为目标节奏信息。
S205、若所述置信度小于所述第一置信度阈值,则重新执行S201的步骤。
可选地,S205可包括:
若所述置信度小于所述第一置信度阈值且大于或者等于第四置信度阈值,将所述多个音频特征识别为第三准确度级别,并执行所述获取音频文件的多个音频特征的步骤,所述第四置信度阈值小于所述第二置信度阈值;
若所述置信度小于所述第四置信度阈值且大于或者等于第五置信度阈值,将所述多个音频特征识别为第四准确度级别,并执行所述获取音频文件的多个音频特征的步骤,所述第五置信度阈值小于所述第四置信度阈值。
上述第一置信度阈值、第四置信度阈值和第五置信度阈值可由技术人员直接在系统中进行设定,也可由相关人员根据经验值进行设定。如果所述置信度小于所述第一置信度阈值,则说明获取到的音频节奏信息的准确性较差,需要重新上述步骤S201。
需要说明的是,可选取不同的参数来重新执行上述步骤S201。可选取的参数包括窗口大小、输入特征分辨率等。通过不同的参数重新执行步骤S201,可得到不同的音频特征,进而确定不同的音频节奏信息,再通过计算音频节奏信息的置信度重新进行估算。如此,循环估算直到得到预期的置信度为止。
本申请实施例提供的音频节奏确定方法,在确定优选节奏信息的同时,还通过计算每个音频节奏信息对应的互信息度量值的平均值,来作为优选音频节奏信息对应的置信度,并通过置信度评估优选节奏信息的准确程度。因此,本申请实施例提供了一种可用于评估最终确定的节奏信息准确程度的方案,并在置信度较小的情况下,可重新确定节奏信息,使最终确定的节奏信息较准确。
本申请实施例提供的音频节奏确定方法,对音乐节奏的分析基于多种对音频在频域特征提取的算法,然后基于时间维度分析得到对应的节奏点。而检索则更多的强调记录音乐文件的固有属性,不涉及更多的算法层面的分析。
图3为本申请实施例提供的一种音频节奏确定方法的架构示意图。如图3所示,本申请实施例提供的音频节奏确定方法包括:步骤1.多音频特性(onset detectionfunction,ODF)的提取。步骤2. 对每个ODF做节拍的周期估计和节拍跟踪。步骤3. 从上述各种ODF方法估计的节拍中进行最优选择得到最后的结果。步骤 4. 通过视频合成技术(Moivepy和ffmpeg)合成应用视频。
步骤1.多ODF的提取。
音频的特性分析主要基于对多特征的提取来估计节拍的具体位置。多音频特征可包括:Energy Flux、Spectral Flux、Complex Spectral Difference及Beat EmphasisFunction等。具体计算方法可参见上述图1中步骤S101中的介绍,在此不再赘述。
步骤2.对每个ODF做节拍的周期估计和节拍跟踪。
对于每种ODF这里选择了Degara 模型的beat tracking模型来进行对节拍的周期估计和跟踪。Degara模型的核心是一个概率框架,该框架以ODF(用于确定节拍位置的相位)作为输入去估计节拍的周期性(表示整个时间的主要节拍周期(或拍速))。这里就是对每一种ODF进行了节拍的估计。
步骤3. 从上述各种ODF方法估计的节拍中进行最优选择得到最后的结果。
这里选择使用Mutual Agreement方案来评估每个ODF得到的节拍去得到最优的节拍通道。本申请实施例中最优的节拍通道与最大的互信息值(MA)相对应。例如对N个节拍评估,Ai,j为第i个节拍和第j个节拍之间的互信息值,每两个之间求MAij公式如下:
这里还计算了对N个MAi的平均MMA(Mean Mutual Agreement)。图4为本申请实施例提供的一种计算音频节奏信息的互信息的方法示意图。
而评价的标准是当MMA大于1.5bits时,选择具有MaxMA的算法被认为节拍检测的较好,而MMA小于1bits时,则认为节拍检测差。具体的算法分为如下三个过程:
A. 计算两个节拍之间的时间误差(time error)。
其中,b、j分别代表两个节拍序列,第一个公式代表b节拍到最近的j节拍之间的时间误差。
第二个公式代表j节拍到最近的b节拍之间的时间误差。
B. 根据时间误差求两个时间误差的概率分布,可以用直方图直观的表示。图5a和图5b为本申请实施例提供的时间误差的概率分布示意图。如图5a、图5b和分析可知,将直方图分成40个部分时,对于至少30s的音乐能够获得较好的概率分布估计。
C. 计算信息增益。
如果两个节拍的分布完全一致,则节奏误差直方图上的结果会是一个脉冲函数。反之,如果两个节拍完全不相关则会呈现出均匀分布。
用两个节奏的误差直方图和均匀分布之间的KL散度(相对熵)作为评价指标。 计算公式如下所示。
其中可取K=40。若该信息增益越小信息,则说明分布越符合均匀分布,则两个节拍越不相似。MMA代表了节拍检测的置信度,由于K=40,所以MMA值的范围在0到log2(40)之间,即0到5.32之间。
对音频节奏识别有相关的评价指标Mean Mutual Agreement (MMA)或理解为置信度来评价节拍的准确程度。详细的算法会在后文中提到,这里给出置信度的评价范围。置信度的范围0到5.32之间。节拍的检测分为如下四个级别。
1级:置信度属于[0,1),则说明卡点效果极差。
2级:置信度属于[1,1.5),则说明卡点效果一般。
3级:置信度属于[1.5,3.5),则说明卡点效果好。
4级:置信度属于[3.5,5.32),则说明卡点效果很好。
步骤4. 通过视频合成技术合成应用视频。
本技术方案可以有效的分析出音频文件的节奏特性且基于多种信息维度,相对来说是全面的考虑了基于不同音频文件的多种信息维度,并且是根据所提出的信息维度选择了最合适对应音频文件的衡量方式来获取节奏特性。
图6为本申请实施例提供的一种音频节奏的应用示意图。如图6所示,音频节奏的应用的主要步骤为:1.音频节拍提取。提取音频节奏的音频可以是用户自行上传音乐和乐库已有音乐。如为用户自行上传的本地音乐,则上传结束后自动提取上传音乐的特征。如为乐库已用音乐,则无需执行本地音乐上传自动提取特征的步骤。本地音乐上传自动提取特征的外框采用虚线框,表明该步骤可以省略。2. 图片或视频卡入(用户可以基于不同的音频特性或者特性卡入策略进行卡入,素材可分为图片数据或者剪辑好的视频素材)。系统也可根据视频标记,进行同风格音频乐库推荐,即将与音频相同或类似风格的音频推荐给用户。根据音频标签的同风格音频乐库推荐的外框采用虚线框,表明该步骤可以省略。3. 将卡点结果输出。系统可根据不同的音频特性或特征玩法,确定视频的卡入策略,将视频根据音频的节奏特征进行输出。
本申请实施例得到的音频节奏信息可被作为多种使用维度,首先用户可以基于此节奏点进行多段视频的合成出具有在节奏点转场的强感官冲击视频玩法,其次基于节奏等音频特性的分析可以对现行的乐曲进行有效的风格定位,从而可以达到对乐库自动分类和音乐类app进行推荐的任务目标。
基于短期目标后续迭代会有几个阶段:1.当智能视频内容提取分析成熟之后可以加入与现行的音频卡点分析合并;2. 音乐风格分析,为之后的视频配乐推荐系统做准备;3. 如果乐库不存在用户需求的音乐数据而需要上传时,具备对音乐内容强调提取的能力。
本申请实施例的技术方案的核心的创新可以分为以下的三点:
提供了基于多种音频特征的多维度信息提取的方案,分析更具有广泛性和信服力并具有很强的泛化能力;提出的算法模型可以对多种特征进行评估,从而选择出最合适于任务的特征信息解决任务,这样进一步增加了模型的泛化能力并且提高了音频节奏分析的准确性;提出的算法模型给出了置信度这个指标来衡量最终输出算法的准确与不准确,这给出了相对客观的评估指标对节奏分析的准确与否。请参见图7,图7是本申请实施例提供的一种音频节奏确定装置的结构示意图,如图7所示,所示音频节奏确定装置包括:
特征获取单元701,用于获取音频文件的多个音频特征;
第一信息确定单元702,用于确定所述多个音频特征中每个音频特征对应的音频节奏信息;
第二信息确定单元703,用于在所述每个音频特征对应的音频节奏信息中获取优选节奏信息,将所述优选节奏信息确定为所述音频文件的节奏信息。
可选地,所述第二信息确定单元703具体用于:
获取每个所述音频节奏信息对应的互信息度量值;
确定所述每个所述音频节奏信息对应的互信息度量值中的最大互信息度量值,将所述最大互信息度量值指示的音频节奏信息确定为所述优选节奏信息。
可选地,所述第二信息确定单元703具体用于:
计算所述音频节奏信息中当前音频节奏信息与其余音频节奏信息之间的互信息值;
计算所述互信息值的第一平均值,将所述第一平均值作为所述当前音频节奏信息的目标互信息度量值,并生成包含所述目标互信息度量值的每个所述音频节奏信息对应的互信息度量值。
可选地,所述第二信息确定单元703具体用于:
计算每个所述音频节奏信息对应的互信息度量值的第二平均值,将所述第二平均值确定为节奏检测的置信度;
若所述置信度大于或者等于所述第一置信度阈值,确定所述每个所述音频节奏信息对应的互信息度量值中的最大互信息度量值。
可选地,所述第二信息确定单元703具体用于:
若所述置信度大于或者等于所述第一置信度阈值且小于第二置信度阈值,将所述多个音频特征识别为第一准确度级别,并确定所述每个所述音频节奏信息对应的互信息度量值中的最大互信息度量值,所述第二置信度阈值大于所述第一置信度阈值;
若所述置信度大于或者等于所述第二置信度阈值且小于第三置信度阈值,将所述多个音频特征识别为第二准确度级别,并确定所述每个所述音频节奏信息对应的互信息度量值中的最大互信息度量值,所述第三置信度阈值大于所述第二置信度阈值。
可选地,所述第二信息确定单元703具体用于:
若所述置信度小于所述第一置信度阈值,则执行所述获取音频文件的多个音频特征的步骤。
可选地,所述第二信息确定单元703具体用于:
若所述置信度小于所述第一置信度阈值且大于或者等于第四置信度阈值,将所述多个音频特征识别为第三准确度级别,并执行所述获取音频文件的多个音频特征的步骤,所述第四置信度阈值小于所述第二置信度阈值;
若所述置信度小于所述第四置信度阈值且大于或者等于第五置信度阈值,将所述多个音频特征识别为第四准确度级别,并执行所述获取音频文件的多个音频特征的步骤,所述第五置信度阈值小于所述第四置信度阈值。
本领域的技术人员可以清楚地了解到本申请实施例的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件,其中硬件例如可以是 FPGA(Field-Programmable Gate Array,现场可编程门阵列)、IC(Integrated Circuit,集成电路)等。
本申请实施例的各处理单元和/或模块,可通过实现本申请实施例所述的功能的模拟电路而实现,也可以通过执行本申请实施例所述的功能的软件而实现。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述音频节奏确定方法的步骤。其中,计算机可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC),或适合于存储指令和/或数据的任何类型的媒介或设备。
参见图8,其示出了本申请实施例所涉及的一种电子设备的结构示意图,该电子设备可以用于实施上述实施例中提供的音频节奏确定方法。具体来讲:
存储器1020可用于存储软件程序以及模块,处理器1080通过运行存储在存储器1020的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端设备的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器1020还可以包括存储器控制器,以提供处理器1080和输入单元1030对存储器1020的访问。
输入单元1030可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元1030可包括触敏表面1031(例如:触摸屏、触摸板或触摸框)。触敏表面1031,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面1031上或在触敏表面1031附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面1031可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面1031。
显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及终端设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1040可包括显示面板1041,可选的,可以采用LCD(LiquidCrystalDisplay,液晶显示器)、OLED(OrganicLight-EmittingDiode,有机发光二极管)等形式来配置显示面板1041。进一步的,触敏表面1031可覆盖显示面板1041,当触敏表面1031检测到在其上或附近的触摸操作后,传送给处理器1080以确定触摸事件的类型,随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然触敏表面1031与显示面板1041可以作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面1031与显示面板1041集成而实现输入和输出功能。
处理器1080是终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分,通过运行或执行存储在存储器1020内的软件程序和/或模块,以及调用存储在存储器1020内的数据,执行终端设备的各种功能和处理数据,从而对终端设备进行整体监控。可选的,处理器1080可包括一个或多个处理核心;其中,处理器1080可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1080中。
具体在本实施例中,终端设备的显示单元是触摸屏显示器,终端设备还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含实现上述音频节奏确定方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上介绍仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.一种音频节奏确定方法,其特征在于,所述方法包括:
获取音频文件的多个音频特征,所述音频特征包括能量流;
确定所述多个音频特征中每个音频特征对应的音频节奏信息,所述音频节奏信息包括连续的时间点;
计算每个所述音频节奏信息中当前音频节奏信息与其余音频节奏信息之间的互信息值;
计算所述互信息值的第一平均值,将所述第一平均值作为所述当前音频节奏信息的目标互信息度量值,将所述当前音频节奏信息的目标互信息度量值作为所述每个音频节奏信息对应的互信息度量值;
确定所述每个所述音频节奏信息对应的互信息度量值中的最大互信息度量值;
将所述最大互信息度量值指示的音频节奏信息确定为优选节奏信息;
将所述优选节奏信息确定为所述音频文件的节奏信息。
2.根据权利要求1所述的方法,其特征在于,所述确定所述每个所述音频节奏信息对应的互信息度量值中的最大互信息度量值,包括:
计算每个所述音频节奏信息对应的互信息度量值的第二平均值,将所述第二平均值确定为节奏检测的置信度;
若所述置信度大于或者等于第一置信度阈值,确定所述每个所述音频节奏信息对应的互信息度量值中的最大互信息度量值。
3.根据权利要求2所述的方法,其特征在于,所述若所述置信度大于或者等于所述第一置信度阈值,确定所述每个所述音频节奏信息对应的互信息度量值中的最大互信息度量值,包括:
若所述置信度大于或者等于所述第一置信度阈值且小于第二置信度阈值,将所述多个音频特征识别为第一准确度级别,并确定所述每个所述音频节奏信息对应的互信息度量值中的最大互信息度量值,所述第二置信度阈值大于所述第一置信度阈值;
若所述置信度大于或者等于所述第二置信度阈值且小于第三置信度阈值,将所述多个音频特征识别为第二准确度级别,并确定所述每个所述音频节奏信息对应的互信息度量值中的最大互信息度量值,所述第三置信度阈值大于所述第二置信度阈值。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若所述置信度小于所述第一置信度阈值,则执行所述获取音频文件的多个音频特征的步骤。
5.根据权利要求4所述的方法,其特征在于,所述若所述置信度小于所述第一置信度阈值,则执行所述获取音频文件的多个音频特征的步骤,包括:
若所述置信度小于所述第一置信度阈值且大于或者等于第四置信度阈值,将所述多个音频特征识别为第三准确度级别,并执行所述获取音频文件的多个音频特征的步骤,所述第四置信度阈值小于所述第二置信度阈值;
若所述置信度小于所述第四置信度阈值且大于或者等于第五置信度阈值,将所述多个音频特征识别为第四准确度级别,并执行所述获取音频文件的多个音频特征的步骤,所述第五置信度阈值小于所述第四置信度阈值。
6.一种音频节奏确定装置,其特征在于,所述装置包括:
特征获取单元,用于获取音频文件的多个音频特征,所述音频特征包括能量流;
第一信息确定单元,用于确定所述多个音频特征中每个音频特征对应的音频节奏信息,所述音频节奏信息包括连续的时间点;
第二信息确定单元,用于计算每个所述音频节奏信息中当前音频节奏信息与其余音频节奏信息之间的互信息值;计算所述互信息值的第一平均值,将所述第一平均值作为所述当前音频节奏信息的目标互信息度量值,将所述当前音频节奏信息的目标互信息度量值作为所述每个音频节奏信息对应的互信息度量值;确定所述每个所述音频节奏信息对应的互信息度量值中的最大互信息度量值;将所述最大互信息度量值指示的音频节奏信息确定为优选节奏信息;将所述优选节奏信息确定为所述音频文件的节奏信息。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现所述权利要求1-5中任一项所述方法的步骤。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现所述权利要求1-5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010517839.8A CN111785237B (zh) | 2020-06-09 | 2020-06-09 | 音频节奏确定方法、装置、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010517839.8A CN111785237B (zh) | 2020-06-09 | 2020-06-09 | 音频节奏确定方法、装置、存储介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111785237A CN111785237A (zh) | 2020-10-16 |
CN111785237B true CN111785237B (zh) | 2024-04-19 |
Family
ID=72753600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010517839.8A Active CN111785237B (zh) | 2020-06-09 | 2020-06-09 | 音频节奏确定方法、装置、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111785237B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590872B (zh) * | 2021-07-28 | 2023-11-28 | 广州艾美网络科技有限公司 | 跳舞谱面生成的方法、装置以及设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008275975A (ja) * | 2007-05-01 | 2008-11-13 | Kawai Musical Instr Mfg Co Ltd | リズム検出装置及びリズム検出用コンピュータ・プログラム |
CN102754147A (zh) * | 2009-10-30 | 2012-10-24 | 杜比国际公司 | 复杂度可缩放的感知节拍估计 |
CN108319657A (zh) * | 2018-01-04 | 2018-07-24 | 广州市百果园信息技术有限公司 | 检测强节奏点的方法、存储介质和终端 |
CN109256147A (zh) * | 2018-10-30 | 2019-01-22 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频节拍检测方法、装置及存储介质 |
CN109670074A (zh) * | 2018-12-12 | 2019-04-23 | 北京字节跳动网络技术有限公司 | 一种节奏点识别方法、装置、电子设备及存储介质 |
CN110688518A (zh) * | 2019-10-12 | 2020-01-14 | 广州酷狗计算机科技有限公司 | 节奏点的确定方法、装置、设备及存储介质 |
CN110890083A (zh) * | 2019-10-31 | 2020-03-17 | 北京达佳互联信息技术有限公司 | 音频数据的处理方法、装置、电子设备及存储介质 |
CN111223491A (zh) * | 2020-01-22 | 2020-06-02 | 深圳市倍轻松科技股份有限公司 | 一种提取音乐信号主旋律的方法、装置及终端设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10123366C1 (de) * | 2001-05-14 | 2002-08-08 | Fraunhofer Ges Forschung | Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen |
-
2020
- 2020-06-09 CN CN202010517839.8A patent/CN111785237B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008275975A (ja) * | 2007-05-01 | 2008-11-13 | Kawai Musical Instr Mfg Co Ltd | リズム検出装置及びリズム検出用コンピュータ・プログラム |
CN102754147A (zh) * | 2009-10-30 | 2012-10-24 | 杜比国际公司 | 复杂度可缩放的感知节拍估计 |
CN108319657A (zh) * | 2018-01-04 | 2018-07-24 | 广州市百果园信息技术有限公司 | 检测强节奏点的方法、存储介质和终端 |
CN109256147A (zh) * | 2018-10-30 | 2019-01-22 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频节拍检测方法、装置及存储介质 |
CN109670074A (zh) * | 2018-12-12 | 2019-04-23 | 北京字节跳动网络技术有限公司 | 一种节奏点识别方法、装置、电子设备及存储介质 |
CN110688518A (zh) * | 2019-10-12 | 2020-01-14 | 广州酷狗计算机科技有限公司 | 节奏点的确定方法、装置、设备及存储介质 |
CN110890083A (zh) * | 2019-10-31 | 2020-03-17 | 北京达佳互联信息技术有限公司 | 音频数据的处理方法、装置、电子设备及存储介质 |
CN111223491A (zh) * | 2020-01-22 | 2020-06-02 | 深圳市倍轻松科技股份有限公司 | 一种提取音乐信号主旋律的方法、装置及终端设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111785237A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11715446B2 (en) | Music classification method and beat point detection method, storage device and computer device | |
JP6017687B2 (ja) | オーディオ信号分析 | |
EP2816550B1 (en) | Audio signal analysis | |
JP4640407B2 (ja) | 信号処理装置、信号処理方法及びプログラム | |
EP2854128A1 (en) | Audio analysis apparatus | |
EP2845188B1 (en) | Evaluation of downbeats from a musical audio signal | |
CN104978962B (zh) | 哼唱检索方法及系统 | |
US8069036B2 (en) | Method and apparatus for processing audio for playback | |
US11354355B2 (en) | Apparatus, method, and computer-readable medium for cue point generation | |
EP1615204A1 (en) | Method for classifying music | |
WO2017165825A1 (en) | Transitions between media content items | |
US8620646B2 (en) | System and method for tracking sound pitch across an audio signal using harmonic envelope | |
CN110335625A (zh) | 背景音乐的提示及识别方法、装置、设备以及介质 | |
US8885841B2 (en) | Audio processing apparatus and method, and program | |
US20060155399A1 (en) | Method and system for generating acoustic fingerprints | |
CN104050972A (zh) | 声音信号分析设备以及声音信号分析方法和程序 | |
GB2533654A (en) | Analysing audio data | |
WO2015114216A2 (en) | Audio signal analysis | |
WO2011009946A1 (en) | A method and an apparatus for deriving information from an audio track and determining similarity between audio tracks | |
CN111785237B (zh) | 音频节奏确定方法、装置、存储介质和电子设备 | |
JP6729515B2 (ja) | 楽曲解析方法、楽曲解析装置およびプログラム | |
JP5395399B2 (ja) | 携帯端末、拍位置推定方法および拍位置推定プログラム | |
US20180173400A1 (en) | Media Content Selection | |
WO2016102738A1 (en) | Similarity determination and selection of music | |
Foster et al. | Sequential complexity as a descriptor for musical similarity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |